当前位置: 首页 > news >正文

做网站需要投入多少钱百度广告推广

做网站需要投入多少钱,百度广告推广,天津网站建设zhy88,沈阳专业网站建设企业在这里,我总结了本次项目的数据收集过程中遇到的反爬虫策略以及一些爬虫过程中容易出现问题的地方。 user-agent 简单的设置user-agent头部为浏览器即可: 爬取标签中带href属性的网页 对于显示岗位列表的页面,通常检查其源代码就会发现&…

在这里,我总结了本次项目的数据收集过程中遇到的反爬虫策略以及一些爬虫过程中容易出现问题的地方。

user-agent

简单的设置user-agent头部为浏览器即可:
在这里插入图片描述

爬取标签中带href属性的网页

对于显示岗位列表的页面,通常检查其源代码就会发现,相应的标签处存在一个a标签,其中存在href属性值:
在这里插入图片描述
于是可以选择,爬取出该网页中的所有的href属性,再依次对href属性中的所有的网址进行爬取,

current_job_links=browser.find_elements(by=By.XPATH,value='//li[@class="border-top"]//a[@target="_blank"]')
for link in current_job_links:job_path = link.get_attribute("href")job_url = urljoin(self.base_url, job_path)job_links.append(job_url)

爬取使用js跳转的网页,进行选型卡管理

现在好多都是不存在href,而是使用javascript进行跳转,也就是点击卡片之后会新开一个选项卡,因此这里要使用selenium的选项卡管理来实现browser的url变化,从而获得新打开页面的url(如果不切换选项卡,即使模拟单击了卡片,也不能对打开的页面进行爬虫)
重点在于一定要记得切换选项卡!!

for card_element in card_elements:# 单击卡片元素browser.execute_script("arguments[0].click();",card_element)# 等待新页面加载完成wait.until(EC.number_of_windows_to_be(2))# 切换到新的窗口browser.switch_to.window(browser.window_handles[1])# 获取新页面的URLcurrent_url2 = browser.current_urlcurrent_url_list.append(current_url2)browser.close()

分页爬取

url变化实现换页

大部分网页都是通过url的变化实现翻页的:
在这里插入图片描述
因此只需要修改相应网址的pageNo即可,

if self.page < 100:self.page += 1# 换urlurl = 'https://zhaopin.meituan.com/web/position?hiringType=2_6&pageNo=' +str(self.page)#再次调用爬虫yield scrapy.Request(url=url, callback=self.parse, dont_filter=True)time.sleep(3)  # 设置3秒间隔

换页url不变

使用selenium模拟浏览器点击下一页按钮。所以需要在网页中定位到”下一页“按钮的位置

next_button = browser.find_element(by=By.XPATH,value='//[@id="target_list"]/div/div[2]/div[3]/button[2]')
if not next_button.is_enabled():break
browser.execute_script("arguments[0].click();", next_button)

同时注意判断停止条件,当按钮不可用时表示到达最后

登录问题

在爬取京东招聘时需要首先进行登录
使用如下代码实现模拟登陆:
在这里插入图片描述

http://www.mmbaike.com/news/44953.html

相关文章:

  • 客户管理系统crm人教版优化设计电子书
  • html查询网站制作培训机构退费纠纷一般怎么解决
  • 利用vps做网站查询网入口
  • 做网站必要吗百度推广有效果吗?
  • 定州网站建设开发网站的公司
  • wordpress一栏多图北京优化seo排名优化
  • 合肥商城网站建设多少钱网络营销环境分析包括哪些内容
  • 建立网站专栏今天有哪些新闻
  • 做网站虚拟主机推荐什么是电商平台推广
  • 做趣味图形的网站成都最新疫情
  • wordpress免登录发文章seo整站网站推广优化排名
  • 第三次网站建设的通报网络营销推广外包服务
  • 怎么可以自己做网站被百度收到如何注册网站平台
  • 悉知网站建设鸿星尔克网络营销
  • 怎样做网站建设的程序手机端网站优化
  • 阿里云免费企业邮箱申请德州网站建设优化
  • 建设国家地质公园网站主要功能中牟网络推广外包
  • 月嫂网站建设方案互联网广告销售是做什么的
  • 奶茶店做网站好处抖音十大搜索关键词
  • 网站接电话win7系统优化
  • 合肥建设网站查询网销怎么做才能做好
  • 凡科建设网站怎么保存站长工具5g
  • 网站弹窗代码网店营销策划方案
  • 网站为什么做301晚上国网app
  • 绵阳网站建设怎么做适合企业员工培训的课程
  • sogo提交网站入口百度电商平台
  • 宜昌网站制作嘉兴seo外包平台
  • 怎么用网吧电脑做网站服务器吗互联网营销师培训课程免费
  • 常州 网站优化代运营公司怎么找客户
  • 外贸网站推广建设百度代理加盟