当前位置: 首页 > news >正文

男女做那些事免费网站商品关键词优化的方法

男女做那些事免费网站,商品关键词优化的方法,婚庆公司创业计划书,绥化网站建设由于今日头条网页是动态渲染,再加上各种token再验证,因此直接通过API接口获取数据难度很大,本文使用selenium来实现新闻内容爬取。 selenium核心代码 知识点: 代码中加了很多的异常处理,保证错误后重试,…

由于今日头条网页是动态渲染,再加上各种token再验证,因此直接通过API接口获取数据难度很大,本文使用selenium来实现新闻内容爬取。

selenium核心代码

知识点:

  • 代码中加了很多的异常处理,保证错误后重试,提高稳定性
  • EdgeChromiumDriverManager().install()自动下载浏览器驱动,避免浏览器更新后驱动版本不对的问题
  • 使用driver.refresh()driver.close()driver.quit()防止占用内存过多
  • 使用--disable-extensions禁用插件,避免插件可能带来的影响
  • 使用--inprivate打开无痕模式,这里遇到一个很烦的问题,用户登录同步问题,无痕模式可以避免
    在这里插入图片描述
from webdriver_manager.microsoft import EdgeChromiumDriverManagerdef get_html_by_selenium(url):print("开始:", url)options = webdriver.EdgeOptions()# 启用'禁用浏览器正在被自动化程序控制的提示'启动参数options.add_experimental_option("excludeSwitches", ["enable-automation"])# 禁用插件options.add_argument("--disable-extensions")# 无痕模式options.add_argument('--inprivate')count = 0driver = Nonewhile count < 10:try:driver = webdriver.Edge(service=Service(executable_path=EdgeChromiumDriverManager().install()),options=options)# 最小化driver.minimize_window()time.sleep(1)driver.get(url)breakexcept WebDriverException as e:print(e)count += 1time.sleep(3)continueexcept ConnectionError as e:print(e)count += 1time.sleep(3)continueif driver is None:returntime.sleep(10)try:html = driver.page_source# 防止内存泄露driver.refresh()try:driver.close()except WebDriverException:passdriver.quit()return htmlexcept NoSuchWindowException:return

新闻列表解析代码

URL示例:

https://www.toutiao.com/c/user/token/MS4wLjABAAAA6Ftyf-tftfbjp1u_TEz6kpY77ZlPaYRV0UsfXkF2UsM/?tab=article

这里比较简单,拿到了新闻标题和url,HTML解析过程中可能遇到浏览器中渲染的html结构和真实请求到的html结构不一样,要以真实拿到的html内容为准

url = f"https://www.toutiao.com/c/user/token/{USER_TOKEN}/?tab=article"
html = get_html_by_selenium(url)
soup = BeautifulSoup(html, "html.parser")for article in soup.find_all("div", attrs={"class": "profile-article-card-wrapper"}):a = article.find("a")news_title = a["title"]url = a["href"]content, news_time = parse_and_save_news(url)

新闻内容解析代码

相对比较简单,忽略了图片的解析,最终获得新闻的内容和新闻时间

def parse_and_save_news(url):html = get_html_by_selenium(url)if not html:returnsoup = BeautifulSoup(html, "html.parser")article_content = soup.find("div", attrs={"class": "article-content"})if article_content is None:returnarticle_meta = soup.find("div", attrs={"class": "article-meta"})time_string = article_meta.find("span", attrs=None).textnews_time = datetime.strptime(time_string, "%Y-%m-%d %H:%M")article = article_content.articlenew_soup = BeautifulSoup("<html><body></body></html>", "html.parser")body = new_soup.bodyfor p in article.find_all("p"):body.append(BeautifulSoup(f"<p>{p.text}</p>", "html.parser"))content = new_soup.prettify()return content, news_time
http://www.mmbaike.com/news/51970.html

相关文章:

  • excel免费模板网站上海最新新闻事件今天国内
  • 一个服务器如何建设多个网站seo费用价格
  • 合肥网站建设哪家好网络广告代理
  • 深圳做专业网站百度的特点和优势
  • 网站建设英文方案百度动态排名软件
  • 临沧市住房和城乡建设网站黄页88网站推广效果
  • 6人小组logo设计网站seo优化工具
  • 汕头制作手机网站电商网站建设价格
  • 企业营销型网站seo推广口碑营销的步骤
  • 佛山网站建设公司排名网络营销就是
  • wordpress 整站sslgoogle seo教程
  • 一级a做爰片_相关网站如何进行网站性能优化?
  • win7 iis默认网站设置什么是sem
  • 精品课程网站怎么做公司网页制作教程
  • 找人做网站要拿到源代码吗seo推广网址
  • html5网站是用什么软件做的吗友链交易
  • 顺德高端网站建设网址链接
  • 网站设计风格及特点google chrome官网
  • 做一手楼房的网站做网站优化哪家公司好
  • 郑州市重点项目建设办公室网站软件开发网站
  • 手机网站自动跳转代码seo sem论坛
  • 拉萨网站建设多少钱醴陵网站制作
  • 内蒙做网站快速优化seo软件
  • 什么做自己的网站 应招聘人才百度推广联系人
  • 凡科网做的网站能直接用吗关键字c语言
  • 网站建设与管理综合实践怎么做推广让别人主动加我
  • 做网站用注册公司吗青岛网站建设公司排名
  • 网站图标怎么做的百度有效点击软件
  • 柳州正规网站制作北京网站优化对策
  • 电子政务门户网站建设镇江seo