当前位置: 首页 > news >正文

太原企业网站seo西安seo技术

太原企业网站seo,西安seo技术,好sf123网站,wordpress价钱github项目--crawl4ai 输出html输出markdown格式输出结构化数据与BeautifulSoup的对比 crawl4ai github上这个项目,没记错的话,昨天涨了3000多的star,今天又新增2000star。一款抓取和解析工具,简单写个demo感受下 这里我们使用cra…

github项目--crawl4ai

    • 输出html
    • 输出markdown格式
    • 输出结构化数据
    • 与BeautifulSoup的对比

crawl4ai github上这个项目,没记错的话,昨天涨了3000多的star,今天又新增2000star。一款抓取和解析工具,简单写个demo感受下

这里我们使用crawl4ai抓取github每日趋势,每天通过邮件发到自己邮箱

输出html

async def github_trend_html():async with AsyncWebCrawler(verbose=True) as crawler:result = await crawler.arun(url="https://github.com/trending",)assert result.success, "github 数据抓取失败"return result.cleaned_html

输出的还是html,但对原始页面做了处理,比如移除不相关元素,动态元素,简化html结构。

在这里插入图片描述

输出markdown格式

async def github_trend_md():async with AsyncWebCrawler(verbose=True) as crawler:result = await crawler.arun(url="https://github.com/trending",)assert result.success, "github 数据抓取失败"return result.markdown

用md软件打开看一下效果:

在这里插入图片描述

输出结构化数据

async def github_trend_json():schema = {"name": "Github trending","baseSelector": ".Box-row","fields": [{"name": "repository","selector": ".lh-condensed a[href]","type": "text",},{"name": "description","selector": "p","type": "text",},{"name": "lang","type": "text","selector": "span[itemprop='programmingLanguage']",},{"name": "stars","type": "text","selector": "a[href*='/stargazers']"},{"name": "today_star","type": "text","selector": "span.float-sm-right",},],}extraction_strategy = JsonCssExtractionStrategy(schema, verbose=True)async with AsyncWebCrawler(verbose=True) as crawler:result = await crawler.arun(url="https://github.com/trending",extraction_strategy=extraction_strategy,bypass_cache=True,)assert result.success, "github 数据抓取失败"github_trending_json = json.loads(result.extracted_content)for ele in github_trending_json:ele['repository'] = 'https://github.com/' + ''.join(ele['repository'].split())return github_trending_json

与前两种不同的是,结构化输出需要通过自定义schema来定义解析的数据结构。控制台按照我们定义的schema输出了标准了JSON数据。将数据放入html模版,通过邮件每日发送。看一下邮件显示:

在这里插入图片描述

与BeautifulSoup的对比

记得第一次用soup的时候,对于只用过Java sax解析xml的我来说,soup真的太方便了。今天简单测试了下crawl4ai,和soup相比

  • crawl4ai数据采集分析更方便
  • soup需要配合使用request进行网页抓取,BeautifulSoup负责html解析
  • html解析有点类似,都是通过CSS选择器,但crawl4ai通过定义schema,解析更方便
  • 数据解析方面,crawl4ai除了提供了markdown和简化版的html,还提供了通过集成OpenAI提取结构化数据的能力(尚未体验)
http://www.mmbaike.com/news/27905.html

相关文章:

  • 对网页设计作品的意见seo综合查询怎么用
  • 做网站的哪里便宜免费访问国外网站的app
  • 网站源码模块2023年小学生简短小新闻
  • 北京做的比较好的网站公司上海关键词优化推荐
  • 怎么做qq代刷网站雷神代刷网站推广
  • 私人信息调查网站google搜索优化
  • dedecms三合一网站源码网上怎么免费推广
  • 济南网站建设哪家好留手机号广告
  • 网站做下载页面免费seo网站自动推广
  • 做信息网站能挣钱吗saas建站
  • 电商发展新方向长沙关键词优化推荐
  • 上海广告网站建设天津关键词排名推广
  • 网络公司具体是干什么的seo网站优化推广费用
  • 营销网站开发找哪家百度网站登录入口
  • 手机版网站怎么做国际免费b站
  • 做JSP网站买什么书保定seo外包服务商
  • seo标题优化的心得总结海外广告优化师
  • 许昌做网站公司哪家专业seo研究中心怎么样
  • 专业网站制作公司排名网络推广外包一年多少钱
  • 毕业设计做购物网站的要求网站排名优化外包
  • 企业网站哪家公司好汕头网站建设优化
  • 黄骅市委领导班子名单最新消息seo关键词的选择步骤
  • 深圳网站制作服务公互动营销策略
  • 这样可以做网站百度竞价推广账户
  • 做彩票平台网站吗合肥网站制作
  • 网站制作品牌有哪些青岛网站关键词优化公司
  • vs简易新闻建设网站网络营销与传统营销的整合
  • 小程序怎么做网站人工智能教育培训机构排名
  • 网站做flash好不好查域名ip地址查询
  • 腾讯网页游戏排行榜福州seo推广