当前位置: 首页 > news >正文

陇西 网站开发营销课程

陇西 网站开发,营销课程,云南省中国建设工程造价管理协会网站,河南安阳区号是多少爬虫案例—根据四大名著书名抓取并存储为文本文件 诗词名句网:https://www.shicimingju.com 目标:输入四大名著的书名,抓取名著的全部内容,包括书名,作者,年代及各章节内容 诗词名句网主页如下图&#x…

爬虫案例—根据四大名著书名抓取并存储为文本文件

诗词名句网:https://www.shicimingju.com

目标:输入四大名著的书名,抓取名著的全部内容,包括书名,作者,年代及各章节内容

诗词名句网主页如下图:

Screenshot 2024-01-18 at 10.51.19

今天的案例是抓取古籍板块下的四大名著,如下图:

Screenshot 2024-01-18 at 10.57.29案例源码如下:

import time
import requests
from bs4 import BeautifulSoup
import randomheaders = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36', }# 获取响应页面,并返回实例化soup
def get_soup(html_url):res = requests.get(html_url, headers=headers)res.encoding = res.apparent_encodinghtml = res.content.decode()soup = BeautifulSoup(html, 'lxml')return soup# 返回名著的书名及对应的网址字典
def get_book_url(page_url):book_url_dic = {}soup = get_soup(page_url)div_tag = soup.find(class_="card booknark_card")title_lst = div_tag.ul.find_all(name='li')for title in title_lst:book_url_dic[title.a.text.strip('《》')] = 'https://www.shicimingju.com' + title.a['href']return book_url_dic# 输出每一章节内容
def get_chapter_content(chapter_url):chapter_content_lst = []chapter_soup = get_soup(chapter_url)div_chapter = chapter_soup.find(class_='card bookmark-list')chapter_content = div_chapter.find_all('p')for p_content in chapter_content:chapter_content_lst.append(p_content.text)time.sleep(random.randint(1, 3))return chapter_content_lst# 主程序
if __name__ == '__main__':# 古籍板块链接gj_url = 'https://www.shicimingju.com/book'url_dic = get_book_url(gj_url)mz_name = input('请输入四大名著名称: ')mz_url = url_dic[mz_name]soup = get_soup(mz_url)abbr_tag = soup.find(class_="card bookmark-list")book_name = abbr_tag.h1.textf = open(f'{book_name}.txt', 'a', encoding='utf-8')f.write('书名:'+book_name+'\n')print('名著名称:', book_name, end='\n')p_lst = abbr_tag.find_all('p')for p in p_lst:f.write(p.text+'\n')mulu_lst = soup.find_all(class_="book-mulu")book_ul = mulu_lst[0].ulbook_li = book_ul.find_all(name='li')for bl in book_li:print('\t\t', bl.text)chapter_url = 'https://www.shicimingju.com' + bl.a['href']f.write(bl.text+'\n')f.write(''.join(get_chapter_content(chapter_url))+'\n')f.close()

Screenshot 2024-01-18 at 11.12.49

Screenshot 2024-01-18 at 11.14.54

http://www.mmbaike.com/news/29416.html

相关文章:

  • Wordpress多语言配置沈阳seo关键词排名优化软件
  • 打开一个不良网站提示创建成功怎么在平台上做推广
  • ps做图软件怎么下载网站百度竞价推广是什么
  • 线上网站设计培训青岛网站建设微动力
  • 精品网站建设教程江阴网站优化公司
  • 住房和城乡建设部幼儿园网站seo外包公司兴田德润官方地址
  • 郑州做网站哪家好站长查询站长工具
  • 山东网站制作应用个人网站免费域名和服务器
  • 邯郸网站建设提供商seo公司排名教程
  • 宁波网站建设i sp.net智能优化大师下载
  • 室内设计联盟app下载英文谷歌seo
  • 陕西建委建设厅网站镇江网站建设制作公司
  • 网站建设专家怎么样在线代理浏览国外网站
  • 政府建设行业服务网站广州网站优化多少钱
  • 网站平台建设实训心得体会优化方案
  • 网站建设 zzit6淮北网站建设
  • 公司网站怎么推广seo关键词优化软件app
  • 北京专业的做网站seo的内容有哪些
  • 怎样可以做网站站长统计app软件下载官网安卓
  • 设计类赚钱网站微信广告投放收费标准
  • 东莞企创做网站怎么样网站推广的全过程
  • PR做视频需要放网站上网络营销的四大要素
  • 百度做网站续费费用网络推广公司哪家好
  • 学校做网站需要多少钱今日新闻最新消息大事
  • 智慧团建网站登录忘记密码百度怎么收录网站
  • 深圳专业网络营销外包公司seo诊断网站
  • wordpress主题资源网网站优化网站优化
  • 品牌网站建设福州网络营销论文
  • 济南网站建设公司电子商务网站亚马逊站外推广网站
  • 西安网站建设优化服务公司关键词搜索爱站网