当前位置: 首页 > news >正文

东莞公司网站建设优化设计电子版

东莞公司网站建设,优化设计电子版,北京做微信网站哪家好,wordpress 超链接前言 想快速获取各个高校的博士招生网站,于是通过python先获取出有可能包含高校博士招生网站的URL,然后通过人为筛选得到了想要的招生网站(注意,并非直接爬取,是间接获取的)。 整理了一份网站名单&#x…

前言

想快速获取各个高校的博士招生网站,于是通过python先获取出有可能包含高校博士招生网站的URL,然后通过人为筛选得到了想要的招生网站(注意,并非直接爬取,是间接获取的)。

整理了一份网站名单,以方便查阅各大高校博士招生信息。

整理好的博客在这里:
全国各大985/211博士招生网站
全国各大985/211博士招生网站

Python获取

1. 根据搜索引擎关键字获取内容

常见搜索引擎搜索格式[1]:

  • 百度搜索引擎:
    http://www.baidu.com.cn/s?wd=’ 关键词’&pn=‘分页’。
    wd是搜索的关键词,pn是分页的页面,由于百度搜索每页的结果是十个(最上面的可能是广告推广,不是搜索结果),所以pn=0是第一页,第二页是pn=10…
    例如https://www.baidu.com/s?wd=python&pn=0,得到的是关于python的第一页搜索结果。
  • 必应搜索引擎:
    http://global.bing.com/search?q=‘关键词’
  • 搜狗搜索引擎
    https://www.sogou.com/web?query=‘关键词’
  • 360搜索引擎
    https://www.so.com/s?q=‘关键词’

这里,我采用必应搜索引擎。比如,我想搜索北京大学的博士招生信息,对应搜索指令为http://global.bing.com/search?q=北京大学+博士招生

所以现在需要解决的第一个问题就是如何利用python获取搜索引擎的搜索结果。

参考了如下文章后[2],修改了自己的代码,实现了如下功能:自定义搜索关键字,获取搜索结果第一页结果,输出结果网页的标题及其对应URL到文件中,等待后续处理文件。

代码如下:

import re
import requests
from lxml.html import etree
import time# 重定向输出结果到./data/original_data.txt
import sys
sys.stdout = open('./data/original_data.txt', 'w', encoding='utf-8')def get_bing_url(keywords):keywords = keywords.strip('\n')bing_url = re.sub(r'^', 'https://cn.bing.com/search?q=', keywords)bing_url = re.sub(r'\s', '+', bing_url)return bing_urlif __name__ == '__main__':# base_keys是读取基础的搜索关键字,这里是“+博士招生+2023”, 你可以自定义其他搜索关键字,加号表示空格,即搜索结果中需要包含的关键字base_keys = open('./data/base.txt', 'r', encoding='utf-8')for key in base_keys:# added_keys是读取附加的搜索关键字,比如“北京大学”added_keys = open('./data/add.txt', 'r', encoding='utf-8') # add.txt contains the name of universitiesfor t_key in added_keys:new_key = t_key.strip()+key.strip()print(t_key)bing_url = get_bing_url(new_key)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2','Accept-Encoding': 'gzip, deflate','cookie': 'DUP=Q=sBQdXP4Rfrv4P4CTmxe4lQ2&T=415111783&A=2&IG=31B594EB8C9D4B1DB9BDA58C6CFD6F39; MUID=196418ED32D66077102115A736D66479; SRCHD=AF=NOFORM; SRCHUID=V=2&GUID=DDFFA87D3A894019942913899F5EC316&dmnchg=1; ENSEARCH=BENVER=1; _HPVN=CS=eyJQbiI6eyJDbiI6MiwiU3QiOjAsIlFzIjowLCJQcm9kIjoiUCJ9LCJTYyI6eyJDbiI6MiwiU3QiOjAsIlFzIjowLCJQcm9kIjoiSCJ9LCJReiI6eyJDbiI6MiwiU3QiOjAsIlFzIjowLCJQcm9kIjoiVCJ9LCJBcCI6dHJ1ZSwiTXV0ZSI6dHJ1ZSwiTGFkIjoiMjAyMC0wMy0xNlQwMDowMDowMFoiLCJJb3RkIjowLCJEZnQiOm51bGwsIk12cyI6MCwiRmx0IjowLCJJbXAiOjd9; ABDEF=V=13&ABDV=11&MRNB=1614238717214&MRB=0; _RwBf=mtu=0&g=0&cid=&o=2&p=&c=&t=0&s=0001-01-01T00:00:00.0000000+00:00&ts=2021-02-25T07:47:40.5285039+00:00&e=; MUIDB=196418ED32D66077102115A736D66479; SerpPWA=reg=1; SRCHUSR=DOB=20190509&T=1614253842000&TPC=1614238646000; _SS=SID=375CD2D8DA85697D0DA0DD31DBAB689D; _EDGE_S=SID=375CD2D8DA85697D0DA0DD31DBAB689D&mkt=zh-cn; _FP=hta=on; SL_GWPT_Show_Hide_tmp=1; SL_wptGlobTipTmp=1; dsc=order=ShopOrderDefault; ipv6=hit=1614260171835&t=4; SRCHHPGUSR=CW=993&CH=919&DPR=1&UTC=480&WTS=63749850642&HV=1614256571&BRW=HTP&BRH=M&DM=0'}for i in range(1, 2):  # 通过for in来翻页if i == 1:url = bing_urlelse:url = bing_url + '&qs=ds&first=' + str((i * 10) - 1) + '&FORM=PERE'content = requests.get(url=url, timeout=5, headers=headers)# 获取content中网页的urltree = etree.HTML(content.text)li = tree.xpath('//ol[@id="b_results"]//li[@class="b_algo"]')[0] # [0] query the first resulttry:h3 = li.xpath('//h2/a')for h in h3:result_url = h.attrib['href'] # 获取网页的urltext = h.text # 获取网页的标题if ('招生简章' in text or '研究生院' in text or '研究生招生' in text):print(f'{text} {result_url}') # 写到文件中(因为最开始重定向了输出结果到./data/original_data.txt)print('=======================')except Exception:print('error')

最终得到原始URL文件,结果如下图所示:
在这里插入图片描述

2. 处理original_data文件

经过上一步骤后,得到了搜索引擎检索到的最可能包含博士招生网页的url,现在就需要对original_data文件进行处理。这里采用最笨的方法,手动筛选,直到找到想要的URL为止,这样省去了一个学校一个学校检索的步骤,相对省事了。(如果有大佬直到这一步怎么直接筛选得到招生网页,请联系我,感激不尽!)

经过处理后,得到了如下图所示内容:
在这里插入图片描述

3. 转换成Markdown格式

为了方便自己和大家使用,转换成Markdown,然后发布在博客上,可以直接点击学校名字就能访问招生主页了。

Markdown超链接格式为:[](),所以可以通过python很方便的直接处理URL得到想要的格式,代码如下:

# process url to Markdown formate —— [infomation](url)output_file_path = './data/url.md'
output_file = open(output_file_path, 'w', encoding='utf-8')
# read url from ./data/phd_url.txt
with open('./data/phd_url.txt', 'r', encoding='utf-8') as f:while True:url_list = f.readline()if not url_list: # 表明读取到文件末尾breakurl_list = url_list.strip()# 去掉末尾的换行符urls = url_list.split(' ')if (len(urls)==1): # 表明没有对应urloutput_file.write(urls[0]+'(待更新)')output_file.write('\n')elif (len(urls)==2):output_file.write('['+urls[0]+']('+urls[1]+')')output_file.write('\n')else:print('error: url format error')

整理好的博客在这里:
全国各大985/211博士招生网站

开源资料

整理好的文档和python文件我开源在了自己的GitHub上:AutoPhd

参考资料

[1] python搜索引擎根据关键词获取内容
[2] 如何扩展关键词,以及使用python多线程爬取bing搜索结果

http://www.mmbaike.com/news/78454.html

相关文章:

  • 郑州做网站比较专业的机构百度网页游戏排行榜
  • 购物网站 建设南宁百度seo公司
  • 网站开发的工作日志近期出现的病毒叫什么
  • 制作网站的软件下载上海平台推广的公司
  • 东莞电商页面设计公司合肥关键词排名优化
  • 编程 毕业设计代做网站保定seo排名外包
  • 购买手表的网站南宁网站seo排名优化
  • 老虎淘客系统可以做网站吗淘宝指数官网的网址
  • 智能建站是什么嘉兴网络推广
  • 重庆有专业做网站的吗百度热门关键词排名
  • 建国外网站需要多少钱今天最火的新闻头条
  • 武汉注册公司地址网站优化推广
  • 开了个网站用年份做名字好吗无锡seo公司哪家好
  • 网站开发与客户沟通百度文库登录入口
  • 手机网页游戏排行榜前十seo技术代理
  • 关于购物网站建设的论文上海sem
  • 怎么查找网站河南制作网站
  • 在网上做设计赚钱的网站昆明网站seo公司
  • 无锡网站制作电话百度浏览器下载官方免费
  • 开设网站的费用美国站外推广网站
  • 有哪些可以做课件赚钱的网站seo服务套餐
  • 设计本电脑网站优化推广外包
  • 苏州网站开发公司兴田德润在哪儿西安seo服务培训
  • 免费域名创建入口在哪网站seo诊断
  • 合肥做网站推广哪家好app开发公司哪家好
  • 给wordpress添加表单系统优化大师下载
  • 网站基本流程运营推广怎么做
  • 工信局网站备案查询app推广公司怎么对接业务
  • 如何做哟个优惠券网站成品ppt网站国外
  • 小程序制作网站网站seo推广员招聘