当前位置：首页 > news >正文

网站建设公司河南郑州专门发广告的app

news 2025/8/9 0:52:47

网站建设公司河南郑州,专门发广告的app,用于手机的导航网站要怎么做,泸州公司做网站前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒，同样可以通过Spider获取网站内容，最近学习了SeleniumPhantomjs后，准备利用它们获取百度百科的旅游景点消息盒（InfoBox），这也是毕业设计实体对齐和属…

前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒，同样可以通过Spider获取网站内容，最近学习了Selenium+Phantomjs后，准备利用它们获取百度百科的旅游景点消息盒（InfoBox），这也是毕业设计实体对齐和属性的对齐的语料库前期准备工作。希望文章对你有所帮助~

源代码

# coding=utf-8    
"""  
Created on 2015-09-04 @author: Eastmount   
"""    import time            
import re            
import os    
import sys  
import codecs  
from selenium import webdriver        
from selenium.webdriver.common.keys import Keys        
import selenium.webdriver.support.ui as ui        
from selenium.webdriver.common.action_chains import ActionChains    #Open PhantomJS    
driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")    
#driver = webdriver.Firefox()    
wait = ui.WebDriverWait(driver,10)  
global info #全局变量  #Get the infobox of 5A tourist spots    
def getInfobox(name):    try:    #create paths and txt files  global info  basePathDirectory = "Tourist_spots_5A"    if not os.path.exists(basePathDirectory):    os.makedirs(basePathDirectory)    baiduFile = os.path.join(basePathDirectory,"BaiduSpider.txt")    if not os.path.exists(baiduFile):    info = codecs.open(baiduFile,'w','utf-8')    else:    info = codecs.open(baiduFile,'a','utf-8')    #locate input  notice: 1.visit url by unicode 2.write files    print name.rstrip('\n') #delete char '\n'    driver.get("http://baike.baidu.com/")    elem_inp = driver.find_element_by_xpath("//form[@id='searchForm']/input")    elem_inp.send_keys(name)    elem_inp.send_keys(Keys.RETURN)    info.write(name.rstrip('\n')+'\r\n')  #codecs不支持'\n'换行  time.sleep(2)  print driver.current_url  print driver.title  #load infobox basic-info cmn-clearfix  elem_name = driver.find_elements_by_xpath("//div[@class='basic-info cmn-clearfix']/dl/dt")    elem_value = driver.find_elements_by_xpath("//div[@class='basic-info cmn-clearfix']/dl/dd")  for e in elem_name:  print e.text  for e in elem_value:  print e.text  #create dictionary key-value  #字典是一种散列表结构,数据输入后按特征被散列,不记录原来的数据,顺序建议元组  elem_dic = dict(zip(elem_name,elem_value))   for key in elem_dic:    print key.text,elem_dic[key].text    info.writelines(key.text+" "+elem_dic[key].text+'\r\n')    time.sleep(5)    except Exception,e: #'utf8' codec can't decode byte    print "Error: ",e    finally:    print '\n'    info.write('\r\n')    #Main function    
def main():  global info  #By function get information     source = open("Tourist_spots_5A_BD.txt",'r')    for name in source:    name = unicode(name,"utf-8")    if u'故宫' in name: #else add a '?'    name = u'北京故宫'    getInfobox(name)    print 'End Read Files!'    source.close()    info.close()    driver.close()    main()

运行结果

主要通过从F盘中txt文件中读取国家5A级景区的名字，再调用Phantomjs.exe浏览器依次访问获取InfoBox值。同时如果存在编码问题“'ascii' codec can't encode characters”则可通过下面代码设置编译器utf-8编码，代码如下：

#设置编码utf-8  
import sys   
reload(sys)    
sys.setdefaultencoding('utf-8')  
#显示当前默认编码方式  
print sys.getdefaultencoding()

对应源码

其中对应的百度百科InfoBox源代码如下图，代码中基础知识可以参考我前面的博文或我的Python爬虫专利，Selenium不仅仅擅长做自动测试，同样适合做简单的爬虫。

编码问题

此时你仍然可能遇到“'ascii' codec can't encode characters”编码问题。

它是因为你创建txt文件时默认是ascii格式，此时你的文字确实'utf-8'格式，所以需要转换通过如下方法。

import codecs  #用codecs提供的open方法来指定打开的文件的语言编码,它会在读取的时候自动转换为内部unicode  
if not os.path.exists(baiduFile):    info = codecs.open(baiduFile,'w','utf-8')    
else:    info = codecs.open(baiduFile,'a','utf-8')  #该方法不是io故换行是'\r\n'  
info.writelines(key.text+":"+elem_dic[key].text+'\r\n')

总结

你可以代码中学习基本的自动化爬虫方法、同时可以学会如何通过for循环显示key-value键值对，对应的就是显示的属性和属性值，通过如下代码实现：

 elem_dic = dict(zip(elem_name,elem_value))

但最后的输出结果不是infobox中的顺序，why?
最后希望文章对你有所帮助，还有一篇基础介绍文章，

查看全文

http://www.mmbaike.com/news/91753.html

做交互式的网站怎么做百度seo软件优化

个人做网站和百家号赚钱中国国家培训网官网入口

什么网站管理系统好百度指数怎么下载

南京网站设计公司大全百度引擎搜索

菏泽住房和城乡建设委员会网站推广链接让别人点击

网站备案需要提供哪些资料网站流量数据分析

怎样入门网站开发百度seo规则

商城网站哪个公司做的好智慧营销系统平台

北京做网站的公司拟google免登录网页版

网站商城运营成本百度小说网

给你一个网站你怎么做的吗市场调研问卷

靠谱的网络建站服务热线百度快速排名系统查询

网站建设的重要性学校谷歌搜索引擎seo

网站开发网页加载缓慢查询数据库慢2022年每日新闻摘抄10一30字

微网站免费建站系统球队排名榜实时排名

网站模板带有sql后台下载国内最新新闻摘抄

企业做网站预付账款会计分录推广业务

聚美优品软件网站关键词优化

做菠菜网站好赚吗互联网推广是做什么的

怎样做一个企业的网站建站下载百度网盘app

网站转微信小程序开发天津seo培训

基于php做的网站下载百度com百度一下你

网站主机测速百度搜索风云榜电脑版

做网站的工作时间青岛网站seo推广

网上兼职做论坛版主网站编辑全球疫情今天最新消息

怎么样签约设计网站百度优化排名

网站怎么在成都备案品牌广告和效果广告

调兵山网站建设关键词整站优化公司

有哪些网站可以做简历推广app的单子都在哪里接的

平凉市住房和城乡建设厅网站顺德搜索seo网络推广

源代码

运行结果

对应源码

编码问题

总结

相关文章：