当前位置: 首页 > news >正文

深圳找人做网站百度免费安装

深圳找人做网站,百度免费安装,做独立网站给你的启发是什么,闵行兼职招聘信息python爬虫抓取新闻并且植入自己的mysql远程数据库内!这个代码是我自己写了很久才写好的,分享给大家。喜欢的点个赞。 # -*- coding: utf-8 -*- from xml.etree import ElementTree as ET import datetime import randomimport pymysql from selenium im…

python爬虫抓取新闻并且植入自己的mysql远程数据库内!这个代码是我自己写了很久才写好的,分享给大家。喜欢的点个赞。


# -*- coding: utf-8 -*-
from xml.etree import ElementTree as ET
import datetime
import randomimport pymysql
from selenium import webdriver
from lxml import etree
from time import sleep
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import Bydef strreplace_v1(old_str, key, value):# 替换某个字符串的一个或某几个字符串new_str = old_str.replace(key, value)return new_strdef get_page_source_html(driver, urlinfo):driver.get(urlinfo)page_text = driver.page_sourcetree = etree.HTML(page_text)return treedef get_page_source_etree(driver):page_text = driver.page_sourcetree = etree.HTML(page_text)return treedef get_list_a(etree, xpathinfo):return etree.xpath(xpathinfo)def get_news_title(etree, xpathino):return etree.xpath(xpathino)def get_news_content(etree, xpathino):return etree.xpath(xpathino)def get_news_publish(etree, xpathino):return etree.xpath(xpathino)def getUA():uaList = [# 360"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36",# chrome"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36",# "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",# firefox# "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:46.0) Gecko/20100101 Firefox/46.0","Mozilla/5.0 (Windows NT 6.3; WOW64; rv:36.0) Gecko/20100101 Firefox/36.0",# ie11# "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko",# ie8# "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; 4399Box.1357; 4399Box.1253; 4399Box.1357)",# 2345王牌# "Chrome/39.0.2171.99 Safari/537.36 2345Explorer/6.5.0.11018",# 搜狗# "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0",# opera"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60"]headers = random.choice(uaList)return headersdef get_desurl_list():# 所有的目标url集合。500个。urlinfo_list = []tree = ET.parse('sitemap.xml')url = tree.find("url")for rank in tree.iter('loc'):urlinfo_list.append(rank.text)return urlinfo_listdef createwailian(urlwllist, urlzhiru):str = strreplace_v1(urlzhiru, 'hrefinfo', urlwllist[random.randint(0, len(urlwllist))])return strif __name__ == "__main__":allwlurllist = get_desurl_list()options = Options()options.add_argument("--disable-desktop-notifications")options.add_argument('User-Agent=%s' % getUA())# options.add_argument('--proxy-server={0}'.format('103.37.141.69:80'))# 创建浏览器对象driver = webdriver.Chrome(options=options)urlend = ""urlbegin = 'http://www.106ms.com/index.php?list=6-'for urlstart in range(1, 10):print('当前正访问:{0}'.format(urlbegin + str(urlstart)))driver.get(urlbegin + str(urlstart))# //*[@id="menu-item-10"]/a# 点击SEO基础知识链接# driver.find_element(By.XPATH, value='//*[@id="menu-item-5"]/a').click()# 存储a标签的集合list_a = []# xpath获取到的集合是一个存储了大量的webelment对象的集合,想具体拿到属性信息,还得再写标签自身的xpath语法。# //*[@id="moar"]/section[2]/div/div[1]/div[1]/dl/dd/h3/aa_list = get_list_a(get_page_source_etree(driver), '//*[@id="moar"]/section[2]/div/div/div/dl/dd/h3/a')sleep(1)for a in a_list:href = a.xpath('./@href')[0]list_a.append(href)print("当前页面获取a标签集合长度为{0}".format(len(list_a)))sleep(1)# 遍历当前list_atry:db = pymysql.Connect(host='8.142.*.*',  # 服务器ip地址port=3306,  # mysql默认端口号user="106iiaa",  # 用户名password="yrdsrootadmi3",  # 密码charset="utf8",  # 字符集db="hbdsa89aa"  # 数据库)cursor = db.cursor()#xuanyan = "<p>本平台所发布的部分公开信息来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点,本平台所提供的信息,只供参考之用。不保证信息的准确性、有效性、及时性和完整性。如有侵权请联系:[14878741214]删除,谢谢合作!</p>"#urlzhiru = '<p>网站入口1:<a href="hrefinfo" target="_blank">网站入口地址</a></p><p>网站入口2:<a href="http://diyigefan.com/" target="_blank">diyigefan.com</a></p>'readnumber = 0base_url = 'http://www.106ms.com'for newsurl in list_a:try:wanquan = base_url + newsurl# print(wanquan)driver.get(wanquan)# title = driver.find_element(By.CLASS_NAME, value='article-title').text# content = driver.find_element(By.CLASS_NAME, value='article-content').text# newscontent = driver.find_element(By.XPATH, value='//div[@class="news_txt"]')#newscontentfordes = driver.find_element(By.CLASS_NAME, value='news_txt').text# /html/head/meta[6]newscontentfordes = driver.find_element(By.XPATH, value='/html/head/meta[6]')# 使用beautifulsoup封装html源码信息,然后开始提取内容。soup = BeautifulSoup(driver.page_source, features='lxml', from_encoding='utf-8')for s in soup('img'):s.extract()for s in soup('a'):s.extract()# 已经提前清除了img标签和a标签了allp = soup.find("article", {"class": "content text-left"}).findAll('div')paragraphs = []for x in allp:paragraphs.append(str(x))# 去掉最后一个元素的值。content2 = ''.join(paragraphs[0:-1])# print(content2)# 标题信息title = driver.find_element(By.XPATH, value='//*[@id="moar"]/section[2]/div/div/div/article/header/h2').textkeywords = title# content = content2  + createwailian(allwlurllist, urlzhiru)content = content2# content = newscontent + xuanyandes = str(newscontentfordes.strip())[0:120]sql = 'insert into news (title, keywords, des,content, author,publish,click,state,attr,attrdiy,flag,cate,uid) values (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)'values = (title, keywords, des, content, 'admin',str(datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')),random.randint(100, 999),0, 0, 0, '画室新闻', 5, 3)cursor.execute(sql, values)db.commit()readnumber = readnumber + 1print("标题:{0}---插入数据库成功".format(title))except Exception as ee:print('发生了异常', ee)continueexcept Exception as e:# print('发生了异常', e)db.rollback()finally:cursor.close()db.close()sleep(5)print('本次任务成功植入{0}篇软文.'.format(readnumber))sleep(600)driver.quit()

前提是,你需要提前安装好里面使用到了一些插件包。

否则是会报错的。

http://www.mmbaike.com/news/31842.html

相关文章:

  • 合肥做网站优化福鼎网站优化公司
  • 天津营销型网站建设费用东莞市网络seo推广服务机构
  • 网站如何兼容大多浏览器个人博客seo
  • 个人网站模板下载广告海外推广
  • 做安全题目是哪个网站学生个人网页制作html代码
  • 网站开发培训设计怎样在百度上发表文章
  • 今天的最新消息金华seo
  • 对政府网站建设管理要求昆山网站建设
  • 潍坊建设局网站谷歌官网
  • 网页设计与网站建设第04章在线测试怎么自己做个网站
  • 房地产设计公司网络优化工具app手机版
  • 免费网站建设教程视频在线数据分析工具
  • 杭州有哪些外资企业招聘关键词排名优化公司哪家强
  • 如何鉴赏网站论文国内b站不收费网站有哪些
  • wordpress 建站赚钱百度风云榜排行榜
  • 网站可以做315认证吗全国十大婚恋网站排名
  • 手机网站建设技术沈阳关键词优化价格
  • 医院网站建设思路深圳网站建设哪家好
  • 新手建什么网站赚钱吗百度浏览器官方网站
  • 怎么开电商网店哈尔滨优化网站方法
  • 辽宁建设信息网站十大搜索引擎神器
  • 兴平网站建设网店推广方法有哪些
  • 秦皇岛 免费建网站万网的app叫什么
  • 世界做诡异的地方网站营销培训心得体会
  • 新网站做百度推广做销售怎样去寻找客户
  • 网站空间与服务器的区别网上营销怎么做
  • 做设计学什么英语比较好的网站静态网页设计与制作
  • 青龙建站教程自学网软件推广赚钱
  • 做软件常用的网站有哪些行者seo
  • 做旅游网站的需求分析报告最新seo自动优化软件