下载此beplayapp体育下载

Python网络爬虫实习报告.doc


beplayapp体育下载分类:IT计算机 | 页数:约15页 举报非法beplayapp体育下载有奖
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该beplayapp体育下载所得收入归上传者、原创者。
  • 3.下载的beplayapp体育下载,不会出现我们的网址水印。
beplayapp体育下载列表 beplayapp体育下载介绍
Python网络爬虫实****报告————————————————————————————————作者:————————————————————————————————日期: Python网络爬虫实****报告目录一、选题背景 -2-二、爬虫原理 -2-三、爬虫历史和分类 -2-四、常用爬虫框架比较 -5-五、数据爬取实战(豆瓣网爬取电影数据) -6-1分析网页 -6-2爬取数据 -7-3数据整理、转换 -10-4数据保存、展示 -12-5技术难点关键点 -12-六、总结 -14-选题背景爬虫原理爬虫历史和分类常用爬虫框架比较Scrapy框架:Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取出结构化数据。Scrapy应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。Crawley框架:Crawley也是Python开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。Portia框架:Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。newspaper框架:newspaper框架是一个用来提取新闻、文章以及内容分析的Python爬虫框架。Python-goose框架:Python-goose框架可提取的信息包括:<1>文章主体内容;<2>文章主要图片;<3>文章中嵌入的任heYoutube/Vimeo视频;<4>元描述;<5>元标签五、数据爬取实战(豆瓣网爬取电影数据)1分析网页#获取html源代码def__getHtml():data=[]pageNum=1pageSize=0try:while(pageSize<=125):#headers={'User-Agent':'Mozilla/()AppleWebKit/(KHTML,likeGecko)Chrome/',#'Referer':None#注意如果依然不能抓取的话,这里可以设置抓取网站的host#}#opener=()#=[headers]url="https://movie./top250?start="+str(pageSize)+"&filter="+str(pageNum)#data['html%s'%i]=(url).read().decode("utf-8")((url).read().decode("utf-8"))pageSize+=25pageNum+=1print(pageSize,pageNum)exceptExceptionase:raiseereturndata2爬取数据def__getData(html):title=[]#电影标题#rating_num=[]#评分range_num=[]#排名#rating_people_num=[]#评价人数movie_author=[]#导演data={}#bs4解析htmlsoup=BeautifulSoup(html,"")("ol",attrs={'class':'grid_view'}).find_all("li"):(("span",class_="title").text)#(("div",class_='star').find("span",class_='rating_num').text)(("div",class_='pic').find("em").text)#spans=("div",class_='star').find_all("span")#forxinrange(len(spans)):#ifx<=2:#pass#else:#(spans[x].string[-len(spans[x].string):-3])str=("div",class_='bd').find("p",class_='').()index=("主")if(index==-1):index=("...")print(("div",class_='pic').find("e

Python网络爬虫实习报告 来自beplayapp体育下载www.apt-nc.com转载请标明出处.

非法内容举报中心
beplayapp体育下载信息
  • 页数15
  • 收藏数0 收藏
  • 顶次数0
  • 上传人taotao0a
  • 文件大小244 KB
  • 时间2019-09-25