下载此beplayapp体育下载

定向网络爬虫 开题报告.doc


beplayapp体育下载分类:bepaly下载苹果 | 页数:约8页 举报非法beplayapp体育下载有奖
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该beplayapp体育下载所得收入归上传者、原创者。
  • 3.下载的beplayapp体育下载,不会出现我们的网址水印。
1 / 8 下载此beplayapp体育下载
beplayapp体育下载列表 beplayapp体育下载介绍
山 东 科 技 大 学
本科毕业设计(论文)开题报告
题 目 网络爬虫
定向爬取•脚本之家•文本信息

学 院 名 称 信息科学与工程学院
专业班级 计算机科学与技术2012级2班
学生姓名 包志英
学 号 201201050201
指 导 教 师 赵中英
填表时间:二0一六年三月二十八日
设计(论文)
题目
网络爬虫•定向爬取脚本之家文本信息
设计(论文)
类型(划“√”)
工程设计
应用研究
开发研究
基础研究
其它

本课题的研究目的和意义
本课题的主要目的是设计面向主题的网络爬虫程序,同时需要满足的是具有一定的性能,要考虑到网络爬虫的各种需求。
网络爬虫主体网站的特性。对url进行构造。网络爬虫使用scrapy实现多线程,让爬虫具备更强大的抓取能力和灵活性。网络爬虫要实现对特定主题的爬取。网络爬虫还要完成信息提取任务,对于抓取回来的网页提取出来:新闻、电子图书、行业信息等。对网络爬虫的连接网络设置连接及读取时间,避免无限制的等待。研究网络爬虫的原理并实现爬虫的相关功能。
最终实现的网络爬虫应该能根据设定的主题,从构造的url进行一定数据爬取,并最终得到需要的数据
互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具。但是,这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题,一个灵活的爬虫有着无可替代的重要意义。
本课题的主要研究内容(提纲)
本课题研究的内容是如何使网络爬虫灵活高效。
如何更具网站主体特性不同构造URL。
如何具备更强的抓取能力。
如何分辨重复的网页内容。
如何确定主题相关性。
对于对线程并发的处理。
对于缓存和并发请求的处理
对反扒机制的应对
对于网络时延等的处理。
对于数据的存储格式与形式
文献综述(国内外研究情况及其发展)
对于网络爬虫的研究从上世纪九十年代就开始了,目前爬虫技术已经趋见成熟,网络爬虫是搜索引擎的重要组成部分。网络上比较著名的开源爬虫包括Nutch,Larbin,Heritrix。网络爬虫最重要的是网页搜索策略(广度优先和最佳度优先)和网页分析策略(基于网络拓扑的分析算法和基于网页内容的网页分析算法)。
国内外流行的爬虫技术相当多,很多人喜欢基于Python的,也有人喜欢用C#,很多人由于系统集成开发和跨平台的需要倾向于java,我跟喜欢用Python。
就原理来说,爬虫组件都是差不多的,无头浏览器,最能够说明爬虫的特性,它们被设计创造出来,大部分情况是用于自动化测试的。
基于socket的httpclient功能简单,性能强大,特别是在高并发的情况下,而被大家所青睐,特别是搜索引擎中,如果抓取静态页面,httpclient非常适

定向网络爬虫 开题报告 来自beplayapp体育下载www.apt-nc.com转载请标明出处.

非法内容举报中心
beplayapp体育下载信息
  • 页数8
  • 收藏数0收藏
  • 顶次数0
  • 上传人慢慢老师
  • 文件大小49 KB
  • 时间2021-01-20
最近更新