分布式网络爬虫关键技术分析与实现一网络爬虫相关知识介绍
2010-09-30 16:53:59 来源:WEB开发网3.4网络爬虫的种类
为了解决Web采集的关键问题,研究者们经过不断地研究与实践,将爬行器由最早期单纯的基于整个Web的爬行器发展到可满足不同需要的多种采集技术的爬行器。归纳起来,大致可以分为以下几种类型:
第一种是基于整个Web的爬行器。主要是指目标为从一些种子URL扩充到整个Web的爬行器,这种爬行器通常是作为门户站点搜索引擎和大型的Web服务提供商的数据采集部分。这类信息采集由于目标是采集整个Web,因此对内存和硬盘等硬件的要求比较高,对采集页面的顺序要求相对较低。
第二种是增量式的爬行器。传统的爬行器根据自己的需要采集足量的信息后停止采集,当过一段时间这些数据过时后,它会重新采集一遍来代替先前的信息,称为周期性Web采集器。而增量式的爬行器对待就的页面采用增量式更新,即采集器在需要的时候采集新产生的或己经发生了变化的页面,而对没有变化的页面不进行采集。和周期性信息采集相比,增量式信息采集能极大地减小数据采集量,从而极大地减少了采集的时间与空间开销。但是与此同时,增量式信息采集也增加了算法的复杂性和技术难度。
第三种是基于主题的爬行器是指选择性地搜寻那些与预先定义好的主题相关的页面的爬行器。和基于整个Web的爬行器相比,它并不采集那些与主题无关的页面,所以大大地节省了硬件和网络资源,保存的页面也由于数量少而更新快。加之它可以很好地满足一些特定人群对特定领域信息的需求,成为时下研究的热门重点。但它的问题也是显而易见的,例如如何定义有实际意义的主题,如何在采集时判定页面与主题的相关性以及如何提高系统的搜索精度和完全度等。
第四种是基于用户个性化的爬行器。不同的用户对一个搜索引擎提交同一个检索词,他们期待的结果是不尽相同的。而通用的搜索引擎却只能返回相同的检索结果,这显然不完全符合用户的需要。而基于用户个性化的爬行器是一种轻量级的采集系统,它的目标就是通过用户兴趣制导或与用户交互等手段来采集信息,给用户提供个性化服务。
更多精彩
赞助商链接