分布式网络爬虫关键技术分析与实现一网络爬虫相关知识介绍
2010-09-30 16:53:59 来源:WEB开发网第五种是移动的爬行器。这种爬行器并不像其他爬行器一样在本地客户机向Web站点服务器发送页面请求,而是将自己上载到它所要采集的服务器中,在当地进行采集,并将采集结果压缩后,再回传到本地。这样做大量地节省了Web资源,大量的剪裁工作将在被采集对象的服务器上完成。
第六种是基于元搜索的爬行器。它对用户的提交的查询请求通过多个领域或门户搜索引擎搜索,并将结果整合后返回给用户。一般元搜索引擎并不保存Web页面的索引文件,但是有一些元搜索引擎会保存为它服务的每个搜索引擎的信息特征,以后根据用户请求做出选择。作为搜索引擎首要部件的爬行器在元搜索引擎中功能有所退化,但依然是Web采集的一个研究方向,被称作基于元搜索的信息采集。
3.5网络爬虫的两种工作方式
3.5.1集中式网络爬虫
集中式爬虫的工作原理是:给定的一组初始 URL 种子集合,通过爬虫主体程序多个
线程分别获取到种子 URL 后,将 URL 对应的 html 页面获取到本地进行分析,页面内容提取模块将页面中有用的可供搜索引擎建索引的信息获取到本地保存起来,种子提取模块将 html 页面中新的指向其他页面的链接提取出来,经过一系列的处理保存起来供以后继续爬行。
3.5.2分布式网络爬虫
随着 WWW 信息的爆炸性增长,网络爬虫信息采集的速度越来越不能满足实际应
用的需要。即使大型的信息采集系统对 Web的覆盖率也只有 30-40%,刷新一遍已经采集的页面常常需要数周到一个月的时间。解决这一问题的直接办法是升级信息采集器的硬件,采用处理能力更强的计算机系统,然而这种方法的扩展性有限,性价比也不高。因而人们找了一个更好的选择,用分布式方式来进行网页信息采集。分布式网络爬虫可以看做由多个集中式网络爬虫组合而成。分布式系统中的每个节点都可以看作一个集中式网络爬虫。多个网络爬虫共同运行,肯定会涉及到各个节点间相互通信。这时候就会涉及到一些系统通信问题。
更多精彩
赞助商链接