分布式网络爬虫关键技术分析与实现一网络爬虫相关知识介绍
2010-09-30 16:53:59 来源:WEB开发网自动的采集网络信息。当爬虫打开某个 HTML 页面后,它会分析 HTML 标记结构来获取信息,并获取指向其它页面的超级链接,然后通过既定的搜索策略选择下一个要访问的站点。 从理论上讲, 如果为 Spider 指定个适当的初始文档集和个适当的网络搜索策略,它就可以遍历整个网络。它的性能在很大程度上影响了搜索引擎站点的规模。
2、索引模块
网络爬虫爬取的网页上的信息以固定的格式获取到本地后,索引建立程序对信息进行分析,针对页面中出现的关键词建立一种利于快速查找的数据结构,即索引,以供搜索引擎使用。搜索引擎在选择索引数据结构时通常考虑两个因素:紧凑的数据结构和高效的检索能力。由于搜索引擎在建立索引的时候是面对海量的信息,因此在考虑记录大小时要具体到字节中的位,这样才能达到一种比较合理科学性的空间膨胀比。合理的数据结构将使对关键词的检索更加迅速。通常有三种索引的建立基本技术:倒排文件、后缀数组和签名文件。倒排文件在当前大多数信息获取系统中得到应用,它对于关键词的搜索非常有效。后缀数组在短语查询中具有较快的速度,但是该结构在维护上相对比较麻烦。签名文档如今已被倒排索引技术替代。 处理网页的过程主要包括这几部分:文档特征向量提取、网页筛选、相关度分析、文档分类和入库操作。
3、用户查询模块
用户查询模块是搜索引擎和用户之间的接口。其首先获取用户查询条件并加以分析,然后访问索引数据库进行匹配后获得检索结果,然后根据设定的相关度进行降序排序处理后返回给用户。
3.3网络爬虫在搜索引擎中的地位
从上面的搜索引擎基本原理上可以看出网络爬虫是一种能够跟踪网络上超链接结构,并不断进行网络资源发现与采集的程序。作为搜索引擎的资源采集部分, 网络爬虫的性能将直接影响到整个搜索引擎索引网页的数量、质量和更新周期。因此对于网络爬虫的研究具有深远的意义。
赞助商链接