分布式网络爬虫关键技术分析与实现一网络爬虫相关知识介绍
2010-09-30 16:53:59 来源:WEB开发网核心提示: 2.元搜索引擎:接受一个搜索请求,然后将该请求转交给其他若干个搜索引擎同时处理,分布式网络爬虫关键技术分析与实现一网络爬虫相关知识介绍(5),最后对多个引擎的搜索结果进行整和处理后返回给查询者,整和处理包括诸如消除重复,下面简要介绍一下各个模块的作用,查看原图(大图)1、网络爬虫模块网络爬虫实际
2.元搜索引擎:接受一个搜索请求,然后将该请求转交给其他若干个搜索引擎同时处理。最后对多个引擎的搜索结果进行整和处理后返回给查询者。整和处理包括诸如消除重复,对来自多个引擎的结果进行排序等。
3.专用引擎:譬如人物搜索、旅行路线搜索、产品搜索等。这些搜索都依赖于具体的数据库。
引擎的其他分类方法还有:按照自动化程度分为人工与自动引擎;按照是否有智能分智能与非智能引擎;按照搜索内容分文本搜索引擎、语音搜索引擎、图形搜索引擎、视频搜索引擎等。
3.2搜索引擎的基本工作原理
搜索引擎搜集互联网上成千上万的网页并对网页中的内容按照关键词进行索引,建立索引数据库供用户进行全文搜索。当用户需要查找某一个关键词时,所有在页面内容中包含了该关键词的页面都会被搜索出来。 下图了描述搜索引擎的工作原理。依靠网络爬虫获取互联网上的大量的网页信息,交给索引程序建立索引,最后提交给用户查询程序供用户使用。传统搜索引擎的工作从功能结构上划分主要分三个部分:1、从互联网上获取信息的爬虫模块;2、建立全文索引库的索引模块;3、用户查询模块。其中,本文所讨论的范围仅限于爬虫模块。下面简要介绍一下各个模块的作用。
查看原图(大图)
1、网络爬虫模块
网络爬虫实际上是一个基于 web的程序。 它从一个初始的网页集出发, 遍历 Internet
[]
赞助商链接