分布式网络爬虫关键技术分析与实现一网络爬虫相关知识介绍
2010-09-30 16:53:59 来源:WEB开发网这项内容的一个明显的技术是P2Po P2P是peer-to-peer的缩写,意为对等网络。其在加强网络上人的交流、文件交换、分布计算等方面大有前途。长久以来,人们习惯的互联网是以服务器为中心,人们向服务器发送请求,然后浏览服务器回应的信息。而P2P所包含的技术就是使联网电脑能够进行数据交换,但数据是存储在每台电脑里,而不是存储在既昂贵又容易受到攻击的服务器里。网络成员可以在网络数据库里自由搜索、更新、回答和传送数据。所有人都共享了它们认为最有价值的东西,这将使互联网上信息的价值得到极大的提升。
5.重视交叉语言检索的研究和开发
交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档[17]。如果再加上机器翻译,返回结果可以用母语显示。该技术目前还处于初步研究阶段,主要的困难在于语言之间在表达方式和语义对应上的不确定性。但对于经济全球化、互联网跨越国界的今天,无疑具有很重要的意义。
6.多媒体搜索引擎
随着宽带技术的发展,未来的互联网是多媒体数据的时代。开发出可查寻图像、声音、图片和电影的搜索引擎是一个新的方向。目前瑞典一家公司己经研制推出被称作“第五代搜索引擎”的动态的和有声的多媒体搜索引擎。
3搜索引擎分类与工作原理
3.1搜索引擎的分类
按照信息搜集方法和服务提供方式的不同,目前Internet上的搜索引擎大致可以分成三类:
1.一般搜索引擎:利用网络爬虫对Internet资源进行索引,一般无须人工干预。所谓的网络爬虫是一个程序,通过自动读取一篇文档遍历Web的超链接结构,从而递归获得被引用的所有文档。不同的搜索引擎搜索的内容不尽相同:有的着重站点搜索,而有的搜索可能包括Gropher、新闻组、E-MAIL等。一般搜索引擎的性能主要取决于:索引数据库的容量、存放内容、以及更新速度,搜索速度,用户界面的友好程度以及是否易用等。这类的引擎的代表包括国外的AltaVista(htp://www.altavista.digital.com)InfoSeek(htp://www.infoseek.com)等。
更多精彩
赞助商链接