分布式网络爬虫关键技术分析与实现一网络爬虫相关知识介绍
2010-09-30 16:53:59 来源:WEB开发网核心提示: (1)搜索引擎对自然语言提问没有理解能力,(2)搜索引擎收集的网页数量和其数据库的更新速度存在着不可调和的矛盾,分布式网络爬虫关键技术分析与实现一网络爬虫相关知识介绍(2),(3)搜索引擎无法与电子商务紧密结合,(4)搜索引擎对多媒体内容的处理尚不成熟,允许网民采用自然语言进行信息的检索,为它们
(1)搜索引擎对自然语言提问没有理解能力。
(2)搜索引擎收集的网页数量和其数据库的更新速度存在着不可调和的矛盾。
(3)搜索引擎无法与电子商务紧密结合。
(4)搜索引擎对多媒体内容的处理尚不成熟。
搜索引擎的发展面临着两大难题:一是如何跟上Internet的发展速度,二是如何为用户提供更精确的查询结果。所以,传统的引擎不能适应信息技术的高速发展,新一代智能搜索引擎作为一种高效搜索引擎技术的在当今的网络信息时代日益引起业界人士的关注。搜索引擎己成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,所以具有综合性和挑战性。又由于搜索引擎有大量的用户,有很好的经济价值,所以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃,并出现了很多值得注意的动向。
1.自然语言理解技术
自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出像人那样理解、分析并回答自然语言。以自然语言理解技术为基础的新一代搜索引擎,我们称之为智能搜索引擎。由于它将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。因而这种搜索引擎具有信息服务的智能化、人性化特征,允许网民采用自然语言进行信息的检索,为它们提供更方便、更确切的搜索服务。
2.十分注意提高信息查询结果的精度,提高检索的有效性
更多精彩
赞助商链接