分布式网络爬虫关键技术分析与实现一网络爬虫相关知识介绍
2010-09-30 16:53:59 来源:WEB开发网搜索引擎发展的历史过程与发展现状
1搜索引擎的发展的历史
1990年以前,没有任何人能搜索互联网。所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage,Peter Deutsch.BillWheelan发明的Archie(Archie FAQ)。一个可以用文件名查找文件的系统,于是便有了Archie.Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。1995年12月,Altavista永远改变了搜索引擎的定义。AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎(如AND,OR,NOT等)。用户可以用Altavista搜索Newsgroups新闻组)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Javaapplets、搜索ActiveX objects.许多关于网络爬虫的论文都在第一届和第二届World Wide Web conferences被发表。1998年,Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。至2005年4月21为止,Google中所收集的Web页面数量已经达到8,058,044,651张。现阶段,出现了Ask Jeeves,Baidu.com,Goto.com,MySimon,Dito等内容类别不同的搜索引擎。
2搜索引擎的发展现状与趋势
目前,大多数的搜索引擎都是基于关键词的搜索引擎。基于关键字匹配的搜索技术有较大的局限性:首先,它不能区分同形异义。其次,不能联想到关键字的同义词[9]。
Web商业化至今,搜索引擎始终保持着网络上被使用最多的服务项目的地位,然而,随着网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎越来越不能满足挑剔的网民们的各种信息需求。这表现在以下几个方面:
更多精彩
赞助商链接