开发学院网络安全黑客技术分布式网络爬虫关键技术分析与实现一网络爬虫相关... 阅读

分布式网络爬虫关键技术分析与实现一网络爬虫相关知识介绍

　2010-09-30 16:53:59　来源：WEB开发网　　　

核心提示： 用户在搜索引擎上进行信息查询时，并不十分关注返回结果的多少，分布式网络爬虫关键技术分析与实现一网络爬虫相关知识介绍(3)，而是看结果是否和自己的需求吻合，对于一个查询，以提高信息发现和更新速度:索引器可以将索引分布在不同的机器上，以减小索引对机器的要求;检索器可以在不同的机器上进行文档的并行检索

用户在搜索引擎上进行信息查询时，并不十分关注返回结果的多少，而是看结果是否和自己的需求吻合。对于一个查询，传统的搜索引擎动辄返回几十万、几百万篇文档，用户不得不在结果中筛选。解决查询结果过多的现象目前出现了几种方法：

(1)是通过各种方法获得用户没有在查询语句中表达出来的真正用途，包括使用智能代理跟踪用户检索行为，分析用户模型;使用相关度反馈机制，使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度)，哪些不相关，通过多次交互逐步求精。-3-哈尔滨工业大学工学硕士学位论文

(2)是用正文分类(Text Categorization)技术将结果分类，使用可视化技术显示分类结构，用户可以只浏览自己感兴趣的类别。

(3)是进行站点类聚或内容类聚，减少信息的总量。

3．基于智能代理的信息过滤和个性化服务

信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型(如Web知识、信息处理、与用户兴趣相关的信息资源、领域组织结构)、用户模型(如用户背景、兴趣、行为、风格)知识进行信息搜集、索引、滤(包括兴趣过滤和不良信息过滤)，并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力，从而提供个性化的服务。智能代理可以在用户端进行，也可以在服务器端运行。

4．采用分布式体系结构提高系统规模和性能

搜索引擎的实现可以采用集中式体系结构和分布式体系结构，两种方法各有千秋。但当系统规模到达一定程度(如网页数达到亿级)时，必然要采用某种分布式方法，以提高系统性能。搜索引擎的各个组成部分，除了用户接口之外，都可以进行分布：搜索器可以在多台机器上相互合作、相互分工进行信息发现，以提高信息发现和更新速度:索引器可以将索引分布在不同的机器上，以减小索引对机器的要求;检索器可以在不同的机器上进行文档的并行检索，以提高检索的速度和性能。

上一页 1 2 3 4 5 6 7 8 下一页