WEB开发网      濠电姷鏁告繛鈧繛浣冲洤纾瑰┑鐘宠壘閻ょ偓銇勯幇鍫曟闁稿鍠愰妵鍕冀閵娧佲偓鎺楁⒒閸曨偄顏柡宀嬬畱铻e〒姘煎灡绗戦梻浣筋嚙濮橈箓顢氳濠€浣糕攽閻樿宸ュΔ鐘叉啞缁傚秹宕滆绾惧ジ寮堕崼娑樺缂佹宀搁弻鐔风暋閻楀牆娈楅梺璇″枓閺呯姴鐣疯ぐ鎺濇晝闁靛牆妫欓蹇旂節閻㈤潧浠﹂柛銊ョ埣楠炴劙骞橀鑲╋紱闂佽宕樼粔顔裤亹閹烘挸浜归梺缁樺灦閿曗晛螞閸曨垱鈷戦柟鑲╁仜婵″ジ鎮楀☉鎺撴珖缂侇喖顑呴鍏煎緞濡粯娅囬梻浣瑰缁诲倿寮绘繝鍥ㄦ櫇闁稿本绋撻崢鐢告煟鎼淬垻鈯曢柨姘舵煟韫囥儳绋荤紒缁樼箖缁绘繈宕橀妸褌绱濋梻浣筋嚃閸ㄤ即宕弶鎴犳殾闁绘梻鈷堥弫鍌炴煕閳锯偓閺呮瑧妲愬Ο琛℃斀闁绘劕妯婇崵鐔封攽椤旇棄鍔ら摶鐐烘煕閺囥劌澧柛娆忕箻閺屽秹宕崟顒€娅g紓浣插亾濠㈣泛顑囩粻楣冩煙鐎涙ḿ绠橀柨娑樼У椤ㄣ儵鎮欓鍕紙闂佽鍠栫紞濠傜暦閹偊妲诲┑鈩冨絻椤兘寮诲☉銏犖╅柕澶堝労閸斿绱撴担绋库偓鍝ョ矓瑜版帒鏋侀柟鍓х帛閺呮悂鏌ㄩ悤鍌涘 ---闂傚倸鍊烽悞锔锯偓绗涘厾娲煛閸涱厾顔嗛梺璺ㄥ櫐閹凤拷
开发学院网络安全黑客技术 分布式网络爬虫关键技术分析与实现一网络爬虫相关... 阅读

分布式网络爬虫关键技术分析与实现一网络爬虫相关知识介绍

 2010-09-30 16:53:59 来源:WEB开发网 闂傚倸鍊风欢姘缚瑜嶈灋闁圭虎鍠栫粻顖炴煥閻曞倹瀚�闂傚倸鍊风粈渚€骞夐敓鐘插瀭闁汇垹鐏氬畷鏌ユ煙閹殿喖顣奸柛搴$У閵囧嫰骞掗幋婵冨亾閻㈢ǹ纾婚柟鐐灱濡插牊绻涢崱妤冃℃繛宀婁簽缁辨捇宕掑鎵佹瀸闂佺懓鍤栭幏锟�濠电姷鏁告慨顓㈠箯閸愵喖宸濇い鎾寸箘閹规洟姊绘笟鈧ḿ褍煤閵堝悿娲Ω閳轰胶鍔﹀銈嗗笂閼冲爼鍩婇弴銏$厪闁搞儮鏅涙禒褏绱掓潏鈺佷槐闁轰焦鎹囬弫鎾绘晸閿燂拷闂傚倸鍊风欢姘缚瑜嶈灋闁圭虎鍠栫粻顖炴煥閻曞倹瀚�  闂傚倸鍊烽懗鑸电仚缂備胶绮〃鍛村煝瀹ュ鍗抽柕蹇曞У閻庮剟姊虹紒妯哄闁圭⒈鍋嗛惀顏囶樄闁哄本娲樼换婵婄疀閺囩姷鐛ラ梻浣哄帶婢瑰﹥绂嶅⿰鍫氣偓鏃堝礃椤忎礁浜鹃柨婵嗛婢ь喖霉閻樻瑥瀚粻楣冩煕椤愩倕鏋庨柣蹇嬪劜閵囧嫰寮村Ο鍝勫Е濡炪們鍨洪悷鈺呭箖閳╁啯鍎熼柕鍥у簻閹凤拷
核心提示: 第五种是移动的爬行器,这种爬行器并不像其他爬行器一样在本地客户机向Web站点服务器发送页面请求,分布式网络爬虫关键技术分析与实现一网络爬虫相关知识介绍(8),而是将自己上载到它所要采集的服务器中,在当地进行采集,多个网络爬虫共同运行,肯定会涉及到各个节点间相互通信,并将采集结果压缩后,再回传到本

第五种是移动的爬行器。这种爬行器并不像其他爬行器一样在本地客户机向Web站点服务器发送页面请求,而是将自己上载到它所要采集的服务器中,在当地进行采集,并将采集结果压缩后,再回传到本地。这样做大量地节省了Web资源,大量的剪裁工作将在被采集对象的服务器上完成。

第六种是基于元搜索的爬行器。它对用户的提交的查询请求通过多个领域或门户搜索引擎搜索,并将结果整合后返回给用户。一般元搜索引擎并不保存Web页面的索引文件,但是有一些元搜索引擎会保存为它服务的每个搜索引擎的信息特征,以后根据用户请求做出选择。作为搜索引擎首要部件的爬行器在元搜索引擎中功能有所退化,但依然是Web采集的一个研究方向,被称作基于元搜索的信息采集。

3.5网络爬虫的两种工作方式

3.5.1集中式网络爬虫

集中式爬虫的工作原理是:给定的一组初始 URL 种子集合,通过爬虫主体程序多个

线程分别获取到种子 URL 后,将 URL 对应的 html 页面获取到本地进行分析,页面内容提取模块将页面中有用的可供搜索引擎建索引的信息获取到本地保存起来,种子提取模块将 html 页面中新的指向其他页面的链接提取出来,经过一系列的处理保存起来供以后继续爬行。 

3.5.2分布式网络爬虫

随着 WWW 信息的爆炸性增长,网络爬虫信息采集的速度越来越不能满足实际应

用的需要。即使大型的信息采集系统对 Web的覆盖率也只有 30-40%,刷新一遍已经采集的页面常常需要数周到一个月的时间。解决这一问题的直接办法是升级信息采集器的硬件,采用处理能力更强的计算机系统,然而这种方法的扩展性有限,性价比也不高。因而人们找了一个更好的选择,用分布式方式来进行网页信息采集。分布式网络爬虫可以看做由多个集中式网络爬虫组合而成。分布式系统中的每个节点都可以看作一个集中式网络爬虫。多个网络爬虫共同运行,肯定会涉及到各个节点间相互通信。这时候就会涉及到一些系统通信问题。

上一页  3 4 5 6 7 8 9  下一页

Tags:分布式 网络 爬虫

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接