WEB开发网
开发学院软件开发Java Webharvest网络爬虫应用总结 阅读

Webharvest网络爬虫应用总结

 2009-09-26 00:00:00 来源:WEB开发网   
核心提示:Web-Harvest是一个Java开源Web数据抽取工具,它能够收集指定的Web页面并从这些页面中提取有用的数据,Webharvest网络爬虫应用总结,其实现原理是,根据预先定义的配置文件用httpclient获取页面的全部内容(关于httpclient的内容,天涯的版块地图页面时:http://www.tianya

Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。其实现原理是,根据预先定义的配置文件用httpclient获取页面的全部内容(关于httpclient的内容,本博有些文章已介绍),然后运用XPath、XQuery、正则表达式等这些技术来实现对text/xml的内容筛选操作,选取精确的数据。前两年比较火的垂直搜索(比如:酷讯等)也是采用类似的原理实现的。Web-Harvest应用,关键就是理解和定义配置文件,其他的就是考虑怎么处理数据的Java代码。当然在爬虫开始前,也可以把Java变量填充到配置文件中,实现动态的配置。

现在以爬取天涯论坛的所有版面信息为例,介绍Web-Harvest的用法,特别是其配置文件。

天涯的版块地图页面时:http://www.tianya.cn/bbs/index.shtml

image

[天涯的部分版面列表]

我们的目标就是要抓取全部的版块信息,包括版块之间的父子关系。

先查看版块地图的页面源代码,寻求规律:

<div class="backrgoundcolor">
<div class="bankuai_list">
       <h3>社会民生</h3>
       <ul>
              <li><a href="http://www.tianya.cn/publicforum/articleslist/0/free.shtml" id="item天涯杂谈">天涯杂谈</a></li>
              <li><a href="http://www.tianya.cn/publicforum/articleslist/0/worldlook.shtml" id="item国际观察">国际观察</a></li>
              <li><a href="http://www.tianya.cn/publicforum/articleslist/0/news.shtml" id="item天涯时空">天涯时空</a></li>
              <li><a href="http://www.tianya.cn/publicforum/articleslist/0/no06.shtml" id="item传媒江湖">传媒江湖</a></li>
              …… //省略
</ul>
</div>
<div class="clear"></div>
</div>
<div class="nobackrgoundcolor">
<div class="bankuai_list">
       <h3>文学读书</h3>
              <ul>
                     <li><a href="http://www.tianya.cn/techforum/articleslist/0/16.shtml" id="item莲蓬鬼话">莲蓬鬼话</a></li>
                     <li><a href="http://www.tianya.cn/publicforum/articleslist/0/no05.shtml" id="item煮酒论史">煮酒论史</a></li>
                     <li><a href="http://www.tianya.cn/publicforum/articleslist/0/culture.shtml" id="item舞文弄墨">舞文弄墨</a></li>
                     ……. //省略
              </ul>
</div>
<div class="clear"></div>
</div>
……. //省略

1 2 3  下一页

Tags:Webharvest 网络 爬虫

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接