WEB开发网
开发学院软件开发Java Webharvest网络爬虫应用总结 阅读

Webharvest网络爬虫应用总结

 2009-09-26 00:00:00 来源:WEB开发网   
核心提示: 这个配置文件分为三个部分:1. 定义爬虫入口:<var-defname="start"><html-to-xml><httpurl="http://www.tianya.cn/bbs/index.shtml"charset=&

这个配置文件分为三个部分:

1.      定义爬虫入口:

<var-def name="start">
   <html-to-xml>
        <http url="http://www.tianya.cn/bbs/index.shtml" charset="utf-8" />
      </html-to-xml>
   </var-def>

爬虫的入口URL是:http://www.tianya.cn/bbs/index.shtml

同时,指定了爬虫的爬数据的编码,这个编码应该根据具体的页面编码来定,例如上面的入口页面的编码就是utf-8。其实,有很多的中文页面的编码是gbk或者gb2312,那么这个地方的编码就要相应设置,否则会出现数据乱码。

2.      定义数据的过滤规则:

<var-def name="ulList">
    <xpath expression="//div[@class='bankuai_list']">
        <var name="start" />
       </xpath>
</var-def>

上面配置就是根据XPath从爬得的数据中筛选合适的内容。这里需要得到所有的<div class="bankuai_list"></div>信息。有关XPath和XQuery的语法请网上查询。

3.      最后一步就是处理数据。可以写入XML文件,也可以使用SetContextVar的方式把收集的数据塞到一个集合变量中,供Java代码调用(比如:数据直接入库)。

这里是直接写入XML文件,然后解析XML即可。

注意下面的for循环,这是XQuery的语法,提供遍历的功能。由于大版面小版块是一个树状结构,需要这种遍历。

<board boardname="{normalize-space(data($item//h3/text()))}" boardurl="">
{
       for $row in $item//li return
<board boardname="{normalize-space(data($row//a/text()))}" boardurl="{normalize-space(data($row/a/@href))}" />
}
</board>

相关的Java代码如下:

/**
* Copyright(C):2009
 * @author陈新汉
 * Sep4,20093:24:58PM
 */
String configFile="tianya.xml";
ScraperConfiguration config = new ScraperConfiguration(configFile);
String targetFolder="c:\\chenxinhan";
Scraper scraper = new Scraper(config,targetFolder);
//设置爬虫代理
scraper.getHttpClientManager().setHttpProxy("218.56.64.210","8080");
scraper.setDebug(true);
scraper.execute();

上面代码执行完成后,收集的数据文件地址为:c:\chenxinhan\tianya\siteboards.xml

上一页  1 2 3 

Tags:Webharvest 网络 爬虫

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接