Webharvest网络爬虫应用总结

　2009-09-26 00:00:00　来源：WEB开发网　【

核心提示： 这个配置文件分为三个部分：1. 定义爬虫入口：<var-defname="start"><html-to-xml><httpurl="http://www.tianya.cn/bbs/index.shtml"charset=&

这个配置文件分为三个部分：

1.　　　　　定义爬虫入口：

<var-def　name="start"> 　　　<html-to-xml> 　　　　　　　　<http　url="http://www.tianya.cn/bbs/index.shtml"　charset="utf-8"　/> 　　　　　　</html-to-xml> 　　　</var-def>

爬虫的入口URL是：http://www.tianya.cn/bbs/index.shtml

同时，指定了爬虫的爬数据的编码，这个编码应该根据具体的页面编码来定，例如上面的入口页面的编码就是utf-8。其实，有很多的中文页面的编码是gbk或者gb2312，那么这个地方的编码就要相应设置，否则会出现数据乱码。

2.　　　　　定义数据的过滤规则：

<var-def　name="ulList"> 　　　　<xpath　expression="//div[@class='bankuai_list']"> 　　　　　　　　<var　name="start"　/> 　　　　　　　</xpath> </var-def>

上面配置就是根据XPath从爬得的数据中筛选合适的内容。这里需要得到所有的<div class="bankuai_list"></div>信息。有关XPath和XQuery的语法请网上查询。

3.　　　　　最后一步就是处理数据。可以写入XML文件，也可以使用SetContextVar的方式把收集的数据塞到一个集合变量中，供Java代码调用（比如：数据直接入库）。

这里是直接写入XML文件，然后解析XML即可。

注意下面的for循环，这是XQuery的语法，提供遍历的功能。由于大版面小版块是一个树状结构，需要这种遍历。

<board　boardname="{normalize-space(data($item//h3/text()))}"　boardurl=""> { 　　　　　　　for　$row　in　$item//li　return <board　boardname="{normalize-space(data($row//a/text()))}"　boardurl="{normalize-space(data($row/a/@href))}"　/> } </board>