Webharvest网络爬虫应用总结

　2009-09-26 00:00:00　来源：WEB开发网　　　

核心提示： 通过页面源码分析，发现每个大板块都是在<div class="bankuai_list"></div>的包括之下，Webharvest网络爬虫应用总结(2)，而大板块下面的小版块都是下面的形式包含的，<li><a href="

通过页面源码分析，发现每个大板块都是在<div class="bankuai_list"></div>的包括之下，而大板块下面的小版块都是下面的形式包含的。

<li><a href="xxx" id="xxx">xxx</a></li>，这些规律就是webharvest爬数据的规则。

下面先给出全部的配置：(tianya.xml)

<config　charset="utf-8"> 　　　　　　　　　<var-def　name="start"> 　　　　　　　　　　　　<html-to-xml> 　　　　　　　　　　　　　　　　　　　<http　url="http://www.tianya.cn/bbs/index.shtml"　charset="utf-8"　/> 　　　　　　　　　　　　</html-to-xml> 　　　　　　　　　</var-def> 　　　　　　　　　<var-def　name="ulList"> 　　　　　　　　　　　　<xpath　expression="//div[@class='bankuai_list']"> 　　　　　　　　　　　　　　　　　　　<var　name="start"　/> 　　　　　　　　　　　　</xpath> 　　　　　　　　　</var-def> 　　　　　　　　<file　action="write"　path="tianya/siteboards.xml"　charset="utf-8"> 　　　　　　　　　　　　　　　<![CDATA[　<site>　]]> 　　　　　　　　　　　　　　　<loop　item="item"　index="i"> 　　　　　　　　　　　　　　　　　　　<list><var　name="ulList"/></list> 　　　　　　　　　　　　　　　　　　　<body> 　　　　　　　　　　　　　　　　　　　　　　　<xquery> 　　　　　　　　　　　　　　　　　　　　　　　　　　　<xq-param　name="item"> 　　　　　　　　　　　　　　　　　　　　　　　　　　　　<var　name="item"/> 　　　　　　　　　　　　　　　　　　　　　　　　　　　</xq-param> 　　　　　　　　　　　　　　　　　　　　　　　　　　　<xq-expression><![CDATA[ 　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　declare　variable　$item　as　node()　external;　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　<board　boardname="{normalize-space(data($item//h3/text()))}"　boardurl=""> 　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　{ 　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　for　$row　in　$item//li　return 　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　<board　boardname="{normalize-space(data($row//a/text()))}"　boardurl="{normalize-space(data($row/a/@href))}"　/> 　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　} 　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　</board> 　　　　　　　　　　　　　　　　　　　　　　　　　　　]]></xq-expression> 　　　　　　　　　　　　　　　　　　　　　　　</xquery> 　　　　　　　　　　　　　　　　　　　</body> 　　　　　　　　　　　　　　　</loop> 　　　　　　　　　　　　　　　<![CDATA[　</site>　]]> 　　　　　　　　</file> </config>