WEB开发网
开发学院软件开发Java Webharvest网络爬虫应用总结 阅读

Webharvest网络爬虫应用总结

 2009-09-26 00:00:00 来源:WEB开发网   
核心提示: 通过页面源码分析,发现每个大板块都是在<div class="bankuai_list"></div>的包括之下,Webharvest网络爬虫应用总结(2),而大板块下面的小版块都是下面的形式包含的,<li><a href="

通过页面源码分析,发现每个大板块都是在<div class="bankuai_list"></div>的包括之下,而大板块下面的小版块都是下面的形式包含的。

<li><a href="xxx" id="xxx">xxx</a></li>,这些规律就是webharvest爬数据的规则。

下面先给出全部的配置:(tianya.xml)

<config charset="utf-8">
         <var-def name="start">
            <html-to-xml>
                   <http url="http://www.tianya.cn/bbs/index.shtml" charset="utf-8" />
            </html-to-xml>
         </var-def>
         <var-def name="ulList">
            <xpath expression="//div[@class='bankuai_list']">
                   <var name="start" />
            </xpath>
         </var-def>
        <file action="write" path="tianya/siteboards.xml" charset="utf-8">
               <![CDATA[ <site> ]]>
               <loop item="item" index="i">
                   <list><var name="ulList"/></list>
                   <body>
                       <xquery>
                           <xq-param name="item">
                            <var name="item"/>
                           </xq-param>
                           <xq-expression><![CDATA[
                                   declare variable $item as node() external; 
                                   <board boardname="{normalize-space(data($item//h3/text()))}" boardurl="">
                                   {
                                         for $row in $item//li return
                                             <board boardname="{normalize-space(data($row//a/text()))}" boardurl="{normalize-space(data($row/a/@href))}" />
                                  }
                                  </board>
                           ]]></xq-expression>
                       </xquery>
                   </body>
               </loop>
               <![CDATA[ </site> ]]>
        </file>
</config>

Tags:Webharvest 网络 爬虫

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接