WEB开发网
开发学院软件开发C语言 用C#2.0实现网络蜘蛛(WebSpider) 阅读

用C#2.0实现网络蜘蛛(WebSpider)

 2009-05-29 08:31:25 来源:WEB开发网   
核心提示: 1. 指定一个(或多个)入口网址,并将这个网址加入到下载队列中(这时下载队列中只有一个或多个入口网址),用C#2.0实现网络蜘蛛(WebSpider)(2),2. 负责下载网络资源的线程从下载队列中取得一个或多个URL,并将这些URL所指向的网络资源下载到本地(在下载之前,既然要将这个文件

1. 指定一个(或多个)入口网址,并将这个网址加入到下载队列中(这时下载队列中只有一个或多个入口网址)。

2. 负责下载网络资源的线程从下载队列中取得一个或多个URL,并将这些URL所指向的网络资源下载到本地(在下载之前,一般应该判断一下这个URL是否已经被下载过,如果被下载过,则忽略这个URL)。如果下载队列中没有URL,并且所有的下载线程都处于休眠状态,说明已经下载完了由入口网址所引出的所有网络资源。这时网络蜘蛛会提示下载完成,并停止下载。

3. 分析这些下载到本地的未分析过的网络资源(一般为html代码),并获得其中的URL(如标签中href属性的值)。

4. 将第3步获得的URL加入到下载队列中。并重新执行第2步。

三、实现数据的输入输出

从实现网络蜘蛛的步骤中我们可以看出,下载队列的读、写URL的操作一直贯穿于整个系统中。虽然这个下载队列可以用.Queue类实现,但是各位读者要清楚地知道,在互联网上的URL可不是几十个、几百个这么少。而是以千万计的。这么多的URL显然不能保存在内存中的Queue对象中。因此,我们需要将它保存在容量更大的存储空间中,这就是硬盘。

本文采用了一个普通的文本文件来保存需要下载和分析的URL(这个文本文件也就是下载队列)。存储格式是每一行为一个URL。既然将URL都保存在了文本文件中,就需要对这个文本文件进行读写。因此,在本节实现了一个用于操作这个文本文件的FileIO类。

在实现FileIO类之前,先来说一下要如何操作这个文本文件。既然要将这个文件作为队列使用,那么就需要对这个文件进行追加行和从文件开始部分读取数据操作。让我们首先来实现向文件中追加行操作。实现代码如下:

向文件中追加行的实现代码

上一页  1 2 3 4 5 6 7  下一页

Tags:实现 网络 蜘蛛

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接