网站优化中应减少重复内容让蜘蛛爱不释手

　2010-11-09 08:14:28　来源：WEB开发网　　　

核心提示：重复内容通常是指域内或多个域之间存在的、与其他内容完全匹配或大致类似的内容，也就是说一个网站中可能存在许多重复的页面，网站优化中应减少重复内容让蜘蛛爱不释手，比如内容页、产品的搜索列表页、不同的url指向同一页面等，这就都是属于重复范围，你就可以稳操胜券，重复页面对蜘蛛而言非常的耗时耗力，表面看起来没什么关系，对网站无

重复内容通常是指域内或多个域之间存在的、与其他内容完全匹配或大致类似的内容。也就是说一个网站中可能存在许多重复的页面，比如内容页、产品的搜索列表页、不同的url指向同一页面等，这就都是属于重复范围。表面看起来没什么关系，对网站无害。但对蜘蛛而言就是灭顶之灾。当然大多数情况下也不是故意的页面重复.

能够生成用于移动设备的常规和简化网页的论坛

通过多个不同网址显示或链接的存储项目

网页的可打印版本

URL的重复

不同url指向同一页面，这个也算重复页面。蜘蛛爬行是按照链接来爬行的，在爬行之前蜘蛛并不知道这些不同的url指向同一个页面。它会慢慢的去爬行，爬过之后才会知道竟然是重复的页面，在进行相应的处理，表面上看起来也是没有什么问题。实际上蜘蛛已经花了相当大的力气来解析这几个重复的url，这就等于是宽带的浪费一样。

http://www.***.net/

***.net

http://www.***.net/index.html

访问的都是首页，何不如我们做做好事，用301重定向把他转到指定的url。

笔者选择http://www.***.net/这个地址，采用Apache服务器设置方法是，在.htaccess文件中加入以下代码

RewriteEngine on

RewriteCond %{http_host} ^***.net［NC］

RewriteRule ^（.*）$ http://www.***.net/$1 ［L，R=301］

RewriteEngine on

RewriteCond %{http_host} ^http://www.***.net/index.html ［NC］

RewriteRule ^（.*）$ http://www.***.net/$1 ［L，R=301］

详细方法请查看百度百科里的详细介绍http://baike.baidu.com/view/2173220.htm

打印文本的重复

一般网站都会有一个可供浏览的页面，还有一个可以打印的文本。这个打印文本一般是看不出来的，只有需要打印才能看到文本，但内容都和页面文本一样，这就形成了和网页文本的重复。对用户无所谓，但对蜘蛛就不一样了。我们应该避免这个情况出现，解决方法是用robots.txt来禁止蜘蛛抓取打印文本。

底部版权的重复

每个网站都有自己的版权说明，有的网站在底部些了很多关于版权方面的文字，非常的多。其实这个完全没有必要。看看十九楼底部版权如何

非常的清晰明了，把一切关于版权，公司动态，法律声明的东西都放到一个独立页面去，只用文本链接过去。这样也大大降低了样板文字的重复度。

404页面的重复

一个大型网站无可厚非有很多404页面。但这些404页面也是一种资源上的重复。最好是用robots.txt来禁止抓取。

网站搜索的重复

现在的网站都有一个用户喜欢的工具，那就是网站搜索条。对用户而言能更快的找到自己想要的内容，但对蜘蛛不是这么回事，也会增加重复度，所以也要屏蔽它。

一般可以在robots.txt文件里加入Disallow： /search.php$（/search.php）文件要根据你网站系统来定，也就是你网站搜索采用哪个文件来执行搜索的）

Robots.txt文件的应用

我发现好多可以禁止重复页面的方法都可以用robots.txt文件来解决，所以我们一定要掌握robots.txt使用的正确方法，发挥它强大的威力。

百度robots.txt说明 http://www.baidu.com/search/robots.html

不管是做SEO还是做网站，每一个细节都是决定成败的关键，你比别人多付出一点，你就可以稳操胜券。重复页面对蜘蛛而言非常的耗时耗力，我们也该为蜘蛛减减压了。

本文首发地址周振兴的seo推广博客：http://www.zzxing.net/seo-jishu/robots-seo/（转载请保留）

感谢 zzxing 的投稿