修改robots.txt,禁止部分网页被百度检索收录

有一个基于wordpress的项目用到了myCRED这个插件,我在页面中添加了一段推荐链接的代码

<?php echo do_shortcode( '[mycred_affiliate_link]' ); ?>

这段代码的意思是用当前页面(一般是文章最终页)为注册会员生成一个绑定其用户ID的推荐链接,会员在各种媒体上分享这个链接可以获得积分奖励。但是这段代码一个问题,就是如果访问者并没有登录,直接点击生成推荐链接的话,出来的链接当然不会与IID绑定,但是页面跳转之后,新产生了一个原 URL/0 这样的网页地址。这个地址也能访问,内容与原URL一样。这就是说,网站内部出现了一套与原网址内容完全一样的新的网址。比如首页 http://www.youdomain.com 和 http://www.youdomain.com/0 都可以访问。这样就出问题了,搜索引擎蜘蛛默认的身份就是游客,蜘蛛检索网页的时候会以游客身份点击生成一个带0的网址,蜘蛛会认为带0和不带0的两个页面均存在。而这个实际上并不存在的在末尾加了一个0的网页,在搜索引擎眼里,就成了镜像网页了,这就对搜索引擎很不友好了。

为了避免上述情况,我们需要在robots.txt里面指定带0的页面禁止蜘蛛爬行。具体方法是在robots.txt文件中添加:

User-agent: *
Disallow: /0

这样蜘蛛就不会再检索末尾带0的网页了。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注