leechael.orgHome

Fanfou 和 twitter 的 robots.txt

robots.txt 其实是一个说不完的话题,这次稍微比较一下的 饭否Twitter 的 robots.txt。

饭否

Link: http://www.fanfou.com/robots.txt

User-agent: *
Disallow: /home
Disallow: /message
Disallow: /favorites

分别看看这被禁止的 URL 指向的页面: 在没有登陆的情况下, /home 及 /favorites 都是重定向至首页,这两条规则没有什么问题; 重点在于 /message 这条规则: 它禁止爬虫对 /message 该路径的爬行; 例如 我在饭否的页面,这个页面将不被遵守 robots.txt 规则的爬虫索引,或许这只是出于减轻索引对服务器的负担,但同时却让减少被索引的页面数量。

Twitter

Link: http://www.twitter.com/robots.txt

#Google Search Engine Robot
User-agent: Googlebot
# Crawl-delay: 10 -- Googlebot ignores crawl-delay ftl
Disallow: /*?

#Yahoo! Search Engine Robot
User-Agent: Slurp
Crawl-delay: 10
Disallow: /*?

#Microsoft Search Engine Robot
User-Agent: msnbot
Crawl-delay: 10
Disallow: /*?

# Every bot that might possibly read and respect this file.
User-agent: *
Disallow: /*?

相对来说,Twitter 对爬虫的爬行没有太多的限制,针对支持 Crawl-delay 的 Yahoo! 和 MSN 还设置了爬行速度(10 秒)。

Reference:

删除索引要慎重

在处理 leechael.org 旧有内容时, 我选择了一个较为慎重的方案: 删除索引。

加入 Meta-robots 标签。

<meta name="robots" content="nofollow" />

确保每一个页面都包括这个标签。

Robots.txt

User-agent: *
Disallow: /

阻止蜘蛛们的爬行

Google Webmaster Tools

Google 提供了让你申请删除索引的渠道。


此外, 我还放弃在 leechael.org 更新内容近两个月。

删除索引也会给你带来负面效果。 leechael.org 的 PR 变为 0。

因此, 在删除索引前, 需慎重考虑。