关于Robots.txt的SEO资料
关于Robots.txt的几点常用SEO资料:
1. 搜索蜘蛛都是贪婪的。原则上讲,除非搜索蜘蛛被事先告知,不然它们认为它们可以爬取和收录任意它们可以访问的页面。
2. Robots.txt文件就是是用来告诉搜索蜘蛛对于一个网站的页面,哪些可以收录,哪些不可以。
3. 每个搜索蜘蛛都有自己的名字,而星号(*)代表所有的搜索蜘蛛。如果你对某一个搜索蜘蛛,比如说GoogleBot采取了与其他搜索蜘蛛不同的指令的时候,这个指令优先于星号(*)指令。
User-agent:*
Disallow: /admin/
Disallow: /pr/
User-agent: googlebot
Disallow: /admin/
如上所示,一段指令禁止所有的蜘蛛收录pr文件夹,第二段指令没有禁止GoogleBot收录pr文件夹,那么当GoogleBot来访的时候,它会忽略你的第一段指令。
4. Robots.txt不能完全的避免你的页面显示在Google搜索结果页面中,因为这些页面可能存在其他外部反链接。最好的避免某些页面显示在Google搜索结果页面的方法是在每页代码中使用 robots nonindex meta tag。如:
<meta name=”robots” content=”noindex”>
<meta name=”robots” content=”noindex,nofollow”>
5. 如果你没有Robots.txt文件,那么当搜索蜘蛛抓取Robots.txt文件的时候,你的服务器会自动反馈404错误。所以,如果你不想使用Robots.txt来引导搜索蜘蛛,你也最好上传一个空白文件作为你的Robots.txt。
6. 此外,你还可以在Robots.txt中指定你的Sitemap地址。
7. 就算使用了Robots.txt不让Googlebot收录这些页面,它们任然为消耗Page Rank。避免这些没有被收录的页面消耗Page Rank,最好的办法是使用 rel=nofollow。
常用Robts.txt 格式:
允许所有的搜索蜘蛛收录所有页面:
User-agent:*
Disallow:
禁止所有的搜索蜘蛛收录任何页面:
User-agent:*
Disallow:/
禁止所有的搜索蜘蛛收录一个文件夹,但是允许收录该文件夹里面的一个文件:
User-agent:*
Disallow:/folder1/
Allow:/folder1/file1.html
如果你想用Robots.txt文件禁止GoogleBot收录你网站上任何一个以.php结尾的页面,那么你可以用如下格式:(后面跟着$符号)
User-agent: Googlebot
Disallow: /*.php$
如果你想禁止所有搜索蜘蛛收录任何链接里面带问号(?)的页面,那么你可以用如下格式:
User-agent: *
Disallow: /*?
如果你想禁止所有搜索蜘蛛收录任何带private单词的链接,那么你可以使用如下格式:
User-agent: *
Disallow: /*private*
如果你想禁止所有带问号(?)并且带参数的链接,但是允许搜索蜘蛛收录以问号(?)结尾的链接,那么你可以使用以下格式:
User-agent: *
Allow: /*?$
Disallow: /*?
更多关于Robots.txt的写法,请参考 Googlebot 资料。

很详细,谢谢搜猫的整理。