关于Robots.txt的SEO资料

2009年4月12日 | 标签: , ,

关于Robots.txt的几点常用SEO资料:

1. 搜索蜘蛛都是贪婪的。原则上讲,除非搜索蜘蛛被事先告知,不然它们认为它们可以爬取和收录任意它们可以访问的页面。

2. Robots.txt文件就是是用来告诉搜索蜘蛛对于一个网站的页面,哪些可以收录,哪些不可以。

3. 每个搜索蜘蛛都有自己的名字,而星号(*)代表所有的搜索蜘蛛。如果你对某一个搜索蜘蛛,比如说GoogleBot采取了与其他搜索蜘蛛不同的指令的时候,这个指令优先于星号(*)指令。

User-agent:*

Disallow: /admin/

Disallow: /pr/

User-agent: googlebot

Disallow: /admin/

如上所示,一段指令禁止所有的蜘蛛收录pr文件夹,第二段指令没有禁止GoogleBot收录pr文件夹,那么当GoogleBot来访的时候,它会忽略你的第一段指令。

4. Robots.txt不能完全的避免你的页面显示在Google搜索结果页面中,因为这些页面可能存在其他外部反链接。最好的避免某些页面显示在Google搜索结果页面的方法是在每页代码中使用 robots nonindex meta tag。如:

<meta name=”robots” content=”noindex”>

<meta name=”robots” content=”noindex,nofollow”>

5. 如果你没有Robots.txt文件,那么当搜索蜘蛛抓取Robots.txt文件的时候,你的服务器会自动反馈404错误。所以,如果你不想使用Robots.txt来引导搜索蜘蛛,你也最好上传一个空白文件作为你的Robots.txt

6. 此外,你还可以在Robots.txt中指定你的Sitemap地址。

7. 就算使用了Robots.txt不让Googlebot收录这些页面,它们任然为消耗Page Rank。避免这些没有被收录的页面消耗Page Rank,最好的办法是使用 rel=nofollow

常用Robts.txt 格式:

允许所有的搜索蜘蛛收录所有页面:

User-agent:*

Disallow:

禁止所有的搜索蜘蛛收录任何页面:

User-agent:*

Disallow:/

禁止所有的搜索蜘蛛收录一个文件夹,但是允许收录该文件夹里面的一个文件:

User-agent:*

Disallow:/folder1/

Allow:/folder1/file1.html

如果你想用Robots.txt文件禁止GoogleBot收录你网站上任何一个以.php结尾的页面,那么你可以用如下格式:(后面跟着$符号)

User-agent: Googlebot

Disallow: /*.php$

如果你想禁止所有搜索蜘蛛收录任何链接里面带问号(?)的页面,那么你可以用如下格式:

User-agent: *

Disallow: /*?

如果你想禁止所有搜索蜘蛛收录任何带private单词的链接,那么你可以使用如下格式:

User-agent: *

Disallow: /*private*

如果你想禁止所有带问号(?)并且带参数的链接,但是允许搜索蜘蛛收录以问号(?)结尾的链接,那么你可以使用以下格式:

User-agent: *

Allow: /*?$

Disallow: /*?

更多关于Robots.txt的写法,请参考 Googlebot 资料。

  1. 2010年10月28日16:34

    很详细,谢谢搜猫的整理。