| robotstxt.com.cn |
|
|
什么是robots.txt?robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。robots.txt 是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。当一个搜索机器人robots(有的叫搜索蜘蛛或者爬虫)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索引擎爬虫就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索引擎爬虫就沿着链接抓取。 只有当您的网站中包含您不想让搜索引擎编入索引的内容时,才需要使用 robots.txt 文件。如果您希望搜索引擎将网站上的所有内容编入索引,则不需要 robots.txt 文件(甚至连空的 robots.txt 文件也不需要)。 为了能使用 robots.txt 文件,您必须要有对您网站的根目录的访问权限(如果您不能确定是否有该权限,请与您的网络托管商核实)。如果您没有对网站的根目录的访问权限,可以使用robots元标记来限制访问。
如何使用元标记拦截对您网站的访问?将以下元标记添加到网页的 <head> 部分:
<meta name="robots" content="noindex">
例如要允许其他搜索引擎将网站中的网页编入索引,仅阻止 Google 的爬虫对网页采取同样操作,请将以下元标记添加到网页的 <head> 部分:
<meta name="googlebot" content="noindex">
robots.txt 语法规则,这里以google搜索引擎为例最简单的 robots.txt 文件使用两条规则:User-agent:应用以下规则的漫游器 robots.txt 文件的各个部分都是独立的,而不是在先前部分的基础上构建的。例如:
User-agent: *
Disallow: /文件夹 1/ User-Agent: Googlebot Disallow: /文件夹 2/ 在本例中,只有符合 /文件夹 2/ 的网址才会被 Googlebot 禁止。
User-agent 和漫游器User-agent 是一种特定的搜索引擎漫游器。网络漫游器数据库列出了许多常用的漫游器。您可以将某一条目设置为适用于某一特定漫游器(以显示名称的方式列出)或适用于所有漫游器(以标记为星号的方式列出)。适用于所有漫游器的条目应为以下格式:User-agent: *
Google 使用多种不同的漫游器 (User-agent)。我们的网页搜索所使用的漫游器为 Googlebot。Googlebot-Mobile 和 Googlebot-Image 等其他漫游器也会遵循您为 Googlebot 所设置的规则,但您也可以为这些特定的漫游器设置特定的规则。 拦截 User-agentDisallow 行列出的是您要拦截的网页。您可以列出某一特定的网址或模式。条目应以正斜线 (/) 开头。Disallow: /
Disallow: /无用目录/
Disallow: /私人文件.html
User-agent: Googlebot-Image
Disallow: /图片/狗.jpg User-agent: Googlebot-Image
Disallow: / User-agent: Googlebot
Disallow: /*.gif$ User-agent: *
请注意,指令区分大小写。例如,Disallow: /junk_file.asp 会拦截 http://www.example.com/junk_file.asp,却会允许
http://www.example.com/Junk_file.asp。Googlebot 会忽略 robots.txt 中的空白内容(特别是空行)和未知指令。
Disallow: / User-agent: Mediapartners-Google Allow: / Googlebot 支持通过 robots.txt 文件提交站点地图文件。 模式匹配Googlebot(但并非所有搜索引擎)遵循某些模式匹配原则。 User-agent: Googlebot
Disallow: /private*/ User-agent: Googlebot
Disallow: /*? User-agent: Googlebot
Disallow: /*.xls$ User-agent: *
指令会阻止包含 ? 的所有网址(具体地说,它将拦截所有以您的域名开头、后接任意字符串,然后接问号,而后又接任意字符串的网址)。
Allow: /*?$ Disallow: /*?Disallow: /*? Allow: /*?$ 指令将允许以 ? 结尾的任何网址(具体地说,它将允许所有以您的域名开头、后接任意字符串,然后接 ?,? 之后不接任何字符的网址)。 在线生成Robots.txt |