普遍认为,robots应该忽略大小写和版本号。要记住这是大多数商业搜索引擎的robots作者们的意见,因为你不想用那些没用的页面来使用户感到苦恼。但是,虽然在命令行中你可以不必考虑大小写,但是必须保证在键入URL时是准确无误的。虽然Windows NT 对文件名和路径名的大小写无所谓,但并不是所有的平台都如此。
# Don't come to this site
User-agent: *
Disallow: / # Disallows anything
例2
# robots.txt for XYZcorp
# webmaster: John Doe contact JohnD@xyzcorp.com
User-agent: * # Applies to all robots except next record
Disallow: /store/order/ # No robot should visit any URL starting with
/store/order/
Disallow: /admin/ # Disallow any pages in the admin folder
Disallow: /world_domination.asp # Disallow world_domination.asp
好,这就是有关robot.txt文件的全部内容。下面介绍如何使用 < META >标记 。
使用一个< META > robot 标记
同样,你还是不能保证一个robot 会完全遵守< META >标记中的指示,但是对商业搜索引擎来说还是十分有效的。< META >标记必须包含在一个文件的< HEAD > 部分。他们工作的原理是告诉robot 是否可以对其中有这个标记的页面进行索引,是否可以跟随页面上或其下的文件夹中的任何链接。
同样,语法非常简单。第一个例子是:
< META NAME="robots" CONTENT="noindex" >
这行代码告诉 robot不要索引这一页。
下一个例子:
< META NAME="robots" CONTENT="nofollow" >
允许robot索引这一页,但是规定它不能够跟随这一页上的任何链接。如果你想将二者都禁止,可以使用:
< META NAME="robots" CONTENT="noindex, nofollow" >
这表示不要索引这一页,也不要跟随这页上的任何链接。但是,还有一个更简单的方法:
< META NAME="robots" CONTENT="none" >
还是表示不要索引这一页,或跟随这页上的任何链接。
不幸的是,如果你有一个名为admin.asp的文件与 update.asp相链接,在admin.asp中使用< META >
标记来防止robot 对admin.asp 或 update.asp 进行索引,却忘记在另一个与update.asp 相链接的
页面中也做同样的处理,那么robot 还是可以通过这个漏掉< META > 标记的第二页而到达update.asp。
另外,你还可以使用值索引。但由于它们被忽略时是默认值,因此这是没有必要的,而且这样做没有意义。
如果你使用的是IIS,那么应该总是使用定制的 HTTP 头文件来执行< META > 标记方法。从理论上讲,一个robot 对以这种方式创建的< META > 标记的反应应该是完全一样的,看起来是这样: