robot.txt とは
robot.txt とは、これをサイト内の所定の場所に置くことにより、特定のページが、検索エンジンのインデックス(データベース)に登録されないようするためのファイルです。
google、goo など各種検索エンジンに共通のフォーマットですが、中にはrobot.txt の指示に従わないものもあるようです。
googleで検索されなくなった(インデックスが消滅した)原因と対策 でも述べたのですが、クローラーが思いもかけないファイルにアクセスし、そのため多数のアクセスエラーが発生した場合、インデックスが削除されるおそれもあります。
したがって、SEO対策の見地からは、robot.txt という仕組みを積極的に活用し、クローラーの動きをコントロールすべきだと思います。
robot.txt か robots.txt か
ログを解析していると、Google、MSN 、infoseek は robots.txt に対して、アクセスを試みていました。
ネットでは、robot.txt という表記もあるのですが、robots.txt が正規なのでしょう。
robot.txt の使い方
robot.txt の置き場所
robot.txt はサイトのルートパスに置かなければなりません。
robot.txt の書き方(様式・フォーマット)
例えば、次のように記述します。これは、すべての検索エンジンに対し、すべてのサイト内のファイルのインデックス化を禁じるものです。
Disallow: /
このように、robot.txt には、User-agent と、Disallow という2つの項目から成り立っています。
User-agent
インデックス化を禁止する対象の検索エンジンのロボットを指定する項目です。
ロボット名については、Database
of Web Robots, Overview を参考にしてください。
Google → Googlebot
goo → moget
msn → msnbot
infoseek → InfoSeek
例えば、Google と goo に対して、すべてのファイルの登録を禁止する場合には、次のように記述します。
Disallow: /
User-agent: moget
Disallow: /
Disallow
インデックス化を禁止するフォルダないしはファイルを指定します。
例えば、Google に対して、特定のフォルダないしはファイルの登録を禁止する場合には、次のように記述します。
Disallow: /_layouts/
Disallow: /desktop.ini/
Google
では、「サイトの概要」でクロールエラーを調べることができます。クローラーに訪れて欲しくないファイルでアクセスエラーが発生している場合には早急に
robot.txt を使ってアクセスを禁止するようにした方がいいでしょう。