やじうまWatch

新サービスの実験URLも赤裸々に? 大手サイトのrobots.txtが面白い

 robots.txtといえば、ウェブサイトへのアクセスを制御するためのファイルだ。ここに対象ディレクトリを記述しておくことで、検索エンジンのクローラーによるアクセスを許可したり拒絶したりするというもので、サイト制作者や運営者にとってはおなじみの存在。中身は単純なテキストファイルなので外部からでも容易に参照できるわけだが、ブログ「とある社会学屋の唯物史観」が、大手ウェブサイトのrobots.txtの記述内容をまとめたエントリーを公開して注目を集めていた。一部のクローラーを拒絶していたり、クロール間隔を指定してあったりという記述はさることながら、なかにはGoogleのように、新サービスの実験ページとみられるディレクトリが記載している場合もあったりと、たいへん興味深い内容。かなりの労作で、目を通していると記述に関するさまざまなヒントも浮かんでくるので、ウェブサイトの運営者はチェックしておくとよさそうだ。

◇大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴(とある社会学屋の唯物史観)
http://www.geek.sc/archives/869

(tks24)