米Googleは11日、検索用のWebページを収集する手法として、Web中のフォームに適当な値を入力し、表示されるページを収集対象とする実験を一部のサイトに対して行なっていることを公表した。
Googleの公式ブログに投稿された記事によれば、この実験は通常のクローリングでは収集できない「ディープWeb」などと呼ばれるページを検索対象とするための取り組みとして実施しており、実験は既に数カ月前から行なっているという。Googleでは、これまでもページ中のJavaScriptやFlashをスキャンすることで新たなページを見つける手法などを用いてきたが、さらにフォームの入力後に表示されるWebページについても収集対象とするための実験を開始したとしている。
収集方法としては、HTML中にFORMタグを発見した場合に、テキストボックスにそのサイトで使われている適当な単語を入力し、セレクトメニューやチェックボックス、ラジオボタンなども適当な値を選択してフォームを送信。結果として得られたページの内容によっては、Googleのインデックスに含めることがあるという。
Googleでは、この実験は特定の少数のサイトのみを対象として実施しており、収集用のエージェントはrobots.txtやnofollow、noindexなどの指示に従っていると説明。対象とするのはGETメソッドによるフォームのみで、パスワードやユーザーIDなどの入力フォームに対してはこの実験は行なわず、取得結果はGoogleのPageRankには影響を及ぼさないとしている。
関連情報
■URL
Google公式ブログの該当記事(英文)
http://googlewebmastercentral.blogspot.com/2008/04/crawling-through-html-forms.html
( 三柳英樹 )
2008/04/14 16:13
- ページの先頭へ-
|