有害ページを効率的に自動収集するクローラ、KDDI研究所が開発


 株式会社KDDI研究所は2日、有害情報を含むウェブページを効率的に自動収集する「有害クローラ」を開発したと発表した。

 ウェブページ自体を収集する前に、URLから得られるさまざま特性をもとに、有害ページである可能性を算出。有害ページである可能性の高いURLを中心に収集していくのが特徴。例えば、安価なサーバーを利用している(IPアドレスを他のウェブサイトと共有)、有害情報規制の緩い場所にサーバーを設置している(有害ページとIPアドレスが近い)――といった特性だ。

 これにより、ウェブページを発見した順に収集するよりも効率的に有害ページを収集でき、その後の人力また自動による有害判定の検査効率が上がるとしている。

「有害クローラ」の特徴と有害可能性の判定基準

 フィルタリングサービスのブラックリストを作成している事業者への技術提供が期待されており、KDDI研究所では今後、大規模実験を行いながら技術開発を進めていくとしている。


関連情報


(永沢 茂)

2011/2/2 16:44