Internet Watch logo
記事検索
最新ニュース

サイトのリンク構造から有害コンテンツを判定、東大とトレンドマイクロ

アダルトは結び付きが密、930ドメインが相互リンクする巨大集合体も確認

登壇者一同
 東京大学とトレンドマイクロは28日、情報セキュリティ分野の共同研究成果として「Webリンク構造の解析結果」を発表した。これは、Webサイトのリンク構造を把握することで、有害サイトの特定および未知サイトのカテゴライズ精度の向上を図るもの。研究は2007年6月から2008年1月にかけて行なわれた。

 研究では、トレンドマイクロのWebコンテンツ評価データベースからランダムに抽出した700のURLを出発点とし、各ページ内のリンクを3ジャンプ先まで辿ることでアクセスできるすべてのページを対象にした。総ページ数は1,247万2,530ページ、総リンク数は5,270万8,173リンク、総ドメイン数は33万9,828ドメイン。これらをトレンドマイクロのデータベースに基づいたカテゴリ分類を行ない、東京大学の研究者が各種可視化ツールを用いてリンク構造を分析した。

 動画・音声やゲーム、EC、不動産、アダルトなど各カテゴリを出発点とし、ホスト間のリンクに絞ってWebページを辿っていくと、どのようなサイトに行き着くのか(Webコンテンツのネットワーク構造)を可視化したところ、カテゴリによってサイト同士の結び付きに特徴が見られた。特に、相互リンクの密度はアダルトカテゴリが最も強いという。また、ホスト間のリンク数が150以上の強い結び付きを持つところも多数存在し、ここでもアダルトカテゴリに顕著な傾向が見られた。さらに、ホストのリンク数を示す「次数」もアダルトカテゴリや、その他の有害サイトが多かった。

 また、安全なカテゴリのページからであっても、リンクを辿ることによって、有害サイトに到達する可能性が高まることが判明した。例えば、アダルトカテゴリに到達する率は、安全なカテゴリ(アート・エンターテイメント、スポーツ、旅行など)から出発し、1ジャンプ先では平均0.27%だが、2〜3ジャンプ先では平均2.69%まで高まった。特に、ユーザーがリンクを貼るCGMコンテンツは他のカテゴリに結び付く可能性が高くなり、結果的に有害サイトへ行き着きやすい傾向であることがわかった。このほか、アダルトカテゴリ内では、930ドメインがすべて相互リンクする集合(巨大クリーク)が確認された。

 今回の研究成果を応用すれば、ホストのリンク構造を解析することで、カテゴリの類推が可能という。共同研究員の東京大学大学院情報理工学系研究科講師の増田直紀氏は、「日々何百億というWebページが更新される中で、新しいデータベースを作ってカテゴライズしていくのは間に合わないことがある。今まで、新しいサイトが安全かどうかわからない場合は“Unknown”としていたが、サイトのリンク先・リンク元を見ることで、サイトのカテゴリを推定できる。ユーザーがアクセスする前に、サイトのレコメンデーションが可能になる」と述べた。


Webコンテンツのネットワーク構造を可視化したもの。各カテゴリを色分けしている 次数分布図。アダルトは赤で、相互リンクも多いという特徴を持つ 到達ホストのカテゴリ比較。アダルトは赤。安全なサイト(青系)でも3ジャンプ目で赤に到達する可能性が出ている

542個のクリークを検出。最大クリークは930ホストノードを持つ 巨大クリークについて。ドメイン名は異なるが同一のコンテンツを持つホストだった カテゴリ分類への応用も可能

研究成果の応用でサイトの分類・危険度識別を向上

 今回の共同研究は、東京大学の産学連携プロジェクト「Proprius21」の一環として実施されたものだ。「Webリンク構造の解析結果」は共同研究成果の第1弾となる。東京大学産学連携本部長の藤田隆史教授は、「Proprius21では、大学側から企業にアプローチして、共同研究を行なっている。東京大学では、国際産学連携を発表しており、グローバルな展開を行なっているトレンドマイクロに声をかけた。また、情報セキュリティ分野については理工系だけでは十分な研究ができない。今回は、経済学研究科とも共同で取り組んだ」と述べた。情報理工学系研究科の増田氏は、「学内のデータだけでは不十分。トレンドマイクロ提供のデータを使用することで、十分な研究データが取れる」と説明した。

 トレンドマイクロ上席執行役員日本代表の大三川彰彦氏は、「現在、インターネット上の脅威はWebページからの感染経路がほとんど。Webページは毎日300億ページも更新されており、従来の目視検査やテキストマイニングでは分析が追い付かない。トレンドマイクロは数年前から対策を考えているが、今回、東京大学からお話をいただき、共同研究を行なったことで、とても良い成果が出た」とした。また、同社の事業開発室テクノロジーリサーチ課テクノロジーリサーチマネージャーの近藤賢志氏は、「今回の研究成果から、各カテゴリへの関連性に基づくサイトの危険度・脅威判定が可能になる。さらに、言語や表現のゆれなどに依存しない、高精度なWebカテゴリ分類・識別技術を確立できる」と説明した。

 東京大学とトレンドマイクロでは、今後も共同研究を継続する。近藤氏は、「半年間の研究では、まだまだ不十分なところもある。今回はトレンドマイクロのデータベースのみを使ったが、今後はデータ収集規模や元のソースを拡大したい。ユーザーの行動分析による、有害コンテンツへのアクセスリスク評価指標も検討する」と述べた。さらに、分散コンピューティングによる大規模ネットワークの解析とシステム構築も計画する。そのほか、今回発表した研究成果を応用し、ブラウザプラグインなどによるWebサイトの危険予測や安全性の可視化・分析ツールの提供も検討するという。


東京大学産学連携本部長の藤田隆史教授 トレンドマイクロ上席執行役員日本代表の大三川彰彦氏

共同研究の枠組みと意義 研究に使用した各カテゴリとURL数

Webコンテンツの探索範囲と収集方法 ホストノードとリンク重み付けの定義

関連情報
  ニュースリリース
  http://jp.trendmicro.com/jp/about/news/pr/article/20080128025023.html



- ページの先頭へ-

INTERNET Watch ホームページ
Copyright (c) 2008 Impress Watch Corporation, an Impress Group company. All rights reserved.