INTERNET Watch Title ClickClick Here

【特集】

フィルタリングソフトの現状と課題


 企業はもちろん、家庭や学校の中にまでインターネットが普及しようとしている今、有害コンテンツへの何らかの対策が必要になっている。
 その一つとして、米国のいわゆる「通信品位法」など、法律によってコンテンツを規制しようとする動きがある。しかし、インターネットの性質を考えると、法による規制は難しい問題を抱えているのが現実だ。
 一方、技術的な対策としては、フィルタリングソフトやレーティングシステムによるアクセス制御が考えられる。有害コンテンツの発信を規制するのではなく、受信を規制するというこの技術は、ある意味では法律による規制よりもインターネットの性質になじむものであり、学校などへの導入が期待されている。しかし、有害サイトの判断基準やフィルタリングの精度など、現時点では多くの問題を抱えているのも事実だ。

 今回は、フィルタリングソフトを販売・開発している2社にお話をうかがいながら、フィルタリングソフトの現状と課題について考えてみたい。

●“リスト方式”によるフィルタリング


 Webコンテンツをフィルタリングする仕組みにはいくつかの種類があるが、まず最初に“リスト方式”について見てみよう。あらかじめ、カテゴリーごとに有害と思われるサイトを集めた“ブラックリスト”と、推奨されるサイトを集めた“ホワイトリスト”を用意し、それをもとにアクセスの可否を判定するというものだ。
 しかし、有害サイトがカットされなかったり、逆に無害サイトがなぜかカットされてしまうなどの問題が指摘されている。実際に、リスト方式のフィルタリングソフトを導入したあるユーザーによると、リスト作成者の価値判断の違いやミスで誤ってリストアップされたと思われるサイトがあったり、逆に抜けているサイトがけっこうあるという。また、現在提供されているフィルタリングソフトは海外で開発されたものが多く、日本のサイト情報に弱いものもあるという。
 インターネット上のコンテンツについて分類したリストとなれば、膨大なURLを扱っていなければ役に立たない。リスト方式のフィルタリングソフト「CyberPatrol」では、現時点で約12万のURLがブラックリストに登録されている。しかし、URLの変更やWebサイトの移動、消滅などが日常茶飯事なので、完全に把握できるのは不可能に近いはずだ。平均でひと月に5%から10%の変更が必要だという。

 CyberPatrolの国内発売元であるアスキーネットメディア事業部マーケティング部部長・安藤正平氏に同製品についてお話をうかがった。

--リストを作成するには膨大な量のデータが必要になるが、その作成方法は?

 リスト作成は、すべて人間が見て、判断基準にしたがってカテゴリーを含めて判断しています。いったんリストアップされたURL情報についての移動や取り消しなどの変更は自動化されていますが、リストに追加する場合の最終的な判断はリスト作成の責任者が決定し、後述の委員会において定期的に内容についてチェックしています。

--有害サイトのリストアップ基準はどういうものなのか?

 販売元である米The Learning Companyが組織している、教育などに関する有識者の委員会で決定しています。また、半期に1回ミーティングを開いて規制基準の見直しと項目の追加などについて検討しています。
 特に差別など、非常に判断の難しい問題などへの対応として、差別を受けやすい同性愛者団体の代表などにも参加いただき、できるだけ公平な判断ができるよう努力しています。

--有害サイトが遮断されない場合がある。有害サイトを遮断できる確率は?

 正確な割合は、実際の規制対象サイトの数が不明のため明記することができません。CyberPatrolの場合は、管理画面上に規制されているURLの数が表示されていますが、このURLにはプロバイダー、ドメインレベルでの包括規制サイトが含まれますので、URL単位、ページ単位での規制対象は非常に大きな数となっています。

--無害サイトまで遮断されてしまう問題が指摘されている。

 現在、国内の大手プロバイダーにおいても、アダルトなどの規制対象コンテンツの提供割合が高いために、プロバイダーそのもののサイトが規制対象となっているケースがあります。そのために、無害サイトについても、ある割合では規制対象となっています。現在、日本では1つのプロバイダーがCyberPatrolで包括規制の対象となっています。ドメインについては正確な数字は把握していませんが、多くのアダルト関連のドメインが包括規制されています。
 このような場合には、プロバイダーに対して、対象サイトなどを複数のディレクトリに集約するなどの対策を依頼し、対策完了した時点で規制対象からはずすような処理をしています。しかし残念ながら、そのような対応をしていただいていると認識している日本のプロバイダーはありません。弊社から上記のような対応をお願いしているプロバイダーはありますが、現時点では実現しておりません。

--リスト方式では、リストの漏れや間違いは避けられないと思う。CyberPatrolでフィルタリング精度を上げるために行なっていることは?

 各ユーザーがリストへの規制情報の追加、削除を可能とする機能を提供しています。この機能を利用し、ログ情報をもとに規制サイトを追加することで確実な規制を実現しているユーザーもいます。

--海外で開発された製品なので、日本のサイトはカバーしきれないのではないか?

 日本で利用するリストについては、ワールドリストに含まれて提供されるデータと、日本独自で提供可能なローカルリストがあります。その2つを提供することで、短時間での情報の反映を心がけています。現在のところ、日本のリストでは主としてアダルト関連サイトを中心にリストを提供しています。
 また、日本市場においては9割が学校や教育センター等の教育市場のユーザです。現在、学校での利用をふまえた日本版ホワイトリストの提供を進めてめています。

--今後の課題は?

 現在の規制ソフトウェアは、規制リストを中心に規制が実行されていますが、実際に学校等でフィルタリングソフトウェアが多く利用されている利用実態を考慮すれば、より正確なホワイトリストを利用しての規制が授業などの場面ではより効果的だと考えられます。
 同時に、弊社が現在提供しているようなリストをベースとしたリンクサイトと同期させることで、授業において使いやすいコンピュータシステムがご提供できるものと考えています。
 規制リストを強化する一方でより利用価値の高いホワイトリストを提供するために、現在、数名のインターネットの教育利用の専門家の協力のもとで学校教育で利用可能なサイトリストを作成し、同時にそのデータを利用してCyberPatrolのホワイトリストとして提供することで、よりよい学校内コンピュータ利用環境の提供を目指しています。

Cyber Patrol Home Page
http://www.cyberpatrol.solution.ne.jp/

●“コンテンツチェック方式”によるフィルタリング


 あらかじめ用意されたリストに基づきフィルタリングを行なう前述の方式に対し、Webサイトの内容を単語などから判断してフィルタリングをかけるのが“コンテンツチェック方式”だ。リスト方式では、登録するリストを人間がチェックしなければならないため、膨大な数のWebサイトを網羅することは難しい。これに対し、コンテンツチェック方式では、未知のサイトについても判断することができるのが特徴だ。
 人間の判断という過程がないことで、より多くのWebサイトに対応できる反面、判定アルゴリズムの精度が求められる。しかし、現在公開されているような技術では、その精度を満足できるようなものは見あたらないようだ。例えば、わいせつ画像裁判に関する新聞記事など、アダルト的な単語が多く使われているためにアダルトサイトとしてカットされてしまうこともあるのが現状だ。

 今回は、コンテンツチェック方式によるフィルタリングシステム「HazardShield」を開発したKDD研究所知識情報グループのグループリーダー・橋本和夫氏と、主任研究員の井ノ上直己氏に同システムについてお話をうかがった。なお、現在HazardShieldは、体験版が同社のWebサイト上で公開されている。

--HazardShieldのコンテンツチェックのしくみは?

 この技術では、統計的な手法を使用して、システムが判断基準を学習しています。
 まず、基準となる単語の“重みづけ”を行ないます。アダルトサイト1万数千件と非アダルトサイト1万数千件の事例データにおいてアダルトサイトに出てくる頻度から、8,000単語について、アダルトサイトと非アダルトサイトを分類するための重みづけを行なっています。
 次に、アダルトサイト1万数千件について特徴パターンを抽出します。特徴パターンは、各事例に出てくる単語の重みづけを計算することで、8,000次元のベクトルで表わされます。非アダルトの事例1万数千件についても、同様に特徴パターンを抽出します。
 こうしてアダルトの各事例から抽出された特徴ベクトルと非アダルトの各事例から抽出された特徴ベクトルを8,000次元の空間にプロットしていくと、アダルトのベクトルがある空間に固まります。それを分ける境界を設定することで、未知のドキュメントについても、特徴ベクトルがどちらにプロットされるかでアダルトサイトかどうか判断できるようになります。

--アダルトでないサイトが、アダルトと判断される例が指摘されている。現時点での精度は?

 統計的なものなので、100%ということはあり得ませんが、誤差が多いと思うか少ないと思うかはユーザーの判断です。技術的に言えば、現在、他のコンテンツチェック方式に比べれば高性能です。カットするものとカットしないもの両方についてシステムが学習しているためです。
 しかし、ドキュメントの種類によっては、ある単語がたくさん出てくることで、アダルト側に判断されてしまう場合があります。例えば「~さん」という単語は、少しだけアダルトよりの重みづけになっており、BBSなどでドキュメントの中に数十回も使われている場合、全部足すと非常に大きな数字になってしまいます。
 逆に、ごく普通の単語が並んでいても、いくつか衝撃的な単語があるだけで、アダルトと判断することも可能になります。

--事例データを増やすことで、単語の重みづけや、特徴パターンの判別がより明確になるのではないか?

 アダルトの集合についてははっきりしていますが、非アダルトの集合についてはパターンのデータを多くとる必要があります。
 単語の重みづけについても、事例のとり方よっては、普通の単語がアダルトよりの重みづけになってしまうこともあります。例えば「削除」という単語は、アダルト的な単語ではありませんが、比較的アダルトよりに重みづけされています。これは、この単語が、非アダルトの事例の中にほとんど現われていなかったため、逆にアダルト側の重みがついてしまったと考えられます。
 非アダルトの事例については、まだ学習する必要があったのではないかと思っています。

--基準となる単語を増やせば精度が上がるのではないか?

 単語(次元)を増やすと、それだけいいものになると思います。しかし、単語を増やすためには、もとになる事例データを増やさないとだめです。コストとの見極めになります。
 また、単語セットも考える必要があります。現在8,000語を使っていますが、どの単語を使ったとき判定の精度が高くなるか試行錯誤しなければならないと思います。

--コンテンツチェック方式を使うメリットは?

 ブラックリストでは、ドメインごとの包括規制など過剰なアクセス制御をやっている場合もあります。コンテンツチェック方式だと、ドメインが丸ごとブロックされるという状態は回避できます。精度を上げれば、現状のブラックリスト方式の持っている欠点を緩和できると思います。
 例えば、コンテンツチェック方式で80%の精度を出せるとすると、50%をブラックリストでブロックすれば、残りの50%のうち80%をこれでブロックできます。組み合わせると90%になり、明らかに精度の上積みができることになります。
 ブラックリスト方式では全部をカバーできません。世の中にはアダルトサイトが氾濫しており、すべてリストで判断するのは不可能だと思います。それらカバーできないものに関して、まったくフリーで通すのか、なにか処理を施すのかという選択をユーザーが行なえるようになります。ブラックリストで抜けているものに対して、チェックする技術が欲しいという人にはメリットになります。

--体験版ではリスト方式も併用している。コンテンツチェック方式だけでは不十分なのか?

 コンテンツチェック方式だけでは、よくも悪くも統計的に判断するため、80%くらいの性能は出せます。しかし「これだけは通したい」「これだけはカットしたい」ということを設定したい場合、再学習する必要が出てきます。その際、すぐに学習して効果が出るようにするのは簡単ではありません。統計的な判定誤差が出たとき、これをすぐに直したいというときのために、リスト方式も併用して提供しています。
 なお、今回公開しているものは暫定版のブラックリストで、一つの基準と考えているものです。リストはユーザーの基準でユーザーが決めることと考えています。

--対応言語は日本語のみなのか?

 事例として用意したサイトはロボットで集めたものなので、日本語に限りません。重みづけを行なった8,000語の中には英単語も入っています。
 しかし英語サイトでは、非アダルトの事例が少なかったため、今は英語に対しては弱いと思います。

--体験版の公開後1カ月経つが、学習は続けているのか?

 学習は続けていますが、その結果を体験版にフィードバックしているわけではありません。6月7日にリニューアルオープンを予定しています。主な変更は、単語リストの改定です。今まで足りなかった、非アダルトサイトのデータを追加して学習し直したデータです。また、単語セットも見直し約5,000語にしています。

--HazardShieldの製品化の予定は?

 技術的には今年中に完成度の高いものができると思います。しかし、純粋に技術だけでなく、解決すべき問題があります。
 HazardShieldは、ユーザーが指定した事例に基づき、それに似たようなものをカットできる、すなわちユーザーが独自のポリシーによってフィルタリングできる技術です。しかし、事例を学習させてポリシーを独自に設定するとなると、数万件のデータを処理しなければなりません。その作業が、学校や企業で実際にユーザーにどれくらいの負荷をかけられるものなのかということを見極めないと製品化はできません。
 事例となるデータは、我々がロボットで集めて学習させることもできますが、基本的にはユーザーが決めなければならないことです。たとえすべてのツールを公開したとしても、ユーザー側で処理できるものではありません。その事例データを地域を超えて共有するというようなしくみがなければ、大量のデータを処理することは不可能です。コンソーシアムなど、なるべくサポートする仕組みを用意したいと思います。

--ポリシーを特定の団体が決めることを危惧する向きもある。

 それぞれが「見たい」「見たくない」を決めたいというのは当然な要求です。しかし、個人での利用を考えると、完全に個人でカスタマイズできるツールで提供しなければなりません。そうなると、個人でできる限度を超えてしまいます。今のままの技術は、個人向けに提供できるものではありません。
 一方、学校という場所では、ある程度共通のポリシーを決めやすいのではないでしょうか。企業でも、業務に沿ったポリシーを決められるのであれば、適用できます。ただ、一般のプロバイダーを使っている個人向けに提供するサービスとなると、ポリシーを個別に変えなければなりません。個人単位でポリシーを設定するためには、プロバイダーの設備投資もかなり大きくなります。技術的にできないことはないですが、それが可能かどうかの兼ね合いになります。目安としては、一定のポリシーを設定しやすい企業や学校、団体などでの利用を想定しています。

HazardShield体験版
http://w3shield.kddlabs.co.jp/

●フィルタリングソフトの解決すべき課題

 HazardShieldが発表されたとき、大手通信事業者によるフィルタリングソフトということで、ネットユーザーの間でも少なからず話題になったようだ。いったい誰が、どういった目的でコンテンツのフィルタリングを行なうのかというポリシーは、もちろん個々のユーザーが決定すべきことだが、「KDDが有害性を判定するサービスととられてしまった」(KDD研究所・橋本氏)という。しかし上でも述べているように、同社ではこの技術を「ユーザーが指定した事例に基づき、それに似たようなものをカットできる技術」と位置づけているとしている。
 また、リスト方式のCyber Patrolの規制基準についても「特に公的な機関から認証などされた基準ではなく、CyberPatrol独自の基準」(アスキー・安藤氏)であるとしており、絶対的に強要されるものではないのは確かだ。
 しかし、これらのソフトにおいて、個々のユーザーが独自のポリシーを用意できるかというと、それは難しいことだ。実際には個人でポリシーを設定できないとなると、誰かが用意しなければならないが、「そのやり方やその整理の仕方が、社会通念として整理できていないことが、フィルタリングソフト問題の混乱しやすい原因」(橋本氏)となっている。このように、フィルタリングソフトを提供していくうえでは、「誰がポリシーを決めるのかという制度的な問題など、技術以外のハードルがある」(橋本氏)としている。

('99/5/31)

[Reported by nagasawa@impress.co.jp / Watchers]


INTERNET Watchホームページ

ウォッチ編集部INTERNET Watch担当internet-watch-info@impress.co.jp