ニュース

Mastodonスパムをディープラーニング技術により判定、ウェブクライアント「Naumanni」に実装

 株式会社UEIと株式会社グルコースは、分散型SNS「Mastodon(マストドン)」専用ウェブクライアント「Naumanni(ナウマン)」のデモサイトで、ディープラーニングによる言語解析技術「Deep Analyzer」を用いたスパム発言判別機能の実証実験を10日より実施する。

 Naumanniは、Mastodonのマルチアカウントに対応するウェブクライアント。複数のインスタンスをまとめて表示できる「統合ホーム」や、「統合ローカルタイムライン」「統合連合タイムライン」「統合通知」を画面上に配置でき、発言や通知、ローカルタイムラインをインスタンスごとに分けて表示可能。

 NaumanniのソースコードはGitHubで公開されており、Dockerにより容易にサーバーへのインストールや管理が行える。

 デモサイトの「naumani.com」は、現在α版として提供されているウェブベースのMastodonクライアント。Mastodonアカウントがあれば、インスタンスを問わずログインできる。

 Deep Analyzerは、UEIが独自開発したディープラーニングによる言語解析技術。これを用いたスパム判定機能は、サーバー負荷を勘案して、当初は「naumanni.com」のみで提供される。

 スパム判定は自動的に行われるほか、スパムと思われる書き込みをユーザーが報告することもできる。報告された書き込みは一定期間ごとに再学習され、スパムファルターの高精度に活かされる。

 UEIでは、企業などが独自のMastodonインスタンスを作成する場合に、他人を不快にする書き込みなどをスパムとして自動的に排除することができるとしている。

 Deep Analyzerによる言語解析では、構文解析を用いることなく、Unicodeに対応する任意の言語において、任意の文章を学習させ、新語や文脈に応じた言葉、文意をくみ取って自動的に分類可能なものだという。

 UEIでは、自然言語だけでなく、プログラムのソースコードのような人工言語にも対応可能な技術で、LTSM(Long Short Term Memory)によるスパム文章判別のほか、文章の類似度推定や自動ジャンル分け、センチメント分析、バグ密度推定など、さまざまな分野へと応用可能としている。