ニュース
ヤフー、16万曲の歌詞ビッグデータ分析で、国内500アーティストの類似性を可視化
2016年9月5日 19:57
ヤフー株式会社は5日、16万曲分の歌詞データをもとに国内アーティストの類似性を可視化した「アーティストクラスタリングチャート」を公開した。なお、ヤフーは熊本地震発生直後に検索されたキーワードをインフォグラフィックで表示するサイトも8月に公開している。
アーティストクラスタリングチャートは、歌詞の類似性の高さに沿ってアーティスト名を並べ、類似する特徴語などを表記した図表。「GYAO!歌詞」で提供している16万曲の歌詞データを解析し、各アーティストの歌詞に含まれる特徴的な単語を抽出。約500アーティスト間の類似性・関連性をマッピングしている。例えば、「TOKIO」と「Mr.Children」、「徳永英明」と「クリス・ハート」、「モーニング娘。」と「Berryz工房」などに類似性が見られるという。
ここでは、「形態素解析」という日本語処理手法を用いて歌詞の解析を行っている。例えば、「明日は日曜日です」という歌詞があった場合、「明日/は/日曜日/です」という形態素に分解。さらに「明日(名詞)/は(助詞)/日曜日(名詞)/です(助動詞)」のように、各形態素の品詞も判別する。
各アーティストの歌詞ワードから特徴を見出すには、歌詞ワードの特徴を統計的に解明する必要がある。そこで、アーティストが持つ歌詞ワードごとに「特徴度」を求め、値が高かった上位歌詞ワードを各アーティストの「特徴語」とする。
これにより、「アーティストAの歌詞の中ではよく使われ(要素1)、他のアーティストの歌詞には現れにくい(要素2)歌詞ワード」ほど高い値となり、特徴語として抽出できる。なお、アーティストの保有曲数が少ないと精度が下がるため、GYAO!の歌詞サービスに登録されている曲数が多い順に上位500アーティストに絞って分析を行っている。
例えば、登録曲数が382曲と最も多かった「TUBE」を例に、特徴度のスコア上位20件の特徴語を並べてみると、「夏」が最も特徴度スコアの高い単語となった。
このデータでは歌詞の中で一人称(自分)、二人称(相手)の呼び方も分かる。中でも、「僕」と「君」の組み合わせが最も多く、自分を「私」、相手を「あんた」と呼ぶ組み合わせは、「やしきたかじん」のみという結果になった。
また、一人称、二人称以外も含めた各アーティストの「特徴語」を使って、歌詞ワードが似ているアーティストを分類することも可能。分析手順は以下の通り。
1.約500アーティストそれぞれが持つ特徴語のスコア上位150ワードを抽出
2.全アーティストをすべてペアにして、全組み合わせの特徴度の一致スコアを算出
3.最もスコアが高くなったアーティストのペアから順に組み合わせを生成
4.ペアの組み合わせがなくなるまで処理を行う
5.4の結果を「D3js」というデータビジュアライズライブラリを用いて可視化
1~4の処理を行うことで、特徴語が似たアーティストの組み合わせデータを生成できる。さらに、D3jsを使用してデータを可視化することができる(スマートフォンからの閲覧では簡易版で表示。フル機能はPC環境からのみ利用可能)。
今後は、年代別での歌詞ワード傾向や歌詞の持つ感情の評価分析なども検討しているという。