ニュース
ヤフーの検索ビッグデータによる参院選予測、誤差の要因は山本太郎と公明党
(2013/7/30 15:04)
ヤフー株式会社は29日、Yahoo! JAPANの検索ビッグデータに基づいて導き出した参院選の獲得議席数予測について“答え合わせ”を行ったレポートを発表した。与党・野党の議席数内訳については予測と実際の選挙結果が完全に一致。個別政党の内訳でも約9割の的中率となり、ヤフーでは「政治的な読みに基づかないデータ解析からの予測としてここまで一致したことには我々も少々驚いている」という。一方で、予測が外れた部分の要因として、山本太郎氏と公明党が浮かび上がった。
ヤフーが出していた予測は、Yahoo! JAPANにおいて政党名などで検索された量と実際の獲得議席数との間には、具体的な理由までは分からないが、結果的に高い相関関係があるという「相関モデル」に基づいたもの。これに加えて、投票日前の一定期間における検索量の増加率を表すスコア“盛り上がり度”も反映した「投影モデル」という2つのモデルで、投票日前の7月19日にヤフーが最終予測を発表していた。
比例区・選挙区を合わせた改選121議席全体で見ると、いずれのモデルとも与党(自民党・公明党)が計76議席、野党が計45議席との予測が的中。一方、個別政党まで見ると、相関モデルでは121議席中105議席で的中率87%、投影モデルでは121議席中111議席で的中率92%だった。
ヤフーの今回のレポートでは、予測が外れた部分について検証している。まず選挙区では、民主党が予測13議席に対して選挙結果は10議席、諸派・無所属が予測0議席に対して3議席と、ともに3議席の比較的大きなかい離があった。
47選挙区のうち相関モデルでは43選挙区が的中、投影モデルでは44選挙区で的中している。これに対して、1議席選出の岩手県・沖縄県の2つの選挙区では、相関・投影の両モデルともに予測を外した。ヤフーによると理由は明確であり、これらの選挙区に共通するのは「自民党と予測していたが、諸派もしくは無所属候補が勝った」という点。ヤフーの予測は両モデルともに政党名をベースに予測をしており、一部諸派や無所属は予測対象としていなかったとしている。
また、5議席選出の東京都選挙区では、両モデルともに3議席だけの的中となり、他県と比較して大きなかい離が生じた。同選挙区を分析するにあたっては、無所属の山本太郎氏の個人名を政党名として置きかえるなどの処理を行ったが、最終予測を出した時点では同氏は7位で落選との予測。これに対して実際は4位で当選しており、ヤフーでは「今後も獲得議席予測に取り組む場合は、今回の選挙で得た経験を元に諸派や無所属に対する異なるアプローチを検討して予測する必要がある」としている。
一方、比例区の48議席については、相関モデルでは40議席が一致し、的中率は83%。投影モデルでは42議席が一致し、的中率は88%。予測とかい離のあった政党でもおおむね誤差が1議席内に収まっているというが、公明党は予測5議席に対して実際は7議席、諸派・無所属が予測2議席に対して実際は0議席と、両モデルともに2議席のかい離があったとしている。
前述のようにヤフーの予測は、政党名などが検索された量と獲得票との間に相関関係があるとのモデルに基づいているが、実際にどのぐらいの票に結び付くかという係数を全政党で一律にしているわけではない。例えば、組織力のある公明党は検索量の割には得票数が多い、話題性の高い新党は検索量が多い割には得票数はそれほど多くない――といったことが分かっており、今回の参院選予測でも政党ごとに補正して予測している。
ヤフーによると、今回の参院選で検索量と獲得票の相関度合いが低かったというわけではなく、2012年の衆院選の時に比べ、多くの政党が相関関係の回帰直線上に近づいているという。その一方で公明党は結果的に回帰線上から離れ、予測と実態との差が大きくなった。
この原因についてヤフーでは、投票率の低さが影響した可能性を指摘している。予測モデルのベースとなった2010年の参院選が57.92%、2012年の衆院選が59.32%だったのに対し、今回の参院選の投票率は52.61%と低かった。一般的に低投票率時には組織力の強い政党が有利と考えられ、公明党は従来モデルに基づいた補正率よりもより大きな補正が必要だったというわけだ。
なお、前述の山本太郎氏の検索量については、興味深いデータがあるという。ヤフーが出した最終予測では7月4日~16日までのデータを用いていたが、山本太郎氏の検索量はその後、投票日の4日前から急激に伸び、「その勢いは個人でありながら全国の各政党名の検索数を超えるほど」になった。
投影モデルで使用している盛り上がり度とは、こうした検索量の増加率に基づくものだ。ヤフーによると、投票日前の1週間の山本太郎氏の盛り上がり度は、2012年の衆院選の時を大きく上回っていたという。すなわち、衆院選時の盛り上がり度を反映した今回の参院選の投影モデルでは、山本太郎氏に対する盛り上がり度を低めに見積もっていたことになる。投票日直前のデータを用いてあらためて検証してみたところ、山本太郎氏は当選圏内に入る結果になったとしている。
ヤフーでは、予測を出すにあたっては投票日直前の検索量の伸びも重要だということが分かったとしているが、「こういった熱狂的といってよいほどの関心を集める候補者を正確に予測するのは現段階では困難というのが正直なところ」とコメントしている。