やじうまWatch

容量2.6TBもの「パナマ文書」どう解析? 技術的側面から論じたブログが注目集める

 タックスヘイブン(租税回避地)を用いた富裕層の節税の実態を示した文書、通称「パナマ文書」が世界中で波紋を呼んでいるのはご存知の通り。容量が2.6TB、ファイル数は1000万以上とデータ量がとてつもなく大きいことから、全貌はいまだに見えてないとされるわけだが、ではこうした莫大なリークデータを効果的に解析するにはどのような技術が有効なのか、海外のデータ会社が公開したエントリをわかりやすくまとめ直したブログが注目を集めていた。PDFを中心とした文書ファイルをOCR処理して全文検索エンジンで読めるようにし、さらにそこからファイルタイプやタイムスタンプなどのメタデータを取り出してインデックス化、そしてグラフ化と呼ばれる関連性を視覚化する作業を行う……といった具体的な処理について、技術に詳しくない人でも理解しやすいようまとめられている。遠い世界の話題すぎてこの問題にあまりピンと来ていない人も、こうした観点からパナマ文書について改めてみつめてみるのもよさそうだ。

◇「パナマ文書」解析の技術的側面(Keiichiro Ono)
https://medium.com/@c_z/%E3%83%91%E3%83%8A%E3%83%9E%E6%96%87%E6%9B%B8-%E8%A7%A3%E6%9E%90%E3%81%AE%E6%8A%80%E8%A1%93%E7%9A%84%E5%81%B4%E9%9D%A2-d10201bbe195#.irc7ounrz

(tks24)