「Wikipedia」全文がOpenZIMファイルでダウンロード可能に、英語版は9.7GB

Wikimediaの全コンテンツ提供も計画


 Wikimedia Foundationは9日、英語版「Wikipedia」の全文を簡単にダウンロードできるようにしたと発表した。これにより、英語版のWikipediaをオフラインでも読めるようになる。

 コンテンツは2012年1月時点のもので、ファイルサイズは9.7GB。torrentファイルをBitTorrentクライアントにてダウンロードできるほか、直接ダウンロードする方法も用意している。

 英語版のほか、日本語を含む25言語版のWikipediaや、全文ではない簡易版、ベストコンテンツ版なども用意されている。なお、日本語版のコンテンツは2011年3月時点のもので、ファイルサイズは7.0GB。

OpenZIMリーダーソフト「Kiwix」での英語版Wikipediaの表示例(Wikimedia Foundation公式ブログより画像転載)

 Wikimedia FoundationによるWikipediaなどのコンテンツは、これまでも無料で利用できるライセンスによって提供されていたため、希望すれば誰でもダウンロードすることは可能だった。

 これに対して今回は、Wikimedia Foundationが開発を支援しているWikiコンテンツ圧縮フォーマット「OpenZIM」によって提供されている点が特徴だ。

 OpenZIMは、2009年に開発を開始。これまでにドイツ語版WikipediaのDVDがこのフォーマットで提供されたこともある。 

 OpenZIMファイルを読む一般的な方法としては、OpenZIMリーダーソフト「Kiwix」(Windows/Mac/Linux版)がある。また、発展途上国の子どもたち向けに開発されているOLPC(One Laptop Per Child)プロジェクトによるコンピューター専用のOS「Sugar」でも読むことができる。これにより、英語版Wikipediaの全文を途上国の子どもたちがオフラインで読むことも理屈の上では可能になった。

 OpenZIMはオープンソースで開発されており、仕様のドキュメンテーションも用意されている。現在はWikipediaなどで使用されているWikiの仕様「MediaWiki」に対応しており、Wikimediaプロジェクトが提供しているすべてのコンテンツ、WikipediaやWiktionary、WikisourceなどのZIMファイルの提供を目指している。

 なお、今回提供されている英語版Wikipediaの全文ファイルには表や数式などは含まれているが、画像は含まれていない。画像を含れば100GB近くになると推定される。


関連情報


(青木 大我 taiga@scientist.com)

2012/4/10 12:31