記事検索

Unicodeのウェブページが60%超える、Googleがインデックスもとに算出


 米Googleは3日、文字エンコーディングがUnicode(UTF-8)のウェブページが60%を超えたとの集計データを発表した。

 Googleでは、同社がインデックスしているウェブページの文字エンコーディング別の比率を毎年1月に出しており、今回、同社公式ブログでその推移グラフを公表した。これによると、Unicodeは2006年以降、800%増加し、今年1月時点で60%を超えた。

Googleがインデックスしているウェブページにおける文字エンコーディング比率の推移。なお、グラフは言語(スクリプト)ごとにまとめて集計(Google公式ブログより画像転載)

 Googleでは以前より、テキスト検索のための内部フォーマットとしてUnicodeを採用しており、他のエンコーディングはまずUnicodeに変換されてから処理される。

 Googleでは、Google検索においてほとんどの言語で人々が情報を探せるのは、Unicodeのおかげだと説明。Unicodeの比率が上がることで、Googleがカバーしている多くの言語を処理することが容易になるとしている。

 また、Unicodeによるドキュメントが増加すれば、日本語で言う“文字化け”に遭遇する機会も減少するとしている。


関連情報


(永沢 茂)

2012/2/6 16:33