Unicodeのウェブページが60%超える、Googleがインデックスもとに算出
米Googleは3日、文字エンコーディングがUnicode(UTF-8)のウェブページが60%を超えたとの集計データを発表した。
Googleでは、同社がインデックスしているウェブページの文字エンコーディング別の比率を毎年1月に出しており、今回、同社公式ブログでその推移グラフを公表した。これによると、Unicodeは2006年以降、800%増加し、今年1月時点で60%を超えた。
Googleがインデックスしているウェブページにおける文字エンコーディング比率の推移。なお、グラフは言語(スクリプト)ごとにまとめて集計(Google公式ブログより画像転載) |
Googleでは以前より、テキスト検索のための内部フォーマットとしてUnicodeを採用しており、他のエンコーディングはまずUnicodeに変換されてから処理される。
Googleでは、Google検索においてほとんどの言語で人々が情報を探せるのは、Unicodeのおかげだと説明。Unicodeの比率が上がることで、Googleがカバーしている多くの言語を処理することが容易になるとしている。
また、Unicodeによるドキュメントが増加すれば、日本語で言う“文字化け”に遭遇する機会も減少するとしている。
関連情報
(永沢 茂)
2012/2/6 16:33
-ページの先頭へ-