Internet Watch logo
記事検索
バックナンバー
【 2009/04/09 】
「新常用漢字表(仮称)」のパブコメ募集が始まった
[12:59]
【 2008/11/28 】
第3部 印刷文字から符号化文字へ
第11回 「情報化時代」へ常用漢字表を進化させよ
[11:19]
【 2008/11/27 】
第3部 印刷文字から符号化文字へ
第10回 ふたたび常用漢字表の改定を考える
[14:31]
【 2008/11/14 】
第3部 印刷文字から符号化文字へ
第9回 議員の氏名表記とRFC標準の共通点
[11:12]
【 2008/11/13 】
第3部 印刷文字から符号化文字へ
第8回 字体意識と社会的コスト
[11:27]
【 2008/11/12 】
第3部 印刷文字から符号化文字へ
第7回 『議員氏名の正確な表記』と人名表記の位相文字
[14:06]
【 2008/11/11 】
第3部 印刷文字から符号化文字へ
第6回 漢字の字体史から見た『議員氏名の正確な表記』
[17:08]
【 2008/10/31 】
第3部 印刷文字から符号化文字へ
第5回 『議員氏名の正確な表記』はどうやって作られたか
[11:21]
【 2008/10/30 】
第3部 印刷文字から符号化文字へ
第4回 議員本人のWebページとの比較結果
[15:03]
【 2008/10/29 】
第3部 印刷文字から符号化文字へ
第3回 実装の上から『議員氏名の正確な表記』を考える
[15:15]
【 2008/10/28 】
第3部 印刷文字から符号化文字へ
第2回 規格の上から『議員氏名の正確な表記』を考える
[11:08]
【 2008/10/27 】
第3部 印刷文字から符号化文字へ
第1回 現代日本の「ゴルディアスの結び目」をほどくのは?
[16:44]
“情報化時代”に追いつけるか? 
審議が進む「新常用漢字表(仮)」

第3部 印刷文字から符号化文字へ
第3回 実装の上から『議員氏名の正確な表記』を考える


現在販売されているパソコンなら過半の議員名は表示可能

 前回はJIS X 0208という規格の上から『議員氏名の正確な表記』(以下、『正確な表記』)を検討してきた。しかしこれだけでは十分ではない。私たちが使っているパソコンでは、ここにあるどの字体が使えて、どの字体が使えないのだろう? これは規格だけを見ていても分からない。ここではその物差しとしてMac OS Xバージョン10.5を使う。DTPでのプロユースを意識して開発されたMac OS Xの方が、扱うことのできる文字の多さに関してはWindows Vistaより一日の長がある。

 同OSで依拠するのは文字コード規格としてはUnicode、文字セットとしてはアドビシステムズのAdobe-Japan1[*1]だ。アップルはUnicodeとAdobe-Japan1を対照し、一致するものにUnicodeの符号位置を与え、一致しないものには独自拡張したファイル形式RTFを使って、符号位置がないまま入力・編集・印刷可能にしている[*2]。では『正確な表記』で挙げられた字体が、同OSでどれだけ表現可能かを見てみよう(図1)。


図1 『議員氏名の正確な表記』にある字をMac OS Xの上から分類したもの。(1)ではUnicodeの符号位置を、(2)ではCID番号を併記した。(3)は筆者による作字。いずれもヒラギノ明朝を使用。(4)の吹き出し内のフォントのみMS明朝を使用。なお、ピンクで示したUnicode符号位置は互換漢字。これについては第2部第5回第8回を参照

 ここでは全部で4つに分類した。まず「Unicodeに収録ずみのもの」だ(図1(1))。つまりJIS X 0208では収録されていない、あるいは包摂されているが、より文字数が多いUnicode/UCSの方にそのものずばりの形があるというケースだ。実際にMac OS Xで表示させた画面も載せておこう(図2)。これは異なり字数で11文字。人数にすると24名であり、全体の60パーセントを占める。


図2 Unicode/UCSでは収録ずみの文字をMac OS Xバージョン10.5.4のテキストエディットで表示してみた。フォントはヒラギノ明朝を使用

 これらの文字はWindows Vistaでも問題なく使用可能だ(図3)。より収録文字数が少ないWindows XP SP3では2文字を除いて使用可能となっている(図4)。つまり、この『正確な表記』でのHTMLの設定を、Unicodeの符号化方法の1つであるUTF-8などに指定するよう書き直すだけで、ただちにWindows VistaやMac OS Xのユーザーならこのページにある40人のうち半分以上の議員名を表示することができる。またWindows XPのユーザーでは9文字/20人を表示できる。


図3 Unicode/UCSでは収録ずみの文字をWindows Vista SP1のメモ帳で表示してみた。フォントはメイリオを使用。よく見るとメイリオのU+71C1にはMS明朝と字体の違いがあるようだ

図4 Unicode/UCSでは収録ずみの文字をWindows XW SP3のメモ帳で表示してみた。フォントはMS明朝を使用

 もちろんこれは技術的には可能というだけの話だ。Windows 98など古い機種では表示できないこと、そしてこのドメインの持つ公共性の高さを考えれば、現実的にはしばらく現状の設定のままにすべきであると思われる[*3]


残ったものも多くは包摂の範囲内

 続く2番目の分類は、Unicode符号位置は持たないが、Adobe-Japan1には収録されているものだ(図1(2))。前述したようにMac OS Xでは符号位置を持たないAdobe-Japan1の文字に対して、RTFというファイル形式を独自拡張することにより使用可能にしている。だからこれらの文字はOSを越えた情報交換ができない。これを可能にする技術が異体字シーケンスであることは第2部第8回で述べた。したがってこの分類で挙げられたそのものの形は、Mac OS X以外では表現できない。

 しかし、Windows Vistaがここに分類しているそのものの形を使えないからといって、それらを実装していないとまでできない。Windows Vistaが基づいた文字コード規格はJIS X 0213だからだ[*4]。ある文字コード規格を実装する際、メーカーはそこで示された包摂の範囲から任意の字体を1つ選んで実装する。下条議員、松本議員の字体はJIS X 0208及びJIS X 0213では包摂の範囲内にある。そして船田議員の字体はJIS X 0213の包摂連番189で包摂される[*5]。つまりWindows Vistaは規格にある包摂の範囲から、ここに挙げられている以外の字体を選択したことになる。Windows Vistaが基づく文字コード規格がJIS X 0213である以上、これらの字体は「表現できない」のではなく、「他の字体に包摂されている=他の字体で表現できる」と考えるべきだ。つまりWindows Vistaにおいても船田議員、下条議員、松本議員の字体を表現可能とすることができる。

 3番目の分類は、UnicodeにもAdobe-Japan1にも収録されていないので、そのものの形を使うには特別な技術で作字するしかない字だ(図1(3))。当然Mac OS Xだけでなく、Windows Vistaでも使えない。図に掲げたのはいずれも私が作字したもの[*6]。このようにしてコンピュータ上で表示可能にしたとしても、符号位置がないから情報交換には使えない。仮に専用ソフトを使い、外字用のUnicode私用領域の符号位置を割り当てたとしても、事前に合意のない相手と情報交換するような一般用途には使えない。つまり広範な人に見てもらうには、『正確な表記』のようにビットマップ画像に変換して使うのが一番確実ということになる。

 ただし、このうち伊藤議員、大野議員、葉梨議員、林田議員の字体はJIS X 0208では包摂の範囲内だ。そして保利議員、田中議員と町村議員の字体はデザイン差にあたる(前回図4参照)。したがって、図1(2)のところで述べたのと同じく、ここにあるそのものの形をMac OS Xが実装していないからといって、表現できないとまで言うことはできない。これはWindows VistaやWindows XPでも同様だ。つまりこれらのOSにおいて、ここに挙げたうち本当に表現できないと言い得るのは鳩山議員の字だけとなる[*7]


符号化文字という考え方への理解不足

 最後にフォントの種類によっては表現可能なもの(図1(4))。実をいうと、この分類にある菅直人議員(他2名)の字体は、Mac OS Xの標準フォントであるヒラギノ明朝で見る限り、何を区別しようとしているのか分からない。ごく普通には最後に書く鍵形の部分字体を二画でなく一画につくる異体字が一般的なのだが、それでもなさそうだ。ここでは第二画を斜めにつくるか直線につくるかの区別ではないかと推測した。というのはMS明朝/MSゴシック/メイリオ(以下、MSフォント)がそうだからだ[*8]

 その結果、『正確な表記』のような示し方ではマイクロソフトのMSフォント以外で閲覧する人、つまり「直」の第二画を斜めにつくるフォントを使う人は、ここでどんな区別を言おうとしているのか識別できない。このように特定のフォントに依存した違いを区別していることから、次のようなことが言えるだろう。『正確な表記』が依拠しているのはJIS X 0208という規格などではなく、実は特定の実装、具体的には「直」の第二画をまっすぐにつくるMSフォントを搭載するWindowsシリーズの実装なのだと[*9]。結果としてWindowsシリーズ以外の多くを排除していることになり、このページの持つ公共性の高さからすると、いささか配慮の足りなさを感じる。

 とはいえ「直」に関わるのはたった3名/1字でしかない。たった1字でそこまで責めるのは不公平ではないか? ところがそうでもない、同じようなことは、「直」以外の多くにも言える。前回述べたように、『正確な表記』に掲載されている40名のうち34名、85パーセントにあたる議員名は、JIS X 0208においては包摂の範囲内だった。以下に前回図4(2)(3)として示した図を再掲する(図5)。


図5 『議員氏名の正確な表記』にあるうち、(2)JIS X 0208における包摂の範囲にあるもの(22人/12字)、(3)デザインの違いしかないもの(12人/6字)

 規格の上からはJIS X 0208に基づく限り、フォントメーカーは包摂の範囲内のどの字体を実装してもJISへの適合を主張できる。ということは、JIS X 0208に基づく限り、この図の赤字で示した字体そのものを実装しても、その実装はJIS X 0208に適合することになる。そして、もしそうした実装が存在した場合、『正確な表記』で挙げられた区別を識別できない。

 もちろん、現実問題としてそうした実装は少ないかもしれない。その意味では図5(2)にある字体までここに含めるのは酷かもしれない。規格はともかくとして、実態としてこれらは区別されているのが一般的だからだ。しかし(3)にあるような微細なデザイン差まで区別するのは、あまりにもJIS X 0208を無視してないか。「JIS X 0208を適用している」と言う以上は、これらの形を選択した実装まで排除すべきではない。それができない場合は、JIS X 0208の名前を出すべきではないだろう。

 もともと情報機器においては情報交換によって交換するのは符号だけだ。情報機器は符号を受け取った後、これを各々の機器が実装しているフォントに対応付けて文字の形を再現する。だから送信者が見ている文字「そのものの形」を、受信者が再現しているとは限らない。繰り返しになるが、フォントメーカーは包摂の範囲内のどの字体を実装してもよい。この結果、機器によっては文字の形が変わる得ることになるが、それが包摂の範囲内に収まっている限り、「社会的には同一の字と認識される」はずだから混乱は起きない。これが符号化文字というものの考え方だ。すなわち『正確な表記』には、符号化文字というものへの基本的な理解不足が見られる。

 情報機器が使用している文字は、もともと「そのものの形」を交換することまで意図していない。したがって、もしも意図した通り「そのものの形」が表現できたとしても、実のところ規格の上からは偶然の一致にすぎない。このように符号化文字は包摂の範囲を前提に設計されているのだが、『正確な表記』はこうした考え方そのものを理解していないと言える。もちろん、こうした理解不足は衆議院事務局に限った話ではなく、私たちの社会ではこうした認識の方が一般的であるのが現実だ。とはいえ衆議院は日本国の立法府に他ならない。


40名のうち1名を除けば、主なパソコンで表現可能

 前回も述べたが衆議院のWebページは文字セットとしてはJIS X 0208を適用している。したがって『正確な表記』にUnicodeやAdobe-Japan1-5でだけ表現可能な文字が掲載されているのは、ある意味で当然と言える。だから、Mac OS Xバージョン10.5を『正確な表記』に当てはめるという調査自体が、いささか見当外れなものであることも確かだ。それでもこの調査によって、初めて衆議院のWebページが依拠しているのはJIS X 0208という規格ではなく特定の実装にすぎないこと、同時に符号化文字というものへの理解不足が見られることを明らかにできた。

 なお、参考までに以上の調査をまとめると、Mac OS Xではここに挙げられている40名/23字のうち、そのものの形を使うことができるのは27名/14字、その人数を百分率で表せば67.5パーセントだった。意外に多くないように思えるが、包摂の範囲内かデザインの違いしかないものが12名/8字ある。これらまでMac OS Xが表現できないと考えるべきではなく、これを入れれば39名/22字、つまり鳩山議員の1字を除く全部が表現可能となる。これはWindows Vistaも同様だ。つまり現在販売されているパソコンなら、「そのものの形」にこだわらなければ、ここに挙げられている40名のうち1名を除く全員が表現可能だ。しかしこだわった途端に、この数字はぐっと下がってしまう。

 ところで、ここまで調べた中でひとつ気になることがある。この『正確な表記』に挙げられている40名全員が、本当に本人自らこれらの字体を主張しているのだろうか? 例えば先に挙げた菅議員の「直」の字は、フォントの種類に依存するような微細な違いでしかない。あまり文字に関心がない人などは、一体ここで何を区別しているのかすら理解できないのではないか。なのに40名のうち3名もこれを挙げている。何か不思議な感じがしないだろうか?

 次回は、議員本人のWebページにおける表記と『正確な表記』を比較し、そこから何を読み取れるのかを考えてみたい。

[*1]……『The Adobe-Japan1-6 Character Collection』
http://www.adobe.com/devnet/font/pdfs/5078.Adobe-Japan1-6.pdf
[*2]……詳細は拙稿『文字の海、ビットの舟 特別編27』を参照。
http://internet.watch.impress.co.jp/www/column/ogata/sp27.htm
[*3]……ただし、現在の日本語環境において、どの符号化方法が最も使われているのかという調査は、私が調べた範囲では見つけることができなかった。関連して風間一洋氏によるブログ『Cafe Babe』の2008年5月14日付エントリ「Web上でついにUnicodeがASCIIを越える」(http://d.hatena.ne.jp/kazama/20080507)を参照。ここに引用されているGoogleの公式ブログに投稿されたマーク・デイビス氏による記事(http://googleblog.blogspot.com/2008/05/moving-to-unicode-51.html)によれば、全世界のGoogle検索サイト上で入力される文字の符号化方法は、UnicodeがASCIIを上回るようになったとのことだ。では日本語環境においてはどうなのか。文字セットをJIS X 0208にとどめるべきか、JIS X 0213に移行はできないのかについての調査が必要であるように思える。なお、前掲記事のマーク・デイビス氏は第2部第4回で登場したUnicodeの創立者の1人。
[*4]……『Windowsの次期バージョンWindows Vistaにおいて日本語フォント環境を一新』2005年7月29日
http://www.microsoft.com/japan/presspass/detail.aspx?newsid=2353
[*5]……これは「JIS X 0208にはない包摂規準」とされている。『JIS X 0213:2000』(日本規格協会、2000年、P.39)を参照。
[*6]……素人仕事なのでバランスが悪く、すぐにそれと分かってしまう。タイプフェイスデザインをした方には申し訳ないと思っている。
[*7]……鳩山議員の字の再現を試みた例として『週刊朝日』の記事を引用する(図6)。ここではAdobe-Japan1のCID14027を使用しているが、本来の鳩山議員の字は部分字体左側の真ん中の横棒も左払いにつくる形。


図6 『週刊朝日』「親子のカタチ」(2008年9月12日号、朝日新聞社、P.59)
[*8]……ほかにはリュウミン(モリサワ)とモトヤ明朝が直線だ。また活版期の明朝体では秀英舎(現在の大日本印刷)の初号明朝も直線につくる。しかしこうしたデザインが主流なのかというと、そうとは言えない。『明朝体活字字形一覧』(文化庁国語課、1999年、P.332)にある幕末期から戦前期23書体のうち、直線につくる明朝体は1つもない。
[*9]……より正確にいうと、Windowsシリーズに実装されたMSフォントのうちの、JIS X 0208実装部分に基づいていると考えられる。



2008/10/29 15:15
小形克宏(おがた かつひろ)
文字とコンピュータのフリーライター。本紙連載「文字の海、ビットの舟」で文字の世界に漕ぎ出してから早くも8年あまり。知るほどに「海」の広さ深さに打ちのめされています。文字ブログ「もじのなまえ」ときどき更新中。

- ページの先頭へ-

INTERNET Watch ホームページ
Copyright (c) 2008 Impress Watch Corporation, an Impress Group company. All rights reserved.