Internet Watch logo
記事検索
バックナンバー
【 2009/04/09 】
「新常用漢字表(仮称)」のパブコメ募集が始まった
[12:59]
【 2008/11/28 】
第3部 印刷文字から符号化文字へ
第11回 「情報化時代」へ常用漢字表を進化させよ
[11:19]
【 2008/11/27 】
第3部 印刷文字から符号化文字へ
第10回 ふたたび常用漢字表の改定を考える
[14:31]
【 2008/11/14 】
第3部 印刷文字から符号化文字へ
第9回 議員の氏名表記とRFC標準の共通点
[11:12]
【 2008/11/13 】
第3部 印刷文字から符号化文字へ
第8回 字体意識と社会的コスト
[11:27]
【 2008/11/12 】
第3部 印刷文字から符号化文字へ
第7回 『議員氏名の正確な表記』と人名表記の位相文字
[14:06]
【 2008/11/11 】
第3部 印刷文字から符号化文字へ
第6回 漢字の字体史から見た『議員氏名の正確な表記』
[17:08]
【 2008/10/31 】
第3部 印刷文字から符号化文字へ
第5回 『議員氏名の正確な表記』はどうやって作られたか
[11:21]
【 2008/10/30 】
第3部 印刷文字から符号化文字へ
第4回 議員本人のWebページとの比較結果
[15:03]
【 2008/10/29 】
第3部 印刷文字から符号化文字へ
第3回 実装の上から『議員氏名の正確な表記』を考える
[15:15]
【 2008/10/28 】
第3部 印刷文字から符号化文字へ
第2回 規格の上から『議員氏名の正確な表記』を考える
[11:08]
【 2008/10/27 】
第3部 印刷文字から符号化文字へ
第1回 現代日本の「ゴルディアスの結び目」をほどくのは?
[16:44]
“情報化時代”に追いつけるか? 
審議が進む「新常用漢字表(仮)」

第2部 新常用漢字表と文字コード規格
第3回 互換漢字という「例外」


 JIS X 0213が制定された2001年と現在を分けている大きな状況の変化、それはUCS(=JIS X 0221=ISO/IEC 10646≒Unicode)を審議する国際機関WG2で、互換漢字に対する風当たりがより強くなってきていることだ。

 将来もしも常用漢字に追加される漢字が新字体だった場合、前回書いたような漢字政策の玉突き現象によって、JIS X 0213で包摂分離せざるを得なくなる文字がある。この場合、分離前と分離後の字体の違いはわずかなものだ。したがってこれをUCSに新しい文字として提案する際は互換漢字になると思われる。ところが最近では、WG2において互換漢字はなるべく認めないようにしようという空気が強くなってきている。だからその審議には強い抵抗があることが予想される。


UCSと往復の保全性

 そもそもこの互換漢字とはいったい何なのだろう。もともとUCSは、多国間で使用可能な国際文字コード規格としては後発に属する[*1]。つまりUCSの制定前から、すでに各国には文字コード規格が存在しており、これを多国間で使用可能にする枠組みも存在していた。そうした中でUCSを普及させていくには、旧来からある規格との間の互換性を保証する必要があった。UCSを使う最大のメリットは、従来は考えられなかったほど膨大な数の文字が使用可能になったということなのだが、それだけでは今ほどUCSは普及しなかっただろう。新しい規格の普及を進める上で従来の規格と互換がとれていることは、とても重要な条件なのである。その解決法として考案されたのが互換用文字(compatibility character)であり、その中でも漢字のことを「CJK互換漢字」(以下、互換漢字)と呼ぶ。

 一般に文字コード規格同士で互換性があるとは、単に符号の対応がとれているだけでなく、往復の情報交換をしても符号が変わらない(文字化けしない)ことが求められる。つまりA→Bだけでなく、A→B→Aできちんと元の符号に戻るということだ。これを「往復の保全性」(round trip integrity)と呼ぶ。前回の終わりで少し触れたように、JIS X 0213は制定当時に人名用漢字許容字体として運用されていた常用漢字の異体字を新たに収録したが、このうち「祝」の異体字を例に説明しよう。


図1 往復の保全性と互換漢字。JIS X 0213に収録されている2種類の「祝」をUCSと往復の情報交換すると、面区点1-89-27の示偏の「祝」はネ偏の「祝」に文字化けしてしまう。JIS X 0213では区別していた「祝」をUCSでは1つの符号位置に統合しているからだ。

 JIS X 0213ではネ偏の「祝」を面区点1-29-43に、示偏の「祝」を面区点1-89-27に収録している。一方でUCSではネ偏と示偏の「祝」をU+795Dに統合している。そこでJIS X 0213とUCSの間で往復の情報交換をするとどうなるか。両者は対応がとれているから、JIS X 0213の符号はいったんUCSに変換できる。ところがこれを再度JIS X 0213に戻すと、最初は面区点1-89-27の示偏「祝」だった符号はネ偏の「祝」の面区点1-29-43に文字化けしてしまう。このように単に対応がとれているだけでは完全な互換性は保証できない。一対一対応になっている必要がある。このケースで言えば新規に示偏の「祝」をUCSに収録すれば問題は解決する。

 ところがここで示偏の「祝」を収録すれば、よく似た字が規格に含まれてしまい規格の整合がとれなくなる。同じ文字に違う符号を与えてしまうことを重複符号化と言うが、これと同じことが起きてしまうのだ。そこで特別に互換用文字/互換漢字という枠を設け、使用を制限した上で収録することにした。このケースでは示偏の「祝」をCJK互換漢字領域のU+FA51に収録している。

 その制限とは、互換用文字は自国の国内規格との互換目的だけにしか使えないことだ[*2]。この場合では、互換漢字である示偏の「祝」を使うことができるのは、UCSの符号化方法によりJIS X 0213の文字集合を実装したり、UCSとJIS X 0213との間で情報交換をしたりといった目的に限定されている。つまり、日本以外の中国や台湾のメーカーが自国の漢字としてこれを使うことはできない[*3]。このように制限しなければ後述する統合漢字と混同してしまい、規格としての整合がとれなくなる。


複数の規格を1つの符号位置に統合するCJK統合漢字

 ここで大事なことは、UCSの中で互換用文字はあくまで例外的な存在であることだ。例えばUCSの和訳版であるJIS X 0221は互換漢字について、規格本文で次のように注意を促している。

 この規格には互換用文字が含まれているが、これは、既存の符号化文字集合との互換性を保ち、情報を失うことなく双方向の符号変換を可能にすることを目的にしている。(中略)

CJK互換漢字(中略)とは、附属書Sに示す統合の規則によってCJK統合漢字(中略)の一つに統合される漢字である。

 それにもかかわらずCJK互換漢字がこの規格に含まれているのは、特定の国及び地域に特有の様々な国家的、文化的又は歴史的な理由に基づいて、それらの文字がある国家又は地域の規格で異なる符号位置に割り当てられているからである。

注記2 このため、互換漢字は、特定の国家、地域又はその他の規格との間の往復の変換を維持及び担保するためだけに用いることが望ましい。他の用途には、強く反対する。(『JIS X 0221:2007』「22 互換用文字」P.25~P.26、日本規格協会、2007年)


 もともと国際文字コード規格であるUCSにおいては、文字集合全体を参加各国が共有し、他国が提案した文字でも自由に使ってよい(実装してよい)という考えが基本にある。これが最も明確に現れているのがCJK統合漢字(以下、統合漢字)だ。CJKはそれぞれ中国(China)、日本(Japan)、韓国(Korea)の頭文字。最近ではこれにベトナム(Vietnam)が加わりCJKVとも呼ばれる。実際にこの統合漢字がUCSの規格票でどのように表示されているか見てみよう(図2)。


図2 UCSにおけるCJK統合漢字U+5E73「平」の表示(『JIS X 0221:2007』日本規格協会、2007年、P.473)

 U+5E73という符号位置に5つの「平」が併記されている。上部に太字でC、J、K、Vとある。このうちCはさらにGとTの2つに分かれてるが、Gは中国、Tは台湾だ[*4]。これら5つの区分の下に「平」の字が置かれているのがわかる。注目してほしいのはその下にある数字で、これは各国の国内規格の符号位置だ。つまりそれぞれの「平」は典拠(UCSではこれを原規格と呼ぶ)である各国の規格にある例示字体なのだ[*5]


統合漢字と互換漢字の違い

 ここからわかるように、統合漢字とは各国の国内規格を1つの符号位置に統合したものだ。Webなどを検索すると、よく統合漢字が統合しているのは言語であると説明されているようだ。それが間違いとまで言わないが、正確には各国の文字コード規格を統合したものだ。ではこれが何を意味するのだろう。例えば出版社の平凡社が自社名を表記する際、JIS X 0208に例示されている2、3画目を「ソ」の形につくる「平」とは違う、「ハの平」を使うことはよく知られている。これは書店に行けばすぐに目にすることができるほど馴染みのある字体といえる(写真1)。


写真1 出版社の平凡社が使う「ハの平」

 そこで仮にこの「ハの平」が何かの理由でJIS文字コードに収録され、これを日本が統合漢字の領域に提案したとして、UCSでは採用されるだろうか? 残念ながら無理だ。どうしても必要なら前述の互換漢字として提案するしかない。なぜなら図2のK欄を見るとわかるように、すでにU+5E73の統合の範囲(包摂の範囲と同じ)に「ハの平」が含まれているからだ。

 この例からわかるとおり、たとえ他国の規格の字体であっても、統合の範囲に含まれていれば日本は新規収録を提案できない。つまりUCSを使う限り日本は韓国の規格を無視することはできない[*6]。同様に中国・台湾・韓国などの国も日本の規格を尊重しなければならない。このようにしてUCS参加各国は統合漢字を共有している。だからこそ、他国が提案した文字であっても自由に使ってよい。例えば日本で人名によく使われる「ハシゴ高」はJIS文字コードには収録されていないが、Windows VistaやMac OS Xでは台湾の規格CNS 11643-1992からUCSに収録されたU+9AD9として実装されている[*7]

 同時に見逃してならないのは、漢字規格を1つに統合することにより東アジア各国の規格との互換性も保証できたということだ[*8]。前述の往復の保全性と同様、互換性という意味からも統合漢字は後発の規格であるUCSにとって必要だったと言える[*9]

 もともと統合漢字にとどまらず、UCSに収録された文字は審議に参加する全部の国の共有物だ。これに対して互換用文字は自国の国内規格と互換をとるためにしか使えない。つまりUCSの原理からは例外的存在だ。互換用文字の中でも互換漢字はさらに面倒な性質を持つ。表語文字である漢字(語を字で表す)は、ラテン文字など表音文字(字で語を表す)と比べると全体の文字数が多くなる。互換漢字は対応する統合漢字と細かな違いしかないから互換漢字としてしか収録できなかったわけで、そのように細かな違いを区別し始めれば、あっという間に外見がそっくりの互換漢字がUCSにあふれ、他の文字が収録されるべき領域を圧迫するに違いない。その意味でも互換漢字はUCSにとって「厄介者」なのである。

 ではWG2におけるこうした互換漢字への見方が、具体的に審議の中でどのような形で現れているのか、次回はその実例を見てみよう。

[*1]……UCS以前の国際的な文字コード規格の枠組みとしてはISO/IEC 2022が挙げられる。これは複数の文字集合を組み合わせて利用可能とすることで扱える文字を拡張しようという規格であり、7ビット符号(128文字を表現可能/2進数では1文字を7桁で表す)または8ビット符号(256文字を表現可能/2進数では1文字を8桁で表す)を基本的な単位とする。このISO/IEC 2022によって各国の文字コード規格を併用することが可能となった。制定は1973年7月。日本のJIS X 0208やJIS X 0213はもともとこの枠組みで開発された規格だ。ISO/IEC 2022は制定後、多くの国々の多様な要求を受け入れる形で機能を追加、複雑さを増してゆく。その結果、実装者にとっては必ずしも使いやすいとは言えない規格になっていった。そうした背景もあって誕生したのが、新たな国際的枠組みであるUCSだ。これは256×256=6万5536文字(16ビット/2進数では1文字を16桁で表す)を1面、これを256面集めたものを1群として、全部で128群(21億4748万3648文字)を符号化しようというもので、制定は1993年5月。UCSは符号が32ビット単位(2進数では1文字を32桁で表す)だが、1990年前後でここまで長い単位を実装可能なメーカーは限られていたと言える。そこに登場したのがUnicodeと呼ばれるアメリカ西海岸のIT企業を中心に開発された16ビット規格だ。これは16ビットの範囲内に世界の文字を符号化可能にするため、文字数の多い中国・日本・韓国の漢字を1つに統合するアイデアが盛り込まれていた。彼らは同じころ、Han Character CollectionというCJK統合漢字とよく似たアイデアを持っていた中国とも連係を取りながら、1991年8月のWG2ジュネーブ会議で、折りから審議中だったUCSの最初の1面(BMP:Basic Multilingual Plane。6万5536文字=16ビット)だけをUnicodeと互換にすることで合意、UCSとの一本化に成功する。ここから新規文字の追加は主にUCS、実装情報はUnicodeが分担という「連合」が確立していく。確かに32ビットは無理でも、16ビットならなんとかなるかもしれない。以降、UCS/UnicodeはマイクロソフトのWindows 95(1995年)に一部実装されたのを皮切りに、少しずつ普及が進んでいくことになる。(この項『文字符号の歴史 欧米と日本編』安岡孝一・安岡素子、2006年、共立出版を参考にした)
[*2]……ところが驚いたことにJIS X 0213の中には、韓国の規格であるKS X 1001の互換漢字領域に対応させた文字がある。1-84-14(F928)、1-85-46(U+F929)、1-86-27(U+F91D)、1-86-41(U+F970)、1-91-47(U+F936)、1-93-61(U+F9DC)、1-94-4(U+F9D0)の7面区点で(図3)、これらは人名用漢字、つまり日本の政令文字だ。個人的にはJIS X 0213はよく調べて作られた規格だと思うが、UCSの側から見れば、カッコ付きUCS符号位置の件と言い、どうにも自分勝手な国内規格と見えるように思える。カッコ付きUCS符号位置については、拙稿『文字の海、ビットの舟』特別編4(http://internet.watch.impress.co.jp/www/column/ogata/special4.htm)を参照。

図3 UCSのKS X 1001互換漢字に対応しているJIS X 0213の文字。いずれも制定当時の人名用漢字許容字体
[*3]……『JIS X 0221:2007』解説3.1.3「J欄の字形の有無」(P.151)を参照。
[*4]……ただしJIS X 0221規格票や原典であるISO/IEC 10646のどこにも「台湾/Taiwan」や「中華民国/Republic of China」という文字は見あたらない。台湾は「TCA」(Taipei Computer Association/台北市コンピュータ協会)と呼ばれている。背後にあるのは「2つの中国問題」であり、ここにはUCSの誕生前から漢字レパートリについて大きな発言力を確保していた中国への配慮が働いているものと考えられる。文字コードという技術が政治と不可分である例証といえるが、同時に言語の標準化が統治と不可分であることも表していよう。もちろん常用漢字表も統治の一種であることを忘れてはいけない。
[*5]……正確には現在のCJK統合漢字には、以下の8欄の国の規格が併記されていることになっている(UCSには規格名のみ掲載されているが、ここでは便宜的に国/地域/団体名で表記)。G欄/中華人民共和国、H欄/香港特別行政区、T欄/TCA(中華民国)、J欄/日本、K欄/大韓民国、KP欄/朝鮮民主主義人民共和国、V欄/ベトナム社会主義共和国、U欄/ユニコード・コンソーシアム。このうちG欄にはシンガポールの漢字も入っている。『JIS X 0221:2007』箇条27.1「CJK統合漢字の原規格参照」を参照。
[*6]……注2にあるように、JIS X 0213の制定でこれを犯してしまったことは日本人として覚えておいた方がよいと思う。
[*7]……正確に言うと、すでにWindows 3.1の時点から「ハシゴ高」は使用可能だった。しかしそれはシフトJISで符号化された文字として使用可能だったものだ。1998年12月のWindows NT SP4以降から「ハシゴ高」はUnicodeの文字として使用できるようになった(http://support.microsoft.com/kb/414023/jahttp://www.microsoft.com/japan/presspass/detail.aspx?newsid=1498)。
[*8]……さらに統合漢字は、ラテン文字などに比べて収録文字数が桁違いに多い漢字を1つに統合することで、符号化空間の大幅な節約を可能にした(詳細は注1参照)。16ビット(6万5536文字)の範囲では、とても中台日韓の漢字使用4カ国が持つ漢字規格を別々に収録できないからだ。漢字の統合はUnicodeにとって不可欠だった。
[*9]……本文では理想主義的な面ばかり書くことになったが、現実の統合漢字に問題がないわけでは決してない。代表的な例が統合規則の不明確さと、その結果としての重複符号化だ。詳細は、川幡太一「UCSの統合漢字から見る包摂規準」(『東洋学へのコンピュータ利用 第18回研究セミナー』京都大学人文科学研究所附属漢字情報研究センター、P.135~P.149、2007年)を参照。また、これを解消する努力の1つとして、現在IRGではUCSで統合漢字の統合規則を定めた附属書Sの改正が進行中だ。例えば『Annex S (informative) Procedure for the unification and arrangement of CJK Ideographs』(http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg30/IRGN1462AnnexSRevisionV3.pdf)を参照。



2008/07/28 14:25
小形克宏(おがた かつひろ)
文字とコンピュータのフリーライター。本紙連載「文字の海、ビットの舟」で文字の世界に漕ぎ出してから早くも8年あまり。知るほどに「海」の広さ深さに打ちのめされています。文字ブログ「もじのなまえ」ときどき更新中。

- ページの先頭へ-

INTERNET Watch ホームページ
Copyright (c) 2008 Impress Watch Corporation, an Impress Group company. All rights reserved.