Internet Watch logo
記事検索
バックナンバー
【 2009/04/09 】
「新常用漢字表(仮称)」のパブコメ募集が始まった
[12:59]
【 2008/11/28 】
第3部 印刷文字から符号化文字へ
第11回 「情報化時代」へ常用漢字表を進化させよ
[11:19]
【 2008/11/27 】
第3部 印刷文字から符号化文字へ
第10回 ふたたび常用漢字表の改定を考える
[14:31]
【 2008/11/14 】
第3部 印刷文字から符号化文字へ
第9回 議員の氏名表記とRFC標準の共通点
[11:12]
【 2008/11/13 】
第3部 印刷文字から符号化文字へ
第8回 字体意識と社会的コスト
[11:27]
【 2008/11/12 】
第3部 印刷文字から符号化文字へ
第7回 『議員氏名の正確な表記』と人名表記の位相文字
[14:06]
【 2008/11/11 】
第3部 印刷文字から符号化文字へ
第6回 漢字の字体史から見た『議員氏名の正確な表記』
[17:08]
【 2008/10/31 】
第3部 印刷文字から符号化文字へ
第5回 『議員氏名の正確な表記』はどうやって作られたか
[11:21]
【 2008/10/30 】
第3部 印刷文字から符号化文字へ
第4回 議員本人のWebページとの比較結果
[15:03]
【 2008/10/29 】
第3部 印刷文字から符号化文字へ
第3回 実装の上から『議員氏名の正確な表記』を考える
[15:15]
【 2008/10/28 】
第3部 印刷文字から符号化文字へ
第2回 規格の上から『議員氏名の正確な表記』を考える
[11:08]
【 2008/10/27 】
第3部 印刷文字から符号化文字へ
第1回 現代日本の「ゴルディアスの結び目」をほどくのは?
[16:44]
“情報化時代”に追いつけるか? 
審議が進む「新常用漢字表(仮)」

第2部 新常用漢字表と文字コード規格
第4回 互換漢字をめぐる非漢字圏諸国との「波風」


7年前の4月1日に出されたある提案

 前回は互換漢字というものがUCSの中では例外的な存在であり、非漢字圏の国々から厄介者扱いをされていることを述べた。今回はまずその実例を見るところから始めよう。少し前になるが2001年4月1日、WG2にアメリカ代表団が提出した文書番号n2326『Proposal to encode additional grass radicals in the UCS』(草冠をUCSに追加して符号化する提案)という書類だ(図1)[*1]。これは新しい文字をUCSに追加する正式な提案書だ。


図1 アメリカ代表団が2001年4月1日に提案した草冠のバリエーション94文字(n2326『Proposal to encode additional grass radicals in the UCS』)

 見てわかるとおり、草冠のさまざまなバリエーションが、じつに94文字も提案されている。よく見ると左上からxx00~xx05の6文字が、全く同じ形でxx35まで繰り返し提案されている。さらに丸付きの草冠、そして二重丸付き草冠、果ては「クサカンムリ」という組文字まである(しかも縦組と横組の2種類)。もしこれが本当に承認されたら、外見がそっくりな草冠が大量に重複符号化されUCSは大混乱になるに違いない。漢字を使わないはずのアメリカが、一体何を考えてこんな提案をしたのだろう?

 じつはこの提案書、日付が示す通りよくできたエイプリルフールなのだ。前述のように、日本はJIS X 0213の新しい文字をWG2に提案中だった。これらの中には、UCSの規準から言うと既収録の文字と同じ字であり、本来は提案が却下されるようなものが多く含まれていた。

 例えばJIS X 0213では2面85区84点~2面85区87点として全部で4種類の草冠を新規収録している(図2)。このうち2面85区86点と2面85区87点は、すでにUCSに収録されているU+8279とU+4491と対応するが、2面85区84点と2面85区85点がUCSにはない。しかしU+8279との違いはわずかだから、日本はこれら2文字を互換漢字として新たに提案していた。そうした日本に対する非漢字圏諸国の反応を形にしたのが、この『n2326』なのだ。「そんなに草冠が必要と言うなら、我々がこれだけ提案しても文句はあるまい?」というところだろうか[*2]


図2 JIS X 0213における4種類の草冠(赤枠内が対応するUCS符号位置)。下の2つはUCS既収録のU+8279とU+4491と対応するが、上の2つが対応しないとされ、カッコに仮の符号位置を付けて規格票が出版された[*3](『JIS X 0213:2000』P.264)

 これは感心するほど細部までよく考えられていて、例えばxx42~xx47の二重丸付き草冠などは、明らかに当時同じく日本が提案していたJIS X 0213の1面6区58点~67点の二重丸付き数字(図3)への当てつけであり(なんで以前からある丸付き数字U+2460~では足りない? という呟きが聞こえそうだ)、隅から隅まで味わい深い文書なのだが、やはり最も注目すべきはこれら草冠が互換用文字として提案されていることだろう[*4]。つまりエイプリルフールに隠された彼等のメッセージは、自分達しか使えない互換漢字を大量に提案してきた日本の姿勢に対する反発だったと考えられるのである。


図3 JIS X 0213における二重丸1~10。UCS既収録の丸付き数字U+2460~との違いはわずかだ(『JIS X 0213:2000』P.126)

互換漢字の収録に強く反対するアメリカの意見

 このように2001年当時から互換漢字はいささか波紋を投げかける存在だった。そしてこのころはジョークで済んでいたものが、現在では真剣な議論のテーマになりつつある。例えば2008年3月20日の文書番号n3409『AMD5 ballot results』のうち、イギリス代表団(P.10)とアメリカ代表団(P.12)の文章を読んでほしい[*5]

 この文書はWG2の上部機関、SC2で行われたISO/IEC 10646の追補5(AMD5)に対する各国の投票結果をまとめたものなのだ。このとき日本は、放送関係の業界団体である電波産業会(ARIB)が制定したデータ放送用規格にある漢字6文字を、互換漢字として提案していた[*6]。これに対してアメリカとイギリスは明確に反対し、互換漢字として追加するのでなく既にあるバリエーション・シーケンスを使って符号化すべきとする立場が明らかにされている。ここではアメリカ代表団のコメントを翻訳の上で引用しよう。日本が提案した「恵」の互換漢字を「恵A」、これに対応する既収録の統合漢字を「恵B」とする。具体的な形状は図4を見てほしい。


図4 日本が提案した互換漢字(左)と、対応する統合漢字(右)


 我々はARIB文字集合とISO/IEC 10646の間で往復の変換を確立することには全面的に同意するが、互換漢字を符合化するより現在では良い解決法があると考えている。(中略)

 バリエーション・シーケンスの出現によって、我々は自由でより良い解決法を持つことになった。実際に、バリエーション・シーケンス「U+6075、U+E0100」は形状「恵A」を対象にしており、またバリエーション・シーケンス「U+6075、U+E0101」は形状「恵B」を対象にしているので、ARIB文字はそれらの並びに対応することができ、(引用者注:結果としてARIB文字集合とUCSは)往復の変換をサポートすることができる。通常の解決法における並び(引用者注:互換漢字のこと)と違って、これらのバリエーション・シーケンスは正規化によっても変わらないままである。これは、実装に非常に大きな自由を与える。


 「バリエーション・シーケンス」「正規化」については追って順々に説明しよう。ひとまずここでは、アメリカが今までのような互換漢字の追加には問題があると指摘していること、そしてこれに対する解決法が新たに登場し、彼等はこれを強く支持していることを覚えておいてほしい。

 しかし、次のような意見が出るかもしれない。これはWG2の内部事情に過ぎないではないか。そもそも漢字を使わない国々にとって、しょせんは互換漢字など対岸の火事なのだ。そのような漢字に無知な国々が多数を占める場所で反対の声が高まっていると言って、なぜ我が国の国語施策の中心である常用漢字表の改定まで影響されなければならないのか?

 確かにそうだ。それに前述したJIS X 0213の互換漢字では、結局は日本の提案は承認されている。また、上に述べたデータ放送用の互換漢字も、結局は賛成多数で可決されている[*7]。だから将来の常用漢字表が改定により、互換漢字をUCSに追加提案しなくてはならなくなったとしても、日本代表団が多少苦労はするだろうし時間もかかるだろうが、最後には承認されるのかもしれない。

 ところが無事に規格に収録されたとしても実装の問題が残る。WG2で米英が互換漢字に反対するのも理由がある。具体的には互換漢字は別の字体に置き換わってしまったり、特定の場面に使用を禁止されていたりする。この問題は将来起こるのではなく、現在すでに起こっている問題だ。個人的には政令に根拠を持つ文字を互換漢字に頼るのはそろそろ限界が来ており、新しい枠組みを考えた方がよい頃合いが来ているように思う。次回はそのあたりを考えてみよう。

[*1]……n2326『Proposal to encode additional grass radicals in the UCS』Michael Everson / Rick McGowan / Ken Whistler, 2001-4-1(http://std.dkuug.dk/jtc1/sc2/wg2/docs/n2326.pdf
[*2]……ちなみに、このアメリカの文書に対する日本側の「返礼」が、ちょうど1年後の2002年4月1日付n2429『Proposal: Use full plane-13 for the Han variation selector』(http://std.dkuug.dk/jtc1/sc2/wg2/docs/n2429.doc)。この文書では、当時審議されていたバリエーションセレクター(字形選択子)の漢字への適用が承認されれば、漢字1文字に1万以上(!)もバリエーションセレクターが必要になる場合もあるとして、第3面や4面といった比較的便利な面をバリエーションセレクターの追加収録用に確保すべきと脅して(?)いる。日本も負けていないというところだろうか。じつを言うと当時この文書を読んだ私は、押っ取り刀で日本代表団のベテラン委員に意図を問いただすメールを送って、大笑いされたことがある。
[*3]……カッコ付きUCS符号位置については拙稿「『文字の海、ビットの舟』特別編4 Windows OSとJIS X 0213、そしてカッコつきUCS符号位置の問題」2000年3月29日(http://internet.watch.impress.co.jp/www/column/ogata/special4.htm)を参照。このカッコ付きUCS符号位置は内外の批判を集めることになり、これを解消するのが2004年改正の目的の1つにもなった。
[*4]……前掲文書『n2326』P.1のB-1b、提案する文字が既存領域に属するかどうかに対する回答、「Yes. Characters to be added to one of the compatibility character blocks.」(イエス、互換文字領域の一部に追加する文字である)を参照。さらに同じページC-3aにある、提案された文字が実際に使用されている背景に対する質問には、「Endless, eternal compatibility.」(終わりのない、永遠の互換性)と詩的な表現で回答している。これはじつに象徴的で、つまり微細な違いを持つ互換漢字が、次から次へと終わりなく提案され続けていることへの彼等のうんざりした気分が、明確な形で表れていると考えてよいだろう。
[*5]……『n3409 AMD5 ballot results』2008年3月25日(http://www.dkuug.dk/jtc1/sc2/wg2/docs/n3409.pdf
[*6]……もともとの日本提案は『IRGN1347 Proposal to encode six CJK Ideographs in UCS』Japan, 2007-09-07(http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg29/IRGN1347_wg2n3318-ARIB_CJK.pdf)。またこの提案の根拠となった放送関係の業界団体ARIB(電波産業会)のデータ放送の規格『ARIB STD-B24 5.1版 デジタル放送におけるデータ放送符号化方式と伝送方式』(http://www.arib.or.jp/english/html/overview/doc/2-STD-B24v5_1-1p3.pdf)、特に第2部第7章、および表7-11も参照。
[*7]……『Resolutions of WG 2 meeting 51』P.3「RESOLUTION M51.10 (Japanese ARIB ideographs)」(http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg29/IRGN1352_WG2_N3354.pdf



2008/07/29 13:20
小形克宏(おがた かつひろ)
文字とコンピュータのフリーライター。本紙連載「文字の海、ビットの舟」で文字の世界に漕ぎ出してから早くも8年あまり。知るほどに「海」の広さ深さに打ちのめされています。文字ブログ「もじのなまえ」ときどき更新中。

- ページの先頭へ-

INTERNET Watch ホームページ
Copyright (c) 2008 Impress Watch Corporation, an Impress Group company. All rights reserved.