Internet Watch logo
記事検索
バックナンバー
速報 マイクロソフト・プレスセミナー報告(下)
[2006/5/24]
速報 マイクロソフト・プレスセミナー報告(上)
[2006/5/23]
特別編31 JIS X 0213の改正を総括する(3)
[2006/2/14]
特別編30 JIS X 0213の改正を総括する(2)
[2006/1/12]
特別編29 JIS X 0213の改正を総括する(1)
[2005/12/26]
特別編28 JIS X 0213の改正は、文字コードにどんな未来をもたらすか(11)
[2004/12/1]
特別編27 JIS X 0213の改正は、文字コードにどんな未来をもたらすか(10)
[2004/11/30]
特別編26 JIS X 0213の改正は、文字コードにどんな未来をもたらすか(9)
[2004/11/29]
特別編25 JIS X 0213の改正は、文字コードにどんな未来をもたらすか(8)
[2004/9/16]
特別編24 JIS X 0213の改正は、文字コードにどんな未来をもたらすか(7)
[2004/9/13]
特別編23 JIS X 0213の改正は、文字コードにどんな未来をもたらすか(6)
[2004/6/2]
特別編22 JIS X 0213の改正は、文字コードにどんな未来をもたらすか(5)
[2004/4/16]
特別編21 JIS X 0213の改正は、文字コードにどんな未来をもたらすか(4)
[2004/4/12]
特別編20 JIS X 0213の改正は、文字コードにどんな未来をもたらすか(3)
[2004/4/6]
特別編19 JIS X 0213の改正は、文字コードにどんな未来をもたらすか(2)
[2004/4/2]
特別編18 JIS X 0213の改正は、文字コードにどんな未来をもたらすか(1)
[2004/3/30]
バックナンバーINDEX[2000/1/19~]
Illustation:青木光恵
小形克宏の「文字の海、ビットの舟」――文字コードが私たちに問いかけるもの


特別編22
JIS X 0213の改正は、文字コードにどんな未来をもたらすか(5) 改正の概要5:追加された10字の「表外漢字UCS互換」について(後編)

従来の方針を転換、非互換変更により「正統的な文字」として追加

 文字コードに文字を追加する場合、それがまったく新しいものならば、追加後は追加前から上位互換になり、整合性の問題は出ないとされる。追加した符号位置を古い規格で符号化しても空白や「?」等になるだけだ。しかし、難しいのはすでによく似た文字を収録している時、つまりJIS X 0213で言えば「包摂の範囲内」にある文字を別に追加しようとする場合だ。今回追加された10字は、これに当たる。

 前回説明したとおり、今度の改正では非互換になる包摂分離によって文字を追加した。しかしそのような手法をとらなくとも、文字を追加する方法はある。それがUCSでいう「CJK互換漢字」(CJK Compatibility Ideograph)の手法だ。これは新たにUCSに文字を追加しようとする際、単純に追加すると今まで収録されていた統合漢字が統合していた範囲(包摂の範囲)と衝突してしまう場合などにとられる手法だ。これなら、従来あった統合漢字の統合規則に抵触しないで追加することができる。

 例をあげて説明しよう。UCSの0000FA0E~0000FA2D(図1)は「Windows標準キャラクタセット」(WindowsのシフトJISの文字セット)の中の「IBM拡張文字」という領域の文字を典拠としている。そして、これが「CJK互換漢字」なのだ[*1]。これらの文字は、以前からよく似た字がUCSに収録されていたので、本来ならば統合の対象となってUCSへの収録ができなかった。しかし、そうするとWindows標準キャラクタセットとの間で情報交換をする際、これらの文字だけが期待どおりの形にならなくなってしまう。そこで今までの統合漢字の統合規則は変えず、Windows標準キャラクタセットと互換性を維持したい場合だけこれらのCJK互換漢字を使ってもらうという名目で、UCSに収録することになった。

■図1 UCSのCJK互換漢字に収録されている、WindowsのシフトJISにあるIBM拡張文字(JIS X 0221-1、日本規格協会、2001年、p.282)
http://internet.watch.impress.co.jp/www/column/ogata/sp22/zu1.htm

 ここで大切なのは、例えばCJK互換漢字のうち0000FA25の例示字形は今までの統合規則を変えずに収録されたのだから、つまり00009038の統合範囲にも含まれ得るということだ(図2)。このようにして、Windows標準キャラクタセットと互換性を維持したい実装、ざっくばらんに言えば日本のほぼ全ての実装は、0000FA25に文字を割り当てればよいし、それ以外の実装、これもざっくばらんに言えば日本に関係ない実装は0000FA25に何も割り当てなければよい。これがCJK互換漢字だ。従来の統合規則を変更しないから、追加前と互換になり整合性に問題はない[*2]

■図2 CJK互換漢字とそれに対応するCJK統合漢字の関係
しんにょうの点の数と形、「免」の点の有無、「免」の足が「口」の中の縦棒と繋がって出るかどうかの3点が差異。興味のある人は0000FA67も参照すると面白い。それにしてもUCSの矛盾が噴出しているような例ではある……

 この手法をそのままJIS X 0213でも借り、表外漢字字体表の文字を使いたい場合に限って使える文字として追加する。当然、以前からの文字は何も変更しない。ただし、これは従来のJIS X 0213には存在しない枠組みなので、規格本体で新たにその定義を盛り込む必要がある。それでも考え方としては十分成り立つ手法だ。この方法なら互換性は維持されるのだ。



非互換への変更を打ち出したのは、非公開のWG?

 実は少なくとも2002年3月の時点まで、これら10字については、上で説明したCJK互換漢字の手法で追加することが考えられていた。『平成13年度符号化文字集合(JCS)調査研究委員会成果報告書』(2002年3月、日本規格協会。以下、2001年度成果報告書)[*3]の中の「2.1.4 検討対象文字コード」では、〈JIS X 0208及びJIS X 0213の包摂の範囲は変更しない〉と明確に書いている。そして「2.1.5 各文字への対応詳細(7)」では以下のように書く。

これらの字体が、JIS X 0213にあることが望ましいので、JIS X 0213に、表外漢字字体表の字体をJIS X 0221互換文字として追加し、表外漢字字体表の字体は使用できるようにする。(p.21)

 そして明確に〈包摂の変更を行わないためにはJIS X 0221の互換漢字とする必要がある〉と書いている。つまり、この時点で念頭に置かれているのは、まさしくUCSの互換漢字のような形での追加だということがわかるだろう。

 ということは、この時点から実際の改正までのどこかで、方針は180度転換されたことになる。では、それはいつのことなのだろう?

 新JCS委員会は2001年度と2002年度の2つの年度にわたって設置されている。また、新JCS委員会は2002年度の作業部会(Working Group。以下、WG)を除きすべての審議を公開しており(後述)、私はそのほとんどを傍聴した。最初の年である2001年度では改正方針案を審議し、公開レビューを経て決定している。それが前述した『2001年度成果報告書』だ。これを踏まえて2002年度に規格原案を作成し、前年と同様に公開レビューを経て決定している。これが今回の改正だ。

 つまり変更されたのは2002年度のどこかということになるが、この年度は最初の半年間、委員会が開かれておらず[*4]、通算でも3回しか開催されない異例の年だった(前年度は5回)。しかも第1回はWGへの作業発注、第2回はすでに公開レビューの終了後で、レビュー応募者を招いて行なう公開審議の対応を話し合っている。そして最後の第3回が公開審議、および原案の承認。

 こうして流れを整理するとわかるとおり、この年度の委員会では実のある審議を行なえる時間的な余裕はなかった。つまり、実質的な審議は規格原案を作成したWGで行なわれ、ここで互換漢字から非互換である包摂分離への変更が行なわれたと考えるのが自然だ。実際、包摂規準に関する限り、WGの作業結果である規格原案と追補規格票の間に基本的な違いはない[*5]

 ところが、WGの審議はこの年度から非公開になっている。親委員会は前年度方針を踏襲してWGに作業発注をしたはずだが、WGはどのような理由で親委員会の指示を変更したのか、これについて肝心のWGが非公開で、本来説明すべきと思われる追補規格票の解説も口を閉ざしている以上、今のところすべては不明とするしかない。

 このWG非公開について私は特別編16で疑問を述べているが、事務を担当する日本規格協会によれば、非公開自体は事務局の提案であり、その理由は「WGは純粋に作業のための部会であり公開は不要。一方、親委員会は各方面が議論するためのもので、そちらの公開はしている」との説明だった。

 そして、これも特別編16の繰り返しになるが、当初はWGでの審議結果を検討する親委員会の開催が2003年1月に予定されていた。しかし、メールによる審議で特に疑問は出なかったとの理由により、事務局判断で委員会は開かれないまま公開レビューを迎えている。つまり、互換から非互換という大きな方針変更は、外部から知るチャンスがないまま行なわれた。

 WG非公開も、公開レビュー前に委員会を開催しなかったことも事務局の判断だったことに注意して欲しい。WGを公開しておけばここで述べているような疑問は持たれずにすみ、審議について痛くもない腹を探られることはなかったはずだ。

 さらにWGは、親委員会の判断を覆して原案を作成していることを忘れてはいけない。もし事務局の言うとおり「純粋に作業のための部会」ならばクライアントの意向に逆らうわけがない。結果から見ればWGは十分に独立した意志を持つ機関だったのであり、WGを非公開にした事務局の判断は間違っていた。情報公開はコストがかかるという声も漏れ聞こえてくるが、コストなら知恵を絞って削ることが可能でも、一度失った信頼はなかなか回復できない。結局のところ情報公開とは、私のような人間がいる限り、安価なリスク回避策なのではなかろうか。

 話を戻そう。以上に加えてどういう理由からか、公開レビューでは規格原案と矛盾する、「追加は互換漢字による」という内容の『2001年度成果報告書』が一緒に公開されてしまっている。端的であっても生硬な表現が続く規格原案を最初に読むより、まずこの文書で原案の意図を知ろうとする人は多いだろう。新JCS委員会も同じ理由でこの文書を添えたはず。

 しかし、これが互換と非互換という大きな部分で規格原案と食い違ったものとなれば、はたして公開レビュー応募者は正しい理解でレビューに応募できたのか。実は私自身、『2001年度成果報告書』を鵜呑みにして肝心の規格原案をきちんと読まず、この非互換部分を見落としてレビューに応募していたことを告白する。偉そうなことを書きながら本当にお恥ずかしい限りだが、その一方で、どうしてミスリードを誘うようなことをしてくれたとの思いもないではない(愚痴ですね、反省しなくては)。

 現在、新JCS委員会幹部にこれらの件を照会中だ。この続きは最後に予定している評価の回で検討することにして、ひとまず改正の概要紹介に戻ることにしよう。



「正統な文字」だからこそ、非互換であっても包摂分離で追加

 さて、ではどうして非互換な変更をしなければならなかったか。それを伺わせるのが、以下の解説「3.2.2 文字の追加と包摂規準との関係」の最後の部分だ。

今後、我が国の国語施策が浸透し、表外漢字字体表に示された字体の使用が増加することを想定すると、この規格を利用する場合、これら10組について、従来から例示されている字形に対応する面区点位置ではなく、今回新たに追加された面区点位置が多く用いられるようになることが予想される。位置づけとしては、新たに追加された面区点位置がより正統的な文字であると考え、従来からの面区点位置は、過去との互換性及びUCSとの互換性のための優先度の低い面区点位置と考えるべきであろう。(p.59)

 ここでは、今まで収録されていた文字より、新たに追加した文字の方が「正統的な文字」であることが強調されている[*6]。つまり正統的な文字だからこそ互換漢字ではなく包摂分離に変更したとも解釈できないだろうか。

 ここで改めてUCSにおけるCJK互換漢字の位置付けを見てみよう。結論から言うと少なくとも日本にとっては〈現実には限りなく使用禁止に近い漢字〉なのだ。どういうことか? 現在のUCSでは統合漢字と互換漢字は同等に扱って構わないとされている。ただしそれはあくまで「基本」であり、解説で〈次の解釈を強く推奨する〉として以下のように書く。

互換漢字は、(中略)特定の実装や規格との互換性を維持する目的の漢字であり、それ以外の目的のためには、使用者の責任において使用してもよいが、現実には限りなく使用禁止に近い漢字とみなす。また、それぞれの互換漢字には、互換性を目的としない場合には統合されるべき統合漢字が存在し、その統合漢字の字形の揺らぎの範囲内にその互換漢字が含まれる〉(JIS X 0221-1 解説 3.5.6「統合漢字と互換漢字の関係」p.1098)

 さらに「参考」として、上記の解釈を正式なものとして採用するよう、UCSの審議機関であるISO/IEC JTC1/SC2/WG2(以下、国際WG2)に、日本から提案する予定だと書いている(p.1098)。国際WG2のWebサイトでは、今までの各国提案や議事録等を蓄積され、誰でも読むことができる。つい2年前の原案さえ削除してしまうどこかの国の委員会とは大違いだが、ここで公開されている文書を読むと、日本代表団が統合漢字と互換漢字を同等に扱うことの問題点を繰り返し指摘していることがわかる[*7]。しかし彼らの提案どおり、規格に「CJK互換漢字は現実には限りなく使用禁止に近い漢字」という解釈を盛り込むところまでは至っていない。もっとも日本が、この解釈を推し進める立場だということは確かだろう。そして、佐藤副委員長、小林幹事を始めとして、国際WG2への日本代表団と新JCS委員会は重なる人が多い。つまりJIS X 0213の改正でも、UCSでの「解釈」と同様の立場をとると考えるのが自然なのだ。

 ここで最初の方で説明した0000FA25が、日本に関係する実装でしか使われないと想定されているのを思い出して欲しい。CJK互換漢字とは、世界中の文字を符号化しようとするUCSの中では所詮鬼っ子的存在であり、元来が「正統的な文字」が座るべき場所ではない。私にはWGにおける変更の理由も、こうした点が関係するように思える。

 以上を踏まえ先の解説引用部分を意訳すれば「互換漢字だなんてとんでもない! 表外漢字字体表の字は正統的なもので、これから日本で多く使われていくのだ。それだからこそ世界中で広く使われなくてはならない」というところだろうか。つまり、互換漢字から表外漢字UCS互換への180度方針転換は、表外漢字字体表が国が遂行する国語施策の一部であり、これをぜひとも普及させねばならないという、きわめて強いイデオロギー的な立場からなされたと考えるべきだろう。

 特別編18で、私は「表外漢字字体表へのJIS文字コードの対応」という視点で見ると、今回の改正のポイントは3つに絞れると書いた。しかし、こうしてみると4つ目を追加して、以下のようにしなければならないだろう。

 (1)JIS X 0208を変更せず、JIS X 0213だけを変更した。
 (2)JIS X 0213の例示字体のうち168字を変更した。
 (3)JIS X 0213に「表外漢字UCS互換」として10字を追加した。
 (4)10字の追加は、包摂分離による非互換な変更。



その他の変更について

 以上、ポイントを4つに絞って改正の概要について述べた。しかし、これ以外にも改正ポイントは多い。例えば、この連載の特別編4「Windows OSとJIS X 0213、そしてカッコつきUCS符号位置の問題」でもとりあげたカッコ付きUCS符号位置が全廃され、すべての面区点位置が正規のUCS符号位置に対応付けられた。これは初版の出版後に確定した事実にもとづくものだから、追補を出す以上は当然盛り込まれるべきことだろう[*8]

 他に符号化方法に関連して、終端バイトの変更[*9]、附属書1~3で定義されていた符号化表現名の置き換え[*10]がされている。ごく大ざっぱには、これらは国際的なルールの下、JIS X 0213を今回の改正の前と後で区別する必要ができたことによるもので、つまり今回の改正が大きな変更となったための措置と括ることができる。しかしいずれも詳しく書くスペースがない。申し訳ないが詳細は追補規格票をあたっていただきたい。

 次回は、この改正が与える社会的な影響について考えよう。おそらく一番大きな影響を受けるのはフォント周りの実装者、それにDTPオペレーターであると思われる。

[*1]……ただし、0000FA0E~0000FA2Dの32文字すべてがCJK互換漢字なのではなく、統合漢字と同じ扱いを受ける文字も含まれている。詳しくはJIS X 0221-1 解説「3.6.4 IBM拡張文字及びマイクロソフトWindows CP932互換漢字」(p.1100)を参照のこと。もっとも、このうちどの文字が統合漢字と同等なのかについて『The Unicode Standard Version 4.0』(The Unicode Consortium、Addison Wesley、2003、p.893)と食い違っている。また、JIS X 0221-1 解説3.6.4での記述自体も、その例として挙げられている0000FA25が別の箇所では漏れているという具合に混乱している。私には『Unicode 4.0』の方が正しいように思えるのだが。
[*2]……JIS X 0221-1 解説「3.5.6 統合漢字と互換漢字との関係」(p.1098)
[*3]……『新JCS委員会平成13年度成果報告書』(http://www.jsa.or.jp/domestic/instac/h13reports/jcs_houkoku.htm
[*4]……2002年度委員会のキックオフが大幅に遅れた理由については特別編16「JIS文字コードの例示字体変更は、大きな混乱を招かないのか(2)」を参照のこと。
[*5]……規格原案は公開レビュー時に公開されていた。「JIS改正に関する公開レビューの御案内」(http://www.jsa.or.jp/domestic/instac/review/0213review.htm)を参照。ただし、ここにある原案はすでに削除されている。そこで私の手元にある公開ファイルを以下のURLで公開する(PDF)。

  http://internet.watch.impress.co.jp/www/column/ogata/sp22/0213-pdam1.pdf
[*6]……ただし特別編21表1を参照してもらうとわかるように、表外漢字UCS互換で追加された10字のうち、1-14-1、1-47-52、1-47-94の3文字についてだけは、これらの方だけが「正統な字」とはできない。これらとすでにJIS X 0213で収録している字との関係は、表外漢字字体表における「デザインの違い」の関係であり、表外漢字字体表ではどちらも「正統な字」としている。従ってこの3組については、どちらが正統とするべきものではない。

 詳しくは『表外漢字字体表』「3(2)「字体の違い」と「デザインの違い」との関係」(p.7)、解説「3.2.2 文字の追加と包摂規準との関係」の「備考」(p.60)を参照。
[*7]……国際WG2のWebサイトは以下のとおり。

  http://anubis.dkuug.dk/JTC1/SC2/WG2/docs/documents

 この問題についての日本側提案は以下の文書番号を参照。

  N2196、N2222R、N2223R、N2382、N2423

 これらはすべて上記URLでダウンロード可能(英文)。また、これらの文書の起草者が、いずれも新JCS委員会で副委員長を務めた佐藤氏、同様に幹事を務めた小林氏であることに注意。
[*8]……解説「3.3.1 括弧で括った対応」(p.63)。
[*9]……解説「2.12 終端バイト及び符号化表現の名前」(p.48)。また国際登録されている終端バイトについては以下のURLを参照。

  http://www.itscj.ipsj.or.jp/ISO-IR/2-4.htm

 このページを見ると、JIS X 0208は過去3回改正されているが、終端バイトまで変更したのは83JIS(上記ページ中では「Japanese Character Set JISC C 6226-1983」)の時だけで、文字について変更しなかった現行97JISはもちろん、包摂分離によって2字追加した90JISの時も変更されていない。以上の事実から、原案作成委員会にとって今回の変更は、83JISと同列の大きな変更と考えられていたことがわかる。
[*10]……追補 p.17~18。

( 小形克宏 )
2004/4/16

- ページの先頭へ-

INTERNET Watch ホームページ
Copyright (c) 2004 impress corporation All rights reserved.