INTERNET Watch Title
Click

【連載】
Illustation:青木光恵

 

小形克宏の「文字の海、ビットの舟」

――文字コードが私たちに問いかけるもの

 

特別編第9回 国語審議会への手紙・下/表外字体案への対応がまねくJIS文字コードの混乱

 

●表外字体案の字体は、JIS X 0213ですべて表現可能

 前回は、はたして『表外漢字字体表(案)』(以下、表外字体案)の効力が、収録された1,022文字以外にもおよぶのかどうかが不明である点をのべました。この曖昧さは、JIS文字コード改訂の際の対応にも影をおとすと思われます。JISの文字コード規格は、現在4つあります。

(a) JIS X 0208(一番普及している“JIS漢字コード”)

(b) JIS X 0213(0208の拡張版)

(c) JIS X 0212(補助漢字)

(d) JIS X 0221(=ISO/IEC 10646≒Unicode)

 ここでは、今後おそらく改訂はないと思われる(c)の補助漢字をのぞいた、(a)(b)(d)の3つについて検討したいと思います。ただし(c)は(d)の部分集合として収録されていますので、けっして無関係ではありません。

 まずJIS X 0208ですが、表外字体案の1,022文字であげられている印刷標準字体と簡易慣用字体は、739番の1字体をのぞいて、すべて包摂規準と『6.6.4過去の規格との互換性を維持するための包摂規準』(以下、互換規準)の範囲内におさまります。ただ、このうち1005番としてあげられている印刷標準字体そのものの表現は不可能ですが、表外字体案では1005番の備考として、JIS X 0208の区点71-37で例示されているのと同じ字体をあげ、これと印刷標準字体のちがいをデザイン差として区別しないことがしるされています。
 もっとも、JIS X 0208には収録されていない739番もJIS X 0213には面区点1-92-80にあります。また1005番の印刷標準字体そのものも面区点1-91-26にあります(表1)

◆表1 表外字体案のうち、JIS X 0213だけで表現できる文字

 したがって範囲をJIS X 0213にひろげれば、表外字体案はいずれかの符号位置に包摂されますので、これに対応するのにわざわざ符号位置を変えるなどといった非互換な変更をする可能性はないと思われます。つまり、JIS X 0208もJIS X 0213も例示字体だけを、包摂規準の範囲内で変更して表外字体案に対応することになるのでしょう。

●『互換規準』の29文字のゆくえは?

 さて、JIS X 0208にかぎって言えば、おおきな問題は以下の2つに絞ることができると思います。

(1) 表現不可能な表外字体案739番を追加するか否か。

(2) 『互換規準』の29文字の対応をどうするか。

 (1)については、前述のとおりJIS X 0208の拡張であるJIS X 0213に739番があることから、わざわざJIS X 0208を変更してまで追加することもないでしょう。

 一方(2)です。これについては少し説明がいりそうです。そもそもの発端は'78年に制定されたJIS X 0208が、'83年に最初の改訂をうけた時にさかのぼります。この時おおくの非互換な変更がされ、それから長い間日本の文字コードには混乱がつづきました。その'83年の非互換な変更とは以下の3つです。

(i) 4文字の例示字体が簡略化された字体に変更され、元の字体の文字がそのまま新たな符号位置をあたえられた。

(ii) 22組の簡略字体と旧字体(つまり計44文字)が、第1水準と第2水準のあいだで符号位置を入れ換えられた。

(iii) 250文字[*2]が字体・字形を変更された。

[*2]……『日本語情報処理』(Ken Lunde、ソフトバンク、'95年刊)p.379『相違点4』による数え方。文字数は資料によってことなる。

 まだパソコンが普及していない'83年当時の時代意識のなかで、'81年制定の常用漢字表とそれにともなう人名用漢字別表の改正に対応しようとしたのが、この結果だといわれています。しかしこの'83年変更(以下、83JIS)は、のちにおおきな禍根を残しました。
 この時よりも前からコンピューターを作っていたメーカーは、あまりにも多くの変更がされていて、従来の'78年版(以下、78JIS)を搭載した製品との間で互換性がとれなくなるとして対応しない一方で、'83年以降に作りはじめたメーカーは、83JISの方を搭載し、結果として両者のパソコンの間で文字化けが発生してしまったのです。
 前者のメーカーの代表的なものにNECがあり、後者の代表にエプソン、アップルコンピュータがあります。つまり'80年代当時、圧倒的なシェアをもっていたNECのMS-DOSマシンPC-9801と、その互換機エプソンのPC-386シリーズの間で文字が化けました。

 この混乱を収束しようとしたのが'97年におこなわれたJIS X 0208の3回目の改正(JIS X0208:1997)です。この版では、符号位置と例示字体については一切の変更をおこなわず((i)と(ii)はこの時点で対処の方法なしということでしょう)、そのかわり“包摂規準”を明文化することにより、JIS X 0208の中では(iii)で変更される前と後の字体・字形を一定の枠の内におさめ、78JISと83JISを同じ文字として区別しないことにしました。

 千変万化の漢字の特性をよく知悉した、おそろしくクレバーな対応策だと思います。包摂規準が明示された結果、それまで曖昧だったデザイン差、字形差、字体差が明確になり、JIS X 0208の解釈・運用が簡単になったことも特筆されます。

 しかし、それでも29文字が包摂規準の枠内におさまらないものとして残ってしまいました。これをどうにかしようとしたのが件の『互換規準』です。

 この互換規準では、変更された83JISの例示字体を(A)とし、これとは別に元の78JISの例示字体を(B)として2つのセットに分け、(A)セットの字体を規格票の例示字体とします(つまり(A)がデフォルト)。そのうえで、(A)と(B)のどちらを使っても規格に適合する、ただしどちらを使ったか明示せよ、としたのです。
 この規定により、ようやく'83年以降の版と'78年版との互換性が維持できるようになるということで『過去の規格との互換性を維持するための包摂規準』と名づけられたわけです。

 この互換規準の29文字は、変更の前後で特に字体の変化がおおきかったため、一部では“JISのウソ字”とまで言う人まであらわれました。この29文字は従来からあった字体をJISが収録しただけで、別にJISで創作したわけではないのですから、彼らの責任にするのも可哀想ですが、結果としてJIS文字コードを広く世の中に知らしめる結果になったのは皮肉なことでした。

 さて、話はようやく表外字体案にもどります。ここでも、この互換規準の29文字は強く意識されています。冒頭『(1) 従来の漢字施策と表外字体問題』で〈ワープロ等から打ち出せない〉として取り上げられている、“鴎”“祷”“涜”などの旧字体は、すべてこの29文字のうちですし、ですから〈打ち出せない〉旧字体は、すべてJIS X 0208でいう(B)のセットの内です。
 そんなわけですから、当然29文字はみんな表外字体案に選定されています。その印刷標準字体はすべて78JISの字体とする一方で、うち12文字は83JISの字体を簡易慣用字体として認めています。
 ところで、JIS X 0213では、78JISの(B)の字体をそのまま収録しています。つまりJIS X 0213を使えば、(A)と(B)の両方が使用可能になるわけです。これらの関係を表にすると、以下の表2のようにまとめられます。

◆表2 JIS X 0208:1997の『互換規準』に指定された文字と表外字体表の関係《29文字》
(JIS X 0208では包摂、JIS X 0213で新たに収録された文字)

 これら29文字をJIS X 0208でどう対応するかですが、私は理論上はノータッチになると理解しています。先日あるセミナーに出席した折り、講演者が78JISの字体に例示字体を変更するのではないかという推測をしていました。しかし、この見方はあたらないと思います。

 原則としてJIS X 0208:1997では(A)と(B)は別の文字です。あくまで(A)を符号化しており、(B)の方はいわば例外措置と考えるべきです。となれば互換規準を廃止して、例示字体を(A)から(B)に変えるのは“文字を変える”わけですから、これは非互換な変更になってしまいます。
 さらにJIS X 0208と一体で運用するのが前提であるJIS X 0213ではすでに(B)を収録ずみですから、そこにJIS X 0208が(B)を例示字体にすれば整合性がとれなくなりなります。こうしたことから、この29文字の例示字体変更はありえないと思います。つまり、これらを表外字体案の印刷標準字体で使いたければ、JIS X 0213を使って、ということです。

●JIS X 0208のうち、73文字の字体変更が必要

 つぎに、JIS X 0208で例示字体を変更すると思われる字体をあげます。便宜上、表を2つに分けます。(1)が83JISで字体・字形変更をした文字の内で今回も変更しなければならないと思われる文字(表3)、それから(2)が83JISの時には変更されなかった文字の内で今回変更すると思われる文字(表4)です。
 表3の文字は、もしJIS X 0208が表外字体案に対応すると、83JISについで、実に3度目の変更となります。
 もっとも、例示字体が変更されたとして、これはあくまで包摂規準の範囲内であり、別にフォントの字形を印刷標準字体に変えないとしても、規格に不適合とはならないということは知っておくべきでしょう。

◆表3 JIS X 0208が表外字体案に対応すると字体変更が必要な文字(1)
(83JISで変更され、表外字体案で78JISの字体が採られた文字)《66文字》

◆表4 JIS X 0208が表外字体案に対応することで字体変更が必要な文字(2)
(83JISで変更されなかったものの中で、表外字体案により変更が必要な文字)《7文字》

●おおきな混乱を生む“いわゆる康煕字典体”

 さて、ここまではJIS X 0208の表外字体案への対応として順当であると考えられるところです。おそらくは、JISとしての対応は、ここまでにとどまるでしょう。

 しかし、問題なのはフォント・ベンダーの“解釈”です。さきに表外字体案で〈表外漢字字体表に示されていない表外漢字の字体については、基本的に印刷文字としては「いわゆる康煕字典体」によることを原則〉[*4]と書かれている一方で、肝心の“いわゆる康煕字典体”なるものの具体像が示されていないために、表外字体案以外の表外字一般にたいする行動として、4つも選択肢ができてしまうと述べました。以下にその4つを再掲します。

[*4]……p.6「2 表外漢字字体表の性格 (2) 対象とする表外漢字の選定について」

(1) これからは表外字体案1,022文字以外を、〈芸術その他の各種専門分野や個々人の漢字使用〉以外には使わないことにする。

(2) これからは、“いわゆる康煕字典体”を表外字体案の1,022文字以外でもつかうために、『デザインの違い』のうち“デザイン差とされていない”違いを字体表から類推して表外字一般に当てはめ、字体をあらためる。

(3) これからは、“いわゆる康煕字典体”を表外字体案の1,022文字以外でもつかうために、『デザインの違い』のうち“デザイン差とされていない”違いでも無視し、より“いわゆる康煕字典体”と考えられる字体にあらためる。

(4) 表外字体案1,022文字以外は無関係であるから、従来通りとして一切手を加えない。

 このうち、問題は(2)と(3)です。不明である以上、当然利用者は恣意的な、それぞれの解釈にしたがって“いわゆる康煕字典体”を考え出して使うことにならざるをえないわけです。表外字体案のような“標準”に、曖昧さがあってはいけないと考えます。ベンダーによって解釈の差が出るようなことがあれば、それは混乱につながります。

 たとえば、以下の表5の文字などは、表外字体案には収録されていない文字ですが、83JISで比較的はっきりとした字体変更がされている文字の一例です。こういった文字は、まっさきに“いわゆる康煕字典体”を類推してあてはめる候補にあげられるのではないしょうか。

◆表5 JIS X 0208のうち、“いわゆる康煕字典体”を表外字体案以外の文字に類推して当てはめようとした場合、真っ先に影響が予想される文字の一例《13文字》
(83JISで字形変更された全250文字から、表外字体案に収録されていない文字を取り出し、これから(1)常用漢字とその異体字、(2)人名用漢字[許容字体表をふくむ]とその異体字、(3)表外字体案の異体字、(4)表外字体案のデザイン差によって包摂される文字、(5)『明朝体活字字形一覧』[*5]で78JISの字体が優勢でない文字をはずしたもの)

[*5]……『明朝体活字字形一覧』(上下巻 文化庁 '99年刊)

 ここであげた文字はあくまでも一例です。そもそも私が自分の作業を容易にするために、83JISで変更した250文字を出発点にして絞っていった訳ですから、変更されなかった数千もの文字に“いわゆる康煕字典体”を類推適用される可能性を考えねばなりません。そうなれば、もっともっとこうした変更候補の文字の数は増えるでしょう。

 こうした混乱をまねかないためにも、私は表外字体表の適用範囲を厳密にそれ自身に限定することを盛り込むよう、提案したいと思います。つまり、上記の選択肢でいえば、(4)です。

●Unicodeに避けようのない致命傷をあたえる表外字体案

 最後に、冒頭あげたJIS文字コードのうち、(d) JIS X 0221(=ISO/IEC 10646≒Unicode)を取り上げましょう。実は、これが一番深刻なのです。

◆表6 JIS X 0208が表外字体案に対応すると、JIS X 0221との変換表作成に問題が出そうな文字

 解説しましょう。本来が各国の文字コードの集合体であるJIS X 0221(=ISO/IEC 10646≒Unicode)では、制定当初から収録されている規格を“原規格”といいます。日本の文字コード規格としてはJIS X 0208とJIS X 0212(補助漢字)が、これにあたります。またJIS X 0221では、漢字について、同じ字体として考えられるものは一つの符号位置に統合しています。これを“統合漢字”といいます。
 しかし、実際にJIS X 0221を実装する際には、以前からある文字コードとの間で変換してして使うために、これらとの間で交互に変換しても、最初の符号位置が変わらないことが求められます。これを“ラウンド・トリップ・コンバージョン”といいます。“ラウンド・トリップ・チケット”は往復切符のことですから、往復旅行が保証されるというほどの意味でしょうか。

 さて、これを確保するために、JIS X 0221では、“原規格分離漢字の取扱い規則”(詳細はJIS X 0221の解説p.883以降を参照)とよばれるルールをもうけています。これは、本来はJIS X 0221自身の統合規則によって統合される字体がある場合でも、必ず分離され、双方の字体とも違う符号位置に収録することが保証されるということです。これにより、例えばJIS X 0208とJIS X 0212については、JIS X 0221との間で相互に変換を繰り返しても、元の符号位置のままで、しかもJIS X 0208とJIS X 0212を区別してJIS X 0221を使用できることが保証されるわけです。

 これは各国の複数の規格から成り立つJIS X 0221を、従来からあるシステムと互換性を保ちながら使用するためのいわば“生活の知恵”なのですが、では例えばJIS X 0208の例示字体が変更されたらどうなるか、というのが、この表6なのです。

 JIS X 0208では区点23-50の【繋】ですが、これを表外字体案のとおりに例示字体を変更すると、補助漢字の字体と衝突してしまいます。しかも“原規格分離漢字の取扱い規則”により、符号位置を統合することはできませんから、同じ字体が2つの符号位置をもつという、文字コードでは一番忌むべき“重複符号化”をまねいてしまいます。
 JIS X 0208からJIS X 0221に【繋】を変換する際、JIS X 0208出身の符号位置である7E4Bに変換されればよいものの、もしも補助漢字出身の7E6Bに変換されてしまえば、再度JIS X 0208に変換する際、たとえば補助漢字を扱えないシフトJISを使っていれば文字化けになってしまいします。他に【痩】も同じケースです。こうなると、規格としてのJIS X 0221は致命傷を負ったことになります。

 別のケースもあります。例えばJIS X 0221の598Dにある【妍】ですが、もう1つよく似た字体が59F8としても割り当てられているのです。これは中華民国の“原規格”(C-T欄)が、微妙に異なる字体を2つ収録しており、前述の“原規格分離漢字の取扱い規則”により統合されず、そのまま2つの符号位置をあたえられたものです。JIS X 0208の字体は、前者の598Dに割り当てられています。
 ところが、ややこしいことに、表外字体案の印刷標準字体は、後者の59F8と同じなのです。まさかJIS X 0208で例示字体を後者の字体に変更しても、JIS X 0221が符号位置を変える非互換変更をするとは考えられません。しかし、基本的に一定のルールにより同じと見なされる字体が1つの欄(符号位置)に統合されていたのに、表外字体案への対応によって、“字体は別の符号位置と同じなのに、違う字体の符号位置に割り当てられている”という混乱が発生します。同様のケースとして【剥】【屏】【并】があげられます。
 こうなると、JIS X 0208からJIS X 0221に変換する際、“原規格の符号位置に注目した結果”と“例示字体に注目した結果”で、変換先の符号位置の解釈が2つに分かれてしまうことになります。これまた大混乱です。

 つまり、表外字体案はこの表6の文字によって、実装がすすみつつあるJIS X 0221(Unicode)に避けようのない致命傷をあたえるものになるのです。こういった事態を、はたして国語審議会の皆さんは認識されているのでしょうか?

●むすび

 さて、結論です。以上みてきたように表外字体案がそのまま答申され、これにJIS文字コードが対応した場合、少なからぬ混乱がおこると思われます。そうならぬためには、以下のような修整が必要と考えます。

(a) 表外字体表の適用範囲は、字体表に収録された文字だけであることを明記する。表外字を使うにあたっては、なるべく表外字体表にある文字を使うよう推奨する一方で、これ以外の表外字一般には、表外字体表の効力は及ばないとする。

(b) 『デザインの違い』が、より包括的になるよう修整する。

(c) 明確な表現を本旨とし、あいまいな解釈をうむ“いわゆる康煕字典体”に関する記述を一切削除する。規範とされるべきは字体表にある字体、それに『デザインの違い』の2つだけであり、これらについての必要最低限の説明が付属すれば十分に運用は可能なはずだ。

(d) 情報機器に搭載される表外字の字体については、表外字体表の趣旨が生かされることを希望する一方で、その具体的な実現手段としてJIS文字コードの改訂はもとめない。

 以上、よろしくご検討ください。

敬具

2000年11月1日 

小形克宏拝


※本稿の執筆にあたり、直井靖氏、豊島正之氏より貴重な示唆をいただいた。また、表6として掲載したリストは、小池和夫氏がメーリングリスト『Font-G』に発表したものに基づく。各氏のご教示に深く感謝いたします。もちろん本稿の文責は私一人に属し、もしもこの原稿に誤りがあっても、すべて私の責任に帰する。

◎関連URL
■「国語審議会における委員会試案のまとめについて」意見募集
http://www.monbu.go.jp/pcomment/00000104/
文部大臣の諮問機関である国語審議会は、常用漢字にない文字(表外漢字)を使う場合の指針となる『表外漢字字体表』について審議してきたが、さる9月29日『表外漢字字体表(案)』を発表し、これに対するパブリックコメントを募集した。本記事では、筆者が文部省に提出したパブリックコメントを3回に分けて掲載したもの。[実際に提出されたパブリックコメントのPDFファイルはこちら(2000年11月10日リンク追加)]

(2000/11/7)

[Reported by 小形克宏]


INTERNET Watchホームページ

ウォッチ編集部INTERNET Watch担当internet-watch-info@impress.co.jp