【連載】
小形克宏の「文字の海、ビットの舟」
――文字コードが私たちに問いかけるもの
第2部 これが0213の特徴とその問題点
第1回 文字集合編
|
|
●再開のごあいさつ――陽暮れて道遠し
約1カ月半ぶりの登場である。“毎週水曜日更新!”と銘打っておきながら、なんといってよいかお詫びの言葉もない。実は前回の原稿を書いた後、風邪をひいてしまい、これくらい大丈夫と油断してあちらこちら出かけていたら、咳が止まらなくなって苦しくてしかたない。おまけに体にどうしても力が入らない。医者に行ったら急性気管支炎と診断され、あえなくベッドに直行、そのまましばらく寝たきり生活になってしまった。
治ってからも編集部にわがままを言って、しばらくお休みをいただいた。取材を進めるにしたがって、あまりの問題の広がりに収拾がつかなくなってしまっていたのだ。まるで、最初は誰もが知っている立派な登山口から山を登り始めたのに、だんだん道が細くなり、いくつも枝分かれをはじめて、どの道が山頂へつづくのか見当もつかなくなってしまったようだった。軽い気持ちで登り始めた私などは、戻るにも進むにもどの道を行けばいいのか分からず呆然としている。もちろん地図なんか持ってきてない。ああ、日が暮れてゆく……。
この連載では2月16日に第5回『JCS委員長、芝野耕司の反論(後編)』を掲載してから、以降特別編を4回にわたってお送りしてきた。それは本編では伝えきれない最新のトピックや拾遺訂正が発生したからなのだが、ここで問題なのは、JIS
X 0213:2000(以下0213)をめぐる、そうした状況の目まぐるしい変化なのだ。数週間に一度は読者の皆さんにぜひお知らせしたいトピックが続々と発生する。しかし、その反面で連載本編を流れる時間は第5回、すなわち'99年12月13日に芝野委員長にインタビューした時点で停止したままだ。このアンビバレンツをどう解決するか?
また、取材をすすめるにしたがって露わになってきた文字コードというものがもつ根深さも予想以上、というより予想外だった。これは第4回にも書いたのだが、この仕事にとりかかった当初、0213について3~4回で紹介する程度の見込みで取材を開始した。ところが取材するにしたがい、0213は実にさまざまな問題と通底するということが分かってきた。それはつまり文字コードというものが照らし出し、あぶり出す場所が、いかに多岐にわたるものであるかという証明なのかもしれない。
文字を持たない文化があり、また文字で残されなかった歴史がある以上、文字が文化のすべてではない。しかし文字がさまざまな形で文化に深く関わっているのは確かな事実だろう。また一方で、コンピューターが技術のすべてとは言えない。しかし現在、そしてこれからコンピューターが果たす役割を考えると、これまたコンピューターが技術の中で占める地位は相当に高いものだと言うことができるだろう。
となれば、文字をコンピューター上にあらわす文字コードというものの投げかける問題が、いったいどれだけの広がりを持つのかがご想像いただけると思う。私たちが考えなければならない問題はあまりに多く、そして深い。
こうして0213を入り口に、一気に文字と技術の深い森に迷い込んでしまった私だが、しかし私は第5回の12月13日時点にとどまるかぎり、この両手にあまるほど膨らんだ問題意識を、すぐには読者の皆さんにすべてお伝えすることができないのだ。このアンビバレンツをどう解決するか? もちろん、特別編でやったスタイル、つまりその時のトピックを単発で紹介するというのもひとつの選択だ。しかし、それではどうしても背後に流れる巨大なひとつの流れを浮き上がらせることはできない。
かくも絶望的なほど間口が広い文字コードを考えるにあたって、まず私に要請されることはテーマを明確化することだろう。なにを柱としてこの連載をすすめるか? どこかに腰を落ち着けないことには、視点はふらりふらりと行方を定めぬものにならざるをえない。
そこで初心に立ち戻り、この連載では0213をテーマとして、0213をさまざまな角度から掘り下げることにしようと思う。つまり0213を媒介としてモノゴトを見てゆく。それは0213に、現在の私たちの社会が直面している、ほとんどすべての問題がギッシリと凝縮されていると私は考えるからだ。0213を知るということは、私たちの社会がこれから乗り越えなければならない“壁”を知ることだ。取材をはじめて6カ月目にして、私はそのような確信をもつに至った。
次に、ここでいったん立ち止まり、0213のおおよその見取り図、全体像を描いてみたいと思う。前述したように、今この瞬間に私が読者の皆さんにお伝えしたいことは、ものすごく多岐にわたる。それを今ここで全部お伝えするのは、時間的にも物理的にもとうてい無理だ。ひとつの事実は、もうひとつの事実とどこかでつながり、そしてまた他の事実とも連携する。0213をめぐるデキゴトの積み重ねじたいが、私の(そしてたぶんあなたの)パソコンの背後でゴチャリと絡まり合って、ワケが分からなくなっているケーブルのよう状態なのだ。
だから、ここで私はいったん立ち止まり、それらのケーブルの絡まりを解きほぐし、1本ずつにタグをつけて整理してみようと思う。しかし、ひとつの事実をじっくりと解説する時間はない。一刻もはやく12月13日の芝野委員長のインタビューに戻り、そこから時間をすすめなければならないからだ。だから、それは取材メモのような、短い文章の集まりのようなものになってしまうだろう。まさにタグをつけて分類するだけのようなシロモノだが、それでも現在お伝えしなければならない0213についての、最新の全体像はぼんやりと描けるのではないかと期待している。
0213という規格の要点と、問題点については、さまざまな問題の立て方があると思うけれど、私はとりあえず以下の5つに分けて考えてみようと思う。
1)文字集合
2)符号化方法
3)制定過程
4)実装をめぐる問題
5)国際規格への提案の動き
以下、第2部として今号から3回に分けて、この5つの項目の解説をお送りしようと思うのだが、それが終わった後、第3部として最新状況からはしばらく離れ、いったん12月13日の時点にもどって芝野委員長のインタビュー、つまり“リサの返信”の顛末をお伝えする。ちょっと変則的だが、これが一番最初にのべたアンビバレンツに対する、私なりの回答だ。
●文字集合としての0213
文字集合として0213を見た場合、その特徴、そして問題点を簡潔にまとめると以下のようになるだろう。
*曖昧さのない文字集合
-“現代日本語を符号化するために十分な文字集合”が策定の目的
-明確な典拠と用例のある文字のみを採用
-現行のJIS漢字コード(JIS X 0208:1997)につづき、包摂規準を明確化
*多くの重要な資料から集められた漢字
-83JISで字体が大きく変更された29文字を78JISの例示字体のまま復活収録
-法令、行政地名、教科書、国宝、重要文化財、文部省学術用語集、NTT電話帳の人名、「国書総目録」に使われている漢字を“全部”収録
*一方で、収録見送りの漢字も
-ハシゴ高、門構えに“月”などは包摂規準を理由に収録を見送られた
-ただし仮にこれらの文字が収録されても異体字問題はなくならない。我々自身 の一点一画に異様にこだわる意識(特に人名・地名)の問題
-このような意識は戦後の当用漢字の普及から出現する比較的新しいもの
-つまり異体字問題は文字コードによって解決できる問題ではない
*さまざまな分野から採集された非漢字
-トランプ記号、単位記号、矢印、罫線素片、丸付き文字、数学記号、IPA(The International Phonetic Association)発音記号、歯科用記号、鼻濁音用の仮名、アイヌ語表記用の仮名等、さまざまなジャンルから非漢字を採録
-中でも現在最も文字化けを起こしている丸付き数字が収録されたのは重要
-また、IPA発音記号のうち『ダイヤクリティカル・マーク(合成可能)』の実装に関しては問題が発生しそう→「実装をめぐる問題」を参照
-Windowsで実装されているNEC拡張非漢字は、0213と重複する丸付き数字、 ローマ数字をのぞいて、Windowsでの符号位置のまま収録
-国際規格との整合性を重視した結果、独仏語等のヨーロッパ諸語が表記可能に
●包摂規準の明記は、なにを物語るか?
ここでまず0213の特徴として挙げるべきなのは、その厳密な用例主義と、包摂規準の明確化だ。これはもちろん文字コードとしての0213の称えられるべき美点であるのだが、しかし私はこれを他の文字コード、特に漢字を収録する他国の文字コードと比べた場合の“0213の個性”として考えた方が物事が見えやすいのではないかという仮説を立てている。
ラテン、ハングル、アラビアなど、漢字以外のスクリプトでは、用例や包摂が問題になることは、ほとんどない[*1]。つまり用例主義も包摂規準も、漢字を問題にしたときにこそ顕在化することが多い問題なのではないか。
[*1]……“ほとんど”と言葉を濁したのは、たとえばラテン小文字の“a”“g”“l”などに書体差があることを念頭においたからだ。例えばあなたはリットルをあらわす記号を書くときに限り筆記体の“l”を書かないだろうか? まさにこの理由で、0213では筆記体の“l”を、ラテン小文字“l”(例示字体はブロック体)と包摂せずに、単位記号“リットル”として面区点1-3-63に収録している。しかしこれらのケースはごく少数であり、漢字のように一文字ごとについて回る問題として意識されることはない。
|
何人かの識者に聞き、また私自身でも調べたかぎりでは、他国の漢字コードには、0208(97JIS)や0213のように用例・典拠や包摂規準を明記したものはない(もしご存知の方がいればご一報を)。これは日本が情報先進国で、他の国々が遅れているからだとお気楽に考えるよりも、むしろ中国・台湾・韓国・ベトナムでは“あまり必要にせまられていない”と考えた方がよいのではないかと現在の私は思っている。
つまり他の漢字使用国では包摂規準を規格で明記せずともうまく運用できている文化的な状況があり、用例を明記せずとも問題にならない社会であるからではないか。逆にいえば、現代日本の文字コードに厳密な用例主義や包摂規準の明記が要求されるのは、そこに日本特有の、他の漢字使用国ではあまりない、何らかの事情が反映されているからなのだ。そのような仮説をたててみるとスッキリしないだろうか。
誤解されては困るが、私は規格として用例・典拠や包摂規準を明記する必要なしと言っているわけではない。規格が誤解・誤読の余地のない、明快なものでなければならないならば、これらが明記されている方がよいに決まっている。これは技術文書の品質の問題であって文化的な要請とは別次元の問題だ。
私はこのように高い品質をもつ日本語文字コードを持ったことを、日本語使用者のひとりとして誇りに思うわけだが、しかしここで問題にしたいのは、なぜ我々の国が他国に先駆けてこれらを明示する必要性に迫られたのか、その社会的な背景は何かということなのだ。
こうした“日本特有の事情”を、将来ぜひとも明らかにしたいと私は思っている。しかし今回は紙幅がなく、私の取材と理解も十分ではない。ここでは0213に収録されなかった文字に、たとえばこうした“日本特有の事情”の具体例がうかがえることを指摘しておくにとどめたい。
ここで私は“収録されなかった”と表現したが、しかしじつはこれは正しくない。0213にはよく議論になる“ハシゴ高”や小説家・内田百ケン(門構えに“月”)の字体は、例示字体としてはなく、それぞれ“高”(クチ高)、“間”といった字体に包摂(つまり統合)されている。0213から見ればそう表現するのが正しい。これは第1回で書いた)。
私個人はと言えば、門構えに“月”のケンの字はやはり欲しいと思っている。もちろん0213の包摂規準からすれば、この字を包摂するのは正しい。でも、わざわざ自分の筆名を一般にあまり使われない字体[*2]にしたヘソ曲がりな小説家のために、わざわざ世界に冠たる包摂規準を曲げるのもなんだか面白いではないか。
[*1]……1820年の五車韻府から始まり1946年の朝日新聞まで23の活字見本帳の字形を一覧表にした『明朝体活字字形一覧』(文化庁
'99年刊)によれば、“間”は全サンプル23のうち22に見られるのに対し、門構えに“月”は17にとどまる。
|
それはともかく、ハシゴ高や上が“土”の“吉”(ツチ吉)など人名に多い「私のアノ字がJISで出ない」「我が家のコノ字はちょっと違う」という、“人名異体字問題”こそ、前述した“日本特有の事情”の典型の一つ、逆にいえば他の漢字使用国ではあまりない特異な現象ではないかという仮説を私はたてているのだ。
ここでもう一度、特別編3で述べた、“人名の表記は、当人の自由にゆだねる”という我々の社会のルールが、“それは本当に当人と社会全体にとって、幸せなことなのか?”という問題提起を繰り返したい。
たぶんこの人名異体字問題に関しては、文字コードの枠組みの中で考えるよりも、むしろ我々日本人が、今まで文字とどう付き合ってきて、これからどう付き合うべきかという社会的な視点で考えた方がおそらくは問題がクリアになるだろうと考えている。このことは、特別編3のアンケート結果ですこし詳しく述べた。
●非漢字について
さて、漢字のことで長くなってしまった。かけ足で非漢字のことに触れてこの稿を終えたい。非漢字のうち解説が必要なのは、IPA発音記号のうちの『ダイヤクリティカル・マーク(合成可能)』の文字だろう。これは他の文字と組み合わせることで、はじめて1文字となる合成用のキャラクターだ。つまり結合処理を前提とした文字なのだが、これは0208にはなかった新たな種類の文字であり、これを実装するためには0208では使ったことのない技術が必要とされる。
これがいかなる問題をはらんでいるかは、「実装をめぐる問題」や「国際規格への提案の動き」と関連させながら説明した方がわかりやすいと思う。したがって、ここでは事実だけを述べるだけにとどめ、詳しいことは次回以降にゆずろうと思う。
※今号から連載は隔週とさせていただきます。ただし、連載の都合上、連続で掲載することもありますがご了承下さい(編集部)。
(2000/5/10)
[Reported by 小形克宏]
|