バックナンバーへ
このほかの連載へ
【連載】

小形克宏の「文字の海、ビットの舟」
――文字コードが私たちに問いかけるもの  

第2部 これが0213の特徴とその問題点
第4回 制定過程編(前)

       
Illustation:青木光恵

●制定過程からJIS X 0213:2000をみる

 今回は制定過程からJIS X 0213:2000(以下0213)を考える。0213は原案作成用の資料をひろくウェブ上で公開したことから、他のJIS規格では考えられないくらい、その制定過程をたどることができる。しかし、それだけに更に深い疑問がわき出てくることも確かだ。そこで、ここではそういったことを中心に解説していくことになるのだが、これは同時に、現時点で私が取材を進めていこうとしている事柄を紹介していくことにもなる。つまり今回以降は、第3部として予定しているものの予告編的な内容になってくるだろう。

 制定過程からみた0213の特徴と問題点を要約すると、以下のようになるだろう。

*最初に『開発意向表明』[訂正]を公開してから原案作成を開始
  -最初からシフトJIS符号化表現を規定することを明言
  -日本語EUCの符号化方法は原案作成の途中で盛り込まれた
  -原案作成は当初のスケジュールよりもかなり遅れた
*明確な意図、十分なスタッフ、そして情報の公開。一方で予算は貧弱
 -現代日本語文脈で、安定して使われており、印刷された用例から採集
 -たんに漢字表を収拾するだけでなく、原典にさかのぼって確認した
 -情報通信業界、マスコミ、国語学など各界から原案作成に参加
 -数多くの原案用の資料をウェブ上で公開
 -公開レビューにより、広く一般の意見を取り入れて作られた
 -一方で予算は少なく、必要な機材も委員の自費ということすらあり[*1]
 -公開レビューも予算の都合でウェブ上に限定しなくてはならなかった
*強い反対意見の存在
 -文字化け問題のゆえに最終審査で国内メーカーは反対の姿勢をとった
  -上記国内メーカーの反対により附属書1~3を“規格”から“参考”に変更
 -これらは符号化方法に対する反対だったが、すでに開発意向表明の時点で符号
  化方法について述べている。なのになぜ最終段階になって反対するのか?
 -新しい符号化方法に不安をもつメーカーが存在するのは理解できるが、なぜ原
  案作成の過程で反対意見が止揚されず、最終段階で唐突に噴出したのか。制定
  システムになんらかの問題があるのでは?

●最初に開発方針を公開してから作業を開始

 私は0213の制定過程を考えるうえで一番重要なことは、最初に『開発意向表明』(以下『表明』と略)をウェブで公開してから原案作成作業が開始されたことだと考えている。現在でもこの文書は公開されている( http://www.tiu.ac.jp/JCS/)。つまり、原案作成を担当した芝野耕司委員長ひきいる符号化文字集合調査研究委員会(以下JCS委員会)は、予定している収録文字数や、文字収集の方針、どのような符号化方法にするかなどといった開発方針を、すべて事前に公開してから実作業にとりかかっているのだ。このことは、後の最終審議での状況を考えるうえでも、非常に重要な事実になるはずだ。

 なんとも迂闊に思えるが、この『表明』には書かれた日付が見つからない。ただし規格票の「解説」には、'96年7月に開発計画をインターネット上で公開したとある(p.507)ので、それと推測することができる[*1]。0213が制定される3年半前に書かれたこの文書を読むと、これじたいが見事な0213の要約になっていることに驚かされる。つまり大筋では当初の開発方針を忠実にまもって原案作成が進められたと言えよう。

 

[*1]……'96年7月ということは、0213と同じ芝野委員長によって折りから行われていた、JIS X 0208(以下0208)の第4次改訂('97年1月に改訂。以下97JIS)の作業が終わりつつあった頃に公開されたことになる。このことは、0213の原案作成が0208の改訂作業の延長線上に位置づけられることを意味するだろう。

 

 それだけに、ちょっと意地の悪い読み方かもしれないが、この『表明』と現実の0213のどこが違うのかを検証することから、制定過程の一面が浮きあがってくる。私が見るところでは、その差分は以下に集約できるだろう。

 (1)文字数の問題
 (2)符号化方法の問題
 (3)開発期間の問題

 まず(1)の文字数の問題だが、『表明』では冒頭の「要約」で以下のように述べている。

《日本工業規格JIS X 0208“情報交換用漢字符号”を補うものとして,第3水準(約2000字)及び第4水準(約3000字)の計約5000字の拡張文字集合を追加する。》

 現実には第2部第2回で述べたように、第3水準が1,908文字、第4水準が2,436文字である。つまり第3水準で約90文字、第4水準で約560文字も少なくなっている。一方で『表明』では「符号化」として、以下のように述べている。
 
《この新JIS漢字コードは,明確にJIS X 0208の図形文字集合拡張と位置付け,更に,現状の使用環境で直ちに実装可能であり,利用可能であることが前提である。従って,現実的に最も制限の多い符号化方法である通称“シフトJIS”に配慮し,最低2000文字の第3水準と,それに更に3000文字を追加する第4水準の二つの水準を設ける。この二つの水準は,ISOに二つの符号化文字集合として登録するとともに,シフトJIS及びISO-2022-JP方式による符号化も規定する。》
 
 つまり、最初から収録文字数に関してはシフトJISの範囲を考慮することが予定されていたわけだ。もっともまずシフトJISで符号化可能な文字数が11,280であり、これから0208の収録文字数6,879を引くと4,401文字になることを考えると、概数とはいえ、どうしてこれよりも600文字も多い約5,000文字という数字が出てきたのか、現在の私には分からない。いずれにせよ、0213は当初約5,000文字の収録を考えていたが、最終的には4.344文字に落ち着いたということになる。

●遅れていく0213の開発作業

 次に(2)の符号化方法の問題。最初からシフトJISの符号化方法を考えていたことが分かるのは、(1)文字数の問題でも前述したとおりだが、『表明』を吟味すると、0213の附属書3(参考)にある日本語EUC『EUC-JISX0213符号化表現』は、当初は想定されていなかったことがわかる。

《符号化方法は,JIS X 0208に準じ,JIS X 0208が規定するすべての符号化方法で符号化可能な文字コードの開発を行う。》(要約)

 最後に開発期間の問題。『表明』では、簡潔に《開発期間は2年間とする。》とある。つまり『表明』の初出が'96年7月とすれば、3年後は'98年6月。開発終了とは制定ではなく、原案作成が終了して上部機関の日本工業標準調査会・情報部会へ上程することだと考えてみても、実際に情報部会の最終審査がはじまったのは'99年9月だから、つまり1年3カ月も遅れたことになる。

 もともと、JIS規格は工業標準化法第15条により、制定から5年を過ぎる日までに改正・廃止などの判断をすることになっている。ここで0213の母体となった0208を考えると、第3次改訂は'90年9月にされているから、本来は97JISは'95年9月までに改訂されていなければならなかったことになる。しかし'97JISが改訂されたのは'97年1月。つまりどういう理由でか97JISの時点で、すでに予定から1年4カ月遅れていた計算になる。  このふたつの遅れは、期間として重複しているので単純に足すことはできない。それでもだぶりを除いて考えれば、すべてが本来の予定通りにすすんだ状態と比べて、2年以上も遅れたと言うことができるだろう。

 すでに引用したとおり、『表明』中「符号化」では0213について《現状の使用環境で直ちに実装可能》が《前提》とキッパリ言う。ものすごいスピードで変転してゆくコンピューターの《使用環境》を横目でながめながら、97JISと0213両方の原案作成委員会の委員長をつとめた芝野の胸には、はたして焦りはなかっただろうか?

  以上を要約すると、0213の制定過程について、『表明』から以下のような事実が浮きあがってくる。
 
 (a)最初からシフトJIS符号化方法は規定に入れることを明言していた
 (b)当初の予定よりもかなり遅れてしまっていた

 

◎第2部第1回についての追記

 私はこの回( http://internet.watch.impress.co.jp/www/column/ogata/part2_1.htm )で、以下のように書いた。

 

何人かの識者に聞き、また私自身でも調べたかぎりでは、他国の漢字コードには、0208(97JIS)や0213のように用例・典拠や包摂規準を明記したものはない(もしご存知の方がいればご一報を)。これは日本が情報先進国で、他の国々が遅れているからだとお気楽に考えるよりも、むしろ中国・台湾・韓国・ベトナムでは“あまり必要にせまられていない”と考えた方がよいのではないかと現在の私は思っている。

 つまり他の漢字使用国では包摂規準を規格で明記せずともうまく運用できている文化的な状況があり、用例を明記せずとも問題にならない社会であるからではないか。逆にいえば、現代日本の文字コードに厳密な用例主義や包摂規準の明記が要求されるのは、そこに日本特有の、他の漢字使用国ではあまりない、何らかの事情が反映されているからなのだ。そのような仮説をたててみるとスッキリしないだろうか。

 

 最近、知人から上記の記述を裏付ける資料を入手することができたので報告したい。これは『Text&Graphics』(第65号 '97年6月13日 日本印刷技術協会)という小冊子に掲載された、0208と0213の幹事・エディターをつとめた豊島正之による『JIS漢字の拡張の方針』という論文だ。以下、該当個所のみを引用する。

 

4.1.3 「漢字の常識」とより抽象化した包摂規準[@1]の規定

「区別のレベル」自体が更に抽象化可能なら、包摂規準自体の指定の代わりに、一部のみを例示して、しんにょうの1点・2点、草冠の3画・4画はそれぞれ包摂する。他の諸字体も、これと同じレベルで包摂する、という事で、ひとつよろしく、だけで済む筈である。  この「規準の例示」で期待されている「レベル」とは、日本語の使用者に共通する「漢字の常識」である。本当にこれが前提にできるなら、包摂規準の網羅など必要無い。 ・草冠の3画・4画を包摂する位だから、当然「者」の「日」の上の一点の有無も包摂するだろう。 ・「告」や「周」や「唐」の縦画が「口」に接するか否かを包摂する位だから、当然「具」や「且」の縦画が「一」に接するか否かも包摂する筈だ。

 などという推論が、常識として成立するなら、包摂規準のリストアップは不要である。実際、X 0208旧版の解説と、これを依拠したUnicodeのHan-unificationは、この種の「規準の例示」に留まっている。(初代JIS C6226の実際の包摂は、より詳しい「林規準」に依っていた)。

 X 0208:1997改訂作業も、当初は、こうした一部例示で事は済むかと楽観していたが、ベンダ間のゆれは様々で、既に「漢字の常識」が到底期待出来ない状態になっている事が明白となり、「漢字の常識」頼りの運用では、混乱の解消にならない事は必至と思われたため、やむなく185個の包摂規準の掲載を行った。

 

[@1]……原文では「包摂基準」「包摂規準」が混用されているが、引用者の独断により、すべて規格票にある「包摂規準」に統一させていただいた。

  私の文章では包摂規準が厳密に列挙された理由として《そこに日本特有の、他の漢字使用国ではあまりない、何らかの事情が反映されているから》という曖昧な書き方しかできなかったが、豊島のこの論文により、国内のコンピューター・メーカーが0208を実装する際、伝統的な「漢字の常識」を無視した解釈をして、結果としてそのような「常識」にもとづく健全な運用(日本以外の漢字使用国でされているような)が期待できない状況であったため、ということが分かった。となるとスコープは、なぜ国内メーカーはそのような実装をしたのか? という問題に絞ることができる……のだが、どうも話はそんなに簡単にはすまないようだ。

 ここで、もうひとつの資料をご紹介しよう。これは別の知人に教えてもらったのだが、'96年1月27日に行われた『国境をこえる日本語の条件』と題する座談会での、上記資料と同じく豊島正之の発言である( http://www.glocom.ac.jp/lib/newsletter/NL7/features.html )。

もともとは〈文字の〉同定という作業は不要なものだったと思うんです。たとえばタイプライタを考えた場合、アルファベット大文字のO(オー)で数字の0(ゼロ)を表現し、小文字のl(エル)で1(イチ)を表現するのは当たり前だったんですよね。実際、英文タイプには数字の1がないキーボードは普通でした。では、どうしてコンピュータで同定が必要になるかというと、「プリントできればそれで済む」という時代が終わってしまったからでしょう。コンピュータでは文字の情報交換をしなければいけない。そうなると、0(ゼロ)とO(オー)とが一緒になってしまったら困るとか、そういうことがあるわけですね。

漢字の場合も、清書機械としてワープロが使われている限り、いったんプリントしてしまったら、もうファイルを捨ててしまうということが結構行われる。そうすると、そういう段階では文字の同定というのは要らなくて、似たような形が出ればそれでいいわけです。ところが、このネットワーク時代にそれでは困るという状況になってきたために、同定ということがうるさく言われるようになったんじゃないかと私は思うんです。

……引用文中の〈 〉は引用者による。


 つまり、プリントアウトが目的でしかなかった時代(80年代中盤までの日本のように)には曖昧な字体認識でもよかったが、メールの送受信やファイルの共有といった“情報交換”が普及することによって、それではすまなくなったという仮説が、ここでは述べられている。
 これを最初に引用した豊島論文での指摘に当てはめて考えると、仮に各メーカーでバラバラな字体の実装をおこなっていても、プリントアウト主体の使われ方なら問題は顕在化しない、ということになる。つまりメーカーの実装状況もさることながら、もうひとつ重要なのはユーザーの使用状況ではないか、というわけだ。
 現代の日本での情報交換の重要性は言うまでもない。だからこそ漢字の字体問題が騒がれている。では中国や台湾での実装状況、そしてユーザーの使用状況は? 韓国やベトナムでは? 他にも漢字を使用している国や地域はたくさんある。シンガポールや香港では? 調べねばならないことはまだまだ多いようだ。

 

◎特別編第5回に対する追記

 特別編第5回『MacOS Xは0213のシフトJISを実装するのか?』( http://internet.watch.impress.co.jp/www/column/ogata/special5.htm )のなかで、私は加藤弘一のウェブサイト『ほら貝』の記述についてふれた。これに対する文章が、『ほら貝』に掲載されている。『謹告「不必要な補足と訂正で混乱をまねいたことについて」正式版』(以下『謹告』と略 http://www.horagai.com/www/moji/nihon/hosoku.htm )と題するものだ。初出から何度も文章が変更され、文意も揺れたので、どのように対処しようか困っていたが、ようやく安定したようなので、これについて考えてみたい。
 私としては同じ物書き同士、紳士的な対応を心がけたつもりだったが、いやはや、ここまで悪く書かれるとは。この文章の中で加藤は、以下のように述べている。

 ある文字コードを「実装する」とは、その文字集合だけでなく、符号位置をそのまま使うことを言います。たとえば、Windows98はJIS基本漢字(JIS X 0208)の文字集合を使っていますが、JIS基本漢字を「実装」しているとは言わず、シフトJISとユニコードを「実装」している、というように。

「特別編」には「文字集合としては2000JIS」、「符号法としてはユニコード」という限定がついていましたが、変換テーブルについては言及がなく、「ことえりなんかが標準で吐く符号位置は、すべて2000JISの中に収まるようになる」とあったことから、同連載第五回でJCS委員会の芝野様が強く示唆しておられる、Windowsにおける2000JISの変則的実装(シフトJIS=ユニコード変換テーブルのJIS拡張漢字対応)と同様のことを、アップル社も内々に検討しているのかなと受けとりました。
(謹告)


 加藤が引用しているのは特別編第1回( http://internet.watch.impress.co.jp/www/column/ogata/special.htm )におけるアップルコンピュータ木田泰夫のコメントだが、木田はこの部分のすぐ前で《文字集合としては、まず2000JISの文字集合があり、これを標準のセットとして実装するというのがまずあり》と述べている。このことからも明白なように、ここで言う《2000JIS》とは、その文字集合を指す。

 もしもこの部分から“MacOS XがShift_JISX0213を実装する”と読んだのなら、そもそも加藤の肩書きの“文芸評論家”とは、いったいどんな職業なのかと疑問を持たざるをえない。なぜならこのインタビューでは、繰り返し繰り返し“文字集合は2000JIS、符号化方法はUnicode(UTF-16)”と書いてあるからだ。
 加藤は変換テーブルに言及がなかったことを根拠のひとつにあげているが、“文字集合は2000JIS、符号化方法はUnicode”というシンプルな説明のどこに変換テーブルの記述が必要なのだろうか。別の場所で木田は《MacOS標準のインプットメソッドことえりはUTF-16》とはっきり言っているではないか。
 ましてや、この原稿では露ほども登場しない芝野が示唆したという《変則的実装》と関連づけてしまうとは、深読みというより、むしろこじつけというより他はない。

 以上見てきたように、加藤はあきらかにある予断をもって私の原稿を読み、その予断をもって勝手に誤読をしただけだ。しかし、このことを責めるつもりはない。人間とは誤解をする動物で、間違いと無縁にいられる者はない。だからこそ確認作業が重要なのではないか。
 私がどうしても理解できないのは、加藤が私の原稿を読んだときに、私なりアップルコンピュータに確認するのを怠ったことだ。メールを出しさえすれば、それは簡単にできるはずだ。そのような確認しないままの情報を公共の場に流してよいとしたら、物書きの責任とはどこに存在するのか。

 全否定をあらためるのが目的ですから、現実にそういう実装がおこなわれるかどうかはともかく、将来的に可能性があることを示せれば十分と考えました。あくまで補足情報として、そういう可能性があることを示しただけですから、「可能性」にすぎないことを記し、固有名詞も入れずに未確認情報であることを明示しました。その点では問題はなかったと思っています。
(謹告)


 つまり《固有名詞も入れずに未確認情報であることを明示》すれば、未確認情報を流しても許されるというのだが、良いとか悪いとかの問題ではなく、署名原稿で未確認の情報を流せば、筆者の品格が疑われるのを覚悟しなければならないだけの話だ。
 だいたい本当に《問題はなかった》なら、なぜ加藤はこの文章で削除・謝罪しなければならないのだろう? 言っていることが一致していないではないか。

 私が彼に対して《この夏に発売されるある基本ソフトの新版》とはMacOS Xのことかと聞くメールを送ったことを、加藤は《覆面取材》《取材であることを隠した接触法》としている(エディトリアル Jun03 http://www.horagai.com/www/salon/edit/ed2000a.htm )。この人はイロハのイが分かってない。私が身分を偽ってメールを送ったのならともかく、フリーライターであることを明示して問い合わせている。となればそれは取材だ。そこで得られたことを原稿に書かないで、なんでフリーライターを名乗れよう。このどこが《覆面》で《取材であることを隠した》のか?
 私は特別編第5回にこう書いた。

 以上の原稿は、本来は前回、前々回の注として入れるべき文章だったが、私の判断ミスにより、肝心の加藤への連絡をとり始めたのが配信の直前になったために、今回あらためて特別編として書き下ろすことにしたものだ。


 つまり、加藤に連絡をとる前にあらかた原稿は完成していた。しかし、公開直前 に加藤に確認をとっていないミスに気づき、この部分の発表をいったんあきらめ、 あらためて彼に連絡をとった。私は予断をもって判断してはないつもりだ。だから加藤の返事しだいでは、この部分の発表を完全に断念することもあり得た。

 しかし、加藤から確かに《この夏に発売されるある基本ソフトの新版》とはMacOS Xのことだと回答を得たので発表に踏み切った。私はこのように確認をとりながら、発表まで正しい手順をふんだつもりだが、さて、一方の加藤はどうだったのだろう?
 しかも私は発表の5日前に、特別編第5回の原稿を加藤に送って、事実誤認がないかどうかの確認までしている。翌日に届いた加藤からの返信には、事実経過に関する訂正の申し入れが1カ所あり、私はそれをそのまま受け入れて発表した。体調を崩していたことには同情するが、この時に何も言わないで、後でブツブツ言うのは、なにか根本的に間違っていないだろうか。

 加藤は『エディトリアル』のページで、この件についてこうも書いている。

 それにしても、今回の騒動で、「一人でできる」とか「スピードが速い」というインターネットのメリットは、体調を崩しただけで、恐るべき脅威になると思い知りました。 
 わたしは一般の平均からいえば、精神が不安定な方にはいるでしょうが、物書きの平均からいえば、特別不安定というわけではないと思っています。多くの物書きが体面を保っていられるのは、編集者が盾になって、守ってくれているからだといっては言いすぎでしょうか。
(エディトリアル Jun06 http://www.horagai.com/www/salon/edit/ed2000a.htm ) 


 彼にとって“責任”とは、自分が引き受けるものでなく、誰かが守ってくれることだと読めるのだが、私はここのくだりを読むと、彼に同情してしまいそうになる。しかし、私にとっても時には辛いことなのだが、たとえ誰かが盾になって守ってくれたとしても、自分の書いたものから逃げられないのが“物書き”ではないのだろうか?

(2000/6/14)

[Reported by 小形克宏]