バックナンバーへ
このほかの連載へ
【連載】

小形克宏の「文字の海、ビットの舟」
――文字コードが私たちに問いかけるもの  

第1部 2000JISがやってきた
第1回 2000JISとはなんだ?

       
Illustation:青木光恵

 いよいよ待望久しい新たなJIS文字コードが制定されることが決まった。これをきっかけに文字コードというものが、私たちの生活をどう変えるのか(もしくは変えないのか)、いったい何が問われているのかを、これからしばらく連載として考えてみようと思う。

 文字コードについて考えることは、“文字とは何者なのか”を考えることに他ならない。これから私がご案内する世界は、もしかしたら皆さんが日常親しんでいる文字の世界とは一見まったく違うものだと思われるかもしれない。「なんでそこまで気にするの?」「別に通じればいいじゃない」。文字を語ることの難しさがここにある。しかし、あなたはふだん何気なく使っている文字が持つ、深くて広い世界に気づいていないだけなのだ。

 コンピューターで文字をあつかうということは、まるで見渡すかぎり広がる文字の海を、ビットの小舟でわたることのようだ。識字率のきわめて高いこの国で、あたりまえに使っている文字が持つもっと奥深い世界が、ごく一部でしか語られていないのはとても残念なことだ。文字の背後にひろがる途方もない海原に、あなたとともに漕ぎ出そうと思う。あなたのディスプレイに映る文字は、昭和天皇が敗戦の前日にNHKのスタジオで読みあげた敗戦の詔と変わらないし、坂本龍馬が江戸へわたる船の中で新政府構想を書きつけた文字と変わらない。もちろん1000年前に唐の五台山僧坊で写経にはげむ僧が書いた文字と変わらないし、2500年ほど前に孔子が竹の破片に書き付けたはずの、今は失われてしまった文字とも、本質的な意味ではなんの変わりもない。私たちの歴史は、文字の歴史でもある。数千年前に中国大陸のどこかで発明された漢字が、姿とメディアを変えてあなたのディスプレイに投射されている。これらをむすぶ1本の道の果てに私たちは連なっている。

 このテーマには難解な専門用語が多く、理解するには理数系と文科系の両方の知識が求められる。わたし自身はこの問題を考えはじめてから日が浅いため、けっして十分な知識を持っているわけではなく、水先案内人として不安でいっぱいでもあるのだが、まずは勉強したことを読者の皆さんに報告するようなつもりで書くつもりだ。誤りがある場合は、編集部へメール< internet-watch-info@impress.co.jp >などでどんどん指摘してほしい。こういうことを知りたいという要望でもいい。皆さんと一緒に、自分の暮らしの一部として文字コードを考えていこうと思う。どうかよろしくお願いします。

 さて、まず第1部として新JIS文字コードのレポートを、4回に分けてお送りする。1回目では規格の中身の説明、2~3回目では今後の対応状況や実装予定、4回目では集められた文字が、本当に使えるものなのかを検証する予定だ。また、新JIS文字コードは歴史的な経緯や社会的な背景があってはじめて理解できる。それから国際的な規格、例えばUnicodeやISO/IEC 10646などもスコープに入れないと、とんでもない誤解が生じてしまうことになる。これらは改めて第2部として説明しようと思う。


●JIS文字コードが拡張される

 本誌ダイジェストニュースでも報道されたとおり、今年1月20日に新しいJIS文字コードが制定されることになった。その名を『JIS X 0213:2000』という。とりあえず新聞記事風に概要をまとめてみると、以下のようになる。

 日本工業標準調査会情報部会は、10月25日、かねて提出されていた従来のJIS文字コードを拡張する最終案に対して審議をおこない、数カ所の修整をしたうえで可決した。この結果、この新JIS文字コードは『JIS X 0213:2000』(以下2000JIS)として、2000年1月20日に通産大臣名で布告、制定される予定。修整はシフトJIS、ISO-2022JP、EUCによる実装化方法を規定する附属書1~3を規格にせず参考にするというもの。最終段階でこうした修整がおこなわれることじたいは珍しくないが、規格本文を参考情報に変更するという大きな変更は珍しく、文字コード問題の難しさが顔をのぞかせた形だ。
 以前から「JISでは書けない文字がある」という不満はいたるところで聞かれた。それが外字の使用に拍車をかけ、さらなる文字化けをまねくという悪循環もある。2000JISは、こうした不満にこたえる形で、現行のJIS文字コード『JIS X 0208:1997』(以下97JIS)を拡張する新しい文字コードとして、通産省工業技術院の依託により日本規格化協会傘下の符号化文字集合調査研究委員会(以下JCS委員会[*1])が'97年より3年越しで開発を進めていたものだ。97JISは6,879字を規定するが、これに4,344字を追加し、合計で11,223字が規定されることになる。

 最終案がなぜ修整されたのかについては、次回にくわしく述べるとして、まず2000JISとはどんなものなのかを説明していこう。

 

[*1]……2000JISの原案を作成したJCS委員会は、97JISをつくったメンバーが中核となり、ひきつづき2000JISの開発にあたったものだ。'78年にJIS文字コードがはじめて制定されて以来、4度目の改訂だった97JISは、その前の90JISに文字を追加することはせず、まず6,879字すべてに対して一文字ずつ採録元の資料にさかのぼって出典用例を洗いなおし、規定を明確化するという、いわば“JIS文字コードを規格としてマトモなものにした”という点が売りだった。そうした作業のなかで、実は規格の中に採録元が不明で、したがって読むこともできない“幽霊字”が12字存在することが明らかにされた。今回の2000JISの拡張は、こうした97JISでの徹底した用例調査主義をうけつぐかたちで開発された。また、誰でも参加できる公開レビューをおこなって広く意見をつのり、そのために開発中の資料を大量に公開しつづけた(すべてプリントアウトすると約10センチ!)ことも特筆される。つまり2000JISの規格策定には、多くの人々の知識と情報が集約されている。このことの意味はよく考える必要がある。

 

●新しくなると、どんなご利益が?

 2000JISは“現代日本語を書き表すのに必要な文字”を集めることを目的に開発された。現在収録された文字の一覧表は、 http://jcs.aa.tufs.ac.jp/fdis/X0213t-p1.pdf およびhttp://jcs.aa.tufs.ac.jp/fdis/X0213t-p2.pdf でダウンロードすることができる[*2]

(図1)今まで機種依存文字として通信ではご法度だったが、2000JISに収録され天下晴れて使えるようになった文字。互換性が配慮されてWindowsと区点位置は変わらない。

 この新しい2000JISを使うと、どんな嬉しいことがあるだろう? 誰にとってもありがたいのは、今まで最大の文字化けの原因とされてきた丸付き数字が規格化されたことだろう。メーリングリストなどで初心者がうっかり機種依存の丸付き数字を使ってしまい、メンバーから叱責の声があがってすっかり場がしらけるという、おそらく今この瞬間にも日本語圏のインターネット上でくりかえされている悲喜劇が、2000JISを使うことでなくなる。

 

 この他、Windowsで“NEC特殊文字”と呼ばれる領域(区点13区)にあるローマ数字、単位記号、元号や株式会社の略号などが、最大シェアをもつOSとの互換性を配慮してそのままの区点位置で2000JISに収録されている。従来せっかく実装されているのに“機種依存文字”として忌み嫌われていたものであり、これらが文字化けの心配なしに使えるようになる(図1)

 他にはどんな人が喜ぶだろう? 例えばSMAPのウェブページを作ろうとしたのに、なぜか一人だけメンバーの名前が出ずに?マーク連発のお姉さん(図2)、あるいは'97年に亡くなった中国共産党の最高実力者の姓を表記できずに歯がみした新聞記者(図3)、文豪里見トン(図4)の名前が出せないと知り憤然とした文芸評論家、俺の字って、普通のとちょっと違うからパソコンで出せないんだと諦めていた永さん、part1_1/5_1-15-34.gif田さん、手さん、川さん、さん、さん。ハートマークがワープロで出せないので、いまひとつ書くのにノリが悪かったラブコメ小説家志望者(図5)……きりがないのでこの辺にするが、いずれもJISで出ない典型的な文字の例だった。

(図2)
(図3)
(図4)
(図5)

 

 

 

 

 

 

 

 

 

 

 

[*2] ……2000JISは97JISを包括するスーパーセットであることから、この表には97JISも一緒に入っているのでご注意。2000JISで新しく入った文字は、フォントがこの表を作成した時点でまだ作られていないので、よく見るとすこし太くて見づらいところから判別するしかない。もちろんこれは規格票が発売されるまでの話だ。また、ここで公開されている表は最終案の時点のものだが、最終審査ではこの部分は無修整で通過しているので、制定されるものと同一と考えてよい。

 

●2000JISで収録された漢字の典拠は?

 2000JISのソースとして使われたのは、83教科1,500冊の小中高校生用の教科書、NTT電話帳掲載の姓、現行法令、文部省学術用語集、新聞各社の記事用例、新潮文庫、日本書籍出版協会書籍総合目録、青空文庫外字、雑誌「群像」、日本国語大辞典などの辞典、国土地理院の地図、漢方や鍼灸などの東洋医学用語集、神社名、祭神名、国宝名、歌舞伎番附、弓道用語、酒造用語、古辞書、各社メインフレームの外字等、典拠は多岐にわたる( http://jcs.aa.tufs.ac.jp/pubrev/nsrc-tbl.htm )。

 こうした調査の結果、2000JISを使えば教科書を記述することができるほか、日本の多くの人名・地名を書き表すことができる。同時に、伝統的に用いられている固有名詞や日本の代表的な近代文学作品に現われた文字も使うことができるようになった。どれも今までのJIS文字コードで、なぜ入っていなかったのか疑問に思うくらいに重要な文字ばかりだ。

(図6)拡大してご覧ください。

 また現行の97JISでは“鴎”や“涜”“掴”“祷”“顛”など、省略した新字体を例示[*3]してきた。もともとこれらの文字は、'78年に最初に制定された第1次規格(78JIS)では旧字体で例示されたのだが、'83年の2回目の改正(83JIS)の際に新字体に変更されたという経緯がある[*4]。筆者などは、これらの文字を初めてディスプレイの中に発見したときは、思わず「この字はウソだ!」と叫んだものだった。こうして新字体に反発する感情的な“JIS嫌い”を輩出する原因ともなったのだが、こういう事情もあってか、97JISでは特に例外をもうけ、変更された29字については旧字体の字形を使ってもよいという例外規定[*5]をつくった。これを2000JISではさらに進め、この29字の旧字体をそっくり収録した(図6)。これで晴れて文庫本と同じ字体で“森鴎外”をJISで書くことができるようになったわけだ[*6]

 それから、人名に使うことのできる文字が大幅に収録された。日本のあらゆる漢字政策の中心が『常用漢字表』の1,945字だ。教育はもちろん、人名に使われる漢字も、まずこれによっている。この常用漢字以外で人名に使うことができる漢字をリストアップしたものが法務省の『人名用漢字別表』[*7]。この2つはすでにJIS文字コードに収録されているが、のちに戸籍法施行規則の附則として、人名用漢字別表の中で旧字体も使って良い文字が『人名用漢字許容字体表』[*8]として205字定められた。JIS文字コードはこのうち90字が未収録(正確には“包摂[*3]していた”)だったが、これを新たに収録した。先に例としてあげたヒロシさんやトク永さんの文字がこれにあたる。

 つまり、現在新しい子の名として認められている漢字が、これですべてJIS文字コードで表記できるようになったわけだ[*9]

 まだある。常用漢字表をよく見るとカッコで囲んだ旧字体をつけられた字がある。これはその字が“もともとの形はどうであったか”ということを説明するために、漢字の根本資料として今でも役所などで重用されている清代の漢字辞典『康煕字典』の字形を示したものだ。もともとこの“康煕別掲字”から前述の『人名用漢字許容字体表』が抽出されたのだが、これにもれていたもののうち97JISに入っていなかった文字も、すべて2000JISでは収録した。前述した例では手ヅカさん、タカシさんの文字がこれにあたる。

 

[*3] ……よく誤解されるのだが、過去も現在もJIS文字コードでは具体的な字の形は一切規定していない(例えば97JISの規格票「適用範囲」を参照)。われわれは無意識のうちに微妙な文字の差、はねるか、とめるか、付くか付かないか等を無視して同じ字と認識している。実は我々が思っている以上に、文字とは本質的に“抽象的な概念”としかいいようのない曖昧さをもっていて(写真1参照)、一点一画にいたるまで絶対的な字形を規定することは、文字のもっているこうした抽象性を殺してしまうことになる。だからJISで規定しているのは抽象的な文字の“種類”=字体であり、規格票に掲載されているのはあくまでもその字体の実現例となる字形だ。これを“例示字体”という。

したがって例示字体は、一定のルールでいくつかの字の形を代表している。つまり他の字形を統合しているわけだ。この“統合のルール”を、JIS文字コードでは“包摂規準”とよぶ。このあたりがJIS文字コードを難解なものにしている原因なのだが、現実問題として、JISに限らず文字コードを包摂規準なしに作ることはできるかもしれないが、それではフォントも作りづらいし、使い勝手もきわめて悪いものにしかならないだろう。このようにして口の高(クチ高)を使っても、高島屋の高(ハシゴ高)を使っても、実は97JISにも、そして2000JISにも適合する。クチ高はハシゴ高を包摂しているからだ(包摂規準連番145)。

もっともフォントメーカーは、包摂規準を承知しつつも、市場の要求もあり規格票にもとづき(けっして同じものではないが)フォントを作るので、“JIS対応フォント”となると例示された字形とほとんど同じものになってしまう。つまり実態としてフォントメーカーは“例示字体”としてだけ示されたはずのものを“規範字形”として使っている。その結果として97JIS、2000JISに適合しているはずのハシゴ高を、われわれは使うことができない……というわけなのである。

[*4]……83JISの変更点は字体を変えただけにとどまらない。このあたりのことに一番詳しく、また一番容赦のない批判をくわえているのが、実は97JIS規格票『解説』である。これについて芝野委員長はこう説明する。「本来の形での技術規格では、以前の版に間違いやあいまいな点があった場合、できる限り明示的にその問題点を解消する必要があります。技術は無謬ではありません、バグは存在します。しかし、バグは明示的に修正すべきなのです」。このコメントは、規格や文字コードというものの持つ公共性を、よく表していると思う。

[*5]……規格票ではこれを『過去の規格との互換性を維持するための包摂規準』といい、包摂規準の中でも特にこれを区別して『互換規準』と呼ぶ。ちなみに“過去の規格”とは第1次規格の78JISのことだ。

[*6]……繰り返すが、別にカギの中が“品”の鴎(旧字体)を使おうが、“メ”の鴎(新字体)を使おうが、97JISには適合する。また、“品”の鴎を区点位置18区10点におくフォントがあっても97JISに適合する。

[*7]……1945字の常用漢字だけでは選択肢があまりにも狭いので、別に人名用漢字の表を作った。人名用漢字“別表”と称するゆえんだ。

[*8]……ほんらい人名用漢字は、難解な字を子供の名に使うのはやめようという趣旨で、戦後すぐの頃に当用漢字(常用漢字の前身)と同じ頃にもうけられた“制限”だった。しかしこの漢字制限政策に対する反発の歴史の中で、その緩和策として『人名用漢字許容字体表』('81年)が付け加えられた。

[*9]……他に人名に使える漢字の規定としては、婚姻などで新しく戸籍をつくる場合や、電算化で戸籍を再製する際に字形を正字に直すかどうかの規準をしめす法務省民事局第二課通達7006号('94年)があるが、これには〈漢和辞典に俗字等として登載されている文字〉は正字に直さなくてもよいと大ざっぱな形でしか定められておらず、したがって現在これのコード化は不可能だ。つまり、人名に使えるすべての漢字をコード化することは、現在の法規では不可能である。

この規定も、当初は同通達5200号('90年)で、一部の文字を除き誤字や俗字を解消し正字に直そうとしていたのが、この7006号で大幅に緩和されたという歴史をもつ。このように日本の漢字政策は大きな振幅のなかに跡づけられ、それゆえにおそろしく難解なものとなっている。JIS文字コードの分かりづらさも、ひとつにはこうした漢字政策の振幅と無縁ではない。

 

●バリエーション豊か、どれも実用を前提とした非漢字

 

(図7)記号類の一例

 2000JISに収録された文字が実用的なのは漢字ばかりではない。前述した丸付き数字は全部で3種類、ハートマークの他にダイヤ・スペード・クローバーのトランブマーク、東日本などの地域で優勢な発音である鼻濁音やアイヌ語を表記するために必要な「か」「き」「く」「け」「こ」の半濁音や、ローマ数字の大文字・小文字、分数、天気マーク、著作権を示す(C)マーク、登録商標を示す(R)マーク、ミリ、トン、ワットなどの単位文字、将棋の駒マーク、発音記号、元号記号、歯医者さんで保険請求の書類作成の際に必要な歯科用記号など、いずれも今すぐに用途を考えられるものばかりが収録されている(図7)

 

 

●収録されなかった文字は?

 以上述べてきたように、2000JISに新しく収録された文字は、どれも「まあ、よくもこれだけ集めたものだ」と単純に感心してしまうような範囲の広さを特徴とする。ひとつにはさまざまな学科の教科書を丹念に調査したことが効いているのだろう。考えれば当たり前だが、学校で教える教科は現代日本の知的水準を確実に反映している。そこで使われている文字を拾えば、日本のあらゆる分野の用字用語を、広く着実に収集できる。

 そのメリットを享受するのは現代に生きる我々にとどまらない。教科書の文字をコンピューターに載せなければ、子供たちは教科書の情報を交換することができない。日本の10年後、20年後の将来を考えたときに、これはとても重要なことであるはずだ。

(図8)

 さて、そんなに素晴らしい2000JISの文字に、なにか欠けている漢字はないのだろうか? おそらく編集者(実は私もその端くれなのだが)など、文字に関わりのある職業の者が見て、最初に気づくのは高島屋の“高”、俗にいう“ハシゴ高”がないことだろう。それに門構えに月を入れる小説家・内田百ケンの字がない。加えれば上が“土”の“吉”(ツチ吉)もない(図8)。中でも“ハシゴ高”は、ご近所をものの5分も歩けば、それを使った表札に出会えるだけに、なぜとの思いは強い。

(写真1)妻の実家がある大阪市中央区に行った際見かけたラーメン屋さん。感動のあまり店主に詰め寄って話を聞こうと思ったが、ちょうど休店日で望みを果たせず。もっとも本当に聞いても「どっちゃでもえーがな」と言われたと思う。

 いずれも97JISではルールによって、それぞれ“高”“間”“吉”に包摂[*3]されている。2000JISの原案を作成したJCS委員会の中でも、特に“ハシゴ高”と“百ケン”の文字は、最後まで入れる入れないをめぐり紛糾したようだ。しかし結果的に収録は見送られた。芝野耕司委員長は「よく使う“口”の“クチ高”と、“ハシゴ高”を区別するロジックが見つけられない。ハシゴ高が欲しいという、たぶん数万人の人がいると思うが、その後ろにクチ高とハシゴ高を区別しない数百万人、数千万人の人がいる。また内田百ケンは、元は岡山県百間川から来ており、ケンの字を門構えに月にしたのは有名になってから」と説明する。

 

 たしかに実態としてハシゴ高とクチ高は区別して使わない人の方が多いようだ。ハシゴ高に執着するのはハシゴ高が名前として(それも自分の名、あるいはその人の強い影響下で使われる名の字として)使われる時であり、またヘタをするとそういう際でも混在して使われたりする(写真1)

 

 

(図9)  

康煕字典本文の“クチ高”。

『王引之校改本康煕字典』上海古籍出版社'96年第1版 同年第3次印刷 :p.1536上。

同序文の“ハシゴ高”。

『王引之校改本康煕字典』上海古籍出版社'96年第1版 同年第3次印刷 :御序製p.2上。

 また、もともとハシゴ高は手書きの際に使われる字形であり、印刷する際に明朝体のクチ高に置き換えて印刷されていたという歴史もある。つまり戦前の手書きの世界では圧倒的にハシゴ高の方が使われていたが、筆書きの習慣がすたれ、戦後直後に公布された当用漢字(常用漢字の前身)にハシゴ高でなくクチ高が収録されるにおよんで、手書きでもクチ高が使われるようになった。ハシゴ高を印刷(およびディスプレイ用)で出したいという欲求は、つまり手書きの記憶が消滅した傍証に他ならないと芝野委員長は言う。ある意味で手書きの表札や看板、印刷字形でも手書きを模した楷書体にハシゴ高が使われるのは当然で、“ツチ吉”もケースとしては同じものだし、他にも筆写字形と印刷字形の違う文字はたくさんある。ちなみに康煕字典でも明朝体の本文中は一貫してクチ高だが、楷書体で印刷された序文ではハシゴ高だ(図9)。また、楷書体を使う牛丼の吉野家はツチ吉で表記されている(写真2)

(写真2)深夜の夜食難民の友『吉野家』の看板。手書きの記憶を濃厚に残す楷書体であれば“ツチ吉”になるのが当然、フムフムと牛丼を食べながらうなずく怪しげな奴がいたら、それが文字マニアである。

 

 しかし、いくら歴史的事実としてそうであっても、例えば単行本を出版する時、著者に「自分の名はハシゴ高で」と指定されれば、出版社としてそれを「いや、そもそもハシゴ高は筆写字形で」などと議論することはありえない。ましてやすでに亡くなった作家の本を『内田百“間”短編集』などのタイトルで発刊することは考えられない。そういう場合は無条件で著者の指示通り、もしくは従来なされていたとおりに表記するのが普通で、となれば97JISや2000JISの例示字体に準じたフォントでは印刷できない(むろん注3で書いたようにクチ高はハシゴ高を包摂するから、仮にクチ高のコード位置でハシゴ高に作るフォントを使っても、あるいは画像でハシゴ高を貼り込んで使っても2000JISじたいには適合するのだが)。 クチ高とハシゴ高に違うコードポイントを与えるべきか否か。この問題は奥が深い。筆者自身、この問題がはたして文字コードで解決できるかどうかもふくめ、正直言っていまだにどちらとも正解を見いだせないでいる。いずれ稿をあらためてじっくり考えてみたい。

 

 

●2000JISの、明日はどっちだ!?

 さて、それにしても気になるのは、この2000JISがいつ使えるようになるのか、ということだ。しかし、残念ながらここで紙幅はつきた。次回のお楽しみである。簡単に予告しておくと、日本語を表す2000JISは、もはや日本ローカルの意向だけでは、規定することはできても使うことはできないという実態がある。実は現時点で主流のOSであるWindowsもMacOSも、現時点では2000JISを規格単体として実装する予定はない。これは事実。しかし2000JISで新たに収録された文字は、いくつかの段階をへて2~5年後にはすべて使用可能になるだろう。複雑な言い方だが、これがここ数カ月わたしが取材した結果だ。なんの話をしているのか分からない? ならば、ぜひ次回のこの記事をお読みいただきたい。少しだけネタを割ると、キーワードは『Unicode』である。

 

作者プロフィール:

小形克宏(おがた・かつひろ) 1959年、東京生まれ。パソコンとマンガ評論を守備範囲にするフリー編集者。

 

◎関連URL

・JIS X 0213 規格化決定
http://jcs.aa.tufs.ac.jp/jcs/X0213-std.htm

・7ビット及び8ビットの2バイト情報交換用符号化漢字集合――第3水準及び第4水準
http://www.tiu.ac.jp/JCS/

・新JIS漢字策定の進捗状況
http://jcs.aa.tufs.ac.jp/new-jis/

(2000/1/19)

[Reported by 小形克宏]

INTERNET Watchホームページ

INTERNET Watch編集部internet-watch-info@impress.co.jp
Copyright (c) 2002 Impress Corporation All rights reserved.