Top > 漢字処理研究室 > シンポジウム「文字情報処理のフロンティア: 過去・現在・未来」レポート
2004年6月9日、 キャンパスプラザ京都 の第1講義室において行われたシンポジウムについて、ごく簡単に報告する。 なお、レポートをまとめるにあたっては、 江渡浩一郎氏のメモや 狩野宏樹氏のメモを参考にさせていただいた。記して感謝申し上げる。
現在、文字情報処理の方法としてはアプリオリな存在となっている文字コード (符号化文字集合モデル)を相対化すべく、Unicodeのcharacter概念の背景にある メディア論的系譜と思想史的系譜について指摘し、シンポジウム全体の問題提起を 行った。
メディア論的系譜とは、しばしば活字棚の後継と見なされる文字コードが、 実際には電信技術の子孫であり、そこに文字の抽象化という概念がすでに胚胎していることを 指摘する安岡孝一氏の議論を紹介し、氏の講演への導入を行った。 これは、同様に現在支配的なプレーンテキストもしくは文脈自由文法的テキスト観 に対する批判も含むものであり、重要である。
一方、思想史的系譜とは、Unicodeのcharacterの定義に見られる音声言語中心主義に 注目し、デリダを援用して文字コードを西洋哲学史の一支流に位置づけた。 これに関連して、文字の問題を音声言語(母語)の問題にすりかえてしまう問題の 原因(可能性)のひとつとしてこの音声中心主義があることを指摘し、 小林氏の講演へとつないだ。 また、Unicodeが単なる文字コードから(クラスベースの)オブジェクト指向のような あり方をしつつある点を指摘した上で、そのアリストテレスの本質主義との近親性を指摘し、 文字オブジェクトという考え方はできないのか、という問題提起を行った (これは風間氏の発表でいくつかの回答がなされている)。 逆に、デリダ的エクリチュールをモデル化する方法として、プロトタイプベースの オブジェクト指向の可能性を指摘し、併せてCHISEプロジェクト (守岡氏の発表)への導入も行った。
ウルトラマン第20話の一エピソードから始まる。フジアキコ隊員が警視庁からの 通信の出力である紙テープを、まるで文字のように読むシーン。
紙テープ時代の技術が、チューリングマシンを経由して、現在の文字情報処理技術、 テキスト処理技術を「呪縛」し続けているかが、さまざまな資料を紹介しつつ論じられた。 そして、一次元的なメモリ空間の連続した領域を「テキスト」と見なすようになった歴史的経緯が暴露された。
これに対し、実際のテキストにおいてはルビや割注など、一次元的なメモリ空間では 収まりきれない例を紹介し、そこから有向非巡回グラフ (Directed Acyclic Graph, DAG) による文字列処理の可能性が(実現はともかく)紹介された。
Javaの次期バージョンであるJava 1.5においてUnicode 4.0に対応するが、 その際、これまでのUCS-2(BMP)ベースであった開発環境、膨大な遺産との互換性が問題となってくる。 開発グループ内で様々に議論した結果、互換性を優先し、 文字はint(Modified UTF-8というCESを用いる場合もある)で扱うことになった。 しかし、それに伴う問題も判明しつつある。
また設計時には、文字オブジェクトを使うという方法も提案され、実際にいくつかの実装を行い検討したが、 細粒オブジェクトを大量に扱うことになり性能低下が著しいため却下された。 加えて、国際化という観点からすれば、APIは文字単位ではなく文字列単位で設計されるべきで、 その意味で文字(コードポイント)のオブジェクトという考え方は現実的ではない、という。
Unicodeには合成文字があるため、外見上同一でも異なった符号化方法が可能である。 したがって、それをバイナリ・レベルで統一する正規化は重要な技術である。 正規化にはできるだけ分解するNFD (Normailzation Form Decomposition)、 できるだけ合成するNFC (Normailzation Form Composition)、 レイアウト情報等を失ってもできるだけ分解するNFKD (Normalization Form Compatibility Decomposition 「K」は音通)、 その逆のNFKC (Normalization Form Compatibility Composition)がある。
Mac OS XのHFS Plusでは、 ファイル名の格納時にNFDが使用されており、ファイル名を表示するアプリケーションでは、それを考慮しなければならない。 現在開発中のEmacs 22上で正規化処理のプロトタイプを実装し、 動的な文字の合成表示機能やHFS Plusのファイル名などもきちんと表示されるような機能が紹介された。
正規化の規格上の大きな問題点は、日本や韓国の国家規格由来の互換文字が NFDで統合漢字に変換されて(例:羽→羽)しまうため、元に戻すことが不可能であるという点である。 そのためHFS Plusにおいては、あえて互換文字を変換しないModified NFDと呼ばれる正規化が行われている。
XMLで使える文字を制限したいときに、スキーマ言語によってそれを記述できればメリットがたくさんある。 しかし、DTDではまったく記述できず、 XML SchemaとRelax NGではPattern ファセット (正規表現) が使えるが、 タグの中にタグがあるような場合には使えず、充分とは言えない。
一方、この問題の解決を試みる提案として、 Erik Wilde氏によるCharacter Repertoire Validation for XMLや、 Martin Dürst氏によるCharacter Collectionがある。 特に後者は、集合演算や、絶対に含まれる文字 (kernel) と含んでもいい文字 (hull) の区別が可能であるなど、 (2000年以降開発が止まっているようだが)最も優れた提案であると思われる。
CHISE Projectへ至る道のりを自伝風に。
1990年代のCode Warsを経て、文字コードに幻滅し、規格を追いかけることに疲れてしまった。 一方、シンボルを文字列ではなく画像で表現したLisp処理系「My Symbolic System」を真剣に構想しており、 その中とりあえず「文字を定義する」という部分を現実化したUTF-2000を開発した。 方針としては(1)文字をオブジェクトとして扱い、(2)文字列はオブジェクトの列にすることにした。
文字オブジェクトを表現する方法には集合、木構造、ネットワークなどが考えられるが、 シンプルさと表現力とが両立できそうな集合による文字の表現モデルを採用し、 Chaonモデルと名づけた。Chaonモデルでは素性の束として文字を定義し、操作できる。 素性とは文字に関する操作(表示、検索、変換など)の抽象、文字に対するインターフェースと言える。 最近では、素性の構造化を導入したり、継承を導入したりと複雑化しており、ネットワーク構造になりつつある。
Chaonモデルの実装としてはlibchise(ライブラリ)、XEmacs CHISE(エディタ)、 Ruby/CHISE、Perl/CHISE(言語処理系)、Ω/CHISE(組版)、KAGE(フォント自動生成) などがあり、また大規模な文字データベースが構築され、 複雑な文字処理を必要とする出版物などを編集する場合などで実用されている。
文字コードの標準化について考える際、(1)規格の社会構成論、(2)多言語主義、 (3)言語学における音声言語の優勢、(4)国民国家の境界と言語使用者の境界とのずれ等々の視点が必要である。
標準規格を決めるための投票権は、国家単位で会費を払い参加することで得られる。 ミャンマーの場合、会費や参加費を負担することが難しく、規格制定に参加することができなかったが、 国際情報化協力センターなどの支援によりうまく意見を通すことができた。 一方、クメールの場合、クメールを母語とするカンボジア(ただし、クメールはカンボジア以外でも用いられている)の代表団が、 母語であるという理由で強硬な姿勢を見せ、議論が紛糾した。 また、台湾の代表団の提案は、台湾の独立を認めない中国が、台湾の提案を中国の提案として出したり、 もしくは台湾の提案自体を潰すなどしている。
京都駅前の日本料理店「京いち」にて、シンポジウムに引き続き活発な議論が行われた。 そこで出ていた話を聞きかじった範囲で: