アノテーションの標準化

タグには少なくとも以下のようなものが必要と考えられます。 慣用表現は意味タグと統語タグの両方で処理することになるでしょう。どの部 分が慣用表現かは統語タグで表示するわけです。慣用表現などをどう処理する かについては、機械翻訳協会でなされた、機械翻訳の例題に関する調査が参考 になりそうです。

統語タグを使って意味を構成する仕方に曖昧性がないようにする必要がありま す。格(case)(どの程度細かいタグにするか)、等位構造、否定や量化の作用域、 不透明文脈など、いろいろ面倒そうな問題はありますが、まじめに考え始める とキリがないので、とりあえずは大体意味が通るような翻訳ができることを保 証するレベルから始めて、後で必要に応じて拡張できるようにしておこうと思 います。

タグの仕様はいきなり完成するのではなく、いろいろな要因を考慮に入れなが ら次第に精密なものになって行くと考えられます。しかし仕様の変更によって 以前のタグが無意味になっては困るので、変更はインクリメンタルなものとし、 旧版に基づくタグでもそれなりに翻訳や検索ができることを保証する必要があ ります。もちろん、新しい仕様に基づいて精密なタグを付ければ翻訳や検索の 精度が高まるわけです。

また、知識表現言語を作ろうというわけではないので、タグはある程度いいか げんでいいでしょう。「いいかげん」とは、機械に処理できる程度なら文脈依 存性があってもよいということです。たとえば、「健が来た。奈緒美も来た。」 という場合に、第2文に時刻に関するタグが付いてなければ奈緒美が来たのは 健が来た後になるとか。

タギングの間違いがなるべく起こらないようにして、結果の品質を保証する必 要があります。しかし、人間がタギングするわけですから、あまりうるさい制 限を加えるのは現実的ではないでしょう。このあたりの問題は考えてもしょう がないと言うか、実際にやってみるか、タギングの経験をお持ちの方から伺う しかないと思います。

タグの標準を作る際に一番大変なのは意味タグ辞書の作成でしょう。人間によ るタギング作業が可能なように、自然言語による直観的な説明を各意味タグに 付けておく必要があり、それは要するに多言語辞書ということになります。さ しあたり、ODAのMTプロジェクトで作った中間言語の辞書とかWordNetをマージ して意味タグ辞書を作るつもりですが、いずれにせよ版権の問題が生じないよ うに注意する必要があります。もちろん、意味タグ辞書も、どんどん他の辞書 とマージして拡張して行くつもりです。新しい言語が加わったり、新造語を入 れたりするたびに拡張することになるでしょう。

多言語辞書に関連する話としては、ヨーロッパのEuroWordNetと日本の機械翻 訳協会のプロジェクトがあります。これらのプロジェクトでできる予定の辞書 をGDAの意味タグ辞書にマージしたいと思います。

EuroWordNetは、プリンストン大学の WordNet をモデルとして、 1万5千の動詞と3万5千の名詞の意味情報を含んだ一般的な辞書を作ろうという話です。 言語間で異なる概念階層を統一しようとして苦労しているそうですが、 統一はやはり無理だと思うので、 GDAの辞書では概念階層にはこだわらない方針で行きたいと思います。

機械翻訳協会の方は日電の村木さんが中心になって翻訳用の多言語辞書を作ろ うという話で、今年か来年あたりに成果が出るというウワサを聞いています。 IPAのお金を使うので成果物はフリーウェアになるはずで、大いに期待しています。

一方、多言語コミュニケーションに関しては、国連大学が進めているUNL (Universal Networking Language)があります。これは中間言語 (interlingua) 方式によるインターネット上での多言語コミュニケーションの話ですが、 GDAと同様のタグも考えており、 UNLとGDAとは技術的には同じプロジェクトと考えられます。 UNLとGDAのタグの間で互換性を保ちながら進めたいと思います。

地の文を見なくてもタグだけを見て翻訳できるようなものを考えると、 それは中間言語です。タグだけから意味がわかるとなれば、 原言語を無視して翻訳したりできるわけで、アプリケーションの開発が非常に 楽になります。要するに中間言語方式の翻訳と同じ利点があるわけです。もち ろん上記のように言語間で概念構造を統一しようとはせず、いわばいろんな言 語の和(union)からタグの標準を作るわけですが、それも広義の中間言語です。

しかし、中間言語のような詳しいタグを設計するのは大変でしょう。 とりあえずは、構成素構造と局所木の種類 (補接と付加、等位構造、同格) と内容語の意味と指示タグぐらいに限定すれば、 原言語に依存した翻訳とか検索ができるので、 そのあたりから始めるのがいいでしょう。

タグの標準化に関しては、 EAGLESCESなどの活動もあるので、 これらも参考にしようと思います。