大域文書修飾
Global Document Annotation (GDA)

GDA日本語アノテーションマニュアル | アノテーションのチュートリアル | ソフトウェアツール | English Home Page

GDAは、多言語間に共通の統語・意味等に関する XML タグの標準を作って普及させようというプロジェクトです。 GDA のアノテーションは、統語的依存関係 (いわゆる係り受け)、代名詞等の照応、共参照、 多義語の語義など、かなり細かい情報を含みます。 たとえば、
<su>
  <np sem="time0">time </np>
  <v sem="fly1">flies </v>
  <adp>like <np>an arrow</np></adp>.
</su>
とかいうようにアノテーションする (タグを付ける) わけです。

GDAでは以下のようなことを狙っています。

  1. アノテーションを用いた機械翻訳、情報検索、要約、質問応答、知識発見などを実用化する。
  2. それによってアノテーションのメリットを生じさせ、 多くのユーザが自分のファイルにアノテーションするように仕向け、アノテーションを普及させる。
  3. アノテーションによって構造化されたデータを自然言語処理、人工知能、 言語学などの研究に利用する。
うまいアノテーションの標準を作って普及させれば、 機械にも人間にも理解可能な知識ベースが世界規模で自己増殖し、 自然言語処理やAIの技術が爆発的に実用化されて一般ユーザが恩恵を受けるのみならず、 研究コミュニティにとっては基礎研究のための大量かつ良質のデータが手に入るというわけです。

意味や常識があと100年ぐらいは機械でまともに扱えないとすれば、 そんな機械でもそれなりに活躍できる環境を整えてやる必要があります。 その環境を整えることにより社会的ニーズに答えながら基礎研究をも進展させようというのが GDA です。

アノテーションには常識を含む知識を使った曖昧性の解消が必要ですが、 それが機械にできたら苦労はないわけで、 やはりある程度人手を使って半自動的にアノテーションすることになります。 多くのユーザにアノテーションしてもらうためにはアノテーションのメリットが必要です。 それには、アノテーションに基づく機械翻訳や情報検索のサービスが安価に利用可能になっていればいいでしょう。 そうすれば、まじめに情報発信しようとしている人ならアノテーションする気になると考えられます。 アノテーションしておけば、いろんな言語で広く読んでもらえるし、 また高精度の情報検索にかかるので適切な人に読んでもらえる可能性が高まりますから。 WWWページを絵や音で飾って目立たせるのが流行りですが、 アノテーションは内容そのものを構造化することによってもっと適確に目立たせる効果があります。

アノテーションを前提にしたアプリケーションが出回れば多くのユーザがアノテーションする気になり、 そうして多くのファイルがアノテーションされればアノテーションを前提にしたアプリケーションがますます出回るというわけで、 (1) と (2) の間には正帰還の関係があります。 問題は、このサイクルをいかにして回し始めるかです。 すでに翻訳システムを開発しているメーカーなら、 アノテーションを前提にした翻訳システムを比較的簡単に開発できるでしょう。 アノテーションを利用した高精度の検索技術の開発もそう難しくないでしょう。 十分多くの人々がその気になれば半年ぐらいのうちにサイクルを回し始めることができるはずです。

というわけで、多くの人にその気になってもらうために、 GDA の考え方のメリットを宣伝することが必要です。 今まで何人かの研究者の方々にこの話をしてきましたが、 「私も実は似たようなことを考えていた」 という方も何人かおられたぐらいですし、 研究者のコミュニティを説得するのはあまり難しくないと思います。 しかし、研究者が賛同するのは、アノテーションによって自然言語処理や AI の技術が実用化されるというメリットとアノテーションされたデータを使って研究できるというメリットの両方があるからのような気もします。 会社のお爺さんや一般ユーザを説得する材料としては、上記 (1) にまつわるユーザのメリットしかありません。 どういうアノテーションを普及させるためにどういうメリットを一般ユーザに提供できるか、 研究コミュニティの知恵の出しどころだと思います。

検討項目