タグを使った応用技術

たとえば日本語で論文を書いてタグを付けておけば何語ででも読んでもらえるとなれば、 日本人の研究者はずいぶん楽になります。技術的な文章なら、 タグを使って原文の意味を保存する訳文を出すぐらいのことはできるでしょう。 言語処理学会や人工知能学会が学会誌の論文にアノテーションして 翻訳システム込みで公開するというのは荒唐無稽な話ではないと思います。 一般ユーザにとってよりも自然言語処理や人工知能の研究者にとっての方がアノテーションのメリットが大きいので、 いきなり一般ユーザにアノテーションを広めようとするのではなく、 まず研究コミュニティが率先して普及させる方が現実的かも知れません。

それから、個々のユーザにとってのメリットを越えた話として、 言語的多様性を保持できるという点も、 社会的インパクトという意味では重要だと思います。 インターネットや学問研究の場で英語しか通じないというのは不健全で非効率的です。

情報検索はGDAを普及させるためのキラーアプリケーションとして有望です。 情報検索で難しいのは、 検索質問と検索対象の間の表現の差をどうやって埋めるかという問題です。 たとえば、検索質問が「日本人ビジネスマンが外国で交通事故に遭った」で、 検索範囲に「鈴木社長がアメリカで車にはねられた」というくだりがあったとき、 これが質問に対する正解になることがわかるには、 鈴木社長が日本人ビジネスマンだとか、 アメリカは彼にとってはおそらく外国だとか、 車が人をはねるのは交通事故の典型的なケースだとかいう推論とそれらの組合せが 必要ですが、こんな推論をコンピュータで完全自動的に行なうことは、 今の技術では不可能です。 このように、検索質問と検索対象の間の表現の差は自動的な推論では埋められないのですが、 人間が推論に介入してインタラクティブにこの差を埋めることは今の技術でも十分できます。 つまり、人間が次々に検索質問を改訂し、検索範囲を絞り込んで行くわけですが、 検索質問を改訂するために文章の意味構造が役に立ちます。

正しい意味構造を使えば非常に高い性能の検索ができます。 しかし、自動解析によって得られた、少しエラーを含む意味構造を使っても、 人間によるインタラクション等によってそのエラーをかなりカバーできるので、 既存の検索エンジンよりもずっと性能の高い検索が可能です。 その高い性能によって、 このような意味に基づく検索技術をまずは普及させようと思います。 その上で、 人手で正しくアノテーションすることによりさらに良く検索してもらえることを宣伝すれば、 自分の発信する情報を適切な読者に効率良く届けたいと真剣に思う人は、 その情報に人手でタグを施すでしょう。 たとえば自社の商品を売りたい企業は、 その商品のホームページを人手でアノテーションするに違いありません。

テキストコンテンツに関しては、すでにコンテンツの間の競合が激しくなっています。 自分の発信したコンテンツが他の類似のコンテンツとの競争に勝ち、 より多くの人々の目に触れるためには、 自分のコンテンツが効率的に検索できるようにしておく必要があります。 しかもそのためのアノテーションは、 テレビや新聞で広告を打つよりもはるかに安いのです。 規格品の大量生産や画一的なサービス向けには大衆広告が有効でしょう。 しかし、多品種少量生産や個々の顧客に応じたキメ細かいサービスが、 経済活動のますます大きな部分を占めるようになりつつあります。 そこでは個別の情報を個別に検索する技術が不可欠であり、 そのような検索にはコンテンツの意味構造が必要になります。