研究用データとしてのタグ付き文書の利用

タグ付き文書の翻訳では、意味の通る訳文ができることは大体保証できるでしょ う。すると次は、日本語らしい言い回しとか練れた英語とかいうレベルを狙え ると思います。その際、タグ付き文書を用例として使うことができます。つまり、 入力されたタグのパターンに類似したパターンのタグの付いた目標言語の表現 を加工することによって訳文を生成するわけです。

その技術はタグなしの白文の翻訳にも応用できると思います。入力された文章 を解析して自動的にタグを付けてから翻訳するわけです。もちろん解析の過程 でタギングの曖昧性が生じますが、それはタグ付き文書中の用例とのマッチング によって解消できるのではないかと思います。これは事例に基づく翻訳(EBT) の一種です。従来のEBTでは事例を検索する際に構文パターンを使っていまし たが、代わりにタグを使おうというわけです。

EBTの関連で言えば、タグ付き文書はCBRにも使えると思います。また、知識ベー スだと思えば質問応答も可能です。オントロジーのデータベースと結び付けれ ばさらに何かできそうです。このあたりの話には、ひょっとしたらすぐにでも 実用化できるネタがあるかも知れません。