GDA日本語アノテーションの手引き

橋田 浩一
2004 年 1 月 14 日

GDA タグ集合は、 目的に応じてさまざまな詳細度でアノテーションができるように設計されている。 この手引きでは、日本語の文書に対するアノテーションの詳細度のいくつかの選択肢について説明する。 さしあたり、標準的な詳細度は下記のレベル 4 とする。

形態素解析済みのデータを修正する場合、形態素タグに間違いがあったら可能な限り修正する。 修正できなければ cmt 属性としてコメントを付ける。 たとえば、読みは適切なレベルに付ける。 たとえば「一日」が「一」と「日」という 2 つのエレメントに分かれているときには「一日」に prn="ツイタチ" を付ける (「一日」がエレメントになっていなければエレメントにする)。

レベル 1 (文書構造)

  1. 文書構造の記述: アノテーションマニュアル 4 節<gda> から <su> までのタグのうち <span><bspan><espan><ss> 以外のものを、付けられる所すべてに付ける。 <q> エレメントの中にも <su> などのタグを付ける。
  2. 文書構造の詳細化: <dv> および <q> タグの type 属性の値が明確にわかる場合には type 属性を付ける。
  3. 言語と作業者の指定: <gda> タグに lang="jpn" を入れ、 resp 属性に自分の氏名を入れる。 他人がアノテーションしたデータの一部を修正する場合には、修正したエレメントに resp 属性を付けて自分の名前を入れる。

レベル 2 (統語構造の概略)

レベル 1 に加えて以下を行なう。 このレベル 2 は、現在の技術を用いた自動解析によって 90% 程度の精度でできるアノテーションに相当する。 人手によるアノテーションは次のレベル 3 以上であることが望ましい。
  1. 特別なタグの付与: アノテーションマニュアル 4 節<date> から <bibref> までのタグと <ij> を、付けられる所すべてに付ける。
  2. 依存関係以外のsyn属性の付与: syn 属性の値が care となるエレメントをすべて作る。 それ以外の syn 属性は付けなくてよい。 また、空所を含むか複数個の単語を含む対等項をエレメントにする。 たとえば「健と私の友達」を対等項「健」と「私の友達」が 「と」で結ばれたものと解釈すれば、次のようにする。
    
    <np>
    
      <persnamep>健</persnamep>
    
      と
    
      <np>私の友達</np>
    
    </np>
    
    
    下の例では、「おじいさんは山へ柴刈りに」の後に「行きました」の空所がある (「行きました」が省略されている) ので、 「おじいさんは山へ柴刈りに」を <vp> エレメントにする。
    
    <su>
    
      <vp>おじいさんは山へ柴刈りに</vp>
    
      <vp>おばあさんは川へ洗濯に行きました</vp>。
    
    </su>
    
    
  3. 依存関係の概要の記述: (このステップはレベル 3 を行なう場合には省略する。) ある構成素がそれと重ならない文節の中のいずれかの語に係るならば、 その構成素を句エレメントにする。

    たとえば、「太郎が花子に頭を殴られた」では、 「太郎が」と「花子に」と「頭を」が文節「殴られた」に係る (「太郎が」と「花子に」は「れ」に係り、「頭を」は「殴ら」に係る) ので、「太郎が」と「花子に」と「頭を」を <adp> エレメントにする。

    
    <su>
    
      <adp><persnamep>太郎</persnamep>が</adp>
    
      <adp><persnamep>花子</persnamep>に</adp>
    
      <adp>頭を</adp>
    
      殴られた
    
    </su>
    
    
    また、「そんなことは私はないと思う」では「そんな」が「こと」に係り、 「そんなことは」が「ない」に係り、 「私は」と「ないと」が「思う」に係るので、 下のように「そんな」と「そんなことは」と「私は」と「ないと」を <adp> エレメントにする
    
    <su>
    
      <adp><adp>そんな</adp>ことは</adp>
    
      <adp>私は</adp>
    
      <adp>ないと</adp>
    
      思う
    
    </su>
    
    
    このアノテーションだと「そんなことは」が「思う」に係るように見えるが、 この場合には実はレベル 3 で述べる dep 属性が省略されていると考える。

    また、「失語症 (aphasia)」の場合、「(aphasia)」を <np> エレメントにし、さらに「失語症 (aphasia)」を <n> あるいは <np> エレメントにする。

    
    <np>
    
      失語症
    
      <np>(aphasia)</np>
    
    </np>
    
    
    「渡したんだ、太郎に」では「太郎に」が「渡し」に係るので、下のようにする。
    
    <su>
    
      渡したんだ、
    
      <adp><persnamep>太郎</persnamep>に</adp>。
    
    </su>
    
    
    ここでも dep 属性が省略されていると考える。

レベル 3 (詳細な統語構造)

レベル 2 に加えて以下を行なう。 最初のステップ 1 はレベル 2 のステップ 3 の代わりに行なう。
  1. 標準的な依存関係の記述:
    1. 互いに重ならない複数個の構成素が同じ語に係るならば、 2 番目以降の構成素をすべて句エレメントにする。 「太郎が頭を殴られた」では「太郎が」と「頭を殴ら」がいずれも「れ」に係るので、下のようにする。
      
      <su>
      
        太郎が
      
        <vp>頭を殴ら</vp>
      
        れた
      
      </su>
      
      
      また、係助詞の「は」や「こそ」が述部の最後に係ることに注意。 たとえば「私は金を払わなかった」の「私は」は「た」に係るので下のようにする。
      
      <su>
      
        私は
      
        <vp>金を払わなかっ</vp>
      
        た
      
      </su>
      
      
      交差する依存関係等はこの段階ではまだ明示されない。 たとえば「そんなことは私はないと思う」は次のようになる (「そんなことは」が「ない」に係ることを明示する作業は下記ステップ 3 の a で行なう)。
      
      <su>
      
        そんなことは私は
      
        <adp>ないと</adp>
      
        思う
      
      </su>
      
      
    2. 倒置 (受け側が係り側に先行する依存関係) において、係り側の構成素を句エレメントにする。 「失語症 (aphasia)」の場合、 受け側である「失語症」が係り側である「(aphasia)」に先行するので、 次のようにする。
      
      <np>失語症<np>(aphasia)</np></np>
      
      
      また、「渡したんだ、太郎に」では「太郎に」が「渡し」に係るので、 下のようにする (「太郎に」が「渡し」に係ることを明示する作業は下記ステップ 3 の b で行なう)。
      
      <su>
      
        渡したんだ、
      
        <adp><persnamep>太郎</persnamep>に</adp>
      
      </su>
      
      
    3. 省略された語句に係るすべての構成素を句エレメントにする。 たとえば「私はカモメ」や「お母さんは台所」では最後に「だ」や「(に)いる」 などの繋辞が省略されていると考えて、下のようにする。
      
      <su>
      
        <adp>私は</adp>
      
        <np>カモメ</np>
      
      </su>
      
      
  2. syn属性の付加: 2 個以上の語または主辞エレメントを子に持ち syn 属性を持たない文内エレメントで <persname><persnamep> 以外のものに syn="f" を付ける。
  3. 標準的でない依存関係の記述:
    1. 依存関係が交差している場合、 交差する相手の依存関係の内側に入り込む依存関係について、 係り側の構成素に dep 属性を付けて依存関係を示す。 係り側の構成素が句エレメントでなければそれを句エレメントにし、 受け側がエレメントになっていなければエレメントにする。 「そんなことは私はないと思う」では、 下図のように「そんなことは」から「ない」への依存関係が 「私は」から「思う」への依存関係の内側に入り込んでいる。

      そこで、「そんなことは」を <adp> エレメント、「ない」を <aj> エレメントとし、次のようにする。
      
      <su syn="f">
      
        <adp syn="f" dep="X">そんなことは</adp>
      
        私は
      
        <adp><aj id="X">ない</aj>と</adp>
      
        思う
      
      </su>
      
      

    2. なお正しく示されていない依存関係 (主辞エレメントまたはプレインテキストを越える依存関係など) を dep 属性によって記述する。 たとえば、 「渡したんだ、太郎に」では「太郎に」が「渡し」に係るので、下のようにする。
      
      <su syn="f">
      
        <vp id="X">渡し</vp>
      
        たんだ、
      
        <adp dep="X"><persnamep>太郎</persnamep>に</adp>
      
      </su>
      
      
  4. 非有界依存関係の記述: 関係子 UBA と関係属性と直示指標 mcn を用いて、関係節を含む非有界依存関係を示す。 関係子は UBAeqsmr だけを使えばよい。 eq が使える所では smr ではなく eq を使う。
  5. 空所の補完: 空所を含む対等項の中での統語構造を cp 属性と sb 属性によって明示する。

レベル 4

レベル 3 に加えて以下を行なう。
  1. 代名詞や空所に関する照応・共参照のアノテーションを行なう。 関係子は eqsitinnisubsupargsmr だけを使えばよい。 これらのいずれが妥当するか不明の場合には SMR を用いる。 ほとんどの場合、id 属性および eq 属性は最大投射に付けることに注意。 たとえば「赤い花を買ってきた。その花は高かった。」では、 「赤い花」と「その花」が共参照するので、下記のようにアノテーションする。
    
    <su syn="f"><np syn="f" id="F">赤い花</np>を買ってきた。</su>
    
    <su syn="f"><np syn="f" eq="F">その花</np>は高かった。</su>
    
    
    ただし、最大投射の指示対象よりも抽象的・一般的な指示対象を扱う場合には、 最大投射でないエレメントに属性を付ける。 たとえば下記は、第2文の「花」は「赤い花」よりも一般的な概念を表わす。
    
    <su syn="f">赤い<np id="F">花</np>を買ってきた。</su>
    
    <su syn="f"><np eq="F">花</np>が好きだから。</su>
    
    

レベル 5

レベル 4 に加えて以下を行なう。
  1. 依存関係の関係子を明示する。 ただし、複合語の内部、および副詞と隣接項には関係子を付けない。 その際、関係部が空でなければ sem 属性を用いる。
  2. 依存関係および共参照関係のいずれにおいても、なるべく smr 以外の関係子を用いる。 ただし、換喩に関する曖昧性は解消しなくてよい。 たとえば、関係子として obj.eq などを用いる必要はなく、 obj でよい。
  3. 文または文のまとまりの間の関係が明確な場合には <ss> タグと関係子によってそれを示す。

レベル 6

レベル 5 に加えて以下を行なう。
  1. sce 属性を付ける。

レベル 7

レベル 6 に加えて以下を行なう。
  1. 換喩に関する曖昧性を解消する。