特許7054145 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人東京工業大学の特許一覧

特許7054145談話構造解析装置、方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-04-05

(45)【発行日】2022-04-13

(54)【発明の名称】談話構造解析装置、方法、及びプログラム

(51)【国際特許分類】

G06F 40/35 20200101AFI20220406BHJP

G06F 40/20 20200101ALI20220406BHJP

G06F 40/216 20200101ALI20220406BHJP

【ＦＩ】

G06F40/35

G06F40/20

G06F40/216

【請求項の数】 5

(21)【出願番号】P 2019028629

(22)【出願日】2019-02-20

(65)【公開番号】P2020135467

(43)【公開日】2020-08-31

【審査請求日】2021-02-12

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(73)【特許権者】

【識別番号】304021417

【氏名又は名称】国立大学法人東京工業大学

(74)【代理人】

【識別番号】110001519

【氏名又は名称】特許業務法人太陽国際特許事務所

(72)【発明者】

【氏名】平尾努

(72)【発明者】

【氏名】永田昌明

(72)【発明者】

【氏名】小林尚輝

(72)【発明者】

【氏名】奥村学

【審査官】滝谷亮一

(56)【参考文献】

【文献】特開２０１６－１６２１９８（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１８／０３６５２２８（ＵＳ，Ａ１）

【文献】徳永健伸，自然言語処理技術の最近の動向，情報処理，社団法人情報処理学会，1992年07月15日，第３３巻第７号，780～789

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ４０／３５

Ｇ０６Ｆ４０／２０

Ｇ０６Ｆ４０／２１６

(57)【特許請求の範囲】

【請求項1】

文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行う部分構造解析部と、
各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すＥＤＵ（ＥｌｅｍｅｎｔａｒｙＤｉｓｃｏｕｒｓｅＵｎｉｔ）ベクトルと、前記基本単位の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記基本単位の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、基本単位を単位とした談話構造木である文内談話木を出力する文内解析部と、
各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルと、前記文の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記文の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、文を単位とした談話構造木である段落内談話木を出力する段落内解析部と、
前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルと、前記段落の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記段落の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、段落を単位とした談話構造木である文書内談話木を出力する文書内解析部と、
前記文内談話木と、前記段落内談話木と、前記文書内談話木とに基づいて、前記文書の前記基本単位と前記文と前記段落との構造を結合した談話構造木を出力する木結合部と、
を含む談話構造解析装置。

【請求項2】

前記分割する位置は、前記学習済みのモデルのパラメタに基づいて定義される、前記分割する位置で分割したときに得られる前記二つのスパンのもっともらしさを最大にする位置とする請求項１に記載の談話構造解析装置。

【請求項3】

部分構造解析部が、文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行うステップと、
文内解析部が、各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すＥＤＵ（ＥｌｅｍｅｎｔａｒｙＤｉｓｃｏｕｒｓｅＵｎｉｔ）ベクトルと、前記基本単位の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、基本単位を単位とした談話構造木である文内談話木を出力するステップと、
段落内解析部が、各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルと、前記文の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、文を単位とした談話構造木である段落内談話木を出力するステップと、
文書内解析部が、前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルと、前記段落の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、段落を単位とした談話構造木である文書内談話木を出力するステップと、
木結合部が、前記文内談話木と、前記段落内談話木と、前記文書内談話木とに基づいて、前記文書の前記基本単位と前記文と前記段落との構造を結合した談話構造木を出力するステップと、
を含む談話構造解析方法。

【請求項4】

前記分割する位置は、前記学習済みのモデルのパラメタに基づいて定義される、前記分割する位置で分割したときに得られる前記二つのスパンのもっともらしさを最大にする位置とする請求項３に記載の談話構造解析方法。

【請求項5】

コンピュータを、請求項１又は請求項２に記載の談話構造解析装置の各部として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、談話構造解析装置、方法、及びプログラムに係り、特に、文書の談話構造を解析するための談話構造解析装置、方法、及びプログラムに関する。

【背景技術】

【0002】

従来の談話構造解析技術として、文書を、基本単位であるＥｌｅｍｅｎｔａｒｙＤｉｓｃｏｕｒｓｅＵｎｉｔ（ＥＤＵ）と呼ばれる文よりも小さい、節に相当するテキストユニットの系列データとみなし、ＥＤＵをボトムアップに組み上げていくことで文書全体の談話構造木（図１）を構築する手法が提案されている。図１は一般的な談話構造木の一例を示す図である。なお、図１に示すように以下の実施の形態において用いる談話構造木は２分木として表現される（たとえば、非特許文献１など）。図１において、終端記号はＥＤＵ（ｅ）であり、非終端記号はそれが支配するスパン（連続したＥＤＵの系列）が核（Ｎ）であるか衛星（Ｓ）であるかを表す。ＳからＮ、ＮからＮをつなぐエッジにはＥｌａｂｏｒａｔｉｏｎ、Ｓａｍｅ－Ｕｎｉｔなどの関係ラベルが与えられる。

【先行技術文献】

【非特許文献】

【0003】

【文献】duVerle, David and Prendinger, Helmut, "A Novel Discourse Parser Based on Support Vector Machine Classication", Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, pp 665{673, 2009

【発明の概要】

【発明が解決しようとする課題】

【0004】

従来の方法は、文書中の文、段落といった明示的に利用できる構造を利用せずに単にＥＤＵの系列としてとらえている。一般的には文書中のＥＤＵの数が数十におよぶことは珍しくないため、多くのＥＤＵを考慮しつつ木を構築していかなければならず解析性能が劣化する。また、文書中の文、段落といった構造を無視して、ボトムアップに木を構築していくとエラーが累積し、解析性能が劣化するという問題があった。

【0005】

本発明は、上記事情を鑑みて成されたものであり、ＥＤＵの数に関わらず、精度よく、談話構造木を構築できる談話構造解析装置、方法、及びプログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

上記目的を達成するために、第１の発明に係る談話構造解析装置は、文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行う部分構造解析部と、各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すＥＤＵ（ＥｌｅｍｅｎｔａｒｙＤｉｓｃｏｕｒｓｅＵｎｉｔ）ベクトルと、前記基本単位の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記基本単位の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、基本単位を単位とした談話構造木である文内談話木を出力する文内解析部と、各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルと、前記文の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記文の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、文を単位とした談話構造木である段落内談話木を出力する段落内解析部と、前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルと、前記段落の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記段落の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、段落を単位とした談話構造木である文書内談話木を出力する文書内解析部と、前記文内談話木と、前記段落内談話木と、前記文書内談話木とに基づいて、前記文書の前記基本単位と前記文と前記段落との構造を結合した談話構造木を出力する木結合部と、を含んで構成されている。

【0007】

また、第１の発明に係る談話構造解析装置において、前記分割する位置は、前記学習済みのモデルのパラメタに基づいて定義される、前記分割する位置で分割したときに得られる前記二つのスパンのもっともらしさを最大にする位置とするようにしてもよい。

【0008】

第２の発明に係る談話構造解析方法は、部分構造解析部が、文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行うステップと、文内解析部が、各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すＥＤＵ（ＥｌｅｍｅｎｔａｒｙＤｉｓｃｏｕｒｓｅＵｎｉｔ）ベクトルと、前記基本単位の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記基本単位の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、基本単位を単位とした談話構造木である文内談話木を出力するステップと、段落内解析部が、各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルと、前記文の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記文の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、文を単位とした談話構造木である段落内談話木を出力するステップと、文書内解析部が、前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルと、前記段落の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記段落の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、段落を単位とした談話構造木である文書内談話木を出力するステップと、木結合部が、前記文内談話木と、前記段落内談話木と、前記文書内談話木とに基づいて、前記文書の前記基本単位と前記文と前記段落との構造を結合した談話構造木を出力するステップと、を含んで実行することを特徴とする。

【0009】

また、第２の発明に係る談話構造解析方法において、前記分割する位置は、前記学習済みのモデルのパラメタに基づいて定義される、前記分割する位置で分割したときに得られる前記二つのスパンのもっともらしさを最大にする位置とするようにしてもよい。

【0010】

第３の発明に係るプログラムは、第１の発明に記載の談話構造解析装置の各部として機能させるためのプログラムである。

【発明の効果】

【0011】

本発明の談話構造解析装置、方法、及びプログラムによれば、ＥＤＵの数に関わらず、精度よく、談話構造木を構築できる、という効果が得られる。

【図面の簡単な説明】

【0012】

【図1】一般的な談話構造木の一例を示す図である。

【図2】文、段落、及び文書の部分構造木への分割例を示す図である。

【図3】本発明の実施の形態に係る談話構造解析装置の構成を示すブロック図である。

【図4】ＥＤＵを葉とする文内談話木の一例を示す図である。

【図5】文を葉とする文書内談話木の一例を示す図である。

【図6】段落を葉とする文書内談話木の一例を示す図である。

【図7】文内解析部、段落内解析部、及び文書内解析部に対応する具体的な内部構成を示す図である。

【図8】分類する関係ラベルの１８種の種類の一例を示す図である。

【図9】本発明の実施の形態に係る談話構造解析装置の談話構造解析処理ルーチンを示すフローチャートである。

【発明を実施するための形態】

【0013】

以下、図面を参照して本発明の実施の形態を詳細に説明する。

【0014】

本発明の実施の形態では、上記課題に対して、文書を文、段落、及び文書という３つの部分構造に分割し、それぞれの構造に対して、トップダウンで解析を行う。つまり、ＥＤＵ系列、文系列、段落系列を２分することを繰り返し、木を構築する。図２は文、段落、及び文書の部分構造木への分割例を示す図である。

【0015】

＜本発明の実施の形態に係る談話構造解析装置の構成＞

【0016】

次に、本発明の実施の形態に係る談話構造解析装置の構成について説明する。図３に示すように、本発明の実施の形態に係る談話構造解析装置１００は、ＣＰＵと、ＲＡＭと、後述する談話構造解析処理ルーチンを実行するためのプログラム及び各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この談話構造解析装置１００は、機能的には図３に示すように入力部１０と、演算部２０と、出力部５０とを備えている。

【0017】

入力部１０は、談話構造を解析する対象となる文書を受け付ける。

【0018】

演算部２０は、部分構造解析部３０と、文内解析部３２と、段落内解析部３４と、文書内解析部３６と、木結合部３８とを含んで構成されている。

【0019】

図４はＥＤＵを葉とする文内談話木の一例を示す図である。図５は文を葉とする文書内談話木の一例を示す図である。図６は段落を葉とする文書内談話木の一例を示す図である。

【0020】

談話構造解析装置１００の処理の概要を説明する。談話構造解析装置１００は、入力として文書を受け取ると、文書を、文、段落、文書という構造に分割し、それぞれをＥＤＵ系列、文系列、段落系列として扱う。文内解析部３２で、ＥＤＵを葉とする文内談話木（図４）を構築する。段落内解析部３４で、文を葉とする段落内談話木（図５）、文書内解析部３６で、段落を葉とする文書内談話木（図６）を構築する。木結合部３８は、これらの木を結合し、最終的に談話構造木を出力する。ＥＤＵが基本単位の一例である。

【0021】

図７は文内解析部３２、段落内解析部３４、及び文書内解析部３６に対応する具体的な内部構成を示す図である。文内解析部３２、段落内解析部３４、及び文書内解析部３６の具体的な内部処理は、図７に示す構成の各処理部によって実現される。内部処理を行う各処理部は、パラメタ学習部２２０と、ベクトル変換部２３０と、最適分割部２３２と、パラメタ記憶部２３４と、関係分類部２３６とを含んで構成される。内部処理については後述する。

【0022】

以下、談話構造解析装置１００の各処理部について説明する。

【0023】

部分構造解析部３０は、入力部１０で受け付けた文書について、文書の段落の系列（段落系列）への分割と、各段落に含まれる文の系列（文系列）への分割と、各文に含まれるＥＤＵの系列（ＥＤＵ系列）への分割とを行う。

【0024】

具体的には、部分構造解析部３０は、以下に説明するように、文書から、文、段落、文書の３つの構造に分割し、それぞれＥＤＵ系列、文系列、段落系列として出力する。ＥＤＵ系列への分割は、文をＥＤＵへ分割する既存技術が提案されているのでそれを用いればよい。文系列への分割は、句点を手がかりに文を認定すればよい。また、文系列への分割は、既存の文境界認定器を利用することも可能である。段落系列への分割は、空行、字下げなどを手がかりとして分割すればよい。手がかりの情報がない場合には既存技術を用いて段落境界を認定すればよい。

【0025】

文内解析部３２は、各文について、当該文に含まれるＥＤＵの系列を二つのスパンに分割し、かつ、二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共にＥＤＵの系列に対する二つのスパンの関係ラベルを推定することを、スパンの各々がＥＤＵとなるまで再帰的に繰り返す。組み合わせの推定は、当該文に含まれるＥＤＵの系列の各ＥＤＵを表すＥＤＵベクトルと、ＥＤＵの系列を二つのスパンに分割する位置、及び二つのスパンの各々に付与する非終端記号の組み合わせを推定するための学習済みのモデルのパラメタ（後述するパラメタ記憶部２３４に記憶）とに基づく。文内解析部３２は、再帰的な処理により、スパンの各々をノードとし、非終端記号が付与された二分木で表される、ＥＤＵを単位とした談話構造木である文内談話木を出力する。

【0026】

段落内解析部３４は、各段落について、当該段落に含まれる文の系列を二つのスパンに分割し、かつ、二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に文の系列に対する二つのスパンの関係ラベルを推定することを、スパンの各々が文となるまで再帰的に繰り返す。組み合わせの推定は、当該段落に含まれる文の系列の各文を表す文ベクトルと、学習済みのモデルのパラメタとに基づく。段落内解析部３４は、再帰的な処理により、スパンの各々をノードとし、非終端記号が付与された二分木で表される、文を単位とした談話構造木である段落内談話木を出力する。

【0027】

文書内解析部３６は、文書に含まれる段落の系列を二つのスパンに分割し、かつ、二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に段落の系列に対する二つのスパンの関係ラベルを推定することを、スパンの各々が段落となるまで再帰的に繰り返す。組み合わせの推定は、文書に含まれる段落の系列の各段落を表す段落ベクトルと、学習済みのモデルのパラメタとに基づく。文書内解析部３６は、再帰的な処理により、スパンの各々をノードとし、非終端記号が付与された二分木で表される、段落を単位とした談話構造木である文書内談話木を出力する。

【0028】

木結合部３８は、文内解析部３２が出力した文内談話木と、段落内解析部３４が出力した段落内談話木と、文書内解析部３６が出力した文書内談話木とに基づいて、文書のＥＤＵと文と段落との構造を結合した談話構造木を出力部５０に出力する。

【0029】

次に、図７の文内解析部３２、段落内解析部３４、及び文書内解析部３６の内部処理について、文内解析部３２の場合を例に説明する。

【0030】

ベクトル変換部２３０は、入力されたＥＤＵ系列をＥＤＵベクトル系列に変換する。ベクトル変換部２３０は、ＥＤＵベクトル系列に基づいて任意のスパン（ｉ番目のＥＤＵからｊ（ｉ＜ｊ）番目のＥＤＵまでの連続したＥＤＵ系列）のベクトルを双方向ＬＳＴＭを用いて構築する。ＥＤＵベクトルは、ＥＤＵに含まれる単語のベクトルの加重平均として表現される。単語のベクトルとしては、既存技術で得た単語ベクトルを利用すればよい。ｉ番目のＥＤＵからｊ番目のＥＤＵで構成されるスパンのベクトルは、ＥＤＵベクトル系列全体を前向きＬＳＴＭ、後ろ向きＬＳＴＭへ入力し、それぞれの内部状態ベクトルの差分を連結したものとする。つまり、Ｓ_ｉ，ｊ＝ｆ_ｉ－ｆ_ｊ；ｂ_ｊ－ｂ_ｉとなる。ｆは前向きＬＳＴＭから得た内部状態ベクトル、ｂは後ろ向きＬＳＴＭから得た内部状態ベクトルである。また、「；」はベクトルを連結することを表す。

【0031】

最適分割部２３２は、ｉ番目のＥＤＵからｊ番目のＥＤＵで構成されるスパンのベクトルとパラメタを受け取り、入力されたスパンを２つのスパンに分割し、それぞれのスパンのラベルを与える。

【0032】

具体的には、最適分割部２３２は、非終端記号のラベルの組み合わせ（ｌ∈｛Ｎ－Ｓ，Ｓ－Ｎ，Ｎ－Ｎ｝）のもっともらしさを表すスコアを以下の（１）式で定義する。

【0033】

【数1】

・・・（１）

【0034】

非終端記号のラベルの組み合わせは、ｉ番目のＥＤＵからｊ番目のＥＤＵで構成されるスパンをあるＥＤＵ直後で分割した際の２つのスパンに対して与えるラベルの組み合わせである。なお、Ｓ－Ｓというラベルの組み合わせは談話構造解析の理論上ではありえない。また、Ｗ_ｌ、ｖ_ｌ、ｂ_ｌは学習済みモデルのパラメタ行列であり、パラメタ記憶部２３４に記憶されている。学習済みモデルのパラメタ行列Ｗ_ｌ、ｖ_ｌ、ｂ_ｌは、ラベル付きのＥＤＵ系列を入力として、パラメタ学習部２２０により予め学習しておけばよい。パラメタ学習部２２０については後述する。

【0035】

最適分割部２３２は、ｉ番目のＥＤＵからｊ番目のＥＤＵからなるスパンに対して、ｋ番目のＥＤＵ（ｉ≦ｋ＜ｊ）の直後でスパンを分割する際のもっともらしさを表すスコアを以下の（２）式で定義する。

【0036】

【数2】

・・・（２）

【0037】

また、最適分割部２３２は、以下の（３）式にてスパンとしてのもっともらしさを最大にする位置ｋにてスパンを分割し、分割した２つのスパンに対してラベルを付与する。

【0038】

【数3】

・・・（３）

【0039】

ここで、Ｓ_ｂｅｓｔ（）は以下の（４）式で定義する。

【0040】

【数4】

・・・（４）

【0041】

このように、スパンを分割する位置は、パラメタ記憶部２３４の学習済みのモデルのパラメタに基づいて定義される、分割する位置で分割したときに得られる二つのスパンのもっともらしさを最大にする位置となる。

【0042】

上述したように、最適分割部２３２は、ｉ番目のＥＤＵからｊ番目のＥＤＵで構成されるスパンのベクトルとパラメタを受け取り、以下の（５）式、（６）式に従って、入力されたスパンを位置＾ｋで２つのスパンに分割し、それぞれのスパンのラベルの組み合わせ＾ｌを与える。

【数5】

・・・（５）

・・・（６）
最適分割部２３２は、ｉ番目のＥＤＵからｊ番目のＥＤＵとして文の先頭のＥＤＵから末尾のＥＤＵを与え、２つのスパンに分割する手続きを再帰的に繰り返し、分割されたスパンが単体のＥＤＵになるまで繰り返す。この手続が終了すると、文に対して非終端記号がＮかＳ、終端記号がＥＤＵとなる２分木が構築される。

【0043】

関係分類部２３６は、ラベル付きの２つのスパンを受け取り関係ラベルを出力する。関係分類部２３６は、訓練データから正解の２つのラベル付きスパンが与えられたときに正解の関係ラベルを出力するように学習したモデル（図示省略）を用いればよい。図８は、分類する関係ラベルの１８種の種類の一例を示す図である。

【0044】

次に、パラメタ学習部２２０の事前処理を説明する。パラメタ学習部２２０は、ｉ番目のＥＤＵからｊ番目のＥＤＵまでのスパンを表すベクトルと正しい分割を表すｋ、ラベルの組み合わせｌが与えられるとする。パラメタ学習部２２０は、ランダムに初期化したパラメタを以下の（７）式のスコアを最大化するように逐次的に学習する。

【0045】

【数6】

・・・（７）

【0046】

ここで、＾ｋ、及び＾ｌは、現在のパラメタにおける最良の分割とラベルの組み合わせであり、（５）式、及び（６）式で得る。

【0047】

以上が文内解析部３２を例にした内部処理の説明である。

【0048】

段落内解析部３４として処理する場合には、上記の内部処理において、ＥＤＵ系列を文系列に置き換え、ＥＤＵベクトルを文ベクトルに置き換えて処理すればよい。ただし、文ベクトルは、文に含まれる単語のベクトルの加重平均として表現される。また、文書内解析部３６として処理する場合には、上記の内部処理において、ＥＤＵ系列を段落系列に置き換え、ＥＤＵベクトルを段落ベクトルに置き換えて処理すればよい。ただし、段落ベクトルは、段落に含まれる単語のベクトルの加重平均として表現される。

【0049】

＜本発明の実施の形態に係る談話構造解析装置の作用＞

【0050】

次に、本発明の実施の形態に係る談話構造解析装置１００の作用について説明する。入力部１０において文書を受け付けると、談話構造解析装置１００は、図９に示す談話構造処理ルーチンを実行する。

【0051】

まず、ステップＳ１００では、部分構造解析部３０は、入力部１０で受け付けた文書について、文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれるＥＤＵの系列への分割とを行う。

【0052】

次に、ステップＳ１０２では、文内解析部３２は、各文について、当該文に含まれるＥＤＵの系列を二つのスパンに分割し、かつ、二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共にＥＤＵの系列に対する二つのスパンの関係ラベルを推定することを、スパンの各々がＥＤＵとなるまで再帰的に繰り返す。組み合わせの推定は、当該文に含まれるＥＤＵの系列の各ＥＤＵを表すＥＤＵベクトルと、ＥＤＵの系列を二つのスパンに分割する位置と、二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づく。文内解析部３２は、再帰的な処理により、スパンの各々をノードとし、非終端記号が付与された二分木で表される、ＥＤＵを単位とした談話構造木である文内談話木を出力する。

【0053】

ステップＳ１０４では、段落内解析部３４は、各段落について、当該段落に含まれる文の系列を二つのスパンに分割し、かつ、二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に文の系列に対する二つのスパンの関係ラベルを推定することを、スパンの各々が文となるまで再帰的に繰り返す。組み合わせの推定は、当該段落に含まれる文の系列の各文を表す文ベクトルと、学習済みのモデルのパラメタとに基づく。段落内解析部３４は、再帰的な処理により、スパンの各々をノードとし、非終端記号が付与された二分木で表される、文を単位とした談話構造木である段落内談話木を出力する。

【0054】

ステップＳ１０６では、文書内解析部３６は、文書に含まれる段落の系列を二つのスパンに分割し、かつ、二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に段落の系列に対する二つのスパンの関係ラベルを推定することを、スパンの各々が段落となるまで再帰的に繰り返す。組み合わせの推定は、文書に含まれる段落の系列の各段落を表す段落ベクトルと、学習済みのモデルのパラメタとに基づく。文書内解析部３６は、再帰的な処理により、スパンの各々をノードとし、非終端記号が付与された二分木で表される、段落を単位とした談話構造木である文書内談話木を出力する。

【0055】

ステップＳ１０８では、木結合部３８は、文内解析部３２が出力した文内談話木と、段落内解析部３４が出力した段落内談話木と、文書内解析部３６が出力した文書内談話木とに基づいて、文書のＥＤＵと文と段落との構造を結合した談話構造木を出力部５０に出力する。

【0056】

以上説明したように、本発明の実施の形態に係る談話構造解析装置によれば、ＥＤＵの数に関わらず、精度よく、談話構造木を構築できる。

【0057】

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

【符号の説明】

【0058】

１０入力部
２０演算部
３０部分構造解析部
３２文内解析部
３４段落内解析部
３６文書内解析部
３８木結合部
５０出力部
１００談話構造解析装置
２２０パラメタ学習部
２３０ベクトル変換部
２３２最適分割部
２３４パラメタ記憶部
２３６関係分類部

【図1】