(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-05
(45)【発行日】2022-04-13
(54)【発明の名称】談話構造解析装置、方法、及びプログラム
(51)【国際特許分類】
G06F 40/35 20200101AFI20220406BHJP
G06F 40/20 20200101ALI20220406BHJP
G06F 40/216 20200101ALI20220406BHJP
【FI】
G06F40/35
G06F40/20
G06F40/216
(21)【出願番号】P 2019028629
(22)【出願日】2019-02-20
【審査請求日】2021-02-12
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】304021417
【氏名又は名称】国立大学法人東京工業大学
(74)【代理人】
【識別番号】110001519
【氏名又は名称】特許業務法人太陽国際特許事務所
(72)【発明者】
【氏名】平尾 努
(72)【発明者】
【氏名】永田 昌明
(72)【発明者】
【氏名】小林 尚輝
(72)【発明者】
【氏名】奥村 学
【審査官】滝谷 亮一
(56)【参考文献】
【文献】特開2016-162198(JP,A)
【文献】米国特許出願公開第2018/0365228(US,A1)
【文献】徳永 健伸,自然言語処理技術の最近の動向,情報処理,社団法人情報処理学会,1992年07月15日,第33巻 第7号,780~789
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/35
G06F 40/20
G06F 40/216
(57)【特許請求の範囲】
【請求項1】
文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行う部分構造解析部と、
各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルと、前記基本単位の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記基本単位の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、基本単位を単位とした談話構造木である文内談話木を出力する文内解析部と、
各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルと、前記文の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記文の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、文を単位とした談話構造木である段落内談話木を出力する段落内解析部と、
前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルと、前記段落の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記段落の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、段落を単位とした談話構造木である文書内談話木を出力する文書内解析部と、
前記文内談話木と、前記段落内談話木と、前記文書内談話木とに基づいて、前記文書の前記基本単位と前記文と前記段落との構造を結合した談話構造木を出力する木結合部と、
を含む談話構造解析装置。
【請求項2】
前記分割する位置は、前記学習済みのモデルのパラメタに基づいて定義される、前記分割する位置で分割したときに得られる前記二つのスパンのもっともらしさを最大にする位置とする請求項1に記載の談話構造解析装置。
【請求項3】
部分構造解析部が、文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行うステップと、
文内解析部が、各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルと、前記基本単位の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、基本単位を単位とした談話構造木である文内談話木を出力するステップと、
段落内解析部が、各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルと、前記文の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、文を単位とした談話構造木である段落内談話木を出力するステップと、
文書内解析部が、前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルと、前記段落の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、段落を単位とした談話構造木である文書内談話木を出力するステップと、
木結合部が、前記文内談話木と、前記段落内談話木と、前記文書内談話木とに基づいて、前記文書の前記基本単位と前記文と前記段落との構造を結合した談話構造木を出力するステップと、
を含む談話構造解析方法。
【請求項4】
前記分割する位置は、前記学習済みのモデルのパラメタに基づいて定義される、前記分割する位置で分割したときに得られる前記二つのスパンのもっともらしさを最大にする位置とする請求項3に記載の談話構造解析方法。
【請求項5】
コンピュータを、請求項1又は請求項2に記載の談話構造解析装置の各部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、談話構造解析装置、方法、及びプログラムに係り、特に、文書の談話構造を解析するための談話構造解析装置、方法、及びプログラムに関する。
【背景技術】
【0002】
従来の談話構造解析技術として、文書を、基本単位であるElementary Discourse Unit(EDU)と呼ばれる文よりも小さい、節に相当するテキストユニットの系列データとみなし、EDUをボトムアップに組み上げていくことで文書全体の談話構造木(
図1)を構築する手法が提案されている。
図1は一般的な談話構造木の一例を示す図である。なお、
図1に示すように以下の実施の形態において用いる談話構造木は2分木として表現される(たとえば、非特許文献1など)。
図1において、終端記号はEDU(e)であり、非終端記号はそれが支配するスパン(連続したEDUの系列)が核(N)であるか衛星(S)であるかを表す。SからN、NからNをつなぐエッジにはElaboration、Same-Unitなどの関係ラベルが与えられる。
【先行技術文献】
【非特許文献】
【0003】
【文献】duVerle, David and Prendinger, Helmut, "A Novel Discourse Parser Based on Support Vector Machine Classication", Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, pp 665{673, 2009
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の方法は、文書中の文、段落といった明示的に利用できる構造を利用せずに単にEDUの系列としてとらえている。一般的には文書中のEDUの数が数十におよぶことは珍しくないため、多くのEDUを考慮しつつ木を構築していかなければならず解析性能が劣化する。また、文書中の文、段落といった構造を無視して、ボトムアップに木を構築していくとエラーが累積し、解析性能が劣化するという問題があった。
【0005】
本発明は、上記事情を鑑みて成されたものであり、EDUの数に関わらず、精度よく、談話構造木を構築できる談話構造解析装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、第1の発明に係る談話構造解析装置は、文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行う部分構造解析部と、各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルと、前記基本単位の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記基本単位の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、基本単位を単位とした談話構造木である文内談話木を出力する文内解析部と、各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルと、前記文の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記文の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、文を単位とした談話構造木である段落内談話木を出力する段落内解析部と、前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルと、前記段落の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記段落の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、段落を単位とした談話構造木である文書内談話木を出力する文書内解析部と、前記文内談話木と、前記段落内談話木と、前記文書内談話木とに基づいて、前記文書の前記基本単位と前記文と前記段落との構造を結合した談話構造木を出力する木結合部と、を含んで構成されている。
【0007】
また、第1の発明に係る談話構造解析装置において、前記分割する位置は、前記学習済みのモデルのパラメタに基づいて定義される、前記分割する位置で分割したときに得られる前記二つのスパンのもっともらしさを最大にする位置とするようにしてもよい。
【0008】
第2の発明に係る談話構造解析方法は、部分構造解析部が、文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行うステップと、文内解析部が、各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルと、前記基本単位の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記基本単位の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、基本単位を単位とした談話構造木である文内談話木を出力するステップと、段落内解析部が、各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルと、前記文の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記文の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、文を単位とした談話構造木である段落内談話木を出力するステップと、文書内解析部が、前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルと、前記段落の系列を二つのスパンに分割する位置、及び前記二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割し、かつ、前記二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に前記段落の系列に対する前記二つのスパンの関係ラベルを推定することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとし、非終端記号が付与された二分木で表される、段落を単位とした談話構造木である文書内談話木を出力するステップと、木結合部が、前記文内談話木と、前記段落内談話木と、前記文書内談話木とに基づいて、前記文書の前記基本単位と前記文と前記段落との構造を結合した談話構造木を出力するステップと、を含んで実行することを特徴とする。
【0009】
また、第2の発明に係る談話構造解析方法において、前記分割する位置は、前記学習済みのモデルのパラメタに基づいて定義される、前記分割する位置で分割したときに得られる前記二つのスパンのもっともらしさを最大にする位置とするようにしてもよい。
【0010】
第3の発明に係るプログラムは、第1の発明に記載の談話構造解析装置の各部として機能させるためのプログラムである。
【発明の効果】
【0011】
本発明の談話構造解析装置、方法、及びプログラムによれば、EDUの数に関わらず、精度よく、談話構造木を構築できる、という効果が得られる。
【図面の簡単な説明】
【0012】
【
図2】文、段落、及び文書の部分構造木への分割例を示す図である。
【
図3】本発明の実施の形態に係る談話構造解析装置の構成を示すブロック図である。
【
図4】EDUを葉とする文内談話木の一例を示す図である。
【
図5】文を葉とする文書内談話木の一例を示す図である。
【
図6】段落を葉とする文書内談話木の一例を示す図である。
【
図7】文内解析部、段落内解析部、及び文書内解析部に対応する具体的な内部構成を示す図である。
【
図8】分類する関係ラベルの18種の種類の一例を示す図である。
【
図9】本発明の実施の形態に係る談話構造解析装置の談話構造解析処理ルーチンを示すフローチャートである。
【発明を実施するための形態】
【0013】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0014】
本発明の実施の形態では、上記課題に対して、文書を文、段落、及び文書という3つの部分構造に分割し、それぞれの構造に対して、トップダウンで解析を行う。つまり、EDU系列、文系列、段落系列を2分することを繰り返し、木を構築する。
図2は文、段落、及び文書の部分構造木への分割例を示す図である。
【0015】
<本発明の実施の形態に係る談話構造解析装置の構成>
【0016】
次に、本発明の実施の形態に係る談話構造解析装置の構成について説明する。
図3に示すように、本発明の実施の形態に係る談話構造解析装置100は、CPUと、RAMと、後述する談話構造解析処理ルーチンを実行するためのプログラム及び各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この談話構造解析装置100は、機能的には
図3に示すように入力部10と、演算部20と、出力部50とを備えている。
【0017】
入力部10は、談話構造を解析する対象となる文書を受け付ける。
【0018】
演算部20は、部分構造解析部30と、文内解析部32と、段落内解析部34と、文書内解析部36と、木結合部38とを含んで構成されている。
【0019】
図4はEDUを葉とする文内談話木の一例を示す図である。
図5は文を葉とする文書内談話木の一例を示す図である。
図6は段落を葉とする文書内談話木の一例を示す図である。
【0020】
談話構造解析装置100の処理の概要を説明する。談話構造解析装置100は、入力として文書を受け取ると、文書を、文、段落、文書という構造に分割し、それぞれをEDU系列、文系列、段落系列として扱う。文内解析部32で、EDUを葉とする文内談話木(
図4)を構築する。段落内解析部34で、文を葉とする段落内談話木(
図5)、文書内解析部36で、段落を葉とする文書内談話木(
図6)を構築する。木結合部38は、これらの木を結合し、最終的に談話構造木を出力する。EDUが基本単位の一例である。
【0021】
図7は文内解析部32、段落内解析部34、及び文書内解析部36に対応する具体的な内部構成を示す図である。文内解析部32、段落内解析部34、及び文書内解析部36の具体的な内部処理は、
図7に示す構成の各処理部によって実現される。内部処理を行う各処理部は、パラメタ学習部220と、ベクトル変換部230と、最適分割部232と、パラメタ記憶部234と、関係分類部236とを含んで構成される。内部処理については後述する。
【0022】
以下、談話構造解析装置100の各処理部について説明する。
【0023】
部分構造解析部30は、入力部10で受け付けた文書について、文書の段落の系列(段落系列)への分割と、各段落に含まれる文の系列(文系列)への分割と、各文に含まれるEDUの系列(EDU系列)への分割とを行う。
【0024】
具体的には、部分構造解析部30は、以下に説明するように、文書から、文、段落、文書の3つの構造に分割し、それぞれEDU系列、文系列、段落系列として出力する。EDU系列への分割は、文をEDUへ分割する既存技術が提案されているのでそれを用いればよい。文系列への分割は、句点を手がかりに文を認定すればよい。また、文系列への分割は、既存の文境界認定器を利用することも可能である。段落系列への分割は、空行、字下げなどを手がかりとして分割すればよい。手がかりの情報がない場合には既存技術を用いて段落境界を認定すればよい。
【0025】
文内解析部32は、各文について、当該文に含まれるEDUの系列を二つのスパンに分割し、かつ、二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共にEDUの系列に対する二つのスパンの関係ラベルを推定することを、スパンの各々がEDUとなるまで再帰的に繰り返す。組み合わせの推定は、当該文に含まれるEDUの系列の各EDUを表すEDUベクトルと、EDUの系列を二つのスパンに分割する位置、及び二つのスパンの各々に付与する非終端記号の組み合わせを推定するための学習済みのモデルのパラメタ(後述するパラメタ記憶部234に記憶)とに基づく。文内解析部32は、再帰的な処理により、スパンの各々をノードとし、非終端記号が付与された二分木で表される、EDUを単位とした談話構造木である文内談話木を出力する。
【0026】
段落内解析部34は、各段落について、当該段落に含まれる文の系列を二つのスパンに分割し、かつ、二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に文の系列に対する二つのスパンの関係ラベルを推定することを、スパンの各々が文となるまで再帰的に繰り返す。組み合わせの推定は、当該段落に含まれる文の系列の各文を表す文ベクトルと、学習済みのモデルのパラメタとに基づく。段落内解析部34は、再帰的な処理により、スパンの各々をノードとし、非終端記号が付与された二分木で表される、文を単位とした談話構造木である段落内談話木を出力する。
【0027】
文書内解析部36は、文書に含まれる段落の系列を二つのスパンに分割し、かつ、二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に段落の系列に対する二つのスパンの関係ラベルを推定することを、スパンの各々が段落となるまで再帰的に繰り返す。組み合わせの推定は、文書に含まれる段落の系列の各段落を表す段落ベクトルと、学習済みのモデルのパラメタとに基づく。文書内解析部36は、再帰的な処理により、スパンの各々をノードとし、非終端記号が付与された二分木で表される、段落を単位とした談話構造木である文書内談話木を出力する。
【0028】
木結合部38は、文内解析部32が出力した文内談話木と、段落内解析部34が出力した段落内談話木と、文書内解析部36が出力した文書内談話木とに基づいて、文書のEDUと文と段落との構造を結合した談話構造木を出力部50に出力する。
【0029】
次に、
図7の文内解析部32、段落内解析部34、及び文書内解析部36の内部処理について、文内解析部32の場合を例に説明する。
【0030】
ベクトル変換部230は、入力されたEDU系列をEDUベクトル系列に変換する。ベクトル変換部230は、EDUベクトル系列に基づいて任意のスパン(i番目のEDUからj(i<j)番目のEDUまでの連続したEDU系列)のベクトルを双方向LSTMを用いて構築する。EDUベクトルは、EDUに含まれる単語のベクトルの加重平均として表現される。単語のベクトルとしては、既存技術で得た単語ベクトルを利用すればよい。i番目のEDUからj番目のEDUで構成されるスパンのベクトルは、EDUベクトル系列全体を前向きLSTM、後ろ向きLSTMへ入力し、それぞれの内部状態ベクトルの差分を連結したものとする。つまり、Si,j=fi-fj;bj-biとなる。fは前向きLSTMから得た内部状態ベクトル、bは後ろ向きLSTMから得た内部状態ベクトルである。また、「;」はベクトルを連結することを表す。
【0031】
最適分割部232は、i番目のEDUからj番目のEDUで構成されるスパンのベクトルとパラメタを受け取り、入力されたスパンを2つのスパンに分割し、それぞれのスパンのラベルを与える。
【0032】
具体的には、最適分割部232は、非終端記号のラベルの組み合わせ(l∈{N-S,S-N,N-N})のもっともらしさを表すスコアを以下の(1)式で定義する。
【0033】
【0034】
非終端記号のラベルの組み合わせは、i番目のEDUからj番目のEDUで構成されるスパンをあるEDU直後で分割した際の2つのスパンに対して与えるラベルの組み合わせである。なお、S-Sというラベルの組み合わせは談話構造解析の理論上ではありえない。また、Wl、vl、blは学習済みモデルのパラメタ行列であり、パラメタ記憶部234に記憶されている。学習済みモデルのパラメタ行列Wl、vl、blは、ラベル付きのEDU系列を入力として、パラメタ学習部220により予め学習しておけばよい。パラメタ学習部220については後述する。
【0035】
最適分割部232は、i番目のEDUからj番目のEDUからなるスパンに対して、k番目のEDU(i≦k<j)の直後でスパンを分割する際のもっともらしさを表すスコアを以下の(2)式で定義する。
【0036】
【0037】
また、最適分割部232は、以下の(3)式にてスパンとしてのもっともらしさを最大にする位置kにてスパンを分割し、分割した2つのスパンに対してラベルを付与する。
【0038】
【0039】
ここで、Sbest()は以下の(4)式で定義する。
【0040】
【0041】
このように、スパンを分割する位置は、パラメタ記憶部234の学習済みのモデルのパラメタに基づいて定義される、分割する位置で分割したときに得られる二つのスパンのもっともらしさを最大にする位置となる。
【0042】
上述したように、最適分割部232は、i番目のEDUからj番目のEDUで構成されるスパンのベクトルとパラメタを受け取り、以下の(5)式、(6)式に従って、入力されたスパンを位置^kで2つのスパンに分割し、それぞれのスパンのラベルの組み合わせ^lを与える。
【数5】
・・・(5)
・・・(6)
最適分割部232は、i番目のEDUからj番目のEDUとして文の先頭のEDUから末尾のEDUを与え、2つのスパンに分割する手続きを再帰的に繰り返し、分割されたスパンが単体のEDUになるまで繰り返す。この手続が終了すると、文に対して非終端記号がNかS、終端記号がEDUとなる2分木が構築される。
【0043】
関係分類部236は、ラベル付きの2つのスパンを受け取り関係ラベルを出力する。関係分類部236は、訓練データから正解の2つのラベル付きスパンが与えられたときに正解の関係ラベルを出力するように学習したモデル(図示省略)を用いればよい。
図8は、分類する関係ラベルの18種の種類の一例を示す図である。
【0044】
次に、パラメタ学習部220の事前処理を説明する。パラメタ学習部220は、i番目のEDUからj番目のEDUまでのスパンを表すベクトルと正しい分割を表すk、ラベルの組み合わせlが与えられるとする。パラメタ学習部220は、ランダムに初期化したパラメタを以下の(7)式のスコアを最大化するように逐次的に学習する。
【0045】
【0046】
ここで、^k、及び^lは、現在のパラメタにおける最良の分割とラベルの組み合わせであり、(5)式、及び(6)式で得る。
【0047】
以上が文内解析部32を例にした内部処理の説明である。
【0048】
段落内解析部34として処理する場合には、上記の内部処理において、EDU系列を文系列に置き換え、EDUベクトルを文ベクトルに置き換えて処理すればよい。ただし、文ベクトルは、文に含まれる単語のベクトルの加重平均として表現される。また、文書内解析部36として処理する場合には、上記の内部処理において、EDU系列を段落系列に置き換え、EDUベクトルを段落ベクトルに置き換えて処理すればよい。ただし、段落ベクトルは、段落に含まれる単語のベクトルの加重平均として表現される。
【0049】
<本発明の実施の形態に係る談話構造解析装置の作用>
【0050】
次に、本発明の実施の形態に係る談話構造解析装置100の作用について説明する。入力部10において文書を受け付けると、談話構造解析装置100は、
図9に示す談話構造処理ルーチンを実行する。
【0051】
まず、ステップS100では、部分構造解析部30は、入力部10で受け付けた文書について、文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれるEDUの系列への分割とを行う。
【0052】
次に、ステップS102では、文内解析部32は、各文について、当該文に含まれるEDUの系列を二つのスパンに分割し、かつ、二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共にEDUの系列に対する二つのスパンの関係ラベルを推定することを、スパンの各々がEDUとなるまで再帰的に繰り返す。組み合わせの推定は、当該文に含まれるEDUの系列の各EDUを表すEDUベクトルと、EDUの系列を二つのスパンに分割する位置と、二つのスパンの各々に付与する非終端記号の組み合わせとを推定するための学習済みのモデルのパラメタとに基づく。文内解析部32は、再帰的な処理により、スパンの各々をノードとし、非終端記号が付与された二分木で表される、EDUを単位とした談話構造木である文内談話木を出力する。
【0053】
ステップS104では、段落内解析部34は、各段落について、当該段落に含まれる文の系列を二つのスパンに分割し、かつ、二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に文の系列に対する二つのスパンの関係ラベルを推定することを、スパンの各々が文となるまで再帰的に繰り返す。組み合わせの推定は、当該段落に含まれる文の系列の各文を表す文ベクトルと、学習済みのモデルのパラメタとに基づく。段落内解析部34は、再帰的な処理により、スパンの各々をノードとし、非終端記号が付与された二分木で表される、文を単位とした談話構造木である段落内談話木を出力する。
【0054】
ステップS106では、文書内解析部36は、文書に含まれる段落の系列を二つのスパンに分割し、かつ、二つのスパンの各々に付与する非終端記号の組み合わせを推定すると共に段落の系列に対する二つのスパンの関係ラベルを推定することを、スパンの各々が段落となるまで再帰的に繰り返す。組み合わせの推定は、文書に含まれる段落の系列の各段落を表す段落ベクトルと、学習済みのモデルのパラメタとに基づく。文書内解析部36は、再帰的な処理により、スパンの各々をノードとし、非終端記号が付与された二分木で表される、段落を単位とした談話構造木である文書内談話木を出力する。
【0055】
ステップS108では、木結合部38は、文内解析部32が出力した文内談話木と、段落内解析部34が出力した段落内談話木と、文書内解析部36が出力した文書内談話木とに基づいて、文書のEDUと文と段落との構造を結合した談話構造木を出力部50に出力する。
【0056】
以上説明したように、本発明の実施の形態に係る談話構造解析装置によれば、EDUの数に関わらず、精度よく、談話構造木を構築できる。
【0057】
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【符号の説明】
【0058】
10 入力部
20 演算部
30 部分構造解析部
32 文内解析部
34 段落内解析部
36 文書内解析部
38 木結合部
50 出力部
100 談話構造解析装置
220 パラメタ学習部
230 ベクトル変換部
232 最適分割部
234 パラメタ記憶部
236 関係分類部