IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人東京工業大学の特許一覧

<>
  • 特許-木構造解析装置、方法、及びプログラム 図1
  • 特許-木構造解析装置、方法、及びプログラム 図2
  • 特許-木構造解析装置、方法、及びプログラム 図3
  • 特許-木構造解析装置、方法、及びプログラム 図4
  • 特許-木構造解析装置、方法、及びプログラム 図5
  • 特許-木構造解析装置、方法、及びプログラム 図6
  • 特許-木構造解析装置、方法、及びプログラム 図7
  • 特許-木構造解析装置、方法、及びプログラム 図8
  • 特許-木構造解析装置、方法、及びプログラム 図9
  • 特許-木構造解析装置、方法、及びプログラム 図10
  • 特許-木構造解析装置、方法、及びプログラム 図11
  • 特許-木構造解析装置、方法、及びプログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-09-27
(45)【発行日】2022-10-05
(54)【発明の名称】木構造解析装置、方法、及びプログラム
(51)【国際特許分類】
   G06F 40/211 20200101AFI20220928BHJP
   G06F 16/30 20190101ALI20220928BHJP
【FI】
G06F40/211
G06F16/30
【請求項の数】 7
(21)【出願番号】P 2019035758
(22)【出願日】2019-02-28
(65)【公開番号】P2020140464
(43)【公開日】2020-09-03
【審査請求日】2021-02-12
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】304021417
【氏名又は名称】国立大学法人東京工業大学
(74)【代理人】
【識別番号】110001519
【氏名又は名称】特許業務法人太陽国際特許事務所
(72)【発明者】
【氏名】平尾 努
(72)【発明者】
【氏名】永田 昌明
(72)【発明者】
【氏名】小林 尚輝
(72)【発明者】
【氏名】奥村 学
【審査官】征矢 崇
(56)【参考文献】
【文献】特開2007-241902(JP,A)
【文献】特開2002-169803(JP,A)
【文献】特開2002-117019(JP,A)
【文献】特開2017-076281(JP,A)
【文献】田村 直良 NAOYOSHI TAMURA,セグメントの分割と統合による文章の構造解析 Text Structuring by Composition and Decomposition of Segments,自然言語処理 第5巻 第1号 Journal of Natural Language Processing,日本,言語処理学会 The Association for Natural Language Processing,1998年01月10日,第5巻 第1号,59~78
(58)【調査した分野】(Int.Cl.,DB名)
G06F40/20-40/58
G06F16/30-16/387
(57)【特許請求の範囲】
【請求項1】
文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行う部分構造解析部と、
各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルの系列に基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、基本単位を単位とした木構造を出力し、
各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルの系列に基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、文を単位とした木構造を出力し、
前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルの系列に基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、段落を単位とした木構造を出力する木構造推定部と、
前記基本単位を単位とした木構造と、前記文を単位とした木構造と、前記段落を単位とした木構造とを結合した木構造を出力する木結合部と、
を含む木構造解析装置。
【請求項2】
前記木構造推定部は、前記文に含まれる前記基本単位の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記基本単位の系列に対するベクトルと、前記分割する位置より右側の前記基本単位の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定し、
前記段落に含まれる前記文の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記文の系列に対するベクトルと、前記分割する位置より右側の前記文の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定し、
前記文書に含まれる前記段落の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記段落の系列に対するベクトルと、前記分割する位置より右側の前記段落の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定する請求項1記載の木構造解析装置。
【請求項3】
前記文に含まれる前記基本単位の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記基本単位の系列に含まれる各基本単位のEDUベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記基本単位の系列に含まれる各基本単位のEDUベクトルに基づいて計算されるベクトルとの類似度に基づいて計算され、
前記段落に含まれる前記文の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記文の系列に含まれる各文の文ベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記文の系列に含まれる各文の文ベクトルに基づいて計算されるベクトルとの類似度に基づいて計算され、
前記文書に含まれる前記段落の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記段落の系列に含まれる各段落の段落ベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記段落の系列に含まれる各段落の段落ベクトルに基づいて計算されるベクトルとの類似度に基づいて計算される請求項2記載の木構造解析装置。
【請求項4】
コンピュータが、文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行い、
各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルの系列に基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、基本単位を単位とした木構造を出力し、
各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルの系列に基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、文を単位とした木構造を出力し、
前記コンピュータが、前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルの系列に基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、段落を単位とした木構造を出力し、
前記コンピュータが、前記基本単位を単位とした木構造と、前記文を単位とした木構造と、前記段落を単位とした木構造とを結合した木構造を出力する
木構造解析方法。
【請求項5】
前記コンピュータが、前記文に含まれる前記基本単位の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記基本単位の系列に対するベクトルと、前記分割する位置より右側の前記基本単位の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定し、
前記段落に含まれる前記文の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記文の系列に対するベクトルと、前記分割する位置より右側の前記文の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定し、
前記文書に含まれる前記段落の系列を二つのスパンに分割する位置を決定する際に、前記分割する位置より左側の前記段落の系列に対するベクトルと、前記分割する位置より右側の前記段落の系列に対するベクトルとに基づいて計算される分割スコアに応じて、前記分割する位置を決定する請求項4に記載の木構造解析方法。
【請求項6】
前記文に含まれる前記基本単位の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記基本単位の系列に含まれる各基本単位のEDUベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記基本単位の系列に含まれる各基本単位のEDUベクトルに基づいて計算されるベクトルとの類似度に基づいて前記コンピュータにより計算され、
前記段落に含まれる前記文の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記文の系列に含まれる各文の文ベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記文の系列に含まれる各文の文ベクトルに基づいて計算されるベクトルとの類似度に基づいて前記コンピュータにより計算され、
前記文書に含まれる前記段落の系列を二つのスパンに分割する位置を決定する際に計算される前記分割スコアは、前記分割する位置より左側の前記段落の系列に含まれる各段落の段落ベクトルに基づいて計算されるベクトルと、前記分割する位置より右側の前記段落の系列に含まれる各段落の段落ベクトルに基づいて計算されるベクトルとの類似度に基づいて前記コンピュータにより計算される請求項5に記載の木構造解析方法。
【請求項7】
コンピュータに、
文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行い、
各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルの系列に基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、基本単位を単位とした木構造を出力し、
各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルの系列に基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、文を単位とした木構造を出力し、
前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルの系列に基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、段落を単位とした木構造を出力し、
前記基本単位を単位とした木構造と、前記文を単位とした木構造と、前記段落を単位とした木構造とを結合した木構造を出力する
ことを実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、木構造解析装置、方法、及びプログラムに係り、特に、文書の木構造を解析するための木構造解析装置、方法、及びプログラムに関する。
【背景技術】
【0002】
従来の文書構造解析技術は、Rhetorical Structure Theory (RST)に基づき、文書を、Elementary Discourse Unit(EDU)と呼ばれる文よりも小さい、節に相当するテキストユニットを終端記号(葉) とし、2つ以上のEDUで構成されるスパンの役割を示すN/Sラベルを非終端記号とする2分木として表現する(図1)。なお、Nは系列の核であり、Sは系列の衛星をあらわす。こうした木構造を得るため、従来の多くの方法は、文書をEDUの系列データとみなし、EDUをボトムアップに組み上げていくことで文書全体の木を構築する(たとえば、非特許文献1など)。
【先行技術文献】
【非特許文献】
【0003】
【文献】duVerle, David and Prendinger, Helmut, "A Novel Discourse Parser Based on Support Vector Machine Classification", Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, pp 665-673, 2009
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の方法は、文書中の文、段落といった明示的に利用できる構造を利用していない。さらに、正解の木構造を訓練データとして木の構築に必要なパラメタを学習している。
【0005】
本発明は、上記事情を鑑みて成されたものであり、訓練データがなくても、精度よく、文書を表す木構造を構築できる木構造解析装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、第1の態様に係る木構造解析装置は、文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行う部分構造解析部と、各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルの系列に基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、基本単位を単位とした木構造を出力し、各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルの系列に基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、文を単位とした木構造を出力し、前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルの系列に基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、段落を単位とした木構造を出力する木構造推定部と、前記基本単位を単位とした木構造と、前記文を単位とした木構造と、前記段落を単位とした木構造とを結合した木構造を出力する木結合部と、を含んで構成されている。
【0007】
第2の態様に係る木構造解析方法は、部分構造解析部が、文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行い、各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルの系列に基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、基本単位を単位とした木構造を出力し、各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルの系列に基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、文を単位とした木構造を出力し、木構造推定部が、前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルの系列に基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、段落を単位とした木構造を出力し、木結合部が、前記基本単位を単位とした木構造と、前記文を単位とした木構造と、前記段落を単位とした木構造とを結合した木構造を出力する。
【0008】
第3の態様に係るプログラムは、コンピュータに、文書について、前記文書の段落の系列への分割と、各段落に含まれる文の系列への分割と、各文に含まれる基本単位の系列への分割とを行い、各文について、前記文に含まれる前記基本単位の系列の各基本単位を表すEDU(Elementary Discourse Unit)ベクトルの系列に基づいて、前記文に含まれる前記基本単位の系列を二つのスパンに分割することを、前記スパンの各々が前記基本単位となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、基本単位を単位とした木構造を出力し、各段落について、前記段落に含まれる前記文の系列の各文を表す文ベクトルの系列に基づいて、前記段落に含まれる前記文の系列を二つのスパンに分割することを、前記スパンの各々が前記文となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、文を単位とした木構造を出力し、前記文書に含まれる前記段落の系列の各段落を表す段落ベクトルの系列に基づいて、前記文書に含まれる前記段落の系列を二つのスパンに分割することを、前記スパンの各々が前記段落となるまで再帰的に繰り返し、前記スパンの各々をノードとした二分木で表される、段落を単位とした木構造を出力し、前記基本単位を単位とした木構造と、前記文を単位とした木構造と、前記段落を単位とした木構造とを結合した木構造を出力することを実行させるためのプログラムである。
【発明の効果】
【0009】
本発明の一態様に係る木構造解析装置、方法、及びプログラムによれば、訓練データがなくても、精度よく、文書を表す木構造を構築できる、という効果が得られる。
【図面の簡単な説明】
【0010】
図1】一般的な木構造の一例を示す図である。
図2】EDUの系列、文の系列、及び段落の系列を2分割して木構造を構築する方法を説明するための図である。
図3】非終端記号を用いない木構造の一例を示す図である。
図4】本発明の実施の形態に係る木構造解析装置の構成を示すブロック図である。
図5】EDUの系列を2分割して、EDUを葉とする木構造を構築する方法を説明するための図である。
図6】文の系列を2分割して、文を葉とする木構造を構築する方法を説明するための図である。
図7】段落の系列を2分割して、段落を葉とする木構造を構築する方法を説明するための図である。
図8】木構造推定部の具体的な内部構成を示す図である。
図9】分割スコアが最小となる分割点で系列を分割する方法を説明するための図である。
図10】木構造を結合する方法を説明するための図である。
図11】木構造解析装置として機能するコンピュータの一例の概略ブロック図である。
図12】本発明の実施の形態に係る木構造解析装置の木構造解析処理ルーチンを示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0012】
<本発明の実施の形態の概要>
本発明の実施の形態では、文、段落という構造を利用し、文書は段落の系列、段落は文の系列、文はEDUの系列としてとらえ、それぞれの系列を独立に2分割していくことで文書全体の構造木を構築する(図2)。系列の分割は、分割点に対する左右の系列間の類似スコアに基づくため、訓練データを必要としない。なお、本発明の実施の形態の目的は木構造の推定であり(図3)、木の非終端記号ラベル(N/S)の推定を明示的に行わない。ラベル推定は既存のテキスト分類手法などを利用すれば推定可能である。
【0013】
<本発明の実施の形態に係る木構造解析装置の構成>
次に、本発明の実施の形態に係る木構造解析装置の構成について説明する。図4に示すように、本発明の実施の形態に係る木構造解析装置100は、機能的には、入力部10と、演算部20と、出力部50とを備えている。
【0014】
入力部10は、解析対象となる文書を受け付ける。
【0015】
演算部20は、部分構造解析部30と、木構造推定部32と、木結合部38とを含んで構成されている。
【0016】
木構造解析装置100の処理の概要を説明する。木構造解析装置100は、入力として文書を受け取ると、部分構造解析部30にて文書を段落系列、段落を文系列、文をEDU系列に分割する。次に、木構造推定部32のベクトル変換部42にて、段落系列をベクトル系列へと変換し(図5)、文系列をベクトル系列へと変換し(図6)、EDU系列をベクトル系列へと変換する(図7)。いま、系列の長さをnとし、スコア計算部44にて受け取った系列の1番目のユニットからk番目のユニットの系列と、k+1番目のユニットからn番目のユニットの系列との間の分割スコアを計算し、それが最小となるk(1≦k≦n-1)で入力系列を2分割する。分割したそれぞれの系列に対しても同様にスコア計算部44で分割スコアを計算しそれが最小となる位置で系列を2分割することを再帰的に繰り返す。この分割は分割結果が系列を構成する最小ユニット(段落、文、EDU)になるまで繰り返す。これにより、EDUを葉とする木構造(図5)と、文を葉とする木構造(図6)と、段落を葉とする木構造(図7)とを構築する。木結合部38は、これらの木構造を結合し、最終的な木構造を出力する。EDUが基本単位の一例である。
【0017】
以下、木構造解析装置100の各処理部について説明する。
【0018】
部分構造解析部30は、入力部10で受け付けた文書について、文書の段落の系列(段落系列)への分割と、各段落に含まれる文の系列(文系列)への分割と、各文に含まれるEDUの系列(EDU系列)への分割とを行う。
【0019】
具体的には、部分構造解析部30は、以下に説明するように、文書から、文、段落、文書の3つの構造に分割し、それぞれを、EDU系列、文系列、段落系列として出力する。EDU系列への分割は、EDU境界を認定する既存技術を用いればよい。文系列への分割は、句点を手がかりに文境界を認定すればよいし、既存の文境界認定技術を利用してもよい。また、段落系列への分割は、空行、字下げなどを手がかりとして分割すればよい。手がかりの情報がない場合には既存技術を用いて段落境界を認定すればよい。
【0020】
木構造推定部32は、各文について、文に含まれるEDU系列を表すEDUベクトルの系列に基づいて、当該文に含まれるEDU系列を二つのスパンに分割することを、スパンの各々がEDUとなるまで再帰的に繰り返し、スパンの各々をノードとした二分木で表される、EDUを単位とした木構造を出力する。
【0021】
また、木構造推定部32は、各段落について、段落に含まれる文系列の各文を表す文ベクトルの系列に基づいて、当該段落に含まれる文系列を二つのスパンに分割することを、スパンの各々が文となるまで再帰的に繰り返し、スパンの各々をノードとした二分木で表される、文を単位とした木構造を出力する。
【0022】
また、木構造推定部32は、文書に含まれる段落系列の各段落を表す段落ベクトルの系列に基づいて、文書に含まれる段落系列を二つのスパンに分割することを、スパンの各々が段落となるまで再帰的に繰り返し、スパンの各々をノードとした二分木で表される、段落を単位とした木構造を出力する。
【0023】
具体的には、木構造推定部32は、図8に示すように、単語ベクトルデータベース40と、ベクトル変換部42と、スコア計算部44とを備えている。
【0024】
単語ベクトルデータベース40には、各単語について、単語を表す単語ベクトルが格納されている。
【0025】
ベクトル変換部42は、入力された系列をベクトル系列に変換する。ここで、入力された系列における最小ユニットのベクトルを、当該最小ユニットに含まれる単語のベクトルの加重平均とする。たとえば、SIF(smooth inverse frequency)などを用いればよい(非特許文献2参照)。
【0026】
[非特許文献2]Arora, Sanjeev, Liang, Yingyu and Ma, Tengyu, "A Simple But Tough-to-best Baseline for Sentence Embeddings" on Support Vector Machine Classification", Proceedings of the ICLR-2017, 2017.
【0027】
例えば、入力された系列が、段落系列の場合は、各段落を段落ベクトルに変換して、段落ベクトルの系列を出力する。入力された系列が、文系列の場合は、各文を文ベクトルに変換して、文ベクトルの系列を出力する。入力された系列が、EDU系列の場合は、各EDUをEDUベクトルに変換して、EDUベクトルの系列を出力する。
【0028】
スコア計算部44は、文に含まれるEDU系列を二つのスパンに分割する位置を決定する際に、分割する位置より左側のEDU系列に対するベクトルと、分割する位置より右側のEDU系列に対するベクトルとに基づいて、分割スコアを計算する。
【0029】
具体的には、系列の長さをnとすると系列を2分割するための分割候補はn-1箇所ある。つまり、1番目のEDUの直後からn-1番目のEDUの直後が分割候補となる。ここで、任意の分割点k(1≦k≦n-1)に対して、左側の系列のベクトル、右側の系列のベクトルを以下の式で定義する。
【0030】
【数1】

(1)

(2)
【0031】
ここで、u(ei)はEDUのベクトルである。vleft(k)とvright(k)を用いて分割点kにおける分割スコアを以下の式で定義する。
【0032】
【数2】

(3)
【0033】
上記の分割スコアは、左側の系列のベクトルと、右側の系列のベクトルとの類似度を表している。
【0034】
木構造推定部32は、以下の式にて可能な分割点kのうち分割スコアが最小となる分割点kにてEDU系列を分割する(図9)。
【0035】
【数3】

(4)
【0036】
上記のように分割スコアが最小となる分割点kにてEDU系列を分割することにより、左側の系列のベクトルと、右側の系列のベクトルとの類似度が最小となる分割点kにてEDU系列を分割することができる。
【0037】
この手続きを分割後のEDU系列に対しても再帰的に行い、分割したEDU系列のすべてがEDUになるまで繰り返し、EDUを単位とした木構造を出力する。
【0038】
なお、上記手続きは貪欲法と呼ばれる手法に基づいており、木全体での総分割スコアを最大化するとは限らない。そこで、木全体での総分割スコアを最大化する方法を以下に示す。上記同様EDU系列に対して木構造を推定する方法を例として説明する。
【0039】
いま、任意の系列el:m(l番目のEDUからm番目のEDUまでの系列)をk(l≦k≦m-1)番目のEDUの直後で分割することを考える場合、その分割スコアの最大値V[l][m]はl番目のEDUからk番目のEDUで構成されるスパンの分割スコアの最大値V[l][k]、k番目のEDUでスパンを分割する際の分割スコアscore(k)、k+1番目のEDUからm番目のEDUで構成されるスパンの分割スコアの最大値V[k+1][m]を用いて以下の式で定義される。
【0040】
【数4】

(5)
【0041】
l、mとして木構造を推定したいEDU系列を与え、テーブルVをボトムアップに埋めていくと最終的には、V[l][m]が求まる。V[l][m]が求まったならEDU系列el:mを2分割する最適な分割点kが式(5)より定まっているので、分割点kにてEDU系列を分割する。分割後のEDU系列に対してもテーブルVを埋める過程で最適な分割が式(5)より定まっているのでそれに従い分割を繰り返す。このようにテーブルVをボトムアップに埋めていけば可能なすべての木から総分割スコアが最大となる木を獲得できる。計算量に関しては、貪欲法の方が少ないので利用する状況に応じて2つの手法を使い分ければ良い。
【0042】
スコア計算部44は、EDU系列と同様に、段落に含まれる文系列を二つのスパンに分割する位置を決定する際に、分割する位置より左側の文系列に対するベクトルと、分割する位置より右側の文系列に対するベクトルとに基づいて、上記式(1)~式(3)に従って、分割スコアを計算する。このとき、u(ei)は文のベクトルである。
【0043】
木構造推定部32は、上記式(4)にて可能な分割点kのうち分割スコアが最小となる分割点kにて文系列を分割する。この手続きを分割後の文系列に対しても再帰的に行い、分割した文系列のすべてが文になるまで繰り返し、文を単位とした木構造を出力する。
【0044】
スコア計算部44は、EDU系列と同様に、文書に含まれる段落系列を二つのスパンに分割する位置を決定する際に、分割する位置より左側の段落系列に対するベクトルと、分割する位置より右側の段落系列に対するベクトルとに基づいて、上記式(1)~式(3)に従って、分割スコアを計算する。このとき、u(ei)は段落のベクトルである。
【0045】
木構造推定部32は、上記式(4)にて可能な分割点kのうち分割スコアが最小となる分割点kにて段落系列を分割する。この手続きを分割後の段落系列に対しても再帰的に行い、分割した段落系列のすべてが段落になるまで繰り返し、段落を単位とした木構造を出力する。
【0046】
木結合部38は、木構造推定部32で推定した、EDUを単位とした木構造、文を単位とした木構造、及び段落を単位とした木構造を結合して、出力部50により出力する。具体的には、段落を単位とした木構造の葉と、当該葉が表している段落について得られた、文を単位とした木構造の根とを結合し、文を単位とした木構造の葉と、当該葉が表している文について得られた、EDUを単位とした木構造の根とを結合する。
【0047】
例えば、図10に示すように、段落p1を表す葉と、段落p1について得られた、文s1から文s5で構成される木構造の根とを結合し、文s1を表す葉と、文s1について得られた、EDUe1からEDUe6で構成される木構造の根を結合している。このように、すべての段落pに対して文sを葉とする木構造を結合した後、すべての文sに対してEDUeを葉とする木構造を結合する。
【0048】
木構造解析装置100の各々は、一例として、図11に示すコンピュータ84によって実現される。コンピュータ84は、CPU86、メモリ88、プログラム82を記憶した記憶部92、モニタを含む表示部94、及びキーボードやマウスを含む入力部96を含んでいる。CPU86、メモリ88、記憶部92、表示部94、及び入力部96はバス98を介して互いに接続されている。
【0049】
記憶部92はHDD、SSD、フラッシュメモリ等によって実現される。記憶部92には、コンピュータ84を木構造解析装置100として機能させるためのプログラム82が記憶されている。CPU86は、プログラム82を記憶部92から読み出してメモリ88に展開し、プログラム82を実行する。なお、プログラム82をコンピュータ可読媒体に格納して提供してもよい。
【0050】
<本発明の実施の形態に係る木構造解析装置の作用>
次に、本発明の実施の形態に係る木構造解析装置100の作用について説明する。入力部10において文書を受け付けると、木構造解析装置100は、図12に示す木構造解析処理ルーチンを実行する。
【0051】
まず、ステップS100では、部分構造解析部30は、入力部10で受け付けた文書について、段落系列への分割と、文系列への分割と、EDU系列への分割とを行う。
【0052】
次に、ステップS101では、ベクトル変換部42は、EDU系列に基づいて、各EDUをEDUベクトルに変換して、EDUベクトルの系列を出力する。
【0053】
ステップS102では、木構造推定部32は、可能な分割点kのうち分割スコアが最小となる分割点kにてEDU系列を分割することを、再帰的に行い、分割したEDU系列のすべてがEDUになるまで繰り返し、EDUを単位とした文の木構造を出力する。
【0054】
次に、ステップS103では、ベクトル変換部42は、文系列に基づいて、各文を文ベクトルに変換して、文ベクトルの系列を出力する。
【0055】
ステップS104では、木構造推定部32は、可能な分割点kのうち分割スコアが最小となる分割点kにて文系列を分割することを、再帰的に行い、分割した文系列のすべてが文になるまで繰り返し、文を単位とした段落の木構造を出力する。
【0056】
次に、ステップS105では、ベクトル変換部42は、段落系列に基づいて、各段落を段落ベクトルに変換して、段落ベクトルの系列を出力する。
【0057】
ステップS106では、木構造推定部32は、可能な分割点kのうち分割スコアが最小となる分割点kにて段落系列を分割することを、再帰的に行い、分割した段落系列のすべてが段落になるまで繰り返し、段落を単位とした文書の木構造を出力する。
【0058】
ステップS108では、木結合部38は、上記ステップS102、S104、S106で推定した、EDUを単位とした木構造、文を単位とした木構造、及び段落を単位とした木構造を結合して、出力部50により出力し、木構造解析処理ルーチンを終了する。
【0059】
以上説明したように、本発明の実施の形態に係る木構造解析装置によれば、各文について、EDUベクトルの系列に基づいて、文に含まれるEDU系列を二つのスパンに分割することを再帰的に繰り返し、基本単位を単位とした木構造を出力し、各段落について、文ベクトルの系列に基づいて、段落に含まれる文系列を二つのスパンに分割することを再帰的に繰り返し、文を単位とした木構造を出力し、段落ベクトルの系列に基づいて、文書に含まれる段落系列を二つのスパンに分割することを再帰的に繰り返し、段落を単位とした木構造を出力し、基本単位を単位とした木構造と、文を単位とした木構造と、段落を単位とした木構造とを最終的に結合することにより、訓練データがなくても、精度よく、文書を表す木構造を構築できる。
【0060】
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【符号の説明】
【0061】
10 入力部
20 演算部
30 部分構造解析部
32 木構造推定部
38 木結合部
40 単語ベクトルデータベース
42 ベクトル変換部
44 スコア計算部
50 出力部
82 プログラム
84 コンピュータ
100 木構造解析装置
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12