IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7521581情報処理装置、情報処理方法、及び、プログラム
<>
  • 特許-情報処理装置、情報処理方法、及び、プログラム 図1
  • 特許-情報処理装置、情報処理方法、及び、プログラム 図2
  • 特許-情報処理装置、情報処理方法、及び、プログラム 図3
  • 特許-情報処理装置、情報処理方法、及び、プログラム 図4
  • 特許-情報処理装置、情報処理方法、及び、プログラム 図5
  • 特許-情報処理装置、情報処理方法、及び、プログラム 図6
  • 特許-情報処理装置、情報処理方法、及び、プログラム 図7
  • 特許-情報処理装置、情報処理方法、及び、プログラム 図8
  • 特許-情報処理装置、情報処理方法、及び、プログラム 図9
  • 特許-情報処理装置、情報処理方法、及び、プログラム 図10
  • 特許-情報処理装置、情報処理方法、及び、プログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-16
(45)【発行日】2024-07-24
(54)【発明の名称】情報処理装置、情報処理方法、及び、プログラム
(51)【国際特許分類】
   G06F 40/258 20200101AFI20240717BHJP
【FI】
G06F40/258
【請求項の数】 9
(21)【出願番号】P 2022534490
(86)(22)【出願日】2020-07-06
(86)【国際出願番号】 JP2020026344
(87)【国際公開番号】W WO2022009253
(87)【国際公開日】2022-01-13
【審査請求日】2022-12-20
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100107331
【弁理士】
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100104765
【弁理士】
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【弁理士】
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】星野 綾子
【審査官】長 由紀子
(56)【参考文献】
【文献】特開2018-156473(JP,A)
【文献】特開平06-012447(JP,A)
【文献】特開2019-057023(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-58
G06F 16/00-958
(57)【特許請求の範囲】
【請求項1】
見出しとテキストを含む構造化文書を取得する取得手段と、
前記見出しを教師ラベルとし、前記構造化文書において前記見出しの下位に存在する下位要素を入力データとする教師データを生成する教師データ生成手段と、
前記教師データを用いて、前記下位要素から見出しを生成する生成モデルを訓練する訓練手段と、
対象文書に含まれる見出しから、予め決められた条件を具備する不適切見出しを検出し、前記不適切見出しについて、前記訓練済みの生成モデルを用いて新たな見出しを生成する見出し生成手段と、
を備える情報処理装置。
【請求項2】
前記生成モデルはニューラルネットワークを用いたモデルであり、
前記教師データをベクトル化するベクトル化手段を備え、
前記訓練手段は、ベクトル化された教師データを用いて前記見出し生成モデルを訓練する請求項1に記載の情報処理装置。
【請求項3】
前記下位要素は、前記構造化文書において前記見出しの下位に存在する下位見出し、及び、前記見出しの下位に存在するテキストを含む請求項1又は2に記載の情報処理装置。
【請求項4】
前記対象文書における前記不適切見出しを、前記新たな見出しで置き換えて修正済文書を生成する文書修正手段を備える請求項に記載の情報処理装置。
【請求項5】
前記対象文書における前記不適切見出しに、前記新たな見出しの少なくとも一部を付加して修正済文書を生成する文書修正手段を備える請求項に記載の情報処理装置。
【請求項6】
前記不適切見出しは、前記対象文書において並列関係にある他の見出しと同一の文字列の見出しである請求項乃至のいずれか一項に記載の情報処理装置。
【請求項7】
前記不適切見出しは、数字又は記号により構成され、意味又は内容を持たない見出しである請求項乃至のいずれか一項に記載の情報処理装置。
【請求項8】
見出しとテキストを含む構造化文書を取得し、
前記見出しを教師ラベルとし、前記構造化文書において前記見出しの下位に存在する下位要素を入力データとする教師データを生成し、
前記教師データを用いて、前記下位要素から見出しを生成する生成モデルを訓練し、
対象文書に含まれる見出しから、予め決められた条件を具備する不適切見出しを検出し、前記不適切見出しについて、前記訓練済みの生成モデルを用いて新たな見出しを生成する情報処理方法。
【請求項9】
見出しとテキストを含む構造化文書を取得し、
前記見出しを教師ラベルとし、前記構造化文書において前記見出しの下位に存在する下位要素を入力データとする教師データを生成し、
前記教師データを用いて、前記下位要素から見出しを生成する生成モデルを訓練し、
対象文書に含まれる見出しから、予め決められた条件を具備する不適切見出しを検出し、前記不適切見出しについて、前記訓練済みの生成モデルを用いて新たな見出しを生成する処理をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、構造化文書に見出しを付与する技術に関する。
【背景技術】
【0002】
Webサイトにおいては、検索エンジンなどのユーザのキーワードなどの入力に対して検索結果を出力するシステムや、いわゆるチャットボット(Chatbot)などのユーザの問い合わせ文(クエリ)に対して回答を行うシステムが知られている。このようなシステムは、入力されたキーワードやクエリに関連するWeb上の構造化文書を参照して、検索結果や回答を生成する。特許文献1は、文書を用途別に構造化する手法を記載している。また、特許文献2は、機械学習を用いて、構造化文書に含まれる見出しとテキストとの含意関係を判定する手法を記載している。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2009-294950号公報
【文献】特開2013-50853号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ユーザの入力に対して、適切な検索結果や回答を生成するためには、構造化文書に適切な見出しが付与されていることが求められる。しかし、例えばHTMLなどの構造化文書からタグ情報を参照して見出しを付与した場合、見出しが単なる順序を示す数字や記号となったり、他の見出しと同一内容となったりして、見出しの情報が不十分となることがある。
【0005】
本発明の1つの目的は、構造化文書における下位の見出しやテキストに基づいて、適切な見出しを生成することが可能な情報処理装置を提供することにある。
【課題を解決するための手段】
【0006】
本発明の一つの観点では、情報処理装置は、
見出しとテキストを含む構造化文書を取得する取得手段と、
前記見出しを教師ラベルとし、前記構造化文書において前記見出しの下位に存在する下位要素を入力データとする教師データを生成する教師データ生成手段と、
前記教師データを用いて、前記下位要素から見出しを生成する生成モデルを訓練する訓練手段と、
対象文書に含まれる見出しから、予め決められた条件を具備する不適切見出しを検出し、前記不適切見出しについて、前記訓練済みの生成モデルを用いて新たな見出しを生成する見出し生成手段と、
を備える。
【0007】
本発明の他の観点では、情報処理方法は、
見出しとテキストを含む構造化文書を取得し、
前記見出しを教師ラベルとし、前記構造化文書において前記見出しの下位に存在する下位要素を入力データとする教師データを生成し、
前記教師データを用いて、前記下位要素から見出しを生成する生成モデルを訓練し、
対象文書に含まれる見出しから、予め決められた条件を具備する不適切見出しを検出し、前記不適切見出しについて、前記訓練済みの生成モデルを用いて新たな見出しを生成する
【0008】
本発明のさらに他の観点では、プログラムは、
見出しとテキストを含む構造化文書を取得し、
前記見出しを教師ラベルとし、前記構造化文書において前記見出しの下位に存在する下位要素を入力データとする教師データを生成し、
前記教師データを用いて、前記下位要素から見出しを生成する生成モデルを訓練し、
対象文書に含まれる見出しから、予め決められた条件を具備する不適切見出しを検出し、前記不適切見出しについて、前記訓練済みの生成モデルを用いて新たな見出しを生成する処理をコンピュータに実行させる。
【発明の効果】
【0009】
本発明によれば、構造化文書における下位の見出しやテキストに基づいて、適切な見出しを生成することが可能となる。
【図面の簡単な説明】
【0010】
図1】第1実施形態に係る見出し生成装置の全体構成を示す。
図2】構造化文書の階層構造の例を示す。
図3】構造化文書の他の例を示す。
図4図3に示す構造化文書において1つの見出しが不適切な場合の例を示す。
図5】見出し生成装置のハードウェア構成を示すブロック図である。
図6】見出し生成装置の訓練時の機能構成を示すブロック図である。
図7】見出し生成装置による訓練処理のフローチャートである。
図8】見出し生成装置の見出し生成時の機能構成を示すブロック図である。
図9】見出し生成装置による見出し生成処理のフローチャートである。
図10】第2実施形態に係る情報処理装置の機能構成を示すブロック図である。
図11】第2実施形態における見出し生成処理のフローチャートである。
【発明を実施するための形態】
【0011】
以下、図面を参照して、本発明の好適な実施形態について説明する。
<第1実施形態>
[全体構成]
図1は、第1実施形態に係る見出し生成装置の全体構成を示す。見出し生成装置100は、入力された文書に対して、適切な見出しを付与した見出し補完済文書を出力する。なお、入力される文書が既に構造化されている場合、見出し生成装置100は、その構造化文書に含まれる見出しの適否を判定し、不適切と判定された見出しを修正した見出し補完済文書を出力する。一方、入力される文書が構造化されていない場合、見出し生成装置100は、まず、入力される文書を構造化した後、不適切な見出しを修正して見出し補完済文書を出力する。
【0012】
[構造化文書]
構造化文書とは、文書の構造をマークアップした文書であり、典型例としてXML(eXtensible Markup Language)やHTML(Hyper Text Markup Language)などが挙げられる。XMLやHTMLの文書では、タグと呼ばれる文字列を用いて文書の構造が表現される。
【0013】
図2は、ある構造化文書の階層構造の例を示す。この文書は、用語「休暇」の説明文書であり、見出し2、2a、2bと、テキスト3a、3cとを含む。見出し2は最上位(第1階層)の見出しであり、見出し2a、2bはその下位(第2階層)の見出しである。テキスト3a、3bは、それぞれ見出し2a、2bに対応するテキストである。この構造化文書では、見出し2aと2bはともに「年次休暇」であり、同一文字列となっているため、この構造化文書を検索や閲覧に使用した場合、「年次休暇」に関するユーザの入力に対して正しい検索結果や回答を出力できない可能性がある。このように、ある見出しの文字列が、それと並列関係にある他の見出しと同一である場合には、それらを区別できないため、見出しが不適切と言える。また、見出しの文字列が同一でなくても、見出しの文字列が類似する場合や含意関係にある場合も、見出しが不適切と考えられる。
【0014】
また、見出しの文字列が十分な意味内容を持たない場合も、見出しは不適切となる。例えば、見出しの文字列が「1.」、「2.」、「(a)」、「(b)」など、数字や記号のみである場合や、「第1章」、「第2章」など単にセクションの順序を示す場合など、各見出しが特定の意味内容を持たない場合も、見出しが不適切と考えられる。
【0015】
このように、構造化文書の見出しが不適切である場合、ユーザの検索や閲覧に対する出力が不適切となる可能性がある。そこで、見出し生成装置100は、構造化文章中の不適切な見出しを検出し、適切な見出しに修正する。
【0016】
[見出しの生成方法]
図3は、構造化文書の他の例を示す。この例も用語「休暇」に関する構造化文書であり、複数の見出し2とテキスト3の階層構造により構成されている。なお、図3では、便宜上、一部の見出し及びテキストの図示を省略している。
【0017】
図4は、図3に示す構造化文書において、1つの見出しが不適切な場合を示す。図4に示すように、ある見出しXが不適切である場合、見出し生成装置100は、不適切な見出し(以下、「不適切見出し」とも呼ぶ。)Xの代わりに、新たな見出しを生成する。具体的に、見出し生成装置100は、不適切見出しXの下位要素4に基づいて、不適切見出しXに代わる新たな見出しを生成する。ここで、下位要素4は、不適切見出しXの下位の階層に存在する見出し(下位見出し)2及びテキスト3の少なくとも一方を含む。
【0018】
詳細には、見出し生成装置100は、構造化文書における見出しと、その見出しの下位要素とを用いた教師あり学習により見出し生成モデルを訓練し、訓練済みの見出し生成モデルを用いて新たな見出しを生成する。具体的に、学習時には、見出し生成装置100は、学習に使用する構造化文書における各見出しを教師ラベル(正解ラベル)とし、その見出しの下位要素を訓練用の入力データ(以下、「訓練用入力データ」とも呼ぶ。)とする教師データを生成する。具体的に、図3に示す構造化文書の例では、見出し生成装置100は、見出し「休暇」を教師ラベルとし、その下位要素を訓練用入力データとする教師データを生成する。また、見出し生成装置100は、図3の構造化文書に含まれる他の見出しのそれぞれについて、その見出しを教師ラベルとし、その見出しの下位要素を訓練用入力データとする教師データを生成する。こうして、見出し生成装置100は、構造化文書に含まれる各見出しについて、教師ラベルと訓練用入力データとのセットを生成する。
【0019】
この際、見出し生成装置100は、各見出しの下位要素に含まれる複数の見出し2及びテキスト3の全部又は一部を訓練用入力データとして使用して、複数の教師データを生成する。例えば、図3における見出し「年次休暇」については、その下位要素全てを1つの訓練用の入力データとすることができ、その一部(例えば見出し「年次休暇に関する詳細」の下位要素のみ)も1つの訓練用の入力データとして使用することができる。
【0020】
こうして、見出し生成装置100は、下位要素が入力されたときに、それに対応する上位見出しを生成するように見出し生成モデルを訓練する。そして、見出し生成モデルの訓練が完了すると、見出し生成装置100は、訓練済みの見出し生成モデルを用いて、構造化文書における不適切見出しに代わる新たな見出しを生成する。これにより、見出し生成装置100は、構造化文書における不適切見出しを修正し、見出し補完済文書を出力することができる。
【0021】
[ハードウェア構成]
図5は、見出し生成装置100のハードウェア構成を示すブロック図である。図示のように、見出し生成装置100は、インタフェース(IF)11と、プロセッサ12と、メモリ13と、記録媒体14と、データベース(DB)15とを備える。
【0022】
IF11は、外部装置との間でデータの入出力を行う。具体的に、見出し生成モデルの訓練に使用する文書や、見出し生成処理の対象となる文書は、IF11を通じて入力される。また、見出し生成装置100により、不適切見出しが修正された見出し補完済文書はIF11を通じて外部装置へ出力される。
【0023】
プロセッサ12は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、見出し生成装置100の全体を制御する。具体的に、プロセッサ12は、後述する訓練処理及び見出し生成処理を実行する。
【0024】
メモリ13は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ13は、プロセッサ12による各種の処理の実行中に作業メモリとしても使用される。
【0025】
記録媒体14は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、見出し生成装置100に対して着脱可能に構成される。記録媒体14は、プロセッサ12が実行する各種のプログラムを記録している。見出し生成装置100が各種の処理を実行する際には、記録媒体14に記録されているプログラムがメモリ13にロードされ、プロセッサ12により実行される。
【0026】
データベース15は、IF11を通じて入力された文書、見出し生成モデルの訓練処理において使用される教師データなどを一時的に記憶する。なお、見出し生成装置100は、ユーザが指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。
【0027】
[訓練時の構成]
図6は、見出し生成装置の訓練時の機能構成を示すブロック図である。訓練時の見出し生成装置100aは、見出し生成モデルMの訓練を行い、訓練済みの見出し生成モデルMを出力する。見出し生成装置100aは、文書入力部21と、構造化部22と、教師データ生成部23と、ベクトル化部24と、モデル訓練部25とを備える。
【0028】
文書入力部21には、見出し生成モデルMの訓練に使用される文書(以下、「訓練用文書」とも呼ぶ。)が入力される。訓練用文書は、見出し生成モデルMの訓練に使用する教師データを生成するために使用される。文書入力部21に入力される訓練用文書が構造化文書である場合、即ち、既に構造化がなされた文書である場合、文書入力部21は、その文書を教師データ生成部23へ出力する。一方、訓練用文書が構造化されていない文書(非構造化文書)である場合、文書入力部21は、入力された文書を構造化部22へ出力し、構造化された対象文書を構造化部22から受け取る。そして、文書入力部21は、構造化された対象文書を教師データ生成部23へ出力する。
【0029】
構造化部22は、入力された非構造化文書を構造化し、構造化文書として文書入力部21へ出力する。構造化部22は、例えば、入力された非構造化文書において見出しに相当する文字列を抽出してタグ付けする処理などを行い、構造化文書を生成して文書入力部21に出力する。
【0030】
教師データ生成部23は、構造化文書を用いて、見出し生成モデルMを訓練するための教師データを生成する。具体的に、教師データ生成部23は、入力された構造化文書における1つの見出しを選択し、その見出しの下位要素を特定する。図3の例において、例えば見出し「年次休暇」についての教師データを生成する場合、教師データ生成部23は、見出し「年次休暇」を教師ラベルとし、見出し「年次休暇」の下位要素、即ち、見出し「年次休暇」より下位の階層に存在する見出し及びテキストを訓練用入力データとする。そして、教師データ生成部23は、教師ラベルと訓練用入力データのペアを教師データとして生成する。こうして、教師データ生成部23は、構造化文書に含まれる各見出しについて教師データを生成する。教師データ生成部23は、生成した教師データをベクトル化部24へ出力する。
【0031】
なお、教師データ生成部23は、対象とする見出しの下位に存在する複数の見出し及びテキストの任意の組み合わせを、それぞれ訓練用入力データとすることができる。即ち、ある見出しについての教師データを生成する場合、教師データ生成部23は、その見出しの下位に存在する全ての下位要素を訓練用入力データとするのに加え、それらの任意の一部を除外した下位要素を訓練用入力データとしてもよい。即ち、教師データ生成部23は、ある見出しについて、その見出しの下位ノード(1階層下のノード)のみを訓練用入力データとしてもよいし、その見出しの下位ノード群(下位の一部の階層又は全階層のノード)を訓練用入力データとしてもよい。これにより、訓練に使用する教師データの数を増やすことができる。
【0032】
なお、教師データ生成部23は、構造化文書に含まれる見出しのうち、例えば「1.」、「2.」、「(a)」、「(b)」など、数字や記号のみの文字列である見出しや、「第1章」、「第2章」など単にセクションの順序を示す見出しなど、特定の意味内容を持たない見出しは教師データから除外することが望ましい。これにより、見出し生成モデルMは、下位要素に基づいて適切な上位見出しを生成できるように訓練される。
【0033】
ベクトル化部24は、入力された教師データ、即ち、教師ラベル及び訓練用入力データをベクトル化する。前述のように、教師ラベルは見出しであり、訓練用入力データは教師ラベルに対応する見出しの下位要素である。ベクトル化部24は、教師ラベルである見出し、及び、その下位要素を構成する下位見出しやテキストを、単語分散表現又は単語埋め込みを用いて所定次元のベクトルで表現する。単語分散表現又は単語埋め込みの例としては、例えば、Word2vec、Doc2vec、BERT(Bidirectional Endocer Representation from Transformers)、fastTextなどを用いることができる。なお、上記のような事前学習(pre-trained)モデルを用いた手法の代わりに、Bag of Wordsなどの単純なモデルを用いて各文書をベクトル化してもよい。そして、ベクトル化部24は、見出しやテキストから得られたベクトルを連結する、線形和を算出する、又は、再帰型ニューラルネットワーク(Neural Network)を用いて合成するなどの方法で、モデル訓練部25で使用する固定長のベクトルを生成する。ベクトル化部24は、ベクトル化した教師データをモデル訓練部25へ出力する。
【0034】
モデル訓練部25は、ベクトル化された教師データを取得し、見出し生成モデルMの訓練を行う。モデル訓練部25は、例えばニューラルネットワークなどにより構成され、深層学習により見出し生成モデルMを訓練する。具体的には、モデル訓練部25は、ベクトル化された訓練用入力データを見出し生成モデルMに入力し、その出力と、ベクトル化された教師ラベルとの損失に基づいて、見出し生成モデルMを構成するニューラルネットワークのパラメータを更新する。そして、モデル訓練部25は、見出し生成モデルMの出力と教師ラベルとの損失が所定範囲に収束した時点で訓練を終了し、そのときの見出し生成モデルMを訓練済みの見出し生成モデルMとする。
【0035】
このように、訓練用の構造化文書から教師データを生成し、見出し生成モデルMを訓練することにより、下位要素に基づいて適切な上位見出しを生成することが可能な見出し生成モデルMを得ることができる。
【0036】
上記の構成において、文書入力部21は取得手段の一例であり、構造化部22は構造化手段の一例であり、教師データ生成部23は教師データ生成手段の一例であり、ベクトル化部24はベクトル化手段の一例であり、モデル訓練部25は訓練手段の一例である。
【0037】
[訓練処理]
図7は、訓練時の見出し生成装置100aによる訓練処理のフローチャートである。この処理は、図5に示すプロセッサ12が予め用意されたプログラムを実行し、図6に示す各要素として動作することにより実現される。
【0038】
まず、文書入力部21は訓練用文書を取得し(ステップS11)、訓練用文書が構造化されているか否かを判定する(ステップS12)。入力された訓練用文書が構造化されている場合(ステップS12:Yes)、文書入力部21は訓練用文書を教師データ生成部23へ出力する。一方、入力された訓練用文書が構造化されていない場合(ステップS12:No)、文書入力部21は訓練用文書を構造化部22へ出力し、構造化部22は訓練用文書を構造化する(ステップS13)。そして、構造化部22は、構造化した訓練用文書を文書入力部21へ出力し、文書入力部21は構造化された訓練用文書を教師データ生成部23へ出力する。
【0039】
教師データ生成部23は、入力された訓練用文書から、見出しとその見出しの下位要素とのペアを生成し、教師データとする(ステップS14)。これにより、構造化された訓練用文書に含まれる各見出しとその下位要素とのペアである教師データが生成される。次に、ベクトル化部24は、教師データを構成する教師ラベルと訓練用入力データ、即ち、見出しとその見出しの下位要素をそれぞれベクトル化し、モデル訓練部25へ出力する(ステップS15)。
【0040】
モデル訓練部25は、ベクトル化された教師データを用いて、見出し生成モデルMを訓練し、所定の収束条件を具備した時点の見出し生成モデルMを訓練済みモデルMとして出力する(ステップS16)。こうして、訓練処理は終了する。
【0041】
[見出し生成時の構成]
次に、見出し生成装置の見出し生成時の構成について説明する。図8は、訓練済みの見出し生成モデルMを用いて見出しを生成するときの見出し生成装置100bの機能構成を示す。見出し生成時の見出し生成装置100bは、文書入力部21と、構造化部22と、不適切見出し検出部26と、見出し生成部27と、文書出力部28とを備える。文書入力部21及び構造化部22は、基本的に訓練時の見出し生成装置100aと同様である。
【0042】
見出し生成時には、見出し生成の対象となる文書(以下、「対象文書」と呼ぶ。)が文書入力部21に入力される。文書入力部21は、対象文書が構造化文書である場合、それを不適切見出し検出部26へ出力する。一方、対象文書が構造化されていない文書である場合、文書入力部21は対象文書を構造化部22へ出力する。構造化部22は、入力された対象文書を構造化して文書入力部21へ入力し、文書入力部21は構造化された対象文書を不適切見出し検出部26へ出力する。
【0043】
不適切見出し検出部26は、入力された対象文書において、見出しの生成が必要な箇所を特定する。具体的には、見出し生成部27は、対象文書に含まれる見出しのうち、前述の不適切見出しに該当する見出しを抽出する。そして、不適切見出し検出部26は、不適切見出しの下位要素を見出し生成部27へ出力する。また、不適切見出し検出部26は、対象文書における不適切見出しの位置を示す情報を文書出力部28へ出力する。
【0044】
見出し生成部27は、不適切見出しの下位要素を訓練済みの見出し生成モデルMに入力し、見出しを生成する。図4の例では、見出し生成部27は、破線で示す不適切見出しXの下位要素4を入力データとして見出し生成モデルMに入力する。このとき、見出し生成部27は、訓練時におけるベクトル化部24と同様の手法で不適切見出しXの下位要素4をベクトル化し、見出し生成モデルMに入力する。見出し生成モデルMは、入力データに基づいて見出しを生成し、文書出力部28へ出力する。
【0045】
文書出力部28は、不適切見出し検出部26から不適切見出しの位置を示す情報を取得するとともに、見出し生成部27が生成した新たな見出しを取得する。そして、文書出力部28は、新たな見出しを用いて対象文書における不適切見出しを修正し、見出し補完済文書として出力する。不適切見出しを修正する第1の方法としては、文書出力部28は、不適切見出しを新たな見出しで置き換える。即ち、不適切見出しの代わりに、新たな見出しを用いる。
【0046】
不適切見出しを修正する第2の方法としては、文書出力部28は、不適切見出しに新たな見出しを付記する。例えば、図2の例では、見出し2aと2bがともに「年次休暇」であり、同一の見出しであるため不適切となっている。ここで、仮に見出し2aについて新たな見出し「年次休暇取得条件」が生成され、見出し2bについて新たな見出し「年次休暇届け出方法」が生成されたとすると、文書出力部28は、見出し2aを「年次休暇(取得条件)」と修正し、見出し2bを「年次休暇(届け出方法)」などと修正する。このように、文書出力部28は、新たな見出しを付記することにより、不適切見出しを修正してもよい。
【0047】
こうして、見出し生成装置100bは、対象文書に含まれる不適切見出しを修正し、見出し補完済文書として出力することができる。また、見出し生成装置100bによれば、対象文書が構造化されていない場合でも、対象文書を構造化部22により構造化した後、適切な見出しを付与することができる。
【0048】
上記の構成において、不適切見出し検出部26及び見出し生成部27は見出し生成手段の一例であり、文書出力部28は文書修正手段の一例である。
【0049】
[見出し生成処理]
図9は、見出し生成装置100bによる見出し生成処理のフローチャートである。この処理は、図5に示すプロセッサ12が予め用意されたプログラムを実行し、図8に示す各要素として動作することにより実現される。
【0050】
まず、文書入力部21は対象文書を取得し(ステップS21)、対象文書が構造化されているか否かを判定する(ステップS22)。入力された対象文書が構造化されている場合(ステップS22:Yes)、文書入力部21は対象文書を不適切見出し検出部26へ出力する。一方、入力された対象文書が構造化されていない場合(ステップS22:No)、文書入力部21は対象文書を構造化部22へ出力し、構造化部22は対象文書を構造化する(ステップS23)。そして、構造化部22は、構造化した対象文書を文書入力部21へ出力し、文書入力部21は構造化された対象文書を不適切見出し検出部26へ出力する。
【0051】
不適切見出し検出部26は、入力された対象文書に不適切見出しが含まれるか否かを判定する(ステップS24)。対象文書に不適切見出しが含まれない場合(ステップS24:No)、処理は終了する。一方、対象文書に不適切見出しが含まれる場合(ステップS24:Yes)、見出し生成部27は、不適切見出しの下位要素をベクトル化し、訓練済みの見出し生成モデルMに入力して新たな見出しを生成する(ステップS25)。次に、文書出力部28は、新たな見出しを用いて、対象文書における不適切見出しを修正し、見出し補完済文書を出力する(ステップS26)。そして、見出し生成処理は終了する。
【0052】
[変形例]
図9に示す見出し生成処理では、見出し生成装置100bは、ステップS25で生成した新たな見出しを使用して不適切見出しを修正しているが、不適切見出しの修正に使用する前に、新たな見出しの適否、即ち、新たな見出しが対象文書に含まれる他の見出しと差別化されているか否かを判定することとしてもよい。例えば、文書出力部28は、見出し生成部27が生成した新たな見出しが、対象文書において並列関係にある他の見出しと同一、類似、又は、含意関係にある場合、その見出しを不採用とし、見出し生成部27により別の見出しを生成することとしてもよい。この場合、文書出力部28は、見出しの文字列を比較して新たな見出しの適否を判定してもよく、単語分散表現により得た見出しのベクトル間の類似度や距離などに基づいて新たな見出しの適否を判定してもよい。
【0053】
<第2実施形態>
次に、本発明の第2実施形態について説明する。図10は、第2実施形態に係る情報処理装置の機能構成を示すブロック図である。情報処理装置70は、取得手段71と、教師データ生成手段72と、訓練手段73と、見出し生成手段74とを備える。取得手段71は、見出しとテキストを含む構造化文書を取得する。教師データ生成手段72は、見出しを教師ラベルとし、当該見出しの下位要素を入力データとする教師データを生成する。訓練手段73は、教師データを用いて、下位要素から見出しを生成する生成モデルを訓練する。見出し生成手段74は、訓練済みの生成モデルを用いて、対象文書に含まれる見出しを生成する。
【0054】
図11は、第2実施形態における見出し生成処理のフローチャートである。まず、取得手段71は、見出しとテキストを含む構造化文書を取得する(ステップS31)。次に、教師データ生成手段72は、見出しを教師ラベルとし、当該見出しの下位要素を入力データとする教師データを生成する(ステップS32)。次に、訓練手段73は、教師データを用いて、下位要素から見出しを生成する生成モデルを訓練する(ステップS33)。そして、見出し生成手段74は、訓練済みの生成モデルを用いて、対象文書に含まれる見出しを生成する(ステップS34)。
【0055】
第2実施形態の情報処理装置70によれば、構造化文書から教師データを生成し、下位要素から適切な見出しを生成する生成モデルを訓練する。よって、情報処理装置70は、訓練済みの生成モデルを用いて、対象文書について適切な見出しを生成することができる。
【0056】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0057】
(付記1)
見出しとテキストを含む構造化文書を取得する取得手段と、
前記見出しを教師ラベルとし、当該見出しの下位要素を入力データとする教師データを生成する教師データ生成手段と、
前記教師データを用いて、前記下位要素から見出しを生成する生成モデルを訓練する訓練手段と、
訓練済みの生成モデルを用いて、対象文書に含まれる見出しを生成する見出し生成手段と、
を備える情報処理装置。
【0058】
(付記2)
前記生成モデルはニューラルネットワークを用いたモデルであり、
前記教師データをベクトル化するベクトル化手段を備え、
前記訓練手段は、ベクトル化された教師データを用いて前記見出し生成モデルを訓練する付記1に記載の情報処理装置。
【0059】
(付記3)
前記下位要素は、前記構造化文書において前記見出しの下位に存在する下位見出し、及び、前記見出しの下位に存在するテキストを含む付記1又は2に記載の情報処理装置。
【0060】
(付記4)
前記見出し生成手段は、前記対象文書に含まれる見出しから不適切見出しを検出し、前記不適切見出しについて、前記訓練済みの生成モデルを用いて新たな見出しを生成する付記1乃至3のいずれか一項に記載の情報処理装置。
【0061】
(付記5)
前記対象文書における前記不適切見出しを、前記新たな見出しで置き換えて修正済文書を生成する文書修正手段を備える付記4に記載の情報処理装置。
【0062】
(付記6)
前記対象文書における前記不適切見出しに、前記新たな見出しの少なくとも一部を付加して修正済文書を生成する文書修正手段を備える付記4に記載の情報処理装置。
【0063】
(付記7)
前記不適切見出しは、前記対象文書において並列関係にある他の見出しと同一の文字列の見出しである付記4乃至6のいずれか一項に記載の情報処理装置。
【0064】
(付記8)
前記不適切見出しは、数字又は記号により構成され、意味又は内容を持たない見出しである付記4乃至6のいずれか一項に記載の情報処理装置。
【0065】
(付記9)
入力された文書を前記構造化文書に変換する構造化手段を備える付記1乃至8のいずれか一項に記載の情報処理装置。
【0066】
(付記10)
見出しとテキストを含む構造化文書を取得し、
前記見出しを教師ラベルとし、当該見出しの下位要素を入力データとする教師データを生成し、
前記教師データを用いて、前記下位要素から見出しを生成する生成モデルを訓練し、
訓練済みの生成モデルを用いて、対象文書に含まれる見出しを生成する情報処理方法。
【0067】
(付記11)
見出しとテキストを含む構造化文書を取得し、
前記見出しを教師ラベルとし、当該見出しの下位要素を入力データとする教師データを生成し、
前記教師データを用いて、前記下位要素から見出しを生成する生成モデルを訓練し、
訓練済みの生成モデルを用いて、対象文書に含まれる見出しを生成する処理をコンピュータに実行させるプログラムを記録した記録媒体。
【0068】
以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0069】
2 見出し
3 テキスト
12 プロセッサ
21 文書入力部
22 構造化部
23 教師データ生成部
24 ベクトル化部
25 モデル訓練部
26 不適切見出し検出部
27 見出し生成部
28 文書出力部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11