特許7521581 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7521581情報処理装置、情報処理方法、及び、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-07-16

(45)【発行日】2024-07-24

(54)【発明の名称】情報処理装置、情報処理方法、及び、プログラム

(51)【国際特許分類】

G06F 40/258 20200101AFI20240717BHJP

【ＦＩ】

G06F40/258

【請求項の数】 9

(21)【出願番号】P 2022534490

(86)(22)【出願日】2020-07-06

(86)【国際出願番号】 JP2020026344

(87)【国際公開番号】W WO2022009253

(87)【国際公開日】2022-01-13

【審査請求日】2022-12-20

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100107331

【弁理士】

【氏名又は名称】中村聡延

(74)【代理人】

【識別番号】100104765

【弁理士】

【氏名又は名称】江上達夫

(74)【代理人】

【識別番号】100131015

【弁理士】

【氏名又は名称】三輪浩誉

(72)【発明者】

【氏名】星野綾子

【審査官】長由紀子

(56)【参考文献】

【文献】特開２０１８－１５６４７３（ＪＰ，Ａ）

【文献】特開平０６－０１２４４７（ＪＰ，Ａ）

【文献】特開２０１９－０５７０２３（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ４０／００－５８

Ｇ０６Ｆ１６／００－９５８

(57)【特許請求の範囲】

【請求項1】

見出しとテキストを含む構造化文書を取得する取得手段と、
前記見出しを教師ラベルとし、前記構造化文書において前記見出しの下位に存在する下位要素を入力データとする教師データを生成する教師データ生成手段と、
前記教師データを用いて、前記下位要素から見出しを生成する生成モデルを訓練する訓練手段と、
対象文書に含まれる見出しから、予め決められた条件を具備する不適切見出しを検出し、前記不適切見出しについて、前記訓練済みの生成モデルを用いて新たな見出しを生成する見出し生成手段と、
を備える情報処理装置。

【請求項2】

前記生成モデルはニューラルネットワークを用いたモデルであり、
前記教師データをベクトル化するベクトル化手段を備え、
前記訓練手段は、ベクトル化された教師データを用いて前記見出し生成モデルを訓練する請求項１に記載の情報処理装置。

【請求項3】

前記下位要素は、前記構造化文書において前記見出しの下位に存在する下位見出し、及び、前記見出しの下位に存在するテキストを含む請求項１又は２に記載の情報処理装置。

【請求項4】

前記対象文書における前記不適切見出しを、前記新たな見出しで置き換えて修正済文書を生成する文書修正手段を備える請求項１に記載の情報処理装置。

【請求項5】

前記対象文書における前記不適切見出しに、前記新たな見出しの少なくとも一部を付加して修正済文書を生成する文書修正手段を備える請求項１に記載の情報処理装置。

【請求項6】

前記不適切見出しは、前記対象文書において並列関係にある他の見出しと同一の文字列の見出しである請求項１乃至５のいずれか一項に記載の情報処理装置。

【請求項7】

前記不適切見出しは、数字又は記号により構成され、意味又は内容を持たない見出しである請求項１乃至５のいずれか一項に記載の情報処理装置。

【請求項8】

見出しとテキストを含む構造化文書を取得し、
前記見出しを教師ラベルとし、前記構造化文書において前記見出しの下位に存在する下位要素を入力データとする教師データを生成し、
前記教師データを用いて、前記下位要素から見出しを生成する生成モデルを訓練し、
対象文書に含まれる見出しから、予め決められた条件を具備する不適切見出しを検出し、前記不適切見出しについて、前記訓練済みの生成モデルを用いて新たな見出しを生成する情報処理方法。

【請求項9】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、構造化文書に見出しを付与する技術に関する。

【背景技術】

【0002】

Ｗｅｂサイトにおいては、検索エンジンなどのユーザのキーワードなどの入力に対して検索結果を出力するシステムや、いわゆるチャットボット（Ｃｈａｔｂｏｔ）などのユーザの問い合わせ文（クエリ）に対して回答を行うシステムが知られている。このようなシステムは、入力されたキーワードやクエリに関連するＷｅｂ上の構造化文書を参照して、検索結果や回答を生成する。特許文献１は、文書を用途別に構造化する手法を記載している。また、特許文献２は、機械学習を用いて、構造化文書に含まれる見出しとテキストとの含意関係を判定する手法を記載している。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２００９－２９４９５０号公報

【文献】特開２０１３－５０８５３号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ユーザの入力に対して、適切な検索結果や回答を生成するためには、構造化文書に適切な見出しが付与されていることが求められる。しかし、例えばＨＴＭＬなどの構造化文書からタグ情報を参照して見出しを付与した場合、見出しが単なる順序を示す数字や記号となったり、他の見出しと同一内容となったりして、見出しの情報が不十分となることがある。

【0005】

本発明の１つの目的は、構造化文書における下位の見出しやテキストに基づいて、適切な見出しを生成することが可能な情報処理装置を提供することにある。

【課題を解決するための手段】

【0006】

本発明の一つの観点では、情報処理装置は、
見出しとテキストを含む構造化文書を取得する取得手段と、
前記見出しを教師ラベルとし、前記構造化文書において前記見出しの下位に存在する下位要素を入力データとする教師データを生成する教師データ生成手段と、
前記教師データを用いて、前記下位要素から見出しを生成する生成モデルを訓練する訓練手段と、
対象文書に含まれる見出しから、予め決められた条件を具備する不適切見出しを検出し、前記不適切見出しについて、前記訓練済みの生成モデルを用いて新たな見出しを生成する見出し生成手段と、
を備える。

【0007】

本発明の他の観点では、情報処理方法は、
見出しとテキストを含む構造化文書を取得し、
前記見出しを教師ラベルとし、前記構造化文書において前記見出しの下位に存在する下位要素を入力データとする教師データを生成し、
前記教師データを用いて、前記下位要素から見出しを生成する生成モデルを訓練し、
対象文書に含まれる見出しから、予め決められた条件を具備する不適切見出しを検出し、前記不適切見出しについて、前記訓練済みの生成モデルを用いて新たな見出しを生成する。

【0008】

本発明のさらに他の観点では、プログラムは、
見出しとテキストを含む構造化文書を取得し、
前記見出しを教師ラベルとし、前記構造化文書において前記見出しの下位に存在する下位要素を入力データとする教師データを生成し、
前記教師データを用いて、前記下位要素から見出しを生成する生成モデルを訓練し、
対象文書に含まれる見出しから、予め決められた条件を具備する不適切見出しを検出し、前記不適切見出しについて、前記訓練済みの生成モデルを用いて新たな見出しを生成する処理をコンピュータに実行させる。

【発明の効果】

【0009】

本発明によれば、構造化文書における下位の見出しやテキストに基づいて、適切な見出しを生成することが可能となる。

【図面の簡単な説明】

【0010】

【図1】第１実施形態に係る見出し生成装置の全体構成を示す。

【図2】構造化文書の階層構造の例を示す。

【図3】構造化文書の他の例を示す。

【図4】図３に示す構造化文書において１つの見出しが不適切な場合の例を示す。

【図5】見出し生成装置のハードウェア構成を示すブロック図である。

【図6】見出し生成装置の訓練時の機能構成を示すブロック図である。

【図7】見出し生成装置による訓練処理のフローチャートである。

【図8】見出し生成装置の見出し生成時の機能構成を示すブロック図である。

【図9】見出し生成装置による見出し生成処理のフローチャートである。

【図10】第２実施形態に係る情報処理装置の機能構成を示すブロック図である。

【図11】第２実施形態における見出し生成処理のフローチャートである。

【発明を実施するための形態】

【0011】

以下、図面を参照して、本発明の好適な実施形態について説明する。
＜第１実施形態＞
［全体構成］
図１は、第１実施形態に係る見出し生成装置の全体構成を示す。見出し生成装置１００は、入力された文書に対して、適切な見出しを付与した見出し補完済文書を出力する。なお、入力される文書が既に構造化されている場合、見出し生成装置１００は、その構造化文書に含まれる見出しの適否を判定し、不適切と判定された見出しを修正した見出し補完済文書を出力する。一方、入力される文書が構造化されていない場合、見出し生成装置１００は、まず、入力される文書を構造化した後、不適切な見出しを修正して見出し補完済文書を出力する。

【0012】

［構造化文書］
構造化文書とは、文書の構造をマークアップした文書であり、典型例としてＸＭＬ（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）やＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）などが挙げられる。ＸＭＬやＨＴＭＬの文書では、タグと呼ばれる文字列を用いて文書の構造が表現される。

【0013】

図２は、ある構造化文書の階層構造の例を示す。この文書は、用語「休暇」の説明文書であり、見出し２、２ａ、２ｂと、テキスト３ａ、３ｃとを含む。見出し２は最上位（第１階層）の見出しであり、見出し２ａ、２ｂはその下位（第２階層）の見出しである。テキスト３ａ、３ｂは、それぞれ見出し２ａ、２ｂに対応するテキストである。この構造化文書では、見出し２ａと２ｂはともに「年次休暇」であり、同一文字列となっているため、この構造化文書を検索や閲覧に使用した場合、「年次休暇」に関するユーザの入力に対して正しい検索結果や回答を出力できない可能性がある。このように、ある見出しの文字列が、それと並列関係にある他の見出しと同一である場合には、それらを区別できないため、見出しが不適切と言える。また、見出しの文字列が同一でなくても、見出しの文字列が類似する場合や含意関係にある場合も、見出しが不適切と考えられる。

【0014】

また、見出しの文字列が十分な意味内容を持たない場合も、見出しは不適切となる。例えば、見出しの文字列が「１．」、「２．」、「（ａ）」、「（ｂ）」など、数字や記号のみである場合や、「第１章」、「第２章」など単にセクションの順序を示す場合など、各見出しが特定の意味内容を持たない場合も、見出しが不適切と考えられる。

【0015】

このように、構造化文書の見出しが不適切である場合、ユーザの検索や閲覧に対する出力が不適切となる可能性がある。そこで、見出し生成装置１００は、構造化文章中の不適切な見出しを検出し、適切な見出しに修正する。

【0016】

［見出しの生成方法］
図３は、構造化文書の他の例を示す。この例も用語「休暇」に関する構造化文書であり、複数の見出し２とテキスト３の階層構造により構成されている。なお、図３では、便宜上、一部の見出し及びテキストの図示を省略している。

【0017】

図４は、図３に示す構造化文書において、１つの見出しが不適切な場合を示す。図４に示すように、ある見出しＸが不適切である場合、見出し生成装置１００は、不適切な見出し（以下、「不適切見出し」とも呼ぶ。）Ｘの代わりに、新たな見出しを生成する。具体的に、見出し生成装置１００は、不適切見出しＸの下位要素４に基づいて、不適切見出しＸに代わる新たな見出しを生成する。ここで、下位要素４は、不適切見出しＸの下位の階層に存在する見出し（下位見出し）２及びテキスト３の少なくとも一方を含む。

【0018】

詳細には、見出し生成装置１００は、構造化文書における見出しと、その見出しの下位要素とを用いた教師あり学習により見出し生成モデルを訓練し、訓練済みの見出し生成モデルを用いて新たな見出しを生成する。具体的に、学習時には、見出し生成装置１００は、学習に使用する構造化文書における各見出しを教師ラベル（正解ラベル）とし、その見出しの下位要素を訓練用の入力データ（以下、「訓練用入力データ」とも呼ぶ。）とする教師データを生成する。具体的に、図３に示す構造化文書の例では、見出し生成装置１００は、見出し「休暇」を教師ラベルとし、その下位要素を訓練用入力データとする教師データを生成する。また、見出し生成装置１００は、図３の構造化文書に含まれる他の見出しのそれぞれについて、その見出しを教師ラベルとし、その見出しの下位要素を訓練用入力データとする教師データを生成する。こうして、見出し生成装置１００は、構造化文書に含まれる各見出しについて、教師ラベルと訓練用入力データとのセットを生成する。

【0019】

この際、見出し生成装置１００は、各見出しの下位要素に含まれる複数の見出し２及びテキスト３の全部又は一部を訓練用入力データとして使用して、複数の教師データを生成する。例えば、図３における見出し「年次休暇」については、その下位要素全てを１つの訓練用の入力データとすることができ、その一部（例えば見出し「年次休暇に関する詳細」の下位要素のみ）も１つの訓練用の入力データとして使用することができる。

【0020】

こうして、見出し生成装置１００は、下位要素が入力されたときに、それに対応する上位見出しを生成するように見出し生成モデルを訓練する。そして、見出し生成モデルの訓練が完了すると、見出し生成装置１００は、訓練済みの見出し生成モデルを用いて、構造化文書における不適切見出しに代わる新たな見出しを生成する。これにより、見出し生成装置１００は、構造化文書における不適切見出しを修正し、見出し補完済文書を出力することができる。

【0021】

［ハードウェア構成］
図５は、見出し生成装置１００のハードウェア構成を示すブロック図である。図示のように、見出し生成装置１００は、インタフェース（ＩＦ）１１と、プロセッサ１２と、メモリ１３と、記録媒体１４と、データベース（ＤＢ）１５とを備える。

【0022】

ＩＦ１１は、外部装置との間でデータの入出力を行う。具体的に、見出し生成モデルの訓練に使用する文書や、見出し生成処理の対象となる文書は、ＩＦ１１を通じて入力される。また、見出し生成装置１００により、不適切見出しが修正された見出し補完済文書はＩＦ１１を通じて外部装置へ出力される。

【0023】

プロセッサ１２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、見出し生成装置１００の全体を制御する。具体的に、プロセッサ１２は、後述する訓練処理及び見出し生成処理を実行する。

【0024】

メモリ１３は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などにより構成される。メモリ１３は、プロセッサ１２による各種の処理の実行中に作業メモリとしても使用される。

【0025】

記録媒体１４は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、見出し生成装置１００に対して着脱可能に構成される。記録媒体１４は、プロセッサ１２が実行する各種のプログラムを記録している。見出し生成装置１００が各種の処理を実行する際には、記録媒体１４に記録されているプログラムがメモリ１３にロードされ、プロセッサ１２により実行される。

【0026】

データベース１５は、ＩＦ１１を通じて入力された文書、見出し生成モデルの訓練処理において使用される教師データなどを一時的に記憶する。なお、見出し生成装置１００は、ユーザが指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。

【0027】

［訓練時の構成］
図６は、見出し生成装置の訓練時の機能構成を示すブロック図である。訓練時の見出し生成装置１００ａは、見出し生成モデルＭの訓練を行い、訓練済みの見出し生成モデルＭを出力する。見出し生成装置１００ａは、文書入力部２１と、構造化部２２と、教師データ生成部２３と、ベクトル化部２４と、モデル訓練部２５とを備える。

【0028】

文書入力部２１には、見出し生成モデルＭの訓練に使用される文書（以下、「訓練用文書」とも呼ぶ。）が入力される。訓練用文書は、見出し生成モデルＭの訓練に使用する教師データを生成するために使用される。文書入力部２１に入力される訓練用文書が構造化文書である場合、即ち、既に構造化がなされた文書である場合、文書入力部２１は、その文書を教師データ生成部２３へ出力する。一方、訓練用文書が構造化されていない文書（非構造化文書）である場合、文書入力部２１は、入力された文書を構造化部２２へ出力し、構造化された対象文書を構造化部２２から受け取る。そして、文書入力部２１は、構造化された対象文書を教師データ生成部２３へ出力する。

【0029】

構造化部２２は、入力された非構造化文書を構造化し、構造化文書として文書入力部２１へ出力する。構造化部２２は、例えば、入力された非構造化文書において見出しに相当する文字列を抽出してタグ付けする処理などを行い、構造化文書を生成して文書入力部２１に出力する。

【0030】

教師データ生成部２３は、構造化文書を用いて、見出し生成モデルＭを訓練するための教師データを生成する。具体的に、教師データ生成部２３は、入力された構造化文書における１つの見出しを選択し、その見出しの下位要素を特定する。図３の例において、例えば見出し「年次休暇」についての教師データを生成する場合、教師データ生成部２３は、見出し「年次休暇」を教師ラベルとし、見出し「年次休暇」の下位要素、即ち、見出し「年次休暇」より下位の階層に存在する見出し及びテキストを訓練用入力データとする。そして、教師データ生成部２３は、教師ラベルと訓練用入力データのペアを教師データとして生成する。こうして、教師データ生成部２３は、構造化文書に含まれる各見出しについて教師データを生成する。教師データ生成部２３は、生成した教師データをベクトル化部２４へ出力する。

【0031】

なお、教師データ生成部２３は、対象とする見出しの下位に存在する複数の見出し及びテキストの任意の組み合わせを、それぞれ訓練用入力データとすることができる。即ち、ある見出しについての教師データを生成する場合、教師データ生成部２３は、その見出しの下位に存在する全ての下位要素を訓練用入力データとするのに加え、それらの任意の一部を除外した下位要素を訓練用入力データとしてもよい。即ち、教師データ生成部２３は、ある見出しについて、その見出しの下位ノード（１階層下のノード）のみを訓練用入力データとしてもよいし、その見出しの下位ノード群（下位の一部の階層又は全階層のノード）を訓練用入力データとしてもよい。これにより、訓練に使用する教師データの数を増やすことができる。

【0032】

なお、教師データ生成部２３は、構造化文書に含まれる見出しのうち、例えば「１．」、「２．」、「（ａ）」、「（ｂ）」など、数字や記号のみの文字列である見出しや、「第１章」、「第２章」など単にセクションの順序を示す見出しなど、特定の意味内容を持たない見出しは教師データから除外することが望ましい。これにより、見出し生成モデルＭは、下位要素に基づいて適切な上位見出しを生成できるように訓練される。

【0033】

ベクトル化部２４は、入力された教師データ、即ち、教師ラベル及び訓練用入力データをベクトル化する。前述のように、教師ラベルは見出しであり、訓練用入力データは教師ラベルに対応する見出しの下位要素である。ベクトル化部２４は、教師ラベルである見出し、及び、その下位要素を構成する下位見出しやテキストを、単語分散表現又は単語埋め込みを用いて所定次元のベクトルで表現する。単語分散表現又は単語埋め込みの例としては、例えば、Ｗｏｒｄ２ｖｅｃ、Ｄｏｃ２ｖｅｃ、ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｄｏｃｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）、ｆａｓｔＴｅｘｔなどを用いることができる。なお、上記のような事前学習（ｐｒｅ－ｔｒａｉｎｅｄ）モデルを用いた手法の代わりに、ＢａｇｏｆＷｏｒｄｓなどの単純なモデルを用いて各文書をベクトル化してもよい。そして、ベクトル化部２４は、見出しやテキストから得られたベクトルを連結する、線形和を算出する、又は、再帰型ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いて合成するなどの方法で、モデル訓練部２５で使用する固定長のベクトルを生成する。ベクトル化部２４は、ベクトル化した教師データをモデル訓練部２５へ出力する。

【0034】

モデル訓練部２５は、ベクトル化された教師データを取得し、見出し生成モデルＭの訓練を行う。モデル訓練部２５は、例えばニューラルネットワークなどにより構成され、深層学習により見出し生成モデルＭを訓練する。具体的には、モデル訓練部２５は、ベクトル化された訓練用入力データを見出し生成モデルＭに入力し、その出力と、ベクトル化された教師ラベルとの損失に基づいて、見出し生成モデルＭを構成するニューラルネットワークのパラメータを更新する。そして、モデル訓練部２５は、見出し生成モデルＭの出力と教師ラベルとの損失が所定範囲に収束した時点で訓練を終了し、そのときの見出し生成モデルＭを訓練済みの見出し生成モデルＭとする。

【0035】

このように、訓練用の構造化文書から教師データを生成し、見出し生成モデルＭを訓練することにより、下位要素に基づいて適切な上位見出しを生成することが可能な見出し生成モデルＭを得ることができる。

【0036】

上記の構成において、文書入力部２１は取得手段の一例であり、構造化部２２は構造化手段の一例であり、教師データ生成部２３は教師データ生成手段の一例であり、ベクトル化部２４はベクトル化手段の一例であり、モデル訓練部２５は訓練手段の一例である。

【0037】

［訓練処理］
図７は、訓練時の見出し生成装置１００ａによる訓練処理のフローチャートである。この処理は、図５に示すプロセッサ１２が予め用意されたプログラムを実行し、図６に示す各要素として動作することにより実現される。

【0038】

まず、文書入力部２１は訓練用文書を取得し（ステップＳ１１）、訓練用文書が構造化されているか否かを判定する（ステップＳ１２）。入力された訓練用文書が構造化されている場合（ステップＳ１２：Ｙｅｓ）、文書入力部２１は訓練用文書を教師データ生成部２３へ出力する。一方、入力された訓練用文書が構造化されていない場合（ステップＳ１２：Ｎｏ）、文書入力部２１は訓練用文書を構造化部２２へ出力し、構造化部２２は訓練用文書を構造化する（ステップＳ１３）。そして、構造化部２２は、構造化した訓練用文書を文書入力部２１へ出力し、文書入力部２１は構造化された訓練用文書を教師データ生成部２３へ出力する。

【0039】

教師データ生成部２３は、入力された訓練用文書から、見出しとその見出しの下位要素とのペアを生成し、教師データとする（ステップＳ１４）。これにより、構造化された訓練用文書に含まれる各見出しとその下位要素とのペアである教師データが生成される。次に、ベクトル化部２４は、教師データを構成する教師ラベルと訓練用入力データ、即ち、見出しとその見出しの下位要素をそれぞれベクトル化し、モデル訓練部２５へ出力する（ステップＳ１５）。

【0040】

モデル訓練部２５は、ベクトル化された教師データを用いて、見出し生成モデルＭを訓練し、所定の収束条件を具備した時点の見出し生成モデルＭを訓練済みモデルＭとして出力する（ステップＳ１６）。こうして、訓練処理は終了する。

【0041】

［見出し生成時の構成］
次に、見出し生成装置の見出し生成時の構成について説明する。図８は、訓練済みの見出し生成モデルＭを用いて見出しを生成するときの見出し生成装置１００ｂの機能構成を示す。見出し生成時の見出し生成装置１００ｂは、文書入力部２１と、構造化部２２と、不適切見出し検出部２６と、見出し生成部２７と、文書出力部２８とを備える。文書入力部２１及び構造化部２２は、基本的に訓練時の見出し生成装置１００ａと同様である。

【0042】

見出し生成時には、見出し生成の対象となる文書（以下、「対象文書」と呼ぶ。）が文書入力部２１に入力される。文書入力部２１は、対象文書が構造化文書である場合、それを不適切見出し検出部２６へ出力する。一方、対象文書が構造化されていない文書である場合、文書入力部２１は対象文書を構造化部２２へ出力する。構造化部２２は、入力された対象文書を構造化して文書入力部２１へ入力し、文書入力部２１は構造化された対象文書を不適切見出し検出部２６へ出力する。

【0043】

不適切見出し検出部２６は、入力された対象文書において、見出しの生成が必要な箇所を特定する。具体的には、見出し生成部２７は、対象文書に含まれる見出しのうち、前述の不適切見出しに該当する見出しを抽出する。そして、不適切見出し検出部２６は、不適切見出しの下位要素を見出し生成部２７へ出力する。また、不適切見出し検出部２６は、対象文書における不適切見出しの位置を示す情報を文書出力部２８へ出力する。

【0044】

見出し生成部２７は、不適切見出しの下位要素を訓練済みの見出し生成モデルＭに入力し、見出しを生成する。図４の例では、見出し生成部２７は、破線で示す不適切見出しＸの下位要素４を入力データとして見出し生成モデルＭに入力する。このとき、見出し生成部２７は、訓練時におけるベクトル化部２４と同様の手法で不適切見出しＸの下位要素４をベクトル化し、見出し生成モデルＭに入力する。見出し生成モデルＭは、入力データに基づいて見出しを生成し、文書出力部２８へ出力する。

【0045】

文書出力部２８は、不適切見出し検出部２６から不適切見出しの位置を示す情報を取得するとともに、見出し生成部２７が生成した新たな見出しを取得する。そして、文書出力部２８は、新たな見出しを用いて対象文書における不適切見出しを修正し、見出し補完済文書として出力する。不適切見出しを修正する第１の方法としては、文書出力部２８は、不適切見出しを新たな見出しで置き換える。即ち、不適切見出しの代わりに、新たな見出しを用いる。

【0046】

不適切見出しを修正する第２の方法としては、文書出力部２８は、不適切見出しに新たな見出しを付記する。例えば、図２の例では、見出し２ａと２ｂがともに「年次休暇」であり、同一の見出しであるため不適切となっている。ここで、仮に見出し２ａについて新たな見出し「年次休暇取得条件」が生成され、見出し２ｂについて新たな見出し「年次休暇届け出方法」が生成されたとすると、文書出力部２８は、見出し２ａを「年次休暇（取得条件）」と修正し、見出し２ｂを「年次休暇（届け出方法）」などと修正する。このように、文書出力部２８は、新たな見出しを付記することにより、不適切見出しを修正してもよい。

【0047】

こうして、見出し生成装置１００ｂは、対象文書に含まれる不適切見出しを修正し、見出し補完済文書として出力することができる。また、見出し生成装置１００ｂによれば、対象文書が構造化されていない場合でも、対象文書を構造化部２２により構造化した後、適切な見出しを付与することができる。

【0048】

上記の構成において、不適切見出し検出部２６及び見出し生成部２７は見出し生成手段の一例であり、文書出力部２８は文書修正手段の一例である。

【0049】

［見出し生成処理］
図９は、見出し生成装置１００ｂによる見出し生成処理のフローチャートである。この処理は、図５に示すプロセッサ１２が予め用意されたプログラムを実行し、図８に示す各要素として動作することにより実現される。

【0050】

まず、文書入力部２１は対象文書を取得し（ステップＳ２１）、対象文書が構造化されているか否かを判定する（ステップＳ２２）。入力された対象文書が構造化されている場合（ステップＳ２２：Ｙｅｓ）、文書入力部２１は対象文書を不適切見出し検出部２６へ出力する。一方、入力された対象文書が構造化されていない場合（ステップＳ２２：Ｎｏ）、文書入力部２１は対象文書を構造化部２２へ出力し、構造化部２２は対象文書を構造化する（ステップＳ２３）。そして、構造化部２２は、構造化した対象文書を文書入力部２１へ出力し、文書入力部２１は構造化された対象文書を不適切見出し検出部２６へ出力する。

【0051】

不適切見出し検出部２６は、入力された対象文書に不適切見出しが含まれるか否かを判定する（ステップＳ２４）。対象文書に不適切見出しが含まれない場合（ステップＳ２４：Ｎｏ）、処理は終了する。一方、対象文書に不適切見出しが含まれる場合（ステップＳ２４：Ｙｅｓ）、見出し生成部２７は、不適切見出しの下位要素をベクトル化し、訓練済みの見出し生成モデルＭに入力して新たな見出しを生成する（ステップＳ２５）。次に、文書出力部２８は、新たな見出しを用いて、対象文書における不適切見出しを修正し、見出し補完済文書を出力する（ステップＳ２６）。そして、見出し生成処理は終了する。

【0052】

［変形例］
図９に示す見出し生成処理では、見出し生成装置１００ｂは、ステップＳ２５で生成した新たな見出しを使用して不適切見出しを修正しているが、不適切見出しの修正に使用する前に、新たな見出しの適否、即ち、新たな見出しが対象文書に含まれる他の見出しと差別化されているか否かを判定することとしてもよい。例えば、文書出力部２８は、見出し生成部２７が生成した新たな見出しが、対象文書において並列関係にある他の見出しと同一、類似、又は、含意関係にある場合、その見出しを不採用とし、見出し生成部２７により別の見出しを生成することとしてもよい。この場合、文書出力部２８は、見出しの文字列を比較して新たな見出しの適否を判定してもよく、単語分散表現により得た見出しのベクトル間の類似度や距離などに基づいて新たな見出しの適否を判定してもよい。

【0053】

＜第２実施形態＞
次に、本発明の第２実施形態について説明する。図１０は、第２実施形態に係る情報処理装置の機能構成を示すブロック図である。情報処理装置７０は、取得手段７１と、教師データ生成手段７２と、訓練手段７３と、見出し生成手段７４とを備える。取得手段７１は、見出しとテキストを含む構造化文書を取得する。教師データ生成手段７２は、見出しを教師ラベルとし、当該見出しの下位要素を入力データとする教師データを生成する。訓練手段７３は、教師データを用いて、下位要素から見出しを生成する生成モデルを訓練する。見出し生成手段７４は、訓練済みの生成モデルを用いて、対象文書に含まれる見出しを生成する。

【0054】

図１１は、第２実施形態における見出し生成処理のフローチャートである。まず、取得手段７１は、見出しとテキストを含む構造化文書を取得する（ステップＳ３１）。次に、教師データ生成手段７２は、見出しを教師ラベルとし、当該見出しの下位要素を入力データとする教師データを生成する（ステップＳ３２）。次に、訓練手段７３は、教師データを用いて、下位要素から見出しを生成する生成モデルを訓練する（ステップＳ３３）。そして、見出し生成手段７４は、訓練済みの生成モデルを用いて、対象文書に含まれる見出しを生成する（ステップＳ３４）。

【0055】

第２実施形態の情報処理装置７０によれば、構造化文書から教師データを生成し、下位要素から適切な見出しを生成する生成モデルを訓練する。よって、情報処理装置７０は、訓練済みの生成モデルを用いて、対象文書について適切な見出しを生成することができる。

【0056】

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

【0057】

（付記１）
見出しとテキストを含む構造化文書を取得する取得手段と、
前記見出しを教師ラベルとし、当該見出しの下位要素を入力データとする教師データを生成する教師データ生成手段と、
前記教師データを用いて、前記下位要素から見出しを生成する生成モデルを訓練する訓練手段と、
訓練済みの生成モデルを用いて、対象文書に含まれる見出しを生成する見出し生成手段と、
を備える情報処理装置。

【0058】

（付記２）
前記生成モデルはニューラルネットワークを用いたモデルであり、
前記教師データをベクトル化するベクトル化手段を備え、
前記訓練手段は、ベクトル化された教師データを用いて前記見出し生成モデルを訓練する付記１に記載の情報処理装置。

【0059】

（付記３）
前記下位要素は、前記構造化文書において前記見出しの下位に存在する下位見出し、及び、前記見出しの下位に存在するテキストを含む付記１又は２に記載の情報処理装置。

【0060】

（付記４）
前記見出し生成手段は、前記対象文書に含まれる見出しから不適切見出しを検出し、前記不適切見出しについて、前記訓練済みの生成モデルを用いて新たな見出しを生成する付記１乃至３のいずれか一項に記載の情報処理装置。

【0061】

（付記５）
前記対象文書における前記不適切見出しを、前記新たな見出しで置き換えて修正済文書を生成する文書修正手段を備える付記４に記載の情報処理装置。

【0062】

（付記６）
前記対象文書における前記不適切見出しに、前記新たな見出しの少なくとも一部を付加して修正済文書を生成する文書修正手段を備える付記４に記載の情報処理装置。

【0063】

（付記７）
前記不適切見出しは、前記対象文書において並列関係にある他の見出しと同一の文字列の見出しである付記４乃至６のいずれか一項に記載の情報処理装置。

【0064】

（付記８）
前記不適切見出しは、数字又は記号により構成され、意味又は内容を持たない見出しである付記４乃至６のいずれか一項に記載の情報処理装置。

【0065】

（付記９）
入力された文書を前記構造化文書に変換する構造化手段を備える付記１乃至８のいずれか一項に記載の情報処理装置。

【0066】

（付記１０）
見出しとテキストを含む構造化文書を取得し、
前記見出しを教師ラベルとし、当該見出しの下位要素を入力データとする教師データを生成し、
前記教師データを用いて、前記下位要素から見出しを生成する生成モデルを訓練し、
訓練済みの生成モデルを用いて、対象文書に含まれる見出しを生成する情報処理方法。

【0067】

（付記１１）
見出しとテキストを含む構造化文書を取得し、
前記見出しを教師ラベルとし、当該見出しの下位要素を入力データとする教師データを生成し、
前記教師データを用いて、前記下位要素から見出しを生成する生成モデルを訓練し、
訓練済みの生成モデルを用いて、対象文書に含まれる見出しを生成する処理をコンピュータに実行させるプログラムを記録した記録媒体。

【0068】

以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

【符号の説明】

【0069】

２見出し
３テキスト
１２プロセッサ
２１文書入力部
２２構造化部
２３教師データ生成部
２４ベクトル化部
２５モデル訓練部
２６不適切見出し検出部
２７見出し生成部
２８文書出力部

【図1】