IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ・ソフトウェア株式会社の特許一覧

特開2024-4387情報処理装置、情報処理方法及びプログラム
<>
  • 特開-情報処理装置、情報処理方法及びプログラム 図1
  • 特開-情報処理装置、情報処理方法及びプログラム 図2
  • 特開-情報処理装置、情報処理方法及びプログラム 図3
  • 特開-情報処理装置、情報処理方法及びプログラム 図4
  • 特開-情報処理装置、情報処理方法及びプログラム 図5
  • 特開-情報処理装置、情報処理方法及びプログラム 図6
  • 特開-情報処理装置、情報処理方法及びプログラム 図7
  • 特開-情報処理装置、情報処理方法及びプログラム 図8
  • 特開-情報処理装置、情報処理方法及びプログラム 図9
  • 特開-情報処理装置、情報処理方法及びプログラム 図10
  • 特開-情報処理装置、情報処理方法及びプログラム 図11
  • 特開-情報処理装置、情報処理方法及びプログラム 図12
  • 特開-情報処理装置、情報処理方法及びプログラム 図13
  • 特開-情報処理装置、情報処理方法及びプログラム 図14
  • 特開-情報処理装置、情報処理方法及びプログラム 図15
  • 特開-情報処理装置、情報処理方法及びプログラム 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024004387
(43)【公開日】2024-01-16
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
   G06F 16/35 20190101AFI20240109BHJP
【FI】
G06F16/35
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2022104030
(22)【出願日】2022-06-28
(71)【出願人】
【識別番号】000102717
【氏名又は名称】NTTテクノクロス株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】長谷川 隆明
(72)【発明者】
【氏名】山本 昂輝
(72)【発明者】
【氏名】杉島 慎之輔
(72)【発明者】
【氏名】杉崎 正之
(72)【発明者】
【氏名】安田 航
(72)【発明者】
【氏名】中山 丈二
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175FB04
(57)【要約】
【課題】文書作成を支援する技術を提供すること。
【解決手段】一態様による情報処理装置は、複数の文書又は前記複数の文書の各々の一部がそれぞれマスクされた複数のマスク済文書をそれぞれベクトルで表現した複数の文書ベクトルを複数の粒度のクラスタにクラスタリングするように構成されているクラスタ作成部と、前記粒度が大きい順に、前記粒度のクラスタのクラスタIDを目的変数、前記文書に関する所定の情報を説明変数として、前記複数の文書又は前記複数のマスク済文書の全部又は一部を分類する決定木を作成するように構成されている決定木作成部と、前記クラスタリング結果又は前記決定木に基づいて、目的となる文書の作成に用いられるテンプレートを作成するように構成されているテンプレート作成部と、を有する。
【選択図】図1
【特許請求の範囲】
【請求項1】
複数の文書又は前記複数の文書の各々の一部がそれぞれマスクされた複数のマスク済文書をそれぞれベクトルで表現した複数の文書ベクトルを複数の粒度のクラスタにクラスタリングするように構成されているクラスタ作成部と、
前記粒度が大きい順に、前記粒度のクラスタのクラスタIDを目的変数、前記文書に関する所定の情報を説明変数として、前記複数の文書又は前記複数のマスク済文書の全部又は一部を分類する決定木を作成するように構成されている決定木作成部と、
前記クラスタリング結果又は前記決定木に基づいて、目的となる文書の作成に用いられるテンプレートを作成するように構成されているテンプレート作成部と、
を有する情報処理装置。
【請求項2】
前記クラスタ作成部は、
階層的クラスタリング手法により、前記複数の文書ベクトルを複数の粒度のクラスタにクラスタリングするように構成されている、請求項1に記載の情報処理装置。
【請求項3】
前記複数の粒度のクラスタには、粗い粒度の第1のクラスタと、前記粗い粒度のクラスタよりも細かい粒度の第2のクラスタとが少なくとも含まれ、
前記クラスタ作成部は、
前記複数の文書ベクトルを前記第1のクラスタにクラスタリングすると共に、前記複数の文書ベクトルを前記第2のクラスタにクラスタリングするように構成されている、請求項1又は2に記載の情報処理装置。
【請求項4】
前記決定木作成部は、
前記第1のクラスタのクラスタIDを目的変数、前記所定の情報を説明変数として前記複数の文書ベクトルを分類する第1の決定木を作成した後、前記第1のクラスタ毎に、前記第1のクラスタに属する1以上の文書ベクトルを更にクラスタリングした第2のクラスタのクラスタIDを目的変数、前記所定の情報を説明変数として前記第1のクラスタに属する1以上の文書ベクトルを分類する第2の決定木を作成するように構成されている、請求項3に記載の情報処理装置。
【請求項5】
前記所定の情報には、前記文書の内部的な情報と、前記文書の外部的な情報又は前記文書に付随する情報との少なくとも一方が含まれる、請求項1に記載の情報処理装置。
【請求項6】
前記クラスタリング結果と、前記決定木による分類結果との類似度に基づいて、前記クラスタ作成部によるクラスタリングと前記決定木作成部による決定木の作成とをやり直すか否かを判定するように構成されている判定部を更に有し、
前記クラスタ作成部は、
前記判定部によってクラスタリングをやり直すと判定された場合、前記複数の粒度の各々に対応する閾値をそれぞれ変更した上で、前記複数の文書ベクトルを前記複数の粒度のクラスタにクラスタリングするように構成されている、請求項1に記載の情報処理装置。
【請求項7】
前記テンプレート作成部によって作成されたテンプレートの集合のインデックスを作成するように構成されているインデックス作成部と、
与えられた検索条件と、前記インデックスとを用いて、前記テンプレートの集合から前記検索条件を満たすテンプレートを検索するように構成されている検索部と、
前記検索部によって検索されたテンプレートに基づいて、目的となる文書を作成するように構成されている文書作成部と、を有する請求項1に記載の情報処理装置。
【請求項8】
与えられた検索条件と、前記決定木とを用いて、前記テンプレート作成部によって作成されたテンプレートの集合から前記検索条件を満たすテンプレートを検索するように構成されている検索部と、
前記検索部によって検索されたテンプレートに基づいて、目的となる文書を作成するように構成されている文書作成部と、を有する請求項1に記載の情報処理装置。
【請求項9】
前記テンプレート作成部は、
前記クラスタリング結果が表す各クラスタ又は前記決定木の各葉から代表的な文書ベクトルをそれぞれ選択し、選択した各文書ベクトルにそれぞれ対応するマスク済文書を前記テンプレートとして作成するように構成されている、請求項7又は8の何れか一項に記載の情報処理装置。
【請求項10】
前記文書作成部は、
前記検索部によって検索されたテンプレートが表すマスク済文書のマスク箇所に対して、与えられた文字列を設定することで、前記目的となる文書を作成するように構成されている、請求項9に記載の情報処理装置。
【請求項11】
予め作成された機械学習モデルにより、前記クラスタリング結果の妥当性を評価するように構成されている評価部を更に有する請求項1に記載の情報処理装置。
【請求項12】
与えられた学習データを用いて、複数の文書又は前記複数の文書の各々の一部がそれぞれマスクされた複数のマスク済文書をそれぞれベクトルで表現した複数の文書ベクトルを複数の粒度のクラスタにクラスタリングしたときのクラスタリング結果を評価する機械学習モデルを学習するように構成されている学習部と、
学習済みの前記機械学習モデルにより、前記クラスタリング結果の妥当性を評価するように構成されている評価部と、
を有する情報処理装置。
【請求項13】
複数の文書又は前記複数の文書の各々の一部がそれぞれマスクされた複数のマスク済文書をそれぞれベクトルで表現した複数の文書ベクトルを複数の粒度のクラスタにクラスタリングするように構成されているクラスタ作成手順と、
前記粒度が大きい順に、前記粒度のクラスタのクラスタIDを目的変数、前記文書に関する所定の情報を説明変数として、前記複数の文書又は前記複数のマスク済文書の全部又は一部を分類する決定木を作成するように構成されている決定木作成手順と、
前記クラスタリング結果又は前記決定木に基づいて、目的となる文書の作成に用いられるテンプレートを作成するように構成されているテンプレート作成手順と、
をコンピュータが実行する情報処理方法。
【請求項14】
複数の文書又は前記複数の文書の各々の一部がそれぞれマスクされた複数のマスク済文書をそれぞれベクトルで表現した複数の文書ベクトルを複数の粒度のクラスタにクラスタリングするように構成されているクラスタ作成手順と、
前記粒度が大きい順に、前記粒度のクラスタのクラスタIDを目的変数、前記文書に関する所定の情報を説明変数として、前記複数の文書又は前記複数のマスク済文書の全部又は一部を分類する決定木を作成するように構成されている決定木作成手順と、
前記クラスタリング結果又は前記決定木に基づいて、目的となる文書の作成に用いられるテンプレートを作成するように構成されているテンプレート作成手順と、
をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
文書作成の支援等を目的として、文書のテンプレート(雛形)を作成する技術が従来から知られている。例えば、非特許文献1には、法的文書を対象として、クラスタリングにより大量の法的文書からそのテンプレートを作成することが開示されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】角田篤泰,「AI技術を用いた法的文書作成支援」,JST CREST「イノベーション創発に資する人工知能基盤技術の創出と統合化」成果展開シンポジウム
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術では、実際にテンプレートを使用して文書を作成する際に、複数のテンプレートの中からどのテンプレートを使用すればよいのかを判断することが困難な場合があった。
【0005】
本開示は、上記の点に鑑みてなされたもので、文書作成を支援する技術を提供する。
【課題を解決するための手段】
【0006】
本開示の一態様による情報処理装置は、複数の文書又は前記複数の文書の各々の一部がそれぞれマスクされた複数のマスク済文書をそれぞれベクトルで表現した複数の文書ベクトルを複数の粒度のクラスタにクラスタリングするように構成されているクラスタ作成部と、前記粒度が大きい順に、前記粒度のクラスタのクラスタIDを目的変数、前記文書に関する所定の情報を説明変数として、前記複数の文書又は前記複数のマスク済文書の全部又は一部を分類する決定木を作成するように構成されている決定木作成部と、前記クラスタリング結果又は前記決定木に基づいて、目的となる文書の作成に用いられるテンプレートを作成するように構成されているテンプレート作成部と、を有する。
【発明の効果】
【0007】
文書作成を支援する技術を提供することができる。
【図面の簡単な説明】
【0008】
図1】本実施形態に係る文書作成装置の全体構成の一例を示す図である。
図2】実施例1におけるテンプレート作成処理部の機能構成の一例を示す図である。
図3】文書の一例を示す図である。
図4】固有表現の置換例の一例を示す図である。
図5】階層的クラスタの一例を模式的に示す図である。
図6】全体決定木の一例を模式的に示す図である。
図7】部分決定木の一例を模式的に示す図である。
図8】実施例1におけるテンプレート作成処理の一例を示すフローチャートである。
図9】実施例2におけるテンプレート作成処理部の機能構成の一例を示す図である。
図10】実施例3におけるテンプレート作成処理部の機能構成の一例を示す図である。
図11】実施例1における文書作成処理部の機能構成の一例を示す図である。
図12】実施例1における文書作成処理の一例を示すフローチャートである。
図13】実施例2における文書作成処理部の機能構成の一例を示す図である。
図14】実施例3における文書作成処理部の機能構成の一例を示す図である。
図15】一実施例における評価処理部の機能構成の一例を示す図である。
図16】一実施例における評価処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明の一実施形態について説明する。以下では、既存の文書集合からテンプレート(雛形)を作成すると共に、そのテンプレートにより文書を作成することが可能な文書作成装置10について説明する。
【0010】
<文書作成装置10の全体構成例>
本実施形態に係る文書作成装置10の全体構成例を図1に示す。図1に示すように、本実施形態に係る文書作成装置10は、テンプレート作成処理部101と、文書作成処理部102と、評価処理部103とを有する。
【0011】
文書作成装置10は一般的なコンピュータや汎用サーバ等により実現され、テンプレート作成処理部101、文書作成処理部102及び評価処理部103は、例えば、文書作成装置10にインストールされた1以上のプログラムが、CPU(Central Processing Unit)等といったプロセッサ(演算装置)に実行させる処理により実現される。また、記憶部104は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)等といった記憶装置により実現される。なお、テンプレート作成処理部101、文書作成処理部102及び評価処理部103の全部又は一部の機能が、例えば、クラウドサービス等により提供されるものであってもよい。同様に、記憶部104の全部又は一部の記憶領域が、例えば、クラウドストレージ等により実現されるものであってもよい。
【0012】
テンプレート作成処理部101は、与えられた文書集合からテンプレートを作成する。このとき、テンプレート作成処理部101は、与えられた文書集合をクラスタリングすると共にそのクラスタリング結果を利用した決定木を作成した上で、クラスタリング結果又は決定木からテンプレートを作成する。
【0013】
文書作成処理部102は、テンプレート作成処理部101によって作成されたテンプレート(又は、与えられた文書集合に含まれる文書の一部をマスクしたマスク済文書)を用いて、ユーザの所望する文書を作成する。
【0014】
評価処理部103は、テンプレートを作成する際に行われたクラスタリング結果等の妥当性を評価する。
【0015】
記憶部104は、各種情報(例えば、与えられた文書集合、その文書集合に含まれる文書の一部をマスクしたマスク済文書、クラスタリング結果、決定木、その決定木の葉以外のノードが持つ条件(後述する分岐条件)、テンプレート等)を記憶する。
【0016】
ここで、本実施形態に係る文書作成装置10には、テンプレート作成処理部101がテンプレートを作成する「テンプレート作成フェーズ」と、文書作成処理部102がユーザの所望する文書を作成する「文書作成フェーズ」と、評価処理部103がクラスタリング結果等の妥当性を評価する「評価フェーズ」とが存在する。以下、これらの各フェーズについて説明する。
【0017】
[テンプレート作成フェーズ]
以下、テンプレート作成フェーズについて説明する。
【0018】
・実施例1
まず、テンプレート作成フェーズの実施例1について説明する。
【0019】
<テンプレート作成処理部101の機能構成例>
実施例1におけるテンプレート作成処理部101の機能構成例を図2に示す。図2に示すように、実施例1におけるテンプレート作成処理部101には、固有表現抽出部201と、マスク部202と、クラスタ作成部203と、決定木作成部204と、終了判定部205と、テンプレート作成部206とが含まれる。
【0020】
固有表現抽出部201は、与えられた文書集合に含まれる各文書中の固有表現を抽出する。固有表現(Named Entity)とは、或る属性(項目)に関して特定の対象を表す表現のことであり、典型的には、固有名詞(人名、組織名、地名等)、金額、日付、時間等といったものが挙げられる。
【0021】
ここで、与えられた文書集合に含まれる文書の一例を図3に示す。図3では、一例として、決裁文書の1つである経費支出伺書を示している。図3に示すように、文書には様々な属性(項目)が含まれる。図3に示す文書では、「申請日」、「申請者」、「部署」、「件名」、「実施目的」が属性として含まれていると共に、本文内の「実施内容(目的)」、「発注内容・数量」、「契約期間」、「発注先」、「業者選定理由」、「契約額」、「支払方法」、「権限・責任規定」、「その他」が属性として含まれている。
【0022】
なお、図3に示す例では、本文が記入される記入欄内に各属性が記載されているが、これは一例であって、例えば、属性毎にその属性の文字列等を記入するための記入欄等が存在してもよい。また、図3では、決裁文書の1つである経費支出伺書を示したが、これは一例であって、本実施例は様々な種類の文書に対して適用可能である。
【0023】
マスク部202は、固有表現抽出部201によって抽出された固有表現に関して、その抽出元の文書中に存在する当該固有表現を所定の文字列に置換する。これは、文書中の固有表現を或る所定の文字列でマスクすることを意味する。これにより、文書集合に含まれる各文書中の固有表現が所定の文字列でマスクされたマスク済文書が作成され、その結果、これらのマスク済文書で構成されるマスク済文書集合が得られる。
【0024】
ここで、固有表現の置換例を図4に示す。図4に示すように、固有表現の属性に応じて、その属性に対応する文字列で当該固有表現を置換する。例えば、或る固有表現の属性が「人名」である場合、その固有表現を「PERSON」に置換する。同様に、例えば、或る固有表現の属性が「会社名」である場合、その固有表現を「COMPANY」に置換する。同様に、例えば、或る固有表現の属性が「組織名」である場合、その固有表現を「ORGANIZATION」に置換する。このように、固有表現抽出部201によって抽出された固有表現は、その属性に応じた文字列に置換される。なお、図4に示す固有表現の属性とそれに対応する置換文字列は一例であって、これに限られるものではなく、例えば、記号等で置換されてもよい。
【0025】
なお、固有表現の抽出と固有表現の置換は既知の手法により実現することが可能である。例えば、固有表現の抽出には、参考文献1に記載されている拡張固有表現を利用することができる。
【0026】
クラスタ作成部203は、マスク済文書集合に含まれる各マスク済文書を階層的クラスタリングによりクラスタリングする。このとき、クラスタ作成部203は、マスク済文書の類似度に基づいて、各マスク済文書を複数の粒度のクラスタに分類する。なお、階層的クラスタリングのクラスタリング結果はデンドログラムとも呼ばれる。ここで、クラスタの粒度とは、そのクラスタに分類されるマスク済文書数のことであり、粒度が粗いほど多くのマスク済文書が1つのクラスタに含まれ、逆に粒度が細かいほど1つのクラスタに含まれるマスク済文書数は少なくなる。以下では、一例として、「粗いクラスタ」と、それよりも細かい粒度のクラスタである「細かいクラスタ」との2つにクラスタリングするものとする。ただし、これは一例であって、クラスタの粒度は3つ以上であってもよい。
【0027】
具体的には、クラスタ作成部203は、以下の手順11~手順13により各マスク済文書を「粗いクラスタ」と「細かいクラスタ」にクラスタリングする。
【0028】
手順11:まず、クラスタ作成部203は、各マスク済文書をそれぞれベクトル化する。以下、ベクトル化されたマスク済文書を「マスク済文書ベクトル」又は誤解の恐れが無い場合は単に「文書ベクトル」と呼ぶことにする。なお、マスク済文書のベクトル化は、例えば、tf-idf、Doc2Vec、Word2Vec等の既知の手法により行えばよい。また、マスク済文書全体のベクトル化して文書ベクトルを作成するのではなく、例えば、マスク済文書のタイトルや件名のみをベクトル化して文書ベクトルを作成してもよいし、本文のみをベクトル化して文書ベクトルを作成してもよいし、既知の要約文作成手法によりマスク済文書の要約文を作成した上でその要約文をベクトル化して文書ベクトルを作成してもよい。又は、例えば、元の文書が決裁文書等である場合には、マスク済文書の決裁ルートや決裁権限、元の文書に付随する何等かのIDコード等といったメタデータをベクトル化して文書ベクトルを作成してもよい。
【0029】
手順12:次に、クラスタ作成部203は、粗いクラスタにクラスタリングするための閾値(以下、第1の閾値という。)を用いて、階層的クラスタリングにより各文書ベクトルをクラスタリングする。これにより、各文書ベクトル(すなわち、各マスク済文書)が粗いクラスタに分類され、その結果、粗いクラスタのクラスタIDが各文書ベクトルに割り当てられる。以下、粗いクラスタのクラスタ数をNとして、粗いクラスタのクラスタIDを「A1」、「A2」、・・・、「AN」とする。
【0030】
手順13:そして、クラスタ作成部203は、細かいクラスタにクラスタリングするための閾値(以下、第2の閾値という。)を用いて、粗いクラスタ毎に、階層的クラスタリングにより、その粗いクラスタに分類された各文書ベクトルを更にクラスタリングする。これにより、各文書ベクトルが細かいクラスタに更に分類され、その結果、細かいクラスタのクラスタIDが各文書ベクトルに割り当てられる。以下、細かいクラスタのクラスタ数をn+n+・・・+nとして、細かいクラスタのクラスタIDを「a11」、「a12」、・・・、「a1n」、「a21」、「a22」、・・・、「a2n」、・・・、「aN1」、「aN2」、・・・、「aNn」とする。
【0031】
なお、文書ベクトル間の類似度としては、例えば、ユークリッド距離やコサイン類似度等を採用することができる。また、第1の閾値は各文書ベクトルを粗く分類するための閾値、第2の閾値は各文書ベクトルを細かく分類するための閾値であり、例えば、文書ベクトル間の類似度としてユークリッド距離を採用した場合、第1の閾値<第2の閾値を満たす。粗いクラスタの方が細かいクラスタよりも多くの文書ベクトルが含まれれば、各クラスタに含まれる文書ベクトル数は特に限定されないが、粗いクラスタの方が細かいクラスタよりも10倍程度は多くの文書ベクトルが含まれていることが好ましい。具体例としては、マスク済文書集合に含まれるマスク済文書数が1000程度である場合、粗いクラスタには100程度の文書ベクトルが含まれ、細かいクラスタには10程度の文書ベクトルが含まれることが好ましい。
【0032】
上記のクラスタ作成部203による文書ベクトル間の類似度に基づく階層的クラスタリング結果(デンドログラム)の一例を図5に示す。図5では、マスク済文書集合に含まれる各マスク済文書が粗いクラスタ(クラスタID「A1」~「AN」)と細かいクラスタ(クラスタID「a11」~「a1n」、・・・、クラスタID「aN1」~「aNn」)に分類されている場合を示している。
【0033】
決定木作成部204は、クラスタ作成部203によるクラスタリング結果と、文書の内部情報及び外部情報とを用いて、マスク済文書ベクトルから決定木(全体決定木と部分決定木)を作成する。このとき、決定木作成部204は、粗いクラスタにクラスタリングしたときのクラスタリング結果を教師データ、粗いクラスタのクラスタIDを目的変数、内部情報及び外部情報を説明変数として、既知の決定木作成アルゴリズム(例えば、CART等)により決定木(以下、この決定木を「全体決定木」という。)を作成する。また、決定木作成部204は、粗いクラスタ毎に、当該粗いクラスタを細かいクラスタに更にクラスタリングしたときのクラスタリング結果を教師データ、当該細かいクラスタのクラスタIDを目的変数、内部情報及び外部情報を説明変数として、既知の決定木作成アルゴリズムにより決定木(以下、この決定木を「部分決定木」という。)を作成する。
【0034】
内部情報とは、文書の内部的な情報のことであり、例えば、文書に含まれる単語又は単語列、文書の或る属性に含まれる単語又は単語列、文書の或る属性に含まれるキーワード等のことである。例えば、文書に含まれる単語の具体例としては「機密」や「契約」等が挙げられ、文書に含まれる単語列の具体例としては「機密保持」等が挙げられる。また、例えば、文書の属性「発注先」に含まれる単語の具体例としては「会社」が挙げられ、文書の属性「発注先」に含まれる単語列の具体例としては「株式会社」等が挙げられる。同様に、例えば、文書の属性「実施内容(目的)」に含まれるキーワードの具体例としては「消耗品購入」等が挙げられる。なお、これら以外にも、内部情報には、例えば、数字や記号等が含まれる属性のパターン等といった文書構造が含まれていてもよい。
【0035】
外部情報とは、文書の外部的な情報(又は文書に付随する情報)のことであり、例えば、文書に関連する規定に含まれる単語又は単語列等のことである。例えば、文書が決裁文書である場合はその文書の決裁権限が規定された条項に含まれる単語又は単語列等のことであり、そのような単語の具体例としては「知的財産」、単語列の具体例としては「知的財産管理」等が挙げられる。
【0036】
具体的には、決定木作成部204は、以下の手順21~手順22により全体決定木と部分決定木を作成する。
【0037】
手順21:まず、決定木作成部204は、粗いクラスタにクラスタリングしたときのクラスタリング結果を教師データ、粗いクラスタのクラスタID「A1」~「AN」を目的変数、内部情報及び外部情報を説明変数として、マスク済文書ベクトルから全体決定木を作成する。これにより、クラスタ作成部203と同様に各文書ベクトルを粗いクラスタに分類する全体決定木が作成される。ここで、全体決定木の一例を図6に示す。図6に示すように、全体決定木は、粗いクラスタのクラスタIDを葉(リーフノード)、説明変数に関する条件(分岐条件)を節点(葉以外のノード)に持つグラフ構造で表される。なお、分岐条件の具体例としては、例えば、「文書に単語列「機密保持」が含まれる」、「属性「発注先」に単語「会社」が含まれる」、「文書の決裁権限が規定された条項に単語「知的財産」が含まれる」等といったものが挙げられる。
【0038】
手順22:次に、決定木作成部204は、粗いクラスタ毎に、当該粗いクラスタを細かいクラスタに更にクラスタリングしたときのクラスタリング結果を教師データ、当該細かいクラスタのクラスタIDを目的変数、内部変数及び外部変数を説明変数として、当該粗いクラスタに分類されたマスク済文書ベクトルから部分決定木を作成する。なお、このとき、決定木作成部204は、クラスタ作成部203によって当該粗いクラスタにクラスタリングされたマスク済文書ベクトルから部分決定木を作成してもよいし、手順21で作成した全体決定木によって当該粗いクラスタに対応するリーフノードに分類されたマスク済文書ベクトルから部分決定木を作成してもよい。これにより、クラスタ作成部203と同様に或る粗いクラスタに分類された各文書ベクトルを更に細かいクラスタに分類する部分決定木が作成される。ここで、クラスタID「A1」の粗いクラスタに分類されたマスク済文書ベクトルをクラスタID「a11」~「a1n」の細かいクラスタに分類する部分決定木の一例を図7に示す。図7に示すように、部分決定木は、クラスタID「a11」~「a1n」を葉(リーフノード)、説明変数に関する分岐条件を節点(葉以外のノード)に持つグラフ構造で表される。
【0039】
このように、粗いクラスタへのクラスタリング結果を説明するような全体決定木と、粗いクラスタ毎にその粗いクラスタを細かいクラスタに更にクラスタリングしたときのクラスタリング結果を説明するような部分決定木とが得られるため、例えば、ユーザは、所望の文書を作成する際に、全体決定木と部分決定木とを参考にして適切なテンプレートを選択及び使用することが可能となる。
【0040】
なお、全体決定木を作成する際のアルゴリズムと部分決定木を作成する際のアルゴリズムは同一のアルゴリズムであってもよいし、異なるアルゴリズムであってもよい。また、クラスタの粒度が3つ以上である場合は、粒度が大きい順に、その粒度のクラスタのクラスタIDを目的変数として決定木を順に作成すればよい。具体的には、例えば、クラスタの粒度として第1の粒度、第2の粒度、第3の粒度が存在し、この順に大きいものとした場合、第1の粒度のクラスタのクラスタIDを目的変数として決定木(全体決定木)を作成した後、第1の粒度のクラスタ毎に、そのクラスタを更に第2の粒度のクラスタにクラスタリングしたときのクラスタIDを目的変数として決定木(部分決定木)を作成し、その後、第2の粒度のクラスタ毎に、そのクラスタを更に第3の粒度のクラスタにクラスタリングしたときのクラスタIDを目的変数として決定木(部分決定木)を作成すればよい。
【0041】
終了判定部205は、クラスタリングと全体決定木及び部分決定木の作成とを終了するか否かを判定する。このとき、終了判定部205は、所定の終了条件を満たす場合はクラスタリングと全体決定木及び部分決定木の作成とを終了すると判定し、そうでない場合は終了しないと判定する。なお、終了判定部205によって終了しないと判定された場合、例えば、第1の閾値と第2の閾値とを変更した上で、クラスタ作成部203によるクラスタリングからやり直す。第1の閾値と第2の閾値とをどのように変更するかは、適宜、任意に定めることができるが、例えば、予め決められた所定の値を第1の閾値と第2の閾値に加算したり、第1の閾値と第2の閾値から減算したりすることが考えられる。
【0042】
ただし、これに限られるものではなく、終了判定部205によって終了しないと判定された場合、例えば、全体決定木と部分決定木の作成からやり直してもよい。又は、例えば、類似度の指標を変更(例えば、ユークリッド距離からコサイン類似度に変更等)してもよい。
【0043】
ここで、終了条件は、クラスタリング結果と全体決定木及び部分決定木の分類結果とが同一又は類似している場合はクラスタリングと全体決定木及び部分決定木の作成とを終了すると判定し、そうでない場合は終了しないと判定する様々な条件を用いることができる。例えば、「クラスタリング結果と全体決定木及び部分決定木の分類結果とが同じであるマスク済文書ベクトルの個数が所定の閾値以上である」、「クラスタリング結果と全体決定木及び部分決定木の分類結果とが同じであるマスク済文書ベクトルの割合が所定の割合以上である」、「全体決定木及び部分決定木の分類結果に関する統計値(例えば、各葉の分類結果がクラスタリング結果と同じであるマスク済文書ベクトルの割合の平均値等)が所定の閾値以上である」等といった条件が挙げられる。
【0044】
テンプレート作成部206は、終了判定部205によってクラスタリングと全体決定木及び部分決定木の作成とを終了すると判定された場合、クラスタ作成部203によるクラスタリング結果からテンプレートを作成する。例えば、テンプレート作成部206は、細かいクラスタ毎に、当該細かいクラスタの代表となるマスク済文書ベクトル(以下、「代表文書ベクトル」ともいう。)に対応するマスク済文書をテンプレートとして作成する。ここで、代表文書ベクトルとしては、当該細かいクラスタの重心に最も近いマスク済文書ベクトルが挙げられるが、これに限られるものではなく、例えば、当該細かいクラスタからランダムに選択されたマスク済文書ベクトルを代表文書ベクトルとしてもよいし、或る所定の分布に従って選択されたマスク済文書ベクトルを代表文書ベクトルとしてもよい。また、代表文書ベクトルに対応するマスク済文書そのものをテンプレートとしてもよいし、当該マスク済文書に対して或る属性を追加したり、当該マスク済文書から或る属性を削除したりしたものをテンプレートとしてもよいし、当該マスク済文書に対して何等かの文を追加したり、当該マスク済文書から何等かの文を削除したりしたものをテンプレートとしてもよい。例えば、当該細かいクラスタに属する文書ベクトルに対応するマスク済文書に共通する属性以外をテンプレートとするマスク済文書から削除したり、共通する文以外は削除したりすることが考えられる。この他にも、文書の種類に応じて、適宜、予め決められた属性を追加したり、予め決められた文を追加したりしてもよい。
【0045】
これにより、細かいクラスタ毎にテンプレートが作成され、その結果、これらのテンプレートで構成されるテンプレート集合が得られる。後述するように、テンプレート集合の中の所望のテンプレートを用いて、そのテンプレート中でマスクされた箇所(つまり、固有表現のマスク箇所)を所望の文字列に変更することで、所望の文書を作成することができる。
【0046】
<テンプレート作成処理>
以下、実施例1におけるテンプレート作成処理について、図8を参照しながら説明する。
【0047】
ステップS101:まず、固有表現抽出部201は、与えられた文書集合に含まれる各文書中の固有表現を抽出する。
【0048】
ステップS102:次に、マスク部202は、上記のステップS101で抽出された固有表現に関して、その抽出元の文書中に存在する当該固有表現を所定の文字列に置換する。これにより、マスク済文書集合が得られる。
【0049】
なお、上記のステップS101~ステップS102では文書集合からマスク済文書集合を作成したが、例えば、文書集合ではなく、マスク済文書集合が文書作成装置10に与えられる場合には、上記のステップS101~ステップS102は不要である。
【0050】
ステップS103:次に、クラスタ作成部203は、マスク済文書集合に含まれる各マスク済文書を階層的クラスタリングにより複数の粒度のクラスタにクラスタリングする。すなわち、クラスタ作成部203は、例えば、上記の手順11~手順13により、各マスク済文書を粗いクラスタにクラスタリングした後、細かいクラスタに更にクラスタリングする。
【0051】
ステップS104:次に、決定木作成部204は、上記のステップS103のクラスタリング結果(粗いクラスタにクラスタリングしたときのクラスタリング結果)と、内部情報及び外部情報とを用いて、上記の手順21により、マスク済文書ベクトルから全体決定木を作成する。
【0052】
ステップS105:次に、決定木作成部204は、粗いクラスタ毎に、上記のステップS103のクラスタリング結果(当該粗いクラスタを細かいクラスタに更にクラスタリングしたときのクラスタリング結果)と、内部情報及び外部情報とを用いて、上記の手順22により、当該粗いクラスタに分類されたマスク済文書ベクトルから部分決定木を作成する。
【0053】
ステップS106:次に、終了判定部205は、所定の終了条件を満たすか否かを判定する。当該終了条件を満たさないと判定された場合、テンプレート作成処理部101は、第1の閾値と第2の閾値とを変更した上で、ステップS103に戻ってクラスタリングからやり直す。一方で、当該終了条件を満たすと判定された場合、テンプレート作成処理部101は、ステップS107に進む。
【0054】
ステップS107:そして、テンプレート作成部206は、上記のステップS103のクラスタリング結果(細かいクラスタにクラスタリングしたときのクラスタリング結果)を用いて、細かいクラスタ毎に、当該細かいクラスタの代表文書ベクトルに対応するマスク済文書をテンプレートとして作成する。
【0055】
なお、上記のテンプレート作成処理は一例であって、適宜、変更することが可能である。例えば、上述したように、所定の終了条件を満たさないと判定された場合、テンプレート作成処理部101は、決定木(全体決定木及び部分決定木)の作成からやり直してもよい。
【0056】
また、上記のテンプレート作成処理では決定木(全体決定木及び部分決定木)を作成した後に終了判定部205による終了判定を行っているが、これに代えて又はこれに加えて、例えば、決定木の作成途中にその決定木の作成をやり直すか否かの判定を行ってもよい。この場合、例えば、決定木の作成をやり直すと判定されたときは、その決定木の分岐条件等を変更した上で、その決定木の作成を最初からやり直したり、その決定木の1つ上の階層からやり直したりすればよい。決定木の作成をやり直すか否かを判定するための条件としては様々なものが挙げられるが、例えば、「現時点で、クラスタリング結果と異なる分類結果となったマスク済文書ベクトルの個数が所定の閾値以上である」、「現時点で、クラスタリング結果と異なる分類結果となったマスク済文書ベクトルの割合が所定の割合以上である」、「現時点で、決定木の分類結果に関する統計値(例えば、各葉の分類結果がクラスタリング結果と同じであるマスク済文書ベクトルの割合の平均値等)が所定の閾値未満である」等といった条件が挙げられる。
【0057】
・実施例2
次に、テンプレート作成フェーズの実施例2について説明する。なお、テンプレート作成フェーズの実施例2では、実施例1との相違点について説明し、実施例1と同様としてよい構成要素についてはその説明を省略する。
【0058】
<テンプレート作成処理部101の機能構成例>
実施例2におけるテンプレート作成処理部101の機能構成例を図9に示す。図9に示すように、実施例2におけるテンプレート作成処理部101には、固有表現抽出部201と、マスク部202と、クラスタ作成部203と、全体決定木作成部204Aと、部分決定木作成部204Bと、終了判定部205と、テンプレート作成部206とが含まれる。
【0059】
全体決定木作成部204Aは、クラスタ作成部203によるクラスタリング結果(粗いクラスタにクラスタリングしたときのクラスタリング結果)と、文書の内部情報及び外部情報とを用いて、マスク済文書ベクトルから全体決定木を作成する。
【0060】
部分決定木作成部204Bは、粗いクラスタ毎に、クラスタ作成部203によるクラスタリング結果(当該粗いクラスタを細かいクラスタに更にクラスタリングしたときのクラスタリング結果)と、文書の内部情報及び外部情報とを用いて、当該粗いクラスタに分類されたマスク済文書ベクトルから部分決定木を作成する。
【0061】
このように、実施例2におけるテンプレート作成処理部101には、決定木作成部204の代わりに、全体決定木を作成する全体決定木作成部204Aと各部分決定木を作成する部分決定木作成部204Bとが含まれる。この場合、図8のステップS104は全体決定木作成部204Aにより実行され、ステップS105は部分決定木作成部204Bにより実行される。その他の点は実施例1と同様である。
【0062】
・実施例3
次に、テンプレート作成フェーズの実施例3について説明する。なお、テンプレート作成フェーズの実施例3では、実施例1との相違点について説明し、実施例1及び2と同様としてよい構成要素についてはその説明を省略する。
【0063】
<テンプレート作成処理部101の機能構成例>
実施例3におけるテンプレート作成処理部101の機能構成例を図10に示す。図10に示すように、実施例3におけるテンプレート作成処理部101には、実施例1と同様に、固有表現抽出部201と、マスク部202と、クラスタ作成部203と、決定木作成部204と、終了判定部205と、テンプレート作成部206とが含まれるが、テンプレート作成部206の機能が実施例1と異なる。
【0064】
実施例3におけるテンプレート作成部206は、終了判定部205によってクラスタリングと全体決定木及び部分決定木の作成とを終了すると判定された場合、各部分決定木による分類結果からテンプレートを作成する。例えば、テンプレート作成部206は、各部分決定の葉(リーフノード)毎に、当該葉に分類されたマスク済文書ベクトルの代表文書ベクトルに対応するマスク済文書をテンプレートとして作成する。ここで、実施例3における代表文書ベクトルとしては、例えば、当該葉に分類されたマスク済文書ベクトルのうち、当該決定木の根から当該葉までの各分岐条件に含まれる属性をすべて持つマスク済文書の文書ベクトルが挙げられる。ただし、これに限られるものではなく、例えば、当該葉からランダムに選択されたマスク済文書ベクトルを代表文書ベクトルとしてもよいし、或る所定の分布に従って選択されたマスク済文書ベクトルを代表文書ベクトルとしてもよい。
【0065】
なお、各部分決定木の葉毎にテンプレートを作成したが、これに限られず、これに代えて又はこれに加えて、例えば、全体決定木の葉毎にテンプレートが作成されてもよい。
【0066】
このように、実施例3におけるテンプレート作成部206は、決定木からテンプレートを作成する。この場合、図8のステップS107において、テンプレート作成部206は、決定木(全体決定木、部分決定木、又はその両方)からテンプレートを作成する。その他の点は実施例1又は2と同様である。
【0067】
[文書作成フェーズ]
以下、文書作成フェーズについて説明する。
【0068】
・実施例1
まず、文書作成フェーズの実施例1について説明する。
【0069】
<文書作成処理部102の機能構成例>
実施例1における文書作成処理部102の機能構成例を図11に示す。図11に示すように、実施例1における文書作成処理部102には、インデックス作成部301と、検索部302と、文書作成部303とが含まれる。
【0070】
インデックス作成部301は、インデックスの作成対象となる属性(以下、「対象属性」ともいう。)が与えられると、対象属性に関するテンプレート集合のインデックスを作成する。対象属性はユーザ等から与えられてもよいし、予め決められた属性が与えられてもよい。なお、インデックスは既知の任意の手法により作成すればよい。例えば、テンプレート集合を構成するテンプレートに対応するマスク済文書ベクトルを用いて、転置インデックスを作成すればよい。
【0071】
検索部302は、対象属性に関する検索条件が与えられると、インデックス作成部301によって作成されたインデックスを用いて、テンプレート集合の中から当該検索条件を満たすテンプレートを検索する。検索条件はユーザ等から与えられてもよいし、他のプログラムやシステム等から与えられてもよい。
【0072】
文書作成部303は、検索部302によって検索されたテンプレートと、当該テンプレートのマスク箇所に設定する文字列(以下、「設定文字列」ともいう。)とを用いて、所望の文書(以下、「目的文書」ともいう。)を作成する。すなわち、文書作成部303は、当該テンプレートのマスク箇所に対して、そのマスク箇所に対応する設定文字列を設定することで、目的文書を作成する。これにより、ユーザが所望する目的文書が得られる。設定文字列はユーザ等から与えられてもよいし、他のプログラムやシステム等から与えられてもよい。
【0073】
<文書作成処理>
以下、実施例1における文書作成処理について、図12を参照しながら説明する。ここで、図12のステップS201は目的文書の作成前に事前に実施され、ステップS202~ステップS203は目的文書を作成する都度実施される。ただし、インデックスを再作成する場合には適宜のタイミングでステップS201が実施される。
【0074】
ステップS201:インデックス作成部301は、対象属性が与えられると、当該対象属性に関するテンプレート集合のインデックスを作成する。
【0075】
ステップS202:検索部302は、対象属性に関する検索条件が与えられると、上記のステップS201で作成されたインデックスを用いて、テンプレート集合の中から当該検索条件を満たすテンプレートを検索する。
【0076】
ステップS203:そして、文書作成部303は、上記のステップS202で検索されたテンプレートのマスク箇所に対して、与えられた設定文字列を設定することで、目的文書を作成する。
【0077】
なお、上記の文書作成処理は一例であって、適宜、変更することが可能である。例えば、後述する実施例3で説明するように、インデックスを作成しない場合にはステップS201は不要である。
【0078】
・実施例2
次に、文書作成フェーズの実施例2について説明する。なお、文書作成フェーズの実施例2では、実施例1との相違点について説明し、実施例1と同様としてよい構成要素についてはその説明を省略する。
【0079】
<文書作成処理部102の機能構成例>
実施例2における文書作成処理部102の機能構成例を図13に示す。図13に示すように、実施例2における文書作成処理部102には、実施例1と同様に、インデックス作成部301と、検索部302と、文書作成部303とが含まれるが、これら各部の機能が実施例1と異なる。
【0080】
実施例2におけるインデックス作成部301は、対象属性が与えられると、対象属性に関するマスク済文書集合のインデックスを作成する。
【0081】
実施例2における検索部302は、対象属性に関する検索条件が与えられると、インデックス作成部301によって作成されたインデックスを用いて、マスク済文書集合の中から当該検索条件を満たすマスク済文書を検索する。
【0082】
実施例2における文書作成部303は、検索部302によって検索されたマスク済文書と、当該マスク済文書のマスク箇所に設定する設定文字列とを用いて、目的文書を作成する。すなわち、文書作成部303は、当該マスク済文書のマスク箇所に対して、そのマスク箇所に対応する設定文字列を設定することで、目的文書を作成する。
【0083】
このように、実施例2における文書作成処理部102は、マスク済文書から目的文書を作成する。この場合、図12のステップS201においてインデックス作成部301は、対象属性に関するマスク済文書集合のインデックスを作成し、ステップS202において検索部302は、そのインデックスを用いて、マスク済文書集合の中から検索条件を満たすマスク済文書を検索し、ステップS203において文書作成部303は、そのマスク済文書と設定文字列から目的文書を作成する。その他の点は実施例1と同様である。なお、本実施例により目的文書を作成する際には、テンプレートは不要であるため、必ずしもテンプレート作成フェーズが実行されている必要はない。言い換えれば、本実施例は、テンプレート作成フェーズの実行前でも、マスク済文書集合さえあれば実施可能である。
【0084】
・実施例3
次に、文書作成フェーズの実施例3について説明する。なお、文書作成フェーズの実施例3では、実施例1との相違点について説明し、実施例1と同様としてよい構成要素についてはその説明を省略する。
【0085】
<文書作成処理部102の機能構成例>
実施例3における文書作成処理部102の機能構成例を図14に示す。図14に示すように、実施例3における文書作成処理部102には、検索部302と、文書作成部303とが含まれ、検索部302の機能が実施例1と異なる。
【0086】
実施例3における検索部302は、検索対象となる属性(以下、本実施例では、この属性を「対象属性」と呼ぶことにする。)に関する検索条件が与えられると、決定木(全体決定木、部分決定木)を用いて、テンプレート集合の中から当該検索条件を満たすテンプレートを検索する。すなわち、検索部302は、対象属性に関する検索条件を満たすクラスタIDを決定木(全体決定木、部分決定木)により検索し、そのクラスタIDに対応するテンプレート(つまり、そのクラスタIDを持つクラスタ又は葉から作成されたテンプレート)を取得する。
【0087】
このように、実施例3における文書作成処理部102は、インデックスを作成せずに(言い換えれば、決定木をインデックスとして利用して)、テンプレートを検索する。これにより、インデックス作成部301が不要とり、より簡易な実装が可能となる。この場合、図12のステップS201は不要であり、ステップS202においては、検索部302は、決定木を用いて、テンプレート集合の中から検索条件を満たすテンプレートを検索する。その他の点は実施例1と同様である。
【0088】
[評価フェーズ]
以下、評価フェーズについて説明する。
【0089】
<評価処理部103の機能構成例>
一実施例における評価処理部103の機能構成例を図15に示す。図15に示すように、本実施例における評価処理部103には、モデル学習部401と、評価部402とが含まれる。
【0090】
モデル学習部401は、クラスタ作成部203によるクラスタリング結果を評価するための機械学習モデル(以下、評価モデルともいう。)を作成する。評価モデルとしては、マスク済文書集合に含まれる各マスク済文書に対応する文書ベクトルと、それらの各マスク済文書のクラスタリング結果とを入力として、当該クラスタリング結果に関する何等かの評価スコア等を出力する任意の機械学習モデルを採用することができる。評価モデルは、例えば、学習データとして与えられたマスク済文書集合に含まれる各マスク済文書に対応する文書ベクトルと、それらの各マスク済文書のクラスタリング結果と、それらの各マスク済文書を人手で分類した結果を表す教師データとを用いて、教師あり学習等といった手法により作成される。
【0091】
評価部402は、マスク済文書集合に含まれる各マスク済文書に対応する文書ベクトルと、それらの各マスク済文書のクラスタリング結果とを用いて、評価モデルにより評価スコアを計算し、当該クラスタリング結果を評価する。例えば、評価スコアが高いほど良い場合、評価部402は、評価スコアが所定の閾値以上である場合は当該クラスタリング結果を妥当であると評価し、そうでない場合は当該クラスタリング結果を妥当でないと評価する。
【0092】
ただし、上記の評価モデルは一例であって、これに限られるものではなく、例えば、マスク済文書に対応する文書ベクトル(マスク済文書ベクトル)の代わりに、文書に対応するベクトルを入力するものであってもよい。また、例えば、文書ベクトルではなく、その文書ベクトルに対応するマスク済文書(又は、文書)を識別する文書IDを入力するものであってもよい。又は、評価モデルの入力次元を削減するため、例えば、各文書ベクトルの統計値(例えば、各文書ベクトルの平均値等)を入力としてもよいし、各文書IDの統計値を入力としてもよい。
【0093】
<評価処理>
以下、本実施例における評価処理について、図16を参照しながら説明する。ここで、図16のステップS301はクラスタリング結果を評価する前に事前に実施され、ステップS302はクラスタリング結果を評価する都度実施される。ただし、評価モデルを再作成する場合には適宜のタイミングでステップS301が実施される。
【0094】
ステップS301:モデル学習部401は、学習データとして与えられたマスク済文書集合に含まれる各マスク済文書に対応する文書ベクトルと、それらの各マスク済文書のクラスタリング結果と、それらの各マスク済文書を人手で分類した結果を表す教師データとを用いて、教師あり学習等といった手法により評価モデルを作成する。
【0095】
ステップS302:評価部402は、マスク済文書集合に含まれる各マスク済文書に対応する文書ベクトルと、それらの各マスク済文書のクラスタリング結果とを用いて、評価モデルにより評価スコアを計算し、当該クラスタリング結果を評価する。これにより、クラスタ作成部203によるクラスタリング結果が妥当であるか否かを評価することができる。このため、例えば、クラスタリング結果が妥当でない場合には第1の閾値や第2の閾値を変更して再度クラスタリングを行って、適切なテンプレートを作成することが可能となる。
【0096】
[補足]
以下、本実施形態に関する補足事項をいくつか説明する。
【0097】
・決定木(全体決定木、部分決定木)は二分木でもよいし、多分木でもよい。また、回帰木であってもよいし、ランダムフォレストといった手法により作成される複数の決定木であってもよい。
【0098】
・決定木(全体決定木、部分決定木)を作成する際にはその深さを制限してもよい。ただし、決定木の分岐に偏り等があり、不均一である場合には深さ制限により、当該決定木の分類精度が低下する場合がある。具体的には、異なるクラスタに属する文書ベクトルが同一の葉に分類されてしまう場合が多くなる。このため、このような場合、十分な深さ制限を設定したり、適宜、異なるクラスタに属する文書ベクトルによって葉を分割したりすることが好ましい。
【0099】
・上記の実施形態ではマスク済文書集合を用いてクラスタリングと決定木の作成とを行ったが、これに限られず、例えば、文書集合を用いてクラスタリングと決定木の作成とを行った後に、マスク済文書集合を作成してもよい。このとき、文書集合を構成するすべての文書のマスク済文書を作成してもよいが、例えば、テンプレートとして選択される文書のみをマスク済文書としてもよい。
【0100】
・上記の評価フェーズではクラスタリング結果を評価したが、例えば、これに代えて又はこれに加えて、テンプレートを作成したときの代表文書ベクトルの選択が妥当であるか否かを評価するモデルを作成し、このモデルにより代表文書ベクトルの妥当性を評価してもよい。この場合、モデルの学習には、同一クラスタに分類された文書ベクトルと、そのクラスタの代表文書ベクトルとを用いると共に、人手で選択した文書ベクトルを教師データとして用いる。一方で、評価時には、同一クラスタに分類された文書ベクトルと、そのクラスタの代表文書ベクトルとを用いる。
【0101】
・テンプレートを作成する際に、或る属性を追加・削除したり、或る文を追加・削除したりしてもよいが、このとき、属性間の関係性を考慮したり、文同士の係り受け等に基づく関係性を考慮してもよい。例えば、或る属性を削除する際にその属性と関係がある属性を同時に削除したり、或る文を削除する際にその文と係り受けの関係にある文を同時に削除したりしてもよい。同様に、例えば、或る属性を追加する際にその属性と関係がある属性を同時に追加したり、或る文を追加する際にその文と関係がある文を同時に追加したりしてもよい。
【0102】
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。
【0103】
[参考文献]
参考文献1:拡張固有表現,インターネット<URL:http://ene-project.info/>
【符号の説明】
【0104】
10 文書作成装置
101 テンプレート作成処理部
102 文書作成処理部
103 評価処理部
104 記憶部
201 固有表現抽出部
202 マスク部
203 クラスタ作成部
204 決定木作成部
204A 全体決定木作成部
204B 部分決定木作成部
205 終了判定部
206 テンプレート作成部
301 インデックス作成部
302 検索部
303 文書作成部
401 モデル学習部
402 評価部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16