特開2025-151927 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 大日本印刷株式会社の特許一覧

特開2025-151927情報処理装置、情報処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025151927

(43)【公開日】2025-10-09

(54)【発明の名称】情報処理装置、情報処理方法及びプログラム

(51)【国際特許分類】

G06F 40/56 20200101AFI20251002BHJP

G06F 16/35 20250101ALI20251002BHJP

【ＦＩ】

G06F40/56

G06F16/35

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2024053563

(22)【出願日】2024-03-28

(71)【出願人】

【識別番号】000002897

【氏名又は名称】大日本印刷株式会社

(74)【代理人】

【識別番号】110002952

【氏名又は名称】弁理士法人鷲田国際特許事務所

(72)【発明者】

【氏名】加藤啓路

(72)【発明者】

【氏名】福井花菜

(72)【発明者】

【氏名】伊藤直之

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175DA01

5B175FA03

(57)【要約】

【課題】生成モデルを利用して文書データの記載内容の類似度を効率的に判定するための技術を提供することである。
【解決手段】本開示の一態様は、第１の文書データと第２の文書データとを取得する取得部と、前記第１の文書データ内の第１の文章と前記第２の文書データ内の第２の文章との類似度を判定させるためのプロンプトデータを生成するプロンプト生成部と、前記プロンプトデータを生成モデルに入力し、前記生成モデルからの出力結果に基づいて前記第１の文章と前記第２の文章との類似度を判定する類似度判定部と、を有する、情報処理装置に関する。
【選択図】図１

【特許請求の範囲】

【請求項1】

第１の文書データと第２の文書データとを取得する取得部と、
前記第１の文書データ内の第１の文章と前記第２の文書データ内の第２の文章との類似度を判定させるためのプロンプトデータを生成するプロンプト生成部と、
前記プロンプトデータを生成モデルに入力し、前記生成モデルからの出力結果に基づいて前記第１の文章と前記第２の文章との類似度を判定する類似度判定部と、
を有する、情報処理装置。

【請求項2】

前記プロンプト生成部は、文書データのレイアウトに基づいて前記文書データ内の各文章を抽出する、請求項１に記載の情報処理装置。

【請求項3】

前記プロンプト生成部は、前記第１の文書データに含まれる各文章と前記第２の文章データに含まれる各文章との各組み合わせに対して前記プロンプトデータを生成する、請求項１に記載の情報処理装置。

【請求項4】

前記類似度判定部は、文書類似度算出手法による前記第１の文章と前記第２の文章とに対する類似度算出結果にさらに基づいて、前記第１の文章と前記第２の文章との類似度を判定する、請求項１に記載の情報処理装置。

【請求項5】

前記類似度判定部は、前記類似度算出結果による第１の類似度と前記生成モデルからの出力結果による第２の類似度との平均値を、前記第１の文章と前記第２の文章との類似度として判定する、請求項４に記載の情報処理装置。

【請求項6】

前記類似度判定部は、前記文書類似度算出手法に従って前記第１の文章と前記第２の文章との類似度を算出し、前記算出した類似度が所定の閾値以上であるとき、前記プロンプトデータを前記生成モデルに入力する、請求項４に記載の情報処理装置。

【請求項7】

前記類似度判定部は、上位の類似度を有する前記第１の文章と前記第２の文章との組み合わせを提示する、請求項１に記載の情報処理装置。

【請求項8】

前記類似度判定部は、類似度のレベルに応じた表示形態によって、前記第１の文書データに含まれる各文章と前記第２の文章データに含まれる各文章との各組み合わせに対して判定した各類似度を表示する、請求項１に記載の情報処理装置。

【請求項9】

第１の文書データと第２の文書データとを取得することと、
前記第１の文書データ内の第１の文章と前記第２の文書データ内の第２の文章との類似度を判定させるためのプロンプトデータを生成することと、
前記プロンプトデータを生成モデルに入力し、前記生成モデルからの出力結果に基づいて前記第１の文章と前記第２の文章との類似度を判定することと、
を有する、コンピュータが実行する情報処理方法。

【請求項10】

第１の文書データと第２の文書データとを取得することと、
前記第１の文書データ内の第１の文章と前記第２の文書データ内の第２の文章との類似度を判定させるためのプロンプトデータを生成することと、
前記プロンプトデータを生成モデルに入力し、前記生成モデルからの出力結果に基づいて前記第１の文章と前記第２の文章との類似度を判定することと、
をコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、情報処理装置、情報処理方法及びプログラムに関する。

【背景技術】

【0002】

近年のディープラーニングの進展によって、機械学習技術が広範な技術分野に適用されてきている。例えば、自然言語処理の技術分野では、情報抽出、情報検索、要約生成、機械翻訳、音声認識、対話処理などに利用される機械学習モデルの研究開発が進展している。現在、ＣｈａｔＧＰＴ（登録商標）などの生成モデルを利用した自然言語処理が注目されている。

【0003】

例えば、特許文献１は、生成ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）システムを利用して、インターネット上の求人票データ提供ウェブサイトを巡回し、これらのウェブサイトから取得した求人票原データを整形した求人票データを生成することについて記載している。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特許第７３４９２１９号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

多くの企業は、従業員に業務を適切に実行させるため業務マニュアルを作成し、従業員に業務マニュアルに従って業務を実行させるようにしている。このような業務マニュアルは、しばしば業務部門毎に作成され、複数の業務マニュアルに同一又は類似内容が記載されていることが多い。

【0006】

このような業務マニュアルなどの複数の文書を整理・統合する際、現状は作業者が目検で文書を読み、文書を構成する文章などの記載内容の重複分析をしている。このような記載内容の重複分析は、人手によるコストを要する作業となっている。

【0007】

本開示の課題は、生成モデルを利用して文書データの記載内容の類似度を効率的に判定するための技術を提供することである。

【課題を解決するための手段】

【0008】

本開示の一態様は、第１の文書データと第２の文書データとを取得する取得部と、前記第１の文書データ内の第１の文章と前記第２の文書データ内の第２の文章との類似度を判定させるためのプロンプトデータを生成するプロンプト生成部と、前記プロンプトデータを生成モデルに入力し、前記生成モデルからの出力結果に基づいて前記第１の文章と前記第２の文章との類似度を判定する類似度判定部と、を有する、情報処理装置に関する。

【発明の効果】

【0009】

本開示によると、生成モデルを利用して文書データの記載内容の類似度を効率的に判定するための技術を提供することができる。

【図面の簡単な説明】

【0010】

【図1】図１は、本開示の一実施例による重複分析処理を示す概略図である。

【図2】図２は、本開示の一実施例による情報処理装置を示す概略図である。

【図3】図３は、本開示の一実施例による情報処理装置のハードウェア構成を示すブロック図である。

【図4】図４は、本開示の一実施例による情報処理装置の機能構成を示すブロック図である。

【図5】図５Ａ及び５Ｂは、本開示の一実施例によるプロンプトデータ及び出力結果を示す図である。

【図6】図６は、本開示の一実施例による重複分析対象の文章ペアを示す図である。

【図7】図７は、本開示の一実施例による各文章の類似度を示す図である。

【図8】図８は、本開示の一実施例による重複分析処理を示すフローチャートである。

【発明を実施するための形態】

【0011】

以下、図面を参照して本開示の実施の形態を説明する。

【0012】

以下の実施例では、文章間の記載内容の重複を判定する情報処理装置が開示される。

【0013】

［本開示の概略］
後述される実施例による情報処理装置１００は、各文書データが意味のまとまりのある複数の文章から構成されるとき、２つの文書データからそれぞれ抽出した処理対象の２つの文章の記載内容の類似度を判定し、これらの文章の間の重複分析を行う。具体的には、情報処理装置１００は、２つの文書データを取得すると、各文書データから処理対象の文章を抽出し、抽出した２つの文章の類似度を生成モデル５０に判定させるためのプロンプトデータを生成する。そして、情報処理装置１００は、生成したプロンプトデータを生成モデル５０に入力し、生成モデル５０からの出力結果に基づいて処理対象の２つの文章の類似度を判定する。

【0014】

例えば、情報処理装置１００は、図１に示されるように、文書データＡと文書データＢとを取得すると、各文書データから処理対象の文章を抽出する。例えば、処理対象の文章は、見出し、目次、文書レイアウト等に基づいて自動抽出されてもよいし、あるいは、ユーザによって指定されてもよい。

【0015】

処理対象の２つの文章が特定されると、情報処理装置１００は、処理対象の２つの文章の類似度を生成モデル５０に判定させるためのプロンプトデータを生成する。図１に示される例では、プロンプトデータはまず、“以下の文章の内容が類似しているかどうか、もしくは同じ内容かどうか判定してください。類似しているかどうかと同じ内容かどうかと理由を必ず出力してください。”という指示文を含み、次に処理対象の２つの文章１及び文章２とを含む。さらに、プロンプトデータは、出力フォーマット例１～３を規定している。なお、図示されたプロンプトデータは、単なる一例に過ぎず、これに限定されるものでない。

【0016】

プロンプトデータを生成すると、情報処理装置１００は、生成したプロンプトデータを生成モデル５０に入力し、生成モデル５０から出力結果を取得する。例えば、図１に示されたプロンプトデータを生成モデル５０に入力した場合、情報処理装置１００は、図１に示されるような出力結果を取得し、生成モデル５０からの出力結果に基づいて処理対象の２つの文章の重複分析を実行する。図示された例では、処理対象の２つの文章について、“類似しているが同じ内容ではない”という結果とともに、その理由が示されおり、情報処理装置１００は、処理対象の２つの文章の類似性を判定しうる。

【0017】

すなわち、図２に示されるように、情報処理装置１００は、比較対象の２つの文書データを取得すると、取得した各文書データから処理対象の文章をそれぞれ抽出し、抽出した２つの文章の類似度を生成モデル５０に判定させるためのプロンプトデータを生成する。そして、情報処理装置１００は、生成したプロンプトデータを生成モデル５０に入力し、生成モデル５０から出力結果を取得する。情報処理装置１００は、取得した出力結果に基づいて処理対象の２つの文章の類似度を判定する。

【0018】

図示された実施例では、生成モデル５０は、例えば、ＣｈａｔＧＰＴ（登録商標）などで利用される言語モデルであってもよく、典型的には、情報処理装置１００の外部のサーバ等に運営・管理されている。しかしながら、本開示は、これに限定されず、例えば、生成モデル５０は、情報処理装置１００に格納されて実行されてもよい。

【0019】

このようにして、情報処理装置１００は、生成モデル５０を利用して、文書データの文章間の記載内容に対する重複分析をすることが可能になる。

【0020】

ここで、情報処理装置１００は、サーバ、パーソナルコンピュータ（ＰＣ）、スマートフォン、タブレット等の計算装置によって実現されてもよく、例えば、図３に示されるようなハードウェア構成を有してもよい。すなわち、情報処理装置１００は、バスＢを介し相互接続されるドライブ装置１０１、ストレージ装置１０２、メモリ装置１０３、プロセッサ１０４、ユーザインタフェース（ＵＩ）装置１０５及び通信装置１０６を有する。

【0021】

情報処理装置１００における各種機能及び処理を実現するプログラム又は指示は、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋ－ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ等の着脱可能な記憶媒体に格納されてもよい。当該記憶媒体がドライブ装置１０１にセットされると、プログラム又は指示が記憶媒体からドライブ装置１０１を介しストレージ装置１０２又はメモリ装置１０３にインストールされる。ただし、プログラム又は指示は、必ずしも記憶媒体からインストールされる必要はなく、ネットワークなどを介し何れかの外部装置からダウンロードされてもよい。

【0022】

ストレージ装置１０２は、ハードディスクドライブなどによって実現され、インストールされたプログラム又は指示と共に、プログラム又は指示の実行に用いられるファイル、データ等を格納する。

【0023】

メモリ装置１０３は、ランダムアクセスメモリ、スタティックメモリ等によって実現され、プログラム又は指示が起動されると、ストレージ装置１０２からプログラム又は指示、データ等を読み出して格納する。ストレージ装置１０２、メモリ装置１０３及び着脱可能な記憶媒体は、非一時的な記憶媒体（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｓｔｏｒａｇｅｍｅｄｉｕｍ）として総称されてもよい。

【0024】

プロセッサ１０４は、１つ以上のプロセッサコアから構成されうる１つ以上のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、処理回路（ｐｒｏｃｅｓｓｉｎｇｃｉｒｃｕｉｔｒｙ）等によって実現されてもよく、メモリ装置１０３に格納されたプログラム、指示、当該プログラム若しくは指示を実行するのに必要なパラメータなどのデータ等に従って、情報処理装置１００の各種機能及び処理を実行する。

【0025】

ユーザインタフェース（ＵＩ）装置１０５は、キーボード、マウス、カメラ、マイクロフォン等の入力装置、ディスプレイ、スピーカ、ヘッドセット、プリンタ等の出力装置、タッチパネル等の入出力装置から構成されてもよく、ユーザと情報処理装置１００との間のインタフェースを実現する。例えば、ユーザは、ディスプレイ又はタッチパネルに表示されたＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）をキーボード、マウス等を操作し、情報処理装置１００を操作する。

【0026】

通信装置１０６は、外部装置、インターネット、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、セルラーネットワーク等の通信ネットワークとの有線及び／又は無線通信処理を実行する各種通信回路により実現される。

【0027】

しかしながら、上述したハードウェア構成は単なる一例であり、本開示による情報処理装置１００は、他の何れか適切なハードウェア構成により実現されてもよい。

【0028】

［情報処理装置］
図４は、本開示の一実施例による情報処理装置１００の機能構成を示すブロック図である。図４に示されるように、情報処理装置１００は、取得部１１０、プロンプト生成部１２０及び類似度判定部１３０を有する。取得部１１０、プロンプト生成部１２０及び類似度判定部１３０の各機能部は、情報処理装置１００のメモリ装置１０３に格納されているコンピュータプログラムがプロセッサ１０４によって実行されることによって実現されてもよい。

【0029】

取得部１１０は、第１の文書データと第２の文書データとを取得する。ここで、文書データは、上述したような業務マニュアルに限定されず、例えば、任意の文書データであってもよい。ここでの文書データは、ＷＯＲＤファイルなどのファイル形式に限定されず、テキストデータ、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）データ、Ｅｘｃｅｌファイル、ＰｏｗｅｒＰｏｉｎｔファイル、ＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）ファイルなど、文章を含む任意のファイル形式の電子データなどであってもよい。また、文書データは、英数字等の文字だけでなく、図や画像などを含むものであってもよい。

【0030】

プロンプト生成部１２０は、第１の文書データ内の第１の文章と第２の文書データ内の第２の文章との類似度を判定させるためのプロンプトデータを生成する。具体的には、プロンプト生成部１２０は、取得した２つの文書データのそれぞれから処理対象の文章を抽出し、抽出した２つの文章の類似度を生成モデル５０に判定させるためのプロンプトデータを生成する。

【0031】

一実施例では、プロンプト生成部１２０は、各文書データのレイアウトに基づいて文書データ内の各文章を抽出してもよい。一般に、文書データは、意味のまとまりによって章立てされるなど構造化された複数の文章から構成（レイアウト化）され、各文章には、見出しなどが設けられ、まとまった記載内容であることが示されている。プロンプト生成部１２０は、何れか公知の見出し／レイアウト抽出技術に従ってこのような文書データの見出しやレイアウトを特定し、文書データ内の各文章を抽出することができる。

【0032】

処理対象の２つの文章を特定すると、プロンプト生成部１２０は、生成モデル５０に特定した２つの文章の類似度を判定させるためのプロンプトデータを生成する。例えば、処理対象の文章１として「署名に関しても申込データの作成方法と同じく３種類あります。直接窓口で作成する方法と、ＰＣを用いてインターネットで行う方法と、タブレット端末を用いて行う方法です。」と、処理対象の文章２として「＜契約Ａの申込データの作成方法＞契約Ａの申込データの作成方法は３種類あります。直接窓口で作成する方法と、ＰＣを用いてインターネットで行う方法と、タブレット端末を用いて行う方法です。」とを特定すると、プロンプト生成部１２０は、図５Ａに示されるように、これら２つの文書１及び文章２の類似度を０～１の値によって判定させるための指示文、処理対象の文章１及び文章２、及び出力フォーマット例を記述したプロンプトデータを生成してもよい。

【0033】

図５Ａに示されたプロンプトデータでは、指示文として「以下の文章の内容の類似度を判定してください。類似度は０～１の範囲で出力してください。類似しているかどうかと同じ内容かどうかと理由を必ず出力してください。」が記述される。この指示文によって、生成モデル５０は、プロンプトデータにおける指示内容を認識することができうる。

【0034】

次に、処理対象の文章１として、文書データＡ内の当該文章のコピー「＃＃＃文章１：署名に関しても申込データの作成方法と同じく３種類あります。直接窓口で作成する方法と、ＰＣを用いてインターネットで行う方法と、タブレット端末を用いて行う方法です。」が記述される。また、処理対象の文章２として、文書データＢ内の当該文章のコピー「＃＃＃文章２：＜契約Ａの申込データの作成方法＞契約Ａの申込データの作成方法は３種類あります。直接窓口で作成する方法と、ＰＣを用いてインターネットで行う方法と、タブレット端末を用いて行う方法です。」が記述される。“＃＃＃文章”によって、指示文の“文章”を明確に規定しうる。

【0035】

最後に、出力フォーマット例として「＃＃＃出力フォーマット例１：＃＃＃出力フォーマット例１：結果：０．０理由：○○○ ＃＃＃出力フォーマット例２：結果：１．０理由：○○○」が記述される。当該記述によって、生成モデル５０からの出力結果の書式を規定しうる。

【0036】

プロンプト生成部１２０は、図５Ａに示されるようなプロンプトデータを生成し、生成したプロンプトデータを類似度判定部１３０にわたす。また、プロンプト生成部１２０は、上述したプロンプトデータのうち“＃＃＃文章１：～”及び“＃＃＃文章２：～”の箇所に文書データＡ及びＢにおける処理対象の各文章を入力し、文章データ内の複数の文章を処理してもよい。なお、図示されたプロンプトデータは、単なる一例であり、他の何れか適切な書式の記述内容から構成されてもよい。

【0037】

ここで、文書データが図、表、画像などの非テキストデータを含むケースがある。この場合、プロンプト生成部１２０は、文書データ内の非テキストデータをテキストデータに変換し、テキストデータをプロンプトデータに記述してもよい。具体的には、プロンプト生成部１２０は、ＯＣＲや画像認識ＡＩなどの何れか公知の変換ツールを利用して、図、表や画像などをテキストデータに変換し、当該テキストデータを処理対象の文章に含めるようにしてもよい。なお、生成モデル５０が、テキストデータ以外のデータ形式のデータを処理可能なマルチモーダルタイプの生成モデルである場合、プロンプト生成部１２０は、図、表、画像などの非テキストデータを処理対象の文章としてそのまま含むプロンプトデータを生成してもよい。

【0038】

類似度判定部１３０は、プロンプトデータを生成モデル５０に入力し、生成モデル５０からの出力結果に基づいて第１の文章と第２の文章との類似度を判定する。例えば、図５Ａに示されるようなプロンプトデータをプロンプト生成部１２０から取得すると、類似度判定部１３０は、取得したプロンプトデータを生成モデル５０に入力する。このとき、生成モデル５０は、図５Ｂに示されるような出力結果を生成し、類似度判定部１３０は、当該出力結果を生成モデル５０から取得する。この出力結果によると、類似度０．９１が記載されるとともに、当該類似度を決定した理由が記載されている。類似度判定部１３０は、取得した出力結果とともに、処理対象の２つの文章の見出しを表示してもよい。

【0039】

ここでの類似度は、例えば、処理対象の２つの文章がどの程度類似しているかを示すものであり、図示したプロンプトデータでは、０～１の実数として決定される。しかしながら、本開示による類似度は、必ずしもこれに限定されるものでない。例えば、類似度が０に近いほど、処理対象の２つの文章は類似している可能性が低く、類似度が１に近いほど、処理対象の２つの文章は類似している可能性が高いと解釈されうる。しかしながら、本開示による類似度は、これに限定されるものでない。例えば、類似度は、同一か否か及び／又は類似しているか否かを示すものであってもよいし、あるいは、類似性を示す複数の離散的なレベルを示すものであってもよいし、あるいは、他の範囲の実数値であってもよい。

【0040】

２つの文書データから抽出された処理対象の２つの文章の類似度を判定することができることを上述したが、２つの文書データが与えられたとき、プロンプト生成部１２０は、第１の文書データに含まれる各文章と第２の文章データに含まれる各文章との各組み合わせに対してプロンプトデータを生成し、これによって、２つの文書データに含まれる各文章ペアの類似度を順次判定してもよい。

【0041】

すなわち、プロンプト生成部１２０は、図６に示されるように、２つの文書データとしてマニュアルＡとマニュアルＢとを取得すると、マニュアルＡを構成する文章とマニュアルＢを構成する文章とをそれぞれ抽出し、マニュアルＡの文章とマニュアルＢの文章とをペアリングする。例えば、マニュアルＡの文章とマニュアルＢの文章とのペアリングは、図示されるように、“総当たり”方式で行われてもよい。このようにしてペアリングされたマニュアルＡの文章とマニュアルＢの文章との各組み合わせに対して、プロンプト生成部１２０は、これら２つの文章の類似度を生成モデル５０に判定させるためのプロンプトデータを生成し、生成したプロンプトデータを類似度判定部１３０にわたす。

【0042】

類似度判定部１３０は、各文章ペアに対して生成されたプロンプトデータを生成モデル５０に入力し、当該文章ペアの類似度を判定すると、上位の類似度を有する文章ペアを提示してもよい。例えば、図６に示されるマニュアルＡとマニュアルＢとの文章の各組み合わせの類似度を判定すると、類似度判定部１３０は、図７に示されるような表形式のデータに整形して、マニュアルＡの各文章とマニュアルＢの各文章との間の類似度を記録してもよい。例えば、図示された表形式のデータによると、マニュアルＡの“申込データの作成”とマニュアルＢの“１－１．申込手順”との類似度は０．９２であることがわかる。

【0043】

また、類似度判定部１３０は、類似度のレベルに応じた表示形態によって、第１の文書データに含まれる各文章と第２の文章データに含まれる各文章との各組み合わせに対して判定した各類似度を表示してもよい。例えば、類似度判定部１３０は、類似度の高さに応じて類似度をカラー化又はグレースケール化して、視覚的に強調表示してもよい。

【0044】

一実施例では、類似度判定部１３０は、文書類似度算出手法による第１の文章と第２の文章とに対する類似度算出結果にさらに基づいて、第１の文章と第２の文章との類似度を判定してもよい。すなわち、類似度判定部１３０は、上述した生成モデル５０からの出力結果と、ＴＦ－ＩＤＦ（ＴｅｒｍＦｒｑｕｅｎｃｙ－ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｑｕｅｎｃｙ）、編集距離などの何れか公知の自然言語処理による文書類似度算出手法による類似度算出結果とを併用して、処理対象の文章ペアの類似度を判定してもよい。

【0045】

例えば、類似度判定部１３０は、ＴＦ－ＩＤＦ、編集距離などの文書類似度算出手法による文章ペアに対する類似度算出結果による第１の類似度と、生成モデル５０からの出力結果による第２の類似度との平均値を、処理対象の文章ペアの類似度として判定してもよい。具体的には、類似度判定部１３０は、ＴＦ－ＩＤＦ、編集距離などの何れかの文書類似度算出手法に従って処理対象の文章ペアの第１の類似度を導出し、また、生成モデル５０からの出力結果による第２の類似度を導出する。そして、類似度判定部１３０は、導出した２つの類似度の平均値を当該文章ペアの類似度として決定してもよい。これにより、何れかの文書類似度算出手法と生成モデル５０との２つの類似度を考慮して、処理対象の文章ペアの類似度を判定することができる。

【0046】

また、類似度判定部１３０は、文書類似度算出手法に従って第１の文章と第２の文章との類似度を算出し、算出した類似度が所定の閾値以上であるときプロンプトデータを生成モデル５０に入力してもよい。すなわち、類似度判定部１３０はまず、ＴＦ－ＩＤＦ、編集距離などの文書類似度算出手法に従って処理対象の文章ペアの類似度を算出し、当該類似度が所定の閾値以上である場合に、生成モデル５０を利用した重複分析を実行するようにしてもよい。これにより、文書類似度算出手法により類似度が高いと判定された文章ペアに対してさらに生成モデル５０を利用して、重複分析をすることができる。

【0047】

［重複分析処理］
次に、図８を参照して、本開示の一実施例による重複分析処理を説明する。図８は、本開示の一実施例による重複分析処理を示すフローチャートである。当該重複分析処理は、例えば、情報処理装置１００によって実行され、より詳細には、情報処理装置１００のプロセッサ１０４がメモリ装置１０３に格納されたコンピュータプログラム又は指示を実行することによって実現されてもよい。また、当該重複分析処理は、ネットワークを介し連携して各ステップを実行する複数の情報処理装置１００によって実現されてもよい。

【0048】

ステップＳ１０１において、情報処理装置１００は、第１の文書データと第２の文書データとを取得する。例えば、これらの文書データは、ユーザによって提供されてもよいし、あるいは、データベースから抽出されてもよい。

【0049】

ステップＳ１０２において、情報処理装置１００は、第１の文書データと第２の文書データとから文章ペアを抽出する。例えば、情報処理装置１００は、各文書データの見出しやレイアウトに基づいて各文書データを構成する各文章を特定し、第１の文書データにおいて特定された文章と、第２の文書データにおいて特定された文章とをペアリングする。

【0050】

ステップＳ１０３において、情報処理装置１００は、文章ペアの類似度を生成モデル５０に判定させるためのプロンプトデータを生成する。このようなプロンプトデータは、典型的には、テキストデータとして生成され、当該テキストデータには、処理対象の文章ペアを含むとともに、当該文章ペアの類似度を判定させるための指示文を含むよう構成されてもよい。

【0051】

ステップＳ１０４において、情報処理装置１００は、プロンプトデータを生成モデル５０に入力する。

【0052】

ステップＳ１０５において、情報処理装置１００は、生成モデル５０から出力結果を取得する。

【0053】

ステップＳ１０６において、情報処理装置１００は、出力結果に基づいて文章ペアの類似度を判定する。例えば、情報処理装置１００は、図７に示されるような表形式の整形されたデータに判定した類似度を記録してもよい。

【0054】

ステップＳ１０７において、情報処理装置１００は、第１の文書データと第２の文書データとから抽出された文章ペアの全てに対して類似度を判定したか判断する。全ての文章ペアの類似度を判定した場合（Ｓ１０７：ＹＥＳ）、情報処理装置１００は、当該重複分析処理を終了する。他方、全ての文章ペアの類似度を判定していない場合（Ｓ１０７：ＮＯ）、情報処理装置１００は、ステップＳ１０２に戻って、次の文章ペアを処理する。

【0055】

上述した実施例によると、生成モデル５０を利用して、文書データを構成する文章ペアの記載内容の類似度を効率的に判定することが可能になる。

【0056】

以上、本開示の実施例について詳述したが、本開示は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本開示の要旨の範囲内において、種々の変形・変更が可能である。

【符号の説明】

【0057】

５０生成モデル
１００情報処理装置
１１０取得部
１２０プロンプト生成部
１３０類似度判定部

【図1】