(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025151927
(43)【公開日】2025-10-09
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
G06F 40/56 20200101AFI20251002BHJP
G06F 16/35 20250101ALI20251002BHJP
【FI】
G06F40/56
G06F16/35
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2024053563
(22)【出願日】2024-03-28
(71)【出願人】
【識別番号】000002897
【氏名又は名称】大日本印刷株式会社
(74)【代理人】
【識別番号】110002952
【氏名又は名称】弁理士法人鷲田国際特許事務所
(72)【発明者】
【氏名】加藤 啓路
(72)【発明者】
【氏名】福井 花菜
(72)【発明者】
【氏名】伊藤 直之
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
(57)【要約】
【課題】生成モデルを利用して文書データの記載内容の類似度を効率的に判定するための技術を提供することである。
【解決手段】本開示の一態様は、第1の文書データと第2の文書データとを取得する取得部と、前記第1の文書データ内の第1の文章と前記第2の文書データ内の第2の文章との類似度を判定させるためのプロンプトデータを生成するプロンプト生成部と、前記プロンプトデータを生成モデルに入力し、前記生成モデルからの出力結果に基づいて前記第1の文章と前記第2の文章との類似度を判定する類似度判定部と、を有する、情報処理装置に関する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
第1の文書データと第2の文書データとを取得する取得部と、
前記第1の文書データ内の第1の文章と前記第2の文書データ内の第2の文章との類似度を判定させるためのプロンプトデータを生成するプロンプト生成部と、
前記プロンプトデータを生成モデルに入力し、前記生成モデルからの出力結果に基づいて前記第1の文章と前記第2の文章との類似度を判定する類似度判定部と、
を有する、情報処理装置。
【請求項2】
前記プロンプト生成部は、文書データのレイアウトに基づいて前記文書データ内の各文章を抽出する、請求項1に記載の情報処理装置。
【請求項3】
前記プロンプト生成部は、前記第1の文書データに含まれる各文章と前記第2の文章データに含まれる各文章との各組み合わせに対して前記プロンプトデータを生成する、請求項1に記載の情報処理装置。
【請求項4】
前記類似度判定部は、文書類似度算出手法による前記第1の文章と前記第2の文章とに対する類似度算出結果にさらに基づいて、前記第1の文章と前記第2の文章との類似度を判定する、請求項1に記載の情報処理装置。
【請求項5】
前記類似度判定部は、前記類似度算出結果による第1の類似度と前記生成モデルからの出力結果による第2の類似度との平均値を、前記第1の文章と前記第2の文章との類似度として判定する、請求項4に記載の情報処理装置。
【請求項6】
前記類似度判定部は、前記文書類似度算出手法に従って前記第1の文章と前記第2の文章との類似度を算出し、前記算出した類似度が所定の閾値以上であるとき、前記プロンプトデータを前記生成モデルに入力する、請求項4に記載の情報処理装置。
【請求項7】
前記類似度判定部は、上位の類似度を有する前記第1の文章と前記第2の文章との組み合わせを提示する、請求項1に記載の情報処理装置。
【請求項8】
前記類似度判定部は、類似度のレベルに応じた表示形態によって、前記第1の文書データに含まれる各文章と前記第2の文章データに含まれる各文章との各組み合わせに対して判定した各類似度を表示する、請求項1に記載の情報処理装置。
【請求項9】
第1の文書データと第2の文書データとを取得することと、
前記第1の文書データ内の第1の文章と前記第2の文書データ内の第2の文章との類似度を判定させるためのプロンプトデータを生成することと、
前記プロンプトデータを生成モデルに入力し、前記生成モデルからの出力結果に基づいて前記第1の文章と前記第2の文章との類似度を判定することと、
を有する、コンピュータが実行する情報処理方法。
【請求項10】
第1の文書データと第2の文書データとを取得することと、
前記第1の文書データ内の第1の文章と前記第2の文書データ内の第2の文章との類似度を判定させるためのプロンプトデータを生成することと、
前記プロンプトデータを生成モデルに入力し、前記生成モデルからの出力結果に基づいて前記第1の文章と前記第2の文章との類似度を判定することと、
をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
近年のディープラーニングの進展によって、機械学習技術が広範な技術分野に適用されてきている。例えば、自然言語処理の技術分野では、情報抽出、情報検索、要約生成、機械翻訳、音声認識、対話処理などに利用される機械学習モデルの研究開発が進展している。現在、ChatGPT(登録商標)などの生成モデルを利用した自然言語処理が注目されている。
【0003】
例えば、特許文献1は、生成AI(Artificial Intelligence)システムを利用して、インターネット上の求人票データ提供ウェブサイトを巡回し、これらのウェブサイトから取得した求人票原データを整形した求人票データを生成することについて記載している。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
多くの企業は、従業員に業務を適切に実行させるため業務マニュアルを作成し、従業員に業務マニュアルに従って業務を実行させるようにしている。このような業務マニュアルは、しばしば業務部門毎に作成され、複数の業務マニュアルに同一又は類似内容が記載されていることが多い。
【0006】
このような業務マニュアルなどの複数の文書を整理・統合する際、現状は作業者が目検で文書を読み、文書を構成する文章などの記載内容の重複分析をしている。このような記載内容の重複分析は、人手によるコストを要する作業となっている。
【0007】
本開示の課題は、生成モデルを利用して文書データの記載内容の類似度を効率的に判定するための技術を提供することである。
【課題を解決するための手段】
【0008】
本開示の一態様は、第1の文書データと第2の文書データとを取得する取得部と、前記第1の文書データ内の第1の文章と前記第2の文書データ内の第2の文章との類似度を判定させるためのプロンプトデータを生成するプロンプト生成部と、前記プロンプトデータを生成モデルに入力し、前記生成モデルからの出力結果に基づいて前記第1の文章と前記第2の文章との類似度を判定する類似度判定部と、を有する、情報処理装置に関する。
【発明の効果】
【0009】
本開示によると、生成モデルを利用して文書データの記載内容の類似度を効率的に判定するための技術を提供することができる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、本開示の一実施例による重複分析処理を示す概略図である。
【
図2】
図2は、本開示の一実施例による情報処理装置を示す概略図である。
【
図3】
図3は、本開示の一実施例による情報処理装置のハードウェア構成を示すブロック図である。
【
図4】
図4は、本開示の一実施例による情報処理装置の機能構成を示すブロック図である。
【
図5】
図5A及び5Bは、本開示の一実施例によるプロンプトデータ及び出力結果を示す図である。
【
図6】
図6は、本開示の一実施例による重複分析対象の文章ペアを示す図である。
【
図7】
図7は、本開示の一実施例による各文章の類似度を示す図である。
【
図8】
図8は、本開示の一実施例による重複分析処理を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、図面を参照して本開示の実施の形態を説明する。
【0012】
以下の実施例では、文章間の記載内容の重複を判定する情報処理装置が開示される。
【0013】
[本開示の概略]
後述される実施例による情報処理装置100は、各文書データが意味のまとまりのある複数の文章から構成されるとき、2つの文書データからそれぞれ抽出した処理対象の2つの文章の記載内容の類似度を判定し、これらの文章の間の重複分析を行う。具体的には、情報処理装置100は、2つの文書データを取得すると、各文書データから処理対象の文章を抽出し、抽出した2つの文章の類似度を生成モデル50に判定させるためのプロンプトデータを生成する。そして、情報処理装置100は、生成したプロンプトデータを生成モデル50に入力し、生成モデル50からの出力結果に基づいて処理対象の2つの文章の類似度を判定する。
【0014】
例えば、情報処理装置100は、
図1に示されるように、文書データAと文書データBとを取得すると、各文書データから処理対象の文章を抽出する。例えば、処理対象の文章は、見出し、目次、文書レイアウト等に基づいて自動抽出されてもよいし、あるいは、ユーザによって指定されてもよい。
【0015】
処理対象の2つの文章が特定されると、情報処理装置100は、処理対象の2つの文章の類似度を生成モデル50に判定させるためのプロンプトデータを生成する。
図1に示される例では、プロンプトデータはまず、“以下の文章の内容が類似しているかどうか、もしくは同じ内容かどうか判定してください。類似しているかどうかと同じ内容かどうかと理由を必ず出力してください。”という指示文を含み、次に処理対象の2つの文章1及び文章2とを含む。さらに、プロンプトデータは、出力フォーマット例1~3を規定している。なお、図示されたプロンプトデータは、単なる一例に過ぎず、これに限定されるものでない。
【0016】
プロンプトデータを生成すると、情報処理装置100は、生成したプロンプトデータを生成モデル50に入力し、生成モデル50から出力結果を取得する。例えば、
図1に示されたプロンプトデータを生成モデル50に入力した場合、情報処理装置100は、
図1に示されるような出力結果を取得し、生成モデル50からの出力結果に基づいて処理対象の2つの文章の重複分析を実行する。図示された例では、処理対象の2つの文章について、“類似しているが同じ内容ではない”という結果とともに、その理由が示されおり、情報処理装置100は、処理対象の2つの文章の類似性を判定しうる。
【0017】
すなわち、
図2に示されるように、情報処理装置100は、比較対象の2つの文書データを取得すると、取得した各文書データから処理対象の文章をそれぞれ抽出し、抽出した2つの文章の類似度を生成モデル50に判定させるためのプロンプトデータを生成する。そして、情報処理装置100は、生成したプロンプトデータを生成モデル50に入力し、生成モデル50から出力結果を取得する。情報処理装置100は、取得した出力結果に基づいて処理対象の2つの文章の類似度を判定する。
【0018】
図示された実施例では、生成モデル50は、例えば、ChatGPT(登録商標)などで利用される言語モデルであってもよく、典型的には、情報処理装置100の外部のサーバ等に運営・管理されている。しかしながら、本開示は、これに限定されず、例えば、生成モデル50は、情報処理装置100に格納されて実行されてもよい。
【0019】
このようにして、情報処理装置100は、生成モデル50を利用して、文書データの文章間の記載内容に対する重複分析をすることが可能になる。
【0020】
ここで、情報処理装置100は、サーバ、パーソナルコンピュータ(PC)、スマートフォン、タブレット等の計算装置によって実現されてもよく、例えば、
図3に示されるようなハードウェア構成を有してもよい。すなわち、情報処理装置100は、バスBを介し相互接続されるドライブ装置101、ストレージ装置102、メモリ装置103、プロセッサ104、ユーザインタフェース(UI)装置105及び通信装置106を有する。
【0021】
情報処理装置100における各種機能及び処理を実現するプログラム又は指示は、CD-ROM(Compact Disk-Read Only Memory)、フラッシュメモリ等の着脱可能な記憶媒体に格納されてもよい。当該記憶媒体がドライブ装置101にセットされると、プログラム又は指示が記憶媒体からドライブ装置101を介しストレージ装置102又はメモリ装置103にインストールされる。ただし、プログラム又は指示は、必ずしも記憶媒体からインストールされる必要はなく、ネットワークなどを介し何れかの外部装置からダウンロードされてもよい。
【0022】
ストレージ装置102は、ハードディスクドライブなどによって実現され、インストールされたプログラム又は指示と共に、プログラム又は指示の実行に用いられるファイル、データ等を格納する。
【0023】
メモリ装置103は、ランダムアクセスメモリ、スタティックメモリ等によって実現され、プログラム又は指示が起動されると、ストレージ装置102からプログラム又は指示、データ等を読み出して格納する。ストレージ装置102、メモリ装置103及び着脱可能な記憶媒体は、非一時的な記憶媒体(non-transitory storage medium)として総称されてもよい。
【0024】
プロセッサ104は、1つ以上のプロセッサコアから構成されうる1つ以上のCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、処理回路(processing circuitry)等によって実現されてもよく、メモリ装置103に格納されたプログラム、指示、当該プログラム若しくは指示を実行するのに必要なパラメータなどのデータ等に従って、情報処理装置100の各種機能及び処理を実行する。
【0025】
ユーザインタフェース(UI)装置105は、キーボード、マウス、カメラ、マイクロフォン等の入力装置、ディスプレイ、スピーカ、ヘッドセット、プリンタ等の出力装置、タッチパネル等の入出力装置から構成されてもよく、ユーザと情報処理装置100との間のインタフェースを実現する。例えば、ユーザは、ディスプレイ又はタッチパネルに表示されたGUI(Graphical User Interface)をキーボード、マウス等を操作し、情報処理装置100を操作する。
【0026】
通信装置106は、外部装置、インターネット、LAN(Local Area Network)、セルラーネットワーク等の通信ネットワークとの有線及び/又は無線通信処理を実行する各種通信回路により実現される。
【0027】
しかしながら、上述したハードウェア構成は単なる一例であり、本開示による情報処理装置100は、他の何れか適切なハードウェア構成により実現されてもよい。
【0028】
[情報処理装置]
図4は、本開示の一実施例による情報処理装置100の機能構成を示すブロック図である。
図4に示されるように、情報処理装置100は、取得部110、プロンプト生成部120及び類似度判定部130を有する。取得部110、プロンプト生成部120及び類似度判定部130の各機能部は、情報処理装置100のメモリ装置103に格納されているコンピュータプログラムがプロセッサ104によって実行されることによって実現されてもよい。
【0029】
取得部110は、第1の文書データと第2の文書データとを取得する。ここで、文書データは、上述したような業務マニュアルに限定されず、例えば、任意の文書データであってもよい。ここでの文書データは、WORDファイルなどのファイル形式に限定されず、テキストデータ、HTML(HyperText Markup Language)データ、Excelファイル、PowerPointファイル、PDF(Portable Document Format)ファイルなど、文章を含む任意のファイル形式の電子データなどであってもよい。また、文書データは、英数字等の文字だけでなく、図や画像などを含むものであってもよい。
【0030】
プロンプト生成部120は、第1の文書データ内の第1の文章と第2の文書データ内の第2の文章との類似度を判定させるためのプロンプトデータを生成する。具体的には、プロンプト生成部120は、取得した2つの文書データのそれぞれから処理対象の文章を抽出し、抽出した2つの文章の類似度を生成モデル50に判定させるためのプロンプトデータを生成する。
【0031】
一実施例では、プロンプト生成部120は、各文書データのレイアウトに基づいて文書データ内の各文章を抽出してもよい。一般に、文書データは、意味のまとまりによって章立てされるなど構造化された複数の文章から構成(レイアウト化)され、各文章には、見出しなどが設けられ、まとまった記載内容であることが示されている。プロンプト生成部120は、何れか公知の見出し/レイアウト抽出技術に従ってこのような文書データの見出しやレイアウトを特定し、文書データ内の各文章を抽出することができる。
【0032】
処理対象の2つの文章を特定すると、プロンプト生成部120は、生成モデル50に特定した2つの文章の類似度を判定させるためのプロンプトデータを生成する。例えば、処理対象の文章1として「署名に関しても申込データの作成方法と同じく3種類あります。直接窓口で作成する方法と、PCを用いてインターネットで行う方法と、タブレット端末を用いて行う方法です。」と、処理対象の文章2として「<契約Aの申込データの作成方法>契約Aの申込データの作成方法は3種類あります。直接窓口で作成する方法と、PCを用いてインターネットで行う方法と、タブレット端末を用いて行う方法です。」とを特定すると、プロンプト生成部120は、
図5Aに示されるように、これら2つの文書1及び文章2の類似度を0~1の値によって判定させるための指示文、処理対象の文章1及び文章2、及び出力フォーマット例を記述したプロンプトデータを生成してもよい。
【0033】
図5Aに示されたプロンプトデータでは、指示文として「以下の文章の内容の類似度を判定してください。類似度は0~1の範囲で出力してください。類似しているかどうかと同じ内容かどうかと理由を必ず出力してください。」が記述される。この指示文によって、生成モデル50は、プロンプトデータにおける指示内容を認識することができうる。
【0034】
次に、処理対象の文章1として、文書データA内の当該文章のコピー「###文章1:署名に関しても申込データの作成方法と同じく3種類あります。直接窓口で作成する方法と、PCを用いてインターネットで行う方法と、タブレット端末を用いて行う方法です。」が記述される。また、処理対象の文章2として、文書データB内の当該文章のコピー「###文章2:<契約Aの申込データの作成方法>契約Aの申込データの作成方法は3種類あります。直接窓口で作成する方法と、PCを用いてインターネットで行う方法と、タブレット端末を用いて行う方法です。」が記述される。“###文章”によって、指示文の“文章”を明確に規定しうる。
【0035】
最後に、出力フォーマット例として「###出力フォーマット例1:###出力フォーマット例1:結果:0.0 理由:○○○ ###出力フォーマット例2:結果:1.0 理由:○○○」が記述される。当該記述によって、生成モデル50からの出力結果の書式を規定しうる。
【0036】
プロンプト生成部120は、
図5Aに示されるようなプロンプトデータを生成し、生成したプロンプトデータを類似度判定部130にわたす。また、プロンプト生成部120は、上述したプロンプトデータのうち“###文章1:~”及び“###文章2:~”の箇所に文書データA及びBにおける処理対象の各文章を入力し、文章データ内の複数の文章を処理してもよい。なお、図示されたプロンプトデータは、単なる一例であり、他の何れか適切な書式の記述内容から構成されてもよい。
【0037】
ここで、文書データが図、表、画像などの非テキストデータを含むケースがある。この場合、プロンプト生成部120は、文書データ内の非テキストデータをテキストデータに変換し、テキストデータをプロンプトデータに記述してもよい。具体的には、プロンプト生成部120は、OCRや画像認識AIなどの何れか公知の変換ツールを利用して、図、表や画像などをテキストデータに変換し、当該テキストデータを処理対象の文章に含めるようにしてもよい。なお、生成モデル50が、テキストデータ以外のデータ形式のデータを処理可能なマルチモーダルタイプの生成モデルである場合、プロンプト生成部120は、図、表、画像などの非テキストデータを処理対象の文章としてそのまま含むプロンプトデータを生成してもよい。
【0038】
類似度判定部130は、プロンプトデータを生成モデル50に入力し、生成モデル50からの出力結果に基づいて第1の文章と第2の文章との類似度を判定する。例えば、
図5Aに示されるようなプロンプトデータをプロンプト生成部120から取得すると、類似度判定部130は、取得したプロンプトデータを生成モデル50に入力する。このとき、生成モデル50は、
図5Bに示されるような出力結果を生成し、類似度判定部130は、当該出力結果を生成モデル50から取得する。この出力結果によると、類似度0.91が記載されるとともに、当該類似度を決定した理由が記載されている。類似度判定部130は、取得した出力結果とともに、処理対象の2つの文章の見出しを表示してもよい。
【0039】
ここでの類似度は、例えば、処理対象の2つの文章がどの程度類似しているかを示すものであり、図示したプロンプトデータでは、0~1の実数として決定される。しかしながら、本開示による類似度は、必ずしもこれに限定されるものでない。例えば、類似度が0に近いほど、処理対象の2つの文章は類似している可能性が低く、類似度が1に近いほど、処理対象の2つの文章は類似している可能性が高いと解釈されうる。しかしながら、本開示による類似度は、これに限定されるものでない。例えば、類似度は、同一か否か及び/又は類似しているか否かを示すものであってもよいし、あるいは、類似性を示す複数の離散的なレベルを示すものであってもよいし、あるいは、他の範囲の実数値であってもよい。
【0040】
2つの文書データから抽出された処理対象の2つの文章の類似度を判定することができることを上述したが、2つの文書データが与えられたとき、プロンプト生成部120は、第1の文書データに含まれる各文章と第2の文章データに含まれる各文章との各組み合わせに対してプロンプトデータを生成し、これによって、2つの文書データに含まれる各文章ペアの類似度を順次判定してもよい。
【0041】
すなわち、プロンプト生成部120は、
図6に示されるように、2つの文書データとしてマニュアルAとマニュアルBとを取得すると、マニュアルAを構成する文章とマニュアルBを構成する文章とをそれぞれ抽出し、マニュアルAの文章とマニュアルBの文章とをペアリングする。例えば、マニュアルAの文章とマニュアルBの文章とのペアリングは、図示されるように、“総当たり”方式で行われてもよい。このようにしてペアリングされたマニュアルAの文章とマニュアルBの文章との各組み合わせに対して、プロンプト生成部120は、これら2つの文章の類似度を生成モデル50に判定させるためのプロンプトデータを生成し、生成したプロンプトデータを類似度判定部130にわたす。
【0042】
類似度判定部130は、各文章ペアに対して生成されたプロンプトデータを生成モデル50に入力し、当該文章ペアの類似度を判定すると、上位の類似度を有する文章ペアを提示してもよい。例えば、
図6に示されるマニュアルAとマニュアルBとの文章の各組み合わせの類似度を判定すると、類似度判定部130は、
図7に示されるような表形式のデータに整形して、マニュアルAの各文章とマニュアルBの各文章との間の類似度を記録してもよい。例えば、図示された表形式のデータによると、マニュアルAの“申込データの作成”とマニュアルBの“1-1.申込手順”との類似度は0.92であることがわかる。
【0043】
また、類似度判定部130は、類似度のレベルに応じた表示形態によって、第1の文書データに含まれる各文章と第2の文章データに含まれる各文章との各組み合わせに対して判定した各類似度を表示してもよい。例えば、類似度判定部130は、類似度の高さに応じて類似度をカラー化又はグレースケール化して、視覚的に強調表示してもよい。
【0044】
一実施例では、類似度判定部130は、文書類似度算出手法による第1の文章と第2の文章とに対する類似度算出結果にさらに基づいて、第1の文章と第2の文章との類似度を判定してもよい。すなわち、類似度判定部130は、上述した生成モデル50からの出力結果と、TF-IDF(Term Frquency-Inverse Document Frquency)、編集距離などの何れか公知の自然言語処理による文書類似度算出手法による類似度算出結果とを併用して、処理対象の文章ペアの類似度を判定してもよい。
【0045】
例えば、類似度判定部130は、TF-IDF、編集距離などの文書類似度算出手法による文章ペアに対する類似度算出結果による第1の類似度と、生成モデル50からの出力結果による第2の類似度との平均値を、処理対象の文章ペアの類似度として判定してもよい。具体的には、類似度判定部130は、TF-IDF、編集距離などの何れかの文書類似度算出手法に従って処理対象の文章ペアの第1の類似度を導出し、また、生成モデル50からの出力結果による第2の類似度を導出する。そして、類似度判定部130は、導出した2つの類似度の平均値を当該文章ペアの類似度として決定してもよい。これにより、何れかの文書類似度算出手法と生成モデル50との2つの類似度を考慮して、処理対象の文章ペアの類似度を判定することができる。
【0046】
また、類似度判定部130は、文書類似度算出手法に従って第1の文章と第2の文章との類似度を算出し、算出した類似度が所定の閾値以上であるときプロンプトデータを生成モデル50に入力してもよい。すなわち、類似度判定部130はまず、TF-IDF、編集距離などの文書類似度算出手法に従って処理対象の文章ペアの類似度を算出し、当該類似度が所定の閾値以上である場合に、生成モデル50を利用した重複分析を実行するようにしてもよい。これにより、文書類似度算出手法により類似度が高いと判定された文章ペアに対してさらに生成モデル50を利用して、重複分析をすることができる。
【0047】
[重複分析処理]
次に、
図8を参照して、本開示の一実施例による重複分析処理を説明する。
図8は、本開示の一実施例による重複分析処理を示すフローチャートである。当該重複分析処理は、例えば、情報処理装置100によって実行され、より詳細には、情報処理装置100のプロセッサ104がメモリ装置103に格納されたコンピュータプログラム又は指示を実行することによって実現されてもよい。また、当該重複分析処理は、ネットワークを介し連携して各ステップを実行する複数の情報処理装置100によって実現されてもよい。
【0048】
ステップS101において、情報処理装置100は、第1の文書データと第2の文書データとを取得する。例えば、これらの文書データは、ユーザによって提供されてもよいし、あるいは、データベースから抽出されてもよい。
【0049】
ステップS102において、情報処理装置100は、第1の文書データと第2の文書データとから文章ペアを抽出する。例えば、情報処理装置100は、各文書データの見出しやレイアウトに基づいて各文書データを構成する各文章を特定し、第1の文書データにおいて特定された文章と、第2の文書データにおいて特定された文章とをペアリングする。
【0050】
ステップS103において、情報処理装置100は、文章ペアの類似度を生成モデル50に判定させるためのプロンプトデータを生成する。このようなプロンプトデータは、典型的には、テキストデータとして生成され、当該テキストデータには、処理対象の文章ペアを含むとともに、当該文章ペアの類似度を判定させるための指示文を含むよう構成されてもよい。
【0051】
ステップS104において、情報処理装置100は、プロンプトデータを生成モデル50に入力する。
【0052】
ステップS105において、情報処理装置100は、生成モデル50から出力結果を取得する。
【0053】
ステップS106において、情報処理装置100は、出力結果に基づいて文章ペアの類似度を判定する。例えば、情報処理装置100は、
図7に示されるような表形式の整形されたデータに判定した類似度を記録してもよい。
【0054】
ステップS107において、情報処理装置100は、第1の文書データと第2の文書データとから抽出された文章ペアの全てに対して類似度を判定したか判断する。全ての文章ペアの類似度を判定した場合(S107:YES)、情報処理装置100は、当該重複分析処理を終了する。他方、全ての文章ペアの類似度を判定していない場合(S107:NO)、情報処理装置100は、ステップS102に戻って、次の文章ペアを処理する。
【0055】
上述した実施例によると、生成モデル50を利用して、文書データを構成する文章ペアの記載内容の類似度を効率的に判定することが可能になる。
【0056】
以上、本開示の実施例について詳述したが、本開示は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本開示の要旨の範囲内において、種々の変形・変更が可能である。
【符号の説明】
【0057】
50 生成モデル
100 情報処理装置
110 取得部
120 プロンプト生成部
130 類似度判定部