IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 大日本印刷株式会社の特許一覧

特開2025-151924情報処理装置、情報処理方法及びプログラム
<>
  • 特開-情報処理装置、情報処理方法及びプログラム 図1
  • 特開-情報処理装置、情報処理方法及びプログラム 図2
  • 特開-情報処理装置、情報処理方法及びプログラム 図3
  • 特開-情報処理装置、情報処理方法及びプログラム 図4
  • 特開-情報処理装置、情報処理方法及びプログラム 図5
  • 特開-情報処理装置、情報処理方法及びプログラム 図6
  • 特開-情報処理装置、情報処理方法及びプログラム 図7
  • 特開-情報処理装置、情報処理方法及びプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025151924
(43)【公開日】2025-10-09
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
   G06F 40/56 20200101AFI20251002BHJP
   G06F 16/35 20250101ALI20251002BHJP
【FI】
G06F40/56
G06F16/35
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2024053559
(22)【出願日】2024-03-28
(71)【出願人】
【識別番号】000002897
【氏名又は名称】大日本印刷株式会社
(74)【代理人】
【識別番号】110002952
【氏名又は名称】弁理士法人鷲田国際特許事務所
(72)【発明者】
【氏名】加藤 啓路
(72)【発明者】
【氏名】福井 花菜
(72)【発明者】
【氏名】伊藤 直之
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
(57)【要約】
【課題】生成モデルを利用して文書データの記載内容を効率的に分類するための技術を提供することである。
【解決手段】本開示の一態様は、文書データを取得する取得部と、前記文書データ内の文章を所定のカテゴリに分類させるためのプロンプトデータを生成するプロンプト生成部と、前記プロンプトデータを生成モデルに入力し、前記生成モデルからの出力結果に基づいて前記文章を分類する分類部と、を有する、情報処理装置に関する。
【選択図】図1
【特許請求の範囲】
【請求項1】
文書データを取得する取得部と、
前記文書データ内の文章を所定のカテゴリに分類させるためのプロンプトデータを生成するプロンプト生成部と、
前記プロンプトデータを生成モデルに入力し、前記生成モデルからの出力結果に基づいて前記文章を分類する分類部と、
を有する、情報処理装置。
【請求項2】
前記プロンプト生成部は、前記文書データのレイアウトに基づいて前記文書データ内の各文章を抽出する、請求項1に記載の情報処理装置。
【請求項3】
前記分類部は、前記文章に対する各カテゴリの分類スコアを決定する、請求項1に記載の情報処理装置。
【請求項4】
前記分類部は、前記文章と前記所定のカテゴリの分類結果との組み合わせを提示する、請求項1に記載の情報処理装置。
【請求項5】
前記分類部は、前記分類スコアのスコア値に応じた表示形態によって、前記文章に対する各カテゴリの分類スコアを表示する、請求項3に記載の情報処理装置。
【請求項6】
前記プロンプト生成部は、各カテゴリに関連するキーワードリストを前記プロンプトデータに記述する、請求項1に記載の情報処理装置。
【請求項7】
前記プロンプト生成部は、前記文書データ内の非テキストデータをテキストデータに変換し、前記テキストデータを前記プロンプトデータに記述する、請求項1に記載の情報処理装置。
【請求項8】
前記分類部は、カテゴリ分類手法による前記文章に対するカテゴリ分類結果にさらに基づいて、前記文章を分類する、請求項1に記載の情報処理装置。
【請求項9】
前記分類部は、前記カテゴリ分類結果による第1の分類スコアと前記生成モデルからの出力結果による第2の分類スコアとの平均値に基づいて、前記文章を分類する、請求項8に記載の情報処理装置。
【請求項10】
前記分類部は、前記カテゴリ分類手法に従って前記文章の第1の分類スコアを算出し、前記算出した第1の分類スコアが所定の閾値以上であるとき、前記プロンプトデータを前記生成モデルに入力する、請求項8に記載の情報処理装置。
【請求項11】
文書データを取得することと、
前記文書データ内の文章を所定のカテゴリに分類させるためのプロンプトデータを生成することと、
前記プロンプトデータを生成モデルに入力し、前記生成モデルからの出力結果に基づいて前記文章を分類することと、
を有する、コンピュータが実行する情報処理方法。
【請求項12】
文書データを取得することと、
前記文書データ内の文章を所定のカテゴリに分類させるためのプロンプトデータを生成することと、
前記プロンプトデータを生成モデルに入力し、前記生成モデルからの出力結果に基づいて前記文章を分類することと、
をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
近年のディープラーニングの進展によって、機械学習技術が広範な技術分野に適用されてきている。例えば、自然言語処理の技術分野では、情報抽出、情報検索、要約生成、機械翻訳、音声認識、対話処理などに利用される機械学習モデルの研究開発が進展している。現在、ChatGPT(登録商標)などの生成モデルを利用した自然言語処理が注目されている。
【0003】
例えば、特許文献1は、生成AI(Artificial Intelligence)システムを利用して、インターネット上の求人票データ提供ウェブサイトを巡回し、これらのウェブサイトから取得した求人票原データを整形した求人票データを生成することについて記載している。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許第7349219号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
多くの企業は、従業員に業務を適切に実行させるため業務マニュアルを作成し、従業員に業務マニュアルに従って業務を実行させるようにしている。このような業務マニュアルは、しばしば業務部門毎に作成され、複数の業務マニュアルに同一又は類似内容が記載されていることが多い。
【0006】
このような業務マニュアルなどの複数の文書を整理・統合する際、現状は作業者が目検で文書を読み、文書を構成する文章などの記載内容をカテゴリに分類している。このような記載内容の分類は、人手によるコストを要する作業となっている。
【0007】
本開示の課題は、生成モデルを利用して文書データの記載内容を効率的に分類するための技術を提供することである。
【課題を解決するための手段】
【0008】
本開示の一態様は、文書データを取得する取得部と、前記文書データ内の文章を所定のカテゴリに分類させるためのプロンプトデータを生成するプロンプト生成部と、前記プロンプトデータを生成モデルに入力し、前記生成モデルからの出力結果に基づいて前記文章を分類する分類部と、を有する、情報処理装置に関する。
【発明の効果】
【0009】
本開示によると、生成モデルを利用して文書データの記載内容を効率的に分類するための技術を提供することができる。
【図面の簡単な説明】
【0010】
図1図1は、本開示の一実施例による文章分類処理を示す概略図である。
図2図2は、本開示の一実施例による情報処理装置を示す概略図である。
図3図3は、本開示の一実施例による情報処理装置のハードウェア構成を示すブロック図である。
図4図4は、本開示の一実施例による情報処理装置の機能構成を示すブロック図である。
図5図5は、本開示の一実施例によるプロンプトデータを示す図である。
図6図6は、本開示の一実施例による生成モデルからの出力結果を示す図である。
図7図7は、本開示の一実施例による各文章の分類スコアを示す図である。
図8図8は、本開示の一実施例による文章分類処理を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、図面を参照して本開示の実施の形態を説明する。
【0012】
以下の実施例では、文章内容を分類する情報処理装置が開示される。
【0013】
[本開示の概略]
後述される実施例による情報処理装置100は、各文書データが意味のまとまりのある複数の文章から構成されるとき、文書データにおける処理対象の文章の記載内容が何れのカテゴリに分類できるか判定する。具体的には、情報処理装置100は、文書データを取得すると、文書データから処理対象の文章を抽出し、生成モデル50に抽出した文章を所定のカテゴリに分類させるためのプロンプトデータを生成する。そして、情報処理装置100は、生成したプロンプトデータを生成モデル50に入力し、生成モデル50からの出力結果に基づいて処理対象の文章のカテゴリを判定する。
【0014】
例えば、情報処理装置100は、図1に示されるように、“XX保険申込マニュアル”の文書データを取得すると、処理対象の文章として“本人確認”の記載内容を抽出する。例えば、処理対象の文章は、見出し、目次、文書レイアウト等に基づいて自動抽出されてもよいし、あるいは、ユーザによって指定されてもよい。
【0015】
処理対象の文章が特定されると、情報処理装置100は、処理対象の文章を生成モデル50に所定のカテゴリに分類させるためのプロンプトデータを生成する。図1に示される例では、プロンプトデータはまず、“以下の文章を指定するカテゴリに分けてください。各カテゴリに対するスコアも0~1の範囲で出力してください。”という指示文を含み、次に処理対象の文章を含む。さらに、プロンプトデータは、所定のカテゴリとして“1.データ作成、2.提出書類確認、3.申込内容確認、4.受付、5.審査、及び、6.契約関連通知送付”の6つのカテゴリを規定している。なお、図示されたプロンプトデータは、単なる一例に過ぎず、これに限定されるものでない。
【0016】
プロンプトデータを生成すると、情報処理装置100は、生成したプロンプトデータを生成モデル50に入力し、生成モデル50から出力結果を取得する。例えば、図1に示されたプロンプトデータを生成モデル50に入力した場合、情報処理装置100は、図1に示されるような出力結果を取得し、生成モデル50からの出力結果に基づいて処理対象の文章を分類する。図示された例では、処理対象の文章について、“2.提出書類確認”の分類スコアが最も高いことが示されおり、情報処理装置100は、処理対象の文章を“2.提出書類確認”のカテゴリに分類しうる。
【0017】
すなわち、図2に示されるように、情報処理装置100は、文書データを取得すると、取得した文書データから処理対象の文章を抽出し、抽出した文章を生成モデル50に分類させるためのプロンプトデータを生成する。そして、情報処理装置100は、生成したプロンプトデータを生成モデル50に入力し、生成モデル50から出力結果を取得する。情報処理装置100は、取得した出力結果に基づいて処理対象の文章を分類する。
【0018】
図示された実施例では、生成モデル50は、例えば、ChatGPT(登録商標)などで利用される言語モデルであってもよく、典型的には、情報処理装置100の外部のサーバ等に運営・管理されている。しかしながら、本開示は、これに限定されず、例えば、生成モデル50は、情報処理装置100に格納されて実行されてもよい。
【0019】
このようにして、情報処理装置100は、生成モデル50を利用して、文書データの記載内容を所定のカテゴリに分類することが可能になる。
【0020】
ここで、情報処理装置100は、サーバ、パーソナルコンピュータ(PC)、スマートフォン、タブレット等の計算装置によって実現されてもよく、例えば、図3に示されるようなハードウェア構成を有してもよい。すなわち、情報処理装置100は、バスBを介し相互接続されるドライブ装置101、ストレージ装置102、メモリ装置103、プロセッサ104、ユーザインタフェース(UI)装置105及び通信装置106を有する。
【0021】
情報処理装置100における各種機能及び処理を実現するプログラム又は指示は、CD-ROM(Compact Disk-Read Only Memory)、フラッシュメモリ等の着脱可能な記憶媒体に格納されてもよい。当該記憶媒体がドライブ装置101にセットされると、プログラム又は指示が記憶媒体からドライブ装置101を介しストレージ装置102又はメモリ装置103にインストールされる。ただし、プログラム又は指示は、必ずしも記憶媒体からインストールされる必要はなく、ネットワークなどを介し何れかの外部装置からダウンロードされてもよい。
【0022】
ストレージ装置102は、ハードディスクドライブなどによって実現され、インストールされたプログラム又は指示と共に、プログラム又は指示の実行に用いられるファイル、データ等を格納する。
【0023】
メモリ装置103は、ランダムアクセスメモリ、スタティックメモリ等によって実現され、プログラム又は指示が起動されると、ストレージ装置102からプログラム又は指示、データ等を読み出して格納する。ストレージ装置102、メモリ装置103及び着脱可能な記憶媒体は、非一時的な記憶媒体(non-transitory storage medium)として総称されてもよい。
【0024】
プロセッサ104は、1つ以上のプロセッサコアから構成されうる1つ以上のCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、処理回路(processing circuitry)等によって実現されてもよく、メモリ装置103に格納されたプログラム、指示、当該プログラム若しくは指示を実行するのに必要なパラメータなどのデータ等に従って、情報処理装置100の各種機能及び処理を実行する。
【0025】
ユーザインタフェース(UI)装置105は、キーボード、マウス、カメラ、マイクロフォン等の入力装置、ディスプレイ、スピーカ、ヘッドセット、プリンタ等の出力装置、タッチパネル等の入出力装置から構成されてもよく、ユーザと情報処理装置100との間のインタフェースを実現する。例えば、ユーザは、ディスプレイ又はタッチパネルに表示されたGUI(Graphical User Interface)をキーボード、マウス等を操作し、情報処理装置100を操作する。
【0026】
通信装置106は、外部装置、インターネット、LAN(Local Area Network)、セルラーネットワーク等の通信ネットワークとの有線及び/又は無線通信処理を実行する各種通信回路により実現される。
【0027】
しかしながら、上述したハードウェア構成は単なる一例であり、本開示による情報処理装置100は、他の何れか適切なハードウェア構成により実現されてもよい。
【0028】
[情報処理装置]
図4は、本開示の一実施例による情報処理装置100の機能構成を示すブロック図である。図4に示されるように、情報処理装置100は、取得部110、プロンプト生成部120及び分類部130を有する。取得部110、プロンプト生成部120及び分類部130の各機能部は、情報処理装置100のメモリ装置103に格納されているコンピュータプログラムがプロセッサ104によって実行されることによって実現されてもよい。
【0029】
取得部110は、文書データを取得する。ここで、文書データは、上述したような業務マニュアルに限定されず、例えば、分類対象の文章を含む任意の文書データであってもよい。ここでの文書データは、WORDファイルなどのファイル形式に限定されず、テキストデータ、HTML(HyperText Markup Language)データ、Excelファイル、PowerPointファイル、PDF(Portable Document Format)ファイルなど、文章を含む任意のファイル形式の電子データなどであってもよい。また、文書データは、英数字等の文字だけでなく、図や画像などを含むものであってもよい。
【0030】
プロンプト生成部120は、文書データ内の文章を所定のカテゴリに分類させるためのプロンプトデータを生成する。具体的には、プロンプト生成部120は、文書データから処理対象の文章を抽出し、抽出した文章を生成モデル50に分類させるためのプロンプトデータを生成する。
【0031】
一実施例では、プロンプト生成部120は、文書データのレイアウトに基づいて文書データ内の各文章を抽出してもよい。一般に、文書データは、意味のまとまりによって章立てされるなど構造化された複数の文章から構成(レイアウト化)され、各文章には、見出しなどが設けられ、まとまった記載内容であることが示されている。プロンプト生成部120は、何れか公知の見出し/レイアウト抽出技術に従ってこのような文書データの見出しやレイアウトを特定し、文書データ内の各文章を抽出することができる。
【0032】
処理対象の文章を特定すると、プロンプト生成部120は、生成モデル50に特定した文章を所定のカテゴリに分類させるためのプロンプトデータを生成する。例えば、処理対象の文章として“本人確認”に関する記載内容を特定すると、プロンプト生成部120は、図5に示されるように、当該文書をカテゴリに分類させるための指示文、処理対象の文章、所定のカテゴリ、各カテゴリの説明、各カテゴリに関連する単語、及び出力フォーマット例を記述したプロンプトデータを生成してもよい。
【0033】
図5に示されたプロンプトデータでは、指示文として「以下の文章を指定するカテゴリに分けてください。各カテゴリに対するスコアも0~1の範囲で出力してください。注意点:必ず、全てのカテゴリに対するスコアを出力してください。理由も必ず明記してください。」が記述される。この指示文によって、生成モデル50は、プロンプトデータにおける指示内容を認識することができうる。
【0034】
次に、処理対象の文章として、文書データ内の当該文章のコピー「###文章:(1)本人確認 契約者から提出された本人確認書類を元に本人確認を行います。[申込データ入力]画面の本人確認欄のプルダウンから選んで下さい。本人確認書類の例は以下です。運転免許証、パスポート、マイナンバーカード。」が記述される。“###文章”によって、指示文の“文章”を明確に規定しうる。
【0035】
次に、所定のカテゴリとして「###カテゴリ:1.データ作成 2.提出書類確認
3.申込内容確認 4.受付 5.審査 6.契約関連通知送付」が記述される。“###カテゴリ”によって、指示文の“カテゴリ”を明確に規定しうる。
【0036】
次に、各カテゴリの説明として「###各カテゴリの具体的な意味 1.データ作成:申込データベースの操作、入力手順や記載方法などの具体的な行動が記載されています。 2.提出書類確認:申込書、身分証明書等の書類に対しての確認について記載されています。 3.申込内容確認:申込データの確認についての説明が記載されています。 4.受付:審査の受付手続についての説明、具体的な手順についての説明が記載されています。 5.審査:保険契約の承認可否に関する内容が記載されています。 6.契約関連通知送付:審査結果や契約条件など、申込者に対する通知の送付についての方法が記載されています。」が記述される。当該記述によって、各カテゴリが具体的にどのような意味を表しているかを明確に規定し、分類精度の向上を図りうる。
【0037】
次に、各カテゴリに関連する単語として「###各カテゴリに関連性のある単語 文章中に以下の単語やその類義語を含む場合、単語が属するカテゴリに分けられる可能性が高くなります。 1.データ作成:申込データ、入力、操作、データベース 2.提出書類確認:申込書、証明書、健康診断書、真正性確認、名義 3.申込内容確認:氏名、年齢、職業、プラン、期間、金額、面積、同意 4.受付:受付番号、受付手続 5.審査:申込者情報審査、リスク評価、健康状態、支払い能力 6.契約関連通知送付:通知、案内、保険証書」が記述される。すなわち、プロンプト生成部120は、各カテゴリに関連するキーワードリストをプロンプトデータに記述してもよい。当該記述によって、各カテゴリにどのような単語や用語が使用されるかを明示し、分類精度の向上を図りうる。
【0038】
最後に、出力フォーマット例として「###出力フォーマット例 1.データ作成:0.0 2.提出書類確認:1.0 3.申込内容確認:0.0 4.受付:0.0 5.審査:0.0 6.契約関連通知送付:0.0 理由:○○○」が記述される。当該記述によって、生成モデル50からの出力結果の書式を規定しうる。
【0039】
プロンプト生成部120は、図5に示されるようなプロンプトデータを生成し、生成したプロンプトデータを分類部130にわたす。また、プロンプト生成部120は、上述したプロンプトデータのうち“###文章~”の箇所に処理対象の各文章を入力し、文章データ内の複数の文章を処理してもよい。なお、図示されたプロンプトデータは、単なる一例であり、他の何れか適切な書式の記述内容から構成されてもよい。
【0040】
ここで、文書データが図、表、画像などの非テキストデータを含むケースがある。この場合、プロンプト生成部120は、文書データ内の非テキストデータをテキストデータに変換し、テキストデータをプロンプトデータに記述してもよい。具体的には、プロンプト生成部120は、OCRや画像認識AIなどの何れか公知の変換ツールを利用して、図、表や画像などをテキストデータに変換し、当該テキストデータを処理対象の文章に含めるようにしてもよい。なお、生成モデル50が、テキストデータ以外のデータ形式のデータを処理可能なマルチモーダルタイプの生成モデルである場合、プロンプト生成部120は、図、表、画像などの非テキストデータを処理対象の文章としてそのまま含むプロンプトデータを生成してもよい。
【0041】
分類部130は、プロンプトデータを生成モデル50に入力し、生成モデル50からの出力結果に基づいて文章を分類する。例えば、図5に示されるようなプロンプトデータをプロンプト生成部120から取得すると、分類部130は、取得したプロンプトデータを生成モデル50に入力する。このとき、生成モデル50は、図6に示されるような出力結果を生成し、分類部130は、当該出力結果を生成モデル50から取得する。この出力結果によると、各カテゴリに対して分類スコアが記載されるとともに、当該分類スコアを決定した理由が記載されている。
【0042】
ここでの分類スコアは、例えば、処理対象の文章が当該カテゴリに分類される確度(0~1の実数)を示すものであってもよい。例えば、確度が0に近いほど、処理対象の文章は当該カテゴリに属する可能性が低く、確度が1に近いほど、処理対象の文章は当該カテゴリに属する可能性が高いと解釈されうる。従って、図6に示される出力結果によると、処理対象の文章は、“2.提出書類確認”に該当する可能性が高いと判断されている。
【0043】
このような出力結果を取得すると、分類部130は、分類スコアが最も高いカテゴリを分類結果として示してもよい。あるいは、各カテゴリの分類スコアを分類結果として示してもよい。例えば、分類部130は、処理対象の文章と所定のカテゴリの分類結果との組み合わせを提示してもよい。例えば、分類部130は、図7に示されるような表形式に分類結果を整形して表示してもよい。図示された表形式で示される分類結果によると、処理対象の文書である“(1)本人確認~”に対して、分類部130は、図6に示された出力結果に基づいて、各カテゴリの分類スコアを入力してもよい。図7に示された分類結果では、“データ作成”、“申込内容確認”、“受付”、“審査”及び“契約関連通知送付”の各カテゴリに対して、分類スコア“0.0”が入力され、“提出書類確認”のカテゴリに対して、分類スコア“0.9”が入力されている。さらに、この場合、分類部130は、分類スコアのスコア値に応じた表示形態によって、文章に対する各カテゴリの分類スコアを表示してもよい。例えば、分類部130は、分類スコアの大きさに応じて分類スコアをカラー化又はグレースケール化して、視覚的に強調表示してもよい。
【0044】
一実施例では、分類部130は、カテゴリ分類手法による文章に対するカテゴリ分類結果にさらに基づいて、文章を分類してもよい。すなわち、分類部130は、上述した生成モデル50からの出力結果と、TF-IDF(Term Frquency-Inverse Document Frquency)、サポートベクタマシンなどの何れか公知の自然言語処理によるカテゴリ分類手法によるカテゴリ分類結果とを併用して、処理対象の文書を分類してもよい。
【0045】
例えば、分類部130は、TF-IDF、サポートベクタマシンなどのカテゴリ分類手法による文章に対するカテゴリ分類結果による第1の分類スコアと、生成モデル50からの出力結果による第2の分類スコアとの平均値に基づいて、処理対象の文章を分類してもよい。具体的には、分類部130は、TF-IDF、サポートベクタマシンなどの何れかのカテゴリ分類手法に従って処理対象の文章に対するカテゴリ分類結果による第1の分類スコアを導出し、生成モデル50からの出力結果による第2の分類スコアを導出する。そして、分類部130は、導出した2つの分類スコアをカテゴリ毎に平均化し、算出したカテゴリ毎の平均値を各カテゴリの分類スコアとして決定してもよい。これにより、何れかのカテゴリ分類手法と生成モデル50との2つの分類結果を考慮して、処理対象の文章を分類することができる。
【0046】
また、分類部130は、カテゴリ分類手法に従って文章の第1の分類スコアを算出し、算出した第1の分類スコアが所定の閾値以上であるとき、文書を所定のカテゴリに分類させるためのプロンプトデータを生成モデル50に入力してもよい。すなわち、分類部130はまず、TF-IDF、サポートベクタマシンなどのカテゴリ分類手法に従って処理対象の文章を分類し、当該分類結果による分類スコアが所定の閾値以上である場合に、生成モデル50を利用したカテゴリ分類を実行するようにしてもよい。これにより、カテゴリ分類手法による分類結果をさらに確認することができる。
【0047】
[文章分類処理]
次に、図8を参照して、本開示の一実施例による文章分類処理を説明する。図8は、本開示の一実施例による文章分類処理を示すフローチャートである。当該文章分類処理は、例えば、情報処理装置100によって実行され、より詳細には、情報処理装置100のプロセッサ104がメモリ装置103に格納されたコンピュータプログラム又は指示を実行することによって実現されてもよい。また、当該文章分類処理は、ネットワークを介し連携して各ステップを実行する複数の情報処理装置100によって実現されてもよい。
【0048】
ステップS101において、情報処理装置100は、文書データを取得する。例えば、文書データは、ユーザによって提供されてもよいし、あるいは、データベースから抽出されてもよい。
【0049】
ステップS102において、情報処理装置100は、文書データ内の文章を所定のカテゴリに分類させるためのプロンプトデータを生成する。このようなプロンプトデータは、典型的には、テキストデータとして生成され、当該テキストデータには、処理対象の文章を含むとともに、各カテゴリ及び/又はその説明と、当該文章をカテゴリに分類させるための指示文とを含むよう構成されてもよい。さらに、プロンプトデータは、各カテゴリに関連するキーワードリストを含むよう構成されてもよい。
【0050】
ステップS103において、情報処理装置100は、プロンプトデータを生成モデル50に入力する。例えば、生成モデル50が、情報処理装置100の外部のサーバによって運営されている場合、情報処理装置100は、当該サーバにプロンプトデータを送信してもよい。あるいは、生成モデル50が、情報処理装置100内に格納されている場合、情報処理装置100は、プロンプトデータを生成モデル50に入力し、生成モデル50を実行してもよい。
【0051】
ステップS104において、情報処理装置100は、生成モデル50から出力結果を取得する。
【0052】
ステップS105において、情報処理装置100は、出力結果に基づいて文章を分類する。例えば、情報処理装置100は、図7に示されるように、文書データ内の各文章の見出し及び/又は章立ての項目と、各カテゴリの分類スコアとから構成される表形式のデータとして整形し、分類結果を表示してもよい。
【0053】
上述した実施例によると、生成モデル50を利用して、文書データを構成する各文章の記載内容を所定のカテゴリに効率的に分類することが可能になる。
【0054】
以上、本開示の実施例について詳述したが、本開示は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本開示の要旨の範囲内において、種々の変形・変更が可能である。
【符号の説明】
【0055】
50 生成モデル
100 情報処理装置
110 取得部
120 プロンプト生成部
130 分類部
図1
図2
図3
図4
図5
図6
図7
図8