特許7493195 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ パテント・インテグレーション株式会社の特許一覧

特許7493195プログラム、方法、情報処理装置、システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2024-05-23

(45)【発行日】2024-05-31

(54)【発明の名称】プログラム、方法、情報処理装置、システム

(51)【国際特許分類】

G06Q 50/18 20120101AFI20240524BHJP

【ＦＩ】

G06Q50/18

【請求項の数】 19

(21)【出願番号】P 2024011001

(22)【出願日】2024-01-29

【審査請求日】2024-02-08

【早期審査対象出願】

(73)【特許権者】

【識別番号】522447406

【氏名又は名称】パテント・インテグレーション株式会社

(74)【代理人】

【識別番号】110002815

【氏名又は名称】ＩＰＴｅｃｈ弁理士法人

(72)【発明者】

【氏名】大瀬佳之

【審査官】野口俊明

(56)【参考文献】

【文献】特開２０２３－１１５８３７（ＪＰ，Ａ）

【文献】特開２０２０－１１９３２２（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｑ１０／００－９９／００

(57)【特許請求の範囲】

【請求項1】

プロセッサと、記憶部とを備えるコンピュータに実行させるためのプログラムであって、
前記プロセッサが、
複数の特許文書を含む母集団に関する母集団情報を受け付ける母集団受付ステップと、
前記母集団受付ステップにおいて受け付けた前記母集団に含まれる前記複数の特許文書のうち、第１特許文書を抽出する第１特許抽出ステップと、
大規模言語モデルに、前記第１特許抽出ステップにおいて抽出した前記第１特許文書を含むプロンプトを入力することに応じて出力される第１出力結果を取得する第１処理ステップと、
前記母集団受付ステップにおいて受け付けた前記母集団に含まれる前記複数の特許文書のうち、第２特許文書を抽出する第２特許抽出ステップと、
前記第１処理ステップにおいて取得した前記第１出力結果に基づく情報を教師データとして学習させた学習モデルに、前記第２特許抽出ステップにおいて抽出した前記第２特許文書を入力することに応じて出力される第２出力結果を取得する第２処理ステップと、
を実行するプログラム。

【請求項2】

前記第２処理ステップは、前記学習モデルに、前記第２特許文書を入力することに応じて出力される前記第２特許文書に含まれる１または複数の特許文書に対する処理の品質を示す第２品質情報を取得するステップを含み、
前記プロセッサが、
前記第２処理ステップにおいて取得した前記第２品質情報が所定の条件を満たす場合に、前記第２特許文書に含まれる１または複数の特許文書の少なくとも一部を前記第２出力結果と関連付けて記憶し、
前記第２処理ステップにおいて取得した前記第２品質情報が所定の条件を満たさない場合に、前記第２特許文書に含まれる１または複数の特許文書の少なくとも一部を前記第２出力結果と関連付けて記憶しない、
第２記憶ステップと、
を実行する、
請求項１記載のプログラム。

【請求項3】

前記母集団受付ステップは、
第１母集団に関する第１母集団情報を受け付けるステップと、
前記第１母集団情報から、前記第２記憶ステップにおいて前記第２出力結果と関連付けて記憶された１または複数の特許文書を除いた１または複数の特許文書を含む第２母集団に関する第２母集団情報を受け付けるステップと、
を含む、
請求項２記載のプログラム。

【請求項4】

前記プロセッサが、
前記第１特許抽出ステップにおいて抽出した前記第１特許文書の少なくとも一部または全部を前記第１出力結果に基づく情報と関連付けて記憶する第１記憶ステップと、
を実行し、
前記母集団受付ステップは、
第１母集団に関する第１母集団情報を受け付けるステップと、
前記第１母集団情報から、
前記第１記憶ステップにおいて前記第１出力結果に基づく情報と関連付けて記憶された１または複数の特許文書と、
前記第２記憶ステップにおいて前記第２出力結果と関連付けて記憶された１または複数の特許文書と、
を除いた１または複数の特許文書を含む第２母集団に関する第２母集団情報を受け付けるステップと、
を含む、
請求項２記載のプログラム。

【請求項5】

前記第１特許抽出ステップは、
前記第１母集団情報から、第１割合に応じた数の前記第１特許文書を抽出するステップと、
前記第２母集団情報から、第２割合に応じた数の前記第１特許文書を抽出するステップと、
を含む、
請求項３記載のプログラム。

【請求項6】

前記第２割合は、前記第１割合よりも大きい、
請求項５記載のプログラム。

【請求項7】

前記第２割合は、前記第１割合よりも小さい、
請求項５記載のプログラム。

【請求項8】

前記第２記憶ステップは、
前記母集団受付ステップにおいて受け付けた母集団情報が前記第１母集団情報である場合は、
前記第２品質情報が第１条件を満たす場合に、前記第２特許文書に含まれる１または複数の特許文書の少なくとも一部を前記第２出力結果と関連付けて記憶し、
前記第２品質情報が前記第１条件を満たさない場合に、前記第２特許文書に含まれる１または複数の特許文書の少なくとも一部を前記第２出力結果と関連付けて記憶しない、
前記母集団受付ステップにおいて受け付けた母集団情報が前記第２母集団情報である場合は、
前記第２品質情報が第２条件を満たす場合に、前記第２特許文書に含まれる１または複数の特許文書の少なくとも一部を前記第２出力結果と関連付けて記憶し、
前記第２品質情報が前記第２条件を満たさない場合に、前記第２特許文書に含まれる１または複数の特許文書の少なくとも一部を前記第２出力結果と関連付けて記憶しない、
ステップを含む、
請求項３記載のプログラム。

【請求項9】

前記第１条件は、前記第２条件を含む、
請求項８記載のプログラム。

【請求項10】

前記第２条件は、前記第１条件を含む、
請求項８記載のプログラム。

【請求項11】

前記プロセッサが、
前記母集団受付ステップにおいて受け付けた前記母集団情報のうち、
前記第１記憶ステップにおいて前記第１出力結果に基づく情報と関連付けて記憶された１または複数の特許文書と、
前記第２記憶ステップにおいて前記第２出力結果と関連付けて記憶された１または複数の特許文書と、
を除く特許文書が存在しない場合に処理を終了する処理終了ステップと、
を実行する、
請求項４記載のプログラム。

【請求項12】

前記第１処理ステップは、前記大規模言語モデルに、前記第１特許文書および分類ルールが規定された分類定義文章を含むプロンプトを入力することに応じて出力される前記第１特許文書の分類に関する第１分類情報を取得するステップであり、
前記第２処理ステップは、分類モデルである前記学習モデルに、前記第２特許文書を入力することに応じて出力される前記第２特許文書の分類に関する第２分類情報を取得するステップである、
請求項１記載のプログラム。

【請求項13】

前記プロセッサが、
前記母集団受付ステップにおいて受け付けた前記母集団に含まれる前記複数の特許文書のうち、第３特許文書を抽出する第３特許抽出ステップと、
大規模言語モデルに、前記第３特許抽出ステップにおいて抽出した前記第３特許文書および分類観点が規定された分類観点文章を含むプロンプト入力することに応じて出力される前記第３特許文書の分類観点に関する分類観点情報を取得する分類観点取得ステップと、
大規模言語モデルに、前記分類観点取得ステップにおいて取得した前記分類観点情報を含むプロンプトを入力することに応じて出力される、前記第３特許文書に関する前記分類観点情報を大括り化することにより得られる前記分類定義文章を取得する分類定義取得ステップと、
を実行し、
前記第１処理ステップは、前記分類定義取得ステップにおいて取得した前記分類定義文章に基づき前記第１分類情報を取得するステップである、
請求項１２記載のプログラム。

【請求項14】

前記第２処理ステップは、前記学習モデルに、前記第２特許文書を入力することに応じて出力される前記第２特許文書に含まれる１または複数の特許文書に対する分類の品質を示す第２品質情報を取得するステップを含み、
前記プロセッサが、
前記第２処理ステップにおいて取得した前記第２品質情報が所定の条件を満たす場合に、前記第２特許文書に含まれる１または複数の特許文書の少なくとも一部を、前記第２分類情報と関連付けて記憶する第２分類記憶ステップと、
を実行する、
請求項１２記載のプログラム。

【請求項15】

前記プロセッサが、
前記第１処理ステップにおいて取得した前記第１出力結果をユーザに提示する第１提示ステップと、
前記ユーザから、前記第１提示ステップにおいて提示した前記第１出力結果に対する入力操作を受け付け、当該入力操作に応じて前記第１特許文書に関する教師データを作成する教師データ作成ステップと、
を実行し、
前記第２処理ステップは、前記教師データ作成ステップにおいて作成した前記教師データに基づき学習した前記学習モデルに、前記第２特許文書を入力することに応じて出力される前記第２出力結果を取得するステップである、
請求項１記載のプログラム。

【請求項16】

前記第１特許抽出ステップは、
前記母集団受付ステップにおいて受け付けた前記母集団に含まれる前記複数の特許文書を複数のグループに分けるステップと、
前記複数のグループのそれぞれから、１または複数の特許文書を前記第１特許文書として抽出するステップと、
を含む、
請求項１記載のプログラム。

【請求項17】

プロセッサと、メモリとを備えるコンピュータに実行される方法であって、前記プロセッサが、請求項１から請求項１６のいずれかに係る発明において実行される全てのステップを実行する方法。

【請求項18】

制御部と、記憶部とを備える情報処理装置であって、前記制御部が、請求項１から請求項１６のいずれかに係る発明において実行される全てのステップを実行する情報処理装置。

【請求項19】

請求項１から請求項１６のいずれかに係る発明において実行される全てのステップを実行する手段を備えるシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、プログラム、方法、情報処理装置、システムに関する。

【背景技術】

【0002】

特許業務を支援する技術が知られている。
特許文献１には、請求項の理解を支援するための技術に関し、請求項中のポイントとなる構成要素を特定して提示し、その説明を重点的に読むことができるようにする技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１１－０９６２００号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許に対して深層学習モデルにより処理をさせる際に多量の教師データを用意する必要がある課題がある。
そこで、本開示は、上記課題を解決すべくなされたものであって、その目的は、多量の教師データを用意することなしに複数の特許文書に対して好適な処理を適用する技術を提供することである。

【課題を解決するための手段】

【0005】

プロセッサと、記憶部とを備えるコンピュータに実行させるためのプログラムであって、プロセッサが、複数の特許文書を含む母集団に関する母集団情報を受け付ける母集団受付ステップと、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第１特許文書を抽出する第１特許抽出ステップと、大規模言語モデルに、第１特許抽出ステップにおいて抽出した第１特許文書を含むプロンプトを入力することに応じて出力される第１出力結果を取得する第１処理ステップと、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第２特許文書を抽出する第２特許抽出ステップと、第１処理ステップにおいて取得した第１出力結果に基づく情報を教師データとして学習させた学習モデルに、第２特許抽出ステップにおいて抽出した第２特許文書を入力することに応じて出力される第２出力結果を取得する第２処理ステップと、を実行するプログラム。

【発明の効果】

【0006】

本開示によれば、多量の教師データを用意することなしに複数の特許文書に対して好適な処理を適用することができる。

【図面の簡単な説明】

【0007】

【図1】システム１の機能構成を示すブロック図である。

【図2】サーバ１０の機能構成を示すブロック図である。

【図3】ユーザ端末２０の機能構成を示すブロック図である。

【図4】ユーザテーブル１０１２のデータ構造を示す図である。

【図5】文書テーブル１０１３のデータ構造を示す図である。

【図6】母集団テーブル１０１４のデータ構造を示す図である。

【図7】第１支援テーブル１０１５のデータ構造を示す図である。

【図8】第２支援テーブル１０１６のデータ構造を示す図である。

【図9】教師テーブル１０１７のデータ構造を示す図である。

【図10】タスクマスタ１０２１のデータ構造を示す図である。

【図11】パラメータマスタ１０２２のデータ構造を示す図である。

【図12】文書処理の動作を示すフローチャートである。

【図13】母集団作成処理ページの動作を示す画面例である。

【図14】コンピュータ９０の基本的なハードウェア構成を示すブロック図である。

【発明を実施するための形態】

【0008】

以下、本開示の実施形態について図面を参照して説明する。実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。なお、以下の実施形態は、特許請求の範囲に記載された本開示の内容を不当に限定するものではない。また、実施形態に示される構成要素のすべてが、本開示の必須の構成要素であるとは限らない。また、各図は模式図であり、必ずしも厳密に図示されたものではない。

【0009】

＜システム１の構成＞
本開示におけるシステム１は、特許文書の処理支援サービスを提供する情報処理システムである。
システム１は、ネットワークＮを介して接続された、サーバ１０、ユーザ端末２０、人工知能システム４０の情報処理装置を備える。
図１は、システム１の機能構成を示すブロック図である。
図２は、サーバ１０の機能構成を示すブロック図である。
図３は、ユーザ端末２０の機能構成を示すブロック図である。

【0010】

各情報処理装置は演算装置と記憶装置とを備えたコンピュータにより構成されている。コンピュータの基本ハードウェア構成および、当該ハードウェア構成により実現されるコンピュータの基本機能構成は後述する。サーバ１０、ユーザ端末２０、人工知能システム４０のそれぞれについて、後述するコンピュータの基本ハードウェア構成およびコンピュータの基本機能構成と重複する説明は省略する。

【0011】

＜サーバ１０の構成＞
サーバ１０は、特許文書の処理支援サービスを提供する情報処理装置である。
サーバ１０は、記憶部１０１、制御部１０４を備える。

【0012】

＜サーバ１０の記憶部１０１の構成＞
サーバ１０の記憶部１０１は、アプリケーションプログラム１０１１、ユーザテーブル１０１２、文書テーブル１０１３、母集団テーブル１０１４、第１支援テーブル１０１５、第２支援テーブル１０１６、教師テーブル１０１７、タスクマスタ１０２１、パラメータマスタ１０２２を備える。

【0013】

アプリケーションプログラム１０１１は、サーバ１０の制御部１０４を各機能ユニットとして機能させるためのプログラムである。
アプリケーションプログラム１０１１は、ウェブブラウザアプリケーションなどのアプリケーションを含む。

【0014】

ユーザテーブル１０１２は、サービスを利用する会員ユーザ（以下、ユーザ）の情報を記憶し管理するテーブルである。ユーザは、サービスの利用登録を行うことで、当該ユーザの情報がユーザテーブル１０１２の新しいレコードに記憶される。これにより、ユーザは本開示にかかるサービスを利用できるようになる。
ユーザテーブル１０１２は、ユーザＩＤを主キーとして、ユーザＩＤ、ユーザ名のカラムを有するテーブルである。
図４は、ユーザテーブル１０１２のデータ構造を示す図である。

【0015】

ユーザＩＤは、ユーザを識別するためのユーザ識別情報を記憶する項目である。ユーザ識別情報は、ユーザごとにユニークな値が設定されている項目である。
ユーザ名は、ユーザの氏名を記憶する項目である。ユーザ名は、氏名ではなく、ニックネームなど任意の文字列を設定しても良い。

【0016】

文書テーブル１０１３は、特許文書に関する情報（文書情報）を記憶し管理するためのテーブルである。
文書テーブル１０１３は、文書ＩＤ、ユーザＩＤ、文書名、文書内容のカラムを有するテーブルである。
図５は、文書テーブル１０１３のデータ構造を示す図である。

【0017】

文書ＩＤは、特許文書を識別するための文書識別情報を記憶する項目である。
ユーザＩＤは、ユーザを識別するためのユーザ識別情報を記憶する項目である。
文書名は、特許文書の名称を記憶する項目である。文書名は任意の文字列を設定することができる。例えば、文書名は、特許文書の公開番号、登録番号、出願番号、その他、整理番号等を記憶する。
文書内容は、特許文書の文書内容を記憶する項目である。具体的に、特許文書のテキスト情報が記憶される。例えば、文書内容は、特許文書（明細書）に含まれる「特許請求の範囲」「要約」「発明の詳細な説明」「実施例」「実施形態」等の、一部または全部を含む。具体的には、公開公報、特許公報等の公報テキストが記憶される。

【0018】

母集団テーブル１０１４は、複数の特許文書を含む母集団（母集団情報）を記憶し管理するためのテーブルである。本開示においては各種情報処理の処理対象となる複数の特許文書からなる母集団を特定する情報が記憶される。
母集団テーブル１０１４は、母集団ＩＤを主キーとして、母集団ＩＤ、母集団データ、タスクＩＤ、クエリデータのカラムを有するテーブルである。
図６は、母集団テーブル１０１４のデータ構造を示す図である。

【0019】

母集団ＩＤは、母集団を識別するための母集団識別情報を記憶する項目である。母集団識別情報は、母集団情報ごとにユニークな値が設定されている項目である。
母集団データは、複数の特許文書の文書ＩＤからなる母集団を特定する情報記憶する項目である。母集団データは、文書ＩＤだけでなく、文書ＩＤと関連付けて文書名、文書内容等を記憶する構成としても良い。また、複数の特許文書を文書ＩＤにより特定する必要は必ずしもなく、特許を検索するための検索式、検索条件、論理式により複数の特許文書からなる母集団を特定しても構わない。
タスクＩＤは、母集団識別情報により特定される複数の特許文書を含む母集団に対して適用するタスクを示すタスク識別情報を記憶する項目である。
クエリデータは、母集団識別情報により特定される複数の特許文書を含む母集団に対して適用するクエリを記憶する項目である。具体的に、クエリデータは、タスクの種類に応じて以下のようなクエリが記憶される。
・分類付与タスク：分類対象を定義する文章（文字列）および分類対象を表現する複数の例示的な文章（文字列）を例示列挙したものが記憶される。
例）分類Ａは「・・・」、分類Ｂは「・・・」、分類Ｃは「・・・」
・スクリーニング：ターゲット発明を記述した文章（文字列）が記憶される。
例）・・・手段と、・・・手段と、・・・を備える装置
・該非判定：対象製品を表現した文章（文字列）が記憶される。
例）・・・手段と、・・・手段と、・・・を備える装置
・発明評価：評価項目、評価基準を表現した文章が記憶される。
例）革新性：Ａランクとは・・・、Ｂランクとは・・・、Ｃランクとは・・・
経済性：Ａランクとは・・・、Ｂランクとは・・・、Ｃランクとは・・・

【0020】

第１支援テーブル１０１５は、人工知能システムに対する問い合わせ文章に関するプロンプトおよび人工知能システムからの回答内容（第１支援情報）を記憶し管理するためのテーブルである。
第１支援テーブル１０１５は、第１文書ＩＤ、プロンプト、第１出力値のカラムを有するテーブルである。
図７は、第１支援テーブル１０１５のデータ構造を示す図である。

【0021】

第１文書ＩＤは、第１特許文書を識別するための文書識別情報を記憶する項目である。
プロンプトは、人工知能システムに対する問い合わせ文章に関するプロンプトを記憶する項目である。プロンプトとは、主に人工知能システムに対して入力される問い合わせ文（テキスト）である。具体的に、ユーザは、人工知能システムが所望の出力結果を出力するように、人工知能システムに対してプロンプトの入力を行うことができる。なお、プロンプトは文字列である必要はなく、画像、動画、音声等によるプロンプトでも良い。例えば、ユーザによるジェスチャ、音声指示等もプロンプトになり得る。
第１出力値は、プロンプトに対する人工知能システムからの出力データを記憶する項目である。具体的に、プロンプトを生成する際に用いたタスク情報に応じた出力データ（文字列情報）が記憶される。

【0022】

第２支援テーブル１０１６は、特許文書に対する分類モデル１０５１からの出力データ（第２支援情報）を記憶し管理するためのテーブルである。具体的に、第２支援テーブル１０１６は、分類モデル１０５１に特許文書を入力データとして適用したことに応じて出力される分類ラベル、分類精度等の情報が記憶される。なお、本開示においては一例として分類モデルによる分類結果を説明するが、分類結果に替えて、スクリーニングモデルによるスクリーニング結果、該非判定モデルによる該非判定結果、発明評価モデルによる発明評価結果を記憶する構成としても構わない。
第２支援テーブル１０１６は、第２文書ＩＤ、第２出力値、精度のカラムを有するテーブルである。
図８は、第２支援テーブル１０１６のデータ構造を示す図である。

【0023】

第２文書ＩＤは、第２特許文書を識別するための文書識別情報を記憶する項目である。
第２出力値は、第２文書ＩＤにより特定される特許文書を入力データとして分類モデル１０５１に適用したことに応じて出力される分類ラベル等の出力データ（文字列情報）を記憶する項目である。第２出力値は、複数の分類ラベル等の出力データを記憶しても良い。
精度は、第２文書ＩＤにより特定される特許文書を入力データとして分類モデル１０５１に適用したことに応じて出力される分類ラベルに対する分類精度等の、第２出力値の品質を示す情報が記憶される項目である。精度は、複数の分類ラベル等のそれぞれに対する品質を示す情報を記憶しても良い。

【0024】

教師テーブル１０１７は、特許文書に対する教師情報を記憶し管理するためのテーブルである。
教師テーブル１０１７は、教師文書ＩＤ、教師ラベルのカラムを有するテーブルである。
図９は、教師テーブル１０１７のデータ構造を示す図である。

【0025】

教師文書ＩＤは、特許文書を識別するための文書識別情報を記憶する項目である。
教師ラベルは、今日私文書ＩＤにより特定される特許文書の分類ラベル等の教師データ（文字列情報）を記憶する項目である。

【0026】

タスクマスタ１０２１は、特許文書に対して実行されるタスクに関する情報（タスク情報）を記憶し管理するためのテーブルである。
タスクマスタ１０２１は、タスクＩＤを主キーとして、タスクＩＤ、タスク種別、抽出項目、タスクデータのカラムを有するテーブルである。
図１０は、タスクマスタ１０２１のデータ構造を示す図である。

【0027】

タスクＩＤは、タスクを識別するためのタスク識別情報を記憶する項目である。タスク識別情報は、タスク情報ごとにユニークな値が設定されている項目である。
タスク種別は、タスクの種別に関するタスク種別情報を記憶する項目である。具体的に、タスク種別は、特許文書に対して実行される処理（タスク）の目的に応じたタスクの内容を特定する文字列が記憶される。本開示において、タスク種別には、以下のタスクの内容に応じて「分類付与」、「スクリーニング」、「該非判定」、「発明評価」などの情報が記憶される。なお、本開示においては上記タスクは一例であり、特許文書に対する任意のタスクに対して本開示は適用可能である。
・分類付与タスク：複数の特許文書のそれぞれの内容に応じて分類を付与するタスクである。
・スクリーニングタスク：複数の特許文書のそれぞれがターゲット文書と関連しているか否かを判定させるタスクである。具体的に、「従来技術調査」、「先行技術調査」、「無効資料調査」などのように、タスクを細分化しても良い。
・該非判定タスク：複数の特許文書のそれぞれが対象製品と関連しているか否かを判定させるタスクである。例えば、「クリアランス調査」、「ＦＴＯ調査」、「他社侵害品調査」などの特許業務において実行されるタスクである。
・発明評価タスク：複数の特許文書のそれぞれの革新性、経済性、実用性、他社実施可能性、侵害発見容易性などの特許文書にかかる発明の価値を評価させるタスクである。例えば、「出願要否判断」、「外国出願検討、出願国の検討」、「登録特許の維持要否」などの特許業務において実行されるタスクである。
抽出項目は、タスクを実行する際に特許文書の抽出項目を示す情報（抽出項目情報）を記憶する項目である。具体的に、抽出項目は、「要約書」、「明細書」、「特許請求の範囲」、「図面」などのタスクを提供する特許文書の抽出項目を示す文字列を含む。また、抽出項目は、「発明の名称」、「発明の詳細な説明」、「技術分野」、「背景技術」、「先行技術文献」、「発明が解決しようとする課題」、「課題を解決するための手段」、「発明の効果」、「図面の簡単な説明」、「発明を実施するための形態」、「実施例」、「産業上の利用可能性」、「符号の説明等」、「課題」、「解決手段」などのタスクを提供する特許文書の抽出項目を示す文字列を含む。
具体的に、抽出項目は、タスク種別に応じて以下のような抽出項目情報が記憶される。
・分類付与：要約書、特許請求の範囲、独立請求項、請求項１、明細書など
・スクリーニング：要約書、特許請求の範囲、独立請求項、請求項１、明細書など
・該非判定：請求項１、特許請求の範囲、独立請求項
・発明評価：請求項１、独立請求項
タスクデータは、タスクに関する情報（文字列）を記憶する項目である。具体的に、タスクデータは、タスク種別に応じて以下のような文字列が記憶される。なお、＜クエリ＞の項目には後述するクエリデータが、＜抽出文書＞には、特許文書に含まれる文章のうち、抽出項目に基づき特定される抽出箇所（抽出内容、部分文章）が挿入されプロンプトが生成される。
・タスク種別が「分類付与」の場合
『
以下のように技術分類を定義します。以下の「対象特許」に記載された発明が分類Ａ、Ｂ、Ｃのいずれかに分類してください。対象特許と分類との関連度を０～１００の間で算定してください。そのように判断した理由を出力してください。
＃技術分類：＜クエリ＞（分類Ａ「・・・」、分類Ｂ「・・・」、分類Ｃ「・・・」）
＃対象特許：＜抽出文書＞（特許文書のうち要約書、特許請求の範囲の箇所（内容））
』
・タスク種別が「スクリーニング」の場合
『
以下の「ターゲット発明」に記載された発明が、以下の「対象特許」に記載された発明に記載されているか否かの検討をしてください。ターゲット発明と対象特許との関連度を０～１００の間で算定してください。そのように判断した理由を出力してください。
＃ターゲット発明：＜クエリ＞（・・・手段と、・・・手段と、・・・を備える装置）
＃対象特許：＜抽出文書＞（特許文書のうち要約書、特許請求の範囲、明細書の箇所（内容））
』
・タスク種別が「該非判定」の場合
『
以下の「対象製品」に記載された製品、サービス等が、以下の「対象特許」に記載された発明の権利範囲に含まれるか否かの検討をしてください。対象製品と対象特許との関連度を０～１００の間で算定してください。そのように判断した理由を出力してください。
＃対象製品：＜クエリ＞（・・・手段と、・・・手段と、・・・を備える装置）
＃対象特許：＜抽出文書＞（特許文書のうち請求項１の箇所（内容））
』
・タスク種別が「発明評価の場合」
『
以下のように評価基準を定義します。以下の「対象特許」に記載された発明が評価Ａ、Ｂ、Ｃのいずれかに評価してください。そのように判断した理由を出力してください。
＃評価基準：＜クエリ＞（評価Ａ「・・・」、評価Ｂ「・・・」、評価Ｃ「・・・」）
＃対象特許：＜抽出文書＞（特許文書のうち要約書、特許請求の範囲の箇所（内容））』

【0028】

パラメータマスタ１０２２は、パラメータに関する情報（パラメータ情報）を記憶し管理するためのテーブルである。
パラメータマスタ１０２２は、抽出割合、精度閾値、適用条件のカラムを有するテーブルである。
図１１は、パラメータマスタ１０２２のデータ構造を示す図である。

【0029】

抽出割合は、母集団から複数の特許文書からなる第１特許文書を特定する際のサンプリング割合を記憶する項目である。具体的に、抽出割合は、０～１００％の値をとる。
精度閾値は、１または複数の第２特許文書からなる第２特許集合を特定する際の精度等の第２出力値の品質を示す情報に関する条件を記憶する項目である。例えば、分類モデル１０５１が出力する第２出力値と精度に基づき、当該精度が精度閾値よりも大きいもののみを第２特許文書として特定し、記憶する。具体的に、精度閾値は、０～１の値をとる。
適用条件は、抽出割合および精度閾値を適用する際の適用条件を記憶する項目である。
具体的に、適用条件は、文書処理の実行回数、未処理文書の数、割合等に関する条件を記憶する。

【0030】

＜サーバ１０の制御部１０４の構成＞
サーバ１０の制御部１０４は、ユーザ登録制御部１０４１、文書処理部１０４２、分類モデル１０５１を備える。制御部１０４は、記憶部１０１に記憶されたアプリケーションプログラム１０１１を実行することにより、各機能ユニットが実現される。

【0031】

ユーザ登録制御部１０４１は、本開示に係るサービスの利用を希望するユーザの情報をユーザテーブル１０１２に記憶する処理を行う。
ユーザテーブル１０１２に記憶される情報は、ユーザが任意の情報処理端末からサービス提供者が運営するウェブページなどを開き、所定の入力フォームに情報を入力しサーバ１０へ送信する。ユーザ登録制御部１０４１は、受信した情報をユーザテーブル１０１２の新しいレコードに記憶し、ユーザ登録が完了する。これにより、ユーザテーブル１０１２に記憶されたユーザはサービスを利用することができるようになる。
ユーザ登録制御部１０４１によるユーザ情報のユーザテーブル１０１２への登録に先立ち、サービス提供者は所定の審査を行いユーザによるサービス利用可否を制限しても良い。
ユーザＩＤは、ユーザを識別できる任意の文字列または数字で良く、ユーザが希望する任意の文字列または数字、もしくはユーザ登録制御部１０４１が自動的に任意の文字列または数字を設定しても良い。

【0032】

文書処理部１０４２は、文書処理を実行する。詳細は後述する。

【0033】

分類モデル１０５１は、特許文書を分類するための分類モデルを記憶する項目である。
分類モデル１０５１は、機械学習モデル、深層学習モデル、人工知能モデル等の任意の学習モデルを含む。本開示における、分類モデル１０５１は、特許文書等の文書（テキストデータ）の入力に応じて、分類名（分類ラベル）および当該分類名に応じた精度（推論精度、推論の品質を示す情報）を出力可能な学習モデルを含む。例えば、分類モデル１０５１は、ベイズ分類、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ）、決定木（ＤｅｃｉｓｉｏｎＴｒｅｅｓ）、ランダムフォレスト（ＲａｎｄｏｍＦｏｒｅｓｔ）、ロジスティック回帰、深層学習モデル、ＢＥＲＴを含む。
なお、分類モデル１０５１は、ＣＮＮ、ＲｅｓＮｅｔ、Ｉｎｃｅｐｔｉｏｎ、ＶＧＧＮｅｔなどの画像分類モデルを含んでも良い。特許文書は、図面等の画像を含むため、当該図面等の画像に応じて分類名を出力可能な構成としても良い。
分類モデル１０５１は、自然言語処理に使用される多くの汎用的なライブラリにより実現することができる。例えば、分類モデル１０５１は、ＮＬＴＫ（ＮａｔｕｒａｌＬａｎｇｕａｇｅＴｏｏｌｋｉｔ）、ｓｐａＣｙ、Ｓｃｉｋｉｔ－ｌｅａｒｎ、ＴｅｎｓｏｒＦｌｏｗａｎｄＫｅｒａｓ、ＰｙＴｏｒｃｈ、ＦａｓｔＴｅｘｔ、Ｇｅｎｓｉｍなどを含む。

【0034】

＜ユーザ端末２０の構成＞
ユーザ端末２０は、サービスを利用するユーザが操作する情報処理装置である。ユーザ端末２０は、例えば、スマートフォン、タブレット等の携帯端末でもよいし、据え置き型のＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ラップトップＰＣであってもよい。また、ＨＭＤ（ＨｅａｄＭｏｕｎｔＤｉｓｐｌａｙ）、腕時計型端末等のウェアラブル端末であってもよい。
ユーザ端末２０は、記憶部２０１、制御部２０４、入力装置２０６、出力装置２０８を備える。

【0035】

＜ユーザ端末２０の記憶部２０１の構成＞
ユーザ端末２０の記憶部２０１は、ユーザＩＤ２０１１、アプリケーションプログラム２０１２を備える。

【0036】

ユーザＩＤ２０１１はユーザのアカウントＩＤである。ユーザは、ユーザ端末２０からユーザＩＤ２０１１を、サーバ１０へ送信する。サーバ１０は、ユーザＩＤ２０１１に基づきユーザを識別し、本開示にかかるサービスをユーザに対して提供する。なお、ユーザＩＤ２０１１には、ユーザ端末２０を利用しているユーザを識別するにあたりサーバ１０から一時的に付与されるセッションＩＤなどの情報を含む。

【0037】

アプリケーションプログラム２０１２は、記憶部２０１に予め記憶されていても良いし、通信ＩＦを介してサービス提供者が運営するウェブサーバ等からダウンロードする構成としても良い。
アプリケーションプログラム２０１２は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
アプリケーションプログラム２０１２は、ユーザ端末２０に記憶されているウェブブラウザアプリケーション上で実行されるＪａｖａＳｃｒｉｐｔ（登録商標）などのインタープリター型プログラミング言語を含む。

【0038】

＜ユーザ端末２０の制御部２０４の構成＞
ユーザ端末２０の制御部２０４は、入力制御部２０４１、出力制御部２０４２を備える。制御部２０４は、記憶部２０１に記憶されたアプリケーションプログラム２０１２を実行することにより、各機能ユニットが実現される。

【0039】

＜ユーザ端末２０の入力装置２０６の構成＞
ユーザ端末２０の入力装置２０６は、カメラ２０６１、マイク２０６２、位置情報センサ２０６３、モーションセンサ２０６４、タッチデバイス２０６５を備える。

【0040】

＜ユーザ端末２０の出力装置２０８の構成＞
ユーザ端末２０の出力装置２０８は、ディスプレイ２０８１、スピーカ２０８２を備える。

【0041】

＜人工知能システム４０の構成＞
人工知能システム４０は、プロンプトに対する回答内容を出力する情報処理装置である。例えば、人工知能システム４０は、ＣｈａｔＧＰＴ、ＯｐｅｎＡＩＧＰＴ、ＰｅｒｐｌｅｘｉｔｙＡｓｋ、ＢｉｎｇＡＩ等が含まれる。これらの人工知能システムは対話応対（チャット）の機能を備えており、ユーザは任意の問い合わせや命令指示を文章で人工知能システムに与えることにより、当該問い合わせに対する回答や命令指示に対する回答を得ることができる。本開示においては、ユーザは、問合処理において作成したプロンプトを人工知能システム４０へ送信することにより、特許文書の読解を支援する文章を回答内容として得ることができる。
また本開示において、人工知能システムは、テキストベースの対話応対に限られない。例えば、Ｍｉｄｊｏｕｒｎｅｙ、ＳｔａｂｌｅＤｉｆｆｕｓｉｏｎ等の画像生成ＡＩシステムであっても構わない。例えば、ユーザは、問合処理において作成したプロンプトを、そのような画像生成ＡＩシステムに送信することにより、特許文書の読解を支援する画像や動画を回答内容として得ることができる。
その他、本開示は、動画や音声等により回答内容を出力する人工知能システムに対しても適用可能である。人工知能システム４０は、大規模言語モデルシステム(ＬＬＭシステム)を含む。

【0042】

＜システム１の動作＞
以下、システム１の各処理について説明する。
図１２は、文書処理の動作を示すフローチャートである。
図１３は、母集団作成処理ページの動作を示す画面例である。

【0043】

＜文書処理＞
文書処理は、特許文書に対して処理を適用する処理である。

【0044】

＜文書処理の概要＞
文書処理は、文書処理の処理対象となる母集団を作成し、当該母集団から第１集合をサンプリングにより特定し、当該第１集合に適用するプロンプトを生成し、当該プロンプトを大規模言語モデルへ送信することにより大規模言語モデルから出力される第１出力値を取得し、第１出力値をユーザへ提示し、当該ユーザからの入力操作に応じて教師データを作成し、母集団から第２集合を特定し、第２集合に対して教師データに基づき学習した分類モデルによる分類処理を実行し、母集団のうち未処理文書がなくなるまで上記処理を反復して実行する一連の処理である。

【0045】

＜文書処理の詳細＞
以下に、文書処理の詳細を説明する。

【0046】

＜母集団作成ステップ＞
ステップＳ１０１において、サーバ１０の文書処理部１０４２は、複数の特許文書を含む母集団に関する母集団情報を受け付ける母集団受付ステップを実行する。
具体的に、ユーザは、ユーザ端末２０の入力装置２０６を操作することにより、ウェブブラウザ等に母集団作成処理を実行するためのページ（母集団作成処理ページＤ１）のＵＲＬを入力し、母集団作成処理ページを開く。ユーザ端末２０の制御部２０４は、母集団作成処理ページを開くためのリクエストを、サーバ１０へ送信する。サーバ１０の制御部１０４は、受信したリクエストに基づき、母集団作成処理ページＤ１を生成しユーザ端末２０へ送信する。ユーザ端末２０の制御部２０４は、受信した母集団作成処理ページＤ１をユーザ端末２０のディスプレイ２０８１に表示する。
図１３は、文書処理における母集団作成処理ページＤ１の画面例である。ユーザ端末２０のディスプレイ２０８１には、母集団作成処理ページＤ１が表示される。母集団作成処理ページＤ１は、タスク選択欄Ｄ１０１、抽出項目選択欄Ｄ１１１、クエリ入力欄Ｄ１０２、文書入力欄Ｄ１０３、プロンプト表示欄Ｄ１０４、送信ボタンＤ１０５を含む。

【0047】

＜母集団作成ステップ（タスク受付ステップ）＞
ユーザ端末２０の制御部２０４は、複数のタスク情報を選択可能にユーザに提示するタスク提示ステップを実行する。
具体的に、サーバ１０の文書処理部１０４２は、タスクマスタ１０２１を参照してタスクＩＤ、タスク種別の項目を取得し、ユーザ端末２０へ送信する。ユーザ端末２０の制御部２０４は、受信した複数のタスク種別を選択可能な態様でタスク選択欄Ｄ１０１に表示する。例えば、ユーザ端末２０の制御部２０４は、タスク選択欄Ｄ１０１に表示される複数のタスク種別のそれぞれを、タスク種別を選択するためのラジオボタンと関連付けてユーザに対して提示する。

【0048】

サーバ１０の文書処理部１０４２は、特許文書に対して実行されるタスクに関するタスク情報を受け付けるタスク受付ステップを実行する。タスク受付ステップは、ユーザから、タスク提示ステップにおいて提示された複数のタスク情報のうち所定のタスク情報の入力操作を受け付けるステップを実行する。
具体的に、ユーザは、ユーザ端末２０の入力装置２０６を操作することにより、タスク選択欄Ｄ１０１に表示されている複数のタスク種別から特許文書に対して実行する所定のタスク種別を選択する。

【0049】

タスク受付ステップは、特許文書に分類を付与する分類付与タスクと、特許文書とターゲット文書との関連性を判定するスクリーニングタスクと、特許文書と対象製品との関連性を判定する該非判定タスクと、特許文書にかかる発明の価値を評価する発明評価タスクと、のうち少なくともいずれか１つのタスクを示すタスク情報を受け付けるステップを実行する。
具体的に、ユーザは、分類付与タスク、スクリーニングタスク、該非判定タスク、発明評価タスク、などのタスク種別から、所定のタスク種別を選択することができる。なお、複数のタスク種別を選択できる構成としても良い。

【0050】

ユーザ端末２０の制御部２０４は、タスク選択欄Ｄ１０１において選択されたタスク情報に応じたタスクＩＤをサーバ１０へ送信する。サーバ１０の文書処理部１０４２は、タスクＩＤを受信し、受け付ける。

【0051】

なお、本開示において、複数のタスク情報が選択可能に提示され、ユーザにより選択される構成を一例として開示したがそれに限られない。例えば、タスク情報は一種類（分類付与タスク、スクリーニングタスク、該非判定タスク、発明評価タスクのうちのいずれか１つ）であり、予めタスク情報が所定のタスク情報として定められているものとしても良い。この場合も、サーバ１０の文書処理部１０４２は、予め定められているタスク情報の入力を受け付けたものと解釈することができる。
また、タスク情報は選択により受け付ける構成はなく、後述するクエリ受付ステップにおいて受け付けたクエリの内容に基づき特定される構成としても良い。
また、タスク選択欄Ｄ１０１に代えて、ユーザがタスク情報、タスク種別等を入力可能なタスク入力欄を設けても良い、ユーザは、タスク入力欄に、分類付与タスク、スクリーニングタスク、該非判定タスク、発明評価タスクなどのタスク情報を示す情報を入力し、ユーザ端末２０の制御部２０４またはサーバ１０の文書処理部１０４２がタスク種別を受け付ける構成としても構わない。

【0052】

＜母集団作成ステップ（クエリ受付ステップ）＞
サーバ１０の文書処理部１０４２は、特許文書に対して適用されるクエリ情報を受け付けるクエリ受付ステップを実行する。
具体的に、ユーザは、ユーザ端末２０の入力装置２０６を操作することにより、クエリ入力欄Ｄ１０２に特許文書に対して適用するクエリに関する文字列を入力する。例えば、ユーザは、ユーザ端末２０の入力装置２０６を操作することにより、ステップＳ５０１において選択されたタスク種別に応じて、以下のようなクエリをクエリ入力欄Ｄ１０２に入力する。

【0053】

〔分類付与タスクの場合のクエリ〕
分類Ａは、情報処理機器に関する分類である。
分類Ｂは、農機具に関する分類である。
分類Ｃは、食料品に関する分類である。

【0054】

〔スクリーニングタスクの場合のクエリ〕
クエリ例１）・・・手段と、・・・手段と、・・・を備える装置
クエリ例２）・・・工程と、・・・工程と、・・・を備える方法
クエリ例３）・・・ステップと、・・・ステップと、・・・を実行するプログラム

【0055】

〔該非判定タスクの場合のクエリ〕
クエリ例１）・・・手段と、・・・手段と、・・・を備える装置
クエリ例２）・・・工程と、・・・工程と、・・・を備える方法
クエリ例３）・・・ステップと、・・・ステップと、・・・を実行するプログラム

【0056】

〔発明評価タスクの場合のクエリ〕
革新性：Ａランクとは・・・、Ｂランクとは・・・、Ｃランクとは・・・
経済性：Ａランクとは・・・、Ｂランクとは・・・、Ｃランクとは・・・

【0057】

ユーザ端末２０の制御部２０４は、クエリ入力欄Ｄ１０２に入力された文字列をサーバ１０へ送信する。サーバ１０の文書処理部１０４２は、文字列を受信し、クエリデータとして受け付ける。

【0058】

＜母集団作成ステップ（文書取得ステップ）＞
サーバ１０の文書処理部１０４２は、特許に関する特許文書を取得する文書取得ステップを実行する。
具体的に、ユーザは、ユーザ端末２０の入力装置２０６を操作することにより、文書入力欄Ｄ１０３に特許文書の文書ＩＤを入力する。なお、特許文書は文書テーブル１０１３における文書ＩＤにより指定される必要はなく、ユーザは、文書入力欄Ｄ１０３に、公開特許公報等の特許番号、特許文書ごとの要約、特許請求の範囲および特許明細書等の特許文書の内容を入力しても良い。ユーザは、ユーザ端末２０の記憶部２０１に記憶された、Ｗｏｒｄ、Ｅｘｃｅｌ、ＣＳＶファイル等に含まれる特許文書の情報をアップロード対象として直接選択できる構成としても構わない。ユーザは、任意の手段により所定の特許文書をサーバ１０へ送信できる構成であればどのような手段であっても良い。

【0059】

文書取得ステップは、複数の特許に関する特許文書を取得するステップを実行する。
なお、ユーザは、ユーザ端末２０の入力装置２０６を操作することにより、複数の特許文書をサーバ１０に対して送信する構成としても良い。ユーザは、ユーザ端末２０の入力装置２０６を操作することにより、文書入力欄Ｄ１０３に複数の特許文書の文書ＩＤを入力しても良い。また、ユーザは、複数の特許文書の情報を含むＥｘｃｅｌ、ＣＳＶファイル等をサーバ１０へ送信しても良い。

【0060】

ユーザ端末２０の制御部２０４は、ユーザにより入力または選択された１または複数の特許文書をサーバ１０へ送信する。サーバ１０の文書処理部１０４２は、１または複数の特許文書を受信により取得し、受け付ける。

【0061】

サーバ１０の文書処理部１０４２は、ユーザ端末２０から受信した、タスクＩＤ、クエリデータ、１または複数の特許文書を、母集団テーブル１０１４の新たなレコードのタスクＩＤ、クエリデータ、母集団データの項目に記憶する。

【0062】

＜母集団作成ステップ（２回目以降）＞
ステップＳ１０１において、母集団受付ステップは、第１母集団に関する第１母集団情報を受け付けるステップと、第１母集団情報から、第２記憶ステップにおいて第２出力結果と関連付けて記憶された１または複数の特許文書を除いた１または複数の特許文書を含む第２母集団に関する第２母集団情報を受け付けるステップと、を含む。
具体的に、文書処理をステップＳ１０９まで実行した後に、再度ステップＳ１０１を実行する場合（２回目以降に実行される際）には、母集団データに含まれる特許文書から、第２支援テーブル１０１６において第２出力値と関連付けられた第２文書ＩＤにより特定される特許文書を除外して新たな母集団として受け付ける。
これにより、学習モデルによる第２処理結果の品質が好適ではない特許文書に対して改めて第１処理および第２処理を実行することができる。最初に与えた母集団から、第２処理結果の品質が好適である特許文書は徐々に除かれていくため、最初に与えた母集団に含まれる複数の特許文書に対して徐々に第１処理、第２処理を適用することができる。母集団に対して可能な限り第２処理を適用することにより、第１処理の適用を抑制することができる。

【0063】

ステップＳ１０１において、母集団受付ステップは、第１母集団に関する第１母集団情報を受け付けるステップと、第１母集団情報から、第１記憶ステップにおいて第１出力結果に基づく情報と関連付けて記憶された１または複数の特許文書と、第２記憶ステップにおいて第２出力結果と関連付けて記憶された１または複数の特許文書と、を除いた１または複数の特許文書を含む第２母集団に関する第２母集団情報を受け付けるステップと、を含む。
具体的に、文書処理をステップＳ１０９まで実行した後に、再度ステップＳ１０１を実行する場合（２回目以降に実行される際）には、母集団データに含まれる特許文書から、教師テーブル１０１７において教師ラベルと関連付けられた教師文書ＩＤにより特定される特許文書、および、第２支援テーブル１０１６において第２出力値と関連付けられた第２文書ＩＤにより特定される特許文書を除外して新たな母集団として受け付けても良い。
同様に、母集団データに含まれる特許文書から、第１支援テーブル１０１５において第１出力値と関連付けられた第１文書ＩＤにより特定される特許文書を除外して新たな母集団として受け付けても良い。
これにより、第１出力結果または第１出力結果に基づき教師データが与えられた特許文書と、第２処理結果の品質が好適である特許文書と、を除く特許文書に対して改めて第１処理および第２処理を実行することができる。最初に与えた母集団から、教師データが与えられた、または、第２処理結果の品質が好適である特許文書は徐々に除かれていくため、最初に与えた母集団に含まれる複数の特許文書に対して徐々に第１処理、第２処理を適用することができる。母集団に対して可能な限り第２処理を適用することにより、第１処理の適用を抑制することができる。

【0064】

＜サンプリングステップ（第一実施形態）＞
ステップＳ１０２において、サーバ１０の文書処理部１０４２は、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第１特許文書を抽出する第１特許抽出ステップを実行する。
具体的に、サーバ１０の文書処理部１０４２は、ステップＳ１０１において母集団テーブル１０１４に記憶された母集団データに含まれる複数の特許文書から、一部の特許文書（第１特許文書）を無作為（ランダム）に抽出する（サンプリングを行う）。
例えば、本開示において第１特許文書は母集団データに含まれる複数の特許文書に対して実行される処理の教師データを作成するためのものであるので、母集団データに含まれる複数の特許文書のうち１０～２０％の抽出割合で特許文書を抽出する。
例えば、母集団データに含まれる特許文書の件数が１０００件である場合には、１００～２００件の特許文書を抽出する。

【0065】

＜サンプリングステップ（第二実施形態）＞
ステップＳ１０２において、第１特許抽出ステップは、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書を複数のグループに分けるステップと、複数のグループのそれぞれから、１または複数の特許文書を第１特許文書として抽出するステップと、を含む。
具体的に、サーバ１０の文書処理部１０４２は、ステップＳ１０１において母集団テーブル１０１４に記憶された母集団データに含まれる複数の特許文書に対してクラスタリング処理を実行する。具体的に、サーバ１０の文書処理部１０４２は、複数の特許文書の文書内容（特許請求の範囲、要約、発明の詳細な説明、実施例、実施形態、その他、明細書等のテキストデータや、図面等の画像データ）の類似度に基づき、複数の特許文書に対するクラスタリング処理を実行する。例えば、クラスタリング処理は、ｋ平均法（ｋ－ｍｅａｎｓ）、階層的クラスタリング、ＤＢＳＣＡＮ、スペクトラルクラスタリングなど、任意の手法を用いることができる。これにより、母集団データに含まれる複数の特許文書を、グループA、グループB、グループC・・・などのグループ（クラスタ）に分類することができる。
サーバ１０の文書処理部１０４２は、それぞれのグループから所定数の特許文書を抽出する。具体的に、サーバ１０の文書処理部１０４２は、母集団データに含まれる複数の特許文書の数の１０～２０％を総数として、当該総数をグループ数で割った数の特許文書を、それぞれのグループから抽出する。
例えば、母集団データに含まれる特許文書の件数が１０００件である場合において、グループがＡ、Ｂ、Ｃ、Ｄの４つである場合には、抽出する特許文書の総数が１００件である場合には各グループから２５件ずつ特許文書を抽出する。同様に、抽出する特許文書の総数が２００件である場合には各グループから５０件ずつ特許文書を抽出する。なお、グループからの特許文書の抽出は無作為（ランダム）に抽出することが好適である。
これにより、母集団に含まれる特許文書の内容に偏りが合った場合においても、グループごとに所定数の特許文書をサンプリングすることにより、母集団に含まれる特許文書の表現空間の全域にわたってバランス良く第１処理を適用することができる。例えば、ユーザは、母集団に含まれる特許文書の表現空間の全域にわたってバランス良く教師データを準備することができる。これにより、第２処理を品質良く行うことができるとともに、処理時間や処理費用を節約することができる。
なお、グループごとに抽出する第１特許文書の件数は所定の定まった数でも良いし、グループに含まれる特許文書の件数や、グループごとの件数割合に応じた所定数の第１特許文書を抽出する構成としても良い。

【0066】

＜サンプリングステップ（２回目以降）＞
ステップＳ１０２において、第１特許抽出ステップは、第１母集団情報から、第１割合に応じた数の第１特許文書を抽出するステップと、第２母集団情報から、第２割合に応じた数の第１特許文書を抽出するステップと、を含む。
具体的に、文書処理をステップＳ１０９まで実行した後に、再度ステップＳ１０１を実行する場合（２回目以降に実行される際）には、１回目のステップＳ１０２において母集団からＰ％（第１割合）の割合の第１特許文書を抽出し、２回目のステップＳ１０２において母集団からＰ％とは異なるＱ％（第２割合）の割合の第１特許文書を抽出するものとする。

【0067】

例えば、第２割合は、第１割合よりも大きいものとしても良い。具体的に、Ｐ％は１０％、Ｑ％は１５％としても良い。
この場合、第２処理結果の品質が好適ではない特許文書が多い場合には、処理の収束性が悪いことが考えられる。第２割合を第１割合より大きくすると、母集団のうち大規模言語モデルにより処理される特許文書の割合が増えることから、第２処理に用いる教師データを増加させることができ、第２処理結果の品質が好適ではない特許文書の割合を減らすことができる。これにより、本開示における処理の処理回数を減らすことにより、トータルの処理時間を短縮させることができる場合がある。

【0068】

例えば、第１割合は、第２割合よりも大きいものとしても良い。具体的に、Ｐ％は１０％、Ｑ％は５％としても良い。
この場合、第２割合を第１割合より小さくすると、母集団のうち大規模言語モデルにより処理される特許文書の割合が減ることから、第１処理に伴う処理費用を節約することができる。

【0069】

サーバ１０の文書処理部１０４２は、パラメータマスタ１０２２の適用条件の項目を検索し、抽出割合（Ｐ％、Ｑ％）を取得しても良い。例えば、文書処理の実行数（１回目、２回目など）を適用条件として、実行数に応じた抽出割合（Ｐ％、Ｑ％）を取得する構成とすることができる。

【0070】

サーバ１０の文書処理部１０４２は、抽出した１または複数の第１特許文書の１または複数の文書ＩＤを、第１支援テーブル１０１５の新たなレコードの文書ＩＤの項目に記憶する。これにより、プロンプト生成ステップの処理対象が第１支援テーブル１０１５のレコードに第１支援情報として記憶される。

【0071】

＜プロンプト生成ステップ＞
ステップＳ１０３において、第１特許文書に基づく大規模言語モデルに処理を実行させるための入力データであるプロンプトを作成するステップを実行する。
本開示においては、一例として１の特許文書を入力した場合の処理を以下に説明する。なお、サーバ１０の文書処理部１０４２は、第１特許文書に含まれる複数の特許文書のそれぞれに対してプロンプト生成ステップを実行する。

【0072】

＜プロンプト生成ステップ（第一実施形態）＞
ステップＳ１０３において、サーバ１０の文書処理部１０４２は、大規模言語モデルに、第１特許抽出ステップにおいて抽出した第１特許文書を含むプロンプトを生成するプロンプト生成ステップを実行する。プロンプト生成ステップは、第１文書の読解を支援するための支援情報を含む補足情報を大規模言語モデルに出力させるためのプロンプトを生成するステップを含んでも良い。
具体的に、サーバ１０の文書処理部１０４２は、母集団テーブル１０１４の対象レコードのタスクＩＤに基づき、タスクマスタ１０２１のタスクＩＤの項目を検索し、抽出項目、タスクデータの項目を取得する。サーバ１０の文書処理部１０４２は、第１支援テーブル１０１５の対象レコードの第１文書ＩＤに基づき、文書テーブル１０１３の文書ＩＤの項目を検索し文書内容（特許請求の範囲、要約、発明の詳細な説明、実施例、実施形態などの特許文書の内容）を取得する。サーバ１０の文書処理部１０４２は、取得した抽出項目に基づき、文書内容のうち所定の抽出箇所（抽出内容、部分文章）を抽出する。なお、抽出箇所の抽出は行わなくても構わない。
サーバ１０の文書処理部１０４２は、取得したタスクデータ、母集団テーブル１０１４の対象レコードのクエリデータ、抽出した抽出箇所に基づきプロンプトを生成する。サーバ１０の文書処理部１０４２は、生成したプロンプトを第１支援テーブル１０１５のプロンプトの生成対象となる特許文書の文書ＩＤにより特定される第１支援情報のレコードのプロンプトの項目に記憶する。つまり、サーバ１０の文書処理部１０４２は、第１支援テーブル１０１５に記憶されている第１支援情報のそれぞれに対してプロンプトを生成し、関連付けて記憶する。

【0073】

＜プロンプト生成ステップ（第二実施形態）＞
ステップＳ１０３において、プロンプト生成ステップは、第１特許文書および分類ルールが規定された分類定義文章を含み、第１特許文書の分類に関する第１分類情報を大規模言語モデルに出力させるためのプロンプトを生成するステップを含む。

【0074】

具体的に、サーバ１０の文書処理部１０４２は、取得したタスクデータに対して、母集団テーブル１０１４の対象レコードのクエリデータ、抽出した抽出箇所を適用することによりプロンプトを生成する。サーバ１０の文書処理部１０４２は、タスクデータの文字列のうち、「＜クエリ＞」をクエリデータで、「＜抽出文書＞」を抽出箇所で置換することにより、以下のプロンプトを生成することができる。
なお、本開示においては、分類付与タスク、スクリーニングタスク、該非判定タスク、発明評価タスクを一例として開示するが、適用可能な処理およびタスクはこれらに限られない。大規模言語モデルが取り扱うことが可能な任意のタスクに適用できる。

【0075】

〔分類付与タスクの場合のプロンプト〕
以下のように技術分類を定義します。以下の「対象特許」に記載された発明が分類Ａ、Ｂ、Ｃのいずれかに分類してください。対象特許と分類との関連度を０～１００の間で算定してください。そのように判断した理由を出力してください。
＃技術分類：
分類Ａは、情報処理機器に関する分類である。
分類Ｂは、農機具に関する分類である。
分類Ｃは、食料品に関する分類である。
＃対象特許：
〔要約書〕
・・・
〔特許請求の範囲〕
・・・

【0076】

〔スクリーニングタスクの場合のプロンプト〕
以下の「ターゲット発明」に記載された発明が、以下の「対象特許」に記載された発明に記載されているか否かの検討をしてください。ターゲット発明と対象特許との関連度を０～１００の間で算定してください。そのように判断した理由を出力してください。
＃ターゲット発明：
・・・手段と、・・・手段と、・・・を備える装置
＃対象特許：
〔要約書〕
・・・
〔特許請求の範囲〕
・・・
〔明細書〕
・・・

【0077】

〔該非判定タスクの場合のプロンプト〕
以下の「対象製品」に記載された製品、サービス等が、以下の「対象特許」に記載された発明の権利範囲に含まれるか否かの検討をしてください。対象製品と対象特許との関連度を０～１００の間で算定してください。そのように判断した理由を出力してください。
＃対象製品：
・・・手段と、・・・手段と、・・・を備える装置
＃対象特許：
〔請求項１〕
・・・

【0078】

〔発明評価タスクの場合のプロンプト〕
以下の「対象特許」に記載された発明を、以下の評価項目ごとの評価基準に従って評価してください。
＃評価項目・評価基準：
革新性：Ａランクとは・・・、Ｂランクとは・・・、Ｃランクとは・・・
経済性：Ａランクとは・・・、Ｂランクとは・・・、Ｃランクとは・・・
＃対象特許：
〔請求項１〕
・・・

【0079】

＜プロンプト生成ステップ（分類定義作成処理）＞
プロンプト生成ステップ（第二実施形態）において分類付与タスクや発明評価タスクを実行する場合には、予め分類定義および評価項目・評価基準を定義しておく必要がある。
サーバ１０の文書処理部１０４２は、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第３特許文書を抽出する第３特許抽出ステップを実行しても良い。これら分類定義および評価項目・評価基準も、人工知能システム４０を用いることにより作成することができる。
以下、主に分類付与タスクにおける分類定義の作成方法について説明するがこれに限られない。同様に、発明評価タスクにおける評価項目・評価基準を人工知能システム４０により作成しても良い。

【0080】

サーバ１０の文書処理部１０４２は、大規模言語モデルに、第３特許抽出ステップにおいて抽出した第３特許文書および分類観点が規定された分類観点文章を含むプロンプトを入力することに応じて出力される第３特許文書の分類観点に関する分類観点情報を取得する分類観点取得ステップを実行しても良い。
具体的に、サーバ１０の文書処理部１０４２は、ステップＳ１０１において母集団テーブル１０１４に記憶された母集団データに含まれる複数の特許文書から、一部の特許文書（第３特許文書）を無作為（ランダム）に抽出する（サンプリングを行う）。なお、特許文書の抽出はステップＳ１０２における第１特許文書の抽出と同様の処理を実行しても良い。
サーバ１０の文書処理部１０４２は、抽出した第３特許文書に含まれる複数の特許文書の文書内容と、分類観点が規定された分類観点文章と、に基づき以下のようなプロンプトを作成する。これにより、サーバ１０の文書処理部１０４２は、抽出した複数の特許文書のそれぞれに対してプロンプトを作成する。

【0081】

〔分類作成タスクのプロンプト〕
以下の「対象特許」に記載された発明を以下の分類観点に従い分類してください。
＃分類観点：
技術分野、用途、課題、目的、構成、解決手段、効果
〔要約書〕
・・・
〔特許請求の範囲〕
・・・

【0082】

サーバ１０の文書処理部１０４２は、生成したプロンプト（文字列）を含むリクエストを人工知能システム４０の入力データとして人工知能システム４０が提供するＡＰＩエンドポイントへ送信する。人工知能システム４０は、プロンプトに対する回答を含むレスポンスをサーバ１０へ送信する。
サーバ１０の文書処理部１０４２は、送信したプロンプトに対するレスポンスを受信する。レスポンスは、プロンプトに対する回答内容に関する文字列を含む。具体的に、分類作成タスクにおいて以下のような回答内容が得られる。
なお、本開示においては一例として以下のような回答内容を説明するが、回答内容は「分類名」に関するフィールド（ｋｅｙ）を有するＪＳＯＮ等の構造化されたデータで受信する構成が好適である。例えば、ＣｈａｔＧＰＴと呼ばれる大規模言語モデル（ＬＬＭ）では、ＦｕｎｃｔｉｏｎＣａｌｌｉｎｇという機能を用いることにより、回答結果を構造化（型付け）されたデータとすることができる。
なお、回答内容は、複数の特許文書のそれぞれに作成したプロンプトに対して、複数の特許文書のそれぞれに対する回答内容（複数の特許文書ごとの回答内容）が得られる。

【0083】

〔分類作成タスクの回答内容〕
＃分類観点１：技術分野
＃分類名：半導体技術
＃理由：要約書において、・・・
＃分類観点２：目的
＃分類名：微細化
＃理由：要約書において、・・・

【0084】

サーバ１０の文書処理部１０４２は、大規模言語モデルに、分類観点取得ステップにおいて取得した分類観点情報を含むプロンプトを入力することに応じて出力される、第３特許文書に関する分類観点情報を大括り化することにより得られる分類定義文章を取得する分類定義取得ステップを実行しても良い。
具体的に、サーバ１０の文書処理部１０４２は、１または複数の特許文書に対して人工知能システム４０から回答結果として取得した複数の分類名に基づき、以下のようなプロンプトを作成する。分類名Ａ、分類名Ｂ、分類名Ｃには、例えば、「半導体技術」「微細化」「高集積化」などの分類作成タスクにおいて作成した分類名（分類ラベル）が入力される。

【0085】

〔分類定義タスクのプロンプト〕
以下の「分類名」に記載された分類ラベルを分類観点により大括り化することにより分類定義を作成してください。
＃分類名：〔分類名Ａ〕〔分類名Ｂ〕〔分類名Ｃ〕・・・

【0086】

サーバ１０の文書処理部１０４２は、生成したプロンプト（文字列）を含むリクエストを人工知能システム４０の入力データとして人工知能システム４０が提供するＡＰＩエンドポイントへ送信する。人工知能システム４０は、プロンプトに対する回答を含むレスポンスをサーバ１０へ送信する。
サーバ１０の文書処理部１０４２は、送信したプロンプトに対するレスポンスを受信する。レスポンスは、プロンプトに対する回答内容に関する文字列を含む。具体的に、分類定義タスクにおいて以下のような回答内容（分類定義）が得られる。
このように、第３特許文書に含まれる複数の特許文書に対して人工知能システム４０を適用することにより作成した分類名を用いて、分類定義を自動的に作成することができる。このように得られた分類定義を、既に説明した分類付与タスクのクエリとして用いることができる。これにより、分類定義を人手により用意することなしに、複数の特許文書を含む母集団に含まれる複数の特許文書を自動的に分類することができる。

【0087】

〔分類定義タスクの回答内容〕
＃分類名１：半導体の高性能化技術
＃分類の説明：半導体の性能を高性能化させる技術に関する発明
＃小分類：配線の工夫、高集積化の工夫、・・・
＃分類名２：半導体の低コスト化技術
＃分類の説明：半導体の設計、製造コストを低下させる技術に関する発明
＃小分類：材料の工夫、加工処理の工夫、・・・

【0088】

＜第１出力値取得ステップ（第一実施形態）＞
ステップＳ１０４において、サーバ１０の文書処理部１０４２は、大規模言語モデルに、第１特許抽出ステップにおいて抽出した第１特許文書を含むプロンプトを入力することに応じて出力される第１出力結果を取得する第１処理ステップを実行する。
ステップＳ１０４において、第１処理ステップは、大規模言語モデルに、第１特許文書および分類ルールが規定された分類定義文章を含むプロンプトを入力することに応じて出力される第１特許文書の分類に関する第１分類情報を取得するステップを実行する。
ステップＳ１０４において、第１処理ステップは、分類定義取得ステップにおいて取得した分類定義文章に基づき第１分類情報を取得するステップを実行する。

【0089】

具体的に、サーバ１０の文書処理部１０４２は、ステップＳ１０３において生成したプロンプト（文字列）を含むリクエストを人工知能システム４０の入力データとして人工知能システム４０が提供するＡＰＩエンドポイントへ送信する。人工知能システム４０は、プロンプトに対する回答を含むレスポンスをサーバ１０へ送信する。
サーバ１０の文書処理部１０４２は、送信したプロンプトに対するレスポンスを受信する。レスポンスは、プロンプトに対する回答内容に関する文字列を含む。具体的に、分類付与タスク、スクリーニングタスク、該非判定タスク、発明評価タスクのそれぞれのタスクに応じて、分類付与結果、スクリーニング結果、該非判定結果、発明評価結果のそれぞれの回答内容に関する文字列が人工知能システム４０から出力される。
例えば、回答内容は以下のような情報を含む。なお、本開示においては一例として以下のような回答内容を説明するが、回答内容は「分類名」などのフィールド（ｋｅｙ）を有するＪＳＯＮ等の構造化されたデータで受信する構成が好適である。例えば、ＣｈａｔＧＰＴと呼ばれる大規模言語モデル（ＬＬＭ）では、ＦｕｎｃｔｉｏｎＣａｌｌｉｎｇという機能を用いることにより、回答結果を構造化（型付け）されたデータとすることができる。
なお、回答内容は、複数の特許文書のそれぞれに作成したプロンプトに対して、複数の特許文書のそれぞれに対する回答内容（複数の特許文書ごとの回答内容）が得られる。
サーバ１０の文書処理部１０４２は、回答結果を第１支援テーブル１０１５のプロンプトの生成対象となる特許文書の文書ＩＤにより特定される第１支援情報のレコードの第１出力値の項目に記憶する。

【0090】

〔分類付与タスクの場合の回答内容〕
＃分類：Ａ
＃関連度：８０
＃理由：
対象特許は、構成・・、構成・・・を備えている。一方、対象特許は、構成・・、構成・・・を備えていない。分類Ａの分類定義に合致しており、分類Ｂ、分類Ｃの分類定義に合致しない。分類Ａとの関連度は８０程度である。

【0091】

〔スクリーニングタスクの場合の回答内容〕
＃関連度：４０
＃理由：
ターゲット発明は、対象特許と、・・・の観点で一致しており、・・・の観点で相違する。
相違する部分が大きく、対象特許との関連度は４０程度である。

【0092】

〔該非判定タスクの場合の回答内容〕
＃関連度：２０
＃理由：
対象製品は、対象特許と、・・・の観点で一致しており、・・・の観点で相違する。
対象製品は、対象特許の権利範囲には含まれない。対象特許との関連度は２０程度である。

【0093】

〔発明評価タスクの場合の回答内容〕
＃革新性：Ｂランク
＃理由：対象特許は、・・・などの構成を備えており、・・・
＃経済性：Ａランク
＃理由：対象特許は、・・・などの構成を備えており、・・・

【0094】

このとき、指標値（関連度）は、タスク情報が分類付与タスクである場合には、付与した分類に関する精度を示す指標値であり、タスク情報がスクリーニングタスクである場合には、ターゲット発明との関連度を示す指標値であり、タスク情報が該非判定タスクである場合には、対象製品との関連度を示す指標値となる。

【0095】

＜第１出力値提示ステップ＞
ステップＳ１０５において、サーバ１０の文書処理部１０４２は、第１処理ステップにおいて取得した第１出力結果をユーザに提示する第１提示ステップを実行する。
具体的に、サーバ１０の文書処理部１０４２は、受信した回答内容をユーザ端末２０へ送信する。ユーザ端末２０の制御部２０４は、受信した回答内容をユーザ端末２０のディスプレイ２０８１に表示する。なお、ユーザは、ユーザ端末２０の入力装置２０６を操作することにより、回答結果にかかる情報をＷｏｒｄ、Ｅｘｃｅｌ、ＣＳＶファイル等のファイル形式でダウンロード可能な構成としても良い。
サーバ１０の文書処理部１０４２は、指標値および根拠に加えて、特許文書の抽出箇所をユーザに提示しても良い。これにより、ユーザは特許文書のどの箇所に基づき指標値がどのような根拠で算定されたのか確認することができる。

【0096】

サーバ１０の文書処理部１０４２は、第１特許文書に含まれる複数の特許文書のそれぞれに対して生成したプロンプトに応じた回答内容を、ユーザ端末２０へ送信する。ユーザ端末２０の制御部２０４は、受信した複数の回答内容をユーザ端末２０のディスプレイ２０８１に表示し提示しても良い。具体的に、複数の特許文書の文書ＩＤ、公報番号、文書名等の文書を特定する情報と、それぞれの文書ごとに生成したプロンプト、当該プロンプトに応じて人工知能システム４０から受信した回答内容を関連付けて、それぞれ提示しても良い。また、指標値および根拠に加えて、特許文書の抽出箇所をユーザに提示しても良い。
また、ユーザは、ユーザ端末２０の入力装置２０６を操作することにより、複数の特許文書の文書ＩＤ、公報番号、文書名等の文書を特定する情報と、それぞれの文書ごとに生成されたプロンプト、当該プロンプトに応じて人工知能システム４０から受信した回答内容が記憶されたＷｏｒｄ、Ｅｘｃｅｌ、ＣＳＶファイル等のファイルをダウンロード可能な構成としても良い。

【0097】

＜教師データ作成ステップ＞
ステップＳ１０６において、サーバ１０の文書処理部１０４２は、ユーザから、第１提示ステップにおいて提示した第１出力結果に対する入力操作を受け付け、入力操作に応じて第１特許文書に関する教師データを作成する教師データ作成ステップを実行する。
具体的に、ユーザは、ユーザ端末２０の入力装置２０６を操作することにより、ユーザ端末２０のディスプレイ２０８１に表示し提示した第１出力結果を編集することができる。具体的に、ユーザは、ユーザ端末２０の入力装置２０６を操作することにより第１出力結果の内容を修正したり削除することができる。ユーザは、ユーザ端末２０の入力装置２０６を操作することにより第１出力結果に対する修正および削除などの編集内容をサーバ１０へ送信する。
大規模言語モデルから出力された第１出力値の内容は誤った内容、不正確な情報が含まれていることも多いため、ユーザは第１出力値の内容を修正、編集、削除することにより第１出力値に基づく教師データを作成することが好適である。

【0098】

ステップＳ１０６において、サーバ１０の文書処理部１０４２は、第１特許抽出ステップにおいて抽出した第１特許文書の少なくとも一部または全部を第１出力結果に基づく情報と関連付けて記憶する第１記憶ステップを実行する。
具体的に、サーバ１０の文書処理部１０４２は、ユーザ端末２０から受信した編集内容に基づき、第１文書ＩＤと、修正、編集した第１出力結果と、を関連付けて、教師テーブル１０１７の新たなレコードの教師文書ＩＤ、教師ラベルの項目に記憶する。なお、ユーザは、第１出力値の内容が妥当である場合において、第１文書ＩＤ、第１出力結果をそのままサーバ１０へ送信し、サーバ１０の文書処理部１０４２受信した第１文書ＩＤ、第１出力結果を、教師テーブル１０１７の教師文書ＩＤ、教師ラベルの項目に記憶する。
これにより、ユーザは第１出力結果を参考に、少ない作業負荷で教師データを作成することができる。第２処理は、第１出力結果をそのまま教師データとして用いた場合に比べ、ユーザにより作成および編集された教師データに基づき実行されるため、より品質が高い処理結果が期待される。

【0099】

なお、本開示においてはステップＳ１０５、Ｓ１０６において人工知能システム４０から出力された第１出力結果に基づき、ユーザによる入力操作に応じて教師データを作成する例を一例として開示したがこれに限られない。例えば、第１特許文書に対する第１出力結果（第１出力値）をそのまま教師テーブル１０１７の教師ラベルの項目に記憶しても良い。この場合、ステップＳ１０５、Ｓ１０６を省略しても良い。

【0100】

＜処理対象特定ステップ＞
ステップＳ１０７において、サーバ１０の文書処理部１０４２は、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第２特許文書を抽出する第２特許抽出ステップを実行する。
具体的に、サーバ１０の文書処理部１０４２は、ステップＳ１０１において母集団テーブル１０１４に記憶された母集団データに含まれる複数の特許文書のすべてを第２特許文書として抽出する。
なお、サーバ１０の文書処理部１０４２は、母集団データに含まれる複数の特許文書のうち、教師テーブル１０１７の教師文書ＩＤの項目により特定される特許文書を除いて第２特許文書を特定しても良い。
同様に、サーバ１０の文書処理部１０４２は、母集団データに含まれる複数の特許文書のうち、第１支援テーブル１０１５の第１文書ＩＤの項目により特定される特許文書を除いて第２特許文書を特定しても良い。
その他、サーバ１０の文書処理部１０４２は、複数の特許文書から、一部の特許文書（第１特許文書）を無作為（ランダム）に抽出し（サンプリングを行い）、第２特許文書としても構わない。なお、サンプリング処理については、ステップＳ１０２におけるサンプリングステップと同様の処理を実行しても構わない。詳細な説明は省略する。

【0101】

サーバ１０の文書処理部１０４２は、抽出した１または複数の第２特許文書の１または複数の文書ＩＤを、第２支援テーブル１０１６の新たなレコードの文書ＩＤの項目に記憶する。これにより、第２出力値取得ステップの処理対象が第２支援テーブル１０１６のレコードに第１支援情報として記憶される。

【0102】

＜学習処理＞
ステップＳ１０８において、サーバ１０の文書処理部１０４２は、分類モデル１０５１の学習処理を実行する。分類モデル１０５１の学習処理を以下に説明する。

【0103】

＜分類モデル１０５１の学習処理＞
分類モデル１０５１の学習処理は、分類モデル１０５１に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。

【0104】

＜分類モデル１０５１の学習処理の概要＞
分類モデル１０５１の学習処理は、特許文書の文書内容（母集団情報のタスクＩＤを参照して、タスクマスタ１０２１の抽出項目に基づき抽出される抽出箇所としても良い、その他、特許請求の範囲、要約、発明の詳細な説明、実施例、実施形態等の任意の抽出箇所としても構わない）を入力データ（入力ベクトル）として、教師ラベル（第１出力結果）を出力データ（教師データ）となるように、分類モデル１０５１に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。

【0105】

＜分類モデル１０５１の学習処理の詳細＞
サーバ１０の制御部１０４は、教師文書ＩＤ、教師ラベルを含む教師情報を教師テーブル１０１７から取得する。サーバ１０の文書処理部１０４２は、教師文書ＩＤに基づき、文書テーブル１０１３の文書ＩＤの項目を検索し、文書内容を取得する。サーバ１０の文書処理部１０４２は、タスクマスタ１０２１の抽出項目に基づき文書内容から抽出箇所を抽出することが好適である。つまり、ステップＳ１０４において第１出力値を取得した際の入力データと同じになるように、特許文書から所定の抽出箇所を抽出することが好適である。
サーバ１０の制御部１０４は、文書内容、抽出箇所などを入力データ（入力ベクトル）として、教師ラベルを出力データ（教師データ）となるよう、学習データを作成する。
サーバ１０の制御部１０４は、学習データに基づき、分類モデル１０５１のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ１０の制御部１０４は、作成したデータセットに基づき分類モデル１０５１に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。

【0106】

＜第２出力値取得ステップ＞
ステップＳ１０８において、第２特許文書に基づく入力データを分類モデル１０５１に入力することにより、第２出力値を取得するステップを実行する。
本開示においては、一例として１の特許文書を入力した場合の処理を以下に説明する。なお、サーバ１０の文書処理部１０４２は、第２特許文書に含まれる複数の特許文書のそれぞれに対して第２出力値取得ステップを実行する。

【0107】

＜第２出力値取得ステップ（第一実施形態）＞
ステップＳ１０８において、第２処理ステップは、分類モデルである学習モデルに、第２特許文書を入力することに応じて出力される第２特許文書の分類に関する第２分類情報を取得するステップを実行する。
第２処理ステップは、学習モデルに、第２特許文書を入力することに応じて出力される第２特許文書に含まれる１または複数の特許文書に対する分類の品質を示す第２品質情報を取得するステップを含み。
サーバ１０の文書処理部１０４２は、第２処理ステップにおいて取得した第２品質情報が所定の条件を満たす場合に、第２特許文書に含まれる１または複数の特許文書の少なくとも一部を、第２分類情報と関連付けて記憶する第２分類記憶ステップを実行する。
具体的に、サーバ１０の文書処理部１０４２は、母集団テーブル１０１４の対象レコードのタスクＩＤに基づき、タスクマスタ１０２１のタスクＩＤの項目を検索し、抽出項目の項目を取得する。サーバ１０の文書処理部１０４２は、第２支援テーブル１０１６の対象レコードの第２文書ＩＤに基づき、文書テーブル１０１３の文書ＩＤの項目を検索し文書内容（特許請求の範囲、要約、発明の詳細な説明、実施例、実施形態などの特許文書の内容）を取得する。サーバ１０の文書処理部１０４２は、取得した抽出項目に基づき、文書内容のうち所定の抽出箇所（抽出内容、部分文章）を抽出する。なお、抽出箇所の抽出は行わなくても構わない。
サーバ１０の文書処理部１０４２は、文書内容または抽出箇所を分類モデル１０５１の入力データとして入力する。なお、サーバ１０の文書処理部１０４２は、文書内容または抽出箇所に対して形態素解析などの処理を適用することにより抽出したキーワード等を分類モデル１０５１の入力データとして入力しても良い。
分類モデル１０５１は、入力データの入力に応じて、分類ラベル（文字列）および精度等の入力データを分類ラベルへ分類する際の分類処理の品質を示す指標（品質指標）を出力する。具体的に、精度とは、分類モデル１０５１がどの程度正確に分類ラベルを予測したかを示す指標である。精度とは、分類モデル１０５１が正しく予測したサンプルの数を全サンプル数で割ったものである。精度は０から１の間の値を取り、パーセンテージ（０％から１００％）で表すことができる。分類処理の品質を示す指標は、混同行列（ＣｏｎｆｕｓｉｏｎＭａｔｒｉｘ）、適合率（Ｐｒｅｃｉｓｉｏｎ）、再現率（Ｒｅｃａｌｌ）、Ｆ１スコアなどを含む。
例えば、ある特定の特許文書Ａに対して、分類モデル１０５１は、「分類ラベル：半導体技術（精度０．７）」などの第２出力値を出力する。

【0108】

ステップＳ１０８において、サーバ１０の文書処理部１０４２は、第２処理ステップにおいて取得した第２品質情報が所定の条件を満たす場合に、第２特許文書に含まれる１または複数の特許文書の少なくとも一部を第２出力結果と関連付けて記憶し、第２処理ステップにおいて取得した第２品質情報が所定の条件を満たさない場合に、第２特許文書に含まれる１または複数の特許文書の少なくとも一部を第２出力結果と関連付けて記憶しない、
第２記憶ステップを実行する。
具体的に、サーバ１０の文書処理部１０４２は第２特許文書に含まれる複数の特許文書のそれぞれに対して分類ラベル、品質指標を取得する。サーバ１０の文書処理部１０４２は、品質指標を所定値である精度閾値と比較し、精度閾値以上の場合という条件を満たしている場合に、取得した分類ラベル、品質指標を、第２支援テーブル１０１６の処理対象の文書ＩＤに基づき特定される特許文書のレコードの第２出力値、精度の項目に記憶する。
つまり、サーバ１０の文書処理部１０４２は、分類モデル１０５１から出力された第２出力結果のすべてを第２支援テーブル１０１６に記憶せずに、品質指標が所定の条件を充足した第２出力結果のみを第２支援テーブル１０１６に記憶する。つまり、第２出力結果の品質指標が不十分な場合には、第２支援テーブル１０１６に記憶しない。この場合、２回目以降の文書処理において分類モデル１０５１の学習が十分に進むと第２出力結果の品質指標が十分な値となり、第２支援テーブル１０１６に記憶されることになる。
サーバ１０の文書処理部１０４２は、第２支援テーブル１０１６に記憶されている第２支援情報のうち、品質指標が所定の条件を充足しない第２支援情報のレコード（第２文書ＩＤのみが記憶されており、第２出力値、精度の値がブランク）を削除しても良い。

【0109】

＜第２出力値取得ステップ（第二実施形態）＞
ステップＳ１０８において、サーバ１０の文書処理部１０４２は、第１処理ステップにおいて取得した第１出力結果に基づく情報を教師データとして学習させた学習モデルに、第２特許抽出ステップにおいて抽出した第２特許文書を入力することに応じて出力される第２出力結果を取得する第２処理ステップを実行する。
第２処理ステップは、教師データ作成ステップにおいて作成した教師データに基づき学習した学習モデルに、第２特許文書を入力することに応じて出力される第２出力結果を取得するステップを実行する。
第２処理ステップは、学習モデルに、第２特許文書を入力することに応じて出力される第２特許文書に含まれる１または複数の特許文書に対する処理の品質を示す第２品質情報を取得するステップを含む。
具体的に、本開示においては分類モデル１０５１により第２出力値が出力される事例を一例としたがこれに限られない。
例えば、分類モデル１０５１に代えて、特許文書の文書内容、抽出箇所の入力に応じて、対象特許との関連度、当該関連度に関する品質指標（精度等）を出力するスクリーニングモデルを用いても良い。この場合、スクリーニングモデルは、スクリーニングタスクの場合の回答内容（第１出力値）に基づく教師データを用いて学習される。スクリーニングモデルは、第２特許文書の特許文書の文書内容、抽出箇所の入力に応じて、対象特許との関連度と、当該関連度に関する品質指標（精度等）を出力する。例えば、ある特定の特許文書Ａに対して、スクリーニングモデルは、「関連度：８０％（精度０．７）」などの第２出力値を出力する。
例えば、分類モデル１０５１に代えて、特許文書の文書内容、抽出箇所の入力に応じて、対象製品との関連度、当該関連度に関する品質指標（精度等）を出力する該非判定モデルを用いても良い。この場合、該非判定モデルは、該非判定タスクの場合の回答内容（第１出力値）に基づく教師データを用いて学習される。該非判定モデルは、第２特許文書の特許文書の文書内容、抽出箇所の入力に応じて、対象製品との関連度と、当該関連度に関する品質指標（精度等）を出力する。例えば、ある特定の特許文書Ａに対して、該非判定モデルは、「関連度：８０％（精度０．７）」などの第２出力値を出力する。
例えば、分類モデル１０５１に代えて、特許文書の文書内容、抽出箇所の入力に応じて、対象発明の評価項目ごとの評価値（評価ランク）、評価項目ごとの評価値（評価ランク）に関する品質指標（精度等）を出力する発明評価モデルを用いても良い。この場合、発明評価モデルは、発明評価タスクの場合の回答内容（第１出力値）に基づく教師データを用いて学習される。発明評価モデルは、第２特許文書の特許文書の文書内容、抽出箇所の入力に応じて、評価項目ごとの評価値（評価ランク）と、当該関連度に関する品質指標（精度等）を出力する。例えば、ある特定の特許文書Ａに対して、発明評価判定モデルは、「革新性：Ａランク（精度０．７）、経済性：Ｂランク（精度０．６）、」などの第２出力値を出力する。

【0110】

＜第２出力値取得ステップ（２回目以降）＞
ステップＳ１０８において、第２記憶ステップは、母集団受付ステップにおいて受け付けた母集団情報が第１母集団情報である場合は、第２品質情報が第１条件を満たす場合に、第２特許文書に含まれる１または複数の特許文書の少なくとも一部を第２出力結果と関連付けて記憶し、第２品質情報が第１条件を満たさない場合に、第２特許文書に含まれる１または複数の特許文書の少なくとも一部を第２出力結果と関連付けて記憶しない、母集団受付ステップにおいて受け付けた母集団情報が第２母集団情報である場合は、第２品質情報が第２条件を満たす場合に、第２特許文書に含まれる１または複数の特許文書の少なくとも一部を第２出力結果と関連付けて記憶し、第２品質情報が第２条件を満たさない場合に、第２特許文書に含まれる１または複数の特許文書の少なくとも一部を第２出力結果と関連付けて記憶しない、ステップを含む。
具体的に、文書処理をステップＳ１０９まで実行した後に、再度ステップＳ１０８を実行する場合（２回目以降に実行される際）には、精度閾値を１回目の精度閾値Ｓと２回目の精度閾値Ｔとで異なる値としても良い。サーバ１０の文書処理部１０４２は、第２特許文書に含まれる複数の特許文書に対して出力された第２出力結果のうち、精度閾値（Ｓ、Ｔ）に基づく第２条件を満たす第２出力結果を第２支援テーブル１０１６に記憶し、第２条件を満たさない第２出力結果を第２支援テーブル１０１６に記憶しないものとしても良い。
サーバ１０の文書処理部１０４２は、第２支援テーブル１０１６に記憶されている第２支援情報のうち、第２出力結果が所定の条件を充足しない第２支援情報のレコード（第２文書ＩＤのみが記憶されており、第２出力値、精度の値がブランク）を削除しても良い。

【0111】

サーバ１０の文書処理部１０４２は、パラメータマスタ１０２２の適用条件の項目を検索し、精度閾値（Ｓ、Ｔ）を取得しても良い。例えば、文書処理の実行数を適用条件として、実行数に応じた精度閾値（Ｓ、Ｔ）を取得する構成とすることができる。例えば、文書処理の実行数（１回目、２回目など）を適用条件として、実行数に応じた精度閾値（Ｓ、Ｔ）を取得する構成とすることができる。

【0112】

例えば、第１条件は、第２条件を含むものとしても良い。例えば、第１条件にかかる精度閾値は０．５以上、第２条件にかかる精度閾値は０．７以上としても良い。
これにより、複数回にわたって第１処理、第２処理を実行する場合において、第２処理結果の品質に関する条件が徐々に厳しくなる。最終的に得られる処理品質を向上させることができる。

【0113】

例えば、第２条件は、第１条件を含むものとしても良い。例えば、第１条件にかかる精度閾値は０．７以上、第２条件にかかる精度閾値は０．５以上としても良い。
これにより、複数回にわたって第１処理、第２処理を実行する場合において、第２処理結果の品質に関する条件が徐々に緩くなる。トータルの処理時間を短縮したり処理費用を節約することができる。

【0114】

＜未処理文書判定ステップ＞
ステップＳ１０９において、サーバ１０の文書処理部１０４２は、ステップＳ１０１において受け付けた母集団に含まれる特許文書のうち、第１出力結果、教師データ、または、第２出力結果と関連付けられて記憶されていない特許文書の有無を判定する未処理文書判定ステップを実行する。
具体的に、サーバ１０の文書処理部１０４２は、ステップＳ１０１において母集団テーブル１０１４に記憶された母集団データに含まれる複数の特許文書の文書ＩＤに基づき、第２支援テーブル１０１６の第２文書ＩＤの項目を検索し、取得する。このとき、第２支援テーブル１０１６において第２出力値の項目に値が記憶されているレコードのみを検索対象とする。
サーバ１０の文書処理部１０４２は、母集団データに含まれる複数の特許文書の文書ＩＤと、取得した第２文書ＩＤとを比較し、母集団データに含まれる複数の特許文書の文書ＩＤのすべてが取得した第２文書ＩＤに含まれている場合に、未処理文書が存在しないものと判定する。
サーバ１０の文書処理部１０４２は、教師テーブル１０１７の教師文書ＩＤの項目を取得し、母集団データに含まれる複数の特許文書の文書ＩＤと、取得した第２文書ＩＤおよび教師文書ＩＤとを比較し、母集団データに含まれる複数の特許文書の文書ＩＤのすべてが取得した第２文書ＩＤおよび教師文書ＩＤに含まれている場合に、未処理文書が存在しないものと判定しても良い。つまり、教師ラベルが付与されている特許文書は、未処理文書の判定対象から除外しても良い。
サーバ１０の文書処理部１０４２は、第１支援テーブル１０１５の第１文書ＩＤの項目を取得し、母集団データに含まれる複数の特許文書の文書ＩＤと、取得した第２文書ＩＤおよび第１文書ＩＤとを比較し、母集団データに含まれる複数の特許文書の文書ＩＤのすべてが取得した第２文書ＩＤおよび第１文書ＩＤに含まれている場合に、未処理文書が存在しないものと判定しても良い。つまり、第１支援テーブル１０１５に第１出力値が記憶されている特許文書は、未処理文書の判定対象から除外しても良い。

【0115】

ステップＳ１０９において、サーバ１０の文書処理部１０４２は、未処理文書が存在しないものと判定した場合はステップＳ１１０に進む。一方、未処理文書が存在すると判定した場合はステップＳ１０１から改めて文書処理（２回目以降）が実行される。具体的に、ステップＳ１０１において母集団作成ステップ（２回目以降）が実行される。
つまり、サーバ１０の文書処理部１０４２は、文書作成処理において未処理文書が存在する限りステップＳ１０１～Ｓ１０９までの各ステップは自動的に反復的に実行する（ｉｔｅｒａｔｅする）。

【0116】

＜終了ステップ＞
ステップＳ１１０において、サーバ１０の文書処理部１０４２は、母集団受付ステップにおいて受け付けた母集団情報のうち、第１記憶ステップにおいて第１出力結果に基づく情報と関連付けて記憶された１または複数の特許文書と、第２記憶ステップにおいて第２出力結果と関連付けて記憶された１または複数の特許文書と、を除く特許文書が存在しない場合に処理を終了する処理終了ステップを実行する。
これにより、母集団受付ステップにおいて受け付けた母集団に含まれるすべての特許文書に対して第１処理結果に基づく情報（教師データ）、第２処理結果とが関連付けて記憶されるまで、第１処理および第２処理等が反復的に実行される。
サーバ１０の文書処理部１０４２は、文書処理のステップＳ１０１～Ｓ１０９を反復的に実行することにより、母集団データに含まれるすべての特許文書に対する処理結果が、教師テーブル１０１７、第２支援テーブル１０１６、第１支援テーブル１０１５に記憶される。
本開示の文書処理により、多量の教師データを用意することなしに、少量の教師データ、または、教師データなしに複数の特許文書を含む母集団に対して好適な処理を適用することができる。大規模言語モデルを用いた第１処理は、第２処理に比べて高価かつ時間がかかる傾向にある。本開示により、母集団に含まれる全ての特許文書に対して第１処理を適用する必要がないため、処理時間および処理費用を節約することができる。

【0117】

＜コンピュータの基本ハードウェア構成＞
図１４は、コンピュータ９０の基本的なハードウェア構成を示すブロック図である。コンピュータ９０は、プロセッサ９０１、主記憶装置９０２、補助記憶装置９０３、通信ＩＦ９９１（インタフェース、Interface）を少なくとも備える。これらは通信バス９２１により相互に電気的に接続される。

【0118】

プロセッサ９０１とは、プログラムに記述された命令セットを実行するためのハードウェアである。プロセッサ９０１は、演算装置、レジスタ、周辺回路等から構成される。

【0119】

主記憶装置９０２とは、プログラム、及びプログラム等で処理されるデータ等を一時的に記憶するためのものである。例えば、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性のメモリである。

【0120】

補助記憶装置９０３とは、データ及びプログラムを保存するための記憶装置である。例えば、フラッシュメモリ、ＨＤＤ（Hard Disc Drive）、光磁気ディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、半導体メモリ等である。

【0121】

通信ＩＦ９９１とは、有線又は無線の通信規格を用いて、他のコンピュータとネットワークを介して通信するための信号を入出力するためのインタフェースである。
ネットワークは、インターネット、ＬＡＮ、無線基地局等によって構築される各種移動通信システム等で構成される。例えば、ネットワークには、３Ｇ、４Ｇ、５Ｇ移動通信システム、ＬＴＥ（Long Term Evolution）、所定のアクセスポイントによってインターネットに接続可能な無線ネットワーク（例えばWi-Fi（登録商標））等が含まれる。無線で接続する場合、通信プロトコルとして例えば、Ｚ－Ｗａｖｅ（登録商標）、ＺｉｇＢｅｅ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）等が含まれる。有線で接続する場合は、ネットワークには、ＵＳＢ（Universal Serial Bus）ケーブル等により直接接続するものも含む。

【0122】

なお、各ハードウェア構成の全部または一部を複数のコンピュータ９０に分散して設け、ネットワークを介して相互に接続することによりコンピュータ９０を仮想的に実現することができる。このように、コンピュータ９０は、単一の筐体、ケースに収納されたコンピュータ９０だけでなく、仮想化されたコンピュータシステムも含む概念である。

【0123】

＜コンピュータ９０の基本機能構成＞
コンピュータ９０の基本ハードウェア構成（図１４）により実現されるコンピュータの機能構成を説明する。コンピュータは、制御部、記憶部、通信部の機能ユニットを少なくとも備える。

【0124】

なお、コンピュータ９０が備える機能ユニットは、それぞれの機能ユニットの全部または一部を、ネットワークで相互に接続された複数のコンピュータ９０に分散して設けても実現することができる。コンピュータ９０は、単一のコンピュータ９０だけでなく、仮想化されたコンピュータシステムも含む概念である。

【0125】

制御部は、プロセッサ９０１が補助記憶装置９０３に記憶された各種プログラムを読み出して主記憶装置９０２に展開し、当該プログラムに従って処理を実行することにより実現される。制御部は、プログラムの種類に応じて様々な情報処理を行う機能ユニットを実現することができる。これにより、コンピュータは情報処理を行う情報処理装置として実現される。

【0126】

記憶部は、主記憶装置９０２、補助記憶装置９０３により実現される。記憶部は、データ、各種プログラム、各種データベースを記憶する。また、プロセッサ９０１は、プログラムに従って記憶部に対応する記憶領域を主記憶装置９０２または補助記憶装置９０３に確保することができる。また、制御部は、各種プログラムに従ってプロセッサ９０１に、記憶部に記憶されたデータの追加、更新、削除処理を実行させることができる。

【0127】

データベースは、リレーショナルデータベースを指し、行と列によって構造的に規定された表形式のテーブル、マスタと呼ばれるデータ集合を、互いに関連づけて管理するためのものである。データベースでは、表をテーブル、マスタ、表の列をカラム、表の行をレコードと呼ぶ。リレーショナルデータベースでは、テーブル、マスタ同士の関係を設定し、関連づけることができる。
通常、各テーブル、各マスタにはレコードを一意に特定するための主キーとなるカラムが設定されるが、カラムへの主キーの設定は必須ではない。制御部は、各種プログラムに従ってプロセッサ９０１に、記憶部に記憶された特定のテーブル、マスタにレコードを追加、削除、更新を実行させることができる。
また、記憶部に、データ、各種プログラム、各種データベースを記憶させることにより、本開示にかかる情報処理装置、情報処理システムが製造されたものとして捉えることができる。

【0128】

なお、本開示におけるデータベース、マスタは、情報が構造的に規定された任意のデータ構造体（リスト、辞書、連想配列、オブジェクトなど）を含み得る。データ構造体には、データと、任意のプログラミング言語により記述された関数、クラス、メソッドなどを組み合わせることにより、データ構造体と見なし得るデータも含むものとする。

【0129】

通信部は、通信ＩＦ９９１により実現される。通信部は、ネットワークを介して他のコンピュータ９０と通信を行う機能を実現する。通信部は、他のコンピュータ９０から送信された情報を受信し、制御部へ入力することができる。制御部は、各種プログラムに従ってプロセッサ９０１に、受信した情報に対する情報処理を実行させることができる。また、通信部は、制御部から出力された情報を他のコンピュータ９０へ送信することができる。

【0130】

＜付記＞
以上の各実施形態で説明した事項を以下に付記する。

【0131】

（付記１）
プロセッサと、記憶部とを備えるコンピュータに実行させるためのプログラムであって、プロセッサが、複数の特許文書を含む母集団に関する母集団情報を受け付ける母集団受付ステップ（Ｓ１０１）と、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第１特許文書を抽出する第１特許抽出ステップ（Ｓ１０２）と、大規模言語モデルに、第１特許抽出ステップにおいて抽出した第１特許文書を含むプロンプトを入力することに応じて出力される第１出力結果を取得する第１処理ステップ（Ｓ１０４）と、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第２特許文書を抽出する第２特許抽出ステップ（Ｓ１０７）と、第１処理ステップにおいて取得した第１出力結果に基づく情報を教師データとして学習させた学習モデルに、第２特許抽出ステップにおいて抽出した第２特許文書を入力することに応じて出力される第２出力結果を取得する第２処理ステップ（Ｓ１０８）と、を実行するプログラム。
これにより、多量の教師データを用意することなしに、少量の教師データ、または、教師データなしに複数の特許文書を含む母集団に対して好適な処理を適用することができる。
大規模言語モデルを用いた第１処理は、第２処理に比べて高価かつ時間がかかる傾向にある。母集団に含まれる全ての特許文書に対して第１処理を適用する必要がないため、処理時間および処理費用を節約することができる。

【0132】

（付記２）
第２処理ステップ（Ｓ１０８）は、学習モデルに、第２特許文書を入力することに応じて出力される第２特許文書に含まれる１または複数の特許文書に対する処理の品質を示す第２品質情報を取得するステップを含み、プロセッサが、第２処理ステップにおいて取得した第２品質情報が所定の条件を満たす場合に、第２特許文書に含まれる１または複数の特許文書の少なくとも一部を第２出力結果と関連付けて記憶し、第２処理ステップにおいて取得した第２品質情報が所定の条件を満たさない場合に、第２特許文書に含まれる１または複数の特許文書の少なくとも一部を第２出力結果と関連付けて記憶しない、第２記憶ステップ（Ｓ１０８）と、を実行する、付記１記載のプログラム。
これにより、第１出力結果に基づく情報を教師データとして、第２特許文書に対して処理を実行することができる。学習モデルによる第２処理結果の品質が好適なもののみを、第２特許文書に関連付けて記憶することができる。

【0133】

（付記３）
母集団受付ステップ（Ｓ１０１）は、第１母集団に関する第１母集団情報を受け付けるステップと、第１母集団情報から、第２記憶ステップにおいて第２出力結果と関連付けて記憶された１または複数の特許文書を除いた１または複数の特許文書を含む第２母集団に関する第２母集団情報を受け付けるステップと、を含む、付記２記載のプログラム。
これにより、学習モデルによる第２処理結果の品質が好適ではない特許文書に対して改めて第１処理及び第２処理を実行することができる。
最初に与えた母集団から、第２処理結果の品質が好適である特許文書は徐々に除かれていくため、最初に与えた母集団に含まれる複数の特許文書に対して徐々に第１処理、第２処理を適用することができる。
母集団に対して可能な限り第２処理を適用することにより、第１処理の適用を抑制することができる。

【0134】

（付記４）
プロセッサが、第１特許抽出ステップにおいて抽出した第１特許文書の少なくとも一部または全部を第１出力結果に基づく情報と関連付けて記憶する第１記憶ステップ（Ｓ１０６）と、を実行し、母集団受付ステップ（Ｓ１０１）は、第１母集団に関する第１母集団情報を受け付けるステップと、第１母集団情報から、第１記憶ステップにおいて第１出力結果に基づく情報と関連付けて記憶された１または複数の特許文書と、第２記憶ステップにおいて第２出力結果と関連付けて記憶された１または複数の特許文書と、を除いた１または複数の特許文書を含む第２母集団に関する第２母集団情報を受け付けるステップと、を含む、付記２記載のプログラム。
これにより、第１出力結果または第１出力結果に基づき教師データが与えられた特許文書と、第２処理結果の品質が好適である特許文書と、を除く特許文書に対して改めて第１処理および第２処理を実行することができる。
最初に与えた母集団から、教師データが与えられた、または、第２処理結果の品質が好適である特許文書は徐々に除かれていくため、最初に与えた母集団に含まれる複数の特許文書に対して徐々に第１処理、第２処理を適用することができる。
母集団に対して可能な限り第２処理を適用することにより、第１処理の適用を抑制することができる。

【0135】

（付記５）
第１特許抽出ステップ（Ｓ１０２）は、第１母集団情報から、第１割合に応じた数の第１特許文書を抽出するステップと、第２母集団情報から、第２割合に応じた数の第１特許文書を抽出するステップと、を含む、付記３記載のプログラム。
これにより、複数回にわたって第１処理、第２処理を実行する場合において、第１特許文書の抽出割合を制御することができる。
処理の収束性を制御することにより処理のトータル時間を短縮したり、第１処理を適用する特許文書の割合を減らすことにより処理費用を節約することができる。

【0136】

（付記６）
第２割合は、第１割合よりも大きい、付記５記載のプログラム。
例えば、第２処理結果の品質が好適ではない特許文書が多い場合には、処理の収束性が悪いことが考えられる。第２割合を第１割合より大きくすると、母集団のうち大規模言語モデルにより処理される特許文書の割合が増えることから、第２処理に用いる教師データを増加させることができ、第２処理結果の品質が好適ではない特許文書の割合を減らすことができる。これにより、本開示における処理の処理回数を減らすことにより、トータルの処理時間を短縮させることができる場合がある。

【0137】

（付記７）
第２割合は、第１割合よりも小さい、付記５記載のプログラム。
第２割合を第１割合より小さくすると、母集団のうち大規模言語モデルにより処理される特許文書の割合が減ることから、第１処理に伴う処理費用を節約することができる。

【0138】

（付記８）
第２記憶ステップ（Ｓ１０８）は、母集団受付ステップにおいて受け付けた母集団情報が第１母集団情報である場合は、第２品質情報が第１条件を満たす場合に、第２特許文書に含まれる１または複数の特許文書の少なくとも一部を第２出力結果と関連付けて記憶し、第２品質情報が第１条件を満たさない場合に、第２特許文書に含まれる１または複数の特許文書の少なくとも一部を第２出力結果と関連付けて記憶しない、母集団受付ステップにおいて受け付けた母集団情報が第２母集団情報である場合は、第２品質情報が第２条件を満たす場合に、第２特許文書に含まれる１または複数の特許文書の少なくとも一部を第２出力結果と関連付けて記憶し、第２品質情報が第２条件を満たさない場合に、第２特許文書に含まれる１または複数の特許文書の少なくとも一部を第２出力結果と関連付けて記憶しない、ステップを含む、付記３記載のプログラム。
これにより、複数回にわたって第１処理、第２処理を実行する場合において、第２処理結果の品質が好適であるか否かの条件をを制御することができる。
例えば、条件をより緩くすることにより、処理のトータルの処理時間を短縮したり処理費用を節約することができる。一方、条件を厳しくすることにより、処理品質を向上させることができる。

【0139】

（付記９）
第１条件は、第２条件を含む、付記８記載のプログラム。
これにより、複数回にわたって第１処理、第２処理を実行する場合において、第２処理結果の品質に関する条件が徐々に厳しくなる。最終的に得られる処理品質を向上させることができる。

【0140】

（付記１０）
第２条件は、第１条件を含む、付記８記載のプログラム。
これにより、複数回にわたって第１処理、第２処理を実行する場合において、第２処理結果の品質に関する条件が徐々に緩くなる。トータルの処理時間を短縮したり処理費用を節約することができる。

【0141】

（付記１１）
プロセッサが、母集団受付ステップにおいて受け付けた母集団情報のうち、第１記憶ステップにおいて第１出力結果に基づく情報と関連付けて記憶された１または複数の特許文書と、第２記憶ステップにおいて第２出力結果と関連付けて記憶された１または複数の特許文書と、を除く特許文書が存在しない場合に処理を終了する処理終了ステップ（Ｓ１１０）と、を実行する、付記４記載のプログラム。
これにより、母集団受付ステップにおいて受け付けた母集団に含まれるすべての特許文書に対して第１処理結果に基づく情報、第２処理結果とが関連付けて記憶されるまで、第１処理および第２処理等が反復的に実行される。

【0142】

（付記１２）
第１処理ステップ（Ｓ１０４）は、大規模言語モデルに、第１特許文書および分類ルールが規定された分類定義文章を含むプロンプトを入力することに応じて出力される第１特許文書の分類に関する第１分類情報を取得するステップであり、第２処理ステップ（Ｓ１０８）は、分類モデルである学習モデルに、第２特許文書を入力することに応じて出力される第２特許文書の分類に関する第２分類情報を取得するステップである、付記１記載のプログラム。
これにより、多量の教師データを用意することなしに、少量の教師データ、または、教師データなしに複数の特許文書を含む母集団に含まれる複数の特許文書を分類することができる。
大規模言語モデルを用いた第１処理は、第２処理に比べて高価かつ時間がかかる傾向にある。母集団に含まれる全ての特許文書に対して第１処理を適用する必要がないため、処理時間および処理費用を節約することができる。

【0143】

（付記１３）
プロセッサが、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第３特許文書を抽出する第３特許抽出ステップ（Ｓ１０３）と、大規模言語モデルに、第３特許抽出ステップにおいて抽出した第３特許文書および分類観点が規定された分類観点文章を含むプロンプト入力することに応じて出力される第３特許文書の分類観点に関する分類観点情報を取得する分類観点取得ステップ（Ｓ１０３）と、大規模言語モデルに、分類観点取得ステップにおいて取得した分類観点情報を含むプロンプトを入力することに応じて出力される、第３特許文書に関する分類観点情報を大括り化することにより得られる分類定義文章を取得する分類定義取得ステップ（Ｓ１０３）と、を実行し、第１処理ステップ（Ｓ１０４）は、分類定義取得ステップにおいて取得した分類定義文章に基づき第１分類情報を取得するステップである、付記１２記載のプログラム。
これにより、分類定義を用意することなしに、複数の特許文書を含む母集団に含まれる複数の特許文書を分類することができる。

【0144】

（付記１４）
第２処理ステップ（Ｓ１０８）は、学習モデルに、第２特許文書を入力することに応じて出力される第２特許文書に含まれる１または複数の特許文書に対する分類の品質を示す第２品質情報を取得するステップを含み、プロセッサが、第２処理ステップにおいて取得した第２品質情報が所定の条件を満たす場合に、第２特許文書に含まれる１または複数の特許文書の少なくとも一部を、第２分類情報と関連付けて記憶する第２分類記憶ステップ（Ｓ１０８）と、を実行する、付記１２記載のプログラム。
これにより、第１出力結果に基づく情報を教師データとして、第２特許文書を分類することができる。分類モデルによる分類の品質が好適なもののみを、第２特許文書に関連付けて記憶することができる。

【0145】

（付記１５）
プロセッサが、第１処理ステップにおいて取得した第１出力結果をユーザに提示する第１提示ステップ（Ｓ１０５）と、ユーザから、第１提示ステップにおいて提示した第１出力結果に対する入力操作を受け付け、当該入力操作に応じて第１特許文書に関する教師データを作成する教師データ作成ステップ（Ｓ１０６）と、を実行し、第２処理ステップ（Ｓ１０８）は、教師データ作成ステップにおいて作成した教師データに基づき学習した学習モデルに、第２特許文書を入力することに応じて出力される第２出力結果を取得するステップである、付記１記載のプログラム。
これにより、ユーザは第１出力結果を参考に少ない作業負荷で教師データを作成することができる。第２処理は、第１出力結果をそのまま教師データとして用いた場合に比べ、ユーザにより作成および編集された教師データに基づき実行されるため、より品質が高い処理結果が期待される。

【0146】

（付記１６）
第１特許抽出ステップ（Ｓ１０２）は、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書を複数のグループに分けるステップと、複数のグループのそれぞれから、１または複数の特許文書を第１特許文書として抽出するステップと、を含む、付記１記載のプログラム。
これにより、母集団に含まれる特許文書の内容に偏りが合った場合においても、グループごとに所定数の特許文書をサンプリングすることにより、母集団に含まれる特許文書の表現空間の全域にわたってバランス良く第１処理を適用することができる。例えば、ユーザは、母集団に含まれる特許文書の表現空間の全域にわたってバランス良く教師データを準備することができる。これにより、第２処理を品質良く行うことができるとともに、処理時間や処理費用を節約することができる。
グループごとに抽出する第１特許文書の件数は所定の定まった数でも良いし、グループに含まれる特許文書の件数や、グループごとの件数割合に応じた所定数の第１特許文書を抽出する構成としても良い。

【0147】

（付記１７）
プロセッサと、メモリとを備えるコンピュータに実行される方法であって、プロセッサが、付記１から付記１６のいずれかに係る発明において実行される全てのステップを実行する方法。
これにより、多量の教師データを用意することなしに、少量の教師データ、または、教師データなしに複数の特許文書を含む母集団に対して好適な処理を適用することができる。
大規模言語モデルを用いた第１処理は、第２処理に比べて高価かつ時間がかかる傾向にある。母集団に含まれる全ての特許文書に対して第１処理を適用する必要がないため、処理時間および処理費用を節約することができる。

【0148】

（付記１８）
制御部と、記憶部とを備える情報処理装置であって、制御部が、付記１から付記１６のいずれかに係る発明において実行される全てのステップを実行する情報処理装置。
これにより、多量の教師データを用意することなしに、少量の教師データ、または、教師データなしに複数の特許文書を含む母集団に対して好適な処理を適用することができる。
大規模言語モデルを用いた第１処理は、第２処理に比べて高価かつ時間がかかる傾向にある。母集団に含まれる全ての特許文書に対して第１処理を適用する必要がないため、処理時間および処理費用を節約することができる。

【0149】

（付記１９）
付記１から付記１６のいずれかに係る発明において実行される全てのステップを実行する手段を備えるシステム。
これにより、多量の教師データを用意することなしに、少量の教師データ、または、教師データなしに複数の特許文書を含む母集団に対して好適な処理を適用することができる。
大規模言語モデルを用いた第１処理は、第２処理に比べて高価かつ時間がかかる傾向にある。母集団に含まれる全ての特許文書に対して第１処理を適用する必要がないため、処理時間および処理費用を節約することができる。

【符号の説明】

【0150】

１システム、１０サーバ、１０１記憶部、１０４制御部、１０６入力装置、１０８出力装置、２０ユーザ端末、２０１記憶部、２０４制御部、２０６入力装置、２０８出力装置、４０人工知能システム、４０１記憶部、４０４制御部、４０６入力装置、４０８出力装置

【要約】（修正有）

【課題】特許に対して深層学習モデルにより処理をさせる際に多量の教師データを用意するプログラム、方法、情報処理装置及びシステムを提供する。
【解決手段】方法は、複数の特許文書を含む母集団に関する母集団情報を受け付け、受け付けた母集団に含まれる複数の特許文書のうち、第１特許文書を抽出する第１特許抽出ステップと、大規模言語モデルに、第１特許抽出ステップにおいて抽出した第１特許文書を含むプロンプトを入力することに応じて出力される第１出力結果を取得する第１処理ステップと、受け付けた母集団に含まれる複数の特許文書のうち、第２特許文書を抽出する第２特許抽出ステップと、第１処理ステップにおいて取得した第１出力結果に基づく情報を教師データとして学習させた学習モデルに、第２特許抽出ステップにおいて抽出した第２特許文書を入力することに応じて出力される第２出力結果を取得する第２処理ステップと、を含む。
【選択図】図１２