(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-05-23
(45)【発行日】2024-05-31
(54)【発明の名称】プログラム、方法、情報処理装置、システム
(51)【国際特許分類】
G06Q 50/18 20120101AFI20240524BHJP
【FI】
G06Q50/18
(21)【出願番号】P 2024011001
(22)【出願日】2024-01-29
【審査請求日】2024-02-08
【早期審査対象出願】
(73)【特許権者】
【識別番号】522447406
【氏名又は名称】パテント・インテグレーション株式会社
(74)【代理人】
【識別番号】110002815
【氏名又は名称】IPTech弁理士法人
(72)【発明者】
【氏名】大瀬 佳之
【審査官】野口 俊明
(56)【参考文献】
【文献】特開2023-115837(JP,A)
【文献】特開2020-119322(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
プロセッサと、記憶部とを備えるコンピュータに実行させるためのプログラムであって、
前記プロセッサが、
複数の特許文書を含む母集団に関する母集団情報を受け付ける母集団受付ステップと、
前記母集団受付ステップにおいて受け付けた前記母集団に含まれる前記複数の特許文書のうち、第1特許文書を抽出する第1特許抽出ステップと、
大規模言語モデルに、前記第1特許抽出ステップにおいて抽出した前記第1特許文書を含むプロンプトを入力することに応じて出力される第1出力結果を取得する第1処理ステップと、
前記母集団受付ステップにおいて受け付けた前記母集団に含まれる前記複数の特許文書のうち、第2特許文書を抽出する第2特許抽出ステップと、
前記第1処理ステップにおいて取得した前記第1出力結果に基づく情報を教師データとして学習させた学習モデルに、前記第2特許抽出ステップにおいて抽出した前記第2特許文書を入力することに応じて出力される第2出力結果を取得する第2処理ステップと、
を実行するプログラム。
【請求項2】
前記第2処理ステップは、前記学習モデルに、前記第2特許文書を入力することに応じて出力される前記第2特許文書に含まれる1または複数の特許文書に対する処理の品質を示す第2品質情報を取得するステップを含み、
前記プロセッサが、
前記第2処理ステップにおいて取得した前記第2品質情報が所定の条件を満たす場合に、前記第2特許文書に含まれる1または複数の特許文書の少なくとも一部を前記第2出力結果と関連付けて記憶し、
前記第2処理ステップにおいて取得した前記第2品質情報が所定の条件を満たさない場合に、前記第2特許文書に含まれる1または複数の特許文書の少なくとも一部を前記第2出力結果と関連付けて記憶しない、
第2記憶ステップと、
を実行する、
請求項1記載のプログラム。
【請求項3】
前記母集団受付ステップは、
第1母集団に関する第1母集団情報を受け付けるステップと、
前記第1母集団情報から、前記第2記憶ステップにおいて前記第2出力結果と関連付けて記憶された1または複数の特許文書を除いた1または複数の特許文書を含む第2母集団に関する第2母集団情報を受け付けるステップと、
を含む、
請求項2記載のプログラム。
【請求項4】
前記プロセッサが、
前記第1特許抽出ステップにおいて抽出した前記第1特許文書の少なくとも一部または全部を前記第1出力結果に基づく情報と関連付けて記憶する第1記憶ステップと、
を実行し、
前記母集団受付ステップは、
第1母集団に関する第1母集団情報を受け付けるステップと、
前記第1母集団情報から、
前記第1記憶ステップにおいて前記第1出力結果に基づく情報と関連付けて記憶された1または複数の特許文書と、
前記第2記憶ステップにおいて前記第2出力結果と関連付けて記憶された1または複数の特許文書と、
を除いた1または複数の特許文書を含む第2母集団に関する第2母集団情報を受け付けるステップと、
を含む、
請求項2記載のプログラム。
【請求項5】
前記第1特許抽出ステップは、
前記第1母集団情報から、第1割合に応じた数の前記第1特許文書を抽出するステップと、
前記第2母集団情報から、第2割合に応じた数の前記第1特許文書を抽出するステップと、
を含む、
請求項3記載のプログラム。
【請求項6】
前記第2割合は、前記第1割合よりも大きい、
請求項5記載のプログラム。
【請求項7】
前記第2割合は、前記第1割合よりも小さい、
請求項5記載のプログラム。
【請求項8】
前記第2記憶ステップは、
前記母集団受付ステップにおいて受け付けた母集団情報が前記第1母集団情報である場合は、
前記第2品質情報が第1条件を満たす場合に、前記第2特許文書に含まれる1または複数の特許文書の少なくとも一部を前記第2出力結果と関連付けて記憶し、
前記第2品質情報が前記第1条件を満たさない場合に、前記第2特許文書に含まれる1または複数の特許文書の少なくとも一部を前記第2出力結果と関連付けて記憶しない、
前記母集団受付ステップにおいて受け付けた母集団情報が前記第2母集団情報である場合は、
前記第2品質情報が第2条件を満たす場合に、前記第2特許文書に含まれる1または複数の特許文書の少なくとも一部を前記第2出力結果と関連付けて記憶し、
前記第2品質情報が前記第2条件を満たさない場合に、前記第2特許文書に含まれる1または複数の特許文書の少なくとも一部を前記第2出力結果と関連付けて記憶しない、
ステップを含む、
請求項3記載のプログラム。
【請求項9】
前記第1条件は、前記第2条件を含む、
請求項8記載のプログラム。
【請求項10】
前記第2条件は、前記第1条件を含む、
請求項8記載のプログラム。
【請求項11】
前記プロセッサが、
前記母集団受付ステップにおいて受け付けた前記母集団情報のうち、
前記第1記憶ステップにおいて前記第1出力結果に基づく情報と関連付けて記憶された1または複数の特許文書と、
前記第2記憶ステップにおいて前記第2出力結果と関連付けて記憶された1または複数の特許文書と、
を除く特許文書が存在しない場合に処理を終了する処理終了ステップと、
を実行する、
請求項4記載のプログラム。
【請求項12】
前記第1処理ステップは、前記大規模言語モデルに、前記第1特許文書および分類ルールが規定された分類定義文章を含むプロンプトを入力することに応じて出力される前記第1特許文書の分類に関する第1分類情報を取得するステップであり、
前記第2処理ステップは、分類モデルである前記学習モデルに、前記第2特許文書を入力することに応じて出力される前記第2特許文書の分類に関する第2分類情報を取得するステップである、
請求項1記載のプログラム。
【請求項13】
前記プロセッサが、
前記母集団受付ステップにおいて受け付けた前記母集団に含まれる前記複数の特許文書のうち、第3特許文書を抽出する第3特許抽出ステップと、
大規模言語モデルに、前記第3特許抽出ステップにおいて抽出した前記第3特許文書および分類観点が規定された分類観点文章を含むプロンプト入力することに応じて出力される前記第3特許文書の分類観点に関する分類観点情報を取得する分類観点取得ステップと、
大規模言語モデルに、前記分類観点取得ステップにおいて取得した前記分類観点情報を含むプロンプトを入力することに応じて出力される、前記第3特許文書に関する前記分類観点情報を大括り化することにより得られる前記分類定義文章を取得する分類定義取得ステップと、
を実行し、
前記第1処理ステップは、前記分類定義取得ステップにおいて取得した前記分類定義文章に基づき前記第1分類情報を取得するステップである、
請求項12記載のプログラム。
【請求項14】
前記第2処理ステップは、前記学習モデルに、前記第2特許文書を入力することに応じて出力される前記第2特許文書に含まれる1または複数の特許文書に対する分類の品質を示す第2品質情報を取得するステップを含み、
前記プロセッサが、
前記第2処理ステップにおいて取得した前記第2品質情報が所定の条件を満たす場合に、前記第2特許文書に含まれる1または複数の特許文書の少なくとも一部を、前記第2分類情報と関連付けて記憶する第2分類記憶ステップと、
を実行する、
請求項12記載のプログラム。
【請求項15】
前記プロセッサが、
前記第1処理ステップにおいて取得した前記第1出力結果をユーザに提示する第1提示ステップと、
前記ユーザから、前記第1提示ステップにおいて提示した前記第1出力結果に対する入力操作を受け付け、当該入力操作に応じて前記第1特許文書に関する教師データを作成する教師データ作成ステップと、
を実行し、
前記第2処理ステップは、前記教師データ作成ステップにおいて作成した前記教師データに基づき学習した前記学習モデルに、前記第2特許文書を入力することに応じて出力される前記第2出力結果を取得するステップである、
請求項1記載のプログラム。
【請求項16】
前記第1特許抽出ステップは、
前記母集団受付ステップにおいて受け付けた前記母集団に含まれる前記複数の特許文書を複数のグループに分けるステップと、
前記複数のグループのそれぞれから、1または複数の特許文書を前記第1特許文書として抽出するステップと、
を含む、
請求項1記載のプログラム。
【請求項17】
プロセッサと、メモリとを備えるコンピュータに実行される方法であって、前記プロセッサが、請求項1から請求項16のいずれかに係る発明において実行される全てのステップを実行する方法。
【請求項18】
制御部と、記憶部とを備える情報処理装置であって、前記制御部が、請求項1から請求項16のいずれかに係る発明において実行される全てのステップを実行する情報処理装置。
【請求項19】
請求項1から請求項16のいずれかに係る発明において実行される全てのステップを実行する手段を備えるシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、プログラム、方法、情報処理装置、システムに関する。
【背景技術】
【0002】
特許業務を支援する技術が知られている。
特許文献1には、請求項の理解を支援するための技術に関し、請求項中のポイントとなる構成要素を特定して提示し、その説明を重点的に読むことができるようにする技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許に対して深層学習モデルにより処理をさせる際に多量の教師データを用意する必要がある課題がある。
そこで、本開示は、上記課題を解決すべくなされたものであって、その目的は、多量の教師データを用意することなしに複数の特許文書に対して好適な処理を適用する技術を提供することである。
【課題を解決するための手段】
【0005】
プロセッサと、記憶部とを備えるコンピュータに実行させるためのプログラムであって、プロセッサが、複数の特許文書を含む母集団に関する母集団情報を受け付ける母集団受付ステップと、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第1特許文書を抽出する第1特許抽出ステップと、大規模言語モデルに、第1特許抽出ステップにおいて抽出した第1特許文書を含むプロンプトを入力することに応じて出力される第1出力結果を取得する第1処理ステップと、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第2特許文書を抽出する第2特許抽出ステップと、第1処理ステップにおいて取得した第1出力結果に基づく情報を教師データとして学習させた学習モデルに、第2特許抽出ステップにおいて抽出した第2特許文書を入力することに応じて出力される第2出力結果を取得する第2処理ステップと、を実行するプログラム。
【発明の効果】
【0006】
本開示によれば、多量の教師データを用意することなしに複数の特許文書に対して好適な処理を適用することができる。
【図面の簡単な説明】
【0007】
【
図1】システム1の機能構成を示すブロック図である。
【
図2】サーバ10の機能構成を示すブロック図である。
【
図3】ユーザ端末20の機能構成を示すブロック図である。
【
図4】ユーザテーブル1012のデータ構造を示す図である。
【
図5】文書テーブル1013のデータ構造を示す図である。
【
図6】母集団テーブル1014のデータ構造を示す図である。
【
図7】第1支援テーブル1015のデータ構造を示す図である。
【
図8】第2支援テーブル1016のデータ構造を示す図である。
【
図9】教師テーブル1017のデータ構造を示す図である。
【
図10】タスクマスタ1021のデータ構造を示す図である。
【
図11】パラメータマスタ1022のデータ構造を示す図である。
【
図12】文書処理の動作を示すフローチャートである。
【
図13】母集団作成処理ページの動作を示す画面例である。
【
図14】コンピュータ90の基本的なハードウェア構成を示すブロック図である。
【発明を実施するための形態】
【0008】
以下、本開示の実施形態について図面を参照して説明する。実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。なお、以下の実施形態は、特許請求の範囲に記載された本開示の内容を不当に限定するものではない。また、実施形態に示される構成要素のすべてが、本開示の必須の構成要素であるとは限らない。また、各図は模式図であり、必ずしも厳密に図示されたものではない。
【0009】
<システム1の構成>
本開示におけるシステム1は、特許文書の処理支援サービスを提供する情報処理システムである。
システム1は、ネットワークNを介して接続された、サーバ10、ユーザ端末20、人工知能システム40の情報処理装置を備える。
図1は、システム1の機能構成を示すブロック図である。
図2は、サーバ10の機能構成を示すブロック図である。
図3は、ユーザ端末20の機能構成を示すブロック図である。
【0010】
各情報処理装置は演算装置と記憶装置とを備えたコンピュータにより構成されている。コンピュータの基本ハードウェア構成および、当該ハードウェア構成により実現されるコンピュータの基本機能構成は後述する。サーバ10、ユーザ端末20、人工知能システム40のそれぞれについて、後述するコンピュータの基本ハードウェア構成およびコンピュータの基本機能構成と重複する説明は省略する。
【0011】
<サーバ10の構成>
サーバ10は、特許文書の処理支援サービスを提供する情報処理装置である。
サーバ10は、記憶部101、制御部104を備える。
【0012】
<サーバ10の記憶部101の構成>
サーバ10の記憶部101は、アプリケーションプログラム1011、ユーザテーブル1012、文書テーブル1013、母集団テーブル1014、第1支援テーブル1015、第2支援テーブル1016、教師テーブル1017、タスクマスタ1021、パラメータマスタ1022を備える。
【0013】
アプリケーションプログラム1011は、サーバ10の制御部104を各機能ユニットとして機能させるためのプログラムである。
アプリケーションプログラム1011は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
【0014】
ユーザテーブル1012は、サービスを利用する会員ユーザ(以下、ユーザ)の情報を記憶し管理するテーブルである。ユーザは、サービスの利用登録を行うことで、当該ユーザの情報がユーザテーブル1012の新しいレコードに記憶される。これにより、ユーザは本開示にかかるサービスを利用できるようになる。
ユーザテーブル1012は、ユーザIDを主キーとして、ユーザID、ユーザ名のカラムを有するテーブルである。
図4は、ユーザテーブル1012のデータ構造を示す図である。
【0015】
ユーザIDは、ユーザを識別するためのユーザ識別情報を記憶する項目である。ユーザ識別情報は、ユーザごとにユニークな値が設定されている項目である。
ユーザ名は、ユーザの氏名を記憶する項目である。ユーザ名は、氏名ではなく、ニックネームなど任意の文字列を設定しても良い。
【0016】
文書テーブル1013は、特許文書に関する情報(文書情報)を記憶し管理するためのテーブルである。
文書テーブル1013は、文書ID、ユーザID、文書名、文書内容のカラムを有するテーブルである。
図5は、文書テーブル1013のデータ構造を示す図である。
【0017】
文書IDは、特許文書を識別するための文書識別情報を記憶する項目である。
ユーザIDは、ユーザを識別するためのユーザ識別情報を記憶する項目である。
文書名は、特許文書の名称を記憶する項目である。文書名は任意の文字列を設定することができる。例えば、文書名は、特許文書の公開番号、登録番号、出願番号、その他、整理番号等を記憶する。
文書内容は、特許文書の文書内容を記憶する項目である。具体的に、特許文書のテキスト情報が記憶される。例えば、文書内容は、特許文書(明細書)に含まれる「特許請求の範囲」「要約」「発明の詳細な説明」「実施例」「実施形態」等の、一部または全部を含む。具体的には、公開公報、特許公報等の公報テキストが記憶される。
【0018】
母集団テーブル1014は、複数の特許文書を含む母集団(母集団情報)を記憶し管理するためのテーブルである。本開示においては各種情報処理の処理対象となる複数の特許文書からなる母集団を特定する情報が記憶される。
母集団テーブル1014は、母集団IDを主キーとして、母集団ID、母集団データ、タスクID、クエリデータのカラムを有するテーブルである。
図6は、母集団テーブル1014のデータ構造を示す図である。
【0019】
母集団IDは、母集団を識別するための母集団識別情報を記憶する項目である。母集団識別情報は、母集団情報ごとにユニークな値が設定されている項目である。
母集団データは、複数の特許文書の文書IDからなる母集団を特定する情報記憶する項目である。母集団データは、文書IDだけでなく、文書IDと関連付けて文書名、文書内容等を記憶する構成としても良い。また、複数の特許文書を文書IDにより特定する必要は必ずしもなく、特許を検索するための検索式、検索条件、論理式により複数の特許文書からなる母集団を特定しても構わない。
タスクIDは、母集団識別情報により特定される複数の特許文書を含む母集団に対して適用するタスクを示すタスク識別情報を記憶する項目である。
クエリデータは、母集団識別情報により特定される複数の特許文書を含む母集団に対して適用するクエリを記憶する項目である。具体的に、クエリデータは、タスクの種類に応じて以下のようなクエリが記憶される。
・分類付与タスク:分類対象を定義する文章(文字列)および分類対象を表現する複数の例示的な文章(文字列)を例示列挙したものが記憶される。
例)分類Aは「・・・」、分類Bは「・・・」、分類Cは「・・・」
・スクリーニング:ターゲット発明を記述した文章(文字列)が記憶される。
例)・・・手段と、・・・手段と、・・・を備える装置
・該非判定:対象製品を表現した文章(文字列)が記憶される。
例)・・・手段と、・・・手段と、・・・を備える装置
・発明評価:評価項目、評価基準を表現した文章が記憶される。
例)革新性:Aランクとは・・・、Bランクとは・・・、Cランクとは・・・
経済性:Aランクとは・・・、Bランクとは・・・、Cランクとは・・・
【0020】
第1支援テーブル1015は、人工知能システムに対する問い合わせ文章に関するプロンプトおよび人工知能システムからの回答内容(第1支援情報)を記憶し管理するためのテーブルである。
第1支援テーブル1015は、第1文書ID、プロンプト、第1出力値のカラムを有するテーブルである。
図7は、第1支援テーブル1015のデータ構造を示す図である。
【0021】
第1文書IDは、第1特許文書を識別するための文書識別情報を記憶する項目である。
プロンプトは、人工知能システムに対する問い合わせ文章に関するプロンプトを記憶する項目である。プロンプトとは、主に人工知能システムに対して入力される問い合わせ文(テキスト)である。具体的に、ユーザは、人工知能システムが所望の出力結果を出力するように、人工知能システムに対してプロンプトの入力を行うことができる。なお、プロンプトは文字列である必要はなく、画像、動画、音声等によるプロンプトでも良い。例えば、ユーザによるジェスチャ、音声指示等もプロンプトになり得る。
第1出力値は、プロンプトに対する人工知能システムからの出力データを記憶する項目である。具体的に、プロンプトを生成する際に用いたタスク情報に応じた出力データ(文字列情報)が記憶される。
【0022】
第2支援テーブル1016は、特許文書に対する分類モデル1051からの出力データ(第2支援情報)を記憶し管理するためのテーブルである。具体的に、第2支援テーブル1016は、分類モデル1051に特許文書を入力データとして適用したことに応じて出力される分類ラベル、分類精度等の情報が記憶される。なお、本開示においては一例として分類モデルによる分類結果を説明するが、分類結果に替えて、スクリーニングモデルによるスクリーニング結果、該非判定モデルによる該非判定結果、発明評価モデルによる発明評価結果を記憶する構成としても構わない。
第2支援テーブル1016は、第2文書ID、第2出力値、精度のカラムを有するテーブルである。
図8は、第2支援テーブル1016のデータ構造を示す図である。
【0023】
第2文書IDは、第2特許文書を識別するための文書識別情報を記憶する項目である。
第2出力値は、第2文書IDにより特定される特許文書を入力データとして分類モデル1051に適用したことに応じて出力される分類ラベル等の出力データ(文字列情報)を記憶する項目である。第2出力値は、複数の分類ラベル等の出力データを記憶しても良い。
精度は、第2文書IDにより特定される特許文書を入力データとして分類モデル1051に適用したことに応じて出力される分類ラベルに対する分類精度等の、第2出力値の品質を示す情報が記憶される項目である。精度は、複数の分類ラベル等のそれぞれに対する品質を示す情報を記憶しても良い。
【0024】
教師テーブル1017は、特許文書に対する教師情報を記憶し管理するためのテーブルである。
教師テーブル1017は、教師文書ID、教師ラベルのカラムを有するテーブルである。
図9は、教師テーブル1017のデータ構造を示す図である。
【0025】
教師文書IDは、特許文書を識別するための文書識別情報を記憶する項目である。
教師ラベルは、今日私文書IDにより特定される特許文書の分類ラベル等の教師データ(文字列情報)を記憶する項目である。
【0026】
タスクマスタ1021は、特許文書に対して実行されるタスクに関する情報(タスク情報)を記憶し管理するためのテーブルである。
タスクマスタ1021は、タスクIDを主キーとして、タスクID、タスク種別、抽出項目、タスクデータのカラムを有するテーブルである。
図10は、タスクマスタ1021のデータ構造を示す図である。
【0027】
タスクIDは、タスクを識別するためのタスク識別情報を記憶する項目である。タスク識別情報は、タスク情報ごとにユニークな値が設定されている項目である。
タスク種別は、タスクの種別に関するタスク種別情報を記憶する項目である。具体的に、タスク種別は、特許文書に対して実行される処理(タスク)の目的に応じたタスクの内容を特定する文字列が記憶される。本開示において、タスク種別には、以下のタスクの内容に応じて「分類付与」、「スクリーニング」、「該非判定」、「発明評価」などの情報が記憶される。なお、本開示においては上記タスクは一例であり、特許文書に対する任意のタスクに対して本開示は適用可能である。
・分類付与タスク:複数の特許文書のそれぞれの内容に応じて分類を付与するタスクである。
・スクリーニングタスク:複数の特許文書のそれぞれがターゲット文書と関連しているか否かを判定させるタスクである。具体的に、「従来技術調査」、「先行技術調査」、「無効資料調査」などのように、タスクを細分化しても良い。
・該非判定タスク:複数の特許文書のそれぞれが対象製品と関連しているか否かを判定させるタスクである。例えば、「クリアランス調査」、「FTO調査」、「他社侵害品調査」などの特許業務において実行されるタスクである。
・発明評価タスク:複数の特許文書のそれぞれの革新性、経済性、実用性、他社実施可能性、侵害発見容易性などの特許文書にかかる発明の価値を評価させるタスクである。例えば、「出願要否判断」、「外国出願検討、出願国の検討」、「登録特許の維持要否」などの特許業務において実行されるタスクである。
抽出項目は、タスクを実行する際に特許文書の抽出項目を示す情報(抽出項目情報)を記憶する項目である。具体的に、抽出項目は、「要約書」、「明細書」、「特許請求の範囲」、「図面」などのタスクを提供する特許文書の抽出項目を示す文字列を含む。また、抽出項目は、「発明の名称」、「発明の詳細な説明」、「技術分野」、「背景技術」、「先行技術文献」、「発明が解決しようとする課題」、「課題を解決するための手段」、「発明の効果」、「図面の簡単な説明」、「発明を実施するための形態」、「実施例」、「産業上の利用可能性」、「符号の説明等」、「課題」、「解決手段」などのタスクを提供する特許文書の抽出項目を示す文字列を含む。
具体的に、抽出項目は、タスク種別に応じて以下のような抽出項目情報が記憶される。
・分類付与:要約書、特許請求の範囲、独立請求項、請求項1、明細書など
・スクリーニング:要約書、特許請求の範囲、独立請求項、請求項1、明細書など
・該非判定:請求項1、特許請求の範囲、独立請求項
・発明評価:請求項1、独立請求項
タスクデータは、タスクに関する情報(文字列)を記憶する項目である。具体的に、タスクデータは、タスク種別に応じて以下のような文字列が記憶される。なお、<クエリ>の項目には後述するクエリデータが、<抽出文書>には、特許文書に含まれる文章のうち、抽出項目に基づき特定される抽出箇所(抽出内容、部分文章)が挿入されプロンプトが生成される。
・タスク種別が「分類付与」の場合
『
以下のように技術分類を定義します。以下の「対象特許」に記載された発明が分類A、B、Cのいずれかに分類してください。対象特許と分類との関連度を0~100の間で算定してください。そのように判断した理由を出力してください。
#技術分類:<クエリ>(分類A「・・・」、分類B「・・・」、分類C「・・・」)
#対象特許:<抽出文書>(特許文書のうち要約書、特許請求の範囲の箇所(内容))
』
・タスク種別が「スクリーニング」の場合
『
以下の「ターゲット発明」に記載された発明が、以下の「対象特許」に記載された発明に記載されているか否かの検討をしてください。ターゲット発明と対象特許との関連度を0~100の間で算定してください。そのように判断した理由を出力してください。
#ターゲット発明:<クエリ>(・・・手段と、・・・手段と、・・・を備える装置)
#対象特許:<抽出文書>(特許文書のうち要約書、特許請求の範囲、明細書の箇所(内容))
』
・タスク種別が「該非判定」の場合
『
以下の「対象製品」に記載された製品、サービス等が、以下の「対象特許」に記載された発明の権利範囲に含まれるか否かの検討をしてください。対象製品と対象特許との関連度を0~100の間で算定してください。そのように判断した理由を出力してください。
#対象製品:<クエリ>(・・・手段と、・・・手段と、・・・を備える装置)
#対象特許:<抽出文書>(特許文書のうち請求項1の箇所(内容))
』
・タスク種別が「発明評価の場合」
『
以下のように評価基準を定義します。以下の「対象特許」に記載された発明が評価A、B、Cのいずれかに評価してください。そのように判断した理由を出力してください。
#評価基準:<クエリ>(評価A「・・・」、評価B「・・・」、評価C「・・・」)
#対象特許:<抽出文書>(特許文書のうち要約書、特許請求の範囲の箇所(内容))』
【0028】
パラメータマスタ1022は、パラメータに関する情報(パラメータ情報)を記憶し管理するためのテーブルである。
パラメータマスタ1022は、抽出割合、精度閾値、適用条件のカラムを有するテーブルである。
図11は、パラメータマスタ1022のデータ構造を示す図である。
【0029】
抽出割合は、母集団から複数の特許文書からなる第1特許文書を特定する際のサンプリング割合を記憶する項目である。具体的に、抽出割合は、0~100%の値をとる。
精度閾値は、1または複数の第2特許文書からなる第2特許集合を特定する際の精度等の第2出力値の品質を示す情報に関する条件を記憶する項目である。例えば、分類モデル1051が出力する第2出力値と精度に基づき、当該精度が精度閾値よりも大きいもののみを第2特許文書として特定し、記憶する。具体的に、精度閾値は、0~1の値をとる。
適用条件は、抽出割合および精度閾値を適用する際の適用条件を記憶する項目である。
具体的に、適用条件は、文書処理の実行回数、未処理文書の数、割合等に関する条件を記憶する。
【0030】
<サーバ10の制御部104の構成>
サーバ10の制御部104は、ユーザ登録制御部1041、文書処理部1042、分類モデル1051を備える。制御部104は、記憶部101に記憶されたアプリケーションプログラム1011を実行することにより、各機能ユニットが実現される。
【0031】
ユーザ登録制御部1041は、本開示に係るサービスの利用を希望するユーザの情報をユーザテーブル1012に記憶する処理を行う。
ユーザテーブル1012に記憶される情報は、ユーザが任意の情報処理端末からサービス提供者が運営するウェブページなどを開き、所定の入力フォームに情報を入力しサーバ10へ送信する。ユーザ登録制御部1041は、受信した情報をユーザテーブル1012の新しいレコードに記憶し、ユーザ登録が完了する。これにより、ユーザテーブル1012に記憶されたユーザはサービスを利用することができるようになる。
ユーザ登録制御部1041によるユーザ情報のユーザテーブル1012への登録に先立ち、サービス提供者は所定の審査を行いユーザによるサービス利用可否を制限しても良い。
ユーザIDは、ユーザを識別できる任意の文字列または数字で良く、ユーザが希望する任意の文字列または数字、もしくはユーザ登録制御部1041が自動的に任意の文字列または数字を設定しても良い。
【0032】
文書処理部1042は、文書処理を実行する。詳細は後述する。
【0033】
分類モデル1051は、特許文書を分類するための分類モデルを記憶する項目である。
分類モデル1051は、機械学習モデル、深層学習モデル、人工知能モデル等の任意の学習モデルを含む。本開示における、分類モデル1051は、特許文書等の文書(テキストデータ)の入力に応じて、分類名(分類ラベル)および当該分類名に応じた精度(推論精度、推論の品質を示す情報)を出力可能な学習モデルを含む。例えば、分類モデル1051は、ベイズ分類、SVM(Support VectorMachines)、決定木(Decision Trees)、ランダムフォレスト(Random Forest)、ロジスティック回帰、深層学習モデル、BERTを含む。
なお、分類モデル1051は、CNN、ResNet、Inception、VGGNetなどの画像分類モデルを含んでも良い。特許文書は、図面等の画像を含むため、当該図面等の画像に応じて分類名を出力可能な構成としても良い。
分類モデル1051は、自然言語処理に使用される多くの汎用的なライブラリにより実現することができる。例えば、分類モデル1051は、NLTK(Natural Language Toolkit)、spaCy、Scikit-learn、TensorFlow and Keras、PyTorch、FastText、Gensimなどを含む。
【0034】
<ユーザ端末20の構成>
ユーザ端末20は、サービスを利用するユーザが操作する情報処理装置である。ユーザ端末20は、例えば、スマートフォン、タブレット等の携帯端末でもよいし、据え置き型のPC(Personal Computer)、ラップトップPCであってもよい。また、HMD(Head Mount Display)、腕時計型端末等のウェアラブル端末であってもよい。
ユーザ端末20は、記憶部201、制御部204、入力装置206、出力装置208を備える。
【0035】
<ユーザ端末20の記憶部201の構成>
ユーザ端末20の記憶部201は、ユーザID2011、アプリケーションプログラム2012を備える。
【0036】
ユーザID2011はユーザのアカウントIDである。ユーザは、ユーザ端末20からユーザID2011を、サーバ10へ送信する。サーバ10は、ユーザID2011に基づきユーザを識別し、本開示にかかるサービスをユーザに対して提供する。なお、ユーザID2011には、ユーザ端末20を利用しているユーザを識別するにあたりサーバ10から一時的に付与されるセッションIDなどの情報を含む。
【0037】
アプリケーションプログラム2012は、記憶部201に予め記憶されていても良いし、通信IFを介してサービス提供者が運営するウェブサーバ等からダウンロードする構成としても良い。
アプリケーションプログラム2012は、ウェブブラウザアプリケーションなどのアプリケーションを含む。
アプリケーションプログラム2012は、ユーザ端末20に記憶されているウェブブラウザアプリケーション上で実行されるJavaScript(登録商標)などのインタープリター型プログラミング言語を含む。
【0038】
<ユーザ端末20の制御部204の構成>
ユーザ端末20の制御部204は、入力制御部2041、出力制御部2042を備える。制御部204は、記憶部201に記憶されたアプリケーションプログラム2012を実行することにより、各機能ユニットが実現される。
【0039】
<ユーザ端末20の入力装置206の構成>
ユーザ端末20の入力装置206は、カメラ2061、マイク2062、位置情報センサ2063、モーションセンサ2064、タッチデバイス2065を備える。
【0040】
<ユーザ端末20の出力装置208の構成>
ユーザ端末20の出力装置208は、ディスプレイ2081、スピーカ2082を備える。
【0041】
<人工知能システム40の構成>
人工知能システム40は、プロンプトに対する回答内容を出力する情報処理装置である。例えば、人工知能システム40は、ChatGPT、OpenAI GPT、PerplexityAsk、BingAI等が含まれる。これらの人工知能システムは対話応対(チャット)の機能を備えており、ユーザは任意の問い合わせや命令指示を文章で人工知能システムに与えることにより、当該問い合わせに対する回答や命令指示に対する回答を得ることができる。本開示においては、ユーザは、問合処理において作成したプロンプトを人工知能システム40へ送信することにより、特許文書の読解を支援する文章を回答内容として得ることができる。
また本開示において、人工知能システムは、テキストベースの対話応対に限られない。例えば、Midjourney、Stable Diffusion等の画像生成AIシステムであっても構わない。例えば、ユーザは、問合処理において作成したプロンプトを、そのような画像生成AIシステムに送信することにより、特許文書の読解を支援する画像や動画を回答内容として得ることができる。
その他、本開示は、動画や音声等により回答内容を出力する人工知能システムに対しても適用可能である。人工知能システム40は、大規模言語モデルシステム(LLMシステム)を含む。
【0042】
<システム1の動作>
以下、システム1の各処理について説明する。
図12は、文書処理の動作を示すフローチャートである。
図13は、母集団作成処理ページの動作を示す画面例である。
【0043】
<文書処理>
文書処理は、特許文書に対して処理を適用する処理である。
【0044】
<文書処理の概要>
文書処理は、文書処理の処理対象となる母集団を作成し、当該母集団から第1集合をサンプリングにより特定し、当該第1集合に適用するプロンプトを生成し、当該プロンプトを大規模言語モデルへ送信することにより大規模言語モデルから出力される第1出力値を取得し、第1出力値をユーザへ提示し、当該ユーザからの入力操作に応じて教師データを作成し、母集団から第2集合を特定し、第2集合に対して教師データに基づき学習した分類モデルによる分類処理を実行し、母集団のうち未処理文書がなくなるまで上記処理を反復して実行する一連の処理である。
【0045】
<文書処理の詳細>
以下に、文書処理の詳細を説明する。
【0046】
<母集団作成ステップ>
ステップS101において、サーバ10の文書処理部1042は、複数の特許文書を含む母集団に関する母集団情報を受け付ける母集団受付ステップを実行する。
具体的に、ユーザは、ユーザ端末20の入力装置206を操作することにより、ウェブブラウザ等に母集団作成処理を実行するためのページ(母集団作成処理ページD1)のURLを入力し、母集団作成処理ページを開く。ユーザ端末20の制御部204は、母集団作成処理ページを開くためのリクエストを、サーバ10へ送信する。サーバ10の制御部104は、受信したリクエストに基づき、母集団作成処理ページD1を生成しユーザ端末20へ送信する。ユーザ端末20の制御部204は、受信した母集団作成処理ページD1をユーザ端末20のディスプレイ2081に表示する。
図13は、文書処理における母集団作成処理ページD1の画面例である。ユーザ端末20のディスプレイ2081には、母集団作成処理ページD1が表示される。母集団作成処理ページD1は、タスク選択欄D101、抽出項目選択欄D111、クエリ入力欄D102、文書入力欄D103、プロンプト表示欄D104、送信ボタンD105を含む。
【0047】
<母集団作成ステップ(タスク受付ステップ)>
ユーザ端末20の制御部204は、複数のタスク情報を選択可能にユーザに提示するタスク提示ステップを実行する。
具体的に、サーバ10の文書処理部1042は、タスクマスタ1021を参照してタスクID、タスク種別の項目を取得し、ユーザ端末20へ送信する。ユーザ端末20の制御部204は、受信した複数のタスク種別を選択可能な態様でタスク選択欄D101に表示する。例えば、ユーザ端末20の制御部204は、タスク選択欄D101に表示される複数のタスク種別のそれぞれを、タスク種別を選択するためのラジオボタンと関連付けてユーザに対して提示する。
【0048】
サーバ10の文書処理部1042は、特許文書に対して実行されるタスクに関するタスク情報を受け付けるタスク受付ステップを実行する。タスク受付ステップは、ユーザから、タスク提示ステップにおいて提示された複数のタスク情報のうち所定のタスク情報の入力操作を受け付けるステップを実行する。
具体的に、ユーザは、ユーザ端末20の入力装置206を操作することにより、タスク選択欄D101に表示されている複数のタスク種別から特許文書に対して実行する所定のタスク種別を選択する。
【0049】
タスク受付ステップは、特許文書に分類を付与する分類付与タスクと、特許文書とターゲット文書との関連性を判定するスクリーニングタスクと、特許文書と対象製品との関連性を判定する該非判定タスクと、特許文書にかかる発明の価値を評価する発明評価タスクと、のうち少なくともいずれか1つのタスクを示すタスク情報を受け付けるステップを実行する。
具体的に、ユーザは、分類付与タスク、スクリーニングタスク、該非判定タスク、発明評価タスク、などのタスク種別から、所定のタスク種別を選択することができる。なお、複数のタスク種別を選択できる構成としても良い。
【0050】
ユーザ端末20の制御部204は、タスク選択欄D101において選択されたタスク情報に応じたタスクIDをサーバ10へ送信する。サーバ10の文書処理部1042は、タスクIDを受信し、受け付ける。
【0051】
なお、本開示において、複数のタスク情報が選択可能に提示され、ユーザにより選択される構成を一例として開示したがそれに限られない。例えば、タスク情報は一種類(分類付与タスク、スクリーニングタスク、該非判定タスク、発明評価タスクのうちのいずれか1つ)であり、予めタスク情報が所定のタスク情報として定められているものとしても良い。この場合も、サーバ10の文書処理部1042は、予め定められているタスク情報の入力を受け付けたものと解釈することができる。
また、タスク情報は選択により受け付ける構成はなく、後述するクエリ受付ステップにおいて受け付けたクエリの内容に基づき特定される構成としても良い。
また、タスク選択欄D101に代えて、ユーザがタスク情報、タスク種別等を入力可能なタスク入力欄を設けても良い、ユーザは、タスク入力欄に、分類付与タスク、スクリーニングタスク、該非判定タスク、発明評価タスクなどのタスク情報を示す情報を入力し、ユーザ端末20の制御部204またはサーバ10の文書処理部1042がタスク種別を受け付ける構成としても構わない。
【0052】
<母集団作成ステップ(クエリ受付ステップ)>
サーバ10の文書処理部1042は、特許文書に対して適用されるクエリ情報を受け付けるクエリ受付ステップを実行する。
具体的に、ユーザは、ユーザ端末20の入力装置206を操作することにより、クエリ入力欄D102に特許文書に対して適用するクエリに関する文字列を入力する。例えば、ユーザは、ユーザ端末20の入力装置206を操作することにより、ステップS501において選択されたタスク種別に応じて、以下のようなクエリをクエリ入力欄D102に入力する。
【0053】
〔分類付与タスクの場合のクエリ〕
分類Aは、情報処理機器に関する分類である。
分類Bは、農機具に関する分類である。
分類Cは、食料品に関する分類である。
【0054】
〔スクリーニングタスクの場合のクエリ〕
クエリ例1)・・・手段と、・・・手段と、・・・を備える装置
クエリ例2)・・・工程と、・・・工程と、・・・を備える方法
クエリ例3)・・・ステップと、・・・ステップと、・・・を実行するプログラム
【0055】
〔該非判定タスクの場合のクエリ〕
クエリ例1)・・・手段と、・・・手段と、・・・を備える装置
クエリ例2)・・・工程と、・・・工程と、・・・を備える方法
クエリ例3)・・・ステップと、・・・ステップと、・・・を実行するプログラム
【0056】
〔発明評価タスクの場合のクエリ〕
革新性:Aランクとは・・・、Bランクとは・・・、Cランクとは・・・
経済性:Aランクとは・・・、Bランクとは・・・、Cランクとは・・・
【0057】
ユーザ端末20の制御部204は、クエリ入力欄D102に入力された文字列をサーバ10へ送信する。サーバ10の文書処理部1042は、文字列を受信し、クエリデータとして受け付ける。
【0058】
<母集団作成ステップ(文書取得ステップ)>
サーバ10の文書処理部1042は、特許に関する特許文書を取得する文書取得ステップを実行する。
具体的に、ユーザは、ユーザ端末20の入力装置206を操作することにより、文書入力欄D103に特許文書の文書IDを入力する。なお、特許文書は文書テーブル1013における文書IDにより指定される必要はなく、ユーザは、文書入力欄D103に、公開特許公報等の特許番号、特許文書ごとの要約、特許請求の範囲および特許明細書等の特許文書の内容を入力しても良い。ユーザは、ユーザ端末20の記憶部201に記憶された、Word、Excel、CSVファイル等に含まれる特許文書の情報をアップロード対象として直接選択できる構成としても構わない。ユーザは、任意の手段により所定の特許文書をサーバ10へ送信できる構成であればどのような手段であっても良い。
【0059】
文書取得ステップは、複数の特許に関する特許文書を取得するステップを実行する。
なお、ユーザは、ユーザ端末20の入力装置206を操作することにより、複数の特許文書をサーバ10に対して送信する構成としても良い。ユーザは、ユーザ端末20の入力装置206を操作することにより、文書入力欄D103に複数の特許文書の文書IDを入力しても良い。また、ユーザは、複数の特許文書の情報を含むExcel、CSVファイル等をサーバ10へ送信しても良い。
【0060】
ユーザ端末20の制御部204は、ユーザにより入力または選択された1または複数の特許文書をサーバ10へ送信する。サーバ10の文書処理部1042は、1または複数の特許文書を受信により取得し、受け付ける。
【0061】
サーバ10の文書処理部1042は、ユーザ端末20から受信した、タスクID、クエリデータ、1または複数の特許文書を、母集団テーブル1014の新たなレコードのタスクID、クエリデータ、母集団データの項目に記憶する。
【0062】
<母集団作成ステップ(2回目以降)>
ステップS101において、母集団受付ステップは、第1母集団に関する第1母集団情報を受け付けるステップと、第1母集団情報から、第2記憶ステップにおいて第2出力結果と関連付けて記憶された1または複数の特許文書を除いた1または複数の特許文書を含む第2母集団に関する第2母集団情報を受け付けるステップと、を含む。
具体的に、文書処理をステップS109まで実行した後に、再度ステップS101を実行する場合(2回目以降に実行される際)には、母集団データに含まれる特許文書から、第2支援テーブル1016において第2出力値と関連付けられた第2文書IDにより特定される特許文書を除外して新たな母集団として受け付ける。
これにより、学習モデルによる第2処理結果の品質が好適ではない特許文書に対して改めて第1処理および第2処理を実行することができる。最初に与えた母集団から、第2処理結果の品質が好適である特許文書は徐々に除かれていくため、最初に与えた母集団に含まれる複数の特許文書に対して徐々に第1処理、第2処理を適用することができる。母集団に対して可能な限り第2処理を適用することにより、第1処理の適用を抑制することができる。
【0063】
ステップS101において、母集団受付ステップは、第1母集団に関する第1母集団情報を受け付けるステップと、第1母集団情報から、第1記憶ステップにおいて第1出力結果に基づく情報と関連付けて記憶された1または複数の特許文書と、第2記憶ステップにおいて第2出力結果と関連付けて記憶された1または複数の特許文書と、を除いた1または複数の特許文書を含む第2母集団に関する第2母集団情報を受け付けるステップと、を含む。
具体的に、文書処理をステップS109まで実行した後に、再度ステップS101を実行する場合(2回目以降に実行される際)には、母集団データに含まれる特許文書から、教師テーブル1017において教師ラベルと関連付けられた教師文書IDにより特定される特許文書、および、第2支援テーブル1016において第2出力値と関連付けられた第2文書IDにより特定される特許文書を除外して新たな母集団として受け付けても良い。
同様に、母集団データに含まれる特許文書から、第1支援テーブル1015において第1出力値と関連付けられた第1文書IDにより特定される特許文書を除外して新たな母集団として受け付けても良い。
これにより、第1出力結果または第1出力結果に基づき教師データが与えられた特許文書と、第2処理結果の品質が好適である特許文書と、を除く特許文書に対して改めて第1処理および第2処理を実行することができる。最初に与えた母集団から、教師データが与えられた、または、第2処理結果の品質が好適である特許文書は徐々に除かれていくため、最初に与えた母集団に含まれる複数の特許文書に対して徐々に第1処理、第2処理を適用することができる。母集団に対して可能な限り第2処理を適用することにより、第1処理の適用を抑制することができる。
【0064】
<サンプリングステップ(第一実施形態)>
ステップS102において、サーバ10の文書処理部1042は、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第1特許文書を抽出する第1特許抽出ステップを実行する。
具体的に、サーバ10の文書処理部1042は、ステップS101において母集団テーブル1014に記憶された母集団データに含まれる複数の特許文書から、一部の特許文書(第1特許文書)を無作為(ランダム)に抽出する(サンプリングを行う)。
例えば、本開示において第1特許文書は母集団データに含まれる複数の特許文書に対して実行される処理の教師データを作成するためのものであるので、母集団データに含まれる複数の特許文書のうち10~20%の抽出割合で特許文書を抽出する。
例えば、母集団データに含まれる特許文書の件数が1000件である場合には、100~200件の特許文書を抽出する。
【0065】
<サンプリングステップ(第二実施形態)>
ステップS102において、第1特許抽出ステップは、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書を複数のグループに分けるステップと、複数のグループのそれぞれから、1または複数の特許文書を第1特許文書として抽出するステップと、を含む。
具体的に、サーバ10の文書処理部1042は、ステップS101において母集団テーブル1014に記憶された母集団データに含まれる複数の特許文書に対してクラスタリング処理を実行する。具体的に、サーバ10の文書処理部1042は、複数の特許文書の文書内容(特許請求の範囲、要約、発明の詳細な説明、実施例、実施形態、その他、明細書等のテキストデータや、図面等の画像データ)の類似度に基づき、複数の特許文書に対するクラスタリング処理を実行する。例えば、クラスタリング処理は、k平均法(k-means)、階層的クラスタリング、DBSCAN、スペクトラルクラスタリングなど、任意の手法を用いることができる。これにより、母集団データに含まれる複数の特許文書を、グループA、グループB、グループC・・・などのグループ(クラスタ)に分類することができる。
サーバ10の文書処理部1042は、それぞれのグループから所定数の特許文書を抽出する。具体的に、サーバ10の文書処理部1042は、母集団データに含まれる複数の特許文書の数の10~20%を総数として、当該総数をグループ数で割った数の特許文書を、それぞれのグループから抽出する。
例えば、母集団データに含まれる特許文書の件数が1000件である場合において、グループがA、B、C、Dの4つである場合には、抽出する特許文書の総数が100件である場合には各グループから25件ずつ特許文書を抽出する。同様に、抽出する特許文書の総数が200件である場合には各グループから50件ずつ特許文書を抽出する。なお、グループからの特許文書の抽出は無作為(ランダム)に抽出することが好適である。
これにより、母集団に含まれる特許文書の内容に偏りが合った場合においても、グループごとに所定数の特許文書をサンプリングすることにより、母集団に含まれる特許文書の表現空間の全域にわたってバランス良く第1処理を適用することができる。例えば、ユーザは、母集団に含まれる特許文書の表現空間の全域にわたってバランス良く教師データを準備することができる。これにより、第2処理を品質良く行うことができるとともに、処理時間や処理費用を節約することができる。
なお、グループごとに抽出する第1特許文書の件数は所定の定まった数でも良いし、グループに含まれる特許文書の件数や、グループごとの件数割合に応じた所定数の第1特許文書を抽出する構成としても良い。
【0066】
<サンプリングステップ(2回目以降)>
ステップS102において、第1特許抽出ステップは、第1母集団情報から、第1割合に応じた数の第1特許文書を抽出するステップと、第2母集団情報から、第2割合に応じた数の第1特許文書を抽出するステップと、を含む。
具体的に、文書処理をステップS109まで実行した後に、再度ステップS101を実行する場合(2回目以降に実行される際)には、1回目のステップS102において母集団からP%(第1割合)の割合の第1特許文書を抽出し、2回目のステップS102において母集団からP%とは異なるQ%(第2割合)の割合の第1特許文書を抽出するものとする。
【0067】
例えば、第2割合は、第1割合よりも大きいものとしても良い。具体的に、P%は10%、Q%は15%としても良い。
この場合、第2処理結果の品質が好適ではない特許文書が多い場合には、処理の収束性が悪いことが考えられる。第2割合を第1割合より大きくすると、母集団のうち大規模言語モデルにより処理される特許文書の割合が増えることから、第2処理に用いる教師データを増加させることができ、第2処理結果の品質が好適ではない特許文書の割合を減らすことができる。これにより、本開示における処理の処理回数を減らすことにより、トータルの処理時間を短縮させることができる場合がある。
【0068】
例えば、第1割合は、第2割合よりも大きいものとしても良い。具体的に、P%は10%、Q%は5%としても良い。
この場合、第2割合を第1割合より小さくすると、母集団のうち大規模言語モデルにより処理される特許文書の割合が減ることから、第1処理に伴う処理費用を節約することができる。
【0069】
サーバ10の文書処理部1042は、パラメータマスタ1022の適用条件の項目を検索し、抽出割合(P%、Q%)を取得しても良い。例えば、文書処理の実行数(1回目、2回目など)を適用条件として、実行数に応じた抽出割合(P%、Q%)を取得する構成とすることができる。
【0070】
サーバ10の文書処理部1042は、抽出した1または複数の第1特許文書の1または複数の文書IDを、第1支援テーブル1015の新たなレコードの文書IDの項目に記憶する。これにより、プロンプト生成ステップの処理対象が第1支援テーブル1015のレコードに第1支援情報として記憶される。
【0071】
<プロンプト生成ステップ>
ステップS103において、第1特許文書に基づく大規模言語モデルに処理を実行させるための入力データであるプロンプトを作成するステップを実行する。
本開示においては、一例として1の特許文書を入力した場合の処理を以下に説明する。なお、サーバ10の文書処理部1042は、第1特許文書に含まれる複数の特許文書のそれぞれに対してプロンプト生成ステップを実行する。
【0072】
<プロンプト生成ステップ(第一実施形態)>
ステップS103において、サーバ10の文書処理部1042は、大規模言語モデルに、第1特許抽出ステップにおいて抽出した第1特許文書を含むプロンプトを生成するプロンプト生成ステップを実行する。プロンプト生成ステップは、第1文書の読解を支援するための支援情報を含む補足情報を大規模言語モデルに出力させるためのプロンプトを生成するステップを含んでも良い。
具体的に、サーバ10の文書処理部1042は、母集団テーブル1014の対象レコードのタスクIDに基づき、タスクマスタ1021のタスクIDの項目を検索し、抽出項目、タスクデータの項目を取得する。サーバ10の文書処理部1042は、第1支援テーブル1015の対象レコードの第1文書IDに基づき、文書テーブル1013の文書IDの項目を検索し文書内容(特許請求の範囲、要約、発明の詳細な説明、実施例、実施形態などの特許文書の内容)を取得する。サーバ10の文書処理部1042は、取得した抽出項目に基づき、文書内容のうち所定の抽出箇所(抽出内容、部分文章)を抽出する。なお、抽出箇所の抽出は行わなくても構わない。
サーバ10の文書処理部1042は、取得したタスクデータ、母集団テーブル1014の対象レコードのクエリデータ、抽出した抽出箇所に基づきプロンプトを生成する。サーバ10の文書処理部1042は、生成したプロンプトを第1支援テーブル1015のプロンプトの生成対象となる特許文書の文書IDにより特定される第1支援情報のレコードのプロンプトの項目に記憶する。つまり、サーバ10の文書処理部1042は、第1支援テーブル1015に記憶されている第1支援情報のそれぞれに対してプロンプトを生成し、関連付けて記憶する。
【0073】
<プロンプト生成ステップ(第二実施形態)>
ステップS103において、プロンプト生成ステップは、第1特許文書および分類ルールが規定された分類定義文章を含み、第1特許文書の分類に関する第1分類情報を大規模言語モデルに出力させるためのプロンプトを生成するステップを含む。
【0074】
具体的に、サーバ10の文書処理部1042は、取得したタスクデータに対して、母集団テーブル1014の対象レコードのクエリデータ、抽出した抽出箇所を適用することによりプロンプトを生成する。サーバ10の文書処理部1042は、タスクデータの文字列のうち、「<クエリ>」をクエリデータで、「<抽出文書>」を抽出箇所で置換することにより、以下のプロンプトを生成することができる。
なお、本開示においては、分類付与タスク、スクリーニングタスク、該非判定タスク、発明評価タスクを一例として開示するが、適用可能な処理およびタスクはこれらに限られない。大規模言語モデルが取り扱うことが可能な任意のタスクに適用できる。
【0075】
〔分類付与タスクの場合のプロンプト〕
以下のように技術分類を定義します。以下の「対象特許」に記載された発明が分類A、B、Cのいずれかに分類してください。対象特許と分類との関連度を0~100の間で算定してください。そのように判断した理由を出力してください。
#技術分類:
分類Aは、情報処理機器に関する分類である。
分類Bは、農機具に関する分類である。
分類Cは、食料品に関する分類である。
#対象特許:
〔要約書〕
・・・
〔特許請求の範囲〕
・・・
【0076】
〔スクリーニングタスクの場合のプロンプト〕
以下の「ターゲット発明」に記載された発明が、以下の「対象特許」に記載された発明に記載されているか否かの検討をしてください。ターゲット発明と対象特許との関連度を0~100の間で算定してください。そのように判断した理由を出力してください。
#ターゲット発明:
・・・手段と、・・・手段と、・・・を備える装置
#対象特許:
〔要約書〕
・・・
〔特許請求の範囲〕
・・・
〔明細書〕
・・・
【0077】
〔該非判定タスクの場合のプロンプト〕
以下の「対象製品」に記載された製品、サービス等が、以下の「対象特許」に記載された発明の権利範囲に含まれるか否かの検討をしてください。対象製品と対象特許との関連度を0~100の間で算定してください。そのように判断した理由を出力してください。
#対象製品:
・・・手段と、・・・手段と、・・・を備える装置
#対象特許:
〔請求項1〕
・・・
【0078】
〔発明評価タスクの場合のプロンプト〕
以下の「対象特許」に記載された発明を、以下の評価項目ごとの評価基準に従って評価してください。
#評価項目・評価基準:
革新性:Aランクとは・・・、Bランクとは・・・、Cランクとは・・・
経済性:Aランクとは・・・、Bランクとは・・・、Cランクとは・・・
#対象特許:
〔請求項1〕
・・・
【0079】
<プロンプト生成ステップ(分類定義作成処理)>
プロンプト生成ステップ(第二実施形態)において分類付与タスクや発明評価タスクを実行する場合には、予め分類定義および評価項目・評価基準を定義しておく必要がある。
サーバ10の文書処理部1042は、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第3特許文書を抽出する第3特許抽出ステップを実行しても良い。これら分類定義および評価項目・評価基準も、人工知能システム40を用いることにより作成することができる。
以下、主に分類付与タスクにおける分類定義の作成方法について説明するがこれに限られない。同様に、発明評価タスクにおける評価項目・評価基準を人工知能システム40により作成しても良い。
【0080】
サーバ10の文書処理部1042は、大規模言語モデルに、第3特許抽出ステップにおいて抽出した第3特許文書および分類観点が規定された分類観点文章を含むプロンプトを入力することに応じて出力される第3特許文書の分類観点に関する分類観点情報を取得する分類観点取得ステップを実行しても良い。
具体的に、サーバ10の文書処理部1042は、ステップS101において母集団テーブル1014に記憶された母集団データに含まれる複数の特許文書から、一部の特許文書(第3特許文書)を無作為(ランダム)に抽出する(サンプリングを行う)。なお、特許文書の抽出はステップS102における第1特許文書の抽出と同様の処理を実行しても良い。
サーバ10の文書処理部1042は、抽出した第3特許文書に含まれる複数の特許文書の文書内容と、分類観点が規定された分類観点文章と、に基づき以下のようなプロンプトを作成する。これにより、サーバ10の文書処理部1042は、抽出した複数の特許文書のそれぞれに対してプロンプトを作成する。
【0081】
〔分類作成タスクのプロンプト〕
以下の「対象特許」に記載された発明を以下の分類観点に従い分類してください。
#分類観点:
技術分野、用途、課題、目的、構成、解決手段、効果
〔要約書〕
・・・
〔特許請求の範囲〕
・・・
【0082】
サーバ10の文書処理部1042は、生成したプロンプト(文字列)を含むリクエストを人工知能システム40の入力データとして人工知能システム40が提供するAPIエンドポイントへ送信する。人工知能システム40は、プロンプトに対する回答を含むレスポンスをサーバ10へ送信する。
サーバ10の文書処理部1042は、送信したプロンプトに対するレスポンスを受信する。レスポンスは、プロンプトに対する回答内容に関する文字列を含む。具体的に、分類作成タスクにおいて以下のような回答内容が得られる。
なお、本開示においては一例として以下のような回答内容を説明するが、回答内容は「分類名」に関するフィールド(key)を有するJSON等の構造化されたデータで受信する構成が好適である。例えば、ChatGPTと呼ばれる大規模言語モデル(LLM)では、Function Callingという機能を用いることにより、回答結果を構造化(型付け)されたデータとすることができる。
なお、回答内容は、複数の特許文書のそれぞれに作成したプロンプトに対して、複数の特許文書のそれぞれに対する回答内容(複数の特許文書ごとの回答内容)が得られる。
【0083】
〔分類作成タスクの回答内容〕
#分類観点1:技術分野
#分類名:半導体技術
#理由:要約書において、・・・
#分類観点2:目的
#分類名:微細化
#理由:要約書において、・・・
【0084】
サーバ10の文書処理部1042は、大規模言語モデルに、分類観点取得ステップにおいて取得した分類観点情報を含むプロンプトを入力することに応じて出力される、第3特許文書に関する分類観点情報を大括り化することにより得られる分類定義文章を取得する分類定義取得ステップを実行しても良い。
具体的に、サーバ10の文書処理部1042は、1または複数の特許文書に対して人工知能システム40から回答結果として取得した複数の分類名に基づき、以下のようなプロンプトを作成する。分類名A、分類名B、分類名Cには、例えば、「半導体技術」「微細化」「高集積化」などの分類作成タスクにおいて作成した分類名(分類ラベル)が入力される。
【0085】
〔分類定義タスクのプロンプト〕
以下の「分類名」に記載された分類ラベルを分類観点により大括り化することにより分類定義を作成してください。
#分類名:〔分類名A〕〔分類名B〕〔分類名C〕・・・
【0086】
サーバ10の文書処理部1042は、生成したプロンプト(文字列)を含むリクエストを人工知能システム40の入力データとして人工知能システム40が提供するAPIエンドポイントへ送信する。人工知能システム40は、プロンプトに対する回答を含むレスポンスをサーバ10へ送信する。
サーバ10の文書処理部1042は、送信したプロンプトに対するレスポンスを受信する。レスポンスは、プロンプトに対する回答内容に関する文字列を含む。具体的に、分類定義タスクにおいて以下のような回答内容(分類定義)が得られる。
このように、第3特許文書に含まれる複数の特許文書に対して人工知能システム40を適用することにより作成した分類名を用いて、分類定義を自動的に作成することができる。このように得られた分類定義を、既に説明した分類付与タスクのクエリとして用いることができる。これにより、分類定義を人手により用意することなしに、複数の特許文書を含む母集団に含まれる複数の特許文書を自動的に分類することができる。
【0087】
〔分類定義タスクの回答内容〕
#分類名1:半導体の高性能化技術
#分類の説明:半導体の性能を高性能化させる技術に関する発明
#小分類:配線の工夫、高集積化の工夫、・・・
#分類名2:半導体の低コスト化技術
#分類の説明:半導体の設計、製造コストを低下させる技術に関する発明
#小分類:材料の工夫、加工処理の工夫、・・・
【0088】
<第1出力値取得ステップ(第一実施形態)>
ステップS104において、サーバ10の文書処理部1042は、大規模言語モデルに、第1特許抽出ステップにおいて抽出した第1特許文書を含むプロンプトを入力することに応じて出力される第1出力結果を取得する第1処理ステップを実行する。
ステップS104において、第1処理ステップは、大規模言語モデルに、第1特許文書および分類ルールが規定された分類定義文章を含むプロンプトを入力することに応じて出力される第1特許文書の分類に関する第1分類情報を取得するステップを実行する。
ステップS104において、第1処理ステップは、分類定義取得ステップにおいて取得した分類定義文章に基づき第1分類情報を取得するステップを実行する。
【0089】
具体的に、サーバ10の文書処理部1042は、ステップS103において生成したプロンプト(文字列)を含むリクエストを人工知能システム40の入力データとして人工知能システム40が提供するAPIエンドポイントへ送信する。人工知能システム40は、プロンプトに対する回答を含むレスポンスをサーバ10へ送信する。
サーバ10の文書処理部1042は、送信したプロンプトに対するレスポンスを受信する。レスポンスは、プロンプトに対する回答内容に関する文字列を含む。具体的に、分類付与タスク、スクリーニングタスク、該非判定タスク、発明評価タスクのそれぞれのタスクに応じて、分類付与結果、スクリーニング結果、該非判定結果、発明評価結果のそれぞれの回答内容に関する文字列が人工知能システム40から出力される。
例えば、回答内容は以下のような情報を含む。なお、本開示においては一例として以下のような回答内容を説明するが、回答内容は「分類名」などのフィールド(key)を有するJSON等の構造化されたデータで受信する構成が好適である。例えば、ChatGPTと呼ばれる大規模言語モデル(LLM)では、Function Callingという機能を用いることにより、回答結果を構造化(型付け)されたデータとすることができる。
なお、回答内容は、複数の特許文書のそれぞれに作成したプロンプトに対して、複数の特許文書のそれぞれに対する回答内容(複数の特許文書ごとの回答内容)が得られる。
サーバ10の文書処理部1042は、回答結果を第1支援テーブル1015のプロンプトの生成対象となる特許文書の文書IDにより特定される第1支援情報のレコードの第1出力値の項目に記憶する。
【0090】
〔分類付与タスクの場合の回答内容〕
#分類:A
#関連度:80
#理由:
対象特許は、構成・・、構成・・・を備えている。一方、対象特許は、構成・・、構成・・・を備えていない。分類Aの分類定義に合致しており、分類B、分類Cの分類定義に合致しない。分類Aとの関連度は80程度である。
【0091】
〔スクリーニングタスクの場合の回答内容〕
#関連度:40
#理由:
ターゲット発明は、対象特許と、・・・の観点で一致しており、・・・の観点で相違する。
相違する部分が大きく、対象特許との関連度は40程度である。
【0092】
〔該非判定タスクの場合の回答内容〕
#関連度:20
#理由:
対象製品は、対象特許と、・・・の観点で一致しており、・・・の観点で相違する。
対象製品は、対象特許の権利範囲には含まれない。対象特許との関連度は20程度である。
【0093】
〔発明評価タスクの場合の回答内容〕
#革新性:Bランク
#理由:対象特許は、・・・などの構成を備えており、・・・
#経済性:Aランク
#理由:対象特許は、・・・などの構成を備えており、・・・
【0094】
このとき、指標値(関連度)は、タスク情報が分類付与タスクである場合には、付与した分類に関する精度を示す指標値であり、タスク情報がスクリーニングタスクである場合には、ターゲット発明との関連度を示す指標値であり、タスク情報が該非判定タスクである場合には、対象製品との関連度を示す指標値となる。
【0095】
<第1出力値提示ステップ>
ステップS105において、サーバ10の文書処理部1042は、第1処理ステップにおいて取得した第1出力結果をユーザに提示する第1提示ステップを実行する。
具体的に、サーバ10の文書処理部1042は、受信した回答内容をユーザ端末20へ送信する。ユーザ端末20の制御部204は、受信した回答内容をユーザ端末20のディスプレイ2081に表示する。なお、ユーザは、ユーザ端末20の入力装置206を操作することにより、回答結果にかかる情報をWord、Excel、CSVファイル等のファイル形式でダウンロード可能な構成としても良い。
サーバ10の文書処理部1042は、指標値および根拠に加えて、特許文書の抽出箇所をユーザに提示しても良い。これにより、ユーザは特許文書のどの箇所に基づき指標値がどのような根拠で算定されたのか確認することができる。
【0096】
サーバ10の文書処理部1042は、第1特許文書に含まれる複数の特許文書のそれぞれに対して生成したプロンプトに応じた回答内容を、ユーザ端末20へ送信する。ユーザ端末20の制御部204は、受信した複数の回答内容をユーザ端末20のディスプレイ2081に表示し提示しても良い。具体的に、複数の特許文書の文書ID、公報番号、文書名等の文書を特定する情報と、それぞれの文書ごとに生成したプロンプト、当該プロンプトに応じて人工知能システム40から受信した回答内容を関連付けて、それぞれ提示しても良い。また、指標値および根拠に加えて、特許文書の抽出箇所をユーザに提示しても良い。
また、ユーザは、ユーザ端末20の入力装置206を操作することにより、複数の特許文書の文書ID、公報番号、文書名等の文書を特定する情報と、それぞれの文書ごとに生成されたプロンプト、当該プロンプトに応じて人工知能システム40から受信した回答内容が記憶されたWord、Excel、CSVファイル等のファイルをダウンロード可能な構成としても良い。
【0097】
<教師データ作成ステップ>
ステップS106において、サーバ10の文書処理部1042は、ユーザから、第1提示ステップにおいて提示した第1出力結果に対する入力操作を受け付け、入力操作に応じて第1特許文書に関する教師データを作成する教師データ作成ステップを実行する。
具体的に、ユーザは、ユーザ端末20の入力装置206を操作することにより、ユーザ端末20のディスプレイ2081に表示し提示した第1出力結果を編集することができる。具体的に、ユーザは、ユーザ端末20の入力装置206を操作することにより第1出力結果の内容を修正したり削除することができる。ユーザは、ユーザ端末20の入力装置206を操作することにより第1出力結果に対する修正および削除などの編集内容をサーバ10へ送信する。
大規模言語モデルから出力された第1出力値の内容は誤った内容、不正確な情報が含まれていることも多いため、ユーザは第1出力値の内容を修正、編集、削除することにより第1出力値に基づく教師データを作成することが好適である。
【0098】
ステップS106において、サーバ10の文書処理部1042は、第1特許抽出ステップにおいて抽出した第1特許文書の少なくとも一部または全部を第1出力結果に基づく情報と関連付けて記憶する第1記憶ステップを実行する。
具体的に、サーバ10の文書処理部1042は、ユーザ端末20から受信した編集内容に基づき、第1文書IDと、修正、編集した第1出力結果と、を関連付けて、教師テーブル1017の新たなレコードの教師文書ID、教師ラベルの項目に記憶する。なお、ユーザは、第1出力値の内容が妥当である場合において、第1文書ID、第1出力結果をそのままサーバ10へ送信し、サーバ10の文書処理部1042受信した第1文書ID、第1出力結果を、教師テーブル1017の教師文書ID、教師ラベルの項目に記憶する。
これにより、ユーザは第1出力結果を参考に、少ない作業負荷で教師データを作成することができる。第2処理は、第1出力結果をそのまま教師データとして用いた場合に比べ、ユーザにより作成および編集された教師データに基づき実行されるため、より品質が高い処理結果が期待される。
【0099】
なお、本開示においてはステップS105、S106において人工知能システム40から出力された第1出力結果に基づき、ユーザによる入力操作に応じて教師データを作成する例を一例として開示したがこれに限られない。例えば、第1特許文書に対する第1出力結果(第1出力値)をそのまま教師テーブル1017の教師ラベルの項目に記憶しても良い。この場合、ステップS105、S106を省略しても良い。
【0100】
<処理対象特定ステップ>
ステップS107において、サーバ10の文書処理部1042は、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第2特許文書を抽出する第2特許抽出ステップを実行する。
具体的に、サーバ10の文書処理部1042は、ステップS101において母集団テーブル1014に記憶された母集団データに含まれる複数の特許文書のすべてを第2特許文書として抽出する。
なお、サーバ10の文書処理部1042は、母集団データに含まれる複数の特許文書のうち、教師テーブル1017の教師文書IDの項目により特定される特許文書を除いて第2特許文書を特定しても良い。
同様に、サーバ10の文書処理部1042は、母集団データに含まれる複数の特許文書のうち、第1支援テーブル1015の第1文書IDの項目により特定される特許文書を除いて第2特許文書を特定しても良い。
その他、サーバ10の文書処理部1042は、複数の特許文書から、一部の特許文書(第1特許文書)を無作為(ランダム)に抽出し(サンプリングを行い)、第2特許文書としても構わない。なお、サンプリング処理については、ステップS102におけるサンプリングステップと同様の処理を実行しても構わない。詳細な説明は省略する。
【0101】
サーバ10の文書処理部1042は、抽出した1または複数の第2特許文書の1または複数の文書IDを、第2支援テーブル1016の新たなレコードの文書IDの項目に記憶する。これにより、第2出力値取得ステップの処理対象が第2支援テーブル1016のレコードに第1支援情報として記憶される。
【0102】
<学習処理>
ステップS108において、サーバ10の文書処理部1042は、分類モデル1051の学習処理を実行する。分類モデル1051の学習処理を以下に説明する。
【0103】
<分類モデル1051の学習処理>
分類モデル1051の学習処理は、分類モデル1051に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
【0104】
<分類モデル1051の学習処理の概要>
分類モデル1051の学習処理は、特許文書の文書内容(母集団情報のタスクIDを参照して、タスクマスタ1021の抽出項目に基づき抽出される抽出箇所としても良い、その他、特許請求の範囲、要約、発明の詳細な説明、実施例、実施形態等の任意の抽出箇所としても構わない)を入力データ(入力ベクトル)として、教師ラベル(第1出力結果)を出力データ(教師データ)となるように、分類モデル1051に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる処理である。
【0105】
<分類モデル1051の学習処理の詳細>
サーバ10の制御部104は、教師文書ID、教師ラベルを含む教師情報を教師テーブル1017から取得する。サーバ10の文書処理部1042は、教師文書IDに基づき、文書テーブル1013の文書IDの項目を検索し、文書内容を取得する。サーバ10の文書処理部1042は、タスクマスタ1021の抽出項目に基づき文書内容から抽出箇所を抽出することが好適である。つまり、ステップS104において第1出力値を取得した際の入力データと同じになるように、特許文書から所定の抽出箇所を抽出することが好適である。
サーバ10の制御部104は、文書内容、抽出箇所などを入力データ(入力ベクトル)として、教師ラベルを出力データ(教師データ)となるよう、学習データを作成する。
サーバ10の制御部104は、学習データに基づき、分類モデル1051のディープニューラルネットワークを学習させるための訓練データ、テストデータ、検証データなどのデータセットを作成する。
サーバ10の制御部104は、作成したデータセットに基づき分類モデル1051に含まれるディープニューラルネットワークの学習パラメータを深層学習により学習させる。
【0106】
<第2出力値取得ステップ>
ステップS108において、第2特許文書に基づく入力データを分類モデル1051に入力することにより、第2出力値を取得するステップを実行する。
本開示においては、一例として1の特許文書を入力した場合の処理を以下に説明する。なお、サーバ10の文書処理部1042は、第2特許文書に含まれる複数の特許文書のそれぞれに対して第2出力値取得ステップを実行する。
【0107】
<第2出力値取得ステップ(第一実施形態)>
ステップS108において、第2処理ステップは、分類モデルである学習モデルに、第2特許文書を入力することに応じて出力される第2特許文書の分類に関する第2分類情報を取得するステップを実行する。
第2処理ステップは、学習モデルに、第2特許文書を入力することに応じて出力される第2特許文書に含まれる1または複数の特許文書に対する分類の品質を示す第2品質情報を取得するステップを含み。
サーバ10の文書処理部1042は、第2処理ステップにおいて取得した第2品質情報が所定の条件を満たす場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を、第2分類情報と関連付けて記憶する第2分類記憶ステップを実行する。
具体的に、サーバ10の文書処理部1042は、母集団テーブル1014の対象レコードのタスクIDに基づき、タスクマスタ1021のタスクIDの項目を検索し、抽出項目の項目を取得する。サーバ10の文書処理部1042は、第2支援テーブル1016の対象レコードの第2文書IDに基づき、文書テーブル1013の文書IDの項目を検索し文書内容(特許請求の範囲、要約、発明の詳細な説明、実施例、実施形態などの特許文書の内容)を取得する。サーバ10の文書処理部1042は、取得した抽出項目に基づき、文書内容のうち所定の抽出箇所(抽出内容、部分文章)を抽出する。なお、抽出箇所の抽出は行わなくても構わない。
サーバ10の文書処理部1042は、文書内容または抽出箇所を分類モデル1051の入力データとして入力する。なお、サーバ10の文書処理部1042は、文書内容または抽出箇所に対して形態素解析などの処理を適用することにより抽出したキーワード等を分類モデル1051の入力データとして入力しても良い。
分類モデル1051は、入力データの入力に応じて、分類ラベル(文字列)および精度等の入力データを分類ラベルへ分類する際の分類処理の品質を示す指標(品質指標)を出力する。具体的に、精度とは、分類モデル1051がどの程度正確に分類ラベルを予測したかを示す指標である。精度とは、分類モデル1051が正しく予測したサンプルの数を全サンプル数で割ったものである。精度は0から1の間の値を取り、パーセンテージ(0%から100%)で表すことができる。分類処理の品質を示す指標は、混同行列(Confusion Matrix)、適合率(Precision)、再現率(Recall)、F1スコアなどを含む。
例えば、ある特定の特許文書Aに対して、分類モデル1051は、「分類ラベル:半導体技術(精度0.7)」などの第2出力値を出力する。
【0108】
ステップS108において、サーバ10の文書処理部1042は、第2処理ステップにおいて取得した第2品質情報が所定の条件を満たす場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶し、第2処理ステップにおいて取得した第2品質情報が所定の条件を満たさない場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶しない、
第2記憶ステップを実行する。
具体的に、サーバ10の文書処理部1042は第2特許文書に含まれる複数の特許文書のそれぞれに対して分類ラベル、品質指標を取得する。サーバ10の文書処理部1042は、品質指標を所定値である精度閾値と比較し、精度閾値以上の場合という条件を満たしている場合に、取得した分類ラベル、品質指標を、第2支援テーブル1016の処理対象の文書IDに基づき特定される特許文書のレコードの第2出力値、精度の項目に記憶する。
つまり、サーバ10の文書処理部1042は、分類モデル1051から出力された第2出力結果のすべてを第2支援テーブル1016に記憶せずに、品質指標が所定の条件を充足した第2出力結果のみを第2支援テーブル1016に記憶する。つまり、第2出力結果の品質指標が不十分な場合には、第2支援テーブル1016に記憶しない。この場合、2回目以降の文書処理において分類モデル1051の学習が十分に進むと第2出力結果の品質指標が十分な値となり、第2支援テーブル1016に記憶されることになる。
サーバ10の文書処理部1042は、第2支援テーブル1016に記憶されている第2支援情報のうち、品質指標が所定の条件を充足しない第2支援情報のレコード(第2文書IDのみが記憶されており、第2出力値、精度の値がブランク)を削除しても良い。
【0109】
<第2出力値取得ステップ(第二実施形態)>
ステップS108において、サーバ10の文書処理部1042は、第1処理ステップにおいて取得した第1出力結果に基づく情報を教師データとして学習させた学習モデルに、第2特許抽出ステップにおいて抽出した第2特許文書を入力することに応じて出力される第2出力結果を取得する第2処理ステップを実行する。
第2処理ステップは、教師データ作成ステップにおいて作成した教師データに基づき学習した学習モデルに、第2特許文書を入力することに応じて出力される第2出力結果を取得するステップを実行する。
第2処理ステップは、学習モデルに、第2特許文書を入力することに応じて出力される第2特許文書に含まれる1または複数の特許文書に対する処理の品質を示す第2品質情報を取得するステップを含む。
具体的に、本開示においては分類モデル1051により第2出力値が出力される事例を一例としたがこれに限られない。
例えば、分類モデル1051に代えて、特許文書の文書内容、抽出箇所の入力に応じて、対象特許との関連度、当該関連度に関する品質指標(精度等)を出力するスクリーニングモデルを用いても良い。この場合、スクリーニングモデルは、スクリーニングタスクの場合の回答内容(第1出力値)に基づく教師データを用いて学習される。スクリーニングモデルは、第2特許文書の特許文書の文書内容、抽出箇所の入力に応じて、対象特許との関連度と、当該関連度に関する品質指標(精度等)を出力する。例えば、ある特定の特許文書Aに対して、スクリーニングモデルは、「関連度:80%(精度0.7)」などの第2出力値を出力する。
例えば、分類モデル1051に代えて、特許文書の文書内容、抽出箇所の入力に応じて、対象製品との関連度、当該関連度に関する品質指標(精度等)を出力する該非判定モデルを用いても良い。この場合、該非判定モデルは、該非判定タスクの場合の回答内容(第1出力値)に基づく教師データを用いて学習される。該非判定モデルは、第2特許文書の特許文書の文書内容、抽出箇所の入力に応じて、対象製品との関連度と、当該関連度に関する品質指標(精度等)を出力する。例えば、ある特定の特許文書Aに対して、該非判定モデルは、「関連度:80%(精度0.7)」などの第2出力値を出力する。
例えば、分類モデル1051に代えて、特許文書の文書内容、抽出箇所の入力に応じて、対象発明の評価項目ごとの評価値(評価ランク)、評価項目ごとの評価値(評価ランク)に関する品質指標(精度等)を出力する発明評価モデルを用いても良い。この場合、発明評価モデルは、発明評価タスクの場合の回答内容(第1出力値)に基づく教師データを用いて学習される。発明評価モデルは、第2特許文書の特許文書の文書内容、抽出箇所の入力に応じて、評価項目ごとの評価値(評価ランク)と、当該関連度に関する品質指標(精度等)を出力する。例えば、ある特定の特許文書Aに対して、発明評価判定モデルは、「革新性:Aランク(精度0.7)、経済性:Bランク(精度0.6)、」などの第2出力値を出力する。
【0110】
<第2出力値取得ステップ(2回目以降)>
ステップS108において、第2記憶ステップは、母集団受付ステップにおいて受け付けた母集団情報が第1母集団情報である場合は、第2品質情報が第1条件を満たす場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶し、第2品質情報が第1条件を満たさない場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶しない、母集団受付ステップにおいて受け付けた母集団情報が第2母集団情報である場合は、第2品質情報が第2条件を満たす場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶し、第2品質情報が第2条件を満たさない場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶しない、ステップを含む。
具体的に、文書処理をステップS109まで実行した後に、再度ステップS108を実行する場合(2回目以降に実行される際)には、精度閾値を1回目の精度閾値Sと2回目の精度閾値Tとで異なる値としても良い。サーバ10の文書処理部1042は、第2特許文書に含まれる複数の特許文書に対して出力された第2出力結果のうち、精度閾値(S、T)に基づく第2条件を満たす第2出力結果を第2支援テーブル1016に記憶し、第2条件を満たさない第2出力結果を第2支援テーブル1016に記憶しないものとしても良い。
サーバ10の文書処理部1042は、第2支援テーブル1016に記憶されている第2支援情報のうち、第2出力結果が所定の条件を充足しない第2支援情報のレコード(第2文書IDのみが記憶されており、第2出力値、精度の値がブランク)を削除しても良い。
【0111】
サーバ10の文書処理部1042は、パラメータマスタ1022の適用条件の項目を検索し、精度閾値(S、T)を取得しても良い。例えば、文書処理の実行数を適用条件として、実行数に応じた精度閾値(S、T)を取得する構成とすることができる。例えば、文書処理の実行数(1回目、2回目など)を適用条件として、実行数に応じた精度閾値(S、T)を取得する構成とすることができる。
【0112】
例えば、第1条件は、第2条件を含むものとしても良い。例えば、第1条件にかかる精度閾値は0.5以上、第2条件にかかる精度閾値は0.7以上としても良い。
これにより、複数回にわたって第1処理、第2処理を実行する場合において、第2処理結果の品質に関する条件が徐々に厳しくなる。最終的に得られる処理品質を向上させることができる。
【0113】
例えば、第2条件は、第1条件を含むものとしても良い。例えば、第1条件にかかる精度閾値は0.7以上、第2条件にかかる精度閾値は0.5以上としても良い。
これにより、複数回にわたって第1処理、第2処理を実行する場合において、第2処理結果の品質に関する条件が徐々に緩くなる。トータルの処理時間を短縮したり処理費用を節約することができる。
【0114】
<未処理文書判定ステップ>
ステップS109において、サーバ10の文書処理部1042は、ステップS101において受け付けた母集団に含まれる特許文書のうち、第1出力結果、教師データ、または、第2出力結果と関連付けられて記憶されていない特許文書の有無を判定する未処理文書判定ステップを実行する。
具体的に、サーバ10の文書処理部1042は、ステップS101において母集団テーブル1014に記憶された母集団データに含まれる複数の特許文書の文書IDに基づき、第2支援テーブル1016の第2文書IDの項目を検索し、取得する。このとき、第2支援テーブル1016において第2出力値の項目に値が記憶されているレコードのみを検索対象とする。
サーバ10の文書処理部1042は、母集団データに含まれる複数の特許文書の文書IDと、取得した第2文書IDとを比較し、母集団データに含まれる複数の特許文書の文書IDのすべてが取得した第2文書IDに含まれている場合に、未処理文書が存在しないものと判定する。
サーバ10の文書処理部1042は、教師テーブル1017の教師文書IDの項目を取得し、母集団データに含まれる複数の特許文書の文書IDと、取得した第2文書IDおよび教師文書IDとを比較し、母集団データに含まれる複数の特許文書の文書IDのすべてが取得した第2文書IDおよび教師文書IDに含まれている場合に、未処理文書が存在しないものと判定しても良い。つまり、教師ラベルが付与されている特許文書は、未処理文書の判定対象から除外しても良い。
サーバ10の文書処理部1042は、第1支援テーブル1015の第1文書IDの項目を取得し、母集団データに含まれる複数の特許文書の文書IDと、取得した第2文書IDおよび第1文書IDとを比較し、母集団データに含まれる複数の特許文書の文書IDのすべてが取得した第2文書IDおよび第1文書IDに含まれている場合に、未処理文書が存在しないものと判定しても良い。つまり、第1支援テーブル1015に第1出力値が記憶されている特許文書は、未処理文書の判定対象から除外しても良い。
【0115】
ステップS109において、サーバ10の文書処理部1042は、未処理文書が存在しないものと判定した場合はステップS110に進む。一方、未処理文書が存在すると判定した場合はステップS101から改めて文書処理(2回目以降)が実行される。具体的に、ステップS101において母集団作成ステップ(2回目以降)が実行される。
つまり、サーバ10の文書処理部1042は、文書作成処理において未処理文書が存在する限りステップS101~S109までの各ステップは自動的に反復的に実行する(iterateする)。
【0116】
<終了ステップ>
ステップS110において、サーバ10の文書処理部1042は、母集団受付ステップにおいて受け付けた母集団情報のうち、第1記憶ステップにおいて第1出力結果に基づく情報と関連付けて記憶された1または複数の特許文書と、第2記憶ステップにおいて第2出力結果と関連付けて記憶された1または複数の特許文書と、を除く特許文書が存在しない場合に処理を終了する処理終了ステップを実行する。
これにより、母集団受付ステップにおいて受け付けた母集団に含まれるすべての特許文書に対して第1処理結果に基づく情報(教師データ)、第2処理結果とが関連付けて記憶されるまで、第1処理および第2処理等が反復的に実行される。
サーバ10の文書処理部1042は、文書処理のステップS101~S109を反復的に実行することにより、母集団データに含まれるすべての特許文書に対する処理結果が、教師テーブル1017、第2支援テーブル1016、第1支援テーブル1015に記憶される。
本開示の文書処理により、多量の教師データを用意することなしに、少量の教師データ、または、教師データなしに複数の特許文書を含む母集団に対して好適な処理を適用することができる。大規模言語モデルを用いた第1処理は、第2処理に比べて高価かつ時間がかかる傾向にある。本開示により、母集団に含まれる全ての特許文書に対して第1処理を適用する必要がないため、処理時間および処理費用を節約することができる。
【0117】
<コンピュータの基本ハードウェア構成>
図14は、コンピュータ90の基本的なハードウェア構成を示すブロック図である。コンピュータ90は、プロセッサ901、主記憶装置902、補助記憶装置903、通信IF991(インタフェース、Interface)を少なくとも備える。これらは通信バス921により相互に電気的に接続される。
【0118】
プロセッサ901とは、プログラムに記述された命令セットを実行するためのハードウェアである。プロセッサ901は、演算装置、レジスタ、周辺回路等から構成される。
【0119】
主記憶装置902とは、プログラム、及びプログラム等で処理されるデータ等を一時的に記憶するためのものである。例えば、DRAM(Dynamic Random Access Memory)等の揮発性のメモリである。
【0120】
補助記憶装置903とは、データ及びプログラムを保存するための記憶装置である。例えば、フラッシュメモリ、HDD(Hard Disc Drive)、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等である。
【0121】
通信IF991とは、有線又は無線の通信規格を用いて、他のコンピュータとネットワークを介して通信するための信号を入出力するためのインタフェースである。
ネットワークは、インターネット、LAN、無線基地局等によって構築される各種移動通信システム等で構成される。例えば、ネットワークには、3G、4G、5G移動通信システム、LTE(Long Term Evolution)、所定のアクセスポイントによってインターネットに接続可能な無線ネットワーク(例えばWi-Fi(登録商標))等が含まれる。無線で接続する場合、通信プロトコルとして例えば、Z-Wave(登録商標)、ZigBee(登録商標)、Bluetooth(登録商標)等が含まれる。有線で接続する場合は、ネットワークには、USB(Universal Serial Bus)ケーブル等により直接接続するものも含む。
【0122】
なお、各ハードウェア構成の全部または一部を複数のコンピュータ90に分散して設け、ネットワークを介して相互に接続することによりコンピュータ90を仮想的に実現することができる。このように、コンピュータ90は、単一の筐体、ケースに収納されたコンピュータ90だけでなく、仮想化されたコンピュータシステムも含む概念である。
【0123】
<コンピュータ90の基本機能構成>
コンピュータ90の基本ハードウェア構成(
図14)により実現されるコンピュータの機能構成を説明する。コンピュータは、制御部、記憶部、通信部の機能ユニットを少なくとも備える。
【0124】
なお、コンピュータ90が備える機能ユニットは、それぞれの機能ユニットの全部または一部を、ネットワークで相互に接続された複数のコンピュータ90に分散して設けても実現することができる。コンピュータ90は、単一のコンピュータ90だけでなく、仮想化されたコンピュータシステムも含む概念である。
【0125】
制御部は、プロセッサ901が補助記憶装置903に記憶された各種プログラムを読み出して主記憶装置902に展開し、当該プログラムに従って処理を実行することにより実現される。制御部は、プログラムの種類に応じて様々な情報処理を行う機能ユニットを実現することができる。これにより、コンピュータは情報処理を行う情報処理装置として実現される。
【0126】
記憶部は、主記憶装置902、補助記憶装置903により実現される。記憶部は、データ、各種プログラム、各種データベースを記憶する。また、プロセッサ901は、プログラムに従って記憶部に対応する記憶領域を主記憶装置902または補助記憶装置903に確保することができる。また、制御部は、各種プログラムに従ってプロセッサ901に、記憶部に記憶されたデータの追加、更新、削除処理を実行させることができる。
【0127】
データベースは、リレーショナルデータベースを指し、行と列によって構造的に規定された表形式のテーブル、マスタと呼ばれるデータ集合を、互いに関連づけて管理するためのものである。データベースでは、表をテーブル、マスタ、表の列をカラム、表の行をレコードと呼ぶ。リレーショナルデータベースでは、テーブル、マスタ同士の関係を設定し、関連づけることができる。
通常、各テーブル、各マスタにはレコードを一意に特定するための主キーとなるカラムが設定されるが、カラムへの主キーの設定は必須ではない。制御部は、各種プログラムに従ってプロセッサ901に、記憶部に記憶された特定のテーブル、マスタにレコードを追加、削除、更新を実行させることができる。
また、記憶部に、データ、各種プログラム、各種データベースを記憶させることにより、本開示にかかる情報処理装置、情報処理システムが製造されたものとして捉えることができる。
【0128】
なお、本開示におけるデータベース、マスタは、情報が構造的に規定された任意のデータ構造体(リスト、辞書、連想配列、オブジェクトなど)を含み得る。データ構造体には、データと、任意のプログラミング言語により記述された関数、クラス、メソッドなどを組み合わせることにより、データ構造体と見なし得るデータも含むものとする。
【0129】
通信部は、通信IF991により実現される。通信部は、ネットワークを介して他のコンピュータ90と通信を行う機能を実現する。通信部は、他のコンピュータ90から送信された情報を受信し、制御部へ入力することができる。制御部は、各種プログラムに従ってプロセッサ901に、受信した情報に対する情報処理を実行させることができる。また、通信部は、制御部から出力された情報を他のコンピュータ90へ送信することができる。
【0130】
<付記>
以上の各実施形態で説明した事項を以下に付記する。
【0131】
(付記1)
プロセッサと、記憶部とを備えるコンピュータに実行させるためのプログラムであって、プロセッサが、複数の特許文書を含む母集団に関する母集団情報を受け付ける母集団受付ステップ(S101)と、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第1特許文書を抽出する第1特許抽出ステップ(S102)と、大規模言語モデルに、第1特許抽出ステップにおいて抽出した第1特許文書を含むプロンプトを入力することに応じて出力される第1出力結果を取得する第1処理ステップ(S104)と、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第2特許文書を抽出する第2特許抽出ステップ(S107)と、第1処理ステップにおいて取得した第1出力結果に基づく情報を教師データとして学習させた学習モデルに、第2特許抽出ステップにおいて抽出した第2特許文書を入力することに応じて出力される第2出力結果を取得する第2処理ステップ(S108)と、を実行するプログラム。
これにより、多量の教師データを用意することなしに、少量の教師データ、または、教師データなしに複数の特許文書を含む母集団に対して好適な処理を適用することができる。
大規模言語モデルを用いた第1処理は、第2処理に比べて高価かつ時間がかかる傾向にある。母集団に含まれる全ての特許文書に対して第1処理を適用する必要がないため、処理時間および処理費用を節約することができる。
【0132】
(付記2)
第2処理ステップ(S108)は、学習モデルに、第2特許文書を入力することに応じて出力される第2特許文書に含まれる1または複数の特許文書に対する処理の品質を示す第2品質情報を取得するステップを含み、プロセッサが、第2処理ステップにおいて取得した第2品質情報が所定の条件を満たす場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶し、第2処理ステップにおいて取得した第2品質情報が所定の条件を満たさない場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶しない、第2記憶ステップ(S108)と、を実行する、付記1記載のプログラム。
これにより、第1出力結果に基づく情報を教師データとして、第2特許文書に対して処理を実行することができる。学習モデルによる第2処理結果の品質が好適なもののみを、第2特許文書に関連付けて記憶することができる。
【0133】
(付記3)
母集団受付ステップ(S101)は、第1母集団に関する第1母集団情報を受け付けるステップと、第1母集団情報から、第2記憶ステップにおいて第2出力結果と関連付けて記憶された1または複数の特許文書を除いた1または複数の特許文書を含む第2母集団に関する第2母集団情報を受け付けるステップと、を含む、付記2記載のプログラム。
これにより、学習モデルによる第2処理結果の品質が好適ではない特許文書に対して改めて第1処理及び第2処理を実行することができる。
最初に与えた母集団から、第2処理結果の品質が好適である特許文書は徐々に除かれていくため、最初に与えた母集団に含まれる複数の特許文書に対して徐々に第1処理、第2処理を適用することができる。
母集団に対して可能な限り第2処理を適用することにより、第1処理の適用を抑制することができる。
【0134】
(付記4)
プロセッサが、第1特許抽出ステップにおいて抽出した第1特許文書の少なくとも一部または全部を第1出力結果に基づく情報と関連付けて記憶する第1記憶ステップ(S106)と、を実行し、母集団受付ステップ(S101)は、第1母集団に関する第1母集団情報を受け付けるステップと、第1母集団情報から、第1記憶ステップにおいて第1出力結果に基づく情報と関連付けて記憶された1または複数の特許文書と、第2記憶ステップにおいて第2出力結果と関連付けて記憶された1または複数の特許文書と、を除いた1または複数の特許文書を含む第2母集団に関する第2母集団情報を受け付けるステップと、を含む、付記2記載のプログラム。
これにより、第1出力結果または第1出力結果に基づき教師データが与えられた特許文書と、第2処理結果の品質が好適である特許文書と、を除く特許文書に対して改めて第1処理および第2処理を実行することができる。
最初に与えた母集団から、教師データが与えられた、または、第2処理結果の品質が好適である特許文書は徐々に除かれていくため、最初に与えた母集団に含まれる複数の特許文書に対して徐々に第1処理、第2処理を適用することができる。
母集団に対して可能な限り第2処理を適用することにより、第1処理の適用を抑制することができる。
【0135】
(付記5)
第1特許抽出ステップ(S102)は、第1母集団情報から、第1割合に応じた数の第1特許文書を抽出するステップと、第2母集団情報から、第2割合に応じた数の第1特許文書を抽出するステップと、を含む、付記3記載のプログラム。
これにより、複数回にわたって第1処理、第2処理を実行する場合において、第1特許文書の抽出割合を制御することができる。
処理の収束性を制御することにより処理のトータル時間を短縮したり、第1処理を適用する特許文書の割合を減らすことにより処理費用を節約することができる。
【0136】
(付記6)
第2割合は、第1割合よりも大きい、付記5記載のプログラム。
例えば、第2処理結果の品質が好適ではない特許文書が多い場合には、処理の収束性が悪いことが考えられる。第2割合を第1割合より大きくすると、母集団のうち大規模言語モデルにより処理される特許文書の割合が増えることから、第2処理に用いる教師データを増加させることができ、第2処理結果の品質が好適ではない特許文書の割合を減らすことができる。これにより、本開示における処理の処理回数を減らすことにより、トータルの処理時間を短縮させることができる場合がある。
【0137】
(付記7)
第2割合は、第1割合よりも小さい、付記5記載のプログラム。
第2割合を第1割合より小さくすると、母集団のうち大規模言語モデルにより処理される特許文書の割合が減ることから、第1処理に伴う処理費用を節約することができる。
【0138】
(付記8)
第2記憶ステップ(S108)は、母集団受付ステップにおいて受け付けた母集団情報が第1母集団情報である場合は、第2品質情報が第1条件を満たす場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶し、第2品質情報が第1条件を満たさない場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶しない、母集団受付ステップにおいて受け付けた母集団情報が第2母集団情報である場合は、第2品質情報が第2条件を満たす場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶し、第2品質情報が第2条件を満たさない場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を第2出力結果と関連付けて記憶しない、ステップを含む、付記3記載のプログラム。
これにより、複数回にわたって第1処理、第2処理を実行する場合において、第2処理結果の品質が好適であるか否かの条件をを制御することができる。
例えば、条件をより緩くすることにより、処理のトータルの処理時間を短縮したり処理費用を節約することができる。一方、条件を厳しくすることにより、処理品質を向上させることができる。
【0139】
(付記9)
第1条件は、第2条件を含む、付記8記載のプログラム。
これにより、複数回にわたって第1処理、第2処理を実行する場合において、第2処理結果の品質に関する条件が徐々に厳しくなる。最終的に得られる処理品質を向上させることができる。
【0140】
(付記10)
第2条件は、第1条件を含む、付記8記載のプログラム。
これにより、複数回にわたって第1処理、第2処理を実行する場合において、第2処理結果の品質に関する条件が徐々に緩くなる。トータルの処理時間を短縮したり処理費用を節約することができる。
【0141】
(付記11)
プロセッサが、母集団受付ステップにおいて受け付けた母集団情報のうち、第1記憶ステップにおいて第1出力結果に基づく情報と関連付けて記憶された1または複数の特許文書と、第2記憶ステップにおいて第2出力結果と関連付けて記憶された1または複数の特許文書と、を除く特許文書が存在しない場合に処理を終了する処理終了ステップ(S110)と、を実行する、付記4記載のプログラム。
これにより、母集団受付ステップにおいて受け付けた母集団に含まれるすべての特許文書に対して第1処理結果に基づく情報、第2処理結果とが関連付けて記憶されるまで、第1処理および第2処理等が反復的に実行される。
【0142】
(付記12)
第1処理ステップ(S104)は、大規模言語モデルに、第1特許文書および分類ルールが規定された分類定義文章を含むプロンプトを入力することに応じて出力される第1特許文書の分類に関する第1分類情報を取得するステップであり、第2処理ステップ(S108)は、分類モデルである学習モデルに、第2特許文書を入力することに応じて出力される第2特許文書の分類に関する第2分類情報を取得するステップである、付記1記載のプログラム。
これにより、多量の教師データを用意することなしに、少量の教師データ、または、教師データなしに複数の特許文書を含む母集団に含まれる複数の特許文書を分類することができる。
大規模言語モデルを用いた第1処理は、第2処理に比べて高価かつ時間がかかる傾向にある。母集団に含まれる全ての特許文書に対して第1処理を適用する必要がないため、処理時間および処理費用を節約することができる。
【0143】
(付記13)
プロセッサが、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書のうち、第3特許文書を抽出する第3特許抽出ステップ(S103)と、大規模言語モデルに、第3特許抽出ステップにおいて抽出した第3特許文書および分類観点が規定された分類観点文章を含むプロンプト入力することに応じて出力される第3特許文書の分類観点に関する分類観点情報を取得する分類観点取得ステップ(S103)と、大規模言語モデルに、分類観点取得ステップにおいて取得した分類観点情報を含むプロンプトを入力することに応じて出力される、第3特許文書に関する分類観点情報を大括り化することにより得られる分類定義文章を取得する分類定義取得ステップ(S103)と、を実行し、第1処理ステップ(S104)は、分類定義取得ステップにおいて取得した分類定義文章に基づき第1分類情報を取得するステップである、付記12記載のプログラム。
これにより、分類定義を用意することなしに、複数の特許文書を含む母集団に含まれる複数の特許文書を分類することができる。
【0144】
(付記14)
第2処理ステップ(S108)は、学習モデルに、第2特許文書を入力することに応じて出力される第2特許文書に含まれる1または複数の特許文書に対する分類の品質を示す第2品質情報を取得するステップを含み、プロセッサが、第2処理ステップにおいて取得した第2品質情報が所定の条件を満たす場合に、第2特許文書に含まれる1または複数の特許文書の少なくとも一部を、第2分類情報と関連付けて記憶する第2分類記憶ステップ(S108)と、を実行する、付記12記載のプログラム。
これにより、第1出力結果に基づく情報を教師データとして、第2特許文書を分類することができる。分類モデルによる分類の品質が好適なもののみを、第2特許文書に関連付けて記憶することができる。
【0145】
(付記15)
プロセッサが、第1処理ステップにおいて取得した第1出力結果をユーザに提示する第1提示ステップ(S105)と、ユーザから、第1提示ステップにおいて提示した第1出力結果に対する入力操作を受け付け、当該入力操作に応じて第1特許文書に関する教師データを作成する教師データ作成ステップ(S106)と、を実行し、第2処理ステップ(S108)は、教師データ作成ステップにおいて作成した教師データに基づき学習した学習モデルに、第2特許文書を入力することに応じて出力される第2出力結果を取得するステップである、付記1記載のプログラム。
これにより、ユーザは第1出力結果を参考に少ない作業負荷で教師データを作成することができる。第2処理は、第1出力結果をそのまま教師データとして用いた場合に比べ、ユーザにより作成および編集された教師データに基づき実行されるため、より品質が高い処理結果が期待される。
【0146】
(付記16)
第1特許抽出ステップ(S102)は、母集団受付ステップにおいて受け付けた母集団に含まれる複数の特許文書を複数のグループに分けるステップと、複数のグループのそれぞれから、1または複数の特許文書を第1特許文書として抽出するステップと、を含む、付記1記載のプログラム。
これにより、母集団に含まれる特許文書の内容に偏りが合った場合においても、グループごとに所定数の特許文書をサンプリングすることにより、母集団に含まれる特許文書の表現空間の全域にわたってバランス良く第1処理を適用することができる。例えば、ユーザは、母集団に含まれる特許文書の表現空間の全域にわたってバランス良く教師データを準備することができる。これにより、第2処理を品質良く行うことができるとともに、処理時間や処理費用を節約することができる。
グループごとに抽出する第1特許文書の件数は所定の定まった数でも良いし、グループに含まれる特許文書の件数や、グループごとの件数割合に応じた所定数の第1特許文書を抽出する構成としても良い。
【0147】
(付記17)
プロセッサと、メモリとを備えるコンピュータに実行される方法であって、プロセッサが、付記1から付記16のいずれかに係る発明において実行される全てのステップを実行する方法。
これにより、多量の教師データを用意することなしに、少量の教師データ、または、教師データなしに複数の特許文書を含む母集団に対して好適な処理を適用することができる。
大規模言語モデルを用いた第1処理は、第2処理に比べて高価かつ時間がかかる傾向にある。母集団に含まれる全ての特許文書に対して第1処理を適用する必要がないため、処理時間および処理費用を節約することができる。
【0148】
(付記18)
制御部と、記憶部とを備える情報処理装置であって、制御部が、付記1から付記16のいずれかに係る発明において実行される全てのステップを実行する情報処理装置。
これにより、多量の教師データを用意することなしに、少量の教師データ、または、教師データなしに複数の特許文書を含む母集団に対して好適な処理を適用することができる。
大規模言語モデルを用いた第1処理は、第2処理に比べて高価かつ時間がかかる傾向にある。母集団に含まれる全ての特許文書に対して第1処理を適用する必要がないため、処理時間および処理費用を節約することができる。
【0149】
(付記19)
付記1から付記16のいずれかに係る発明において実行される全てのステップを実行する手段を備えるシステム。
これにより、多量の教師データを用意することなしに、少量の教師データ、または、教師データなしに複数の特許文書を含む母集団に対して好適な処理を適用することができる。
大規模言語モデルを用いた第1処理は、第2処理に比べて高価かつ時間がかかる傾向にある。母集団に含まれる全ての特許文書に対して第1処理を適用する必要がないため、処理時間および処理費用を節約することができる。
【符号の説明】
【0150】
1 システム、10 サーバ、101 記憶部、104 制御部、106 入力装置、108 出力装置、20 ユーザ端末、201 記憶部、204 制御部、206 入力装置、208 出力装置、40 人工知能システム、401 記憶部、404 制御部、406 入力装置、408 出力装置
【要約】 (修正有)
【課題】特許に対して深層学習モデルにより処理をさせる際に多量の教師データを用意するプログラム、方法、情報処理装置及びシステムを提供する。
【解決手段】方法は、複数の特許文書を含む母集団に関する母集団情報を受け付け、受け付けた母集団に含まれる複数の特許文書のうち、第1特許文書を抽出する第1特許抽出ステップと、大規模言語モデルに、第1特許抽出ステップにおいて抽出した第1特許文書を含むプロンプトを入力することに応じて出力される第1出力結果を取得する第1処理ステップと、受け付けた母集団に含まれる複数の特許文書のうち、第2特許文書を抽出する第2特許抽出ステップと、第1処理ステップにおいて取得した第1出力結果に基づく情報を教師データとして学習させた学習モデルに、第2特許抽出ステップにおいて抽出した第2特許文書を入力することに応じて出力される第2出力結果を取得する第2処理ステップと、を含む。
【選択図】
図12