特許7564914 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 楽天株式会社の特許一覧

特許7564914大規模言語モデルを利用した知的財産業務支援システム、方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2024-10-01

(45)【発行日】2024-10-09

(54)【発明の名称】大規模言語モデルを利用した知的財産業務支援システム、方法、およびプログラム

(51)【国際特許分類】

G06Q 50/18 20120101AFI20241002BHJP

【ＦＩ】

G06Q50/18 310

【請求項の数】 20

(21)【出願番号】P 2023097046

(22)【出願日】2023-06-13

【審査請求日】2023-06-13

(73)【特許権者】

【識別番号】399037405

【氏名又は名称】楽天グループ株式会社

(74)【代理人】

【識別番号】110000154

【氏名又は名称】弁理士法人はるか国際特許事務所

(72)【発明者】

【氏名】橋本修一郎

(72)【発明者】

【氏名】橋本力

(72)【発明者】

【氏名】カマーゴータム

【審査官】加内慎也

(56)【参考文献】

【文献】特許第７１９３８９０（ＪＰ，Ｂ２）

【文献】特開２０２０－００９３３０（ＪＰ，Ａ）

【文献】特開２０２０－０９５６５３（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｑ１０／００－９９／００

(57)【特許請求の範囲】

【請求項1】

【請求項2】

【請求項3】

特許出願または実用新案登録出願の書類であって、訓練用の前記書類の少なくとも一部に関する第１入力部分と、当該少なくとも一部がクレームアップされた方がよいか否かに関する第１出力部分と、を含む第１訓練データが再学習された第１モデルに、推定用の前記書類の少なくとも一部を入力する第１入力部と、
前記第１モデルから、前記推定用の書類に含まれるテキストの各部分に対応付けて、当該部分がクレームアップされた方がよいか否かに関する第１出力を取得する第１出力取得部と、
前記訓練用の書類に対応する明細書または図面の少なくとも一部のテキストに関する第２入力部分と、当該少なくとも一部のテキストにクレームアップされた方がよい発明または考案に関する特徴が記載されているか否かに関する第２出力部分と、を含む第２訓練データが再学習された第２モデルに、前記推定用の書類に対応する明細書または図面の少なくとも一部のテキストを入力する第２入力部と、
前記第２モデルから、前記推定用の書類に対応する明細書または図面の少なくとも一部のテキストの各部分に対応付けて、当該部分にクレームアップされた方がよい発明または考案に関する特徴が記載されているか否かに関する第２出力を取得する第２出力取得部と、
前記訓練用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記訓練用の書類に対応するクレームの少なくとも一部と、に関する第３入力部分と、当該少なくとも一部のテキストの内容が既にクレームアップされているか否かに関する第３出力部分と、を含む第３訓練データが再学習された第３モデルに、前記推定用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記推定用の書類に対応するクレームの少なくとも一部と、を入力する第３入力部と、
前記第３モデルから、前記推定用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記推定用の書類に対応するクレームの少なくとも一部と、の各部分に対応付けて、当該部分のテキストの内容が既にクレームアップされているか否かに関する第３出力を取得する第３出力取得部と、
前記第１出力部分、前記第２出力部分、および前記第３出力部分を含む第４入力部分と、前記訓練用の書類の少なくとも一部がクレームアップされた方がよいか否かに関する第４出力部分と、を含む第４訓練データが学習された第４モデルに、前記第１出力、前記第２出力、および前記第３出力の各々を入力する第４入力部と、
前記第４モデルから、前記推定用の書類に含まれるテキストの各部分に対応付けて、当該部分がクレームアップされた方がよいか否かに関する第４出力を取得する第４出力取得部と、
前記第４出力に基づいて、前記推定用の書類に含まれるテキストのうちクレームアップの対象となるテキストを決定し、当該クレームアップの対象となるテキストをユーザに推薦することで知的財産業務を支援する業務支援部と、
を含む大規模言語モデルを利用した知的財産業務支援システム。

【請求項4】

【請求項5】

特許出願または実用新案登録出願の書類であって、訓練用の前記書類の少なくとも一部に関する第１入力部分と、当該少なくとも一部がクレームアップされた方がよいか否かに関する第１出力部分と、を含む第１訓練データが再学習された第１モデルに、推定用の前記書類の少なくとも一部を入力する第１入力部と、
前記第１モデルから、前記推定用の書類に含まれるテキストの各部分に対応付けて、当該部分がクレームアップされた方がよいか否かに関する第１出力を取得する第１出力取得部と、
前記訓練用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記訓練用の書類に対応するクレームの少なくとも一部と、に関する第３入力部分と、当該少なくとも一部のテキストの内容が既にクレームアップされているか否かに関する第３出力部分と、を含む第３訓練データが再学習された第３モデルに、前記推定用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記推定用の書類に対応するクレームの少なくとも一部と、を入力する第３入力部と、
前記第３モデルから、前記推定用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記推定用の書類に対応するクレームの少なくとも一部と、の各部分に対応付けて、当該部分のテキストの内容が既にクレームアップされているか否かに関する第３出力を取得する第３出力取得部と、
前記第１出力部分および前記第３出力部分を含む第４入力部分と、前記訓練用の書類の少なくとも一部がクレームアップされた方がよいか否かに関する第４出力部分と、を含む第４訓練データが学習された第４モデルに、前記第１出力および前記第３出力の各々を入力する第４入力部と、
前記第４モデルから、前記推定用の書類に含まれるテキストの各部分に対応付けて、当該部分がクレームアップされた方がよいか否かに関する第４出力を取得する第４出力取得部と、
前記第４出力に基づいて、前記推定用の書類に含まれるテキストのうちクレームアップの対象となるテキストを決定し、当該クレームアップの対象となるテキストをユーザに推薦することで知的財産業務を支援する業務支援部と、
を含む大規模言語モデルを利用した知的財産業務支援システム。

【請求項6】

前記知的財産業務支援システムは、
前記推定用の書類の少なくとも一部と、前記第１出力と、に基づいて、新たな訓練データを生成する生成部と、
前記新たな訓練データに基づいて、少なくとも前記第１モデルの再学習をさらに実行する学習部と、
を更に含む請求項１～５の何れかに記載の大規模言語モデルを利用した知的財産業務支援システム。

【請求項7】

前記訓練用の書類は、訓練用の分割出願の書類であり、
前記第３入力部分は、前記訓練用の分割出願に対応する訓練用の原出願のクレームの少なくとも一部も含み、
前記第３出力部分は、前記訓練用の書類の少なくとも一部が前記訓練用の原出願で既にクレームアップされているか否かを示し、
前記推定用の書類は、推定用の分割出願の書類であり、
前記第３入力部は、前記第３モデルに、前記推定用の分割出願に対応する推定用の原出願のクレームの少なくとも一部も入力する、
請求項２に記載の大規模言語モデルを利用した知的財産業務支援システム。

【請求項8】

前記訓練用の分割出願には、前記訓練用の原出願を含む複数の訓練用の他の出願が存在し、
前記第３出力部分は、前記訓練用の書類の少なくとも一部が前記複数の訓練用の他の出願の各々で既にクレームアップされているか否かを示し、
前記推定用の分割出願には、前記推定用の原出願を含む複数の推定用の他の出願が存在し、
前記第３入力部は、前記第３モデルに、前記複数の推定用の他の出願の各々のクレームの少なくとも一部も入力する、
請求項７に記載の大規模言語モデルを利用した知的財産業務支援システム。

【請求項9】

前記第１入力部分は、クレームアップに関する訓練用の技術内容も含み、
前記知的財産業務支援システムは、クレームアップに関する推定用の技術内容の入力を受け付ける受付部を更に含み、
前記第１入力部は、前記第１モデルに、前記推定用の技術内容も入力し、
前記第１出力取得部は、前記第１モデルから、前記推定用の書類の少なくとも一部と、前記推定用の技術内容と、に対応する前記第１出力を取得する、
請求項１～５の何れかに記載の大規模言語モデルを利用した知的財産業務支援システム。

【請求項10】

前記第１入力部分は、前記訓練用の書類に対応する訓練用の経過情報も含み、
前記第１入力部は、前記第１モデルに、前記推定用の書類に対応する推定用の経過情報も入力し、
前記第１出力取得部は、前記第１モデルから、前記推定用の書類の少なくとも一部と、前記推定用の経過情報と、に対応する前記第１出力を取得する、
請求項１～５の何れかに記載の大規模言語モデルを利用した知的財産業務支援システム。

【請求項11】

【請求項12】

【請求項13】

コンピュータが、
特許出願または実用新案登録出願の書類であって、訓練用の前記書類の少なくとも一部に関する第１入力部分と、当該少なくとも一部がクレームアップされた方がよいか否かに関する第１出力部分と、を含む第１訓練データが再学習された第１モデルに、推定用の前記書類の少なくとも一部を入力する第１入力ステップと、
前記第１モデルから、前記推定用の書類に含まれるテキストの各部分に対応付けて、当該部分がクレームアップされた方がよいか否かに関する第１出力を取得する第１出力取得ステップと、
前記訓練用の書類に対応する明細書または図面の少なくとも一部のテキストに関する第２入力部分と、当該少なくとも一部のテキストにクレームアップされた方がよい発明または考案に関する特徴が記載されているか否かに関する第２出力部分と、を含む第２訓練データが再学習された第２モデルに、前記推定用の書類に対応する明細書または図面の少なくとも一部のテキストを入力する第２入力ステップと、
前記第２モデルから、前記推定用の書類に対応する明細書または図面の少なくとも一部のテキストの各部分に対応付けて、当該部分にクレームアップされた方がよい発明または考案に関する特徴が記載されているか否かに関する第２出力を取得する第２出力取得ステップと、
前記訓練用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記訓練用の書類に対応するクレームの少なくとも一部と、に関する第３入力部分と、当該少なくとも一部のテキストの内容が既にクレームアップされているか否かに関する第３出力部分と、を含む第３訓練データが再学習された第３モデルに、前記推定用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記推定用の書類に対応するクレームの少なくとも一部と、を入力する第３入力ステップと、
前記第３モデルから、前記推定用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記推定用の書類に対応するクレームの少なくとも一部と、の各部分に対応付けて、当該部分のテキストの内容が既にクレームアップされているか否かに関する第３出力を取得する第３出力取得ステップと、
前記第１出力部分、前記第２出力部分、および前記第３出力部分を含む第４入力部分と、前記訓練用の書類の少なくとも一部がクレームアップされた方がよいか否かに関する第４出力部分と、を含む第４訓練データが学習された第４モデルに、前記第１出力、前記第２出力、および前記第３出力の各々を入力する第４入力ステップと、
前記第４モデルから、前記推定用の書類に含まれるテキストの各部分に対応付けて、当該部分がクレームアップされた方がよいか否かに関する第４出力を取得する第４出力取得ステップと、
前記第４出力に基づいて、前記推定用の書類に含まれるテキストのうちクレームアップの対象となるテキストを決定し、当該クレームアップの対象となるテキストをユーザに推薦することで知的財産業務を支援する業務支援ステップと、
を実行する方法。

【請求項14】

【請求項15】

コンピュータが、
特許出願または実用新案登録出願の書類であって、訓練用の前記書類の少なくとも一部に関する第１入力部分と、当該少なくとも一部がクレームアップされた方がよいか否かに関する第１出力部分と、を含む第１訓練データが再学習された第１モデルに、推定用の前記書類の少なくとも一部を入力する第１入力ステップと、
前記第１モデルから、前記推定用の書類に含まれるテキストの各部分に対応付けて、当該部分がクレームアップされた方がよいか否かに関する第１出力を取得する第１出力取得ステップと、
前記訓練用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記訓練用の書類に対応するクレームの少なくとも一部と、に関する第３入力部分と、当該少なくとも一部のテキストの内容が既にクレームアップされているか否かに関する第３出力部分と、を含む第３訓練データが再学習された第３モデルに、前記推定用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記推定用の書類に対応するクレームの少なくとも一部と、を入力する第３入力ステップと、
前記第３モデルから、前記推定用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記推定用の書類に対応するクレームの少なくとも一部と、の各部分に対応付けて、当該部分のテキストの内容が既にクレームアップされているか否かに関する第３出力を取得する第３出力取得ステップと、
前記第１出力部分および前記第３出力部分を含む第４入力部分と、前記訓練用の書類の少なくとも一部がクレームアップされた方がよいか否かに関する第４出力部分と、を含む第４訓練データが学習された第４モデルに、前記第１出力および前記第３出力の各々を入力する第４入力ステップと、
前記第４モデルから、前記推定用の書類に含まれるテキストの各部分に対応付けて、当該部分がクレームアップされた方がよいか否かに関する第４出力を取得する第４出力取得ステップと、
前記第４出力に基づいて、前記推定用の書類に含まれるテキストのうちクレームアップの対象となるテキストを決定し、当該クレームアップの対象となるテキストをユーザに推薦することで知的財産業務を支援する業務支援ステップと、
を実行する方法。

【請求項16】

【請求項17】

【請求項18】

特許出願または実用新案登録出願の書類であって、訓練用の前記書類の少なくとも一部に関する第１入力部分と、当該少なくとも一部がクレームアップされた方がよいか否かに関する第１出力部分と、を含む第１訓練データが再学習された第１モデルに、推定用の前記書類の少なくとも一部を入力する第１入力部、
前記第１モデルから、前記推定用の書類に含まれるテキストの各部分に対応付けて、当該部分がクレームアップされた方がよいか否かに関する第１出力を取得する第１出力取得部、
前記訓練用の書類に対応する明細書または図面の少なくとも一部のテキストに関する第２入力部分と、当該少なくとも一部のテキストにクレームアップされた方がよい発明または考案に関する特徴が記載されているか否かに関する第２出力部分と、を含む第２訓練データが再学習された第２モデルに、前記推定用の書類に対応する明細書または図面の少なくとも一部のテキストを入力する第２入力部、
前記第２モデルから、前記推定用の書類に対応する明細書または図面の少なくとも一部のテキストの各部分に対応付けて、当該部分にクレームアップされた方がよい発明または考案に関する特徴が記載されているか否かに関する第２出力を取得する第２出力取得部、
前記訓練用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記訓練用の書類に対応するクレームの少なくとも一部と、に関する第３入力部分と、当該少なくとも一部のテキストの内容が既にクレームアップされているか否かに関する第３出力部分と、を含む第３訓練データが再学習された第３モデルに、前記推定用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記推定用の書類に対応するクレームの少なくとも一部と、を入力する第３入力部、
前記第３モデルから、前記推定用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記推定用の書類に対応するクレームの少なくとも一部と、の各部分に対応付けて、当該部分のテキストの内容が既にクレームアップされているか否かに関する第３出力を取得する第３出力取得部、
前記第１出力部分、前記第２出力部分、および前記第３出力部分を含む第４入力部分と、前記訓練用の書類の少なくとも一部がクレームアップされた方がよいか否かに関する第４出力部分と、を含む第４訓練データが学習された第４モデルに、前記第１出力、前記第２出力、および前記第３出力の各々を入力する第４入力部、
前記第４モデルから、前記推定用の書類に含まれるテキストの各部分に対応付けて、当該部分がクレームアップされた方がよいか否かに関する第４出力を取得する第４出力取得部、
前記第４出力に基づいて、前記推定用の書類に含まれるテキストのうちクレームアップの対象となるテキストを決定し、当該クレームアップの対象となるテキストをユーザに推薦することで知的財産業務を支援する業務支援部、
としてコンピュータを機能させるためのプログラム。

【請求項19】

【請求項20】

特許出願または実用新案登録出願の書類であって、訓練用の前記書類の少なくとも一部に関する第１入力部分と、当該少なくとも一部がクレームアップされた方がよいか否かに関する第１出力部分と、を含む第１訓練データが再学習された第１モデルに、推定用の前記書類の少なくとも一部を入力する第１入力部、
前記第１モデルから、前記推定用の書類に含まれるテキストの各部分に対応付けて、当該部分がクレームアップされた方がよいか否かに関する第１出力を取得する第１出力取得部、
前記訓練用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記訓練用の書類に対応するクレームの少なくとも一部と、に関する第３入力部分と、当該少なくとも一部のテキストの内容が既にクレームアップされているか否かに関する第３出力部分と、を含む第３訓練データが再学習された第３モデルに、前記推定用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記推定用の書類に対応するクレームの少なくとも一部と、を入力する第３入力部、
前記第３モデルから、前記推定用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記推定用の書類に対応するクレームの少なくとも一部と、の各部分に対応付けて、当該部分のテキストの内容が既にクレームアップされているか否かに関する第３出力を取得する第３出力取得部、
前記第１出力部分および前記第３出力部分を含む第４入力部分と、前記訓練用の書類の少なくとも一部がクレームアップされた方がよいか否かに関する第４出力部分と、を含む第４訓練データが学習された第４モデルに、前記第１出力および前記第３出力の各々を入力する第４入力部、
前記第４モデルから、前記推定用の書類に含まれるテキストの各部分に対応付けて、当該部分がクレームアップされた方がよいか否かに関する第４出力を取得する第４出力取得部、
前記第４出力に基づいて、前記推定用の書類に含まれるテキストのうちクレームアップの対象となるテキストを決定し、当該クレームアップの対象となるテキストをユーザに推薦することで知的財産業務を支援する業務支援部、
としてコンピュータを機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、大規模言語モデルを利用した知的財産業務支援システム、方法、およびプログラムに関する。

【背景技術】

【0002】

従来、特許出願または実用新案登録出願の書類に関する業務を支援する技術が検討されている。例えば、特許文献１には、ユーザが入力した発明文章に類似する複数の文献をデータベースから抽出し、当該発明文章と、データベースから抽出された複数の文献の中からユーザが選択した文献と、に基づいて、課題を解決するための手段と、発明を実施するための形態と、を含む特許出願の明細書を自動的に生成する技術が記載されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０２３－００７２６８号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、特許文献１の技術は、出願人の担当者または代理人といったユーザが明細書を作成する業務を支援することはできるが、他の業務を支援することはできない。例えば、ユーザは、分割出願の要否を検討するために、明細書の中からクレームアップされていない部分を探すことがある。特許文献１の技術は、このような業務を一例とする知的財産業務を支援できない。

【0005】

本開示の目的の１つは、ユーザの知的財産業務を支援することである。

【課題を解決するための手段】

【0006】

本開示に係る大規模言語モデルを利用した知的財産業務支援システムは、特許出願または実用新案登録出願の書類であって、訓練用の前記書類の少なくとも一部に関する第１入力部分と、当該少なくとも一部がクレームアップされた方がよいか否かに関する第１出力部分と、を含む第１訓練データが再学習された第１モデルと、当該少なくとも一部がクレームアップされた方がよいか否かに関する推定で補足的に利用される他のモデルと、を含む事前学習済みの大規模言語モデルに、推定用の前記書類の少なくとも一部を入力する入力部と、前記大規模言語モデルから、前記推定用の書類の少なくとも一部がクレームアップされた方がよいか否かに関する出力を取得する出力取得部と、前記出力に基づいて、前記推定用の書類に含まれるテキストのうちクレームアップの対象となるテキストを決定し、当該クレームアップの対象となるテキストをユーザに推薦することで知的財産業務を支援する業務支援部と、を含む。

【発明の効果】

【0007】

本開示によれば、ユーザの知的財産業務を支援できる。

【図面の簡単な説明】

【0008】

【図1】知的財産業務支援システムのハードウェア構成の一例を示す図である。

【図2】特許出願の書類の一例を示す図である。

【図3】本実施形態における業務支援を目的とした自然言語処理タスク（NLP task：Natural Language Processing task）の一例である。

【図4】大規模言語モデルの一例を示す図である。

【図5】第１モデル等の言語モデルの一例を示す図である。

【図6】業務支援画面に表示される出力データの一例を示す図である。

【図7】知的財産業務支援システムで実現される機能の一例を示す図である。

【図8】出願書類データベースの一例を示す図である。

【図9】第１訓練データベースの一例を示す図である。

【図10】第２訓練データベースの一例を示す図である。

【図11】第３訓練データベースの一例を示す図である。

【図12】第１モデル等の言語モデルの詳細な例を示す図である。

【図13】知的財産業務支援システムで実行される処理の一例を示す図である。

【図14】知的財産業務支援システムで実行される処理の一例を示す図である。

【図15】変形例の知的財産業務支援システムで実現される機能の一例を示す図である。

【発明を実施するための形態】

【0009】

［１．知的財産業務支援システムのハードウェア構成］
本開示に係る知的財産業務支援システム（以降、「知財業務」を単に業務と呼ぶ場合がある。）の実施形態の一例を説明する。図１は、業務支援システムのハードウェア構成の一例を示す図である。例えば、業務支援システム１は、サーバ１０およびユーザ端末２０を含む。サーバ１０およびユーザ端末２０の各々は、インターネットまたはＬＡＮ等のネットワークＮに接続可能である。

【0010】

サーバ１０は、サーバコンピュータである。例えば、サーバ１０は、制御部１１、記憶部１２、および通信部１３を含む。制御部１１は、少なくとも１つのプロセッサを含む。記憶部１２は、ＲＡＭ等の揮発性メモリと、フラッシュメモリ等の不揮発性メモリと、の少なくとも一方を含む。通信部１３は、有線通信用の通信インタフェースと、無線通信用の通信インタフェースと、の少なくとも一方を含む。

【0011】

ユーザ端末２０は、ユーザのコンピュータである。例えば、ユーザ端末２０は、パーソナルコンピュータ、スマートフォン、またはタブレットである。例えば、ユーザ端末２０は、制御部２１、記憶部２２、通信部２３、操作部２４、および表示部２５を含む。制御部２１、記憶部２２、および通信部２３のハードウェア構成は、それぞれ制御部１１、記憶部１２、および通信部１３と同様であってよい。操作部２４は、タッチパネルまたはマウス等の入力デバイスである。表示部２５は、液晶または有機ＥＬ等のディスプレイである。

【0012】

なお、記憶部１２，２２に記憶されるプログラムは、ネットワークＮを介して各コンピュータに供給されてもよい。また、各コンピュータには、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部（例えば、メモリカードスロット）と、外部機器とデータの入出力をするための入出力部（例えば、ＵＳＢポート）と、の少なくとも一方が含まれてもよい。例えば、情報記憶媒体に記憶されたプログラムが、読取部および入出力部の少なくとも一方を介して各コンピュータに供給されてもよい。

【0013】

また、業務支援システム１は、少なくとも１つのコンピュータを含めばよく、図１の例に限られない。例えば、業務支援システム１は、ユーザ端末２０を含まずに、サーバ１０だけを含んでもよい。この場合、ユーザ端末２０は、業務支援システム１の外部に存在する。業務支援システム１は、サーバ１０を含まずに、ユーザ端末２０だけを含んでもよい。この場合、サーバ１０は、業務支援システム１の外部に存在する。業務支援システム１は、図１に示さないコンピュータを含んでもよい。

【0014】

［２．業務支援システムの概要］
本実施形態では、知的財産に関する職務を有する者がユーザに相当する場合を例に挙げる。ユーザは、業務支援システム１を利用する者であればよく、本実施形態の例に限られない。例えば、知的財産部に所属する社員、知的財産部以外の他の部署に所属する社員、特許出願若しくは実用新案登録出願の代理人、当該代理人の事務所に勤務する者、知的財産の調査分析を職務とする者、発明者、またはその他の者がユーザに相当してもよい。

【0015】

更に、本実施形態では、業務支援システム１が、分割出願の要否を検討するユーザの業務を支援する場合を例に挙げる。例えば、ユーザは、自社が出願した特許出願または実用新案登録出願を原出願として、分割出願をするか否かを検討する。本実施形態では、日本国における特許出願または実用新案登録出願を例に挙げるが、業務支援システム１は、日本国以外の他の国または地域における特許出願または実用新案登録出願に関するユーザの業務を支援してもよい。

【0016】

図２は、特許出願の書類の一例を示す図である。例えば、特許出願は、特許願（願書）、明細書、特許請求の範囲、要約書、および図面といった複数の書類を含む。実用新案登録出願の書類も、概ね同様の構成である。本実施形態では、業務支援システム１は、大規模言語モデルＭを利用して、明細書および図面の少なくとも一方の中から、発明または考案の特徴を示し、かつ、まだクレームアップされていない部分を検知することによって、ユーザの業務を支援する。

【0017】

クレームアップは、明細書および図面の少なくとも一方の記載に基づいて、特許請求の範囲または実用新案登録請求の範囲の全部または一部の記載を、ユーザまたはその他の者（コンピュータを含む）が作成する行為である。特許請求の範囲または実用新案登録請求の範囲全体をクレームということもあるが、本実施形態では、特許請求の範囲または実用新案登録請求の範囲は、書類の名前を意味し、クレームは、当該書類に記載された内容を意味するものとする。なお、国または地域によっては、明細書が請求の範囲を含むこともある。国または地域によっては、明細書および図面以外の他の書類からクレームアップが可能なこともある。

【0018】

図３は、本実施形態における業務支援を目的とした自然言語処理タスク（NLP task：Natural Language Processing task）の一例を示す図である。本実施形態では、特許出願等の書類の少なくとも一部についてクレームアップした方がよいかを推定するタスク（UEE task：Unclaimed Embodiment Extraction task）を、当該自然言語処理タスクの一例として定義する。当該UEE taskは、例えば、次の形で定式化される。

【0019】

【数1】

【0020】

上述のp_i,j_iは、ｉ番目の書類（例えば、特許出願書類）におけるｊ番目の段落等のテキストに相当する。また、上述のC_iは、当該ｉ番目の書類におけるクレームに相当する。これらの関数ｆは、対象となるテキストについてクレームアップされた方がよいか否かを推定する関数に相当し、クレームアップされた方がよいか否かを示すラベル等に相当するy_i,j_iを出力する。後述する大規模言語モデルＭにおける再学習（ファインチューニング）によるパラメータ最適化の対象が当該関数に相当する。

【0021】

なお、本実施形態における「クレームアップされた方がよい」とは、対象となるテキストについてクレームアップの検討余地が他のテキストと比較して多く残されていることを指し、対象となるテキストについてクレームアップの検討を他のテキストより優先して行うことが推奨されることを指し、ユーザの業務を支援するための示唆に相当する。

【0022】

大規模言語モデルＭは、機械学習の手法に基づいて作成された言語モデルを含む。例えば、大規模言語モデルＭは、教師有り学習、半教師有り学習、または教師無し学習の手法で学習された言語モデルを含む。本実施形態における機械学習は、深層学習を包含する概念である。大規模言語モデルＭに含まれる言語モデルは、例えば、BERT（Bidirectional Encoder Representations from Transformers）、RoBERTa（Robustly-optimized BERT approach）、DeBERTa（Decoding-enhanced BERT with disentangled attention）、Longformer、ALBERT（A Lite BERT）、ELECTRA等のTransformer-Encoderをベースとする何らかの言語モデルであってよく、言語モデルにより出力されたベクトル表現を入力として扱う分類モデルとしてFFNN（Feed-Forward-Neural-Network）等のネットワークをさらに含んでよい。

【0023】

図４は、大規模言語モデルＭの一例である。本実施形態では、大規模言語モデルＭは、第１モデルＭ１、第２モデルＭ２、および第３モデルＭ３・・・第ｍモデルＭｍ（図４では、ｍは４以上の整数）の言語モデルと、第ｍ＋１モデルＭｍ＋１等の分類モデルと、を含む。本実施形態では、以降、大規模言語モデルＭは、第１モデルＭ１、第２モデルＭ２、および第３モデルＭ３を言語モデルとして、第４モデルＭ４を分類モデルとして含むものとする。例えば、第１モデルＭ１は、再学習済み（ファインチューニング済み）のRoBERTaである。

【0024】

なお、本実施形態における再学習とは、事前学習済みの言語モデルにおける再学習を指す。本実施形態における大規模言語モデルＭは、第１スコア等のスコアを出力可能となるよう再学習が行われた事前学習済みの言語モデルを含む。ここで、事前学習済みの言語モデルとは、CC-100等の所定の言語コーパス（データセット）に含まれる文字列を構成する語句（トークン）の埋め込み表現に係る教師無し学習が事前に行われた言語モデルを指す。なお、本実施形態における大規模言語モデルＭの再学習とは、大規模言語モデルＭに含まれる事前学習済みの言語モデルの再学習を指す。

【0025】

第１モデルＭ１は、ある特許出願または実用新案登録出願における明細書等の書類の少なくとも一部である第ｎ（ｎは自然数）段落または文章の内容を示すテキストと、当該特許出願または実用新案登録出願におけるクレームセットと、が入力されると、当該テキストがクレームアップされた方がよいか否かを示す第１スコアを出力する。

【0026】

本実施形態における言語モデルへの入力部分に相当するテキストとは、例えば、段落番号によって分割される文字列（段落に相当。）であってよく、句読点で分割される文字列（文章に相当。）であってよく、句読点の出現数の合計が所定数に達することを条件として分割される文字列であってよく、文字数が所定数を下回る範囲で分割された文字列の単位であってよい。また、当該テキストは、文字数が所定数を超えない範囲で文字列に相当する段落または文章が結合された文字列の全体を指してよい。以降、「書類の少なくとも一部」や書類中の段落または文章を、単にテキストと読み替える。

【0027】

クレームセットは、少なくとも１つのクレームの集まりである。以降、クレームセットを、単にクレームと読み替える。第１スコアは、テキストがまだクレームアップされていないか否かを示すということもできる。この点は、後述の第２モデルＭ２および第３モデルＭ３についても同様である。

【0028】

例えば、第２モデルＭ２は、再学習済みのRoBERTaである。第２モデルＭ２は、テキストの内容が入力されると、クレームアップされた方がよい発明または考案の特徴が当該テキストに示されているか否かを示す第２スコアを出力する。当該特徴は、発明または考案の本質的な内容である。例えば、発明または考案の前提となるハードウェア構成の内容、または、従来技術の説明は、発明または考案の本質的な内容ではないことが多いため、第２スコアが低くなることがある。第２モデルＭ２は、他のモデルの一例である。

【0029】

例えば、第３モデルＭ３は、再学習済みのRoBERTaである。第３モデルＭ３は、テキストの内容と、第１モデルＭ１に入力されたクレームセットと同じクレームセットと、が入力されると、当該テキストの内容が既にクレームアップされているか否かを示す第３スコアを出力する。第３スコアは、第１スコアと多少似ているが、テキストの内容が既にクレームアップされているか否かに特化したスコアである。第１スコアは、第２スコアおよび第３スコアが総合的に表現されたスコアである。第３モデルＭ３は、他のモデルの一例である。

【0030】

図５は、第１モデルＭ１等の言語モデルの一例を示す図である。本実施形態では、第１モデルＭ１、第２モデルＭ２、および第３モデルＭ３の各々が、再学習済みのRoBERTaであるものとするが、第１モデルＭ１、第２モデルＭ２、および第３モデルＭ３の各々は、先述した任意の言語モデルの種別を採用してよい。図５の例では、明細書の第ｎ段落のテキスト「この発明は・・・である」が言語モデルに入力された場合が示されている。図５の「ＣＬＳ」は、入力の先頭を示すトークンである。明細書の第ｎ段落のテキストは、トークンに分割されて、「ＣＬＳ」のトークンの後に配置される。言語モデルは、これらのトークンの埋め込み表現を計算し、Transformer-Encoderの処理が実行されたうえで、出力ベクトルを計算する。言語モデルの出力は、分類モデルに入力される。分類モデルは、クレームアップをした方が良いか否かを示すスコア及びラベルの少なくとも一方を出力する。

【0031】

先述のとおり、本実施形態における大規模言語モデルＭは、クレームアップをした方がよいか否かに相当する統合的なスコアである第１スコア等を出力可能な第１モデルＭ１と、当該第１スコアにその多寡が反映されている第２スコアおよび第３スコアを出力可能な第２モデルＭ２および第３モデルＭ３と、を含んでいる。つまり、大規模言語モデルＭは、例えばクレームアップをした方がよいか否かという統合的な基準に沿った強い推定を行う第１モデルＭ１に加えて、クレームアップをした方がよいか否かという統合的な基準に含まれるクレーム済みか否か等の限定的な基準に沿った弱い推定を行う第２モデルＭ２以降の他のモデルをさらに含んでいる。第２モデルＭ２以降の他のモデルは、クレームアップをした方がよいか否かの推定で補足的に利用される。これにより、大規模言語モデルＭは、未知のテキスト（入力対象）に係る当該弱い推定に当該未知のテキストに係る当該強い推定をサポートさせ、最終的な推定精度を高めることができる。

【0032】

例えば、第４モデルＭ４（図５の分類モデルの一例）は、サポートベクターマシンである。第４モデルＭ４は、アンサンブル学習の手法を利用して、第１モデルＭ１、第２モデルＭ２、および第３モデルＭ３等の言語モデルの各々の出力を総合的に考慮した推定結果を出力する。第４モデルＭ４は、第１スコア、第２スコア、および第３スコア等のスコア群が入力されると、テキストの内容がクレームアップされた方がよいか否かを示すラベルを出力する。ラベルは、テキストがクレームアップされた方がよいことを示す値（例えば、１）、および第ｎ段落の内容がクレームアップされない方がよいことを示す値（例えば、０）の何れかを示す。

【0033】

本実施形態では、大規模言語モデルＭに対し、ある特許出願または実用新案登録出願の明細書のテキストの内容と、当該特許出願または当該実用新案登録出願のクレームセットと、が次々と入力される。大規模言語モデルＭは、自身に入力されたテキストごとに、当該テキストの内容がクレームアップされた方がよいか否かを示すラベルを出力する。ユーザ端末２０は、大規模言語モデルＭが出力したラベルに基づいて、ユーザの業務を支援する業務支援画面を表示部２５に表示させる。例えば、業務支援画面には、大規模言語モデルＭからの出力を示す出力データが表示される。

【0034】

図６は、業務支援画面に表示される出力データの一例を示す図である。例えば、業務支援画面に表示される出力データは、大規模言語モデルＭの処理対象となった出願の出願番号、大規模言語モデルＭから出力されたラベル、大規模言語モデルＭから出力されたスコア、大規模言語モデルＭの処理対象となった明細書の段落番号、及び当該段落番号に記載されたテキストを示す。図６の例では、スコアが０．５以上であれば、ラベルが１になる。スコアの閾値は、０．５に限られず、任意の閾値であってよい。ユーザは、出力データの内容を確認し、分割出願の要否を検討する。

【0035】

以上のように、大規模言語モデルＭには、クレームアップされた方がよい発明または考案の特徴が明細書の個々のテキストに示されているか否かと、当該テキストの内容が既にクレームアップされているか否かと、の２つの観点が主に学習されている。業務支援システム１は、当該大規模言語モデルＭに基づいて、分割出願の要否を検討するユーザの業務またはその他の業務を支援するようになっている。以降、本実施形態の詳細を説明する。

【0036】

［３．業務支援システムで実現される機能］
図７は、業務支援システム１で実現される機能の一例を示す図である。

【0037】

［３－１．サーバで実現される機能］
例えば、サーバ１０は、データ記憶部１００、生成部１０１、学習部１０２、入力部１０３、出力取得部１０４、および業務支援部１０５を含む。データ記憶部１００は、記憶部１２により実現される。生成部１０１、学習部１０２、入力部１０３、出力取得部１０４、および業務支援部１０５は、制御部１１により実現される。

【0038】

［データ記憶部］
データ記憶部１００は、業務の支援に関するデータを記憶する。例えば、データ記憶部１００は、出願書類データベースＤＢ０を記憶する。

【0039】

図８は、出願書類データベースＤＢ０の一例を示す図である。出願書類データベースＤＢ０は、特許出願または実用新案登録出願の書類に関するデータが格納されたデータベースである。例えば、出願書類データベースＤＢ０には、特許出願または実用新案登録出願の出願番号、請求の範囲（特許請求の範囲または実用新案登録請求の範囲）のデータおよび明細書のデータが格納される。出願書類データベースＤＢ０に格納されるデータは、図８の例に限られない。例えば、出願書類データベースＤＢ０には、図面から抽出されたテキストのデータ、要約書のデータ、および手続補正書のデータが格納されてもよい。

【0040】

なお、明細書のデータと、請求の範囲のデータと、の各々は、任意の形式であってよく、例えば、ドキュメントファイル形式、テキストファイル形式、ＸＭＬ形式、ＪＳＯＮ形式、またはＨＴＭＬ形式あってもよい。出願書類データベースＤＢ０には、出願済みのデータだけではなく、出願前のデータが格納されてもよい。即ち、業務支援システム１における処理対象となるのは、出願済みのデータに限られず、出願前のデータであってもよい。明細書のデータは、明細書の全てのテキストを示す必要はなく、発明を実施するための形態等の特定の項目以降のテキストだけを示してもよい。

【0041】

例えば、データ記憶部１００は、第１訓練データベースＤＢ１、第２訓練データベースＤＢ２、および第３訓練データベースＤＢ３を記憶する。データ記憶部１００は、第４モデルＭ４に学習させる第４訓練データが格納された第４訓練データベースＤＢ４を記憶してもよい。以降、第１訓練データベースＤＢ１、第２訓練データベースＤＢ２、第３訓練データベースＤＢ３、および第４訓練データベースＤＢ４を区別しない場合には、単に訓練データベースという。同様に、後述の第１訓練データ、第２訓練データ、第３訓練データ、および第４訓練データを区別しない場合には、単に訓練データという。

【0042】

例えば、訓練データは、推定時の大規模言語モデルＭに入力されるデータと同じ形式の入力部分と、推定時に大規模言語モデルＭから出力されるデータと同じ形式の出力部分と、を含む。訓練データは、テキストに関する入力部分と、当該テキストのクレームアップに関する出力部分と、を含む。訓練データの入力部分は、学習時（訓練時）に、大規模言語モデルＭに入力される。訓練データの出力部分は、大規模言語モデルＭの学習時の正解に相当する。訓練データの出力部分は、管理者による注釈を含んでもよい。

【0043】

本実施形態では、明細書が処理対象になるので（明細書が書類となるので）、訓練データは、訓練用のテキストに関する入力部分と、当該テキストのクレームアップに関する出力部分と、を含む。以降、書類と記載した箇所は、基本的に明細書を意味する。なお、本実施形態では、大規模言語モデルＭは、テキストを処理対象にするので、図面が書類に相当する場合には、図面の中のテキストが処理対象となる。

【0044】

図９は、第１訓練データベースＤＢ１の一例を示す図である。図９の例では、第１訓練データベースＤＢ１は、ＪＳＯＮ形式である。第１訓練データベースＤＢ１は、第１モデルＭ１に学習される第１訓練データ又は第１訓練データを特定するために必要な情報が格納されたデータベースである。第１訓練データは、推定時に第１モデルＭ１に入力されるデータと同じ形式の第１入力部分と、推定時に第１モデルＭ１から出力されるデータと同じ形式の第１出力部分と、を含む。第１訓練データの第１入力部分は、学習時に第１モデルＭ１に入力される。第１訓練データの第１出力部分は、第１モデルＭ１の学習時の正解に相当する。

【0045】

例えば、第１訓練データの第１入力部分は、訓練用の書類に対応するクレームの少なくとも一部も含んでもよい（以降、入力部分として扱われる「クレームの少なくとも一部」を、単にクレームと読み替える。）。本実施形態では、第１訓練データの第１入力部分が、全てのクレームを含むクレームセットである場合を例に挙げるが、第１訓練データの第１入力部分は、一部のクレームを含むクレームセットであってもよいし、単一のクレームだけを含んでもよい。第１訓練データの第１入力部分は、単一のクレームのうちの一部だけであってもよい。

【0046】

例えば、第１訓練データの第１出力部分は、訓練用のテキストがクレームアップされた方がよいか否かを示す。本実施形態では、第１訓練データの第１出力部分が、訓練用のテキストがクレームアップされた方がよいか否かを示す第１ラベルである場合を例に挙げる。第１ラベルは、訓練用のテキストがクレームアップされた方がよいことを示す値、または、訓練用のテキストがクレームアップされた方がよいではないことを示す値の何れかを示す。

【0047】

なお、第１訓練データの第１出力部分は、第１ラベルのような２値ではなく、中間値を有する第１スコアであってもよい。第１スコアは、訓練用のテキストがクレームアップされた方がよい程度（確率）を示す。第１スコアは、第１ラベルの尤もらしさを示すスコアということもできる。例えば、第１スコアが数値で表現される場合、第１スコアが高いほど、当該程度が高い。逆に、第１スコアが低いほど、当該程度が高くてもよい。第１スコアは、文字またはその他の記号といった他の形式で表現されてもよい。

【0048】

図１０は、第２訓練データベースＤＢ２の一例を示す図である。図１０の例では、第２訓練データベースＤＢ２は、ＪＳＯＮ形式である。第２訓練データベースＤＢ２は、第２モデルＭ２に学習される第２訓練データ又は第２訓練データを特定するために必要な情報が格納されたデータベースである。第２訓練データは、推定時に第２モデルＭ２に入力されるデータと同じ形式の第２入力部分と、推定時に第２モデルＭ２から出力されるデータと同じ形式の第２出力部分と、を含む。第２訓練データの第２入力部分は、学習時に第２モデルＭ２に入力される。第２訓練データの第２出力部分は、第２モデルＭ２の学習時の正解に相当する。

【0049】

例えば、第２訓練データの第２入力部分は、訓練用のテキストである。第２訓練データの第２出力部分は、訓練用のテキストに、クレームアップされた方がよい発明または考案に関する特徴が記載されているか否かを示す。本実施形態では、第２訓練データの第２出力部分が、訓練用のテキストに当該特徴が記載されているか否かを示す第２ラベルである場合を例に挙げる。第２ラベルは、訓練用のテキストに当該特徴が記載されていることを示す値（例えば、１）、または、訓練用のテキストに当該特徴が記載されていないことを示す値（例えば、０）の何れかを示す。

【0050】

なお、第２訓練データの第２出力部分は、第２ラベルのような２値ではなく、中間値を有する第２スコアであってもよい。第２スコアは、訓練用のテキストに、クレームアップされた方がよい発明または考案に関する特徴が記載されている程度（確率）を示す。第２スコアは、第２ラベルの尤もらしさを示すスコアということもできる。例えば、第２スコアが数値で表現される場合、第２スコアが高いほど、当該程度が高い。逆に、第２スコアが低いほど、当該程度が高くてもよい。第２スコアは、文字またはその他の記号といった他の形式で表現されてもよい。

【0051】

図１１は、第３訓練データベースＤＢ３の一例を示す図である。図１１の例では、第３訓練データベースＤＢ３は、ＪＳＯＮ形式である。第３訓練データベースＤＢ３は、第３モデルＭ３に学習される第３訓練データ又は第３訓練データを特定するために必要な情報が格納されたデータベースである。第３訓練データは、推定時に第３モデルＭ３に入力されるデータと同じ形式の第３入力部分と、推定時に第３モデルＭ３から出力されるデータと同じ形式の第３出力部分と、を含む。第３訓練データの第３入力部分は、学習時に第３モデルＭ３に入力される。第３訓練データの第３出力部分は、第３モデルＭ３の学習時の正解に相当する。

【0052】

例えば、第３訓練データの第３入力部分は、訓練用の書類に対応するクレームも含む。第３訓練データの第３入力部分は、第１訓練データの第１入力部分と同様である。第３訓練データの第３出力部分は、訓練用のテキストが既にクレームアップされているか否かを示す。本実施形態では、第３訓練データの第３出力部分が、訓練用のテキストが既にクレームアップされているか否かを示す第３ラベルである場合を例に挙げる。第３ラベルは、訓練用のテキストがまだクレームアップされていないことを示す値（例えば、１）、または、訓練用のテキストが既にクレームアップされていることを示す値（例えば、０）の何れかを示す。

【0053】

なお、第３訓練データの第３出力部分は、第３ラベルのような２値ではなく、中間値を有する第３スコアであってもよい。第３スコアは、訓練用のテキストが既にクレームアップされている程度（確率）を示す。第３スコアは、第３ラベルの尤もらしさを示すスコアということもできる。例えば、第３スコアが数値で表現される場合、第３スコアが高いほど、当該程度が高い。逆に、第３スコアが低いほど、当該程度が高くてもよい。第３スコアは、文字またはその他の記号といった他の形式で表現されてもよい。

【0054】

例えば、第４訓練データベースＤＢ４は、第４モデルＭ４に学習される第４訓練データが格納されたデータベースである。第４訓練データは、推定時に第４モデルＭ４に入力されるデータと同じ形式の第４入力部分と、推定時に第４モデルＭ４から出力されるデータと同じ形式の第４出力部分と、を含む。第４訓練データの第４入力部分は、学習時に第４モデルＭ４に入力される。第４訓練データの第４出力部分は、第４モデルＭ４の学習時の正解に相当する。

【0055】

例えば、第４訓練データの第４入力部分は、第１モデルＭ１からの出力、第２モデルＭ２からの出力、および第３モデルＭ３からの出力を含む。第４訓練データの第４入力部分は、第１スコア、第２スコア、および第３スコアを含んでもよいし、第４訓練データの第４入力部分は、第１ラベル、第２ラベル、および第３ラベルを含んでもよい。例えば、第１モデルＭ１から、第１ラベルとともに、第１スコアが出力されてもよい。第２モデルＭ２から、第２ラベルとともに、第２スコアが出力されてもよい。第３モデルＭ３から、第３ラベルとともに、第３スコアが出力されてもよい。例えば、第１スコア、第２スコア、及び第３スコアは、０．０～１．０の何れかの値であってもよい。

【0056】

例えば、第４訓練データの第４出力部分は、訓練用のテキストがクレームアップされた方がよいか否かを示す。本実施形態では、第４訓練データの第４出力部分が、訓練用のテキストがクレームアップされた方がよいか否かを示す第４ラベルである場合を例に挙げる。第４ラベルは、訓練用のテキストがクレームアップされた方がよいことを示す値（例えば、１）、または、訓練用のテキストがクレームアップされた方がよいではないことを示す値（例えば、０）の何れかを示す。

【0057】

なお、第４モデルＭ４は、第４スコアを出力してもよい。第４スコアは、訓練用のテキストがクレームアップされた方がよい程度（確率）を示す。第４スコアは、第４ラベルの尤もらしさを示すスコアということもできる。例えば、第４スコアが数値で表現される場合、第４スコアが高いほど、当該程度が高い。逆に、第４スコアが低いほど、当該程度が高くてもよい。第４スコアは、文字またはその他の記号といった他の形式で表現されてもよい。

【0058】

例えば、データ記憶部１００は、大規模言語モデルＭを記憶する。大規模言語モデルＭは、入力された文字列のベクトルシークエンスの取得等の処理を示すプログラムと、学習によって調整されるパラメータと、を含む。本実施形態では、大規模言語モデルＭは、第１モデルＭ１、第２モデルＭ２、第３モデルＭ３、および第４モデルＭ４を含む。第１モデルＭ１、第２モデルＭ２、および第３モデルＭ３の各々は、入力された文字列のベクトルシークエンスの取得等の処理のためのプログラムと、学習によって調整されるパラメータと、を含む。以降、第１モデルＭ１、第２モデルＭ２、および第３モデルＭ３を区別しない時は、単に言語モデルという。第１モデルＭ１、第２モデルＭ２、第３モデルＭ３、および第４モデルＭ４を含むモデル群を、大規模言語モデルＭと呼ぶ。

【0059】

本実施形態では、サーバ１０が学習部１０２を含むので、学習部１０２の処理が実行される前は、データ記憶部１００は、パラメータが初期値の第１モデルＭ１、第２モデルＭ２、第３モデルＭ３、および第４モデルＭ４を記憶する。学習部１０２の処理が実行された後は、データ記憶部１００は、学習済みの第１モデルＭ１、第２モデルＭ２、第３モデルＭ３、および第４モデルＭ４等のモデル群を記憶する。学習がサーバ１０以外の他のコンピュータで実行される場合には、データ記憶部１００は、他のコンピュータで再学習が実行された再学習済みの第１モデルＭ１、第２モデルＭ２、第３モデルＭ３、および第４モデルＭ４を記憶する。この場合、サーバ１０は、生成部１０１および学習部１０２を含まない。本実施形態では、サーバ１０の他の外部サーバが当該モデル群の一部（パラメータ等）を有してよく、ユーザ端末２０が当該一部を有してよい。

【0060】

なお、データ記憶部１００は、他のデータを記憶してもよい。例えば、データ記憶部１００は、学習のアルゴリズムが示されたプログラムと、業務支援画面のデータと、を記憶してもよい。

【0061】

［生成部］
生成部１０１は、訓練データを生成する。本実施形態では、ユーザまたはその他の者が手動でアノテーションを行うものとする。アノテーションは、ユーザまたはその他の者が訓練データの正解（出力部分）を付与する作業である。

【0062】

例えば、ユーザは、ユーザ端末２０の操作部２４から、アノテーションを行う。ユーザ端末２０は、サーバ１０に対し、第１訓練データ、第２訓練データ、第３訓練データ、および第４訓練データを送信する。生成部１０１は、ユーザ端末２０から第１訓練データ、第２訓練データ、第３訓練データ、および第４訓練データを受信し、それぞれを第１訓練データベースＤＢ１、第２訓練データベースＤＢ２、第３訓練データベースＤＢ３、および第４訓練データベースＤＢ４に格納する。

【0063】

［学習部］
学習部１０２は、訓練データに基づいて、大規模言語モデルＭの再学習を教師有り学習として実行する。学習部１０２は、訓練データの入力部分が入力された場合に、訓練データの出力部分が出力されるように、大規模言語モデルＭの再学習を実行する。学習のアルゴリズム自体は、公知の機械学習の手法で利用されるアルゴリズムであってよく、訓練データが示す真値とモデルにより出力される予測値との損失が小さくなるよう、モデルの重み等のパラメータが更新される。例えば、学習部１０２は、勾配降下法、誤差逆伝播法、またはその他の手法に基づいて、大規模言語モデルＭの再学習を実行してよい。

【0064】

ここで、再学習は、言語モデルに接続されるFFNN等の分類モデルにおける重み等のパラメータを更新することを指す。当該再学習は、言語モデルに接続されるFFNN等の分類モデルにおける重み等のパラメータに加え言語モデルにおける重み等のパラメータを更新することを指す場合もある。なお、学習部１０２は、訓練データ（training data）と同様のアノテーションが施された検証データ（validation data）をさらに用いてハイパーパラメータの更新を行うことで言語モデルを汎化させてよい。

【0065】

例えば、第１モデルＭ１には、訓練用のテキストと、当該テキストに対応するクレームと、に関する第１入力部分と、当該テキストがクレームアップされた方がよいか否かに関する第１出力部分と、を含む第１訓練データが再学習されている。学習部１０２は、第１訓練データの入力部分が入力された場合に、第１訓練データの出力部分が出力されるように、第１モデルＭ１の再学習を実行する。つまり、第１モデルＭ１の出力結果と、第１訓練データの出力部分と、の損失が小さくなるように、当該再学習を実行する。第１モデルＭ１の学習のアルゴリズムも、先述した公知のアルゴリズムであってよい。

【0066】

例えば、第２モデルＭ２には、訓練用のテキストに関する第２入力部分と、当該テキストにクレームアップされた方がよい発明または考案に関する特徴が記載されているか否かに関する第２出力部分と、を含む第２訓練データが再学習されている。学習部１０２は、第２訓練データの入力部分が入力された場合に、第２訓練データの出力部分が出力されるように、第２モデルＭ２の再学習を実行する。つまり、第２モデルＭ２の出力結果と、第２訓練データの出力部分と、の損失が小さくなるように、当該再学習を実行する。第２モデルＭ２の学習のアルゴリズムも、先述した公知のアルゴリズムであってよい。

【0067】

例えば、第３モデルＭ３には、訓練用のテキストと、当該テキストに対応するクレームと、に関する第３入力部分と、当該テキストが既にクレームアップされているか否かに関する第３出力部分と、を含む第３訓練データが再学習されている。学習部１０２は、第３訓練データの入力部分が入力された場合に、第３訓練データの出力部分が出力されるように、第３モデルＭ３の再学習を実行する。つまり、第３モデルＭ３の出力結果と、第３訓練データの出力部分と、の損失が小さくなるように、当該再学習を実行する。第３モデルＭ３の学習のアルゴリズムも、先述した公知のアルゴリズムであってよい。

【0068】

例えば、第４モデルＭ４には、第１モデルＭ１、第２モデルＭ２、および第３モデルＭ３の各々の出力に関する第４入力部分と、最終的な推定結果に関する第４出力部分と、を含む第４訓練データが学習されている。学習部１０２は、第４訓練データの入力部分が入力された場合に、第４訓練データの出力部分が出力されるように、第４モデルＭ４の学習を実行する。つまり、第４モデルＭ４の出力結果と、第４訓練データの出力部分と、の損失が小さくなるように、当該再学習を実行する。第４モデルＭ４の学習のアルゴリズムも、先述した公知のアルゴリズムであってよい。

【0069】

［入力部］
入力部１０３は、特許出願または実用新案登録出願の書類であって、訓練用のテキスト（訓練用の書類の少なくとも一部）に関する第１入力部分と、当該テキストがクレームアップされた方がよいか否かに関する第１出力部分と、を含む第１訓練データが学習された第１モデルと、当該少なくとも一部がクレームアップされた方がよいか否かに関する推定で補足的に利用される他のモデルと、を含む大規模言語モデルＭに、推定用のテキスト（推定用の書類の少なくとも一部）を入力する。推定用のテキストに係る書類とは、学習済みの大規模言語モデルＭに入力される書類である。即ち、推定用の書類は、クレームアップされた方がよいか否かの推定対象となる書類である。

【0070】

推定用のテキストは、推定用の書類の全部または一部である。先述のとおり、本実施形態では、出願書類データベースＤＢ０にデータが格納された明細書の個々の段落または文章が推定用のテキストに相当する場合を説明するが、複数または全体の段落または文章が推定用のテキストに相当してもよい。推定用のテキストは、光学文字認識または機械学習等の手法によって図面から抽出された文字列でもよい。

【0071】

図１２は、第１モデルＭ１等の言語モデルの詳細な例を示す図である。図１２に示すとおり、本実施形態では、入力部１０３は、訓練用または推定用のテキストに何らかの前処理を実行したうえで、当該前処理が実行されたテキストを、言語モデルに入力する。入力部１０３は、訓練用または推定用のテキストを構成する形態素（語句）のそれぞれと対応するトークンおよび分類用トークン（［CLS］トークン）等のサブトークンを含むトークン群の埋め込み表現、および各語句の位置エンコーディングにより得られるトークン群の埋め込み表現等に基づく入力ベクトルのベクトルシークエンス（E_[CLS]～E_N）について埋め込み層を介して取得する。本実施形態では、埋め込み表現を特徴量と読み替える。入力部１０３は、書類の分類（例えば、特許分類）を示すセグメントの埋め込み表現を各トークンに反映し入力ベクトルのベクトルシークエンスを取得してよい。

【0072】

言語モデルは、事前学習によって調整された言語モデルのパラメータ群に基づいて、訓練用または推定用のテキストに係る入力ベクトルのベクトルシークエンスに応じた出力ベクトルのベクトルシークエンス（C～T_N）を出力する。言語モデルは、出力されたベクトルシークエンスをFFNN等の分類モデルに入力することで訓練用または推定用のテキストと対応する推定結果を出力する。後述の出力取得部１０４は、言語モデルに接続される分類モデルに第１～３ラベルの尤もらしさを示す第１～３スコア等のスコアを入力することで出力される、訓練用または推定用のテキストの推定結果を取得する。

【0073】

なお、入力部１０３は、前処理として、形態素解析や特徴量取得の他に、構文解析、文脈解析、文章の校閲処理、またはその他の処理を行ってよい。当該前処理により得られた埋め込み表現をさらに利用し、ベクトルシークエンスを取得してよい。

【0074】

図１２に示すとおり、入力部１０３は、言語モデルに、訓練用または推定用の書類に対応するクレームも入力してもよい。当該クレームは、推定用の書類と同じ特許出願若しくは実用新案登録出願のクレーム、または、推定用の書類の特許出願若しくは実用新案登録出願と関連する他の出願のクレームである。他の出願は、分割出願の原出願、分割出願における原出願以外の出願（例えば、日本国特許庁が上申書に説明を要請している出願）、優先権主張の基礎とした出願、または、実施例同一の他の出願である。入力部１０３は、言語モデルに訓練用または推定用の書類に対応するクレームをさらに入力する場合、訓練用または推定用のテキスト（クレーム以外）のトークン群とクレームのトークン群とをサブトークン（[SEP]トークン）を挟んで結合し埋め込み層を介して入力ベクトルのベクトルシークエンスを取得してよい。このとき、クレームか否かを示すセグメントの埋め込み表現を各トークンに反映させ入力ベクトルのベクトルシークエンスを取得してよい。

【0075】

本実施形態では、推定用の書類に対応する全てのクレームからなるクレームセットが、当該書類に対応するクレームに相当する場合を説明するが、当該書類に対応する一部のクレームだけからなるクレームセット、当該書類に対応する１つのクレームだけ、または当該１つのクレームの一部分だけが、当該書類に対応するクレームに相当してもよい。

【0076】

例えば、入力部１０３は、第１モデルＭ１に、推定用のテキストと、推定用の書類に対応するクレームと、を入力する。第１モデルＭ１は、推定用のテキストと、当該クレームと、が入力されると、これらのベクトルシークエンスを特徴量として取得する。第１モデルＭ１は、特徴量に応じた推定結果を出力する。本実施形態では、第１モデルＭ１の推定結果が第１ラベルおよび第１スコアである場合を例に挙げるが、推定結果は、第１ラベルだけ、または、第１スコアだけであってもよい。第１モデルＭ１が第１スコアだけを出力する場合には、第１スコアが、クレームアップされるべき程度を示すのか、または、クレームアップされない程度を示すのかが予め決められているものとする。

【0077】

本実施形態の大規模言語モデルは、訓練用の書類に対応する明細書または図面の少なくとも一部のテキストに関する第２入力部分と、当該少なくとも一部のテキストにクレームアップされた方がよい発明または考案に関する特徴が記載されているか否かに関する第２出力部分と、を含む第２訓練データが再学習された第２モデルＭ２を、他のモデルとして含む。入力部１０３は、第２モデルＭ２に、推定用のテキスト（推定用の書類に対応する明細書又は図面の少なくとも一部のテキスト）を入力する。

【0078】

例えば、第２モデルＭ２は、推定用のテキストが入力されると、当該テキストのベクトルシークエンスを特徴量として取得する。第２モデルＭ２は、特徴量に応じた推定結果を出力する。本実施形態では、第２モデルＭ２の推定結果が第２ラベルおよび第２スコアである場合を例に挙げるが、推定結果は、第２ラベルだけ、または、第２スコアだけであってもよい。第２モデルＭ２が第２スコアだけを出力する場合には、第２スコアが、クレームアップされるべき発明または考案に関する特徴が記載されている程度を示すのか、または、当該特徴ではない内容である程度を示すのかが予め決められているものとする。

【0079】

本実施形態の大規模言語モデルは、訓練用の書類に対応する明細書または図面の少なくとも一部のテキストと、訓練用の書類に対応するクレームの少なくとも一部と、に関する第３入力部分と、当該少なくとも一部のテキストの内容が既にクレームアップされているか否かに関する第３出力部分と、を含む第３訓練データが再学習された第３モデルＭ３を、他のモデルとして含む。入力部１０３は、第３モデルＭ３に、推定用のテキスト（推定用の書類に対応する明細書または図面の少なくとも一部のテキスト）と、推定用の書類に対応するクレーム（推定用の書類に対応するクレームの少なくとも一部）と、を入力する。

【0080】

例えば、第３モデルＭ３は、推定用のテキストと、推定用の書類に対応するクレームと、が入力されると、これらのベクトルシークエンスを特徴量として取得する。第３モデルＭ３は、特徴量に応じた推定結果を出力する。本実施形態では、第３モデルＭ３の推定結果が第３ラベルおよび第３スコアである場合を例に挙げるが、推定結果は、第３ラベルだけ、または、第３スコアだけであってもよい。第３モデルＭ３が第３スコアだけを出力する場合には、第３スコアが、既にクレームアップされていない程度を示すのか、または、既にクレームアップされている程度を示すのかが予め決められているものとする。

【0081】

なお、第４モデルＭ４に対する入力は、大規模言語モデルＭの内部で自動的に実行されるものとするが、入力部１０３が第４モデルＭ４に対する入力を行ってもよい。第４モデルＭ４は、第１スコア、第２スコア、および第３スコアが入力されると、スコアに応じた推定結果を出力する。本実施形態では、第４モデルＭ４の推定結果が第４ラベルである場合を例に挙げるが、推定結果は、第４スコアだけ、または、第４ラベルと第４スコアであってもよい。第４モデルＭ４が第４スコアだけを出力する場合には、第４スコアが、クレームアップされるべき程度を示すのか、または、クレームアップされない程度を示すのかが予め決められているものとする。

【0082】

［出力取得部］
出力取得部１０４は、大規模言語モデルＭから、推定用のテキスト（推定用の書類の少なくとも一部）がクレームアップされた方がよいか否かに関する出力を取得する。推定用のテキストに対応する出力は、推定用のテキストがクレームアップされた方がよいか否かの推定結果である。本実施形態では、第４モデルＭ４が最終的な推定結果を出力するので、出力取得部１０４は、第４モデルＭ４から、出力を取得する。

【0083】

例えば、出力取得部１０４は、大規模言語モデルＭから、推定用のテキストがクレームアップされた方がよいか否かを示す出力を取得してもよい。出力取得部１０４は、第１モデルＭ１から、当該出力を取得してもよい。例えば、出力取得部１０４は、大規模言語モデルＭから、推定用のテキストに特徴が記載されているか否かを示す出力を取得してもよい。出力取得部１０４は、第２モデルＭ２から、当該出力を取得してもよい。例えば、出力取得部１０４は、大規模言語モデルＭから、推定用のテキストが既にクレームアップされているか否かを示す出力を取得する。出力取得部１０４は、第３モデルＭ３から、当該出力を取得してもよい。

【0084】

［業務支援部］
業務支援部１０５は、出力取得部１０４により取得された出力に基づいて、推定用の書類に関する業務（知的財産業務）を支援する。当該業務とは、推定用の書類の特許出願若しくは実用新案登録出願の権利化業務、当該特許出願若しくは実用新案登録出願の分割出願の権利化業務、またはこれらの評価業務である。権利化業務は、出願時の業務だけではなく、自発補正時の業務、または、中間対応時の業務といった他の業務も含む。

【0085】

例えば、業務支援部１０５は、推定用の書類に含まれるテキストのうちクレームアップの対象となるテキストを決定し、当該クレームアップの対象となるテキストをユーザに推薦することで知的財産業務を支援する。ここでの推薦とは、当該テキストをユーザ端末２０に表示させること、又は、当該テキストのデータをユーザ端末２０に送信することである。例えば、業務支援部１０５は、図６のようなデータをユーザ端末２０に送信することによって、クレームアップの対象となるテキストをユーザに推薦する。

【0086】

業務支援部１０５は、ユーザの業務に関する何らかの処理を実行することによって、業務を支援すればよい。本実施形態では、業務支援部１０５は、業務支援画面に出力データ表示させることによって、業務を支援する。例えば、業務支援部１０５は、出力取得部１０４により取得された出力に基づいて、出力データを生成してユーザ端末２０に送信することによって、業務支援画面をユーザ端末２０に表示させる。業務支援部１０５は、クレームアップされた方がよいと推定された推定用のテキストを示す情報を含む業務支援画面を、ユーザ端末２０に表示させる。

【0087】

また、業務支援部１０５は、出力取得部１０４により取得された出力に基づいて、他の処理を実行してもよい。例えば、業務支援部１０５は、出力取得部１０４により取得された出力に基づいて、クレームアップされた方がよいと推定された推定用のテキストと、他の部分と、を区別可能な画面をユーザ端末２０に表示させてもよい。

【0088】

なお、業務支援部１０５は、出力取得部１０４により取得された出力に基づいて、クレームアップされた方がよいと推定された推定用のテキストを表示している間のスクロール速度の制限、または当該テキストを表示していない間のスクロール速度の制限を行うことで、当該テキストの表示時間を他の部分より長くしてもよい。

【0089】

［３－２．ユーザ端末で実現される機能］
例えば、ユーザ端末２０は、データ記憶部２００、操作受付部２０１、および表示制御部２０２を含む。データ記憶部２００は、記憶部２２により実現される。操作受付部２０１および表示制御部２０２は、制御部２１により実現される。

【0090】

［データ記憶部］
データ記憶部２００は、業務の支援に必要なデータを記憶する。例えば、データ記憶部２００は、業務支援画面を表示するために必要なデータを記憶する。

【0091】

［操作受付部］
操作受付部２０１は、ユーザによる各種操作を受け付ける。例えば、操作受付部２０１は、業務支援画面に対する操作を受け付ける。操作受付部２０１は、ユーザによるアノテーション結果の指定を受け付けてもよい。

【0092】

［表示制御部］
表示制御部２０２は、各種画面を表示部２５に表示させる。例えば、表示制御部２０２は、業務支援画面を表示部２５に表示させる。表示制御部２０２は、ユーザがアノテーションをするための画面を表示部２５に表示させる。

【0093】

［４．業務支援システムで実行される処理］
図１３及び図１４は、業務支援システム１で実行される処理の一例を示す図である。制御部１１，２１が、それぞれ記憶部１２，２２に記憶されたプログラムを実行することによって、図１３及び図１４の処理が実行される。

【0094】

図１３のように、サーバ１０は、第１訓練データベースＤＢ１に格納された第１訓練データに基づいて、事前学習済みの第１モデルＭ１の再学習を実行する（Ｓ１）。サーバ１０は、第２訓練データベースＤＢ２に格納された第２訓練データに基づいて、事前学習済みの第２モデルＭ２の再学習を実行する（Ｓ２）。サーバ１０は、第３訓練データベースＤＢ３に格納された第３訓練データに基づいて、事前学習済みの第３モデルＭ３の再学習を実行する（Ｓ３）。サーバ１０は、第４訓練データベースＤＢ４に格納された第４訓練データに基づいて、第４モデルＭ４の学習を実行する（Ｓ４）。

【0095】

ユーザ端末２０は、出願書類データベースＤＢ０に出願番号が格納された特許出願または実用新案登録出願のうちの何れかの出願番号の指定を受け付ける（Ｓ５）。ユーザ端末２０は、サーバ１０に対し、ユーザが指定した特許出願または実用新案登録出願の出願番号を送信する（Ｓ６）。サーバ１０は、ユーザ端末２０から出願番号を受信すると（Ｓ７）、出願書類データベースＤＢ０から、当該出願番号が示す特許出願または実用新案登録出願の明細書および請求の範囲の各々のデータを取得する（Ｓ８）。

【0096】

サーバ１０は、Ｓ８で取得された明細書のうち、処理対象のテキストの内容を取得する（Ｓ９）。個々のテキストは、段落番号および／または文章番号を囲う記号と、当該記号によって囲われる段落番号等の数値と、によって特定されるようにすればよい。サーバ１０は、第１モデルＭ１に、処理対象のテキストの内容と、Ｓ８で取得された請求の範囲が示すクレームセットと、を入力する（Ｓ１０）。サーバ１０は、第１モデルＭ１からの出力を取得する（Ｓ１１）。サーバ１０は、第２モデルＭ２に、処理対象のテキストの内容を入力する（Ｓ１２）。サーバ１０は、第２モデルＭ２からの出力を取得する（Ｓ１３）。サーバ１０は、第３モデルＭ３に、処理対象の内容と、クレームセットと、を入力する（Ｓ１４）。図１４に移り、サーバ１０は、第３モデルＭ３からの出力を取得する（Ｓ１５）。

【0097】

サーバ１０は、第４モデルＭ４に、第１モデルＭ１からの出力、第２モデルＭ２からの出力、および第３モデルＭ３からの出力を入力する（Ｓ１６）。サーバ１０は、第４モデルＭ４からの出力を取得する（Ｓ１７）。サーバ１０は、全てのテキストを処理対象としたか否かを判定する（Ｓ１８）。まだ処理対象になっていないテキストが存在する場合（Ｓ１８：Ｎ）、Ｓ９の処理に戻り、次のテキストが処理対象になる。

【0098】

Ｓ１８において、全てのテキストを処理対象としたと判定された場合（Ｓ１８：Ｙ）、サーバ１０は、第４モデルＭ４からの出力に基づいて、出力データを含む業務支援画面の表示データを生成してユーザ端末２０に送信する（Ｓ１９）。ユーザ端末２０は、業務支援画面の表示データを受信し（Ｓ２０）、業務支援画面を表示部２５に表示させ（Ｓ２１）、本処理は終了する。

【0099】

［５．実施形態のまとめ］
本実施形態の業務支援システム１は、訓練データが学習された大規模言語モデルＭに、推定用のテキストを入力する。業務支援システム１は、大規模言語モデルＭから、推定用のテキストがクレームアップされた方がよいか否かに関する出力を取得する。業務支援システム１は、当該出力に基づいて、推定用の書類に含まれるテキストのうちクレームアップの対象となるテキストを決定し、当該クレームアップの対象となるテキストをユーザに推薦することで知的財産業務を支援する。これにより、業務支援システム１は、ユーザの知的財産業務を支援できる。例えば、ユーザが分割出願の要否を検討する場合に、明細書および図面の少なくとも一方の中から、まだクレームアップされておらず、かつ、発明または考案の特徴を示す内容を目視で探す必要がなくなるので、業務支援システム１は、ユーザの業務負担を軽減できる。ユーザが拒絶理由通知書または拒絶査定の対応等の中間処理業務を行う場合も同様に、有効な補正材料を目視で探す必要がなくなるので、業務支援システム１は、ユーザの業務負担を軽減できる。例えば、明細書または図面の記載と、クレームに含まれる記載と、が完全に一致しなかったとしても、大規模言語モデルＭは、単純な文字列一致を判定するのではなく、言葉の意味を解釈して類否を判定できるので、既にクレームアップされたか否かを正確に判定できる。

【0100】

また、業務支援システム１は、第２モデルＭ２に、推定用のテキストを入力する。業務支援システム１は、第２モデルＭ２を含む大規模言語モデルＭから、推定用のテキストに、クレームアップされた方がよい発明または考案に関する特徴が記載されているか否かを示す出力を取得する。これにより、業務支援システム１は、特許出願または実用新案登録出願の書類の中から発明または考案に関する特徴を探すユーザの業務を支援できる。

【0101】

また、業務支援システム１は、第３モデルＭ３に、推定用のテキストと、推定用の書類に対応するクレームと、を入力する。業務支援システム１は、第３モデルＭ３を含む大規模言語モデルＭから、推定用のテキストが既にクレームアップされているか否かを示す出力を取得する。これにより、業務支援システム１は、例えば、特許出願または実用新案登録出願の書類の中から、まだクレームアップされていない記載を探すユーザの業務を支援できる。

【0102】

また、大規模言語モデルＭは、第１モデルＭ１、第２モデルＭ２、第３モデルＭ３、および第４モデルＭ４を含む。業務支援システム１は、第１モデルＭ１に、推定用のテキストと、推定用の書類に対応するクレームと、を入力する。業務支援システム１は、第２モデルＭ２に、推定用のテキストを入力する。業務支援システム１は、第３モデルＭ３に、推定用のテキストと、推定用の書類に対応するクレームと、を入力する。業務支援システム１は、第４モデルＭ４から、出力を取得する。これにより、業務支援システム１は、アンサンブル学習の手法を利用して異なる実務的視点での判断結果（異なる再学習を施した各モデルによる推定結果）を統合することで大規模言語モデルＭの精度を高めることができるので、ユーザの業務をより効果的に支援できる。

【0103】

［６．変形例］
本開示は、以上に説明した実施形態に限定されない。本開示は、本開示の趣旨を逸脱しない範囲で、適宜変更可能である。

【0104】

図１５は、変形例の業務支援システム１で実現される機能の一例を示す図である。変形例の業務支援システム１は、受付部１０６を含む。受付部１０６は、制御部１１により実現される。

【0105】

［６－１．変形例１］
例えば、大規模言語モデルＭは、第１モデルＭ１を含まなくてもよい。変形例１の大規模言語モデルＭは、第２モデルＭ２、第３モデルＭ３、および第４モデルＭ４を含む。変形例１の第２モデルＭ２および第３モデルＭ３は、実施形態の第２モデルＭ２および第３モデルＭ３と同様である。変形例１の第４モデルＭ４は、概ね実施形態の第４モデルＭ４と同様であるが、第１モデルＭ１の出力が入力されない点で実施形態とは異なる。

【0106】

変形例１の第４モデルＭ４には、第２モデルＭ２および第３モデルＭ３の各々の出力に関する第４入力部分と、最終的な推定結果に関する第４出力部分と、を含む第４訓練データが学習されている。変形例１の第４訓練データは、第１モデルＭ１の出力を含まない点で実施形態とは異なるが、他の点は、実施形態と同様である。変形例１の第４モデルＭ４は、第２モデルＭ２の出力と、第３モデルＭ３の出力と、に基づいて推定結果を出力する。変形例１の出力取得部１０４は、第４モデルＭ４から、出力を取得する。

【0107】

変形例１の大規模言語モデルＭは、第１モデルＭ１を含まずに、第２モデルＭ２、第３モデルＭ３、および第４モデルＭ４を含む。このような大規模言語モデルＭだったとしても、業務支援システム１は、実施形態で説明した理由と同様の理由で、ユーザの業務を支援できる。

【0108】

［６－２．変形例２］
例えば、大規模言語モデルＭは、第３モデルＭ３を含まなくてもよい。変形例２の大規模言語モデルＭは、第１モデルＭ１、第２モデルＭ２、および第４モデルＭ４を含む。変形例１の第１モデルＭ１および第２モデルＭ２は、実施形態の第１モデルＭ１および第２モデルＭ２と同様である。変形例１の第４モデルＭ４は、概ね実施形態の第４モデルＭ４と同様であるが、第３モデルＭ３の出力が入力されない点で実施形態とは異なる。

【0109】

変形例２の第４モデルＭ４には、第１モデルＭ１および第２モデルＭ２の各々の出力に関する第４入力部分と、最終的な推定結果に関する第４出力部分と、を含む第４訓練データが学習されている。変形例２の第４訓練データは、第３モデルＭ３の出力を含まない点で実施形態とは異なるが、他の点は、実施形態と同様である。変形例２の第４モデルＭ４は、第１モデルＭ１の出力と、第２モデルＭ２の出力と、に基づいて推定結果を出力する。変形例２の出力取得部１０４は、第４モデルＭ４から、出力を取得する。

【0110】

変形例２の大規模言語モデルＭは、第３モデルＭ３を含まずに、第１モデルＭ１、第２モデルＭ２、および第４モデルＭ４を含む。このような大規模言語モデルＭだったとしても、業務支援システム１は、実施形態で説明した理由と同様の理由で、ユーザの業務を支援できる。

【0111】

［６－３．変形例３］
例えば、大規模言語モデルＭは、第２モデルＭ２を含まなくてもよい。変形例３の大規模言語モデルＭは、第１モデルＭ１、第３モデルＭ３、および第４モデルＭ４を含む。変形例３の第１モデルＭ１および第３モデルＭ３は、実施形態の第１モデルＭ１および第３モデルＭ３と同様である。変形例３の第４モデルＭ４は、概ね実施形態の第４モデルＭ４と同様であるが、第２モデルＭ２の出力が入力されない点で実施形態とは異なる。

【0112】

変形例３の第４モデルＭ４には、第１モデルＭ１および第３モデルＭ３の各々の出力に関する第４入力部分と、最終的な推定結果に関する第４出力部分と、を含む第４訓練データが学習されている。変形例３の第４訓練データは、第２モデルＭ２の出力を含まない点で実施形態とは異なるが、他の点は、実施形態と同様である。変形例３の第４モデルＭ４は、第１モデルＭ１の出力と、第３モデルＭ３の出力と、に基づいて推定結果を出力する。変形例３の出力取得部１０４は、第４モデルＭ４から、出力を取得する。

【0113】

変形例３の大規模言語モデルＭは、第２モデルＭ２を含まずに、第１モデルＭ１、第３モデルＭ３、および第４モデルＭ４を含む。このような大規模言語モデルＭだったとしても、業務支援システム１は、実施形態で説明した理由と同様の理由で、ユーザの業務を支援できる。

【0114】

［６－４．変形例４］
例えば、大規模言語モデルＭからの出力は、ユーザの業務支援の目的だけではなく、他の目的で利用されてもよい。変形例４では、大規模言語モデルＭからの出力が、新たな訓練データの生成で利用される場合を説明する。先述のとおり、大規模言語モデルＭは、クレームアップをした方がよいかという統合的な観点の訓練データで再学習した言語モデルと、すでにクレームアップされているか否かという限定的な観点の訓練データで再学習した言語モデルと、を含む。そのため、大規模言語モデルＭに含まれる各言語モデルと対応する訓練データ同士は一定の相関を有する。これにより、任意の言語モデルの出力結果に応じ他の言語モデル用の訓練データをより簡便に生成することが可能となる。

【0115】

生成部１０１は、推定用のテキストと、大規模言語モデルＭからの出力と、に基づいて、新たな訓練データを生成する。新たな訓練データの入力部分および出力部分は、大規模言語モデルＭに学習済みの訓練データの入力部分および出力部分と同様である。例えば、生成部１０１は、大規模言語モデルＭに入力された推定用のテキストを、新たな訓練データの入力部分とする。生成部１０１は、大規模言語モデルＭからの出力を、新たな訓練データの出力部分とする。生成部１０１は、当該入力部分および当該出力部分を含む新たな訓練データを生成する。生成部１０１は、データ記憶部１００に、新たな訓練データを記録する。

【0116】

実施形態のように、大規模言語モデルＭが、第１モデルＭ１、第２モデルＭ２、第３モデルＭ３、および第４モデルＭ４を含む場合には、生成部１０１は、第１訓練データ、第２訓練データ、第３訓練データ、および第４訓練データの少なくとも１つを生成する。変形例４では、生成部１０１が、これらの全てを生成する場合を説明するが、生成部１０１は、これらの何れか１つ、２つ、または３つだけを生成してもよい。

【0117】

例えば、生成部１０１は、第１モデルＭ１に入力された、推定用のテキストと、当該テキストに対応するクレームと、を新たな第１訓練データの入力部分とする。生成部１０１は、第１モデルＭ１からの出力を、新たな第１訓練データの出力部分とする。生成部１０１は、当該入力部分および当該出力部分を含む新たな第１訓練データを生成する。生成部１０１は、第１訓練データベースＤＢ１に、新たな第１訓練データを格納する。

【0118】

例えば、生成部１０１は、第２モデルＭ２に入力された、推定用のテキストを、新たな第２訓練データの入力部分とする。生成部１０１は、第２モデルＭ２からの出力を、新たな第２訓練データの出力部分とする。生成部１０１は、当該入力部分および当該出力部分を含む新たな第２訓練データを生成する。生成部１０１は、第２訓練データベースＤＢ２に、新たな第２訓練データを格納する。

【0119】

例えば、生成部１０１は、第３モデルＭ３に入力された、推定用のテキストと、当該少なくとも一部に対応するクレームと、を新たな第３訓練データの入力部分とする。生成部１０１は、第３モデルＭ３からの出力を、新たな第３訓練データの出力部分とする。生成部１０１は、当該入力部分および当該出力部分を含む新たな第３訓練データを生成する。生成部１０１は、第３訓練データベースＤＢ３に、新たな第１訓練データを格納する。

【0120】

例えば、生成部１０１は、第４モデルＭ４に入力された、第１モデルＭ１からの出力、第２モデルＭ２からの出力、および第３モデルＭ３からの出力を、新たな第４訓練データの入力部分とする。生成部１０１は、第４モデルＭ４からの出力を、新たな第４訓練データの出力部分とする。生成部１０１は、当該入力部分および当該出力部分を含む新たな第４訓練データを生成する。生成部１０１は、第４訓練データベースＤＢ４に、新たな第４訓練データを格納する。

【0121】

生成部１０１は、第１モデルＭ１等の特定のモデルの出力結果に応じて、第２モデルＭ２、第３モデルＭ３等のその他のモデルと対応する新たな第２、第３訓練データを生成し対応するデータベースに格納してもよい。生成部１０１は、これらの訓練データの生成において、ラベリング関数を適宜、利用してよい。例えば、生成部１０１は、第１モデルＭ１の出力である第１スコアが所定のしきい値を超える場合に、ラベリング関数に従って、第２訓練データを、クレームアップされない方がよいことを示す値と対応するラベルを入力されたテキストに対応付けて生成する。また、生成部１０１は、第１モデルＭ１の出力結果および１以上の他のモデルの出力結果に基づいて、ラベリング関数に従って、残りのモデル（大規模言語モデル）と対応する訓練データを生成してもよい。

【0122】

学習部１０２は、新たな訓練データに基づいて、大規模言語モデルＭの再学習を半教師有り学習としてさらに実行する。学習部１０２が、新たな訓練データに基づいて、大規模言語モデルＭの再学習をさらに実行する点で実施形態とは異なるが、学習自体は、実施形態と同様であってよい。学習部１０２は、新たな訓練データの入力部分が入力された場合に、新たな訓練データの出力部分が出力されるように、大規模言語モデルＭの再学習をさらに実行する。

【0123】

例えば、学習部１０２は、新たな第１訓練データに基づいて、第１モデルＭ１の再学習をさらに実行する。学習部１０２は、新たな第１訓練データの入力部分が入力された場合に、新たな第１訓練データの出力部分が出力されるように、第１モデルＭ１の再学習をさらに実行する。学習部１０２は、新たな第２訓練データに基づいて、第２モデルＭ２の再学習をさらに実行する。学習部１０２は、新たな第２訓練データの入力部分が入力された場合に、新たな第２訓練データの出力部分が出力されるように、第２モデルＭ２の再学習をさらに実行する。

【0124】

例えば、学習部１０２は、新たな第３訓練データに基づいて、第３モデルＭ３の再学習をさらに実行する。学習部１０２は、新たな第３訓練データの入力部分が入力された場合に、新たな第３訓練データの出力部分が出力されるように、第３モデルＭ３の再学習をさらに実行する。学習部１０２は、新たな第４訓練データに基づいて、第４モデルＭ４の再学習をさらに実行する。学習部１０２は、新たな第４訓練データの入力部分が入力された場合に、新たな第４訓練データの出力部分が出力されるように、第４モデルＭ４の再学習をさらに実行する。

【0125】

変形例４の業務支援システム１は、推定用のテキストと、出力と、に基づいて、新たな訓練データを生成する。業務支援システム１は、新たな訓練データに基づいて、大規模言語モデルＭの再学習をさらに実行する。これにより、業務支援システム１は、大規模言語モデルＭの精度が高まる。業務支援システム１は、ユーザが訓練データを準備する手間を省ける。

【0126】

［６－５．変形例５］
例えば、実施形態では、ある特許出願または実用新案登録出願の明細書の中から、当該特許出願または実用新案登録出願でクレームアップされていない構成が検索される場合を例に挙げた。当該特許出願または実用新案登録出願が分割出願の場合には、当該特許出願または実用新案登録出願の明細書の中から、当該特許出願または実用新案登録出願と、原出願を含む他の特許出願または実用新案登録出願と、でクレームアップされていない構成が検索されてもよい。

【0127】

変形例５の訓練用の書類は、訓練用の分割出願の書類である。変形例５の第３訓練データの入力部分は、訓練用の分割出願に対応する訓練用の原出願のクレームの少なくとも一部も含む。クレームが、訓練用の分割出願のものであるか原出願のものであるかが実施形態とは異なるが、第３訓練データの第３入力部分の他の点は、実施形態と同様である。例えば、第３訓練データは、訓練用の原出願のクレームも含む。第１訓練データの第１入力部分が、訓練用の原出願のクレームを含んでもよい。

【0128】

変形例５の第３訓練データの第３出力部分は、訓練用のテキスト（訓練用の書類の少なくとも一部）が訓練用の原出願で既にクレームアップされているか否かを示す。第３訓練データの第３出力部分が示すものが、訓練用の分割出願のものであるか原出願のものであるかが実施形態とは異なるが、訓練データの出力部分の他の点は、実施形態と同様である。

【0129】

変形例５の推定用の書類は、推定用の分割出願の書類である。入力部１０３は、第３モデルＭ３に、推定用の分割出願に対応する推定用の原出願のクレームの少なくとも一部も入力する。ある特許出願または実用新案登録出願と、原出願と、の関係は、予め出願書類データベースＤＢ０に示されているものとする。

【0130】

入力部１０３が大規模言語モデルＭに入力するクレームが、推定用の分割出願の者であるか原出願のものであるかが実施形態とは異なるが、他の点については、実施形態と同様である。入力部１０３は、大規模言語モデルＭに、推定用の分割出願のクレームと、推定用の原出願のクレームと、を入力してもよい。例えば、第１モデルＭ１および第３モデルＭ３の各々に対する入力は、推定用の原出願のクレームも含む。

【0131】

変形例５の出力取得部１０４は、大規模言語モデルＭから、推定用のテキストが推定用の原出願で既にクレームアップされているか否かを示す出力を取得する。大規模言語モデルＭからの出力が示すものが、推定用の分割出願のものであるか原出願のものであるかが実施形態とは異なるが、大規模言語モデルＭからの出力の他の点は、実施形態と同様である。

【0132】

変形例５の訓練用の書類は、訓練用の分割出願の書類である。推定用の書類は、推定用の分割出願の書類である。業務支援システム１は、第３モデルＭ３に、推定用の分割出願に対応する推定用の原出願のクレームも入力する。業務支援システム１は、大規模言語モデルＭから、推定用の書類の少なくとも一部が推定用の原出願で既にクレームアップされているか否かを示す出力を取得する。これにより、業務支援システム１は、ある特許出願または実用新案登録出願だけではなく、その原出願でもクレームアップされていない内容をユーザが探す手間を省くことができるので、ユーザの業務を、より効果的に支援できる。

【0133】

［６－６．変形例６］
例えば、変形例５において、分割出願が繰り返されている場合には、訓練用の分割出願には、訓練用の原出願を含む複数の訓練用の他の出願が存在することがある。この場合、一連の他の出願におけるテキストが大規模言語モデルＭに学習されてもよい。他の出願の意味は、実施形態で説明した通りである。

【0134】

変形例６の第３訓練データの第３出力部分は、訓練用のテキストが複数の訓練用の他の出願の各々で既にクレームアップされているか否かを示す。第３訓練データの第３出力部分が、複数の他の出願の各々を対象とする点で変形例５とは異なるが、他の点は、変形例５と同様である。

【0135】

変形例６の推定用の分割出願には、推定用の原出願を含む複数の推定用の他の出願が存在する。入力部１０３は、大規模言語モデルＭに、複数の推定用の他の出願の各々のクレームも入力する。入力部１０３が、大規模言語モデルＭに、複数の他の出願の各々におけるクレームを入力する点で変形例５とは異なるが、他の点は、変形例５と同様である。

【0136】

変形例６の出力取得部１０４は、大規模言語モデルＭから、推定用のテキストが複数の推定用の他の出願の各々で既にクレームアップされているか否かを示す出力を取得する。大規模言語モデルＭの出力が示すものが、複数の他の出願の各々を対象とする点で変形例５とは異なるが、大規模言語モデルＭからの出力の他の点は、実施形態と同様である。

【0137】

変形例６の訓練用の分割出願には、訓練用の原出願を含む複数の訓練用の他の出願が存在する。推定用の分割出願には、推定用の原出願を含む複数の推定用の他の出願が存在する。業務支援システム１は、大規模言語モデルＭから、推定用のテキストが複数の推定用の他の出願の各々で既にクレームアップされているか否かを示す出力を取得する。これにより、業務支援システム１は、ある特許出願または実用新案登録出願だけではなく、その原出願を含む一連の他の出願でもクレームアップされていない内容をユーザが探す手間を省くことができるので、ユーザの業務を、より効果的に支援できる。

【0138】

［６－７．変形例７］
例えば、明細書には、複数の技術内容が含まれることがある。この場合、ユーザは、クレームアップされていない技術分野を指定したいと思うことがある。このため、大規模言語モデルＭには、ユーザが指定した技術内容が入力されてもよい。

【0139】

変形例７の第１訓練データの第１入力部分は、クレームアップに関する訓練用の技術内容も含む。第１訓練データの第１出力部分は、入力部分が示す内容が当該技術内容であり、かつ、クレームアップされた方がよいか否かを示す。技術内容は、何らかの観点で技術を分類可能な情報であればよく、例えば、技術内容を示すテキスト、ＩＰＣ、ＦＩ、Ｆターム、またはテーマコードであってもよい。技術内容は、日本国以外の他の国で採用されている分類であってもよい。大規模言語モデルＭには、技術内容も学習されている。変形例７の大規模言語モデルＭは、自然言語処理分野で利用されている質問応答モデルであってもよい。この場合、技術内容は、質問に相当する。なお、第２訓練データ及び第３訓練データについても同様に、訓練用の技術内容を含んでもよい。

【0140】

変形例７の業務支援システム１は、受付部１０６を含む。受付部１０６は、クレームアップに関する推定用の技術内容の入力を受け付ける受付部１０６を更に含む。例えば、ユーザは、ユーザ端末２０から任意の技術内容を入力する。ユーザ端末２０は、サーバ１０に対し、ユーザが入力した技術内容を示すデータを送信する。受付部１０６は、ユーザ端末２０から当該データを受信することによって、技術内容の入力を受け付ける。

【0141】

変形例７の入力部１０３は、大規模言語モデルＭに、推定用の技術内容も入力する。出力取得部１０４は、大規模言語モデルＭから、推定用のテキストと、推定用の技術内容と、に対応する出力を取得する。例えば、大規模言語モデルＭからの出力は、推定用のテキストが入力された技術内容を示し、かつ、クレームアップされた方がよいか否かを示す。大規模言語モデルＭは、推定用の技術内容に応じた推定を実行する点で実施形態とは異なるが、他の点については、実施形態と同様であってよい。

【0142】

変形例７の第１訓練データの第１入力部分は、クレームアップに関する訓練用の技術内容も含む。業務支援システム１は、クレームアップに関する推定用の技術内容の入力を受け付ける。業務支援システム１は、大規模言語モデルＭに、推定用の技術内容も入力する。業務支援システム１は、大規模言語モデルＭから、推定用のテキストと、推定用の技術内容と、に対応する出力を取得する。これにより、業務支援システム１は、ユーザが望む技術内容のうち、クレームアップされた方がよい内容を探す手間を省けるので、ユーザの業務を、より効果的に支援できる。

【0143】

［６－８．変形例８］
例えば、大規模学習モデルには、特許出願または実用新案登録出願における経過情報が学習されていてもよい。例えば、経過情報は、手続補正書、意見書、上申書、またはその他の情報である。変形例８では、手続補正書におけるクレームが経過情報に相当する場合を例に挙げる。

【0144】

変形例８の第１訓練データの第１入力部分は、訓練用の書類に対応する訓練用の経過情報も含む。例えば、訓練データの入力部分は、訓練用の書類に対応する特許出願または実用新案登録出願における手続補正書のクレームセットを含む。当該特許出願または実用新案登録出願のクレームセットであるか手続補正書のクレームセットであるかが実施形態とは異なるが、他の点については、実施形態と同様である。なお、第２訓練データ及び第３訓練データについても同様に、訓練用の経過情報を含んでもよい。

【0145】

変形例８の入力部１０３は、大規模言語モデルＭに、推定用の書類に対応する推定用の経過情報も入力する。出力取得部１０４は、大規模言語モデルＭから、推定用のテキストと、推定用の経過情報と、に対応する出力を取得する。大規模言語モデルＭは、推定用の経過情報に応じた推定を実行する点で実施形態とは異なるが、他の点については、実施形態と同様であってよい。

【0146】

変形例８の第１訓練データの第１入力部分は、訓練用の書類に対応する訓練用の経過情報も含む。業務支援システム１は、大規模言語モデルＭに、推定用の書類に対応する推定用の経過情報も入力する。業務支援システム１は、大規模言語モデルＭから、推定用のテキストと、推定用の経過情報と、に対応する出力を取得する。これにより、業務支援システム１は、特許出願または登録実用新案登録出願の経過情報も考慮できるので、ユーザの業務を、より効果的に支援できる。

【0147】

［６－９．変形例９］
例えば、実施形態では、業務支援部１０５が、ユーザ端末２０に業務支援画面を表示させることによって、業務を支援する場合を説明した。業務支援部１０５が実行する処理は、実施形態の例に限られない。変形例９の業務支援部１０５は、大規模言語モデルＭからの出力に基づいて、推定用の書類に関する価値（例えば、特許価値）を評価することによって、業務を支援する。価値とは、書類の評価の高さであってよく、書類における評価の分布や推移であってよい。

【0148】

変形例９では、価値が数値で表現される場合を例に挙げるが、価値は、文字またはその他の記号で表現されてよい。変形例９において、本発明は、知的財産業務支援システムが知的財産情報分析システムとして機能する。また、変形例９において、本発明は、知的財産業務支援システムが知的財産価値評価システムとして機能する。知的財産情報分析システムは、実施形態で説明した知的財産業務の支援の目的ではなく、知的財産情報の分析のためのシステムであってもよい。このため、変形例９の知的財産情報分析システムは、実施形態で説明した知的財産業務の機能を含まなくてもよい。

【0149】

例えば、業務支援部１０５は、大規模言語モデルＭから、クレームアップされた方がよいことを示す出力が得られたテキストが多いほど、推定用の書類に関する価値が高くなるように、当該価値を評価する。評価は、クレームアップされた方がよいことを示す出力が得られたテキストの数であってもよいし、第４スコアの合計値であってもよい。評価は、特許出願または実用新案登録出願の書類の長さに応じて調整されてもよい。

【0150】

例えば、業務支援部１０５は、大規模言語モデルＭから、クレームアップされた方がよいことを示す出力が得られたテキストを、大規模言語モデルＭの処理対象としたテキストの総数で割った値を評価としてもよい。業務支援部１０５は、特許出願または実用新案登録出願の書類の評価を、業務支援画面に表示させる。業務支援部１０５は、特許出願または実用新案登録出願の書類の評価およびそのパラメータ等を、出願書類データベースＤＢ０に格納してもよいし、電子メール等でユーザのメールアドレスに送信してもよい。

【0151】

例えば、業務支援部１０５は、少なくとも第１モデルＭ１からなる大規模言語モデルＭが出力した書類を構成する各テキストに係るスコアの推移を、当該書類の評価として取得してよい。また、例えば、業務支援部１０５は、当該各テキストに係るスコアの分布を、当該書類の評価として取得してよい。

【0152】

例えば、業務支援部１０５は、先述のスコアの推移（時系列データに相当。）または分布に対して所定の関数を適用しパラメータフィッティングを行うことで得られたパラメータを当該書類の評価パラメータとして決定してよい。

【0153】

例えば、業務支援部１０５は、当該評価パラメータが類似する他の書類（例えば、他の特許出願の書類）を、例えば出願書類データベースＤＢ０から探索し、探索された他の書類の提示をユーザに対して行ってよい。ここで、探索された当該他の書類とは、評価パラメータが決定された（評価された）書類と実務的傾向が類似する可能性を有する書類である。これにより、当該提示は、ユーザに対する業務支援における示唆となり得る。変形例９の知的財産価値評価システムは、大規模言語モデルＭからの出力に基づいて、推定用の書類に関する価値を評価することによって、特許出願等の書類の価値を精度良く評価できる。

【0154】

［６－１０．変形例１０］
先述のとおり、大規模言語モデルＭは、第１モデルＭ１、第２モデルＭ２、第３モデルＭ３、および第４モデルＭ４に限らず、その他のモデルをさらに含んでよい。

【0155】

例えば、大規模言語モデルＭは、第ｍモデルＭｍとして、入力対象のテキストおよび当該テキストが発明該当性要件、産業上の利用可能性の要件、サポート要件、実施可能要件、および明確性要件を含む各種の特許要件群から選択される１以上の要件を充足するか否かを示すラベルが対応付けられた第ｍ訓練データを再学習した事前学習済みの大規模言語モデルを、さらに含んでよい。他にも例えば、大規模言語モデルＭは、分割出願ではない自社の関連出願で既にクレームアップされているか否かを示すラベルが対応付けられた第ｍ訓練データを再学習した事前学習済みの大規模言語モデルを、さらに含んでよい。

【0156】

また、例えば、大規模言語モデルＭは、第ｍモデルＭｍとして、入力対象となるテキストおよび当該テキストが設計事項か否かを示すラベルが対応付けられた第ｍ訓練データを再学習した事前学習済みの大規模言語モデルを、さらに含んでよい。

【0157】

第ｍモデルＭｍには、訓練用のテキストに関する第ｍ入力部分と、当該テキストが所定の観点において該当するかどうかを示す第ｍ出力部分と、を含む第ｍ訓練データが再学習されている。学習部１０２は、第ｍ訓練データの入力部分が入力された場合に、第ｍ訓練データの出力部分が出力されるように、第２モデルＭ２の学習を実行する。つまり、第ｍモデルＭｍの出力結果と、第ｍ訓練データの出力部分と、の損失が小さくなるよう、当該再学習が行われている第ｍモデルＭｍの学習のアルゴリズムも、先述した公知のアルゴリズムであってよい。ここで、生成部１０１は、第ｍ訓練データを生成し、第ｍ訓練データを第ｍ訓練データベースに格納する。

【0158】

［６－１０．その他の変形例］
例えば、上記変形例を組み合わせてもよい。

【0159】

例えば、大規模言語モデルＭは、第４モデルＭ４を含まなくてもよい。この場合、大規模言語モデルＭは、第１モデルＭ１、第２モデルＭ２、および第３モデルＭ３の各々を出力してもよいし、第１モデルＭ１、第２モデルＭ２、および第３モデルＭ３の各々の出力の組み合わせに応じた第４ラベルを出力してもよい。第１モデルＭ１、第２モデルＭ２、および第３モデルＭ３の各々の出力の組み合わせに基づいて、明細書の個々のテキストがクレームアップされた方がよいか否かが決まる。大規模言語モデルＭは、第１モデルＭ１、第２モデルＭ２、または第３モデルＭ３の何れか１つだけから構成されてもよい。この場合、第１モデルＭ１、第２モデルＭ２、または第３モデルＭ３の何れか１つが大規模言語モデルＭそのものに相当する。

【0160】

例えば、実施形態では、サーバ１０で主な処理が実行される場合を説明したが、サーバ１０で実行されるものとして説明した処理は、ユーザ端末２０または他のコンピュータで実行されてもよいし、複数のコンピュータで分担されてもよい。

【0161】

本発明によれば、知的財産業務における統合的な基準に沿った強い推定を行う言語モデルに加えて、同業務における限定的な基準に沿った弱い推定を行うモデルを含むような、大規模言語モデルを利用することで、ユーザの知的財産業務を支援することができる。

【0162】

［７．付記］
例えば、業務支援システムは、下記のような構成も可能である。
（１）
特許出願または実用新案登録出願の書類であって、訓練用の前記書類の少なくとも一部に関する第１入力部分と、当該少なくとも一部がクレームアップされた方がよいか否かに関する第１出力部分と、を含む第１訓練データが再学習された第１モデルと、当該少なくとも一部がクレームアップされた方がよいか否かに関する推定で補足的に利用される他のモデルと、を含む事前学習済みの大規模言語モデルに、推定用の前記書類の少なくとも一部を入力する入力部と、
前記大規模言語モデルから、前記推定用の書類の少なくとも一部がクレームアップされた方がよいか否かに関する出力を取得する出力取得部と、
前記出力に基づいて、前記推定用の書類に含まれるテキストのうちクレームアップの対象となるテキストを決定し、当該クレームアップの対象となるテキストをユーザに推薦することで知的財産業務を支援する業務支援部と、
を含む大規模言語モデルを利用した知的財産業務支援システム。
（２）
前記大規模言語モデルは、前記訓練用の書類に対応する明細書または図面の少なくとも一部のテキストに関する第２入力部分と、当該少なくとも一部のテキストにクレームアップされた方がよい発明または考案に関する特徴が記載されているか否かに関する第２出力部分と、を含む第２訓練データが再学習された第２モデルを、前記他のモデルとして含み、
前記入力部は、前記第２モデルに、前記推定用の書類に対応する明細書又は図面の少なくとも一部のテキストを入力する、
（１）に記載の大規模言語モデルを利用した知的財産業務支援システム。
（３）
前記大規模言語モデルは、前記訓練用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記訓練用の書類に対応するクレームの少なくとも一部と、に関する第３入力部分と、当該少なくとも一部のテキストの内容が既にクレームアップされているか否かに関する第３出力部分と、を含む第３訓練データが再学習された第３モデルを、前記他のモデルとして含み、
前記入力部は、前記第３モデルに、前記推定用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記訓練用の書類に対応するクレームの少なくとも一部と、を入力する、
（１）または（２）に記載の大規模言語モデルを利用した知的財産業務支援システム。
（４）
前記大規模言語モデルは、
前記訓練用の書類に対応する明細書または図面の少なくとも一部のテキストに関する第２入力部分と、当該少なくとも一部のテキストにクレームアップされた方がよい発明または考案に関する特徴が記載されているか否かに関する第２出力部分と、を含む第２訓練データが再学習された第２モデルと、
前記訓練用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記訓練用の書類に対応するクレームの少なくとも一部と、に関する第３入力部分と、当該少なくとも一部のテキストの内容が既にクレームアップされているか否かに関する第３出力部分と、を含む第３訓練データが再学習された第３モデルと、
前記第１モデル、前記第２モデル、および前記第３モデルの各々の出力が入力される第４モデルと、
を前記他のモデルとして含み、
前記入力部は、
前記第２モデルに、前記推定用の書類に対応する明細書又は図面の少なくとも一部のテキストを入力し、
前記第３モデルに、前記推定用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記推定用の書類に対応するクレームの少なくとも一部と、を入力し、
前記出力取得部は、前記第４モデルから、前記出力を取得する、
（１）～（３）の何れかに記載の大規模言語モデルを利用した知的財産業務支援システム。
（５）
前記大規模言語モデルは、
前記訓練用の書類に対応する明細書または図面の少なくとも一部のテキストに関する第２入力部分と、当該少なくとも一部のテキストにクレームアップされた方がよい発明または考案に関する特徴が記載されているか否かに関する第２出力部分と、を含む第２訓練データが再学習された第２モデルと、
前記第１モデルおよび前記第２モデルの各々の出力が入力される第４モデルと、
を含み、
前記入力部は、前記第２モデルに、前記推定用の書類に対応する明細書又は図面の少なくとも一部のテキストを入力し、
前記出力取得部は、前記第４モデルから、前記出力を取得する、
（１）～（４）の何れかに記載の大規模言語モデルを利用した知的財産業務支援システム。
（６）
前記大規模言語モデルは、
前記訓練用の書類に対応する明細書または図面の少なくとも一部のテキストと、前記訓練用の書類に対応するクレームの少なくとも一部と、に関する第３入力部分と、当該少なくとも一部のテキストの内容が既にクレームアップされているか否かに関する第３出力部分と、を含む第３訓練データが再学習された第３モデルと、
前記第１モデルおよび前記第３モデルの各々の出力が入力される第４モデルと、
を含み、
前記入力部は、前記第３モデルに、前記推定用の書類に対応する明細書または図面の少なくとも一部テキストと、前記推定用の書類に対応するクレームの少なくとも一部と、を入力し、
前記出力取得部は、前記第４モデルから、前記出力を取得する、
（１）～（５）の何れかに記載の大規模言語モデルを利用した知的財産業務支援システム。
（７）
前記知的財産業務支援システムは、
前記推定用の書類の少なくとも一部と、前記出力と、に基づいて、新たな訓練データを生成する生成部と、
前記新たな訓練データに基づいて、前記大規模言語モデルの再学習をさらに実行する学習部と、
を更に含む（１）～（６）の何れかに記載の大規模言語モデルを利用した知的財産業務支援システム。
（８）
前記訓練用の書類は、訓練用の分割出願の書類であり、
前記第３入力部分は、前記訓練用の分割出願に対応する訓練用の原出願のクレームの少なくとも一部も含み、
前記第３出力部分は、前記訓練用の書類の少なくとも一部が前記訓練用の原出願で既にクレームアップされているか否かを示し、
前記推定用の書類は、推定用の分割出願の書類であり、
前記入力部は、前記第３モデルに、前記推定用の分割出願に対応する推定用の原出願のクレームの少なくとも一部も入力する、
（３）、（４）、又は（６）に記載の大規模言語モデルを利用した知的財産業務支援システム。
（９）
前記訓練用の分割出願には、前記訓練用の原出願を含む複数の訓練用の他の出願が存在し、
前記第３出力部分は、前記訓練用の書類の少なくとも一部が前記複数の訓練用の他の出願の各々で既にクレームアップされているか否かを示し、
前記推定用の分割出願には、前記推定用の原出願を含む複数の推定用の他の出願が存在し、
前記入力部は、前記第３モデルに、前記複数の推定用の他の出願の各々のクレームの少なくとも一部も入力する、
（８）に記載の大規模言語モデルを利用した知的財産業務支援システム。
（１０）
前記第１入力部分は、クレームアップに関する訓練用の技術内容も含み、
前記知的財産業務支援システムは、クレームアップに関する推定用の技術内容の入力を受け付ける受付部を更に含み、
前記入力部は、前記大規模言語モデルに、前記推定用の技術内容も入力し、
前記出力取得部は、前記大規模言語モデルから、前記推定用の書類の少なくとも一部と、前記推定用の技術内容と、に対応する前記出力を取得する、
（１）～（９）の何れかに記載の大規模言語モデルを利用した知的財産業務支援システム。
（１１）
前記第１入力部分は、前記訓練用の書類に対応する訓練用の経過情報も含み、
前記入力部は、前記大規模言語モデルに、前記推定用の書類に対応する推定用の経過情報も入力し、
前記出力取得部は、前記大規模言語モデルから、前記推定用の書類の少なくとも一部と、前記推定用の経過情報と、に対応する前記出力を取得する、
（１）～（１０）の何れかに記載の大規模言語モデルを利用した知的財産業務支援システム。

【符号の説明】

【0163】

１業務支援システム、１０サーバ、１１制御部、１２記憶部、１３通信部、２０ユーザ端末、２１制御部、２２記憶部、２３通信部、２４操作部、２５表示部、１００データ記憶部、１０１生成部、１０２学習部、１０３入力部、１０４出力取得部、１０５業務支援部、１０６受付部、２００データ記憶部、２０１操作受付部、２０２表示制御部、Ｎネットワーク、Ｍ大規模言語モデル、Ｍ１第１モデル、Ｍ２第２モデル、Ｍ３第３モデル、Ｍ４第４モデル、ＤＢ０出願書類データベース、ＤＢ１第１訓練データベース、ＤＢ２第２訓練データベース、ＤＢ３第３訓練データベース、ＤＢ４第４訓練データベース。

【要約】

【課題】ユーザの知的財産業務を支援すること。
【解決手段】業務支援システム（１）の入力部（１０３）は、特許出願または実用新案登録出願の書類であって、訓練用の書類の少なくとも一部に関する第１入力部分と、当該少なくとも一部がクレームアップされた方がよいか否かに関する第１出力部分と、を含む第１訓練データが再学習された第１モデルと、当該少なくとも一部がクレームアップされた方がよいか否かに関する推定で補足的に利用される他のモデルと、を含む大規模言語モデルに、推定用の前記書類の少なくとも一部を入力する。出力取得部（１０４）は、大規模言語モデルから、推定用の書類の少なくとも一部がクレームアップされた方がよいか否かに関する出力を取得する。業務支援部（１０５）は、出力に基づいて、推定用の書類に含まれるテキストのうちクレームアップの対象となるテキストを決定し、当該クレームアップの対象となるテキストをユーザに推薦することで知的財産業務を支援する。
【選択図】図７