特開2025-73953 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アクタピオ，インコーポレイテッドの特許一覧

特開2025-73953情報処理方法、情報処理装置および情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025073953

(43)【公開日】2025-05-13

(54)【発明の名称】情報処理方法、情報処理装置および情報処理プログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20250502BHJP

G06F 40/216 20200101ALI20250502BHJP

G06F 40/44 20200101ALI20250502BHJP

【ＦＩ】

G06N20/00

G06F40/216

G06F40/44

【審査請求】有

【請求項の数】16

【出願形態】ＯＬ

(21)【出願番号】P 2024019684

(22)【出願日】2024-02-13

(31)【優先権主張番号】63/593,902

(32)【優先日】2023-10-27

(33)【優先権主張国・地域又は機関】US

(71)【出願人】

【識別番号】520090055

【氏名又は名称】アクタピオ，インコーポレイテッド

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】岡本慎一郎

(57)【要約】（修正有）

【課題】文章以外の情報を適切に入力可能なモデルを生成する情報処理方法、情報処理装置および情報処理プログラムを提供する。
【解決手段】情報処理装置、モデル生成サーバおよび端末装置が、ネットワークを介して有線または無線により通信可能に接続される情報処理システムにおいて、コンピュータである情報処理装置が実行する情報処理方法は、文章である文章テキスト以外の情報が変換された変換後情報を含む複数の入力情報を入力とするモデルの学習に用いられる学習データを取得する取得工程と、学習データを用いた学習により、文章テキスト以外の情報を変換して入力可能なモデルを生成する生成工程と、を含む。取得工程は、汎用的な言語能力の学習に用いる第１データ群を含む前記学習データを取得し、生成工程は、前記第１データ群を用いた第１段階の学習処理を含む前記複数段階の学習処理により、基盤モデルを生成する。
【選択図】図６

【特許請求の範囲】

【請求項1】

コンピュータが実行する情報処理方法であって、
テキストを入力とする基盤モデルの学習に用いられる学習データを取得する取得工程と、
前記学習データを用いた複数段階の学習処理により、前記基盤モデルを生成する生成工程と、
を含むことを特徴とする情報処理方法。

【請求項2】

前記取得工程は、
汎用的な言語能力の学習に用いる第１データ群を含む前記学習データを取得し、
前記生成工程は、
前記第１データ群を用いた第１段階の学習処理を含む前記複数段階の学習処理により、前記基盤モデルを生成する
ことを特徴とする請求項１に記載の情報処理方法。

【請求項3】

前記取得工程は、
大規模言語モデルの学習に用いられる自然言語データを含む前記第１データ群を取得する
ことを特徴とする請求項２に記載の情報処理方法。

【請求項4】

前記取得工程は、
特定の処理のための言語能力の学習に用いる第２データ群を含む前記学習データを取得し、
前記生成工程は、
前記第２データ群を用いた第２段階の学習処理を含む前記複数段階の学習処理により、前記基盤モデルを生成する
ことを特徴とする請求項１に記載の情報処理方法。

【請求項5】

前記取得工程は、
インターネットにおいて投稿に関するデータである前記第２データ群を含む前記学習データを取得する
ことを特徴とする請求項４に記載の情報処理方法。

【請求項6】

前記取得工程は、
インターネットにおいて投稿された文章に対応するテキストを含む前記第２データ群を取得する
ことを特徴とする請求項５に記載の情報処理方法。

【請求項7】

前記取得工程は、
インターネットにおいて投稿された質問に対応するテキストを含む前記第２データ群を取得する
ことを特徴とする請求項６に記載の情報処理方法。

【請求項8】

前記取得工程は、
インターネットにおいて投稿された回答に対応するテキストを含む前記第２データ群を取得する
ことを特徴とする請求項６に記載の情報処理方法。

【請求項9】

前記生成工程は、
前記基盤モデルのレイヤーを増やして学習を行う第３段階の学習処理を含む前記複数段階の学習処理により、前記基盤モデルを生成する
ことを特徴とする請求項１に記載の情報処理方法。

【請求項10】

前記生成工程は、
特定の処理のための言語能力の学習に用いるデータを用いた前記第３段階の学習処理により前記基盤モデルを生成する
ことを特徴とする請求項９に記載の情報処理方法。

【請求項11】

前記生成工程は、
インターネットにおいて投稿に関するデータを用いた前記第３段階の学習処理により前記基盤モデルを生成する
ことを特徴とする請求項１０に記載の情報処理方法。

【請求項12】

前記生成工程は、
インターネットにおいて投稿された文章に対応するテキストを用いた前記第３段階の学習処理により前記基盤モデルを生成する
ことを特徴とする請求項１１に記載の情報処理方法。

【請求項13】

前記生成工程は、
前記第３段階の学習処理を繰り返し実行することにより、前記基盤モデルのレイヤーの増加処理、及び増加後の前記基盤モデルを対象とする学習処理を行い、前記基盤モデルを生成する
ことを特徴とする請求項９に記載の情報処理方法。

【請求項14】

前記生成工程は、
文章以外の情報を用いた学習により、前記基盤モデルと、前記基盤モデルを所定のタスクに適用するようにファインチューニングしたファインチューニングモデルとを生成する
ことを特徴とする請求項１に記載の情報処理方法。

【請求項15】

前記生成工程は、
前記基盤モデルと、前記基盤モデルとは入力情報の入力が異なる前記ファインチューニングモデルとを生成する
ことを特徴とする請求項１４に記載の情報処理方法。

【請求項16】

前記生成工程は、
前記基盤モデルと、前記基盤モデルと入力情報の入力順が同じである前記ファインチューニングモデルとを生成する
ことを特徴とする請求項１４に記載の情報処理方法。

【請求項17】

前記生成工程は、
前記文章である文章テキスト以外の情報が変換された変換後情報を含む複数の入力情報を入力とする前記基盤モデルと前記ファインチューニングモデルとを生成する
ことを特徴とする請求項１４に記載の情報処理方法。

【請求項18】

前記生成工程は、
前記基盤モデルの学習において、ラベル情報を入力情報として用いる
ことを特徴とする請求項１に記載の情報処理方法。

【請求項19】

テキストを入力とする基盤モデルの学習に用いられる学習データを取得する取得部と、
前記学習データを用いた複数段階の学習処理により、前記基盤モデルを生成する生成部と、
を有する情報処理装置。

【請求項20】

テキストを入力とする基盤モデルの学習に用いられる学習データを取得する取得手順と、
前記学習データを用いた複数段階の学習処理により、前記基盤モデルを生成する生成手順と、
をコンピュータに実行させるための情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理方法、情報処理装置および情報処理プログラムに関する。

【背景技術】

【0002】

近年、言語モデル等の各種モデルに対し、学習データが有する特徴を学習させることで、モデルを生成する技術が提案されている。このように学習された言語モデル等のモデルは、各種の予測や分類等といった各種の推論処理に用いられる。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２３－０７２８６３号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

また、上述した技術には、モデルの生成において改善の余地がある。例えば、上述した例では、業界特有の表現を含む文章を入力として、その表現を精度よく解釈可能にするモデルを生成できるものの、モデルの学習については改善の余地があり、より柔軟にモデルを生成することが望まれている。例えば、様々な用途のモデルの一部として利用可能な基盤モデルや、所定のタスクに適用するようにファインチューニングされたファインチューニングモデル等の学習については改善の余地がある。そのため、例えば、基盤モデルを適切に生成することが望まれている。

【課題を解決するための手段】

【0005】

本願に係る情報処理方法は、コンピュータが実行する情報処理方法であって、テキストを入力とする基盤モデルの学習に用いられる学習データを取得する取得工程と、前記学習データを用いた複数段階の学習処理により、前記基盤モデルを生成する生成工程と、を含むことを特徴とする。

【発明の効果】

【0006】

実施形態の一態様によれば、基盤モデルを適切に生成することができる。

【図面の簡単な説明】

【0007】

【図1】実施形態に係る情報処理システムの一例を示す図である。

【図2】実施形態における情報処理装置を用いたモデル生成の流れの一例を説明する図である。

【図3】実施形態に係る情報処理装置の構成例を示す図である。

【図4】実施形態に係る学習データデータベースに登録される情報の一例を示す図である。

【図5】実施形態に係る情報処理の流れの一例を示すフローチャートである。

【図6】実施形態に係る情報処理の流れの一例を示すフローチャートである。

【図7】実施形態に係るモデルの構造の一例を示す図である。

【図8】実施形態に係るモデルの入力の指定の一例を示す図である。

【図9】実施形態に係るモデルの入力の指定の一例を示す図である。

【図10】実施形態に係る入力の種別の一例を示す図である。

【図11】実施形態に係るモデルの入力の一例を示す図である。

【図12】実施形態に係るモデルの構造の他の例を示す図である。

【図13】実施形態に係るモデルの入力の一例を示す図である。

【図14】実験結果の一例を示す図である。

【図15】実験結果の一例を示す図である。

【図16】実験結果の一例を示す図である。

【図17】実験結果の一例を示す図である。

【図18】実験結果の一例を示す図である。

【図19】実施形態に係るモデルの学習処理の一例を示す図である。

【図20】実施形態に係るモデルの学習処理の一例を示す図である。

【図21】実施形態に係るモデルの学習処理の一例を示す図である。

【図22】実験結果の一例を示す図である。

【図23】実験結果の一例を示す図である。

【図24】実験結果の一例を示す図である。

【図25】実験結果の一例を示す図である。

【図26】ハードウェア構成の一例を示す図である。

【発明を実施するための形態】

【0008】

以下に、本願に係る情報処理方法、情報処理装置および情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理方法、情報処理装置および情報処理プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

【0009】

［実施形態］
以下の実施形態では、最初にシステム構成等の前提について説明した後、テキストを入力とするモデルの生成に関する処理を説明する。本実施形態では、上述したモデルの生成、実験結果等を示す前に、まずモデルを生成する情報処理システム１の構成等について説明する。

【0010】

〔１．情報処理システムの構成〕
まず、図１を用いて、情報処理装置の一例である情報処理装置１０を有する情報処理システムの構成について説明する。図１は、実施形態に係る情報処理システムの一例を示す図である。図１に示すように、情報処理システム１は、情報処理装置１０、モデル生成サーバ２、および端末装置３を有する。なお、情報処理システム１は、複数のモデル生成サーバ２や複数の端末装置３を有していてもよい。また、情報処理装置１０と、モデル生成サーバ２とは、同一のサーバ装置やクラウドシステム等により実現されてもよい。ここで、情報処理装置１０、モデル生成サーバ２、および端末装置３は、ネットワークＮ（例えば、図３参照）を介して有線または無線により通信可能に接続される。

【0011】

情報処理装置１０は、モデルの生成における指標（すなわち、モデルのレシピ）である生成指標を生成する指標生成処理と、生成指標に従ってモデルを生成するモデル生成処理とを実行し、生成した生成指標およびモデルを提供する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。

【0012】

モデル生成サーバ２は、学習データが有する特徴を学習させたモデルを生成する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。例えば、モデル生成サーバ２は、モデルの生成指標として、生成するモデルの種別や行動、どのように学習データの特徴を学習させるかといったコンフィグファイルを受付けると、受付けたコンフィグファイルに従って、モデルの自動生成を行う。なお、モデル生成サーバ２は、任意のモデル学習手法を用いて、モデルの学習を行ってもよい。また、例えば、モデル生成サーバ２は、ＡｕｔｏＭＬ（Automated Machine Learning）といった各種既存のサービスであってもよい。

【0013】

端末装置３は、利用者Ｕによって利用される端末装置であり、例えば、ＰＣ（Personal Computer）やサーバ装置等により実現される。例えば、端末装置３は、情報処理装置１０とのやり取りを介して、モデルの生成指標を生成させ、生成させた生成指標に従ってモデル生成サーバ２が生成したモデルを取得する。

【0014】

〔２．情報処理装置１０が実行する処理の概要〕
まず、情報処理装置１０が実行する処理の概要について説明する。まず、情報処理装置１０は、端末装置３からモデルに特徴を学習させる学習データの指摘を受付ける（ステップＳ１）。例えば、情報処理装置１０は、学習に用いる各種の学習データを所定の記憶装置に記憶させており、利用者Ｕが学習データに指定する学習データの指摘を受付ける。なお、情報処理装置１０は、例えば、端末装置３や各種外部のサーバから、学習に用いる学習データを取得してもよい。

【0015】

ここで、学習データとは、任意のデータが採用可能である。例えば、情報処理装置１０は、各利用者の位置の履歴や各利用者が閲覧したウェブコンテンツの履歴、各利用者による購買履歴や検索クエリの履歴等、利用者に関する各種の情報を学習データとしてもよい。また、情報処理装置１０は、利用者のデモグラフィック属性やサイコグラフィック属性等を学習データとしてもよい。また、情報処理装置１０は、配信対象となる各種ウェブコンテンツの種別や内容、作成者等のメタデータ等を学習データとしてもよい。

【0016】

このような場合、情報処理装置１０は、学習に用いる学習データの統計的な情報に基づいて、生成指標の候補を生成する（ステップＳ２）。例えば、情報処理装置１０は、学習データに含まれる値の特徴等に基づいて、どのようなモデルに対し、どのような学習手法により学習を行えばよいかを示す生成指標の候補を生成する。換言すると、情報処理装置１０は、学習データの特徴を精度よく学習可能なモデルやモデルに精度よく特徴を学習させるための学習手法を生成指標として生成する。すなわち、情報処理装置１０は、学習手法の最適化を行う。なお、どのような学習データが選択された場合に、どのような内容の生成指標を生成するかについては、後述する。

【0017】

続いて、情報処理装置１０は、生成指標の候補を端末装置３に対して提供する（ステップＳ３）。このような場合、利用者Ｕは、生成指標の候補を嗜好や経験則等に応じて修正する（ステップＳ４）。そして、情報処理装置１０は、各生成指標の候補と学習データとをモデル生成サーバ２に提供する（ステップＳ５）。

【0018】

一方、モデル生成サーバ２は、生成指標ごとに、モデルの生成を行う（ステップＳ６）。例えば、モデル生成サーバ２は、生成指標が示す構造を有するモデルに対し、生成指標が示す学習手法により学習データが有する特徴を学習させる。そして、モデル生成サーバ２は、生成したモデルを情報処理装置１０に提供する（ステップＳ７）。

【0019】

ここで、モデル生成サーバ２によって生成された各モデルは、それぞれ生成指標の違いに由来する精度の違いが生じると考えられる。そこで、情報処理装置１０は、各モデルの精度に基づいて、遺伝的アルゴリズムにより新たな生成指標を生成し（ステップＳ８）、新たに生成した生成指標を用いたモデルの生成を繰り返し実行する（ステップＳ９）。

【0020】

例えば、情報処理装置１０は、学習データを評価用データと学習用データとに分割し、学習用データが有する特徴を学習させたモデルであって、それぞれ異なる生成指標に従って生成された複数のモデルを取得する。例えば、情報処理装置１０は、１０個の生成指標を生成し、生成した１０個の生成指標と、学習用データとを用いて、１０個のモデルを生成する。このような場合、情報処理装置１０は、評価用データを用いて、１０個のモデルそれぞれの精度を測定する。

【0021】

続いて、情報処理装置１０は、１０個のモデルのうち、精度が高い方から順に所定の数のモデル（例えば、５個）を選択する。そして、情報処理装置１０は、選択した５個のモデルを生成した際に採用された生成指標から、新たな生成指標を生成する。例えば、情報処理装置１０は、各生成指標を遺伝的アルゴリズムの個体と見做し、各生成指標が示すモデルの種別、モデルの構造、各種の学習手法（すなわち、生成指標が示す各種の指標）を遺伝的アルゴリズムにおける遺伝子と見做す。そして、情報処理装置１０は、遺伝子の交叉を行う個体の選択および遺伝子の交叉を行うことで、次世代の生成指標を１０個新たに生成する。なお、情報処理装置１０は、遺伝子の交叉を行う際に、突然変異を考慮してもよい。また、情報処理装置１０は、二点交叉、多点交叉、一様交叉、交叉対象となる遺伝子のランダムな選択を行ってもよい。また、情報処理装置１０は、例えば、モデルの精度が高い個体の遺伝子程、次世代の個体に引き継がれるように、交叉を行う際の交叉率を調整してもよい。

【0022】

また、情報処理装置１０は、次世代の生成指標を用いて、再度新たな１０個のモデルを生成する。そして、情報処理装置１０は、新たな１０個のモデルの精度に基づいて、上述した遺伝的アルゴリズムによる新たな生成指標の生成を行う。このような処理を繰り返し実行することで、情報処理装置１０は、生成指標を学習データの特徴に応じた生成指標、すなわち、最適化された生成指標へと近づけることができる。

【0023】

また、情報処理装置１０は、所定の回数新たな生成指標を生成した場合や、モデルの精度の最大値、平均値、若しくは最低値が所定の閾値を超えた場合等、所定の条件が満たされた場合は、最も精度が高いモデルを提供対象として選択する。そして、情報処理装置１０は、選択したモデルと共に、対応する生成指標を端末装置３に提供する（ステップＳ１０）。このような処理の結果、情報処理装置１０は、利用者から学習データを選択するだけで、適切なモデルの生成指標を生成するとともに、生成した生成指標に従うモデルを提供することができる。

【0024】

なお、上述した例では、情報処理装置１０は、遺伝的アルゴリズムを用いて生成指標の段階的な最適化を実現したが、実施形態は、これに限定されるものではない。後述する説明で明らかとなるように、モデルの精度は、モデルの種別や構造といったモデルそのものの特徴のみならず、どのような学習データをどのようにモデルに入力するのか、どのようなハイパーパラメータを用いてモデルの学習を行うのかというように、モデルを生成する際（すなわち、学習データの特徴を学習させる際）の指標に応じて大きく変化する。

【0025】

そこで、情報処理装置１０は、学習データに応じて、最適と推定される生成指標を生成するのであれば、遺伝的アルゴリズムを用いた最適化を行わずともよい。例えば、情報処理装置１０は、学習データが、経験則に応じて生成された各種の条件を満たすか否かに応じて生成した生成指標を利用者に提示するとともに、提示した生成指標に従ったモデルの生成を行ってもよい。また、情報処理装置１０は、提示した生成指標の修正を受付けると、受付けた修正後の生成指標に従ってモデルの生成を行い、生成したモデルの精度等を利用者に対して提示し、再度生成指標の修正を受付けてもよい。すなわち、情報処理装置１０は、利用者Ｕに最適な生成指標を試行錯誤させてもよい。

【0026】

〔３．生成指標の生成について〕
以下、どのような学習データに対して、どのような生成指標を生成するかの一例について説明する。なお、以下の例は、あくまで一例であり、学習データが有する特徴に応じて生成指標を生成するのであれば、任意の処理が採用可能である。

【0027】

〔３－１．生成指標について〕
まず、生成指標が示す情報の一例について説明する。例えば、学習データが有する特徴をモデルに学習させる場合、学習データをモデルに入力する際の態様、モデルの態様、およびモデルの学習態様（すなわち、ハイパーパラメータが示す特徴）が最終的に得られるモデルの精度に寄与すると考えられる。そこで、情報処理装置１０は、学習データの特徴に応じて、各態様を最適化した生成指標を生成することで、モデルの精度を向上させる。

【0028】

例えば、学習データには、様々なラベルが付与されたデータ、すなわち、様々な特徴を示すデータが存在すると考えられる。しかしながら、データを分類する際に有用ではない特徴を示すデータを学習データとした場合、最終的に得られるモデルの精度は、悪化する恐れがある。そこで、情報処理装置１０は、学習データをモデルに入力する際の態様として、入力する学習データが有する特徴を決定する。例えば、情報処理装置１０は、学習データのうち、どのラベルが付与されたデータ（すなわち、どの特徴を示すデータ）を入力するかを決定する。換言すると、情報処理装置１０は、入力する特徴の組み合わせを最適化する。

【0029】

また、学習データには、数値のみのデータや文字列が含まれるデータ等、各種形式のカラムが含まれていると考えられる。このような学習データをモデルに入力する際に、そのまま入力した場合と、他の形式のデータに変換した場合とで、モデルの精度が変化するとも考えられる。例えば、複数種別の学習データ（それぞれ異なる特徴を示す学習データ）であって、文字列の学習データと数値の学習データとを入力する際に、文字列と数値とをそのまま入力した場合と、文字列を数値に変換して数値のみを入力した場合と、数値を文字列と見做して入力した場合とでは、それぞれモデルの精度が変化すると考えられる。そこで、情報処理装置１０は、モデルに入力する学習データの形式を決定する。例えば、情報処理装置１０は、モデルに入力する学習データを数値とするか、文字列とするかを決定する。換言すると、情報処理装置１０は、入力する特徴のカラムタイプを最適化する。

【0030】

また、それぞれ異なる特徴を示す学習データが存在する場合、どの特徴の組み合わせを同時に入力するかによって、モデルの精度が変化すると考えられる。すなわち、それぞれ異なる特徴を示す学習データが存在する場合、どの特徴の組み合わせの特徴（すなわち、複数の特徴の組み合わせの関係性）を学習させるかにより、モデルの精度が変化すると考えられる。例えば、第１特徴（例えば、性別）を示す学習データと、第２特徴（例えば、住所）を示す学習データと、第３特徴（例えば、購買履歴）を示す学習データとが存在する場合、第１特徴を示す学習データと第２特徴を示す学習データとを同時に入力した場合と、第１特徴を示す学習データと第３特徴を示す学習データとを同時に入力した場合とでは、モデルの精度が変化すると考えられる。そこで、情報処理装置１０は、モデルに関係性を学習させる特徴の組み合わせ（クロスフューチャー）を最適化する。

【0031】

ここで、各種のモデルは、入力データを所定の超平面により分割された所定次元の空間内に投影し、投影した位置が分割された空間のうちいずれの空間に属するかに応じて、入力データの分類を行うこととなる。このため、入力データを投影する空間の次元数が最適な次元数よりも低い場合は、入力データの分類能力が劣化する結果、モデルの精度が悪化する。また、入力データを投影する空間の次元数が最適な次元数よりも高い場合は、超平面との内積値が変化する結果、学習時に用いたデータとは異なるデータを適切に分類することができなくなる恐れがある。そこで、情報処理装置１０は、モデルに入力する入力データの次元数を最適化する。例えば、情報処理装置１０は、モデルが有する入力層のノードの数を制御することで、入力データの次元数を最適化する。換言すると、情報処理装置１０は、入力データの埋め込みを行う空間の次元数を最適化する。

【0032】

また、モデルには、ＳＶＭに加え、複数の中間層（隠れ層）を有するニューラルネットワーク等が存在する。また、このようなニューラルネットワークには、入力層から出力層まで一方方向に情報が伝達されるフィードフォワード型のＤＮＮ、中間層で情報の畳み込みを行う畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Networks）、有向閉路を有する回帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）、ボルツマンマシン等、各種のニューラルネットワークが知られている。また、このような各種ニューラルネットワークには、ＬＳＴＭ（Long short-term memory）やその他各種のニューラルネットワークが含まれている。

【0033】

このように、学習データの各種特徴を学習するモデルの種別が異なる場合、モデルの精度は変化すると考えられる。そこで、情報処理装置１０は、学習データの特徴を精度良く学習すると推定されるモデルの種別を選択する。例えば、情報処理装置１０は、学習データのラベルとしてどのようなラベルが付与されているかに応じて、モデルの種別を選択する。より具体的な例を挙げると、情報処理装置１０は、ラベルとして「履歴」に関連する用語が付されたデータが存在する場合は、履歴の特徴をより良く学習することができると考えられるＲＮＮを選択し、ラベルとして「画像」に関連する用語が付されたデータが存在する場合は、画像の特徴をより良く学習することができると考えられるＣＮＮを選択する。これら以外にも、情報処理装置１０は、ラベルがあらかじめ指定された用語若しくは用語と類似する用語であるか否かを判定し、同一若しくは類似すると判定された用語と予め対応付けられた種別のモデルを選択すればよい。

【0034】

また、モデルの中間層の数や１つの中間層に含まれるノードの数が変化した場合、モデルの学習精度が変化すると考えられる。例えば、モデルの中間層の数が多い場合（モデルが深い場合）、より抽象的な特徴に応じた分類を実現することができると考えられる一方で、バックプロパゲーションにおける局所誤差が入力層まで伝播しづらくなる結果、学習が適切に行えなくなる恐れがある。また、中間層に含まれるノードの数が少ない場合は、より高度な抽象化を行うことができるものの、ノードの数が少なすぎる場合は、分類に必要な情報が欠損する可能性が高い。そこで、情報処理装置１０は、中間層の数や中間層に含まれるノードの数の最適化を行う。すなわち、情報処理装置１０は、モデルのアーキテクチャの最適化を行う。

【0035】

また、アテンションの有無やモデルに含まれるノードに自己回帰がある場合とない場合、どのノード間を接続するのかに応じて、ノードの精度が変化すると考えられる。そこで、情報処理装置１０は、自己回帰を有するか否か、どのノード間を接続するのかといったネットワークの最適化を行う。

【0036】

また、モデルの学習を行う場合、モデルの最適化手法（学習時に用いるアルゴリズム）やドロップアウト率、ノードの活性化関数やユニット数等がハイパーパラメータとして設定される。このようなハイパーパラメータが変化した場合にも、モデルの精度が変化すると考えられる。そこで、情報処理装置１０は、モデルを学習する際の学習態様、すなわち、ハイパーパラメータの最適化を行う。

【0037】

また、モデルのサイズ（入力層、中間層、出力層の数やノード数）が変化した場合も、モデルの精度が変化する。そこで、情報処理装置１０は、モデルのサイズの最適化についても行う。

【0038】

このように、情報処理装置１０は、上述した各種モデルを生成する際の指標について最適化を行う。例えば、情報処理装置１０は、各指標に対応する条件を予め保持しておく。なお、このような条件は、例えば、過去の学習モデルから生成された各種モデルの精度等の経験則により設定される。そして、情報処理装置１０は、学習データが各条件を満たすか否かを判定し、学習データが満たす若しくは満たさない条件に予め対応付けられた指標を生成指標（若しくはその候補）として採用する。この結果、情報処理装置１０は、学習データが有する特徴を精度良く学習可能な生成指標を生成することができる。

【0039】

なお、上述したように、学習データから自動的に生成指標を生成し、生成指標に従ってモデルを作成する処理を自動的に行った場合、利用者は、学習データの内部を参照し、どのような分布のデータが存在するかといった判断を行わずともよい。この結果、情報処理装置１０は、例えば、モデルの作成に伴ってデータサイエンティスト等が学習データの認識を行う手間を削減するとともに、学習データの認識に伴うプライバシーの毀損を防ぐことができる。

【0040】

〔３－２．データ種別に応じた生成指標〕
以下、生成指標を生成するための条件の一例について説明する。まず、学習データとしてどのようなデータが採用されているかに応じた条件の一例について説明する。

【0041】

例えば、学習に用いられる学習データには、整数、浮動小数点、若しくは文字列等がデータとして含まれている。このため、入力されるデータの形式に対して適切なモデルを選択した場合は、モデルの学習精度がより高くなると推定される。そこで、情報処理装置１０は、学習データが整数であるか、浮動小数点であるか、若しくは文字列であるかに基いて、生成指標を生成する。

【0042】

例えば、学習データが整数である場合、情報処理装置１０は、学習データの連続性に基いて、生成指標を生成する。例えば、情報処理装置１０は、学習データの密度が所定の第１閾値を超える場合、当該学習データが連続性を有するデータであると見做し、学習データの最大値が所定の第２閾値を上回るか否かに基いて生成指標を生成する。また、情報処理装置１０は、学習データの密度が所定の第１閾値を下回る場合、当該学習データがスパースな学習データであると見做し、学習データに含まれるユニークな値の数が所定の第３閾値を上回るか否かに基いて生成指標を生成する。

【0043】

より具体的な例を説明する。なお、以下の例においては、生成指標として、ＡｕｔｏＭＬによりモデルを自動的に生成するモデル生成サーバ２に対して送信するコンフィグファイルのうち、特徴関数（feature function）を選択する処理の一例について説明する。例えば、情報処理装置１０は、学習データが整数である場合、その密度が所定の第１閾値を超えるか否かを判定する。例えば、情報処理装置１０は、学習データに含まれる値のうちユニークな値の数を、学習データの最大値に１を加算した値で除算した値を密度として算出する。

【0044】

続いて、情報処理装置１０は、密度が所定の第１閾値を超える場合は、学習データが連続性を有する学習データであると判定し、学習データの最大値に１を加算した値が第２閾値を上回るか否かを判定する。そして、情報処理装置１０は、学習データの最大値に１を加算した値が第２閾値を上回る場合は、特徴関数として「Categorical_column_with_identity & embedding_column」を選択する。一方、情報処理装置１０は、学習データの最大値に１を加算した値が第２閾値を下回る場合は、特徴関数として「Categorical_column_with_identity」を選択する。

【0045】

一方、情報処理装置１０は、密度が所定の第１閾値を下回る場合は、学習データがスパースであると判定し、学習データに含まれるユニークな値の数が所定の第３閾値を超えるか否かを判定する。そして、情報処理装置１０は、学習データに含まれるユニークな値の数が所定の第３閾値を超える場合は、特徴関数として「Categorical_column_with_hash_bucket & embedding_column」を選択し、学習データに含まれるユニークな値の数が所定の第３閾値を下回る場合は、特徴関数として「Categorical_column_with_hash_bucket」を選択する。

【0046】

また、情報処理装置１０は、学習データが文字列である場合、学習データに含まれる文字列の種別の数に基いて、生成指標を生成する。例えば、情報処理装置１０は、学習データに含まれるユニークな文字列の数（ユニークなデータの数）を計数し、計数した数が所定の第４閾値を下回る場合は、特徴関数として「categorical_column_with_vocabulary_list」若しくは／および「categorical_column_with_vocabulary_file」を選択する。また、情報処理装置１０は、計数した数が所定の第４閾値よりも大きい第５閾値を下回る場合は、特徴関数として「categorical_column_with_vocabulary_file & embedding_column」を選択する。また、情報処理装置１０は、計数した数が所定の第４閾値よりも大きい第５閾値を上回る場合は、特徴関数として「categorical_column_with_hash_bucket & embedding_column」を選択する。

【0047】

また、情報処理装置１０は、学習データが浮動小数点である場合、モデルの生成指標として、学習データをモデルに入力する入力データへの変換指標を生成する。例えば、情報処理装置１０は、特徴関数として「bucketized_column」もしくは「numeric_column」を選択する。すなわち、情報処理装置１０は、学習データをバケタイズ（グルーピング）し、バケットの番号を入力とするか、数値をそのまま入力するかを選択する。なお、情報処理装置１０は、例えば、各バケットに対して対応付けられる数値の範囲が同程度となるように、学習データのバケタイズを行ってもよく、例えば、各バケットに分類される学習データの数が同程度となるように、各バケットに対して数値の範囲を対応付けてもよい。また、情報処理装置１０は、バケットの数やバケットに対して対応付けられる数値の範囲を生成指標として選択してもよい。

【0048】

また、情報処理装置１０は、複数の特徴を示す学習データを取得し、モデルの生成指標として、学習データが有する特徴のうちモデルに学習させる特徴を示す生成指標を生成する。例えば、情報処理装置１０は、どのラベルの学習データをモデルに入力するかを決定し、決定したラベルを示す生成指標を生成する。また、情報処理装置１０は、モデルの生成指標として、学習データの種別のうちモデルに対して相関を学習させる複数の種別を示す生成指標を生成する。例えば、情報処理装置１０は、モデルに対して同時に入力するラベルの組み合わせを決定し、決定した組み合わせを示す生成指標を生成する。

【0049】

また、情報処理装置１０は、モデルの生成指標として、モデルに入力される学習データの次元数を示す生成指標を生成する。例えば、情報処理装置１０は、学習データに含まれるユニークなデータの数やモデルに入力するラベルの数、モデルに入力するラベルの数の組み合わせ、バケットの数等に応じて、モデルの入力層におけるノードの数を決定してもよい。

【0050】

また、情報処理装置１０は、モデルの生成指標として、学習データの特徴を学習させるモデルの種別を示す生成指標を生成する。例えば、情報処理装置１０は、過去に学習対象とした学習データの密度やスパース具合、ラベルの内容、ラベルの数、ラベルの組み合わせの数等に応じて、生成するモデルの種別を決定し、決定した種別を示す生成指標を生成する。例えば、情報処理装置１０は、ＡｕｔｏＭＬにおけるモデルのクラスとして「BaselineClassifier」、「LinearClassifier」、「DNNClassifier」、「DNNLinearCombinedClassifier」、「BoostedTreesClassifier」、「AdaNetClassifier」、「RNNClassifier」、「DNNResNetClassifier」、「AutoIntClassifier」等を示す生成指標を生成する。

【0051】

なお、情報処理装置１０は、これら各クラスのモデルの各種独立変数を示す生成指標を生成してもよい。例えば、情報処理装置１０は、モデルの生成指標として、モデルが有する中間層の数若しくは各層に含まれるノードの数を示す生成指標を生成してもよい。また、情報処理装置１０は、モデルの生成指標として、モデルが有するノード間の接続態様を示す生成指標やモデルの大きさを示す生成指標を生成してもよい。これらの独立変数は、学習データが有する各種の統計的な特徴が所定の条件を満たすか否かに応じて、適宜選択されることとなる。

【0052】

また、情報処理装置１０は、モデルの生成指標として、学習データが有する特徴をモデルに学習させる際の学習態様、すなわち、ハイパーパラメータを示す生成指標を生成してもよい。例えば、情報処理装置１０は、ＡｕｔｏＭＬにおける学習態様の設定において、「stop_if_no_decrease_hook」、「stop_if_no_increase_hook」、「stop_if_higher_hook」、もしくは「stop_if_lower_hook」を示す生成指標を生成してもよい。

【0053】

すなわち、情報処理装置１０は、学習に用いる学習データのラベルやデータそのものの特徴に基づいて、モデルに学習させる学習データの特徴、生成するモデルの態様、および学習データが有する特徴をモデルに学習させる際の学習態様を示す生成指標を生成する。より具体的には、情報処理装置１０は、ＡｕｔｏＭＬにおけるモデルの生成を制御するためのコンフィグファイルを生成する。

【0054】

〔３－３．生成指標を決定する順序について〕
ここで、情報処理装置１０は、上述した各種の指標の最適化を同時並行的に行ってもよく、適宜順序だてて実行してもよい。また、情報処理装置１０は、各指標を最適化する順序を変更可能としてもよい。すなわち、情報処理装置１０は、モデルに学習させる学習データの特徴、生成するモデルの態様、および学習データが有する特徴をモデルに学習させる際の学習態様を決定する順番の指定を利用者から受け付け、受け付けた順序で、各指標を決定してもよい。

【0055】

例えば、情報処理装置１０は、生成指標の生成を開始した場合、入力する学習データの特徴や、どのような態様で学習データを入力するかといった入力素性の最適化を行い、続いて、どの特徴の組み合わせの特徴を学習させるかという入力クロス素性の最適化を行う。続いて、情報処理装置１０は、モデルの選択を行うとともに、モデル構造の最適化を行う。その後、情報処理装置１０は、ハイパーパラメータの最適化を行い、生成指標の生成を終了する。

【0056】

ここで、情報処理装置１０は、入力素性最適化において、入力する学習データの特徴や入力態様といった各種入力素性の選択や修正、遺伝的アルゴリズムを用いた新たな入力素性の選択を行うことで、入力素性を繰り返し最適化してもよい。同様に、情報処理装置１０は、入力クロス素性最適化において、入力クロス素性を繰り返し最適化してもよく、モデル選択およびモデル構造の最適化を繰り返し実行してもよい。また、情報処理装置１０は、ハイパーパラメータの最適化を繰り返し実行してもよい。また、情報処理装置１０は、入力素性最適化、入力クロス素性最適化、モデル選択、モデル構造最適化、およびハイパーパラメータの最適化という一連の処理を繰り返し実行し、各指標の最適化を行ってもよい。

【0057】

また、情報処理装置１０は、例えば、ハイパーパラメータの最適化を行ってから、モデル選択やモデル構造最適化を行ってもよく、モデル選択やモデル構造最適化の後に、入力素性の最適化や入力クロス素性の最適化を行ってもよい。また、情報処理装置１０は、例えば、入力素性最適化を繰り返し実行し、その後入力クロス素性最適化を繰り返し行う。その後、情報処理装置１０は、入力素性最適化と入力クロス素性最適化を繰り返し実行してもよい。このように、どの指標をどの順番で最適化するか、最適化においてどの最適化処理を繰り返し実行するかについては、任意の設定が採用可能となる。

【0058】

〔３－４．情報処理装置が実現するモデル生成の流れについて〕
続いて、図２を用いて、情報処理装置１０を用いたモデル生成の流れの一例について説明する。図２は、実施形態における情報処理装置を用いたモデル生成の流れの一例を説明する図である。例えば、情報処理装置１０は、学習データと各学習データのラベルとを受付ける。なお、情報処理装置１０は、学習データの指定と共に、ラベルを受付けてもよい。

【0059】

このような場合、情報処理装置１０は、データの分析を行い、分析結果に応じたデータ分割を行う。例えば、情報処理装置１０は、学習データを、モデルの学習に用いるトレーニング用データと、モデルの評価（すなわち、精度の測定）に用いる評価用データとに分割する。なお、情報処理装置１０は、各種テスト用のデータをさらに分割してもよい。なお、このような学習データをトレーニング用データと評価用データとに分割する処理は、各種任意の公知技術が採用可能である。

【0060】

また、情報処理装置１０は、学習データを用いて、上述した各種の生成指標を生成する。例えば、情報処理装置１０は、ＡｕｔｏＭＬにおいて生成されるモデルやモデルの学習を定義するコンフィグファイルを生成する。このようなコンフィグファイルにおいては、ＡｕｔｏＭＬで用いられる各種の関数がそのまま生成指標を示す情報として格納されることとなる。そして、情報処理装置１０は、トレーニング用データと生成指標とをモデル生成サーバ２に提供することで、モデルの生成を行う。

【0061】

ここで、情報処理装置１０は、利用者によるモデルの評価と、モデルの自動生成とを繰り返し行うことで、生成指標の最適化、ひいてはモデルの最適化を実現してもよい。例えば、情報処理装置１０は、入力する特徴の最適化（入力素性や入力クロス素性の最適化）、ハイパーパラメータの最適化、および生成するモデルの最適化を行い、最適化された生成指標に従って自動でのモデル生成を行う。そして、情報処理装置１０は、生成したモデルを利用者に提供する。

【0062】

一方、利用者は、自動生成されたモデルのトレーニングや評価、テストを行い、モデルの分析や提供を行う。そして、利用者は、生成された生成指標を修正することで、再度新たなモデルを自動生成させ、評価やテスト等を行う。このような処理を繰り返し実行することで、複雑な処理を実行することなく、試行錯誤しながらモデルの精度を向上させる処理を実現することができる。

【0063】

〔４．情報処理装置の構成〕
次に、図３を用いて、実施形態に係る情報処理装置１０の機能構成の一例について説明する。図３は、実施形態に係る情報処理装置の構成例を示す図である。図３に示すように、情報処理装置１０は、通信部２０と、記憶部３０と、制御部４０とを有する。

【0064】

通信部２０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部２０は、ネットワークＮと有線または無線で接続され、モデル生成サーバ２や端末装置３との間で情報の送受信を行う。

【0065】

記憶部３０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部３０は、学習データデータベース３１およびモデル生成用データベース３２を有する。

【0066】

学習データデータベース３１は、学習に用いるデータに関する各種情報を記憶する。学習データデータベース３１には、モデルの学習に用いる学習データのデータセットが格納される。図４は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図４の例では、学習データデータベース３１は、「データセットＩＤ」、「データＩＤ」、「データ」といった項目が含まれる。

【0067】

「データセットＩＤ」は、データセットを識別するための識別情報を示す。「データＩＤ」は、各データを識別するための識別情報を示す。また、「データ」は、データＩＤにより識別されるデータを示す。例えば、図４の例では、各学習データを識別するデータＩＤに対して、対応するデータ（学習データ）が対応付けられて登録されている。

【0068】

図４の例では、データセットＩＤ「ＤＳ１」により識別されるデータセット（データセットＤＳ１）には、データＩＤ「ＤＩＤ１」、「ＤＩＤ２」、「ＤＩＤ３」等により識別される複数のデータ「ＤＴ１」、「ＤＴ２」、「ＤＴ３」等が含まれることを示す。なお、図４では、データを「ＤＴ１」、「ＤＴ２」、「ＤＴ３」等といった抽象的な文字列で示すが、データとしては、例えば各種整数、実数、文字列、文章等の任意の形式の情報が登録されてもよいし、各種整数、実数、文字列、文章等の任意の形式の情報がテキストに変換された情報が登録されてもよい。例えば、学習データデータベース３１には、図１０に示すようなデータが記憶されてもよい。

【0069】

なお、図示は省略するが、学習データデータベース３１は、各データに対応するラベル（正解情報）を各データに対応付けて記憶してもよい。また、例えば、複数のデータを含むデータ群に１つのラベルを対応付けて記憶してもよい。この場合、複数のデータを含むデータ群がモデルに入力されるデータ（入力データ）に対応する。例えば、ラベルとしては、数値や文字列等の任意の形式の情報が用いられる。

【0070】

なお、学習データデータベース３１は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、学習データデータベース３１は、各データが複数の学習段階のどの段階で用いるデータであるかを示す情報を各データに対応付けて記憶する。例えば、学習データデータベース３１は、各データが第１データ群または第２データ群のいずれであるかを示す情報を各データに対応付けて記憶する。例えば、学習データデータベース３１は、各データが学習処理に用いるデータ（トレーニング用データ）であるか、評価に用いるデータ（評価用データ）であるか等を特定可能に記憶してもよい。例えば、学習データデータベース３１は、各データがトレーニング用データ及び評価用データのいずれであるかを特定する情報（フラグ等）を、各データに対応付けて格納してもよい。

【0071】

モデル生成用データベース３２は、学習データ以外でモデルの生成に用いられた各種の情報が記憶される。モデル生成用データベース３２には、生成するモデルに関する各種の情報が格納される。例えば、モデル生成用データベース３２には、遺伝的アルゴリズムに基づきモデルを生成するために用いる情報が格納される。例えば、モデル生成用データベース３２には、遺伝的アルゴリズムに基づいて、その後の処理に継承する種別の組み合わせの数を指定する情報が格納される。

【0072】

例えば、モデル生成用データベース３２には、生成するモデルに関する各種のパラメータ等の設定値が格納される。モデル生成用データベース３２には、モデルのサイズの上限値（「サイズ上限値」ともいう）が格納される。モデル生成用データベース３２には、生成するモデルに含まれる部分モデル（ブロック）の数、及び各部分モデルに関する情報等、モデルの構造を示す情報が記憶される。モデル生成用データベース３２には、部分モデルの構成要素として用いられるモジュールに関する情報が記憶される。なお、部分モデル（ブロック）は、例えばモデルの一部を構成するものであってもよいし、それ自体で一つのモデルとして機能してもよい。また、モジュールは、例えば部分モデル（ブロック）で実現される機能を実現するための機能単位の要素である。

【0073】

モデル生成用データベース３２には、各モジュールがどのような処理を行うものであるかを示す情報、各モジュールを構成する要素に関する情報等が記憶される。モデル生成用データベース３２には、各モジュールを構成する処理に関する各種情報が記憶される。モデル生成用データベース３２には、ノーマライゼーション、ドロップアウト等の各モジュールを構成する処理の情報が記憶される。

【0074】

例えば、モデル生成用データベース３２には、各部分モデルに関する情報が記憶される。モデル生成用データベース３２には、各部分モデルがどのようなモジュールにより構成されるかを示す情報が記憶される。例えば、モデル生成用データベース３２には、各部分モデルが有するモジュールの数を示す情報が記憶される。モデル生成用データベース３２には、各部分モデルに含まれるモジュールを示す情報が記憶される。

【0075】

モデル生成用データベース３２には、各部分モデルが入力として用いるデータの種別を示す情報が記憶される。例えば、モデル生成用データベース３２には、各部分モデルが入力として用いるデータの種別の組み合わせを示す情報が記憶される。

【0076】

なお、モデル生成用データベース３２は、上記に限らず、モデルの生成に用いる情報であれば種々の情報を記憶してもよい。

【0077】

図３に戻り、説明を続ける。制御部４０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報処理装置１０内部の記憶装置に記憶されている各種プログラム（例えばモデルを生成する処理を実行する生成プログラム、情報処理プログラム等、）がＲＡＭを作業領域として実行されることにより実現される。情報処理プログラムは、コンピュータを、少なくとも１つの部分モデル（ブロック）を有するモデルとして動作させるために用いられる。例えば、情報処理プログラムは、学習データを用いて学習が行われたモデルとしてコンピュータ（例えば情報処理装置１０）を動作させる。また、制御部４０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。図３に示すように、制御部４０は、取得部４１、決定部４２、受付部４３、生成部４４、処理部４５、および提供部４６を有する。

【0078】

取得部４１は、記憶部３０から情報を取得する。取得部４１は、モデルの学習に用いる学習データのデータセットを取得する。取得部４１は、モデルの学習に用いる学習データを取得する。例えば、取得部４１は、端末装置３から、学習データとして用いる各種のデータと、各種データに付与されるラベルを受付けると、受付けたデータとラベルとを学習データとして学習データデータベース３１に登録する。なお、取得部４１は、あらかじめ学習データデータベース３１に登録されたデータのうち、モデルの学習に用いる学習データの学習データＩＤやラベルの指定を受付けてもよい。

【0079】

取得部４１は、文章である文章テキスト以外の情報が変換された変換後情報を含む複数の入力情報を入力とするモデルの学習に用いられる学習データを取得する。取得部４１は、文章以外の情報が変換されたテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部４１は、文章である文章テキスト（「文章」ともいう）以外の情報が変換されたテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部４１は、文章以外の情報を含むタビュラー形式のデータの各々がテキストに変換された複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。

【0080】

取得部４１は、文章に対応するテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部４１は、文章テキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部４１は、インターネットにおいて投稿された文章に対応するテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部４１は、インターネットにおいて投稿された文章テキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部４１は、インターネットにおいて投稿された質問に対応するテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部４１は、インターネットにおいて投稿された回答に対応するテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。

【0081】

取得部４１は、数値が変換されたテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部４１は、整数が変換されたテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部４１は、実数が変換されたテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部４１は、文章が投稿された日時を示す数値が変換されたテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。

【0082】

取得部４１は、文章以外の文字列が変換されたテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部４１は、文章が投稿された曜日を示す文字列が変換されたテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。

【0083】

取得部４１は、テキストを入力とする基盤モデルの学習に用いられる学習データを取得する。なお、ここでいう基盤モデルは、様々な用途のモデルの一部として利用可能なように、例えば多種多様なタスクを実行可能になるように学習されたモデル（部分モデル）であってもよい。例えば、基盤モデルは、多種多様なアプリケーションの基盤（部分モデル）として適用可能なモデルであってもよい。取得部４１は、汎用的な言語能力の学習に用いる第１データ群を含む学習データを取得する。取得部４１は、大規模言語モデルの学習に用いられる自然言語データを含む第１データ群を取得する。

【0084】

取得部４１は、特定の処理のための言語能力の学習に用いる第２データ群を含む学習データを取得する。取得部４１は、インターネットにおいて投稿に関するデータである第２データ群を含む学習データを取得する。取得部４１は、インターネットにおいて投稿された文章に対応するテキストを含む第２データ群を取得する。取得部４１は、インターネットにおいて投稿された質問に対応するテキストを含む第２データ群を取得する。取得部４１は、インターネットにおいて投稿された回答に対応するテキストを含む第２データ群を取得する。

【0085】

決定部４２は、学習処理に関する各種情報を決定する。決定部４２は、学習態様を決定する。決定部４２は、生成部４４による学習処理における初期値等を決定する。決定部４２は、各パラメータの初期値を決定する。決定部４２は、各パラメータの初期設定の値を示す設定ファイルを参照し、各パラメータの初期値を決定する。例えば、決定部４２は、モデルに含ませる部分モデル（ブロック）の最大数を決定する。決定部４２は、部分モデル（ブロック）に含ませるモジュールの最大数を決定する。決定部４２は、ドロップアウト率を決定する。決定部４２は、各部分モデル（ブロック）のドロップアウト率を決定する。決定部４２は、モデルのサイズを決定する。決定部４２は、各部分モデル（ブロック）に含まれるモジュールの数を決定する。

【0086】

受付部４３は、利用者に対して提示した生成指標の修正を受付ける。また、受付部４３は、モデルに学習させる学習データの特徴、生成するモデルの態様、および学習データが有する特徴をモデルに学習させる際の学習態様を決定する順番の指定を利用者から受け付ける。

【0087】

生成部４４は、決定部４２による決定に応じて各種情報を生成する。また、生成部４４は、受付部４３により受け付けられた指示に応じて各種情報を生成する。例えば、生成部４４は、モデルの生成指標を生成してもよい。

【0088】

生成部４４は、学習データを用いた学習により、文章以外の情報をテキストとして入力可能なモデルを生成する。生成部４４は、タビュラー形式のデータに基づく複数のテキストを入力とするモデルを生成する。生成部４４は、学習データを用いた学習により、文章以外の情報をテキストとして入力可能な言語モデルであるモデルを生成する。

【0089】

生成部４４は、文章に対応するテキストを含む複数のテキストを入力とするモデルを生成する。生成部４４は、文章テキストを含む複数のテキストを入力とするモデルを生成する。生成部４４は、質問に対応するテキストを含む複数のテキストを入力とするモデルを生成する。生成部４４は、回答に対応するテキストを含む複数のテキストを入力とするモデルを生成する。

【0090】

生成部４４は、数値をテキストとして入力可能なモデルを生成する。生成部４４は、整数をテキストとして入力可能なモデルを生成する。生成部４４は、実数をテキストとして入力可能なモデルを生成する。生成部４４は、文章が投稿された日時をテキストとして入力可能なモデルを生成する。生成部４４は、文章以外の文字列をテキストとして入力可能なモデルを生成する。生成部４４は、文章が投稿された曜日をテキストとして入力可能なモデルを生成する。

【0091】

生成部４４は、学習データを用いた複数段階の学習処理により、基盤モデルを生成する。生成部４４は、第１データ群を用いた第１段階の学習処理を含む複数段階の学習処理により、基盤モデルを生成する。生成部４４は、第２データ群を用いた第２段階の学習処理を含む複数段階の学習処理により、基盤モデルを生成する。

【0092】

生成部４４は、基盤モデルのレイヤーを増やして学習を行う第３段階の学習処理を含む複数段階の学習処理により、基盤モデルを生成する。生成部４４は、特定の処理のための言語能力の学習に用いるデータを用いた第３段階の学習処理により基盤モデルを生成する。生成部４４は、インターネットにおいて投稿に関するデータを用いた第３段階の学習処理により基盤モデルを生成する。

【0093】

生成部４４は、インターネットにおいて投稿された文章に対応するテキストを用いた第３段階の学習処理により基盤モデルを生成する。生成部４４は、第３段階の学習処理を繰り返し実行することにより、基盤モデルのレイヤーの増加処理、及び増加後の基盤モデルを対象とする学習処理を行い、基盤モデルを生成する。

【0094】

生成部４４は、学習データを用いた学習により、文章テキスト以外の情報を変換して入力可能なモデルを生成する。生成部４４は、文章以外の情報を用いた学習により、基盤モデルと、基盤モデルを所定のタスクに適用するようにファインチューニングしたファインチューニングモデルとを生成する。生成部４４は、基盤モデルと、基盤モデルとは入力情報の入力が異なるファインチューニングモデルとを生成する。生成部４４は、基盤モデルと、基盤モデルと入力情報の入力順が同じであるファインチューニングモデルとを生成する。生成部４４は、基盤モデルの学習において、ラベル情報を入力情報として用いる。

【0095】

生成部４４は、遺伝的アルゴリズムに基づいてモデルを生成してもよい。例えば、生成部４４は、各々が種別の組み合わせが異なる複数の組み合わせ候補を対象として、複数のモデルを生成する。生成部４４は、生成した複数のモデルのうち、精度が高い所定数（例えば２個等）のモデルに対応する組み合わせ候補（「継承候補」ともいう）を用いて、さらにモデルを生成してもよい。例えば、生成部４４は、継承候補の各々から一部の種別の組み合わせを継承し、継承候補の種別の組み合わせがコピーされた種別の候補を用いて、モデルを生成してもよい。生成部４４は、上述した継承候補の種別の組み合わせを継承してモデルを生成する処理を繰り返すことにより、最終的に用いるモデルを生成してもよい。

【0096】

生成部４４は、モデルの生成に用いるデータを外部のモデル生成サーバ２に送信することにより、モデル生成サーバ２にモデルの学習を要求し、モデル生成サーバ２からモデル生成サーバ２が学習したモデルを受信することにより、モデルを生成する。

【0097】

例えば、生成部４４は、学習データデータベース３１に登録されたデータを用いて、モデルを生成する。生成部４４は、トレーニング用データとして用いられる各データとラベルとに基づいて、モデルを生成する。生成部４４は、トレーニング用データを入力した場合にモデルが出力する出力結果と、ラベルとが一致するように学習を行うことにより、モデルを生成する。例えば、生成部４４は、トレーニング用データとして用いられる各データとラベルとをモデル生成サーバ２に送信することにより、モデル生成サーバ２にモデルを学習させることにより、モデルを生成する。

【0098】

例えば、生成部４４は、学習データデータベース３１に登録されたデータを用いて、モデルの精度を測定する。生成部４４は、評価用データとして用いられる各データとラベルとに基づいて、モデルの精度を測定する。生成部４４は、評価用データを入力した場合にモデルが出力する出力結果と、ラベルとを比較した結果を収集することにより、モデルの精度を測定する。

【0099】

処理部４５は、各種処理を行う。処理部４５は、推論処理を行う推論部として機能する。処理部４５は、記憶部３０に記憶されたモデル（例えばモデルＭ１）を用いて、推論処理を行う。処理部４５は、取得部４１により取得されたモデルを用いて推論を行う。処理部４５は、生成部４４により生成されたモデルを用いて推論を行う。処理部４５は、モデル生成サーバ２を利用して学習されたモデルを用いて推論を行う。処理部４５は、モデルにデータを入力することにより、当該データに対応する推論結果を生成する推論処理を行う。

【0100】

処理部４５は、生成部４４により生成されたモデルを用いた推論処理を実行する。処理部４５は、文章以外の情報が変換されたテキストを含む複数のテキストをモデルへ入力し、モデルが出力した出力データに基づいて、推論処理を実行する。処理部４５は、文章である文章テキスト以外の情報が変換されたテキストを含む複数のテキストをモデルへ入力し、モデルが出力した出力データに基づいて、推論処理を実行する。処理部４５は、整数、実数、文字列のうち少なくとも１つがテキストに変換された複数のテキストをモデルへ入力し、モデルが出力した出力データに基づいて、推論処理を実行する。

【0101】

処理部４５は、モデルを有する外部装置（推論用サーバ）を利用して推論処理を実行してもよい。例えば、処理部４５は、モデルを有する推論用サーバに入力データを送信し、外部装置が受信した入力データとモデルとを用いて生成した情報（推論用情報）を受信し、受信した推論用情報を用いて、推論処理を行ってもよい。

【0102】

提供部４６は、生成されたモデルを利用者に提供する。提供部４６は、利用者の端末装置３を推論処理に用いられるモデル（例えばモデルＭ１）として動作させる情報処理プログラムを利用者の端末装置３に送信する。例えば、提供部４６は、生成部４４により生成されたモデルの精度が所定の閾値を超えた場合は、そのモデルとともに、モデルと対応する生成指標を端末装置３へと送信する。この結果、利用者は、モデルの評価や試用を行うとともに、生成指標の修正を行うことができる。

【0103】

提供部４６は、生成部４４により生成された指標を利用者に提示する。例えば、提供部４６は、生成指標として生成されたＡｕｔｏＭＬのコンフィグファイルを端末装置３に送信する。また、提供部４６は、生成指標が生成される度に生成指標を利用者に提示してもよく、例えば、精度が所定の閾値を超えたモデルと対応する生成指標のみを利用者に提示してもよい。

【0104】

〔５．情報処理システムの処理フロー〕
次に、図５及び図６を用いて、情報処理装置１０が実行する処理の手順について説明する。図５及び図６は、実施形態に係る情報処理の流れの一例を示すフローチャートである。また、以下では、情報処理システム１が処理を行う場合を一例として説明するが、以下に示す処理は、情報処理システム１に含まれる情報処理装置１０、モデル生成サーバ２、端末装置３等、情報処理システム１に含まれるいずれの装置が行ってもよい。

【0105】

まず、図５に示す処理例を説明する。図５では、情報処理システム１は、文章である文章テキスト以外の情報が変換された変換後情報を含む複数の入力情報を入力とするモデルの学習に用いられる学習データを取得する（ステップＳ１０１）。そして、情報処理システム１は、学習データを用いた学習により、文章テキスト以外の情報を変換して入力可能なモデルを生成する（ステップＳ１０２）。

【0106】

次に、図６に示す処理例を説明する。図６では、情報処理システム１は、テキストを入力とする基盤モデルの学習に用いられる学習データを取得する（ステップＳ２０１）。そして、情報処理システム１は、学習データを用いた複数段階の学習処理により、基盤モデルを生成する（ステップＳ２０２）。

【0107】

〔６．情報処理システムの処理例〕
ここで、上述した図５及び図６の処理を情報処理システム１が行う一例を説明する。情報処理装置１０は、学習データを取得する。情報処理装置１０は、モデルの生成に用いるパラメータ等の情報を取得する。例えば、情報処理装置１０は、生成するモデルについての各種の上限値を示す情報を取得する。例えば、情報処理装置１０は、生成するモデルのサイズ上限値を示す情報を取得する。また、情報処理装置１０は、遺伝的アルゴリズムにおける各種の設定値を取得する。例えば、情報処理装置１０は、遺伝的アルゴリズムにおける継承候補の数を示す情報を取得する。

【0108】

情報処理装置１０は、学習データ、モデルの構造を示す情報、サイズ上限値等の各種の上限値、遺伝的アルゴリズムでの設定値等を示す情報を基にモデルを生成する。情報処理装置１０は、文章テキスト以外の情報を変換して入力可能な前記モデルを生成する。情報処理装置１０は、文章である文章テキスト以外の情報が変換された変換後情報を含む複数の入力情報を入力とするモデルを学習する。例えば、情報処理装置１０は、文章以外の情報をテキストとして入力可能なモデルを生成する。情報処理装置１０は、学習データを用いた複数段階の学習処理により、基盤モデルを生成する。

【0109】

情報処理装置１０は、モデルを学習するモデル生成サーバ２へモデルの生成に用いる情報を送信する。例えば、情報処理装置１０は、学習データ、モデルの構造を示す情報、サイズ上限値等の各種の上限値、遺伝的アルゴリズムでの設定値等を示す情報をモデル生成サーバ２へ送信する。

【0110】

情報処理装置１０から情報を受信したモデル生成サーバ２は、学習処理によりモデルを生成する。そして、モデル生成サーバ２は、生成したモデルを情報処理装置１０へ送信する。このように、本願でいう「モデルを生成する」ことには、自装置でモデルを学習する場合に限らず、他の装置にモデルの生成に必要な情報を提供することで、他の装置にモデルの生成し指示し、他の装置が学習したモデルを受信することを含む概念である。情報処理システム１においては、情報処理装置１０は、モデルを学習するモデル生成サーバ２へモデルの生成に用いる情報を送信し、モデル生成サーバ２が生成したモデルを取得することにより、モデルを生成する。このように、情報処理装置１０は、他の装置へモデルの生成に用いる情報を送信することによりモデルの生成を要求し、要求を受けた他の装置にモデルを生成させることにより、モデルを生成する。

【0111】

〔７．モデル〕
ここから、モデルについて説明する。以下では、情報処理システム１において生成されるモデルの構造及び学習態様等、モデルに関する各点について説明する。以下に示す例では、文章である文章テキスト以外の情報が変換されたテキストを変換後情報の一例として説明する。なお、変換後情報の形式はテキストに限らず、モデルへの入力はテキストに限られないが、この点については後述する。

【0112】

〔７－１．モデルの構造例〕
まず、生成するモデルの構造の一例について、図７を用いて説明する。情報処理システム１は、図７に示すようなモデルＭ１を生成する。図７は、実施形態に係るモデルの構造の一例を示す図である。図７では、情報処理システム１は、基盤モデルの一例である部分モデルＰＭ１及び、部分モデルＰＭ１の出力が入力として用いられる部分モデルＰＭ２等の複数の部分モデル等の各種の構成を有するモデルＭ１を生成する。部分モデルＰＭ１、ＰＭ２等を特に区別せずに説明する場合、「部分モデルＰＭ」や単に「部分モデル」と記載する場合がある。なお、図７では、モデルＭ１が２つの部分モデルＰＭを有する場合を一例として示すが、モデルＭ１は、３つ以上の部分モデルＰＭを有してもよいし、１つの部分モデルＰＭのみを有してもよい。

【0113】

例えば、部分モデルＰＭ１は、Transformerをベースにしたモデル（言語モデル）である。Transformer（モデル）については、従来のTransformerと同様であり詳細な説明は省略する。なお、部分モデルＰＭ１は、整数、実数等の情報を文章（単に「文」ともいう）と同様の形式（テキスト）で入力可能であれば、どのようなモデルであってもよい。例えば、部分モデルＰＭ１は、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）、ＲｏＢＥＲＴａ（A Robustly Optimized BERT Pretraining Approach）、ＤｅＢＥＲＴａ（Decoding-enhanced BERT with disentangled attention）等の任意の自然言語処理モデルに基づいて構成されるモデルであってもよい。また、部分モデルＰＭ１は、整数、実数等の情報を文章と同様の形式（テキスト）で入力可能であれば、ＢＥＲＴに基づいて構成されるモデルに限らず、任意の構成のモデルであってもよい。

【0114】

図７に示す例では、部分モデルＰＭ１は、レイヤーＥＬ１０、ＥＬ１１、ＥＬ１２…ＥＬ１５等の複数のレイヤー（モジュール層）を有する。以下では、レイヤーＥＬ１０、ＥＬ１１、ＥＬ１２…ＥＬ１５等を特に区別せずに説明する場合、「レイヤーＥＬ」や単に「レイヤー」と記載する場合がある。図７では、各レイヤーＥＬが１つのTransformerを含む構成を一例として示す。なお、図７に示すレイヤー数は一例に過ぎず、部分モデルＰＭ１は、任意の数のレイヤーＥＬを含む構成であってもよい。また、部分モデルＰＭ１は、学習に応じてレイヤーＥＬの数を変動（増加）させてもよいが、この点については後述する。

【0115】

図７において、レイヤーＥＬ１０は、部分モデルＰＭ１の最も入力側に位置するレイヤーである。例えば、レイヤーＥＬ１０は、部分モデルＰＭ１の入力データが入力される層（入力層）であってもよい。図７では、部分モデルＰＭ１（のレイヤーＥＬ１０）にテキスト（文章）の先頭を示すトークン「ＣＬＳ」、「Ｔｈｉｓｉｓａｐｅｎ」というテキスト、文章の区切りを表すトークン「ＳＥＰ」等が入力される状態を一例として示す。例えば、トークン「ＳＥＰ」の後には、時間を示す数値（整数）がテキスト化された情報（例えば「７」の文字等）や曜日を示す文字列がテキスト化された情報（例えば「Ｓａｔ」の文字等）等が続けて入力される。

【0116】

部分モデルＰＭ１では、レイヤーＥＬ１０の後にレイヤーＥＬ１１が配置される。すなわち、レイヤーＥＬ１１は、レイヤーＥＬ１０の出力が入力されるレイヤーＥＬである。部分モデルＰＭ１では、レイヤーＥＬ１１の後にレイヤーＥＬ１２が配置される。すなわち、レイヤーＥＬ１２は、レイヤーＥＬ１１の出力が入力されるレイヤーＥＬである。

【0117】

図７において、レイヤーＥＬ１５は、部分モデルＰＭ１の最も出力側に位置するレイヤーである。例えば、レイヤーＥＬ１５の出力が、部分モデルＰＭ１の出力として用いられる。なお、図７は一例に過ぎず、部分モデルＰＭ１は、任意の構成が採用可能である。

【0118】

図７で「ＤＮＮＳｐａｒｓｅ」と表記された部分モデルＰＭ２は、部分モデルＰＭ１の出力が入力として用いられる部分モデルＰＭである。例えば、部分モデルＰＭ２は、ドロップアウト等の任意の技術を用いて構成されるスパースなＤＮＮ（ディープニューラルネットワーク）である。なお、部分モデルＰＭ２は、部分モデルＰＭ１からの出力を入力として用い、所望の推論結果を出力であれば、どのようなモデルであってもよい。例えば、部分モデルＰＭ２は、スパースなＤＮＮに限らず、任意のＤＮＮであってもよいし、ＤＮＮに限らず、任意のモデルであってもよい。

【0119】

〔７－２．モデルの入力例〕
また、図７には、モデルＭ１の入力の一例を示す。図７では、Ｓｅｎｔｅｎｃｅ＃１、Ｓｅｎｔｅｎｃｅ＃２の２つの文章（センテンス）がモデルＭ１に入力される場合を一例として示す。例えば、図７ではモデルＭ１には、質問のカテゴリを示す情報をテキスト化した情報、トークン「ＳＥＰ」、質問（質問文）に対応するテキストの順に並んだテキストを、Ｓｅｎｔｅｎｃｅ＃１として入力される。すなわち、図７では、Ｓｅｎｔｅｎｃｅ＃１には、質問のカテゴリを示す情報をテキスト化した情報と、質問に対応するテキストとがトークン「ＳＥＰ」で連結された１つのテキストが用いられる。

【0120】

また、図７ではモデルＭ１には、回答（回答文）に対応するテキストを、Ｓｅｎｔｅｎｃｅ＃２として入力される。すなわち、図７では、Ｓｅｎｔｅｎｃｅ＃２には、回答に対応するテキストが用いられる。図７に示す入力の指定の一例を図８に示す。図８は、実施形態に係るモデルの入力の指定の一例を示す図である。図８に示すように、モデルＭ１への入力は、各種別の情報に対応するカラム（項目）名を指定することにより行われる。

【0121】

例えば、モデルＭ１の入力であるＳｅｎｔｅｎｃｅ＃１として、カテゴリ及び質問を指定する場合、区切り文字（図８の場合はカンマ）で区切って各種別を示す文字列を並べた文字列を角括弧で括った文字列が用いられる。具体的には、Ｓｅｎｔｅｎｃｅ＃１の指定としては、「[category,question]」といった文字列が用いられる。

【0122】

また、モデルＭ１の入力であるＳｅｎｔｅｎｃｅ＃２として、回答を指定する場合、その種別を示す文字列を角括弧で括った文字列が用いられる。具体的には、Ｓｅｎｔｅｎｃｅ＃２の指定としては、「[answer]」といった文字列が用いられる。

【0123】

図８の例では、モデルＭ１の入力全体としては、Ｓｅｎｔｅｎｃｅ＃１とＳｅｎｔｅｎｃｅ＃２とを各種別の情報を区切り文字（図８の場合はカンマ）で区切った文字列が用いられる。具体的には、モデルＭ１の入力の指定としては、「tokenizerColumns: [[category,question], [answer]]」といった文字列が用いられる。

【0124】

なお、図８は一例に過ぎず、モデルＭ１の入力の指定が可能であれば、任意の態様により指定されてもよい。また、図７に示す入力は一例に過ぎず、モデルＭ１は、テキストであれば、任意の組み合わせが入力として用いられてもよい。例えば、モデルＭ１の入力として、質問と回答が用いられる場合、図９に示すような指定であってもよい。図９は、実施形態に係るモデルの入力の指定の一例を示す図である。図９に示すように、モデルＭ１の入力であるＳｅｎｔｅｎｃｅ＃１として質問が指定され、Ｓｅｎｔｅｎｃｅ＃２として回答が指定される場合、「tokenizerColumns: [[question], [answer]]」といった文字列が用いられる。

【0125】

上述したように、モデルＭ１には、文章以外の情報もテキスト化されて入力される。この一例について図１０を用いて説明する。図１０は、実施形態に係る入力の種別の一例を示す図である。図１０中の各行は、データに含まれる各情報の種別を示す。なお、図１０中の「label」に対応する情報は、モデルの入力でなくてもよい。例えば、図１０中の「label」に対応する情報は、各列の質問や回答等が違反に該当するか否かを示すラベル（正解情報）であってもよい。

【0126】

例えば、図１０中の「hour」に対応する情報は、対応する列の質問または回答が投稿された日時を示す整数（数値）である。図１０中の「hour」に対応する情報がモデルＭ１の入力として用いられる場合、その整数（数値）はテキスト化されて入力される。

【0127】

また、例えば、図１０中の「day_week」に対応する情報は、対応する列の質問または回答が投稿された曜日を示す文字列である。図１０中の「day_week」に対応する情報がモデルＭ１の入力として用いられる場合、その文字列はテキスト化されて入力される。これにより、モデルＭ１は、整数、実数、文字列もテキストとして入力させることが可能となる。なお、曜日を示す文字列がそのままテキストとして利用可能である場合、図１０中の「day_week」に対応する情報は、モデルＭ１の入力としてそのまま用いられてもよい。

【0128】

また、例えば、図１０中の「question」に対応する情報は、対応する列の質問を示す文章である。図１０中の「question」に対応する情報がモデルＭ１の入力として用いられる場合、その文章（テキスト）がモデルＭ１の入力としてそのまま用いられる。

【0129】

また、例えば、図１０中の「answer」に対応する情報は、対応する列の回答を示す文章である。図１０中の「answer」に対応する情報がモデルＭ１の入力として用いられる場合、その文章（テキスト）がモデルＭ１の入力としてそのまま用いられる。なお、図１０に示す情報の種別は一例に過ぎず、モデルＭ１の入力として用いられる情報の種別は、図１０に示すものに限られない。例えば、モデルＭ１の入力として用いられる情報の種別には、上述したようにカテゴリ等が含まれてもよい。

【0130】

例えば、モデルＭ１は、図１０に示すような複数の種別のデータを含むタビュラー形式データを入力として受け付ける。例えば、モデルＭ１は、図１０に示すような複数の種別のデータを含むタビュラー形式データの各々がテキスト化された情報の組み合わせを入力として受け付ける。

【0131】

なお、モデルＭ１の入力には、上述した各種別の情報の組み合わせが用いられてもよい。この点についての一例を説明する。例えば、モデルＭ１への入力は図１１に示すような入力であってもよい。図１１は、実施形態に係るモデルの入力の一例を示す図である。なお、図７等で説明した内容と同様の点については適宜説明を省略する。

【0132】

例えば、図１１ではモデルＭ１には、質問が投稿された日時を示す情報をテキスト化した情報、トークン「ＳＥＰ」、質問のカテゴリを示す情報をテキスト化した情報、トークン「ＳＥＰ」、質問（質問文）に対応するテキストの順に並んだテキストを、Ｓｅｎｔｅｎｃｅ＃１として入力される。すなわち、図１１では、Ｓｅｎｔｅｎｃｅ＃１には、質問が投稿された日時を示す情報をテキスト化した情報と、質問のカテゴリを示す情報をテキスト化した情報と、質問に対応するテキストとがトークン「ＳＥＰ」で連結された１つのテキストが用いられる。

【0133】

また、図１１ではモデルＭ１には、回答が投稿された曜日を示す情報をテキスト化した情報、トークン「ＳＥＰ」、回答（回答文）に対応するテキストを、Ｓｅｎｔｅｎｃｅ＃２として入力される。すなわち、図１１では、Ｓｅｎｔｅｎｃｅ＃２には、回答が投稿された曜日を示す情報をテキスト化した情報と、回答に対応するテキストとがトークン「ＳＥＰ」で連結された１つのテキストが用いられる。

【0134】

また、入力情報ＣＭ１は、図１１に示す入力の指定の一例を示す。

【0135】

例えば、モデルＭ１の入力であるＳｅｎｔｅｎｃｅ＃１として、日時、カテゴリ及び質問を指定する場合、区切り文字（図１１の場合はカンマ）で区切って各種別を示す文字列を並べた文字列を角括弧で括った文字列が用いられる。具体的には、Ｓｅｎｔｅｎｃｅ＃１の指定としては、「[hour,category,question]」といった文字列が用いられる。

【0136】

また、モデルＭ１の入力であるＳｅｎｔｅｎｃｅ＃２として、曜日及び回答を指定する場合、区切り文字（図１１の場合はカンマ）で区切って各種別を示す文字列を並べた文字列を角括弧で括った文字列が用いられる。具体的には、Ｓｅｎｔｅｎｃｅ＃２の指定としては、「[day_week,answer]」といった文字列が用いられる。

【0137】

図１１の例では、モデルＭ１の入力全体としては、Ｓｅｎｔｅｎｃｅ＃１とＳｅｎｔｅｎｃｅ＃２とを各種別の情報を区切り文字（図１１の場合はカンマ）で区切った文字列が用いられる。具体的には、モデルＭ１の入力の指定としては、「tokenizerColumns: [[hour,category,question], [day_week,answer]]」といった文字列が用いられる。

【0138】

〔７－３．他のモデルの構造例〕
なお、上述したモデルの構造は一例に過ぎず、モデルは任意の構成が採用可能である。この点の一例について図１２を用いて説明する。図１２は、実施形態に係るモデルの構造の他の例を示す図である。なお、図７と同様の点については、同様の符号を付すこと等により適宜説明を省略する。

【0139】

図１２では、情報処理システム１は、基盤モデルの一例である部分モデルＰＭ１、ＰＭ１１及び、部分モデルＰＭ１、ＰＭ１１の出力が入力として用いられる部分モデルＰＭ１２等の複数の部分モデル等の各種の構成を有するモデルＭ１１を生成する。すなわち、モデルＭ１１は、部分モデルＰ１１が含まれ、その出力及び部分モデルＰＭ１の出力が入力として用いられる部分モデルＰＭ１２を含む点でモデルＭ１と相違する。

【0140】

例えば、部分モデルＰＭ１１は、部分モデルＰＭ１と同様に、Transformerをベースにしたモデル（言語モデル）である。なお、部分モデルＰＭ１１の内部構成は、部分モデルＰＭ１の内部構成と同様であるため説明は省略する。

【0141】

図１２で「ＤＮＮＳｐａｒｓｅ」と表記された部分モデルＰＭ１２は、部分モデルＰＭ１の出力及び部分モデルＰＭ１１の出力が入力として用いられる部分モデルＰＭである。なお、部分モデルＰＭ１２は、部分モデルＰＭ１１の出力が入力として用いられる点以外は、部分モデルＰＭ２と同様であるため説明は省略する。

【0142】

また、図１２には、モデルＭ１１の入力の一例を示す。図１２では、Ｓｅｎｔｅｎｃｅ＃１、Ｓｅｎｔｅｎｃｅ＃２が部分モデルＰＭ１に入力され、Ｓｅｎｔｅｎｃｅ＃３、Ｓｅｎｔｅｎｃｅ＃４が部分モデルＰＭ１１に入力される場合示す。なお、部分モデルＰＭ１に入力されるＳｅｎｔｅｎｃｅ＃１、Ｓｅｎｔｅｎｃｅ＃２は、図７と同様であるため、説明は省略する。

【0143】

図１２では、Ｓｅｎｔｅｎｃｅ＃３、Ｓｅｎｔｅｎｃｅ＃４の２つの文章（センテンス）がモデルＭ１１（の部分モデルＰＭ１１）に入力される場合を一例として示す。例えば、図１２では部分モデルＰＭ１１には、回答（回答文）に対応するテキストが、Ｓｅｎｔｅｎｃｅ＃３として入力される。質問（質問文）に対応するテキスト、トークン「ＳＥＰ」、質問のカテゴリを示す情報をテキスト化した情報の順に並んだテキストが、Ｓｅｎｔｅｎｃｅ＃４として入力される。図１２に示す入力の指定の一例を図１３に示す。図１３は、実施形態に係るモデルの入力の一例を示す図である。

【0144】

例えば、モデルＭ１１の入力であるＳｅｎｔｅｎｃｅ＃３として、回答を指定する場合、その種別を示す文字列を角括弧で括った文字列が用いられる。具体的には、Ｓｅｎｔｅｎｃｅ＃３の指定としては、「[answer]」といった文字列が用いられる。

【0145】

また、モデルＭ１１の入力であるＳｅｎｔｅｎｃｅ＃４として、質問及びカテゴリを指定する場合、区切り文字（図１３の場合はカンマ）で区切って各種別を示す文字列を並べた文字列を角括弧で括った文字列が用いられる。具体的には、Ｓｅｎｔｅｎｃｅ＃４の指定としては、「[question,category]」といった文字列が用いられる。

【0146】

図１３の例では、モデルＭ１１の入力全体としては、Ｓｅｎｔｅｎｃｅ＃１とＳｅｎｔｅｎｃｅ＃２とＳｅｎｔｅｎｃｅ＃３とＳｅｎｔｅｎｃｅ＃４とを各種別の情報を区切り文字（図１３の場合はカンマ）で区切った文字列が用いられる。具体的には、モデルＭ１１の入力の指定としては、「tokenizerColumns: [[category,question], [answer] , [answer], [question,category]]」といった文字列が用いられる。このように、モデルＭ１１は、テキストの重複入力が可能なモデルである。

【0147】

〔７－４．実験結果〕
ここから、上述した処理により生成したモデルを用いて行った実験結果の一例について図１４～図１８を用いて説明する。図１４～図１８は、実験結果の一例を示す図である。

【0148】

まず、図１４に示す例について説明する。質問や回答等の投稿による知識の共有サービスにおける回答の違反投稿を判定する場合の実験結果の一例を示す。

【0149】

図１４中の左側に示す結果ＲＳ１１は、従来モデルを用いた場合の実験結果を示す。結果ＲＳ１１の縦軸は、precision（適合率）を示し、結果ＲＳ１１の横軸は、recall（再現率）を示す。結果ＲＳ１１のグラフ中の波形がＰＲ曲線を示す。例えば、従来モデルは、上述したＢＥＲＴを用いたモデルであり、入力としては文章である回答を入力として受け付けるモデルである。

【0150】

一方、図１４中の右側に示す結果ＲＳ１２は、本手法モデルを用いた場合の実験結果を示す。結果ＲＳ１２の縦軸は、precision（適合率）を示し、結果ＲＳ１２の横軸は、recall（再現率）を示す。結果ＲＳ１２のグラフ中の波形がＰＲ曲線を示す。例えば、本手法モデルは、例えば上述したモデルＭ１のような基盤モデル（部分モデルＰＭ１等）と、ＤＮＮＳｐａｒｓｅモデル（部分モデルＰＭ２等）を含むモデルである。また、本手法モデルは、入力としてはカテゴリをテキスト化した情報、文章である質問の組み合わせ、及び文章である回答を入力として受け付けるモデルである。

【0151】

図１４中の結果ＲＳ１１及び結果ＲＳ１２に示すように、本手法モデルでは、従来モデルからの８０％の精度向上を達成することができた。このように、これまでテキストとして受け付けることができなかった種別の情報をテキストとして入力可能なモデルを用いることで、回答の違反投稿判定についての精度が向上させることが可能であることが示された。

【0152】

次に、図１５に示す例について説明する。質問や回答等の投稿による知識の共有サービスにおける回答の違反投稿を判定する場合の実験結果の一例を示す。なお、図１４と同様の点については適宜説明を省略する。

【0153】

図１５中の左側に示す結果ＲＳ２１は、図１４中の左側に示す結果ＲＳ１１と同様に従来モデルを用いた場合の実験結果を示す。結果ＲＳ２１のグラフ中の波形がＰＲ曲線を示す。このように、図１５中の左側に示す結果ＲＳ２１は、図１４中の左側に示す結果ＲＳ１１と同様であるため説明を省略する。

【0154】

一方、図１５中の右側に示す結果ＲＳ２２は、本手法モデルを用いた場合の実験結果を示す。結果ＲＳ２２の縦軸は、precision（適合率）を示し、結果ＲＳ２２の横軸は、recall（再現率）を示す。結果ＲＳ２２のグラフ中の波形がＰＲ曲線を示す。例えば、本手法モデルは、例えば上述した基盤モデル（部分モデルＰＭ１等）を知識の共有サービスのデータを用いて学習し、知識の共有サービスに適した基盤モデルを学習した場合のモデルである。また、本手法モデルは、入力としてはカテゴリをテキスト化した情報、文章である質問の組み合わせ、及び文章である回答を入力として受け付けるモデルである。

【0155】

図１５中の結果ＲＳ２１及び結果ＲＳ２２に示すように、本手法モデルでは、従来モデルからの１０６．６％の精度向上を達成することができた。このように、これまでテキストとして受け付けることができなかった種別の情報をテキストとして入力可能なモデルの基盤モデルを、対応するサービスのデータを用いて学習することで、回答の違反投稿判定についての精度がさらに向上させることが可能であることが示された。

【0156】

次に、図１６に示す例について説明する。質問や回答等の投稿による知識の共有サービスにおける質問の違反投稿を判定する場合の実験結果の一例を示す。なお、図１４、図１５等と同様の点については適宜説明を省略する。

【0157】

図１６中の左側に示す結果ＲＳ３１は、従来モデルを用いた場合の実験結果を示す。結果ＲＳ３１の縦軸は、precision（適合率）を示し、結果ＲＳ３１の横軸は、recall（再現率）を示す。結果ＲＳ３１のグラフ中の波形がＰＲ曲線を示す。例えば、従来モデルは、上述したＢＥＲＴを用いたモデルであり、入力としては文章である質問を入力として受け付けるモデルである。

【0158】

一方、図１６中の右側に示す結果ＲＳ３２は、本手法モデルを用いた場合の実験結果を示す。結果ＲＳ３２の縦軸は、precision（適合率）を示し、結果ＲＳ３２の横軸は、recall（再現率）を示す。結果ＲＳ３２のグラフ中の波形がＰＲ曲線を示す。例えば、本手法モデルは、例えば上述したモデルＭ１のような基盤モデル（部分モデルＰＭ１等）と、ＤＮＮＳｐａｒｓｅモデル（部分モデルＰＭ２等）を含むモデルである。また、本手法モデルは、入力としてはカテゴリをテキスト化した情報、文章である質問の組み合わせを入力として受け付けるモデルである。

【0159】

図１６中の結果ＲＳ３１及び結果ＲＳ３２に示すように、本手法モデルでは、従来モデルからの３１％の精度向上を達成することができた。このように、これまでテキストとして受け付けることができなかった種別の情報をテキストとして入力可能なモデルを用いることで、質問の違反投稿判定についての精度が向上させることが可能であることが示された。

【0160】

次に、図１７に示す例について説明する。質問や回答等の投稿による知識の共有サービスにおける質問の違反投稿を判定する場合の実験結果の一例を示す。なお、図１４～図１６等と同様の点については適宜説明を省略する。

【0161】

図１７中の左側に示す結果ＲＳ４１は、図１６中の左側に示す結果ＲＳ３１と同様に従来モデルを用いた場合の実験結果を示す。結果ＲＳ４１のグラフ中の波形がＰＲ曲線を示す。このように、図１７中の左側に示す結果ＲＳ４１は、図１６中の左側に示す結果ＲＳ３１と同様であるため説明を省略する。

【0162】

一方、図１７中の右側に示す結果ＲＳ４２は、本手法モデルを用いた場合の実験結果を示す。結果ＲＳ４２の縦軸は、precision（適合率）を示し、結果ＲＳ４２の横軸は、recall（再現率）を示す。結果ＲＳ４２のグラフ中の波形がＰＲ曲線を示す。例えば、本手法モデルは、例えば上述した基盤モデル（部分モデルＰＭ１等）を知識の共有サービスのデータを用いて学習し、知識の共有サービスに適した基盤モデルを学習した場合のモデルである。また、本手法モデルは、入力としてはカテゴリをテキスト化した情報、文章である質問の組み合わせを入力として受け付けるモデルである。

【0163】

図１７中の結果ＲＳ４１及び結果ＲＳ４２に示すように、本手法モデルでは、従来モデルからの４５．６％の精度向上を達成することができた。このように、これまでテキストとして受け付けることができなかった種別の情報をテキストとして入力可能なモデルの基盤モデルを、対応するサービスのデータを用いて学習することで、質問の違反投稿判定についての精度がさらに向上させることが可能であることが示された。

【0164】

次に、図１８に示す例について説明する。ニュース記事に対するコメントサービスにおけるコメントの違反投稿を判定する場合の実験結果の一例を示す。なお、図１４～図１７等と同様の点については適宜説明を省略する。

【0165】

図１８中の左側に示す結果ＲＳ５１は、従来モデルを用いた場合の実験結果を示す。結果ＲＳ５１の縦軸は、precision（適合率）を示し、結果ＲＳ５１の横軸は、recall（再現率）を示す。結果ＲＳ５１のグラフ中の波形がＰＲＡＵＣを示す。例えば、従来モデルは、上述したＢＥＲＴを用いたモデルであり、入力としては文章であるコメントを入力として受け付けるモデルである。

【0166】

一方、図１８中の右側に示す結果ＲＳ５２は、本手法モデルを用いた場合の実験結果を示す。結果ＲＳ５２の縦軸は、precision（適合率）を示し、結果ＲＳ５２の横軸は、recall（再現率）を示す。結果ＲＳ５２のグラフ中の波形がＰＲＡＵＣを示す。例えば、本手法モデルは、例えば上述した基盤モデル（部分モデルＰＭ１等）をコメントサービスのデータを用いて学習し、コメントサービスに適した基盤モデルを学習した場合のモデルである。また、本手法モデルは、入力としてはニュース記事のヘッドラインをテキスト化した情報、文章であるコメントの組み合わせを入力として受け付けるモデルである。

【0167】

図１８中の結果ＲＳ５１及び結果ＲＳ５２に示すように、本手法モデルでは、従来モデルからの７８．３％の精度向上を達成することができた。このように、これまでテキストとして受け付けることができなかった種別の情報をテキストとして入力可能なモデルの基盤モデルを、対応するサービスのデータを用いて学習することで、コメントの違反投稿判定についての精度がさらに向上させることが可能であることが示された。

【0168】

〔８．学習処理例〕
情報処理システム１は、上述したモデルＭ１、モデルＭ１１等の各種モデルを様々な学習手法により学習してもよい。例えば、情報処理システム１は、モデルＭ１の基盤モデルである部分モデルＰＭ１等の各種の部分モデルＰＭを任意の学習手法により学習してもよい。

【0169】

例えば、情報処理装置１０は、複数段階の学習処理により、モデルＭ１の基盤モデルである部分モデルＰＭ１を生成してもよい。例えば、情報処理装置１０は、学習データのうち、汎用的な言語能力の学習に用いる第１データ群を用いた第１段階の学習処理を含む複数段階の学習処理により、モデルＭ１の基盤モデルである部分モデルＰＭ１を生成してもよい。

【0170】

また、情報処理装置１０は、特定の処理のための言語能力の学習に用いる第２データ群を用いた第２段階の学習処理を含む複数段階の学習処理により、モデルＭ１の基盤モデルである部分モデルＰＭ１を生成してもよい。例えば、第２データ群は、インターネットにおける投稿に関する処理に用いるモデルの学習に用いられるインターネットにおける投稿データである。

【0171】

また、情報処理装置１０は、基盤モデルのレイヤーを増やして学習を行う第３段階の学習処理を含む複数段階の学習処理により、モデルＭ１の基盤モデルである部分モデルＰＭ１を生成してもよい。第３段階の学習処理に用いられるデータ群は、第２データ群であってもよい。例えば、情報処理装置１０は、第３段階の学習処理を繰り返し実行することにより、基盤モデルのレイヤーの増加処理、及び増加後の基盤モデルを対象とする学習処理を行い、モデルＭ１の基盤モデルである部分モデルＰＭ１を生成してもよい。

【0172】

上述したモデルＭ１の基盤モデルである部分モデルＰＭ１の学習処理の一例について、図１９～図２１を用いて説明する。図１９～図２１は、実施形態に係るモデルの学習処理の一例を示す図である。例えば、図１９は、部分モデルＰＭ１を対象とした第１段階の学習処理の一例を示す図である。また、図２０は、部分モデルＰＭ１を対象とした第２段階の学習処理の一例を示す図である。また、図２１は、部分モデルＰＭ１を対象とした第３段階の学習処理の一例を示す図である。なお、上述した内容と同様の点については適宜説明を省略する。

【0173】

まず、情報処理装置１０は、図１９に示すような第１段階の学習処理によりモデルＭ１の基盤モデルである部分モデルＰＭ１を学習する。図１９に示す第１段階の学習処理では、部分モデルＰＭ１の出力が「ＬａｎｇｕａｇｅＭａｓｋｅｄＰｒｅｄｉｃｔｉｏｎＬａｙｅｒ」と表記された部分モデルＰＭ３の入力とした状態で行われる。例えば、部分モデルＰＭ３は、入力された文章（テキスト）中でのマスクされた文字列を予測するモデルである。このように、情報処理装置１０は、基盤モデルである部分モデルＰＭ１を学習する場合、学習後にサービスに用いられるモデル（例えばモデルＭ１）に含まれる他の部分モデル（例えば部分モデルＰＭ２）を別の機能を有する部分モデル（例えば部分モデルＰＭ３）に置き換えて学習を行ってもよい。

【0174】

例えば、図１９に示す第１段階の学習処理では、第１データ群ＦＤ１として、大規模言語モデルの学習に用いられる自然言語データ等が用いられる。第１データ群ＦＤ１は、Ｗｉｋｉｐｅｄｉａ、ＣＣ－１００、ＯＳＣＡＲＤａｔａ等の任意のデータセットが用いられてもよい。例えば、情報処理装置１０は、第１データ群ＦＤ１に含まれる文書（「第１文章」ともいう）を用いて、第１段階の学習処理を実行する。例えば、情報処理装置１０は、第１データ群ＦＤ１に含まれる各第１文章の一部をマスクした文書を入力として、第１文章のマスクした部分の文字列を部分モデルＰＭ３が正確に予測するように学習することにより、部分モデルＰＭ１を学習する。これにより、情報処理装置１０は、汎用的な言語能力を獲得した部分モデルＰＭ１を学習（生成）することができる。

【0175】

次に、情報処理装置１０は、図２０に示すような第２段階の学習処理によりモデルＭ１の基盤モデルである部分モデルＰＭ１を学習する。なお、図２０において、図１９と同様の点については適宜説明を省略する。例えば、情報処理装置１０は、図１９に示す第１段階の学習処理で学習した部分モデルＰＭ１を用いて、図２０に示すような第２段階の学習処理により部分モデルＰＭ１をさらに学習する。

【0176】

図２０では、情報処理装置１０は、第１段階の学習処理と同様のモデルの構成において、第２データ群ＳＤ１を用いた追加学習により、部分モデルＰＭ１をさらに学習する。例えば、情報処理装置１０は、ファインチューニング用のデータを第２データ群ＳＤ１として用いた第２段階の学習処理により、部分モデルＰＭ１を学習する。例えば、情報処理装置１０は、違反投稿判定に用いるモデル（例えばモデルＭ１等）をファインチューニングするために用いられる第２データ群ＳＤ１を用いた第２段階の学習処理により、部分モデルＰＭ１を学習する。

【0177】

図２０では、Ｓｅｎｔｅｎｃｅ＃１、Ｓｅｎｔｅｎｃｅ＃２の２つの文章（センテンス）が部分モデルＰＭ１に入力される場合を一例として示す。例えば、図２０では部分モデルＰＭ１には、質問のカテゴリを示す情報をテキスト化した情報、トークン「ＳＥＰ」、質問（質問文）に対応するテキストの順に並んだテキストを、Ｓｅｎｔｅｎｃｅ＃１として入力される。すなわち、図２０では、Ｓｅｎｔｅｎｃｅ＃１には、質問のカテゴリを示す情報をテキスト化した情報と、質問に対応するテキストとがトークン「ＳＥＰ」で連結された１つのテキストが用いられる。

【0178】

また、図２０では部分モデルＰＭ１には、回答（回答文）に対応するテキストを、Ｓｅｎｔｅｎｃｅ＃２として入力される。すなわち、図２０では、Ｓｅｎｔｅｎｃｅ＃２には、回答に対応するテキストが用いられる。

【0179】

このように、情報処理装置１０は、質問や回答等の投稿に関する推論処理用のモデルを学習するためのファインチューニング用のデータである第２データ群ＳＤ１を用いて、第２段階の学習処理を実行する。例えば、情報処理装置１０は、第２データ群ＳＤ１に含まれる文書（「第２文章」ともいう）を用いて、第２段階の学習処理を実行する。例えば、情報処理装置１０は、第２データ群ＳＤ１に含まれる各第２文章の一部をマスクした文書を入力として、第２文章のマスクした部分の文字列を部分モデルＰＭ３が正確に予測するように学習することにより、部分モデルＰＭ１を学習する。これにより、情報処理装置１０は、特定の処理のための言語能力を獲得した部分モデルＰＭ１を学習（生成）することができる。

【0180】

次に、情報処理装置１０は、図２１に示すような第３段階の学習処理によりモデルＭ１の基盤モデルである部分モデルＰＭ１を学習する。なお、図２１において、図１９及び図２０等と同様の点については適宜説明を省略する。例えば、情報処理装置１０は、図２０に示すような第２段階の学習処理で学習した部分モデルＰＭ１を用いて、図２１に示すような第３段階の学習処理により部分モデルＰＭ１をさらに学習する。

【0181】

図２１では、情報処理装置１０は、第１段階及び第２段階の学習処理で学習した部分モデルＰＭ１にレイヤーを追加して学習を行う第３段階の学習処理により、部分モデルＰＭ１をさらに学習する。図２１では、部分モデルＰＭ１－１に示すように、情報処理装置１０は、追加レイヤーであるレイヤーＡＬ１等を追加して学習を行う第３段階の学習処理により、部分モデルＰＭ１をさらに学習する。例えば、情報処理装置１０は、ファインチューニング用のデータを第２データ群ＳＤ１として用いた第３段階の学習処理により、部分モデルＰＭ１にレイヤーを追加して部分モデルＰＭ１を学習する。

【0182】

例えば、情報処理装置１０は、第３段階の学習処理において、新しいレコードの追加や重複コピーなどによりデータを増やしてもよい。また、情報処理装置１０は、第３段階の学習処理において、学習率（Learning Rate）の最適化や、スケジューラーをconstantに設定すること等により第３段階の学習処理を行ってもよい。例えば、情報処理装置１０は、バッチサイズを任意の値（例えば３４,５６０等）に設定して第３段階の学習処理を行ってもよい。例えば、情報処理装置１０は、バッチサイズを６,９００以上にすることで、学習を安定させ、学習時間短縮のため最適化実施することができる。また、例えば、ＭＬＭ（Masked Language Model）probabilityが最適化対象であり、０．１５～０．４５の範囲であってもよい。

【0183】

なお、図２１に示す１つのレイヤーＡＬ１を追加した状態は部分モデルＰＭ１の構成の一例に過ぎず、部分モデルＰＭ１は、２つ以上のレイヤーが追加されてもよい。例えば、情報処理装置１０は、第３段階の学習処理を繰り返し実行することにより、基盤モデルのレイヤーの増加処理、及び増加後の基盤モデルを対象とする学習処理を行い、部分モデルＰＭ１にさらにレイヤーを追加して、部分モデルＰＭ１を生成してもよい。

【0184】

〔８－１．実験結果〕
ここから、上述した複数段階の学習処理により生成したモデルを用いて行った実験結果の一例について図２２～図２５を用いて説明する。図２２～図２５は、実験結果の一例を示す図である。

【0185】

まず、図２２に示す例について説明する。図２２は、質問や回答等の投稿による知識の共有サービスに用いられる基盤モデル（例えば部分モデルＰＭ１）についての実験結果の一例を示す。図２２の結果ＲＳ６１は、横軸が学習処理に関するステップ数を示し、縦軸が基盤モデルを用いたＭＬＭＴａｓｋのＡｃｃｕｒａｃｙ（正確さ）を示す。

【0186】

図２２中の線ＬＮ１１は、第１段階の学習処理（図２２中ではＳｔｅｐ１）での基盤モデルを用いたＭＬＭＴａｓｋのＡｃｃｕｒａｃｙを示す。図２２では、第１段階の学習処理で学習された基盤モデルのレイヤー数は２６であり、その基盤モデルを用いたＭＬＭＴａｓｋのＡｃｃｕｒａｃｙは「０．７２８０」であることを示す。

【0187】

図２２中の線ＬＮ１２は、第２段階の学習処理（図２２中ではＳｔｅｐ２）での基盤モデルを用いたＭＬＭＴａｓｋのＡｃｃｕｒａｃｙを示す。図２２では、第２段階の学習処理で学習された基盤モデルのレイヤー数は２６であり、その基盤モデルを用いたＭＬＭＴａｓｋのＡｃｃｕｒａｃｙは「０．７７２４」まで上昇したことを示す。

【0188】

図２２中の線ＬＮ１３は、第３段階の学習処理（図２２中ではＳｔｅｐ３）での基盤モデルを用いたＭＬＭＴａｓｋのＡｃｃｕｒａｃｙを示す。図２２では、第３段階の学習処理で学習された基盤モデルのレイヤー数は２８であり、その基盤モデルを用いたＭＬＭＴａｓｋのＡｃｃｕｒａｃｙは「０．７８２１」まで上昇したことを示す。

【0189】

このように、図２２の結果ＲＳ６１では、線ＬＮ１１～ＬＮ１３に示すように、知識の共有サービスに最適化した場合の基盤モデルについては、第２段階の学習処理及び第３段階の学習処理により、７．４％の精度向上を達成することができた。このように、情報処理装置１０は、複数段階の学習処理により精度を向上させることが可能であることが示された。

【0190】

次に、図２３に示す例について説明する。質問や回答等の投稿による知識の共有サービスにおける回答の違反投稿を判定する場合の実験結果の一例を示す。なお、上述した内容と同様の点については適宜説明を省略する。

【0191】

図２３中の左側に示す結果ＲＳ７１は、従来モデルを用いた場合の実験結果を示す。結果ＲＳ７１の縦軸は、precision（適合率）を示し、結果ＲＳ７１の横軸は、recall（再現率）を示す。結果ＲＳ７１のグラフ中の波形がＰＲ曲線を示す。例えば、従来モデルは、上述したＤｅＢＥＲＴａを用いたモデルであり、入力としては文章である回答を入力として受け付けるモデルである。結果ＲＳ７１は、第１段階の学習処理に対応する学習処理が行われたモデルであり、レイヤー数が２６のモデルを用いた場合の実験結果を示す。

【0192】

一方、図２３中の右側に示す結果ＲＳ７２は、本手法モデルを用いた場合の実験結果を示す。結果ＲＳ７２の縦軸は、precision（適合率）を示し、結果ＲＳ７２の横軸は、recall（再現率）を示す。結果ＲＳ７２のグラフ中の波形がＰＲ曲線を示す。例えば、本手法モデルは、例えば上述した複数段階の学習処理で学習した基盤モデル（部分モデルＰＭ１等）を知識の共有サービスのデータを用いて、第２段階及び第３段階の学習処理し、知識の共有サービスに基盤モデルが最適化された場合のモデルであり、文章である回答を入力として受け付けるモデルである。結果ＲＳ７２は、第１段階～第３段階の学習処理の全てを含む学習処理が行われたモデルであり、レイヤー数が２８のモデルを用いた場合の実験結果を示す。

【0193】

図２３中の結果ＲＳ７１及び結果ＲＳ７２に示すように、本手法モデルでは、従来モデルからの２６．６％の精度向上を達成することができた。このように、複数段階の学習処理により学習することで、回答の違反投稿判定についての精度がさらに向上させることが可能であることが示された。

【0194】

まず、図２４に示す例について説明する。図２４は、ニュース記事に対するコメントサービスに用いられる基盤モデル（例えば部分モデルＰＭ１）についての実験結果の一例を示す。なお、上述した内容と同様の点については適宜説明を省略する。図２４の結果ＲＳ８１は、横軸が学習処理に関するステップ数を示し、縦軸が基盤モデルを用いたＭＬＭＴａｓｋのＡｃｃｕｒａｃｙ（正確さ）を示す。

【0195】

図２４中の線ＬＮ２０は、従来モデルを用いたＭＬＭＴａｓｋのＡｃｃｕｒａｃｙを示す。図２４では、従来モデルはＤｅＢＥＲＴａベースで学習された基盤モデルのレイヤー数は１２であり、その基盤モデルを用いたＭＬＭＴａｓｋのＡｃｃｕｒａｃｙは「０．６７９０」であることを示す。

【0196】

図２４中の線ＬＮ２１は、第１段階の学習処理（図２４中ではＳｔｅｐ１）での基盤モデルを用いたＭＬＭＴａｓｋのＡｃｃｕｒａｃｙを示す。図２４では、第１段階の学習処理で学習された基盤モデルのレイヤー数は２６であり、その基盤モデルを用いたＭＬＭＴａｓｋのＡｃｃｕｒａｃｙは「０．７１０９」であることを示す。

【0197】

図２４中の線ＬＮ２２は、第２段階の学習処理（図２４中ではＳｔｅｐ２）での基盤モデルを用いたＭＬＭＴａｓｋのＡｃｃｕｒａｃｙを示す。図２４では、第２段階の学習処理で学習された基盤モデルのレイヤー数は２６であり、その基盤モデルを用いたＭＬＭＴａｓｋのＡｃｃｕｒａｃｙは「０．７４４１」まで上昇したことを示す。

【0198】

図２４中の線ＬＮ２３は、第３段階の学習処理（図２４中ではＳｔｅｐ３）での基盤モデルを用いたＭＬＭＴａｓｋのＡｃｃｕｒａｃｙを示す。図２４では、第３段階の学習処理で学習された基盤モデルのレイヤー数は２８であり、その基盤モデルを用いたＭＬＭＴａｓｋのＡｃｃｕｒａｃｙは「０．７７４１」まで上昇したことを示す。

【0199】

このように、図２４の結果ＲＳ８１では、線ＬＮ２１～ＬＮ２３に示すように、ニュース記事に対するコメントサービスに最適化した場合の基盤モデルについては、第２段階の学習処理及び第３段階の学習処理により、８．９％の精度向上を達成することができた。このように、情報処理装置１０は、複数段階の学習処理により精度を向上させることが可能であることが示された。

【0200】

次に、図２５に示す例について説明する。ニュース記事に対するコメントサービスにおけるコメントの違反投稿を判定する場合の実験結果の一例を示す。なお、上述した内容と同様の点については適宜説明を省略する。

【0201】

図２５中の左側に示す結果ＲＳ９１は、従来モデルを用いた場合の実験結果を示す。結果ＲＳ９１の縦軸は、precision（適合率）を示し、結果ＲＳ９１の横軸は、recall（再現率）を示す。結果ＲＳ９１のグラフ中の波形がＰＲＡＵＣを示す。例えば、従来モデルは、上述したＤｅＢＥＲＴａを用いたモデルであり、入力としては文章であるコメントを入力として受け付けるモデルである。結果ＲＳ９１は、第１段階の学習処理に対応する学習処理が行われたモデルであり、レイヤー数が２６のモデルを用いた場合の実験結果を示す。

【0202】

一方、図２５中の右側に示す結果ＲＳ９２は、本手法モデルを用いた場合の実験結果を示す。結果ＲＳ９２の縦軸は、precision（適合率）を示し、結果ＲＳ９２の横軸は、recall（再現率）を示す。結果ＲＳ９２のグラフ中の波形がＰＲＡＵＣを示す。例えば、本手法モデルは、例えば上述した複数段階の学習処理で学習した基盤モデル（部分モデルＰＭ１等）をニュース記事に対するコメントサービスのデータを用いて、第２段階及び第３段階の学習処理し、ニュース記事に対するコメントサービスに基盤モデルが最適化された場合のモデルであり、文章であるコメントを入力として受け付けるモデルである。結果ＲＳ９２は、第１段階～第３段階の学習処理の全てを含む学習処理が行われたモデルであり、レイヤー数が２８のモデルを用いた場合の実験結果を示す。

【0203】

図２５中の結果ＲＳ９１及び結果ＲＳ９２に示すように、本手法モデルでは、従来モデルからの２９．７％の精度向上を達成することができた。このように、複数段階の学習処理により学習することで、ニュース記事に対するコメントサービスの違反投稿判定についての精度がさらに向上させることが可能であることが示された。

【0204】

〔８－２．その他の処理例〕
ここから、上述した内容を前提として、その他の処理例について説明する。例えば、上述した例では、文章である文章テキスト以外の情報が変換されたテキストを変換後情報の一例として説明したが、モデルへの入力はテキストに限られない。

【0205】

例えば、情報処理システム１は、文章以外の情報を用いた学習により、基盤モデルと、基盤モデルを所定のタスクに適用するようにファインチューニングしたモデル（「ファインチューニングモデル」ともいう）とを生成してもよい。例えば、情報処理システム１は、文章以外の情報を用いた学習により、基盤モデルである部分モデルＰＭ１等を学習する。例えば、情報処理システム１は、文章以外の情報を用いた学習により、基盤モデル（例えば部分モデルＰＭ１等）を含み所定のタスクに適用するようにファインチューニングされるファインチューニングモデル（例えばモデルＭ１等）を学習する。例えば、情報処理システム１は、ファインチューニング用のデータを用いてファインチューニングモデルを学習する。

【0206】

これにより、情報処理システム１は、基盤モデル、ファインチューニングモデル共に精度を向上させることができる。また、情報処理システム１は、テキストデータ以外のTabularデータ（タビュラー形式データ）に対して、上述したＢＥＲＴに関連するＢＥＲＴ系のモデルにかぎらず、ＧＰＴ（Generative Pretrained Transformer）に関連するＧＰＴ系のモデルも含め様々な言語モデルを適用することが可能となる。

【0207】

例えば、情報処理システム１は、基盤モデルと、基盤モデルとは入力情報の入力が異なるファインチューニングモデルとを生成してもよい。例えば、情報処理システム１は、基盤モデル（例えば部分モデルＰＭ１等）を含むファインチューニングモデル（例えばモデルＭ１等）の入力を、基盤モデル（例えば部分モデルＰＭ１等）とは異なる入力としてファインチューニングモデル（例えばモデルＭ１等）を学習する。

【0208】

これにより、情報処理システム１は、基盤モデル、ファインチューニングモデル共に文章および文章以外の情報の入力順を、入力の重複や削除も含めて自由に設定することができる。それにより、情報処理システム１は、入力順の自動最適化が可能となり、基盤モデル、ファインチューニングモデルの精度を向上させることができる。

【0209】

例えば、情報処理システム１は、基盤モデルと、基盤モデルと入力情報の入力順が同じであるファインチューニングモデルとを生成してもよい。例えば、情報処理システム１は、基盤モデル（例えば部分モデルＰＭ１等）を含むファインチューニングモデル（例えばモデルＭ１等）の入力を、基盤モデル（例えば部分モデルＰＭ１等）と同じ入力順としてファインチューニングモデル（例えばモデルＭ１等）を学習する。

【0210】

これにより、情報処理システム１は、基盤モデルとファインチューニングモデルの文章および文章以外の情報の入力順を同じにすることができる。それにより、情報処理システム１は、基盤モデルが学習した入力情報の位置（トークン位置）に関する特徴を利用できる様になり、ファインチューニングモデルの精度を向上させることができる。

【0211】

例えば、情報処理システム１は、整数、実数、文字列等の文章以外の情報をテキスト以外の情報に変換してもよい。例えば、情報処理システム１は、“identity”、“vocabulary”、“numeric”、“bucketize”、“identity + embedding”、“vocabulary + embedding”、“bucketize + embedding”等の任意の形式に変換してもよい。例えば、情報処理システム１は、整数、実数、文字列等の文章以外の情報を入力する場合に、整数、実数、文字列等の文章以外の情報をそのまま入力した場合と、整数、実数、文字列等の文章以外の情報を変換して入力した場合とでは、それぞれモデルの精度が変化すると考えられる。

【0212】

そこで、情報処理装置１０は、上述したようにモデルに入力する整数、実数、文字列等の文章以外の情報の形式を変換（決定）する。例えば、情報処理装置１０は、モデルに入力する整数、実数、文字列等の文章以外の情報の形式を、そのままの形式、テキストの形式、その他の形式のいずれかにするかを決定する。例えば、情報処理システム１は、整数や実数を入力する場合に、そのまま数値として入力するか、テキストに変換して入力するか、文字列等の他の形式に変換して入力するのかのいずれにするかを決定する。例えば、情報処理システム１は、文字列を入力する場合に、そのまま文字列として入力するか、テキストに変換して入力するか、数値等の他の形式に変換して入力するのかのいずれにするかを決定する。例えば、情報処理システム１は、最も精度が良いモデルが生成された場合の入力形式を用いると決定する。

【0213】

上述した処理により、情報処理装置１０は、入力する情報（特徴）の形式を最適化することができる。これにより、情報処理システム１は、上記の任意の形式、及びそれらの組合せも含めてfeature最適化アルゴリズムにより自動で最適化することができる。それにより、情報処理システム１は、ファインチューニングモデルの精度を向上させることができる。

【0214】

例えば、情報処理システム１は、基盤モデルの学習において、ラベル情報を入力情報として用いてもよい。これにより、情報処理システム１は、基盤モデルの事前学習時において、ラベル情報も基盤モデルに入力情報（入力素性）として入力することができる。また、事前学習時にラベル情報をマスク対象とすることが可能となり、情報処理システム１は、基盤モデルの事前学習時にラベル情報も予測できる様に学習させることができる。これにより、情報処理システム１は、ファインチューニングモデルの精度を向上させることができる。

【0215】

〔９．変形例〕
上記では、情報処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報処理の変形例について説明する。

【0216】

〔９－１．装置構成〕
上記実施形態では、情報処理システム１に、生成指標の生成を行う情報処理装置１０、および、生成指標に従ってモデルを生成するモデル生成サーバ２を有する例について説明したが、実施形態は、これに限定されるものではない。例えば、情報処理装置１０は、モデル生成サーバ２が有する機能を有していてもよい。また、情報処理装置１０が発揮する機能は、端末装置３に内包されていてもよい。このような場合、端末装置３は、生成指標を自動的に生成するとともに、モデル生成サーバ２を用いたモデルの生成を自動的に行うこととなる。

【0217】

〔９－２．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

【0218】

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

【0219】

また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

【0220】

〔９－３．プログラム〕
また、上述してきた実施形態に係る情報処理装置１０は、例えば図２６に示すような構成のコンピュータ１０００によって実現される。図２６は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

【0221】

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ、フラッシュメモリ等により実現される。

【0222】

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

【0223】

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

【0224】

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

【0225】

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

【0226】

例えば、コンピュータ１０００が情報処理装置１０として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムを実行することにより、制御部４０の機能を実現する。

【0227】

〔１０．効果〕
上述したように、情報処理装置１０は、テキストを入力とする基盤モデル（例えば実施形態では部分モデルＰＭ１）の学習に用いられる学習データを取得する取得部（実施形態では取得部４１）と、学習データを用いた複数段階の学習処理により、基盤モデルを生成する生成部（実施形態では生成部４４）とを有する。これにより、情報処理装置１０は、基盤モデルを適切に生成することができる。

【0228】

また、取得部は、汎用的な言語能力の学習に用いる第１データ群を含む学習データを取得する。生成部は、第１データ群を用いた第１段階の学習処理を含む複数段階の学習処理により、基盤モデルを生成する。これにより、情報処理装置１０は、汎用的な言語能力の学習する第１段階の学習処理を含む複数段階の学習処理によりモデルを生成することができるため、基盤モデルを適切に生成することができる。

【0229】

また、取得部は、大規模言語モデルの学習に用いられる自然言語データを含む第１データ群を取得する。これにより、情報処理装置１０は、大規模言語モデルの学習に用いられる自然言語データを用いた第１段階の学習処理を含む複数段階の学習処理により、汎用的な言語能力を獲得したモデルを生成することができるため、基盤モデルを適切に生成することができる。

【0230】

また、取得部は、特定の処理のための言語能力の学習に用いる第２データ群を含む学習データを取得する。生成部は、第２データ群を用いた第２段階の学習処理を含む複数段階の学習処理により、基盤モデルを生成する。これにより、情報処理装置１０は、特定の処理のための言語能力の学習する第２段階の学習処理を含む複数段階の学習処理によりモデルを生成することができるため、基盤モデルを適切に生成することができる。

【0231】

また、取得部は、インターネットにおいて投稿に関するデータである第２データ群を含む学習データを取得する。これにより、情報処理装置１０は、インターネットにおいて投稿に関するデータを用いた第２段階の学習処理を含む複数段階の学習処理により、特定の処理に適したモデルを生成することができるため、基盤モデルを適切に生成することができる。

【0232】

また、取得部は、インターネットにおいて投稿された文章に対応するテキストを含む第２データ群を取得する。これにより、情報処理装置１０は、インターネットにおいて投稿された文章に対応するテキストを用いた第２段階の学習処理を含む複数段階の学習処理により、投稿された文章を対象とする処理に適したモデルを生成することができるため、基盤モデルを適切に生成することができる。

【0233】

また、取得部は、インターネットにおいて投稿された質問に対応するテキストを含む第２データ群を取得する。これにより、情報処理装置１０は、インターネットにおいて投稿された質問に対応するテキストを用いた第２段階の学習処理を含む複数段階の学習処理により、投稿された質問を対象とする処理に適したモデルを生成することができるため、基盤モデルを適切に生成することができる。

【0234】

また、取得部は、インターネットにおいて投稿された回答に対応するテキストを含む第２データ群を取得する。これにより、情報処理装置１０は、インターネットにおいて投稿された回答に対応するテキストを用いた第２段階の学習処理を含む複数段階の学習処理により、投稿された回答を対象とする処理に適したモデルを生成することができるため、基盤モデルを適切に生成することができる。

【0235】

また、生成部は、基盤モデルのレイヤーを増やして学習を行う第３段階の学習処理を含む複数段階の学習処理により、基盤モデルを生成する。これにより、情報処理装置１０は、基盤モデルのレイヤーを増やして学習を行う第３段階の学習処理を含む複数段階の学習処理によりモデルを生成することができるため、基盤モデルを適切に生成することができる。

【0236】

また、生成部は、特定の処理のための言語能力の学習に用いるデータを用いた第３段階の学習処理により基盤モデルを生成する。これにより、情報処理装置１０は、特定の処理のための言語能力の学習に用いるデータを用いた第３段階の学習処理を含む複数段階の学習処理により、特定の処理に適したモデルを生成することができるため、基盤モデルを適切に生成することができる。

【0237】

また、生成部は、インターネットにおいて投稿に関するデータを用いた第３段階の学習処理により基盤モデルを生成する。これにより、情報処理装置１０は、インターネットにおいて投稿に関するデータを用いた第３段階の学習処理を含む複数段階の学習処理により、投稿された文章を対象とする処理に適したモデルを生成することができるため、基盤モデルを適切に生成することができる。

【0238】

また、生成部は、インターネットにおいて投稿された文章に対応するテキストを用いた第３段階の学習処理により基盤モデルを生成する。これにより、情報処理装置１０は、インターネットにおいて投稿された文章に対応するテキストを用いた第３段階の学習処理を含む複数段階の学習処理により、投稿された文章を対象とする処理に適したモデルを生成することができるため、基盤モデルを適切に生成することができる。

【0239】

また、生成部は、第３段階の学習処理を繰り返し実行することにより、基盤モデルのレイヤーの増加処理、及び増加後の基盤モデルを対象とする学習処理を行い、基盤モデルを生成する。これにより、情報処理装置１０は、基盤モデルのレイヤーの増加処理、及び増加後の基盤モデルを対象とする学習処理を行うことで、基盤モデルを適切に生成することができる。

【0240】

また、生成部は、文章以外の情報を用いた学習により、基盤モデルと、基盤モデルを所定のタスクに適用するようにファインチューニングしたファインチューニングモデルとを生成する。これにより、情報処理装置１０は、基盤モデルとファインチューニングモデルとの両方を適切に学習することができるため、文章以外の情報を適切に入力可能なモデルを生成することができる。

【0241】

また、生成部は、基盤モデルと、基盤モデルとは入力情報の入力が異なるファインチューニングモデルとを生成する。これにより、情報処理装置１０は、基盤モデルと、基盤モデルとは入力情報の入力が異なるファインチューニングモデルとの両方を適切に学習することができるため、文章以外の情報を適切に入力可能なモデルを生成することができる。

【0242】

また、生成部は、基盤モデルと、基盤モデルと入力情報の入力順が同じであるファインチューニングモデルとを生成する。これにより、情報処理装置１０は、基盤モデルと、基盤モデルと入力順が同じであるファインチューニングモデルとの両方を適切に学習することができるため、文章以外の情報を適切に入力可能なモデルを生成することができる。

【0243】

また、生成部は、文章である文章テキスト以外の情報が変換された変換後情報を含む複数の入力情報を入力とする前記基盤モデルと前記ファインチューニングモデルとを生成する。これにより、情報処理装置１０は、文章以外の情報もテキストとして入力可能な基盤モデルとファインチューニングモデルとの両方を適切に学習することができるため、文章以外の情報を適切に入力可能なモデルを生成することができる。

【0244】

また、生成部は、基盤モデルの学習において、ラベル情報を入力情報として用いる。これにより、情報処理装置１０は、基盤モデルでラベル情報を用いて適切に学習することができるため、文章以外の情報を適切に入力可能なモデルを生成することができる。

【0245】

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

【0246】

また、上記してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

【符号の説明】

【0247】

１情報処理システム
２モデル生成サーバ
３端末装置
１０情報処理装置
２０通信部
３０記憶部
４０制御部
４１取得部
４２決定部
４３受付部
４４生成部
４５処理部
４６提供部

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12】

【図13】

【図14】

【図15】

【図16】

【図17】

【図18】

【図19】

【図20】

【図21】

【図22】

【図23】

【図24】

【図25】

【図26】

【手続補正書】

【提出日】2024-06-21

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

コンピュータが実行する情報処理方法であって、
テキストを入力とする基盤モデルの学習に用いられる学習データを取得する取得工程と、
前記学習データを用いた複数段階の学習処理により、前記基盤モデルを生成し、前記複数段階の学習処理のうち前記基盤モデルのレイヤーを増やして学習を行う第３段階の学習処理では、前記第３段階の学習処理よりも前の段階の学習処理で学習された前記基盤モデルにレイヤーを追加して、レイヤー追加後の前記基盤モデルを対象として、前記第３段階の学習処理よりも前の段階の学習処理のうち少なくとも１つの学習処理において用いられたデータを用いて学習を行うことにより、前記基盤モデルを生成する生成工程と、
を含むことを特徴とする情報処理方法。

【請求項2】

【請求項3】

【請求項4】

【請求項5】

【請求項6】

【請求項7】

【請求項8】

【請求項9】

前記生成工程は、
特定の処理のための言語能力の学習に用いるデータを用いた前記第３段階の学習処理により前記基盤モデルを生成する
ことを特徴とする請求項１に記載の情報処理方法。

【請求項10】

前記生成工程は、
インターネットにおいて投稿に関するデータを用いた前記第３段階の学習処理により前記基盤モデルを生成する
ことを特徴とする請求項９に記載の情報処理方法。

【請求項11】

前記生成工程は、
インターネットにおいて投稿された文章に対応するテキストを用いた前記第３段階の学習処理により前記基盤モデルを生成する
ことを特徴とする請求項１０に記載の情報処理方法。

【請求項12】

前記生成工程は、
前記第３段階の学習処理を繰り返し実行することにより、前記基盤モデルのレイヤーの増加処理、及び増加後の前記基盤モデルを対象とする学習処理を行い、前記基盤モデルを生成する
ことを特徴とする請求項１に記載の情報処理方法。

【請求項13】

前記生成工程は、
前記基盤モデルのうち少なくとも一部の部分モデルを有する他のモデルを生成する
ことを特徴とする請求項１に記載の情報処理方法。

【請求項14】

前記生成工程は、
前記基盤モデルの学習において、ラベル情報を入力情報として用いる
ことを特徴とする請求項１に記載の情報処理方法。

【請求項15】

テキストを入力とする基盤モデルの学習に用いられる学習データを取得する取得部と、
前記学習データを用いた複数段階の学習処理により、前記基盤モデルを生成し、前記複数段階の学習処理のうち前記基盤モデルのレイヤーを増やして学習を行う第３段階の学習処理では、前記第３段階の学習処理よりも前の段階の学習処理で学習された前記基盤モデルにレイヤーを追加して、レイヤー追加後の前記基盤モデルを対象として、前記第３段階の学習処理よりも前の段階の学習処理のうち少なくとも１つの学習処理において用いられたデータを用いて学習を行うことにより、前記基盤モデルを生成する生成部と、
を有する情報処理装置。

【請求項16】

テキストを入力とする基盤モデルの学習に用いられる学習データを取得する取得手順と、
前記学習データを用いた複数段階の学習処理により、前記基盤モデルを生成し、前記複数段階の学習処理のうち前記基盤モデルのレイヤーを増やして学習を行う第３段階の学習処理では、前記第３段階の学習処理よりも前の段階の学習処理で学習された前記基盤モデルにレイヤーを追加して、レイヤー追加後の前記基盤モデルを対象として、前記第３段階の学習処理よりも前の段階の学習処理のうち少なくとも１つの学習処理において用いられたデータを用いて学習を行うことにより、前記基盤モデルを生成する生成手順と、
をコンピュータに実行させるための情報処理プログラム。

【手続補正書】

【提出日】2024-12-02

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

コンピュータが実行する情報処理方法であって、
テキストを入力とする基盤モデルの学習に用いられる学習データを取得する取得工程と、
前記学習データを用いた複数段階の学習処理により、前記基盤モデルを生成し、前記複数段階の学習処理のうち前記基盤モデルのレイヤーを増やして学習を行う第３段階の学習処理では、前記第３段階の学習処理よりも前の段階の学習処理で学習された前記基盤モデルにレイヤーを追加して、レイヤー追加後の前記基盤モデルを対象として、前記第３段階の学習処理よりも前の段階の学習処理のうち少なくとも１つの学習処理において用いられたデータ、及び前記前の段階の学習処理において用いられたデータに含まれないデータを用いて学習を行うことにより、前記基盤モデルを生成する生成工程と、
を含むことを特徴とする情報処理方法。

【請求項2】

【請求項3】

【請求項4】

【請求項5】

【請求項6】

【請求項7】

【請求項8】

【請求項9】

【請求項10】

【請求項11】

【請求項12】

【請求項13】

【請求項14】

前記生成工程は、
前記基盤モデルの学習において、ラベル情報を入力情報として用いる
ことを特徴とする請求項１に記載の情報処理方法。

【請求項15】

テキストを入力とする基盤モデルの学習に用いられる学習データを取得する取得部と、
前記学習データを用いた複数段階の学習処理により、前記基盤モデルを生成し、前記複数段階の学習処理のうち前記基盤モデルのレイヤーを増やして学習を行う第３段階の学習処理では、前記第３段階の学習処理よりも前の段階の学習処理で学習された前記基盤モデルにレイヤーを追加して、レイヤー追加後の前記基盤モデルを対象として、前記第３段階の学習処理よりも前の段階の学習処理のうち少なくとも１つの学習処理において用いられたデータ、及び前記前の段階の学習処理において用いられたデータに含まれないデータを用いて学習を行うことにより、前記基盤モデルを生成する生成部と、
を有する情報処理装置。

【請求項16】

テキストを入力とする基盤モデルの学習に用いられる学習データを取得する取得手順と、
前記学習データを用いた複数段階の学習処理により、前記基盤モデルを生成し、前記複数段階の学習処理のうち前記基盤モデルのレイヤーを増やして学習を行う第３段階の学習処理では、前記第３段階の学習処理よりも前の段階の学習処理で学習された前記基盤モデルにレイヤーを追加して、レイヤー追加後の前記基盤モデルを対象として、前記第３段階の学習処理よりも前の段階の学習処理のうち少なくとも１つの学習処理において用いられたデータ、及び前記前の段階の学習処理において用いられたデータに含まれないデータを用いて学習を行うことにより、前記基盤モデルを生成する生成手順と、
をコンピュータに実行させるための情報処理プログラム。

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版