(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025073953
(43)【公開日】2025-05-13
(54)【発明の名称】情報処理方法、情報処理装置および情報処理プログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20250502BHJP
G06F 40/216 20200101ALI20250502BHJP
G06F 40/44 20200101ALI20250502BHJP
【FI】
G06N20/00
G06F40/216
G06F40/44
【審査請求】有
【請求項の数】16
【出願形態】OL
(21)【出願番号】P 2024019684
(22)【出願日】2024-02-13
(31)【優先権主張番号】63/593,902
(32)【優先日】2023-10-27
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】520090055
【氏名又は名称】アクタピオ,インコーポレイテッド
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】岡本 慎一郎
(57)【要約】 (修正有)
【課題】文章以外の情報を適切に入力可能なモデルを生成する情報処理方法、情報処理装置および情報処理プログラムを提供する。
【解決手段】情報処理装置、モデル生成サーバおよび端末装置が、ネットワークを介して有線または無線により通信可能に接続される情報処理システムにおいて、コンピュータである情報処理装置が実行する情報処理方法は、文章である文章テキスト以外の情報が変換された変換後情報を含む複数の入力情報を入力とするモデルの学習に用いられる学習データを取得する取得工程と、学習データを用いた学習により、文章テキスト以外の情報を変換して入力可能なモデルを生成する生成工程と、を含む。取得工程は、汎用的な言語能力の学習に用いる第1データ群を含む前記学習データを取得し、生成工程は、前記第1データ群を用いた第1段階の学習処理を含む前記複数段階の学習処理により、基盤モデルを生成する。
【選択図】
図6
【特許請求の範囲】
【請求項1】
コンピュータが実行する情報処理方法であって、
テキストを入力とする基盤モデルの学習に用いられる学習データを取得する取得工程と、
前記学習データを用いた複数段階の学習処理により、前記基盤モデルを生成する生成工程と、
を含むことを特徴とする情報処理方法。
【請求項2】
前記取得工程は、
汎用的な言語能力の学習に用いる第1データ群を含む前記学習データを取得し、
前記生成工程は、
前記第1データ群を用いた第1段階の学習処理を含む前記複数段階の学習処理により、前記基盤モデルを生成する
ことを特徴とする請求項1に記載の情報処理方法。
【請求項3】
前記取得工程は、
大規模言語モデルの学習に用いられる自然言語データを含む前記第1データ群を取得する
ことを特徴とする請求項2に記載の情報処理方法。
【請求項4】
前記取得工程は、
特定の処理のための言語能力の学習に用いる第2データ群を含む前記学習データを取得し、
前記生成工程は、
前記第2データ群を用いた第2段階の学習処理を含む前記複数段階の学習処理により、前記基盤モデルを生成する
ことを特徴とする請求項1に記載の情報処理方法。
【請求項5】
前記取得工程は、
インターネットにおいて投稿に関するデータである前記第2データ群を含む前記学習データを取得する
ことを特徴とする請求項4に記載の情報処理方法。
【請求項6】
前記取得工程は、
インターネットにおいて投稿された文章に対応するテキストを含む前記第2データ群を取得する
ことを特徴とする請求項5に記載の情報処理方法。
【請求項7】
前記取得工程は、
インターネットにおいて投稿された質問に対応するテキストを含む前記第2データ群を取得する
ことを特徴とする請求項6に記載の情報処理方法。
【請求項8】
前記取得工程は、
インターネットにおいて投稿された回答に対応するテキストを含む前記第2データ群を取得する
ことを特徴とする請求項6に記載の情報処理方法。
【請求項9】
前記生成工程は、
前記基盤モデルのレイヤーを増やして学習を行う第3段階の学習処理を含む前記複数段階の学習処理により、前記基盤モデルを生成する
ことを特徴とする請求項1に記載の情報処理方法。
【請求項10】
前記生成工程は、
特定の処理のための言語能力の学習に用いるデータを用いた前記第3段階の学習処理により前記基盤モデルを生成する
ことを特徴とする請求項9に記載の情報処理方法。
【請求項11】
前記生成工程は、
インターネットにおいて投稿に関するデータを用いた前記第3段階の学習処理により前記基盤モデルを生成する
ことを特徴とする請求項10に記載の情報処理方法。
【請求項12】
前記生成工程は、
インターネットにおいて投稿された文章に対応するテキストを用いた前記第3段階の学習処理により前記基盤モデルを生成する
ことを特徴とする請求項11に記載の情報処理方法。
【請求項13】
前記生成工程は、
前記第3段階の学習処理を繰り返し実行することにより、前記基盤モデルのレイヤーの増加処理、及び増加後の前記基盤モデルを対象とする学習処理を行い、前記基盤モデルを生成する
ことを特徴とする請求項9に記載の情報処理方法。
【請求項14】
前記生成工程は、
文章以外の情報を用いた学習により、前記基盤モデルと、前記基盤モデルを所定のタスクに適用するようにファインチューニングしたファインチューニングモデルとを生成する
ことを特徴とする請求項1に記載の情報処理方法。
【請求項15】
前記生成工程は、
前記基盤モデルと、前記基盤モデルとは入力情報の入力が異なる前記ファインチューニングモデルとを生成する
ことを特徴とする請求項14に記載の情報処理方法。
【請求項16】
前記生成工程は、
前記基盤モデルと、前記基盤モデルと入力情報の入力順が同じである前記ファインチューニングモデルとを生成する
ことを特徴とする請求項14に記載の情報処理方法。
【請求項17】
前記生成工程は、
前記文章である文章テキスト以外の情報が変換された変換後情報を含む複数の入力情報を入力とする前記基盤モデルと前記ファインチューニングモデルとを生成する
ことを特徴とする請求項14に記載の情報処理方法。
【請求項18】
前記生成工程は、
前記基盤モデルの学習において、ラベル情報を入力情報として用いる
ことを特徴とする請求項1に記載の情報処理方法。
【請求項19】
テキストを入力とする基盤モデルの学習に用いられる学習データを取得する取得部と、
前記学習データを用いた複数段階の学習処理により、前記基盤モデルを生成する生成部と、
を有する情報処理装置。
【請求項20】
テキストを入力とする基盤モデルの学習に用いられる学習データを取得する取得手順と、
前記学習データを用いた複数段階の学習処理により、前記基盤モデルを生成する生成手順と、
をコンピュータに実行させるための情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理方法、情報処理装置および情報処理プログラムに関する。
【背景技術】
【0002】
近年、言語モデル等の各種モデルに対し、学習データが有する特徴を学習させることで、モデルを生成する技術が提案されている。このように学習された言語モデル等のモデルは、各種の予測や分類等といった各種の推論処理に用いられる。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
また、上述した技術には、モデルの生成において改善の余地がある。例えば、上述した例では、業界特有の表現を含む文章を入力として、その表現を精度よく解釈可能にするモデルを生成できるものの、モデルの学習については改善の余地があり、より柔軟にモデルを生成することが望まれている。例えば、様々な用途のモデルの一部として利用可能な基盤モデルや、所定のタスクに適用するようにファインチューニングされたファインチューニングモデル等の学習については改善の余地がある。そのため、例えば、基盤モデルを適切に生成することが望まれている。
【課題を解決するための手段】
【0005】
本願に係る情報処理方法は、コンピュータが実行する情報処理方法であって、テキストを入力とする基盤モデルの学習に用いられる学習データを取得する取得工程と、前記学習データを用いた複数段階の学習処理により、前記基盤モデルを生成する生成工程と、を含むことを特徴とする。
【発明の効果】
【0006】
実施形態の一態様によれば、基盤モデルを適切に生成することができる。
【図面の簡単な説明】
【0007】
【
図1】実施形態に係る情報処理システムの一例を示す図である。
【
図2】実施形態における情報処理装置を用いたモデル生成の流れの一例を説明する図である。
【
図3】実施形態に係る情報処理装置の構成例を示す図である。
【
図4】実施形態に係る学習データデータベースに登録される情報の一例を示す図である。
【
図5】実施形態に係る情報処理の流れの一例を示すフローチャートである。
【
図6】実施形態に係る情報処理の流れの一例を示すフローチャートである。
【
図7】実施形態に係るモデルの構造の一例を示す図である。
【
図8】実施形態に係るモデルの入力の指定の一例を示す図である。
【
図9】実施形態に係るモデルの入力の指定の一例を示す図である。
【
図10】実施形態に係る入力の種別の一例を示す図である。
【
図11】実施形態に係るモデルの入力の一例を示す図である。
【
図12】実施形態に係るモデルの構造の他の例を示す図である。
【
図13】実施形態に係るモデルの入力の一例を示す図である。
【
図19】実施形態に係るモデルの学習処理の一例を示す図である。
【
図20】実施形態に係るモデルの学習処理の一例を示す図である。
【
図21】実施形態に係るモデルの学習処理の一例を示す図である。
【発明を実施するための形態】
【0008】
以下に、本願に係る情報処理方法、情報処理装置および情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理方法、情報処理装置および情報処理プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0009】
[実施形態]
以下の実施形態では、最初にシステム構成等の前提について説明した後、テキストを入力とするモデルの生成に関する処理を説明する。本実施形態では、上述したモデルの生成、実験結果等を示す前に、まずモデルを生成する情報処理システム1の構成等について説明する。
【0010】
〔1.情報処理システムの構成〕
まず、
図1を用いて、情報処理装置の一例である情報処理装置10を有する情報処理システムの構成について説明する。
図1は、実施形態に係る情報処理システムの一例を示す図である。
図1に示すように、情報処理システム1は、情報処理装置10、モデル生成サーバ2、および端末装置3を有する。なお、情報処理システム1は、複数のモデル生成サーバ2や複数の端末装置3を有していてもよい。また、情報処理装置10と、モデル生成サーバ2とは、同一のサーバ装置やクラウドシステム等により実現されてもよい。ここで、情報処理装置10、モデル生成サーバ2、および端末装置3は、ネットワークN(例えば、
図3参照)を介して有線または無線により通信可能に接続される。
【0011】
情報処理装置10は、モデルの生成における指標(すなわち、モデルのレシピ)である生成指標を生成する指標生成処理と、生成指標に従ってモデルを生成するモデル生成処理とを実行し、生成した生成指標およびモデルを提供する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。
【0012】
モデル生成サーバ2は、学習データが有する特徴を学習させたモデルを生成する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。例えば、モデル生成サーバ2は、モデルの生成指標として、生成するモデルの種別や行動、どのように学習データの特徴を学習させるかといったコンフィグファイルを受付けると、受付けたコンフィグファイルに従って、モデルの自動生成を行う。なお、モデル生成サーバ2は、任意のモデル学習手法を用いて、モデルの学習を行ってもよい。また、例えば、モデル生成サーバ2は、AutoML(Automated Machine Learning)といった各種既存のサービスであってもよい。
【0013】
端末装置3は、利用者Uによって利用される端末装置であり、例えば、PC(Personal Computer)やサーバ装置等により実現される。例えば、端末装置3は、情報処理装置10とのやり取りを介して、モデルの生成指標を生成させ、生成させた生成指標に従ってモデル生成サーバ2が生成したモデルを取得する。
【0014】
〔2.情報処理装置10が実行する処理の概要〕
まず、情報処理装置10が実行する処理の概要について説明する。まず、情報処理装置10は、端末装置3からモデルに特徴を学習させる学習データの指摘を受付ける(ステップS1)。例えば、情報処理装置10は、学習に用いる各種の学習データを所定の記憶装置に記憶させており、利用者Uが学習データに指定する学習データの指摘を受付ける。なお、情報処理装置10は、例えば、端末装置3や各種外部のサーバから、学習に用いる学習データを取得してもよい。
【0015】
ここで、学習データとは、任意のデータが採用可能である。例えば、情報処理装置10は、各利用者の位置の履歴や各利用者が閲覧したウェブコンテンツの履歴、各利用者による購買履歴や検索クエリの履歴等、利用者に関する各種の情報を学習データとしてもよい。また、情報処理装置10は、利用者のデモグラフィック属性やサイコグラフィック属性等を学習データとしてもよい。また、情報処理装置10は、配信対象となる各種ウェブコンテンツの種別や内容、作成者等のメタデータ等を学習データとしてもよい。
【0016】
このような場合、情報処理装置10は、学習に用いる学習データの統計的な情報に基づいて、生成指標の候補を生成する(ステップS2)。例えば、情報処理装置10は、学習データに含まれる値の特徴等に基づいて、どのようなモデルに対し、どのような学習手法により学習を行えばよいかを示す生成指標の候補を生成する。換言すると、情報処理装置10は、学習データの特徴を精度よく学習可能なモデルやモデルに精度よく特徴を学習させるための学習手法を生成指標として生成する。すなわち、情報処理装置10は、学習手法の最適化を行う。なお、どのような学習データが選択された場合に、どのような内容の生成指標を生成するかについては、後述する。
【0017】
続いて、情報処理装置10は、生成指標の候補を端末装置3に対して提供する(ステップS3)。このような場合、利用者Uは、生成指標の候補を嗜好や経験則等に応じて修正する(ステップS4)。そして、情報処理装置10は、各生成指標の候補と学習データとをモデル生成サーバ2に提供する(ステップS5)。
【0018】
一方、モデル生成サーバ2は、生成指標ごとに、モデルの生成を行う(ステップS6)。例えば、モデル生成サーバ2は、生成指標が示す構造を有するモデルに対し、生成指標が示す学習手法により学習データが有する特徴を学習させる。そして、モデル生成サーバ2は、生成したモデルを情報処理装置10に提供する(ステップS7)。
【0019】
ここで、モデル生成サーバ2によって生成された各モデルは、それぞれ生成指標の違いに由来する精度の違いが生じると考えられる。そこで、情報処理装置10は、各モデルの精度に基づいて、遺伝的アルゴリズムにより新たな生成指標を生成し(ステップS8)、新たに生成した生成指標を用いたモデルの生成を繰り返し実行する(ステップS9)。
【0020】
例えば、情報処理装置10は、学習データを評価用データと学習用データとに分割し、学習用データが有する特徴を学習させたモデルであって、それぞれ異なる生成指標に従って生成された複数のモデルを取得する。例えば、情報処理装置10は、10個の生成指標を生成し、生成した10個の生成指標と、学習用データとを用いて、10個のモデルを生成する。このような場合、情報処理装置10は、評価用データを用いて、10個のモデルそれぞれの精度を測定する。
【0021】
続いて、情報処理装置10は、10個のモデルのうち、精度が高い方から順に所定の数のモデル(例えば、5個)を選択する。そして、情報処理装置10は、選択した5個のモデルを生成した際に採用された生成指標から、新たな生成指標を生成する。例えば、情報処理装置10は、各生成指標を遺伝的アルゴリズムの個体と見做し、各生成指標が示すモデルの種別、モデルの構造、各種の学習手法(すなわち、生成指標が示す各種の指標)を遺伝的アルゴリズムにおける遺伝子と見做す。そして、情報処理装置10は、遺伝子の交叉を行う個体の選択および遺伝子の交叉を行うことで、次世代の生成指標を10個新たに生成する。なお、情報処理装置10は、遺伝子の交叉を行う際に、突然変異を考慮してもよい。また、情報処理装置10は、二点交叉、多点交叉、一様交叉、交叉対象となる遺伝子のランダムな選択を行ってもよい。また、情報処理装置10は、例えば、モデルの精度が高い個体の遺伝子程、次世代の個体に引き継がれるように、交叉を行う際の交叉率を調整してもよい。
【0022】
また、情報処理装置10は、次世代の生成指標を用いて、再度新たな10個のモデルを生成する。そして、情報処理装置10は、新たな10個のモデルの精度に基づいて、上述した遺伝的アルゴリズムによる新たな生成指標の生成を行う。このような処理を繰り返し実行することで、情報処理装置10は、生成指標を学習データの特徴に応じた生成指標、すなわち、最適化された生成指標へと近づけることができる。
【0023】
また、情報処理装置10は、所定の回数新たな生成指標を生成した場合や、モデルの精度の最大値、平均値、若しくは最低値が所定の閾値を超えた場合等、所定の条件が満たされた場合は、最も精度が高いモデルを提供対象として選択する。そして、情報処理装置10は、選択したモデルと共に、対応する生成指標を端末装置3に提供する(ステップS10)。このような処理の結果、情報処理装置10は、利用者から学習データを選択するだけで、適切なモデルの生成指標を生成するとともに、生成した生成指標に従うモデルを提供することができる。
【0024】
なお、上述した例では、情報処理装置10は、遺伝的アルゴリズムを用いて生成指標の段階的な最適化を実現したが、実施形態は、これに限定されるものではない。後述する説明で明らかとなるように、モデルの精度は、モデルの種別や構造といったモデルそのものの特徴のみならず、どのような学習データをどのようにモデルに入力するのか、どのようなハイパーパラメータを用いてモデルの学習を行うのかというように、モデルを生成する際(すなわち、学習データの特徴を学習させる際)の指標に応じて大きく変化する。
【0025】
そこで、情報処理装置10は、学習データに応じて、最適と推定される生成指標を生成するのであれば、遺伝的アルゴリズムを用いた最適化を行わずともよい。例えば、情報処理装置10は、学習データが、経験則に応じて生成された各種の条件を満たすか否かに応じて生成した生成指標を利用者に提示するとともに、提示した生成指標に従ったモデルの生成を行ってもよい。また、情報処理装置10は、提示した生成指標の修正を受付けると、受付けた修正後の生成指標に従ってモデルの生成を行い、生成したモデルの精度等を利用者に対して提示し、再度生成指標の修正を受付けてもよい。すなわち、情報処理装置10は、利用者Uに最適な生成指標を試行錯誤させてもよい。
【0026】
〔3.生成指標の生成について〕
以下、どのような学習データに対して、どのような生成指標を生成するかの一例について説明する。なお、以下の例は、あくまで一例であり、学習データが有する特徴に応じて生成指標を生成するのであれば、任意の処理が採用可能である。
【0027】
〔3-1.生成指標について〕
まず、生成指標が示す情報の一例について説明する。例えば、学習データが有する特徴をモデルに学習させる場合、学習データをモデルに入力する際の態様、モデルの態様、およびモデルの学習態様(すなわち、ハイパーパラメータが示す特徴)が最終的に得られるモデルの精度に寄与すると考えられる。そこで、情報処理装置10は、学習データの特徴に応じて、各態様を最適化した生成指標を生成することで、モデルの精度を向上させる。
【0028】
例えば、学習データには、様々なラベルが付与されたデータ、すなわち、様々な特徴を示すデータが存在すると考えられる。しかしながら、データを分類する際に有用ではない特徴を示すデータを学習データとした場合、最終的に得られるモデルの精度は、悪化する恐れがある。そこで、情報処理装置10は、学習データをモデルに入力する際の態様として、入力する学習データが有する特徴を決定する。例えば、情報処理装置10は、学習データのうち、どのラベルが付与されたデータ(すなわち、どの特徴を示すデータ)を入力するかを決定する。換言すると、情報処理装置10は、入力する特徴の組み合わせを最適化する。
【0029】
また、学習データには、数値のみのデータや文字列が含まれるデータ等、各種形式のカラムが含まれていると考えられる。このような学習データをモデルに入力する際に、そのまま入力した場合と、他の形式のデータに変換した場合とで、モデルの精度が変化するとも考えられる。例えば、複数種別の学習データ(それぞれ異なる特徴を示す学習データ)であって、文字列の学習データと数値の学習データとを入力する際に、文字列と数値とをそのまま入力した場合と、文字列を数値に変換して数値のみを入力した場合と、数値を文字列と見做して入力した場合とでは、それぞれモデルの精度が変化すると考えられる。そこで、情報処理装置10は、モデルに入力する学習データの形式を決定する。例えば、情報処理装置10は、モデルに入力する学習データを数値とするか、文字列とするかを決定する。換言すると、情報処理装置10は、入力する特徴のカラムタイプを最適化する。
【0030】
また、それぞれ異なる特徴を示す学習データが存在する場合、どの特徴の組み合わせを同時に入力するかによって、モデルの精度が変化すると考えられる。すなわち、それぞれ異なる特徴を示す学習データが存在する場合、どの特徴の組み合わせの特徴(すなわち、複数の特徴の組み合わせの関係性)を学習させるかにより、モデルの精度が変化すると考えられる。例えば、第1特徴(例えば、性別)を示す学習データと、第2特徴(例えば、住所)を示す学習データと、第3特徴(例えば、購買履歴)を示す学習データとが存在する場合、第1特徴を示す学習データと第2特徴を示す学習データとを同時に入力した場合と、第1特徴を示す学習データと第3特徴を示す学習データとを同時に入力した場合とでは、モデルの精度が変化すると考えられる。そこで、情報処理装置10は、モデルに関係性を学習させる特徴の組み合わせ(クロスフューチャー)を最適化する。
【0031】
ここで、各種のモデルは、入力データを所定の超平面により分割された所定次元の空間内に投影し、投影した位置が分割された空間のうちいずれの空間に属するかに応じて、入力データの分類を行うこととなる。このため、入力データを投影する空間の次元数が最適な次元数よりも低い場合は、入力データの分類能力が劣化する結果、モデルの精度が悪化する。また、入力データを投影する空間の次元数が最適な次元数よりも高い場合は、超平面との内積値が変化する結果、学習時に用いたデータとは異なるデータを適切に分類することができなくなる恐れがある。そこで、情報処理装置10は、モデルに入力する入力データの次元数を最適化する。例えば、情報処理装置10は、モデルが有する入力層のノードの数を制御することで、入力データの次元数を最適化する。換言すると、情報処理装置10は、入力データの埋め込みを行う空間の次元数を最適化する。
【0032】
また、モデルには、SVMに加え、複数の中間層(隠れ層)を有するニューラルネットワーク等が存在する。また、このようなニューラルネットワークには、入力層から出力層まで一方方向に情報が伝達されるフィードフォワード型のDNN、中間層で情報の畳み込みを行う畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks)、有向閉路を有する回帰型ニューラルネットワーク(RNN:Recurrent Neural Network)、ボルツマンマシン等、各種のニューラルネットワークが知られている。また、このような各種ニューラルネットワークには、LSTM(Long short-term memory)やその他各種のニューラルネットワークが含まれている。
【0033】
このように、学習データの各種特徴を学習するモデルの種別が異なる場合、モデルの精度は変化すると考えられる。そこで、情報処理装置10は、学習データの特徴を精度良く学習すると推定されるモデルの種別を選択する。例えば、情報処理装置10は、学習データのラベルとしてどのようなラベルが付与されているかに応じて、モデルの種別を選択する。より具体的な例を挙げると、情報処理装置10は、ラベルとして「履歴」に関連する用語が付されたデータが存在する場合は、履歴の特徴をより良く学習することができると考えられるRNNを選択し、ラベルとして「画像」に関連する用語が付されたデータが存在する場合は、画像の特徴をより良く学習することができると考えられるCNNを選択する。これら以外にも、情報処理装置10は、ラベルがあらかじめ指定された用語若しくは用語と類似する用語であるか否かを判定し、同一若しくは類似すると判定された用語と予め対応付けられた種別のモデルを選択すればよい。
【0034】
また、モデルの中間層の数や1つの中間層に含まれるノードの数が変化した場合、モデルの学習精度が変化すると考えられる。例えば、モデルの中間層の数が多い場合(モデルが深い場合)、より抽象的な特徴に応じた分類を実現することができると考えられる一方で、バックプロパゲーションにおける局所誤差が入力層まで伝播しづらくなる結果、学習が適切に行えなくなる恐れがある。また、中間層に含まれるノードの数が少ない場合は、より高度な抽象化を行うことができるものの、ノードの数が少なすぎる場合は、分類に必要な情報が欠損する可能性が高い。そこで、情報処理装置10は、中間層の数や中間層に含まれるノードの数の最適化を行う。すなわち、情報処理装置10は、モデルのアーキテクチャの最適化を行う。
【0035】
また、アテンションの有無やモデルに含まれるノードに自己回帰がある場合とない場合、どのノード間を接続するのかに応じて、ノードの精度が変化すると考えられる。そこで、情報処理装置10は、自己回帰を有するか否か、どのノード間を接続するのかといったネットワークの最適化を行う。
【0036】
また、モデルの学習を行う場合、モデルの最適化手法(学習時に用いるアルゴリズム)やドロップアウト率、ノードの活性化関数やユニット数等がハイパーパラメータとして設定される。このようなハイパーパラメータが変化した場合にも、モデルの精度が変化すると考えられる。そこで、情報処理装置10は、モデルを学習する際の学習態様、すなわち、ハイパーパラメータの最適化を行う。
【0037】
また、モデルのサイズ(入力層、中間層、出力層の数やノード数)が変化した場合も、モデルの精度が変化する。そこで、情報処理装置10は、モデルのサイズの最適化についても行う。
【0038】
このように、情報処理装置10は、上述した各種モデルを生成する際の指標について最適化を行う。例えば、情報処理装置10は、各指標に対応する条件を予め保持しておく。なお、このような条件は、例えば、過去の学習モデルから生成された各種モデルの精度等の経験則により設定される。そして、情報処理装置10は、学習データが各条件を満たすか否かを判定し、学習データが満たす若しくは満たさない条件に予め対応付けられた指標を生成指標(若しくはその候補)として採用する。この結果、情報処理装置10は、学習データが有する特徴を精度良く学習可能な生成指標を生成することができる。
【0039】
なお、上述したように、学習データから自動的に生成指標を生成し、生成指標に従ってモデルを作成する処理を自動的に行った場合、利用者は、学習データの内部を参照し、どのような分布のデータが存在するかといった判断を行わずともよい。この結果、情報処理装置10は、例えば、モデルの作成に伴ってデータサイエンティスト等が学習データの認識を行う手間を削減するとともに、学習データの認識に伴うプライバシーの毀損を防ぐことができる。
【0040】
〔3-2.データ種別に応じた生成指標〕
以下、生成指標を生成するための条件の一例について説明する。まず、学習データとしてどのようなデータが採用されているかに応じた条件の一例について説明する。
【0041】
例えば、学習に用いられる学習データには、整数、浮動小数点、若しくは文字列等がデータとして含まれている。このため、入力されるデータの形式に対して適切なモデルを選択した場合は、モデルの学習精度がより高くなると推定される。そこで、情報処理装置10は、学習データが整数であるか、浮動小数点であるか、若しくは文字列であるかに基いて、生成指標を生成する。
【0042】
例えば、学習データが整数である場合、情報処理装置10は、学習データの連続性に基いて、生成指標を生成する。例えば、情報処理装置10は、学習データの密度が所定の第1閾値を超える場合、当該学習データが連続性を有するデータであると見做し、学習データの最大値が所定の第2閾値を上回るか否かに基いて生成指標を生成する。また、情報処理装置10は、学習データの密度が所定の第1閾値を下回る場合、当該学習データがスパースな学習データであると見做し、学習データに含まれるユニークな値の数が所定の第3閾値を上回るか否かに基いて生成指標を生成する。
【0043】
より具体的な例を説明する。なお、以下の例においては、生成指標として、AutoMLによりモデルを自動的に生成するモデル生成サーバ2に対して送信するコンフィグファイルのうち、特徴関数(feature function)を選択する処理の一例について説明する。例えば、情報処理装置10は、学習データが整数である場合、その密度が所定の第1閾値を超えるか否かを判定する。例えば、情報処理装置10は、学習データに含まれる値のうちユニークな値の数を、学習データの最大値に1を加算した値で除算した値を密度として算出する。
【0044】
続いて、情報処理装置10は、密度が所定の第1閾値を超える場合は、学習データが連続性を有する学習データであると判定し、学習データの最大値に1を加算した値が第2閾値を上回るか否かを判定する。そして、情報処理装置10は、学習データの最大値に1を加算した値が第2閾値を上回る場合は、特徴関数として「Categorical_column_with_identity & embedding_column」を選択する。一方、情報処理装置10は、学習データの最大値に1を加算した値が第2閾値を下回る場合は、特徴関数として「Categorical_column_with_identity」を選択する。
【0045】
一方、情報処理装置10は、密度が所定の第1閾値を下回る場合は、学習データがスパースであると判定し、学習データに含まれるユニークな値の数が所定の第3閾値を超えるか否かを判定する。そして、情報処理装置10は、学習データに含まれるユニークな値の数が所定の第3閾値を超える場合は、特徴関数として「Categorical_column_with_hash_bucket & embedding_column」を選択し、学習データに含まれるユニークな値の数が所定の第3閾値を下回る場合は、特徴関数として「Categorical_column_with_hash_bucket」を選択する。
【0046】
また、情報処理装置10は、学習データが文字列である場合、学習データに含まれる文字列の種別の数に基いて、生成指標を生成する。例えば、情報処理装置10は、学習データに含まれるユニークな文字列の数(ユニークなデータの数)を計数し、計数した数が所定の第4閾値を下回る場合は、特徴関数として「categorical_column_with_vocabulary_list」若しくは/および「categorical_column_with_vocabulary_file」を選択する。また、情報処理装置10は、計数した数が所定の第4閾値よりも大きい第5閾値を下回る場合は、特徴関数として「categorical_column_with_vocabulary_file & embedding_column」を選択する。また、情報処理装置10は、計数した数が所定の第4閾値よりも大きい第5閾値を上回る場合は、特徴関数として「categorical_column_with_hash_bucket & embedding_column」を選択する。
【0047】
また、情報処理装置10は、学習データが浮動小数点である場合、モデルの生成指標として、学習データをモデルに入力する入力データへの変換指標を生成する。例えば、情報処理装置10は、特徴関数として「bucketized_column」もしくは「numeric_column」を選択する。すなわち、情報処理装置10は、学習データをバケタイズ(グルーピング)し、バケットの番号を入力とするか、数値をそのまま入力するかを選択する。なお、情報処理装置10は、例えば、各バケットに対して対応付けられる数値の範囲が同程度となるように、学習データのバケタイズを行ってもよく、例えば、各バケットに分類される学習データの数が同程度となるように、各バケットに対して数値の範囲を対応付けてもよい。また、情報処理装置10は、バケットの数やバケットに対して対応付けられる数値の範囲を生成指標として選択してもよい。
【0048】
また、情報処理装置10は、複数の特徴を示す学習データを取得し、モデルの生成指標として、学習データが有する特徴のうちモデルに学習させる特徴を示す生成指標を生成する。例えば、情報処理装置10は、どのラベルの学習データをモデルに入力するかを決定し、決定したラベルを示す生成指標を生成する。また、情報処理装置10は、モデルの生成指標として、学習データの種別のうちモデルに対して相関を学習させる複数の種別を示す生成指標を生成する。例えば、情報処理装置10は、モデルに対して同時に入力するラベルの組み合わせを決定し、決定した組み合わせを示す生成指標を生成する。
【0049】
また、情報処理装置10は、モデルの生成指標として、モデルに入力される学習データの次元数を示す生成指標を生成する。例えば、情報処理装置10は、学習データに含まれるユニークなデータの数やモデルに入力するラベルの数、モデルに入力するラベルの数の組み合わせ、バケットの数等に応じて、モデルの入力層におけるノードの数を決定してもよい。
【0050】
また、情報処理装置10は、モデルの生成指標として、学習データの特徴を学習させるモデルの種別を示す生成指標を生成する。例えば、情報処理装置10は、過去に学習対象とした学習データの密度やスパース具合、ラベルの内容、ラベルの数、ラベルの組み合わせの数等に応じて、生成するモデルの種別を決定し、決定した種別を示す生成指標を生成する。例えば、情報処理装置10は、AutoMLにおけるモデルのクラスとして「BaselineClassifier」、「LinearClassifier」、「DNNClassifier」、「DNNLinearCombinedClassifier」、「BoostedTreesClassifier」、「AdaNetClassifier」、「RNNClassifier」、「DNNResNetClassifier」、「AutoIntClassifier」等を示す生成指標を生成する。
【0051】
なお、情報処理装置10は、これら各クラスのモデルの各種独立変数を示す生成指標を生成してもよい。例えば、情報処理装置10は、モデルの生成指標として、モデルが有する中間層の数若しくは各層に含まれるノードの数を示す生成指標を生成してもよい。また、情報処理装置10は、モデルの生成指標として、モデルが有するノード間の接続態様を示す生成指標やモデルの大きさを示す生成指標を生成してもよい。これらの独立変数は、学習データが有する各種の統計的な特徴が所定の条件を満たすか否かに応じて、適宜選択されることとなる。
【0052】
また、情報処理装置10は、モデルの生成指標として、学習データが有する特徴をモデルに学習させる際の学習態様、すなわち、ハイパーパラメータを示す生成指標を生成してもよい。例えば、情報処理装置10は、AutoMLにおける学習態様の設定において、「stop_if_no_decrease_hook」、「stop_if_no_increase_hook」、「stop_if_higher_hook」、もしくは「stop_if_lower_hook」を示す生成指標を生成してもよい。
【0053】
すなわち、情報処理装置10は、学習に用いる学習データのラベルやデータそのものの特徴に基づいて、モデルに学習させる学習データの特徴、生成するモデルの態様、および学習データが有する特徴をモデルに学習させる際の学習態様を示す生成指標を生成する。より具体的には、情報処理装置10は、AutoMLにおけるモデルの生成を制御するためのコンフィグファイルを生成する。
【0054】
〔3-3.生成指標を決定する順序について〕
ここで、情報処理装置10は、上述した各種の指標の最適化を同時並行的に行ってもよく、適宜順序だてて実行してもよい。また、情報処理装置10は、各指標を最適化する順序を変更可能としてもよい。すなわち、情報処理装置10は、モデルに学習させる学習データの特徴、生成するモデルの態様、および学習データが有する特徴をモデルに学習させる際の学習態様を決定する順番の指定を利用者から受け付け、受け付けた順序で、各指標を決定してもよい。
【0055】
例えば、情報処理装置10は、生成指標の生成を開始した場合、入力する学習データの特徴や、どのような態様で学習データを入力するかといった入力素性の最適化を行い、続いて、どの特徴の組み合わせの特徴を学習させるかという入力クロス素性の最適化を行う。続いて、情報処理装置10は、モデルの選択を行うとともに、モデル構造の最適化を行う。その後、情報処理装置10は、ハイパーパラメータの最適化を行い、生成指標の生成を終了する。
【0056】
ここで、情報処理装置10は、入力素性最適化において、入力する学習データの特徴や入力態様といった各種入力素性の選択や修正、遺伝的アルゴリズムを用いた新たな入力素性の選択を行うことで、入力素性を繰り返し最適化してもよい。同様に、情報処理装置10は、入力クロス素性最適化において、入力クロス素性を繰り返し最適化してもよく、モデル選択およびモデル構造の最適化を繰り返し実行してもよい。また、情報処理装置10は、ハイパーパラメータの最適化を繰り返し実行してもよい。また、情報処理装置10は、入力素性最適化、入力クロス素性最適化、モデル選択、モデル構造最適化、およびハイパーパラメータの最適化という一連の処理を繰り返し実行し、各指標の最適化を行ってもよい。
【0057】
また、情報処理装置10は、例えば、ハイパーパラメータの最適化を行ってから、モデル選択やモデル構造最適化を行ってもよく、モデル選択やモデル構造最適化の後に、入力素性の最適化や入力クロス素性の最適化を行ってもよい。また、情報処理装置10は、例えば、入力素性最適化を繰り返し実行し、その後入力クロス素性最適化を繰り返し行う。その後、情報処理装置10は、入力素性最適化と入力クロス素性最適化を繰り返し実行してもよい。このように、どの指標をどの順番で最適化するか、最適化においてどの最適化処理を繰り返し実行するかについては、任意の設定が採用可能となる。
【0058】
〔3-4.情報処理装置が実現するモデル生成の流れについて〕
続いて、
図2を用いて、情報処理装置10を用いたモデル生成の流れの一例について説明する。
図2は、実施形態における情報処理装置を用いたモデル生成の流れの一例を説明する図である。例えば、情報処理装置10は、学習データと各学習データのラベルとを受付ける。なお、情報処理装置10は、学習データの指定と共に、ラベルを受付けてもよい。
【0059】
このような場合、情報処理装置10は、データの分析を行い、分析結果に応じたデータ分割を行う。例えば、情報処理装置10は、学習データを、モデルの学習に用いるトレーニング用データと、モデルの評価(すなわち、精度の測定)に用いる評価用データとに分割する。なお、情報処理装置10は、各種テスト用のデータをさらに分割してもよい。なお、このような学習データをトレーニング用データと評価用データとに分割する処理は、各種任意の公知技術が採用可能である。
【0060】
また、情報処理装置10は、学習データを用いて、上述した各種の生成指標を生成する。例えば、情報処理装置10は、AutoMLにおいて生成されるモデルやモデルの学習を定義するコンフィグファイルを生成する。このようなコンフィグファイルにおいては、AutoMLで用いられる各種の関数がそのまま生成指標を示す情報として格納されることとなる。そして、情報処理装置10は、トレーニング用データと生成指標とをモデル生成サーバ2に提供することで、モデルの生成を行う。
【0061】
ここで、情報処理装置10は、利用者によるモデルの評価と、モデルの自動生成とを繰り返し行うことで、生成指標の最適化、ひいてはモデルの最適化を実現してもよい。例えば、情報処理装置10は、入力する特徴の最適化(入力素性や入力クロス素性の最適化)、ハイパーパラメータの最適化、および生成するモデルの最適化を行い、最適化された生成指標に従って自動でのモデル生成を行う。そして、情報処理装置10は、生成したモデルを利用者に提供する。
【0062】
一方、利用者は、自動生成されたモデルのトレーニングや評価、テストを行い、モデルの分析や提供を行う。そして、利用者は、生成された生成指標を修正することで、再度新たなモデルを自動生成させ、評価やテスト等を行う。このような処理を繰り返し実行することで、複雑な処理を実行することなく、試行錯誤しながらモデルの精度を向上させる処理を実現することができる。
【0063】
〔4.情報処理装置の構成〕
次に、
図3を用いて、実施形態に係る情報処理装置10の機能構成の一例について説明する。
図3は、実施形態に係る情報処理装置の構成例を示す図である。
図3に示すように、情報処理装置10は、通信部20と、記憶部30と、制御部40とを有する。
【0064】
通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、モデル生成サーバ2や端末装置3との間で情報の送受信を行う。
【0065】
記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部30は、学習データデータベース31およびモデル生成用データベース32を有する。
【0066】
学習データデータベース31は、学習に用いるデータに関する各種情報を記憶する。学習データデータベース31には、モデルの学習に用いる学習データのデータセットが格納される。
図4は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。
図4の例では、学習データデータベース31は、「データセットID」、「データID」、「データ」といった項目が含まれる。
【0067】
「データセットID」は、データセットを識別するための識別情報を示す。「データID」は、各データを識別するための識別情報を示す。また、「データ」は、データIDにより識別されるデータを示す。例えば、
図4の例では、各学習データを識別するデータIDに対して、対応するデータ(学習データ)が対応付けられて登録されている。
【0068】
図4の例では、データセットID「DS1」により識別されるデータセット(データセットDS1)には、データID「DID1」、「DID2」、「DID3」等により識別される複数のデータ「DT1」、「DT2」、「DT3」等が含まれることを示す。なお、
図4では、データを「DT1」、「DT2」、「DT3」等といった抽象的な文字列で示すが、データとしては、例えば各種整数、実数、文字列、文章等の任意の形式の情報が登録されてもよいし、各種整数、実数、文字列、文章等の任意の形式の情報がテキストに変換された情報が登録されてもよい。例えば、学習データデータベース31には、
図10に示すようなデータが記憶されてもよい。
【0069】
なお、図示は省略するが、学習データデータベース31は、各データに対応するラベル(正解情報)を各データに対応付けて記憶してもよい。また、例えば、複数のデータを含むデータ群に1つのラベルを対応付けて記憶してもよい。この場合、複数のデータを含むデータ群がモデルに入力されるデータ(入力データ)に対応する。例えば、ラベルとしては、数値や文字列等の任意の形式の情報が用いられる。
【0070】
なお、学習データデータベース31は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、学習データデータベース31は、各データが複数の学習段階のどの段階で用いるデータであるかを示す情報を各データに対応付けて記憶する。例えば、学習データデータベース31は、各データが第1データ群または第2データ群のいずれであるかを示す情報を各データに対応付けて記憶する。例えば、学習データデータベース31は、各データが学習処理に用いるデータ(トレーニング用データ)であるか、評価に用いるデータ(評価用データ)であるか等を特定可能に記憶してもよい。例えば、学習データデータベース31は、各データがトレーニング用データ及び評価用データのいずれであるかを特定する情報(フラグ等)を、各データに対応付けて格納してもよい。
【0071】
モデル生成用データベース32は、学習データ以外でモデルの生成に用いられた各種の情報が記憶される。モデル生成用データベース32には、生成するモデルに関する各種の情報が格納される。例えば、モデル生成用データベース32には、遺伝的アルゴリズムに基づきモデルを生成するために用いる情報が格納される。例えば、モデル生成用データベース32には、遺伝的アルゴリズムに基づいて、その後の処理に継承する種別の組み合わせの数を指定する情報が格納される。
【0072】
例えば、モデル生成用データベース32には、生成するモデルに関する各種のパラメータ等の設定値が格納される。モデル生成用データベース32には、モデルのサイズの上限値(「サイズ上限値」ともいう)が格納される。モデル生成用データベース32には、生成するモデルに含まれる部分モデル(ブロック)の数、及び各部分モデルに関する情報等、モデルの構造を示す情報が記憶される。モデル生成用データベース32には、部分モデルの構成要素として用いられるモジュールに関する情報が記憶される。なお、部分モデル(ブロック)は、例えばモデルの一部を構成するものであってもよいし、それ自体で一つのモデルとして機能してもよい。また、モジュールは、例えば部分モデル(ブロック)で実現される機能を実現するための機能単位の要素である。
【0073】
モデル生成用データベース32には、各モジュールがどのような処理を行うものであるかを示す情報、各モジュールを構成する要素に関する情報等が記憶される。モデル生成用データベース32には、各モジュールを構成する処理に関する各種情報が記憶される。モデル生成用データベース32には、ノーマライゼーション、ドロップアウト等の各モジュールを構成する処理の情報が記憶される。
【0074】
例えば、モデル生成用データベース32には、各部分モデルに関する情報が記憶される。モデル生成用データベース32には、各部分モデルがどのようなモジュールにより構成されるかを示す情報が記憶される。例えば、モデル生成用データベース32には、各部分モデルが有するモジュールの数を示す情報が記憶される。モデル生成用データベース32には、各部分モデルに含まれるモジュールを示す情報が記憶される。
【0075】
モデル生成用データベース32には、各部分モデルが入力として用いるデータの種別を示す情報が記憶される。例えば、モデル生成用データベース32には、各部分モデルが入力として用いるデータの種別の組み合わせを示す情報が記憶される。
【0076】
なお、モデル生成用データベース32は、上記に限らず、モデルの生成に用いる情報であれば種々の情報を記憶してもよい。
【0077】
図3に戻り、説明を続ける。制御部40は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置10内部の記憶装置に記憶されている各種プログラム(例えばモデルを生成する処理を実行する生成プログラム、情報処理プログラム等、)がRAMを作業領域として実行されることにより実現される。情報処理プログラムは、コンピュータを、少なくとも1つの部分モデル(ブロック)を有するモデルとして動作させるために用いられる。例えば、情報処理プログラムは、学習データを用いて学習が行われたモデルとしてコンピュータ(例えば情報処理装置10)を動作させる。また、制御部40は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図3に示すように、制御部40は、取得部41、決定部42、受付部43、生成部44、処理部45、および提供部46を有する。
【0078】
取得部41は、記憶部30から情報を取得する。取得部41は、モデルの学習に用いる学習データのデータセットを取得する。取得部41は、モデルの学習に用いる学習データを取得する。例えば、取得部41は、端末装置3から、学習データとして用いる各種のデータと、各種データに付与されるラベルを受付けると、受付けたデータとラベルとを学習データとして学習データデータベース31に登録する。なお、取得部41は、あらかじめ学習データデータベース31に登録されたデータのうち、モデルの学習に用いる学習データの学習データIDやラベルの指定を受付けてもよい。
【0079】
取得部41は、文章である文章テキスト以外の情報が変換された変換後情報を含む複数の入力情報を入力とするモデルの学習に用いられる学習データを取得する。取得部41は、文章以外の情報が変換されたテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部41は、文章である文章テキスト(「文章」ともいう)以外の情報が変換されたテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部41は、文章以外の情報を含むタビュラー形式のデータの各々がテキストに変換された複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。
【0080】
取得部41は、文章に対応するテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部41は、文章テキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部41は、インターネットにおいて投稿された文章に対応するテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部41は、インターネットにおいて投稿された文章テキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部41は、インターネットにおいて投稿された質問に対応するテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部41は、インターネットにおいて投稿された回答に対応するテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。
【0081】
取得部41は、数値が変換されたテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部41は、整数が変換されたテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部41は、実数が変換されたテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部41は、文章が投稿された日時を示す数値が変換されたテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。
【0082】
取得部41は、文章以外の文字列が変換されたテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。取得部41は、文章が投稿された曜日を示す文字列が変換されたテキストを含む複数のテキストを入力とするモデルの学習に用いられる学習データを取得する。
【0083】
取得部41は、テキストを入力とする基盤モデルの学習に用いられる学習データを取得する。なお、ここでいう基盤モデルは、様々な用途のモデルの一部として利用可能なように、例えば多種多様なタスクを実行可能になるように学習されたモデル(部分モデル)であってもよい。例えば、基盤モデルは、多種多様なアプリケーションの基盤(部分モデル)として適用可能なモデルであってもよい。取得部41は、汎用的な言語能力の学習に用いる第1データ群を含む学習データを取得する。取得部41は、大規模言語モデルの学習に用いられる自然言語データを含む第1データ群を取得する。
【0084】
取得部41は、特定の処理のための言語能力の学習に用いる第2データ群を含む学習データを取得する。取得部41は、インターネットにおいて投稿に関するデータである第2データ群を含む学習データを取得する。取得部41は、インターネットにおいて投稿された文章に対応するテキストを含む第2データ群を取得する。取得部41は、インターネットにおいて投稿された質問に対応するテキストを含む第2データ群を取得する。取得部41は、インターネットにおいて投稿された回答に対応するテキストを含む第2データ群を取得する。
【0085】
決定部42は、学習処理に関する各種情報を決定する。決定部42は、学習態様を決定する。決定部42は、生成部44による学習処理における初期値等を決定する。決定部42は、各パラメータの初期値を決定する。決定部42は、各パラメータの初期設定の値を示す設定ファイルを参照し、各パラメータの初期値を決定する。例えば、決定部42は、モデルに含ませる部分モデル(ブロック)の最大数を決定する。決定部42は、部分モデル(ブロック)に含ませるモジュールの最大数を決定する。決定部42は、ドロップアウト率を決定する。決定部42は、各部分モデル(ブロック)のドロップアウト率を決定する。決定部42は、モデルのサイズを決定する。決定部42は、各部分モデル(ブロック)に含まれるモジュールの数を決定する。
【0086】
受付部43は、利用者に対して提示した生成指標の修正を受付ける。また、受付部43は、モデルに学習させる学習データの特徴、生成するモデルの態様、および学習データが有する特徴をモデルに学習させる際の学習態様を決定する順番の指定を利用者から受け付ける。
【0087】
生成部44は、決定部42による決定に応じて各種情報を生成する。また、生成部44は、受付部43により受け付けられた指示に応じて各種情報を生成する。例えば、生成部44は、モデルの生成指標を生成してもよい。
【0088】
生成部44は、学習データを用いた学習により、文章以外の情報をテキストとして入力可能なモデルを生成する。生成部44は、タビュラー形式のデータに基づく複数のテキストを入力とするモデルを生成する。生成部44は、学習データを用いた学習により、文章以外の情報をテキストとして入力可能な言語モデルであるモデルを生成する。
【0089】
生成部44は、文章に対応するテキストを含む複数のテキストを入力とするモデルを生成する。生成部44は、文章テキストを含む複数のテキストを入力とするモデルを生成する。生成部44は、質問に対応するテキストを含む複数のテキストを入力とするモデルを生成する。生成部44は、回答に対応するテキストを含む複数のテキストを入力とするモデルを生成する。
【0090】
生成部44は、数値をテキストとして入力可能なモデルを生成する。生成部44は、整数をテキストとして入力可能なモデルを生成する。生成部44は、実数をテキストとして入力可能なモデルを生成する。生成部44は、文章が投稿された日時をテキストとして入力可能なモデルを生成する。生成部44は、文章以外の文字列をテキストとして入力可能なモデルを生成する。生成部44は、文章が投稿された曜日をテキストとして入力可能なモデルを生成する。
【0091】
生成部44は、学習データを用いた複数段階の学習処理により、基盤モデルを生成する。生成部44は、第1データ群を用いた第1段階の学習処理を含む複数段階の学習処理により、基盤モデルを生成する。生成部44は、第2データ群を用いた第2段階の学習処理を含む複数段階の学習処理により、基盤モデルを生成する。
【0092】
生成部44は、基盤モデルのレイヤーを増やして学習を行う第3段階の学習処理を含む複数段階の学習処理により、基盤モデルを生成する。生成部44は、特定の処理のための言語能力の学習に用いるデータを用いた第3段階の学習処理により基盤モデルを生成する。生成部44は、インターネットにおいて投稿に関するデータを用いた第3段階の学習処理により基盤モデルを生成する。
【0093】
生成部44は、インターネットにおいて投稿された文章に対応するテキストを用いた第3段階の学習処理により基盤モデルを生成する。生成部44は、第3段階の学習処理を繰り返し実行することにより、基盤モデルのレイヤーの増加処理、及び増加後の基盤モデルを対象とする学習処理を行い、基盤モデルを生成する。
【0094】
生成部44は、学習データを用いた学習により、文章テキスト以外の情報を変換して入力可能なモデルを生成する。生成部44は、文章以外の情報を用いた学習により、基盤モデルと、基盤モデルを所定のタスクに適用するようにファインチューニングしたファインチューニングモデルとを生成する。生成部44は、基盤モデルと、基盤モデルとは入力情報の入力が異なるファインチューニングモデルとを生成する。生成部44は、基盤モデルと、基盤モデルと入力情報の入力順が同じであるファインチューニングモデルとを生成する。生成部44は、基盤モデルの学習において、ラベル情報を入力情報として用いる。
【0095】
生成部44は、遺伝的アルゴリズムに基づいてモデルを生成してもよい。例えば、生成部44は、各々が種別の組み合わせが異なる複数の組み合わせ候補を対象として、複数のモデルを生成する。生成部44は、生成した複数のモデルのうち、精度が高い所定数(例えば2個等)のモデルに対応する組み合わせ候補(「継承候補」ともいう)を用いて、さらにモデルを生成してもよい。例えば、生成部44は、継承候補の各々から一部の種別の組み合わせを継承し、継承候補の種別の組み合わせがコピーされた種別の候補を用いて、モデルを生成してもよい。生成部44は、上述した継承候補の種別の組み合わせを継承してモデルを生成する処理を繰り返すことにより、最終的に用いるモデルを生成してもよい。
【0096】
生成部44は、モデルの生成に用いるデータを外部のモデル生成サーバ2に送信することにより、モデル生成サーバ2にモデルの学習を要求し、モデル生成サーバ2からモデル生成サーバ2が学習したモデルを受信することにより、モデルを生成する。
【0097】
例えば、生成部44は、学習データデータベース31に登録されたデータを用いて、モデルを生成する。生成部44は、トレーニング用データとして用いられる各データとラベルとに基づいて、モデルを生成する。生成部44は、トレーニング用データを入力した場合にモデルが出力する出力結果と、ラベルとが一致するように学習を行うことにより、モデルを生成する。例えば、生成部44は、トレーニング用データとして用いられる各データとラベルとをモデル生成サーバ2に送信することにより、モデル生成サーバ2にモデルを学習させることにより、モデルを生成する。
【0098】
例えば、生成部44は、学習データデータベース31に登録されたデータを用いて、モデルの精度を測定する。生成部44は、評価用データとして用いられる各データとラベルとに基づいて、モデルの精度を測定する。生成部44は、評価用データを入力した場合にモデルが出力する出力結果と、ラベルとを比較した結果を収集することにより、モデルの精度を測定する。
【0099】
処理部45は、各種処理を行う。処理部45は、推論処理を行う推論部として機能する。処理部45は、記憶部30に記憶されたモデル(例えばモデルM1)を用いて、推論処理を行う。処理部45は、取得部41により取得されたモデルを用いて推論を行う。処理部45は、生成部44により生成されたモデルを用いて推論を行う。処理部45は、モデル生成サーバ2を利用して学習されたモデルを用いて推論を行う。処理部45は、モデルにデータを入力することにより、当該データに対応する推論結果を生成する推論処理を行う。
【0100】
処理部45は、生成部44により生成されたモデルを用いた推論処理を実行する。処理部45は、文章以外の情報が変換されたテキストを含む複数のテキストをモデルへ入力し、モデルが出力した出力データに基づいて、推論処理を実行する。処理部45は、文章である文章テキスト以外の情報が変換されたテキストを含む複数のテキストをモデルへ入力し、モデルが出力した出力データに基づいて、推論処理を実行する。処理部45は、整数、実数、文字列のうち少なくとも1つがテキストに変換された複数のテキストをモデルへ入力し、モデルが出力した出力データに基づいて、推論処理を実行する。
【0101】
処理部45は、モデルを有する外部装置(推論用サーバ)を利用して推論処理を実行してもよい。例えば、処理部45は、モデルを有する推論用サーバに入力データを送信し、外部装置が受信した入力データとモデルとを用いて生成した情報(推論用情報)を受信し、受信した推論用情報を用いて、推論処理を行ってもよい。
【0102】
提供部46は、生成されたモデルを利用者に提供する。提供部46は、利用者の端末装置3を推論処理に用いられるモデル(例えばモデルM1)として動作させる情報処理プログラムを利用者の端末装置3に送信する。例えば、提供部46は、生成部44により生成されたモデルの精度が所定の閾値を超えた場合は、そのモデルとともに、モデルと対応する生成指標を端末装置3へと送信する。この結果、利用者は、モデルの評価や試用を行うとともに、生成指標の修正を行うことができる。
【0103】
提供部46は、生成部44により生成された指標を利用者に提示する。例えば、提供部46は、生成指標として生成されたAutoMLのコンフィグファイルを端末装置3に送信する。また、提供部46は、生成指標が生成される度に生成指標を利用者に提示してもよく、例えば、精度が所定の閾値を超えたモデルと対応する生成指標のみを利用者に提示してもよい。
【0104】
〔5.情報処理システムの処理フロー〕
次に、
図5及び
図6を用いて、情報処理装置10が実行する処理の手順について説明する。
図5及び
図6は、実施形態に係る情報処理の流れの一例を示すフローチャートである。また、以下では、情報処理システム1が処理を行う場合を一例として説明するが、以下に示す処理は、情報処理システム1に含まれる情報処理装置10、モデル生成サーバ2、端末装置3等、情報処理システム1に含まれるいずれの装置が行ってもよい。
【0105】
まず、
図5に示す処理例を説明する。
図5では、情報処理システム1は、文章である文章テキスト以外の情報が変換された変換後情報を含む複数の入力情報を入力とするモデルの学習に用いられる学習データを取得する(ステップS101)。そして、情報処理システム1は、学習データを用いた学習により、文章テキスト以外の情報を変換して入力可能なモデルを生成する(ステップS102)。
【0106】
次に、
図6に示す処理例を説明する。
図6では、情報処理システム1は、テキストを入力とする基盤モデルの学習に用いられる学習データを取得する(ステップS201)。そして、情報処理システム1は、学習データを用いた複数段階の学習処理により、基盤モデルを生成する(ステップS202)。
【0107】
〔6.情報処理システムの処理例〕
ここで、上述した
図5及び
図6の処理を情報処理システム1が行う一例を説明する。情報処理装置10は、学習データを取得する。情報処理装置10は、モデルの生成に用いるパラメータ等の情報を取得する。例えば、情報処理装置10は、生成するモデルについての各種の上限値を示す情報を取得する。例えば、情報処理装置10は、生成するモデルのサイズ上限値を示す情報を取得する。また、情報処理装置10は、遺伝的アルゴリズムにおける各種の設定値を取得する。例えば、情報処理装置10は、遺伝的アルゴリズムにおける継承候補の数を示す情報を取得する。
【0108】
情報処理装置10は、学習データ、モデルの構造を示す情報、サイズ上限値等の各種の上限値、遺伝的アルゴリズムでの設定値等を示す情報を基にモデルを生成する。情報処理装置10は、文章テキスト以外の情報を変換して入力可能な前記モデルを生成する。情報処理装置10は、文章である文章テキスト以外の情報が変換された変換後情報を含む複数の入力情報を入力とするモデルを学習する。例えば、情報処理装置10は、文章以外の情報をテキストとして入力可能なモデルを生成する。情報処理装置10は、学習データを用いた複数段階の学習処理により、基盤モデルを生成する。
【0109】
情報処理装置10は、モデルを学習するモデル生成サーバ2へモデルの生成に用いる情報を送信する。例えば、情報処理装置10は、学習データ、モデルの構造を示す情報、サイズ上限値等の各種の上限値、遺伝的アルゴリズムでの設定値等を示す情報をモデル生成サーバ2へ送信する。
【0110】
情報処理装置10から情報を受信したモデル生成サーバ2は、学習処理によりモデルを生成する。そして、モデル生成サーバ2は、生成したモデルを情報処理装置10へ送信する。このように、本願でいう「モデルを生成する」ことには、自装置でモデルを学習する場合に限らず、他の装置にモデルの生成に必要な情報を提供することで、他の装置にモデルの生成し指示し、他の装置が学習したモデルを受信することを含む概念である。情報処理システム1においては、情報処理装置10は、モデルを学習するモデル生成サーバ2へモデルの生成に用いる情報を送信し、モデル生成サーバ2が生成したモデルを取得することにより、モデルを生成する。このように、情報処理装置10は、他の装置へモデルの生成に用いる情報を送信することによりモデルの生成を要求し、要求を受けた他の装置にモデルを生成させることにより、モデルを生成する。
【0111】
〔7.モデル〕
ここから、モデルについて説明する。以下では、情報処理システム1において生成されるモデルの構造及び学習態様等、モデルに関する各点について説明する。以下に示す例では、文章である文章テキスト以外の情報が変換されたテキストを変換後情報の一例として説明する。なお、変換後情報の形式はテキストに限らず、モデルへの入力はテキストに限られないが、この点については後述する。
【0112】
〔7-1.モデルの構造例〕
まず、生成するモデルの構造の一例について、
図7を用いて説明する。情報処理システム1は、
図7に示すようなモデルM1を生成する。
図7は、実施形態に係るモデルの構造の一例を示す図である。
図7では、情報処理システム1は、基盤モデルの一例である部分モデルPM1及び、部分モデルPM1の出力が入力として用いられる部分モデルPM2等の複数の部分モデル等の各種の構成を有するモデルM1を生成する。部分モデルPM1、PM2等を特に区別せずに説明する場合、「部分モデルPM」や単に「部分モデル」と記載する場合がある。なお、
図7では、モデルM1が2つの部分モデルPMを有する場合を一例として示すが、モデルM1は、3つ以上の部分モデルPMを有してもよいし、1つの部分モデルPMのみを有してもよい。
【0113】
例えば、部分モデルPM1は、Transformerをベースにしたモデル(言語モデル)である。Transformer(モデル)については、従来のTransformerと同様であり詳細な説明は省略する。なお、部分モデルPM1は、整数、実数等の情報を文章(単に「文」ともいう)と同様の形式(テキスト)で入力可能であれば、どのようなモデルであってもよい。例えば、部分モデルPM1は、BERT(Bidirectional Encoder Representations from Transformers)、RoBERTa(A Robustly Optimized BERT Pretraining Approach)、DeBERTa(Decoding-enhanced BERT with disentangled attention)等の任意の自然言語処理モデルに基づいて構成されるモデルであってもよい。また、部分モデルPM1は、整数、実数等の情報を文章と同様の形式(テキスト)で入力可能であれば、BERTに基づいて構成されるモデルに限らず、任意の構成のモデルであってもよい。
【0114】
図7に示す例では、部分モデルPM1は、レイヤーEL10、EL11、EL12…EL15等の複数のレイヤー(モジュール層)を有する。以下では、レイヤーEL10、EL11、EL12…EL15等を特に区別せずに説明する場合、「レイヤーEL」や単に「レイヤー」と記載する場合がある。
図7では、各レイヤーELが1つのTransformerを含む構成を一例として示す。なお、
図7に示すレイヤー数は一例に過ぎず、部分モデルPM1は、任意の数のレイヤーELを含む構成であってもよい。また、部分モデルPM1は、学習に応じてレイヤーELの数を変動(増加)させてもよいが、この点については後述する。
【0115】
図7において、レイヤーEL10は、部分モデルPM1の最も入力側に位置するレイヤーである。例えば、レイヤーEL10は、部分モデルPM1の入力データが入力される層(入力層)であってもよい。
図7では、部分モデルPM1(のレイヤーEL10)にテキスト(文章)の先頭を示すトークン「CLS」、「This is a pen」というテキスト、文章の区切りを表すトークン「SEP」等が入力される状態を一例として示す。例えば、トークン「SEP」の後には、時間を示す数値(整数)がテキスト化された情報(例えば「7」の文字等)や曜日を示す文字列がテキスト化された情報(例えば「Sat」の文字等)等が続けて入力される。
【0116】
部分モデルPM1では、レイヤーEL10の後にレイヤーEL11が配置される。すなわち、レイヤーEL11は、レイヤーEL10の出力が入力されるレイヤーELである。部分モデルPM1では、レイヤーEL11の後にレイヤーEL12が配置される。すなわち、レイヤーEL12は、レイヤーEL11の出力が入力されるレイヤーELである。
【0117】
図7において、レイヤーEL15は、部分モデルPM1の最も出力側に位置するレイヤーである。例えば、レイヤーEL15の出力が、部分モデルPM1の出力として用いられる。なお、
図7は一例に過ぎず、部分モデルPM1は、任意の構成が採用可能である。
【0118】
図7で「DNN Sparse」と表記された部分モデルPM2は、部分モデルPM1の出力が入力として用いられる部分モデルPMである。例えば、部分モデルPM2は、ドロップアウト等の任意の技術を用いて構成されるスパースなDNN(ディープニューラルネットワーク)である。なお、部分モデルPM2は、部分モデルPM1からの出力を入力として用い、所望の推論結果を出力であれば、どのようなモデルであってもよい。例えば、部分モデルPM2は、スパースなDNNに限らず、任意のDNNであってもよいし、DNNに限らず、任意のモデルであってもよい。
【0119】
〔7-2.モデルの入力例〕
また、
図7には、モデルM1の入力の一例を示す。
図7では、Sentence#1、Sentence#2の2つの文章(センテンス)がモデルM1に入力される場合を一例として示す。例えば、
図7ではモデルM1には、質問のカテゴリを示す情報をテキスト化した情報、トークン「SEP」、質問(質問文)に対応するテキストの順に並んだテキストを、Sentence#1として入力される。すなわち、
図7では、Sentence#1には、質問のカテゴリを示す情報をテキスト化した情報と、質問に対応するテキストとがトークン「SEP」で連結された1つのテキストが用いられる。
【0120】
また、
図7ではモデルM1には、回答(回答文)に対応するテキストを、Sentence#2として入力される。すなわち、
図7では、Sentence#2には、回答に対応するテキストが用いられる。
図7に示す入力の指定の一例を
図8に示す。
図8は、実施形態に係るモデルの入力の指定の一例を示す図である。
図8に示すように、モデルM1への入力は、各種別の情報に対応するカラム(項目)名を指定することにより行われる。
【0121】
例えば、モデルM1の入力であるSentence#1として、カテゴリ及び質問を指定する場合、区切り文字(
図8の場合はカンマ)で区切って各種別を示す文字列を並べた文字列を角括弧で括った文字列が用いられる。具体的には、Sentence#1の指定としては、「[category,question]」といった文字列が用いられる。
【0122】
また、モデルM1の入力であるSentence#2として、回答を指定する場合、その種別を示す文字列を角括弧で括った文字列が用いられる。具体的には、Sentence#2の指定としては、「[answer]」といった文字列が用いられる。
【0123】
図8の例では、モデルM1の入力全体としては、Sentence#1とSentence#2とを各種別の情報を区切り文字(
図8の場合はカンマ)で区切った文字列が用いられる。具体的には、モデルM1の入力の指定としては、「tokenizerColumns: [[category,question], [answer]]」といった文字列が用いられる。
【0124】
なお、
図8は一例に過ぎず、モデルM1の入力の指定が可能であれば、任意の態様により指定されてもよい。また、
図7に示す入力は一例に過ぎず、モデルM1は、テキストであれば、任意の組み合わせが入力として用いられてもよい。例えば、モデルM1の入力として、質問と回答が用いられる場合、
図9に示すような指定であってもよい。
図9は、実施形態に係るモデルの入力の指定の一例を示す図である。
図9に示すように、モデルM1の入力であるSentence#1として質問が指定され、Sentence#2として回答が指定される場合、「tokenizerColumns: [[question], [answer]]」といった文字列が用いられる。
【0125】
上述したように、モデルM1には、文章以外の情報もテキスト化されて入力される。この一例について
図10を用いて説明する。
図10は、実施形態に係る入力の種別の一例を示す図である。
図10中の各行は、データに含まれる各情報の種別を示す。なお、
図10中の「label」に対応する情報は、モデルの入力でなくてもよい。例えば、
図10中の「label」に対応する情報は、各列の質問や回答等が違反に該当するか否かを示すラベル(正解情報)であってもよい。
【0126】
例えば、
図10中の「hour」に対応する情報は、対応する列の質問または回答が投稿された日時を示す整数(数値)である。
図10中の「hour」に対応する情報がモデルM1の入力として用いられる場合、その整数(数値)はテキスト化されて入力される。
【0127】
また、例えば、
図10中の「day_week」に対応する情報は、対応する列の質問または回答が投稿された曜日を示す文字列である。
図10中の「day_week」に対応する情報がモデルM1の入力として用いられる場合、その文字列はテキスト化されて入力される。これにより、モデルM1は、整数、実数、文字列もテキストとして入力させることが可能となる。なお、曜日を示す文字列がそのままテキストとして利用可能である場合、
図10中の「day_week」に対応する情報は、モデルM1の入力としてそのまま用いられてもよい。
【0128】
また、例えば、
図10中の「question」に対応する情報は、対応する列の質問を示す文章である。
図10中の「question」に対応する情報がモデルM1の入力として用いられる場合、その文章(テキスト)がモデルM1の入力としてそのまま用いられる。
【0129】
また、例えば、
図10中の「answer」に対応する情報は、対応する列の回答を示す文章である。
図10中の「answer」に対応する情報がモデルM1の入力として用いられる場合、その文章(テキスト)がモデルM1の入力としてそのまま用いられる。なお、
図10に示す情報の種別は一例に過ぎず、モデルM1の入力として用いられる情報の種別は、
図10に示すものに限られない。例えば、モデルM1の入力として用いられる情報の種別には、上述したようにカテゴリ等が含まれてもよい。
【0130】
例えば、モデルM1は、
図10に示すような複数の種別のデータを含むタビュラー形式データを入力として受け付ける。例えば、モデルM1は、
図10に示すような複数の種別のデータを含むタビュラー形式データの各々がテキスト化された情報の組み合わせを入力として受け付ける。
【0131】
なお、モデルM1の入力には、上述した各種別の情報の組み合わせが用いられてもよい。この点についての一例を説明する。例えば、モデルM1への入力は
図11に示すような入力であってもよい。
図11は、実施形態に係るモデルの入力の一例を示す図である。なお、
図7等で説明した内容と同様の点については適宜説明を省略する。
【0132】
例えば、
図11ではモデルM1には、質問が投稿された日時を示す情報をテキスト化した情報、トークン「SEP」、質問のカテゴリを示す情報をテキスト化した情報、トークン「SEP」、質問(質問文)に対応するテキストの順に並んだテキストを、Sentence#1として入力される。すなわち、
図11では、Sentence#1には、質問が投稿された日時を示す情報をテキスト化した情報と、質問のカテゴリを示す情報をテキスト化した情報と、質問に対応するテキストとがトークン「SEP」で連結された1つのテキストが用いられる。
【0133】
また、
図11ではモデルM1には、回答が投稿された曜日を示す情報をテキスト化した情報、トークン「SEP」、回答(回答文)に対応するテキストを、Sentence#2として入力される。すなわち、
図11では、Sentence#2には、回答が投稿された曜日を示す情報をテキスト化した情報と、回答に対応するテキストとがトークン「SEP」で連結された1つのテキストが用いられる。
【0134】
また、入力情報CM1は、
図11に示す入力の指定の一例を示す。
【0135】
例えば、モデルM1の入力であるSentence#1として、日時、カテゴリ及び質問を指定する場合、区切り文字(
図11の場合はカンマ)で区切って各種別を示す文字列を並べた文字列を角括弧で括った文字列が用いられる。具体的には、Sentence#1の指定としては、「[hour,category,question]」といった文字列が用いられる。
【0136】
また、モデルM1の入力であるSentence#2として、曜日及び回答を指定する場合、区切り文字(
図11の場合はカンマ)で区切って各種別を示す文字列を並べた文字列を角括弧で括った文字列が用いられる。具体的には、Sentence#2の指定としては、「[day_week,answer]」といった文字列が用いられる。
【0137】
図11の例では、モデルM1の入力全体としては、Sentence#1とSentence#2とを各種別の情報を区切り文字(
図11の場合はカンマ)で区切った文字列が用いられる。具体的には、モデルM1の入力の指定としては、「tokenizerColumns: [[hour,category,question], [day_week,answer]]」といった文字列が用いられる。
【0138】
〔7-3.他のモデルの構造例〕
なお、上述したモデルの構造は一例に過ぎず、モデルは任意の構成が採用可能である。この点の一例について
図12を用いて説明する。
図12は、実施形態に係るモデルの構造の他の例を示す図である。なお、
図7と同様の点については、同様の符号を付すこと等により適宜説明を省略する。
【0139】
図12では、情報処理システム1は、基盤モデルの一例である部分モデルPM1、PM11及び、部分モデルPM1、PM11の出力が入力として用いられる部分モデルPM12等の複数の部分モデル等の各種の構成を有するモデルM11を生成する。すなわち、モデルM11は、部分モデルP11が含まれ、その出力及び部分モデルPM1の出力が入力として用いられる部分モデルPM12を含む点でモデルM1と相違する。
【0140】
例えば、部分モデルPM11は、部分モデルPM1と同様に、Transformerをベースにしたモデル(言語モデル)である。なお、部分モデルPM11の内部構成は、部分モデルPM1の内部構成と同様であるため説明は省略する。
【0141】
図12で「DNN Sparse」と表記された部分モデルPM12は、部分モデルPM1の出力及び部分モデルPM11の出力が入力として用いられる部分モデルPMである。なお、部分モデルPM12は、部分モデルPM11の出力が入力として用いられる点以外は、部分モデルPM2と同様であるため説明は省略する。
【0142】
また、
図12には、モデルM11の入力の一例を示す。
図12では、Sentence#1、Sentence#2が部分モデルPM1に入力され、Sentence#3、Sentence#4が部分モデルPM11に入力される場合示す。なお、部分モデルPM1に入力されるSentence#1、Sentence#2は、
図7と同様であるため、説明は省略する。
【0143】
図12では、Sentence#3、Sentence#4の2つの文章(センテンス)がモデルM11(の部分モデルPM11)に入力される場合を一例として示す。例えば、
図12では部分モデルPM11には、回答(回答文)に対応するテキストが、Sentence#3として入力される。質問(質問文)に対応するテキスト、トークン「SEP」、質問のカテゴリを示す情報をテキスト化した情報の順に並んだテキストが、Sentence#4として入力される。
図12に示す入力の指定の一例を
図13に示す。
図13は、実施形態に係るモデルの入力の一例を示す図である。
【0144】
例えば、モデルM11の入力であるSentence#3として、回答を指定する場合、その種別を示す文字列を角括弧で括った文字列が用いられる。具体的には、Sentence#3の指定としては、「[answer]」といった文字列が用いられる。
【0145】
また、モデルM11の入力であるSentence#4として、質問及びカテゴリを指定する場合、区切り文字(
図13の場合はカンマ)で区切って各種別を示す文字列を並べた文字列を角括弧で括った文字列が用いられる。具体的には、Sentence#4の指定としては、「[question,category]」といった文字列が用いられる。
【0146】
図13の例では、モデルM11の入力全体としては、Sentence#1とSentence#2とSentence#3とSentence#4とを各種別の情報を区切り文字(
図13の場合はカンマ)で区切った文字列が用いられる。具体的には、モデルM11の入力の指定としては、「tokenizerColumns: [[category,question], [answer] , [answer], [question,category]]」といった文字列が用いられる。このように、モデルM11は、テキストの重複入力が可能なモデルである。
【0147】
〔7-4.実験結果〕
ここから、上述した処理により生成したモデルを用いて行った実験結果の一例について
図14~
図18を用いて説明する。
図14~
図18は、実験結果の一例を示す図である。
【0148】
まず、
図14に示す例について説明する。質問や回答等の投稿による知識の共有サービスにおける回答の違反投稿を判定する場合の実験結果の一例を示す。
【0149】
図14中の左側に示す結果RS11は、従来モデルを用いた場合の実験結果を示す。結果RS11の縦軸は、precision(適合率)を示し、結果RS11の横軸は、recall(再現率)を示す。結果RS11のグラフ中の波形がPR曲線を示す。例えば、従来モデルは、上述したBERTを用いたモデルであり、入力としては文章である回答を入力として受け付けるモデルである。
【0150】
一方、
図14中の右側に示す結果RS12は、本手法モデルを用いた場合の実験結果を示す。結果RS12の縦軸は、precision(適合率)を示し、結果RS12の横軸は、recall(再現率)を示す。結果RS12のグラフ中の波形がPR曲線を示す。例えば、本手法モデルは、例えば上述したモデルM1のような基盤モデル(部分モデルPM1等)と、DNNSparseモデル(部分モデルPM2等)を含むモデルである。また、本手法モデルは、入力としてはカテゴリをテキスト化した情報、文章である質問の組み合わせ、及び文章である回答を入力として受け付けるモデルである。
【0151】
図14中の結果RS11及び結果RS12に示すように、本手法モデルでは、従来モデルからの80%の精度向上を達成することができた。このように、これまでテキストとして受け付けることができなかった種別の情報をテキストとして入力可能なモデルを用いることで、回答の違反投稿判定についての精度が向上させることが可能であることが示された。
【0152】
次に、
図15に示す例について説明する。質問や回答等の投稿による知識の共有サービスにおける回答の違反投稿を判定する場合の実験結果の一例を示す。なお、
図14と同様の点については適宜説明を省略する。
【0153】
図15中の左側に示す結果RS21は、
図14中の左側に示す結果RS11と同様に従来モデルを用いた場合の実験結果を示す。結果RS21のグラフ中の波形がPR曲線を示す。このように、
図15中の左側に示す結果RS21は、
図14中の左側に示す結果RS11と同様であるため説明を省略する。
【0154】
一方、
図15中の右側に示す結果RS22は、本手法モデルを用いた場合の実験結果を示す。結果RS22の縦軸は、precision(適合率)を示し、結果RS22の横軸は、recall(再現率)を示す。結果RS22のグラフ中の波形がPR曲線を示す。例えば、本手法モデルは、例えば上述した基盤モデル(部分モデルPM1等)を知識の共有サービスのデータを用いて学習し、知識の共有サービスに適した基盤モデルを学習した場合のモデルである。また、本手法モデルは、入力としてはカテゴリをテキスト化した情報、文章である質問の組み合わせ、及び文章である回答を入力として受け付けるモデルである。
【0155】
図15中の結果RS21及び結果RS22に示すように、本手法モデルでは、従来モデルからの106.6%の精度向上を達成することができた。このように、これまでテキストとして受け付けることができなかった種別の情報をテキストとして入力可能なモデルの基盤モデルを、対応するサービスのデータを用いて学習することで、回答の違反投稿判定についての精度がさらに向上させることが可能であることが示された。
【0156】
次に、
図16に示す例について説明する。質問や回答等の投稿による知識の共有サービスにおける質問の違反投稿を判定する場合の実験結果の一例を示す。なお、
図14、
図15等と同様の点については適宜説明を省略する。
【0157】
図16中の左側に示す結果RS31は、従来モデルを用いた場合の実験結果を示す。結果RS31の縦軸は、precision(適合率)を示し、結果RS31の横軸は、recall(再現率)を示す。結果RS31のグラフ中の波形がPR曲線を示す。例えば、従来モデルは、上述したBERTを用いたモデルであり、入力としては文章である質問を入力として受け付けるモデルである。
【0158】
一方、
図16中の右側に示す結果RS32は、本手法モデルを用いた場合の実験結果を示す。結果RS32の縦軸は、precision(適合率)を示し、結果RS32の横軸は、recall(再現率)を示す。結果RS32のグラフ中の波形がPR曲線を示す。例えば、本手法モデルは、例えば上述したモデルM1のような基盤モデル(部分モデルPM1等)と、DNNSparseモデル(部分モデルPM2等)を含むモデルである。また、本手法モデルは、入力としてはカテゴリをテキスト化した情報、文章である質問の組み合わせを入力として受け付けるモデルである。
【0159】
図16中の結果RS31及び結果RS32に示すように、本手法モデルでは、従来モデルからの31%の精度向上を達成することができた。このように、これまでテキストとして受け付けることができなかった種別の情報をテキストとして入力可能なモデルを用いることで、質問の違反投稿判定についての精度が向上させることが可能であることが示された。
【0160】
次に、
図17に示す例について説明する。質問や回答等の投稿による知識の共有サービスにおける質問の違反投稿を判定する場合の実験結果の一例を示す。なお、
図14~
図16等と同様の点については適宜説明を省略する。
【0161】
図17中の左側に示す結果RS41は、
図16中の左側に示す結果RS31と同様に従来モデルを用いた場合の実験結果を示す。結果RS41のグラフ中の波形がPR曲線を示す。このように、
図17中の左側に示す結果RS41は、
図16中の左側に示す結果RS31と同様であるため説明を省略する。
【0162】
一方、
図17中の右側に示す結果RS42は、本手法モデルを用いた場合の実験結果を示す。結果RS42の縦軸は、precision(適合率)を示し、結果RS42の横軸は、recall(再現率)を示す。結果RS42のグラフ中の波形がPR曲線を示す。例えば、本手法モデルは、例えば上述した基盤モデル(部分モデルPM1等)を知識の共有サービスのデータを用いて学習し、知識の共有サービスに適した基盤モデルを学習した場合のモデルである。また、本手法モデルは、入力としてはカテゴリをテキスト化した情報、文章である質問の組み合わせを入力として受け付けるモデルである。
【0163】
図17中の結果RS41及び結果RS42に示すように、本手法モデルでは、従来モデルからの45.6%の精度向上を達成することができた。このように、これまでテキストとして受け付けることができなかった種別の情報をテキストとして入力可能なモデルの基盤モデルを、対応するサービスのデータを用いて学習することで、質問の違反投稿判定についての精度がさらに向上させることが可能であることが示された。
【0164】
次に、
図18に示す例について説明する。ニュース記事に対するコメントサービスにおけるコメントの違反投稿を判定する場合の実験結果の一例を示す。なお、
図14~
図17等と同様の点については適宜説明を省略する。
【0165】
図18中の左側に示す結果RS51は、従来モデルを用いた場合の実験結果を示す。結果RS51の縦軸は、precision(適合率)を示し、結果RS51の横軸は、recall(再現率)を示す。結果RS51のグラフ中の波形がPR AUCを示す。例えば、従来モデルは、上述したBERTを用いたモデルであり、入力としては文章であるコメントを入力として受け付けるモデルである。
【0166】
一方、
図18中の右側に示す結果RS52は、本手法モデルを用いた場合の実験結果を示す。結果RS52の縦軸は、precision(適合率)を示し、結果RS52の横軸は、recall(再現率)を示す。結果RS52のグラフ中の波形がPR AUCを示す。例えば、本手法モデルは、例えば上述した基盤モデル(部分モデルPM1等)をコメントサービスのデータを用いて学習し、コメントサービスに適した基盤モデルを学習した場合のモデルである。また、本手法モデルは、入力としてはニュース記事のヘッドラインをテキスト化した情報、文章であるコメントの組み合わせを入力として受け付けるモデルである。
【0167】
図18中の結果RS51及び結果RS52に示すように、本手法モデルでは、従来モデルからの78.3%の精度向上を達成することができた。このように、これまでテキストとして受け付けることができなかった種別の情報をテキストとして入力可能なモデルの基盤モデルを、対応するサービスのデータを用いて学習することで、コメントの違反投稿判定についての精度がさらに向上させることが可能であることが示された。
【0168】
〔8.学習処理例〕
情報処理システム1は、上述したモデルM1、モデルM11等の各種モデルを様々な学習手法により学習してもよい。例えば、情報処理システム1は、モデルM1の基盤モデルである部分モデルPM1等の各種の部分モデルPMを任意の学習手法により学習してもよい。
【0169】
例えば、情報処理装置10は、複数段階の学習処理により、モデルM1の基盤モデルである部分モデルPM1を生成してもよい。例えば、情報処理装置10は、学習データのうち、汎用的な言語能力の学習に用いる第1データ群を用いた第1段階の学習処理を含む複数段階の学習処理により、モデルM1の基盤モデルである部分モデルPM1を生成してもよい。
【0170】
また、情報処理装置10は、特定の処理のための言語能力の学習に用いる第2データ群を用いた第2段階の学習処理を含む複数段階の学習処理により、モデルM1の基盤モデルである部分モデルPM1を生成してもよい。例えば、第2データ群は、インターネットにおける投稿に関する処理に用いるモデルの学習に用いられるインターネットにおける投稿データである。
【0171】
また、情報処理装置10は、基盤モデルのレイヤーを増やして学習を行う第3段階の学習処理を含む複数段階の学習処理により、モデルM1の基盤モデルである部分モデルPM1を生成してもよい。第3段階の学習処理に用いられるデータ群は、第2データ群であってもよい。例えば、情報処理装置10は、第3段階の学習処理を繰り返し実行することにより、基盤モデルのレイヤーの増加処理、及び増加後の基盤モデルを対象とする学習処理を行い、モデルM1の基盤モデルである部分モデルPM1を生成してもよい。
【0172】
上述したモデルM1の基盤モデルである部分モデルPM1の学習処理の一例について、
図19~
図21を用いて説明する。
図19~
図21は、実施形態に係るモデルの学習処理の一例を示す図である。例えば、
図19は、部分モデルPM1を対象とした第1段階の学習処理の一例を示す図である。また、
図20は、部分モデルPM1を対象とした第2段階の学習処理の一例を示す図である。また、
図21は、部分モデルPM1を対象とした第3段階の学習処理の一例を示す図である。なお、上述した内容と同様の点については適宜説明を省略する。
【0173】
まず、情報処理装置10は、
図19に示すような第1段階の学習処理によりモデルM1の基盤モデルである部分モデルPM1を学習する。
図19に示す第1段階の学習処理では、部分モデルPM1の出力が「Language Masked Prediction Layer」と表記された部分モデルPM3の入力とした状態で行われる。例えば、部分モデルPM3は、入力された文章(テキスト)中でのマスクされた文字列を予測するモデルである。このように、情報処理装置10は、基盤モデルである部分モデルPM1を学習する場合、学習後にサービスに用いられるモデル(例えばモデルM1)に含まれる他の部分モデル(例えば部分モデルPM2)を別の機能を有する部分モデル(例えば部分モデルPM3)に置き換えて学習を行ってもよい。
【0174】
例えば、
図19に示す第1段階の学習処理では、第1データ群FD1として、大規模言語モデルの学習に用いられる自然言語データ等が用いられる。第1データ群FD1は、Wikipedia、CC-100、OSCAR Data等の任意のデータセットが用いられてもよい。例えば、情報処理装置10は、第1データ群FD1に含まれる文書(「第1文章」ともいう)を用いて、第1段階の学習処理を実行する。例えば、情報処理装置10は、第1データ群FD1に含まれる各第1文章の一部をマスクした文書を入力として、第1文章のマスクした部分の文字列を部分モデルPM3が正確に予測するように学習することにより、部分モデルPM1を学習する。これにより、情報処理装置10は、汎用的な言語能力を獲得した部分モデルPM1を学習(生成)することができる。
【0175】
次に、情報処理装置10は、
図20に示すような第2段階の学習処理によりモデルM1の基盤モデルである部分モデルPM1を学習する。なお、
図20において、
図19と同様の点については適宜説明を省略する。例えば、情報処理装置10は、
図19に示す第1段階の学習処理で学習した部分モデルPM1を用いて、
図20に示すような第2段階の学習処理により部分モデルPM1をさらに学習する。
【0176】
図20では、情報処理装置10は、第1段階の学習処理と同様のモデルの構成において、第2データ群SD1を用いた追加学習により、部分モデルPM1をさらに学習する。例えば、情報処理装置10は、ファインチューニング用のデータを第2データ群SD1として用いた第2段階の学習処理により、部分モデルPM1を学習する。例えば、情報処理装置10は、違反投稿判定に用いるモデル(例えばモデルM1等)をファインチューニングするために用いられる第2データ群SD1を用いた第2段階の学習処理により、部分モデルPM1を学習する。
【0177】
図20では、Sentence#1、Sentence#2の2つの文章(センテンス)が部分モデルPM1に入力される場合を一例として示す。例えば、
図20では部分モデルPM1には、質問のカテゴリを示す情報をテキスト化した情報、トークン「SEP」、質問(質問文)に対応するテキストの順に並んだテキストを、Sentence#1として入力される。すなわち、
図20では、Sentence#1には、質問のカテゴリを示す情報をテキスト化した情報と、質問に対応するテキストとがトークン「SEP」で連結された1つのテキストが用いられる。
【0178】
また、
図20では部分モデルPM1には、回答(回答文)に対応するテキストを、Sentence#2として入力される。すなわち、
図20では、Sentence#2には、回答に対応するテキストが用いられる。
【0179】
このように、情報処理装置10は、質問や回答等の投稿に関する推論処理用のモデルを学習するためのファインチューニング用のデータである第2データ群SD1を用いて、第2段階の学習処理を実行する。例えば、情報処理装置10は、第2データ群SD1に含まれる文書(「第2文章」ともいう)を用いて、第2段階の学習処理を実行する。例えば、情報処理装置10は、第2データ群SD1に含まれる各第2文章の一部をマスクした文書を入力として、第2文章のマスクした部分の文字列を部分モデルPM3が正確に予測するように学習することにより、部分モデルPM1を学習する。これにより、情報処理装置10は、特定の処理のための言語能力を獲得した部分モデルPM1を学習(生成)することができる。
【0180】
次に、情報処理装置10は、
図21に示すような第3段階の学習処理によりモデルM1の基盤モデルである部分モデルPM1を学習する。なお、
図21において、
図19及び
図20等と同様の点については適宜説明を省略する。例えば、情報処理装置10は、
図20に示すような第2段階の学習処理で学習した部分モデルPM1を用いて、
図21に示すような第3段階の学習処理により部分モデルPM1をさらに学習する。
【0181】
図21では、情報処理装置10は、第1段階及び第2段階の学習処理で学習した部分モデルPM1にレイヤーを追加して学習を行う第3段階の学習処理により、部分モデルPM1をさらに学習する。
図21では、部分モデルPM1-1に示すように、情報処理装置10は、追加レイヤーであるレイヤーAL1等を追加して学習を行う第3段階の学習処理により、部分モデルPM1をさらに学習する。例えば、情報処理装置10は、ファインチューニング用のデータを第2データ群SD1として用いた第3段階の学習処理により、部分モデルPM1にレイヤーを追加して部分モデルPM1を学習する。
【0182】
例えば、情報処理装置10は、第3段階の学習処理において、新しいレコードの追加や重複コピーなどによりデータを増やしてもよい。また、情報処理装置10は、第3段階の学習処理において、学習率(Learning Rate)の最適化や、スケジューラーをconstantに設定すること等により第3段階の学習処理を行ってもよい。例えば、情報処理装置10は、バッチサイズを任意の値(例えば34,560等)に設定して第3段階の学習処理を行ってもよい。例えば、情報処理装置10は、バッチサイズを6,900以上にすることで、学習を安定させ、学習時間短縮のため最適化実施することができる。また、例えば、MLM(Masked Language Model)probabilityが最適化対象であり、0.15~0.45の範囲であってもよい。
【0183】
なお、
図21に示す1つのレイヤーAL1を追加した状態は部分モデルPM1の構成の一例に過ぎず、部分モデルPM1は、2つ以上のレイヤーが追加されてもよい。例えば、情報処理装置10は、第3段階の学習処理を繰り返し実行することにより、基盤モデルのレイヤーの増加処理、及び増加後の基盤モデルを対象とする学習処理を行い、部分モデルPM1にさらにレイヤーを追加して、部分モデルPM1を生成してもよい。
【0184】
〔8-1.実験結果〕
ここから、上述した複数段階の学習処理により生成したモデルを用いて行った実験結果の一例について
図22~
図25を用いて説明する。
図22~
図25は、実験結果の一例を示す図である。
【0185】
まず、
図22に示す例について説明する。
図22は、質問や回答等の投稿による知識の共有サービスに用いられる基盤モデル(例えば部分モデルPM1)についての実験結果の一例を示す。
図22の結果RS61は、横軸が学習処理に関するステップ数を示し、縦軸が基盤モデルを用いたMLM TaskのAccuracy(正確さ)を示す。
【0186】
図22中の線LN11は、第1段階の学習処理(
図22中ではStep1)での基盤モデルを用いたMLM TaskのAccuracyを示す。
図22では、第1段階の学習処理で学習された基盤モデルのレイヤー数は26であり、その基盤モデルを用いたMLM TaskのAccuracyは「0.7280」であることを示す。
【0187】
図22中の線LN12は、第2段階の学習処理(
図22中ではStep2)での基盤モデルを用いたMLM TaskのAccuracyを示す。
図22では、第2段階の学習処理で学習された基盤モデルのレイヤー数は26であり、その基盤モデルを用いたMLM TaskのAccuracyは「0.7724」まで上昇したことを示す。
【0188】
図22中の線LN13は、第3段階の学習処理(
図22中ではStep3)での基盤モデルを用いたMLM TaskのAccuracyを示す。
図22では、第3段階の学習処理で学習された基盤モデルのレイヤー数は28であり、その基盤モデルを用いたMLM TaskのAccuracyは「0.7821」まで上昇したことを示す。
【0189】
このように、
図22の結果RS61では、線LN11~LN13に示すように、知識の共有サービスに最適化した場合の基盤モデルについては、第2段階の学習処理及び第3段階の学習処理により、7.4%の精度向上を達成することができた。このように、情報処理装置10は、複数段階の学習処理により精度を向上させることが可能であることが示された。
【0190】
次に、
図23に示す例について説明する。質問や回答等の投稿による知識の共有サービスにおける回答の違反投稿を判定する場合の実験結果の一例を示す。なお、上述した内容と同様の点については適宜説明を省略する。
【0191】
図23中の左側に示す結果RS71は、従来モデルを用いた場合の実験結果を示す。結果RS71の縦軸は、precision(適合率)を示し、結果RS71の横軸は、recall(再現率)を示す。結果RS71のグラフ中の波形がPR曲線を示す。例えば、従来モデルは、上述したDeBERTaを用いたモデルであり、入力としては文章である回答を入力として受け付けるモデルである。結果RS71は、第1段階の学習処理に対応する学習処理が行われたモデルであり、レイヤー数が26のモデルを用いた場合の実験結果を示す。
【0192】
一方、
図23中の右側に示す結果RS72は、本手法モデルを用いた場合の実験結果を示す。結果RS72の縦軸は、precision(適合率)を示し、結果RS72の横軸は、recall(再現率)を示す。結果RS72のグラフ中の波形がPR曲線を示す。例えば、本手法モデルは、例えば上述した複数段階の学習処理で学習した基盤モデル(部分モデルPM1等)を知識の共有サービスのデータを用いて、第2段階及び第3段階の学習処理し、知識の共有サービスに基盤モデルが最適化された場合のモデルであり、文章である回答を入力として受け付けるモデルである。結果RS72は、第1段階~第3段階の学習処理の全てを含む学習処理が行われたモデルであり、レイヤー数が28のモデルを用いた場合の実験結果を示す。
【0193】
図23中の結果RS71及び結果RS72に示すように、本手法モデルでは、従来モデルからの26.6%の精度向上を達成することができた。このように、複数段階の学習処理により学習することで、回答の違反投稿判定についての精度がさらに向上させることが可能であることが示された。
【0194】
まず、
図24に示す例について説明する。
図24は、ニュース記事に対するコメントサービスに用いられる基盤モデル(例えば部分モデルPM1)についての実験結果の一例を示す。なお、上述した内容と同様の点については適宜説明を省略する。
図24の結果RS81は、横軸が学習処理に関するステップ数を示し、縦軸が基盤モデルを用いたMLM TaskのAccuracy(正確さ)を示す。
【0195】
図24中の線LN20は、従来モデルを用いたMLM TaskのAccuracyを示す。
図24では、従来モデルはDeBERTaベースで学習された基盤モデルのレイヤー数は12であり、その基盤モデルを用いたMLM TaskのAccuracyは「0.6790」であることを示す。
【0196】
図24中の線LN21は、第1段階の学習処理(
図24中ではStep1)での基盤モデルを用いたMLM TaskのAccuracyを示す。
図24では、第1段階の学習処理で学習された基盤モデルのレイヤー数は26であり、その基盤モデルを用いたMLM TaskのAccuracyは「0.7109」であることを示す。
【0197】
図24中の線LN22は、第2段階の学習処理(
図24中ではStep2)での基盤モデルを用いたMLM TaskのAccuracyを示す。
図24では、第2段階の学習処理で学習された基盤モデルのレイヤー数は26であり、その基盤モデルを用いたMLM TaskのAccuracyは「0.7441」まで上昇したことを示す。
【0198】
図24中の線LN23は、第3段階の学習処理(
図24中ではStep3)での基盤モデルを用いたMLM TaskのAccuracyを示す。
図24では、第3段階の学習処理で学習された基盤モデルのレイヤー数は28であり、その基盤モデルを用いたMLM TaskのAccuracyは「0.7741」まで上昇したことを示す。
【0199】
このように、
図24の結果RS81では、線LN21~LN23に示すように、ニュース記事に対するコメントサービスに最適化した場合の基盤モデルについては、第2段階の学習処理及び第3段階の学習処理により、8.9%の精度向上を達成することができた。このように、情報処理装置10は、複数段階の学習処理により精度を向上させることが可能であることが示された。
【0200】
次に、
図25に示す例について説明する。ニュース記事に対するコメントサービスにおけるコメントの違反投稿を判定する場合の実験結果の一例を示す。なお、上述した内容と同様の点については適宜説明を省略する。
【0201】
図25中の左側に示す結果RS91は、従来モデルを用いた場合の実験結果を示す。結果RS91の縦軸は、precision(適合率)を示し、結果RS91の横軸は、recall(再現率)を示す。結果RS91のグラフ中の波形がPR AUCを示す。例えば、従来モデルは、上述したDeBERTaを用いたモデルであり、入力としては文章であるコメントを入力として受け付けるモデルである。結果RS91は、第1段階の学習処理に対応する学習処理が行われたモデルであり、レイヤー数が26のモデルを用いた場合の実験結果を示す。
【0202】
一方、
図25中の右側に示す結果RS92は、本手法モデルを用いた場合の実験結果を示す。結果RS92の縦軸は、precision(適合率)を示し、結果RS92の横軸は、recall(再現率)を示す。結果RS92のグラフ中の波形がPR AUCを示す。例えば、本手法モデルは、例えば上述した複数段階の学習処理で学習した基盤モデル(部分モデルPM1等)をニュース記事に対するコメントサービスのデータを用いて、第2段階及び第3段階の学習処理し、ニュース記事に対するコメントサービスに基盤モデルが最適化された場合のモデルであり、文章であるコメントを入力として受け付けるモデルである。結果RS92は、第1段階~第3段階の学習処理の全てを含む学習処理が行われたモデルであり、レイヤー数が28のモデルを用いた場合の実験結果を示す。
【0203】
図25中の結果RS91及び結果RS92に示すように、本手法モデルでは、従来モデルからの29.7%の精度向上を達成することができた。このように、複数段階の学習処理により学習することで、ニュース記事に対するコメントサービスの違反投稿判定についての精度がさらに向上させることが可能であることが示された。
【0204】
〔8-2.その他の処理例〕
ここから、上述した内容を前提として、その他の処理例について説明する。例えば、上述した例では、文章である文章テキスト以外の情報が変換されたテキストを変換後情報の一例として説明したが、モデルへの入力はテキストに限られない。
【0205】
例えば、情報処理システム1は、文章以外の情報を用いた学習により、基盤モデルと、基盤モデルを所定のタスクに適用するようにファインチューニングしたモデル(「ファインチューニングモデル」ともいう)とを生成してもよい。例えば、情報処理システム1は、文章以外の情報を用いた学習により、基盤モデルである部分モデルPM1等を学習する。例えば、情報処理システム1は、文章以外の情報を用いた学習により、基盤モデル(例えば部分モデルPM1等)を含み所定のタスクに適用するようにファインチューニングされるファインチューニングモデル(例えばモデルM1等)を学習する。例えば、情報処理システム1は、ファインチューニング用のデータを用いてファインチューニングモデルを学習する。
【0206】
これにより、情報処理システム1は、基盤モデル、ファインチューニングモデル共に精度を向上させることができる。また、情報処理システム1は、テキストデータ以外のTabularデータ(タビュラー形式データ)に対して、上述したBERTに関連するBERT系のモデルにかぎらず、GPT(Generative Pretrained Transformer)に関連するGPT系のモデルも含め様々な言語モデルを適用することが可能となる。
【0207】
例えば、情報処理システム1は、基盤モデルと、基盤モデルとは入力情報の入力が異なるファインチューニングモデルとを生成してもよい。例えば、情報処理システム1は、基盤モデル(例えば部分モデルPM1等)を含むファインチューニングモデル(例えばモデルM1等)の入力を、基盤モデル(例えば部分モデルPM1等)とは異なる入力としてファインチューニングモデル(例えばモデルM1等)を学習する。
【0208】
これにより、情報処理システム1は、基盤モデル、ファインチューニングモデル共に文章および文章以外の情報の入力順を、入力の重複や削除も含めて自由に設定することができる。それにより、情報処理システム1は、入力順の自動最適化が可能となり、基盤モデル、ファインチューニングモデルの精度を向上させることができる。
【0209】
例えば、情報処理システム1は、基盤モデルと、基盤モデルと入力情報の入力順が同じであるファインチューニングモデルとを生成してもよい。例えば、情報処理システム1は、基盤モデル(例えば部分モデルPM1等)を含むファインチューニングモデル(例えばモデルM1等)の入力を、基盤モデル(例えば部分モデルPM1等)と同じ入力順としてファインチューニングモデル(例えばモデルM1等)を学習する。
【0210】
これにより、情報処理システム1は、基盤モデルとファインチューニングモデルの文章および文章以外の情報の入力順を同じにすることができる。それにより、情報処理システム1は、基盤モデルが学習した入力情報の位置(トークン位置)に関する特徴を利用できる様になり、ファインチューニングモデルの精度を向上させることができる。
【0211】
例えば、情報処理システム1は、整数、実数、文字列等の文章以外の情報をテキスト以外の情報に変換してもよい。例えば、情報処理システム1は、“identity”、“vocabulary”、“numeric”、“bucketize”、“identity + embedding”、“vocabulary + embedding”、“bucketize + embedding”等の任意の形式に変換してもよい。例えば、情報処理システム1は、整数、実数、文字列等の文章以外の情報を入力する場合に、整数、実数、文字列等の文章以外の情報をそのまま入力した場合と、整数、実数、文字列等の文章以外の情報を変換して入力した場合とでは、それぞれモデルの精度が変化すると考えられる。
【0212】
そこで、情報処理装置10は、上述したようにモデルに入力する整数、実数、文字列等の文章以外の情報の形式を変換(決定)する。例えば、情報処理装置10は、モデルに入力する整数、実数、文字列等の文章以外の情報の形式を、そのままの形式、テキストの形式、その他の形式のいずれかにするかを決定する。例えば、情報処理システム1は、整数や実数を入力する場合に、そのまま数値として入力するか、テキストに変換して入力するか、文字列等の他の形式に変換して入力するのかのいずれにするかを決定する。例えば、情報処理システム1は、文字列を入力する場合に、そのまま文字列として入力するか、テキストに変換して入力するか、数値等の他の形式に変換して入力するのかのいずれにするかを決定する。例えば、情報処理システム1は、最も精度が良いモデルが生成された場合の入力形式を用いると決定する。
【0213】
上述した処理により、情報処理装置10は、入力する情報(特徴)の形式を最適化することができる。これにより、情報処理システム1は、上記の任意の形式、及びそれらの組合せも含めてfeature最適化アルゴリズムにより自動で最適化することができる。それにより、情報処理システム1は、ファインチューニングモデルの精度を向上させることができる。
【0214】
例えば、情報処理システム1は、基盤モデルの学習において、ラベル情報を入力情報として用いてもよい。これにより、情報処理システム1は、基盤モデルの事前学習時において、ラベル情報も基盤モデルに入力情報(入力素性)として入力することができる。また、事前学習時にラベル情報をマスク対象とすることが可能となり、情報処理システム1は、基盤モデルの事前学習時にラベル情報も予測できる様に学習させることができる。これにより、情報処理システム1は、ファインチューニングモデルの精度を向上させることができる。
【0215】
〔9.変形例〕
上記では、情報処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報処理の変形例について説明する。
【0216】
〔9-1.装置構成〕
上記実施形態では、情報処理システム1に、生成指標の生成を行う情報処理装置10、および、生成指標に従ってモデルを生成するモデル生成サーバ2を有する例について説明したが、実施形態は、これに限定されるものではない。例えば、情報処理装置10は、モデル生成サーバ2が有する機能を有していてもよい。また、情報処理装置10が発揮する機能は、端末装置3に内包されていてもよい。このような場合、端末装置3は、生成指標を自動的に生成するとともに、モデル生成サーバ2を用いたモデルの生成を自動的に行うこととなる。
【0217】
〔9-2.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0218】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0219】
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0220】
〔9-3.プログラム〕
また、上述してきた実施形態に係る情報処理装置10は、例えば
図26に示すような構成のコンピュータ1000によって実現される。
図26は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
【0221】
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD、フラッシュメモリ等により実現される。
【0222】
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
【0223】
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
【0224】
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
【0225】
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
【0226】
例えば、コンピュータ1000が情報処理装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部40の機能を実現する。
【0227】
〔10.効果〕
上述したように、情報処理装置10は、テキストを入力とする基盤モデル(例えば実施形態では部分モデルPM1)の学習に用いられる学習データを取得する取得部(実施形態では取得部41)と、学習データを用いた複数段階の学習処理により、基盤モデルを生成する生成部(実施形態では生成部44)とを有する。これにより、情報処理装置10は、基盤モデルを適切に生成することができる。
【0228】
また、取得部は、汎用的な言語能力の学習に用いる第1データ群を含む学習データを取得する。生成部は、第1データ群を用いた第1段階の学習処理を含む複数段階の学習処理により、基盤モデルを生成する。これにより、情報処理装置10は、汎用的な言語能力の学習する第1段階の学習処理を含む複数段階の学習処理によりモデルを生成することができるため、基盤モデルを適切に生成することができる。
【0229】
また、取得部は、大規模言語モデルの学習に用いられる自然言語データを含む第1データ群を取得する。これにより、情報処理装置10は、大規模言語モデルの学習に用いられる自然言語データを用いた第1段階の学習処理を含む複数段階の学習処理により、汎用的な言語能力を獲得したモデルを生成することができるため、基盤モデルを適切に生成することができる。
【0230】
また、取得部は、特定の処理のための言語能力の学習に用いる第2データ群を含む学習データを取得する。生成部は、第2データ群を用いた第2段階の学習処理を含む複数段階の学習処理により、基盤モデルを生成する。これにより、情報処理装置10は、特定の処理のための言語能力の学習する第2段階の学習処理を含む複数段階の学習処理によりモデルを生成することができるため、基盤モデルを適切に生成することができる。
【0231】
また、取得部は、インターネットにおいて投稿に関するデータである第2データ群を含む学習データを取得する。これにより、情報処理装置10は、インターネットにおいて投稿に関するデータを用いた第2段階の学習処理を含む複数段階の学習処理により、特定の処理に適したモデルを生成することができるため、基盤モデルを適切に生成することができる。
【0232】
また、取得部は、インターネットにおいて投稿された文章に対応するテキストを含む第2データ群を取得する。これにより、情報処理装置10は、インターネットにおいて投稿された文章に対応するテキストを用いた第2段階の学習処理を含む複数段階の学習処理により、投稿された文章を対象とする処理に適したモデルを生成することができるため、基盤モデルを適切に生成することができる。
【0233】
また、取得部は、インターネットにおいて投稿された質問に対応するテキストを含む第2データ群を取得する。これにより、情報処理装置10は、インターネットにおいて投稿された質問に対応するテキストを用いた第2段階の学習処理を含む複数段階の学習処理により、投稿された質問を対象とする処理に適したモデルを生成することができるため、基盤モデルを適切に生成することができる。
【0234】
また、取得部は、インターネットにおいて投稿された回答に対応するテキストを含む第2データ群を取得する。これにより、情報処理装置10は、インターネットにおいて投稿された回答に対応するテキストを用いた第2段階の学習処理を含む複数段階の学習処理により、投稿された回答を対象とする処理に適したモデルを生成することができるため、基盤モデルを適切に生成することができる。
【0235】
また、生成部は、基盤モデルのレイヤーを増やして学習を行う第3段階の学習処理を含む複数段階の学習処理により、基盤モデルを生成する。これにより、情報処理装置10は、基盤モデルのレイヤーを増やして学習を行う第3段階の学習処理を含む複数段階の学習処理によりモデルを生成することができるため、基盤モデルを適切に生成することができる。
【0236】
また、生成部は、特定の処理のための言語能力の学習に用いるデータを用いた第3段階の学習処理により基盤モデルを生成する。これにより、情報処理装置10は、特定の処理のための言語能力の学習に用いるデータを用いた第3段階の学習処理を含む複数段階の学習処理により、特定の処理に適したモデルを生成することができるため、基盤モデルを適切に生成することができる。
【0237】
また、生成部は、インターネットにおいて投稿に関するデータを用いた第3段階の学習処理により基盤モデルを生成する。これにより、情報処理装置10は、インターネットにおいて投稿に関するデータを用いた第3段階の学習処理を含む複数段階の学習処理により、投稿された文章を対象とする処理に適したモデルを生成することができるため、基盤モデルを適切に生成することができる。
【0238】
また、生成部は、インターネットにおいて投稿された文章に対応するテキストを用いた第3段階の学習処理により基盤モデルを生成する。これにより、情報処理装置10は、インターネットにおいて投稿された文章に対応するテキストを用いた第3段階の学習処理を含む複数段階の学習処理により、投稿された文章を対象とする処理に適したモデルを生成することができるため、基盤モデルを適切に生成することができる。
【0239】
また、生成部は、第3段階の学習処理を繰り返し実行することにより、基盤モデルのレイヤーの増加処理、及び増加後の基盤モデルを対象とする学習処理を行い、基盤モデルを生成する。これにより、情報処理装置10は、基盤モデルのレイヤーの増加処理、及び増加後の基盤モデルを対象とする学習処理を行うことで、基盤モデルを適切に生成することができる。
【0240】
また、生成部は、文章以外の情報を用いた学習により、基盤モデルと、基盤モデルを所定のタスクに適用するようにファインチューニングしたファインチューニングモデルとを生成する。これにより、情報処理装置10は、基盤モデルとファインチューニングモデルとの両方を適切に学習することができるため、文章以外の情報を適切に入力可能なモデルを生成することができる。
【0241】
また、生成部は、基盤モデルと、基盤モデルとは入力情報の入力が異なるファインチューニングモデルとを生成する。これにより、情報処理装置10は、基盤モデルと、基盤モデルとは入力情報の入力が異なるファインチューニングモデルとの両方を適切に学習することができるため、文章以外の情報を適切に入力可能なモデルを生成することができる。
【0242】
また、生成部は、基盤モデルと、基盤モデルと入力情報の入力順が同じであるファインチューニングモデルとを生成する。これにより、情報処理装置10は、基盤モデルと、基盤モデルと入力順が同じであるファインチューニングモデルとの両方を適切に学習することができるため、文章以外の情報を適切に入力可能なモデルを生成することができる。
【0243】
また、生成部は、文章である文章テキスト以外の情報が変換された変換後情報を含む複数の入力情報を入力とする前記基盤モデルと前記ファインチューニングモデルとを生成する。これにより、情報処理装置10は、文章以外の情報もテキストとして入力可能な基盤モデルとファインチューニングモデルとの両方を適切に学習することができるため、文章以外の情報を適切に入力可能なモデルを生成することができる。
【0244】
また、生成部は、基盤モデルの学習において、ラベル情報を入力情報として用いる。これにより、情報処理装置10は、基盤モデルでラベル情報を用いて適切に学習することができるため、文章以外の情報を適切に入力可能なモデルを生成することができる。
【0245】
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0246】
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
【符号の説明】
【0247】
1 情報処理システム
2 モデル生成サーバ
3 端末装置
10 情報処理装置
20 通信部
30 記憶部
40 制御部
41 取得部
42 決定部
43 受付部
44 生成部
45 処理部
46 提供部
【手続補正書】
【提出日】2024-06-21
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータが実行する情報処理方法であって、
テキストを入力とする基盤モデルの学習に用いられる学習データを取得する取得工程と、
前記学習データを用いた複数段階の学習処理により、前記基盤モデルを生成し、前記複数段階の学習処理のうち前記基盤モデルのレイヤーを増やして学習を行う第3段階の学習処理では、前記第3段階の学習処理よりも前の段階の学習処理で学習された前記基盤モデルにレイヤーを追加して、レイヤー追加後の前記基盤モデルを対象として、前記第3段階の学習処理よりも前の段階の学習処理のうち少なくとも1つの学習処理において用いられたデータを用いて学習を行うことにより、前記基盤モデルを生成する生成工程と、
を含むことを特徴とする情報処理方法。
【請求項2】
前記取得工程は、
汎用的な言語能力の学習に用いる第1データ群を含む前記学習データを取得し、
前記生成工程は、
前記第1データ群を用いた第1段階の学習処理を含む前記複数段階の学習処理により、前記基盤モデルを生成する
ことを特徴とする請求項1に記載の情報処理方法。
【請求項3】
前記取得工程は、
大規模言語モデルの学習に用いられる自然言語データを含む前記第1データ群を取得する
ことを特徴とする請求項2に記載の情報処理方法。
【請求項4】
前記取得工程は、
特定の処理のための言語能力の学習に用いる第2データ群を含む前記学習データを取得し、
前記生成工程は、
前記第2データ群を用いた第2段階の学習処理を含む前記複数段階の学習処理により、前記基盤モデルを生成する
ことを特徴とする請求項1に記載の情報処理方法。
【請求項5】
前記取得工程は、
インターネットにおいて投稿に関するデータである前記第2データ群を含む前記学習データを取得する
ことを特徴とする請求項4に記載の情報処理方法。
【請求項6】
前記取得工程は、
インターネットにおいて投稿された文章に対応するテキストを含む前記第2データ群を取得する
ことを特徴とする請求項5に記載の情報処理方法。
【請求項7】
前記取得工程は、
インターネットにおいて投稿された質問に対応するテキストを含む前記第2データ群を取得する
ことを特徴とする請求項6に記載の情報処理方法。
【請求項8】
前記取得工程は、
インターネットにおいて投稿された回答に対応するテキストを含む前記第2データ群を取得する
ことを特徴とする請求項6に記載の情報処理方法。
【請求項9】
前記生成工程は、
特定の処理のための言語能力の学習に用いるデータを用いた前記第3段階の学習処理により前記基盤モデルを生成する
ことを特徴とする請求項1に記載の情報処理方法。
【請求項10】
前記生成工程は、
インターネットにおいて投稿に関するデータを用いた前記第3段階の学習処理により前記基盤モデルを生成する
ことを特徴とする請求項9に記載の情報処理方法。
【請求項11】
前記生成工程は、
インターネットにおいて投稿された文章に対応するテキストを用いた前記第3段階の学習処理により前記基盤モデルを生成する
ことを特徴とする請求項10に記載の情報処理方法。
【請求項12】
前記生成工程は、
前記第3段階の学習処理を繰り返し実行することにより、前記基盤モデルのレイヤーの増加処理、及び増加後の前記基盤モデルを対象とする学習処理を行い、前記基盤モデルを生成する
ことを特徴とする請求項1に記載の情報処理方法。
【請求項13】
前記生成工程は、
前記基盤モデルのうち少なくとも一部の部分モデルを有する他のモデルを生成する
ことを特徴とする請求項1に記載の情報処理方法。
【請求項14】
前記生成工程は、
前記基盤モデルの学習において、ラベル情報を入力情報として用いる
ことを特徴とする請求項1に記載の情報処理方法。
【請求項15】
テキストを入力とする基盤モデルの学習に用いられる学習データを取得する取得部と、
前記学習データを用いた複数段階の学習処理により、前記基盤モデルを生成し、前記複数段階の学習処理のうち前記基盤モデルのレイヤーを増やして学習を行う第3段階の学習処理では、前記第3段階の学習処理よりも前の段階の学習処理で学習された前記基盤モデルにレイヤーを追加して、レイヤー追加後の前記基盤モデルを対象として、前記第3段階の学習処理よりも前の段階の学習処理のうち少なくとも1つの学習処理において用いられたデータを用いて学習を行うことにより、前記基盤モデルを生成する生成部と、
を有する情報処理装置。
【請求項16】
テキストを入力とする基盤モデルの学習に用いられる学習データを取得する取得手順と、
前記学習データを用いた複数段階の学習処理により、前記基盤モデルを生成し、前記複数段階の学習処理のうち前記基盤モデルのレイヤーを増やして学習を行う第3段階の学習処理では、前記第3段階の学習処理よりも前の段階の学習処理で学習された前記基盤モデルにレイヤーを追加して、レイヤー追加後の前記基盤モデルを対象として、前記第3段階の学習処理よりも前の段階の学習処理のうち少なくとも1つの学習処理において用いられたデータを用いて学習を行うことにより、前記基盤モデルを生成する生成手順と、
をコンピュータに実行させるための情報処理プログラム。
【手続補正書】
【提出日】2024-12-02
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータが実行する情報処理方法であって、
テキストを入力とする基盤モデルの学習に用いられる学習データを取得する取得工程と、
前記学習データを用いた複数段階の学習処理により、前記基盤モデルを生成し、前記複数段階の学習処理のうち前記基盤モデルのレイヤーを増やして学習を行う第3段階の学習処理では、前記第3段階の学習処理よりも前の段階の学習処理で学習された前記基盤モデルにレイヤーを追加して、レイヤー追加後の前記基盤モデルを対象として、前記第3段階の学習処理よりも前の段階の学習処理のうち少なくとも1つの学習処理において用いられたデータ、及び前記前の段階の学習処理において用いられたデータに含まれないデータを用いて学習を行うことにより、前記基盤モデルを生成する生成工程と、
を含むことを特徴とする情報処理方法。
【請求項2】
前記取得工程は、
汎用的な言語能力の学習に用いる第1データ群を含む前記学習データを取得し、
前記生成工程は、
前記第1データ群を用いた第1段階の学習処理を含む前記複数段階の学習処理により、前記基盤モデルを生成する
ことを特徴とする請求項1に記載の情報処理方法。
【請求項3】
前記取得工程は、
大規模言語モデルの学習に用いられる自然言語データを含む前記第1データ群を取得する
ことを特徴とする請求項2に記載の情報処理方法。
【請求項4】
前記取得工程は、
特定の処理のための言語能力の学習に用いる第2データ群を含む前記学習データを取得し、
前記生成工程は、
前記第2データ群を用いた第2段階の学習処理を含む前記複数段階の学習処理により、前記基盤モデルを生成する
ことを特徴とする請求項1に記載の情報処理方法。
【請求項5】
前記取得工程は、
インターネットにおいて投稿に関するデータである前記第2データ群を含む前記学習データを取得する
ことを特徴とする請求項4に記載の情報処理方法。
【請求項6】
前記取得工程は、
インターネットにおいて投稿された文章に対応するテキストを含む前記第2データ群を取得する
ことを特徴とする請求項5に記載の情報処理方法。
【請求項7】
前記取得工程は、
インターネットにおいて投稿された質問に対応するテキストを含む前記第2データ群を取得する
ことを特徴とする請求項6に記載の情報処理方法。
【請求項8】
前記取得工程は、
インターネットにおいて投稿された回答に対応するテキストを含む前記第2データ群を取得する
ことを特徴とする請求項6に記載の情報処理方法。
【請求項9】
前記生成工程は、
特定の処理のための言語能力の学習に用いるデータを用いた前記第3段階の学習処理により前記基盤モデルを生成する
ことを特徴とする請求項1に記載の情報処理方法。
【請求項10】
前記生成工程は、
インターネットにおいて投稿に関するデータを用いた前記第3段階の学習処理により前記基盤モデルを生成する
ことを特徴とする請求項9に記載の情報処理方法。
【請求項11】
前記生成工程は、
インターネットにおいて投稿された文章に対応するテキストを用いた前記第3段階の学習処理により前記基盤モデルを生成する
ことを特徴とする請求項10に記載の情報処理方法。
【請求項12】
前記生成工程は、
前記第3段階の学習処理を繰り返し実行することにより、前記基盤モデルのレイヤーの増加処理、及び増加後の前記基盤モデルを対象とする学習処理を行い、前記基盤モデルを生成する
ことを特徴とする請求項1に記載の情報処理方法。
【請求項13】
前記生成工程は、
前記基盤モデルのうち少なくとも一部の部分モデルを有する他のモデルを生成する
ことを特徴とする請求項1に記載の情報処理方法。
【請求項14】
前記生成工程は、
前記基盤モデルの学習において、ラベル情報を入力情報として用いる
ことを特徴とする請求項1に記載の情報処理方法。
【請求項15】
テキストを入力とする基盤モデルの学習に用いられる学習データを取得する取得部と、
前記学習データを用いた複数段階の学習処理により、前記基盤モデルを生成し、前記複数段階の学習処理のうち前記基盤モデルのレイヤーを増やして学習を行う第3段階の学習処理では、前記第3段階の学習処理よりも前の段階の学習処理で学習された前記基盤モデルにレイヤーを追加して、レイヤー追加後の前記基盤モデルを対象として、前記第3段階の学習処理よりも前の段階の学習処理のうち少なくとも1つの学習処理において用いられたデータ、及び前記前の段階の学習処理において用いられたデータに含まれないデータを用いて学習を行うことにより、前記基盤モデルを生成する生成部と、
を有する情報処理装置。
【請求項16】
テキストを入力とする基盤モデルの学習に用いられる学習データを取得する取得手順と、
前記学習データを用いた複数段階の学習処理により、前記基盤モデルを生成し、前記複数段階の学習処理のうち前記基盤モデルのレイヤーを増やして学習を行う第3段階の学習処理では、前記第3段階の学習処理よりも前の段階の学習処理で学習された前記基盤モデルにレイヤーを追加して、レイヤー追加後の前記基盤モデルを対象として、前記第3段階の学習処理よりも前の段階の学習処理のうち少なくとも1つの学習処理において用いられたデータ、及び前記前の段階の学習処理において用いられたデータに含まれないデータを用いて学習を行うことにより、前記基盤モデルを生成する生成手順と、
をコンピュータに実行させるための情報処理プログラム。