(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025010993
(43)【公開日】2025-01-23
(54)【発明の名称】言語モデル生成装置および言語モデル生成方法
(51)【国際特許分類】
G06F 40/216 20200101AFI20250116BHJP
G06N 3/0895 20230101ALI20250116BHJP
【FI】
G06F40/216
G06N3/0895
【審査請求】有
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023113350
(22)【出願日】2023-07-10
(11)【特許番号】
(45)【特許公報発行日】2024-03-04
(71)【出願人】
【識別番号】523174354
【氏名又は名称】Spiral.AI株式会社
(74)【代理人】
【識別番号】100105784
【弁理士】
【氏名又は名称】橘 和之
(72)【発明者】
【氏名】佐々木 雄一
(57)【要約】
【課題】大規模な計算資源を要することなく領域特化の言語モデルの学習を実現できるようにする。
【解決手段】特定領域に限定しない文章データセットを用いて学習済みの大規模言語モデル(LLM)に対して追加される小規模言語モデル(SLM)を学習するSLM学習部10は、SLMからの出力文章が特定領域の知識を反映したものとなるように、特定領域に限定した文章データセットを用いて領域特化のための学習を行う第1のモデル学習部11を備え、汎用的に学習されたLLMより規模の小さいSLMを領域特化のために学習し、学習されたSLMをLLMと共に使用して推論可能な構成を提供することにより、大規模な計算資源を要することなく領域特化の言語モデルの学習を実現する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
特定領域に限定しない文章データセットを用いて学習済みの大規模言語モデルに対して追加される言語モデルであって、上記大規模言語モデルより規模の小さい小規模言語モデルを学習する小規模言語モデル学習部を備え、
上記小規模言語モデル学習部は、上記小規模言語モデルからの出力文章が特定領域の知識を反映したものとなるように、上記特定領域に限定した文章データセットを用いて領域特化のための学習を行うとともに、上記小規模言語モデルからの出力文章が所望の表現形態となるように、入出力対の文章から成る文章データセットを用いて表現形態調整に関するタスク特化のための学習を行う
ことを特徴とする言語モデル生成装置。
【請求項2】
上記小規模言語モデル学習部は、上記特定領域に限定した文章データセットを用いて上記領域特化のための学習を行った後に、上記入出力対の文章から成る文章データセットを用いて上記タスク特化のための追加学習を行うことを特徴とする請求項1に記載の言語モデル生成装置。
【請求項3】
上記領域特化のための学習を自己教師あり学習により行い、上記タスク特化のための学習を教師あり学習により行うことを特徴とする請求項1または2に記載の言語モデル生成装置。
【請求項4】
上記小規模言語モデル学習部は、
上記特定領域に限定した文章データセットを用いて上記領域特化のための自己教師あり学習を行うことにより、上記大規模言語モデルより規模の小さい領域特化型の小規模言語モデルを生成する第1のモデル学習部と、
上記入出力対の文章から成る文章データセットを用いて上記タスク特化のための教師あり学習を行うことにより、上記領域特化型の小規模言語モデルより規模の小さいタスク特化型の小規模言語モデルを生成する第2のモデル学習部とを備えた
ことを特徴とする請求項1に記載の言語モデル生成装置。
【請求項5】
上記第1のモデル学習部により生成された上記領域特化型の小規模言語モデルと上記第2のモデル学習部により生成された上記タスク特化型の小規模言語モデルとを統合するモデル統合部を更に備えたことを特徴とする請求項4に記載の言語モデル生成装置。
【請求項6】
上記大規模言語モデルと、上記第1のモデル学習部により生成された上記領域特化型の小規模言語モデルおよび上記第2のモデル学習部により生成された上記タスク特化型の小規模言語モデルの少なくとも一方とを統合するモデル統合部を更に備えたことを特徴とする請求項4に記載の言語モデル生成装置。
【請求項7】
上記第1のモデル学習部が上記領域特化型の小規模言語モデルを生成する際に用いた上記特定領域に限定した文章データセットを用いて、上記特定領域の知識を反映した入出力対の文章から成る文章データセットを生成するデータセット生成部を更に備え、
上記第2のモデル学習部は、上記データセット生成部により生成された文章データセットを用いて上記タスク特化のための教師あり学習を行う
ことを特徴とする請求項4に記載の言語モデル生成装置。
【請求項8】
上記小規模言語モデルはランクを設定可能なモデルであり、上記領域特化型の小規模言語モデルのランクよりも、上記タスク特化型の小規模言語モデルのランクを小さく設定することを特徴とする請求項4~7の何れか1項に記載の言語モデル生成装置。
【請求項9】
上記第1のモデル学習部は、上記領域特化型の小規模言語モデルとして、ランクを64より大きい何れかの値に設定したLoRAの学習を行うことを特徴とする請求項4~7の何れか1項に記載の言語モデル生成装置。
【請求項10】
特定領域に限定しない文章データセットを用いて学習済みの大規模言語モデルに対して追加される言語モデルであって、上記大規模言語モデルより規模の小さい小規模言語モデルを生成する言語モデル生成装置において、
上記特定領域に限定した文章データセットを用いて、上記小規模言語モデルからの出力文章が特定領域の知識を反映したものとなるように、ランクを64より大きい何れかの値に設定したLoRAの学習を行う小規模言語モデル学習部を備えたことを特徴とする言語モデル生成装置。
【請求項11】
特定領域に限定しない文章データセットを用いて学習済みの大規模言語モデルに対して追加される、上記大規模言語モデルより規模の小さい小規模言語モデルを生成する言語モデル生成方法であって、
コンピュータの小規模言語モデル学習部が、上記小規模言語モデルからの出力文章が特定領域の知識を反映したものとなるように、上記特定領域に限定した文章データセットを用いて領域特化のための学習を行うとともに、上記小規模言語モデルからの出力文章が所望の表現形態となるように、入出力対の文章から成る文章データセットを用いて表現形態調整に関するタスク特化のための学習を行うことを特徴とする言語モデル生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、言語モデル生成装置および言語モデル生成方法に関し、特に、特定領域に限定しない文章データセットを用いて学習済みの大規模言語モデルに対して追加される小規模言語モデルを生成する技術に関するものである。
【背景技術】
【0002】
従来、大規模言語モデル(LLM:Large Language Models)を用いて質疑応答などの自然言語処理を行うシステムが提供されている。LLMは、大量のテキストデータを使ってトレーニングされた自然言語処理のモデルのことであり、文章を入力とし、文章を出力する。質疑応答を行うシステムにLLMを適用した場合、LLMに質問文を入力すると、LLMから回答文が出力される。
【0003】
近年、LLMの利活用は進んでいるが、巨大な言語モデルを学習させるには、数百台を超える高価なGPU計算資源が要求される。そのため、幅広いデータを学習させて何にでも使い回せる「汎用型モデル」を開発することが中心となっている。一方、特定領域の文章をもとに学習させた「特化型モデル」の方がその特定領域において高い性能を期待でき、それを試みている例(例えば、Bloomberg GPT)も出てきている。特定領域の文章を学習させてその知識を埋め込む「領域特化」は、Knowledge-Injectionと呼ばれている。非特許文献1には、この領域特化の追加学習に関する手法が開示されている。しかしながら、いずれのモデルも数億円単位の巨額の資金を投じる必要があり、なかなか浸透していない。
【0004】
計算量を減らすための手法として、汎用に学習された大規模な事前学習済みモデル(Pre-Trained Language Model:PLM)から出発して、小規模なモデルを加えて追加学習(fine-tuning)する手法も存在する。また、さらに計算量やメモリ消費量を減らすために、LoRA(Low-Rank Adaptation)という手法も開発されている。ただし、これらは主に、文語体を出力するかわりに口語体で出力するとか、長い文章ではなく歯切れのよい会話形式で出力するといったように、PLMの出力形態を変更するなどの「タスク特化」のために利用されてきた。
【先行技術文献】
【特許文献】
【0005】
【非特許文献1】“Plug-and-Play Knowledge Injection for Pre-trained Language Models”(ACL Rolling Review - June 2022, 2022.6.6 (modified:2023.5.6) <URL:https://openreview.net/forum?id=f4RClsuGaHS>
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は、このような実情に鑑みて成されたものであり、大規模な計算資源を要することなく領域特化の言語モデルの学習を実現できるようにすることを目的とする。
【課題を解決するための手段】
【0007】
上記した課題を解決するために、本発明は、特定領域に限定しない文章データセットを用いて学習済みの大規模言語モデルに対して追加される小規模言語モデルを学習するものであり、小規模言語モデルからの出力文章が特定領域の知識を反映したものとなるように、特定領域に限定した文章データセットを用いて領域特化のための学習を行うとともに、小規模言語モデルからの出力文章が所望の表現形態となるように、入出力対の文章から成る文章データセットを用いて表現形態調整に関するタスク特化のための学習を行うようにしている。
【発明の効果】
【0008】
上記のように構成した本発明によれば、特定領域に限定しない文章データセットを用いて汎用的に学習された大規模言語モデルより規模の小さい小規模言語モデルが領域特化のために学習され、学習された小規模言語モデルを大規模言語モデルと共に使用して推論可能な構成が提供されるので、大規模な計算資源を要することなく領域特化の言語モデルの学習を実現することができる。さらに本発明では、小規模言語モデルに対して表現形態調整に関するタスク特化のための学習も行われるので、大規模な計算資源を要することなく領域特化およびタスク特化の言語モデルの学習を実現することができる。
【図面の簡単な説明】
【0009】
【
図1】本実施形態による言語モデル生成装置の機能構成例を示すブロック図である。
【
図2】本実施形態による言語モデル生成装置の他の機能構成例を示すブロック図である。
【
図3】データセット生成部による文章データの生成例を示す図である。
【発明を実施するための形態】
【0010】
以下、本発明の一実施形態を図面に基づいて説明する。
図1は、本実施形態による言語モデル生成装置1の機能構成例を示すブロック図である。本実施形態の言語モデル生成装置1は、機能構成として、小規模言語モデル学習部10を備えている。以下では、小規模言語モデル学習部10を“SLM学習部10”と略す(SLM:Small Language Models)。SLM学習部10は、具体的な機能構成として、第1のモデル学習部11、第2のモデル学習部12およびモデル統合部13を備える。
【0011】
上記機能ブロック11~13は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えば、上記機能ブロック11~13は、CPU、RAM、ROMなどを備えて構成されたマイクロコンピュータの制御により、RAMやROM、ハードディスクまたは半導体メモリ等の記憶媒体に記憶されたプログラムが動作することによって実現される。CPUに代えてまたは加えてGPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)またはDSPなどを用いてもよい。
【0012】
また、本実施形態の言語モデル生成装置1には、記憶媒体としての記憶部100~104が接続されている。LLM記憶部100は、特定領域に限定しない文章データセットを用いて学習済みの大規模言語モデル(LLM)が記憶されている。このLLMの学習は公知の技術を用いて行うことが可能である。LLMの学習は本実施形態の主題ではないので、詳しい説明は割愛する。本実施形態のSLM学習部10は、この汎用的に学習されたLLMを事前学習済みモデル(PLM)として用い、当該PLMの中間出力に摂動を与える形で学習を行う。
【0013】
特定領域データ記憶部101は、特定領域に限定した文章データセットを記憶する。例えば、特定領域データ記憶部101は、特定領域の専門的な文章を記録した複数の文章データを記憶する。一例として、書籍やウェブサイト、論文、特許文書などの各種リソースから集めた文章データを用いることが可能である。特定領域は、1つであってもよいし、複数であってもよい。本実施形態の言語モデル生成装置1は、特定領域ごとにSLM学習部10による学習を行うことにより、特定領域ごとに領域に特化したSLMを生成する。
【0014】
一般的に、書籍やウェブサイト、論文、特許文書などから収集される文章データには、空白や改行もしくはHTMLタグなどの文字以外のデータが混ざっていることがある。そこで、このようなノイズデータをあらかじめ除去した文章データを特定領域データ記憶部101に記憶するようにしてもよい。例えば、正規表現などのプログラミング手法によってノイズデータを除去することが可能である。あるいは、ノイズデータ除去用に生成されたLLMまたはSLMや、よく知られたNLP(自然言語処理)の手法を用いてノイズデータを除去するようにしてもよい。
【0015】
また、上述の各種リソースから集めた文章データをもとに新たな文章データを生成し、この新たな文章データも特定領域データ記憶部101に記憶するようにしてもよい。例えば、LLM(LLM記憶部100に記憶されているものでもよいし、それ以外のものでもよい)を用いて、特定領域データ記憶部101から読み出した元の文章を要約した文章、当該元の文章と同じ意味の別の文章、あるいは当該元の文章から新たに知識を問うような文章問題などを生成し、これらの文章データを特定領域データ記憶部101に追加して記憶することにより、学習用の文章データを水増しすることが可能である。なお、特定領域データ記憶部101には元の文章だけを記憶しておき、SLM学習部10が学習を行う際に新たな文章データを生成するようにしてもよい。
【0016】
入出力対データ記憶部102は、入力文章と出力文章との対から成る教師データとしての文章データセットを記憶する。例えば、入出力対データ記憶部102は、所望の表現形態で記述された出力文章と、所望の表現形態ではない表現形態で記述された入力文章との対から成る文章データセットを記憶する。一例として、文語体で記述された入力文章と口語体(所望の表現形態)で記述された出力文章との対から成る複数の文章データセットを記憶する。あるいは、文字数の多い入力文章とそれを要約した文字数の少ない出力文章(所望の表現形態)との対から成る複数の文章データセットを記憶するようにしてもよい。
【0017】
この入出力対の文章から成る文章データセットは、人間の手で作成したものであってもよいし、コンピュータにより自動生成したものであってもよい。自動生成する場合、例えば、ユーザによるLLMとの過去の対話を記録した対話履歴データから入出力の対を得て文章データセットを生成することが可能である。このとき自動生成する入出力対の文章のうち出力文章は、所望の表現形態から成る文章となるようにする。
【0018】
言語モデル生成装置1のSLM学習部10は、特定領域データ記憶部101に記憶されている特定領域に限定した文章データセットおよび入出力対データ記憶部102に記憶されている入出力対の文章から成る文章データセットを用いて、LLM記憶部100に記憶されているLLMに対して追加される言語モデルであって、当該LLMより規模の小さい小規模言語モデル(SLM)を学習する。本実施形態では、計算量とメモリ消費量を軽減させるためにSLMの一例としてLoRAを用いる。LoRAは、Transformerと呼ばれる言語モデルの層に学習可能なランク分解行列(パラメータ)を挿入する仕組みを採用することで、ベースとなるLLMが有している元のパラメータを更新せずに、ファインチューニングのための差分パラメータを計算することが可能に構成されたSLMである。
【0019】
ここで、SLM学習部10は、SLM(LoRA)からの出力文章が特定領域の知識を反映したものとなるように、特定領域に限定した文章データセットを用いて領域特化のための学習を行うとともに、SLM(LoRA)からの出力文章が所望の表現形態となるように、入出力対の文章から成る文章データセットを用いて表現形態調整に関するタスク特化のための学習を行う。本実施形態において、SLM学習部10は、領域特化のための学習を行った後に、タスク特化のための追加学習を行い、それぞれの学習で生成したSLMをHighランクモデル記憶部103およびLowランクモデル記憶部104にそれぞれ記憶する。
【0020】
具体的には、SLM学習部10は、第1のモデル学習部11および第2のモデル学習部12によって2段階の学習を行う。第1のモデル学習部11は、特定領域データ記憶部101に記憶されている特定領域に限定した文章データセットを用いて領域特化のための自己教師あり学習を行うことにより、規模の小さい領域特化型のSLMを生成する。言語モデルの分野の学習において自己教師あり学習とは、一般的に、学習対象の言語モデルに文章を与え、次に出現する単語もしくは空欄に入る単語を予測させることで学習する手法である。第1のモデル学習部11はこの種の自己教師あり学習を行う。
【0021】
このとき、第1のモデル学習部11は、LoRAのランクRを大きく設定する。ランクRを大きく設定するとは、従来タスク特化のために利用されてきたLoRAを学習する際に一般的に設定されるランクR(例えば、R=2~16)よりも大きいランクを設定するという意味である。このようにすることにより、領域特化の知識をLoRAに学習させやすくすることが可能である。例えばR>16とすればよいが、経験的にはR>64の範囲でランクRを設定すると知識の学習程度は大きくなり、大きくすれば大きくするほど知識の学習力は大きくなる。ただし、ランクRを大きくし過ぎるとモデルの規模が大きくなってしまい、計算量やメモリ消費量が増大するため、適切な値に調整される必要がある。以下、ランクRを大きく設定して学習されたLoRAを「HighランクLoRA」という。なお、ここで挙げたランクRの数値はデータやモデルの種類に応じて調整されるべきものであり、上記値に限られない。
【0022】
LLM記憶部100に記憶されているLLMをPLMとして用い、これに第1のモデル学習部11により学習された領域特化型のSLMを組み合わせることにより、特定領域の専門的な知識を持つLLMを構築することが可能である。ただし、このLLMは、ある文章を与えたときに、続く単語を次々と答えることには長けているが、特定の表現形態の文章を出力するようには学習されていない。例えば、人間の質問文を入力として、それに対する自然な会話形式で適切な回答文を出力するようには構築されていない。
【0023】
これに対して第2のモデル学習部12は、入出力対データ記憶部102に記憶されている入出力対の文章から成る文章データセットを用いてタスク特化のための教師あり学習を行うことにより、第1のモデル学習部11により生成された領域特化型のSLMより規模の小さいタスク特化型のSLMを生成する。第2のモデル学習部12による学習においては、計算量とメモリ消費量をより軽減させるために、HighランクLoRAよりもLoRAのランクRを小さく設定する。例えばR≦16とすることが可能である。以下、ランクRを小さく設定して学習されたLoRAを「LowランクLoRA」という。なお、ここで挙げたランクRの数値はデータやモデルの種類に応じて調整されるべきものであり、上記値に限られない。
【0024】
以上のように、第1のモデル学習部11は、LLM記憶部100に記憶されているLLM(PLM)に対するファインチューニングモデルとして、ランクRの大きい領域特化型のHighランクLoRAを構築する。第2のモデル学習部12は、PLMとHighランクLoRAとの組み合わせに対するファインチューニングモデルとして、ランクRの小さいタスク特化型のLowランクLoRAを構築する。そのため、LLM記憶部100に記憶されたPLMと、Highランクモデル記憶部103に記憶されたHighランクLoRAと、Lowランクモデル記憶部104に記憶されたLowランクLoRAとの3つのモジュールが登場する。これらのモジュールはパラメータ群の行列として捉えることができるため、任意に足し合わせて統合することが可能である。
【0025】
モデル統合部13は、例えば
図1(a)に示すように、第1のモデル学習部11により生成されてHighランクモデル記憶部103に記憶された領域特化型のHighランクLoRAと、第2のモデル学習部12により生成されてLowランクモデル記憶部104に記憶されたタスク特化型のLowランクLoRAとを統合する(LLM記憶部100のPLMは統合しない)。以下、領域特化型のHighランクLoRAとタスク特化型のLowランクLoRAとを統合して生成されるLoRAを「領域・タスク特化型LoRA」という。領域・タスク特化型LoRAを生成した場合、推論時には、PLMと領域・タスク特化型LoRAとのそれぞれで行列計算を行い、それぞれの計算結果を足し合わせて出力を得る。複数の特定領域ごとに領域・タスク特化型LoRAを生成しておくことにより、専門知識を持つLoRAを高速に切り替えて推論させることができるため、計算資源の利用効率が良いというメリットを有する。
【0026】
また、モデル統合部13は、
図1(b)に示すように、LLM記憶部100に記憶されているLLM(PLM)と、第1のモデル学習部11により生成されてHighランクモデル記憶部103に記憶された領域特化型のHighランクLoRAおよび第2のモデル学習部12により生成されてLowランクモデル記憶部104に記憶されたタスク特化型のLowランクLoRAの少なくとも一方とを統合するようにしてもよい。すなわち、PLMとHighランクLoRAとを統合してもよいし、PLMとLowランクLoRAとを統合してもよいし、PLMとHighランクLoRAとLowランクLoRAとを統合してもよい。
【0027】
例えば、PLMとHighランクLoRAとLowランクLoRAとを統合して1つのLLMを構築した場合、推論時には、そのLLMで行列計算を行うだけでよいので、最小の計算量とメモリ消費量で推論を行うことが可能となる。ただし、この場合はLLMから2つのLoRAを取り外すことができなくなるので、推論時に動的に専門領域を切り替えることは難しい。
【0028】
また、PLMとHighランクLoRAとを統合する一方でLowランクLoRAを分離しておく場合、複数の表現形態ごとにタスク特化型のLowランクLoRAを生成しておくことにより、特定の専門領域において所望の表現形態を高速に切り替えて推論させることが可能である。例えば、LowランクLoRAが出力文章の表現形態を調整するという性質を「ユーザごとの会話のテイストの保持」という目的に利用するため、LowランクLoRAをユーザごとに学習し、推論時にはユーザに応じてLowランクLoRAを適宜切り替えられるように分離して保持しておくようにすることが可能である。
【0029】
なお、ここではモデル統合部13を備える構成について説明したが、モデル統合部13は省略し、PLMとHighランクLoRAとLowランクLoRAとをそれぞれ分離したまま保持するようにしてもよい。この場合、複数の特定領域ごとに領域特化型のHighランクLoRAを生成しておくとともに、複数の表現形態ごとにタスク特化型のLowランクLoRAを生成しておくことにより、所望の特定領域と所望の表現形態との組み合わせを高速に切り替えて推論させることが可能である。
【0030】
また、上記実施形態において、第2のモデル学習部12の教師あり学習において教師データとして使用する入出力対の文章から成る文章データセットを自動生成してもよいことについて説明した。これに関して、
図2に示すようにデータセット生成部14を更に備え、第1のモデル学習部11が自己教師あり学習において使用した特定領域の文章データからLLMやNLPの手法を用いて入出力対の文章データを生成するようにしてもよい。
【0031】
データセット生成部14は、第1のモデル学習部11が領域特化型のSLM(HighランクLoRA)を生成する際に用いた特定領域に限定した文章データセットを用いて、特定領域の知識を反映した入出力対の文章から成る文章データセットを生成する。
図3は、特定領域の文章データを用いて入出力対の文章から成る文章データを生成した例を示す図である。
図3は、1つの特定領域の文章から3つの入出力対の文章が生成された状態を示している。
【0032】
図2の構成において、第2のモデル学習部2は、入出力対データ記憶部102に記憶されている文章データセットに加え、データセット生成部14により生成された文章データセットを用いてタスク特化のための教師あり学習を行う。
【0033】
以上詳しく説明したように、本実施形態では、特定領域に限定しない文章データセットを用いて学習済みの大規模なPLMに対して追加されるSLMを学習する際に、SLMからの出力文章が特定領域の知識を反映したものとなるように、特定領域に限定した文章データセットを用いて領域特化のための学習を行うとともに、SLMからの出力文章が所望の表現形態となるように、入出力対の文章から成る文章データセットを用いて表現形態調整に関するタスク特化のための学習を行うようにしている。
【0034】
このように構成した本実施形態によれば、特定領域に限定しない文章データセットを用いて汎用的に学習された大規模なPLMより規模の小さいSLMが領域特化のために学習され、学習されたSLMをPLMと共に使用して推論可能な構成が提供されるので、大規模な計算資源を要することなく領域特化の言語モデルの学習を実現することができる。さらに本実施形態では、SLMに対して表現形態調整に関するタスク特化のための学習も行われるので、大規模な計算資源を要することなく領域特化およびタスク特化の言語モデルの学習を実現することができる。
【0035】
なお、上記実施形態では、領域特化型のSLMをHighランクLoRAで構成し、タスク特化型のSLMをLowランクLoRAで構成する例について説明したが、HighとLowの関係を逆にしてもよい。すなわち、領域特化型のSLMをLowランクLoRAで構成し、タスク特化型のSLMをHighランクLoRAで構成してもよい。例えば、領域特化型のLoRAのランクRを100台の値とし、タスク特化型のLoRAのランクRを領域特化型のLoRAのランクRよりもわずかに大きくするようにしてもよい。
【0036】
また、上記実施形態では、特定領域に限定した文章データセットを用いて領域特化のための学習を行った後に、入出力対の文章から成る文章データセットを用いてタスク特化のための追加学習を行う例について説明したが、これに限定されない。例えば、領域特化のための学習とタスク特化のための学習とを同時に行ってもよい。この場合、領域特化型のLoRAのランクRとタスク特化型のLoRAのランクRとを同じ値とし、特定領域に限定した文章データセットと入出力対の文章から成る文章データセットとを混ぜ合わせて学習を行う。
【0037】
また、上記実施形態では、SLMの一例としてLoRAを用いる例について説明したが、これに限定されない。例えば、LoRAから派生したQLoRAなどを用いてもよいし、Adapterに分類されるようなLoRAとは異なる手法を用いてもよい。これらの手法は、まとめてPEFT(Parameter-Efficient Fine-Tuning)と呼ばれる。ベースとなるLLMが有している元のパラメータを更新せずに差分パラメータを計算することが可能に構成された言語モデルであれば、LoRAを使わないファインチューニングの手法を用いることが可能である。
【0038】
また、上記実施形態では、領域特化のための学習を自己教師あり学習により行い、タスク特化のための学習を教師あり学習により行う例について説明したが、これに限定されない。例えば、何れの学習も教師あり学習により行うようにしてもよい。
【0039】
その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【符号の説明】
【0040】
1 言語モデル生成装置
10 SLM学習部
11 第1のモデル学習部
12 第2のモデル学習部
13 モデル統合部
14 データセット生成部
【手続補正書】
【提出日】2023-08-08
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
特定領域に限定しない文章データセットを用いて学習済みの大規模言語モデルに対して追加される、上記大規模言語モデルより規模の小さい小規模言語モデルであって、適用対象のモデルが有しているパラメータを更新せずにファインチューニングのための差分パラメータを計算することが可能に構成された小規模言語モデルをパラメータ調整により学習する小規模言語モデル学習部を備え、
上記小規模言語モデル学習部は、上記小規模言語モデルからの出力文章が特定領域の知識を反映したものとなるように、上記特定領域に限定した文章データセットを用いて領域特化のための学習を行うとともに、上記小規模言語モデルからの出力文章が特定の表現形態の文章となるように、上記特定の表現形態ではない表現形態で記述された入力文章と上記特定の表現形態で記述された出力文章とを含む入出力対の文章から成る文章データセットを用いて表現形態調整に関するタスク特化のための学習を行う
ことを特徴とする言語モデル生成装置。
【請求項2】
上記小規模言語モデル学習部は、上記特定領域に限定した文章データセットを用いて上記領域特化のための学習を行った後に、上記入出力対の文章から成る文章データセットを用いて上記タスク特化のための追加学習を行うことを特徴とする請求項1に記載の言語モデル生成装置。
【請求項3】
上記領域特化のための学習を自己教師あり学習により行い、上記タスク特化のための学習を教師あり学習により行うことを特徴とする請求項1または2に記載の言語モデル生成装置。
【請求項4】
上記小規模言語モデル学習部は、
上記特定領域に限定した文章データセットを用いて上記領域特化のための自己教師あり学習を行うことにより、上記大規模言語モデルより規模の小さい領域特化型の小規模言語モデルを生成する第1のモデル学習部と、
上記入出力対の文章から成る文章データセットを用いて上記タスク特化のための教師あり学習を行うことにより、上記領域特化型の小規模言語モデルより規模の小さいタスク特化型の小規模言語モデルを生成する第2のモデル学習部とを備えた
ことを特徴とする請求項1に記載の言語モデル生成装置。
【請求項5】
上記第1のモデル学習部により生成された上記領域特化型の小規模言語モデルと上記第2のモデル学習部により生成された上記タスク特化型の小規模言語モデルとを統合するモデル統合部を更に備えたことを特徴とする請求項4に記載の言語モデル生成装置。
【請求項6】
上記大規模言語モデルと、上記第1のモデル学習部により生成された上記領域特化型の小規模言語モデルおよび上記第2のモデル学習部により生成された上記タスク特化型の小規模言語モデルの少なくとも一方とを統合するモデル統合部を更に備えたことを特徴とする請求項4に記載の言語モデル生成装置。
【請求項7】
上記第1のモデル学習部が上記領域特化型の小規模言語モデルを生成する際に用いた上記特定領域に限定した文章データセットを用いて、上記特定領域の知識を反映した入出力対の文章から成る文章データセットを生成するデータセット生成部を更に備え、
上記第2のモデル学習部は、上記データセット生成部により生成された文章データセットを用いて上記タスク特化のための教師あり学習を行う
ことを特徴とする請求項4に記載の言語モデル生成装置。
【請求項8】
上記小規模言語モデルはランクを設定可能なモデルであり、上記領域特化型の小規模言語モデルのランクよりも、上記タスク特化型の小規模言語モデルのランクを小さく設定することを特徴とする請求項4~7の何れか1項に記載の言語モデル生成装置。
【請求項9】
上記第1のモデル学習部は、上記領域特化型の小規模言語モデルとして、ランクを64より大きい何れかの値に設定したLoRAの学習を行うことを特徴とする請求項4~7の何れか1項に記載の言語モデル生成装置。
【請求項10】
特定領域に限定しない文章データセットを用いて学習済みの大規模言語モデルに対して追加される言語モデルであって、上記大規模言語モデルより規模の小さい小規模言語モデルを生成する言語モデル生成装置において、
上記特定領域に限定した文章データセットを用いて、上記小規模言語モデルからの出力文章が特定領域の知識を反映したものとなるように、ランクを64より大きい何れかの値に設定したLoRAのパラメータ調整による学習を行う小規模言語モデル学習部を備えたことを特徴とする言語モデル生成装置。
【請求項11】
特定領域に限定しない文章データセットを用いて学習済みの大規模言語モデルに対して追加される、上記大規模言語モデルより規模の小さい小規模言語モデルであって、適用対象のモデルが有しているパラメータを更新せずにファインチューニングのための差分パラメータを計算することが可能に構成された小規模言語モデルをパラメータ調整による学習によって生成する言語モデル生成方法であって、
コンピュータの小規模言語モデル学習部が、上記小規模言語モデルからの出力文章が特定領域の知識を反映したものとなるように、上記特定領域に限定した文章データセットを用いて領域特化のための学習を行うとともに、上記小規模言語モデルからの出力文章が特定の表現形態の文章となるように、上記特定の表現形態ではない表現形態で記述された入力文章と上記特定の表現形態で記述された出力文章とを含む入出力対の文章から成る文章データセットを用いて表現形態調整に関するタスク特化のための学習を行うことを特徴とする言語モデル生成方法。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0007
【補正方法】変更
【補正の内容】
【0007】
上記した課題を解決するために、本発明は、特定領域に限定しない文章データセットを用いて学習済みの大規模言語モデルに対して追加される小規模言語モデルであって、適用対象のモデルが有しているパラメータを更新せずにファインチューニングのための差分パラメータを計算することが可能に構成された小規模言語モデルを学習するものであり、小規模言語モデルからの出力文章が特定領域の知識を反映したものとなるように、特定領域に限定した文章データセットを用いて領域特化のための学習を行うとともに、小規模言語モデルからの出力文章が特定の表現形態の文章となるように、特定の表現形態ではない表現形態で記述された入力文章と特定の表現形態で記述された出力文章とを含む入出力対の文章から成る文章データセットを用いて表現形態調整に関するタスク特化のための学習を行うようにしている。
【手続補正書】
【提出日】2023-09-13
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
特定領域に限定しない文章データセットを用いて学習済みの大規模言語モデルに対して追加される、上記大規模言語モデルより規模の小さい小規模言語モデルであって、適用対象のモデルが有しているパラメータを更新せずにファインチューニングのための差分パラメータを計算することが可能に構成された小規模言語モデルをパラメータ調整により学習する小規模言語モデル学習部を備え、
上記小規模言語モデル学習部は、
上記小規模言語モデルからの出力文章が特定領域の知識を反映したものとなるように、上記特定領域に限定した文章データセットを用いて領域特化のための学習を行うことにより、領域特化型の小規模言語モデルを生成する第1のモデル学習部と、
上記小規模言語モデルからの出力文章が特定の表現形態の文章となるように、上記特定の表現形態ではない表現形態で記述された入力文章と上記特定の表現形態で記述された出力文章とを含む入出力対の文章から成る文章データセットを用いて表現形態調整に関するタスク特化のための学習を行うことにより、タスク特化型の小規模言語モデルを生成する第2のモデル学習部とを備え、
上記小規模言語モデルはランクを設定可能なモデルであり、
上記第1のモデル学習部は、上記領域特化型の小規模言語モデルとして、ランクを64より大きい何れかの値に設定したモデルの学習を行う
ことを特徴とする言語モデル生成装置。
【請求項2】
上記小規模言語モデル学習部は、上記特定領域に限定した文章データセットを用いて上記領域特化のための学習を行った後に、上記入出力対の文章から成る文章データセットを用いて上記タスク特化のための追加学習を行うことを特徴とする請求項1に記載の言語モデル生成装置。
【請求項3】
上記領域特化のための学習を自己教師あり学習により行い、上記タスク特化のための学習を教師あり学習により行うことを特徴とする請求項1または2に記載の言語モデル生成装置。
【請求項4】
上記第1のモデル学習部は、上記特定領域に限定した文章データセットを用いて上記領域特化のための自己教師あり学習を行うことにより、上記大規模言語モデルより規模の小さい上記領域特化型の小規模言語モデルを生成し、
上記第2のモデル学習部は、上記入出力対の文章から成る文章データセットを用いて上記タスク特化のための教師あり学習を行うことにより、上記領域特化型の小規模言語モデルより規模の小さい上記タスク特化型の小規模言語モデルを生成する
ことを特徴とする請求項1に記載の言語モデル生成装置。
【請求項5】
上記第1のモデル学習部により生成された上記領域特化型の小規模言語モデルと上記第2のモデル学習部により生成された上記タスク特化型の小規模言語モデルとを統合するモデル統合部を更に備えたことを特徴とする請求項1に記載の言語モデル生成装置。
【請求項6】
上記大規模言語モデルと、上記第1のモデル学習部により生成された上記領域特化型の小規模言語モデルおよび上記第2のモデル学習部により生成された上記タスク特化型の小規模言語モデルの少なくとも一方とを統合するモデル統合部を更に備えたことを特徴とする請求項1に記載の言語モデル生成装置。
【請求項7】
上記第1のモデル学習部が上記領域特化型の小規模言語モデルを生成する際に用いた上記特定領域に限定した文章データセットを用いて、上記特定領域の知識を反映した入出力対の文章から成る文章データセットを生成するデータセット生成部を更に備え、
上記第2のモデル学習部は、上記データセット生成部により生成された文章データセットを用いて上記タスク特化のための教師あり学習を行う
ことを特徴とする請求項1に記載の言語モデル生成装置。
【請求項8】
上記領域特化型の小規模言語モデルのランクよりも、上記タスク特化型の小規模言語モデルのランクを小さく設定することを特徴とする請求項1に記載の言語モデル生成装置。
【請求項9】
上記領域特化型の小規模言語モデルは、ランクを64より大きい何れかの値に設定したLoRAであることを特徴とする請求項1に記載の言語モデル生成装置。
【請求項10】
特定領域に限定しない文章データセットを用いて学習済みの大規模言語モデルに対して追加される言語モデルであって、上記大規模言語モデルより規模の小さい小規模言語モデルを生成する言語モデル生成装置において、
上記特定領域に限定した文章データセットを用いて、上記小規模言語モデルからの出力文章が特定領域の知識を反映したものとなるように、ランクを64より大きい何れかの値に設定したLoRAのパラメータ調整による学習を行う小規模言語モデル学習部を備えたことを特徴とする言語モデル生成装置。
【請求項11】
特定領域に限定しない文章データセットを用いて学習済みの大規模言語モデルに対して追加される、上記大規模言語モデルより規模の小さい小規模言語モデルであって、適用対象のモデルが有しているパラメータを更新せずにファインチューニングのための差分パラメータを計算することが可能に構成された小規模言語モデルをパラメータ調整による学習によって生成する言語モデル生成方法であって、
コンピュータの第1のモデル学習部が、上記小規模言語モデルからの出力文章が特定領域の知識を反映したものとなるように、上記特定領域に限定した文章データセットを用いて領域特化のための学習を行うことにより、領域特化型の小規模言語モデルを生成する第1のステップと、
上記コンピュータの第2のモデル学習部が、上記小規模言語モデルからの出力文章が特定の表現形態の文章となるように、上記特定の表現形態ではない表現形態で記述された入力文章と上記特定の表現形態で記述された出力文章とを含む入出力対の文章から成る文章データセットを用いて表現形態調整に関するタスク特化のための学習を行うことにより、タスク特化型の小規模言語モデルを生成する第2のステップとを有し、
上記小規模言語モデルはランクを設定可能なモデルであり、
上記第1のモデル学習部は、上記領域特化型の小規模言語モデルとして、ランクを64より大きい何れかの値に設定したモデルの学習を行う
ことを特徴とする言語モデル生成方法。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0007
【補正方法】変更
【補正の内容】
【0007】
上記した課題を解決するために、本発明は、特定領域に限定しない文章データセットを用いて学習済みの大規模言語モデルに対して追加される小規模言語モデルであって、適用対象のモデルが有しているパラメータを更新せずにファインチューニングのための差分パラメータを計算することが可能に構成された小規模言語モデルを学習するものであり、小規模言語モデルからの出力文章が特定領域の知識を反映したものとなるように、特定領域に限定した文章データセットを用いて領域特化のための学習を行うとともに、小規模言語モデルからの出力文章が特定の表現形態の文章となるように、特定の表現形態ではない表現形態で記述された入力文章と特定の表現形態で記述された出力文章とを含む入出力対の文章から成る文章データセットを用いて表現形態調整に関するタスク特化のための学習を行うようにしている。ここで、小規模言語モデルはランクを設定可能なモデルであり、領域特化型の小規模言語モデルとして、ランクを64より大きい何れかの値に設定したモデルの学習を行うようにしている。
【手続補正書】
【提出日】2023-11-07
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
特定領域に限定しない文章データセットを用いて学習済みの大規模言語モデルに対して追加される、上記大規模言語モデルより規模の小さい小規模言語モデルであって、適用対象のモデルが有しているパラメータを更新せずにファインチューニングのための差分パラメータを計算することが可能に構成された小規模言語モデルをパラメータ調整により学習する小規模言語モデル学習部を備え、
上記小規模言語モデル学習部は、
上記小規模言語モデルからの出力文章が特定領域の知識を反映したものとなるように、上記特定領域に限定した文章データセットを用いて領域特化のための学習を行うことにより、領域特化型の小規模言語モデルを生成する第1のモデル学習部と、
上記第1のモデル学習部が上記領域特化型の小規模言語モデルを生成する際に用いた上記特定領域に限定した文章データセットを用いて、上記特定の表現形態ではない表現形態で記述された入力文章と上記特定の表現形態で記述された出力文章とを含む入出力対の文章から成る文章データセットであって、かつ、上記特定領域の知識を反映した入出力対の文章から成る文章データセットを生成するデータセット生成部と、
上記小規模言語モデルからの出力文章が特定の表現形態の文章となるように、上記データセット生成部により生成された文章データセットを用いて表現形態調整に関するタスク特化のための学習を行うことにより、タスク特化型の小規模言語モデルを生成する第2のモデル学習部とを備え、
上記小規模言語モデルはランクを設定可能なモデルであり、
上記第1のモデル学習部は、上記領域特化型の小規模言語モデルとして、ランクを64より大きい何れかの値に設定したモデルの学習を行う
ことを特徴とする言語モデル生成装置。
【請求項2】
上記小規模言語モデル学習部は、上記特定領域に限定した文章データセットを用いて上記領域特化のための学習を行った後に、上記入出力対の文章から成る文章データセットを用いて上記タスク特化のための追加学習を行うことを特徴とする請求項1に記載の言語モデル生成装置。
【請求項3】
上記領域特化のための学習を自己教師あり学習により行い、上記タスク特化のための学習を教師あり学習により行うことを特徴とする請求項1または2に記載の言語モデル生成装置。
【請求項4】
上記第1のモデル学習部は、上記特定領域に限定した文章データセットを用いて上記領域特化のための自己教師あり学習を行うことにより、上記大規模言語モデルより規模の小さい上記領域特化型の小規模言語モデルを生成し、
上記第2のモデル学習部は、上記入出力対の文章から成る文章データセットを用いて上記タスク特化のための教師あり学習を行うことにより、上記領域特化型の小規模言語モデルより規模の小さい上記タスク特化型の小規模言語モデルを生成する
ことを特徴とする請求項1に記載の言語モデル生成装置。
【請求項5】
上記第1のモデル学習部により生成された上記領域特化型の小規模言語モデルと上記第2のモデル学習部により生成された上記タスク特化型の小規模言語モデルとを統合するモデル統合部を更に備えたことを特徴とする請求項1に記載の言語モデル生成装置。
【請求項6】
上記大規模言語モデルと、上記第1のモデル学習部により生成された上記領域特化型の小規模言語モデルおよび上記第2のモデル学習部により生成された上記タスク特化型の小規模言語モデルの少なくとも一方とを統合するモデル統合部を更に備えたことを特徴とする請求項1に記載の言語モデル生成装置。
【請求項7】
上記領域特化型の小規模言語モデルのランクよりも、上記タスク特化型の小規模言語モデルのランクを小さく設定することを特徴とする請求項1に記載の言語モデル生成装置。
【請求項8】
上記領域特化型の小規模言語モデルは、ランクを64より大きい何れかの値に設定したLoRAであることを特徴とする請求項1に記載の言語モデル生成装置。
【請求項9】
特定領域に限定しない文章データセットを用いて学習済みの大規模言語モデルに対して追加される、上記大規模言語モデルより規模の小さい小規模言語モデルであって、適用対象のモデルが有しているパラメータを更新せずにファインチューニングのための差分パラメータを計算することが可能に構成された小規模言語モデルをパラメータ調整による学習によって生成する言語モデル生成方法であって、
コンピュータの第1のモデル学習部が、上記小規模言語モデルからの出力文章が特定領域の知識を反映したものとなるように、上記特定領域に限定した文章データセットを用いて領域特化のための学習を行うことにより、領域特化型の小規模言語モデルを生成する第1のステップと、
上記コンピュータのデータセット生成部が、上記第1のモデル学習部が上記領域特化型の小規模言語モデルを生成する際に用いた上記特定領域に限定した文章データセットを用いて、上記特定の表現形態ではない表現形態で記述された入力文章と上記特定の表現形態で記述された出力文章とを含む入出力対の文章から成る文章データセットであって、かつ、上記特定領域の知識を反映した入出力対の文章から成る文章データセットを生成する第2のステップと、
上記コンピュータの第2のモデル学習部が、上記小規模言語モデルからの出力文章が特定の表現形態の文章となるように、上記データセット生成部により生成された入出力対の文章から成る文章データセットを用いて表現形態調整に関するタスク特化のための学習を行うことにより、タスク特化型の小規模言語モデルを生成する第3のステップとを有し、
上記小規模言語モデルはランクを設定可能なモデルであり、
上記第1のモデル学習部は、上記領域特化型の小規模言語モデルとして、ランクを64より大きい何れかの値に設定したモデルの学習を行う
ことを特徴とする言語モデル生成方法。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0007
【補正方法】変更
【補正の内容】
【0007】
上記した課題を解決するために、本発明は、特定領域に限定しない文章データセットを用いて学習済みの大規模言語モデルに対して追加される小規模言語モデルであって、適用対象のモデルが有しているパラメータを更新せずにファインチューニングのための差分パラメータを計算することが可能に構成された小規模言語モデルを学習するものであり、小規模言語モデルからの出力文章が特定領域の知識を反映したものとなるように、特定領域に限定した文章データセットを用いて領域特化のための学習を行うとともに、小規模言語モデルからの出力文章が特定の表現形態の文章となるように、特定の表現形態ではない表現形態で記述された入力文章と特定の表現形態で記述された出力文章とを含む入出力対の文章から成る文章データセットを用いて表現形態調整に関するタスク特化のための学習を行うようにしている。ここで、領域特化型の小規模言語モデルを生成する際に用いた特定領域に限定した文章データセットを用いて、特定の表現形態ではない表現形態で記述された入力文章と特定の表現形態で記述された出力文章とを含む入出力対の文章から成る文章データセットであって、かつ、特定領域の知識を反映した入出力対の文章から成る文章データセットを生成し、当該生成した文章データセットを用いて表現形態調整に関するタスク特化のための学習を行うようにしている。
【手続補正書】
【提出日】2024-01-22
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
特定領域に限定しない文章データセットを用いて学習済みの大規模言語モデルに対して追加される、上記大規模言語モデルより規模の小さい小規模言語モデルであって、適用対象のモデルが有しているパラメータを更新せずにファインチューニングのための差分パラメータを計算することが可能に構成された小規模言語モデルをパラメータ調整により学習する小規模言語モデル学習部を備え、
上記小規模言語モデル学習部は、
上記小規模言語モデルからの出力文章が特定領域の知識を反映したものとなるように、上記特定領域に限定した文章データセットを用いて領域特化のための学習を行うことにより、領域特化型の小規模言語モデルを生成する第1のモデル学習部と、
上記第1のモデル学習部が上記領域特化型の小規模言語モデルを生成する際に用いた上記特定領域に限定した文章データセットを用いて、特定の表現形態ではない表現形態で記述された入力文章と上記特定の表現形態で記述された出力文章とを含む入出力対の文章から成る文章データセットであって、かつ、上記特定領域の知識を反映した入出力対の文章から成る文章データセットを生成するデータセット生成部と、
上記小規模言語モデルからの出力文章が上記特定の表現形態の文章となるように、上記データセット生成部により生成された文章データセットを用いて表現形態調整に関するタスク特化のための学習を行うことにより、タスク特化型の小規模言語モデルを生成する第2のモデル学習部とを備え、
上記小規模言語モデルはランクを設定可能なモデルであり、
上記第1のモデル学習部は、上記領域特化型の小規模言語モデルとして、ランクを64より大きい何れかの値に設定したモデルの学習を行う
ことを特徴とする言語モデル生成装置。
【請求項2】
上記小規模言語モデル学習部は、上記特定領域に限定した文章データセットを用いて上記領域特化のための学習を行った後に、上記入出力対の文章から成る文章データセットを用いて上記タスク特化のための追加学習を行うことを特徴とする請求項1に記載の言語モデル生成装置。
【請求項3】
上記領域特化のための学習を自己教師あり学習により行い、上記タスク特化のための学習を教師あり学習により行うことを特徴とする請求項1または2に記載の言語モデル生成装置。
【請求項4】
上記第1のモデル学習部は、上記特定領域に限定した文章データセットを用いて上記領域特化のための自己教師あり学習を行うことにより、上記大規模言語モデルより規模の小さい上記領域特化型の小規模言語モデルを生成し、
上記第2のモデル学習部は、上記入出力対の文章から成る文章データセットを用いて上記タスク特化のための教師あり学習を行うことにより、上記領域特化型の小規模言語モデルより規模の小さい上記タスク特化型の小規模言語モデルを生成する
ことを特徴とする請求項1に記載の言語モデル生成装置。
【請求項5】
上記第1のモデル学習部により生成された上記領域特化型の小規模言語モデルと上記第2のモデル学習部により生成された上記タスク特化型の小規模言語モデルとを統合するモデル統合部を更に備えたことを特徴とする請求項1に記載の言語モデル生成装置。
【請求項6】
上記大規模言語モデルと、上記第1のモデル学習部により生成された上記領域特化型の小規模言語モデルおよび上記第2のモデル学習部により生成された上記タスク特化型の小規模言語モデルの少なくとも一方とを統合するモデル統合部を更に備えたことを特徴とする請求項1に記載の言語モデル生成装置。
【請求項7】
上記領域特化型の小規模言語モデルのランクよりも、上記タスク特化型の小規模言語モデルのランクを小さく設定することを特徴とする請求項1に記載の言語モデル生成装置。
【請求項8】
上記領域特化型の小規模言語モデルは、ランクを64より大きい何れかの値に設定したLoRAであることを特徴とする請求項1に記載の言語モデル生成装置。
【請求項9】
特定領域に限定しない文章データセットを用いて学習済みの大規模言語モデルに対して追加される、上記大規模言語モデルより規模の小さい小規模言語モデルであって、適用対象のモデルが有しているパラメータを更新せずにファインチューニングのための差分パラメータを計算することが可能に構成された小規模言語モデルをパラメータ調整による学習によって生成する言語モデル生成方法であって、
コンピュータの第1のモデル学習部が、上記小規模言語モデルからの出力文章が特定領域の知識を反映したものとなるように、上記特定領域に限定した文章データセットを用いて領域特化のための学習を行うことにより、領域特化型の小規模言語モデルを生成する第1のステップと、
上記コンピュータのデータセット生成部が、上記第1のモデル学習部が上記領域特化型の小規模言語モデルを生成する際に用いた上記特定領域に限定した文章データセットを用いて、特定の表現形態ではない表現形態で記述された入力文章と上記特定の表現形態で記述された出力文章とを含む入出力対の文章から成る文章データセットであって、かつ、上記特定領域の知識を反映した入出力対の文章から成る文章データセットを生成する第2のステップと、
上記コンピュータの第2のモデル学習部が、上記小規模言語モデルからの出力文章が上記特定の表現形態の文章となるように、上記データセット生成部により生成された入出力対の文章から成る文章データセットを用いて表現形態調整に関するタスク特化のための学習を行うことにより、タスク特化型の小規模言語モデルを生成する第3のステップとを有し、
上記小規模言語モデルはランクを設定可能なモデルであり、
上記第1のモデル学習部は、上記領域特化型の小規模言語モデルとして、ランクを64より大きい何れかの値に設定したモデルの学習を行う
ことを特徴とする言語モデル生成方法。