IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ Allganize Japan株式会社の特許一覧

特開2025-114491大規模言語モデルのための学習データを生成する方法及びシステム
<>
  • 特開-大規模言語モデルのための学習データを生成する方法及びシステム 図1
  • 特開-大規模言語モデルのための学習データを生成する方法及びシステム 図2
  • 特開-大規模言語モデルのための学習データを生成する方法及びシステム 図3
  • 特開-大規模言語モデルのための学習データを生成する方法及びシステム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025114491
(43)【公開日】2025-08-05
(54)【発明の名称】大規模言語モデルのための学習データを生成する方法及びシステム
(51)【国際特許分類】
   G06F 18/214 20230101AFI20250729BHJP
   G06N 20/00 20190101ALI20250729BHJP
   G06N 3/0475 20230101ALI20250729BHJP
   G06N 3/10 20060101ALI20250729BHJP
【FI】
G06F18/214
G06N20/00 130
G06N3/0475
G06N3/10
【審査請求】未請求
【請求項の数】10
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024232876
(22)【出願日】2024-12-27
(31)【優先権主張番号】10-2024-0002973
(32)【優先日】2024-01-08
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】520179268
【氏名又は名称】Allganize Japan株式会社
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】シン キビン
(57)【要約】      (修正有)
【課題】大規模言語モデルのための学習データを生成する方法およびシステムを提供する。
【解決手段】学習データ生成方法は、コンテキストのリストを入力受領し、コンテキスト毎に生成型人工知能モデルを利用して質問を生成する工程、前記質問、前記質問に対応する正答コンテキスト及び前記生成型人工知能モデルを利用して前記質問に対する回答を生成し、前記質問、前記正答コンテキスト及び前記回答を含むデータセットを生成する工程、前記データセットに含まれる質問を利用して前記コンテキストのリストから少なくとも一つのネガティブ・コンテキストを選択し、前記正答コンテキスト、前記少なくとも一つのネガティブ・コンテキスト、前記質問及び前記回答を含む増強データセットを生成する工程及び前記増強データセットを利用してプロンプトを生成し、前記回答に前記正答コンテキストのインデックスを結合して学習データを生成する工程を含む。
【選択図】図4
【特許請求の範囲】
【請求項1】
少なくとも一つのプロセッサを含むコンピュータ装置による学習データ生成方法において、
(1)前記少なくとも一つのプロセッサにより、コンテキストのリストを入力受領し、コンテキスト毎に生成型人工知能モデルを利用して質問を生成する工程;
(2)前記少なくとも一つのプロセッサにより、前記質問、前記質問に対応する正答コンテキスト及び前記生成型人工知能モデルを用いて前記質問に対する回答を生成し、前記質問、前記正答コンテキスト及び前記回答を含むデータセットを生成する工程;
(3)前記少なくとも一つのプロセッサにより、前記データセットに含まれる質問を用いて前記コンテキストのリストから少なくとも一つのネガティブ・コンテキストを選択し、前記正答コンテキスト、前記少なくとも一つのネガティブ・コンテキスト、前記質問及び前記回答を含む増強データセットを生成する工程;及び
(4)前記少なくとも一つのプロセッサにより、前記増強データセットを利用してプロンプトを生成し、前記回答に前記正答コンテキストのインデックスを結合して学習データを生成する工程
を含む学習データ生成方法。
【請求項2】
請求項1において、
前記増強データセットを生成する工程は、
スパースリトリーバ又はデンスリトリーバを用いて前記コンテキストのリストから前記少なくとも一つのネガティブ・コンテキストを選択する工程を含むことを特徴とする学習データ生成方法。
【請求項3】
請求項2において、
前記少なくとも一つのネガティブ・コンテキストを選択する工程は、
前記コンテキストのリストから選択されたコンテキストのうち、前記正答コンテキストを除いたコンテキストを前記少なくとも一つのネガティブ・コンテキストとして選択することを特徴とする学習データ生成方法。
【請求項4】
請求項1において、
前記学習データを生成する工程は、
前記増強データセットを利用してRAG(Retrieval-Augmented Generation)においてプ
ロンプトを生成する方式でプロンプトを生成する工程を含むことを特徴とする学習データ生成方法。
【請求項5】
請求項1において、
前記質問、前記正答コンテキスト及び前記回答を含むデータセットは、人物による検証工程を経て前記増強データセットを生成する際に利用されることを特徴とする学習データ生成方法。
【請求項6】
請求項1において、
前記少なくとも一つのプロセッサにより、前記生成された学習データを利用して大規模言語モデルを引用インストラクションに関してファインチューニングする工程をさらに含む学習データ生成方法。
【請求項7】
請求項1から請求項6のいずれか一項の方法を、前記コンピュータ装置に実行させるためにコンピュータ可読記録媒体に記録されるコンピュータプログラム。
【請求項8】
コンピュータ装置において、読み取り可能な命令を実行するように実装される少なくと
も一つのプロセッサを含み、
前記少なくとも一つのプロセッサにより、コンテキストのリストを入力受領し、コンテキスト毎に生成型人工知能モデルを利用して質問を生成し、
前記質問、前記質問に対応する正答コンテキスト及び前記生成型人工知能モデルを利用して前記質問に対する回答を生成し、前記質問、前記正答コンテキスト及び前記回答を含むデータセットを生成し、
前記データセットに含まれる質問を利用して前記コンテキストのリストから少なくとも一つのネガティブ・コンテキストを選択し、前記正答コンテキスト、前記少なくとも一つのネガティブ・コンテキスト、前記質問及び前記回答を含む増強データセットを生成し、
前記増強データセットを利用してプロンプトを生成し、前記回答に前記正答コンテキストのインデックスを結合して学習データを生成すること
を特徴とするコンピュータ装置。
【請求項9】
請求項8において、
前記増強データセットを生成するために、前記少なくとも一つのプロセッサにより、
スパースリトリーバ又はデンスリトリーバを用いて前記コンテキストのリストから前記少なくとも一つのネガティブ・コンテキストを選択すること
を特徴とするコンピュータ装置。
【請求項10】
請求項9において、
前記少なくとも一つのネガティブ・コンテキストを選択するために、前記少なくとも一つのプロセッサにより、
前記コンテキストのリストから選択されたコンテキストのうち、前記正答コンテキストを除いたコンテキストを前記少なくとも一つのネガティブ・コンテキストとして選択すること
を特徴とするコンピュータ装置。
【発明の詳細な説明】
【技術分野】
【0001】
以下の説明は、大規模言語モデルのための学習データを生成する方法及びシステムに関するものである。
【背景技術】
【0002】
大規模言語モデル又は巨大言語モデル(Large Language Models, LLM)とは、自然言語入力に対して人間と同様の応答を生成するために大規模テキストデータの集合で訓練された人工知能の一形態であり、数多くのパラメータ(通常は数十億以上のウェイト)を保持する人工神経網で構成される言語モデルである。これらのLLMは、自己教師あり学習又は
半自己教師あり学習を用いて、ラベリングされていない膨大な量のテキストで学習されうる。
【0003】
一方、オープンソースLLMは、「OpenAI」のChatGPTやDAVINCI、GPT-4などと比較すると、一般的な指示に従う能力が非常に乏しい。その乏しい能力を向上させるためには、オープンソースLLMの学習が要求される。これに関連して、RAG(Retrieval-Augmented Generation)はLLMをより効果的に活用する方法論として、事前訓練されたLLMの長所を外部知識と結合して提供できる。例えば、RAGの基本アイデアは、特定の質問又はテーマに対する
応答を生成する際に、人工知能モデルがリアルタイムで外部知識を参照し、より正確かつ豊富な情報を提供することである。これにより、ハルシネーション(hallucination)を
低減し、より正確な回答を生成できる。RAGを実施するためには、まず知識ベースを作成
する必要がある。質問があれば、その文章も埋め込みに変換し、ベクトルデータベースから最も類似した段落を検索し、検索された段落と質問を共にプロンプトとしてLLMに入力
すると、回答が生成される。
【0004】
このとき、RAGの核心機能のひとつである引用(citation)機能を実施できるようにLLMを学習させるためには、数千、数万の学習データが必要となる。しかし、生成型モデルのための学習データはその特性上、作成が非常に困難である。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】韓国登録特許第10-2551531号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
大規模言語モデルのための学習データを生成する方法及びシステムを提供する。
【課題を解決するための手段】
【0007】
少なくとも一つのプロセッサを含むコンピュータ装置による学習データ生成方法において、前記少なくとも一つのプロセッサにより、コンテキストのリストを入力受領し、コンテキスト毎に生成型人工知能モデルを用いて質問を生成する工程;
前記少なくとも一つのプロセッサにより、前記質問、前記質問に対応する正答コンテキスト及び前記生成型人工知能モデルを利用して前記質問に対する回答を生成し、前記質問、前記正答コンテキスト及び前記回答を含むデータセットを生成する工程;
前記少なくとも一つのプロセッサにより、前記データセットに含まれる質問を用いて前記コンテキストのリストから少なくとも一つのネガティブ・コンテキストを選択し、前記正答コンテキスト、前記少なくとも一つのネガティブ・コンテキスト、前記質問及び前記回答を含む増強データセットを生成する工程;さらに、前記少なくとも一つのプロセッサ
により、前記増強データセットを用いてプロンプトを生成し、前記回答に前記正答コンテキストのインデックスを結合して学習データを生成する工程を含む学習データ生成方法を提供する。
【0008】
一実施形態によれば、前記増強データセットを生成する工程は、スパースリトリーバ(sparse retriever)又はデンスリトリーバ(dense retriever)を用いて前記コンテキス
トのリストから前記少なくとも一つのネガティブ・コンテキストを選択する工程を含むことを特徴とする。
【0009】
別の実施形態によれば、前記少なくとも一つのネガティブ・コンテキストを選択する工程は、前記コンテキストのリストから選択されたコンテキストのうち前記正答コンテキストを除いたコンテキストを前記少なくとも一つのネガティブ・コンテキストとして選択することを特徴とする。
【0010】
さらに別の実施形態によれば、前記学習データを生成する工程は、前記増強データセットを利用してRAG(Retrieval-Augmented Generation)におけるプロンプトを生成する方
式でプロンプトを生成する工程を含むことを特徴とする。
【0011】
また別の実施形態によれば、前記質問、前記正答コンテキスト及び前記回答を含むデータセットは、人物による検証工程を経て前記増強データセットを生成する際に利用されることを特徴とする。
【0012】
さらに別の実施形態によれば、前記学習データ生成方法は、前記少なくとも一つのプロセッサにより、前記生成された学習データを利用して大規模言語モデル(Large Language
Models, LLM)を引用インストラクション(citation instruction)に関してファインチューニングする工程をさらに含むことができる。
【0013】
コンピュータ装置と結合して前記方法をコンピュータ装置上で実行させるために、コンピュータ可読記録媒体に記録されたコンピュータプログラムを提供する。
【0014】
前記方法をコンピュータ装置上で実行させるためのプログラムが記録されているコンピュータ可読記録媒体を提供する。
【0015】
コンピュータ装置において読み取り可能な命令を実行するように実装される少なくとも一つのプロセッサを含み、前記少なくとも一つのプロセッサにより、コンテキストのリストを入力受領し、コンテキスト毎に生成型人工知能モデルを利用して質問を生成し、前記質問、前記質問に対応する正答コンテキスト及び前記生成型人工知能モデルを利用して前記質問に対する回答を生成し、前記質問、前記正答コンテキスト及び前記回答を含むデータセットを生成し、前記データセットに含まれる質問を利用して前記コンテキストのリストから少なくとも一つのネガティブ・コンテキストを選択して前記正答コンテキスト、前記少なくとも一つのネガティブ・コンテキスト、前記質問及び前記回答を含む増強データセットを生成し、前記増強データセットを利用してプロンプトを生成し、前記回答に前記正答コンテキストのインデックスを結合して学習データを生成することを特徴とするコンピュータ装置を提供する。
【発明の効果】
【0016】
本発明の実施形態によれば、大規模言語モデルのための学習データを生成する方法及びシステムを提供できる。
【図面の簡単な説明】
【0017】
図1図1は、本発明の一実施形態によるネットワーク環境の例を示す図である。
図2図2は、本発明の一実施形態によるコンピュータ装置の例を示すブロック図である。
図3図3は、本発明の一実施形態において、学習データ生成システムの概略的な様相の例を示す図である。
図4図4は、本発明の一実施形態による学習データ生成方法の例を示すフローチャートである。
【発明を実施するための形態】
【0018】
以下、付属図面に基づき実施例を詳細に説明する。
【0019】
本発明の実施例による学習データ生成システムは、少なくとも一つのコンピュータ装置により実施される。このとき、学習データ生成システムを実施するコンピュータ装置には本発明の一実施例によるコンピュータプログラムがインストール及び起動され、コンピュータ装置は起動されたコンピュータプログラムの制御に従い本発明の実施例による学習データ生成方法を遂行できる。前述したコンピュータプログラムは、コンピュータ装置と結合して学習データ生成方法をコンピュータ上で実行させるため、コンピュータ可読記録媒体に記録されることがある。
【0020】
図1は、本発明の一実施例によるネットワーク環境の例を示す図である。図1のネットワーク環境は、複数の電子機器(110、120、130、140)、複数のサーバ(150、160)及びネットワーク(170)を含む例を示している。これらは、発明の説明のための一例であり
、電子機器の数やサーバの数が図1に示すように限定されるものではない。
【0021】
複数の電子機器(110、120、130、140)は、コンピュータシステムとして実装される固定型端末又は移動型端末であり得る。例えば、電子機器(110、120、130、140)の例として、スマートフォン、携帯電話、ナビゲーション、コンピュータ、ノートパソコン、デジタル放送用端末、PDA(Personal Digital Assistants)、PMP(Portable Multimedia Player)、タブレットPC、ゲームコンソール、ウェアラブルデバイス、IoT(インターネット・オブ・シングス)デバイス、VR(バーチャルリアリティ)デバイス、AR(拡張現実)デバイスなどが挙げられる。例として、図1では電子機器(110)の例としてスマートフォ
ンの形状が示されているが、本発明の実施例において、電子機器(110)は本質的に無線
又は有線通信方式を用いてネットワーク(170)を通じて他の電子機器(120、130、140)及び/又はサーバ(150、160)と通信可能な各種物理的コンピュータシステムの一つを意
味しうる。
【0022】
通信方式は限定されず、ネットワーク(170)が含み得る通信網(例えば、移動通信網
、有線インターネット、無線インターネット、放送網、衛星網等)を活用する通信方式に加え、機器間の近距離無線通信も含む。例えば、ネットワーク(170)は、PAN(Personal
Area Network)、LAN(Local Area Network)、CAN(Campus Area Network)、MAN(Metropolitan Area Network)、WAN(Wide Area Network)、BBN(Broadband Network)、インターネット等の一つ以上の任意のネットワークを含むことができる。また、ネットワーク(170)はバスネットワーク、スター型ネットワーク、リング型ネットワーク、メッシ
ュネットワーク、スター‐バス型ネットワーク、ツリー又は階層型ネットワーク等、任意の一つ以上のネットワークトポロジーを含むことができるが、これに限定されるものではない。
【0023】
各サーバ(150、160)は、複数の電子機器(110、120、130、140)及びネットワーク(170)を通じ通信し、命令、コード、ファイル、コンテンツ、サービスなどを提供するコ
ンピュータ装置又は複数のコンピュータ装置で実装されうる。例えば、サーバ(150)は
ネットワーク(170)を通じ接続した複数の電子機器(110、120、130、140)に第1のサ
ービスを提供するシステムであり、サーバ(160)もまたネットワーク(170)を通じ接続した複数の電子機器(110、120、130、140)に第2のサービスを提供するシステムである。具体例として、サーバ(150)は複数の電子機器(110、120、130、140)に設置され起
動されるコンピュータプログラムとしてのアプリケーションを通じ、該当アプリケーションが目的とするサービス(例えば、検索サービスなど)を第1のサービスとして複数の電子機器(110、120、130、140)に提供し得る。別の例として、サーバ(160)は前述のア
プリケーションの設置及び起動のためのファイルを複数の電子機器(110、120、130、140)に配布するサービスを第2のサービスとして提供し得る。
【0024】
図2は、本発明の一実施例によるコンピュータ装置の例を示すブロック図である。前記複数の電子機器(110、120、130、140)又は各サーバ(150、160)は、図2に示すコンピュータ装置(200)により実装され得る。
【0025】
このようなコンピュータ装置(200)は、図2に示すように、メモリ(210)、プロセッサ(220)、通信インターフェース(230)及び入出力インターフェース(240)を含むこ
とができる。メモリ(210)は、コンピュータにより読み取り可能な記録媒体であり、RAM(ランダムアクセスメモリ)、ROM(リードオンリーメモリ)及びディスクドライブ等の
不揮発性大容量記録装置(永久記憶装置)を含む。ここで、ROMやディスクドライブ等の
不揮発性大容量記録装置は、メモリ(210)とは区別される独立の恒久保存装置としてコ
ンピュータ装置(200)に含まれる場合がある。また、メモリ(210)には、オペレーティングシステムや少なくとも一つのプログラムコードが記録され得る。これらのソフトウェア構成要素は、メモリ(210)とは別のコンピュータで読み取り可能な記録媒体からメモ
リ(210)にロードされ得る。このような別のコンピュータで読み取り可能な記録媒体に
は、フロッピーディスク、ディスク、テープ、DVD/CD-ROMドライブ、メモリーカード等が含まれる。別の実施例では、ソフトウェア構成要素はコンピュータで読み取り可能な記録媒体ではなく、通信インターフェース(230)を通じメモリ(210)にロードされる場合もある。例えば、ソフトウェア構成要素はネットワーク(170)を通じ受信されるファイル
に基づいてインストールされるコンピュータプログラムにより、コンピュータ装置(200
)のメモリ(210)にロードされ得る。
【0026】
プロセッサ(220)は、基本的な算術、論理及び入出力演算を実施することにより、コ
ンピュータプログラムの命令を処理するよう構成される。命令はメモリ(210)又は通信
インターフェース(230)によりプロセッサ(220)へ提供され得る。例として、プロセッサ(220)は、メモリ(210)等の記録装置に記録されたプログラムコードに基づいて受信した命令を実行するよう構成される。
【0027】
通信インターフェース(230)は、ネットワーク(170)を通じコンピュータ装置(200
)が他の装置(例えば、前述の記録装置等)と相互に通信する機能を提供する。例えば、コンピュータ装置(200)のプロセッサ(220)がメモリ(210)等の記録装置に記録され
たプログラムコードに基づいて生成した要求、命令、データ、ファイル等が、通信インターフェース(230)の制御に基づいてネットワーク(170)を通じ他の装置へ送信され得る。逆に、他の装置からの信号、命令、データ、ファイル等がネットワーク(170)を介し
てコンピュータ装置(200)の通信インターフェース(230)により受信され得る。通信インターフェース(230)を通じ受信された信号や命令、データ等はプロセッサ(220)やメモリ(210)に転送され、ファイル等はコンピュータ装置(200)がさらに含むことのできる保存媒体(前述の永久記憶装置)に保存され得る。
【0028】
入出力インターフェース(240)は、入出力装置(250)とのインターフェース手段となる。例として、入力装置はマイク、キーボード又はマウス等の装置を、また出力装置はデ
ィスプレイ、スピーカー等の装置を含む。別の例では、入出力インターフェース(240)
は、入力と出力の機能が一体となったタッチスクリーン等の装置とのインターフェース手段となり得る。入出力装置(250)は、コンピュータ装置(200)と一体化した装置で実装され得る。
【0029】
また、別の実施例において、コンピュータ装置(200)は図2に示す構成要素よりも少
ない又は多い構成要素を含むことができる。しかしながら、通常技術文献で記載される構成要素を明示的に示す必要はない。例えば、コンピュータ装置(200)は前述の入出力装
置(250)のうち少なくとも一部を含むように実装される場合や、又はトランシーバ(transceiver)、データベース等の他の構成要素をさらに含むことができる。
【0030】
オープンソースとして提供される大規模言語モデル又は巨大言語モデル(Large Language Models, LLM)は、事前学習及びSFT(Supervised Fine Tuning)を通じ学習され得る
。ここで、事前学習は例えば、文書内容の一部を見て文書全体を生成するタスクによる学習を含み、SFTは与えられたインストラクション(instruction)に従った内容を生成するタスクによる学習を含む。このとき、SFTを通じインストラクション自体は学習されない
が、SFTの過程においてインストラクションに従う能力が学習され得る。
【0031】
一方、LLMをより効果的に活用する方法論の一つであるRAG(Retrieval-Augmented Generation)においては、回答の出典を明示する引用(citation)インストラクションが非常に重要である。下表1は引用プロンプトの例を示している。
【0032】
【表1】
【0033】
表1において下線部が引用インストラクションの例である。
【0034】
図3は、本発明の一実施例において、学習データ生成システムの概略的な様相の例を示す図である。本実施例による学習データ生成システム(300)は、図2にて説明したコン
ピュータ装置(200)により実装される。
【0035】
原データ(raw data, 310)が与えられたとき、原データ(310)を適当な単位に分割したものをコンテキスト(context)と命名する。この場合、学習データ生成システム(300)にはコンテキストのリスト(320)が入力され得る。このとき、学習データ生成システ
ム(300)は入力されるコンテキストのリスト(320)に基づいて学習データを生成できる。
【0036】
学習データ生成システム(300)は、生成型人工知能モデル(330)を用いて、コンテキストのリスト(320)に含まれる各コンテキストに対し質問を生成できる。生成型人工知
能モデル(330)としては、例としてGPT-4など良く知られたモデルが利用され得る。その後、学習データ生成システム(300)は、生成された質問とそれに対応するコンテキスト
、さらに生成型人工知能モデル(330)を用いて、質問に対応する回答を生成できる。こ
れにより、(コンテキスト、質問、回答)のデータが生成され得る。これらのデータは生成型人工知能モデル(330)を通じ機械的に生成されるため、十分な量のデータが生成さ
れる。このデータをシルバーデータ(silver data)と命名する。
【0037】
シルバーデータは、人物(例えば、検証者(340))により検証され得、人物により検
証されたデータをゴールドデータ(gold data)と命名する。
【0038】
その後、学習データ生成システム(300)は、コンテキストのリスト(320)を適切なストレージ(例えば、ストレージ(350))に保存できる。その後、学習データ生成システ
ム(300)はゴールドデータの質問を用いて、コンテキストのリスト(320)から質問に関連するコンテキストを選択できる。この過程において、学習データ生成システム(300)
は、元々の質問と回答を生成したコンテキスト(正答コンテキスト)を除いたn(nは自然数)個のコンテキストをネガティブ・コンテキストとして選択できる。これにより、(正答コンテキスト、n個のネガティブ・コンテキスト、質問、回答)のデータが生成され得る。このデータを増強されたゴールドデータ(Augmented gold data)と命名する。
【0039】
この場合、学習データ生成システム(300)は、従来のRAGにおけるプロンプト生成方式を用いて、増強されたゴールドデータからプロンプトを生成でき、回答には正答コンテキストのインデックスを結合して学習データを生成できる。
【0040】
以下の表2は、増強されたゴールドデータを利用して生成されるプロンプト(増強されたゴールドプロンプト)の例を示している。
【0041】
【表2】
【0042】
表2において、回答部分は下線により、特に引用インストラクションに従うよう追加された部分((ID: 2)の部分)が太字で表示されている。ここで、(ID: 2)は対応するコンテキストのインデックスを意味し、前述の回答に正答コンテキストのインデックスが結合されたことについて説明した。
【0043】
学習データ生成システム(300)を通じ生成された増強されたゴールドデータを学習デ
ータとして用い、LLMをファインチューニングする場合、LLMが引用プロンプトを正しく理解し引用インストラクションに従うよう学習させることができる。
【0044】
図4は、本発明の一実施例による学習データ生成方法の例を示すフローチャートである。本実施例による学習データ生成方法は、前述の学習データ生成システム(300)を実装
するコンピュータ装置(200)により遂行され得る。このとき、コンピュータ装置(200)のプロセッサ(220)は、メモリ(210)に含まれるオペレーティングシステムのコード又は少なくとも一つのコンピュータプログラムのコードに基づく制御命令(instruction)
を実行するよう実装される。ここで、プロセッサ(220)は、コンピュータ装置(200)に保存されたコードが提供する制御命令に従い、図4の方法に含まれる工程(410から440)を遂行するようコンピュータ装置(200)を制御できる。
【0045】
工程(410)において、コンピュータ装置(200)はコンテキストのリストを入力受領し、コンテキスト毎に生成型人工知能モデルを用いて質問を生成できる。前述の通り、生成型人工知能モデルとしてはGPT-4など市販の生成型人工知能モデルが利用され得る。
【0046】
工程(420)において、コンピュータ装置(200)は、質問、質問に対応する正答コンテキスト及び生成型人工知能モデルを用いて質問に対する回答を生成し、質問、正答コンテキスト及び回答を含むデータセットを生成できる。生成されたデータセットは前述のシルバーデータに相当し、シルバーデータは人物による検証工程を経ることができる。既に述べた通り、検証されたシルバーデータはゴールドデータに相当し、工程(430)で説明す
るデータセットは人物による検証工程を経たゴールドデータに相当する。
【0047】
工程(430)において、コンピュータ装置(200)は、データセットに含まれる質問を利用して、前記コンテキストのリストから少なくとも一つのネガティブ・コンテキストを選択し、正答コンテキスト、少なくとも一つのネガティブ・コンテキスト、質問及び回答を含む増強データセットを生成できる。例として、コンピュータ装置(200)はスパースリ
トリーバ又はデンスリトリーバを用いて、前記コンテキストのリストから少なくとも一つのネガティブ・コンテキストを選択できる。この場合、コンピュータ装置(200)は、コ
ンテキストのリストから選択されたコンテキストのうち正答コンテキストを除いたものを、少なくとも一つのネガティブ・コンテキストとして選択できる。
【0048】
工程(440)において、コンピュータ装置(200)は増強されたデータセットを用いてプロンプトを生成し、回答に正答コンテキストのインデックスを結合して学習データを生成できる。例として、コンピュータ装置(200)は増強されたデータセットを用い、RAGにおけるプロンプト生成方式でプロンプトを生成できる。
【0049】
実施例によれば、コンピュータ装置(200)は生成された学習データを利用して大規模
言語モデルを直接引用インストラクションに関してファインチューニングできる。別の実施例では、大規模言語モデルのファインチューニングはコンピュータ装置(200)とは別
の物理的電子機器を通じて実施され得る。例として、コンピュータ装置(200)と別の物
理的電子機器は、ネットワーク(例:ネットワーク(170))を介して通信し、コンピュ
ータ装置(200)で生成された学習データが別の物理的電子機器へ伝達され得る。
【0050】
このように、本発明の実施例によれば、LLMのための学習データを生成する方法及びシ
ステムを提供できる。
【0051】
以上に説明したシステム又は装置は、ハードウェア構成要素、又はハードウェア構成要素とソフトウェア構成要素とを組み合わせて実装され得る。例えば、実施例で説明した装置及び構成要素は、例として、プロセッサ、コントローラ、ALU(算術論理演算ユニット
)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(Field Programmable Gate Array)、PLU(Programmable Logic Unit)、マイクロプロセッサ、又は命令を実行して
応答するその他のいかなる装置、すなわち一個以上の汎用コンピュータ又は専用コンピュ
ータを用いて実装され得る。処理装置は、オペレーティングシステム(OS)及び当該OS上で実行される一個以上のソフトウェアアプリケーションを実行できる。また、処理装置はソフトウェアの実行に応答し、データのアクセス、保存、操作、処理及び生成を行うことができる。理解を容易にするため、一個の処理装置として説明される場合があるが、本技術分野に精通した者は処理装置が複数の処理要素及び/又は複数種類の処理要素を含み得ることが理解できる。例えば、処理装置は複数のプロセッサ又は一つのプロセッサと一個のコントローラを含み得る。また、並列プロセッサ等、他の処理構成も可能である。
【0052】
ソフトウェアは、コンピュータプログラム、コード、命令、又はこれらの一つ以上の組み合わせを含み、希望に応じて処理装置を動作させるように構成するか、独立的又は結合して処理装置に命令を与えることができる。ソフトウェア及び/又はデータは、処理装置により解釈されるか、又は処理装置に命令又はデータを提供するために、いかなる種類の機械的構成要素、物理的装置、仮想装置、コンピュータ記憶媒体又は装置に具現化され得る。ソフトウェアは、ネットワーク接続されたコンピュータシステム上に分散して、分散方法で記録又は実行され得る。また、ソフトウェア及びデータは、一個以上のコンピュータ可読記録媒体に記録され得る。
【0053】
実施例に係る方法は、各種コンピュータ手段を通じて遂行可能なプログラム命令の形態で実装され、コンピュータ可読媒体に記録され得る。前記コンピュータ可読媒体は、プログラム命令、データファイル、データ構造等を単独又は組み合わせて含むことができる。媒体は、コンピュータ上で実行可能なプログラムを継続的に記録するもの、又は実行又はダウンロードのために一時保存するものでもよい。また、媒体は、一個又は複数のハードウェアが結合された形態の各種記録手段又は保存手段であり、特定のコンピュータシステムに直接接続される媒体に限定されず、ネットワーク上に分散して存在することもあり得る。媒体の例としては、ハードディスク、フロッピーディスク、磁気テープといった磁気媒体、CD-ROM、DVDなどの光媒体、フロプティカルディスクといった磁気-光媒体、並びにROM、RAM、フラッシュメモリなどがあり、これらはプログラム命令が記録可能な装置となり得る。また、他の媒体の例として、アプリケーションを流通するアプリストアやその他各種ソフトウェアを供給又は流通するサイト、サーバ等で管理される記録媒体又は保存媒体が挙げられる。プログラム命令の例には、コンパイラにより生成された機械語コードのみならず、インタプリタ等を使用してコンピュータで実行可能な高級言語コードが含まれる。
【0054】
以上の実施例は、たとえ限定された実施例及び図面によって説明されているに過ぎないが、本技術分野に精通した者であれば、上述の記載から様々な変更及び修正が可能である。例えば、説明された技術は、説明された方法と異なる順序で実施され得るし、及び/又は説明されたシステム、構造、装置、回路等の構成要素が説明された方法と異なる形態で結合又は組み合わせられる、又は他の構成要素又は同等体により置換されたとしても、適切な結果が得られる。
【0055】
よって、その他の実施例、他の実施形態及び請求範囲と同等なものも、後述する請求範囲の範囲に属する。
図1
図2
図3
図4
【外国語明細書】