IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2024-156990問題解答モデルのトレーニング及び問題解答方法、装置
<>
  • 特開-問題解答モデルのトレーニング及び問題解答方法、装置 図1
  • 特開-問題解答モデルのトレーニング及び問題解答方法、装置 図2
  • 特開-問題解答モデルのトレーニング及び問題解答方法、装置 図3
  • 特開-問題解答モデルのトレーニング及び問題解答方法、装置 図4
  • 特開-問題解答モデルのトレーニング及び問題解答方法、装置 図5
  • 特開-問題解答モデルのトレーニング及び問題解答方法、装置 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024156990
(43)【公開日】2024-11-06
(54)【発明の名称】問題解答モデルのトレーニング及び問題解答方法、装置
(51)【国際特許分類】
   G06F 40/216 20200101AFI20241029BHJP
   G06N 20/00 20190101ALI20241029BHJP
   G06F 40/44 20200101ALI20241029BHJP
   G06F 40/56 20200101ALI20241029BHJP
【FI】
G06F40/216
G06N20/00
G06F40/44
G06F40/56
【審査請求】有
【請求項の数】21
【出願形態】OL
【公開請求】
(21)【出願番号】P 2024135383
(22)【出願日】2024-08-14
(31)【優先権主張番号】202311763895.X
(32)【優先日】2023-12-20
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】ヘ、フェン
(72)【発明者】
【氏名】ワン、ジアンフア
(72)【発明者】
【氏名】オウ、ジュンジエ
(72)【発明者】
【氏名】フアン、ピンシュアン
(72)【発明者】
【氏名】フェン、ジファン
(72)【発明者】
【氏名】クイ、シャオペン
(72)【発明者】
【氏名】シェ、クィアオクィアオ
(72)【発明者】
【氏名】ウ、フア
(57)【要約】      (修正有)
【課題】問題解答モデルのトレーニング方法、装置及び問題解答方法を提供する。
【解決手段】問題解答モデルのトレーニング方法は、第1のサンプル問題を取得するステップと、第1のサンプル問題と解答ステップキャプチャテンプレートを大規模言語モデルに入力し第1のサンプル解答ステップを取得するステップと、第1のサンプル問題、第1のサンプル解答ステップ及び回答キャプチャテンプレートを大規模言語モデルに入力し第1のサンプル回答を取得するステップと、第1のサンプル問題と第1のサンプル解答ステップに基づいてステップ計画モデルに対して事前トレーニングを行うステップと、第1のサンプル問題、第1のサンプル解答ステップ、及び第1のサンプル回答に基づいて大規模言語モデルに対して事前トレーニングを行うステップと、事前トレーニングされたステップ計画モデルと大規模言語モデルに基づいて、問題解答モデルを取得するステップと、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
問題解答モデルのトレーニング方法であって、
第1のサンプル問題を取得するステップと、
前記第1のサンプル問題と解答ステップキャプチャテンプレートを大規模言語モデルに入力し、前記大規模言語モデルによって出力された第1のサンプル解答ステップを取得するステップと、
前記第1のサンプル問題、前記第1のサンプル解答ステップ及び回答キャプチャテンプレートを前記大規模言語モデルに入力し、前記大規模言語モデルによって出力された第1のサンプル回答を取得するステップと、
前記第1のサンプル問題と前記第1のサンプル解答ステップに基づいて、ステップ計画モデルに対して事前トレーニングを行うステップと、
前記第1のサンプル問題、前記第1のサンプル解答ステップ、及び前記第1のサンプル回答に基づいて、前記大規模言語モデルに対して事前トレーニングを行うステップと、
事前トレーニングされたステップ計画モデルと事前トレーニングされた大規模言語モデルに基づいて、問題解答モデルを取得するステップと、を含む、
問題解答モデルのトレーニング方法。
【請求項2】
前記第1のサンプル問題、前記第1のサンプル解答ステップ、前記第1のサンプル回答、及びデータ評価テンプレートを前記大規模言語モデルに入力し、前記大規模言語モデルによって出力されたデータ評価結果を取得するステップと、
前記データ評価結果が予め設定された要求を満たすと決定された場合、前記第1のサンプル問題、前記第1のサンプル解答ステップ、及び前記第1のサンプル回答を事前トレーニングデータとするステップと、をさらに含む、
請求項1に記載の問題解答モデルのトレーニング方法。
【請求項3】
前記第1のサンプル問題、前記第1のサンプル解答ステップ、及び前記第1のサンプル回答を事前トレーニングデータとするステップは、
前記第1のサンプル問題をデータ生成モデルに入力し、前記データ生成モデルによって出力された候補解答ステップ及び/又は候補回答を取得するステップと、
前記候補解答ステップが前記第1のサンプル解答ステップと類似すること、及び/又は前記候補回答が前記第1のサンプル回答と類似することが決定された場合、前記第1のサンプル問題、前記第1のサンプル解答ステップ、及び前記第1のサンプル回答を前記事前トレーニングデータとするステップと、を含む、
請求項2に記載の問題解答モデルのトレーニング方法。
【請求項4】
前記事前トレーニングされたステップ計画モデルと大規模言語モデルに基づいて、問題解答モデルを取得するステップは、
第2のサンプル問題を取得し、前記第2のサンプル問題の問題タイプを決定するステップと、
前記問題タイプに対応する解答ステップを、前記第2のサンプル問題の第2のサンプル解答ステップとして取得するステップと、
前記第2のサンプル問題と前記第2のサンプル解答ステップに基づいて、事前トレーニングされたステップ計画モデルに対して監督微調整を行うステップと、
事前トレーニングされた大規模言語モデルと監督微調整によって取得されたステップ計画モデルに基づいて、前記問題解答モデルを取得するステップと、を含む、
請求項1に記載の問題解答モデルのトレーニング方法。
【請求項5】
前記事前トレーニングされたステップ計画モデルと大規模言語モデルに基づいて、問題解答モデルを取得するステップは、
第2のサンプル問題を取得し、前記第2のサンプル問題の問題タイプを決定するステップと、
前記問題タイプに対応する解答ステップを、前記第2のサンプル問題の第2のサンプル解答ステップとして取得するステップと、
前記第2のサンプル解答ステップの解答ステップタイプを決定し、前記解答ステップタイプに対応する回答を、前記第2のサンプル問題の第2のサンプル回答として取得するステップと、
前記第2のサンプル問題、前記第2のサンプル解答ステップ、及び前記第2のサンプル回答に基づいて、事前トレーニングされた大規模言語モデルに対して監督微調整を行うステップと、
事前トレーニングされたステップ計画モデルと監督微調整によって取得された大規模言語モデルに基づいて、前記問題解答モデルを取得するステップと、を含む、
請求項1に記載の問題解答モデルのトレーニング方法。
【請求項6】
前記事前トレーニングされたステップ計画モデルと大規模言語モデルに基づいて、問題解答モデルを取得するステップは、
第2のサンプル問題を取得し、前記第2のサンプル問題の問題タイプを決定するステップと、
前記問題タイプに対応する解答ステップを、前記第2のサンプル問題の第2のサンプル解答ステップとして取得するステップと、
前記第2のサンプル解答ステップの解答ステップタイプを決定し、前記解答ステップタイプに対応する回答を、前記第2のサンプル問題の第2のサンプル回答として取得するステップと、
前記第2のサンプル問題と前記第2のサンプル解答ステップに基づいて、事前トレーニングされたステップ計画モデルに対して監督微調整を行うステップと、
前記第2のサンプル問題、前記第2のサンプル解答ステップ、及び前記第2のサンプル回答に基づいて、事前トレーニングされた大規模言語モデルに対して監督微調整を行うステップと、
監督微調整によって取得されたステップ計画モデルと大規模言語モデルに基づいて、前記問題解答モデルを取得するステップと、を含む、
請求項1に記載の問題解答モデルのトレーニング方法。
【請求項7】
前記第1のサンプル問題と前記第1のサンプル解答ステップに基づいて、ステップ計画モデルに対して事前トレーニングを行うステップは、
前記第1のサンプル問題を前記ステップ計画モデルに入力し、前記ステップ計画モデルによって出力された第1の予測解答ステップを取得するステップと、
前記第1のサンプル解答ステップと前記第1の予測解答ステップに基づいて第1の損失関数値を取得するステップと、
前記第1の損失関数値に基づいて前記ステップ計画モデルのパラメータを調整して、事前トレーニング後のステップ計画モデルを取得するステップと、を含む、
請求項1に記載の問題解答モデルのトレーニング方法。
【請求項8】
前記第1のサンプル問題、前記第1のサンプル解答ステップ、及び前記第1のサンプル回答に基づいて、前記大規模言語モデルに対して事前トレーニングを行うステップは、
前記第1のサンプル問題と前記第1のサンプル解答ステップを前記大規模言語モデルに入力し、前記大規模言語モデルによって出力された第1の予測回答を取得するステップと、
前記第1のサンプル回答と前記第1の予測回答に基づいて第2の損失関数値を取得するステップと、
前記第2の損失関数値に基づいて前記大規模言語モデルのパラメータを調整して、事前トレーニング後の大規模言語モデルを取得するステップと、を含む、
請求項1に記載の問題解答モデルのトレーニング方法。
【請求項9】
問題解答方法であって、
解答すべき問題を取得するステップと、
前記解答すべき問題を問題解答モデルにおけるステップ計画モデルに入力し、前記ステップ計画モデルによって出力された解答ステップを取得するステップと、
前記解答すべき問題と前記解答ステップを前記問題解答モデルにおける大規模言語モデルに入力し、前記大規模言語モデルによって出力された回答を取得するステップと、を含み、
前記問題解答モデルは、請求項1から8のいずれか1項に記載の方法に基づいてトレーニングされたものである、
問題解答方法。
【請求項10】
問題解答モデルのトレーニング装置であって、
第1のサンプル問題を取得するための第1の取得ユニットと、
前記第1のサンプル問題と解答ステップキャプチャテンプレートを大規模言語モデルに入力し、前記大規模言語モデルによって出力された第1のサンプル解答ステップを取得するための第1の処理ユニットと、
前記第1のサンプル問題、前記第1のサンプル解答ステップ及び回答キャプチャテンプレートを前記大規模言語モデルに入力し、前記大規模言語モデルによって出力された第1のサンプル回答を取得するための第2の処理ユニットと、
前記第1のサンプル問題と前記第1のサンプル解答ステップに基づいて、ステップ計画モデルに対して事前トレーニングを行うための第1の事前トレーニングユニットと、
前記第1のサンプル問題、前記第1のサンプル解答ステップ、及び前記第1のサンプル回答に基づいて、前記大規模言語モデルに対して事前トレーニングを行うための第2の事前トレーニングユニットと、
事前トレーニングされたステップ計画モデルと事前トレーニングされた大規模言語モデルに基づいて、問題解答モデルを取得するための構築ユニットと、を含む、
問題解答モデルのトレーニング装置。
【請求項11】
前記第2の処理ユニットは、さらに、
前記第1のサンプル問題、前記第1のサンプル解答ステップ、前記第1のサンプル回答、及びデータ評価テンプレートを前記大規模言語モデルに入力し、前記大規模言語モデルによって出力されたデータ評価結果を取得し、
前記データ評価結果が予め設定された要求を満たすと決定された場合、前記第1のサンプル問題、前記第1のサンプル解答ステップ、及び前記第1のサンプル回答を事前トレーニングデータとするために用いられる、
請求項10に記載の問題解答モデルのトレーニング装置。
【請求項12】
前記第2の処理ユニットは、前記第1のサンプル問題、前記第1のサンプル解答ステップ、及び前記第1のサンプル回答を事前トレーニングデータとする時、具体的には、
前記第1のサンプル問題をデータ生成モデルに入力し、前記データ生成モデルによって出力された候補解答ステップ及び/又は候補回答を取得し、
前記候補解答ステップが前記第1のサンプル解答ステップと類似すること、及び/又は前記候補回答が前記第1のサンプル回答と類似することが決定された場合、前記第1のサンプル問題、前記第1のサンプル解答ステップ、及び前記第1のサンプル回答を前記事前トレーニングデータとする、
請求項11に記載の問題解答モデルのトレーニング装置。
【請求項13】
前記構築ユニットは、事前トレーニングされたステップ計画モデルと大規模言語モデルに基づいて、問題解答モデルを取得する時、具体的には、
第2のサンプル問題を取得し、前記第2のサンプル問題の問題タイプを決定し、
前記問題タイプに対応する解答ステップを、前記第2のサンプル問題の第2のサンプル解答ステップとして取得し、
前記第2のサンプル問題と前記第2のサンプル解答ステップに基づいて、事前トレーニングされたステップ計画モデルに対して監督微調整を行い、
事前トレーニングされた大規模言語モデルと監督微調整によって取得されたステップ計画モデルに基づいて、前記問題解答モデルを取得する、
請求項10に記載の問題解答モデルのトレーニング装置。
【請求項14】
前記構築ユニットは、事前トレーニングされたステップ計画モデルと大規模言語モデルに基づいて、問題解答モデルを取得する時、具体的には、
第2のサンプル問題を取得し、前記第2のサンプル問題の問題タイプを決定するステップと、
前記問題タイプに対応する解答ステップを、前記第2のサンプル問題の第2のサンプル解答ステップとして取得し、
前記第2のサンプル解答ステップの解答ステップタイプを決定し、前記解答ステップタイプに対応する回答を、前記第2のサンプル問題の第2のサンプル回答として取得し、
前記第2のサンプル問題、前記第2のサンプル解答ステップ、及び前記第2のサンプル回答に基づいて、事前トレーニングされた大規模言語モデルに対して監督微調整を行い、
事前トレーニングされたステップ計画モデルと監督微調整によって取得された大規模言語モデルに基づいて、前記問題解答モデルを取得する、
請求項10に記載の問題解答モデルのトレーニング装置。
【請求項15】
前記構築ユニットは、事前トレーニングされたステップ計画モデルと大規模言語モデルに基づいて、問題解答モデルを取得する時、具体的には、
第2のサンプル問題を取得し、前記第2のサンプル問題の問題タイプを決定するステップと、
前記問題タイプに対応する解答ステップを、前記第2のサンプル問題の第2のサンプル解答ステップとして取得し、
前記第2のサンプル解答ステップの解答ステップタイプを決定し、前記解答ステップタイプに対応する回答を、前記第2のサンプル問題の第2のサンプル回答として取得し、
前記第2のサンプル問題と前記第2のサンプル解答ステップに基づいて、事前トレーニングされたステップ計画モデルに対して監督微調整を行い、
前記第2のサンプル問題、前記第2のサンプル解答ステップ、及び前記第2のサンプル回答に基づいて、事前トレーニングされた大規模言語モデルに対して監督微調整を行い、
監督微調整によって取得されたステップ計画モデルと大規模言語モデルに基づいて、前記問題解答モデルを取得する、
請求項10に記載の問題解答モデルのトレーニング装置。
【請求項16】
前記第1の事前トレーニングユニットは、前記第1のサンプル問題と前記第1のサンプル解答ステップに基づいて、ステップ計画モデルに対して事前トレーニングを行う時、具体的には、
前記第1のサンプル問題を前記ステップ計画モデルに入力し、前記ステップ計画モデルによって出力された第1の予測解答ステップを取得し、
前記第1のサンプル解答ステップと前記第1の予測解答ステップに基づいて第1の損失関数値を取得し、
前記第1の損失関数値に基づいて前記ステップ計画モデルのパラメータを調整して、事前トレーニング後のステップ計画モデルを取得する、
請求項10に記載の問題解答モデルのトレーニング装置。
【請求項17】
前記第2の事前トレーニングユニットは、前記第1のサンプル問題、前記第1のサンプル解答ステップ、及び前記第1のサンプル回答に基づいて、前記大規模言語モデルに対して事前トレーニングを行う時、具体的には、
前記第1のサンプル問題と前記第1のサンプル解答ステップを前記大規模言語モデルに入力し、前記大規模言語モデルによって出力された第1の予測回答を取得し、
前記第1のサンプル回答と前記第1の予測回答に基づいて第2の損失関数値を取得し、
前記第2の損失関数値に基づいて前記大規模言語モデルのパラメータを調整して、事前トレーニング後の大規模言語モデルを取得する、
請求項10に記載の問題解答モデルのトレーニング装置。
【請求項18】
問題解答装置であって、
解答すべき問題を取得するための第2の取得ユニットと、
前記解答すべき問題を問題解答モデルにおけるステップ計画モデルに入力し、前記ステップ計画モデルによって出力された解答ステップを取得するための第1の解答ユニットと、
前記解答すべき問題と前記解答ステップを前記問題解答モデルにおける大規模言語モデルに入力し、前記大規模言語モデルによって出力された回答を取得するための第2の解答ユニットと、を含み、
前記問題解答モデルは、請求項10から17のいずれか1項に記載の装置に基づいてトレーニングされたものである、
問題解答装置。
【請求項19】
電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されるメモリと、を含み、
前記メモリには前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが請求項1から8のいずれかの1つに記載の方法を実行する、
電子機器。
【請求項20】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項1から8のいずれかの1つに記載の方法を実行させる、
非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項21】
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行される場合、請求項1から8のいずれかの1つに記載の方法を実現する、
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータ技術分野に関し、特に、大モデル、自然言語処理、ディープラーニングなどの手動で知能技術分野に関する。問題解答モデルのトレーニング及び問題解答方法、装置、電子機器及び読み取り可能な記憶媒体を提供する。
【背景技術】
【0002】
大規模言語モデル(Large Language Model,LLM)とは、大量のテキストデータを使用してタトレーニングして取得したディープラーニングモデルであり、自然言語テキストを生成したり、又は自然言語テキストの意味を理解したりすることができる。大規模言語モデルは、一定の推論能力があり、大規模言語モデルは入力された問題を解答して、問題の回答を取得することができる。しかし、従来技術における大規模言語モデルは、推論によって問題を解答する際に、取得された回答の精度が低いという問題がある。
【発明の概要】
【課題を解決するための手段】
【0003】
本開示の第1の態様によれば、問題解答モデルのトレーニング方法を提供し、第1のサンプル問題を取得するステップと、前記第1のサンプル問題と解答ステップキャプチャテンプレートを大規模言語モデルに入力し、前記大規模言語モデルによって出力された第1のサンプル解答ステップを取得するステップと、前記第1のサンプル問題、前記第1のサンプル解答ステップ及び回答キャプチャテンプレートを前記大規模言語モデルに入力し、前記大規模言語モデルによって出力された第1のサンプル回答を取得するステップと、前記第1のサンプル問題と前記第1のサンプル解答ステップに基づいて、ステップ計画モデルに対して事前トレーニングを行うステップと、前記第1のサンプル問題、前記第1のサンプル解答ステップ、及び前記第1のサンプル回答に基づいて、前記大規模言語モデルに対して事前トレーニングを行うステップと、事前トレーニングされたステップ計画モデルと大規模言語モデルに基づいて、問題解答モデルを取得するステップと、を含む。
【0004】
本開示の第2の態様によれば、問題解答方法を提供し、解答すべき問題を取得するステップと、前記解答すべき問題を問題解答モデルにおけるステップ計画モデルに入力し、前記ステップ計画モデルによって出力された解答ステップを取得するステップと、前記解答すべき問題と前記解答ステップを前記問題解答モデルにおける大規模言語モデルに入力し、前記大規模言語モデルによって出力された回答を取得するステップと、を含む。
【0005】
本開示の第3の態様によれば、問題解答モデルのトレーニング装置を提供し、第1のサンプル問題を取得するための第1の取得ユニットと、前記第1のサンプル問題と解答ステップキャプチャテンプレートを大規模言語モデルに入力し、前記大規模言語モデルによって出力された第1のサンプル解答ステップを取得するための第1の処理ユニットと、前記第1のサンプル問題、前記第1のサンプル解答ステップ及び回答キャプチャテンプレートを前記大規模言語モデルに入力し、前記大規模言語モデルによって出力された第1のサンプル回答を取得するための第2の処理ユニットと、前記第1のサンプル問題と前記第1のサンプル解答ステップに基づいて、ステップ計画モデルに対して事前トレーニングを行うための第1の事前トレーニングユニットと、前記第1のサンプル問題、前記第1のサンプル解答ステップ、及び前記第1のサンプル回答に基づいて、前記大規模言語モデルに対して事前トレーニングを行うための第2の事前トレーニングユニットと、事前トレーニングされたステップ計画モデルと大規模言語モデルに基づいて、問題解答モデルを取得するための構築ユニットと、を含む。
【0006】
本開示の第4の態様によれば、問題解答装置を提供し、解答すべき問題を取得するための第2の取得ユニットと、前記解答すべき問題を問題解答モデルにおけるステップ計画モデルに入力し、前記ステップ計画モデルによって出力された解答ステップを取得するための第1の解答ユニットと、前記解答すべき問題と前記解答ステップを前記問題解答モデルにおける大規模言語モデルに入力し、前記大規模言語モデルによって出力された回答を取得するための第2の解答ユニットと、を含む。
【0007】
本開示の第5の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されるメモリと、を含み、
前記メモリには前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが前記方法を実行する。
【0008】
本開示の第6の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに前記方法を実行する。
【0009】
本開示の第7の態様によれば、コンピュータプログラム製品を提供し、コンピュータプログラムを含み、前記コンピュータプログラムは、プロセッサによって実行された場合、前記方法を実現する。
【0010】
本明細書で説明された内容は、本開示の実施例のキーまたは重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。
【図面の簡単な説明】
【0011】
図面は、本出願をより良く理解するためのものであり、本出願を限定しない。
図1】本開示の第1の実施例による概略図である。
図2】本開示の第2の実施例による概略図である。
図3】本開示の第3の実施例による概略図である。
図4】本開示の第4の実施例による概略図である。
図5】本開示の第5の実施例による概略図である。
図6】本開示の実施例の問題解答モデルのトレーニング方法又は問題解答方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0012】
以下、図面に基づいて、本出願の例示の実施例を説明する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
【0013】
図1は本開示の第1の実施例による概略図である。図1に示すように、本実施例の問題解答モデルのトレーニング方法は、具体的には、以下のステップを含み、
S101、第1のサンプル問題を取得し、
S102、前記第1のサンプル問題と解答ステップキャプチャテンプレートを大規模言語モデルに入力し、前記大規模言語モデルによって出力された第1のサンプル解答ステップを取得し、
S103、前記第1のサンプル問題、前記第1のサンプル解答ステップ及び回答キャプチャテンプレートを前記大規模言語モデルに入力し、前記大規模言語モデルによって出力された第1のサンプル回答を取得し、
S104、前記第1のサンプル問題と前記第1のサンプル解答ステップに基づいて、ステップ計画モデルに対して事前トレーニングを行い、
S105、前記第1のサンプル問題、前記第1のサンプル解答ステップ、及び前記第1のサンプル回答に基づいて、前記大規模言語モデルに対して事前トレーニングを行い、
S106、事前トレーニングされたステップ計画モデルと大規模言語モデルに基づいて、問題解答モデルを取得する。
【0014】
本実施例の問題解答モデルのトレーニング方法は、一態様によれば、第1のサンプル問題及び予め設定された解答ステップキャプチャテンプレート、回答キャプチャテンプレートに基づいて、大規模言語モデルを使用して第1のサンプル解答ステップと第1のサンプル回答をそれぞれ取得し、大規模言語モデルに基づいて事前トレーニングデータを取得する目的を実現し、事前トレーニングデータの取得コストを低減させることができ、別の態様によれば、事前トレーニングデータにおける第1のサンプル問題に対応する第1のサンプル解答ステップと組み合わせて大規模言語モデルに対して事前トレーニングを行っえ、大規模言語モデルが問題と解答ステップの間のつながりに基づいて問題に対応する回答を生成することができ、これにより、大規模言語モデルの事前トレーニング効果を向上させ、問題解答モデルにおける大規模言語モデルがより正確な回答を生成することができる。
【0015】
本実施例はS101を実行する時、インターネットから発掘された問題を、第1のサンプル問題とすることができ、本実施例は取得された第1のサンプル問題の数を限定せず、1つであってもよいし、複数であってもよい。
【0016】
本実施例はS101を実行して第1のサンプル問題を取得する時、さらに、当該第1のサンプル問題に対応する答えを取得することもできる。
【0017】
本実施例はS101を実行して第1のサンプル問題を取得した後、S102を実行して第1のサンプル問題と解答ステップキャプチャテンプレートを大規模言語モデルに入力し、大規模言語モデルによって出力された第1のサンプル解答ステップを取得し、本実施例の取得された第1のサンプル解答ステップは、第1のサンプル問題を解答する時の解答ロジックを表すために用いられる。
【0018】
本実施例では、解答ステップキャプチャテンプレートは予め設定され、プロンプト(prompt)として大規模言語モデルに入力するために用いられ、大規模言語モデルが当該解答ステップキャプチャテンプレートを組み合わせて、入力された第1のサンプル問題に基づいて、それに対応する第1のサンプル解答ステップを出力するようにする。
【0019】
例えば、本実施例の解答ステップキャプチャテンプレートは、あなたは推理マスターであり、与えられた問題を前提に、当該問題に対応する解答ステップを抽出することができる。あまり細かいことを提供せずに、コアロジックに注目してくださいことであってもよい。以下は当該タスクのいくつかの例であり:(問題):子供たちがゲームをしているのは、彼らが退屈だからです。文の中の「彼ら」は誰を指していますか?A、子供たち、B、ゲーム;(解答ステップ):1、文を分析し、可能な代名詞に対応する名称を見つける;2、構文構造と意味論理をそれぞれ考慮し、可能な代名詞を判断する;3、構文構造と意味論理を統合し、最終的な答えを出す。
【0020】
本実施例はS102を実行する時、第1のサンプル問題と上述解答ステップキャプチャテンプレートを一緒に大規模言語モデルに入力して、大規模言語モデルが解答ステップキャプチャテンプレートを組み合わせて、第1のサンプル問題に対応する第1のサンプル解答ステップを出力する。
【0021】
本実施例がS101を実行して複数の第1のサンプル問題を取得し、本実施例がS102を実行した場合、解答ステップキャプチャテンプレートに基づいて、各第1のサンプル問題に対応する第1のサンプル解答ステップをそれぞれ取得することができることを理解されたい。
【0022】
例えば、第1サンプル問題が「森林保護員はニシキヘビ、リス、松かさを持って森の東部から西部に移動する必要があり、毎回に1種類ずつ持って行く;森林保護員がいない場合、ニシキヘビはリスを食べ、リスは松かさを食べる;どのようにそれらの安全を確保するか?」である場合、本実施例はS102を実行する時に当該第1サンプル問題と上述解答ステップキャプチャテンプレートを一緒に大規模言語モデルに入力し、大規模言語モデルの出力結果は「1、各物体間の相互排他関係を分析し、共同で存在できない物体の組み合わせを決定することができる;2、相互排他関係に違反することなく目標を実現できる移動戦略を選択し、具体的な操作ステップをリストする」ことができ、当該出力結果を第1のサンプル問題に対応する第1のサンプル解答ステップとする。
【0023】
本実施例はS102を実行して第1のサンプル問題に対応する第1のサンプル解答ステップを取得した後、S103を実行して第1のサンプル問題、第1のサンプル解答ステップ及び回答キャプチャテンプレートを大規模言語モデルに入力し、大規模言語モデルによって出力された第1のサンプル回答を取得し、本実施例の第1のサンプル回答は、各ステップの解答ステップに対応する回答を含む。
【0024】
本実施例では、回答キャプチャテンプレートは予め設定され、プロンプト(prompt)として大規模言語モデルに入力するために用いられ、大規模言語モデルが当該回答キャプチャテンプレートを組み合わせて、入力された第1のサンプル問題と第1のサンプル解答ステップに基づいて、第1のサンプル問題に対応する第1のサンプル回答を出力する。
【0025】
例えば、本実施例の回答キャプチャテンプレートは、あなたは推理マスターであり、与えられた問題の解答ステップを前提に、解答ステップのロジックに従って問題の回答を行うことができ;具体的には、要求は次の通りであり:1、与えられた解答ステップのコアロジックに従って回答のロジックを組織する;2、関連する解答ステップが出現したタイトルを使わなくて、合理的な構造化方式によって回答を組織し、そして回答時に重要なロジックを省略しないように注意して、詳しく答えてください;3、解答ステップに重大な誤りが存在した場合、自分の理解に基づいて自分の解答ステップによって回答してください。以下は当該タスクのいくつかの例であり:(問題):子供たちがゲームをしているのは、彼らが退屈だからです。文の中の「彼ら」は誰を指していますか?A.子供たち、B.ゲーム;(解答ステップ):1、文を分析し、可能な代名詞に対応する名称を見つける;2、構文構造と意味論理をそれぞれ考慮し、可能な代指を判断する;3、構文構造と意味論理を統合し、最終的な答えを出す:(回答):この文の「子供たちがゲームをしているのは、彼らが退屈だからです」において、「彼ら」という単語は前述の特定又はいくつかの名詞を置き換えて使用されて、重複を回避する;この文の文脈では、子供たちとゲームの2つの名詞が存在し;1、第1に考慮するべきは構文構造であり;「彼らが退屈だからです」は1つの従属文であり、「子供たちがゲームをしている」の原因を説明するために使用され、「彼ら」は主文の中の主語、すなわち「子供たち」の代わりになる可能性が高く;2、第2に考慮するべきは意味論理であり;一般的に、ゲーム自体は退屈ではなく、人は退屈に感じることであり、「彼ら」は「子供たち」を指すべきであり;構文構造と意味論理を統合して、この文の中の「彼ら」が「子供たち」を指すことを決定することができるので、答えはA、子供たちである。
【0026】
本実施例はS103を実行する時、第1のサンプル問題、第1のサンプル解答ステップ、及び上述回答キャプチャテンプレートを一緒に大規模言語モデルに入力して、大規模言語モデルが回答キャプチャテンプレートを組み合わせて、第1のサンプル解答ステップに対応する第1のサンプル回答を出力する。
【0027】
本実施例がS101を実行して複数の第1のサンプル問題を取得し、本実施例がS103を実行した場合、回答キャプチャテンプレートに基づいて、各第1のサンプル問題に対応する第1のサンプル回答をそれぞれ取得することができることを理解されたい。
【0028】
例えば、第1のサンプル問題が「森林保護員はニシキヘビ、リス、松かさを持って森の東部から西部に移動する必要があり、毎回に1種類ずつ持って行く;森林保護員がいない場合、ニシキヘビはリスを食べ、リスは松かさを食べる;どのようにそれらの安全を確保するか?」であり、第1のサンプル解答ステップが「1、各物体間の相互排他関係を分析し、共同で存在できない物体の組み合わせを決定することができる;2、相互排他関係に違反することなく目標を実現できる移動戦略を選択し、具体的な操作ステップをリストする」である場合、本実施例はS103を実行する時、当該第1のサンプル問題、第1のサンプル解答ステップ、及び上述回答キャプチャテンプレートを一緒に大規模言語モデルに入力し、大規模言語モデルの出力結果は、「まず、ニシキヘビ、リス、及び松かさの相互排他関係を分析し:ニシキヘビとリスは単独で一緒に残ることができなくて、リスと松かさは単独で一緒に残ることができません」であってもよく;したがって、すべてのものが森林西部に安全に届くようにすることを確保するために:1、まず、森林保護員はリスを森林西部に連れて行って;2、その後、森林保護員は戻って、ニシキヘビを連れて行く;3、ニシキヘビとリスを単独で一緒に残ることができないため、森林保護員はリスを連れてきます;次に、森林保護員が松の実を森林西部に連れて行き;最後、森林保護員が戻ってきてリスを森林西部に連れて行く。
【0029】
本実施例はS103を実行して第1のサンプル回答を取得した後、第1のサンプル問題、第1のサンプル問題に対応する第1のサンプル解答ステップ、第1のサンプル回答で構成された三元組を、直接に事前トレーニングデータとし、さらに、当該事前トレーニングデータを使用してステップ計画モデルと大規模言語モデルに対して事前トレーニングを行うことができる。
【0030】
しかし、大規模言語モデルによって取得された三元組は精度を保証することができなく、事前トレーニングデータとする三元組の精度が低い場合、ステップ計画モデルと大規模言語モデルの事前トレーニング効果を低減させ、さらに、最終に取得された問題解答モデルによって出力された解答ステップ与回答の精度が低くなることができる。
【0031】
したがって、本実施例はS103を実行して第1のサンプル回答を取得した後、さらに、第1のサンプル問題、第1のサンプル解答ステップ、第1のサンプル回答、及びデータ評価テンプレートを大規模言語モデルに入力し、大規模言語モデルによって出力されたデータ評価結果を取得するステップを含むことができ、本実施例で取得されたデータ評価結果は、評価合格と評価不合格のうちの1つであってもよく、評価スコアであってもよく、取得されたデータ評価結果が予め設定された要求を満たすことが決定された(データ評価結果が評価合格であり、又は評価スコアが予め設定されたスコア閾値を超えていると決定される)場合、第1のサンプル問題、第1のサンプル解答ステップ、及び第1のサンプル回答を事前トレーニングデータとする。
【0032】
つまり、本実施例は予め設定されたデータ評価テンプレートによって、大規模言語モデルを使用して構成された三元組(Three tuple)に対してデータ評価を行って、データ評価に合格した三元組のみを事前トレーニングデータとし、取得された事前トレーニングデータの精度を向上させ、さらに、取得された事前トレーニングデータを使用してステップ計画モデルと大規模言語モデルに対して行われる事前トレーニングの精度を向上させることができる。
【0033】
本実施例では、データ評価テンプレートは予め設定されたものであり、プロンプト(prompt)として大規模言語モデルに入力するために用いられて、大規模言語モデルが当該データ評価テンプレートを組み合わせて、入力された第1のサンプル問題、第1のサンプル解答ステップ、及び第1のサンプル回答に基づいて、データ評価結果を出力する。
【0034】
例えば、本実施例のデータ評価テンプレートは:あなたは推理マスターであり、与えられた問題、解答ステップ及び回答を前提に、所与えられた問題、解答ステップ及び回答に対応するデータ評価結果を取得することができ、データ評価結果は、評価合格したか否かであってもよく、評価スコアであってもよく、以下は当該タスクのいくつかの例であり:(問題):子供たちがゲームをしているのは、彼らが退屈だからです。文の中の「彼ら」は誰を指していますか?A、子供たち、B、ゲーム;(解答ステップ):1、文を分析し、可能な代名詞に対応する名称を見つける;2、構文構造と意味論理をそれぞれ考慮し、可能な代指を判断する;3、構文構造と意味論理を統合し、最終的な答えを出す;(回答):この文の「子供たちがゲームをしているのは、彼らが退屈だからです」の中に、「彼ら」という単語は前述の特定又はいくつかの名詞を置き換えて使用されて、重複を回避する;この文の文脈では、子供たちとゲームの2つの名詞が存在し;1、第1に考慮するべきは構文構造であり;「彼らが退屈だからです」は1つの従属文であり、「子供たちがゲームをしている」の原因を説明するために使用され、「彼ら」は主文の中の主語、すなわち「子供たち」の代わりになる可能性が高く;2、第2に考慮するべきは意味論理であり;一般的に、ゲーム自体は退屈ではなく、人は退屈に感じることであり、「彼ら」は「子供たち」を指すべきであり;構文構造と意味論理を統合して、この文の中の「彼ら」が「子供たち」を指すことを決定することができるので、答えはA、子供たちである;(データ評価結果):評価合格である。
【0035】
本実施例の取得されたデータ評価結果が予め設定された要求を満たしていないと決定された場合、今回評価する第1のサンプル問題、第1のサンプル解答ステップ、及び第1のサンプル回答を破棄する。
【0036】
本実施例はS103を実行して取得されたデータ評価結果が予め設定された要求を満たすことが決定された場合、第1のサンプル問題、第1のサンプル解答ステップ、及び第1のサンプル回答を事前トレーニングデータとする時、さらに、第1のサンプル問題をデータ生成モデルに入力し、当該データ生成モデルによって出力された候補解答ステップ及び/又は候補回答を取得するステップであって、本実施例のデータ生成モデルは事前トレーニングして取得したものであり、それは入力された問題に基づいて、当該問題に対応する解答ステップ及び/又は回答を出力することができるステップと、候補解答ステップが第1のサンプル解答ステップと類似すること、(両者の間の類似度が予め設定された類似度閾値以上である)及び/又は候補回答が第1のサンプル回答と類似すること(両者の間の類似度が予め設定された類似度閾値以上である)が決定された場合、第1のサンプル問題、第1のサンプル解答ステップ、及び第1のサンプル回答を事前トレーニングデータとするステップと、を含むことができる。
【0037】
つまり、本実施例は、さらに、大規模言語モデルを使用して取得された三元組を初歩的に洗い出した後、次に、事前トレーニングされたデータ生成モデルを使用して三元組を最終的に洗い出すことができ、さらに、取得された事前トレーニングデータの精度を向上させる。
【0038】
本実施例はS103を実行する時、候補解答ステップが第1のサンプル解答ステップと類似していないこと、及び/又は候補回答が第1のサンプル回答と類似していないことが決定された場合、今回使用する第1のサンプル問題、第1のサンプル解答ステップ、及び第1のサンプル回答を破棄することができ、さらに、手動でラベリングされた方式を使用して、第1のサンプル問題に対応する解答ステップ及び回答を取得することもできる。
【0039】
また、本実施例はS103を実行する時、共通規則を設置して、共通規則を満たしていない三元組を破棄することもでき、例えば、共通規則は、予め設定されたステップ数を含むことができ、さらに、第1のサンプル解答ステップにおけるステップ数が予め設定されたステップ数より小さいことが決定された場合、三元組が共通規則を満たしていないので破棄することを決定する。
【0040】
本実施例はS103を実行して第1のサンプル回答を取得した後、S104とS105をそれぞれ実行することができ、ステップ計画モデルと大規模言語モデルに対して事前トレーニングを行うことを実現し、本実施例はS104とS105の実行順序に対して限定しない。
【0041】
本実施例はS104を実行して第1のサンプル問題と第1のサンプル解答ステップに基づいて、ステップ計画モデルに対して事前トレーニングを行う時、まず、第1のサンプル問題をステップ計画モデルに入力し、ステップ計画モデルによって出力された第1の予測解答ステップを取得し、第1のサンプル解答ステップと第1の予測解答ステップに基づいて第1の損失関数値を取得し、取得された第1の損失関数値に基づいてステップ計画モデルのパラメータを調整して、事前トレーニング後のステップ計画モデルを取得することができる。
【0042】
本実施例はS105を実行して第1のサンプル問題、第1のサンプル解答ステップ、及び第1のサンプル回答に基づいて、大規模言語モデルに対して事前トレーニングを行う時、まず、第1のサンプル問題、及び第1のサンプル解答ステップを大規模言語モデルに入力し、大規模言語モデルによって出力された第1の予測回答を取得し、第1のサンプル回答と第1の予測回答に基づいて第2の損失関数値を取得し、取得された第2の損失関数値に基づいて大規模言語モデルのパラメータを調整して、事前トレーニング後の大規模言語モデルを取得することができる。
【0043】
本実施例はS104を実行してステップ計画モデルに対して事前トレーニングを行い、S105を実行して大規模言語モデルに対して事前トレーニングを行った後、S106を実行して事前トレーニングされたステップ計画モデルと大規模言語モデルに基づいて、問題解答モデルを取得する。
【0044】
本実施例はS106を実行する時、直接に事前トレーニング後のステップ計画モデルと大規模言語モデルを取得して、問題解答モデルを構築することができ、構築された問題解答モデルが入力問題を取得した後、まず、取得された入力問題をステップ計画モデルに入力し、ステップ計画モデルによって出力された解答ステップを取得し、その後、取得された入力問題と解答ステップを大規模言語モデルに入力し、大規模言語モデルによって出力された回答を取得する。
【0045】
本実施例はS106を実行して事前トレーニングされたステップ計画モデルと大規模言語モデルに基づいて、問題解答モデルを取得する時、さらに、第2のサンプル問題を取得し、第2のサンプル問題の問題タイプを決定するステップと、決定された問題タイプに対応する解答ステップを、第2のサンプル問題の第2のサンプル解答ステップとして取得するステップであって、本実施例の異なる問題タイプに対応する解答ステップは事前ラベリングの方式で取得されたものであるステップと、第2のサンプル問題と第2のサンプル解答ステップに基づいて、事前トレーニングされたステップ計画モデルに対して監督微調整(SFT、Supervised Fine-Tuning)を行うステップと、事前トレーニングされた大規模言語モデルと監督微調整によって取得されたステップ計画モデルに基づいて、問題解答モデルを取得するステップと、を含むことができる。
【0046】
つまり、本実施例は、さらに、ステップ計画モデルに対して監督微調整を行うことによって、ステップ計画モデルのトレーニング効果を向上させ、さらに、監督微調整によって取得されたステップ計画モデルに基づいて問題解答モデルを取得し、本実施例はサンプル問題の問題タイプに基づいて解答ステップを取得することができ、問題解答モデルが同じタイプの問題に対することである場合、数又はロジックが類似する解答ステップを出力することができる。
【0047】
本実施例はS106を実行して事前トレーニングされたステップ計画モデルと大規模言語モデルに基づいて、問題解答モデルを取得する時、さらに、第2のサンプル問題を取得し、第2のサンプル問題の問題タイプを決定するステップと、決定された問題タイプに対応する解答ステップを、第2のサンプル問題の第2のサンプル解答ステップとして取得するステップと、第2のサンプル解答ステップの解答ステップタイプを決定し、決定された解答ステップタイプに対応する回答を、第2のサンプル問題の第2のサンプル回答として取得するステップと、第2のサンプル問題、第2のサンプル解答ステップ、及び第2のサンプル回答に基づいて、事前トレーニングされた大規模言語モデルに対して監督微調整(SFT、Supervised Fine-Tuning)を行うステップと、事前トレーニングされたステップ計画モデルと監督微調整によって取得された大規模言語モデルに基づいて、問題解答モデルを取得するステップと、を含むことができる。
【0048】
つまり、本実施例はさらに、大規模言語モデルに対して監督微調整を行うことによって、大規模言語モデルのトレーニング効果を向上させ、さらに、監督微調整によって取得された大規模言語モデルに基づいて問題解答モデルを取得し、本実施例はサンプル解答ステップの解答タイプに基づいて回答を取得することができ、問題解答モデルが同じタイプの解答ステップに対することである場合、数又はロジックが類似する回答を出力することができる。
【0049】
本実施例はS106を実行する時、さらに、同時に事前トレーニングされたステップ計画モデルと大規模言語モデルに対して監督微調整を行い、さらに、監督微調整によって取得されたステップ計画モデルと大規模言語モデルに基づいて、問題解答モデルを取得することができることを理解されたい。
【0050】
本実施例の問題解答モデルのトレーニング過程を例に説明し、第1のサンプル問題を取得し、本実施例は、テキストフォーマットの第1のサンプル問題を取得することができ、さらに、取得された音声フォーマットの問題に対して音声認識を行った後、認識結果を第1のサンプル問題とすることもでき、取得された第1のサンプル問題とテキストフォーマットの解答ステップキャプチャテンプレートを大規模言語モデルに入力し、大規模言語モデルによって出力されたテキストフォーマットの第1のサンプル解答ステップを取得し、第1のサンプル問題、第1のサンプル解答ステップ、及びテキストフォーマットの回答キャプチャテンプレートを大規模言語モデルに入力し、大規模言語モデルによって出力されたテキストフォーマットの第1のサンプル回答を取得し、テキストフォーマットの第1のサンプル問題と第1のサンプル解答ステップに基づいてステップ計画モデルに対して事前トレーニングを行い、テキストフォーマットの第1のサンプル問題、第1のサンプル解答ステップ、及び第1のサンプル回答に基づいて大規模言語モデルに対して事前トレーニングを行い、事前トレーニング後に取得されたステップ計画モデルと大規模言語モデルに基づいて、問題解答モデルを取得する。
【0051】
図2は本開示の第2の実施例による概略図である。図2は本実施例の問題解答モデルの構成図を示す。本実施例の問題解答モデルは、ステップ計画モデルと大規模言語モデルを含み、ステップ計画モデルは、入力された問題に基づいて解答ステップを出力するために用いられ、大規模言語モデルは、入力された問題とステップ計画モデルによって出力された解答ステップに基づいて、入力された問題に対応する回答を出力するために用いられ、出力された回答は、複数のサブ回答を含むことができ、各サブ回答は、1つの解答ステップに対応する。
【0052】
図3は本開示の第3の実施例による概略図である。図3に示すように、本実施例の問題解答方法は、具体的には、以下のステップを含み、
S301、解答すべき問題を取得し、
S302、前記解答すべき問題を問題解答モデルにおけるステップ計画モデルに入力し、前記ステップ計画モデルによって出力された解答ステップを取得し、
S303、前記解答すべき問題と前記解答ステップを前記問題解答モデルにおける大規模言語モデルに入力し、前記大規模言語モデルによって出力された回答を取得する。
【0053】
つまり、本実施例は、事前トレーニングされた問題解答モデルを組み合わせて、まず、解答すべき問題の解答ステップを取得し、その後、取得された解答ステップに基づいて回答を取得する方式を使用すると、取得された解答すべき問題に対応する回答の精度を向上させ、問題解答モデルにおける大規模言語モデルが複雑な推論問題を解答する時の性能を向上させることができる。
【0054】
本実施例の問題の解答過程を例に説明し、解答すべき問題を取得し、本実施例は、入力側から入力されたテキストフォーマットの解答すべき問題を取得することができ、さらに、入力側から入力された音声フォーマットの問題に対して音声認識を行った後、認識結果を解答すべき問題とすることもでき、解答すべき問題を問題解答モデルにおけるステップ計画モデルに入力し、ステップ計画モデルによって出力されたテキストフォーマットの解答ステップを取得し、テキストフォーマットの解答すべき問題と解答ステップを問題解答モデルにおける大規模言語モデルに入力し、大規模言語モデルによって出力されたテキストフォーマットの回答を、解答すべき問題に対応する解答結果として取得し、取得された回答を入力側に返してユーザに展示する。
【0055】
図4は本開示の第4の実施例による概略図である。図4に示すように、本実施例の問題解答モデルのトレーニング装置400は、第1の取得ユニット401、第1の処理ユニット402、第2の処理ユニット403、第1の事前トレーニングユニット404、第2の事前トレーニングユニット405、及び構築ユニット406を含み、
第1の取得ユニット401は、第1のサンプル問題を取得するために用いられ、
第1の処理ユニット402は、前記第1のサンプル問題と解答ステップキャプチャテンプレートを大規模言語モデルに入力し、前記大規模言語モデルによって出力された第1のサンプル解答ステップを取得するために用いられ、
第2の処理ユニット403は、前記第1のサンプル問題、前記第1のサンプル解答ステップ及び回答キャプチャテンプレートを前記大規模言語モデルに入力し、前記大規模言語モデルによって出力された第1のサンプル回答を取得するために用いられ、
第1の事前トレーニングユニット404は、前記第1のサンプル問題と前記第1のサンプル解答ステップに基づいて、ステップ計画モデルに対して事前トレーニングを行うために用いられ、
第2の事前トレーニングユニット405は、前記第1のサンプル問題、前記第1のサンプル解答ステップ、及び前記第1のサンプル回答に基づいて、前記大規模言語モデルに対して事前トレーニングを行うために用いられ、
構築ユニット406は、事前トレーニングされたステップ計画モデルと大規模言語モデルに基づいて、問題解答モデルを取得するために用いられる。
【0056】
第1の取得ユニット401は、インターネットから発掘された問題を、第1のサンプル問題とすることができ、本実施例は取得された第1のサンプル問題の数を限定しなく、1つであってもよいし、複数であってもよい。
【0057】
第1の取得ユニット401は、第1のサンプル問題を取得する時、さらに、当該第1のサンプル問題に対応する答えを取得することもできる。
【0058】
本実施例は、第1の取得ユニット401が第1のサンプル問題を取得した後、第1の処理ユニット402が第1のサンプル問題と解答ステップキャプチャテンプレートを大規模言語モデルに入力し、大規模言語モデルによって出力された第1のサンプル解答ステップを取得するステップと、第1の処理ユニット402によって取得された第1のサンプル解答ステップは、第1のサンプル問題を解答する時の解答ロジックを表すために用いられる。
【0059】
本実施例では、解答ステップキャプチャテンプレートは予め設定され、プロンプト(prompt)として大規模言語モデルに入力するために用いられ、大規模言語モデルが当該解答ステップキャプチャテンプレートを組み合わせて、入力された第1のサンプル問題に基づいて、それに対応する第1のサンプル解答ステップを出力するようにする。
【0060】
第1の処理ユニット402は第1のサンプル問題と上述解答ステップキャプチャテンプレートを共同に大規模言語モデルに入力して、大規模言語モデルが解答ステップキャプチャテンプレートを組み合わせて、第1のサンプル問題に対応する第1のサンプル解答ステップを出力する。
【0061】
複数の第1のサンプル問題を取得した場合、第1の処理ユニット402は解答ステップキャプチャテンプレートに基づいて、各第1のサンプル問題に対応する第1のサンプル解答ステップをそれぞれ取得することができることを理解されたい。
【0062】
本実施例の第1の処理ユニット402が第1のサンプル問題に対応する第1のサンプル解答ステップを取得した後、第2の処理ユニット403が第1のサンプル問題、第1のサンプル解答ステップ及び回答キャプチャテンプレートを大規模言語モデルに入力し、大規模言語モデルによって出力された第1のサンプル回答を取得し、第2の処理ユニット403によって取得された第1のサンプル回答は、各ステップの解答ステップに対応する回答を含む。
【0063】
本実施例では、回答キャプチャテンプレートは予め設定され、プロンプト(prompt)として大規模言語モデルに入力するために用いられ、大規模言語モデルが当該回答キャプチャテンプレートを組み合わせて、入力された第1のサンプル問題と第1のサンプル解答ステップに基づいて、第1のサンプル問題に対応する第1のサンプル回答を出力する。
【0064】
第2の処理ユニット403は、第1のサンプル問題、第1のサンプル解答ステップ、及び上述回答キャプチャテンプレートを一緒に大規模言語モデルに入力して、大規模言語モデルが回答キャプチャテンプレートを組み合わせて、第1のサンプル解答ステップに対応する第1のサンプル回答を出力する。
【0065】
複数の第1のサンプル問題を取得した場合、第2の処理ユニット403は回答キャプチャテンプレートに基づいて、各第1のサンプル問題に対応する第1のサンプル回答をそれぞれ取得することができることを理解されたい。
【0066】
第2の処理ユニット403は第1のサンプル回答を取得した後、第1のサンプル問題、第1のサンプル問題に対応する第1のサンプル解答ステップ、第1のサンプル回答で構成された三元組を、直接に事前トレーニングデータとし、さらに、当該事前トレーニングデータを使用してステップ計画モデルと大規模言語モデルに対して事前トレーニングを行うことができる。
【0067】
しかし、大規模言語モデルによって取得された三元組は精度を保証することができなく、事前トレーニングデータとする三元組の精度が低い場合、ステップ計画モデルと大規模言語モデルの事前トレーニング効果を低減させ、さらに、最終に取得された問題解答モデルによって出力された解答ステップ与回答の精度が低くなることができる。
【0068】
したがって、第2の処理ユニット403は第1のサンプル回答を取得した後、さらに、以下の内容を含むことができ、第1のサンプル問題、第1のサンプル解答ステップ、第1のサンプル回答、及びデータ評価テンプレートを大規模言語モデルに入力し、大規模言語モデルによって出力されたデータ評価結果を取得し、取得されたデータ評価結果が予め設定された要求を満たすことが決定された場合、第1のサンプル問題、第1のサンプル解答ステップ、及び第1のサンプル回答を事前トレーニングデータとする。
【0069】
つまり、第2の処理ユニット403は予め設定されたデータ評価テンプレートによって、大規模言語モデルを使用して構成された三元組に対してデータ評価を行って、データ評価に合格した三元組のみを事前トレーニングデータとし、取得された事前トレーニングデータの精度を向上させ、さらに、取得された事前トレーニングデータを使用してステップ計画モデルと大規模言語モデルに対して行われる事前トレーニングの精度を向上させることができる。
【0070】
本実施例では、データ評価テンプレートは予め設定されたものであり、プロンプト(prompt)として大規模言語モデルに入力するために用いられて、大規模言語モデルが当該データ評価テンプレートを組み合わせて、入力された第1のサンプル問題、第1のサンプル解答ステップ、及び第1のサンプル回答に基づいて、データ評価結果を出力する。
【0071】
本実施例の取得されたデータ評価結果が予め設定された要求を満たしていないと決定された場合、今回評価する第1のサンプル問題、第1のサンプル解答ステップ、及び第1のサンプル回答を破棄する。
【0072】
第2の処理ユニット403は、取得されたデータ評価結果が予め設定された要求を満たすことが決定された場合、第1のサンプル問題、第1のサンプル解答ステップ、及び第1のサンプル回答を事前トレーニングデータとする時、さらに、以下の内容を含むことができ、第1のサンプル問題をデータ生成モデルに入力し、当該データ生成モデルによって出力された候補解答ステップ及び/又は候補回答を取得し、候補解答ステップが第1のサンプル解答ステップと類似すること、及び/又は候補回答が第1のサンプル回答と類似することが決定された場合、第1のサンプル問題、第1のサンプル解答ステップ、及び第1のサンプル回答を事前トレーニングデータとする。
【0073】
つまり、第2の処理ユニット403は、さらに、大規模言語モデルを使用して取得された三元組を初歩的に洗い出した後、次に、事前トレーニングされたデータ生成モデルを使用して三元組を最終的に洗い出すことができ、さらに、取得された事前トレーニングデータの精度を向上させる。
【0074】
候補解答ステップが第1のサンプル解答ステップと類似していないこと、及び/又は候補回答が第1のサンプル回答と類似していないことが決定された場合、第2の処理ユニット403は、今回使用する第1のサンプル問題、第1のサンプル解答ステップ、及び第1のサンプル回答を破棄することができ、さらに、手動でラベリングされた方式を使用して、第1のサンプル問題に対応する解答ステップ及び回答を取得することもできる。
【0075】
また、第2の処理ユニット403は共通規則を設置して、共通規則を満たしていない三元組を破棄することもできる。
【0076】
本実施例は、第2の処理ユニット403が第1のサンプル回答を取得した後、それぞれ第1の事前トレーニングユニット404と第2の事前トレーニングユニット405がステップ計画モデルと大規模言語モデルに対して事前トレーニングを行うことができる。
【0077】
第1の事前トレーニングユニット404は、第1のサンプル問題と第1のサンプル解答ステップに基づいて、ステップ計画モデルに対して事前トレーニングを行う時、まず、第1のサンプル問題をステップ計画モデルに入力し、ステップ計画モデルによって出力された第1の予測解答ステップを取得し、第1のサンプル解答ステップと第1の予測解答ステップに基づいて第1の損失関数値を取得し、取得された第1の損失関数値に基づいてステップ計画モデルのパラメータを調整して、事前トレーニング後のステップ計画モデルを取得することができる。
【0078】
第2の事前トレーニングユニット405は、第1のサンプル問題、第1のサンプル解答ステップ、及び第1のサンプル回答に基づいて、大規模言語モデルに対して事前トレーニングを行う時、まず、第1のサンプル問題、及び第1のサンプル解答ステップを大規模言語モデルに入力し、大規模言語モデルによって出力された第1の予測回答を取得し、第1のサンプル回答と第1の予測回答に基づいて第2の損失関数値を取得し、取得された第2の損失関数値に基づいて大規模言語モデルのパラメータを調整して、事前トレーニング後の大規模言語モデルを取得することができる。
【0079】
本実施例は、第1の事前トレーニングユニット404と第2の事前トレーニングユニット405が事前トレーニングを完了した後、構築ユニット406が事前トレーニングされたステップ計画モデルと大規模言語モデルに基づいて、問題解答モデルを取得する。
【0080】
構築ユニット406は、直接に事前トレーニング後のステップ計画モデルと大規模言語モデルを取得して、問題解答モデルを構築することができ、構築された問題解答モデルが入力問題を取得した後、まず、取得された入力問題をステップ計画モデルに入力し、ステップ計画モデルによって出力された解答ステップを取得し、その後、取得された入力問題と解答ステップを大規模言語モデルに入力し、大規模言語モデルによって出力された回答を取得する。
【0081】
構築ユニット406は、事前トレーニングされたステップ計画モデルと大規模言語モデルに基づいて、問題解答モデルを取得する時、さらに、以下の内容を含むことができ、第2のサンプル問題を取得し、第2のサンプル問題の問題タイプを決定し、決定された問題タイプに対応する解答ステップを、第2のサンプル問題の第2のサンプル解答ステップとして取得し、第2のサンプル問題と第2のサンプル解答ステップに基づいて、事前トレーニングされたステップ計画モデルに対して監督微調整(SFT、Supervised Fine-Tuning)を行い、事前トレーニングされた大規模言語モデルと監督微調整によって取得されたステップ計画モデルに基づいて、問題解答モデルを取得する。
【0082】
つまり、構築ユニット406は、さらに、ステップ計画モデルに対して監督微調整を行うことによって、ステップ計画モデルのトレーニング効果を向上させ、さらに、監督微調整によって取得されたステップ計画モデルに基づいて問題解答モデルを取得し、本実施例はサンプル問題の問題タイプに基づいて解答ステップを取得することができ、問題解答モデルが同じタイプの問題に対することである場合、数又はロジックが類似する解答ステップを出力することができる。
【0083】
構築ユニット406は、事前トレーニングされたステップ計画モデルと大規模言語モデルに基づいて、問題解答モデルを取得する時、さらに、以下の内容を含むことができ、第2のサンプル問題を取得し、第2のサンプル問題の問題タイプを決定するステップと、決定された問題タイプに対応する解答ステップを、第2のサンプル問題の第2のサンプル解答ステップとして取得し、第2のサンプル解答ステップの解答ステップタイプを決定し、決定された解答ステップタイプに対応する回答を、第2のサンプル問題の第2のサンプル回答として取得し、第2のサンプル問題、第2のサンプル解答ステップ、及び第2のサンプル回答に基づいて、事前トレーニングされた大規模言語モデルに対して監督微調整(SFT、Supervised Fine-Tuning)を行い、事前トレーニングされたステップ計画モデルと監督微調整によって取得された大規模言語モデルに基づいて、問題解答モデルを取得する。
【0084】
つまり、構築ユニット406は、さらに、大規模言語モデルに対して監督微調整を行うことによって、大規模言語モデルのトレーニング効果を向上させ、さらに、監督微調整によって取得された大規模言語モデルに基づいて問題解答モデルを取得し、本実施例はサンプル解答ステップの解答タイプに基づいて回答を取得することができ、問題解答モデルが同じタイプの解答ステップに対することである場合、数又はロジックが類似する回答を出力することができる。
【0085】
構築ユニット406は、さらに、同時に事前トレーニングされたステップ計画モデルと大規模言語モデルに対して監督微調整を行い、さらに、監督微調整によって取得されたステップ計画モデルと大規模言語モデルに基づいて、問題解答モデルを取得することができることを理解されたい。
【0086】
図5は本開示の第5の実施例による概略図である。図5に示すように、本実施例の問題解答装置500は、第2の取得ユニット501、第1の解答ユニット502、及び第2の解答ユニット503を含み、
第2の取得ユニット501は、解答すべき問題を取得するために用いられ、
第1の解答ユニット502は、前記解答すべき問題を問題解答モデルにおけるステップ計画モデルに入力し、前記ステップ計画モデルによって出力された解答ステップを取得するために用いられ、
第2の解答ユニット503は、前記解答すべき問題と前記解答ステップを前記問題解答モデルにおける大規模言語モデルに入力し、前記大規模言語モデルによって出力された回答を取得するために用いられる。
【0087】
本開示の技術案において、関連するユーザ個人情報の収集、記憶、応用などの処理は、すべて関連する法律および規定を満たし、公序良俗に違反しない。
【0088】
本開示の実施例によれば、本開示は、さらに、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品を提供する。
【0089】
図6は本開示の実施例の問題解答モデルのトレーニング方法又は問題解答方法に係る電子機器600の概略ブロック図を示す。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、個人用デジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実現を制限することを意図したものではない。
【0090】
図6に示すように、機器600は計算ユニット601を含み、計算ユニット601は、読み取り専用メモリ(ROM)602に記憶されているコンピュータプログラムまたは記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。RAM603には、機器600が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット601、ROM602、およびRAM603は、バス604を介してお互いに接続される。入出力(I/O)インターフェース605もバス604に接続される。
【0091】
機器600内の複数のコンポーネントは、I/Oインターフェース605に接続されており、キーボード、マウスなどの入力ユニット606と、様々なタイプのディスプレイ、スピーカなどの出力ユニット607と、ディスク、光ディスクなどの記憶ユニット608と、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット609と、を含む。通信ユニット609は、機器600が、インターネットなどのコンピュータネットワーク、および/または様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
【0092】
計算ユニット601は、様々な処理と計算能力を備える汎用および/または専用の処理コンポーネントである。計算ユニット601のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット601は、問題解答モデルのトレーニング方法又は問題解答方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、問題解答モデルのトレーニング方法又は問題解答方法は、記憶ユニット608などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。
【0093】
いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM602および/または通信ユニット609を介して機器600にロードおよび/またはインストールされる。コンピュータプログラムがRAM603にロードされて計算ユニット601によって実行される場合、上記の問題解答モデルのトレーニング方法又は問題解答方法の一つまたは複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット601は、他の任意の適切な方式(例えば、ファームウェアによって)を介して問題解答モデルのトレーニング方法又は問題解答方法を実行するように構成されることができる。
【0094】
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
【0095】
本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行される時にフローチャートおよび/またはブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能な車両測位又は測位モデルのトレーニング装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、または完全にリモート機械またはサーバ上で実行されたりすることができる。
【0096】
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、または機器の使用、または命令実行システム、装置または機器と組み合わせて使用するプログラムを含むか、または記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置または機器、または上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つまたは複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM またはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記の内容の任意の適切な組み合わせを含む。
【0097】
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
【0098】
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、を含む。
【0099】
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウド計算またはクラウドホストとも呼ばれ、クラウド計算サービスシステムの中の一つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」、または「VPS」と略称する)に、存在する管理困難度が高く、業務拡張性が弱い欠陥を解決する。サーバは、分散システムのサーバであってもよく、またはブロックチェーンを組み合わせるサーバであってもよい。
【0100】
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
【0101】
上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。
図1
図2
図3
図4
図5
図6