(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023033202
(43)【公開日】2023-03-09
(54)【発明の名称】対話モデル訓練方法および装置
(51)【国際特許分類】
G06N 20/00 20190101AFI20230302BHJP
【FI】
G06N20/00 130
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2022133106
(22)【出願日】2022-08-24
(31)【優先権主張番号】10-2021-0112541
(32)【優先日】2021-08-25
(33)【優先権主張国・地域又は機関】KR
(31)【優先権主張番号】10-2021-0161615
(32)【優先日】2021-11-22
(33)【優先権主張国・地域又は機関】KR
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ブルートゥース
2.BLUETOOTH
3.ZIGBEE
4.JAVA
(71)【出願人】
【識別番号】519130063
【氏名又は名称】ハイパーコネクト リミテッド ライアビリティ カンパニー
(74)【代理人】
【識別番号】100094569
【弁理士】
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【弁理士】
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【弁理士】
【氏名又は名称】西島 孝喜
(74)【代理人】
【識別番号】100109335
【弁理士】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【弁理士】
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【弁理士】
【氏名又は名称】那須 威夫
(74)【代理人】
【識別番号】100210239
【弁理士】
【氏名又は名称】富永 真太郎
(72)【発明者】
【氏名】ソクジュン ソ
(72)【発明者】
【氏名】スンジュ ハン
(72)【発明者】
【氏名】ボムス キム
(72)【発明者】
【氏名】ブ ル チャン
(72)【発明者】
【氏名】エンフバヤル エルデニー
(57)【要約】 (修正有)
【課題】生成基盤対話モデルの高い応答レイテンシー問題を解決するか又は検索基盤対話モデルの相対的に低い回答クオリティーを解決するユーザーの対話モデルを訓練する方法およびそのための装置を提供する。
【解決手段】方法は、コンテキストとそれに対応する応答ペアを1つ以上を含む第1対話データセットから第1コンテキストを選択する段階S101と、第1対話モデルを通じて第1コンテキストに対応する第1応答を生成する段階S102と、第1コンテキストとそれに対応する第1応答ペアを第1対話データセットに含ませて増強された対話データセットを生成する段階S103と、増強された対話データセットに基づいて第2対話モデルを学習させる段階S104と、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
電子装置において対話モデルを訓練する方法であって、
コンテキスト(context)とそれに対応する応答(response)ペア(pair)を1つ以上含む第1対話データセット(dialogue data set)から第1コンテキストを選択する段階と、
第1対話モデルを通じて前記第1コンテキストに対応する第1応答を生成する段階と、
前記第1コンテキストとそれに対応する前記第1応答ペアを前記第1対話データセットに含ませて増強された対話データセット(augmented dialogue dataset)を生成する段階と、
前記増強された対話データセットに基づいて第2対話モデルを学習させる段階と、を含む、対話モデル訓練方法。
【請求項2】
前記第1対話モデルは、与えられた(given)コンテキストに対して応答を生成する生成基盤対話モデルであり、前記第2対話モデルは、前記与えられたコンテキストに対して応答を検索する検索基盤対話モデルである、請求項1に記載の対話モデル訓練方法。
【請求項3】
前記第1対話データセットの応答および前記第1応答を含む増強された応答セット(augmented response set)を生成する段階をさらに含む、請求項1に記載の対話モデル訓練方法。
【請求項4】
前記学習させる段階は、
前記増強された対話データセットに含まれた第2コンテキストに対応する第1応答サブセット、および任意に選択された第2応答サブセットを含む応答セットを獲得する段階と、
前記第1対話モデルに基づいて前記第2コンテキストに対する前記応答セットに含まれた応答に対する第1スコアを計算する段階と、
前記第2対話モデルに基づいて前記第2コンテキストに対する前記応答セットに含まれた応答に対する第2スコアを計算する段階と、
前記第1スコアおよび前記第2スコアに基づいて前記第2対話モデルを学習させる段階と、を含む、請求項1に記載の対話モデル訓練方法。
【請求項5】
前記第1スコアおよび前記第2スコアに基づいて前記第2対話モデルを学習させる段階は、
前記第1スコアおよび前記第2スコアに基づいて損失(loss)を計算する段階と、
前記損失が最小化するように前記第2対話モデルを学習させる段階と、を含む、請求項4に記載の対話モデル訓練方法。
【請求項6】
電子装置において対話モデルを訓練する方法であって、
第1対話データセットから第1コンテキストに対応する第1応答サブセット、および任意に選択された第2応答サブセットを含む応答セットを獲得する段階と、
第1対話モデルに基づいて前記第1コンテキストに対する前記応答セットに含まれた応答に対する第1スコアを計算する段階と、
第2対話モデルに基づいて前記第1コンテキストに対する前記応答セットに含まれた応答に対する第2スコアを計算する段階と、
前記第1スコアおよび前記第2スコアに基づいて前記第2対話モデルを学習させる段階と、を含む、対話モデル訓練方法。
【請求項7】
前記第1対話モデルは、与えられたコンテキストに対して応答を生成する生成基盤対話モデルであり、前記第2対話モデルは、前記与えられたコンテキストに対して応答を検索する検索基盤対話モデルである、請求項6に記載の対話モデル訓練方法。
【請求項8】
コンテキストとそれに対応する応答ペアを1つ以上含む第2対話データセットから第2コンテキストを選択する段階と、
前記第1対話モデルを通じて前記第2コンテキストに対応する応答を生成する段階と、
前記第2コンテキストとそれに対応する応答ペアを前記第2対話データセットに含めて前記第1対話データセットを生成する段階と、を含む、請求項6に記載の対話モデル訓練方法。
【請求項9】
前記第2スコアを計算する段階は、
前記第1コンテキストおよび前記応答セットに含まれた応答に対して固定長エンベディング(fixed-length embedding)としてエンコーディングする段階と、
前記第1コンテキストに対応するエンベディング値および前記応答セットに含まれた応答それぞれに対応するエンベディング値に基づいて前記応答セットに含まれた応答それぞれの前記第1コンテキストに対する関連性スコア(relevance score)を計算する段階と、を含む、請求項6に記載の対話モデル訓練方法。
【請求項10】
前記第1スコアは、前記応答セットに含まれた応答それぞれの長さに基づいて正規化された対数尤度(log likelihood)を用いて計算される、請求項6に記載の対話モデル訓練方法。
【請求項11】
前記第1スコアは、前記応答セットに含まれた応答それぞれの前記第1コンテキストに関する相互情報(Mutual Information)点数に基づいて計算される、請求項6に記載の対話モデル訓練方法。
【請求項12】
前記第2対話モデルを学習させる段階は、
前記第1スコアおよび前記第2スコアに基づいて損失(loss)を計算する段階と、
前記損失が最小化するように前記第2対話モデルを学習させる段階と、を含む、請求項6に記載の対話モデル訓練方法。
【請求項13】
前記損失は、前記第1応答サブセットに対応するスコアに対する交差エントロピー(cross entropy)損失および前記応答セットに含まれた応答に対応するスコアに対する知識蒸留(knowledge distillation)損失を含む、請求項12に記載の対話モデル訓練方法。
【請求項14】
前記損失が最小化するように前記第2対話モデルを学習する段階は、前記第1応答サブセットに対応するスコアを最大化して前記交差エントロピー損失が最小化するように学習する、請求項13に記載の対話モデル訓練方法。
【請求項15】
前記損失が最小化するように前記第2対話モデルを学習する段階は、前記第1スコアと前記第2スコアが一致して前記知識蒸留損失が最小化するように学習する、請求項13に記載の対話モデル訓練方法。
【請求項16】
請求項6の対話モデル訓練方法をコンピュータにおいて実行させるためのプログラムを記録したコンピュータが読み取り可能な、非一時的記録媒体。
【請求項17】
対話モデルを訓練させるための電子装置であって、
保存デバイスと、
制御部(controller)と、を含み、
前記制御部は、
前記保存デバイスを通じて、第1対話データセットから第1コンテキストに対応する第1応答サブセット、および任意に選択された第2応答サブセットを含む応答セットを獲得し、
第1対話モデルに基づいて前記第1コンテキストに対する前記応答セットに含まれた応答に対する第1スコアを計算し、
第2対話モデルに基づいて前記第1コンテキストに対する前記応答セットに含まれた応答に対する第2スコアを計算し、
前記第1スコアおよび前記第2スコアに基づいて前記第2対話モデルを学習させる、電子装置。
【請求項18】
前記制御部は、
コンテキストとそれに対応する応答ペアを1つ以上含む第2対話データセットから第2コンテキストを選択し、
前記第1対話モデルを通じて、前記第2コンテキストに対応する応答を生成し、
前記第2コンテキストとそれに対応する応答ペアを前記第2対話データセットに含めて前記第1対話データセットを生成する、請求項17に記載の電子装置。
【請求項19】
前記制御部は、
前記第2対話データセットの応答および前記第2コンテキストに対応する応答を含む増強された応答セットを生成し、
前記保存デバイスを通じて増強された応答セットを保存する、請求項18に記載の電子装置。
【請求項20】
前記制御部は、前記第2対話モデルを学習させるために、
前記第1スコアおよび前記第2スコアに基づいて損失を計算し、
前記損失が最小化するように前記第2対話モデルを学習させ、
前記損失は、前記第1応答サブセットに対応するスコアに対する交差エントロピー損失、および前記応答セットに含まれた応答に対応するスコアに対する知識蒸留損失を含む、請求項17に記載の電子装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ユーザーの対話モデルを訓練する方法およびそのための装置に関する。
【背景技術】
【0002】
人工知能技術が発達することによって、人々は、実在する人物ではなく仮想の人物としてチャットボットと対話できるようになった。このようなチャットボットは、定められた対話主題によって、定められた応答を検索して出力することもでき、または、自由な対話の主題に対して適切な応答を生成して出力することもできる。このような特定の対話の主題が定められていない対話を、オープンドメイン対話(open domain conversation)といえる。
【0003】
オープンドメイン対話において応答を導出するために、大きく2種類の対話モデルとして、生成基盤対話モデルと検索基盤会話モデルが使用される。生成基盤会話モデルは、入力された対話コンテキスト(context)に基づいて適切な回答を生成して回答として返すモデルである。そして、検索基盤対話モデルは、回答として使用され得る応答セット(response set)を予め定義した後、入力された対話コンテキストに最も適切な回答を応答セットから検索して回答として返すモデルである。
【0004】
このような生成基盤対話モデルは、大規模(large-scale)な言語モデルを共に使用したときに、該当言語モデルの豊富な知識に基づいて与えられた対話コンテキストに相応しい回答を生成することができる。しかし、生成基盤対話モデルは、シーケンス対シーケンス構造のデコーダーが自己回帰的な(autoregressive)デコーディング過程に多くの時間を費やすため、回答の生成に高いレイテンシー(latency)を有する。実際の対話状況において、チャットボットは、ユーザーへリアルタイムに回答を返さなければならないため、生成基盤対話モデルのこのような重く、遅い特性は、オープンドメイン対話には適用され難い実情である。
【0005】
一方、検索基盤対話モデルは、高性能の検索ライブラリーと共に使用したときに、生成基盤対話モデルよりも遥かに速く与えられたコンテキストに適切な回答を返すことができる。しかし、検索基盤対話モデルは、事前に定義された応答セットに存在する回答のみを返すことができるため、入力された対話コンテキストに適切な応答が応答セットに含まれていない場合、進められていた対話とは関係のない突拍子もない返事をする恐れがある。また、検索基盤対話モデルは、事前に定義された応答セットに非常に依存的なため、生成基盤対話モデルに比べて流暢でない回答を返すこともある。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本開示は、対話コンテキストに対して、生成基盤対話モデルを通じて応答を生成し、生成された応答に基づいて検索基盤対話モデルのための応答セットを構築することによって、生成基盤対話モデルの高い応答レイテンシー問題を解決するためのものである。
【0007】
本開示は、対話コンテキストに対して、生成基盤対話モデルを通じて応答を生成し、生成された応答に基づいて検索基盤対話モデルを学習することによって、検索基盤対話モデルの相対的に低い回答クオリティーを解決するためのものである。
【0008】
本開示において達成しようとする技術的課題は、前記のような技術的課題に限定されず、以下の実施形態からさらに他の技術的課題が類推され得る。
【課題を解決するための手段】
【0009】
前記のような課題を解決するための電子装置において遂行される対話モデル訓練方法は、コンテキスト(context)とそれに対応する応答(response)ペア(pair)を1つ以上含む第1対話データセット(dialogue data set)から第1コンテキストを選択する段階;第1対話モデルを通じて前記第1コンテキストに対応する第1応答を生成する段階;前記第1コンテキストとそれに対応する前記第1応答ペアを前記第1対話データセットに含ませて増強された対話データセット(augmented dialogue dataset)を生成する段階;および前記増強された対話データセットに基づいて第2対話モデルを学習させる段階を含むことができる。
【0010】
また、前記のような課題を解決するための電子装置において遂行されるさらに他の対話モデル訓練方法は、第1対話データセットから第1コンテキストに対応する第1応答サブセット、および任意に選択された第2応答サブセットを含む応答セットを獲得する段階;第1対話モデルに基づいて前記第1コンテキストに対する前記応答セットに含まれた応答に対する第1スコアを計算する段階;第2対話モデルに基づいて前記第1コンテキストに対する前記応答セットに含まれた応答に対する第2スコアを計算する段階;および前記第1スコアおよび前記第2スコアに基づいて前記第2対話モデルを学習させる段階を含むことができる。
【0011】
また、前記のような課題を解決するための対話モデルを訓練させるための電子装置は、保存デバイス;および制御部(controller)を含み、前記制御部は、前記保存デバイスを通じて、第1対話データセットから第1コンテキストに対応する第1応答サブセット、および任意に選択された第2応答サブセットを含む応答セットを獲得し、第1対話モデルに基づいて前記第1コンテキストに対する前記応答セットに含まれた応答に対する第1スコアを計算し、第2対話モデルに基づいて前記第1コンテキストに対する前記応答セットに含まれた応答に対する第2スコアを計算し、前記第1スコアおよび前記第2スコアに基づいて第2対話モデルを学習させることができる。
【0012】
その他、実施形態の具体的な事項は、詳細な説明および図面に含まれている。
【発明の効果】
【0013】
本開示によると、検索基盤対話モデルが、大規模な言語モデルの豊富な知識に基づいて流暢な回答を生成する生成基盤対話モデルの回答クオリティーに対応する回答を返すことができる。
【0014】
また、本開示によると、生成基盤対話モデルの高いレイテンシー問題を解決し、検索基盤対話モデルの回答クオリティーを高められる効果がある。
【0015】
発明の効果は、以上で言及した効果に制限されず、言及されていないさらに他の効果は、請求範囲の記載から当該技術分野の通常の技術者に明確に理解され得るであろう。
【図面の簡単な説明】
【0016】
【
図1】一実施形態に係るデータ水準の対話モデル訓練方法を示したフローチャートである。
【
図2】一実施形態に係るモデル水準の対話モデル訓練方法を示したフローチャートである。
【
図3】オープンドメイン対話モデルに関するレイテンシー対人的評価点数を示したグラフである。
【
図4】一実施形態に係るデータ水準の対話モデル訓練方法を示した図面である。
【
図5】一実施形態に係るモデル水準の対話モデル訓練方法を示した図面である。
【
図6】一実施形態に係るモデル水準の対話モデルを訓練させるための電子装置を示したブロック図である。
【発明を実施するための形態】
【0017】
実施形態において使用される用語は、本開示における機能を考慮しつつ、可能な限り現在広く使用される一般的な用語を選択したが、これは当分野に従事する技術者の意図または判例、新しい技術の出現などによって変わり得る。また、特定の場合は、出願人が任意に選定した用語もあり、この場合、該当する説明の部分において詳細にその意味を記載するであろう。従って、本開示において使用される用語は、単純な用語の名称ではなく、その用語が有する意味と本開示の全般にわたる内容に基づいて定義されなければならない。
【0018】
明細書全体において、ある部分がある構成要素を「含む」とするとき、これは特に反対の記載がない限り、他の構成要素を除くものではなく、他の構成要素をさらに含むことができることを意味する。また、明細書に記載された「~部」、「~モジュール」などの用語は、少なくとも1つの機能や動作を処理する単位を意味し、これはハードウェアまたはソフトウェアとして具現されるか、ハードウェアとソフトウェアの結合によって具現され得る。
【0019】
明細書全体において記載された「a、b、およびcのうち少なくとも1つ」の表現は、「a単独」、「b単独」、「c単独」、「aおよびb」、「aおよびc」、「bおよびc」、または「a、b、およびcすべて」を包括することができる。
【0020】
以下において言及される「端末」は、ネットワークを通じてサーバーや他端末に接続できるコンピュータや移動端末機として具現され得る。ここで、コンピュータは、例えば、ウェブブラウザ(WEB Browser)が搭載されたノートパソコン、デスクトップ(desktop)、ラップトップ(laptop)などを含み、移動端末機は、例えば、携帯性と移動性が保障される無線通信装置として、IMT(International Mobile Telecommunication)、CDMA(Code Division Multiple Access)、W-CDMA(W-Code Division Multiple Access)、LTE(Long Term Evolution)などの通信基盤端末、スマートフォン、タブレットPCなどのようなすべての種類のハンドヘルド(Handheld)基盤の無線通信装置を含むことができる。
【0021】
本開示の技術分野であるオープンドメイン対話の作業は、検索モデル、生成モデル、または両方を使用して研究された。検索モデルが予め定義された応答セットから与えられたコンテキストに関連した応答を検索する間、生成モデルは、自動回帰デコーディングを使用して与えられたコンテキストに基づいて応答を生成する。検索および生成モデルは、推論の効率性と生成された応答の品質において、それぞれ利点があることが知られている。2種類の利点をすべて得るために、最近は、検索モデルと生成モデルを結合して数種類の例題基盤生成モデルが提案された。本開示において提案される訓練方法と例題基盤生成モデルの主な相違点は、例題基盤生成モデルは生成モデルに検索モデルに関する知識を提供する一方、提案された教育方法は生成モデルに関する知識を検索モデルに伝達してオープンドメイン対話システムの効率性に重点を置くという点にある。
【0022】
より具体的には、オープンドメイン対話において大規模生成モデルは、その驚くべき性能にもかかわらず、高いレイテンシーによってリアルタイム対話システムを構築するのには実用的ではないことが知られている。一方、検索モデルは、遥かに短いレイテンシーとして応答を返すことができるが、対話の品質が予め定義された応答集合によって制限されるため、大規模生成モデルよりも劣った性能を示す。2種類の接近方式をすべて活用するために、本開示は、生成モデルに関する知識を検索モデルに注入して大規模生成モデルの対話能力を活用しつつ、検索モデルの効率性を維持するG2R(Generative-to-Retrieval distillation)という新たな学習方法を提案する。G2Rは、2種類の固有の蒸留(distillation)技術として構成され得る。先ず、データ水準(data-level)G2Rは、大規模生成モデルによって生成された追加応答として対話データセットを補強し、モデル水準(model-level)G2Rは、生成モデルによって評価された応答品質点数を知識蒸留損失による検索モデルの点数に移転する。人的評価を含む広範囲な実験を通じて、本開示のG2Rとして訓練された検索基盤対話システムが、基本検索モデルに比べて相当に向上した性能を示しながらも、大規模生成モデルよりも遥かに低い推論遅延時間を示すということを確認することができる。
【0023】
このために、実施形態においては、検索モデルの学習のためのコンテキスト-応答ペアの対話データセットのうち少なくとも一部のコンテキストを選択して、生成モデルを活用して応答を生成することによって、新たなコンテキスト-応答ペアを生成し、生成されたコンテキスト-応答ペアの増強された対話データセットを活用して検索モデルを学習させることによって、検索モデルがより多様な回答を生成することができる。
【0024】
また、実施形態において、特定のコンテキストに対して複数の応答セットを確認し、これをそれぞれ異なるモデルを通じて応答セットの各応答のスコアを導出し、各モデルの応答セットのスコア差を減らす方向に1つのモデルを学習させることができる。より具体的には、生成モデルを教師モデルとし、検索モデルを学生モデルとして応答セットに対するスコアの交差エントロピー損失を導出し、各スコア間の差を減らす方向に検索モデルを学習することによって、検索モデルの性能をより向上させることができる。
【0025】
以下、添付した図面を参照して、本開示の実施形態に係り本開示が属する技術分野で通常の知識を有する者が容易に実施することができるように詳細に説明する。しかし、本開示は、複数の相違する形態として具現され得、ここで説明する実施形態には限定されない。また、本開示において言及された「第1」および「第2」などのような表現は、用語間の区分のために記載されたものであり、該当表現によって意味が制限されない。
【0026】
図1は、一実施形態に係るデータ水準の対話モデル訓練方法を示したフローチャートである。
【0027】
段階S101において、コンテキストとそれに対応する応答ペアを1つ以上含む第1対話データセットから第1コンテキストを選択することができる。一実施形態によると、第1対話データセットの応答は、事前に定義された応答セットに含まれた応答であり得る。
【0028】
段階S102において、第1対話モデルを通じて第1コンテキストに対応する第1応答を生成することができる。一実施形態によると、第1対話モデルは、与えられた(given)コンテキストに対して応答を生成する生成基盤対話モデルであり得る。
【0029】
段階S103において、第1コンテキストとそれに対応する第1応答ペアを含む増強された対話データセット(augmented dialogue dataset)を生成することができる。一実施形態によると、本開示の対話モデル訓練方法は、第1対話データセットの応答および生成された第1応答を含む増強された応答セット(augmented response set)を生成して、以降入力される対話コンテキストに対する固定した応答セットとして活用してもよい。
【0030】
段階S104において、増強された対話データセットに基づいて第2対話モデルを学習させることができる。一実施形態によると、第2対話モデルは、与えられたコンテキストに対して応答を検索する検索基盤対話モデルであり得る。
【0031】
一実施形態によると、第2対話モデルを学習する一環として、増強された対話データセットに含まれた第2コンテキストを確認し、第2コンテキストに対応する第1応答サブセット、および任意に選択された第2応答サブセットを含む応答セットを獲得することができる。そして、第1対話モデルに基づいて第2コンテキストに対する応答セットに含まれた応答に対する第1スコアを計算し、第2対話モデルに基づいて第2コンテキストに対する応答セットに含まれた応答に対する第2スコアを計算することができる。そして、第1スコアおよび第2スコアに基づいて第2対話モデルを学習することができる。このとき、第1スコアに基づいて第2スコアに対する損失(loss)を計算して、損失が最小化する方向に第2対話モデルを学習することができる。以下においては、本開示のいくつかの実施形態によって応答をスコアリングする例をより詳細に説明する。
【0032】
図2は、一実施形態に係るモデル水準の対話モデル訓練方法を示したフローチャートである。
【0033】
段階S201において、第1対話データセットから第1コンテキストに対応する第1応答サブセット、および任意に選択された第2応答サブセットを含む応答セットを獲得することができる。一実施形態によると、コンテキストとそれに対応する応答ペアを1つ以上含む第2対話データセットから第2コンテキストを選択し、第1対話モデルを通じて第2コンテキストに対応する応答を生成し、第2コンテキストとそれに対応する応答ペアを第2対話データセットに含めて第1対話データセットを生成することができる。これによって、第1対話データセットは、増強された対話データセットであり得る。
【0034】
段階S202において、第1対話モデルに基づいて第1コンテキストに対する応答セットに含まれた応答に対する第1スコアを計算することができる。一実施形態によると、第1スコアは、応答セットに含まれた応答それぞれの長さに基づいて正規化された対数尤度(log likelihood)を用いて計算され得る。または(或いは、結合して)、第1スコアは、応答セットに含まれた応答それぞれの第1コンテキストに関する相互情報(Mutual Information)点数に基づいて計算されてもよい。
【0035】
段階S203において、第2対話モデルに基づいて第1コンテキストに対する応答セットに含まれた応答に対する第2スコアを計算することができる。一実施形態によると、第1コンテキストおよび応答セットに含まれた応答に対して固定長エンベディング(fixed-length embedding)としてエンコーディングし、第1コンテキストに対応するエンベディング値および応答セットに含まれた応答それぞれに対応するエンベディング値に基づいて応答セットに含まれた応答それぞれの第1コンテキストに対する関連性スコア(relevance score)を計算して、第2スコアを計算することができる。
【0036】
段階S204において、第1スコアおよび第2スコアに基づいて第2対話モデルを学習させることができる。一実施形態によると、第1スコアおよび第2スコアに基づいて損失を計算し、このような損失が最小化するように第2対話モデルを学習させることができる。この時の損失は、第1応答サブセットに対応するスコアに対する交差エントロピー(cross entropy)損失、および応答セットに含まれた応答に対応するスコアに対する知識蒸留(knowledge distillation)損失を含み得る。一部の実施形態において、第2対話モデルは、第1応答サブセットに対応するスコアを最大化して交差エントロピー損失が最小化するように学習することができ、いくつかの実施形態においては、第1スコアと第2スコアが一致して知識蒸留損失が最小化するように学習してもよい。
【0037】
以下においては、検索基盤対話モデルを「検索モデル」として、生成基盤対話モデルを「生成モデル」として指称することにする。
【0038】
最近、生成モデルは、大規模言語モデルの開発と共にオープンドメイン対話において大きな成功を収め、流暢かつ有益な応答を提供した。しかし、生成モデルは、応答生成のための自動回帰デコーディングと大きなGPUメモリ空間によって、リアルタイム対話システムを構築するためのレイテンシーおよび計算リソースの問題があった。
【0039】
一方、バイエンコーダー(Bi-encoder)およびポリエンコーダ(Poly-encoder)のような検索モデルは、応答セットを予め定義し、応答セットから与えられたコンテキストに最も関連性の高い応答を検索して効率的なオープンドメイン対話システムを構築することができた。また、バイエンコーダーは、FAISSおよびScaNNのような効率的なMIPS(Maximum Inner Product Search)ライブラリーを採用するときのレイテンシーを大幅に減らすことができる。このような優れた効率性にもかかわらず、検索モデルは、生成モデルに比べて対話能力が多少不足するものと示される。特に、検索モデルは、既に定義された応答セットが与えられたコンテキストに対する適切な応答を含まないとき、誤った応答を返すものとして知られている一方、生成モデルはこのような場合をより柔軟に処理する傾向がある。
【0040】
このような問題を緩和しようと試みるために、2つの接近方式の利点を結合する例題基盤生成モデル(Exemplar-based generative models)が考慮されたが、生成モデル固有の非効率性は依然として残っていた。これは、例題基盤生成モデルが応答生成のために生成モデルを使用するためである。これによって、本開示は、実際の適用に好ましい効率でありながらも、流暢なオープンドメイン対話システムを作るために、G2R(Generative-to-Retrieval distillation)という検索モデルに関する新たな訓練方法を提案する。
【0041】
一実施形態によると、G2Rを使用すると、検索モデルがデータ水準とモデル水準のすべてにおいて大規模生成モデルに関する知識を活用することができる。いくつかの実施形態において、データ水準G2Rは、本来の対話データセットのコンテキストを使用して大規模生成モデルから生成された応答として、本来の対話データセットを補強することができ、生成された応答を予め定義された応答集合に追加することができる。このように増強された対話データセットと応答セットは、それぞれ訓練段階において検索モデルを訓練し、推論段階において応答を返すのに使用される。一方、データ水準G2Rは、検索モデルが大規模生成モデルから生成された高品質な応答を活用できるようにするが、個別応答の品質に関する生成モデルの細部的な知識を伝達しない。これを解決するために、モデル水準G2Rは、大規模教師(teacher)生成モデルにおいて評価した応答品質点数を学生検索モデルの点数として伝送する知識蒸留方式を用いる。本方法は、検索モデルが応答品質の側面において、より良い応答を選択するように誘導することができる。
【0042】
このようなより大規模の教師神経網から小規模の学生神経網に知識を伝送することは、データ増強および知識蒸留を含めて学生モデルの性能を向上させるために具現された。データ増強の観点において、いくつかの研究は、事前訓練された言語モデルの生成結果をテキスト分類作業に関するラベルが指定された例題として活用する。一部の研究は、検索モデルと生成モデルの推論結果を学生検索モデル訓練のための準陰性(semi-negative)データセットとして活用する。一方、知識蒸留は、学生ロジット(logit)を軟化した教師ロジット(softened teacher logit)と一致させて、教師モデルの知識を学生モデルに伝達する。シーケンス生成作業、検索モデル、およびトランスフォーマーアーキテクチャのような特定作業、またはモデルアーキテクチャのために特別に設計された知識蒸留が存在する。
【0043】
本開示の対話モデル訓練方法と最も密接に関連した作業は、対話蒸留(Dialogue Distillation)であり、対話蒸留はオープンドメイン対話モデルに関するデータ水準およびモデル水準の蒸留を提案する。しかし、本開示の対話モデル訓練方法は、3種類の側面において対話蒸留とは異なる。第一に、対話蒸留は、ペアになっていない追加テキストコーパスを必要とし、これは、特定の状況から得るのが困難であり得る。代わりに対話蒸留作業は、追加データを補強するために大規模生成モデルに関する知識を活用することに重点を置く。また、対話蒸留は、事前定義された応答セットを豊富にしない。これは、本開示の対話モデル訓練方法に対する実験結果からも分かるように、検索モデルの性能を向上させるのに重要である。最後に、対話蒸留は、生成-生成(Generative-to-Generative)または検索-検索(Retrieval-to-Retrieval)のような均質な(homogeneous)アーキテクチャ内においてのみ知識蒸留を考慮するが、本開示の対話モデル訓練方法は、各アーキテクチャの利点を活用するために、異種(heterogeneous)アーキテクチャ、特に、生成-検索(Generative-to-Retrieval)間のモデル水準の蒸留に重点を置く。
【0044】
図3は、オープンドメイン対話モデルに関するレイテンシー対人的評価点数を示したグラフである。白丸は生成基盤対話モデル、黒丸は検索基盤対話モデル、星310は本開示のいくつかの実施形態に係る本開示の対話モデル訓練方法を通じて訓練された対話モデル(例えば、G2R)を示す。
図3を通じて、本開示の対話モデルが検索基盤対話モデルよりも遥かに良い人的評価点数を示し、生成基盤対話モデルよりも遥かに短いレイテンシーを示すことを確認することができ、多様なモデルの中から最適な点数、即ち、「スイートスポット(sweet-spot)」を達成することが分かる。
【0045】
G2Rを適用した検索モデルとMIPSライブラリーで構成された検索基盤対話システムは、
図3のように、速い推論速度を示しつつ、相当な対話能力を示すことを実証的に立証する。例えば、本開示の検索基盤対話システムは、ブレンダー(blender)モデル(90M媒介変数)に比べて約20倍の速度向上を示しながらも、対話能力に対する類似した人的評価結果を示す。ここで、ブレンダーモデルは、オープンドメイン対話作業の最先端モデルであり、Blender 90M、Blender 2.7B、Blender 9.4Bのような多様な媒介変数が存在する。ブレンダーモデルは、応答生成のためにデコーディングハイパーパラメータによる。
【0046】
図4は、一実施形態に係るデータ水準の対話モデル訓練方法を示した図面である。
【0047】
図4に図示された方法への理解を助けるために、先ず、オープンドメイン対話のための検索モデルについて検討する。以下の数学式1は、n個のコンテキスト-応答ペアを含む対話データセットを示す。ここで、c
iおよびr
iは、それぞれコンテキストおよびi番目の例題に対応する適切な応答であるゴールド(gold)応答である。訓練段階において検索モデルは、否定的な応答の点数と比較して与えられたコンテキストc
iに対するゴールド応答r
iの点数を最大化するように訓練され得る。そして、推論段階において、検索モデルは、対話データセットDにおいて構成された予め定義された応答セットRから与えられたコンテキストcに対する最高点数を有する応答を返すことができる。数学式2は、n個の応答を含む予め定義された応答セットRを示す。
【0048】
【0049】
【0050】
次に、知識蒸留は、学生モデルzsのロジットと教師モデルztのロジットを一致させる損失を追加して、教師モデルの知識を学生モデルに伝達する方法である。1つのクラスがある分類作業の場合、知識蒸留損失は、学生モデルの軟化した(softened)出力確率と教師モデル間の交差エントロピーとして定義され得る。数学式3は、知識蒸留損失LKDを示す。
【0051】
【0052】
ここで、p(y|x)およびz(x、y)は、それぞれ入力xおよびクラスyに対するモデルの軟化確率およびロジット値であり、Tは、ロジット値を平滑化(smoothing)するための温度媒介変数である。
【0053】
本開示の目標は、検索モデルに基づく効率的なオープンドメイン対話システムを作ることである。しかし、検索モデルを単純に活用すると、検索モデルがすべての応答候補に対する点数を計算しなければならないため、応答集合Rの大きさが大きいときに効率性が落ち得る。これを解決するために、本開示の特定の実施形態に係るプロセスは、効率的なMIPSライブラリー(例えば、FAISS)のあるバイエンコーダーモデルを採用して、すべての応答候補に対する点数を計算しなくても適切な応答を効率的に選択できるようにする。具体的には、バイエンコーダーは、Transformerアーキテクチャを使用して、コンテキストcと応答rをそれぞれ固定長エンベディングとしてエンコーディングすることができ、cとr間の関連性点数を2つのエンベディングの内積として定義することができる。これを通じて、検索プロセスの速度が高まり得る。
【0054】
一方、追加の高品質対話データセットを活用すると、検索モデルの性能を向上させるのに役立つ。また、事前定義された応答集合Rをより多様な応答に強化すると、適切な応答を選択する機会が広がるため、検索モデルが多様な入力コンテキストに適切に応答するのに役立ち得る。しかし、ヒューマン-イン-ザ-ループ(Human-in-the-loop)注釈を通じてこのような高品質対話データセットまたは応答を得ることは、労働集約的であり費用が多くかかる。
【0055】
正しく調整された大規模生成モデルは、人間に近い対話能力を達成することができるので、本開示の対話モデル訓練方法は、検索モデルを訓練するための対話データセットのみならず、応答セットを拡張するために大規模生成モデルの生成結果を活用することができる。
【0056】
先ず、対話データセット(dialogue data set)Dの各コンテキストciに対して大規模生成モデルGは、m個の応答rG
i,jを生成することができる。数学式4は、応答rG
i,jを示す。
【0057】
【0058】
そして、生成された応答を与えられたコンテキストciのゴールド応答と見なして、数学式5のように対話データセットDと予め定義された応答セットRに追加することができる。ここで、DGとRGは、それぞれ増強された対話データセットおよび増強された応答セットを示す。
【0059】
【0060】
対話データセットと応答セットが増強された後、検索モデルRは、無作為にサンプリングされた音声応答R-のセットの中から正解応答rを選択する確率を最大化する交差エントロピー損失LCEを最小化するように学習され得る。数学式6は、交差エントロピー損失LCEを示す。
【0061】
【0062】
ここで、R(c、r)は、与えられたコンテキストcと応答rに対して検索モデルRによって計算された点数である。数学式6において、R-は、交替なくRGからの応答を無作為にサンプリングして、すべての反復に対して異なるように生成される。一例として、大規模生成モデルGとして使用可能な最大のオープンドメイン対話モデルであるBlender 9.4Bモデルが使用され得る。ビームサーチ(beam search)アルゴリズムは、同一のコンテキスト内から類似した応答を生成する傾向があるため、応答の多様性のためにtop-kサンプリングを適用することができる。また、生成された応答の特異性と長さを多様化するために、互いに異なる最小長の制約条件として応答を複数回サンプリングすることができる。
【0063】
図4のデータ水準の対話モデル訓練モデル400を参照すると、先ず、与えられたコンテキストとそれに対応する応答ペアを1つ以上含む対話データセットD410を用いて生成モデルG430を訓練することができる。このために、対話データセットD410から任意のコンテキストc420を抽出して生成モデルG430への入力とすることができる。一実施形態によると、対話データセットD410におけるコンテキストとそれに対応する応答は、既存の検索モデルR470が与えられたコンテキストに対して検索を通じて返された応答であり得る。生成モデルG430は、大規模(large-scale)な言語モデルに基づく生成モデルであり得る。
【0064】
一実施形態によると、生成モデルG430は、コンテキストc420を入力として新たな応答r
G440を生成することができる。これによって、生成モデルG430は、コンテキストc420に対応する新たな応答r
G440ペアを1つ以上含む新たな対話データセット450を生成することができる。次に、対話データセットD410と新たな対話データセット450を結合して増強された対話データセットD
G460を生成することができる。増強された対話データセットD
G460は、以下の
図4において、モデル水準の対話モデル訓練モデルの入力として活用され得る。検索モデルR470は、増強された対話データセットD
G460を用いて学習され得る。一方、新たな応答r
G440は、既存の応答セットに追加されて、増強かつ事前定義された(augmented pre-defined response set)R
G480で構成され得、検索モデルR470は、以後、如何なるコンテキストが対話モデルに入力したときも、増強かつ事前定義された応答セットR
G480を検索して適切な応答を返すことができる。
【0065】
図5は、一実施形態に係るモデル水準の対話モデル訓練方法を示した図面である。
【0066】
データ水準の対話モデル訓練方法は、追加の高品質対話データと多様な応答を提供するが、大規模生成モデルGにおいて、個別応答の品質に関する細部的な知識を伝達しない。本開示のモデル水準の対話モデル訓練方法は、このような問題を解決するために設計された。一実施形態によると、データ水準の対話モデル訓練方法は、大規模な教師生成モデルGによって評価された個別応答水準の品質点数を学生検索モデルRに伝送して問題を解決することができる。
【0067】
具体的には、先ず、教師生成モデルGの観点において、応答品質点数を次のように定義する:G(c,r)。次に、学生検索モデルは、既存の知識蒸留技法と類似して学生検索モデルの点数R(c,r)と教師生成モデルの点数G(c,r)が一致するように学習することができる。
【0068】
一実施形態によると、教師生成モデルの点数G(c,r)は、数学式7のように応答の長さとして正規化された対数尤度(log-likelihood)として定義され得る。
【0069】
【0070】
ここで、PG(r|c)は、生成モデルGの与えられたコンテキストcに対する応答rの確率であり、|r|は、応答rのトークン数である。対数尤度は、より短い応答を好む問題を緩和するために応答の長さとして正規化され得る。教師生成モデルの点数G(c,r)および学生検索モデルの点数R(c,r)をそれぞれ教師および学生モデルのロジットと見なして、蒸留損失LKDを導出することができる。これによって、数学式6は、次の数学式8に変わる。
【0071】
【0072】
ここで、Riは、DGのコンテキストciに対応する肯定応答セットである。
【0073】
一方、音声応答に対する教師生成モデルの点数G(ci,r-)を計算するには多くの追加計算が必要であるため、無作為にサンプリングされた音声応答r-∈R-に対して数学式9のように近似化して計算を単純化することができる。
【0074】
【0075】
最後に、モデル水準の対話モデル訓練方法に対する最終損失Lは、数学式10を参照すると、数学式6の本来の交差エントロピー損失LCEとハイパーパラメータαが、各項の加重値を制御する知識蒸留損失LKDの和として示すことができる。
【0076】
【0077】
図5のモデル水準の対話モデル訓練モデル500を参照すると、先ず、任意のコンテキストc
i510に対応する応答セットR
i520を構成することができる。一実施形態によると、コンテキストc
i510は、
図4における増強された対話データセットD
G460に含まれたコンテキストであり得る。また、応答セットR
i520は、新たな応答r
G440においてコンテキストc
i510に適切な肯定応答と、新たな応答r
G440において肯定応答を除き、任意に選択された1つ以上の任意応答(または音声応答)を含むことができる。応答セットR
i520において、肯定応答は1つだけであってもよい。
【0078】
次に、応答セットRi520に基づいて教師モデルである生成モデルG530と学生モデルである検索モデルR550がコンテキストci510に対して応答を返すことができる。生成モデルG530がコンテキストci510に対して返す応答に関する点数G(ci,r)540を応答セットRi520に含まれたそれぞれの応答について確認することができる。また、検索モデルR550がコンテキストci510に対して返す応答に関する点数R(ci,r)560を応答セットRi520に含まれたそれぞれの応答について確認することができる。
【0079】
一実施形態によると、生成モデルG530は、応答rの長さとして正規化された対数尤度を計算してG(ci,r)540を計算することができる。また、検索モデルR550は、コンテキストci510と応答rをそれぞれ固定長エンベディングとしてエンコーディングし、2つのエンベディングの内積としてコンテキストci510と応答r間の関連性点数を定義しR(ci,r)560として定義することができる。
【0080】
一実施形態によると、G(ci,r)540とR(ci,r)560それぞれに基づいて応答セットRi520から肯定応答を選択する確率を示す交差エントロピー損失LCE570を計算することができる。特に、生成モデルG530は、大規模言語モデルに基づくため、音声応答よりも肯定応答を選択する確率がより高い。これによって、検索モデルR550は、無作為にサンプリングされた音声応答に対して正解応答を選択する確率を最大化するために、交差エントロピー損失LCE570を最小化するように学習するだろう。次に、G(ci,r)540とR(ci,r)560をそれぞれ教師および学生モデルのロジットと見なして、蒸留損失LKD580を導出することができる。検索モデルR550は、蒸留損失LKD580が最小化するように、G(ci,r)540とR(ci,r)560が一致するように学習することができる。一方、実施形態において、スコアを一致するように学習することを説明するのは、学習の方向を説明するものとして、学習の結果、2つのモデルのスコアが一致しなくてもよい。
【0081】
以下においては、本開示の対話モデル訓練方法を使用してオープンドメイン対話を遂行した場合に関する評価とその結果を示す。
【0082】
先ず、データセットは、Blended Skill Talk、ConvAI2、Empathetic Dialogues、およびWizard of Wikipediaで構成されたオープンドメイン対話データセットを用いる。実験においては、前記4個のデータセットをすべて共に使用し、併合されたデータセットをBST+と指称し得る。
【0083】
人的評価は、BST+テストデータセットから無作為にサンプリングされた200個の例題に対して遂行された。人間審査委員は、生成された応答の品質を0-2尺度の2種類の基準として評価した。先ず、生成された応答が流暢かつ論理的であり、与えられたコンテキストに適切かを評価するための適切性(Appr.)を評価し、生成された応答が与えられたコンテキストに関連する意味のある情報を有しているか否かを示す情報性(Info.)を評価した。各例は、最少3人の固有の人間審査委員が評価し、すべての人的評価は、Amazon Mechanical Turkを通じて遂行される。
【0084】
また、実験を通じて、多様な種類の自動化されたメトリック(metric)を報告することができる。MaUdEは、参照されない(unreferenced)対話応答評価メトリックであり、ConvAI2データセットを使用して構文および意味上の否定的な応答を0として採点し、肯定的な応答を1として採点するように訓練されたモデルによって計算される。MaUdEは、応答の流暢性と興味に対する人間の判断と高い相関関係を示すため、MaUdEを各モデルから生成された応答の全般的な品質を評価するためのプロキシメトリックとして使用する。また、実験においては、生成された応答の語彙的多様性を測定するために、Dist-2およびDist-3モデルを使用することができる。ここで、Dist-nは、各モデルによって生成されたすべての応答の総n-グラム数に対する固有のn-グラムの比率を意味する。生成された応答の平均トークン数である長さは、参照用として報告される。最後に、実験においては、本開示のモデルの効率性を検証するために、単一の入力コンテキストに対する応答を生成するためのレイテンシーを測定して報告する。一般的に、GPU支援環境において測定したレイテンシーを報告するが、CPUのみを使用して測定したレイテンシーを報告してもよい。
【0085】
本開示のモデル水準の対話モデル訓練方法と、より大きな生成モデルから抽出した小さなブレンダーモデルを用いて、知識蒸留技術を使用する生成モデルとの結果を比較する。ここで、蒸留されたブレンダー(Distilled Blender)として表されたTinyBERTスタイルの蒸留と共に、Blender 2.7Bにおいて蒸留された400M媒介変数ブレンダーモデルを使用する。一方、Pushshift Reddit注釈データセットとして事前トレーニングされ、BST+データセットにおいて微調整された256M媒介変数のあるバイエンコーダーおよびポリエンコーダーは、検索モデルのベースライン(baseline)になり得る。前述したように、MIPSライブラリーと統合されたバイエンコーダーモデルは、Bi-encoder(w/FAISS)として表される。RetNRefは、検索モデルの応答を生成モデルの入力に統合する例題基盤生成モデル(exemplar-based generative model)である。本開示の対話モデル訓練モデルのうちの1つであるG2Rとは異なり、RetNRefは、検索モデルを活用して生成モデルを改善する一方、G2Rは、生成モデルに関する知識を活用して検索モデルを改善する。特に、G2Rは、α-blending技法として訓練された対話検索モデルを使用する。一実施形態によると、対話モデルに対する人間の応答は、BST+データセットに注釈が付いた実測ラベルを示す。
【0086】
本開示の対話モデル訓練方法において、バイエンコーダーRは、Blender 9.4Bを教師生成モデルGに使用してG2Rとして訓練される。G2R-DMは、データ水準G2Rおよびモデル水準G2Rとして訓練されたモデルを示す。本開示においては、包括的な分析のために2種類の変形を考慮した。例えば、G2R-Dは、データ水準G2Rとしてのみ訓練され、G2R-D(FAISSを除く)は、G2R-DからMIPSライブラリーであるFAISSの使用を追加で除く。
【0087】
表1は、オープンドメイン対話のいくつかの対話モデルのうち、人的評価結果と自動化されたメトリックの結果を示した表である。ここで、Latency(Speedup)列は、Blender 90Mのレイテンシーと比較した各モデルの相対的な速度向上を示す。表1において、本開示の対話モデル訓練方法(G2R)として訓練されたシステムが対話能力と効率性間の「スイートスポット」を達成したことを確認することができる。本開示のシステムは、Bi-encoder(w/FAISS)の低いレイテンシーを維持しつつ、人的評価結果を大きく向上させBlender 90Mおよびヒトの応答にそれぞれ類似するか、より良い人的評価点数を達成する。
【0088】
【0089】
さらに詳細に検討すると、Dist-2およびDist-3の点数から見られるように、ブレンダー生成モデルと蒸留されたブレンダーモデルは、高い人的評価点数を示す一方、多様性の不足と共に相対的に長いレイテンシーを示す。検索基準線(Retrieval baselines)(Bi-encoderおよびPoly-encoder)は、反対の傾向を示して遥かに低いレイテンシーと相対的に高い応答多様性を示すが、人的評価点数の側面においては相対的に低い会話能力を示す。人的評価結果とは異なり、Bi-encoderとPoly-EncoderのMaUdE点数は予想外に高い。しかし、このような結果は、MaUdE項目がBST+データセットの下位集合であるConvAI2データセットに対して訓練され、このような検索モデルの類似した訓練目標を有しているためである。本開示のG2R基盤モデルは、本来のモデルであるBi-encoder(w/FAISS)に比べて遥かに良い人的評価結果を達成する。データ水準G2R専用(G2R-D)を適用すると、モデル性能が大きく向上するので、モデル性能が人的評価の側面においてゴールド人間応答と比較され得る。データ水準G2Rを使用すると、予め定義された応答集合RGの応答数が10倍以上増加するため、FAISSのないBi-encoder(G2R-D(w/o FAISS))を使用すると、レイテンシーが増大するだろう。応答集合の大きさが小さい場合(Bi-encoder(w/FAISS)の場合)、FAISSを使用するとレイテンシーオーバーヘッドが発生するが、G2R-Dのようにより大きな応答集合においてFAISSを使用すると、低いレイテンシーを維持することができる。但し、FAISSのないバージョンに比べて応答品質が若干低下され得る。
【0090】
モデル水準のG2Rの追加的適用は、検索モデルの性能を追加で向上させることができる。データ水準G2Rおよびモデル水準G2Rとして訓練されたG2R-DMは、データ水準G2Rとしてのみ訓練されたG2R-Dよりもさらに高い人的評価点数とMaUdE点数を示し、遥かに速く実行可能でありつつ、Blender 90Mモデルに匹敵する人的評価点数を示す。G2R-DMは、より大きなBlender生成モデルに比べて多少不足した人的評価点数を示すが、相当に低いレイテンシーを示す(蒸留したブレンダーモデルに比べ23.0倍の速度向上、Blender 2.7Bに比べ44.7倍の速度向上)。また、G2R-DMは、ブレンダー生成モデルに比べて遥かに高い応答多様性を示す。一方、RetNRefモデルは、G2R-DMモデルに比べてより悪い性能を示し、遥かに高いレイテンシーを提供する。
【0091】
表2は、データ水準G2Rによって生成された本来の応答セットRと新たな応答セットRGの基本統計を示す。データ水準G2Rを適用後、RGは、本来の応答セットRに比べて約11倍のより多くの候補を有することになる。新たな応答セットRGの応答が本来の応答セットRに比べてより多くの多様性を示すかを確認するために、各応答セットに示された固有トークンおよびバイグラム(bi-gram)/トライグラム(tri-gram)の数を計算することができる。表2を参照すると、増強応答セットRGは、本来の応答セットよりも遥かに固有のトークンとバイグラム/トライグラムを有しているため、より多様な主題、エンティティを扱い、構文と表現の側面においてより多様性を示し得る。
【0092】
【0093】
以下においては、データ水準のG2R方式から生成された応答を如何に使用するかによって、モデルの性能が如何に変化するかを詳細に分析するために、ablation研究を遂行する。データ水準G2Rから生成された応答は、検索モデルRの訓練対話データセットDGを増大し、増強応答セットRGを構築するのに活用される。Ablation研究を通じて、これら2種類の活用方法を分離し、各方法のみを使用する場合に対してモデルを評価することができる。
【0094】
表3は、このようなablationモデルの評価結果を示す。人的評価メトリックおよび自動化されたメトリックと共に検索モデルの性能を評価するために、広く採用されるBST+テストセットにおいて訓練されたバイエンコーダモデルのHits@1/KおよびHits@5/Kを活用する。表3において、上段より最後から2行目までの順序に、検索モデルを既存の対話データセットDを用いて訓練し、本来の応答セットRを構築する場合(即ち、既存の対話モデル)、検索モデルを既存の対話データセットDを用いて訓練し、モデル水準G2Rによって増強された応答セットRGを構築する場合(即ち、ablationモデル)、検索モデルをデータ水準G2Rによって増強された対話データセットDGを用いて訓練し、本来の応答セットRを構築する場合(即ち、ablationモデル)、および検索モデルをデータ水準G2Rによって増強された対話データセットDGを用いて訓練し、モデル水準G2Rによって増強された応答セットRGを構築する場合(即ち、本開示のG2R-DM)に係る人的評価および自動化されたメトリックの結果である。
【0095】
【0096】
表3において見られるように、2種類の方法をすべて使用するモデルに比べて、1種類の方法のみを使用するものがより良い性能を示すことはない。また、RG構築のために生成された応答を活用するとモデルの適合性点数が向上し、これは、多様な応答セットを使用することが、モデルがより適切に応答するのに役立つという本開示の対話モデル訓練方法を裏付ける。Rを構築するための増強対話データセットDGの使用は、適切性と情報性メトリックのすべてに対する人的評価点数を高めるのに役立つ。また、増強対話データセットDGを使用した訓練は、検索モデルのHitsメトリックを相当に向上させる。それにもかかわらず、2種類の方法をすべて使用すると、すべてのablationモデルの中から最高の人的評価性能を示すため、検索モデルを訓練し応答セットを構築するのに新たな例題を使用することが、良い性能を導くのに重要であることが分かる。
【0097】
表3において、既に訓練された検索モデルの上位m個の応答を活用してバイエンコーダーモデルを訓練して生成された増強対話データセットをDRとすることができる。増強対話データセットDRを用いる対話モデルとデータ水準G2Rによって増強された対話データセットDGを用いる対話モデルを比較すると、大規模生成モデルを使用する方法が単に検索モデルを使用することよりも、より良い品質の教育データセットを生成するということを確認することができる。表3おいて見られるように、人的評価点数と照会数メトリックをすべて向上させるDGを使用する場合とは異なり、DRを訓練データセットとして使用すると、すべてのメトリックに対して相当する性能向上にはつながらない。本結果は、データ水準G2Rにおいてのように、対話増大のために大規模生成モデルを使用することが、検索モデルを使用するよりも遥かに効果的な増大戦略であることを強力に示す。
【0098】
一実施形態によると、モデル水準G2Rにおいて、教師生成モデルの点数G(c,r)を定義するために対数尤度点数(LL点数)を使用するが、他の方法も使用することができる。一例は、相互情報(Mutual Information)点数(MI点数)を用いることである。MI点数は、与えられたコンテキストcと応答r間のポイント別(point-wise)の相互情報であり、一般的な応答により低い値を割り当てる一方、与えられたコンテキストにより具体的な応答の点数を高めるものとして知られている。MI点数を使用すると、LL点数に比べてより具体的かつ多様な応答が生成されると同時に、入力コンテキストに関して不適切な細部情報が含まれた応答を返すリスクが若干高くなり得る。従って、以下においては、MI点数をG(c,r)として使用するモデル水準G2RとLL点数を使用するモデルの性能を比較する。
【0099】
表4は、教師生成モデルの点数G(c,r)を定義するために、MI点数を使用するモデル水準G2Rモデルに関する人的評価結果および自動化されたメトリック結果を示す。
【0100】
【0101】
モデル水準のG2Rに対してMI点数を使用することは、特に適合性点数に対してLL点数を使用するよりも若干低い人的評価点数を示すため、MI点数を使用することが適切かつ正確な回答を生成できないことを意味する。しかし、自動化されたメトリックの側面において、MI点数は、より高いMaUdE点数を示す。即ち、MI点数を使用することが、LL点数に比べてより高い応答多様性を示すため、対話システムのより多様な応答にMI点数を使用できることを示す。
【0102】
表5は、ベースライン(baseline)モデルとG2Rモデルから返された応答の例を提供する。表5に関連した実験においては、入力コンテキストとしてチャットボットA(「Amazon is a great place to order books」)の構文に対してコンテキストB(「Oh yeah that is a fact」)が入力される場合を仮定した。
【0103】
【0104】
表5を参照すると、本例においてBi-encoder(w/FAISS)は、与えられたコンテキストに関連のない応答(「Comics is at the top of the list in interest」)を返す。ブレンダーモデルの応答は論理的に適切であるが、単にトピックを変更するか(Blender 90M、蒸留されたブレンダーの場合:「Do you have any other hobbies that you like to do on the weekends? I like to read」、「What else do you like to do in your spare time? I like to go to the beach」)、特定の細部事項が相対的に不足した結果を提供する(Blender 2.7B, Blender 9.4Bの場合:「What kind of books do you buy on amazon? I like to read science fiction and fantasy」、「What kind of books do you like to read? I like romance novels and mystery novels」)。データ水準G2R(G2R-D)は、詳細に応答しようとするが、応答には主題に関する多少関連のない語句が含まれている(「Do you ever order grocerys? I love amazon’s selection of books and videos」)。対照的に、G2R-DMは、特定の細部事項と共に適切に応答することを確認することができる(「What is your favourite book? Mine is “the cat in the hat” BY dr suess」)。
【0105】
一方、検索モデルを通じた対話モデルを生成するときに、
図4および
図5において説明した方法を並行して活用することができる。
【0106】
図6は、一実施形態に係るモデル水準の対話モデルを訓練させるための電子装置10を示したブロック図である。
【0107】
電子装置10は、一実施形態によって、保存デバイス(storage device)12およびプロセッサー14を含むことができ、これに限定されない。
【0108】
保存デバイス12は、オープンドメイン対話に必要なコンテキストと応答を保存することができる。保存デバイス12は、電子装置10内において処理される各種データを保存するハードウェアであり、プロセッサー14の処理および制御のためのプログラムを保存することができる。保存デバイス12は、DRAM(dynamic random access memory)、SRAM(static random access memory)などのようなRAM(random access memory)、ROM(read-only memory)、EEPROM(electrically erasable programmable read-only memory)、CD-ROM、ブルーレイ、または他の光学ディスクストレージ、HDD(hard disk drive)、SSD(solid state drive)、またはフラッシュメモリーを含むことができる。
【0109】
プロセッサー14は、電子装置10の全般的な動作を制御し、データおよび信号を処理することができる。一実施形態において、プロセッサー14は、少なくとも1つのプロセッサーを含むことができる。一実施形態によって、プロセッサー14は、保存デバイス12を通じて第1対話データセットから第1コンテキストに対応する第1応答サブセット、および任意に選択された第2応答サブセットを含む応答セットを獲得することができる。また、プロセッサー14は、第1対話モデルに基づいて第1コンテキストに対する応答セットに含まれた応答に対する第1スコアを計算し、第2対話モデルに基づいて第1コンテキストに対する応答セットに含まれた応答に対する第2スコアを計算することができる。そして、プロセッサー14は、第1スコアおよび第2スコアに基づいて第2対話モデルを学習させることができる。
【0110】
本開示の電子装置10は、通信デバイス(図示せず)をさらに含んでもよい。通信デバイスは、有無線通信技術を用いて外部の電子装置と通信することができ、トランシーバーを含むことができる。外部の電子装置は、端末またはサーバーとなり得る。また、通信デバイスが用いる通信技術には、GSM(Global System for Mobile communication)、CDMA(Code Division Multi Access)、LTE(Long Term Evolution)、5G、WLAN(Wireless LAN)、Wi-Fi(Wireless-Fidelity)、ブルートゥース(Bluetooth)、RFID(Radio Frequency Identification)、赤外線通信(Infrared Data Association; IrDA)、ZigBee、NFC(Near Field Communication)などがあり得、これに限定されるものではない。
【0111】
前述した実施形態に係る電子装置は、プログラムデータを保存して実行するメモリー、ディスクドライブのような永久保存部(permanent storage)、外部装置と通信する通信ポート、タッチパネル、キー(key)、ボタンなどのようなユーザーインターフェイス装置などを含み得る。ソフトウェアモジュールまたはアルゴリズムとして具現される方法は、前記プロセッサー上において実行可能なコンピュータが読み取り可能なコードまたはプログラム命令としてコンピュータが読み取り可能な記録媒体上に保存され得る。ここで、コンピュータが読み取り可能な記録媒体として、マグネティック保存媒体(例えば、ROM(read-only memory)、RAM(random-Access memory)、フロッピーディスク、ハードディスクなど)、および光学的読み取り媒体(例えば、シーディーロム(CD-ROM)、ディーブイディー(DVD:Digital Versatile Disc))などがある。コンピュータが読み取り可能な記録媒体は、ネットワークで連結されたコンピュータシステムに分散されて、分散方式としてコンピュータが読み取り可能なコードが保存され実行され得る。媒体は、コンピュータによって読み取り可能であり、メモリーに保存され、プロセッサーにおいて実行され得る。
【0112】
本実施形態は、機能的なブロック構成および多様な処理段階として示され得る。このような機能ブロックは、特定の機能を実行する多様な個数のハードウェアおよび/またはソフトウェアの構成として具現され得る。例えば、実施形態は、1つ以上のマイクロプロセッサーの制御または他の制御装置によって多様な機能を実行することができる、メモリー、プロセッシング、ロジック(logic)、ルックアップテーブル(look-up table)などのような集積回路の構成を採用することができる。構成要素がソフトウェアプログラミングまたはソフトウェア要素として実行され得ることと同様に、本実施形態は、データ構造、プロセス、ルーチン、または他のプログラミング構成の組み合わせとして具現される多様なアルゴリズムを含み、C、C++、ジャバ(Java)、アセンブラー(assembler)などのようなプログラミングまたはスクリプト言語として具現され得る。機能的な側面は、1つ以上のプロセッサーにおいて実行されるアルゴリズムとして具現され得る。また、本実施形態は、電子的な環境設定、信号処理、および/またはデータ処理などのために、従来の技術を採用することができる。「メカニズム」、「要素」、「手段」、「構成」のような用語は、広く使用され得、機械的かつ物理的な構成として限定されるものではない。前記用語は、プロセッサーなどと連携してソフトウェアの一連の処理(routines)の意味を含むことができる。
【0113】
前述した実施形態は、一例示に過ぎず、後述する請求項の範囲内において他の実施形態が具現され得る。