IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ セールスフォース ドット コム インコーポレイティッドの特許一覧

特表2024-507162タスク指向対話の安全方策改善のためのシステム及び方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-16
(54)【発明の名称】タスク指向対話の安全方策改善のためのシステム及び方法
(51)【国際特許分類】
   G06N 3/092 20230101AFI20240208BHJP
   G06N 20/00 20190101ALI20240208BHJP
【FI】
G06N3/092
G06N20/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023548751
(86)(22)【出願日】2022-01-27
(85)【翻訳文提出日】2023-10-06
(86)【国際出願番号】 US2022014034
(87)【国際公開番号】W WO2022173593
(87)【国際公開日】2022-08-18
(31)【優先権主張番号】63/148,861
(32)【優先日】2021-02-12
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/500,855
(32)【優先日】2021-10-13
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】506332063
【氏名又は名称】セールスフォース インコーポレイテッド
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ラマチャンドラン,ゴーバルダナ サチートハナンダム
(72)【発明者】
【氏名】橋本 和真
(72)【発明者】
【氏名】ション,カイミング
(72)【発明者】
【氏名】ソーチャー,リチャード
(57)【要約】
本明細書で説明される実施形態は、タスク指向対話のためのバッチ強化学習フレームワークにおける安全方策改善(SPI)を提供する。具体的には、対話方策学習のためのバッチ強化学習フレームワークが提供され、これは、対話の性能を改善し、人間の実演を単に模倣するのでなく人間の応答の背後に本発明を論じる報酬を整形するように学習する。
【特許請求の範囲】
【請求項1】
タスク指向学習における因果認識安全方策改善のための方法であって、
複数の対話を含む訓練データセットを受信するステップであり、前記複数の対話は、潜在的確率的挙動方策に従って生成された第1の対話ロールアウトを含む、ステップと、
複数の訓練サブセット及び複数の検証サブセットを生成するために、前記訓練データセットを複数回にわたって繰り返しサンプリングするステップと、
前記複数の訓練サブセットのうちの第1の訓練サブセット内の訓練データを使用して、交差エントロピー損失に基づいてタスク指向対話モデルを訓練するステップと、
前記タスク指向対話モデルにより、前記複数の検証サブセットのうちの第1の検証サブセット内の対話データに基づいて予測された対話ロールアウトを生成するステップと、
前記予測された対話ロールアウトをペアワイズ因果学習サブセットに追加するステップと、
前記ペアワイズ因果学習サブセットから対話ロールアウトのペアをサンプリングするステップと、
前記対話ロールアウトのペア間の好ましい確率と前記対話ロールアウトのペアに基づく正規化されたメトリックスコアとの間の二値交差エントロピー損失に基づいて、前記タスク指向対話モデルを訓練するステップと、
を含む方法。
【請求項2】
前記複数の訓練サブセット又は前記複数の検証サブセットからデータセットを取り出すステップと、
前記取り出されたデータセットからの対話データを使用してターゲット方策に従って対話の現在の状態を条件とした予測された対話行動の交差エントロピーを最小化することにより、前記タスク指向対話モデルを訓練するステップと、
をさらに含む、請求項1に記載の方法。
【請求項3】
前記予測された対話ロールアウトは、前記複数の検証サブセットを反復することにより、前記ターゲット方策に従って繰り返し生成される、請求項2に記載の方法。
【請求項4】
二値交差エントロピー損失に基づいて前記タスク指向対話モデルを訓練することは、訓練において収束に達するまで、前記ペアワイズ因果学習サブセットから対話ロールアウトの異なるペアを繰り返しサンプリングすることと、前記二値交差エントロピー損失に基づいて前記タスク指向対話モデルを再訓練することにより実行される、請求項1に記載の方法。
【請求項5】
二値交差エントロピー損失に基づいて前記タスク指向対話モデルを訓練することは、
3つのbi-LSTM層をそれぞれ介して、前記対話ロールアウトのサンプリングされたペアの各々の各対話ターンにおけるゴール、信念状態、及び対話行為又は応答シーケンスを3つの符号化表現に符号化するステップと、
前記3つの符号化表現を連結するステップと、
前記連結された符号化表現を、各対話ターンに対する報酬予測を生成する1つ以上のフィードフォワード層に供給するステップと、
生成された報酬予測を、前記対話ロールアウトのサンプリングされたペアの各1つに対する対話報酬に合計するステップと、
前記対話ロールアウトのサンプリングされたペアに対応する対話報酬に基づいて、前記対話ロールアウトのペア間の前記好ましい確率を計算するステップと、
前記対話ロールアウトのペア間の前記好ましい確率と前記対話ロールアウトのペアに基づく前記正規化されたメトリックスコアとの間の前記二値交差エントロピー損失を計算するステップと、
をさらに含む、請求項1に記載の方法。
【請求項6】
前記対話ロールアウトのペアとの間の前記好ましい確率は、正規化又はソフトマックス関数を使用して計算される、請求項5に記載の方法。
【請求項7】
訓練収束に達するまで、前記訓練データセットを使用してターゲット方策について最適化する方策最適化損失に基づいて前記タスク指向対話モデルを繰り返し訓練するステップ、
をさらに含む、請求項1に記載の方法。
【請求項8】
前記方策最適化損失は、
前記タスク指向対話モデルにより、ターゲット方策に従って対話の現在の状態に基づいて第1の予測された行動分布を生成することと、
前記潜在的挙動方策に従って前記対話の行動及び状態の割引パラメータ及び報酬関数に基づいて将来の報酬の第1の割り引きされた合計を計算することと、
前記将来の報酬の第1の割り引きされた合計の第1の期待値と前記第1の予測された行動分布とに基づいて第1の損失目的を計算することであり、前記第1の期待値は、前記潜在的確率的挙動方策に従って前記状態及び前記行動の確率分布上で取得される、ことと、
前記タスク指向対話モデルにより、前記ターゲット方策に従って観測値の時系列からの現在の観測値に基づいて第2の予測された行動分布を生成することと、
特定のロールアウトに対する前記割引パラメータ及び前記報酬関数に基づいて将来の報酬の第2の割り引きされた合計を計算することであり、前記将来の報酬の第2の割り引きされた合計は、前記将来の報酬の第1の割り引きされた合計の崩壊したほぼ決定論的近似である、ことと、
前記将来の報酬の第2の割り引きされた合計の第2の期待値と前記第2の予測された行動分布とに基づいて第2の損失目的を計算することであり、前記第2の期待値は、前記訓練データセットにわたる前記観測値の平均上で取得される、ことと、
前記第1の損失目的と前記第2の損失目的との合計を計算することと、
により計算される、請求項7に記載の方法。
【請求項9】
前記対話の行動及び状態の前記報酬関数からの学習された報酬と、前記タスク指向対話モデルの前記状態及びパラメータを条件とした前記行動の前記ターゲット方策の勾配とに基づいて、勾配更新成分を計算するステップと、
前記勾配更新成分を使用して前記タスク指向対話モデルの前記パラメータを更新するステップと、
をさらに含む、請求項8に記載の方法。
【請求項10】
前記訓練されたタスク指向対話モデルの検証の間に対話ターンをランダムに選択するステップと、
前記対話ターンに関する予測の手動で作成された評価スコアのセットを複数の評価者から受信するステップと、
をさらに含む、請求項1に記載の方法。
【請求項11】
タスク指向学習における因果認識安全方策改善のためのシステムであって、
複数の対話を含む訓練データセットを受信する通信インターフェースであり、前記複数の対話は、潜在的確率的挙動方策に従って生成された第1の対話ロールアウトを含む、通信インターフェースと、
複数のプロセッサ実行可能命令を記憶するメモリと、
前記メモリから前記複数のプロセッサ実行可能命令を読み出して動作を実行するプロセッサと、
を含み、前記動作は
複数の訓練サブセット及び複数の検証サブセットを生成するために、前記訓練データセットを複数回にわたって繰り返しサンプリングすることと、
前記複数の訓練サブセットのうちの第1の訓練サブセット内の訓練データを使用して、エントロピー損失に基づいてタスク指向対話モデルを訓練することと、
前記タスク指向対話モデルにより、前記複数の検証サブセットのうちの第1の検証サブセット内の対話データから予測された対話ロールアウトを生成することと、
前記予測された対話ロールアウトをペアワイズ因果学習サブセットに追加することと、
前記ペアワイズ因果学習サブセットから対話ロールアウトのペアをサンプリングすることと、
前記対話ロールアウトのペア間の好ましい確率と前記対話ロールアウトのペアに基づく正規化されたメトリックスコアとの間の二値交差エントロピー損失に基づいて、前記タスク指向対話モデルを訓練することと、
を含む、システム。
【請求項12】
前記動作は、
前記複数の訓練サブセット又は前記複数の検証サブセットからデータセットを取り出すことと、
前記取り出されたデータセットからの対話データを使用してターゲット方策に従って対話の現在の状態を条件とした予測された対話行動のエントロピーを最小化することにより、前記タスク指向対話モデルを訓練することと、
をさらに含む、請求項11に記載のシステム。
【請求項13】
前記予測された対話ロールアウトは、前記複数の検証サブセットを反復することにより、前記ターゲット方策に従って繰り返し生成される、請求項12に記載のシステム。
【請求項14】
二値交差エントロピー損失に基づいて前記タスク指向対話モデルを訓練する前記動作は、訓練において収束に達するまで、前記ペアワイズ因果学習サブセットから対話ロールアウトの異なるペアを繰り返しサンプリングすることと、前記二値交差エントロピー損失に基づいて前記タスク指向対話モデルを再訓練することにより実行される、請求項11に記載のシステム。
【請求項15】
二値交差エントロピー損失に基づいて前記タスク指向対話モデルを訓練する前記動作は、
3つのbi-LSTM層をそれぞれ介して、前記対話ロールアウトのサンプリングされたペアの各々の各対話ターンにおけるゴール、信念状態、及び対話行為又は応答シーケンスを3つの符号化表現に符号化することと、
前記3つの符号化表現を連結することと、
前記連結された符号化表現を、各対話ターンに対する報酬予測を生成する1つ以上のフィードフォワード層に供給することと、
生成された報酬予測を、前記対話ロールアウトのサンプリングされたペアの各1つに対する対話報酬に合計することと、
前記対話ロールアウトのサンプリングされたペアに対応する対話報酬に基づいて、前記対話ロールアウトのペア間の前記好ましい確率を計算することと、
前記対話ロールアウトのペア間の前記好ましい確率と前記対話ロールアウトのペアに基づく前記正規化されたメトリックスコアとの間の前記二値交差エントロピー損失を計算することと、
をさらに含む、請求項11に記載のシステム。
【請求項16】
前記対話ロールアウトのペアとの間の前記好ましい確率は、正規化又はソフトマックス関数を使用して計算される、請求項15に記載のシステム。
【請求項17】
前記動作は、
前記タスク指向対話モデルにより、ターゲット方策に従って対話の現在の状態に基づいて第1の予測された行動分布を生成することと、
前記潜在的挙動方策に従って前記対話の行動及び状態の割引パラメータ及び報酬関数に基づいて将来の報酬の第1の割り引きされた合計を計算することと、
前記将来の報酬の第1の割り引きされた合計の第1の期待値と前記第1の予測された行動分布とに基づいて第1の損失目的を計算することであり、前記第1の期待値は、前記潜在的確率的挙動方策に従って前記状態及び前記行動の確率分布上で取得される、ことと、
前記タスク指向対話モデルにより、前記ターゲット方策に従って観測値の時系列からの現在の観測値に基づいて第2の予測された行動分布を生成することと、
特定のロールアウトに対する前記割引パラメータ及び前記報酬関数に基づいて将来の報酬の第2の割り引きされた合計を計算することであり、前記将来の報酬の第2の割り引きされた合計は、前記将来の報酬の第1の割り引きされた合計の崩壊したほぼ決定論的近似である、ことと、
前記将来の報酬の第2の割り引きされた合計の第2の期待値と前記第2の予測された行動分布とに基づいて第2の損失目的を計算することであり、前記第2の期待値は、前記訓練データセットにわたる前記観測値の平均上で取得される、ことと、
前記第1の損失目的と前記第2の損失目的との合計を計算することと、
をさらに含む、請求項11に記載のシステム。
【請求項18】
前記動作は、
前記対話の行動及び状態の前記報酬関数からの学習された報酬と、前記タスク指向対話モデルの前記状態及びパラメータを条件とした前記行動の前記ターゲット方策の勾配とに基づいて、勾配更新成分を計算することと、
前記勾配更新成分を使用して前記タスク指向対話モデルの前記パラメータを更新することと、
をさらに含む、請求項17に記載のシステム。
【請求項19】
前記動作は、
前記訓練されたタスク指向対話モデルの検証の間に対話ターンをランダムに選択することと、
前記対話ターンに関する予測の手動で作成された評価スコアのセットを複数の評価者から受信することと、
をさらに含む、請求項11に記載のシステム。
【請求項20】
タスク指向学習における因果認識安全方策改善のための複数のプロセッサ実行可能命令を記憶する非一時的プロセッサ読取可能記憶媒体であって、前記命令は動作を実行するためにプロセッサにより実行され、前記動作は、
複数の対話を含む訓練データセットを受信することであり、前記複数の対話は、潜在的確率的挙動方策に従って生成された第1の対話ロールアウトを含む、ことと、
複数の訓練サブセット及び複数の検証サブセットを生成するために、前記訓練データセットを複数回にわたって繰り返しサンプリングすることと、
前記複数の訓練サブセットのうちの第1の訓練サブセット内の訓練データを使用して、エントロピー損失に基づいてタスク指向対話モデルを訓練することと、
前記タスク指向対話モデルにより、前記複数の検証サブセットのうちの第1の検証サブセット内の対話データから予測された対話ロールアウトを生成することと、
前記予測された対話ロールアウトをペアワイズ因果学習サブセットに追加することと、
前記ペアワイズ因果学習サブセットから対話ロールアウトのペアをサンプリングすることと、
前記対話ロールアウトのペア間の好ましい確率と前記対話ロールアウトのペアに基づく正規化されたメトリックスコアとの間の二値交差エントロピー損失に基づいて、前記タスク指向対話モデルを訓練することと、
を含む、非一時的プロセッサ読取可能記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
[相互参照]
本開示は、2021年2月12日に出願された米国仮出願第63/148,861号の非仮出願であり、その優先権を主張し、また、2020年6月4日に出願された米国仮出願第63/034,653号の非仮出願であり35U.S.C.119に基づく優先権を主張する2020年11月25日に出願された同時係属及び共同所有の米国非仮出願第17/105,262号の一部継続であり、その優先権を主張する、2021年10月13日に出願された米国非仮出願第17/500,855号の優先権を主張する。
【0002】
前述の出願の全てが、参照によりそれらの全体を本明細書にここで明示的に組み込まれる。
【0003】
[技術分野]
本開示は、概して機械学習モデル及びニューラルネットワークに関し、より詳細にはタスク指向対話のための安全方策改善に関する。
【背景技術】
【0004】
ニューラルネットワークは、会話応答を生成し、したがって人間のユーザとの対話を行ってタスクを遂行するために使用されている。例えば、人間のユーザは、インテリジェントアシスタントとの会話に関与して、旅行チケットを予約する、レストラン予約を行う、などすることができる。複雑なタスクを遂行するために、インテリジェントアシスタントは、通常、複数のサブタスクを集合的に完了することを学習する必要がある。例えば、アシスタントは、到着とホテルチェックインとの間に通勤のための十分な時間が残るように、ホテルを予約し、フライトを予約する必要がある。インテリジェントアシスタントがそのような複雑なタスクを学習するために、インテリジェントアシスタントは、所与の時間にサブタスク又はオプションの中で選択するための対話方策を学習し、これはしばしば、サブタスクのステータスを追跡する状態トラッカを伴う。
【0005】
タスク指向対話システムは、通常、人間の実演(例えば、過去の対話など)を使用して収集されたオフラインデータから学習されるが、多様な実演を収集し、それらに注釈を付けることは、高価である可能性がある。さらに、そのようなオフラインのタスク指向対話システムは、しばしば、信念状態トラッカ、対話方策管理、応答生成等の異種システムを伴う。これらの異種システムは、効果的な対話方策学習におけるサンプル効率の必要に加えて、確率性及びその関連課題を誘発する可能性がある。
【0006】
したがって、タスク指向対話システムにおける効率的な方策学習の必要がある。
【図面の簡単な説明】
【0007】
図1A】本明細書で説明される一実施形態による、安全方策改善が適用され得るマルコフ決定過程により記述される例示的なタスク指向対話を示す図を提供する。
図1B】本明細書で説明される一実施形態による、図1Aに示されるユーザとエージェントとの間の複数の対話ターンの例示的なタスク指向対話を示す図を提供する。
図2】本明細書で説明される一実施形態による、報酬学習を用いて方策ネットワークを訓練する例示的なアーキテクチャを示す簡略図を提供する。
図3A】本明細書で説明される一実施形態による、図2に示される報酬学習モジュール内部のワークフローの態様を示す簡略図を提供する。
図3B】本明細書で説明される一実施形態による、図2に示される報酬学習モジュールのためのネットワークアーキテクチャを示す簡略図を提供する。
図4】いくつかの実施形態による、タスク指向対話のための安全方策改善及び報酬学習を実施するためのコンピューティングデバイスの簡略図である。
図5A】一実施形態による、MDPベースの安全方策改善の方法を示す例示的な論理フロー図を提供する。
図5B】一実施形態による、MDPベースの安全方策改善の方法を示す例示的な論理フロー図を提供する。
図6A】本明細書で説明される一実施形態による、因果認識安全方策改善(CASPI)のためのアルゴリズムを示す例示的な擬似コードセグメントを提供する。
図6B】本明細書で説明される一実施形態による、図6Aに示されるCASPIアルゴリズムのための方法を示す例示的な論理フロー図を提供する。
図6C】本明細書で説明される一実施形態による、図6Aに示されるCASPIアルゴリズムのための方法を示す例示的な論理フロー図を提供する。
図7】本明細書で説明される実施形態による、ペアワイズ報酬学習のための混合されたヒューマンインザループ及び自動評価メトリックスコアを示す簡略ブロック図である。
図8】一実施形態による、安全方策改善の、既存の方法との例示的な性能比較を示すデータチャートを提供する。
図9】一実施形態による、安全方策改善の、既存の方法との例示的な性能比較を示すデータチャートを提供する。
図10】一実施形態による、安全方策改善の、既存の方法との例示的な性能比較を示すデータチャートを提供する。
図11】一実施形態による、安全方策改善の、既存の方法との例示的な性能比較を示すデータチャートを提供する。
図12】一実施形態による、安全方策改善の、既存の方法との例示的な性能比較を示すデータチャートを提供する。
図13】一実施形態による、安全方策改善の、既存の方法との例示的な性能比較を示すデータチャートを提供する。
図14】一実施形態による、安全方策改善の、既存の方法との例示的な性能比較を示すデータチャートを提供する。
図15】一実施形態による、安全方策改善の、既存の方法との例示的な性能比較を示すデータチャートを提供する。
図16】一実施形態による、安全方策改善の、既存の方法との例示的な性能比較を示すデータチャートを提供する。
【0008】
図面及び添付書類において、同じ名称を有する要素は、同じ又は類似の機能を有する。
【発明を実施するための形態】
【0009】
タスク指向対話システムは、通常、人間の実演(例えば、過去の対話など)を使用して収集されたオフラインデータから学習されるが、多様な実演を収集し、それらに注釈を付けることは、高価である可能性がある。さらに、そのようなオフラインのタスク指向対話システムは、しばしば、信念状態トラッカ、対話方策管理、応答生成等の異種システムを伴う。これらの異種システムは、効果的な対話方策学習におけるサンプル効率の必要に加えて、確率性及びその関連課題を誘発する可能性がある。
【0010】
いくつかの既存のシステムは、複雑なタスクを解決する際に方策オフ(off-policy)ベースの強化学習(バッチRL)方法を採用する。バッチRL方法は、通常、シミュレータの代わりに履歴的に注釈を付けられたデータを使用し、これは、安価なシミュレータが通常、方策オンで(on-policy)データをサンプリングするために容易に利用可能であるため、サンプル効率が良い場合がある。しかしながら、これらの技法は、対話方策学習の性質に起因して効率的に機能しないことがある。例えば、方策オフベースの学習は、基礎となるマルコフ決定過程(Markov Decision Process、MDP)の所与の状態、例えば信念状態についての挙動方策の推定をしばしば必要とする場合がある。現実的には、信念状態は、必ずしもMDPの真の状態を捕捉するわけではないが、とりわけ、韻律などのMDP潜在状態は、各ターンにおいてエージェント応答に確率性を誘発することがある。さらに、対話行為が自然言語テキストに対して生成されるとき、意味情報が失われる可能性がある。対話行為に対する単なる方策模倣の使用は、複合行動の各構成要素が等しく焦点を合わせられる場合に、特定の結果に対する公平な推論を提供するには不十分である可能性がある。
【0011】
タスク指向対話システムにおける効率的な方策学習の必要を考慮して、本明細書で説明される実施形態は、タスク指向対話のためのバッチ強化学習フレームワークにおける安全方策改善(safe policy improvement)を提供する。具体的には、対話方策は、例えば、新しい方策の性能が正のギャップについて古い挙動方策よりも少なくとも優れていることを強化することにより、性能保証を有する潜在的挙動方策により生成された対話ロールアウトに対して訓練される。次いで、訓練損失目的が、古い挙動方策とターゲット方策との間のKLダイバージェンスが予め定義されたハイパーパラメータより大きくないという条件に従って、将来の報酬の期待された割り引きされた合計を最小化することにより定義される。このようにして、別の方策のロールアウトに対する訓練におけるバイアスを大幅に低減することができ、したがって、「安全な」方策改善が結果としてもたらされる。
【0012】
さらに、バッチ強化設定において人間の実演を模倣する代わりに、人間の発話の意図を推論する報酬を整形するために、ペアワイズ因果報酬学習(pairwise causal reward learning)が提供される。安全方策改善とペアワイズ因果報酬学習との組み合わせは、複雑なタスクを学習する際のサンプル効率を達成し得る。
【0013】
本明細書で使用されるとき、用語「ネットワーク」は、任意の人工知能ネットワーク若しくはシステム、ニューラルネットワーク若しくはシステム、及び/又はそれらの上に若しくはそれらとともに実装された任意の訓練若しくは学習モデルを含む、任意のハードウェア又はソフトウェアベースのフレームワークを含み得る。
【0014】
本明細書で使用されるとき、用語「モジュール」は、1つ以上の機能を実行するハードウェア又はソフトウェアベースのフレームワークを含み得る。いくつかの実施形態において、モジュールは、1つ以上のニューラルネットワーク上に実装されてもよい。
【0015】
図1Aは、本明細書で説明される一実施形態による、安全方策改善が適用され得るマルコフ決定過程により記述される例示的なタスク指向対話を示す図100を提供する。図100は、ユーザ110とインテリジェントエージェント120との間のタスク指向対話の対話ターンを示す。例えば、ユーザ110は、ユーザ発話101「私にロンドンへのフライトを予約して(Book me a flight to London)」を提供することができ、エージェント120は、システム応答「あなたはいつ出たいですか?(when do you want to leave?)」120で応答することができる。ユーザ110とインテリジェントエージェント120との間の対話は、ロンドンへの旅行を計画するタスクを完了するために、タスク指向の対話を形成し得る。
【0016】
タスク指向対話は、連結グラフ構造110により示されるマルコフ決定過程(MDP)としてモデル化され得る。MDPは、状態S、行動A、遷移確率P、報酬R、及び割引係数γのタプル{S,A,P,R,γ}により記述される。状態Sは、環境のエージェントの解釈である対話コンテキストである。行動Aは、各状態においてエージェントに利用可能である可能なコミュニケーション挙動である。遷移確率Pは、行動Aを所与として状態Sが状態S’の別のセットに遷移する確率を定義する。例えば、インテリジェントエージェント120は、状態sを有する時間ステップtにおいて、次の状態への遷移確率P(S’|S,A)を用いて、環境上でターゲット方策π(a|s)により、複合行動aを実行することができる。例えば、ユーザ発話101の後の状態105sでは、元の都市が(ユーザ位置ごとに)確認され、目的地都市「ロンドン」がユーザ発話101から取得されるが、出発日及び出発時刻は不明である。したがって、対話行為106は、エージェント120がシステム応答102でユーザ110にリプライして、出発日に関する情報を要求するために、ターゲット方策π(a|s)に従って実行され得る。対話行為106の後、対話状態は状態sからsに遷移する。
【0017】
割引係数γ∈[0,1]を有する潜在報酬関数R(a,s)が、MDP120に関連づけられ、状態及び行動のセットを所与として報酬値を定義する。例えば、状態s及び対話行為aを所与として、「20」の正の報酬r 115が割り当てられる。一実施形態において、潜在報酬関数R(a,s)及び割引係数γは、MDPのために予め定義され得る。別の実施形態において、潜在報酬関数R(a,s)及び割引係数γは、図3に関連して説明されるペアワイズ因果報酬学習メカニズムを通して学習され得る。
【0018】
一実施形態において、報酬関数及び割引係数を所与として、目的は、ターゲット方策π(a|s)について最適化することであり、これは、MDP上の将来の報酬の期待された割り引きされた合計を最大化し、これは、状態-行動関数
【数1】

として記述され得る。ここで、r(st’,at’)は、将来の時間t’における将来の報酬であり、これは、報酬関数R(a,s)と同様に定義することができる。この目的を達成するために、「安全な」方策改善メカニズムが、図2及び図5に関連して説明される。
【0019】
図1Bは、本明細書で説明される一実施形態による、図1Aに示されるユーザとエージェントとの間の複数の対話ターンの例示的なタスク指向対話を示す図を提供する。図1Bに示される対話は、例えば、特定の時間に出発して特定の目的地に出向く列車を予約することに関する、ゴール122に対応する。対話は、4つの対話ターンを含み、その各々が、語彙化解除された(delexicalized)ユーザ発話125a~d、エージェント対話行為126a~d、及び語彙化解除されたエージェント発話/応答127a~dをそれぞれ含む。4つの対話ターンは、対話行為のための単なる方策模倣の使用が、結果に対して推論するのに不十分である可能性があるが、むしろ、複合行動の各構成要素に等しく焦点を合わせている可能性があることを示し得る。例えば、ターン3及び4は、意味情報においてリッチである。ターン3は、予約プロセスの取引に対するキーを提供し、一方、会話の成功において最小使用のターン4は、他の意味的にリッチなターンと等しい重みを得る。そのような詳細は、模倣方策学習において失われる。
【0020】
図2は、本明細書で説明される一実施形態による、報酬学習を用いて方策ネットワークを訓練する例示的なアーキテクチャを示す簡略図200を提供する。図200は、訓練データセット210が方策ネットワーク220及び報酬学習モジュール260に入力されることを示す。具体的には、データセット220は、対話からの複数のロールアウト(rollouts)212a~nを含む。ロールアウト212a~nは、潜在的確率的挙動方策(latent stochastic behavior policy)に基づいて行動を実行する人間エージェントにより生成され得る。
【0021】
例えば、オフラインバッチRLでは、インテリジェントエージェントは、環境と相互作用することに達しない。代わりに、潜在的確率的挙動方策πに基づいて行動を実行する人間エージェントによりロギングされたオフラインデータDのセット210が取得され得る。オフラインデータDのセット210は、対話の複数のロールアウト212a~nを含み、各々、τ∈Dにより表される。各ロールアウトτ=((o ,a ), ・・・, (oT-1 ,aT-1 ))であり、ここで、各oは、ターンtにおける観測値であり、o=(b,u ,ut-1 )を構成する。ここで、bは、ターンtにおけるエージェントの信念状態であり、u 及びut-1 は、それぞれ、時間t及びt-1におけるユーザ及びエージェント発話である。したがって、バッチRLは、潜在的挙動方策により生成されたロールアウトに対して方策を訓練することを伴う。
【0022】
しかしながら、別の方策のロールアウトに対して、訓練目的、例えば、将来の報酬の割り引きされた合計を直接最適化することは、価値関数推定における大きいバイアス、不十分な一般化特性、及びサンプル非効率性につながる。したがって、新しい方策性能が古い方策と比較して制限されるように、「安全な」方策改善が実装され得る。具体的には、新しいターゲット方策πの価値関数と潜在的挙動方策πの価値関数は、
【数2】

を満たす。ここで、
【数3】

は、それぞれ、ターゲット方策及び挙動方策の価値関数である。ここで、1-δ及びζは、それぞれ、高確率及び近似メタパラメータである。
【0023】
したがって、データセット210からの入力観測値o=(b,u ,ut-1 )に基づいて、方策ネットワーク220は、ターゲット方策πと、方策ネットワークのパラメータθに従って、ターゲット行為分布π(s;θ)を生成することができる。次いで、確率的損失目的(stochastic loss objective)Lsto(θ)が、安全方策改善のために損失モジュール230において計算され得る。
【数4】
【0024】
いくつかの実装では、確率的損失目的Lsto(θ)は、式(1)においてsを置換するために信念状態bを使用して計算され得る。信念状態は、それが全ての情報を捕捉するわけではないため、確率的変数である。方策π(b;θ)は、確率的損失関数を最適化するために計算される。
【0025】
従来、SchulmanらのTrust Region Policy Optimization,in Proceedings of International conference on machine learning,ページ1889‐1897,2015年において提供される更新メカニズムは、(1)の制約が満たされる限りにおける制限された誤差を提供し、ここで、DKL(.||.)はKLダイバージェンスであり、ηはハイパーパラメータである。しかしながら、Schulman更新ルールは、推定するのに扱いにくい挙動方策π(a|s)へのアクセスを必要とする。代わりに、信念状態bを条件とした挙動方策π(b)が、式(1)のsに対するものとして推定され得、これは、確率的挙動方策を結果としてもたらす。信念状態bは、データセットD210内の特定のロールアウトから取得できるターンtにおける観測値oの一部である。したがって、一実装では、(1)において確率的損失目的を計算するとき、π(s)は、データセット210内のロールアウトから取得できるπ(b)により近似され得る。例えば、π(b)の推定は、bを所与とした対話行為aの発生数を、bを所与とした行為aの総数で除算したものにより、与えられ得る。
【0026】
観測値o(これは、信念状態bより多くの情報を含む)のより多くの証拠の利用可能性に基づいて、方策のモードは、ほぼ決定論的(near deterministic)行動に崩壊し(collapse)得る。これを方策学習に織り込むために、損失モジュール240において、さらなる決定論的損失が計算され得る。
【数5】

ここで、
【数6】

は、例えば、時間ステップtからのゴールgを有するロールアウトτとして参照される、単一の軌道/エピソードに対する将来の報酬の割り引きされた合計である。割引係数は、パラメータθの関数である。
【数7】

は、パラメータθを所与とした、状態、行動、及びゴールの報酬関数である。
【数8】

及び割引係数
【数9】

は、報酬学習モジュール260により学習される。したがって、結合損失モジュール250は、方策最適化損失関数を以下のように計算する。
【数10】
【0027】
一実施形態において、ネットワーク220は、確率的損失Lsto(θ)だけ、又は決定論的損失Ldet(θ)だけを使用して訓練され得る。代替的に、ネットワーク220は、以下に説明するように、2つの損失の合計L(θ)により訓練される。
【0028】
一実施形態において、結合損失モジュール250は、方策ネットワーク220上の2つのフォワードパス(forward passes)を介して損失関数(3)を達成することができる。例えば、第1のパスにおいて、データセット210からの信念状態{b}のみが方策ネットワーク220に入力され、それにより、第1のパスは、信念状態{b}のみを条件とした方策の確率性を捕捉する。第1のパスの間、確率的損失モジュール230は、方策ネットワーク220からの行動分布出力π(s;θ)を使用して(1)における確率的損失を計算する。第2のパスでは、データセット210からの全ての観測値情報{o=(b,u ,ut-1 )}が、(2)の決定論的損失を計算するために決定論的損失モジュール240に対する行動分布π(o)を得るために、方策ネットワーク220に入力される。第2のパスは、u及びuなどの状態の他の潜在情報を所与として、モードを崩壊させる。2つのパスの後、結合損失モジュール250は、(3)において損失目的を計算し、これは、逆伝搬を介して方策ネットワーク220を更新するために使用され得る。方策ネットワーク220を用いて安全方策改善を実施するためのワークフローのさらなる詳細は、図5A図5Bに関連して見ることができる。
【0029】
上に示したように、安全方策改善のための確率的損失目的(1)は、潜在的挙動方策のQ関数を必要とし、これは、報酬R(s,a,g)が既知であると仮定して、データセットDに対するモンテカルロサンプリングを使用して推定され得る。報酬学習モジュール260は、人間の実演者の意図に対して因果的に推論される報酬を学習するためのメカニズムを提供する。報酬学習モジュール260は、報酬関数R(s,a,g)及び割引パラメータγを、確率的損失モジュール230及び決定論的損失モジュール240に提供する。報酬学習モジュール260のさらなる詳細は、図3に関連して以下で説明される。
【0030】
図3Aは、一実施形態による、図2に示される報酬学習モジュール260内部のワークフローの態様を示す簡略図を提供する。具体的には、対話方策学習は通常、学習された方策の性能を評価するために、メトリックMを伴う。これらのメトリックは報酬関数のプロキシとして機能することができるが、それらを、報酬を学習することへ直接組み合わせることは、困難であり得る。例えば、これらのメトリック関数は、通常、対話全体に対するメトリックスコアを返す。対話管理システムの複雑な状態-行動空間を所与として、対話レベルでのスコアは、各対話ターンで実行される行動に報酬を与えるために過小指定される(under-specified)。
【0031】
この過小指定されたフィードバックに対処するために、選好(preference)学習が、オンライン設定からオフライン設定に適合され得る。例えば、選好学習は元々、PaulらのFeature selection as causal inference: Experiments with text classification,in Proceedings of the 21st Conference on Computational Natural Language Learning,ページ163‐172,2017年において提案された。報酬は、時間ステップtごとに、r(o,a,g)としてパラメータ化することができる。学習された方策π 及びπ それぞれからサンプリングされたロールアウト内の各状態に対する行動を有する、ロールアウトτ,τ∈Dのペアを所与として、
【数11】

を、π に対するπ の選好を捕捉する確率的尺度とし、次いで、この選好は、2つのロールアウトの各対話ロールアウトの報酬の合計が以下を満たすとき、真である。
【数12】
【0032】
図3Bに関連してさらに説明するように、
【数13】

は、
【数14】

により表される選好確率(preferential probability)として定義される。ここで、φ()は、exp()又はidentity 1()のいずれかであり得る。例えば、確率は、ハイパーパラメータ:
【数15】

を使用して計算され得る。
【0033】
したがって、報酬Rは、選好確率
【数16】

と、ロールアウトのペア間の正規化されたメトリックスコアμ(τ)との間の二値交差エントロピー損失を最小化することにより、最適化され得る。例えば、正規化されたメトリックスコアは、ペアからの第1の対話τの第1のメトリックスコアと、ペアからの第2の対話τの第2のメトリックスコアとに基づいて計算され、第1のメトリックスコアと第2のメトリックスコアの双方が、同じスコア関数M()により生成され、例えば、
【数17】

である。このようにして、(報酬を有する)ネットワークは、ロールアウトペア間の選好を密接に反映することができる性能メトリックを有する対話を生成するように訓練される。ペアワイズ報酬学習のための損失目的は、
【数18】

により計算することができ、ここで、
【数19】

である。
【0034】
ここで、θ及びθは、報酬R(a,s,g;θ)及び割引係数γ(θ)のパラメータにそれぞれ対応する。具体的には、割引係数γは予め定義されてもよく、あるいは訓練の間に学習されてもよい。
【0035】
したがって、報酬学習モジュール260は、データセットDを受信し、K分割の(K-fold)訓練及び検証サブセット261に分割する。例えば、データセット210は、相補的なサブセット261にパーティション化され、1つのサブセットに対して訓練を実行し、別の(テスト)サブセットに対して訓練されたネットワークを検証する。訓練のエポックごとに、K個のベースラインモデル261a~nが、K個の訓練サブセットを使用して、((3)の代わりに)交差エントロピー損失に基づいて訓練される。訓練されたK個のベースラインモデル261a~nは、対応する検証サブセットに対して予測するために使用され、各ベースラインモデルは、方策ネットワーク220により使用されるニューラルモデルと同様であり得る。K個のベースラインモデルからの予測された行動分布は、出力対話264a~nを生成するために使用され、その各々は、選択されたメトリック263によりスコア付けされる。したがって、対応するスコア関数を有する予測された対話264a~nからの対話のペアが、ペアワイズ因果報酬学習モジュール265においてペアワイズ報酬損失(4)を計算するために使用され得る。次いで、ペアワイズ報酬損失(4)は、パラメータθ、θを更新するために、ニューラルネットワークを逆伝搬するために使用され得る。このようにして、ペアワイズ因果報酬学習モジュール265は、報酬関数報酬R(a,s,g;θ)及び割引係数γ(θ)を出力する。例えば、ペアワイズ因果報酬学習モジュール265のためのニューラルネットワークは、行動、状態、及びゴールを埋め込む1つのbi-LSTM層であり得、その後に、いくつかの多層パーセプトロン(multilayer perceptron、MLP)層が続く。
【0036】
別の実施形態において、θ=(θ,θ)とすると、パラメータθは、以下により更新することができる。
【数20】
【0037】
学習された報酬は、データの各インスタンスについてのサンプル重みに類似しており、これは、タスク指向対話(Task oriented Dialogue、ToD)システムの全体的な成功に対する寄与に基づいてサンプル間で勾配更新バジェットを再分配するのに役立つ。この目的のために、学習された報酬は、それがもたらすサンプル効率の利益を得るために、任意の既存のToD対話システムに対するサンプル重みとして使用され得る。
【0038】
一実施形態において、対話ロールアウトは、エキスパート潜在方策により生成される。データ(対話ロールアウト)は、最適な潜在方策及び遷移確率により分配され得る。データの尤度を最大化する方策を学習するプロセスは、ペアワイズ報酬学習目的(5)のための状態行動を探索するためのカリキュラムであり得る。最大尤度(maximum likelihood、MLE)方策を適合させるプロセスは、最適化器の確率性によって有用な摂動を誘発し得る。出力対話264a~nが選択されたメトリック263によりスコア付けされた後、MLEプロセスの収束上で、対応するメトリックスコアを有する学習されたロールアウトのペアが、選好最適化(5)を訓練するために使用されてもよく、これは次いで、細かい粒度の報酬R(a,s,g;θ)を学習する。
【0039】
図3Bは、本明細書で説明される一実施形態による、図2に示される報酬学習モジュール260のためのネットワークアーキテクチャ300を示す簡略図を提供する。一実施形態において、3つの単一bi-LSTM層の各々が、サンプリングされたロールアウトペアの各々における各対話ターンにおいて、ゴール、信念状態、及び対話行為又は応答シーケンスを符号化するために使用される。例えば、bi-LSTM層301aは、サンプリングされた予測されたロールアウトτのゴールを符号化するために使用され、bi-LSTM層302aは、ロールアウトτの各対話ターンの信念状態を符号化するために使用され、bi-LSTM層303aは、ロールアウトτの各対話ターンの対話行為を符号化するために使用される。同様に、bi-LSTM層301bは、サンプリングされた予測ロールアウトτのゴールを符号化するために使用され、bi-LSTM層302bは、ロールアウトτの各対話ターンの信念状態を符号化するために使用され、bi-LSTM層303bは、ロールアウトτの各対話ターンの対話行為を符号化するために使用される。
【0040】
一実施形態において、3つのbi-LSTM層を使用して、ロールアウトτ及びτの双方を符号化することができる。別の実施形態において、並列のbi-LSTM層301a、302a、及び303a、並びに301b、302b、及び303bの2つのセットを使用して、サンプリングされたロールアウトのペアをそれぞれ並列に符号化してもよい。
【0041】
bi-LSTM層301a、302a、及び303aからの3つの符号化表現が、305aにおいて連結される(concatenated)。あるいは、bi-LSTM層301b、302b、及び303bからの3つの符号化表現が、305bにおいて連結される。
【0042】
連結された表現は、次いで、シグモイド関数を使用してロールアウトτ又はτの各ターンに対して制限された報酬予測R(s τ1,a τ1)...R(s τ1,a τ1)又はR(s τ2,a τ2)...R(s τ2,a τ2)を行う前に、フィードフォワード層のカップルを通して供給される。ターンごとの報酬は、例えば、ロールアウトのペアについてのグローバル報酬R(τ)又はR(τ)を形成するために、各ロールアウトの全てのターンにわたって合計される。
【0043】
対話報酬R(τ)及びR(τ)のペアを使用し、ロールアウト間の確率的選好を、標準正規化又はソフトマックス関数のいずれか、例えば、
【数21】

により計算することができ、ここで、φ()関数は、標準正規化又はソフトマックス関数であり得る。この選好確率の出力307は、式(4)に記載される交差エントロピー損失を使用して最適化され得る。
【0044】
図4は、いくつかの実施形態による、タスク指向対話のための安全方策改善及び報酬学習を実施するためのコンピューティングデバイスの簡略図である。図4に示すように、コンピューティングデバイス400は、メモリ420に結合されたプロセッサ410を含む。コンピューティングデバイス400の動作は、プロセッサ410により制御される。コンピューティングデバイス400は、1つのプロセッサ410のみを有して示されているが、プロセッサ410は、コンピューティングデバイス400内の1つ以上の中央処理装置、マルチコアプロセッサ、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、グラフィックス処理ユニット(GPU)などを表し得ることが理解される。コンピューティングデバイス400は、スタンドアロンサブシステムとして、コンピューティングデバイスに追加されたボードとして、及び/又は仮想マシンとして実装されてもよい。
【0045】
メモリ420は、コンピューティングデバイス400により実行されるソフトウェア及び/又はコンピューティングデバイス400の動作の間に使用される1つ以上のデータ構造を記憶するために使用され得る。メモリ420は、1つ以上のタイプの機械読取可能媒体を含み得る。機械読取可能媒体のいくつかの一般的な形態には、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、RAM、PROM、EPROM、FLASH-EPROM、任意の他のメモリチップ若しくはカートリッジ、及び/又はプロセッサ若しくはコンピュータが読み取るように適合された任意の他の媒体を含むことができる。
【0046】
プロセッサ410及び/又はメモリ420は、任意の適切な物理的配置で配置されてよい。いくつかの実施形態において、プロセッサ410及び/又はメモリ420は、同じボード上、同じパッケージ(例えば、システムインパッケージ)内、同じチップ(例えば、システムオンチップ)上などに実装され得る。いくつかの実施形態において、プロセッサ410及び/又はメモリ420は、分散、仮想化、及び/又はコンテナ化されたコンピューティングリソースを含んでもよい。そのような実施形態と一致して、プロセッサ410及び/又はメモリ420は、1つ以上のデータセンタ及び/又はクラウドコンピューティング施設に位置してもよい。
【0047】
いくつかの例において、メモリ420は、1つ以上のプロセッサ(例えば、プロセッサ410)により実行されたときに、本明細書でさらに詳細に説明される方法を1つ以上のプロセッサに実行させ得る実行可能コードを含む、非一時的な有形の機械読取可能媒体を含み得る。例えば、示されるように、メモリ420は、本明細書でさらに説明されるシステム及びモデルを実装及び/又はエミュレートするため、及び/又は方法のいずれかを実装するために使用され得る、安全方策改善モジュール430及び報酬学習モジュール435のための命令を含む。いくつかの例において、安全方策改善モジュール430及び報酬学習モジュール435は、データインターフェース415を介して入力440を受信し、出力450を生成することができる。
【0048】
例えば、入力440は、図2図3に示されるような訓練データセット210を含むことができる。データインターフェース215は、通信ネットワークを介してリモートデータベースからデータセット入力440を受信する通信インターフェースを含んでもよい。別の例において、データインターフェース215は、ユーザがデータセット入力440を選択してプロセッサ410にロードすることができるユーザインターフェースを含んでもよい。出力450は、対話のための行動分布、最適化された方策などを含むことができる。
【0049】
安全方策改善モジュール430は、図2に示す方策ネットワーク220、確率的損失モジュール230、決定論的損失モジュール240、及び結合損失モジュール250を含むことができる。報酬学習モジュール435は、図2に示されるモジュール260と同様でもよく、これは図3においてさらに詳述される。報酬学習モジュール435は、図3に関連して説明したように、Kベースモデル262a~nと、ペアワイズ因果報酬学習モジュール265を含むことができる。
【0050】
図5A図5Bは、一実施形態による、MDPベースの安全方策改善の方法500を示す例示的な論理フロー図を提供する。方法500のプロセス502~524のうちの1つ以上が、少なくとも部分的に、1つ以上のプロセッサにより実行されたときに1つ以上のプロセッサにプロセス502~524のうちの1つ以上を実行させ得る、非一時的な有形の機械読取可能媒体上に記憶された実行可能コードの形態で実装され得る。いくつかの実施形態において、方法500は、モジュール430により使用される方法に対応し得る。
【0051】
プロセス502において、潜在的確率的挙動方策により生成された複数の対話ロールアウト(例えば、ロールアウト212a~n)を含む訓練データセット(例えば、データセット210)が受信される。各ロールアウトは、複数の対話ターンにおけるそれぞれの対話の情報を表す観測値の時系列を含む。
【0052】
プロセス504において、訓練データセットの観測値からの信念状態(例えば、{b})のみが、ニューラルモデルへの第1のパスにおいてニューラルモデル(例えば、方策ネットワーク220)に入力される。
【0053】
プロセス506において、第1の予測された行動分布が、ターゲット方策、例えばπ(s;θ)に従ってそれぞれの対話の現在の状態に基づいて生成される。
【0054】
プロセス508において、将来の報酬の第1の割り引きされた合計が、潜在的挙動方策に従って、それぞれの対話の行動及び状態の割引パラメータ及び報酬関数に基づく。具体的には、第1のパスの間、行動分布は、潜在的確率的挙動方策に従って信念状態を条件とし、信念状態は、観測値の時系列から取得される。
【0055】
プロセス510において、第1の損失目的が、将来の報酬の第1の割り引きされた合計の第1の期待値と第1の予測された行動分布に基づいて計算される。具体的には、第1の期待値は、例えば(1)に従って、潜在的確率的挙動方策に従って状態及び行動の確率分布上で取得される。
【0056】
プロセス512において、完全な観測値が、第2のパスにおいてニューラルモデルに入力される。例えば、信念状態に追加で、データセット210からの全ての観測値情報{o=(b,u ,ut-1 )}が方策ネットワーク220に入力される。
【0057】
プロセス514において、第2の予測された行動分布が、ターゲット方策に従って、観測値の時系列からの現在の観測値に基づいて生成される。例えば、行動分布π(o)が生成される。
【0058】
プロセス516において、特定のロールアウトに対する割引パラメータ及び報酬関数に基づく将来の報酬の第2の割り引きされた合計が計算され、例えば、
【数22】

である。具体的に、将来の報酬の第2の割引された合計は、将来の報酬の第1の割引された合計の崩壊したほぼ決定論的近似(collapsed near-deterministic approximation)である。
【0059】
プロセス520において、第2の損失目的が、将来の報酬の第2の割り引きされた合計の第2の期待値と第2の予測された行動分布に基づいて計算される。具体的には、第2の期待値は、訓練データセットにわたる観測値の平均上で取得される。例えば、第2の損失目的は、(2)に従って決定論的損失モジュール240により計算される。
【0060】
プロセス522において、結合損失目的が、例えば(3)に従って、第1の損失目的と第2の損失目的とを合計することにより計算される。
【0061】
プロセス524において、ニューラルモデルは、潜在的確率的挙動方策とそれぞれの対話の現在の状態を条件としたターゲット方策との間のKLダイバージェンスが予め定義されたハイパーパラメータ未満であるという条件に従って、結合損失目的に基づいて更新される。
【0062】
図6Aは、本明細書で説明される一実施形態による、因果認識安全方策改善(causal aware safe policy improvement、CASPI)のためのアルゴリズムを図示する例示的な擬似コードセグメントを提供する。(訓練)データセットは、K分割の訓練D及び検証セットDにサブサンプリングされる。K個のベースラインモデルが、交差エントロピー損失を使用してエキスパートにより生成されたデータ分布に適合するように訓練される。データ分布を適合させるプロセスの間、依然として学習しているK個の方策を使用して、訓練のエポックごとに、それらの対応するK分割の検証サブセットに対して予測する。対話の各々は、訓練の間に選択された対話レベルメトリックによりスコア付けされる。教師あり学習(supervised learning)プロセスの収束において、上記プロセスにより生成された対話予測のペアが、それらの対応するメトリックスコアとともに、選好最適化目的式(4)のために訓練するために使用され、これは次いで、細かい粒度の報酬R(a;s;g;θ)を学習する。K分割のサブサンプリング及びK個のベースラインモデルの使用は、生成されたサンプルにおける確率性を生成するのに役立つ。それはまた、データを効果的に使用する際に、及び方法をサンプル効率良くするのに役立つ。
【0063】
図6B図6Cは、本明細書で説明される一実施形態による、図6Aに示されるCASPIアルゴリズムのための方法を示す例示的な論理フロー図を提供する。方法600のプロセス602~626の1つ以上が、少なくとも部分的に、1つ以上のプロセッサにより実行されたときに1つ以上のプロセッサにプロセス602~626のうちの1つ以上を実行させ得る、非一時的な有形の機械読取可能媒体上に記憶された実行可能コードの形態で実装され得る。いくつかの実施形態において、方法500は、モジュール430により使用される方法に対応し得る。
【0064】
プロセス602において、潜在的確率的挙動方策により生成された複数の対話ロールアウト(例えば、ロールアウト212a~n)を含む訓練データセット(例えば、データセット210)が受信される。
【0065】
プロセス604において、訓練データセットは、複数の訓練サブセット及び複数の検証サブセットを生成するために、複数回にわたって繰り返しサンプリングされる。例えば、図3Aに関連して説明したように、データセットDは、K分割の訓練D及び検証サブセットD261に分割される。例えば、データセット210は、相補的なサブセット261にパーティション化され、1つのサブセットに対して訓練を実行し、別の(テスト)サブセットに対して訓練されたネットワークを検証する。
【0066】
プロセス606において、(D,D)内の各データセットについて、タスク指向対話モデルは、複数の訓練サブセットのうちの第1の訓練サブセット内の訓練データを使用して、交差エントロピー損失に基づいて訓練される。例えば、データセットが、複数の訓練サブセット又は複数の検証サブセット(D,D)から取り出され、タスク指向対話モデルが、取り出されたデータセットからの対話データを使用してターゲット方策に従って対話の現在の状態を条件とした予測された対話行動のエントロピーを最小化することにより更新される。エントロピー損失は次のように表すことができる。
【数23】

ここで、π(s)は、対話状態sを条件とした方策πに従って予測された対話行動
【数24】

を示す。
【0067】
ステップ608において、ステップ606からの同じそれぞれのデータセットについて、タスク指向対話モデルは、複数の検証サブセットのうちの第1の検証サブセット内の対話データから予測された対話ロールアウトを生成する。
【0068】
ステップ610において、予測された対話ロールアウトは、ペアワイズ因果学習サブセットDに追加される。ステップ612から、別の訓練エポックがある場合、ステップ608~610を繰り返すことができる。ステップ612において他の訓練エポックがない場合、方法600は、ステップ616において、(D,D)内に別のデータセットがあるかどうかを決定することができる。別のデータセットがある場合、方法600は、別のデータセットを用いてステップ606から繰り返すように進む。他のデータセットがない場合、方法600はステップ618に進む。
【0069】
ステップ618において、対話ロールアウトのペアが、ペアワイズ因果学習サブセットからサンプリングされ得る。
【0070】
ステップ620において、タスク指向対話モデルは、対話ロールアウトのペア間の好ましい確率(preferred probability)と対話ロールアウトのペアに基づく正規化されたメトリックスコアとの間の二値交差エントロピー損失に基づいて訓練され得る。例えば、ステップ620は、図3Bに関連して説明されたプロセスフローにより示され得る。
【0071】
ステップ622において、方法600は、訓練収束がデータDを使用して到達したかどうかを決定した。そうでない場合、方法600は、対話ロールアウトのサンプリングされたペアの別のペアを再サンプリングして、ステップ618から繰り返す。データDを使用して収束に達した場合、方法600はステップ624に進む。
【0072】
ステップ624において、タスク指向対話モデルは、訓練データセットを使用してターゲット方策について最適化する方策最適化損失に基づいて訓練され得る。例えば、方策にわたる最適化は、図5A図5Bの方法500に関連して論じられている。
【0073】
ステップ626において、方法600は、訓練収束がデータDを使用して到達したかどうかを決定した。そうでない場合、方法600はステップ624から繰り返す。データDを使用して収束に達した場合、方法600は終了し得る。
【0074】
図7は、本明細書で説明される実施形態による、ペアワイズ報酬学習のための混合されたヒューマンインザループ及び自動評価メトリックスコアを示す簡略ブロック図である。自動評価メトリックは、それら独自のバイアスを有する。ToDの真の目的は、対話システムと相互作用している間の人間の体験であり、自動評価メトリックは、これを捕捉するには不十分である可能性がある。この目的のために、人間の評価が、生成された応答の品質に対して行われ得る。品質は、以下の基準:(a)適切性、例えば、生成された応答が対話ターン内の所与のコンテキストに適切であるか? (b)流暢性、例えば、生成された応答が首尾一貫しており、分かりやすいか? により定義することができる。
【0075】
したがって、図7に示されるように、710における訓練の各エポックにおけるK個のモデルによるK個の検証セットに対する予測、及び702におけるペアワイズ因果報酬学習の後、テストセット内の対話ターンがランダムに選び取られる。人間の評価者は、このターンに至るコンテキストを示され、対話ターンの評価スコアを730で与えた。異なるモデルによるターンの予測は匿名化され、評価者に表示された。例えば、人間の評価者は、適切性及び流暢性について、5のスコアが最良であり1が最悪である、1と5の間のスコアを与えるように求められた。100個のランダムに選択された対話ターンが、10人の参加者に提示された。
【0076】
次いで、ToDモデルは、図6A図6Cに関連して説明したようなペアワイズ因果報酬学習を使用して報酬R(s,a,g)について訓練され、ここで、ミニバッチの例は、人間によりスコア付けされた例730又は自動評価メトリック740によりスコア付けされた例のいずれかからランダムにサンプリングされる。
【0077】
図1A図7を通して説明された実施形態は、対話方策学習に関することが留意される。しかしながら、同様の実施形態は、これらに限られないがエンドツーエンド対話システム訓練(例えば、対話状態トラッカ、対話方策及び応答生成等)などの、同様の設定における異なるタスクに適用され得る。
【0078】
例示的な性能
一実施形態において、訓練データセット(例えば、210)は、MultiWoz2.0データセット、アトラクション、病院、ホテル、警察、タクシー、列車、及び一般的な挨拶のためのさらなるドメインを含む7つのドメインにわたるマルチターンマルチドメインデータセットであり得る。データセットは、情報センターにおける旅行者と店員との間の実際の人間の会話から作成される。各対話は、会話において最大13ターンを有する1~5個のドメインをカバーし得る定義されたゴールを有するユーザにより生成される。データセットは、訓練セットのための8438個の対話と、検証及びテストセットのためのそれぞれ1000個の対話とに分割された10438個の対話を有する。
【0079】
一実施形態において、方策ネットワーク220及び/又は報酬学習ネットワーク260は、ベースライン(「DAMD」と呼ばれる)として、Zhangらの、Task-oriented dialog systems that consider multiple appropriate responses under the same context,arXiv preprint arXiv:1911.10484,2019年において提案されたニューラルモデルを採用してもよい。ペアワイズ因果報酬学習ネットワーク260では、行動、状態、及びゴールを埋め込むための1つのbi-LSTM層と、それに続くMLP層のカップルとが使用され得る。DAMDは、GRUを使用する3つのseq2seq生成モデルから構成される。3つのseq2seqモデルは、信念状態、対話行為、及び応答生成モジュールに対して各々1つである。次いで、アテンション層が、コピーオーバー(copy over)メカニズムのための前のターンのコンテキストベクトルを用いてseq2seqモデルの出力に注意するために使用される。次いで、出力は、それらのそれぞれのモジュールに対するトークンの系列を予測するための表現として使用される。確率的Lsto及び決定論的Ldet損失関数の双方が、対話行為に使用される。DST及び応答生成のために、交差エントロピー損失がDAMDからのように使用される。
【0080】
一実施形態において、報酬学習ネットワーク260は、LinらのMintl:Minimalist transfer learning for task-oriented dialogue systems,arXiv preprint arXiv:2009.12005,2020年に記載されたタスク指向対話モデル、MinTLを含む、さらなる複雑性を有する別のモデルを含む。MinTLは、双方向エンコーダ及び自己回帰デコーダを有する標準的なエンコーダデコーダトランスフォーマアーキテクチャとして使用する大きい事前訓練された言語モデルBARTを使用する。それは、破損文書をノイズ除去するタスクに対して事前訓練される。BARTは、デコーダ出力と元の文書との間の交差エントロピー損失を使用して訓練される。MinTLは、対話行為を明示的に予測しない。したがって、決定論的損失Ldetは、生成された応答に対して直接使用され、DSTでは、損失をMintTLからのまま保持する。
【0081】
一実施形態において、データベース結果はワンホットベクトルとして表される。応答における表面レベルの変動性を低減するために、ドメイン適応的な語彙化解除(delexicalization)前処理が採用され、語彙化解除された応答が、前のターンにおいてシステムにより提供されたいくつかのスロット値を参照する現在の発話に従って埋められ得る特定の値のためのプレースホルダを用いて生成される。
【0082】
一実施形態において、Multi-woz2.0のコンテキスト対応答(context-to-response)生成タスクが実装され得、対応する評価メトリックが、応答の品質を測定するために使用される。これらは、対話の割合、システムが要求された情報を提供したことと、対話の割合、システムが全ての要求された情報に回答したこととをそれぞれ測定する、通知率及び成功率を含み、BLEUは、生成された応答の流暢性を測定するために使用される。これらの設定の双方は、3つの評価メトリックを使用する。これらは、1)通知率-対話の割合を測定し、システムが正しいエンティティを提供したこと、2)成功率-対話の割合、システムが全ての要求された情報に回答したこと、及び、3)BLEU-生成された応答の流暢性を測定することを含む。さらに、結合スコア(通知+成功)×0:5+BLEUが使用される。報告されたCASPIの数は全て、異なるシードを用いた5回の実行の中央値である。
【0083】
ペアワイズ因果報酬学習において使用されるメトリックMに対して、以下のメトリックが使用される。
M:=通知+成功+λ×BLEU。
これは、評価において使用される結合スコアにかなり類似しており、双方は、λ=2のときに等しい。ハイパーパラメータλは、BLEUの達成可能なスケールを正規化するために使用される。成功率は、そのまま使用される場合、現在の状態の報酬が将来の状態の性能に依存することになるため、非マルコフ性及び確率的なターンごとの報酬関数をもたらすことになる。したがって、メトリックMsoftのソフトバージョンが使用され、成功率は、対話内で提供される要求された情報の割合を測定する。成功率の離散バリアントを使用する元のメトリックは、Mhardと呼ばれる。報酬関数R(s,a,g)における行動の選択は、対話行為であるか又は応答を生成するかのいずれかとすることができ、メトリックの対応するバリアントを、M(act)及びM(resp)と呼ぶ。異なるメトリックに適合するための方法の多用途性を実証するために、メトリックの全ての論じられたバリアントが使用される。
【0084】
因果認識安全方策改善(CASPI)は、図8のMultiwoz2.0のコンテキスト対応答生成タスクに関する既存の方法に対して比較される。既存の方法は以下のものを含む。
【0085】
DAMD:Zhangらにより紹介されたものは、ドメイン認識マルチデコーダネットワークである。この方法はまた、マルチアクションデータ拡張と呼ばれるデータ拡張技法を使用することにより、対話行為の確率的性質を利用する。データ拡張を伴うDAMDは、ここではDAMD+マルチアクションとして示される。
【0086】
(Chenらの、Semantically conditioned dialog response generation via hierarchical disentangled self-attention.(HDSA),arXiv preprint arXiv:1905.12866,2019年による)HDSAは、対話行為のために階層グラフ表現を使用することを提案している。それは、対話行為を表すために事前訓練された12層BERTモデルを使用する。予測された対話行為は、もつれを解かれた(disentangled)自己アテンションモデル、3層自己アテンションモデルを使用して階層グラフ構造に変換される。
【0087】
SOLOIST(PengらのSoloist:Few-shot task-oriented dialog with a single pre-trained auto-regressive model,arXiv preprint arXiv:2005.05298,2020年)。これらの方法は、対話履歴において生成された信念状態及びシステム行為なく、ターンレベルデータに対して訓練される。
【0088】
MinTL-BART(Linら)は、ターンごとの対話状態において増分変化のみを予測するレーベンシュタイン信念スパン(Levenshtein belief spans)フレームワークを導入した。それは、モデルアーキテクチャのためのバックボーンとして、事前訓練されたT5及びBARTを活用する。
【0089】
(Wangらの、Modelling hierarchical structure between dialogue policy and natural language generator with option framework for task-oriented dialogue system.arXiv preprint arXiv:2006.06814,2020年により提案された)HDNOは、Multiwoz2.0(Budzianowskiら、2018b)のコンテキスト対応答生成タスクを解決するための対話方策学習方法である。それは、自然言語応答に対応する潜在的な対話行為を学習するために、階層RL及び変分モデルのオプションベースのフレームワークを提案することにより、対話行為及び応答生成タスクの階層的性質を利用する。CASPIとは異なり、HDNOは、報酬関数として成功率などのメトリック関数のスパース性のリスクを強調するが、プロキシ報酬関数を整形することに頼る。プロキシ報酬関数としてマルコフ言語モデルを使用する。言語モデルは、メトリック関数とは独立して学習される。CASPIは、報酬整形を控え、任意の過少指定されたメトリック関数の性質とは独立している。
【0090】
CASPIは、最初に、MultiWoz2.0により定義されたコンテキスト対応答生成タスクに関する現在の最先端の方法に対して比較される。結果が図8で表にされている。DAMDのCASPI適合、CASPI(DAMD)が、このタスクのために使用される。CASPI(DAMD)は、4つの性能基準のうちの3つ、すなわち成功率、通知率、及び結合スコアに関して、他の方法よりも良好に機能する。HDSAは、より良好なBLEUスコアを有する。HDSAによる自然言語のこのリッチな表現力は、大きい12層BERTモデルの使用に由来する。
【0091】
第2に、CASPI(DAMD)及びCASPI(MinTL)の双方の適合が、MultiWoz2.0により定義されたエンドツーエンド対話タスク上で比較される。結果が図9で表に示されている。任意の外部コーパスに対する事前訓練を伴わない、その軽量モデルアーキテクチャを有するCASPI(DAMD)は、全ての評価基準において、全ての他の従前の方法を凌ぐことが可能であった。これは、各対話ターンに対するサンプル重みがタスクの真の目的と十分に整合したモデルをもたらすとき、勾配更新プロセスを導くためにCASPIを使用することを示すことになる。そのロバストな事前訓練されたモデルを有するCASPI(MinTL)は、大きいマージンでCASPI(DAMD)を凌ぐ。これは、既存の方法の、CASPIとの適合の容易さを示すことになる。
【0092】
方策オフ方策学習及び評価と結合された逆強化学習は、サンプル効率が良いことが証明されている。CASPIは、(Zhangら)及び(Linら)それぞれにより実行されるようなデータ拡張及び転移学習などの、他のサンプル効率技法と競合する。仮説を実証するために、CASPIは、低サンプル複雑性レジームにおいてベースラインに対してテストされる。実験のセットアップについては、(Linら)からの低リソーステスト戦略である。CASPIモデルは、訓練データの5%、10%、及び20%に対して訓練され、エンドツーエンド対話及びコンテキスト対応答生成タスクに対して他のベースラインと比較され、図10図11は結果を列挙している。エンドツーエンドタスクでは、データの10%のみに対して訓練されたCASPI(MinTL)が、従前の最先端の方法を凌ぐことが可能であった。MinTLは、3つの性能メトリックのうちの2つに対して100%のデータに対して訓練された。コンテキスト対応答生成タスクでは、データの75%に対して訓練されたCASPI(DAMD)が、HDNOの100%データ性能に匹敵することができた。これは、真の目的に達するために勾配更新プロセスのバジェットをガイドするための正しい報酬関数を有することが、極めて低いリソース設定において重要であることを示すことになる。
【0093】
図12は、MinTL、CASPI(MinTL)、DAMD、及びSimpleTODなどの異なるToDモデルにより生成された応答の例を示す。
【0094】
図13は、基準の適切性及び流暢性に関する人間の評価を示す。スコアの平均及び分散が示される。MinTL 1301、SimpleTOD 1302、及びDAMD 1304の適切性スコアが、CASPI(MinTL)適切性1303に対して比較される。MinTL 1311、SimpleTOD 1312、及びDAMD 1314の流暢性スコアは、CASPI(MinTL)流暢性1313に対して比較される。評価の結果。CASPI(MinTL)1303は、適切性スコアにおいて全ての他のモデル1301、1302、及び1304を凌ぐ。一方、CASPI(MinTL)1313、MinTL 1311、及びSimpleTOD 1312の流暢性スコアは、互いに匹敵する。
【0095】
自動対話評価メトリックがバイアスされ、人間の目的を真に反映しないとき、ただしCASPIでは、これらのかなり同じ対話評価メトリックが報酬R(s,a,g)を学習するために使用される。このギャップを埋めるために、以下のヒューマンインザループ(human-in-the-loop、HITL)実験が行われる:異なるシードを有するペアCASPI(MINTL)モデルが、Multiwoz2.0データセットの5%に対して訓練される。次いで、これらのモデルのペアが、Multiwoz2.0訓練データ(40個の対話)の0.5%に対して予測するために使用され、互いに対して生成された応答のこれらのペアの人間スコアを有した。次いで、モデルは、図6A図6Cに関連して説明したようなペアワイズ因果報酬学習を使用して報酬R(s,a,g)について訓練され、ここで、ミニバッチの例は、図13に示すように、人間によりスコア付けされた例又は自動評価メトリックによりスコア付けされた例のいずれかからランダムにサンプリングされる。次いで、新しいCASPI(MINTL)モデルが、元の5%のデータ及び学習されたR(s,a,g)に対して訓練される。訓練されたモデルの人間の評価は、3人の参加者を使用してテストを形成する24個の対話に対して実行される。図14は、性能を示す。報酬学習におけるHITLスコアを用いて、人間の評価基準:適切性及び流暢性の双方における性能の上昇がある。5%データCASPI(MINTL)の人間の適切性スコアは、1401から1402に増加され、今や100%データDAMDに匹敵する。流暢性スコアも1411から1412に増加した。これは、ペアワイズ因果報酬学習の多用途性を示すことになる。使用されるニューラルネットワークの十分なリッチさにより、ペアワイズ因果報酬学習は、未知の対話評価基準に一般化することができる。
【0096】
図15は、図1Bに示された旅行者と情報センターエージェントとの間の同じ会話を、ペアワイズ因果報酬学習が各ターンに対して予測した例示的な報酬値R(s,a,g)とともに示す。ターン#3が最も高い報酬を受け取ったことが観測され、遡及的に、これが、対話において重要かつリスク回避的なターンである取引が発生するターンであり、それは、自動評価メトリックの成功率により捕捉されることを理解する。ターン#2は、次に最良の報酬を得ており、それは、取引がターン#3で発生するための重要な情報の必要を捕捉している。ターン#4は、細やかさ以外、会話の成功にあまり寄与しないため、ターン#3及び2よりも低い順位の報酬を得る。ターン#4がほとんど全ての会話に、及び教師あり学習に現れ、それが勾配の最も高いシェアを受けていることが典型的であることに留意されたい。学習された報酬は、対話目的の成功に整合される勾配バジェットを再分配する。
【0097】
図16は、特に低サンプルレジームで訓練されたときに、CASPIエージェントが時々示す異なるタイプの挙動を示す。グリーディ(Greedy)エージェント:特定のドメインにおいて、エージェントは、それが全ての必要な情報を収集する前に、又はユーザがサービスを予約することについて要求又は同意する前に、サービスを予約する傾向を有する。図16の第1の例は、この挙動を実証している。ここで、ユーザはタクシーについて要求しており、目的地又は出発の時間などの十分な情報が収集される前に、エージェントはタクシーを予約する。これは、自動評価メトリックにギャップがあるために起こる。低いBLEUスコアと比較的高い通知及び成功率は、グリーディエージェント挙動を示し得る。低いBLEUスコアの他の理由には、応答における多様性の欠如又は応答の形成異常が含まれる。
【0098】
慎重(Cautious)エージェント:エージェントは、必要とされるよりも多くの情報をパックされた長く続くリプライを提供することにより、慎重である傾向がある。エージェントは、情報率を通じて報酬を失うリスクを冒さないように、これを行う傾向がある。この挙動は、図16の第2の例で実証されている。これらの繊細な挙動は、自動評価メトリックにおけるギャップを実証し、これは、図7に示されるようにヒューマンインザループ評価を使用することにより低減され得る。
【0099】
コンピューティングデバイス100などのコンピューティングデバイスのいくつかの例は、1つ以上のプロセッサ(例えば、プロセッサ110)により実行されたときに1つ以上のプロセッサに方法200のプロセスを実行させ得る実行可能コードを含む非一時的な有形の機械読取可能媒体を含み得る。方法200のプロセスを含むことができる機械読取可能媒体のいくつかの一般的な形態は、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、RAM、PROM、EPROM、FLASH-EPROM、任意の他のメモリチップ若しくはカートリッジ、及び/又はプロセッサ若しくはコンピュータが読み取るように適合された任意の他の媒体である。
【0100】
発明の態様、実施形態、実装、又は用途を示す本説明及び添付の図面は、限定するものとして解釈されるべきではない。本説明び特許請求の範囲の主旨及び範囲から逸脱することなく、様々な機械的、組成的、構造的、電気的、及び動作的な変更を行うことができる。いくつかの事例では、本開示の実施形態を不明瞭にしないために、よく知られている回路、構造、又は技法は、詳細に図示又は説明されていない。2つ以上の図における同様の番号は、同じ又は類似の要素を表す。
【0101】
本説明では、本開示と整合するいくつかの実施形態を説明する特定の詳細が記載される。実施形態の完全な理解を提供するために、多数の特定の詳細が記載される。しかしながら、いくつかの実施形態がこれらの特定の詳細の一部又は全部を伴わずに実施され得ることは、当業者には明らかであろう。本明細書に開示された特定の実施形態は、限定的でなく例示的であることが意図される。当業者は、ここでは具体的に説明されていないが、本開示の範囲及び趣旨内にある他の要素を実現することができる。さらに、不必要な繰り返しを避けるために、1つの実施形態に関連して図示及び説明された1つ以上の特徴は、特に別段記載されない限り、又は1つ以上の特徴が実施形態を非機能的にする場合、他の実施形態に組み込まれてもよい。
【0102】
例示的な実施形態が図示及び説明されてきたが、広範囲の修正、変更、及び置換が前述の開示において企図され、いくつかの事例では、実施形態のいくつかの特徴が他の特徴の対応する使用なしに採用され得る。当業者は、多くの変形、代替、及び修正を認識するであろう。したがって、本発明の範囲は、以下の特許請求の範囲によってのみ限定されるべきであり、特許請求の範囲は広く、本明細書で開示される実施形態の範囲と整合するように解釈されることが適切である。
図1A
図1B
図2
図3A
図3B
図4
図5A
図5B
図6A
図6B
図6C
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
【国際調査報告】