特表2024-507162 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ セールスフォース　ドット　コム　インコーポレイティッドの特許一覧

特表2024-507162タスク指向対話の安全方策改善のためのシステム及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3A
3B
4
5A
5B
6A
6B
6C
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-02-16

(54)【発明の名称】タスク指向対話の安全方策改善のためのシステム及び方法

(51)【国際特許分類】

G06N 3/092 20230101AFI20240208BHJP

G06N 20/00 20190101ALI20240208BHJP

【ＦＩ】

G06N3/092

G06N20/00

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023548751

(86)(22)【出願日】2022-01-27

(85)【翻訳文提出日】2023-10-06

(86)【国際出願番号】 US2022014034

(87)【国際公開番号】W WO2022173593

(87)【国際公開日】2022-08-18

(31)【優先権主張番号】63/148,861

(32)【優先日】2021-02-12

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/500,855

(32)【優先日】2021-10-13

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】506332063

【氏名又は名称】セールスフォースインコーポレイテッド

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】ラマチャンドラン，ゴーバルダナサチートハナンダム

(72)【発明者】

【氏名】橋本和真

(72)【発明者】

【氏名】ション，カイミング

(72)【発明者】

【氏名】ソーチャー，リチャード

(57)【要約】

本明細書で説明される実施形態は、タスク指向対話のためのバッチ強化学習フレームワークにおける安全方策改善（ＳＰＩ）を提供する。具体的には、対話方策学習のためのバッチ強化学習フレームワークが提供され、これは、対話の性能を改善し、人間の実演を単に模倣するのでなく人間の応答の背後に本発明を論じる報酬を整形するように学習する。

【特許請求の範囲】

【請求項1】

タスク指向学習における因果認識安全方策改善のための方法であって、
複数の対話を含む訓練データセットを受信するステップであり、前記複数の対話は、潜在的確率的挙動方策に従って生成された第１の対話ロールアウトを含む、ステップと、
複数の訓練サブセット及び複数の検証サブセットを生成するために、前記訓練データセットを複数回にわたって繰り返しサンプリングするステップと、
前記複数の訓練サブセットのうちの第１の訓練サブセット内の訓練データを使用して、交差エントロピー損失に基づいてタスク指向対話モデルを訓練するステップと、
前記タスク指向対話モデルにより、前記複数の検証サブセットのうちの第１の検証サブセット内の対話データに基づいて予測された対話ロールアウトを生成するステップと、
前記予測された対話ロールアウトをペアワイズ因果学習サブセットに追加するステップと、
前記ペアワイズ因果学習サブセットから対話ロールアウトのペアをサンプリングするステップと、
前記対話ロールアウトのペア間の好ましい確率と前記対話ロールアウトのペアに基づく正規化されたメトリックスコアとの間の二値交差エントロピー損失に基づいて、前記タスク指向対話モデルを訓練するステップと、
を含む方法。

【請求項2】

前記複数の訓練サブセット又は前記複数の検証サブセットからデータセットを取り出すステップと、
前記取り出されたデータセットからの対話データを使用してターゲット方策に従って対話の現在の状態を条件とした予測された対話行動の交差エントロピーを最小化することにより、前記タスク指向対話モデルを訓練するステップと、
をさらに含む、請求項１に記載の方法。

【請求項3】

前記予測された対話ロールアウトは、前記複数の検証サブセットを反復することにより、前記ターゲット方策に従って繰り返し生成される、請求項２に記載の方法。

【請求項4】

二値交差エントロピー損失に基づいて前記タスク指向対話モデルを訓練することは、訓練において収束に達するまで、前記ペアワイズ因果学習サブセットから対話ロールアウトの異なるペアを繰り返しサンプリングすることと、前記二値交差エントロピー損失に基づいて前記タスク指向対話モデルを再訓練することにより実行される、請求項１に記載の方法。

【請求項5】

二値交差エントロピー損失に基づいて前記タスク指向対話モデルを訓練することは、
３つのｂｉ－ＬＳＴＭ層をそれぞれ介して、前記対話ロールアウトのサンプリングされたペアの各々の各対話ターンにおけるゴール、信念状態、及び対話行為又は応答シーケンスを３つの符号化表現に符号化するステップと、
前記３つの符号化表現を連結するステップと、
前記連結された符号化表現を、各対話ターンに対する報酬予測を生成する１つ以上のフィードフォワード層に供給するステップと、
生成された報酬予測を、前記対話ロールアウトのサンプリングされたペアの各１つに対する対話報酬に合計するステップと、
前記対話ロールアウトのサンプリングされたペアに対応する対話報酬に基づいて、前記対話ロールアウトのペア間の前記好ましい確率を計算するステップと、
前記対話ロールアウトのペア間の前記好ましい確率と前記対話ロールアウトのペアに基づく前記正規化されたメトリックスコアとの間の前記二値交差エントロピー損失を計算するステップと、
をさらに含む、請求項１に記載の方法。

【請求項6】

前記対話ロールアウトのペアとの間の前記好ましい確率は、正規化又はソフトマックス関数を使用して計算される、請求項５に記載の方法。

【請求項7】

訓練収束に達するまで、前記訓練データセットを使用してターゲット方策について最適化する方策最適化損失に基づいて前記タスク指向対話モデルを繰り返し訓練するステップ、
をさらに含む、請求項１に記載の方法。

【請求項8】

前記方策最適化損失は、
前記タスク指向対話モデルにより、ターゲット方策に従って対話の現在の状態に基づいて第１の予測された行動分布を生成することと、
前記潜在的挙動方策に従って前記対話の行動及び状態の割引パラメータ及び報酬関数に基づいて将来の報酬の第１の割り引きされた合計を計算することと、
前記将来の報酬の第１の割り引きされた合計の第１の期待値と前記第１の予測された行動分布とに基づいて第１の損失目的を計算することであり、前記第１の期待値は、前記潜在的確率的挙動方策に従って前記状態及び前記行動の確率分布上で取得される、ことと、
前記タスク指向対話モデルにより、前記ターゲット方策に従って観測値の時系列からの現在の観測値に基づいて第２の予測された行動分布を生成することと、
特定のロールアウトに対する前記割引パラメータ及び前記報酬関数に基づいて将来の報酬の第２の割り引きされた合計を計算することであり、前記将来の報酬の第２の割り引きされた合計は、前記将来の報酬の第１の割り引きされた合計の崩壊したほぼ決定論的近似である、ことと、
前記将来の報酬の第２の割り引きされた合計の第２の期待値と前記第２の予測された行動分布とに基づいて第２の損失目的を計算することであり、前記第２の期待値は、前記訓練データセットにわたる前記観測値の平均上で取得される、ことと、
前記第１の損失目的と前記第２の損失目的との合計を計算することと、
により計算される、請求項７に記載の方法。

【請求項9】

前記対話の行動及び状態の前記報酬関数からの学習された報酬と、前記タスク指向対話モデルの前記状態及びパラメータを条件とした前記行動の前記ターゲット方策の勾配とに基づいて、勾配更新成分を計算するステップと、
前記勾配更新成分を使用して前記タスク指向対話モデルの前記パラメータを更新するステップと、
をさらに含む、請求項８に記載の方法。

【請求項10】

前記訓練されたタスク指向対話モデルの検証の間に対話ターンをランダムに選択するステップと、
前記対話ターンに関する予測の手動で作成された評価スコアのセットを複数の評価者から受信するステップと、
をさらに含む、請求項１に記載の方法。

【請求項11】

タスク指向学習における因果認識安全方策改善のためのシステムであって、
複数の対話を含む訓練データセットを受信する通信インターフェースであり、前記複数の対話は、潜在的確率的挙動方策に従って生成された第１の対話ロールアウトを含む、通信インターフェースと、
複数のプロセッサ実行可能命令を記憶するメモリと、
前記メモリから前記複数のプロセッサ実行可能命令を読み出して動作を実行するプロセッサと、
を含み、前記動作は
複数の訓練サブセット及び複数の検証サブセットを生成するために、前記訓練データセットを複数回にわたって繰り返しサンプリングすることと、
前記複数の訓練サブセットのうちの第１の訓練サブセット内の訓練データを使用して、エントロピー損失に基づいてタスク指向対話モデルを訓練することと、
前記タスク指向対話モデルにより、前記複数の検証サブセットのうちの第１の検証サブセット内の対話データから予測された対話ロールアウトを生成することと、
前記予測された対話ロールアウトをペアワイズ因果学習サブセットに追加することと、
前記ペアワイズ因果学習サブセットから対話ロールアウトのペアをサンプリングすることと、
前記対話ロールアウトのペア間の好ましい確率と前記対話ロールアウトのペアに基づく正規化されたメトリックスコアとの間の二値交差エントロピー損失に基づいて、前記タスク指向対話モデルを訓練することと、
を含む、システム。

【請求項12】

前記動作は、
前記複数の訓練サブセット又は前記複数の検証サブセットからデータセットを取り出すことと、
前記取り出されたデータセットからの対話データを使用してターゲット方策に従って対話の現在の状態を条件とした予測された対話行動のエントロピーを最小化することにより、前記タスク指向対話モデルを訓練することと、
をさらに含む、請求項１１に記載のシステム。

【請求項13】

前記予測された対話ロールアウトは、前記複数の検証サブセットを反復することにより、前記ターゲット方策に従って繰り返し生成される、請求項１２に記載のシステム。

【請求項14】

二値交差エントロピー損失に基づいて前記タスク指向対話モデルを訓練する前記動作は、訓練において収束に達するまで、前記ペアワイズ因果学習サブセットから対話ロールアウトの異なるペアを繰り返しサンプリングすることと、前記二値交差エントロピー損失に基づいて前記タスク指向対話モデルを再訓練することにより実行される、請求項１１に記載のシステム。

【請求項15】

二値交差エントロピー損失に基づいて前記タスク指向対話モデルを訓練する前記動作は、
３つのｂｉ－ＬＳＴＭ層をそれぞれ介して、前記対話ロールアウトのサンプリングされたペアの各々の各対話ターンにおけるゴール、信念状態、及び対話行為又は応答シーケンスを３つの符号化表現に符号化することと、
前記３つの符号化表現を連結することと、
前記連結された符号化表現を、各対話ターンに対する報酬予測を生成する１つ以上のフィードフォワード層に供給することと、
生成された報酬予測を、前記対話ロールアウトのサンプリングされたペアの各１つに対する対話報酬に合計することと、
前記対話ロールアウトのサンプリングされたペアに対応する対話報酬に基づいて、前記対話ロールアウトのペア間の前記好ましい確率を計算することと、
前記対話ロールアウトのペア間の前記好ましい確率と前記対話ロールアウトのペアに基づく前記正規化されたメトリックスコアとの間の前記二値交差エントロピー損失を計算することと、
をさらに含む、請求項１１に記載のシステム。

【請求項16】

前記対話ロールアウトのペアとの間の前記好ましい確率は、正規化又はソフトマックス関数を使用して計算される、請求項１５に記載のシステム。

【請求項17】

前記動作は、
前記タスク指向対話モデルにより、ターゲット方策に従って対話の現在の状態に基づいて第１の予測された行動分布を生成することと、
前記潜在的挙動方策に従って前記対話の行動及び状態の割引パラメータ及び報酬関数に基づいて将来の報酬の第１の割り引きされた合計を計算することと、
前記将来の報酬の第１の割り引きされた合計の第１の期待値と前記第１の予測された行動分布とに基づいて第１の損失目的を計算することであり、前記第１の期待値は、前記潜在的確率的挙動方策に従って前記状態及び前記行動の確率分布上で取得される、ことと、
前記タスク指向対話モデルにより、前記ターゲット方策に従って観測値の時系列からの現在の観測値に基づいて第２の予測された行動分布を生成することと、
特定のロールアウトに対する前記割引パラメータ及び前記報酬関数に基づいて将来の報酬の第２の割り引きされた合計を計算することであり、前記将来の報酬の第２の割り引きされた合計は、前記将来の報酬の第１の割り引きされた合計の崩壊したほぼ決定論的近似である、ことと、
前記将来の報酬の第２の割り引きされた合計の第２の期待値と前記第２の予測された行動分布とに基づいて第２の損失目的を計算することであり、前記第２の期待値は、前記訓練データセットにわたる前記観測値の平均上で取得される、ことと、
前記第１の損失目的と前記第２の損失目的との合計を計算することと、
をさらに含む、請求項１１に記載のシステム。

【請求項18】

前記動作は、
前記対話の行動及び状態の前記報酬関数からの学習された報酬と、前記タスク指向対話モデルの前記状態及びパラメータを条件とした前記行動の前記ターゲット方策の勾配とに基づいて、勾配更新成分を計算することと、
前記勾配更新成分を使用して前記タスク指向対話モデルの前記パラメータを更新することと、
をさらに含む、請求項１７に記載のシステム。

【請求項19】

前記動作は、
前記訓練されたタスク指向対話モデルの検証の間に対話ターンをランダムに選択することと、
前記対話ターンに関する予測の手動で作成された評価スコアのセットを複数の評価者から受信することと、
をさらに含む、請求項１１に記載のシステム。

【請求項20】

タスク指向学習における因果認識安全方策改善のための複数のプロセッサ実行可能命令を記憶する非一時的プロセッサ読取可能記憶媒体であって、前記命令は動作を実行するためにプロセッサにより実行され、前記動作は、
複数の対話を含む訓練データセットを受信することであり、前記複数の対話は、潜在的確率的挙動方策に従って生成された第１の対話ロールアウトを含む、ことと、
複数の訓練サブセット及び複数の検証サブセットを生成するために、前記訓練データセットを複数回にわたって繰り返しサンプリングすることと、
前記複数の訓練サブセットのうちの第１の訓練サブセット内の訓練データを使用して、エントロピー損失に基づいてタスク指向対話モデルを訓練することと、
前記タスク指向対話モデルにより、前記複数の検証サブセットのうちの第１の検証サブセット内の対話データから予測された対話ロールアウトを生成することと、
前記予測された対話ロールアウトをペアワイズ因果学習サブセットに追加することと、
前記ペアワイズ因果学習サブセットから対話ロールアウトのペアをサンプリングすることと、
前記対話ロールアウトのペア間の好ましい確率と前記対話ロールアウトのペアに基づく正規化されたメトリックスコアとの間の二値交差エントロピー損失に基づいて、前記タスク指向対話モデルを訓練することと、
を含む、非一時的プロセッサ読取可能記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

［相互参照］
本開示は、2021年2月12日に出願された米国仮出願第63/148,861号の非仮出願であり、その優先権を主張し、また、2020年6月4日に出願された米国仮出願第63/034,653号の非仮出願であり35U.S.C.119に基づく優先権を主張する2020年11月25日に出願された同時係属及び共同所有の米国非仮出願第17/105,262号の一部継続であり、その優先権を主張する、2021年10月13日に出願された米国非仮出願第17/500,855号の優先権を主張する。

【0002】

前述の出願の全てが、参照によりそれらの全体を本明細書にここで明示的に組み込まれる。

【0003】

［技術分野］
本開示は、概して機械学習モデル及びニューラルネットワークに関し、より詳細にはタスク指向対話のための安全方策改善に関する。

【背景技術】

【0004】

ニューラルネットワークは、会話応答を生成し、したがって人間のユーザとの対話を行ってタスクを遂行するために使用されている。例えば、人間のユーザは、インテリジェントアシスタントとの会話に関与して、旅行チケットを予約する、レストラン予約を行う、などすることができる。複雑なタスクを遂行するために、インテリジェントアシスタントは、通常、複数のサブタスクを集合的に完了することを学習する必要がある。例えば、アシスタントは、到着とホテルチェックインとの間に通勤のための十分な時間が残るように、ホテルを予約し、フライトを予約する必要がある。インテリジェントアシスタントがそのような複雑なタスクを学習するために、インテリジェントアシスタントは、所与の時間にサブタスク又はオプションの中で選択するための対話方策を学習し、これはしばしば、サブタスクのステータスを追跡する状態トラッカを伴う。

【0005】

タスク指向対話システムは、通常、人間の実演（例えば、過去の対話など）を使用して収集されたオフラインデータから学習されるが、多様な実演を収集し、それらに注釈を付けることは、高価である可能性がある。さらに、そのようなオフラインのタスク指向対話システムは、しばしば、信念状態トラッカ、対話方策管理、応答生成等の異種システムを伴う。これらの異種システムは、効果的な対話方策学習におけるサンプル効率の必要に加えて、確率性及びその関連課題を誘発する可能性がある。

【0006】

したがって、タスク指向対話システムにおける効率的な方策学習の必要がある。

【図面の簡単な説明】

【0007】

【図1A】本明細書で説明される一実施形態による、安全方策改善が適用され得るマルコフ決定過程により記述される例示的なタスク指向対話を示す図を提供する。

【図1B】本明細書で説明される一実施形態による、図１Ａに示されるユーザとエージェントとの間の複数の対話ターンの例示的なタスク指向対話を示す図を提供する。

【図2】本明細書で説明される一実施形態による、報酬学習を用いて方策ネットワークを訓練する例示的なアーキテクチャを示す簡略図を提供する。

【図3A】本明細書で説明される一実施形態による、図２に示される報酬学習モジュール内部のワークフローの態様を示す簡略図を提供する。

【図3B】本明細書で説明される一実施形態による、図２に示される報酬学習モジュールのためのネットワークアーキテクチャを示す簡略図を提供する。

【図4】いくつかの実施形態による、タスク指向対話のための安全方策改善及び報酬学習を実施するためのコンピューティングデバイスの簡略図である。

【図5A】一実施形態による、ＭＤＰベースの安全方策改善の方法を示す例示的な論理フロー図を提供する。

【図5B】一実施形態による、ＭＤＰベースの安全方策改善の方法を示す例示的な論理フロー図を提供する。

【図6A】本明細書で説明される一実施形態による、因果認識安全方策改善（ＣＡＳＰＩ）のためのアルゴリズムを示す例示的な擬似コードセグメントを提供する。

【図6B】本明細書で説明される一実施形態による、図６Ａに示されるＣＡＳＰＩアルゴリズムのための方法を示す例示的な論理フロー図を提供する。

【図6C】本明細書で説明される一実施形態による、図６Ａに示されるＣＡＳＰＩアルゴリズムのための方法を示す例示的な論理フロー図を提供する。

【図7】本明細書で説明される実施形態による、ペアワイズ報酬学習のための混合されたヒューマンインザループ及び自動評価メトリックスコアを示す簡略ブロック図である。

【図8】一実施形態による、安全方策改善の、既存の方法との例示的な性能比較を示すデータチャートを提供する。

【図9】一実施形態による、安全方策改善の、既存の方法との例示的な性能比較を示すデータチャートを提供する。

【図10】一実施形態による、安全方策改善の、既存の方法との例示的な性能比較を示すデータチャートを提供する。

【図11】一実施形態による、安全方策改善の、既存の方法との例示的な性能比較を示すデータチャートを提供する。

【図12】一実施形態による、安全方策改善の、既存の方法との例示的な性能比較を示すデータチャートを提供する。

【図13】一実施形態による、安全方策改善の、既存の方法との例示的な性能比較を示すデータチャートを提供する。

【図14】一実施形態による、安全方策改善の、既存の方法との例示的な性能比較を示すデータチャートを提供する。

【図15】一実施形態による、安全方策改善の、既存の方法との例示的な性能比較を示すデータチャートを提供する。

【図16】一実施形態による、安全方策改善の、既存の方法との例示的な性能比較を示すデータチャートを提供する。

【0008】

図面及び添付書類において、同じ名称を有する要素は、同じ又は類似の機能を有する。

【発明を実施するための形態】

【0009】

【0010】

いくつかの既存のシステムは、複雑なタスクを解決する際に方策オフ（off-policy）ベースの強化学習（バッチＲＬ）方法を採用する。バッチＲＬ方法は、通常、シミュレータの代わりに履歴的に注釈を付けられたデータを使用し、これは、安価なシミュレータが通常、方策オンで（on-policy）データをサンプリングするために容易に利用可能であるため、サンプル効率が良い場合がある。しかしながら、これらの技法は、対話方策学習の性質に起因して効率的に機能しないことがある。例えば、方策オフベースの学習は、基礎となるマルコフ決定過程（Markov Decision Process、ＭＤＰ）の所与の状態、例えば信念状態についての挙動方策の推定をしばしば必要とする場合がある。現実的には、信念状態は、必ずしもＭＤＰの真の状態を捕捉するわけではないが、とりわけ、韻律などのＭＤＰ潜在状態は、各ターンにおいてエージェント応答に確率性を誘発することがある。さらに、対話行為が自然言語テキストに対して生成されるとき、意味情報が失われる可能性がある。対話行為に対する単なる方策模倣の使用は、複合行動の各構成要素が等しく焦点を合わせられる場合に、特定の結果に対する公平な推論を提供するには不十分である可能性がある。

【0011】

タスク指向対話システムにおける効率的な方策学習の必要を考慮して、本明細書で説明される実施形態は、タスク指向対話のためのバッチ強化学習フレームワークにおける安全方策改善（safe policy improvement）を提供する。具体的には、対話方策は、例えば、新しい方策の性能が正のギャップについて古い挙動方策よりも少なくとも優れていることを強化することにより、性能保証を有する潜在的挙動方策により生成された対話ロールアウトに対して訓練される。次いで、訓練損失目的が、古い挙動方策とターゲット方策との間のＫＬダイバージェンスが予め定義されたハイパーパラメータより大きくないという条件に従って、将来の報酬の期待された割り引きされた合計を最小化することにより定義される。このようにして、別の方策のロールアウトに対する訓練におけるバイアスを大幅に低減することができ、したがって、「安全な」方策改善が結果としてもたらされる。

【0012】

さらに、バッチ強化設定において人間の実演を模倣する代わりに、人間の発話の意図を推論する報酬を整形するために、ペアワイズ因果報酬学習（pairwise causal reward learning）が提供される。安全方策改善とペアワイズ因果報酬学習との組み合わせは、複雑なタスクを学習する際のサンプル効率を達成し得る。

【0013】

本明細書で使用されるとき、用語「ネットワーク」は、任意の人工知能ネットワーク若しくはシステム、ニューラルネットワーク若しくはシステム、及び／又はそれらの上に若しくはそれらとともに実装された任意の訓練若しくは学習モデルを含む、任意のハードウェア又はソフトウェアベースのフレームワークを含み得る。

【0014】

本明細書で使用されるとき、用語「モジュール」は、１つ以上の機能を実行するハードウェア又はソフトウェアベースのフレームワークを含み得る。いくつかの実施形態において、モジュールは、１つ以上のニューラルネットワーク上に実装されてもよい。

【0015】

図１Ａは、本明細書で説明される一実施形態による、安全方策改善が適用され得るマルコフ決定過程により記述される例示的なタスク指向対話を示す図１００を提供する。図１００は、ユーザ１１０とインテリジェントエージェント１２０との間のタスク指向対話の対話ターンを示す。例えば、ユーザ１１０は、ユーザ発話１０１「私にロンドンへのフライトを予約して（Book me a flight to London）」を提供することができ、エージェント１２０は、システム応答「あなたはいつ出たいですか？（when do you want to leave?）」１２０で応答することができる。ユーザ１１０とインテリジェントエージェント１２０との間の対話は、ロンドンへの旅行を計画するタスクを完了するために、タスク指向の対話を形成し得る。

【0016】

タスク指向対話は、連結グラフ構造１１０により示されるマルコフ決定過程（ＭＤＰ）としてモデル化され得る。ＭＤＰは、状態Ｓ、行動Ａ、遷移確率Ｐ、報酬Ｒ、及び割引係数γのタプル｛Ｓ，Ａ，Ｐ，Ｒ，γ｝により記述される。状態Ｓは、環境のエージェントの解釈である対話コンテキストである。行動Ａは、各状態においてエージェントに利用可能である可能なコミュニケーション挙動である。遷移確率Ｐは、行動Ａを所与として状態Ｓが状態Ｓ’の別のセットに遷移する確率を定義する。例えば、インテリジェントエージェント１２０は、状態ｓ_ｔを有する時間ステップｔにおいて、次の状態への遷移確率Ｐ（Ｓ’｜Ｓ，Ａ）を用いて、環境上でターゲット方策π_ｅ（ａ_ｔ｜ｓ_ｔ）により、複合行動ａ_ｔを実行することができる。例えば、ユーザ発話１０１の後の状態１０５ｓ_１では、元の都市が（ユーザ位置ごとに）確認され、目的地都市「ロンドン」がユーザ発話１０１から取得されるが、出発日及び出発時刻は不明である。したがって、対話行為１０６は、エージェント１２０がシステム応答１０２でユーザ１１０にリプライして、出発日に関する情報を要求するために、ターゲット方策π_ｅ（ａ_２｜ｓ_１）に従って実行され得る。対話行為１０６の後、対話状態は状態ｓ_１からｓ_２に遷移する。

【0017】

割引係数γ∈[０，１]を有する潜在報酬関数Ｒ（ａ，ｓ）が、ＭＤＰ１２０に関連づけられ、状態及び行動のセットを所与として報酬値を定義する。例えば、状態ｓ_１及び対話行為ａ_１を所与として、「２０」の正の報酬ｒ１１５が割り当てられる。一実施形態において、潜在報酬関数Ｒ（ａ，ｓ）及び割引係数γは、ＭＤＰのために予め定義され得る。別の実施形態において、潜在報酬関数Ｒ（ａ，ｓ）及び割引係数γは、図３に関連して説明されるペアワイズ因果報酬学習メカニズムを通して学習され得る。

【0018】

一実施形態において、報酬関数及び割引係数を所与として、目的は、ターゲット方策π_ｅ（ａ_ｔ｜ｓ_ｔ）について最適化することであり、これは、ＭＤＰ上の将来の報酬の期待された割り引きされた合計を最大化し、これは、状態－行動関数

【数1】

として記述され得る。ここで、ｒ（ｓ_ｔ’，ａ_ｔ’）は、将来の時間ｔ’における将来の報酬であり、これは、報酬関数Ｒ（ａ，ｓ）と同様に定義することができる。この目的を達成するために、「安全な」方策改善メカニズムが、図２及び図５に関連して説明される。

【0019】

図１Ｂは、本明細書で説明される一実施形態による、図１Ａに示されるユーザとエージェントとの間の複数の対話ターンの例示的なタスク指向対話を示す図を提供する。図１Ｂに示される対話は、例えば、特定の時間に出発して特定の目的地に出向く列車を予約することに関する、ゴール１２２に対応する。対話は、４つの対話ターンを含み、その各々が、語彙化解除された（delexicalized）ユーザ発話１２５ａ～ｄ、エージェント対話行為１２６ａ～ｄ、及び語彙化解除されたエージェント発話／応答１２７ａ～ｄをそれぞれ含む。４つの対話ターンは、対話行為のための単なる方策模倣の使用が、結果に対して推論するのに不十分である可能性があるが、むしろ、複合行動の各構成要素に等しく焦点を合わせている可能性があることを示し得る。例えば、ターン３及び４は、意味情報においてリッチである。ターン３は、予約プロセスの取引に対するキーを提供し、一方、会話の成功において最小使用のターン４は、他の意味的にリッチなターンと等しい重みを得る。そのような詳細は、模倣方策学習において失われる。

【0020】

図２は、本明細書で説明される一実施形態による、報酬学習を用いて方策ネットワークを訓練する例示的なアーキテクチャを示す簡略図２００を提供する。図２００は、訓練データセット２１０が方策ネットワーク２２０及び報酬学習モジュール２６０に入力されることを示す。具体的には、データセット２２０は、対話からの複数のロールアウト（rollouts）２１２ａ～ｎを含む。ロールアウト２１２ａ～ｎは、潜在的確率的挙動方策（latent stochastic behavior policy）に基づいて行動を実行する人間エージェントにより生成され得る。

【0021】

例えば、オフラインバッチＲＬでは、インテリジェントエージェントは、環境と相互作用することに達しない。代わりに、潜在的確率的挙動方策π_ｂに基づいて行動を実行する人間エージェントによりロギングされたオフラインデータＤのセット２１０が取得され得る。オフラインデータＤのセット２１０は、対話の複数のロールアウト２１２ａ～ｎを含み、各々、τ^ｉ∈Ｄにより表される。各ロールアウトτ^ｉ＝（（ｏ_０ ^ｉ，ａ_０ ^ｉ），・・・，（ｏ_Ｔ－１ ^ｉ，ａ_Ｔ－１ ^ｉ））であり、ここで、各ｏ_ｔは、ターンｔにおける観測値であり、ｏ_ｔ＝（ｂ_ｔ，ｕ_ｔ ^ｕ，ｕ_ｔ－１ ^ａ）を構成する。ここで、ｂ_ｔは、ターンｔにおけるエージェントの信念状態であり、ｕ_ｔ ^ｕ及びｕ_ｔ－１ ^ａは、それぞれ、時間ｔ及びｔ－１におけるユーザ及びエージェント発話である。したがって、バッチＲＬは、潜在的挙動方策により生成されたロールアウトに対して方策を訓練することを伴う。

【0022】

しかしながら、別の方策のロールアウトに対して、訓練目的、例えば、将来の報酬の割り引きされた合計を直接最適化することは、価値関数推定における大きいバイアス、不十分な一般化特性、及びサンプル非効率性につながる。したがって、新しい方策性能が古い方策と比較して制限されるように、「安全な」方策改善が実装され得る。具体的には、新しいターゲット方策π_ｅの価値関数と潜在的挙動方策π_ｂの価値関数は、

【数2】

を満たす。ここで、

【数3】

は、それぞれ、ターゲット方策及び挙動方策の価値関数である。ここで、１－δ及びζは、それぞれ、高確率及び近似メタパラメータである。

【0023】

したがって、データセット２１０からの入力観測値ｏ_ｔ＝（ｂ_ｔ，ｕ_ｔ ^ｕ，ｕ_ｔ－１ ^ａ）に基づいて、方策ネットワーク２２０は、ターゲット方策π_ｅと、方策ネットワークのパラメータθに従って、ターゲット行為分布π_ｅ（ｓ_ｔ；θ）を生成することができる。次いで、確率的損失目的（stochastic loss objective）Ｌ_ｓｔｏ（θ）が、安全方策改善のために損失モジュール２３０において計算され得る。

【数4】

【0024】

いくつかの実装では、確率的損失目的Ｌ_ｓｔｏ（θ）は、式（１）においてｓ_ｔを置換するために信念状態ｂ_ｔを使用して計算され得る。信念状態は、それが全ての情報を捕捉するわけではないため、確率的変数である。方策π_ｅ（ｂ_ｔ；θ）は、確率的損失関数を最適化するために計算される。

【0025】

従来、SchulmanらのTrust Region Policy Optimization，in Proceedings of International conference on machine learning，ページ1889‐1897，2015年において提供される更新メカニズムは、（１）の制約が満たされる限りにおける制限された誤差を提供し、ここで、Ｄ_ＫＬ（.||．）はＫＬダイバージェンスであり、ηはハイパーパラメータである。しかしながら、Schulman更新ルールは、推定するのに扱いにくい挙動方策π_ｂ（ａ_ｔ｜ｓ_ｔ）へのアクセスを必要とする。代わりに、信念状態ｂ_ｔを条件とした挙動方策π_ｂ（ｂ_ｔ）が、式（１）のｓ_ｔに対するものとして推定され得、これは、確率的挙動方策を結果としてもたらす。信念状態ｂ_ｔは、データセットＤ２１０内の特定のロールアウトから取得できるターンｔにおける観測値ｏ_ｔの一部である。したがって、一実装では、（１）において確率的損失目的を計算するとき、π_ｂ（ｓ_ｔ）は、データセット２１０内のロールアウトから取得できるπ_ｂ（ｂ_ｔ）により近似され得る。例えば、π_ｂ（ｂ_ｔ）の推定は、ｂ_ｔを所与とした対話行為ａ_ｔの発生数を、ｂ_ｔを所与とした行為ａ_ｔの総数で除算したものにより、与えられ得る。

【0026】

観測値ｏ_ｔ（これは、信念状態ｂ_ｔより多くの情報を含む）のより多くの証拠の利用可能性に基づいて、方策のモードは、ほぼ決定論的（near deterministic）行動に崩壊し（collapse）得る。これを方策学習に織り込むために、損失モジュール２４０において、さらなる決定論的損失が計算され得る。

【数5】

ここで、

【数6】

は、例えば、時間ステップｔからのゴールｇ^ｉを有するロールアウトτ^ｉとして参照される、単一の軌道／エピソードに対する将来の報酬の割り引きされた合計である。割引係数は、パラメータθ_１の関数である。

【数7】

は、パラメータθ_２を所与とした、状態、行動、及びゴールの報酬関数である。

【数8】

及び割引係数

【数9】

は、報酬学習モジュール２６０により学習される。したがって、結合損失モジュール２５０は、方策最適化損失関数を以下のように計算する。

【数10】

【0027】

一実施形態において、ネットワーク２２０は、確率的損失Ｌ_ｓｔｏ（θ）だけ、又は決定論的損失Ｌ_ｄｅｔ（θ）だけを使用して訓練され得る。代替的に、ネットワーク２２０は、以下に説明するように、２つの損失の合計Ｌ（θ）により訓練される。

【0028】

一実施形態において、結合損失モジュール２５０は、方策ネットワーク２２０上の２つのフォワードパス（forward passes）を介して損失関数（３）を達成することができる。例えば、第１のパスにおいて、データセット２１０からの信念状態｛ｂ_ｔ｝のみが方策ネットワーク２２０に入力され、それにより、第１のパスは、信念状態｛ｂ_ｔ｝のみを条件とした方策の確率性を捕捉する。第１のパスの間、確率的損失モジュール２３０は、方策ネットワーク２２０からの行動分布出力π_ｅ（ｓ_ｔ；θ）を使用して（１）における確率的損失を計算する。第２のパスでは、データセット２１０からの全ての観測値情報｛ｏ_ｔ＝（ｂ_ｔ，ｕ_ｔ ^ｕ，ｕ_ｔ－１ ^ａ）｝が、（２）の決定論的損失を計算するために決定論的損失モジュール２４０に対する行動分布π_ｅ（ｏ_ｔ）を得るために、方策ネットワーク２２０に入力される。第２のパスは、ｕ^ｕ及びｕ^ａなどの状態の他の潜在情報を所与として、モードを崩壊させる。２つのパスの後、結合損失モジュール２５０は、（３）において損失目的を計算し、これは、逆伝搬を介して方策ネットワーク２２０を更新するために使用され得る。方策ネットワーク２２０を用いて安全方策改善を実施するためのワークフローのさらなる詳細は、図５Ａ～図５Ｂに関連して見ることができる。

【0029】

上に示したように、安全方策改善のための確率的損失目的（１）は、潜在的挙動方策のＱ関数を必要とし、これは、報酬Ｒ（ｓ，ａ，ｇ）が既知であると仮定して、データセットＤに対するモンテカルロサンプリングを使用して推定され得る。報酬学習モジュール２６０は、人間の実演者の意図に対して因果的に推論される報酬を学習するためのメカニズムを提供する。報酬学習モジュール２６０は、報酬関数Ｒ（ｓ，ａ，ｇ）及び割引パラメータγを、確率的損失モジュール２３０及び決定論的損失モジュール２４０に提供する。報酬学習モジュール２６０のさらなる詳細は、図３に関連して以下で説明される。

【0030】

図３Ａは、一実施形態による、図２に示される報酬学習モジュール２６０内部のワークフローの態様を示す簡略図を提供する。具体的には、対話方策学習は通常、学習された方策の性能を評価するために、メトリックＭを伴う。これらのメトリックは報酬関数のプロキシとして機能することができるが、それらを、報酬を学習することへ直接組み合わせることは、困難であり得る。例えば、これらのメトリック関数は、通常、対話全体に対するメトリックスコアを返す。対話管理システムの複雑な状態－行動空間を所与として、対話レベルでのスコアは、各対話ターンで実行される行動に報酬を与えるために過小指定される（under-specified）。

【0031】

この過小指定されたフィードバックに対処するために、選好（preference）学習が、オンライン設定からオフライン設定に適合され得る。例えば、選好学習は元々、PaulらのFeature selection as causal inference： Experiments with text classification，in Proceedings of the 21st Conference on Computational Natural Language Learning，ページ163‐172，2017年において提案された。報酬は、時間ステップｔごとに、ｒ（ｏ_ｔ，ａ_ｔ，ｇ）としてパラメータ化することができる。学習された方策π_ｅ ^１及びπ_ｅ ^２それぞれからサンプリングされたロールアウト内の各状態に対する行動を有する、ロールアウトτ^１，τ^２∈Ｄのペアを所与として、

【数11】

を、π_ｅ ^２に対するπ_ｅ ^１の選好を捕捉する確率的尺度とし、次いで、この選好は、２つのロールアウトの各対話ロールアウトの報酬の合計が以下を満たすとき、真である。

【数12】

【0032】

図３Ｂに関連してさらに説明するように、

【数13】

は、

【数14】

により表される選好確率（preferential probability）として定義される。ここで、φ（）は、ｅｘｐ（）又はｉｄｅｎｔｉｔｙ１（）のいずれかであり得る。例えば、確率は、ハイパーパラメータ：

【数15】

を使用して計算され得る。

【0033】

したがって、報酬Ｒは、選好確率

【数16】

と、ロールアウトのペア間の正規化されたメトリックスコアμ（τ）との間の二値交差エントロピー損失を最小化することにより、最適化され得る。例えば、正規化されたメトリックスコアは、ペアからの第１の対話τ^１の第１のメトリックスコアと、ペアからの第２の対話τ^２の第２のメトリックスコアとに基づいて計算され、第１のメトリックスコアと第２のメトリックスコアの双方が、同じスコア関数Ｍ（）により生成され、例えば、

【数17】

である。このようにして、（報酬を有する）ネットワークは、ロールアウトペア間の選好を密接に反映することができる性能メトリックを有する対話を生成するように訓練される。ペアワイズ報酬学習のための損失目的は、

【数18】

により計算することができ、ここで、

【数19】

である。

【0034】

ここで、θ_１及びθ_２は、報酬Ｒ（ａ，ｓ，ｇ；θ_１）及び割引係数γ（θ_２）のパラメータにそれぞれ対応する。具体的には、割引係数γは予め定義されてもよく、あるいは訓練の間に学習されてもよい。

【0035】

したがって、報酬学習モジュール２６０は、データセットＤを受信し、Ｋ分割の（K-fold）訓練及び検証サブセット２６１に分割する。例えば、データセット２１０は、相補的なサブセット２６１にパーティション化され、１つのサブセットに対して訓練を実行し、別の（テスト）サブセットに対して訓練されたネットワークを検証する。訓練のエポックごとに、Ｋ個のベースラインモデル２６１ａ～ｎが、Ｋ個の訓練サブセットを使用して、（（３）の代わりに）交差エントロピー損失に基づいて訓練される。訓練されたＫ個のベースラインモデル２６１ａ～ｎは、対応する検証サブセットに対して予測するために使用され、各ベースラインモデルは、方策ネットワーク２２０により使用されるニューラルモデルと同様であり得る。Ｋ個のベースラインモデルからの予測された行動分布は、出力対話２６４ａ～ｎを生成するために使用され、その各々は、選択されたメトリック２６３によりスコア付けされる。したがって、対応するスコア関数を有する予測された対話２６４ａ～ｎからの対話のペアが、ペアワイズ因果報酬学習モジュール２６５においてペアワイズ報酬損失（４）を計算するために使用され得る。次いで、ペアワイズ報酬損失（４）は、パラメータθ_１、θ_２を更新するために、ニューラルネットワークを逆伝搬するために使用され得る。このようにして、ペアワイズ因果報酬学習モジュール２６５は、報酬関数報酬Ｒ（ａ，ｓ，ｇ；θ_１）及び割引係数γ（θ_２）を出力する。例えば、ペアワイズ因果報酬学習モジュール２６５のためのニューラルネットワークは、行動、状態、及びゴールを埋め込む１つのｂｉ－ＬＳＴＭ層であり得、その後に、いくつかの多層パーセプトロン（multilayer perceptron、ＭＬＰ）層が続く。

【0036】

別の実施形態において、θ＝（θ_１，θ_２）とすると、パラメータθは、以下により更新することができる。

【数20】

【0037】

学習された報酬は、データの各インスタンスについてのサンプル重みに類似しており、これは、タスク指向対話（Task oriented Dialogue、ＴｏＤ）システムの全体的な成功に対する寄与に基づいてサンプル間で勾配更新バジェットを再分配するのに役立つ。この目的のために、学習された報酬は、それがもたらすサンプル効率の利益を得るために、任意の既存のＴｏＤ対話システムに対するサンプル重みとして使用され得る。

【0038】

一実施形態において、対話ロールアウトは、エキスパート潜在方策により生成される。データ（対話ロールアウト）は、最適な潜在方策及び遷移確率により分配され得る。データの尤度を最大化する方策を学習するプロセスは、ペアワイズ報酬学習目的（５）のための状態行動を探索するためのカリキュラムであり得る。最大尤度（maximum likelihood、ＭＬＥ）方策を適合させるプロセスは、最適化器の確率性によって有用な摂動を誘発し得る。出力対話２６４ａ～ｎが選択されたメトリック２６３によりスコア付けされた後、ＭＬＥプロセスの収束上で、対応するメトリックスコアを有する学習されたロールアウトのペアが、選好最適化（５）を訓練するために使用されてもよく、これは次いで、細かい粒度の報酬Ｒ（ａ，ｓ，ｇ；θ_１）を学習する。

【0039】

図３Ｂは、本明細書で説明される一実施形態による、図２に示される報酬学習モジュール２６０のためのネットワークアーキテクチャ３００を示す簡略図を提供する。一実施形態において、３つの単一ｂｉ－ＬＳＴＭ層の各々が、サンプリングされたロールアウトペアの各々における各対話ターンにおいて、ゴール、信念状態、及び対話行為又は応答シーケンスを符号化するために使用される。例えば、ｂｉ－ＬＳＴＭ層３０１ａは、サンプリングされた予測されたロールアウトτ_１のゴールを符号化するために使用され、ｂｉ－ＬＳＴＭ層３０２ａは、ロールアウトτ_１の各対話ターンの信念状態を符号化するために使用され、ｂｉ－ＬＳＴＭ層３０３ａは、ロールアウトτ_１の各対話ターンの対話行為を符号化するために使用される。同様に、ｂｉ－ＬＳＴＭ層３０１ｂは、サンプリングされた予測ロールアウトτ_２のゴールを符号化するために使用され、ｂｉ－ＬＳＴＭ層３０２ｂは、ロールアウトτ_２の各対話ターンの信念状態を符号化するために使用され、ｂｉ－ＬＳＴＭ層３０３ｂは、ロールアウトτ_２の各対話ターンの対話行為を符号化するために使用される。

【0040】

一実施形態において、３つのｂｉ－ＬＳＴＭ層を使用して、ロールアウトτ_１及びτ_２の双方を符号化することができる。別の実施形態において、並列のｂｉ－ＬＳＴＭ層３０１ａ、３０２ａ、及び３０３ａ、並びに３０１ｂ、３０２ｂ、及び３０３ｂの２つのセットを使用して、サンプリングされたロールアウトのペアをそれぞれ並列に符号化してもよい。

【0041】

ｂｉ－ＬＳＴＭ層３０１ａ、３０２ａ、及び３０３ａからの３つの符号化表現が、３０５ａにおいて連結される（concatenated）。あるいは、ｂｉ－ＬＳＴＭ層３０１ｂ、３０２ｂ、及び３０３ｂからの３つの符号化表現が、３０５ｂにおいて連結される。

【0042】

連結された表現は、次いで、シグモイド関数を使用してロールアウトτ_１又はτ_２の各ターンに対して制限された報酬予測Ｒ（ｓ_１ ^τ１，ａ_１ ^τ１）．．．Ｒ（ｓ_ｎ ^τ１，ａ_ｎ ^τ１）又はＲ（ｓ_１ ^τ２，ａ_１ ^τ２）．．．Ｒ（ｓ_ｎ ^τ２，ａ_ｎ ^τ２）を行う前に、フィードフォワード層のカップルを通して供給される。ターンごとの報酬は、例えば、ロールアウトのペアについてのグローバル報酬Ｒ（τ_１）又はＲ（τ_２）を形成するために、各ロールアウトの全てのターンにわたって合計される。

【0043】

対話報酬Ｒ（τ_１）及びＲ（τ_２）のペアを使用し、ロールアウト間の確率的選好を、標準正規化又はソフトマックス関数のいずれか、例えば、

【数21】

により計算することができ、ここで、φ（）関数は、標準正規化又はソフトマックス関数であり得る。この選好確率の出力３０７は、式（４）に記載される交差エントロピー損失を使用して最適化され得る。

【0044】

図４は、いくつかの実施形態による、タスク指向対話のための安全方策改善及び報酬学習を実施するためのコンピューティングデバイスの簡略図である。図４に示すように、コンピューティングデバイス４００は、メモリ４２０に結合されたプロセッサ４１０を含む。コンピューティングデバイス４００の動作は、プロセッサ４１０により制御される。コンピューティングデバイス４００は、１つのプロセッサ４１０のみを有して示されているが、プロセッサ４１０は、コンピューティングデバイス４００内の１つ以上の中央処理装置、マルチコアプロセッサ、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、グラフィックス処理ユニット（ＧＰＵ）などを表し得ることが理解される。コンピューティングデバイス４００は、スタンドアロンサブシステムとして、コンピューティングデバイスに追加されたボードとして、及び／又は仮想マシンとして実装されてもよい。

【0045】

メモリ４２０は、コンピューティングデバイス４００により実行されるソフトウェア及び／又はコンピューティングデバイス４００の動作の間に使用される１つ以上のデータ構造を記憶するために使用され得る。メモリ４２０は、１つ以上のタイプの機械読取可能媒体を含み得る。機械読取可能媒体のいくつかの一般的な形態には、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップ若しくはカートリッジ、及び／又はプロセッサ若しくはコンピュータが読み取るように適合された任意の他の媒体を含むことができる。

【0046】

プロセッサ４１０及び／又はメモリ４２０は、任意の適切な物理的配置で配置されてよい。いくつかの実施形態において、プロセッサ４１０及び／又はメモリ４２０は、同じボード上、同じパッケージ（例えば、システムインパッケージ）内、同じチップ（例えば、システムオンチップ）上などに実装され得る。いくつかの実施形態において、プロセッサ４１０及び／又はメモリ４２０は、分散、仮想化、及び／又はコンテナ化されたコンピューティングリソースを含んでもよい。そのような実施形態と一致して、プロセッサ４１０及び／又はメモリ４２０は、１つ以上のデータセンタ及び／又はクラウドコンピューティング施設に位置してもよい。

【0047】

いくつかの例において、メモリ４２０は、１つ以上のプロセッサ（例えば、プロセッサ４１０）により実行されたときに、本明細書でさらに詳細に説明される方法を１つ以上のプロセッサに実行させ得る実行可能コードを含む、非一時的な有形の機械読取可能媒体を含み得る。例えば、示されるように、メモリ４２０は、本明細書でさらに説明されるシステム及びモデルを実装及び／又はエミュレートするため、及び／又は方法のいずれかを実装するために使用され得る、安全方策改善モジュール４３０及び報酬学習モジュール４３５のための命令を含む。いくつかの例において、安全方策改善モジュール４３０及び報酬学習モジュール４３５は、データインターフェース４１５を介して入力４４０を受信し、出力４５０を生成することができる。

【0048】

例えば、入力４４０は、図２～図３に示されるような訓練データセット２１０を含むことができる。データインターフェース２１５は、通信ネットワークを介してリモートデータベースからデータセット入力４４０を受信する通信インターフェースを含んでもよい。別の例において、データインターフェース２１５は、ユーザがデータセット入力４４０を選択してプロセッサ４１０にロードすることができるユーザインターフェースを含んでもよい。出力４５０は、対話のための行動分布、最適化された方策などを含むことができる。

【0049】

安全方策改善モジュール４３０は、図２に示す方策ネットワーク２２０、確率的損失モジュール２３０、決定論的損失モジュール２４０、及び結合損失モジュール２５０を含むことができる。報酬学習モジュール４３５は、図２に示されるモジュール２６０と同様でもよく、これは図３においてさらに詳述される。報酬学習モジュール４３５は、図３に関連して説明したように、Ｋベースモデル２６２ａ～ｎと、ペアワイズ因果報酬学習モジュール２６５を含むことができる。

【0050】

図５Ａ～図５Ｂは、一実施形態による、ＭＤＰベースの安全方策改善の方法５００を示す例示的な論理フロー図を提供する。方法５００のプロセス５０２～５２４のうちの１つ以上が、少なくとも部分的に、１つ以上のプロセッサにより実行されたときに１つ以上のプロセッサにプロセス５０２～５２４のうちの１つ以上を実行させ得る、非一時的な有形の機械読取可能媒体上に記憶された実行可能コードの形態で実装され得る。いくつかの実施形態において、方法５００は、モジュール４３０により使用される方法に対応し得る。

【0051】

プロセス５０２において、潜在的確率的挙動方策により生成された複数の対話ロールアウト（例えば、ロールアウト２１２ａ～ｎ）を含む訓練データセット（例えば、データセット２１０）が受信される。各ロールアウトは、複数の対話ターンにおけるそれぞれの対話の情報を表す観測値の時系列を含む。

【0052】

プロセス５０４において、訓練データセットの観測値からの信念状態（例えば、｛ｂ_ｔ｝）のみが、ニューラルモデルへの第１のパスにおいてニューラルモデル（例えば、方策ネットワーク２２０）に入力される。

【0053】

プロセス５０６において、第１の予測された行動分布が、ターゲット方策、例えばπ_ｅ（ｓ_ｔ；θ）に従ってそれぞれの対話の現在の状態に基づいて生成される。

【0054】

プロセス５０８において、将来の報酬の第１の割り引きされた合計が、潜在的挙動方策に従って、それぞれの対話の行動及び状態の割引パラメータ及び報酬関数に基づく。具体的には、第１のパスの間、行動分布は、潜在的確率的挙動方策に従って信念状態を条件とし、信念状態は、観測値の時系列から取得される。

【0055】

プロセス５１０において、第１の損失目的が、将来の報酬の第１の割り引きされた合計の第１の期待値と第１の予測された行動分布に基づいて計算される。具体的には、第１の期待値は、例えば（１）に従って、潜在的確率的挙動方策に従って状態及び行動の確率分布上で取得される。

【0056】

プロセス５１２において、完全な観測値が、第２のパスにおいてニューラルモデルに入力される。例えば、信念状態に追加で、データセット２１０からの全ての観測値情報｛ｏ_ｔ＝（ｂ_ｔ，ｕ_ｔ ^ｕ，ｕ_ｔ－１ ^ａ）｝が方策ネットワーク２２０に入力される。

【0057】

プロセス５１４において、第２の予測された行動分布が、ターゲット方策に従って、観測値の時系列からの現在の観測値に基づいて生成される。例えば、行動分布π_ｅ（ｏ_ｔ）が生成される。

【0058】

プロセス５１６において、特定のロールアウトに対する割引パラメータ及び報酬関数に基づく将来の報酬の第２の割り引きされた合計が計算され、例えば、

【数22】

である。具体的に、将来の報酬の第２の割引された合計は、将来の報酬の第１の割引された合計の崩壊したほぼ決定論的近似（collapsed near-deterministic approximation）である。

【0059】

プロセス５２０において、第２の損失目的が、将来の報酬の第２の割り引きされた合計の第２の期待値と第２の予測された行動分布に基づいて計算される。具体的には、第２の期待値は、訓練データセットにわたる観測値の平均上で取得される。例えば、第２の損失目的は、（２）に従って決定論的損失モジュール２４０により計算される。

【0060】

プロセス５２２において、結合損失目的が、例えば（３）に従って、第１の損失目的と第２の損失目的とを合計することにより計算される。

【0061】

プロセス５２４において、ニューラルモデルは、潜在的確率的挙動方策とそれぞれの対話の現在の状態を条件としたターゲット方策との間のＫＬダイバージェンスが予め定義されたハイパーパラメータ未満であるという条件に従って、結合損失目的に基づいて更新される。

【0062】

図６Ａは、本明細書で説明される一実施形態による、因果認識安全方策改善（causal aware safe policy improvement、ＣＡＳＰＩ）のためのアルゴリズムを図示する例示的な擬似コードセグメントを提供する。（訓練）データセットは、Ｋ分割の訓練Ｄ_Ｔ及び検証セットＤ_Ｖにサブサンプリングされる。Ｋ個のベースラインモデルが、交差エントロピー損失を使用してエキスパートにより生成されたデータ分布に適合するように訓練される。データ分布を適合させるプロセスの間、依然として学習しているＫ個の方策を使用して、訓練のエポックごとに、それらの対応するＫ分割の検証サブセットに対して予測する。対話の各々は、訓練の間に選択された対話レベルメトリックによりスコア付けされる。教師あり学習（supervised learning）プロセスの収束において、上記プロセスにより生成された対話予測のペアが、それらの対応するメトリックスコアとともに、選好最適化目的式（４）のために訓練するために使用され、これは次いで、細かい粒度の報酬Ｒ（ａ；ｓ；ｇ；θ）を学習する。Ｋ分割のサブサンプリング及びＫ個のベースラインモデルの使用は、生成されたサンプルにおける確率性を生成するのに役立つ。それはまた、データを効果的に使用する際に、及び方法をサンプル効率良くするのに役立つ。

【0063】

図６Ｂ～図６Ｃは、本明細書で説明される一実施形態による、図６Ａに示されるＣＡＳＰＩアルゴリズムのための方法を示す例示的な論理フロー図を提供する。方法６００のプロセス６０２～６２６の１つ以上が、少なくとも部分的に、１つ以上のプロセッサにより実行されたときに１つ以上のプロセッサにプロセス６０２～６２６のうちの１つ以上を実行させ得る、非一時的な有形の機械読取可能媒体上に記憶された実行可能コードの形態で実装され得る。いくつかの実施形態において、方法５００は、モジュール４３０により使用される方法に対応し得る。

【0064】

プロセス６０２において、潜在的確率的挙動方策により生成された複数の対話ロールアウト（例えば、ロールアウト２１２ａ～ｎ）を含む訓練データセット（例えば、データセット２１０）が受信される。

【0065】

プロセス６０４において、訓練データセットは、複数の訓練サブセット及び複数の検証サブセットを生成するために、複数回にわたって繰り返しサンプリングされる。例えば、図３Ａに関連して説明したように、データセットＤは、Ｋ分割の訓練Ｄ_Ｔ及び検証サブセットＤ_Ｖ２６１に分割される。例えば、データセット２１０は、相補的なサブセット２６１にパーティション化され、１つのサブセットに対して訓練を実行し、別の（テスト）サブセットに対して訓練されたネットワークを検証する。

【0066】

プロセス６０６において、（Ｄ_Ｔ，Ｄ_Ｖ）内の各データセットについて、タスク指向対話モデルは、複数の訓練サブセットのうちの第１の訓練サブセット内の訓練データを使用して、交差エントロピー損失に基づいて訓練される。例えば、データセットが、複数の訓練サブセット又は複数の検証サブセット（Ｄ_Ｔ，Ｄ_Ｖ）から取り出され、タスク指向対話モデルが、取り出されたデータセットからの対話データを使用してターゲット方策に従って対話の現在の状態を条件とした予測された対話行動のエントロピーを最小化することにより更新される。エントロピー損失は次のように表すことができる。

【数23】

ここで、π_ｍ（ｓ）は、対話状態ｓを条件とした方策π_ｍに従って予測された対話行動

【数24】

を示す。

【0067】

ステップ６０８において、ステップ６０６からの同じそれぞれのデータセットについて、タスク指向対話モデルは、複数の検証サブセットのうちの第１の検証サブセット内の対話データから予測された対話ロールアウトを生成する。

【0068】

ステップ６１０において、予測された対話ロールアウトは、ペアワイズ因果学習サブセットＤ_Ｐに追加される。ステップ６１２から、別の訓練エポックがある場合、ステップ６０８～６１０を繰り返すことができる。ステップ６１２において他の訓練エポックがない場合、方法６００は、ステップ６１６において、（Ｄ_Ｔ，Ｄ_Ｖ）内に別のデータセットがあるかどうかを決定することができる。別のデータセットがある場合、方法６００は、別のデータセットを用いてステップ６０６から繰り返すように進む。他のデータセットがない場合、方法６００はステップ６１８に進む。

【0069】

ステップ６１８において、対話ロールアウトのペアが、ペアワイズ因果学習サブセットからサンプリングされ得る。

【0070】

ステップ６２０において、タスク指向対話モデルは、対話ロールアウトのペア間の好ましい確率（preferred probability）と対話ロールアウトのペアに基づく正規化されたメトリックスコアとの間の二値交差エントロピー損失に基づいて訓練され得る。例えば、ステップ６２０は、図３Ｂに関連して説明されたプロセスフローにより示され得る。

【0071】

ステップ６２２において、方法６００は、訓練収束がデータＤ_Ｐを使用して到達したかどうかを決定した。そうでない場合、方法６００は、対話ロールアウトのサンプリングされたペアの別のペアを再サンプリングして、ステップ６１８から繰り返す。データＤ_Ｐを使用して収束に達した場合、方法６００はステップ６２４に進む。

【0072】

ステップ６２４において、タスク指向対話モデルは、訓練データセットを使用してターゲット方策について最適化する方策最適化損失に基づいて訓練され得る。例えば、方策にわたる最適化は、図５Ａ～図５Ｂの方法５００に関連して論じられている。

【0073】

ステップ６２６において、方法６００は、訓練収束がデータＤを使用して到達したかどうかを決定した。そうでない場合、方法６００はステップ６２４から繰り返す。データＤを使用して収束に達した場合、方法６００は終了し得る。

【0074】

図７は、本明細書で説明される実施形態による、ペアワイズ報酬学習のための混合されたヒューマンインザループ及び自動評価メトリックスコアを示す簡略ブロック図である。自動評価メトリックは、それら独自のバイアスを有する。ＴｏＤの真の目的は、対話システムと相互作用している間の人間の体験であり、自動評価メトリックは、これを捕捉するには不十分である可能性がある。この目的のために、人間の評価が、生成された応答の品質に対して行われ得る。品質は、以下の基準：（ａ）適切性、例えば、生成された応答が対話ターン内の所与のコンテキストに適切であるか？（ｂ）流暢性、例えば、生成された応答が首尾一貫しており、分かりやすいか？により定義することができる。

【0075】

したがって、図７に示されるように、７１０における訓練の各エポックにおけるＫ個のモデルによるＫ個の検証セットに対する予測、及び７０２におけるペアワイズ因果報酬学習の後、テストセット内の対話ターンがランダムに選び取られる。人間の評価者は、このターンに至るコンテキストを示され、対話ターンの評価スコアを７３０で与えた。異なるモデルによるターンの予測は匿名化され、評価者に表示された。例えば、人間の評価者は、適切性及び流暢性について、５のスコアが最良であり１が最悪である、１と５の間のスコアを与えるように求められた。１００個のランダムに選択された対話ターンが、１０人の参加者に提示された。

【0076】

次いで、ＴｏＤモデルは、図６Ａ～図６Ｃに関連して説明したようなペアワイズ因果報酬学習を使用して報酬Ｒ（ｓ，ａ，ｇ）について訓練され、ここで、ミニバッチの例は、人間によりスコア付けされた例７３０又は自動評価メトリック７４０によりスコア付けされた例のいずれかからランダムにサンプリングされる。

【0077】

図１Ａ～図７を通して説明された実施形態は、対話方策学習に関することが留意される。しかしながら、同様の実施形態は、これらに限られないがエンドツーエンド対話システム訓練（例えば、対話状態トラッカ、対話方策及び応答生成等）などの、同様の設定における異なるタスクに適用され得る。

【0078】

例示的な性能
一実施形態において、訓練データセット（例えば、２１０）は、ＭｕｌｔｉＷｏｚ２．０データセット、アトラクション、病院、ホテル、警察、タクシー、列車、及び一般的な挨拶のためのさらなるドメインを含む７つのドメインにわたるマルチターンマルチドメインデータセットであり得る。データセットは、情報センターにおける旅行者と店員との間の実際の人間の会話から作成される。各対話は、会話において最大１３ターンを有する１～５個のドメインをカバーし得る定義されたゴールを有するユーザにより生成される。データセットは、訓練セットのための８４３８個の対話と、検証及びテストセットのためのそれぞれ１０００個の対話とに分割された１０４３８個の対話を有する。

【0079】

一実施形態において、方策ネットワーク２２０及び／又は報酬学習ネットワーク２６０は、ベースライン（「ＤＡＭＤ」と呼ばれる）として、Zhangらの、Task-oriented dialog systems that consider multiple appropriate responses under the same context，arXiv preprint arXiv:1911.10484，2019年において提案されたニューラルモデルを採用してもよい。ペアワイズ因果報酬学習ネットワーク２６０では、行動、状態、及びゴールを埋め込むための１つのｂｉ－ＬＳＴＭ層と、それに続くＭＬＰ層のカップルとが使用され得る。ＤＡＭＤは、ＧＲＵを使用する３つのｓｅｑ２ｓｅｑ生成モデルから構成される。３つのｓｅｑ２ｓｅｑモデルは、信念状態、対話行為、及び応答生成モジュールに対して各々１つである。次いで、アテンション層が、コピーオーバー（copy over）メカニズムのための前のターンのコンテキストベクトルを用いてｓｅｑ２ｓｅｑモデルの出力に注意するために使用される。次いで、出力は、それらのそれぞれのモジュールに対するトークンの系列を予測するための表現として使用される。確率的Ｌ_ｓｔｏ及び決定論的Ｌ_ｄｅｔ損失関数の双方が、対話行為に使用される。ＤＳＴ及び応答生成のために、交差エントロピー損失がＤＡＭＤからのように使用される。

【0080】

一実施形態において、報酬学習ネットワーク２６０は、LinらのMintl：Minimalist transfer learning for task-oriented dialogue systems，arXiv preprint arXiv:2009.12005，2020年に記載されたタスク指向対話モデル、ＭｉｎＴＬを含む、さらなる複雑性を有する別のモデルを含む。ＭｉｎＴＬは、双方向エンコーダ及び自己回帰デコーダを有する標準的なエンコーダデコーダトランスフォーマアーキテクチャとして使用する大きい事前訓練された言語モデルＢＡＲＴを使用する。それは、破損文書をノイズ除去するタスクに対して事前訓練される。ＢＡＲＴは、デコーダ出力と元の文書との間の交差エントロピー損失を使用して訓練される。ＭｉｎＴＬは、対話行為を明示的に予測しない。したがって、決定論的損失Ｌ_ｄｅｔは、生成された応答に対して直接使用され、ＤＳＴでは、損失をＭｉｎｔＴＬからのまま保持する。

【0081】

一実施形態において、データベース結果はワンホットベクトルとして表される。応答における表面レベルの変動性を低減するために、ドメイン適応的な語彙化解除（delexicalization）前処理が採用され、語彙化解除された応答が、前のターンにおいてシステムにより提供されたいくつかのスロット値を参照する現在の発話に従って埋められ得る特定の値のためのプレースホルダを用いて生成される。

【0082】

一実施形態において、Ｍｕｌｔｉ－ｗｏｚ２．０のコンテキスト対応答（context-to-response）生成タスクが実装され得、対応する評価メトリックが、応答の品質を測定するために使用される。これらは、対話の割合、システムが要求された情報を提供したことと、対話の割合、システムが全ての要求された情報に回答したこととをそれぞれ測定する、通知率及び成功率を含み、ＢＬＥＵは、生成された応答の流暢性を測定するために使用される。これらの設定の双方は、３つの評価メトリックを使用する。これらは、１）通知率－対話の割合を測定し、システムが正しいエンティティを提供したこと、２）成功率－対話の割合、システムが全ての要求された情報に回答したこと、及び、３）ＢＬＥＵ－生成された応答の流暢性を測定することを含む。さらに、結合スコア（通知＋成功）×０：５＋ＢＬＥＵが使用される。報告されたＣＡＳＰＩの数は全て、異なるシードを用いた５回の実行の中央値である。

【0083】

ペアワイズ因果報酬学習において使用されるメトリックＭに対して、以下のメトリックが使用される。
Ｍ：＝通知＋成功＋λ×ＢＬＥＵ。
これは、評価において使用される結合スコアにかなり類似しており、双方は、λ＝２のときに等しい。ハイパーパラメータλは、ＢＬＥＵの達成可能なスケールを正規化するために使用される。成功率は、そのまま使用される場合、現在の状態の報酬が将来の状態の性能に依存することになるため、非マルコフ性及び確率的なターンごとの報酬関数をもたらすことになる。したがって、メトリックＭ_ｓｏｆｔのソフトバージョンが使用され、成功率は、対話内で提供される要求された情報の割合を測定する。成功率の離散バリアントを使用する元のメトリックは、Ｍ_ｈａｒｄと呼ばれる。報酬関数Ｒ（ｓ_ｔ，ａ_ｔ，ｇ）における行動の選択は、対話行為であるか又は応答を生成するかのいずれかとすることができ、メトリックの対応するバリアントを、Ｍ（ａｃｔ）及びＭ（ｒｅｓｐ）と呼ぶ。異なるメトリックに適合するための方法の多用途性を実証するために、メトリックの全ての論じられたバリアントが使用される。

【0084】

因果認識安全方策改善（ＣＡＳＰＩ）は、図８のＭｕｌｔｉｗｏｚ２．０のコンテキスト対応答生成タスクに関する既存の方法に対して比較される。既存の方法は以下のものを含む。

【0085】

ＤＡＭＤ：Zhangらにより紹介されたものは、ドメイン認識マルチデコーダネットワークである。この方法はまた、マルチアクションデータ拡張と呼ばれるデータ拡張技法を使用することにより、対話行為の確率的性質を利用する。データ拡張を伴うＤＡＭＤは、ここではＤＡＭＤ＋マルチアクションとして示される。

【0086】

（Chenらの、Semantically conditioned dialog response generation via hierarchical disentangled self-attention．(HDSA)，arXiv preprint arXiv：1905．12866，2019年による）ＨＤＳＡは、対話行為のために階層グラフ表現を使用することを提案している。それは、対話行為を表すために事前訓練された１２層ＢＥＲＴモデルを使用する。予測された対話行為は、もつれを解かれた（disentangled）自己アテンションモデル、３層自己アテンションモデルを使用して階層グラフ構造に変換される。

【0087】

ＳＯＬＯＩＳＴ（PengらのSoloist：Few-shot task-oriented dialog with a single pre-trained auto-regressive model，arXiv preprint arXiv：2005.05298，2020年）。これらの方法は、対話履歴において生成された信念状態及びシステム行為なく、ターンレベルデータに対して訓練される。

【0088】

ＭｉｎＴＬ－ＢＡＲＴ（Linら）は、ターンごとの対話状態において増分変化のみを予測するレーベンシュタイン信念スパン（Levenshtein belief spans）フレームワークを導入した。それは、モデルアーキテクチャのためのバックボーンとして、事前訓練されたＴ５及びＢＡＲＴを活用する。

【0089】

（Wangらの、Modelling hierarchical structure between dialogue policy and natural language generator with option framework for task-oriented dialogue system．arXiv preprint arXiv：2006.06814，2020年により提案された）ＨＤＮＯは、Ｍｕｌｔｉｗｏｚ２．０（Budzianowskiら、2018b）のコンテキスト対応答生成タスクを解決するための対話方策学習方法である。それは、自然言語応答に対応する潜在的な対話行為を学習するために、階層ＲＬ及び変分モデルのオプションベースのフレームワークを提案することにより、対話行為及び応答生成タスクの階層的性質を利用する。ＣＡＳＰＩとは異なり、ＨＤＮＯは、報酬関数として成功率などのメトリック関数のスパース性のリスクを強調するが、プロキシ報酬関数を整形することに頼る。プロキシ報酬関数としてマルコフ言語モデルを使用する。言語モデルは、メトリック関数とは独立して学習される。ＣＡＳＰＩは、報酬整形を控え、任意の過少指定されたメトリック関数の性質とは独立している。

【0090】

ＣＡＳＰＩは、最初に、ＭｕｌｔｉＷｏｚ２．０により定義されたコンテキスト対応答生成タスクに関する現在の最先端の方法に対して比較される。結果が図８で表にされている。ＤＡＭＤのＣＡＳＰＩ適合、ＣＡＳＰＩ（ＤＡＭＤ）が、このタスクのために使用される。ＣＡＳＰＩ（ＤＡＭＤ）は、４つの性能基準のうちの３つ、すなわち成功率、通知率、及び結合スコアに関して、他の方法よりも良好に機能する。ＨＤＳＡは、より良好なＢＬＥＵスコアを有する。ＨＤＳＡによる自然言語のこのリッチな表現力は、大きい１２層ＢＥＲＴモデルの使用に由来する。

【0091】

第２に、ＣＡＳＰＩ（ＤＡＭＤ）及びＣＡＳＰＩ（ＭｉｎＴＬ）の双方の適合が、ＭｕｌｔｉＷｏｚ２．０により定義されたエンドツーエンド対話タスク上で比較される。結果が図９で表に示されている。任意の外部コーパスに対する事前訓練を伴わない、その軽量モデルアーキテクチャを有するＣＡＳＰＩ（ＤＡＭＤ）は、全ての評価基準において、全ての他の従前の方法を凌ぐことが可能であった。これは、各対話ターンに対するサンプル重みがタスクの真の目的と十分に整合したモデルをもたらすとき、勾配更新プロセスを導くためにＣＡＳＰＩを使用することを示すことになる。そのロバストな事前訓練されたモデルを有するＣＡＳＰＩ（ＭｉｎＴＬ）は、大きいマージンでＣＡＳＰＩ（ＤＡＭＤ）を凌ぐ。これは、既存の方法の、ＣＡＳＰＩとの適合の容易さを示すことになる。

【0092】

方策オフ方策学習及び評価と結合された逆強化学習は、サンプル効率が良いことが証明されている。ＣＡＳＰＩは、（Zhangら）及び（Linら）それぞれにより実行されるようなデータ拡張及び転移学習などの、他のサンプル効率技法と競合する。仮説を実証するために、ＣＡＳＰＩは、低サンプル複雑性レジームにおいてベースラインに対してテストされる。実験のセットアップについては、（Linら）からの低リソーステスト戦略である。ＣＡＳＰＩモデルは、訓練データの５％、１０％、及び２０％に対して訓練され、エンドツーエンド対話及びコンテキスト対応答生成タスクに対して他のベースラインと比較され、図１０～図１１は結果を列挙している。エンドツーエンドタスクでは、データの１０％のみに対して訓練されたＣＡＳＰＩ（ＭｉｎＴＬ）が、従前の最先端の方法を凌ぐことが可能であった。ＭｉｎＴＬは、３つの性能メトリックのうちの２つに対して１００％のデータに対して訓練された。コンテキスト対応答生成タスクでは、データの７５％に対して訓練されたＣＡＳＰＩ（ＤＡＭＤ）が、ＨＤＮＯの１００％データ性能に匹敵することができた。これは、真の目的に達するために勾配更新プロセスのバジェットをガイドするための正しい報酬関数を有することが、極めて低いリソース設定において重要であることを示すことになる。

【0093】

図１２は、ＭｉｎＴＬ、ＣＡＳＰＩ（ＭｉｎＴＬ）、ＤＡＭＤ、及びＳｉｍｐｌｅＴＯＤなどの異なるＴｏＤモデルにより生成された応答の例を示す。

【0094】

図１３は、基準の適切性及び流暢性に関する人間の評価を示す。スコアの平均及び分散が示される。ＭｉｎＴＬ１３０１、ＳｉｍｐｌｅＴＯＤ１３０２、及びＤＡＭＤ１３０４の適切性スコアが、ＣＡＳＰＩ（ＭｉｎＴＬ）適切性１３０３に対して比較される。ＭｉｎＴＬ１３１１、ＳｉｍｐｌｅＴＯＤ１３１２、及びＤＡＭＤ１３１４の流暢性スコアは、ＣＡＳＰＩ（ＭｉｎＴＬ）流暢性１３１３に対して比較される。評価の結果。ＣＡＳＰＩ（ＭｉｎＴＬ）１３０３は、適切性スコアにおいて全ての他のモデル１３０１、１３０２、及び１３０４を凌ぐ。一方、ＣＡＳＰＩ（ＭｉｎＴＬ）１３１３、ＭｉｎＴＬ１３１１、及びＳｉｍｐｌｅＴＯＤ１３１２の流暢性スコアは、互いに匹敵する。

【0095】

自動対話評価メトリックがバイアスされ、人間の目的を真に反映しないとき、ただしＣＡＳＰＩでは、これらのかなり同じ対話評価メトリックが報酬Ｒ（ｓ，ａ，ｇ）を学習するために使用される。このギャップを埋めるために、以下のヒューマンインザループ（ｈｕｍａｎ－ｉｎ－ｔｈｅ－ｌｏｏｐ、ＨＩＴＬ）実験が行われる：異なるシードを有するペアＣＡＳＰＩ（ＭＩＮＴＬ）モデルが、Ｍｕｌｔｉｗｏｚ２．０データセットの５％に対して訓練される。次いで、これらのモデルのペアが、Ｍｕｌｔｉｗｏｚ２．０訓練データ（４０個の対話）の０．５％に対して予測するために使用され、互いに対して生成された応答のこれらのペアの人間スコアを有した。次いで、モデルは、図６Ａ～図６Ｃに関連して説明したようなペアワイズ因果報酬学習を使用して報酬Ｒ（ｓ，ａ，ｇ）について訓練され、ここで、ミニバッチの例は、図１３に示すように、人間によりスコア付けされた例又は自動評価メトリックによりスコア付けされた例のいずれかからランダムにサンプリングされる。次いで、新しいＣＡＳＰＩ（ＭＩＮＴＬ）モデルが、元の５％のデータ及び学習されたＲ（ｓ，ａ，ｇ）に対して訓練される。訓練されたモデルの人間の評価は、３人の参加者を使用してテストを形成する２４個の対話に対して実行される。図１４は、性能を示す。報酬学習におけるＨＩＴＬスコアを用いて、人間の評価基準：適切性及び流暢性の双方における性能の上昇がある。５％データＣＡＳＰＩ（ＭＩＮＴＬ）の人間の適切性スコアは、１４０１から１４０２に増加され、今や１００％データＤＡＭＤに匹敵する。流暢性スコアも１４１１から１４１２に増加した。これは、ペアワイズ因果報酬学習の多用途性を示すことになる。使用されるニューラルネットワークの十分なリッチさにより、ペアワイズ因果報酬学習は、未知の対話評価基準に一般化することができる。

【0096】

図１５は、図１Ｂに示された旅行者と情報センターエージェントとの間の同じ会話を、ペアワイズ因果報酬学習が各ターンに対して予測した例示的な報酬値Ｒ（ｓ_ｔ，ａ_ｔ，ｇ）とともに示す。ターン＃３が最も高い報酬を受け取ったことが観測され、遡及的に、これが、対話において重要かつリスク回避的なターンである取引が発生するターンであり、それは、自動評価メトリックの成功率により捕捉されることを理解する。ターン＃２は、次に最良の報酬を得ており、それは、取引がターン＃３で発生するための重要な情報の必要を捕捉している。ターン＃４は、細やかさ以外、会話の成功にあまり寄与しないため、ターン＃３及び２よりも低い順位の報酬を得る。ターン＃４がほとんど全ての会話に、及び教師あり学習に現れ、それが勾配の最も高いシェアを受けていることが典型的であることに留意されたい。学習された報酬は、対話目的の成功に整合される勾配バジェットを再分配する。

【0097】

図１６は、特に低サンプルレジームで訓練されたときに、ＣＡＳＰＩエージェントが時々示す異なるタイプの挙動を示す。グリーディ（Greedy）エージェント：特定のドメインにおいて、エージェントは、それが全ての必要な情報を収集する前に、又はユーザがサービスを予約することについて要求又は同意する前に、サービスを予約する傾向を有する。図１６の第１の例は、この挙動を実証している。ここで、ユーザはタクシーについて要求しており、目的地又は出発の時間などの十分な情報が収集される前に、エージェントはタクシーを予約する。これは、自動評価メトリックにギャップがあるために起こる。低いＢＬＥＵスコアと比較的高い通知及び成功率は、グリーディエージェント挙動を示し得る。低いＢＬＥＵスコアの他の理由には、応答における多様性の欠如又は応答の形成異常が含まれる。

【0098】

慎重（Cautious）エージェント：エージェントは、必要とされるよりも多くの情報をパックされた長く続くリプライを提供することにより、慎重である傾向がある。エージェントは、情報率を通じて報酬を失うリスクを冒さないように、これを行う傾向がある。この挙動は、図１６の第２の例で実証されている。これらの繊細な挙動は、自動評価メトリックにおけるギャップを実証し、これは、図７に示されるようにヒューマンインザループ評価を使用することにより低減され得る。

【0099】

コンピューティングデバイス１００などのコンピューティングデバイスのいくつかの例は、１つ以上のプロセッサ（例えば、プロセッサ１１０）により実行されたときに１つ以上のプロセッサに方法２００のプロセスを実行させ得る実行可能コードを含む非一時的な有形の機械読取可能媒体を含み得る。方法２００のプロセスを含むことができる機械読取可能媒体のいくつかの一般的な形態は、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップ若しくはカートリッジ、及び／又はプロセッサ若しくはコンピュータが読み取るように適合された任意の他の媒体である。

【0100】

発明の態様、実施形態、実装、又は用途を示す本説明及び添付の図面は、限定するものとして解釈されるべきではない。本説明び特許請求の範囲の主旨及び範囲から逸脱することなく、様々な機械的、組成的、構造的、電気的、及び動作的な変更を行うことができる。いくつかの事例では、本開示の実施形態を不明瞭にしないために、よく知られている回路、構造、又は技法は、詳細に図示又は説明されていない。２つ以上の図における同様の番号は、同じ又は類似の要素を表す。

【0101】

本説明では、本開示と整合するいくつかの実施形態を説明する特定の詳細が記載される。実施形態の完全な理解を提供するために、多数の特定の詳細が記載される。しかしながら、いくつかの実施形態がこれらの特定の詳細の一部又は全部を伴わずに実施され得ることは、当業者には明らかであろう。本明細書に開示された特定の実施形態は、限定的でなく例示的であることが意図される。当業者は、ここでは具体的に説明されていないが、本開示の範囲及び趣旨内にある他の要素を実現することができる。さらに、不必要な繰り返しを避けるために、１つの実施形態に関連して図示及び説明された１つ以上の特徴は、特に別段記載されない限り、又は１つ以上の特徴が実施形態を非機能的にする場合、他の実施形態に組み込まれてもよい。

【0102】

例示的な実施形態が図示及び説明されてきたが、広範囲の修正、変更、及び置換が前述の開示において企図され、いくつかの事例では、実施形態のいくつかの特徴が他の特徴の対応する使用なしに採用され得る。当業者は、多くの変形、代替、及び修正を認識するであろう。したがって、本発明の範囲は、以下の特許請求の範囲によってのみ限定されるべきであり、特許請求の範囲は広く、本明細書で開示される実施形態の範囲と整合するように解釈されることが適切である。

【図1A】