IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ セールスフォース ドット コム インコーポレイティッドの特許一覧

特表2023-548851タスク指向対話(TOD)言語モデルを訓練するシステム及び方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-11-21
(54)【発明の名称】タスク指向対話(TOD)言語モデルを訓練するシステム及び方法
(51)【国際特許分類】
   G06F 40/35 20200101AFI20231114BHJP
   G06F 16/90 20190101ALI20231114BHJP
   G06F 40/216 20200101ALI20231114BHJP
   G06N 3/08 20230101ALI20231114BHJP
【FI】
G06F40/35
G06F16/90 100
G06F40/216
G06N3/08
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023526668
(86)(22)【出願日】2021-11-03
(85)【翻訳文提出日】2023-05-01
(86)【国際出願番号】 US2021057846
(87)【国際公開番号】W WO2022098719
(87)【国際公開日】2022-05-12
(31)【優先権主張番号】17/088,206
(32)【優先日】2020-11-03
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】506332063
【氏名又は名称】セールスフォース インコーポレイテッド
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ウー,チェン-シェン
(72)【発明者】
【氏名】ホイ,チュウ ホン
(72)【発明者】
【氏名】ソーチャー,リチャード
(72)【発明者】
【氏名】ション,カイミング
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175EA01
(57)【要約】
本願で説明される実施形態は、タスク指向対話(TOD)言語モデルを訓練する方法及びシステムを提供する。いくつかの実施形態において、TOD言語モデルは、複数の対話を含むTODデータセットを受け取ることができ、対話の各ユーザ発話に接頭辞として付けられた第1のトークンと各システム応答に接頭辞として付けられた第2のトークンとを使用して、対話からモデル入力シーケンスを生成することができる。いくつかの実施形態において、第1のトークン又は第2のトークンをマスクトークンにランダムに置き換えて、マスクされた訓練シーケンスを生成することができ、マスクされた訓練シーケンスを使用して、マスク言語モデリング(MLM)損失を計算することができる。いくつかの実施形態において、MLM損失に基づいて、TOD言語モデルを更新することができる。
【特許請求の範囲】
【請求項1】
タスク指向対話(TOD)言語モデルにおいて、複数の対話を含むTODデータセットを受け取るステップであり、前記複数の対話の各対話は、複数のユーザ発話と複数のシステム応答を含む、ステップと、
モデル入力シーケンスを、
前記複数のユーザ発話の各ユーザ発話に第1のトークンを、及び前記複数のシステム応答の各システム応答に第2のトークンを接頭辞として付けることと、
前記接頭辞を付けられたユーザ発話の各々と前記接頭辞をつけられたシステム応答の各々を連結することと
により生成するステップと、
前記モデル入力シーケンスからの前記第1のトークン又は前記第2のトークンをマスクトークンにランダムに置き換えて、マスクされた訓練シーケンスを生成するステップと、
前記マスクされた訓練シーケンスを前記TOD言語モデルに入力するステップと、
前記マスクされた訓練シーケンスに対応する前記TOD言語モデルからの第1の出力分布に基づいて、マスク言語モデリング(MLM)損失を計算するステップと、
前記MLM損失に基づいて前記TOD言語モデルを更新するステップと、
を含む方法。
【請求項2】
前記複数の対話から第1の対話セットを選択するステップと、
ランダムなターンにおける前記第1の対話セットの各対話をその対話の第1の部分とその対話の第2の部分とに分割して、第2の対話セット及び第3の対話セットを生成するステップであり、
前記第2の対話セットは前記第1の対話セットの各対話の前記第1の部分を含み、前記第3の対話セットは前記第1の対話セットの各対話の前記第2の部分を含む、ステップと、
前記第2の対話セット及び第3の対話セットを前記TOD言語モデルに入力するステップと、
前記第2の対話セット及び前記第3の対話セットに対応する前記TOD言語モデルからの第2の出力分布に基づいて応答対照損失(RCL)を計算するステップと、
をさらに含み、
前記MLM損失に基づいて前記TOD言語モデルを更新することは、前記MLM損失と前記RCLメトリックの組み合わせに基づいて前記TOD言語モデルを更新することを含む、請求項1に記載の方法。
【請求項3】
前記MLM損失と前記RCLの前記組み合わせは、前記MLM損失と前記RCLの重み付き和である、請求項2に記載の方法。
【請求項4】
前記TOD言語モデルは、トランスフォーマからの双方向エンコーダ表現(BERT)ベースの言語表現モデルを使用して構築される、請求項1に記載の方法。
【請求項5】
前記TOD言語モデルを使用して、前記複数のユーザ発話のうちのユーザ発話の意図クラスを識別するステップ、をさらに含む、請求項1に記載の方法。
【請求項6】
前記TOD言語モデルを使用して、前記複数の対話のうちの対話の信念状態を判断するステップ、をさらに含む、請求項1に記載の方法。
【請求項7】
前記TOD言語モデルを使用して、前記複数の対話のうちの対話の対話行為を予測するステップ、をさらに含む、請求項1に記載の方法。
【請求項8】
前記TOD言語モデルを使用して、及び前記複数のユーザ発話からのユーザ発話に対して、前記ユーザ発話に応答する前記複数のシステム応答からのシステム応答を選択するステップ、をさらに含む、請求項1に記載の方法。
【請求項9】
タスク指向対話(TOD)言語モデルを訓練するための命令を記憶するメモリと、
前記メモリから前記命令を読み取り及び実行して、
前記TOD言語モデルにおいて、複数の対話を含むTODデータセットを受け取り、前記複数の対話の各対話は、複数のユーザ発話と複数のシステム応答を含み、
モデル入力シーケンスを、
前記複数のユーザ発話の各ユーザ発話に第1のトークンを、及び前記複数のシステム応答の各システム応答に第2のトークンを接頭辞として付けることと、
前記接頭辞を付けられたユーザ発話の各々と前記接頭辞をつけられたシステム応答の各々を連結することと
により生成し、
前記モデル入力シーケンスからの前記第1のトークン又は前記第2のトークンをマスクトークンにランダムに置き換えて、マスクされた訓練シーケンスを生成し、
前記マスクされた訓練シーケンスを前記TOD言語モデルに入力し、
前記マスクされた訓練シーケンスに対応する前記TOD言語モデルからの第1の出力分布に基づいて、マスク言語モデリング(MLM)損失を計算し、
前記MLM損失に基づいて前記TOD言語モデルを更新する
ように構成されたプロセッサと、
を含むシステム。
【請求項10】
前記プロセッサはさらに、前記メモリから前記命令を読み取り及び実行して、
前記複数の対話から第1の対話セットを選択し、
ランダムなターンにおける前記第1の対話セットの各対話をその対話の第1の部分とその対話の第2の部分とに分割して、第2の対話セット及び第3の対話セットを生成し、
前記第2の対話セットは前記第1の対話セットの各対話の前記第1の部分を含み、前記第3の対話セットは前記第1の対話セットの各対話の前記第2の部分を含み、
前記第2の対話セット及び第3の対話セットを前記TOD言語モデルに入力し、
前記第2の対話セット及び前記第3の対話セットに対応する前記TOD言語モデルからの第2の出力分布に基づいて応答対照損失(RCL)を計算する
ように構成され、
前記MLM損失に基づいて前記TOD言語モデルを更新することは、前記MLM損失と前記RCLの組み合わせに基づいて前記TOD言語モデルを更新することを含む、請求項9に記載のシステム。
【請求項11】
前記MLM損失と前記RCLの前記組み合わせは、前記MLM損失と前記RCLの重み付き和である、請求項10に記載のシステム。
【請求項12】
前記TOD言語モデルは、トランスフォーマからの双方向エンコーダ表現(BERT)ベースの言語表現モデルを使用して構築される、請求項9に記載のシステム。
【請求項13】
前記プロセッサはさらに、前記メモリから前記命令を読み取り及び実行して、前記TOD言語モデルを使用して、前記複数のユーザ発話のうちのユーザ発話の意図クラスを識別するように構成される、請求項9に記載のシステム。
【請求項14】
前記プロセッサはさらに、前記メモリから前記命令を読み取り及び実行して、前記TOD言語モデルを使用して、前記複数の対話のうちの対話の信念状態を判断するように構成される、請求項9に記載のシステム。
【請求項15】
前記プロセッサはさらに、前記メモリから前記命令を読み取り及び実行して、前記TOD言語モデルを使用して、前記複数の対話のうちの対話の対話行為を予測するように構成される、請求項9に記載のシステム。
【請求項16】
前記プロセッサはさらに、前記メモリから前記命令を読み取り及び実行して、前記TOD言語モデルを使用して、及び前記複数のユーザ発話からのユーザ発話に対して、前記ユーザ発話に応答する前記複数のシステム応答からのシステム応答を選択するように構成される、請求項9に記載のシステム。
【請求項17】
プロセッサに動作を実行させるために実行可能なマシン読取可能命令を記憶した非一時的コンピュータ読取可能媒体(CRM)であって、前記動作は、
タスク指向対話(TOD)言語モデルにおいて、複数の対話を含むTODデータセットを受け取ることであり、前記複数の対話の各対話は、複数のユーザ発話と複数のシステム応答を含む、ことと、
モデル入力シーケンスを、
(i)前記複数のユーザ発話の各ユーザ発話に第1のトークンを、及び前記複数のシステム応答の各システム応答に第2のトークンを接頭辞として付けることと、
(ii)前記接頭辞を付けられたユーザ発話の各々と前記接頭辞をつけられたシステム応答の各々を連結することと
により生成することと、
前記モデル入力シーケンスからの前記第1のトークン又は前記第2のトークンをマスクトークンにランダムに置き換えて、マスクされた訓練シーケンスを生成することと、
前記マスクされた訓練シーケンスを前記TOD言語モデルに入力することと、
前記マスクされた訓練シーケンスに対応する前記TOD言語モデルからの第1の出力分布に基づいて、マスク言語モデリング(MLM)損失を計算することと、
前記MLM損失に基づいて前記TOD言語モデルを更新することと、
を含む、非一時的CRM。
【請求項18】
前記動作は、
前記複数の対話から第1の対話セットを選択することと、
ランダムなターンにおける前記第1の対話セットの各対話をその対話の第1の部分とその対話の第2の部分とに分割して、第2の対話セット及び第3の対話セットを生成することであり、
前記第2の対話セットは前記第1の対話セットの各対話の前記第1の部分を含み、前記第3の対話セットは前記第1の対話セットの各対話の前記第2の部分を含む、ことと、
前記第2の対話セット及び第3の対話セットを前記TOD言語モデルに入力することと、
前記第2の対話セット及び前記第3の対話セットに対応する前記TOD言語モデルからの第2の出力分布に基づいて応答対照損失(RCL)を計算することと、
をさらに含み、
前記MLM損失に基づいて前記TOD言語モデルを更新することは、前記MLM損失と前記RCLの組み合わせに基づいて前記TOD言語モデルを更新することを含む、請求項17に記載の非一時的CRM。
【請求項19】
前記MLM損失と前記RCLの前記組み合わせは、前記MLM損失と前記RCLの重み付き和である、請求項18に記載の非一時的CRM。
【請求項20】
前記TOD言語モデルは、トランスフォーマからの双方向エンコーダ表現(BERT)ベースの言語表現モデルを使用して構築される、請求項17に記載の非一時的CRM。
【請求項21】
前記動作は、前記TOD言語モデルを使用して、前記複数のユーザ発話のうちのユーザ発話の意図クラスを識別することをさらに含む、請求項17に記載の非一時的CRM。
【請求項22】
前記動作は、前記TOD言語モデルを使用して、前記複数の対話のうちの対話の信念状態を判断することをさらに含む、請求項17に記載の非一時的CRM。
【請求項23】
前記動作は、前記TOD言語モデルを使用して、前記複数の対話のうちの対話の対話行為を予測することをさらに含む、請求項17に記載の非一時的CRM。
【請求項24】
前記動作は、前記TOD言語モデルを使用して、及び前記複数のユーザ発話からのユーザ発話に対して、前記ユーザ発話に応答する前記複数のシステム応答からのシステム応答を選択することをさらに含む、請求項17に記載の非一時的CRM。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願]
本出願は、2020年11月3日に出願され「System And Methods For Training Task-Oriented Dialogue (TOD) Language Models」と題された米国非仮特許出願第17/088,206号に対する優先権を主張しており、該出願はその全体を参照により本明細書に組み込まれている。
【0002】
[技術分野]
本開示は、一般に機械学習モデル及びニューラルネットワークに関し、より具体的には、タスク指向対話(TOD)言語モデルを訓練することに関する。
【背景技術】
【0003】
ニューラルネットワークは、会話の応答を生成し、したがって人間のユーザとの対話を行うために使用されている。例えば、人間のユーザは、インテリジェントアシスタントとの会話に関与して特定のトピックに関する情報を収集して、旅行チケットの予約、レストラン予約の取得などのタスクを実行することができる。しかしながら、英語のウィキペディア又は書籍などの大規模の一般的なテキストコーパスに基づいて、あるいはTwitter(登録商標)又はReddit(登録商標)などのソーシャルメディアからの雑談(chit-chat)コーパスを使用して訓練されている既存のタスク指向の対話言語モデルは、会話又はタスク指向の対話(TOD)に適用されたときに不足を示している。こうした不足は、少なくとも部分的に、人間の会話と書かれたテキストとの間の言語パターンにおける本質的な差、又は、雑談コーパスの短い、ノイズのある、「タスクのない(task-less)」性質に由来している。
【図面の簡単な説明】
【0004】
図1】本明細書に記載されている1つの実施形態による、タスク指向データセットを用いてTOD言語モデルを訓練するための例示的なアーキテクチャを示すブロック図である。
図2】本明細書に記載されている1つの実施形態による、タスク指向データセットを用いてタスク指向対話(TOD)言語モデルを訓練するためのコンピューティングデバイスの簡略化された図を提供する。
図3】いくつかの実施形態による、タスク指向データセットを用いてTOD言語モデルを訓練する方法を示す簡略化された論理フロー図である。
図4】1つの実施形態による、応答選択の下流タスクに関してタスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間の性能比較を示す例示的なデータテーブルを示す。
図5】1つの実施形態による、対話行為予測の下流タスクに関してタスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間の性能比較を示す例示的なデータテーブルを示す。
図6】1つの実施形態による、対話状態追跡の下流タスクに関してタスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間の性能比較を示す例示的なデータテーブルを示す。
図7】1つの実施形態による、意図検出の下流タスクに関してタスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間の性能比較を示す例示的なデータテーブルを示す。
図8】1つの実施形態による、複数の下流タスクに関してタスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間の性能比較を示す例示的なデータテーブルを示す。
図9A】1つの実施形態による、タスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間のタスク指向テストデータに関する性能比較を視覚化した例示的な図を示す。
図9B】1つの実施形態による、タスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間のタスク指向テストデータに関する性能比較を視覚化した例示的な図を示す。
図9C】1つの実施形態による、タスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間のタスク指向テストデータに関する性能比較を視覚化した例示的な図を示す。
図10A】1つの実施形態による、タスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間のタスク指向テストデータに関する性能比較を視覚化した例示的な図を示す。
図10B】1つの実施形態による、タスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間のタスク指向テストデータに関する性能比較を視覚化した例示的な図を示す。
図10C】1つの実施形態による、タスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間のタスク指向テストデータに関する性能比較を視覚化した例示的な図を示す。
図11A】1つの実施形態による、タスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間のタスク指向テストデータに関する性能比較を視覚化した例示的な図を示す。
図11B】1つの実施形態による、タスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間のタスク指向テストデータに関する性能比較を視覚化した例示的な図を示す。
図11C】1つの実施形態による、タスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間のタスク指向テストデータに関する性能比較を視覚化した例示的な図を示す。
【0005】
図及び付録において、同じ名称を有する要素は、同じ又は類似の機能を有する。
【発明を実施するための形態】
【0006】
本明細書で用いられるとき、用語「ネットワーク」は、任意の人工知能ネットワーク又はシステム、ニューラルネットワーク又はシステム、及び/又はそれらの上に若しくはそれらと共に実装された任意の訓練又は学習モデルを含む、任意のハードウェア又はソフトウェアベースのフレームワークを含む場合がある。
【0007】
本明細書で用いられるとき、用語「モジュール」は、1つ以上の機能を実行するハードウェア又はソフトウェアベースのフレームワークを含む場合がある。いくつかの実施形態において、モジュールは、1つ以上のニューラルネットワーク上に実装されることがある。
【0008】
タスク指向対話(Task-oriented dialogues、TOD)は、特定のタスクに向けられており、あるいは特定の目標を有し、それらの例には、レストラン予約、チケット予約、天候情報取り出し、カレンダースケジューリング、関心ポイント(point-of-interest)ナビゲーションなどが含まれる。そのため、TOD言語モデルは、特定のタスク又は目標を達成するためにユーザを支援するように設計されている(例えば、ユーザ関与を最大化することに主に向けられているオープンドメイン対話システムとは対照的である)。既存のアプローチは、一般に、非TODの一般的なテキスト(例えば、英語のウィキペディアTMから取得される)、TwitterTM又はRedditTMから取得されたテキストなどの会話コーパスなどの、非タスク指向の訓練データセットでTOD言語モデルを事前訓練する(pre-train)。しかしながら、TOD言語モデルの、これらの非タスク指向の事前訓練は、大部分は非タスク指向の訓練データセットと現実世界のTODとの間の基礎をなす言語的な差に起因して、標準未満の性能を結果としてもたらす。例えば、TwitterTM又はRedditTMなどのオープンドメイン対話システムから取得されたコーパスは、トピックに関して情報価値があるか又は議論の余地がある可能性があるが、特定の目標又はタスクに向けて調整されていない場合がある。したがって、TOD言語モデルの事前訓練を向上させる方法及びシステムの必要がある。
【0009】
TOD言語モデルの既存の事前訓練メカニズムの不満足な性能を考慮し、本開示のいくつかの実施形態は、1つ以上の英語ベースのタスク指向訓練データセットを使用してTOD言語モデルを事前訓練することを開示しており、該データセットには、人間-人間の及び/又はマルチターン(multi-turn)のTODコーパスを含むことができる。具体的には、タスク指向訓練データセットの対話のユーザ発話とシステム応答を準備して、各々に開始トークンを接頭辞として付ける(prefixing)ことと、ユーザ発話とシステム応答とのペアを連結することにより、入力訓練シーケンスを形成することができる。入力シーケンスは、マスク言語損失を介してTOD言語モデルを事前訓練するために使用することができる。いくつかの実施形態において、対照学習のために、異なる対話セットを選択することができる。
【0010】
いくつかの場合、TOD言語モデルは、オープンドメイン対話システムコーパスで事前訓練されない場合がある。すなわち、TOD言語モデルは、タスク指向訓練データセット(例えば、TwitterTM又はRedditTMから取得されたコーパスを除く)のみを使用して事前訓練されてもよい。いくつかの場合、TOD言語モデルを事前訓練するために使用される1つ以上のタスク指向訓練データセットは、複数のタスク指向訓練データセットを含むことができ、これらの複数のタスク指向訓練データセットのいくつかは特に、特定のタスクにおいてTOD言語モデルを事前訓練する際の使用に対して構成される場合がある(例えば、しかし、必ずしも排他的にそう構成されるわけではない)。例えば、タスク指向訓練データセットは特に、1つ以上のタスク指向下流タスクにおいてTOD言語モデルを事前訓練する際の使用に対して構成することができる(例えば、しかし、必ずしも排他的にそう構成されるわけではない)。タスク指向下流タスクの非限定的な例には、意図検出、対話状態追跡、対話行為予測、及び応答選択が含まれる。
【0011】
いくつかの実施形態において、例示的なTOD言語モデルは、タスク指向対話の、トランスフォーマからの双方向エンコーダ表現(task-oriented dialogue bi-directional encoder representations from transformers)(本明細書においてTOD BERTと呼ぶ)言語モデルとすることができ、これは、BERT、DevlinらのarXiv preprint arXiv:1810.04805(2018)で論じられているマスク言語モデル(masked language model)に基づいており、これは、その全体を参照により本明細書にここで明示的に組み込まれている。TOD BERTは、一例示的なTOD言語モデルであり、1つ以上のタスク指向訓練データセットを用いたTOD BERTの事前訓練に関連する本開示の実施形態は、他のTOD言語モデルに同様に等しく適用されることに留意されたい。いくつかの実施形態において、TOD BERTが依存するBERTは、BERTベースの大文字・小文字区別なしの(BERT-base uncased)モデルでもよく、これは、12個の層と12個のアテンションヘッドとを有し、その隠れサイズd=768を有するトランスフォーマセルフアテンション(self-attention)エンコーダである。
【0012】
いくつかの実施形態において、TOD BERTを1つ以上のタスク指向訓練データセットで事前訓練するために、1つ以上のタスク指向訓練データセットを次のように処理することができる。いくつかの実装において、タスク指向データセット内の対話は、対話のユーザ発話及びシステム応答を表すトークンを含めることにより、フラットシーケンスに変換され、あるいはフラット化され(flattened)てもよい。例えば、対話は複数のターンを含む場合があり、これにおいて、各ターンtはユーザ発話Uとシステム応答Sを含むことができる。次いで、n個のターンを含む対話Dは、D={S,U,...,S,U}で表すことができ、ここで、nは、対話ターンの数であり、各U又はSは、それぞれ、ユーザ発話又はシステム応答の単語のシーケンスを含む。いくつかの例において、フラットシーケンスは、対話Dに基づいて、各ユーザ発話Uにユーザトークン[USR]を、及び各システム応答Sにシステムトークン[SYS]を接頭辞として付ける(pre-fixing)ことと、接頭辞を付けられたユーザ発話及びシステム応答をフラットシーケンスに連結することにより、形成されてもよい。いくつかの実施形態において、異なる文からのシーケンスは、分離トークン[SEP]により分離されてもよく、各シーケンスは、分類トークン[CLS]を接頭辞として付けられ(pre-fixed)てもよい。例えば、ユーザ発話Uとシステム応答Sを含む対話は、以下のようなフラットシーケンス、すなわち「[CLS][USR]U[SEP][SYS]S[SEP]...」にフラット化することができる。
【0013】
いくつかの実施形態において、TOD BERT言語モデルは、1つ以上の損失関数を使用して1つ以上のタスク指向訓練データセットで事前訓練することができる。1つ以上の損失関数の一例は、マスク言語モデリング(masked language modeling、MLM)損失とすることができる。MLMでは、入力シーケンス内のトークンのランダムサンプルを選択し、マスクトークン[MASK]に置き換えることができ、その後、MLM損失関数は、マスクされたトークンを予測することにおける交差エントロピー損失であってよい。いくつかの実施形態において、ランダムマスキング及び置き換えは、始めに1回実行し、訓練の間保存することができる。いくつかの実施形態において、トークンマスキングは、バッチ訓練の間に動的に実行することができる。
【0014】
図1は、入力シーケンス114の一例示的な図示を示しており、この入力シーケンス114は、入力シーケンス114の前にあるクラストークン[CLS]102と、システム応答(用語「何(what)」で始まる)に接頭辞として付くシステムトークン[SYS]104と、マスクするために選択された第1のトークンをマスクする第1のマスクトークン[MASK]106と、ユーザ発話(用語「を好む(prefer)」で始まる)に接頭辞として付くユーザトークン[USR]108と、マスクするために選択された第2のトークンをマスクする第2のマスクトークン[MASK]110と、前の文を次の文から分離する分離トークン[SEP]112を含む。いくつかの実施形態において、MLM損失関数を、
【数1】

として表すことができる。ここで、Mは、マスクされたトークンの総数であり、P(x)は、語彙サイズに対するトークンxの予測確率である。
【0015】
いくつかの実施形態において、1つ以上の損失関数の一例は、応答対照損失(response contrastive loss、RCL)目的関数とすることができる。いくつかの場合、TOD言語モデルをRCLで事前訓練することは有利である可能性があり、なぜならば、RCLはさらなる人間の注釈を必要とせず、[CLS]トークンの向上した表現を可能にする場合があるためである。さらに、RCLは、TOD言語モデル(例えば、TOD BERT言語モデル)が、とりわけ、基礎をなす対話のシーケンス順序、構造情報、及び応答類似度を捕捉することを容易にする場合がある。
【0016】
いくつかの実施形態において、RCLは、デュアルエンコーダアプローチを適用することと、複数の陰性(negative)サンプルをシミュレートすることにより、定式化することができる。デュアルエンコーダアプローチの詳細は、HendersonらのConvert: Efficient and accurate conversational representations from transformers、arXiv:1911.03688、2019年で見ることができ、その開示は、その全体を参照により本明細書に組み込まれている。いくつかの実施形態において、RCLは、2つのセグメントA及びBを連結して二値分類でそれらが連続したテキストであるかどうかを予測する次文予測(next sentence prediction、NSP)目的を導出するためのアプローチとは、別様に定式化されてもよい。いくつかにおいて、RCLを定式化する際に、対話のバッチ{D,...,D}が引き出され(drawn)てもよく、各対話は、ランダムに選択されたターンtで分割されてもよい。例えば、対話Dは、2つのセグメントに分割することができ、これにおいて、一方がコンテキスト{S ,U ,...,S ,U }でもよく、他方が応答{St+1 }でもよい。次いで、TOD BERT言語モデルを使用して、全てのコンテキスト及びそれらに対応する応答を別個にエンコードすることができ、次いで、それらを使用して、b個の対話から出力[CLS]表現を取得することにより、コンテキスト行列
【数2】

と応答行列
【数3】

を得ることができる。いくつかの実施形態において、同じバッチ内の他の応答を、ランダムに選択された陰性サンプルとして扱うことができる。次いで、RCLの目的関数を、
【数4】

として表すことができる。
【0017】
いくつかの実施形態において、バッチサイズは、前述した下流タスクに対して事前訓練されたTOD BERT言語モデルの性能に関連する場合がある。例えば、バッチサイズは、これらに限られないが応答選択などの下流タスクに対する事前訓練されたTOD BERT言語モデルの性能を向上させるために、増やされてもよい。いくつかの例において、バッチサイズは、対照学習における陽性及び陰性比率を変更することにより、増やされてもよい。いくつかの例において、バッチサイズは、ハードウェアにより制限され得るハイパーパラメータとすることができる。いくつかの実施形態において、事前訓練の間の陰性サンプリングは、(例えば、ランダムサンプリングの代わりに又は加えて)局所サンプリングとすることができ、これは、SaeidiらのThe effect of negative sampling strategy on capturing semantic similarity in document embeddings、Proceedings of the 2nd Workshop on Semantic Deep Learning (SemDeep-2)、ページ1-8、2017年で論じられており、その開示は、その全体を参照により本明細書に組み込まれている。
【0018】
いくつかの実施形態において、1つ以上の損失関数のうちの1つ(例えば、MLM損失関数)を使用して、TOD BERT言語モデルを事前訓練することができる。いくつかの実施形態において、1つ以上の損失関数を1つの損失関数に組み合わせることができ、1つの組み合わせられた損失関数が、TOD BERT言語モデルを事前訓練するために使用されてもよい。例えば、いくつかの実施形態において、組み合わせられた損失関数は、MLM損失関数LmlmとRCL目的関数Lrclの重み付き和とすることができる。いくつかの実施形態において、TOD BERT言語モデルは、全ての層及びアテンション重みにおいてドロップアウト比率0.1を有する最適化器(例えば、AdamW最適化器)を使用することにより、組み合わせられた損失関数(例えば、MLM損失関数LmlmとRCL目的関数Lrclの重み付き和)を用いて事前訓練することができる。いくつかの実施形態において、学習率は、ウォームアップ期間なしで低減されてもよい。いくつかの実施形態において、ニューラルネットワーク活性化関数(例えば、ガウス誤差線形ユニット(Gaussian Error Linear Unit、GELU)活性化関数)が、TOD BERT言語モデルの事前訓練の間に使用されてもよい。いくつかの例において、TOD BERT言語モデルの事前訓練は、ホールドアウトされた開発セットの困惑スコア(perplexity scores)を使用して早期に停止されてもよい。
【0019】
図2は、本明細書に記載されているいくつかの実施形態による、タスク指向データセットを用いてTOD言語モデルを実装及び/又は事前訓練するためのコンピューティングデバイスの簡略化された図を提供する。図2に示すように、コンピューティングデバイス200は、メモリ220に結合されたプロセッサ210を含む。コンピューティングデバイス200の動作は、プロセッサ210により制御される。また、コンピューティングデバイス200は、1つのプロセッサ210のみと共に示されているが、プロセッサ210は、コンピューティングデバイス200内の1つ以上の中央処理装置、マルチコアプロセッサ、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、グラフィックス処理ユニット(GPU)などを表し得ることが理解される。コンピューティングデバイス200は、スタンドアロンサブシステムとして、コンピューティングデバイスに追加されるボードとして、及び/又は仮想マシンとして実装されてもよい。
【0020】
メモリ220は、コンピューティングデバイス200により実行されるソフトウェア、及び/又はコンピューティングデバイス200の動作の間に使用される1つ以上のデータ構造を記憶するために使用することができる。メモリ220は、1つ以上のタイプのマシン読取可能媒体を含むことができる。マシン読取可能媒体のいくつかの一般的な形態には、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、RAM、PROM、EPROM、フラッシュEPROM、任意の他のメモリチップ又はカートリッジ、及び/又はプロセッサ又はコンピュータが読み取るように適合された任意の他の媒体を含むことができる。
【0021】
プロセッサ210及び/又はメモリ220は、任意の適切な物理配置で配置することができる。いくつかの実施形態において、プロセッサ210及び/又はメモリ220は、同じボード上、同じパッケージ内(例えば、システムインパッケージ)、同じチップ上(例えば、システムオンチップ)などで実装することができる。いくつかの実施形態において、プロセッサ210及び/又はメモリ220は、分散、仮想化、及び/又はコンテナ化されたコンピューティングリソースを含むことができる。このような実施形態と矛盾なく、プロセッサ210及び/又はメモリ220は、1つ以上のデータセンター及び/又はクラウドコンピューティング施設に配置されてもよい。
【0022】
いくつかの例において、メモリ220は、1つ以上のプロセッサ(例えば、プロセッサ210)により実行されたときに1つ以上のプロセッサに本明細書でさらに詳細に説明されている方法を実行させることができる実行可能コードを含む、非一時的な有形のマシン読取可能媒体を含むことができる。例えば、図示のように、メモリ220は、システム及びモデルを実装及び/又はエミュレートするため、及び/又は本明細書でさらに説明されている方法のいずれかを実装するために使用することができるTODモジュール230の命令を含む。いくつかの例において、TODモジュール230は、データインターフェース215を介して、これらに限られないがタスク指向訓練データセットなどの入力240を受け取ることができる。データインターフェース215は、ユーザ発話を受け取るユーザインターフェース、又はシステム応答を受け取り又は取り出すことができる通信インターフェースのうちの任意のものであってよい。TODモジュール330は、入力会話履歴のコンテキストに対して選択された応答などの出力350を生成することができる。
【0023】
いくつかの実施形態において、TOD BERT231を事前訓練するために、TODモジュール230は、タスク指向データセットを含み得る入力240を受け取り、受け取ったデータセットを上記で論じたように処理することができる(例えば、これらに限られないが、対話のユーザ発話及びシステム応答を表すトークンを使用することにより、対話をフラットシーケンスに変換又はフラット化することを含む)。いくつかの実施形態において、タスク指向データセットの1つ以上は、TOD BERT231を事前訓練する代わりに、又はそれに加えて、下流のタスクを遂行するために使用することもできる。いくつかの実施形態において、タスク指向データセットは、マルチターンを有する英語ベースの人間-人間の対話を含むことができる。データセットの例には、未見のドメインにおけるユーザ応答を予測するためにモデルを訓練するように設計されたメタ学習Wizard-of-Ozデータセット(Meta-Learning Wizard-of-Oz dataset、「MetaLWOZ」)が含まれる。この大規模なデータセットは、47個のドメインにおける227個のタスクをカバーする、37,884個の目標指向対話をクラウドソーシングすることにより作成された。別のデータセットは、スキーマガイド対話(schema-guided dialogue)(「スキーマ(Schema)」)であり、これは、22,825個の対話を有し、いくつかの下流タスク、特に対話状態追跡に対するチャレンジングなテストベッドを提供する。各スキーマは、追跡スロットのセットであり、各ドメインは、複数のあり得るスキーマを有することができる。これは、単一の対話システムが多数のサービスをサポートすることを可能にし、多くの訓練データを必要とせずに新しいサービスの簡素な統合を容易にする。
【0024】
TOD BERT231を事前訓練する際の使用のため、及び下流タスクを遂行するために入力240として含まれ得るタスク指向データセットの他の例には、いわゆるタスクマスタ(Taskmaster)が含まれ、これには、2つの区別可能な手順で作成された5,507個の話された対話及び7,708個の書かれた対話を含む、6つのドメインを含む13,215個の対話が含まれている。一方は、一人がロボットのように行動する二人からなるWizard of Ozアプローチであり、他方は、クラウドソーシングされた作業者が対話全体を自分達で書く自己対話アプローチである。それは、1つの対話に22.9個の平均の会話ターンを有し、これは、本明細書で考慮される全てのタスク指向データセットの中で最長である。別のタスク指向データセットは、マルチドメインWizard-of-Oz(Multi-Domain Wizard-of-Oz、MWOZ)データセットであり、これは、訓練、検証、及びテストセットそれぞれについて8420/1000/1000個の対話を含み、有する。7つの異なるドメインにわたり、合計で、それは、テストセットで追跡される必要がある30個の(ドメイン,スロット)ペアを有する。関連するデータセットには、同じ対話トランスクリプトだが向上した状態ラベル注釈を有するMWOZ2.1がある。また、さらに別のタスク指向データセットは、映画チケット予約、レストラン予約、及びタクシー予約の3つのドメインで10,087個の対話を有するMicrosoft(登録商標)エンドツーエンド(Microsoft end-to-end、MSR-E2E)対話チャレンジとすることができる。このデータセットには、各ドメインに組み込まれたシミュレータを有する実験プラットフォームも含まれている。
【0025】
また、タスク指向データセットのさらなる他の例には、範囲外意図データセット(out-of-scope intent dataset、「OOS」)、対話状態追跡チャレンジ2(dialogue state tracking challenge 2、「DSTC2」)、Google(登録商標)シミュレーテッドデータセット(Google Simulated dataset、「GSIM」)が含まれる。OOSデータセットは、訓練、検証、及びテストセットそれぞれについて15,100/3,100/5,500個のサンプルを含み、150個の範囲内意図と1つの範囲外意図とを含む、10個のドメインにわたる151個の意図クラスをカバーしている。範囲外意図は、ユーザ発話が事前定義された意図のいずれにも該当しないことを意味する。意図の各々は、100個の訓練サンプルを有する。DSTC2データセットは、特定のシステム応答ノイズを含み得る人間-機械タスク指向データセットである。それは、訓練、検証、及びテストセットそれぞれについて1,612/506/1117個の対話を有する。いくつかの場合、元の対話行為ラベルをユニバーサル対話行為にマッピングすることができ、これは、19個の異なるシステム対話行為を結果としてもたらす。GSIMは、訓練、検証、及びテストセットそれぞれについて1500/469/1039個の対話を含む、人間が書き直した機械-機械タスク指向コーパスである。いくつかの場合、そのドメインのうちの2つ、映画及びレストランドメインを、1つの単一コーパスに組み合わせることができる。GSIMは、マシン・トーキング・ツー・マシン(Machines Talking To Machines、M2M)アプローチ、対話セルフプレイステップとクラウドソーシングステップとを組み合わせた機能駆動プロセスにより収集される。いくつかの場合、その対話行為ラベルをユニバーサル対話行為にマッピングすることができ、13個の異なるシステム対話行為が結果としてもたらされる。
【0026】
タスク指向データセットのさらなる例には、スタンフォードマルチドメイン対話(Stanford multi-domain dialogue、SMD)、フレームズ(Frames)、Wizard-of-Oz(WOZ)、ケンブリッジレストラン対話ドメインデータセット(Cam-Rest676)が含まれる。SMDは、車内のパーソナルアシスタントデータセットであり、3,301個の対話と、3つのドメイン、すなわちカレンダースケジューリング、天候情報取り出し、及び関心ポイントナビゲーションを含む。それは、ナレッジスニペットが簡略化されたデータベース情報の断片として各対話に添付されているナレッジベースとスムーズにインターフェースするように設計されている。WOZとCam-Rest676は、DSTC2と同じデータ収集手順及び同じオントロジーを使用しており、音声入力の代わりにテキスト入力でWizard of Ozスタイルをさらに使用しており、これは、自動音声認識エラーに対するその堅牢性の代わりに、意味理解に対するモデルのキャパシティを向上させることができる。
【0027】
いくつかの実施形態において、前述したタスク指向データセットは、TOD BERT231を事前訓練するためにTODモジュールに提供され得る入力240の一部であってよい。いくつかの実施形態において、これらのタスク指向データセットのいずれかの対話は、上記で論じたように処理され(例えば、これらに限られないが、対話のユーザ発話及びシステム応答を表すトークンを使用することにより、対話をフラットシーケンスに変換又はフラット化することを含む)、TOD BERT231を事前訓練するために使用されてもよい。すなわち、例えば、損失関数Lmlm及びLrclを、対話のフラット化されたシーケンスに基づいて構築することができ、TOD-BERT231を、上記で論じたように最適化器(例えば、AdamW最適化器)を使用して訓練することができる。事前訓練されたTOD-BERT231は、同じハイパーパラメータを使用して1.0への勾配クリッピングを用いて一部又は全てのモデルパラメータを更新することにより、さらにファインチューニングされ(fine-tuned)てもよい。いくつかの実施形態において、事前訓練された(例えば、及びファインチューニングされた)TOD BERT231を使用して、これらに限られないが意図検出、対話状態追跡、対話行為予測、及び/又は応答選択などの1つ以上の下流タスクを遂行することができる。例えば、TODモジュール230は、それぞれの下流タスクを実行し、出力250を生成するように構成された応答選択モジュール232、対話行為予測モジュール233、対話状態追跡モジュール234、及び意図検出モジュール235を含むことができる。
【0028】
いくつかの実施形態において、応答選択モジュール232は、システム応答をランク付けし、候補プールから最も関係のあるシステム応答を取り出すように構成することができる。応答選択モジュール232は、その開示がその全体を参照により本明細書に組み込まれている、HendersonらのTraining neural response selection for task-oriented dialogue systems、Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics、ページ5392-5404、2019年で論じられているようなデュアルエンコーダアプローチを使用し、次の式:
【数5】

を使用して、ソースXとターゲットYとの間の類似度スコアを計算する。ここで、Yは、第iの応答候補であり、rは、そのコサイン類似度スコアである。いくつかの例において、ソースXは切り詰められ(truncated)てもよく、コンテキスト長が最も最近の256個のトークンに制限される場合がある。いくつかのシステム応答は、陰性サンプルとしてコーパスからランダムにサンプリングすることができる。いくつかの場合、このようなランダムサンプルは、真の陰性サンプルではない場合がある。
【0029】
いくつかの実施形態において、対話行為予測モジュール233は、対話履歴を入力として取り込み、各々のあり得る対話行為の二値結果を予測するように構成することができ、これは、
【数6】

として表すことができる。ここで、
【数7】

は、訓練可能な線形マッピングであり、Nは、あり得る対話行為の数であり、Aにおける各値は、シグモイド層の後、[0,1]の間である。モデルは、二値交差エントロピー損失で訓練され、第iの対話行為は、A>0.5の場合、トリガされた対話行為と見なされる。いくつかの例において、対話行為予測モジュール233は、ユーザ発話及びシステム応答を分類するように構成されてもよく、なぜならば、各々が複数の対話行為を含む場合があるためである。例えば、システム応答は、これらに限られないが同時に要求し及び知らせることなどの複数の対話行為を含むことがあり、そのような場合、対話行為予測モジュール233は対話行為を分類してもよい。
【0030】
いくつかの実施形態において、対話状態追跡モジュール234は、入力として対話履歴X(発話のシーケンス)に対して構成され、各対話ターンにおける各(ドメイン,スロット)ペアのスロット値を予測することができる。いくつかの例において、スロットは情報のカテゴリを示し、値は情報の内容を指定する。例えば、ユーザ発話「ダウンタウンの病院の名前を私に教えてください(please give me the name of a hospital in downtown)」は、知らせる(エリア,ダウンタウン)(inform(area, downtown))、及び、要求する(名前)(request(name))としてデコードでき、これは、ユーザがスロットのエリアに対して値のダウンタウンを指定し、別のスロットの名前を要求したことを示している。第jの(ドメイン,スロット)ペアの、そのあり得る値に対する確率分布S は、次の式:
【数8】

で与えることができる。ここで、Simは、コサイン類似度関数であり、スロット射影層の数|G|は、(ドメイン,スロット)ペアの数に等しい。いくつかの例において、モデルは、全てのペアにわたり合計された交差エントロピー損失で訓練されてもよい。いくつかの例において、各対応する値v 、第jの(ドメイン,スロット)ペアの第iの値は、モデルに渡され、訓練の間にその表現を固定されてもよい。いくつかの実施形態において、対話状態追跡モジュール234は、事前定義されたオントロジーを使用してマルチクラス分類問題として扱うことができる。
【0031】
いくつかの実施形態において、意図検出モジュール235は、文Uを取り込み、I個のあり得る意図に対する1つの単一意図クラスを予測するように構成される。意図クラスの予測分布は、
【数9】

として表される。ここで、Fは、事前訓練されたTOD BERT言語モデル231であり、
【数10】

は、訓練可能な線形マッピングであり、トークン[CLS]埋め込みは、出力表現として使用されている。いくつかの例において、TOD BERT言語モデル231は、予測分布Pintと真の意図ラベルとの間の交差エントロピー損失で訓練されてもよい。
【0032】
したがって、処理されたタスク指向データセットを入力240として受け取ると、TODモジュール230は、TOD BERT言語モデル231、応答選択モジュール232、対話行為予測モジュール233、対話状態追跡モジュール234、及び/又は意図検出モジュール235の1つ以上を使用して、前述したスコア、予測、確率分布などを含む出力250を生成することができる。いくつかの実装において、タスク指向データセットを処理することには、これらに限られないが、前述したように、タスク指向データセットの対話を、対話のユーザ発話及びシステム応答を表すトークンを使用することによりフラットシーケンスに変換又はフラット化することが含まれる。応答選択モジュール232に関して、例えば、応答選択モジュール232は、タスク指向データセットのシステム応答を入力240として受け取り、受け取ったシステム応答のうちのシステム応答のペアを比較する類似度スコアを出力250として生成することができる。別の例として、対話行為予測モジュール233は、タスク指向データセットの対話履歴(例えば、ユーザ発話)を入力240として受け取り、対話履歴に対する次の対話行為の確率的予測を出力250として生成することができる。対話状態追跡モジュール234は、タスク指向データセットの対話履歴(例えば、ユーザ発話)を入力240として受け取り、タスク指向データセット内の対話の対話ターンの(ドメイン,スロット)ペアの確率分布を出力250として生成することができる。さらに別の例として、意図検出モジュール235は、タスク指向データセットの対話の文Uを入力240として受け取り、文Uの意図クラスに関する予測確率を生成することができる。TODモジュール330、TOD BERT言語モデル231、応答選択モジュール232、対話行為予測モジュール233、対話状態追跡モジュール234、及び/又は意図検出モジュール235は、ハードウェア、ソフトウェア、及び/又はハードウェアとソフトウェアの組み合わせを使用して実装することができる。
【0033】
図3は、いくつかの実施形態による、タスク指向データセットを用いてTOD言語モデルを訓練する方法を示す簡略化された論理フロー図である。方法300のプロセス310~360の1つ以上は、少なくとも部分的に、1つ以上のプロセッサにより実行されたときに1つ以上のプロセッサにプロセス310~360の1つ以上を実行させることができる非一時的な有形のマシン読取可能媒体に記憶された実行可能コードの形式で実装することができる。いくつかの実施形態において、方法300は、図2のモジュール230により使用される方法に対応することができる。
【0034】
プロセス310において、タスク指向対話(TOD)言語モデルが、複数の対話を含むTODデータセットを受け取ることができ、複数の対話の各対話は、複数のユーザ発話と複数のシステム応答を含む。
【0035】
プロセス320において、モデル入力シーケンスが、とりわけ、複数のユーザ発話の各ユーザ発話に第1のトークンを、及び複数のシステム応答の各システム応答に第2のトークンを接頭辞として付けることと、接頭辞を付けられたユーザ発話の各々と接頭辞を付けられたシステム応答の各々を連結することにより、生成され得る。
【0036】
プロセス330において、モデル入力シーケンスからの第1のトークン又は第2のトークンが、マスクされた訓練シーケンスを生成するために、マスクトークンにランダムに置き換えられ得る。
【0037】
プロセス340において、マスクされた訓練シーケンスが、TOD言語モデルに提供又は入力され得る。
【0038】
プロセス350において、マスクされた訓練シーケンスに対応するTOD言語モデルからの第1の出力分布に基づいて、マスク言語モデリング(MLM)損失が計算され得る。
【0039】
プロセス360において、TOD言語モデルがMLM損失に基づいて更新され得る。
【0040】
方法300のいくつかの態様において、方法300は、複数の対話から第1の対話セットを選択することをさらに含んでもよい。さらに、方法300は、ランダムなターンにおける第1の対話セットの各対話を、その対話の第1の部分とその対話の第2の部分に分割して、第2の対話セットと第3の対話セットを生成することを含んでもよく、第2の対話セットは第1の対話セットの各対話の第1の部分を含み、第3の対話セットは第1の対話セットの各対話の第2の部分を含む。さらに、方法300は、第2の対話セット及び第3の対話セットをTOD言語モデルに入力することと、第2の対話セット及び第3の対話セットに対応するTOD言語モデルからの第2の出力分布に基づいて応答対照損失(RCL)メトリックを計算することを含んでもよく、MLM損失メトリックに基づいてTOD言語モデルを更新することは、MLM損失メトリックとRCLメトリックの組み合わせに基づいてTOD言語モデルを更新することを含む。いくつかの態様において、MLM損失メトリックとRCLメトリックの組み合わせは、MLM損失メトリックとRCLメトリックの重み付き和である。
【0041】
いくつかの態様において、TOD言語モデルは、トランスフォーマからの双方向エンコーダ表現(BERT)ベースの言語表現モデルを使用して構築される。いくつかの態様において、方法300は、TOD言語モデルを使用して、複数のユーザ発話のうちのユーザ発話の意図クラスを識別することをさらに含む。いくつかの態様において、方法300は、TOD言語モデルを使用して、複数の対話のうちの対話の信念状態(belief state)を判断することをさらに含む。いくつかの態様において、方法300は、TOD言語モデルを使用して、複数の対話のうちの対話の対話行為を予測することをさらに含む。いくつかの態様において、方法300は、TOD言語モデルを使用して、及び複数のユーザ発話からのユーザ発話に対して、ユーザ発話に応答する複数のシステム応答からのシステム応答を選択することをさらに含む。
【0042】
図4図8は、いくつかの実施形態による、複数の下流タスクに関してタスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間の性能比較の例示的な図示を示す。例えば、図4図8は、それぞれ、応答選択、対話行為予測、対話状態追跡、意図検出、及び複数の下流タスクに関して行われた実験の性能比較結果を示している。各下流タスクについて、実験はデータセット全体を使用して行われ、少数ショット設定(few-shot setting)がシミュレートされている。各々の少数ショット実験は、データサンプリングの分散を減らすために異なるランダムシードを用いて少なくとも3回実行されており、これらの限られたデータシナリオの平均と標準偏差が、対応する下流タスクの図に示されている。実験又は計算は、TOD-BERTの2つのバージョンに対して実行されており、第1のバージョンは、事前訓練の間にMLM損失目的関数のみを使用しており(以降「TOD-BERT-mlm」と呼ぶ)、第2のバージョンは、事前訓練の間にMLM及びRCL目的関数を連帯的に(jointly)使用している(以降「TOD-BERT-jnt」と呼ぶ)。図4図8は、BERT及び他のベースラインと比較した、TOD-BERT-mlm及びTOD-BERT-jntを用いた実験の結果を示しており、他のベースラインには、2つの他の事前訓練モデルとDialoGPTが含まれ、DialoGPTは、RadfordらのLanguage models are unsupervised multitask learners、2018年、及びZhangらのDialogpt:Large-scale generative pre-training for conversational response generation、arXiv:1911.00536、2019年で論じられており、これらの双方の開示はそれぞれ、その全体を参照により本明細書に組み込まれている。いくつかの場合、GPTベースのモデルでは、その出力表現として、最後のトークンのみを使用するのと対照的に、その隠れ状態の平均プーリングが使用される。
【0043】
例えば、図4は、1つの実施形態による、応答選択の下流タスクに関してタスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間の性能比較を示す例示的なデータテーブルを示している。図4には、1%、10%、及びフルデータ設定について3つのコーパス、MWOZデータセット、DSTC2データセット、及びGSIMデータセット上でk対100(k-to-100)メトリック(k=1及び3を用いた)を使用した応答選択評価結果が含まれている。100のうちのk(k-of-100)のメトリックは、100個の例のランダムなバッチを使用して計算することができ、それにより、同じバッチ内の他の例からの応答はランダムな陰性候補として使用することができ、これは、バッチ内の多くの例にわたるメトリックの効率的な計算を可能にする場合がある。いくつかの場合、ランダムな陰性は「真の」陰性である場合がある。図4の例示的な結果は、干渉の間にバッチをサンプリングするために5つの異なるランダムシードが実行されたときに得られた平均結果である。
【0044】
図4は、いくつかの実施形態において、BERT、GPT2、DialoGPT、及びTOD-BERT-mlmなどの実験の間に実行された他のモデルと比較して、TOD-BERT-jntが応答選択に対して最良の実験結果を達成していることを示している。例えば、TOD-BERT-jntは、MWOZで65.8%の1対100の正解率(accuracy)と87.0%の3対100の正解率を達成しており、これらはそれぞれ、BERTを18.3%及び11.5%だけ上回っている。同様の結果が、DSTC2及びGSIMデータセットに関して適用でき、TOD-BERT-jntは、他の言及されたモデルより高い正解率を達成している。さらに、TOD-BERT-jntの結果は、少数ショットシナリオでは(例えば、フルデータセットが使用されているときに対して)、他のモデルよりも相対的により一層高い。いくつかの場合、応答選択結果は、バッチサイズがより大きくなるほど予測がより困難になる可能性があるため、訓練バッチサイズに敏感である可能性があることが見出された。図4の実験では、バッチサイズは全てのモデルで25に等しい。
【0045】
図5は、1つの実施形態による、対話行為予測の下流タスクに関してタスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間の性能比較を示す例示的なデータテーブルを示している。図5は、BERT、及び多層パーセプトロン(MLP)モデル、リカレントニューラルネットワーク(RNN)モデル、GPT2、及びDialoGPTなどの他のベースラインモデルと比較して、TOD-BERTが対話行為予測に対して最良の実験結果を達成していることを例示している。実験は、3つの異なるデータセットで実行されており、図5は、対話行為予測タスク、マルチラベル分類問題に関して、それぞれのモデルの分類性能を評価する評価メトリック、マイクロ平均F1(マイクロF(micro-F1))及びマクロ平均F1(マクロF1(macro-F1))スコアを示している。実験を実行する際、MWOZデータセットでは、ドメイン情報が元のシステム対話行為ラベルから削除された。例えば、「タクシー-知らせる(taxi-inform)」は「知らせる(inform)」に簡略化されている場合がある。このプロセスは、あり得る対話行為の数を31から13に低減させることができる。DSTC2及びGSIMコーパスでは、元の対話行為ラベルを一般的な対話行為フォーマットにマッピングするユニバーサル対話行為マッピングが適用され、DSTC2及びGSIMでそれぞれ19個及び13個のシステム対話行為が結果としてもたらされた。ベースラインのRNN及びMLPモデルも、比較目的で実行された。MLPモデルは、対話行為予測を行うためにバッグオブワード(bag-of-word)埋め込みをとり、RNNモデルは、双方向GRUネットワークである。
【0046】
図5に例示するように、フルデータ設定では、モデルのテストに使用されるデータセットに関わらず、又はモデルの性能を評価するためにどんな評価メトリックが使用されるとしても、TOD-BERTが一貫して、BERT及び他のベースラインより良好に動作している。少数ショット実験では、TOD-BERT-mlmが、1%データシナリオにおいてMWOZコーパス上で約3.5%のマイクロF1及び約6.6%のマクロF1だけBERTより性能が優れている。図5は、訓練データの約10%が、フルデータ訓練に近い良好な性能を達成することができることも示している。
【0047】
図6は、1つの実施形態による、対話状態追跡の下流タスクに関してタスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間の性能比較を示す例示的なデータテーブルを示している。いくつかの実施形態において、対話状態追跡タスクに関する言語モデルの性能は、これらに限られないが、連帯目標正解率(joint goal accuracy)及びスロット正解率(slot accuracy)などの評価メトリックを使用して評価することができる。いくつかの実施形態において、連帯目標正解率は、各対話ターンにおける予測された対話状態をグラウンドトゥルースと比較することができ、グラウンドトゥルースには、あり得る(ドメイン,スロット)ペアの全てについてのスロット値を含むことができる。出力は、全ての予測値がそのグラウンドトゥルース値と正確に一致する場合、及びその場合に限り、正しい予測と見なすことができる。一方、スロット正解率は、各(ドメイン,スロット,値)トリプレットをそのグラウンドトゥルースラベルと個々に比較する。
【0048】
図6は、MWOZ2.1データセットを使用した対話状態追跡についてBERTとTOD-BERTとを比較した実験の結果を示しており、TOD-BERT-jntがBERTよりも約2.4%の連帯目標正解率の向上を有することが示されている。さらに、結果は、1%(例えば、約84個の対話を含むことができる)、5%、10%、及び25%のデータを使用した少数ショット実験では、TOD-BERT(すなわち、TOD-BERT-mlmとTOD-BERT-jntの双方)が全ての設定でBERTより性能が優れていることを示しており、タスク指向対話事前訓練の強度を示している。実験の間、全てのあり得る注釈付き値の新しいオントロジーが作成された。図6は、TOD-BERT-jntが、DSTReader、HyST、TRADE、及びZSDSTを含むいくつかの他のよく知られた対話状態追跡器より良好な連帯目標正解率及びスロット正解率を有することも示している。
【0049】
図7は、1つの実施形態による、意図検出の下流タスクに関してタスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間の性能比較を示す例示的なデータテーブルを示している。いくつかの実施形態において、性能比較は、最大意図検出データセットの1つ、OOSデータセットに適用されたとき、TOD-BERTが、BERT、及びこれらに限られないがGPT2、DialoGPTなどの他の強力なベースラインより性能が優れていることを示している。性能比較の結果には、OOSデータセットの全てのデータにおける意図検出正解率(「Acc(all)」)、OOSデータセットのドメイン内意図のみにおける意図検出正解率(「Acc(in)」)、及びOOSデータセットの範囲外意図のみにおける意図検出正解率(「Acc(out)」)が含まれる。いくつかの実施形態において、範囲外意図は、とりわけ、範囲外意図をさらなるクラスとして扱うことにより予測することができる。いくつかの実施形態において、範囲外意図は、とりわけ、予測信頼度の閾値を設定することにより予測することができる。図7は、範囲外意図をさらなるクラスとして扱うことにより範囲外意図が予測される場合の結果を示しており、TOD-BERT-jntが、最も高い範囲内及び範囲外の正解率を達成している。さらに、訓練セット内の各意図クラスから1個及び10個の発話をランダムにサンプリングすることにより行われた1ショット及び10ショットの実験では、TOD-BERT-jntは、1ショット設定においてBERTと比較して、約13.2%の全意図正解率の向上と、約16.3%のドメイン内正解率の向上を有している。
【0050】
図8は、1つの実施形態による、複数の下流タスクに関してタスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間の性能比較を示す例示的なデータテーブルを示している。すなわち、図8は、GPT2、DialoGPT、BERT、TOD-BERT-mlm、及びTOD-BERT-jntなどの事前訓練されたモデルの、各モデルのファインチューニングの前の、特徴抽出能力を示しており、学習された埋め込みによりどのような情報が本質的に運ばれるかを判断するために、探査方法が使用された。いくつかの実施形態において、事前訓練されたモデルの出力表現は、「固定された」事前訓練された言語モデルの上に1つの単層パーセプトロンを使用することにより探査され、その層のみが、同じハイパーパラメータで下流タスクのためにファインチューニングされた。図8の探査結果は、GPT2、DialoGPT、BERT、TOD-BERT-mlm、及びTOD-BERT-jntの各々について、MWOZデータセットにおけるドメイン分類正解率、OOSにおける意図識別正解率、及びMWOZデータセットにおける対話行為予測のF1マイクロ評価メトリックを示しており、TOD-BERT-jntが、各テストされた下流タスクに対して最高の性能を達成しており、TOD-BERT-jntの表現が、他のテストされた事前訓練されたモデルと比較して最も有用な情報を含むことを示している。
【0051】
図9A図9B図9C図10A図10B図10C図11A図11B、及び図11Cは、1つの実施形態による、タスク指向データセットで訓練されたTOD言語モデルを含む様々な言語モデル間のタスク指向テストデータに関する性能比較を視覚化した例示的な図を示している。図は、MWOZテストデータセットからの同じ入力を前提として、BERT、TOD-BERT-mlm、及びTOD-BERT-jntの埋め込みの視覚的な例示を提示している。いくつかの態様において、各サンプル点は、システム応答表現を識別し、これは、事前訓練されたモデルに通されてもよく、その高次元の特徴は、次元削減のためのt分布確率的近傍埋め込み(t-distributed stochastic neighbor embedding、tSNE)を使用して2次元の点に削減され得る。各発話の真のドメイン及び対話行為ラベルが既知であるため、異なるドメイン及び異なる対話行為を別個に表すことができる。いくつかの態様において、図9A図9B図9C図10A図10B図10C図11A図11B、及び図11Cは、BERT、TOD-BERT-mlm、及びTOD-BERT-jntを比較すると、事前訓練されたモデルがTOD-BERT-jntであるとき、異なるドメイン及び異なる対話行為が最も良く定義された境界を有し得ることを示しており、TOD-BERT-mlmが後に続き、次いでBERTであり、TOD-BERTがBERTより良好に機能することを示している。
【0052】
例えば、図9A図9Cは、いくつかの実施形態における、ドメイン「レストラン(restaurant)」、「アトラクション(attraction)」、「タクシー(taxi)」、「列車(train)」、及び「ホテル(hotel)」についての、MWOZテストセットにおけるシステム応答のBERT、TOD-BERT-mlm、及びTOD-BERT-jnt表現のtSNE視覚化をそれぞれ示している。図の視覚的調査は、ドメインが、TOD-BERT-mlmのものよりもシステム応答のTOD-BERT-jnt表現に対してより定義された又はよりシャープな境界を有し、次にTOD-BERT-mlmは、BERTのものと比較したとき、異なるドメイン間でより定義された又はよりシャープな境界を有することを示す。さらに、図10A図10Cは、いくつかの実施形態における、これらに限られないが「要求(request)」、「推奨(recommend)」、「歓迎(welcome)」、「挨拶(greet)」、「選択(select)」などの対話行為についての、MWOZテストセットにおけるシステム応答のBERT、TOD-BERT-mlm、及びTOD-BERT-jnt表現のtSNE視覚化をそれぞれ示している。ここでも、図の視覚的調査は、異なる対話行為が、TOD-BERT-mlmのものよりもシステム応答のTOD-BERT-jnt表現に対してより定義された又はよりシャープな境界を有し、次にTOD-BERT-mlmは、BERTのものと比較したとき、異なる対話行為間でより定義された又はよりシャープな境界を有することを示す。さらに、図11A図11Cは、いくつかの実施形態における、これらに限られないが「名前(name)」、「エリア(area)」、「出発(departure)」、「食べ物(food)」、「駐車場(parking)」などの対話スロットについての、MWOZテストセットにおけるシステム応答のBERT、TOD-BERT-mlm、及びTOD-BERT-jnt表現のtSNE視覚化をそれぞれ示している。再びになるが、図の視覚的調査は、異なる対話スロットが、TOD-BERT-mlmのものよりもシステム応答のTOD-BERT-jnt表現に対してより定義された又はよりシャープな境界を有し、次にTOD-BERT-mlmは、BERTのものと比較したとき、異なる対話スロット間でより定義された又はよりシャープな境界を有することを示す。そのため、図9A図9B図9C図10A図10B図10C図11A図11B、及び図11Cは、TOD-BERTの事前訓練されたモデルが、下流タスク指向対話アプリケーションでBERTよりも向上した結果又は性能を提供することを示している。
【0053】
コンピューティングデバイス200などのコンピューティングデバイスのいくつかの例には、1つ以上のプロセッサ(例えば、プロセッサ210)により実行されたときに1つ以上のプロセッサに方法300のプロセスを実行させることができる実行可能コードを含む、非一時的な有形のマシン読取可能媒体が含まれてもよい。方法300のプロセスを含み得るマシン読取可能媒体のいくつかの一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、RAM、PROM、EPROM、フラッシュEPROM、任意の他のメモリチップ又はカートリッジ、及び/又はプロセッサ又はコンピュータが読み取るように適合された任意の他の媒体である。
【0054】
発明態様、実施形態、実装、又は応用を例示する本説明及び添付図面は、限定的なものと解されるべきではない。本説明及び特許請求の範囲の主旨及び範囲から逸脱することなく、様々な機械的、組成的、構造的、電気的、及び動作的上の変更がなされ得る。いくつかの例において、よく知られた回路、構造、又は手法は、本開示の実施形態を分かりにくくしないように、詳細に図示又は説明されていない。2つ以上の図における同様の番号は、同じ又は類似した要素を表す。
【0055】
本説明では、本開示と矛盾しないいくつかの実施形態を説明する具体的な詳細が示されている。実施形態の完全な理解を提供するために、多数の具体的な詳細が順番に示されている。しかしながら、当業者には、いくつかの実施形態がこれらの具体的な詳細の一部又は全部なしに実施され得ることが明らかであろう。本明細書に開示された具体的な実施形態は、限定的ではなく例示的であることを意図している。当業者は、ここに具体的に記載されていないが本開示の範囲及び主旨内である他の要素を実現する可能性がある。さらに、不必要な繰り返しを避けるために、1つの実施形態に関連して図示及び説明された1つ以上の特徴は、別段具体的に記載されていない限り、又は1つ以上の特徴が実施形態を機能しないようにする場合を除き、他の実施形態に組み込まれてもよい。
【0056】
例示的な実施形態が図示及び説明されたが、前述の開示において広範囲の修正、変更、及び置換が考えられ、いくつかの例では、実施形態の一部の特徴が、他の特徴の対応する使用なしに採用される場合がある。当業者は、多くのバリエーション、代替、及び修正を認識するであろう。したがって、本発明の範囲は、以下の特許請求の範囲によってのみ限定されるべきであり、特許請求の範囲は、広く、本明細書で開示された実施形態の範囲と矛盾しないように解釈されることが適切である。
図1
図2
図3
図4
図5
図6
図7
図8
図9A
図9B
図9C
図10A
図10B
図10C
図11A
図11B
図11C
【手続補正書】
【提出日】2023-05-09
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
タスク指向対話(TOD)言語モデルにおいて、複数の対話を含むTODデータセットを受け取るステップであり、前記複数の対話の各対話は、複数のユーザ発話と複数のシステム応答を含む、ステップと、
モデル入力シーケンスを、
前記複数のユーザ発話の各ユーザ発話に第1のトークンを、及び前記複数のシステム応答の各システム応答に第2のトークンを接頭辞として付けることと、
前記接頭辞を付けられたユーザ発話の各々と前記接頭辞をつけられたシステム応答の各々を連結することと
により生成するステップと、
前記モデル入力シーケンスからの前記第1のトークン又は前記第2のトークンをマスクトークンにランダムに置き換えて、マスクされた訓練シーケンスを生成するステップと、
前記マスクされた訓練シーケンスを前記TOD言語モデルに入力するステップと、
前記マスクされた訓練シーケンスに対応する前記TOD言語モデルからの第1の出力分布に基づいて、マスク言語モデリング(MLM)損失を計算するステップと、
前記MLM損失に基づいて前記TOD言語モデルを更新するステップと、
を含む方法。
【請求項2】
前記複数の対話から第1の対話セットを選択するステップと、
ランダムなターンにおける前記第1の対話セットの各対話をその対話の第1の部分とその対話の第2の部分とに分割して、第2の対話セット及び第3の対話セットを生成するステップであり、
前記第2の対話セットは前記第1の対話セットの各対話の前記第1の部分を含み、前記第3の対話セットは前記第1の対話セットの各対話の前記第2の部分を含む、ステップと、
前記第2の対話セット及び第3の対話セットを前記TOD言語モデルに入力するステップと、
前記第2の対話セット及び前記第3の対話セットに対応する前記TOD言語モデルからの第2の出力分布に基づいて応答対照損失(RCL)を計算するステップと、
をさらに含み、
前記MLM損失に基づいて前記TOD言語モデルを更新することは、前記MLM損失と前記RCLメトリックの組み合わせに基づいて前記TOD言語モデルを更新することを含む、請求項1に記載の方法。
【請求項3】
前記MLM損失と前記RCLの前記組み合わせは、前記MLM損失と前記RCLの重み付き和である、請求項2に記載の方法。
【請求項4】
前記TOD言語モデルは、トランスフォーマからの双方向エンコーダ表現(BERT)ベースの言語表現モデルを使用して構築される、請求項1に記載の方法。
【請求項5】
前記TOD言語モデルを使用して、前記複数のユーザ発話のうちのユーザ発話の意図クラスを識別するステップ、をさらに含む、請求項1に記載の方法。
【請求項6】
前記TOD言語モデルを使用して、前記複数の対話のうちの対話の信念状態を判断するステップ、をさらに含む、請求項1に記載の方法。
【請求項7】
前記TOD言語モデルを使用して、前記複数の対話のうちの対話の対話行為を予測するステップ、をさらに含む、請求項1に記載の方法。
【請求項8】
前記TOD言語モデルを使用して、及び前記複数のユーザ発話からのユーザ発話に対して、前記ユーザ発話に応答する前記複数のシステム応答からのシステム応答を選択するステップ、をさらに含む、請求項1に記載の方法。
【請求項9】
タスク指向対話(TOD)言語モデルを訓練するための命令を記憶するメモリと、
前記メモリから前記命令を読み取り及び実行して、
前記TOD言語モデルにおいて、複数の対話を含むTODデータセットを受け取り、前記複数の対話の各対話は、複数のユーザ発話と複数のシステム応答を含み、
モデル入力シーケンスを、
前記複数のユーザ発話の各ユーザ発話に第1のトークンを、及び前記複数のシステム応答の各システム応答に第2のトークンを接頭辞として付けることと、
前記接頭辞を付けられたユーザ発話の各々と前記接頭辞をつけられたシステム応答の各々を連結することと
により生成し、
前記モデル入力シーケンスからの前記第1のトークン又は前記第2のトークンをマスクトークンにランダムに置き換えて、マスクされた訓練シーケンスを生成し、
前記マスクされた訓練シーケンスを前記TOD言語モデルに入力し、
前記マスクされた訓練シーケンスに対応する前記TOD言語モデルからの第1の出力分布に基づいて、マスク言語モデリング(MLM)損失を計算し、
前記MLM損失に基づいて前記TOD言語モデルを更新する
ように構成されたプロセッサと、
を含むシステム。
【請求項10】
前記プロセッサはさらに、前記メモリから前記命令を読み取り及び実行して、
前記複数の対話から第1の対話セットを選択し、
ランダムなターンにおける前記第1の対話セットの各対話をその対話の第1の部分とその対話の第2の部分とに分割して、第2の対話セット及び第3の対話セットを生成し、
前記第2の対話セットは前記第1の対話セットの各対話の前記第1の部分を含み、前記第3の対話セットは前記第1の対話セットの各対話の前記第2の部分を含み、
前記第2の対話セット及び第3の対話セットを前記TOD言語モデルに入力し、
前記第2の対話セット及び前記第3の対話セットに対応する前記TOD言語モデルからの第2の出力分布に基づいて応答対照損失(RCL)を計算する
ように構成され、
前記MLM損失に基づいて前記TOD言語モデルを更新することは、前記MLM損失と前記RCLの組み合わせに基づいて前記TOD言語モデルを更新することを含む、請求項9に記載のシステム。
【請求項11】
前記MLM損失と前記RCLの前記組み合わせは、前記MLM損失と前記RCLの重み付き和である、請求項10に記載のシステム。
【請求項12】
前記TOD言語モデルは、トランスフォーマからの双方向エンコーダ表現(BERT)ベースの言語表現モデルを使用して構築される、請求項9に記載のシステム。
【請求項13】
前記プロセッサはさらに、前記メモリから前記命令を読み取り及び実行して、前記TOD言語モデルを使用して、前記複数のユーザ発話のうちのユーザ発話の意図クラスを識別するように構成される、請求項9に記載のシステム。
【請求項14】
前記プロセッサはさらに、前記メモリから前記命令を読み取り及び実行して、前記TOD言語モデルを使用して、前記複数の対話のうちの対話の信念状態を判断するように構成される、請求項9に記載のシステム。
【請求項15】
プロセッサに動作を実行させるために実行可能なマシン読取可能命令を記憶した非一時的コンピュータ読取可能媒体(CRM)であって、前記動作は、
タスク指向対話(TOD)言語モデルにおいて、複数の対話を含むTODデータセットを受け取ることであり、前記複数の対話の各対話は、複数のユーザ発話と複数のシステム応答を含む、ことと、
モデル入力シーケンスを、
(i)前記複数のユーザ発話の各ユーザ発話に第1のトークンを、及び前記複数のシステム応答の各システム応答に第2のトークンを接頭辞として付けることと、
(ii)前記接頭辞を付けられたユーザ発話の各々と前記接頭辞をつけられたシステム応答の各々を連結することと
により生成することと、
前記モデル入力シーケンスからの前記第1のトークン又は前記第2のトークンをマスクトークンにランダムに置き換えて、マスクされた訓練シーケンスを生成することと、
前記マスクされた訓練シーケンスを前記TOD言語モデルに入力することと、
前記マスクされた訓練シーケンスに対応する前記TOD言語モデルからの第1の出力分布に基づいて、マスク言語モデリング(MLM)損失を計算することと、
前記MLM損失に基づいて前記TOD言語モデルを更新することと、
を含む、非一時的CRM。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0056
【補正方法】変更
【補正の内容】
【0056】
例示的な実施形態が図示及び説明されたが、前述の開示において広範囲の修正、変更、及び置換が考えられ、いくつかの例では、実施形態の一部の特徴が、他の特徴の対応する使用なしに採用される場合がある。当業者は、多くのバリエーション、代替、及び修正を認識するであろう。したがって、本発明の範囲は、以下の特許請求の範囲によってのみ限定されるべきであり、特許請求の範囲は、広く、本明細書で開示された実施形態の範囲と矛盾しないように解釈されることが適切である。
上記の実施形態につき以下の付記を残しておく。
[付記1]
タスク指向対話(TOD)言語モデルにおいて、複数の対話を含むTODデータセットを受け取るステップであり、前記複数の対話の各対話は、複数のユーザ発話と複数のシステム応答を含む、ステップと、
モデル入力シーケンスを、
前記複数のユーザ発話の各ユーザ発話に第1のトークンを、及び前記複数のシステム応答の各システム応答に第2のトークンを接頭辞として付けることと、
前記接頭辞を付けられたユーザ発話の各々と前記接頭辞をつけられたシステム応答の各々を連結することと
により生成するステップと、
前記モデル入力シーケンスからの前記第1のトークン又は前記第2のトークンをマスクトークンにランダムに置き換えて、マスクされた訓練シーケンスを生成するステップと、
前記マスクされた訓練シーケンスを前記TOD言語モデルに入力するステップと、
前記マスクされた訓練シーケンスに対応する前記TOD言語モデルからの第1の出力分布に基づいて、マスク言語モデリング(MLM)損失を計算するステップと、
前記MLM損失に基づいて前記TOD言語モデルを更新するステップと、
を含む方法。
[付記2]
前記複数の対話から第1の対話セットを選択するステップと、
ランダムなターンにおける前記第1の対話セットの各対話をその対話の第1の部分とその対話の第2の部分とに分割して、第2の対話セット及び第3の対話セットを生成するステップであり、
前記第2の対話セットは前記第1の対話セットの各対話の前記第1の部分を含み、前記第3の対話セットは前記第1の対話セットの各対話の前記第2の部分を含む、ステップと、
前記第2の対話セット及び第3の対話セットを前記TOD言語モデルに入力するステップと、
前記第2の対話セット及び前記第3の対話セットに対応する前記TOD言語モデルからの第2の出力分布に基づいて応答対照損失(RCL)を計算するステップと、
をさらに含み、
前記MLM損失に基づいて前記TOD言語モデルを更新することは、前記MLM損失と前記RCLメトリックの組み合わせに基づいて前記TOD言語モデルを更新することを含む、付記1に記載の方法。
[付記3]
前記MLM損失と前記RCLの前記組み合わせは、前記MLM損失と前記RCLの重み付き和である、付記2に記載の方法。
[付記4]
前記TOD言語モデルは、トランスフォーマからの双方向エンコーダ表現(BERT)ベースの言語表現モデルを使用して構築される、付記1に記載の方法。
[付記5]
前記TOD言語モデルを使用して、前記複数のユーザ発話のうちのユーザ発話の意図クラスを識別するステップ、をさらに含む、付記1に記載の方法。
[付記6]
前記TOD言語モデルを使用して、前記複数の対話のうちの対話の信念状態を判断するステップ、をさらに含む、付記1に記載の方法。
[付記7]
前記TOD言語モデルを使用して、前記複数の対話のうちの対話の対話行為を予測するステップ、をさらに含む、付記1に記載の方法。
[付記8]
前記TOD言語モデルを使用して、及び前記複数のユーザ発話からのユーザ発話に対して、前記ユーザ発話に応答する前記複数のシステム応答からのシステム応答を選択するステップ、をさらに含む、付記1に記載の方法。
[付記9]
タスク指向対話(TOD)言語モデルを訓練するための命令を記憶するメモリと、
前記メモリから前記命令を読み取り及び実行して、
前記TOD言語モデルにおいて、複数の対話を含むTODデータセットを受け取り、前記複数の対話の各対話は、複数のユーザ発話と複数のシステム応答を含み、
モデル入力シーケンスを、
前記複数のユーザ発話の各ユーザ発話に第1のトークンを、及び前記複数のシステム応答の各システム応答に第2のトークンを接頭辞として付けることと、
前記接頭辞を付けられたユーザ発話の各々と前記接頭辞をつけられたシステム応答の各々を連結することと
により生成し、
前記モデル入力シーケンスからの前記第1のトークン又は前記第2のトークンをマスクトークンにランダムに置き換えて、マスクされた訓練シーケンスを生成し、
前記マスクされた訓練シーケンスを前記TOD言語モデルに入力し、
前記マスクされた訓練シーケンスに対応する前記TOD言語モデルからの第1の出力分布に基づいて、マスク言語モデリング(MLM)損失を計算し、
前記MLM損失に基づいて前記TOD言語モデルを更新する
ように構成されたプロセッサと、
を含むシステム。
[付記10]
前記プロセッサはさらに、前記メモリから前記命令を読み取り及び実行して、
前記複数の対話から第1の対話セットを選択し、
ランダムなターンにおける前記第1の対話セットの各対話をその対話の第1の部分とその対話の第2の部分とに分割して、第2の対話セット及び第3の対話セットを生成し、
前記第2の対話セットは前記第1の対話セットの各対話の前記第1の部分を含み、前記第3の対話セットは前記第1の対話セットの各対話の前記第2の部分を含み、
前記第2の対話セット及び第3の対話セットを前記TOD言語モデルに入力し、
前記第2の対話セット及び前記第3の対話セットに対応する前記TOD言語モデルからの第2の出力分布に基づいて応答対照損失(RCL)を計算する
ように構成され、
前記MLM損失に基づいて前記TOD言語モデルを更新することは、前記MLM損失と前記RCLの組み合わせに基づいて前記TOD言語モデルを更新することを含む、付記9に記載のシステム。
[付記11]
前記MLM損失と前記RCLの前記組み合わせは、前記MLM損失と前記RCLの重み付き和である、付記10に記載のシステム。
[付記12]
前記TOD言語モデルは、トランスフォーマからの双方向エンコーダ表現(BERT)ベースの言語表現モデルを使用して構築される、付記9に記載のシステム。
[付記13]
前記プロセッサはさらに、前記メモリから前記命令を読み取り及び実行して、前記TOD言語モデルを使用して、前記複数のユーザ発話のうちのユーザ発話の意図クラスを識別するように構成される、付記9に記載のシステム。
[付記14]
前記プロセッサはさらに、前記メモリから前記命令を読み取り及び実行して、前記TOD言語モデルを使用して、前記複数の対話のうちの対話の信念状態を判断するように構成される、付記9に記載のシステム。
[付記15]
前記プロセッサはさらに、前記メモリから前記命令を読み取り及び実行して、前記TOD言語モデルを使用して、前記複数の対話のうちの対話の対話行為を予測するように構成される、付記9に記載のシステム。
[付記16]
前記プロセッサはさらに、前記メモリから前記命令を読み取り及び実行して、前記TOD言語モデルを使用して、及び前記複数のユーザ発話からのユーザ発話に対して、前記ユーザ発話に応答する前記複数のシステム応答からのシステム応答を選択するように構成される、付記9に記載のシステム。
[付記17]
プロセッサに動作を実行させるために実行可能なマシン読取可能命令を記憶した非一時的コンピュータ読取可能媒体(CRM)であって、前記動作は、
タスク指向対話(TOD)言語モデルにおいて、複数の対話を含むTODデータセットを受け取ることであり、前記複数の対話の各対話は、複数のユーザ発話と複数のシステム応答を含む、ことと、
モデル入力シーケンスを、
(i)前記複数のユーザ発話の各ユーザ発話に第1のトークンを、及び前記複数のシステム応答の各システム応答に第2のトークンを接頭辞として付けることと、
(ii)前記接頭辞を付けられたユーザ発話の各々と前記接頭辞をつけられたシステム応答の各々を連結することと
により生成することと、
前記モデル入力シーケンスからの前記第1のトークン又は前記第2のトークンをマスクトークンにランダムに置き換えて、マスクされた訓練シーケンスを生成することと、
前記マスクされた訓練シーケンスを前記TOD言語モデルに入力することと、
前記マスクされた訓練シーケンスに対応する前記TOD言語モデルからの第1の出力分布に基づいて、マスク言語モデリング(MLM)損失を計算することと、
前記MLM損失に基づいて前記TOD言語モデルを更新することと、
を含む、非一時的CRM。
[付記18]
前記動作は、
前記複数の対話から第1の対話セットを選択することと、
ランダムなターンにおける前記第1の対話セットの各対話をその対話の第1の部分とその対話の第2の部分とに分割して、第2の対話セット及び第3の対話セットを生成することであり、
前記第2の対話セットは前記第1の対話セットの各対話の前記第1の部分を含み、前記第3の対話セットは前記第1の対話セットの各対話の前記第2の部分を含む、ことと、
前記第2の対話セット及び第3の対話セットを前記TOD言語モデルに入力することと、
前記第2の対話セット及び前記第3の対話セットに対応する前記TOD言語モデルからの第2の出力分布に基づいて応答対照損失(RCL)を計算することと、
をさらに含み、
前記MLM損失に基づいて前記TOD言語モデルを更新することは、前記MLM損失と前記RCLの組み合わせに基づいて前記TOD言語モデルを更新することを含む、付記17に記載の非一時的CRM。
[付記19]
前記MLM損失と前記RCLの前記組み合わせは、前記MLM損失と前記RCLの重み付き和である、付記18に記載の非一時的CRM。
[付記20]
前記TOD言語モデルは、トランスフォーマからの双方向エンコーダ表現(BERT)ベースの言語表現モデルを使用して構築される、付記17に記載の非一時的CRM。
[付記21]
前記動作は、前記TOD言語モデルを使用して、前記複数のユーザ発話のうちのユーザ発話の意図クラスを識別することをさらに含む、付記17に記載の非一時的CRM。
[付記22]
前記動作は、前記TOD言語モデルを使用して、前記複数の対話のうちの対話の信念状態を判断することをさらに含む、付記17に記載の非一時的CRM。
[付記23]
前記動作は、前記TOD言語モデルを使用して、前記複数の対話のうちの対話の対話行為を予測することをさらに含む、付記17に記載の非一時的CRM。
[付記24]
前記動作は、前記TOD言語モデルを使用して、及び前記複数のユーザ発話からのユーザ発話に対して、前記ユーザ発話に応答する前記複数のシステム応答からのシステム応答を選択することをさらに含む、付記17に記載の非一時的CRM。
【国際調査報告】