(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-07-10
(45)【発行日】2023-07-19
(54)【発明の名称】ヒューマンマシン対話処理方法
(51)【国際特許分類】
G10L 15/28 20130101AFI20230711BHJP
G10L 15/22 20060101ALI20230711BHJP
G10L 15/00 20130101ALI20230711BHJP
G06F 3/16 20060101ALI20230711BHJP
【FI】
G10L15/28 230J
G10L15/22 300Z
G10L15/00 200A
G10L15/28 230K
G06F3/16 520
(21)【出願番号】P 2022522284
(86)(22)【出願日】2019-11-25
(86)【国際出願番号】 CN2019120612
(87)【国際公開番号】W WO2021072914
(87)【国際公開日】2021-04-22
【審査請求日】2022-08-01
(31)【優先権主張番号】201910975502.9
(32)【優先日】2019-10-14
(33)【優先権主張国・地域又は機関】CN
【早期審査対象出願】
(73)【特許権者】
【識別番号】520235782
【氏名又は名称】エーアイ スピーチ カンパニー リミテッド
【氏名又は名称原語表記】AI SPEECH CO., LTD.
(74)【代理人】
【識別番号】100166006
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】ヤン、キンウェイ
【審査官】菊池 智紀
(56)【参考文献】
【文献】中国特許出願公開第109657091(CN,A)
【文献】米国特許出願公開第2014/0309996(US,A1)
【文献】米国特許出願公開第2009/0089065(US,A1)
【文献】中国特許出願公開第112002315(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-15/34
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
サーバに用いられるヒューマンマシン対話処理方法であって、
ユーザ端末からの第1のユーザ音声メッセージを取得するステップと、
前記第1のユーザ音声メッセージに対応する対話意図を確定するステップと、
意図
対話モードテーブルに基づいて、前記対話意図に対応する目標二重
対話モードを確定するステップと、
前記ユーザ端末が前記目標二重
対話モード
で前記
第1のユーザ音声メッセージを処理するように、前記目標二重
対話モードに対応する
対話モード命令を前記ユーザ端末に送信するステップと、を含んでおり、
前記意図
対話モードテーブルには複数種類の候補対話意図のそれぞれに対応する二重
対話モードが含まれ、前記二重
対話モードには
、前記ユーザ端末からデータを出力中に前記ユーザ端末が前記第1のユーザ音声メッセージを取得する全二重
対話モードと
、前記ユーザ端末からデータを出力した後であり、かつ前記ユーザ端末からデータを出力していない間に前記ユーザ端末が前記第1のユーザ音声メッセージを取得する半二重
対話モードとが含まれることを特徴とするヒューマンマシン対話処理方法。
【請求項2】
前記目標二重
対話モードに対応する
対話モード命令を前記ユーザ端末に送信した後、さらに、
前記目標二重
対話モードが半二重
対話モードである場合、前記対話意図に対する問い合わせ音声メッセージを確定するステップと、
前記ユーザ端末が半二重対話モードにおけるヒューマンマシン対話操作で使用する前記問い合わせ音声メッセージを前記ユーザ端末に送信するステップと、
を含むことを特徴とする請求項1に記載のヒューマンマシン対話処理方法。
【請求項3】
前記問い合わせ音声メッセージを前記ユーザ端末に送信した後、さらに、
前記ユーザ端末から前記問い合わせ音声メッセージに対する第2のユーザ音声メッセージを取得するステップと、
前記第2のユーザ音声メッセージが、設定された応答条件に合致するか否かを判断するステップと、
前記第2のユーザ音声メッセージが前記設定された応答条件に合致する場合、前記ユーザ端末が全二重
対話モードのヒューマンマシン対話操作を行うように、モード切り替え命令を前記ユーザ端末に送信するステップと、
を含むことを特徴とする請求項2に記載のヒューマンマシン対話処理方法。
【請求項4】
ユーザ端末に用いられるヒューマンマシン対話処理方法であって、
第1のユーザ音声メッセージを取得するステップと、
前記第1のユーザ音声メッセージをサーバに送信するステップと、
前記第1のユーザ音声メッセージに応答して、前記サーバから
対話モード
命令を受信するステップと、
前記
対話モード命令より指示される目標二重
対話モード
で前記
第1のユーザ音声メッセージを処理するステップと、を含んでおり、
二重
対話モードには、
前記ユーザ端末からデータを出力中に前記第1のユーザ音声メッセージを取得する全二重
対話モードと
前記ユーザ端末からデータを出力した後であり、かつ前記ユーザ端末からデータを出力していない間に前記第1のユーザ音声メッセージを取得する半二重
対話モードとが含まれることを特徴とするヒューマンマシン対話
処理方法。
【請求項5】
第1のユーザ音声メッセージを取得するステップにおいては、
全二重
対話モード
で前記第1のユーザ音声メッセージを取得することを特徴とする請求項4に記載のヒューマンマシン対話処理方法。
【請求項6】
前記
対話モード命令により指示される目標二重
対話モードに従って前記
第1のユーザ音声メッセージを処理するステップにおいては、
前記目標二重
対話モードが半二重
対話モードである場合、前記サーバから問い合わせ音声メッセージを取得し、
前記問い合わせ音声メッセージに基づいて、前記半二重
対話モード
でヒューマンマシン対話操作を行うことを特徴とする請求項5に記載のヒューマンマシン対話処理方法。
【請求項7】
前記問い合わせ音声メッセージに基づいて、前記半二重
対話モードに従ってヒューマンマシン対話操作を行うステップの後、さらに、
前記問い合わせ音声メッセージに応答する第2のユーザ音声メッセージを取得するステップと、
前記第2の
ユーザ音声メッセージをサーバに送信するステップと、
サーバから前記第2の
ユーザ音声メッセージに応答するモード切り替え命令を受信すると、全二重
対話モード
でヒューマンマシン対話操作を行うステップと、
を含むことを特徴とする請求項6に記載のヒューマンマシン対話処理方法。
【請求項8】
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含むサーバであって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
ユーザ端末から第1のユーザ音声メッセージを取得するステップと、
前記第1のユーザ音声メッセージに対応する対話意図を確定するステップと、
意図
対話モードテーブルに基づいて前記対話意図に対応する目標二重
対話モードを確定するステップと、
前記ユーザ端末が前記目標二重
対話モードに従って前記
第1のユーザ音声メッセージを処理するように、前記目標二重
対話モードに対応する
対話モード命令を前記ユーザ端末に送信するステップと、
が実行できるように、前記少なくとも1つのプロセッサによって前記命令が実行され、
前記意図
対話モードテーブルには複数種類の候補対話意図のそれぞれに対応する二重
対話モードが含まれ、前記二重
対話モードには
、前記ユーザ端末からデータを出力中に前記ユーザ端末が前記第1のユーザ音声メッセージを取得する全二重
対話モードと
、前記ユーザ端末からデータを出力した後であり、かつ前記ユーザ端末からデータを出力していない間に前記ユーザ端末が前記第1のユーザ音声メッセージを取得する半二重
対話モードとが含まれることを特徴とするサーバ。
【請求項9】
前記少なくとも一つのプロセッサは、さらに、
前記目標二重
対話モードに対応する
対話モード命令を前記ユーザ端末に送信した後、
前記目標二重
対話モードが半二重
対話モードである場合、前記対話意図に対する問い合わせ音声メッセージを確定し、
前記ユーザ端末が前記問い合わせ音声メッセージを利用して半二重
対話モードのヒューマンマシン対話操作を行うように、前記問い合わせ音声メッセージを前記ユーザ端末に送信する
ように、構成されることを特徴とする請求項8に記載のサーバ。
【請求項10】
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含むユーザ端末であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
第1のユーザ音声メッセージを取得するステップと、
前記第1のユーザ音声メッセージをサーバに送信するステップと、
前記第1のユーザ音声メッセージに応答して、前記サーバから
対話モードの命令を受信するステップと、
対話モード命令より指示される目標二重
対話モードに従って前記
第1のユーザ音声メッセージを処理するステップと、
が実行できるように、前記少なくとも1つのプロセッサによって前記命令が実行され、
二重
対話モードには、
前記ユーザ端末からデータを出力中に前記ユーザ端末が前記第1のユーザ音声メッセージを取得する全二重
対話モードと
、前記ユーザ端末からデータを出力した後であり、かつ前記ユーザ端末からデータを出力していない間に前記ユーザ端末が前記第1のユーザ音声メッセージを取得する半二重
対話モードとが含まれることを特徴とするユーザ端末。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、インターネット技術分野に関し、特に、ヒューマンマシン対話処理方法に関する。
【背景技術】
【0002】
インターネット技術の発展に伴い、ヒューマンマシン対話技術が急速に発展している。ヒューマンマシン対話技術の発展が進む中で、全二重ウェイクアップフリー方式のヒューマンマシン対話技術が出現している。すなわち、デバイスが一度ウェイクアップされた後に連続的な対話が可能であり、他人と対話すると同時に互いに干渉することなくヒューマンマシン対話を行う。全二重ウェイクアップフリー機能により、ユーザがウェイクアップを繰り返す必要がなく、より自然でスムーズな音声インタラクション体験を楽しむことができる。
【0003】
現在、アプリケーションプログラムは一般的に、全二重ウェイクアップフリーモード又は半二重ウェイクアップフリーモードに固定的に設定されている。しかし、全二重ウェイクアップフリーモードでのアプリケーションプログラムの実際の操作中には、全二重シーンと半二重シーンに同時に関わる場合がある。例えば、一つの連絡先の名前が複数の電話番号に対応している場合、ユーザの所望に合致する操作を行うために、ユーザのインタラクション操作によって最終的なユーザの意図を確定する必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の実施例は、上記の技術的課題の少なくとも1つを解決するためのヒューマンマシン対話方法および装置を提供する。
【課題を解決するための手段】
【0005】
第1態様では、本発明の実施例は、サーバに用いられるヒューマンマシン対話処理方法であって、ユーザ端末からの第1のユーザ音声メッセージを取得するステップと、第1のユーザ音声メッセージに対応する対話意図を確定するステップと、意図ウェイクアップモードテーブルに基づいて、対話意図に対応する目標二重ウェイクアップモードを確定するステップと、ユーザ端末が目標二重ウェイクアップモードに従ってユーザ音声メッセージを処理するように、目標二重ウェイクアップモードに対応するウェイクアップモード命令をユーザ端末に送信するステップと、を含んでおり、意図ウェイクアップモードテーブルには複数種類の候補対話意図のそれぞれに対応する二重ウェイクアップモードが含まれ、二重ウェイクアップモードには全二重ウェイクアップモードと半二重ウェイクアップモードとが含まれることを特徴とするヒューマンマシン対話処理方法を提供する。
【0006】
第2態様では、本発明の実施例は、ユーザ端末に用いられるヒューマンマシン対話処理方法であって、第1のユーザ音声メッセージを取得するステップと、第1のユーザ音声メッセージをサーバに送信するステップと、第1のユーザ音声メッセージに応答して、サーバからウェイクアップモードの命令を受信するステップと、ウェイクアップモード命令より指示される目標二重ウェイクアップモードに従ってユーザ音声メッセージを処理するステップと、を含んでおり、二重ウェイクアップモードには、全二重ウェイクアップモードと半二重ウェイクアップモードとが含まれることを特徴とするヒューマンマシン対話方法を提供する。
【0007】
第3態様では、本発明の実施例は、ユーザ端末からの第1のユーザ音声メッセージを取得するように構成された音声メッセージ取得ユニットと、第1のユーザ音声メッセージに対応する対話意図を確定するように構成されたユーザ意図確定ユニットと、意図ウェイクアップモードテーブルに基づいて対話意図に対応する目標二重ウェイクアップモードを確定するように構成された目標ウェイクモード確定ユニットと、ユーザ端末が目標二重ウェイクアップモードに従ってユーザ音声メッセージを処理するように、目標二重ウェイクアップモードに対応するウェイクアップモード命令をユーザ端末に送信するように構成されたウェイクアップ命令送信ユニットと、を含んでおり、意図ウェイクアップモードテーブルには複数種類の候補対話意図のそれぞれに対応する二重ウェイクアップモードが含まれ、二重ウェイクアップモードには全二重ウェイクアップモードと半二重ウェイクアップモードとが含まれることを特徴とするヒューマンマシン対話処理装置を提供する。
【0008】
第4態様では、本発明の実施例は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、上記方法のステップが実行できるように、少なくとも1つのプロセッサによって命令を実行させることを特徴とする電子機器を提供する。
【0009】
第5態様では、本発明の実施例は、コンピュータプログラムが記憶された記憶媒体であって、当該プログラムがプロセッサによって実行されると、上記方法のステップを実現する記憶媒体を提供する。
【発明の効果】
【0010】
本発明の実施例の有益な効果は、サーバがユーザの音声を受信した後に対応する対話意図を確定し、意図ウェイクアップモードテーブルを照会することにより対応する目標二重ウェイクアップモードを確定し、それによりユーザ端末を対話意図に合致する二重ウェイクアップモードで動作させ、ユーザ端末の二重ウェイクアップモードの動的切り替えを実現できることである。
【図面の簡単な説明】
【0011】
本発明の実施形態の技術方案をより明確に説明するために、以下は、実施形態の説明で使用される図面を簡単に説明する。説明された図面は本発明のいくつかの実施形態であり、当業者は、創造的な努力を払うことなく、他の図面を得ることができる。
【
図1】本発明の一実施例に係るヒューマンマシン対話処理方法の一例の信号インタラクションフローチャートを示す図である。
【
図2】本発明の一実施例に係る半二重ウェイクアップモードに対するヒューマンマシン対話処理方法の一例の信号インタラクションフローチャートを示す図である。
【
図3】本発明の一実施例に係るヒューマンマシン対話処理方法の一例を示すフローチャート図である。
【
図4】本発明の一実施例に係るヒューマンマシン対話処理装置の一例を示す構成ブロック図である。
【発明を実施するための形態】
【0012】
本発明の実施例の目的、技術方案及び利点をより明確にするために、以下では、本発明の実施例の図面を参照しながら、本発明の実施例における技術方案を明確かつ完全に説明する。もちろん、説明される実施形態は本発明の一部の実施形態にすぎず、本発明の全部の実施形態ではない。本発明の実施形態に基づいて、当業者が創造的な努力なしに得られる他の全ての実施形態も本発明の保護範囲に含まれるべきである。
【0013】
なお、本願の実施形態と実施形態の特徴とは、互いに矛盾することなければ、組み合わせることができる。
【0014】
本発明は、例えば、プログラムモジュールなどの、コンピューターによって実行されるコンピューター実行可能命令の一般的なコンテキストで説明することができる。プログラムモジュールには、通常、特定のタスクを実行したり、特定の抽象データ型を実現したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、分散コンピューティング環境で実施することもできる。これらの分散コンピューティング環境では、通信ネットワークを介して接続されたリモート処理デバイスによって、タスクが実行される。分散コンピューティング環境では、プログラムモジュールは、ストレージデバイスを含むローカル及びリモートのコンピューターストレージメディアに配置できる。
【0015】
本発明では、「モジュール」、「デバイス」、「システム」などは、例えば、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、又は実行中のソフトウェアなどのコンピューターに適用される関連エンティティを指す。具体的には、コンポーネントは、プロセッサで実行するプロセス、プロセッサ、オブジェクト、実行可能なコンポーネント、実行スレッド、プログラム、及び/又はコンピューターであるが、これらに限定されない。また、サーバで実行するアプリケーションプログラムやスクリプトプログラム、サーバがコンポーネントと呼ばれることもできる。実行のプロセス及び/又はスレッドには、一つ又は複数のコンポーネントを含んでもよく、且つ、コンポーネントは、一台のコンピューターにローカライズされ、及び/又は二台以上のコンピューターの間に分布され、さまざまなコンピューター可読媒体で実行することができる。コンポーネントは、一つ以上のデータパケットを有する信号によって、ローカル及び/又はリモートプロセスを介して、通信することができる。信号は、例えば、ローカルシステム、分散システムにおけるもう一つのコンポーネントと相互作用するデータ、及び/又はインターネットのようなネットワークで信号を介して他のシステムと相互作用するデータからの信号である。
【0016】
最後に、用語「含む」、「有する」及びそれらのいずれの変更は、それらの要素だけでなく、明示的にリストされていない他の要素、又はそのようなプロセス、方法、オブジェクト、又は機器に固有の要素も含む。これ以上の制限が課されない場合、「含む」、「有する」及びそれらのいずれの変更によって定義された要素は、その要素を含むプロセス、方法、オブジェクト、又は機器に他の同一要素があることを除外しない。
【0017】
図1に示すように、本発明の一実施例に係るヒューマンマシン対話処理方法の信号インタラクションフローは、ユーザ端末100とサーバ200との間のデータインタラクションに関する。ここで、ユーザ端末100は、マイクを介してユーザの音声を収集し、ユーザとヒューマンマシン対話コミュニケーションを行うことができる各種の端末(例えば、携帯電話、スマートスピーカー、掃除ロボット等、本発明ではこれに限定されない)であってもよい。サーバ200は、例えば、サーバやプロセッサなど、音声サービスプラットフォームにおいて、ヒューマンマシン対話コミュニケーション業務を処理するための機能モジュールであってもよい。
【0018】
図1に示すインタラクションフローでは、ステップ101において、ユーザ端末100はユーザの音声を受信し、ユーザの音声に基づいて第1のユーザ音声メッセージを生成する。
【0019】
ステップ102において、ユーザ端末100は、第1のユーザ音声メッセージをサーバ200に送信する。
【0020】
ステップ103において、サーバ200は、第1のユーザ音声メッセージに対応する対話意図を確定する。ここで、サーバ200は、第1のユーザ音声メッセージを受信した後、NLP処理により対応する音声セマンティクスを取得し、対応する対話意図を確定する。
【0021】
なお、「対話意図」という用語は、電話をかける、音楽を再生する、テレビをつける、またはユーザの質問に答えるなど、ユーザが対話を通じてユーザ端末が完成する対応動作を操作することを望むことを指すことができる。ここで、ユーザ端末は何らかの対話意図のユーザ音声メッセージを処理する場合、全二重ウェイクアップモードがより適しており、例えば、ユーザの意図が音楽の再生を要求する場合、全二重ウェイクアップモードでのユーザ端末は、音楽サービスを提供すると同時にユーザ音声メッセージを受信して処理することができ、音声インタラクション体験を向上させることができる。しかし、ユーザ端末は何らかの対話意図のユーザ操作情報を処理する場合、半二重ウェイクアップモードを実行する必要があり、すなわち、ユーザ端末がサービスを提供し終わってからユーザ音声メッセージを受信して処理する必要があり、例えば、ユーザの意図がアドレス帳に存在する同じ名前の連絡先に電話をかけることである場合、電話を掛けるサービスを提供するためのユーザによるさらなる命令の入力を待つ必要がある。
【0022】
ステップ104において、サーバ200は意図ウェイクアップモードテーブルに基づいて、対話意図に対応する目標二重ウェイクアップモードを確定する。ここで、意図ウェイクアップモードテーブルには、全二重ウェイクアップモード及び半二重ウェイクアップモードを含む、複数種類の候補対話意図にそれぞれ対応する二重ウェイクアップモードが含まれ、意図ウェイクアップモードテーブルは手動で設定されるものでもよい。
【0023】
ステップ105において、サーバ200は、目標二重ウェイクアップモードに対応するウェイクアップモード命令をユーザ端末100に送信する。
【0024】
ステップ106において、ユーザ端末100は、目標二重ウェイクアップモードに従ってユーザ音声メッセージを処理することができる。これにより、ユーザ端末はユーザ音声メッセージの意図に対応する目標ウェイクアップモードに従ってユーザ音声メッセージを処理することができ、異なるユーザ音声メッセージに対してそれぞれ異なる二重ウェイクアップモードを採用し、多様な応用シーンに適用することができる。
【0025】
図2は、本発明の一実施例に係る半二重ウェイクアップモードに対するヒューマンマシン対話処理方法の一例のフローである。
【0026】
ステップ201において、サーバ200は、目標二重ウェイクアップモードが半二重ウェイクアップモードであると確定する。例えば、ユーザの意図に基づいて目標ウェイクアップモードが半二重ウェイクアップモードであると確定することができ、具体的な操作は
図1の説明を参照することができ、ここでは説明を省略する。
【0027】
ステップ202において、サーバ200は、対話意図に対する問い合わせ音声メッセージを確定する。例えば、対話意図「アドレス帳の同じ名前の連絡先に電話をかける」に対し、この時の対応する問い合わせ音声は「電話番号がXXの連絡先に電話をかけますか、それとも電話番号がYYの連絡先に電話をかけますか」であってもよい。
【0028】
ステップ203において、サーバ200は問い合わせ音声メッセージをユーザ端末100に送信する。
【0029】
ステップ204において、ユーザ端末100は、問い合わせ音声メッセージを利用して半二重ウェイクアップモードのヒューマンマシン対話操作を実行する。例えば、ユーザ端末100は、受信した問い合わせ音声メッセージをアナウンスし、アナウンス終了後にユーザ入力による応答を待つ。
【0030】
ステップ205において、ユーザは、問い合わせ音声メッセージを受信した後に音声応答を行い、それによりユーザ端末100において第2のユーザ音声メッセージを生成する。
【0031】
ステップ206において、ユーザ端末100は第2のユーザ音声メッセージをサーバ200に送信する。
【0032】
ステップ207において、サーバ200は、第2のユーザ音声メッセージが設定された応答条件に合致するか否かを判断する。ここで、設定された応答条件は、第2のユーザ音声メッセージがセマンティックスロットフィリング要求を満たしているか否かを示すことができる。上記の例に続いて、第2のユーザ音声メッセージのセマンティクスに電話番号「XX」または「YY」が含まれていない場合、当該第2のユーザ音声メッセージはセマンティックスロットフィリング要求を満たしていないと確定される。さらに、第2のユーザ音声メッセージのセマンティクスに電話番号「XX」または「YY」が含まれている場合、ユーザ端末は、対応する動作を実行する(例えば、特定の対象に電話をかける)。
【0033】
ステップ208において、第2のユーザ音声メッセージが設定された応答条件に合致する場合、サーバ200は、モード切り替え命令をユーザ端末100に送信する。一部の応用シーンでは、ユーザ端末はデフォルトで全二重ウェイクアップモードを有効にすることができるが、半二重ウェイクアップモードに対応する音声メッセージの処理が完了すると、全二重ウェイクアップモードに切り替える必要がある。
【0034】
ステップ209において、ユーザ端末100は、全二重ウェイクアップモードに従ってヒューマンマシン対話操作を行う。
【0035】
上述のように、ユーザ端末がデフォルトで全二重ウェイクアップモードを採用することを推奨することができ、すなわち、ユーザ端末100は、全二重ウェイクアップモードに従って第1のユーザ音声メッセージを取得することができる。その後、対話意図やユーザの入力状況に応じて、半二重ウェイクアップモードに切り替えるか否かを確定する。さらに、一部の応用シーンでは、ユーザ端末100は、サーバ200から全二重ウェイクアップオフ命令を受信して、全二重ウェイクアップモードをオフにして再びウェイクアップ待ち状態入ることもできる。
【0036】
図3は、本発明の一実施例に係るヒューマンマシン対話処理方法のフローである。本実施例において、ユーザ端末が一度ウェイクアップされた後、全二重対話フローを起動する。ユーザ音声メッセージが所定の意図に合致する場合、クラウド(又はサーバ)は半二重をシミュレーションする命令をユーザ端末に送信する。その後、ユーザ端末はこの命令に基づいて半二重音声対話モードに切り替え、このモードで対話は、次に半二重をオフにする命令が発行されるまで、ユーザが命令を入力するのを待ち続ける。
【0037】
具体的には、ユーザ端末がウェイクアップ待ち状態からユーザによってウェイクアップされた後に、全二重対話モードがオンされる。そして、ユーザ端末はユーザ音声メッセージを受信する。この時、入力は、通常のユーザの命令オーディオである可能性があるが、異常な非命令オーディオである可能性もあり、ユーザ音声メッセージをサーバにアップロードする必要があり、さらにサーバはユーザ音声メッセージに基づいて対話処理命令を返す。その後、ユーザ端末は、対話処理命令に従って全二重対話を終了するか、又は半二重に切り替えるかを判断する。ここで、ユーザ端末が半二重モードに切り替えた後、ユーザ端末はユーザが所望の命令を入力するのを待ち続け、そうでなければ、所望の命令を受信するまで傍受を繰り返すことになる。例えば、ユーザが「張三に電話をかける」と入力する。当地の張三に2つの番号があると仮定すると、サーバは「どちら?」と返信し、この時、所望のユーザからの返信はどちらかを選択することである。ユーザの入力が所望に合わない場合、この処理を繰り返す。
【0038】
なお、一部のユーザシーンでは、クラウドが全二重を終了する命令を発行し、この時、ユーザ端末も再びウェイクアップ待ち状態に入る。
【0039】
いくつかの実施形態において、例えば、第1のユーザシーンでは全二重対話モードを維持し、第2のユーザシーンでは半二重対話モードを維持するなど、異なる指定されたユーザシーンに対して異なる二重対話モードをカスタマイズすることができる。しかし、これでは、1回のユーザ会話において各モードを動的に切り替えることができず、新規追加シーンの処理も困難になる可能性がある。
【0040】
本発明の実施例によれば、会話において対話モードを動的に調整することを実現し、多様なユーザシーンに適用し、デバイスの違いやネットワークの違いによる全二重体験問題を回避することができる。
【0041】
図4に示すように、本発明の一実施例に係るヒューマンマシン対話処理装置400は、ユーザ端末からの第1のユーザ音声メッセージを取得するように構成された音声メッセージ取得ユニット410と、第1のユーザ音声メッセージに対応する対話意図を確定するように構成されたユーザ意図確定ユニット420と、意図ウェイクアップモードテーブルに基づいて対話意図に対応する目標二重ウェイクアップモードを確定するように構成された目標ウェイクモード確定ユニット430と、ユーザ端末が目標二重ウェイクアップモードに従ってユーザ音声メッセージを処理するように、目標二重ウェイクアップモードに対応するウェイクアップモード命令をユーザ端末に送信するように構成されたウェイクアップ命令送信ユニット440と、を含んでおり、意図ウェイクアップモードテーブルには複数種類の候補対話意図のそれぞれに対応する二重ウェイクアップモードが含まれ、二重ウェイクアップモードには全二重ウェイクアップモードと半二重ウェイクアップモードとが含まれる。
【0042】
上記本発明の実施例の装置は、本発明における対応する方法の実施例を実行するために使用することができ、それに応じて、上記本発明の方法の実施例によって達成される技術的効果を達成でき、ここでは説明を省略する。
【0043】
本発明の実施例において、ハードウェアプロセッサ(hardware processor)によって関連する機能モジュールを実現することができる。
【0044】
一方、本発明の実施例は、コンピュータプログラムが記憶された記憶媒体であって、当該プログラムはプロセッサによって上記のヒューマンマシン対話処理方法のステップが実行される、記憶媒体を提供する。
【0045】
上記の製品は、本発明の実施例よって提供される方法を実行することができ、実行方法に対応する機能モジュールと有益な効果を有する。本実施例において詳細に説明されていない技術的な詳細は、本発明の実施例で提供される方法を参照することができる。
【0046】
例えば、本発明はさらに、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含むサーバであって、
メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
ユーザ端末からの第1のユーザ音声メッセージを取得するステップと、
第1のユーザ音声メッセージに対応する対話意図を確定するステップと、
意図ウェイクアップモードテーブルに基づいて対話意図に対応する目標二重ウェイクアップモードを確定するステップと、
ユーザ端末が目標二重ウェイクアップモードに従ってユーザ音声メッセージを処理するように、目標二重ウェイクアップモードに対応するウェイクアップモード命令をユーザ端末に送信するステップと、
が実行できるように、少なくとも1つのプロセッサによって命令が実行され、
意図ウェイクアップモードテーブルには複数種類の候補対話意図のそれぞれに対応する二重ウェイクアップモードが含まれ、二重ウェイクアップモードには全二重ウェイクアップモードと半二重ウェイクアップモードとが含まれるサーバを提供する。
【0047】
いくつかの実施例において、本発明のサーバの少なくとも一つのプロセッサは、さらに、
目標二重ウェイクアップモードに対応するウェイクアップモード命令をユーザ端末に送信した後、
目標二重ウェイクアップモードが半二重ウェイクアップモードである場合、対話意図に対する問い合わせ音声メッセージを確定し、
ユーザ端末が問い合わせ音声メッセージを利用して半二重ウェイクアップモードのヒューマンマシン対話操作を行うように、問い合わせ音声メッセージをユーザ端末に送信するように構成される。
【0048】
いくつかの実施例において、本発明のサーバの少なくとも一つのプロセッサは、さらに、
目標二重ウェイクアップモードに対応するウェイクアップモード命令をユーザ端末に送信した後、
ユーザ端末から問い合わせ音声メッセージに対する第2のユーザ音声メッセージを取得し、
第2のユーザ音声メッセージが、設定された応答条件に合致するか否かを判断し、
第2のユーザ音声メッセージが設定された応答条件に合致する場合、ユーザ端末が全二重ウェイクアップモードのヒューマンマシン対話操作を行うように、モード切り替え命令を前記ユーザ端末に送信するように構成される。
【0049】
例えば、本発明はさらに、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含むユーザ端末であって、
メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
第1のユーザ音声メッセージを取得するステップと、
第1のユーザ音声メッセージをサーバに送信するステップと、
第1のユーザ音声メッセージに応答して、サーバからウェイクアップモードの命令を受信するステップと、
ウェイクアップモード命令より指示される目標二重ウェイクアップモードに従ってユーザ音声メッセージを処理するステップと、
が実行できるように、少なくとも1つのプロセッサによって命令が実行され、
二重ウェイクアップモードには、全二重ウェイクアップモードと半二重ウェイクアップモードとが含まれるユーザ端末を提供する。
【0050】
いくつかの実施例において、第1のユーザ音声メッセージを取得するステップにおいては、全二重ウェイクアップモードに従って第1のユーザ音声メッセージを取得するごとをさらに含む。
【0051】
いくつかの実施例において、ウェイクアップモード命令により指示される目標二重ウェイクアップモードに従って前記ユーザ音声メッセージを処理するステップにおいては、
目標二重ウェイクアップモードが半二重ウェイクアップモードである場合、サーバから問い合わせ音声メッセージを取得し、
問い合わせ音声メッセージに基づいて、半二重ウェイクアップモードに従ってヒューマンマシン対話操作を行うごとをさらに含む。
【0052】
いくつかの実施例において、少なくとも一つのプロセッサは、さらに、
問い合わせ音声メッセージに基づいて、前記半二重ウェイクアップモードに従ってヒューマンマシン対話操作を行った後、
問い合わせ音声メッセージに応答する第2のユーザ音声メッセージを取得し、
第2の音声メッセージをサーバに送信し、
サーバから前記第2の音声メッセージに応答するモード切り替え命令を受信すると、全二重ウェイクアップモードに従ってヒューマンマシン対話操作を行うように構成される。
【0053】
本発明の実施形態の電子デバイスは、以下のデバイスを含むが、これらに限定されない様々な形態で存在する。
(1)モバイル通信デバイス:これらのデバイスは、その特徴がモバイル通信機能を備えることであり、音声及びデータ通信を提供することを主な目標として、スマートフォン(例えば、iphone)、マルチメディア携帯電話、機能携帯電話、ローエンド携帯電話などを含む。
(2)ウルトラモバイルパソコンデバイス:これらのデバイスは、パソコンのカテゴリーに属し、計算及び処理の機能を持ち、一般にモバイルインターネットアクセスの特性を持って、例えば、iPad(登録商標)などのPDA、MID及びUMPCデバイスなどを含む。
(3)ポータブルエンターテイメントデバイス:これらのデバイスは、マルチメディアコンテンツを表示及び放送でき、オーディオ、ビデオプレーヤー(例えば、iPod(登録商標))、ハンドヘルドゲームデバイス、電子書籍、インテリジェントおもちゃ及びポータブルカーナビゲーションデバイスを含む。
(4)データ交換機能を備えたその他の電子デバイス。
【0054】
上記の装置の実施形態は、例示的だけであり、分離するコンポーネントとして記載されたユニットは、物理的に分離されるものであってもよく、分離されないものであってもよい。ユニットとして表示されるコンポーネントは、物理ユニットであってもよく、物理ユニットではなくてもよい。即ち、 一つの場所に配置することもでき、複数のネットワークユニットに分散することもできる。実際のニーズに応じて、いくつかのモジュール又はすべてのモジュールを選択することができ、実施形態の目的を達成するようになる。
【0055】
上記の実施形態の説明を通じて、当業者は、各実施形態がソフトウェア及び共通のハードウェアプラットフォームによって実現することができ、もちろん、ハードウェアによって実現することもできることを明確に理解することができる。この理解に基づいて、上記の技術方案の本質又は関連技術に貢献する部分は、ソフトウェア製品の形式で具体化でき、コンピューターソフトウェア製品は、例えば、ROM/RAM、磁気ディスク、コンパクトディスクなどのコンピューター可読記憶媒体に格納でき、コンピューターデバイス(パーソナルコンピューター、サーバ又はネットワークデバイスなどである)に、各々の実施形態又は実施形態のある部分に記載された方法を実行させるように、いくつかの命令を含む。
【0056】
最後に、上記した実施形態は、本発明の技術構成を説明するためのものであり、本発明を限定するためのものではない。当業者であれば、本発明の技術構成の趣旨や範囲を逸脱しない前提下で、上述した実施形態に対して修正することもできるし、一部の技術的特徴を均等置換することもできる。これらの修正や置換は、いずれも本発明の保護範囲に含まれるべきである。