IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エーアイ スピーチ カンパニー リミテッドの特許一覧

特許7413521ヒューマンマシン対話モードの切り替え方法
<>
  • 特許-ヒューマンマシン対話モードの切り替え方法 図1
  • 特許-ヒューマンマシン対話モードの切り替え方法 図2
  • 特許-ヒューマンマシン対話モードの切り替え方法 図3
  • 特許-ヒューマンマシン対話モードの切り替え方法 図4
  • 特許-ヒューマンマシン対話モードの切り替え方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-04
(45)【発行日】2024-01-15
(54)【発明の名称】ヒューマンマシン対話モードの切り替え方法
(51)【国際特許分類】
   G10L 15/22 20060101AFI20240105BHJP
   G10L 15/28 20130101ALI20240105BHJP
【FI】
G10L15/22 300Z
G10L15/28 230J
【請求項の数】 8
(21)【出願番号】P 2022524252
(86)(22)【出願日】2019-11-25
(65)【公表番号】
(43)【公表日】2022-12-28
(86)【国際出願番号】 CN2019120617
(87)【国際公開番号】W WO2021082133
(87)【国際公開日】2021-05-06
【審査請求日】2022-05-19
(31)【優先権主張番号】201911028778.2
(32)【優先日】2019-10-28
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】520235782
【氏名又は名称】エーアイ スピーチ カンパニー リミテッド
【氏名又は名称原語表記】AI SPEECH CO., LTD.
【住所又は居所原語表記】No.14 Building,Ascendas IHub,No.388 Xinping Street,Suzhou Industrial Park Suzhou,Jiangsu 215123(CN)
(74)【代理人】
【識別番号】100112874
【弁理士】
【氏名又は名称】渡邊 薫
(72)【発明者】
【氏名】宋 洪博
(72)【発明者】
【氏名】石 ▲ウェイ▼斯
(72)【発明者】
【氏名】朱 成亜
(72)【発明者】
【氏名】樊 帥
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2018-185362(JP,A)
【文献】特表2019-527371(JP,A)
【文献】特開2019-175344(JP,A)
【文献】特開2017-72726(JP,A)
【文献】特開2004-37721(JP,A)
【文献】渡辺裕太他,ビデオ装置を例とした家電品の音声対話機能について,情報処理学会論文誌,2003年11月,Vol.44,No.11,pp.2690-2698
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-15/34
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
電子機器に用いられるヒューマンマシン対話モードの切り替え方法であって、
現在ユーザが発話した現在ユーザ語句を受信するステップと、
前記現在ユーザ語句が属する対話分野が所定の対話分野であるか否かを確定するステップと、
所定の対話分野である場合、現在の対話モードを全二重対話モードに切り替えるステップと、
所定の対話分野ではない場合、現在の対話モードを半二重対話モードに切り替えるステップと、
を含み、
全二重対話モードにある場合、
マルチラウンドの対話過程において、受信した新たなユーザ語句が属する対話分野を確定し、
前記新たなユーザ語句が前記マルチラウンドの対話過程における前のユーザ語句と異なる対話分野に属する場合、前記前のユーザ語句に対応する応答の応答内容を維持することを特徴とするヒューマンマシン対話モードの切り替え方法。
【請求項2】
前記新たなユーザ語句を再度受信した場合には、前記前のユーザ語句に対応する応答内容を保存するステップと、
前記新たな対話語句に対応する応答内容を取得して、ユーザに提示するステップと、
前記前のユーザ語句の応答内容を再取得するユーザ音声命令を受信した場合、保存されている前記前のユーザ語句の応答内容を取得してユーザに提示するステップと、
をさらに含むことを特徴とする請求項に記載のヒューマンマシン対話モードの切り替え方法。
【請求項3】
前記現在ユーザ語句が属する対話分野が所定の対話分野であるか否かを確定するステップにおいては、
前記現在ユーザ語句が属する対話分野を確定し、
前記現在ユーザ語句に基づいて、前記現在ユーザのユーザ特徴情報を取得し、
前記ユーザ特徴情報に基づいて、前記現在ユーザに対応する所定の対話分野を照会し、
前記現在ユーザ語句が属する対話分野が前記所定の対話分野に属するか否かを確定する、
ことを特徴とする請求項1に記載のヒューマンマシン対話モードの切り替え方法。
【請求項4】
前記所定の対話分野は、現在ユーザの使用回数が所定の閾値を超える対話分野であり、
前記現在ユーザ語句が属する対話分野が現在ユーザによって言及された回数が前記所定の閾値を超えているか否かを確定するステップと、
超えている場合、前記現在ユーザ語句が属する対話分野を前記現在ユーザに対応する所定の対話分野としてマークするステップと、
をさらに含むことを特徴とする請求項1に記載のヒューマンマシン対話モードの切り替え方法。
【請求項5】
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
現在ユーザが発話した現在ユーザ語句を受信するステップと、
現在ユーザ語句が属する対話分野が所定の対話分野であるか否かを確定するステップと、
所定の対話分野である場合、現在の対話モードを全二重対話モードに切り替えるステップと、
所定の対話分野ではない場合、現在の対話モードを半二重対話モードに切り替えるステップと、
が実行できるように、前記少なくとも1つのプロセッサによって前記命令を実行させ
前記少なくとも一つのプロセッサは、
全二重対話モードにある場合、
マルチラウンドの対話過程において、受信した新たなユーザ語句が属する対話分野を確定し、
前記新たなユーザ語句が前記マルチラウンドの対話過程における前のユーザ語句と異なる対話分野に属する場合、前記前のユーザ語句に対応する応答の応答内容を維持する、
ように構成されることを特徴とする電子機器。
【請求項6】
前記少なくとも一つのプロセッサは、さらに、
前記新たなユーザ語句を再度受信した場合には、前記前のユーザ語句に対応する応答内容を保存し、
前記新たな対話語句に対応する応答内容を取得して、ユーザに提示し、
前記前のユーザ語句の応答内容を再取得するユーザ音声命令を受信した場合、保存されている前記前のユーザ語句の応答内容を取得してユーザに提示する、
ように構成されることを特徴とする請求項に記載の電子機器。
【請求項7】
前記現在ユーザ語句が属する対話分野が所定の対話分野であるか否かを確定するステップにおいては、
前記現在ユーザ語句が属する対話分野を確定し、
前記現在ユーザ語句に基づいて、前記現在ユーザのユーザ特徴情報を取得し、
前記ユーザ特徴情報に基づいて、前記現在ユーザに対応する所定の対話分野を照会し、
前記現在ユーザ語句が属する対話分野が前記所定の対話分野に属するか否かを確定する、
ことを特徴とする請求項に記載の電子機器。
【請求項8】
前記所定の対話分野は、現在ユーザの使用回数が所定の閾値を超える対話分野であり、
前記少なくとも一つのプロセッサは、
前記現在ユーザ語句が属する対話分野が現在ユーザによって言及された回数が前記所定の閾値を超えているか否かを確定し、
超えている場合、前記現在ユーザ語句が属する対話分野を前記現在ユーザに対応する所定の対話分野としてマークする、
ように構成されることを特徴とする請求項に記載の電子機器。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ヒューマンマシン対話技術分野に関し、特に、ヒューマンマシン対話モードの切り替え方法に関する。
【背景技術】
【0002】
現在のヒューマンマシン対話(例えば、ユーザとスマートスピーカーとの間の対話)において、全二重対話モード又は半二重対話モードが採用されることが多い。
【0003】
全二重対話モードは、インタラクション中に録音をずっとオンにすることで、TTS放送と録音を同時に行い、上りストリームと下りストリームの双方向同時送信を実現するモードである。メリットは、インタラクションモードが自然で、オーディオ漏れの問題が発生しないことである。デメリットは、録音が長時間開いており、現在のAEC(エコー除去)技術が未熟な場合、TTS放送音声が録音されてしまい、誤認識を引き起こすため、対話状態の変化を誤点弧し、対話フローに影響を与える可能性がある。
【0004】
半二重対話モードは、音声放送の場合、録音は行われず、上りストリームと下りストリームのデータが交互に送信されるモードである。メリットは、TTS放送時に録音を行わず、ノイズによる対話フローの誤点弧を防止することができることである。デメリットは、音声放送時に録音を行わず、ユーザは放送が完了するのを待たなければ次のラウンドの対話を行うことができず、インタラクションフローが不自然であることである。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の実施例は、上記の技術的課題の少なくとも1つを解決するためのヒューマンマシン対話モードの切り替え方法およびシステムを提供する。
【課題を解決するための手段】
【0006】
第1態様では、本発明の実施例は、
現在ユーザが発話した現在ユーザ語句を受信するステップと、
前記現在ユーザ語句が属する対話分野が所定の対話分野であるか否かを確定するステップと、
所定の対話分野である場合、現在の対話モードを全二重対話モードに切り替えるステップと、
所定の対話分野ではない場合、現在の対話モードを半二重対話モードに切り替えるステップと、
を含むことを特徴とするヒューマンマシン対話モードの切り替え方法を提供する。
【0007】
第2態様では、本発明の実施例は、
現在ユーザが発話した現在ユーザ語句を受信するための音声受信モジュールと、
前記現在ユーザ語句が属する対話分野が所定の対話分野であるか否かを確定するための対話分野確定モジュールと、
前記現在ユーザ語句が属する対話分野が所定の対話分野であると確定した場合、現在の対話モードを全二重対話モードに切り替え、前記現在ユーザ語句が属する対話分野が所定の対話分野ではないと確定した場合、現在の対話モードを半二重対話モードに切り替えるための対話モード切り替えモジュールと、
を含むことを特徴とするヒューマンマシン対話モードの切り替えシステムを提供する。
【0008】
第3態様では、本発明の実施例は、実行命令を含む1つまたは複数のプログラムを記憶する記憶媒体を提供し、前記実行命令は、上記いずれかのヒューマンマシン対話モードの切り替え方法を実行するために、電子機器(コンピュータ、サーバ、又はネットワーク機器などを含むがこれらに限定されない)によって読み取られて実行することができる。
【0009】
第4態様では、本発明の実施例は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、上記いずれかのヒューマンマシン対話モードの切り替え方法が実行できるように、前記少なくとも1つのプロセッサによって前記命令を実行させることを特徴とする電子機器を提供する。
【0010】
第5態様では、本発明の実施例はさらに、記憶媒体に記憶されたコンピュータプログラムを含むコンピュータプログラム製品を提供し、当該コンピュータプログラムはプログラム命令を含み、前記プログラム命令がコンピュータによって実行されると、コンピュータに上記いずれかのヒューマンマシン対話モードの切り替え方法を実行させる。
【発明の効果】
【0011】
本発明の実施例の有益な効果は、現在ユーザ語句が属する対話分野が所定の対話分野に属するか否かを判断する方法により対話モードを切り替え、対話分野の違いに基づいて対話モードを自動的に切り替えて調整し、ヒューマンマシン対話を常に最適な対話モードにさせ、スムーズなヒューマンマシン対話を実現できることである。
【図面の簡単な説明】
【0012】
本発明の実施形態の技術方案をより明確に説明するために、以下は、実施形態の説明で使用される図面を簡単に説明する。 説明された図面は本発明のいくつかの実施形態であり、当業者は、創造的な努力を払うことない下で、他の図面を得ることができる。
図1】本発明のヒューマンマシン対話モードの切り替え方法の一実施例のフローチャートである。
図2】本発明のヒューマンマシン対話モードの切り替え方法の他の実施例のフローチャートである。
図3】本発明のヒューマンマシン対話モードの切り替え方法の別の実施例のフローチャートである。
図4】本発明のヒューマンマシン対話モードの切り替えシステムの一実施例の原理ブロック図である。
図5】本発明の電子機器の一実施例の構造概略図である。
【発明を実施するための形態】
【0013】
本発明の実施例の目的、技術方案及び利点をより明確にするために、以下では、本発明の実施例の図面を参照しながら、本発明の実施例における技術方案を明確かつ完全に説明する。もちろん、説明される実施形態は本発明の一部の実施形態にすぎ、本発明の全部の実施形態ではない。本発明の実施形態に基づいて、当業者が創造的な努力なしに得られる他の全ての実施形態も本発明の保護範囲に含まれるべきである。
【0014】
なお、本願の実施形態と実施形態の特徴とは、互いに矛盾することなければ、組み合わせることができる。
【0015】
本発明は、例えば、プログラムモジュールなどの、コンピュータによって実行されるコンピュータ実行可能命令の一般的なコンテキストで説明することができる。プログラムモジュールには、通常、特定のタスクを実行したり、特定の抽象データ型を実現したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、分散コンピューティング環境で実施することもできる。これらの分散コンピューティング環境では、通信ネットワークを介して接続されたリモート処理デバイスによって、タスクが実行される。分散コンピューティング環境では、プログラムモジュールは、ストレージデバイスを含むローカル及びリモートのコンピュータストレージメディアに配置できる。
【0016】
本発明では、「モジュール」、「デバイス」、「システム」などは、例えば、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、又は実行中のソフトウェアなどのコンピュータに適用される関連エンティティを指す。具体的には、コンポーネントは、プロセッサで実行するプロセス、プロセッサ、オブジェクト、実行可能なコンポーネント、実行スレッド、プログラム、及び/又はコンピュータであるが、これらに限定されない。また、サーバで実行するアプリケーションプログラムやスクリプトプログラム、サーバがコンポーネントと呼ばれることもできる。実行のプロセス及び/又はスレッドには、一つ又は複数のコンポーネントを含んでもよく、且つ、コンポーネントは、一台のコンピュータにローカライズされ、及び/又は二台以上のコンピュータの間に分布され、さまざまなコンピュータ可読媒体で実行することができる。コンポーネントは、一つ以上のデータパケットを有する信号によって、ローカル及び/又はリモートプロセスを介して、通信することができる。信号は、例えば、ローカルシステム、分散システムにおけるもう一つのコンポーネントと相互作用するデータ、及び/又はインターネットのようなネットワークで信号を介して他のシステムと相互作用するデータからの信号である。
【0017】
最後に、本願の明細書、請求の範囲及び図面における関係用語「第一」及び「第二」などは、一つの実体又は操作をもう一つの実体又は操作と区別するためのものだけであり、これらの実体又は操作がいかなるこのような実際の関係又は順序を特定し、示唆するためのものではない。また、用語「含む」、「有する」及びそれらのいずれの変更は、それらの要素だけでなく、明示的にリストされていない他の要素、又はそのようなプロセス、方法、オブジェクト、又は機器に固有の要素も含む。これ以上の制限が課されない場合、「含む」、「有する」及びそれらのいずれの変更によって定義された要素は、その要素を含むプロセス、方法、オブジェクト、又は機器に他の同一要素があることを除外しない。
【0018】
図1は、本発明の実施例により提供されるヒューマンマシン対話モードの切り替え方法を示す図であり、当該方法は、ヒューマンマシン対話システムが搭載された電子機器に適用可能であり、当該電子機器はスマートスピーカー、スマートフォン、スマートロボット等であってもよく、本発明ではこれに限定されない。
【0019】
以下では、スマートスピーカーを例にして、本発明のヒューマンマシン対話モードの切り替え方法について例示的な展開説明を行う。当該方法には、以下のステップが含まれる。
【0020】
S11、現在ユーザが発話した現在ユーザ語句を受信する。
例示的に、スマートスピーカーが現在ユーザによりウェイクアップされた後、デフォルトの対話モード又は現在ユーザに適用される対話モードを起動し、ユーザ音声信号を検出する。現在ユーザが発話した現在ユーザ語句を検出した場合、当該語句に対して認識処理を行う。
【0021】
S12、現在ユーザ語句が属する対話分野が所定の対話分野であるか否かを確定する。
例示的に、スマートスピーカーは、現在ユーザ語句に対応するテキストコンテンツを取得し、テキストコンテンツに基づいて現在ユーザ語句が属する対話分野を確定し、更に、その属する対話分野が所定の対話分野であるか否かを判断する。例示的に、異なる対話分野は異なる対話シーンに対応し、または対話分野はスマートスピーカーにおけるスキルに対応する。各スキルは一つの対話分野に属し、例えば、成語のしりとりスキル、ナビゲーションスキル、天気照会スキル、チケット予約スキルなど、それぞれ異なる対話分野に属する。
【0022】
S13、現在ユーザ語句が属する対話分野が所定の対話分野であると確定した場合、現在の対話モードを全二重対話モードに切り替える。
例示的に、スマートスピーカーの現在の対話モードが全二重対話モードである場合には、現在の対話モードを維持すればよい。スマートスピーカーの現在の対話モードが半二重対話モードである場合には、それを全二重対話モードに切り替える。
【0023】
S14、現在ユーザ語句が属する対話分野が所定の対話分野ではないと確定した場合、現在の対話モードを半二重対話モードに切り替える。
例示的に、スマートスピーカーの現在の対話モードが半二重対話モードである場合には、現在の対話モードを維持すればよい。スマートスピーカーの現在の対話モードが全二重対話モードである場合には、それを半二重対話モードに切り替える。
【0024】
本実施例では、現在ユーザ語句が属する対話分野が所定の対話分野に属するか否かを判断する方法により、対話モードを切り替える。それにより、対話分野の違いに基づいて対話モードを自動的に切り替えて調整し、ヒューマンマシン対話が常に最適な対話モードにあり、スムーズなヒューマンマシン対話を実現できることができる。
【0025】
いくつかの実施例において、現在ユーザ語句が属する対話分野が半二重対話分野であると確定した場合、現在の対話モードを半二重対話モードに切り替え、そうでなければ現在の対話モードを維持する(現在の対話モードは、半二重対話モード、または全二重対話モードである可能性がある)。例示的に、半二重対話分野は予め配置された指定対話分野である。
【0026】
図2は、本発明のヒューマンマシン対話モードの切り替え方法の他の実施例のフローチャートであり、以下のステップを含む。
【0027】
ユーザが入力する。
ユーザの入力が現在ヒットしている対話分野が半二重分野であるか否かを判断する。
半二重分野である場合、ユーザ端末に発行して半二重命令をオンにし、すなわち半二重対話モードをオンにし、それによりユーザ端末はTTS放送時に録音をオフにする。
半二重分野ではない場合、ユーザ端末はTTS放送時に録音をオンにし、すなわち全二重対話モードをオンにする。
対話が終了したかどうかを判断し、終了していない場合には、上記のステップを繰り返し続ける。
【0028】
例示的に、ユーザ端末はより重要なTTSメッセージを放送し、ユーザが異常により中断されることなく当該メッセージを完全に聞くことを希望する。クラウド配置により一部の対話分野を半二重モードに指定することができる。ユーザの発話が当該分野にヒットすると、クラウドはユーザ端末にメッセージを送信する。このとき、ユーザ端末は半二重モードに適応的に移行する。TTS放送時には録音を停止することにより、ノイズが録音され、対話状態に影響を与えることを回避する。
【0029】
例えば、ユーザがスクリーンがない音響機器を使用しており、ユーザはTTS放送を聞き終わらなければ、次にどのような命令を言うのかがわからない。この時、TTS放送は非常に重要な情報である。TTSの中断によりユーザが聞き終わっていない場合、ユーザは後で何を話せばいいのかわからなくなる。ユーザUと機器Mの対話の例を以下に示す。
【0030】
U:古詩を暗唱したいです。
M:唐、李白、静夜思、忘れた場合「ヒントください」と言い、任務を終えた場合「退出します」と言うことができます。
U:ヒントください。
【0031】
いくつかの実施例において、全二重対話モードにある場合、
マルチラウンドの対話過程において、受信した新たなユーザ語句が属する対話分野を確定し
新たなユーザ語句がマルチラウンドの対話過程における前のユーザ語句と異なる対話分野に属する場合、前のユーザ語句に対応する応答の応答内容を維持する。
【0032】
例示的に、本実施例は、対話コンテキストに応じて対話分野のジャンプを適応的に制限することを実現している。対話分野のジャンプを制限して、対話分野の切り替えによる相互干渉を回避する。タスク型マルチラウンド対話シーンでは、対話分野の切り替えにより、前の対話コンテキストがクリアされる。
【0033】
例えば、ユーザUと機器Mの対話は以下のようになる。
U:駅までナビゲートしてほしいです。
M:次の場所を見つけましたが、何番目ですか。
U:一番目です。
M:ルートを計画しています。距離が一番短くて、渋滞を避けて、高速道路を走行しません。何番目を選びますか。
U:二番目です。
M:ルート計画に成功しました。ナビゲーションを開始しますか。
U:電話をかけます。
M:誰に電話をかけますか。
【0034】
検出された「電話をかけます」は、周囲のノイズによる誤認識の可能性があり、このとき、システムがこの入力に応答すると、対話分野を切り替え、ナビゲーションのタスクが中断され、電話分野に入ることになる。そして、前に入力したコンテキスト情報がクリアされ、ナビゲーション分野に戻ると、ナビゲーション情報を再入力する必要があり、インタラクション体験に影響を与える。
【0035】
本実施例のヒューマンマシン対話モードの切り替え方法によれば、新たなユーザ語句の対話分野が現在のマルチラウンドの対話分野と同じであるか否かを判断することにより、新たなユーザ語句に応答するか否かを決定する。これにより、周囲ノイズによる誤認識を回避し、現在のマルチラウンドの対話タスクをスムーズに完了させることができる。
【0036】
図3は、本発明のヒューマンマシン対話モードの切り替え方法の別の実施例のフローチャートであり、以下のステップを含む。
【0037】
ユーザが入力する。
ユーザ端末の状態がアップロードされているかどうかを判断し、セマンティック分野を制限する。例えば、現在ユーザ端末がTTS放送状態にある場合、この時にセマンティック分野を制限する。現在ユーザ端末の状態が非TTS放送状態にある場合、この時にセマンティック分野を制限する必要はない。
そうでない場合、入力があるセマンティック分野(即ち、現在のマルチラウンド対話の対話分野)にヒットする。
そうである場合、ユーザの入力が前回の対話と同じセマンティック分野にヒットするかどうかを判断する。
そうである場合、入力があるセマンティック分野(即ち、現在のマルチラウンド対話の対話分野)にヒットする。
そうでない場合、セマンティックマッチングに失敗し、ユーザの入力をフィルタリングする。
対話出力を実行し、ユーザ端末の状態をリアルタイムでアップロードする。
対話を終了する。
【0038】
本発明のヒューマンマシン対話モードの切り替え方法は、実際に、ユーザ端末の状態(例えばTTS放送中)に応じて分野のジャンプを制限し、ユーザ端末の状態変更(TTS放送完了)後に分野ジャンプの制限を解除する適応型対話モード切り替え方法を実現している。これにより、TTS放送中のノイズによる誤認識を低減することができる。
【0039】
ユーザ端末は、状態をリアルタイムでサーバにアップロードし、サーバはユーザ端末の状態に応じて、対話のコンテキストに合わせて適応的に対話状態を切り替えることで、ノイズの入力を効果的に排除することができる。本発明は、対話シーンとユーザ端末の状態に応じて、対話モードを適応的に変更でき、異なるシーンで対応する対話モードをオンにすることで、異なるシーンのニーズを満たすことができる。
【0040】
いくつかの実施例において、本発明のヒューマンマシン対話モードの切り替え方法は、
新たなユーザ語句を再度受信した場合には、前のユーザ語句に対応する応答内容を保存するステップと、
新たな対話語句に対応する応答内容を取得して、ユーザに提示するステップと、
前のユーザ語句の応答内容を再取得するユーザ音声命令を受信した場合、保存されている前のユーザ語句の応答内容を取得してユーザに提示するステップと、
をさらに含む。
【0041】
本実施例では、新たなユーザ語句が、マルチラウンドの対話過程における前のユーザ語句とは異なる対話分野に属するが、確かに現在ユーザが現在のマルチラウンドの対話を緊急に終了して、他の分野の対話を開始することを望んでいる可能性があることを考慮に入れている。この場合、現在ユーザが最初に入力した新たなユーザ語句が、システムによってフィルタリングされ、応答は得られないが、通常、新たなユーザ語句の2回目に入力を試みる。本実施例によれば、このような実際のシーンを両立させることができるため、現在ユーザの実際のニーズを満たすことを確保し、ユーザ体験を向上させることができる。
【0042】
また、前のユーザ語句に対応する応答内容を保存しているため、ユーザが前の応答内容を再取得しようとする場合、ユーザが前に行ったマルチラウンドの対話を繰り返して応答内容を取得する必要がなく、直接結果をユーザに提示することができる。
【0043】
いくつかの実施形において、ユーザ音声命令には、前のタスクまたは前のユーザ語句、または前の対話中の最後の質問文に対する応答語句に戻る等が含まれる。
【0044】
例示的に、ユーザUと機器Mの駅行きの対話の例と併せて、ユーザが電話をかけた後、機器に「前のタスクに戻る」、または「2番目」、または「ナビゲーションを開始してください」と話すことにより、機器は、前のマルチラウンドの対話で得られたナビゲーションルートをユーザに再提示することができる。
【0045】
いくつかの実施例において、所定の対話分野は、現在ユーザの使用回数が所定の閾値を超える対話分野である。当該実施例におけるヒューマンマシン対話モードの切り替え方法は、
現在ユーザ語句が属する対話分野が現在ユーザによって言及された回数が所定の閾値を超えているか否かを確定するステップと、
所定の閾値を超えている場合、現在ユーザ語句が属する対話分野を現在ユーザに対応する所定の対話分野としてマークするステップと、
をさらに含む。
【0046】
例示的に、ユーザ端末(すなわち、スマートスピーカー)は、ユーザの日常操作をイベントを介してサーバに報告する。ユーザがある分野に入った時、ユーザの行動統計に基づいて、そのユーザが頻繁に当該フローを使用することを発見した場合、当該フローはTTS放送時に、全二重モードを適応的にオンにする。TTS放送中、ユーザはTTS放送の完了を待つ必要がなく、事前に発話して、次のラウンドの対話フローに入ることができる。
【0047】
例えば、ユーザUと機器Mの対話は以下のようになる。
U:こんにちは、小馳(ウェイクアップワード)。
M:こんにちは、ご主人様。何をしますか。電話をかける、音楽を再生する、ナビゲーションする、設定すると言うことができます。
U:ナビゲートして駅まで行きます(ユーザは、TTS放送全体が完了するのを待つ必要がなく、機械が「こんにちは、ご主人様」を放送し始めるときすぐに「ナビゲートして駅まで行きます」と言うことができる)。
【0048】
いくつかの実施例において、現在ユーザ語句が属する対話分野が所定の対話分野であるか否かを確定するステップにおいては、
現在ユーザ語句が属する対話分野を確定し、
現在ユーザ語句に基づいて、現在ユーザのユーザ特徴情報を取得し、
ユーザ特徴情報に基づいて、現在ユーザに対応する所定の対話分野を照会し、
所属する対話分野が所定の対話分野に属するか否かを確定する。
例示的に、ユーザ特徴情報はユーザの声紋情報である。また、照会された所定の対話分野には少なくとも一つの具体的な対話分野が含まれる。
【0049】
発明者は、本発明を実現する過程において、同一の電子機器(例えば、スマートスピーカー)は、複数の異なるユーザによって使用される可能性があることを発見した(例えば、家庭で使用されるスマートスピーカーであれば、家庭内の複数の人によって使用される可能性がある)。この時、異なるユーザがスマートスピーカーに対する使用習慣や数量程度、又は自身が異なる対話分野を把握している知識程度が異なっており、ヒューマンマシン対話をよりよく実現するために、スマートスピーカーを異なる対話モードに調整する必要がある。
【0050】
本実施例の方法において、異なるユーザに対して異なる所定の対話分野を有し、ユーザの声紋情報により異なるユーザの認識を行い、対応する所定の対話分野を確定する。これにより、現在ユーザの現在語句の対話分野が所定の対話分野であるか否かを正確に判断し、最終的に適切な対話モードを選択してヒューマンマシン対話を行うことができる。
【0051】
いくつかの実施例において、現在ユーザが発話した現在ユーザ語句を受信する前に、
ウェイクアップワードを検出するステップと、
検出されたウェイクアップワードの音声に基づいて、現在ユーザのユーザ特徴情報を確定するステップと、
ユーザ特徴情報データベースに現在ユーザのユーザ特徴情報が存在するか否かを照会するステップと、
存在する場合、全二重対話モードをオンにするステップと、
存在しない場合、半二重対話モードをオンにし、ユーザ特徴情報をユーザ特徴情報データベースに保存するステップと、
をさらに含む。
【0052】
本実施例は、システムがウェイクアップされた後の初期対話モードの適応的な選択を実現している。発明者は、本発明を実現する過程において、スマートスピーカーやストーリーマシンの電源を入れると、常に所定の紹介内容やユーザに使用方法を案内する内容が放送され、これは新たなユーザにとっては確かに非常に実用的であるが、当該スマートスピーカーやストーリーマシンをよく知っているユーザにとっては多少の無駄乃至反感を抱いていることを発見した。
【0053】
本実施例の方法によれば、スマートスピーカーやストーリーマシンがウェイクアップされると同時に、現在ユーザのウェイクアップ音声から抽出されたユーザ特徴情報(例えば、声紋情報)と、ローカルに記憶された声紋情報データベースとを照合することにより、現在ユーザが新たなユーザであるか否かを判断する。新たなユーザではない場合、システムを全二重対話モードに初期化し、それにより、ユーザはいつでも音声命令を入力してスマートスピーカー又やストーリー機を制御することができる。
【0054】
例示的に、本発明は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、
メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
現在ユーザが発話した現在ユーザ語句を受信するステップと、
現在ユーザ語句が属する対話分野が所定の対話分野であるか否かを確定するステップと、
所定の対話分野である場合、現在の対話モードを全二重対話モードに切り替えるステップと、
所定の対話分野ではない場合、現在の対話モードを半二重対話モードに切り替えるステップと、
が実行できるように、少なくとも1つのプロセッサによって命令を実行させる電子機器をさらに提供する。
【0055】
いくつかの実施例において、少なくとも一つのプロセッサは、さらに、
全二重対話モードにある場合、
マルチラウンドの対話過程において、受信した新たなユーザ語句が属する対話分野を確定し、
新たなユーザ語句がマルチラウンドの対話過程における前のユーザ語句と異なる対話分野に属する場合、前のユーザ語句に対応する応答の応答内容を維持する、
ように構成される。
【0056】
いくつかの実施例において、少なくとも一つのプロセッサは、さらに、
新たなユーザ語句を再度受信した場合には、前のユーザ語句に対応する応答内容を保存し、
新たな対話語句に対応する応答内容を取得して、ユーザに提示し、
前のユーザ語句の応答内容を再取得するユーザ音声命令を受信した場合、保存されている前のユーザ語句の応答内容を取得してユーザに提示する、
ように構成される。
【0057】
いくつかの実施例において、所定の対話分野は、現在ユーザの使用回数が所定の閾値を超える対話分野であり、
少なくとも一つのプロセッサは、さらに、
現在ユーザ語句が属する対話分野が現在ユーザによって言及された回数が所定の閾値を超えているか否かを確定し、
超えている場合、現在ユーザ語句が属する対話分野を現在ユーザに対応する所定の対話分野としてマークする、
ように構成される。
【0058】
いくつかの実施例において、現在ユーザ語句が属する対話分野が所定の対話分野であるか否かを確定するステップにおいては、
現在ユーザ語句が属する対話分野を確定し、
現在ユーザ語句に基づいて、現在ユーザのユーザ特徴情報を取得し、
ユーザ特徴情報に基づいて、現在ユーザに対応する所定の対話分野を照会し、
所属する対話分野が所定の対話分野に属するか否かを確定する。
【0059】
いくつかの実施例において、少なくとも一つのプロセッサは、さらに、
現在ユーザが発話した現在ユーザ語句を受信する前に、
ウェイクアップワードを検出し、
検出されたウェイクアップワードの音声に基づいて、現在ユーザのユーザ特徴情報を確定し、
ユーザ特徴情報データベースに現在ユーザのユーザ特徴情報が存在するか否かを照会し、
存在する場合、全二重対話モードをオンにし、
存在しない場合、半二重対話モードをオンにし、ユーザ特徴情報をユーザ特徴情報データベースに保存する、
ように構成される。
【0060】
上記の各方法の実施例について、簡単に説明するために、一連の動作の統合として説明されているが、当業者は、説明されている動作の順序に限定されるものではなく、本願明細書に記載されているステップのいくつかは、本願明細書に記載されている他の順序を採用しても、同時に実施されてもよいからであることが認識されるであろう。次に、明細書に記載された実施の形態はいずれも好ましい実施の形態に属し、関連する動作およびモジュールは必ずしも本願に必須ではないことが当業者によって認識されるべきである。上記の実施例では、各実施例の説明に重きが置かれているが、ある実施例で詳しく述べられていない部分については、他の実施の形態の説明を参照されたい。
【0061】
図4に示すように、本発明の実施例は、
現在ユーザが発話した現在ユーザ語句を受信するための音声受信モジュール410と、
現在ユーザ語句が属する対話分野が所定の対話分野であるか否かを確定するための対話分野確定モジュール420と、
現在ユーザ語句が属する対話分野が所定の対話分野であると確定した場合、現在の対話モードを全二重対話モードに切り替え、現在ユーザ語句が属する対話分野が所定の対話分野ではないと確定した場合、現在の対話モードを半二重対話モードに切り替えるための対話モード切り替えモジュール430と、
をさらに含むヒューマンマシン対話モードの切り替えシステム400を提供する。
【0062】
いくつかの実施例において、全二重対話モードにある場合、ヒューマンマシン対話モードの切り替えシステムは、さらに、
マルチラウンドの対話過程において、受信した新たなユーザ語句が属する対話分野を確定し、
新たなユーザ語句がマルチラウンドの対話過程における前のユーザ語句と異なる対話分野に属する場合、前のユーザ語句に対応する応答の応答内容を維持する、
ように構成される。
【0063】
いくつかの実施例において、ヒューマンマシン対話モードの切り替えシステムは、さらに、
新たなユーザ語句を再度受信した場合には、前のユーザ語句に対応する応答内容を保存し、
新たな対話語句に対応する応答内容を取得して、ユーザに提示し、
前のユーザ語句の応答内容を再取得するユーザ音声命令を受信した場合、保存されている前のユーザ語句の応答内容を取得してユーザに提示する、
ように構成される。
【0064】
いくつかの実施例において、所定の対話分野は、現在ユーザの使用回数が所定の閾値を超える対話分野であり、
ヒューマンマシン対話モードの切り替えシステムは、さらに、
現在ユーザ語句が属する対話分野が現在ユーザによって言及された回数が所定の閾値を超えているか否かを確定し、
超えている場合、現在ユーザ語句が属する対話分野を現在ユーザに対応する所定の対話分野としてマークする、
ように構成される。
【0065】
いくつかの実施例において、現在ユーザ語句が属する対話分野が所定の対話分野であるか否かを確定するステップにおいては、
現在ユーザ語句が属する対話分野を確定し、
現在ユーザ語句に基づいて、現在ユーザのユーザ特徴情報を取得し、
ユーザ特徴情報に基づいて、現在ユーザに対応する所定の対話分野を照会し、
所属する対話分野が所定の対話分野に属するか否かを確定する。
【0066】
いくつかの実施例において、ヒューマンマシン対話モードの切り替えシステムは、
現在ユーザが発話した現在ユーザ語句を受信する前に、
ウェイクアップワードを検出するステップと、
検出されたウェイクアップワードの音声に基づいて、現在ユーザのユーザ特徴情報を確定するステップと、
ユーザ特徴情報データベースに現在ユーザのユーザ特徴情報が存在するか否かを照会するステップと、
存在する場合、全二重対話モードをオンにするステップと、
存在しない場合、半二重対話モードをオンにし、ユーザ特徴情報をユーザ特徴情報データベースに保存するステップと、
をさらに実行する。
【0067】
いくつかの実施例において、ユーザ特徴情報はユーザの声紋情報である。
【0068】
いくつかの実施例において、実行命令を含む1つまたは複数のプログラムを記憶する不揮発性コンピュータ読み取り可能な記憶媒体を提供する。実行命令は、本発明の上記いずれかのヒューマンマシン対話モードの切り替え方法を実行するように、電子機器(コンピュータ、サーバ、又はネットワーク機器などを含むがこれらに限定されない)によって読み取られて実行することができる。
【0069】
いくつかの実施例において、不揮発性コンピュータ読み取り可能な記憶媒体に記憶されたコンピュータプログラムを含むコンピュータプログラム製品を提供し、コンピュータプログラムはプログラム命令を含み、プログラム命令がコンピュータによって実行されると、コンピュータに上記いずれかのヒューマンマシン対話モードの切り替え方法を実行させる。
【0070】
いくつかの実施例において、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、ヒューマンマシン対話モードの切り替え方法が実行できるように、少なくとも1つのプロセッサによって命令を実行させる電子機器を提供する。
【0071】
いくつかの実施例において、コンピュータプログラムが記憶された記憶媒体を提供し、当該プログラムがプロセッサによって実行される時に、ヒューマンマシン対話モードの切り替え方法が実現されることを特徴とする。
【0072】
上記本発明の実施例のヒューマンマシン対話モードの切り替えシステムは、本発明の実施例のヒューマンマシン対話モードの切り替え方法を実行するために用いることができ、それに応じて、上記実施例のヒューマンマシン対話モードの切り替え方法を実現する技術的効果を達成することができ、ここでは説明を省略する。本発明の実施例において、ハードウェアプロセッサ(hardware processor)によって関連機能モジュールを実現することができる。
【0073】
図5は、本発明の他の実施例に係るヒューマンマシン対話モードの切り替え方法を実行する電子機器のハードウェア構造の概略図である。図5に示すように、当該機器には、
1つまたは複数のプロセッサ510およびメモリ520が含まれ、図5では1つのプロセッサ510を例に取る。
【0074】
ヒューマンマシン対話モードの切り替え方法を実行する機器は、入力装置530と出力装置540とをさらに含むことができる。
【0075】
プロセッサ510、メモリ520、入力装置530と出力装置540はバスまたは他の 方法で接続することができ、図5ではバスによる接続を例に取る。
【0076】
メモリ520は不揮発性コンピュータ可読記憶媒体として、不揮発性ソフトウェアプログラム、不揮発性コンピュータはプログラムおよびモジュールを記憶することができる。例えば、本発明の実施例におけるヒューマンマシン対話モードの切り替え方法に対応するプログラム命令/モジュールを記憶することができる。プロセッサ510は、メモリ520に記憶されている不揮発性ソフトウェアプログラム、命令およびモジュールを実行することによって、サーバの各種機能応用およびデータ処理を実行し、即ち、上記方法実施例のヒューマンマシン対話モードの切り替え方法を実現する。
【0077】
メモリ520は、プログラム記憶領域とデータ記憶領域を含むことができる。ここで、プログラム記憶領域は、オペレーティングシステムや少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができる。データ記憶領域は、ヒューマンマシン対話モードの切り替え装置の使用に応じて作成されたデータなどを記憶することができる。さらに、メモリ520は、高速ランダムアクセスメモリを含含むことができ、不揮発性メモリ、例えば少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の不揮発性固体記憶装置を含むことができる。いくつかの実施例において、メモリ520は、プロセッサ510から離れて設置されたメモリを選択的に含み得、これらのリモートメモリは、ネットワークを介してヒューマンマシン対話モードの切り替え装置に接続することができる。上記ネットワークには、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワークおよびそれらの組合せが含まれるが、これらに限定されない。
【0078】
入力装置530は、入力された数値や文字情報を受信し、ヒューマンマシン対話モードの切り替え装置のユーザ設置および機能制御に関連する信号を生成することができる。出力装置540は、ディスプレイなどの表示装置を含むことができる。
【0079】
1つまたは複数のモジュールはメモリ520に記憶され、1つまたは複数のプロセッサ 510によって実行されると、上記任意の方法実施例におけるヒューマンマシン対話モードの切り替え方法を実行する。
【0080】
上記の製品は、本発明の実施例で提供される方法を実行することができ、実行方法に対応する機能モジュールと有益な効果を有する。本実施例において詳細に説明されていない技術の詳細は、本発明の実施例で提供される方法を参照することができる。
【0081】
当業者であれば、前述の各実施例の技術方案を修正するか、または技術的特徴の一部を同等に置き換えることができることを理解されるでしょう。これらの修正または置き換えは、対応する技術方案の本質を、本発明の各実施例の技術方案の精神および範囲から逸脱させるものではない。
【0082】
本発明の実施形態の電子デバイスは、以下のデバイスを含むが、これらに限定されない様々な形態で存在する。
(1)モバイル通信デバイス:これらのデバイスは、その特徴がモバイル通信機能を備えることであり、音声及びデータ通信を提供することを主な目標として、スマートフォン(例えば、iphone(登録商標))、マルチメディア携帯電話、機能携帯電話、ローエンド携帯電話などを含む。
(2)ウルトラモバイルパソコンデバイス:これらのデバイスは、パソコンのカテゴリーに属し、計算及び処理の機能を持ち、一般にモバイルインターネットアクセスの特性を持って、例えば、iPad(登録商標)などのPDA、MID及びUMPCデバイスなどを含む。
(3)ポータブルエンターテイメントデバイス:これらのデバイスは、マルチメディアコンテンツを表示及び放送でき、オーディオ、ビデオプレーヤー(例えば、iPod(登録商標))、ハンドヘルドゲームデバイス、電子書籍、インテリジェントおもちゃ及びポータブルカーナビゲーションデバイスを含む。
(4)サーバ:コンピューティングサービスを提供するデバイスである。サーバの構成は、プロセッサ、ハードディスク、メモリ、システムバスなどを含む。サーバ及び汎用コンピュータはアーキテクチャが似るが、信頼性の高いサービスを提供する必要があるため、処理能力、安定性、信頼性、セキュリティ、スケーラビリティ、及び管理性などの方面での要求が高い。
(5)データー交換機能を備えたその他の電子デバイス。
【0083】
上記の装置の実施形態は、例示的だけであり、分離するコンポーネントとして記載されたユニットは、物理的に分離されるものであってもよく、分離されないものであってもよい。ユニットとして表示されるコンポーネントは、物理ユニットであってもよく、物理ユニットではなくてもよい。即ち、 一つの場所に配置することもでき、複数のネットワークユニットに分散することもできる。実際のニーズに応じて、いくつかのモジュール又はすべてのモジュールを選択することができ、実施形態の目的を達成するようになる。
【0084】
上記の実施形態の説明を通じて、当業者は、各実施形態がソフトウェア及び共通のハードウェアプラットフォームによって実現することができ、もちろん、ハードウェアによって実現することもできることを明確に理解することができる。この理解に基づいて、上記の技術方案の本質又は関連技術に貢献する部分は、ソフトウェア製品の形式で具体化でき、コンピュータソフトウェア製品は、例えば、ROM/RAM、磁気ディスク、コンパクトディスクなどのコンピュータ可読記憶媒体に格納でき、コンピュータデバイス(パーソナルコンピュータ、サーバ又はネットワークデバイスなどである)に、各々の実施形態又は実施形態のある部分に記載された方法を実行させるように、いくつかの命令を含む。
【0085】
最後に、上記した実施形態は、本発明の技術構成を説明するためのものであり、本発明を限定するためのものではない。当業者であれば、本発明の技術構成の趣旨や範囲を逸脱しない前提下で、上述した実施形態に対して修正することもできるし、一部の技術的特徴を均等置換することもできる。これらの修正や置換は、いずれも本発明の保護範囲に含まれるべきである。
図1
図2
図3
図4
図5