(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-01
(45)【発行日】2022-04-11
(54)【発明の名称】音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体
(51)【国際特許分類】
G10L 15/28 20130101AFI20220404BHJP
G10L 15/10 20060101ALI20220404BHJP
G10L 15/22 20060101ALI20220404BHJP
【FI】
G10L15/28 230J
G10L15/10 200W
G10L15/28 230K
G10L15/22 200H
(21)【出願番号】P 2019238253
(22)【出願日】2019-12-27
【審査請求日】2019-12-27
(31)【優先権主張番号】201910933788.4
(32)【優先日】2019-09-29
(33)【優先権主張国・地域又は機関】CN
【前置審査】
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(73)【特許権者】
【識別番号】521235408
【氏名又は名称】シャンハイ シャオドゥ テクノロジー カンパニー リミテッド
(74)【代理人】
【識別番号】100118913
【氏名又は名称】上田 邦生
(74)【代理人】
【識別番号】100142789
【氏名又は名称】柳 順一郎
(74)【代理人】
【識別番号】100201466
【氏名又は名称】竹内 邦彦
(72)【発明者】
【氏名】ルォ, ヨンシー
(72)【発明者】
【氏名】ワン, シャシャ
【審査官】菊池 智紀
(56)【参考文献】
【文献】米国特許出願公開第2017/0169817(US,A1)
【文献】国際公開第2019/022797(WO,A1)
【文献】国際公開第2018/135753(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように、第1動作状態を実行するステップと、
前記オーディオクリップの音声認識によって取得された第1制御意図を取得するステップと、
前記第1制御意図が前記ターゲットシーンにマッチングするか否かを判定するステップと、
前記第1制御意図が前記ターゲットシーンにマッチングする場合は、前記第1制御意図にマッチングする制御命令を実行し、前記第1動作状態を第2動作状態に切り替え、前記第1制御意図が前記ターゲットシーンにマッチングしない場合は、前記第1制御意図への応答を拒否し、前記第1動作状態を実行し続けるステップと、
前記第2動作状態で、オーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの音声認識を行うステップであって、前記オーディオストリームには、前記ウェイクワードが含まれないステップと、
音声認識によって前記ターゲットシーンに合致する第2制御意図が取得された場合、前記第2制御意図にマッチングする制御命令を実行するステップと、を含
み、
前記第1動作状態を第2動作状態に切り替えるステップの後に、
前記第2動作状態で、インターフェイスにおける第1要素を第2要素に置き換え、第3要素を表示するステップをさらに含み、
前記第1要素は、第1動作状態にあることを提示するためのものであり、前記第2要素は、第2動作状態にあることを提示するためのものであり、前記第3要素は、前記ウェイクワードを提示するためのものである音声制御方法。
【請求項2】
前記第2動作状態で、オーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの音声認識を行うステップの後に、
前記オーディオストリームの音声認識によって取得された情報ストリームを取得するステップと、
前記情報ストリームから各候補意図を取得するステップと、
各候補意図から、前記ターゲットシーンの制御意図にマッチングする第2制御意図をスクリーニングするステップと、
所定期間内に前記第2制御意図が取得されなかった場合、前記第2動作状態を終了するステップと、をさらに含み、
前記所定期間の範囲は、20秒~40秒である請求項1に記載の音声制御方法。
【請求項3】
前記情報ストリームから各候補意図を取得するステップの後に、
前記ターゲットシーンの制御意図にマッチングしない候補意図への応答を拒否するステップをさらに含む請求項2に記載の音声制御方法。
【請求項4】
前記ターゲットシーンは、ゲームシーンを含む請求項1から3のいずれかに記載の音声制御方法。
【請求項5】
ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように、第1動作状態を実行するように構成される実行モジュールと、
前記オーディオクリップの音声認識によって取得された第1制御意図を取得するように構成される第1取得モジュールと、
前記第1制御意図が前記ターゲットシーンにマッチングするか否かを判定するように構成される決定モジュールと、
前記第1制御意図が前記ターゲットシーンにマッチングすると判定された場合は、前記第1制御意図にマッチングする制御命令を実行し、前記第1動作状態を第2動作状態に切り替え、前記第1制御意図が前記ターゲットシーンにマッチングしないと判定された場合は、前記第1制御意図への応答を拒否し、前記第1動作状態を実行し続けるように構成される切り替えモジュールと、
前記第2動作状態で、オーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの音声認識を行うように構成される認識モジュールであって、前記オーディオストリームには、前記ウェイクワードが含まれない認識モジュールと、
音声認識によって前記ターゲットシーンに合致する第2制御意図が取得された場合、前記第2制御意図にマッチングする制御命令を実行するように構成される制御モジュールと、
前記第2動作状態で、インターフェイスにおける第1要素を第2要素に置き換え、第3要素を表示するように構成される置き換えモジュールとを含み、
前記第1要素は、第1動作状態にあることを提示するためのものであり、前記第2要素は、第2動作状態にあることを提示するためのものであり、前記第3要素は、前記ウェイクワードを提示するためのものである音声制御装置。
【請求項6】
前記装置は、
前記オーディオストリームの音声認識によって取得された情報ストリームを取得するように構成される第2取得モジュールと、
前記情報ストリームから各候補意図を取得するように構成される第3取得モジュールと、
各候補意図から、前記ターゲットシーンの制御意図にマッチングする第2制御意図をスクリーニングするように構成されるスクリーニングモジュールと、
所定期間内に前記第2制御意図が取得されなかった場合、前記第2動作状態を終了するように構成される終了モジュールと、をさらに含み、
前記所定期間の範囲は、20秒~40秒である請求項
5に記載の音声制御装置。
【請求項7】
前記装置は、
前記ターゲットシーンの制御意図にマッチングしない候補意図への応答を拒否するように構成される応答拒否モジュールをさらに含む請求項
6に記載の音声制御装置。
【請求項8】
前記ターゲットシーンは、ゲームシーンを含む請求項
5から
7のいずれかに記載の音声制御装置。
【請求項9】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む電子デバイスであって、
前記メモリに前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサが、請求項1から
4のいずれかに記載の音声制御方法を実行する電子デバイス。
【請求項10】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、請求項1から
4のいずれかに記載の音声制御方法を前記コンピュータに実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、音声認識および人工知能の技術分野に関し、特に、音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体に関する。
【背景技術】
【0002】
人工知能技術および端末技術の持続的な発展に伴い、人工知能製品、たとえばスマートスピーカなどの電子デバイスが絶えず普及され、ユーザは、対応する制御命令を実行するように電子デバイスを音声で制御することができる。ユーザが電子デバイスを使用してゲームをプレイする間に、ユーザが電子デバイスと音声インタラクションを行い、ユーザによって入力された制御命令がゲームに関連していない場合でも、電子デバイスは、対応する制御命令に応答し、他の動作シーンに切り替える。この場合、ユーザのゲームプレイプロセスが中断され、ユーザ体験に影響する。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本出願は、関連技術における技術的課題の少なくとも1つをある程度解決することを目的とする。
本出願は、ターゲットシーンで、ユーザが入力した音声データを連続的に取得した後、他のシーンに切り替えることなく、ユーザ体験を向上する音声制御方法、音声制御装置、電子デバイス、および読み取り可能な記憶媒体を提供する。
【課題を解決するための手段】
【0004】
本出願の第1態様の実施例は、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第1動作状態を実行するステップと、前記オーディオクリップの音声認識によって取得された第1制御意図を取得するステップと、前記第1制御意図が前記ターゲットシーンにマッチングするか否かを判定するステップと、前記第1制御意図が前記ターゲットシーンにマッチングする場合は、前記第1制御意図にマッチングする制御命令を実行し、前記第1動作状態を第2動作状態に切り替え、前記第1制御意図が前記ターゲットシーンにマッチングしない場合は、前記第1制御意図への応答を拒否し、前記第1動作状態を実行し続けるステップと、前記第2動作状態で、オーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの音声認識を行うステップであって、前記オーディオストリームには、前記ウェイクワードが含まれないステップと、音声認識によって前記ターゲットシーンに合致する第2制御意図が取得された場合、前記第2制御意図にマッチングする制御命令を実行するステップと、を含み、前記第1動作状態を第2動作状態に切り替えるステップの後に、前記第2動作状態で、インターフェイスにおける第1要素を第2要素に置き換え、第3要素を表示するステップをさらに含み、前記第1要素は、第1動作状態にあることを提示するためのものであり、前記第2要素は、第2動作状態にあることを提示するためのものであり、前記第3要素は、前記ウェイクワードを提示するためのものである音声制御方法を提供する。
【0005】
本出願の実施例の第1の可能な実施形態として、前記第2動作状態で、オーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの音声認識を行うステップの後に、オーディオストリームの音声認識によって取得された情報ストリームを取得するステップと、前記情報ストリームから各候補意図を取得するステップと、各候補意図から、前記ターゲットシーンの制御意図にマッチングする第2制御意図をスクリーニングするステップと、所定期間内に前記第2制御意図が取得されなかった場合、前記第2動作状態を終了するステップと、をさらに含み、前記所定期間の範囲は、20秒~40秒である。
【0006】
本出願の実施例の第2の可能な実施形態として、前記情報ストリームから各候補意図を取得するステップの後に、前記ターゲットシーンの制御意図にマッチングしない候補意図への応答を拒否するステップをさらに含む。
【0007】
本出願の実施例の第3の可能な実施形態として、前記第1動作状態を第2動作状態に切り替えるステップの後に、前記第2動作状態で、インターフェイスにおける第1要素を第2要素に置き換え、第3要素を表示するステップを更に含み、前記第1要素は、第1動作状態にあることを提示するためのものであり、前記第2要素は、第2動作状態にあることを提示するためのものであり、前記第3要素は、前記ウェイクワードを提示するためのものである。
【0008】
本出願の実施例の第4の可能な実施形態として、前記第1動作状態を第2動作状態に切り替えるステップの前に、前記第1制御意図が前記ターゲットシーンにマッチングすると決定するステップをさらに含む。
【0009】
本出願の実施例の第5の可能な実施形態として、前記ターゲットシーンはゲームシーンを含む。
【0010】
本出願の第2態様の実施例は、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第1動作状態を実行するように構成される実行モジュールと、前記オーディオクリップの音声認識によって取得された第1制御意図を取得するように構成される第1取得モジュールと、前記第1制御意図が前記ターゲットシーンにマッチングするか否かを判定するように構成される決定モジュールと、前記第1制御意図が前記ターゲットシーンにマッチングすると判定された場合は、前記第1制御意図にマッチングする制御命令を実行し、前記第1動作状態を第2動作状態に切り替え、前記第1制御意図が前記ターゲットシーンにマッチングしないと判定された場合は、前記第1制御意図への応答を拒否し、前記第1動作状態を実行し続けるように構成される切り替えモジュールと、前記第2動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、前記オーディオストリームの音声認識を行うように構成される認識モジュールであって、前記オーディオストリームには、前記ウェイクワードが含まれない認識モジュールと、音声認識によって前記ターゲットシーンに合致する第2制御意図が取得された場合、前記第2制御意図にマッチングする制御命令を実行するように構成される制御モジュールと、前記第2動作状態で、インターフェイスにおける第1要素を第2要素に置き換え、第3要素を表示するように構成される置き換えモジュールとを含み、前記第1要素は、第1動作状態にあることを提示するためのものであり、前記第2要素は、第2動作状態にあることを提示するためのものであり、前記第3要素は、前記ウェイクワードを提示するためのものである音声制御装置を提供する。
【0011】
本出願の第3態様の実施例は、電子デバイスを提供し、前記電子デバイスは、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、前記メモリに前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサは本出願の第1態様に係る音声制御方法を実行する。
【0012】
本出願の第4態様の実施例は、コンピュータ命令の非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、本出願の第1態様の実施例に係る音声制御方法をコンピュータに実行させるためのものである。
【0013】
上記出願の実施例は、以下の利点または有益な効果を有する。
ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第1動作状態を実行し、オーディオクリップの音声認識によって取得された第1制御意図を取得し、第1制御意図にマッチングする制御命令を実行し、第1動作状態を第2動作状態に切り替え、第2動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第2制御意図が取得された場合、第2制御意図にマッチングする制御命令を実行する。これにより、ユーザが電子デバイスと連続的にインタラクションする場合、ユーザによって連続的に入力されたオーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第2制御意図が取得された場合に限って、対応する制御命令を実行するので、ウェイクワードを連続的に入力する必要がないだけでなく、ユーザ操作が簡素化され、シーンの切り替えに起因するユーザ体験が悪くなるという技術的な問題が回避される。
【0014】
上記の選択可能な実施形態が有する他の効果について、具体的な実施例と併せて以下に説明する。
【図面の簡単な説明】
【0015】
図面は、本出願の構成をよりよく理解するためのものであり、本出願を限定するものではない。本出願の上記および/または追加の態様および利点は、図面と併せて実施例の以下の説明により明らかになり、理解されやすくなる。
【
図1】本出願の実施例1に係る音声制御方法の概略フローチャートである。
【
図2】本出願の実施例2に係る音声制御方法の概略フローチャートである。
【
図3】本出願の実施例3に係る音声制御方法の概略フローチャートである。
【
図4】本出願の実施例4に係る音声制御装置の概略構成図である。
【
図5】本出願の実施例5に係る電子デバイスの概略構成図である。
【発明を実施するための形態】
【0016】
本出願の例示的な実施例について、図面を参照して以下に説明する。理解を容易にするために、その中に本出願の実施例の様々な詳細が含まれ、それらは単なる例示と見なされるべきである。したがって、当業者は、本出願の範囲および精神から逸脱することなく、本明細書に記載の実施例に様々な変更および修正を加えることができることを認識すべきである。また、明確さおよび簡潔さのために、周知の機能および構成の説明は、以下の説明では省略される。
【0017】
本発明の実施例に係る音声制御方法、音声制御装置、電子デバイス、及び読み取り可能な記録媒体について、図面を参照して以下に説明する。
【0018】
図1は、本出願の実施例1に係る音声制御方法の概略フローチャートである。
本発明の実施例において、音声制御方法が音声制御装置で構成されることを例とし、当該音声制御装置は、任意の電子デバイスに適用されることにより、電子デバイスが音声制御機能を実行することができる。
【0019】
ここで、電子デバイスは、パーソナルコンピュータ(Personal Computer、PCと略称する)、クラウドデバイス、モバイルデバイス、スマートスピーカなどであってもよい。モバイルデバイスは、たとえば、携帯電話、タブレットコンピュータ、携帯情報端末、ウェアラブルデバイス、カーデバイスなどの、さまざまなオペレーティングシステム、タッチスクリーンおよび/またはディスプレイを搭載したハードウェアデバイスであってもよい。
【0020】
図1に示すように、当該音声制御方法は、以下のステップ101~ステップ105を含むことができる。
【0021】
ステップ101において、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第1動作状態を実行する。
【0022】
可能なシーンとして、ターゲットシーンはゲームシーンを含む。なお、ターゲットシーンは、子供のシーンなど他の可能なシーンであってもよく、これについて限定しない。
【0023】
本発明の実施例において、第1動作状態は非リスニング状態であってもよく、ターゲットシーンで、電子デバイスは、ユーザの音声によって入力されたウェイクワードに基づいて音声フラグメントを収集するように、当該非リスニング状態を実行する。
【0024】
本出願の実施例では、ウェイクワードは、電子デバイスの内蔵プログラムによって予め設定されてもよく、または、ユーザのパーソナライズニーズを満たすために、自分のニーズに応じてユーザによって設定されてもよく、本出願はこれについて限定しない。たとえば、電子デバイスがスマートスピーカである場合、ウェイクワードは「小度小度(ドちゃんドちゃん)」であってもよい。
【0025】
本出願の実施例では、ターゲットシーンで、電子デバイスが第1動作状態を実行するとき、電子デバイスは、ユーザがウェイクワードを入力したか否かを検出することができる。ユーザがウェイクワードを入力したと検出された場合、ユーザがウェイクワードに続いて入力したオーディオクリップを収集して、音声認識を行うことができる。たとえば、電子デバイスがスマートスピーカである場合、当該スマートスピーカが当該第1動作状態にあるとき、ユーザが歌を再生したい場合、ユーザは、「小度小度、歌Aを再生してください」または「小度小度、歌を聴きたい」を音声で入力することができる。そうすると、電子デバイスは、ウェイクワードに続く「歌Aを再生してください」または「歌を聴きたい」というオーディオクリップを認識することができる。
【0026】
本出願の実施例では、電子デバイスが第1動作状態にあるとき、音声制御装置は、監視モードで、ユーザによって入力されたウェイクワードを監視することができる。ユーザによって入力されたウェイクワードを監視した場合、ウェイクワードに続くオーディオクリップを認識することができる。ユーザによって入力されたウェイクワードを監視していない場合、ユーザによって入力されたウェイクワードを引き続き監視することができる。つまり、ユーザによって入力されたウェイクワードを監視していない場合、電子デバイスは、依然として第1動作状態、すなわち非リスニング状態にある。このとき、ユーザが音声で電子デバイスを制御したい場合は、対応するウェイクワードを音声で入力する必要もある。たとえば、ユーザが歌を再生したい場合、ユーザは、「小度小度、歌を聞きたい」と入力することができる。
【0027】
ステップ102において、オーディオクリップの音声認識によって取得された第1制御意図を取得する。
【0028】
本出願の実施例において、第1制御意図は、電子デバイスの内蔵プログラムによって予め設定されてもよく、または、当該方法の柔軟性および適用可能性を向上させるために、第1制御意図は、ユーザによって設定されてもよく、これについて限定しない。たとえば、ゲームシーンでは、第1制御意図は、エネルギの増加、装備の購入などであってもよい。
【0029】
本出願の実施例では、電子デバイスが第1動作状態にあり、電子デバイスが、ユーザによって入力されたウェイクワードを検出した後、ユーザによって入力されたウェイクワードに続くオーディオクリップを収集し、次にオーディオクリップの音声認識を行い、オーディオクリップの音声認識によって得られた第1制御意図を取得する。
【0030】
たとえば、ターゲットシーンがゲームシーンである場合、ゲームシーンでは、電子デバイスが第1動作状態を実行するとき、ユーザがゲーム装備を変更したい場合、ユーザがウェイクワード「小度小度」を音声で入力した後、ユーザは、「装備を変更したい」または「装備Aを変更してください」と音声で入力することができる。そうすると、電子デバイスは、ウェイクワードに続くオーディオクリップを認識して、「装備を変更したい」または「装備Aを変更してください」という第1制御意図を取得することができる。
【0031】
ステップ103において、第1制御意図にマッチングする制御命令を実行し、第1動作状態を第2動作状態に切り替える。
本出願の実施例において、第2動作状態は、リスニング状態であってもよい。電子デバイスが当該リスニング状態にあるとき、ユーザは、ウェイクワードを音声で入力する必要がなく、リアルタイムで音声命令を入力して、電子デバイスとインタラクションすることができる。
【0032】
なお、ゲームシーンでは、電子デバイスがリスニング状態にあるとき、電子デバイスの音声やビデオは、引き続き再生され、端末でのゲームプロセスは終了しないことを説明する必要がある。
【0033】
本出願の実施例では、電子デバイスがオーディオクリップの音声認識によって取得された第1制御意図を取得した場合、第1制御意図にマッチングする制御命令を実行する。この場合、ターゲットシーンでユーザが電子デバイスとリアルタイムのインタラクションまたは連続的なインタラクションを実行するニーズがあることを示す。
【0034】
たとえば、電子デバイスがスマートスピーカであり、ターゲットシーンがゲームシーンであり、第1制御意図がエネルギの補充であることを例とし、ユーザが「小度小度、私にエネルギを補充してください」と音声で入力した場合、スマートスピーカは、ユーザによって入力されたオーディオクリップを収集して認識した後、ウェイクワードに続くオーディオクリップの意図が「エネルギを補充」であると判定することができ、この場合、非リスリング状態からリスリング状態に切り替えるように電子デバイスの動作状態を制御するとともに、ユーザのゲームキャラクタにエネルギを補充し、エネルギの補充が終了した後、スマートスピーカは、「エネルギ補充終了」のような提示情報を音声で再生するか、インターフェイスに表示することができる。
【0035】
ステップ104において、第2動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームを認識する。
本出願の実施例において、電子デバイスが第2動作状態にあるとき、電子デバイスはオーディオを連続的に収集してオーディオストリームを取得して音声認識することができる。したがって、ユーザが電子デバイスとリアルタイムのインタラクションまたは連続的なインタラクションを実行するニーズがある場合、ウェイクワードを連続的に入力する必要はなく、電子デバイスが動作状態にあるとき、オーディオストリームを連続的に入力し、オーディオストリームの音声認識を行えば、ユーザの操作を簡素化し、ユーザ体験を向上させることができる。
【0036】
依然として上記の例を例とし、スマートスピーカがリスニング状態にあるとき、ユーザはウェイクワードを入力する必要がなく、スマートスピーカと連続的なインタラクションを行うことにより、電子デバイスは、「装備を変更」、「装備を購入」など、ユーザによって入力されたオーディオストリームを連続的に収集し、オーディオストリームの音声認識を行うことができる。
【0037】
ステップ105において、音声認識によってターゲットシーンにマッチングする第2制御意図が取得された場合、第2制御意図にマッチングする制御命令を実行する。
本出願の実施例において、第2制御意図は、電子デバイスの内蔵プログラムによって予め設定されてもよく、または、方法の柔軟性および適用可能性を向上させるために、第2制御意図はユーザによって設定されてもよく、これについて限定しない。上記の第1制御意図と区別するために、第2動作状態でオーディオストリームの音声認識によって取得された、ターゲットシーンに合致する制御意図を第2制御意図と名付ける。
【0038】
本出願の実施例において、電子デバイスが第2動作状態にあるとき、電子デバイスは、ユーザによって入力されたオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行う。1つの可能な場合、オーディオストリームの音声認識を行うことによって取得された制御意図が、ターゲットシーンに合致する第2制御意図である場合、第2制御意図にマッチングする制御命令を実行する。
【0039】
たとえば、ターゲットシーンがゲームシーンであることを例とし、電子デバイスが第2動作状態にあるとき、電子デバイスは、ユーザによって入力されたオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識によって取得された第2制御意図は「装備を購入」である。「装備を購入」という制御意図はゲームシーンに合致するため、電子デバイスは「装備を購入」にマッチングする制御命令を実行する。
【0040】
別の可能な場合では、電子デバイスがオーディオストリームの音声認識を行うことによって得られた制御意図が、ターゲットシーンに合致しない第2制御意図である場合、電子デバイスは何の動作も実行しない。
【0041】
たとえば、対象シーンをゲームシーンであることを例とし、電子デバイスが第2作動状態にあるとき、電子デバイスは、ユーザによって入力されたオーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行うことによって取得された第2制御意図は「今日の天気はどう」である。オーディオストリームの音声認識を行うことによって取得された第2制御意図はゲームシーンに合致しないため、この場合、電子デバイスは何の応答もしない。その結果、ゲームのプレイ中のユーザの没入感が向上し、ゲーム中の他のスキルによる干渉が回避される。
【0042】
なお、「第1」、「第2」の用語は単に説明するためのものであり、比較的な重要性を指示又は暗示するか、又は示された技術的特徴の数を黙示的に指示すると理解してはならない。したがって、「第1」、「第2」で限定された特徴は、少なくとも1つの前記特徴を含むことを明示又は暗示する。
【0043】
本発明の実施例に係る音声制御方法は、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第1動作状態を実行し、オーディオクリップの音声認識によって取得された第1制御意図を取得し、第1制御意図にマッチングする制御命令を実行し、第1動作状態を第2動作状態に切り替え、第2動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第2制御意図が取得された場合、第2制御意図にマッチングする制御命令を実行することにより、ユーザが電子デバイスと連続的にインタラクションする場合、ユーザによって連続的に入力されるオーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第2制御意図が取得された場合に限って、対応する制御命令を実行するので、ウェイクワードを連続的に入力する必要がないだけでなく、ユーザ操作が簡素化され、シーンの切り替えによるユーザ体験が悪くなるという技術的な問題が回避される。
【0044】
上記の実施例に基づいて、別の可能な場合では、電子デバイスが第2動作状態にあるとき、電子デバイスは、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行って情報ストリームを取得し、情報ストリームから各候補意図を取得し、各候補意図にはターゲットシーンの制御意図にマッチングする第2制御意図が含まれているか否かを判断し、第2制御意図が含まれていない場合、第2動作状態を終了し、ターゲットシーンの制御意図にマッチングしない意図候補への応答を拒否する。上記のプロセスについて実施例2と併せて詳細に説明する。
【0045】
図2は、本出願の実施例2に係る音声制御方法の概略フローチャートである。
図2に示すように、
図1に示す実施例に基づいて、当該音声制御方法はさらに以下のステップ201~ステップ204をさらに含むことができる。
【0046】
ステップ201において、オーディオストリームの音声認識によって得られた情報ストリームを取得する。
本出願の実施例では、ユーザが音声データを入力した後、電子デバイスは、オーディオストリームを収集し、オーディオストリームの音声認識を行って、対応する情報ストリームを決定することができる。
【0047】
ステップ202において、情報ストリームから各候補意図を取得する。
本出願の実施例において、情報ストリームが取得された後、当該情報ストリームに対してセマンティクス認識を行い、情報ストリームに対応する制御意図を決定することができ、情報ストリームに対応する制御意図から各候補意図をスクリーニングすることができる。
【0048】
ステップ203において、各候補意図から、ターゲットシーンの制御意図にマッチングする第2制御意図をスクリーニングする。
本出願の実施例では、情報ストリームから各候補意図が取得された後、各候補意図をスクリーニングして、ターゲットシーンの制御意図にマッチングする第2制御意図をスクリーニングする。
【0049】
たとえば、ターゲットシーンがゲームシーンである場合、情報ストリームから電子デバイスによって取得された各候補意図は、「歌を再生」、「装備を購入」を含み、候補意図をスクリーニングして、ゲームシーンの制御意図にマッチングする「装備を購入」という第2制御意図を得る。
【0050】
本出願の実施例では、情報ストリームから各候補意図が取得された後、候補意図をスクリーニングし、ターゲットシーンの制御意図にマッチングしない候補意図がスクリーニングされた場合、電子デバイスは、ターゲットシーンの制御意図にマッチングしない候補意図への応答を拒否する。これにより、ターゲットシーンでのユーザの没入感が確保される。
【0051】
依然として上記の例を例とし、ターゲットシーンがゲームシーンである場合、情報ストリームから電子デバイスによって取得された各意図候補は、「歌を再生」、「装備を購入」を含み、意図候補をスクリーニングして、ゲームシーンの制御意図にマッチングしない「歌を再生」という候補意図を得る。この場合、電子デバイスは、「歌を再生」という候補意図への応答を拒否することにより、ゲームのプレイ中にユーザが中断されてユーザの没入型のゲーム体験に影響を与えることが回避される。
【0052】
ステップ204において、所定期間内に第2制御意図が得られない場合、第2動作状態を終了し、所定期間の範囲は20秒~40秒である。
本発明の実施例において、所定期間は予め設定され、たとえば、電子デバイスの内蔵プログラムによって予め設定されるか、またはユーザによって設定されてもよく、これは限定されない。たとえば、所定期間の範囲は20秒~40秒である。
【0053】
本出願の実施例において、所定期間内にターゲットシーンの制御意図にマッチングする第2制御意図がスクリーニングされなかった場合、この時点では、ターゲットシーンでユーザが電子デバイスを連続的に制御する意図がないことを示す。したがって、第2動作状態を終了することができる。
【0054】
たとえば、所定期間が30秒であるとすると、電子デバイスがリスニング状態になったとき、ユーザが所定期間内に音声データを入力しなかった場合、または、電子デバイスが各候補意図からターゲットシーンの制御意図にマッチングする第2制御意図をスクリーニングしなかった場合、リスニング状態を終了することができる。
【0055】
本発明の実施例に係る音声制御方法は、情報ストリームを取得し、情報ストリームから各候補意図を取得し、各候補意図からターゲットシーンの制御意図にマッチングする第2制御意図をスクリーニングし、所定期間内に第2制御意図が取得されなかった場合、第2動作状態を終了する。これにより、ターゲットシーンの制御意図にマッチングする第2制御意図が所定期間内に候補意図からスクリーニングされなかった場合、第2動作状態を終了するように電子デバイスを制御することで、電子デバイスが常にリスニング状態または動作状態にあることを回避し、電子デバイスのエネルギ消費を削減することができる。
【0056】
本発明の実施例において、ターゲットシーンで、オーディオクリップの音声認識によって取得された第1制御意図が取得された後、まず、第1制御意図がターゲットシーンにマッチングすることを決定し、次に第1制御意図にマッチングする制御命令を実行し、第1動作状態を第2動作状態に切り替えた後、インターフェイスにおける第1要素を第2要素に置き換え、第3要素を表示する。上記のプロセスを実施例3と併せて以下に詳細に説明する。
【0057】
図3は、本出願の実施例3に係る音声制御方法の概略フローチャートである。
図3に示すように、当該音声制御方法は、以下のステップ301~ステップ305をさらに含むことができる。
【0058】
ステップ301において、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第1動作状態を実行する。
ステップ302において、オーディオクリップの音声認識によって取得された第1制御意図を取得する。
【0059】
本出願の実施例において、ステップ301および302の実行プロセスについては、実施例1におけるステップ101およびステップ102を参照し、ここでは詳細な説明を省略する。
【0060】
ステップ303において、第1制御意図がターゲットシーンにマッチングすることを決定する。
【0061】
本出願の実施例において、ターゲットシーンで、電子デバイスが第1動作状態にあるとき、ユーザによって音声で入力されたウェイクワードに基づいてオーディオクリップを収集する。さらに、電子デバイスは、オーディオクリップの音声認識によって取得された第1制御意図を取得した後、第1制御意図がターゲットシーンにマッチングするか否かを判定する。制御意図がターゲットシーンにマッチングする場合に、ステップ304を実行する。制御意図がターゲットシーンにマッチングしない場合、電子デバイスは、当該第1制御意図への応答を拒否し、第1動作状態を実行し続ける。
【0062】
たとえば、ターゲットシーンがゲームシーンであるとすると、電子デバイスは、非リスニング状態で、ユーザがウェイクワードを音声で入力した後にオーディオクリップを収集し、オーディオクリップの音声認識を行って、「装備を購入」という第1制御意図を取得する。「装備を購入」の制御意図はゲームシーンにマッチングするため、電子デバイスは、「装備を購入」にマッチングする制御命令を実行し続ける。
【0063】
ステップ304において、第1制御意図にマッチングする制御命令を実行し、第1動作状態を第2動作状態に切り替える。
本出願の実施例において、ステップ304の実行プロセスについては、上記の実施例1のステップ103を参照し、ここでは説明を省略する。
【0064】
ステップ305において、第2動作状態では、インターフェイスにおける第1要素を第2要素に置き換え、第3要素を表示する。
【0065】
本出願の実施例の可能な実施形態として、電子デバイスが第2動作状態にあるとき、電子デバイスの表示インターフェイスにおける第1要素を第2要素に置き換え、第3要素を表示することができる。ここで、第1要素は、電子デバイスが第1動作状態にあることを提示するためのものであり、第2要素は、電子デバイスが第2動作状態にあることを提示するためのものであり、第3要素は、ウェイクワードを提示するおよび/またはオーディオまたはビデオを再生するためのものである。
【0066】
1つの適用シーンとして、ターゲットシーンがゲームシーンであることを例とし、電子デバイスが第2動作状態にあるとき、すなわち、電子デバイスがリスニング状態にあるとき、ユーザが電子デバイスの現在の状態情報をわかりやすくするために、電子デバイスのインターフェイスにおける第1要素を第2要素に置き換えることができる。電子デバイスが所定期間内に第2制御状態を得ていないため、電子デバイスは第2動作状態を終了する。この場合、ユーザはウェイクワードを再入力する必要がある。したがって、第3要素を表示してウェイクワードを提示する必要がある。
【0067】
ステップ306において、第2動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームを認識する。
ステップ307において、音声認識によってターゲットシーンに合致する第2制御意図が取得された場合、第2制御意図にマッチングする制御命令を実行する。
【0068】
本出願の実施例において、ステップ306およびステップ307の実行プロセスについては、実施例1におけるステップ104および105を参照し、ここでは、説明を省略する。
【0069】
本出願の実施例において、電子デバイスが第2動作状態にあるとき、インターフェイスにおける第1要素を第2要素に置き換え、第3要素を表示することにより、ユーザは電子デバイスの現在の動作状態をさらに了解し、ユーザの使用体験を向上させることができる。
【0070】
上記の実施例を実現するために、本出願は、音声制御装置をさらに提供する。
図4は、本発明の実施例4に係る音声制御装置の概略構成図である。
【0071】
図4に示すように、当該音声制御装置400は、実行モジュール410、第1取得モジュール420、切り替えモジュール430、認識モジュール440、および制御モジュール450を含む。
【0072】
実行モジュール410は、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第1動作状態を実行するように構成される。
第1取得モジュール420は、オーディオクリップの音声認識によって取得された第1制御意図を取得するように構成される。
【0073】
切り替えモジュール430は、第1制御意図にマッチングする制御命令を実行し、第1動作状態を第2動作状態に切り替えるように構成される。
認識モジュール440は、第2動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行うように構成される。
制御モジュール450は、音声認識によってターゲットシーンにマッチングする第2制御意図が取得された場合、第2制御意図にマッチングする制御命令を実行するように構成される。
【0074】
さらに、本出願の実施例の可能な一実施形態において、当該音声制御装置400は、オーディオストリームの音声認識によって得られた情報ストリームを取得するように構成される第2取得モジュールと、情報ストリームから各候補意図を取得するように構成される第3取得モジュールと、各候補意図からターゲットシーンの制御意図にマッチングする第2制御意図をスクリーニングするように構成されるスクリーニングモジュールと、所定期間内に第2制御意図が取得されなかった場合、第2動作状態を終了するように構成される終了モジュールと、をさらに含むことができる。所定期間の範囲は20秒~40秒である。
【0075】
本出願の実施例の別の可能な実施形態では、当該音声制御装置400は、前記ターゲットシーンの制御意図にマッチングしない候補意図への応答を拒否するように構成される応答拒否モジュールをさらに含むことができる。
【0076】
本出願の実施例の別の可能な実施形態では、当該音声制御装置400は、インターフェイスにおける第1要素を第2要素に置き換え、第3要素を表示するように構成される切り替えモジュールをさらに含み、前記第1要素は、第1動作状態にあることを提示するためのものであり、前記第2要素は、第2動作状態にあることを提示するためのものであり、前記第3要素は、前記ウェイクワードを提示するおよび/またはオーディオまたはビデオを再生するためのものである。
【0077】
本出願の実施例の別の可能な実施形態では、当該音声制御装置400は、第1制御意図がターゲットシーンにマッチングすることを決定するように構成される決定モジュールをさらに含むことができる。
【0078】
本出願の実施例の別の可能な実施形態では、前記ターゲットシーンはゲームシーンを含む。
【0079】
なお、音声制御方法の実施例の前述の説明は、この実施例の音声制御装置にも適用可能であり、ここでは説明を省略する。
【0080】
本発明の実施例に係る音声制御装置は、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第1動作状態を実行し、オーディオクリップの音声認識によって取得された第1制御意図を取得し、第1制御意図にマッチングする制御命令を実行し、第1動作状態を第2動作状態に切り替え、第2動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第2制御意図が取得された場合、第2制御意図にマッチングする制御命令を実行する。これにより、ユーザが電子デバイスと連続的にインタラクションする場合、ユーザによって連続的に入力されたオーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第2制御意図が取得された場合に限って、対応する制御命令を実行するので、ウェイクワードを連続的に入力する必要がないだけでなく、ユーザ操作が簡素化され、シーンの切り替えに起因してユーザ体験が悪くなるという技術的な問題が回避される。
【0081】
上記の実施例を実現するために、本出願は、電子デバイスをさらに提供し、前記電子デバイスは、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、メモリに少なくとも1つのプロセッサによって実行可能な命令が記憶され、命令が少なくとも1つのプロセッサによって実行されることにより、少なくとも1つのプロセッサは、本出願の前述の実施例に係る音声制御方法を実行する。
【0082】
上記の実施例を実現するために、本出願は、コンピュータ命令の非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、コンピュータ命令は、本出願の前述の実施例に係る音声制御方法をコンピュータに実行させるためのものである。
【0083】
本出願の実施例によれば、本出願は、電子デバイスおよび読み取り可能な記憶媒体をさらに提供する。
【0084】
図5は、本発明の一実施例に係る音声制御方法の電子デバイスのブロック図を示している。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークベンチ、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、さまざまな形式のデジタルコンピュータを含んでもよい。電子デバイスは、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、その他の同様のコンピューティングデバイスなど、さまざまな形態のモバイルデバイスを含んでもよい。
本明細書で示されるコンポーネント、それらの接続および関係、およびそれらの機能は単なる例であり、本明細書で説明および/または必要とされる本出願の実現を限定することを意図するものではない。
【0085】
図5に示すように、当該電子デバイスは、1つまたは複数のプロセッサ501、メモリ502、および高速インターフェイスおよび低速インターフェイスを含む様々なコンポーネントを接続するためのインターフェイスを含む。さまざまなコンポーネントは、異なるバスを使用して相互接続され、共通のマザーボードに取り付けられるか、必要に応じて取り付けられてもよい。プロセッサは、外部入力/出力デバイス(たとえば、インターフェイスに結合されたディスプレイデバイス)にGUIのグラフィカル情報を表示するためにメモリに記憶された命令を含む、電子デバイス内で実行される命令を処理することができる。他の実施例では、必要に応じて、複数のプロセッサおよび/または複数のバスを複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続し、それぞれの電子デバイスが必要な操作(たとえば、サーバアレイ、1グループのブレードサーバ、マルチプロセッサシステム)の一部を提供することができる。
図5では、1つのプロセッサ501を例に挙げている。
【0086】
メモリ502は、本出願によって提供される非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶し、その結果、前記少なくとも1つのプロセッサは、本出願に係る音声制御方法を実行する。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、本出願によって提供される音声制御方法をコンピュータに実行させるためのコンピュータ命令を記憶する。
【0087】
メモリ502は、非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム、および本出願の実施例の音声制御方法に対応するプログラム命令/モジュール(たとえば、
図4に示される実行モジュール410、第1取得モジュール420、切り替えモジュール430、認識モジュール440、および制御モジュール450)を記憶することができる。プロセッサ501は、メモリ502に記憶された非一時的なソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの様々な機能的アプリケーションおよびデータ処理を実行し、すなわち、前述の方法の実施例における音声制御方法を実現する。
【0088】
メモリ502は、ストレージプログラム領域およびストレージデータ領域を含むことができ、ストレージプログラム領域は、少なくとも1つの機能に必要なオペレーティングシステムおよびアプリケーションプログラムを記憶することができる。ストレージデータ領域は、電子デバイスの使用に基づいて作成されたデータを記憶することができる。また、メモリ502は、高速ランダムアクセスメモリを含むことができるし、少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一時的な固体記憶装置などの非一時的なメモリも含むことができる。いくつかの実施例では、メモリ502は、プロセッサ501に対して遠隔に配置されたメモリを選択可能に含むことができ、これらの遠隔メモリは、ネットワークを介して電子デバイスに接続され得る。上記のネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせを含むが、これらに限定されない。
【0089】
電子デバイスは、入力装置503および出力装置504をさらに含むことができる。プロセッサ501、メモリ502、入力装置503、および出力装置504は、バスまたは他の方式を介して接続することができ、
図5では、バスを介した接続を例に挙げている。
【0090】
入力装置503は、入力された数字または文字情報を受信し、電子デバイスのユーザ設定および機能制御に関するキー信号入力を生成することができ、たとえば、タッチスクリーン、キーパッド、マウス、トラックパネル、タッチパネル、ポインティングスティック、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力デバイスや電子デバイスである。出力装置504は、表示装置、補助照明装置(たとえば、LED)、触覚フィードバック装置(たとえば、振動モータ)などを含んでもよい。当該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施例では、表示装置はタッチスクリーンであってもよい。
【0091】
本明細書で説明されるシステムおよび技術の様々な実施形態は、デジタル電子回路、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現され得る。これらの様々な実施例は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムで実装されてもよく、当プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置に送信することができる専用または汎用のプログラマブルプロセッサであってもよい。
【0092】
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも言える)は、プログラマブルプロセッサの機械命令を含み、さらに高レベルの手続き型および/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械言語を用いてこれらのンピューティングプログラムを実施することができる。本明細書で使用される「機械読み取り可能な媒体」および「コンピュータ読み取り可能な媒体」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および/または装置(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号としての機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための信号を指す。
【0093】
ユーザとのインタラクションを提供するために、本明細書に記載のシステムおよび技術は、ユーザに情報を表示するための表示装置(たとえば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニター)と、キーボードおよびポインティング装置(たとえば、マウスまたはトラックボール)とを有するコンピュータで実施されてもよく、ユーザは当該キーボードおよび当該ポインティング装置を介してコンピュータに入力を提供できる。他の種類の装置を使用してユーザとのインタラクションを提供することもできる。たとえば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形式(たとえば、音響入力、音声入力、または触覚入力)を用いてユーザからの入力を受信することができる。
【0094】
本明細書に記載のシステムおよび技術の各実施形態は、バックエンドコンポーネントを含むコンピューティングシステム(たとえば、データサーバとして)、またはミドルコンポーネントを含むコンピューティングシステム(たとえば、アプリケーションサーバ)、またはフロントエンドコンポーネントを含むコンピューティングシステム(たとえば、グラフィカルユーザインターフェイスまたはWebブラウザを備えたユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェイスまたは当該Webブラウザを介して、ここで説明されるシステムおよび技術の実施形態とインタラクションできる)、またはこのようなバックエンドコンポーネント、ミドルコンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。デジタルデータ通信の任意の形式または媒体(たとえば、通信ネットワーク)によってシステムのコンポーネントを相互接続してもよい。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、およびインターネットを含む。
【0095】
コンピュータシステムは、クライアントとサーバとを含むことができる。通常、クライアントとサーバとは互いにリモートであり、通常は通信ネットワークを介してインタラクションする。それぞれのコンピュータで実行され、互いにクライアントとサーバとの関係を持つコンピュータプログラムによってクライアントとサーバとの関係を生成する。
【0096】
本出願の実施例の技術的解決策によれば、ターゲットシーンで、ウェイクワードに基づいてオーディオクリップを収集するように第1動作状態を実行し、オーディオクリップの音声認識によって取得された第1制御意図を取得し、第1制御意図にマッチングする制御命令を実行し、第1動作状態を第2動作状態に切り替え、第2動作状態では、オーディオを連続的に収集してオーディオストリームを取得し、オーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第2制御意図が取得された場合、第2制御意図にマッチングする制御命令を実行する。これにより、ユーザが電子デバイスと連続的にインタラクションする場合、ユーザによって連続的に入力されたオーディオストリームの音声認識を行い、音声認識によってターゲットシーンに合致する第2制御意図が取得された場合に限って、対応する制御命令を実行するので、ウェイクワードを連続的に入力する必要がないだけでなく、ユーザ操作が簡素化され、シーンの切り替えに起因してユーザ体験が悪くなるという技術的な問題が回避される。
【0097】
なお、上記のさまざまな形態のプロセスを使用して、ステップを並べ替え、追加、または削除できることを理解されたい。たとえば、本出願で説明されている各ステップは、並列、順次、または異なる順序で実行できる。本出願で開示された技術的解決策の望ましい結果が達成できれば、本明細書は、ここで限定しない。
【0098】
前述した具体的な実施形態は、本出願の保護範囲を制限しない。設計要件および他の要因に応じて、さまざまな修正、組み合わせ、サブ組み合わせ、および置き換えを行うことができることを当業者は理解するべきである。本出願の思想および原則の範囲内で行われた修正、同等の置き換え、および改善は、いずれも本出願の保護範囲に含まれるものとする。