IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッドの特許一覧 ▶ シャンハイ シャオドゥ テクノロジー カンパニー リミテッドの特許一覧

特許7051798音声認識制御方法、装置、電子デバイスと読み取り可能な記憶媒体
<>
  • 特許-音声認識制御方法、装置、電子デバイスと読み取り可能な記憶媒体 図1
  • 特許-音声認識制御方法、装置、電子デバイスと読み取り可能な記憶媒体 図2
  • 特許-音声認識制御方法、装置、電子デバイスと読み取り可能な記憶媒体 図3
  • 特許-音声認識制御方法、装置、電子デバイスと読み取り可能な記憶媒体 図4
  • 特許-音声認識制御方法、装置、電子デバイスと読み取り可能な記憶媒体 図5
  • 特許-音声認識制御方法、装置、電子デバイスと読み取り可能な記憶媒体 図6
  • 特許-音声認識制御方法、装置、電子デバイスと読み取り可能な記憶媒体 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-01
(45)【発行日】2022-04-11
(54)【発明の名称】音声認識制御方法、装置、電子デバイスと読み取り可能な記憶媒体
(51)【国際特許分類】
   G10L 15/28 20130101AFI20220404BHJP
   G10L 15/10 20060101ALI20220404BHJP
【FI】
G10L15/28 230J
G10L15/10 200W
G10L15/28 230K
【請求項の数】 10
(21)【出願番号】P 2019237717
(22)【出願日】2019-12-27
(65)【公開番号】P2021047391
(43)【公開日】2021-03-25
【審査請求日】2019-12-27
(31)【優先権主張番号】201910888231.3
(32)【優先日】2019-09-19
(33)【優先権主張国・地域又は機関】CN
【前置審査】
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(73)【特許権者】
【識別番号】521235408
【氏名又は名称】シャンハイ シャオドゥ テクノロジー カンパニー リミテッド
(74)【代理人】
【識別番号】100118913
【弁理士】
【氏名又は名称】上田 邦生
(72)【発明者】
【氏名】ルォ, ヨンシー
(72)【発明者】
【氏名】ワン, シャシャ
【審査官】菊池 智紀
(56)【参考文献】
【文献】米国特許出願公開第2017/0169817(US,A1)
【文献】国際公開第2019/022797(WO,A1)
【文献】国際公開第2018/135753(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
第1動作状態で、設定された制御意図を有する目標操作を検出するステップであって、第1動作状態は非リスニング状態であり、電子デバイスが非リスニング状態にある時、ユーザは当該電子デバイスをウェイクして後続の音声認識を行うように、ウェイクワードを音声で入力するステップと、
前記目標操作が検出された場合に、前記目標操作に対応する制御命令を実行し、前記第1動作状態を第2動作状態に切り替えるステップであって、第2動作状態はリスニング状態であり、電子デバイスが当該リスニング状態にある場合に、ユーザは音声でウェイクワードを入力する必要がなく、リアルタイムで音声命令を入力することにより、電子デバイスとインタラクションするステップと、
前記第2動作状態で、オーディオストリームに対して音声認識を行うようにオーディオを連続的に収集してオーディオストリームを取得するステップと、
を含み、
前記設定された制御意図を有する目標操作を検出するステップは、
タッチ操作を検出するステップと、
前記タッチ操作がオーディオまたはビデオを再生する操作である場合に、前記タッチ操作が前記設定された制御意図を有する目標操作であると決定するステップと、
を含む音声認識制御方法。
【請求項2】
前記設定された制御意図を有する目標操作を検出するステップは、
ウェイクワードが取得された場合に、ウェイクワードに続くオーディオクリップを収集するステップと、
前記オーディオクリップの意図を取得するステップと、
前記オーディオクリップが前記設定された制御意図を有する場合に、前記目標操作が検出されたと決定するステップと、を含む請求項1に記載の音声認識制御方法。
【請求項3】
前記第1動作状態を第2動作状態に切り替えるステップの後に、
前記第2動作状態で、インタフェースにおける第1要素を第2要素に切り替え、第3要素を隠蔽するステップをさらに含み、
前記第1要素は前記第1動作状態にあることを提示するものであり、前記第2要素は前記第2動作状態にあることを提示するものであり、前記第3要素は前記ウェイクワードを提示するものである請求項2に記載の音声認識制御方法。
【請求項4】
前記第2動作状態で、オーディオストリームに対して音声認識を行うようにオーディオを連続的に収集してオーディオストリームを取得するステップの後に、
情報ストリームを取得するステップであって、前記情報ストリームは、前記オーディオストリームを音声認識することにより取得されたものであるステップと、
前記情報ストリームから制御意図を有する目標情報をフィルタリングするステップと、
閾値期間内に、前記目標情報がフィルタリングされなかった場合に、前記第2動作状態を終了するステップと、をさらに含む請求項1からのいずれかに記載の音声認識制御方法。
【請求項5】
第1動作状態で、設定された制御意図を有する目標操作を検出するための検出モジュールであって、第1動作状態は非リスニング状態であり、電子デバイスが非リスニング状態にある時、ユーザは当該電子デバイスをウェイクして後続の音声認識を行うように、ウェイクワードを音声で入力する検出モジュールと、
前記目標操作が検出された場合に、前記目標操作に対応する制御命令を実行し、前記第1動作状態を第2動作状態に切り替えるための実行モジュールであって、第2動作状態はリスニング状態であり、電子デバイスが当該リスニング状態にある場合に、ユーザは音声でウェイクワードを入力する必要がなく、リアルタイムで音声命令を入力することにより、電子デバイスとインタラクションする実行モジュールと、
前記第2動作状態で、オーディオストリームに対して音声認識を行うようにオーディオを連続的に収集してオーディオストリームを取得するための収集モジュールと、
を含み、
前記検出モジュールは、具体的に、
タッチ操作を検出し、
前記タッチ操作がオーディオまたはビデオを再生する操作である場合に、前記タッチ操作が前記設定された制御意図を有する目標操作であると決定する音声認識制御装置。
【請求項6】
前記検出モジュールは、具体的に、
ウェイクワードが取得された場合に、ウェイクワードに続くオーディオクリップを収集し、
前記オーディオクリップの意図を取得し、
前記オーディオクリップが前記設定された制御意図を有する場合に、前記目標操作が検出されたと決定する請求項に記載の音声認識制御装置。
【請求項7】
前記装置は、
前記第2動作状態で、インタフェースにおける第1要素を第2要素に切り替え、第3要素を隠蔽するための処理モジュールをさらに含み、
前記第1要素は前記第1動作状態にあることを提示するものであり、前記第2要素は前記第2動作状態にあることを提示するものであり、前記第3要素は前記ウェイクワードを提示するものである請求項に記載の音声認識制御装置。
【請求項8】
前記装置は、
情報ストリームを取得するための取得モジュールであって、前記情報ストリームは前記オーディオストリームを音声認識することにより取得されたものである取得モジュールと、
前記情報ストリームから制御意図を有する目標情報をフィルタリングするためのフィルタリングモジュールと、
閾値期間内に、前記目標情報がフィルタリングされなかった場合に、前記第2動作状態を終了するための終了モジュールと、をさらに含む請求項からのいずれかに記載の音声認識制御装置。
【請求項9】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続するメモリと、を含み、
前記メモリに前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサが請求項1からのいずれかに記載の音声認識制御方法を実行する電子デバイス。
【請求項10】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項1からのいずれかに記載の音声認識制御方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。

【発明の詳細な説明】
【技術分野】
【0001】
本願は、音声認識と人工知能技術分野に関し、特に、音声認識制御方法、装置、電子デバイスおよび読み取り可能な記憶媒体に関する。
【背景技術】
【0002】
人工知能技術及び端末技術の持続的な発展に伴って、人工知能製品、例えばスマートスピーカなどの電子デバイスが絶えず普及し、ユーザは対応する制御命令を実行するように、音声で電子デバイスを制御することができる。ユーザが電子デバイスと音声インタラクションを行う時、ユーザは対応するウェイクワードを入力する必要がある。この方式では,ユーザが電子デバイスと連続的にインタラクションを行う場合,ユーザはウェイクワードを繰り返し入力する必要があり、操作が非常に不便である。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本願は、関連技術における技術的課題の1つを少なくともある程度解決することを目的とする。
【0004】
本願は、ユーザが設定された制御意図を有する目標操作をトリガーするだけで認識デバイス、すなわち電子デバイスと連続的にインタラクションでき、ウェイクワードを連続的に入力する必要がなく、ユーザの使用感を改善する音声認識制御方法、装置、電子デバイスおよび読み取り可能な記憶媒体を提供する。
【0005】
本願の第1態様の実施例は、第1動作状態で、設定された制御意図を有する目標操作を検出するステップであって、前記第1動作状態で、音声認識を行うようにウェイクワードに基づいてオーディオクリップを収集するステップと、前記目標操作が検出された場合に、前記目標操作に対応する制御命令を実行し、前記第1動作状態を第2動作状態に切り替えるステップと、前記第2動作状態で、音声認識を行うようにオーディオを連続的に収集してオーディオストリームを取得するステップと、を含む音声認識制御方法を提供している。
【0006】
本願の第2態様において、第1動作状態で、設定された制御意図を有する目標操作を検出するための検出モジュールであって、前記第1動作状態で、音声認識を行うようにウェイクワードに基づいてオーディオクリップを収集する検出モジュールと、前記目標操作が検出された場合に、前記目標操作に対応する制御命令を実行し、前記第1動作状態を第2動作状態に切り替えるための実行モジュールと、前記第2動作状態で、音声認識を行うようにオーディオを連続的に収集してオーディオストリームを取得するための収集モジュールと、を含む音声認識制御装置を提供している。
【0007】
本願の第3態様において、電子デバイスを提供し、前記電子デバイスは、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続するメモリと、を含み、前記メモリに前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサが本願の第1態様の実施例に係る音声認識制御方法を実行する命令ことを含む電子デバイスを提供している。
【0008】
本願の第4態様の実施例は、コンピュータ命令の非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに本願の第1態様の実施例に係る音声認識制御方法を実行させる。
【0009】
本出願の1つの実施例は、以下の利点または有益な効果を有する。
第1動作状態で、設定された制御意図を有する目標操作を検出することにより、第1動作状態で、音声認識を行うようにウェイクワードに基づいてオーディオクリップを収集し、目標操作が検出された場合に、目標操作に対応する制御命令を実行し、第1動作状態を第2動作状態に切り替え、第2動作状態で、音声認識を行うようにオーディオを連続的に収集してオーディオストリームを取得する。これにより、ユーザが設定された制御意図を有する目標操作をトリガーするだけで、電子デバイスと連続的にインタラクションでき、ウェイクワードを連続的に入力する必要がなく、ユーザの操作を簡素化し、ユーザの使用感を改善する。
【0010】
上述の選択可能な態様が有する他の効果については、具体的な実施例と併せて以下に説明する。
【図面の簡単な説明】
【0011】
図面は、本願の構成をより良く理解するためのものであり、本願を限定するものではない。本願の上述及び/または付加の態様と利点は、図面と併せて実施例の以下の説明により明らかになり、理解されやすくなる。
図1】本願実施例1に係る音声認識制御方法の概略フローチャートである。
図2】本願実施例2に係る音声認識制御方法の概略フローチャートである。
図3】本願実施例3に係る音声認識制御方法の概略フローチャートである。
図4】本願実施例4に係る音声認識制御方法の概略フローチャートである。
図5】本願実施例5に係る音声認識制御装置の構成概略図である。
図6】本願実施例6に係る音声認識制御装置の構成概略図である。
図7】本願実施例7に係る電子デバイスの構成概略図である。
【発明を実施するための形態】
【0012】
本願の例示的な実施例について、図面を参照して以下に説明する。理解を容易にするために、その中に本願の実施例の様々な詳細が含まれるが、それらは単なる例示と見なされるべきである。したがって、当業者は、本願の範囲および精神から逸脱する必要がなく、本明細書に記載の実施例に様々な変更および修正を加えることができることを認識すべきである。また、明確さおよび簡潔さのために、周知の機能および構成の説明は、以下の説明では省略される。
【0013】
本願実施例の音声認識制御方法、装置、電子デバイスおよび読み取り可能な記憶媒体について、図面を参照して以下に説明する。
【0014】
図1は、本願実施例1に係る音声認識制御方法の概略フローチャートである。
【0015】
本願の実施例において、音声認識制御装置に配置された音声認識制御方法を例として説明し、音声制御方法が音声制御装置で構成されることを例とし、当該音声制御装置は、任意の電子デバイスに適用されることにより、電子デバイスが音声制御機能を実行することができる。
【0016】
電子デバイスはパソコン(Personal Computer、PCと略称する)、クラウドデバイス、モバイルデバイス、スマートスピーカなどであってもよく、モバイルデバイスは例えば携帯電話、タブレット、個人デジタルアシスタント、ウェアラブルデバイス、車載デバイスなど、様々な操作システム、タッチスクリーン、及び/またはディスプレイを搭載したハードウェア装置であってもよい。
【0017】
図1に示すように、当該音声認識制御方法は、以下のステップ101~ステップ104を含むことができる。
【0018】
ステップ101において、第1動作状態で、設定された制御意図を有する目標操作を検出することであって、第1動作状態で、音声認識を行うようにウェイクワードに基づいてオーディオクリップを収集する。
【0019】
本願の実施例において、第1動作状態は非リスニング状態であってもよい。電子デバイスが非リスニング状態にある時、ユーザは当該電子デバイスをウェイクして後続の音声認識を行うように、ウェイクワードを音声で入力してもよい。
【0020】
本願の実施例において、ウェイクワードは、電子デバイスの内蔵プログラムに予め設定されたものや、ユーザのパーソナライズニーズを満たすためにユーザのニーズに応じて設定したものでもよいが、これらに限定されない。例えば、電子デバイスがスマートスピーカである場合に、ウェイクワードは「小度小度(ドちゃんドちゃん)」であってもよい。
【0021】
本願の実施例において、設定された制御意図は、電子デバイスの内蔵プログラムに予め設定されたものや、当該方法の柔軟性と適用性とを高めるためユーザによって設定されたものでもよいが、これらに限定されない。例えば、当該設定された制御意図は、ビデオ再生、天気の検索などであってもよい。
【0022】
本願の実施例において、電子デバイスが第1動作状態で、電子デバイスはユーザがウェイクワードを入力したか否かを検出することができ、入力した場合に、音声認識を行うように、ユーザがウェイクワードに続くオーディオクリップを収集してもよい。例えば、電子デバイスがスマートスピーカである場合に、当該スマートスピーカが第1動作状態で、ユーザが音楽を再生したい時、ユーザは音声で「小度小度(ドちゃんドちゃん)、音楽Aを再生して」或いは「小度小度(ドちゃんドちゃん)、音楽を聴きたい」ことを入力することができる。ひいては、電子デバイスは対応する音楽を再生する。
【0023】
本願の実施例において、電子デバイスが第1動作状態で、音声認識制御装置はモニタリングの方式で、ユーザが設定された制御意図を有する目標操作をトリガーしたか否かをモニタリングし、ユーザが設定された制御意図を有する目標操作をトリガーしたことをモニタリングした場合に、ステップ102を実行することができ、ユーザが設定された制御意図を有する目標操作をトリガーしたとモニタリングされなかった場合に、続いて目標操作に対してモニタリングを行うことができ、或いは、ユーザが入力したウェイクワードをモニタリングして、ユーザがウェイクワードを入力したとモニタリングされた場合に、ウェイクワードに続くオーディオクリップを認識することができる。すなわち、ユーザが設定された制御意図を有する目標操作をトリガーしたとモニタリングされなかった場合に、電子デバイスは依然として第1動作状態にあり、すなわち非リスニング状態にあり、この時、ユーザが音声で電子デバイスを制御したい場合に、音声で対応するウェイクワードを入力する必要があり、例えば、ユーザが音楽を再生したいと、ユーザは「小度小度(ドちゃんドちゃん)、音楽を聴きたい」と入力すればよい。
【0024】
ステップ102において、目標操作が検出された場合に、目標操作に対応する制御命令を実行し、第1動作状態を第2動作状態に切り替える。
【0025】
本願の実施例において、第2動作状態はリスニング状態であってもよく、電子デバイスが当該リスニング状態にある場合に、ユーザは音声でウェイクワードを入力する必要がなく、リアルタイムで音声命令を入力することにより、電子デバイスとインタラクションすることができる。
【0026】
本願の実施例において、音声認識制御装置は、目標操作が検出された場合に、ユーザが電子デバイスとリアルタイムでインタラクション或いは連続的にインタラクションを行うニーズを有すると示し、この時、第1動作状態を第2動作状態に切り替え、目標操作に対応する制御命令を実行する。
【0027】
例えば、電子デバイスはスマートスピーカであり、設定された制御意図は天気の検索であることを例示し、ユーザが音声で「小度小度(ドちゃんドちゃん)、今日の天気はいかが」と入力した時、スマートスピーカはユーザの入力した音声データを収集してそれを認識した後、ウェイクワードに続くオーディオクリップの意図を「天気の検索」と決定することができ、ユーザが設定された制御意図を有する目標操作をトリガーしたと決定でき、この時、非リスニング状態からリスニング状態に切り替えるように電子デバイスの動作状態を制御することができ、同時に当日の天気を検索し、ユーザに当日の天気情報を放送して、及び/または、インタフェースに当日の天気情報を示す。
【0028】
ステップ103において、第2動作状態で、音声認識を行うように、オーディオを連続的に収集してオーディオストリームを取得する。
【0029】
本願の実施例において、電子デバイスが第2動作状態にある場合に、電子デバイスは音声認識を行うように、オーディオを連続的に収集してオーディオストリームを取得することができる。よって、ユーザが電子デバイスとリアルタイムでインタラクション或いは連続的にインタラクションを行うニーズを有する場合に、連続的にウェイクワードを入力する必要がなく、設定された制御意図を有する目標操作をトリガーするだけで、電子デバイスとの連続的なインタラクションを実現することができ、ユーザの操作を簡素化し、ユーザの使用感を改善する。
【0030】
また、依然として上述例を例示とし、スマートスピーカがリスニング状態にある場合に、ユーザはウェイクワードを入力する必要がなく、スマートスピーカと連続的に会話することができ、例えば、「明日の天気は?」、「音楽を再生しよう」など、人と機械との対話がもっと自然かつリアルで、ユーザの没入感を向上させる。
【0031】
なお、「第1」、「第2」の用語は単に説明するためのものであり、比較的な重要性を指示又は暗示したり、又は示された技術的特徴の数を黙示的に指示したりするものと理解してはならない。したがって、「第1」、「第2」が限定された特徴は、少なくとも1つの前記特徴を含むことを明示又は暗示する。
【0032】
本願の実施例の音声認識制御方法は、第1動作状態で、設定された制御意図を有する目標操作を検出することにより、第1動作状態で、ウェイクワードに基づいて音声認識を行うようにオーディオクリップを収集し、目標操作が検出された場合に、目標操作に対応する制御命令を実行し、第1動作状態を第2動作状態に切り替え、第2動作状態で、音声認識を行うように連続的にオーディオを収集してオーディオストリームを取得する。よって、ユーザは設定された制御意図を有する目標操作をトリガーするだけで、電子デバイスとの連続的なインタラクションを実現することができ、連続的にウェイクワードを入力する必要がなく、ユーザの操作を簡素化し、ユーザの使用感を改善する。
【0033】
ある可能な実現方式として、電子デバイスが第1動作状態にある場合に、ユーザは音声入力の方式により、目標操作をトリガーすることができる。以下に、実施例2と併せて、上述過程について詳細に説明する。
【0034】
図2は、本願実施例2に係る音声認識制御方法の概略フローチャートである。
【0035】
図2に示すように、当該音声認識制御方法は、ステップ201~205を含むことができる。
【0036】
ステップ201において、第1動作状態で、ウェイクワードが取得された場合に、ウェイクワードに続くオーディオクリップを収集する。
【0037】
本願の実施例において、電子デバイスが第1動作状態にある場合に、電子デバイスはユーザがウェイクワードを入力したか否かを検出することができ、検出された場合に、音声認識を行うように、ユーザがウェイクワードの後に入力したオーディオクリップを収集してもよい。
【0038】
ステップ202において、オーディオクリップの意図を取得する。
【0039】
本願の実施例において、音声認識技術に基づいて、オーディオクリップを音声認識し、対応する意図を決定することができる。例えば、音声認識技術に基づいて、当該オーディオクリップを音声認識し、この後、当該テキスト情報をセマンティクス認識し、対応する意図を決定することができる。例えば、オーディオクリップが「音楽を聴きたい」である場合に、当該オーディオクリップの意図は「音楽を聞く」或いは「オーディオまたはビデオを再生する」である。
【0040】
ステップ203において、オーディオクリップが設定された制御意図を有する場合に、目標操作が検出されたと決定する。
【0041】
本願の実施例において、オーディオクリップと設定された制御意図がマッチングした場合に、目標操作が検出されたと決定することができ、オーディオクリップと設定された制御意図がマッチングしていない場合に、目標操作がまだ検出していないと決定することができる。
【0042】
ステップ204において、目標操作が検出された場合に、目標操作に対応する制御命令を実行し、第1動作状態を第2動作状態に切り替える。
【0043】
ステップ205において、第2動作状態で、音声認識を行うように、オーディオを連続的に収集してオーディオストリームを取得する。
【0044】
ステップ204から205までの実行過程は、上述実施例におけるステップ102から103までの実行過程を参照でき、ここでは詳しく説明しない。
【0045】
ある例示として、電子デバイスはスマートスピーカであり、設定された制御意図はオーディオまたはビデオを再生することを例示し、ユーザが音声で「小度小度(ドちゃんドちゃん)、音楽を聴きたい」と入力した場合に、スマートスピーカはユーザが入力した音声データを収集してそれを認識した後、オーディオクリップ「音楽を聴きたい」が対応する意図は「オーディオを再生する」であると決定することができ、この時、オーディオクリップの意図と設定された制御意図がマッチングしていると決定することができ、よって、音楽を再生することができ、ユーザがスマートスピーカと連続的に対話を行うように、電子デバイスの動作状態を非リスニング状態からリスニング状態に切り替え、例えば、「次の曲を再生する」、「再生を止める」などで、人と機械の対話がもっと自然かつリアルで、ユーザの没入感を向上させる。
【0046】
他の実施例として、電子デバイスはスマートスピーカであり、設定された制御意図は次の曲を再生することを例示し、ユーザが音楽を聞いている場合に、ユーザが音声で「小度小度(ドちゃんドちゃん)、次の曲を再生して」と入力した時、スマートスピーカはオーディオクリップの意図と設定された制御意図とがマッチングしていると決定することができ、よって、次の曲を再生することができ、ユーザがスマートスピーカと連続的に対話することができるように、電子デバイスの動作状態を非リスニング状態からリスニング状態に切り替える。
【0047】
本願の実施例の音声認識制御方法は、ユーザが電子デバイスとリアルタイムでインタラクション或いは連続的にインタラクションを行うニーズを有する場合に、連続的にウェイクワードを入力する必要がなく、音声で入力した音声データが設定された制御意図を満たすだけで、電子デバイスとの連続的なインタラクションを実現することができ、ユーザの操作を簡素化し、ユーザの使用感を改善する。
【0048】
他の可能な実現方式として、電子デバイスが第1動作状態で、ユーザは手動で入力する方式により、目標操作をトリガーすることができる。以下に、実施例3と併せて、上述過程について詳細に説明する。
【0049】
図3は、本願実施例3に係る音声認識制御方法の概略フローチャートである。
【0050】
図3に示すように、当該音声認識制御方法は、ステップ301~304を含むことができる。
【0051】
ステップ301において、タッチ操作を検出する。
【0052】
本願の実施例において、音声認識制御装置はモニタリングの方式で、ユーザがトリガーしたタッチ操作に対してモニタリングすることができる。タッチ操作は、クリック操作、選択操作、入力操作などであってもよい。
【0053】
ステップ302において、タッチ操作がオーディオまたはビデオを再生する操作である場合に、タッチ操作が設定された制御意図を有する目標操作であると決定する。
【0054】
本願の実施例において、タッチ操作がオーディオまたはビデオを再生する操作である場合に、例えば、ユーザが電子デバイス表示インタフェースにおけるオーディオまたはビデオをクリックする場合に、この時、タッチ操作は設定された制御意図を有する目標操作であると決定することができ、すなわち設定された制御意図はオーディオまたはビデオの再生であり、タッチ操作が、例えば、ユーザのメッセージの編集、状態の発表、情報の補正などの、オーディオまたはビデオを再生するための操作ではない場合に、タッチ操作が設定された制御意図を有しない目標操作であると決定することができる。
【0055】
すなわち、本願において、タッチ操作が対応する設定された制御意図を有する場合のみ、当該タッチ操作を目標操作と決定し、この時、ユーザがリアルタイムでインタラクション或いは連続的にインタラクションのニーズを有すると認定することができ、よって、後続のステップを実行することができ、タッチ操作が対応する設定された制御意図を有しない場合には、当該タッチ操作が目標操作ではないと決定し、この時、ユーザがリアルタイムでインタラクション或いは連続的にインタラクションのニーズを有しないと認定することができ、よって、電子デバイスは第1動作状態を維持することができる。
【0056】
ステップ303において、目標操作が検出された場合に、目標操作が対応する制御命令を実行し、第1動作状態を第2動作状態に切り替える。
【0057】
ステップ304において、第2動作状態で、音声認識を行うように、連続的にオーディオを収集してオーディオストリームを取得する。
【0058】
ステップ303から304までの実行過程は、上述実施例におけるステップ102から103までの実行過程を参照でき、ここでは詳しく説明しない。
【0059】
ある応用シーンとして,電子デバイスがスマートスピーカである場合に、ユーザが表示インタフェースにおけるあるビデオファイルをクリックすると、この時、ユーザがトリガーしたタッチ操作が制御意図を有する目標操作であると決定することができ、よって、当該ビデオファイルを再生でき、ユーザがスマートスピーカと連続的に対話できるように、電子デバイスの動作状態を非リスニング状態からリスニング状態に切り替える。
【0060】
本願の実施例の音声認識制御方法は、ユーザが電子デバイスとリアルタイムでインタラクション或いは連続的にインタラクションを行うニーズを有する場合に、連続的にウェイクワードを入力する必要がなく、オーディオまたはビデオを再生する操作をトリガーするだけで、電子デバイスとの連続的なインタラクションを実現することができ、ユーザの操作を簡素化し、ユーザの使用感を改善する。
【0061】
電子デバイスは複数の動作モードを有してもよく、例えば普通モード、子供モード、ギークモードなど、ユーザは音声或いは手動で電子デバイスの動作モードを切り替えることができる。従来技術において、異なる動作モードの間は、相互に排他的である。
【0062】
この方式で、ユーザは同一時刻に電子デバイスを制御して1種の動作モードに入ることしかできず、ユーザの実際のニーズを満たさない可能性がある。例えば、全二重継続会話(Full-duplex Countinued Conversation)を体験するように、ユーザは同時に子供モードとギークモードとを開くニーズを有する可能性があるが、明らかに、従来技術ではユーザのニーズを満たすことができない。
【0063】
一方、本願の実施例の音声認識制御方法では、ユーザは、同時に子供モードとギークモードとを開くことができ、子供モードにおいて、ユーザが設定された制御意図を有する目標操作をトリガーした場合に、例えば、ユーザは音声でウェイクワードと設定された制御意図を入力し、或いは、ユーザはオーディオまたはビデオを再生する操作をトリガーし、この時、直接にギークモードに入ることができ、子供モードにあるユーザもウェイクを繰り返さず、連続的な会話を行うことができることを体験でき、ユーザの使用感を改善することができる。
【0064】
すなわち、子供モードでは、ギークモードを開く機能を有し、非リスニング状態において、ユーザが設定された制御意図を有する目標操作をトリガーした場合に、ギークモードのリスニング状態に切り替え、目標操作に対応する制御命令を実行し、子供モードにあるユーザもウェイクを繰り返さず、連続的な会話を行うことができる能力を体験できる。
【0065】
1つの可能な実現方式として、電子デバイスが第2動作状態にある場合に、電子デバイス表示インタフェースの第1要素を第2要素に切り替えることができ、第3要素を隠蔽し、第1要素は第1動作状態にあることを提示するものであり、第2要素は第2動作状態にあることを提示するものであり、第3要素はウェイクワードを提示するものである。
【0066】
ある応用シーンとして、電子デバイスはスマートスピーカであり、設定された制御意図はオーディオまたはビデオを再生することを例示し、スマートスピーカが子供モードにある場合に、ユーザが音声で「小度小度(ドちゃんドちゃん)、アニメを見たい」と入力すると、この時、オーディオクリップとする「アニメを見たい」の意図は、オーディオまたはビデオの再生であり、よって、スマートスピーカは目標操作の検出と決定でき、よって、ギークモードのリスニング状態に入ることができ、当該リスニング状態において、デバイスをウェイクする必要がないため、第3要素を隠蔽してもよい。同時に、ユーザがスマートスピーカの目前の状態情報を取得しやすくように、インタフェースにおける第1要素を第2要素に切り替えることができる。
【0067】
本願の実施例において、電子デバイスが第2動作状態にある場合に、ユーザはウェイクワードを繰り返し入力することのない連続的な対話を体験することができ、相応に、電子デバイスはユーザが音声で入力したオーディオストリームを取得することができ、当該オーディオストリームを認識し、当該オーディオストリームに制御意図が含まれるか否かを決定し、制御意図が含まれた場合に、当該制御意図に対応する制御命令を実行し、制御意図が含まれない場合に、ユーザが制御ニーズを有してないと意味し、この時、第2動作状態を終了することができる。以下に、実施例4と併せて、上述過程について詳細に説明する。
【0068】
図4は、本願実施例4に係る音声認識制御方法の概略フローチャートである。
【0069】
図4に示すように、図1から図3に示す実施例に基づき、当該音声認識制御方法は、ステップ401~403を含むことができる。
【0070】
ステップ401において、情報ストリームを取得し、情報ストリームは、オーディオストリームを音声認識することによって取得したものである。
【0071】
本願の実施例において、ユーザが音声データを入力した後、電子デバイスはオーディオストリームを収集し、当該オーディオストリームを音声認識して、対応する情報ストリームを決定する。
【0072】
ステップ402において、情報ストリームから制御意図を有する目標情報をフィルタリングする。
【0073】
本願の実施例において、情報ストリームが取得された後、当該情報ストリームをセマンティクス認識し、対応する制御意図を決定し、情報ストリームから制御意図を有する目標情報をフィルタリングすることができる。
【0074】
ステップ403において、閾値期間内に、目標情報がフィルタリングされなかった場合に、第2動作状態を終了する。
【0075】
本願の実施例において、閾値期間は予め設定されたものであり、例えば電子デバイスの内蔵プログラムによって予め設定されたものや、ユーザによって設定されたものでもよいが、これらに限定されない。例えば閾値時間は90秒であってもよい。
【0076】
本願の実施例において、閾値期間内に、目標情報がフィルタリングされなかった場合、ユーザが電子デバイスを制御する意図を有しないことを意味する。よって、第2動作状態を終了することができる。
【0077】
例えば、電子デバイスがリスニング状態に入る場合に、ユーザが閾値期間内に、音声データを入力していない、或いは、電子デバイスが認識したオーディオストリームから制御意図を取得していない時、リスニング状態を終了することができる。例えば、ユーザが同時に子供モードとギークモードとを開いて、ギークモードのリスニング状態を終了した場合に、この時、電子デバイスは子供モードのみであり、ユーザは子供モードで電子デバイスとインタラクションを行うことができ、ユーザが電子デバイスを制御しようとする場合には、ユーザは対応するウェイクワードを入力する必要がある。
【0078】
本願の実施例において、閾値期間内に、目標情報がフィルタリングされなかった場合に、第2動作状態を終了する。よって、ユーザが電子デバイスを制御する意図を有しない場合に、電子デバイスを制御して第2動作状態を終了して、電子デバイスが常にリスニング状態或いは動作状態にあることを回避し、電子デバイスのエネルギー消費を低減することができる。
【0079】
上述実施例を実現させるために、本願は音声認識制御装置を提供している。
【0080】
図5は、本願実施例5に係る音声認識制御装置の構成概略図である。
【0081】
図5に示すように、当該音声認識制御装置500は、検出モジュール501、実行モジュール502、及び収集モジュール503を含む。
【0082】
検出モジュール501は、第1動作状態で、設定された制御意図を有する目標操作を検出し、第1動作状態で、音声認識を行うように、ウェイクワードに基づいてオーディオクリップを収集する。
【0083】
1つの可能な実現方式として、検出モジュール501は、具体的に、ウェイクワードを取得した時、ウェイクワードに続くオーディオクリップを収集し、オーディオクリップの意図を取得し、オーディオクリップが設定された制御意図を有する場合に、目標操作が検出されたと決定する。
【0084】
1つの可能な実現方式として、検出モジュール501は、具体的に、タッチ操作を検出し、タッチ操作がオーディオまたはビデオを再生する操作である場合に、タッチ操作が設定された制御意図を有する目標操作であると決定する。
【0085】
実行モジュール502は、目標操作が検出された場合に、目標操作に対応する制御命令を実行し、第1動作状態を第2動作状態に切り替える。
【0086】
収集モジュール503は、第2動作状態で、音声認識を行うように、連続的にオーディオを収集してオーディオストリームを取得する。
【0087】
さらに、本願の実施例の1つの可能な実現方式において、図6を参照して、図5に示す実施例を基に、当該音声認識制御装置500は、処理モジュール504、取得モジュール505、フィルタリングモジュール506、及び終了モジュール507をさらに含むことができる。
【0088】
処理モジュール504は、第2動作状態で、インタフェースでの第1要素を第2要素に切り替えるとともに第3要素を隠蔽し、第1要素は第1動作状態にあることを提示するものであり、第2要素は第2動作状態にあることを提示するものであり、第3要素はウェイクワードを提示するものである。
【0089】
取得モジュール505は、情報ストリームを取得し、情報ストリームはオーディオストリームを音声認識することにより取得されたものである。
【0090】
フィルタリングモジュール506は、情報ストリームから制御意図を有する目標情報をフィルタリングする。
【0091】
終了モジュール507は、閾値期間内に、目標情報がフィルタリングされなかった場合に、第2動作状態を終了する。
【0092】
なお、音声制御方法の実施例の前述の説明は、この実施例の音声制御装置にも適用可能であり、ここでは説明を省略する。
【0093】
本願の実施例の音声認識制御装置は、第1動作状態で、設定された制御意図を有する目標操作を検出することにより、第1動作状態で、音声認識を行うように、ウェイクワードに基づいてオーディオクリップを収集し、目標操作が検出された場合に、目標操作に対応する制御命令を実行し、第1動作状態から第2動作状態に切り替え、第2動作状態で、音声認識を行うように、オーディオを連続的に収集してオーディオストリームを取得する。よって、ユーザは設定された制御意図を有する目標操作をトリガーするだけで、電子デバイスとの連続的なインタラクションを実現することができ、連続的にウェイクワードを入力する必要がなく、ユーザの操作を簡素化し、ユーザの使用感を改善する。
【0094】
上述実施例を実現するために、本願は、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサに通信可能に接続したメモリを含む電子デバイスを提供し、メモリには少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が少なくとも1つのプロセッサによって実行されることにより、少なくとも1つのプロセッサが本願の前述実施例に係る音声認識制御方法を実行する。
【0095】
上述実施例を実現するために、本願は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、コンピュータ命令はコンピュータに本願の前述実施例に係る音声認識制御方法を実行させる。
【0096】
本願の実施例により、本願は電子デバイス及び読み取り可能な記憶媒体をさらに提供している。
【0097】
図7は、本願の実施例による音声認識制御方法の電子デバイスのブロック図を示している。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークベンチ、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、さまざまな形式のデジタルコンピュータを含む。電子デバイスは、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、その他の同様のコンピューティングデバイスなど、さまざまな形態のモバイルデバイスを含んでもよい。本明細書で示されるコンポーネント、それらの接続および関係、およびそれらの機能は単なる例であり、本明細書で説明および/または必要とされる本願の実現を限定することを意図するものではない。
【0098】
図7に示すように、当該電子デバイスは、1つまたは複数のプロセッサ701、メモリ702、および高速インタフェースおよび低速インタフェースを含む様々なコンポーネントを接続するためのインタフェースを含む。さまざまなコンポーネントは、異なるバスを使用して相互接続され、共通のマザーボードに取り付けられるか、必要に応じて取り付けられてもよい。プロセッサは、外部入力/出力デバイス(たとえば、インタフェースに結合されたディスプレイデバイス)にGUIのグラフィカル情報を表示するためにメモリに記憶されている命令を含む、電子デバイス内で実行される命令を処理することができる。他の実施例では、必要に応じて、複数のプロセッサおよび/または複数のバスを複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続し、それぞれの電子デバイスが必要な操作(たとえば、サーバアレイ、1グループのブレードサーバ、マルチプロセッサシステム)の一部を提供することができる。図7では、1つのプロセッサ701を例に挙げている。
【0099】
メモリ702は、本願によって提供される非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶し、その結果、前記少なくとも1つのプロセッサは、本願に係る音声制御方法を実行する。本願の非一時的なコンピュータ読み取り可能な記憶媒体は、本願によって提供される音声制御方法をコンピュータに実行させるためのコンピュータ命令を記憶する。
【0100】
メモリ702は、非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム、および本願の実施例の音声制御方法に対応するプログラム命令/モジュール(たとえば、図5に示される検出モジュール501、実行モジュール502、収集モジュール503)を記憶することができる。プロセッサ701は、メモリ702に記憶されている非一時的なソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの様々な機能的アプリケーションおよびデータ処理を実行し、すなわち、前述の方法の実施例における音声制御方法を実現する。
【0101】
メモリ702は、ストレージプログラム領域およびストレージデータ領域を含むことができ、ストレージプログラム領域は、少なくとも1つの機能に必要なオペレーティングシステムおよびアプリケーションプログラムを記憶することができる。ストレージデータ領域は、電子デバイスの使用に基づいて作成されたデータを記憶することができる。また、メモリ702は、高速ランダムアクセスメモリを含むことができるし、少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一時的な固体記憶装置などの非一時的なメモリも含むことができる。いくつかの実施例では、メモリ702は、プロセッサ701に対して遠隔に配置されたメモリを選択可能に含むことができ、これらの遠隔メモリは、ネットワークを介して電子デバイスに接続され得る。上記のネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせを含むが、これらに限定されない。
【0102】
電子デバイスは、入力装置703および出力装置704をさらに含むことができる。プロセッサ701、メモリ702、入力装置703、および出力装置704は、バスまたは他の方式を介して接続することができ、図7では、バスを介した接続を例に挙げている。
【0103】
入力装置703は、入力された数字または文字情報を受信し、電子デバイスのユーザ設定および機能制御に関するキー信号入力を生成することができ、たとえば、タッチスクリーン、キーパッド、マウス、トラックパネル、タッチパネル、ポインティングスティック、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力デバイスや電子デバイスである。出力装置704は、表示装置、補助照明装置(たとえば、LED)、触覚フィードバック装置(たとえば、振動モータ)などを含んでもよい。当該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施例では、表示装置はタッチスクリーンであってもよい。
【0104】
本明細書で説明されるシステムおよび技術の様々な実施例は、デジタル電子回路、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現され得る。これらの様々な実施例は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムで実装されてもよく、当プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置に送信することができる専用または汎用のプログラマブルプロセッサであってもよい。
【0105】
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードともいう)は、プログラマブルプロセッサの機械命令を含み、さらに高レベルの手続き型および/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械言語を用いてこれらのコンピューティングプログラムを実施することができる。本明細書で使用される「機械読み取り可能な媒体」および「コンピュータ読み取り可能な媒体」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および/または装置(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD)を指し、機械読み取り可能な信号としての機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための信号を指す。
【0106】
ユーザとのインタラクションを提供するために、本明細書に記載のシステムおよび技術は、ユーザに情報を表示するための表示装置(たとえば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニター)と、キーボードおよびポインティング装置(たとえば、マウスまたはトラックボール)とを有するコンピュータで実施されてもよく、ユーザは当該キーボードおよび当該ポインティング装置を介してコンピュータに入力を提供できる。他の種類の装置を使用してユーザとのインタラクションを提供することもできる。たとえば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形式(たとえば、音響入力、音声入力、または触覚入力)を用いてユーザからの入力を受信することができるものであってもよい。
【0107】
本明細書に記載のシステムおよび技術の各実施例は、バックエンドコンポーネントを含むコンピューティングシステム(たとえば、データサーバとして)、またはミドルコンポーネントを含むコンピューティングシステム(たとえば、アプリケーションサーバ)、またはフロントエンドコンポーネントを含むコンピューティングシステム(たとえば、グラフィカルユーザインターフェイスまたはWebブラウザを備えたユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェイスまたは当該Webブラウザを介して、ここで説明されるシステムおよび技術の実施例とインタラクションできる)、またはこのようなバックエンドコンポーネント、ミドルコンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。デジタルデータ通信の任意の形式または媒体(たとえば、通信ネットワーク)によってシステムのコンポーネントを相互接続してもよい。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、およびインターネットを含む。
【0108】
コンピュータシステムは、クライアントとサーバとを含むことができる。通常、クライアントとサーバとは互いにリモートであり、通常は通信ネットワークを介してインタラクションする。それぞれのコンピュータで実行され、互いにクライアントとサーバとの関係を持つコンピュータプログラムによってクライアントとサーバとの関係を生成する。
【0109】
本願の実施例の技術方案によって、第1動作状態で、設定された制御意図を有する目標操作を検出することにより、第1動作状態で、音声認識を行うように、ウェイクワードに基づいてオーディオクリップを収集し、目標操作が検出された場合に、目標操作に対応する制御命令を実行し、第1動作状態から第2動作状態に切り替え、第2動作状態で、音声認識を行うように、連続的にオーディオクリップを収集してオーディオストリームを取得する。よって、ユーザは設定された制御意図を有する目標操作をトリガーするだけで、電子デバイスと連続的にインタラクションでき、ウェイクワードを連続的に入力する必要がなく、ユーザの操作を簡素化し、ユーザの使用感を改善する。
【0110】
なお、上記のさまざまな形態のプロセスを使用して、ステップを並べ替え、追加、または削除できることを理解されたい。たとえば、本願で説明されている各ステップは、並列、順次、または異なる順序で実行できる。本願で開示された技術的解決策の望ましい結果が達成できれば、本明細書は、ここで限定しない。
【0111】
前述した具体的な実施例は、本願の保護範囲を制限しない。設計要件および他の要因に応じて、さまざまな修正、組み合わせ、サブ組み合わせ、および置き換えを行うことができることを当業者は理解するべきである。本願の思想および原則の範囲内で行われた修正、同等の置き換え、および改善は、いずれも本願の保護範囲に含まれるものとする。
図1
図2
図3
図4
図5
図6
図7