(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6012877
(24)【登録日】2016年9月30日
(45)【発行日】2016年10月25日
(54)【発明の名称】マルチメディアデバイス用音声制御システム及び方法、及びコンピュータ記憶媒体
(51)【国際特許分類】
G10L 15/28 20130101AFI20161011BHJP
G10L 15/00 20130101ALI20161011BHJP
G10L 15/30 20130101ALI20161011BHJP
H04R 3/00 20060101ALI20161011BHJP
H04R 1/40 20060101ALI20161011BHJP
H04N 21/439 20110101ALI20161011BHJP
【FI】
G10L15/28 230K
G10L15/00 200G
G10L15/28 400
G10L15/30
G10L15/28 230J
H04R3/00 320
H04R1/40 320A
H04N21/439
【請求項の数】9
【全頁数】17
(21)【出願番号】特願2015-533437(P2015-533437)
(86)(22)【出願日】2013年9月26日
(65)【公表番号】特表2015-535952(P2015-535952A)
(43)【公表日】2015年12月17日
(86)【国際出願番号】CN2013084348
(87)【国際公開番号】WO2014048348
(87)【国際公開日】20140403
【審査請求日】2015年5月14日
(31)【優先権主張番号】201210374809.1
(32)【優先日】2012年9月29日
(33)【優先権主張国】CN
【早期審査対象出願】
(73)【特許権者】
【識別番号】515083734
【氏名又は名称】シェンジェン ピーアールテック カンパニー リミテッド
(74)【代理人】
【識別番号】100092093
【弁理士】
【氏名又は名称】辻居 幸一
(74)【代理人】
【識別番号】100082005
【弁理士】
【氏名又は名称】熊倉 禎男
(74)【代理人】
【識別番号】100088694
【弁理士】
【氏名又は名称】弟子丸 健
(74)【代理人】
【識別番号】100103609
【弁理士】
【氏名又は名称】井野 砂里
(74)【代理人】
【識別番号】100095898
【弁理士】
【氏名又は名称】松下 満
(74)【代理人】
【識別番号】100098475
【弁理士】
【氏名又は名称】倉澤 伊知郎
(74)【代理人】
【識別番号】100171675
【弁理士】
【氏名又は名称】丹澤 一成
(72)【発明者】
【氏名】ワン ホンジ
(72)【発明者】
【氏名】リュー ルーユエン
(72)【発明者】
【氏名】サン ノン
(72)【発明者】
【氏名】リュー グオファ
【審査官】
千本 潤介
(56)【参考文献】
【文献】
特開2009−069202(JP,A)
【文献】
国際公開第2011/055410(WO,A1)
【文献】
特公昭62−039747(JP,B2)
【文献】
特表2004−514926(JP,A)
【文献】
特開2011−257943(JP,A)
【文献】
国際公開第2011/163538(WO,A1)
【文献】
特開2009−098217(JP,A)
【文献】
特開平11−024694(JP,A)
【文献】
特開2008−263422(JP,A)
【文献】
特開2005−266192(JP,A)
【文献】
特開2007−041089(JP,A)
【文献】
特開2011−061461(JP,A)
【文献】
米国特許第6243683(US,B1)
【文献】
遠藤隆,外5名,”マイクロフォンアレイを用いたCSCW向け音声認識モジュール”,情報処理学会研究報告音声言語情報処理(SLP),1997年 2月 7日,1997巻/16(1996-SLP-015)号,pp. 41-46
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/28
G10L 15/00
G10L 15/30
H04N 21/439
H04R 1/40
H04R 3/00
(57)【特許請求の範囲】
【請求項1】
マルチメディアデバイス用音声制御システムであって、
ユーザアクション画像を収集するように構成された画像検出モジュールと、
前記ユーザアクション画像に従って制御命令タイプ又はステータスを判定するように構成された画像認識モジュールであって、該画像認識モジュールは前記ユーザアクション画像を送るユーザの位置を対象の音声源の位置と判定した後に、該画像認識モジュールは前記対象の音声源の位置を音声認識ステータス管理モジュールに送る、画像認識モジュールと、
現在の制御命令タイプに従って音声認識プログラムを作動させるか又は停止させるように構成された音声認識ステータス管理モジュールであって、前記音声認識プログラムが作動させられた場合、前記音声認識ステータス管理モジュールは、前記対象の音声源の位置を、音波ビーム形成モジュールに送り、前記マルチメディアデバイスの出力音量を低減するようにマルチメディア機能モジュールを制御する、音声認識ステータス管理モジュールと、
前記対象の音声源の位置に従ってピックアップ方向及びピックアップ角度を決定するように構成された音波ビーム形成モジュールと、
前記ピックアップ方向及び前記ピックアップ角度に従って前記対象の音声源の音声信号を収集するように構成され、音声データを生成するように構成されたピックアップモジュールと、
前記収集した音声データを認識して制御命令を生成するように構成された音声認識モジュールと、
前記制御命令を実行して対応するマルチメディア機能を前記ユーザに提供するように構成されたマルチメディア機能モジュールと、
を備えたマルチメディアデバイス用音声制御システム。
【請求項2】
前記画像認識モジュールは、前記ユーザアクション画像をプリセット画像テンプレートと比較して前記ユーザアクション画像に一致する制御命令タイプを選択するように構成され、
前記ユーザアクション画像に一致する制御命令タイプが見つかった場合、前記ユーザの位置が前記対象の音声源の位置としてアサートされ、前記対象の音声源の位置情報、前記音声認識プログラムの開始情報、及び/又は前記制御命令タイプが前記音声認識ステータス管理モジュールに送られ、
前記ユーザアクション画像に一致する制御命令タイプが見つからなかった場合、比較失敗情報が前記音声認識ステータス管理モジュールに送られる、請求項1に記載のマルチメディアデバイス用音声制御システム。
【請求項3】
前記ピックアップモジュールは、少なくとも1つの規則的に配置されたピックアップセンサを備えたアレイピックアップモジュールであり、前記ピックアップモジュールは、前記ピックアップ方向及び前記ピックアップ角度の限定に従って前記対象の音声源の前記音声信号を収集し、前記音声信号をデジタル化して音声データを生成し、該音声データを前記音声認識モジュールに送る、請求項2に記載のマルチメディアデバイス用音声制御システム。
【請求項4】
前記音声認識ステータス管理モジュールは、前記音声認識を作動させるために、受信した前記音声認識の開始情報に従って開始命令及び前記制御命令タイプを前記音声認識モジュールに送り、前記対象の音声源の位置情報が前記音波ビーム形成モジュールに送られ、前記マルチメディア機能モジュールは、前記マルチメディアデバイスの前記出力音量を低減するように制御され、又は、前記音声認識ステータス管理モジュールは、前記比較失敗情報に基づいて前記音声認識を停止させるために前記音声認識モジュールに命令を送る、請求項3に記載のマルチメディアデバイス用音声制御システム。
【請求項5】
前記音声認識モジュールは、前記音声認識ステータス管理モジュールからの前記開始命令及び前記制御命令タイプに従って、前記ピックアップモジュールからの前記音声データを認識し、前記制御命令タイプを有する制御命令を生成し、該制御命令は、前記マルチメディア機能モジュールに送られる、請求項4に記載のマルチメディアデバイス用音声制御システム。
【請求項6】
前記音声認識モジュールは、ローカル音声認識モジュール及びクラウド音声認識モジュールを備え、
前記ローカル音声認識モジュールは、前記音声データを認識して前記制御命令タイプを有する制御命令を形成し、該制御命令は、前記マルチメディア機能モジュールに送られ、 前記クラウド音声認識モジュールは、前記ローカル音声認識モジュールでは認識できない前記音声データを意味論的に認識し、前記制御命令タイプを有する制御命令を生成し、前記制御命令は、前記マルチメディア機能モジュールに送られる、請求項1ないし5のいずれか1項に記載のマルチメディアデバイス用音声制御システム。
【請求項7】
マルチメディアデバイスのための音声制御方法であって、
画像検出モジュールによってユーザアクション画像を収集する段階と、
前記ユーザアクション画像に従って、画像認識モジュールによって制御命令タイプ又はステータスを判定する段階と、
前記画像認識モジュールが前記ユーザアクション画像を送るユーザの位置を対象の音声源の位置として判定した後に、前記対象の音声源の位置を音声認識ステータス管理モジュールに送る段階と、
現在の前記制御命令タイプに従って、音声認識ステータス管理モジュールによって音声認識プログラムを作動させるか又は停止させる段階と、
前記音声認識プログラムが作動させられた場合、前記音声認識ステータス管理モジュールによって、前記対象の音声源の位置を音波ビーム形成モジュールに送り、前記マルチメディアデバイスの出力音量を低減させるために、マルチメディア機能モジュールを制御する段階と、
前記対象の音声源の位置に従って、音声ビーム形成モジュールにより、ピックアップ方向及びピックアップ角度を決定する段階と、
前記ピックアップ方向及びピックアップ角度の限定に従って、アレイピックアップモジュールによって前記ユーザの音声信号を収集し、前記音声信号をデジタル化して音声データを生成する段階と、
制御命令を生成するために、前記収集した音声データを、音声認識モジュールによって認識する段階と、
前記ユーザに対して対応するマルチメディア機能を提供するために、マルチメディア機能モジュールによって、前記制御命令を実行する段階と、
を含む、マルチメディアデバイスのための音声制御方法。
【請求項8】
前記ユーザアクション画像に従って、前記画像認識モジュールによって、前記制御命令タイプ又はステータスを判定する段階は、
前記画像認識モジュールによって、前記ユーザアクション画像をプリセット画像テンプレートと比較して、前記ユーザアクション画像と一致する前記制御命令タイプを選択する段階を含み、
前記ユーザアクション画像に一致する前記制御命令タイプが見つかった場合、前記ユーザの位置を前記対象の音声源の位置としてアサートし、前記対象の音声源の位置情報、前記音声認識プログラムの開始情報、及び/又は前記制御命令タイプを前記音声認識ステータス管理モジュールに送り、前記ユーザアクション画像に一致する前記制御命令タイプが見つからなかった場合、比較失敗情報を前記音声認識ステータス管理モジュールに送る、請求項7に記載のマルチメディアデバイスのための音声制御方法。
【請求項9】
前記音声認識モジュールは、ローカル音声認識モジュール及びクラウド音声認識モジュールを備え、前記音声認識モジュールは音声命令辞書をプリセットし、
前記方法はさらに、
前記ローカル音声認識モジュールが前記音声データを認識し、前記音声データを、音声命令辞書内の用語モデルと比較し、前記音声データと用語モデルとの間の類似度がプリセット閾値よりも大きい場合、前記音声データは前記用語モデルに対応する制御命令として解釈され、前記制御命令は前記マルチメディア機能モジュールに送られ、
前記音声データと用語モデルとの間の類似度が前記プリセット閾値以下である場合、前記音声データはネットワークを介して前記クラウド音声認識モジュールに送られ、
前記クラウド音声認識モジュールは前記音声データを意味論的に認識して制御命令を生成し、該制御命令はネットワークを介して前記マルチメディア機能モジュールに送られる、
請求項7又は8に記載のマルチメディアデバイスのための音声制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声遠隔制御技術に関し、詳細には、マルチメディアデバイスの音声制御システム及び方法、及びコンピュータ記憶媒体に関する。
【背景技術】
【0002】
携帯電話が知能化した後には、TV、プロジェクタ、ゲーム機等のマルチメディアデバイスが同様に知能化できる状况にある。現在、マルチメディアデバイスは、高性能な制御チップを備えることが多く、オープンプラットフォーム及びオペレーティングシステムを有する。ユーザは、マルチメディアデバイスの機能を拡張させるアプリ(apps)をインストール及びアンインストールすることができる。マルチメディアデバイスは、SNS及び情報検索をサポートする。一例としてスマートTVを取り上げると、スマートTVは、従来の番組を再生する機能に限られない。スマートTVは、ビデオ及びオーディオを共有したり、対話型娯楽ゲームを行う機能を実現することができる。従来のボタン式遠隔制御ユニットでは、複数のマルチメディア機能を選択及び操作する要求を満たすことができない。
【0003】
従来、インテリジェント制御は、タッチ制御、音声制御、ジェスチャ制御、モーション制御等の複数の人間−コンピュータ対話プログラムによって実現することができる。使用シナリオの制約及び使用習慣の問題により、従来のインテリジェント制御方法は、ボタン式遠隔制御ユニットに全体的に取って代わることはできず、ユーザは、ボタン式遠隔制御ユニット上の特定の機能キーとデジタルキーの組み合わせを利用することによってのみ操作することができる。例えば、タッチ制御プログラムは、遠隔制御ユニットに組み込まれたタッチ感知モジュールを使用する必要がある。ジェスチャ認識プログラムは、通常使用するチャンネルの間でチャンネルを迅速に切り替えることができず、ユーザが現在のチャンネル1からチャンネル55に切り替えようとする場合、従来のボタン式制御ユニットは、ジェスチャ認識プログラムよりも迅速にチャネルを切り替えることができる。モーション制御の問題点は、ジェスチャ認識プログラムのものと類似しており、通常、モーション制御プログラムは、距離画像検出モジュールを組み込んで、正確なモーション制御機能を実現する必要がある。従来の音声認識プログラムの問題点は、ユーザの音声をクリアに集音するために、遠隔制御ユニットにはマイクロホンが組み込まれており、ボタン式遠隔制御ユニットを必要とする点である。
【0004】
音声認識の発達に伴い、音声認識及び意味認識は実用段階に到達している。クラウドコンピューティング技術の普及で、クラウドサービスに基づく音声認識の多数のサービスプロバイダが、音声制御によるTVを実現するために音声認識とTVを組み合わせている。現在の解決策において、マイクロホンピックアップモジュールが遠隔制御ユニットに組み込まれており、ユーザの音声を取得するようになっており、この音声は処理されてクラウドに送信されて認識される。遠距離の音声をピックアップできるマイクロホンアレイ技術を利用しても、TV音響出力と環境騒音の干渉といった問題点、及びユーザの非制御命令音声が誤って制御命令として認識されるといった問題点は、マルチメディアデバイスの性能に影響を与える可能性がある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明によって解決すべき技術的課題は、マルチメディアデバイス用音声制御システムを提供することである。
【課題を解決するための手段】
【0006】
マルチメディアデバイス用音声制御システムは、前述の問題点を解決するために用いられる。マルチメディアデバイス用音声制御システムは、ユーザアクション画像を収集するように構成された画像検出モジュールと、ユーザアクション画像に従って制御命令タイプ又はステータスを判定するように構成された画像認識モジュールと、制御命令タイプに従って音声認識プログラムを作動させるか又は停止させるように構成された音声認識ステータス管理モジュールと、音声信号を収集するように構成されたピックアップモジュールと、収集した音声データを認識して制御命令を生成するように構成された音声認識モジュールと、制御命令を実行して対応するマルチメディア機能をユーザに提供するように構成されたマルチメディア機能モジュールと、を備える。
【0007】
好ましくは、画像認識モジュールは、ユーザアクション画像をプリセット画像テンプレートと比較してユーザアクション画像に一致する制御命令タイプを選択するように構成され、ユーザアクション画像に一致する制御命令タイプが見つかった場合、ユーザの位置が対象の音声源の位置としてアサートされ、対象の音声源の位置情報、音声認識プログラムの開始情報、及び/又は制御命令タイプが音声認識ステータス管理モジュールに送られ、ユーザアクション画像に一致する制御命令タイプが見つからなかった場合、比較失敗情報が音声認識ステータス管理モジュールに送られる。
【0008】
好ましくは、画像認識モジュールは、人間−コンピュータ対話コンテンツを提示し、ユーザが、プリセット画像テンプレートに一致するまで特定の動作を行うように指示するように構成される。
【0009】
好ましくは、ピックアップモジュールは、アレイピックアップモジュール又は少なくとも1つのピックアップセンサであり、ピックアップセンサは規則的に又は不規則に配列され、ピックアップセンサは、ピックアップ方向及びピックアップ角度の限定に従って対象の音声源が放出する音声信号を収集し、音声信号をデジタル化して音声データを生成し、この音声データを送る。
【0010】
好ましくは、音声認識ステータス管理モジュールは、音声認識プログラムを作動させるか又は起動させるための受信した音声認識プログラムの開始情報に従って開始命令及び制御命令タイプを音声認識モジュールに送り、対象の音声源の位置情報を音波ビーム形成モジュールに送り、マルチメディア機能モジュールは、マルチメディアデバイスの出力音量を低減するように制御され、マルチメディアデバイスの出力音量は、ピックアップモジュールが音声信号の収集を終了した後に通常レベルに戻される。
【0011】
好ましくは、音声認識モジュールは、音声認識ステータス管理モジュールからの開始命令及び制御命令タイプに従って、ピックアップモジュールからの音声データを認識し、或る制御命令タイプを有する制御命令を生成し、制御命令は、マルチメディア機能モジュールに送られる。
【0012】
好ましくは、音声認識モジュールは、処理された制御命令音声信号の用語モデルが格納された内蔵音声命令辞書をプリセットする。
【0013】
音声認識モジュールは、音声データを音声命令辞書の用語モデルと比較し、音声データと用語モデルとの間の類似度がプリセット閾値よりも大きい場合、音声データは、用語モデルに対応する制御命令としてアサートされ、制御命令は、マルチメディア機能モジュールに送られる。
【0014】
好ましくは、音声認識モジュールは、ローカル音声認識モジュール及びクラウド音声認識モジュールを備える。
【0015】
ローカル音声認識モジュールは、音声データを認識して或る制御命令タイプを有する制御命令を形成し、制御命令は、マルチメディア機能モジュールに送られる。
【0016】
クラウド音声認識モジュールは、ローカル音声認識モジュールでは認識できない音声データを認識し、或る制御命令タイプを有する制御命令を生成し、制御命令は、マルチメディア機能モジュールに送られる。
【0017】
好ましくは、マルチメディア機能モジュールは、制御命令を実行し、制御命令に従って検索エンジンによって自動的に検索を行いオーディオ及びビデオデータを取得し、オーディオ及びビデオデータをダウンロードして再生する。
【0018】
マルチメディアデバイスのための音声制御方法は、ユーザアクション画像を収集する段階と、ユーザアクション画像に従って制御命令タイプ又はステータスを判定し、ユーザアクション画像を送るユーザの位置を対象の音声源の位置とアサートし、対象の音声源の位置を送り、対象の音声源の位置に従って操作者である対象ユーザを判定する段階と、制御命令タイプに従って音声認識プログラムを作動させるか又は起動させる段階と、対象の音声源の位置を送り、マルチメディアデバイスの出力音量を低減させる段階と、対象の音声源の位置に従ってピックアップ方向及びピックアップ角度を決定する段階と、ピックアップ方向及びピックアップ角度の限定に従ってユーザの音声信号を収集して、音声信号をデジタル化して音声データを生成する段階と、収集した音声データを認識して制御命令を生成する段階と、制御命令を実行してユーザに対して対応するマルチメディア機能を提供する段階と、を含む。
【0019】
好ましくは、ユーザアクション画像に従って制御命令タイプ又はステータスを判定し、ユーザアクション画像を送るユーザの位置を対象の音声源の位置とアサートし、対象の音声源の位置を送る段階は、ユーザアクション画像をプリセット画像テンプレートと比較して、ユーザアクション画像と一致する制御命令タイプを選択する段階を含み、ユーザアクション画像に一致する制御命令タイプが見つかった場合、ユーザの位置を対象の音声源の位置としてアサートし、対象音声の位置情報、音声認識プログラムの開始情報、及び/又は制御命令タイプを送り、ユーザアクション画像に一致する制御命令タイプが見つからなかった場合、比較失敗情報を送る。
【0020】
好ましくは、本方法は、人間−コンピュータ対話コンテンツをユーザに提示して、ユーザが、プリセット画像テンプレートに一致するまで特定の動作を行うように指示する段階を含む。
【0021】
好ましくは、ピックアップ方向及びピックアップ角度に従って対象の音声源から放出された音声信号を収集して音声データを生成する段階は、少なくとも1つのピックアップセンサを規則的に又は不規則に配列して、少なくとも1つのピックアップセンサによってピックアップ方向及び前記ピックアップ角度の限定に従って対象の音声源から放出された音声信号を収集し、音声信号をデジタル化して音声データを生成し、音声データを送る段階を含む。
【0022】
好ましくは、現在の制御命令タイプに従って音声認識プログラムを作動させるか又は起動させる段階と、対象の音声源の位置を送って、マルチメディアデバイスの出力音量を低減させる段階は、開始命令及び制御命令タイプを送って、受け取った音声認識プログラムの開始情報に従って音声認識プログラムを作動させるか又は起動させる段階と、対象の音声源の位置情報を送る段階と、マルチメディアデバイスの出力音量を低減する段階と、音声信号の収集が終了した後にマルチメディアデバイスの出力音量を通常レベルに戻す段階とを含む。
【0023】
好ましくは、開始命令及び制御命令タイプを送って、受け取った前記音声認識プログラムの開始情報に従って音声認識プログラムを作動させるか又は起動させる段階は、開始命令及び制御命令タイプに従って音声データを認識して制御命令タイプを有する制御命令を生成する段階と、制御命令を送る段階とを含む。
【0024】
好ましくは、開始命令及び制御命令タイプに従って音声データを認識して制御命令タイプを有する制御命令を生成し、制御命令を送る段階は、音声データを、処理済み制御命令音声信号用語モデルが格納された音声命令辞書内の用語モデルと比較する段階を含み、音声データと少なくとも1つの用語モデルとの間の類似度がプリセット閾値よりも大きい場合、音声データを用語モデルに対応する制御命令としてアサートし、制御命令を送る段階を含む。
【0025】
好ましくは、開始命令及び制御命令タイプに従って音声データを認識して制御命令タイプを有する制御命令を生成する段階と、制御命令を送る段階は、音声データをローカルで認識し、制御命令タイプを有する制御命令を生成して制御命令を送る段階と、ローカルで認識できない音声データを意味論的に認識して制御命令タイプを有する制御命令を生成して制御命令を送る段階とを含む。
【0026】
好ましくは、制御命令を実行してユーザに対して対応するマルチメディア機能を提供する段階は、制御命令を実行し、制御命令に従って検索エンジンによって自動的に検索を行いオーディオ及びビデオデータを取得し、オーディオ及びビデオデータをダウンロードして再生する段階を含む。
【0027】
コンピュータ実行可能な命令を記憶するようになったコンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体は、1つ又はそれ以上のコンピュータ実行可能な命令を記憶し、該1つ又はそれ以上にコンピュータ実行可能な命令は1つ又はそれ以上のプロセッサで実行され、マルチメディアデバイスのための音声制御方法を遂行するようになっており、該方法は、
ユーザアクション画像を収集する段階と、
ユーザアクション画像に従って制御命令タイプ又はステータスを判定し、ユーザアクション画像を送るユーザの位置を対象の音声源の位置とアサートし、対象の音声源の位置を送り、対象の音声源の位置に従って操作者である対象ユーザを判定する段階と、
現在の制御命令タイプに従って音声認識プログラムを作動させるか又は起動させる段階と、
対象の音声源の位置を送って、マルチメディアデバイスの出力音量を低減させる段階と、
対象の音声源の位置に従ってピックアップ方向及びピックアップ角度を決定する段階と、
ピックアップ方向及びピックアップ角度の限定に従ってユーザの音声信号を収集して、音声信号をデジタル化して音声データを生成する段階と、
収集した音声データを認識して制御命令を生成する段階と、
制御命令を実行してユーザに対して対応するマルチメディア機能を提供する段階と、
を含む。
【0028】
本発明では、画像認識技術、音声認識技術、及びコンピュータの記憶媒体が組み合わされ、携帯型遠隔制御ユニットに依存せず、近接ピックアップデバイスに制限されない、自由かつ好都合な音声制御が実現される。制御命令音声認識に対する、マルチメディアデバイスの音響出力、環境背景雑音、及びユーザの非制御命令音声信号の妨害を効果的に回避することができ、ユーザの命令を正確に認識できるので、複数のユーザが一緒に又は別々にマルチメディアデバイスを制御することができる。
【0029】
本発明の実施形態は、添付図面を参照して以下に詳細に説明される。
【図面の簡単な説明】
【0030】
【
図1】1つの実施形態によるマルチメディアデバイス用音声制御システムのブロック図である。
【
図2】好ましいプリセット画像テンプレートの概略図である。
【
図3】1つの実施形態によるマルチメディアデバイス用音声制御システムの特定の処理フローチャートである。
【
図4】1つの実施形態によるアレイピックアップモジュール14の概略図である。
【
図5】1つの実施形態によるマルチメディアデバイス用音声制御システムの基本的な処理フローチャートである。
【
図6】音声認識モジュール15の特定の処理フローチャートである。
【発明を実施するための形態】
【0031】
本開示の目的、技術的解決策、及び利点をより明確に理解できるように、本開示は、添付図面及び以下の実施形態を用いてより詳細に説明される。本明細書に記載の特定の実施形態は本発明を例示する単なる実施例であり、本開示を限定しないことを理解されたい。
【0032】
図1に示すマルチメディアデバイス用音声制御システムの概略的なブロック図を参照すると、マルチメディアデバイス1の実施形態は、ユーザアクション画像を収集するように構成された画像検出モジュール10と、ユーザアクション画像によって制御命令タイプ又はステータスを判定するように構成された画像認識モジュール11と、現在の制御命令によって音声認識プログラムを作動又は起動するように構成された音声認識ステータス管理モジュール12と、音声データを収集するように構成されたピックアップモジュール14と、収集した音声データを認識して制御命令を発生するように構成された音声認識モジュール15と、制御命令を実行して対応するマルチメディア機能をユーザに提供するように構成されたマルチメディア機能モジュール16と、を含む。
【0033】
図2に示す概略的なプリセット画像テンプレートを参照すると、画像認識モジュール11の実施形態は、少なくとも1つの画像テンプレートをプリセットし、異なるタイプの制御命令は、異なる画像テンプレートに対応する。ユーザアクション画像を少なくとも1つの画像テンプレートと比較し、ユーザアクション画像に一致する画像テンプレートが見つかると、ユーザが対象の音声源として認識され、その結果、ユーザの音声は、制御命令の対応するタイプに一致する制御命令である。比較結果が誤っている場合、つまりユーザアクション画像に一致する画像テンプレートが見つからない場合、ユーザのアクションは制御命令として認識されず、音声認識プログラムは停止する。
【0034】
図3に示すマルチメディアデバイス用音声制御システムの特定の処理フローチャートを参照すると、画像認識モジュール11は画像検出モジュール10から送られてきたユーザアクション画像を処理し、処理結果はプリセット画像テンプレートのデータと比較され、ユーザアクション画像に一致する制御命令タイプが選択される。
【0035】
比較結果がユーザアクション画像に一致する制御命令タイプが見つかったという場合、ユーザの位置は、対象の音声源の位置としてアサートされ、対象の音声源の位置情報、音声認識プログラムの開始情報、及び/又は制御命令タイプは、音声認識ステータス管理モジュール12に送られる。
【0036】
ユーザアクション画像に一致する制御命令タイプが見つからなかった場合、比較失敗情報が音声認識ステータス管理モジュール12に送られる。
【0037】
好ましい実施形態において、画像認識モジュール11は、特定のユーザの動きを訓練する必要がある。例えば、マルチメディアデバイス1は、人間−コンピュータ対話コンテンツをユーザに提示し、ユーザに対して、動きが「音声制御の開始」の制御命令タイプに対応する第1の画像テンプレートに一致するまで、右手を口元に置いて宣伝活動のような動きを行うよう指示する。他の実施例では、マルチメディアデバイス1は、ユーザに対して「ミュート」のプリセット制御命令タイプに対応する第2の画像テンプレート一致するまで口元を覆う動きを行うように指示できる。
【0038】
マルチメディアデバイス1の実施形態は、対象の音声源の位置に対応してピックアップ方向及びピックアップ角度を決定する、音波ビーム形成モジュール13をさらに含む。音声ピックアップアレイ技術を併用して雑音を除去するようになっており、音声認識の精度が改善される。
【0039】
例示的な実施形態において、ピックアップモジュール14は、アレイピックアップモジュールである。ピックアップモジュール14は、少なくとも1つの規則的に配列されたピックアップセンサを含む。対象の音声源から出た音声信号は、ピックアップ方向及びピックアップ角度の限定に照らして収集される。音声信号はデジタル化され、背景雑音が除去されて、音声データが生成されて音声認識モジュール15に送られる。
図4に示すアレイピックアップモジュール14の概略図を参照すると、アレイピックアップモジュール14は、規則的形状に基づいて配列された複数のピックアップセンサを含む。例えば、複数のピックアップセンサは、画像検出モジュール10の両側で、均等に間隔を置いた直線配列様式に基づいて均等かつ水平方向に配列される、
【0040】
図3に示すマルチメディアデバイス用音声制御システムの特定の処理フローチャートを参照すると、音波ビーム形成モジュール13は、アレイピックアップモジュール14で収集した音声信号の音波ビームメインローブの方向及び角度を判定し、つまりピックアップ方向及びピックアップ角度を判定し、結果的に、アレイピックアップモジュール14は、対象の音声源から放出された音声信号の収集に限定される。音波ビームを形成する一般的な方法は、遅延蓄積方法(従来型のビーム形成方法)、適応ビーム形成方法、及びポスト(post)に基づく適応フィルタリング方法を含み、この3つの方法には長所及び短所がある。遅延蓄積ビーム方法及びポストに基づく適応フィルタリング方法を適用してインコヒーレント雑音及び弱コヒーレント雑音を除去することができ、適応ビーム形成方法を適用してコヒーレント雑音を除去することができるが、これはインコヒーレント雑音及び散乱雑音を除去する場合には効果が不十分である。実際には、環境は、コヒーレント雑音及びインコヒーレント雑音を含むことが多く、ピックアップ方向及びピックアップ角度は、画像認識によって対象の音声源の位置を特定することで判定される。複数のTV視聴者が画像認識の範囲に存在していても、対象ユーザが出した音声信号だけが認識される。
【0041】
図3に示すマルチメディアデバイス用音声制御システムの特定の処理フローチャートを参照する。音声認識ステータス管理モジュール12は、マルチメディアデバイス用音声制御システムの認識ステータスの管理を担う。音声認識の開始情報を受け取ると、開始命令及び制御命令タイプを音声認識モジュール15に送って音声認識プログラムを作動させ、対象の音声源の位置を音波ビーム形成モジュール13に送り、ユーザからの音声信号を制御命令として認識し、制御命令は、アレイピックアップモジュール14によって音声認識モジュール15に送られ、音声認識モジュール15が処理する。比較失敗情報を受け取った場合、制御命令は音声認識モジュール15に送られて音声認識プログラムを停止するようになっている。
【0042】
更に、音声認識ステータス管理モジュール12は、音声認識プログラムを作動させ、マルチメディア機能モジュール16は、マルチメディアデバイスの出力音量を低減するように制御される。スマートTVは一例であるが、TVの出力音量は対象の音声源の音声信号の強度よりも小さくなるように制御される。一般に、スマートTVの音響出力は、ミュートになるように設定され、これにより、音声認識プログラムを妨害するTVの背景雑音を回避することができる。音声認識が終了するか又は比較失敗に起因して音声認識が停止した場合、音声認識モジュール15は起動せず、スマートTVの音響出力は、通常の出力音量に調節され、ユーザの音声信号は無視され、これにより無意識の音声命令による外乱を回避する。
【0043】
例示的な実施形態において、音声認識モジュール15は、ピックアップモジュール14からの音声データを認識して、或る制御命令タイプの制御命令を発生するようになっており、制御命令はマルチメディア機能モジュール16に送られる。
【0044】
例示的な実施形態において、音声認識モジュール15は、内蔵音声命令辞書をプリセットし、音声命令辞書は、処理された制御命令音声信号の用語モデルを格納し、用語モデルは、限定されるものではないが、「最後のチャンネル」、「次のチャンネル」、「出力音量増大」、「出力音量低減」、「CCTV1」、「フーナン衛星TV」等を含む。音声認識モジュール15は、音声データを音声命令辞書の用語モデルと比較し、音声データと少なくとも1つの用語モデルとの間の類似度がプリセット閾値よりも大きい場合、音声データは、用語モデルに対応する制御命令として決定され、制御命令はマルチメディア機能モジュール16に送られる。
【0045】
複雑な音声認識制御命令を実現するために、音声認識モジュール15は、ローカル音声認識モジュール151及びクラウド音声認識モジュール152をさらに含む。ローカル音声認識モジュール151は、限定されるものではないが、チャンネル切替え、出力音量の調節、電源オン及びオフを含む単純な制御命令を認識して処理するように構成される。クラウド音声認識モジュール152は、意味認識コンテンツを含む複雑な制御命令を認識して処理するように構成され、これは音声認識のクラウドサービスによって実現される。
【0046】
図3に示すマルチメディアデバイス音声認識システムの特定の処理フローチャートを参照すると、ローカル音声認識モジュール151は、音声データを認識して、或る制御命令タイプを有する制御命令を発生するようになっており、この制御命令はマルチメディア機能モジュール16に送られる。
【0047】
クラウド音声認識モジュール152は、ANHUI USTC iFLYTEK社が提供するオンラインサービス等の意味認識能力を備えた音声認識サービスプロバイダとすることができる。ユーザの音声データをローカル音声認識モジュール152で認識できない場合、つまり音声データと音声命令辞書の全ての用語モデルとの間の類似度がプリセット閾値よりも小さい場合、音声データは、ネットワーク経由でクラウド音声認識モジュール152に送られ、意味論的に認識されて或る制御命令タイプを有する制御命令を発生するようになっており、制御命令は、マルチメディア機能モジュール16に送られる。
【0048】
また、本開示にはマルチメディアデバイスのための音声制御方法が提示されており、
図5に示すマルチメディアデバイス用音声制御システムの基本的処理フローチャートを参照する。この方法は以下を含む。
【0049】
ステップS1において、ユーザアクション画像を画像検出モジュール10によって収集する。
【0050】
ステップS2において、画像認識モジュールによってユーザアクション画像に従って制御命令のタイプ又はステータスを判定する。
【0051】
ステップS3において、音声認識ステータス管理モジュール12によって現在の制御命令に従って音声認識を作動又は起動する。
【0052】
ステップS4において、音波ビーム形成モジュール13によってピックアップ方向及びピックアップ角度を判定する。
【0053】
ステップS5において、アレイピックアップモジュール14によって、ピックアップ方向及びピックアップ角度の限定に照らしてユーザの音声信号を収集し、音声信号をデジタル化して音声データを生成する。
【0054】
ステップS6において、収集した音声データを音声認識モジュール15で認識して制御命令を生成する。
【0055】
ステップS7において、制御命令をマルチメディア機能モジュール16で実行して関連のマルチメディア機能をユーザに提供する。
【0056】
図3に示すマルチメディアデバイス用音声制御システムの特定の処理フローチャートを参照すると、1つの実施形態において、マルチメディアデバイスのために音声制御方法は以下の通りである。
【0057】
ステップS1において、画像検出モジュール10によってユーザアクション画像を収集する。
【0058】
ステップS21において、画像認識モジュール11によってユーザアクション画像をプリセット画像テンプレートと比較し、ユーザアクション画像に一致する制御命令タイプを選択する。比較結果がユーザアクション画像に一致する制御命令タイプが見つかったという場合、次にステップS22を実行する。ユーザアクション画像に一致する制御命令タイプが見つからなかった場合、次にステップS23を実行する。
【0059】
ステップS22において、画像認識モジュール11によってユーザの位置が対象の音声源の位置としてアサートされ、対象の音声源の位置情報、音声認識プログラムの開始情報、及び/又は制御命令タイプを音声認識ステータス管理モジュール12に送る。
【0060】
ステップS23において、画像認識モジュール11によって比較失敗情報を音声認識ステータス管理モジュール12に送る。
【0061】
ステップS31において、音声認識ステータス管理モジュール12によって受け取った情報を解析し、情報が開始情報であればステップS32を実行し、情報が比較失敗情報であればステップS35を実行する。
【0062】
ステップS32において、音声認識ステータス管理モジュール12によって開始命令のタイプ及び制御情報を音声認識モジュール15に送り、音声認識プログラムを作動させる。
【0063】
ステップS33において、音声認識ステータス管理モジュール12によって対象の音声源の位置情報を音波ビーム形成モジュール13に送る。
【0064】
ステップS34において、マルチメディア機能モジュール16は、音声認識ステータス管理モジュール12によってマルチメディア出力音量を低減するように制御される。
【0065】
ステップS35において、音声認識ステータス管理モジュール12によって音声認識プログラムを停止する命令が送られる。
【0066】
ステップS4において、音波ビーム形成モジュール13によって、対象の音声源の位置情報に従ってピックアップ方向及びピックアップ角度を判定する。
【0067】
ステップS51において、アレイピックアップモジュール14によってピックアップ方向及びピックアップ角度の限定に従って対象の音声源から放出された音声信号を収集する。
【0068】
ステップS52において、収集した音声信号をアレイピックアップモジュール14でデジタル化して音声データを生成し、この音声データは音声認識モジュール15に送られる。
【0069】
ステップS61において、音声認識モジュール15によって、アレイピックアップモジュール14からの音声データを音声認識ステータス管理モジュール12からの開始命令及び制御命令タイプに従って認識して或る制御命令タイプを有する制御命令を生成し、この制御命令はマルチメディア機能モジュール16に送られる。
【0070】
ステップS7において、マルチメディア機能モジュール16によって制御命令を実行し、マルチメディア機能をユーザに提供する。
【0071】
特定の実施形態において、スマートTV1の画像検出モジュール10は、検出範囲内でユーザAが
図2に示す動きを取っていることを検出する。画像認識モジュール11は、ユーザアクション画像をプリセット画像テンプレートと比較し、ユーザアクション画像が「音声遠隔制御の開始」の制御命令タイプに対応する画像テンプレートと一致する場合、ユーザAの位置を対象の音声源の位置としてアサートし、対象の音声源の位置情報、音声認識プログラムの開始情報、及び/又は制御命令タイプを音声認識ステータス管理モジュール12に送る。音声認識ステータス管理モジュール12は、受信した音声認識の開始情報に応じて、開始命令及び制御命令タイプを音声認識モジュール15に送り、音声認識プログラムを作動させる。音声認識ステータス管理モジュール12は、対象の音声源の位置情報を音波ビーム形成モジュール13に送り、音波ビーム形成モジュール13は、画像検出及び認識範囲内に複数のTV視聴者が存在する場合であっても、ユーザAだけが対象ユーザであり、ユーザAの音声信号だけを認識できることを保証する。音波ビーム形成モジュール13は、対象の音声源の位置情報に従ってピックアップ方向及びピックアップ角度を決定する。アレイピックアップモジュール14は、音声のピックアップ方向及びピックアップ角度の限定に照らして「フーナン衛星TV」の音声信号を収集し、次に、音声信号をデジタル化して音声データを生成し、この音声データを音声認識モジュール15に送る。音声データは音声認識モジュール15で認識され、音声データと用語モデルとの間の類似度が閾値よりも大きい場合、「フーナン衛星TVチャンネルに同調させる」という制御命令が生成され、マルチメディア機能モジュール16に送られる。マルチメディア機能モジュール16はこの制御命令を実行してTVをフーナン衛星TVチャンネルに同調させる。
【0072】
また、1つの実施形態のマルチメディアデバイスのための音声制御方法が提供される。
図6に示す音声認識モジュール15の特定のフローチャートを参照すると、音声認識モジュール15は、ローカル音声認識モジュール151及びクラウド音声認識モジュール152を含み、音声認識モジュール15は、音声命令辞書をプリセットする。マルチメディアデバイスのための音声制御方法は以下の通りである。
【0073】
ステップS611において、ローカル音声認識モジュール151は、音声データを認識して音声データと音声命令辞書の用語モデルとを比較し、音声データと少なくとも1つの用語モデルとの間の類似度がプリセット閾値よりも大きい場合はステップS612を実行し、そうでない場合はステップS613を実行する。
【0074】
ステップS612において、ローカル音声認識モジュール151は、音声データを用語モデルに対応した制御命令と判定し、この制御命令はマルチメディア機能モジュール16に送られる。
【0075】
ステップS613において、音声データは、ネットワーク経由でクラウド音声認識モジュール152に送られる。
【0076】
ステップS614において、クラウド音声認識モジュール152は、音声データを認識して制御命令を生成し、この制御命令は、マルチメディア機能モジュール16に送られる。
【0077】
特定の実施形態において、ステップS1からステップS51は前記の実施形態と同じである。アレイピックアップモジュール14は、ユーザAから「Andy Lauの歌を再生する」という音声信号を収集し、この音声信号をデジタル化して音声データを生成し、この音声データは、音声認識モジュール15に送られる。音声データは、音声認識モジュール15のローカル音声認識モジュール151によって認識され、音声データは、音声命令辞書の用語モデルと比較され、音声データと音声命令辞書の全ての用語モデルとの間の類似度がプリセット閾値よりも小さい場合、音声データは、ネットワーク経由でクラウド音声認識モジュール152に送られる。クラウド音声認識モジュール152は、音声データを認識してユーザの音声データに従って「Andy Lauの歌を再生する」という制御命令を生成し、この制御命令は、マルチメディア機能モジュール16に送られる。マルチメディア機能モジュール16はこの制御命令を実行し、Andy Lauの歌を検索エンジンで検索し、歌のビデオ及びオーディオデータをダウンロードしてスマートTV1の音楽再生モジュールに送り、オーディオ及びビデオデータが再生される。
【0078】
例示的な実施形態において、画像認識技術、音声認識技術、及びコンピュータ記憶媒体が組み合わされ、携帯型遠隔制御ユニットに依存せず、近接ピックアップデバイスに制限されない、自由かつ好都合な音声制御が実現される。制御命令音声認識に対する、マルチメディアデバイスの音響出力、環境背景雑音、及びユーザの非制御命令音声信号の妨害を効果的に回避することができ、ユーザの命令を正確に認識できるので、複数のユーザが一緒に又は別々にマルチメディアデバイスを制御することができる。
【0079】
当業者であれば、実施形態による方法の全ての又は一部のプロセスは、コンピュータプログラム命令関連ハードウェアで実装できることを理解できるはずである。プログラムは、コンピュータ可読記憶媒体に格納することができる。プログラムを実行する場合に本発明の実施形態による方法プロセスが実行される。記憶媒体は、磁気ディスク、光ディスク、読み出し専用メモリ(ROM)、又はランダムアクセスメモリ(RAM)とすることができる。
【0080】
本発明は、これらの実施形態及び本発明を実施する最良の態様を参照して説明されているが、当業者であれば、特許請求の範囲で定義されることが意図された本発明の範囲を逸脱することなく種々の変形及び変更を行い得ることを理解できる。
【符号の説明】
【0081】
1 マルチメディアデバイス
10 画像検出モジュール
11 画像認識モジュール
12 音声認識ステータス管理モジュール
13 音波ビーム形成モジュール
14 ピックアップモジュール
15 音声認識モジュール
16 マルチメディア機能モジュール