(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-09
(45)【発行日】2024-08-20
(54)【発明の名称】オーディオ装置
(51)【国際特許分類】
G10L 15/28 20130101AFI20240813BHJP
H04R 3/00 20060101ALI20240813BHJP
G10L 15/00 20130101ALI20240813BHJP
G06F 3/01 20060101ALI20240813BHJP
G06F 3/16 20060101ALI20240813BHJP
【FI】
G10L15/28 230K
H04R3/00 310
G10L15/00 200G
G10L15/28 230J
G06F3/01 510
G06F3/16 650
G06F3/01 570
(21)【出願番号】P 2020151986
(22)【出願日】2020-09-10
【審査請求日】2023-03-30
(73)【特許権者】
【識別番号】309039716
【氏名又は名称】株式会社ディーアンドエムホールディングス
(74)【代理人】
【識別番号】100104570
【氏名又は名称】大関 光弘
(72)【発明者】
【氏名】大田 悠児
【審査官】渡部 幸和
(56)【参考文献】
【文献】米国特許出願公開第2019/0394602(US,A1)
【文献】米国特許出願公開第2019/0371334(US,A1)
【文献】国際公開第2020/079941(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00
H04R 3/00
G06F 3/00
(57)【特許請求の範囲】
【請求項1】
オーディオデータを出力するオーディオ装置であって、
マイクと、
カメラと、
前記マイクに入力された音声信号からユーザの音声コマンドを認識する音声コマンド認識手段と、
前記カメラで撮像された映像信号からユーザのモーションコマンドを認識するモーションコマンド認識手段と、
前記音声コマンド認識手段により認識された音声コマンドおよび前記モーションコマンド認識手段により認識されたモーションコマンドに基づいて自装置の制御を実施する制御手段と、を備え、
前記制御手段は、
オーディオデータの出力停止中、あるいはオーディオデータの出力中において当該オーディオデータの出力音量が所定値未満の場合に、前記音声コマンド認識手段により認識された音声コマンドに基づいて自装置の制御を実施する音声コマンド認識モードで動作し、オーディオデータの出力中において当該オーディオデータの出力音量が前記所定値以上の場合に、前記モーションコマンド認識手段により認識されたモーションコマンドに基づいて自装置の制御を実施するモーションコマンド認識モードで動作する
ことを特徴とするオーディオ装置。
【請求項2】
請求項
1に記載のオーディオ装置であって、
前記制御手段の動作モードが前記音声コマンド認識モードであるか、それとも前記モーションコマンド認識モードであるかをユーザに通知する動作モード通知手段をさらに備えている
ことを特徴とするオーディオ装置。
【請求項3】
請求項
2に記載のオーディオ装置であって、
前記動作モード通知手段は、
少なくとも一つの発光ダイオードを備え、前記発光ダイオードの表示形態により前記制御手段の動作モードをユーザに通知する
ことを特徴とするオーディオ装置。
【請求項4】
請求項
2または
3に記載のオーディオ装置であって、
前記動作モード通知手段は、
前記制御手段の動作モードが変更された場合に、その旨の音声メッセージを出力する
ことを特徴とするオーディオ装置。
【請求項5】
請求項
2ないし
4のいずれか一項に記載のオーディオ装置であって、
前記動作モード通知手段は、
前記制御手段の動作モードが前記音声コマンド認識モードから前記モーションコマンド認識モードに変更された場合に、前記カメラに向かってジェスチャーするように促す音声メッセージを出力する
ことを特徴とするオーディオ装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオプレーヤ、ワイヤレススピーカ等のオーディオ装置の遠隔操作技術に関する。
【背景技術】
【0002】
近年、オーディオデータの再生、停止、音量レベルの増減等の各種操作を音声で受け付けることができる音声操作受付機能を有するオーディオ装置が普及している(例えば、特許文献1、2)。
【0003】
この種のオーディオ装置では、マイクに入力された音声信号からユーザの音声コマンドを認識し、認識した音声コマンドに基づいてオーディオ装置の各種制御を実施する。これにより、リモートコントローラを用いることなくオーディオ装置を遠隔操作することができる。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2014-219614号公報
【文献】特開2014-026603号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来の音声操作受付機能を有するオーディオ装置では、オーディオの出力音量が大きいと、オーディオ出力中にマイクに入力された音声信号からユーザの音声コマンドを正しく認識できず、音声操作の受付に失敗することがある。このような場合、ユーザは、オーディオ装置の設置場所まで移動して、オーディオ装置の操作パネルを操作して指示を直接入力しなければならず煩雑である。
【0006】
本発明は上記事情に鑑みてなされたものであり、その目的は、オーディオ出力中でもリモートコントローラを用いることなく遠隔操作が可能なオーディオ装置を提供することにある。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明のオーディオ装置は、マイクに入力された音声信号からユーザの音声コマンドを認識する音声コマンド認識機能に加えて、カメラで撮像された映像信号からユーザのモーションコマンドを認識するモーションコマンド認識機能を搭載し、音声コマンド認識機能により認識されたユーザの音声コマンドおよびモーションコマンド認識機能により認識されたモーションコマンドに基づいて、自装置の各種制御を実施する。
【0008】
例えば、本発明は、
オーディオデータを出力するオーディオ装置であって、
マイクと、
カメラと、
前記マイクに入力された音声信号からユーザの音声コマンドを認識する音声コマンド認識手段と、
前記カメラで撮像された映像信号からユーザのモーションコマンドを認識するモーションコマンド認識手段と、
前記音声コマンド認識手段により認識された音声コマンドおよび前記モーションコマンド認識手段により認識されたモーションコマンドに基づいて自装置の各種制御を実施する制御手段と、を備え、
前記制御手段は、
オーディオデータの出力停止中、あるいはオーディオデータの出力中において当該オーディオデータの出力音量が所定値未満の場合に、前記音声コマンド認識手段により認識された音声コマンドに基づいて自装置の制御を実施する音声コマンド認識モードで動作し、オーディオデータの出力中において当該オーディオデータの出力音量が前記所定値以上の場合に、前記モーションコマンド認識手段により認識されたモーションコマンドに基づいて自装置の制御を実施するモーションコマンド認識モードで動作する。
【発明の効果】
【0009】
本発明のオーディオ装置は、マイクに入力された音声信号からユーザの音声コマンドを認識する音声コマンド認識機能に加えて、カメラで撮像された映像信号からユーザのモーションコマンドを認識するモーションコマンド認識機能を搭載している。このため、オーディオ出力中に、オーディオの出力音量が大きくて、マイクに入力された音声信号からユーザの音声コマンドを正しく認識できない場合でも、ジェスチャーによりユーザから遠隔操作を受け付けることができる。したがって、本発明のオーディオ装置によれば、オーディオ出力中でもリモートコントローラを用いることなく遠隔操作が可能となる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、本発明の一実施の形態に係るワイヤレススピーカ1を備えたオーディオシステムの概略構成図である。
【
図2】
図2は、ワイヤレススピーカ1の概略機能構成図である。
【
図3】
図3は、
図2に示すワイヤレススピーカ1の動作モード設定処理を説明するためのフロー図である。
【発明を実施するための形態】
【0011】
以下に、本発明の一実施の形態について、図面を参照して説明する。
【0012】
図1は、本実施の形態に係るワイヤレススピーカ1を備えたオーディオシステムの概略構成図である。
【0013】
図示するように、本実施の形態に係るワイヤレススピーカ1は、アクセスポイント3およびWAN、LAN等のネットワーク4を介してメディアサーバ2に接続されており、メディアサーバ2からオーディオデータをダウンロードして再生・出力する。
【0014】
図2は、ワイヤレススピーカ1の概略機能構成図である。
【0015】
図示するように、ワイヤレススピーカ1は、スピーカ10と、マイク11と、カメラ12と、複数のLEDで構成されたLEDアレイ13と、無線ネットワークインターフェース部14と、オーディオデータ記憶部15と、オーディオ再生部16と、音声コマンド認識部17と、モーションコマンド認識部18と、LED起動部19と、主制御部20と、を備えている。
【0016】
スピーカ10、マイク11、カメラ12、およびLEDアレイ13は、
図1に示すように、ワイヤレススピーカ1の前面に設けられ、マイク11は、スピーカ10のリスニングポイントにいるリスナーの音声を集音し、カメラ12は、スピーカ10のリスニングポイントにいるリスナーを撮像する。また、LEDアレイ13は、複数のLEDの表示形態によりワイヤレススピーカ1の動作モード(後述の音声コマンド認識モードおよびモーションコマンド認識モードのいずれか)をリスナーに知らせる。
【0017】
無線ネットワークインターフェース部14は、アクセスポイント3に無線接続するためのインターフェースである。
【0018】
オーディオデータ記憶部15には、メディアサーバ2からダウンロードしたオーディオデータが記憶される。
【0019】
オーディオ再生部16は、オーディオデータ記憶部15に記憶されているオーディオデータを再生して、その再生信号をスピーカ10から出力する。
【0020】
音声コマンド認識部17は、マイク11に入力された音声信号に対する音声認識処理を実施して、リスナーの発話内容を認識する。そして、その認識結果からリスナーの音声コマンドを検出する。例えば、オーディオデータの再生開始を指示する「再生開始」、オーディオデータの再生停止を指示する「再生停止」、再生するオーディオデータの切替えを指示する「選曲切替」、再生音の音量アップを指示する「音量アップ」、再生音の音量ダウンを指示する「音量ダウン」等の音声コマンドを検出する。音声コマンド認識部17には、例えば、上述の特許文献1、2等に記載の技術を利用することができる。
【0021】
モーションコマンド認識部18は、カメラ12で撮像された映像信号に対するモーション認識処理を実施して、リスナーのジェスチャーを認識する。そして、その認識結果からリスナーのモーションコマンドを検出する。例えば、再生するオーディオデータの切替えを指示する「片手を上げた状態からその手を回すジェスチャー」、オーディオデータの再生停止を指示する「両手を上げた状態から左右に振るジェスチャー」、再生音の音量アップを指示する「片手を下げて停止した状態からその手を上げるジェスチャー」、再生音の音量ダウンを指示する「片手を上げて停止した状態からその手を下げるジェスチャー」等を検出する。モーションコマンド認識部18には、例えば、国際公開WO2016/051521号、特表2013-517051号等に記載の技術を利用することができる。
【0022】
LED起動部19は、LEDアレイ13を構成する各LEDの駆動を制御する。
【0023】
そして、主制御部20は、ワイヤレススピーカ1の各部10~19を統括的に制御する。例えば、主制御部20は、動作モードが音声コマンド認識モードである場合、音声コマンド認識部17により検出された音声コマンドに基づいて、ワイヤレススピーカ1の各種制御を実施し、動作モードがモーションコマンド認識モードである場合、モーションコマンド認識部18により検出されたモーションコマンドに基づいて、ワイヤレススピーカ1の各種制御を実施する。また、主制御部20は、オーディオデータの再生状態に基づいて動作モードを設定するとともに、LED起動部19に、動作モードに応じた表示形態でLEDアレイ13を駆動させる。
【0024】
なお、
図2に示すワイヤレススピーカ1の機能構成は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積ロジックICによりハード的に実現されるものでもよいし、あるいはDSP(Digital Signal Processor)等の計算機によりソフトウエア的に実現されるものでもよい。または、CPUと、メモリと、フラッシュメモリ、ハードディスクドライブ等の補助記憶装置と、無線LANアダプタ等の無線通信装置と、を備えたコンピュータシステムにおいて、CPUが所定のプログラムを補助記憶装置からメモリ上にロードして実行することにより実現されるものでもよい。
【0025】
図3は、
図2に示すワイヤレススピーカ1の動作モード設定処理を説明するためのフロー図である。
【0026】
主制御部20は、オーディオ再生部16がオーディオデータを再生中でない場合(S100でNO)、あるいはオーディオデータを再生中であるが(S100でYES)、その出力音量が所定の閾値未満である場合(S101でNO)、ワイヤレススピーカ1の動作モードを音声コマンド認識モードに設定する(S102)。これにより、主制御部20は、音声コマンド認識部17により検出された音声コマンドに基づいて、ワイヤレススピーカ1の各種制御を実施する。また、主制御部20は、LED起動部19に音声コマンド認識モード表示を指示する。これを受けて、LED起動部19は、音声コマンド認識モードの表示形態によりLEDアレイ13を点灯表示させる(S103)。例えば、LEDアレイ13を構成するLEDをすべて点灯させる。
【0027】
また、主制御部20は、オーディオ再生部16が所定の閾値以上の出力音量でオーディオデータを再生中である場合(S100、S101でともにYES)、ワイヤレススピーカ1の動作モードをモーションコマンド認識モードに設定する(S104)。これにより、主制御部20は、モーションコマンド認識部18により検出されたモーションコマンドに基づいて、ワイヤレススピーカ1の各種制御を実施する。また、主制御部20は、LED起動部19にモーションコマンド認識モード表示を指示する。これを受けて、LED起動部19は、モーションコマンド認識モードの表示形態によりLEDアレイ13を点灯表示させる(S105)。例えば、LEDアレイ13を構成するLEDを繰り返し所定の順番で点滅させる。
【0028】
以上、本発明の一実施の形態について説明した。
【0029】
本実施の形態のワイヤレススピーカ1は、マイク11に入力された音声信号に対して音声認識処理を実施してリスナーの発話を認識し、その認識結果からリスナーの音声コマンドを検出する音声コマンド認識部17に加えて、カメラ12で撮像された映像信号に対してモーション認識処理を実施してリスナーのジェスチャーを認識し、その認識結果からリスナーのモーションコマンドを検出するモーションコマンド認識部18と、を備えている。このため、オーディオデータの再生中において、オーディオデータの出力音量が大きくて、マイク11に入力された音声信号からリスナーの音声コマンドを正しく認識できない場合でも、ジェスチャーによりリスナーから遠隔操作を受け付けることができる。したがって、本実施の形態によれば、オーディオデータの再生中でもリモートコントローラを用いることなく遠隔操作が可能となる。
【0030】
また、本実施の形態のワイヤレススピーカ1は、オーディオデータの再生停止中、あるいはオーディオデータの再生中であってもその出力音量が所定の閾値未満の場合には音声コマンド認識モードで動作し、オーディオデータの再生中においてその出力音量が所定の閾値以上の場合に、すなわち、音声コマンドを正しく認識できない可能性が高い場合にモーションコマンド認識モードで動作する。音声コマンド認識モードの場合は、カメラ12およびモーションコマンド認識部18の動作を停止し、モーションコマンド認識モードの場合は、マイク11および音声コマンド認識部17の動作を停止することにより、不要な電力消費を削減して省電力化を図ることができる。
【0031】
また、本実施の形態のワイヤレススピーカ1は、動作モードに応じてLEDアレイ13の表示形態を変えることにより、現在の動作モードをリスナーに知らせることができるので、リスナーは、動作モードに応じた適切な方法(音声コマンドの発話、モーションコマンドに応じたジェスチャー)によりワイヤレススピーカ1を遠隔操作することができる。
【0032】
なお、本発明は上記の実施の形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。
【0033】
例えば、上記の実施の形態では、複数のLEDで構成されたLEDアレイ13の表示形態を変えることによりリスナーに動作モードを知らせているが、単一のLEDの表示形態(点灯、点滅等)によりリスナーに動作モードを知らせるようにしてもよい。また、LEDアレイ13に代えてLCD等の表示パネルに動作モードを表示してもよい。さらには、LEDアレイ13による点灯表示に代えて、あるいは、LEDアレイ13よる点灯表示とともに、動作モードが変更された場合にその旨の音声メッセージをスピーカ10から出力するようにしてもよい。すなわち、主制御部20は、動作モードが変更されると、オーディオ再生部16に変更後の動作モードを通知して音声メッセージ出力を指示する。これを受けて、オーディオ再生部16は、通知された動作モードに対応する音源を再生して、通知された動作モードに変更されたことを示す音声メッセージをスピーカ10から出力する。
【0034】
また、上記の実施の形態において、動作モードが音声コマンド認識モードからモーションコマンド認識モードに変更された場合に、リスナーに対して、カメラ12に向かってジェスチャーするように促す音声メッセージを出力するようにしてもよい。すなわち、主制御部20は、動作モードが音声コマンド認識モードからモーションコマンド認識モードに変更されると、オーディオ再生部16にモーションコマンド認識モードへの変更を通知して音声メッセージ出力を指示する。これを受けて、オーディオ再生部16は、モーションコマンド認識モードに対応する音源を再生して、リスナーに対して、動作モードがモーションコマンド認識モードに変更されたのでカメラ12に向かってジェスチャーするように促す音声メッセージをスピーカ10から出力する。
【0035】
また、上記の実施の形態は、オーディオデータの再生停止中、あるいはオーディオデータの再生中であってもその出力音量が所定の閾値未満の場合に、音声コマンド認識モードで動作し、オーディオデータの再生中においてその出力音量が所定の閾値以上の場合に、すなわち、音声コマンドを正しく認識できない可能性が高い場合に、モーションコマンド認識モードで動作する。しかし、本発明はこれに限定されない。
【0036】
例えば、マイク11に入力された音声信号に含まれる環境ノイズ成分の音量レベルを監視し、環境ノイズ成分の音量レベルが所定の閾値未満の場合に、音声コマンド認識モードで動作し、所定の閾値以上の場合に、すなわち、音声コマンドを正しく認識できない可能性が高い場合に、モーションコマンド認識モードで動作するようにしてもよい。
【0037】
あるいは、音声コマンド認識モードおよびモーションコマンド認識モードの両方を同時に稼働させてもよい。すなわち、マイク11および音声コマンド認識部17と、カメラ12およびモーションコマンド認識部18と、を同時に稼働させ、音声コマンド認識部17により音声コマンドが認識された場合は、この音声コマンドに従ってワイヤレススピーカ1の各種制御を実施し、モーションコマンド認識部18によりモーションコマンドが認識された場合は、このモーションコマンドに従ってワイヤレススピーカ1の各種制御を実施してもよい。
【0038】
また、上記の実施の形態では、手によるジェスチャーにコマンドを割り当てた場合を例として挙げているが、例えば、指、顔(目、眼球、口等)等の手以外の部位によるジェスチャー、複数の部位によるジェスチャーの組合せにコマンドを割り当ててもよい。
【0039】
また、上記の実施の形態では、あらかじめ定められたジェスチャーにコマンドを割り当てているが、リスナーが定めたジェスチャーにコマンドを割り当てるようにしてもよい。または、ジェスチャーによるコマンド入力を採用している他の電子機器(スマートフォン、タブレットPC、ポータブルオーディオプレーヤ等)ごとに、コマンドとジェスチャーとの対応情報をワイヤレススピーカ1に記憶しておき、これらの対応情報のなかからリスナーが選択した対応情報に従ってワイヤレススピーカ1がリスナーのジェスチャーからコマンドを認識するようにしてもよい。これにより、リスナーは、自身が使用している他の電子機器と同じジェスチャーでワイヤレススピーカ1を操作することができる。
【0040】
また、上記の実施の形態では、ワイヤレススピーカ1を例にとり説明したが、本発明は、オーディオプレーヤ、オーディオアンプ等のオーディオデータを出力するオーディオ装置に広く適用することができる。
【符号の説明】
【0041】
1:ワイヤレススピーカ 2:メディアサーバ 3:アクセスポイント
4:ネットワーク 10:スピーカ 11:マイク 12:カメラ
13:LEDアレイ 14:無線ネットワークインターフェース部
15:オーディオデータ記憶部 16:オーディオ再生部
17:音声コマンド認識部 18:モーションコマンド認識部
19:LED起動部 20:主制御部