(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024031241
(43)【公開日】2024-03-07
(54)【発明の名称】収音制御方法および収音装置
(51)【国際特許分類】
H04R 3/00 20060101AFI20240229BHJP
【FI】
H04R3/00 320
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2022134670
(22)【出願日】2022-08-26
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】大泉 好史
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220BA06
5D220BC05
(57)【要約】
【課題】利用者が簡単に収音対象範囲を設定でき、利用者が収音対象範囲を認識することができる収音設定方法を提供する。
【解決手段】音収音設定方法は、カメラで撮影した画像から特定のオブジェクトを検出し、特定した前記特定のオブジェクトの、前記画像内の位置情報を取得し、取得した前記位置情報に基づいて指向性変更可能なマイクの収音対象範囲を設定する。
【選択図】
図4
【特許請求の範囲】
【請求項1】
話者を認識し、
認識した前記話者の位置を検出し、
検出した前記話者の位置に基づいて第1の収音ビームを設定し、
前記話者以外の特定のオブジェクトを認識し、
認識した前記特定のオブジェクトの位置を検出し、
検出した前記特定のオブジェクトの位置に基づいて第2の収音ビームを設定する、
収音制御方法。
【請求項2】
前記第2の収音ビームを設定することは、前記特定のオブジェクトの位置に基づいて、他の方向よりも感度の低い非収音ビームを設定することを含む、
請求項1に記載の収音制御方法。
【請求項3】
前記第1の収音ビームおよび前記第2の収音ビームの合計数は上限を有し、
該上限を超える場合に、新たな前記第1の収音ビームを設定しない、または最も過去に設定した前記第1の収音ビームに代えて新たな前記第1の収音ビームを設定する、
請求項1または請求項2に記載の収音制御方法。
【請求項4】
前記第1の収音ビームおよび前記第2の収音ビームの合計数は上限を有し、
該上限を超える場合に、予め規定された優先度に基づいて、過去に設定した前記第1の収音ビームに代えて新たな前記第1の収音ビームを設定する、
請求項1または請求項2に記載の収音制御方法。
【請求項5】
前記第1の収音ビームおよび前記第2の収音ビームの合計数は上限を有し、
該上限を超える場合に、予め規定された優先度に基づいて、過去に設定した前記第2の収音ビームに代えて新たな前記第1の収音ビームを設定する、
請求項1または請求項2に記載の収音制御方法。
【請求項6】
前記第1の収音ビームおよび前記第2の収音ビームの合計数は上限を有し、
該上限を超える場合に、利用者により選択された前記第1の収音ビームまたは前記第2の収音ビームに代えて、新たな前記第1の収音ビームを設定する、
請求項1または請求項2に記載の収音制御方法。
【請求項7】
前記第1の収音ビームまたは前記第2の収音ビームに対するミュート操作を受け付けて、
該ミュート操作を受け付けた前記第1の収音ビームまたは前記第2の収音ビームをミュートする、
請求項1または請求項2に記載の収音制御方法。
【請求項8】
アレイマイクと、
話者を認識する話者認識部と、
前記話者認識部で認識した前記話者の位置を検出する話者位置検出部と、
前記話者位置検出部で検出した前記話者の位置に基づいて前記アレイマイクに第1の収音ビームを設定する第1収音ビーム設定部と、
前記話者以外の特定のオブジェクトを認識するオブジェクト認識部と、
前記オブジェクト認識部で認識した前記特定のオブジェクトの位置を検出するオブジェクト位置検出部と、
前記オブジェクト位置検出部で検出した前記特定のオブジェクトの位置に基づいて前記アレイマイクに第2の収音ビームを設定する第2収音ビーム設定部と、
を備えた収音装置。
【請求項9】
前記第2の収音ビームを設定することは、前記特定のオブジェクトの位置に基づいて、他の方向よりも感度の低い非収音ビームを設定することを含む、
請求項8に記載の収音装置。
【請求項10】
前記第1の収音ビームおよび前記第2の収音ビームの合計数は上限を有し、
前記第1収音ビーム設定部は、該上限を超える場合に、新たな前記第1の収音ビームを設定しない、または最も過去に設定した前記第1の収音ビームに代えて新たな前記第1の収音ビームを設定する、
請求項8または請求項9に記載の収音装置。
【請求項11】
前記第1の収音ビームおよび前記第2の収音ビームの合計数は上限を有し、
前記第1収音ビーム設定部は、該上限を超える場合に、予め規定された優先度に基づいて、過去に設定した前記第1の収音ビームに代えて新たな前記第1の収音ビームを設定する、
請求項8または請求項9に記載の収音装置。
【請求項12】
前記第1の収音ビームおよび前記第2の収音ビームの合計数は上限を有し、
前記第1収音ビーム設定部は、該上限を超える場合に、予め規定された優先度に基づいて、過去に設定した前記第2の収音ビームに代えて新たな前記第1の収音ビームを設定する、
請求項8または請求項9に記載の収音装置。
【請求項13】
前記第1の収音ビームおよび前記第2の収音ビームの合計数は上限を有し、
前記第1収音ビーム設定部は、該上限を超える場合に、利用者により選択された前記第1の収音ビームまたは前記第2の収音ビームに代えて、新たな前記第1の収音ビームを設定する、
請求項8または請求項9に記載の収音装置。
【請求項14】
前記第1の収音ビームまたは前記第2の収音ビームに対するミュート操作を受け付けて、該ミュート操作を受け付けた前記第1の収音ビームまたは前記第2の収音ビームをミュートするミュート制御部と、
を備えた請求項8または請求項9に記載の収音装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一実施形態は、収音制御方法および収音装置に関する。
【背景技術】
【0002】
特許文献1には、入力部から入力される第1画像データにおいて視線方向を検知し、前記視線方向の検知結果と対応情報とに基づき、収音方向を制御する収音装置が開示されている。特許文献1の発明は、視線に応じて収音ビームの方向を変化させる動的ビームを開示している。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
利用者は、重要な発言者(例えば重役)の声を確実に通話相手に届けるため、特定の人に対して収音ビームの方向を向け続ける設定にしたい場合がある。
【0005】
本発明の一実施形態は、動的ビームを利用しながら、特定の人に対して簡単に収音ビームを向け続ける設定を行うことができる収音制御方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一実施形態に係る収音制御方法は、話者を認識し、認識した前記話者の位置を検出し、検出した前記話者の位置に基づいて第1の収音ビームを設定し、前記話者以外の特定のオブジェクトを認識し、認識した前記特定のオブジェクトの位置を検出し、検出した前記特定のオブジェクトの位置に基づいて第2の収音ビームを設定する。
【発明の効果】
【0007】
本発明の一実施形態によれば、動的ビームを利用しながら、特定の人に対して簡単に収音ビームを向け続ける設定を行うことができる。
【図面の簡単な説明】
【0008】
【
図1】収音装置1および表示器3の外観斜視図である。
【
図3】収音装置1の機能的構成を示すブロック図である。
【
図4】認識部100、位置検出部110、および収音ビーム設定部120の動作を示すフローチャートである。
【
図5】認識部100、位置検出部110、および収音ビーム設定部120の動作を示すフローチャートである。
【
図6】カメラ11で撮影した画像の一例を示す図である。
【
図7】
図6に示した画像に対応する室内を平面視した図である。
【
図8】変形例1に係る、カメラ11で撮影した画像の一例を示す図である。
【
図9】
図8に示した画像に対応する室内を平面視した図である。
【
図10】変形例2に係る、収音装置1の構成を示すブロック図である。
【
図11】変形例3に係る制御部15の動作を示すフローチャートである。
【
図12】変形例4に係る制御部15の動作を示すフローチャートである。
【
図13】変形例5に係る制御部15の動作を示すフローチャートである。
【
図14】変形例6に係る制御部15の動作を示すフローチャートである。
【
図15】変形例7に係る制御部15の動作を示すフローチャートである。
【
図16】変形例8に係る制御部15の機能的構成を示すブロック図である。
【
図17】天井に設置される収音装置1を示す外観斜視図である。
【発明を実施するための形態】
【0009】
図1は、収音装置1および表示器3の外観斜視図である。収音装置1は、幅方向に長い直方体形状の筐体を備える。収音装置1の筐体は、一例として、表示器3の上面に乗せられる。収音装置1は、該筐体の正面においてカメラ11と、複数のスピーカ12と、複数のマイク14と、を備えている。カメラ11、複数のスピーカ12、および複数のマイク14は、筐体の正面に幅方向に並んで配置されている。この例では、カメラ11は、筐体の正面の中央に配置されている。複数のスピーカ12は、筐体の正面の左側に配置されている。複数のマイク14は、筐体の正面の右側に配置されている。
【0010】
なお、この例においては、複数のスピーカ12の数は2つであるが、1つであってもよいし、さらに複数であってもよい。また、スピーカ12を備えることは本発明において必須ではない。また、この例においては、マイクの数は6個である。複数のマイク14は、後述のビームフォーミングにより指向性変更可能なマイクとして機能する。複数のマイク14は、少なくとも2個以上であればビームフォーミングにより指向性変更可能である。
【0011】
図2は、収音装置1の構成を示すブロック図である。収音装置1は、カメラ11、複数のスピーカ12、複数のマイク14、制御部15、メモリ17、およびインタフェース(I/F)19を備えている。
【0012】
メモリ17は、制御部15の動作用プログラムを記憶した記憶媒体である。制御部15は、メモリ17から動作用プログラムを読み出して種々の動作を行う。なお、プログラムは、メモリ17に記憶されている必要はない。例えば、プログラムは、サーバ等の外部装置の記憶媒体に記憶されていてもよい。この場合、制御部15は、該サーバから都度プログラムを読み出して実行すればよい。
【0013】
制御部15は、複数のマイク14で取得した音信号を受信する。制御部15は、複数のマイク14で取得した音信号にビームフォーミングを施す。ビームフォーミングは、複数のマイク14で取得した音信号に遅延を付加して合成することで、所定の方向に向けて指向性を有する収音ビームを形成する処理である。収音ビームは、所定の位置に焦点を結ぶ様な指向性を形成することもできる。制御部15は、例えば話者の位置に焦点を結ぶ収音ビームを形成する。収音ビームは、同時に複数形成することもできる。
【0014】
制御部15は、収音ビームに係る音信号をI/F19に出力する。I/F19は、例えば通信I/Fであり、該収音ビームに係る信号を、PC等の情報処理装置に送信する。情報処理装置は、該音信号を外部の装置(遠隔地)に送信する。
【0015】
PC等の情報処理装置は、外部の装置から音信号を受信する。情報処理装置は、I/F19を介して収音装置1に音信号を送信する。制御部15は、I/F19を介して情報処理装置から受信した音信号を複数のスピーカ12に出力する。複数のスピーカ12は、制御部15から受信した音信号を放音する。
【0016】
これにより、収音装置1の利用者は、遠隔地の利用者と音声会議を行うことができる。また、制御部15は、カメラ11で撮影した画像を、PC等の情報処理装置を介して外部の装置(遠隔地)に送信してもよい。PC等の情報処理装置は、外部の装置から画像を受信する。PC等の情報処理装置は、当該画像を表示器3に表示する。これにより、収音装置1の利用者は、遠隔地の利用者とビデオ会議を行うこともできる。
【0017】
図3は、制御部15の機能的構成を示すブロック図である。制御部15は、メモリ17から読み出したプログラムにより、
図3に示す機能的構成を実現する。
【0018】
制御部15は、機能的に、認識部100、位置検出部110、収音ビーム設定部120、およびアレイマイク130を備えている。
図4および
図5は、認識部100、位置検出部110、および収音ビーム設定部120の動作を示すフローチャートである。
【0019】
認識部100は、話者を認識する話者認識部101、およびオブジェクトを認識するオブジェクト認識部102を有する。話者認識部101は、カメラ11で撮影した画像から話者を認識する処理を行う(S11)。オブジェクト認識部102は、カメラ11で撮影した画像からオブジェクトを認識する処理を行う(S21)。
【0020】
図6は、カメラ11で撮影した画像の一例を示す図である。カメラ11で撮影した画像は、例えば表示器3上にOSD(On-Screen Display)で表示してもよい。
【0021】
オブジェクトとは、画像から認識可能な実体物であり、例えば人物を含む。オブジェクト認識部102は、例えば顔認識処理を行なうことにより、人物を検出する。顔認識処理は、例えばニューラルネットワーク等を用いた所定のモデルに、人物の顔とカメラの画像との関係を訓練した訓練済モデルを用いて、人物を検出する処理である。
【0022】
本実施形態において、モデルを訓練させるためのアルゴリズムは限定されず、CNN(Convolutional Neural Network)やRNN(Recurrent Neural Network)等の任意の機械訓練アルゴリズムを用いることができる。機械訓練アルゴリズムは、教師あり訓練、教師なし訓練、半教師訓練、強化訓練、逆強化訓練、能動訓練、あるいは転移訓練等であってもよい。また、モデルは、HMM(Hidden Markov Model:隠れマルコフモデル)やSVM(Support Vector Machine)等の機械訓練モデルで訓練されてもよい。
【0023】
図6の例では、オブジェクト認識部102は、4人の人物(O1~O4)を検出している。
【0024】
また。オブジェクト認識部102は、カメラ11で撮影した画像から特定のオブジェクトを検出する処理を行う。特定のオブジェクトは、人物以外のオブジェクト、あるいはある特定の人物である。この例では、特定のオブジェクトとは、
図6に示す様なポールのオブジェクトSO1である。オブジェクト認識部102は、予め登録した特定のオブジェクトの画像に基づいて、特定のオブジェクトを認識する。特定のオブジェクトの認識処理は、顔認識処理と同様に、例えばニューラルネットワーク等を用いた所定のモデルに、特定のオブジェクトの画像とカメラの画像との関係を訓練した訓練済モデルを用いて、特定のオブジェクトを認識する処理である。
【0025】
なお、特定のオブジェクトは、
図6に示したポールのオブジェクトに限らない。特定のオブジェクトは、例えばネームバッジ、リモートコントローラ、人形、またはレーザポインタなど、種々のオブジェクトを適用することができる。また、特定のオブジェクトは、予めメモリ17に登録した特定の画像(例えばある特定の人物の顔画像、架空のキャラクタの画像や、二次元バーコードなど)を含むオブジェクトであってもよい。この場合、オブジェクト認識部102は、当該特定の画像を認識することで特定のオブジェクトを認識する。
【0026】
オブジェクト認識部102は、検出した各人物にO1~O4等のラベル情報を付与する。また、オブジェクト認識部102は、特定のオブジェクトにSO1等のラベル情報を付与する。この例では、オブジェクト認識部102は、ポールのオブジェクトにSO1のラベル情報を付与する。
【0027】
話者認識部101は、オブジェクト認識部102で検出した各人物O1~O4のうち話者を認識する。話者認識処理は、顔認識処理と同様に、例えばニューラルネットワーク等を用いた所定のモデルに、話者の画像とカメラの画像との関係を訓練した訓練済モデルを用いて、話者を認識する処理である。
【0028】
図6の例では、話者認識部101は、人物O3を話者として認識する。話者認識部101は、人物O3に話者のラベル情報(例えばSP1)を付与する。
【0029】
位置検出部110は、話者位置検出部111およびオブジェクト位置検出部112を有する。話者位置検出部111は、話者認識部101で認識した話者SP1の位置を検出する(S12)。オブジェクト位置検出部112は、オブジェクト認識部102で認識した特定のオブジェクトSO1の位置を検出する(S22)。
【0030】
話者位置検出部111は、話者SP1の画像内の位置情報を取得する。位置情報は、2次元の位置情報を含む。2次元の位置情報は、カメラ11で撮影した画像の所定位置(例えば左下)を原点としたX,Y座標(直交座標)である。また、話者位置検出部111は、話者SP1の境界ボックスの大きさに基づいて話者SP1との距離を求める。例えば、メモリ17には、予め人物のオブジェクト(人物の境界ボックス)の大きさと距離との関係を示したテーブルまたは関数等が記憶されている。話者位置検出部111は、事前に設定した人物の大きさと、画像に含まれる話者SP1の大きさ(設定した境界ボックスの大きさ)とを比較して、話者SP1との距離を求める。なお、オブジェクト位置検出部112は、例えばニューラルネットワーク等を用いた所定のモデルに、話者と該話者の位置との関係を訓練した訓練済モデルを用いて、当該話者の位置を取得してもよい。
【0031】
オブジェクト位置検出部112は、特定のオブジェクトSO1の画像内の位置情報を取得する。位置情報は、2次元の位置情報を含む。2次元の位置情報は、カメラ11で撮影した画像の所定位置(例えば左下)を原点としたX,Y座標(直交座標)である。また、オブジェクト位置検出部112は、特定のオブジェクトSO1の境界ボックスの大きさに基づいて特定のオブジェクトSO1との距離を求める。例えば、メモリ17には、予め特定のオブジェクト(特定のオブジェクトの境界ボックス)の大きさと距離との関係を示したテーブルまたは関数等が記憶されている。オブジェクト位置検出部112は、事前に設定した特定のオブジェクトの大きさと、画像に含まれる特定のオブジェクトSO1のオブジェクトの大きさ(設定した境界ボックスの大きさ)とを比較して、特定のオブジェクトSO1との距離を求める。なお、オブジェクト位置検出部112は、例えばニューラルネットワーク等を用いた所定のモデルに、特定のオブジェクトと該特定のオブジェクトの位置との関係を訓練した訓練済モデルを用いて、当該特定のオブジェクトの位置を取得してもよい。
【0032】
収音ビーム設定部120は、第1収音ビーム設定部121および第2収音ビーム設定部122を有する。第1収音ビーム設定部121は、話者位置検出部111で検出した話者SP1の位置に基づいてアレイマイク130に第1の収音ビームを設定する(S13)。第2収音ビーム設定部122は、オブジェクト位置検出部112で検出した特定のオブジェクトSO1の位置に基づいてアレイマイク130に第2の収音ビームを設定する(S23)。会議開始後、第1の収音ビームは、いずれかの人物が発言を開始した後に設定される。会議開始後、第2の収音ビームは、収音装置1が特定のオブジェクトSO1を認識した場合に設定される。会議開始後に誰も発言しない場合には、第1の収音ビームは設定されず、第2の収音ビームのみ設定される。収音装置1が特定のオブジェクトSO1を認識しない場合に、いずれかの人物が発言を開始した場合、第1の収音ビームのみ設定される。収音装置1が特定のオブジェクトSO1を認識し、かついずれかの人物が発言を開始した場合、第1の収音ビームおよび第2の収音ビームの両方が設定される。
【0033】
図7は、
図6に示した画像に対応する室内を平面視した図である。この例では、第1収音ビーム設定部121は、アレイマイク130に対して、話者SP1の位置に焦点を結ぶ第1の収音ビームB1を形成する。
【0034】
アレイマイク130は、複数のマイク14およびビームフォーミング処理部131からなる。ビームフォーミング処理部131は、第1収音ビーム設定部121の指示に基づいて、複数のマイク14で取得したそれぞれの音信号に遅延を付加して合成することで、話者SP1の位置に焦点を結ぶ第1の収音ビームB1を形成する。これにより、アレイマイク130は、話者SP1の発話音声を高いSN比で取得することができる。
【0035】
第2収音ビーム設定部122は、アレイマイク130に対して、特定のオブジェクトSO1に最も近い人物O2の位置に焦点を結ぶ第2の収音ビームB2を形成する。ビームフォーミング処理部131は、第2収音ビーム設定部122の指示に基づいて、複数のマイク14で取得したそれぞれの音信号に遅延を付加して合成することで、人物O2の位置に焦点を結ぶ第2の収音ビームB2を形成する。これにより、アレイマイク130は、人物O2の音声を高いSN比で取得することができる。なお、第2収音ビーム設定部122は、アレイマイク130に対して、特定のオブジェクトSO1の位置に焦点を結ぶ第2の収音ビームB2を形成してもよい。この場合も、特定のオブジェクトSO1に最も近い位置の人物O2の音声を高いSN比で取得することができる。例えば特定のオブジェクトSO1が特定の人物である場合には、第2収音ビーム設定部122は、アレイマイク130に対して、特定のオブジェクトSO1の位置に焦点を結ぶ第2の収音ビームB2を形成する。
【0036】
第1の収音ビームB1の方向は、話者の変化に応じて変化する。例えば、人物O3の発言が止まり、人物O1が発言すると、第1の収音ビームB1は、人物O1の方向に向けられる。すなわち、第1の収音ビームB1は、話者の位置に応じて変化する動的ビームである。
【0037】
これに対して、第2の収音ビームB2は、話者の位置に応じて変化せず、固定ビームの様に、特定の人物、または特定のオブジェクトSO1に最も近い人物の方向に向けられ続ける収音ビームである。以下、この様な第2の収音ビームを準固定ビームと称する。
【0038】
利用者は、重要な発言者(例えば重役)の声を確実に通話相手に届けるため、特定の人物のいる位置に対して収音ビームの方向を向け続ける設定にしたい場合がある。本実施形態の収音装置1は、事前に何ら機器の設定等を必要とせず、特定の人の近くに特定のオブジェクトSO1を設置することで、特定の人物に対して簡単に固定ビームのように収音ビームを向け続ける設定にすることができる。すなわち、収音装置1の利用者は、特定の人物の近くにポール等の特定のオブジェクトを設置するだけで、話者の位置に向けられる動的ビームを利用しながら、特定の人物に対して簡単に収音ビームを向け続ける設定を行うことができる、という顧客体験を得ることができる。
【0039】
次に、
図8は、変形例1に係る、カメラ11で撮影した画像の一例を示す図である。
図9は、
図8に示した画像に対応する室内を平面視した図である。
図6および
図7と共通する構成については同一の符号を付し、説明を省略する。
【0040】
この例でも、第1収音ビーム設定部121は、アレイマイク130に対して、話者SP1の位置に焦点を結ぶ第1の収音ビームB1を形成する。
【0041】
一方、変形例1に係るオブジェクト認識部102は、特定のオブジェクトSO2を認識する。この例では、特定のオブジェクトSO2は、特定のオブジェクトSO1とは異なる色である。
【0042】
オブジェクト位置検出部112は、特定のオブジェクトSO2の位置を検出する。第2収音ビーム設定部122は、アレイマイク130に対して、特定のオブジェクトSO2に最も近い人物O2の位置(または特定のオブジェクトSO2の位置)に他の方向よりも感度の低い非収音ビーム(いわゆるヌル)を向ける設定を行う。
【0043】
ビームフォーミング処理部131は、第2収音ビーム設定部122の指示に基づいて、複数のマイク14で取得したそれぞれの音信号に遅延を付加して合成することで、人物O2の位置(または特定のオブジェクトSO2の位置)で最も低感度となるような被収音ビームN1を形成する。これにより、アレイマイク130は、人物O2の音声を取得しないようになる。
【0044】
この様に、第2の収音ビームを設定することは、特定のオブジェクトの位置に基づいて、他の方向よりも感度の低い非収音ビームを設定することを含む。例えば、人物O2が会議において発言する予定の無いオブザーバである場合、変形例1に係る収音装置1の利用者は、人物O2の近くにポール等の特定のオブジェクトを設置するだけで、話者の位置に向けられる動的ビームを利用しながら、人物O2の音声を取得しない様な設定を簡単に行うことができる。
【0045】
なお、非収音ビームを設定するための特定のオブジェクトは、色の異なるオブジェクトに限らない。制御部15は、予め非収音ビームを設定するための特定のオブジェクトの外観をメモリ17に登録しておけばよい。
【0046】
次に、
図10は、変形例2に係る、収音装置1の構成を示すブロック図である。変形例2に係る収音装置1は、さらにリモートコントローラ(以下、リモコンと称する。)50を備えている。リモコン50は、利用者の操作を受け付けるための端末である。リモコン50は、USBあるいはBluetooth(登録商標)等の通信手段でI/F19に接続される。リモコン50は、例えば複数のキーを有する。複数のキーは、電源オンオフキー、音量変更キー、方向キー、あるいはミュートキーなどを有する。利用者は、例えば方向キーを操作して、カメラ11の撮影方向を変更する操作を行う。リモコン50は、受け付けた操作に係る操作信号を、I/F19を介して制御部15に送信する。
【0047】
ミュートキーは、利用者からミュート操作を受け付けるための操作子である。利用者がミュートキーを操作すると、リモコン50は、ミュートキーの操作に係る操作信号を、I/F19を介して制御部15に送信する。制御部15は、ミュートキーの操作信号を受け付けた場合に、第1の収音ビーム(動的ビーム)または第2の収音ビーム(準固定ビーム)をミュートする。制御部15は、ミュートした収音ビームに係る音信号をI/F19に出力しない。
【0048】
ミュートキーは、全体ミュートキー、動的ビームミュートキー、および準固定ビームミュートキーを有してもよい。制御部15は、全体ミュートキーの操作信号を受け付けた場合に、全ての動的ビームおよび準固定ビームをミュートする。制御部15は、動的ビームミュートキーの操作信号を受け付けた場合に、全ての動的ビームをミュートする。制御部15は、準固定ビームミュートキーの操作信号を受け付けた場合に、全ての準固定ビームをミュートする。
【0049】
これにより、収音装置1の利用者は、特定の人物の音声のみ通話相手に聞かせない、全員の音声を通話相手に聞かせない、等を簡単に設定することができる。
【0050】
なお、特定のオブジェクトがミュートキーを有していてもよい。この場合、特定のオブジェクトは、USBあるいはBluetooth(登録商標)等の通信手段で収音装置1に接続されてもよい。特定のオブジェクトは、ミュートキーの操作に係る操作信号を、収音装置1に送信する。あるいは、特定のオブジェクトは、ミュートキーの操作を受け付けた場合に、特定の音を発してもよい。収音装置1は、特定のオブジェクトが発する特定の音を認識した場合にミュート操作を受け付ける。特定の音は、例えば特定のパルス音、アラーム音、あるいはホワイトノイズ等である。特定の音は、非可聴域(例えば20kHz以上)の音であってもよい。また、特定の音は、拡散符号(擬似ノイズ)であってもよい。この場合、収音装置1は、予め定めた拡散符号とマイク14で取得した音信号との相関値を求める。収音装置1は、当該相関値は所定のレベルを超える場合に、ミュート操作を受け付ける。
【0051】
図11は、変形例3に係る制御部15の動作を示すフローチャートである。
図5と共通する動作については同一の符号を付し、説明を省略する。
【0052】
第1収音ビーム設定部121は、話者位置検出部111で話者SP1を検出した後(S12の後)、現在の収音ビームの数が最大であるか否かを判断する(S51)。
【0053】
上述した様に、収音ビームは、同時に複数の方向に設定することができる。ただし、処理能力により、同時に設定可能な収音ビームの数には限りが有る。収音装置1は、設定可能な最大の収音ビームの数と、設定した準固定ビームの数と、の差だけ、動的ビームを同時に利用することができる。言い換えると、収音装置1は、設定可能な最大の収音ビームの数と、設定した動的ビームの数と、の差だけ、準固定ビームを同時に利用することができる。
【0054】
変形例3に係る収音装置1は、例えば4つの収音ビームを同時に設定することができる。したがって、変形例3に係る制御部15は、まず現在の収音ビームの数が4つに達しているか否かを判断する。制御部15は、現在の収音ビームの数が3つ以下であると判断した場合(S51がNOの場合)、検出した話者SP1の位置に基づいてアレイマイク130に新たな第1の収音ビームを設定する(S13)。一方で、制御部15は、現在の収音ビームの数が4つであると判断した場合(S51がYESの場合)、新たな第1の収音ビームを設定しない。
【0055】
変形例3に係る収音装置1は、過去に設定した動的ビームおよび準固定ビームを削除することがないため、既に発言した人物および特定の人物の音声を会議終了まで取得し続けることができる。
【0056】
図12は、変形例4に係る制御部15の動作を示すフローチャートである。
図11と共通する動作については同一の符号を付し、説明を省略する。
【0057】
変形例4に係る制御部15は、現在の収音ビームの数が4つであると判断した場合(S51がYESの場合)、最も過去に設定した第1の収音ビームに代えて新たな前記第1の収音ビームを設定する(S52)。
【0058】
変形例4に係る収音装置1は、最も過去に設定した動的ビームを削除するため、例えば議題が変更された場合に新たに発言した人物の音声を取得することができる。
【0059】
図13は、変形例5に係る制御部15の動作を示すフローチャートである。
図11と共通する動作については同一の符号を付し、説明を省略する。
【0060】
変形例5に係る制御部15は、現在の収音ビームの数が4つであると判断した場合(S51がYESの場合)、優先度に基づいて過去に設定した第1の収音ビームに代えて新たな前記第1の収音ビームを設定する(S53)。
【0061】
優先度は、例えば変形例2に示したリモコン50により利用者から受け付ける。利用者は、過去に認識した複数の話者のそれぞれに高い優先度または低い優先度を設定する。制御部15は、低い優先度に設定された第1の収音ビーム、または優先度の設定されていない第1の収音ビームに代えて新たな第1の収音ビームを設定する。
【0062】
変形例5に係る収音装置1は、利用者により選択された発言者の音声を会議終了まで取得し続けることができる。
【0063】
図14は、変形例6に係る制御部15の動作を示すフローチャートである。
図11と共通する動作については同一の符号を付し、説明を省略する。
【0064】
変形例6に係る制御部15は、現在の収音ビームの数が4つであると判断した場合(S51がYESの場合)、優先度に基づいて過去に設定した第2の収音ビームに代えて新たな前記第1の収音ビームを設定する(S54)。
【0065】
変形例6に係る収音装置1も、利用者により選択された発言者の音声を会議終了まで取得し続けることができる。
【0066】
図15は、変形例7に係る制御部15の動作を示すフローチャートである。
図11と共通する動作については同一の符号を付し、説明を省略する。
【0067】
変形例7に係る制御部15は、現在の収音ビームの数が4つであると判断した場合(S51がYESの場合)、利用者から、削除する収音ビームの選択を受け付け(S55)、利用者により選択された第1の収音ビームまたは第2の収音ビームに代えて、新たな第1の収音ビームを設定する(S56)。
【0068】
変形例7に係る収音装置1も、利用者により選択された発言者の音声を会議終了まで取得し続けることができる。
【0069】
図16は、変形例8に係る制御部15の機能的構成を示すブロック図である。話者認識部101およびオブジェクト認識部102は、それぞれアレイマイク130における複数のマイク14で取得した音信号に基づいて話者およびオブジェクトを認識する。
【0070】
話者認識部101は、例えば音声認識処理を行なうことにより、話者を検出する。音声認識処理は、例えばニューラルネットワーク等を用いた所定のモデルに、音声とマイク14で取得した音信号との関係を訓練した訓練済モデルを用いて、音声の有無を検出する処理である。
【0071】
オブジェクト認識部102は、音声認識処理により特定の人物の音声を認識する。ただし、オブジェクト認識部102は、予め登録した特定の人物の音声とマイク14で取得した音信号との関係を訓練した訓練済モデルを用いて、特定の人物の音声を検出する。
【0072】
あるいは、オブジェクト認識部102は、特定のオブジェクトが発する特定の音を認識する。特定の音は、例えば特定のパルス音、アラーム音、あるいはホワイトノイズ等である。特定の音は、非可聴域(例えば20kHz以上)の音であってもよい。また、特定の音は、拡散符号(擬似ノイズ)であってもよい。この場合、オブジェクト認識部102は、予め定めた拡散符号とマイク14で取得した音信号との相関値を求める。オブジェクト認識部102は、当該相関値は所定のレベルを超える場合に、特定のオブジェクトを認識する。
【0073】
話者位置検出部111およびオブジェクト位置検出部112は、それぞれアレイマイク130における複数のマイク14で取得した音信号に基づいて話者およびオブジェクトの位置を検出する。
【0074】
話者位置検出部111は、例えば複数のマイク14の音信号の相関値を求めることで、音声の取得タイミングの差(位相差)を求め、話者の位置を検出する。話者位置検出部111は、3つ以上のマイク14における音声の取得タイミングの差を求めることで、話者の位置を一意に求めることができる。
【0075】
オブジェクト位置検出部112も同様に、3つ以上のマイク14における音声の取得タイミングの差を求めることで、特定の人物あるいは特定のオブジェクトの位置を一意に求めることができる。
【0076】
この様に、話者およびオブジェクトの位置は、音声に基づいて求めることもできる。
【0077】
なお、
図17に示す様に、収音装置1は、例えば天井に設置されていてもよい。
【0078】
また、本発明においてスピーカを用いて遠隔地と音声会議を行うことは必須ではない。例えば、収音装置1は、ビデオカメラであってもよい。この場合も、収音装置1の利用者は、音声を取得したい範囲を簡単に設定して、該範囲を認識することができる。
【0079】
本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。
【符号の説明】
【0080】
1 :収音装置
3 :表示器
11 :カメラ
12 :スピーカ
14 :マイク
15 :制御部
17 :メモリ
19 :I/F
50 :リモコン
100 :認識部
101 :話者認識部
102 :オブジェクト認識部
110 :位置検出部
111 :話者位置検出部
112 :オブジェクト位置検出部
120 :収音ビーム設定部
121 :第1収音ビーム設定部
122 :第2収音ビーム設定部
130 :アレイマイク
131 :ビームフォーミング処理部