特開2024-31241 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特開2024-31241収音制御方法および収音装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024031241

(43)【公開日】2024-03-07

(54)【発明の名称】収音制御方法および収音装置

(51)【国際特許分類】

H04R 3/00 20060101AFI20240229BHJP

【ＦＩ】

H04R3/00 320

【審査請求】未請求

【請求項の数】14

【出願形態】ＯＬ

(21)【出願番号】P 2022134670

(22)【出願日】2022-08-26

(71)【出願人】

【識別番号】000004075

【氏名又は名称】ヤマハ株式会社

(74)【代理人】

【識別番号】110000970

【氏名又は名称】弁理士法人楓国際特許事務所

(72)【発明者】

【氏名】大泉好史

【テーマコード（参考）】

5D220

【Ｆターム（参考）】

5D220BA06

5D220BC05

(57)【要約】

【課題】利用者が簡単に収音対象範囲を設定でき、利用者が収音対象範囲を認識することができる収音設定方法を提供する。
【解決手段】音収音設定方法は、カメラで撮影した画像から特定のオブジェクトを検出し、特定した前記特定のオブジェクトの、前記画像内の位置情報を取得し、取得した前記位置情報に基づいて指向性変更可能なマイクの収音対象範囲を設定する。
【選択図】図４

【特許請求の範囲】

【請求項1】

話者を認識し、
認識した前記話者の位置を検出し、
検出した前記話者の位置に基づいて第１の収音ビームを設定し、
前記話者以外の特定のオブジェクトを認識し、
認識した前記特定のオブジェクトの位置を検出し、
検出した前記特定のオブジェクトの位置に基づいて第２の収音ビームを設定する、
収音制御方法。

【請求項2】

前記第２の収音ビームを設定することは、前記特定のオブジェクトの位置に基づいて、他の方向よりも感度の低い非収音ビームを設定することを含む、
請求項１に記載の収音制御方法。

【請求項3】

前記第１の収音ビームおよび前記第２の収音ビームの合計数は上限を有し、
該上限を超える場合に、新たな前記第１の収音ビームを設定しない、または最も過去に設定した前記第１の収音ビームに代えて新たな前記第１の収音ビームを設定する、
請求項１または請求項２に記載の収音制御方法。

【請求項4】

前記第１の収音ビームおよび前記第２の収音ビームの合計数は上限を有し、
該上限を超える場合に、予め規定された優先度に基づいて、過去に設定した前記第１の収音ビームに代えて新たな前記第１の収音ビームを設定する、
請求項１または請求項２に記載の収音制御方法。

【請求項5】

前記第１の収音ビームおよび前記第２の収音ビームの合計数は上限を有し、
該上限を超える場合に、予め規定された優先度に基づいて、過去に設定した前記第２の収音ビームに代えて新たな前記第１の収音ビームを設定する、
請求項１または請求項２に記載の収音制御方法。

【請求項6】

前記第１の収音ビームおよび前記第２の収音ビームの合計数は上限を有し、
該上限を超える場合に、利用者により選択された前記第１の収音ビームまたは前記第２の収音ビームに代えて、新たな前記第１の収音ビームを設定する、
請求項１または請求項２に記載の収音制御方法。

【請求項7】

前記第１の収音ビームまたは前記第２の収音ビームに対するミュート操作を受け付けて、
該ミュート操作を受け付けた前記第１の収音ビームまたは前記第２の収音ビームをミュートする、
請求項１または請求項２に記載の収音制御方法。

【請求項8】

アレイマイクと、
話者を認識する話者認識部と、
前記話者認識部で認識した前記話者の位置を検出する話者位置検出部と、
前記話者位置検出部で検出した前記話者の位置に基づいて前記アレイマイクに第１の収音ビームを設定する第１収音ビーム設定部と、
前記話者以外の特定のオブジェクトを認識するオブジェクト認識部と、
前記オブジェクト認識部で認識した前記特定のオブジェクトの位置を検出するオブジェクト位置検出部と、
前記オブジェクト位置検出部で検出した前記特定のオブジェクトの位置に基づいて前記アレイマイクに第２の収音ビームを設定する第２収音ビーム設定部と、
を備えた収音装置。

【請求項9】

前記第２の収音ビームを設定することは、前記特定のオブジェクトの位置に基づいて、他の方向よりも感度の低い非収音ビームを設定することを含む、
請求項８に記載の収音装置。

【請求項10】

前記第１の収音ビームおよび前記第２の収音ビームの合計数は上限を有し、
前記第１収音ビーム設定部は、該上限を超える場合に、新たな前記第１の収音ビームを設定しない、または最も過去に設定した前記第１の収音ビームに代えて新たな前記第１の収音ビームを設定する、
請求項８または請求項９に記載の収音装置。

【請求項11】

前記第１の収音ビームおよび前記第２の収音ビームの合計数は上限を有し、
前記第１収音ビーム設定部は、該上限を超える場合に、予め規定された優先度に基づいて、過去に設定した前記第１の収音ビームに代えて新たな前記第１の収音ビームを設定する、
請求項８または請求項９に記載の収音装置。

【請求項12】

前記第１の収音ビームおよび前記第２の収音ビームの合計数は上限を有し、
前記第１収音ビーム設定部は、該上限を超える場合に、予め規定された優先度に基づいて、過去に設定した前記第２の収音ビームに代えて新たな前記第１の収音ビームを設定する、
請求項８または請求項９に記載の収音装置。

【請求項13】

前記第１の収音ビームおよび前記第２の収音ビームの合計数は上限を有し、
前記第１収音ビーム設定部は、該上限を超える場合に、利用者により選択された前記第１の収音ビームまたは前記第２の収音ビームに代えて、新たな前記第１の収音ビームを設定する、
請求項８または請求項９に記載の収音装置。

【請求項14】

前記第１の収音ビームまたは前記第２の収音ビームに対するミュート操作を受け付けて、該ミュート操作を受け付けた前記第１の収音ビームまたは前記第２の収音ビームをミュートするミュート制御部と、
を備えた請求項８または請求項９に記載の収音装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の一実施形態は、収音制御方法および収音装置に関する。

【背景技術】

【0002】

特許文献１には、入力部から入力される第１画像データにおいて視線方向を検知し、前記視線方向の検知結果と対応情報とに基づき、収音方向を制御する収音装置が開示されている。特許文献１の発明は、視線に応じて収音ビームの方向を変化させる動的ビームを開示している。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２１－１９７６５８号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

利用者は、重要な発言者（例えば重役）の声を確実に通話相手に届けるため、特定の人に対して収音ビームの方向を向け続ける設定にしたい場合がある。

【0005】

本発明の一実施形態は、動的ビームを利用しながら、特定の人に対して簡単に収音ビームを向け続ける設定を行うことができる収音制御方法を提供することを目的とする。

【課題を解決するための手段】

【0006】

本発明の一実施形態に係る収音制御方法は、話者を認識し、認識した前記話者の位置を検出し、検出した前記話者の位置に基づいて第１の収音ビームを設定し、前記話者以外の特定のオブジェクトを認識し、認識した前記特定のオブジェクトの位置を検出し、検出した前記特定のオブジェクトの位置に基づいて第２の収音ビームを設定する。

【発明の効果】

【0007】

本発明の一実施形態によれば、動的ビームを利用しながら、特定の人に対して簡単に収音ビームを向け続ける設定を行うことができる。

【図面の簡単な説明】

【0008】

【図1】収音装置１および表示器３の外観斜視図である。

【図2】収音装置１の構成を示すブロック図である。

【図3】収音装置１の機能的構成を示すブロック図である。

【図4】認識部１００、位置検出部１１０、および収音ビーム設定部１２０の動作を示すフローチャートである。

【図5】認識部１００、位置検出部１１０、および収音ビーム設定部１２０の動作を示すフローチャートである。

【図6】カメラ１１で撮影した画像の一例を示す図である。

【図7】図６に示した画像に対応する室内を平面視した図である。

【図8】変形例１に係る、カメラ１１で撮影した画像の一例を示す図である。

【図9】図８に示した画像に対応する室内を平面視した図である。

【図10】変形例２に係る、収音装置１の構成を示すブロック図である。

【図11】変形例３に係る制御部１５の動作を示すフローチャートである。

【図12】変形例４に係る制御部１５の動作を示すフローチャートである。

【図13】変形例５に係る制御部１５の動作を示すフローチャートである。

【図14】変形例６に係る制御部１５の動作を示すフローチャートである。

【図15】変形例７に係る制御部１５の動作を示すフローチャートである。

【図16】変形例８に係る制御部１５の機能的構成を示すブロック図である。

【図17】天井に設置される収音装置１を示す外観斜視図である。

【発明を実施するための形態】

【0009】

図１は、収音装置１および表示器３の外観斜視図である。収音装置１は、幅方向に長い直方体形状の筐体を備える。収音装置１の筐体は、一例として、表示器３の上面に乗せられる。収音装置１は、該筐体の正面においてカメラ１１と、複数のスピーカ１２と、複数のマイク１４と、を備えている。カメラ１１、複数のスピーカ１２、および複数のマイク１４は、筐体の正面に幅方向に並んで配置されている。この例では、カメラ１１は、筐体の正面の中央に配置されている。複数のスピーカ１２は、筐体の正面の左側に配置されている。複数のマイク１４は、筐体の正面の右側に配置されている。

【0010】

なお、この例においては、複数のスピーカ１２の数は２つであるが、１つであってもよいし、さらに複数であってもよい。また、スピーカ１２を備えることは本発明において必須ではない。また、この例においては、マイクの数は６個である。複数のマイク１４は、後述のビームフォーミングにより指向性変更可能なマイクとして機能する。複数のマイク１４は、少なくとも２個以上であればビームフォーミングにより指向性変更可能である。

【0011】

図２は、収音装置１の構成を示すブロック図である。収音装置１は、カメラ１１、複数のスピーカ１２、複数のマイク１４、制御部１５、メモリ１７、およびインタフェース（Ｉ／Ｆ）１９を備えている。

【0012】

メモリ１７は、制御部１５の動作用プログラムを記憶した記憶媒体である。制御部１５は、メモリ１７から動作用プログラムを読み出して種々の動作を行う。なお、プログラムは、メモリ１７に記憶されている必要はない。例えば、プログラムは、サーバ等の外部装置の記憶媒体に記憶されていてもよい。この場合、制御部１５は、該サーバから都度プログラムを読み出して実行すればよい。

【0013】

制御部１５は、複数のマイク１４で取得した音信号を受信する。制御部１５は、複数のマイク１４で取得した音信号にビームフォーミングを施す。ビームフォーミングは、複数のマイク１４で取得した音信号に遅延を付加して合成することで、所定の方向に向けて指向性を有する収音ビームを形成する処理である。収音ビームは、所定の位置に焦点を結ぶ様な指向性を形成することもできる。制御部１５は、例えば話者の位置に焦点を結ぶ収音ビームを形成する。収音ビームは、同時に複数形成することもできる。

【0014】

制御部１５は、収音ビームに係る音信号をＩ／Ｆ１９に出力する。Ｉ／Ｆ１９は、例えば通信Ｉ／Ｆであり、該収音ビームに係る信号を、ＰＣ等の情報処理装置に送信する。情報処理装置は、該音信号を外部の装置（遠隔地）に送信する。

【0015】

ＰＣ等の情報処理装置は、外部の装置から音信号を受信する。情報処理装置は、Ｉ／Ｆ１９を介して収音装置１に音信号を送信する。制御部１５は、Ｉ／Ｆ１９を介して情報処理装置から受信した音信号を複数のスピーカ１２に出力する。複数のスピーカ１２は、制御部１５から受信した音信号を放音する。

【0016】

これにより、収音装置１の利用者は、遠隔地の利用者と音声会議を行うことができる。また、制御部１５は、カメラ１１で撮影した画像を、ＰＣ等の情報処理装置を介して外部の装置（遠隔地）に送信してもよい。ＰＣ等の情報処理装置は、外部の装置から画像を受信する。ＰＣ等の情報処理装置は、当該画像を表示器３に表示する。これにより、収音装置１の利用者は、遠隔地の利用者とビデオ会議を行うこともできる。

【0017】

図３は、制御部１５の機能的構成を示すブロック図である。制御部１５は、メモリ１７から読み出したプログラムにより、図３に示す機能的構成を実現する。

【0018】

制御部１５は、機能的に、認識部１００、位置検出部１１０、収音ビーム設定部１２０、およびアレイマイク１３０を備えている。図４および図５は、認識部１００、位置検出部１１０、および収音ビーム設定部１２０の動作を示すフローチャートである。

【0019】

認識部１００は、話者を認識する話者認識部１０１、およびオブジェクトを認識するオブジェクト認識部１０２を有する。話者認識部１０１は、カメラ１１で撮影した画像から話者を認識する処理を行う（Ｓ１１）。オブジェクト認識部１０２は、カメラ１１で撮影した画像からオブジェクトを認識する処理を行う（Ｓ２１）。

【0020】

図６は、カメラ１１で撮影した画像の一例を示す図である。カメラ１１で撮影した画像は、例えば表示器３上にＯＳＤ（Ｏｎ－ＳｃｒｅｅｎＤｉｓｐｌａｙ）で表示してもよい。

【0021】

オブジェクトとは、画像から認識可能な実体物であり、例えば人物を含む。オブジェクト認識部１０２は、例えば顔認識処理を行なうことにより、人物を検出する。顔認識処理は、例えばニューラルネットワーク等を用いた所定のモデルに、人物の顔とカメラの画像との関係を訓練した訓練済モデルを用いて、人物を検出する処理である。

【0022】

本実施形態において、モデルを訓練させるためのアルゴリズムは限定されず、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）やＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）等の任意の機械訓練アルゴリズムを用いることができる。機械訓練アルゴリズムは、教師あり訓練、教師なし訓練、半教師訓練、強化訓練、逆強化訓練、能動訓練、あるいは転移訓練等であってもよい。また、モデルは、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマルコフモデル）やＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）等の機械訓練モデルで訓練されてもよい。

【0023】

図６の例では、オブジェクト認識部１０２は、４人の人物（Ｏ１～Ｏ４）を検出している。

【0024】

また。オブジェクト認識部１０２は、カメラ１１で撮影した画像から特定のオブジェクトを検出する処理を行う。特定のオブジェクトは、人物以外のオブジェクト、あるいはある特定の人物である。この例では、特定のオブジェクトとは、図６に示す様なポールのオブジェクトＳＯ１である。オブジェクト認識部１０２は、予め登録した特定のオブジェクトの画像に基づいて、特定のオブジェクトを認識する。特定のオブジェクトの認識処理は、顔認識処理と同様に、例えばニューラルネットワーク等を用いた所定のモデルに、特定のオブジェクトの画像とカメラの画像との関係を訓練した訓練済モデルを用いて、特定のオブジェクトを認識する処理である。

【0025】

なお、特定のオブジェクトは、図６に示したポールのオブジェクトに限らない。特定のオブジェクトは、例えばネームバッジ、リモートコントローラ、人形、またはレーザポインタなど、種々のオブジェクトを適用することができる。また、特定のオブジェクトは、予めメモリ１７に登録した特定の画像（例えばある特定の人物の顔画像、架空のキャラクタの画像や、二次元バーコードなど）を含むオブジェクトであってもよい。この場合、オブジェクト認識部１０２は、当該特定の画像を認識することで特定のオブジェクトを認識する。

【0026】

オブジェクト認識部１０２は、検出した各人物にＯ１～Ｏ４等のラベル情報を付与する。また、オブジェクト認識部１０２は、特定のオブジェクトにＳＯ１等のラベル情報を付与する。この例では、オブジェクト認識部１０２は、ポールのオブジェクトにＳＯ１のラベル情報を付与する。

【0027】

話者認識部１０１は、オブジェクト認識部１０２で検出した各人物Ｏ１～Ｏ４のうち話者を認識する。話者認識処理は、顔認識処理と同様に、例えばニューラルネットワーク等を用いた所定のモデルに、話者の画像とカメラの画像との関係を訓練した訓練済モデルを用いて、話者を認識する処理である。

【0028】

図６の例では、話者認識部１０１は、人物Ｏ３を話者として認識する。話者認識部１０１は、人物Ｏ３に話者のラベル情報（例えばＳＰ１）を付与する。

【0029】

位置検出部１１０は、話者位置検出部１１１およびオブジェクト位置検出部１１２を有する。話者位置検出部１１１は、話者認識部１０１で認識した話者ＳＰ１の位置を検出する（Ｓ１２）。オブジェクト位置検出部１１２は、オブジェクト認識部１０２で認識した特定のオブジェクトＳＯ１の位置を検出する（Ｓ２２）。

【0030】

話者位置検出部１１１は、話者ＳＰ１の画像内の位置情報を取得する。位置情報は、２次元の位置情報を含む。２次元の位置情報は、カメラ１１で撮影した画像の所定位置（例えば左下）を原点としたＸ，Ｙ座標（直交座標）である。また、話者位置検出部１１１は、話者ＳＰ１の境界ボックスの大きさに基づいて話者ＳＰ１との距離を求める。例えば、メモリ１７には、予め人物のオブジェクト（人物の境界ボックス）の大きさと距離との関係を示したテーブルまたは関数等が記憶されている。話者位置検出部１１１は、事前に設定した人物の大きさと、画像に含まれる話者ＳＰ１の大きさ（設定した境界ボックスの大きさ）とを比較して、話者ＳＰ１との距離を求める。なお、オブジェクト位置検出部１１２は、例えばニューラルネットワーク等を用いた所定のモデルに、話者と該話者の位置との関係を訓練した訓練済モデルを用いて、当該話者の位置を取得してもよい。

【0031】

オブジェクト位置検出部１１２は、特定のオブジェクトＳＯ１の画像内の位置情報を取得する。位置情報は、２次元の位置情報を含む。２次元の位置情報は、カメラ１１で撮影した画像の所定位置（例えば左下）を原点としたＸ，Ｙ座標（直交座標）である。また、オブジェクト位置検出部１１２は、特定のオブジェクトＳＯ１の境界ボックスの大きさに基づいて特定のオブジェクトＳＯ１との距離を求める。例えば、メモリ１７には、予め特定のオブジェクト（特定のオブジェクトの境界ボックス）の大きさと距離との関係を示したテーブルまたは関数等が記憶されている。オブジェクト位置検出部１１２は、事前に設定した特定のオブジェクトの大きさと、画像に含まれる特定のオブジェクトＳＯ１のオブジェクトの大きさ（設定した境界ボックスの大きさ）とを比較して、特定のオブジェクトＳＯ１との距離を求める。なお、オブジェクト位置検出部１１２は、例えばニューラルネットワーク等を用いた所定のモデルに、特定のオブジェクトと該特定のオブジェクトの位置との関係を訓練した訓練済モデルを用いて、当該特定のオブジェクトの位置を取得してもよい。

【0032】

収音ビーム設定部１２０は、第１収音ビーム設定部１２１および第２収音ビーム設定部１２２を有する。第１収音ビーム設定部１２１は、話者位置検出部１１１で検出した話者ＳＰ１の位置に基づいてアレイマイク１３０に第１の収音ビームを設定する（Ｓ１３）。第２収音ビーム設定部１２２は、オブジェクト位置検出部１１２で検出した特定のオブジェクトＳＯ１の位置に基づいてアレイマイク１３０に第２の収音ビームを設定する（Ｓ２３）。会議開始後、第１の収音ビームは、いずれかの人物が発言を開始した後に設定される。会議開始後、第２の収音ビームは、収音装置１が特定のオブジェクトＳＯ１を認識した場合に設定される。会議開始後に誰も発言しない場合には、第１の収音ビームは設定されず、第２の収音ビームのみ設定される。収音装置１が特定のオブジェクトＳＯ１を認識しない場合に、いずれかの人物が発言を開始した場合、第１の収音ビームのみ設定される。収音装置１が特定のオブジェクトＳＯ１を認識し、かついずれかの人物が発言を開始した場合、第１の収音ビームおよび第２の収音ビームの両方が設定される。

【0033】

図７は、図６に示した画像に対応する室内を平面視した図である。この例では、第１収音ビーム設定部１２１は、アレイマイク１３０に対して、話者ＳＰ１の位置に焦点を結ぶ第１の収音ビームＢ１を形成する。

【0034】

アレイマイク１３０は、複数のマイク１４およびビームフォーミング処理部１３１からなる。ビームフォーミング処理部１３１は、第１収音ビーム設定部１２１の指示に基づいて、複数のマイク１４で取得したそれぞれの音信号に遅延を付加して合成することで、話者ＳＰ１の位置に焦点を結ぶ第１の収音ビームＢ１を形成する。これにより、アレイマイク１３０は、話者ＳＰ１の発話音声を高いＳＮ比で取得することができる。

【0035】

第２収音ビーム設定部１２２は、アレイマイク１３０に対して、特定のオブジェクトＳＯ１に最も近い人物Ｏ２の位置に焦点を結ぶ第２の収音ビームＢ２を形成する。ビームフォーミング処理部１３１は、第２収音ビーム設定部１２２の指示に基づいて、複数のマイク１４で取得したそれぞれの音信号に遅延を付加して合成することで、人物Ｏ２の位置に焦点を結ぶ第２の収音ビームＢ２を形成する。これにより、アレイマイク１３０は、人物Ｏ２の音声を高いＳＮ比で取得することができる。なお、第２収音ビーム設定部１２２は、アレイマイク１３０に対して、特定のオブジェクトＳＯ１の位置に焦点を結ぶ第２の収音ビームＢ２を形成してもよい。この場合も、特定のオブジェクトＳＯ１に最も近い位置の人物Ｏ２の音声を高いＳＮ比で取得することができる。例えば特定のオブジェクトＳＯ１が特定の人物である場合には、第２収音ビーム設定部１２２は、アレイマイク１３０に対して、特定のオブジェクトＳＯ１の位置に焦点を結ぶ第２の収音ビームＢ２を形成する。

【0036】

第１の収音ビームＢ１の方向は、話者の変化に応じて変化する。例えば、人物Ｏ３の発言が止まり、人物Ｏ１が発言すると、第１の収音ビームＢ１は、人物Ｏ１の方向に向けられる。すなわち、第１の収音ビームＢ１は、話者の位置に応じて変化する動的ビームである。

【0037】

これに対して、第２の収音ビームＢ２は、話者の位置に応じて変化せず、固定ビームの様に、特定の人物、または特定のオブジェクトＳＯ１に最も近い人物の方向に向けられ続ける収音ビームである。以下、この様な第２の収音ビームを準固定ビームと称する。

【0038】

利用者は、重要な発言者（例えば重役）の声を確実に通話相手に届けるため、特定の人物のいる位置に対して収音ビームの方向を向け続ける設定にしたい場合がある。本実施形態の収音装置１は、事前に何ら機器の設定等を必要とせず、特定の人の近くに特定のオブジェクトＳＯ１を設置することで、特定の人物に対して簡単に固定ビームのように収音ビームを向け続ける設定にすることができる。すなわち、収音装置１の利用者は、特定の人物の近くにポール等の特定のオブジェクトを設置するだけで、話者の位置に向けられる動的ビームを利用しながら、特定の人物に対して簡単に収音ビームを向け続ける設定を行うことができる、という顧客体験を得ることができる。

【0039】

次に、図８は、変形例１に係る、カメラ１１で撮影した画像の一例を示す図である。図９は、図８に示した画像に対応する室内を平面視した図である。図６および図７と共通する構成については同一の符号を付し、説明を省略する。

【0040】

この例でも、第１収音ビーム設定部１２１は、アレイマイク１３０に対して、話者ＳＰ１の位置に焦点を結ぶ第１の収音ビームＢ１を形成する。

【0041】

一方、変形例１に係るオブジェクト認識部１０２は、特定のオブジェクトＳＯ２を認識する。この例では、特定のオブジェクトＳＯ２は、特定のオブジェクトＳＯ１とは異なる色である。

【0042】

オブジェクト位置検出部１１２は、特定のオブジェクトＳＯ２の位置を検出する。第２収音ビーム設定部１２２は、アレイマイク１３０に対して、特定のオブジェクトＳＯ２に最も近い人物Ｏ２の位置（または特定のオブジェクトＳＯ２の位置）に他の方向よりも感度の低い非収音ビーム（いわゆるヌル）を向ける設定を行う。

【0043】

ビームフォーミング処理部１３１は、第２収音ビーム設定部１２２の指示に基づいて、複数のマイク１４で取得したそれぞれの音信号に遅延を付加して合成することで、人物Ｏ２の位置（または特定のオブジェクトＳＯ２の位置）で最も低感度となるような被収音ビームＮ１を形成する。これにより、アレイマイク１３０は、人物Ｏ２の音声を取得しないようになる。

【0044】

この様に、第２の収音ビームを設定することは、特定のオブジェクトの位置に基づいて、他の方向よりも感度の低い非収音ビームを設定することを含む。例えば、人物Ｏ２が会議において発言する予定の無いオブザーバである場合、変形例１に係る収音装置１の利用者は、人物Ｏ２の近くにポール等の特定のオブジェクトを設置するだけで、話者の位置に向けられる動的ビームを利用しながら、人物Ｏ２の音声を取得しない様な設定を簡単に行うことができる。

【0045】

なお、非収音ビームを設定するための特定のオブジェクトは、色の異なるオブジェクトに限らない。制御部１５は、予め非収音ビームを設定するための特定のオブジェクトの外観をメモリ１７に登録しておけばよい。

【0046】

次に、図１０は、変形例２に係る、収音装置１の構成を示すブロック図である。変形例２に係る収音装置１は、さらにリモートコントローラ（以下、リモコンと称する。）５０を備えている。リモコン５０は、利用者の操作を受け付けるための端末である。リモコン５０は、ＵＳＢあるいはＢｌｕｅｔｏｏｔｈ（登録商標）等の通信手段でＩ／Ｆ１９に接続される。リモコン５０は、例えば複数のキーを有する。複数のキーは、電源オンオフキー、音量変更キー、方向キー、あるいはミュートキーなどを有する。利用者は、例えば方向キーを操作して、カメラ１１の撮影方向を変更する操作を行う。リモコン５０は、受け付けた操作に係る操作信号を、Ｉ／Ｆ１９を介して制御部１５に送信する。

【0047】

ミュートキーは、利用者からミュート操作を受け付けるための操作子である。利用者がミュートキーを操作すると、リモコン５０は、ミュートキーの操作に係る操作信号を、Ｉ／Ｆ１９を介して制御部１５に送信する。制御部１５は、ミュートキーの操作信号を受け付けた場合に、第１の収音ビーム（動的ビーム）または第２の収音ビーム（準固定ビーム）をミュートする。制御部１５は、ミュートした収音ビームに係る音信号をＩ／Ｆ１９に出力しない。

【0048】

ミュートキーは、全体ミュートキー、動的ビームミュートキー、および準固定ビームミュートキーを有してもよい。制御部１５は、全体ミュートキーの操作信号を受け付けた場合に、全ての動的ビームおよび準固定ビームをミュートする。制御部１５は、動的ビームミュートキーの操作信号を受け付けた場合に、全ての動的ビームをミュートする。制御部１５は、準固定ビームミュートキーの操作信号を受け付けた場合に、全ての準固定ビームをミュートする。

【0049】

これにより、収音装置１の利用者は、特定の人物の音声のみ通話相手に聞かせない、全員の音声を通話相手に聞かせない、等を簡単に設定することができる。

【0050】

なお、特定のオブジェクトがミュートキーを有していてもよい。この場合、特定のオブジェクトは、ＵＳＢあるいはＢｌｕｅｔｏｏｔｈ（登録商標）等の通信手段で収音装置１に接続されてもよい。特定のオブジェクトは、ミュートキーの操作に係る操作信号を、収音装置１に送信する。あるいは、特定のオブジェクトは、ミュートキーの操作を受け付けた場合に、特定の音を発してもよい。収音装置１は、特定のオブジェクトが発する特定の音を認識した場合にミュート操作を受け付ける。特定の音は、例えば特定のパルス音、アラーム音、あるいはホワイトノイズ等である。特定の音は、非可聴域（例えば２０ｋＨｚ以上）の音であってもよい。また、特定の音は、拡散符号（擬似ノイズ）であってもよい。この場合、収音装置１は、予め定めた拡散符号とマイク１４で取得した音信号との相関値を求める。収音装置１は、当該相関値は所定のレベルを超える場合に、ミュート操作を受け付ける。

【0051】

図１１は、変形例３に係る制御部１５の動作を示すフローチャートである。図５と共通する動作については同一の符号を付し、説明を省略する。

【0052】

第１収音ビーム設定部１２１は、話者位置検出部１１１で話者ＳＰ１を検出した後（Ｓ１２の後）、現在の収音ビームの数が最大であるか否かを判断する（Ｓ５１）。

【0053】

上述した様に、収音ビームは、同時に複数の方向に設定することができる。ただし、処理能力により、同時に設定可能な収音ビームの数には限りが有る。収音装置１は、設定可能な最大の収音ビームの数と、設定した準固定ビームの数と、の差だけ、動的ビームを同時に利用することができる。言い換えると、収音装置１は、設定可能な最大の収音ビームの数と、設定した動的ビームの数と、の差だけ、準固定ビームを同時に利用することができる。

【0054】

変形例３に係る収音装置１は、例えば４つの収音ビームを同時に設定することができる。したがって、変形例３に係る制御部１５は、まず現在の収音ビームの数が４つに達しているか否かを判断する。制御部１５は、現在の収音ビームの数が３つ以下であると判断した場合（Ｓ５１がＮＯの場合）、検出した話者ＳＰ１の位置に基づいてアレイマイク１３０に新たな第１の収音ビームを設定する（Ｓ１３）。一方で、制御部１５は、現在の収音ビームの数が４つであると判断した場合（Ｓ５１がＹＥＳの場合）、新たな第１の収音ビームを設定しない。

【0055】

変形例３に係る収音装置１は、過去に設定した動的ビームおよび準固定ビームを削除することがないため、既に発言した人物および特定の人物の音声を会議終了まで取得し続けることができる。

【0056】

図１２は、変形例４に係る制御部１５の動作を示すフローチャートである。図１１と共通する動作については同一の符号を付し、説明を省略する。

【0057】

変形例４に係る制御部１５は、現在の収音ビームの数が４つであると判断した場合（Ｓ５１がＹＥＳの場合）、最も過去に設定した第１の収音ビームに代えて新たな前記第１の収音ビームを設定する（Ｓ５２）。

【0058】

変形例４に係る収音装置１は、最も過去に設定した動的ビームを削除するため、例えば議題が変更された場合に新たに発言した人物の音声を取得することができる。

【0059】

図１３は、変形例５に係る制御部１５の動作を示すフローチャートである。図１１と共通する動作については同一の符号を付し、説明を省略する。

【0060】

変形例５に係る制御部１５は、現在の収音ビームの数が４つであると判断した場合（Ｓ５１がＹＥＳの場合）、優先度に基づいて過去に設定した第１の収音ビームに代えて新たな前記第１の収音ビームを設定する（Ｓ５３）。

【0061】

優先度は、例えば変形例２に示したリモコン５０により利用者から受け付ける。利用者は、過去に認識した複数の話者のそれぞれに高い優先度または低い優先度を設定する。制御部１５は、低い優先度に設定された第１の収音ビーム、または優先度の設定されていない第１の収音ビームに代えて新たな第１の収音ビームを設定する。

【0062】

変形例５に係る収音装置１は、利用者により選択された発言者の音声を会議終了まで取得し続けることができる。

【0063】

図１４は、変形例６に係る制御部１５の動作を示すフローチャートである。図１１と共通する動作については同一の符号を付し、説明を省略する。

【0064】

変形例６に係る制御部１５は、現在の収音ビームの数が４つであると判断した場合（Ｓ５１がＹＥＳの場合）、優先度に基づいて過去に設定した第２の収音ビームに代えて新たな前記第１の収音ビームを設定する（Ｓ５４）。

【0065】

変形例６に係る収音装置１も、利用者により選択された発言者の音声を会議終了まで取得し続けることができる。

【0066】

図１５は、変形例７に係る制御部１５の動作を示すフローチャートである。図１１と共通する動作については同一の符号を付し、説明を省略する。

【0067】

変形例７に係る制御部１５は、現在の収音ビームの数が４つであると判断した場合（Ｓ５１がＹＥＳの場合）、利用者から、削除する収音ビームの選択を受け付け（Ｓ５５）、利用者により選択された第１の収音ビームまたは第２の収音ビームに代えて、新たな第１の収音ビームを設定する（Ｓ５６）。

【0068】

変形例７に係る収音装置１も、利用者により選択された発言者の音声を会議終了まで取得し続けることができる。

【0069】

図１６は、変形例８に係る制御部１５の機能的構成を示すブロック図である。話者認識部１０１およびオブジェクト認識部１０２は、それぞれアレイマイク１３０における複数のマイク１４で取得した音信号に基づいて話者およびオブジェクトを認識する。

【0070】

話者認識部１０１は、例えば音声認識処理を行なうことにより、話者を検出する。音声認識処理は、例えばニューラルネットワーク等を用いた所定のモデルに、音声とマイク１４で取得した音信号との関係を訓練した訓練済モデルを用いて、音声の有無を検出する処理である。

【0071】

オブジェクト認識部１０２は、音声認識処理により特定の人物の音声を認識する。ただし、オブジェクト認識部１０２は、予め登録した特定の人物の音声とマイク１４で取得した音信号との関係を訓練した訓練済モデルを用いて、特定の人物の音声を検出する。

【0072】

あるいは、オブジェクト認識部１０２は、特定のオブジェクトが発する特定の音を認識する。特定の音は、例えば特定のパルス音、アラーム音、あるいはホワイトノイズ等である。特定の音は、非可聴域（例えば２０ｋＨｚ以上）の音であってもよい。また、特定の音は、拡散符号（擬似ノイズ）であってもよい。この場合、オブジェクト認識部１０２は、予め定めた拡散符号とマイク１４で取得した音信号との相関値を求める。オブジェクト認識部１０２は、当該相関値は所定のレベルを超える場合に、特定のオブジェクトを認識する。

【0073】

話者位置検出部１１１およびオブジェクト位置検出部１１２は、それぞれアレイマイク１３０における複数のマイク１４で取得した音信号に基づいて話者およびオブジェクトの位置を検出する。

【0074】

話者位置検出部１１１は、例えば複数のマイク１４の音信号の相関値を求めることで、音声の取得タイミングの差（位相差）を求め、話者の位置を検出する。話者位置検出部１１１は、３つ以上のマイク１４における音声の取得タイミングの差を求めることで、話者の位置を一意に求めることができる。

【0075】

オブジェクト位置検出部１１２も同様に、３つ以上のマイク１４における音声の取得タイミングの差を求めることで、特定の人物あるいは特定のオブジェクトの位置を一意に求めることができる。

【0076】

この様に、話者およびオブジェクトの位置は、音声に基づいて求めることもできる。

【0077】

なお、図１７に示す様に、収音装置１は、例えば天井に設置されていてもよい。

【0078】

また、本発明においてスピーカを用いて遠隔地と音声会議を行うことは必須ではない。例えば、収音装置１は、ビデオカメラであってもよい。この場合も、収音装置１の利用者は、音声を取得したい範囲を簡単に設定して、該範囲を認識することができる。

【0079】

本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。

【符号の説明】

【0080】

１：収音装置
３：表示器
１１：カメラ
１２：スピーカ
１４：マイク
１５：制御部
１７：メモリ
１９：Ｉ／Ｆ
５０：リモコン
１００：認識部
１０１：話者認識部
１０２：オブジェクト認識部
１１０：位置検出部
１１１：話者位置検出部
１１２：オブジェクト位置検出部
１２０：収音ビーム設定部
１２１：第１収音ビーム設定部
１２２：第２収音ビーム設定部
１３０：アレイマイク
１３１：ビームフォーミング処理部

【図1】