(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-20
(45)【発行日】2023-03-01
(54)【発明の名称】音信号処理装置、ミキサ、および音信号処理方法
(51)【国際特許分類】
H04R 3/00 20060101AFI20230221BHJP
H04R 1/40 20060101ALI20230221BHJP
G10L 25/51 20130101ALI20230221BHJP
【FI】
H04R3/00 320
H04R1/40 320A
G10L25/51 400
(21)【出願番号】P 2018200308
(22)【出願日】2018-10-24
【審査請求日】2021-08-23
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】池ヶ谷 祐治
【審査官】渡邊 正宏
(56)【参考文献】
【文献】特開2007-013400(JP,A)
【文献】特表2018-515028(JP,A)
【文献】特開2015-211303(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
G10L 19/00-19/26
G10L 21/00-21/18
G10L 25/00-25/93
G10L 99/00
H04M 3/00
H04M 3/16- 3/20
H04M 3/38- 3/58
H04M 7/00- 7/16
H04M 11/00-11/10
H04R 1/20- 1/40
H04R 3/00- 3/14
(57)【特許請求の範囲】
【請求項1】
複数のマイクと、
前記複数のマイクの収音信号を用いて、3つ以上の収音ビームを形成し、前記3つ以上の収音ビームに一対一で対応する3チャンネル以上の音信号を出力するビーム形成手段と、
前記ビーム形成手段によって、形成された前記3チャンネル以上の音信号のうち2以上の一部チャンネルを所定の基準に基づき選択する選択手段と、
前記選択手段で選択した前記一部チャンネルのうちそれぞれのチャンネルの音信号のゲインを、前記それぞれのチャンネルの音信号のレベルに応じて制御するゲイン制御部と、
を
、備え
、
前記選択手段は、前記3つ以上の収音ビームの収音方向が互いに隣接する収音ビームに対応するチャンネルを同時に選択しない、
音信号処理装置。
【請求項2】
前記音信号をミキシングするミキシング処理部を備えた
請求項1に記載の音信号処理装置。
【請求項3】
前記ミキシング処理部は、前記ゲイン制御部でゲイン調整された前記それぞれのチャンネルの音信号をミキシングする、
請求項2に記載の音信号処理装置。
【請求項4】
前記選択手段は、各チャンネルのレベルに基づいて、前記選択を行なう、
請求項1乃至請求項3のいずれか1項に記載の音信号処理装置。
【請求項5】
前記選択手段は、最も高レベルの2つのチャンネルを選択する、
請求項4に記載の音信号処理装置。
【請求項6】
前記ビーム形成手段は、所定のエリア毎に収音ビームを形成する、
請求項
1乃至請求項5のいずれか1項に記載の音信号処理装置。
【請求項7】
前記複数のマイクは、天井タイルとして設置される、
請求項
1乃至請求項
6のいずれか1項に記載の音信号処理装置。
【請求項8】
前記天井タイルは、交換可能に構成されている、
請求項
7に記載の音信号処理装置。
【請求項9】
前記複数のマイクは、平面配列されているアレイマイクロフォンを構成する、
請求項
1乃至請求項
8のいずれか1項に記載の音信号処理装置。
【請求項10】
請求項1乃至請求項
9のいずれか1項に記載の音信号処理装置を備えたミキサ。
【請求項11】
複数のマイクの収音信号を用いて、3つ以上の収音ビームを形成し、前記3つ以上の収音ビームに一対一で対応する3チャンネル以上の音信号を出力することと、
前記3チャンネル以上の音信号のうち2以上の一部チャンネルを選択することと、
選択した前記一部チャンネルのうちそれぞれのチャンネルの音信号のゲインを、前記それぞれのチャンネルの音信号のレベルに応じて制御することと、
を備え
、
前記3つ以上の収音ビームのうち、収音方向が互いに隣接する収音ビームに対応するチャンネルを同時に選択しない、音信号処理方法。
【請求項12】
前記音信号をミキシングすること
を備えた請求項
11に記載の音信号処理方法。
【請求項13】
前記ミキシングすることは、前記制御することでゲイン調整された前記それぞれのチャンネルの音信号をミキシングすることを含む、
請求項
12に記載の音信号処理方法。
【請求項14】
各チャンネルのレベルに基づいて、前記選択を行なう、
請求項
11乃至請求項
13のいずれか1項に記載の音信号処理方法。
【請求項15】
最も高レベルの2つのチャンネルを選択する、
請求項
14に記載の音信号処理方法。
【請求項16】
所定のエリア毎に収音ビームを形成する、
請求項
11乃至請求項15のいずれか1項に記載の音信号処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一実施形態は、音信号を処理する音信号処理装置、ミキサ、および音信号処理方法に関する。
【背景技術】
【0002】
特許文献1、特許文献2および非特許文献1には、音信号を処理する装置の一例として、オートマチックミキサが開示されている。非特許文献1に記載されている様に、オートマチックミキサにおけるゲイン制御の手法は、主にゲートタイプとゲインシェアリングタイプとの2種類存在する。ゲートタイプのゲイン制御は、複数の音信号のうち話者に対応する音信号を通過させ、他の音信号を遮断する。ゲインシェアリングタイプは、各音信号のレベルに応じたゲインを設定する。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2016-126136号公報
【文献】米国特許第3992584号公報
【非特許文献】
【0004】
【文献】“Automatic Microphone Mixer”、[online]、平成25年4、[平成30年9月12日検索]、インターネット<URL:https://jp.yamaha.com/files/download/other_assets/8/329528/Automixer_WhitePaper_ja.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0005】
ゲートタイプのゲイン制御は、話者が変更されてから話者のマイクのゲインが上がるまでに時間差が生じる。そのため、新たな話者の発言の冒頭を収音することができない場合がある。
【0006】
一方で、ゲインシェアリングタイプのゲイン制御は、話者の音声が複数のマイクに漏れて収音されると、最も話者に近いマイク以外のゲインが高くなるため、明瞭度が低下する。
【0007】
そこで、本発明の一実施形態の目的は、発言の冒頭を適切に収音することができ、かつ明瞭度の低下も防止する音信号処理装置、ミキサおよび音信号処理方法を提供することにある。
【課題を解決するための手段】
【0008】
本発明の一実施形態に係る音信号処理装置は、3チャンネル以上の音信号のうち2以上の一部チャンネルを所定の基準に基づき選択する選択手段と、前記選択手段で選択した前記一部チャンネルのうちそれぞれのチャンネルの音信号のゲインを、前記それぞれのチャンネルの音信号のレベルに応じて制御するゲイン制御部と、を備えている。
【発明の効果】
【0009】
本発明の一実施形態によれば、発言の冒頭を適切に収音することができ、かつ明瞭度の低下も防止することができる。
【図面の簡単な説明】
【0010】
【
図1】アレイマイクロフォン1が設置された室内の立面図である。
【
図2】アレイマイクロフォン1が設置された室内の平面図である。
【
図3】アレイマイクロフォン1の構成を示すブロック図である。
【
図5】AUTOMIX31の機能的構成を示すブロック図である。
【
図6】AUTOMIX31の動作を示すフローチャートである。
【
図7】アレイマイクロフォン1の動作を示すフローチャートである。
【
図8】ビーム形成部21の機能的構成を示すブロック図である。
【
図9】アレイマイクロフォン1が設置された室内の平面図である。
【
図10】アレイマイクロフォン1が設置された室内の平面図である。
【
図11】アレイマイクロフォン1が設置された室内の平面図である。
【
図12】アレイマイクロフォン1Aの構成を示すブロック図である。
【
図13】話者毎に設けられた複数のマイクの収音信号を入力する場合のアレイマイクロフォン1の構成を示すブロック図である。
【発明を実施するための形態】
【0011】
本実施形態の音信号処理装置は、3チャンネル以上の音信号のうち2以上の一部チャンネルを所定の基準に基づき選択する選択手段と、前記選択手段で選択した前記一部チャンネルのうちそれぞれのチャンネルの音信号のゲインを、前記それぞれのチャンネルの音信号のレベルに応じて制御するゲイン制御部と、を備えている。
【0012】
この様に、本実施形態の音信号処理装置は、まずゲートタイプのゲイン制御でチャンネル数を絞り込み、その後にゲインシェアリングタイプのゲイン制御を行なう。仮に、話者の音声が複数のマイクに漏れていたとしても、本実施形態のミキサは、ゲートタイプのゲイン制御でチャンネル数を絞り込むため、明瞭度の低下を防止することができる。また、本実施形態のミキサは、ゲインシェアリングタイプのゲイン制御を行なうため、発言の冒頭を適切に収音することができる。
【0013】
なお、選択手段は、各チャンネルのレベルに基づいて、前記選択を行なうことが好ましい。選択手段は、例えば、最も高レベルの2つのチャンネルを選択する。これにより、チャンネルは、話者の音声を適切に収音しているマイクに絞り込まれるため、発言の冒頭を適切に収音することができ、かつ明瞭度の低下も防止することができる。
【0014】
なお、ミキサは、複数のマイクと、前記複数のマイクの収音信号を用いて、3つ以上の収音ビームを形成し、前記3チャンネル以上の音信号として出力するビーム形成手段と、を備えていてもよい。
【0015】
複数の収音ビームを形成する場合、ある程度の収音領域を有する。したがって、話者の音声は、複数の収音ビームのそれぞれに収音される可能性がある。そこで、本実施形態のミキサは、ゲートタイプのオートマチックミキサでビーム数を絞り込むため、明瞭度の低下を防止することができる。
【0016】
特に、話者の音声は、隣接する複数の収音ビームのそれぞれに収音される可能性がある。そこで、選択手段は、前記3つ以上の収音ビームのうち、収音方向が互いに隣接する収音ビームは同時に選択しないことが好ましい。
【0017】
以下、本実施形態の具体的構成について説明する。
図1は、アレイマイクロフォン1が設置された室内の立面図であり、
図2は平面図である。
【0018】
アレイマイクロフォン1は、室内の天井に設置されている。アレイマイクロフォン1の直下には、会議机Tが設置されている。
図1および
図2の例では、会議机Tの周囲には、複数のユーザ(話者)h1、ユーザh2、ユーザh3およびユーザh4がいる。アレイマイクロフォン1は、厚みの薄い直方体形状の筐体を有する。
図1の例では、アレイマイクロフォン1の上面が天井に設置されている。なお、アレイマイクロフォン1は、例えば天井に吊り下げられていてもよい。また、アレイマイクロフォン1は、天井タイルとして設置されてもよい。また、アレイマイクロフォン1は、室内の設備として備え付けられていてもよいが、交換可能に構成されていてもよい。アレイマイクロフォン1が天井タイルとして設置される場合、当該天井タイルが交換可能に構成される。また、本実施形態のアレイマイクロフォン1は、天井に設置される態様であるが、必ずしも天井に設置される必要はない。例えば、アレイマイクロフォン1は、壁面、机上、あるいは床面等に設置されていてもよい。
【0019】
図3は、アレイマイクロフォン1の構成を示すブロック図である。アレイマイクロフォン1は、複数のマイク11-1乃至マイク11-n、ビーム形成部21、オートミキサ(AUTOMIX)31、インタフェース(I/F)41、および音源方向推定部25を備えている。
図4は、アレイマイクロフォン1の動作を示すフローチャートである。
【0020】
ビーム形成部21、AUTOMIX31、および音源方向推定部25は、それぞれハードウェアにより構成されてもよいが、ソフトウェアにより構成されていてもよい。ソフトウェアにより構成される場合、CPU等のプロセッサ(不図示)が、メモリ等の記憶媒体(不図示)に記憶されたソフトウェアを読み出して実行することでビーム形成部21、AUTOMIX31、および音源方向推定部25を構成する。なお、ソフトウェアは、アレイマイクロフォン1のメモリ等に記憶しておく必要はなく、サーバ等の他装置から都度ダウンロードして実行してもよい。
【0021】
複数のマイク11-1乃至マイク11-nは、アレイマイクロフォン1の筐体の下面に配置されている。複数のマイク11-1乃至マイク11-nの収音方向は、アレイマイクロフォン1の下面に向けられている。
【0022】
図4は、アレイマイクロフォン1を下面から見た図である。
図4に示す多数の円は、複数のマイク11-1乃至マイク11-nを表す。複数のマイク11-1乃至マイク11-nは、
図4に示す様に、平面配置されたアレイマイクを構成する。ただし、複数のマイク11-1乃至マイク11-nの配置は、
図4に示す例に限るものではない。なお、複数のマイク11-1乃至マイク11-nは、無指向性マイクでも指向性マイクでもよい。
【0023】
図3に示す様に、複数のマイク11-1乃至マイク11-nでそれぞれ収音した音信号(以下、収音信号と称する。)は、ビーム形成部21に入力される。ビーム形成部21は、複数のマイク11-1乃至マイク11-nの収音信号を所定の遅延量で遅延して合成する。これにより、ビーム形成部21は、所定の方向に強い感度を有する収音ビームを形成し、それぞれ異なるチャンネルの収音信号として出力する。ビーム形成部21は、複数の収音ビームを形成することができる。本実施形態の例では、最大で4つの収音ビーム(第1収音ビームb1、第2収音ビームb2、第3収音ビームb3、および第4収音ビームb4)を形成し、4チャンネルの収音信号を出力する。収音ビームの数、および各収音ビームの方向は、音源方向推定部25で推定した音源方向に基づいて決定される。
【0024】
4つの収音ビームに係る4チャンネルの収音信号は、それぞれAUTOMIX31に入力される。AUTOMIX31は、本発明のミキサに相当する。
【0025】
図5は、AUTOMIX31の機能的構成を示すブロック図である。
図6は、AUTOMIX31の動作を示すフローチャートである。AUTOMIX31は、レベル検出部301、ゲート処理部302、およびゲインシェアリング処理部303を備えている。
【0026】
レベル検出部301およびゲート処理部302は、4つの収音ビーム(第1収音ビームb1、第2収音ビームb2、第3収音ビームb3、および第4収音ビームb4)に係る4チャンネルの収音信号を入力する(S1)。
【0027】
レベル検出部301は、各チャンネルの収音信号のレベルを検出する(S2)。レベル検出部301は、検出した各チャンネルの収音信号のレベルを比較する(S3)。この例では、レベル検出部301は、高レベルの収音信号2つを選択する。
【0028】
ゲート処理部302は、選択手段に対応し、レベル検出部301で選択した2つのチャンネルの収音信号を通過させ、他のチャンネルの収音信号を遮断する、ゲート処理を行なう(S4)。ゲート処理部302は、ゲインシェアリング処理部303に、4つのチャンネルの収音信号のうち高レベルの2つチャンネルの収音信号のみ出力する。
【0029】
ゲインシェアリング処理部303は、レベル検出部301から、各チャンネルの収音信号のレベルを示す情報を受信する。ゲインシェアリング処理部303は、機能的にゲイン制御部313と、ミキシング処理部323と、を備えている。ゲイン制御部313は、各チャンネルのレベルに応じて、それぞれのチャンネルの音信号のゲインを制御する(S5)。ミキシング処理部323は、音信号をミキシングする(S6)。具体的には、ミキシング処理部323は、ゲイン制御部313でゲイン調整されたそれぞれのチャンネルの音信号をミキシングする。このようにして、ゲインシェアリング処理部303は、各チャンネルのレベルに応じたゲインで収音信号をミキシングする、ゲインシェアリング処理を行なう。これにより、2つの収音ビームのうち高レベルの収音ビームが強調されるため、現在の話者の音声を明瞭に取得することができる。なお、ミキシング処理部323によるミキシング処理は本発明において必須ではない。ゲインシェアリング処理部303は、ゲイン制御部313でゲイン調整されたそれぞれのチャンネルの音信号をI/F41に出力してもよい。この場合、例えば、遠隔地の装置において、ゲイン調整されたそれぞれのチャンネルの音信号をミキシングしてもよい。
【0030】
図2に示した様に、4つの収音ビームは、それぞれ異なる方向に向けられている。しかし、各収音ビームは、それぞれある程度の収音領域を有する。したがって、話者の音声は、各収音ビームのそれぞれに漏れて収音される可能性がある。特に、低音域の音は高音域の音よりも回り込み易い。したがって、4つの収音ビームの全ての信号でゲインシェアリング処理を行なうと、低音域が強調されやすくなり、こもった様な音になる可能性がある。一方で、仮にゲート処理部302が1つの収音ビームに絞り込むと、話者が変更された場合に、新たな話者に切り替わるまで時間差が生じる。そのため、新たな話者の発言の冒頭を収音することができない場合がある。
【0031】
これに対して、本実施形態のAUTOMIX31は、まずゲート処理部302において4つの収音ビームを2つの収音ビームに絞り込む。これにより、ゲインシェアリング処理部303に入力される収音信号の数が絞り込まれる。よって、AUTOMIX31は、4つの収音ビームの全ての信号でゲインシェアリング処理を行なうよりも、明瞭度が向上する。また、AUTOMIX31は、最も高レベルの収音ビームだけでなく、次に高レベルの収音ビームの収音信号も用いてゲインシェアリング処理を行なう。他の収音ビームに係る収音信号もゲインシェアリング処理部303に入力されているため、話者が変更された場合でも新たな話者の発言の冒頭を適切に収音することができる。なお、上記例では、ゲート処理部302は、4つの収音ビームのうち高レベルの2つの収音ビームを選択した。しかし、選択する収音ビームの数は、2つではなく、3つでもよい。また、収音ビームの数は3つでもよいし、5つ以上でもよい。つまり、ゲート処理部302は、3チャンネル以上の音信号のうち2以上の一部チャンネルを選択すればよい。
【0032】
なお、上記の例では、ゲート処理部302は、各チャンネルのレベルに基づいて、選択を行なった。しかし、ゲート処理部302は、後述する音源方向推定部25による推定結果を用いて、収音ビームを選択してもよい。
【0033】
AUTOMIX31でミキシングされた収音信号は、I/F41に入力される。I/F41は、例えばUSB等の通信I/Fである。I/F41は、入力された収音信号を所定のデータ形式にエンコードし、パーソナルコンピュータ等の他装置に送信する。これにより、アレイマイクロフォン1は、収音した音声を遠隔地の装置に送信することができ、遠隔会議を実現することができる。なお、I/F41は、遠隔地の装置から音信号を受信してもよい。I/F41は、受信した音信号を不図示のスピーカに出力する。これにより、会議参加者は、遠隔地の音声を聞くことができる。
【0034】
音源方向推定部25は、複数のマイクの収音信号を用いて音源方向を推定する(
図7のフローチャートに示すS11)。音源方向推定部25は、例えば複数のマイクの収音信号の相互相関を算出することにより、音源方向を推定する。音源方向推定部25は、例えばある2つのマイクの収音信号の相互相関のピークを求めることで、これら2つのマイクに対する音源の方向を求めることができる。さらに、音源方向推定部25は、別の2つのマイクの収音信号の相互相関のピークを求めることで、これら別の2つのマイクに対する音源の方向を求めることができる。音源方向推定部25は、この様にして算出した複数の相互相関のピークに基づいて、音源方向を推定する。
【0035】
2つのマイクによる音源方向の推定だけでは、1次元の方向(例えば平面方向または立面方向)しか推定できない。または、1次元の方向および音源との距離しか推定できない。しかし、音源方向推定部25は、平面配置されたアレイマイクから、2組以上の複数のマイクを選択して、複数の相互相関のピークを求める。これにより、音源方向推定部25は、2次元の方向(平面方向および立面方向)を推定する。また、音源方向推定部25は、2次元の方向に加えて、音源との距離も推定することができる。
【0036】
また、推定する音源の数および精度は、マイクの数および算出する相互相関の数が多いほど向上する。本実施形態の音源方向推定部25は、2つの音源方向を推定する。すなわち、音源方向推定部25は、各相互相関についてさらに2つのピーク(レベルの大きい側から2つのピーク)を求めることで、2つの音源方向を推定する。
【0037】
なお、音源方向の推定手法は、上記の例に限らない。音源方向推定部25は、例えば、ビーム形成部21で形成された複数方向の収音ビームのレベルを比較することでも、音源方向を推定することができる。この場合、ビーム形成部21は、予め室内の複数方向(例えば1000方向)に収音ビームを形成する。音源方向推定部25は、これら複数方向の収音ビームのレベルをそれぞれ求める。音源方向推定部25は、これら複数方向の収音ビームの空間的なレベル分布を求める。音源方向推定部25は、レベル分布に基づいて、音源の方向を複数推定する。
【0038】
ただし、上述の様に多数(例えば1000方向)の収音ビームを形成し、空間的なレベル分布を求める場合、演算量が非常に大きい。また、相互相関のピークに基づいて音源方向を推定する場合、多数の音源方向を推定することが困難である。そこで、本実施形態のアレイマイクロフォン1は、演算量を抑えるために、音源方向の推定数を抑えながら、音源方向の推定数よりも収音ビームの数を多くして、多数の音源に対応する。
【0039】
ビーム形成部21は、音源方向推定部25が推定した音源方向に基づいて収音ビームの数および方向を制御する。
図8は、ビーム形成部21の機能的構成を示すブロック図である。
【0040】
ビーム形成部21は、機能的に、比較器201、遅延計算部202、遅延部203-1、遅延部203-2、遅延部203-3、および遅延部203-4を備えている。遅延部203-1は、遅延器251-1乃至遅延器251-nおよび加算器255を備えている。遅延部203-1、遅延部203-2、遅延部203-3、および遅延部203-4は、それぞれ同じ構成を有する。
【0041】
ビーム形成部21の各機能的構成は、ビーム形成部21を構成する不図示のCPUまたはDSP等のハードウェアがメモリからプログラムを読み出して実行することにより実現される。
【0042】
比較器201は、音源方向推定部25が推定した音源方向の情報を入力する。この例では、比較器201は、第1の音源方向d1を示す情報および第2の音源方向d2を示す情報を入力する。第1の音源方向d1を示す情報は、平面方向を示す鉛直軸回りの角度θ1、および立面方向を示す水平軸回りの角度φ1、が含まれている。第2の音源方向d2を示す情報は、鉛直軸回りの角度θ2および水平軸回りの角度φ2が含まれている。鉛直軸回りの角度は、
図2に示すように、アレイマイクロフォン1の筐体を平面視した所定方向(
図2では右方向)を基準とした相対角度で表される。水平軸回りの角度は、
図1に示すように、アレイマイクロフォン1の筐体を立面視した所定方向(
図1では右方向)を基準とした相対角度で表される。
【0043】
比較器201は、音源方向推定部25から入力された第1の音源方向d1および第2の音源方向d2に基づいて、収音ビームの数および方向を決定する。本実施形態では、最大で4つの収音ビームを形成する。したがって、比較器201は、第1収音ビームb1の方向を角度θ’1および角度φ’1に設定し、第2収音ビームb2の方向を角度θ’2および角度φ’2に設定し、第3収音ビームb3の方向を角度θ’3および角度φ’3に設定し、第4収音ビームb4の方向を角度θ’4および角度φ’4に設定する。
【0044】
比較器201は、設定した各収音ビームの角度情報を、遅延計算部202に送信する。遅延計算部202は、受信した各収音ビームの角度情報に基づいて、遅延部203-1、遅延部203-2、遅延部203-3、および遅延部203-4における各遅延器251-1乃至遅延器251-nの遅延量を計算する。そして、遅延計算部202は、遅延部203-1、遅延部203-2、遅延部203-3、および遅延部203-4における各遅延器251-1乃至遅延器251-nの遅延量を設定する。遅延部203-1、遅延部203-2、遅延部203-3、および遅延部203-4における各遅延器251-1乃至遅延器251-nは、入力された収音信号を遅延して加算器255に出力する。加算器255は、これら収音信号を合成することで収音ビームを形成する。形成された収音ビームは、AUTOMIX31に出力される。
【0045】
比較器201は、現在の各収音ビームの角度情報を、メモリ(不図示)に記憶している。比較器201は、第1の音源方向d1および第2の音源方向d2の角度と、現在の各収音ビームの角度と、を比較する(
図7のフローチャートに示すS12)。
【0046】
比較器201は、第1の音源方向d1および第2の音源方向d2のそれぞれについて、所定角度範囲内に収音ビームが存在するか否かを判断する(S13)。比較器201は、例えば角度θ1±5度および角度φ1±5度の範囲内に収音ビームが存在するか否かを判断する。比較器201は、第1の音源方向d1および第2の音源方向d2の両方について、所定角度範囲内に収音ビームが存在すると判断した場合、以後の処理をスキップする。これにより、現在の収音ビームの設定は保持される。
【0047】
比較器201は、第1の音源方向d1または第2の音源方向d2のいずれかについて、所定角度範囲内に収音ビームが存在しないと判断した場合、現在のビーム数が最大数に達しているか否かを判断する(S14)。この例では、収音ビームの最大数は4である。したがって、比較器201は、現在、4つの収音ビームを形成しているか否かを判断する。
【0048】
比較器201は、現在3つ以下の収音ビームを形成していると判断した場合、新たな収音ビームを形成する(S15)。比較器201は、新たな収音ビームの方向を、第1の音源方向d1または第2の音源方向d2に設定する。例えば、比較器201は、現在の収音ビームの数が3つである場合において、角度θ1±5度および角度φ1±5度の範囲内に収音ビームが存在しないと判断した場合に、第4収音ビームb4の角度θ’4および角度φ’4を、角度θ1および角度φ1に設定する。これにより、新たな第4収音ビームb4が音源方向に向けられる。
【0049】
また、比較器201は、現在4つの収音ビームを形成していると判断した場合、最も過去に更新した収音ビームの角度を更新する(S16)。
【0050】
図9および
図10の平面図は、一例として、話者h1が発言を終了し、話者h2および新たな話者h5が発言を行なう場合を説明する図である。
【0051】
この場合、音源方向推定部25は、話者h5の方向に第1の音源方向d1を推定する。また、音源方向推定部25は、話者h2の方向に第2の音源方向d2を推定する。この場合、比較器201は、第1の音源方向の所定角度範囲内(例えば角度θ1±5度および角度φ1±5度の範囲内)に収音ビームが存在しないと判断する。そして、
図10の平面図に示す様に、比較器201は、例えば、最も過去に更新した収音ビームが第3収音ビームである場合に、第3収音ビームb3の角度θ’3および角度φ’3を、角度θ1および角度φ1に設定する。これにより、話者h5の方向に第3収音ビームb3が向けられる。
【0052】
そして、仮に話者h5が発言を終了し、話者h1が発言を再開した場合でも、第1収音ビームb1が話者h1の方向に向けられているため、アレイマイクロフォン1は、話者h1の発言の冒頭を欠くこと無く収音することができる。また、ゲート処理部302において、第1収音ビームb1および第3収音ビームb3が選択されていれば、高い明瞭度で発言の冒頭を適切に収音することができる。
【0053】
この様に、アレイマイクロフォン1は、音源方向の推定数よりも収音ビームの数を多くして、現在推定している音源方向以外にも収音ビームを向けている。したがって、アレイマイクロフォン1は、話者が変更された場合でも、既に他の方向に向けられた収音ビームで新たな話者の発言を収音することができる。よって、アレイマイクロフォン1は、演算量を抑えながらも、新たな話者の発言の冒頭を収音することができる。また、AUTOMIX31は、4つの収音ビームの全ての信号でゲインシェアリング処理を行なうよりも明瞭度が向上する。AUTOMIX31は、最も高レベルの収音ビームだけでなく、次に高レベルの収音ビームの収音信号も用いてゲインシェアリング処理を行なう。他の収音ビームに係る収音信号もゲインシェアリング処理部303に入力されているため、話者が変更された場合でも新たな話者の発言の冒頭を適切に収音することができる。
【0054】
なお、更新対象の収音ビームは、最も過去に更新した収音ビームに限らない。例えば、比較器201は、推定した音源方向に角度が最も近い収音ビームを更新の対象としてもよい。
【0055】
また、上述の様に、ゲート処理部302は、音源方向推定部25による推定結果を用いて、収音ビームを選択してもよい。つまり、ゲート処理部302は、音源方向推定部25が推定した音源方向に対応する収音ビームを選択する。この場合も、AUTOMIX31は、3チャンネル以上の音信号のうち2以上の一部チャンネルを選択してゲインシェアリング処理を行なうため、明瞭度が向上し、かつ話者が変更された場合でも新たな話者の発言の冒頭を適切に収音することができる。
【0056】
なお、比較器201は、収音ビーム毎に担当するエリアを定めていてもよい。例えば、
図11に示す様に、比較器201は、室内を平面視して、4つのエリアを設定する。そして、比較器201は、第1収音ビームの担当エリア(Area1)、第2収音ビームの担当エリア(Area2)、第3収音ビームの担当エリア(Area3)、および第4収音ビームの担当エリア(Area4)に設定する。そして、比較器201は、推定した音源方向が属するエリアを判断し、対応する収音ビームの角度を更新する。
【0057】
比較器201は、エリア毎の音源方向の推定頻度を記録し、推定頻度に応じて更新対象とする収音ビームを決定してもよい。例えば、Area1で音源方向の推定頻度が高く、Area3で音源方向の推定頻度が低い場合、比較器201は、Area3を担当する第3収音ビームの角度を、Area1の方向に向けるように設定してもよい。
【0058】
また、複数の収音ビームのうち少なくとも1つの収音ビームの収音方向は固定されていてもよい。固定する収音ビームの方向は、利用者が手動で設定してもよい。例えば、議長席等の発言頻度の高い話者が存在することが予め分かっている場合に、利用者は、収音ビームの方向を議長席の方向に設定する。これにより、アレイマイクロフォン1は、演算量をさらに抑えながらも、発言の冒頭を適切に収音することができる。
【0059】
また、ゲート処理部302は、収音方向が互いに隣接する収音ビームを同時に選択しないようにしてもよい。特に、話者の音声は、隣接する複数の収音ビームのそれぞれに収音される可能性がある。そこで、ゲート処理部302は、収音方向が互いに隣接する収音ビームは同時に選択しないことで、より明瞭度を向上させることができる。
【0060】
次に、
図12は、エコーキャンセラをさらに備えたアレイマイクロフォン1Aの構成を示すブロック図である。
図3のアレイマイクロフォン1と共通する構成には、同一の符号を付し、説明を省略する。
図12のアレイマイクロフォン1Aは、ビーム形成部21、およびAUTOMIX31に接続されるAEC(エコーキャンセラ)50-1、AEC50-2、AEC50-3、およびAEC50-4を備えている。また、アレイマイクロフォン1Aは、音源方向推定部25および複数のマイクのいずれかにそれぞれ接続されるAEC51-1、AEC51-2、AEC51-3、およびAEC51-4を備えている。I/F41は、遠隔地の装置から音信号を受信する。I/F41は、受信した音信号をAEC51-1、AEC51-2、AEC51-3、およびAEC51-4に出力する。また、I/F41は、受信した音信号をAEC50-1、AEC50-2、AEC50-3、およびAEC50-4に出力する。
【0061】
AEC51-1、AEC51-2、AEC51-3、およびAEC51-4は、それぞれ対応するマイクの収音信号を入力し、エコー成分を除去する処理を行なう。具体的には、AEC51-1、AEC51-2、AEC51-3、およびAEC51-4は、それぞれ、デジタルフィルタからなる。AEC51-1、AEC51-2、AEC51-3、およびAEC51-4は、スピーカからマイクに至る伝達関数を模擬したフィルタ係数を有する。AEC51-1、AEC51-2、AEC51-3、およびAEC51-4は、遠隔地の装置から受信した音信号をフィルタ処理することでエコー成分を模擬した擬似エコー信号を生成する。AEC51-1、AEC51-2、AEC51-3、およびAEC51-4は、マイクの収音信号から擬似エコー信号を除去する。これにより、音源方向推定部25は、エコー成分が除去された後の収音信号で音源方向を推定することができる。
【0062】
AEC50-1、AEC50-2、AEC50-3、およびAEC50-4は、それぞれ第1収音ビームb1、第2収音ビームb2、第3収音ビームb3、および第4収音ビームb4に係る収音信号を入力し、エコー成分を除去する処理を行なう。エコー成分を除去する処理は、AEC51-1、AEC51-2、AEC51-3、およびAEC51-4と同様である。この様に、アレイマイクロフォン1Aは、収音ビームに係る収音信号からエコー成分を除去することで、全てのマイクの収音信号からエコー成分を除去するよりも演算量を抑えることができる。
【0063】
なお、本実施形態では、AUTOMIX31は、複数の収音ビームに係る収音信号を入力した。しかし、ビーム形成部21によるビーム形成および音源方向推定部25による音源方向の推定は、必須ではない。例えば、
図13に示す様に、AUTOMIX31は、話者毎に設けられた複数のマイク11-1乃至11-nの収音信号を入力してもよい。この場合も、AUTOMIX31は、3チャンネル以上の音信号のうち2以上の一部チャンネルを選択して、選択した一部チャンネルの音信号のゲインを、それぞれのチャンネルの音信号のレベルに応じて制御してミキシングする。
【0064】
最後に、本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。
【符号の説明】
【0065】
1…アレイマイクロフォン
11-1~11-n…マイク
21…ビーム形成部
25…音源方向推定部
31…AUTOMIX
41…I/F
201…比較器
202…遅延計算部
203-1,203-2,203-3,203-4…遅延部
251-1~251-n…遅延器
255…加算器
301…レベル検出部
302…ゲート処理部
303…ゲインシェアリング処理部