(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-01-20
(45)【発行日】2023-01-30
(54)【発明の名称】収音装置、収音方法及びプログラム
(51)【国際特許分類】
H04R 3/00 20060101AFI20230123BHJP
H04R 1/40 20060101ALI20230123BHJP
H04R 3/02 20060101ALI20230123BHJP
【FI】
H04R3/00 320
H04R1/40 320A
H04R3/02
(21)【出願番号】P 2018111911
(22)【出願日】2018-06-12
【審査請求日】2021-05-17
(32)【優先日】2017-06-12
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2018-02-26
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】513305353
【氏名又は名称】ヤマハ・ユニファイド・コミュニケーションズ
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】田中 良
【審査官】冨澤 直樹
(56)【参考文献】
【文献】特開2010-212818(JP,A)
【文献】特開2015-154207(JP,A)
【文献】特開2007-010897(JP,A)
【文献】米国特許出願公開第2015/0016642(US,A1)
【文献】米国特許第06469732(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
H04R 1/40
H04R 3/02
G10L 25/51
(57)【特許請求の範囲】
【請求項1】
複数のマイクと、
音源から前記複数のマイクに至る音の到来時間差に基づく第1到来時間差を算出し、
前記第1到来時間差と前記到来時間差の差である第2到来時間差を算出し、
前記第1到来時間差と、前記第2到来時間差と、に基づいて前記音源の位置を推定する、信号処理部と、
を備えた収音装置。
【請求項2】
前記第1到来時間差は、前記複数のマイクの収音信号の相互相関に基づいて算出される、請求項1に記載の収音装置。
【請求項3】
前記信号処理部は、
前記複数のマイクの収音信号のクロススペクトルを算出し、
前記第1到来時間差に基づき、前記クロススペクトルの位相を回転した補正後クロススペクトルを算出し、
前記補正後クロススペクトルに基づき、前記第2到来時間差を算出する、
請求項2に記載の収音装置。
【請求項4】
前記信号処理部は、
前記相互相関が最大となる時間差に基づき、前記第1到来時間差を算出する、
請求項3に記載の収音装置。
【請求項5】
前記信号処理部は、前記補正後クロススペクトルに基づいて、周波数変化量に対する位相の変化度合いを算出し、前記変化度合いに基づいて、前記音源の1サンプル内の到来時間差である第2到来時間差を算出する、
請求項3に記載の収音装置。
【請求項6】
前記信号処理部は、前記変化度合いを、直線近似による傾きから算出する、
請求項5に記載の収音装置。
【請求項7】
前記信号処理部は、高域成分を除外して前記変化度合いを算出する、
請求項5に記載の収音装置。
【請求項8】
前記第2到来時間差は、前記第1到来時間差よりも小さい、請求項1乃至請求項7のいずれかに記載の収音装置。
【請求項9】
前記信号処理部は、
前記第1到来時間差と、前記第2到来時間差と、に基づいて、第3到来時間差を求め、
前記第3到来時間差に基づいて、前記音源の位置を推定する、
請求項1乃至請求項8のいずれかに記載の収音装置。
【請求項10】
前記音源の位置に基づいて、指向性を形成する指向性形成部を備える、
請求項1乃至請求項9のいずれかに記載の収音装置。
【請求項11】
複数のマイクを用いた収音方法であって、
音源から前記複数のマイクに至る音の到来時間差に基づく第1到来時間差を算出し、
前記第1到来時間差と前記到来時間差の差である第2到来時間差を算出し、
前記第1到来時間差と、前記第2到来時間差と、に基づいて前記音源の位置を推定する、
収音方法。
【請求項12】
前記第1到来時間差は、前記複数のマイクの収音信号の相互相関に基づいて算出される、請求項11に記載の収音方法。
【請求項13】
前記複数のマイクの収音信号のクロススペクトルを算出し、
前記第1到来時間差に基づき、前記クロススペクトルの位相を回転した補正後クロススペクトルを算出し、
前記補正後クロススペクトルに基づき、前記第2到来時間差を算出する、
請求項12に記載の収音方法。
【請求項14】
前記相互相関が最大となる時間差に基づき、前記第1到来時間差を算出する、
請求項13に記載の収音方法。
【請求項15】
前記補正後クロススペクトルに基づいて、周波数変化量に対する位相の変化度合いを算出し、前記変化度合いに基づいて、前記音源の1サンプル内の到来時間差である第2到来時間差を算出する、
請求項13に記載の収音方法。
【請求項16】
前記変化度合いを、直線近似による傾きから算出する、
請求項15に記載の収音方法。
【請求項17】
高域成分を除外して前記変化度合いを算出する、
請求項15に記載の収音方法。
【請求項18】
前記第2到来時間差は、前記第1到来時間差よりも小さい、請求項11乃至請求項17のいずれかに記載の収音方法。
【請求項19】
前記第1到来時間差と、前記第2到来時間差と、に基づいて、第3到来時間差を求め、
前記第3到来時間差に基づいて、前記音源の位置を推定する、
請求項11乃至請求項18のいずれかに記載の収音方法。
【請求項20】
前記音源の位置に基づいて、指向性を形成する、
請求項11乃至請求項19のいずれかに記載の収音方法。
【請求項21】
音源から複数のマイクに至る音の到来時間差に基づく第1到来時間差を算出し、
前記第1到来時間差と前記到来時間差の差である第2到来時間差を算出し、
前記第1到来時間差と、前記第2到来時間差と、に基づいて前記音源の位置を推定する、
処理を収音装置に実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一実施形態は、マイクを用いて音源の音を取得する収音装置、及び収音方法に関する。
【背景技術】
【0002】
収音装置は、音源の方向にアレイマイクの感度を向けるために、音源の到来方向を推定する場合がある。音源の到来方向を求めるために、収音装置は、複数のマイクの収音信号の相関を求める。収音装置は、音源から複数のマイクに至る音の到来時間差を算出することで、到来方向を推定する。到来時間差は、例えば相互相関関数により求める。収音装置は、複数のマイクの収音信号の相互相関関数を求め、該相互相関関数がピークを示す時のサンプル数を求める。このサンプル数は、音源から複数のマイクに至る音の到来時間差に対応する。到来時間差は、音速を乗算すると、距離に換算される。したがって、収音装置は、複数のマイク間の距離と、到来時間差に音速を乗算した距離と、に基づいて、三角関数の演算により、到来方向を推定することができる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
ただし、時間領域の相互相関関数により到来時間差を求める場合、1サンプル以下の時間差は、求めることができない。したがって、到来方向の推定精度は、サンプリング周波数および複数のマイク間の距離に依存する。
【課題を解決するための手段】
【0004】
収音装置は、複数のマイクと、信号処理部と、を備えている。信号処理部は、音源から前記複数のマイクに至る音の到来時間差に基づく第1到来時間差を算出し、前記第1到来時間差と前記到来時間差の差である第2到来時間差を算出し、前記第1到来時間差と、前記第2到来時間差と、に基づいて前記音源の位置を推定する。
【図面の簡単な説明】
【0005】
【
図1】放収音装置10の構成を示す外観斜視図である。
【
図2】放収音装置10の構成を示すブロック図である。
【
図3】信号処理部15の構成を示す機能ブロック図である。
【
図4】音声判定部(VAD)50の構成を示す機能ブロック図である。
【
図5】到来方向検出部(DOA)60の構成を示す機能ブロック図である。
【
図6】到来方向検出部(DOA)60の動作を示すフローチャートである。
【
図7】白色化クロススペクトルR(ω)の位相を示す図である。
【
図8】白色化クロススペクトルR’(ω)の位相を示す図である。
【
図9】到来方向とマイクによる音のズレとの関係を示す図である。
【
図10】指向性形成部(BF)20の構成を示すブロック図である。
【
図11】放収音装置10の動作を示すフローチャートである。
【発明を実施するための形態】
【0006】
図1は、放収音装置10を模式的に示した斜視図である。
図1においては、放音及び収音に係る主構成を記載して、その他の構成は記載していない。
【0007】
放収音装置10は、直方体形状の筐体1、マイク11、マイク12、マイク13、スピーカ70L、及びスピーカ70Rを備えている。複数のマイク11、マイク12、及びマイク13は、筐体1の一側面に一列に並んで配置されている。スピーカ70Lおよびスピーカ70Rは、対としてマイク11、マイク12、及びマイク13を挟んでマイク11、マイク12、及びマイク13の外側に配置されている。
【0008】
この例においては、マイクの数は3個であるが、放収音装置10は、少なくとも2個以上のマイクが設置されていれば動作可能である。また、スピーカの数も2個に限るものではなく、放収音装置10は、少なくとも1個以上のスピーカが設置されていれば動作可能である。また、スピーカ70Lおよびスピーカ70Rは、筐体1と別の構成として設けられていてもよい。
【0009】
図2は、放収音装置10のブロック図である。
図2に示すように、放収音装置10は、マイク11、マイク12、マイク13、スピーカ70L、スピーカ70R、信号処理部15、メモリ150、及びインタフェース(I/F)19を備えている。
【0010】
マイク11、マイク12、及びマイク13で取得された音声である収音信号は、信号処理部15で信号処理され、I/F19に入力される。I/F19は、例えば通信I/Fであり、該収音信号を、外部の装置(遠隔地)に送信する。あるいは、I/F19は、外部の装置から放音信号を受信する。メモリ150は、マイク11、マイク12、及びマイク13で取得された収音信号を録音データとして記録する。
【0011】
信号処理部15は、マイク11、マイク12、及びマイク13で取得された音声を以下に詳細に説明するように信号処理する。また、信号処理部15は、I/F19から入力した放音信号を処理する。スピーカ70L及びスピーカ70Rは、信号処理部15で信号処理された信号を放音する。
【0012】
なお、信号処理部15の機能は、パーソナルコンピュータ等の一般的な情報処理装置で実現することも可能である。この場合、情報処理装置は、メモリ150に記憶されたプログラム151、又はフラッシュメモリ等の記憶媒体に記憶されたプログラムを読み出して実行することにより、信号処理部15の機能を実現する。
【0013】
図3は、信号処理部15の機能ブロック図である。
図3に示すように、放収音装置10は、マイク11、マイク12、マイク13、スピーカ70L、スピーカ70R、信号処理部15、及びインタフェース(I/F)19を備えている。信号処理部15は、第1エコーキャンセラ(AEC)31、第1エコーキャンセラ32、第1エコーキャンセラ33、指向性形成部(BF:Beam Forming)20、第2エコーキャンセラ40、音声判定部(VAD:Voice Activity Detection)50、及び到来方向検出部(DOA:Direction Of Arrival)60を備えている。
【0014】
第1エコーキャンセラ31はマイク11の後段に、第1エコーキャンセラ32はマイク12の後段に、第1エコーキャンセラ33はマイク13の後段に、それぞれ設置されている。第1エコーキャンセラ31、第1エコーキャンセラ32、第1エコーキャンセラ33は、前段のマイクの収音信号のそれぞれに対して、エコーキャンセルを行う。これにより、第1エコーキャンセラ31、第1エコーキャンセラ32、及び第1エコーキャンセラ33は、スピーカ70L及びスピーカ70Rから各マイクに至るエコーを除去する。
【0015】
第1エコーキャンセラ31、第1エコーキャンセラ32、第1エコーキャンセラ33が行うエコーキャンセルはFIRフィルタ処理と減算処理からなる。エコーキャンセルは、インタフェース(I/F)19から信号処理部15へ入力されたスピーカ70L及びスピーカ70Rで放音する信号(放音信号)を入力し、FIRフィルタでエコー成分を推定し、第1エコーキャンセラ31、第1エコーキャンセラ32、及び第1エコーキャンセラ33へ入力された収音信号から、それぞれ推定したエコー成分を減算する。
【0016】
音声判定部(VAD)50は、第1エコーキャンセラ32の後段に設置されている。すなわち、音声判定部(VAD)50は、中央に位置するマイク12で収音した収音信号が音声であるか否かの判定を行う。音声判定部(VAD)50で人の声であると判定された場合、音声フラグが到来方向検出部(DOA)60に入力される。音声判定部(VAD)50については後に詳細に述べる。なお、音声判定部(VAD)50は、第1エコーキャンセラ32の後段に限られず、第1エコーキャンセラ32、又は第1エコーキャンセラ33の後段に設置されていてもよい。
【0017】
到来方向検出部(DOA)60は、第1エコーキャンセラ31及び第1エコーキャンセラ33の後段に設置されている。到来方向検出部(DOA)60は、音声の到来方向を検出する。到来方向検出部(DOA)60は、音声フラグが入力されると、マイク11及びマイク13で収音した収音信号に対して到来方向(θ)の検出を行う。到来方向(θ)については後で詳細に説明する。到来方向検出部(DOA)60は、音声フラグが入力されたときのみ検出を行うため、人の声以外の雑音が発生したとしても、到来方向(θ)の値は変更しない。到来方向検出部(DOA)60で検出された到来方向(θ)は、指向性形成部(BF)20へ入力される。到来方向検出部(DOA)60については後に詳細に述べる。
【0018】
指向性形成部(BF)20は、入力された到来方向(θ)を基に、ビームフォーミング処理を行う。ビームフォーミング処理により、到来方向(θ)の音にフォーカスすることができる。これにより、到来方向(θ)以外の方向から到来する雑音を最小化することができるため、到来方向(θ)の声音を選択的に収音することができる。指向性形成部(BF)20については後に詳細に述べる。
【0019】
第2エコーキャンセラ40は、指向性形成部(BF)20でビームフォーミング処理を施された信号に対して、周波数スペクトル振幅乗算処理を行う。これにより、第2エコーキャンセラ40は、減算処理のみで除去できなかった残留エコー成分を除去することができる。周波数スペクトル振幅乗算処理は、どの様な処理であってもよいが、例えば、周波数領域におけるスペクトラルゲイン、スペクトラルサブトラクション、エコーサプレッサの少なくともいずれか1つ、または、全てを用いる。残留エコー成分は、例えば部屋の暗騒音のために、第1エコーキャンセラにて生じたエコー成分の推定誤差に起因する誤差成分や、スピーカ70の放音レベルがある程度のレベルに達した場合に生じる筐体の振動音等である。第2エコーキャンセラ40は、第1エコーキャンセラにおける減算処理で推定したエコー成分のスペクトルと、入力信号のスペクトルと、に基づいて、残留エコー成分のスペクトルを推定し、推定した残留エコー成分のスペクトルを入力信号から除外する。
【0020】
以上の様に、本実施形態の信号処理部15は、減算処理により除去しきれないエコー成分も除去する。ただし、仮に前段で周波数スペクトル振幅乗算処理を行なうと、収音信号のレベルの情報が失われるため、BF20における指向性形成の処理が困難となる。また、仮に前段で周波数スペクトル振幅乗算処理を行なうと、後述の倍音パワースペクトル、パワースペクトル変化率、パワースペクトル平坦率、フォルマント強度、倍音強度、パワー、パワーの一階差分、パワーの二階差分、ケプストラム係数、ケプストラム係数の一階差分、又はケプストラム係数の二階差分の情報が失われるため、音声判定部(VAD)50において相互相関関数等の算出が困難となる。そこで、本実施形態の信号処理部15は、まず減算処理によりエコー成分を除去して、BF20による指向性形成処理、音声判定部(VAD)50による音声判定、及び到来方向検出部(DOA)60における到来方向の検出処理を行い、指向性形成された後の信号に対して、周波数スペクトル振幅乗算処理を行なう。
【0021】
次に、
図4を用いて音声判定部(VAD)50の機能について詳細に説明する。
【0022】
音声判定部(VAD)50は、音声信号の各種音声特徴量についてニューラルネットワーク57を用いて解析を行う。音声判定部(VAD)50は、解析の結果、収音信号が人の声であると判定した場合、音声フラグを出力する。
【0023】
各種音声特徴量としては、例えば、ゼロクロス率41、倍音パワースペクトル42、パワースペクトル変化率43、パワースペクトル平坦率44、フォルマント強度45、倍音強度46、パワー47、パワーの一階差分48、パワーの二階差分49、ケプストラム係数51、ケプストラム係数の一階差分52、又はケプストラム係数の二階差分53が挙げられる。
【0024】
ゼロクロス率41は、音声信号の時間領域においてゼロクロスとなる点の出現頻度を算出したものである。ゼロクロスは、音声の基本周波数であるピッチに対応する。倍音パワースペクトル42は、音声信号に含まれる倍音のそれぞれの周波数成分がどの位のパワーを有するかを表わしたものである。パワースペクトル変化率43は音声信号の周波数成分に対するパワーの変化率を表わしたものである。パワースペクトル平坦率44は、音声信号の周波数成分のうねりの度合いを表わしたものである。フォルマント強度55は、音声信号に含まれるフォルマント成分の強度を表わしたものである。倍音強度46は、音声信号に含まれる倍音のそれぞれの周波数成分の強度を表わしたものである。パワー47は、音声信号のパワーである。パワーの一階差分48は、パワー47の前回との差である。パワーの二階差分49は、パワーの一階差分48の前回との差である。ケプストラム係数51は、音声信号の離散コサイン変換の振幅の対数である。ケプストラム係数の一階差分52は、ケプストラム係数51の前回との差である。ケプストラム係数の二階差分53は、ケプストラム係数の一階差分52の前回との差である。
【0025】
なお、ケプストラム係数51を求めるときの音声信号は、プリエンファシスフィルタを用いて高域を強調したものを用いてもよいし、音声信号の離散コサイン変換の振幅は、メルフィルタバンクを用いて圧縮をしたものを使用してもよい。
【0026】
なお、音声特徴量としては、上述のパラメータには限定されず、人の声とその他の音を判別することができる指標となるものであれば使用できる。
【0027】
ニューラルネットワーク57は、人間の判断事例から結果を導き出す手法であり、入力値に対し、人間が導き出した判断結果に近づくように各ニューロンの係数が決定されているものである。
【0028】
ニューラルネットワーク57は、各ニューロンにおいて、各種音声特徴量(ゼロクロス率41、倍音パワースペクトル42、パワースペクトル変化率43、パワースペクトル平坦率44、フォルマント強度45、倍音強度46、パワー47、パワーの一階差分48、パワーの二階差分49、ケプストラム係数51、ケプストラム係数の一階差分52、又はケプストラム係数の二階差分53)についての値を入力することによって、この入力された値を基に所定の値を出力する。ニューラルネットワーク57は、最後段の2つのニューロンにおいて、それぞれ人の声であるという第1指標値と、人の声ではないという第2指標値とを出力する。最終的に、ニューラルネットワーク57は、第1指標値と第2指標値との差が、所定の閾値を超える場合に、人の声であると判定する。これにより、ニューラルネットワーク57は、人間の判断事例を基に、音声信号が人の声であるか否かを判定することができる。
【0029】
次に、
図5は、到来方向検出部(DOA)60の構成を示す機能ブロック図である。
図6は、到来方向検出部(DOA)60の動作を示すフローチャートである。到来方向検出部(DOA)60は、Discrete Fourier Transform(DFT)61A、DFT61B、相互相関関数算出部62、位相回転部63、Inverse Discrete Fourier Transform(IDFT)64、サンプル数算出部65、時間ずれ算出部66、加算器67、及び到来角度算出部68を備えている。
【0030】
DFT61A及びDFT61Bは、それぞれマイク11の収音信号X1(t)及びマイク13の収音信号X2(t)を入力する。なお、
図4においては、AEC31及びAEC33は省略しているが、マイク11の収音信号X1(t)及びマイク13の収音信号X2(t)は、エコーキャンセルがなされた後の収音信号である。なお、この例では、到来方向検出部(DOA)60は、マイク11及びマイク13の収音信号を用いるが、他のマイクの収音信号を用いてもよい。ただし、音源の到来方向は、マイク間の距離を用いて推定するため、マイク間の距離が遠いほど精度が高くなる。そのため、最も離れたマイク11及びマイク13の収音信号を用いることが好ましい。
【0031】
DFT61A及びDFT61Bは、収音信号X1(t)及び収音信号X2(t)をそれぞれフーリエ変換して、周波数領域の信号X1(ω)及びX2(ω)に変換する(S21)。
【0032】
相互相関関数算出部62は、以下の数式1に従って、収音信号X1(t)及び収音信号X2(t)の白色化クロススペクトルR(ω)を算出する(S22)。ただし、白色化クロススペクトルR(ω)には、所定の時定数aを適用する。
【0033】
【0034】
算出された白色化クロススペクトルR(ω)は、位相回転部63及びIDFT64に入力される。IDFT64は、白色化クロススペクトルR(ω)を白色化相互相関関数r(t)に逆変換する(S23)。
【0035】
サンプル数算出部65は、白色化相互相関関数r(t)のピーク位置のインデックスを求める(S24)。このピーク位置のインデックスは、マイク11とマイク13との到来時間差のサンプル数に対応する。サンプル数算出部65は、以下の数式2に示すように、ピーク位置のインデックスをサンプリング周波数で除算することで、音源からマイク11及びマイク13に至る音の到来時間差(第1到来時間差)を求める(S25)。
【0036】
【0037】
なお、サンプル数算出部65は、時間領域においてマイク11の収音信号X1(t)及びマイク13の収音信号X2(t)の相互相関関数、または、白色化相互相関関数を求め、第1到来時間差を算出してもよい。また、サンプル数算出部65は、収音信号X1(t)及び収音信号X2(t)のそれぞれのピークレベルの時刻(振幅の最大値を与える時刻)を求め、該ピークレベルの時刻の差から、第1到来時間差を算出してもよい。
【0038】
この第1到来時間差は、相互相関関数、または、白色化相互相関関数がピークを示すサンプルに対応する時間差であるため、サンプリング周波数以上の精度を得ることはできない。したがって、本実施形態の到来方向検出部(DOA)60は、第1到来時間差に基づいて、白色化クロススペクトルR(ω)を補正し、補正した白色化クロススペクトルR’(ω)を解析することで、1サンプル内の到来時間差である第2到来時間差を算出する。
【0039】
すなわち、まず位相回転部63は、以下の数式3に示すように、第1到来時間差τiを用いて、白色化クロススペクトルR(ω)の位相を回転させる(S26)。
【0040】
【0041】
白色化クロススペクトルR(ω)は、角周波数の関数であり、位相に対応する。到来方向検出部(DOA)60は、この位相を解析し、角周波数変化量に対する位相の変化率(変化度合いの一例)を求めることで、1サンプル以下の時間ずれを求める。例えば、到来方向検出部(DOA)60は、角周波数軸上の位相の傾きを求め、1サンプル内の時間ずれである第2到来時間差を求める。しかし、
図7に示す様に、周波数領域の位相は、1サンプル経過毎に(-πからπまでの範囲で)折り返される。そこで、位相回転部63は、第1到来時間差τiの時間分だけ、白色化クロススペクトルR(ω)の位相を回転させる。これにより、位相回転後の白色化クロススペクトルR’(ω)は、
図8に示す様に、折り返しが補正され、1サンプル内(時間領域の白色化相互相関関数r(t)のピーク位置に対応するサンプル内)の位相の変化を表すことになる。
【0042】
時間ずれ算出部66は、以下の数式4及び数式5に示す様に、最小二乗法を用いて、白色化クロススペクトルR’(ω)の傾きを算出することで、第2到来時間差を算出する(S27)。
【0043】
【0044】
【0045】
ただし、高周波数領域は、音源の種類が声である場合、精度が低下するため、傾きの算出対象から除外することが望ましい。
【0046】
この第2到来時間差τfは、1サンプル内の相互相関関数のピーク位置(1サンプル内の時間ずれ)に相当する。
【0047】
したがって、加算器67は、第1到来時間差τi及び第2到来時間差τfを加算して、第3到来時間差τを算出する(S28)。
【0048】
最後に、到来角度算出部68は、第3到来時間差τを用いて、音声の到来方向(θ)を求める(S29)。
【0049】
図9に示すように、音声の到来方向θは、筐体の正面方向(マイク11及びマイク13を並ぶ面に対して垂直な方向)に対する角度のずれとして表す。マイク11及びマイク13間の距離をL1、音速をCとすると、音声の到来方向θは、マイク間の第3到来時間差τに対応する距離L2=C・τにより、
θ=sin
-1
(L2/L1)=sin
-1
(C・τ/L1)で表される。
【0050】
なお、到来角度算出部68と相互相関関数算出部62は、音声判定部(VAD)50から音声フラグが入力されると、音声の到来方向θと白色化クロススペクトルR(ω)をそれぞれ更新する。到来角度算出部68と相互相関関数算出部62は、音声判定部(VAD)50から音声フラグが入力されない場合、音声の到来方向(θ)と白色化クロススペクトルR(ω)の更新をせず、直前の到来方向(θ)と白色化クロススペクトルR(ω)を維持する。さらに、音声フラグの入力が無い場合は、相互相関関数算出部62、位相回転部63、IDFT64、サンプル数算出部65、時間ずれ算出部66、加算器67、到来角度算出部68の処理を省略する。、これにより、無駄な処理を省略することができ、人の声以外の音源に対して感度が向けられることもない。
【0051】
到来角度算出部68は、算出した到来方向θを、指向性形成部(BF)20に出力する。
【0052】
図10は、指向性形成部(BF)20の構成を示すブロック図である。指向性形成部(BF)20は、複数の適応型フィルタを内蔵しており、入力された音声信号をフィルタリングすることにより、ビームフォーミング処理を行う。適応型フィルタとしては、例えば、FIRフィルタにより構成される。
図10においては、マイク毎にFIRフィルタ21、FIRフィルタ22、及びFIRフィルタ23の3つのFIRフィルタを示しているが、さらに多くのFIRフィルタを備えていてもよい。
【0053】
到来角度算出部68から音声の到来方向(θ)が入力されると、ビーム係数更新部25はFIRフィルタの係数を更新する。例えば、ビーム係数更新部25は、更新された到来方向(θ)に基づくフォーカス角度での利得が1.0となる拘束条件のもと、出力信号が最小となるように、入力された音声信号に基づいて、適応アルゴリズムを用いてFIRフィルタの係数を更新する。これにより、到来方向(θ)以外の方向から到来する雑音を最小化することができるため、到来方向(θ)の声音を選択的に収音することができる。
【0054】
指向性形成部(BF)20は、上述の様な処理を繰り返し、到来方向(θ)に対応した音声信号を出力する。これにより、信号処理部15は、常に人の声がある方向を到来方向(θ)として高感度で収音することができる。このように、信号処理部15は、人の声を追尾することができるため、雑音により人の声の音質が劣化することを抑制することができる。
【0055】
次に、
図11は、放収音装置10の動作を示すフローチャートである。
【0056】
まず、放収音装置10は、マイク11、マイク12、及びマイク13で収音を行なう(s11)。マイク11、マイク12、及びマイク13で収音された音声は、音声信号として、信号処理部15に入力される。
【0057】
次に、第1エコーキャンセラ31、第1エコーキャンセラ32、第1エコーキャンセラ33は、第1エコーキャンセル処理を行う(s12)。第1エコーキャンセル処理は、上述のように、減算処理であり、第1エコーキャンセラ31、第1エコーキャンセラ32、及び第1エコーキャンセラ33へ入力された収音信号から、エコー成分を除去する処理である。
【0058】
第1エコーキャンセル処理の後、音声判定部(VAD)50は、音声信号を各種音声特徴量についてニューラルネットワーク57を用いて解析を行う(s13)。音声判定部(VAD)50は、解析の結果、収音信号が音声であると判定した場合(s13:Yes)。音声判定部(VAD)50は、音声フラグを到来方向検出部(DOA)60へ出力する。音声判定部(VAD)50は、人の声が無いと判定した場合(s13:No)。音声判定部(VAD)50は、音声フラグを到来方向検出部(DOA)60へ出力しない。そのため、到来方向(θ)は、直前の到来方向(θ)に維持される(S104)。これにより、音声フラグの入力が無い場合は、到来方向検出部(DOA)60での到来方向(θ)の検出が省略されるため、無駄な処理を省略することができ、人の声以外の音源に対して感度が向けられることもない。
【0059】
次に、音声フラグが到来方向検出部(DOA)60へ出力されると、到来方向検出部(DOA)60は到来方向(θ)を検出する(s14)。検出された到来方向(θ)は、指向性形成部(BF)20へ入力される。
【0060】
指向性形成部(BF)20は、指向性を形成する(s15)。指向性形成部(BF)20は、入力された音声信号を到来方向(θ)に基づいてフィルタ係数を調整する。BF20は、調整されたフィルタを用いて、ビームフォーミング処理を行う。これにより、指向性形成部(BF)20は、到来方向(θ)に対応した音声信号を出力することにより、到来方向(θ)の声音を選択的に収音することができる。
【0061】
次に、第2エコーキャンセラ40は、第2エコーキャンセル処理を行う(s16)。第2エコーキャンセラ40は、指向性形成部(BF)20でビームフォーミング処理を施された信号に対して、周波数スペクトル振幅乗算処理を行う。これにより、第2エコーキャンセラ40は、第1エコーキャンセル処理で除去できなかった残留エコー成分を除去することができる。エコー成分が除去された音声信号は、第2エコーキャンセラ40からインタフェース(I/F)19を介して外部の装置に出力される。
【0062】
スピーカ70は、外部の装置からインタフェース(I/F)19及び信号処理部15を介して入力された音声信号に基づいて放音する(s17)。
【0063】
なお、本実施形態では、放収音装置10として、放音及び収音の機能を有する放収音装置10を例示したが、この例に限らない。例えば、収音の機能を有する収音装置であってもよい。
【0064】
本実施形態の目的は、複数のマイクを使用して、音が到来する方向を高精度に検出することにある。本実施形態の装置は、必ずしも、音声を収音し、収音した音声に係る信号を他装置に出力するような遠隔会議に利用される例に限らない。
【0065】
最後に、本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。
【符号の説明】
【0066】
1…筐体
10…放収音装置
11,12,13…マイク
15…信号処理部
19…I/F
20…BF
21,22,23…FIRフィルタ
25…ビーム係数更新部
31,32,33…第1エコーキャンセラ
40…第2エコーキャンセラ
41…ゼロクロス率
42…倍音パワースペクトル
43…パワースペクトル変化率
44…パワースペクトル平坦率
45…フォルマント強度
46…倍音強度
47…パワー
48…一階差分
49…二階差分
51…ケプストラム係数
52…一階差分
53…二階差分
55…フォルマント強度
57…ニューラルネットワーク
60…到来方向検出部(DOA)
61B…DFT
62…相互相関関数算出部
63…位相回転部
64…IDFT
65…サンプル数算出部
66…算出部
67…加算器
68…到来角度算出部
70…スピーカ
70L…スピーカ
70R…スピーカ
150…メモリ
151…プログラム