特許7214379 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ・ユニファイド・コミュニケーションズの特許一覧

特許7214379収音装置、収音方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-01-20

(45)【発行日】2023-01-30

(54)【発明の名称】収音装置、収音方法及びプログラム

(51)【国際特許分類】

H04R 3/00 20060101AFI20230123BHJP

H04R 1/40 20060101ALI20230123BHJP

H04R 3/02 20060101ALI20230123BHJP

【ＦＩ】

H04R3/00 320

H04R1/40 320A

H04R3/02

【請求項の数】 21

(21)【出願番号】P 2018111911

(22)【出願日】2018-06-12

(65)【公開番号】P2019004465

(43)【公開日】2019-01-10

【審査請求日】2021-05-17

(31)【優先権主張番号】62/518,294

(32)【優先日】2017-06-12

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】15/905,137

(32)【優先日】2018-02-26

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】513305353

【氏名又は名称】ヤマハ・ユニファイド・コミュニケーションズ

(74)【代理人】

【識別番号】110000970

【氏名又は名称】弁理士法人楓国際特許事務所

(72)【発明者】

【氏名】田中良

【審査官】冨澤直樹

(56)【参考文献】

【文献】特開２０１０－２１２８１８（ＪＰ，Ａ）

【文献】特開２０１５－１５４２０７（ＪＰ，Ａ）

【文献】特開２００７－０１０８９７（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１５／００１６６４２（ＵＳ，Ａ１）

【文献】米国特許第０６４６９７３２（ＵＳ，Ｂ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｒ３／００

Ｈ０４Ｒ１／４０

Ｈ０４Ｒ３／０２

Ｇ１０Ｌ２５／５１

(57)【特許請求の範囲】

【請求項1】

複数のマイクと、
音源から前記複数のマイクに至る音の到来時間差に基づく第１到来時間差を算出し、
前記第１到来時間差と前記到来時間差の差である第２到来時間差を算出し、
前記第１到来時間差と、前記第２到来時間差と、に基づいて前記音源の位置を推定する、信号処理部と、
を備えた収音装置。

【請求項2】

前記第１到来時間差は、前記複数のマイクの収音信号の相互相関に基づいて算出される、請求項１に記載の収音装置。

【請求項3】

前記信号処理部は、
前記複数のマイクの収音信号のクロススペクトルを算出し、
前記第１到来時間差に基づき、前記クロススペクトルの位相を回転した補正後クロススペクトルを算出し、
前記補正後クロススペクトルに基づき、前記第２到来時間差を算出する、
請求項２に記載の収音装置。

【請求項4】

前記信号処理部は、
前記相互相関が最大となる時間差に基づき、前記第１到来時間差を算出する、
請求項３に記載の収音装置。

【請求項5】

前記信号処理部は、前記補正後クロススペクトルに基づいて、周波数変化量に対する位相の変化度合いを算出し、前記変化度合いに基づいて、前記音源の１サンプル内の到来時間差である第２到来時間差を算出する、
請求項３に記載の収音装置。

【請求項6】

前記信号処理部は、前記変化度合いを、直線近似による傾きから算出する、
請求項５に記載の収音装置。

【請求項7】

前記信号処理部は、高域成分を除外して前記変化度合いを算出する、
請求項５に記載の収音装置。

【請求項8】

前記第２到来時間差は、前記第１到来時間差よりも小さい、請求項１乃至請求項７のいずれかに記載の収音装置。

【請求項9】

前記信号処理部は、
前記第１到来時間差と、前記第２到来時間差と、に基づいて、第３到来時間差を求め、
前記第３到来時間差に基づいて、前記音源の位置を推定する、
請求項１乃至請求項８のいずれかに記載の収音装置。

【請求項10】

前記音源の位置に基づいて、指向性を形成する指向性形成部を備える、
請求項１乃至請求項９のいずれかに記載の収音装置。

【請求項11】

複数のマイクを用いた収音方法であって、
音源から前記複数のマイクに至る音の到来時間差に基づく第１到来時間差を算出し、
前記第１到来時間差と前記到来時間差の差である第２到来時間差を算出し、
前記第１到来時間差と、前記第２到来時間差と、に基づいて前記音源の位置を推定する、
収音方法。

【請求項12】

前記第１到来時間差は、前記複数のマイクの収音信号の相互相関に基づいて算出される、請求項１１に記載の収音方法。

【請求項13】

前記複数のマイクの収音信号のクロススペクトルを算出し、
前記第１到来時間差に基づき、前記クロススペクトルの位相を回転した補正後クロススペクトルを算出し、
前記補正後クロススペクトルに基づき、前記第２到来時間差を算出する、
請求項１２に記載の収音方法。

【請求項14】

前記相互相関が最大となる時間差に基づき、前記第１到来時間差を算出する、
請求項１３に記載の収音方法。

【請求項15】

前記補正後クロススペクトルに基づいて、周波数変化量に対する位相の変化度合いを算出し、前記変化度合いに基づいて、前記音源の１サンプル内の到来時間差である第２到来時間差を算出する、
請求項１３に記載の収音方法。

【請求項16】

前記変化度合いを、直線近似による傾きから算出する、
請求項１５に記載の収音方法。

【請求項17】

高域成分を除外して前記変化度合いを算出する、
請求項１５に記載の収音方法。

【請求項18】

前記第２到来時間差は、前記第１到来時間差よりも小さい、請求項１１乃至請求項１７のいずれかに記載の収音方法。

【請求項19】

前記第１到来時間差と、前記第２到来時間差と、に基づいて、第３到来時間差を求め、
前記第３到来時間差に基づいて、前記音源の位置を推定する、
請求項１１乃至請求項１８のいずれかに記載の収音方法。

【請求項20】

前記音源の位置に基づいて、指向性を形成する、
請求項１１乃至請求項１９のいずれかに記載の収音方法。

【請求項21】

音源から複数のマイクに至る音の到来時間差に基づく第１到来時間差を算出し、
前記第１到来時間差と前記到来時間差の差である第２到来時間差を算出し、
前記第１到来時間差と、前記第２到来時間差と、に基づいて前記音源の位置を推定する、
処理を収音装置に実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の一実施形態は、マイクを用いて音源の音を取得する収音装置、及び収音方法に関する。

【背景技術】

【0002】

収音装置は、音源の方向にアレイマイクの感度を向けるために、音源の到来方向を推定する場合がある。音源の到来方向を求めるために、収音装置は、複数のマイクの収音信号の相関を求める。収音装置は、音源から複数のマイクに至る音の到来時間差を算出することで、到来方向を推定する。到来時間差は、例えば相互相関関数により求める。収音装置は、複数のマイクの収音信号の相互相関関数を求め、該相互相関関数がピークを示す時のサンプル数を求める。このサンプル数は、音源から複数のマイクに至る音の到来時間差に対応する。到来時間差は、音速を乗算すると、距離に換算される。したがって、収音装置は、複数のマイク間の距離と、到来時間差に音速を乗算した距離と、に基づいて、三角関数の演算により、到来方向を推定することができる。

【発明の概要】

【発明が解決しようとする課題】

【0003】

ただし、時間領域の相互相関関数により到来時間差を求める場合、１サンプル以下の時間差は、求めることができない。したがって、到来方向の推定精度は、サンプリング周波数および複数のマイク間の距離に依存する。

【課題を解決するための手段】

【0004】

収音装置は、複数のマイクと、信号処理部と、を備えている。信号処理部は、音源から前記複数のマイクに至る音の到来時間差に基づく第１到来時間差を算出し、前記第１到来時間差と前記到来時間差の差である第２到来時間差を算出し、前記第１到来時間差と、前記第２到来時間差と、に基づいて前記音源の位置を推定する。

【図面の簡単な説明】

【0005】

【図1】放収音装置１０の構成を示す外観斜視図である。

【図2】放収音装置１０の構成を示すブロック図である。

【図3】信号処理部１５の構成を示す機能ブロック図である。

【図4】音声判定部（ＶＡＤ）５０の構成を示す機能ブロック図である。

【図5】到来方向検出部（ＤＯＡ）６０の構成を示す機能ブロック図である。

【図6】到来方向検出部（ＤＯＡ）６０の動作を示すフローチャートである。

【図7】白色化クロススペクトルＲ（ω）の位相を示す図である。

【図8】白色化クロススペクトルＲ’（ω）の位相を示す図である。

【図9】到来方向とマイクによる音のズレとの関係を示す図である。

【図10】指向性形成部（ＢＦ）２０の構成を示すブロック図である。

【図11】放収音装置１０の動作を示すフローチャートである。

【発明を実施するための形態】

【0006】

図１は、放収音装置１０を模式的に示した斜視図である。図１においては、放音及び収音に係る主構成を記載して、その他の構成は記載していない。

【0007】

放収音装置１０は、直方体形状の筐体１、マイク１１、マイク１２、マイク１３、スピーカ７０Ｌ、及びスピーカ７０Ｒを備えている。複数のマイク１１、マイク１２、及びマイク１３は、筐体１の一側面に一列に並んで配置されている。スピーカ７０Ｌおよびスピーカ７０Ｒは、対としてマイク１１、マイク１２、及びマイク１３を挟んでマイク１１、マイク１２、及びマイク１３の外側に配置されている。

【0008】

この例においては、マイクの数は３個であるが、放収音装置１０は、少なくとも２個以上のマイクが設置されていれば動作可能である。また、スピーカの数も２個に限るものではなく、放収音装置１０は、少なくとも１個以上のスピーカが設置されていれば動作可能である。また、スピーカ７０Ｌおよびスピーカ７０Ｒは、筐体１と別の構成として設けられていてもよい。

【0009】

図２は、放収音装置１０のブロック図である。図２に示すように、放収音装置１０は、マイク１１、マイク１２、マイク１３、スピーカ７０Ｌ、スピーカ７０Ｒ、信号処理部１５、メモリ１５０、及びインタフェース（Ｉ／Ｆ）１９を備えている。

【0010】

マイク１１、マイク１２、及びマイク１３で取得された音声である収音信号は、信号処理部１５で信号処理され、Ｉ／Ｆ１９に入力される。Ｉ／Ｆ１９は、例えば通信Ｉ／Ｆであり、該収音信号を、外部の装置（遠隔地）に送信する。あるいは、Ｉ／Ｆ１９は、外部の装置から放音信号を受信する。メモリ１５０は、マイク１１、マイク１２、及びマイク１３で取得された収音信号を録音データとして記録する。

【0011】

信号処理部１５は、マイク１１、マイク１２、及びマイク１３で取得された音声を以下に詳細に説明するように信号処理する。また、信号処理部１５は、Ｉ／Ｆ１９から入力した放音信号を処理する。スピーカ７０Ｌ及びスピーカ７０Ｒは、信号処理部１５で信号処理された信号を放音する。

【0012】

なお、信号処理部１５の機能は、パーソナルコンピュータ等の一般的な情報処理装置で実現することも可能である。この場合、情報処理装置は、メモリ１５０に記憶されたプログラム１５１、又はフラッシュメモリ等の記憶媒体に記憶されたプログラムを読み出して実行することにより、信号処理部１５の機能を実現する。

【0013】

図３は、信号処理部１５の機能ブロック図である。図３に示すように、放収音装置１０は、マイク１１、マイク１２、マイク１３、スピーカ７０Ｌ、スピーカ７０Ｒ、信号処理部１５、及びインタフェース（Ｉ／Ｆ）１９を備えている。信号処理部１５は、第１エコーキャンセラ（ＡＥＣ）３１、第１エコーキャンセラ３２、第１エコーキャンセラ３３、指向性形成部（ＢＦ：Beam Forming）２０、第２エコーキャンセラ４０、音声判定部（ＶＡＤ：Voice Activity Detection）５０、及び到来方向検出部（ＤＯＡ：Direction Of Arrival）６０を備えている。

【0014】

第１エコーキャンセラ３１はマイク１１の後段に、第１エコーキャンセラ３２はマイク１２の後段に、第１エコーキャンセラ３３はマイク１３の後段に、それぞれ設置されている。第１エコーキャンセラ３１、第１エコーキャンセラ３２、第１エコーキャンセラ３３は、前段のマイクの収音信号のそれぞれに対して、エコーキャンセルを行う。これにより、第１エコーキャンセラ３１、第１エコーキャンセラ３２、及び第１エコーキャンセラ３３は、スピーカ７０Ｌ及びスピーカ７０Ｒから各マイクに至るエコーを除去する。

【0015】

第１エコーキャンセラ３１、第１エコーキャンセラ３２、第１エコーキャンセラ３３が行うエコーキャンセルはＦＩＲフィルタ処理と減算処理からなる。エコーキャンセルは、インタフェース（Ｉ／Ｆ）１９から信号処理部１５へ入力されたスピーカ７０Ｌ及びスピーカ７０Ｒで放音する信号（放音信号）を入力し、ＦＩＲフィルタでエコー成分を推定し、第１エコーキャンセラ３１、第１エコーキャンセラ３２、及び第１エコーキャンセラ３３へ入力された収音信号から、それぞれ推定したエコー成分を減算する。

【0016】

音声判定部（ＶＡＤ）５０は、第１エコーキャンセラ３２の後段に設置されている。すなわち、音声判定部（ＶＡＤ）５０は、中央に位置するマイク１２で収音した収音信号が音声であるか否かの判定を行う。音声判定部（ＶＡＤ）５０で人の声であると判定された場合、音声フラグが到来方向検出部（ＤＯＡ）６０に入力される。音声判定部（ＶＡＤ）５０については後に詳細に述べる。なお、音声判定部（ＶＡＤ）５０は、第１エコーキャンセラ３２の後段に限られず、第１エコーキャンセラ３２、又は第１エコーキャンセラ３３の後段に設置されていてもよい。

【0017】

到来方向検出部（ＤＯＡ）６０は、第１エコーキャンセラ３１及び第１エコーキャンセラ３３の後段に設置されている。到来方向検出部（ＤＯＡ）６０は、音声の到来方向を検出する。到来方向検出部（ＤＯＡ）６０は、音声フラグが入力されると、マイク１１及びマイク１３で収音した収音信号に対して到来方向（θ）の検出を行う。到来方向（θ）については後で詳細に説明する。到来方向検出部（ＤＯＡ）６０は、音声フラグが入力されたときのみ検出を行うため、人の声以外の雑音が発生したとしても、到来方向（θ）の値は変更しない。到来方向検出部（ＤＯＡ）６０で検出された到来方向（θ）は、指向性形成部（ＢＦ）２０へ入力される。到来方向検出部（ＤＯＡ）６０については後に詳細に述べる。

【0018】

指向性形成部（ＢＦ）２０は、入力された到来方向（θ）を基に、ビームフォーミング処理を行う。ビームフォーミング処理により、到来方向（θ）の音にフォーカスすることができる。これにより、到来方向（θ）以外の方向から到来する雑音を最小化することができるため、到来方向（θ）の声音を選択的に収音することができる。指向性形成部（ＢＦ）２０については後に詳細に述べる。

【0019】

第２エコーキャンセラ４０は、指向性形成部（ＢＦ）２０でビームフォーミング処理を施された信号に対して、周波数スペクトル振幅乗算処理を行う。これにより、第２エコーキャンセラ４０は、減算処理のみで除去できなかった残留エコー成分を除去することができる。周波数スペクトル振幅乗算処理は、どの様な処理であってもよいが、例えば、周波数領域におけるスペクトラルゲイン、スペクトラルサブトラクション、エコーサプレッサの少なくともいずれか１つ、または、全てを用いる。残留エコー成分は、例えば部屋の暗騒音のために、第１エコーキャンセラにて生じたエコー成分の推定誤差に起因する誤差成分や、スピーカ７０の放音レベルがある程度のレベルに達した場合に生じる筐体の振動音等である。第２エコーキャンセラ４０は、第１エコーキャンセラにおける減算処理で推定したエコー成分のスペクトルと、入力信号のスペクトルと、に基づいて、残留エコー成分のスペクトルを推定し、推定した残留エコー成分のスペクトルを入力信号から除外する。

【0020】

以上の様に、本実施形態の信号処理部１５は、減算処理により除去しきれないエコー成分も除去する。ただし、仮に前段で周波数スペクトル振幅乗算処理を行なうと、収音信号のレベルの情報が失われるため、ＢＦ２０における指向性形成の処理が困難となる。また、仮に前段で周波数スペクトル振幅乗算処理を行なうと、後述の倍音パワースペクトル、パワースペクトル変化率、パワースペクトル平坦率、フォルマント強度、倍音強度、パワー、パワーの一階差分、パワーの二階差分、ケプストラム係数、ケプストラム係数の一階差分、又はケプストラム係数の二階差分の情報が失われるため、音声判定部（ＶＡＤ）５０において相互相関関数等の算出が困難となる。そこで、本実施形態の信号処理部１５は、まず減算処理によりエコー成分を除去して、ＢＦ２０による指向性形成処理、音声判定部（ＶＡＤ）５０による音声判定、及び到来方向検出部（ＤＯＡ）６０における到来方向の検出処理を行い、指向性形成された後の信号に対して、周波数スペクトル振幅乗算処理を行なう。

【0021】

次に、図４を用いて音声判定部（ＶＡＤ）５０の機能について詳細に説明する。

【0022】

音声判定部（ＶＡＤ）５０は、音声信号の各種音声特徴量についてニューラルネットワーク５７を用いて解析を行う。音声判定部（ＶＡＤ）５０は、解析の結果、収音信号が人の声であると判定した場合、音声フラグを出力する。

【0023】

各種音声特徴量としては、例えば、ゼロクロス率４１、倍音パワースペクトル４２、パワースペクトル変化率４３、パワースペクトル平坦率４４、フォルマント強度４５、倍音強度４６、パワー４７、パワーの一階差分４８、パワーの二階差分４９、ケプストラム係数５１、ケプストラム係数の一階差分５２、又はケプストラム係数の二階差分５３が挙げられる。

【0024】

ゼロクロス率４１は、音声信号の時間領域においてゼロクロスとなる点の出現頻度を算出したものである。ゼロクロスは、音声の基本周波数であるピッチに対応する。倍音パワースペクトル４２は、音声信号に含まれる倍音のそれぞれの周波数成分がどの位のパワーを有するかを表わしたものである。パワースペクトル変化率４３は音声信号の周波数成分に対するパワーの変化率を表わしたものである。パワースペクトル平坦率４４は、音声信号の周波数成分のうねりの度合いを表わしたものである。フォルマント強度５５は、音声信号に含まれるフォルマント成分の強度を表わしたものである。倍音強度４６は、音声信号に含まれる倍音のそれぞれの周波数成分の強度を表わしたものである。パワー４７は、音声信号のパワーである。パワーの一階差分４８は、パワー４７の前回との差である。パワーの二階差分４９は、パワーの一階差分４８の前回との差である。ケプストラム係数５１は、音声信号の離散コサイン変換の振幅の対数である。ケプストラム係数の一階差分５２は、ケプストラム係数５１の前回との差である。ケプストラム係数の二階差分５３は、ケプストラム係数の一階差分５２の前回との差である。

【0025】

なお、ケプストラム係数５１を求めるときの音声信号は、プリエンファシスフィルタを用いて高域を強調したものを用いてもよいし、音声信号の離散コサイン変換の振幅は、メルフィルタバンクを用いて圧縮をしたものを使用してもよい。

【0026】

なお、音声特徴量としては、上述のパラメータには限定されず、人の声とその他の音を判別することができる指標となるものであれば使用できる。

【0027】

ニューラルネットワーク５７は、人間の判断事例から結果を導き出す手法であり、入力値に対し、人間が導き出した判断結果に近づくように各ニューロンの係数が決定されているものである。

【0028】

ニューラルネットワーク５７は、各ニューロンにおいて、各種音声特徴量（ゼロクロス率４１、倍音パワースペクトル４２、パワースペクトル変化率４３、パワースペクトル平坦率４４、フォルマント強度４５、倍音強度４６、パワー４７、パワーの一階差分４８、パワーの二階差分４９、ケプストラム係数５１、ケプストラム係数の一階差分５２、又はケプストラム係数の二階差分５３）についての値を入力することによって、この入力された値を基に所定の値を出力する。ニューラルネットワーク５７は、最後段の２つのニューロンにおいて、それぞれ人の声であるという第１指標値と、人の声ではないという第２指標値とを出力する。最終的に、ニューラルネットワーク５７は、第１指標値と第２指標値との差が、所定の閾値を超える場合に、人の声であると判定する。これにより、ニューラルネットワーク５７は、人間の判断事例を基に、音声信号が人の声であるか否かを判定することができる。

【0029】

次に、図５は、到来方向検出部（ＤＯＡ）６０の構成を示す機能ブロック図である。図６は、到来方向検出部（ＤＯＡ）６０の動作を示すフローチャートである。到来方向検出部（ＤＯＡ）６０は、Discrete Fourier Transform（ＤＦＴ）６１Ａ、ＤＦＴ６１Ｂ、相互相関関数算出部６２、位相回転部６３、Inverse Discrete Fourier Transform（ＩＤＦＴ）６４、サンプル数算出部６５、時間ずれ算出部６６、加算器６７、及び到来角度算出部６８を備えている。

【0030】

ＤＦＴ６１Ａ及びＤＦＴ６１Ｂは、それぞれマイク１１の収音信号Ｘ１（ｔ）及びマイク１３の収音信号Ｘ２（ｔ）を入力する。なお、図４においては、ＡＥＣ３１及びＡＥＣ３３は省略しているが、マイク１１の収音信号Ｘ１（ｔ）及びマイク１３の収音信号Ｘ２（ｔ）は、エコーキャンセルがなされた後の収音信号である。なお、この例では、到来方向検出部（ＤＯＡ）６０は、マイク１１及びマイク１３の収音信号を用いるが、他のマイクの収音信号を用いてもよい。ただし、音源の到来方向は、マイク間の距離を用いて推定するため、マイク間の距離が遠いほど精度が高くなる。そのため、最も離れたマイク１１及びマイク１３の収音信号を用いることが好ましい。

【0031】

ＤＦＴ６１Ａ及びＤＦＴ６１Ｂは、収音信号Ｘ１（ｔ）及び収音信号Ｘ２（ｔ）をそれぞれフーリエ変換して、周波数領域の信号Ｘ１（ω）及びＸ２（ω）に変換する（Ｓ２１）。

【0032】

相互相関関数算出部６２は、以下の数式１に従って、収音信号Ｘ１（ｔ）及び収音信号Ｘ２（ｔ）の白色化クロススペクトルＲ（ω）を算出する（Ｓ２２）。ただし、白色化クロススペクトルＲ（ω）には、所定の時定数ａを適用する。

【0033】

【数1】

【0034】

算出された白色化クロススペクトルＲ（ω）は、位相回転部６３及びＩＤＦＴ６４に入力される。ＩＤＦＴ６４は、白色化クロススペクトルＲ（ω）を白色化相互相関関数ｒ（ｔ）に逆変換する（Ｓ２３）。

【0035】

サンプル数算出部６５は、白色化相互相関関数ｒ（ｔ）のピーク位置のインデックスを求める（Ｓ２４）。このピーク位置のインデックスは、マイク１１とマイク１３との到来時間差のサンプル数に対応する。サンプル数算出部６５は、以下の数式２に示すように、ピーク位置のインデックスをサンプリング周波数で除算することで、音源からマイク１１及びマイク１３に至る音の到来時間差（第１到来時間差）を求める（Ｓ２５）。

【0036】

【数2】

【0037】

なお、サンプル数算出部６５は、時間領域においてマイク１１の収音信号Ｘ１（ｔ）及びマイク１３の収音信号Ｘ２（ｔ）の相互相関関数、または、白色化相互相関関数を求め、第１到来時間差を算出してもよい。また、サンプル数算出部６５は、収音信号Ｘ１（ｔ）及び収音信号Ｘ２（ｔ）のそれぞれのピークレベルの時刻（振幅の最大値を与える時刻）を求め、該ピークレベルの時刻の差から、第１到来時間差を算出してもよい。

【0038】

この第１到来時間差は、相互相関関数、または、白色化相互相関関数がピークを示すサンプルに対応する時間差であるため、サンプリング周波数以上の精度を得ることはできない。したがって、本実施形態の到来方向検出部（ＤＯＡ）６０は、第１到来時間差に基づいて、白色化クロススペクトルＲ（ω）を補正し、補正した白色化クロススペクトルＲ’（ω）を解析することで、１サンプル内の到来時間差である第２到来時間差を算出する。

【0039】

すなわち、まず位相回転部６３は、以下の数式３に示すように、第１到来時間差τｉを用いて、白色化クロススペクトルＲ（ω）の位相を回転させる（Ｓ２６）。

【0040】

【数3】

【0041】

白色化クロススペクトルＲ（ω）は、角周波数の関数であり、位相に対応する。到来方向検出部（ＤＯＡ）６０は、この位相を解析し、角周波数変化量に対する位相の変化率（変化度合いの一例）を求めることで、１サンプル以下の時間ずれを求める。例えば、到来方向検出部（ＤＯＡ）６０は、角周波数軸上の位相の傾きを求め、１サンプル内の時間ずれである第２到来時間差を求める。しかし、図７に示す様に、周波数領域の位相は、１サンプル経過毎に（－πからπまでの範囲で）折り返される。そこで、位相回転部６３は、第１到来時間差τｉの時間分だけ、白色化クロススペクトルＲ（ω）の位相を回転させる。これにより、位相回転後の白色化クロススペクトルＲ’（ω）は、図８に示す様に、折り返しが補正され、１サンプル内（時間領域の白色化相互相関関数ｒ（ｔ）のピーク位置に対応するサンプル内）の位相の変化を表すことになる。

【0042】

時間ずれ算出部６６は、以下の数式４及び数式５に示す様に、最小二乗法を用いて、白色化クロススペクトルＲ’（ω）の傾きを算出することで、第２到来時間差を算出する（Ｓ２７）。

【0043】

【数4】

【0044】

【数5】

【0045】

ただし、高周波数領域は、音源の種類が声である場合、精度が低下するため、傾きの算出対象から除外することが望ましい。

【0046】

この第２到来時間差τｆは、１サンプル内の相互相関関数のピーク位置（１サンプル内の時間ずれ）に相当する。

【0047】

したがって、加算器６７は、第１到来時間差τｉ及び第２到来時間差τｆを加算して、第３到来時間差τを算出する（Ｓ２８）。

【0048】

最後に、到来角度算出部６８は、第３到来時間差τを用いて、音声の到来方向（θ）を求める（Ｓ２９）。

【0049】

図９に示すように、音声の到来方向θは、筐体の正面方向（マイク１１及びマイク１３を並ぶ面に対して垂直な方向）に対する角度のずれとして表す。マイク１１及びマイク１３間の距離をＬ１、音速をＣとすると、音声の到来方向θは、マイク間の第３到来時間差τに対応する距離Ｌ２＝Ｃ・τにより、θ＝ｓｉｎ ^－１（Ｌ２／Ｌ１）＝ｓｉｎ ^－１（Ｃ・τ／Ｌ１）で表される。

【0050】

なお、到来角度算出部６８と相互相関関数算出部６２は、音声判定部（ＶＡＤ）５０から音声フラグが入力されると、音声の到来方向θと白色化クロススペクトルＲ（ω）をそれぞれ更新する。到来角度算出部６８と相互相関関数算出部６２は、音声判定部（ＶＡＤ）５０から音声フラグが入力されない場合、音声の到来方向（θ）と白色化クロススペクトルＲ（ω）の更新をせず、直前の到来方向（θ）と白色化クロススペクトルＲ（ω）を維持する。さらに、音声フラグの入力が無い場合は、相互相関関数算出部６２、位相回転部６３、IDFT６４、サンプル数算出部６５、時間ずれ算出部６６、加算器６７、到来角度算出部６８の処理を省略する。、これにより、無駄な処理を省略することができ、人の声以外の音源に対して感度が向けられることもない。

【0051】

到来角度算出部６８は、算出した到来方向θを、指向性形成部（ＢＦ）２０に出力する。

【0052】

図１０は、指向性形成部（ＢＦ）２０の構成を示すブロック図である。指向性形成部（ＢＦ）２０は、複数の適応型フィルタを内蔵しており、入力された音声信号をフィルタリングすることにより、ビームフォーミング処理を行う。適応型フィルタとしては、例えば、ＦＩＲフィルタにより構成される。図１０においては、マイク毎にＦＩＲフィルタ２１、ＦＩＲフィルタ２２、及びＦＩＲフィルタ２３の３つのＦＩＲフィルタを示しているが、さらに多くのＦＩＲフィルタを備えていてもよい。

【0053】

到来角度算出部６８から音声の到来方向（θ）が入力されると、ビーム係数更新部２５はＦＩＲフィルタの係数を更新する。例えば、ビーム係数更新部２５は、更新された到来方向（θ）に基づくフォーカス角度での利得が１．０となる拘束条件のもと、出力信号が最小となるように、入力された音声信号に基づいて、適応アルゴリズムを用いてＦＩＲフィルタの係数を更新する。これにより、到来方向（θ）以外の方向から到来する雑音を最小化することができるため、到来方向（θ）の声音を選択的に収音することができる。

【0054】

指向性形成部（ＢＦ）２０は、上述の様な処理を繰り返し、到来方向（θ）に対応した音声信号を出力する。これにより、信号処理部１５は、常に人の声がある方向を到来方向（θ）として高感度で収音することができる。このように、信号処理部１５は、人の声を追尾することができるため、雑音により人の声の音質が劣化することを抑制することができる。

【0055】

次に、図１１は、放収音装置１０の動作を示すフローチャートである。

【0056】

まず、放収音装置１０は、マイク１１、マイク１２、及びマイク１３で収音を行なう（ｓ１１）。マイク１１、マイク１２、及びマイク１３で収音された音声は、音声信号として、信号処理部１５に入力される。

【0057】

次に、第１エコーキャンセラ３１、第１エコーキャンセラ３２、第１エコーキャンセラ３３は、第１エコーキャンセル処理を行う（ｓ１２）。第１エコーキャンセル処理は、上述のように、減算処理であり、第１エコーキャンセラ３１、第１エコーキャンセラ３２、及び第１エコーキャンセラ３３へ入力された収音信号から、エコー成分を除去する処理である。

【0058】

第１エコーキャンセル処理の後、音声判定部（ＶＡＤ）５０は、音声信号を各種音声特徴量についてニューラルネットワーク５７を用いて解析を行う（ｓ１３）。音声判定部（ＶＡＤ）５０は、解析の結果、収音信号が音声であると判定した場合（ｓ１３：Ｙｅｓ）。音声判定部（ＶＡＤ）５０は、音声フラグを到来方向検出部（ＤＯＡ）６０へ出力する。音声判定部（ＶＡＤ）５０は、人の声が無いと判定した場合（ｓ１３：Ｎｏ）。音声判定部（ＶＡＤ）５０は、音声フラグを到来方向検出部（ＤＯＡ）６０へ出力しない。そのため、到来方向（θ）は、直前の到来方向（θ）に維持される（Ｓ１０４）。これにより、音声フラグの入力が無い場合は、到来方向検出部（ＤＯＡ）６０での到来方向（θ）の検出が省略されるため、無駄な処理を省略することができ、人の声以外の音源に対して感度が向けられることもない。

【0059】

次に、音声フラグが到来方向検出部（ＤＯＡ）６０へ出力されると、到来方向検出部（ＤＯＡ）６０は到来方向（θ）を検出する（ｓ１４）。検出された到来方向（θ）は、指向性形成部（ＢＦ）２０へ入力される。

【0060】

指向性形成部（ＢＦ）２０は、指向性を形成する（ｓ１５）。指向性形成部（ＢＦ）２０は、入力された音声信号を到来方向（θ）に基づいてフィルタ係数を調整する。ＢＦ２０は、調整されたフィルタを用いて、ビームフォーミング処理を行う。これにより、指向性形成部（ＢＦ）２０は、到来方向（θ）に対応した音声信号を出力することにより、到来方向（θ）の声音を選択的に収音することができる。

【0061】

次に、第２エコーキャンセラ４０は、第２エコーキャンセル処理を行う（ｓ１６）。第２エコーキャンセラ４０は、指向性形成部（ＢＦ）２０でビームフォーミング処理を施された信号に対して、周波数スペクトル振幅乗算処理を行う。これにより、第２エコーキャンセラ４０は、第１エコーキャンセル処理で除去できなかった残留エコー成分を除去することができる。エコー成分が除去された音声信号は、第２エコーキャンセラ４０からインタフェース（Ｉ／Ｆ）１９を介して外部の装置に出力される。

【0062】

スピーカ７０は、外部の装置からインタフェース（Ｉ／Ｆ）１９及び信号処理部１５を介して入力された音声信号に基づいて放音する（ｓ１７）。

【0063】

なお、本実施形態では、放収音装置１０として、放音及び収音の機能を有する放収音装置１０を例示したが、この例に限らない。例えば、収音の機能を有する収音装置であってもよい。

【0064】

本実施形態の目的は、複数のマイクを使用して、音が到来する方向を高精度に検出することにある。本実施形態の装置は、必ずしも、音声を収音し、収音した音声に係る信号を他装置に出力するような遠隔会議に利用される例に限らない。

【0065】

最後に、本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。

【符号の説明】

【0066】

１…筐体
１０…放収音装置
１１，１２，１３…マイク
１５…信号処理部
１９…Ｉ／Ｆ
２０…ＢＦ
２１，２２，２３…ＦＩＲフィルタ
２５…ビーム係数更新部
３１，３２，３３…第１エコーキャンセラ
４０…第２エコーキャンセラ
４１…ゼロクロス率
４２…倍音パワースペクトル
４３…パワースペクトル変化率
４４…パワースペクトル平坦率
４５…フォルマント強度
４６…倍音強度
４７…パワー
４８…一階差分
４９…二階差分
５１…ケプストラム係数
５２…一階差分
５３…二階差分
５５…フォルマント強度
５７…ニューラルネットワーク
６０…到来方向検出部（ＤＯＡ）
６１Ｂ…ＤＦＴ
６２…相互相関関数算出部
６３…位相回転部
６４…ＩＤＦＴ
６５…サンプル数算出部
６６…算出部
６７…加算器
６８…到来角度算出部
７０…スピーカ
７０Ｌ…スピーカ
７０Ｒ…スピーカ
１５０…メモリ
１５１…プログラム

【図1】