(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6973484
(24)【登録日】2021年11月8日
(45)【発行日】2021年12月1日
(54)【発明の名称】信号処理装置、遠隔会議装置、および信号処理方法
(51)【国際特許分類】
H04R 3/02 20060101AFI20211118BHJP
H04R 1/40 20060101ALI20211118BHJP
H04R 3/00 20060101ALI20211118BHJP
【FI】
H04R3/02
H04R1/40 320A
H04R3/00 320
【請求項の数】15
【全頁数】12
(21)【出願番号】特願2019-524558(P2019-524558)
(86)(22)【出願日】2017年6月12日
(86)【国際出願番号】JP2017021616
(87)【国際公開番号】WO2018229821
(87)【国際公開日】20181220
【審査請求日】2019年12月6日
【前置審査】
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】特許業務法人 楓国際特許事務所
(72)【発明者】
【氏名】川合 窒登
(72)【発明者】
【氏名】金森 光平
(72)【発明者】
【氏名】井上 貴之
【審査官】
堀 洋介
(56)【参考文献】
【文献】
特開2015−070291(JP,A)
【文献】
国際公開第2015/049921(WO,A1)
【文献】
特開昭63−262577(JP,A)
【文献】
特開2013−061421(JP,A)
【文献】
特開2014−229932(JP,A)
【文献】
国際公開第2009/104252(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/02
H04R 1/40
H04R 3/00
(57)【特許請求の範囲】
【請求項1】
第1マイクと、
第2マイクと、
前記第1マイクの収音信号または前記第2マイクの収音信号の少なくともいずれかに対して、エコー除去処理を行ない、該エコー除去処理でエコーを除去した後の信号を用いて、前記第1マイクの収音信号および前記第2マイクの収音信号の相関成分を求める、信号処理部と、
音源の距離を推定する距離推定部と、
を備え、
前記信号処理部は、現在の入力信号か、または現在の入力信号およびいくつかの過去の入力信号を用いて、適応アルゴリズムによるフィルタ処理を行なうことにより、前記相関成分を求め、
前記現在の入力信号か、または現在の入力信号およびいくつかの過去の入力信号は、直接音の成分に相当し、
前記信号処理部は、前記距離推定部が推定した距離に応じて前記第1マイクの収音信号または前記第2マイクの収音信号のゲインを調整し、
前記距離推定部は、前記相関成分を用いて音声強調処理がなされた後の信号と、前記相関成分の除去処理により抽出された雑音成分と、の比率に基づいて、前記音源の距離を推定する、
信号処理装置。
【請求項2】
前記信号処理部は、前記相関成分を用いて音声強調処理を行なう、
請求項1に記載の信号処理装置。
【請求項3】
前記信号処理部は、前記相関成分を用いて、該相関成分の除去処理を行なう、
請求項1または請求項2に記載の信号処理装置。
【請求項4】
前記信号処理部は、スペクトルサブトラクション法を用いて前記雑音成分の除去処理を行ない、
前記相関成分の除去処理後の信号を、前記雑音成分として用いる、
請求項3に記載の信号処理装置。
【請求項5】
前記信号処理部は、前記スペクトルサブトラクション法において、さらに高調波成分の強調処理を行なう、
請求項4に記載の信号処理装置。
【請求項6】
前記信号処理部は、前記スペクトルサブトラクション法において、周波数毎または時間毎に、異なるゲインを設定する、
請求項4または請求項5に記載の信号処理装置。
【請求項7】
前記第1マイクは、指向性マイクであり、
前記第2マイクは、無指向性マイクである、
請求項1乃至請求項6のいずれか1項に記載の信号処理装置。
【請求項8】
前記信号処理部は、前記第2マイクの収音信号について、前記エコー除去処理を行なう、
請求項1乃至請求項7のいずれか1項に記載の信号処理装置。
【請求項9】
請求項1乃至請求項8のいずれか1項に記載の信号処理装置と、
スピーカと、をさらに備えた、遠隔会議装置。
【請求項10】
第1マイクの収音信号または第2マイクの収音信号の少なくともいずれかに対して、エコー除去処理を行ない、該エコー除去処理でエコーを除去した後の信号を用いて、前記第1マイクの収音信号および前記第2マイクの収音信号の相関成分を求め、
現在の入力信号か、または現在の入力信号およびいくつかの過去の入力信号を用いて、適応アルゴリズムによるフィルタ処理を行なうことにより、前記相関成分を求め、
前記現在の入力信号か、または現在の入力信号およびいくつかの過去の入力信号は、直接音の成分に相当し、
音源の距離を推定し、
推定した距離に応じて前記第1マイクの収音信号または前記第2マイクの収音信号のゲインを調整し、
前記相関成分を用いて音声強調処理がなされた後の信号と、前記相関成分の除去処理により抽出された雑音成分と、の比率に基づいて、前記音源の距離を推定する、
信号処理方法。
【請求項11】
前記相関成分を用いて音声強調処理を行なう、
請求項10に記載の信号処理方法。
【請求項12】
前記相関成分を用いて、該相関成分の除去処理を行なう、
請求項10または請求項11に記載の信号処理方法。
【請求項13】
スペクトルサブトラクション法を用いて前記雑音成分の除去処理を行ない、
前記相関成分の除去処理後の信号を、前記雑音成分として用いる、
請求項12に記載の信号処理方法。
【請求項14】
前記スペクトルサブトラクション法において、さらに高調波成分の強調処理を行なう、
請求項13に記載の信号処理方法。
【請求項15】
前記スペクトルサブトラクション法において、周波数毎または時間毎に、異なるゲインを設定する、
請求項13または請求項14に記載の信号処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一実施形態は、マイクを用いて音源の音を取得する信号処理装置、遠隔会議装置、および信号処理方法に関する。
【背景技術】
【0002】
特許文献1および特許文献2には、スペクトルサブトラクション法により目的音を強調する構成が開示されている。特許文献1および特許文献2の構成は、2つのマイク信号の相関成分を目的音として抽出する。また、特許文献1および特許文献2の構成は、いずれも、適応アルゴリズムによるフィルタ処理により、ノイズ推定を行ない、スペクトルサブトラクション法による目的音の強調処理を行なう手法である。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2009−049998号公報
【特許文献2】国際公開第2014/024248号
【発明の概要】
【発明が解決しようとする課題】
【0004】
マイクを用いて音源の音を取得する装置の場合には、スピーカから出力された音がエコー成分として回り込む場合がある。エコー成分は、2つのマイク信号に同じ成分として入力されるため、相関性が非常に高くなる。そのため、エコー成分が目的音となってしまい、エコー成分が強調される可能性がある。
【0005】
そこで、本発明の一実施形態の目的は、従来よりも高精度に相関成分を求めることができる、信号処理装置、遠隔会議装置、および信号処理方法を提供することにある。
【課題を解決するための手段】
【0006】
信号処理装置は、第1マイクと、第2マイクと、信号処理部と、を備えている。信号処理部は、前記第1マイクの収音信号または前記第2マイクの収音信号の少なくともいずれかに対して、エコー除去処理を行ない、該エコー除去処理でエコーを除去した後の信号を用いて、前記第1マイクの収音信号および前記第2マイクの収音信号の相関成分を求める。
【発明の効果】
【0007】
本発明の一実施形態によれば、従来よりも高精度に相関成分を求めることができる。
【図面の簡単な説明】
【0008】
【
図2】マイク10Aおよびマイク10Bの指向性を示す平面図である。
【
図3】信号処理装置1の構成を示すブロック図である。
【
図4】信号処理部15の構成の一例を示すブロック図である。
【
図5】信号処理部15の動作を示すフローチャートである。
【
図6】雑音推定部21の機能的構成を示すブロック図である。
【
図7】雑音抑圧部23の機能的構成を示すブロック図である。
【
図8】距離推定部24の機能的構成を示すブロック図である。
【発明を実施するための形態】
【0009】
図1は、信号処理装置1の構成を示す外観の概略図である。
図1においては、収音および放音に係る主構成を記載して、その他の構成は記載していない。信号処理装置1は、円筒形状の筐体70、マイク10A、マイク10B、およびスピーカ50を備えている。本実施形態の信号処理装置1は、一例として、音声を収音し、収音した音声に係る収音信号を他装置に出力し、他装置から放音信号を入力してスピーカから出力することで、遠隔会議装置として利用される。
【0010】
マイク10Aおよびマイク10Bは、筐体70の上面のうち、筐体70の外周位置に配置されている。スピーカ50は、放音方向が筐体70の上面方向になるように、該筐体70の上面に配置されている。ただし、筐体70の形状、マイクの配置態様、およびスピーカの配置態様は一例であり、この例に限るものではない。
【0011】
図2は、マイク10Aおよびマイク10Bの指向性を示す平面図である。
図2に示すように、マイク10Aは、装置の前方(図中の左方向)の感度が最も強く、後方(図中の右方向)に感度が無い、指向性マイクである。マイク10Bは、全方向に均一な感度を有する無指向性マイクである。ただし、
図2に示すマイク10Aおよびマイク10Bの指向性は、一例である。例えばマイク10Aおよびマイク10Bがともに無指向性マイクであってもよい。
【0012】
図3は、信号処理装置1の構成を示すブロック図である。信号処理装置1は、マイク10A、マイク10B、スピーカ50、信号処理部15、メモリ150、およびインタフェース(I/F)19を備えている。
【0013】
信号処理部15は、CPUまたはDSPからなる。信号処理部15は、記憶媒体であるメモリ150に記憶されたプログラム151を読み出して実行することにより、信号処理を行なう。例えば、信号処理部15は、マイク10Aの収音信号Xuまたはマイク10Bの収音信号Xoのレベルを制御して、I/F19に出力する。なお、本実施形態ではA/DコンバータおよびD/Aコンバータの記載は省略し、特に記載がない限り、各種の信号は、全てデジタル信号である。
【0014】
I/F19は、信号処理部15から入力された信号を他装置に送信する。また、他装置から放音信号を入力し、信号処理部15に入力する。信号処理部15は、他装置から入力された放音信号のレベル調整等を行ない、スピーカ50から音声を出力させる。
【0015】
図4は、信号処理部15の機能的構成を示すブロック図である。信号処理部15は、上記プログラムにより、
図4に示す構成を実現する。信号処理部15は、エコー除去部20、雑音推定部21、音声強調部22、雑音抑圧部23、距離推定部24、およびゲイン調整器25を備えている。
図5は、信号処理部15の動作を示すフローチャートである。
【0016】
エコー除去部20は、マイク10Bの収音信号Xoを入力し、入力した収音信号Xoからエコー成分を除去する(S11)。なお、エコー除去部20は、マイク10Aの収音信号Xuからエコー成分を除去してもよいし、マイク10Aの収音信号Xuおよびマイク10Bの収音信号Xoの両方からエコー成分を除去してもよい。
【0017】
エコー除去部20は、スピーカ50に出力する信号(放音信号)を入力する。エコー除去部20は、適応型フィルタによるエコー除去処理を行なう。すなわち、エコー除去部20は、放音信号がスピーカ50から出力され、音響空間を経てマイク10Bに至る帰還成分を推定する。エコー除去部20は、該音響空間におけるインパルス応答を模擬したFIRフィルタで放音信号を処理することにより、帰還成分を推定する。エコー除去部20は、推定した帰還成分を収音信号Xoから除去する。エコー除去部20は、LMSまたはRLS等の適応アルゴリズムを用いて上記FIRフィルタのフィルタ係数を更新する。
【0018】
雑音推定部21は、マイク10Aの収音信号Xuおよびエコー除去部20の出力信号を入力する。雑音推定部21は、マイク10Aの収音信号Xuおよびエコー除去部20の出力信号に基づいて、雑音成分を推定する。
【0019】
図6は、雑音推定部21の機能的構成を示すブロック図である。雑音推定部21は、フィルタ計算部211、ゲイン調整器212、および加算器213を備えている。フィルタ計算部211は、ゲイン調整器212における、周波数毎のゲインW(f,k)を算出する(S12)。
【0020】
なお、雑音推定部21は、収音信号Xoおよび収音信号Xuを、それぞれフーリエ変換して、周波数軸の信号Xo(f,k)およびXu(f,k)に変換する。「f」は周波数であり、「k」は、フレーム番号を表す。
【0021】
ゲイン調整器212は、収音信号Xu(f,k)に上記周波数毎のゲインW(f,k)を乗ずることで目的音を抽出する。ゲイン調整器212のゲインは、フィルタ計算部211により、適応アルゴリズムによる更新処理がなされる。ただし、ゲイン調整器212およびフィルタ計算部211の処理により抽出する目的音は、音源からマイク10Aおよびマイク10Bに至る直接音の相関成分だけであり、間接音の成分に相当するインパルス応答は無視する。したがって、フィルタ計算部211は、NLMSまたはRLS等の適応アルゴリズムによる更新処理において、数フレーム分のみ考慮した更新処理を行なう。
【0022】
そして、雑音推定部21は、加算器213において、以下の数式で示すように、収音信号Xo(f,k)からゲイン調整器212の出力信号W(f,k)・Xu(f,k)を差し引くことで、収音信号Xo(f,k)から直接音の成分を除去する(S13)。
【0024】
これにより、雑音推定部21は、収音信号Xo(f,k)から直接音の相関成分を除去した、ノイズ成分E(f,k)を推定することができる。
【0025】
次に、信号処理部15は、雑音抑圧部23において、雑音推定部21で推定したノイズ成分E(f,k)を用いて、スペクトルサブトラクション法による雑音除去処理を行なう(S14)。
【0026】
図7は、雑音抑圧部23の機能的構成を示すブロック図である。雑音抑圧部23は、フィルタ計算部231およびゲイン調整器232を備えている。雑音抑圧部23は、スペクトルサブトラクション法による雑音除去処理を行なうため、以下の数式2に示すように、雑音推定部21で推定したノイズ成分E(f,k)を用いて、スペクトルゲイン|Gn(f,k)|を求める。
【0028】
ここで、β(f,k)は、ノイズ成分に乗算する係数であり、時間および周波数毎に異なる値を有する。β(f,k)は、信号処理装置1の利用環境に応じて適宜設定される。例えば、ノイズ成分のレベルが高くなる周波数についてはβの値が大きくなるように設定することができる。
【0029】
また、本実施形態において、スペクトルサブトラクション法による減算対象の信号は、音声強調部22の出力信号X’o(f,k)である。音声強調部22は、雑音抑圧部23による雑音除去処理の前に、以下の数式3に示すように、エコー除去後の信号Xo(f,k)と、ゲイン調整器212の出力信号W(f,k)・Xu(f,k)との平均を求める(S141)。
【0031】
ゲイン調整器212の出力信号W(f,k)・Xu(f,k)は、Xo(f,k)との相関成分であり、目的音に相当する。したがって、音声強調部22は、エコー除去後の信号Xo(f,k)と、ゲイン調整器212の出力信号W(f,k)・Xu(f,k)との平均を求めることで、目的音である音声を強調する。
【0032】
ゲイン調整器232は、フィルタ計算部231で算出されたスペクトルゲイン|Gn(f,k)|に音声強調部22の出力信号X’o(f,k)を乗ずることで、出力信号Yn(f,k)を求める。
【0033】
なお、フィルタ計算部231は、以下の数式4で示すように、さらに高調波成分を強調させるスペクトルゲインG’n(f,k)を算出してもよい。
【0035】
ここで、iは整数である。当該数式4によれば、各周波数成分の整数倍成分(すなわち高調波成分)が強調される。ただし、f/iの値が小数となる場合には、以下の数式5に示す様に補間処理を行なう。
【0037】
スペクトルサブトラクション法によるノイズ成分の減算処理は、高域成分がより多く減算されるため、音質が劣化する可能性がある。しかし、本実施形態では、上述のスペクトルゲインG’n(f,k)により、高調波成分が強調されるため、音質の劣化を防止することができる。
【0038】
そして、
図4に示す様に、ゲイン調整器25は、音声強調がなされて雑音成分が抑圧された出力信号Yn(f,k)を入力し、ゲイン調整を行なう。ゲイン調整器25のゲインGf(k)は、距離推定部24が決定する。
【0039】
図8は、距離推定部24の機能的構成を示すブロック図である。距離推定部24は、ゲイン計算部241を備えている。ゲイン計算部241は、雑音推定部21の出力信号E(f,k)および音声強調部22の出力信号X’(f,k)を入力し、マイクと音源との距離を推定する(S15)。
【0040】
ゲイン計算部241は、以下の数式6に示すように、スペクトルサブトラクション法による雑音抑圧処理を行なう。ただし、雑音成分の乗算係数γは固定値であり、上述の雑音抑圧部23における係数β(f,k)とは異なる値である。
【0042】
ゲイン計算部241は、さらに、雑音抑圧処理後の信号について、全周波数成分のレベルの平均値Gth(k)を求める。Mbinは、周波数の上限である。当該平均値Gth(k)は、目的音と雑音との比率に相当する。目的音と雑音との比率は、マイクと音源との距離が遠くなるほど低い値となり、マイクと音源との距離が近いほど高い値となる。すなわち、当該平均値Gth(k)は、マイクと音源との距離に対応する。これにより、ゲイン計算部241は、目的音(音声強調処理がなされた後の信号)と、雑音成分と、の比率に基づいて、音源の距離を推定する、距離推定部として機能する。
【0043】
そして、ゲイン計算部241は、当該平均値Gth(k)の値に応じて、ゲイン調整器25のゲインGf(k)を変更する(S16)。例えば、数式6に示したように、平均値Gth(k)が閾値を超える場合にゲインGf(k)を所定値aに設定し、平均値Gth(k)が閾値以下である場合にゲインGf(k)を所定値b(b<a)に設定する。これにより、信号処理装置1は、装置から遠い音源の音を収音せず、装置に近い音源の音を目的音として強調することができる。
【0044】
なお、本実施形態では、無指向性のマイク10Bの収音信号Xoの音声を強調し、ゲイン調整して、I/F19に出力する態様となっているが、指向性のマイク10Aの収音信号Xuの音声を強調し、ゲインを調整して、I/F19に出力する態様としてもよい。ただし、マイク10Bは、無指向性マイクであるため、全周囲の音を収音することができる。よって、マイク10Bの収音信号Xoのゲインを調整して、I/F19に出力することが好ましい。
【0045】
本実施形態に示す技術的思想は、まとめると以下の通りである。
【0046】
1.信号処理装置は、第1マイク(マイク10A)と、第2マイク(マイク10B)と、信号処理部15と、を備える。信号処理部15(エコー除去部20)は、マイク10Aの収音信号Xuまたはマイク10Bの収音信号Xoの少なくともいずれかに対して、エコー除去処理を行なう。信号処理部15(雑音推定部21)は、該エコー除去処理でエコーを除去した後の信号Xo(f,k)を用いて、第1マイクの収音信号および前記第2マイクの収音信号の相関成分である出力信号W(f,k)・Xu(f,k)を求める。
【0047】
特許文献1(特開2009−049998号公報)および特許文献2(国際公開第2014/024248号)の様に、2つの信号を用いて相関成分を求める場合には、エコーが発生した場合に、当該エコー成分を相関成分として求めることになり、該エコー成分を目的音として強調してしまう。しかし、本実施形態の信号処理装置は、エコー除去後の信号を用いて相関成分を求めるため、従来よりも高精度に相関成分を求めることができる。
【0048】
2.信号処理部15は、現在の入力信号か、または現在の入力信号およびいくつかの過去の入力信号を用いて、適応アルゴリズムによるフィルタ処理を行なうことにより、相関成分である出力信号W(f,k)・Xu(f,k)を求める。
【0049】
例えば、特許文献1(特開2009−049998号公報)および特許文献2(国際公開第2014/024248号)では、ノイズ成分を推定するために、適応アルゴリズムを用いている。適応アルゴリズムを用いた適応フィルタは、タップ数が多くなるほど計算負荷が過大となる。また、適応フィルタを用いた処理では、音声の残響成分が含まれるため、ノイズ成分を高精度に推定することが困難である。
【0050】
一方で、本実施形態において、直接音の相関成分であるゲイン調整器212の出力信号W(f,k)・Xu(f,k)は、フィルタ計算部211により、適応アルゴリズムによる更新処理で算出されるが、上述の様に、当該更新処理は、間接音の成分に相当するインパルス応答は無視し、1フレーム分(現在の入力値)のみ考慮した更新処理である。したがって、本実施形態の信号処理部15は、ノイズ成分E(f,k)を推定する処理における計算負荷を顕著に低減することができる。また、適応アルゴリズムの更新処理は、間接音成分を無視した処理であり、音声の残響成分が影響することがないため、高精度に相関成分を推定することができる。ただし、更新処理は、1フレーム分(現在の入力値)のみに限るものではない。フィルタ計算部211は、いくつかの過去信号も含めた更新処理を行なってもよい。
【0051】
3.信号処理部15(音声強調部22)は、相関成分を用いて音声強調処理を行なう。相関成分は、雑音推定部21における、ゲイン調整器212の出力信号W(f,k)・Xu(f,k)である。音声強調部22は、エコー除去後の信号Xo(f,k)と、ゲイン調整器212の出力信号W(f,k)・Xu(f,k)との平均を求めることで、目的音である音声を強調する。
【0052】
この場合、雑音推定部21で算出された相関成分を用いて音声強調処理を行なうため、高精度に音声を強調することができる。
【0053】
4.信号処理部15(雑音抑圧部23)は、相関成分を用いて、該相関成分の除去処理を行なう。
【0054】
5.より具体的には、雑音抑圧部23は、スペクトルサブトラクション法を用いて雑音成分の除去処理を行なう。雑音抑圧部23は、雑音推定部21で相関成分が除去された後の信号を、雑音成分として用いる。
【0055】
雑音抑圧部23は、雑音推定部21において算出された高精度なノイズ成分E(f,k)をスペクトルサブトラクション法におけるノイズ成分として用いるため、従来よりも高精度に雑音成分を抑圧することができる。
【0056】
6.雑音抑圧部23は、スペクトルサブトラクション法において、さらに高調波成分の強調処理を行なう。これにより、高調波成分が強調されるため、当該音質の劣化を防止することができる。
【0057】
7.雑音抑圧部23は、スペクトルサブトラクション法において、周波数毎または時間毎に、異なるゲインβ(f,k)を設定する。これにより、ノイズ成分に乗算する係数は、環境に応じた適切な値に設定される。
【0058】
8.信号処理部15は、音源の距離を推定する距離推定部24を備える。信号処理部15は、ゲイン調整器25において、距離推定部24が推定した距離に応じて第1マイクの収音信号または第2マイクの収音信号のゲインを調整する。これにより、信号処理装置1は、装置から遠い音源の音を収音せず、装置に近い音源の音を目的音として強調することができる。
【0059】
9.距離推定部24は、相関成分を用いて音声強調処理がなされた後の信号X’(f,k)と、相関成分の除去処理により抽出されたノイズ成分E(f,k)と、の比率に基づいて、音源の距離を推定する。これにより、距離推定部24は、より高精度に距離を推定することができる。
【0060】
最後に、本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。
【符号の説明】
【0061】
1…信号処理装置
10A,10B…マイク
15…信号処理部
19…I/F
20…エコー除去部
21…雑音推定部
22…音声強調部
23…雑音抑圧部
24…距離推定部
25…ゲイン調整器
50…スピーカ
70…筐体
150…メモリ
151…プログラム
211…フィルタ計算部
212…ゲイン調整器
213…加算器
231…フィルタ計算部
232…ゲイン調整器
241…ゲイン計算部