IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 公立大学法人首都大学東京の特許一覧 ▶ リオン株式会社の特許一覧

特許7348812雑音抑制装置、雑音抑制方法及び音声入力機器
<>
  • 特許-雑音抑制装置、雑音抑制方法及び音声入力機器 図1
  • 特許-雑音抑制装置、雑音抑制方法及び音声入力機器 図2
  • 特許-雑音抑制装置、雑音抑制方法及び音声入力機器 図3
  • 特許-雑音抑制装置、雑音抑制方法及び音声入力機器 図4
  • 特許-雑音抑制装置、雑音抑制方法及び音声入力機器 図5
  • 特許-雑音抑制装置、雑音抑制方法及び音声入力機器 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-12
(45)【発行日】2023-09-21
(54)【発明の名称】雑音抑制装置、雑音抑制方法及び音声入力機器
(51)【国際特許分類】
   G10L 21/0208 20130101AFI20230913BHJP
   G10L 21/0232 20130101ALI20230913BHJP
   G10L 21/0264 20130101ALI20230913BHJP
【FI】
G10L21/0208 100B
G10L21/0232
G10L21/0264 C
【請求項の数】 12
(21)【出願番号】P 2019198281
(22)【出願日】2019-10-31
(65)【公開番号】P2021071599
(43)【公開日】2021-05-06
【審査請求日】2022-10-14
(73)【特許権者】
【識別番号】305027401
【氏名又は名称】東京都公立大学法人
(73)【特許権者】
【識別番号】000115636
【氏名又は名称】リオン株式会社
(74)【代理人】
【識別番号】100110881
【弁理士】
【氏名又は名称】首藤 宏平
(72)【発明者】
【氏名】小野 順貴
(72)【発明者】
【氏名】春原 政浩
(72)【発明者】
【氏名】春田 智穂
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2003-308093(JP,A)
【文献】特開2007-129736(JP,A)
【文献】特開2018-22119(JP,A)
【文献】特表2011-530091(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/00-25/93
(57)【特許請求の範囲】
【請求項1】
入力信号に含まれる雑音成分を抑制し、前記雑音成分が抑制された所望信号を生成する雑音抑制装置であって、
所定の間隔でシフトさせたフレーム毎に取得した取得済入力信号を周波数領域で第1パワースペクトルに変換するフーリエ変換部と、
前記第1パワースペクトルを入力し、ニューラルネットワークを用いた推定処理により、入力信号の未取得フレームに対応する第1自己相関と、前記未取得フレームの雑音成分が抑制された所望信号に対応する第2自己相関を推定する自己相関推定部と、
前記第1自己相関と前記第2自己相関とに基づいて、前記未取得フレームの雑音成分を抑制するためのフィルタ係数を更新するフィルタ係数更新部と、
未取得フレームが入力されると予め更新された前記フィルタ係数を用いて前記取得済入力信号に畳み込み演算を行う畳み込み演算部と、
前記畳み込み演算部の演算結果に窓関数を乗じる窓関数乗算部と、
前記窓関数を乗じた1フレーム分を切り取り所定の間隔でシフトしながら加算していき所望信号を生成するオーバーラップ加算部と、
を備えることを特徴とする雑音抑制装置。
【請求項2】
前記フィルタ係数は前記フィルタ係数に含まれる非因果的成分を除去した因果的なフィルタ係数であることを特徴とする請求項1に記載の雑音抑制装置。
【請求項3】
前記ニューラルネットワークは、入力層と、2層以上の中間層と、出力層とを有するディープニューラルネットワークであることを特徴とする請求項1又は2に記載の雑音抑制装置。
【請求項4】
前記フーリエ変換部は、短時間フーリエ変換処理を実行することを特徴とする請求項1から3のいずれか1項に記載の雑音抑制装置。
【請求項5】
前記ニューラルネットワークのそれぞれに付随するパラメータは、前記第1パワースペクトル、前記第1自己相関及び前記第2自己相関を関連付けて予め蓄積したデータ群を用いたディープラーニングに基づいて設定されることを特徴とする請求項3に記載の雑音抑制装置。
【請求項6】
前記自己相関推定部は、
前記第1パワースペクトルを入力し、前記ニューラルネットワークを用いた推定処理により、前記第1パワースペクトルに基づき前記未取得フレームの第3パワースペクトルを推定するとともに、前記第3パワースペクトルに基づき前記未取得フレームの雑音成分が抑制された前記所望信号に対応する第2パワースペクトルを推定するパワースペクトル推定部と、
前記第2パワースペクトルを前記第2自己相関に変換し、前記第3パワースペクトルを前記第1自己相関に変換する逆フーリエ変換部と、
を備えることを特徴とする請求項1から4のいずれか1項に記載の雑音抑制装置。
【請求項7】
前記逆フーリエ変換部は、逆高速フーリエ変換を実行することを特徴とする請求項6に記載の雑音抑制装置。
【請求項8】
前記ニューラルネットワークのそれぞれに付随するパラメータは、前記第1パワースペクトル、前記第2パワースペクトル及び前記第3パワースペクトルを関連付けて予め蓄積したデータ群を用いたディープラーニングに基づいて設定されることを特徴とする請求項6に記載の雑音抑制装置。
【請求項9】
前記推定処理は、フレーム長N(NはN≧2の整数)の各フレームに対してシフト長M(MはN≧M≧1の整数、N/Mは整数)だけシフトしつつ実行され、前記入力信号の未取得フレームは前記取得済入力信号のフレームに対してMフレームだけ後続のフレームであることを特徴とする請求項1から8のいずれか1項に記載の雑音抑制装置。
【請求項10】
前記フィルタ係数は、平均二乗誤差を最小化するウィーナーフィルタによる演算に基づき生成されることを特徴とする請求項1から9のいずれか1項に記載の雑音抑制装置。
【請求項11】
入力信号に含まれる雑音成分を抑制し、前記雑音成分が抑制された所望信号を生成する雑音抑制方法であって、
所定の間隔でシフトさせたフレーム毎に取得した取得済入力信号を周波数領域で第1パワースペクトルに変換するフーリエ変換を行い、
前記第1パワースペクトルを入力し、ニューラルネットワークを用いた推定処理により、入力信号の未取得フレームに対応する第1自己相関と、前記入力信号の未取得フレームの雑音成分が抑制された所望信号に対応する第2自己相関を推定し、
前記第1自己相関と前記第2自己相関とに基づいて、前記入力信号の未取得フレームの前記雑音成分を抑制するためのフィルタ係数を更新し、
前記入力信号の未取得フレームが入力されると予め更新された前記フィルタ係数を用いて前記取得済入力信号に畳み込み演算を行い
前記畳み込み演算結果に窓関数を乗じ、
前記窓関数を乗じた1フレーム分を切り取り所定の間隔でシフトしながら加算していき所望信号を生成するオーバーラップ加算を行う、
ことを特徴とする雑音抑制方法。
【請求項12】
請求項1から10のいずれか1項に記載の雑音抑制装置を備えることを特徴とする音声入力機器。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力信号に含まれる雑音成分を抑制する雑音抑制装置及びそれを備えた音声入力機器に関するものである。
【背景技術】
【0002】
一般に、補聴器等の機器を使用する際、聞き取るべき音声に周囲の環境音などが雑音として重なると、音声の明瞭度が低下し使用者にとって聴き取りにくくなる。そのため、従来から、外部から到来する音に基づく入力信号に含まれる雑音成分を抑制することで、雑音下における音声の明瞭度が改善することが可能な雑音抑制処理が知られている。例えば、特許文献1には、時間周波数マスキングを用いて、目的音源の成分を雑音成分から分離する手法が提案されている。また、非特許文献1には、時間周波数マスキングを用いた雑音抑制処理を行うことで難聴者の音声の明瞭度が改善した実験結果が示されている。時間周波数マスキングとは、音声などの音源信号のエネルギー分布が時間周波数領域で疎らであって互いの重なりが少ないことを前提に、前述の目的音源の成分のみを通過させ、それ以外の成分を阻止する処理である。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2012-181475号公報
【非特許文献】
【0004】
【文献】Eric W. Healy, Sarah E. Yoho, Yuxuan Wang, DeLiang Wang, J. Acoust. Soc. Am., “An algorithm to improve speech recognition in noise for hearing-impaired listeners,” Vol. 134, No. 4, Oct.2015
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記従来の時間周波数マスキングを用いた雑音抑制処理を補聴器等の機器に搭載する場合には多くの課題がある。具体的には、時間周波数マスキングを適用する場合、フレーム毎に区分される入力信号に対してフーリエ変換を施して周波数領域において処理を行うので、少なくともフレーム長分の時間遅延が発生する。この時間遅延はアルゴリズム的な遅延(アルゴリズミック遅延)であるため、ハードウェアの能力の向上により処理速度を高めたとしても、上記従来の時間周波数マスキングのアルゴリズムを採用する限り、回避することは困難である。従って、上記従来の時間周波数マスキングを用いた雑音抑制処理を搭載した補聴器等の機器では、少なくとも上記アルゴリズミック遅延に起因して、自声の聞こえの不快感や、唇の動きとの不一致などの不具合を生じるため、使用者に違和感を与えることは避けられない。
【0006】
本発明は上記の課題を解決するためになされたものであり、周波数領域における周波数マスキング処理に代えて主に時間領域におけるフィルタ演算に基づく雑音抑制処理を実行し、アルゴリズミック遅延をゼロにすることが可能な雑音抑制装置等を提供するものである。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明の雑音抑制装置(1)は、入力信号に含まれる雑音成分を抑制し、前記雑音成分が抑制された所望信号(s(t))を生成する雑音抑制装置であって、所定の間隔でシフトさせたフレーム毎に取得した取得済入力信号(x(t))を周波数領域で第1パワースペクトル(|X(ω,τ)|)に変換するフーリエ変換部(12)と、前記第1パワースペクトルを入力し、ニューラルネットワークを用いた推定処理により、入力信号の未取得フレームに対応する第1自己相関(Φxx,τ+N/M(k))と、前記未取得フレームの雑音成分が抑制された所望信号に対応する第2自己相関(Φss,τ+N/M(k))を推定する自己相関推定部(17)と、前記第1自己相関と前記第2自己相関とに基づいて、前記未取得フレームの前記雑音成分を抑制するためのフィルタ係数を更新するフィルタ係数更新部(15)と、前記未取得フレームが入力されると予め更新された前記フィルタ係数を用いて前記取得済入力信号に畳み込み演算を行う畳み込み演算部(16)と、前記畳み込み演算部の演算結果に窓関数を乗じる窓関数乗算部(18)と、前記窓関数を乗じた1フレーム分を切り取り所定の間隔でシフトしながら加算していき所望信号を生成するオーバーラップ加算部(19)とを備えて構成される。ここで、ωは角周波数を表し、τもしくはτ+N/Mはフレーム番号を表す。変数N、Mの具体例とN/Mのとり得る値については後述する。また、tは離散時間インデックスを、kは自己相関のタイムラグを表す。
【0008】
本発明の雑音抑制装置によれば、取得済入力信号を周波数領域で第1パワースペクトルに変換し、この第1パワースペクトルに基づき入力信号の未取得フレームに対応する第1自己相関を推定し、第1パワースペクトルに基づき所望信号に対応する第2自己相関を推定し、推定結果に基づいて予め得られたフィルタ係数により入力信号の雑音成分を抑制するフィルタ演算を行うので、入力信号から所望信号を抽出する経路では畳み込み演算部、窓関数乗算部及びオーバーラップ加算部のみが介在する。従って、従来の時間周波数マスキングを用いた雑音抑制処理で問題となるフレーム長分のアルゴリズミック遅延を解消できる。
【0009】
本発明のパワースペクトル推定部による推定処理は、第1パワースペクトルから入力信号の未取得フレームに対応する第3パワースペクトルを推定する第1段階と、第3パワースペクトルから第2パワースペクトルを推定する第2段階とを含め、段階的に実行することができる。これにより、パワースペクトル推定部による推定処理の推定精度を高めることができる。
【0010】
本発明のパワースペクトル推定部で用いるニューラルネットワークとして、入力層と、2層以上の中間層と、出力層とを有するディープニューラルネットワークを採用してもよい。この場合、中間層のそれぞれに付随するパラメータは、第1パワースペクトル、第2パワースペクトル及び第3パワースペクトルを関連付けて予め蓄積したデータ群を用いたディープラーニングに基づいて設定することが望ましい。
【0011】
本発明のフーリエ変換部及び逆フーリエ変換部は、それぞれ短時間フーリエ変換処理及び逆高速フーリエ変換を実行する構成を採用することができる。この場合の推定処理は、フレーム長N(NはN≧2の整数)の各フレームに対してシフト長M(MはN≧M≧1の整数、N/Mは整数)だけシフトしつつ実行し、前記入力信号の未取得フレームは前記取得済入力信号のフレームに対してN/Mフレームだけ後続のフレームとすることができる。例えば、フレーム長1024、かつシフト長512に設定されている場合には、第2パワースペクトル及び第3パワースペクトルは、第1パワースペクトルよりも2フレーム分だけ後続のフレームに対応する。
【0012】
本発明のフィルタ係数更新部で用いるフィルタ係数は、フィルタ係数に含まれる非因果的成分を除去した因果的なフィルタであることが望ましい。また、本発明のフィルタ係数は、例えば、平均二乗誤差を最小化するウィーナーフィルタによる演算に基づき生成することができる。ウィーナーフィルタは、信号に混入した雑音成分を低減するための最適なフィルタとして知られているため、雑音抑制装置の性能向上を図ることができる。
【発明の効果】
【0013】
本発明によれば、周波数領域における時間周波数マスキングによる処理を、時間領域における因果的なフィルタによる畳み込み処理に置き換えるので、従来の時間周波数マスキングを用いる場合に問題となるアルゴリズミック遅延を解消し得る雑音抑制装置を実現することができる。これにより、本発明の雑音抑制装置を補聴器等の機器に組み込む場合、少なくとも上記アルゴリズミック遅延に起因する違和感を使用者に与えることは回避することができる。
【図面の簡単な説明】
【0014】
図1】本発明を適用した一実施形態である雑音抑制装置1の概略の構成例を示すブロック図である。
図2】パワースペクトル推定部13又は自己相関推定部17で適用されるディープニューラルネットワークの構成例を示す図である。
図3】フィルタ係数h(t)から非因果的成分を除去する方法の一例を示す図である。
図4】フレームについて説明する図である。
図5】本発明を適用した雑音抑制装置1の効果に関し、従来の構成と対比しつつシミュレーションを行った結果を示す図である。
図6】本発明において、自己相関推定部17にて直接自己相関を推定する場合の概略の構成例を示すブロック図である。
【発明を実施するための形態】
【0015】
以下、本発明を適用した雑音抑制装置の実施形態について添付図面を参照しながら説明する。ただし、以下に述べる実施形態は本発明の技術思想を適用した形態の例であって、本発明が本実施形態の内容により限定されることはない。
【0016】
図1は、本発明を適用した一実施形態である雑音抑制装置1の概略の構成例を示すブロック図である。図1の雑音抑制装置1は、STFT部12と、パワースペクトル推定部13と、IFFT部14と、フィルタ係数更新部15と、畳み込み演算部16と、窓関数乗算部18と、オーバーラップ加算部19とを備えて構成される。なお、パワースペクトル推定部13と、IFFT部14とを合わせて自己相関推定部17と呼ぶ。
【0017】
以上の構成において、入力信号には、抽出すべき音声に加えて、不要な雑音成分が含まれる。本実施形態の雑音抑制装置1の役割は、後述の処理に基づいて、入力信号から雑音成分を除去し、抽出すべき音声である所望信号を取得することにある。本実施形態において、取得済入力信号x(t)や所望信号s(t)などの時系列の各信号は所定のサンプリング間隔で得られる離散的なディジタルデータを構成する。この場合、フレーム長=N(N:2以上の整数)を想定すると、各信号はフレーム内の連続するN個のディジタルデータとして一体的に処理される。
【0018】
図4に示すように、シフト長Mでシフトさせたフレーム毎に入力信号を取得し、STFT部12(本発明のフーリエ変換部)は、取得済入力信号x(t)を入力し、短時間フーリエ変換(Short-Term Fourier Transform:STFT)処理を施すことにより、取得済入力信号x(t)に対応する周波数領域の取得済入力信号X(ω,τ)のパワースペクトル|X(ω,τ)|を生成する。なお、ωは角周波数を表し、τはフレーム番号を表す。STFT部12による短時間フーリエ変換は、取得済入力信号x(t)を一定の間隔でシフトしながら所定の窓関数を乗じつつ実行される。
【0019】
パワースペクトル推定部13は、後述のディープニューラルネットワーク(Deep Neural Network:DNN)を用いて、取得済入力信号x(t)のパワースペクトル|X(ω,τ)|(本発明の第1パワースペクトル)から、入力信号の未取得フレーム(時間経過的にN/Mフレーム分未来となるフレーム)のパワースペクトル|X(ω,τ+N/M)|(本発明の第3パワースペクトル)を推定するとともに、このパワースペクトル|X(ω,τ+N/M)|から同じく入力信号の未取得フレームの雑音成分が抑制された所望信号s(t)に対応するパワースペクトル|S(ω,τ+N/M)|(本発明の第2パワースペクトル)を推定する。
【0020】
ここで、図2は、パワースペクトル推定部13で適用されるディープニューラルネットワークの構成例を示している。図2に示すディープニューラルネットワークにおいては、複数に区分される入力データDiに対応する入力層20と、入力層20に接続される前段の中間層21と、中間層21に接続される後段の中間層22と、複数に区分される出力データDoに対応して中間層22に接続される出力層23とにより構成される。入力層20はP個の入力データDi(1)~Di(P)からなり、中間層21はQ個のノードNa(1)~Na(Q)からなり、中間層22はR個のノードNb(1)~Nb(R)からなり、出力層23はS個の出力データDo(1)~Do(S)からなる(通常、P、Q、R、Sは2以上の整数)。
【0021】
本実施形態のパワースペクトル推定部13では、前述したように第1段階では取得済入力信号のフレームのパワースペクトル|X(ω,τ)|から入力信号の未取得フレームに対応するパワースペクトル|X(ω,τ+N/M)|を推定し、第2段階では入力信号の未取得フレームに対応する推定されたパワースペクトル|X(ω,τ+N/M)|から所望信号s(t)に対応するパワースペクトル|S(ω,τ+N/M)|を推定する2段階の処理を行うので、図2のディープニューラルネットワークについても2段階を想定する必要がある。すなわち、パワースペクトル|X(ω,τ)|の複数の要素を入力データDiとし、パワースペクトル|X(ω,τ+N/M)|の複数の要素を出力データDoとする第1段階のディープニューラルネットワークと、パワースペクトル|X(ω,τ+N/M)|の複数の要素を入力データDiとし、パワースペクトル|S(ω,τ+N/M)|の複数の要素を出力データDoとする第2段階のディープニューラルネットワークが用いられる。この場合のノード数P、Q、R、Sは、第1段階及び第2段階のディープニューラルネットワークにおいて適宜に設定することができる。
【0022】
図2のディープニューラルネットワークを用いる場合、前層の各ノードのそれぞれから入力される中間層21、22及び出力層23における各ノードに付随する重み付けのパラメータを適切に設定することが求められる。そのため、本実施形態では、予め図1における各信号x(t)、s(t)に対応するパワースペクトルのサンプルデータ群を蓄積しておき、そのサンプルデータ群を用いて、ディープニューラルネットワークによるディープラーニングを実行しておくことにより、前述の重み付けのパラメータを決定する。できるだけ大量のサンプルデータ群を用いることで、高精度なパラメータを取得することでき、パワースペクトル推定部13の推定精度の向上が可能となる。
【0023】
ただし、パワースペクトル推定部13においては、図2のように2層以上の中間層を有するディープニューラルネットワークを用いる構成に限らず、中間層が1層のみのニューラルネットワークを用いる構成としてもよい。また、パワースペクトル推定部13において、それぞれパワースペクトル|X(ω,τ+N/M)|、|S(ω,τ+N/M)|の順で2段階の推定を行う処理に限らず、パワースペクトル|X(ω,τ)|から直接的にパワースペクトル|S(ω,τ+N/M)|も推定する処理を行ってもよい。
【0024】
図1に戻って、IFFT部14(本発明の逆フーリエ変換部)は、パワースペクトル推定部13により推定されたパワースペクトル|X(ω,τ+N/M)|、|S(ω,τ+N/M)|を入力し、逆高速フーリエ変換(Inverse Fast Fourier Transform:IFFT)処理を施すものである。ウィーナー・ヒンチンの定理によれば、特定のフレームにおける信号の自己相関は、その信号の同フレームにおけるパワースペクトルの逆フーリエ変換と一致するので、IFFT部14では、時間領域の推定された自己相関Φxx,τ+N/M(k)(本発明の第1自己相関)、Φss,τ+N/M(k)(本発明の第2自己相関)が生成される。この第1自己相関Φxx,τ+N/M(k)は、取得済入力信号x(t)のフレームに対してN/Mフレームだけ後続のフレームにおける入力信号の未取得フレームにおける自己相関である。また、この第2自己相関Φss,τ+N/M(k)は、同じく取得済入力信号x(t)のフレームに対してN/Mフレームだけ後続のフレームにおける所望信号s(t)に対応した自己相関である。
【0025】
フィルタ係数更新部15は、IFFT部14から、それぞれ第1自己相関Φxx,τ+N/M(k)及び第2自己相関Φss,τ+N/M(k)を入力し、後述のフィルタ演算に用いる因果的なフィルタ係数を順次更新する。本実施形態では、入力信号x(t)の雑音成分を抑制するために、ウィーナーフィルタを想定する。ウィーナーフィルタは平均二乗誤差を最小化する最適なFIRフィルタであり、具体的には、時間領域の各フレームにおいて次の(1)式で表される目的関数J(h)を最小化する演算を行う。
【数1】
ただし、
:ウィーナーフィルタのN個のフィルタ係数(h(-N/2+1)、h(-N/2+2)・・h(N/2))からなるベクトルhの転置
x:入力信号x(t)のN個のサンプリングデータ(x(t-N/2+1)、x(t-N/2+2)・・x(t+N/2))からなるベクトル
s:時刻tにおける所望信号
【0026】
(1)式を変形することにより、フレーム番号τのフレームにおける所望信号を求めるためのウィーナーフィルタのフィルタ係数からなるベクトルhは、次の(2)式を満たすベクトルであるとわかる。
=Ψxx -1ψss (2)
ただし、(2)式において、Ψxx -1は、次の(3)式で表される行列Ψxxの逆行列であり、ψssは、次の(4)式で表されるベクトルである。
【数2】
ここで、(3)式の行列Ψxxは、1フレーム内のN個の自己相関Φxx,τ+N/M(0)~Φxx,τ+N/M(N-1)による、N×Nの行列となる。また、(4)式は、1フレーム内の自己相関Φss,τ+N/M(-N/2)~Φss,τ+N/M(N/2-1)からなる要素数Nのベクトルとなる。
【0027】
以上のように、(1)~(4)式に基づいて、ウィーナーフィルタにおける目的関数J(h)を最小化するフィルタ係数h(t)を求めることができる。
【0028】
また、フィルタ係数更新部15は、前述のウィーナーフィルタで用いるフィルタ係数h(t)の生成の際に、フィルタ係数h(t)に含まれる非因果的成分を除去する。これにより、本実施形態で用いるウィーナーフィルタは因果的なフィルタとなり、フィルタ演算に伴う時間遅延を回避することができる。なお、フィルタ係数h(t)から非因果的成分を除去するための具体的な方法及び作用については後述する。
【0029】
畳み込み演算部16は、取得済入力信号x(t)に対し、フィルタ係数更新部15により更新された因果的なフィルタ係数hc(t)を用いて、時間領域での畳み込み演算を行う。畳み込み演算部16による畳み込み演算の結果、ウィーナーフィルタの(1)式を反映した信号が生成される。
【0030】
また、畳み込み演算部16は、取得済入力信号x(t)とフィルタ係数hc(t)とを直接畳み込む方法(第1の方法)のみならず、取得済入力信号x(t)に任意の窓関数(例えば、ハニング窓)を掛け合わせたものとフィルタ係数hc(t)とを畳み込む方法(第2の方法)をとることもできる。例えば、使用する任意の窓関数のi番目の係数をw(i)とおく。この任意の窓関数が掛け合わされる区間は、フーリエ変換部12における第1パワースペクトルに対応する時間領域の離散時間インデックスと同一の区間である必要があるため、窓関数はフレーム長Nの周期をもつ必要があり、また畳み込み処理は1サンプルごとに行われるため、所望のフレームにおける推定しようとする信号の離散時間インデックスが、所望のフレームにおける最初の離散時間インデックスからjだけ離れているとすると、取得済入力信号x(t)のうち畳み込みに使用される区間と掛け合わされる窓関数は、前記任意の窓関数をjだけシフトした関数、すなわちw(i+j)で表される。このことと、窓関数の係数は予め決定され処理中には定数として扱われることから、入力信号x(t)が取得されれば1サンプルごとに畳み込み処理を行うことができる。すなわち、第1の方法であっても第2の方法であっても、フィルタ係数が予め決定されかつフィルタが因果的であれば、畳み込み演算部16において遅延は発生しない。
【0031】
窓関数乗算部18は、畳み込み演算部16で生成された信号のうち所望のフレームに該当する箇所を所定の窓関数で切り出す処理を行う。前述の方法でフレームごとに求められたウィーナーフィルタは、該当する各フレームにおいて信号に混入した雑音成分を低減するための最適なフィルタであるので、窓関数乗算部18により、雑音成分が低減された1フレーム分の信号に、窓関数が乗ぜられた結果が求められる。使用する窓関数は、オーバーラップ加算部19にて窓関数の係数をシフト長に該当するMサンプルだけずらしながら加算していったときに、全てのサンプル位置での加算結果が1となるようなものとする。窓関数の係数は予め決定され、処理中には定数として扱われるため、前記雑音成分が低減された1フレーム分の信号については、所望のフレームに該当する全てのサンプルの値が求められていなくても、1サンプルごとに逐次的に乗算処理を行うことができる。
【0032】
オーバーラップ加算部19は、窓関数乗算部18で求められた結果を所定の間隔Mだけシフトしながら足し合わせるものである。前述したように、シフト長Mは予め決定された定数であるため、1サンプルごとに逐次的に加算処理を行うことができる。以上のように、窓関数乗算部18及びオーバーラップ加算部19においてアルゴリズミック遅延は発生しない。このオーバーラップ加算部19の出力信号である所望信号s(t)を例えばレシーバ等の変換手段により音に変換すると、入力音から周囲環境の不要な雑音成分を除去した音を出力することができる。
【0033】
以上のように、図1の構成を採用した雑音抑制装置1によれば、雑音抑制処理に起因する遅延時間を格段に小さくすることができる。すなわち、従来の構成を採用する場合、取得済入力信号x(t)から所望信号s(t)を抽出する経路にSTFT部12やIFFT部14を含む周波数領域の処理のため、フレーム分析のためにフレーム長に相当する遅延が発生することは避けられない。これに対し、図1の構成においては、取得済入力信号x(t)から所望信号s(t)を抽出する経路は時間領域における畳み込み演算部16、窓関数乗算部18及びオーバーラップ加算部19のみが介在し、フレーム分析に起因する遅延は生じない。一方、図1の上部の経路は周波数領域におけるSTFT部12、パワースペクトル推定部13、IFFT部14の各処理を含むが、前述したように、フレーム番号が(τ+N/M)のフレームにおけるパワースペクトルはフレーム番号がτのフレームにおけるパワースペクトルから求められている。すなわち、フレーム番号がτのフレームにおけるパワースペクトルは、フレーム番号が(τ-N/M)のフレームにおけるパワースペクトルの情報から求められる。これは未取得の所望のフレームにおける因果的かつ最適なフィルタ係数hc(t)がアルゴリズミック遅延なく求められることを意味する。以上により、パワースペクトル|X(ω,τ+N/M)|、|S(ω,τ+N/M)|を推定することでアルゴリズミック遅延を解消し、フィルタ係数h(t)の非因果的成分を除去することにより、フィルタ演算に伴う遅延時間を低減させることができる。
【0034】
ここで、図3は、フィルタ係数h(t)から非因果的成分を除去する方法の一例を示している。図3(A)に示すように、例えばウィーナーフィルタの(1)式の演算により、フレーム長Nに対応して、N個のフィルタ係数h(-N/2+1)~h(N/2)が生成される。この場合、前半のN/2個のフィルタ係数h(-N/2+1)~h(0)が非因果的成分に相当し、後半のN/2個のフィルタ係数h(1)~h(N/2)が因果的成分に相当する。このように区分されるのは、畳み込み演算部16において、入力信号x(t)のうち、フィルタ係数h(t)の非因果的成分は、現時点よりも未来の要素に対応し、フィルタ係数h(t)の因果的成分は現時点より過去の要素に対応するためである。
【0035】
図3(B)は、簡便な方法として、フィルタ係数h(t)のうち非因果的成分をそれぞれゼロに置き換えることにより、フィルタ係数h(t)から非因果的成分を除去することができる。非因果的成分を除去した結果、因果的なフィルタ係数hc(t)は実質的にN/2個の要素からなる半分のサイズとなるので、h(-N/2+1)~h(0)に時間シフトすればよい。このような方法を適用することで、入力信号x(t)のうち現時点より未来の要素の演算が不要となり、パワースペクトル推定部13の未取得入力信号の予測と相まって、フィルタ演算による遅延時間を小さくすることができる。なお、遅延時間がわずかに発生することを許容できる場合、非因果的成分をわずかに残し、得られたフィルタ係数のサイズに対応して時間シフトを行ってもよい。例えば、非因果的成分をR個残した場合、h(-N/2+1)~h(R)に時間シフトすればよい。この場合Rサンプル分に相当する遅延が生じる。
【0036】
ここで、フィルタ係数h(t)から非因果的成分を除去する方法としては、図3(B)の方法には限られない。具体的には、ウィーナーフィルタの演算に関連する(3)式において、N×Nの行列Ψxxのうち、Nを偶数と仮定したときに(N/2)×(N/2)の部分(行列の左上に相当)の要素のみを残し他の要素を除去した新たな(N/2)×(N/2)の行列Ψcxxを作成し、(4)式で表されるベクトルψssのうちφss(-N/2+1)~φss(0)のN/2個の要素のみを残し他の要素を除去した新たな(N/2)×1のベクトルψcssを作成してから(2)式による演算を行う。この場合、(2)式により求められるフィルタ係数h(t)はN/2個の要素からなる半分のサイズとなるので、h(-N/2+1)~h(0)の要素に前記N/2個のフィルタ係数を用い、h(1)~h(N/2)の要素はゼロとするhc(t)を作り、そのフィルタ係数hc(t)を用いてフィルタ演算を行う方法により、非因果的成分を除去することができる。この方法は、図3(B)の方法とは相違する。また、遅延時間がわずかに発生することを許容できる場合、Ψxxのうち残す部分及びψssのうち残す部分をわずかに増やし、得られたフィルタ係数のサイズに対応して因果的なフィルタ係数を求めてもよい。例えば、Ψxxの(N/2+R)×(N/2+R)の部分(行列の左上に相当)を残し、他の要素を除去した新たな(N/2+R)×(N/2+R)の行列Ψrxxを作成し、ψssのうちφss(-N/2+1)~φss(R)の(N/2+R)個の要素のみを残し他の要素を除去した新たな(N/2+R)×1の行列ψrssを作成した場合、求められたフィルタ係数は、演算により求めた(N/2+R)個の要素と、要素がゼロとなるh(2/N+R)~h(N-1)の各要素とからなる。この場合Rサンプル分に相当する遅延が生じる。なお、フィルタ係数から非因果的成分を除去可能であれば方法は問わないが、処理時間や特性が異なるため、適切な方法を選択する必要がある。
【0037】
次に、図4を参照して、時間領域で取得済入力信号x(t)から畳み込み演算部16に至る経路において処理対象となる取得済入力信号x(t)のフレームと、周波数領域でSTFT部12、パワースペクトル部13、IFFT部14の経路を介して推定処理の対象となる入力信号の未取得フレームとの時間間隔について説明する。周波数領域の推定処理は、フレーム長Nの各フレームに対して所定のシフト長Mだけシフトしながら実行される。具体的には、各フレームに対応する、推定された信号は、所定の窓関数を乗じられた後、所定の間隔Mでシフトしながら加算される。図4では、フレーム長Nに対して、その半分のシフト長N/2となる場合を想定し、各々の推定処理に必要な各フレームのデータが順次シフトする状況を示している。各々のフレームは、サンプリング間隔Tsとして時間T=N・Tsを有し、時系列に沿って各フレームの取得は時間間隔T/2毎に行われる。この場合、時刻tの進行に伴い、最初のフレームに対応するフレームデータD1と、それに続く2~5番目のフレームに対応するフレームデータD2~D5とが順次取得され、隣接するフレーム間では常に半分が重なり合う状態となる。
【0038】
そして、図4に示す現時点t=0において取得済みである最新のフレーム(取得済入力信号x(t)のフレーム)はフレームデータD3に対応する。一方、後続のフレームデータD4は現時点t=0で取得中であり、更に後続のフレームデータD5は未取得(未取得入力信号のフレーム)である。ここで、アルゴリズミック遅延を無くすために実際にパワースペクトルの推定が必要となるのは未取得のフレームデータD5である。一方、この時点で取得済みであるのはフレームデータD5より2フレーム分前のフレームデータD3であるから、取得済入力信号のフレームから2フレームだけ後続のフレームの推定処理を行うことにより、アルゴリズミック遅延を解消できることがわかる。図4の結果から、フレーム長N及びシフト長Mに設定される場合、取得済入力信号のフレームに対してN/Mフレーム(図4の例では、N/M=2)だけ後続のパワースペクトルを推定すればよいことが理解できる。
【0039】
次に図5は、本発明を適用した雑音抑制装置1の効果に関し、従来の構成と対比しつつ、シミュレーションを行った結果を示している。なお、従来の構成としては、一般的な時間周波数マスキングを用いた雑音抑制処理を行う構成を想定する。また、シミュレーションの条件としては、フレーム長を1024サンプルとし、シフト長を512サンプルとし、サンプリング周波数を16kHzとする。また、所望信号に対する入力信号のSN比は+5dBであるとする。
【0040】
図5(A)は、取得すべき音声のみを含み、雑音成分を含まない所望信号である元の信号の波形を示し、図5(B)は、所望信号に雑音成分が付加された入力信号の波形を示す。また、図5(C)は、従来の構成を用いて推定された所望信号の波形を示し、図5(D)は、本発明を適用した雑音抑制装置1を用いて推定された所望信号の波形を示す。図5(A)~(D)のいずれの波形も1秒の時間内の複数箇所でレベルが増加する波形となっている。
【0041】
従来の図5(C)と本発明の図5(D)を対比すると、いずれも雑音成分は概ね抑制されているが、元の信号のうちの波形のピークの位置に対する遅延が異なっている。すなわち、従来の図5(C)の場合、数10ミリ秒程度の遅延時間が生じているのに対し、本発明の図5(D)は遅延時間がほぼゼロであることがわかる。このような相違は、従来の構成では周波数マスキングのアルゴリズミック遅延が避けられないのに対し、本発明の構成では前述したようにアルゴリズミック遅延の影響を受けないことによるものである。
【0042】
本発明に係る雑音抑制装置は、入力信号に音声を伴う多様な用途や機器に適用することができる。例えば、本発明に係る雑音抑制装置を補聴器に組み込むことが可能である。この場合、図1の構成に、音を電気信号に変換して入力するマイクロホン、使用者の聴力に応じた補聴処理を施す補聴処理部や、電気信号を音に変換して外耳道内に出力するイヤホンなどを組み込む必要がある。特に一般的な補聴器の場合は、遅延時間の許容値が数ミリ秒程度であって、遅延時間が長くなる場合には、自声の聞こえの不快感や、唇の動きとの不一致などの不具合を生じるため、使用者に違和感を与えることになるため、本発明を適用する効果は非常に大きくなる。
【0043】
以上、本実施形態により本発明を適用した雑音抑制装置1について説明したが、本発明は、上述したような一般的な補聴器などの音声入力機器に加えて、それ以外のコンピュータや通信機器の一部として組み込むことも可能である。また、本実施形態の図1の構成は同様の機能を有する限り適宜に変更でき、細部の処理内容の変更に加えて、各部材間の相互接続にネットワークや無線通信が介在してもよい。また、雑音抑制装置1におけるフィルタ演算に関し、(1)~(4)式で説明したウィーナーフィルタを採用する場合に限らず、本発明の作用効果を奏する他のフィルタ手段を採用してもよい。また、図6のブロック図に示すように、自己相関推定部17にて、例えば図2の構成のようなニューラルネットワークを用いて、前記第1パワースペクトルより前記第1自己相関及び第2自己相関を直接推定してもよい。それ以外の点についても、本実施形態の内容に限定されず、多様な構成及び処理を採用可能である。
【符号の説明】
【0044】
1…雑音抑制装置
12…STFT部
13…パワースペクトル推定部
14…IFFT部
15…フィルタ係数更新部
16…畳み込み演算部
17…自己相関推定部
18…窓関数乗算部
19…オーバーラップ加算部
20…入力層
21、22…中間層
23…出力層
図1
図2
図3
図4
図5
図6