【文献】
田邉 造,有色性駆動雑音を考慮したカルマンフィルタを用いた雑音抑圧法,電子情報通信学会技術研究報告. EA, 応用音響 107(532),2008年 2月29日,p.79−84
(58)【調査した分野】(Int.Cl.,DB名)
モデル化可能な観測対象のシステムにおいて、所望の情報を示す所望信号に不必要な情報である雑音が混在した観測信号のみから、前記所望信号を駆動源として含む状態空間モデルに基づく予測法を用いて、前記所望信号を推定する雑音抑圧装置であって、
前記観測信号を入力して各時刻の観測信号を生成する入力手段と、
時刻nまたは時刻n+1までの観測信号により時刻n+1での前記システムの状態量を推定した場合の推定誤差の相関値を算出する相関演算部と、
前記相関演算部によって算出された、時刻nまでの観測信号により時刻n+1での前記システムの状態量を推定した場合の推定誤差の相関値を用いて、時刻n+1までの観測信号による時刻n+1での前記状態量の最適推定値と、時刻nまでの観測信号による時刻n+1での前記状態量の最適推定値と、時刻n+1での観測信号の推定誤差と、の関係を規定するための重み係数を算出する重み係数算出部と、
前記重み係数算出部によって算出された重み係数を用いて、時刻n+1での観測信号の推定誤差を補正し、補正した前記推定誤差と時刻nまでの観測信号による時刻n+1での前記状態量の最適推定値とにより、時刻n+1までの観測信号による時刻n+1での前記状態量の最適推定値を前記所望信号として算出する最適推定値算出部と、
を有し、
前記状態空間モデルは、任意の一時刻のみを抽出して構成された観測方程式を含み、前記相関演算部、前記重み係数算出部、および前記最適推定値算出部は、前記観測方程式に含まれる時刻n+1のみの観測信号に対し、反復的に、所定の処理を行い、
時刻n+1での観測信号の推定誤差は、時刻n+1での観測信号と、時刻nまでの観測信号による時刻n+1での前記状態量の最適推定値から射影される観測信号の推定値との差であり、
時刻nまでの観測信号による時刻n+1での前記状態量の最適推定値は、前記最適推定値算出部によって1つ前の時点での所望信号として算出された、時刻nまでの観測信号による時刻nでの前記状態量の最適推定値が、時刻nから1つの時刻だけ状態遷移したときの前記状態量の推定値である、
雑音抑圧装置。
モデル化可能な観測対象のシステムにおいて、所望の情報を示す所望信号に不必要な情報である雑音が混在した観測信号のみから、前記所望信号を駆動源として含む状態空間モデルに基づく予測法を用いて、前記所望信号を推定する雑音抑圧方法であって、
前記観測信号を入力して各時刻の観測信号を生成する入力工程と、
時刻nまたは時刻n+1までの観測信号により時刻n+1での前記システムの状態量を推定した場合の推定誤差の相関値を算出する相関演算工程と、
前記相関演算工程で算出した、時刻nまでの観測信号により時刻n+1での前記システムの状態量を推定した場合の推定誤差の相関値を用いて、時刻n+1までの観測信号による時刻n+1での前記状態量の最適推定値と、時刻nまでの観測信号による時刻n+1での前記状態量の最適推定値と、時刻n+1での観測信号の推定誤差と、の関係を規定するための重み係数を算出する重み係数算出工程と、
前記重み係数算出工程で算出した重み係数を用いて、時刻n+1での観測信号の推定誤差を補正し、補正した前記推定誤差と時刻nまでの観測信号による時刻n+1での前記状態量の最適推定値とにより、時刻n+1までの観測信号による時刻n+1での前記状態量の最適推定値を前記所望信号として算出する最適推定値算出工程と、
を有し、
前記状態空間モデルは、任意の一時刻のみを抽出して構成された観測方程式を含み、前記相関演算工程、前記重み係数算出工程、および前記最適推定値算出工程は、前記観測方程式に含まれる時刻n+1のみの観測信号に対し、反復的に、所定の処理を行い、
時刻n+1での観測信号の推定誤差は、時刻n+1での観測信号と、時刻nまでの観測信号による時刻n+1での前記状態量の最適推定値から射影される観測信号の推定値との差であり、
時刻nまでの観測信号による時刻n+1での前記状態量の最適推定値は、前記最適推定値算出工程で1つ前の時点での所望信号として算出した、時刻nまでの観測信号による時刻nでの前記状態量の最適推定値が、時刻nから1つの時刻だけ状態遷移したときの前記状態量の推定値である、
雑音抑圧方法。
モデル化可能な観測対象のシステムにおいて、所望の情報を示す所望信号に不必要な情報である雑音が混在した観測信号のみから、前記所望信号を駆動源として含む状態空間モデルに基づく予測法を用いて、前記所望信号を推定するための雑音抑圧プログラムであって、
コンピュータに、
各時刻の観測信号を入力する入力工程と、
時刻nまたは時刻n+1までの観測信号により時刻n+1での前記システムの状態量を推定した場合の推定誤差の相関値を算出する相関演算工程と、
前記相関演算工程で算出した、時刻nまでの観測信号により時刻n+1での前記システムの状態量を推定した場合の推定誤差の相関値を用いて、時刻n+1までの観測信号による時刻n+1での前記状態量の最適推定値と、時刻nまでの観測信号による時刻n+1での前記状態量の最適推定値と、時刻n+1での観測信号の推定誤差と、の関係を規定するための重み係数を算出する重み係数算出工程と、
前記重み係数算出工程で算出した重み係数を用いて、時刻n+1での観測信号の推定誤差を補正し、補正した前記推定誤差と時刻nまでの観測信号による時刻n+1での前記状態量の最適推定値とにより、時刻n+1までの観測信号による時刻n+1での前記状態量の最適推定値を前記所望信号として算出する最適推定値算出工程と、
を実行させ、
前記状態空間モデルは、任意の一時刻のみを抽出して構成された観測方程式を含み、前記相関演算工程、前記重み係数算出工程、および前記最適推定値算出工程は、前記観測方程式に含まれる時刻n+1のみの観測信号に対し、反復的に、所定の処理を行い、
時刻n+1での観測信号の推定誤差は、時刻n+1での観測信号と、時刻nまでの観測信号による時刻n+1での前記状態量の最適推定値から射影される観測信号の推定値との差であり、
時刻nまでの観測信号による時刻n+1での前記状態量の最適推定値は、前記最適推定値算出工程で1つ前の時点での所望信号として算出した、時刻nまでの観測信号による時刻nでの前記状態量の最適推定値が、時刻nから1つの時刻だけ状態遷移したときの前記状態量の推定値である、
雑音抑圧プログラム。
【発明を実施するための最良の形態】
【0026】
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
【0027】
なお、以下の説明においては、便宜上、非特許文献3に記載された、カルマンフィルタに基づく従来の雑音抑圧方法を「従来手法1」、カルマンフィルタ以外の、非特許文献2に記載された、線形予測に基づく従来の雑音抑圧方法を「従来手法2」、本発明者の提案に係る、非特許文献4に記載された雑音抑圧方法を「従来手法3」、とそれぞれ呼ぶことにする。
【0028】
また、本明細書において、「雑音」とは、通常は、所望の情報以外の不必要な情報をすべて含む広義の意味で使用するが、特に画像の場合には、画像劣化の要因の1つである「ぼけ」と区別するため、「ぼけ」を除く狭義の意味で使用することにする。また、「音声」とは、人の声に限定されず、人の声を含む音一般を広く意味する。
【0029】
(実施の形態1)
図1は、本発明の実施の形態1に係る雑音抑圧装置の構成を示すブロック図である。
【0030】
図1に示す雑音抑圧装置100は、入力部110、サンプリング部120、A/D変換部130、バッファ140、雑音抑圧処理部150、および出力部160を有する。
【0031】
入力部110は、観測情報または観測信号を入力する。観測信号は、情報源からのクリアな信号(所望信号)と、雑音とが合わさった(混合した)信号である。入力部110は、例えば、入力したアナログの観測信号を入力処理して、サンプリング部120に出力する。入力処理は、例えば、帯域制限処理や自動利得制御処理などである。
【0032】
サンプリング部120は、所定のサンプリング周波数(例えば、16kHz)で、入力されたアナログの観測信号をサンプリング処理し、A/D変換部130に出力する。サンプリング周波数は、検出対象(情報源)に応じて変更可能である。
【0033】
A/D変換部130は、サンプリングされた観測信号の振幅値を所定の分解能(例えば、8bit)でA/D変換処理し、バッファ140に送る。バッファ140は、所定のサンプリング数Nの信号フレーム(ブロック)を雑音抑圧処理部150に出力する。
【0034】
雑音抑圧処理部150は、本発明の特徴的な構成要素であり、後述する雑音抑圧アルゴリズムを内蔵している。例えば、カルマンフィルタに基づく従来手法1では、線形予測を用いてAR係数を推定した後、その結果を用いてカルマンフィルタを実行することにより雑音抑圧を実現しているのに対し、本発明の雑音抑圧方法(以下「発明手法」という)では、大きな基本的枠組に関しては、従来手法3と同様に、状態方程式と観測方程式から構成される新しい予測法によって雑音抑圧を実現している。すなわち、発明手法では、AR係数の推定を必要としない新しい状態空間モデル(状態方程式と観測方程式)を構成し、具体的には、情報源からのクリアな信号(所望信号)のみを用いて状態方程式を構成し、そのクリアな信号と雑音とを用いて観測方程式を構成している。しかし、発明手法では、その基本的枠組を実現するための具体的な構成に関しては、観測情報または観測信号について、従来手法3のように多くの過去情報を用いて雑音抑圧を実行するのではなく、ある1つの時刻の情報(瞬時情報)のみを用いて高性能な雑音抑圧を実行している。雑音抑圧処理部150は、内蔵する雑音抑圧アルゴリズムを用いて、ある1つの時刻の観測信号のみから所望信号(情報源からのクリアな信号)を推定する。雑音抑圧処理部150によって推定された推定信号は、雑音抑圧処理部150内に一時保存された後、出力部160に出力される。
【0035】
このように、本明細書において「雑音抑圧」とは、観測信号のみから所望信号(例えば、音声信号)を推定することをいい、雑音を推定して引き算により所望信号を推定する「雑音除去」とは、引き算を行わない点で、全く異なる概念である。また、本明細書において「雑音」とは、通常、上記のように、所望の情報以外の不必要な情報すべて、換言すれば、観測信号に含まれるすべての信号のうち、所望信号以外のすべての信号を意味する。
【0036】
出力部160は、雑音抑圧処理部150から入力した推定信号を所定の形態で外部に出力する。出力部160は、例えば、スピーカやディスプレイ、通信手段、記憶装置などで構成されている。
【0037】
図2は、
図1の雑音抑圧処理部150の構成を示すブロック図である。
【0038】
図2に示すように、雑音抑圧処理部150は、初期設定部152、相関演算部154、重み係数算出部156、および最適推定値算出部158を有する。雑音抑圧処理部150は、各部152〜158の協働の下、内蔵する雑音抑圧アルゴリズム(発明手法)を実行することによって、ある1つの時刻の観測信号のみから所望信号(情報源からのクリアな信号)を推定する。このとき、初期設定部152は、発明手法のアルゴリズムの初期設定を行い、相関演算部154は、所望信号の推定誤差の相関演算を行い、重み係数算出部156は、所望信号の最適推定値の算出に必要な重み係数の算出を行い、最適推定値算出部158は、所望信号の最適推定値の算出を行う。なお、各部152〜158の具体的な処理内容は、後で詳細に説明する。
【0039】
以下、雑音抑圧処理部150で行われる雑音抑圧処理動作について詳細に説明するが、ここでは、発明手法の特徴をより明確にするため、まず従来手法(具体的には、従来手法1および従来手法3)を説明し、この従来手法との対比において発明手法を詳細に説明することにする。なお、ここでは、情報源からのクリアな信号(所望信号)として、例えば、音声信号を例にとって説明する。
【0040】
図3は、本発明が前提とするモデルを示す図である。雑音抑圧処理部150に入力される観測信号r(n)は、情報源からのクリアな信号(所望信号)(例えば、音声信号)d(n)以外に雑音v(n)を含んでおり、次の式(1)を満たす。
【0041】
【数1】
【0042】
すなわち、音声信号を例にとると、一般に、人間の耳に聞こえる観測信号r(n)は、音声信号d(n)に雑音v(n)が加わった
図3のモデルで表現されるとともに、数式では上記の式(1)のように書き表される。ただし、雑音v(n)は、分散σ
2vとする。また、「n」とは、装置の時刻nである。時刻nは、サンプリング部120で生成された離散的な時間系列において、処理開始時刻を時刻0と仮定したときに、そこからn番目の時刻のことを意味する。上記のように、本発明の目的は、ある1つの時刻の観測信号r(n)のみからその時刻の高音質な音声信号d(n)を復元(推定)することである。
【0043】
[従来手法1]
まず、従来手法1について説明する。
【0044】
従来のカルマンフィルタを用いた雑音抑圧方法は、まず第1段階(ステップ1)で、音声信号d(n)のAR係数を推定した後、第2段階(ステップ2)で、ステップ1で推定したAR係数を用いてカルマンフィルタアルゴリズムを実行することにより、観測信号r(n)から音声信号d(n)を抽出する。すなわち、従来手法1は、ステップ1で、線形予測により音声信号に対するARシステムのパラメータ(AR係数)を推定し(AR係数の推定)、ステップ2で、ステップ1で推定したAR係数を用いてカルマンフィルタにより雑音抑圧を行う(音声信号の復元)。
【0045】
ステップ1(AR係数の推定)において、音声信号d(n)がAR過程で表されると仮定すると、式(1)で与えられる音声信号d(n)は、次の式(2)のように表される。
【0046】
【数2】
【0047】
ここで、α
l(n)は、時刻nでのAR係数、L
c1は、AR係数の次数、e(n)は、駆動源、つまり、音声信号d(n)が式(2)に示すL
c1次のARシステムでモデル化されるとした場合の予測誤差(モデリング誤差)である。また、駆動源は、ゼロ平均の白色ガウス過程とする。なお、添え字「c1」は、従来技術1に係るものであることを示している。
【0048】
公知のように、従来手法1では、雑音v(n)は、ゼロ平均であり白色雑音であることが前提条件である。言い換えると、従来手法1では、音声信号d(n)と雑音v(n)は無相関であると仮定されている。
【0049】
すなわち、ステップ2(音声信号の復元)において、カルマンフィルタ理論に基づいて状態空間モデル(状態方程式と観測方程式)を構成するためには、駆動源δ
c1(n)が白色信号であり、かつ、音声信号からなる状態量x
c1(n)と雑音v(n)とが無相関でなければならない。このことを踏まえた上で、ステップ1で求めたAR係数α
l(n)を用いた従来手法の状態空間モデル(状態方程式と観測方程式)は、次の式(3)で書き表される。ただし、式(3)中のベクトルx
c1、δ
c1、m
c1、スカラーy
c1、ε
c1、および行列Φ
c1は、次の式(4)でそれぞれ定義される。ベクトルx
c1は音声信号からなるL
c1×1次の状態ベクトル、ベクトルδ
c1はL
c1×1次の駆動源ベクトル、スカラーy
c1は観測信号、スカラーε
c1は雑音、行列Φ
c1はL
c1×L
c1次の状態遷移行列、ベクトルm
c1はL
c1×1次の観測遷移ベクトルである。また、
図4は、この状態空間モデルにおけるシステム構成図をブロック線図で表したものである。
【0050】
【数3】
【0051】
【数4】
【0052】
図4において、「40」は時刻nにおける状態ベクトルx
c1(n)、「41」は時刻n+1における状態ベクトルx
c1(n+1)、「42」は時刻nにおける観測信号y
c1(n)、「43」は時刻nにおける雑音ε
c1(n)、「44」は時刻n+1における駆動源ベクトルδ
c1(n+1)、「45」は状態遷移行列Φ
c1、「46」は観測遷移ベクトルm
c1である。式(3)における状態方程式は、推定対象(例えば、音声)のシステムを状態空間モデルで記述したものであり、内部状態つまり状態変数(ここでは、状態ベクトルx
c1(n))の時間変化を表している。また、式(3)における観測方程式は、何らかの観測装置を通じて観測する過程を記述したものであり、観測結果(ここでは、観測信号y
c1(n))が、被観測量つまり入力(ここでは、状態ベクトルx
c1(n))に依存して時間発展する様子を示している。なお、「時刻nにおける状態ベクトルx
c1(n)」とは、時刻nまでの音声信号(所望信号)からなる状態ベクトルを意味する。
【0053】
図5は、従来手法1のアルゴリズムを示す図である。従来手法1のアルゴリズムは、
図5に示すように、初期設定(Initialization)の過程と反復(Iteration)の過程とに大別され、反復過程は、ステップ1とステップ2に分かれている。ステップ1では、線形予測アルゴリズムを用いて、クリアな信号(音声信号)d(n)に対するAR係数{α
l(n)}の推定を行う。また、ステップ2では、1〜5の手順を逐次繰り返す。
【0054】
なお、この従来手法1のアルゴリズムは、
図6に示す雑音抑圧処理部50によって実行される。この雑音抑圧処理部50は、
図2に示す本実施の形態における雑音抑圧処理部150に対応するものであり、初期設定部51、AR係数処理部52、相関行列演算部53、カルマンゲインベクトル算出部54、および最適推定値ベクトル算出部55を有する。各部51〜55の具体的な処理内容は、後述する。
【0055】
図7は、
図5のアルゴリズムを実行する処理手順を示すフローチャートである。
【0056】
まず、初期設定部51で、初期設定を行う(ST10)。具体的には、音声信号からなる状態ベクトルの最適推定値(以下「音声信号の最適推定値ベクトル」という)の初期値x
c1(0|0)、状態ベクトルの推定誤差(以下「音声信号の推定誤差ベクトル」という)の相関行列の初期値P
c1(0|0)、雑音(スカラー)の共分散r
εc1(n)の値、観測遷移ベクトルm
c1、時刻nのカウンタの初期値、および駆動源ベクトルの共分散R
δc1(n+1)[i,j]の値を、次の式(5)に示すようにそれぞれ設定する。
【0057】
【数5】
【0058】
ただし、行列Iは、単位行列である。また、σ
v2は、雑音ε
c1(n)(=v(n))の雑音分散であり、既知と仮定している。ここでいう「既知」とは、別の任意の方法(アルゴリズム)で求められて与えられることを意味する。もし雑音ε
c1(n)が白色雑音でありゼロ平均であれば、σ
v2は、次の式(6)で与えられる。ここで、「N」は、所定のサンプル数である。
【0059】
【数6】
【0060】
次に、AR係数処理部52で、AR係数の推定を行う(ST12)。具体的には、線形予測アルゴリズムを用いて、クリアな信号(音声信号)d(n+1)に対するAR係数{α
l(n+1)}を推定する。
【0061】
次に、AR係数処理部52で、状態遷移行列の構成を行う(ST14)。具体的には、ステップST12で推定したAR係数{α
l(n+1)}を用いて、状態遷移行列Φ
c1(n+1)を、次の式(7)に示すように構成する。なお、ステップST12とステップST14が、従来手法1のステップ1に相当する。
【0062】
【数7】
【0063】
次に、相関行列演算部53で、n→(n+1)の推定誤差の相関値(行列)を計算する(ST16)。具体的には、時刻nまでの情報により時刻n+1の状態ベクトルを推定した場合の誤差(音声信号の推定誤差ベクトル)の相関行列P
c1(n+1|n)を計算する。この計算は、ステップST10で設定した駆動源ベクトルの共分散R
δc1(n+1)[i,j]の値、ステップST14で構成した状態遷移行列Φ
c1(n+1)、およびステップST10で設定した(n=0の場合)または前回のステップST26で計算した(n≧1の場合)音声信号の推定誤差ベクトルの相関行列P
c1(n|n)を用いて、次の式(8)により行う。なお、このステップST16は、従来手法1のステップ2の手順1に相当する。
【0064】
【数8】
【0065】
次に、カルマンゲインベクトル算出部54で、カルマンゲイン(ベクトル)の計算を行う(ST18)。具体的には、観測信号の推定誤差にカルマンゲイン(ベクトル)をかけて、時刻nまでの情報による時刻n+1での音声信号の最適推定値ベクトルx
c1(n+1|n)を加えたものが、時刻n+1までの情報による当該時刻での音声信号の最適推定値ベクトルx
c1(n+1|n+1)になるような、そのカルマンゲインk
c1(n+1)を計算する。この計算は、ステップST16で計算した音声信号の推定誤差ベクトルの相関行列P
c1(n+1|n)、ならびに、ステップST10でそれぞれ設定した観測遷移ベクトルm
c1および雑音の共分散r
εc1(n)の値を用いて、次の式(9)により行う。なお、このステップST18は、従来手法1のステップ2の手順2に相当する。
【0066】
【数9】
【0067】
次に、最適推定値ベクトル算出部55で、n→(n+1)の音声信号の最適推定値(ベクトル)を計算する(ST20)。具体的には、時刻nまでの情報による時刻n+1での音声信号の最適推定値ベクトルx
c1(n+1|n)を計算する。この計算は、前回のステップST14で構成した状態遷移行列Φ
c1(n)、および、前回のステップST22で計算した音声信号の最適推定値ベクトルx
c1(n|n)を用いて、次の式(10)により行う。なお、このステップST20は、従来手法のステップ2の手順3に相当する。
【0068】
【数10】
【0069】
次に、最適推定値ベクトル算出部55で、(n+1)→(n+1)の音声信号の最適推定値(ベクトル)を計算する(ST22)。具体的には、時刻n+1までの情報による当該時刻での音声信号の最適推定値ベクトルx
c1(n+1|n+1)を計算する。この計算は、ステップST20で計算した音声信号の最適推定値ベクトルx
c1(n+1|n)、ステップST18で計算したカルマンゲイン(ベクトル)k
c1(n+1)、ステップST10で設定した観測遷移ベクトルm
c1、および時刻n+1における観測信号y
c1(n+1)を用いて、次の式(11)により行う。なお、このステップST22は、従来手法1のステップ2の手順4に相当する。
【0070】
【数11】
【0071】
次に、処理を終了するか否かを判断する(ST24)。この判断は、例えば、時刻nが所定のサンプル数Nに達したか否かを判定することによって行う。この判断の結果として、時刻nが所定のサンプル数Nに達していない場合は(ST24:NO)、ステップST26に進み、時刻nが所定のサンプル数Nに達した場合は(ST24:YES)、ステップST30に進む。なお、判断の基準は、上記の例に限定されない。例えば、リアルタイムで処理を行う場合は、時刻nが所定のサンプル数Nに達していなくても、サンプルがなくなった時点で処理を終了するようにしてもよい。
【0072】
ステップST26では、相関行列演算部53で、(n+1)→(n+1)の推定誤差の相関値(行列)を計算する。具体的には、時刻n+1までの情報により当該時刻の状態ベクトルを推定した場合の誤差(音声信号の推定誤差ベクトル)の相関行列P
c1(n+1|n+1)を計算する。この計算は、ステップST18で計算したカルマンゲイン(ベクトル)k
c1(n+1)、ステップST10で設定した観測遷移ベクトルm
c1、およびステップST16で計算した音声信号の推定誤差ベクトルの相関行列P
c1(n+1|n)を用いて、次の式(12)により行う。なお、このステップST26は、従来手法1のステップ2の手順5に相当する。
【0073】
【数12】
【0074】
次に、ステップST28では、時刻nのカウンタを1だけインクリメントして(n=n+1)、ステップST12に戻る。
【0075】
一方、ステップST30では、本アルゴリズムの計算結果を出力値として一時保存する。具体的には、ステップST22で計算した音声信号の最適推定値ベクトルx
c1(n+1|n+1)を、本アルゴリズムの出力値として雑音抑圧処理部50内に一時保存する。
【0076】
図8は、従来手法1とその問題点を視覚的にまとめた説明図である。このように、従来手法1は、ステップ1でAR係数を推定した後に、ステップ2で、ステップ1で推定したAR係数を用いて状態空間モデルを構成することによって、雑音抑圧を実現している。しかし、一般に、実環境では、ステップ1のAR係数の推定においては、AR係数の次数L
c1を決定することが非常に困難であるため、不十分な推定結果であるAR係数を用いてカルマンフィルタアルゴリズムを実行しなければならない。このことが雑音抑圧能力の低下を引き起こすことは容易に想像できる。このことは、カルマンフィルタの雑音抑圧能力がAR係数の推定精度に大きく依存していることを意味する。すなわち、従来手法1において最も重要な点は、カルマンフィルタを用いた高性能の雑音抑圧を達成するために、AR係数の正確な推定を必要とすることである。このことからも、カルマンフィルタの雑音抑圧能力がAR係数の推定精度に大きく依存しており、AR係数の推定精度が不十分な場合に雑音抑圧能力が大きく劣化することは容易に想像可能である。また、音声信号の音質劣化についても容易に理解できる。
【0077】
[従来手法3]
次に、従来手法3について説明する。
【0078】
従来手法3では、上記のように、AR係数の推定を用いないようにするために、新しい状態空間モデルを構成する。すなわち、情報源からのクリアな信号(所望信号)のみを用いて状態方程式を構成し、かつ、そのクリアな信号(所望信号)および雑音を用いて観測方程式を構成する。具体的には、従来手法3では、新しい状態空間モデル(状態方程式と観測方程式)を構成し、この新しい状態空間モデルは、次の式(13)で書き表される。ただし、式(13)中のベクトルx
c3、δ
c3、y
c3、ε
c3、および行列Φ
c3、M
c3は、次の式(14)でそれぞれ定義される。ベクトルx
c3は所望信号からなるL
c3×1次の状態ベクトル、ベクトルδ
c3はL
c3×1次の駆動源ベクトル、ベクトルy
c3はL
c3×1次の観測信号ベクトル、ベクトルε
c3はL
c3×1次の雑音ベクトル、行列Φ
c3はL
c3×L
c3次の状態遷移行列、行列M
c3はL
c3×L
c3次の観測遷移行列である。また、
図9は、この状態空間モデルにおけるシステム構成図をブロック線図で表したものである。なお、添え字「c3」は、従来手法3に係るものであることを示している。また、「L
c3」は、状態遷移行列のサイズである。
【0079】
【数13】
【0080】
【数14】
【0081】
図9において、「60」は時刻nにおける状態ベクトルx
c3(n)、「61」は時刻n+1における状態ベクトルx
c3(n+1)、「62」は時刻nにおける観測信号ベクトルy
c3(n)、「63」は時刻nにおける雑音ベクトルε
c3(n)、「64」は時刻n+1における駆動源ベクトルδ
c3(n+1)、「65」は状態遷移行列Φ
c3、「66」は観測遷移行列M
c3である。式(13)における状態方程式は、推定対象(例えば、音声)のシステムを状態空間モデルで記述したものであり、内部状態つまり状態変数(ここでは、状態ベクトルx
c3(n))の時間変化を表している。また、式(13)における観測方程式は、何らかの観測装置を通じて観測する過程を記述したものであり、観測結果(ここでは、観測信号ベクトルy
c3(n))が、被観測量つまり入力(ここでは、状態ベクトルx
c3(n))に依存して時間発展する様子を示している。なお、「時刻nにおける状態ベクトルx
c3(n)」とは、時刻nまでの所望信号(例えば、音声信号)からなる状態ベクトルを意味する。
【0082】
図10は、従来手法3のアルゴリズムを示す図である。従来手法3のアルゴリズムは、
図10に示すように、初期設定(Initialization)の過程と反復(Iteration)の過程とに大別され、反復過程は、従来手法1の場合(
図5参照)と異なり、新しい状態空間モデル(状態方程式と観測方程式)を構成している。反復過程では、1〜5の手順を逐次繰り返す。
【0083】
なお、この従来手法3のアルゴリズムは、
図11に示す雑音抑圧処理部70によって実行される。この雑音抑圧処理部70は、
図2に示す本実施の形態における雑音抑圧処理部150に対応するものであり、初期設定部72、相関行列演算部74、重み係数行列算出部76、および最適推定値ベクトル算出部78を有する。各部72〜78の具体的な処理内容は、後述する。
【0084】
図12は、
図10のアルゴリズムを実行する処理手順を示すフローチャートである。
【0085】
まず、初期設定部72で、初期設定を行う(ST30)。具体的には、初期設定部72において、所望信号(例えば、音声信号)からなる状態ベクトルの最適推定値(以下「所望信号の最適推定値ベクトル」という)の初期値x
c3(0|0)、状態ベクトルの推定誤差(以下「所望信号の推定誤差ベクトル」という)の相関行列の初期値P
c3(0|0)、時刻nのカウンタの初期値、状態遷移行列Φ
c3、観測遷移行列M
c3、雑音ベクトルの共分散R
εc3(n+1)[i,j]の値、および駆動源ベクトルの共分散R
δc3(n+1)[i,j]の値を、次の式(15)に示すようにそれぞれ設定する。
【0086】
【数15】
【0087】
ただし、行列Iは、単位行列である。また、σ
v2は、雑音ε
c3(n)(=v(n))の雑音分散であり、既知と仮定している。ここでいう「既知」とは、別の任意の方法(アルゴリズム)で求められて与えられることを意味する。もし雑音ε
c3(n)が白色雑音でありゼロ平均であれば、σ
v2は、上記の式(6)で与えられる。
【0088】
次に、相関行列演算部74で、n→(n+1)の推定誤差の相関値(行列)を計算する(ST32)。具体的には、相関行列演算部74において、時刻nまでの情報により時刻n+1の状態ベクトルを推定した場合の誤差(所望信号の推定誤差ベクトル)の相関行列P
c3(n+1|n)を計算する。この計算は、ステップST30でそれぞれ設定した状態遷移行列Φ
c3および駆動源ベクトルの共分散R
δc3(n+1)[i,j]の値、ならびに、ステップST30で設定した(n=0の場合)または前回のステップST42で計算した(n≧1の場合)所望信号の推定誤差ベクトルの相関行列P
c3(n|n)を用いて、次の式(16)により行う。なお、このステップST32は、
図10の反復過程の手順1に相当する。
【0089】
【数16】
【0090】
次に、重み係数行列算出部76で、重み係数(行列)の計算を行う(ST34)。具体的には、重み係数行列算出部76において、観測量である観測信号ベクトルの推定誤差(以下「観測信号の推定誤差ベクトル」という)に重み係数(行列)をかけて、時刻nまでの情報による時刻n+1での所望信号の最適推定値ベクトルx
c3(n+1|n)を加えたものが、時刻n+1までの情報による当該時刻での所望信号の最適推定値ベクトルx
c3(n+1|n+1)になるような、その重み係数行列K
c3(n+1)を計算する。この計算は、ステップST32で計算した所望信号の推定誤差ベクトルの相関行列P
c3(n+1|n)、ならびに、ステップST30でそれぞれ設定した観測遷移行列M
c3および雑音ベクトルの共分散R
εc3(n+1)[i,j]の値を用いて、次の式(17)により行う。なお、このステップST34は、
図10の反復過程の手順2に相当する。
【0091】
【数17】
【0092】
次に、最適推定値ベクトル算出部78で、n→(n+1)の状態量(所望信号)の最適推定値(ベクトル)を計算する(ST36)。具体的には、最適推定値ベクトル算出部78において、時刻nまでの情報による時刻n+1での所望信号の最適推定値ベクトルx
c3(n+1|n)を計算する。この計算は、ステップST30で設定した状態遷移行列Φ
c3、および、前回のステップST38で計算した所望信号の最適推定値ベクトルx
c3(n|n)を用いて、次の式(18)により行う。なお、このステップST36は、
図10の反復過程の手順3に相当する。
【0093】
【数18】
【0094】
次に、同じく最適推定値ベクトル算出部78で、(n+1)→(n+1)の状態量(所望信号)の最適推定値(ベクトル)を計算する(ST38)。具体的には、最適推定値ベクトル算出部78において、時刻n+1までの情報による当該時刻での所望信号の最適推定値ベクトルx
c3(n+1|n+1)を計算する。この計算は、ステップST36で計算した所望信号の最適推定値ベクトルx
c3(n+1|n)、ステップST34で計算した重み係数行列K
c3(n+1)、ステップST30で設定した観測遷移行列M
c3、および時刻n+1における観測信号y
c3(n+1)を用いて、次の式(19)により行う。なお、このステップST38は、
図10の反復過程の手順4に相当する。
【0095】
【数19】
【0096】
次に、処理を終了するか否かを判断する(ST40)。この判断は、例えば、時刻nが所定のサンプル数Nに達したか否かを判定することによって行う。この判断の結果として、時刻nが所定のサンプル数Nに達していない場合は(ST40:NO)、ステップST42に進み、時刻nが所定のサンプル数Nに達した場合は(ST40:YES)、ステップST46に進む。なお、判断の基準は、上記の例に限定されない。例えば、リアルタイムで処理を行う場合は、時刻nが所定のサンプル数Nに達していなくても、サンプルがなくなった時点で処理を終了するようにしてもよい。
【0097】
ステップST42では、相関行列演算部74で、(n+1)→(n+1)の推定誤差の相関値(行列)を計算する。具体的には、相関行列演算部74において、時刻n+1までの情報により当該時刻の状態ベクトルを推定した場合の誤差(所望信号の推定誤差ベクトル)の相関行列P
c3(n+1|n+1)を計算する。この計算は、ステップST34で計算した重み係数行列K
c3(n+1)、ステップST30で設定した観測遷移行列M
c3、およびステップST32で計算した所望信号の推定誤差ベクトルの相関行列P
c3(n+1|n)を用いて、次の式(20)により行う。なお、このステップST42は、
図10の反復過程の手順5に相当する。
【0098】
【数20】
【0099】
次に、ステップST44では、時刻nのカウンタを1だけインクリメントして(n=n+1)、ステップST32に戻る。
【0100】
一方、ステップST46では、本アルゴリズムの計算結果を出力値として一時保存する。具体的には、ステップST38で計算した所望信号の最適推定値ベクトルx
c3(n+1|n+1)を、本アルゴリズムの出力値として雑音抑圧処理部70内に一時保存する。
【0101】
図13は、従来手法3を視覚的にまとめた説明図である。このように、従来手法3では、新しい状態空間モデルを構成しているため、1段階処理で雑音抑圧が可能となる。なお、雑音抑圧方法の基本的枠組に関する限り、この点は、後述する発明手法1および発明手法2でも同様である。
【0102】
ところで、従来手法3のアルゴリズムは、従来手法1とは異なり、駆動源が有色であっても実行することができる。すなわち、従来手法1で述べたように、カルマンフィルタ理論を用いるためには、駆動源δ
c3(n+1)が白色性であり、かつ、音声信号からなる状態量x
c3(n+1)と雑音v(n)とが無相関でなければならない。しかし、従来手法3の状態空間モデルにおける状態方程式の駆動源δ
c3(n+1)は、上記の式(14)に示すように、有色信号である音声信号d(n+1)を含んでいる。したがって、一般にカルマンフィルタ理論を適用することはできないものの、従来手法3のアルゴリズムは、駆動源が有色であるにもかかわらず、実行することができる。
【0103】
以下では、駆動源が有色信号である従来手法3の有効性、つまり、駆動源が有色であるにもかかわらず従来手法3のアルゴリズムを実行できる理由を説明しておく。もちろん、この理由は、後述する発明手法1および発明手法2にも当てはまる。なお、以下の表記において、行列内を灰色に塗り潰した部分は、駆動源の影響がある部分とし、塗り潰していない部分は、駆動源の影響がない部分とする。
【0104】
駆動源δ
c3が有色信号という条件の下で、時刻nまでの情報により時刻n+1の状態ベクトルx
c3(n+1|n)を推定した場合の誤差(所望信号の推定誤差ベクトル)の相関行列P
c3(n+1|n)は、次の式(21)と書き表される。
【0105】
【数21】
【0106】
ただし、L
c3×L
c3次の行列R
δc3(n+1)とL
c3×L
c3次の行列Q
c3(n+1)は、次の式(22)のように置くことにする。
【0107】
【数22】
【0108】
ここで、もし駆動源が白色信号であれば、所望信号の推定誤差ベクトルの相関行列P
c3(n+1|n)は、P
c3(n+1|n)=Φ
c3P(n|n)Φ
c3T+R
δc3(n+1)となる。このことは、駆動源ベクトルδ
c3(n+1)と状態ベクトルx
c3(n|n)とは無相関であることを意味する。すなわち、Q
c3T(n+1)=O(Oはゼロ行列)。一方、駆動源が有色信号の場合、駆動源ベクトルδ
c3(n+1)は、所望信号の推定誤差ベクトルと相関を持つ。すなわち、Q
c3T(n+1)≠Oとなる。
【0109】
以上のことから、次の式(23)の関係を用いて、行列Q
c3T(n+1)の各要素について解析を行う。
【0110】
【数23】
【0111】
ただし、L
c3×L
c3次の行列Γは、次の式(24)となる。
【0112】
【数24】
【0113】
上記の式(23)を用いて、行列Q
c3(n+1)を変形すると、次の式(25)のように書き表される。
【0114】
【数25】
【0115】
行列Q
c3(n+1)の各要素を明らかにするために、次の式(26)を定義すると、行列Q
c3(n+1)の各要素は、次の式(27)および式(28)となる。
【0116】
【数26】
【0117】
【数27】
【0118】
【数28】
【0119】
ただし、行列Q
c3(n+1)の1列目の要素{e
i(n)}は、次の式(29)となる。
【0120】
【数29】
【0121】
ここで、行列Q
c3(n+1)の1列目の要素がすべてゼロ、つまり、{e
i(n)}=0であれば、駆動源の影響を受けていない。しかし、上記の式(28)の行列Q
c3(n+1)の1列目の各要素はゼロではない、つまり、{e
i(n)}≠0であるため、駆動源の影響を受けてしまっている。
【0122】
一方、もし上記の式(28)の行列Q
c3(n+1)の1列目の各要素{e
i(n)}を何らかの方法で得ることができれば、{e
i(n)}の位置は、更新と無関係に常に一定であるため、何らかの方法で得られた{e
i(n)}を差し引きすることで、駆動源の影響を取り除くことが可能となる。このことは、行列Q
c3(n+1)をゼロ行列と置くことに等しい。したがって、従来手法3の状態空間モデルであれば、駆動源が有色であっても実行可能であるということができる。すなわち、従来手法3のアルゴリズムは、駆動源が有色であるにもかかわらず、実行することができる。
【0123】
[発明手法]
次に、発明手法について説明する。
【0124】
発明手法では、演算量のさらなる低減と雑音抑圧能力のさらなる向上とを図るために、従来手法3の状態空間モデルを基礎にして、さらに新しい状態空間モデルを構成する。すなわち、発明手法では、情報源からのクリアな信号(所望信号)のみを用いて状態方程式を構成し、かつ、ある1つの時刻のみの観測信号に対して、そのクリアな信号(所望信号)および雑音を用いて観測方程式を構成する。なお、以下では、発明手法として2つの具体的な手法を提示する。ここでは、便宜上、第1の発明手法および第2の発明手法を、発明手法1および発明手法2とそれぞれ称し、順次説明する。
【0125】
<発明手法1>
図14および
図15は、従来手法3の問題点を視覚的にまとめた説明図である。
【0126】
まず、上記のように、従来手法3の状態空間モデルでは、観測信号r(n)をベクトル化{y
c3(n)}することにより、多くの過去情報を用いて雑音抑圧を実行している。例えば、
図14Aに示すように、従来手法3では、「おはよう」における未来の「う」を推定する場合のように、予測の推定精度の観点から観測信号r(n)のデータ量を多く使用している。具体的には、
図14Aに示すように、「おはよう」における未来の「う」を推定する場合、1時刻前の「よ」を知っていても未来の「う」は推測できない。また、2時刻前までの「は」と「よ」を知っていても「はよ」から未来の「う」の推定は困難である。一方、3時刻前までの「お」と「は」と「よ」を知っていれば「おはよ」から未来の「う」は推測できる。それゆえ、予測の推定精度の観点から、観測信号r(n)のデータ量は多くなる。すなわち、過去のデータを多く使用したほうが、未来を推定しやすくなる。
【0127】
しかし、
図14Bに示すように、過去の観測信号r(n)にも雑音が混入するため(つまり、誤差あり)、多くの過去情報を用いた観測信号ベクトルは雑音(誤差)を含んだものとなる。この場合、予測の推定精度を上げるために過去の観測信号r(n)が多く必要であるという命題は、必ずしも正しくない。したがって、従来手法3においては、所望信号の推定精度(つまり、雑音抑圧能力)の向上に一定の限界がある。
【0128】
また、
図15に強調的に示すように、従来手法3のアルゴリズムでは、逆行列の計算が必要であるため(
図10の反復過程の手順2、つまり、上記の式(17)参照)、従来手法1に対する演算量の軽減効果にも一定の限界がある。
【0129】
そこで、発明手法2では、従来手法3に対してさらに演算量の軽減および雑音抑圧能力の向上を図るために、さらに新しい状態空間モデル(状態方程式と観測方程式)を、次の式(30)のように構成する。ただし、式(30)中のベクトルx
p1、δ
p1、m
p1、スカラーy
p1、ε
p1、および行列Φ
p1は、次の式(31)でそれぞれ定義される。ベクトルx
p1は所望信号からなるL
p1×1次の状態ベクトル、ベクトルδ
p1はL
p1×1次の駆動源ベクトル、スカラーy
p1は観測信号、スカラーε
p1は雑音、行列Φ
p1はL
p1×L
p1次の状態遷移行列、ベクトルm
p1はL
p1×1次の観測遷移ベクトルである。なお、添え字「p1」は、発明手法1に係るものであることを示している。また、「L
p1」は、状態遷移行列のサイズである。
【0130】
【数30】
【0131】
【数31】
【0132】
図16は、このさらに新しい状態空間モデルを視覚的に説明するための概略図である。
図16に示すように、例えば、音声信号の場合、ある1つの時刻nにおける観測信号r(n)は、その時刻nにおける音声信号d(n)と雑音v(n)を加算した信号である(
図3および式(1)参照)。音声信号の場合、状態方程式は、気道170の構造(つまり、音声の構造)を記述したものであり、観測方程式は、任意の観測装置を通じて、ある1つの時刻nにおいて、気道170から発せられた音声信号d(n)と、この音声信号d(n)以外の雑音v(n)とが混ざり合って、観測される過程を記述したものである。なお、音声信号の場合には、状態方程式を「音声構造方程式」、観測方程式を「音声観測方程式」とそれぞれ呼ぶこともできる。
【0133】
図17は、この状態空間モデルにおけるシステム構成図をブロック線図で表したものである。
図17において、「200」は時刻nにおける状態ベクトルx
p1(n)、「201」は時刻n+1における状態ベクトルx
p1(n+1)、「202」は時刻nにおける観測信号y
p1(n)、「203」は時刻nにおける雑音ε
p1(n)、「204」は時刻n+1における駆動源ベクトルδ
p1(n+1)、「205」は状態遷移行列Φ
p1、「206」は観測遷移ベクトルm
p1である。式(30)における状態方程式は、推定対象(例えば、音声)のシステムを状態空間モデルで記述したものであり、内部状態つまり状態変数(ここでは、状態ベクトルx
p1(n))の時間変化を表している。また、式(30)における観測方程式は、何らかの観測装置を通じて観測する過程を記述したものであり、観測結果(ここでは、観測信号y
p1(n))が、被観測量つまり入力(ここでは、状態ベクトルx
p1(n))に依存して時間発展する様子を示している。なお、「時刻nにおける状態ベクトルx
p1(n)」とは、時刻nまでの所望信号(例えば、音声信号)からなる状態ベクトルを意味する。
【0134】
図18は、発明手法1の状態方程式を視覚的に示す説明図であり、
図19および
図20は、発明手法1における新しい観測方程式の構成を視覚的に示す説明図である。すなわち、発明手法1は、従来手法3と比較して、
図18に示すように、状態方程式は、状態量の個数の点を除き、同じであるが(
図13参照)、
図19および
図20に示すように、観測方程式を新しく構成して演算量の軽減を図っている。具体的には、発明手法1では、従来手法3の観測方程式から、状態方程式の駆動源の影響がないように、任意の一時刻の部分のみを抽出して、従来手法3と異なる新しい観測方程式を構成している(特に
図19参照)。これにより、発明手法1では、例えば、従来手法3の観測方程式における観測信号ベクトルy
c3(n+1)、観測遷移行列M
c3、および雑音ベクトルε
c3(n+1)が、それぞれ、スカラー化、ベクトル化、スカラー化されて、観測信号y
p1(n+1)、観測遷移ベクトルm
p1、および雑音ε
p1(n+1)となっている(特に
図20参照)。この結果、発明手法1は、従来手法3よりも演算量が大幅に軽減される。なお、演算量の軽減効果については、後で詳述する。
【0135】
なお、状態方程式に関して、発明手法1では、従来手法3よりも、状態量の個数、つまり、状態遷移行列のサイズを大きくとる。すなわち、発明手法1の状態遷移行列のサイズL
p1は、従来手法3の状態遷移行列のサイズL
c3よりも大きい(L
p1>L
c3)。これは、例えば、音声信号の場合、気道170の構造を明らかにするためには、気道170のデータは多ければ多いほど良いためである(
図16参照)。一方、観測方程式に関しては、発明手法1では、上記のように、従来手法3の観測方程式から任意の一時刻の部分のみを抽出して従来手法3の観測方程式と異なる新しい観測方程式を構成している。すなわち、発明手法1では、例えば、観測信号として、過去のデータを使用する従来手法3とは異なり、現在のデータ(瞬時データ)のみを使用する。この点で、発明手法1は、本質的に、従来手法3とは異なる構成を採っている。
【0136】
図21は、発明手法1のアルゴリズムを示す図である。発明手法1のアルゴリズムは、
図21に示すように、初期設定(Initialization)の過程と反復(Iteration)の過程とに大別され、反復過程は、従来手法3の場合(
図10参照)よりも演算量が軽減されるように、さらに新しい状態空間モデル(状態方程式と観測方程式)を構成している。反復過程では、1〜5の手順を逐次繰り返す。
【0137】
図22は、発明手法1のアルゴリズムの利点を視覚的にまとめた説明図である。発明手法1では、
図22に示すように、従来手法3のアルゴリズムにおける重み係数行列K
c3(n+1)、観測遷移行列M
c3、および観測信号ベクトルy
c3(n+1)が、それぞれ、ベクトル化、ベクトル化、スカラー化されて、重み係数ベクトルk
p1(n+1)、観測遷移ベクトルm
p1、および観測信号y
p1(n+1)となっている。これにより、発明手法1では、従来手法3における逆行列の計算(
図10の反復過程の手順2参照)が、スカラーの逆数の計算(
図21の反復過程の手順2参照)となる。一般に、逆行列の計算は複雑であるが、スカラーの逆数の計算は簡単である。したがって、発明手法1は、従来手法3よりも演算量が大幅に軽減される。
【0138】
図23は、
図21のアルゴリズムを実行する処理手順を示すフローチャートである。
【0139】
まず、初期設定部152で、初期設定を行う(ST1000)。具体的には、初期設定部152において、所望信号(例えば、音声信号)からなる状態ベクトルの最適推定値(以下「所望信号の最適推定値ベクトル」という)の初期値x
p1(0|0)、状態ベクトルの推定誤差(以下「所望信号の推定誤差ベクトル」という)の相関行列の初期値P
p1(0|0)、雑音(スカラー)の共分散r
εp1(n+1)の値、観測遷移ベクトルm
p1、時刻nのカウンタの初期値、状態遷移行列Φ
p1、および駆動源ベクトルの共分散R
δp1(n+1)[i,j]の値を、次の式(32)に示すようにそれぞれ設定する。
【0140】
【数32】
【0141】
ただし、行列Iは、単位行列である。また、σ
v2は、雑音ε
p1(n)(=v(n))の雑音分散であり、既知と仮定している。ここでいう「既知」とは、別の任意の方法(アルゴリズム)で求められて与えられることを意味する。もし雑音ε
p1(n)が白色雑音でありゼロ平均であれば、σ
v2は、上記の式(6)で与えられる。
【0142】
次に、第1の相関演算部としての相関演算部154で、n→(n+1)の推定誤差の相関値(ベクトル)を計算する(ST1100)。具体的には、相関演算部154において、時刻nのみの観測信号に対して、時刻nまでの情報により時刻n+1の状態ベクトルを推定した場合の誤差(所望信号の推定誤差ベクトル)の相関行列P
p1(n+1|n)を計算する。この計算は、ステップST1000でそれぞれ設定した状態遷移行列Φ
p1および駆動源ベクトルの共分散R
δp1(n+1)[i,j]の値、ならびに、ステップST1000で設定した(n=0の場合)または前回のステップST1600で計算した(n≧1の場合)所望信号の推定誤差ベクトルの相関行列P
p1(n|n)を用いて、次の式(33)により行う。なお、このステップST1100は、
図21の反復過程の手順1に相当する。
【0143】
【数33】
【0144】
次に、重み係数算出部156で、重み係数(ベクトル)の計算を行う(ST1200)。具体的には、重み係数算出部156において、時刻nのみの観測信号に対して、観測量である観測信号の推定誤差(スカラー)に重み係数(行列)をかけて、時刻nまでの情報による時刻n+1での所望信号の最適推定値ベクトルx
p1(n+1|n)を加えたものが、時刻n+1までの情報による当該時刻での所望信号の最適推定値ベクトルx
p1(n+1|n+1)になるような、その重み係数ベクトルk
p1(n+1)を計算する。この計算は、ステップST1100で計算した所望信号の推定誤差ベクトルの相関行列P
p1(n+1|n)、ならびに、ステップST1000でそれぞれ設定した観測遷移ベクトルm
p1および雑音の共分散r
εp1(n+1)の値を用いて、次の式(34)により行う。なお、このステップST1200は、
図21の反復過程の手順2に相当する。
【0145】
【数34】
【0146】
次に、第1の最適推定値算出部としての最適推定値算出部158で、n→(n+1)の状態量(所望信号)の最適推定値(ベクトル)を計算する(ST1300)。具体的には、最適推定値算出部158において、時刻nのみの観測信号に対して、時刻nまでの情報による時刻n+1での所望信号の最適推定値ベクトルx
p1(n+1|n)を計算する。この計算は、ステップST1000で設定した状態遷移行列Φ
p1、および、前回のステップST1400で計算した所望信号の最適推定値ベクトルx
p1(n|n)を用いて、次の式(35)により行う。なお、このステップST1300は、
図21の反復過程の手順3に相当する。
【0147】
【数35】
【0148】
次に、第2の最適推定値算出部としての最適推定値算出部158で、(n+1)→(n+1)の状態量(所望信号)の最適推定値(ベクトル)を計算する(ST1400)。具体的には、最適推定値算出部158において、時刻nのみの観測信号に対して、時刻n+1までの情報による当該時刻での所望信号の最適推定値ベクトルx
p1(n+1|n+1)を計算する。この計算は、ステップST1300で計算した所望信号の最適推定値ベクトルx
p1(n+1|n)、ステップST1200で計算した重み係数ベクトルk
p1(n+1)、ステップST1000で設定した観測遷移ベクトルm
p1、および時刻n+1における観測信号y
p1(n+1)を用いて、次の式(36)により行う。なお、このステップST1400は、
図21の反復過程の手順4に相当する。
【0149】
【数36】
【0150】
次に、処理を終了するか否かを判断する(ST1500)。この判断は、例えば、時刻nが所定のサンプル数Nに達したか否かを判定することによって行う。この判断の結果として、時刻nが所定のサンプル数Nに達していない場合は(ST1500:NO)、ステップST1600に進み、時刻nが所定のサンプル数Nに達した場合は(ST1500:YES)、ステップST1800に進む。なお、判断の基準は、上記の例に限定されない。例えば、リアルタイムで処理を行う場合は、時刻nが所定のサンプル数Nに達していなくても、サンプルがなくなった時点で処理を終了するようにしてもよい。
【0151】
ステップST1600では、第2の相関演算部としての相関演算部154で、(n+1)→(n+1)の推定誤差の相関値(ベクトル)を計算する。具体的には、相関演算部154において、時刻nのみの観測信号に対して、時刻n+1までの情報により当該時刻の状態ベクトルを推定した場合の誤差(所望信号の推定誤差ベクトル)の相関行列P
p1(n+1|n+1)を計算する。この計算は、ステップST1200で計算した重み係数ベクトルk
p1(n+1)、ステップST1000で設定した観測遷移ベクトルm
p1、およびステップST1100で計算した所望信号の推定誤差ベクトルの相関行列P
p1(n+1|n)を用いて、次の式(37)により行う。なお、このステップST1600は、
図19の反復過程の手順5に相当する。
【0152】
【数37】
【0153】
次に、ステップST1700では、時刻nのカウンタを1だけインクリメントして(n=n+1)、ステップST1100に戻る。
【0154】
一方、ステップST1800では、本アルゴリズムの計算結果を出力値として一時保存する。具体的には、ステップST1400で計算した所望信号の最適推定値ベクトルx
p1(n+1|n+1)を、本アルゴリズムの出力値として雑音抑圧処理部150内に一時保存する。
【0155】
このように、発明手法1においても、従来手法3と同様に、AR係数の推定を必要としない新しい状態空間モデルを構成しているため、1段階処理で雑音抑圧が可能となる。
【0156】
また、従来手法3と同様に、発明手法1のアルゴリズムは、従来手法1とは異なり、駆動源が有色であっても実行することができる。すなわち、従来手法1で述べたように、カルマンフィルタ理論を用いるためには、駆動源δ
p1(n+1)が白色性であり、かつ、音声信号(所望信号)からなる状態量x
p1(n+1)と雑音v(n)とが無相関でなければならない。しかし、発明手法1の状態空間モデルにおける状態方程式の駆動源δ
p1(n+1)は、上記の式(31)に示すように、有色信号である音声信号d(n+1)を含んでいる。したがって、一般にカルマンフィルタ理論を適用することはできないものの、発明手法1のアルゴリズムは、駆動源が有色であるにもかかわらず、実行することができる。
【0157】
以下では、駆動源が有色信号である発明手法1の有効性、つまり、駆動源が有色であるにもかかわらず発明手法1のアルゴリズムを実行できる理由を説明する。なお、以下の表記において、行列内を灰色に塗り潰した部分は、駆動源の影響がある部分とし、塗り潰していない部分は、駆動源の影響がない部分とする。また、更新回数nにおける各手順において、P
p1(n|n)、x
p1(n|n)は、Q
p1(n+1)の影響を最大限に見積るために、これらのすべての要素に行列Q
p1(n+1)の影響が含まれていることを仮定する。すなわち、P
p1(n|n)、x
p1(n|n)のすべての要素は灰色で表される。
【0158】
駆動源δ
p1が有色信号という条件の下で、時刻nまでの情報により時刻n+1の状態ベクトルx
p1(n+1|n)を推定した場合の誤差(所望信号の推定誤差ベクトル)の相関行列P
p1(n+1|n)は、次の式(38)と書き表される。
【0159】
【数38】
【0160】
ただし、L
p1×L
p1次の行列R
δp1(n+1)とL
p1×L
p1次の行列Q
p1(n+1)は、次の式(39)のように置くことにする。
【0161】
【数39】
【0162】
行列P
p1(n+1|n)に対して、駆動源の影響を受ける部分は、次の式(40)に示すものとなる。
【0163】
【数40】
【0164】
ただし、{e
i(n)}は、次の式(41)である。
【0165】
【数41】
【0166】
行列P
p1(n+1|n)の結果を用いて、ベクトルk
p1(n+1)に対する駆動源の影響部分は、次の式(42)に示すものとなる。
【0167】
【数42】
【0168】
また、次の式(43)を定義すると、最適推定値ベクトルx
p1(n+1|n)に対する駆動源の影響部分は、次の式(44)に示すものとなる。
【0169】
【数43】
【0170】
【数44】
【0171】
したがって、最適推定値ベクトルx
p1(n+1|n+1)に対する駆動源の影響部分は、次の式(45)のように書き表される。
【0172】
【数45】
【0173】
復元された信号は、最適推定値ベクトルx
p1(n+1|n+1)の1行1列目の要素、つまり、最適推定値x
p1(n+1|n+1)[1,1]であるため、発明手法1は、有色性の駆動源に対して影響はないといえる。
【0174】
同様に、所望信号の誤差推定ベクトルの相関行列P
p1(n+1|n+1)に対する駆動源の影響部分は、次の式(46)のように書き表される。
【0175】
【数46】
【0176】
以上のことから、復元された信号は、有色駆動源の影響を受けないことが明らかとなった。また、これらの議論は、n回目の更新に限らず、すべての更新回数においても成立する。それゆえ、新に発明した有色駆動源を含んだ状態空間モデルの有効性は明らかである。
【0177】
<発明手法2>
上記のように、発明手法1は、従来手法3と比べて、非常に少ない演算量で雑音抑圧を実現することができる。しかし、発明手法1のアルゴリズムを精査してみると、発明手法1のアルゴリズムは、今まだ余分な計算を含んでいる、つまり、計算する必要のない部分についても演算を行っている。このことは、演算量の増加や不必要な演算誤差などを引き起こす原因になる可能性がある。
【0178】
そこで、発明手法2では、所望信号の推定に必要な部分のみ、つまり、取り出す推定信号のみに着目して、発明手法1のアルゴリズムの一部の演算を省略するようにしている。具体的には、発明手法2では、復元された所望信号(例えば、音声信号)、つまり、所望信号の最適推定値x
p1(n+1|n+1)[1,1]のみに着目することにより、発明手法1に対して、さらなる演算量の軽減を図るようにしている。
【0179】
すなわち、復元された所望信号x
p1(n+1|n+1)[1,1]に着目すると、これは、次の式(47)および式(48)と書き表される。
【0180】
【数47】
【0181】
【数48】
【0182】
このとき、y
p1(n+1)は観測信号であり既知であるため、復元された所望信号x
p1(n+1|n+1)[1,1]を得るためには、重み係数ベクトルk
p1(n+1)の1行1列目の要素のみ必要となる。
【0183】
重み係数ベクトルk
p1(n+1)は、下記の式(49)と書き表されるため、重み係数ベクトルk
p1(n+1)の1行1列目の要素は、次の式(50)で得ることが可能である。
【0184】
【数49】
【0185】
【数50】
【0186】
同様に、重み係数k
p1(n+1)[1,1]を得るためには、所望信号の推定誤差ベクトルの相関行列P
p1(n+1|n)の1行1列目の要素が必要となる。したがって、この行列P
p1(n+1|n)は、下記の式(51)と書き表されるため、この行列P
p1(n+1|n)の1行1列目の要素は、次の式(52)により得られる。
【0187】
【数51】
【0188】
【数52】
【0189】
図24〜
図26は、発明手法2の導出方法を視覚的に示す段階別説明図である。上記した発明手法2の導出方法を視覚的に説明すると、
図24〜
図26に示す通りである。
【0190】
以上のことから、発明手法1から余分な演算を取り除いた発明手法2のアルゴリズムは、
図27で与えられる。なお、添え字「p2」は、発明手法2に係るものであることを示している。また、
図28は、発明手法2のアルゴリズムの利点を視覚的にまとめた説明図である。
【0191】
発明手法2のアルゴリズムは、
図27に示すように、初期設定(Initialization)の過程と反復(Iteration)の過程とに大別され、反復過程は、従来手法3や発明手法1の場合(
図10、
図21参照)と同様にAR係数の推定を用いないように、かつ、従来手法3や発明手法1の場合(
図10、
図21参照)よりも演算量が軽減されるように、処理手順が構成されている。反復過程では、1〜3の手順を逐次繰り返す。すなわち、発明手法2の反復過程の手順の数は、従来手法3や発明手法1と比較して、5ステップから3ステップに低減されている。なお、発明手法2は、発明手法1の演算の一部を省略したものであり、その状態空間モデル(状態方程式と観測方程式)は、発明手法1と同様である。
【0192】
図29は、
図27のアルゴリズムを実行する処理手順を示すフローチャートである。
【0193】
まず、初期設定部152で、初期設定を行う(ST2000)。具体的には、初期設定部152において、雑音(スカラー)の共分散r
εp2(n+1)の値、時刻nのカウンタの初期値、および駆動源(スカラー)の共分散r
δp2(n+1)の値を、次の式(53)に示すようにそれぞれ設定する。
【0194】
【数53】
【0195】
ただし、σ
v2は、雑音ε
p2(n)(=v(n))の雑音分散であり、既知と仮定している。ここでいう「既知」とは、別の任意の方法(アルゴリズム)で求められて与えられることを意味する。もし雑音ε
p2(n)が白色雑音でありゼロ平均であれば、σ
v2は、上記の式(6)で与えられる。
【0196】
次に、相関演算部154で、n→(n+1)の推定誤差の相関値(スカラー)を計算する(ST2100)。具体的には、相関演算部154において、時刻nのみの観測信号に対して、時刻nまでの情報により時刻n+1の状態ベクトルを推定した場合の誤差(所望信号の推定誤差ベクトル)の相関行列P
p2(n+1|n)の1行1列目の要素、つまり、スカラーであるP
p2(n+1|n)[1,1]を計算する。この計算は、ステップST2000で設定した駆動源(スカラー)の共分散r
δp2(n+1)の値を用いて、次の式(54)により行う。なお、このステップST2100は、
図27の反復過程の手順1に相当する。
【0197】
【数54】
【0198】
次に、重み係数算出部156で、重み係数(スカラー)の計算を行う(ST2200)。具体的には、重み係数算出部156において、時刻nのみの観測信号に対して、観測量である観測信号の推定誤差(スカラー)に重み係数(スカラー)をかけて、時刻nまでの情報による時刻n+1での所望信号の最適推定値ベクトルx
p2(n+1|n)を加えたものが、時刻n+1までの情報による当該時刻での所望信号の最適推定値ベクトルx
p2(n+1|n+1)になるような、その重み係数ベクトルk
p2(n+1)の1行1列目の要素、つまり、スカラーであるk
p2(n+1)[1,1]を計算する。この計算は、ステップST2100で計算した所望信号の推定誤差ベクトルの相関行列P
p2(n+1|n)の1行1列目の要素であるP
p2(n+1|n)[1,1]、および、ステップST2000で設定した雑音の共分散r
εp2(n+1)の値を用いて、次の式(55)により行う。なお、このステップST2200は、
図25の反復過程の手順2に相当する。
【0199】
【数55】
【0200】
次に、最適推定値算出部158で、(n+1)→(n+1)の状態量(所望信号)の最適推定値(スカラー)を計算する(ST2300)。具体的には、最適推定値算出部158において、時刻nのみの観測信号に対して、時刻n+1までの情報による当該時刻での所望信号の最適推定値ベクトルのx
p2(n+1|n+1)の1行1列目の要素、つまり、所望信号の最適推定値x
p2(n+1|n+1)[1,1]を計算する。この計算は、ステップST2200で計算した重み係数k
p2(n+1)[1,1]、および、時刻n+1における観測信号y
p2(n+1)を用いて、次の式(56)により行う。なお、このステップST2300は、
図27の反復過程の手順3に相当する。
【0201】
【数56】
【0202】
次に、処理を終了するか否かを判断する(ST2400)。この判断は、例えば、時刻nが所定のサンプル数Nに達したか否かを判定することによって行う。この判断の結果として、時刻nが所定のサンプル数Nに達していない場合は(ST2400:NO)、ステップST2500に進み、時刻nが所定のサンプル数Nに達した場合は(ST2400:YES)、ステップST2600に進む。なお、判断の基準は、上記の例に限定されない。例えば、リアルタイムで処理を行う場合は、時刻nが所定のサンプル数Nに達していなくても、サンプルがなくなった時点で処理を終了するようにしてもよい。
【0203】
ステップST2500では、時刻nのカウンタを1だけインクリメントして(n=n+1)、ステップST2100に戻る。
【0204】
一方、ステップST2600では、本アルゴリズムの計算結果を出力値として一時保存する。具体的には、ステップST2300で計算した所望信号の最適推定値x
p2(n+1|n+1)[1,1]を、本アルゴリズムの出力値として雑音抑圧処理部150内に一時保存する。
【0205】
このように、発明手法2においても、従来手法3や発明手法1と同様に、AR係数の推定を必要としない新しい状態空間モデルを構成しているため、1段階処理で雑音抑圧が可能となる。
【0206】
また、発明手法2では、発明手法1と比較して、さらなるスカラー化が図られ、反復過程の手順の数が5ステップから3ステップに低減されているため、演算量のさらなる軽減を実現することができる(
図28参照)。
【0207】
また、発明手法2では、発明手法1と比較して、観測遷移ベクトルmや状態遷移行列Φを設定する必要がないため(
図27の初期設定、式(53)参照)、反復過程の手順の数の低減に伴う演算量の軽減と相俟って、メモリ容量の大幅な削減を図ることができる。
【0208】
次に、発明手法1および発明手法2の演算量の削減効果について説明する。
【0209】
図30は、上記各手法の演算量を説明するための図であり、特に、
図30Aは、従来手法1の場合、
図30Bは、従来手法3の場合、
図30Cは、発明手法1の場合、
図30Dは、発明手法2の場合をそれぞれ示している。また、
図31および
図32は、次数と演算量との関係を示すグラフであり、特に、
図31は、主に従来手法1と従来手法3および発明手法1〜2との比較を示すグラフ図であり、
図32は、従来手法3と発明手法1〜2との比較を示すグラフ図である。
【0210】
図30〜
図32において、演算量は、乗算の回数によって表される。図中の「L
c1」は、AR係数の次数であり、「L
c3」および「L
p」は、状態遷移行列のサイズである。ここでは、便宜上、L
c1とL
c3をまとめて「L
c」と表記する。また、「L
p」は、発明手法1および発明手法2における状態遷移行列のサイズL
p1、L
p2をまとめて表記したものである。例えば、従来手法1の場合、
図30Aに示すように、アルゴリズムの反復過程の手順1〜5の演算量は、順に、2L
c12、L
c1、L
c1、L
c1、L
c12であり、その合計は、3L
c12+3L
c1である。また、従来手法3の場合、
図30Bに示すように、アルゴリズムの反復過程の手順1〜5の演算量は、順に、0、L
c3−1、0、L
c3−1、L
c3−1であり、その合計は、3L
c3−3である。また、発明手法1の場合、
図30Cに示すように、アルゴリズムの反復過程の手順1〜5の演算量は、順に、0、1、0、1、1であり、その合計は、3である。また、発明手法2の場合、
図30Dに示すように、アルゴリズムの反復過程の手順1〜3の演算量は、順に、0、1、1であり、その合計は、2である。
【0211】
したがって、従来手法1では、AR係数の次数L
c1の2乗に比例して演算量が著しく増大し(
図31参照)、従来手法3では、状態遷移行列のサイズL
c3に比例して演算量が増大するのに対し(
図32参照)、発明手法1および発明手法2では、状態遷移行列のサイズL
pに関係なくそれぞれ演算量が一定であることがわかる(
図32参照)。すなわち、演算量の大小に関して、従来手法1>従来手法3>発明手法1>発明手法2である。特に、従来手法1と従来手法3および発明手法1〜2とを比較した場合、
図31に示すように、従来手法3および発明手法1〜2は、従来手法1に比べて演算量が大幅に軽減されている。さらに、従来手法3と発明手法1〜2とを比較した場合、
図32に示すように、発明手法1および発明手法2は、従来手法3に比べて演算量がさらに大幅に軽減されている。また、図示しないが、このような演算量の削減によって、上記のように、メモリ容量も大幅に削減される。
【0212】
また、本発明者は、本発明の効果(発明手法1〜2の有効性)を実証するために実験を行った。具体的には、発明手法1〜2の雑音抑圧能力を評価するために、音声信号を用いて、客観的評価と主観的評価を行った。客観的評価は、(1)波形による評価(音声波形のシミュレーション)と(2)数値による評価である。前者は、いわば見た目による評価であり、後者は、能力(雑音抑圧能力)の評価である。また、主観的評価は、(3)聞き取り調査である。これは、いわば音質の評価である。これらの実験では、本発明が、カルマンフィルタに基づく従来の雑音抑圧方法のみならずカルマンフィルタ以外の他の原理に基づく従来の雑音抑圧方法に対しても格別の作用効果を有することを実証するために、従来手法1〜3と発明手法1〜2とを比較した。以下、順に説明する。
【0213】
(1)客観的評価(波形による評価)
図33は、各手法の音声波形シミュレーションの第1の例を説明するための図、
図34は、各手法の音声波形シミュレーションの第2の例を説明するための図、
図35は、各手法の音声波形シミュレーションの第3の例を説明するための図、
図36は、各手法の音声波形シミュレーションの第4の例を説明するための図である。
【0214】
シミュレーション条件は、次の通りである。
【0215】
本シミュレーションでは、2つの音声信号と2つの雑音を用いる。一方の音声信号は、クリアな信号(音声信号)として、成人男性の音声を無音室で録音したものであり、音声(A−1)と称する。もう一方の音声信号は、クリアな信号(音声信号)として、成人女性の音声を無音室で録音したものであり、音声(A−2)と称する。また、一方の雑音は、ガウス性白色雑音(つまり、白色ガウス雑音)であり、雑音(B−1)と称する。もう一方の雑音は、バブル雑音(有色雑音)であり、雑音(B−2)と称する。2つの雑音は、いずれも、分散σ
v2は既知である、つまり、別の任意の方法(アルゴリズム)で求められて与えられるとする。
【0216】
また、信号雑音比SNR
inを、次の式(57)で定義する。
【0217】
【数57】
【0218】
図33は、音声(A−1)と雑音(B−1)の組み合わせにおける音声波形シミュレーションの結果を示す図であり、例えば、SNR
in=10dB、L
c=L
p=50(Lは状態遷移行列またはベクトルのサイズ)の条件における各種波形を示している。具体的には、
図33Aは、音声(A−1)の波形を示し、
図33Bは、雑音(B−1)の波形を示し、
図33Cは、音声(A−1)と雑音(B−1)の合成波形(観測信号)を示している。また、
図33Dは、音声(A−1)と雑音(B−1)の合成波形に対して従来手法1による雑音抑圧を行った場合の推定音声信号の波形を示し、
図33Eは、音声(A−1)と雑音(B−1)の合成波形に対して従来手法2による雑音抑圧を行った場合の推定音声信号の波形を示し、
図33Fは、音声(A−1)と雑音(B−1)の合成波形に対して従来手法3による雑音抑圧を行った場合の推定音声信号の波形を示し、
図33Gは、音声(A−1)と雑音(B−1)の合成波形に対して発明手法1による雑音抑圧を行った場合の推定音声信号の波形を示し、
図33Hは、音声(A−1)と雑音(B−1)の合成波形に対して発明手法2による雑音抑圧を行った場合の推定音声信号の波形を示している。
【0219】
図34は、音声(A−2)と雑音(B−1)の組み合わせにおける音声波形シミュレーションの結果を示す図であり、例えば、上記と同様に、SNR
in=10dB、L
c=L
p=50の条件における各種波形を示している。具体的には、
図34Aは、音声(A−2)の波形を示し、
図34Bは、雑音(B−1)の波形を示し、
図34Cは、音声(A−2)と雑音(B−1)の合成波形(観測信号)を示している。また、
図34Dは、音声(A−2)と雑音(B−1)の合成波形に対して従来手法1による雑音抑圧を行った場合の推定音声信号の波形を示し、
図34Eは、音声(A−2)と雑音(B−1)の合成波形に対して従来手法2による雑音抑圧を行った場合の推定音声信号の波形を示し、
図34Fは、音声(A−2)と雑音(B−1)の合成波形に対して従来手法3による雑音抑圧を行った場合の推定音声信号の波形を示し、
図34Gは、音声(A−2)と雑音(B−1)の合成波形に対して発明手法1による雑音抑圧を行った場合の推定音声信号の波形を示し、
図34Hは、音声(A−2)と雑音(B−1)の合成波形に対して発明手法2による雑音抑圧を行った場合の推定音声信号の波形を示している。
【0220】
図35は、音声(A−1)と雑音(B−2)の組み合わせにおける音声波形シミュレーションの結果を示す図であり、例えば、上記と同様に、SNR
in=10dB、L
c=L
p=50の条件における各種波形を示している。具体的には、
図35Aは、音声(A−1)の波形を示し、
図35Bは、雑音(B−2)の波形を示し、
図35Cは、音声(A−1)と雑音(B−2)の合成波形(観測信号)を示している。また、
図35Dは、音声(A−1)と雑音(B−2)の合成波形に対して従来手法1による雑音抑圧を行った場合の推定音声信号の波形を示し、
図35Eは、音声(A−1)と雑音(B−2)の合成波形に対して従来手法2による雑音抑圧を行った場合の推定音声信号の波形を示し、
図35Fは、音声(A−1)と雑音(B−2)の合成波形に対して従来手法3による雑音抑圧を行った場合の推定音声信号の波形を示し、
図35Gは、音声(A−1)と雑音(B−2)の合成波形に対して発明手法1による雑音抑圧を行った場合の推定音声信号の波形を示し、
図35Hは、音声(A−1)と雑音(B−2)の合成波形に対して発明手法2による雑音抑圧を行った場合の推定音声信号の波形を示している。
【0221】
図36は、音声(A−2)と雑音(B−2)の組み合わせにおける音声波形シミュレーションの結果を示す図であり、例えば、上記と同様に、SNR
in=10dB、L
c=L
p=50の条件における各種波形を示している。具体的には、
図36Aは、音声(A−2)の波形を示し、
図36Bは、雑音(B−2)の波形を示し、
図36Cは、音声(A−2)と雑音(B−2)の合成波形(観測信号)を示している。また、
図36Dは、音声(A−2)と雑音(B−2)の合成波形に対して従来手法1による雑音抑圧を行った場合の推定音声信号の波形を示し、
図36Eは、音声(A−2)と雑音(B−2)の合成波形に対して従来手法2による雑音抑圧を行った場合の推定音声信号の波形を示し、
図36Fは、音声(A−2)と雑音(B−2)の合成波形に対して従来手法3による雑音抑圧を行った場合の推定音声信号の波形を示し、
図36Gは、音声(A−2)と雑音(B−2)の合成波形に対して発明手法1による雑音抑圧を行った場合の推定音声信号の波形を示し、
図36Hは、音声(A−2)と雑音(B−2)の合成波形に対して発明手法2による雑音抑圧を行った場合の推定音声信号の波形を示している。
【0222】
まず、
図33Aと
図33D、および、
図34Aと
図34Dをそれぞれ比較することにより、従来手法1による雑音抑圧では、雑音抑圧後に推定音声信号の振幅が小さくなっており、クリアな信号(音声信号)が抑圧されていることがわかる。また、従来手法1による雑音抑圧では、サンプル数の増加と共に、雑音抑圧後の推定音声信号の波形がクリアな信号(音声信号)の波形から変形していることがわかる。
【0223】
また、特に
図34Aと
図34Dの比較から、従来手法1の雑音抑圧では、無声区間を有する音声(A−2)に対して、推定音声信号が抑圧されるだけでなく、無声区間においてオリジナルの雑音とは異なる雑音が観察されている。これは、従来手法1では、無声区間において音声信号d(n)は0であるにもかかわらず、上記の式(2)でAR係数を求めようとするためにAR係数の値が発散し、不安定な状態を与えるからであると推測される。
【0224】
また、このことから、雑音が有色の場合、従来手法1の適用は困難であろうことは容易に推測される。
【0225】
これに対し、発明手法1〜2による雑音抑圧では、従来手法1と対照的に、雑音抑圧後の推定音声信号の波形は、いずれの場合においても、クリアな信号(音声信号)の波形と非常に似ている。
【0226】
次に、
図35Aと
図35D、および、
図36Aと
図36Dをそれぞれ比較することにより、従来手法1による雑音抑圧では、雑音(B−2)を含む観測音声信号に対して、非常に劣った結果を与えていることがわかる。これは、従来手法1では、有色雑音である雑音(B−2)を含んだ観測音声信号に対してAR係数を正確に推定することが困難であるためである。
【0227】
これに対し、発明手法1〜2による雑音抑圧法では、従来手法1と対照的に、雑音(B−2)の場合も、雑音(B−1)の場合と同程度の雑音抑圧が達成されている。
【0228】
このように、本発明の雑音抑制方法(発明手法1〜2)は、白色雑音か有色雑音かにかかわらず、また、無声区間の有無にかかわらず、有効である。これは、本発明の雑音抑制方法の大きな特徴の1つである。
【0229】
(2)客観的評価(数値による評価)
図37は、各手法の雑音抑圧能力の数値シミュレーションの第1の例の結果を示す図、
図38は、各手法の雑音抑圧能力の数値シミュレーションの第2の例の結果を示す図、
図39は、各手法の雑音抑圧能力の数値シミュレーションの第3の例の結果を示す図、
図40は、各手法の雑音抑圧能力の数値シミュレーションの第4の例の結果を示す図である。
【0230】
本シミュレーションでは、雑音抑制能力を数値により評価するため、次の式(58)で表されるSNR
out[dB]を用いて雑音抑圧量を評価した。なお、SNRは、信号に対する雑音の比であり、数値が大きいほど雑音が少なく音声として良好であるといえる。また、
図37〜
図40において、「L」は、上記の「L
c」と「L
p」をまとめて表記したものである。
【0231】
【数58】
【0232】
すなわち、
図37は、音声(A−1)と雑音(B−1)の組み合わせにおける雑音抑圧能力の数値シミュレーションの結果を示す図であり、成人男性の音声、白色雑音の条件における雑音抑圧量SNR
outを示している。
図38は、音声(A−2)と雑音(B−1)の組み合わせにおける雑音抑圧能力の数値シミュレーションの結果を示す図であり、成人女性の音声、白色雑音の条件における雑音抑圧量SNR
outを示している。
図39は、音声(A−1)と雑音(B−2)の組み合わせにおける雑音抑圧能力の数値シミュレーションの結果を示す図であり、成人男性の音声、有色雑音の条件における雑音抑圧量SNR
outを示している。
図40は、音声(A−2)と雑音(B−2)の組み合わせにおける雑音抑圧能力の数値シミュレーションの結果を示す図であり、成人女性の音声、有色雑音の条件における雑音抑圧量SNR
outを示している。また、4つのいずれの場合においても、SNR
inと状態遷移行列またはベクトルのサイズLとのいくつかの値の組み合わせに対して、従来手法1〜3と発明手法1〜2によるSNR
outの値を比較して示している。なお、発明手法1と発明手法2の結果はほぼ同じであるため、ここでは、便宜上、両者をまとめて「発明手法1&2」と表記している。
【0233】
図37〜
図40を参照すると、発明手法1〜2は、すべてのSNR
in、L
pの値において、従来手法1〜3に比べて雑音抑圧能力を改善していることがわかる。
【0234】
特に、
図39および
図40に示す有色雑音の場合には、従来手法1は非常に劣った結果を与えているのに対し、発明手法1〜2は、
図37および
図38に示す白色雑音の場合と同程度の結果を示している。すなわち、発明手法1〜2は、白色雑音と有色雑音の両者に効果的で、雑音の性質に堅牢な雑音抑圧方法であるといえる。
【0235】
また、
図37〜
図40に見られるように、発明手法1〜2では、L
pの値に対して雑音抑圧能力SNR
outは安定であり、L
pの値の増加に伴い増加する傾向にある。これと対照的に、従来手法1では、
図37〜
図40に見られるように、L
cの値に対して雑音抑圧能力SNR
outは不安定である。これは、従来手法1では、最適なL
cの値、つまりAR係数の次数を決定することが困難であることを意味している。
【0236】
AR係数の推定を必要とする従来手法1において最も問題になることは、一般に、AR係数の次数の決定は非常に困難であるということである。なぜなら、AR係数の次数の正確な推定は、例えば、雑音抑圧であれば、クリアな信号(音声信号)に依存しているからである。
【0237】
このことは、クリアな信号(音声信号)が既知でなければならないことを意味しているため、リアルタイム処理は困難となる。AR係数の次数が適切でない場合には、カルマンフィルタアルゴリズムの性能が劣化することは容易に想像可能である。また、何らかの手法でリアルタイムに推定することが可能となったとしても、処理が増加することより演算量などの問題を避けることは不可能である。
【0238】
さらに、
図37〜
図40に見られるように、従来手法3と発明手法1〜2とを比較した場合、発明手法1および発明手法2は、4つのいずれの場合においても、従来手法3に比べて雑音抑圧能力が高いといえる。特に、SNR
in、L
pの値の値が小さいほど、発明手法1および発明手法2は、従来手法3よりも高い雑音抑圧能力を発揮することがわかる。このような雑音抑圧能力の違いは、演算量の違いに起因するものと考えられる。すなわち、演算量が少ないほど、誤差の発生が少なくなり、雑音抑圧能力の向上に資するものと考えられる。
【0239】
また、
図37〜
図40に見られるように、従来手法2と発明手法1〜2とを比較した場合、発明手法1および発明手法2は、4つのいずれの場合においても、従来手法3との比較の場合にも増して、従来手法2に比べて雑音抑圧能力が高いといえる。従来手法2は、音声に特化したパラメータの設定を必要とするが、この実験の結果は、実環境では、そのパラメータの設定が非常に困難であることを示している。
【0240】
(3)主観的評価(聞き取り調査)
図41は、各手法の主観的評価の第1の例の結果を示す図、
図42は、各手法の主観的評価の第2の例の結果を示す図、
図43は、各手法の主観的評価の第3の例の結果を示す図、
図44は、各手法の主観的評価の第4の例の結果を示す図である。
【0241】
ここでは、推定音声信号の音声品質を評価するために、リスニングテスト(聞き取り調査)による主観的評価を行った。音声品質評価に用いた音声信号と雑音は、上記のシミュレーション(客観的評価)に用いたものと同一である。雑音は、異なるSNR
in(=0、5[dB])で音声信号に加えた。また、音声品質評価は、ACR(絶対範疇評価)に基づく5段階MOS(平均オピニオン値)を用いたリスニングテストにより行った。50人の聴取者が雑音抑圧により得られた推定音声信号のうちいくつかを評価した。各々の聴取者は、ポイント1からポイント5を決定する。ポイント5が最良である。
【0242】
図41は、音声(A−1)と雑音(B−1)の組み合わせにおける雑音抑圧後の音声品質の主観的評価結果の一例を示す図であり、例えば、L
c=L
p=50の条件における各手法のリスニングテストの結果を示している。
図42は、音声(A−2)と雑音(B−1)の組み合わせにおける雑音抑圧後の音声品質の主観的評価結果の一例を示す図であり、例えば、L
c=L
p=50の条件における各手法のリスニングテストの結果を示している。
図43は、音声(A−1)と雑音(B−2)の組み合わせにおける雑音抑圧後の音声品質の主観的評価結果の一例を示す図であり、例えば、L
c=L
p=50の条件における各手法のリスニングテストの結果を示している。
図44は、音声(A−2)と雑音(B−2)の組み合わせにおける雑音抑圧後の音声品質の主観的評価結果の一例を示す図であり、例えば、L
c=L
p=50の条件における各手法のリスニングテストの結果を示している。なお、客観的評価のみならず主観的評価においても発明手法1と発明手法2の評価結果はほぼ同じであるため、ここでも、便宜上、両者をまとめて「発明手法1&2」と表記している。
【0243】
図41〜
図44から、発明手法1〜2で推定した音声信号のスコアは、すべてのSNR
inの値において、従来手法1〜3のスコアよりも高いことがわかる。特に、従来手法1〜2との比較において、発明手法1〜2と従来手法1〜2との差は、音声(A−2)と雑音(B−1)の組み合わせ、音声(A−1)と雑音(B−2)の組み合わせ、および音声(A−2)と雑音(B−2)の組み合わせに対して大きい。すなわち、発明手法1〜2では、従来手法1〜2に比べて音質が大幅に改善されている。
【0244】
また、従来手法3との比較においても、発明手法1および発明手法2は、4つのいずれの場合においても、従来手法3に比べて主観的評価も高いといえる。
【0245】
以上の実験結果により、本発明の雑音抑圧方法(発明手法1〜2)は、音声信号の音声品質を犠牲にすることのない、白色雑音および有色雑音に効果的な優れた雑音抑圧方法であるといえる。特に、従来手法3との比較において、発明手法1および発明手法2は、従来手法3に比べて、数値による客観的評価が高く、より高い雑音抑圧能力を実現しているといえる。
【0246】
以上をまとめると、本発明に係る雑音抑圧方法(発明手法1〜2)は、新しい状態空間モデル(特に観測方程式)を構成することによって、従来手法1〜3に比べて、演算量を大幅に軽減することが可能である。具体的には、発明手法1〜2は、まず、AR係数の推定を必要としないため、従来手法1で必要であったAR係数を推定するステップを削減することができ、従来手法1に比べて演算量を大幅に軽減することができる(
図30、
図31参照)。また、上記のように、発明手法1〜2は、従来手法1と異なり、白色雑音か有色雑音かにかかわらず、また、無声区間の有無にかかわらず、有効であり、従来手法1に比べて、客観的にも主観的にも高い雑音抑圧能力を実現することができる(
図33〜
図44参照)。また、発明手法1〜2は、従来手法1で必要であったAR係数を推定するステップを必要としないため、ハードウエアとソフトウエアのいずれかで構成するとしても、従来手法1よりも単純化されたシンプルな構成で実現することができる。したがって、発明手法1〜2によれば、よりシンプルな構成で、かつ、より少ない演算量で、所望情報の品質を劣化させることなくより高い雑音抑圧能力を実現することができる。さらに、演算量の大幅な軽減によって、メモリ容量も大幅に削減することができる。また、音声の場合には、音質も大幅に改善することができる。
【0247】
特に、従来手法3との比較においても、発明手法1および発明手法2は、上記のように、従来手法3に比べて、さらに演算量の軽減(
図30、
図32参照)および雑音抑圧能力の向上(特に
図37〜
図40参照)を図ることができ、従来技術3に対しても顕著な効果を有する。さらに、演算量の軽減によってメモリ容量も削減することができ、また、音声の場合には音質も改善することができる。
【0248】
さらに、発明手法2は、上記のように、発明手法1に比べて、さらなるスカラー化が図られ、反復過程の手順の数が5ステップから3ステップに低減されているため、さらに演算量を軽減することができ、また、状態遷移行列Φおよび観測遷移ベクトルmの設定ならびに多くの計算結果の保存が不必要になるため、より一層メモリ容量の削減を図ることができる。
【0249】
また、発明手法1〜2を、例えば、半導体集積回路や半導体回路などのハードウエアとして実施する場合や、パーソナルコンピュータなどで実行可能なソフトウエアとして実施する場合のいずれにおいても、その構成は、従来手法よりも単純化される。したがって、発明手法1〜2を用いれば、回路規模やプログラム量を大幅に低減できるであろうことは明らかである。
【0250】
なお、本発明に係る雑音抑圧装置および雑音抑圧方法は、いろいろな技術分野に適用可能である。
【0251】
例えば、本発明の雑音抑圧装置は、雑音を含む音声信号(観測信号)からクリアな信号(所望信号)としての音声信号を取得することが可能である。この分野の適用例としては、例えば、携帯電話やカーナビゲーション、対話型ロボットなどにおける音声情報処理を挙げることができる。具体的には、一例として、例えば、カーナビゲーションの場合は、カーナビゲーションに必要不可欠な音声認識装置の前処理雑音抑圧装置への適用が考えられる。
【0252】
また、画像処理の分野においては、本発明によれば、何らかの原因でぼけと雑音が入ってしまった劣化画像(観測信号)からぼけと雑音を取り除いた原画像をクリアな信号(所望信号)として取得することが可能であり、画像処理装置として活用可能である。
【0253】
さらに、従来手法が適用されていた通信や信号処理の分野全般にわたって、本発明が適応可能であることはいうまでもない。
【0254】
また、医療分野では、従来、妊婦の胎児の状況を検査するには、個人が購入できない高価な装置と高い専門知識とが必要であったが、本発明によれば、妊婦の体から得られる観測信号(母胎の心拍その他の雑音を含む)から不必要な音(雑音)を抑圧し、胎児の心拍(所望信号)を取得することが可能になり、通院せずとも自宅で胎児の健康状態を、その心拍から容易に確認することが可能となる。また、出産前の胎児のみならず出産後の赤ちゃんの管理にも役立つことが考えられる(周産期医療)。なお、ここで「心拍」とは、広く心臓の動きを意味し、例えば、心音や心電図なども含まれる。
【0255】
また、本実施の形態の説明に用いた各機能要素は、例えば、集積回路として実現される。これらは、個別に1チップ化されてもよいし、一部またはすべてを含むように1チップ化されてもよい。また、集積回路製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)や、回路を構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
【0256】
さらに、本実施の形態は、ハードウエアに限定されるものではなく、ソフトウエアによってもよい。その逆も真である。また、それらの組み合わせであってもよい。
【0257】
上記のように、本発明に係る雑音抑圧装置および雑音抑圧方法は、いろいろな技術分野に適用可能である。そこで、以下では、本発明に係る雑音抑圧装置および雑音抑圧方法の各種分野への具体的な適用例について説明する。ここでは、本発明に係る雑音抑圧装置および雑音抑圧方法を、例えば、音響機器関連(胎児心拍検出装置や携帯電話など)、音声認識装置関連(カーナビゲーションなど)、検査装置関連(異常音検出装置など)、および画像処理装置関連(画像復元装置など)にそれぞれ適用した場合について、具体的に説明する。なお、各適用例において、雑音抑圧処理部は、上記の発明手法1〜2のいずれの手法をも任意に実行することができる。
【0258】
(実施の形態2)
実施の形態2は、実施の形態1に係る雑音抑圧装置を胎児心拍検出装置に適用した場合である。なお、ここで「心拍」とは、上記のように、広く心臓の動きを意味し、例えば、心音や心電図なども含まれる。
【0259】
図45は、本発明の実施の形態2に係る胎児心拍検出装置の構成を示すブロック図である。
【0260】
図45に示す胎児心拍検出装置400は、実施の形態1の雑音抑圧処理(発明手法1〜2)を実行可能なコンピュータ本体410と、マイクロホン420と、信号入力部430と、操作部440と、スピーカ450と、ディスプレイ460とを有する。
【0261】
コンピュータ本体410は、インタフェース部411、記憶部412(記録装置413と主記憶メモリ414からなる)、モデム415、D/A変換器416、雑音抑圧処理部417、胎児心拍解析処理部418、および正常胎児心拍情報記憶部419を有する。雑音抑圧処理部417および胎児心拍解析処理部418は、中央演算処理装置(CPU:Central Processing Unit)で構成されている。コンピュータ本体410は、モデム415を介して外部の通信ネットワーク(例えば、電話回線やLAN、インターネットなど)と接続されている。また、コンピュータ本体410は、D/A変換器416を介してスピーカ450と接続されている。スピーカ450は、例えば、聴診器のスピーカであってもよい。なお、図示しないが、コンピュータ本体410にプリンタを接続することも可能である。
【0262】
コンピュータ本体410において、実施の形態1の雑音抑圧処理を実行させるプログラム(雑音抑圧アルゴリズム)は、記録装置413に格納されていてもよいし、モデム415およびインタフェース部411を介して外部からダウンロードされてきてもよい。記録装置413は、典型的にはハードディスク装置であるが、CD−ROM装置やDVD装置、フラッシュメモリなどの可搬性のあるものであってもよいし、また、それらの組み合わせであってもよい。雑音抑圧処理部417は、そのプログラム(雑音抑圧アルゴリズム)を実行することによって、マイクロホン420により検出された胎児の心拍(雑音を含む)に対して実施の形態1の雑音抑圧処理を実行して胎児の心拍を取得する。
【0263】
信号入力部430は、
図1に示すサンプリング部120およびA/D変換部130を有する。信号入力部430は、コンピュータ本体410の内部に格納された内蔵カード(ボード)であってもよいし、インタフェース部411を経由して接続された外部設置型機器であってもよい。
【0264】
操作部440は、典型的にはキーボートやマウス、タッチパネルなどであるが、音声認識装置などを用いてもよい。使用者は、操作部440を用い、ディスプレイ460で確認をしながらコンピュータを操作することができる。また、操作部440は、パラメータ設定部441を有する。パラメータ設定部441は、使用者の入力操作により、実施の形態1の雑音抑圧処理に必要な各種パラメータの値を設定し、コンピュータ本体410に出力する。
【0265】
胎児心拍解析処理部418は、雑音抑圧処理部417によって取得された胎児の心拍を解析する。例えば、胎児心拍解析処理部418は、与えられた正常胎児心拍情報(胎児の正常心拍)と、雑音抑圧処理部417によって取得された胎児の心拍とを比較して、異常心拍を識別したり症状の診断を行ったりする。この場合、雑音抑圧処理部417は、胎児心拍解析処理部418の前処理としての機能を有する。ここでは、正常胎児心拍情報は、正常胎児心拍情報記憶部419に格納されている。正常胎児心拍情報記憶部419は、例えば、検診対象となる胎児の胎児月齢を操作部440から入力することにより、胎児月齢ごとに正常胎児心拍情報を収集し蓄積する。正常胎児心拍情報は、この正常胎児心拍情報記憶部419から読み出されて胎児心拍解析処理部418に与えられる。
【0266】
マイクロホン420からの観測音声信号は、信号入力部430のサンプリング部120に入力される。サンプリング部120は、所定のサンプリング周波数(例えば、16kHz)で、入力されたアナログの観測音声信号をサンプリング処理し、A/D変換部130に出力する。A/D変換部130は、サンプリングされた観測音声信号の振幅値を所定の分解能(例えば、8bit)でA/D変換処理し、一時格納する。A/D変換部130は、所定のサンプリング数Nの音声フレーム単位で、デジタル化した観測音声信号をコンピュータ本体410のインタフェース部411に出力する。
【0267】
コンピュータ本体410は、インタフェース部411に出力された観測音声信号を一時、記憶部412の主記憶メモリ414に格納し、その後、所定の音声フレーム(サンプリング数)単位で、雑音抑圧処理を施した上で、再度主記憶メモリ414に格納する。雑音抑圧処理は、主記憶メモリ414や記録装置413に格納されたソフトウエアをインタフェース部411経由で雑音抑圧処理部417に呼び出し、実行させることによって行われる。
【0268】
コンピュータ本体410は、使用者の操作により、処理を実行したり、中断、終了させたりする。また、コンピュータ本体410は、使用者の操作により、雑音抑圧処理部417で取得した推定音声信号(胎児の心拍)を、胎児心拍解析処理部418に出力したり、モデム415やスピーカ450、ディスプレイ460などを介して外部に出力してもよい。
【0269】
このように構成された胎児心拍検出装置400は、例えば、検出した胎児の心拍を聴診器のスピーカに出力したり、あるいは、正常心拍との比較で解析した結果をモデム415を介して特定の医療センターに送信したりすることができる。送信を受けた医療センターは、受信した解析結果に基づいて総合判定を行うことができる。また、解析結果については、単独の情報としてディスプレイ460に表示したり、あるいは、前回検診時の心拍データを記憶部412から読み出して両者を対比する形でディスプレイ460に表示させたりすることもできる。また、解析結果を図示しないプリンタに出力して視認することも可能である。
【0270】
このように、本実施の形態によれば、妊婦の体から得られる観測音声信号(母胎の心拍その他の雑音を含む)から不必要な音(雑音)を抑圧し、胎児の心拍(所望信号)を取得することができるため、胎児の健康状態を、その心拍から容易にかつ正確に確認することができる。また、出産前の胎児のみならず出産後の赤ちゃんの管理にも役立つことが考えられる(周産期医療・生体観測)。
【0271】
なお、本実施の形態では、胎児心拍検出装置400は、出力手段として、スピーカ、ディスプレイ、通信手段、記憶装置、およびプリンタ(図示せず)を有するが、これに限定されない。出力手段については、用途や機能などに応じて、適宜、取捨選択すればよい。また、胎児の心拍さえ検出できればよい場合は、胎児心拍解析処理部418および正常胎児心拍情報記憶部419は省略してもよい。
【0272】
また、本実施の形態では、コンピュータ本体410に胎児心拍解析処理部418を設けているが(内蔵タイプ)、もちろんこれに限定されない。胎児心拍解析処理部418は、コンピュータ本体410の外部装置(胎児心拍解析装置)として構成することも可能である(外付けタイプ)。胎児心拍解析処理部418をコンピュータ本体410に組み込むか外部装置(胎児心拍解析装置)として構成するかは、用途やデータ処理量などに応じて任意に決定すればよい。また、この点は、正常胎児心拍情報記憶部419についても同様である。
【0273】
(実施の形態3)
実施の形態3は、実施の形態1に係る雑音抑圧装置を携帯電話などの携帯端末装置に適用した場合である。
【0274】
図46は、本発明の実施の形態3に係る携帯端末装置の構成を示すブロック図である。なお、この携帯端末装置500は、
図45に示す胎児心拍検出装置400と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、オプションを含めてその説明を省略する。
【0275】
図46に示す携帯端末装置500は、送受信用のアンテナ510と、送受信部520とを有する。送受信部520は、アンテナ510で送受信した音声信号をベースバンド処理する。
【0276】
この携帯端末装置500では、マイクロホン420からの観測音声信号(使用者の音声信号)は、信号入力部430に入力され、ここでサンプリング部120およびA/D変換部130によりデジタル化された後、インタフェース部411に出力される。インタフェース部411に出力された観測音声信号は、記憶部412に一時格納され、その後、所定の音声フレーム(サンプリング数)単位で、雑音抑圧処理が施された後、記憶部412に再度格納される。雑音抑圧処理は、記憶部412に格納されたプログラム(雑音抑圧アルゴリズム)をインタフェース部411経由で雑音抑圧処理部417に呼び出し、実行させることによって行われる。雑音抑圧処理後のクリアな信号(音声信号)は、送受信部520で送信用のベースバンド処理が施された後、アンテナ510から無線送信される。
【0277】
一方、アンテナ510で受信した観測音声信号(通信相手の音声信号)は、送受信部520で受信用のベースバンド処理が施された後、デジタル信号としてインタフェース部411に出力される。インタフェース部411に出力された観測音声信号は、記憶部412に一時格納され、その後、所定の音声フレーム(サンプリング数)単位で、雑音抑圧処理が施された後、記憶部412に再度格納される。雑音抑圧処理後のクリアな信号(音声信号)は、D/A変換器416を介してスピーカ450に出力される。
【0278】
このように、本実施の形態によれば、マイクロホン420からの観測音声信号(雑音を含む)およびアンテナ510で受信した観測音声信号(雑音を含む)からそれぞれ不必要な音(雑音)を抑圧し、音声信号をクリアな信号(所望信号)として取得することができるため、簡単な構成で高音質化を図ることができる。
【0279】
(実施の形態4)
実施の形態4は、実施の形態1に係る雑音抑圧装置をカーナビゲーション装置に適用した場合である。カーナビゲーション装置として、ドライバが運転に集中しながら情報を入力できるよう、つまり、音声で操作できるよう、音声認識機能を搭載したものがある。本実施の形態は、このような音声認識機能を有するカーナビゲーション装置において、当該カーナビゲーションに必要不可欠な音声認識装置の前処理としての雑音抑圧装置への適用例である。
【0280】
図47は、本発明の実施の形態4に係るカーナビゲーション装置の構成を示すブロック図である。なお、このカーナビゲーション装置600は、
図45に示す胎児心拍検出装置400と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、オプションを含めてその説明を省略する。
【0281】
図47に示すカーナビゲーション装置600は、音声認識処理部610、行先設定部620、現在位置検出部630、およびルート演算部640を有する。この構成により、カーナビゲーション装置600は、音声認識処理部610で、検出した音声(使用者の指示)を認識し、行先設定部620で、その認識した指示に基づいて行先を設定し、現在位置検出部630で、GPS(Global Positioning System)からの信号を受信して現在位置を把握し、ルート演算部640で、音声により指示された行先から最適なルートを演算し、ディスプレイ460に、演算されたルートや地図などを表示する。なお、このカーナビゲーション処理は、単なる一例であって、音声操作できる処理であれば任意のカーナビゲーション処理に適用可能である。
【0282】
このとき、このカーナビゲーション装置600では、マイクロホン420からの観測音声信号(使用者の指示)は、信号入力部430に入力され、ここでサンプリング部120およびA/D変換部130によりデジタル化された後、インタフェース部411に出力される。インタフェース部411に出力された観測音声信号は、記憶部412の主記憶メモリ414に一時格納され、その後、所定の音声フレーム(サンプリング数)単位で、雑音抑圧処理が施された後、主記憶メモリ414に再度格納される。雑音抑圧処理は、記憶部412(記録装置413または主記憶メモリ414)に格納されたプログラム(雑音抑圧アルゴリズム)をインタフェース部411経由で雑音抑圧処理部417に呼び出し、実行させることによって行われる。雑音抑圧処理後のクリアな信号(音声信号)は、音声認識処理部610に出力される。
【0283】
このように、本実施の形態によれば、音声認識処理部610の前処理として、マイクロホン420からの観測音声信号(雑音を含む)から不必要な音(雑音)を抑圧し、音声信号をクリアな信号(所望信号)として取得することができるため、音声認識処理部610の音声認識能力を最大限に発揮させることができ、カーナビゲーションを音声認識で確実に操作することができる。特に、運転中は音声指示以外の雑音がかなり多くかつ大きいため、この効果は非常に顕著である。
【0284】
(実施の形態5)
実施の形態5は、実施の形態1に係る雑音抑圧装置を音声認識装置に適用した場合である。
【0285】
図48は、本発明の実施の形態5に係る音声認識装置の構成を示すブロック図である。なお、この音声認識装置700は、
図47に示すカーナビゲーション装置600と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、オプションを含めてその説明を省略する。
【0286】
図48に示す音声認識装置700は、
図47に示すカーナビゲーション装置600から、カーナビゲーションに特有の構成要素、つまり、行先設定部620、現在位置検出部630、およびルート演算部640を削除した構成を有する。この音声認識装置700においても、雑音抑圧処理部417は、
図47に示すカーナビゲーション装置600の場合と同様に、音声認識処理部610の前処理としての機能を有する。
【0287】
すなわち、この音声認識装置700では、マイクロホン420からの観測音声信号は、信号入力部430に入力され、ここでサンプリング部120およびA/D変換部130によりデジタル化された後、インタフェース部411に出力される。インタフェース部411に出力された観測音声信号は、記憶部412の主記憶メモリ414に一時格納され、その後、所定の音声フレーム(サンプリング数)単位で、雑音抑圧処理が施された後、主記憶メモリ414に再度格納される。雑音抑圧処理は、記憶部412(記録装置413または主記憶メモリ414)に格納されたプログラム(雑音抑圧アルゴリズム)をインタフェース部411経由で雑音抑圧処理部417に呼び出し、実行させることによって行われる。雑音抑圧処理後のクリアな信号(音声信号)は、音声認識処理部610に出力される。
【0288】
このように、本実施の形態によれば、音声認識処理部610の前処理として、マイクロホン420からの観測音声信号(雑音を含む)から不必要な音(雑音)を抑圧し、音声信号をクリアな信号(所望信号)として取得することができるため、音声認識処理部610の音声認識能力を最大限に発揮させることができ、非常に高精度の音声認識を実現することができる。
【0289】
(実施の形態6)
実施の形態6は、実施の形態1に係る雑音抑圧装置を異常検出装置に適用した場合である。
【0290】
図49は、本発明の実施の形態6に係る異常検出装置の構成を示すブロック図である。なお、この異常検出装置800は、
図45に示す胎児心拍検出装置400と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、オプションを含めてその説明を省略する。
【0291】
図49に示す異常検出装置800は、検査対象が発する異常音を検出する装置であって、異常音解析処理部810および正常音情報記憶部820を有する。異常音解析処理部810は、雑音抑圧処理部417によって取得された音を解析する。例えば、異常音解析処理部810は、与えられた正常音情報と、雑音抑圧処理部417によって取得された音とを比較して、検査対象の異常音を検出する。この場合、雑音抑圧処理部417は、異常音解析処理部810の前処理としての機能を有する。ここでは、正常音情報は、正常音情報記憶部820に格納されている。本実施の形態では、例えば、検査対象が発生する音を複数の所定箇所から収集するように構成されており、正常音情報記憶部820は、検査対象の複数の所定箇所における正常動作音をそれぞれ収集し記憶する。正常音情報は、検査対象の所定箇所ごとに正常音情報記憶部820から読み出されて異常音解析処理部810に与えられる。また、正常音情報記憶部820には、直前に検出された正常動作音をも蓄積するようにしてもよい。この場合、正常音情報記憶部820は、正常音情報を、直近の過去分の正常動作音として出力することができる。
【0292】
この異常検出装置800では、マイクロホン420からの観測音声信号は、信号入力部430に入力され、ここでサンプリング部120およびA/D変換部130によりデジタル化された後、インタフェース部411に出力される。インタフェース部411に出力された観測音声信号は、記憶部412の主記憶メモリ414に一時格納され、その後、所定の音声フレーム(サンプリング数)単位で、雑音抑圧処理が施された後、主記憶メモリ414に再度格納される。雑音抑圧処理は、記憶部412(記録装置413または主記憶メモリ414)に格納されたプログラム(雑音抑圧アルゴリズム)をインタフェース部411経由で雑音抑圧処理部417に呼び出し、実行させることによって行われる。雑音抑圧処理後のクリアな信号(音声信号)は、異常音解析処理部810に出力される。
【0293】
この異常検出装置800は、検査対象から検出した音を正常音と比較して解析した結果を、ディスプレイ460に表示したり、あるいは、異常音を検出した場合はスピーカ450から警報を発したりすることができる。また、解析結果は、モデム415を介して特定の監視センターなどに送信することができる。この場合、異常音の検出状況などを、リモートで監視センターなどに連絡することができる。なお、異常音をどのようなタイミングで検出するかは、各装置に依存する。
【0294】
このように、本実施の形態によれば、異常音解析処理部810の前処理として、マイクロホン420からの観測音声信号(雑音を含む)から不必要な音(雑音)を抑圧し、音声信号をクリアな信号(所望信号)として取得することができるため、異常音解析処理部810の異常音解析能力を最大限に発揮させることができ、非常に高精度の異常音検出を実現することができる。
【0295】
(実施の形態7)
実施の形態7は、実施の形態1に係る雑音抑圧装置を画像処理装置、特に画像復元装置に適用した場合である。
【0296】
図50は、本発明の実施の形態7に係る画像復元装置の構成を示すブロック図である。なお、この画像復元装置900は、
図45に示す胎児心拍検出装置400と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、オプションを含めてその説明を省略する。
【0297】
図50に示す画像復元装置900は、例えば、ぼけと雑音により劣化した画像を復元する装置であって、画像復元処理部910を有する。ここでは、一例として、例えば、スキャナ920で読み取った画像を復元する場合を例にとって説明する。すなわち、この画像復元装置900は、デジタルスキャナ(以下単に「スキャナ」という)920で読み取った画像に含まれるぼけと雑音を抑圧してクリーンな画像を出力する構成を有する。この場合、雑音抑圧処理部417は、画像復元処理部910の前処理としての機能を有する。
【0298】
この画像復元装置900では、スキャナ920からの観測画像信号は、信号入力部430aに入力され、ここでサンプリング部120によりサンプリング処理された後、インタフェース部411に出力される。インタフェース部411に出力された観測画像信号は、記憶部412の主記憶メモリ414に一時格納され、その後、所定の画像フレーム(サンプリング数)単位で、雑音抑圧処理が施された後、主記憶メモリ414に再度格納される。雑音抑圧処理は、記憶部412(記録装置413または主記憶メモリ414)に格納されたプログラム(雑音抑圧アルゴリズム)をインタフェース部411経由で雑音抑圧処理部417に呼び出し、実行させることによって行われる。雑音抑圧処理後のクリーンな画像信号は、画像復元処理部910に出力される。なお、画像復元処理部910によって復元された画像は、プリンタ930またはディスプレイ460に出力される。
【0299】
このとき、観測画像信号に対する雑音抑圧処理は、スキャナ920で読み取った画像の特定領域を指定することにより、指定された領域の画像に対してのみぼけと雑音の抑圧を行うことができる。画像の特定領域の指定は、操作部440を介して行われる。これにより、スキャナ920で読み取った画像の一部分に対してのみ、ぼけと雑音の抑圧を行い、その部分の画像を復元することができる。
【0300】
このように、本実施の形態によれば、画像復元処理部910の前処理として、スキャナ920からの観測画像信号(ぼけと雑音を含む)からぼけと雑音を抑圧し、クリーンな画像(所望信号)を取得することができるため、画像復元処理部910の画像復元能力を最大限に発揮させることができ、非常に高精度の画像復元を実現することができる。
【0301】
なお、本実施の形態では、スキャナ920で読み取った画像を復元する場合を例にとって説明したが、もちろんこれに限定されない。例えば、スキャナ920に代えてデジタルカメラやデジタルビデオカメラなどで撮影した画像を復元する場合にも適用可能である。さらには、すでにある画像情報を取り込んで復元する場合にも適用可能である。
【0302】
また、本実施の形態では、画像を復元する場合を例にとって説明したが、もちろんこれに限定されない。本発明は、広く画像処理装置において、何らかの原因でぼけと雑音が入ってしまった劣化画像(観測信号)からぼけと雑音を取り除いた原画像をクリアな信号(所望信号)として取得し、得られた原画像を画像処理する場合に適用可能である。
【0303】
2008年3月21日出願の特願2008−074691の日本出願および2008年6月27日出願の特願2008−168835の日本出願にそれぞれ含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。