(58)【調査した分野】(Int.Cl.,DB名)
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を特定する前記ステップよりも後で、且つ、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを特定する前記ステップよりも前に、
各分散の大きさに応じて、前記音声信号セグメントの各フレーム信号を順位付けるステップ;をさらに備え、
それに即して、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを特定する前記ステップは、各周波数における順位付けられた各フレーム信号のパワー値の前記分散に基づき、前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを特定するステップを備える、
請求項1に記載の方法。
【発明を実施するための形態】
【0015】
当業者が本願の技術的解決策をよりよく理解できるように、以下では、本願の実施の形態における添付図面を参照しつつ本願の実施の形態の技術的解決策を明確且つ完全に説明する。説明する実施の形態は本願の実施の形態のうちの一部であって、全てではないことは明らかである。当業者であれば、創造的な努力をせずとも、本願の実施の形態に基づいて他の実施の形態を得られるものの、それらの実施の形態は全て本願の保護の範囲に含まれる。
【0016】
図1は、本願の実施の形態に係るノイズ信号判定方法のフローチャートを示す。解析対象音声信号セグメント中のノイズ信号を判定するため、この実施の形態のノイズ信号判定方法は以下の各ステップを含む:
【0017】
S101:解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、音声信号セグメントの各フレーム信号のパワースペクトルを取得する。
【0018】
解析対象音声信号セグメントは、特定の規則に基づき処理対象音声から獲得できる。解析対象音声信号セグメントは、事前の判定に基づき場合によっては多数のノイズフレームを含む「ノイズフレームセグメントの候補」であり得る。
【0019】
好ましくは、ステップS101よりも前に、本方法は更に以下のステップを含む:
処理対象音声の時間領域信号の振幅変動に基づき、処理対象音声における所定の閾値に満たない振幅変動の音声信号セグメントを、解析対象音声信号セグメントと判定するステップ;又は、
処理対象音声中の最初のN個のフレーム音声信号を、解析対象音声信号セグメントとして獲得するステップ。
【0020】
本願の実施の形態では、音声信号の時間領域において、ノイズ信号は通常、振幅変動の少ない又は振幅が均一な音声信号セグメントであり、一方、人間の発話音声を含む音声信号セグメントは通常、振幅変動が大きい。このような法則に基づいて、処理対象音声(即ち、ノイズ除去対象音声)に含まれる「ノイズフレームセグメントの候補」の認識に用いられる所定の閾値を、予め設定することができる。よって、処理対象音声における所定の閾値に満たない振幅変動の音声信号セグメントを解析対象音声信号セグメントとして判定できる。
【0021】
本願の実施の形態においては、先ず、音声信号をフレーム化してよい。フレーム信号は単一フレームの音声信号を意味し、1つの音声信号セグメントは幾つかのフレーム信号を含み得る。1つのフレーム信号は幾つかのサンプリングポイント、例えば1024個のサンプリングポイントを含み得る。隣り合う2つのフレーム信号は相互に重複し得る(例えば、重複率は50%であってよい)。この実施の形態においては、時間領域の音声信号に対して短時間フーリエ変換(STFT)を行って音声信号のパワースペクトル(周波数領域)を取得してよい。パワースペクトルは異なる周波数に対応する複数のパワー値、例えば1024個のパワー値を含み得る。
【0022】
本願の実施の形態では、人声を含む音声信号セグメントにおいて、人が話す前の期間(例えば、1.5秒)の音声信号はノイズ信号(環境ノイズ)であることが、デフォルトにより一般に仮定できる。よって、本願の実施の形態では、解析対象音声信号を音声信号セグメントの最初のN個のフレーム信号であると判定できる。例えば、解析対象音声信号:{f
1’,f
2’,・・・,f
n’}は、最初の1.5秒の音声信号である。ただし、f
1’,f
2’,・・・,f
n’はそれぞれ音声信号に含まれるフレーム信号を表わしている。本願の実施の形態では、解析音声信号のフレーム信号からノイズ信号を判定する。
【0023】
各フレーム信号に対応する複数のパワー値は、解析対象音声信号:f
1’,f
2’,・・・,f
n’のSTFT後に得たパワースペクトルに基づき算出できる。或る周波数におけるフレーム信号のパワースペクトルがa+biであると仮定する。式中、実数部aは振幅を、虚数部bは位相を表わすものであってよい。その場合、その周波数におけるフレーム信号のパワー値はa
2+b
2であってよい。異なる周波数における各フレーム信号のパワー値は、上記の処理に基づき得られる。例えば、フレーム信号{f
1’,f
2’,・・・,f
n’}の各々が1024個のサンプリングポイントを含む場合、異なる周波数における各フレーム信号の1024個のパワー値は、パワースペクトルに基づいて得られる。例えば、フレーム信号f
1’に対応するパワー値は{p
11,p
12,・・・,p
11024}であり、フレーム信号f
2’に対応するパワー値は{p
21,p
22,・・・,p
21024}であり、そして、フレーム信号f
n’に対応するパワー値は{p
n1,p
n2,・・・,p
n1024}である。
【0024】
S102:各周波数における音声信号セグメントの各フレーム信号のパワー値の分散を、フレーム信号のパワースペクトルに基づき判定する。
【0025】
各周波数におけるフレーム信号{f
1’,f
2’,・・・,f
n’}のパワー値に基づき、フレーム信号{f
1’,f
2’,・・・,f
n’}のパワー値の分散{Var(f
1’),Var(f
2’),・・・,Var(f
n’)}を、分散を計算するための公式を用いて算出できる。例えば、各フレーム信号が1024個のサンプリングポイントを含む場合、Var(f
1’)は{p
11,p
12,・・・,p
11024}の分散であり、Var(f
2’)は{p
21,p
22,・・・,p
21024}の分散であり、そして、Var(f
n’)は{p
n1,p
n2,・・・,p
n1024}の分散である。
【0026】
S103:分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する。
【0027】
本願の実施の形態においては、発話セグメントを含むフレーム信号のエネルギー(即ち、パワー値)は、通常、帯域によって大きく異なる一方、発話セグメントを含まないフレーム信号(即ち、ノイズ信号)のエネルギーの帯域による変動はわずかであり、均等に分布する。よって、各フレーム信号がノイズ信号であるか否かは、フレーム信号のパワー値の分散に基づいて判定できる。
【0028】
図2は、本願の実施の形態に係る、フレーム信号がノイズ信号であるか否かを判定するための各ステップのフローチャートを示す。本願の実施の形態において、上記のステップS103は以下の各ステップを含むことができる:
【0029】
S1031:フレーム信号のパワー値の分散が第1の閾値T
1を超えているか否かを判定する。
【0030】
S1032:否定(No)であれば、フレーム信号をノイズ信号と判定する。
【0031】
フレーム信号のパワー値の分散が第1の閾値T
1を超えている場合、それは、フレーム信号のエネルギー(即ち、パワー値)の帯域による変動の振幅が第1の閾値T
1を超えていることを意味する。よって、フレーム信号はノイズ信号でないと判定できる。一方、フレーム信号のパワー値の分散が第1の閾値T
1を超えていない場合、それは、フレーム信号のエネルギー(即ち、パワー値)の帯域による変動の振幅が第1の閾値T
1を超えていないことを意味する。よって、フレーム信号はノイズ信号であると判定できる。
【0032】
上記処理に基づき、解析対象音声信号{f
1’,f
2’,・・・,f
n’}中で、ノイズフレーム信号{f
1’,f
2’,・・・,f
m’}及び非ノイズフレーム信号{f
m+1’,f
m+2’,・・・,f
n’}の判定を順次に行うことができる。よって、音声信号セグメントに含まれるノイズ信号を判定でき、これらのノイズ信号{f
1’,f
2’,・・・,f
m’}に従い音声ノイズ除去を行うことができる。
【0033】
図3を参照するに、本願の実施の形態において上記のステップS102は具体的に以下の各ステップを含むことができる:
【0034】
S1021:各周波数におけるフレーム信号{f
1’,f
2’,・・・,f
n’}の各々のパワー値は、フレーム信号のパワースペクトルに対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第1の周波数間隔に対応する第1のパワー値集合と、第2の周波数間隔に対応する第2のパワー値集合とに分類される。第1の周波数間隔は第2の周波数間隔よりも小さい。
【0035】
或る実施の形態では、統計を通じて、周波数領域において各フレーム信号の分散を取得できる。非ノイズ信号は一般に低中周波数帯域に集中し、ノイズ信号は一般に全ての周波数帯域に均一に分布する。よって、各周波数における各フレーム信号のパワー値の分散は少なくとも2つの異なる周波数帯域(即ち、上述の各周波数間隔)における統計を通じて取得できる。
【0036】
例えば、第1の周波数間隔は0〜2000Hz(低周波数帯域)であってよく、第2の周波数間隔は2000〜4000Hz(高周波数帯域)であってよい。各フレーム信号が1024個のサンプリングポイントを含む場合、各フレーム信号に対応する1024個のパワー値は、各パワー値に対応する周波数間隔に応じて、0〜2000Hzに対応する第1のパワー値集合A及び2000〜4000Hzに対応する第2のパワー値集合Bに分類される。フレーム信号f
1’を例にとれば、パワー値に対応する1024個のデータは{p
11,p
12,・・・,p
11024}である。各周波数間隔によれば、第2のパワー値集合Bに含まれるパワー値は、例えば{p
11,p
12,・・・,p
1126}であり、第1のパワー集合Aに含まれるパワー値は、例えば{p
1127,p
1128,・・・,p
11024}であると導き出すことができ、残部は類推により推測してよい。
【0037】
なお、本願の異なる実施の形態においては、信号パワー値の分散は2つよりも多い周波数帯域における統計を通じて取得してもよいことに留意されたい。
【0038】
S1022:第1のパワー値集合に含まれるパワー値の第1の分散を判定する。
【0039】
上記の通り、フレーム信号f
1’を例にとれば、第1のパワー値集合Aに含まれるパワー値は、例えば{p
1127,p
1128,・・・,p
11024}である。よって、パワー値p
1127〜p
11024の第1の変動Var
high(f
1’)は、分散を計算するための公式に従い算出できる。
【0040】
S1023:第2のパワー値集合に含まれるパワー値の第2の分散を判定する。
【0041】
上記の通り、フレーム信号f
1’を例にとれば、第2のパワー値集合Bに含まれるパワー値は、例えば{p
11,p
12,・・・,p
1126}である。よって、パワー値p
11〜p
1126の第2の変動Var
low(f
1’)は、分散を計算するための公式に従い算出できる。
【0042】
図4は、本願の実施の形態に係る分散の概略曲線グラフである。このグラフにおいて、横軸はフレーム信号のフレーム数を示し、縦軸は分散の大きさを示す。第1の分散曲線は各フレーム信号の第1の分散の傾向を表し、第2の分散曲線は各フレーム信号の第2の分散の傾向を表す。このグラフから明らかなように、高周波数帯域2000〜4000Hzにおいて分散は殆ど変動せず、低周波数帯域0〜2000Hzにおいて分散は大きく変動する。このことから、非ノイズ信号は低周波数帯域に集中することを確認できる。
【0043】
上記の通り、本願の好適な実施の形態において、ステップS1031は以下のステップを具体的に含む:
フレーム信号のパワー値の第1の分散が第1の閾値T
1を超えているか否かを判定し、肯定である場合、フレーム信号をノイズ信号と判定する。フレーム信号f
1’を例にとれば、第1の分散Var
high(f
1’)が第1の閾値T
1を超えているか否かが判定される。
【0044】
本願の実施の形態において、上記のステップS103は更に以下のステップを具体的に含むことができる:
第1の分散と第2の分散との間の差分が第2の閾値T
2を超えているか否かを判定し、否定であれば、フレーム信号をノイズ信号と判定する。
【0045】
フレーム信号f
1’を例にとれば、第1の分散と第2の分散との間の差分は|Var
high(f
1’)−Var
low(f
1’)|である。|Var
high(f
1’)−Var
low(f
1’)|<T
2である場合、フレーム信号f
1’はノイズ信号と判定される。このステップにより、解析対象音声信号{f
1’,f
2’,・・・,f
n’}から順次ノイズ信号を判定できる。
【0046】
本願の実施の形態において、本方法は、ステップS102とステップS103との間に更に以下のステップを含むことができる:
各分散の大きさに応じて、解析対象音声信号セグメントのフレーム信号を順位付ける。
【0047】
それに即して、分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するステップは、以下のステップを含む:
各周波数における順位付けられた各フレーム信号のパワー値の分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する。
【0048】
上記の通り、この実施の形態においては、フレーム信号{f
1’,f
2’,・・・,f
n’}のパワー値の分散{Var(f
1’),Var(f
2’),・・・,Var(f
n’)}を判定できる。フレーム信号はパワー値の分散の低い順に順位付けてよい。分散が小さい信号はノイズ信号である可能性が高い。よって、解析対象音声信号のノイズフレーム信号を先頭に順位付けることができる。本願の実施の形態において、低周波数帯域(例えば、0〜2000Hz)及び高周波数帯域(例えば、2000〜4000Hz)における統計を通じて各分散がそれぞれ取得される場合、各周波数におけるフレーム信号{f
1’,f
2’,・・・,f
n’}の各々のパワー値は、フレーム信号のパワースペクトルに対応する複数の周波数が属する複数の周波数間隔に応じて、第1の周波数間隔(例えば、0〜2000Hz)に対応する第1のパワー値集合A及び第2の周波数間隔(例えば、2000〜4000Hz)に対応する第2のパワー値集合Bに分類できる。それにより、フレーム信号{f
1’,f
2’,・・・,f
n’}に対応する第1のパワー値集合に含まれるパワー値の第1の分散{Var
low(f
1’),Var
low(f
2’),・・・,Var
low(f
n’)}をそれぞれ判定でき、フレーム信号{f
1’,f
2’,・・・,f
n’}に対応する第2のパワー値集合に含まれるパワー値の第2の分散Var
high(f
1’),Var
high(f
2’),・・・,Var
high(f
n’)}をそれぞれ判定できる。上記のステップS104では、高周波数および低周波数における分散の統計に基づき、解析対象音声信号に含まれるノイズ信号(当該ノイズ信号は、分散の大きさに応じて順位付けられた音声信号であってよい)は以下のように判定され得る:
Var
low(f
i’)>T
1 (1)
|Var
high(f
i’)−Var
low(f
i’)|>T
2 (2)
Var
high(f’
i+1)−Var
high(f’
i−1)>T
3 (3)
Var
low(f’
i+1)−Var
low(f’
i−1)>T
4 (4)
なお、i∈(1,n)である。式(1)により、各フレーム信号f
i’のパワー値の第1の分散が第1の閾値T
1を超えているか否かを判定できる。否定であれば、フレーム信号f
i’はノイズフレーム信号と判定される。判定された複数のノイズフレーム信号の集合が、ノイズ信号と判定される。
【0049】
式(2)により、各フレーム信号f
i’のパワー値の第2の分散が第2の閾値T
2を超えているか否かを判定できる。否定であれば、フレーム信号f
i’はノイズフレーム信号と判定される。判定された複数のノイズフレーム信号の集合が、ノイズ信号と判定される。
【0050】
式(3)により、あるフレーム信号f
i’の前のフレーム信号f’
i−lのパワー値の第2の分散Var
high(f’
i−l)と、フレーム信号f
i’の次のフレーム信号f’
i+1のパワー値の第2の分散Var
high(f’
i+1)との間の差分Var
high(f’
i+1)−Var
high(f’
i−1)が、第3の閾値T
3を超えているか否かを判定できる。否定であれば、フレーム信号f
i’はノイズフレーム信号と判定される。判定された複数のノイズフレーム信号の集合がノイズ信号と判定される。
【0051】
式(4)により、あるフレーム信号f
i’の前のフレーム信号f’
i―lのパワー値の第1の分散Var
low(f’
i−1)と、フレーム信号f
i’の次のフレーム信号f’
i+lのパワー値の第1の分散Var
low(f’
i+1)との間の差分Var
low(f’
i+1)−Var
low(f’
i−1)が、第4の閾値T
4を超えているか否かを判定できる。否定であれば、フレーム信号f
i’はノイズフレーム信号と判定される。判定された複数のノイズフレーム信号の集合がノイズ信号と判定される。
【0052】
本願の実施の形態において、解析対象音声信号に含まれるノイズフレームは、上記の式(1)から(4)を用いて認識できる。即ち、上記の式(1)から(4)のいずれかと合致するフレーム信号f
i’はいずれも非ノイズ信号(ノイズ終了フレーム)と判定できる。換言すれば、上記の式(1)から(4)のいずれとも合致しないフレーム信号f
i’は、いずれもノイズ信号と判定できる。ノイズ終了フレームf
m’は上記の工程に基づき判定でき、その場合、ノイズフレームは{f
1’,f
2’,・・・,f
m−1’}を含む。
【0053】
なお、本願の他の実施の形態においては、ノイズ終了フレームを式(1)から(4)の一部、例えば、式(1)と(2)又は式(2)と(3)に基づき判定してもよいことに留意されたい。また、本願の実施の形態においてノイズ終了フレームを判定する式は、以上で挙げた各式に限定されない。閾値T
1、T
2、T
3、及びT
4はいずれも大量の試験サンプルの統計から得られる。
【0054】
図5は、以下のステップを含む、本願の実施の形態に係る音声ノイズ除去方法のフローチャートである:
【0055】
S201:処理対象音声に含まれる解析対象音声信号セグメントを判定する。
【0056】
S202:解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、音声信号セグメントの各フレーム信号のパワースペクトルを取得する。
【0057】
S203:各周波数における音声信号セグメントの各フレーム信号のパワー値の分散を、フレーム信号のパワースペクトルに基づき判定する。
【0058】
S204:分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定し、音声信号セグメントに含まれる幾つかのノイズフレームを得る。
【0059】
S205:音声信号セグメントに含まれる幾つかのノイズフレームに対応する平均パワーを判定し、ノイズフレームの平均パワーに基づき処理対象音声をノイズ除去する。
【0060】
本願の実施の形態においては、上記の方法に従い解析対象音声セグメントに含まれるノイズフレーム{f
1’,f
2’,・・・,f
m−1’}を取得した後、各ノイズフレームにそれぞれ対応する元の(順位付け前の)信号のフレーム数を判定でき、ノイズ信号のパワースペクトル推定値P
noiseを得るためこれらのフレーム信号の平均パワーを、統計を通じて得てよい。ノイズ信号のパワースペクトル推定値P
noiseを得た後は、音声をノイズ除去できる。ノイズ除去の方法は当業者にとって周知であり、ここで具体的な説明は行わない。
【0061】
当然ながら、本願の他の実施可能な実施の形態において、分散に応じてフレーム信号を順位付けるステップは省略してよく、元の各信号の分散に基づきノイズフレームを直接的に判定してもよい。また、本願において、ノイズ信号の複数のフレームを判定した後、パワースペクトル推定値P
noiseは通常一部のフレームを用いて算出する。これは、過剰な推定を避けるためである。例えば、判定されたノイズ信号が50個のフレームを含む場合、最初の30個のフレームを獲得してパワースペクトル推定値P
noiseを算出してよい。これにより、パワースペクトル推定値の精度を向上できる。
【0062】
本願の実施の形態は、上記の処理の実施に対応するノイズ信号判定装置を更に提供する。当該装置はソフトウェアにより実現されてもよく、ハードウェアにより実現されてもよく、ソフトウェアとハードウェアとの組み合わせにより実現されてもよい。ソフトウェアにより実現される態様を例にとれば、論理的な意味においての装置は、サーバの中央処理装置(CPU)を通じて対応するコンピュータプログラムをメモリに読み出し実行することによって形成できる。装置のハードウェア構造については
図8を参照されたい。
【0063】
図6は、本願の実施の形態に係るノイズ信号判定装置のブロック図である。この実施の形態において、装置の各部の機能は、上記のノイズ信号判定方法の各ステップの機能に対応してよい。詳細については上記の方法を参照されたい。ノイズ信号判定装置100は以下を含む:
解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、音声信号セグメントの各フレーム信号のパワースペクトルを取得するよう構成されるパワースペクトル取得部101と、
各周波数における音声信号セグメントの各フレーム信号のパワー値の分散を、フレーム信号のパワースペクトルに基づき判定するよう構成される分散判定部102と、
前記分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するよう構成されるノイズ判定部103。
【0064】
好ましくは、本装置は、処理対象音声の時間領域信号の振幅変動に基づき、処理対象音声における所定の閾値よりも小さい振幅変動の音声信号セグメントを解析対象音声信号セグメントとして判定する、又は、処理対象音声における最初のN個のフレーム音声信号を解析対象音声信号セグメントとして獲得するよう構成されるセグメント取得部を更に含む。
【0065】
好ましくは、ノイズ判定部103は:
音声信号セグメントの各フレーム信号に対応する分散が第1の閾値を超えているか否かを判定し、否定であれば、フレーム信号をノイズ信号と判定するよう構成される。
【0066】
好ましくは、分散判定部102は:
各周波数におけるフレーム信号のパワー値を、パワースペクトルに対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第1の周波数間隔に対応する第1のパワー値集合に分類し、
第1のパワー値集合に含まれるパワー値の第1の分散を判定するよう構成される。
【0067】
それに即して、ノイズ判定部103は:
第1の分散が第1の閾値を超えるか否かを判定し、
否定であれば、フレーム信号をノイズ信号と判定するよう構成される。
【0068】
好ましくは、分散判定部102は、具体的に:
各周波数における各フレーム信号のパワー値を、フレーム信号の各パワー値に対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第1の周波数間隔に対応する第1のパワー値集合と、第2の周波数間隔に対応する第2のパワー値集合とに分類し、第1の周波数間隔は第2の周波数間隔よりもその周波数が小さく、
第1のパワー値集合に含まれるパワー値の第1の分散を判定し、
第2のパワー値集合に含まれるパワー値の第2の分散を判定するよう構成される。
それに則して、ノイズ判定部103は:
各フレーム信号に対応する第1の分散と第2の分散との間の差分が第2の閾値を超えているか否かを判定し、
否定であれば、フレーム信号をノイズ信号と判定する。
【0069】
本願の実施の形態は、上記処理の実施に対応する音声ノイズ除去装置を更に提供する。この装置はソフトウェアにより実現されてもよく、ハードウェアにより実現されてもよく、ソフトウェアとハードウェアとの組み合わせにより実現されてもよい。ソフトウェアによって実現される態様を例にとれば、論理的な意味においての装置は、サーバの中央処理装置(CPU)を通じて対応するコンピュータプログラムをメモリに読み出し実行することによって形成できる。装置のハードウェア構造については
図8を参照されたい。
【0070】
図7は、本願の実施の形態に係る音声ノイズ除去装置のブロック図である。この実施の形態において、装置の各部の機能は、上記の音声ノイズ除去方法の各ステップの機能に対応してよい。詳細については上記の方法を参照されたい。この実施の形態において、音声ノイズ除去装置200は以下を含む:
処理対象音声に含まれる解析対象音声信号セグメントを判定するよう構成されるセグメント判定部201と、
解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、音声信号セグメントの各フレーム信号のパワースペクトルを取得するよう構成されるパワースペクトル取得部202と、
各周波数における音声信号セグメントの各フレーム信号のパワー値の分散を、フレーム信号のパワースペクトルに基づき判定するよう構成される分散判定部203と、
分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定し、音声信号セグメントに含まれる幾つかのノイズフレームを得るよう構成されるノイズ判定部205と、
音声信号セグメントに含まれる幾つかのノイズフレームに対応する平均パワーを判定し、ノイズフレームの平均パワーに基づき処理対象音声をノイズ除去するよう構成される音声ノイズ除去部10。
【0071】
好ましくは、本装置は更に以下を含む:
各分散の大きさに応じて、解析対象音声信号セグメントのフレーム信号を順位付けるよう構成される順位付け部204。
【0072】
それに則して、ノイズ判定部205は具体的に:
各周波数における順位付けられた各フレーム信号のパワー値の分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するよう構成される。
【0073】
解析対象音声信号セグメントにフーリエ変換を行って各フレーム信号のパワースペクトルを取得し、各周波数における解析対象音声信号セグメントの各フレーム信号のパワー値の分散を判定し、最終的に分散に基づきフレーム信号がノイズ信号であるか否かを判定することにより、本願の実施の形態において提供されるノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置は、解析対象音声信号セグメントに含まれる幾つかのノイズフレームを精度よく判定できる。処理対象音声は、音声ノイズ除去処理において、判定された幾つかのノイズフレームの平均パワーに基づきノイズ除去されることができ、よって音声ノイズ除去効果が向上する。
【0074】
説明を容易にするため、諸説明において、本装置は機能の観点から複数の各部に分割されている。当然ながら、本願を実装ないし実行するにあたって、各部の機能は、単一のソフトウェア及び/又はハードウェア要素によって実現してもよいし、複数のソフトウェア及び/又はハードウェア要素によって実現してもよい。
【0075】
当業者であれば、本願の実施の形態が、方法、システム、又はコンピュータプログラム製品として提供され得るものであることを理解するであろう。よって、本発明は、完全なハードウェアの実施の形態、完全なソフトウェアの実施の形態、又はソフトウェア及びハードウェアを組み合わせた実施の形態として実現され得る。また、本発明は、コンピュータで用いることができるプログラムコードを含む1以上のコンピュータが使用可能な記憶媒体(磁気ディスクメモリ、CD−ROM、光学メモリ等を含み、且つそれらに限定されない)上で実装されるコンピュータプログラム製品の形をとってもよい。
【0076】
本発明について、本発明の実施の形態に係る方法、デバイス(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照しつつ説明した。なお、各工程及び/又はブロックを実現するため、また各フローチャート及び/又はブロック図に示す工程及び/又はブロックの組み合わせを実現するために、コンピュータプログラム指示を用いてよいことを理解すべきである。コンピュータプログラム指示は、装置を生成するために、汎用コンピュータ、専用コンピュータ、組み込みプロセッサや他のプログラム化可能なデータ処理デバイスへ提供されてよく、それにより、当該コンピュータや他のプログラム化可能なデータ処理デバイスのプロセッサは、フローチャートに示す1以上の工程及び/又はブロック図に示す1以上のブロックで指定される機能を実現するよう構成される装置を生成するための指示を実行してよい。
【0077】
また、コンピュータプログラムの指示は、コンピュータ又は他のプログラム化可能なデータ処理デバイスに特定の動作をさせるべくガイド可能なコンピュータ読取可能ストレージに記憶されてもよく、それにより、コンピュータ読取可能なストレージに記憶された指示が、フローチャートに示す1以上の工程及び/又はブロック図に示す1以上のブロックによって指定される機能を実現する指示装置を含む製品を生成してよい。
【0078】
また、コンピュータプログラムの指示は、コンピュータ又は他のプログラム化可能なデータ処理デバイスに読み込まれてもよく、それにより、コンピュータにより実現される処理を生成すべく一連の動作ステップがコンピュータ又は他のプログラム化可能なデバイス上で実行されてよい。これにより、コンピュータ又は他のプログラム化可能なデバイスで実行される指示は、フローチャートに示す1以上の処理及び/又はブロック図に示す1以上のブロックによって指定される機能を実現するための各ステップを提供する。
【0079】
また、「含む」、「備える」といった表現又はそれらの変形は、排他的でないものを含むことを意図するものであり、よって、一連の要素を含む工程、方法、商品、若しくはデバイスが、当該要素を含むだけでなく、他の明記されない諸要素を含む、又は、当該プロセス、方法、商品、又はデバイスに本来備わる諸要素を更に含むことに更に留意されたい。他に限定がない場合、「〜を含む」によって定義される要素は、当該要素を含む上記工程、方法、商品、又はデバイスが更に他の同一の要素を有する場合を排除するものではない。
【0080】
当業者であれば、本願の実施の形態が、方法、システム、又はコンピュータプログラム製品として提供され得ることを理解できよう。よって、本発明は、完全なハードウェアの実施の形態、完全なソフトウェアの実施の形態、又はソフトウェア及びハードウェアを組み合わせた実施の形態として実現され得る。また、本発明は、コンピュータで用いることができるプログラムコードを含む1以上のコンピュータが使用可能な記憶媒体(磁気ディスクメモリ、CD−ROM、光学メモリ等を含み、且つそれらに限定されない)上で実現されるコンピュータプログラム製品の形をとってもよい。
【0081】
本願は、プログラムモジュール等の、コンピュータによって実行されるコンピュータ実行可能な指示の共通のコンテキストで説明されてもよい。プログラムモジュールは、通常、特定のタスクを実行するために、又は、特定の抽象データタイプを実装するために用いられるルーティン、プログラム、オブジェクト、アセンブリ、データ構造等を含む。本願は、通信ネットワークを介して接続された遠隔処理デバイスを用いてタスクが実行される分散コンピューティング環境において実装されてもよい。分散コンピューティング環境において、プログラムモジュールを、ストレージデバイスを含むローカル及びリモートコンピュータ記憶媒体に配置してよい。
【0082】
本明細書における実施の形態は漸次に説明され、実施の形態の同一又は類似する部分については相互に参照することができ、各実施の形態は、他の実施の形態と異なる部分が強調されている。特に、システムの実施の形態は基本的に方法の実施の形態と類似しているので、その説明は簡略化されている。関連する部分については、方法の実施の形態の各部分の説明を参照されたい。
【0083】
以上の説明は本願の幾つかの実施の形態に過ぎず、本願を限定するものではない。当業者であれば、本願の様々な変更又は変形が可能である。本願の本質及び原理の範囲内で行われる変更、均等物との置換、改良等は全て本願の請求の範囲に包含される。
以下、本発明の実施の態様の例を列挙する。
[第1の局面]
ノイズ信号判定方法であって:
解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行って前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するステップと;
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定するステップと;
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するステップと;を備える、
ノイズ信号判定方法。
[第2の局面]
解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行って前記音声信号セグメントの各フレーム信号のパワースペクトルを取得する前記ステップよりも前に、
処理対象音声の時間領域信号の振幅変動に基づき、前記処理対象音声における所定の閾値に満たない振幅変動の音声信号セグメントを、前記解析対象音声信号セグメントと判定するステップ、又は、処理対象音声における最初のN個のフレーム音声信号を、前記解析対象音声信号セグメントとして獲得するステップを備える、
第1の局面に記載の方法。
[第3の局面]
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップは:
前記音声信号セグメントの各フレーム信号に対応する前記分散が第1の閾値を超えているか否かを判定するステップと;
否定であれば、当該フレーム信号をノイズ信号と判定するステップと;を備える、
第1の局面に記載の方法。
[第4の局面]
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定する前記ステップは:
各周波数における前記フレーム信号のパワー値を、前記パワースペクトルに対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第1の周波数間隔に対応する第1のパワー値集合に分類するステップと;
前記第1のパワー値集合に含まれるパワー値の第1の分散を判定するステップと;を備え、
それに即して、前記分散が第1の閾値を超えているか否かを判定する前記ステップが、
前記第1の分散が前記第1の閾値を超えているか否かを判定するステップを備える、
第3の局面に記載の方法。
[第5の局面]
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定する前記ステップは:
各周波数における各フレーム信号のパワー値を、当該フレーム信号の各パワー値に対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第1の周波数間隔に対応する第1のパワー値集合と、第2の周波数間隔に対応する第2のパワー値集合とに分類するステップであって、前記第1の周波数間隔は前記第2の周波数間隔よりもその周波数が小さい、分類するステップと;
前記第1のパワー値集合に含まれるパワー値の第1の分散を判定するステップと;
前記第2のパワー値集合に含まれるパワー値の第2の分散を判定するステップと;を備え、
それに即して、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップは:
各フレーム信号に対応する前記第1の分散と前記第2の分散との間の差分が第2の閾値を超えているか否かを判定するステップと;
否定であれば、当該フレーム信号をノイズ信号と判定するステップと;を備える、
第1の局面に記載の方法。
[第6の局面]
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定する前記ステップよりも後で、且つ、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップよりも前に:
各分散の大きさに応じて、前記解析対象音声信号セグメントの各フレーム信号を順位付けるステップ;をさらに備え、
それに即して、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップは、各周波数における順位付けられた各フレーム信号のパワー値の前記分散に基づき、前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するステップを備える、
第1の局面に記載の方法。
[第7の局面]
音声ノイズ除去方法であって:
処理対象音声に含まれる解析対象音声信号セグメントを判定するステップと;
前記解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するステップと;
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定するステップと;
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定して前記音声信号セグメントに含まれる幾つかのノイズフレームを取得するステップと;
前記音声信号セグメントに含まれる前記幾つかのノイズフレームに対応する平均パワーを判定し、そして前記ノイズフレームの前記平均パワーに基づき前記処理対象音声をノイズ除去するステップと;を備える、
音声ノイズ除去方法。
[第8の局面]
処理対象音声に含まれる解析対象音声信号セグメントを判定する前記ステップが:
前記処理対象音声の時間領域信号の振幅変動に基づき、前記処理対象音声における所定の閾値に満たない振幅変動の音声信号セグメントを、前記解析対象音声信号セグメントと判定するステップ、又は、前記処理対象音声における最初のN個のフレーム音声信号を前記解析対象音声信号セグメントとして獲得するステップを備える、
第7の局面に記載の方法。
[第9の局面]
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップが:
前記音声信号セグメントの各フレーム信号に対応する前記分散が第1の閾値を超えているか否かを判定するステップと;
否定であれば、当該フレーム信号をノイズ信号と判定するステップと;を備える、
第7の局面に記載の方法。
[第10の局面]
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定する前記ステップは、各周波数における前記フレーム信号のパワー値を、前記パワースペクトルに対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第1の周波数間隔に対応する第1のパワー値集合に分類するステップと、前記第1のパワー値集合に含まれるパワー値の第1の分散を判定するステップとを備え、
それに即して、前記分散が第1の閾値を超えるか否かを判定する前記ステップは、前記第1の分散が前記第1の閾値を超えるか否かを判定するステップを備える、
第9の局面に記載の方法。
[第11の局面]
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定する前記ステップは:
各周波数における各フレーム信号のパワー値を、当該フレーム信号の各パワー値に対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第1の周波数間隔に対応する第1のパワー値集合と、第2の周波数間隔に対応する第2のパワー値集合とに分類するステップであって、前記第1の周波数間隔は前記第2の周波数間隔よりも小さい、分類するステップと;
前記第1のパワー値集合に含まれるパワー値の第1の分散を判定するステップと;
前記第2のパワー値集合に含まれるパワー値の第2の分散を判定するステップと;を備え、
それに即して、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップは、各フレーム信号に対応する前記第1の分散と前記第2の分散との間の差分が第2の閾値を超えているか否かを判定するステップと、否定であれば、当該フレーム信号をノイズ信号と判定するステップとを備える、
第7の局面に記載の方法。
[第12の局面]
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定する前記ステップよりも後、且つ、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップよりも前に、各分散の大きさに応じて、前記解析対象音声信号セグメントの各フレーム信号を順位付けるステップをさらに備え、
それに即して、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップは、各周波数における順位付けられた各フレーム信号のパワー値の前記分散に基づき、前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するステップを備える、
第7の局面に記載の方法。
[第13の局面]
ノイズ信号判定装置であって:
解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するよう構成されるパワースペクトル取得部と;
各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を、前記フレーム信号の前記パワースペクトルに基づき判定するよう構成される分散判定部と;
前記分散に基づき、前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するよう構成されるノイズ判定部と;を備える、
ノイズ信号判定装置。
[第14の局面]
処理対象音声の時間領域信号の振幅変動に基づき、前記処理対象音声における所定の閾値に満たない振幅変動の音声信号セグメントを、前記解析対象音声信号セグメントと判定するよう、又は、処理対象音声における最初のN個のフレーム音声信号を、前記解析対象音声信号セグメントとして獲得するよう構成されるセグメント取得部をさらに備える、
第13の局面に記載の装置。
[第15の局面]
前記ノイズ判定部は、前記音声信号セグメントの各フレーム信号に対応する前記分散が第1の閾値を超えているか否かを判定し、否定であれば、当該フレーム信号をノイズ信号と判定するよう構成される、
第13の局面に記載の装置。
[第16の局面]
前記分散判定部は、各周波数における前記フレーム信号のパワー値を、前記パワースペクトルに対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第1の周波数間隔に対応する第1のパワー値集合に分類し、前記第1のパワー値集合に含まれるパワー値の第1の分散を判定するよう構成されており、
それに即して、前記ノイズ判定部が、前記第1の分散が前記第1の閾値を超えるか否かを判定し、否定であれば、当該フレーム信号をノイズ信号と判定するよう構成される、
第13の局面に記載の装置。
[第17の局面]
前記分散判定部は、具体的に:
各周波数における各フレーム信号のパワー値を、当該フレーム信号の各パワー値に対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第1の周波数間隔に対応する第1のパワー値集合と、第2の周波数間隔に対応する第2のパワー値集合とに分類し、前記第1の周波数間隔は前記第2の周波数間隔よりもその周波数が小さく;
前記第1のパワー値集合に含まれるパワー値の第1の分散を判定し;
前記第2のパワー値集合に含まれるパワー値の第2の分散を判定する;よう構成されており、
それに即して、前記ノイズ判定部は:
各フレーム信号に対応する前記第1の分散と前記第2の分散との間の差分が第2の閾値を超えているか否かを判定し、否定であれば、当該フレーム信号をノイズ信号と判定するよう構成される、
第13の局面に記載の装置。
[第18の局面]
音声ノイズ除去装置であって:
処理対象音声に含まれる解析対象音声信号セグメントを判定するよう構成されるセグメント判定部と;
前記解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するよう構成されるパワースペクトル取得部と;
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定するよう構成される分散判定部と;
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定し、前記音声信号セグメントに含まれる幾つかのノイズフレームを取得するよう構成されるノイズ判定部と;
前記音声信号セグメントに含まれる前記幾つかのノイズフレームに対応する平均パワーを判定し、前記ノイズフレームの前記平均パワーに基づき前記処理対象音声をノイズ除去するよう構成される音声ノイズ除去部と;を備える、
音声ノイズ除去装置。