(58)【調査した分野】(Int.Cl.,DB名)
前記周波数変化決定部(110)は、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて前記周波数の変化を、当該時間−周波数ビンについての角度(α(b,k))に依存して決定するように構成され、
当該時間−周波数ビンについての前記角度(α(b,k))は、前記音声信号の前記振幅スペクトログラムに依存する、
請求項1〜3の1項に記載の装置。
前記位相復元部(140)は、前記複数の時間−周波数ビンについて決定された前記周波数の変化に依存して、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての位相値を生成するように構成される、請求項1〜8の1項に記載の装置。
前記位相復元部(140)は、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて決定された前記周波数の変化に依存して、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビン(b,k)について異方性の大きさを決定するように構成される、請求項7または8に記載の装置。
前記位相復元部(140)は、位相の復元が行なわれるか否かに関わらず、前記異方性の大きさに依存して、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて、位相復元モードを決定するように構成され、
前記位相復元部(140)は、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての位相値を、前記位相復元部(140)が当該時間−周波数ビンについて決定した前記位相復元モードが第1のモードを表わしている場合には、前記周波数の変化を2回積分することによって生成するように構成され、
前記位相復元部(140)は、前記位相復元部(140)が当該時間−周波数ビンについて決定した位相復元モードが前記第1のモードと異なる第2のモードを表わしている場合には、前記周波数の変化を2回積分することによって前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての位相を決定するように構成される、
請求項9〜12の1項に記載の装置。
前記位相復元部(140)は、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての前記位相復元モードを、当該時間−周波数ビン((b,k))についての前記異方性の大きさが下側閾値(c)よりも大きい場合には前記位相復元モードが前記第1のモードを表わし、当該時間−周波数ビン((b,k))についての前記異方性の大きさが前記下側閾値(c)以下である場合には前記位相復元モードが前記第2のモードを表わすように決定するように構成される、または、
前記位相復元部(140)は、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての位相復元モードを、当該時間−周波数ビン((b,k))についての前記異方性の大きさが前記下側閾値(c)以上である場合には前記位相復元モードが前記第1のモードを表わし、当該時間−周波数ビン((b,k))についての前記異方性の大きさが前記下側閾値(c)より小さい場合には前記位相復元モードが前記第2のモードを表わすように決定するように構成される、
請求項13に記載の装置。
前記位相復元部(140)は、周波数にわたって2回積分することにより、前記複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての位相値を生成するように構成される、
請求項1〜14の1項に記載の装置。
【発明を実施するための形態】
【0018】
図1は、実施形態に係る音声信号の振幅スペクトログラムを分析するための装置を例示する。
【0019】
装置は周波数変化決定部110を含む。周波数変化決定部110は、音声信号の振幅スペクトログラムに依存して、音声信号の振幅スペクトログラムの複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するように構成されている。
【0020】
さらに、装置は、分類部(classifier)120を含む。分類部120は、前記時間−周波数ビンについて決定された周波数の変化に依存して、2つ以上の信号成分群のうちの信号成分群に対して複数の時間−周波数ビンのうちの各々の時間−周波数ビンを割当てるように構成されている。
【0021】
一実施形態によると、周波数変化決定部110は、例えば前記時間−周波数ビンについての角度(α(b,k))に依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するように構成されていてよい。前記時間−周波数ビンについての角度α(b,k)は、音声信号の振幅スペクトログラムによって左右される。
【0022】
一実施形態において、周波数変化決定部110は、例えば、さらに音声信号のサンプリング周波数f
sに依存して、および分析ウィンドウの長さNに依存して、および分析ウィンドウのホップサイズ(hop size)Hに依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての周波数の変化を決定するように構成されていてよい。
【0029】
このような実施形態において、分類部120は、例えば、さらに異方性の大きさの変化に依存して、2つ以上の信号成分群のうちの1つの信号成分群に対して複数の時間−周波数ビンのうちの各々の時間−周波数ビンを割当てるように構成されていてよい。
【0033】
以下では、実施形態の詳細な説明が提供される。
【0034】
実施形態は、構造テンソルに基づく調波−打楽器−残留(HPR)音分離についての改良された概念を提供する。いくつかの実施形態は、構造テンソルにより提供されるスペクトルの構造の向きに関する情報を活用することによって、調波成分中として、音調情報を保持する周波数変調された音を捕捉する。
【0035】
いくつかの実施形態は、水平および垂直への厳密な分類がこれらの信号には不適切であり、残留成分内への音調情報の漏出を導く可能性があるという発見に基づいている。実施形態は、その代わりとして、振幅スペクトログラム内の優勢な向きの角度を計算するための数学的ツールである構造テンソルを使用する新しい方法に関する。実施形態は、この向きの情報を用いて、周波数変調された信号の場合でさえ、調波、打楽器および残留信号成分を区別する。最後に、実施形態の概念の有効性は、客観的な評価の大きさならびに音声例の両方を用いて確認される。
【0036】
さらに、いくつかの実施形態は、ブラックボックスとして構造テンソルを考慮できるという発見に基づいており、そこでは、入力がグレースケール画像であり、出力が、最低の変化の方向に対応する各々の画素についての角度n、および各画素についてのこの方向の確実性または異方性の大きさである。構造テンソルはさらに、平滑化される可能性を提供し、これにより、強化されたロバスト性についての雑音の影響は軽減される。その上、確実性の大きさは、推定された角度の質を決定するために使用することができる。この確実性の大きさの低い値は、いかなる明確な方向も無い一定の明るさの領域内に画素が存在することを表わす。
【0037】
局所的な周波数の変化は、例えば、構造テンソルによって得られた角度から抽出され得る。これらの角度から、スペクトログラム内の時間−周波数ビンが調波成分(=低い局所的な周波数の変化)かまたは打楽器成分(=高いかまたは無限の局所的な周波数の変化)のいずれに属するかを決定することができる。
【0038】
調波−打楽器−残留分類および分離のための改良された実施形態が提供される。
【0039】
調波−打楽器−残留音分離は、音程のある楽器の採譜またはリズム抽出などの利用分野のための有用な前処理ツールである。厳密に水平なおよび垂直な構造だけを検索する代りに、いくつかの実施形態は、画像処理から公知である構造テンソルを使用することによって、スペクトログラム内の局所的な異方性と優勢な向きの角度も決定する。
【0040】
実施形態において、スペクトルの構造の向きに関して提供された情報は、このとき、適切な閾値を設定することによって、調波、打楽器および残留信号成分を区別するために使用可能である。
図2を参照されたい。
【0041】
図2は、歌声、カスタネットおよび拍手の混合のスペクトログラムを例示しており、拡大領域がさらに、構造テンソルにより得られた方向(矢印の向き)および異方性の大きさ(矢印の長さ)を示している。矢印の色は、それぞれの時間−周波数ビンが、向きおよび異方性情報に基づいて、調波成分(区域210)、打楽器成分(区域230)または残留成分(区域220)のいずれに割当てられるかを表わす。
【0042】
高くも低くもない局所的な周波数の変化率または一定の領域を表わす確実性の大きさを有する全てのビンは、残留成分に属するように割当てられた。スペクトログラムのこの分離についての一つの例が
図2に見られる。実施形態は、振幅スペクトログラムに基づいて機能する類似の方法に比べて、周波数変調された音を含む音声信号についてより優れた成果を示す。
【0043】
最初に、構造テンソルの概念について説明を行い、この一般的な概念を音声処理との関連で適応されるように拡張する。
【0044】
以下では、表記の便宜上、行列およびベクトルをボールド体で記している。その上、特定の要素の指標となるように(・)演算子が使用されている。この場合、行列またはベクトルは、そのスカラの使用を示すため非ボールド体で記されている。
【0045】
最初に、実施形態に係るスペクトログラムの計算を説明する。音声信号は、例えば、(離散)入力音声信号であってよい。
【0047】
上述の式(1)を使用することにより、スペクトログラムを得ることができる。スペクトログラムは複数のスペクトルを含み、ここで複数のスペクトルは互いに時間的に続いて起こる。第2のスペクトルを生成するために使用されるが第1のスペクトルを生成するために使用されず、第1のスペクトルを生成するのに使用される第1の時間領域サンプルよりも遅い時点を基準にする時間領域サンプルである、少なくともいくつかの第2の時間領域サンプルが存在する場合、複数のスペクトルのうちの第2のスペクトルが時間的に第1のスペクトルの後に起こる。近傍のスペクトルを適時に生成するために使用される時間領域サンプルのウィンドウは、例えば重複してよい。
【0048】
実施形態において、分析ウィンドウの長さNは、例えば、以下の通りになるように定義されてよい。
256サンプル≦N≦2048サンプル
【0049】
いくつかの実施形態において、分析ウィンドウの長さは、例えば、2048であってよい。他の実施形態において、分析ウィンドウの長さは、例えば、1024サンプルであってよい。さらなる実施形態において、分析ウィンドウの長さは、例えば、768サンプルであってよい。なおさらなる実施形態において、分析ウィンドウの長さは、例えば、256サンプルであってよい。
【0050】
実施形態において、分析ホップサイズHは、例えば、分析ウィンドウの25%〜75%の範囲内にあり得る。このような実施形態では、
0.25N≦H≦0.75N
である。
【0051】
こうして、このような実施形態において、分析ウィンドウが、例えば、2048サンプル(N=2048)を有する場合、分析ホップサイズは、例えば、以下の範囲内にあり得る。
512サンプル≦H≦1536サンプル
【0052】
分析ウィンドウが、例えば、256サンプル(N=256)を有する場合、分析ホップサイズは、例えば、以下の範囲内にあり得る。
64サンプル≦H≦192サンプル
【0053】
好ましい実施形態において、分析ホップサイズは、例えば、分析ウィンドウの50%であってよい。これは、2つの後の分析ウィンドウの50%というウィンドウの重複に対応する。
【0054】
いくつかの実施形態において、分析ホップサイズは、例えば、分析ウィンドウの25%であってよい。これは、2つの後の分析ウィンドウの75%というウィンドウの重複に対応する。
【0055】
他の実施形態において、分析ホップサイズは、例えば、分析ウィンドウの75%であってよい。これは、2つの後の分析ウィンドウの25%というウィンドウの重複に対応する。
【0056】
本発明の概念が、MDCT(修正離散コサイン変換)、MDST(修正離散サイン変換)、DSTFT(離散短時間フーリエ変換)などの、あらゆる種類の時間領域からスペクトル領域への変換について適用可能である、ということを留意しておくべきである。
【0058】
音声信号の振幅スペクトログラムをSと呼び、時間−周波数ビン(b,k)についての振幅スペクトログラムの値をS(b,k)と呼ぶことができる。
【0059】
以下では、実施形態に係る構造テンソルの計算について説明する。
【0064】
以下では、実施形態に係る角度および異方性の大きさの計算について説明する。
【0067】
atan()は、逆正接関数を表わす。
【0071】
各々の時間−周波数ビンについての周波数の変化は、例えば、瞬時周波数の変化率と呼んでもよい。
【0074】
以下では、構造テンソルを使用した調波−打楽器−残留分離について説明する。
【0075】
構造テンソルを介して得られた情報は、例えば、入力信号の調波、打楽器または残留成分のいずれかの一部であるものとしてスペクトログラム内の各ビンを分類する目的で、HPR分離の問題に適用可能である。
【0076】
実施形態は、調波成分に割当てられたビンがどちらかと言えば水平構造に属するべきであるのに対し、どちらかと言えば垂直構造に属するビンは打楽器成分に割当てられるべきである、という発見に基づくものである。その上、どの種類の向きの構造にも属さないビンは、残留成分に割当てられなければならない。
【0077】
実施形態によると、ビン(b,k)は、例えば、以下の2つの制約条件のうちの第1を満たす場合、調波成分に割当てられてよい。
【0079】
同様にして、実施形態において、ビンを打楽器成分に割当てなければならない場合を定義するために、別の角度閾値α
pが割当てられる(
図3中の垂直線を伴う区域330)。
【0080】
こうして、実施形態によると、ビン(b,k)は、例えば、以下の2つの制約条件のうちの第1を満たす場合、打楽器成分に割当てられてよい。
【0082】
最終的に、実施形態において、調波成分にも打楽器成分にも割当てられない全てのビンは、例えば、残留成分に割当てられてよい。
【0086】
対応する時間信号はこのとき、逆STFTにより計算することができる。
【0087】
図3は、構造テンソルによりコンピュータ処理される向き/異方性の値の範囲を例示する。
【0088】
詳細には、
図3は、調波成分に対する割当てを導く全ての点の部分集合を描いている。詳細には、波線を伴う区域310内の値は、調波成分に対する割当てを導く。
【0089】
垂直線を伴う区域330内の値は、打楽器成分に対する割当てを導く。
【0090】
ドットのある区域320内の値は、残留成分に対する割当てを導く。
【0091】
閾値α
hは
図3内で線301を画定し、閾値α
Pは
図3内で線302を画定する。
【0092】
図5は、2つ以上の信号成分群に対する複数の時間−周波数ビンの割当てに依存して音声出力信号を生成するように構成されている信号生成部130を含む、一実施形態における装置を例示する。
【0098】
こうして、信号生成部130は、音声出力信号を得るため、複数の時間−周波数ビンのうちの各々の時間−周波数ビンのマグニチュード値に対して重み付け係数を適用するように構成されており、ここで前記時間−周波数ビンに適用される重み付け係数は、前記時間−周波数ビンが割当てられている信号成分群に左右される。
【0099】
図5の特定の実施形態において、信号プロセッサ130は、例えば、2つ以上の音声出力チャンネルを含む音声出力信号を得るため音声信号をアップミックスするように構成されたアップミキサであり得る。アップミキサは、例えば、2つ以上の信号成分群に対する複数の時間−周波数ビンの割当てに依存して、2つ以上の音声出力チャンネルを生成するように構成されていてよい。
【0100】
例えば、2つ以上の音声出力チャンネルは、上述の通り、異なる信号成分群の時間−周波数ビンのマグニチュード値に対して異なる重み付け係数を適用することによって、音声信号の異なる成分を音声信号フィルタから生成されてよい。
【0101】
しかしながら、異なる音声チャンネルを生成するためには、信号成分群のために、異なる音声出力チャンネルの各々について例えば固有であり得る異なる重みを使用することができる。
【0105】
個別の重み付け係数を、各々の音声出力チャンネルの生成のために使用することができる。
【0106】
図6は、音声信号を記録するための1つ以上のマイクロホン171、172を含む、一実施形態における装置を例示する。
【0107】
図6において、第1のマイクロホン171は、音声信号の第1の音声チャンネルを記録する。オプションの第2のマイクロホン172は、音声信号のオプションの第2の音声チャンネルを記録する。
【0108】
さらに、
図6の装置は、第1の音声チャンネルを含みオプションで第2の音声チャンネルを含む音声信号から音声信号の振幅スペクトログラムを生成するための、振幅スペクトログラム生成部180をさらに含んでいる。音声信号から振幅スペクトログラムを生成することは、当業者にとっては周知の概念である。
【0109】
以下では、実施形態の評価を検討する。
【0110】
調波成分内の周波数変調された音の捕捉における実施形態の有効性を示すため、実施形態に係る構造テンソルに基づいたHPR方法(HPR−ST)は、文献[10]に提示されているメジアンフィルタリングに基づく非反復法(HPR−M)と比較される。さらに、最大到達可能な分離品質のための基準として役立っているイデアル2進マスク(IBM)を用いて分離結果についての測定規準も同様にコンピュータ処理される。
【0113】
実施形態に係るHPR−STの有効性は、客観的な評価の大きさならびに音声例の両方を用いて、文献[10]に提示されている現状の技術のメジアンフィルタリングに基づく方法HPR−Mと比較することによって、評価された。
【0114】
客観的な結果を得るために周波数変調された音を含む信号に適用された場合の実施形態に係るHPR−STおよび先行技術のHPR−Mの動きを比較するために、2つのテスト項目が設定された。
【0115】
テスト項目1は、純粋な合成音の重畳で構成されている。調波源は、1000Hzの基本周波数、3Hzのビブラート周波数、50Hzのビブラート範囲および4倍音を有するビブラート音調として選択された。打楽器源については、複数のインパルスが使用される一方で、ホワイトノイズは、調波でも打楽器でもない残留源を表わす。
【0116】
テスト項目2は、実世界での歌声の信号をビブラート(調波)、カスタネット(打楽器)および拍手(調波でも打楽器でもない)とスーパーインポーズすることによって生成された。
【0117】
これらの項目のHPR分離を音源分離の問題として解釈して、両方の手順の分離結果について、標準音源分離評価測定規準がコンピュータ処理されてきた(文献[18]中で紹介されているような音源対歪比SDR、音源対干渉比SIRおよび音源対アーチファクト比SAR)。結果が表1に示されている。
【0118】
表1は、客観的な評価の大きさが描かれ、表中全ての値はdB単位で示されている。
【0120】
項目1については、HPR−STがビブラート音調について21.25dBのSDRを生み出し、したがって、HPR−Mの分離結果(11.51dB)よりもIBMの最適分離結果(29.43dB)の方に近い。これは、HPR−STが、HPRMに比べて、調波成分内のこの周波数変調された音の捕捉時点で改善することを表わしている。これは
図4でも見られる。
【0121】
図4は、合成入力信号の抜粋についてのHPR−MとHPR−ST法の比較を例示している(項目1)。強化された可視性について、スペクトログラムは、分離アルゴリズムのために使用されたものとは異なるSTFTパラメータを用いて計算された。
【0122】
図4(a)は、時間との関係における入力信号の周波数を例示している。
図4では、両方の手順についてコンピュータ処理された調波成分および打楽器および残留成分の和のスペクトログラムがプロットされている。HPR−Mについては、ビブラート音調の急勾配傾斜が残留成分内に漏出している(
図4(b)および(c))のに対して、HPR−ST(
図4(d)および(e))は良好な分離を生み出している、ということが分かる。このことは同様に、HPR−STに比べてHPRMでは残留成分についてのSIR値が非常に低いこと(−11.99dB対14.12dB)も説明している。
【0123】
調波成分のみについてのHPR−Mの高いSIR値は、ビブラート音が全体としてうまく捕捉されていることではなく、他の成分からの干渉音がほとんど存在しないことを反映している、ということを留意しておくべきである。概して、項目1についての観察事実の大部分は、さほど顕著ではないが、項目2内の実世界の音の混合についても有効である。この項目については、ボーカルのHPR−MのSIR値は、HPR−STのSIR値を上回ってさえいる(20.83dB対15.61dB)。ここでもまた、拍手についての低いSIR値は、ボーカル内のビブラート部分がHPR−Mについての残留成分内に漏出しており(1.11dB)、その一方でHPR−STの残留成分が含む干渉音は比較的低いものである(6.34dB)ということを裏付けている。このことは、実施形態が、ボーカルの周波数変調された構造を、HPR−Mよりもはるかにうまく捕捉する能力を有していたことを表わしている。
【0124】
結果をまとめると、周波数変調された音調を含む信号について、実施形態のHPR−ST概念は、HPR−Mに比べてはるかに優れた分離結果を提供する。
【0125】
いくつかの実施形態では、歌声検出のために構造テンソルが利用される(先行技術に係る歌声検出については、文献[2]中に記載されている)。
【0126】
以下では、実施形態の別の態様が説明されている。このさらなる態様は、振幅スペクトログラムからの位相の復元に関係する。
【0127】
図7は、一実施形態における音声信号の振幅スペクトログラムからの位相復元装置を例示する。
【0128】
装置は、音声信号の振幅スペクトログラムに依存して、音声信号の振幅スペクトログラムの複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するように構成されている周波数変化決定部110を含む。
【0129】
さらに、装置は、複数の時間−周波数ビンについて決定された周波数の変化に依存して、複数の時間−周波数ビンについての位相値を生成するように構成されている位相復元部140を含む。
【0130】
実施形態によると、位相復元部140は、例えば、周波数の変化を2回積分することにより(時間で2回積分することにより)複数の時間−周波数ビンの各々の時間−周波数ビンについて位相値を生成するように構成されていてよい。換言すると、実施形態において、位相復元部140は、時間で2回積分することによって、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて位相値を生成するように構成されている。したがって、換言すると、積分が2回行なわれる間隔(単数または複数)は、スペクトログラムの時間軸に沿って延在する。
【0131】
他の実施形態によると、位相復元部140は、周波数で2回積分することにより(スペクトル的に2回積分することにより)、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて位相値を生成するように構成されている。したがって、換言すると、積分が2回行なわれる間隔(単数または複数)は、スペクトログラムの周波数軸に沿って延在する。例えば、2回行なわれる周波数に渡る積分は、例えば、式(30)および(31)に基づいて行なわれてよい。
【0133】
実施形態において、周波数変化決定部110は、例えば、時間−周波数ビンについての角度α(b,k)に依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するように構成されていてよく、ここで、前記時間−周波数ビンについての角度α(b,k)は、音声信号の振幅スペクトログラムによって左右される。
【0134】
実施形態によると、周波数変化決定部110は、例えば、さらに音声信号のサンプリング周波数f
sに依存して、および分析ウィンドウの長さNに依存して、および分析ウィンドウのホップサイズHに依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての周波数の変化を決定するように構成されていてよい。
【0138】
実施形態によると、位相復元部140は、複数の時間−周波数ビンについて決定された周波数の変化に依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて位相値を生成するように構成されていてよい。
【0139】
実施形態において、位相復元部140は、例えば、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて決定された周波数の変化に依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビン(b,k)について異方性の大きさを決定するように構成されていてよい。
【0142】
実施形態によると、位相復元部140は、例えば、位相の復元が行なわれるか否かに関わらず、異方性の大きさに依存して、複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて、位相復元モードを決定するように構成されていてよい。
【0143】
位相復元部140は、例えば、前記時間−周波数ビンについて位相復元部140が決定した位相復元モードが第1のモードを表わしている場合には、周波数の変化を2回積分することにより複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて位相値を生成するように構成されていてよい。さらに、位相復元部140は、例えば、前記時間−周波数ビンについて位相復元部140が決定した位相復元モードが、第1のモードと異なるものである第2のモードを表わしている場合には、周波数の変化を2回積分することにより複数の時間−周波数ビンのうちの各々の時間−周波数ビンについての位相を決定するように構成されていてよい。
【0144】
実施形態において、位相復元部140は、例えば、異方性の大きさが下方閾値cよりも大きい場合には位相復元モードが第1のモードを表わし、前記時間−周波数ビン(b,k)についての異方性の大きさが下方閾値c以下である場合には、位相復元モードが第2のモードを表わすように、複数の時間−周波数ビンのうちの各々の時間−周波数ビン(b,k)について位相復元モードを決定するように構成されていてよい。
【0145】
実施形態において、上方閾値および下方閾値cは、例えば、等しいものであってよい。
【0146】
あるいは、位相復元部140は、前記時間−周波数ビン(b,k)についての異方性の大きさが閾値c以上である場合には位相復元モードが第1のモードを表わし、異方性の大きさが閾値cより小さい場合には、位相復元モードが第2のモードを表わすように、複数の時間−周波数ビンのうちの各々の時間−周波数ビン(b,k)について位相復元モードを決定するように構成されている。
【0147】
第1のモードは、例えば、時間−周波数ビンが調波または打楽器信号成分群に属することを表わす場合がある。
【0148】
第1のモードは、例えば、時間−周波数ビンが残留信号成分群に属することを表わす場合がある。
【0149】
以下では、特定の実施形態に係る位相推定についてより詳細に説明する。
【0150】
所与の振幅スペクトログラムからの位相情報を推定する作業用のアルゴリズムが、文献[19]および[20]で提案されている。しかしながら、これらのアルゴリズムは、計算複雑性が高いか、または一般的な音声信号用としては知覚可能な品質が不十分であるという状況を導く。
【0151】
振幅スペクトログラムから位相情報を推定することは、例えば、デコーダにおいて位相が修復されている間にエンコーダが振幅のみを伝送する音声コーディングにおいて使用可能と考えられる作業である。一定の音調信号についてさえスペクトルが経時的な変動を示す現状の技術のMDCTに基づくコーディングと比べて、(例えば、DFT、またはMCLTとして知られるCMDCTの)振幅スペクトルは、はるかに安定しており、これにより経時的なビットレート効率の高い差分コーディング(文献[21]を参照)および有効なマルチチャンネル冗長性削減が可能になる。
【0153】
こうして、周波数の変化率を2回積分することにより現在の位相を得ることができる。離散領域内で機能する我々のアルゴリズムについては、この積分は総和へと変わる。各々のスペクトログラムビンが局所的な線形チャープ信号に対応すると仮定すると、構造テンソルにより推定される局所的な周波数の変化は、このとき、各局所的なチャープについてRに対応する。その上、構造テンソルを介して得られる異方性の大きさを使用して、いかなる明示的な信号モデルも事前の意味的な分類も無く、局所的な周波数の変化率の求められる積分を行なうことが可能である。
【0154】
高い異方性の大きさは、スペクトログラム内の音調または打楽器成分などの有向構造に対応することから、結果として、それは、ランダム位相が仮定され得る等方性の雑音領域とは対照的に、位相の復元が可能である領域に対応する。
【0155】
ここではこれについて、より詳細に説明する。
【0161】
これはすなわち、先行の分析ブロックにおける位相および瞬時周波数、さらには一定の周波数の変化R
0が分かっている場合、分析ブロックbにおける位相φ(bH)を計算することができることを意味している。
【0162】
例えばインパルスなどの過渡信号のために、これらの数式および式の双対(dual)を計算することができるという点に留意されたい。ただし、そこでは、一定の分析ブロックbのスペクトル位相ψ(k)=arg(X(b、k))内の周波数指標kとの関係において有限差分が行なわれなければならない。
【0164】
式(27)および式(29)についての双対の数式を、この事例について演繹することができる。
【0165】
実施形態によると、振幅スペクトルからの位相の復元のためのアルゴリズムが、構造テンソルにより得られた局所的な周波数の変化率の推定値を使用して、以上に説明された通りに提供される。
【0166】
それぞれ線形の周波数変化を有する局所的な線形チャープ信号に対応する各々のスペクトログラムビンを仮定すると、このとき、構造テンソルにより推定される局所的な周波数の変化R(b、k)は、先行の節で説明されているようにチャープ率または局所的な線形周波数変化R
0に対応する。このことはすなわち、構造テンソルによって得られる優勢な方向を、時間指標bとの関係においてかつ一部の乗法定数まで、φ
bb(b)の第2の導関数のための平滑化されたロバストな推定値として見ることができる、ということを意味する。
【0167】
この推定値を使用して、このとき、信号の現在の位相を計算するために、式(29)を使用することができる。より複雑な周波数変調を伴う信号についてさえ1つのビンの範囲内でのみ線形の周波数の変化が仮定されることから、位相推定値を得ることができる。瞬時周波数ならびに初期位相は、予め既知である(例えばサイド情報として伝送される)かまたは異なる方法で推定されなければならない、ということに留意すべきである。特に、瞬時周波数は、振幅スペクトルの導関数またはQFFTなどの内挿を使用して推定可能である。
【0168】
式(29)は、分析ブロック方向bへと厳密に加算する和を示すものの、より高度なアルゴリズムでは、和はスペクトログラム内の信号のメインローブ(main lobe)の軌道をたどらなければならない、ということに留意すべきである。したがって、総和の方向で暗示的または明示的のいずれかで構造テンソルを介して得られた方向情報と局所的な周波数の変化率をそれぞれ取込む必要がある可能性がある。これにより、推定された位相が周波数指標のk方向および分析ブロック指標のb方向での和の結果の重畳となる可能性がある。
【0169】
その上、式(29)を介して計算された式が、式(25)に示されている正弦の独立変数に対応する、ということに留意すべきである。これはスペクトル表示内で観察される位相に対する高い対応性を有するにせよ、各ビン(例えばスペクトルのサイドローブ(side lobe))についての位相を正しく合成するためには、さらなる知識(例えば、位相に依存しているスペクトルの分析式)を使用する必要があるかもしれない。
【0170】
その上、構造テンソルを介して得られる異方性の大きさを使用して、いかなる明示的な信号モデルも事前の意味的な分類も無く、局所的な周波数の変化率の必要な積分を行なうことが可能である。高い異方性の大きさは、スペクトログラム内の音調または打楽器成分などの有向構造に対応することから、結果として、それは、ランダム位相が仮定され得る等方性の雑音領域とは対照的に、位相の復元が可能である領域に対応する。
【0171】
その上、単音色信号(monotimbral signal)にアルゴリズムを限定する必要はない。
【0172】
実施形態は、先行技術に比べた利点を達成する。例えば、一部の実施形態は、コンピュータ処理に関して適度な複雑性を示す(例えば、文献[19]の場合より低い)。さらに、一部の実施形態は、周波数変調された信号について文献[20]の場合よりも優れた位相推定を示す。
【0173】
一部の実施形態は、信号成分の固有の分類を実現する。
【0174】
例えば、一部の実施形態によると、調波信号成分について位相推定が可能であり、打楽器信号成分について位相推定が可能であるが、残留信号成分および/または雑音の信号成分について位相推定は不可能である。
【0175】
以下では、音声コーディングの利用分野が考慮される。
【0176】
音声コーデックを設計するにあたっては、フィルタバンクの選択が極めて重要なステップである。最新のコーデックは、多くの場合、量子化の不在下で臨界的にサンプリングされた完璧な復元でありながら、50%の重複を提供することを理由としてMDCT(修正離散コサイン変換)を使用する。コーディングの利用分野では、これらの特性は、伝送すべきスペクトル係数のためのデータ量を低く保ちながらブロッキングアーチファクトを削減する。MDCTの不利な点は、定常信号についてさえ、経時的にスペクトル変動を示すことにある。これにより、先に伝送されたMDCTスペクトルの情報が現在のMDCTスペクトルの復元において限定的にしか使用できないことから、例えばスペクトル係数の差分コーディングについてコーディング利得の損失が導かれる。
【0177】
スペクトルの大きさ(magnitude of a spectrum)、例えば50%重複するMCLT(変調複素重複変換)フィルタバンクの大きさは、特に定常信号について、経時的にはるかに安定していることから、実施形態は、位相の復元のための上述の概念に基づいたコーデックの設計を提供する 文献[21]。
【0178】
実施形態によると、エンコーダは、例えば1フレームなどの一定時間の間隔についての複素スペクトルX(f)を得るために分析フィルタバンクを使用してPCM入力信号x(t)の時間周波数分解を行なう。X(f)は、サイド情報を抽出するために使用される。
【0179】
実施形態において、サイド情報は、例えば、過渡信号および/または初期位相の基本周波数および/または時間位置(例えば一定の間隔での)および/または現在の信号クラスについての情報などを含む。
【0180】
次に、X(f)の大きさは|Y(f)|に量子化され、サイド情報と共にデコーダに伝送される。次にデコーダは、サイド情報ならびに量子化された振幅スペクトル|Y(f)|を使用して、上述のように、元の複素スペクトルX(f)の位相を推定する。この推定された位相を使用して、X(f)と共通点の多いはずの複素スペクトルY(f)を得ることができる。Y(f)は次に、時間領域出力信号y(t)を得るため、合成フィルタバンクに送り込まれる。提案されたMCLTフィルタバンクを用いて、このようなコーデックは、定常信号の差動コーディングのより効率の良い可能性を提供しながら、重複および臨界サンプリングなどの望ましい特徴をなおも示す。
【0181】
図8は、信号生成部150を含む上述の実施形態の1つに係る位相復元装置を例示する。信号生成部150は、音声信号の振幅スペクトログラムに依存して、かつ複数の時間−周波数ビンについての位相値に依存して、音声出力信号を生成するように構成されている。
【0182】
例えば、振幅スペクトログラムは、特定の時間−周波数ビンについての振幅値を提供し、特定の時間−周波数ビンについての位相値は、位相復元部140によってすでに復元されている。
【0183】
図9は、一実施形態におけるエンコーダ210およびデコーダ220を含むシステムを例示しており、ここでデコーダ220は、上述の実施形態の1つに係る位相復元装置である。
【0184】
エンコーダ210は、音声信号の振幅スペクトログラムを符号化するように構成されている。
【0185】
デコーダ220は、音声信号の振幅スペクトログラムに依存して、音声信号の振幅スペクトログラムの複数の時間−周波数ビンのうちの各々の時間−周波数ビンについて周波数の変化を決定するように構成されている。
【0186】
さらに、デコーダ220は、複数の時間−周波数ビンについて決定された周波数の変化に依存して、複数の時間−周波数ビンについての位相値を生成するように構成されている。
【0187】
その上、デコーダ220は、音声信号の振幅スペクトログラムを使用し、かつ複数の時間−周波数ビンについての位相値を使用して、音声信号を復号化するように構成されている。
【0188】
図10は、伝送のために振幅スペクトルを使用する、実施形態に係る音声エンコーダ210および音声デコーダ220を例示する。
【0189】
音声エンコーダ210は、上述のような位相復元装置のために音声信号の振幅スペクトログラムを生成するように構成されている。
図10では、デコーダ220は、例えば、上述のような位相復元装置であり得る。
【0190】
いくつかの態様が装置に関連して説明されてきたが、これらの態様が、対応する方法の説明も表わしていることは明らかであり、そこでは、ブロックまたはデバイスが、方法ステップまたは方法ステップの特徴に対応する。同様にして、方法ステップに関連して説明された態様は同様に、対応する装置の対応するブロックまたは品目または特徴の説明も表わす。方法ステップの一部または全ては、ハードウェア装置、例えばマイクロプロセッサ、プログラマブルコンピュータ、または電子回路などによって(またはこれらを使用して)実行されてよい。一部の実施形態において、最も重要な方法ステップの1つ以上をこのような装置により実行してもよい。
【0191】
一定の実装の要件に依存して、本発明の実施形態をハードウェアまたはソフトウェアあるいは、少なくとも部分的にハードウェアまたは少なくとも部分的にソフトウェアで実装することができる。実装は、それぞれの方法が行なわれるようにプログラマブルコンピュータシステムと協働し(または協働する能力を有し)、そこに記録された電子的に可読の制御信号を有する、例えばフロッピー(登録商標)ディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリなどのデジタル記憶媒体を使用して行なうことができる。したがって、デジタル記憶媒体は、コンピュータ可読であってよい。
【0192】
本発明に係る一部の実施形態は、本明細書中に記載の方法の1つが行なわれるようにプログラマブルコンピュータシステムと協働する能力を有する電子的に可読の制御信号を有するデータキャリアを含む。
【0193】
概して、本発明の実施形態は、プログラムコードを伴うコンピュータプログラムプロダクトとして実装され得、このプログラムコードは、コンピュータプログラムプロダクトがコンピュータ上で実行されるとき、方法のうちの1つを行なうのに有効であり得る。プログラムコードは、例えば、機械可読キャリア上に記憶されてよい。
【0194】
他の実施形態は、機械可読キャリア上に記憶された、本明細書中に記載の方法のうちの1つを行なうためのコンピュータプログラムを含む。
【0195】
換言すると、発明に関する方法の一実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行されるとき、本明細書中に記載の方法のうちの1つを行なうためのプログラムコードを有するコンピュータプログラムである。
【0196】
発明に関する方法のさらなる実施形態は、したがって、本明細書中に記載の方法のうちの1つを行なうためのコンピュータプログラムを記録して含むデータキャリア(すなわちデジタル記憶媒体またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体または記録された媒体は、典型的に有形かつ/または非一時的である。
【0197】
発明に関する方法のさらなる実施形態は、したがって、本明細書中に記載の方法のうちの1つを行なうためのコンピュータプログラムを表わすデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えばインターネットを介してなどのデータ通信接続を介して転送されるように構成されていてよい。
【0198】
さらなる実施形態は、本明細書中に記載の方法のうちの1つを行なうように構成されたまたはそのように適応された処理手段、例えばコンピュータまたはプログラマブル論理デバイスを含む。
【0199】
さらなる実施形態は、本明細書中に記載の方法のうちの1つを行なうためのコンピュータプログラムがインストールされたコンピュータを含む。
【0200】
本発明に係るさらなる実施形態は、本明細書中に記載の方法のうちの1つを行なうためのコンピュータプログラムをレシーバに転送する(例えば電子的にまたは光学的に)ように構成された装置またはシステムを含む。レシーバは、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、例えば、レシーバに対してコンピュータプログラムを転送するためのファイルサーバを含んでいてよい。
【0201】
一部の実施形態において、プログラマブル論理デバイス(例えばフィールドプログラマブルゲートアレイ)は、本明細書中に記載の方法の機能のいくつかまたは全てを行なうために使用されてよい。一部の実施形態において、フィールドプログラマブルゲートアレイは、マイクロプロセッサと協働して、本明細書中に記載の方法のうちの1つを行なうことができる。概して、本方法は、好ましくは任意のハードウェア装置によって行なわれる。
【0202】
本明細書中に記載の装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組合せを使用して実装されてよい。
【0203】
本明細書中に記載の方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組合せを使用して行なわれてよい。
【0204】
上述の実施形態は、本発明の原理を単に例示しているにすぎない。本明細書中に記載の配置および詳細の修正および変形形態が当業者にとっては明白であるということが理解される。したがって、本明細書中の実施形態の描写および説明として提示された具体的詳細によってではなく、以下の特許請求の範囲によってのみ限定されることが意図されているところである。