【課題を解決するための手段】
【0010】
本発明の目的は、音声信号処理に対してより良い概念を提供することである。本発明の目的は、請求項1に記載のエンコーダ、請求項12に記載のデコーダ、請求項13に記載のシステム、請求項14に記載の方法、及び請求項15に記載のコンピュータプログラムにより達成される。
【0011】
音声信号処理デコーダであって、少なくとも1個の周波数帯を備え、少なくとも1個の周波数帯において複数の入力チャネルを有する入力音声信号を処理するよう構成されるデコーダが提供される。デコーダは、入力チャネル間のチャネル間依存性に応じて入力チャネルの位相をアライメントするよう構成され、入力チャネルの位相は、そのチャネル間依存性が高いほど相互に対してよりアライメントされる。更に、デコーダは、アライメントされた入力音声信号を、入力チャネルの数より少ない数の出力チャネルを有する出力音声信号にダウンミックスするよう構成される。
【0012】
デコーダの基本的な動作原理は、入力音声信号の相互依存な(コヒーレントな)入力チャネルは、特定の周波数帯における位相に関して相互に誘引し合い、入力音声信号の相互に独立した(非干渉な)入力チャネルは、影響を受けない。提案するデコーダの目的は、クリティカルな信号キャンセル条件における等化後手法に対するダウンミックス品質を向上させつつ、非クリティカルな条件においても同一の性能を提供することである。
【0013】
更に、デコーダの機能の少なくとも一部を、例えば、入力音声信号を出力するエンコーダ等の外部装置に移動してもよい。これにより、従来技術によるデコーダでは、アーチファクトが発生するような信号に対応可能となる。更に、デコーダを変更することなく、ダウンミックス処理規則を更新し、高いダウンミックス品質を確保することが可能である。デコーダの機能の移動については、後に詳述する。
【0014】
実施の形態によっては、デコーダは、周波数帯における入力音声信号を分析して、入力音声チャネル間のチャネル間依存性を特定するよう構成されてもよい。この場合、入力音声信号の分析自体は、デコーダで実行されるため、入力音声信号を出力するエンコーダは、標準的エンコーダであってもよい。
【0015】
実施の形態において、デコーダは、入力チャネル間のチャネル間依存性を、例えば、入力音声信号を出力するエンコーダ等の外部装置から受信するよう構成されてもよい。当該構成により、デコーダにおける柔軟なレンダリング設定が可能となるが、エンコーダ及びデコーダ間で必要となる付加データ通信量が通常デコーダの入力信号を含むビットストリームにおいて増加する。
【0016】
実施の形態によっては、デコーダは、出力音声信号のエネルギを入力音声信号の決定されたエネルギに基づき正規化するよう構成されてもよく、デコーダは、入力音声信号の信号エネルギを決定するよう構成される。
【0017】
実施の形態によっては、デコーダは、出力音声信号のエネルギを入力音声信号の決定されたエネルギに基づき正規化するよう構成されてもよく、デコーダは、入力音声信号の決定されたエネルギを、例えば、入力音声信号を出力するエンコーダ等の外部装置から受信するよう構成される。
【0018】
入力音声信号の信号エネルギを決定し、且つ出力音声信号のエネルギを正規化することにより、出力音声信号のエネルギが別の周波数帯と比べて適切なレベルとなるよう保証してもよい。例えば、正規化は、各周波数帯の音声出力信号のエネルギが周波数帯の入力音声信号エネルギの総和に、対応するダウンミックスゲインの二乗を乗じたものと同一となるよう実行されてもよい。
【0019】
様々な実施の形態において、デコーダは、ダウンミックスマトリックスに基づいて入力音声信号をダウンミックスするダウンミキサーを備えていてもよく、デコーダは、入力チャネルの位相が特定されたチャネル間依存性に基づいてアライメントされるようダウンミックスマトリックスを算出するよう構成される。マトリックス演算は、多次元の問題を効果的に解決するための数学的ツールである。したがって、ダウンミックスマトリックスを用いることにより、入力音声信号を入力音声信号の入力チャネル数より少ない数の出力チャネルを有する出力音声信号にダウンミックスするための柔軟で簡単な方法が供給される。
【0020】
実施の形態によっては、デコーダは、ダウンミックスマトリックスに基づいて入力音声信号をダウンミックスするダウンミキサーを備え、デコーダは、入力チャネルの位相が特定されたチャネル間依存性に基づいてアライメントされるよう算出されたダウンミックスマトリックスを、例えば、入力音声信号を出力するエンコーダ等の外部装置から受信するよう構成される。これにより、デコーダにおける出力音声信号の処理複雑性が大きく軽減される。
【0021】
特定の実施の形態においては、デコーダは、出力音声信号のエネルギが入力音声信号の決定されたエネルギに基づいて正規化されるよう前記ダウンミックスマトリックスを算出するよう構成されてもよい。この場合、信号処理が単純になるよう、出力音声信号のエネルギの正規化は、ダウンミックス処理に統合される。
【0022】
実施の形態において、デコーダは、出力音声信号のエネルギが入力音声信号の決定されたエネルギに基づいて正規化されるよう算出された前記ダウンミックスマトリックスMを、例えば、入力音声信号を出力するエンコーダ等の外部装置から受信するよう構成されてもよい。
【0023】
エネルギ等化ステップは、複雑ではなく明確に定義される処理ステップであるため、符号化処理に含めてもよく、又はデコーダにおいて実行してもよい。
【0024】
実施の形態によっては、デコーダは、入力音声信号の時間間隔を窓関数を用いて分析するよう構成されてもよく、各時間フレームに対してチャネル間依存性が決定される。
【0025】
実施の形態において、デコーダは、入力音声信号の時間間隔の窓関数を用いた分析を、例えば、入力音声信号を出力するエンコーダ等の外部装置から受信するよう構成されてもよく、各時間フレームに対してチャネル間依存性が決定される。
【0026】
当該処理は、どちらの場合も重複するフレームを用いた方法で行われても良く、例えば、再帰窓を用いて適切なパラメータを推定する等、別の選択肢も容易に使用可能である。原則として選択される窓関数は、問わない。
【0027】
実施の形態によっては、デコーダは、共分散値マトリックスを算出するよう構成され、共分散値は、一対の入力音声チャネルのチャネル間依存性を表現する。共分散値マトリックスを算出することは、入力音声信号の入力チャネルのコヒーレンスを決定するために用いてもよい周波数帯の短時間確率的特性を得るための簡単な方法である。
【0028】
実施の形態において、デコーダは、共分散値マトリックスを、例えば、入力音声信号を出力するエンコーダ等の外部装置から受信するよう構成され、共分散値は、一対の入力音声チャネルのチャネル間依存性を表現する。この場合、共分散マトリックスの計算は、エンコーダで行ってもよい。その後、エンコーダ及びデコーダ間で共分散マトリックスの共分散値をビットストリームに含めて伝送しなければならない。この構成により受信装置において柔軟なレンダリング設定が可能となるが、出力音声信号において付加データが必要となる。
【0029】
好ましい実施の形態において、正規化共分散値マトリックスが作成されてもよく、正規化共分散値マトリックスは、共分散値マトリックスに基づく。当該特性により、更なる処理を単純化できる。
【0030】
実施の形態によっては、デコーダは、マッピング関数を共分散値マトリックス又は共分散値マトリックスから導出されるマトリックスに適用することにより誘引値マトリックスを作成するよう構成されてもよい。
【0031】
実施の形態によっては、マッピング関数の勾配は、全共分散値又は共分散値から導出される値に対してゼロ以上であってもよい。
【0032】
好ましい実施の形態において、マッピング関数は、ゼロと1との間の入力値に対してゼロと1との間の値に到達してもよい。
【0033】
実施の形態において、デコーダは、マッピング関数を共分散値マトリックス又は共分散値マトリックスから導出されるマトリックスに適用することにより作成された誘引値マトリックスAを受信するよう構成されてもよい。非線形関数を共分散値マトリックス又は、例えば、正規化共分散マトリックス等の共分散値マトリックスから導出されるマトリックスに適用することにより、どちらの場合も、位相アライメントが調整される。
【0034】
位相誘引値マトリックスは、チャネルペア間の位相誘引度を決定する位相誘引係数の形で制御データを提供する。位相調整は、共分散値が低いチャネルは、相互に影響せず、共分散値が高いチャネルは、相互に位相ロックされるよう、測定共分散値マトリックスに基づいて各時間周波数タイルに対して導出される。
【0035】
実施の形態によっては、マッピング関数は、非線形関数である。
【0036】
実施の形態において、マッピング関数は、第1のマッピング閾値より小さい共分散値又は共分散値から導出される値に対してはゼロに等しく、及び/又はマッピング関数は、第2のマッピング閾値より大きい共分散値又は共分散値から導出される値に対しては1に等しい。当該特性により、マッピング関数は、3個の区間から成る。第1のマッピング閾値より小さい全共分散値又は共分散値から導出される値に対しては、位相誘引係数は、ゼロに算出され、したがって、位相調整は、実行されない。第1のマッピング閾値より大きく且つ第2のマッピング閾値より小さい全共分散値又は共分散値から導出される値に対しては、位相誘引係数は、ゼロと1との間の値に算出され、したがって、部分的位相調整が実行される。第2のマッピング閾値より大きい全共分散値又は共分散値から導出される値に対しては、位相誘引係数は、1に算出され、したがって、完全な位相調整が実行される。
【0037】
以下は、マッピング関数の一例である。
【数1】
【0038】
以下は、別の好ましい一例である。
【数2】
【0039】
実施の形態によっては、マッピング関数は、S字曲線を形成する関数により表現されてもよい。
【0040】
所定の実施の形態において、デコーダは、位相アライメント係数マトリックスを算出するよう構成され、位相アライメント係数マトリックスは、前記共分散値マトリックス及びプロトタイプダウンミックスマトリックスに基づく。
【0041】
実施の形態において、デコーダは、位相アライメント係数マトリックスを、例えば、入力音声信号を出力するエンコーダ等の外部装置から受信するよう構成され、位相アライメント係数マトリックスは、前記共分散値マトリックス及びプロトタイプダウンミックスマトリックスに基づく。
【0042】
位相アライメント係数マトリックスは、入力音声信号の非ゼロ誘引チャネルをアライメントするために必要な位相アライメント容量を記述する。
【0043】
プロトタイプダウンミックスマトリックスは、どの入力チャネルがどの出力チャネルにミキシングされるかを定義する。ダウンミックスマトリックスの係数は、入力チャネルを出力チャネルにダウンミックスするためのスケーリング因数であってもよい。
【0044】
位相アライメント係数マトリックスの計算全体をエンコーダで行っても良い。その後、位相アライメント係数マトリックスは、入力音声信号に含めて伝送される必要があるが、その要素は、多くの場合、ゼロであり、任意の方法で量子化できる。位相アライメント係数マトリックスは、プロトタイプダウンミックスマトリックスに大きく依存するため、当該マトリックスは、エンコーダ側で認識されている必要がある。これにより、可能な出力チャネル設定が制限される。
【0045】
実施の形態によっては、隣接する時間フレーム間の信号キャンセルによる一次的なアーチファクトが防止されるよう、ダウンミックスマトリックスのダウンミックスの位相及び/又は振幅は、時間に沿って平滑なものとなるよう定式化される。ここで「時間に沿って平滑な」という文言は、ダウンミックス係数において時間に沿って急激な変化が発生しないことを意味する。詳細には、ダウンミックス係数は、時間に沿って連続関数又は準連続関数に基づいて変化してもよい。
【0046】
実施の形態において、隣接する周波数帯間の信号キャンセルによるスペクトルアーチファクトが防止されるよう、ダウンミックスマトリックスのダウンミックスの位相及び/又は振幅は、周波数に沿って平滑なものとなるよう定式化される。ここで「周波数に沿って平滑な」という文言は、ダウンミックス係数において周波数に沿って急激な変化が発生しないことを意味する。詳細には、ダウンミックス係数は、周波数に沿って連続関数又は準連続関数に基づいて変化してもよい。
【0047】
実施の形態によっては、デコーダは、正規化位相アライメント係数マトリックスを算出又は受信するよう構成され、正規化位相アライメント係数マトリックスは、位相アライメント係数マトリックスに基づく。当該特性により、更なる処理を単純化できる。
【0048】
好ましい実施の形態において、デコーダは、位相アライメント係数マトリックスに基づいて正則化位相アライメント係数マトリックスを作成するよう構成される。
【0049】
実施の形態において、デコーダは、正則化位相アライメント係数マトリックスを位相アライメント係数マトリックスに基づいて、例えば、入力音声信号を出力するエンコーダ等の外部装置から受信するよう構成される。
【0050】
提案するダウンミックス手法によれば、位相が対向する信号の、位相アライメント処理の極性が突然切替わる可能性のあるクリティカル条件において効果的に正則化できる。
【0051】
突然変化する位相調整係数が原因の、遷移域において隣接するフレーム間のキャンセルを抑制するために、更なる正則化ステップが定義される。当該正則化及び隣接する時間周波数タイル間の急激な位相変化の抑制が、提案するダウンミックス方法の利点である。当該方法は、隣接する時間周波数タイル間で位相が急に変化した場合、又は隣接する周波数帯間でノッチが形成された場合に発生することがある不要なアーチファクトを抑制する。
【0052】
正則化位相アライメントダウンミックスマトリックスは、位相正則化係数θ
i,jを正規化位相アライメントマトリックスに適用することにより得られる。
【0053】
正則化係数は、各時間/周波数タイルに対する処理ループ内で算出されてもよい。正則化は、時間及び周波数方向において再帰的に適用されてもよい。隣接するタイムスロット間及び周波数帯間の位相差が考慮され、重み付きマトリックスを生成する誘引値により重み付けされる。後に詳述する通り、当該マトリックスから正則化係数を導出してもよい。
【0054】
好ましい実施の形態において、ダウンミックスマトリックスは、正則化位相アライメント係数マトリックスに基づく。これにより、ダウンミックスマトリックスのダウンミックスが時間及び周波数に沿って平滑なものとなるよう保証される。
【0055】
更に、音声信号処理エンコーダであって、少なくとも1個の周波数帯を備え、少なくとも1個の周波数帯において複数の入力チャネルを有する入力音声信号を処理するよう構成され、エンコーダは、入力チャネル間のチャネル間依存性に応じて入力チャネルの位相をアライメントするよう構成され、入力チャネルの位相は、そのチャネル間依存性が高いほど、相互に対してよりアライメントされ、エンコーダは、アライメントされた入力音声信号を、入力チャネルの数より少ない数の出力チャネルを有する出力音声信号にダウンミックスするよう構成される。
【0056】
音声信号処理エンコーダは、本出願に記載の音声信号処理デコーダと同様に構成されてもよい。
【0057】
更に、音声信号処理エンコーダであって、少なくとも1個の周波数帯を有し、且つビットストリームを出力するよう構成され、ビットストリームは、周波数帯において符号化音声信号を備え、符号化音声信号は、少なくとも1個の周波数帯において複数の符号化チャネルを有し、エンコーダは、
入力音声信号の符号化チャネル間のチャネル間依存性を決定し、ビットストリームに含めてチャネル間依存性を出力し、及び/又は
符号化音声信号のエネルギを決定し、符号化音声信号の決定されたエネルギをビットストリームに含めて出力し、及び/又は
符号化チャネルの位相が特定されたチャネル間依存性に基づきアライメントされるよう、好ましくは、符号化音声信号の決定されたエネルギに基づきダウンミキサーの出力音声信号のエネルギが正規化されるよう、ダウンミックスマトリックスに基づいて入力音声信号をダウンミックスするダウンミキサーに対してダウンミックスマトリックスMを算出するよう構成され、隣接する時間フレーム間の信号キャンセルによる一時的なアーチファクトが防止されるよう、ダウンミックスマトリックスのダウンミックス係数が時間に沿って平滑となるよう定式化され、及び/又は、詳細には隣接する周波数帯間の信号キャンセルによるスペクトルアーチファクトが防止されるよう、ダウンミックスマトリックスのダウンミックス係数は、振幅が周波数に沿って平滑となるよう定式化され、ダウンミックスマトリックスMをビットストリームに含めて出力し、及び/又は
符号化音声信号の時間間隔を窓関数を用いて分析し、各時間フレームに対してチャネル間依存性が決定され、且つ各時間フレームに対するチャネル間依存性をビットストリームに含めて出力し、及び/又は
共分散値マトリックスを算出し、共分散値は、一対の符号化音声チャネル(38)のチャネル間依存性を表現し、且つ共分散値マトリックスをビットストリームに含めて出力し、及び/又は
勾配が、好ましくは、全共分散値又は共分散値から導出される値に対してゼロ以上であり、好ましくは、ゼロと1との間の入力値に対してゼロと1との間の値に到達するマッピング関数、詳細には、非線形関数、詳細には、第1のマッピング閾値より小さい共分散値又は共分散値から導出される値に対してゼロに等しく、及び/又は第2のマッピング閾値より大きい共分散値又は共分散値から導出される値に対して1に等しく、及び/又はS字曲線を形成する関数により表現されるマッピング関数を、共分散値マトリックス又は共分散値マトリックスから導出されるマトリックスに適用することにより誘引値マトリックスを作成し、且つ誘引値マトリックスをビットストリームに含めて出力し、及び/又は
位相アライメント係数マトリックスを算出し、位相アライメント係数マトリックスは、共分散値マトリックス及びプロトタイプダウンミックスマトリックスに基づくものであり、及び/又は
位相アライメント係数マトリックスVに基づき正則化位相アライメント係数マトリックスを作成し、且つ正則化位相アライメント係数マトリックスをビットストリームに含めて出力するよう構成される。
【0058】
本明細書に記載の通り、当該エンコーダのビットストリームは、デコーダに伝送されて復号されてもよい。更なる詳細については、デコーダに関する説明を参照する。
【0059】
また、本発明による音声信号処理デコーダと、本発明による音声信号処理エンコーダとを備えるシステムが提供される。
【0060】
更に、周波数帯において複数の入力チャネルを有する入力音声信号を処理するための方法であって、方法は、周波数帯における入力音声信号を分析し、入力音声チャネル間のチャネル間依存性が特定されるステップと、
特定されたチャネル間依存性に基づいて入力チャネルの位相をアライメントし、入力チャネルの位相がそのチャネル間依存性より高いほど相互によりアライメントされるステップと、
アライメントされた入力音声信号を、周波数帯内の入力チャネルの数より少ない数の出力チャネルを有する出力音声信号にダウンミックスするステップと、を備える方法が提供される。
【0061】
更に、コンピュータ又は信号プロセッサ上で動作する際に、上記の方法を実行するコンピュータプログラムが提供される。
【0062】
以下に、本発明の実施の形態を以下に説明する図面を参照して詳述する。