(58)【調査した分野】(Int.Cl.,DB名)
前記現在フレームの中のチャネル間時間差及び前記現在フレームの中の遷移セグメントの初期長に基づき、前記現在フレームの中の前記遷移セグメントの適応長を決定する前記ステップは、
前記現在フレームの中の前記チャネル間時間差の絶対値が前記現在フレームの中の前記遷移セグメントの前記初期長以上であるとき、前記現在フレームの中の前記遷移セグメントの前記初期長を、前記現在フレームの中の前記遷移セグメントの前記適応長として決定するステップ、又は、
前記現在フレームの中の前記チャネル間時間差の絶対値が前記現在フレームの中の前記遷移セグメントの前記初期長未満であるとき、前記現在フレームの中の前記チャネル間時間差の前記絶対値を、前記遷移セグメントの前記適応長として決定するステップ、
を含む、請求項1に記載の方法。
前記第2変更係数が予め設定されたアルゴリズムに従い決定されるとき、前記第2変更係数は、前記現在フレームの中の前記基準音声チャネル信号及び前記目標音声チャネル信号、前記現在フレームの中の前記チャネル間時間差、前記現在フレームの中の前記遷移セグメントの前記適応長、前記現在フレームの中の前記遷移ウインドウ、及び前記現在フレームの中の前記利得変更因子に基づき決定される、請求項4乃至7のいずれか一項に記載の方法。
前記現在フレームの中のチャネル間時間差、及び前記現在フレームの中の遷移セグメントの初期長に基づき、前記現在フレームの中の前記遷移セグメントの適応長を決定する前記ステップは、
前記現在フレームの中の前記チャネル間時間差の絶対値が前記現在フレームの中の前記遷移セグメントの前記初期長以上であるとき、前記現在フレームの中の前記遷移セグメントの前記初期長を、前記現在フレームの中の前記遷移セグメントの前記適応長として決定するステップ、又は、
前記現在フレームの中の前記チャネル間時間差の絶対値が前記現在フレームの中の前記遷移セグメントの前記初期長未満であるとき、前記現在フレームの中の前記チャネル間時間差の前記絶対値を、前記遷移セグメントの前記適応長として決定するステップ、
を含む、請求項11又は12に記載の方法。
前記第2変更係数が予め設定されたアルゴリズムに従い決定されるとき、前記第2変更係数は、前記現在フレームの中の前記基準音声チャネル信号及び前記目標音声チャネル信号、前記現在フレームの中の前記チャネル間時間差、前記現在フレームの中の前記遷移セグメントの前記適応長、前記現在フレームの中の前記遷移ウインドウ、及び前記現在フレームの中の前記利得変更因子に基づき決定される、請求項18乃至21のいずれか一項に記載の機器。
プログラムの記録されたコンピュータ可読記憶媒体であって、前記プログラムは、コンピュータに請求項1乃至14のいずれかに記載の方法を実行させる、コンピュータ可読記憶媒体。
【発明を実施するための形態】
【0065】
以下は、添付の図面を参照して、本願の技術的ソリューションを説明する。
【0066】
本願の実施形態におけるステレオ信号符号化の間に信号を再構成する方法の理解を促進するために、以下は、先ず、
図1及び
図2を参照して、時間ドメインステレオ符号化/復号方法の符号化/復号処理全体を一般的に記載する。
【0067】
理解されるべきことに、本願におけるステレオ信号は、生ステレオ信号、マルチチャネル信号に含まれる2つの信号を含むステレオ信号、又はマルチチャネル信号に含まれる複数の信号により共同で生成される2つの信号を含むステレオ信号であってよい。ステレオ信号符号化方法は、マルチチャネル
信号符号化方法で使用されるステレオ信号符号化方法であってもよい。
【0068】
図1は、時間ドメインステレオ符号化方法の概略フローチャートである。符号化方法100は、具体的に以下のステップを含む。
【0069】
110。エンコーダ側は、ステレオ信号のチャネル間時間差を推定して、ステレオ信号のチャネル間時間差を取得する。
【0070】
ステレオ信号は、左音声チャネル信号及び右音声チャネル信号を含む。ステレオ信号のチャネル間時間差は、左音声チャネル信号と右音声チャネル信号との間の時間差である。
【0071】
120。推定を通じて取得したチャネル間時間差に基づき、左音声チャネル信号及び右音声チャネル信号に対して、遅延整列処理を実行する。
【0072】
130。ステレオ信号のチャネル間時間差を符号化して、チャネル間時間差の符号化インデックスを取得し、符号化インデックスをステレオ符号化ビットストリームに書き込む。
【0073】
140。音声チャネル合成比因子を決定し、音声チャネル合成比因子を符号化して音声チャネル合成比因子の符号化インデックスを取得し、符号化インデックスをステレオ符号化ビットストリームに書き込む。
【0074】
150。音声チャネル合成比因子に基づき、遅延整列処理の後に取得した左音声チャネル信号及び右音声チャネル信号に対して時間ドメインダウンミキシング処理を実行する。
【0075】
160。ダウンミキシング処理の後に取得した1次音声チャネル信号及び2次音声チャネル信号を別個に符号化して、1次音声チャネル信号及び2次音声チャネル信号を含むビットストリームを取得し、ステレオ符号化ビットストリームにビットストリームを書き込む。
【0076】
図2は、時間ドメインステレオ復号方法の概略フローチャートである。復号方法200は、具体的に以下のステップを含む。
【0077】
210。受信したビットストリームに基づき、復号を通じて、1次音声チャネル信号及び2次音声チャネル信号を取得する。
【0078】
ステップ210におけるビットストリームは、エンコーダ側からデコーダ側により受信されてよい。さらに、ステップ210は、1次音声チャネル信号及び2次音声チャネル信号を別個に復号して、1次音声チャネル信号及び2次音声チャネル信号を取得することと等価である。
【0079】
220。受信したビットストリームに基づき、復号を通じて、音声チャネル合成比因子を取得する。
【0080】
230。音声チャネル合成比因子に基づき、1次音声チャネル信号及び2次音声チャネル信号に対して時間ドメインアップミキシング処理を実行して、時間ドメインアップミキシング処理の後に取得される再構成された左音声チャネル信号及び再構成された右音声チャネル信号を取得する。
【0081】
240。受信したビットストリームに基づき、復号を通じて、チャネル間時間差を取得する。
【0082】
250。チャネル間時間差に基づき、時間ドメインアップミキシング処理の後に取得した再構成された左音声チャネル信号及び再構成された右音声チャネル信号に対して、遅延調整を実行して、復号ステレオ信号を取得する。
【0083】
遅延整列処理の処理において(例えば、ステップ120)、後の到着時間を有する目標音声チャネルが、チャネル間時間差に基づき、基準音声チャネルと同じ遅延を有するよう調整される場合、目標音声チャネル上の順方向信号は、遅延整列処理の間に手動で再構成される必要がある。さらに、目標音声チャネル上の現実の信号と目標音声チャネル上の再構成された順方向信号との間の遷移の円滑さを向上するために、現在フレームの中の目標音声チャネル上の現実の信号と手動で再構成された順方向信号との間で、遷移セグメント信号が生成される。既存のソリューションでは、現在フレームの中の遷移セグメント信号は、通常、現在フレームの中のチャネル間時間差、現在フレームの中の遷移セグメントの初期長、現在フレームの中の遷移ウインドウ関数、現在フレームの中の利得変更因子、及び現在フレームの中の基準音声チャネル信号及び目標音声チャネル信号に基づき決定される。しかしながら、遷移セグメントの初期長は固定され、チャネル間時間差の異なる値に基づき柔軟に調整できない。したがって、目標音声チャネル上の現実の信号と手動で再構成された順方向信号との間の円滑な遷移は、既存のソリューションに従い生成された遷移セグメント信号のために良好に向上できない(言い換えると、目標音声チャネル上の現実の信号と手動で再構成された順方向信号との間の遷移の円滑さは、比較的粗悪である)。
【0084】
本願は、ステレオ符号化の間に信号を再構成する方法を提案する。本方法では、遷移セグメント信号は、遷移セグメントの適応長を用いて生成され、遷移セグメントの適応長は現在フレームの中のチャネル間時間差及び遷移セグメントの初期長を考慮して決定される。したがって、本願に従い生成された遷移セグメント信号は、現在フレームの中の目標音声チャネル上の現実の信号と手動で再構成された順方向信号との間の遷移の円滑さを向上するために使用できる。
【0085】
図3は、本願の一実施形態によるステレオ信号符号化の間に信号を再構成する方法の概略フローチャートである。方法300は、エンコーダ側により実行されてよい。エンコーダ側は、エンコーダ又はステレオ信号符号化機能を有する装置であってよい。方法300は、具体的に以下のステップを含む。
【0086】
310。現在フレームの中の基準音声チャネル及び目標音声チャネルを決定する。
【0087】
理解されるべきことに、方法300を用いて処理されるステレオ信号は、左音声チャネル信号及び右音声チャネル信号を含む。
【0088】
任意で、現在フレームの中の基準音声チャネル及び目標音声チャネルが決定されると、後の到着時間を有する音声チャネルは、目標音声チャネルとして決定されてよく、前の到着時間を有する他方の音声チャネルは基準音声チャネルとして決定されてよい。例えば、左音声チャネルの到着時間が、右音声チャネルの到着時間より遅れる場合、左音声チャネルは目標音声チャネルとして決定されてよく、右音声チャネルは基準音声チャネルとして決定されてよい。
【0089】
任意で、現在フレームの中の基準音声チャネル及び目標音声チャネルは、現在フレームの中のチャネル間時間差に基づき決定されてよく、特定の決定処理は以下に記載される。
【0090】
先ず、現在フレームの中の推定を通じて取得されたチャネル間時間差は、現在フレームの中のチャネル間時間差cur_itdとして使用される。
【0091】
次に、現在フレームの中の目標音声チャネル及び基準音声チャネルは、現在フレームの中のチャネル間時間差と現在フレームの前のフレームの中のチャネル間時間差(prev_itdとして示される)との間の比較の結果に依存して決定される。具体的に、以下の3つのケースが含まれてよい。
【0093】
cur_itd=0の場合、現在フレームの中の目標音声チャネルは、前のフレームの中の目標音声チャネルと一致したままであり、現在フレームの中の基準音声チャネルは前のフレームの中の基準音声チャネルと一致したままである。
【0094】
例えば、現在フレームの中の目標音声チャネルのインデックスがtarget_idxとして示され、現在フレームの前のフレームの中の目標音声チャネルのインデックスがprev_target_idxとして示される場合、現在フレームの中の目標音声チャネルのインデックスは、前のフレームの中の目標音声チャネルのインデックスと同じである。つまり、target_idx=prev_target_idxである。
【0096】
cur_itd<0の場合、現在フレームの中の目標音声チャネルは、左音声チャネルであり、現在フレームの中の基準音声チャネルは右音声チャネルである。
【0097】
例えば、現在フレームの中の目標音声チャネルのインデックスがtarget_idxとして示される場合、target_idx=0である(インデックス番号が0であることは、目標音声チャネルが左音声チャネルであることを示し、インデックス番号が1であることは、目標音声チャネルが右音声チャネルであることを示す)。
【0099】
cur_itd>0の場合、現在フレームの中の目標音声チャネルは、右音声チャネルであり、現在フレームの中の基準音声チャネルは左音声チャネルである。
【0100】
例えば、現在フレームの中の目標音声チャネルのインデックスがtarget_idxとして示される場合、target_idx=1である(インデックス番号が0であることは、目標音声チャネルが左音声チャネルであることを示し、インデックス番号が1であることは、目標音声チャネルが右音声チャネルであることを示す)。
【0101】
理解されるべきことに、現在フレームの中のチャネル間時間差cur_itdは、左音声チャネル信号と右音声チャネル信号との間のチャネル間時間差を推定することにより取得されてよい。チャネル間時間差が推定されると、左音声チャネルと右音声チャネルとの間の相互相関係数は、現在フレームの中の左音声チャネル信号及び右音声チャネル信号に基づき計算されてよく、次に、相互相関係数の最大値に対応するインデックス値が、現在フレームの中のチャネル間時間差として使用される。
【0102】
320。現在フレームの中のチャネル間時間差及び現在フレームの中の遷移セグメントの初期長に基づき、現在フレームの中の遷移セグメントの適応長を決定する。
【0103】
任意で、一実施形態では、前記現在フレームの中のチャネル間時間差及び前記現在フレームの中の遷移セグメントの初期長に基づき、前記現在フレームの中の前記遷移セグメントの適応長を決定する前記ステップは、
前記現在フレームの中の前記チャネル間時間差の絶対値が前記現在フレームの中の前記遷移セグメントの前記初期長以上であるとき、前記現在フレームの中の前記遷移セグメントの前記初期長を、前記現在フレームの中の前記遷移セグメントの前記適応長として決定するステップ、又は、
前記現在フレームの中の前記チャネル間時間差の絶対値が前記現在フレームの中の前記遷移セグメントの前記初期長未満であるとき、前記現在フレームの中の前記チャネル間時間差の前記絶対値を、前記遷移セグメントの前記適応長として決定するステップ、を含む。
【0104】
現在フレームの中のチャネル間時間差の絶対値が現在フレームの中の遷移セグメントの初期長未満であるとき、現在フレームの中のチャネル間時間差と現在フレームの中の遷移セグメントの初期長との間の比較の結果に依存して、遷移セグメントの長さが適切に減少でき、現在フレームの中の遷移セグメントの適応長が適切に決定され、更に、適応長を有する遷移ウインドウが決定される。このように、現在フレームの中の目標音声チャネル上の現実の信号と手動で再構成された順方向信号との間の遷移は、より円滑になる。
【0105】
具体的に、遷移セグメントの適応長は、次の式(1)を満たす。したがって、遷移セグメントの適応長は、式(1)に従い決定されてよい。
【数4】
【0106】
cur_itdは、現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、Ts2は遷移セグメントの予め設定された初期長を表し、ここで、遷移セグメントの初期長は予め設定された正整数であってよい。例えば、サンプリングレートが16kHzのとき、Ts2は10に設定される。
【0107】
さらに、異なるサンプリングレートに関して、Ts2は同じ値又は異なる値に設定されてよい。
【0108】
理解されるべきことに、ステップ310に続き記載の現在フレームの中のチャネル間時間差、及びステップ320に記載された現在フレームの中のチャネル間時間差は、左音声チャネル信号と右音声チャネル信号との間のチャネル間時間差を推定することにより取得されてよい。
【0109】
チャネル間時間差が推定されると、左音声チャネルと右音声チャネルとの間の相互相関係数は、現在フレームの中の左音声チャネル信号及び右音声チャネル信号に基づき計算されてよく、次に、相互相関係数の最大値に対応するインデックス値が、現在フレームの中のチャネル間時間差として使用される。
【0110】
具体的に、チャネル間時間差は、例1〜例3の方法で推定されてよい。
【0112】
現在のサンプリングレートで、チャネル間時間差の最大値及び最小値は、それぞれT
max及びT
minである。ここで、T
max及びT
minは、予め設定された実数であり、T
max>T
minである。したがって、左音声チャネルと右音声チャネルとの間の相互相関係数の最大値は、チャネル間時間差の最大値と最小値との間で検索される。最終的に、左音声チャネルと右音声チャネルとの間の相互相関係数の見付かった最大値に対応するインデックス値は、現在フレームの中のチャネル間時間差として決定される。例えば、T
max及びT
minの値は、40及び−40であってよい。したがって、左音声チャネルと右音声チャネルとの間の相互相関係数の最大値は、範囲−40≦i≦40の範囲の中で検索される。次に、相互相関係数の最大値に対応するインデックス値は、現在フレームの中のチャネル間時間差として使用される。
【0114】
現在のサンプリングレートで、チャネル間時間差の最大値及び最小値は、T
max及びT
minである。ここで、T
max及びT
minは、予め設定された実数であり、T
max>T
minである。したがって、左音声チャネルと右音声チャネルとの間の相互相関係数は、現在フレームの中の左音声チャネル信号及び右音声チャネル信号に基づき計算されてよい。次に、円滑化処理が、現在フレームの前のL個(ここで、Lは1以上の整数である)のフレームの中の左音声チャネルと右音声チャネルとの間の相互相関係数に従い、現在フレームの中の左音声チャネルと右音声チャネルとの間の計算された相互相関係数に対して、実行されて、円滑化処理の後に取得される左音声チャネルと右音声チャネルとの間の相互相関係数を取得する。次に、円滑化処理の後に取得された左音声チャネルと右音声チャネルとの間の相互相関係数の最大値は、T
min≦i≦T
maxの範囲の中で検索され、最大値に対応するインデックス値iは、現在フレームの中のチャネル間時間差として使用される。
【0116】
現在フレームの中のチャネル間時間差が例1又は例2に従い推定された後に、フレーム間円滑化処理が、現在フレームの前のM個(ここでMは1以上の整数である)のフレームの中のチャネル間時間差及び現在フレームの中の推定されたチャネル間時間差に対して実行され、円滑化処理の後に取得されたチャネル間時間差は、現在フレームの中の最終的なチャネル間時間差として使用される。
【0117】
理解されるべきことに、時間差が左音声チャネル信号と右音声チャネル信号との間で推定される前に(ここで、左音声チャネル信号及び右音声チャネル信号はここでは時間ドメイン信号である)、時間ドメイン前処理が、現在フレームの中の左音声チャネル信号及び右音声チャネル信号に対して実行されてよい。
【0118】
具体的に、高域通過フィルタリング処理は、現在フレームの中の左音声チャネル信号及び右音声チャネル信号に対して実行されて、現在フレームの中の前処理された左音声チャネル信号及び前処理された右音声チャネル信号を取得してよい。さらに、時間ドメイン前処理は、ここでは、高域通過フィルタリング処理に加えて、プリエンファシス処理のような他の処理であってよい。
【0119】
例えば、ステレオ音声信号のサンプリングレートが16kHzであり、信号の書くフレームが20msである場合、フレーム長はN=320である。つまり、各フレームは320個のサンプリング点を含む。現在フレームの中のステレオ信号は、現在フレームの中の左チャネル時間ドメイン信号x
L(n)、及び現在フレームの中の右チャネル時間ドメイン信号x
R(n)を含む。ここで、nはサンプリング点番号を表し、n=0,1,...,N−1である。次に、時間ドメイン前処理が、現在フレームの中の左チャネル時間ドメイン信号x
L(n)、及び現在フレームの中の右チャネル時間ドメイン信号x
R(n)に対して実行されて、現在フレームの中の前処理された左チャネル時間ドメイン信号x
~L(n)、及び現在フレームの中の前処理された右チャネル時間ドメイン信号x
~R(n)を取得する。
【0120】
理解されるべきことに、現在フレームの中の左チャネル時間ドメイン信号及び右チャネル時間ドメイン信号に対して時間ドメイン前処理を実行することは、必須のステップではない。時間ドメイン前処理を実行するステップが存在しない場合、間にあるチャネル間時間差が推定される左音声チャネル信号及び右音声チャネル信号は、生ステレオ信号の中の左音声チャネル信号及び右音声チャネル信号である。生ステレオ信号の中の左音声チャネル信号及び右音声チャネル信号は、アナログ−デジタル(A/D)変換を通じて取得される収集されたパルス符号変調(Pulse Code Modulation, PCM)信号であってよい。さらに、ステレオ音声信号のサンプリングレートは、8kHz、16kHz、32kHz、44.1kHz、48kHz、等であってよい。
【0121】
330。現在フレームの中の遷移セグメントの適応長に基づき、現在フレームの中の遷移ウインドウを決定する。ここで、遷移セグメントの適応長は、遷移ウインドウのウインドウ長である。
【0122】
任意で、現在フレームの中の遷移ウインドウは、式(2)に従い決定されてよい。
【数5】
【0123】
ここで、sin(.)は正弦波演算を表し、adp_Tsは遷移セグメントの適応長を表す。
【0124】
理解されるべきことに、遷移ウインドウのウインドウ長が遷移セグメントの適応長であるならば、現在フレームの中の遷移ウインドウの形状は、本願において具体的に限定されない。
【0125】
式(2)に従い遷移ウインドウを決定することに加えて、現在フレームの中の遷移ウインドウは、代替として、以下の式(3)又は式(4)に従い決定されてよい。
【数6】
【0126】
式(3)及び式(4)では、cos(.)は余弦波演算を表し、adp_Tsは遷移セグメントの適応長を表す。
【0127】
340。現在フレームの中の再構成された信号の利得変更因子を決定する。
【0128】
理解されるべきことに、現在フレームの中の再構成された信号の利得変更因子は、本明細書において現在フレームの中の利得変更因子として簡単に参照されてよい。
【0129】
350。現在フレームの中のチャネル間時間差、現在フレームの中の遷移セグメントの適応長、現在フレームの中の遷移ウインドウ、現在フレームの中の利得変更因子、現在フレームの中の基準音声チャネル信号及び目標音声チャネル信号に基づき、現在フレームの中の目標音声チャネル上の遷移セグメント信号を決定する。
【0130】
任意で、現在フレームの中の遷移セグメント信号は、以下の式(5)を満たす。したがって、現在フレームの中の目標音声チャネル上の遷移セグメント信号は、式(5)に従い決定されてよい。
【0131】
transition_seg(i)=w(i)*g*reference(N−adp_Ts−abs(cur_itd)+i)+(1−w(i))*target(N−adp_Ts+i)、ここで、i=0,1,…,adp_Ts−1 (5)
transition_seg(.)は現在フレームの中の目標音声チャネル上の遷移セグメント信号を表し、adp_Tsは現在フレームの中の遷移セグメントの適応長を表し、w(.)は現在フレームの中の遷移ウインドウを表し、gは現在フレームの中の利得変更因子を表し、target(.)は現在フレームの中の目標音声チャネル信号を表し、reference(.)は現在フレームの中の基準音声チャネル信号を表し、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、Nは現在フレームのフレーム長を表す。
【0132】
具体的に、transition_seg(i)はサンプリング点iにおける現在フレームの中の目標音声チャネル上の遷移セグメント信号の値であり、w(i)はサンプリング点iにおける現在フレームの中の遷移ウインドウの値であり、target(N−adp_Ts+i)はサンプリング点(N−adp_Ts+i)における現在フレームの中の目標音声チャネル信号の値であり、reference(N−adp_Ts−abs(cur_itd)+i)はサンプリング点(N−adp_Ts−abs(cur_itd)+i)における現在フレームの中の基準音声チャネル信号の値である。
【0133】
式(5)で、iの範囲は0〜adp_Ts−1である。したがって、式(5)に従い現在フレームの中の目標音声チャネル上の遷移セグメント信号を決定するステップは、現在フレームの中の利得変更因子g、現在フレームの中の遷移ウインドウの点0から点(adp_Ts−1)までの値、現在フレームの中の基準音声チャネル上のサンプリング点(N−abs(cur_itd)−adp_Ts)からサンプリング点(N−abs(cur_itd)−1)までの値、及び現在フレームの中の目標音声チャネル上のサンプリング点(N−adp_Ts)からサンプリング点(N−1)までの値 に基づき、adp_Ts個の点の長さを有する信号を手動で再構成することと等価である。adp_Ts個の点の長さは、現在フレームの中の目標音声チャネル上の遷移セグメント信号の点0から点(adp_Ts−1)までの信号として決定される。さらに、現在フレームの中の遷移セグメント信号が決定された後に、現在フレームの中の目標音声チャネル上の遷移セグメント信号のサンプリング点0の値からサンプリング点(adp_Ts−1)の値は、遅延整列処理の後の目標音声チャネル上のサンプリング点(N−adp_Ts)の値からサンプリング点(N−1)の値として使用されてよい。
【0134】
理解されるべきことに、遅延整列処理の後の目標音声チャネル上の点(N−adp_Ts)から点(N−1)までの信号は、さらに、式(6)に従い直接決定されてよい:
target_alig(N−adp_Ts+i)=w(i)*g*reference(N−adp_Ts−abs(cur_itd)+i)+(1−w(i))*target(N−adp_Ts+i)、ここで、i=0,1,…,adp_Ts−1 (6)
【0135】
ここで、target_alig(N−adp_Ts+i)は遅延整列処理の後の目標音声チャネル上のサンプリング点(N−adp_Ts+i)の値であり、w(i)はサンプリング点iにおける現在フレームの中の遷移ウインドウの値であり、target(N−adp_Ts+i)はサンプリング点(N−adp_Ts+i)における現在フレームの中の目標音声チャネル信号の値であり、reference(N−adp_Ts−abs(cur_itd)+i)はサンプリング点(N−adp_Ts−abs(cur_itd)+i)における現在フレームの中の基準音声チャネル信号の値であり、gは現在フレームの中の利得変更因子を表し、adp_Tsは現在フレームの中の遷移セグメントの適応長を表し、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、Nは現在フレームのフレーム長を表す。
【0136】
式(6)では、adp_Ts個の点の長さを有する信号は、現在フレームの中の利得変更因子g、現在フレームの中の遷移ウインドウ、及び現在フレームの中の目標音声チャネル上のサンプリング点(N−adp_Ts)の値からサンプリング点(N−1)の値、及び現在フレームの中の基準音声チャネル上のサンプリング点(N−abs(cur_itd)−adp_Ts)の値からサンプリング点(N−abs(cur_itd)−1)の値に基づき、手動で再構成されてよい。adp_Ts個の点の長さを有する信号は、遅延整列処理の後の現在フレームの中の目標音声チャネル上のサンプリング点(N−adp_Ts)の値からサンプリング点(N−1)の値として直接使用される。
【0137】
本願では、適応長を有する遷移セグメントが設定され、遷移ウインドウは、遷移セグメントの適応長に基づき決定される。固定長を有する遷移セグメントを用いて遷移ウインドウを決定する従来の方法と比べて、現在フレームの中の目標音声チャネル上の現実の信号と現在フレームの中の目標音声チャネル上の手動で再構成された信号との間のより円滑な遷移を生成できる遷移セグメント信号が取得できる。
【0138】
本願の本実施形態におけるステレオ信号符号化の間に信号を再構成する方法によると、現在フレームの中の目標音声チャネル上遷移セグメント信号が決定できるだけでなく、現在フレームの中の目標音声チャネル上の順方向信号も決定できる。本願の本実施形態におけるステレオ符号化の間に信号を再構成する方法を用いて、現在フレームの中の目標音声チャネル上の順方向信号を決定する方法を一層良好に記載し及び理解するために、以下は、先ず、既存のソリューションを用いて現在フレームの中の目標音声チャネル上順方向信号を決定する方法を簡単に記載する。
【0139】
既存のソリューションでは、現在フレームの中の目標音声チャネル上の順方向信号は、通常、現在フレームの中のチャネル間時間差、現在フレームの中の利得変更因子、及び現在フレームの中の基準音声チャネル信号に基づき、決定される。利得変更因子は、通常、現在フレームの中のチャネル間時間差、現在フレームの中の目標音声チャネル信号、及び現在フレームの中の基準音声チャネル信号に基づき、決定される。
【0140】
既存のソリューションでは、利得変更因子は、現在フレームの中のチャネル間時間差、現在フレームの中の目標音声チャネル信号及び基準音声チャネル信号だけに基づき、決定される。したがって、現在フレームの中の目標音声チャネル上の再構成された順方向信号と現在フレームの中の目標音声チャネル上の現実の信号との間には、比較的大きな差が存在する。したがって、現在フレームの中の目標音声チャネル上の再構成された順方向信号に基づき取得される1次音声チャネル信号と、現在フレームの中の目標音声チャネル上の現実の信号に基づき取得される1次音声チャネル信号との間には、比較的大きな差が存在する。したがって、線形予測の間に取得された1次音声チャネル信号の線形予測分析結果と、現実の線形予測分析結果との間には比較的大きな差が存在する。同様に、現在フレームの中の目標音声チャネル上の再構成された順方向信号に基づき取得される2次音声チャネル信号と、現在フレームの中の目標音声チャネル上の現実の信号に基づき取得される2次音声チャネル信号との間には、比較的大きな差がある。したがって、線形予測の間に取得された2次音声チャネル信号の線形予測分析結果と、現実の線形予測分析結果との間には比較的大きな差が存在する。
【0141】
具体的に、
図4に示されるように、現在フレームの中の目標音声チャネル上の従来の再構成された順方向信号に基づき取得される1次音声チャネル信号と、現在フレームの中の目標音声チャネル上の現実の順方向信号に基づき取得される1次音声チャネル信号との間には、比較順方向的大きな差がある。例えば、
図4では、現在フレームの中の目標音声チャネル上の従来の再構成された順方向信号に基づき取得された1次音声チャネル信号は、現在フレームの中の目標音声チャネル上の現実の順方向信号に基づき取得された1次音声チャネル信号より、概して大きい。
【0142】
任意で、現在フレームの中の再構成された信号の利得変更因子は、以下の方法1〜方法3のうちのいずれか1つで決定されてよい。
【0143】
方法1。初期利得変更因子が現在フレームの中の利得変更因子である場合、初期利得変更因子は、現在フレームの中の遷移ウインドウ、現在フレームの中の遷移セグメントの適応長、現在フレームの中の目標音声チャネル信号、現在フレームの中の基準音声チャネル信号、及び現在フレームの中のチャネル間時間差に基づき決定される。
【0144】
本願では、利得変更因子が決定されると、現在フレームの中のチャネル間時間差、現在フレームの中の目標音声チャネル信号及び基準音声チャネル信号に加えて、現在フレームの中の遷移セグメントの適応長、及び現在フレームの中の遷移ウインドウが更に考慮される。さらに、現在フレームの中の遷移ウインドウは、適応長を有する遷移セグメントに基づき決定される。利得変更因子が現在フレームの中のチャネル間時間差、現在フレームの中の目標音声チャネル信号、及び現在フレームの中の基準音声チャネル信号にのみ基づき決定される既存のソリューションと比べて、現在フレームの中の目標音声チャネル上の現実の信号と現在フレームの中の目標音声チャネル上の再構成された順方向信号との間のエネルギの一貫性が考慮される。したがって、現在フレームの中の目標音声チャネル上の取得された順方向信号は、現在フレームの中の目標音声チャネル上の現実の順方向信号により近くなる。つまり、本願における再構成された順方向信号は、既存のソリューションにおけるものよりも正確である。
【0145】
任意で、方法1では、目標音声チャネル上の再構成された信号の平均エネルギが目標音声チャネル上の現実の信号の平均エネルギと一致するとき、式(7)が満たされる。
【数7】
【0146】
式(7)で、Kはエネルギ減衰係数を表し、Kは予め設定された実数であり、0<K≦1、Kの値は経験により当業者により設定されてよく、ここで例えばKは0.5、0.75、1等であり、gは現在フレームの中の利得変更因子を表し、w(.)は現在フレームの中の遷移ウインドウを表し、x(.)は現在フレームの中の目標音声チャネル信号を表し、y(.)は現在フレームの中の基準音声チャネル信号を表し、Nは現在フレームのフレーム長を表し、Tsは遷移ウインドウの開始サンプリング点インデックスに対応する、目標音声チャネルのサンプリング点インデックスを表し、Tdは遷移ウインドウの終了サンプリング点インデックスに対応する、目標音声チャネルのサンプリング点インデックスを表し、T
s=N−abs(cur_itd)−adp_Ts、T
d=N−abs(cur_itd)、T
0は利得変更因子を計算するために使用される、目標音声チャネルの予め設定された開始サンプリング点インデックスを表し、0≦T
0<Ts、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、adp_Tsは現在フレームの中の遷移セグメントの適応長を表す。
【0147】
具体的に、w(i)はサンプリング点iにおける現在フレームの中の遷移ウインドウの値であり、x(i)はサンプリング点iにおける現在フレームの中の目標音声チャネル信号の値であり、y(i)はサンプリング点iにおける現在フレームの中の基準音声チャネル信号の値である。
【0148】
さらに、目標音声チャネル上の再構成された信号の平均エネルギを、目標音声チャネル上の現実の信号の平均エネルギと一致させるために、つまり、式(7)で表されるように、目標音声チャネル上にある再構成された順方向信号及び遷移セグメント信号の平均エネルギは、目標音声チャネル上の現実の信号の平均エネルギと一致する。したがって、初期利得変更因子は式(8)を満たすことが推測され得る:
【数8】
【0149】
式(8)のa、b、cは、それぞれ、以下の式(9)〜式(11)を満たす:
【数9】
【0150】
方法2。初期利得変更因子は、現在フレームの中の遷移ウインドウ、現在フレームの中の遷移セグメントの適応長、現在フレームの中の目標音声チャネル信号、現在フレームの中の基準音声チャネル信号、及び現在フレームの中のチャネル間時間差に基づき決定され、初期利得変更因子は、現在フレームの中の利得変更因子を取得するために、第1変更係数に基づき変更される。ここで、第1変更係数は0より大きく1より小さい予め設定された実数である。
【0151】
第1変更係数は、0より大きく1より小さい予め設定された実数である。
【0152】
利得変更因子は、第1変更係数を用いて変更される。その結果、現在フレームの中の最終的に取得される遷移セグメント信号及び順方向信号は、適切に低減でき、目標音声チャネル上の手動で再構成された順方向信号と目標音声チャネル上の現実の順方向信号との間の差により、ステレオ符号化中にモノ符号化アルゴリズムを用いて取得される線形予測分析結果に与えられる影響が、更に低減できる。
【0153】
具体的に、利得変更因子は、式(12)に従い変更されてよい。
g_mod=adj_fac*g (12)
【0154】
gは計算された利得変更因子を表し、g_modは変更された利得変更因子を表し、adj_facは第1変更係数を表す。ここで、adj_facは経験により当業者により予め設定されてよく、adj_facは、通常、0より大きい正数であり、例えば、adj_fac=0.5及びadj_fac=0.25である。
【0155】
方法3。初期利得変更因子は、現在フレームの中のチャネル間時間差、現在フレームの中の目標音声チャネル信号、及び現在フレームの中の基準音声チャネル信号に基づき決定され、初期利得変更因子は、現在フレームの中の利得変更因子を取得するために、第2変更係数に基づき変更される。ここで、第2変更係数は、0より大きく1より小さい予め設定された実数であるか、又は予め設定されたアルゴリズムに従い決定される。
【0156】
第2変更係数は、0より大きく1より小さい予め設定された実数である。例えば、第2変更係数は0.5、0.8、等である。
【0157】
利得変更因子は、第2変更係数を用いて変更される。その結果、現在フレームの中の最終的に取得される遷移セグメント信号及び順方向信号は、より正確にでき、目標音声チャネル上の手動で再構成された順方向信号と目標音声チャネル上の現実の順方向信号との間の差により、ステレオ符号化中にモノ符号化アルゴリズムを用いて取得される線形予測分析結果に与えられる影響が、更に低減できる。
【0158】
さらに、第2変更係数が予め設定されたアルゴリズムに従い決定されるとき、第2変更係数は、現在フレームの中の基準音声チャネル信号及び目標音声チャネル信号、現在フレームの中のチャネル間時間差、現在フレームの中の遷移セグメントの適応長、現在フレームの中の遷移ウインドウ、及び現在フレームの中の利得変更因子に基づき決定される。
【0159】
具体的に、第2変更係数が、現在フレームの中の基準音声チャネル信号及び目標音声チャネル信号、現在フレームの中のチャネル間時間差、現在フレームの中の遷移セグメントの適応長、現在フレームの中の遷移ウインドウ、及び現在フレームの中の利得変更因子に基づき決定されるとき、第2変更係数は以下の式(13)又は式(14)を満たしてよい。言い換えると、第2変更係数は、式(13)又は式(14)に従い決定されてよい。
【数10】
【0160】
adj_facは第2変更係数を表し、Kはエネルギ減衰係数を表し、Kは予め設定された実数であり、0<K≦1、Kの値は経験により当業者により設定されてよく、例えばKは0.5、0.75、1等であり、gは現在フレームの中の利得変更因子を表し、w(.)は現在フレームの中の遷移ウインドウを表し、x(.)は現在フレームの中の目標音声チャネル信号を表し、y(.)は現在フレームの中の基準音声チャネル信号を表し、Nは現在フレームのフレーム長を表し、T
sは遷移ウインドウの開始サンプリング点インデックスに対応する、目標音声チャネルのサンプリング点インデックスを表し、T
dは遷移ウインドウの終了サンプリング点インデックスに対応する、目標音声チャネルのサンプリング点インデックスを表し、T
s=N−abs(cur_itd)−adp_Ts、T
d=N−abs(cur_itd)、T
0は利得変更因子を計算するために使用される、目標音声チャネルの予め設定された開始サンプリング点インデックスを表し、0≦T
0<T
s、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、adp_Tsは現在フレームの中の遷移セグメントの適応長を表す。
【0161】
具体的に、w(i−T
s)はサンプリング点(i−T
s)における現在フレームの中の遷移ウインドウの値であり、x(i+abs(cur_itd))はサンプリング点(i+abs(cur_itd))における現在フレームの中の目標音声チャネル信号の値であり、x(i)はサンプリング点iにおける現在フレームの中の目標音声チャネル信号の値であり、y(i)はサンプリング点iにおける現在フレームの中の基準音声チャネル信号の値である。
【0162】
任意で、一実施形態では、方法300は、現在フレームの中の目標音声チャネル上の順方向信号を、現在フレームの中のチャネル間時間差、現在フレームの中の利得変更因子、及び現在フレームの中の基準音声チャネル信号に基づき、決定するステップを更に含む。
【0163】
理解されるべきことに、現在フレームの中の利得変更因子は、以下の方法1〜方法3のうちのいずれか1つで決定されてよい。
【0164】
具体的に、現在フレームの中の目標音声チャネル上の順方向信号が、現在フレームの中のチャネル間時間差、現在フレームの中の利得変更因子、及び現在フレームの中の基準音声チャネル信号に基づき決定されるとき、現在フレームの中の目標音声チャネル上の順方向信号は式(15)を満たしてよい。したがって、現在フレームの中の目標音声チャネル上の順方向信号は、式(15)に従い決定されてよい。
reconstruction_seg(i)=g*reference(N−abs(cur_itd)+i)、ここで、i=0,1,...,abs(cur_itd)−1 (15)
【0165】
reconstruction_seg(.)は現在フレームの中の目標音声チャネル上の順方向信号を表し、reference(.)は現在フレームの中の基準音声チャネル信号を表し、gは現在フレームの中の利得変更因子を表し、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、Nは現在フレームのフレーム長を表す。
【0166】
具体的に、reconstruction_seg(i)は、サンプリング点iにおける現在フレームの中の目標音声チャネル上の順方向信号の値であり、reference(N−abs(cur_itd)+i)は、サンプリング点(N−abs(cur_itd)+i)における現在フレームの中の基準音声チャネル信号の値である。
【0167】
言い換えると、式(15)で、サンプリング点(N−abs(cur_itd))からサンプリング点(N−1)までの現在フレームの中の基準音声チャネル信号の値と利得変更因子との積が、サンプリング点0からサンプリング点(abs(cur_itd)−1)までの、現在フレームの中の目標音声チャネル上の順方向信号の信号として使用される。次に、現在フレームの中の目標音声チャネル上の順方向信号のサンプリング点0からサンプリング点(abs(cur_itd)−1)までの信号は、遅延整列処理の後の目標音声チャネル上の点Nから点(N+abs(cur_itd)−1)までの信号として使用される。
【0168】
理解されるべきことに、式(15)は式(16)を取得するために変換されてよい。
target_alig(N+i)=g*reference(N−abs(cur_itd)+i) (16)
【0169】
式(16)で、target_alig(N+i)は、遅延整列処理の後の目標音声チャネル上のサンプリング点(N+i)の値を表す。式(16)によると、サンプリング点(N−abs(cur_itd))からサンプリング点(N−1)までの現在フレームの中の基準音声チャネル信号の値と利得変更因子gとの積は、遅延整列処理の後の目標音声チャネル上の点Nから点(N+abs(cur_itd)−1)までの信号として直接使用されてよい。
【0170】
具体的に、現在フレームの中の利得変更因子が方法2または方法3で決定されるとき、現在フレームの中の目標音声チャネル上の順方向信号は式(17)を満たしてよい。言い換えると、現在フレームの中の目標音声チャネル上の順方向信号は、式(17)に従い決定されてよい。
reconstruction_seg(i)=g_mod*reference(N−abs(cur_itd)+i) (17)
【0171】
reconstruction_seg(i)は現在フレームの中の目標音声チャネル上の順方向信号を表し、g_modは第1変更係数または第2変更係数を用いて初期利得変更因子を変更することにより取得された現在フレームの中の利得変更因子を表し、reference(.)は現在フレームの中の基準音声チャネル信号を表し、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、Nは現在フレームのフレーム長を表し、i=0,1,…,abs(cur_itd)−1である。
【0172】
具体的に、reconstruction_seg(i)は、サンプリング点iにおける現在フレームの中の目標音声チャネル上の順方向信号の値であり、reference(N−abs(cur_itd)+i)は、サンプリング点(N−abs(cur_itd)+i)における現在フレームの中の基準音声チャネル信号の値である。
【0173】
言い換えると、式(17)で、サンプリング点(N−abs(cur_itd))からサンプリング点(N−1)までの現在フレームの中の基準音声チャネル信号の値とg_modとの積が、サンプリング点0からサンプリング点(abs(cur_itd)−1)までの、現在フレームの中の目標音声チャネル上の順方向信号の信号として使用される。次に、現在フレームの中の目標音声チャネル上のサンプリング点0からサンプリング点(abs(cur_itd)−1)までの順方向信号の信号は、遅延整列処理の後の目標音声チャネル上の点Nから点(N+abs(cur_itd)−1)までの信号として使用される。
【0174】
理解されるべきことに、式(17)は式(18)を取得するために更に変換されてよい。
target_alig(N+i)=g_mod*reference(N−abs(cur_itd)+i) (18)
【0175】
式(18)で、target_alig(N+i)は、遅延整列処理の後の目標音声チャネル上のサンプリング点(N+i)の値を表す。式(18)によると、サンプリング点(N−abs(cur_itd))からサンプリング点(N−1)までの現在フレームの中の基準音声チャネル信号の値と変更された利得変更因子g_modとの積は、遅延整列処理の後の目標音声チャネル上の点Nから点(N+abs(cur_itd)−1)までの信号として直接使用されてよい。
【0176】
現在フレームの中の利得変更因子が方法2または方法3で決定されるとき、現在フレームの中の目標音声チャネル上の遷移セグメント信号は式(19)を満たしてよい。言い換えると、現在フレームの中の目標音声チャネル上の遷移セグメント信号は、式(19)に従い決定されてよい。
transition_seg(i)=w(i)*g_mod*reference(N−adp_Ts−abs(cur_itd)+i)+(1−w(i))*target(N−adp_Ts+i)、ここで、i=0,1,…,adp_Ts−1 (19)
【0177】
式(19)で、transition_seg(i)はサンプリング点iにおける現在フレームの中の目標音声チャネル上の遷移セグメント信号の値であり、w(i)はサンプリング点iにおける現在フレームの中の遷移ウインドウの値であり、reference(N−abs(cur_itd)+i)はサンプリング点(N−abs(cur_itd)+i)における現在フレームの中の基準音声チャネル信号の値であり、adp_Tsは現在フレームの中の遷移セグメントの適応長を表し、g_modは第1変更係数又は第2変更係数を用いて初期利得変更因子を変更することにより取得された現在フレームの中の利得変更因子を表し、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、Nは現在フレームのフレーム長を表す。
【0178】
言い換えると、式(19)では、adp_Ts個の点の長さを有する信号は、g_mod、現在フレームの中の遷移ウインドウの点0から点(adp_Ts−1)までの値、現在フレームの中の基準音声チャネル上のサンプリング点(N−abs(cur_itd)−adp_Ts)からサンプリング点(N−abs(cur_itd)−1)までの値、及び現在フレームの中の目標音声チャネル上のサンプリング点(N−adp_Ts)からサンプリング点(N−1)までの値 に基づき、手動で再構成される。adp_Ts個の点の長さを有する手動で再構成された信号は、現在フレームの中の目標音声チャネル上の遷移セグメント信号の点0から点(adp_Ts−1)までの信号として決定される。さらに、現在フレームの中の遷移セグメント信号が決定された後に、現在フレームの中の目標音声チャネル上の遷移セグメント信号のサンプリング点0の値からサンプリング点(adp_Ts−1)の値は、遅延整列処理の後の目標音声チャネル上のサンプリング点(N−adp_Ts)の値からサンプリング点(N−1)の値として使用されてよい。
【0179】
理解されるべきことに、式(19)は式(20)を取得するために更に変換されてよい。
【0180】
target_alig(N−adp_Ts+i)=w(i)*g_mod*reference(N−adp_Ts−abs(cur_itd)+i)+(1−w(i))*target(N−adp_Ts+i), ここで、i=0,1,…,adp_Ts−1 (20)
式(20)で、target_alig(N−adp_Ts+i)は、遅延整列処理の後の現在フレームの中の目標音声チャネル上のサンプリング点(N−adp_Ts+i)の値である。式(20)では、adp_Ts個の点の長さを有する信号は、変更された利得変更因子、現在フレームの中の遷移ウインドウ、及び現在フレームの中の目標音声チャネル上のサンプリング点(N−adp_Ts)の値からサンプリング点(N−1)の値、及び現在フレームの中の基準音声チャネル上のサンプリング点(N−abs(cur_itd)−adp_Ts)の値からサンプリング点(N−abs(cur_itd)−1)の値に基づき、手動で再構成される。adp_Ts個の点の長さを有する信号は、遅延整列処理の後の現在フレームの中の目標音声チャネル上のサンプリング点(N−adp_Ts)の値からサンプリング点(N−1)の値として直接使用される。
【0181】
以上は、本願の本実施形態におけるステレオ信号符号化中に信号を再構成する方法を、
図3を参照して詳細に記載した。前述の方法300で、利得変更因子gは、遷移セグメント信号を決定するために使用される。実際に、幾つかの例では、現在フレームの中の目標音声チャネル上の遷移セグメント信号が決定されるとき、計算の複雑性を低減するために、利得変更因子gは、0に直接設定されてよい。あるいは、現在フレームの中の目標音声チャネルの遷移セグメント信号が決定されるとき、利得変更因子gが使用されない又は使用される。
図6を参照して、以下は、利得変更因子を使用せずに、現在フレームの中の目標音声チャネル上の遷移セグメント信号を決定する方法を記載する。
【0182】
図6は、本願の一実施形態によるステレオ信号符号化の間に信号を再構成する方法の概略フローチャートである。方法600は、エンコーダ側により実行されてよい。エンコーダ側は、エンコーダ又はステレオ信号符号化機能を有する装置であってよい。方法600は、具体的に以下のステップを含む。
【0183】
610。現在フレームの中の基準音声チャネル及び目標音声チャネルを決定する。
【0184】
任意で、現在フレームの中の基準音声チャネル及び目標音声チャネルが決定されると、後の到着時間を有する音声チャネルは、目標音声チャネルとして決定されてよく、前の到着時間を有する他方の音声チャネルは基準音声チャネルとして決定されてよい。例えば、左音声チャネルの到着時間が、右音声チャネルの到着時間より遅れる場合、左音声チャネルは目標音声チャネルとして決定されてよく、右音声チャネルは基準音声チャネルとして決定されてよい。
【0185】
任意で、現在フレームの中の基準音声チャネル及び目標音声チャネルは、現在フレームの中のチャネル間時間差に基づき決定されてよい。具体的に、現在フレームの中の目標音声チャネル及び基準音声チャネルは、ステップ310に続き、ケース1〜ケース3の方法で決定されてよい。
【0186】
620。現在フレームの中のチャネル間時間差及び現在フレームの中の遷移セグメントの初期長に基づき、現在フレームの中の遷移セグメントの適応長を決定する。
【0187】
任意で、現在フレームの中のチャネル間時間差の絶対値が現在フレームの中の遷移セグメントの初期長以上であるとき、現在フレームの中の遷移セグメントの初期長は、現在フレームの中の遷移セグメントの適応長として決定される、又は、現在フレームの中のチャネル間時間差の絶対値が現在フレームの中の遷移セグメントの初期長未満であるとき、現在フレームの中のチャネル間時間差の絶対値は、遷移セグメントの適応長として決定される。
【0188】
現在フレームの中のチャネル間時間差の絶対値が現在フレームの中の遷移セグメントの初期長未満であるとき、現在フレームの中のチャネル間時間差と現在フレームの中の遷移セグメントの初期長との間の比較の結果に依存して、遷移セグメントの長さが適切に減少でき、現在フレームの中の遷移セグメントの適応長が適切に決定され、更に、適応長を有する遷移ウインドウが決定される。このように、現在フレームの中の目標音声チャネル上の現実の信号と手動で再構成された順方向信号との間の遷移は、より円滑になる。
【0189】
現在フレームの中の遷移セグメントの適応長は、現在フレームの中のチャネル間時間差と現在フレームの中の遷移セグメントの初期長との間の比較の結果に依存して適切に決定でき、さらに、適応長を有する遷移ウインドウが決定される。このように、現在フレームの中の目標音声チャネル上の現実の信号と手動で再構成された順方向信号との間の遷移がより円滑になる。具体的に、ステップ620で決定された遷移セグメントの適応長は、次の式(21)を満たす。したがって、遷移セグメントの適応長は、式(21)に従い決定されてよい。
【数11】
【0190】
cur_itdは、現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、Ts2は遷移セグメントの予め設定された初期長を表し、ここで、遷移セグメントの初期長は予め設定された正整数であってよい。例えば、サンプリングレートが16kHzのとき、Ts2は10に設定される。
【0191】
さらに、異なるサンプリングレートに関して、Ts2は同じ値又は異なる値に設定されてよい。
【0192】
理解されるべきことに、ステップ620における現在フレームの中のチャネル間時間差は、左音声チャネル信号と右音声チャネル信号との間のチャネル間時間差を推定することにより取得されてよい。
【0193】
チャネル間時間差が推定されると、左音声チャネルと右音声チャネルとの間の相互相関係数は、現在フレームの中の左音声チャネル信号及び右音声チャネル信号に基づき計算されてよく、次に、相互相関係数の最大値に対応するインデックス値が、現在フレームの中のチャネル間時間差として使用される。
【0194】
具体的に、チャネル間時間差は、ステップ320に続き、例1〜例3の方法で推定されてよい。
【0195】
630。遷移セグメントの適応長に基づき、現在フレームの中の遷移ウインドウを決定する。
【0196】
任意で、現在フレームの中の遷移ウインドウは、ステップ320に続き式(2)、(3)、又は(4)
に従い決定されてよい。
【0197】
640。遷移セグメントの適応長、現在フレームの中の遷移ウインドウ、及び現在フレームの中の目標音声チャネル信号に基づき、現在フレームの中の遷移セグメント信号を決定する。
【0198】
本願では、適応長を有する遷移セグメントが設定され、遷移ウインドウは、遷移セグメントの適応長に基づき決定される。固定長を有する遷移セグメントを用いて遷移ウインドウを決定する従来の方法と比べて、現在フレームの中の目標音声チャネル上の現実の信号と現在フレームの中の目標音声チャネル上の手動で再構成された信号との間のより円滑な遷移を生成できる遷移セグメント信号が取得できる。
【0199】
現在フレームの中の目標音声チャネル上の遷移セグメント信号は、式(22)を満たす:
transition_seg(i)=(1−w(i))*target(N−adp_Ts+i)、ここで、i=0,1,…,adp_Ts−1 (22)
【0200】
transition_seg(.)は現在フレームの中の目標音声チャネル上の遷移セグメント信号を表し、adp_Tsは現在フレームの中の遷移セグメントの適応長を表し、w(.)は現在フレームの中の遷移ウインドウを表し、target(.)は現在フレームの中の目標音声チャネル信号を表し、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、Nは現在フレームのフレーム長を表し、i=0,1,…,adp_Ts−1である。
【0201】
具体的に、transition_seg(i)はサンプリング点iにおける現在フレームの中の目標音声チャネル上の遷移セグメント信号の値であり、w(i)はサンプリング点iにおける現在フレームの中の遷移ウインドウの値であり、target(N−adp_Ts+i)はサンプリング点(N−adp_Ts+i)における現在フレームの中の目標音声チャネル信号の値である。
【0202】
任意で、方法600は、現在フレームの中の目標音声チャネル上の順方向信号をゼロに設定するステップを更に含む。
【0203】
具体的に、現在フレームの中の目標音声チャネル上の順方向信号は、式(23)を満たす:
target_alig(N+i)=0 ここで、i=0,1,...,adp_Ts+abs(cur_itd)−1 (23)
【0204】
式(23)で、現在フレームの中の目標音声チャネル上のサンプリング点Nからサンプリング点(N+abs(cur_itd)−1)までの値は、0である。理解されるべきことに、現在フレームの中の目標音声チャネル上のサンプリング点Nからサンプリング点(N+abs(cur_itd)−1)までの値は、現在フレームの中の目標音声チャネル信号の順方向信号である。
【0205】
目標音声チャネル上の順方向信号がゼロに設定され、その結果、計算の複雑性が更に低減できる。
【0206】
以下は、本願の本実施形態におけるステレオ信号符号化中に信号を再構成する方法を、
図7〜
図12を参照して詳細に記載する。
【0207】
図7は、本願の一実施形態によるステレオ信号符号化の間に信号を再構成する方法の概略フローチャートである。方法700は、具体的に以下のステップを含む。
【0208】
710。現在フレームの中のチャネル間時間差に基づき、遷移セグメントの適応長を決定する。
【0209】
ステップ710の前に、現在フレームの中の目標音声チャネル信号及び現在フレームの中の基準音声チャネル信号が先ず取得される必要があり、次に、現在フレームの中のチャネル間時間差を取得するために、現在フレームの中の目標音声チャネル信号と現在フレームの中の基準音声チャネル信号との間の時間差が推定される。
【0210】
720。現在フレームの中の遷移セグメントの適応長に基づき、現在フレームの中の遷移ウインドウ関数を決定する。
【0211】
730。現在フレームの中の利得変更因子を決定する。
【0212】
ステップ730で、利得変更因子は、既存の方法で(現在フレームの中のチャネル間時間差、現在フレームの中の目標音声チャネル信号、及び現在フレームの中の基準音声チャネル信号に基づき)決定されてよく、又は、利得変更因子は、本願による方法で(現在フレームの中の遷移ウインドウ、現在フレームのフレーム長、現在フレームの中の目標音声チャネル信号、現在フレームの中の基準音声チャネル信号、及び現在フレームの中のチャネル間時間差に基づき)決定されてよい。
【0213】
740。現在フレームの中の利得変更因子を変更して、変更された利得変更因子を取得する。
【0214】
利得変更因子がステップ730で既存の方法で決定されるとき、利得変更因子は、前述の第2変更係数を用いて変更されてよい。利得変更因子がステップ730で本願による方法で決定されるとき、利得変更因子は前述の第2変更係数を用いて変更されてよく、又は、利得変更因子は前述の第1変更係数を用いて変更されてよい。
【0215】
750。変更された利得変更因子、現在フレームの中の基準音声チャネル信号、及び現在フレームの中の目標音声チャネル信号に基づき、現在フレームの中の目標音声チャネル上の遷移セグメント信号を生成する。
【0216】
760。変更された利得変更因子及び現在フレームの中の基準音声チャネル信号に基づき、現在フレームの中の目標音声チャネル上の点Nから点(N+abs(cur_itd)−1)までの信号を手動で再構成する。
【0217】
ステップ760で、現在フレームの中の目標音声チャネル上の点Nから点(N+abs(cur_itd)−1)までの信号を手動で再構成することは、現在フレームの中の目標音声チャネル上の順方向信号を再構成することを意味する。
【0218】
利得変更因子gが計算された後に、利得変更因子は、変更係数を用いて変更される。その結果、手動で再構成された順方向信号のエネルギは低減でき、手動で再構成された順方向信号と現実の順方向信号との間の差により、ステレオ符号化中にモノ符号化アルゴリズムを用いて取得される線形予測分析結果に与えられる影響は低減でき、線形予測分析の制度が向上できる。
【0219】
任意で、手動で再構成された順方向信号と現実の順方向信号との間の差により、ステレオ符号化中にモノ符号化アルゴリズムを用いて取得される線形予測分析結果に与えられる影響を更に低減するために、適応変更係数に基づき、手動で再構成された信号のサンプリング点に対して、利得変更が更に実行されてよい。
【0220】
具体的に、現在フレームの中の目標音声チャネル上の遷移セグメント信号は、先ず、現在フレームの中のチャネル間時間差、現在フレームの中の遷移セグメントの適応長、現在フレームの中の遷移ウインドウ、現在フレームの中の利得変更因子、現在フレームの中の基準音声チャネル信号及び現在フレームの中の目標音声チャネル信号に基づき決定(生成)される。現在フレームの中の目標音声チャネル上の順方向信号は、現在フレームの中のチャネル間時間差、現在フレームの中の利得変更因子、及び現在フレームの中の基準音声チャネル信号に基づき、決定(生成)される。順方向信号は、遅延整列処理の後に取得される目標音声チャネル信号target_aligの点(N−adp_Ts)から点(N+abs(cur_itd)−1)までの信号として使用される。
【0221】
適応変更係数は、式(24)に従い決定される。
【数12】
【0222】
adp_Tsは遷移セグメントの適応長を表し、CUR_ITDは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表す。
【0223】
適応変更係数adj_fac(i)が取得された後に、適応利得変更が、遅延整列処理の後の目標音声チャネル上の点(N−adp_Ts)から点(N+abs(cur_itd)−1)までの信号に対して、適応変更係数adj_fac(i)に基づき実行されて、式(25)に示されるように、遅延整列処理の後に取得される変更された目標音声チャネル信号を取得してよい。
【数13】
【0224】
adj_fac(i)は適応変更係数を表し、target_alig_mod(i)は遅延整列処理の後に取得された変更された目標音声チャネル信号を表し、target_alig(i)は遅延整列処理の後に取得された目標音声チャネル信号を表し、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、Nは現在フレームのフレーム長を表し、adp_Tsは現在フレームの中の遷移セグメントの適応長を表す。
【0225】
利得変更は、適応変更係数を用いて、遷移セグメント信号及び手動で再構成された順方向信号のサンプリング点に対して実行される。その結果、手動で再構成された順方向と現実の順方向信号との間の差により生成される影響が低減できる。
【0226】
任意で、利得変更が、適応変更係数を用いて、手動で再構成された順方向信号のサンプリング点に対して実行されるとき、現在フレームの中の目標音声チャネル上の遷移セグメント信号及び順方向信号を生成する特定の処理は、
図8に示され得る。
【0227】
810。現在フレームの中のチャネル間時間差に基づき、遷移セグメントの適応長を決定する。
【0228】
ステップ810の前に、現在フレームの中の目標音声チャネル信号及び現在フレームの中の基準音声チャネル信号が先ず取得される必要があり、次に、現在フレームの中のチャネル間時間差を取得するために、現在フレームの中の目標音声チャネル信号と現在フレームの中の基準音声チャネル信号との間の時間差が推定される。
【0229】
820。現在フレームの中の遷移セグメントの適応長に基づき、現在フレームの中の遷移ウインドウを決定する。
【0230】
830。現在フレームの中の利得変更因子を決定する。
【0231】
ステップ830で、利得変更因子は、既存の方法で(現在フレームの中のチャネル間時間差、現在フレームの中の目標音声チャネル信号、及び現在フレームの中の基準音声チャネル信号に基づき)決定されてよく、又は、利得変更因子は、本願による方法で(現在フレームの中の遷移ウインドウ、現在フレームのフレーム長、現在フレームの中の目標音声チャネル信号、現在フレームの中の基準音声チャネル信号、及び現在フレームの中のチャネル間時間差に基づき)決定されてよい。
【0232】
840。現在フレームの中の利得変更因子、現在フレームの中の基準音声チャネル信号、及び現在フレームの中の目標音声チャネル信号に基づき、現在フレームの中の目標音声チャネル上の遷移セグメント信号を生成する。
【0233】
850。現在フレームの中の利得変更因子及び現在フレームの中の基準音声チャネル信号に基づき、現在フレームの中の目標音声チャネル上の順方向信号を手動で再構成する。
【0235】
適応変更係数は、式(24)に従い決定されてよい。
【0236】
870。適応変更係数に基づき、目標音声チャネル上の点(N−adp_Ts)から点(N+abs(cur_itd)−1)までの信号を変更して、目標音声チャネル上の点(N−adp_Ts)から点(N+abs(cur_itd)−1)までの変更された信号を取得する。
【0237】
ステップ870で取得された、目標音声チャネル上の点(N−adp_Ts)から点(N+abs(cur_itd)−1)までの変更された信号は、現在フレームの中の目標音声チャネル上の変更された遷移セグメント信号及び現在フレームの中の目標音声チャネル上の変更された順方向信号である。
【0238】
本願では、手動で再構成された順方向信号と現実の順方向信号との間の差により、ステレオ符号化中にモノ符号化アルゴリズムを用いて取得された線形予測分析結果に与えられる影響を更に低減するために、利得変更因子は、利得変更因子が決定された後に変更されてよく、又は現在フレームの中の目標音声チャネル上の遷移セグメント信号及び順方向信号は、現在フレームの中の目標音声チャネル上の遷移セグメント信号及び順方向信号が精製された後に変更されてよい。これは、最終的に取得される順方向信号を更に正確にし、並びに、手動で再構成された順方向信号と現実の順方向信号との間の差により、ステレオ符号化中にモノ符号化アルゴリズムを用いて取得された線形予測分析結果に与えられる影響を更に低減することもできる。
【0239】
理解されるべきことに、本願の本実施形態では、現在フレームの中の目標音声チャネル上の遷移セグメント信号及び順方向信号が精製された後に、ステレオ信号を符号化するために、対応する符号化ステップが更に含まれてよい。ステレオ信号の符号化処理全体を一層理解するために、以下は、本願の実施形態におけるステレオ信号符号化中に信号を再構成する方法を含むステレオ信号符号化方法を
図9を参照して詳細に記載する。
図9のステレオ信号符号化方法は、以下のステップを含む。
【0240】
901。現在フレームの中のチャネル間時間差を決定する。
【0241】
具体的に、現在フレームの中のチャネル間時間差は、現在フレームの中の左音声チャネル信号と右音声チャネル信号との間の時間差である。
【0242】
理解されるべきことに、処理されるステレオ信号は、ここでは、左音声チャネル信号及び右音声チャネル信号を含んでよく、現在フレームの中のチャネル間時間差は、左音声チャネル信号と右音声チャネル信号との間の遅延を推定することにより取得されてよい。例えば、左音声チャネルと右音声チャネルとの間の相互相関係数は、現在フレームの中の左音声チャネル信号及び右音声チャネル信号に基づき計算され、次に、相互相関係数の最大値に対応するインデックス値が、現在フレームの中のチャネル間時間差として使用される。
【0243】
任意で、チャネル間時間差は、現在フレームの中のチャネル間時間差を決定するために、現在フレームの中の前処理された左チャネル時間ドメイン信号及び前処理された右チャネル時間ドメイン信号に基づき推定されてよい。時間ドメイン処理がステレオ信号に対して実行されるとき、現在フレームの中の前処理された左音声チャネル信号及び前処理された右音声チャネル信号を取得するために、高域通過フィルタリング処理が、具体的には、現在フレームの中の左音声チャネル信号及び右音声チャネル信号に対して実行されてよい。さらに、時間ドメイン前処理は、ここでは、高域通過フィルタリング処理に加えて、プリエンファシス処理のような他の処理であってよい。
【0244】
902。チャネル間時間差に基づき、現在フレームの中の左音声チャネル信号及び右音声チャネル信号に対して、遅延整列処理を実行する。
【0245】
遅延整列処理が現在フレームの中の左音声チャネル信号及び右音声チャネル信号に対して実行されるとき、圧縮又は伸長処理が、現在フレームの中のチャネル間時間差に基づき、左音声チャネル信号及び右音声チャネル信号の一方又は両方に対して実行されてよい。その結果、遅延整列処理の後に取得される左音声チャネル信号と右音声チャネル信号との間にはチャネル間時間差が存在しない。左音声チャネル信号及び右音声チャネル信号に対して遅延整列処理が実行された後に取得された信号は、現在フレームの中の遅延整列処理の後に取得されたステレオ信号である。
【0246】
遅延整列処理が、現在フレームの中の左音声チャネル信号及び右音声チャネル信号に対して、チャネル間時間差に基づき実行されるとき、現在フレームの中の目標音声チャネル及び基準音声チャネルは、先ず、現在フレームの中のチャネル間時間差及び前のフレームの中のチャネル間時間差に基づき選択される必要がある。次に、遅延整列処理は、現在フレームの中のチャネル間時間差の絶対値abs(cur_itd)と現在フレームの前のフレームの中のチャネル間時間差の絶対値abs(prev_itd)との間の比較の結果に依存して異なる方法で実行されてよい。遅延整列処理は、目標音声チャネル信号に対して実行される伸長又は圧縮処理、及び信号再構成処理を含んでよい。
【0247】
具体的に、ステップ902は、ステップ9021〜ステップ9027をふくむ 。
【0248】
9021。現在フレームの中の基準音声チャネル及び目標音声チャネルを決定する。
【0249】
現在フレームの中のチャネル間時間差はcur_itdとして示され、前のフレームの中のチャネル間時間差はprev_itdとして示される。具体的に、現在フレームの中の目標音声チャネル及び基準音声チャネルを、現在フレームの中のチャネル間時間差及び前のフレームの中のチャネル間時間差に基づき選択するステップは、以下に記載され得る。cur_itd=0の場合、現在フレームの中の目標音声チャネルは、前のフレームの中の目標音声チャネルと一致したままである。cur_itd<0の場合、現在フレームの中の目標音声チャネルは左音声チャネルである。或いは、cur_itd>0の場合、現在フレームの中の目標音声チャネルは右音声チャネルである。
【0250】
9022。現在フレームの中のチャネル間時間差に基づき、遷移セグメントの適応長を決定する。
【0251】
9023。伸長又は圧縮処理が目標音声チャネル信号に対して実行される必要があるか否かを決定し、必要がある場合、目標音声チャネル信号に対して、現在フレームの中のチャネル間時間差及び現在フレームの前のフレームの中のチャネル間時間差に基づき、伸長又は圧縮処理を実行する。
【0252】
具体的に、現在フレームの中のチャネル間時間差の絶対値abs(cur_itd)と現在フレームの前のフレームの中のチャネル間時間差の絶対値abs(prev_itd)との間の比較の結果に依存して、異なる方法が使用されてよい。具体的に、以下の3つのケースが含まれる。
【0253】
ケース1。abs(cur_itd)がabs(prev_itd)に等しい。
【0254】
現在フレームの中のチャネル間時間差の絶対値が、現在フレームの前のフレームの中のチャネル間時間差の絶対値に等しいとき、目標音声チャネル信号に対して圧縮又は伸長処理は実行されない。
図10に示すように、現在フレームの中の目標音声チャネル信号の点0から点(N−adp_Ts−1)までの信号は、遅延整列処理の後の目標音声チャネル上の点0から点(N−adp_Ts−1)までの信号として直接使用される。
【0255】
ケース2。abs(cur_itd)がabs(prev_itd)より小さい。
【0256】
図11に示すように、現在フレームの中のチャネル間時間差の絶対値が、現在フレームの前のフレームの中のチャネル間時間差の絶対値より小さいとき、バッファリングされた目標音声チャネル信号は伸長される必要がある。具体的に、現在フレームの中のバッファリングされた目標音声チャネル信号の点(−ts+abs(prev_itd)−abs(cur_itd))から点(L−ts−1)までの信号は、L個の点の長さを有する信号として伸長され、伸長を通じて取得された信号は、遅延整列処理の後の目標音声チャネル上の点−tsから点(L−ts−1)までの信号として使用される。次に、現在フレームの中の点(L−ts)から点(N−adp_Ts−1)までの信号は、遅延整列処理の後の目標音声チャネル上の点(L−ts)から点(N−adp_Ts−1)までの信号として直接使用される。adp_Tsは遷移セグメントの適応長を表し、tsはフレーム間円滑さを向上するために設定されたフレーム間円滑遷移セグメントの長さを表し、Lは遅延整列処理の処理長を表す。Lは、現在のレートにおけるフレーム長N以下の任意の正整数であってよい。Lは、通常、許容可能な最大チャネル間時間差より大きな正整数に設定される。例えば、L=290又はL=200である。異なるサンプリングレートに関して、遅延整列処理の処理長Lは、異なる値又は同じ値に設定されてよい。通常、最も簡単な方法は、経験により当業者により値を予め設定することである。例えば、値は290に設定される。
【0257】
ケース3。abs(cur_itd)がabs(prev_itd)より大きい。
【0258】
図12に示すように、現在フレームの中のチャネル間時間差の絶対値が、現在フレームの前のフレームの中のチャネル間時間差の絶対値より大きいとき、バッファリングされた目標音声チャネル信号に対して圧縮が実行される必要がある。具体的に、現在フレームの中のバッファリングされた目標音声チャネル信号の点(−ts+abs(prev_itd)−abs(cur_itd))から点(L−ts−1)までの信号は、L個の点の長さを有する信号として圧縮され、圧縮を通じて取得された信号は、遅延整列処理の後の目標音声チャネル上の点−tsから点(L−ts−1)までの信号として使用される。次に、現在フレームの中の目標音声チャネル信号の点(L−ts)から点(N−adp_Ts−1)までの信号は、遅延整列処理の後の目標音声チャネル上の点(L−ts)から点(N−adp_Ts−1)までの信号として直接使用される。adp_Tsは遷移セグメントの適応長を表し、tsはフレーム間円滑さを向上するために設定されたフレーム間円滑遷移セグメントの長さを表し、Lは遅延整列処理の処理長を表す。
【0259】
9024。遷移セグメントの適応長に基づき、現在フレームの中の遷移ウインドウを決定する。
【0261】
9026。遷移セグメントの適応長、現在フレームの中の遷移ウインドウ、現在フレームの中の利得変更因子、現在フレームの中の基準音声チャネル信号及び現在フレームの中の目標音声チャネル信号に基づき、現在フレームの中の目標音声チャネル上の遷移セグメント信号を決定する。
【0262】
adp_Ts個の点の長さを有する信号は、遷移セグメントの適応長、現在フレームの中の遷移ウインドウ、利得変更因子、現在フレームの中の基準音声チャネル信号及び現在フレームの中の目標音声チャネル信号に基づき、生成される。言い換えると、現在フレームの中の目標音声チャネル上の遷移セグメント信号は、遅延整列処理の後の目標音声チャネル上の点(N−adp_Ts)から点(N−1)までの信号として使用される。
【0263】
9027。現在フレームの中の利得変更因子及び基準音声チャネル信号に基づき、現在フレームの中の目標音声チャネル上の順方向信号を決定する。
【0264】
Abs(cur_itd)個の点の長さを有する信号は、現在フレームの中の利得変更因子及び基準音声チャネル信号に基づき、生成される。言い換えると、現在フレームの中の目標音声チャネル上の順方向信号は、遅延整列処理の後の目標音声チャネル上の点Nから点(N+abs(cur_itd)−1)までの信号として使用される。
【0265】
理解されるべきことに、遅延整列処理の後に、遅延整列処理の後の目標音声チャネル上の点abs(cur_itd)から開始するN個の点の長さを有する信号は、最終的に、遅延整列処理の後の現在フレームの中の目標音声チャネル信号として使用される。現在フレームの中の基準音声チャネル信号は、遅延整列処理の後の現在フレームの中の基準音声チャネル信号として直接使用される。
【0266】
903。現在フレームの中の推定されたチャネル間時間差を量子化する。
【0267】
理解されるべきことに、チャネル間時間差を量子化する複数の方法がある。具体的に、量子化処理は、任意の従来の量子化アルゴリズムを用いて、現在フレームの中の推定されたチャネル間時間差に対して、量子化インデックスを取得するために実行されてよい。量子化インデックスは、符号化され、符号化ビットストリームに書き込まれる。
【0268】
904。現在フレームの中の遅延整列が実行されるステレオ信号に基づき、音声チャネル合成比因子を計算し、量子化を実行する。
【0269】
時間ドメインダウンミキシング処理が、遅延整列処理の後に取得された左音声チャネル信号及び右音声チャネル信号に対して実行されるとき、ダウンミキシングは、中央チャネル(Mid channel)信号及びサイドチャネル(Side channel)信号を取得するために、左音声チャネル信号及び右音声チャネル信号に対して実行されてよい。中央チャネル信号は、左音声チャネルと右音声チャネルとの間の関連情報を示すことができ、サイドチャネル信号は、左音声チャネルと右音声チャネルとの間の差分情報を示すことができる。
【0270】
Lが左音声チャネル信号を示し、Rが右音声チャネル信号を示すと仮定すると、中央チャネル信号は0.5*(L+R)であり、サイドチャネル信号は0.5*(L−R)である。
【0271】
さらに、時間ドメインダウンミキシング処理が、遅延整列処理の後に取得された左音声チャネル信号及び右音声チャネル信号に対して実行されるとき、ダウンミキシングにおいて左音声チャネル信号の右音声チャネル信号に対する比を制御するために、音声チャネル合成比因子が更に計算されてよい。次に、時間ドメインダウンミキシング処理が、音声チャネル合成比因子に基づき、左音声チャネル信号及び右音声チャネル信号に対して実行されて、1次音声チャネル信号及び2次音声チャネル信号を取得する。
【0272】
音声チャネル合成比因子を計算する複数の方法がある。例えば、現在フレームの中の音声チャネル合成比因子は、左音声チャネル及び右音声チャネル上のフレームエネルギに基づき計算されてよい。特定の処理は以下の通り記載される。
【0273】
(1)遅延整列の能登に取得された左音声チャネル信号及び右音声チャネル信号に基づき、現在フレームの中の左音声チャネル信号及び右音声チャネル信号のフレームエネルギを計算する。
【0274】
現在フレームの中の左音声チャネル上のフレームエネルギrms_Lは以下を満たす:
【数14】
【0275】
現在フレームの中の右音声チャネル上のフレームエネルギrms_Rは以下を満たす:
【数15】
【0276】
X'
L(i)は遅延整列の後に取得された現在フレームの中の左音声チャネル信号を表し、X'
R(i)は遅延整列の後に取得された現在フレームの中の右音声チャネル信号を表し、iはサンプリング点番号を表す。
【0277】
(2)左音声チャネル及び右音声チャネル上のフレームエネルギに基づき、現在フレームの中の音声チャネル合成比因子を計算する。
【0278】
現在フレームの中の音声チャネル合成比因子ratioは以下を満たす:
【数16】
【0279】
したがって、音声チャネル合成比因子は、左音声チャネル信号及び右音声チャネル信号のフレームエネルギに基づき計算される。
【0280】
(3)音声チャネル合成比因子を量子化し、量子化した音声チャネル合成比因子をビットストリームに書き込む。
【0281】
具体的に、現在フレームの中の計算した音声チャネル合成比因子は、量子化されて、現在フレームの中の対応する量子化インデックスradio_idx及び量子化された音声チャネル合成比因子ratio
quaを得る。ここで、radio_idx及びratio
quaは式(29)を満たす。
【数17】
【0282】
ratio_tablはスカラー量子化コードブックを表す。量子化は、任意の従来のスカラー量子化方法、例えば、均一なスカラー量子化又は不均一なスカラー量子化を用いて、音声チャネル合成比因子に対して実行されてよい。符号化ビットの数は5ビット等であってよい。
【0283】
905。音声チャネル合成比因子に基づき、時間ドメインダウンミキシング処理を、現在フレームの中の遅延整列の後に取得されたステレオ信号に対して実行して、1次音声チャネル信号及び2次音声チャネル信号を取得する。
【0284】
ステップ905で、ダウンミキシング処理は、任意の従来の時間ドメインダウンミキシング処理技術を用いて実行されてよい。しかしながら、留意すべきことに、対応する時間ドメインダウンミキシング処理方法は、1次音声チャネル信号及び2次音声チャネル信号を取得するよう、遅延整列の後に取得されたステレオ信号に対して時間ドメインダウンミキシング処理を実行するために、音声チャネル合成比因子を計算する方法に基づき選択される必要がある。
【0285】
音声チャネル合成比因子ratioが取得された後に、時間ドメインダウンミキシング処理は、音声チャネル合成比因子ratioに基づき実行されてよい。例えば、時間ドメインダウンミキシング処理の後に取得された1次音声チャネル信号及び2次音声チャネル信号は、式(30)に従い決定されてよい。
【数18】
【0286】
Y(i)は現在フレームの中の1次音声チャネル信号を表し、X(i)は現在フレームの中の2次音声チャネル信号を表し、x’
L(i)は遅延整列の後に取得された現在フレームの中の左音声チャネル信号を表し、x’
R(i)は遅延整列の後に取得された現在フレームの中の右音声チャネル信号を表し、iはサンプリング点番号を表し、Nはフレーム長を表し、ratioは音声チャネル合成比因子を表す。
【0287】
906。1次音声チャネル信号及び2次音声チャネル信号を符号化する。
【0288】
理解されるべきことに、符号化処理は、モノ信号符号化/復号方法を用いて、ダウンミキシング処理の後に取得された1次音声チャネル信号及び2次音声チャネル信号に対して実行されてよい。具体的に、1次音声チャネル及び2次音声チャネル上に符号化されるべきビットは、前のフレームの中の1次音声チャネル信号及び/又は2次音声チャネル信号を符号化する処理において取得されたパラメータ情報、及び1次音声チャネル信号及び2次音声チャネル信号符号化を符号化するために使用されるべき合計ビット数に基づき割り当てられてよい。次に、1次音声チャネル信号及び2次音声チャネル信号は、ビット割り当て結果に基づき別個に符号化されて、1次音声チャネル信号が符号化された後に取得される符号化インデックス、及び2次音声チャネル信号が符号化された後に取得される符号化インデックスを得る。さらに、符号化方式の代数符号励振線形予測(Algebraic Code Excited Linear Prediction, ACELP)が、1次音声チャネル信号及び2次音声チャネル信号を符号化するために使用されてよい。
【0289】
以上は、本願の実施形態におけるステレオ信号符号化中に信号を再構成する方法を、
図1〜
図12を参照して詳細に記載した。以下は、本願の実施形態におけるステレオ信号符号化中に信号を再構成する機器を、
図13〜
図16を参照して詳細に記載する。理解されるべきことに、
図13〜
図16の機器は、本願の実施形態におけるステレオ信号符号化中に信号を再構成する方法に対応する。さらに、
図13〜
図16の機器は、本願の実施形態におけるステレオ信号符号化中に信号を再構成する方法を実行してよい。簡単のために、繰り返しの説明は以下で適切に省略される。
【0290】
図13は、本願の一実施形態によるステレオ信号符号化中に信号を再構成する機器の概略ブロック図である。zう13の機器1300は、
現在フレームの中の基準音声チャネル及び目標音声チャネルを決定するよう構成される第1決定モジュール1310と、
現在フレームの中のチャネル間時間差及び現在フレームの中の遷移セグメントの初期長に基づき、現在フレームの中の遷移セグメントの適応長を決定するよう構成される第2決定モジュール1320と、
現在フレームの中の遷移セグメントの適応長に基づき、現在フレームの中の遷移ウインドウを決定するよう構成される第3決定モジュール1330と、
現在フレームの中の再構成された信号の利得変更因子を決定するよう構成される第4決定モジュール1340と、
現在フレームの中のチャネル間時間差、現在フレームの中の遷移セグメントの適応長、現在フレームの中の遷移ウインドウ、現在フレームの中の利得変更因子、現在フレームの中の基準音声チャネル信号、及び現在フレームの中の目標音声チャネル信号に基づき、現在フレームの中の目標音声チャネル上の遷移セグメント信号を決定するよう構成される第5決定モジュール1350と、を含む。
【0291】
本願では、適応長を有する遷移セグメントが設定され、遷移ウインドウは、遷移セグメントの適応長に基づき決定される。固定長を有する遷移セグメントを用いて遷移ウインドウを決定する従来の方法と比べて、現在フレームの中の目標音声チャネル上の現実の信号と現在フレームの中の目標音声チャネル上の手動で再構成された信号との間のより円滑な遷移を生成できる遷移セグメント信号が取得できる。
【0292】
任意で、一実施形態では、第2決定モジュール1320は、具体的に、現在フレームの中のチャネル間時間差の絶対値が現在フレームの中の遷移セグメントの初期長以上であるとき、現在フレームの中の遷移セグメントの初期長を、現在フレームの中の遷移セグメントの適応長として決定する、又は、現在フレームの中のチャネル間時間差の絶対値が現在フレームの中の遷移セグメントの初期長未満であるとき、現在フレームの中のチャネル間時間差の絶対値を、遷移セグメントの適応長として決定するよう構成される。
【0293】
任意で、一実施形態では、第5決定モジュール1350により決定された、現在フレームの中の目標音声チャネル上の遷移セグメント信号は、次式を満たす:
transition_seg(i)=w(i)*g*reference(N−adp_Ts−abs(cur_itd)+i)+(1−w(i))*target(N−adp_Ts+i)、ここで、i=0,1,…,adp_Ts−1,
transition_seg(.)は現在フレームの中の目標音声チャネル上の遷移セグメント信号を表し、adp_Tsは現在フレームの中の遷移セグメントの適応長を表し、w(.)は現在フレームの中の遷移ウインドウを表し、gは現在フレームの中の利得変更因子を表し、target(.)は現在フレームの中の目標音声チャネル信号を表し、reference(.)は現在フレームの中の基準音声チャネル信号を表し、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、Nは現在フレームのフレーム長を表す。
【0294】
任意で、一実施形態では、第4決定モジュール1340は、具体的に、
現在フレームの中の遷移ウインドウ、現在フレームの中の遷移セグメントの適応長、現在フレームの中の目標音声チャネル信号、現在フレームの中の基準音声チャネル信号、及び現在フレームの中のチャネル間時間差に基づき、初期利得変更因子を決定し、
現在フレームの中の遷移ウインドウ、現在フレームの中の遷移セグメントの適応長、現在フレームの中の目標音声チャネル信号、現在フレームの中の基準音声チャネル信号、及び現在フレームの中のチャネル間時間差に基づき、初期利得変更因子を決定し、第1変更係数に基づき、初期利得変更因子を変更して、現在フレームの中の利得変更因子を取得し、第1変更係数は、0より大きく1より小さい予め設定された実数である、又は、
現在フレームの中のチャネル間時間差、現在フレームの中の目標音声チャネル信号、及び現在フレームの中の基準音声チャネル信号に基づき、初期利得変更因子を決定し、第2変更係数に基づき、初期利得変更因子を変更して、現在フレームの中の利得変更因子を取得し、第2変更係数は、0より大きく1より小さい予め設定された実数である若しくは予め設定されたアルゴリズムに従い決定される、よう構成される。
【0295】
任意で、一実施形態では、第4決定モジュール1340により決定された初期利得変更因子は、次式を満たす。
【数19】
ここで、Kはエネルギ減衰係数であり、Kは予め設定された実数であり、0<K≦1、gは現在フレームの中の利得変更因子を表し、w(.)は現在フレームの中の遷移ウインドウを表し、x(.)は現在フレームの中の目標音声チャネル信号を表し、y(.)は現在フレームの中の基準音声チャネル信号を表し、Nは現在フレームのフレーム長を表し、T
sは遷移ウインドウの開始サンプリング点インデックスに対応する、目標音声チャネルのサンプリング点インデックスを表し、T
dは遷移ウインドウの終了サンプリング点インデックスに対応する、目標音声チャネルのサンプリング点インデックスを表し、
T
s=N−abs(cur_itd)−adp_Ts、T
d=N−abs(cur_itd)、T
0は利得変更因子を計算するために使用される、目標音声チャネルの予め設定された開始サンプリング点インデックスを表し、0≦T
0<T
s、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、adp_Tsは現在フレームの中の遷移セグメントの適応長を表す。
【0296】
任意で、一実施形態では、機器1300は、現在フレームの中の目標音声チャネル上の順方向信号を、現在フレームの中のチャネル間時間差、現在フレームの中の利得変更因子、及び現在フレームの中の基準音声チャネル信号に基づき、決定するよう構成される第6決定モジュール1360を更に含む。
【0297】
任意で、一実施形態では、第6決定モジュール1360により決定された、現在フレームの中の目標音声チャネル上の順方向信号は、次式を満たす:
reconstruction_seg(i)=g*reference(N−abs(cur_itd)+i)、ここで、i=0,1,...,abs(cur_itd)−1,
reconstruction_seg(.)は現在フレームの中の目標音声チャネル上の順方向信号を表し、gは現在フレームの中の利得変更因子を表し、reference(.)は現在フレームの中の基準音声チャネル信号を表し、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、Nは現在フレームのフレーム長を表す。
【0298】
任意で、一実施形態では、第2変更係数が予め設定されたアルゴリズムに従い決定されるとき、第2変更係数は、現在フレームの中の基準音声チャネル信号及び目標音声チャネル信号、現在フレームの中のチャネル間時間差、現在フレームの中の遷移セグメントの適応長、現在フレームの中の遷移ウインドウ、及び現在フレームの中の利得変更因子に基づき決定される。
【0299】
任意で、一実施形態では、第2変更係数は、次式を満たす。
【数20】
ここで、adj_facは第2変更係数を表し、Kはエネルギ減衰係数を表し、Kは予め設定された実数であり、0<K≦1、Kの値は経験により当業者により設定されてよく、gは現在フレームの中の利得変更因子を表し、w(.)は現在フレームの中の遷移ウインドウを表し、x(.)は現在フレームの中の目標音声チャネル信号を表し、y(.)は現在フレームの中の基準音声チャネル信号を表し、Nは現在フレームのフレーム長を表し、T
sは遷移ウインドウの開始サンプリング点インデックスに対応する、目標音声チャネルのサンプリング点インデックスを表し、T
dは遷移ウインドウの終了サンプリング点インデックスに対応する、目標音声チャネルのサンプリング点インデックスを表し、T
s=N−abs(cur_itd)−adp_Ts、及びT
d=N−abs(cur_itd)、T
0は利得変更因子を計算するために使用される、目標音声チャネルの予め設定された開始サンプリング点インデックスを表し、0≦T
0<T
s、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、adp_Tsは現在フレームの中の遷移セグメントの適応長を表す。
【0300】
任意で、一実施形態では、第2変更係数は、次式を満たす。
【数21】
ここで、adj_facは第2変更係数を表し、Kはエネルギ減衰係数を表し、Kは予め設定された実数であり、0<K≦1、Kの値は経験により当業者により設定されてよく、gは現在フレームの中の利得変更因子を表し、w(.)は現在フレームの中の遷移ウインドウを表し、x(.)は現在フレームの中の目標音声チャネル信号を表し、y(.)は現在フレームの中の基準音声チャネル信号を表し、Nは現在フレームのフレーム長を表し、T
sは遷移ウインドウの開始サンプリング点インデックスに対応する、目標音声チャネルのサンプリング点インデックスを表し、T
dは遷移ウインドウの終了サンプリング点インデックスに対応する、目標音声チャネルのサンプリング点インデックスを表し、T
s=N−abs(cur_itd)−adp_Ts、及びT
d=N−abs(cur_itd)、T
0は利得変更因子を計算するために使用される、目標音声チャネルの予め設定された開始サンプリング点インデックスを表し、0≦T
0<T
s、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、adp_Tsは現在フレームの中の遷移セグメントの適応長を表す。
【0301】
図14は、本願の一実施形態によるステレオ信号符号化中に信号を再構成する機器の概略ブロック図である。
図14の機器1400は、
現在フレームの中の基準音声チャネルと目標音声チャネルとを決定するよう構成される第1決定モジュール1410と、
現在フレームの中のチャネル間時間差及び現在フレームの中の遷移セグメントの初期長に基づき、現在フレームの中の遷移セグメントの適応長を決定するよう構成される第2決定モジュール1420と、
現在フレームの中の遷移セグメントの適応長に基づき、現在フレームの中の遷移ウインドウを決定するよう構成される第3決定モジュール1430と、
現在フレームの中の遷移セグメントの適応長、現在フレームの中の前記遷移ウインドウ、及び現在フレームの中の目標音声チャネル信号に基づき、現在フレームの中の目標音声チャネル上の遷移セグメント信号を決定するよう構成される第4決定モジュール1440と、を含む。
【0302】
本願では、適応長を有する遷移セグメントが設定され、遷移ウインドウは、遷移セグメントの適応長に基づき決定される。固定長を有する遷移セグメントを用いて遷移ウインドウを決定する従来の方法と比べて、現在フレームの中の目標音声チャネル上の現実の信号と現在フレームの中の目標音声チャネル上の手動で再構成された信号との間のより円滑な遷移を生成できる遷移セグメント信号が取得できる。
【0303】
任意で、一実施形態では、機器1400は、現在フレームの中の目標音声チャネル上の順方向信号をゼロに設定するよう構成される処理モジュール1450を更に含む。
【0304】
任意で、一実施形態では、第2決定モジュール1420は、具体的に、現在フレームの中のチャネル間時間差の絶対値が現在フレームの中の遷移セグメントの初期長以上であるとき、現在フレームの中の遷移セグメントの初期長を、現在フレームの中の遷移セグメントの適応長として決定する、又は、現在フレームの中のチャネル間時間差の絶対値が現在フレームの中の遷移セグメントの初期長未満であるとき、現在フレームの中のチャネル間時間差の絶対値を、遷移セグメントの適応長として決定するよう構成される。
【0305】
任意で、一実施形態では、第4決定モジュール1440により決定された、現在フレームの中の目標音声チャネル上の遷移セグメント信号は、次式を満たす:
transition_seg(i)=(1−w(i))*target(N−adp_Ts+i)、ここで、i=0,1,…,adp_Ts−1,
transition_seg(.)は現在フレームの中の目標音声チャネル上の遷移セグメント信号を表し、adp_Tsは現在フレームの中の遷移セグメントの適応長を表し、w(.)は現在フレームの中の遷移ウインドウを表し、target(.)は現在フレームの中の目標音声チャネル信号を表し、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、Nは現在フレームのフレーム長を表す。
【0306】
図15は、本願の一実施形態によるステレオ信号符号化中に信号を再構成する機器の概略ブロック図である。
図15の機器1500は、
プログラムを格納するよう構成されるメモリ1510と、
メモリ1510に格納されたプログラムを実行するよう構成されるプロセッサ1520と、を含み、メモリ1510内のプログラムが実行されると、プロセッサ1520は、具体的に、現在フレームの中の基準音声チャネルと目標音声チャネルとを決定し、現在フレームの中のチャネル間時間差及び現在フレームの中の遷移セグメントの初期長に基づき、現在フレームの中の遷移セグメントの適応長を決定し、現在フレームの中の遷移セグメントの適応長に基づき、現在フレームの中の遷移ウインドウを決定し、現在フレームの中の再構成された信号の利得変更因子を決定し、現在フレームの中のチャネル間時間差、現在フレームの中の遷移セグメントの適応長、現在フレームの中の遷移ウインドウ、現在フレームの中の利得変更因子、現在フレームの中の基準音声チャネル信号、及び現在フレームの中の目標音声チャネル信号に基づき、現在フレームの中の目標音声チャネル上の遷移セグメント信号を決定するよう構成される。
【0307】
任意で、一実施形態では、プロセッサ1520は、具体的に、現在フレームの中のチャネル間時間差の絶対値が現在フレームの中の遷移セグメントの初期長以上であるとき、現在フレームの中の遷移セグメントの初期長を、現在フレームの中の遷移セグメントの適応長として決定する、又は、現在フレームの中のチャネル間時間差の絶対値が現在フレームの中の遷移セグメントの初期長未満であるとき、現在フレームの中のチャネル間時間差の絶対値を、遷移セグメントの適応長として決定するよう構成される。
【0308】
任意で、一実施形態では、プロセッサ1520により決定された、現在フレームの中の目標音声チャネル上の遷移セグメント信号は、次式を満たす:
transition_seg(i)=w(i)*g*reference(N−adp_Ts−abs(cur_itd)+i)+(1−w(i))*target(N−adp_Ts+i)、ここで、i=0,1,…,adp_Ts−1,
transition_seg(.)は現在フレームの中の目標音声チャネル上の遷移セグメント信号を表し、adp_Tsは現在フレームの中の遷移セグメントの適応長を表し、w(.)は現在フレームの中の遷移ウインドウを表し、gは現在フレームの中の利得変更因子を表し、target(.)は現在フレームの中の目標音声チャネル信号を表し、reference(.)は現在フレームの中の基準音声チャネル信号を表し、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、Nは現在フレームのフレーム長を表す。
【0309】
任意で、一実施形態では、プロセッサ1520は、具体的に、
現在フレームの中の遷移ウインドウ、現在フレームの中の遷移セグメントの適応長、現在フレームの中の目標音声チャネル信号、現在フレームの中の基準音声チャネル信号、及び現在フレームの中のチャネル間時間差に基づき、初期利得変更因子を決定し、
現在フレームの中の遷移ウインドウ、現在フレームの中の遷移セグメントの適応長、現在フレームの中の目標音声チャネル信号、現在フレームの中の基準音声チャネル信号、及び現在フレームの中のチャネル間時間差に基づき、初期利得変更因子を決定し、第1変更係数に基づき、初期利得変更因子を変更して、現在フレームの中の利得変更因子を取得し、第1変更係数は、0より大きく1より小さい予め設定された実数である、又は、
現在フレームの中のチャネル間時間差、現在フレームの中の目標音声チャネル信号、及び現在フレームの中の基準音声チャネル信号に基づき、初期利得変更因子を決定し、第2変更係数に基づき、初期利得変更因子を変更して、現在フレームの中の利得変更因子を取得し、第2変更係数は、0より大きく1より小さい予め設定された実数である若しくは予め設定されたアルゴリズムに従い決定される、よう構成される。
【0310】
任意で、一実施形態では、プロセッサ1520により決定された初期利得変更因子は、次式を満たす。
【数22】
ここで、Kはエネルギ減衰係数を表し、Kは予め設定された実数であり、0<K≦1、gは現在フレームの中の利得変更因子を表し、w(.)は現在フレームの中の遷移ウインドウを表し、x(.)は現在フレームの中の目標音声チャネル信号を表し、y(.)は現在フレームの中の基準音声チャネル信号を表し、Nは現在フレームのフレーム長を表し、T
sは遷移ウインドウの開始サンプリング点インデックスに対応する、目標音声チャネルのサンプリング点インデックスを表し、T
dは遷移ウインドウの終了サンプリング点インデックスに対応する、目標音声チャネルのサンプリング点インデックスを表し、T
s=N−abs(cur_itd)−adp_Ts、T
d=N−abs(cur_itd)、T
0は利得変更因子を計算するために使用される、目標音声チャネルの予め設定された開始サンプリング点インデックスを表し、0≦T
0<T
s、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、adp_Tsは現在フレームの中の遷移セグメントの適応長を表す。
【0311】
任意で、一実施形態では、プロセッサ1520は、現在フレームの中の目標音声チャネル上の順方向信号を、現在フレームの中のチャネル間時間差、現在フレームの中の利得変更因子、及び現在フレームの中の基準音声チャネル信号に基づき、決定するよう更に構成される。
【0312】
任意で、一実施形態では、プロセッサ1520により決定された、現在フレームの中の目標音声チャネル上の順方向信号は、次式を満たす:
reconstruction_seg(i)=g*reference(N−abs(cur_itd)+i)、ここで、i=0,1,...,abs(cur_itd)−1,
reconstruction_seg(.)は現在フレームの中の目標音声チャネル上の順方向信号を表し、gは現在フレームの中の利得変更因子を表し、reference(.)は現在フレームの中の基準音声チャネル信号を表し、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、Nは現在フレームのフレーム長を表す。
【0313】
任意で、一実施形態では、第2変更係数が予め設定されたアルゴリズムに従い決定されるとき、第2変更係数は、現在フレームの中の基準音声チャネル信号及び目標音声チャネル信号、現在フレームの中のチャネル間時間差、現在フレームの中の遷移セグメントの適応長、現在フレームの中の遷移ウインドウ、及び現在フレームの中の利得変更因子に基づき決定される。
【0314】
任意で、一実施形態では、第2変更係数は、次式を満たす。
【数23】
ここで、adj_facは第2変更係数を表し、Kはエネルギ減衰係数を表し、Kは予め設定された実数であり、0<K≦1、Kの値は経験により当業者により設定されてよく、gは現在フレームの中の利得変更因子を表し、w(.)は現在フレームの中の遷移ウインドウを表し、x(.)は現在フレームの中の目標音声チャネル信号を表し、y(.)は現在フレームの中の基準音声チャネル信号を表し、Nは現在フレームのフレーム長を表し、T
sは遷移ウインドウの開始サンプリング点インデックスに対応する、目標音声チャネルのサンプリング点インデックスを表し、T
dは遷移ウインドウの終了サンプリング点インデックスに対応する、目標音声チャネルのサンプリング点インデックスを表し、T
s=N−abs(cur_itd)−adp_Ts、T
d=N−abs(cur_itd)、T
0は利得変更因子を計算するために使用される、目標音声チャネルの予め設定された開始サンプリング点インデックスを表し、0≦T
0<T
s、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、adp_Tsは現在フレームの中の遷移セグメントの適応長を表す。
【0315】
任意で、一実施形態では、第2変更係数は、次式を満たす。
【数24】
ここで、adj_facは第2変更係数を表し、Kはエネルギ減衰係数を表し、Kは予め設定された実数であり、0<K≦1、Kの値は経験により当業者により設定されてよく、gは現在フレームの中の利得変更因子を表し、w(.)は現在フレームの中の遷移ウインドウを表し、x(.)は現在フレームの中の目標音声チャネル信号を表し、y(.)は現在フレームの中の基準音声チャネル信号を表し、Nは現在フレームのフレーム長を表し、T
sは遷移ウインドウの開始サンプリング点インデックスに対応する、目標音声チャネルのサンプリング点インデックスを表し、T
dは遷移ウインドウの終了サンプリング点インデックスに対応する、目標音声チャネルのサンプリング点インデックスを表し、T
s=N−abs(cur_itd)−adp_Ts、及びT
d=N−abs(cur_itd)、T
0は利得変更因子を計算するために使用される、目標音声チャネルの予め設定された開始サンプリング点インデックスを表し、0≦T
0<T
s、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、adp_Tsは現在フレームの中の遷移セグメントの適応長を表す。
【0316】
図16は、本願の一実施形態によるステレオ信号符号化中に信号を再構成する機器の概略ブロック図である。
図16の機器1600は、
プログラムを格納するよう構成されるメモリ1610と、
メモリ1610に格納されたプログラムを実行するよう構成されるプロセッサ1620と、を含み、メモリ1610内のプログラムが実行されると、プロセッサ1620は、具体的に、現在フレームの中の基準音声チャネルと目標音声チャネルとを決定し、現在フレームの中のチャネル間時間差及び現在フレームの中の遷移セグメントの初期長に基づき、現在フレームの中の遷移セグメントの適応長を決定し、現在フレームの中の遷移セグメントの適応長に基づき、現在フレームの中の遷移ウインドウを決定し、現在フレームの中の遷移セグメントの適応長、現在フレームの中の遷移ウインドウ、及び現在フレームの中の目標音声チャネル信号に基づき、現在フレームの中の目標音声チャネル上の遷移セグメント信号を決定するよう構成される。
【0317】
任意で、
一実施形態では、プロセッサ1620は、現在フレームの中の目標音声チャネル上の順方向信号をゼロに設定するよう更に構成される。
【0318】
任意で、一実施形態では、プロセッサ1620は、具体的に、現在フレームの中のチャネル間時間差の絶対値が現在フレームの中の遷移セグメントの初期長以上であるとき、現在フレームの中の遷移セグメントの初期長を、現在フレームの中の遷移セグメントの適応長として決定する、又は、現在フレームの中のチャネル間時間差の絶対値が現在フレームの中の遷移セグメントの初期長未満であるとき、現在フレームの中のチャネル間時間差の絶対値を、遷移セグメントの適応長として決定するよう構成される。
【0319】
任意で、一実施形態では、プロセッサ1620により決定された、現在フレームの中の目標音声チャネル上の遷移セグメント信号は、次式を満たし:transition_seg(i)=(1−w(i))*target(N−adp_Ts+i)、ここで、i=0,1,…,adp_Ts−1、transition_seg(.)は現在フレームの中の目標音声チャネル上の遷移セグメント信号を表し、adp_Tsは現在フレームの中の遷移セグメントの適応長を表し、w(.)は現在フレームの中の遷移ウインドウを表し、target(.)は現在フレームの中の目標音声チャネル信号を表し、cur_itdは現在フレームの中のチャネル間時間差を表し、abs(cur_itd)は現在フレームの中のチャネル間時間差の絶対値を表し、Nは現在フレームのフレーム長を表す。
【0320】
理解されるべきことに、本願の実施形態におけるステレオ信号符号化方法及びステレオ信号復号方法は、
図17〜
図19の端末装置又はネットワーク装置により実行されてよい。さらに、本願の実施形態における符号化機器及び復号機器は、
図17〜
図19の端末装置又はネットワーク装置内に更に配置されてよい。具体的に、本願の実施形態における符号化機器は、
図17〜
図19の端末装置又はネットワーク装置内のステレオエンコーダであってよく、本願の実施形態における復号機器は、
図17〜
図19の端末装置又はネットワーク装置内のステレオデコーダであってよい。
【0321】
図17に示すように、オーディオ通信において、第1端末装置内のステレオエンコーダは、収集されたステレオ信号に対してステレオ符号化を実行し、第1端末装置内のチャネルエンコーダは、ステレオエンコーダにより取得されたビットストリームに対してチャネル符号化を実行してよい。次に、第1端末装置は、第1ネットワーク装置及び第2ネットワーク装置を用いて、第2端末装置へ、チャネル符号化の後に取得されたデータを送信する。第2端末装置が第2ネットワーク装置からデータを受信した後に、第2端末装置のチャネルデコーダは、チャネル復号を実行して、ステレオ信号の符号化ビットストリームを取得する。第2端末装置のステレオデコーダは、復号を通じてステレオ信号を復元し、第2端末装置は、ステレオ信号を再生する。このように、オーディオ通信が異なる端末装置間で達成される。
【0322】
理解されるべきことに、
図17では、第2端末装置も、収集されたステレオ信号を符号化し、最終的に、第2ネットワーク装置及び第1ネットワーク装置を用いて、符号化の後に取得したデータを第1端末装置へ送信してよい。第1端末装置は、データに対してチャネル復号及びステレオ復号を実行して、ステレオ信号を取得する。
【0323】
図17では、第1ネットワーク装置及び第2ネットワーク装置は、無線ネットワーク通信装置又は有線ネットワーク通信装置であってよい。第1ネットワーク装置及び第2ネットワーク装置は、デジタルチャネル上で互いに通信してよい。
【0324】
図17の第1端末装置又は第2端末装置は、本願の実施形態におけるステレオ信号符号化/復号方法を実行してよい。本願の実施形態における符号化機器及び復号機器は、それぞれ、第1端末装置の中のステレオエンコーダ及びステレオデコーダであってよく、又は、それぞれ、第2端末装置の中のステレオエンコーダ及びステレオデコーダであってよい。
【0325】
オーディオ通信では、ネットワーク装置は、オーディオ信号のコーデックフォーマットのトランスコーディングを実施できる。
図18に示すように、ネットワーク装置により受信される信号のコーデックフォーマットが別のステレオデコーダに対応するコーデックフォーマットである場合、ネットワーク装置内のチャネルデコーダは、受信した信号に対してチャネル復号を実行して、別のステレオデコーダに対応する符号化ビットストリームを取得する。別のステレオデコーダは、符号化ビットストリームを復号して、ステレオ信号を取得する。ステレオエンコーダは、ステレオ信号を符号化して、ステレオ信号の符号化ビットストリームを取得する。最後に、チャネルエンコーダは、ステレオ信号の符号化ビットストリームに対してチャネル符号化を実行して、最終的な信号を取得する(ここで、信号は、端末装置又は別のネットワーク装置へ送信されてよい)。理解されるべきことに、
図18のステレオエンコーダに対応するコーデックフォーマットは、別のステレオデコーダに対応するコーデックフォーマットと異なる。別のステレオデコーダに対応するコーデックフォーマットが第1コーデックフォーマットであり、ステレオエンコーダに対応するコーデックフォーマットが第2コーデックフォーマットであると仮定すると、
図18では、オーディオ信号を第1コーデックフォーマットから第2コーデックフォーマットに変換することは、ネットワーク装置により実施される。
【0326】
同様に、
図19に示すように、ネットワーク装置により受信される信号のコーデックフォーマットがステレオデコーダに対応するコーデックフォーマットと同じである場合、ネットワーク装置のチャネルデコーダが、チャネル復号を実行して、ステレオ信号の符号化ビットストリームを取得した後に、ステレオデコーダは、ステレオ信号の符号化ビットストリームを復号して、ステレオ信号を取得してよい。次に、別のステレオエンコーダは、別のコーデックフォーマットに基づきステレオ信号を符号化して、別のステレオエンコーダに対応する符号化ビットストリームを取得する。最後に、チャネルエンコーダは、別のステレオエンコーダに対応する符号化ビットストリームに対してチャネル符号化を実行して、最終的な信号を取得する(ここで、信号は、端末装置又は別のネットワーク装置へ送信されてよい)。
図18の場合と同様に、
図19のステレオデコーダに対応するコーデックフォーマットも、別のステレオエンコーダに対応するコーデックフォーマットと異なる。別のステレオエンコーダに対応するコーデックフォーマットが第1コーデックフォーマットであり、ステレオデコーダに対応するコーデックフォーマットが第2コーデックフォーマットである場合、
図19では、オーディオ信号を第2コーデックフォーマットから第1コーデックフォーマットに変換することは、ネットワーク装置により実施される。
【0327】
図18の別のステレオデコーダ及びステレオエンコーダは、異なるコーデックフォーマットに対応し、
図19のステレオデコーダ及び別のステレオエンコーダは、異なるコーデックフォーマットに対応する。したがって、ステレオ信号のコーデックフォーマットのトランスコーディングは、別のステレオデコーダ及びステレオエンコーダにより実行される又はステレオデコーダ及び別のステレオエンコーダにより実行される処理を通じて実施される。
【0328】
更に理解されるべきことに、
図18のステレオエンコーダは、本願の実施形態におけるステレオ信号符号化方法を実施でき、
図19のステレオデコーダは、本願の実施形態におけるステレオ信号復号方法を実施できる。本願の実施形態における符号化機器は、
図18のネットワーク装置内のステレオエンコーダであってよい。本願の実施形態における復号機器は、
図19のネットワーク装置内のステレオデコーダであってよい。さらに、
図18及び
図19のネットワーク装置は、具体的に、無線ネットワーク通信装置又は有線ネットワーク通信装置であってよい。
【0329】
理解されるべきことに、本願の実施形態におけるステレオ信号符号化方法及びステレオ信号復号方法は、代替として、
図20〜
図22の端末装置又はネットワーク装置により実行されてよい。さらに、本願の実施形態における符号化機器及び復号機器は、代替として、
図20〜
図22の端末装置又はネットワーク装置内に更に配置されてよい。具体的に、本願の実施形態における符号化機器は、
図20〜
図22の端末装置又はネットワーク装置内のマルチチャネルエンコーダ内のステレオエンコーダであってよい。本願の実施形態における復号機器は、
図20〜
図22の端末装置又はネットワーク装置内のマルチチャネルデコーダ内のステレオデコーダであってよい。
【0330】
図20に示すように、オーディオ通信において、第1端末装置内のマルチチャネルエンコーダ内のステレオエンコーダは、収集されたマルチチャネル信号から生成されたステレオ信号に対してステレオ符号化を実行する。ここで、マルチチャネルエンコーダにより取得されたビットストリームは、ステレオエンコーダにより取得されたビットストリームを含む。第1端末装置内のチャネルエンコーダは、マルチチャネルエンコーダにより取得されたビットストリームに対してチャネル符号化を実行してよい。次に、第1端末装置は、第1ネットワーク装置及び第2ネットワーク装置を用いて、第2端末装置へ、チャネル符号化の後に取得されたデータを送信する。第2端末装置が第2ネットワーク装置からデータを受信した後に、第2端末装置のチャネルデコーダは、チャネル復号を実行して、マルチチャネル信号の符号化ビットストリームを取得する。ここで、マルチチャネル信号の符号化ビットストリームは、ステレオ信号の符号化ビットストリームを含む。第2端末装置のマルチチャネルデコーダ内のステレオデコーダは、復号を通じてステレオ信号を復元する。マルチチャネルデコーダは、復元されたステレオ信号に基づき、復号を通じてマルチチャネル信号を取得し、第2端末装置は、マルチチャネル信号を再生する。このように、オーディオ通信が異なる端末装置間で達成される。
【0331】
理解されるべきことに、
図20では、第2端末装置も、収集されたマルチチャネル信号を符号化してよく(具体的には、第2端末装置内のマルチチャネルエンコーダ内のステレオエンコーダが、収集されたマルチチャネル信号から生成されたステレオ信号に対してステレオ符号化を実行する。次に、第2端末装置内のチャネルエンコーダが、マルチチャネルエンコーダにより取得されたビットストリームに対してチャネル符号化を実行する。)、最終的に、第2ネットワーク装置及び第1ネットワーク装置を用いて、符号化ビットストリームを第1端末装置へ送信する。第1端末装置は、チャネル復号及びマルチチャネル復号を通じて、マルチチャネル信号を取得する。
【0332】
図20では、第1ネットワーク装置及び第2ネットワーク装置は、無線ネットワーク通信装置又は有線ネットワーク通信装置であってよい。第1ネットワーク装置及び第2ネットワーク装置は、デジタルチャネル上で互いに通信してよい。
【0333】
図20の第1端末装置又は第2端末装置は、本願の実施形態におけるステレオ信号符号化/復号方法を実行してよい。具体的に、本願の実施形態における符号化機器は、第1端末装置又は第2端末装置内のステレオエンコーダであってよく、本願の実施形態における復号機器は、第1端末装置又は第2端末装置内のステレオデコーダであってよい。
【0334】
オーディオ通信では、ネットワーク装置は、オーディオ信号のコーデックフォーマットのトランスコーディングを実施できる。
図21に示すように、ネットワーク装置により受信される信号のコーデックフォーマットが別のマルチチャネルデコーダに対応するコーデックフォーマットである場合、ネットワーク装置内のチャネルデコーダは、受信した信号に対してチャネル復号を実行して、別のマルチチャネルデコーダに対応する符号化ビットストリームを取得する。別のマルチチャネルデコーダは、符号化ビットストリームを復号して、マルチチャネル信号を取得する。マルチチャネルエンコーダは、マルチチャネル信号を符号化して、マルチチャネル信号の符号化ビットストリームを取得する。マルチチャネルエンコーダ内のステレオエンコーダは、マルチチャネル信号から生成されたステレオ信号に対してステレオ符号化を実行して、ステレオ信号の符号化ビットストリームを取得する。ここで、マルチチャネル信号の符号化ビットストリームは、ステレオ信号の符号化ビットストリームを含む。最後に、チャネルエンコーダは、符号化ビットストリームに対してチャネル符号化を実行して、最終的な信号を取得する(ここで、信号は、端末装置又は別のネットワーク装置へ送信されてよい)。
【0335】
同様に、
図22に示すように、ネットワーク装置により受信される信号のコーデックフォーマットがマルチチャネルデコーダに対応するコーデックフォーマットと同じである場合、ネットワーク装置のチャネルデコーダが、チャネル復号を実行して、マルチチャネル信号の符号化ビットストリームを取得した後に、マルチチャネルデコーダは、マルチチャネル信号の符号化ビットストリームを復号して、マルチチャネル信号を取得してよい。マルチチャネルデコーダ内のステレオデコーダは、マルチチャネル信号の符号化ビットストリーム内のステレオ信号の符号化ビットストリームに対して、ステレオ復号を実行する。次に、別のマルチチャネルエンコーダは、別のコーデックフォーマットに基づきマルチチャネル信号を符号化して、別のマルチチャネルエンコーダに対応するマルチチャネル信号の符号化ビットストリームを取得する。最後に、チャネルエンコーダは、別のマルチチャネルエンコーダに対応する符号化ビットストリームに対してチャネル符号化を実行して、最終的な信号を取得する(ここで、信号は、端末装置又は別のネットワーク装置へ送信されてよい)。
【0336】
理解されるべきことに、
図21の別のステレオデコーダ及びマルチチャネルエンコーダは、異なるコーデックフォーマットに対応し、
図22のマルチチャネルデコーダ及び別のステレオエンコーダは、異なるコーデックフォーマットに対応する。例えば、
図21で、別のステレオデコーダに対応するコーデックフォーマットが第1コーデックフォーマットであり、マルチチャネルエンコーダに対応するコーデックフォーマットが第2コーデックフォーマットである場合、オーディオ信号を第1コーデックフォーマットから第2コーデックフォーマットに変換することは、ネットワーク装置により実施される。同様に、
図22で、マルチチャネルデコーダに対応するコーデックフォーマットが第2コーデックフォーマットであり、別のステレオエンコーダに対応するコーデックフォーマットが第1コーデックフォーマットであると仮定すると、オーディオ信号を第2コーデックフォーマットから第1コーデックフォーマットに変換することは、ネットワーク装置により実施される。したがって、オーディオ信号のコーデックフォーマットのトランスコーディングは、別のステレオデコーダ及びマルチチャネルエンコーダにより実行される又はマルチチャネルデコーダ及び別のステレオエンコーダにより実行される処理を通じて実施される。
【0337】
更に理解されるべきことに、
図21のステレオエンコーダは、本願の実施形態におけるステレオ信号符号化方法を実施でき、
図22のステレオデコーダは、本願の実施形態におけるステレオ信号復号方法を実施できる。本願の実施形態における符号化機器は、
図21のネットワーク装置内のステレオエンコーダであってよい。本願の実施形態における復号機器は、
図22のネットワーク装置内のステレオデコーダであってよい。さらに、
図21及び
図22のネットワーク装置は、具体的に、無線ネットワーク通信装置又は有線ネットワーク通信装置であってよい。
【0338】
本願は、チップを更に提供する。チップは、プロセッサと通信インタフェースをと含む。通信インタフェースは、外部コンポーネントと通信するよう構成され、プロセッサは、本願の実施形態のステレオ信号符号化中に信号を再構成する方法を実行するよう構成される。
【0339】
任意で、一実装では、チップはメモリを更に含んでよい。メモリは、命令を格納し、プロセッサは該メモリに格納された命令を実行するよう構成される。命令が実行されると、プロセッサは、本願の実施形態のステレオ信号符号化中に信号を再構成する方法を実行するよう構成される。
【0340】
任意で、一実装では、チップは、端末装置又はネットワーク装置に統合される。
【0341】
本願は、チップを提供する。チップは、プロセッサと通信インタフェースをと含む。通信インタフェースは、外部コンポーネントと通信するよう構成され、プロセッサは、本願の実施形態のステレオ信号符号化中に信号を再構成する方法を実行するよう構成される。
【0342】
任意で、一実装では、チップはメモリを更に含んでよい。メモリは、命令を格納し、プロセッサは該メモリに格納された命令を実行するよう構成される。命令が実行されると、プロセッサは、本願の実施形態のステレオ信号符号化中に信号を再構成する方法を実行するよう構成される。
【0343】
任意で、一実装では、チップは、ネットワーク装置又は端末装置に統合される。
【0344】
本願はコンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体は、装置により実行されるプログラムコードを格納するよう構成され、該プログラムコードは、本願の実施形態のステレオ信号符号化中に信号を再構成する方法を実行するために使用される命令を含む。
【0345】
本願はコンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体は、装置により実行されるプログラムコードを格納するよう構成され、該プログラムコードは、本願の実施形態のステレオ信号符号化中に信号を再構成する方法を実行するために使用される命令を含む。
【0346】
当業者は、本明細書に開示された実施形態で記載された例と組み合わせて、ユニット及びアルゴリズムが電子ハードウェア又はコンピュータソフトウェアと電子ハードウェアとの組み合わせにより実装されてよいことを認識し得る。機能がハードウェア又はソフトウェアにより実行されるかは、技術的ソリューションの特定の適用及び設計制約条件に依存する。当業者は、特定の適用毎に、記載の機能を実施するために異なる方法を使用してよいが、実装が本願の範囲を超えると考えられるべきではない。
【0347】
便宜上及び簡潔な説明を目的として、前述jのシステム、機器、及びユニットの詳細な作動プロセスについては、前述の方法の実施形態における対応するプロセスを参照し、詳細はここで再び記載されないことが、当業者により明確に理解され得る。
【0348】
本願において提供された幾つかの実施形態では、理解されるべきことに、開示のシステム、機器、及び方法は他の方法で実装されてよい。例えば、記載の機器の実施形態は単なる例である。例えば、ユニット分割は、単なる論理的機能分割であり、実際の実装では他の分割であってよい。例えば、複数のユニット又はコンポーネントは、結合され又は別のシステムに統合されてよく、或いは、幾つかの機能は、無視され又は実行されなくてよい。さらに、示された又は議論された相互結合又は直接結合又は通信接続は、幾つかのインタフェースを用いて実装されてよい。機器又はユニット間の間接結合又は通信接続は、電子的、機械的、又は他の形式で実装されてよい。
【0349】
別個の部分として記載されたユニットは、物理的に分離していてよく又はそうでなくてよい。ユニットとして示された部分は、物理的ユニットであってよく又はそうでなくてよく、1つの場所に置かれてよく、又は服すのネットワークユニットに分配されてよい。ユニットのうちの一部又は全部は、実施形態のソリューションの目的を達成するために、実際の要件に基づき選択されてよい。
【0350】
さらに、本願の実施形態における機能ユニットは、1つの処理ユニットに統合されてよく、又は、ユニットの各々は物理的に単独で存在してよく、又は、2つ以上のユニットが1つのユニットに統合される。
【0351】
機能がソフトウェア機能ユニットの形式で実装され、独立した製品として販売され又は使用されるとき、昨日は、コンピュータ可読記憶媒体に格納されてよい。このような理解に基づき、基本的に又は部分的に従来技術に貢献する本願の技術的ソリューション又は技術的ソリューションのうちの一部は、ソフトウェアプロダクトの形式で実装されてよい。、コンピュータソフトウェアプロダクトは、記憶媒体に格納され、本願の実施形態で記載された方法のステップのうちの全部又は一部を実行するようコンピュータ装置(これは、パーソナルコンピュータ、サーバ、ネットワーク装置、等であってよい)に指示するための幾つかの命令を含む。前述の記憶媒体は、プログラムコードを格納できる、USBフラッシュドライブ、取り外し可能ハードディスク、読み出し専用メモリ(read−only memory, ROM)、ランダムアクセスメモリ(random access memory, RAM)、磁気ディスク、又は光ディスクのような、任意の記憶媒体を含む。
【0352】
前述の説明は、単に本願の特定の実装であり、本願の保護範囲を限定することを意図しない。本願で開示された技術的範囲の範囲内にある、当業者により直ちに考案される任意の変形又は置換は、本願の保護範囲の中に包含されるべきである。したがって、本願の保護範囲は、特許請求の範囲の保護範囲に従うべきである。