【文献】
Christof FALLER, et al.,"Efficient Representation of Spatial Audio Using Perceptual Parametrization",Applications of Signal Processing to Audio and Acoustics 2001,IEEE Workshop,2001年10月,pp.199-202
【文献】
Christof FALLER, et al.,"Binaural Cue Coding - Part II: Schemes and Applications",IEEE Transactions on Speech and Audio Processing,2003年11月,Vol.11, No.6,pp.520-531
【文献】
Jeroen BREEBAART, et al.,"Parametric Coding of Stereo Audio",EURASIP Journal on Applied Signal Processing,2005年 6月,pp.1305-1322,URL,http://www.jeroenbreebaart.com/papers/jasp/jasp2005.pdf
【文献】
J. Herre, et al.,"Spatial Audio Coding: Next-generation efficient and compatible coding of multi-channel audio",Convention Paper of the 117th Convention,Audio Engineering Society,2004年10月,No.6186,pp.1-13
(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【0006】
本発明の目的は、オーディオ信号の効率的な符号化のために、多重チャネル・オーディオ信号を構成するチャネル同士の間におけるチャネル間の相対関係を表現する符号化パラメータを推定するための発明概念を提供することにある。
【0007】
上述した本発明の目的は、特許請求の範囲の独立請求項に記載された技術的特徴によって達成される。本発明に係る追加的な実装形態は、特許請求の範囲の従属請求項の記載、本願明細書中の実施例の記載および本明細書に添付した図面の記載から明らかである。
【0008】
本発明を詳細に説明するために、以下に列挙する用語、略語および表記法が使用される。
【0009】
<BCC>:バイノーラル・キュー符号化(BCC:Binaural Cues Coding)、すなわち、チャネル間の相対関係を記述するためにダウン・ミキシング処理およびバイノーラル・キュー(すなわち、空間パラメータ)を使用してステレオ信号または多重チャネル信号を符号化する技術。
【0010】
<バイノーラル・キュー>:右耳から入った音響信号と左耳から入った音響信号との間におけるチャネル間キュー(ITD、ILDおよびICも参照されたい)。
【0011】
<CLD>:チャネル間のレベル差分であり、ICLDと同じ意味である。
【0012】
<FFT>:DFT演算を高速に実行するための実装形態であり、正確には高速フーリエ変換と表記される。
【0013】
<STFT>:短期間(Short-Time)フーリエ変換
<HRTF>:人間の頭の位置と関連した伝達関数(Head-Related Transfer Function)、すなわち、自由音場において音源から右耳と左耳にそれぞれ入った音のエネルギー変換をモデル化している伝達関数である。
【0014】
<IC>:両耳の間のコヒーレンス、すなわち、右耳から入った音響信号と左耳から入った音響信号との間における類似度であり、しばしば、IACまたはIACC(両耳の間の相互相関(Interaural Cross-Correlation))とも呼ばれる。
【0015】
<ICC>:チャネル間のコヒーレンス、チャネル間の相関
<ICPD>:チャネル間の位相差、すなわち、信号対の間における位相差を平均した値
<ICLD>:チャネル間のレベル差
<ICTD>:チャネル間の時間差分
<ILD>:両耳の間のレベル差、すなわち、右耳から入った音響信号と左耳から入った音響信号との間におけるレベルの差分であり、しばしば、IID(両耳の間の強度の差分(Interaural Intensity Difference))とも呼ばれる。
【0016】
<IPD>:両耳の間の位相差、すなわち、右耳から入った音響信号と左耳から入った音響信号との間における位相の差分である。
【0017】
<ITD>:両耳の間の時間差、すなわち、右耳から入った音響信号と左耳から入った音響信号との間における時間の差分である。
【0018】
<ミキシング処理>:多数の音源信号(例えば、別々に録音された複数の楽器による音源や多重トラック録音された音源など)を与えられた際に、空間的なオーディオ再生を目的としてステレオ又は多重チャネルのオーディオ信号を生成する処理過程を指してミキシング処理と呼ぶ。
【0019】
<空間的オーディオ>:適切な再生システムにより再生された際に、聴覚的な空間イメージを想起させるようなオーディオ信号。
【0020】
<空間的キュー>:空間的な知覚と関連したキューであり、この用語は、ステレオ又は多重チャネルのオーディオ信号の中のチャネル対の間のキューを指して呼ぶのに使用され(ICTD、ICLDおよびICCも参照されたい)、空間パラメータまたはバイノーラル・キューとも呼ばれる。
【0021】
本発明に係る第1の側面に従うならば、本発明は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、符号化パラメータを生成するパラメトリック型のオーディオ符号化装置と関係し、前記オーディオ・チャネル信号の各々は、オーディオ・チャネル信号値を有しており、当該パラメトリック型のオーディオ符号化装置は、パラメータ生成器を具備しており、前記パラメータ生成器は:
前記オーディオ・チャネル信号に関する前記オーディオ・チャネル信号値と基準オーディオ信号に関する基準オーディオ信号値から、前記複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、複数の符号化パラメータから成る第1パラメータ群を決定する処理動作であって、前記基準オーディオ信号は、前記複数のオーディオ・チャネル信号の中のさらに別のオーディオ・チャネル信号である、処理動作;
前記オーディオ・チャネル信号に関する複数の符号化パラメータから成る第1パラメータ群に基づいて、符号化パラメータの第1の平均値を、前記オーディオ・チャネル信号について決定する処理動作;
前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関して少なくとも一つ存在する前記符号化パラメータの別の第1の平均値とに基づいて、前記オーディオ・チャネル信号に関して、符号化パラメータの第2の平均値を決定する処理動作;および、
前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関する前記符号化パラメータの第2の平均値とに基づいて前記符号化パラメータを決定する処理動作;
を実行するように構成されることを特徴とする。
【0022】
基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つとすることが可能である。より具体的には、基準オーディオ信号は、ステレオ信号を構成する左側または右側のオーディオ・チャネル信号の何れか一方とすることが可能であり、この場合、当該ステレオ信号は、2チャネルから構成される多重チャネル信号の実施例を形成する。しかしながら、基準オーディオ信号は、符号化パラメータを決定するための基準となり得る任意の信号とすることが可能である。そのような基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のチャネルをダウンミキシングした後のモノラルなダウンミキシング済みオーディオ信号によって形成されることが可能である。または、そのような基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のチャネルをダウンミキシングした後のダウンミキシング済みオーディオ信号を構成する複数のチャネルの中の一つによって形成されるものとすることが可能である。
【0023】
パラメトリック型のオーディオ符号化器は、コヒーレンスまたは相関を計算するための処理を必要としないので、符号化器の構造的な複雑度を低く抑えることが可能である。数個の量子化ステップしか必要としない粗い量子化器によってICCが量子化される場合には、それはさらに、複数のオーディオ・チャネル間の関係についての正確な推定結果を提供する。特に、音楽の信号についてだけでなく、会話の信号についても言えることであるが、出力された音楽の音は、音響シーン幅が正確であれば、より自然なものとなり、「ドライ」ではなくなるので、オーディオ信号の符号化のために符号化パラメータを使用することは重要である。ビットレートが非常に低いパラメトリック型のステレオ・オーディオ符号化方式に関しては、ビットの割り当て量は限定されており、唯一つのフル・バンドICCが送信され、当該符号化パラメータは、複数のチャネル間のグローバルな相関を表現している。
【0024】
本発明に係る第1の側面に従うパラメトリック型オーディオ符号化器の第1の実現可能な実装形態においては、複数の符号化パラメータから成る第1パラメータ群は、以下に列挙する複数のパラメータの中の一つ以上により構成される。これら複数のパラメータは、「チャネル間のレベル差分」、「チャネル間の位相差分」、「チャネル間のコヒーレンス」、「チャネル間の強度差分」、「サブバンドに関するチャネル間のレベル差分」、「サブバンドに関するチャネル間の位相差分」、「サブバンドに関するチャネル間のコヒーレンス」および「サブバンドに関するチャネル間の強度差分」である。
【0025】
そのようなパラメータは、複数のオーディオ信号同士の間の類似度を表現するので、伝送される情報量を減少させるために符号化器によって使用されることが可能であり、その結果、計算の複雑さを軽減することが可能となる。
【0026】
本発明に係る第1の側面または当該第1の側面の第1の実装形態に従うパラメトリック型オーディオ符号化器の第2の実現可能な実装形態においては、パラメータ生成器は、複数の符号化パラメータから成る第1パラメータ群を取得するために、後続する複数のオーディオ・チャネル信号値同士の間における位相差分を決定するように構成される。
【0027】
後続する複数のオーディオ・チャネル信号値同士の間の位相差分は、複数のチャネル同士の間における位相および/または遅延の差分を再生成するために必要とされ、位相差分が再生成された場合には、会話と音楽の音響内容はより自然なものとなる。
【0028】
本発明に係る第1の側面または当該第1の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第3の実現可能な実装形態においては、オーディオ・チャネル信号と基準オーディオ信号とは、周波数ドメインの信号であり、オーディオ・チャネル信号の値と基準オーディオ信号の値とは、周波数ビンすなわち周波数サブバンドと関係付けられる。
【0029】
使用される周波数分解能は、主として聴覚系の周波数分解能によって動機付けされる。心理音響学的な知見により、空間的な知覚は、音響入力信号のクリティカル・バンド表現に基づいている可能性が最も高いことが示唆されている。複数のサブバンドのそれぞれのバンド幅が、聴覚系のクリティカル・バンド幅と等しいかこれと比例するような可逆的なフィルター・バンクを使用することによって、この周波数分解能は考慮される。その結果、パラメトリック型のオーディオ符号化器は、人間の知覚に対して良好に適合することが可能となる。
【0030】
本発明に係る第1の側面または当該第1の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第4の実現可能な実装形態においては、パラメトリック型のオーディオ符号化器は、複数のオーディオ・チャネル信号を取得するために、複数のオーディオ・チャネル信号に関する時間ドメイン表現を周波数ドメイン表現に変換する変換器をさらに具備する。
【0031】
チャネルのインパルス応答特性に対する等化処理は、周波数ドメインにおいて効率的に実行され得る。何故なら、時間ドメインにおける畳み込み積分演算が周波数ドメインでは乗算演算となるからである。従って、周波数ドメインにおいてパラメトリック型オーディオ符号化器の計算処理を実行することは、結果的に、計算の複雑性の観点からより高い効率を達成し、より高い計算精度を達成する。
【0032】
本発明に係る第1の側面または当該第1の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第5の実現可能な実装形態においては、パラメータ生成器は、複数のオーディオ・チャネル信号に関する周波数サブバンドの各々について、すなわち周波数ビンの各々について、複数の符号化パラメータから成る第1パラメータ群を決定するように構成される。
【0033】
パラメトリック型オーディオ符号化器は、複数の符号化パラメータから成る第1パラメータ群の決定処理を、人間の耳によって知覚可能な周波数ビンすなわち周波数サブバンドに限定することが可能であるので、計算の複雑性を低く抑えることが出来る。
【0034】
本発明に係る第1の側面または当該第1の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第6の実現可能な実装形態においては、パラメータ生成器は、オーディオ・チャネル信号に関する複数の符号化パラメータから成る第1パラメータ群を複数の周波数ビンすなわち複数の周波数サブバンドに跨って平均した値として、オーディオ・チャネル信号に関する符号化パラメータの第1の平均値を決定するように構成される。
【0035】
上述した平均化処理により、パラメトリック型オーディオ符号化器は、全ての周波数成分を考慮に入れた場合におけるオーディオ信号の短期間平均値を提供する。
【0036】
本発明に係る第1の側面または当該第1の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第7の実現可能な実装形態においては、パラメータ生成器は、オーディオ・チャネル信号に関する符号化パラメータの第1の平均値をオーディオ・チャネル信号の複数のフレームに跨って平均した値として、オーディオ・チャネル信号に関する符号化パラメータの第2の平均値を決定するように構成され、オーディオ・チャネル信号に関する符号化パラメータの第1の平均値の各々は、多重チャネルのオーディオ信号の一つのフレームと関係付けられている。
【0037】
上述した平均化処理により、パラメトリック型オーディオ符号化器は、オーディオ信号の長期間平均値を提供し、このとき、会話の信号または音楽の信号に関する特徴的な性質が考慮に入れられる。
【0038】
本発明に係る第1の側面または当該第1の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第8の実現可能な実装形態においては、パラメータ生成器は、オーディオ・チャネル信号に関する符号化パラメータの第2の平均値とオーディオ・チャネル信号に関する符号化パラメータの第1の平均値との間の差分の絶対値を決定するように構成される。
【0039】
上述した差分を計算することにより、パラメトリック型オーディオ符号化器は、上述した長期間平均値と上述した短期間平均値との間における差分の測度を提供し、会話又は音楽の振る舞いを予測することが可能となる。
【0040】
本発明に係る第1の側面に関して上述した第8の実装形態に従うパラメトリック型オーディオ符号化器の第9の実現可能な実装形態においては、パラメータ生成器は、上記のとおりに決定された絶対値の関数として符号化パラメータを決定するように構成される。
【0041】
上記のとおりに決定された絶対値の関数として符号化パラメータが提供される場合、符号化パラメータと上記のとおりに決定された絶対値との間に所定の関係性が存在し、当該関係性は、符号化パラメータを効率的に計算するために使用することが可能である。その結果、計算の複雑性が軽減される。
【0042】
本発明に係る第1の側面に関して上述した第8の実装形態または第9の実装形態に従うパラメトリック型オーディオ符号化器の第10の実現可能な実装形態においては、パラメータ生成器は、第1のパラメータ値と、上記のとおりに決定された絶対値に第2のパラメータ値を乗算した値との間における差分から符号化パラメータを決定するように構成される。
【0043】
第1のパラメータ値と上記のとおりに決定された絶対値との間における差分として符号化パラメータが提供される場合、符号化パラメータと上記のとおりに決定された絶対値との間に所定の関係性が存在し、当該関係性は、符号化パラメータを効率的に計算するために使用することが可能である。その結果、計算の複雑性が軽減される。
【0044】
本発明に係る第1の側面に関して上述した第10の実装形態に従うパラメトリック型オーディオ符号化器の第11の実現可能な実装形態においては、パラメータ生成器は、第1のパラメータ値を1に設定し、第2のパラメータ値を1に設定するように構成され、このような設定に基づく関係性により、パラメトリック型オーディオ符号化器は、符号化パラメータを効率的に計算するために使用することが可能である。その結果、計算の複雑性が軽減される。
【0045】
本発明に係る第1の側面または当該第1の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第12の実現可能な実装形態においては、パラメトリック型オーディオ符号化器は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の少なくとも2つを重ね合わせて合成することによってダウンミキシング済みの信号を取得するためのダウンミキシング済みオーディオ信号の生成器、当該ダウンミキシング済みオーディオ信号を符号化することにより符号化されたオーディオ信号を取得するためのオーディオ符号化器(特にモノラル符号化器)および当該符号化されたオーディオ信号を対応する符号化パラメータと合成する合成器をさらに具備している。
【0046】
当該ダウンミキシング済みオーディオ信号と当該符号化されたオーディオ信号とは、パラメータ生成器のための基準信号として使用することが可能である。これら2つの信号の両者は、複数のオーディオ・チャネル信号を含んでいるので、単一のチャネル信号が基準信号として採用された場合よりも高い精度を実現することが可能となる。
【0047】
本発明に係る第1の側面または当該第1の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第13の実現可能な実装形態においては、符号化パラメータの第1の平均値は、オーディオ・チャネル信号の現在のフレームを参照しており、符号化パラメータのさらに別の第1の平均値は、オーディオ・チャネル信号の以前のフレームを参照している。
【0048】
オーディオ・チャネル信号に関して現在のフレームと以前のフレームを使用することにより、長期間にわたる平均化処理を効率的に実行することが可能となる。
【0049】
本発明に係る第1の側面に関して上述した第13の実装形態に従うパラメトリック型オーディオ符号化器の第14の実現可能な実装形態においては、オーディオ・チャネル信号の現在のフレームは、オーディオ・チャネル信号の以前のフレームに対して連続的なものである。
【0050】
これら2つのフレームが互いに連続的である場合、オーディオ・チャネル信号の鋭いピーク波形部分が平均化処理結果の中で検出され、パラメトリック型オーディオ符号化器において考慮に入れられる。その結果、鋭いピーク波形部分を検出することが出来ない場合と比較して、符号化処理をより高精度なものとすることが可能となる。
【0051】
本発明に係る第2の側面に従うならば、本発明は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、符号化パラメータを生成するパラメトリック型のオーディオ符号化装置と関係し、前記オーディオ・チャネル信号の各々は、オーディオ・チャネル信号値を有しており、当該パラメトリック型のオーディオ符号化装置は、パラメータ生成器を具備しており、前記パラメータ生成器は:
前記オーディオ・チャネル信号に関する前記オーディオ・チャネル信号値と基準オーディオ信号に関する基準オーディオ信号値から、前記複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、複数の符号化パラメータから成る第1パラメータ群を決定する処理動作であって、前記基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の少なくとも2つから導出されたダウンミキシング済みオーディオ信号である、処理動作;
前記オーディオ・チャネル信号に関する複数の符号化パラメータから成る第1パラメータ群に基づいて、符号化パラメータの第1の平均値を、前記オーディオ・チャネル信号について決定する処理動作;
前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関して少なくとも一つ存在する前記符号化パラメータの別の第1の平均値とに基づいて、前記オーディオ・チャネル信号に関して、符号化パラメータの第2の平均値を決定する処理動作;および、
前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関する前記符号化パラメータの第2の平均値とに基づいて前記符号化パラメータを決定する処理動作;
を実行するように構成されることを特徴とする。
【0052】
基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つとすることが可能である。より具体的には、基準オーディオ信号は、ステレオ信号を構成する左側または右側のオーディオ・チャネル信号の何れか一方とすることが可能であり、この場合、当該ステレオ信号は、2チャネルから構成される多重チャネル信号の実施例を形成する。しかしながら、基準オーディオ信号は、符号化パラメータを決定するための基準となり得る任意の信号とすることが可能である。そのような基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のチャネルをダウンミキシングした後のモノラルなダウンミキシング済みオーディオ信号によって形成されることが可能である。または、そのような基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のチャネルをダウンミキシングした後のダウンミキシング済みオーディオ信号を構成する複数のチャネルの中の一つによって形成されるものとすることが可能である。
【0053】
パラメトリック型のオーディオ符号化器は、コヒーレンスまたは相関を計算するための処理を必要としないので、符号化器の構造的な複雑度を低く抑えることが可能である。数個の量子化ステップしか必要としない粗い量子化器によってICCが量子化される場合には、それはさらに、複数のオーディオ・チャネル間の関係についての正確な推定結果を提供する。特に、音楽の信号についてだけでなく、会話の信号についても言えることであるが、出力された音楽の音は、音響シーン幅が正確であれば、より自然なものとなり、「ドライ」ではなくなるので、オーディオ信号の符号化のために符号化パラメータを使用することは重要である。ビットレートが非常に低いパラメトリック型のステレオ・オーディオ符号化方式に関しては、ビットの割り当て量は限定されており、唯一つのフル・バンドICCが送信され、当該符号化パラメータは、複数のチャネル間のグローバルな相関を表現している。
【0054】
本発明に係る第2の側面に従うパラメトリック型オーディオ符号化器の第1の実現可能な実装形態においては、複数の符号化パラメータから成る第1パラメータ群は、以下に列挙する複数のパラメータの中の一つ以上により構成される。これら複数のパラメータは、「チャネル間のレベル差分」、「チャネル間の位相差分」、「チャネル間のコヒーレンス」、「チャネル間の強度差分」、「サブバンドに関するチャネル間のレベル差分」、「サブバンドに関するチャネル間の位相差分」、「サブバンドに関するチャネル間のコヒーレンス」および「サブバンドに関するチャネル間の強度差分」である。
【0055】
そのようなパラメータは、複数のオーディオ信号同士の間の類似度を表現するので、伝送される情報量を減少させるために符号化器によって使用されることが可能であり、その結果、計算の複雑さを軽減することが可能となる。
【0056】
本発明に係る第2の側面または当該第2の側面の第1の実装形態に従うパラメトリック型オーディオ符号化器の第2の実現可能な実装形態においては、パラメータ生成器は、複数の符号化パラメータから成る第1パラメータ群を取得するために、後続する複数のオーディオ・チャネル信号値同士の間における位相差分を決定するように構成される。
【0057】
後続する複数のオーディオ・チャネル信号値同士の間の位相差分は、複数のチャネル同士の間における位相および/または遅延の差分を再生成するために必要とされ、位相差分が再生成された場合には、会話と音楽の音響内容はより自然なものとなる。
【0058】
本発明に係る第2の側面または当該第2の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第3の実現可能な実装形態においては、オーディオ・チャネル信号と基準オーディオ信号とは、周波数ドメインの信号であり、オーディオ・チャネル信号の値と基準オーディオ信号の値とは、周波数ビンすなわち周波数サブバンドと関係付けられる。
【0059】
使用される周波数分解能は、主として聴覚系の周波数分解能によって動機付けされる。心理音響学的な知見により、空間的な知覚は、音響入力信号のクリティカル・バンド表現に基づいている可能性が最も高いことが示唆されている。複数のサブバンドのそれぞれのバンド幅が、聴覚系のクリティカル・バンド幅と等しいかこれと比例するような可逆的なフィルター・バンクを使用することによって、この周波数分解能は考慮される。その結果、パラメトリック型のオーディオ符号化器は、人間の知覚に対して良好に適合することが可能となる。
【0060】
本発明に係る第2の側面または当該第2の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第4の実現可能な実装形態においては、パラメトリック型のオーディオ符号化器は、複数のオーディオ・チャネル信号を取得するために、複数のオーディオ・チャネル信号に関する時間ドメイン表現を周波数ドメイン表現に変換する変換器をさらに具備する。
【0061】
チャネルのインパルス応答特性に対する等化処理は、周波数ドメインにおいて効率的に実行され得る。何故なら、時間ドメインにおける畳み込み積分演算が周波数ドメインでは乗算演算となるからである。従って、周波数ドメインにおいてパラメトリック型オーディオ符号化器の計算処理を実行することは、結果的に、計算の複雑性の観点からより高い効率を達成し、より高い計算精度を達成する。
【0062】
本発明に係る第1の側面または当該第1の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第5の実現可能な実装形態においては、パラメータ生成器は、複数のオーディオ・チャネル信号に関する周波数サブバンドの各々について、すなわち周波数ビンの各々について、複数の符号化パラメータから成る第1パラメータ群を決定するように構成される。
【0063】
パラメトリック型オーディオ符号化器は、複数の符号化パラメータから成る第1パラメータ群の決定処理を、人間の耳によって知覚可能な周波数ビンすなわち周波数サブバンドに限定することが可能であるので、計算の複雑性を低く抑えることが出来る。
【0064】
本発明に係る第2の側面または当該第2の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第6の実現可能な実装形態においては、パラメータ生成器は、オーディオ・チャネル信号に関する複数の符号化パラメータから成る第1パラメータ群を複数の周波数ビンすなわち複数の周波数サブバンドに跨って平均した値として、オーディオ・チャネル信号に関する符号化パラメータの第1の平均値を決定するように構成される。
【0065】
上述した平均化処理により、パラメトリック型オーディオ符号化器は、全ての周波数成分を考慮に入れた場合におけるオーディオ信号の短期間平均値を提供する。
【0066】
本発明に係る第2の側面または当該第2の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第7の実現可能な実装形態においては、パラメータ生成器は、オーディオ・チャネル信号に関する符号化パラメータの第1の平均値をオーディオ・チャネル信号の複数のフレームに跨って平均した値として、オーディオ・チャネル信号に関する符号化パラメータの第2の平均値を決定するように構成され、オーディオ・チャネル信号に関する符号化パラメータの第1の平均値の各々は、多重チャネルのオーディオ信号の一つのフレームと関係付けられている。
【0067】
上述した平均化処理により、パラメトリック型オーディオ符号化器は、オーディオ信号の長期間平均値を提供し、このとき、会話の信号または音楽の信号に関する特徴的な性質が考慮に入れられる。
【0068】
本発明に係る第2の側面または当該第2の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第8の実現可能な実装形態においては、パラメータ生成器は、オーディオ・チャネル信号に関する符号化パラメータの第2の平均値とオーディオ・チャネル信号に関する符号化パラメータの第1の平均値との間の差分の絶対値を決定するように構成される。
【0069】
上述した差分を計算することにより、パラメトリック型オーディオ符号化器は、上述した長期間平均値と上述した短期間平均値との間における差分の測度を提供し、会話又は音楽の振る舞いを予測することが可能となる。
【0070】
本発明に係る第2の側面に関して上述した第8の実装形態に従うパラメトリック型オーディオ符号化器の第9の実現可能な実装形態においては、パラメータ生成器は、上記のとおりに決定された絶対値の関数として符号化パラメータを決定するように構成される。
【0071】
上記のとおりに決定された絶対値の関数として符号化パラメータが提供される場合、符号化パラメータと上記のとおりに決定された絶対値との間に所定の関係性が存在し、当該関係性は、符号化パラメータを効率的に計算するために使用することが可能である。その結果、計算の複雑性が軽減される。
【0072】
本発明に係る第2の側面に関して上述した第8の実装形態または第9の実装形態に従うパラメトリック型オーディオ符号化器の第10の実現可能な実装形態においては、パラメータ生成器は、第1のパラメータ値と、上記のとおりに決定された絶対値に第2のパラメータ値を乗算した値との間における差分から符号化パラメータを決定するように構成される。
【0073】
第1のパラメータ値と上記のとおりに決定された絶対値との間における差分として符号化パラメータが提供される場合、符号化パラメータと上記のとおりに決定された絶対値との間に所定の関係性が存在し、当該関係性は、符号化パラメータを効率的に計算するために使用することが可能である。その結果、計算の複雑性が軽減される。
【0074】
本発明に係る第2の側面に関して上述した第10の実装形態に従うパラメトリック型オーディオ符号化器の第11の実現可能な実装形態においては、パラメータ生成器は、第1のパラメータ値を1に設定し、第2のパラメータ値を1に設定するように構成され、このような設定に基づく関係性により、パラメトリック型オーディオ符号化器は、符号化パラメータを効率的に計算するために使用することが可能である。その結果、計算の複雑性が軽減される。
【0075】
本発明に係る第2の側面または当該第2の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第12の実現可能な実装形態においては、パラメトリック型オーディオ符号化器は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の少なくとも2つを重ね合わせて合成することによってダウンミキシング済みの信号を取得するためのダウンミキシング済みオーディオ信号の生成器、当該ダウンミキシング済みオーディオ信号を符号化することにより符号化されたオーディオ信号を取得するためのオーディオ符号化器(特にモノラル符号化器)および当該符号化されたオーディオ信号を対応する符号化パラメータと合成する合成器をさらに具備している。
【0076】
当該ダウンミキシング済みオーディオ信号と当該符号化されたオーディオ信号とは、パラメータ生成器のための基準信号として使用することが可能である。これら2つの信号の両者は、複数のオーディオ・チャネル信号を含んでいるので、単一のチャネル信号が基準信号として採用された場合よりも高い精度を実現することが可能となる。
【0077】
本発明に係る第2の側面または当該第2の側面に関して上述した複数の実装形態に従うパラメトリック型オーディオ符号化器の第13の実現可能な実装形態においては、符号化パラメータの第1の平均値は、オーディオ・チャネル信号の現在のフレームを参照しており、符号化パラメータのさらに別の第1の平均値は、オーディオ・チャネル信号の以前のフレームを参照している。
【0078】
オーディオ・チャネル信号に関して現在のフレームと以前のフレームを使用することにより、長期間にわたる平均化処理を効率的に実行することが可能となる。
【0079】
本発明に係る第2の側面に関して上述した第13の実装形態に従うパラメトリック型オーディオ符号化器の第14の実現可能な実装形態においては、オーディオ・チャネル信号の現在のフレームは、オーディオ・チャネル信号の以前のフレームに対して連続的なものである。
【0080】
これら2つのフレームが互いに連続的である場合、オーディオ・チャネル信号の鋭いピーク波形部分が平均化処理結果の中で検出され、パラメトリック型オーディオ符号化器において考慮に入れられる。その結果、鋭いピーク波形部分を検出することが出来ない場合と比較して、符号化処理をより高精度なものとすることが可能となる。
【0081】
本発明に係る第3の側面に従うならば、本発明は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、符号化パラメータを生成する方法と関係し、前記オーディオ・チャネル信号の各々は、オーディオ・チャネル信号値を有しており、当該方法は:
前記オーディオ・チャネル信号に関する前記オーディオ・チャネル信号値と基準オーディオ信号に関する基準オーディオ信号値から、前記複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、複数の符号化パラメータから成る第1パラメータ群を決定する処理動作であって、前記基準オーディオ信号は、前記複数のオーディオ・チャネル信号の中のさらに別のオーディオ・チャネル信号である、処理動作;
前記オーディオ・チャネル信号に関する複数の符号化パラメータから成る第1パラメータ群に基づいて、符号化パラメータの第1の平均値を、前記オーディオ・チャネル信号について決定する処理動作;
前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関して少なくとも一つ存在する前記符号化パラメータの別の第1の平均値とに基づいて、前記オーディオ・チャネル信号に関して、符号化パラメータの第2の平均値を決定する処理動作;および、
前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関する前記符号化パラメータの第2の平均値とに基づいて前記符号化パラメータを決定する処理動作;
を具備することを特徴とする。
【0082】
上述した方法は、プロセッサ上で効率的に実行することが可能である。
【0083】
基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つとすることが可能である。より具体的には、基準オーディオ信号は、ステレオ信号を構成する左側または右側のオーディオ・チャネル信号の何れか一方とすることが可能であり、この場合、当該ステレオ信号は、2チャネルから構成される多重チャネル信号の実施例を形成する。しかしながら、基準オーディオ信号は、符号化パラメータを決定するための基準となり得る任意の信号とすることが可能である。そのような基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のチャネルをダウンミキシングした後のモノラルなダウンミキシング済みオーディオ信号によって形成されることが可能である。または、そのような基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のチャネルをダウンミキシングした後のダウンミキシング済みオーディオ信号を構成する複数のチャネルの中の一つによって形成されるものとすることが可能である。
【0084】
本発明に係る第4の側面に従うならば、本発明は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、符号化パラメータを生成する方法と関係し、前記オーディオ・チャネル信号の各々は、オーディオ・チャネル信号値を有しており、当該方法は:
前記オーディオ・チャネル信号に関する前記オーディオ・チャネル信号値と基準オーディオ信号に関する基準オーディオ信号値から、前記複数のオーディオ・チャネル信号の中の一つのオーディオ・チャネル信号について、複数の符号化パラメータから成る第1パラメータ群を決定する処理動作であって、前記基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の少なくとも2つから導出されたダウンミキシング済みオーディオ信号である、処理動作;
前記オーディオ・チャネル信号に関する複数の符号化パラメータから成る第1パラメータ群に基づいて、符号化パラメータの第1の平均値を、前記オーディオ・チャネル信号について決定する処理動作;
前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関して少なくとも一つ存在する前記符号化パラメータの別の第1の平均値とに基づいて、前記オーディオ・チャネル信号に関して、符号化パラメータの第2の平均値を決定する処理動作;および、
前記オーディオ・チャネル信号に関する前記符号化パラメータの第1の平均値と前記オーディオ・チャネル信号に関する前記符号化パラメータの第2の平均値とに基づいて前記符号化パラメータを決定する処理動作;
を具備することを特徴とする。
【0085】
上述した方法は、プロセッサ上で効率的に実行することが可能である。
【0086】
基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の一つとすることが可能である。より具体的には、基準オーディオ信号は、ステレオ信号を構成する左側または右側のオーディオ・チャネル信号の何れか一方とすることが可能であり、この場合、当該ステレオ信号は、2チャネルから構成される多重チャネル信号の実施例を形成する。しかしながら、基準オーディオ信号は、符号化パラメータを決定するための基準となり得る任意の信号とすることが可能である。そのような基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のチャネルをダウンミキシングした後のモノラルなダウンミキシング済みオーディオ信号によって形成されることが可能である。または、そのような基準オーディオ信号は、多重チャネルのオーディオ信号を構成する複数のチャネルをダウンミキシングした後のダウンミキシング済みオーディオ信号を構成する複数のチャネルの中の一つによって形成されるものとすることが可能である。
【0087】
本発明に係る第5の側面に従うならば、本発明は、コンピュータ上で実行された際に、本発明に関して上述した第3および第4の側面の何れか一つに従う方法を実装するように構成されたコンピュータ・プログラムと関係する。
【0088】
当該コンピュータ・プログラムの複雑性は低く抑えられているので、バッテリー寿命を温存しなくてはならないモバイル型端末において効率的に実装することが可能である。当該コンピュータ・プログラムがモバイル型端末の上で実行された場合には、バッテリー寿命の長さは増加する。
【0089】
本発明に関して上述した方法は、DSP(ディジタル信号処理プロセッサ)内におけるソフトウェア、マイクロ・コントローラ内におけるソフトウェア、またはその他の任意の補助プロセッサ内におけるソフトウェアとして、またはASIC(特定用途向け集積回路)内に実装されたハードウェア回路として実施することが可能である。
【0090】
本発明は、ディジタル電子回路内において実装することが可能であり、またはコンピュータのハードウェア、ファームウェア、ソフトウェアまたはこれらを組み合わせたものとして実装することも可能である。本発明に関するさらに追加の実施形態は、以下において簡単に説明する添付図面を参照しながら、本明細書中の「発明の実施するための形態」欄において具体的に後述する。
【発明を実施するための形態】
【0092】
図1は、本発明に係る一実装形態に従うパラメトリック型オーディオ符号化器100のブロック図を示している。パラメトリック型オーディオ符号化器100は、入力信号として、多重チャネルのオーディオ信号101を受信し、出力信号103としてビット・ストリームを出力する。パラメトリック型オーディオ符号化器100は、多重チャネルのオーディオ信号101に結合し、符号化パラメータ115を生成するためのパラメータ生成器105、多重チャネルのオーディオ信号101に結合し、ダウンミキシング済みの信号111または合計の信号を生成するためのダウンミキシング済みの信号の生成器107、ダウンミキシング済みの信号の生成器107と結合し、ダウンミキシング済みの信号111を符号化することによって符号化されたオーディオ信号113を出力するためのオーディオ符号化器109およびパラメータ生成器105およびオーディオ符号化器109と結合し、符号化パラメータ115と符号化されたオーディオ信号113からビット・ストリーム103を形成するための(例えば、ビット・ストリーム形成器のような)合成器117を具備している。
【0093】
パラメトリック型オーディオ符号化器100は、ステレオ信号と多重チャネル・オーディオ信号のためのオーディオ符号化方式を実装し、当該オーディオ符号化方式は、例えば、ダウンミキシング処理された単一オーディオ・チャネルのような単一のオーディオ・チャネルに加えて、それに付随する複数のパラメータだけを送信する。その際、当該複数のパラメータは、複数のオーディオ・チャネル
【0094】
【数1】
同士の間における「知覚的に関連する差分」を記述している。上述したオーディオ符号化方式においては、両耳性のキュー(Binaural Cue)が重要な役割を果たすこととなるため、上述したオーディオ符号化方式は、BCC符号化(Binaural Cue Coding)に従って実行される。添付図面において図示されているとおり、多重チャネルのオーディオ信号101を構成する複数のオーディオ・チャネルであって、符号化器100に入力されるM個のオーディオ・チャネル
【0095】
【数2】
は、単一のオーディオ・チャネル111へとダウンミキシング処理され、当該単一のオーディオ・チャネルは、合計の信号とも表記される。ステレオのオーディオ信号を扱う場合においては、オーディオ・チャネルの個数Mの値は2に等しくなる。複数のオーディオ・チャネル
【0096】
【数3】
同士の間における「知覚的に関連する差分」と同様に、例えば「チャネル間の時間差分(ICTD:Inter-Channel Time Difference)」、「チャネル間のレベル差分(ICLD:Inter-Channel Level Difference)」および「チャネル間のコヒーレンス(ICC:Inter-Channel Coherence)」等のような複数の符号化パラメータは時間と周波数の関数として推定され、
図2に示す復号化器200に対して補助情報として送信される。
【0097】
パラメータ生成器105内において実装されているBCC(Binaural Cue Coding)符号化処理機能は、所定の時間分解能と周波数分解能の下で多重チャネルのオーディオ信号101を処理する。使用される周波数分解能は、主として聴覚系の周波数分解能によって動機付けされる。心理音響学的な知見により、空間的な知覚は、音響入力信号のクリティカル・バンド表現に基づいている可能性が最も高いことが示唆されている。複数のサブバンドのそれぞれのバンド幅が、聴覚系のクリティカル・バンド幅と等しいかこれと比例するような可逆的なフィルター・バンクを使用することによって、この周波数分解能は考慮される。送信される合計の信号111が多重チャネルのオーディオ信号101に含まれる全ての信号成分を含んでいることは重要である。本発明の目的とするところは、これら信号成分の各々がパラメトリック符号化の前後を通じて完全に維持されることである。
【0098】
上述したように多重チャネルのオーディオ信号101を構成する複数のオーディオ入力チャネル
【0099】
【数4】
を単純に合計する場合、一部の信号成分が増幅されたり減衰させられたりする結果を時として生じ得る。言い換えれば、これらの信号成分を単純に合計した信号の電力は、
【0100】
【数5】
で表される複数のチャネルの各々にそれぞれ対応する信号成分の実際の合計電力よりも時として大きかったり小さかったりする。従って、合計の信号111を等化処理するためのダウンミキシング処理装置107を応用した信号処理を実行することによるダウンミキシング処理技法が使用され、その結果、合計の信号111に含まれる複数の信号成分の電力が、多重チャネルのオーディオ信号101を構成する全てのオーディオ入力チャネル
【0101】
【数6】
のそれぞれに関して対応する電力と近似的に同一となる。上述した複数のオーディオ入力チャネル
【0102】
【数7】
は、サブバンドbに関するチャネル信号を表現している。周波数ドメイン表現のオーディオ入力チャネルは、
【0103】
【数8】
と表記され、kは周波数インデックス(周波数ビン)を表し、通常の場合、サブバンドbは、幾つかの周波数ビンkによって構成されている。
【0104】
合計の信号111を与えられると、パラメータ生成器105は、ICTD、ICLDおよび/またはICCが元々の多重チャネル・オーディオ信号101における対応するキューを近似するような態様でステレオのオーディオ信号又は多重チャネルのオーディオ信号115を合成する。
【0105】
一つの音源に関する両耳性の室内インパルス応答特性(BRIR:Binaural Room Impulse Response)を考慮する場合、聴覚的事象、聴取環境およびBRIRの早い時期の部分と遅い時期の部分に関して推定されたICCの間には所定の関係性が存在する。しかしながら、(BRIRに限らず)一般的な信号に関するこれらの性質とICCとの間における上述した関係性は、直進的に得られるものではない。通常の場合、ステレオまたは多重チャネルのオーディオ信号は、反射波の信号成分が重ね合わされ合成されることにより同時並列的にアクティブ状態となる複数の音源信号が混ざり合った複合的な信号を含んでおり、そのような反射波の信号成分の重ね合わせは、閉ざされた空間内での録音操作や空間的な音の印象を人工的に作り出すために、録音技師によって付加された結果として生じ得る。複数の異なる音源信号とその反射波信号成分は、時間/周波数の平面上において異なる領域を占有する。これは、時間と周波数の関数として変化するICTD、ICLDおよびICCによって反映される。この場合、ICTD、ICLDおよびICCの瞬時値、聴覚的事象の方向および空間的な印象の間の関係性は自明なものではない。パラメータ生成器105のパラメータ生成戦略は、元々の多重チャネル・オーディオ信号101における対応するキューをこれらのキューが近似するような態様で、これらのキューを盲目的に合成するものである。
【0106】
一つの実装形態においては、パラメトリック型オーディオ符号化器100は、等価な長方形の帯域幅の2倍に等しい帯域幅のサブバンドを有するフィルター・バンクを使用する。非公式の聞き取り試験の結果、BCCのオーディオ品質は、周波数分解能を高くしても、それほど顕著には改善されないことが判明した。それならむしろ、周波数分解能を低くする方が好適である。何故ならば、そのようにすることにより、復号化器に送信する必要があるICTD、ICLDおよびICCの個数をより少なくすることができるので、ビット・レートを低く抑えることが出来るからである。時間分解能に関しては、ICTD、ICLDおよびICCは、規則的な時間周期毎に考慮される。一つの実装形態においては、ICTD、ICLDおよびICCは、約4ミリ秒〜約16ミリ秒毎の周期で考慮される。非常に短い時間周期毎にキューが考慮されるのでない限り、先行して生じた効果は直接的には考慮されない。
【0107】
上記のように合成された信号と基準信号との間における知覚的な差分が時として小さくなることは、規則的な時間周期毎にICTD、ICLDおよびICCを合成することによって、広範囲にわたる聴覚的空間イメージ属性が暗黙裡に考慮されていることを意味している。これらの空間的なキューを伝送するのに必要とされるビット・レートは、数キロビット/秒に過ぎないので、パラメトリック型オーディオ符号化器100は、単一のオーディオ・チャネル信号の伝送に必要とされるビット・レートと同程度のビット・レートでステレオ又は多重チャネルのオーディオ信号を伝送することが可能である。
図4は、符号化パラメータ115の一つとしてICCを推定するための方法を図示している。
【0108】
パラメトリック型オーディオ符号化器100は、多重チャネルのオーディオ信号101を構成する複数のオーディオ・チャネル信号の中の少なくとも2つを重ね合わせて合成することによってダウンミキシング処理された信号111を取得するためのダウンミキシング済みの信号の生成器107、ダウンミキシング処理された信号111を符号化することによって符号化されたオーディオ信号113を取得するためのオーディオ符号化器(特にモノラルの符号化器)109および対応する符号化パラメータ115と符号化されたオーディオ信号113とを合成するための合成器117を具備している。
【0109】
パラメトリック型オーディオ符号化器100は、多重チャネルのオーディオ信号101を構成する複数のオーディオ・チャネル信号であって、符号化器100に入力されるM個のオーディオ・チャネル信号
【0110】
【数9】
の中の一つのオーディオ・チャネル信号について符号化パラメータを生成する。複数のオーディオ・チャネル信号
【0112】
【数11】
と表記される周波数ドメインにおけるディジタル表現形式のオーディオ・チャネル信号を具備するディジタル信号とすることが可能である。
【0113】
パラメトリック型オーディオ符号化器100が符号化パラメータ115を生成する対象となるオーディオ・チャネル信号の一つの具体例は、信号値X
1[k]を有する第1のオーディオ・チャネル信号X
1[b]である。第1のオーディオ・チャネル信号X
1[b]に関して、パラメータ生成器105は、オーディオ・チャネル信号X
1[b]のオーディオ・チャネル信号値X
1[k]と基準オーディオ信号の基準オーディオ信号値から、複数の符号化パラメータを含む第1パラメータ群を決定し、これはIPD[b]と表記される。
【0114】
基準オーディオ信号として使用される一つのオーディオ・チャネル信号は、例えば、第2のオーディオ・チャネル信号X
2[b]とすることが可能である。同様に、複数のオーディオ・チャネル信号
【0115】
【数12】
に含まれる他の任意のオーディオ・チャネル信号が基準オーディオ信号としての役割を果たすようにすることも可能である。本発明に係る第1の側面に従うならば、基準オーディオ信号は、符号化パラメータ115が生成される対象となるオーディオ・チャネル信号X
1[b]とは等しくない複数のオーディオ・チャネル信号の中に含まれるさらに別のオーディオ・チャネル信号とすることが可能である。
【0116】
本発明に係る第2の側面に従うならば、基準オーディオ信号は、多重チャネルのオーディオ信号101を構成する複数のオーディオ・チャネル信号の中の少なくとも2つから導出された(例えば、第1のオーディオ・チャネル信号X
1[b]と第2のオーディオ・チャネル信号X
2[b]から導出された)ダウンミキシング済みオーディオ信号である。一つの実装形態においては、基準オーディオ信号は、ダウンミキシング処理された信号111であり、以下の説明においては、ダウンミキシング済み信号の生成器107によって生成された合計の信号とも呼ぶことにする。一つの実装形態においては、基準オーディオ信号は、オーディオ符号化器109によって出力される符号化されたオーディオ信号113である。
【0117】
パラメータ生成器105によって使用される基準オーディオ信号の一例は、信号値X
2[k]を有する第2のオーディオ・チャネル信号X
2[b]である。
【0118】
オーディオ・チャネル信号X
1[b]に関して、パラメータ生成器105は、オーディオ・チャネル信号X
1[b]のための複数の符号化パラメータを含む第1パラメータ群IPD[b]に基づいて、符号化パラメータの第1の平均値を決定し、これはIPD
mean[i]と表記される。
【0119】
オーディオ・チャネル信号X
1[b]に関して、パラメータ生成器105は、オーディオ・チャネル信号X
1[b]に関する符号化パラメータの第1の平均値IPD
mean[i]とオーディオ・チャネル信号X
1[b]に関する符号化パラメータのさらに別の第1の平均値の少なくとも一つであって、IPD
mean[i−1]と表記される平均値に基づいて、符号化パラメータの第2の平均値を決定し、これはIPD
mean_long_termと表記される。一つの実装形態において、符号化パラメータの第1の平均値IPD
mean[i]は、オーディオ・チャネル信号X
1[b]の現在のフレームiを参照しており、符号化パラメータのさらに別の第1の平均値IPD
mean[i−1]は、オーディオ・チャネル信号X
1[b]の以前のフレームi−1を参照している。一つの実装形態において、オーディオ・チャネル信号X
1[b]の以前のフレームi−1は、他のフレーム受信を挟まないで現在のフレームiの直前に受信されたフレームである。一つの実装形態において、オーディオ・チャネル信号X
1[b]の以前のフレームi−Nは、現在のフレームiに先立って受信されたフレームであるが、その2つのフレームの受信時点を挟んで他の一つ以上のフレームが到着している。
【0120】
オーディオ・チャネル信号X
1[b]に関する符号化パラメータの第1の平均値IPD
mean[i]に基づき、かつ、オーディオ・チャネル信号X
1[b]に関する符号化パラメータの第2の平均値IPD
mean_long_termに基づいて、パラメータ生成器105は、ICCと表記される符号化パラメータを決定する。
【0121】
複数の符号化パラメータを含む第1パラメータ群IPD[b]は、「チャネル間のレベル差分」、「チャネル間の位相差分」、「チャネル間のコヒーレンス」、「チャネル間の強度差分」、「サブバンドに関するチャネル間のレベル差分」、「サブバンドに関するチャネル間の位相差分」、「サブバンドに関するチャネル間のコヒーレンス」または「サブバンドに関するチャネル間の強度差分」などのパラメータ、あるいはこれらを組み合わせたパラメータから構成され得る。「チャネル間の位相差分(ICPD)」は、一対の信号間における位相差分の平均であり、「チャネル間のレベル差分(ICLD)」は、両耳の間におけるレベル差分(ILD:Inter-Aural Level Difference)と同じものである。すなわち、「チャネル間のレベル差分(ICLD)」は、左耳と右耳にそれぞれ入ってくる2つの信号間におけるレベル差分としても定義されるが、より一般的な場合としては、例えば、大音量スピーカーが発する一対の信号や耳に入ってくる一対の信号などのような任意の一対の信号間におけるレベル差分として定義される。「チャネル間のコヒーレンス」すなわち「チャネル間の相関」は、両耳の間におけるコヒーレンス(IC:Inter-Aural Coherence)と同じものである。すなわち、「チャネル間のコヒーレンス」は、左耳と右耳にそれぞれ入ってくる2つの信号同士の間の類似度としても定義されるが、より一般的な場合としては、例えば、大音量スピーカーが発する一対の信号や耳に入ってくる一対の信号などのような任意の一対の信号間における類似度として定義される。「チャネル間の時間差分(ICTD)」は、両耳の間における時間差分(ITD:Inter-Aural Time Difference)と同じものであり、「両耳の間における時間遅延量」とも呼ばれる。すなわち、「チャネル間の時間差分」は、左耳と右耳にそれぞれ入ってくる2つの信号同士の間の時間差分としても定義されるが、より一般的な場合としては、例えば、大音量スピーカーが発する一対の信号や耳に入ってくる一対の信号などのような任意の一対の信号間における時間差分として定義される。「サブバンドに関するチャネル間のレベル差分」、「サブバンドに関するチャネル間の位相差分」、「サブバンドに関するチャネル間のコヒーレンス」および「サブバンドに関するチャネル間の強度差分」は、サブバンド帯域幅に関して上述したとおりに定義されるパラメータと関係付けられている。
【0122】
パラメータ生成器105は、複数の符号化パラメータを含む第1パラメータ群IPD[b]を取得するために、後続するオーディオ・チャネル信号値X
1[k]の位相差分を決定する。一つの実装形態においては、オーディオ・チャネル信号X
1[b]と基準オーディオ信号X
2[b]とは、周波数ドメインの信号であり、オーディオ・チャネル信号値X
1[k]と基準オーディオ信号値X
2[k]とは、「k」と表記される周波数ビン、すなわち「b」と表記されるサブバンドと関係付けられる。一つの実装形態においては、パラメトリック型オーディオ符号化器100は、複数の時間ドメインのオーディオ・チャネル信号
【0123】
【数13】
を周波数ドメインに変換することによって複数のオーディオ・チャネル信号
【0124】
【数14】
を取得するための変換器(例えば、FFT(高速フーリエ変換)処理装置など)を具備している。一つの実装形態においては、パラメータ生成器105は、複数のオーディオ・チャネル信号
【0125】
【数15】
の周波数ビン[k]の各々について、すなわちサブバンド[b]の各々について、複数の符号化パラメータを含む第1パラメータ群IPD[b]を決定する。
【0126】
第1の処理ステップにおいては、パラメータ生成器105は、時間ドメイン表現の入力チャネル(例えば、第1の入力チャネルX
1[n])および時間ドメイン表現の基準チャネル(例えば、第2の入力チャネルX
2[n])の上で時間/周波数変換処理を適用する。ステレオ信号の場合、左側チャネルと右側チャネルが存在する。好適な実施例においては、時間/周波数変換処理は、FFT(高速フーリエ変換)処理である。代替的な実施例においては、時間/周波数変換処理は、コサイン変調されたフィルター・バンクまたは複素数型フィルター・バンクである。
【0127】
第2の処理ステップにおいては、パラメータ生成器105は、FFT処理における周波数ビン[b]の各々について、以下の式に従って交差スペクトルを計算する。
【0128】
【数16】
上記の式において、c[b]は、周波数ビン[b]の交差スペクトルであり、
【0129】
【数17】
は2つのチャネルに対応するFFT係数である。「*」は複素共役を表す。この場合、サブバンド[b]は、一つの周波数ビン[k]と直接的に対応し、周波数ビン[b]と[k]とは全く同一の周波数ビンを表現している。
【0130】
代替的に、パラメータ生成器105は、サブバンド[b]の各々について、以下の式に従って交差スペクトルを計算する。
【0131】
【数18】
上記の式において、c[b]は、周波数ビン[b]の交差スペクトルであり、
【0132】
【数19】
は2つのチャネルに対応するFFT係数である。「*」は複素共役を表す。k
bは、サブバンドbにおける開始ビンであり、k
b+1は、隣接するサブバンドb+1における開始ビンである。従って、FFT処理においてk
bとk
b+1−1との間に位置する複数の周波数ビン[k]は、サブバンド[b]を表現している。
【0133】
「チャネル間の位相差分(ICPD)」は、以下の式に従って、交差スペクトルに基づいて各サブバンド毎に計算される。
【0134】
【数20】
上記式において、∠は、c[b]の偏角を計算するための偏角演算子である。
【0135】
一つの実装形態においては、パラメータ生成器105は、複数の周波数ビン[k]に跨って、すなわち複数のサブバンド[b]に跨って、オーディオ・チャネル信号X
1[b]に関する第1パラメータ群IPD[b]に含まれる複数の符号化パラメータを平均した値として、オーディオ・チャネル信号X
1[b]に関する符号化パラメータの第1の平均値IPD
mean[i]を決定する。
【0136】
複数の周波数ビン[k]に跨って、すなわち複数のサブバンド[b]に跨って平均化されたIPD(IPD
mean)は、以下の式で定義されるとおりに計算される。
【0137】
【数21】
上記の式において、Kは、平均値の算出のために考慮されるべき周波数ビン又は周波数サブバンドの個数である。
【0138】
一つの実装形態においては、パラメータ生成器105は、オーディオ・チャネル信号X
1[b]に関する複数のフレームに跨って符号化パラメータに関する複数の第1の平均値IPD
mean[i]を平均化した値として、オーディオ・チャネル信号X
1[b]に関する符号化パラメータの第2の平均値IPD
mean_long_termを決定し、この際、符号化パラメータに関する複数の第1の平均値IPD
mean[i]の各々は、多重チャネルのオーディオ信号の一つのフレーム[i]と関係付けられている。
【0139】
以前に算出されたIPD
meanの値に基づいて、パラメータ生成器105は、IPDの長期間平均値を算出する。IPD
mean_long_termは、最新のN個のフレーム(例えば、N=10と設定することが可能である)に跨ってIPDを平均化した値として以下の式に従って算出される。
【0140】
【数22】
一つの実装形態においては、パラメータ生成器105は、符号化パラメータの第2の平均値IPD
mean_long_termと符号化パラメータの第1の平均値IPD
mean[i]との間における差分の絶対値IPD
distを決定する。
【0141】
IPDパラメータの安定性を評価するために、IPD
mean_long_termと符号化パラメータの第1の平均値IPD
mean[i]との間の距離(すなわち、IPD
dist)が計算され、これは、最新のN個のフレーム期間にわたるIPDの漸進的変化を示している。好適な実施例においては、局所的なIPDと長期間平均のIPDとの間の距離は、IPDの局所平均とIPDの長期間平均との間の差分の絶対値として、以下の式に従って計算される。
【0142】
【数23】
先行する複数のフレームに跨ってIPD
meanパラメータが安定であるならば、距離パラメータIPD
distの値はゼロに近くなることが理解できる。その後、上述した位相差分が時間の経過に対して安定的になると、当該距離パラメータ値は完全にゼロに等しくなる。この距離パラメータ値は、複数のチャネル同士の間における類似度に関して良好な推定結果を与える。
【0143】
一つの実装形態においては、パラメータ生成器105は、上記のとおりに決定された絶対値IPD
distの関数として符号化パラメータICCの値を決定する。一つの実装形態においては、パラメータ生成器105は、第1のパラメータ値dと上記のとおりに決定された絶対値IPD
distに第2のパラメータ値eを乗算した値との間における差分から、符号化パラメータICCの値を決定する。一つの実装形態においては、パラメータ生成器105は、第1のパラメータ値dを1に設定し、第2のパラメータ値eを1に設定する。
【0144】
チャネル間のコヒーレンス、すなわちICCパラメータは、以下の式
【0145】
【数24】
に従って算出することも可能である。何故ならば、ICCの値とIPD
distの値とは互いに間接的な補数の関係にあるからである。チャネル同士の間における類似度が高い場合、ICCの値は1に近くなり、同時にこの時、IPD
distの値は0に近くなる。
【0146】
代替的に、ICCの値とIPD
distの値との間の関係を定義する関係式は、以下の式
【0147】
【数25】
と定義することも可能であり、この場合、上述した2つのパラメータICCとIPD
distとの間の補数関係をより良好に表現することが出来るように係数dとeの値が選ばれる。さらなる実施例においては、ICCの値とIPD
distの値との間の関係は、大規模データベースの上でパラメータ学習処理を実行することによって取得され、その場合には、上述した関係式は、
【0148】
【数26】
と一般化することが可能である。
【0149】
オーディオ信号において相関が強いセグメントの持続期間中は、IPD
distの値は小さく、オーディオ入力の拡散部分の持続期間中(例えば、音楽に関するオーディオ入力期間)においては、このIPD
distの値は格段に大きくなり、入力チャネル同士の間における相関が弱くなった場合には、IPD
distの値は1に近くなる。その結果、ICCの値とIPD
distの値との間の関係は、間接的な補数の関係となる。
【0150】
図2は、本発明に係る一実装形態に従うパラメトリック型オーディオ復号化器200のブロック図を示している。パラメトリック型オーディオ復号化器200は、通信チャネル上でビット・ストリーム203を入力信号として受信し、復号化された多重チャネル・オーディオ信号201を出力信号として出力する。パラメトリック型オーディオ復号化器200は、ビット・ストリーム203と結合したビット・ストリーム復号化器217であって、ビット・ストリーム203を復号化することによって符号化パラメータ215と符号化された信号213とを生成するビット・ストリーム復号化器217と、ビット・ストリーム復号化器217と結合した復号化器209であって、当該符号化された信号213から合計の信号211を生成するための復号化器209と、ビット・ストリーム復号化器217と結合したパラメータ復号化器205であって、符号化パラメータ215からパラメータ値221を復号化するパラメータ復号化器205と、復号化器209およびパラメータ復号化器205に結合した合成器207であって、パラメータ値221および合計の信号211から復号化された多重チャネル・オーディオ信号を合成するための合成器207を具備している。
【0151】
パラメトリック型オーディオ復号化器200は、チャネル間におけるICTD、ICLDおよび/またはICCの値が元々の多重チャネル・オーディオ信号におけるICTD、ICLDおよび/またはICCの値を近似するような方法で、自身に入力された多重チャネル・オーディオ信号201を構成する複数の出力チャネルを生成する。上述した方式によって、モノラルのオーディオ信号を表現するのに必要とされるビット・レートよりも僅かに高いだけのビット・レートで多重チャネルのオーディオ信号を表現することが可能となる。その理由は、上述した方式に従ってチャネル対の間で推定されたICTD、ICLDおよび/またはICCの値が、オーディオ波形を表す情報と比べておよそ2のべき乗のオーダーだけ少ない情報量を含んでいるからである。ビット・レートを低く抑えることだけでなく、後方互換性の側面も重要である。送信された合計の信号は、ステレオ又は多重チャネルのオーディオ信号をダウンミキシング処理することにより得られるモノラル信号に対応している。
【0152】
図3は、本発明に係る一実装形態に従うパラメトリック型のステレオ・オーディオ符号化器301およびステレオ・オーディオ復号化器303のブロック図を示している。パラメトリック型のステレオ・オーディオ符号化器301は、
図1に関して上述したパラメトリック型オーディオ符号化器100に対応するが、多重チャネルのオーディオ信号101は、左側のオーディオ・チャネル305と右側のオーディオ・チャネル307を有するステレオ・オーディオ信号とされている。
【0153】
パラメトリック型のステレオ・オーディオ符号化器301は、左側チャネルのオーディオ信号305と右側チャネルのオーディオ信号307を有するステレオ・オーディオ信号305、307を入力信号として受信し、一本のビット・ストリームを出力信号309として出力する。パラメトリック型のステレオ・オーディオ符号化器301は、ステレオ・オーディオ信号305、307と結合したパラメータ生成器311であって、空間パラメータ313を生成するためのパラメータ生成器311と、ステレオ・オーディオ信号305、307と結合したダウンミキシング済み信号の生成器315であって、ダウンミキシング済み信号317、すなわち合計の信号317を生成するためのダウンミキシング済み信号の生成器315と、ダウンミキシング済み信号の生成器315と結合したモノラル符号化器319であって、ダウンミキシング済み信号317を符号化することによって符号化されたオーディオ信号321を出力するためのモノラル符号化器319と、パラメータ生成器311およびモノラル符号化器319に結合したビット・ストリーム合成器323であって、符号化パラメータ313および符号化されたオーディオ信号321を一本のビット・ストリームに合成することによって出力信号309を出力するためのビット・ストリーム合成器323を具備している。パラメータ生成器311内において、空間パラメータ313は、ビット・ストリーム内に多重化されるのに先立って、まず抽出され、続いて量子化される。
【0154】
パラメトリック型のステレオ・オーディオ復号化器303は、パラメトリック型ステレオ・オーディオ符号化器301から通信チャネルを介して伝送されて来た出力信号309であるビット・ストリームを入力信号として受信し、左側チャネルのオーディオ信号325と右側チャネルのオーディオ信号327を有するステレオ・オーディオ信号を出力する。パラメトリック型のステレオ・オーディオ復号化器303は、受信されたビット・ストリーム309と結合したビット・ストリーム復号化器329であって、ビット・ストリーム309を復号化することによって符号化パラメータ331と符号化された信号333とを生成するビット・ストリーム復号化器329と、ビット・ストリーム復号化器329と結合したモノラル復号化器335であって、当該符号化された信号333から合計の信号337を生成するためのモノラル復号化器335と、ビット・ストリーム復号化器329と結合した空間パラメータ復号化器339であって、符号化パラメータ331から空間パラメータ値341を復号化する空間パラメータ復号化器339と、モノラル復号化器335および空間パラメータ復号化器339(すなわちリゾルバ339)に結合した合成器343であって、空間パラメータ値341および合計の信号337から復号化されたステレオ・オーディオ信号325、327を合成するための合成器343を具備している。
【0155】
パラメトリック型のステレオ・オーディオ符号化器301内における信号処理は、遅延を抽出し、時間/周波数領域内におけるオーディオ信号のレベルを適応的に計算することにより、空間パラメータ313(例えば、チャネル間の時間差分ICTDやチャネル間のレベル差分ICLDなど)を生成することが可能である。パラメトリック型のステレオ・オーディオ符号化器301は、ICC(チャネル間のコヒーレンス)に関して時間適応的なフィルタリング処理動作を実行する。一つの実装形態においては、パラメトリック型のステレオ・オーディオ符号化器301は、計算の複雑性を低く抑えながらBCC(Binaural Cue Coding)符号化方式を効率的に実装するために、STFT(短期間フーリエ変換)に基づくフィルター・バンクを使用する。パラメトリック型のステレオ・オーディオ符号化器301内における信号処理は、計算の複雑性を低く抑えながら時間遅延量を少なくすることを可能にしているので、パラメトリック型のステレオ・オーディオ信号の符号化処理動作をリアルタイム・アプリケーションのためのマイクロ・プロセッサやディジタル信号処理プロセッサの上において現状の実装技術で実現可能な形で実装するのに適している。
【0156】
図3に示されるパラメータ生成器311は、空間的なキューの量子化処理と符号化処理が追加されている点を除いて、
図1に関連して上述された対応するパラメータ生成器105と機能的に同一である。合計の信号317は、従来式のモノラル・オーディオ符号化器319を使用して符号化される。一つの実装形態においては、パラメトリック型のステレオ・オーディオ符号化器301は、STFTに基づく時間/周波数変換処理を使用して、ステレオのオーディオ・チャネル信号305、307を周波数ドメインへと変換する。上述したSTFTは、入力信号x(n)内におけるウィンドウ制御された部分区間内に対して離散フーリエ変換処理を適用する。N点DFT変換処理が適用されるのに先立って、N個の信号サンプルから構成される一つの信号フレームは、長さWを有するウィンドウ関数と乗算される。隣接するウィンドウ同士は互いに重複する関係にあり、隣接するウィンドウ同士は、W/2個分の信号サンプルに等しい幅だけ互いにシフトされている。上述したウィンドウは、互いに重複するウィンドウ関数同士の合計が1に等しい定数値となるように選択される。
【0157】
従って、逆変換処理に関しては、追加のウィンドウ適用操作は全く必要ない。復号化器303内においては、W/2個分の信号サンプルに等しい幅だけ時間的に前方向にずれた複数の連続フレームに対してサイズがN点である通常の逆DFT変換処理が使用される。スペクトルが修正されていなければ、フレーム同士の間の重複/加算によりフレームの完璧な再構成結果が得られる。
【0158】
STFTにおいて見られる均一なスペクトル分解能は、人間の知覚に対して良好に適合していないので、STFTが出力する均一に離間配置されたスペクトル係数は、人間の知覚に対してより良好に適合した帯域幅を有する互いに重複しないB個の区間にグループ化される。
図1に関連した上記説明に従うならば、上述した区間の各々は、概念的には一つのサブバンドに対応している。代替的な実装形態においては、パラメトリック型のステレオ・オーディオ符号化器301は、非均一なフィルター・バンクを使用することによって、ステレオのオーディオ・チャネル信号305、307を周波数ドメインへと変換する。
【0159】
一つの実装形態においては、ダウンミキシング処理回路315は、等化処理された合計の信号317を表すS
m(k)について、一つの区間b内に含まれる(すなわち、一つのサブバンドb内に含まれる)複数のスペクトル係数を以下の式に従って決定する。
【0161】
【数28】
は、入力されたオーディオ・チャネル305、307のスペクトル成分であり、
【0162】
【数29】
は、以下の式に従って算出される利得係数である。
【0163】
【数30】
また、その際、区間内に電力は、以下の式に従って推定される。
【0164】
【数31】
サブバンド信号の合計に対する減衰効果が著しい場合において利得係数の値を大きくした結果として生じるアーチファクトを防止するために、利得係数
【0165】
【数32】
の上限を6dBに制限することが可能である。これを式で表すと、
【0167】
一つの実装形態においては、パラメータ生成器311は、左側チャネル305と右側チャネル307から構成される複数の入力チャネルに対して、例えば、上述したSTFTやFFTなどの時間/周波数変換処理を適用する。一つの実装形態においては、当該時間/周波数変換処理はFFT(高速フーリエ変換)であり、代替的な実装形態においては、当該時間/周波数変換処理はコサイン変調されたフィルター・バンクや複素数型フィルター・バンクなどである。
【0168】
パラメータ生成器311は、FFT処理またはSTFT処理における周波数ビン[b]の各々について、以下の式に従って交差スペクトルを計算する。
【0169】
【数34】
上記の式において、サブバンド[b]は、一つの周波数ビン[k]と直接的に対応しており、周波数ビン[b]と[k]とは全く同一の周波数ビンを表現している。
【0170】
代替的に、パラメータ生成器311は、サブバンド[k]の各々について、以下の式に従って交差スペクトルを計算する。
【0171】
【数35】
上記の式において、c[b]は、周波数ビン「b」すなわちサブバンド「k」の交差スペクトルであり、
【0172】
【数36】
は左側チャネル305と右側チャネル307に対応するFFT係数である。「*」は複素共役を表す。k
bは、サブバンドbにおける開始ビンであり、k
b+1は、隣接するサブバンドb+1における開始ビンである。従って、FFT処理またはSTFT処理においてk
bとk
b+1−1との間に位置する複数の周波数ビン[k]は、サブバンド[b]を表現している。
【0173】
「チャネル間の位相差分(ICPD)」は、以下の式に従って、交差スペクトルに基づいて各サブバンド毎に計算される。
【0174】
【数37】
上記式において、∠は、c[b]の偏角を計算するための偏角演算子である。
【0175】
一つの実装形態においては、パラメータ生成器311は、複数の周波数ビンに跨って、すなわち複数のサブバンドに跨って平均化されたIPD(IPD
mean)を算出する
【0176】
【数38】
上記の式において、Kは、平均値の算出のために考慮されるべき周波数ビン又は周波数サブバンドの個数である。
【0177】
続いて、以前に算出されたIPD
meanの値に基づいて、パラメータ生成器311は、IPDの長期間平均値を算出する。IPD
mean_long_termは、最新のN個のフレーム(例えば、N=10と設定することが可能である)に跨ってIPDを平均化した値として以下の式に従って算出される。
【0178】
【数39】
IPDパラメータの安定性を評価するために、IPD
mean_long_termと符号化パラメータの第1の平均値IPD
mean[i]との間の距離(すなわち、IPD
dist)がパラメータ生成器311によって計算され、これは、最新のN個のフレーム期間にわたるIPDの漸進的変化を示している。好適な実施例においては、局所的なIPDと長期間平均のIPDとの間の距離は、IPDの局所平均とIPDの長期間平均との間の差分の絶対値として、以下の式に従って計算される。
【0179】
【数40】
先行する複数のフレームに跨ってIPD
meanパラメータが安定であるならば、距離パラメータIPD
distの値はゼロに近くなることが理解できる。その後、上述した位相差分が時間の経過に対して安定的になると、当該距離パラメータ値は完全にゼロに等しくなる。この距離パラメータ値は、複数のチャネル同士の間における類似度に関して良好な推定結果を与える。
【0180】
一つの実装形態においては、パラメータ生成器311は、チャネル間のコヒーレンス、すなわちICCパラメータを以下の式に従って算出することも可能である。
【0181】
【数41】
何故ならば、ICCの値とIPD
distの値とは互いに間接的な補数の関係にあるからである。チャネル同士の間における類似度が高い場合、ICCの値は1に近くなり、同時にこの時、IPD
distの値は0に近くなる。
【0182】
代替的に、パラメータ生成器311は、ICCの値とIPD
distの値との間の関係を定義する関係式として以下の式
【0183】
【数42】
を使用することも可能であり、この場合、上述した2つのパラメータICCとIPD
distとの間の補数関係をより良好に表現することが出来るように係数dとeの値が選ばれる。さらなる実施例においては、ICCの値とIPD
distの値との間の関係は、大規模データベースの上でパラメータ学習処理を実行することによって取得され、その場合には、上述した関係式は、
【0184】
【数43】
と一般化することが可能である。
【0185】
オーディオ信号において相関が強いセグメントの持続期間中は、IPD
distの値は小さく、オーディオ入力の拡散部分の持続期間中(例えば、音楽に関するオーディオ入力期間)においては、このIPD
distの値は格段に大きくなり、入力チャネル同士の間における相関が弱くなった場合には、IPD
distの値は1に近くなる。その結果、ICCの値とIPD
distの値との間の関係は、間接的な補数の関係となる。
【0186】
パラメータ生成器311は、ICCの概算値を推定するために、IPD
distを使用する。交差スペクトルの算出は、相関の計算よりも必要とされる計算の複雑性が低い。さらに、パラメトリック型の空間オーディオ符号化器においてIPDパラメータを算出する場合、この交差スペクトルは既に算出済みであり、その結果、全体の計算複雑性は低減される。
【0187】
図4は、本発明に係る一実装形態に従って、オーディオ・チャネル信号に関する符号化パラメータを生成するための方法400を説明する動作ブロック図を示している。方法400は、多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号x
1[n],x
2[n]の中のオーディオ・チャネル信号x
1[n]に関して符号化パラメータICCを生成するための方法である。複数のオーディオ・チャネル信号x
1[n],x
2[n]の各々は、オーディオ・チャネル信号値を有している。
図4は、当該複数のオーディオ・チャネル信号が、左側のオーディオ・チャネルx
1[n]と右側のオーディオ・チャネルx
2[n]を具備しているステレオ信号の場合を図示している。方法400は以下の処理ステップを順に実行する。
【0188】
左側のオーディオ・チャネル信号x
1[n]に対してFFT変換処理(処理ステップ401)を適用し、右側のオーディオ・チャネル信号x
2[n]に対してFFT変換処理(処理ステップ403)を適用することによって、周波数ドメイン表現のオーディオ・チャネル信号X
1[b],X
2[b]を取得するステップであって、周波数ドメイン内における周波数ビン[b]に関して、X
1[b]は、左側のオーディオ・チャネル信号であり、X
2[b]は、右側のオーディオ・チャネル信号である。代替的に、左側のオーディオ・チャネル信号x
1[n]と右側のオーディオ・チャネル信号x
2[n]に対してフィルター・バンクによる変換処理を適用することによって、周波数ドメイン表現のオーディオ・チャネル信号X
1[b],X
2[b]を取得することも可能であり、その場合、[b]は周波数サブバンドを表している。
【0189】
左側のオーディオ・チャネル信号X
1[b]と右側のオーディオ・チャネル信号X
2[b]に関する周波数ビン[b]の各々について、相互相関c[b]を決定するステップ405、または代替的に、左側のオーディオ・チャネル信号X
1[b]と右側のオーディオ・チャネル信号X
2[b]に関する周波数サブバンド[b]の各々について、相互相関c[b]を決定するステップ405。
【0190】
複数のオーディオ・チャネル信号の中のオーディオ・チャネル信号X
1[b]に関して、オーディオ・チャネル信号X
1[b]のオーディオ・チャネル信号値と基準オーディオ信号X
2[b]の基準オーディオ信号値から、複数の符号化パラメータを含む第1パラメータ群IPD[b]を決定するステップ407であって、基準オーディオ信号は、複数のオーディオ・チャネル信号の中のさらに別のオーディオ・チャネル信号X
2[b]とすることが可能であり、あるいは多重チャネルのオーディオ信号を構成する複数のオーディオ・チャネル信号の中の少なくとも2つから導出されたダウンミキシング済みのオーディオ信号とすることが可能である、ステップ407。ここで、
図4の動作ブロック図は、ステレオ信号の場合を図示しており、この場合、上述した決定するステップ407における決定動作は、左側のオーディオ・チャネル信号X
1[b]に関して複数の符号化パラメータを含む第1パラメータ群IPD[b]を決定する動作であり、同時に、基準オーディオ信号は、右側のオーディオ・チャネル信号X
2[b]に相当する。
【0191】
オーディオ・チャネル信号X
1[b]に関する複数の符号化パラメータを含む第1パラメータ群IPD[b]に基づいて、オーディオ・チャネル信号X
1[b]に関する符号化パラメータの第1の平均値IPD
mean[i]を決定するステップ409。
【0192】
オーディオ・チャネル信号X
1[b]に関する符号化パラメータの第1の平均値IPD
mean[i]とオーディオ・チャネル信号X
1[b]に関する符号化パラメータのさらに別の第1の平均値の少なくとも一つであって、IPD
mean[i−1]と表記される平均値に基づいて、オーディオ・チャネル信号X
1[b]に関する符号化パラメータの第2の平均値IPD
mean_long_termを決定するステップ411であって、符号化パラメータのさらに別の第1の平均値IPD
mean[i−1]は、オーディオ・チャネル信号X
1[b]に関するN個の先行するフレームから算出される、ステップ411。
【0193】
オーディオ・チャネル信号X
1[b]に関する符号化パラメータの第1の平均値IPD
mean[i]に基づき、かつ、オーディオ・チャネル信号X
1[b]に関する符号化パラメータの第2の平均値IPD
mean_long_termに基づいて、符号化パラメータICCを決定するステップ413。
【0194】
一つの実装形態においては、オーディオ・チャネル信号X
1[b]に関する複数の符号化パラメータを含む第1パラメータ群IPD[b]は既に利用可能な状態であり、方法400は、上述したように、ステップ409から実行開始して、ステップ411および413と実行して行くことが可能である。
【0195】
図4には示されていないが、方法400は、多重チャネルのオーディオ信号を扱う一般化された場合にも適用することが可能であり、その場合、基準オーディオ信号は、
図1に関して上述したとおり、別のオーディオ・チャネル信号またはダウンミキシング済み信号とすることが可能である。
【0196】
一つの実装形態においては、方法400に従った信号処理は以下のように実行することが可能である。
【0197】
第1の処理ステップ401および403においては、入力チャネル(例えば、ステレオ信号の場合なら、左側と右側のオーディオ・チャネル)に対して時間/周波数変換処理が適用される。好適な実施例においては、時間/周波数変換処理は、FFT(高速フーリエ変換)処理である。代替的な実施例においては、時間/周波数変換処理は、コサイン変調されたフィルター・バンクまたは複素数型フィルター・バンクである。
【0198】
第2の処理ステップ405においては、FFT処理における周波数ビン[b]の各々について、以下の式に従って交差スペクトルが計算される。
【0199】
【数44】
上記の式において、サブバンド[b]は、一つの周波数ビン[k]と直接的に対応しており、周波数ビン[b]と[k]とは全く同一の周波数ビンを表現している。
【0200】
代替的に、サブバンド[k]の各々について、以下の式に従って交差スペクトルを計算することも可能である。
【0201】
【数45】
上記の式において、c[b]は、周波数ビン「b」すなわちサブバンド「k」の交差スペクトルであり、
【0202】
【数46】
は2つのチャネル(例えば、ステレオ信号の場合なら、左側チャネルと右側チャネル)に対応するFFT係数である。「*」は複素共役を表す。k
bは、サブバンドbにおける開始ビンであり、k
b+1は、隣接するサブバンドb+1における開始ビンである。従って、FFT処理またはSTFT処理においてk
bとk
b+1−1との間に位置する複数の周波数ビン[k]は、サブバンド[b]を表現している。
【0203】
第3の処理ステップ407においては、「チャネル間の位相差分(ICPD)」は、以下の式に従って、交差スペクトルに基づいて各サブバンド毎に計算される。
【0204】
【数47】
上記式において、∠は、c[b]の偏角を計算するための偏角演算子である。
【0205】
第4の処理ステップ409においては、複数の周波数ビンに跨って、すなわち複数のサブバンドに跨って平均化されたIPD(IPD
mean)が以下の式に従って算出される。
【0206】
【数48】
上記の式において、Kは、平均値の算出のために考慮されるべき周波数ビン又は周波数サブバンドの個数である。
【0207】
処理ステップ411においては、以前に算出されたIPD
meanの値に基づいて、パラメータ生成器311は、IPDの長期間平均値を算出する。IPD
mean_long_termは、最新のN個のフレーム(例えば、N=10と設定することが可能である)に跨ってIPDを平均化した値として以下の式に従って算出される。
【0208】
【数49】
IPDパラメータの安定性を評価するために、IPD
mean_long_termと符号化パラメータの第1の平均値IPD
mean[i]との間の距離(すなわち、IPD
dist)がパラメータ生成器311によって計算され、これは、最新のN個のフレーム期間にわたるIPDの漸進的変化を示している。好適な実施例においては、局所的なIPDと長期間平均のIPDとの間の距離は、IPDの局所平均とIPDの長期間平均との間の差分の絶対値として、以下の式に従って計算される。
【0209】
【数50】
先行する複数のフレームに跨ってIPD
meanパラメータが安定であるならば、距離パラメータIPD
distの値はゼロに近くなることが理解できる。その後、上述した位相差分が時間の経過に対して安定的になると、当該距離パラメータ値は完全にゼロに等しくなる。この距離パラメータ値は、複数のチャネル同士の間における類似度に関して良好な推定結果を与える。
【0210】
処理ステップ413においては、チャネル間のコヒーレンス、すなわちICCパラメータを以下の式に従って算出することが可能である。
【0211】
【数51】
何故ならば、ICCの値とIPD
distの値とは互いに間接的な補数の関係にあるからである。チャネル同士の間における類似度が高い場合、ICCの値は1に近くなり、同時にこの時、IPD
distの値は0に近くなる。
【0212】
代替的に、処理ステップ413においては、ICCの値とIPD
distの値との間の関係を定義する関係式として以下の式
【0213】
【数52】
を使用することも可能であり、この場合、上述した2つのパラメータICCとIPD
distとの間の補数関係をより良好に表現することが出来るように係数dとeの値が選ばれる。さらなる実施例においては、ICCの値とIPD
distの値との間の関係は、大規模データベースの上でパラメータ学習処理を実行することによって取得され、その場合には、上述した関係式は、
【0214】
【数53】
と一般化することが可能である。
【0215】
オーディオ信号において相関が強いセグメントの持続期間中は、IPD
distの値は小さく、オーディオ入力の拡散部分の持続期間中(例えば、音楽に関するオーディオ入力期間)においては、このIPD
distの値は格段に大きくなり、入力チャネル同士の間における相関が弱くなった場合には、IPD
distの値は1に近くなる。その結果、ICCの値とIPD
distの値との間の関係は、間接的な補数の関係となる。
【0216】
本明細書中において上述した実施例の説明より、当該技術分野における当業者であれば、本発明に係る実施例を多種多様な方法、システム、記録媒体上に記録されたコンピュータ・プログラムなどとして実現することが可能である。
【0217】
本明細書中の開示内容は、実行された際に、本明細書中において上述した処理ステップを少なくとも一つのコンピュータ装置に実行させ、計算させるコンピュータ実行可能なプログラム・コードやコンピュータ実行可能な命令を含んでいるコンピュータ・プログラム製品をさらにサポートしている。
【0218】
本明細書中の開示内容は、本明細書中において上述した処理ステップを実行し、計算することができるように構成されたシステムをさらにサポートする。
【0219】
本明細書中において上述した実施例の説明より、当該技術分野における当業者であれば、本発明に係る数多くの代替実施例や変形実施例を直ちに自明なものとして考え付くことが出来るだろう。当然のことであるが、当該技術分野における当業者であれば、本発明を応用すべき特定用途やアプリケーションは、本明細書に開示されたもの以外にも数多く存在し得ることを直ちに理解するだろう。本発明は、一つ以上の特定の実施例を参照しながら説明されて来たけれども、当該技術分野における当業者であれば、本発明の技術思想と技術的範囲を逸脱すること無しに、本発明の実施に際して、本明細書記載の実施例に対して数多くの変更や修正を加えることが可能である。従って、本明細書に添付した特許請求の範囲記載の発明とその均等物を含む範囲内において、本発明を実施することが可能であり、さもなければ、本明細書中において当業者が実施可能な程度に具体的に説明されていることが理解できる。
【0220】
本発明に係る対応する実施例は、ITU−T G.722, G.722のAnnexB G.711.1および/またはG711.1のAnnex Dで仕様が規定されているステレオ拡張に関する符号化器において適用することが可能である。さらに、上述した方法は、3GPP EVS(Enhanced Voice Service)コーデックにおいて規定されているモバイル・アプリケーション用の会話とオーディオの符号化器のために応用することが可能である。