(58)【調査した分野】(Int.Cl.,DB名)
前記相対的オーディオ信号レベルから前記エントロピー値を決定するステップは、前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームからの複数の相対的オーディオ信号レベルからなるヒストグラムを決定することによって相対的オーディオ信号レベルの確率を決定するステップを含む、請求項2に記載の方法。
前記相対的オーディオ信号レベルから前記エントロピー値を決定するステップは、前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームからの相対的オーディオ信号レベル値のシーケンスを連続して観察することによって、同じ値を有する2つの相対的オーディオ信号レベル値のコインシデンス間における相対的オーディオ信号レベル値の平均数を推定するステップを含む、請求項2に記載の方法。
前記相対的オーディオ信号レベルから前記エントロピー値を決定するように構成された前記装置は、前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームからの複数の相対的オーディオ信号レベルのヒストグラムを決定するように構成することによって、前記相対的オーディオ信号レベルの確率を決定するように更に構成される、
請求項10に記載の装置。
【発明の概要】
【0007】
本出願によれば、マルチ・チャンネル・オーディオ信号のためのエントロピー値を推定し、そのエントロピー値からマルチ・チャンネル・オーディオ信号のチャンネル構成を決定し、そして前記マルチ・チャンネル・オーディオ信号を符号化する方法であって、その符号化モードは前記チャンネル構成に依存する方法が提供される。
【0008】
マルチ・チャンネル・オーディオ信号は、少なくとも第1オーディオ・チャンネル信号と第2オーディオ・チャンネル信号を有し、前記マルチ・チャンネル・オーディオ信号のエントロピー値を推定することは、前記第1オーディオ・チャンネル信号と第2オーディオ・チャンネルをそれぞれ、複数の周波数帯域を有する周波数領域オーディオ信号に変換すること、前記第2オーディオ・チャンネル信号の周波数帯域のオーディオ信号レベルに対する前記第1オーディオ・チャンネル信号の周波数帯域のオーディオ信号レベルを決定することによって相対的オーディオ信号レベルを決定すること、および前記相対的オーディオ信号レベルから前記エントロピー値を決定すること、を有することができる。
【0009】
前記マルチ・チャンネル・オーディオ信号の前記チャンネル構成を決定することは、前記エントロピー値を閾値と比較すること、前記エントロピー値が前記閾値以下の場合、前記チャンネル構成を第1タイプのチャンネル構成として分類すること、および前記エントロピー値が前記閾値より大きい場合、前記チャンネル構成を第2タイプのチャンネル構成として分類すること、を有することができる。
【0010】
前記相対的オーディオ信号レベルから前記エントロピー値を決定することは、前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームから複数の相対的オーディオ信号レベルからなるヒストグラムを決定することによって相対的オーディオ信号レベルの確率を決定することを有することができる。
【0011】
あるいは、前記相対的オーディオ信号レベルから前記エントロピー値を決定することは、前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームから一連の相対的オーディオ信号レベル値を連続して観察することによって、同じ値を有する2つの相対的オーディオ信号レベル値のコインシデンス間における相対的オーディオ信号レベル値の平均数を推定することを有することができる。
【0012】
前記マルチ・チャンネル・オーディオ信号は2チャンネル・オーディオ信号を有し、前記第1タイプのチャンネル構成はバイノーラル・オーディオ・チャンネルであり、かつ前記第2タイプのチャンネル構成はステレオ・オーディオ・チャンネルであることができる。
【0013】
前記オーディオ信号レベルは、周波数帯域におけるオーディオ信号の大きさを有することができる。
【0014】
前記相対的オーディオ信号レベルは両耳間のレベル差であることができる。
【0015】
第2の態様によれば、マルチ・チャンネル・オーディオ信号のエントロピー値を推定し、前記エントロピー値から前記マルチ・チャンネル・オーディオ信号のチャンネル構成を決定し、そして前記チャンネル構成に依存する符号化モードで前記マルチ・チャンネル・オーディオ信号を符号化するように構成された装置が提供される。
【0016】
前記マルチ・チャンネル・オーディオ信号は、少なくとも第1オーディオ・チャンネル信号と、第2オーディオ・チャンネル信号とを有することができ、前記マルチ・チャンネル・オーディオ信号のエントロピー値を推定するように構成された前記装置は更に、前記第1オーディオ・チャンネル信号と第2オーディオ・チャンネルをそれぞれ、複数の周波数帯域を有する周波数領域オーディオ信号に変換し、前記第2オーディオ・チャンネル信号の周波数帯域のオーディオ信号レベルに対する前記第1オーディオ・チャンネル信号の周波数帯域のオーディオ信号レベルを決定することによって相対的オーディオ信号レベルを決定し、そして前記相対的オーディオ信号レベルから前記エントロピー値を決定するように構成されることができる。
【0017】
前記マルチ・チャンネル・オーディオ信号の前記チャンネル構成を決定するように構成された前記装置は更に、前記エントロピー値を閾値と比較し、前記エントロピー値が前記閾値以下の場合、前記チャンネル構成を第1タイプのチャンネル構成として分類し、そして前記エントロピー値が前記閾値より大きい場合、前記チャンネル構成を第2タイプのチャンネル構成として分類するように構成されることができる。
【0018】
前記相対的オーディオ信号レベルから前記エントロピー値を決定するように構成された前記装置は更に、前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームから複数の相対的オーディオ信号レベルからなるヒストグラムを決定することによって相対的オーディオ信号レベルの確率を決定するように構成されることができる。
【0019】
あるいは、前記相対的オーディオ信号レベルから前記エントロピー値を決定するように構成された前記装置は更に、前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームから一連の相対的オーディオ信号レベル値を連続して観察することによって、同じ値を有する2つの相対的オーディオ信号レベル値のコインシデンス間における相対的オーディオ信号レベル値の平均数を推定するように構成されることができる。
【0020】
前記マルチ・チャンネル・オーディオ信号は2チャンネル・オーディオ信号を有し、前記第1タイプのチャンネル構成はバイノーラル・オーディオ・チャンネルであり、前記第2タイプのチャンネル構成はステレオ・オーディオ・チャンネルであることができる。
【0021】
前記オーディオ信号レベルは、周波数帯域におけるオーディオ信号の大きさを有することができる。
【0022】
前記相対的オーディオ信号レベルは両耳間のレベル差であることができる。
【0023】
第3の態様によれば、少なくとも1つのプロセッサと、コンピュータ・コードを備えた少なくとも1つのメモリとを有する装置であって、前記少なくとも1つのメモリと前記コンピュータ・コードは、前記少なくとも1つのプロセッサを伴い、前記装置に、マルチ・チャンネル・オーディオ信号のエントロピー値を推定させ、前記エントロピー値から前記マルチ・チャンネル・オーディオ信号のチャンネル構成を決定させ、そして前記チャンネル構成に依存する符号化モードで前記マルチ・チャンネル・オーディオ信号を符号化させるように構成された装置が提供される。
【0024】
前記マルチ・チャンネル・オーディオ信号は、少なくとも第1オーディオ・チャンネル信号と、第2オーディオ・チャンネル信号とを有し、前記マルチ・チャンネル・オーディオ信号のエントロピー値を推定させられる前記装置は更に、前記第1オーディオ・チャンネル信号と第2オーディオ・チャンネルをそれぞれ、複数の周波数帯域を有する周波数領域オーディオ信号に変換させられ、前記第2オーディオ・チャンネル信号の周波数帯域のオーディオ信号レベルに対する前記第1オーディオ・チャンネル信号の周波数帯域のオーディオ信号レベルを決定することによって相対的オーディオ信号レベルを決定させられ、そして前記相対的オーディオ信号レベルから前記エントロピー値を決定させられるようにすることができる。
【0025】
前記マルチ・チャンネル・オーディオ信号の前記チャンネル構成を決定させられる前記装置は更に、前記エントロピー値を閾値と比較させられ、前記エントロピー値が前記閾値以下の場合、前記チャンネル構成を第1タイプのチャンネル構成として分類させられ、そして前記エントロピー値が前記閾値より大きい場合、前記チャンネル構成を第2タイプのチャンネル構成として分類させられるようにすることができる。
【0026】
前記相対的オーディオ信号レベルから前記エントロピー値を決定されられる前記装置は更に、前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームから複数の相対的オーディオ信号レベルからなるヒストグラムを決定することによって相対的オーディオ信号レベルの確率を決定させられるようにすることができる。
【0027】
あるいは、前記相対的オーディオ信号レベルから前記エントロピー値を決定させられる前記装置は更に、前記マルチ・チャンネル・オーディオ信号のオーディオ・フレームから一連の相対的オーディオ信号レベル値を連続して観察することによって、同じ値を有する2つの相対的オーディオ信号レベル値のコインシデンス間における相対的オーディオ信号レベル値の平均数を推定させられるようにすることができる。
【0028】
前記マルチ・チャンネル・オーディオ信号は2チャンネル・オーディオ信号を有すると共に、前記第1タイプのチャンネル構成はバイノーラル・オーディオ・チャンネルであり、前記第2タイプのチャンネル構成はステレオ・オーディオ・チャンネルであることができる。
【0029】
前記オーディオ信号レベルは、周波数帯域におけるオーディオ信号の大きさを有することができる。
【0030】
前記相対的オーディオ信号レベルは両耳間のレベル差であることができる。
【0031】
第4の態様によれば、プロセッサによって実行された際に、以下の各処理を実現するコンピュータ・プログラム・コードであって、前記各処理は、マルチ・チャンネル・オーディオ信号のエントロピー値を推定すること、前記エントロピー値から前記マルチ・チャンネル・オーディオ信号のチャンネル構成を決定すること、および前記チャンネル構成に依存する符号化モードで前記マルチ・チャンネル・オーディオ信号を符号化すること、であるコンピュータ・プログラム・コードが提供される。
【0032】
電子デバイスは、以上に記載されたような装置を有することができる。
【0033】
チップセットは、以上に記載されたような装置を有することができる。
【発明を実施するための形態】
【0035】
以下、マルチモード・オーディオ・コーデックを含み、実行可能なステレオおよびマルチ・チャンネルの音声オーディオ・コーデックをより詳細に説明する。
【0036】
マルチモード・オーディオ・コーデックによっては、バイノーラル・オーディオ信号と違ってステレオ・オーディオ信号を符号化するように構成されることがあり得え、これら2種類のマルチ・チャンネル・オーディオ信号のどちらがコーデックに提供されるのかという事前知識なしに、コーデックは最良な符号化モードを事前に選択することができない。このことは、入力されたマルチ・チャンネル・オーディオ信号が最良な動作モードで符号化されるのを確実にするために、オーディオ・コーデックは、入力された2チャンネルのオーディオ信号(あるいはバイノーラル・オーディオ信号)を、ステレオ動作モードとバイノーラル動作モードの双方で符号化しなければならないといった問題を生じる可能性がある。
【0037】
入力オーディオ信号がステレオ信号とバイノーラル信号の間で頻繁に切り替わるような場合には、コーデックにとっては、入力オーディオ信号が最適モードで符号化されるのを確実にするために、2つの動作モードで継続的に符号化することが求められることにもなり、この問題がさらに悪化する可能性がある。
【0038】
本願明細書に記載される実施形態の概念は、バイノーラルおよびステレオ信号のある特徴が、それぞれの信号が取得された際のマイク間の物理的隔たりに違いがあることで異なってくる場合があるという点に由来することができる。これらの特徴は、一方の信号を他のものから区別する際に使用されることができる。このことにより、マルチモード・オーディオコーダに事前分類ステージを組み込ませることが可能になり、このステージでは特定の入力オーディオ信号が最初に認識できることで、オーディオ信号の符号化を開始する前に最良モードの符号化が選ばれるようになる。
【0039】
これに関し、まず始めに、本発明の一実施形態によるコーデックを組み込むことができる例示的電子デバイス、または装置10の概略的ブロック図を示す
図1を参照する。
【0040】
装置10は、例えばワイヤレス無線通信システムのモバイル端末やユーザ機器であることができる。また、他の実施形態として、装置10は、ビデオカメラのようなオーディオコービデオ装置、テレビ(TV)受信機、MP3レコーダ/プレーヤのようなオーディオ・レコーダ/プレーヤ、メディアレコーダ(MP4レコーダ/プレーヤとしても知られる)、その他オーディオ信号の処理に適した任意のコンピュータであることができる。
【0041】
いくつかの実施形態では、電子デバイスまたは装置10は、アナログ‐デジタル変換器(ADC)14を介してプロセッサ21に接続されたマイクロフォン1を有している。プロセッサ21は更に、デジタル‐アナログ変換器(DAC)32を介してスピーカ33に接続される。プロセッサ21は更に、送受信機(RX/TX)13や、ユーザ・インタフェース(UI)15や、メモリ22に接続される。
【0042】
いくつかの実施形態において、プロセッサ21は、様々なプログラム・コードを実行するように構成することもできる。いくつかの実施形態では、実行プログラム・コードは、本願明細書に記載されたようなマルチ・チャンネルまたはステレオ符号化または復号化コードを有する。いくつかの実施形態において、実行プログラム・コード23は、必要なときはいつでもプロセッサ21による検索のために、例えばメモリ22に格納することができる。メモリ22は更に、データ(例えば、用途に応じて符号化されたデータ)を格納するセクション24を提供することができる。
【0043】
実施形態における符号化および復号化コードは、ハードウエアおよび/またはファームウエアで実行することができる。
【0044】
ユーザ・インタフェース15により、ユーザは、例えばキーパッドを介して電子デバイス10に命令を入力することができたり、例えばディスプレイを介して、電子デバイス10から情報を取得したりすることができる。いくつかの実施形態では、タッチスクリーンが、ユーザ・インタフェースとしての入力および出力機能の双方を提供することができる。いくつかの実施形態において、装置10は、例えば無線通信ネットワークを介して他の装置との通信を実現するのに適した送受信機13を有する。
【0045】
また、装置10の構造は、補完されたり、様々な形に変更されたりする場合があることを理解されたい。
【0046】
例えば、装置10のユーザは、マイクロフォン11を用いて、いくつかの他の装置に送信されたり、メモリ22のデータ部24に格納されるような音声やその他のオーディオ信号を入力したりすることができる。この目的を達成するために、いくつかの実施形態では、対応するアプリケーションが、ユーザによりユーザ・インタフェース15を介して起動されることができる。これらの実施形態では、このアプリケーションはプロセッサ21によって実行することができ、プロセッサ21をしてメモリ22に格納された符号化コードを実行させることになる。
【0047】
いくつかの実施形態では、アナログ‐デジタル変換器(ADC)14は、入力アナログオーディオ信号をデジタルオーディオ信号に変換し、プロセッサ21にそのデジタルオーディオ信号を提供する。いくつかの実施形態では、マイクロフォン11が、ADC機能を一体化させたマイクロフォンからなり、デジタルオーディオ信号を直接プロセッサに提供して処理させることができる。
【0048】
このような実施形態では、プロセッサ21は次に、
図2に示されたシステムと
図3に示されたエンコーダを参照して説明したのと同じ方法でデジタルオーディオ信号を処理する。
【0049】
いくつかの実施形態では、結果として生じたビット・ストリームを、他の装置への送信のための送受信機13に提供することも可能である。あるいは、いくつかの実施形態では、符号化されたオーディオデータを、例えば、同一装置10によるその後の送信やその後の表示のために、メモリ22のデータ部24に格納することができる。
【0050】
いくつかの実施形態では、装置10はまた、送受信機13を介して他の装置から、対応した符号化データを伴うビット・ストリームを受信することも可能である。この例では、プロセッサ21は、メモリ22に格納された復号化プログラム・コードを実行することができる。このような実施形態では、プロセッサ21は受信データを復号化し、デジタル‐アナログ変換器32に復号化データを提供する。デジタル‐アナログ変換器32はデジタル復号化データをアナログオーディオデータに変換し、いくつかの実施形態ではスピーカ33を介してアナログオーディオを出力することができる。いくつかの実施形態において、復号化プログラム・コードの実行が、ユーザによりユーザ・インタフェース15を介して呼び出されたアプリケーションによっても同様にトリガーされることができる。
【0051】
いくつかの実施形態では、受信した符号化データはまた、スピーカ33によって即時出力するのではなく、例えば、その後の復号化と提示のためや、復号化と他の装置への転送のためにメモリ22のデータ部24に格納することも可能である。
【0052】
図1ないし
図4に記載した概略的構造と
図5および
図6に示した方法のステップは、オーディオ・コーデックの動作の一部分だけしか示しておらず、具体的には、
図1に示されたス装置で実行される例示のステレオ符号化装置または方法の一部だけを示していることが理解される。
【0053】
実施形態で用いられるようなオーディオ・コーデックの一般的な動作を
図2に示す。
図2に概略的に示されているように、一般的なオーディオ符号化/復号化システムはエンコーダとデコーダの双方を有する。しかしながら、いくつかの実施形態ではエンコーダまたはデコーダのいずれか一方、あるいはエンコーダとデコーダの双方を実装する場合があることが理解されるであろう。
図2に示したものは、エンコーダ104、特にステレオエンコーダ151、記憶装置またはメディアチャンネル106、およびデコーダ108を備えたシステム102である。上述したように、いくつかの実施形態は、エンコーダ104またはデコーダ108の一方、あるいはエンコーダ104とデコーダ108の双方を有したり、実装したりする場合があることが理解される。
【0054】
エンコーダ104はビット・ストリーム112を生成する入力オーディオ信号110を圧縮し、いくつかの実施形態ではこのビット・ストリームを記憶したり、メディアチャンネル106を介して伝送したりすることができる。エンコーダ104は更に、全符号化操作の一部としてマルチ・チャンネルエンコーダ151を有することができる。このマルチ・チャンネルエンコーダは、エンコーダ104全体の一部であったり、あるいは別個の符号化モジュールであったりすることができることが理解される。
【0055】
ビット・ストリーム112はデコーダ108内に受信することができる。デコーダ108はビット・ストリーム112を解凍して、出力オーディオ信号114を生成する。デコーダ108は、全復号化操作の一部としてマルチ・チャンネルデコーダを有することができる。マルチ・チャンネルデコーダは、デコーダ108全体の一部であったり、あるいは別個の復号化モジュールであったりすることができることが理解される。ビット・ストリーム112のビットレートと、入力信号110に関係した出力オーディオ信号114の品質は、符号化システム102の性能を決める主要な特徴である。
【0056】
図3は、いくつかの実施形態によるエンコーダ104を概略的に示している。
【0057】
図5は、いくつかの実施形態によるエンコーダ104の動作を、フロー図の形で概略的に示したものである。
【0058】
本願明細書に記載される実施形態のコンセプトは、入力されたマルチ・チャンネル・オーディオ信号を符号化する前に分類することにある。その点に関し、
図3はいくつかの実施形態による例示的なエンコーダ104を示している。更に
図5については、エンコーダ104の動作がより詳細に示されている。
【0059】
いくつかの実施形態において、エンコーダ104はオーディオ信号分類器301を有する。オーディオ信号分類器301は、マルチ・チャンネル・オーディオ信号を受信し、このオーディオ信号の周波数領域表示を生成するように構成されている。これらの周波数領域表示は、更なる処理と符号化のためにチャンネル・アナライザ/モノ・エンコーダ303に送ることができる。
【0060】
オーディオ信号分類器301は、入力されたマルチ・チャンネル・オーディオ信号のオーディオ信号分類値を導くために、オーディオ信号の周波数領域表示を分析するように構成されている。導き出されたオーディオ信号分類値は、入力されたマルチ・チャンネル・オーディオ信号のチャンネル構成を示している。次いで、オーディオ信号分類値は、チャンネル・アナライザ/モノ・エンコーダ303とマルチ・チャンネルパラメータエンコーダ305に渡すことができ、これによりチャンネル・アナライザ/モノコーダ303とマルチ・チャンネルパラメータエンコーダ305のための特定の符号化モードを識別するために使用することができる。
【0061】
第1の実施形態グループにおいては、エンコーダ104のオーディオ信号分類器301は、左右のチャンネルを持った少なくとも2チャンネルの入力オーディオ信号を有するマルチ・チャンネル・オーディオ信号を受けとるように構成されることができる。これらの実施形態では、オーディオ信号分類器301は、入力オーディオ信号がステレオかバイノーラルのどちらかの2チャンネル・オーディオ信号を有するか否かを示すオーディオ信号分類値を決定することができる。
【0062】
図4には、いくつかの実施形態による例示的オーディオ信号分類器301が更に詳細に記載されている。更に、
図6には、
図4に示したようなオーディオ信号分類器301の動作が、いくつかの実施形態に従って示されている。
【0063】
いくつかの実施形態では、オーディオ信号分類器201は、フレーム区分器/変換器401を有する。フレーム区分器/変換器401は、左右のチャンネル110のそれぞれからのオーディオ信号を、周波数領域変換に適したセクションやフレームへと区分または分割するように構成することができる。いくつかの実施形態でのフレーム区分器/変換器401は更に、左右のチャンネルからのオーディオ信号データのフレームまたはセクションを、任意の適切なウインドウ関数を伴ってウインドウ化するように構成することができる。例えば、フレーム区分器/変換器201は、10ミリ秒毎に前後のフレームとオーバーラップする20ミリ秒のフレームを生成するように構成することができる。
【0064】
いくつかの実施形態では、フレーム区分器/変換器401は、左右チャンネルからのオーディオ信号に対し、何らかの適切な時間領域−周波数領域変換を実行するように構成することができる。例えば、時間領域から周波数領域への変換は、離散フーリエ変換(DFT)であったり、高速フーリエ変換(FFT)であったり、修正離散コサイン変換(MDCT)であったりすることができる。以下の例ではFFTが使用されている。更に、時間領域‐周波数領域変換の出力を更に処理し、それぞれの入力チャンネル・オーディオ信号データの別々な周波数帯領域表示(サブバンド表示)を生成することができる。これらの帯域は、任意の適切な形に配置することが可能である。例えば、これらの帯域を直線的に離間させたり、知覚的または心理音響的に割り当てたりすることも可能である。
【0065】
各オーディオ・チャンネルのオーディオ・フレームに対して周波数帯領域表示を生成する処理は、
図6のステップ601で示される。
【0066】
いくつかの実施形態では、周波数領域表示は、各サブバンド毎のチャンネル組間にある相対的オーディオ信号レベルや両耳間レベル(エネルギ)の差(ILD)を決定するように構成された相対的オーディオ・エネルギ信号レベル決定器403に渡されます。サブバンドのための相対的オーディオ信号レベルは、第1のオーディオ・チャンネル信号の周波数帯域でのオーディオ信号レベルであって、第2のオーディオ・チャンネル信号のそれに対応した周波数帯域のオーディオ信号レベルに対する前記オーディオ信号レベルを見つけることによって決定することができる。
【0067】
なお、以下の例では、1対の左・右チャンネルが解析・処理されることを理解されたい。
【0068】
いくつかの実施形態では、バンド毎の相対的オーディオレベル(または、両耳間のレベル差)は、以下のコードを使用して計算することができる。
【0069】
For ( j = 0、 j<NUM_OFF_BAND_FOR_SIGNAL_LEVELS、 j++ )
{
mag_l = 0.0、
mag_r = 0.0、
for (k =BAND_START[j]、 k<BAND_START[j +1]、 k++)
{
mag_l + = fft_l[k]*fft_l[k] + fft_l[L_FFT−k]*fft_l[L_FFT −k]、
mag_r + = fft_r[k]*fft_r[k] + fft_r[L_FFT −k]*fft_r [L_FFT −k]、
}
mag[j] = 10.0f * log10(sqrt((mag_l + EPSILON)/(mag_r + EPSILON)))、
【0070】
ここで、L_FFTはFFTの長さであり、EPSILONはゼロ除算問題を防止するための0より大きな、小さい値である。このような実施形態では、相対的オーディオ・エネルギ信号レベル決定器は、各サブバンドにわたってチャンネル(LおよびR)毎のマグニチュード決定値を効果的に生成し、次いで一方のチャンネル値を他方のチャンネル値で割り、相対値を得る。
【0071】
相対的オーディオ・エネルギ信号レベル(または両耳間レベル(エネルギ)差)を決定する処理は、
図6のステップ603で示される。
【0072】
いくつかの実施形態では、何らかの適切な両耳間レベル(エネルギ)差(ILD)推定を行うことができる。例えば、各フレームに対しては、2つのウインドウを存在させることができ、それらに対して遅延とレベルが推定される。従って、各フレームが10ミリ秒となるような例では、オーバーラップし合い、かつ互いに5ミリ秒遅延し得る2つのウインドウが存在することができる。言い換えれば、各フレームに対し、符号化のためにエンコーダに渡すことが可能な2つの別個のレベル差の値を決定することができる。
【0073】
更に、いくつかの実施形態では、各ウインドウに対し、関連するサブバンド毎に差を推定することができる。いくつかの実施形態において、サブバンドの分割は任意の適切な方法に従って決定することができる。
【0074】
例えば、いくつかの実施形態では、その後において両耳間レベル(エネルギ)差(ILD)推定の数を決定するサブバンド分割を、選択された帯域幅の決定に応じて実行することができる。例えば、オーディオ信号の生成は、出力信号が広帯域(WB)、超広帯域(SWB)またはフル帯域(FB)(そこでは、帯域幅要件が広帯域からフル帯域にかけて増加する)であると考えられるか否かに基づくことができる。考えられる帯域幅の選択として、いくつかの実施形態において、特定のサブバンド分割とすることができる。従って、例えば両耳間レベル(エネルギ)差推定に対してのFFT領域用サブバンド分割は、以下のものとすることができる、
広帯域(WB)用ITDサブバンド
const short scale1024_WB [ ] =
{1、5、8、12、20、34、48、56、120、512}、
超広帯域(SWB)用ITDサブバンド
const short scale1024_SWB [ ] =
{1、2、4、6、10、14、17、24、28、60、256、512}、
フル帯域(FB)用ITDサブバンド
const short scale1024_FB [ ] =
{1、2、3、4、7、11、16、19、40、171、341、448 /* 〜21 kHz */}、
広帯域(WB)用ILDサブバンド
const short scf_band_WB [ ] =
{1、8、20、32、44、60、90、110、170、216、290、394、512}、
超広帯域(SWB)用ILDサブバンド
const short scf_band_SWB [ ] =
{1、4、10、16、22、30、45、65、85、108、145、197、256、322、412、512}、
フル帯域(FB)用ILDサブバンド
const short scf_band_FB [ ] =
{1、3、7、11、15、20、30、43、57、72、97、131、171、215、275、341、391、448 /* 〜21 kHz */}、
【0075】
言い換えると、いくつかの実施形態において、レベル差に対し、様々なサブバンドが存在し得るということである。
【0076】
相対的オーディオ・エネルギ信号レベル決定器403は、サブバンドや周波数ビン毎に、相対的オーディオ・エネルギ信号レベルをエントロピー推定器405に出力するように構成することができる。
【0077】
いくつかの実施形態では、エントロピー推定器403は、受けとった相対的オーディオ・エネルギ信号レベルに対して、ゼロ次のエントロピー推定値を決定するように構成されている。その際、エントロピー推定器は、受けとった相対的オーディオ・エネルギレベルのエントロピー値を用いて、入力信号110として運ばれたマルチ・チャンネル・オーディオ信号の構成やタイプを決定することができる。
【0078】
いくつかの実施形態において、左右のオーディオ・チャンネル構成を有するマルチ・チャンネル・オーディオ信号に対しての相対的オーディオ・エネルギ信号レベル(ILDs)から決定されたエントロピー値は、左右のオーディオ・チャンネルがステレオタイプかバイノーラルタイプのいずれかであるか否かを決定するために使用することができる。
【0079】
また、ステレオ・オーディオ信号は、その信号が取得された際のマイクロフォン間の物理的隔たりによってバイノーラル・オーディオ信号から区別できることが理解される。更に、この違いは、各オーディオ信号に対する相対的オーディオ・エネルギ信号レベル(ILDs)値のエントロピーに反映することができる。
【0080】
いくつかの実施形態では、左右チャンネルのオーディオ信号の相対的オーディオ・エネルギ信号レベル(ILDs)のエントロピーは、通常、以下の式で与えることができ、
【数1】
ここで、Xは考えられるILD値のアルファベットを表わし、H(X
ILD)はILD値のエントロピー、P(X
ILDi)は特定ILD値の確率、nはILD値の組が起こり得る結果の数である。
【0081】
エントロピーH(X
ILD)は、ILD値の範囲に対して考えられる有限数の値nについて決定することができる。いくつかの実施形態では、この決定は、エントロピー値H(X
ILD)が決定される前に、考えられるn個の量子化レベルの1つに対してILD値をスカラー量子化することで達成されることができる。
【0082】
相対的オーディオ・エネルギ信号レベルや両耳間レベル(エネルギ)差(ILD)をスカラー量子化する処理は、
図6のステップ605に示される。
【0083】
いくつかの実施形態において、エントロピー値H(X
ILD)は、以下のコードを使ったヒストグラムベースの方法を用いて決定することができる。
【0084】
void
entropy_estim_hist (short * scale, short no_scales, float * H0, shortmax_value)
{
float h0, hist0[2 *(2*MAX_ST_SCALE+1), sum、
short i、
set_f(hist0, 0.0f, 2*max_Value+1)、
for(i=0、 i<no_scale、 i++)
{
hist0[scale[i]]+=1.0f、
}
sum = 0.0、
for(i=0、i<=2*max_value、 i++)
{
hist0[i]+=0.01f、
sum +=hist0[i]、
}
sum = 1.0f/sum、
h0 = 0.0f、
for(i=0、i<=2*max_value、 i++)
{
hist0[i]*= sum、
h0 −= hist0 [i]*logf(hist0[i])、
}
*H0/logf(2.0f)
}
【0085】
ここで、2*max_Value+1は、上式のnに対応することができるILD値に対し予想される量子化レベルの数であり、scaleは、エントロピー値H(X
ILD)が決定されることになる量子化ILD値を含む列である。そのような実施形態では、エントロピー推定器405は、特定の量子化ILD値P(x
ILDi)を、エントロピー値が計算されることになる量子化ILD値のデータ組における前記特定量子化ILDの出現の頻度を決定することで効果的に決定する。実際には、エントロピー推定器405は、各量子化ILD値の確率を、有限の量子化ILD値の組に渡るそのヒストグラムを決めることにより決定する。エントロピー値H(X
ILD)は、上記コードでのパラメータh0に対応している。更に、上記コードは、エントロピー値をビット単位で返す。
【0086】
要約すると、実施形態においてエントロピーの決定は、マルチ・チャンネル・オーディオ信号のオーディオ・フレームから、複数の相対的オーディオ信号レベルのヒストグラムを決定することによって、相対的オーディオ信号レベルの確率を決定するステップを有することができるということである。
【0087】
他の実施形態では、エントロピー値は、エントロピー値を決定するためのシンボルとしても知られる特定の量子化ILD値のコインシデンスを検知することで、エントロピーを推定するようなコインシデンス検出法を用いて決定することができる。
【0088】
この方法では、最初に、量子化ILD値(またはシンボル)のコインシデンス間における量子化ILD値の平均数の推定値が決定される。
【0089】
これは、量子化ILD値のストリームを観察し、同じ量子化ILD値の特定のコインシデンスの間の量子化ILD値の数を記録することによって実行されることができる。
【0090】
例えば、仮に、シンボルのストリームの始まりが、[a g b z d g h b a z a…]という値であるならば、シンボルの最初のコインシデンスはシンボルgで起こり、コインシデンスD
1の間のシンボルの数は6として与えられる。シンボルの2番目のコインシデンスはシンボルaで起こり、この場合、コインシデンスD
2の間のシンボルの数は5として与えられる。これは、そのストリームの更なるシンボルに対して繰り返されることができる。
【0091】
シンボル
【数2】
のコインシデンスに対しての量子化ILD値(またはシンボル)の平均数の推定値は、その際、以下の式で与えられることができる。
【数3】
【0092】
ここで、仮にKが無記憶ランダムソースの等確率シンボルを表すものとした場合、ビット単位のエントロピーはlog
2 (K)として与えられる。
【0093】
次に、仮に
【数4】
を等確率シンボル(またはILD値)の数の近似値とすると、
【数5】
は以下に示す関係による
【数6】
の関数として表すことができる。
【数7】
なお、上式でa, b, cにはそれぞれ、0.6366,−0.8493,0.1272が与えられる。
【0094】
言い換えるならば、相対的オーディオ・エネルギ信号レベル(ILDs)のエントロピーは、最初に、上の例で示したようにコインシデンスに対する量子化ILD値を連続して観察することで
【数8】
を決定し、そして2番目に、上式に従って
【数9】
を計算することによって推定することができる。最終的に、エントロピーは、
【数10】
として推定することができる。
【0095】
なお、上の例で使用される各値は、データセットのエントロピーを決定するためのコインシデンス法の基本原理を説明するのに用いたに過ぎず、この方法を適用することができる真の量子化ILD値を反映するものではないということを理解されたい。
【0096】
要約すると、他の実施形態では、同じ値を持った同一の相対的オーディ信号レベル値の内の2つのコインシデンス間での相対的オーディオ信号レベル値の平均数を最初に推定し、マルチ・チャンネル・オーディオ信号のオーディオ・フレームから一連の相対的オーディオ信号レベル値を連続して観察することによってエントロピーを決定することができる。次に、エントロピーは、推定された相対的オーディオ信号レベル値の平均数に関して言えば、二次多項式の形で与えられることができる。
【0097】
また、データセットのエントロピーを決定するコインシデンス法の詳細については、それを参照することにより本願明細書に組み込まれる、引用文献J. MonyalvaoとD. G. SolvaとR. Attuxによる「小データセットのための簡単なエントロピー推定器」、エレクトロニクスレターズ48巻No.17で見ることができる。
【0098】
いくつかの実施形態では、エントロピーH(X
ILD)は、エントロピー値がビット数で与えられるようにするために、log
2に従って決定することができる。
【0099】
量子化された相対的オーディオ・エネルギ信号レベルまたは両耳間レベル(エネルギ)差(ILD)ためのエントロピー値を決定する処理は、
図6のステップ607に示されている。
【0100】
実施形態では、エントロピー値は、入力オーディオ信号の各フレームに対応する量子化ILD値に対して決定することが可能なことを理解されたい。
【0101】
実施形態では、チャンネル構成値は、その後、所定のエントロピー判定閾値に対してエントロピー値の値を比較することによって決定されることができる。
【0102】
特に、いくつかの実施形態では、入力されたオーディオ信号が少なくとも2チャンネル・オーディオ信号を有する際には、ステレオ・オーディオ信号とバイノーラル・オーディオ信号を区別するためにエントロピー値を使用することができる。
【0103】
1つの特別な例示的実施形態では、2.5ビットの所定のエントロピー判定閾値が、バイノーラル・オーディオ信号とステレオ・オーディオ信号との間の十分な区別をもたらすことが見出された。言い換えるならば、仮に2チャンネルの入力オーディオ信号のエントロピーが前記所定エントロピー判定閾値以下であると判定された場合、入力されたオーディオ信号をバイノーラル・オーディオ信号として分類することができる。仮に、2チャンネルの入力オーディオ信号のエントロピーが前記所定エントロピー判定閾値よりも大きいと判定された場合、入力されたオーディオ信号はステレオ・オーディオ信号として分類することができる。
【0104】
エントロピーの値を所定の閾値と比較することによってマルチ・チャンネル入力オーディオ信号分類値を生成する処理は、
図6のステップ609に示される。
【0105】
入力マルチ・チャンネル・オーディオ信号を分類するエンコーダ104による全動作は、
図5のステップ501に示される。
【0106】
エントロピー推定器405からの出力は、マルチ・チャンネル入力オーディオ信号110のチャンネル構成を示すオーディオ信号分類値とすることができる。具体的には、いくつかの実施形態において、入力されたオーディオ信号が少なくとも2チャンネル入力オーディオ信号を有するオーディオ・チャンネルの構成を有するとき、入力されたオーディオ信号分類値は、前記2チャンネル入力オーディオ信号がバイノーラルタイプまたはステレオタイプであるか否かを示すことができる。
【0107】
エントロピー推定器405からのオーディオ信号分類値は、オーディオ信号分類器301からの出力の1つを形成することができる。加えて、オーディオ信号分類器301はまた、相対的オーディオ・エネルギ信号レベル決定器403から相対的オーディオ・エネルギ信号レベル(または、ILDs)と、フレーム区分器/変換器401から入力オーディオ信号の周波数領域表示とを出力するようにし、これらをその後のオーディオ符号化処理で使用するようにすることができる。
【0108】
図3を参照するに、分類器301からの出力は、それらがチャンネル・アナライザ/モノ・エンコーダ303に渡されるように配置することができる。
【0109】
いくつかの実施形態では、エンコーダ104は、チャンネル・アナライザ/モノ・エンコーダ303を有することができる。チャンネル・アナライザ/モノ・エンコーダ303は、オーディオ信号分類値を入力マルチ・チャンネル・オーディオ信号の周波数領域表示と共に受け取ると共に、それに対応した相対的音声エネルギ信号レベルを受け取るように構成することができる。
【0110】
他の実施形態として、チャンネル・アナライザ/モノ・エンコーダ303は、単にオーディオ信号分類器301からオーディオ信号分類値を受けとれることを理解されたい。これらの特定実施形態では、入力マルチ・チャンネル・オーディオ信号の周波数領域表示をチャンネル・アナライザ/モノ・エンコーダ303内で生成することも可能である。
【0111】
チャンネル・アナライザ/モノ・エンコーダ303は、マルチ・チャンネル入力オーディオ信号の周波数領域表示を分析し、2チャンネルまたはマルチ・チャンネルのオーディオ信号差に関し、各サブバンドに関連するパラメータを決定するように構成することができる。
【0112】
実施形態では、その周波数領域表示の分析とパラメータ化は、分類器301によって決定されるオーディオ信号分類値に依存することができる。特に、いくつかの実施形態では、周波数領域表示の分析とパラメータ化の形式は、オーディオ信号分類値が、「入力されたオーディオ信号がバイノーラルまたはステレオ信号タイプのどちらかである」ということを示したものであるか否かによって決めることができる。分析結果は、入力オーディオ信号のサブバンド毎の2チャンネル(より一般的には、マルチ・チャンネル)の特性を表すパラメータであることができる。
【0113】
チャンネル・アナライザ/モノ・エンコーダ303は、各サブバンドに関連するパラメータを使って、マルチ・チャンネル・オーディオ信号をダウンミックスし、何らかの適切な符号化スキームに従って符号化可能なモノチャンネルを生成することができる。
【0114】
いくつかの実施形態において、生成されたモノチャンネル・オーディオ信号(または、チャンネル数を少なくした符号化信号)は、何らかの適切な符号化フォーマットを使用して符号化することができる。例えば、いくつかの実施形態では、適応マルチレート広帯域(AMR−WB)コーデックのビット・ストリーム相互運用可能バージョンを含むことができるエンハンスト・ボイスサービス(EVS)のモノチャンネル符号化フォームを使用して、モノチャンネル・オーディオ信号を符号化することができる。
【0115】
モノチャンネル(または減少したチャンネル数)を生成し、符号化する処理は、
図5のステップ503に示される。
【0116】
次いで、符号化されたモノチャンネル信号をすることができる。いくつかの実施形態では、符号化されたモノチャンネル信号はマルチプレクサに出力され、単一のストリームや出力を形成するために、マルチ・チャンネルパラメータエンコーダ305の出力と組み合わされることになる。いくつかの実施形態では、符号化されたモノチャンネル信号は、マルチ・チャンネルパラメータエンコーダ305とは別に出力される。
【0117】
いくつかの実施形態において、エンコーダ104はマルチ・チャンネルパラメータエンコーダを有する。いくつかの実施形態では、マルチ・チャンネルパラメータエンコーダは2チャンネルパラメータエンコーダ305、あるいは、マルチ・チャンネルパラメータを符号化するための適切な手段を有する。マルチ・チャンネルパラメータエンコーダ305は、チャンネル・アナライザ/モノ・エンコーダ303によって決定された、例えばステレオまたはバイノーラル(差)パラメータなどのマルチ・チャンネルパラメータを受け取るように構成することができる。また、いくつかの実施形態では、マルチ・チャンネルパラメータエンコーダ305は、それらのパラメータに量子化を実行すると共に、それらを出力できるように(装置に格納する、あるいは、別の装置に受け渡すために)パラメータを符号化するように構成することも可能である。
【0118】
いくつかの実施形態では、マルチ・チャンネルパラメータエンコーダ305はまた、更なる入力としてオーディオ信号分類値を受け取ることで、マルチ・チャンネルパラメータの量子化および符号化を前記オーディオ信号分類値の値に依存させるようにすることができる。
【0119】
量子化されたマルチ・チャンネルパラメータを量子化および符号化する処理は、
図5のステップ505に示される。
【0120】
その他の実施形態において、エンコーダ104、チャンネル・アナライザおよびマルチ・チャンネルパラメータの符号化ステージの符号化は、モノチャンネル信号が形成される前に、1つのコーディングエンティティで実行されるようにすることができる。
【0121】
このような実施形態では、エンコーダ104は、最初に、マルチ・チャンネル入力オーディオ信号の周波数領域表示を分析し、2チャンネルやマルチ・チャンネルのオーディオ信号の差に関して各サブバンドに関連するパラメータを決定し、次いでマルチ・チャンネルパラメータに量子化と符号化を実行することができる。これらの実施形態では、モノオーディオ信号は、その後、各サブバンドに関連したパラメータを用いることでマルチ・チャンネル・オーディオ信号をダウンミックスするように形成されることができる。結果として得られたモノチャンネルは、その後、上述したような任意の適切な符号化スキームに従って符号化することができる。
【0122】
従って、実施形態の少なくとも1つには、マルチ・チャンネル・オーディオ信号のエントロピーの値を推定する手段と、そのエントロピー値からマルチ・チャンネル・オーディオ信号のチャンネル構成を決定する手段と、そのチャンネル構成に依存した符号化モードを以て前記マルチ・チャンネル・オーディオ信号を符号化する手段とを有する装置が存在し得る。
【0123】
上記の例は、装置10内のコーデック内で動作する本発明の実施形態を記述しているが、以下に記載されるように本発明は、任意の可変レート/適応レートオーディオ(または音声)コーデックを含む任意のオーディオ(または音声)コーデックの一部として実行される場合があることが理解される。従って、例えば、本発明の実施形態は、固定または有線通信経路に渡ってオーディオ符号化を実行可能なオーディオ・コーデックで実現可能である。
【0124】
従って、ユーザ装置には、例えば上記発明の実施形態に記載されているようなオーディオ・コーデックが含まれる可能性がある。
【0125】
なお、「ユーザ装置」という用語は、例えば、携帯電話やポータブルデータ処理装置やポータブルウェブブラウザ等の任意の適切なタイプの無線ユーザ装置を網羅することを目的としていることが理解される。
【0126】
更に、公衆地上移動体通信網(PLMN)の要素もまた、上述したようなオーディオ・コーデックを有することができる。
【0127】
一般に、本願発明の様々な実施形態は、ハードウエアや専用回路、ソフトウエア、ロジックやそれらの任意の組み合わせにおいて実現されることができる。本発明はこれに限定されるものではないが、例えば、ある特徴をハードウエアに実装しつつ、他の特徴についてはコントローラやマイクロプロセッサ、あるいはその他のコンピュータ・デバイスによって具現化できるファームウエアやソフトウエアに実装することができる。本発明の様々な特徴は、ブロック図やフローチャート、あるいはその他何らかの画像表示を用いて図解し記述することができるが、本願明細書に記載したこれらのブロックや装置、システム、技術あるいは方法は、非限定的な例として、ハードウエア、ソフトウエア、ファームウエア、特殊目的回路やロジック、汎用ハードウエアやコントローラやその他のコンピュータ・デバイス、あるいはそれらを組み合わせた形で実現可能であることが十分理解されよう。
【0128】
本発明の実施形態は、例えばプロセッサ・エンティティのように、モバイル機器のデータプロセッサにより実行可能なコンピュータソフトウエアやハードウエアにより、あるいはソフトウエアとハードウエアの組み合わせにより実現可能である。また、この点に関しては、図に示したロジックフローの任意のブロックが、プログラムのステップや、相互に接続された論理回路とブロックと機能、あるいはプログラムステップと論理回路とブロックと機能の組み合わせを表わし得ることに留意されたい。
【0129】
メモリは、ローカルな技術環境に適した如何なるタイプのものであっても良く、例えば半導体ベースのメモリデバイス、磁気メモリデバイスとシステム、光メモリデバイスとシステム、固定メモリおよび取り外し可能メモリ等、任意の適切なデータ格納技術を使用して実施することができる。データプロセッサは、ローカルな技術環境に適した如何なるタイプのものであっても良く、非限定的な例として、汎用コンピュータ、特殊目的コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSPs)、特定用途向け集積回路(ASIC)、ゲートレベル回路、およびマルチコア・プロセッサアーキテクチャに基づいたプロセッサの内の1つ、またはそれ以上を含んでも良い。
【0130】
本発明の実施形態は、集積回路モジュール等の様々な構成要素で実施することができる。集積回路の設計は、全般的に見て高度な自動化工程である。複雑かつ強力なソフトウエア・ツールは、論理レベル設計を、エッチングされて半導体基板上に形成される半導体回路の設計に変換するのに利用することができる。
【0131】
例えば、カリフォルニア州サンノゼにあるマウンテンビュー・カリフォルニア&ケイデンス・デザインのシノプシス社が提供するようなプログラムは、十分に確立された設計ルールや、予め記憶された設計モジュールのライブラリを使って半導体チップ上に自動的にコンダクタをルーテイングし、かつ構成部品を配置する。ひとたび半導体回路の設計が完了したならば、結果として得られたデザインは、標準化された電子フォーマット(例えば、オーパス、GDSII等)の形で半導体加工施設または製造「fab」に送ることができる。
【0132】
本願明細書で使用した「回路」なる用語は、以下に掲げたものの全てを参照する。
(a)ハードウエアだけの回路実装(例えば、アナログおよび/またはデジタル回路だけの実装)、および
(b)回路とソフトウエア(および/またはファームウエア)の組合わせ、例えば、(i)プロセッサの組み合わせ、または(ii)一緒に作動し、携帯電話やサーバのような装置に様々な機能を実行させるプロセッサ/ソフトウエア(含む、デジタル信号プロセッサ)、ソフトウエアおよびメモリの部分、および
(c)ソフトウエアやファームウエアが物理的に存在しなくとも、動作のためにソフトウエアやファームウエアを必要とする、例えばマイクロプロセッサまたはマイクロプロセッサの一部のような回路
【0133】
「回路」のこの定義は、特許請求の範囲を含む本願明細書でのこの用語のすべての使用に適用する。更なる例として、本願明細書で使用されたように、用語「回路」はまた、ただ単にプロセッサ(または複数プロセッサ)やプロセッサの一部、およびそれに(またはそれらに)付随するソフトウエアおよび/またはファームウエアの実装をも網羅することになるだろう。また、用語「回路」は、例えば仮に特定の請求項要素に適用できるならば、携帯電話のためのベースバンド集積回路やアプリケーションプロセッサ集積回路、あるいはサーバやセルラ・ネットワーク・デバイスやその他のネットワーク・デバイスにおける同様の集積回路をも網羅することになるだろう。
【0134】
前述の説明は、例示的かつ非限定的な例として、本発明の例示的的実施形態の完全かつ有益な解説を与えるものである。しかしながら、以上の説明を添付図面と添付の特許請求の範囲と併せて読んだとき、当業者にとっては様々な変更や適用は、明らかになる。しかしながら、本願発明の教示のもの、および、その類似の変更は、すべて、添付した特許請求の範囲で定めた本願発明の範囲に入るものである。