IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ.の特許一覧

特許7511574パラメトリックマルチチャネル動作と個々のチャネル動作との間で切り替えるためのマルチチャネルオーディオエンコーダ、デコーダ、方法、およびコンピュータプログラム
<>
  • 特許-パラメトリックマルチチャネル動作と個々のチャネル動作との間で切り替えるためのマルチチャネルオーディオエンコーダ、デコーダ、方法、およびコンピュータプログラム 図1
  • 特許-パラメトリックマルチチャネル動作と個々のチャネル動作との間で切り替えるためのマルチチャネルオーディオエンコーダ、デコーダ、方法、およびコンピュータプログラム 図2
  • 特許-パラメトリックマルチチャネル動作と個々のチャネル動作との間で切り替えるためのマルチチャネルオーディオエンコーダ、デコーダ、方法、およびコンピュータプログラム 図3
  • 特許-パラメトリックマルチチャネル動作と個々のチャネル動作との間で切り替えるためのマルチチャネルオーディオエンコーダ、デコーダ、方法、およびコンピュータプログラム 図4
  • 特許-パラメトリックマルチチャネル動作と個々のチャネル動作との間で切り替えるためのマルチチャネルオーディオエンコーダ、デコーダ、方法、およびコンピュータプログラム 図5
  • 特許-パラメトリックマルチチャネル動作と個々のチャネル動作との間で切り替えるためのマルチチャネルオーディオエンコーダ、デコーダ、方法、およびコンピュータプログラム 図6
  • 特許-パラメトリックマルチチャネル動作と個々のチャネル動作との間で切り替えるためのマルチチャネルオーディオエンコーダ、デコーダ、方法、およびコンピュータプログラム 図7
  • 特許-パラメトリックマルチチャネル動作と個々のチャネル動作との間で切り替えるためのマルチチャネルオーディオエンコーダ、デコーダ、方法、およびコンピュータプログラム 図8A
  • 特許-パラメトリックマルチチャネル動作と個々のチャネル動作との間で切り替えるためのマルチチャネルオーディオエンコーダ、デコーダ、方法、およびコンピュータプログラム 図8B
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-27
(45)【発行日】2024-07-05
(54)【発明の名称】パラメトリックマルチチャネル動作と個々のチャネル動作との間で切り替えるためのマルチチャネルオーディオエンコーダ、デコーダ、方法、およびコンピュータプログラム
(51)【国際特許分類】
   G10L 19/008 20130101AFI20240628BHJP
【FI】
G10L19/008 100
【請求項の数】 27
(21)【出願番号】P 2021558935
(86)(22)【出願日】2020-04-02
(65)【公表番号】
(43)【公表日】2022-06-16
(86)【国際出願番号】 EP2020059464
(87)【国際公開番号】W WO2020201461
(87)【国際公開日】2020-10-08
【審査請求日】2021-12-02
(31)【優先権主張番号】19167449.8
(32)【優先日】2019-04-04
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】500242786
【氏名又は名称】フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ.
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】エマニュエル・ラヴェリ
(72)【発明者】
【氏名】エレニ・フォトポウロウ
(72)【発明者】
【氏名】マルクス・ムルトゥルス
(72)【発明者】
【氏名】ギヨーム・フックス
【審査官】大野 弘
(56)【参考文献】
【文献】特開平06-252863(JP,A)
【文献】国際公開第2018/221138(WO,A1)
【文献】特表2012-516471(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/008
(57)【特許請求の範囲】
【請求項1】
入力オーディオ表現(110、510a、510b、810)に基づいて符号化オーディオ表現(112、552、562、812)を提供するためのマルチチャネルオーディオエンコーダ(100、500、800)であって、
前記マルチチャネルオーディオエンコーダ(100、500、800)が、前記入力オーディオ表現(110、510a、510b、810)の特性に応じて、複数のチャネルのパラメトリックマルチチャネル符号化(120、550、830)と複数のチャネルの個別符号化(130、560、834)との間で切り替えるように構成され、
前記マルチチャネルオーディオエンコーダは、1つ以上のマルチチャネル符号化パラメータを決定するように構成され、
前記マルチチャネルオーディオエンコーダ(100、500、800)が、複数の時間周波数部分内に単一の支配的なソースが存在するかどうか、または所与の時間周波数部分内に2つ以上のソースが存在し、それらのマルチチャネル符号化パラメータが少なくとも所定の偏差だけ、もしくは所定の偏差を超えて異なるかどうかを判定し、前記マルチチャネル符号化パラメータが少なくとも前記所定の偏差だけ、もしくは前記所定の偏差を超えて異なるかどうかの前記判定に応じて切り替えるように構成され、
前記マルチチャネル符号化パラメータが、前記入力オーディオ表現のチャネル間の関係に基づき、
前記マルチチャネルオーディオエンコーダが、単一ソースの場合に前記パラメトリックマルチチャネル符号化に切り替え、マルチチャネル符号化パラメータが少なくとも所定の偏差だけ異なる、所与の時間周波数部分内の2つ以上のソースの場合に前記個別符号化に切り替えるように構成される、
マルチチャネルオーディオエンコーダ(100、500、800)。
【請求項2】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、前記入力オーディオ表現(110、510a、510b、810)が前記パラメトリックマルチチャネル符号化(120、550、830)の基礎となるモデルの仮定を満たすかどうかを判定し、前記判定に応じて切り替えるように構成された、請求項1に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項3】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、前記パラメトリックマルチチャネル符号化(120、550、830)の基礎となる前記モデルの前記仮定が満たされない場合、前記個別符号化(130、560、834)に切り替えるように構成された、請求項2に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項4】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、前記入力オーディオ表現(110、510a、510b、810)が支配的なソースに対応するかどうかを判定し、前記判定に応じて切り替えるように構成された、請求項1から3のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項5】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、複数の時間周波数部分内に単一の支配的なソースが存在するかどうかを判定し、および/または所与の時間周波数部分内に2つ以上のソースが存在し、それらのマルチチャネル符号化パラメータが少なくとも所定の偏差だけもしくは所定の偏差を超えて異なるかどうかを判定し、前記判定に応じて切り替えるように構成された、請求項1から4のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項6】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、前記パラメトリックマルチチャネル符号化(120、550、830)の基礎となるモデルのパラメータを決定し、前記モデルの前記パラメータに応じて切り替えるように構成された、請求項1から5のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項7】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、前記入力オーディオ表現(110、510a、510b、810)のチャネル間の関係を定義する特性がマルチチャネル符号化パラメータの明確な決定を可能にするか、または前記マルチチャネル符号化パラメータの2つ以上の異なる可能な値を示すかを判定し、前記判定に応じて切り替えるように構成された、請求項1から6のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項8】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、前記入力オーディオ表現(110、510a、510b、810)のチャネル間の関係を定義する特性が有意性条件を満たす単一の有意な値のみを含むかどうか、または前記入力オーディオ表現(110、510a、510b、810)のチャネル間の前記関係を定義する前記特性が前記有意性条件を満たす2つ以上の有意な値を含むかどうかを判定し、前記判定に応じて切り替えるように構成された、請求項1から7のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項9】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、前のフレームのパラメータを決定し、前記前のフレームの前記パラメータに応じて切り替えるように構成された、請求項1から8のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項10】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、前記入力オーディオ表現(110、510a、510b、810)内に干渉源が存在するかどうかを判定し、前記判定に応じて切り替えるように構成された、請求項1から9のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項11】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、有意性条件を満たし、単一の時間周波数部分に関連付けられた前記入力オーディオ表現(110、510a、510b、810)の2つ以上のチャネル間の関係を記述する2つ以上の値が存在するかどうかを判定し、前記判定に応じて切り替えるように構成された、請求項1から10のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項12】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、前記入力オーディオ表現の2つ以上のチャネル間の相互相関において2つ以上のピーク(610、615、620、625、710、720)が存在するかどうかを判定し、前記判定に応じて切り替えるように構成された、請求項1から11のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項13】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、相互相関に基づいて、前記入力オーディオ表現(110、510a、510b、810)の2つ以上のチャネル間の関係を推定するように構成された推定器(530、840)を備え、
前記マルチチャネルオーディオエンコーダ(100、500、800)が、異なる相互相関ラグに関連付けられた2のピーク値(610、615、620、625、710、720)間の差がある値よりも大きいかどうかを判定し、前記判定に応じて切り替えるように構成された、
請求項1から12のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項14】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、有意性条件を満たし、同じ時間周波数部分に関連付けられた前記入力オーディオ表現(110、510a、510b、810)の2つ以上のチャネル間の関係を記述する2つ以上の値間の距離がある値よりも大きいかどうかを判定し、前記判定に応じて切り替えるように構成された、請求項1から13のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項15】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、ラグにわたる相互相関の進化に基づいて第1の特性値を決定し、前記決定に応じて切り替えるように構成された、請求項1から14のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項16】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、ラグにわたる相互相関の進化に基づいて1つもしくは複数の従属的特性値を決定し、前記決定に応じて切り替えるように構成され、および/または
前記マルチチャネルオーディオエンコーダ(100、500、800)が、前記ラグにわたる相互相関の前記進化に基づいて1つもしくは複数の従属的特性値が存在するかどうかを判定し、前記判定に応じて切り替えるように構成された、
請求項1から15のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項17】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、主ピーク(610、620、710)および1つもしくは複数の従属的ピーク(615、625、720)が有意性条件を満たすかどうかを判定し、前記判定に応じて切り替えるように構成され、および/または
前記マルチチャネルオーディオエンコーダ(100、500、800)が、関連性基準を満たす相互相関の1つまたは複数の従属的ピーク(615、625、720)が存在するかどうかを判定し、前記判定に応じて切り替えるように構成された、
請求項1から16のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項18】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、所与のフレームの前の1つまたは複数のフレーム内に1つまたは複数の対応する従属的ピーク(615、625、720)が存在した場合、前記入力オーディオ表現の前記所与のフレーム内の従属的ピーク(615、625、720)を選択的に考慮するように構成された、請求項1から17のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項19】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、前記入力オーディオ表現(110、510a、510b、810)の2つ以上のチャネル間の関係を記述する1つまたは複数の特性値が安定条件を満たすかどうかを判定し、前記判定に応じて切り替えるように構成された、請求項1から18のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項20】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、ノイズ条件がいくつかのフレームについて満たされているかどうかを判定し、前記ノイズ条件が満たされている場合、切り替えを選択的に回避するように構成された、請求項1から19のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項21】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、特性値に対する有意性条件および/または安定条件がいくつかのフレームについて満たされているかどうかを判定し、前記判定に応じて切り替えるように構成された、請求項1から20のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項22】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、1つまたは複数の従属的ピーク(615、625、720)の距離が所定の範囲内にあるかどうかを判定し、前記判定に応じて切り替える、および/または切り替えを選択的に回避するように構成された、請求項1から21のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項23】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、前記入力オーディオ表現の非アクティブなフレームの後の第1のフレームにおける、もしくはその後の切り替えを選択的に回避するように構成され、および/または
前記マルチチャネルオーディオエンコーダ(100、500、800)が、フレーム内の所与のフラグが1つまたは複数の前のフレームに対して変化したかどうかを判定し、前記判定に応じて切り替えを選択的に回避するように構成された、
請求項1から22のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項24】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、しきい値よりも大きい前記入力オーディオ表現(110、510a、510b、810)の特性の変化の検出に応答して前記個別符号化(130、560、834)に選択的に切り替えるように構成された、請求項1から23のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項25】
前記マルチチャネルオーディオエンコーダ(100、500、800)が、音源の方向を記述するパラメータが少なくともある値だけ変化したかどうかを判定し、前記判定に応じて切り替えるように構成され、
前記マルチチャネルオーディオエンコーダが、音源が急激に移動した場合に個別符号化に切り替えるように構成された、請求項1から24のいずれか一項に記載のマルチチャネルオーディオエンコーダ(100、500、800)。
【請求項26】
入力オーディオ表現に基づいて符号化オーディオ表現を提供する(320)ためのマルチチャネルオーディオ符号化の方法(300)であって、
前記入力オーディオ表現の特性に応じて、複数のチャネルのパラメトリックマルチチャネル符号化と複数のチャネルの個別符号化との間で切り替えるステップ(310)を含み、 前記方法は、複数の時間周波数部分内に単一の支配的なソースが存在するかどうか、または所与の時間周波数部分内に2つ以上のソースが存在し、それらのマルチチャネル符号化パラメータが少なくとも所定の偏差だけ、もしくは所定の偏差を超えて異なるかどうかを判定し、少なくとも前記所定の偏差だけ、もしくは前記所定の偏差を超えて異なるかどうかの前記判定に応じて切り替えるステップを含み、
前記マルチチャネル符号化パラメータが、前記入力オーディオ表現のチャネル間の関係に基づき、
前記方法は、単一ソースの場合に前記パラメトリックマルチチャネル符号化に切り替え、マルチチャネル符号化パラメータが少なくとも所定の偏差だけ異なる、所与の時間周波数部分内の2つ以上のソースの場合に前記個別符号化に切り替えるステップを含み、
前記方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組み合わせを使用して実行される、
方法(300)。
【請求項27】
コンピュータプログラムであって、前記コンピュータプログラムがコンピュータ上で実行されたときに請求項26に記載の方法を実行するための、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、ステレオ、2チャネル、または3チャネル以上のアプリケーションのためのマルチチャネルオーディオ符号化および復号に関する。より具体的には、本出願は、一般的なオーディオ符号化/復号もしくは音声符号化/復号、またはスケーリングファクタを用いる変換領域符号化/復号および/もしくは線形予測係数ベースの符号化/復号を使用する符号化/復号に関する。
【背景技術】
【0002】
マイクロフォン間に特定の距離を有する2つ以上のマイクロフォンを有するマイクロフォン配置を用いてキャプチャされたステレオ音声信号の送信のために、低ビットレートが必要な場合、パラメトリックステレオ技法が使用され得る。例示的なパラメトリックステレオ技法は、[1]において記載されている。2人以上の話者がマイクロフォン配置の周りに存在し、2人以上の話者が同じ時間期間中に同時に話している場合、パラメトリックステレオシステムは、ほとんどの状況に対して適切に機能し得る。しかしながら、パラメトリックモデルがステレオイメージを再現できず、干渉する話者のシナリオに対して音声が明瞭な出力を提供できない可能性があるいくつかの場合が存在する。それは、例えば、2人以上の話者の各々が異なるITD(チャネル間時間差(Inter-channel Time Difference))でキャプチャされた場合、ITDが大きい(マイクロフォン間の距離が大きい)場合、および/または話者がマイクロフォン配置軸の反対側の位置において座っている場合に起こる。
【0003】
さらに、[1]において記載されているようなパラメトリックステレオ方式において、空間的ステレオシーンを再現するために、いくつかのパラメータが抽出され、ステレオ信号は、さらに符号化されるシングルチャネルダウンミックスに推定される。干渉する話者の場合において、ダウンミックス信号は、[2]において記載されているCELPのような音声コーダを用いてコーディングされ得る。しかしながら、コーディング方式は、単一話者の音声を表すように設計された、音声生成のソースフィルタモデルである。干渉する話者について、コアコーディングモデルが違反されており、知覚品質が低下している可能性がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の目的は、従来の手法の欠点を少なくとも部分的に克服することである。
【課題を解決するための手段】
【0005】
この目的は、請求項1に記載のマルチチャネルオーディオエンコーダ、請求項26に記載のマルチチャネルオーディオデコーダ、請求項26に記載の符号化マルチチャネルオーディオ表現、請求項30に記載のマルチチャネルオーディオ符号化の方法、請求項31に記載のマルチチャネルオーディオ復号の方法、および請求項32に記載のコンピュータプログラムによって解決される。
【0006】
マルチチャネルオーディオエンコーダが提供される。マルチチャネルオーディオエンコーダは、ステレオ、2チャネル、または3チャネル以上のオーディオエンコーダであり得る。オーディオエンコーダは、一般的なオーディオエンコーダ、または音声エンコーダ、またはスケーリングファクタを使用する変換領域符号化と線形予測係数ベースの符号化との間で切り替わるエンコーダであり得る。エンコーダは、入力オーディオ表現ベースの符号化オーディオ表現を提供するように構成される。エンコーダは、入力オーディオ表現の特性に応じて、複数のチャネル、例えば、入力オーディオ表現のチャネルのパラメトリックマルチチャネル符号化と、複数のチャネル、例えば、入力オーディオ表現のチャネルの個別符号化との間で切り替えるように構成される。
【0007】
パラメトリックマルチチャネル符号化は、複数のチャネル信号を組み合わせた組合せ信号を符号化し、パラメータの形態における2つ以上のチャネル間の関係を符号化し得る。パラメータは、チャネル間時間差パラメータ、および/またはチャネル間レベル差パラメータ、および/またはチャネル間位相パラメータ、および/またはチャネル間相関パラメータを含み得る。
【0008】
入力オーディオ表現の特性に応じたパラメトリックマルチチャネル符号化と個別符号化との間の切り替えは、有利には、符号化を入力オーディオ表現の特性に適合させることを可能にする。パラメトリックマルチチャネル符号化と個別符号化との間の選択的切り替えは、結果として生じる符号化オーディオ表現が、例えば、知覚されるパフォーマンスに関して有利な特性を有し得るように、基礎となる入力オーディオ表現を符号化するのにより適した符号化の選択をもたらし得る。
【0009】
言い換えれば、本発明は、入力オーディオ表現の特性を取得し、それに続いて特性に応じて行動する(例えば、切り替える)ための努力と、例えば、パフォーマンス基準に関して、特定の入力オーディオ表現(またはその一部)にとって有利であり得る符号化を使用することによって入力オーディオ表現を符号化することの利点との間のトレードオフを含む。
【0010】
一実施形態によれば、マルチチャネルエンコーダは、入力オーディオ表現がパラメトリックマルチチャネル符号化の基礎となるモデルの仮定を満たすかどうかを判定し、判定に応じて切り替えるように構成され得る。仮定は、各時間周波数部分において、単一話者の存在、例えば、チャネル間時間差/両耳間時間差(ITD(lnteraural Time Difference))の存在を含み得る。例えば、入力オーディオ表現の特性は、2人以上の話者が干渉しているという指標を提供し得、したがって、単一の話者に関するパラメトリックマルチチャネル符号化の基礎となるモデルの仮定は、違反されている可能性がある。
【0011】
一実施形態によれば、マルチチャネルエンコーダは、パラメトリックマルチチャネル符号化の基礎となるモデルが満たされない場合、個別符号化に切り替えるように構成され得る。例えば、パラメトリックマルチチャネル符号化の基礎となるモデルのスピーカの数およびそれらのITDに関する仮定は、いくつかの入力オーディオ表現に対して満たされない場合がある。しかしながら、個別符号化の基礎となるモデルの仮定は、満たされる場合がある。結果として、個別符号化への切り替えは、有利なパフォーマンスをもたらす可能性がある。
【0012】
一実施形態によれば、マルチチャネルエンコーダは、入力オーディオ表現が支配的なソース、例えば、単一の支配的なソースに対応するかどうかを判定するように構成され得る。そのような場合、他のソース(例えば、すべての他のソース)は、例えば、少なくとも所定の強度差だけ、より弱い可能性がある。エンコーダは、判定に応じて切り替えるように構成され得る。支配的なソースの存在または不在は、パラメトリック符号化または個別符号化のどちらがパフォーマンスの点で有利であり得るかに関する指標を提供し得る。
【0013】
一実施形態によれば、マルチチャネルエンコーダは、複数の時間周波数部分内に単一の支配的なソースが存在するかどうかを判定し、および/またはマルチチャネル符号化パラメータが少なくとも所定の偏差だけ、もしくは所定の偏差を超えて異なる2つ以上のソースが所与の時間周波数部分内に存在するかどうかを判定するように構成され得る。マルチチャネルエンコーダは、判定に応じて切り替えるように構成され得る。複数の時間周波数部分は、代替的には、すべての周波数部分を含み得る。2つ以上のソースは、例えば、例えば、異なる位置にある、関連のあるソースおよび/または有意なソースおよび/または注目すべきソースである、ソースの有意性の条件を満たし得る。マルチチャネル符号化パラメータは、ITDであり得る。単一のソースを決定することは、基礎となるモデルが単一のソースを処理するのに適した符号化、例えば、パラメトリック符号化を選択することを可能にし得る。時間周波数部分内の単一のソースを決定することは、符号化の基礎となるモデルの仮定が満たされるその部分のための符号化、例えば、パラメトリックモデルを選択することを可能にし得る。所与の時間周波数部分内の2つ以上のソースを決定することは、単一のソースに基づく基礎となるモデルを有する符号化が、所与の時間周波数部分について所望のパフォーマンスを提供しない可能性があり、したがって、所与の部分のための符号化を切り替えることが有利なパフォーマンスをもたらし得ることを示し得る。マルチチャネルパラメータが少なくとも所定の偏差だけ(または所定の偏差を超えて)異なるかどうかを判定することは、2つ以上のソースが、符号化の基礎となるモデルの仮定が違反されることに帰する可能性があるかどうかを判定することを可能にし、したがって、異なる符号化に切り替える指標となり得る。
【0014】
一実施形態において、マルチチャネルエンコーダは、パラメトリックマルチチャネル符号化の基礎となるモデルのパラメータを決定し、モデルのパラメータに応じて切り替えるように構成され得る。例えば、モデルのパラメータは、チャネル間時間差、両耳間時間差、ITDであり得る。パラメータは、入力オーディオ表現の2つ以上のチャネル間の関係を記述し得る。パラメトリックマルチチャネル符号化の基礎となるモデルのパラメータを決定することは、入力オーディオ表現の2つ以上のチャネル間の所望の関係に対して望ましいパフォーマンスを達成するためにパラメトリックモデルの能力を評価することを可能にし、有利なパフォーマンスを達成するために切り替えを実行することを可能にし得る。
【0015】
一実施形態において、マルチチャネルエンコーダは、入力オーディオ表現のチャネル間の関係を定義する特性が、マルチチャネル符号化パラメータの明確な決定を可能にするか、またはマルチチャネル符号化パラメータの2つ以上の異なる可能な値を示すかを判定し、判定に応じて切り替えるように構成され得る。例えば、チャネル間の関係を定義する特性は、ラグパラメータにわたる一般化相互相関位相変換(GCC-PHAT(generalized cross-correlation phase transform))の進化、またはラグパラメータにわたる2つ以上のチャネル間の相互相関関数の進化であり得る。マルチチャネル符号化パラメータは、ITDであり得る。2つ以上の異なる可能な(例えば、意味のある)値は、少なくとも所定の値だけ異なり得、ノイズフロアと区別可能であり得る。特性は、それらの有意性に関して最大で(例えば、所定のまたは信号適応性の)差(例えば、値)だけ異なる2つ以上の値(例えば、ピーク値、または有意性条件を満たす値)、または有意性条件を満たす単一の値のみを含み得る。一般化相互相関位相変換の進化または相互相関関数の進化を使用することによって入力オーディオ表現のチャネル間の関係を決定することは、特性を取得するためにチャネル間の関係を定量化することを可能にし得る。マルチチャネル符号化パラメータの2つ以上の異なる値が少なくとも所定の値だけ異なるかどうか、およびマルチチャネル符号化パラメータの2つ以上の異なる値がノイズフロアと区別可能であるかどうかを判定することは、マルチチャネル符号化パラメータの明確な決定が可能であるかどうか、またはマルチチャネル符号化パラメータの2つ以上の異なる意味のある値が決定され得るかどうかを、有利に確実に判定することを可能にする。代替的に、または加えて、例えば、有意性条件を使用することによって、最大で、決定されたそれらの有意性に関する差だけ異なる2つ以上の値を特性が含むかどうかを決定することは、マルチチャネル符号化パラメータの明確な決定が可能であるかどうか、またはマルチチャネル符号化パラメータの2つ以上の異なる意味のある値が決定され得るかどうかを、有利に確実に判定することを可能にする。
【0016】
一実施形態において、マルチチャネルエンコーダは、入力オーディオ表現のチャネル間の関係を定義する特性が、有意性条件を満たす単一の有意な値のみを含むかどうか、または入力オーディオ表現のチャネル間の関係を定義する特性が、有意性条件を満たす2つ以上の(例えば、異なる)有意な値を含むかどうかを判定し、判定に応じて、例えば、パラメトリックマルチチャネル符号化と複数のチャネルの個別符号化との間で切り替えるように構成され得る。チャネル間の関係を定義する特性は、ラグパラメータにわたるGCC-PHATの進化、またはラグにわたる2つ以上のチャネル間の相互相関関数の進化であり得る。単一の有意な値は、単一のITD値を表す単一の有意なピークを含み得る。有意性条件は、2つ以上の局所ピークもしくは最大値間の大きさの関係、および/または2つの局所ピークもしくは最大値間の距離関係、および/またはノイズフロアからの距離を含み得る。有意性条件は、事前に決定されるか、または信号適応型であり得、例えば、入力オーディオ表現の特性に基づき得る。2つ以上の有意な値は、2つ以上の異なるITD値を表す少なくとも2つの有意なピークを含み得る。有意性条件の成就は、単一の時間周波数部分において決定され得る。GCC-PHATまたは相互相関関数の進化を使用することによって入力オーディオ表現のチャネル間の関係を決定することは、特性を取得するためにチャネル間の関係を定量化することを有利に可能にし得る。特性が単一の有意な値を含むかどうか、または特性が2つ以上の値を含むかどうかを判定することは、符号化、例えば、パラメトリックマルチチャネル符号化または個別符号化のどちらが所与の入力オーディオ表現により適している可能性があるかを有利に決定し得る。有意性条件は、特性が単一の有意な値のみを含むか、または2つ以上の有意な値を含むかを判定する際に、進化に含まれる値のどれが考慮され得るかを判定するために、値を評価するための1つまたは複数の基準、例えば、2つの局所ピークもしくは最大値間の大きさ、例えば、タイムラグなどの時間領域、もしくは周波数領域における2つの局所ピークもしくは最大値間の距離、および/またはノイズフロアからの距離を使用することを有利に可能にし得る。
【0017】
一実施形態において、マルチチャネルエンコーダは、例えば、符号化オーディオ表現の前のフレームのパラメータを決定し、前のフレームのパラメータに応じて切り替えるように構成され得る。前のフレームのパラメータは、SADフラグであり得る。前のフレームのパラメータを決定することは、例えば、単一の部分の第1のフレームにおける切り替えが選択的に回避され得るように、前のフレームがアクティブ信号を含むかどうかを判定するために有利に使用され得る。
【0018】
一実施形態において、マルチチャネルエンコーダは、入力オーディオ表現内に干渉源が存在するかどうかを判定し、判定に応じて切り替えように構成され得る。干渉源は、2つ以上の干渉する音源、または2つ以上の干渉するスピーカ、または2人以上の干渉する話者を含み得る。入力オーディオ表現内の干渉源(またはスピーカ、または話者)は、例えば、時間周波数部分において、または、例えば、重複する時間周波数リソースまたは部分において決定され得る。干渉源が存在するかどうかを判定することは、例えば、入力オーディオ表現が、例えば、パラメトリックマルチチャネル符号化のパフォーマンス低下と、例えば、個別符号化の有利なパフォーマンスとを結果として生じ得る干渉源を含むという判定に基づいて、パラメトリックマルチチャネル符号化と個別符号化との間で切り替えることを有利に可能にし得る。
【0019】
一実施形態において、マルチチャネルエンコーダは、有意性条件を満たし、単一の時間周波数部分に関連付けられた、入力オーディオ表現の2つ以上のチャネル間の関係を記述する2つ以上の値が存在するかどうかを判定し、判定に応じて切り替えるように構成され得る。2つ以上の値は、関連する値、または有意な値を含み得る。有意性条件を満たし、単一の時間周波数部分に関連付けられた2つ以上の値が存在するかどうかを判定することは、例えば、入力オーディオ表現が、例えば、パラメトリックマルチチャネル符号化のパフォーマンス低下と、例えば、個別符号化の有利なパフォーマンスとを結果として生じ得ると判定することを有利に可能にし得る。
【0020】
一実施形態において、マルチチャネルエンコーダは、入力オーディオ表現の2つ以上のチャネル間の相互相関、例えば、GCC-PHATにおいて2つ以上のピークが存在するかどうかを判定し、判定に応じて切り替えるように構成され得る。相互相関は、所与の時間周波数部分に関連し得る。2つ以上のチャネル間の相互相関において2つ以上のピークが存在するかどうかを判定することは、例えば、パラメトリックマルチチャネル符号化のパフォーマンスを低下させる可能性がある入力オーディオ表現内の干渉する話者が存在するかどうかを定量的に判定し、判定に応じて、例えば、個別符号化に切り替えることを有利に可能にし得る。
【0021】
一実施形態において、マルチチャネルエンコーダは、相互相関に基づいて入力オーディオ表現の2つ以上のチャネル間の関係を推定するように構成された推定器を備え得る。推定器は、複数の時間周波数部分について個別に関係を推定するように構成され得る。推定器は、ITD推定器であり得る。相互相関は、GCC-PHATまたは平滑化された相互相関であり得る。相互相関は、時間領域において実行され得、または周波数領域において実行され得る。マルチチャネルエンコーダは、異なる相互相関ラグに関連付けられた、例えば、推定器によって推定されるような2つのピーク値、例えば、関連するおよび/または有意な値間の差が値(例えば、所定の値または信号適応性の値)よりも大きいかどうかを判定し、判定に応じて切り替えるようにさらに構成され得る。推定器、例えば、ITD推定器は、エンコーダ、例えば、パラメトリックマルチチャネル符号化を使用するエンコーダ内に存在し得、したがって、異なる相互相関ラグに関連付けられた2つのピーク値間の差がしきい値よりも大きいかどうかを判定するために推定器を使用することは、実質的に追加の複雑さを導入しない可能性がある。
【0022】
一実施形態において、マルチチャネルエンコーダは、有意性条件を満たし、同じ時間周波数部分に関連付けられた入力オーディオ表現の2つ以上のチャネル間の関係を記述する2つ以上の値(例えば、関連する値または有意な値)間の距離が値(例えば、所定の値または信号適応性の値)よりも大きいかどうかを判定し、判定に応じて切り替えるように構成され得る。距離は、例えば、時間領域において、タイムラグまたは相互相関ラグに関して決定され得る。2つ以上の値は、入力オーディオ表現の2つ以上のチャネル間の相互相関のピークであり得、推定器、例えば、ITD推定器によって提供され得る。ピーク値は、有意性条件を満たす値であり得る。有意性条件を満たし、同じ時間周波数部分に関連付けられた2つ以上の値間の距離がしきい値よりも大きいかどうかを判定することは、例えば、あるいは単一のソースに起因する可能性がある小さい距離において位置する2つ以上のピークと、2つ以上のソースに起因する可能性がある有意な(例えば、より大きい)距離において位置する2つ以上のピークとを有利に区別することを可能にする。
【0023】
一実施形態において、マルチチャネルエンコーダは、(例えば、ラグパラメータにわたる)相互相関の進化に基づいて第1の特性値を決定し、決定に基づいて切り替えるように構成され得る。第1の特性値は、主ピークまたは一次ピークであり得る。相互相関は、GCC-PHATを含み得る。第1の特性値は、有意性条件を満たし得る。ピーク値は、進化において最も大きい(例えば、絶対)値であり得る。決定することは、例えば、1つまたは複数の前のフレームを含む1つまたは複数のフレームについての進化の評価を含み得る。決定することは、値が安定条件を満たすかどうかを判定することをさらに含み得る。安定条件は、例えば、値がいくつかの前のフレーム(例えば、所定の数の前のフレーム、または信号適応的な数の前のフレーム)について範囲(例えば、所定の範囲、または信号適応的な範囲)内にある場合に満たされ得る。また、代替的には、または加えて、安定性基準の成就は、いくつかのフレーム(例えば、所定の数の前のフレーム、または信号適応的な数の前のフレーム)についての値を入力として有するヒステリシスメカニズムに基づいて決定され得る。第1の特性値、例えば、主ピークを決定することは、決定された値(多くの場合、相互相関の進化における最大値である)が、単独で、またはさらなる1つまたは複数の値と組み合わせて、パラメトリックマルチチャネル符号化と個別符号化との間で切り替えを生じさせるかどうかを有利に評価することを可能にし得る。さらに、オプションで有意性条件および/または安定条件を考慮に入れることは、例えば、検出された値が経時的に安定していない場合、および/または、例えば、ノイズフロアから十分に離れていない場合、切り替えが、例えば、選択的に回避されるべきかどうかを判定することを有利に可能にし得る。
【0024】
一実施形態において、マルチチャネルエンコーダは、相互相関の進化に基づいて1つまたは複数の従属的特性値を決定し、決定に基づいて切り替えるように構成され得る。1つまたは複数の従属的特性値は、二次ピークまたは第2のピークであり得る。従属的値は、相互相関の進化の一部に基づいて決定され得る。例えば、その一部の各要素は、(例えば、所定のまたは信号適応的な)しきい値を超える第1の特性値までの(例えば、時間領域における、例えば、タイムラグに関する)距離を有し得る。1つまたは複数の従属的特性値は、有意性条件を満たし得る。1つまたは複数の従属的特性値は、進化の一部における1つまたは複数の最大(例えば、絶対)値であり得る。1つまたは複数の従属的特性値は、安定条件を満たし得る。1つまたは複数の従属的特性値を決定することは、決定値、例えば、第1の特性値および/または1つもしくは複数の従属的特性値が、パラメトリックマルチチャネル符号化と個別符号化との間で符号化を切り替えることを生じさせるかどうかを評価することを有利に可能にし得る。さらに、オプションで、第1の特性値から特定の距離を有する相互相関の進化の一部における1つまたは複数の従属的値を評価することは、入力オーディオ表現を単一のソースまたは複数のソースに確実に帰属させることを有利に可能にし得る。代替的に、または加えて、マルチチャネルエンコーダは、相互相関の進化に基づいて、1つまたは複数の従属的特性値が存在するかどうかを判定し、判定に応じて切り替えるように構成され得る。言い換えれば、1つまたは複数の従属的特性値の単なる存在は、例えば、パターン認識アルゴリズムなどに基づいて決定され得る。
【0025】
一実施形態において、マルチチャネルエンコーダは、主ピークおよび1つまたは複数の従属的ピークが有意性条件を満たすことを判定し、判定に応じて切り替えるように構成され得る。例えば、有意性条件は、安定条件が満たされるいくつかのフレームについて、主ピークと1つまたは複数の従属的ピークとの間の差(例えば、相対差)がしきい値(例えば、所定のしきい値、または信号適応的なしきい値)よりも大きい場合、満たされる。ピーク間の差は、例えば、それらの振幅に関して、またはそれらの位相に関して、またはそれらのタイムラグに関して決定され得る。代替的に、または加えて、マルチチャネルエンコーダは、関連性基準を満たす相互相関の1つまたは複数の従属的ピークが存在するかどうかを判定し、判定に応じて切り替えるように構成され得る。関連性基準は、例えば、主ピークに関して、および/または相互相関のノイズフロアに関して定義され得る。主ピークと1つまたは複数の従属的ピークとの間の有意な差を判定することは、入力オーディオ表現内に2つ以上のソースが存在することを確実に判定し、判定に基づいて、例えば、個別符号化に切り替えることを有利に可能にする。
【0026】
一実施形態において、マルチチャネルエンコーダは、所与のフレームの前の1つまたは複数のフレーム内に1つまたは複数の対応する従属的ピークが存在した場合、入力オーディオ表現の所与のフレーム内の従属的ピークを選択的に考慮するように構成され得る。例えば、1つまたは複数の対応する従属的ピークは、考慮中の従属的ピークと同じ自己相関ラグにおいて、または考慮中の従属的ピークの自己相関ラグの周囲の自己相関ラグの所定の範囲内に位置し得る。1つまたは複数の前のフレーム内の1つまたは複数の対応する従属的ピークを考慮して所与のフレーム内の従属的ピークを選択的に考慮することは、符号化を切り替える前に、特定の空間的および/またはレベル/位相/周波数の安定性がソースに起因する可能性があるかどうかを判定することを有利に可能にし得る。安定性は、1つまたは複数のフレームを包含し得、したがって、フレームの長さによって制限されるのではなく、ソースの状況に関連する可能性がある。
【0027】
一実施形態において、マルチチャネルエンコーダは、入力オーディオ表現の2つ以上のチャネル間の関係を記述する1つまたは複数の特性値が安定条件を満たすかどうかを判定し、判定に応じて切り替えるように構成され得る。特性値は、主ピークおよび/または1つもしくは複数の従属的ピークであり得る。安定条件は、例えば、いくつかの前のフレーム(例えば、所定の数の前のフレームまたは信号適応的な数の前のフレーム)について、値が範囲(例えば、所定の範囲または信号適応的な範囲)内にあるか、またはしきい値(例えば、所定のしきい値または信号適応的なしきい値)よりも大きい場合に満たされ得る。代替的に、または加えて、安定条件の成就は、いくつかのフレーム(例えば、前のフレーム)(例えば、所定の数の前のフレーム、または信号適応的な数の前のフレーム)についての値を入力として有するヒステリシスに基づいて決定され得る。安定条件の成就を判定することは、ノイズの多い入力オーディオ表現またはその一部において、例えば、ノイズの多いフレームにおいて切り替えを回避することを有利に可能にし得る。
【0028】
一実施形態において、マルチチャネルエンコーダは、いくつかのフレーム(例えば、所定の数のフレーム、または信号適応的な数のフレーム)についてノイズ条件が満たされているかどうかを判定し、ノイズ条件が満たされている場合、切り替えを選択的に回避するように構成され得る。フレームは、現在のフレームを含み得る。ノイズ条件は、例えば、フレーム(またはいくつかのフレーム)のノイズ特性(例えば、ノイズフロア)がしきい値(例えば、所定のしきい値または信号適応的なしきい値)よりも大きい場合に満たされ得る。ノイズ条件の成就を判定することは、ノイズの多い入力オーディオ表現またはその一部において、例えば、ノイズの多いフレームにおいて切り替えを回避することを有利に可能にし得る。
【0029】
一実施形態において、マルチチャネルエンコーダは、特徴値の有意性条件および/または安定条件がいくつかのフレームについて満たされているかどうかを判定し、判定に応じて切り替えるように構成され得る。特徴値は、主ピークおよび/または1つもしくは複数の従属的ピークであり得る。フレームの数は、事前に決定されるか、または信号適応的であり得る。フレームは、1つもしくは複数の前のフレームおよび/または現在のフレームを含み得る。いくつかのフレームについて有意性条件および/または安定条件の成就を判定することは、不安定な信号、例えば、入力オーディオ表現の不安定な部分および/またはノイズの多い部分における切り替えを選択的に回避することを有利に可能にし得る。
【0030】
一実施形態において、マルチチャネルエンコーダは、1つまたは複数の従属的ピークの距離が所定の範囲内にあるかどうかを判定し、判定に応じて切り替える、および/または切り替えを選択的に回避するように構成され得る。例えば、1つまたは複数の従属的ピークは、最大値(例えば、最大絶対値)を有し得、ピーク(2)と呼ばれる場合がある。距離は、タイムラグ(例えば、絶対タイムラグまたは相対タイムラグ)に関して決定され得、および/または時間領域もしくは周波数領域において決定され得る。距離は、いくつかのフレーム(例えば、所定の数のフレームまたは信号適応的な数のフレーム)について決定され得る。フレームは、1つもしくは複数の前のフレームおよび/または現在のフレームを含み得る。1つまたは複数のピークの距離が所定の範囲内にあるかどうかを判定し、それに基づいて切り替える、および/または切り替えを選択的に回避することは、不安定な信号、例えば、入力オーディオ表現の不安定な部分および/またはノイズの多い部分において切り替えを選択的に回避することを有利に可能にし得る。
【0031】
一実施形態において、マルチチャネルエンコーダは、入力オーディオ表現の非アクティブフレームの後の第1のフレームにおける切り替え、またはその後の切り替えを選択的に回避するように構成され得る。非アクティブフレームは、ノイズフレームを含み得る。代替的に、または加えて、マルチチャネルエンコーダは、フレーム内の所与のフラグが1つまたは複数の前のフレームに対して変更されたかどうかを判定し、判定に応じて切り替えを選択的に回避するように構成され得る。フラグは、例えば、アクティブな信号を示し、SADフラグであり得る。切り替えを選択的に回避することは、フラグがアクティブな値をとる第1のフレームにおける切り替え、またはその後の切り替えを回避することを含み得る。結果として、信号部分の第1のフレームにおける切り替えは、有利に選択的に回避され得る。
【0032】
一実施形態において、マルチチャネルエンコーダは、しきい値(例えば、所定のしきい値または信号適応的なしきい値)よりも大きい入力オーディオ表現の特性の変化の検出に応答して個別符号化に選択的に切り替えるように構成され得る。入力オーディオ表現の特性は、例えば、ITD、または主ピーク、またはピーク(1)であり得る。特性の変化がしきい値よりも大きいことを検出したことに応答して個別符号化に選択的に切り替えることは、追加の特性/パラメータを評価する必要なしに、突然の変化に作用することを有利に可能にし得る。
【0033】
一実施形態において、マルチチャネルエンコーダは、音源の方向を記述するパラメータが(例えば、前の/最後のフレームと比較して)少なくともある値(例えば、しきい値)だけ変化したかどうかを判定し、判定に応じて切り替えるように構成され得る。パラメータは、時間周波数部分における相互相関内の(例えば、GCC-PHAT内の)主ピークの位置であり得る。切り替えは、個別符号化への切り替えを含み得る。音源の方向を記述するパラメータが少なくともしきい値だけ変化したかどうかを判定することは、音源が、例えば、マイクロフォンに対して急激に移動した場合、または追加の音源が突然現れ時間周波数部分内で既存の音源と干渉した場合、特定の符号化、例えば、個別符号化に切り替えることを有利に可能にし得る。
【0034】
さらに、マルチチャネルオーディオデコーダが提供される。マルチチャネルオーディオデコーダは、ステレオ、または2チャネル、または3チャネル以上のオーディオデコーダであり得る。オーディオデコーダは、一般的なオーディオデコーダ、または音声デコーダ、またはスケーリングファクタを使用する変換領域復号と線形予測係数ベースの復号との間で切り替わるデコーダであり得る。デコーダは、符号化オーディオ表現に基づいて復号されたオーディオ表現を提供するように構成される。デコーダは、複数のチャネル、例えば、入力オーディオ表現のチャネルのパラメトリックマルチチャネル復号と、複数のチャネル、例えば、入力オーディオ表現のチャネルの個々の復号との間で切り替えるように構成される。
【0035】
パラメトリックマルチチャネル復号について、複数のチャネル信号を組み合わせた組合せ信号が符号化され得、パラメータの形態における2つ以上のチャネル間の関係が符号化され得る。パラメータは、チャネル間時間差パラメータ、および/またはチャネル間レベル差パラメータ、および/またはチャネル間位相パラメータ、および/またはチャネル間相関パラメータを含み得る。
【0036】
パラメトリックマルチチャネル復号と個々の復号との間の切り替えは、復号(したがって、符号化も)を入力オーディオ表現の特性に適合させることを有利に可能にする。パラメトリックマルチチャネル復号と個々の復号との間の選択的切り替えは、結果として生じる符号化オーディオ表現が、例えば、知覚されるパフォーマンスに関して有利な特性を有し得るように、基礎となる入力オーディオ表現を符号化するのにより適した符号化を選択することを可能にし得る。
【0037】
言い換えれば、本発明は、入力オーディオ表現の特性を取得し、それに続いて特性に応じて行動する(例えば、切り替える)ための努力と、例えば、パフォーマンス基準に関して、特定の入力オーディオ表現(またはその一部)にとって有利である符号化を使用することによって入力オーディオ表現が符号化される(したがって、復号に利用可能である)という利点との間のトレードオフを含む。
【0038】
一実施形態において、マルチチャネルオーディオデコーダは、符号化オーディオ表現内に含まれるシグナリングに応じて、パラメトリックマルチチャネル復号と個々の復号との間で切り替えるように構成され得る。符号化オーディオ表現内に含まれるシグナリングは、例えば、取得された符号化オーディオ表現のコンテキストに基づいて基礎となる符号化方式を推論するデコーダと比較して、デコーダを単純化し得る。
【0039】
加えて、符号化マルチチャネルオーディオ表現が提供される。マルチチャネルオーディオ表現は、ステレオ、または2チャネル、または3チャネル以上のオーディオ表現であり得る。符号化マルチチャネルオーディオ表現は、(例えば、入力オーディオ表現の)複数のチャネルの符号化されたパラメトリックマルチチャネル表現と、(例えば、入力オーディオ表現の)複数のチャネルの符号化された個々の表現とを含む。
【0040】
パラメトリックマルチチャネル符号化は、複数のチャネル信号を組み合わせた組合せ信号を符号化し、パラメータの形態における2つ以上のチャネル間の関係を符号化し得る。パラメータは、チャネル間時間差パラメータ、および/またはチャネル間レベル差パラメータ、および/またはチャネル間位相パラメータ、および/またはチャネル間相関パラメータを含み得る。
【0041】
言い換えれば、本発明のマルチチャネルオーディオ表現は、結果として生じる符号化オーディオ表現が、例えば、知覚されるパフォーマンスまたは任意の他の基準に関して有利な特性を有し得るように、基礎となる入力オーディオ表現を符号化するのにより適した符号化を選択的に使用することを有利に可能にし得る。
【0042】
一実施形態において、符号化マルチチャネルオーディオ表現は、パラメトリックマルチチャネル表現と個々の表現との間で切り替えることを(例えば、デコーダに)示すシグナリングをさらに含み得る。シグナリングは、例えば、符号化マルチチャネルオーディオ表現を復号している間に切り替えることを示し得る。
【0043】
さらに、マルチチャネルオーディオ符号化の方法が提供される。マルチチャネル符号化は、ステレオ、または2チャネル、または3チャネル以上のオーディオ符号化を含み得る。オーディオ符号化は、一般的なオーディオエンコーダ、または音声エンコーダ、またはスケーリングファクタを使用する変換領域符号化と線形予測係数ベースの符号化との間で切り替わるエンコーダによって実行され得る。符号化は、入力オーディオ表現に基づいて符号化オーディオ表現を提供する。方法は、入力オーディオ表現の特性に応じて、複数のチャネル、例えば、入力オーディオ表現のチャネルのパラメトリックマルチチャネル符号化と、複数のチャネル、例えば、入力オーディオ表現のチャネルの個別符号化との間で切り替えるステップを含む。
【0044】
パラメトリックマルチチャネル符号化は、複数のチャネル信号を組み合わせて組合せ信号を符号化し、パラメータの形態における2つ以上のチャネル間の関係を符号化し得る。パラメータは、チャネル間時間差パラメータ、および/またはチャネル間レベル差パラメータ、および/またはチャネル間位相パラメータ、および/またはチャネル間相関パラメータを含み得る。
【0045】
入力オーディオ表現の特性に応じてパラメトリックマルチチャネル符号化と個別符号化との間で切り替えることは、符号化を入力オーディオ表現の特性に適合させることを有利に可能にし得る。パラメトリックマルチチャネル符号化と個別符号化との間の選択的切り替えは、結果として生じる符号化オーディオ表現が、例えば、知覚されるパフォーマンスまたは任意の他のパフォーマンス基準に関して有利な特性を有し得るように、基礎となる入力オーディオ表現を符号化するのにより適した符号化を選択する結果となり得る。
【0046】
さらに、マルチチャネルオーディオ復号の方法が提供される。マルチチャネルオーディオ復号は、ステレオ、または2チャネル、または3チャネル以上のオーディオ復号を含み得る。オーディオ復号は、一般的なオーディオデコーダ、または音声デコーダ、またはスケーリングファクタを使用する変換領域復号と線形予測係数ベースの復号との間で切り替わるデコーダによって実行され得る。復号は、符号化オーディオ表現に基づいて、復号されたオーディオ表現を提供する。方法は、複数のチャネル、例えば、入力オーディオ表現のチャネルのパラメトリックマルチチャネル復号と、複数のチャネル、例えば、入力オーディオ表現のチャネルの個々の復号との間で切り替えるステップを含む。
【0047】
パラメトリックマルチチャネル復号について、複数のチャネル信号を組み合わせた組合せ信号が符号化され得、パラメータの形態における2つ以上のチャネル間の関係が符号化され得る。パラメータは、チャネル間時間差パラメータ、および/またはチャネル間レベル差パラメータ、および/またはチャネル間位相パラメータ、および/またはチャネル間相関パラメータを含み得る。
【0048】
パラメトリックマルチチャネル復号と個々の復号との間の切り替えは、復号(したがって、符号化も)入力オーディオ表現の特性に適合させることを有利に可能にする。パラメトリックマルチチャネル復号と個々の復号との間の選択的切り替えは、結果として生じる符号化オーディオ表現が、例えば、知覚されるパフォーマンスに関して有利な特性を有し得るように、基礎となる入力オーディオ表現を符号化するのにより適した符号化を選択することを可能にし得る。
【0049】
方法は、装置に関しても、本明細書で開示した特徴、機能、および詳細のいずれかによってオプションで補足することができる。方法は、そのような特徴、機能、および詳細によって、個別にまたは組み合わせてオプションで補足することができる。
【0050】
さらに、コンピュータプログラムがコンピュータ上で実行されるときに、上記で説明した方法のうちの1つを実行するためのコンピュータプログラムが提供される。
【0051】
本発明の実施形態について、添付図面を参照して以下で論じる。
【0052】
続いて、本発明による実施形態について、同封の図によって説明する。
【図面の簡単な説明】
【0053】
図1】一実施形態によるオーディオエンコーダのブロック概略図である。
図2】一実施形態によるオーディオデコーダのブロック概略図である。
図3】一実施形態による、符号化オーディオ表現を提供するための方法のフローチャートである。
図4】一実施形態による、復号されたオーディオ表現を提供するための方法のフローチャートである。
図5】一実施形態によるオーディオエンコーダのブロック概略図である。
図6】オーディオ信号および相関ピークの表現を示す図である。
図7】相関関数の表現を示す図である。
図8A】一実施形態によるオーディオエンコーダのブロック概略図である。
図8B】一実施形態によるオーディオエンコーダのブロック概略図である。
【発明を実施するための形態】
【0054】
1.図1によるオーディオエンコーダ
図1は、マルチチャネルオーディオエンコーダ100を概略的に示す。マルチチャネルオーディオエンコーダ100は、入力として入力オーディオ表現110を提供される。例えば、入力オーディオ表現110は、複数のチャネルを含み得る。マルチチャネルオーディオエンコーダ100は、出力として符号化オーディオ表現112を提供する。
【0055】
マルチチャネルオーディオエンコーダ100は、パラメトリックマルチチャネル符号化を実行するための機能ブロック120と、複数のチャネルの個別符号化を実行するための機能ブロック130とを備える。入力オーディオ表現110は、機能ブロック120および130の各々に提供される。機能ブロック120および130の各々の出力は、符号化オーディオ表現112がマルチチャネルオーディオエンコーダ100によって提供されるように、切り替え要素140によって選択的に切り替えられる。
【0056】
マルチチャネルオーディオエンコーダ100は、入力オーディオ表現110の特性に応じて、切り替え制御信号145を使用することによって切り替え要素140を制御する。制御信号145は、マルチチャネルオーディオエンコーダ100または任意の他の適切な手段内に含まれる切り替え制御を実行するためのオプションの機能ブロック150によって提供され得る。
【0057】
代替的に、または加えて、切り替え制御信号145はまた、ブロック120および130が選択的に無効化され得る(例えば、スイッチオフされ得る)ように、機能ブロック120および130のうちのいずれかに提供され得る。例えば、パラメトリックマルチチャネル符号化を実行するための機能ブロック120は、切り替え制御信号145が、複数のチャネルの個別符号化を実行するための機能ブロック130が入力オーディオ表現110を符号化するために使用されるべきであることを示す場合、切り替え制御信号145に基づいて無効化され得る。
【0058】
代替的には、複数のチャネルの個別符号化を実行するための機能ブロック130は、切り替え制御信号145が、パラメトリックマルチチャネル符号化を実行するための機能ブロック120が入力オーディオ表現110を符号化するために使用されるべきであることを示す場合、切り替え制御信号145に基づいて無効化され得る。
【0059】
オーディオエンコーダ100は、本明細書で開示される特徴、機能、および詳細のいずれかによって、個別にまたは組み合わせてオプションで補足することができる。
【0060】
2.図2によるオーディオデコーダ
図2は、マルチチャネルオーディオデコーダ200を概略的に示す。マルチチャネルオーディオデコーダ200は、入力として符号化オーディオ表現210を提供される。マルチチャネルオーディオデコーダ200は、復号されたオーディオ表現212を提供する。例えば、復号されたオーディオ表現212は、複数のチャネルを含み得る。
【0061】
マルチチャネルオーディオデコーダ200は、パラメトリックマルチチャネル復号を実行するための機能ブロック220と、複数のチャネルの個々の復号を実行するための機能ブロック230とを備える。符号化オーディオ表現210は、機能ブロック220および230の各々に提供される。機能ブロック220および230の各々の出力は、復号されたオーディオ表現212がマルチチャネルオーディオデコーダ200によって提供されるように、切り替え要素240によって選択的に切り替えられる。
【0062】
切り替え要素240は、例えば、符号化オーディオ表現210内に含まれる暗黙的または明示的なシグナリング(図示せず)によるコントローラである。
【0063】
オーディオデコーダ200は、明細書で開示される特徴、機能、および詳細のいずれかによって、個別にまたは組み合わせてオプションで補足することができる。
【0064】
3.図3による、符号化オーディオ表現を提供するための方法
図3は、マルチチャネルオーディオ符号化の方法300を概略的に示す。方法300は、入力オーディオ表現の特性に応じて、複数のチャネルのパラメトリックマルチチャネル符号化と複数のチャネルの個別符号化との間で切り替えるステップ310を含む。加えて、方法300は、符号化オーディオ表現が提供されるステップ320を含む。
【0065】
方法300は、装置のいずれか、例えば、本発明によるマルチチャネルエンコーダに関連して開示されているさらなる適切な活動をオプションで実行し得ることに留意されたい。
【0066】
4.図4による、符号化オーディオ表現を提供するための方法
図4は、マルチチャネルオーディオ復号の方法400を概略的に示す。方法400は、複数のチャネルのパラメトリックマルチチャネル復号と複数のチャネルの個々の復号との間で切り替えるステップ410を含む。加えて、方法400は、復号されたオーディオ表現が提供されるステップ420を含む。
【0067】
方法400は、任意の装置、例えば、本発明によるマルチチャネルデコーダに関連して開示されるさらなる適切な活動をオプションで実行し得ることに留意されたい。
【0068】
5.図5によるオーディオエンコーダ
図5は、マルチチャネルオーディオエンコーダ500の一実施形態を概略的に示す。マルチチャネルオーディオエンコーダ500は、2つの入力オーディオ表現信号、すなわち、左チャネルに対応し、Lによって示されるオーディオ表現信号510aと、右チャネルに対応し、Rによって示されるオーディオ表現信号510bとを提供される。
【0069】
入力オーディオ表現信号510aおよび510bの各々は、それぞれ、機能ブロック520aおよび520bにおいて、オプションの周波数領域分析を受ける。機能ブロック520aおよび520bの各々は、時間領域における信号、すなわち、時間にわたる信号進化を取得し、周波数の範囲にわたる所与の周波数帯域内の信号の振幅および/または位相に関する信号に関する情報を提供する。機能ブロック520aおよび520bは、それぞれ、出力信号522aおよび522bを提供する。代替的に、機能ブロック520aおよび520bは、存在しなくてもよく、信号522aは、信号510aと同等であり得、信号522bは、信号510bと同等であり得る。
【0070】
信号522aおよび522bは、機能ブロック530に提供される。ブロック530は、信号530に対して相互相関演算を実行し、干渉する話者が入力オーディオ表現信号510aおよび510b内で検出されたかどうかを示す検出信号532を提供する。より具体的には、ブロック530は、信号522aおよび522bに対して、GCC-PHATとも呼ばれる一般化された相互相関位相変換を実行する。GCC-PHATは、例えば、ノイズフロアに対して有利に区別することができるピークを取得するために、信号スペクトル密度を正規化する重み付け関数を用いて相互相関演算を実行する。GCC-PHATは、その2つの入力信号間のタイムラグをパラメータとして有するその入力信号の類似性の尺度を示す値を提供する。結果として、GCC-PHAT動作の結果のピークを分析することによって、ブロック530は、両耳間時間差またはITDとも呼ばれるチャネル間時間差を決定し、干渉する話者がオーディオ表現信号510aおよび510b内に存在するかどうかを結論付ける。干渉する話者が信号510aおよび510b内に存在するかどうかを判定するために、ブロック530は、本発明の他の実施形態と関連して論じる有意性条件、安定条件、および/またはノイズ条件をオプションで使用し得る。信号532は、ITDの推定をさらに含み得る。
【0071】
信号532は、コントローラ540に提供される。コントローラ540は、入力として信号522aおよび522bも取得する。コントローラは、信号522a、522bと、ITDの推定値とを、ブロック530によって提供される検出信号に応じて、パラメトリックステレオコーダ550(すなわち、パラメトリックマルチチャネル符号化のための機能ブロック)またはL-Rコーディングブロック560(すなわち、個々のチャネルの符号化のための機能ブロック)に選択的に提供する。より具体的には、コントローラ540は、干渉する話者が信号510aおよび510b内に存在しないという指標を取得したことに応答して、ITD推定値と、信号522aおよび522bとを、パラメトリックステレオコーダ550に提供する。これに応答して、コーダ550は、マルチチャネルオーディオエンコーダ500の出力として、パラメトリックマルチチャネル符号化に従った符号化オーディオ表現552を提供する。代替的に、干渉する話者が信号510aおよび510b内に存在するという指標を取得したことに応答して、コントローラ540は、信号522aおよび522bをL-Rコーディングブロック560に提供する。これに応答して、コーディングブロック560は、個別符号化(例えば、左-右、L-Rコーディング)に従った符号化オーディオ表現562を提供する。
【0072】
パラメトリックステレオコーダ550は、[1]または[2]に記載されているように符号化を実装し得る。パラメトリックステレオコーディング、例えば、MPEG-4規格Part3、またはHE-AAC v2を定義する適切な規格(またはむしろ規則のセット)がコーダ550によって使用され得ることが理解される。コーディングブロック560は、[4]に記載されているようにエンコーダを実装し得る。複数のチャネルの個別符号化を定義する適切な規格(または規則のセット)がコーディングブロック560によって使用され得ることが理解される。コーディングブロック560は、ジョイントステレオコーディング、M/Sステレオコーディングなども実装し得る。
【0073】
図6は、例えば、上記の図5に関連して論じたブロック530に含まれるような、GCC-PHAT機能ユニットの例示的な動作を視覚化する。より具体的には、図6は、GCC-PHATの値と、1つまたは複数のピーク値を決定し、それに基づいて干渉する話者を検出することに関するそれらの分析の2次元的提示である。図6に示す提示の横軸は、フレーム単位で表される時間の進行に関する。以下の説明の目的のために、それぞれの範囲の終点である、t1、t2などの例示的な時点を識別することによって、異なる時間範囲が定義される。図5に示す提示の縦軸は、GCC-PHATのパラメータ、すなわち、GCC-PHATを実行する機能ユニットに提供される2つの信号間のタイムラグ(例えば、ITDとして表される)に関する。図6における2次元平面上の色は、所与のフレームおよび所与のタイムラグに対するGCC-PHATの値に対応する。
【0074】
t1とt2との間の例示的な時間範囲(すなわち、フレーム範囲)において、GCC-PHAT機能ユニットによって決定された複数の主ピーク(各々が十字を使用することによって示され、図6の凡例では「ピーク1」として示されている)が示されている。GCC-PHAT機能ユニットは、本発明の1つまたは複数の実施形態に従って主ピークを決定し得る。t1~t2の範囲において、GCC-PHAT機能ユニットによって決定された複数の従属的ピーク(各々が円を使用することによって示され、図6の凡例では「ピーク2」として示されている)も示されている。GCC-PHAT機能ユニットは、本発明の1つまたは複数の実施形態に従って従属的ピークを決定し得る。
【0075】
t1~t2の範囲において、GCC-PHAT機能は、そこに含まれる複数の主ピーク610が、例えば、ピーク610の位置が最大で特定のしきい値だけ(連続するフレームの範囲にわたって)互いに(タイムラグに関して)異なっていることを考慮して、安定条件を満たすと判定し得る。さらに、GCC-PHAT機能は、t1~t2の範囲内に含まれる複数の従属的ピーク615が、例えば、ピーク620の位置がt2に隣接するt1~t2の範囲の部分における少なくとも連続するフレームの範囲についていくらかの散乱を示しているにもかかわらず、(主ピーク610と同じ、または異なってパラメータ化された)安定条件を満たすと判定し得る。結果として、GCC-PHAT機能(または、例えば、ブロック530内に含まれる異なる機能ユニット)は、安定条件がピーク610および615について満たされていることを考慮して、干渉する話者が存在すると判定し得る。
【0076】
別の例示的なt3~t4の範囲において、主ピーク620は、t1~t2の範囲内と同様のパターンを示す。したがって、安定条件の成就は、GCC-PHAT機能によって決定され得る。複数の従属的ピーク625について、GCC-PHAT機能は、散乱パターン(すなわち、連続するフレームの少なくともいくつかのサブ範囲について、タイムラグに関して著しく異なる位置)を考慮して、ピーク625のうちの少なくともいくつかが安定条件を満たさないと判定し得る。結果として、干渉する話者の不在は、2つの評価された安定条件のうちの1つのみが満たされているという観点で決定され得る。
【0077】
t5~t6ならびにt6~t7の例示的な範囲について、決定は、主ピークの安定性および従属的ピークの散乱の観点から、t3~t4の範囲における決定に対応し得る。t8~t9の例示的な範囲について、決定は、主ピークおよび従属的ピークの安定性の観点から、t1~t2の範囲に対して行われた決定に対応し得る。
【0078】
図7は、例示的な単一のフレーム、例えば、図6に示すフレームのうちの1つについてのGCC-PHATの進化を示す。図7において、横軸は、タイムラグパラメータに関連し、図6の縦軸に対応する。図7の縦軸は、相互相関の値、例えば、GCC-PHAT機能によって提供される値に関連する。図7における進化について、主ピーク(ピーク1、710として示す)および従属的ピーク(ピーク2、720として示す)が、GCC-PHAT機能によって決定される。主ピーク710と従属的ピーク720の両方は、それらのそれぞれの振幅(すなわち、相互相関値)が(例えば、本発明の1つまたは複数の実施形態に従って定義される)しきい値よりも大きいノイズフロア730の相互相関値に対する距離を有することを考慮して、本発明の1つまたは複数の実施形態に従って、ノイズ条件を持たすと判定され得る。
【0079】
加えて、ピーク710および720は、(例えば、本発明の1つまたは複数の実施形態に従って定義される)しきい値よりも大きい、タイムラグに関する、すなわち横軸に沿った距離を有することを考慮して、本発明の1つまたは複数の実施形態に従って、(例えば、GCC-PHAT機能または図5のブロック530によって)有意性条件を満たすと判定され得る。
【0080】
また、ピーク710および720は、各々が(例えば、本発明の1つまたは複数の実施形態に従って定義される、具体的には、例えば、以下のオプション1においてピーク(1)に対して定義される値0.15よりも大きい)しきい値よりも大きい相互相関値を有することを考慮して、本発明の1つまたは複数の実施形態に従って、(例えば、GCC-PHAT機能または図5のブロック530によって)異なる例示的な有意性条件を満たすと判定され得る。
【0081】
さらに、ピーク710および720は、ピーク710および720の相互相関値の関係が(例えば、本発明の1つまたは複数の実施形態に従って定義され、定数c=0.8を有する例を使用することによって以下に説明する)しきい値未満の比率を有することを考慮して、本発明の1つまたは複数の実施形態に従って、(例えば、GCC-PHAT機能または図5のブロック530によって)異なる例示的な有意性条件を満たすと判定され得る。
【0082】
本発明は、GCC-PHATを使用することに限定されず、むしろ、相互相関値の指標を提供することができる任意の技法、すなわち、任意の適切な相互相関技法だけでなく、例えば、ニューラルネットワークを含む適切なパターン認識技法も使用され得ることに留意されたい。
【0083】
以下では、本発明のさらなる実施形態について説明する。以下に説明する実施形態は、代替案を構成し得るか、または上記で開示した態様に加えて考慮され得る。以下に説明する実施形態は、ステレオマイクロフォン構成を用いてキャプチャされた干渉する話者を検出することに関する。以下に説明する実施形態は、例えば、通信用途に使用することができるステレオフォニック音声コーデックのための有用なツールである。
【0084】
上記の説明を参照すると、いくつかの特定のケースについて、2つのステレオチャネルの離散的なコーディングが、よりよいパフォーマンスのために好ましい場合がある。干渉する話者のケースについて、有利な実施形態は、パラメトリックモデル(モードA)と離散モデル(モードB)との間で切り替え得る。さらなる態様は、モードAからモードBに、およびモードBからモードAにいつ切り替えるかを自動的に検出することができることに関する。以下の考慮事項は、一般に、第1のケース、すなわちモードAからモードBにいつ切り替えるかに適用される。
【0085】
例示的な解決策は、2人の話者が異なるITD(両耳間時間差)を有し、2つのITD間の差が大きい(有意である)場合の重要なケース(例えば、最も重大なケースのみ)を考慮する。
【0086】
いくつかの実施形態において、コーデックがITD推定器をすでに有し、このITD推定器が、例えば、[3]に記載のようにGCC-PHAT(一般化相互相関位相変換)に基づくと想定され得る。そのような推定器の基本原理は、GCC-PHATにおいてピークを検出することであり、このピークは、ステレオ信号のITDに対応する。しかしながら、2人の話者が同時に話しており、彼らが2つの異なるITDを有する場合、ほとんどの場合、GCC-PHATにおいて2つのピークが存在する。いくつかの実施形態は、GCC-PHATにおいて1つのピークのみが存在する(モードA)か、または互いに離れた2つのピークが存在する(モードB)かを検出する。
【0087】
一実施形態において、開始点は、モードAであり得る。ステレオ信号のGCC-PHATは、あるいは、クロススペクトルの平滑化バージョン、または任意の他の処理を使用して算出され得る。GCC-PHATの主ピークは、推定され得る。これは、ほとんどの場合、GCC-PHATの絶対値の最大値に対応し得る。代替的に、または加えて、より安定したITD推定を行うために、なんらかのヒステリシスメカニズムが適用され得る。主ピークから十分に離れているGCC-PHATの部分が選択され得る。主ピークとその部分の境界との間の距離は、特定のしきい値を超えている場合がある。選択された部分内に第2のピークが見つかる場合があり、これは、例えば、GCC-PHATの絶対値の最大値であり得る。第2のピークの値が特定のしきい値を超えている場合、例えば、peak(2)>c*peak(1)であり、peak(1)およびpeak(2)が、それぞれ、第1および第2のピークの値であり、cが定数(例えば、c=0.8)または信号適応的な変数であり得る場合、GCC-PHATは、2つの有意なピークを含むとみなされ得、モードBへの切り替えが発生し得る。それ以外の場合、有意な第2のピークは存在せず、モードAが使用され続ける。
【0088】
さらに、実施形態/オプションについて以下に開示する。
【0089】
オプション1において、ノイズの多いフレームにおける切り替えることを回避するために、ピーク(1)がしきい値(例えば、0.15)よりも上であることをチェックすることが実行され得る。
【0090】
オプション2において、2つの上記の実施形態の両方の条件は、2つの連続するフレームにおいて検証される必要があり得る。これは、不安定な信号における切り替えを回避し得る。
【0091】
オプション3において、2つの連続するフレームのピーク(2)が、互いに近づけられる必要があり得る(例えば、それらの差は、4未満であり得る)。これは、不安定な信号における切り替えを回避し得る。
【0092】
オプション4において、前のフレームのSADフラグは、1(アクティブ信号であることを意味する)でなければならない。これは、信号部分の第1のフレームにおける切り替えを回避し得る。
【0093】
オプション5において、ピーク(1)は、あるフレームから次のフレームへ、大きい差で急激に変化し得る。その場合、第2のピークのチェックが、必要とされない場合があり、第2のスピーカが話し始めてモードBへの切り替えが起こる可能性があるとみなされ得る。
【0094】
いくつかの実施形態において、GCC-PHAT検出器が、上記の実施形態のうちの1つまたは複数において説明されているように干渉する話者が存在するかどうかを判定した後、干渉する話者が検出されない場合、システムは、そのデフォルトのパラメトリックモードのままであり、推定されたITD値は、例えば、[1]に記載されているように、パラメトリック処理に転送され得る。干渉する話者が検出された場合、システムは、L-Rコーディング方式に切り替え得、例えば、EVSコーデック[4]を使用して各チャネルを個別にコーディングし得る。
【0095】
説明した実施形態は、パラメトリックステレオコーディングシステムから離散システムに切り替えることが好ましい場合がある特定の条件下で、ステレオ音声信号の干渉音声セグメントを検出することを達成する。そのようにして、コーデックの知覚品質は、改善され得る。パラメトリックコーディング方式について、いくつかのコーデック内にチャネル間時間差(ITD)検出器が存在する場合がある。結果として、追加の複雑さのオーバヘッド、または追加の遅延が許容され得る場合がある。
【0096】
以下の態様は、さらに開示され、個別にまたはオプションで本明細書で開示される特徴、機能、および詳細のいずれかと組み合わせて使用することができる。
【0097】
態様1:ステレオ音声コーディングシステムであって、コーデックは、分類器/信号分析器が、そうするように条件が満たされていると判定すると、パラメトリックコーディングモード(モードA)から離散L-Rコーディングモード(モードB)に切り替え得る、ステレオ音声コーディングシステム。
【0098】
態様2:ステレオ音声コーディングシステムであって、コーデックは、分類器/信号分析器が、パラメトリックコーディング方式の基礎となるモデルを信号が破っていることを検出すると、パラメトリックコーディングモード(モードA)から離散L-Rコーディングモード(モードB)に切り替え得る、ステレオ音声コーディングシステム。
【0099】
態様3:ステレオ音声コーディングシステムであって、コーデックは、システムが干渉する話者を検出すると、パラメトリックコーディングモード(モードA)から離散L-Rコーディングモード(モードB)に切り替える、ステレオ音声コーディングシステム。
【0100】
態様4:ステレオ音声コーディングについて、干渉する音声セグメントを検出するために、第1の最大絶対値(ピーク)と第2の最大絶対値とを検出するためにPHATの一般化相互相関を使用し、第2の最大絶対値に適用される条件に依存する。
【0101】
上記で論じた図6は、上記で説明したステップ/態様/実施形態の視覚化であり、信号の散乱プロットがプロットされており、図7において、単一フレーム表現のズームが示されている。
【0102】
6.図8によるオーディオエンコーダ
図8は、本発明の一実施形態によるオーディオエンコーダ800のブロック概略図である。
【0103】
オーディオエンコーダ800は、例えば、複数のチャネル(例えば、チャネルL、R)を含み得る入力オーディオ表現810を受信する。オーディオエンコーダ800は、例えば、入力オーディオ表現のオーディオコンテンツを表し得る符号化オーディオ表現812を提供する。
【0104】
オーディオエンコーダ800は、第1の周波数領域分析820をオプションで備え、第1の周波数領域分析820は、例えば、入力オーディオ表現の第1のチャネル810aを受信し、それに基づいて、この第1のチャネル810aの周波数領域表現822を提供する。オーディオエンコーダ800は、第2の周波数領域分析824をオプションで備え、第2の周波数領域分析824は、例えば、入力オーディオ表現の第2のチャネル810bを受信し、それに基づいて、この第2のチャネル810bの周波数領域表現826を提供する。例えば、第1および第2の周波数領域分析は、例えば、短時間フーリエ変換、MDCT変換、フィルタバンクなどを使用して、入力オーディオ表現のチャネルの周波数領域表現またはスペクトル領域表現822、826を提供し得る。
【0105】
オーディオエンコーダ800はまた、パラメトリックマルチチャネル符号化830と、複数のチャネルの個別符号化834とを含む。例えば、マルチチャネル符号化830は、入力オーディオ表現のチャネル810a、810b、または代替的に、周波数領域分析820、824によって提供される周波数領域表現822、826を受信し得る。しかしながら、代替的に、マルチチャネル符号化は、入力オーディオ表現のチャネルの異なる表現を受信し得る。パラメトリックマルチチャネル符号化は、パラメトリックマルチチャネル表現832に入力された2つ以上のチャネルの符号化表現を提供し、入力信号表現のチャネルは、例えば、入力信号表現のすべてのチャネル(またはチャネルのうちの少なくともいくつか、例えば、チャネルのうちの2つ以上)において類似している信号成分を表す組合せ信号(例えば、ダウンミックス信号)を使用し、入力信号表現の2つ以上のチャネル間の類似性および/または差異を、例えば、パラメータ値の形態において記述するパラメトリック側情報を使用して表され得る。例えば、パラメトリック側情報は、チャネル間レベル差値、および/またはチャネル間位相差値、および/またはチャネル間時間差値、および/またはチャネル間相関値、および/または入力オーディオ表現のチャネル間の関係を記述する任意の他のパラメータを含み得る。パラメトリック側情報は、好ましくは、オーディオデコーダの側において、組合せ信号に基づいて入力オーディオ表現のチャネルを少なくとも近似的に再構築するために使用可能であり得る。例えば、パラメトリック側情報のパラメータ値は、異なる時間周波数範囲または異なるスペクトルビンについて個別に提供され得る。例えば、パラメトリックマルチチャネル符号化は、例えば、MPEG4 High-Efficiency Advanced Audio Coding(HE-AAC)の拡張として使用される、「パラメトリックステレオ」概念を使用し得、入力オーディオ表現のチャネルの対応する表現を提供し得る。
【0106】
オーディオエンコーダ800は、複数のチャネルの個別符号化834も備え、例えば、入力オーディオ表現の異なるチャネルは、例えば、スペクトル値の個別符号化を使用して個別に符号化される。したがって、個別符号化834は、入力オーディオ表現の異なるチャネルに関連付けられた別個の符号化情報836を提供し、符号化情報836は、オーディオデコーダの側における入力オーディオ表現のチャネルの別個の復号を可能にする。
【0107】
さらに、パラメトリックマルチチャネル表現832または個別符号化情報のどちらが符号化オーディオ表現812内に含まれるかを、オーディオエンコーダの制御ブロックによって選択することができるように、オーディオエンコーダは、パラメトリックマルチチャネル符号化830と個別符号化834との間で切り替えるように構成される。この問題に関して、パラメトリックマルチチャネル符号化830と個別符号化834の両方が所与のフレームに対して実行されるかどうかは無関係であり、パラメトリックマルチチャネル符号化によって提供される符号化表現832もしくは個別符号化によって提供される符号化表現836のどちらが符号化オーディオ表現812に実際に含まれるか、またはパラメトリックマルチチャネル符号化もしくは個別符号化のいずれかのみが所与のフレームに対して選択されるかどうかの決定がなされる(後者の解決策は、典型的にはより効率的であるが、追加の遅延を導入する可能性がある)。
【0108】
以下では、パラメトリックマルチチャネル符号化830または個別符号化834のどちらが使用されるべきか(または同等に、パラメトリックマルチチャネル表現832または入力オーディオ表現の異なるチャネルに関連する別個の符号化情報836のどちらがか)の選択がどのように符号化オーディオ表現812に含まれるべきかについて説明する。
【0109】
この目的のために、オーディオエンコーダ800は、非相関情報決定840を含み、非相関情報決定840は、例えば、入力オーディオ表現のチャネルの周波数領域表現822、826に基づいて、入力オーディオ表現の2つ以上のチャネル間の相関(例えば、相互相関)を決定し得る。しかしながら、相関情報決定840は、例えば、入力オーディオ表現のチャネルの時間領域表現に基づいて動作し得ることに留意すべきである。さらに、相関情報決定は、入力オーディオ表現の異なる周波数範囲または時間周波数部分に対して別個の相関情報842を提供し得ることに留意すべきである。したがって、入力オーディオ表現の後続のフレームに対して別個の相関情報842が存在するだけでなく、別個の周波数範囲または周波数ビンに対して別個の相関情報842が存在することさえあり得る。また、相関情報842は、異なる相関ラグ値(ラグまたはタイムラグとも呼ばれる)に対して異なる相関値を含む(例えば、時間周波数部分ごとの)相関関数の形態をとり得ることに留意すべきである。
【0110】
例えば、相関情報は、特に意味のある結果をもたらすことがわかっている、いわゆる「GCC-PHAT」技法を使用して取得され得る。しかしながら、(相互)相関情報を決定するための異なる概念も使用され得る。
【0111】
オーディオエンコーダ800は、主ピーク決定850も含み、主ピーク決定850は、相互相関情報に基づいて、入力オーディオ表現の2つ以上のチャネル間の相互相関の主ピーク(例えば、GCC-PHATの絶対値の最大値)を決定し、主ピークを記述する情報852(例えば、ピークチャネル間時間差、またはピーク値、またはピーク強度を含む)を提供するように構成され得る。例えば、主ピーク決定850は、どの相関ラグ(または同等に、どのタイムラグ、または同等に、どのチャネル間時間差)について相互相関情報(または相互相関情報によって表される相互相関関数)が(グローバル)最大値を含むかを判定し得る。オプションで、主ピーク決定器は、ピーク値(またはピーク強度)自体も決定し得る。しかしながら、主ピーク決定器は、必ずしも相互相関関数の最大値を主ピークとして識別する必要はないことに留意すべきである。むしろ、主ピーク決定器は、例えば、「散発的な」または「不安定な」ピークを考慮せず、安定したピーク(例えば、複数のフレームにわたって安定しており、「有意」として分類され得る、例えば、しきい値よりも大きいか、または少なくとも所定の値だけノイズフロアよりも大きいピーク)を主ピークとして識別し得る(例えば、より安定したITD推定を有するために、ヒステリシスメカニズムが使用され得る)。すべて当業者に知られている、相関関数のピークまたは主ピークを識別するための多くの異なるアルゴリズムを使用することができることに留意すべきである。
【0112】
オプションで。オーディオデコーダは、ピークチェッカー852も備え、ピークチェッカー852は、主ピーク情報852を受信し、信頼性について主ピーク情報をチェックする。例えば、ピークチェッカーは、経時的な(例えば、ピークITDおよび/またはピーク強度の)大きい変動を含む、および/または小さすぎるピーク強度を示す、信頼できない主ピーク情報を識別し得る。例えば、ノイズの多いフレームにおける切り替えを回避するために、主ピークの値が特定のしきい値を超えているかどうかがチェックされ得る。オプションで、主ピークが複数のフレームにわたって(例えば、ピーク値に関して)1つまたは複数の条件を満たすかどうかも判定され得る。結論として、そのような信頼できない主ピーク情報は、抑制され得、および/またはデフォルトの情報によって置き換えられ得、および/またはシグナリングされ得る。
【0113】
さらに、オーディオデコーダは、第2のピーク決定860を備え得、第2のピーク決定860は、相互相関情報842に基づいて、入力オーディオ表現の2つ以上のチャネル間の相互相関の第2のピークを決定し、第2のピークを記述する情報862(例えば、ピークチャネル間時間差、またはピーク値、またはピーク強度を含む)を提供するように構成され得る。例えば、第2のピークは、主ピークのピーク値の後の2番目に大きいピーク値を含む、相互相関情報842によって記述される相互相関関数の極大値であり得る。加えて、相互相関情報の極大値が第2のピークとして識別されるために、極大値が、主ピークに関して、および/または相互相関関数のノイズフロアに関して1つまたは複数の所定の条件を満たすことがオプションで必要とされ得る。例えば、第2のピーク決定は、主ピーク決定850からの主ピークに関する情報を受信し、第2のピークを識別するときにこの情報を考慮し得る。例えば、第2のピーク決定860は、第2のピーク候補(例えば、相互相関関数の極大値)の距離が主ピークからの(例えば、相関ラグまたはITDに関する)所定の距離条件を含むかどうかをチェックし得、例えば、第2のピークが主ピークからの所定の最小距離を含むことが要求され得る。代替的に、第2のピークの決定は、「主ピークから離れた」、例えば、ITDに関して所定の距離だけ主ピークから離間されたGCC-PHATの(選択された)部分に基づいて実行され得、例えば、GCC-PHATの選択された部分におけるGCC-PHATの絶対値の(絶対)最大値が、第2のピークとして識別され得る。
【0114】
代替的に、または加えて、第2のピーク決定は、第2のピーク候補が(例えば、主ピークおよび第2のピークのピーク値間の関係に関して)所定のピーク値条件を満たすかどうかをチェックし得る。例えば、第2のピークの値は、主ピークの値に対して定義され得る特定のしきい値を超えることを必要とされ得る。
【0115】
また、第2のピーク決定は、第2のピーク候補のピーク値が相互相関情報のノイズフロアを十分に上回っているかどうかをチェックし得る。
【0116】
したがって、第2のピーク決定860は、第2のピークとして識別されるための要件を満たす第2のピークが存在するかどうかを決定し、(例えば、相関ラグ、および/またはITD、および/またはピーク値、および/またはピーク強度に関して)第2のピークを記述する第2のピーク情報862を提供し得る。オプションで、第2のピーク情報は、条件を満たす第2のピークが存在しないことを示し得る。
【0117】
オプションで、オーディオデコーダは、第2のピーク有意性評価864も備え得、第2のピーク有意性評価864は、第2のピーク情報862を受信し、第2のピーク情報862によって記述された第2のピークが有意および/または信頼できるかどうかを判定し得る。例えば、第2のピーク有意性評価は、第2のピークが複数のフレームにわたって1つまたは複数の条件を満たすかどうかをチェックし得る。例えば、第2のピーク有意性評価は、第2のピークが複数のフレームについて(例えば、主ピークに関連する)特定のしきい値を超えているかどうかを判定し得る。代替的に、または加えて、第2のピーク有意性評価は、第2のピークの相関ラグ値またはITD値が2つ以上の(後続の)フレームにわたって十分に近いかどうかをチェックし得る。しかしながら、第2のピークの他の条件もオプションでチェックされ得る。
【0118】
主ピークチェック854に関して説明した機能は、主ピーク決定850にオプションで統合され得ることに留意すべきである。また、第2のピーク有意性評価の機能は、第2のピーク決定860にオプションで含まれ得る。また、主ピークを記述する情報856と第2のピークを記述する情報866とを決定するときに、上述の条件のうちのいくつかもしくはすべて、または追加の条件がチェックされ得ることに留意すべきである。
【0119】
さらに、主ピークを記述する情報856は、有効な主ピークが見つかったかどうかのみをオプションで示し得ることに留意すべきである。また、第2のピークを記述する情報866は、有効な第2のピークが見つかったかどうかのみをオプションで示し得る。しかしながら、情報856、866は、ピークに関する詳細、例えば、相関ラグ、および/またはITD、および/またはピーク値もオプションで記述し得る。
【0120】
オーディオエンコーダ800は、しきい値よりも大きい主ピークの相関ラグまたはITDの変化を検出し、そのような変化が存在するかどうかを記述する情報872を提供する検出870をオプションで備え得る。
【0121】
オーディオエンコーダ800は、切り替え決定880も備え、切り替え決定880は、入力オーディオ表現に関連付けられたパラメトリックマルチチャネル表現832または別個の符号化情報836のどちらが符号化オーディオ表現に含まれるべきかを判定するように構成される。
【0122】
単純なケースでは、オーディオエンコーダ800は、有意な(または有効な)第2のピークが利用可能であるかどうかを単にチェックし得る。単一のピーク(すなわち、主ピーク)のみが存在する場合、パラメトリックマルチチャネル符号化830が使用され得る(または、パラメトリックマルチチャネル表現832が符号化オーディオ表現に含まれ得る)。第2のピークを記述する情報866が、有意な(または有効な)第2のピークが存在することを示す場合、切り替え決定は、個別符号化834を使用すること(または、入力オーディオ表現の異なるチャネルに関連付けられた別個の符号化情報836を符号化オーディオ表現に含めること)を決定し得る。
【0123】
しかしながら、切り替え決定は、どの情報が符号化オーディオ表現に含まれるべきかを決定するための1つまたは複数の追加の基準をオプションで使用し得る。
【0124】
例えば、切り替え決定は、(所定のまたは可変の)しきい値よりも大きい主ピークの変化が存在するかどうかをオプションで考慮し得、切り替え決定は、しきい値よりも大きい主ピークの変化が存在することがわかったこと(これは、例えば、情報872によってシグナリングされ得る)に応答して、個別符号化834を使用するように(または、入力オーディオ表現の異なるチャネルに関連付けられた別個の符号化情報836を符号化オーディオ表現に含めるように)切り替え得る。
【0125】
別の例として、切り替え決定は、前のフレームがアクティブであったかどうかを示す指標(例えば、SADフラグ)をオプションで考慮し得る。例えば、切り替え決定が、前のフレームが非アクティブであったことを見出した場合、切り替えは、切り替え決定によって選択的に抑制され得る。
【0126】
しかしながら、切り替え決定はまた、入力オーディオ表現の他の信号特性に関する情報を評価し、それに基づいて、どの情報が符号化オーディオ表現に含められるべきかの決定をオプションで行い得る。
【0127】
結論として、オーディオエンコーダ800は、入力オーディオ表現の特性の分析に基づいて(例えば、「有意な」または「有効な」ピークが相互相関関数内にどれだけ存在するかの判定に基づいて)例えば、フレームごとに、パラメトリックマルチチャネル表現832、または入力オーディオ表現の異なるチャネルに関連付けられた別個の符号化情報836のどちらを符号化オーディオ表現に含めるかを決定する。
【0128】
しかしながら、異なる機能ブロックへの機能の特定の分散は、必須ではないことに留意すべきである。むしろ、必要に応じて、機能の一部またはすべてを、単位の機能ブロックに組み合わせることができる。
【0129】
また、オーディオエンコーダ800は、本明細書で開示される特徴、機能、および詳細のいずれかによって、個別にまたは組み合わせてオプションで補足することができることに留意すべきである。
【0130】
また、本明細書で開示される特徴、機能、および詳細のいずれかを、個別にまたは組み合わせて、本明細書で開示される実施形態のいずれかにオプションで導入することができる。
【0131】
7.実装形態の代替案
いくつかの態様について、装置の文脈において説明してきたが、これらの態様が対応する方法の説明も表すことは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。類似して、方法ステップの文脈で説明した態様は、対応する装置の対応するブロック、またはアイテム、または特徴の説明も表す。方法ステップのうちのいくつかまたはすべては、例えば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路などのハードウェア装置によって(またはそれらを使用することによって)実行され得る。いくつかの実施形態において、最も重要な方法ステップのうちの1つまたは複数は、そのような装置によって実行され得る。
【0132】
本発明の符号化オーディオ信号は、デジタル記憶媒体上に記憶することができ、またはワイヤレス伝送媒体もしくはインターネットなどの有線伝送媒体などの伝送媒体において伝送することができる。
【0133】
特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアにおいて実装することができる。実装形態は、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協働する(または協働することができる)電子的に読み取り可能な制御信号が記憶されているデジタル記憶媒体、例えば、フロッピーディスク、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM、またはFLASH(登録商標)メモリを使用して実行することができる。したがって、デジタル記憶媒体は、コンピュータ可読であり得る。
【0134】
本発明によるいくつかの実施形態は、本明細書で説明した方法のうちの1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に可読な制御信号を有するデータキャリアを備える、
【0135】
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されたときに方法のうちの1つを実行するために動作可能である。プログラムコードは、例えば、機械可読キャリア上に記憶され得る。
【0136】
他の実施形態は、機械可読キャリア上に記憶された、本明細書で説明した方法のうちの1つを実行するためのコンピュータプログラムを備える。
【0137】
したがって、言い換えれば、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で実行されたときに、本明細書で説明した方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0138】
したがって、本発明の方法のさらなる実施形態は、本明細書で説明した方法のうちの1つを実行するためのコンピュータプログラムが記録されたデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、または記録された媒体は、典型的には、有形および/または非遷移的である。
【0139】
したがって、本発明の方法のさらなる実施形態は、本明細書で説明した方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、通信接続を介して、例えば、インターネットを介して転送されるように構成され得る。
【0140】
さらなる実施形態は、本明細書で説明した方法のうちの1つを実行するように構成されるか、または適合された処理手段、例えば、コンピュータ、またはプログラム可能な論理デバイスを備える。
【0141】
さらなる実施形態は、本明細書で説明した方法のうちの1つを実行するためのコンピュータプログラムがインストールされたコンピュータを備える。
【0142】
本発明によるさらなる実施形態は、本明細書で説明した方法のうちの1つを実行するためのコンピュータプログラムを受信機に(例えば、電子的または光学的に)転送するように構成された装置またはシステムを備える。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを備え得る。
【0143】
いくつかの実施形態において、本明細書で説明した方法の機能のうちのいくつかまたはすべてを実行するために、プログラム可能な論理デバイス(例えば、フィールドプログラマブルゲートアレイ)が使用され得る。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書で説明した方法のうちの1つを実行するために、マイクロプロセッサと協働し得る。一般に、方法は、好ましくは、任意のハードウェア装置によって実行される。
【0144】
本明細書で説明した装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組合せを使用して実装され得る。
【0145】
本明細書で説明した装置、または本明細書で説明した装置の任意の構成要素は、少なくとも部分的にハードウェアおよび/またはソフトウェアにおいて実装され得る。
【0146】
本明細書で説明した方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組合せを使用して実行され得る。
【0147】
本明細書で説明した方法、または本明細書で説明した装置の任意の構成要素は、少なくとも部分的にハードウェアおよび/またはソフトウェアにおいて実行され得る。
【0148】
上記で説明した実施形態は、本発明の原理の単なる例示である。本明細書に記載の配置および詳細の修正および変形は、当業者には明らかであることが理解される。したがって、差し迫った特許の請求項によってのみ制限され、本明細書における実施形態の記述および説明として提示した特定の詳細によっては制限されないことが意図されている。
(参考文献)
【符号の説明】
【0149】
100 マルチチャネルオーディオエンコーダ、オーディオエンコーダ
110 入力オーディオ表現
112 符号化オーディオ表現
120 機能ブロック
130 機能ブロック
140 切り替え要素
145 切り替え制御信号
150 機能ブロック
200 マルチチャネルオーディオデコーダ、
210 符号化オーディオ表現
212 復号されたオーディオ表現
220 機能ブロック
230 機能ブロック
240 切り替え要素
500 マルチチャネルオーディオエンコーダ
510a オーディオ表現信号、入力オーディオ表現信号、信号
510b オーディオ表現信号、入力オーディオ表現信号、信号
520a 機能ブロック
520b 機能ブロック
522a 出力信号、信号
522b 出力信号、信号
530 機能ブロック、ブロック
532 検出信号、信号
540 コントローラ
550 パラメトリックステレオコーダ、コーダ
552 符号化オーディオ表現
560 L-Rコーディングブロック、コーディングブロック
562 符号化オーディオ表現
610 主ピーク
615 従属的ピーク
710 主ピーク
720 従属的ピーク
730 ノイズフロア
800 オーディオエンコーダ
810 入力オーディオ表現
810a 第1のチャネル、チャネル
810b 第2のチャネル、チャネル
812 符号化オーディオ表現
820 第1の周波数領域分析、周波数領域分析
822 周波数領域表現、周波数領域表現、スペクトル領域表現
824 第2の周波数領域分析、周波数領域分析
826 周波数領域表現、周波数領域表現、スペクトル領域表現
830 パラメトリックマルチチャネル符号化、マルチチャネル符号化
832 パラメトリックマルチチャネル表現、符号化表現
834 個別符号化
836 別個の符号化情報、符号化情報
840 非相関情報決定、相関情報決定
842 別個の相関情報、相関情報、相互相関情報
850 主ピーク決定
852 情報、ピークチェッカー、主ピーク情報
854 主ピークチェック
856 情報
860 第2のピーク決定
862 情報、第2のピーク情報
864 第2のピーク有意性評価
866 情報
870 検出
872 情報
880 切り替え決定
図1
図2
図3
図4
図5
図6
図7
図8A
図8B