IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー・インターナショナル・アーベーの特許一覧

特表2024-543189シーンに基づく没入型オーディオコンテンツの符号化又は復号のための方法及び装置
<>
  • 特表-シーンに基づく没入型オーディオコンテンツの符号化又は復号のための方法及び装置 図1
  • 特表-シーンに基づく没入型オーディオコンテンツの符号化又は復号のための方法及び装置 図2
  • 特表-シーンに基づく没入型オーディオコンテンツの符号化又は復号のための方法及び装置 図3a
  • 特表-シーンに基づく没入型オーディオコンテンツの符号化又は復号のための方法及び装置 図3b
  • 特表-シーンに基づく没入型オーディオコンテンツの符号化又は復号のための方法及び装置 図4
  • 特表-シーンに基づく没入型オーディオコンテンツの符号化又は復号のための方法及び装置 図5a
  • 特表-シーンに基づく没入型オーディオコンテンツの符号化又は復号のための方法及び装置 図5b
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-19
(54)【発明の名称】シーンに基づく没入型オーディオコンテンツの符号化又は復号のための方法及び装置
(51)【国際特許分類】
   G10L 19/008 20130101AFI20241112BHJP
【FI】
G10L19/008 200
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024532160
(86)(22)【出願日】2022-11-30
(85)【翻訳文提出日】2024-06-20
(86)【国際出願番号】 EP2022083824
(87)【国際公開番号】W WO2023099551
(87)【国際公開日】2023-06-08
(31)【優先権主張番号】63/284,198
(32)【優先日】2021-11-30
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/410,587
(32)【優先日】2022-09-27
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.3GPP
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【弁理士】
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】ブルーン,シュテファン
(57)【要約】
本明細書は、Ambisonics入力オーディオ信号(101)を符号化する方法(500)を記載する。方法(500)は、入力オーディオ信号(101)をSPARエンコーダ(110、130)と、DirACアナライザ及びパラメータエンコーダ(120)とに供給するステップ(501)を含む。更に、方法(500)は、SPARエンコーダ(110、130)の出力(102、105)と、DirACアナライザ及びパラメータエンコーダ(120)の出力(104)とに基づいて、エンコーダビットストリーム(106)を生成するステップ(502)を含む。
【特許請求の範囲】
【請求項1】
Ambisonics入力オーディオ信号を符号化する方法であって、前記方法は、
前記入力オーディオ信号をSPARエンコーダとDirACアナライザ及びパラメータエンコーダとに提供するステップと、
前記SPARエンコーダの出力に基づいて、かつ前記DirACアナライザ及びパラメータエンコーダの出力に基づいて、エンコーダビットストリームを生成するステップと、
を含む方法。
【請求項2】
前記SPARエンコーダの出力が、SPARメタデータビットストリームと、SPARダウンミックスチャネル信号のセットを示すオーディオビットストリームとを含み、及び/又は、
前記DirACアナライザ及びパラメータエンコーダの出力は、DirACメタデータビットストリームを含む、請求項1に記載の方法。
【請求項3】
前記エンコーダビットストリームを生成するステップは、前記SPARメタデータビットストリーム、前記オーディオビットストリーム、及び前記DirACメタデータビットストリームを、共通エンコーダビットストリームに多重化するステップを含む、請求項2に記載の方法。
【請求項4】
前記エンコーダビットストリームの表現を、特に復号装置に送信し、及び/又は前記エンコーダビットストリームの表現を格納するステップ、を更に含む請求項1に記載の方法。
【請求項5】
前記方法は、
前記入力オーディオ信号を表す複数の周波数帯及び/又は複数の時間/周波数タイル内のサブバンドデータを生成するステップと、
前記複数の周波数帯及び/又は前記複数の時間/周波数タイルのサブセットを選択するステップと、
前記サブバンドデータに基づいて、周波数帯及び/又は時間/周波数タイルの選択された前記サブセットについて、特に周波数帯及び/又は時間/周波数タイルの選択された前記サブセットのみについて、前記DirACアナライザ及びパラメータエンコーダの出力、特にDirACメタデータビットストリームを決定するステップと、
を含む請求項1に記載の方法。
【請求項6】
前記方法は、
前記入力オーディオ信号の特性、特に前記入力オーディオ信号のノイズのような又は音色特性に関する特性に関する特性情報を決定するステップと、
前記特性情報に基づいて、周波数帯及び/又は時間/周波数タイルの前記サブセットを選択するステップと、
を含む請求項5に記載の方法。
【請求項7】
周波数帯及び/又は時間/周波数タイルの前記サブセットは、所定の閾値周波数以上の周波数の周波数範囲に対応する、請求項5に記載の方法。
【請求項8】
前記方法は、
分析フィルタバンクを使用して、前記入力オーディオ信号を表す複数の周波数帯及び/又は複数の時間/周波数タイル内のサブバンドデータを生成するステップと、
SPARメタデータを生成するために前記SPARエンコーダに、及びDirACメタデータを生成するために前記DirACアナライザ及びパラメータエンコーダに、前記サブバンドデータを供給するステップと、
を含む請求項1に記載の方法。
【請求項9】
前記方法は、
合成フィルタバンクを使用して、前記SPARエンコーダ内の1つ以上のダウンミックスチャネル信号を生成するステップ、
を含む請求項8に記載の方法。
【請求項10】
Ambisonics入力オーディオ信号を示すエンコーダビットストリームを復号する方法であって、前記方法は、
前記エンコーダビットストリームに基づいて、SPARデコーダを使用して中間Ambisonics信号を生成するステップと、
DirAC合成器を使用して中間Ambisonics信号を処理して、レンダリングのための出力オーディオ信号を提供するステップと、
を含む方法。
【請求項11】
前記方法は、
前記エンコーダビットストリームからSPARメタデータビットストリーム及びオーディオビットストリームを抽出するステップと、
前記SPARデコーダを使用して前記SPARメタデータビットストリーム及び前記オーディオビットストリームから前記中間Ambisonics信号を生成するステップと、
を含む請求項10に記載の方法。
【請求項12】
前記方法は、
オーディオデコーダを使用して前記オーディオビットストリームから再構成ダウンミックスチャネル信号のセットを生成するステップと、
アップミックスユニットを使用して、前記SPARメタデータビットストリームに基づいて、再構成ダウンミックスチャネル信号の前記セットを前記中間Ambisonics信号にアップミックスするステップと、
を含む請求項11に記載の方法。
【請求項13】
前記方法は、
前記エンコーダビットストリームからDirACメタデータビットストリームを抽出するステップと、
前記DirAC合成器を使用して前記DirACメタデータビットストリームに依存して前記中間Ambisonics信号を処理して、前記出力オーディオ信号を提供するステップと、
を含む請求項10に記載の方法。
【請求項14】
前記方法は、
DirACアナライザ内で前記中間Ambisonics信号を処理して、補助DirACメタデータを生成するステップと、
前記DirAC合成器を使用して前記補助DirACメタデータに依存して前記中間Ambisonics信号を処理して、前記出力オーディオ信号を提供するステップと、
を含む請求項10に記載の方法。
【請求項15】
前記方法は、
前記中間Ambisonics信号を表す複数の周波数帯及び/又は複数の時間/周波数タイル内のサブバンドデータを生成するステップと、
前記複数の周波数帯及び/又は前記複数の時間/周波数タイルのサブセットを選択するステップと、
前記サブバンドデータに基づいて、周波数帯及び/又は時間/周波数タイルの選択された前記サブセットについて、特に周波数帯及び/又は時間/周波数タイルの選択された前記サブセットのみについて、前記補助DirACメタデータを決定するステップと、
を含む請求項14に記載の方法。
【請求項16】
前記方法は、
前記入力オーディオ信号の及び/又は前記中間Ambisonics信号の特性、特に前記入力オーディオ信号の及び/又は前記中間Ambisonics信号のノイズのような又は音色特性に関する特性に関する特性情報を決定するステップと、
前記特性情報に基づいて、周波数帯及び/又は時間/周波数タイルの前記サブセットを選択するステップと、
を含む請求項15に記載の方法。
【請求項17】
周波数帯及び/又は時間/周波数タイルの前記サブセットは、所定の閾値周波数以下の周波数の周波数範囲に対応する、請求項15に記載の方法。
【請求項18】
前記方法は、
前記入力オーディオ信号の及び/又は前記中間Ambisonics信号のAmbisonics次数よりも大きいAmbisonics次数を有するDirAC合成器を使用して、前記中間Ambisonics信号からAmbisonics出力信号を生成するステップ、
を含む請求項10に記載の方法。
【請求項19】
前記出力オーディオ信号は、Ambisonics出力信号、バイノーラル出力信号、ステレオ又はマルチスピーカ出力信号のうちの少なくとも1つを含む、請求項10に記載の方法。
【請求項20】
前記方法は、
特に頭部追跡装置を使用して、リスナーの頭部の向きに関する方向データを決定するステップと、
前記方向データに応じて前記中間Ambisonics信号に対して回転操作を実行し、回転Ambisonics信号を生成するステップと、
前記DirAC合成器を使用して前記回転Ambisonics信号を処理して、前記リスナーにレンダリングするための前記出力オーディオ信号を提供するステップと、
を含む請求項10に記載の方法。
【請求項21】
前記方法は、
特に頭部追跡装置を使用して、リスナーの頭部の向きに関する方向データを決定するステップと、
前記エンコーダビットストリームからDirACメタデータを抽出するステップと、
前記方向データに応じて前記DirACメタデータに対して回転操作を実行し、回転DirACメタデータを生成するステップと、
前記DirAC合成器を使用して前記回転DirACメタデータに従い前記中間Ambisonics信号又は前記中間Ambisonics信号から導出されたAmbisonics信号を処理して、前記リスナーにレンダリングするための前記出力オーディオ信号を提供するステップと、
を含む請求項10に記載の方法。
【請求項22】
前記中間Ambisonics信号は、前記Ambisonics入力オーディオ信号よりも少ないチャネルを含み、及び/又は、
前記SPARデコーダは、前記Ambisonics入力オーディオ信号よりも少ないチャネルを含む中間Ambisonics信号を生成するために部分的アップミキシング動作を実行するために使用される、
請求項10に記載の方法。
【請求項23】
前記部分的アップミキシング動作は、複数のサブバンド及び/又は複数の時間/周波数タイルを有するフィルタバンクドメインにおいて実行され、
前記中間Ambisonics信号は、前記複数のサブバンドのすべて及び/又は前記複数の時間/周波数タイルのすべてについて、前記Ambisonics入力オーディオ信号よりも少ないチャネルを含み、又は、
前記中間Ambisonics信号は、前記複数のサブバンド及び/又は前記複数の時間/周波数タイルのサブセットに対してのみ、前記Ambisonics入力オーディオ信号よりも少ないチャネルを含む、
請求項22に記載の方法。
【請求項24】
前記方法は、
前記エンコーダビットストリームからオーディオビットストリームを抽出するステップと、
オーディオデコーダを使用して、前記オーディオビットストリームから再構成ダウンミックスチャネル信号のセットを生成するステップと、
分析フィルタバンクを前記再構成ダウンミックスチャネル信号のセットに適用して、前記再構成ダウンミックスチャネル信号のセットをフィルタバンクドメインに変換するステップと、
前記フィルタバンクドメイン内の前記再構成ダウンミックスチャネル信号のセットに基づいて、前記フィルタバンクドメインで表される中間Ambisonics信号を生成するステップと、
前記DirAC合成器を使用して前記フィルタバンクドメインで表される前記中間Ambisonics信号を処理するステップと、
を含む請求項10に記載の方法。
【請求項25】
前記方法は、
前記DirAC合成器を使用して前記フィルタバンクドメインで表される前記中間Ambisonics信号を処理して、前記フィルタバンクドメインで表される出力信号を生成するステップと、
前記フィルタバンクドメインで表される前記出力信号に合成フィルタバンクを適用して、時間ドメインの出力信号を生成するステップと、
を含む請求項24に記載の方法。
【請求項26】
前記分析フィルタバンク及び前記合成フィルタバンクは、結合分析/合成フィルタバンク、特に完全再構成分析/合成フィルタバンクを形成し、及び/又は、
前記分析フィルタバンク及び前記合成フィルタバンクは、ナイキストフィルタバンク又はQMFフィルタバンクである、
請求項25に記載の方法。
【請求項27】
前記エンコーダビットストリームは、第1タイプのフィルタバンク、特にナイキストフィルタバンクを使用して生成されたものであり、
前記分析フィルタバンクは、前記第1タイプとは異なる第2タイプのフィルタバンク、特にQMFフィルタバンクである、
請求項24に記載の方法。
【請求項28】
前記第1タイプのフィルタバンクの周波数帯域境界が、前記第2タイプのフィルタバンクの対応する周波数帯域境界に調整される、請求項27に記載の方法。
【請求項29】
システムであって、
1つ以上のプロセッサと、
命令を格納する非一時的コンピュータ可読媒体であって、前記命令は、前記1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに請求項1~28のいずれかに記載の方法を実行させる、非一時的コンピュータ可読記憶媒体と、
を含むシステム。
【請求項30】
命令を格納する非一時的コンピュータ可読媒体であって、前記命令は、1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに請求項1~28のいずれかに記載の方法を実行させる、非一時的コンピュータ可読媒体。
【請求項31】
Ambisonics入力オーディオ信号を符号化する符号化装置であって、前記符号化装置は、
前記入力オーディオ信号をSPARエンコーダとDirACアナライザ及びパラメータエンコーダとに提供し、
前記SPARエンコーダの出力に基づいて、かつ前記DirACアナライザ及びパラメータエンコーダの出力に基づいて、エンコーダビットストリームを生成する、
ように構成される符号化装置。
【請求項32】
前記Ambisonics入力オーディオ信号は複数の入力チャネル信号を含み、前記SPARエンコーダは、
サブバンド及び/又はQMFドメインの前記複数の入力チャネル信号を1つ以上のダウンミックスチャネル信号にダウンミックスし、
前記1つ以上のダウンミックスチャネル信号を再構成Ambisonics信号の複数の再構成チャネル信号にアップミックスするように適応された、前記サブバンド及び/又はQMFドメイン内のSPARメタデータビットストリームを生成する、
ように構成されている、請求項31に記載の符号化装置。
【請求項33】
前記DirACアナライザ及びパラメータエンコーダは、サブバンド及び/又はQMFドメインのAmbisonics入力オーディオ信号に対して到来方向分析を実行して、前記Ambisonics入力オーディオ信号の1つ以上の主要成分の到来方向を示すDirACメタデータビットストリームを決定するように構成されている、請求項31に記載の符号化装置。
【請求項34】
Ambisonics入力オーディオ信号を示すエンコーダビットストリームを復号する復号装置であって、前記復号装置は、
前記エンコーダビットストリームに基づいて、SPARデコーダを使用して中間Ambisonics信号を生成し、
DirAC合成器を使用して前記中間Ambisonics信号を処理して、レンダリングのための出力オーディオ信号を提供する、
ように構成される復号装置。
【請求項35】
前記復号装置は、
前記DirAC合成器をパススルー動作モードにする、及び/又は、
前記DirAC合成器をバイパスする、
ように構成され、特に、前記中間Ambisonics信号がレンダリング用の前記出力オーディオ信号に対応するようにする、請求項34に記載の復号装置。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願]
本出願は、2021年11月30日出願の米国仮出願第63/284,198号、及び2022年9月27日出願の米国仮出願第63/410,587号の優先権を主張する。
【0002】
[技術分野]
本明細書は、オーディオを処理するための、特に没入型オーディオコンテンツをコーディングするための方法及び対応する装置に関する。
【背景技術】
【0003】
リスニング位置に配置されたリスナーのリスニング環境内の音又は音場は、Ambisonicsオーディオ信号、特に1次Ambisonics信号(first order Ambisonics signal (FOA))又は高次Ambisonics信号(higher order Ambisonics signal (HOA))を使用して記述することができる。Ambisonics信号は、各チャネルがリスナーのリスニング位置における音場の特定の指向性パターンに対応するマルチチャネルオーディオ信号と見なすことができる。Ambisonics信号は、3次元(3D)デカルト座標系を使用して記述することができ、座標系の原点はリスニング位置に対応し、x軸は前を指し、y軸は左を指し、z軸は上を指す。
【0004】
本明細書は、Ambisonicsオーディオ信号の特に効率的かつ柔軟なコーディングを可能にするという技術的課題を取り扱う。技術的課題は、独立請求項の各々によって解決される。好ましい例は、従属請求項に記載される。
【発明の概要】
【0005】
一態様によれば、Ambisonics入力オーディオ信号を符号化する方法が記載される。方法は、空間再構成(spatial reconstruction (SPAR))エンコーダと、指向性オーディオコーディング(directional audio coding (DirAC))アナライザ及びパラメータエンコーダとに、入力オーディオ信号を供給することを含む。更に、方法は、SPARエンコーダの出力と、DirACアナライザ及びパラメータエンコーダの出力とに基づいて、エンコーダビットストリームを生成するステップを含む。
【0006】
別の態様によれば、Ambisonics入力オーディオ信号を示すエンコーダビットストリームを復号する方法が記載される。方法は、エンコーダビットストリームに基づき、空間再構成(SPAR)デコーダを使用して、中間Ambisonics信号を生成することを含む。更に、方法は、指向性オーディオコーディング(DirAC)合成器を使用して、中間Ambisonics信号を処理し、レンダリングのための出力オーディオ信号を提供することを含む。
【0007】
本明細書に記載される方法は各々、各々の方法の全部又は一部を、1つ以上のプロセッサ上のソフトウェア及び/又はコンピュータ可読コードで実施することができることに留意されたい。
【0008】
更なる態様によると、ソフトウェアプログラムが説明される。ソフトウェアプログラムは、プロセッサ上での実行のために、及びプロセッサ上で実行されると本願明細書で説明された方法のステップを実行するために適応される。
【0009】
別の態様によると、記憶媒体が説明される。記憶媒体はソフトウェアプログラムを含み、前記ソフトウェアプログラムは、プロセッサ上での実行のために、及びプロセッサ上で実行されると本願明細書で説明された方法のステップを実行するために適応される。
【0010】
更なる態様によると、コンピュータプログラムプロダクトが説明される。コンピュータプログラムは、コンピュータ上で実行されると本願明細書で説明された方法のステップを実行するための実行可能命令を含んでよい。
【0011】
別の態様によれば、1つ以上のプロセッサを含むシステムが記載される。システムは、命令を格納する非一時的コンピュータ可読媒体を含み、前記命令は、1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに本願明細書に記載の方法のうちの1つ以上の動作を実行させる。
【0012】
更なる態様によると、命令を格納する非一時的コンピュータ可読媒体が説明され、前記命令は、1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに本願明細書に記載の方法のうちの1つ以上の動作を実行させる。
【0013】
別の態様によれば、Ambisonics入力オーディオ信号を符号化する符号化装置が記載される。符号化装置は、空間再構成(spatial reconstruction (SPAR))エンコーダと、指向性オーディオコーディング(directional audio coding (DirAC))アナライザ及びパラメータエンコーダとに、入力オーディオ信号を供給するように構成される。更に、符号化装置は、SPARエンコーダの出力と、DirACアナライザ及びパラメータエンコーダの出力とに基づいて、エンコーダビットストリームを生成するように構成される。
【0014】
更なる態様によれば、Ambisonics入力オーディオ信号を示すエンコーダビットストリームを復号する復号装置が記載される。復号装置は、エンコーダビットストリームに基づき、空間再構成(SPAR)デコーダを使用して、中間Ambisonics信号を生成するように構成される。更に、復号装置は、指向性オーディオコーディング(DirAC)合成器を使用して、中間Ambisonics信号を処理し、レンダリングのための出力オーディオ信号を提供するように構成される。
【0015】
本特許出願に概説されている好ましい実施形態を含む方法及びシステムは、単独で使用することも、本明細書に開示されている他の方法及びシステムと組み合わせて使用することもできることに留意されたい。更に、本特許出願に概説されている方法及びシステムのすべての態様を任意に組み合わせることができる。特に、特許請求の範囲の特徴は、任意の方法で互いに組み合わせることができる。
【図面の簡単な説明】
【0016】
本発明は、添付の図面を参照して例示的な方法で以下に説明される。
図1】例示的なオーディオエンコーダを示す。
図2】例示的なオーディオデコーダを示す。
図3a】例示的なオーディオエンコーダを示す。
図3b】例示的なオーディオデコーダを示す。
図4】例示的なオーディオエンコーダを示す。
図5a】Ambisonicsオーディオ信号を符号化する方法の例のフローチャートを示す。
図5b】Ambisonicsオーディオ信号を示すビットストリームを復号する方法の例のフローチャートを示す。
【発明を実施するための形態】
【0017】
上述したように、本明細書は、Ambisonicsオーディオ信号の効率的かつ柔軟な符号化に関する。Ambisonicsオーディオ信号のためのコーディングスキームの例は、いわゆるSPAR(空間再構成)スキームであり、これは、例えば、McGrath et al., "Immersive Audio Coding for Virtual Reality Using a Metadata-assisted Extension of the 3GPP EVS Codec,」 ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 730-734, doi: 10.1109/ICASSP.2019.8683712に記載されており、その内容全体が参照により本明細書に組み込まれている。更なるコーディング方式は、いわゆる指向性オーディオコーディング(DirAC)方式であり、これは、例えば、Ahonen, Jukka, et al. "Directional analysis of sound field with linear microphone array and applications in sound reproduction." Audio Engineering Society Convention 124. Audio Engineering Society, 2008, and/or in V. Pulkki et al, “Directional audio coding - perception-based reproduction of spatial sound”, International Workshop on the principles and applications of spatial hearing, Nov. 11-13, 2009, Zao, Miyagi, Japanに記載されており、その内容全体が参照により本明細書に組み込まれている。
【0018】
SPARにおいて、Ambisonics(FOA又はHOA)オーディオ信号は、SPARエンコーダによって決定されたメタデータに基づいて、1つ以上のダウンミックスチャネルが波形符号化され、幾つかのチャネルがパラメトリックに符号化されるように、ダウンミックス中に空間的に処理され得る。SPARデコーダは、SPARメタデータの助けを借りて1つ以上の受信(及び復号)ダウンミックスチャネルをアップミックスし、元のAmbisonicsチャネルを再構築するという点で、逆演算を実行する。SPARは、通常、複数の異なる時間/周波数(T/F)タイル上で動作する。
【0019】
指向性オーディオコーディング(DirAC)は、到来方向(direction of arrival (DoA))及びT/Fタイルあたりの拡散性(すなわち、複数の異なるT/Fタイルについて)に基づくパラメトリックコーディング方法である。DirACは、一般に入力オーディオ形式に依存しないが、Ambisonicsオーディオで使用することができる。これは、DirACパラメータ分析がAmbisonics(FOA又はHOA)入力オーディオ信号に基づくことができ、DirACデコーダがAmbisonics信号を再構築できることを意味する。DirACの特性は、DirACが、多数の受信信号(トランスポートチャネル)及びDirACメタデータに基づいて、バイノーラルにレンダリングされた出力信号を直接生成するように適合させることができることである。DirACメタデータ生成は、部分的又は完全に復号端に存在し、例えば、(本明細書で概説するように)送信及び受信されたFOA又はHOAトランスポートチャネル上で動作することができる。更に、DirACは、コーディングシステムへの元の入力よりも高い次数でAmbisonicsオーディオを復元するために使用することができ、従って、例えば、入力オーディオ信号の空間分解能と比較して出力信号の空間分解能を向上させるために使用することができる。
【0020】
SPARは効率的なコーディング方法であり、これにより、Ambisonics信号を比較的低いビットレートで格納及び/又は送信することができる。高品質の要求に対して、SPARは、比較的少数のダウンミックスチャネル信号(例えば、4以下)のみを使用しながら、HOA信号(例えば、L=3以上のオーダー)を効率的に表現するために使用することができる。しかし、SPARは、より低い次数のAmbisonics入力オーディオ信号から増加したAmbisonics次数でAmbisonics出力信号を復元及び/又は生成するための解決策を提供しない。例えば、入力オーディオ信号がFOA(L=1)である場合、通常、HOA2(L=2)又はHOA3(L=3)信号を復元及び/又は生成することはできない。その場合、SPARは、通常、所与のビットレートで比較的高品質のFOA入力オーディオ信号を再構成することしかできない。
【0021】
DirACは、コーディングシステムの要件に応じて変化する強度を有する効率的なコーディング方法である。例えば、所与の次数L(FOA又はHOA)の入力Ambisonics信号を復号後に可能な限り高い忠実度で復元することが要件である場合、DirACのコーディング効率は、一般にSPARに比べて劣ることが観察されている。また、DirACオーディオ再構成の品質は、比較的高いビットレートで飽和し、DirACは、比較的高いビットレートで透過なオーディオ品質を得るためのネイティブソリューションを提供しないことも観察されている。この問題に対処するために、DirACに依存するコーディングシステムは、(比較的高いビットレートで)すべての入力チャネル(例えば、FOAの場合は4)をトランスポートチャネルとして送信し、DirACを使用してパラメトリック再構成を無効にする可能性がある。これは、(SPARと比較して)DirACの効率に影響を与え、(SPARコーディングシステム内で符号化されるダウンミックスチャネルの数と比較して)波形コーディングを使用して比較的多くのトランスポートチャネルを符号化する必要があるため、(数値及びメモリリソースに関して)比較的高い複雑さにつながる。
【0022】
本明細書では、SPARとDirACコーディングシステムの長所を最適な方法で組み合わせたコーディング方式について説明する。SPAR及びDirACは、結合されたデコーダが、(SPARデコーダを使用して)受信され且つ復号されたSPARダウンミックス信号及びSPARメタデータに基づいて、Ambisonicsアップミックス信号の第1セットを再構成するように結合され得る。再構成されたSPARアップミックス信号(ここでは、中間Ambisonics信号と呼ぶ)は、次に、DirACメタデータを使用してSPARアップミックス信号のセットで動作するために(例えば、増大したAmbisonics次数で出力信号を生成するために)、DirACデコーダに供給され得る。
【0023】
図1は、例示的な符号化装置(エンコーダ又は符号化ユニットとも呼ばれる)100を示し、図2及び図4は、例示的な復号装置(デコーダ又は復号ユニットとも呼ばれる)200を示す。SPAR及びDirACは、符号化装置100内で並列構造で動作し、復号装置200内で直列構造で動作する。一例として(限定ではないが)、入力オーディオ信号101がFOA信号であり、コーデック(コーディング/復号)システム100、200が20ms長のフレームで動作すると仮定することができる。
【0024】
符号化装置100において、入力オーディオ信号101のフレームは、SPARエンコーダ110、130(ダウンミックスユニット110及びコアオーディオエンコーダ130を含むことができる)に、及びオプションのDirACアナライザ及びパラメータエンコーダ120に供給することができる。これらのユニット110、120、130の各々は、各々対応する部分ビットストリーム102、104、105を生成する。SPARエンコーダ110、130、特にSPARエンコーダ110、130のダウンミックスユニット110は、SPARメタデータビットストリーム(又はSPARメタデータ)102及び(1つ以上の)SPARダウンミックスチャネル信号103のセットを生成する。1つ以上のSPARダウンミックスチャネル信号103は、コアオーディオビットストリーム105を使用してこれらの信号103を表すように構成されたコアオーディオエンコーダ130に供給される。
【0025】
SPARエンコーダ110、130のコアオーディオエンコーダ130は、1つ以上のダウンミックスチャネル信号103の波形符号化を実行するように構成され、それによってコアオーディオビットストリーム105を提供する。ダウンミックスチャネル信号103の各々は、モノ波形エンコーダ(例えば、3GPP EVS符号化)を使用して符号化することができ、それによって効率的な符号化を可能にする。1つ以上のダウンミックスチャネル信号103を符号化する更なる例は、MPEG AAC、MPEG HE-AAC及び他のMPEG Audioコーデック、3GPPコーデック、及びDolby Digital/Dolby Digital Plus(AC-3、eAC-3)である。SPAR及びDirACの両方が、各々ダウンミックス又はトランスポートチャネルを表す様々な異なるコアオーディオコーデックと共に動作することができる空間オーディオコーディングフレームワークであることは注目に値する。SPAR及びDirACは、各々のSPAR又はDirACメタデータによって空間オーディオ情報を表す。
【0026】
オプションのDirACアナライザ及びメタデータエンコーダ120は、オプションのDirACメタデータビットストリーム(又はDirACメタデータ)104を生成する。FOA用の従来のDirACエンコーダとは対照的に、(この情報はSPARエンコーダ110、130によって提供されるため)符号化装置100は、DirACトランスポートチャネル生成器又はダウンミキサーを含まない。部分ビットストリーム102、104、105は、(多重化ユニット140内で)共通のエンコーダビットストリーム106に多重化され、復号装置200に送信することができる。
【0027】
復号装置200において、受信(エンコーダ)ビットストリーム106は、部分ビットストリーム102、104、105、特にSPARメタデータビットストリーム102、コアオーディオビットストリーム105、及び(オプションの)DirACメタデータビットストリーム104に(逆多重化ユニット240内で)逆多重化することができる。コアオーディオビットストリーム105は、1つ以上のSPARダウンミックスチャネル信号205を再構成するコアオーディオデコーダ230に供給される。これら1つ以上の再構成ダウンミックスチャネル信号205は、SPARメタデータビットストリーム102と共にSPARアップミックスユニット210に供給される。SPARアップミックスユニット210は、1つ以上の再構成ダウンミックスチャネル信号205をアップミックスして、元のAmbisonics信号101のチャネルの少なくともサブセットの再構成201(中間Ambisonics信号101と呼ばれることがある)を提供する。この中間Ambisonics信号201は、通常、符号化装置100の元のAmbisonics入力オーディオ信号101の近似にすぎない。中間Ambisonics信号201のAmbisonics次数Lは、元の入力オーディオ信号101のAmbisonics次数とほぼ同一であるか、それより大きくない。
【0028】
この中間Ambisonics信号201は、復号装置200のDirAC分析及びメタデータ生成ユニット250に供給することができる。このオプションのDirAC分析及びメタデータ生成ユニット250は、SPAR再構成された中間Ambisonics信号201に基づいて、DirAC分析及びメタデータ生成を実行することができる。DirAC分析及びメタデータ生成ユニット250からのオプションの(補助)DirACメタデータ204(補助DirACメタデータ204と呼ばれる)、符号化装置100から受信したオプションのDirACメタデータビットストリーム104、及びSPAR再構成された中間Ambisonics信号201は、DirAC合成ユニット220に供給することができる。このDirAC合成ユニット220は、受信したメタデータビットストリーム104を復号することができる。その後、利用可能なDirACメタデータ104、204を使用して、SPAR再構成された中間Ambisonics信号201に対してDirAC信号合成を実行することができる。DirAC合成ユニット220は、(入力オーディオ信号101と比較して)高次の出力Ambisonics信号211を合成するか、バイノーラル出力信号211を合成(レンダリング)するか、又はマルチスピーカ出力信号211を合成(レンダリング)するように構成することができる。
【0029】
図1図2及び図4に示すように、DirAC分析は、オプションとして、(DirACアナライザ及びメタデータエンコーダ120内の)符号化装置100において、及び/又は(DirAC分析及びメタデータ生成ユニット250内の)復号装置200において実行することができる。トランスポートチャネル信号(すなわち、1つ以上のダウンミックスチャネル信号103及び/又は中間Ambisonics信号201)が復号装置200で復号後にDirAC分析を実行するのに適さない場合、DirAC分析及びメタデータ符号化を符号化装置100で実行することができる。これは、復号されたトランスポートチャネル信号が単一(モノ)又はステレオオーディオ信号のみであり、Ambisonics信号ではない場合である。このような状況では、すべての球形又は少なくとも円柱形の方向に対する到来方向(DOA)分析(これは、典型的にはDirAC分析ユニット120、250内で実行される)を実行することができない。これは、送信されたAmbisonics信号の特定の周波数帯域についても同様であり、ある周波数帯域についてDOA分析を不可能又は信頼できないものにするパラメトリック符号化方法(例えば、帯域幅拡張、スペクトル帯域複製(spectral band replication (SBR))など)がコアオーディオエンコーダ130内で使用される場合である。本明細書で概説されているようにDirACとSPARを組み合わせることの利点は、いかなる場合でも復号された中間Ambisonics信号201がデコーダ側のDirAC分析(DirAC分析及びメタデータ生成ユニット250内)に利用可能であることである。
【0030】
SPAR及びDirACコーディングの一態様は、両方の方法が周波数帯域(サブバンド)及びフレーム又はサブフレーム、すなわちT/Fタイル上で動作することである。これらの方法の実装は、サブバンド上の時間ドメイン、QMFドメイン、又は例えば(修正)DFT周波数ビン又はそのようなビンのグループ上の周波数ドメインにおける動作を使用することができる。従って、本明細書に記載されているすべての態様は、任意のT/Fタイルに適用可能である。更に、サブバンド、周波数バンド/ビン又はQMFバンド/ビンという用語は、本明細書の文脈において互換性がある。同様に、サブバンドドメイン、QMFドメイン又は周波数ドメインという用語は、本明細書の文脈において同義的である。
【0031】

SPARとDirACコーディングを組み合わせる場合、特定のT/Fタイル又はサブバンドは、(DirAC分析及びメタデータ生成ユニット250内で)SPAR復号された中間Ambisonics信号201に基づいてDirAC分析を実行することにより、より多くの利益を得ることが判明する可能性があり、一方、他の場合には、符号化装置100(DirACアナライザ及びメタデータエンコーダ120内)でそのような分析を行い、対応するメタデータビットストリーム104を復号装置200に送信することが有益である可能性がある。通常、DirACパラメータ分析は、元の入力オーディオ信号101に基づくことができるため、符号化装置100でより信頼性が高い。しかし、この場合、対応するメタデータビットストリーム104を符号化して送信する必要がある。ある総ビットレートバジェットを仮定すると、DirACメタデータビットストリーム104の部分ビットレートは、SPARメタデータビットストリーム102及びコアオーディオビットストリーム105で利用可能なビットレートを犠牲にする。従って、少なくとも1つ以上の選択されたT/Fタイル又はサブバンドについては、(復号装置200で)中間Ambisonics信号201の対応するSPAR復号されたT/Fタイル又はサブバンド信号に対してDirAC分析を行うことが、コーディングシステム全体の性能にとってより有益である可能性がある。
【0032】
(最適なコーディングシステムを実現するために)エンコーダ側又はデコーダ側で所与のサブバンド又はT/Fタイルに対してDirACパラメータ分析を選択するかどうかは、1つ以上のコアオーディオコーディングされたSPARダウンミックスチャネル信号103の1つ以上の特性に依存し、次に、(DirAC分析及びメタデータ生成ユニット250内で)DirACパラメータ分析を実行するためにSPARデコーダ210、230のアップミックスユニット210でアップミックスされた後の再構成された中間Ambisonics信号201の適合性に依存する。コーディングが波形保存であるサブバンド及び時間フレームは、一般に、コーディングが波形保存でないサブバンド及び時間フレームよりも、復号装置200での(DirAC分析及びメタデータ生成ユニット250内で)DirACパラメータ分析に適していることが観察されている。これは、典型的には、低周波数帯域の場合、及び/又はノイズ等ではなくトーン的な時間/周波数信号部分の場合である。従って、コーデックシステム100、200は、高周波数帯域及び/又はノイズのような時間/周波数信号部分に対してエンコーダ側で(DirAC分析及びメタデータエンコーダ120内で)DirACパラメータ分析を実行するように構成することができる。一方、コーデックシステム100、200は、低周波数帯域及び/又はトーン的な時間/周波数信号部分に対してデコーダ側で(DirAC分析及びメタデータ生成ユニット250内で)DirACパラメータ分析を実行するように構成することができる。
【0033】
従って、SPAR及びDirACコーディング/復号システム100、200の組合せは、符号化装置100からのDirACメタデータ伝送と、選択的なT/Fタイル、サブバンド及び/又はフレームについて復号装置200で実行されるDirAC分析との間を適応的に切り換える適応手段を含むことができる。適応は、例えば、トーン又はノイズなど、入力オーディオ信号101の1つ以上の検出された特性に依存することができる。
【0034】
SPAR及びDirAC符号化/復号システム100、200の組合せは、後続のDirACユニット220、250に供給される修正された数のSPARアップミックスチャネルで動作する復号装置200を含むことができる。SPARシステムは、通常、Ambisonics信号にアップミックスする。これは、所与のAmbisonics次数Lに対して(L+1)個のアップミックスチャネルを生成することを意味する。特に、比較的低いビットレート(例えば<64kbpsにおける)動作の場合、(アップミックスユニット210内の)SPAR復号及びアップミックス動作は、少なくとも特定のT/Fタイル又は周波数帯域に対して、比較的低い信号品質をもたらす可能性がある。これは、後続のDirAC動作に影響を与える可能性があり、ひいては、符号化/復号システム100、200のオーディオ出力信号211の品質に影響を与える可能性がある。
【0035】
この問題は、(アップミックスユニット210でのアップミックスに続く)アップミックスチャネル信号の数が(少なくとも特定のT/Fタイル又は周波数帯域に対して)減少するようにSPARを修正することによって対処することができる。一例として、FOA入力オーディオ信号101に対して、少なくとも特定のT/Fタイル又は周波数帯域に対して、復号されたBフォーマットFOAコンポーネント信号W、又は各々W及びYに対応する、単一のアップミックスチャネル又は2つのアップミックスチャネルのみを生成するようにSPARを修正することができる。このSPARの修正は、破棄されたチャネル(Y、Z、X、各々Z、X)に対する(SPARメタデータ内の)各々のアップミックス係数を0に設定することによって、及び/又は、2チャネルの例では、WからYへの予測を実行しないことによって、送信された予測残差信号Y’がYと同一になるように達成することができる。
【0036】
復号装置200のDirACユニット220及び/又は250は、少なくとも選択されたT/Fタイル又は周波数帯域に対して、対応して減少した数の入力信号で動作するように修正することができる。DirAC合成ユニット220にとって、これは、使用されるプロトタイプ信号の数がそれに応じて減少することを意味する。1チャネルの例では、これは、DirAC合成が単一の(モノ)プロトタイプ信号に基づくことを意味し、2チャネルの例では、W及びY入力信号を用いて、DirAC合成器は、これらの信号を、プロトタイプ信号を得ることができる左/右ステレオ表現に変換することができる。(DirAC分析及びメタデータ生成ユニット250における)DirAC分析は、典型的には、これらのT/Fタイル又は周波数帯に対しては不可能である。従って、これらのT/Fタイル又はサブバンドに対して、DirACメタデータ104は、符号化装置100において計算され、エンコーダビットストリーム106内で送信されるべきである。
【0037】
従って、復号装置200は、アップミックスユニット210の出力信号201(すなわち、中間Ambisonics信号201)が(L+1)個未満のチャネルを含むように、アップミックスユニット210内で部分的なアップミックスのみを実行するように構成することができる。この部分的にアップミックスされた中間Ambisonics信号201は、レンダリングのための出力オーディオ信号211、例えばバイノーラル又はステレオ出力信号を提供するために、DirAC合成ユニット220に渡すことができる。部分的なアップミックスは、複数のT/Fタイル又はサブバンドのサブセットに対して実行することができる。代替として、部分的なアップミックスは、T/Fタイル又はサブバンドの完全なセットに対して実行することができる。部分的なアップミックスを実行するオプションは、比較的低いビットレートで出力信号211の知覚オーディオ品質を向上させるために使用することができる。
【0038】
一例として、復号装置200は、アップミックスユニット210の出力信号201がステレオ信号になるように、アップミックスユニット210内で部分的なアップミックスを実行するように構成することができる。代替として又は追加で、復号装置200は、DirAC合成ユニット220をパススルー動作モードにするように構成することができる(この動作モードでは、DirAC合成ユニット220は、出力信号201を修正することなく、及び/又は出力信号201に対する操作を実行することなく、アップミックスユニット210の出力信号201を通過させる)。これにより、ステレオ出力信号211の効率的な生成が可能となる(例えば、2つのスピーカを持つマルチスピーカの場合)。
【0039】
結合されたSPAR及びDirAC符号化/復号システム100、200は、頭部追跡入力データを効率的に処理して、そのようなデータに応答して出力オーディオ信号211を調整(回転)するように構成することができる。一例では、比較的低次(例、FOA)のSPAR再構成中間Ambisonics信号201は、DirACユニット220、250に供給される前に、(頭部追跡データに従って)回転させることができる。これは、DirAC分析及びメタデータ生成が、復号装置200で利用可能なSPAR再構成中間Ambisonics信号201のみに基づく場合、特に数値的に効率的である。数値的に効率の悪い代替手段は、DirAC合成後に(DirAC合成ユニット220で)高次Ambisonics信号211を回転させることである。DirACメタデータ104が符号化装置100から(部分的に)受信された場合でも、このメタデータ104(検出された主音方向の方位角及び仰角を含む)は、頭部追跡装置から取得された回転角に基づいて、受信角度の追加調整を受けることができる。
【0040】
図3a及び3bは、SPARとDirACを結合した符号化装置100及びSPARとDirAC、及びSPARとDirACを結合した復号装置200の例を示す。符号化装置100及び/又は復号装置200は、ビットレートに応じてSPARエンコーダとDirACエンコーダとを切り換えるように構成することができる。図3a及び3bに示す符号化装置100及び復号装置200は、本明細書に記載されている相乗効果を提供するができない。
【0041】
図3aに示す符号化装置100は、エンコーダビットストリーム106の(目標)ビットレート301に応じて、SPARエンコーダブランチ又は(代替的に)DirACエンコーダブランチを選択するように構成された選択ユニット300を含む。一例として、ビットレート301が所定のビットレート閾値以下である場合、SPARエンコーダブランチを選択することができる。一方、ビットレート301がビットレート閾値より大きい場合、DirACエンコーダブランチを選択することができる。この結果、エンコーダビットストリーム106は、SPARエンコーダブランチからのビットストリーム102、105又はDirACエンコーダブランチからのビットストリーム325、104のいずれかを含む。
【0042】
DirACエンコーダブランチは、Ambisonics入力オーディオ信号101の複数の入力チャネル信号を1つ以上のトランスポートチャネル信号324にダウンミックスするように構成されたダウンミックスユニット321を含むことができる。1つ以上のトランスポートチャネル信号324は、任意の(シングルチャネル、デュアルチャネル、又はマルチチャネル)波形エンコーダ322を使用して符号化することができ、それによってコアオーディオビットストリーム325を提供する。
【0043】
図3bは、SPARデコーダブランチ及び別個のDirACデコーダブランチを含む対応する復号装置200を示しており、これらは両方とも、復号装置200の出力信号211を提供するために(エンコーダビットストリーム106のビットレート301に依存して)選択することができる出力信号を生成するように構成されている。
【0044】
SPARデコーダブランチは、ステレオ信号又はバイノーラル信号などの(中間Ambisonics信号201とは異なる)代替出力信号311を生成するように構成されたオプションのレンダリングユニット320を含むことができる。選択ユニット371は、中間Ambisonics信号201と代替出力信号311との間で選択するために提供することができる。
【0045】
DirACデコーダブランチは、通常、DirACメタデータビットストリーム104からDirACメタデータ304を生成するように構成されたメタデータデコーディングユニット340を含む。更に、DirACデコーダブランチは、コアオーディオビットストリーム325に基づいて(1つ以上のトランスポートチャネル信号324に対応する)1つ以上の再構成トランスポートチャネル信号344を生成するように構成されたコアデコーダユニット342を含むことができる。1つ以上の再構成トランスポートチャネル信号344及びDirACメタデータ304は、DirAC合成ユニット360内で使用されて、出力信号(例えば、Ambisonics信号)を生成することができる。
【0046】
DirACデコーダブランチは、(レンダリングのために)出力信号を生成するためにDirAC合成ユニット360において使用され得る補助DirACメタデータ354を生成するために、1つ以上の再構成トランスポートチャネル信号344を分析するように構成されたDirACアナライザ及びメタデータ生成器350(ユニット350と同様又は同等)を更に含むことができる。DirAC合成ユニット360の出力信号は、(選択ユニット372、300を使用して)復号装置200の全体的な出力信号211として選択され得る。
【0047】
更に、DirACデコーダブランチは、(DirAC合成ユニット360の出力信号の代替として)代替出力信号を生成するように構成されたiレンダリングユニット361(又は調和内部レンダリングユニット)を含むことができる。代替出力信号は、(Ambisonics信号の代替として)バイノーラル信号又はステレオ信号であってもよい。レンダリングユニット361は、DirACメタデータ304、補助DirACメタデータ354、及び/又は再構成トランスポートチャネル信号344に基づいて代替出力信号を生成するように構成され得る。レンダリングユニット361は、図2の復号装置200のDirAC合成ユニット220内に含まれ得る。
【0048】
図3aの符号化装置100の構成要素の1つ以上が、図1の符号化装置100内で使用され得ることに留意されたい。同様に、図3bの復号装置200の構成要素の1つ以上が、図2及び/又は図4の復号装置200内で使用され得る。
【0049】
図1の符号化装置100において、SPAR波形エンコーダは、特にすべてのビットレートに対して、任意のコアオーディオコーディングツールを利用し得る。SPARは、すべてのビットレートに対してDirACと組み合わせて実行することができる。(DirAC合成ユニット220内の)DirAC復号は、すべてのビットレートに対してSPARによって再構成された中間Ambisonics信号201に依存することができる。
【0050】
DirACコーデックが通常1つ又は2つのトランスポートチャネルを使用する比較的低いビットレートでは、結合されたSPAR/DirACコーデックは、以下の動作に適合することができる:
FOA信号を再構成するためにエンコーダとデコーダの両方でDirAC操作を必要とする1つ又は2つのトランスポートチャネルを持つ特定の周波数帯域で動作する、及び/又は、
FOA信号の4つのSPAR再構成信号を持つ特定の他の周波数帯域で動作する。
【0051】
従って、FOAパススルーを提供することができる。
【0052】
特定の(比較的低い)ビットレートでは、結合されたSPAR/DirACコーデックは、低次のAmbisonics信号のSPAR再構成を持つ特定の周波数帯域で少なくとも動作し、元のAmbisonics次数を再構成するためにDirACに依存するように適合させることができる。従って、HOAパススルーを提供することができる。
【0053】
DirACは、SPARによって再構成された低次のAmbisonics信号に基づくオーディオ信号の空間解像度を増強するための主要なツールとして使用することができる。特に、
FOA及び/又はHOA入力オーディオ信号101は、HOAm、バイノーラル及び/又はLS(ラウドスピーカ)信号に変換することができ、出力Ambisonics次数mは入力Ambisonics次数nよりも大きい。
【0054】
内部及び/又は外部レンダラーのオプションを提供できる。例えば、
参照テストを使用した主観的な評価のために(想定される)参照レンダラーと同等に実行する内部レンダラー、
追加の遅延を発生させない内部レンダラー、及び/又は、
参照レンダラーに対する参照テストではテストできない高度な機能を提供する外部レンダラー。レンダラーは、パススルー性能を向上させることができる。
【0055】
ここで説明する結合されたSPAR/DirACコーデックは、スタンドアロンのSPARコーデック及びDirACコーデックと下位互換性があるように構成できる。特に、デコーダ側のDirAC合成モジュールがパススルー動作モードになっている場合は、元のSPAR動作を維持できる。更に、SPARモジュールがパススルー動作モードになっている場合は、(例えば、SPAR予測係数を0に設定することによって)元のDirAC動作を維持できる。
【0056】
FOAパススルーを提供することによって、厳密に品質対ビットレートの動作を向上させることができる。HOAパススルーを提供することによって、コーデックはHOA信号に対して純粋なSPARエンコーダの性能を実現できる。DirACの使用は、HOAコンテンツ(例えば、HOA4解像度)の効率的な生成を可能にする。結合されたSPAR/DirACシステムは、SPAR符号化モジュール内で生成される可能性のあるアクティブダウンミックスチャネルW*に依存する可能性があるため、低ビットレートで特に効率的に動作する。
【0057】
上述したように、SPAR及び/又はDirAC処理は、通常、異なるサブバンド及び/又はT/Fファイル内で実行される。この目的のために、1つ以上の異なるタイプのフィルタバンク(FB)を使用することができる。一例として、FB_Aと呼ばれる第1タイプのフィルタバンクを使用することができる。FB_Aは、QMF(quadrature mirror filter、直交ミラーフィルタ)フィルタバンク、特に複合低遅延フィルタバンク(Complex Low Delay Filter bank (CLDFB))であることができる。FB_Aは、サブバンドのセットにグループ化することができる60個のチャネルを含むことができる。第2タイプのフィルタバンクは、FB_Bと呼ばれることができる。FB_Bは、修正DFTの異なるビンをサブバンドのセットにグループ化することができる修正DFT(Discrete Fourier Transform、離散フーリエ変換)の適用を含むナイキストフィルタバンクであることができる。フィルタバンクは、ブロック効果を回避するために、特定のオーバーラップ(例えば、1msのオーバーラップ)を有する時間ドメイン信号に適用することができる。FB_A(分析及び合成)は、2.5から5msの遅延を示すことができ、及び/又は、FB_B(分析及び合成)は、2msの遅延を示すことができる。
【0058】
第1例では、SPARエンコーダ110、130のダウンミックスユニット110は、SPARメタデータビットストリーム102を生成するためにFB_B分析を利用し、1つ以上のダウンミックスチャネル信号103を生成するためにFB_B合成を利用することができる。更に、DirACアナライザ及びメタデータエンコーダ120は、FB_A分析を利用することができる。デコーダ側では、SPARアップミックスユニット210は、中間(Ambisonics)信号201を生成するためにFB_B分析及びFB_B合成を利用することができる。更に、DirACユニット220、250は、中間(Ambisonics)信号201のFB_A分析、及び(DirAC処理の後の)FB_A合成を利用して、出力信号211を生成することができる。
【0059】
FB_B分析は、SPARエンコーダ110、130のダウンミックスユニット110の入力で実行することができ、FB_B合成は、SPARエンコーダ110、130のダウンミックスユニット110の出力(1つ以上のダウンミックスチャネル信号103を提供する出力)で実行することができる。更に、FB_A分析は、DirACアナライザ及びメタデータエンコーダ120の入力で実行することができる。更に、FB_B分析は、SPARアップミックスユニット210の入力(1つ以上の再構成ダウンミックスチャネル信号205の入力)で実行することができ、FB_B合成は、SPARアップミックスユニット210の出力で実行することができる。更に、FB_A分析は、(DirAC分析及びメタデータ生成ユニット250及び/又はDirAC合成ユニット220に入る前に)中間(Ambisonics)信号201で実行することができ、FB_A合成処理は、DirAC合成ユニット220の出力で実行することができる。
【0060】
更なる例では、Ambisonics入力オーディオ信号101は、(好ましくは、SPARエンコーダ110、130のダウンミックスユニット110及び/又はDirACアナライザ及びメタデータエンコーダ120に入る前に、SPAR処理及びDirAC処理の両方のために)FB_Bを使用して分析することができる。FB_B合成は、(SPARエンコーダ110、130のダウンミックスユニット110の出力において)1つ以上のダウンミックスチャネル信号103を生成するために使用することができる。復号装置200は、第1例のフィルタバンク構成を使用することができる。
【0061】
好ましい例では、FB_B(又は代替的にFB_A)解析を使用して、(好ましくは、SPARエンコーダ110、130のダウンミックスユニット110及び/又はDirACアナライザ及びメタデータエンコーダ120に入る前に、SPAR及びDirAC処理のために)Ambisonics入力オーディオ信号101を解析することができる。FB_B(又は代替的にFB_A)合成は、1つ以上のダウンミックスチャネル信号103を生成するために使用することができる(及びSPARエンコーダ110、130のダウンミックスユニット110の出力において実行することができる)。デコーダ側では、FB_A(又は代替的にFB_B)解析を使用して、(SPARアップミックスユニット210の入力において)1つ以上の再構成ダウンミックスチャネル信号205を解析することができる。中間(Ambisonics)信号201は、フィルタバンクドメイン内のDirAC処理ユニット250、220に提供することができ、それによって、別のフィルタバンク動作の必要性を取り除くことができる。これにより、復号装置200の処理負荷及び遅延を低減することができる。FB_A(又は代替的にFB_B)合成をDirAC合成ユニット220の出力において使用して、出力信号211を生成することができる。
【0062】
図5aは、Ambisonics入力オーディオ信号101を符号化する方法500の例のフローチャートを示す。Ambisonics入力オーディオ信号101は、複数の異なる入力チャネル信号を含み、異なるチャネルは、異なるパンニング及び/又は球面基本関数、及び/又は異なる指向性パターンに関連することができる。例として、L次3D Ambisonics信号は、(L+1)個のチャネルを含むことができる。1次Ambisonics(First Order Ambisonics (FOA))信号は、次数L=1のAmbisonics信号であり、高次Ambisonics(Higher Order Ambisonics (HOA))信号は、次数L>1のAmbisonics信号である。
【0063】
方法500は、空間再構成(spatial reconstruction (SPAR))エンコーダ110、130と、指向性オーディオコーディング(directional audio coding (DirAC))アナライザ及びパラメータエンコーダ120とに(並列に)、入力オーディオ信号101を供給するステップ501を含む。
【0064】
SPARエンコーダ110、130は、サブバンド及び/又はQMFドメイン内のAmbisonics入力オーディオ信号101の複数の入力チャネル信号を、1つ以上のダウンミックスチャネル信号103にダウンミックスするように構成されてもよい。通常、ダウンミックスチャネル信号103の数は、入力チャネル信号の数よりも少ない。1つ以上のダウンミックスチャネル信号103は、オーディオビットストリーム105を提供するために、(波形)オーディオエンコーダ130によって符号化されてもよい。
【0065】
更に、SPARエンコーダ110、130は、サブバンド及び/又はQMFドメイン内のAmbisonics入力オーディオ信号101の表現に関連付けられたSPARメタデータビットストリーム102を生成するように構成されてもよい。SPARメタデータビットストリーム102は、(対応する復号装置200において)1つ以上のダウンミックスチャネル信号103を、再構成された中間Ambisonics信号201の複数の再構成チャネル信号にアップミックスするように適合されてもよく、再構成された中間Ambisonics信号201の複数の再構成チャネル信号は、通常、Ambisonics入力オーディオ信号101の複数の入力チャネル信号に(一対一の関係で)対応する。
【0066】
SPARメタデータビットストリーム102を決定するために、1つ以上のダウンミックスチャネル信号103をサブバンドドメインに変換してもよく、及び/又はサブバンドドメイン内で処理してもよい。また、入力音オーディオ信号101の複数の入力チャネル信号をサブバンドドメイン(複数の異なる周波数帯域のサブバンドを含む)に変換してもよい。その後、SPARメタデータビットストリーム102は、特に、SPARメタデータビットストリーム102を使用して1つ以上のダウンミックスチャネル信号103のサブバンド信号をアップミックスすることによって、入力オーディオ信号101の複数の入力チャネル信号のサブバンド信号の近似値が得られるように、サブバンドごとに(例えば、周波数帯域ごと及び/又は時間/周波数タイルごとに)決定してもよい。異なるサブバンドに対する(すなわち、異なる周波数帯域及び/又は異なる時間/周波数タイルに対する)SPARメタデータを組み合わせて、SPARメタデータビットストリーム102を形成することができる。
【0067】
DirACアナライザ及びパラメータエンコーダ120は、サブバンド及び/又はQMFドメインのAmbisonics入力オーディオ信号101に対して到来方向分析(direction of arrival analysis (DoA))を実行して、Ambisonics入力オーディオ信号101の1つ以上の主要成分の到来方向を示すDirACメタデータビットストリーム104を決定するように構成されてよい。DirACメタデータビットストリーム104は、Ambisonics入力オーディオ信号101の1つ以上の主要成分の空間方向を示すことができる。DirACメタデータ104、特に1つ以上の主要成分の空間方向は、複数の異なる周波数帯域及び/又は複数の異なる時間/周波数タイルに対して生成することができる。
【0068】
方法500は、SPARエンコーダ110、130の出力102、105と、DirACアナライザ及びパラメータエンコーダ120の出力104とに基づいて、エンコーダビットストリーム106を生成するステップ502を更に含む。DirACアナライザは、到来方向(DoA)分析及び/又は拡散性分析を実行するように構成することができる。言い換えると、DirAC分析は、DoA分析及び/又は拡散性分析を含むことができる。上述のように、SPARエンコーダ110、130の出力102、105は、SPARメタデータビットストリーム102及びSPARダウンミックスチャネル信号103のセットを示すオーディオビットストリーム105を含むことができる。DirACアナライザ及びパラメータエンコーダ120の出力104は、DirACメタデータビットストリーム104を含むことができる。エンコーダビットストリーム106を生成するステップ502は、SPARメタデータビットストリーム102、オーディオビットストリーム105、及びDirACメタデータビットストリーム104を、共通エンコーダビットストリーム106に多重化するステップを含むことができる。エンコーダビットストリーム106の表現は、(特に復号装置200に)送信され、及び/又は記憶され得る。
【0069】
従って、知覚品質が向上した特に効率的なAmbisonicsオーディオエンコーダを提供するために、SPAR符号化及びDirAC符号化を併用する方法500が記載される。方法500に関連して、DirACコーディング方式によって提供されるデータは、DirACメタデータに限定され得る。一方、DirACコーディング方式の1つ以上のトランスポートチャネルは、SPARコーディング方式によって提供されるデータ(特に、1つ以上のダウンミックスチャネル信号及び/又はSPARメタデータ)によって置き換えられ得る。
【0070】
方法500は、複数の周波数帯及び/又は複数の時間/周波数タイル内にサブバンドデータを生成することを含むことができ、サブバンドデータは、入力オーディオ信号101を表す。この目的のために、QMF及び/又はサブバンドフィルタバンクを使用することができる。
【0071】
更に、方法500は、複数の周波数帯及び/又は複数の時間/周波数タイルのサブセットを選択することを含むことができる。周波数帯及び/又は時間/周波数タイルのサブセットは、所定の閾値周波数以上の周波数の周波数範囲に対応してよい。これは、ある(低い)周波数範囲についてはSPARメタデータに基づいて選択的に動作し、別の(高い)周波数範囲についてはDirACメタデータ104に基づいて動作することを可能にするために使用することができる。
【0072】
代替的に、又は追加的に、入力オーディオ信号101の特性に関する特性情報、特に入力オーディオ信号101のノイズのような特性又は音色に関する特性を(例えば、入力オーディオ信号101を分析することによって)決定することができる。次に、特性情報に基づいて、周波数帯及び/又は時間/周波数タイルのサブセットを選択することができる。特に、特性情報に基づいて、選択された周波数帯及び/又は時間/周波数タイルの周波数範囲の閾値周波数を決定することができる。
【0073】
次に、DirACアナライザ及びパラメータエンコーダ120の出力104、特にDirACメタデータビットストリーム104を、周波数帯及び/又は時間/周波数タイルの選択されたサブセットに対して、特に、周波数帯及び/又は時間/周波数タイルの選択されたサブセットに対してのみ決定することができる。
【0074】
換言すれば、DirACメタデータは、符号化装置100において、複数の周波数帯全体及び/又は複数の時間/周波数タイル全体の縮小されたサブセットに対してのみ決定することができ、特に、音色特性を有しない及び/又はノイズのような特性を有する周波数帯及び/又は時間/周波数タイルに対して、及び/又は(ある閾値周波数以上の)上位周波数帯及び/又は時間/周波数タイルに対して決定することができる。これにより、特に効率的で高品質のAmbisonicsコーディングスキームを提供することができる。
【0075】
上述のように、SPAR処理及び/又はDirAC処理は、通常、サブバンド及び/又はフィルタバンクドメイン内で実行される。方法500は、複数の周波数帯及び/又は複数の時間/周波数タイル内のサブバンドデータを生成することを含むことができ、サブバンドデータは、入力オーディオ信号101を表す。サブバンドデータは、分析フィルタバンクを使用して生成することができる。次に、サブバンドデータは、SPARメタデータビットストリーム102を生成するためにSPARエンコーダ110、130に提供され、DirACメタデータ104を生成するためにDirACアナライザ及びパラメータエンコーダ120に提供される。
【0076】
従って、単一の分析フィルタバンクを使用して、入力オーディオ信号101をフィルタバンクドメインに変換することができる。入力101信号は、異なるサブバンド(すなわち、サブバンドデータによって)に対する係数及び/又はサンプルによって、フィルタバンクドメインで表現することができる。このサブバンドデータは、SPAR処理及びDirAC処理のための基礎として使用することができ、それによって、特に効率的な符号化装置100を提供する。
【0077】
方法500は、合成フィルタバンクを使用して、SPARエンコーダ110、130内の1つ以上のダウンミックスチャネル信号103を生成するステップを含んでよい。分析フィルタバンク及び合成フィルタバンクは、(場合によっては完全再構成)分析/合成フィルタバンクを形成することができる。1つ以上のダウンミックスチャネル信号103は、コアオーディオエンコーダ130内で符号化される時間ドメイン信号であってもよい。
【0078】
従って、SPAR処理及びDirAC処理を実行するために、単一の分析/合成フィルタバンク(例えば、ナイキスト又はQMFフィルタバンク)を符号化装置100内で使用することができ、それによって、(知覚品質に影響を与えることなく)符号化装置100の計算の複雑さを低減することができる。
【0079】
図5bは、Ambisonics入力オーディオ信号101を示すエンコーダビットストリーム106を復号する(コンピュータ実装)方法510の例のフローチャートを示す。方法510は、エンコーダビットストリーム106に基づき、空間再構成(SPAR)デコーダ210、230を使用して、中間Ambisonics信号201を生成するステップ511を含む。中間Ambisonics信号201は、入力オーディオ信号101と同じ次数Lを有することができる。中間Ambisonics信号201は、時間ドメイン信号であることができる。あるいは、中間Ambisonics信号201は、フィルタバンク又はサブバンドドメイン内で表されてもよい。
【0080】
SPARメタデータビットストリーム102及びオーディオビットストリーム105は、エンコーダビットストリーム106から抽出されてもよい。中間Ambisonics信号201は、次に、SPARデコーダ210、230を使用して、SPARメタデータビットストリーム102及びオーディオビットストリーム105から生成されてもよい。特に、再構成ダウンミックスチャネル信号205のセットは、(波形)オーディオデコーダ230を使用して、オーディオビットストリーム105から生成されてもよい。更に、再構成ダウンミックスチャネル信号205のセットは、アップミックスユニット210を使用して、SPARメタデータビットストリーム102に基づいて、中間Ambisonics信号201(複数の(特に(L+1)個以下の)中間チャネル信号を含む)にアップミックスされてもよい。中間Ambisonics信号201の複数の中間チャネル信号は、典型的には、Ambisonics入力オーディオ信号101又はそのサブセットの複数の入力チャネル信号の再構成及び/又は近似である。
【0081】
更に、方法500は、指向性オーディオコーディング(DirAC)合成器220(DirAC合成ユニットとも呼ばれる)を使用して、中間Ambisonics信号を処理し、レンダリングのための出力オーディオ信号211を提供することを含む。出力信号211は、Ambisonics出力信号、バイノーラル出力信号、ステレオ又はマルチスピーカ出力信号のうちの少なくとも1つを含むことができる。特に、DirACメタデータビットストリーム104は、エンコーダビットストリーム106から抽出することができる。中間Ambisonics信号201は、DirAC合成器220を使用して、DirACメタデータビットストリーム104に依存して処理されて、出力オーディオ信号211を提供することができる。
【0082】
上述したように、中間Ambisonics信号201は、時間ドメインで表現することができる。この場合、DirAC処理は、中間Ambisonics信号201をフィルタバンクドメインに変換するための分析フィルタバンクの適用を含むことができる。好ましい例では、(SPAR処理によって提供される)中間Ambisonics信号201は、フィルタバンクドメイン内で既に表現されている。これを行うことによって、(SPAR処理内の)合成フィルタバンクの適用及びその後の(DirAC処理内の)分析フィルタバンクの適用を除去することができ、それによって、復号装置200の計算効率及び知覚品質を向上させることができる。
【0083】
従って、その後にDirAC合成操作(及び場合によってはDirAC分析操作)が続くSPAR復号を利用する復号方法510が記載される。SPAR復号を使用して、効率的かつ高品質な方法で、1つ以上のトランスポートチャネル(特に中間Ambisonics信号201)を提供することができる。DirAC合成器を使用して、柔軟な方法でオーディオ信号をレンダリングするための1つ以上の異なるタイプの出力信号211を提供することができる。この文脈において、(DirACメタデータ内に含まれる)入力オーディオ信号101の1つ以上の主要成分のDoAデータを使用して、出力信号211を生成することができる。
【0084】
DirACメタデータは、エンコーダビットストリーム106内に(少なくとも部分的に)提供することができる。代替的に、又は追加的に、DirACメタデータは、復号装置200で(少なくとも部分的に)生成することができる。
【0085】
従って、方法510は、DirACアナライザ250内で(すなわち、DirAC分析及びメタデータ生成ユニット250内で)中間Ambisonics信号201を処理して、補助DirACメタデータ204を生成することを含むことができる。この文脈において、DoA分析を実行して、中間Ambisonics信号201の1つ以上の主要成分のDoAを示す補助DirACメタデータ204を決定することができる。
【0086】
中間Ambisonics信号201は、DirAC合成器220を使用して、補助DirACメタデータ204に依存して処理されて、出力オーディオ信号211を提供することができる。復号装置200で決定されたDirACメタデータを使用することによって、Ambisonicsコーデックの効率を更に改善することができる。
【0087】
上述のように、(SPAR及び/又はDirAC)メタデータは、通常、複数の異なる周波数帯域及び/又は時間/周波数タイルに対して生成される。コーデックは、符号化装置100で異なる周波数帯域及び/又は時間/周波数タイルの一部について、及び復号装置200で異なる周波数帯域及び/又は時間/周波数タイルの他の一部について、DirACメタデータを生成するように構成することができる(特に、相補的かつ/又は相互排他的な方法で)。これにより、Ambisonicsコーデックの効率及び品質を更に改善することができる。
【0088】
方法510は、(例えば、サブバンド変換及び/又はQMFフィルタバンクを用いて)複数の周波数帯域及び/又は複数の時間/周波数タイル内のサブバンドデータを生成することを含むことができ、サブバンドデータは、(フィルタバンク又はサブバンドドメイン内の)中間Ambisonics信号201を表す。更に、方法510は、複数の周波数帯及び/又は複数の時間/周波数タイルのサブセットを選択することを含むことができる。
【0089】
所定の閾値周波数以上の周波数の周波数範囲に対応する周波数帯及び/又は時間/周波数タイルのサブセットが選択されてよい。
【0090】
代替的に、又は追加的に、入力オーディオ信号101及び/又は中間Ambisonics信号201の特性に関する特性情報、特に入力オーディオ信号101及び/又は中間Ambisonics信号201のノイズのような特性又は音色に関する特性を、例えば中間Ambisonics信号201を分析することによって決定することができる。次に、特性情報に基づいて、周波数帯及び/又は時間/周波数タイルのサブセットを決定することができる。特に、サブセットを選択するための閾値周波数は、特性情報に基づいて決定することができる。
【0091】
方法510は、サブバンドデータに基づいて、周波数帯及び/又は時間/周波数タイルの選択されたサブセットについて、特に、周波数帯及び/又は時間/周波数タイルの選択されたサブセットのみについて、補助DirACメタデータ204を決定することを更に含むことができる。
【0092】
従って、補助DirACメタデータ204は、周波数帯及び/又は時間/周波数タイルの縮小されたサブセットについて、復号装置200で直接生成することができる(これらの周波数帯及び/又は時間/周波数タイルについてDirACメタデータを送信する必要はない)。これは、低周波数帯の場合であってもよい。これにより、Ambisonicsコーデックの効率を更に改善することができる。
【0093】
方法510は、特に頭部追跡装置を使用して、(聴取環境内の)リスナーの頭部の(空間的)方向に関する方向データを決定することを含むことができる。回転操作は、方向データに応じて中間Ambisonics信号201に対して実行され、回転されたAmbisonics信号を生成することができる。従って、中間Ambisonics信号は、資源効率の良い方法でリスナーの頭部の方向を考慮するように回転させることができる。更に、補助DirACメタデータは、(回転されていない中間Ambisonics信号の代わりに)回転されたAmbisonics信号に基づいて生成されてもよい。
【0094】
回転された中間Ambisonics信号201は、次に、DirAC合成器220を使用して処理され、リスナーにレンダリングするための(回転された)出力オーディオ信号211を提供してもよい。これを行うことによって、ヘッドの回転を効率的かつ正確に考慮することができる。
【0095】
上述のように、DirACメタデータビットストリーム(すなわちDirACメタデータ)104をエンコーダビットストリーム106から抽出することができる。方法510は、回転DirACメタデータビットストリーム(すなわち回転DirACメタデータ)を生成するために、方向データに応じてDirACメタデータビットストリーム(すなわち、DirACメタデータ)104に対して回転操作を実行することを含むことができる。中間Ambisonics信号201又はそこから派生したAmbisonics信号(特に回転Ambisonics信号)は、次に、DirAC合成器220を使用して、回転DirACメタデータビットストリームに応じて(すなわちDirACメタデータ上で)処理され、リスナーにレンダリングするための出力オーディオ信号211を提供することができる。これを行うことによって、ヘッドの回転を効率的かつ正確に考慮することができる。
【0096】
方法510は、DirAC合成器220を使用して、中間Ambisonics信号201からAmbisonics出力信号211を生成することを含むことができる。この目的のために、(エンコーダビットストリーム106からの)DirACメタデータビットストリーム104及び/又は(復号装置200で生成された)補助DirACメタデータ204を使用することができる。Ambisonics出力信号211は、入力オーディオ信号101及び/又は中間Ambisonics信号201のAmbisonics次数よりも大きいAmbisonics次数Lを有することができる。これを行うことにより、Ambisonicsオーディオレンダリングの品質及び柔軟性を効率的に改善することができる。
【0097】
上述のように、方法510は、エンコーダビットストリーム106からオーディオビットストリーム105を抽出し、(コア)オーディオデコーダ230を使用してオーディオビットストリーム105から再構成ダウンミックスチャネル信号205のセットを生成することを含むことができる。言い換えれば、再構成ダウンミックスチャネル信号205のセットをエンコーダビットストリーム106から導出することができる。
【0098】
方法510は、分析フィルタバンクを再構成ダウンミックスチャネル信号205のセットに適用して、(時間ドメインからの)再構成ダウンミックスチャネル信号205のセットをフィルタバンクドメインに変換することを更に含むことができる。分析フィルタバンクは、1つ以上の異なる再構成ダウンミックスチャネル信号205を、サブバンドのセットにグループ化することができる異なる周波数チャネル又は周波数ビンに変換するように構成することができる。1つ以上の異なる再構成ダウンミックスチャネル信号205は、フィルタバンクドメイン内で、異なるサブバンドに対するサンプル及び/又は係数として表すことができる。
【0099】
更に、方法510は、フィルタバンクドメイン内の再構成ダウンミックスチャネル信号205のセットに基づいて、フィルタバンクドメイン内で表される中間Ambisonics信号201を生成するステップ511を含むことができる。この目的のために、(SPARメタデータビットストリーム102を使用する)アップミックス操作を実行することができる。中間Ambisonics信号201は、フィルタバンクドメイン内で、異なるサブバンドに対するサンプル及び/又は係数として表すことができる。
【0100】
方法510は、DirAC合成器220を使用して、フィルタバンクドメイン内で表される中間Ambisonics信号201を処理するステップ512を更に含むことができる。従って、DirAC合成器220(及び場合によってはDirACアナライザ250)は、(別のフィルタバンク動作を実行する必要なしに)フィルタバンクドメイン内で表される中間Ambisonics信号201を直接操作することができる。これにより、(フィルタバンクドメイン内で既に表されている)DirACメタデータ104、204を、フィルタバンクドメイン内で表される中間Ambisonics信号201に直接適用することができる。
【0101】
従って、復号装置200は、単一の分析フィルタバンクを使用して、1つ以上の再構成ダウンミックス信号205をフィルタバンクドメインに変換することができる。その後、SPARアップミキシング及び/又はDirAC処理を、同じフィルタバンクドメイン内で直接提供することができる。これにより、特に効率的な復号装置200を提供することができる。更に、復号装置200のオーディオ品質を改善することができる。
【0102】
方法510は、更に、DirAC合成器220を使用してフィルタバンクドメイン内で表される中間Ambisonics信号201を処理して、フィルタバンクドメイン内で表される出力信号211を生成することを含むことができる512。上述のように、DirAC合成は、1つ以上の再構成ダウンミックス信号205に適用される分析フィルタバンクのフィルタバンクドメイン内で直接実行することができ、それによって、このフィルタバンクドメイン内で出力信号211を生成する。出力信号211は、フィルタバンクドメイン内で、フィルタバンクドメインの異なるサブバンドに対するサンプル及び/又は係数として表すことができる。
【0103】
更に、方法510は、フィルタバンクドメイン内で表される出力信号211に合成フィルタバンクを適用して、時間ドメイン内で出力信号211を生成することを含むことができる。分析フィルタバンク及び合成フィルタバンクは、典型的には、結合分析/合成フィルタバンク、特に完全再構成分析/合成フィルタバンクを形成する。一例として、分析フィルタバンク及び合成フィルタバンクは、ナイキストフィルタバンク又はQMF(quadrature mirror filter、直交ミラーフィルタ)フィルタバンクであってもよい。
【0104】
エンコーダビットストリーム106は、第1タイプのフィルタバンク、特にナイキストフィルタバンクを使用して生成されてもよい。(復号装置200で使用される)分析フィルタバンクは、第1タイプとは異なる第2タイプのフィルタバンク、特にQMFフィルタバンクであってもよい。第1タイプのフィルタバンクの周波数帯域境界は、第2タイプのフィルタバンクの対応する周波数帯域境界に調整及び/又は整合されることが好ましい。
【0105】
従って、異なるタイプの分析/合成フィルタバンクを符号化装置100及び復号装置200で使用してもよい。これにより、コーデックの待ち時間を可能な限り低く維持しながら、コーデック全体の知覚品質を更に改善することができる。
【0106】
(時間ドメイン内又はフィルタバンクドメイン内の)中間Ambisonics信号201は、元のAmbisonics入力オーディオ信号101よりも少ないチャネルを含むことができる。言い換えると、SPARデコーダ210、230を使用して、部分的なアップミックス動作(のみ)を実行して、Ambisonics入力オーディオ信号101よりも少ないチャネルを含む中間Ambisonics信号201を生成することができる。
【0107】
部分的なアップミックス動作は、複数のサブバンド及び/又は複数の時間/周波数タイルを有するフィルタバンクドメイン内で実行することができる。中間Ambisonics信号201は、複数のサブバンドのすべて及び/又は複数の時間/周波数タイルのすべてについて、Ambisonics入力オーディオ信号101よりも少ないチャネルを含むことができる。代替として、中間Ambisonics信号201は、複数のサブバンド及び/又は複数の時間/周波数タイルのサブセットのみについて、Ambisonics入力オーディオ信号101よりも少ないチャネルを含むことができる。
【0108】
従って、復号装置200は、SPARデコーダ210、230に、元のAmbisonics入力オーディオ信号101のチャネルのサブセットのみを生成させるように構成されてもよい。例えば、エンコーダビットストリーム106のビットレートが所定のビットレート閾値(例えば、64kbs)と等しいか、又はそれよりも小さい場合である。次に、このチャネルのサブセットをDirAC合成220内で使用して、出力信号211を生成することができる。これにより、デコーダ動作の数値的複雑性及びメモリ要件を低減しながら、オーディオ品質を(比較的低いビットレートで)向上させることができる。
【0109】
復号装置200は、DirAC合成器220をパススルー動作モードにするように、及び/又はDirAC合成器220をバイパスするように構成されてもよい。これは、中間Ambisonics信号201がレンダリングのための出力オーディオ信号211に対応するように行われてもよい(ここで、中間Ambisonics信号201は、例えば、部分的なアップミックス動作に起因するステレオ信号に対応することができる)。これにより、ステレオ出力を効率的な方法で提供することができる。
【0110】
「メタデータ」及び「メタデータビットストリーム」という用語は、「メタデータ」を参照する場合は「メタデータビットストリーム」を(も)指し、及び/又は「メタデータビットストリーム」を参照する場合は「メタデータ」を(も)指すように、本明細書内では交換可能な方法で使用されていることに留意されたい。
【0111】
ここに記載されるシステムの態様は、デジタル又はデジタルかされたオーディオファイルを処理する適切なコンピュータに基づく音声処理ネットワーク環境で実施されてよい。適応型オーディオシステムの部分は、コンピュータの間で送信されるデータをバッファリング及びルーティングするよう機能する1つ以上のルータ(図示しない)を含む任意の所望の数の個別機械を含む1つ以上のネットワークを含んでよい。このようなネットワークは、種々の異なるネットワークプロトコル上で構築されてよく、インターネット、広域ネットワーク(Wide Area Network (WAN))、ローカルエリアネットワーク(Local Area Network (LAN))、又はそれらの任意の組合せであってよい。
【0112】
コンポーネント、ブロック、プロセス、又は他の機能的コンポーネントのうちの1つ以上は、システムのプロセッサに基づくコンピューティング装置の実行を制御するコンピュータプログラムを通じて実装されてよい。また、留意すべきことに、ここに開示した種々の機能は、ハードウェア、ファームウェア、及び/又は種々の機械可読若しくはコンピュータ可読媒体の中に具現化されたデータ及び/又は命令として、それらの動作の観点で、レジスタトランスファ、論理コンポーネント、及び/又は他の特性、の任意の数の組合せを用いて記載され得る。このようなフォーマットされたデータ及び/又は命令が具現化されるコンピュータ可読媒体は、限定ではないが、光、磁気、又は半導体記憶媒体のような、種々の形式の物理的(非一時的)不揮発性記憶媒体を含む。
【0113】
1つ以上の実装が例として、特定の実施形態の観点で記載されたが、1つ以上の実装は、開示された実施形態に限定されないことが理解されるべきである。これに対して、これの実装は、当業者に明らかなように、種々の変形及び同様の構成をカバーすることを意図する。従って、添付の請求の範囲は、全部のこのような変形及び同様の構成を包含するように、最も広く解釈されるべきである。
【0114】
本発明の種々の態様及び実装は、請求されない以下に列挙する例示的な実施形態(enumerated example embodiment:EEE)からも理解できる。
【0115】
(EEE1)Ambisonics入力オーディオ信号を符号化する方法(500)であって、前記方法(500)は、
前記入力オーディオ信号(101)をSPARエンコーダ(110、130)とDirACアナライザ及びパラメータエンコーダ(120)とに提供するステップ(501)と、
前記SPARエンコーダ(110、130)の出力(102、105)に基づいて、かつ前記DirACアナライザ及びパラメータエンコーダ(120)の出力(104)に基づいて、エンコーダビットストリーム(106)を生成するステップ(502)と、
を含む方法。
【0116】
(EEE2)前記SPARエンコーダ(110、130)の出力(102、105)が、SPARメタデータビットストリーム(102)と、SPARダウンミックスチャネル信号(103)のセットを示すオーディオビットストリーム(105)とを含み、及び/又は、
前記DirACアナライザ及びパラメータエンコーダ(120)の出力(104)は、DirACメタデータビットストリーム(104)を含む、EEE1に記載の方法(500)。
【0117】
(EEE3)前記エンコーダビットストリーム(106)を生成するステップ(502)は、前記SPARメタデータビットストリーム(102)、前記オーディオビットストリーム(105)、及び前記DirACメタデータビットストリーム(104)を、共通エンコーダビットストリーム(106)に多重化するステップを含む、EEE2に記載の方法(500)。
【0118】
(EEE4)前記エンコーダビットストリーム(106)の表現を、特に復号装置(200)に送信し、及び/又は前記エンコーダビットストリーム(106)の表現を格納するステップ、を更に含むEEE1~3のいずれかに記載の方法(500)。
【0119】
(EEE5)前記方法(500)は、
前記入力オーディオ信号(101)を表す複数の周波数帯及び/又は複数の時間/周波数タイル内のサブバンドデータを生成するステップと、
前記複数の周波数帯及び/又は前記複数の時間/周波数タイルのサブセットを選択するステップと、
前記サブバンドデータに基づいて、周波数帯及び/又は時間/周波数タイルの選択された前記サブセットについて、特に周波数帯及び/又は時間/周波数タイルの選択された前記サブセットのみについて、前記DirACアナライザ及びパラメータエンコーダ(120)の出力(104)、特にDirACメタデータビットストリーム(104)を決定するステップと、
を含むEEE1~4のいずれかに記載の方法(500)。
【0120】
(EEE6)前記方法(500)は、
前記入力オーディオ信号(101)の特性、特に前記入力オーディオ信号(101)のノイズのような特性又は音色特性に関する特性情報を決定するステップと、
前記特性情報に基づいて、周波数帯及び/又は時間/周波数タイルの前記サブセットを選択するステップと、
を含むEEE5に記載の方法(500)。
【0121】
(EEE7)周波数帯及び/又は時間/周波数タイルの前記サブセットは、所定の閾値周波数以上の周波数の周波数範囲に対応する、EEE5~6のいずれかに記載の方法(500)。
【0122】
(EEE8)前記方法(500)は、
分析フィルタバンクを使用して、前記入力オーディオ信号(101)を表す複数の周波数帯及び/又は複数の時間/周波数タイル内のサブバンドデータを生成するステップと、
SPARメタデータ(102)を生成するために前記SPARエンコーダ(110、130)に、及びDirACメタデータ(104)を生成するために前記DirACアナライザ及びパラメータエンコーダ(120)に、前記サブバンドデータを供給するステップと、
を含むEEE1~7のいずれかに記載の方法(500)。
【0123】
(EEE9)前記方法(500)は、
合成フィルタバンクを使用して、前記SPARエンコーダ(110、130)内の1つ以上のダウンミックスチャネル信号(103)を生成するステップ、
を含むEEE8に記載の方法(500)。
【0124】
(EEE10)Ambisonics入力オーディオ信号(101)を示すエンコーダビットストリーム(106)を復号する方法(510)であって、前記方法(510)は、
前記エンコーダビットストリーム(106)に基づいて、SPARデコーダ(210、230)を使用して中間Ambisonics信号(201)を生成するステップ(511)と、
DirAC合成器(220)を使用して中間Ambisonics信号(201)を処理して、レンダリングのための出力オーディオ信号(211)を提供するステップ(512)と、
を含む方法(510)。
【0125】
(EEE11)前記方法(510)は、
前記エンコーダビットストリーム(106)からSPARメタデータビットストリーム(102)及びオーディオビットストリーム(105)を抽出するステップと、
前記SPARデコーダ(210、230)を使用して前記SPARメタデータビットストリーム(102)及び前記オーディオビットストリーム(105)から前記中間Ambisonics信号(201)を生成するステップと、
を含むEEE10に記載の方法(510)。
【0126】
(EEE12)前記方法(510)は、
オーディオデコーダ(230)を使用して前記オーディオビットストリーム(105)から再構成ダウンミックスチャネル信号(205)のセットを生成するステップと、
アップミックスユニット(210)を使用して、前記SPARメタデータビットストリーム(102)に基づいて、再構成ダウンミックスチャネル信号(205)の前記セットを前記中間Ambisonics信号(201)にアップミックスするステップと、
を含むEEE11に記載の方法(510)。
【0127】
(EEE13)前記方法(510)は、
前記エンコーダビットストリーム(106)からDirACメタデータビットストリーム(104)を抽出するステップと、
前記DirAC合成器(220)を使用して前記DirACメタデータビットストリーム(104)に依存して前記中間Ambisonics信号(201)を処理して、前記出力オーディオ信号(211)を提供するステップ(512)と、
を含むEEE10~12のいずれかに記載の方法(510)。
【0128】
(EEE14)前記方法(510)は、
前記DirACアナライザ(250)内で前記中間Ambisonics信号(201)を処理して、補助DirACメタデータ(204)を生成するステップと、
前記DirAC合成器(220)を使用して前記補助DirACメタデータ(204)に依存して前記中間Ambisonics信号(201)を処理して、前記出力オーディオ信号(211)を提供するステップ(512)と、
を含むEEE10~13のいずれかに記載の方法(510)。
【0129】
(EEE15)前記方法(510)は、
前記中間Ambisonics信号(201)を表す複数の周波数帯及び/又は複数の時間/周波数タイル内のサブバンドデータを生成するステップと、
前記複数の周波数帯及び/又は前記複数の時間/周波数タイルのサブセットを選択するステップと、
前記サブバンドデータに基づいて、周波数帯及び/又は時間/周波数タイルの選択された前記サブセットについて、特に周波数帯及び/又は時間/周波数タイルの選択された前記サブセットのみについて、前記補助DirACメタデータ(204)を決定するステップと、
を含むEEE14に記載の方法(510)。
【0130】
(EEE16)前記方法(510)は、
前記入力オーディオ信号(101)の及び/又は前記中間Ambisonics信号(201)の特性、特に前記入力オーディオ信号(101)の及び/又は前記中間Ambisonics信号(201)のノイズのような特性又は音色特性に関する特性情報を決定するステップと、
前記特性情報に基づいて、周波数帯及び/又は時間/周波数タイルの前記サブセットを選択するステップと、
を含むEEE15に記載の方法(510)。
【0131】
(EEE17)周波数帯及び/又は時間/周波数タイルの前記サブセットは、所定の閾値周波数以下の周波数の周波数範囲に対応する、EEE15~16のいずれかに記載の方法(510)。
【0132】
(EEE18)前記方法(510)は、
前記入力オーディオ信号(101)の及び/又は前記中間Ambisonics信号(201)のAmbisonics次数よりも大きいAmbisonics次数を有するDirAC合成器(220)を使用して、前記中間Ambisonics信号(201)からAmbisonics出力信号(211)を生成するステップ、
を含むEEE10~17のいずれかに記載の方法(510)。
【0133】
(EEE19)前記出力信号(211)は、Ambisonics出力信号、バイノーラル出力信号、ステレオ又はマルチスピーカ出力信号のうちの少なくとも1つを含む、EEE10~18のいずれかに記載の方法(510)。
【0134】
(EEE20)前記方法(510)は、
特に頭部追跡装置を使用して、リスナーの頭部の向きに関する方向データを決定するステップと、
前記方向データに応じて前記中間Ambisonics信号(201)に対して回転操作を実行し、回転Ambisonics信号を生成するステップと、
前記DirAC合成器(220)を使用して前記回転Ambisonics信号を処理して、前記リスナーにレンダリングするための前記出力オーディオ信号(211)を提供するステップと、
を含むEEE10~19のいずれかに記載の方法(510)。
【0135】
(EEE21)前記方法(510)は、
特に頭部追跡装置を使用して、リスナーの頭部の向きに関する方向データを決定するステップと、
前記エンコーダビットストリーム(106)からDirACメタデータ(104)を抽出するステップと、
前記方向データに応じて前記DirACメタデータ(104)に対して回転操作を実行し、回転DirACメタデータを生成するステップと、
前記DirAC合成器(220)を使用して前記回転DirACメタデータに従い前記中間Ambisonics信号(201)又は前記中間Ambisonics信号から導出されたAmbisonics信号を処理して、前記リスナーにレンダリングするための前記出力オーディオ信号(211)を提供するステップと、
を含むEEE10~20のいずれかに記載の方法(510)。
【0136】
(EEE22)前記中間Ambisonics信号(201)は、前記Ambisonics入力オーディオ信号(101)よりも少ないチャネルを含み、及び/又は、
前記SPARデコーダ(210、230)は、前記Ambisonics入力オーディオ信号(101)よりも少ないチャネルを含む中間Ambisonics信号(201)を生成するために部分的アップミキシング動作を実行するために使用される、
EEE10~21のいずれかに記載の方法(510)。
【0137】
(EEE23)前記部分的アップミキシング動作は、複数のサブバンド及び/又は複数の時間/周波数タイルを有するフィルタバンクドメインにおいて実行され、
前記中間Ambisonics信号(201)は、前記複数のサブバンドのすべて及び/又は前記複数の時間/周波数タイルのすべてについて、前記Ambisonics入力オーディオ信号(101)よりも少ないチャネルを含み、又は、
前記中間Ambisonics信号(201)は、前記複数のサブバンド及び/又は前記複数の時間/周波数タイルのサブセットに対してのみ、前記Ambisonics入力オーディオ信号(101)よりも少ないチャネルを含む、
EEE22に記載の方法(510)。
【0138】
(EEE24)前記方法(510)は、
前記エンコーダビットストリーム(106)からオーディオビットストリーム(105)を抽出するステップと、
オーディオデコーダ(230)を使用して、前記オーディオビットストリーム(105)から再構成ダウンミックスチャネル信号(205)のセットを生成するステップと、
分析フィルタバンクを前記再構成ダウンミックスチャネル信号(205)のセットに適用して、前記再構成ダウンミックスチャネル信号(205)のセットをフィルタバンクドメインに変換するステップと、
前記フィルタバンクドメイン内の前記再構成ダウンミックスチャネル信号(205)のセットに基づいて、前記フィルタバンクドメインで表される中間Ambisonics信号(201)を生成するステップ(511)と、
前記DirAC合成器(220)を使用して前記フィルタバンクドメインで表される前記中間Ambisonics信号(201)を処理するステップ(512)と、
を含むEEE10~22のいずれかに記載の方法(510)。
【0139】
(EEE25)前記方法(510)は、
前記DirAC合成器(220)を使用して前記フィルタバンクドメインで表される前記中間Ambisonics信号(201)を処理して、前記フィルタバンクドメインで表される出力信号を(211)生成するステップ(512)と、
前記フィルタバンクドメインで表される前記出力信号(211)に合成フィルタバンクを適用して、時間ドメインの出力信号(211)を生成するステップと、
を含むEEE24記載の方法(510)。
【0140】
(EEE26)前記分析フィルタバンク及び前記合成フィルタバンクは、結合分析/合成フィルタバンク、特に完全再構成分析/合成フィルタバンクを形成し、及び/又は、
前記分析フィルタバンク及び前記合成フィルタバンクは、ナイキストフィルタバンク又はQMFフィルタバンクである、
EEE25に記載の方法(510)。
【0141】
(EEE27)前記エンコーダビットストリーム(106)は、第1タイプのフィルタバンク、特にナイキストフィルタバンクを使用して生成されたものであり、
前記分析フィルタバンクは、前記第1タイプとは異なる第2タイプのフィルタバンク、特にQMFフィルタバンクである、
EEE24~26のいずれかに記載の方法(510)。
【0142】
(EEE28)前記第1タイプのフィルタバンクの周波数帯域境界が、前記第2タイプのフィルタバンクの対応する周波数帯域境界に調整される、EEE27に記載の方法(510)。
【0143】
(EEE29)システムであって、
1つ以上のプロセッサと、
命令を格納する非一時的コンピュータ可読媒体であって、前記命令は、前記1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサにEEE1~28のいずれかに記載の動作を実行させる、非一時的コンピュータ可読記憶媒体と、
を含むシステム。
【0144】
(EEE30)命令を格納する非一時的コンピュータ可読媒体であって、前記命令は、前記1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに、EEE1~28のいずれかに記載の動作を実行させる、非一時的コンピュータ可読媒体。
【0145】
(EEE31)Ambisonics入力オーディオ信号(101)を符号化する符号化装置(100)であって、前記符号化装置(100)は、
前記入力オーディオ信号(101)をSPARエンコーダ(110、130)とDirACアナライザ及びパラメータエンコーダ(120)とに提供し、
前記SPARエンコーダ(110、130)の出力(102、105)に基づいて、かつ前記DirACアナライザ及びパラメータエンコーダ(120)の出力(104)に基づいて、エンコーダビットストリーム(106)を生成する、
ように構成される符号化装置(100)。
【0146】
(EEE32)前記Ambisonics入力オーディオ信号(101)は複数の入力チャネル信号を含み、前記SPARエンコーダ(110、130)は、
サブバンド及び/又はQMFドメインの前記複数の入力チャネル信号を1つ以上のダウンミックスチャネル信号(130)にダウンミックスし、
前記1つ以上のダウンミックスチャネル信号(103)を再構成Ambisonics信号(201)の複数の再構成チャネル信号にアップミックスするように適応された、前記サブバンド及び/又はQMFドメイン内のSPARメタデータビットストリーム(102)を生成する、
ように構成されている、EEE31に記載の符号化装置(100)。
【0147】
(EEE33)前記DirACアナライザ及びパラメータエンコーダ(130)は、サブバンド及び/又はQMFドメインのAmbisonics入力オーディオ信号(101)に対して到来方向分析を実行して、前記Ambisonics入力オーディオ信号(101)の1つ以上の主要成分の到来方向を示すDirACメタデータビットストリーム(104)を決定するように構成されている、EEE31~32のいずれかに記載の符号化装置(100)。
【0148】
(EEE34)Ambisonics入力オーディオ信号(101)を示すエンコーダビットストリーム(106)を復号する復号装置(200)であって、前記復号装置(200)は、
前記エンコーダビットストリーム(106)に基づいて、SPARデコーダ(210、230)を使用して中間Ambisonics信号(201)を生成し、
DirAC合成器(220)を使用して前記中間Ambisonics信号(210)を処理して、レンダリングのための出力オーディオ信号(211)を提供する、
ように構成される復号装置(200)。
【0149】
(EEE35)前記復号装置(200)は、
前記DirAC合成器(220)をパススルー動作モードにする、及び/又は、
前記DirAC合成器(220)をバイパスする、
ように構成され、特に、前記中間Ambisonics信号(201)がレンダリング用の前記出力オーディオ信号(211)に対応するようにする、EEE34に記載の復号装置(200)。
図1
図2
図3a
図3b
図4
図5a
図5b
【国際調査報告】