特表2023-500631 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー　ラボラトリーズ　ライセンシング　コーポレイションの特許一覧

特表2023-500631方向メタデータを使用するマルチチャネルオーディオ符号化及び復号化

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-01-10

(54)【発明の名称】方向メタデータを使用するマルチチャネルオーディオ符号化及び復号化

(51)【国際特許分類】

G10L 19/008 20130101AFI20221227BHJP

G10L 25/51 20130101ALI20221227BHJP

【ＦＩ】

G10L19/008 100

G10L25/51 400

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2022524622

(86)(22)【出願日】2020-10-29

(85)【翻訳文提出日】2022-04-26

(86)【国際出願番号】 US2020057885

(87)【国際公開番号】W WO2021087063

(87)【国際公開日】2021-05-06

(31)【優先権主張番号】62/927,790

(32)【優先日】2019-10-30

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/086,465

(32)【優先日】2020-10-01

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】507236292

【氏名又は名称】ドルビーラボラトリーズライセンシングコーポレイション

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】マグラス，デイヴィッドエス．

(57)【要約】

本開示は、空間オーディオ信号を処理して、空間オーディオ信号の圧縮表現を生成する方法に関する。方法は、１つ以上のオーディオ要素の到来方向を決定するよう空間オーディオ信号を解析することと、少なくとも１つの周波数サブバンドについて、到来方向に関連した信号電力の各々の指示を決定することと、オーディオ要素の到来方向の指示を含む方向情報及び信号電力の各々の指示を含むエネルギ情報を含むメタデータを生成することと、空間オーディオ信号に基づき、予め定義された数のチャネルを有するチャネルベースオーディオ信号を生成することと、圧縮表現としてチャネルベースオーディオ信号及びメタデータを出力することとを含む。本開示は更に、空間オーディオ信号の圧縮表現を処理して、空間オーディオ信号の再構成表現を生成する方法と、対応する装置、プログラム、及び記憶媒体とに関する。

【特許請求の範囲】

【請求項1】

空間オーディオ信号を処理して、該空間オーディオ信号の圧縮表現を生成する方法であって、
前記空間オーディオ信号によって表されるオーディオシーンにおける１つ以上のオーディオ要素の到来方向を決定するよう前記空間オーディオ信号を解析することと、
前記空間オーディオ信号の少なくとも１つの周波数サブバンドについて、前記決定された到来方向に関連した信号電力の各々の指示を決定することと、
方向情報及びエネルギ情報を含むメタデータを生成することであり、前記方向情報が前記１つ以上のオーディオ要素の前記決定された到来方向の指示を含み、前記エネルギ情報が前記決定された到来方向に関連した信号電力の各々の指示を含む、ことと、
前記空間オーディオ信号に基づき、予め定義された数のチャネルを有するチャネルベースオーディオ信号を生成することと、
前記空間オーディオ信号の前記圧縮表現として前記チャネルベースオーディオ信号及び前記メタデータを出力することと
を有する方法。

【請求項2】

前記空間オーディオ信号を解析することは、前記空間オーディオ信号の複数の周波数サブバンドに基づく、
請求項１に記載の方法。

【請求項3】

前記空間オーディオ信号を解析することは、前記空間オーディオ信号にシーン解析を適用することを含む、
請求項１又は２に記載の方法。

【請求項4】

前記空間オーディオ信号は、マルチチャネルオーディオ信号であり、あるいは、
前記空間オーディオ信号は、オブジェクトベースオーディオ信号であり、当該方法は、前記シーン解析を適用する前に、前記オブジェクトベースオーディオ信号をマルチチャネルオーディオ信号に変換することを有する、
請求項３に記載の方法。

【請求項5】

所与の到来方向に関連した信号電力の指示は、前記周波数サブバンドでの総信号電力に対する前記所与の到来方向についての前記周波数サブバンドでの信号電力の比に関する、
請求項１乃至４のうちいずれか一項に記載の方法。

【請求項6】

前記信号電力の指示は、複数の周波数サブバンドの夫々について決定され、所与の到来方向及び所与の周波数サブバンドについて、前記所与の周波数サブバンドでの総信号電力に対する前記所与の到来方向についての前記所与の周波数サブバンドでの信号電力の比に関する、
請求項１乃至５のうちいずれか一項に記載の方法。

【請求項7】

前記空間オーディオ信号を解析すること、前記信号電力の各々の指示を決定すること、及び前記チャネルベースオーディオ信号を生成することは、時間セグメントごとに実行される、
請求項１乃至６のうちいずれか一項に記載の方法。

【請求項8】

前記空間オーディオ信号を解析すること、前記信号電力の各々の指示を決定すること、及び前記チャネルベースオーディオ信号を生成することは、前記空間オーディオ信号の時間周波数表現に基づき実行される、
請求項１乃至７のうちいずれか一項に記載の方法。

【請求項9】

前記空間オーディオ信号は、複数のオーディオオブジェクト及び関連する方向ベクトルを含むオブジェクトベースオーディオ信号であり、
当該方法は、前記オーディオオブジェクトを予め定義されたオーディオチャネルの組にパンすることによってマルチチャネルオーディオ信号を生成することを更に有し、各オーディオオブジェクトが、その方向ベクトルに従って前記予め定義されたオーディオチャネルの組にパンされ、
前記チャネルベースオーディオ信号は、ダウンミックス操作を前記マルチチャネルオーディオ信号に適用することによって生成されたダウンミックス信号である、
請求項１乃至３又は５乃至８のうちいずれか一項に記載の方法。

【請求項10】

前記空間オーディオ信号は、マルチチャネルオーディオ信号であり、
前記チャネルベースオーディオ信号は、ダウンミックス操作を前記マルチチャネルオーディオ信号に適用することによって生成されたダウンミックス信号である、
請求項１乃至３又は５乃至８のうちいずれか一項に記載の方法。

【請求項11】

空間オーディオ信号の圧縮表現を処理して、前記空間オーディオ信号の再構成表現を生成する方法であって、前記圧縮表現は、予め定義された数のチャネルを有するチャネルベースオーディオ信号及びメタデータを含み、前記メタデータは、方向情報及びエネルギ情報を含み、前記方向情報がオーディオシーンにおける１つ以上のオーディオ要素の到来方向の指示を含み、前記エネルギ情報が、少なくとも１つの周波数サブバンドについて、前記到来方向に関連した信号電力の各々の指示を含む、前記方法において、
前記チャネルベースオーディオ信号、前記方向情報、及び前記エネルギ情報に基づき、前記１つ以上のオーディオ要素のオーディオ信号を生成することと、
前記チャネルベースオーディオ信号、前記方向情報、及び前記エネルギ情報に基づき、前記１つ以上のオーディオ要素が実質的に存在しない残留オーディオ信号を生成することと
を有する方法。

【請求項12】

所与の到来方向に関連した信号電力の指示は、前記周波数サブバンドでの総信号電力に対する前記所与の到来方向についての前記周波数サブバンドでの信号電力の比に関する、
請求項１１に記載の方法。

【請求項13】

前記エネルギ情報は、複数の周波数サブバンドの夫々についての信号電力の指示を含み、
信号電力の指示は、所与の到来方向及び所与の周波数サブバンドについて、前記所与の周波数サブバンドでの総信号電力に対する前記所与の到来方向についての前記所与の周波数サブバンドでの信号電力の比に関する、
請求項１１又は１２に記載の方法。

【請求項14】

前記１つ以上のオーディオ要素の前記オーディオ信号を出力オーディオフォーマットのチャネルの組にパンすることと、
前記パンされた１つ以上のオーディオ要素及び前記残留オーディオ信号に基づき、前記出力オーディオフォーマットで、再構成されたマルチチャネルオーディオ信号を生成することと
を更に有する、請求項１１乃至１３のうちいずれか一項に記載の方法。

【請求項15】

前記１つ以上のオーディオ要素の前記オーディオ信号を生成することは、
前記方向情報及び前記エネルギ情報に基づき、前記残留オーディオ信号及び前記１つ以上のオーディオ要素の前記オーディオ信号を含む中間表現へ前記チャネルベースオーディオ信号をマッピングするための逆混合行列Ｍの係数を決定することを有する、
請求項１１乃至１４のうちいずれか一項に記載の方法。

【請求項16】

前記逆混合行列Ｍの係数を決定することは、
前記１つ以上のオーディオ要素の夫々について、当該オーディオ要素の到来方向ｄｉｒに基づき、当該オーディオ要素を前記チャネルベースオーディオ信号のチャネルにパンするためのパンニングベクトルＰａｎ_ｄｏｗｎ（ｄｉｒ）を決定することと、
前記決定されたパンニングベクトルに基づき、前記残留オーディオ信号及び前記１つ以上のオーディオ要素の前記オーディオ信号を前記チャネルベースオーディオ信号のチャネルにマッピングするために使用される混合行列Ｅを決定することと、
前記エネルギ情報に基づき、前記中間表現の共分散行列Ｓを決定することと、
前記混合行列Ｅ及び前記共分散行列Ｓに基づき前記逆混合行列Ｍの係数を決定することと
を有する、
請求項１５に記載の方法。

【請求項17】

前記混合行列Ｅは、

Ｅ＝（Ｉ_Ｎ｜Ｐａｎ_ｄｏｗｎ（ｄｉｒ_１）｜・・・｜Ｐａｎ_ｄｏｗｎ（ｄｉｒ_Ｐ｜）

に従って決定され、Ｉ_Ｎは、Ｎ×Ｎの単位行列であり、Ｎは、前記チャネルベースオーディオ信号のチャネルの数を示し、Ｐａｎ_ｄｏｗｎ（ｄｉｒ_ｐ）は、前記チャネルベースオーディオ信号のＮ個のチャネルにｐ番目のオーディオ要素をパンする関連する到来方向ｄｉｒ_ｐを有する前記ｐ番目のオーディオ要素のパンニングベクトルであり、ｐ＝１，・・・，Ｐは、前記１つ以上のオーディオ要素の中の各々１つを示し、Ｐは、前記１つ以上のオーディオ要素の総数を示す、
請求項１６に記載の方法。

【請求項18】

前記共分散行列Ｓは、１≦ｎ≦Ｎについては、

【数25】

に従って、１≦ｐ≦Ｐについては、

｛Ｓ｝_{Ｎ＋ｐ，Ｎ＋ｐ}＝ｅ_ｐ

に従って、対角行列として決定され、ｅ_ｐは、ｐ番目のオーディオ要素の到来方向に関連した信号電力である、
請求項１７に記載の方法。

【請求項19】

前記混合行列及び前記共分散行列に基づき前記逆混合行列の係数を決定することは、前記混合行列及び前記共分散行列に基づき疑似逆行列を決定することを含む、
請求項１６乃至１８のうちいずれか一項に記載の方法。

【請求項20】

前記逆混合行列Ｍは、

Ｍ＝Ｓ×Ｅ^＊×（Ｅ×Ｓ×Ｅ^＊）^－１

に従って決定され、
×は、行列積を示し、＊は、行列の共役転置を示す、
請求項１６乃至１９のうちいずれか一項に記載の方法。

【請求項21】

前記チャネルベースオーディオ信号は、１次アンビソニックス信号である、
請求項１乃至２０のうちいずれか一項に記載の方法。

【請求項22】

プロセッサによって実行される場合に、該プロセッサに、請求項１乃至２１のうちいずれか一項に記載の方法の全ステップを実行させる命令を有するプログラム。

【請求項23】

請求項２２に記載のプログラムを記憶しているコンピュータ可読記憶媒体。

【請求項24】

プロセッサ及び該プロセッサへ結合されたメモリを有し、
前記プロセッサは、請求項１乃至２１のうちいずれか一項に記載の方法の全ステップを実行するよう構成される、
装置。

【発明の詳細な説明】

【技術分野】

【0001】

［関連出願への相互参照］
本願は、２０１９年１０月３０日付けで出願された米国特許仮出願第６２／９２７，７９０号、及び２０２０年１０月１日付けで出願された米国特許仮出願第６３／０８６，４６５号に対する優先権を主張するものであり、これらの米国出願の夫々は、その全文を参照により本願に援用される。

【0002】

［技術分野］
本開示は、概して、オーディオ信号処理に関する。特に、本開示は、空間オーディオ信号（空間オーディオシーン）を処理して、空間オーディオ信号の圧縮表現を生成する方法、及び空間オーディオ信号の圧縮表現を処理して、空間オーディオ信号の再構成表現を生成する方法に関する。

【背景技術】

【0003】

人間の聴覚により、リスナーは空間オーディオシーンの形で彼らの環境を知覚することができる。ここでは、「空間オーディオシーン」という用語は、リスナーの周囲の音響環境、又はリスナーの心の中で知覚される音響環境を指すために使用される。

【0004】

人間の経験は空間オーディオシーンに付随しているが、オーディオの録音及び再生の技術には、オーディオ信号又はオーディオチャネルの捕捉、操作、送信、及び再生が含まれる。「オーディオストリーム」という用語は、特にオーディオストリームが空間オーディオシーンを表すことを目的としている場合に、１つ以上のオーディオ信号の集合を指すために使用される。

【0005】

オーディオストリームは、電気音響変換器を介して、又は他の手段によってリスナーに再生されて、１人以上のリスナーに空間オーディオシーンの形でリスニング体験を提供することができる。オーディオの録音の実行者及びオーディオアーティストの目標は、一般的に、リスナーに特定の空間オーディオシーンの体験を提供することを目的としたオーディオストリームを作成することである。

【0006】

オーディオストリームには、再生プロセスを支援するメタデータと呼ばれる関連データが付随している場合がある。付随するメタデータには、時間とともに変化する情報が含まれる場合がある。この情報は、再生プロセス中に適用される処理の変更に影響を与えるために使用され得る。

【0007】

以下で、「捕捉されたオーディオエクスペリエンス」という用語は、オーディオストリームと関連するメタデータを指すために使用される場合がある。

【0008】

一部のアプリケーションでは、メタデータは、再生用の意図されたラウドスピーカ配置を示すデータのみから成る。再生スピーカの配置が標準化されていることを前提として、しばしば、このメタデータは省略される。この場合、捕捉されたオーディオエクスペリエンスは、オーディオストリームのみから成る。そのような捕捉されたオーディオエクスペリエンスの１つの例は、コンパクトディスクに記録された２チャネルオーディオストリームである。このとき、意図されている再生システムは、リスナーの前に配置された２つのラウドスピーカの形式であると想定される。

【0009】

代替的に、シーンベースのマルチチャネルオーディオ信号の形をとる捕捉されたオーディオエクスペリエンスは、スピーカ信号の組を生成するために、混合行列により、オーディオ信号を処理することによってリスナーへの提示を意図され得る。各スピーカ信号は、その後に、各々のラウドスピーカに再生される。このとき、ラウドスピーカは、任意に、リスナーの周りに空間的に配置され得る。この例では、混合行列は、シーンベースのフォーマット及び再生スピーカの配置に関する事前の知識に基づいて生成され得る。

【0010】

シーンベースのフォーマットの例は、高次アンビソニックス（Higher Order Ambisonics）（ＨＯＡ）であり、適切な混合行列を計算する方法の例は、参照により本願に援用される“Ambisonics”，Franz Zotter and Matthias Frank，ISBN: 978-3-030-17206-0，Chapter 3で与えられる。

【0011】

通常、このようなシーンベースのフォーマットには、多数のチャネル又はオーディオオブジェクトが含まれるため、これらのフォーマットで空間オーディオ信号を送信又は保存する場合は、バンド幅又はストレージの要件が比較的高くなる。

【0012】

従って、空間オーディオシーンを表す空間オーディオ信号のコンパクトな表現が必要である。これは、チャネルベース及びオブジェクトベースの両方の空間オーディオ信号に当てはまる。

【発明の概要】

【0013】

本開示は、空間オーディオ信号を処理して、空間オーディオ信号の圧縮表現を生成する方法と、空間オーディオ信号の圧縮表現を処理して、空間オーディオ信号の再構成表現を生成する方法と、対応する装置、プログラム、及びコンピュータ可読記憶媒体とを提案する。

【0014】

本開示の一態様は、空間オーディオ信号を処理して、空間オーディオ信号の圧縮表現を生成する方法に関する。空間オーディオ信号は、例えば、マルチチャネル信号又はオブジェクトベース信号であってよい。圧縮表現は、コンパクトな又はサイズを低減された表現であってよい。方法は、空間オーディオ信号によって表されるオーディオシーン（空間オーディオシーン）における１つ以上のオーディオ要素の到来方向を決定するよう空間オーディオ信号を解析することを含み得る。オーディオ要素は、ドミナントオーディオ要素であってよい。（ドミナント）オーディオ要素は、例えば、オーディオシーンにおける（ドミナント）音響オブジェクト、（ドミナント）音源、又は（ドミナント）音響コンポーネントに関係があってよい。１つ以上のオーディオ要素は、例えば、４つのオーディオ要素のような、１から１０のオーディオ要素を含み得る。到来方向は、オーディオ要素の知覚された位置を示す単位球面上の位置に対応してよい。方法は更に、空間オーディオ信号の少なくとも１つの周波数サブバンドについて（例えば、全ての周波数サブバンドについて）、決定された到来方向に関連した信号電力の各々の指示を決定することを含み得る。方法は更に、方向情報及びエネルギ情報を含むメタデータを生成することであり、方向情報が１つ以上のオーディオ要素の決定された到来方向の指示を含み、エネルギ情報が決定された到来方向に関連した信号電力の各々の指示を含む、ことを含み得る。方法は更に、空間オーディオ信号に基づき、予め定義された数のチャネルを有するチャネルベースオーディオ信号を生成することを含み得る。チャネルベースオーディオ信号は、オーディオ混合信号又はオーディオ混合ストリームと呼ばれることがある。チャネルベースオーディオ信号のチャネルの数は、空間オーディオ信号のチャネルの数又はオブジェクトの数よりも少なくてもよいことが理解される。方法はまた、空間オーディオ信号の圧縮表現としてチャネルベースオーディオ信号及びメタデータを出力することを更に含み得る。メタデータは、メタデータストリームに関係があってよい。

【0015】

それによって、空間オーディオ信号の圧縮表現は、限られた数のチャネルを含むように生成され得る。それでも、方向情報及びエネルギ情報の適切な使用によって、デコーダは、元の空間オーディオ信号の表現に関する限りは元の空間オーディオ信号の非常に優れた近似である元の空間オーディオ信号の再構成されたバージョンを生成することができる。

【0016】

いくつかの実施形態で、空間オーディオ信号を解析することは、空間オーディオ信号の複数の周波数サブバンドに基づき得る。例えば、解析は、空間オーディオ信号の全周波数範囲（すなわち、全信号）に基づいてよい。つまり、解析は、全ての周波数サブバンドに基づいてよい。

【0017】

いくつかの実施形態で、空間オーディオ信号を解析することは、空間オーディオ信号にシーン解析を適用することを含み得る。それによって、オーディオシーンにおけるドミナントオーディオ要素（の方向）は、信頼できる効率的な方法で決定可能である。

【0018】

いくつかの実施形態で、空間オーディオ信号は、マルチチャネルオーディオ信号であってよい。代替的に、空間オーディオ信号は、オブジェクトベースオーディオ信号であってもよい。この場合に、方法は、シーン解析を適用する前に、オブジェクトベースオーディオ信号をマルチチャネルオーディオ信号に変換することを更に含み得る。これは、オーディオ信号にシーン解析ツールを有意味に適用することを可能にする。

【0019】

いくつかの実施形態で、所与の到来方向に関連した信号電力の指示は、周波数サブバンドでの総信号電力に対する所与の到来方向についての周波数サブバンドでの信号電力の比に関係があってよい。

【0020】

いくつかの実施形態で、信号電力の指示は、複数の周波数サブバンドの夫々について決定され得る。この場合に、それらは、所与の到来方向及び所与の周波数サブバンドについて、所与の周波数サブバンドでの総信号電力に対する所与の到来方向についての所与の周波数サブバンドでの信号電力の比に関係があってよい。特に、信号電力の指示は、サブバンドごとに決定され得る一方で、（ドミナント）到来方向の決定は、全信号に対して（つまり、全ての周波数サブバンドに基づいて）実行され得る。

【0021】

いくつかの実施形態で、空間オーディオ信号を解析すること、信号電力の各々の指示を決定すること、及びチャネルベースオーディオ信号を生成することは、時間セグメントごとに実行され得る。従って、圧縮表現は、複数の時間セグメントの夫々について、各時間セグメントのダウンミックスオーディオ信号及びメタデータ（メタデータブロック）により、生成及び出力され得る。代替的に、又は追加的に、空間オーディオ信号を解析すること、信号電力の各々の指示を決定すること、及びチャネルベースオーディオ信号を生成することは、空間オーディオ信号の時間周波数表現に基づき実行されてもよい。例えば、上記のステップは、空間オーディオ信号の離散フーリエ変換（例えば、ＳＴＦＴ）に基づき実行されてもよい。つまり、各時間セグメント（時間ブロック）について、上記のステップは、空間オーディオ信号の時間周波数ビン（ＦＦＴビン）に基づいて、つまり、空間オーディオ信号のフーリエ係数に基づいて、実行されてよい。

【0022】

いくつかの実施形態で、空間オーディオ信号は、複数のオーディオオブジェクト及び関連する方向ベクトルを含むオブジェクトベースオーディオ信号であってよい。その場合に、方法は更に、オーディオオブジェクトを予め定義されたオーディオチャネルの組にパンすることによってマルチチャネルオーディオ信号を生成することを含み得る。その中で、各オーディオオブジェクトは、その方向ベクトルに従って、予め定義されたオーディオチャネルの組にパンされ得る。更に、チャネルベースオーディオ信号は、ダウンミックス操作をマルチチャネルオーディオ信号に適用することによって生成されたダウンミックス信号であってよい。マルチチャネルオーディオ信号は、例えば、高次アンビソニックス信号であってよい。

【0023】

いくつかの実施形態で、空間オーディオ信号は、マルチチャネルオーディオ信号であってよい。その場合に、チャネルベースオーディオ信号は、ダウンミックス操作をマルチチャネルオーディオ信号に適用することによって生成されたダウンミックス信号であってよい。

【0024】

本開示の他の態様は、空間オーディオ信号の圧縮表現を処理して、空間オーディオ信号の再構成表現を生成する方法に関する。圧縮表現は、予め定義された数のチャネルを有するチャネルベースオーディオ信号と、メタデータとを含み得る。メタデータは、方向情報及びエネルギ情報を含み得る。方向情報は、オーディオシーン（空間オーディオシーン）における１つ以上のオーディオ要素の到来方向の指示を含み得る。エネルギ情報は、少なくとも１つの周波数サブバンドについて、到来方向に関連した信号電力の各々の指示を含み得る。方法は、チャネルベースオーディオ信号、方向情報、及びエネルギ情報に基づき、１つ以上のオーディオ要素のオーディオ信号を生成することを含み得る。方法は、チャネルベースオーディオ信号、方向情報、及びエネルギ情報に基づき、１つ以上のオーディオ要素が実質的に存在しない残留オーディオ信号を生成することを更に含み得る。残留信号は、チャネルベースオーディオ信号と同じオーディオフォーマットで表現され得、例えば、同数のチャネルを有し得る。

【0025】

【0026】

いくつかの実施形態で、エネルギ情報は、複数の周波数サブバンドの夫々についての信号電力の指示を含み得る。その場合に、信号電力の指示は、所与の到来方向及び所与の周波数サブバンドについて、所与の周波数サブバンドでの総信号電力に対する所与の到来方向についての所与の周波数サブバンドでの信号電力の比に関係があってよい。

【0027】

いくつかの実施形態で、方法は、１つ以上のオーディオ要素のオーディオ信号を出力オーディオフォーマットのチャネルの組にパンすることを更に含み得る。方法はまた、パンされた１つ以上のオーディオ要素及び残留オーディオ信号に基づき、出力オーディオフォーマットで、再構成されたマルチチャネルオーディオ信号を生成することを更に含み得る。出力オーディオフォーマットは、例えば、ＨＯＡ又は任意の他の適切なマルチチャネルフォーマットのような出力表現に関係があってよい。再構成されたマルチチャネルオーディオ信号を生成することは、残留信号を出力オーディオフォーマットのチャネルの組にアップミックスすることを含み得る。再構成されたマルチチャネルオーディオ信号を生成することは、パンされた１つ以上のオーディオ要素及びアップミックスされた残留信号を足し合わせることを更に含み得る。

【0028】

いくつかの実施形態で、１つ以上のオーディオ要素のオーディオ信号を生成することは、方向情報及びエネルギ情報に基づき、残留オーディオ信号及び１つ以上のオーディオ要素のオーディオ信号を含む中間表現へチャネルベースオーディオ信号をマッピングするための逆混合行列Ｍの係数を決定することを含み得る。中間表現は、分離された若しくは分離可能な表現、又はハイブリッド表現とも呼ばれることがある。

【0029】

いくつかの実施形態で、逆混合行列Ｍの係数を決定することは、１つ以上のオーディオ要素の夫々について、当該オーディオ要素の到来方向ｄｉｒに基づき、当該オーディオ要素をチャネルベースオーディオ信号のチャネルにパンするためのパンニングベクトルＰａｎ_ｄｏｗｎ（ｄｉｒ）を決定することを含み得る。上記の逆混合行列Ｍの係数を決定することは、決定されたパンニングベクトルに基づき、残留オーディオ信号及び１つ以上のオーディオ要素のオーディオ信号をチャネルベースオーディオ信号のチャネルにマッピングするために使用される混合行列Ｅを決定することを更に含み得る。上記の逆混合行列Ｍの係数を決定することは、エネルギ情報に基づき中間表現の共分散行列Ｓを決定することを更に含み得る。共分散行列Ｓの決定は、決定されたパンニングベクトルＰａｎ_ｄｏｗｎに更に基づいてもよい。上記の逆混合行列Ｍの係数を決定することはまた、混合行列Ｅ及び共分散行列Ｓに基づき逆混合行列Ｍの係数を決定することを更に含み得る。

【0030】

いくつかの実施形態で、混合行列Ｅは、

Ｅ＝（Ｉ_Ｎ｜Ｐａｎ_ｄｏｗｎ（ｄｉｒ_１）｜・・・｜Ｐａｎ_ｄｏｗｎ（ｄｉｒ_Ｐ｜）

に従って決定され得る。ここで、Ｉ_Ｎは、Ｎ×Ｎの単位行列であることができ、Ｎは、チャネルベースオーディオ信号のチャネルの数を示し、Ｐａｎ_ｄｏｗｎ（ｄｉｒ_ｐ）は、チャネルベースオーディオ信号のＮ個のチャネルにｐ番目のオーディオ要素をパン（マッピング）する関連する到来方向ｄｉｒ_ｐを有するｐ番目のオーディオ要素のパンニングベクトルであることができ、ｐ＝１，・・・，Ｐは、１つ以上のオーディオ要素の中の各々１つを示し、Ｐは、１つ以上のオーディオ要素の総数を示す。従って、行列Ｅは、Ｎ×Ｐ行列であることができる。行列Ｅは、複数の時間セグメントｋの夫々について決定されてよい。その場合に、行列Ｅ及び到来方向ｄｉｒ_ｐは、時間セグメントを示すインデックスｋを有することになる。例えば、Ｅ_ｋ＝（Ｉ_Ｎ｜Ｐａｎ_ｄｏｗｎ（ｄｉｒ_ｋ，１）｜・・・｜Ｐａｎ_ｄｏｗｎ（ｄｉｒ_ｋ，Ｐ））である。たとえ、提案されている方法がバンド単位で動作し得るとしても、行列Ｅは、全ての周波数サブバンドについて同じになる。

【0031】

いくつかの実施形態で、共分散行列Ｓは、１≦ｎ≦Ｎについては、

【数1】

に従って、１≦ｐ≦Ｐについては、

｛Ｓ｝_{Ｎ＋ｐ，Ｎ＋ｐ}＝ｅ_ｐ

に従って、対角行列として決定され得る。ここで、ｅ_ｐは、ｐ番目のオーディオ要素の到来方向に関連した信号電力であることができる。行列Ｓは、複数の時間セグメントｋの夫々について、及び／又は複数の周波数サブバンドｂの夫々について、決定され得る。その場合に、行列Ｓ及び信号電力ｅ_ｐは、時間セグメントを示すインデックスｋ及び／又は周波数サブバンドを示すインデックスｂを有することになる。例えば、１≦ｎ≦Ｎについては、

【数2】

であり、１≦ｐ≦Ｐについては、

｛Ｓ_ｋ，ｂ｝_{Ｎ＋ｐ，Ｎ＋ｐ}＝ｅ_ｋ，_ｐ，ｂ

である。

【0032】

いくつかの実施形態で、混合行列Ｅ及び共分散行列Ｓに基づき逆混合行列Ｍの係数を決定することは、混合行列Ｅ及び共分散行列Ｓに基づき疑似逆行列を決定することを含み得る。

【0033】

いくつかの実施形態で、逆混合行列Ｍは、

Ｍ＝Ｓ×Ｅ^＊×（Ｅ×Ｓ×Ｅ^＊）^－１

に従って決定され得る。ここで、「×」は、行列積を示し、「＊」は、行列の共役転置を示す。逆混合行列Ｍは、複数の時間セグメントｋの夫々について、及び／又は複数の周波数サブバンドｂの夫々について、決定され得る。その場合に、行列Ｍ及びＳは、時間セグメントを示すインデックスｋ及び／又は周波数サブバンドを示すインデックスｂを有することになり、行列Ｅは、時間セグメントを示すインデックスｋを有することになる。例えば、

Ｍ_ｋ，ｂ＝Ｓ_ｋ，ｂ×Ｅ^＊ _ｋ×（Ｅ_ｋ×Ｓ_ｋ，ｂ×Ｅ^＊ _ｋ）^－１

である。

【0034】

いくつかの実施形態で、チャネルベースオーディオ信号は、１次アンビソニックス信号であってよい。

【0035】

他の態様は、プロセッサ及びプロセッサへ結合されたメモリを含み、プロセッサが、上記の態様及び実施形態のいずれか１つに従う方法の全ステップを実行するよう構成される、装置に関する。

【0036】

本開示の他の態様は、プロセッサによって実行される場合に、プロセッサに、上記の方法の全ステップを実行させる命令を含むプログラムに関する。

【0037】

本開示の更なる他の態様は、上記のプログラムを記憶しているコンピュータ可読記憶媒体に関する。

【0038】

本開示の更なる実施形態は、オーディオ混合ストリーム及び方向メタデータストリームの形で空間オーディオシーンを表現する効率的な方法を含み、方向メタデータストリームは、空間オーディオシーンにおける指向性音響要素の位置を示すデータと、多数のサブバンドの中で、そのサブバンドでの空間オーディオシーンの総電力に対して各指向性音響要素の電力を示すデータとを含む。更なる他の実施形態は、入力された空間オーディオシーンから方向メタデータストリームを決定する方法と、再構成されたオーディオシーンを方向メタデータストリーム及び関連するオーディオ混合ストリームから生成する方法とに関する。

【0039】

いくつかの実施形態で、方法は、オーディオ混合ストリーム及び方向メタデータストリームを含むコンパクトな空間オーディオシーンとして、よりコンパクトな形で空間オーディオシーンを表現するために、用いられる。このとき、上記のオーディオ混合ストリームは、１つ以上のオーディオ信号から成り、上記の方向メタデータストリームは、時系列の方向メタデータブロックから成り、方向メタデータブロックの夫々は、オーディオ信号の対応する時間セグメントに関連する。空間オーディオシーンは、各々の到来方向と夫々関連付けられている１つ以上の指向性音響要素を含む。方向メタデータブロックの夫々は：
●指向性音響要素の夫々についての到来方向を示す方向情報、及び
●指向性音響要素の夫々について、及び２つ以上のサブバンドの組の夫々ついて、オーディオ信号の対応する時間セグメントでのエネルギに対する指向性音響要素の夫々でのエネルギを示すエネルギバンド比（Energy Band Fraction）情報
を含む。

【0040】

いくつかの実施形態で、方法は、オーディオ混合ストリーム及び方向メタデータストリームを含むコンパクトな空間オーディオシーンを処理して、１つ以上のオーディオオブジェクト信号の組を含む分離された空間オーディオストリーム及び残留ストリームを生成するために用いられる。このとき、上記のオーディオ混合ストリームは、１つ以上のオーディオ信号から成り、上記の方向メタデータストリームは、時系列の方向メタデータブロックから成り、方向メタデータブロックの夫々は、オーディオ信号の対応する時間セグメントに関連する。複数のサブバンドの夫々について、方法は：
●方向メタデータストリームに含まれる方向情報及びエネルギバンド比情報からデミキシング行列（逆混合行列）の係数を決定すること、及び
●上記のデミキシング行列を用いて、オーディオ信号を混合して、上記の分離された空間オーディオストリームを生成すること
を含む。

【0041】

いくつかの実施形態で、方法は、空間オーディオシーンを処理して、オーディオ混合ストリーム及び方向メタデータストリームを含むコンパクトな空間オーディオシーンを生成するために、用いられる。このとき、上記の空間オーディオシーンは、各々の到来方向と夫々関連付けられている１つ以上の指向性音響要素を含み、上記の方向メタデータストリームは、時系列の方向メタデータブロックから成り、方向メタデータブロックの夫々は、オーディオ信号の対応する時間セグメントに関連する。方法は：
●空間オーディオシーンの解析から、指向性音響要素の１つ以上について到来方向を決定するステップ、
●空間シーンにおける総エネルギのうちのどの部分が指向性音響要素の夫々でのエネルギによって寄与されているかを決定するステップ、及び
●空間オーディオシーンを処理してオーディオ混合ストリームを生成するステップ
を含む。

【0042】

上記のステップは、適切な手段又はユニットによって実装されてよく、つまり、例えば、１つ以上のコンピュータプロセッサによって実装されてもよい、ことが理解される。

【0043】

また、装置の機構及び方法のステップは、多くの方法で交換されてもよいことも理解されるだろう。特に、開示されている方法の詳細は、当業者が理解するように、対応する装置によって実現可能であり、その逆も同様である。更に、方法に関してなされた上記の記述のいずれも、対応する装置に同様に適用されると理解され、その逆も同様である。

【0044】

本開示の例示的な実施形態は、添付の図面において例として表されている。図面中、同じ参照番号は、同じ又は類似した要素を示す。

【図面の簡単な説明】

【0045】

【図1】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成するエンコーダ及び再構成されたオーディオシーンを圧縮表現から生成する対応するデコーダの配置の例を概略的に表す。

【図2】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成するエンコーダ及び再構成されたオーディオシーンを圧縮表現から生成する対応するデコーダの配置の他の例を概略的に表す。

【図3】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成する例を概略的に表す。

【図4】本開示の実施形態に従って、再構成されたオーディオシーンを形成するよう空間オーディオシーンの圧縮表現を復号する例を概略的に表す。

【図5】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成するために空間オーディオシーンを処理する方法の例を表すフローチャートである。

【図6】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成するために空間オーディオシーンを処理する方法の例を表すフローチャートである。

【図7】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成する詳細の例を概略的に表す。

【図8】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成する詳細の例を概略的に表す。

【図9】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成する詳細の例を概略的に表す。

【図10】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成する詳細の例を概略的に表す。

【図11】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成する詳細の例を概略的に表す。

【図12】本開示の実施形態に従って、再構成されたオーディオシーンを形成するよう空間オーディオシーンの圧縮表現を復号する詳細の例を概略的に表す。

【図13】本開示の実施形態に従って、再構成されたオーディオシーンを形成するよう空間オーディオシーンの圧縮表現を復号する方法の例を表すフローチャートである。

【図14】図１３の方法の詳細を表すフローチャートである。

【図15】本開示の実施形態に従って、再構成されたオーディオシーンを形成するよう空間オーディオシーンの圧縮表現を復号する方法の他の例を表すフローチャートである。

【図16】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成するための及び／又は再構成されたオーディオシーンを形成するよう空間オーディオシーンの圧縮表現を復号するための装置を概略的に表す。

【発明を実施するための形態】

【0046】

概して、本開示は、空間オーディオシーンの、低減された量のデータを使用して、記憶及び／又は伝送を可能にすることに関する。

【0047】

本開示の文脈中で使用され得るオーディオ処理の概念が次に説明される。

【0048】

［パンニング関数］
マルチチャネルオーディオ信号（又はオーディオストリーム）は、線形混合法則に従って個々の音響要素（又はオーディオ要素、オーディオオブジェクト）をパンすることによって形成され得る。例えば、Ｒ個のオーディオオブジェクトの組がＲ個の信号｛ｏ_ｒ（ｔ）：１≦ｒ≦Ｒ｝によって表される場合に、マルチチャネルパン混合物｛ｚ_ｎ（ｔ）：１≦ｎ≦Ｎ｝は：

【数3】

によって形成され得る。

【0049】

パンニング関数Ｐａｎ（θ_ｒ）は、マルチチャネル出力を形成するようオブジェクト信号ｏ_ｒ（ｔ）を混合するために使用される利得を示すＮ個のスケール係数（パンニング利得）を含む列ベクトルを表し、このとき、θ_ｒは、各々のオブジェクトの位置を示す。

【0050】

１つの可能なパンニング関数は、１次アンビソニックス（first-order Ambisonics）（ＦＯＡ）パンナー（panner）である。ＦＯＡパンニング関数の例は：

【数4】

によって与えられる。

【0051】

代替のパンニング関数は、３次アンビソニックスパンナー（third-order Ambisonics panner）（３ＯＡ）である。３ＯＡパンニング関数の例は：

【数5】

によって与えられる。

【0052】

当業者が理解するように、本開示はＦＯＡ又はＨＯＡパンニング関数に限られず、他のパンニング関数の使用が考えられてもよいことが理解される。

【0053】

［短時間フーリエ変換］
１つ以上のオーディオ信号から成るオーディオストリームは、例えば、短時間フーリエ変換（short-term Fourier transform）（ＳＴＦＴ）の形に変換され得る。このために、離散フーリエ変換が、オーディオストリームのオーディオ信号（例えば、チャネル、オーディオオブジェクト信号）の（任意に、窓化された）時間セグメントに適用され得る。オーディオ信号ｘ（ｔ）に適用されたこの処理は、次のように表され得る：

Ｘ_ｃ，ｋ（ｆ）＝ＳＴＦＴ｛ｘ_ｃ（ｔ）｝（４）

ＳＴＦＴは、時間周波数変換の例であり、本開示は、ＳＴＦＴに制限されるべきではないことが理解される。

【0054】

式（４）中、変数Ｘ_ｃ，ｋ（ｆ）は、周波数ビンｆ（１≦ｆ≦Ｆ）でのオーディオ時間セグメントｋ
（外１）

についてのチャネルｃ（１≦ｃ≦ＮｕｍＣｈａｎｓ）の短時間フーリエ変換を示す。ここで、Ｆは、離散フーリエ変換によって生成される周波数ビンの数を示す。ここで使用される用語は例であって、様々なＳＴＦＴ方法（様々な窓関数を含む）の具体的な実施詳細は当該技術で知られている場合があることが理解される。時間セグメントが、ｓｔｒｉｄｅに等しい間隔で、時間において均等に間隔をあけられるように、オーディオ時間セグメントｋは、例えば、ｔ＝ｋ×ｓｔｒｉｄｅ＋ｃｏｎｓｔａｎｔを中心とするオーディオサンプルの範囲として定義される。

【0055】

ＳＴＦＴの数値（例えば、Ｘ_ｃ，ｋ（１），Ｘ_ｃ，ｋ（２），・・・，Ｘ_ｃ，ｋ（Ｆ））は、ＦＦＴビンと呼ばれることがある。

【0056】

更に、ＳＴＦＴ形式は、オーディオストリームに変換され得る。結果として得られるオーディオストリームは、元の入力に対する近似であることができ：

【数6】

によって与えられ得る。

【0057】

［周波数バンド化された解析］
特性データはオーディオストリームから形成され得る。特性データは、周波数バンド（周波数サブバンド）の数に関連し、バンド（サブバンド）は、周波数範囲の領域によって定義される。

【0058】

例として、周波数バンドｂ（なお、バンドの数はＢであり、１≦ｂ≦Ｂである）におけるストリームのチャネルｃでの信号電力は、バンドｂがＦＦＴビンｆ_ｍｉｎ≦ｆ≦ｆ_ｍａｘに及ぶ場合に：

【数7】

に従って計算され得る。

【0059】

より一般的な例によれば、周波数バンドｂは、各周波数ビンに重みを割り当てる重み付けベクトルＦＲ_ｂ（ｆ）によって定義されてもよく、それにより、あるバンドでの電力の代替の計算は：

【数8】

によって与えられ得る。

【0060】

式（７）の更なる一般化において、Ｃ個のオーディオ信号から成るストリームのＳＴＦＴは、複数のバンドにおける共分散を生成するよう処理され得る。このとき、共分散Ｒ_ｂ，ｋは、Ｃ×Ｃの行列であり、要素｛Ｒ_ｂ，ｋ｝_ｉ，ｊは：

【数9】

に従って計算される。なお、
（外２）

は、Ｘ_ｊ，ｋ（ｆ）の複素共役を表す。

【0061】

他の例では、バンドパスフィルタが、バンドパスフィルタ応答に従って周波数バンドにおいて元のオーディオストリームを表すフィルタ処理された信号を形成するために、用いられてもよい。例えば、オーディオ信号ｘ_ｃ（ｔ）は、ｘ_ｃ（ｔ）のバンドｂから主に得られたエネルギを持つ信号を表すｘ’_ｃ，ｂ（ｔ）を生成するよう、フィルタ処理されてよく、従って、時間ブロックｋ（時間サンプルｔ_ｍｉｎ≦ｔ≦ｔ_ｍａｘに対応）のバンドｂでのストリームの共分散を計算するための代替の方法は：

【数10】

によって表され得る。

【0062】

［周波数バンド化された混合］
Ｎ個のチャネルから成るオーディオストリームは：

【数11】

であるように、Ｍ×Ｎの線形混合行列Ｑに従って、Ｍ個のチャネルから成るオーディオストリームを生成するよう処理され得る。式（１０）は：

【数12】

として、行列の形で書くことができる。ここで、
（外３）

は、Ｎ個の要素ｘ_１（ｔ），ｘ_２（ｔ），・・・，ｘ_Ｎ（ｔ）から形成された列ベクトルを指す。

【0063】

更に、代替の混合プロセスは、ＳＴＦＴドメインで実装されてもよく、行列Ｑは、各時間ブロックｔで及び各周波数バンドｂで異なる値を取ることができる。この場合に、処理は：

【数13】

によって、あるいは、行列の形で、

【数14】

によって、近似的に与えられると見なされ得る。

【0064】

代替の方法は、式（１３）に示される処理と同等の挙動を生じさせるために用いられ得ることが理解される。

【0065】

［例となる実施］
次に、本開示に実施形態に従う方法及び装置の例となる実施が、より詳細に記載される。

【0066】

大まかに言えば、本開示の実施形態に従う方法は、オーディオ混合ストリーム及び方向メタデータストリームの形で空間オーディオシーンを表し、方向メタデータストリームは、空間オーディオシーンにおける指向性音響要素の位置を示すデータと、多数のサブバンドの中で、そのサブバンドでの空間オーディオシーンの総電力に対して各指向性音響要素の電力を示すデータとを含む。本開示の実施形態に従う更なる方法は、入力された空間オーディオシーンから方向メタデータストリームを決定することと、再構成された（例えば、回復された）オーディオシーンを方向メタデータストリーム及び関連するオーディオ混合ストリームから生成することとに関する。

【0067】

本開示の実施形態に従う方法の例は、空間音響シーンを表すことにおいて（例えば、記憶又は伝送のデータの低減に関して）効率的である。空間オーディオシーンは、空間オーディオ信号によって表され得る。上記の方法は、オーディオ混合ストリーム及びメタデータストリーム（例えば、方向メタデータストリーム）から成る記憶又は伝送フォーマット（例えば、コンパクト空間オーディオストリーム（Compact Spatial Audio Stream））を定義することによって実装され得る。

【0068】

オーディオ混合ストリームは、空間音響シーンの縮小表現を運ぶ多数のオーディオ信号を有する。そのようなものとして、オーディオ混合ストリームは、予め定義された数のチャネルを有するチャネルベースオーディオ信号に関連し得る。チャネルベースオーディオ信号のチャネルの数は、空間オーディオ信号のチャネルの数又はオーディオオブジェクトの数よりも少ないことが理解される。例えば、チャネルベースオーディオ信号は、１次アンビソニックスオーディオ信号であってよい。言い換えれば、コンパクト空間オーディオストリームは、音場の１次アンビソニックス表現の形でオーディオ混合ストリームを含み得る。

【0069】

（方向）メタデータストリームは、空間音響シーンの空間特性を定義するメタデータを有する。方向メタデータは、方向メタデータブロックのシーケンスから構成され得る。各方向メタデータブロックは、オーディオ混合ストリーム内の対応する時間セグメントにおける空間音響シーンの特性を示すメタデータを含む。

【0070】

一般的に、メタデータは、方向情報及びエネルギ情報を含む。方向情報は、オーディオシーンにおける1つ以上の（ドミナント）オーディオ要素の到来方向の指示を含む。エネルギ情報は、各到来方向について、決定された到来方向に関連した信号電力の指示を含む。いくつかの実施において、信号電力の指示は、複数のバンド（周波数サブバンド）のうちの１つ、いくつか、又は夫々について、供給されてよい。更に、メタデータは、例えば，メタデータブロックの形で、複数の連続した時間セグメントの夫々について供給されてもよい。

【0071】

一例で、メタデータ（方向メタデータ）は、多数の周波数バンドにわたる空間音響シーンの特性を示すメタデータを含み、メタデータは：
●空間音響シーンにおけるオーディオオブジェクト（オーディオ要素）の位置を示す1つ以上の方向（例えば、到来方向）、及び
●各々のオーディオオブジェクトによる（例えば、各々の方向による）、各周波数バンドでのエネルギ（又は空間電力）の割合
を含む。

【0072】

方向情報及びエネルギ情報の決定に関する詳細は、以下で与えられる。

【0073】

図１は、本開示の実施形態を用いる配置の例を概略的に示す。具体的に、図は、空間オーディオシーン１０がシーンエンコーダ２００へ入力され、シーンエンコーダ２００がオーディオ混合ストリーム３０及び方向メタデータストリーム２０を生成する配置１００を示す。空間オーディオシーン１０は、シーンエンコーダ２００へ入力される空間オーディオ信号又は空間オーディオストリームによって表現され得る。オーディオ混合ストリーム３０及び方向メタデータストリーム２０は一緒に、コンパクト空間オーディオシーンの一例、つまり、空間オーディオシーン１０の（又は空間オーディオ信号の）圧縮表現を形成する。

【0074】

圧縮表現、つまり、混合オーディオストリーム３０及び方向メタデータストリーム２０は、シーンデコーダ３００へ入力され、シーンデコーダ３００は、再構成されたオーディオシーン５０を生成する。空間オーディオシーン１０内に存在するオーディオ要素は、混合パンニング関数に従ってオーディオ混合ストリーム３０内で表現される。

【0075】

図２は、本開示の実施形態を用いる配置の他の例を概略的に示す。具体的に、図は、オーディオ混合ストリーム３０及び方向メタデータストリーム２０から成るコンパクト空間オーディオシーンが、ビットレート低減符号化オーディオストリーム３７を生成するようオーディオ混合ストリーム３０をオーディオエンコーダ３５へ供給することによって、及び符号化メタデータストリーム２７を生成するよう方向メタデータストリーム２０をメタデータエンコーダ２５へ供給することによって更に符号化される代替の配置１１０を示す。ビットレート低減符号化オーディオストリーム３７及び符号化メタデータストリーム２７は一緒に、符号化（ビットレート低減符号化）空間オーディオシーンを形成する。

【0076】

符号化空間オーディオシーンは、再生オーディオ混合ストリーム３８及び再生方向メタデータストリーム２８を生成するよう最初にビットレート低減符号化オーディオストリーム３７及び符号化メタデータストリーム２７を各々のデコーダ３６及び２６に適用することによって、回復され得る。再生ストリーム３８、２８は、各々のストリーム３０、２０と同じであるか、又は近似的に等しくなる。再生オーディオ混合ストリーム３８及び再生方向メタデータストリーム２８は、再構成されたオーディオシーン５０を生成するようデコーダ３００によって復号され得る。

【0077】

図３は、入力された空間オーディオシーンからビットレート低減符号化オーディオストリーム及び符号化メタデータストリームを生成する配置の例を概略的に表す。具体的に、図は、ビットレート低減符号化オーディオストリーム３７及び符号化メタデータストリーム２７を含む符号化空間オーディオシーン４０を生成するよう方向メタデータストリーム２０及びオーディオ混合ストリーム３０を各々のエンコーダ２５、３５へ供給するシーンエンコーダ２００の配置１５０を示す。符号化空間オーディオストリーム４０は、望ましくは、元の空間オーディオシーンの記憶／伝送のために必要なデータに対して低減されたデータ要件での記憶及び／又は伝送に適するよう配置される。

【0078】

図４は、再構成された空間オーディオシーンをビットレート低減符号化オーディオストリーム及び符号化メタデータストリームから生成する配置の例を概略的に表す。具体的に、図は、ビットレート低減符号化オーディオストリーム３７及び符号化メタデータストリーム２７から成る符号化空間オーディオストリーム４０が、オーディオ混合ストリーム３８及び方向メタデータストリーム２８を生成するよう夫々デコーダ３６、２６へ入力として供給されることを示す。ストリーム３８、２８は次いで、再構成されたオーディオシーン５０を生成するようシーンデコーダ３００によって処理される。

【0079】

コンパクト空間オーディオシーン、つまり、空間オーディオシーンの（又は空間オーディオ信号／空間オーディオストリームの）圧縮表現を生成する詳細が、次に記載される。

【0080】

図５は、空間オーディオ信号の圧縮表現を生成するために空間オーディオ信号を処理する方法５００の例のフローチャートである。方法５００は、ステップＳ５１０からＳ５５０を有する。

【0081】

ステップＳ５１０で、空間オーディオ信号は、空間オーディオ信号によって表されるオーディオシーン（空間オーディオシーン）における１つ以上のオーディオ要素（例えば、ドミナントオーディオ要素）の到来方向を決定するよう解析される。（ドミナント）オーディオ要素は、例えば、オーディオシーンにおける（ドミナント）音響オブジェクト、（ドミナント）音源、又は（ドミナント）音響コンポーネントに関係があってよい。空間オーディオ信号を解析することは、シーン解析を空間オーディオ信号に適用することを含んでも、又はそれに関係があってもよい。適切なシーン解析ツールの範囲は当業者に知られていることが理解される。このステップで決定された到来方向は、オーディオ要素の（知覚された）位置を示す単位球面上の位置に対応し得る。

【0082】

周波数バンド化された解析の上記の記載と一致して、ステップＳ５１０での空間オーディオ信号の解析は、空間オーディオ信号の複数の周波数サブバンドに基づくことができる。例えば、解析は、空間オーディオ信号の全周波数範囲（つまり、全信号）に基づいてよい。すなわち、解析は、全ての周波数サブバンドに基づいてよい。

【0083】

ステップＳ５２０で、決定された到来方向に関連した信号電力の各々の指示が、空間オーディオ信号の少なくとも１つの周波数サブバンドについて決定される。

【0084】

ステップＳ５３０で、方向情報及びエネルギ情報を含むメタデータが生成される。方向情報は、１つ以上のオーディオ要素の決定された到来方向の指示を含む。エネルギ情報は、決定された到来方向に関連した信号電力の各々の指示を含む。このステップで生成されたメタデータは、メタデータストリームに関係があってよい。

【0085】

ステップＳ５４０で、予め定義された数のチャネルを有するチャネルベースオーディオ信号が、空間オーディオ信号に基づき生成される。

【0086】

最後に、ステップＳ５５０で、チャネルベースオーディオ信号及びメタデータは、空間オーディオ信号の圧縮表現として出力される。

【0087】

上記のステップは、ステップの順序により、各ステップの必要な入力が利用可能であることが担保される限りは、如何なる順序でも、又は互いに並行して、実行されてもよいことが理解される。

【0088】

通常、空間シーン（又は空間オーディオ信号）は、リスニング位置を基準にして、一連の方向からリスナーに入射する音響信号の合計で構成されていると見なされ得る。従って、空間オーディオシーンは、Ｒ個の音響オブジェクトの集合としてモデル化され得る。オブジェクトｒ（１≦ｒ≦Ｒ）は、方向ベクトルθ_ｒによって定義される到着方向からリスニング位置に入射するオーディオ信号ｏ_ｒ（ｔ）に関連付けらる。方向ベクトルはまた、時間とともに変化するベクトルθ_ｒ（ｔ）であってもよい。

【0089】

従って、いくつかの実施に従って、空間オーディオ信号（空間オーディオストリーム）は、オーディオ信号及び関連する方向ベクトルの組の形で、オブジェクトベース空間オーディオ信号（オブジェクトベース空間オーディオシーン）として定義されてもよい：

空間オーディオシーン（オブジェクトベース）
＝｛ｏ_ｒ（ｔ），θ_ｒ（ｔ）：１≦ｒ≦Ｒ｝（１４）

更に、いくつかの実施に従って、空間オーディオ信号（空間オーディオストリーム）は、式（４）に従って、短時間フーリエ変換信号Ｏ_ｒ，ｋ（ｆ）に関して定義されてもよく、方向ベクトルは、ブロックインデックスｋに従って指定されてよく、それにより：

空間オーディオシーン（オブジェクトベース）
＝｛Ｏ_ｒ，ｋ（ｆ），θ_ｒ（ｔ）：１≦ｒ≦Ｒ｝（１５）

である。

【0090】

代替的に、空間オーディオ信号（空間オーディオストリーム）は、チャネルベース空間オーディオ信号（チャネルベース空間オーディオシーン）に関して表されてもよい。チャネルベースストリームは、オーディオ信号の集合から成り、空間オーディオシーンからの各音響オブジェクトは、式（１）に従って、パンニング関数（Ｐａｎ（θ））によりチャネルに混合される。例として、Ｑチャネルのチャネルベース空間オーディオシーン｛Ｃ_ｑ，ｋ（ｆ）：１≦ｑ≦Ｑ｝は、

【数15】

に従って、オブジェクトベース空間オーディオシーンから形成されてもよい。

【0091】

チャネルベース空間オーディオシーンの多くの特性は、パンニング関数の選択によって決定され、特に、パンニング関数によって返される列ベクトルの長さ（Ｑ）は、チャネルベース空間オーディオシーンに含まれるオーディオチャネルの数を決定することが理解されるだろう。一般的に言えば、空間オーディオシーンのより高品質の表現は、より多数のチャネルを含むチャネルベース空間オーディオシーンによって実現され得る。

【0092】

一例として、方法５００のステップＳ５４０で、空間オーディオ信号（空間オーディオシーン）は、式（１６）に従って、チャネルベースオーディオ信号（チャネルベースストリーム）を生成するよう処理されてよい。パンニング関数は、空間オーディオシーンの比較的に低い分解能表現をもたらすように選択され得る。例えば、パンニング関数は、式（２）で定義されているような１次アンビソニックス（ＦＯＡ）関数であるよう選択されてもよい。そのようなものとして、圧縮表現は、コンパクトな又はサイズを低減された表現であってよい。

【0093】

図６は、空間オーディオシーンのコンパクトな表現を生成する方法６００の他の定式化を提供するフローチャートである。方法６００は、空間オーディオシーン又はシーンベースストリームの形で入力ストリームを供給され、コンパクト空間オーディオシーンをコンパクトな表現として生成する。このために、方法６００は、ステップＳ６１０からＳ６６０を有する。その中で、ステップＳ６１０は、ステップＳ５１０に対応するものと見なされてよく、ステップ６２０は、ステップＳ５２０に対応するものと見なされてよく、ステップＳ６３０は、ステップＳ５４０に対応するものと見なされてよく、ステップＳ６５０は、ステップＳ５３０に対応するものと見なされてよく、ステップＳ６６０は、ステップＳ５５０に対応するものと見なされてよい。

【0094】

ステップＳ６１０で、入力ストリームが、ドミナント到来方向を決定するよう解析される。

【0095】

ステップＳ６２０で、各バンド（周波数サブバンド）について、そのバンドにおけるストリームでの総エネルギに対して、各方向に割り当てられたエネルギの比率が決定される。

【0096】

ステップＳ６３０で、空間オーディオシーンを表す複数のオーディオチャネルを含むダウンミックスストリームが形成される。

【0097】

ステップＳ６４０で、ダウンミックスストリームが、ストリームの圧縮表現を形成するよう符号化される。

【0098】

ステップＳ６５０で、方向情報及びエネルギ比情報が、符号化されたメタデータを形成するよう符号化される。

【0099】

最後に、ステップＳ６６０で、符号化されたダウンミックスストリームが、コンパクト空間オーディオシーンを形成するよう、符号化されたメタデータと結合される。

【0100】

【0101】

図７から図１１は、本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成する詳細の例を概略的に表す。後述される、例えば、到来方向を決定するための空間オーディオ信号の解析、決定された到来方向に関連した信号電力の指示の決定、方向情報及びエネルギ情報を含むメタデータの生成、及び／又は予め定義された数のチャネルを含むチャネルベースオーディオ信号の生成の詳細は、具体的なシステム配置とは無関係であることができ、例えば、図７から図１１に示されている配置又は任意の適切な代替の配置のいずれにも適用されてよい、ことが理解される。

【0102】

図７は、空間オーディオシーンの圧縮表現を生成する詳細の第１の例を概略的に表す。具体的に、図７は、例えば、ステップＳ５４０及びＳ６３０に従って、Ｎチャネルオーディオ混合ストリーム３０を生成するよう、空間オーディオシーン１０がダウンミックス機能２０３によって処理されるシーンエンコーダ２００を示す。いくつかの実施形態で、ダウンミックス機能２０３は、式（１）又は式（１６）に従うパンニング処理を含んでよく、ダウンミックスパンニング関数が選択される。つまり、

【数16】

である。例えば、一次アンビソニックスパンナーが、ダウンミックスパンニング関数、つまり、

【数17】

として、選択されてもよく、従って、Ｎ＝４である。

【0103】

各オーディオ時間セグメントについて、シーン解析２０２は、入力として空間オーディオシーンをとり、例えば、ステップＳ５１０及びＳ６１０に従って、空間オーディオシーン内の最大Ｐ個までのドミナント音響成分の到来方向を決定する。Ｐの典型的な値は、１から１０の間であり、Ｐの好ましい値はＰ≒４である。従って、ステップＳ５１０で決定された１つ以上のオーディオ要素は、例えば、４つのオーディオ要素のような、１から１０個の間のオーディオ要素を有してよい。

【0104】

解析２０２は、方向情報２１及びエネルギバンド比情報２２（エネルギ情報）から成るメタデータ２０を生成する。任意に、シーン解析２０２はまた、ダウンミックスが変更されることを可能にするようダウンミックス機能２０３へ係数２０７を供給してもよい。

【0105】

意図された制限なしで、（例えば、ステップＳ５１０で）空間オーディオ信号を解析すること、（例えば、ステップＳ５２０で）信号電力の各々の指示を決定すること、及び（例えば、ステップＳ５４０で）チャネルベースオーディオ信号を生成することは、例えば、ＳＴＦＴの上記の記載と一致して、時間セグメント単位で実行されてもよい。これは、圧縮表現が、時間セグメントごとにダウンミックスオーディオ信号及びメタデータ（メタデータブロック）を有して、複数の時間セグメントの夫々について生成及び出力されることを暗示する。

【0106】

時間セグメントｋごとに、方向情報２１（例えば、１つ以上のオーディオ要素の到来方向によって具現される）は、Ｐ個の方向ベクトル｛ｄｉｒ_ｋ，ｐ：１≦ｐ≦Ｐ｝の形をとることができる。方向ベクトルｐは、ドミナントオブジェクトインデックスｐに関連した方向を示し、単位ベクトルに関して：

【数18】

と、あるいは、球面座標に関して：

【数19】

と表され得る。

【0107】

いくつかの実施形態で、ステップＳ５２０で決定された信号電力の各々の指示は、信号電力の比率の形をとる。つまり、周波数サブバンドでの所与の到来方向に関連した信号電力の指示は、周波数サブバンドでの総信号電力に対する所与の到来方向についての周波数サブバンドでの信号電力の比に関する。

【0108】

更に、いくつかの実施形態で、信号電力の指示は、複数の周波数サブバンドの夫々について（つまり、サブバンド単位で）決定される。その場合に、それらは、所与の到来方向及び所与の周波数サブバンドについて、所与の周波数サブバンドでの総信号電力に対する所与の到来方向についての所与の周波数サブバンドでの信号電力の比に関する。特に、たとえ、信号電力の指示がサブバンドごとに決定され得るとしても、（ドミナント）到来方向の決定は、依然として、全信号に対して（つまり、全ての周波数サブバンドに基づいて）実行され得る。

【0109】

また更に、いくつかの実施形態で、（例えば、ステップＳ５１０で）空間オーディオ信号を解析すること、（例えば、ステップＳ５２０で）信号電力の各々の指示を決定すること、及び（例えば、ステップＳ５４０で）チャネルベースオーディオ信号を生成することは、空間オーディオ信号の時間周波数表現に基づき実行される。例えば、上記のステップ及び適切な他のステップは、空間オーディオ信号の離散フーリエ変換（例えば、ＳＴＦＴ）に基づき実行され得る。例えば、時間セグメント（時間ブロック）ごとに、上記のステップは、空間オーディオ信号の時間周波数ビン（ＦＦＴビン）に、つまり、空間オーディオ信号のフーリエ係数に基づき、実行され得る。

【0110】

異常を鑑みて、時間セグメントｋごとに、及びドミナントオブジェクトインデックスｐ（１≦ｐ≦Ｐ）ごとに、エネルギバンド比情報２２は、バンドの組の各バンドｂ（１≦ｂ≦Ｂ）についての分数値（fraction value）ｅ_{ｋ，ｐ，ｂ}を含むことができる。分数値ｅ_{ｋ，ｐ，ｂ}は：

【数20】

に従って、時間セグメントｋについて決定される。

【0111】

分数値ｅ_{ｋ，ｐ，ｂ}は、元の空間オーディオシーンにおける複数の音響オブジェクトのエネルギが、方向ｄｉｒ_ｋ，ｐに割り当てられている単一のドミナント音響成分を表すよう結合されるように、方向ｄｉｒ_ｋ，ｐの周りの空間領域内のエネルギの部分を表し得る。いくつかの実施形態で、シーン内の全ての音響オブジェクトのエネルギは、ｄｉｒ_ｋ，ｐに近い方向θについてはより大きい重み付けを、ｄｉｒ_ｋ，ｐから遠い方向θについてはより小さい重み付けを表す角度差分重み付け関数ｗ（θ）を用いて、重み付けられてもよい。方向の違いは、例えば、１０度よりも小さい角度差については近いと、例えば、４５度よりも大きい角度差については遠いと見なされてよい。代替の実施形態では、重み付け関数は、近い／遠い角度差の代替の選択に基づき選択されてもよい。

【0112】

一般に、圧縮表現が生成される入力された空間オーディオ信号は、例えば、マルチチャネルオーディオ信号又はオブジェクトベースオーディオ信号であってよい。後者の場合に、空間オーディオ信号の圧縮表現を生成する方法は、シーン解析を適用する前に（例えば、ステップＳ５１０より前に）、オブジェクトベースオーディオ信号をマルチチャネルオーディオ信号へ変換するステップを更に有することになる。

【0113】

図７の例では、入力された空間オーディオ信号は、マルチチャネルオーディオ信号であってよい。その場合に、ステップＳ５４０で生成されたチャネルベースオーディオ信号は、ダウンミックス操作をマルチチャネルオーディオ信号に適用することによって生成されたダウンミックス信号になる。

【0114】

図８は、空間オーディオシーンの圧縮表現を生成する詳細の他の例を概略的に表す。入力された空間オーディオ信号は、この場合に、複数のオーディオオブジェクト及び関連する方向ベクトルを含むオブジェクトベースオーディオ信号であってよい。この場合に、空間オーディオ信号の圧縮表現を生成する方法は、予め定義されたオーディオチャネルの組にオーディオオブジェクトをパンすることによって、マルチチャネルオーディオ信号を中間表現又は中間シーンとして生成することを有する。このとき、各オーディオオブジェクトは、その方向ベクトルに従って、予め定義されたオーディオチャネルの組にパンされる。よって、図８は、空間オーディオシーン１０がコンバータ２０１へ入力され、コンバータ２０１が中間シーン１１（例えば、マルチチャネル信号によって具現される）を生成するシーンエンコーダ２００の代替の実施形態を示す。中間シーン１１は式（１）に従って生成され得る。このとき、パンニング関数は、パンニング利得ベクトルＰａｎ（θ_１）及びＰａｎ（θ_２）の内積が上記の角度差分重み付け関数を近似的に表すように、選択される。

【0115】

いくつかの実施形態で、コンバータ２０１で使用されるパンニング関数は、式（３）で示される３次アンビソニックスパンニング関数
（外４）

である。従って、マルチチャネルオーディオ信号は、例えば、高次アンビソニックス信号であってもよい。

【0116】

中間シーン１１は次いで、シーン解析２０２へ入力される。シーン解析２０２は、中間シーン１１の解析から、空間オーディオシーンにおけるドミナント音響オブジェクトの方向ｄｉｒ_ｋ，ｐを決定し得る。ドミナント方向の決定は、方向の組においてエネルギを推定することによって実行されてよく、最大推定エネルギがドミナント方向を表す。

【0117】

時間セグメントｋのエネルギバンド比情報２２は、時間セグメントｋ内の中間シーン１１のバンドｂでの総エネルギに対する、各方向における中間シーン１１のバンドｂでのエネルギから導出されるバンドｂごとの分数値ｅ_{ｋ，ｐ，ｂ}を含み得る。

【0118】

この場合のコンパクト空間オーディオシーン（例えば、コンパクトな表現）のオーディオ混合ストリーム３０（例えば、チャネルベースオーディオ信号）は、ダウンミックス機能２０３（ダウンミックス操作）を空間オーディオシーンに適用することによって生成されたダウンミックス信号である。

【0119】

図１０は、空間オーディオシーン１０をシーンベースの中間フォーマット１１に変換するコンバータ２０１を含むシーンエンコーダの代替の配置を示す。中間フォーマット１１は、シーン解析２０２へ及びダウンミックス機能２０３へ入力される。いくつかの実施形態で、ダウンミックス機能２０３は、中間フォーマット１１をオーディオ混合ストリーム３０に変換するよう適応された係数を有する行列混合器を含み得る。つまり、この場合のコンパクト空間オーディオシーン（例えば、コンパクトな表現）のオーディオ混合ストリーム３０（例えば、チャネルベースオーディオ信号）は、ダウンミックス機能２０３（ダウンミックス操作）を中間シーン（例えば、マルチチャネルオーディオ信号）に適用することによって生成されたダウンミックス信号であることができる。

【0120】

図１１に示される代替の実施形態では、空間エンコーダ２００は、シーンベースの入力１１の形で入力をとることができる。音響オブジェクトは、パンニング規則Ｐａｎ（θ）に従って表現される。いくつかの実施形態で、パンニング関数は、高次アンビソニックスパンニング関数であってよい。一例となる実施形態では、パンニング関数は、３次アンビソニックスパンニング関数である。

【0121】

図９に表されている他の代替の実施形態では、空間オーディオシーン１０は、ダウンミックス機能２０３へ入力される中間シーン１１を生成するよう空間エンコーダ２００内でコンバータ２０１によって変換される。シーン解析２０２は、空間オーディオシーン１０から入力を供給される。

【0122】

図１２は、デミキサ３０２によって使用されるデミキシング行列（逆混合行列）を決定するデミキシング行列計算器３０１へ入力される方向情報２１及びエネルギバンド比情報２２を示す。

【0123】

空間オーディオ信号の再構成表現を生成するためにコンパクト空間オーディオシーン（例えば、空間オーディオ信号の圧縮表現）を処理する詳細が、次に記載される。

【0124】

図１３は、空間オーディオ信号の再構成表現を生成するために空間オーディオ信号の圧縮表現を処理する方法１３００の例のフローチャートである。圧縮表現は、予め定義された数のチャネルを有するチャネルベースオーディオ信号（例えば、オーディオ混合ストリーム３０によって具現される）及びメタデータを含み、メタデータは、方向情報（例えば、方向情報２１によって具現される）及びエネルギ情報（例えば、エネルギバンド比情報２２によって具現される）を含み、方向情報は、オーディオシーンにおける１つ以上のオーディオ要素の到来方向の指示を含み、エネルギ情報は、少なくとも１つの周波数サブバンドについて、到来方向に関連した信号電力の各々の指示を含む。チャネルベースオーディオ信号は、例えば、１次アンビソニックス信号であってよい。方法１３００は、ステップＳ１３１０からＳ１３２０を有し、任意に、ステップＳ１３３０及びＳ１３４０を有する。これらのステップは、例えば、図１２のシーンデコーダ３００によって実行されてよいことが理解される。

【0125】

ステップＳ１３１０で、１つ以上のオーディオ要素のオーディオ信号が、チャネルベースオーディオ信号、方向情報、及びエネルギ情報に基づき生成される。

【0126】

ステップＳ１３２０で、１つ以上のオーディオ要素が実質的に存在しない残留オーディオ信号が、チャネルベースオーディオ信号、方向情報、及びエネルギ情報に基づき生成される。ここで、残留信号は、チャネルベースオーディオ信号と同じオーディオフォーマットで表現され得、例えば、チャネルベースオーディオ信号と同数のチャネルを有し得る。

【0127】

任意のステップＳ１３３０で、１つ以上のオーディオ要素のオーディオ信号は、出力オーディオフォーマットのチャネルの組にパンされる。ここで、出力オーディオフォーマットは、例えば、ＨＯＡ又は任意の他の適切なマルチチャネルフォーマットのような、出力表現に関係があってよい。

【0128】

任意のステップＳ１３４０で、出力オーディオフォーマットでの再構成されたマルチチャネルオーディオ信号が、パンされた１つ以上のオーディオ要素及び残留信号に基づき生成される。再構成されたマルチチャネルオーディオ信号を生成することは、出力オーディオフォーマットのチャネルの組に残留信号をアップミックスすることを含んでもよい。再構成されたマルチチャネルオーディオ信号を生成することは、パンされた１つ以上のオーディオ要素と、アップミックスされた残留信号とを足し合わせることを更に含み得る。

【0129】

【0130】

空間オーディオ信号の圧縮表現を生成する空間オーディオ信号の処理の方法の上記の記載と一致して、所与の到来方向に関連した信号電力の指示は、周波数サブバンドでの総信号電力に対する所与の到来方向についての周波数サブバンドでの信号電力の比に関係があってよい。

【0131】

更に、いくつかの実施形態で、エネルギ情報は、複数の周波数サブバンドの夫々についての信号電力の指示を含み得る。その場合に、信号電力の指示は、所与の到来方向及び所与の周波数サブバンドについて、所与の周波数サブバンドでの総信号電力に対する所与の到来方向についての所与の周波数サブバンドでの信号電力の比に関係があってよい。

【0132】

ステップＳ１３１０で１つ以上のオーディオ要素のオーディオ信号を生成することは、方向情報及びエネルギ情報に基づき、残留オーディオ信号及び１つ以上のオーディオ要素のオーディオ信号を含む中間表現へチャネルベースオーディオ信号をマッピングするための逆混合行列Ｍの係数を決定することを含み得る。中間表現は、分離された若しくは分離可能な表現、又はハイブリッド表現とも呼ばれ得る。

【0133】

逆混合行列Ｍの係数の上記の決定の詳細が、次に、図１４のフローチャートを参照して記載される。このフローチャートによって表される方法１４００は、ステップＳ１４１０からＳ１４４０を有する。

【0134】

ステップＳ１４１０で、１つ以上のオーディオ要素の夫々について、オーディオ要素をチャネルベースオーディオ信号のチャネルにパンするためのパンニングベクトルＰａｎ_ｄｏｗｎ（ｄｉｒ）が、当該オーディオ要素の到来方向ｄｉｒに基づき決定される。

【0135】

ステップＳ１４２０で、残留オーディオ信号及び１つ以上のオーディオ要素のオーディオ信号をチャネルベースオーディオ信号のチャネルにマッピングするために使用される混合行列Ｅが、決定されたパンニングベクトルに基づき決定される。

【0136】

ステップＳ１４３０で、中間表現の共分散行列Ｓがエネルギ情報に基づき決定される。共分散行列Ｓの決定は、決定されたパンニングベクトルＰａｎ_ｄｏｗｎに更に基づいてもよい。

【0137】

最後に、ステップＳ１４４０で、逆混合行列Ｍの係数が、混合行列Ｅ及び共分散行列Ｓに基づき決定される。

【0138】

【0139】

図１２に戻ると、デミキシング行列計算器３０１は、次のステップを含むプロセスに従って、デミキシング行列６０（逆混合行列）Ｍ_ｋ，ｂを計算する：
１．時間セグメントｋごとに、デミキシング行列計算器３０１へ、方向情報ｄｉｒ_ｋ，ｐ（１≦ｐ≦Ｐ）及びエネルギバンド比情報ｅ_{ｋ，ｐ，ｋ}（１≦ｐ≦Ｐ及び１≦ｂ≦Ｂ）が入力される。Ｐは、ドミナント音響成分の数を表し、Ｂは、周波数バンドの数を示す。
２．各バンドｂについて、デミキシング行列Ｍｋ，ｂが：

Ｍ＝Ｓ×Ｅ^＊×（Ｅ×Ｓ×Ｅ^＊）^－１（２０）

に従って計算される。ここで、「×」は、行列積を示し、「＊」は、行列の共役転置を示す。式（２０）に従う計算は、例えば、ステップＳ１４４０に対応し得る。

【0140】

デミキシング行列Ｍは、複数の時間セグメントｋの夫々について、及び／又は複数の周波数サブバンドｂの夫々について、決定され得る。その場合に、行列Ｍ及びＳは、時間セグメントを示すインデックスｋ及び／又は周波数サブバンドを示すインデックスｂを有することになり、行列Ｅは、時間セグメントを示すインデックスｋを有することになる。例えば、

Ｍ_ｋ，ｂ＝Ｓ_ｋ，ｂ×Ｅ^＊ _ｋ×（Ｅ_ｋ×Ｓ_ｋ，ｂ×Ｅ^＊ _ｋ）^－１（２０ａ）

である。

【0141】

一般に、混合行列Ｅ及び共分散行列Ｓに基づき逆混合行列Ｍの係数を決定することは、混合行列Ｅ及び共分散行列Ｓに基づき疑似逆行列を決定することを含み得る。そのような疑似逆行列の一例は、式（２０）及び（２０ａ）で与えられる。

【0142】

式（２０）中、行列Ｅ_ｋ（混合行列）は、Ｎ×Ｎの単位行列（Ｉ_Ｎ）と、Ｐ個のドミナント音響成分の夫々の方向に適用されたパンニング関数によって形成されたＰ個の列とを積み重なることによって、形成される：

Ｅ＝（Ｉ_Ｎ｜Ｐａｎ_ｄｏｗｎ（ｄｉｒ_１）｜・・・｜Ｐａｎ_ｄｏｗｎ（ｄｉｒ_Ｐ｜）（２１）

式（２１）中、Ｉ_Ｎは、Ｎ×Ｎの単位行列であり、Ｎは、チャネルベースオーディオ信号のチャネルの数を示し、Ｐａｎ_ｄｏｗｎ（ｄｉｒ_ｐ）は、チャネルベースオーディオ信号のＮ個のチャネルにｐ番目のオーディオ要素をパンする関連する到来方向ｄｉｒ_ｐを有するｐ番目のオーディオ要素のパンニングベクトルであり、ｐ＝１，・・・，Ｐは、１つ以上のオーディオ要素の中の各々１つを示し、Ｐは、１つ以上のオーディオ要素の総数を示す。式（２１）の縦棒は、行列拡大（matrix augmentation）演算を示す。従って、行列Ｅは、Ｎ×Ｐ行列である。

【0143】

更に、行列Ｅは、複数の時間セグメントｋの夫々について決定されてよい。その場合に、行列Ｅ及び到来方向ｄｉｒ_ｐは、時間セグメントを示すインデックスｋを有することになる。例えば：

Ｅ_ｋ＝（Ｉ_Ｎ｜Ｐａｎ_ｄｏｗｎ（ｄｉｒ_ｋ，１）｜・・・｜Ｐａｎ_ｄｏｗｎ（ｄｉｒ_ｋ，Ｐ））
（２１ａ）

である。提案されている方法がバンド単位で動作する場合に、行列Ｅは、全ての周波数サブバンドについて同じになる。

【0144】

ステップＳ１４２０に従って、行列Ｅ_ｋは、残留オーディオ信号及び１つ以上のオーディオ要素のオーディオ信号をチャネルベースオーディオ信号のチャネルにマッピングするために使用される。式（２１）及び（２１ａ）から分かるように、行列Ｅ_ｋは、ステップＳ１４１０で決定されたパンニングベクトルＰａｎ_ｄｏｗｎ（ｄｉｒ）に基づく。

【0145】

式（２０）中、行列Ｓは、（Ｎ＋Ｐ）×（Ｎ＋Ｐ）の対角行列である。それは、中間表現の共分散行列と見なされ得る。その係数は、ステップＳ１４３０に従って、エネルギ情報に基づき計算され得る。最初のＮ個の対角要素は、１≦ｎ≦Ｎについて：

【数21】

によって与えられ、残りのＰ個の対角要素は、１≦ｐ≦Ｐについて：

｛Ｓ｝_{Ｎ＋ｐ，Ｎ＋ｐ}＝ｅ_ｐ（２３）

によって与えられる。ｅ_ｐは、ｐ番目のオーディオ要素の到来方向に関連した信号電力である。

【0146】

共分散行列Ｓは、複数の時間セグメントｋの夫々について、及び／又は複数の周波数サブバンドｂの夫々について、決定され得る。その場合に、共分散行列Ｓ及び信号電力ｅ_ｐは、時間セグメントを示すインデックスｋ及び／又は周波数サブバンドを示すインデックスｂを有することになる。最初のＮ個の対角要素は：

【数22】

によって与えられ、残りのＰ個の対角要素は：

｛Ｓ_ｋ，ｂ｝_{Ｎ＋ｐ，Ｎ＋ｐ}＝ｅ_ｋ，_ｐ，ｂ（１≦ｐ≦Ｐ）（２３ａ）

によって与えられる。

【0147】

好適な実施形態では、デミキシング行列Ｍ_ｋ，ｂは、デミキサ３０２によって、分離された空間オーディオストリーム７０を生成するよう適用される（中間表現の例として）。ステップＳ１３１０の上記の実施に従って、最初のＮ個のチャネルは、残留ストリーム８０であり、残りのＰ個のチャネルは、ドミナント音響成分を表す。

【0148】

Ｎ＋Ｐチャネルの分離された空間ストリーム７０Ｙ_ｋ（ｆ）、Ｐチャネルのドミナントオブジェクト信号９０（ステップＳ１３１０で生成された１つ以上のオーディオ要素のオーディオ信号の例として）Ｏ_ｋ（ｆ）、及びＮチャネルの残留ストリーム８０（ステップＳ１３２０で生成された残留オーディオ信号の例として）Ｒ_ｋ（ｆ）は：

【数23】

に従って、Ｎチャネルのオーディオ混合３０Ｘ_ｋ（ｆ）から計算される。信号は、ＳＴＦＴ形式で表され、｛Ｙ_ｋ（ｆ）｝_１．．Ｎとの表現は、Ｙ_ｋ（ｆ）のチャネル１．．Ｎから形成されたＮチャネル信号を示し、｛Ｙ_ｋ（ｆ）｝_{Ｎ＋１．．Ｎ＋Ｐ}は、Ｙ_ｋ（ｆ）のチャネルＮ＋１．．Ｎ＋Ｐから形成されたＰチャネル信号を示す。行列Ｍ_ｋ，ｂの適用は、式（２４）のそれと同等の近似関数を提供する、当該技術で知られている代替の方法に従って、達成され得ることが当業者によって理解されるだろう。

【0149】

上記に加えて、いくつかの実施形態で、ドミナント音響成分の数Ｐは、時間セグメントごとに異なる値をとるよう適応され得る。それにより、Ｐ_ｋは、時間セグメントｋに依存し得る。例えば、シーンエンコーダ２００のシーン解析２０２は、時間セグメントごとにＰ_ｋの値を決定し得る。一般に、ドミナント音響成分Ｐの数は、時間に依存し得る。Ｐ（又はＰ_ｋ）の選択は、メタデータのデータレートと再構成されたオーディオシーンの品質との間のトレードオフを含んでもよい。

【0150】

図１２に戻ると、空間デコーダ３００は、Ｍチャネルの再構成されたオーディオシーン５０を生成する。Ｍチャネルストリームは、出力パンナー
（外５）

に関連付けられる。これは、上記のステップＳ１３４０に従って行われ得る。出力パンナーの例には、ステレオパンニング関数、当該技術で知られているベクトルベースの振幅パンニング関数、及び当該技術で知られている高次のアンビソニックスパンニング関数がある。

【0151】

例えば、図１２のオブジェクトパンナー９１は：

【数24】

に従って、Ｍチャネルのパンされたオブジェクトストリーム９２Ｚ_ｐを生成するよう構成され得る。

【0152】

図１５は、再構成されたオーディオシーンを生成するようコンパクト空間オーディオシーンを復号する方法１５００の代替の定式化を提供するフローチャートである。方法１５００は、ステップＳ１５１０からＳ１５８０を含む。

【0153】

ステップＳ１５１０で、コンパクト空間オーディオシーンが受け取られ、符号化されたダウンミックスストリーム及び符号化されたメタデータストリームが取り出される。

【0154】

ステップＳ１５２０で、符号化されたダウンミックスストリームは、ダウンミックスストリームを形成するよう復号される。

【0155】

ステップＳ１５３０で、符号化されたメタデータストリームは、方向情報及びエネルギ比情報を形成するよう復号される。

【0156】

ステップＳ１５４０で、バンドごとのデミキシング行列が、方向情報及びエネルギ比情報から形成される。

【0157】

ステップＳ１５５０で、ダウンミックスストリームは、分離されたストリームを形成するようデミキシング行列に従って処理される。

【0158】

ステップＳ１５６０で、オブジェクト信号が、分離されたストリームから取り出され、方向情報及び所望の出力フォーマットに従って、パンされたオブジェクト信号を生成するようパンされる。

【0159】

ステップＳ１５７０で、残留信号が、分離されたストリームから取り出され、所望の出力フォーマットに従って、復号された残留信号を生成するよう処理される。

【0160】

最後に、ステップＳ１５８０で、パンされたオブジェクト信号及び復号された残留信号が、再構成されたオーディオシーンを形成するよう結合される。

【0161】

【0162】

空間オーディオ信号の圧縮表現を生成するために空間オーディオ信号を処理する方法、及び空間オーディオ信号の再構成表現を生成するために空間オーディオ信号の圧縮表現を処理する方法が、先に記載されてきた。更に、本開示は、これらの方法を実行する装置にも関する。そのような装置１６００の例は、図１６で概略的に表されている。装置１６００は、プロセッサ１６１０（例えば、中央演算処理装置（ＣＰＵ）、グラフィクス処理ユニット（ＧＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、１つ以上の特定用途向け集積回路（ＡＳＩＣ）、１つ以上の無線周波数集積回路（ＲＦＩＣ）、又はそれらの任意の組み合わせ）、及びプロセッサ１６１０へ結合されているメモリ１６２０を有し得る。プロセッサは、本開示にわたって記載されている方法のステップの一部又は全部を実行するよう構成されてよい。装置１６００がエンコーダ（例えば、シーンエンコーダ）として動作する場合に、それは、入力１６３０として、例えば、空間オーディオ信号（すなわち、空間オーディオシーン）を受け取ってよい。装置１６００は、次いで、出力１６４０として、空間オーディオ信号の圧縮表現を生成し得る。装置１６００がデコーダ（例えば、シーンデコーダ）として動作する場合に、それは、入力１６３０として、圧縮表現を受け取ってよい。装置は、次いで、出力１６４０として、再構成されたオーディオシーンを生成し得る。

【0163】

装置１６００は、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ（ＰＣ）、タブレットＰＣ、セットトップボックス（ＳＴＢ）、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話機、スマートフォン、ウェブアプライアンス、ネットワークルータ、スイッチ若しくはブリッジ、又はその装置によって行われる動作を指定する命令を実行可能な任意のマシンであってよい。更に、図１６には１つの装置１６００しか表されていないが、本開示は、当然に、本明細書で議論されているメソッドロジのいずれか１つ以上を実行するよう個別的に又はまとまって命令を実行する装置の任意の集合に関するものである。

【0164】

本開示は、プロセッサによって実行される場合に、プロセッサに、本明細書で記載されている方法のステップの一部又は全部を実行させる命令を有するプログラム（例えば、コンピュータプログラム）に更に関する。

【0165】

また更に、本開示は、上記のプログラムを記憶しているコンピュータ可読（又はマシン可読）記憶媒体に関する。ここで、「コンピュータ可読記憶媒体」という用語は、例えば、ソリッドステートメモリ、光学媒体、及び磁気媒体の形でデータリポジトリを含むが、それに限られない。

【0166】

［追加の構成に関する考慮事項］
特に別なふうに述べられない限りは、以下の議論から明らかなように、本開示を通して、「処理する」（processing）、「計算する」（computing）、「計算する」（calculating）、「決定する」（determining）、「解析する」（analyzing）などのような用語を利用する議論は、電子などの物理的な量として表されるデータを物理量として同様に表される他のデータに操作及び／又は変換するコンピュータ若しくはコンピューティングシステム、又は同様の電子コンピューティングデバイスの動作及び／又は処理を指すことが理解される。

【0167】

同様に、「プロセッサ」という用語は、例えば、レジスタ及び／又はメモリからの電子データを処理して、その電子データを、例えば、レジスタ及び／又はメモリに格納され得る他の電子データに変換する任意のデバイス又はデバイスの部分を指し得る。「コンピュータ」又は「コンピューティングマシン」又は「コンピューティングプラットフォーム」は，１つ以上のプロセッサを含んでよい。

【0168】

本明細書で記載されているメソッドロジは、一例となる実施形態では、プロセッサの１つ以上によって実行される場合に、本明細書で記載されている方法の少なくとも１つを実行する命令の組を含むコンピュータ可読（マシン可読、とも呼ばれる）コードを受け入れる１つ以上のプロセッサによって実行可能である。行われる動作を指定する命令の組（シーケンシャル又はその他）を実行可能な如何なるプロセッサも含まれる。従って、１つの例は、１つ以上のプロセッサを含む典型的な処理システムである。各プロセッサは、１つ以上のＣＰＵ、グラフィクス処理ユニット、及びプログラム可能なＤＳＰユニットを含み得る。処理システムは、メインＲＡＭ及び／又はスタティックＲＡＭ、及び／又はＲＯＭを含むメモリサブシステムを更に含み得る。コンポーネント間の通信用にバスサブシステムが含まれてもよい。処理システムは更に、ネットワークによって結合されているプロセッサを備えた分散処理システムであってもよい。処理システムがディスプレイを必要とする場合には、そのようなディスプレイ、例えば、液晶ディスプレイ（ＬＣＤ）又は陰極線管（ＣＲＴ）ディスプレイが含まれてもよい。手動によるデータ入力が必要とされる場合には、処理システムは、キーボードなどの英数字入力ユニット、マウスなどのポインティング制御デバイス、などの１つ以上のような入力デバイスも含む。処理システムはまた、ディスクドライブユニットなどの記憶システムを包含し得る。処理システムは、いくつかの構成では、音声出力デバイス及びネットワークインターフェースデバイスを含んでもよい。従って、メモリサブシステムは、１つ以上のプロセッサによって実行される場合に、本明細書で記載されている方法の１つ以上を実行させる命令の組を含むコンピュータ可読コード（例えば、ソフトウェア）を運ぶコンピュータ可読キャリア媒体を含む。方法がいくつかの要素、例えば、いくつかのステップを含む場合に、特に明記されていない限り、そのような要素の順序は暗示されないことに留意されたい。ソフトウェアは、ハードディスクに常駐してもよく、あるいは、コンピュータシステムによるその実行中に、ＲＡＭ内及び／又はプロセッサ内に完全に又は少なくとも部分的に常駐してもよい。従って、メモリ及びプロセッサはまた、コンピュータ可読コードを運ぶコンピュータ可読キャリア媒体を構成する。更に、コンピュータ可読キャリア媒体は、コンピュータプログラム製品を形成するか、あるいは、コンピュータプログラム製品に含まれてもよい。

【0169】

代替の例示的な実施形態では、１つ以上のプロセッサは、スタンドアロンデバイスとして動作するか、あるいは、ネットワーク化されたデプロイメント（networked deployment）において、例えば、他のプロセッサにネットワーク化されて接続されてもよく、１つ以上のプロセッサは、サーバ－ユーザーネットワーク環境内のサーバ若しくはユーザマシンとして、又はピア・ツー・ピア若しくは分散ネットワーク環境内のピアマシンとして動作してもよい。１つ以上のプロセッサは、パーソナルコンピュータ（ＰＣ）、タブレットＰＣ、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話機、ウェブアプライアンス、ネットワークルータ、スイッチ若しくはブリッジ、又はそのマシンによって行われる動作を指定する命令の組（シーケンシャル又はその他）を実行可能な任意のマシンを形成し得る。

【0170】

「マシン」という用語は、本明細書で議論されているメソッドロジのいずれか１つ以上を実行するよう命令の組（又は複数の組）を個別的に又はまとまって命令実行するマシンの任意の集合を含むと解釈されることに留意されたい。

【0171】

従って、本明細書に記載されている各方法の１つの例示的な実施形態は、命令の組、例えば、１つ以上のプロセッサ、例えば、ウェブサーバ配置の部分である１つ以上のプロセッサで実行されるコンピュータプログラムを運ぶコンピュータ可読キャリア媒体の形をとる。従って、当業者によって理解されるように、本開示の例示的な実施形態は、方法、特別目的の装置などの装置、データ処理システムなどの装置、又はコンピュータ可読キャリア媒体、例えば、コンピュータプログラム製品、として具体化されてもよい。コンピュータ可読キャリア媒体は、１つ以上のプロセッサで実行される場合に１つ又は複数のプロセッサに方法を実装させる命令の組を含むコンピュータ可読コードを運ぶ。従って、本開示の態様は、方法、完全にハードウェアの例示的な実施形態、完全にソフトウェアの例示的な実施形態、又はソフトウェアとハードウェアの態様を組み合わせた例示的な実施形態、の形をとることができる。更に、本開示は、媒体に具体化されたコンピュータ可読プログラムコードを運ぶキャリア媒体（例えば、コンピュータ可読記憶媒体上のコンピュータプログラム製品）の形態をとることができる。

【0172】

ソフトウェアは更に、ネットワークインターフェースデバイスを介してネットワーク上で送信又は受信されてもよい。キャリア媒体は、例示的な実施形態では単一の媒体であるが、「キャリア媒体」という用語は、命令の１つ以上の組を記憶する単一の媒体又は複数の媒体（例えば、集中型若しくは分散型データベース、及び／又は関連するキャッシュ及びサーバ）を含むと解釈されるべきである。「キャリア媒体」という用語はまた、１つ以上のプロセッサによる実行のための命令の組を格納、符号化、又は搬送することができ、１つ以上のプロセッサに本開示のメソッドロジのいずれか１つ以上を実行させる任意の媒体を含むと解釈されるべきである。キャリア媒体は、不揮発性媒体、揮発性媒体、及び伝送媒体を含むがこれらに限定されない多くの形態をとることができる。不揮発性媒体には、例えば、光ディスク、磁気ディスク、及び光磁気ディスクが含まれる。揮発性メディアには、メインメモリなどの動的メモリが含まれる。伝送媒体には、バスサブシステムを構成する配線を含む、同軸ケーブル、銅線、及び光ファイバーが含まれる。伝送媒体はまた、電波及び赤外線データ通信中に生成されるものなど、音波又は光波の形をとることもできる。例えば、「キャリア媒体」という用語は、ソリッドステートメモリ、光学及び磁気媒体で具現されたコンピュータ製品、少なくとも１つのプロセッサ又は１つ以上のプロセッサによって検出可能であり、実行される場合に方法を実装する命令の組を表す伝播信号を有する媒体、並びに１つ以上のプロセッサのうちの少なくとも１つのプロセッサによって検出可能であり、命令の組を表す伝播信号を有するネットワーク内の伝送媒体を含むが、これらに限られないと然るべく解されるべきである。

【0173】

議論されている方法のステップは、１つの例示的な実施形態では、ストレージに格納された命令（コンピュータ可読コード）を実行する処理（例えば、コンピュータ）システムの適切なプロセッサ（又は複数のプロセッサ）によって実行されることが理解される。また、本開示は、如何なる特定の実施又はプログラミング技術にも限定されず、本開示は、本明細書に記載されている機能を実装するための如何なる適切な技術によっても実装されて得ることも理解されよう。本開示は、如何なる特定のプログラミング言語又はオペレーティングシステムにも限定されない。

【0174】

本開示全体を通して「１つの例示的な実施形態」、「いくつかの例示的な実施形態」又は「例となる実施形態」への言及は、例となる実施形態に関連して説明される特定の特徴、構造又は特性が、本開示の少なくとも１つの例示的な実施形態に含まれることを意味する。従って、本開示全体の様々な場所での「１つの例示的な実施形態において」、「いくつかの例示的な実施形態において」又は「例となる実施形態において」という句の出現は、必ずしも全てが同じ例示的な実施形態を指すとは限らない。更に、特定の特徴、構造又は特徴は、１つ以上の例示的な実施形態において、本開示から当業者に明らかであるように、任意の適切な方法で組み合わせることができる。

【0175】

本明細書で使用されるように、共通のオブジェクトを説明するための序数形容詞「第１」、「第２」、「第３」などの使用は、特に明記されない限りは、同様のオブジェクトの異なるインスタンスが参照されさていることを単に示しており、そのように記載されたオブジェクトが、時間的、空間的、順位付け、又はその他の方法で、特定の順序である必要があることを暗示するものとして意図されない。

【0176】

以下の特許請求の範囲、及び本明細書の説明において、「有する」（comprising）、「～から成る」（comprised of）又は「～を有する」（which comprises）という用語のうちのいずれか１つは、続く要素／特徴を少なくとも含むが、他のものを除外しないことを意味する非限定的な用語（open term）である。従って、「有する」（comprising）という用語は、特許請求の範囲で使用される場合に、その後に列挙される手段又は要素又はステップを限定するものとして解釈されるべきではない。例えば、「Ａ及びＢを有するデバイス」という表現の範囲は、「要素Ａ及びＢのみを有する含むデバイス」に限定されるべきではない。本明細書で使用される「含む」（including）又は「～を含む」（which includes）又は「～を含む」（that includes）という用語のうちのいずれか１つも、その用語に続く要素/機能を少なくとも含むが、他のものを除外しないことを意味する。従って、「含む」（including）は、「有する」（comprising）と同義であり、それを意味する。

【0177】

本開示の例示的な実施形態の上記の説明において、本開示の様々な特徴は、開示を簡素化し、かつ、様々な発明態様の1つ以上の理解を助ける目的で、単一の例示的な実施形態、図、又はその説明に時々まとめられることが理解されるべきである。しかしながら、この開示方法は、特許請求の範囲が各請求項で明示的に記載されているよりも多くの特徴を必要とするという意図を反映していると解釈されるべきではない。むしろ、続く特許請求の範囲が反映するように、発明態様は、前述の単一の開示された例示的な実施形態の全ての特徴よりも少ない特徴にある。従って、説明に続く特許請求の範囲は、本明細書に明示的に組み込まれ、各請求項は、本開示の別個の例示的な実施形態として独立している。

【0178】

更に、本明細書で記載されるいくつかの例示的な実施形態は、他の例示的な実施形態に含まれるいくつかの特徴を含むが他の特徴を含まず、一方で、異なる例示的な実施形態の特徴の組み合わせは、本開示の範囲内あるよう意図され、当業者によって理解されるように、別の例示的な実施形態を形成する。例えば、続く特許請求の範囲において、請求されている例示的な実施形態のいずれかは、任意の組み合わせで使用され得る。

【0179】

本明細書で提供される説明では、多くの特定の詳細が示されている。しかしながら、本開示の例示的な実施形態は、これらの特定の詳細によらずに実施されてもよいことが理解される。他の例では、この説明の理解をあいまいにしないために、よく知られた方法、構造、及び技法は詳細に示されていない。

【0180】

従って、本開示の最良の様式であると考えられるものが記載されているが、当業者は、本開示の精神から逸脱することなく、他の更なる修正を加えることができることを認識し、本開示の範囲内にあるような全てのそのような変更及び修正を請求することが意図される。例えば、上記の式は、使用される可能性がある手順の代表的なものにすぎない。ブロック図に機能を追加又は削除したり、機能ブロック間で操作を交換したりすることもできる。本開示の範囲内で説明される方法に、ステップを追加又は削除することもできる。

【0181】

本開示の更なる態様、実施形態、及び実施例は、以下に列挙された例示的な実施形態（numerated example embodiments）（ＥＥＥ）から明らかになるであろう。

【0182】

ＥＥＥ１は、オーディオ混合ストリーム及び方向メタデータストリームを含むコンパクト空間オーディオシーンとして空間オーディオシーンを表示する方法に関し、前記オーディオ混合ストリームは、１つ以上のオーディオ要素から成り、前記方向メタデータストリームは、時系列の方向メタデータブロックから成り、前記方向メタデータブロックの夫々は、前記オーディオ信号における対応する時間セグメントに関連し、前記空間オーディオシーンは、各々の到来方向に夫々関連する１つ以上の指向性音響要素を含み、前記方向メタデータブロックの夫々は、（ａ）前記指向性音響要素の夫々についての前記到来方向を示す方向情報と、（ｂ）指向性音響要素の夫々について、及び２つ以上のサブバンドの組の夫々ついて、前記オーディオ信号における前記対応する時間セグメントでのエネルギに対する前記指向性音響要素の夫々でのエネルギを示すエネルギバンド比情報とを含む。

【0183】

ＥＥＥ２は、ＥＥＥ１に記載の方法に関し、（ａ）前記エネルギバンド比情報は、複数の前記サブバンドの夫々での前記空間オーディオシーンの特性を示し、（ｂ）少なくとも１つの到来方向について、前記方向情報に含まれるデータは、前記サブバンドのうちの２つ以上のクラスタでの前記空間オーディオシーンの特性を示す。

【0184】

ＥＥＥ３は、オーディオ混合ストリーム及び方向メタデータストリームを含むコンパクトな空間オーディオシーンを処理して、１つ以上のオーディオオブジェクト信号の組を含む分離された空間オーディオストリーム及び残留ストリームを生成する方法に関し、前記オーディオ混合ストリームは、１つ以上のオーディオ信号から成り、前記方向メタデータストリームは、時系列の方向メタデータブロックから成り、前記方向メタデータブロックの夫々は、前記オーディオ信号における対応する時間セグメントに関連し、複数のサブバンドの夫々について、方法は、（ａ）前記方向メタデータストリームに含まれる方向情報及びエネルギバンド比情報からデミキシング行列の係数を決定することと、（ｂ）前記デミキシング行列を用いて、前記オーディオ混合ストリームを混合して、前記分離された空間オーディオストリームを生成することを有する。

【0185】

ＥＥＥ４は、ＥＥＥ３に記載の方法に関し、前記方向メタデータブロックの夫々は、（ａ）指向性音響要素の夫々についての到来方向を示す方向情報と、（ｂ）指向性音響要素の夫々について、及び２つ以上のサブバンドの組の夫々ついて、前記オーディオ信号における前記対応する時間セグメントでのエネルギに対する前記指向性音響要素の夫々でのエネルギを示すエネルギバンド比情報とを含む。

【0186】

ＥＥＥ５は、ＥＥＥ３に記載の方法に関し、（ａ）前記方向メタデータがブロックの夫々について、方向情報及びエネルギバンド比情報が、前記分離された空間オーディオストリームの近似共分散を表す行列Ｓを形成するために使用され、（ａ）前記エネルギバンド比情報は、前記オーディオ混合ストリームへの前記分離された空間オーディオストリームの変換を定義する再混合行列を表すＥを形成するために使用され、（ｂ）前記デミキシング行列Ｅは、Ｕ＝Ｓ×Ｅ^＊×（Ｅ×Ｓ×Ｅ^＊）^－１に従って計算される。

【0187】

ＥＥＥ６は、ＥＥＥ６に記載の方法に関し、行列Ｓは対角行列である。

【0188】

ＥＥＥ７は、ＥＥＥ３に記載の方法に関し、（ａ）前記残留ストリームは、再構成された残留ストリームを生成するよう処理され、（ｂ）前記オーディオオブジェクト信号の夫々は、対応する再構成されたオブジェクトストリームを生成するよう処理され、（ｃ）前記再構成された残留ストリームと前記再構成されたオブジェクトストリームの夫々とは、再構成されたオーディオ信号を形成するよう結合され、前記再構成されたオーディオ信号は、前記コンパクト空間オーディオシーンに従って指向性音響要素を含む。

【0189】

ＥＥＥ８は、ＥＥＥ７に記載の方法に関し、前記再構成されたオーディオ信号は、前記コンパクト空間オーディオシーンに従って指向性音響要素を含む空間オーディオシーンのバイノーラル体験を提供するために各耳で又は各耳の近くでのトランスデューサによるリスナーへの提示のための２つの信号を含む。

【0190】

ＥＥＥ９は、ＥＥＥ７に記載の方法に関し、前記再構成されたオーディオ信号は、球面調和パンニング関数（spherical-harmonic panning functions）の形で空間オーディオシーンを表す複数の信号を含む。

【0191】

ＥＥＥ１０は、空間オーディオシーンを処理して、オーディオ混合ストリーム及び方向メタデータストリームを含むコンパクトな空間オーディオシーンを生成する方法に関し、前記空間オーディオシーンは、各々の到来方向と夫々関連付けられている１つ以上の指向性音響要素を含み、前記方向メタデータストリームは、時系列の方向メタデータブロックから成り、該方向メタデータブロックの夫々は、オーディオ信号における対応する時間セグメントに関連し、方法は、（ａ）空間オーディオシーンの解析から、前記指向性音響要素の１つ以上について到来方向を決定する手段と、（ｂ）空間シーンにおける総エネルギのうちのどの部分が前記指向性音響要素の夫々でのエネルギによって寄与されているかを決定する手段と、（ｃ）前記空間オーディオシーンを処理して前記オーディオ混合ストリームを生成する手段とを含む。

【図1】