(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-01-10
(54)【発明の名称】方向メタデータを使用するマルチチャネルオーディオ符号化及び復号化
(51)【国際特許分類】
G10L 19/008 20130101AFI20221227BHJP
G10L 25/51 20130101ALI20221227BHJP
【FI】
G10L19/008 100
G10L25/51 400
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022524622
(86)(22)【出願日】2020-10-29
(85)【翻訳文提出日】2022-04-26
(86)【国際出願番号】 US2020057885
(87)【国際公開番号】W WO2021087063
(87)【国際公開日】2021-05-06
(32)【優先日】2019-10-30
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-10-01
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】マグラス,デイヴィッド エス.
(57)【要約】
本開示は、空間オーディオ信号を処理して、空間オーディオ信号の圧縮表現を生成する方法に関する。方法は、1つ以上のオーディオ要素の到来方向を決定するよう空間オーディオ信号を解析することと、少なくとも1つの周波数サブバンドについて、到来方向に関連した信号電力の各々の指示を決定することと、オーディオ要素の到来方向の指示を含む方向情報及び信号電力の各々の指示を含むエネルギ情報を含むメタデータを生成することと、空間オーディオ信号に基づき、予め定義された数のチャネルを有するチャネルベースオーディオ信号を生成することと、圧縮表現としてチャネルベースオーディオ信号及びメタデータを出力することとを含む。本開示は更に、空間オーディオ信号の圧縮表現を処理して、空間オーディオ信号の再構成表現を生成する方法と、対応する装置、プログラム、及び記憶媒体とに関する。
【特許請求の範囲】
【請求項1】
空間オーディオ信号を処理して、該空間オーディオ信号の圧縮表現を生成する方法であって、
前記空間オーディオ信号によって表されるオーディオシーンにおける1つ以上のオーディオ要素の到来方向を決定するよう前記空間オーディオ信号を解析することと、
前記空間オーディオ信号の少なくとも1つの周波数サブバンドについて、前記決定された到来方向に関連した信号電力の各々の指示を決定することと、
方向情報及びエネルギ情報を含むメタデータを生成することであり、前記方向情報が前記1つ以上のオーディオ要素の前記決定された到来方向の指示を含み、前記エネルギ情報が前記決定された到来方向に関連した信号電力の各々の指示を含む、ことと、
前記空間オーディオ信号に基づき、予め定義された数のチャネルを有するチャネルベースオーディオ信号を生成することと、
前記空間オーディオ信号の前記圧縮表現として前記チャネルベースオーディオ信号及び前記メタデータを出力することと
を有する方法。
【請求項2】
前記空間オーディオ信号を解析することは、前記空間オーディオ信号の複数の周波数サブバンドに基づく、
請求項1に記載の方法。
【請求項3】
前記空間オーディオ信号を解析することは、前記空間オーディオ信号にシーン解析を適用することを含む、
請求項1又は2に記載の方法。
【請求項4】
前記空間オーディオ信号は、マルチチャネルオーディオ信号であり、あるいは、
前記空間オーディオ信号は、オブジェクトベースオーディオ信号であり、当該方法は、前記シーン解析を適用する前に、前記オブジェクトベースオーディオ信号をマルチチャネルオーディオ信号に変換することを有する、
請求項3に記載の方法。
【請求項5】
所与の到来方向に関連した信号電力の指示は、前記周波数サブバンドでの総信号電力に対する前記所与の到来方向についての前記周波数サブバンドでの信号電力の比に関する、
請求項1乃至4のうちいずれか一項に記載の方法。
【請求項6】
前記信号電力の指示は、複数の周波数サブバンドの夫々について決定され、所与の到来方向及び所与の周波数サブバンドについて、前記所与の周波数サブバンドでの総信号電力に対する前記所与の到来方向についての前記所与の周波数サブバンドでの信号電力の比に関する、
請求項1乃至5のうちいずれか一項に記載の方法。
【請求項7】
前記空間オーディオ信号を解析すること、前記信号電力の各々の指示を決定すること、及び前記チャネルベースオーディオ信号を生成することは、時間セグメントごとに実行される、
請求項1乃至6のうちいずれか一項に記載の方法。
【請求項8】
前記空間オーディオ信号を解析すること、前記信号電力の各々の指示を決定すること、及び前記チャネルベースオーディオ信号を生成することは、前記空間オーディオ信号の時間周波数表現に基づき実行される、
請求項1乃至7のうちいずれか一項に記載の方法。
【請求項9】
前記空間オーディオ信号は、複数のオーディオオブジェクト及び関連する方向ベクトルを含むオブジェクトベースオーディオ信号であり、
当該方法は、前記オーディオオブジェクトを予め定義されたオーディオチャネルの組にパンすることによってマルチチャネルオーディオ信号を生成することを更に有し、各オーディオオブジェクトが、その方向ベクトルに従って前記予め定義されたオーディオチャネルの組にパンされ、
前記チャネルベースオーディオ信号は、ダウンミックス操作を前記マルチチャネルオーディオ信号に適用することによって生成されたダウンミックス信号である、
請求項1乃至3又は5乃至8のうちいずれか一項に記載の方法。
【請求項10】
前記空間オーディオ信号は、マルチチャネルオーディオ信号であり、
前記チャネルベースオーディオ信号は、ダウンミックス操作を前記マルチチャネルオーディオ信号に適用することによって生成されたダウンミックス信号である、
請求項1乃至3又は5乃至8のうちいずれか一項に記載の方法。
【請求項11】
空間オーディオ信号の圧縮表現を処理して、前記空間オーディオ信号の再構成表現を生成する方法であって、前記圧縮表現は、予め定義された数のチャネルを有するチャネルベースオーディオ信号及びメタデータを含み、前記メタデータは、方向情報及びエネルギ情報を含み、前記方向情報がオーディオシーンにおける1つ以上のオーディオ要素の到来方向の指示を含み、前記エネルギ情報が、少なくとも1つの周波数サブバンドについて、前記到来方向に関連した信号電力の各々の指示を含む、前記方法において、
前記チャネルベースオーディオ信号、前記方向情報、及び前記エネルギ情報に基づき、前記1つ以上のオーディオ要素のオーディオ信号を生成することと、
前記チャネルベースオーディオ信号、前記方向情報、及び前記エネルギ情報に基づき、前記1つ以上のオーディオ要素が実質的に存在しない残留オーディオ信号を生成することと
を有する方法。
【請求項12】
所与の到来方向に関連した信号電力の指示は、前記周波数サブバンドでの総信号電力に対する前記所与の到来方向についての前記周波数サブバンドでの信号電力の比に関する、
請求項11に記載の方法。
【請求項13】
前記エネルギ情報は、複数の周波数サブバンドの夫々についての信号電力の指示を含み、
信号電力の指示は、所与の到来方向及び所与の周波数サブバンドについて、前記所与の周波数サブバンドでの総信号電力に対する前記所与の到来方向についての前記所与の周波数サブバンドでの信号電力の比に関する、
請求項11又は12に記載の方法。
【請求項14】
前記1つ以上のオーディオ要素の前記オーディオ信号を出力オーディオフォーマットのチャネルの組にパンすることと、
前記パンされた1つ以上のオーディオ要素及び前記残留オーディオ信号に基づき、前記出力オーディオフォーマットで、再構成されたマルチチャネルオーディオ信号を生成することと
を更に有する、請求項11乃至13のうちいずれか一項に記載の方法。
【請求項15】
前記1つ以上のオーディオ要素の前記オーディオ信号を生成することは、
前記方向情報及び前記エネルギ情報に基づき、前記残留オーディオ信号及び前記1つ以上のオーディオ要素の前記オーディオ信号を含む中間表現へ前記チャネルベースオーディオ信号をマッピングするための逆混合行列Mの係数を決定することを有する、
請求項11乃至14のうちいずれか一項に記載の方法。
【請求項16】
前記逆混合行列Mの係数を決定することは、
前記1つ以上のオーディオ要素の夫々について、当該オーディオ要素の到来方向dirに基づき、当該オーディオ要素を前記チャネルベースオーディオ信号のチャネルにパンするためのパンニングベクトルPan
down(dir)を決定することと、
前記決定されたパンニングベクトルに基づき、前記残留オーディオ信号及び前記1つ以上のオーディオ要素の前記オーディオ信号を前記チャネルベースオーディオ信号のチャネルにマッピングするために使用される混合行列Eを決定することと、
前記エネルギ情報に基づき、前記中間表現の共分散行列Sを決定することと、
前記混合行列E及び前記共分散行列Sに基づき前記逆混合行列Mの係数を決定することと
を有する、
請求項15に記載の方法。
【請求項17】
前記混合行列Eは、
E=(I
N|Pan
down(dir
1)|・・・|Pan
down(dir
P|)
に従って決定され、I
Nは、N×Nの単位行列であり、Nは、前記チャネルベースオーディオ信号のチャネルの数を示し、Pan
down(dir
p)は、前記チャネルベースオーディオ信号のN個のチャネルにp番目のオーディオ要素をパンする関連する到来方向dir
pを有する前記p番目のオーディオ要素のパンニングベクトルであり、p=1,・・・,Pは、前記1つ以上のオーディオ要素の中の各々1つを示し、Pは、前記1つ以上のオーディオ要素の総数を示す、
請求項16に記載の方法。
【請求項18】
前記共分散行列Sは、1≦n≦Nについては、
【数25】
に従って、1≦p≦Pについては、
{S}
N+p,N+p=e
p
に従って、対角行列として決定され、e
pは、p番目のオーディオ要素の到来方向に関連した信号電力である、
請求項17に記載の方法。
【請求項19】
前記混合行列及び前記共分散行列に基づき前記逆混合行列の係数を決定することは、前記混合行列及び前記共分散行列に基づき疑似逆行列を決定することを含む、
請求項16乃至18のうちいずれか一項に記載の方法。
【請求項20】
前記逆混合行列Mは、
M=S×E
*×(E×S×E
*)
-1
に従って決定され、
×は、行列積を示し、*は、行列の共役転置を示す、
請求項16乃至19のうちいずれか一項に記載の方法。
【請求項21】
前記チャネルベースオーディオ信号は、1次アンビソニックス信号である、
請求項1乃至20のうちいずれか一項に記載の方法。
【請求項22】
プロセッサによって実行される場合に、該プロセッサに、請求項1乃至21のうちいずれか一項に記載の方法の全ステップを実行させる命令を有するプログラム。
【請求項23】
請求項22に記載のプログラムを記憶しているコンピュータ可読記憶媒体。
【請求項24】
プロセッサ及び該プロセッサへ結合されたメモリを有し、
前記プロセッサは、請求項1乃至21のうちいずれか一項に記載の方法の全ステップを実行するよう構成される、
装置。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願への相互参照]
本願は、2019年10月30日付けで出願された米国特許仮出願第62/927,790号、及び2020年10月1日付けで出願された米国特許仮出願第63/086,465号に対する優先権を主張するものであり、これらの米国出願の夫々は、その全文を参照により本願に援用される。
【0002】
[技術分野]
本開示は、概して、オーディオ信号処理に関する。特に、本開示は、空間オーディオ信号(空間オーディオシーン)を処理して、空間オーディオ信号の圧縮表現を生成する方法、及び空間オーディオ信号の圧縮表現を処理して、空間オーディオ信号の再構成表現を生成する方法に関する。
【背景技術】
【0003】
人間の聴覚により、リスナーは空間オーディオシーンの形で彼らの環境を知覚することができる。ここでは、「空間オーディオシーン」という用語は、リスナーの周囲の音響環境、又はリスナーの心の中で知覚される音響環境を指すために使用される。
【0004】
人間の経験は空間オーディオシーンに付随しているが、オーディオの録音及び再生の技術には、オーディオ信号又はオーディオチャネルの捕捉、操作、送信、及び再生が含まれる。「オーディオストリーム」という用語は、特にオーディオストリームが空間オーディオシーンを表すことを目的としている場合に、1つ以上のオーディオ信号の集合を指すために使用される。
【0005】
オーディオストリームは、電気音響変換器を介して、又は他の手段によってリスナーに再生されて、1人以上のリスナーに空間オーディオシーンの形でリスニング体験を提供することができる。オーディオの録音の実行者及びオーディオアーティストの目標は、一般的に、リスナーに特定の空間オーディオシーンの体験を提供することを目的としたオーディオストリームを作成することである。
【0006】
オーディオストリームには、再生プロセスを支援するメタデータと呼ばれる関連データが付随している場合がある。付随するメタデータには、時間とともに変化する情報が含まれる場合がある。この情報は、再生プロセス中に適用される処理の変更に影響を与えるために使用され得る。
【0007】
以下で、「捕捉されたオーディオエクスペリエンス」という用語は、オーディオストリームと関連するメタデータを指すために使用される場合がある。
【0008】
一部のアプリケーションでは、メタデータは、再生用の意図されたラウドスピーカ配置を示すデータのみから成る。再生スピーカの配置が標準化されていることを前提として、しばしば、このメタデータは省略される。この場合、捕捉されたオーディオエクスペリエンスは、オーディオストリームのみから成る。そのような捕捉されたオーディオエクスペリエンスの1つの例は、コンパクトディスクに記録された2チャネルオーディオストリームである。このとき、意図されている再生システムは、リスナーの前に配置された2つのラウドスピーカの形式であると想定される。
【0009】
代替的に、シーンベースのマルチチャネルオーディオ信号の形をとる捕捉されたオーディオエクスペリエンスは、スピーカ信号の組を生成するために、混合行列により、オーディオ信号を処理することによってリスナーへの提示を意図され得る。各スピーカ信号は、その後に、各々のラウドスピーカに再生される。このとき、ラウドスピーカは、任意に、リスナーの周りに空間的に配置され得る。この例では、混合行列は、シーンベースのフォーマット及び再生スピーカの配置に関する事前の知識に基づいて生成され得る。
【0010】
シーンベースのフォーマットの例は、高次アンビソニックス(Higher Order Ambisonics)(HOA)であり、適切な混合行列を計算する方法の例は、参照により本願に援用される“Ambisonics”,Franz Zotter and Matthias Frank,ISBN: 978-3-030-17206-0,Chapter 3で与えられる。
【0011】
通常、このようなシーンベースのフォーマットには、多数のチャネル又はオーディオオブジェクトが含まれるため、これらのフォーマットで空間オーディオ信号を送信又は保存する場合は、バンド幅又はストレージの要件が比較的高くなる。
【0012】
従って、空間オーディオシーンを表す空間オーディオ信号のコンパクトな表現が必要である。これは、チャネルベース及びオブジェクトベースの両方の空間オーディオ信号に当てはまる。
【発明の概要】
【0013】
本開示は、空間オーディオ信号を処理して、空間オーディオ信号の圧縮表現を生成する方法と、空間オーディオ信号の圧縮表現を処理して、空間オーディオ信号の再構成表現を生成する方法と、対応する装置、プログラム、及びコンピュータ可読記憶媒体とを提案する。
【0014】
本開示の一態様は、空間オーディオ信号を処理して、空間オーディオ信号の圧縮表現を生成する方法に関する。空間オーディオ信号は、例えば、マルチチャネル信号又はオブジェクトベース信号であってよい。圧縮表現は、コンパクトな又はサイズを低減された表現であってよい。方法は、空間オーディオ信号によって表されるオーディオシーン(空間オーディオシーン)における1つ以上のオーディオ要素の到来方向を決定するよう空間オーディオ信号を解析することを含み得る。オーディオ要素は、ドミナントオーディオ要素であってよい。(ドミナント)オーディオ要素は、例えば、オーディオシーンにおける(ドミナント)音響オブジェクト、(ドミナント)音源、又は(ドミナント)音響コンポーネントに関係があってよい。1つ以上のオーディオ要素は、例えば、4つのオーディオ要素のような、1から10のオーディオ要素を含み得る。到来方向は、オーディオ要素の知覚された位置を示す単位球面上の位置に対応してよい。方法は更に、空間オーディオ信号の少なくとも1つの周波数サブバンドについて(例えば、全ての周波数サブバンドについて)、決定された到来方向に関連した信号電力の各々の指示を決定することを含み得る。方法は更に、方向情報及びエネルギ情報を含むメタデータを生成することであり、方向情報が1つ以上のオーディオ要素の決定された到来方向の指示を含み、エネルギ情報が決定された到来方向に関連した信号電力の各々の指示を含む、ことを含み得る。方法は更に、空間オーディオ信号に基づき、予め定義された数のチャネルを有するチャネルベースオーディオ信号を生成することを含み得る。チャネルベースオーディオ信号は、オーディオ混合信号又はオーディオ混合ストリームと呼ばれることがある。チャネルベースオーディオ信号のチャネルの数は、空間オーディオ信号のチャネルの数又はオブジェクトの数よりも少なくてもよいことが理解される。方法はまた、空間オーディオ信号の圧縮表現としてチャネルベースオーディオ信号及びメタデータを出力することを更に含み得る。メタデータは、メタデータストリームに関係があってよい。
【0015】
それによって、空間オーディオ信号の圧縮表現は、限られた数のチャネルを含むように生成され得る。それでも、方向情報及びエネルギ情報の適切な使用によって、デコーダは、元の空間オーディオ信号の表現に関する限りは元の空間オーディオ信号の非常に優れた近似である元の空間オーディオ信号の再構成されたバージョンを生成することができる。
【0016】
いくつかの実施形態で、空間オーディオ信号を解析することは、空間オーディオ信号の複数の周波数サブバンドに基づき得る。例えば、解析は、空間オーディオ信号の全周波数範囲(すなわち、全信号)に基づいてよい。つまり、解析は、全ての周波数サブバンドに基づいてよい。
【0017】
いくつかの実施形態で、空間オーディオ信号を解析することは、空間オーディオ信号にシーン解析を適用することを含み得る。それによって、オーディオシーンにおけるドミナントオーディオ要素(の方向)は、信頼できる効率的な方法で決定可能である。
【0018】
いくつかの実施形態で、空間オーディオ信号は、マルチチャネルオーディオ信号であってよい。代替的に、空間オーディオ信号は、オブジェクトベースオーディオ信号であってもよい。この場合に、方法は、シーン解析を適用する前に、オブジェクトベースオーディオ信号をマルチチャネルオーディオ信号に変換することを更に含み得る。これは、オーディオ信号にシーン解析ツールを有意味に適用することを可能にする。
【0019】
いくつかの実施形態で、所与の到来方向に関連した信号電力の指示は、周波数サブバンドでの総信号電力に対する所与の到来方向についての周波数サブバンドでの信号電力の比に関係があってよい。
【0020】
いくつかの実施形態で、信号電力の指示は、複数の周波数サブバンドの夫々について決定され得る。この場合に、それらは、所与の到来方向及び所与の周波数サブバンドについて、所与の周波数サブバンドでの総信号電力に対する所与の到来方向についての所与の周波数サブバンドでの信号電力の比に関係があってよい。特に、信号電力の指示は、サブバンドごとに決定され得る一方で、(ドミナント)到来方向の決定は、全信号に対して(つまり、全ての周波数サブバンドに基づいて)実行され得る。
【0021】
いくつかの実施形態で、空間オーディオ信号を解析すること、信号電力の各々の指示を決定すること、及びチャネルベースオーディオ信号を生成することは、時間セグメントごとに実行され得る。従って、圧縮表現は、複数の時間セグメントの夫々について、各時間セグメントのダウンミックスオーディオ信号及びメタデータ(メタデータブロック)により、生成及び出力され得る。代替的に、又は追加的に、空間オーディオ信号を解析すること、信号電力の各々の指示を決定すること、及びチャネルベースオーディオ信号を生成することは、空間オーディオ信号の時間周波数表現に基づき実行されてもよい。例えば、上記のステップは、空間オーディオ信号の離散フーリエ変換(例えば、STFT)に基づき実行されてもよい。つまり、各時間セグメント(時間ブロック)について、上記のステップは、空間オーディオ信号の時間周波数ビン(FFTビン)に基づいて、つまり、空間オーディオ信号のフーリエ係数に基づいて、実行されてよい。
【0022】
いくつかの実施形態で、空間オーディオ信号は、複数のオーディオオブジェクト及び関連する方向ベクトルを含むオブジェクトベースオーディオ信号であってよい。その場合に、方法は更に、オーディオオブジェクトを予め定義されたオーディオチャネルの組にパンすることによってマルチチャネルオーディオ信号を生成することを含み得る。その中で、各オーディオオブジェクトは、その方向ベクトルに従って、予め定義されたオーディオチャネルの組にパンされ得る。更に、チャネルベースオーディオ信号は、ダウンミックス操作をマルチチャネルオーディオ信号に適用することによって生成されたダウンミックス信号であってよい。マルチチャネルオーディオ信号は、例えば、高次アンビソニックス信号であってよい。
【0023】
いくつかの実施形態で、空間オーディオ信号は、マルチチャネルオーディオ信号であってよい。その場合に、チャネルベースオーディオ信号は、ダウンミックス操作をマルチチャネルオーディオ信号に適用することによって生成されたダウンミックス信号であってよい。
【0024】
本開示の他の態様は、空間オーディオ信号の圧縮表現を処理して、空間オーディオ信号の再構成表現を生成する方法に関する。圧縮表現は、予め定義された数のチャネルを有するチャネルベースオーディオ信号と、メタデータとを含み得る。メタデータは、方向情報及びエネルギ情報を含み得る。方向情報は、オーディオシーン(空間オーディオシーン)における1つ以上のオーディオ要素の到来方向の指示を含み得る。エネルギ情報は、少なくとも1つの周波数サブバンドについて、到来方向に関連した信号電力の各々の指示を含み得る。方法は、チャネルベースオーディオ信号、方向情報、及びエネルギ情報に基づき、1つ以上のオーディオ要素のオーディオ信号を生成することを含み得る。方法は、チャネルベースオーディオ信号、方向情報、及びエネルギ情報に基づき、1つ以上のオーディオ要素が実質的に存在しない残留オーディオ信号を生成することを更に含み得る。残留信号は、チャネルベースオーディオ信号と同じオーディオフォーマットで表現され得、例えば、同数のチャネルを有し得る。
【0025】
いくつかの実施形態で、所与の到来方向に関連した信号電力の指示は、周波数サブバンドでの総信号電力に対する所与の到来方向についての周波数サブバンドでの信号電力の比に関係があってよい。
【0026】
いくつかの実施形態で、エネルギ情報は、複数の周波数サブバンドの夫々についての信号電力の指示を含み得る。その場合に、信号電力の指示は、所与の到来方向及び所与の周波数サブバンドについて、所与の周波数サブバンドでの総信号電力に対する所与の到来方向についての所与の周波数サブバンドでの信号電力の比に関係があってよい。
【0027】
いくつかの実施形態で、方法は、1つ以上のオーディオ要素のオーディオ信号を出力オーディオフォーマットのチャネルの組にパンすることを更に含み得る。方法はまた、パンされた1つ以上のオーディオ要素及び残留オーディオ信号に基づき、出力オーディオフォーマットで、再構成されたマルチチャネルオーディオ信号を生成することを更に含み得る。出力オーディオフォーマットは、例えば、HOA又は任意の他の適切なマルチチャネルフォーマットのような出力表現に関係があってよい。再構成されたマルチチャネルオーディオ信号を生成することは、残留信号を出力オーディオフォーマットのチャネルの組にアップミックスすることを含み得る。再構成されたマルチチャネルオーディオ信号を生成することは、パンされた1つ以上のオーディオ要素及びアップミックスされた残留信号を足し合わせることを更に含み得る。
【0028】
いくつかの実施形態で、1つ以上のオーディオ要素のオーディオ信号を生成することは、方向情報及びエネルギ情報に基づき、残留オーディオ信号及び1つ以上のオーディオ要素のオーディオ信号を含む中間表現へチャネルベースオーディオ信号をマッピングするための逆混合行列Mの係数を決定することを含み得る。中間表現は、分離された若しくは分離可能な表現、又はハイブリッド表現とも呼ばれることがある。
【0029】
いくつかの実施形態で、逆混合行列Mの係数を決定することは、1つ以上のオーディオ要素の夫々について、当該オーディオ要素の到来方向dirに基づき、当該オーディオ要素をチャネルベースオーディオ信号のチャネルにパンするためのパンニングベクトルPandown(dir)を決定することを含み得る。上記の逆混合行列Mの係数を決定することは、決定されたパンニングベクトルに基づき、残留オーディオ信号及び1つ以上のオーディオ要素のオーディオ信号をチャネルベースオーディオ信号のチャネルにマッピングするために使用される混合行列Eを決定することを更に含み得る。上記の逆混合行列Mの係数を決定することは、エネルギ情報に基づき中間表現の共分散行列Sを決定することを更に含み得る。共分散行列Sの決定は、決定されたパンニングベクトルPandownに更に基づいてもよい。上記の逆混合行列Mの係数を決定することはまた、混合行列E及び共分散行列Sに基づき逆混合行列Mの係数を決定することを更に含み得る。
【0030】
いくつかの実施形態で、混合行列Eは、
E=(IN|Pandown(dir1)|・・・|Pandown(dirP|)
に従って決定され得る。ここで、INは、N×Nの単位行列であることができ、Nは、チャネルベースオーディオ信号のチャネルの数を示し、Pandown(dirp)は、チャネルベースオーディオ信号のN個のチャネルにp番目のオーディオ要素をパン(マッピング)する関連する到来方向dirpを有するp番目のオーディオ要素のパンニングベクトルであることができ、p=1,・・・,Pは、1つ以上のオーディオ要素の中の各々1つを示し、Pは、1つ以上のオーディオ要素の総数を示す。従って、行列Eは、N×P行列であることができる。行列Eは、複数の時間セグメントkの夫々について決定されてよい。その場合に、行列E及び到来方向dirpは、時間セグメントを示すインデックスkを有することになる。例えば、Ek=(IN|Pandown(dirk,1)|・・・|Pandown(dirk,P))である。たとえ、提案されている方法がバンド単位で動作し得るとしても、行列Eは、全ての周波数サブバンドについて同じになる。
【0031】
いくつかの実施形態で、共分散行列Sは、1≦n≦Nについては、
【数1】
に従って、1≦p≦Pについては、
{S}
N+p,N+p=e
p
に従って、対角行列として決定され得る。ここで、e
pは、p番目のオーディオ要素の到来方向に関連した信号電力であることができる。行列Sは、複数の時間セグメントkの夫々について、及び/又は複数の周波数サブバンドbの夫々について、決定され得る。その場合に、行列S及び信号電力e
pは、時間セグメントを示すインデックスk及び/又は周波数サブバンドを示すインデックスbを有することになる。例えば、1≦n≦Nについては、
【数2】
であり、1≦p≦Pについては、
{S
k,b}
N+p,N+p=e
k,
p,b
である。
【0032】
いくつかの実施形態で、混合行列E及び共分散行列Sに基づき逆混合行列Mの係数を決定することは、混合行列E及び共分散行列Sに基づき疑似逆行列を決定することを含み得る。
【0033】
いくつかの実施形態で、逆混合行列Mは、
M=S×E*×(E×S×E*)-1
に従って決定され得る。ここで、「×」は、行列積を示し、「*」は、行列の共役転置を示す。逆混合行列Mは、複数の時間セグメントkの夫々について、及び/又は複数の周波数サブバンドbの夫々について、決定され得る。その場合に、行列M及びSは、時間セグメントを示すインデックスk及び/又は周波数サブバンドを示すインデックスbを有することになり、行列Eは、時間セグメントを示すインデックスkを有することになる。例えば、
Mk,b=Sk,b×E*
k×(Ek×Sk,b×E*
k)-1
である。
【0034】
いくつかの実施形態で、チャネルベースオーディオ信号は、1次アンビソニックス信号であってよい。
【0035】
他の態様は、プロセッサ及びプロセッサへ結合されたメモリを含み、プロセッサが、上記の態様及び実施形態のいずれか1つに従う方法の全ステップを実行するよう構成される、装置に関する。
【0036】
本開示の他の態様は、プロセッサによって実行される場合に、プロセッサに、上記の方法の全ステップを実行させる命令を含むプログラムに関する。
【0037】
本開示の更なる他の態様は、上記のプログラムを記憶しているコンピュータ可読記憶媒体に関する。
【0038】
本開示の更なる実施形態は、オーディオ混合ストリーム及び方向メタデータストリームの形で空間オーディオシーンを表現する効率的な方法を含み、方向メタデータストリームは、空間オーディオシーンにおける指向性音響要素の位置を示すデータと、多数のサブバンドの中で、そのサブバンドでの空間オーディオシーンの総電力に対して各指向性音響要素の電力を示すデータとを含む。更なる他の実施形態は、入力された空間オーディオシーンから方向メタデータストリームを決定する方法と、再構成されたオーディオシーンを方向メタデータストリーム及び関連するオーディオ混合ストリームから生成する方法とに関する。
【0039】
いくつかの実施形態で、方法は、オーディオ混合ストリーム及び方向メタデータストリームを含むコンパクトな空間オーディオシーンとして、よりコンパクトな形で空間オーディオシーンを表現するために、用いられる。このとき、上記のオーディオ混合ストリームは、1つ以上のオーディオ信号から成り、上記の方向メタデータストリームは、時系列の方向メタデータブロックから成り、方向メタデータブロックの夫々は、オーディオ信号の対応する時間セグメントに関連する。空間オーディオシーンは、各々の到来方向と夫々関連付けられている1つ以上の指向性音響要素を含む。方向メタデータブロックの夫々は:
●指向性音響要素の夫々についての到来方向を示す方向情報、及び
●指向性音響要素の夫々について、及び2つ以上のサブバンドの組の夫々ついて、オーディオ信号の対応する時間セグメントでのエネルギに対する指向性音響要素の夫々でのエネルギを示すエネルギバンド比(Energy Band Fraction)情報
を含む。
【0040】
いくつかの実施形態で、方法は、オーディオ混合ストリーム及び方向メタデータストリームを含むコンパクトな空間オーディオシーンを処理して、1つ以上のオーディオオブジェクト信号の組を含む分離された空間オーディオストリーム及び残留ストリームを生成するために用いられる。このとき、上記のオーディオ混合ストリームは、1つ以上のオーディオ信号から成り、上記の方向メタデータストリームは、時系列の方向メタデータブロックから成り、方向メタデータブロックの夫々は、オーディオ信号の対応する時間セグメントに関連する。複数のサブバンドの夫々について、方法は:
●方向メタデータストリームに含まれる方向情報及びエネルギバンド比情報からデミキシング行列(逆混合行列)の係数を決定すること、及び
●上記のデミキシング行列を用いて、オーディオ信号を混合して、上記の分離された空間オーディオストリームを生成すること
を含む。
【0041】
いくつかの実施形態で、方法は、空間オーディオシーンを処理して、オーディオ混合ストリーム及び方向メタデータストリームを含むコンパクトな空間オーディオシーンを生成するために、用いられる。このとき、上記の空間オーディオシーンは、各々の到来方向と夫々関連付けられている1つ以上の指向性音響要素を含み、上記の方向メタデータストリームは、時系列の方向メタデータブロックから成り、方向メタデータブロックの夫々は、オーディオ信号の対応する時間セグメントに関連する。方法は:
●空間オーディオシーンの解析から、指向性音響要素の1つ以上について到来方向を決定するステップ、
●空間シーンにおける総エネルギのうちのどの部分が指向性音響要素の夫々でのエネルギによって寄与されているかを決定するステップ、及び
●空間オーディオシーンを処理してオーディオ混合ストリームを生成するステップ
を含む。
【0042】
上記のステップは、適切な手段又はユニットによって実装されてよく、つまり、例えば、1つ以上のコンピュータプロセッサによって実装されてもよい、ことが理解される。
【0043】
また、装置の機構及び方法のステップは、多くの方法で交換されてもよいことも理解されるだろう。特に、開示されている方法の詳細は、当業者が理解するように、対応する装置によって実現可能であり、その逆も同様である。更に、方法に関してなされた上記の記述のいずれも、対応する装置に同様に適用されると理解され、その逆も同様である。
【0044】
本開示の例示的な実施形態は、添付の図面において例として表されている。図面中、同じ参照番号は、同じ又は類似した要素を示す。
【図面の簡単な説明】
【0045】
【
図1】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成するエンコーダ及び再構成されたオーディオシーンを圧縮表現から生成する対応するデコーダの配置の例を概略的に表す。
【
図2】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成するエンコーダ及び再構成されたオーディオシーンを圧縮表現から生成する対応するデコーダの配置の他の例を概略的に表す。
【
図3】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成する例を概略的に表す。
【
図4】本開示の実施形態に従って、再構成されたオーディオシーンを形成するよう空間オーディオシーンの圧縮表現を復号する例を概略的に表す。
【
図5】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成するために空間オーディオシーンを処理する方法の例を表すフローチャートである。
【
図6】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成するために空間オーディオシーンを処理する方法の例を表すフローチャートである。
【
図7】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成する詳細の例を概略的に表す。
【
図8】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成する詳細の例を概略的に表す。
【
図9】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成する詳細の例を概略的に表す。
【
図10】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成する詳細の例を概略的に表す。
【
図11】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成する詳細の例を概略的に表す。
【
図12】本開示の実施形態に従って、再構成されたオーディオシーンを形成するよう空間オーディオシーンの圧縮表現を復号する詳細の例を概略的に表す。
【
図13】本開示の実施形態に従って、再構成されたオーディオシーンを形成するよう空間オーディオシーンの圧縮表現を復号する方法の例を表すフローチャートである。
【
図15】本開示の実施形態に従って、再構成されたオーディオシーンを形成するよう空間オーディオシーンの圧縮表現を復号する方法の他の例を表すフローチャートである。
【
図16】本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成するための及び/又は再構成されたオーディオシーンを形成するよう空間オーディオシーンの圧縮表現を復号するための装置を概略的に表す。
【発明を実施するための形態】
【0046】
概して、本開示は、空間オーディオシーンの、低減された量のデータを使用して、記憶及び/又は伝送を可能にすることに関する。
【0047】
本開示の文脈中で使用され得るオーディオ処理の概念が次に説明される。
【0048】
[パンニング関数]
マルチチャネルオーディオ信号(又はオーディオストリーム)は、線形混合法則に従って個々の音響要素(又はオーディオ要素、オーディオオブジェクト)をパンすることによって形成され得る。例えば、R個のオーディオオブジェクトの組がR個の信号{o
r(t):1≦r≦R}によって表される場合に、マルチチャネルパン混合物{z
n(t):1≦n≦N}は:
【数3】
によって形成され得る。
【0049】
パンニング関数Pan(θr)は、マルチチャネル出力を形成するようオブジェクト信号or(t)を混合するために使用される利得を示すN個のスケール係数(パンニング利得)を含む列ベクトルを表し、このとき、θrは、各々のオブジェクトの位置を示す。
【0050】
1つの可能なパンニング関数は、1次アンビソニックス(first-order Ambisonics)(FOA)パンナー(panner)である。FOAパンニング関数の例は:
【数4】
によって与えられる。
【0051】
代替のパンニング関数は、3次アンビソニックスパンナー(third-order Ambisonics panner)(3OA)である。3OAパンニング関数の例は:
【数5】
によって与えられる。
【0052】
当業者が理解するように、本開示はFOA又はHOAパンニング関数に限られず、他のパンニング関数の使用が考えられてもよいことが理解される。
【0053】
[短時間フーリエ変換]
1つ以上のオーディオ信号から成るオーディオストリームは、例えば、短時間フーリエ変換(short-term Fourier transform)(STFT)の形に変換され得る。このために、離散フーリエ変換が、オーディオストリームのオーディオ信号(例えば、チャネル、オーディオオブジェクト信号)の(任意に、窓化された)時間セグメントに適用され得る。オーディオ信号x(t)に適用されたこの処理は、次のように表され得る:
Xc,k(f)=STFT{xc(t)} (4)
STFTは、時間周波数変換の例であり、本開示は、STFTに制限されるべきではないことが理解される。
【0054】
式(4)中、変数X
c,k(f)は、周波数ビンf(1≦f≦F)でのオーディオ時間セグメントk
(外1)
についてのチャネルc(1≦c≦NumChans)の短時間フーリエ変換を示す。ここで、Fは、離散フーリエ変換によって生成される周波数ビンの数を示す。ここで使用される用語は例であって、様々なSTFT方法(様々な窓関数を含む)の具体的な実施詳細は当該技術で知られている場合があることが理解される。時間セグメントが、strideに等しい間隔で、時間において均等に間隔をあけられるように、オーディオ時間セグメントkは、例えば、t=k×stride+constantを中心とするオーディオサンプルの範囲として定義される。
【0055】
STFTの数値(例えば、Xc,k(1),Xc,k(2),・・・,Xc,k(F))は、FFTビンと呼ばれることがある。
【0056】
更に、STFT形式は、オーディオストリームに変換され得る。結果として得られるオーディオストリームは、元の入力に対する近似であることができ:
【数6】
によって与えられ得る。
【0057】
[周波数バンド化された解析]
特性データはオーディオストリームから形成され得る。特性データは、周波数バンド(周波数サブバンド)の数に関連し、バンド(サブバンド)は、周波数範囲の領域によって定義される。
【0058】
例として、周波数バンドb(なお、バンドの数はBであり、1≦b≦Bである)におけるストリームのチャネルcでの信号電力は、バンドbがFFTビンf
min≦f≦f
maxに及ぶ場合に:
【数7】
に従って計算され得る。
【0059】
より一般的な例によれば、周波数バンドbは、各周波数ビンに重みを割り当てる重み付けベクトルFR
b(f)によって定義されてもよく、それにより、あるバンドでの電力の代替の計算は:
【数8】
によって与えられ得る。
【0060】
式(7)の更なる一般化において、C個のオーディオ信号から成るストリームのSTFTは、複数のバンドにおける共分散を生成するよう処理され得る。このとき、共分散R
b,kは、C×Cの行列であり、要素{R
b,k}
i,jは:
【数9】
に従って計算される。なお、
(外2)
は、X
j,k(f)の複素共役を表す。
【0061】
他の例では、バンドパスフィルタが、バンドパスフィルタ応答に従って周波数バンドにおいて元のオーディオストリームを表すフィルタ処理された信号を形成するために、用いられてもよい。例えば、オーディオ信号x
c(t)は、x
c(t)のバンドbから主に得られたエネルギを持つ信号を表すx’
c,b(t)を生成するよう、フィルタ処理されてよく、従って、時間ブロックk(時間サンプルt
min≦t≦t
maxに対応)のバンドbでのストリームの共分散を計算するための代替の方法は:
【数10】
によって表され得る。
【0062】
[周波数バンド化された混合]
N個のチャネルから成るオーディオストリームは:
【数11】
であるように、M×Nの線形混合行列Qに従って、M個のチャネルから成るオーディオストリームを生成するよう処理され得る。式(10)は:
【数12】
として、行列の形で書くことができる。ここで、
(外3)
は、N個の要素x
1(t),x
2(t),・・・,x
N(t)から形成された列ベクトルを指す。
【0063】
更に、代替の混合プロセスは、STFTドメインで実装されてもよく、行列Qは、各時間ブロックtで及び各周波数バンドbで異なる値を取ることができる。この場合に、処理は:
【数13】
によって、あるいは、行列の形で、
【数14】
によって、近似的に与えられると見なされ得る。
【0064】
代替の方法は、式(13)に示される処理と同等の挙動を生じさせるために用いられ得ることが理解される。
【0065】
[例となる実施]
次に、本開示に実施形態に従う方法及び装置の例となる実施が、より詳細に記載される。
【0066】
大まかに言えば、本開示の実施形態に従う方法は、オーディオ混合ストリーム及び方向メタデータストリームの形で空間オーディオシーンを表し、方向メタデータストリームは、空間オーディオシーンにおける指向性音響要素の位置を示すデータと、多数のサブバンドの中で、そのサブバンドでの空間オーディオシーンの総電力に対して各指向性音響要素の電力を示すデータとを含む。本開示の実施形態に従う更なる方法は、入力された空間オーディオシーンから方向メタデータストリームを決定することと、再構成された(例えば、回復された)オーディオシーンを方向メタデータストリーム及び関連するオーディオ混合ストリームから生成することとに関する。
【0067】
本開示の実施形態に従う方法の例は、空間音響シーンを表すことにおいて(例えば、記憶又は伝送のデータの低減に関して)効率的である。空間オーディオシーンは、空間オーディオ信号によって表され得る。上記の方法は、オーディオ混合ストリーム及びメタデータストリーム(例えば、方向メタデータストリーム)から成る記憶又は伝送フォーマット(例えば、コンパクト空間オーディオストリーム(Compact Spatial Audio Stream))を定義することによって実装され得る。
【0068】
オーディオ混合ストリームは、空間音響シーンの縮小表現を運ぶ多数のオーディオ信号を有する。そのようなものとして、オーディオ混合ストリームは、予め定義された数のチャネルを有するチャネルベースオーディオ信号に関連し得る。チャネルベースオーディオ信号のチャネルの数は、空間オーディオ信号のチャネルの数又はオーディオオブジェクトの数よりも少ないことが理解される。例えば、チャネルベースオーディオ信号は、1次アンビソニックスオーディオ信号であってよい。言い換えれば、コンパクト空間オーディオストリームは、音場の1次アンビソニックス表現の形でオーディオ混合ストリームを含み得る。
【0069】
(方向)メタデータストリームは、空間音響シーンの空間特性を定義するメタデータを有する。方向メタデータは、方向メタデータブロックのシーケンスから構成され得る。各方向メタデータブロックは、オーディオ混合ストリーム内の対応する時間セグメントにおける空間音響シーンの特性を示すメタデータを含む。
【0070】
一般的に、メタデータは、方向情報及びエネルギ情報を含む。方向情報は、オーディオシーンにおける1つ以上の(ドミナント)オーディオ要素の到来方向の指示を含む。エネルギ情報は、各到来方向について、決定された到来方向に関連した信号電力の指示を含む。いくつかの実施において、信号電力の指示は、複数のバンド(周波数サブバンド)のうちの1つ、いくつか、又は夫々について、供給されてよい。更に、メタデータは、例えば,メタデータブロックの形で、複数の連続した時間セグメントの夫々について供給されてもよい。
【0071】
一例で、メタデータ(方向メタデータ)は、多数の周波数バンドにわたる空間音響シーンの特性を示すメタデータを含み、メタデータは:
●空間音響シーンにおけるオーディオオブジェクト(オーディオ要素)の位置を示す1つ以上の方向(例えば、到来方向)、及び
●各々のオーディオオブジェクトによる(例えば、各々の方向による)、各周波数バンドでのエネルギ(又は空間電力)の割合
を含む。
【0072】
方向情報及びエネルギ情報の決定に関する詳細は、以下で与えられる。
【0073】
図1は、本開示の実施形態を用いる配置の例を概略的に示す。具体的に、図は、空間オーディオシーン10がシーンエンコーダ200へ入力され、シーンエンコーダ200がオーディオ混合ストリーム30及び方向メタデータストリーム20を生成する配置100を示す。空間オーディオシーン10は、シーンエンコーダ200へ入力される空間オーディオ信号又は空間オーディオストリームによって表現され得る。オーディオ混合ストリーム30及び方向メタデータストリーム20は一緒に、コンパクト空間オーディオシーンの一例、つまり、空間オーディオシーン10の(又は空間オーディオ信号の)圧縮表現を形成する。
【0074】
圧縮表現、つまり、混合オーディオストリーム30及び方向メタデータストリーム20は、シーンデコーダ300へ入力され、シーンデコーダ300は、再構成されたオーディオシーン50を生成する。空間オーディオシーン10内に存在するオーディオ要素は、混合パンニング関数に従ってオーディオ混合ストリーム30内で表現される。
【0075】
図2は、本開示の実施形態を用いる配置の他の例を概略的に示す。具体的に、図は、オーディオ混合ストリーム30及び方向メタデータストリーム20から成るコンパクト空間オーディオシーンが、ビットレート低減符号化オーディオストリーム37を生成するようオーディオ混合ストリーム30をオーディオエンコーダ35へ供給することによって、及び符号化メタデータストリーム27を生成するよう方向メタデータストリーム20をメタデータエンコーダ25へ供給することによって更に符号化される代替の配置110を示す。ビットレート低減符号化オーディオストリーム37及び符号化メタデータストリーム27は一緒に、符号化(ビットレート低減符号化)空間オーディオシーンを形成する。
【0076】
符号化空間オーディオシーンは、再生オーディオ混合ストリーム38及び再生方向メタデータストリーム28を生成するよう最初にビットレート低減符号化オーディオストリーム37及び符号化メタデータストリーム27を各々のデコーダ36及び26に適用することによって、回復され得る。再生ストリーム38、28は、各々のストリーム30、20と同じであるか、又は近似的に等しくなる。再生オーディオ混合ストリーム38及び再生方向メタデータストリーム28は、再構成されたオーディオシーン50を生成するようデコーダ300によって復号され得る。
【0077】
図3は、入力された空間オーディオシーンからビットレート低減符号化オーディオストリーム及び符号化メタデータストリームを生成する配置の例を概略的に表す。具体的に、図は、ビットレート低減符号化オーディオストリーム37及び符号化メタデータストリーム27を含む符号化空間オーディオシーン40を生成するよう方向メタデータストリーム20及びオーディオ混合ストリーム30を各々のエンコーダ25、35へ供給するシーンエンコーダ200の配置150を示す。符号化空間オーディオストリーム40は、望ましくは、元の空間オーディオシーンの記憶/伝送のために必要なデータに対して低減されたデータ要件での記憶及び/又は伝送に適するよう配置される。
【0078】
図4は、再構成された空間オーディオシーンをビットレート低減符号化オーディオストリーム及び符号化メタデータストリームから生成する配置の例を概略的に表す。具体的に、図は、ビットレート低減符号化オーディオストリーム37及び符号化メタデータストリーム27から成る符号化空間オーディオストリーム40が、オーディオ混合ストリーム38及び方向メタデータストリーム28を生成するよう夫々デコーダ36、26へ入力として供給されることを示す。ストリーム38、28は次いで、再構成されたオーディオシーン50を生成するようシーンデコーダ300によって処理される。
【0079】
コンパクト空間オーディオシーン、つまり、空間オーディオシーンの(又は空間オーディオ信号/空間オーディオストリームの)圧縮表現を生成する詳細が、次に記載される。
【0080】
図5は、空間オーディオ信号の圧縮表現を生成するために空間オーディオ信号を処理する方法500の例のフローチャートである。方法500は、ステップS510からS550を有する。
【0081】
ステップS510で、空間オーディオ信号は、空間オーディオ信号によって表されるオーディオシーン(空間オーディオシーン)における1つ以上のオーディオ要素(例えば、ドミナントオーディオ要素)の到来方向を決定するよう解析される。(ドミナント)オーディオ要素は、例えば、オーディオシーンにおける(ドミナント)音響オブジェクト、(ドミナント)音源、又は(ドミナント)音響コンポーネントに関係があってよい。空間オーディオ信号を解析することは、シーン解析を空間オーディオ信号に適用することを含んでも、又はそれに関係があってもよい。適切なシーン解析ツールの範囲は当業者に知られていることが理解される。このステップで決定された到来方向は、オーディオ要素の(知覚された)位置を示す単位球面上の位置に対応し得る。
【0082】
周波数バンド化された解析の上記の記載と一致して、ステップS510での空間オーディオ信号の解析は、空間オーディオ信号の複数の周波数サブバンドに基づくことができる。例えば、解析は、空間オーディオ信号の全周波数範囲(つまり、全信号)に基づいてよい。すなわち、解析は、全ての周波数サブバンドに基づいてよい。
【0083】
ステップS520で、決定された到来方向に関連した信号電力の各々の指示が、空間オーディオ信号の少なくとも1つの周波数サブバンドについて決定される。
【0084】
ステップS530で、方向情報及びエネルギ情報を含むメタデータが生成される。方向情報は、1つ以上のオーディオ要素の決定された到来方向の指示を含む。エネルギ情報は、決定された到来方向に関連した信号電力の各々の指示を含む。このステップで生成されたメタデータは、メタデータストリームに関係があってよい。
【0085】
ステップS540で、予め定義された数のチャネルを有するチャネルベースオーディオ信号が、空間オーディオ信号に基づき生成される。
【0086】
最後に、ステップS550で、チャネルベースオーディオ信号及びメタデータは、空間オーディオ信号の圧縮表現として出力される。
【0087】
上記のステップは、ステップの順序により、各ステップの必要な入力が利用可能であることが担保される限りは、如何なる順序でも、又は互いに並行して、実行されてもよいことが理解される。
【0088】
通常、空間シーン(又は空間オーディオ信号)は、リスニング位置を基準にして、一連の方向からリスナーに入射する音響信号の合計で構成されていると見なされ得る。従って、空間オーディオシーンは、R個の音響オブジェクトの集合としてモデル化され得る。オブジェクトr(1≦r≦R)は、方向ベクトルθrによって定義される到着方向からリスニング位置に入射するオーディオ信号or(t)に関連付けらる。方向ベクトルはまた、時間とともに変化するベクトルθr(t)であってもよい。
【0089】
従って、いくつかの実施に従って、空間オーディオ信号(空間オーディオストリーム)は、オーディオ信号及び関連する方向ベクトルの組の形で、オブジェクトベース空間オーディオ信号(オブジェクトベース空間オーディオシーン)として定義されてもよい:
空間オーディオシーン(オブジェクトベース)
={or(t),θr(t):1≦r≦R} (14)
更に、いくつかの実施に従って、空間オーディオ信号(空間オーディオストリーム)は、式(4)に従って、短時間フーリエ変換信号Or,k(f)に関して定義されてもよく、方向ベクトルは、ブロックインデックスkに従って指定されてよく、それにより:
空間オーディオシーン(オブジェクトベース)
={Or,k(f),θr(t):1≦r≦R} (15)
である。
【0090】
代替的に、空間オーディオ信号(空間オーディオストリーム)は、チャネルベース空間オーディオ信号(チャネルベース空間オーディオシーン)に関して表されてもよい。チャネルベースストリームは、オーディオ信号の集合から成り、空間オーディオシーンからの各音響オブジェクトは、式(1)に従って、パンニング関数(Pan(θ))によりチャネルに混合される。例として、Qチャネルのチャネルベース空間オーディオシーン{C
q,k(f):1≦q≦Q}は、
【数15】
に従って、オブジェクトベース空間オーディオシーンから形成されてもよい。
【0091】
チャネルベース空間オーディオシーンの多くの特性は、パンニング関数の選択によって決定され、特に、パンニング関数によって返される列ベクトルの長さ(Q)は、チャネルベース空間オーディオシーンに含まれるオーディオチャネルの数を決定することが理解されるだろう。一般的に言えば、空間オーディオシーンのより高品質の表現は、より多数のチャネルを含むチャネルベース空間オーディオシーンによって実現され得る。
【0092】
一例として、方法500のステップS540で、空間オーディオ信号(空間オーディオシーン)は、式(16)に従って、チャネルベースオーディオ信号(チャネルベースストリーム)を生成するよう処理されてよい。パンニング関数は、空間オーディオシーンの比較的に低い分解能表現をもたらすように選択され得る。例えば、パンニング関数は、式(2)で定義されているような1次アンビソニックス(FOA)関数であるよう選択されてもよい。そのようなものとして、圧縮表現は、コンパクトな又はサイズを低減された表現であってよい。
【0093】
図6は、空間オーディオシーンのコンパクトな表現を生成する方法600の他の定式化を提供するフローチャートである。方法600は、空間オーディオシーン又はシーンベースストリームの形で入力ストリームを供給され、コンパクト空間オーディオシーンをコンパクトな表現として生成する。このために、方法600は、ステップS610からS660を有する。その中で、ステップS610は、ステップS510に対応するものと見なされてよく、ステップ620は、ステップS520に対応するものと見なされてよく、ステップS630は、ステップS540に対応するものと見なされてよく、ステップS650は、ステップS530に対応するものと見なされてよく、ステップS660は、ステップS550に対応するものと見なされてよい。
【0094】
ステップS610で、入力ストリームが、ドミナント到来方向を決定するよう解析される。
【0095】
ステップS620で、各バンド(周波数サブバンド)について、そのバンドにおけるストリームでの総エネルギに対して、各方向に割り当てられたエネルギの比率が決定される。
【0096】
ステップS630で、空間オーディオシーンを表す複数のオーディオチャネルを含むダウンミックスストリームが形成される。
【0097】
ステップS640で、ダウンミックスストリームが、ストリームの圧縮表現を形成するよう符号化される。
【0098】
ステップS650で、方向情報及びエネルギ比情報が、符号化されたメタデータを形成するよう符号化される。
【0099】
最後に、ステップS660で、符号化されたダウンミックスストリームが、コンパクト空間オーディオシーンを形成するよう、符号化されたメタデータと結合される。
【0100】
上記のステップは、ステップの順序により、各ステップの必要な入力が利用可能であることが担保される限りは、如何なる順序でも、又は互いに並行して、実行されてもよいことが理解される。
【0101】
図7から
図11は、本開示の実施形態に従って、空間オーディオシーンの圧縮表現を生成する詳細の例を概略的に表す。後述される、例えば、到来方向を決定するための空間オーディオ信号の解析、決定された到来方向に関連した信号電力の指示の決定、方向情報及びエネルギ情報を含むメタデータの生成、及び/又は予め定義された数のチャネルを含むチャネルベースオーディオ信号の生成の詳細は、具体的なシステム配置とは無関係であることができ、例えば、
図7から
図11に示されている配置又は任意の適切な代替の配置のいずれにも適用されてよい、ことが理解される。
【0102】
図7は、空間オーディオシーンの圧縮表現を生成する詳細の第1の例を概略的に表す。具体的に、
図7は、例えば、ステップS540及びS630に従って、Nチャネルオーディオ混合ストリーム30を生成するよう、空間オーディオシーン10がダウンミックス機能203によって処理されるシーンエンコーダ200を示す。いくつかの実施形態で、ダウンミックス機能203は、式(1)又は式(16)に従うパンニング処理を含んでよく、ダウンミックスパンニング関数が選択される。つまり、
【数16】
である。例えば、一次アンビソニックスパンナーが、ダウンミックスパンニング関数、つまり、
【数17】
として、選択されてもよく、従って、N=4である。
【0103】
各オーディオ時間セグメントについて、シーン解析202は、入力として空間オーディオシーンをとり、例えば、ステップS510及びS610に従って、空間オーディオシーン内の最大P個までのドミナント音響成分の到来方向を決定する。Pの典型的な値は、1から10の間であり、Pの好ましい値はP≒4である。従って、ステップS510で決定された1つ以上のオーディオ要素は、例えば、4つのオーディオ要素のような、1から10個の間のオーディオ要素を有してよい。
【0104】
解析202は、方向情報21及びエネルギバンド比情報22(エネルギ情報)から成るメタデータ20を生成する。任意に、シーン解析202はまた、ダウンミックスが変更されることを可能にするようダウンミックス機能203へ係数207を供給してもよい。
【0105】
意図された制限なしで、(例えば、ステップS510で)空間オーディオ信号を解析すること、(例えば、ステップS520で)信号電力の各々の指示を決定すること、及び(例えば、ステップS540で)チャネルベースオーディオ信号を生成することは、例えば、STFTの上記の記載と一致して、時間セグメント単位で実行されてもよい。これは、圧縮表現が、時間セグメントごとにダウンミックスオーディオ信号及びメタデータ(メタデータブロック)を有して、複数の時間セグメントの夫々について生成及び出力されることを暗示する。
【0106】
時間セグメントkごとに、方向情報21(例えば、1つ以上のオーディオ要素の到来方向によって具現される)は、P個の方向ベクトル{dir
k,p:1≦p≦P}の形をとることができる。方向ベクトルpは、ドミナントオブジェクトインデックスpに関連した方向を示し、単位ベクトルに関して:
【数18】
と、あるいは、球面座標に関して:
【数19】
と表され得る。
【0107】
いくつかの実施形態で、ステップS520で決定された信号電力の各々の指示は、信号電力の比率の形をとる。つまり、周波数サブバンドでの所与の到来方向に関連した信号電力の指示は、周波数サブバンドでの総信号電力に対する所与の到来方向についての周波数サブバンドでの信号電力の比に関する。
【0108】
更に、いくつかの実施形態で、信号電力の指示は、複数の周波数サブバンドの夫々について(つまり、サブバンド単位で)決定される。その場合に、それらは、所与の到来方向及び所与の周波数サブバンドについて、所与の周波数サブバンドでの総信号電力に対する所与の到来方向についての所与の周波数サブバンドでの信号電力の比に関する。特に、たとえ、信号電力の指示がサブバンドごとに決定され得るとしても、(ドミナント)到来方向の決定は、依然として、全信号に対して(つまり、全ての周波数サブバンドに基づいて)実行され得る。
【0109】
また更に、いくつかの実施形態で、(例えば、ステップS510で)空間オーディオ信号を解析すること、(例えば、ステップS520で)信号電力の各々の指示を決定すること、及び(例えば、ステップS540で)チャネルベースオーディオ信号を生成することは、空間オーディオ信号の時間周波数表現に基づき実行される。例えば、上記のステップ及び適切な他のステップは、空間オーディオ信号の離散フーリエ変換(例えば、STFT)に基づき実行され得る。例えば、時間セグメント(時間ブロック)ごとに、上記のステップは、空間オーディオ信号の時間周波数ビン(FFTビン)に、つまり、空間オーディオ信号のフーリエ係数に基づき、実行され得る。
【0110】
異常を鑑みて、時間セグメントkごとに、及びドミナントオブジェクトインデックスp(1≦p≦P)ごとに、エネルギバンド比情報22は、バンドの組の各バンドb(1≦b≦B)についての分数値(fraction value)e
k,p,bを含むことができる。分数値e
k,p,bは:
【数20】
に従って、時間セグメントkについて決定される。
【0111】
分数値ek,p,bは、元の空間オーディオシーンにおける複数の音響オブジェクトのエネルギが、方向dirk,pに割り当てられている単一のドミナント音響成分を表すよう結合されるように、方向dirk,pの周りの空間領域内のエネルギの部分を表し得る。いくつかの実施形態で、シーン内の全ての音響オブジェクトのエネルギは、dirk,pに近い方向θについてはより大きい重み付けを、dirk,pから遠い方向θについてはより小さい重み付けを表す角度差分重み付け関数w(θ)を用いて、重み付けられてもよい。方向の違いは、例えば、10度よりも小さい角度差については近いと、例えば、45度よりも大きい角度差については遠いと見なされてよい。代替の実施形態では、重み付け関数は、近い/遠い角度差の代替の選択に基づき選択されてもよい。
【0112】
一般に、圧縮表現が生成される入力された空間オーディオ信号は、例えば、マルチチャネルオーディオ信号又はオブジェクトベースオーディオ信号であってよい。後者の場合に、空間オーディオ信号の圧縮表現を生成する方法は、シーン解析を適用する前に(例えば、ステップS510より前に)、オブジェクトベースオーディオ信号をマルチチャネルオーディオ信号へ変換するステップを更に有することになる。
【0113】
図7の例では、入力された空間オーディオ信号は、マルチチャネルオーディオ信号であってよい。その場合に、ステップS540で生成されたチャネルベースオーディオ信号は、ダウンミックス操作をマルチチャネルオーディオ信号に適用することによって生成されたダウンミックス信号になる。
【0114】
図8は、空間オーディオシーンの圧縮表現を生成する詳細の他の例を概略的に表す。入力された空間オーディオ信号は、この場合に、複数のオーディオオブジェクト及び関連する方向ベクトルを含むオブジェクトベースオーディオ信号であってよい。この場合に、空間オーディオ信号の圧縮表現を生成する方法は、予め定義されたオーディオチャネルの組にオーディオオブジェクトをパンすることによって、マルチチャネルオーディオ信号を中間表現又は中間シーンとして生成することを有する。このとき、各オーディオオブジェクトは、その方向ベクトルに従って、予め定義されたオーディオチャネルの組にパンされる。よって、
図8は、空間オーディオシーン10がコンバータ201へ入力され、コンバータ201が中間シーン11(例えば、マルチチャネル信号によって具現される)を生成するシーンエンコーダ200の代替の実施形態を示す。中間シーン11は式(1)に従って生成され得る。このとき、パンニング関数は、パンニング利得ベクトルPan(θ
1)及びPan(θ
2)の内積が上記の角度差分重み付け関数を近似的に表すように、選択される。
【0115】
いくつかの実施形態で、コンバータ201で使用されるパンニング関数は、式(3)で示される3次アンビソニックスパンニング関数
(外4)
である。従って、マルチチャネルオーディオ信号は、例えば、高次アンビソニックス信号であってもよい。
【0116】
中間シーン11は次いで、シーン解析202へ入力される。シーン解析202は、中間シーン11の解析から、空間オーディオシーンにおけるドミナント音響オブジェクトの方向dirk,pを決定し得る。ドミナント方向の決定は、方向の組においてエネルギを推定することによって実行されてよく、最大推定エネルギがドミナント方向を表す。
【0117】
時間セグメントkのエネルギバンド比情報22は、時間セグメントk内の中間シーン11のバンドbでの総エネルギに対する、各方向における中間シーン11のバンドbでのエネルギから導出されるバンドbごとの分数値ek,p,bを含み得る。
【0118】
この場合のコンパクト空間オーディオシーン(例えば、コンパクトな表現)のオーディオ混合ストリーム30(例えば、チャネルベースオーディオ信号)は、ダウンミックス機能203(ダウンミックス操作)を空間オーディオシーンに適用することによって生成されたダウンミックス信号である。
【0119】
図10は、空間オーディオシーン10をシーンベースの中間フォーマット11に変換するコンバータ201を含むシーンエンコーダの代替の配置を示す。中間フォーマット11は、シーン解析202へ及びダウンミックス機能203へ入力される。いくつかの実施形態で、ダウンミックス機能203は、中間フォーマット11をオーディオ混合ストリーム30に変換するよう適応された係数を有する行列混合器を含み得る。つまり、この場合のコンパクト空間オーディオシーン(例えば、コンパクトな表現)のオーディオ混合ストリーム30(例えば、チャネルベースオーディオ信号)は、ダウンミックス機能203(ダウンミックス操作)を中間シーン(例えば、マルチチャネルオーディオ信号)に適用することによって生成されたダウンミックス信号であることができる。
【0120】
図11に示される代替の実施形態では、空間エンコーダ200は、シーンベースの入力11の形で入力をとることができる。音響オブジェクトは、パンニング規則Pan(θ)に従って表現される。いくつかの実施形態で、パンニング関数は、高次アンビソニックスパンニング関数であってよい。一例となる実施形態では、パンニング関数は、3次アンビソニックスパンニング関数である。
【0121】
図9に表されている他の代替の実施形態では、空間オーディオシーン10は、ダウンミックス機能203へ入力される中間シーン11を生成するよう空間エンコーダ200内でコンバータ201によって変換される。シーン解析202は、空間オーディオシーン10から入力を供給される。
【0122】
図12は、デミキサ302によって使用されるデミキシング行列(逆混合行列)を決定するデミキシング行列計算器301へ入力される方向情報21及びエネルギバンド比情報22を示す。
【0123】
空間オーディオ信号の再構成表現を生成するためにコンパクト空間オーディオシーン(例えば、空間オーディオ信号の圧縮表現)を処理する詳細が、次に記載される。
【0124】
図13は、空間オーディオ信号の再構成表現を生成するために空間オーディオ信号の圧縮表現を処理する方法1300の例のフローチャートである。圧縮表現は、予め定義された数のチャネルを有するチャネルベースオーディオ信号(例えば、オーディオ混合ストリーム30によって具現される)及びメタデータを含み、メタデータは、方向情報(例えば、方向情報21によって具現される)及びエネルギ情報(例えば、エネルギバンド比情報22によって具現される)を含み、方向情報は、オーディオシーンにおける1つ以上のオーディオ要素の到来方向の指示を含み、エネルギ情報は、少なくとも1つの周波数サブバンドについて、到来方向に関連した信号電力の各々の指示を含む。チャネルベースオーディオ信号は、例えば、1次アンビソニックス信号であってよい。方法1300は、ステップS1310からS1320を有し、任意に、ステップS1330及びS1340を有する。これらのステップは、例えば、
図12のシーンデコーダ300によって実行されてよいことが理解される。
【0125】
ステップS1310で、1つ以上のオーディオ要素のオーディオ信号が、チャネルベースオーディオ信号、方向情報、及びエネルギ情報に基づき生成される。
【0126】
ステップS1320で、1つ以上のオーディオ要素が実質的に存在しない残留オーディオ信号が、チャネルベースオーディオ信号、方向情報、及びエネルギ情報に基づき生成される。ここで、残留信号は、チャネルベースオーディオ信号と同じオーディオフォーマットで表現され得、例えば、チャネルベースオーディオ信号と同数のチャネルを有し得る。
【0127】
任意のステップS1330で、1つ以上のオーディオ要素のオーディオ信号は、出力オーディオフォーマットのチャネルの組にパンされる。ここで、出力オーディオフォーマットは、例えば、HOA又は任意の他の適切なマルチチャネルフォーマットのような、出力表現に関係があってよい。
【0128】
任意のステップS1340で、出力オーディオフォーマットでの再構成されたマルチチャネルオーディオ信号が、パンされた1つ以上のオーディオ要素及び残留信号に基づき生成される。再構成されたマルチチャネルオーディオ信号を生成することは、出力オーディオフォーマットのチャネルの組に残留信号をアップミックスすることを含んでもよい。再構成されたマルチチャネルオーディオ信号を生成することは、パンされた1つ以上のオーディオ要素と、アップミックスされた残留信号とを足し合わせることを更に含み得る。
【0129】
上記のステップは、ステップの順序により、各ステップの必要な入力が利用可能であることが担保される限りは、如何なる順序でも、又は互いに並行して、実行されてもよいことが理解される。
【0130】
空間オーディオ信号の圧縮表現を生成する空間オーディオ信号の処理の方法の上記の記載と一致して、所与の到来方向に関連した信号電力の指示は、周波数サブバンドでの総信号電力に対する所与の到来方向についての周波数サブバンドでの信号電力の比に関係があってよい。
【0131】
更に、いくつかの実施形態で、エネルギ情報は、複数の周波数サブバンドの夫々についての信号電力の指示を含み得る。その場合に、信号電力の指示は、所与の到来方向及び所与の周波数サブバンドについて、所与の周波数サブバンドでの総信号電力に対する所与の到来方向についての所与の周波数サブバンドでの信号電力の比に関係があってよい。
【0132】
ステップS1310で1つ以上のオーディオ要素のオーディオ信号を生成することは、方向情報及びエネルギ情報に基づき、残留オーディオ信号及び1つ以上のオーディオ要素のオーディオ信号を含む中間表現へチャネルベースオーディオ信号をマッピングするための逆混合行列Mの係数を決定することを含み得る。中間表現は、分離された若しくは分離可能な表現、又はハイブリッド表現とも呼ばれ得る。
【0133】
逆混合行列Mの係数の上記の決定の詳細が、次に、
図14のフローチャートを参照して記載される。このフローチャートによって表される方法1400は、ステップS1410からS1440を有する。
【0134】
ステップS1410で、1つ以上のオーディオ要素の夫々について、オーディオ要素をチャネルベースオーディオ信号のチャネルにパンするためのパンニングベクトルPandown(dir)が、当該オーディオ要素の到来方向dirに基づき決定される。
【0135】
ステップS1420で、残留オーディオ信号及び1つ以上のオーディオ要素のオーディオ信号をチャネルベースオーディオ信号のチャネルにマッピングするために使用される混合行列Eが、決定されたパンニングベクトルに基づき決定される。
【0136】
ステップS1430で、中間表現の共分散行列Sがエネルギ情報に基づき決定される。共分散行列Sの決定は、決定されたパンニングベクトルPandownに更に基づいてもよい。
【0137】
最後に、ステップS1440で、逆混合行列Mの係数が、混合行列E及び共分散行列Sに基づき決定される。
【0138】
上記のステップは、ステップの順序により、各ステップの必要な入力が利用可能であることが担保される限りは、如何なる順序でも、又は互いに並行して、実行されてもよいことが理解される。
【0139】
図12に戻ると、デミキシング行列計算器301は、次のステップを含むプロセスに従って、デミキシング行列60(逆混合行列)M
k,bを計算する:
1.時間セグメントkごとに、デミキシング行列計算器301へ、方向情報dir
k,p(1≦p≦P)及びエネルギバンド比情報e
k,p,k(1≦p≦P及び1≦b≦B)が入力される。Pは、ドミナント音響成分の数を表し、Bは、周波数バンドの数を示す。
2.各バンドbについて、デミキシング行列Mk,bが:
M=S×E
*×(E×S×E
*)
-1 (20)
に従って計算される。ここで、「×」は、行列積を示し、「*」は、行列の共役転置を示す。式(20)に従う計算は、例えば、ステップS1440に対応し得る。
【0140】
デミキシング行列Mは、複数の時間セグメントkの夫々について、及び/又は複数の周波数サブバンドbの夫々について、決定され得る。その場合に、行列M及びSは、時間セグメントを示すインデックスk及び/又は周波数サブバンドを示すインデックスbを有することになり、行列Eは、時間セグメントを示すインデックスkを有することになる。例えば、
Mk,b=Sk,b×E*
k×(Ek×Sk,b×E*
k)-1 (20a)
である。
【0141】
一般に、混合行列E及び共分散行列Sに基づき逆混合行列Mの係数を決定することは、混合行列E及び共分散行列Sに基づき疑似逆行列を決定することを含み得る。そのような疑似逆行列の一例は、式(20)及び(20a)で与えられる。
【0142】
式(20)中、行列Ek(混合行列)は、N×Nの単位行列(IN)と、P個のドミナント音響成分の夫々の方向に適用されたパンニング関数によって形成されたP個の列とを積み重なることによって、形成される:
E=(IN|Pandown(dir1)|・・・|Pandown(dirP|) (21)
式(21)中、INは、N×Nの単位行列であり、Nは、チャネルベースオーディオ信号のチャネルの数を示し、Pandown(dirp)は、チャネルベースオーディオ信号のN個のチャネルにp番目のオーディオ要素をパンする関連する到来方向dirpを有するp番目のオーディオ要素のパンニングベクトルであり、p=1,・・・,Pは、1つ以上のオーディオ要素の中の各々1つを示し、Pは、1つ以上のオーディオ要素の総数を示す。式(21)の縦棒は、行列拡大(matrix augmentation)演算を示す。従って、行列Eは、N×P行列である。
【0143】
更に、行列Eは、複数の時間セグメントkの夫々について決定されてよい。その場合に、行列E及び到来方向dirpは、時間セグメントを示すインデックスkを有することになる。例えば:
Ek=(IN|Pandown(dirk,1)|・・・|Pandown(dirk,P))
(21a)
である。提案されている方法がバンド単位で動作する場合に、行列Eは、全ての周波数サブバンドについて同じになる。
【0144】
ステップS1420に従って、行列Ekは、残留オーディオ信号及び1つ以上のオーディオ要素のオーディオ信号をチャネルベースオーディオ信号のチャネルにマッピングするために使用される。式(21)及び(21a)から分かるように、行列Ekは、ステップS1410で決定されたパンニングベクトルPandown(dir)に基づく。
【0145】
式(20)中、行列Sは、(N+P)×(N+P)の対角行列である。それは、中間表現の共分散行列と見なされ得る。その係数は、ステップS1430に従って、エネルギ情報に基づき計算され得る。最初のN個の対角要素は、1≦n≦Nについて:
【数21】
によって与えられ、残りのP個の対角要素は、1≦p≦Pについて:
{S}
N+p,N+p=e
p (23)
によって与えられる。e
pは、p番目のオーディオ要素の到来方向に関連した信号電力である。
【0146】
共分散行列Sは、複数の時間セグメントkの夫々について、及び/又は複数の周波数サブバンドbの夫々について、決定され得る。その場合に、共分散行列S及び信号電力e
pは、時間セグメントを示すインデックスk及び/又は周波数サブバンドを示すインデックスbを有することになる。最初のN個の対角要素は:
【数22】
によって与えられ、残りのP個の対角要素は:
{S
k,b}
N+p,N+p=e
k,
p,b(1≦p≦P) (23a)
によって与えられる。
【0147】
好適な実施形態では、デミキシング行列Mk,bは、デミキサ302によって、分離された空間オーディオストリーム70を生成するよう適用される(中間表現の例として)。ステップS1310の上記の実施に従って、最初のN個のチャネルは、残留ストリーム80であり、残りのP個のチャネルは、ドミナント音響成分を表す。
【0148】
N+Pチャネルの分離された空間ストリーム70 Y
k(f)、Pチャネルのドミナントオブジェクト信号90(ステップS1310で生成された1つ以上のオーディオ要素のオーディオ信号の例として)O
k(f)、及びNチャネルの残留ストリーム80(ステップS1320で生成された残留オーディオ信号の例として)R
k(f)は:
【数23】
に従って、Nチャネルのオーディオ混合30 X
k(f)から計算される。信号は、STFT形式で表され、{Y
k(f)}
1..Nとの表現は、Y
k(f)のチャネル1..Nから形成されたNチャネル信号を示し、{Y
k(f)}
N+1..N+Pは、Y
k(f)のチャネルN+1..N+Pから形成されたPチャネル信号を示す。行列M
k,bの適用は、式(24)のそれと同等の近似関数を提供する、当該技術で知られている代替の方法に従って、達成され得ることが当業者によって理解されるだろう。
【0149】
上記に加えて、いくつかの実施形態で、ドミナント音響成分の数Pは、時間セグメントごとに異なる値をとるよう適応され得る。それにより、Pkは、時間セグメントkに依存し得る。例えば、シーンエンコーダ200のシーン解析202は、時間セグメントごとにPkの値を決定し得る。一般に、ドミナント音響成分Pの数は、時間に依存し得る。P(又はPk)の選択は、メタデータのデータレートと再構成されたオーディオシーンの品質との間のトレードオフを含んでもよい。
【0150】
図12に戻ると、空間デコーダ300は、Mチャネルの再構成されたオーディオシーン50を生成する。Mチャネルストリームは、出力パンナー
(外5)
に関連付けられる。これは、上記のステップS1340に従って行われ得る。出力パンナーの例には、ステレオパンニング関数、当該技術で知られているベクトルベースの振幅パンニング関数、及び当該技術で知られている高次のアンビソニックスパンニング関数がある。
【0151】
例えば、
図12のオブジェクトパンナー91は:
【数24】
に従って、Mチャネルのパンされたオブジェクトストリーム92 Z
pを生成するよう構成され得る。
【0152】
図15は、再構成されたオーディオシーンを生成するようコンパクト空間オーディオシーンを復号する方法1500の代替の定式化を提供するフローチャートである。方法1500は、ステップS1510からS1580を含む。
【0153】
ステップS1510で、コンパクト空間オーディオシーンが受け取られ、符号化されたダウンミックスストリーム及び符号化されたメタデータストリームが取り出される。
【0154】
ステップS1520で、符号化されたダウンミックスストリームは、ダウンミックスストリームを形成するよう復号される。
【0155】
ステップS1530で、符号化されたメタデータストリームは、方向情報及びエネルギ比情報を形成するよう復号される。
【0156】
ステップS1540で、バンドごとのデミキシング行列が、方向情報及びエネルギ比情報から形成される。
【0157】
ステップS1550で、ダウンミックスストリームは、分離されたストリームを形成するようデミキシング行列に従って処理される。
【0158】
ステップS1560で、オブジェクト信号が、分離されたストリームから取り出され、方向情報及び所望の出力フォーマットに従って、パンされたオブジェクト信号を生成するようパンされる。
【0159】
ステップS1570で、残留信号が、分離されたストリームから取り出され、所望の出力フォーマットに従って、復号された残留信号を生成するよう処理される。
【0160】
最後に、ステップS1580で、パンされたオブジェクト信号及び復号された残留信号が、再構成されたオーディオシーンを形成するよう結合される。
【0161】
上記のステップは、ステップの順序により、各ステップの必要な入力が利用可能であることが担保される限りは、如何なる順序でも、又は互いに並行して、実行されてもよいことが理解される。
【0162】
空間オーディオ信号の圧縮表現を生成するために空間オーディオ信号を処理する方法、及び空間オーディオ信号の再構成表現を生成するために空間オーディオ信号の圧縮表現を処理する方法が、先に記載されてきた。更に、本開示は、これらの方法を実行する装置にも関する。そのような装置1600の例は、
図16で概略的に表されている。装置1600は、プロセッサ1610(例えば、中央演算処理装置(CPU)、グラフィクス処理ユニット(GPU)、デジタル信号プロセッサ(DSP)、1つ以上の特定用途向け集積回路(ASIC)、1つ以上の無線周波数集積回路(RFIC)、又はそれらの任意の組み合わせ)、及びプロセッサ1610へ結合されているメモリ1620を有し得る。プロセッサは、本開示にわたって記載されている方法のステップの一部又は全部を実行するよう構成されてよい。装置1600がエンコーダ(例えば、シーンエンコーダ)として動作する場合に、それは、入力1630として、例えば、空間オーディオ信号(すなわち、空間オーディオシーン)を受け取ってよい。装置1600は、次いで、出力1640として、空間オーディオ信号の圧縮表現を生成し得る。装置1600がデコーダ(例えば、シーンデコーダ)として動作する場合に、それは、入力1630として、圧縮表現を受け取ってよい。装置は、次いで、出力1640として、再構成されたオーディオシーンを生成し得る。
【0163】
装置1600は、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ(PC)、タブレットPC、セットトップボックス(STB)、パーソナルデジタルアシスタント(PDA)、携帯電話機、スマートフォン、ウェブアプライアンス、ネットワークルータ、スイッチ若しくはブリッジ、又はその装置によって行われる動作を指定する命令を実行可能な任意のマシンであってよい。更に、
図16には1つの装置1600しか表されていないが、本開示は、当然に、本明細書で議論されているメソッドロジのいずれか1つ以上を実行するよう個別的に又はまとまって命令を実行する装置の任意の集合に関するものである。
【0164】
本開示は、プロセッサによって実行される場合に、プロセッサに、本明細書で記載されている方法のステップの一部又は全部を実行させる命令を有するプログラム(例えば、コンピュータプログラム)に更に関する。
【0165】
また更に、本開示は、上記のプログラムを記憶しているコンピュータ可読(又はマシン可読)記憶媒体に関する。ここで、「コンピュータ可読記憶媒体」という用語は、例えば、ソリッドステートメモリ、光学媒体、及び磁気媒体の形でデータリポジトリを含むが、それに限られない。
【0166】
[追加の構成に関する考慮事項]
特に別なふうに述べられない限りは、以下の議論から明らかなように、本開示を通して、「処理する」(processing)、「計算する」(computing)、「計算する」(calculating)、「決定する」(determining)、「解析する」(analyzing)などのような用語を利用する議論は、電子などの物理的な量として表されるデータを物理量として同様に表される他のデータに操作及び/又は変換するコンピュータ若しくはコンピューティングシステム、又は同様の電子コンピューティングデバイスの動作及び/又は処理を指すことが理解される。
【0167】
同様に、「プロセッサ」という用語は、例えば、レジスタ及び/又はメモリからの電子データを処理して、その電子データを、例えば、レジスタ及び/又はメモリに格納され得る他の電子データに変換する任意のデバイス又はデバイスの部分を指し得る。「コンピュータ」又は「コンピューティングマシン」又は「コンピューティングプラットフォーム」は,1つ以上のプロセッサを含んでよい。
【0168】
本明細書で記載されているメソッドロジは、一例となる実施形態では、プロセッサの1つ以上によって実行される場合に、本明細書で記載されている方法の少なくとも1つを実行する命令の組を含むコンピュータ可読(マシン可読、とも呼ばれる)コードを受け入れる1つ以上のプロセッサによって実行可能である。行われる動作を指定する命令の組(シーケンシャル又はその他)を実行可能な如何なるプロセッサも含まれる。従って、1つの例は、1つ以上のプロセッサを含む典型的な処理システムである。各プロセッサは、1つ以上のCPU、グラフィクス処理ユニット、及びプログラム可能なDSPユニットを含み得る。処理システムは、メインRAM及び/又はスタティックRAM、及び/又はROMを含むメモリサブシステムを更に含み得る。コンポーネント間の通信用にバスサブシステムが含まれてもよい。処理システムは更に、ネットワークによって結合されているプロセッサを備えた分散処理システムであってもよい。処理システムがディスプレイを必要とする場合には、そのようなディスプレイ、例えば、液晶ディスプレイ(LCD)又は陰極線管(CRT)ディスプレイが含まれてもよい。手動によるデータ入力が必要とされる場合には、処理システムは、キーボードなどの英数字入力ユニット、マウスなどのポインティング制御デバイス、などの1つ以上のような入力デバイスも含む。処理システムはまた、ディスクドライブユニットなどの記憶システムを包含し得る。処理システムは、いくつかの構成では、音声出力デバイス及びネットワークインターフェースデバイスを含んでもよい。従って、メモリサブシステムは、1つ以上のプロセッサによって実行される場合に、本明細書で記載されている方法の1つ以上を実行させる命令の組を含むコンピュータ可読コード(例えば、ソフトウェア)を運ぶコンピュータ可読キャリア媒体を含む。方法がいくつかの要素、例えば、いくつかのステップを含む場合に、特に明記されていない限り、そのような要素の順序は暗示されないことに留意されたい。ソフトウェアは、ハードディスクに常駐してもよく、あるいは、コンピュータシステムによるその実行中に、RAM内及び/又はプロセッサ内に完全に又は少なくとも部分的に常駐してもよい。従って、メモリ及びプロセッサはまた、コンピュータ可読コードを運ぶコンピュータ可読キャリア媒体を構成する。更に、コンピュータ可読キャリア媒体は、コンピュータプログラム製品を形成するか、あるいは、コンピュータプログラム製品に含まれてもよい。
【0169】
代替の例示的な実施形態では、1つ以上のプロセッサは、スタンドアロンデバイスとして動作するか、あるいは、ネットワーク化されたデプロイメント(networked deployment)において、例えば、他のプロセッサにネットワーク化されて接続されてもよく、1つ以上のプロセッサは、サーバ-ユーザーネットワーク環境内のサーバ若しくはユーザマシンとして、又はピア・ツー・ピア若しくは分散ネットワーク環境内のピアマシンとして動作してもよい。1つ以上のプロセッサは、パーソナルコンピュータ(PC)、タブレットPC、パーソナルデジタルアシスタント(PDA)、携帯電話機、ウェブアプライアンス、ネットワークルータ、スイッチ若しくはブリッジ、又はそのマシンによって行われる動作を指定する命令の組(シーケンシャル又はその他)を実行可能な任意のマシンを形成し得る。
【0170】
「マシン」という用語は、本明細書で議論されているメソッドロジのいずれか1つ以上を実行するよう命令の組(又は複数の組)を個別的に又はまとまって命令実行するマシンの任意の集合を含むと解釈されることに留意されたい。
【0171】
従って、本明細書に記載されている各方法の1つの例示的な実施形態は、命令の組、例えば、1つ以上のプロセッサ、例えば、ウェブサーバ配置の部分である1つ以上のプロセッサで実行されるコンピュータプログラムを運ぶコンピュータ可読キャリア媒体の形をとる。従って、当業者によって理解されるように、本開示の例示的な実施形態は、方法、特別目的の装置などの装置、データ処理システムなどの装置、又はコンピュータ可読キャリア媒体、例えば、コンピュータプログラム製品、として具体化されてもよい。コンピュータ可読キャリア媒体は、1つ以上のプロセッサで実行される場合に1つ又は複数のプロセッサに方法を実装させる命令の組を含むコンピュータ可読コードを運ぶ。従って、本開示の態様は、方法、完全にハードウェアの例示的な実施形態、完全にソフトウェアの例示的な実施形態、又はソフトウェアとハードウェアの態様を組み合わせた例示的な実施形態、の形をとることができる。更に、本開示は、媒体に具体化されたコンピュータ可読プログラムコードを運ぶキャリア媒体(例えば、コンピュータ可読記憶媒体上のコンピュータプログラム製品)の形態をとることができる。
【0172】
ソフトウェアは更に、ネットワークインターフェースデバイスを介してネットワーク上で送信又は受信されてもよい。キャリア媒体は、例示的な実施形態では単一の媒体であるが、「キャリア媒体」という用語は、命令の1つ以上の組を記憶する単一の媒体又は複数の媒体(例えば、集中型若しくは分散型データベース、及び/又は関連するキャッシュ及びサーバ)を含むと解釈されるべきである。「キャリア媒体」という用語はまた、1つ以上のプロセッサによる実行のための命令の組を格納、符号化、又は搬送することができ、1つ以上のプロセッサに本開示のメソッドロジのいずれか1つ以上を実行させる任意の媒体を含むと解釈されるべきである。キャリア媒体は、不揮発性媒体、揮発性媒体、及び伝送媒体を含むがこれらに限定されない多くの形態をとることができる。不揮発性媒体には、例えば、光ディスク、磁気ディスク、及び光磁気ディスクが含まれる。揮発性メディアには、メインメモリなどの動的メモリが含まれる。伝送媒体には、バスサブシステムを構成する配線を含む、同軸ケーブル、銅線、及び光ファイバーが含まれる。伝送媒体はまた、電波及び赤外線データ通信中に生成されるものなど、音波又は光波の形をとることもできる。例えば、「キャリア媒体」という用語は、ソリッドステートメモリ、光学及び磁気媒体で具現されたコンピュータ製品、少なくとも1つのプロセッサ又は1つ以上のプロセッサによって検出可能であり、実行される場合に方法を実装する命令の組を表す伝播信号を有する媒体、並びに1つ以上のプロセッサのうちの少なくとも1つのプロセッサによって検出可能であり、命令の組を表す伝播信号を有するネットワーク内の伝送媒体を含むが、これらに限られないと然るべく解されるべきである。
【0173】
議論されている方法のステップは、1つの例示的な実施形態では、ストレージに格納された命令(コンピュータ可読コード)を実行する処理(例えば、コンピュータ)システムの適切なプロセッサ(又は複数のプロセッサ)によって実行されることが理解される。また、本開示は、如何なる特定の実施又はプログラミング技術にも限定されず、本開示は、本明細書に記載されている機能を実装するための如何なる適切な技術によっても実装されて得ることも理解されよう。本開示は、如何なる特定のプログラミング言語又はオペレーティングシステムにも限定されない。
【0174】
本開示全体を通して「1つの例示的な実施形態」、「いくつかの例示的な実施形態」又は「例となる実施形態」への言及は、例となる実施形態に関連して説明される特定の特徴、構造又は特性が、本開示の少なくとも1つの例示的な実施形態に含まれることを意味する。従って、本開示全体の様々な場所での「1つの例示的な実施形態において」、「いくつかの例示的な実施形態において」又は「例となる実施形態において」という句の出現は、必ずしも全てが同じ例示的な実施形態を指すとは限らない。更に、特定の特徴、構造又は特徴は、1つ以上の例示的な実施形態において、本開示から当業者に明らかであるように、任意の適切な方法で組み合わせることができる。
【0175】
本明細書で使用されるように、共通のオブジェクトを説明するための序数形容詞「第1」、「第2」、「第3」などの使用は、特に明記されない限りは、同様のオブジェクトの異なるインスタンスが参照されさていることを単に示しており、そのように記載されたオブジェクトが、時間的、空間的、順位付け、又はその他の方法で、特定の順序である必要があることを暗示するものとして意図されない。
【0176】
以下の特許請求の範囲、及び本明細書の説明において、「有する」(comprising)、「~から成る」(comprised of)又は「~を有する」(which comprises)という用語のうちのいずれか1つは、続く要素/特徴を少なくとも含むが、他のものを除外しないことを意味する非限定的な用語(open term)である。従って、「有する」(comprising)という用語は、特許請求の範囲で使用される場合に、その後に列挙される手段又は要素又はステップを限定するものとして解釈されるべきではない。例えば、「A及びBを有するデバイス」という表現の範囲は、「要素A及びBのみを有する含むデバイス」に限定されるべきではない。本明細書で使用される「含む」(including)又は「~を含む」(which includes)又は「~を含む」(that includes)という用語のうちのいずれか1つも、その用語に続く要素/機能を少なくとも含むが、他のものを除外しないことを意味する。従って、「含む」(including)は、「有する」(comprising)と同義であり、それを意味する。
【0177】
本開示の例示的な実施形態の上記の説明において、本開示の様々な特徴は、開示を簡素化し、かつ、様々な発明態様の1つ以上の理解を助ける目的で、単一の例示的な実施形態、図、又はその説明に時々まとめられることが理解されるべきである。しかしながら、この開示方法は、特許請求の範囲が各請求項で明示的に記載されているよりも多くの特徴を必要とするという意図を反映していると解釈されるべきではない。むしろ、続く特許請求の範囲が反映するように、発明態様は、前述の単一の開示された例示的な実施形態の全ての特徴よりも少ない特徴にある。従って、説明に続く特許請求の範囲は、本明細書に明示的に組み込まれ、各請求項は、本開示の別個の例示的な実施形態として独立している。
【0178】
更に、本明細書で記載されるいくつかの例示的な実施形態は、他の例示的な実施形態に含まれるいくつかの特徴を含むが他の特徴を含まず、一方で、異なる例示的な実施形態の特徴の組み合わせは、本開示の範囲内あるよう意図され、当業者によって理解されるように、別の例示的な実施形態を形成する。例えば、続く特許請求の範囲において、請求されている例示的な実施形態のいずれかは、任意の組み合わせで使用され得る。
【0179】
本明細書で提供される説明では、多くの特定の詳細が示されている。しかしながら、本開示の例示的な実施形態は、これらの特定の詳細によらずに実施されてもよいことが理解される。他の例では、この説明の理解をあいまいにしないために、よく知られた方法、構造、及び技法は詳細に示されていない。
【0180】
従って、本開示の最良の様式であると考えられるものが記載されているが、当業者は、本開示の精神から逸脱することなく、他の更なる修正を加えることができることを認識し、本開示の範囲内にあるような全てのそのような変更及び修正を請求することが意図される。例えば、上記の式は、使用される可能性がある手順の代表的なものにすぎない。ブロック図に機能を追加又は削除したり、機能ブロック間で操作を交換したりすることもできる。本開示の範囲内で説明される方法に、ステップを追加又は削除することもできる。
【0181】
本開示の更なる態様、実施形態、及び実施例は、以下に列挙された例示的な実施形態(numerated example embodiments)(EEE)から明らかになるであろう。
【0182】
EEE1は、オーディオ混合ストリーム及び方向メタデータストリームを含むコンパクト空間オーディオシーンとして空間オーディオシーンを表示する方法に関し、前記オーディオ混合ストリームは、1つ以上のオーディオ要素から成り、前記方向メタデータストリームは、時系列の方向メタデータブロックから成り、前記方向メタデータブロックの夫々は、前記オーディオ信号における対応する時間セグメントに関連し、前記空間オーディオシーンは、各々の到来方向に夫々関連する1つ以上の指向性音響要素を含み、前記方向メタデータブロックの夫々は、(a)前記指向性音響要素の夫々についての前記到来方向を示す方向情報と、(b)指向性音響要素の夫々について、及び2つ以上のサブバンドの組の夫々ついて、前記オーディオ信号における前記対応する時間セグメントでのエネルギに対する前記指向性音響要素の夫々でのエネルギを示すエネルギバンド比情報とを含む。
【0183】
EEE2は、EEE1に記載の方法に関し、(a)前記エネルギバンド比情報は、複数の前記サブバンドの夫々での前記空間オーディオシーンの特性を示し、(b)少なくとも1つの到来方向について、前記方向情報に含まれるデータは、前記サブバンドのうちの2つ以上のクラスタでの前記空間オーディオシーンの特性を示す。
【0184】
EEE3は、オーディオ混合ストリーム及び方向メタデータストリームを含むコンパクトな空間オーディオシーンを処理して、1つ以上のオーディオオブジェクト信号の組を含む分離された空間オーディオストリーム及び残留ストリームを生成する方法に関し、前記オーディオ混合ストリームは、1つ以上のオーディオ信号から成り、前記方向メタデータストリームは、時系列の方向メタデータブロックから成り、前記方向メタデータブロックの夫々は、前記オーディオ信号における対応する時間セグメントに関連し、複数のサブバンドの夫々について、方法は、(a)前記方向メタデータストリームに含まれる方向情報及びエネルギバンド比情報からデミキシング行列の係数を決定することと、(b)前記デミキシング行列を用いて、前記オーディオ混合ストリームを混合して、前記分離された空間オーディオストリームを生成することを有する。
【0185】
EEE4は、EEE3に記載の方法に関し、前記方向メタデータブロックの夫々は、(a)指向性音響要素の夫々についての到来方向を示す方向情報と、(b)指向性音響要素の夫々について、及び2つ以上のサブバンドの組の夫々ついて、前記オーディオ信号における前記対応する時間セグメントでのエネルギに対する前記指向性音響要素の夫々でのエネルギを示すエネルギバンド比情報とを含む。
【0186】
EEE5は、EEE3に記載の方法に関し、(a)前記方向メタデータがブロックの夫々について、方向情報及びエネルギバンド比情報が、前記分離された空間オーディオストリームの近似共分散を表す行列Sを形成するために使用され、(a)前記エネルギバンド比情報は、前記オーディオ混合ストリームへの前記分離された空間オーディオストリームの変換を定義する再混合行列を表すEを形成するために使用され、(b)前記デミキシング行列Eは、U=S×E*×(E×S×E*)-1に従って計算される。
【0187】
EEE6は、EEE6に記載の方法に関し、行列Sは対角行列である。
【0188】
EEE7は、EEE3に記載の方法に関し、(a)前記残留ストリームは、再構成された残留ストリームを生成するよう処理され、(b)前記オーディオオブジェクト信号の夫々は、対応する再構成されたオブジェクトストリームを生成するよう処理され、(c)前記再構成された残留ストリームと前記再構成されたオブジェクトストリームの夫々とは、再構成されたオーディオ信号を形成するよう結合され、前記再構成されたオーディオ信号は、前記コンパクト空間オーディオシーンに従って指向性音響要素を含む。
【0189】
EEE8は、EEE7に記載の方法に関し、前記再構成されたオーディオ信号は、前記コンパクト空間オーディオシーンに従って指向性音響要素を含む空間オーディオシーンのバイノーラル体験を提供するために各耳で又は各耳の近くでのトランスデューサによるリスナーへの提示のための2つの信号を含む。
【0190】
EEE9は、EEE7に記載の方法に関し、前記再構成されたオーディオ信号は、球面調和パンニング関数(spherical-harmonic panning functions)の形で空間オーディオシーンを表す複数の信号を含む。
【0191】
EEE10は、空間オーディオシーンを処理して、オーディオ混合ストリーム及び方向メタデータストリームを含むコンパクトな空間オーディオシーンを生成する方法に関し、前記空間オーディオシーンは、各々の到来方向と夫々関連付けられている1つ以上の指向性音響要素を含み、前記方向メタデータストリームは、時系列の方向メタデータブロックから成り、該方向メタデータブロックの夫々は、オーディオ信号における対応する時間セグメントに関連し、方法は、(a)空間オーディオシーンの解析から、前記指向性音響要素の1つ以上について到来方向を決定する手段と、(b)空間シーンにおける総エネルギのうちのどの部分が前記指向性音響要素の夫々でのエネルギによって寄与されているかを決定する手段と、(c)前記空間オーディオシーンを処理して前記オーディオ混合ストリームを生成する手段とを含む。
【国際調査報告】