(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-06-26
(54)【発明の名称】空間オーディオ表現およびレンダリング
(51)【国際特許分類】
G10L 19/008 20130101AFI20230619BHJP
H04S 7/00 20060101ALI20230619BHJP
【FI】
G10L19/008 100
H04S7/00 300
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022572609
(86)(22)【出願日】2021-05-07
(85)【翻訳文提出日】2023-01-25
(86)【国際出願番号】 FI2021050339
(87)【国際公開番号】W WO2021240053
(87)【国際公開日】2021-12-02
(32)【優先日】2020-05-27
(33)【優先権主張国・地域又は機関】GB
(81)【指定国・地域】
(71)【出願人】
【識別番号】515076873
【氏名又は名称】ノキア テクノロジーズ オサケユイチア
(74)【代理人】
【識別番号】100099759
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100141162
【氏名又は名称】森 啓
(74)【代理人】
【識別番号】100151459
【氏名又は名称】中村 健一
(72)【発明者】
【氏名】ミッコ-ビッレ ライティネン
(72)【発明者】
【氏名】ユハ ビルカモ
【テーマコード(参考)】
5D162
【Fターム(参考)】
5D162AA05
5D162CC33
5D162EG02
(57)【要約】
空間オーディオ信号を受信し、該空間オーディオ信号は、少なくとも1つのオーディオ信号、および、該少なくとも1つのオーディオ信号に関連する空間メタデータを含み、少なくとも1つのオーディオ信号に基づいて、少なくとも1つの非相関オーディオ信号を生成し、空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定し、少なくとも1つの制御パラメータは、少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性、ならびに、空間メタデータ、および、少なくとも1つのオーディオ信号に基づいて決定された少なくとも1つの特性とのうちの少なくとも1つに少なくとも基づき、空間オーディオ信号および少なくとも1つの非相関オーディオ信号に基づいて、空間オーディオ再生のための少なくとも2つの出力オーディオ信号を生成し、少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量は、少なくとも1つの制御パラメータに基づいて制御される、ように構成された手段を含む装置。
【特許請求の範囲】
【請求項1】
空間オーディオ信号を受信し、該空間オーディオ信号は、少なくとも1つのオーディオ信号、および、該少なくとも1つのオーディオ信号に関連する空間メタデータを含み、
前記少なくとも1つのオーディオ信号に基づいて、少なくとも1つの非相関オーディオ信号を生成し、
空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定し、前記少なくとも1つの制御パラメータは、前記少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性、ならびに、空間メタデータ、および、前記少なくとも1つのオーディオ信号に基づいて決定される少なくとも1つの特性のうちの少なくとも1つに基づいており、
前記空間オーディオ信号、および、少なくとも1つの非相関オーディオ信号に基づいて、空間オーディオ再生のための前記少なくとも2つの出力オーディオ信号を生成し、前記少なくとも2つの出力オーディオ信号内の前記少なくとも1つの非相関オーディオ信号の前記量は、前記少なくとも1つの制御パラメータに基づいて制御される、
ように構成された手段を有する装置。
【請求項2】
前記少なくとも1つの制御パラメータは、
前記少なくとも1つの非相関オーディオ信号、または、非相関化される前記少なくとも1つのオーディオ信号の少なくとも1つに適用される少なくとも1つの処理利得と、
前記少なくとも1つの非相関化されたオーディオ信号、および、前記少なくとも1つのオーディオ信号の混合を制御するように構成された少なくとも1つの混合行列と、
少なくとも1つの混合行列、および、少なくとも1つの残差混合行列であって、前記少なくとも1つの混合行列、および、前記少なくとも1つの残差混合行列は、前記少なくとも1つの非相関オーディオ信号、および、前記少なくとも1つのオーディオ信号の混合を制御するように構成される、少なくとも1つの混合行列、および、少なくとも1つの残差混合行列と、
少なくとも1つの混合行列、および/または、少なくとも1つの残差混合行列の生成を制御するように構成された少なくとも1つの共分散行列であって、前記少なくとも1つの混合行列、および/または、前記少なくとも1つの残差混合行列は、前記少なくとも1つの非相関オーディオ信号、および/または、前記少なくとも1つのオーディオ信号の混合を制御するように構成される、共分散行列と、
のうちの少なくとも1つを備える、請求項1に記載の装置。
【請求項3】
空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の前記少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定するように構成された前記手段は、
前記少なくとも1つのオーディオ信号に基づいて、少なくとも1つの少なくとも1つのさらなる特性を決定し、
前記少なくとも2つの出力オーディオ信号の前記少なくとも1つのさらなるターゲット特性を決定し、
前記少なくとも1つのオーディオ信号に基づく、前記少なくとも1つのさらなる特性、および、前記少なくとも2つの出力オーディオ信号の前記少なくとも1つのさらなるターゲット特性に基づいて、少なくとも1つの第1制御パラメータを決定し、
前記空間メタデータ、および、前記少なくとも1つのオーディオ信号に基づいて決定された前記少なくとも1つの特性のうちの少なくとも1つに基づいて、少なくとも1つの第2制御パラメータを決定し、または、前記少なくとも1つの第1制御パラメータを変更する、
ようにさらに構成される、請求項1に記載の装置。
【請求項4】
空間オーディオ再生のための前記少なくとも2つの出力オーディオ信号を生成するように構成された前記手段は、前記少なくとも1つの第1制御パラメータ、および、少なくとも1つの第2の制御パラメータ、または、前記少なくとも1つの修正された第1制御パラメータに基づいて、前記少なくとも1つのオーディオ信号、および、前記少なくとも1つの非相関オーディオ信号を混合するようにさらに構成されている、請求項3に記載の装置。
【請求項5】
前記手段は、空間オーディオ再生のための前記少なくとも2つの出力オーディオ信号を出力するようにさらに構成される、請求項4に記載の装置。
【請求項6】
前記手段は、前記空間メタデータ内の少なくとも1つの直接対全エネルギー比パラメータに基づいて、前記少なくとも1つの第2制御パラメータ、または、前記修正された少なくとも1つの第1制御パラメータを決定するように構成される、請求項3乃至5のいずれかに記載の装置。
【請求項7】
前記少なくとも1つのオーディオ信号に基づく前記少なくとも1つのさらなる特性は、共分散特性であり、前記少なくとも2つの出力オーディオ信号の前記少なくとも1つのさらなるターゲット特性は、前記少なくとも2つの出力オーディオ信号のターゲット共分散特性である、請求項3乃至6のいずれか一項に記載の装置。
【請求項8】
少なくとも1つの第2制御パラメータを決定し、または、前記少なくとも1つの第1制御パラメータを修正するように構成された前記手段は、
前記少なくとも2つの出力オーディオ信号の前記共分散特性および前記ターゲット共分散特性に基づいて、残差共分散特性を決定し、
前記少なくとも1つのオーディオ信号に関連付けられた前記空間メタデータに基づいて、前記残差共分散特性を処理する、
ように構成される、請求項7に記載の装置。
【請求項9】
前記少なくとも1つのオーディオ信号に関連付けられた前記空間メタデータに基づいて、前記残差共分散特性を処理するように構成された前記手段は、
前記空間メタデータが前記少なくとも1つのオーディオ信号が高指向性であることを示す場合、前記残差共分散特性を減衰させ、
前記空間メタデータが前記少なくとも1つのオーディオ信号が完全にアンビエントであることを示す場合、前記残差共分散特性を未処理で通過させる、
請求項8に記載の装置。
【請求項10】
前記少なくとも2つの出力オーディオ信号のターゲット共分散特性を決定するように構成された前記手段は、
前記共分散特性に基づいて、全エネルギー推定値を生成し、
前記少なくとも1つのオーディオ信号に関連付けられた前記メタデータから方向パラメータに基づいて、頭部関連伝達関数データを決定し、
前記頭部関連伝達関数データ、および、前記全エネルギー推定値に基づいて、さらに、前記少なくとも2つの出力オーディオ信号の前記ターゲット共分散特性を決定する、
ようにさらに構成される、請求項7乃至9のいずれかに記載の装置。
【請求項11】
前記少なくとも1つのオーディオ信号に基づいて、前記少なくとも1つの特性を決定するように構成され、前記少なくとも1つの特性はオーディオタイプであり、空間オーディオ再生のための前記少なくとも2つの出力オーディオ信号内の前記少なくとも1つの非相関オーディオ信号の量を制御するように構成された前記少なくとも1つの制御パラメータを決定するように構成された手段は、さらに、
前記オーディオタイプは、決定されたオーディオタイプであるか否かを決定し、
前記オーディオタイプが、前記決定されたオーディオタイプであることに基づいて、前記少なくとも1つの制御パラメータを決定する、
ように構成される、請求項1乃至10のいずれか一項に記載の装置。
【請求項12】
前記決定されたオーディオタイプは、音声である、請求項11に記載の装置。
【請求項13】
前記少なくとも1つのオーディオ信号は、エンコーダによって生成されたトランスポートオーディオ信号を含む、請求項1乃至12のいずれかに記載の装置。
【請求項14】
少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備える装置であって、前記少なくとも1つのメモリ、および、前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサを用いて、前記装置に、少なくとも、
空間オーディオ信号を受信することであって、前記空間オーディオ信号は、少なくとも1つのオーディオ信号、および、該少なくとも1つのオーディオ信号に関連する空間メタデータを含む、受信することと、
前記少なくとも1つのオーディオ信号に基づいて、少なくとも1つの非相関オーディオ信号を生成することと、
空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の前記少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定することであって、前記少なくとも1つの制御パラメータは、前記少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性、ならびに、前記空間メタデータ、および、前記少なくとも1つのオーディオ信号に基づいて決定される少なくとも1つの特性のうち少なくとも1つに基づいている、決定することと、
前記空間オーディオ信号、および、少なくとも1つの非相関オーディオ信号に基づいて、空間オーディオ再生のための前記少なくとも2つの出力オーディオ信号を生成することであって、少なくとも2つの出力オーディオ信号内の前記少なくとも1つの非相関オーディオ信号の前記量は、前記少なくとも1つの制御パラメータに基づいて制御される、生成することと、
を行わせる、装置。
【請求項15】
装置のための方法であって、該方法は、
空間オーディオ信号を受信することであって、該空間オーディオ信号は、少なくとも1つのオーディオ信号、および、該少なくとも1つのオーディオ信号に関連する空間メタデータを含む、受信することと、
前記少なくとも1つのオーディオ信号に基づいて、少なくとも1つの非相関オーディオ信号を生成することと、
空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定することであって、前記少なくとも1つの制御パラメータは、前記少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性、ならびに、前記空間メタデータ、および、前記少なくとも1つのオーディオ信号に基づいて決定される少なくとも1つの特性のうちの少なくとも1つに少なくとも基づいている、決定することと、
前記空間オーディオ信号、および、少なくとも1つの非相関オーディオ信号に基づいて、空間オーディオ再生のための前記少なくとも2つの出力オーディオ信号を生成することであって、少なくとも2つの出力オーディオ信号内の前記少なくとも1つの非相関オーディオ信号の前記量は、前記少なくとも1つの制御パラメータに基づいて制御される、生成することと、
を含む方法。
【請求項16】
前記少なくとも1つの制御パラメータは、
前記少なくとも1つの非相関オーディオ信号、または、非相関化される前記少なくとも1つのオーディオ信号の少なくとも1つに適用される少なくとも1つの処理ゲインと、
前記少なくとも1つの非相関オーディオ信号、および、前記少なくとも1つのオーディオ信号の混合を制御するように構成された少なくとも1つの混合行列と、
少なくとも1つの混合行列、および、少なくとも1つの残差混合行列であって、前記少なくとも1つの混合行列、および、前記少なくとも1つの残差混合行列は、前記少なくとも1つの非相関オーディオ信号、および、前記少なくとも1つのオーディオ信号の混合を制御するように構成される、少なくとも1つの混合行列、および、少なくとも1つの残差混合行列と、
少なくとも1つの混合行列、および/または、少なくとも1つの残差混合行列の生成を制御するように構成された少なくとも1つの共分散行列であって、前記少なくとも1つの混合行列、および/または、少なくとも1つの残差混合行列は、前記少なくとも1つの非相関オーディオ信号、および/または、前記少なくとも1つのオーディオ信号の混合を制御するように構成される、共分散行列と、
のうちの少なくとも1つを備える、請求項15に記載の方法。
【請求項17】
前記少なくとも1つの制御パラメータを決定することは、さらに、
前記少なくとも1つのオーディオ信号に基づいて、少なくとも1つの少なくとも1つのさらなる特性を決定することと、
前記少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性を決定することと、
前記少なくとも1つのオーディオ信号に基づく前記少なくとも1つのさらなる特性、および、前記少なくとも2つの出力オーディオ信号の前記少なくとも1つのさらなるターゲット特性に基づいて、少なくとも1つの第1制御パラメータを決定することと、
前記空間メタデータ、および、前記少なくとも1つのオーディオ信号に基づいて決定された少なくとも1つのプロパティのうちの少なくとも1つに基づいて、少なくとも1つの第2制御パラメータを決定し、または、前記少なくとも1つの第1制御パラメータを修正することと、
を含む、請求項15に記載の方法。
【請求項18】
空間オーディオ再生のための前記少なくとも2つの出力オーディオ信号を生成することは、さらに、
前記少なくとも1つの第1制御パラメータ、および、少なくとも1つの第2制御パラメータ、または、前記少なくとも1つの修正された第1制御パラメータに基づいて、前記少なくとも1つのオーディオ信号、および、少なくとも1つの非相関オーディオ信号を混合することと、
空間オーディオ再生のための前記少なくとも2つの出力オーディオ信号を出力することと、
を含む、請求項17に記載の方法。
【請求項19】
前記少なくとも1つの第2制御パラメータ、または、前記修正された少なくとも1つの第1制御パラメータを決定することは、前記空間メタデータ内の少なくとも1つの直接対全エネルギー比パラメータに基づく、請求項17または18に記載の方法。
【請求項20】
前記少なくとも1つのオーディオ信号に基づく前記少なくとも1つのさらなる特性は、共分散特性であり、前記少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性は、前記少なくとも2つの出力オーディオ信号のターゲット共分散特性である、請求項17乃至19のいずれか一項に記載の方法。
【請求項21】
前記少なくとも1つの第2制御パラメータを決定すること、または、前記少なくとも1つの第1制御パラメータを修正することは、
前記少なくとも2つの出力オーディオ信号の前記共分散特性および前記ターゲット共分散特性に基づいて、残差共分散特性を決定することと、
前記少なくとも1つのオーディオ信号に関連付けられた前記空間メタデータに基づいて、前記残差共分散特性を処理することと、
のうちの少なくとも1つを備える、請求項17乃至20のいずれかに記載の方法。
【請求項22】
前記少なくとも1つのオーディオ信号に関連付けられた前記空間メタデータに基づいて、前記残差共分散特性を処理することは、
前記少なくとも1つのオーディオ信号が高指向性であることを前記空間メタデータが示す場合、前記残差共分散特性を減衰させることと、
前記少なくとも1つのオーディオ信号が完全にアンビエントであることを前記空間メタデータが示す場合、前記残差共分散特性を未処理で通過させることと、
を含む、請求項21に記載の方法。
【請求項23】
前記少なくとも2つの出力オーディオ信号の前記ターゲット共分散特性を決定することは、
前記共分散特性に基づいて、全エネルギー推定値を生成することと、
前記少なくとも1つのオーディオ信号に関連付けられた前記メタデータから、方向パラメータに基づいて、頭部関連伝達関数データを決定することと、
前記頭部関連伝達関数データ、および、前記全エネルギー推定値にさらに基づいて、前記少なくとも2つの出力オーディオ信号の前記ターゲット共分散特性を決定することと、
を含む、請求項20に記載の方法。
【請求項24】
空間オーディオ信号を受信することであって、該空間オーディオ信号は、少なくとも1つのオーディオ信号、および、該少なくとも1つのオーディオ信号に関連する空間メタデータを含む、受信することと、
前記少なくとも1つのオーディオ信号に基づいて、少なくとも1つの非相関オーディオ信号を生成することと、
空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の前記少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定することであって、前記少なくとも1つの制御パラメータは、前記少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性、ならびに、前記空間メタデータ、および、前記少なくとも1つのオーディオ信号に基づいて決定される少なくとも1つの特性のうちの少なくとも1つにすくなくとも基づいている、決定することと、
前記空間オーディオ信号、および、少なくとも1つの非相関オーディオ信号に基づいて、空間オーディオ再生のための前記少なくとも2つの出力オーディオ信号を生成することであって、少なくとも2つの出力オーディオ信号内の前記少なくとも1つの非相関オーディオ信号の前記量は、前記少なくとも1つの制御パラメータに基づいて制御される、生成することと、
を装置に少なくとも実行させるための命令を含むコンピュータプログラム、または、プログラム命令を含むコンピュータ可読媒体。
【請求項25】
空間オーディオ信号を受信することであって、該空間オーディオ信号は、少なくとも1つのオーディオ信号、および、該少なくとも1つのオーディオ信号に関連する空間メタデータを含む、受信することと、
前記少なくとも1つのオーディオ信号に基づいて、少なくとも1つの非相関オーディオ信号を生成することと、
空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の前記少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定することであって、前記少なくとも1つの制御パラメータは、前記少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性、ならびに、前記空間メタデータ、および、前記少なくとも1つのオーディオ信号に基づいて決定される少なくとも1つの特性のうちの少なくとも1つに基づいている、決定することと、
前記空間オーディオ信号、および、少なくとも1つの非相関オーディオ信号に基づいて、空間オーディオ再生のための前記少なくとも2つの出力オーディオ信号を生成することであって、少なくとも2つの出力オーディオ信号内の前記少なくとも1つの非相関オーディオ信号の前記量は、前記少なくとも1つの制御パラメータに基づいて制御される、生成することと、
を装置に少なくとも実行させるためのプログラム命令を含む、非一時的なコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、空間オーディオ表現およびレンダリングのための装置および方法に関するものであるが、オーディオデコーダのためのオーディオ表現に限定されるものではない。
【背景技術】
【0002】
イマーシブオーディオコーデックは、低ビットレート動作から透過性まで、さまざまな動作点をサポートするように実装されている。このようなコーデックの例として、イマーシブ音声オーディオサービス(IVAS)コーデックがあり、これは、3GPP(登録商標)4G/5Gネットワークなどの通信ネットワークでの使用に適しており、仮想現実(VR)のイマーシブ音声やオーディオなどのイマーシブサービスでの使用も想定されている。このオーディオコーデックは、音声、音楽、一般的なオーディオのエンコード、デコード、レンダリングに対応することが期待されている。さらに、音場と音源の空間情報を含むチャンネルベースのオーディオとシーンベースのオーディオ入力をサポートすることが期待されている。また、会話型サービスを実現するために低遅延で動作し、様々な伝送条件下で高いエラーロバスト性をサポートすることも期待されているコーデックである。
【0003】
入力信号は、IVASエンコーダに、サポートされているいくつかのフォーマットのうちの1つで(そして、フォーマットのいくつかの許容される組み合わせで)提示することができる。例えば、モノラル音声信号(メタデータなし)は、拡張音声サービス(EVS)エンコーダを使用してエンコードすることができる。その他の入力フォーマットでは、IVASの新しいエンコーディングツールを利用することができる。IVASに提案されている入力フォーマットの1つは、メタデータ支援空間オーディオ(MASA)フォーマットであり、エンコーダは、例えば、モノラルとステレオのエンコーディングツールとメタデータエンコーディングツールとを組み合わせて、フォーマットの効率的な伝送に利用することができる。MASAは、空間オーディオ処理に適したパラメトリック空間オーディオフォーマットである。パラメトリック空間オーディオ処理は、音(または、音場)の空間的な様相をパラメータのセットを用いて記述するオーディオ信号処理の一分野である。例えば、マイクロフォンアレイからのパラメトリック空間オーディオキャプチャでは、マイクロフォンアレイ信号から、例えば、周波数帯域における直接-全体比または周囲-全体エネルギー比として表される、周波数帯域における音の方向、および、周波数帯域におけるキャプチャされた音の方向性部分と非方向性部分の相対エネルギーなどのパラメータのセットを推定することが、典型的かつ有効な選択である。これらのパラメータは、マイクロフォンアレイの位置においてキャプチャされた音の知覚的な空間特性をよく表すことが知られている。これらのパラメータは、バイノーラルヘッドフォン、ラウドスピーカー、または、アンビソニックスのような他のフォーマットに応じて、空間的な音の合成に利用することが可能である。
【0004】
例えば、2チャンネル(ステレオ)のオーディオ信号および空間メタデータが存在し得る。空間メタデータは、さらに、時間-周波数パラメータ間隔における音の到来方向を記述する方向インデックス、レベル/位相差、方向インデックスに対するエネルギー比を記述する直接対全体エネルギー比、拡散性、方向インデックスに対するエネルギーの広がりを記述する拡散コヒーレンスなどのコヒーレンス、周囲の方向に対する無方向性音のエネルギー比を記述する拡散対全体エネルギー比、周囲の方向に対する無方向性音のコヒーレンスを記述するサラウンドコヒーレンス、エネルギー比の合計が1であるという要件を満たすための残響(マイクノイズなど)のエネルギー比を記述する残響対全エネルギー比、方向指標から発生した音の距離を対数スケールで、メートルで記述する距離、マルチチャンネルのラウドスピーカー信号に関する共分散行列、または、これらの共分散行列に関するデータ、例えば、中心予測係数、1対2復号化係数(MPEGサラウンドなどで使用)の特定のデコーダを導く他のパラメータ、のようなパラメータを定義してもよい。これらのパラメータは、いずれも周波数帯域で決定することができる。
【0005】
パラメトリック空間オーディオ(すなわち、オーディオ信号(複数可)および関連する空間メタデータ、例えば、MASAストリーム)のバイノーラル(または、他の)出力へのレンダリングは、既知である。典型的な状態は、メタデータとともにストリームに2つのオーディオチャネル信号があるものである。メタデータにおいて時間-周波数間隔ごとに1または2(または、それ以上)の方向がある場合がある。
【0006】
Vilkamo,J.,Backstrom,T. and Kuntz,A.,2013. Optimized covariance domain framework for time-frequency processing of spatial audio. Journal of the Audio Engineering Society,61(6),pp.403-411は、入力信号の共分散行列を周波数帯で推定し、出力信号のターゲット共分散行列を空間メタデータに基づいて決定する、空間オーディオレンダリングに特に適した1つの方法を提示した。これらの行列に基づいて、オーディオ信号に適用したときに、所望のターゲット共分散行列特性を有する出力信号を生成する、周波数帯域において、最小二乗最適化混合行列が決定される。さらに、ターゲット共分散行列が、取得可能な入力信号よりも多くの非干渉性の信号成分を必要とする場合、入力信号をさらに非相関処理し、「残差信号」を得ることができ、残差信号は、出力信号に混合すると、出力において必要な非干渉性を提供する。
【発明の概要】
【0007】
第1の態様によれば、空間オーディオ信号を受信し、空間オーディオ信号は、少なくとも1つのオーディオ信号、および、少なくとも1つのオーディオ信号に関連付けられた空間メタデータを含み、少なくとも1つのオーディオ信号に基づいて、少なくとも1つの非相関オーディオ信号を生成し、空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定し、少なくとも1つの制御パラメータは、少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性、及び、空間メタデータと少なくとも1つのオーディオ信号に基づいて決定される少なくとも1つの特性とのうちの少なくとも1つに少なくとも基づいており、空間オーディオ信号および少なくとも1つの非相関オーディオ信号に基づく空間オーディオ再生のための少なくとも2つの出力オーディオ信号を生成する、ように構成された手段を有する装置であって、少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量が、少なくとも1つの制御パラメータに基づいて制御される、装置が提供される。
【0008】
少なくとも1つの制御パラメータは、少なくとも1つの非相関オーディオ信号、または、非相関化されている少なくとも1つのオーディオ信号の少なくとも一方に適用される少なくとも1つの処理ゲインと、少なくとも1つの非相関オーディオ信号と少なくとも1つのオーディオ信号との混合を制御するように構成される少なくとも1つの混合行列と、少なくとも1つの混合行列および少なくとも1つの残差混合行列であって、少なくとも1つの混合行列および少なくとも1つの残差混合行列は、少なくとも1つの非相関オーディオ信号および少なくとも1つのオーディオ信号の混合を制御するように構成される、少なくとも1つの混合行列および少なくとも1つの残差混合行列と、少なくとも1つの混合行列、および/または、少なくとも1つの残差混合行列の生成を制御するように構成された少なくとも1つの共分散行列であって、少なくとも1つの混合行列、および/または、少なくとも1つの残差混合行列は、少なくとも1つの非相関オーディオ信号、および/または、少なくとも1つのオーディオ信号の混合を制御するように構成されている、共分散行列と、のうちの少なくとも1つを含んでもよい。
【0009】
空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定するように構成された手段は、少なくとも1つのオーディオ信号に基づいて、少なくとも1つの少なくとも1つの更なる特性を決定し、少なくとも2つの出力オーディオ信号の少なくとも1つの更なるターゲット特性を決定し、少なくとも1つのオーディオ信号に基づく少なくとも1つのさらなる特性と、少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性と、に基づいて、少なくとも1つの第1の制御パラメータを決定し、空間メタデータ、および、少なくとも1つのオーディオ信号に基づいて決定された少なくとも1つの特性のうちの少なくとも1つに基づいて、少なくとも1つの第2の制御パラメータを決定し、または、少なくとも1つの第1の制御パラメータを修正する、ようにさらに構成されてよい。
【0010】
空間オーディオ再生のための少なくとも2つの出力オーディオ信号を生成するように構成された手段は、少なくとも1つの第1の制御パラメータ、および、少なくとも1つの第2の制御パラメータまたは少なくとも1つの修正された第1の制御パラメータに基づいて、少なくとも1つのオーディオ信号および少なくとも1つの非相関オーディオ信号を混合するようにさらに構成されてもよい。
【0011】
本手段は、少なくとも2つの出力オーディオ信号を空間オーディオ再生のために出力するようにさらに構成されてもよい。
【0012】
本手段は、空間メタデータ内の少なくとも1つの直接対全エネルギー比パラメータに基づいて、少なくとも1つの第2制御パラメータ、または、修正された少なくとも1つの第1制御パラメータを決定するように構成されてもよい。
【0013】
少なくとも1つのオーディオ信号に基づく少なくとも1つのさらなる特性は、共分散であってもよく、少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性は、少なくとも2つの出力オーディオ信号のターゲット共分散であってよい。
【0014】
少なくとも1つの第2制御パラメータを決定する、または、少なくとも1つの第1制御パラメータを修正するように構成された手段は、少なくとも2つの出力オーディオ信号の共分散特性、および、ターゲット共分散特性に基づいて、残差共分散特性を決定し、少なくとも1つのオーディオ信号に関連付けられた空間メタデータに基づいて、残差共分散特性を処理する、ように構成されてよい。
【0015】
少なくとも1つのオーディオ信号に関連付けられた空間メタデータに基づいて残差共分散特性を処理するように構成された手段は、少なくとも1つのオーディオ信号が高指向性であることを空間メタデータが示す場合、残差共分散特性を減衰させ、少なくとも1つのオーディオ信号が完全にアンビエントであることを空間メタデータが示す場合、残差共分散特性を未処理で渡すように構成されてよい。
【0016】
少なくとも2つの出力オーディオ信号のターゲット共分散を決定するように構成された手段は、さらに、共分散特性に基づいて全エネルギー推定値を生成し、少なくとも1つのオーディオ信号に関連付けられたメタデータから方向パラメータに基づいて頭部関連伝達関数データを決定し、頭部関連伝達関数データおよび全エネルギー推定値にさらに基づいて、少なくとも2つの出力オーディオ信号のターゲット共分散特性を決定するように構成されてよい。
【0017】
本手段は、少なくとも1つのオーディオ信号に基づいて、少なくとも1つの特性を決定するように構成されてもよく、少なくとも1つの特性はオーディオタイプであり、空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定するように構成された手段は、さらに、オーディオタイプが決定済みオーディオタイプであるか否かを決定し、決定済みオーディオタイプであるオーディオタイプに基づいて、少なくとも1つの制御パラメータを決定する、ように構成されてよい。
【0018】
決定されたオーディオタイプは、音声であってよい。
【0019】
少なくとも1つのオーディオ信号は、エンコーダによって生成されたトランスポートオーディオ信号で構成されてよい。
【0020】
第2の態様によれば、空間オーディオ信号を受信することであって、空間オーディオ信号は、少なくとも1つのオーディオ信号、および、少なくとも1つのオーディオ信号に関連付けられた空間メタデータを含む、受信することと、少なくとも1つのオーディオ信号に基づいて、少なくとも1つの非相関オーディオ信号を生成することと、空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定することであって、少なくとも1つの制御パラメータが、少なくとも2つの出力オーディオ信号のさらなるターゲット特性と、空間メタデータ、および、少なくとも1つのオーディオ信号に基づいて決定される少なくとも1つのプロパティのうちの少なくとも1つに少なくとも基づく、決定することと、空間オーディオ信号および少なくとも1つの非相関オーディオ信号に基づいて、空間オーディオ再生のための少なくとも2つの出力オーディオ信号を生成することであって、少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量が、少なくとも1つの制御パラメータに基づいて制御される、生成することと、を含んでよい。
【0021】
少なくとも1つの制御パラメータは、少なくとも1つの非相関オーディオ信号または非相関化されている少なくとも1つのオーディオ信号の少なくとも1つに適用される少なくとも1つの処理ゲインと、少なくとも1つの非相関オーディオ信号および少なくとも1つのオーディオ信号の混合を制御するように構成される少なくとも1つの混合行列と、少なくとも1つの混合行列および少なくとも1つの残差混合行列であって、少なくとも1つの混合行列および少なくとも1つの残差混合行列は、少なくとも1つの非相関オーディオ信号および少なくとも1つのオーディオ信号の混合を制御するように構成される、少なくとも1つの混合行列および少なくとも1つの残差混合行列と、少なくとも1つの混合行列、および/または、少なくとも1つの残差混合行列の生成を制御するように構成された少なくとも1つの共分散行列であって、少なくとも1つの混合行列、および/または、少なくとも1つの残差混合行列は、少なくとも1つの非相関関連オーディオ信号、および/または、少なくとも1つのオーディオ信号の混合を制御するように構成されている、共分散行列と、のうちの少なくとも1つを含んでよい。
【0022】
空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定することは、さらに、少なくとも1つのオーディオ信号に基づいて少なくとも1つの少なくとも1つのさらなる特性を決定することと、少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性を決定することと、少なくとも1つのオーディオ信号に基づく少なくとも1つのさらなる特性、および、少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性に基づいて、少なくとも1つの第1制御パラメータを決定することと、空間メタデータ、および、少なくとも1つのオーディオ信号に基づいて決定された少なくとも1つのプロパティのうちの少なくとも1つに基づいて、少なくとも1つの第2制御パラメータを決定し、または、少なくとも1つの第1制御パラメータを修正することと、を含んでよい。
【0023】
空間オーディオ再生のための少なくとも2つの出力オーディオ信号を生成することは、少なくとも1つの第1制御パラメータ、および、少なくとも1つの第2制御パラメータ、または、少なくとも1つの修正された第1制御パラメータに基づいて、少なくとも1つのオーディオ信号および少なくとも1つの非相関オーディオ信号を混合することをさらに含んでよい。
【0024】
本方法は、空間オーディオ再生のための少なくとも2つの出力オーディオ信号を出力することをさらに含んでよい。
【0025】
本方法は、空間メタデータ内の少なくとも1つの直接対全エネルギー比パラメータに基づいて、少なくとも1つの第2制御パラメータ、または、修正された少なくとも1つの第1制御パラメータを決定することをさらに含んでよい。
【0026】
少なくとも1つのオーディオ信号に基づく少なくとも1つのさらなる特性は、共分散特性であってよく、少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性は、少なくとも2つの出力オーディオ信号のターゲット共分散特性であってよい。
【0027】
少なくとも1つの第2制御パラメータを決定すること、または、少なくとも1つの第1制御パラメータを変更することは、少なくとも2つの出力オーディオ信号の共分散特性およびターゲット共分散特性に基づいて、残差共分散特性を決定することと、少なくとも1つのオーディオ信号に関連する空間メタデータに基づいて残差共分散特性を処理することと、を含んでよい。
【0028】
少なくとも1つのオーディオ信号に関連付けられた空間メタデータに基づいて残差共分散特性を処理することは、少なくとも1つのオーディオ信号が高指向性であることを空間メタデータが示す場合、残差共分散特性を減衰させることと、少なくとも1つのオーディオ信号が完全にアンビエントであることを空間メタデータが示す場合、残差共分散特性を未処理で通過させることと、を含んでよい。
【0029】
少なくとも2つの出力音声信号のターゲット共分散プロパティを決定することは、共分散特性に基づいて、全エネルギー推定値を生成することと、少なくとも1つのオーディオ信号に関連するメタデータから方向パラメータに基づいて頭部関連伝達関数データを決定することと、頭部関連伝達関数データおよび全エネルギー推定値に基づいて、少なくとも2つの出力オーディオ信号のターゲット共分散特性をさらに決定することと、をさらに含んでよい。
【0030】
この方法は、少なくとも1つのオーディオ信号に基づいて、少なくとも1つの特性を決定することをさらに含み、少なくとも1つの特性はオーディオタイプであり、空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定することとは、オーディオタイプが決定されたオーディオタイプであるか否かを決定することと、オーディオタイプが決定されたオーディオタイプであることに基づいて、少なくとも1つの制御パラメータを決定することと、をさらに備えてよい。
【0031】
決定されたオーディオの種類は、音声であってよい。
【0032】
少なくとも1つのオーディオ信号は、エンコーダによって生成されたトランスポートオーディオ信号を含んでよい。
【0033】
第3の態様によれば、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備える装置であって、少なくとも1つのメモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサによって、装置に少なくとも、空間オーディオ信号を受信することであって、空間オーディオ信号は、少なくとも1つのオーディオ信号、および、少なくとも1つのオーディオ信号に関連付けられた空間メタデータを含む、受信することと、少なくとも1つのオーディオ信号に基づいて、少なくとも1つの非相関オーディオ信号を生成することと、空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定することであって、少なくとも1つの制御パラメータは、少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性、および、空間メタデータと少なくとも1つのオーディオ信号に基づいて決定される少なくとも1つのプロパティのうちの少なくとも1つに基づく、決定することと、空間オーディオ信号と少なくとも1つの非相関オーディオ信号に基づいて、空間オーディオ再生のための少なくとも2つの出力オーディオ信号を生成することであって、少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量は、少なくとも1つの制御パラメータに基づいて制御される、生成することと、を実行するように構成される、装置が提供される。
【0034】
少なくとも1つの制御パラメータは、少なくとも1つの非相関オーディオ信号、または、非相関化されている少なくとも1つのオーディオ信号の少なくとも1つに適用される少なくとも1つの処理ゲインと、少なくとも1つの非相関オーディオ信号および少なくとも1つのオーディオ信号の混合を制御するように構成される少なくとも1つの混合行列と、少なくとも1つの混合行列および少なくとも1つの残差混合行列であって、少なくとも1つの非相関オーディオ信号および少なくとも1つのオーディオ信号の混合を制御するように構成された少なくとも1つの混合行列および少なくとも1つの残差混合行列と、少なくとも1つの混合行列、および/または、少なくとも1つの残差混合行列の生成を制御するように構成された少なくとも1つの共分散行列であって、少なくとも1つの混合行列、および/または、少なくとも1つの残差混合行列は、少なくとも1つの非相関オーディオ信号、および/または、少なくとも1つのオーディオ信号の混合を制御するように構成されている、共分散行列と、のうちの少なくとも1つを備えてよい。
【0035】
空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定させる装置は、さらに、少なくとも1つのオーディオ信号に基づいて、少なくとも1つの少なくとも1つのさらなる特性を決定することと、少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性を決定することと、少なくとも1つのオーディオ信号に基づく少なくとも1つのさらなる特性、および、少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性に基づいて、少なくとも1つの第1制御パラメータを決定することと、空間メタデータ、および、少なくとも1つのオーディオ信号に基づいて決定された少なくとも1つのプロパティのうちの少なくとも1つに基づいて、少なくとも1つの第2制御パラメータを決定し、または、少なくとも1つの第1制御パラメータを修正することと、を実行させてよい。
【0036】
空間オーディオ再生のための少なくとも2つの出力オーディオ信号を生成させられる装置は、少なくとも1つの第1制御パラメータ、および、少なくとも1つの第2制御パラメータまたは少なくとも1つの修正された第1制御パラメータに基づいて、少なくとも1つのオーディオ信号および少なくとも1つの非相関オーディオ信号を混合するようにさらにされてよい。
【0037】
装置は、空間オーディオ再生のための少なくとも2つの出力オーディオ信号を出力するようにさらにされてよい。
【0038】
装置は、空間メタデータ内の少なくとも1つの直接対全エネルギー比パラメータに基づいて、少なくとも1つの第2制御パラメータまたは修正された少なくとも1つの第1制御パラメータを決定するようにさらにされてよい。
【0039】
少なくとも1つのオーディオ信号に基づく少なくとも1つのさらなる特性は、共分散特性であってよく、少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性は、少なくとも2つの出力オーディオ信号のターゲット共分散特性であってよい。
【0040】
少なくとも1つの第2制御パラメータを決定する、または、少なくとも1つの第1制御パラメータを修正するようにされた装置は、少なくとも1つの第1制御パラメータに基づく残差共分散特性、および、少なくとも2つの出力音声信号の目標共分散特性を決定し、少なくとも1つのオーディオ信号に関連付けられた空間メタデータに基づいて、残差共分散特性を処理する、ようにされてもよい。
【0041】
少なくとも1つのオーディオ信号に関連付けられた空間メタデータに基づいて残差共分散特性を処理するようにされた装置は、少なくとも1つのオーディオ信号が高指向性であることを空間メタデータが示す場合、残差共分散特性を減衰させ、少なくとも1つのオーディオ信号が完全にアンビエントであることを空間メタデータが示す場合、残差共分散特性を未処理で通過させる、ようにされてもよい。
【0042】
少なくとも2つの出力オーディオ信号のターゲット共分散特性を決定するようにされた装置は、さらに、共分散特性に基づいて全エネルギー推定値を生成し、少なくとも1つのオーディオ信号に関連付けられたメタデータから方向パラメータに基づいて頭部関連伝達関数データを決定し、頭部関連伝達関数データおよび全エネルギー推定値に基づいて、少なくとも2つの出力オーディオ信号のターゲット共分散特性をさらに決定する、ようにされてよい。
【0043】
装置は、少なくとも1つのオーディオ信号に基づいて少なくとも1つの特性を決定するようにさらにされてよく、少なくとも1つの特性はオーディオタイプであり、空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定するようにされた装置は、さらに、オーディオタイプが決定済みオーディオタイプであるか否かを決定し、オーディオタイプが決定されたオーディオタイプであることに基づいて、少なくとも1つの制御パラメータを決定する、ようにされてよい。
【0044】
決定されたオーディオタイプは、音声であってよい。
【0045】
少なくとも1つのオーディオ信号は、エンコーダによって生成されたトランスポートオーディオ信号を含んでよい。
【0046】
第4の態様によれば、空間オーディオ信号を受信するように構成された受信回路であって、空間オーディオ信号は、少なくとも1つのオーディオ信号、および、少なくとも1つのオーディオ信号に関連付けられた空間メタデータを含む、受信回路と、少なくとも1つのオーディオ信号に基づいて、少なくとも1つの非相関オーディオ信号を生成するように構成された生成回路と、空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定するように構成された決定回路であって、少なくとも1つの制御パラメータは、少なくとも、少なくとも2つの出力オーディオ信号のさらなるターゲット特性、および、空間メタデータと少なくとも1つのオーディオ信号に基づく少なくとも1つの特性のうちの少なくとも1つに少なくとも基づく、決定回路と、空間オーディオ信号と少なくとも1つの非相関オーディオ信号に基づいて、空間オーディオ再生のための少なくとも2つの出力オーディオ信号を生成するように構成された生成回路であって、少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量が、少なくとも1つの制御パラメータに基づいて制御される、生成回路と、を備える装置が提供される。
【0047】
第5の態様によれば、装置に少なくとも、空間オーディオ信号を受信することであって、空間オーディオ信号は、少なくとも1つのオーディオ信号、および、少なくとも1つのオーディオ信号に関連する空間メタデータを含む、受信することと、少なくとも1つのオーディオ信号に基づいて、少なくとも1つの非相関オーディオ信号を生成することと、空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定することとであって、少なくとも1つの制御パラメータは、少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性、ならびに、空間メタデータ、および、少なくとも1つのオーディオ信号に基づいて決定される少なくとも1つの特性のうちの少なくとも1つに少なくとも基づく、決定することと、空間オーディオ信号および少なくとも1つの非相関オーディオ信号に基づいて空間オーディオ再生のための少なくとも2つの出力オーディオ信号を生成することであって、少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量が、少なくとも1つの制御パラメータに基づいて制御される、生成することと、を実行させるための命令[または、プログラム命令を含むコンピュータ可読媒体]を含むコンピュータプログラムが提供される。
【0048】
第6の態様によれば、装置に、少なくとも、空間オーディオ信号を受信し、空間オーディオ信号は、少なくとも1つのオーディオ信号と、少なくとも1つのオーディオ信号に関連する空間メタデータとを含み、少なくとも1つのオーディオ信号に基づいて少なくとも1つの非相関オーディオ信号を生成し、空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定し、少なくとも1つの制御パラメータが、少なくとも2つの出力オーディオ信号の少なくとも1つのターゲットさらなる特性と少なくとも1つに基づく。空間メタデータと、少なくとも1つのオーディオ信号に基づいて決定される少なくとも1つのプロパティと、空間オーディオ信号と少なくとも1つの非相関オーディオ信号に基づいて空間オーディオ再生のための少なくとも2つの出力オーディオ信号を生成し、少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量が、少なくとも1つの制御パラメータに基づいて制御される、ことを実行させるためのプログラム命令を含む非一時的なコンピュータ可読媒体が提供される。
【0049】
第7の態様によれば、空間オーディオ信号を受信する手段であって、空間オーディオ信号は、少なくとも1つのオーディオ信号、および、少なくとも1つのオーディオ信号に関連付けられた空間メタデータを含む、手段と、少なくとも1つのオーディオ信号に基づいて少なくとも1つの非相関オーディオ信号を生成する手段と、空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定する手段であって、少なくとも1つの制御パラメータは、少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性、ならびに、空間メタデータ、および、少なくとも1つのオーディオ信号に基づいて決定される少なくとも1つの特性のうちの少なくとも1つに少なくとも基づく、手段と、空間オーディオ信号、および、少なくとも1つの非相関オーディオ信号に基づいて空間オーディオ再生のための少なくとも2つの出力オーディオ信号を生成する手段であって、少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量は、少なくとも1つの制御パラメータに基づいて制御される、手段と、を備える装置が提供される。
【0050】
第8の態様によれば、装置に少なくとも、空間オーディオ信号を受信することであって、空間オーディオ信号は、少なくとも1つのオーディオ信号、および、少なくとも1つのオーディオ信号に関連付けられた空間メタデータを含む、受信することと、少なくとも1つのオーディオ信号に基づいて、少なくとも1つの非相関オーディオ信号を生成することと、空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定することであって、少なくとも1つの制御パラメータは、少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性、ならびに、空間メタデータ、および、少なくとも1つのオーディオ信号に基づいて決定される少なくとも1つの特性のうちの少なくとも1つに少なくとも基づく、決定することと、空間オーディオ信号と少なくとも1つの非相関オーディオ信号に基づいて、空間オーディオ再生のための少なくとも2つの出力オーディオ信号を生成することであって、少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量は、少なくとも1つの制御パラメータに基づいて制御される、生成することと、を実行させるためのプログラム命令を含むコンピュータ可読媒体が提供される。
【0051】
上記の方法の作用を実行するための手段を含む装置。
【0052】
上記に記載の方法の作用を実行するように構成された装置。
【0053】
上記の方法をコンピュータに実行させるためのプログラム命令を含む、コンピュータプログラム。
【0054】
媒体に格納されたコンピュータプログラム製品は、装置に本明細書に記載の方法を実行させてよい。
【0055】
電子機器は、本明細書に記載されるような装置を含んでよい。
【0056】
チップセットは、本明細書で説明するような装置を含んでよい。
【0057】
本願発明の実施形態は、従来技術に関連する問題点を解決することを目的とする。
【図面の簡単な説明】
【0058】
本願のより良い理解のために、次に、添付の図面を例として参照することにする。
【
図1】
図1は、いくつかの実施形態を実施するのに適した装置のシステムを概略的に示す。
【
図2】
図2は、いくつかの実施形態による例示的な装置の動作のフロー図である。
【
図3】
図3は、いくつかの実施形態による
図1に示すような例示的な合成プロセッサを概略的に示す。
【
図4】
図4は、いくつかの実施形態による
図3に示すような例示的な合成プロセッサの動作のフロー図である。
【
図5】
図5は、いくつかの実施形態による
図3に示すような例示的な空間合成プロセッサを概略的に示す図である。
【
図6】
図6は、いくつかの実施形態による
図5に示すような例示的な空間シンセサイザの動作のフロー図である。
【
図7】
図7は、以前の図に示された装置を実装するのに適した例示的な装置を示す図である。
【発明を実施するための形態】
【0059】
上述したようなオーディオ信号のレンダリングは、ターゲット共分散行列と一致する共分散行列を有する信号を生成し、したがって、空間知覚がターゲットと一致するため、良好な品質のオーディオ出力を生成し得る。さらに、非相関エネルギーは、それが必要なとき(すなわち、入力信号の混合によって必要な非干渉性が得られないとき)に追加されてよい。したがって、非相関によるアーティファクト(付加された残響の知覚等)は最小化される。
【0060】
本書で使用するオーディオ信号という用語は、単一のオーディオチャンネルを指す場合もあれば、2つ以上のチャンネルを持つオーディオ信号を指す場合もある。
【0061】
多くの状況、例えば、レンダリングされるオーディオ信号が主に残響/アンビエンスを含む場合、(最小化された量の)非相関による悪影響は無視できるかもしれない。しかしながら、非相関を最小化しても、非相関の量が音質を劣化させる状況も存在する。すなわち、非相関は、特に、話し声などの特定の音の知覚に影響を与え、残響がありすぎる音を作り出すことが知られている。したがって、異なる方向に2つの音源があるという状況であれば、合成すべきインコヒーレンスは、専ら残響/アンビエンスに関するものではなく、複数の音源をレンダリングするためのインコヒーレンスを生成することである可能性がある。このような場合、最小二乗最適化法を実施しても、非相関アーティファクトが聴き取れるようになる場合がある。非相関エネルギーの使用を無効にすることで、非相関エネルギーの使いすぎを回避することは可能かもしれない。しかしながら、出力信号が相互にコヒーレントで、アンビエントまたは残響のサウンドシーンを忠実に表現できないため、非相関エネルギーの使用を無効にすると、空間および包囲感が著しく減少する知覚が生じる可能性がある。
【0062】
本明細書の実施形態内で議論される概念は、残響が多すぎるか、または、広がりと包囲感が欠けているようにレンダリングされ、したがってオーディオ品質を悪化させる、複雑なサウンドシーンのあらゆる問題を克服することができるかもしれない。
【0063】
したがって、実施形態は、パラメトリック空間サウンドレンダリングに関する。空間パラメータ推定は、マイクロフォンアレイ信号に基づいてよい。方向及び比率パラメータを含む空間メタデータを決定する一例は、Pulkki,V.,2007 Spatial sound reproduction with directional audio coding. Journal of the Audio Engineering Society,55(6),pp.503-516で議論されるような方向オーディオコーディング(DirAC)であり、一次キャプチャ信号を入力として使用する。DirACの変形は、高次DirACであり、多くの方向性を同時に推定することができる、Politis,A.,Vilkamo,J. and Pulkki,V.,2015,“Sector-based parametric sound field reproduction in the spherical harmonic domain”,IEEE Journal of Selected Topics in Signal Processing,9(5),pp.852-866は、多数の方向推定を提供する。多くのさらなるパラメータ推定方法が存在し、そのうちのいずれかが、いくつかの実施形態において実装されてもよく、例えば、英国公開特許出願GB1619573.7は、携帯電話等の水平に平らなデバイスから360/3D空間メタデータを取得するための適切な手段を説明している。既知の空間メタデータ決定技術のいずれかを、いくつかの実施形態に適用することができる。
【0064】
本明細書で議論される実施形態は、例えば、空間オーディオデコーダにおけるパラメトリックオーディオ信号(1つ以上のオーディオ信号及び空間メタデータを含む)のレンダリングに関するものである。実施形態は、入力信号特性の測定を使用して、レンダリングを制御し、所望の空間出力を達成するために必要な非相関の量を最適化する、従来のレンダリング技術を改善するように構成されてよい。実施形態は、さらに、残りの非相関が、知覚されるオーディオ品質に有害な影響を与えると予想される、それらのサウンドシーンのレンダリング時に非相関音を減衰し、それ以外の場合は、適切な空間を維持するために非相関を維持するように、適用される非相関音の量を制御する手段を提供する。非相関性の低減は、いくつかの実施形態において、空間メタデータを監視することに基づいてもよく、直接対全体エネルギー比パラメータに基づいて、適用される非相関音エネルギーを減衰する程度が決定される。
【0065】
本明細書の実施形態で議論される概念は、オーディオ信号の空間オーディオ再生と、オーディオ信号を空間的にレンダリングする方法の情報を含む関連する空間メタデータに関し、残響/周囲音に対する正しい広さ及びアンビエンス維持しながら、(付加された残響などの)気を散らす非相関アーティファクトなしで、直接音源(複数同時の直接音源でさえ)をレンダリングできる実施形態が提供されている。さらにこれらの実施形態は、入力信号の入力共分散特性、および、出力信号のターゲット共分散特性を決定し、ターゲット共分散特性に到達するために必要な非相関エネルギー量を決定し、空間メタデータに基づいて非相関エネルギー量の制限を決定し、入力オーディオ信号を非相関化し、入力オーディオ信号、非相関入力オーディオ信号、非相関性の決定した制限、および、共分散特性に基づいて、空間出力信号をレンダリングするように構成されてよい。
【0066】
いくつかの実施形態では、決定された共分散特性は、入力信号の共分散行列であり、ターゲット共分散特性は、(オーディオ信号および関連する空間メタデータに基いて導出される)ターゲット共分散行列である。決定された共分散特性に基づいて、混合行列が導出されてよい。さらに、いくつかの実施形態は、ターゲット共分散行列の非干渉性特性を得るために必要な非相関エネルギーの量を決定するように構成されてよい。次に、いくつかの実施形態は、空間メタデータに基づいて、非相関エネルギーの量を制限するように構成されてよい。例えば、空間メタデータが直接対全エネルギー比を含む場合、非相関エネルギーの最大量は、係数1-sum(直接対全エネルギー比)を使用して制限されてよい。最後に、いくつかの実施形態では、空間オーディオ信号(例えば、バイノーラルオーディオ信号)は、入力オーディオ信号、非相関入力オーディオ信号、制限情報、および、混合行列を使用してレンダリングされる。
【0067】
いくつかの実施形態では、直接音成分は、顕著な非相関化なしに、混合、および/または、(複素値)ゲイン処理を用いてほとんどレンダリングすることができ、したがって、非相関化アーティファクトは回避される。さらに、いくつかの実施形態では、アンビエント/残響成分は、必要なときに非相関化され、したがって、空間および包囲感が保持される。その結果、実施形態は、複数の直接音源があり、残響/アンビエントがある場合でも、非相関アーティファクトを回避し、なおかつ、空間及び周囲感を維持することによって、良好なオーディオ品質を提供するように構成され得る。
【0068】
本明細書で議論される実施形態は、残響の広さの知覚が、リスナーに提供される聴覚間相関に関連するという知識で設計される。例えば、Borss,C. and Martin,R.,2009,February,“An improved parametric model for perception-based design of virtual acoustics”, In Audio Engineering Society 35th International Conferenceは、バイノーラル残響(これは一般にアンビエンスの例である)を生成する場合、リスナーが自然に広い知覚を生成するには、中高域周波数で耳間相互相関が低いか、ゼロでなければならないと特定したものである。換言すれば、左右の耳の信号が適切な程度に非干渉的であることが必要である。パラメトリック空間オーディオ再生では、入力信号がそのような非干渉性を持たない場合があるため、非干渉性を生成するための非相関化処理を行い、その結果、適切な広さ感を得ることができる。
【0069】
さらに実施形態は、非相関化が、異なる音に、異なる影響を与えるという知識で設計されている。例えば、Vilkamo,J. and Pulkki,V.,201,“Minimization of decorrelator artifacts in directional audio coding by covariance domain rendering”,Journal of the Audio Engineering Society,61(9),pp.637-646には、空間音をレンダリングする2種類の手段を含むリスニングテストが示されているが、ここでは第1の手段がVilkamo,J.,Backstrom,T. and Kuntz,A.,2013,“Optimized covariance domain framework for time-frequency processing of spatial audio”,Journal of the Audio Engineering Society,61(6),pp.403-411において先に規定されたものであり、第2の方法は、適用した非相関音のエネルギー量を最適化しない従来の方法であった。これらの方法の効果的な違いは、主に非相関音のエネルギー量の相対的な違いであり、前者は入力の既存の独立した信号をより効果的に利用する方法である。リスニングテストでは、異なるサウンドシーンに対して、2つの方法の知覚品質の結果を提供した。この結果から、音声の品質は、非相関化量の増加によって大きく劣化することがわかる。一方、残響(あるいは、より一般的な複雑な背景雰囲気)は、うまく設定された非相関化手順によって影響を受けないことが知られており、なぜなら、そのような信号は、既に自然に非相関化されており、さらなる非相関化は、そのような音の知覚品質に対してほとんど悪影響を及ぼさないからである。
【0070】
したがって、実施形態は、非相関化(アーティファクト)と広さ(または、その欠如)の知覚との間の有益なバランスを導入するように構成されてもよい。実施形態は、これを実施するように構成されてよい。
【0071】
特に、非相関化による品質劣化が予想される音場は、非相関化の量を抑えて処理される。このような状況の例としては、2つの話し手がオーバーラップしている場合(または、話し手と他の音源がオーバーラップしている場合)である。このような状況において、本発明では、幅の知覚は一時的に低下するかもしれないが、非相関化アーティファクトを回避するという非常に大きな利益が提供される。
【0072】
非相関化による音質劣化が特に想定できない音は、適切な非相関化量で処理される。例えば、残響音などである。このような場面で適切な広がり感を得ることができる。
【0073】
したがって、本明細書で論じる実施形態は、先行技術ではこれらの目標のうちの1つしか達成できない場合に、良好なオーディオ品質と広さの維持を組み合わせた改善されたバランスを提供するように構成されている。
【0074】
いくつかの実施形態では、以下においてさらに詳細に説明するように、オーディオ処理装置は、空間オーディオ信号を受信するように構成される。空間オーディオ信号は、少なくとも1つのオーディオ信号と、少なくとも1つのオーディオ信号に関連付けられた空間メタデータと、を含んでよい。次に、オーディオ処理装置は、いくつかの実施形態において、少なくとも1つのオーディオ信号に関連する少なくとも1つの共分散特性を決定するように構成されてよい。
【0075】
ターゲット共分散特性(出力される空間オーディオ信号に関連するターゲット特性である)は、少なくとも空間メタデータに基づいて決定されてよい。いくつかの実施形態では、オーディオ処理装置は、その後、少なくとも1つの共分散特性およびターゲット共分散特性に基づいて、混合行列(または、他の適切な制御)を決定するようにさらに構成されてもよい。
【0076】
さらにオーディオ処理装置は、いくつかの実施形態において、少なくとも1つのオーディオ信号に基づいて、少なくとも1つの非相関オーディオ信号を生成するように構成することができる。残差共分散特性は、さらに、少なくとも1つの共分散特性、ターゲット共分散特性、および、混合行列に基づいて、オーディオ処理装置によって決定されてもよい。
【0077】
そして、オーディオ処理装置は、残差共分散特性を減衰させることにより、空間メタデータに基づく非相関エネルギーを減衰してよい(および、処理された残差共分散特性を生成してよい)。
【0078】
いくつかの実施形態では、処理された残差共分散特性、および、少なくとも1つの共分散特性を用いて、オーディオ処理装置によって残差混合行列が決定される。
【0079】
オーディオ処理装置は、さらに、少なくとも1つのオーディオ信号に対して、混合行列を適用し、かつ、少なくとも1つの非相関オーディオ信号に対して、残差混合行列を適用することによって、空間オーディオ再生のための少なくとも2つの出力信号を生成するように構成されてよい。
【0080】
換言すれば、いくつかの実施形態では、空間オーディオ信号は、少なくとも1つのオーディオ信号、および、少なくとも1つのオーディオ信号に関連する空間メタデータを含んでよい。少なくとも1つのオーディオ信号に基づく、少なくとも1つの非相関オーディオ信号も生成される。次いで、少なくとも1つの制御パラメータが決定されてよく、少なくとも1つの制御パラメータは、空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量を制御するように構成される。少なくとも1つの制御パラメータは、いくつかの実施形態において、少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性(例えば、少なくとも2つの出力オーディオ信号のターゲット共分散特性)、ならびに、空間メタデータ、および、少なくとも1つのオーディオ信号に基づいて決定される少なくとも1つの特性(例えば、オーディオタイプ)のうちの少なくとも1つに基づいて決定され得る。
【0081】
そして、空間オーディオ再生のための少なくとも2つの出力信号は、空間オーディオ信号、および、少なくとも1つの非相関オーディオ信号に基づいて生成されてよく、少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量は、少なくとも1つの制御パラメータに基づいて制御される。
【0082】
まず、
図1に示すようなキャプチャ(または、エンコーダ/アナライザ)および、再生(または、デコーダ/シンセサイザ)装置またはシステムの一例に関して、実施形態を説明する。
【0083】
システム199は、キャプチャ部(エンコーダ/アナライザ)101と、再生(デコーダ/シンセサイザ)部105と、を備えていることが示されている。
【0084】
いくつかの実施形態におけるキャプチャ部101は、入力オーディオ信号110を受信するように構成されたオーディオ信号入力を備える。入力オーディオ信号は、任意の適切なソース、例えば、携帯電話に取り付けられた2つ以上のマイクロフォン、他のマイクロフォンアレイ、例えば、BフォーマットマイクロフォンまたはEigenmike、アンビソニック信号、例えば、1次アンビソニック(FOA)、高次アンビソニック(HOA)、ラウドスピーカーサラウンドミックス、および/または、オブジェクトからであってよい。入力オーディオ信号110は、解析プロセッサ111およびトランスポート信号発生器113に提供されてよい。
【0085】
キャプチャ部101は、解析プロセッサ111を含んでよい。解析プロセッサ111は、適切なメタデータ112をもたらす入力オーディオ信号に対して、空間分析を実行するように構成される。したがって、解析プロセッサ111の目的は、周波数帯域の空間メタデータを推定することである。前述の入力タイプのすべてについて、適切な空間メタデータ、たとえば、周波数帯域における方向および直接対全エネルギー比(または、拡散性、すなわち、周囲対全体比などの同様のパラメータ)を生成する既知の方法が存在する。これらの方法は本明細書では詳述しないが、いくつかの例は、入力信号に対して適切な時間周波数変換を行い、入力が携帯電話マイクロフォンアレイである場合には周波数帯域で、マイクロフォン間相関を最大化するマイクロフォンペア間の遅延値を推定し、その遅延に対応する方向値を策定し(英国特許出願番号1619573.7、および、PCT特許出願番号PCT/FI2017/050778に記載)、相関値に基づいて比率パラメータを策定することを含んでよい。
【0086】
メタデータは様々な形式があり、空間メタデータと他のメタデータを含むことができる。空間メタデータの典型的なパラメータ化は、各周波数帯域における1つの方向パラメータDOA(k,n)、および、各周波数帯域における関連する直接対全エネルギー比r(k,n)であり、kは周波数帯インデックス、nは時間フレームインデックスである。方向および比率を決定または推定することは、オーディオ信号が取得される装置または実装に依存する。例えば、メタデータは、英国特許出願番号1619573.7およびPCT特許出願番号PCT/FI2017/050778に記載される方法を使用する空間オーディオキャプチャ(SPAC)を使用して取得または推定され得る。換言すれば、この特定の文脈において、空間オーディオパラメータは、音場を特徴付けることを目的とするパラメータを含む。
【0087】
いくつかの実施形態における空間メタデータは、オーディオ信号を空間出力、例えば、バイノーラル出力、サラウンドラウドスピーカー出力、クロストークキャンセルステレオ出力、または、アンビソニック出力に、レンダリングするための情報を含んでよい。例えば、いくつかの実施形態では、空間メタデータは、
ラウドスピーカーレベル情報、
ラウドスピーカー間相関情報、
拡散コヒーレント音の量に関する情報、
サラウンドコヒーレント音の量に関する情報、
のいずれか(および/または、他の任意の適切なメタデータ)をさらに含んでよい。
【0088】
いくつかの実施形態では、生成されるパラメータは、周波数帯域ごとに異なってもよい。したがって、例えば、帯域Xでは全てのパラメータが生成され送信されるが、帯域Yではパラメータのうちの1つだけが生成され送信され、さらに、帯域Zではパラメータが生成されず送信されない。実際の例としては、最高周波数帯など一部の周波数帯では、知覚的な理由からパラメータの一部が必要ない場合がある。
【0089】
入力が、FOA信号、または、Bフォーマットのマイクロフォンである場合、解析プロセッサ111は、方向パラメータが得られる強度ベクトルなどのパラメータを決定し、強度ベクトルの長さを全体の音場エネルギー推定値と比較して、比率パラメータを決定するように構成することが可能である。この方法は、文献上、方向性オーディオコーディング(DirAC)として知られている。
【0090】
入力がHOA信号である場合、解析プロセッサ111は、信号のFOAサブセットを取って上記の方法を利用してもよいし、HOA信号を複数のセクタに分割して、そのそれぞれで上記の方法を利用してもよい。このセクタベースの方法は、文献上、高次DirAC(HO-DirAC)として知られている。この場合、周波数帯ごとに複数の方向パラメータが同時に存在することになる。
【0091】
入力が、ラウドスピーカーサラウンドミックス、および/または、オブジェクトである場合、解析プロセッサ111は、(球面調和エンコーディングゲインの使用によって)信号をFOA信号(複数可)に変換し、上記のように、方向および比率パラメータを分析するように構成されてよい。
【0092】
このように、解析プロセッサ111の出力は、周波数帯域で決定された空間メタデータである。空間メタデータは、周波数帯域における方向及び比率を含んでよいが、先に列挙したメタデータタイプのいずれかを有してもよい。空間メタデータは、時間とともに、および、周波数とともに変化し得る。
【0093】
いくつかの実施形態では、空間解析は、システム199の外部で実施されてよい。例えば、いくつかの実施形態では、オーディオ信号に関連する空間メタデータは、別個のビットストリームとして、エンコーダに提供されてよい。いくつかの実施形態では、空間メタデータは、空間(方向)インデックス値のセットとして、提供されてもよい。
【0094】
キャプチャ部101は、トランスポート信号発生器113を含んでよい。トランスポート信号発生器113は、入力信号を受信し、適切なトランスポートオーディオ信号114を生成するように構成される。トランスポートオーディオ信号は、ステレオまたはモノラルオーディオ信号であってよい。トランスポートオーディオ信号114の生成は、以下にまとめるような既知の方法を用いて実施することができる。
【0095】
入力が携帯電話マイクロフォンアレイ音声信号の場合、トランスポート信号発生器113は、左右のマイクロフォンペアを選択し、信号ペアに自動利得制御、マイクロフォンノイズ除去、風雑音除去、等化などの適切な処理を施すように構成されてよい。
【0096】
なお、入力がFOA/HOA信号やBフォーマットマイクロフォンである場合、トランスポート信号発生器113は、対向する2つのカーディオイド信号など、左右方向に向かう指向性ビーム信号を形成するように構成されてよい。
【0097】
入力がラウドスピーカーサラウンドミックス、および/または、オブジェクトである場合、トランスポート信号発生器113は、左側チャンネルを左ダウンミックスチャンネルに結合し、右側も同様に結合し、センターチャンネルを適当な利得で両方のトランスポートチャンネルに付加するダウンミックス信号を生成するように構成されてもよい。
【0098】
いくつかの実施形態では、入力オーディオ信号は、トランスポート信号発生器113をバイパスする。例えば、分析および合成が、中間エンコーディングなしで、単一の処理ステップで、同じ装置において行われるようないくつかの状況においてである。トランスポートチャネルの数は、また、(実施例で議論したような1つまたは2つのチャネルではなく)任意の適切な数とすることができる。
【0099】
いくつかの実施形態では、キャプチャ部101は、エンコーダ/マルチプレクサ115を具備してよい。エンコーダ/マルチプレクサ115は、トランスポートオーディオ信号114およびメタデータ112を受信するように構成され得る。エンコーダ/マルチプレクサ115は、さらに、メタデータ情報およびトランスポートオーディオ信号の符号化または圧縮された形式を生成するように構成されてもよい。いくつかの実施形態では、エンコーダ/マルチプレクサ115は、さらに、送信もしくは保存の前に符号化されたオーディオ信号内にメタデータをインターリーブし、単一のデータストリーム116へ多重化し、または、埋め込んでもよい。多重化は、任意の適切なスキームを使用して実装されてもよい。
【0100】
例えば、エンコーダ/マルチプレクサ115は、IVASエンコーダ、または、他の任意の適切なエンコーダとして実装され得る。したがって、エンコーダ/マルチプレクサ115は、オーディオ信号およびメタデータを符号化し、ビットストリーム116(例えば、IVASビットストリーム)を形成するように構成される。
【0101】
このビットストリーム116は、その後、破線で示すように、送信/保存103されてよい。いくつかの実施形態では、エンコーダ/マルチプレクサ115は存在しない(したがって、以下で議論されるようなデコーダ/デマルチプレクサ121も存在しない)。
【0102】
システム199は、さらに、再生(デコーダ/シンセサイザ)部105を含んでよい。再生部105は、ビットストリーム116を受信、取得、または、その他の方法で取得し、ビットストリームから、リスナー/リスナー再生装置に提示される適切なオーディオ信号を生成するように構成される。
【0103】
再生部105は、ビットストリームを受信し、符号化されたストリームを逆多重化し、次に、オーディオ信号を復号化してトランスポート信号124およびメタデータ122を得るように構成されたデコーダ/デマルチプレクサ121を含んでよい。
【0104】
さらにいくつかの実施形態では、上述したように、デマルチプレクサ/デコーダ121が無くてもよい(例えば、キャプチャ部101と再生部105の両方が同じ装置内にあるため、関連するエンコーダ/マルチプレクサ115がない場合など)。
【0105】
再生部105は、合成プロセッサ123を含んで構成されてよい。合成プロセッサ123は、トランスポートオーディオ信号124、空間メタデータ122を取得し、例えば、ヘッドフォンで再生可能なバイノーラルオーディオ信号のような空間出力信号128を生成するように構成される。
【0106】
このシステムの動作をフロー図に関してまとめると、
図2のようになる。
【0107】
図2は、例えば、ステップ201に示すように、入力オーディオ信号の受信を示す。
【0108】
次に、フロー図は、
図2において、ステップ203によって、空間メタデータを生成するための入力オーディオ信号の解析(空間)を示す。
【0109】
そして、
図2において、ステップ204で示すように、入力オーディオ信号から、トランスポートオーディオ信号が生成される。
【0110】
次に、
図2において、ステップ205で示されるように、生成されたトランスポートオーディオ信号およびメタデータは、符号化および/または多重化されてよい。これは、
図2において、オプションの破線ボックスとして示されている。
【0111】
さらに、
図2において、ステップ207によって示されるように、符号化および/または多重化された信号は、トランスポートオーディオ信号および空間メタデータを生成するために、逆多重化および/または復号化され得る。これも、オプションの破線ボックスとして示されている。
【0112】
そして、
図2において、ステップ209で示すように、トランスポートオーディオ信号および空間メタデータに基づいて、空間オーディオ信号を合成することができる。
【0113】
次に、
図2において、ステップ211で示すように、合成された空間オーディオ信号は、例えば、ヘッドフォンのセットなどの適切な出力デバイスに出力されてよい。
【0114】
図3に関して、合成プロセッサ123をさらに詳細に示す。
【0115】
いくつかの実施形態では、合成プロセッサ123は、フォワードフィルタバンク(時間周波数変換器)311を有する。フォワードフィルタバンク(時間周波数変換器)311は、(時間領域の)トランスポートオーディオ信号124を受信し、それを時間周波数領域に変換するように構成される。好適なフォワードフィルタまたは変換は、例えば、短時間フーリエ変換(STF)および複素変調直交ミラーフィルタバンク(QMF)を含む。結果として得られる信号は、x
i(b,n)と表すことができ、ここで、iはチャネルインデックス、bは時間周波数変換の周波数ビンインデックス、nは時間インデックスである。時間周波数信号は、ここでは、例えば、ベクトル形式で表現される(例えば、2チャンネルの場合、ベクトル形式は以下の通りである。
【数1】
【0116】
次に、以下の処理動作は、時間周波数領域内で、周波数帯域にわたって実施され得る。周波数帯域は、適用された時間周波数変換器(フィルタバンク)の1つ又は複数の周波数ビン(個々の周波数成分)とすることができる。周波数帯域は、いくつかの実施形態において、高周波数よりも低周波数においてスペクトル的に高い選択性を有するBark周波数帯域などの知覚的に関連する解像度に近似し得る。代替的に、いくつかの実施形態では、周波数帯域は、周波数ビンに対応し得る。周波数帯域は、空間メタデータが解析プロセッサによって決定されたもの(または、近似的なもの)であってよい。各周波数帯域kは、最低周波数ビンblow(k)及び最高周波数ビンbhigh(k)の観点から定義されてよい。
【0117】
いくつかの実施形態における時間周波数トランスポート信号302は、空間シンセサイザ313に提供されてよい。
【0118】
いくつかの実施形態における合成プロセッサ123は、時間周波数領域トランスポート信号302および空間メタデータ122を受信し、空間メタデータ122に基いて時間周波数トランスポート信号302を処理することによって、空間時間周波数オーディオ信号304を生成するように構成される空間シンセサイザ313を含む。
【0119】
いくつかの実施形態における合成プロセッサ123は、空間時間周波数領域オーディオ信号304を受信し、フォワードフィルタバンク311によって適用された変換に対応する逆変換を適用して、時間領域空間出力信号128を生成するように構成された逆フィルタバンク315を有する。したがって、逆フィルタバンク315の出力は、空間出力信号であってよく、例えば、ヘッドフォン試聴のためのバイノーラルオーディオ信号とすることができる。
【0120】
この合成プロセッサ123の動作をフロー図に関してまとめると、
図4のようになる。
【0121】
図4は、例えば、ステップ401に示すように、オーディオ信号および空間メタデータの受信を示す。
【0122】
そして、
図4において、ステップ403で示すように、オーディオ信号を時間周波数領域変換して、時間周波数領域のオーディオ信号を生成する。
【0123】
次に、
図4において、ステップ405で示すように、時間周波数領域のオーディオ信号は、空間メタデータに基づいて処理され、空間時間周波数領域のオーディオ信号を生成する。
【0124】
次に、
図4において、ステップ407で示すように、空間時間周波数領域オーディオ信号は、空間(時間領域)オーディオ信号を生成するために逆変換され得る。
【0125】
そして、
図4において、ステップ409で示すように、合成された空間オーディオ信号が出力され得る。
【0126】
図3の空間シンセサイザ313の一例を、
図5にさらに詳細に示す。以下の例では、オーディオ信号は、1つの「左」及び1つの「右」チャネルの2つのチャネルを含む。しかしながら、さらなる発明的なインプットなしに、当業者によって任意の数のチャネルに対して同じ方法を実施し得る実施形態が存在することが理解されよう。
【0127】
図5に示すように、時間周波数オーディオ信号302は、ミキサ531、デコリレータ521、および、共分散行列推定器501に提供され得る。空間メタデータ122は、ターゲット共分散行列決定器503および非相関(残差)エネルギー減衰器509に提供される。
【0128】
いくつかの実施形態では、空間シンセサイザ313は、共分散行列推定器501を含む。共分散行列推定器501は、時間周波数オーディオ信号302を受信し、時間周波数オーディオ信号の共分散行列と(周波数帯における)その全エネルギー推定値を推定するように構成される。共分散行列は、例えばいくつかの実施形態において、以下のように推定され得る。
【0129】
【0130】
ここで、上付き添え字Hは複素共役を示し、blow(k)及びbhigh(k)は周波数帯域kの最低及び最高ビンインデックスである。周波数ビンは、いくつかの実施形態では、適用された時間周波数変換のビンであり得、周波数帯域は、典型的には、高い周波数に向かって、より多数のビンを含むように構成されている。周波数帯域は、空間メタデータが決定されたようなものであってよい。いくつかの実施形態では、Cx(k,n)は、FIRまたはIIR(または、任意の)窓を使用して時間にわたって平均化される。推定共分散行列502は、いくつかの実施形態において、ターゲット共分散行列決定器503、残差共分散行列決定器505、混合行列決定器507、および、残差混合行列決定器511に出力され得る。
【0131】
いくつかの実施形態では、空間シンセサイザ313は、ターゲット共分散行列推定器503を有する。ターゲット共分散行列推定器503は、推定共分散行列502および空間メタデータ122を受信するように構成される。この例では、空間メタデータは、周波数インデックスkおよび時間インデックスnごとに1つまたは複数の方向パラメータDOA(k,n,p)を含み、p=1・・・Pであり、Pは(所定の時間および周波数についての)方向パラメータの数である。いくつかの実施形態では、Pは、周波数および/または時間の関数として変化してもよく、いくつかの実施形態では、Pは、例えば、1または2のように一定であってもよい。この例では、空間メタデータは、全体の音エネルギーと比較したときの方向DOA(k,n,p)に関連するエネルギー量を示す直接全体比率パラメータr(k,n,p)をさらに備える。このような定義により、
が成立する。
【0132】
いくつかの実施形態におけるターゲット共分散行列決定器503は、最初に、Cx(k,n)の対角要素の合計(または、平均)として全エネルギー値E(k,n)を決定するように構成される。いくつかの実施形態では、この値は、共分散行列推定器501において決定され得、共分散行列推定器501から取得され得る。処理の出力がバイノーラルオーディオ信号になるいくつかの実施形態では、ターゲット共分散行列決定器503は、各DOA(k,n,p)について、与えられたDOA(k,n,p)のための左耳および右耳の複素応答(振幅および位相)を含み、帯域kの周波数(例えば、中心周波数)に対応する頭部関連伝達関数(HRTF)2x1列ベクトルh(DOA(k,n,p),k)を形成するように構成される。いくつかの実施形態では、拡散場バイノーラル共分散行列は、方向DOAd(d=1・・・D)の一様な空間分布を選択することによって、および以下の方法によって得られてもよい。
【0133】
【0134】
次に、いくつかの実施形態におけるターゲット共分散行列決定器は、ターゲット共分散行列を以下のように決定するように構成される。
【0135】
【0136】
ターゲット共分散行列は、次に、いくつかの実施形態において、残差共分散行列決定器505および混合行列決定器507に出力され得る。
【0137】
いくつかの実施形態では、空間シンセサイザ313は、混合行列決定器507を有する。混合行列決定器507は、ターゲット共分散行列504および推定共分散行列502を受信するように構成される。いくつかの実施形態における混合行列決定器507は、混合行列を決定するように構成されている。いくつかの実施形態では、この決定は、Vilkamo,J.,Backstrom,T. and Kuntz,A.,2013,“Optimized covariance domain framework for time-frequency processing of spatial audio”,Journal of the Audio Engineering Society,61(6),pp.403-411に記載の方法を採用してもよい。この方法では、プロトタイプ行列を利用し、例えば両耳再生の場合、
に設定することができる。また、ユーザの頭の向きを追跡する場合、ユーザが背面方向(左右90度を超える)を向いているときには、プロトタイプ行列を
に変更することができる。まとめると、実施形態は、共分散行列C
x(k,n)を有する入力信号に適用されたとき、ターゲット共分散行列C
y(k,n)に類似する共分散行列を有する出力信号を提供する混合行列M(k,n)を備えるように構成される。この混合解は、プロトタイプ信号Qx(b,n)に関して最小二乗法で最適化されてもよい。混合行列の定式化は、いくつかの実施形態において、小さな独立した信号成分の任意に大きな増幅を避けるために正則化されてもよく、したがって、多くの状況において実際には、ターゲット共分散行列は完全に到達されない。この理由のために、残差信号が、以下に説明するように、定式化される。混合行列決定器507は、混合行列M(k,n)508をミキサ531および残差共分散行列決定器505に出力するように構成される。
【0138】
いくつかの実施形態では、空間シンセサイザ313は、残差共分散行列決定器505を有する。残差共分散行列決定器505は、推定共分散行列Cx(k,n)502、ターゲット共分散行列Cy(k,n)504、および、混合行列M(k,n)508を受信するように構成されている。残差共分散行列決定器505は、残差共分散行列を決定するように構成され、これは、以下のように定式化される。
【0139】
【0140】
換言すれば、残差共分散行列は、ターゲット共分散行列Cy(k,n)と、入力信号をM(k,n)で処理することで実現されたものとの差分の情報を含んでいる。残差共分散行列決定器505は、残差共分散行列Cr(k,n)506を、相関(残差)エネルギー減衰器509に提供するように構成される。
【0141】
いくつかの実施形態では、空間シンセサイザ313は、非相関(残差)エネルギー減衰器509を具備する。非相関(残差)エネルギー減衰器509は、残差混合行列Cr(k,n)506および空間メタデータ122を受信するように構成されている。非相関(残差)エネルギー減衰器509は、処理された残差共分散行列510を生成するように構成されている。残差信号は、入力信号の非相関バージョンに基づいて生成され(以下で、さらに説明する)、なぜなら、ターゲット共分散行列がそう示す場合、非干渉性に到達するために新しい独立した信号が必要だからである。しかしながら、出力信号に対する非干渉性の合成の必要性は、多数の理由に由来する可能性がある。1つの可能性のある理由は、実際にアンビエンスや残響があることであり、もう1つの可能性のある理由は、複数の同時発生源がアクティブであることである。残差信号が合成されないと、アンビエントの空間的な響きが少なくなる。また、残差信号が完全に合成されてしまうと、より指向性の高い音に対して、非相関化による音質劣化が生じる状況もある。したがって、非相関(残差)エナジー減衰器509は、空間メタデータに基づいて残差共分散行列を処理または修正するように構成される。例えば、いくつかの実施形態における修正は、以下のようになり得る。
【0142】
【0143】
この例では、共分散行列は、メタデータ(例えば、比率)パラメータと同じ時間的解像度で決定される。いくつかの実施形態では、メタデータは、例えば、メタデータの複数の時間インデックスが共分散行列の1つの時間インデックスに寄与するなど、異なる時間解像度で決定されてよい。そのような場合、残差共分散行列を修正するために、この例示された式の前に比率パラメータの時間平均(または、エネルギー加重時間平均)を取ることは、例えば、オプションである。
【0144】
したがって、例えば、音が完全にアンビエントである場合、残差共分散行列は未処理であり、音が指向性音のみである場合、残差共分散行列はゼロになる。したがって、非相関(残差)エネルギー減衰器は、処理された残差共分散行列C´r(k,n)510を残差混合行列決定器511に提供するように構成される。
【0145】
いくつかの実施形態では、空間シンセサイザ313は、残差混合行列決定器511を有する。残差混合行列決定器511は、処理された残差共分散行列C´r(k,n)510および推定共分散行列Cx(k,n)502を受け取るように構成される。残差混合行列決定器511は、混合行列決定器507と同様の方法で動作するが、共分散Cx(k,n)行列502の代わりに、入力共分散行列の対角化されたバージョンを使用する。換言すれば、この行列は、その対角線上に共分散行列Cx(k,n)502のエントリを有するが、それ以外はゼロである。これは、残差混合行列が、入力信号の非相関化バージョンを処理するために定式化されるためである。さらに、この場合の対象共分散行列は、処理された残差共分散行列C´r(k,n)510である。それ以外の処理は、混合行列決定器507と同様である。残差混合行列決定器511は、得られた残差混合行列512(Mr(k,n)と表記)をミキサ531に出力するように構成される。
【0146】
いくつかの実施形態では、空間シンセサイザ313は、デコリレータ521を有する。デコリレータ521は、時間周波数オーディオ信号x(b,n)302を受信し、それを非相関化したd(b,n)バージョン522を生成するように構成される。そして、非相関オーディオ信号d(b,n)522は、ミキサ531に渡される。
【0147】
いくつかの実施形態では、空間シンセサイザ313は、ミキサ531を有する。ミキサ531は、時間周波数オーディオ信号302および非相関オーディオ信号d(b,n)522を受信し、混合行列508M(k,n)および残差混合行列Mr(k,n)512に基づく混合を生成するように構成される。ミキサ531は、例えば、次のようにして出力を生成することができる。
【0148】
【数7】
ここで、帯域インデックスkは、ビンbが存在するものである。この出力信号が、
図3に示すような空間シンセサイザの出力である空間時間周波数信号304である。
【0149】
空間シンセサイザ313の動作をフロー図に関してまとめると、
図6のようになる。
【0150】
図6において、ステップ601で示すように、オーディオ信号および空間メタデータなどの入力を受信する。
【0151】
図6において、ステップ603で示すように、次の動作は、共分散行列を推定するものである。
【0152】
そして、
図6において、ステップ605で示すように、空間メタデータおよび推定された共分散行列に基づいて、ターゲット共分散行列が生成される。
【0153】
そして、
図6において、ステップ607で示すように、推定された共分散行列およびターゲット共分散行列に基づいて、混合行列が決定される。
【0154】
次に、
図6において、ステップ609で示すように、共分散行列、ターゲット共分散行列、および、混合行列に基づいて、残差共分散行列が決定される。
【0155】
図6において、ステップ611で示すように、残差共分散行列を決定した後、残差共分散行列および空間メタデータに基づいて、処理された残差共分散行列が決定される。
【0156】
次に、
図6において、ステップ613で示すように、処理された残差共分散行列および共分散行列に基づいて、残差混合行列が決定される。
【0157】
図6において、ステップ604で示すように、これにより、非相関オーディオ信号が生成される。
【0158】
そして、
図6において、ステップ615で示すように、時間周波数オーディオ信号、非相関オーディオ信号、混合行列、残差混合行列に基づいて、空間時間周波数オーディオ信号が決定される。
【0159】
そして、
図6において、ステップ617で示すように、空間時間周波数オーディオ信号が出力される。
【0160】
上記では、オーディオ信号を周波数帯域で処理することを説明した。いくつかの実施形態では、処理はすべて周波数ビンで実行される。そのような実施形態では、すべての行列、HRTF、および、他の値は、各周波数ビンについて決定される。空間メタデータは周波数帯域kで定義されているため、例えば、ビンbのDOA値(または他の任意のメタデータ)を選択する場合、ビンbが存在する帯域kのDOA値が選択される。
【0161】
いくつかの実施形態では、上記の手順は、バイノーラルオーディオ信号以外の空間出力に対しても構成されてよい。例えば、ターゲット共分散行列は、HRTFの代わりにラウドスピーカー振幅パンニングゲインを含むベクトルに基づいて決められてよい。さらに、ラウドスピーカー出力では、拡散音場共分散行列は対角行列となる。
【0162】
上記の定式化では、表現を簡単にするために、時間周波数信号の時間分解能が空間メタデータの時間分解能と同じであると仮定した。これは、時間周波数変換が多くのビンを有する場合、例えば、2048点の短時間フーリエ変換(STFT)を使用する場合に成り立つ可能性がある。他の実施形態では、フィルタバンクは、例えば、60ビンの複素変調直交ミラーフィルタ(QMF)バンクであり得るが、これは、はるかに高い時間分解能をもたらす。そのような実施形態では、メタデータは、すべての時間的インデックスnではないが、メタデータに関連するインデックスは、(時間的に)より間隔が空いている。
【0163】
いくつかの実施形態では、非相関エネルギーの量は、以下の式を用いて制限することができる。
【0164】
【0165】
ここで、tr()は、行列のトレースである。このような実施形態の実用的な実装では、最大でも全エネルギーの
となるように非相関エネルギー量を制限している。先に説明したように、非相関の制限のための他の定式を用いることができる。
【0166】
本明細書で論じたような実施形態では、(非相関(残差)エネルギー減衰器509における)非相関オーディオ信号の量の制限は、メタデータに基づいている。しかしながら、いくつかの実施形態では、空間出力信号に存在するための非相関オーディオ信号の量の制限(または、換言すれば、非相関オーディオ信号の減衰)は、信号分析に基づくことができる。例えば、オーディオ信号は、オーディオ信号が実質的な音声成分、または、知覚されるオーディオ品質の特定の低下を引き起こすことが知られている他の信号タイプからなるか否かを決定するために分析され得る。したがって、いくつかの実施形態は、オーディオ信号(例えば、音声)のタイプを決定するように構成されたオーディオタイプ分析器を含み、これは、非相関(残差)エネルギー減衰器509への入力として使用されて、非相関(残差)信号の減衰を可能にすることができる。例えば、音声が検出された場合、非相関量を半分に減衰することができる。このような場合、さらに空間メタデータに基づいても、あるいは空間メタデータを考慮せずに、非相関化音の抑圧を行うことも可能である。
【0167】
上記実施形態では、非相関音の抑圧は、別の非相関(残差)エネルギー減衰器509として実行した。このブロックは、残差共分散行列を抑圧することにより、抑圧を行うように説明した。これにより、その後、空間出力信号における非相関音は低減される。減衰は、残差共分散行列を減衰する以外の方法、例えば、デコリレータ521への入力信号を減衰すること、デコリレータ521の出力信号を減衰すること、または、残差混合行列512を減衰することによっても実行できることは明らかである。
【0168】
図7に関して、上述したようなシステムの装置の部分のいずれかとして使用され得る例示的な電子装置である。装置は、任意の適切な電子機器または装置であってよい。例えば、いくつかの実施形態では、デバイス1700は、モバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオ再生装置などである。装置は、例えば、
図1に示すようなエンコーダ/アナライザ部101、および/または、デコーダ/シンセサイザ部105、あるいは、上述したような任意の機能ブロックを実装するように構成されてもよい。
【0169】
いくつかの実施形態では、デバイス1700は、少なくとも1つのプロセッサまたは中央処理装置1707を有する。プロセッサ1707は、本明細書に記載されるような方法など、様々なプログラムコードを実行するように構成され得る。
【0170】
いくつかの実施形態では、デバイス1700は、メモリ1711を備える。いくつかの実施形態では、少なくとも1つのプロセッサ1707は、メモリ1711に結合される。メモリ1711は、任意の適切な記憶手段であり得る。いくつかの実施形態では、メモリ1711は、プロセッサ1707に実装可能なプログラムコードを格納するためのプログラムコード部を有する。さらに、いくつかの実施形態では、メモリ1711は、データ、例えば、本明細書に記載されるような実施形態に従って、処理されたまたは処理されるべきデータを格納するための格納データ部をさらに備えることができる。プログラムコード部内に格納された実装プログラムコードおよび格納データ部内に格納されたデータは、メモリプロセッサ結合を介して必要なときにいつでもプロセッサ1707によって取り出すことができる。
【0171】
いくつかの実施形態では、デバイス1700は、ユーザインターフェース1705を備える。ユーザインターフェース1705は、いくつかの実施形態では、プロセッサ1707に結合され得る。いくつかの実施形態では、プロセッサ1707は、ユーザインターフェース1705の動作を制御し、ユーザインターフェース1705から入力を受信することができる。いくつかの実施形態では、ユーザインターフェース1705は、ユーザが、例えば、キーパッドを介して、デバイス1700に命令を入力することを可能にし得る。いくつかの実施形態では、ユーザインターフェース1705は、ユーザがデバイス1700から情報を取得することを可能にすることができる。例えば、ユーザインターフェース1705は、デバイス1700からの情報をユーザに表示するように構成された表示部を含んでいてもよい。ユーザインターフェース1705は、いくつかの実施形態において、デバイス1700に情報を入力することを可能にし、さらに、デバイス1700のユーザに情報を表示することの両方が可能なタッチスクリーンまたはタッチインターフェースで構成され得る。いくつかの実施形態では、ユーザインターフェース1705は、通信するためのユーザインターフェースであってもよい。
【0172】
いくつかの実施形態では、デバイス1700は、入力/出力ポート1709を有する。いくつかの実施形態における入力/出力ポート1709は、トランシーバを具備する。そのような実施形態におけるトランシーバは、プロセッサ1707に結合され、例えば、無線通信ネットワークを介して他の装置または電子デバイスとの通信を可能にするように構成され得る。トランシーバまたは任意の適切なトランシーバまたは送信機および/または受信手段は、いくつかの実施形態において、有線または有線結合を介して他の電子デバイスまたは装置と通信するように構成され得る。
【0173】
トランシーバは、任意の好適な既知の通信プロトコルによって、さらなる装置と通信することができる。例えば、いくつかの実施形態において、トランシーバは、ロングタームエボリューションアドバンス(LTE Advanced、LTE-A)または新無線(NR)(または、5Gと呼ばれ得る)、ユニバーサル移動通信システム(UMTS)無線アクセスネットワーク(UTRANまたはE-UTRAN)、ロングタームエボリューション(LTE、E-UTRAと同じ)、2Gネットワーク(レガシネットワーク技術)、無線ローカルエリアネットワーク(WLANまたはWiFi)に基づいて、適切な無線アクセスアーキテクチャを用いることが可能である。worldwide interoperability for microwave access(WiMAX)、Bluetooth(登録商標)、パーソナル通信サービス(PCS)、ZigBee(登録商標)、広帯域符号分割多重アクセス(WCDMA(登録商標))、超広帯域(UWB)技術を用いたシステム、センサーネットワーク、モバイルアドホックネットワーク(MANETs)、セルラー物のインターネット(IoT)RAN、および、インターネットプロトコルマルチメディアサブシステム(IMS)、他の任意の適切な選択肢、および/または、それらの任意の組合せが挙げられる。
【0174】
トランシーバ入力/出力ポート1709は、信号を受信するように構成されてよい。
【0175】
いくつかの実施形態では、デバイス1700は、合成装置の少なくとも一部として採用されてもよい。入力/出力ポート1709は、ヘッドフォン(ヘッドトラック付きヘッドフォンまたはトラック無しのヘッドフォンであってもよい)などに結合されてもよい。
【0176】
一般に、本発明の様々な実施形態は、ハードウェアまたは特殊用途回路、ソフトウェア、ロジック、または、それらの任意の組み合わせで実装されてもよい。例えば、いくつかの態様はハードウェアで実装されてもよく、他の態様は、コントローラ、マイクロプロセッサ、または他のコンピューティングデバイスによって実行されてもよいファームウェアまたはソフトウェアで実装されてもよいが、本発明はこれに限定されない。本発明の様々な態様は、ブロック図、フローチャートとして、または、他の何らかの絵画的表現を用いて図示および説明され得るが、本明細書に記載されるこれらのブロック、装置、システム、技術または方法は、非限定例として、ハードウェア、ソフトウェア、ファームウェア、特殊用途回路または論理、汎用ハードウェア、または、コントローラ、もしくは、他のコンピューティングデバイス、または、それらの何らかの組み合わせで実施されてよいことは十分に理解されよう。
【0177】
この発明の実施形態は、プロセッサエンティティなどのモバイルデバイスのデータプロセッサによって実行可能なコンピュータソフトウェアによって、または、ハードウェアによって、または、ソフトウェアとハードウェアの組み合わせによって実装されてもよい。さらにこの点で、図のような論理フローの任意のブロックは、プログラムステップ、または、相互接続された論理回路、ブロックおよび機能、または、プログラムステップと論理回路、ブロックおよび機能の組み合わせを表すことができることに留意されたい。ソフトウェアは、メモリチップ、または、プロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピーディスクなどの磁気媒体、および、例えば、DVDおよびそのデータ変種であるCDなどの光媒体などの物理媒体に格納されてもよい。
【0178】
メモリは、ローカルな技術環境に適した任意のタイプであってよく、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光学メモリデバイスおよびシステム、固定メモリおよび取り外し可能メモリなど、任意の好適なデータ記憶技術を使用して実装されてよい。データプロセッサは、ローカルな技術環境に適した任意のタイプであってよく、非限定的な例として、汎用コンピュータ、特殊用途コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途集積回路(ASIC)、ゲートレベル回路およびマルチコアプロセッサアーキテクチャに基づくプロセッサの1つ以上を含んでもよい。
【0179】
本発明の実施形態は、集積回路モジュールなどの様々な部品において実施することができる。集積回路の設計は、概して高度に自動化されたプロセスである。論理レベル設計を、半導体基板上にエッチングして形成するのに適した半導体回路設計に変換するために、複雑で強力なソフトウェアツールが利用可能である。
【0180】
カリフォルニア州マウンテンビューのシノプシス社やカリフォルニア州サンノゼのケイデンスデザイン社などのプログラムは、確立された設計ルールと予め保存された設計モジュールのライブラリを使って、半導体チップ上の導体の配線や部品の配置を自動的に行うものである。半導体回路の設計が完了すると、設計結果は標準化された電子フォーマット(Opus、GDSIIなど)で、半導体製造施設(ファブ)に送信され、製造されることがある。
【0181】
前述の説明は、例示的かつ非限定的な例によって、この発明の例示的な実施形態の完全かつ有益な説明を提供した。しかしながら、添付の図面および添付の特許請求の範囲と併せて読むと、前述の説明に鑑みて、様々な修正および適応が関連する技術の当業者には明らかになるであろう。しかしながら、この発明の教示のすべてのそのような、および、類似の修正は、やはり添付の特許請求の範囲で定義されるこの発明の範囲内に入るであろう。
【手続補正書】
【提出日】2023-01-25
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備える装置であって、前記少なくとも1つのメモリ、および、前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサを用いて、前記装置に、少なくとも、
空間オーディオ信号を受信
することであって、該空間オーディオ信号は、少なくとも1つのオーディオ信号、および、該少なくとも1つのオーディオ信号に関連する空間メタデータを含み、
受信することと、
前記少なくとも1つのオーディオ信号に基づいて、少なくとも1つの非相関オーディオ信号を生成
することと、
空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定
することであって、前記少なくとも1つの制御パラメータは、前記少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性、ならびに、空間メタデータ、および、前記少なくとも1つのオーディオ信号に基づいて決定される少なくとも1つの特性のうちの少なくとも1つに基づいており、
決定することと、
前記空間オーディオ信号、および、少なくとも1つの非相関オーディオ信号に基づいて、空間オーディオ再生のための前記少なくとも2つの出力オーディオ信号を生成
することであって、前記少なくとも2つの出力オーディオ信号内の前記少なくとも1つの非相関オーディオ信号の前記量は、前記少なくとも1つの制御パラメータに基づいて制御される、
生成することと、
を実行させる装置。
【請求項2】
前記少なくとも1つの制御パラメータは、
前記少なくとも1つの非相関オーディオ信号、または、非相関化される前記少なくとも1つのオーディオ信号の少なくとも1つに適用される少なくとも1つの処理利得と、
前記少なくとも1つの非相関化されたオーディオ信号、および、前記少なくとも1つのオーディオ信号の混合を制御するように構成された少なくとも1つの混合行列と、
少なくとも1つの混合行列、および、少なくとも1つの残差混合行列であって、前記少なくとも1つの混合行列、および、前記少なくとも1つの残差混合行列は、前記少なくとも1つの非相関オーディオ信号、および、前記少なくとも1つのオーディオ信号の混合を制御するように構成される、少なくとも1つの混合行列、および、少なくとも1つの残差混合行列と、
少なくとも1つの混合行列、および/または、少なくとも1つの残差混合行列の生成を制御するように構成された少なくとも1つの共分散行列であって、前記少なくとも1つの混合行列、および/または、前記少なくとも1つの残差混合行列は、前記少なくとも1つの非相関オーディオ信号、および/または、前記少なくとも1つのオーディオ信号の混合を制御するように構成される、共分散行列と、
のうちの少なくとも1つを備える、請求項1に記載の装置。
【請求項3】
前記決定された少なくとも1つの制御パラメータ
は、前記装置に、
前記少なくとも1つのオーディオ信号に基づいて、少なくとも1つの少なくとも1つのさらなる特性を決定し、
前記少なくとも2つの出力オーディオ信号の前記少なくとも1つのさらなるターゲット特性を決定し、
前記少なくとも1つのオーディオ信号に基づく、前記少なくとも1つのさらなる特性、および、前記少なくとも2つの出力オーディオ信号の前記少なくとも1つのさらなるターゲット特性に基づいて、少なくとも1つの第1制御パラメータを決定し、
前記空間メタデータ、および、前記少なくとも1つのオーディオ信号に基づいて決定された前記少なくとも1つの特性のうちの少なくとも1つに基づいて、少なくとも1つの第2制御パラメータを決定し、または、前記少なくとも1つの第1制御パラメータを変更する、
ことを実行させる、請求項1に記載の装置。
【請求項4】
空間オーディオ再生のための
生成された前記少なくとも2つの出力オーディオ信号
は、前記装置に、少なくとも、
前記少なくとも1つの第1制御パラメータ、および、少なくとも1つの第2の制御パラメータ、または、前記少なくとも1つの修正された第1制御パラメータに基づいて、前記少なくとも1つのオーディオ信号、および、前記少なくとも1つの非相関オーディオ信号を混合
し、
空間オーディオ再生のための前記少なくとも2つの出力オーディオ信号を出力する、
ことを実行させる、請求項3に記載の装置。
【請求項5】
決定された前記少なくとも1つの第2制御パラメータ、または、前記修正された少なくとも1つの第1制御パラメータ
は、
前記空間メタデータ内の少なくとも1つの直接対全エネルギー比パラメータに基づく、請求項
3に記載の装置。
【請求項6】
前記少なくとも1つのオーディオ信号に基づく前記少なくとも1つのさらなる特性は、共分散特性であり、前記少なくとも2つの出力オーディオ信号の前記少なくとも1つのさらなるターゲット特性は、前記少なくとも2つの出力オーディオ信号のターゲット共分散特性である、請求項
3に記載の装置。
【請求項7】
決定された前記少なくとも1つの第2制御パラメー
タ、または、
修正された前記少なくとも1つの第1制御パラメータ
は、前記装置に、
前記少なくとも2つの出力オーディオ信号の前記共分散特性および前記ターゲット共分散特性に基づいて、残差共分散特性を決定し、
前記少なくとも1つのオーディオ信号に関連付けられた前記空間メタデータに基づいて、前記残差共分散特性を処理する、
ことを実行させる、請求項
6に記載の装置。
【請求項8】
処理された前記残差共分散特性
は、
前記装置に、
前記空間メタデータが前記少なくとも1つのオーディオ信号が高指向性であることを示す場合、前記残差共分散特性を減衰させ、
前記空間メタデータが前記少なくとも1つのオーディオ信号が完全にアンビエントであることを示す場合、前記残差共分散特性を未処理で通過させる、
ことを実行させる、請求項
7に記載の装置。
【請求項9】
決定されたターゲット共分散特性
は、前記装置に、
前記共分散特性に基づいて、全エネルギー推定値を生成し、
前記少なくとも1つのオーディオ信号に関連付けられた前記メタデータから方向パラメータに基づいて、頭部関連伝達関数データを決定し、
前記頭部関連伝達関数データ、および、前記全エネルギー推定値に基づいて、さらに、前記少なくとも2つの出力オーディオ信号の前記ターゲット共分散特性を決定する、
ことを実行させる、請求項
6に記載の装置。
【請求項10】
決定された前記少なくとも1つの特性
は、前記少なくとも1つのオーディオ信号に基づき、前記少なくとも1つの特性はオーディオタイプであり、
決定された前記少なくとも1つの制御パラメータ
は、前記装置に、
前記オーディオタイプは、決定されたオーディオタイプであるか否かを決定し、
前記オーディオタイプが、前記決定されたオーディオタイプであることに基づいて、前記少なくとも1つの制御パラメータを決定する、
ことを実行させる、請求項
1に記載の装置。
【請求項11】
前記決定されたオーディオタイプは、音声である、請求項
10に記載の装置。
【請求項12】
前記少なくとも1つのオーディオ信号は、エンコーダによって生成されたトランスポートオーディオ信号を含む、請求項
1に記載の装置。
【請求項13】
装置のための方法であって、該方法は、
空間オーディオ信号を受信することであって、該空間オーディオ信号は、少なくとも1つのオーディオ信号、および、該少なくとも1つのオーディオ信号に関連する空間メタデータを含む、受信することと、
前記少なくとも1つのオーディオ信号に基づいて、少なくとも1つの非相関オーディオ信号を生成することと、
空間オーディオ再生のための少なくとも2つの出力オーディオ信号内の少なくとも1つの非相関オーディオ信号の量を制御するように構成された少なくとも1つの制御パラメータを決定することであって、前記少なくとも1つの制御パラメータは、前記少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性、ならびに、前記空間メタデータ、および、前記少なくとも1つのオーディオ信号に基づいて決定される少なくとも1つの特性のうちの少なくとも1つに少なくとも基づいている、決定することと、
前記空間オーディオ信号、および、少なくとも1つの非相関オーディオ信号に基づいて、空間オーディオ再生のための前記少なくとも2つの出力オーディオ信号を生成することであって、少なくとも2つの出力オーディオ信号内の前記少なくとも1つの非相関オーディオ信号の前記量は、前記少なくとも1つの制御パラメータに基づいて制御される、生成することと、
を含む方法。
【請求項14】
前記少なくとも1つの制御パラメータは、
前記少なくとも1つの非相関オーディオ信号、または、非相関化される前記少なくとも1つのオーディオ信号の少なくとも1つに適用される少なくとも1つの処理ゲインと、
前記少なくとも1つの非相関オーディオ信号、および、前記少なくとも1つのオーディオ信号の混合を制御するように構成された少なくとも1つの混合行列と、
少なくとも1つの混合行列、および、少なくとも1つの残差混合行列であって、前記少なくとも1つの混合行列、および、前記少なくとも1つの残差混合行列は、前記少なくとも1つの非相関オーディオ信号、および、前記少なくとも1つのオーディオ信号の混合を制御するように構成される、少なくとも1つの混合行列、および、少なくとも1つの残差混合行列と、
少なくとも1つの混合行列、および/または、少なくとも1つの残差混合行列の生成を制御するように構成された少なくとも1つの共分散行列であって、前記少なくとも1つの混合行列、および/または、少なくとも1つの残差混合行列は、前記少なくとも1つの非相関オーディオ信号、および/または、前記少なくとも1つのオーディオ信号の混合を制御するように構成される、共分散行列と、
のうちの少なくとも1つを備える、請求項
13に記載の方法。
【請求項15】
前記少なくとも1つの制御パラメータを決定することは、さらに、
前記少なくとも1つのオーディオ信号に基づいて、少なくとも1つの少なくとも1つのさらなる特性を決定することと、
前記少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性を決定することと、
前記少なくとも1つのオーディオ信号に基づく前記少なくとも1つのさらなる特性、および、前記少なくとも2つの出力オーディオ信号の前記少なくとも1つのさらなるターゲット特性に基づいて、少なくとも1つの第1制御パラメータを決定することと、
前記空間メタデータ、および、前記少なくとも1つのオーディオ信号に基づいて決定された少なくとも1つのプロパティのうちの少なくとも1つに基づいて、少なくとも1つの第2制御パラメータを決定し、または、前記少なくとも1つの第1制御パラメータを修正することと、
を含む、請求項
13に記載の方法。
【請求項16】
空間オーディオ再生のための前記少なくとも2つの出力オーディオ信号を生成することは、さらに、
前記少なくとも1つの第1制御パラメータ、および、少なくとも1つの第2制御パラメータ、または、前記少なくとも1つの修正された第1制御パラメータに基づいて、前記少なくとも1つのオーディオ信号、および、少なくとも1つの非相関オーディオ信号を混合することと、
空間オーディオ再生のための前記少なくとも2つの出力オーディオ信号を出力することと、
を含む、請求項
15に記載の方法。
【請求項17】
前記少なくとも1つの第2制御パラメータ、または、前記修正された少なくとも1つの第1制御パラメータを決定することは、前記空間メタデータ内の少なくとも1つの直接対全エネルギー比パラメータに基づく、請求項
15に記載の方法。
【請求項18】
前記少なくとも1つのオーディオ信号に基づく前記少なくとも1つのさらなる特性は、共分散特性であり、前記少なくとも2つの出力オーディオ信号の少なくとも1つのさらなるターゲット特性は、前記少なくとも2つの出力オーディオ信号のターゲット共分散特性である、請求項
15に記載の方法。
【請求項19】
前記少なくとも1つの第2制御パラメータを決定すること、または、前記少なくとも1つの第1制御パラメータを修正することは、
前記少なくとも2つの出力オーディオ信号の前記共分散特性および前記ターゲット共分散特性に基づいて、残差共分散特性を決定することと、
前記少なくとも1つのオーディオ信号に関連付けられた前記空間メタデータに基づいて、前記残差共分散特性を処理することと、
のうちの少なくとも1つを備
え、
前記少なくとも1つのオーディオ信号に関連付けられた前記空間メタデータに基づいて、前記残差共分散特性を処理することは、
前記少なくとも1つのオーディオ信号が高指向性であることを前記空間メタデータが示す場合、前記残差共分散特性を減衰させることと、
前記少なくとも1つのオーディオ信号が完全にアンビエントであることを前記空間メタデータが示す場合、前記残差共分散特性を未処理で通過させることと、
を含む、
請求項
18に記載の方法。
【請求項20】
前記少なくとも2つの出力オーディオ信号の前記ターゲット共分散特性を決定することは、
前記共分散特性に基づいて、全エネルギー推定値を生成することと、
前記少なくとも1つのオーディオ信号に関連付けられた前記メタデータから、方向パラメータに基づいて、頭部関連伝達関数データを決定することと、
前記頭部関連伝達関数データ、および、前記全エネルギー推定値にさらに基づいて、前記少なくとも2つの出力オーディオ信号の前記ターゲット共分散特性を決定することと、
を含む、請求項
19に記載の方法。
【国際調査報告】