特表2023-527022 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ノキア　テクノロジーズ　オサケユイチアの特許一覧

特表2023-527022空間オーディオ表現およびレンダリング

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-06-26

(54)【発明の名称】空間オーディオ表現およびレンダリング

(51)【国際特許分類】

G10L 19/008 20130101AFI20230619BHJP

H04S 7/00 20060101ALI20230619BHJP

【ＦＩ】

G10L19/008 100

H04S7/00 300

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2022572609

(86)(22)【出願日】2021-05-07

(85)【翻訳文提出日】2023-01-25

(86)【国際出願番号】 FI2021050339

(87)【国際公開番号】W WO2021240053

(87)【国際公開日】2021-12-02

(31)【優先権主張番号】2007904.2

(32)【優先日】2020-05-27

(33)【優先権主張国・地域又は機関】GB

(81)【指定国・地域】

(71)【出願人】

【識別番号】515076873

【氏名又は名称】ノキアテクノロジーズオサケユイチア

(74)【代理人】

【識別番号】100099759

【弁理士】

【氏名又は名称】青木篤

(74)【代理人】

【識別番号】100123582

【弁理士】

【氏名又は名称】三橋真二

(74)【代理人】

【識別番号】100092624

【弁理士】

【氏名又は名称】鶴田準一

(74)【代理人】

【識別番号】100141162

【弁理士】

【氏名又は名称】森啓

(74)【代理人】

【識別番号】100151459

【弁理士】

【氏名又は名称】中村健一

(72)【発明者】

【氏名】ミッコ－ビッレライティネン

(72)【発明者】

【氏名】ユハビルカモ

【テーマコード（参考）】

5D162

【Ｆターム（参考）】

5D162AA05

5D162CC33

5D162EG02

(57)【要約】

空間オーディオ信号を受信し、該空間オーディオ信号は、少なくとも１つのオーディオ信号、および、該少なくとも１つのオーディオ信号に関連する空間メタデータを含み、少なくとも１つのオーディオ信号に基づいて、少なくとも１つの非相関オーディオ信号を生成し、空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定し、少なくとも１つの制御パラメータは、少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性、ならびに、空間メタデータ、および、少なくとも１つのオーディオ信号に基づいて決定された少なくとも１つの特性とのうちの少なくとも１つに少なくとも基づき、空間オーディオ信号および少なくとも１つの非相関オーディオ信号に基づいて、空間オーディオ再生のための少なくとも２つの出力オーディオ信号を生成し、少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量は、少なくとも１つの制御パラメータに基づいて制御される、ように構成された手段を含む装置。

【特許請求の範囲】

【請求項1】

空間オーディオ信号を受信し、該空間オーディオ信号は、少なくとも１つのオーディオ信号、および、該少なくとも１つのオーディオ信号に関連する空間メタデータを含み、
前記少なくとも１つのオーディオ信号に基づいて、少なくとも１つの非相関オーディオ信号を生成し、
空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定し、前記少なくとも１つの制御パラメータは、前記少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性、ならびに、空間メタデータ、および、前記少なくとも１つのオーディオ信号に基づいて決定される少なくとも１つの特性のうちの少なくとも１つに基づいており、
前記空間オーディオ信号、および、少なくとも１つの非相関オーディオ信号に基づいて、空間オーディオ再生のための前記少なくとも２つの出力オーディオ信号を生成し、前記少なくとも２つの出力オーディオ信号内の前記少なくとも１つの非相関オーディオ信号の前記量は、前記少なくとも１つの制御パラメータに基づいて制御される、
ように構成された手段を有する装置。

【請求項2】

前記少なくとも１つの制御パラメータは、
前記少なくとも１つの非相関オーディオ信号、または、非相関化される前記少なくとも１つのオーディオ信号の少なくとも１つに適用される少なくとも１つの処理利得と、
前記少なくとも１つの非相関化されたオーディオ信号、および、前記少なくとも１つのオーディオ信号の混合を制御するように構成された少なくとも１つの混合行列と、
少なくとも１つの混合行列、および、少なくとも１つの残差混合行列であって、前記少なくとも１つの混合行列、および、前記少なくとも１つの残差混合行列は、前記少なくとも１つの非相関オーディオ信号、および、前記少なくとも１つのオーディオ信号の混合を制御するように構成される、少なくとも１つの混合行列、および、少なくとも１つの残差混合行列と、
少なくとも１つの混合行列、および／または、少なくとも１つの残差混合行列の生成を制御するように構成された少なくとも１つの共分散行列であって、前記少なくとも１つの混合行列、および／または、前記少なくとも１つの残差混合行列は、前記少なくとも１つの非相関オーディオ信号、および／または、前記少なくとも１つのオーディオ信号の混合を制御するように構成される、共分散行列と、
のうちの少なくとも１つを備える、請求項１に記載の装置。

【請求項3】

空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の前記少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定するように構成された前記手段は、
前記少なくとも１つのオーディオ信号に基づいて、少なくとも１つの少なくとも１つのさらなる特性を決定し、
前記少なくとも２つの出力オーディオ信号の前記少なくとも１つのさらなるターゲット特性を決定し、
前記少なくとも１つのオーディオ信号に基づく、前記少なくとも１つのさらなる特性、および、前記少なくとも２つの出力オーディオ信号の前記少なくとも１つのさらなるターゲット特性に基づいて、少なくとも１つの第１制御パラメータを決定し、
前記空間メタデータ、および、前記少なくとも１つのオーディオ信号に基づいて決定された前記少なくとも１つの特性のうちの少なくとも１つに基づいて、少なくとも１つの第２制御パラメータを決定し、または、前記少なくとも１つの第１制御パラメータを変更する、
ようにさらに構成される、請求項１に記載の装置。

【請求項4】

空間オーディオ再生のための前記少なくとも２つの出力オーディオ信号を生成するように構成された前記手段は、前記少なくとも１つの第１制御パラメータ、および、少なくとも１つの第２の制御パラメータ、または、前記少なくとも１つの修正された第１制御パラメータに基づいて、前記少なくとも１つのオーディオ信号、および、前記少なくとも１つの非相関オーディオ信号を混合するようにさらに構成されている、請求項３に記載の装置。

【請求項5】

前記手段は、空間オーディオ再生のための前記少なくとも２つの出力オーディオ信号を出力するようにさらに構成される、請求項４に記載の装置。

【請求項6】

前記手段は、前記空間メタデータ内の少なくとも１つの直接対全エネルギー比パラメータに基づいて、前記少なくとも１つの第２制御パラメータ、または、前記修正された少なくとも１つの第１制御パラメータを決定するように構成される、請求項３乃至５のいずれかに記載の装置。

【請求項7】

前記少なくとも１つのオーディオ信号に基づく前記少なくとも１つのさらなる特性は、共分散特性であり、前記少なくとも２つの出力オーディオ信号の前記少なくとも１つのさらなるターゲット特性は、前記少なくとも２つの出力オーディオ信号のターゲット共分散特性である、請求項３乃至６のいずれか一項に記載の装置。

【請求項8】

少なくとも１つの第２制御パラメータを決定し、または、前記少なくとも１つの第１制御パラメータを修正するように構成された前記手段は、
前記少なくとも２つの出力オーディオ信号の前記共分散特性および前記ターゲット共分散特性に基づいて、残差共分散特性を決定し、
前記少なくとも１つのオーディオ信号に関連付けられた前記空間メタデータに基づいて、前記残差共分散特性を処理する、
ように構成される、請求項７に記載の装置。

【請求項9】

前記少なくとも１つのオーディオ信号に関連付けられた前記空間メタデータに基づいて、前記残差共分散特性を処理するように構成された前記手段は、
前記空間メタデータが前記少なくとも１つのオーディオ信号が高指向性であることを示す場合、前記残差共分散特性を減衰させ、
前記空間メタデータが前記少なくとも１つのオーディオ信号が完全にアンビエントであることを示す場合、前記残差共分散特性を未処理で通過させる、
請求項８に記載の装置。

【請求項10】

前記少なくとも２つの出力オーディオ信号のターゲット共分散特性を決定するように構成された前記手段は、
前記共分散特性に基づいて、全エネルギー推定値を生成し、
前記少なくとも１つのオーディオ信号に関連付けられた前記メタデータから方向パラメータに基づいて、頭部関連伝達関数データを決定し、
前記頭部関連伝達関数データ、および、前記全エネルギー推定値に基づいて、さらに、前記少なくとも２つの出力オーディオ信号の前記ターゲット共分散特性を決定する、
ようにさらに構成される、請求項７乃至９のいずれかに記載の装置。

【請求項11】

前記少なくとも１つのオーディオ信号に基づいて、前記少なくとも１つの特性を決定するように構成され、前記少なくとも１つの特性はオーディオタイプであり、空間オーディオ再生のための前記少なくとも２つの出力オーディオ信号内の前記少なくとも１つの非相関オーディオ信号の量を制御するように構成された前記少なくとも１つの制御パラメータを決定するように構成された手段は、さらに、
前記オーディオタイプは、決定されたオーディオタイプであるか否かを決定し、
前記オーディオタイプが、前記決定されたオーディオタイプであることに基づいて、前記少なくとも１つの制御パラメータを決定する、
ように構成される、請求項１乃至１０のいずれか一項に記載の装置。

【請求項12】

前記決定されたオーディオタイプは、音声である、請求項１１に記載の装置。

【請求項13】

前記少なくとも１つのオーディオ信号は、エンコーダによって生成されたトランスポートオーディオ信号を含む、請求項１乃至１２のいずれかに記載の装置。

【請求項14】

少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリと、を備える装置であって、前記少なくとも１つのメモリ、および、前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサを用いて、前記装置に、少なくとも、
空間オーディオ信号を受信することであって、前記空間オーディオ信号は、少なくとも１つのオーディオ信号、および、該少なくとも１つのオーディオ信号に関連する空間メタデータを含む、受信することと、
前記少なくとも１つのオーディオ信号に基づいて、少なくとも１つの非相関オーディオ信号を生成することと、
空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の前記少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定することであって、前記少なくとも１つの制御パラメータは、前記少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性、ならびに、前記空間メタデータ、および、前記少なくとも１つのオーディオ信号に基づいて決定される少なくとも１つの特性のうち少なくとも１つに基づいている、決定することと、
前記空間オーディオ信号、および、少なくとも１つの非相関オーディオ信号に基づいて、空間オーディオ再生のための前記少なくとも２つの出力オーディオ信号を生成することであって、少なくとも２つの出力オーディオ信号内の前記少なくとも１つの非相関オーディオ信号の前記量は、前記少なくとも１つの制御パラメータに基づいて制御される、生成することと、
を行わせる、装置。

【請求項15】

装置のための方法であって、該方法は、
空間オーディオ信号を受信することであって、該空間オーディオ信号は、少なくとも１つのオーディオ信号、および、該少なくとも１つのオーディオ信号に関連する空間メタデータを含む、受信することと、
前記少なくとも１つのオーディオ信号に基づいて、少なくとも１つの非相関オーディオ信号を生成することと、
空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定することであって、前記少なくとも１つの制御パラメータは、前記少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性、ならびに、前記空間メタデータ、および、前記少なくとも１つのオーディオ信号に基づいて決定される少なくとも１つの特性のうちの少なくとも１つに少なくとも基づいている、決定することと、
前記空間オーディオ信号、および、少なくとも１つの非相関オーディオ信号に基づいて、空間オーディオ再生のための前記少なくとも２つの出力オーディオ信号を生成することであって、少なくとも２つの出力オーディオ信号内の前記少なくとも１つの非相関オーディオ信号の前記量は、前記少なくとも１つの制御パラメータに基づいて制御される、生成することと、
を含む方法。

【請求項16】

前記少なくとも１つの制御パラメータは、
前記少なくとも１つの非相関オーディオ信号、または、非相関化される前記少なくとも１つのオーディオ信号の少なくとも１つに適用される少なくとも１つの処理ゲインと、
前記少なくとも１つの非相関オーディオ信号、および、前記少なくとも１つのオーディオ信号の混合を制御するように構成された少なくとも１つの混合行列と、
少なくとも１つの混合行列、および、少なくとも１つの残差混合行列であって、前記少なくとも１つの混合行列、および、前記少なくとも１つの残差混合行列は、前記少なくとも１つの非相関オーディオ信号、および、前記少なくとも１つのオーディオ信号の混合を制御するように構成される、少なくとも１つの混合行列、および、少なくとも１つの残差混合行列と、
少なくとも１つの混合行列、および／または、少なくとも１つの残差混合行列の生成を制御するように構成された少なくとも１つの共分散行列であって、前記少なくとも１つの混合行列、および／または、少なくとも１つの残差混合行列は、前記少なくとも１つの非相関オーディオ信号、および／または、前記少なくとも１つのオーディオ信号の混合を制御するように構成される、共分散行列と、
のうちの少なくとも１つを備える、請求項１５に記載の方法。

【請求項17】

前記少なくとも１つの制御パラメータを決定することは、さらに、
前記少なくとも１つのオーディオ信号に基づいて、少なくとも１つの少なくとも１つのさらなる特性を決定することと、
前記少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性を決定することと、
前記少なくとも１つのオーディオ信号に基づく前記少なくとも１つのさらなる特性、および、前記少なくとも２つの出力オーディオ信号の前記少なくとも１つのさらなるターゲット特性に基づいて、少なくとも１つの第１制御パラメータを決定することと、
前記空間メタデータ、および、前記少なくとも１つのオーディオ信号に基づいて決定された少なくとも１つのプロパティのうちの少なくとも１つに基づいて、少なくとも１つの第２制御パラメータを決定し、または、前記少なくとも１つの第１制御パラメータを修正することと、
を含む、請求項１５に記載の方法。

【請求項18】

空間オーディオ再生のための前記少なくとも２つの出力オーディオ信号を生成することは、さらに、
前記少なくとも１つの第１制御パラメータ、および、少なくとも１つの第２制御パラメータ、または、前記少なくとも１つの修正された第１制御パラメータに基づいて、前記少なくとも１つのオーディオ信号、および、少なくとも１つの非相関オーディオ信号を混合することと、
空間オーディオ再生のための前記少なくとも２つの出力オーディオ信号を出力することと、
を含む、請求項１７に記載の方法。

【請求項19】

前記少なくとも１つの第２制御パラメータ、または、前記修正された少なくとも１つの第１制御パラメータを決定することは、前記空間メタデータ内の少なくとも１つの直接対全エネルギー比パラメータに基づく、請求項１７または１８に記載の方法。

【請求項20】

前記少なくとも１つのオーディオ信号に基づく前記少なくとも１つのさらなる特性は、共分散特性であり、前記少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性は、前記少なくとも２つの出力オーディオ信号のターゲット共分散特性である、請求項１７乃至１９のいずれか一項に記載の方法。

【請求項21】

【請求項22】

前記少なくとも１つのオーディオ信号に関連付けられた前記空間メタデータに基づいて、前記残差共分散特性を処理することは、
前記少なくとも１つのオーディオ信号が高指向性であることを前記空間メタデータが示す場合、前記残差共分散特性を減衰させることと、
前記少なくとも１つのオーディオ信号が完全にアンビエントであることを前記空間メタデータが示す場合、前記残差共分散特性を未処理で通過させることと、
を含む、請求項２１に記載の方法。

【請求項23】

前記少なくとも２つの出力オーディオ信号の前記ターゲット共分散特性を決定することは、
前記共分散特性に基づいて、全エネルギー推定値を生成することと、
前記少なくとも１つのオーディオ信号に関連付けられた前記メタデータから、方向パラメータに基づいて、頭部関連伝達関数データを決定することと、
前記頭部関連伝達関数データ、および、前記全エネルギー推定値にさらに基づいて、前記少なくとも２つの出力オーディオ信号の前記ターゲット共分散特性を決定することと、
を含む、請求項２０に記載の方法。

【請求項24】

空間オーディオ信号を受信することであって、該空間オーディオ信号は、少なくとも１つのオーディオ信号、および、該少なくとも１つのオーディオ信号に関連する空間メタデータを含む、受信することと、
前記少なくとも１つのオーディオ信号に基づいて、少なくとも１つの非相関オーディオ信号を生成することと、
空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の前記少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定することであって、前記少なくとも１つの制御パラメータは、前記少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性、ならびに、前記空間メタデータ、および、前記少なくとも１つのオーディオ信号に基づいて決定される少なくとも１つの特性のうちの少なくとも１つにすくなくとも基づいている、決定することと、
前記空間オーディオ信号、および、少なくとも１つの非相関オーディオ信号に基づいて、空間オーディオ再生のための前記少なくとも２つの出力オーディオ信号を生成することであって、少なくとも２つの出力オーディオ信号内の前記少なくとも１つの非相関オーディオ信号の前記量は、前記少なくとも１つの制御パラメータに基づいて制御される、生成することと、
を装置に少なくとも実行させるための命令を含むコンピュータプログラム、または、プログラム命令を含むコンピュータ可読媒体。

【請求項25】

空間オーディオ信号を受信することであって、該空間オーディオ信号は、少なくとも１つのオーディオ信号、および、該少なくとも１つのオーディオ信号に関連する空間メタデータを含む、受信することと、
前記少なくとも１つのオーディオ信号に基づいて、少なくとも１つの非相関オーディオ信号を生成することと、
空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の前記少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定することであって、前記少なくとも１つの制御パラメータは、前記少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性、ならびに、前記空間メタデータ、および、前記少なくとも１つのオーディオ信号に基づいて決定される少なくとも１つの特性のうちの少なくとも１つに基づいている、決定することと、
前記空間オーディオ信号、および、少なくとも１つの非相関オーディオ信号に基づいて、空間オーディオ再生のための前記少なくとも２つの出力オーディオ信号を生成することであって、少なくとも２つの出力オーディオ信号内の前記少なくとも１つの非相関オーディオ信号の前記量は、前記少なくとも１つの制御パラメータに基づいて制御される、生成することと、
を装置に少なくとも実行させるためのプログラム命令を含む、非一時的なコンピュータ可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、空間オーディオ表現およびレンダリングのための装置および方法に関するものであるが、オーディオデコーダのためのオーディオ表現に限定されるものではない。

【背景技術】

【0002】

イマーシブオーディオコーデックは、低ビットレート動作から透過性まで、さまざまな動作点をサポートするように実装されている。このようなコーデックの例として、イマーシブ音声オーディオサービス（ＩＶＡＳ）コーデックがあり、これは、３ＧＰＰ（登録商標）４Ｇ／５Ｇネットワークなどの通信ネットワークでの使用に適しており、仮想現実（ＶＲ）のイマーシブ音声やオーディオなどのイマーシブサービスでの使用も想定されている。このオーディオコーデックは、音声、音楽、一般的なオーディオのエンコード、デコード、レンダリングに対応することが期待されている。さらに、音場と音源の空間情報を含むチャンネルベースのオーディオとシーンベースのオーディオ入力をサポートすることが期待されている。また、会話型サービスを実現するために低遅延で動作し、様々な伝送条件下で高いエラーロバスト性をサポートすることも期待されているコーデックである。

【0003】

入力信号は、ＩＶＡＳエンコーダに、サポートされているいくつかのフォーマットのうちの１つで（そして、フォーマットのいくつかの許容される組み合わせで）提示することができる。例えば、モノラル音声信号（メタデータなし）は、拡張音声サービス（ＥＶＳ）エンコーダを使用してエンコードすることができる。その他の入力フォーマットでは、ＩＶＡＳの新しいエンコーディングツールを利用することができる。ＩＶＡＳに提案されている入力フォーマットの１つは、メタデータ支援空間オーディオ（ＭＡＳＡ）フォーマットであり、エンコーダは、例えば、モノラルとステレオのエンコーディングツールとメタデータエンコーディングツールとを組み合わせて、フォーマットの効率的な伝送に利用することができる。ＭＡＳＡは、空間オーディオ処理に適したパラメトリック空間オーディオフォーマットである。パラメトリック空間オーディオ処理は、音（または、音場）の空間的な様相をパラメータのセットを用いて記述するオーディオ信号処理の一分野である。例えば、マイクロフォンアレイからのパラメトリック空間オーディオキャプチャでは、マイクロフォンアレイ信号から、例えば、周波数帯域における直接－全体比または周囲－全体エネルギー比として表される、周波数帯域における音の方向、および、周波数帯域におけるキャプチャされた音の方向性部分と非方向性部分の相対エネルギーなどのパラメータのセットを推定することが、典型的かつ有効な選択である。これらのパラメータは、マイクロフォンアレイの位置においてキャプチャされた音の知覚的な空間特性をよく表すことが知られている。これらのパラメータは、バイノーラルヘッドフォン、ラウドスピーカー、または、アンビソニックスのような他のフォーマットに応じて、空間的な音の合成に利用することが可能である。

【0004】

例えば、２チャンネル（ステレオ）のオーディオ信号および空間メタデータが存在し得る。空間メタデータは、さらに、時間－周波数パラメータ間隔における音の到来方向を記述する方向インデックス、レベル／位相差、方向インデックスに対するエネルギー比を記述する直接対全体エネルギー比、拡散性、方向インデックスに対するエネルギーの広がりを記述する拡散コヒーレンスなどのコヒーレンス、周囲の方向に対する無方向性音のエネルギー比を記述する拡散対全体エネルギー比、周囲の方向に対する無方向性音のコヒーレンスを記述するサラウンドコヒーレンス、エネルギー比の合計が１であるという要件を満たすための残響（マイクノイズなど）のエネルギー比を記述する残響対全エネルギー比、方向指標から発生した音の距離を対数スケールで、メートルで記述する距離、マルチチャンネルのラウドスピーカー信号に関する共分散行列、または、これらの共分散行列に関するデータ、例えば、中心予測係数、１対２復号化係数（ＭＰＥＧサラウンドなどで使用）の特定のデコーダを導く他のパラメータ、のようなパラメータを定義してもよい。これらのパラメータは、いずれも周波数帯域で決定することができる。

【0005】

パラメトリック空間オーディオ（すなわち、オーディオ信号（複数可）および関連する空間メタデータ、例えば、ＭＡＳＡストリーム）のバイノーラル（または、他の）出力へのレンダリングは、既知である。典型的な状態は、メタデータとともにストリームに２つのオーディオチャネル信号があるものである。メタデータにおいて時間－周波数間隔ごとに１または２（または、それ以上）の方向がある場合がある。

【0006】

Ｖｉｌｋａｍｏ，Ｊ．，Ｂａｃｋｓｔｒｏｍ，Ｔ．ａｎｄＫｕｎｔｚ，Ａ．，２０１３．Ｏｐｔｉｍｉｚｅｄｃｏｖａｒｉａｎｃｅｄｏｍａｉｎｆｒａｍｅｗｏｒｋｆｏｒｔｉｍｅ－ｆｒｅｑｕｅｎｃｙｐｒｏｃｅｓｓｉｎｇｏｆｓｐａｔｉａｌａｕｄｉｏ．ＪｏｕｒｎａｌｏｆｔｈｅＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ，６１（６），ｐｐ．４０３－４１１は、入力信号の共分散行列を周波数帯で推定し、出力信号のターゲット共分散行列を空間メタデータに基づいて決定する、空間オーディオレンダリングに特に適した１つの方法を提示した。これらの行列に基づいて、オーディオ信号に適用したときに、所望のターゲット共分散行列特性を有する出力信号を生成する、周波数帯域において、最小二乗最適化混合行列が決定される。さらに、ターゲット共分散行列が、取得可能な入力信号よりも多くの非干渉性の信号成分を必要とする場合、入力信号をさらに非相関処理し、「残差信号」を得ることができ、残差信号は、出力信号に混合すると、出力において必要な非干渉性を提供する。

【発明の概要】

【0007】

第１の態様によれば、空間オーディオ信号を受信し、空間オーディオ信号は、少なくとも１つのオーディオ信号、および、少なくとも１つのオーディオ信号に関連付けられた空間メタデータを含み、少なくとも１つのオーディオ信号に基づいて、少なくとも１つの非相関オーディオ信号を生成し、空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定し、少なくとも１つの制御パラメータは、少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性、及び、空間メタデータと少なくとも１つのオーディオ信号に基づいて決定される少なくとも１つの特性とのうちの少なくとも１つに少なくとも基づいており、空間オーディオ信号および少なくとも１つの非相関オーディオ信号に基づく空間オーディオ再生のための少なくとも２つの出力オーディオ信号を生成する、ように構成された手段を有する装置であって、少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量が、少なくとも１つの制御パラメータに基づいて制御される、装置が提供される。

【0008】

少なくとも１つの制御パラメータは、少なくとも１つの非相関オーディオ信号、または、非相関化されている少なくとも１つのオーディオ信号の少なくとも一方に適用される少なくとも１つの処理ゲインと、少なくとも１つの非相関オーディオ信号と少なくとも１つのオーディオ信号との混合を制御するように構成される少なくとも１つの混合行列と、少なくとも１つの混合行列および少なくとも１つの残差混合行列であって、少なくとも１つの混合行列および少なくとも１つの残差混合行列は、少なくとも１つの非相関オーディオ信号および少なくとも１つのオーディオ信号の混合を制御するように構成される、少なくとも１つの混合行列および少なくとも１つの残差混合行列と、少なくとも１つの混合行列、および／または、少なくとも１つの残差混合行列の生成を制御するように構成された少なくとも１つの共分散行列であって、少なくとも１つの混合行列、および／または、少なくとも１つの残差混合行列は、少なくとも１つの非相関オーディオ信号、および／または、少なくとも１つのオーディオ信号の混合を制御するように構成されている、共分散行列と、のうちの少なくとも１つを含んでもよい。

【0009】

空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定するように構成された手段は、少なくとも１つのオーディオ信号に基づいて、少なくとも１つの少なくとも１つの更なる特性を決定し、少なくとも２つの出力オーディオ信号の少なくとも１つの更なるターゲット特性を決定し、少なくとも１つのオーディオ信号に基づく少なくとも１つのさらなる特性と、少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性と、に基づいて、少なくとも１つの第１の制御パラメータを決定し、空間メタデータ、および、少なくとも１つのオーディオ信号に基づいて決定された少なくとも１つの特性のうちの少なくとも１つに基づいて、少なくとも１つの第２の制御パラメータを決定し、または、少なくとも１つの第１の制御パラメータを修正する、ようにさらに構成されてよい。

【0010】

空間オーディオ再生のための少なくとも２つの出力オーディオ信号を生成するように構成された手段は、少なくとも１つの第１の制御パラメータ、および、少なくとも１つの第２の制御パラメータまたは少なくとも１つの修正された第１の制御パラメータに基づいて、少なくとも１つのオーディオ信号および少なくとも１つの非相関オーディオ信号を混合するようにさらに構成されてもよい。

【0011】

本手段は、少なくとも２つの出力オーディオ信号を空間オーディオ再生のために出力するようにさらに構成されてもよい。

【0012】

本手段は、空間メタデータ内の少なくとも１つの直接対全エネルギー比パラメータに基づいて、少なくとも１つの第２制御パラメータ、または、修正された少なくとも１つの第１制御パラメータを決定するように構成されてもよい。

【0013】

少なくとも１つのオーディオ信号に基づく少なくとも１つのさらなる特性は、共分散であってもよく、少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性は、少なくとも２つの出力オーディオ信号のターゲット共分散であってよい。

【0014】

少なくとも１つの第２制御パラメータを決定する、または、少なくとも１つの第１制御パラメータを修正するように構成された手段は、少なくとも２つの出力オーディオ信号の共分散特性、および、ターゲット共分散特性に基づいて、残差共分散特性を決定し、少なくとも１つのオーディオ信号に関連付けられた空間メタデータに基づいて、残差共分散特性を処理する、ように構成されてよい。

【0015】

少なくとも１つのオーディオ信号に関連付けられた空間メタデータに基づいて残差共分散特性を処理するように構成された手段は、少なくとも１つのオーディオ信号が高指向性であることを空間メタデータが示す場合、残差共分散特性を減衰させ、少なくとも１つのオーディオ信号が完全にアンビエントであることを空間メタデータが示す場合、残差共分散特性を未処理で渡すように構成されてよい。

【0016】

少なくとも２つの出力オーディオ信号のターゲット共分散を決定するように構成された手段は、さらに、共分散特性に基づいて全エネルギー推定値を生成し、少なくとも１つのオーディオ信号に関連付けられたメタデータから方向パラメータに基づいて頭部関連伝達関数データを決定し、頭部関連伝達関数データおよび全エネルギー推定値にさらに基づいて、少なくとも２つの出力オーディオ信号のターゲット共分散特性を決定するように構成されてよい。

【0017】

本手段は、少なくとも１つのオーディオ信号に基づいて、少なくとも１つの特性を決定するように構成されてもよく、少なくとも１つの特性はオーディオタイプであり、空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定するように構成された手段は、さらに、オーディオタイプが決定済みオーディオタイプであるか否かを決定し、決定済みオーディオタイプであるオーディオタイプに基づいて、少なくとも１つの制御パラメータを決定する、ように構成されてよい。

【0018】

決定されたオーディオタイプは、音声であってよい。

【0019】

少なくとも１つのオーディオ信号は、エンコーダによって生成されたトランスポートオーディオ信号で構成されてよい。

【0020】

第２の態様によれば、空間オーディオ信号を受信することであって、空間オーディオ信号は、少なくとも１つのオーディオ信号、および、少なくとも１つのオーディオ信号に関連付けられた空間メタデータを含む、受信することと、少なくとも１つのオーディオ信号に基づいて、少なくとも１つの非相関オーディオ信号を生成することと、空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定することであって、少なくとも１つの制御パラメータが、少なくとも２つの出力オーディオ信号のさらなるターゲット特性と、空間メタデータ、および、少なくとも１つのオーディオ信号に基づいて決定される少なくとも１つのプロパティのうちの少なくとも１つに少なくとも基づく、決定することと、空間オーディオ信号および少なくとも１つの非相関オーディオ信号に基づいて、空間オーディオ再生のための少なくとも２つの出力オーディオ信号を生成することであって、少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量が、少なくとも１つの制御パラメータに基づいて制御される、生成することと、を含んでよい。

【0021】

少なくとも１つの制御パラメータは、少なくとも１つの非相関オーディオ信号または非相関化されている少なくとも１つのオーディオ信号の少なくとも１つに適用される少なくとも１つの処理ゲインと、少なくとも１つの非相関オーディオ信号および少なくとも１つのオーディオ信号の混合を制御するように構成される少なくとも１つの混合行列と、少なくとも１つの混合行列および少なくとも１つの残差混合行列であって、少なくとも１つの混合行列および少なくとも１つの残差混合行列は、少なくとも１つの非相関オーディオ信号および少なくとも１つのオーディオ信号の混合を制御するように構成される、少なくとも１つの混合行列および少なくとも１つの残差混合行列と、少なくとも１つの混合行列、および／または、少なくとも１つの残差混合行列の生成を制御するように構成された少なくとも１つの共分散行列であって、少なくとも１つの混合行列、および／または、少なくとも１つの残差混合行列は、少なくとも１つの非相関関連オーディオ信号、および／または、少なくとも１つのオーディオ信号の混合を制御するように構成されている、共分散行列と、のうちの少なくとも１つを含んでよい。

【0022】

空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定することは、さらに、少なくとも１つのオーディオ信号に基づいて少なくとも１つの少なくとも１つのさらなる特性を決定することと、少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性を決定することと、少なくとも１つのオーディオ信号に基づく少なくとも１つのさらなる特性、および、少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性に基づいて、少なくとも１つの第１制御パラメータを決定することと、空間メタデータ、および、少なくとも１つのオーディオ信号に基づいて決定された少なくとも１つのプロパティのうちの少なくとも１つに基づいて、少なくとも１つの第２制御パラメータを決定し、または、少なくとも１つの第１制御パラメータを修正することと、を含んでよい。

【0023】

空間オーディオ再生のための少なくとも２つの出力オーディオ信号を生成することは、少なくとも１つの第１制御パラメータ、および、少なくとも１つの第２制御パラメータ、または、少なくとも１つの修正された第１制御パラメータに基づいて、少なくとも１つのオーディオ信号および少なくとも１つの非相関オーディオ信号を混合することをさらに含んでよい。

【0024】

本方法は、空間オーディオ再生のための少なくとも２つの出力オーディオ信号を出力することをさらに含んでよい。

【0025】

本方法は、空間メタデータ内の少なくとも１つの直接対全エネルギー比パラメータに基づいて、少なくとも１つの第２制御パラメータ、または、修正された少なくとも１つの第１制御パラメータを決定することをさらに含んでよい。

【0026】

少なくとも１つのオーディオ信号に基づく少なくとも１つのさらなる特性は、共分散特性であってよく、少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性は、少なくとも２つの出力オーディオ信号のターゲット共分散特性であってよい。

【0027】

少なくとも１つの第２制御パラメータを決定すること、または、少なくとも１つの第１制御パラメータを変更することは、少なくとも２つの出力オーディオ信号の共分散特性およびターゲット共分散特性に基づいて、残差共分散特性を決定することと、少なくとも１つのオーディオ信号に関連する空間メタデータに基づいて残差共分散特性を処理することと、を含んでよい。

【0028】

少なくとも１つのオーディオ信号に関連付けられた空間メタデータに基づいて残差共分散特性を処理することは、少なくとも１つのオーディオ信号が高指向性であることを空間メタデータが示す場合、残差共分散特性を減衰させることと、少なくとも１つのオーディオ信号が完全にアンビエントであることを空間メタデータが示す場合、残差共分散特性を未処理で通過させることと、を含んでよい。

【0029】

少なくとも２つの出力音声信号のターゲット共分散プロパティを決定することは、共分散特性に基づいて、全エネルギー推定値を生成することと、少なくとも１つのオーディオ信号に関連するメタデータから方向パラメータに基づいて頭部関連伝達関数データを決定することと、頭部関連伝達関数データおよび全エネルギー推定値に基づいて、少なくとも２つの出力オーディオ信号のターゲット共分散特性をさらに決定することと、をさらに含んでよい。

【0030】

この方法は、少なくとも１つのオーディオ信号に基づいて、少なくとも１つの特性を決定することをさらに含み、少なくとも１つの特性はオーディオタイプであり、空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定することとは、オーディオタイプが決定されたオーディオタイプであるか否かを決定することと、オーディオタイプが決定されたオーディオタイプであることに基づいて、少なくとも１つの制御パラメータを決定することと、をさらに備えてよい。

【0031】

決定されたオーディオの種類は、音声であってよい。

【0032】

少なくとも１つのオーディオ信号は、エンコーダによって生成されたトランスポートオーディオ信号を含んでよい。

【0033】

第３の態様によれば、少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリとを備える装置であって、少なくとも１つのメモリおよびコンピュータプログラムコードは、少なくとも１つのプロセッサによって、装置に少なくとも、空間オーディオ信号を受信することであって、空間オーディオ信号は、少なくとも１つのオーディオ信号、および、少なくとも１つのオーディオ信号に関連付けられた空間メタデータを含む、受信することと、少なくとも１つのオーディオ信号に基づいて、少なくとも１つの非相関オーディオ信号を生成することと、空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定することであって、少なくとも１つの制御パラメータは、少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性、および、空間メタデータと少なくとも１つのオーディオ信号に基づいて決定される少なくとも１つのプロパティのうちの少なくとも１つに基づく、決定することと、空間オーディオ信号と少なくとも１つの非相関オーディオ信号に基づいて、空間オーディオ再生のための少なくとも２つの出力オーディオ信号を生成することであって、少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量は、少なくとも１つの制御パラメータに基づいて制御される、生成することと、を実行するように構成される、装置が提供される。

【0034】

少なくとも１つの制御パラメータは、少なくとも１つの非相関オーディオ信号、または、非相関化されている少なくとも１つのオーディオ信号の少なくとも１つに適用される少なくとも１つの処理ゲインと、少なくとも１つの非相関オーディオ信号および少なくとも１つのオーディオ信号の混合を制御するように構成される少なくとも１つの混合行列と、少なくとも１つの混合行列および少なくとも１つの残差混合行列であって、少なくとも１つの非相関オーディオ信号および少なくとも１つのオーディオ信号の混合を制御するように構成された少なくとも１つの混合行列および少なくとも１つの残差混合行列と、少なくとも１つの混合行列、および／または、少なくとも１つの残差混合行列の生成を制御するように構成された少なくとも１つの共分散行列であって、少なくとも１つの混合行列、および／または、少なくとも１つの残差混合行列は、少なくとも１つの非相関オーディオ信号、および／または、少なくとも１つのオーディオ信号の混合を制御するように構成されている、共分散行列と、のうちの少なくとも１つを備えてよい。

【0035】

空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定させる装置は、さらに、少なくとも１つのオーディオ信号に基づいて、少なくとも１つの少なくとも１つのさらなる特性を決定することと、少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性を決定することと、少なくとも１つのオーディオ信号に基づく少なくとも１つのさらなる特性、および、少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性に基づいて、少なくとも１つの第１制御パラメータを決定することと、空間メタデータ、および、少なくとも１つのオーディオ信号に基づいて決定された少なくとも１つのプロパティのうちの少なくとも１つに基づいて、少なくとも１つの第２制御パラメータを決定し、または、少なくとも１つの第１制御パラメータを修正することと、を実行させてよい。

【0036】

空間オーディオ再生のための少なくとも２つの出力オーディオ信号を生成させられる装置は、少なくとも１つの第１制御パラメータ、および、少なくとも１つの第２制御パラメータまたは少なくとも１つの修正された第１制御パラメータに基づいて、少なくとも１つのオーディオ信号および少なくとも１つの非相関オーディオ信号を混合するようにさらにされてよい。

【0037】

装置は、空間オーディオ再生のための少なくとも２つの出力オーディオ信号を出力するようにさらにされてよい。

【0038】

装置は、空間メタデータ内の少なくとも１つの直接対全エネルギー比パラメータに基づいて、少なくとも１つの第２制御パラメータまたは修正された少なくとも１つの第１制御パラメータを決定するようにさらにされてよい。

【0039】

【0040】

少なくとも１つの第２制御パラメータを決定する、または、少なくとも１つの第１制御パラメータを修正するようにされた装置は、少なくとも１つの第１制御パラメータに基づく残差共分散特性、および、少なくとも２つの出力音声信号の目標共分散特性を決定し、少なくとも１つのオーディオ信号に関連付けられた空間メタデータに基づいて、残差共分散特性を処理する、ようにされてもよい。

【0041】

少なくとも１つのオーディオ信号に関連付けられた空間メタデータに基づいて残差共分散特性を処理するようにされた装置は、少なくとも１つのオーディオ信号が高指向性であることを空間メタデータが示す場合、残差共分散特性を減衰させ、少なくとも１つのオーディオ信号が完全にアンビエントであることを空間メタデータが示す場合、残差共分散特性を未処理で通過させる、ようにされてもよい。

【0042】

少なくとも２つの出力オーディオ信号のターゲット共分散特性を決定するようにされた装置は、さらに、共分散特性に基づいて全エネルギー推定値を生成し、少なくとも１つのオーディオ信号に関連付けられたメタデータから方向パラメータに基づいて頭部関連伝達関数データを決定し、頭部関連伝達関数データおよび全エネルギー推定値に基づいて、少なくとも２つの出力オーディオ信号のターゲット共分散特性をさらに決定する、ようにされてよい。

【0043】

装置は、少なくとも１つのオーディオ信号に基づいて少なくとも１つの特性を決定するようにさらにされてよく、少なくとも１つの特性はオーディオタイプであり、空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定するようにされた装置は、さらに、オーディオタイプが決定済みオーディオタイプであるか否かを決定し、オーディオタイプが決定されたオーディオタイプであることに基づいて、少なくとも１つの制御パラメータを決定する、ようにされてよい。

【0044】

決定されたオーディオタイプは、音声であってよい。

【0045】

少なくとも１つのオーディオ信号は、エンコーダによって生成されたトランスポートオーディオ信号を含んでよい。

【0046】

第４の態様によれば、空間オーディオ信号を受信するように構成された受信回路であって、空間オーディオ信号は、少なくとも１つのオーディオ信号、および、少なくとも１つのオーディオ信号に関連付けられた空間メタデータを含む、受信回路と、少なくとも１つのオーディオ信号に基づいて、少なくとも１つの非相関オーディオ信号を生成するように構成された生成回路と、空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定するように構成された決定回路であって、少なくとも１つの制御パラメータは、少なくとも、少なくとも２つの出力オーディオ信号のさらなるターゲット特性、および、空間メタデータと少なくとも１つのオーディオ信号に基づく少なくとも１つの特性のうちの少なくとも１つに少なくとも基づく、決定回路と、空間オーディオ信号と少なくとも１つの非相関オーディオ信号に基づいて、空間オーディオ再生のための少なくとも２つの出力オーディオ信号を生成するように構成された生成回路であって、少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量が、少なくとも１つの制御パラメータに基づいて制御される、生成回路と、を備える装置が提供される。

【0047】

第５の態様によれば、装置に少なくとも、空間オーディオ信号を受信することであって、空間オーディオ信号は、少なくとも１つのオーディオ信号、および、少なくとも１つのオーディオ信号に関連する空間メタデータを含む、受信することと、少なくとも１つのオーディオ信号に基づいて、少なくとも１つの非相関オーディオ信号を生成することと、空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定することとであって、少なくとも１つの制御パラメータは、少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性、ならびに、空間メタデータ、および、少なくとも１つのオーディオ信号に基づいて決定される少なくとも１つの特性のうちの少なくとも１つに少なくとも基づく、決定することと、空間オーディオ信号および少なくとも１つの非相関オーディオ信号に基づいて空間オーディオ再生のための少なくとも２つの出力オーディオ信号を生成することであって、少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量が、少なくとも１つの制御パラメータに基づいて制御される、生成することと、を実行させるための命令［または、プログラム命令を含むコンピュータ可読媒体］を含むコンピュータプログラムが提供される。

【0048】

第６の態様によれば、装置に、少なくとも、空間オーディオ信号を受信し、空間オーディオ信号は、少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連する空間メタデータとを含み、少なくとも１つのオーディオ信号に基づいて少なくとも１つの非相関オーディオ信号を生成し、空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定し、少なくとも１つの制御パラメータが、少なくとも２つの出力オーディオ信号の少なくとも１つのターゲットさらなる特性と少なくとも１つに基づく。空間メタデータと、少なくとも１つのオーディオ信号に基づいて決定される少なくとも１つのプロパティと、空間オーディオ信号と少なくとも１つの非相関オーディオ信号に基づいて空間オーディオ再生のための少なくとも２つの出力オーディオ信号を生成し、少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量が、少なくとも１つの制御パラメータに基づいて制御される、ことを実行させるためのプログラム命令を含む非一時的なコンピュータ可読媒体が提供される。

【0049】

第７の態様によれば、空間オーディオ信号を受信する手段であって、空間オーディオ信号は、少なくとも１つのオーディオ信号、および、少なくとも１つのオーディオ信号に関連付けられた空間メタデータを含む、手段と、少なくとも１つのオーディオ信号に基づいて少なくとも１つの非相関オーディオ信号を生成する手段と、空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定する手段であって、少なくとも１つの制御パラメータは、少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性、ならびに、空間メタデータ、および、少なくとも１つのオーディオ信号に基づいて決定される少なくとも１つの特性のうちの少なくとも１つに少なくとも基づく、手段と、空間オーディオ信号、および、少なくとも１つの非相関オーディオ信号に基づいて空間オーディオ再生のための少なくとも２つの出力オーディオ信号を生成する手段であって、少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量は、少なくとも１つの制御パラメータに基づいて制御される、手段と、を備える装置が提供される。

【0050】

第８の態様によれば、装置に少なくとも、空間オーディオ信号を受信することであって、空間オーディオ信号は、少なくとも１つのオーディオ信号、および、少なくとも１つのオーディオ信号に関連付けられた空間メタデータを含む、受信することと、少なくとも１つのオーディオ信号に基づいて、少なくとも１つの非相関オーディオ信号を生成することと、空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定することであって、少なくとも１つの制御パラメータは、少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性、ならびに、空間メタデータ、および、少なくとも１つのオーディオ信号に基づいて決定される少なくとも１つの特性のうちの少なくとも１つに少なくとも基づく、決定することと、空間オーディオ信号と少なくとも１つの非相関オーディオ信号に基づいて、空間オーディオ再生のための少なくとも２つの出力オーディオ信号を生成することであって、少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量は、少なくとも１つの制御パラメータに基づいて制御される、生成することと、を実行させるためのプログラム命令を含むコンピュータ可読媒体が提供される。

【0051】

上記の方法の作用を実行するための手段を含む装置。

【0052】

上記に記載の方法の作用を実行するように構成された装置。

【0053】

上記の方法をコンピュータに実行させるためのプログラム命令を含む、コンピュータプログラム。

【0054】

媒体に格納されたコンピュータプログラム製品は、装置に本明細書に記載の方法を実行させてよい。

【0055】

電子機器は、本明細書に記載されるような装置を含んでよい。

【0056】

チップセットは、本明細書で説明するような装置を含んでよい。

【0057】

本願発明の実施形態は、従来技術に関連する問題点を解決することを目的とする。

【図面の簡単な説明】

【0058】

本願のより良い理解のために、次に、添付の図面を例として参照することにする。

【図1】図１は、いくつかの実施形態を実施するのに適した装置のシステムを概略的に示す。

【図2】図２は、いくつかの実施形態による例示的な装置の動作のフロー図である。

【図3】図３は、いくつかの実施形態による図１に示すような例示的な合成プロセッサを概略的に示す。

【図4】図４は、いくつかの実施形態による図３に示すような例示的な合成プロセッサの動作のフロー図である。

【図5】図５は、いくつかの実施形態による図３に示すような例示的な空間合成プロセッサを概略的に示す図である。

【図6】図６は、いくつかの実施形態による図５に示すような例示的な空間シンセサイザの動作のフロー図である。

【図7】図７は、以前の図に示された装置を実装するのに適した例示的な装置を示す図である。

【発明を実施するための形態】

【0059】

上述したようなオーディオ信号のレンダリングは、ターゲット共分散行列と一致する共分散行列を有する信号を生成し、したがって、空間知覚がターゲットと一致するため、良好な品質のオーディオ出力を生成し得る。さらに、非相関エネルギーは、それが必要なとき（すなわち、入力信号の混合によって必要な非干渉性が得られないとき）に追加されてよい。したがって、非相関によるアーティファクト（付加された残響の知覚等）は最小化される。

【0060】

本書で使用するオーディオ信号という用語は、単一のオーディオチャンネルを指す場合もあれば、２つ以上のチャンネルを持つオーディオ信号を指す場合もある。

【0061】

多くの状況、例えば、レンダリングされるオーディオ信号が主に残響／アンビエンスを含む場合、（最小化された量の）非相関による悪影響は無視できるかもしれない。しかしながら、非相関を最小化しても、非相関の量が音質を劣化させる状況も存在する。すなわち、非相関は、特に、話し声などの特定の音の知覚に影響を与え、残響がありすぎる音を作り出すことが知られている。したがって、異なる方向に２つの音源があるという状況であれば、合成すべきインコヒーレンスは、専ら残響／アンビエンスに関するものではなく、複数の音源をレンダリングするためのインコヒーレンスを生成することである可能性がある。このような場合、最小二乗最適化法を実施しても、非相関アーティファクトが聴き取れるようになる場合がある。非相関エネルギーの使用を無効にすることで、非相関エネルギーの使いすぎを回避することは可能かもしれない。しかしながら、出力信号が相互にコヒーレントで、アンビエントまたは残響のサウンドシーンを忠実に表現できないため、非相関エネルギーの使用を無効にすると、空間および包囲感が著しく減少する知覚が生じる可能性がある。

【0062】

本明細書の実施形態内で議論される概念は、残響が多すぎるか、または、広がりと包囲感が欠けているようにレンダリングされ、したがってオーディオ品質を悪化させる、複雑なサウンドシーンのあらゆる問題を克服することができるかもしれない。

【0063】

したがって、実施形態は、パラメトリック空間サウンドレンダリングに関する。空間パラメータ推定は、マイクロフォンアレイ信号に基づいてよい。方向及び比率パラメータを含む空間メタデータを決定する一例は、Ｐｕｌｋｋｉ，Ｖ．，２００７Ｓｐａｔｉａｌｓｏｕｎｄｒｅｐｒｏｄｕｃｔｉｏｎｗｉｔｈｄｉｒｅｃｔｉｏｎａｌａｕｄｉｏｃｏｄｉｎｇ．ＪｏｕｒｎａｌｏｆｔｈｅＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ，５５（６），ｐｐ．５０３－５１６で議論されるような方向オーディオコーディング（ＤｉｒＡＣ）であり、一次キャプチャ信号を入力として使用する。ＤｉｒＡＣの変形は、高次ＤｉｒＡＣであり、多くの方向性を同時に推定することができる、Ｐｏｌｉｔｉｓ，Ａ．，Ｖｉｌｋａｍｏ，Ｊ．ａｎｄＰｕｌｋｋｉ，Ｖ．，２０１５，“Ｓｅｃｔｏｒ－ｂａｓｅｄｐａｒａｍｅｔｒｉｃｓｏｕｎｄｆｉｅｌｄｒｅｐｒｏｄｕｃｔｉｏｎｉｎｔｈｅｓｐｈｅｒｉｃａｌｈａｒｍｏｎｉｃｄｏｍａｉｎ”，ＩＥＥＥＪｏｕｒｎａｌｏｆＳｅｌｅｃｔｅｄＴｏｐｉｃｓｉｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，９（５），ｐｐ．８５２－８６６は、多数の方向推定を提供する。多くのさらなるパラメータ推定方法が存在し、そのうちのいずれかが、いくつかの実施形態において実装されてもよく、例えば、英国公開特許出願ＧＢ１６１９５７３．７は、携帯電話等の水平に平らなデバイスから３６０／３Ｄ空間メタデータを取得するための適切な手段を説明している。既知の空間メタデータ決定技術のいずれかを、いくつかの実施形態に適用することができる。

【0064】

本明細書で議論される実施形態は、例えば、空間オーディオデコーダにおけるパラメトリックオーディオ信号（１つ以上のオーディオ信号及び空間メタデータを含む）のレンダリングに関するものである。実施形態は、入力信号特性の測定を使用して、レンダリングを制御し、所望の空間出力を達成するために必要な非相関の量を最適化する、従来のレンダリング技術を改善するように構成されてよい。実施形態は、さらに、残りの非相関が、知覚されるオーディオ品質に有害な影響を与えると予想される、それらのサウンドシーンのレンダリング時に非相関音を減衰し、それ以外の場合は、適切な空間を維持するために非相関を維持するように、適用される非相関音の量を制御する手段を提供する。非相関性の低減は、いくつかの実施形態において、空間メタデータを監視することに基づいてもよく、直接対全体エネルギー比パラメータに基づいて、適用される非相関音エネルギーを減衰する程度が決定される。

【0065】

本明細書の実施形態で議論される概念は、オーディオ信号の空間オーディオ再生と、オーディオ信号を空間的にレンダリングする方法の情報を含む関連する空間メタデータに関し、残響／周囲音に対する正しい広さ及びアンビエンス維持しながら、（付加された残響などの）気を散らす非相関アーティファクトなしで、直接音源（複数同時の直接音源でさえ）をレンダリングできる実施形態が提供されている。さらにこれらの実施形態は、入力信号の入力共分散特性、および、出力信号のターゲット共分散特性を決定し、ターゲット共分散特性に到達するために必要な非相関エネルギー量を決定し、空間メタデータに基づいて非相関エネルギー量の制限を決定し、入力オーディオ信号を非相関化し、入力オーディオ信号、非相関入力オーディオ信号、非相関性の決定した制限、および、共分散特性に基づいて、空間出力信号をレンダリングするように構成されてよい。

【0066】

いくつかの実施形態では、決定された共分散特性は、入力信号の共分散行列であり、ターゲット共分散特性は、（オーディオ信号および関連する空間メタデータに基いて導出される）ターゲット共分散行列である。決定された共分散特性に基づいて、混合行列が導出されてよい。さらに、いくつかの実施形態は、ターゲット共分散行列の非干渉性特性を得るために必要な非相関エネルギーの量を決定するように構成されてよい。次に、いくつかの実施形態は、空間メタデータに基づいて、非相関エネルギーの量を制限するように構成されてよい。例えば、空間メタデータが直接対全エネルギー比を含む場合、非相関エネルギーの最大量は、係数１－ｓｕｍ（直接対全エネルギー比）を使用して制限されてよい。最後に、いくつかの実施形態では、空間オーディオ信号（例えば、バイノーラルオーディオ信号）は、入力オーディオ信号、非相関入力オーディオ信号、制限情報、および、混合行列を使用してレンダリングされる。

【0067】

いくつかの実施形態では、直接音成分は、顕著な非相関化なしに、混合、および／または、（複素値）ゲイン処理を用いてほとんどレンダリングすることができ、したがって、非相関化アーティファクトは回避される。さらに、いくつかの実施形態では、アンビエント／残響成分は、必要なときに非相関化され、したがって、空間および包囲感が保持される。その結果、実施形態は、複数の直接音源があり、残響／アンビエントがある場合でも、非相関アーティファクトを回避し、なおかつ、空間及び周囲感を維持することによって、良好なオーディオ品質を提供するように構成され得る。

【0068】

本明細書で議論される実施形態は、残響の広さの知覚が、リスナーに提供される聴覚間相関に関連するという知識で設計される。例えば、Ｂｏｒｓｓ，Ｃ．ａｎｄＭａｒｔｉｎ，Ｒ．，２００９，Ｆｅｂｒｕａｒｙ，“Ａｎｉｍｐｒｏｖｅｄｐａｒａｍｅｔｒｉｃｍｏｄｅｌｆｏｒｐｅｒｃｅｐｔｉｏｎ－ｂａｓｅｄｄｅｓｉｇｎｏｆｖｉｒｔｕａｌａｃｏｕｓｔｉｃｓ”，ＩｎＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ３５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅは、バイノーラル残響（これは一般にアンビエンスの例である）を生成する場合、リスナーが自然に広い知覚を生成するには、中高域周波数で耳間相互相関が低いか、ゼロでなければならないと特定したものである。換言すれば、左右の耳の信号が適切な程度に非干渉的であることが必要である。パラメトリック空間オーディオ再生では、入力信号がそのような非干渉性を持たない場合があるため、非干渉性を生成するための非相関化処理を行い、その結果、適切な広さ感を得ることができる。

【0069】

さらに実施形態は、非相関化が、異なる音に、異なる影響を与えるという知識で設計されている。例えば、Ｖｉｌｋａｍｏ，Ｊ．ａｎｄＰｕｌｋｋｉ，Ｖ．，２０１，“Ｍｉｎｉｍｉｚａｔｉｏｎｏｆｄｅｃｏｒｒｅｌａｔｏｒａｒｔｉｆａｃｔｓｉｎｄｉｒｅｃｔｉｏｎａｌａｕｄｉｏｃｏｄｉｎｇｂｙｃｏｖａｒｉａｎｃｅｄｏｍａｉｎｒｅｎｄｅｒｉｎｇ”，ＪｏｕｒｎａｌｏｆｔｈｅＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ，６１（９），ｐｐ．６３７－６４６には、空間音をレンダリングする２種類の手段を含むリスニングテストが示されているが、ここでは第１の手段がＶｉｌｋａｍｏ，Ｊ．，Ｂａｃｋｓｔｒｏｍ，Ｔ．ａｎｄＫｕｎｔｚ，Ａ．，２０１３，“Ｏｐｔｉｍｉｚｅｄｃｏｖａｒｉａｎｃｅｄｏｍａｉｎｆｒａｍｅｗｏｒｋｆｏｒｔｉｍｅ－ｆｒｅｑｕｅｎｃｙｐｒｏｃｅｓｓｉｎｇｏｆｓｐａｔｉａｌａｕｄｉｏ”，ＪｏｕｒｎａｌｏｆｔｈｅＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ，６１（６），ｐｐ．４０３－４１１において先に規定されたものであり、第２の方法は、適用した非相関音のエネルギー量を最適化しない従来の方法であった。これらの方法の効果的な違いは、主に非相関音のエネルギー量の相対的な違いであり、前者は入力の既存の独立した信号をより効果的に利用する方法である。リスニングテストでは、異なるサウンドシーンに対して、２つの方法の知覚品質の結果を提供した。この結果から、音声の品質は、非相関化量の増加によって大きく劣化することがわかる。一方、残響（あるいは、より一般的な複雑な背景雰囲気）は、うまく設定された非相関化手順によって影響を受けないことが知られており、なぜなら、そのような信号は、既に自然に非相関化されており、さらなる非相関化は、そのような音の知覚品質に対してほとんど悪影響を及ぼさないからである。

【0070】

したがって、実施形態は、非相関化（アーティファクト）と広さ（または、その欠如）の知覚との間の有益なバランスを導入するように構成されてもよい。実施形態は、これを実施するように構成されてよい。

【0071】

特に、非相関化による品質劣化が予想される音場は、非相関化の量を抑えて処理される。このような状況の例としては、２つの話し手がオーバーラップしている場合（または、話し手と他の音源がオーバーラップしている場合）である。このような状況において、本発明では、幅の知覚は一時的に低下するかもしれないが、非相関化アーティファクトを回避するという非常に大きな利益が提供される。

【0072】

非相関化による音質劣化が特に想定できない音は、適切な非相関化量で処理される。例えば、残響音などである。このような場面で適切な広がり感を得ることができる。

【0073】

したがって、本明細書で論じる実施形態は、先行技術ではこれらの目標のうちの１つしか達成できない場合に、良好なオーディオ品質と広さの維持を組み合わせた改善されたバランスを提供するように構成されている。

【0074】

いくつかの実施形態では、以下においてさらに詳細に説明するように、オーディオ処理装置は、空間オーディオ信号を受信するように構成される。空間オーディオ信号は、少なくとも１つのオーディオ信号と、少なくとも１つのオーディオ信号に関連付けられた空間メタデータと、を含んでよい。次に、オーディオ処理装置は、いくつかの実施形態において、少なくとも１つのオーディオ信号に関連する少なくとも１つの共分散特性を決定するように構成されてよい。

【0075】

ターゲット共分散特性（出力される空間オーディオ信号に関連するターゲット特性である）は、少なくとも空間メタデータに基づいて決定されてよい。いくつかの実施形態では、オーディオ処理装置は、その後、少なくとも１つの共分散特性およびターゲット共分散特性に基づいて、混合行列（または、他の適切な制御）を決定するようにさらに構成されてもよい。

【0076】

さらにオーディオ処理装置は、いくつかの実施形態において、少なくとも１つのオーディオ信号に基づいて、少なくとも１つの非相関オーディオ信号を生成するように構成することができる。残差共分散特性は、さらに、少なくとも１つの共分散特性、ターゲット共分散特性、および、混合行列に基づいて、オーディオ処理装置によって決定されてもよい。

【0077】

そして、オーディオ処理装置は、残差共分散特性を減衰させることにより、空間メタデータに基づく非相関エネルギーを減衰してよい（および、処理された残差共分散特性を生成してよい）。

【0078】

いくつかの実施形態では、処理された残差共分散特性、および、少なくとも１つの共分散特性を用いて、オーディオ処理装置によって残差混合行列が決定される。

【0079】

オーディオ処理装置は、さらに、少なくとも１つのオーディオ信号に対して、混合行列を適用し、かつ、少なくとも１つの非相関オーディオ信号に対して、残差混合行列を適用することによって、空間オーディオ再生のための少なくとも２つの出力信号を生成するように構成されてよい。

【0080】

換言すれば、いくつかの実施形態では、空間オーディオ信号は、少なくとも１つのオーディオ信号、および、少なくとも１つのオーディオ信号に関連する空間メタデータを含んでよい。少なくとも１つのオーディオ信号に基づく、少なくとも１つの非相関オーディオ信号も生成される。次いで、少なくとも１つの制御パラメータが決定されてよく、少なくとも１つの制御パラメータは、空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量を制御するように構成される。少なくとも１つの制御パラメータは、いくつかの実施形態において、少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性（例えば、少なくとも２つの出力オーディオ信号のターゲット共分散特性）、ならびに、空間メタデータ、および、少なくとも１つのオーディオ信号に基づいて決定される少なくとも１つの特性（例えば、オーディオタイプ）のうちの少なくとも１つに基づいて決定され得る。

【0081】

そして、空間オーディオ再生のための少なくとも２つの出力信号は、空間オーディオ信号、および、少なくとも１つの非相関オーディオ信号に基づいて生成されてよく、少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量は、少なくとも１つの制御パラメータに基づいて制御される。

【0082】

まず、図１に示すようなキャプチャ（または、エンコーダ／アナライザ）および、再生（または、デコーダ／シンセサイザ）装置またはシステムの一例に関して、実施形態を説明する。

【0083】

システム１９９は、キャプチャ部（エンコーダ／アナライザ）１０１と、再生（デコーダ／シンセサイザ）部１０５と、を備えていることが示されている。

【0084】

いくつかの実施形態におけるキャプチャ部１０１は、入力オーディオ信号１１０を受信するように構成されたオーディオ信号入力を備える。入力オーディオ信号は、任意の適切なソース、例えば、携帯電話に取り付けられた２つ以上のマイクロフォン、他のマイクロフォンアレイ、例えば、ＢフォーマットマイクロフォンまたはＥｉｇｅｎｍｉｋｅ、アンビソニック信号、例えば、１次アンビソニック（ＦＯＡ）、高次アンビソニック（ＨＯＡ）、ラウドスピーカーサラウンドミックス、および／または、オブジェクトからであってよい。入力オーディオ信号１１０は、解析プロセッサ１１１およびトランスポート信号発生器１１３に提供されてよい。

【0085】

キャプチャ部１０１は、解析プロセッサ１１１を含んでよい。解析プロセッサ１１１は、適切なメタデータ１１２をもたらす入力オーディオ信号に対して、空間分析を実行するように構成される。したがって、解析プロセッサ１１１の目的は、周波数帯域の空間メタデータを推定することである。前述の入力タイプのすべてについて、適切な空間メタデータ、たとえば、周波数帯域における方向および直接対全エネルギー比（または、拡散性、すなわち、周囲対全体比などの同様のパラメータ）を生成する既知の方法が存在する。これらの方法は本明細書では詳述しないが、いくつかの例は、入力信号に対して適切な時間周波数変換を行い、入力が携帯電話マイクロフォンアレイである場合には周波数帯域で、マイクロフォン間相関を最大化するマイクロフォンペア間の遅延値を推定し、その遅延に対応する方向値を策定し（英国特許出願番号１６１９５７３．７、および、ＰＣＴ特許出願番号ＰＣＴ／ＦＩ２０１７／０５０７７８に記載）、相関値に基づいて比率パラメータを策定することを含んでよい。

【0086】

メタデータは様々な形式があり、空間メタデータと他のメタデータを含むことができる。空間メタデータの典型的なパラメータ化は、各周波数帯域における１つの方向パラメータＤＯＡ（ｋ，ｎ）、および、各周波数帯域における関連する直接対全エネルギー比ｒ（ｋ，ｎ）であり、ｋは周波数帯インデックス、ｎは時間フレームインデックスである。方向および比率を決定または推定することは、オーディオ信号が取得される装置または実装に依存する。例えば、メタデータは、英国特許出願番号１６１９５７３．７およびＰＣＴ特許出願番号ＰＣＴ／ＦＩ２０１７／０５０７７８に記載される方法を使用する空間オーディオキャプチャ（ＳＰＡＣ）を使用して取得または推定され得る。換言すれば、この特定の文脈において、空間オーディオパラメータは、音場を特徴付けることを目的とするパラメータを含む。

【0087】

いくつかの実施形態における空間メタデータは、オーディオ信号を空間出力、例えば、バイノーラル出力、サラウンドラウドスピーカー出力、クロストークキャンセルステレオ出力、または、アンビソニック出力に、レンダリングするための情報を含んでよい。例えば、いくつかの実施形態では、空間メタデータは、
ラウドスピーカーレベル情報、
ラウドスピーカー間相関情報、
拡散コヒーレント音の量に関する情報、
サラウンドコヒーレント音の量に関する情報、
のいずれか（および／または、他の任意の適切なメタデータ）をさらに含んでよい。

【0088】

いくつかの実施形態では、生成されるパラメータは、周波数帯域ごとに異なってもよい。したがって、例えば、帯域Ｘでは全てのパラメータが生成され送信されるが、帯域Ｙではパラメータのうちの１つだけが生成され送信され、さらに、帯域Ｚではパラメータが生成されず送信されない。実際の例としては、最高周波数帯など一部の周波数帯では、知覚的な理由からパラメータの一部が必要ない場合がある。

【0089】

入力が、ＦＯＡ信号、または、Ｂフォーマットのマイクロフォンである場合、解析プロセッサ１１１は、方向パラメータが得られる強度ベクトルなどのパラメータを決定し、強度ベクトルの長さを全体の音場エネルギー推定値と比較して、比率パラメータを決定するように構成することが可能である。この方法は、文献上、方向性オーディオコーディング（ＤｉｒＡＣ）として知られている。

【0090】

入力がＨＯＡ信号である場合、解析プロセッサ１１１は、信号のＦＯＡサブセットを取って上記の方法を利用してもよいし、ＨＯＡ信号を複数のセクタに分割して、そのそれぞれで上記の方法を利用してもよい。このセクタベースの方法は、文献上、高次ＤｉｒＡＣ（ＨＯ－ＤｉｒＡＣ）として知られている。この場合、周波数帯ごとに複数の方向パラメータが同時に存在することになる。

【0091】

入力が、ラウドスピーカーサラウンドミックス、および／または、オブジェクトである場合、解析プロセッサ１１１は、（球面調和エンコーディングゲインの使用によって）信号をＦＯＡ信号（複数可）に変換し、上記のように、方向および比率パラメータを分析するように構成されてよい。

【0092】

このように、解析プロセッサ１１１の出力は、周波数帯域で決定された空間メタデータである。空間メタデータは、周波数帯域における方向及び比率を含んでよいが、先に列挙したメタデータタイプのいずれかを有してもよい。空間メタデータは、時間とともに、および、周波数とともに変化し得る。

【0093】

いくつかの実施形態では、空間解析は、システム１９９の外部で実施されてよい。例えば、いくつかの実施形態では、オーディオ信号に関連する空間メタデータは、別個のビットストリームとして、エンコーダに提供されてよい。いくつかの実施形態では、空間メタデータは、空間（方向）インデックス値のセットとして、提供されてもよい。

【0094】

キャプチャ部１０１は、トランスポート信号発生器１１３を含んでよい。トランスポート信号発生器１１３は、入力信号を受信し、適切なトランスポートオーディオ信号１１４を生成するように構成される。トランスポートオーディオ信号は、ステレオまたはモノラルオーディオ信号であってよい。トランスポートオーディオ信号１１４の生成は、以下にまとめるような既知の方法を用いて実施することができる。

【0095】

入力が携帯電話マイクロフォンアレイ音声信号の場合、トランスポート信号発生器１１３は、左右のマイクロフォンペアを選択し、信号ペアに自動利得制御、マイクロフォンノイズ除去、風雑音除去、等化などの適切な処理を施すように構成されてよい。

【0096】

なお、入力がＦＯＡ／ＨＯＡ信号やＢフォーマットマイクロフォンである場合、トランスポート信号発生器１１３は、対向する２つのカーディオイド信号など、左右方向に向かう指向性ビーム信号を形成するように構成されてよい。

【0097】

入力がラウドスピーカーサラウンドミックス、および／または、オブジェクトである場合、トランスポート信号発生器１１３は、左側チャンネルを左ダウンミックスチャンネルに結合し、右側も同様に結合し、センターチャンネルを適当な利得で両方のトランスポートチャンネルに付加するダウンミックス信号を生成するように構成されてもよい。

【0098】

いくつかの実施形態では、入力オーディオ信号は、トランスポート信号発生器１１３をバイパスする。例えば、分析および合成が、中間エンコーディングなしで、単一の処理ステップで、同じ装置において行われるようないくつかの状況においてである。トランスポートチャネルの数は、また、（実施例で議論したような１つまたは２つのチャネルではなく）任意の適切な数とすることができる。

【0099】

いくつかの実施形態では、キャプチャ部１０１は、エンコーダ／マルチプレクサ１１５を具備してよい。エンコーダ／マルチプレクサ１１５は、トランスポートオーディオ信号１１４およびメタデータ１１２を受信するように構成され得る。エンコーダ／マルチプレクサ１１５は、さらに、メタデータ情報およびトランスポートオーディオ信号の符号化または圧縮された形式を生成するように構成されてもよい。いくつかの実施形態では、エンコーダ／マルチプレクサ１１５は、さらに、送信もしくは保存の前に符号化されたオーディオ信号内にメタデータをインターリーブし、単一のデータストリーム１１６へ多重化し、または、埋め込んでもよい。多重化は、任意の適切なスキームを使用して実装されてもよい。

【0100】

例えば、エンコーダ／マルチプレクサ１１５は、ＩＶＡＳエンコーダ、または、他の任意の適切なエンコーダとして実装され得る。したがって、エンコーダ／マルチプレクサ１１５は、オーディオ信号およびメタデータを符号化し、ビットストリーム１１６（例えば、ＩＶＡＳビットストリーム）を形成するように構成される。

【0101】

このビットストリーム１１６は、その後、破線で示すように、送信／保存１０３されてよい。いくつかの実施形態では、エンコーダ／マルチプレクサ１１５は存在しない（したがって、以下で議論されるようなデコーダ／デマルチプレクサ１２１も存在しない）。

【0102】

システム１９９は、さらに、再生（デコーダ／シンセサイザ）部１０５を含んでよい。再生部１０５は、ビットストリーム１１６を受信、取得、または、その他の方法で取得し、ビットストリームから、リスナー／リスナー再生装置に提示される適切なオーディオ信号を生成するように構成される。

【0103】

再生部１０５は、ビットストリームを受信し、符号化されたストリームを逆多重化し、次に、オーディオ信号を復号化してトランスポート信号１２４およびメタデータ１２２を得るように構成されたデコーダ／デマルチプレクサ１２１を含んでよい。

【0104】

さらにいくつかの実施形態では、上述したように、デマルチプレクサ／デコーダ１２１が無くてもよい（例えば、キャプチャ部１０１と再生部１０５の両方が同じ装置内にあるため、関連するエンコーダ／マルチプレクサ１１５がない場合など）。

【0105】

再生部１０５は、合成プロセッサ１２３を含んで構成されてよい。合成プロセッサ１２３は、トランスポートオーディオ信号１２４、空間メタデータ１２２を取得し、例えば、ヘッドフォンで再生可能なバイノーラルオーディオ信号のような空間出力信号１２８を生成するように構成される。

【0106】

このシステムの動作をフロー図に関してまとめると、図２のようになる。

【0107】

図２は、例えば、ステップ２０１に示すように、入力オーディオ信号の受信を示す。

【0108】

次に、フロー図は、図２において、ステップ２０３によって、空間メタデータを生成するための入力オーディオ信号の解析（空間）を示す。

【0109】

そして、図２において、ステップ２０４で示すように、入力オーディオ信号から、トランスポートオーディオ信号が生成される。

【0110】

次に、図２において、ステップ２０５で示されるように、生成されたトランスポートオーディオ信号およびメタデータは、符号化および／または多重化されてよい。これは、図２において、オプションの破線ボックスとして示されている。

【0111】

さらに、図２において、ステップ２０７によって示されるように、符号化および／または多重化された信号は、トランスポートオーディオ信号および空間メタデータを生成するために、逆多重化および／または復号化され得る。これも、オプションの破線ボックスとして示されている。

【0112】

そして、図２において、ステップ２０９で示すように、トランスポートオーディオ信号および空間メタデータに基づいて、空間オーディオ信号を合成することができる。

【0113】

次に、図２において、ステップ２１１で示すように、合成された空間オーディオ信号は、例えば、ヘッドフォンのセットなどの適切な出力デバイスに出力されてよい。

【0114】

図３に関して、合成プロセッサ１２３をさらに詳細に示す。

【0115】

いくつかの実施形態では、合成プロセッサ１２３は、フォワードフィルタバンク（時間周波数変換器）３１１を有する。フォワードフィルタバンク（時間周波数変換器）３１１は、（時間領域の）トランスポートオーディオ信号１２４を受信し、それを時間周波数領域に変換するように構成される。好適なフォワードフィルタまたは変換は、例えば、短時間フーリエ変換（ＳＴＦ）および複素変調直交ミラーフィルタバンク（ＱＭＦ）を含む。結果として得られる信号は、ｘ_ｉ（ｂ，ｎ）と表すことができ、ここで、ｉはチャネルインデックス、ｂは時間周波数変換の周波数ビンインデックス、ｎは時間インデックスである。時間周波数信号は、ここでは、例えば、ベクトル形式で表現される（例えば、２チャンネルの場合、ベクトル形式は以下の通りである。

【数1】

【0116】

次に、以下の処理動作は、時間周波数領域内で、周波数帯域にわたって実施され得る。周波数帯域は、適用された時間周波数変換器（フィルタバンク）の１つ又は複数の周波数ビン（個々の周波数成分）とすることができる。周波数帯域は、いくつかの実施形態において、高周波数よりも低周波数においてスペクトル的に高い選択性を有するＢａｒｋ周波数帯域などの知覚的に関連する解像度に近似し得る。代替的に、いくつかの実施形態では、周波数帯域は、周波数ビンに対応し得る。周波数帯域は、空間メタデータが解析プロセッサによって決定されたもの（または、近似的なもの）であってよい。各周波数帯域ｋは、最低周波数ビンｂ_ｌｏｗ（ｋ）及び最高周波数ビンｂ_ｈｉｇｈ（ｋ）の観点から定義されてよい。

【0117】

いくつかの実施形態における時間周波数トランスポート信号３０２は、空間シンセサイザ３１３に提供されてよい。

【0118】

いくつかの実施形態における合成プロセッサ１２３は、時間周波数領域トランスポート信号３０２および空間メタデータ１２２を受信し、空間メタデータ１２２に基いて時間周波数トランスポート信号３０２を処理することによって、空間時間周波数オーディオ信号３０４を生成するように構成される空間シンセサイザ３１３を含む。

【0119】

いくつかの実施形態における合成プロセッサ１２３は、空間時間周波数領域オーディオ信号３０４を受信し、フォワードフィルタバンク３１１によって適用された変換に対応する逆変換を適用して、時間領域空間出力信号１２８を生成するように構成された逆フィルタバンク３１５を有する。したがって、逆フィルタバンク３１５の出力は、空間出力信号であってよく、例えば、ヘッドフォン試聴のためのバイノーラルオーディオ信号とすることができる。

【0120】

この合成プロセッサ１２３の動作をフロー図に関してまとめると、図４のようになる。

【0121】

図４は、例えば、ステップ４０１に示すように、オーディオ信号および空間メタデータの受信を示す。

【0122】

そして、図４において、ステップ４０３で示すように、オーディオ信号を時間周波数領域変換して、時間周波数領域のオーディオ信号を生成する。

【0123】

次に、図４において、ステップ４０５で示すように、時間周波数領域のオーディオ信号は、空間メタデータに基づいて処理され、空間時間周波数領域のオーディオ信号を生成する。

【0124】

次に、図４において、ステップ４０７で示すように、空間時間周波数領域オーディオ信号は、空間（時間領域）オーディオ信号を生成するために逆変換され得る。

【0125】

そして、図４において、ステップ４０９で示すように、合成された空間オーディオ信号が出力され得る。

【0126】

図３の空間シンセサイザ３１３の一例を、図５にさらに詳細に示す。以下の例では、オーディオ信号は、１つの「左」及び１つの「右」チャネルの２つのチャネルを含む。しかしながら、さらなる発明的なインプットなしに、当業者によって任意の数のチャネルに対して同じ方法を実施し得る実施形態が存在することが理解されよう。

【0127】

図５に示すように、時間周波数オーディオ信号３０２は、ミキサ５３１、デコリレータ５２１、および、共分散行列推定器５０１に提供され得る。空間メタデータ１２２は、ターゲット共分散行列決定器５０３および非相関（残差）エネルギー減衰器５０９に提供される。

【0128】

いくつかの実施形態では、空間シンセサイザ３１３は、共分散行列推定器５０１を含む。共分散行列推定器５０１は、時間周波数オーディオ信号３０２を受信し、時間周波数オーディオ信号の共分散行列と（周波数帯における）その全エネルギー推定値を推定するように構成される。共分散行列は、例えばいくつかの実施形態において、以下のように推定され得る。

【0129】

【数2】

【0130】

ここで、上付き添え字Ｈは複素共役を示し、ｂ_ｌｏｗ（ｋ）及びｂ_ｈｉｇｈ（ｋ）は周波数帯域ｋの最低及び最高ビンインデックスである。周波数ビンは、いくつかの実施形態では、適用された時間周波数変換のビンであり得、周波数帯域は、典型的には、高い周波数に向かって、より多数のビンを含むように構成されている。周波数帯域は、空間メタデータが決定されたようなものであってよい。いくつかの実施形態では、Ｃ_ｘ（ｋ，ｎ）は、ＦＩＲまたはＩＩＲ（または、任意の）窓を使用して時間にわたって平均化される。推定共分散行列５０２は、いくつかの実施形態において、ターゲット共分散行列決定器５０３、残差共分散行列決定器５０５、混合行列決定器５０７、および、残差混合行列決定器５１１に出力され得る。

【0131】

いくつかの実施形態では、空間シンセサイザ３１３は、ターゲット共分散行列推定器５０３を有する。ターゲット共分散行列推定器５０３は、推定共分散行列５０２および空間メタデータ１２２を受信するように構成される。この例では、空間メタデータは、周波数インデックスｋおよび時間インデックスｎごとに１つまたは複数の方向パラメータＤＯＡ（ｋ，ｎ，ｐ）を含み、ｐ＝１・・・Ｐであり、Ｐは（所定の時間および周波数についての）方向パラメータの数である。いくつかの実施形態では、Ｐは、周波数および／または時間の関数として変化してもよく、いくつかの実施形態では、Ｐは、例えば、１または２のように一定であってもよい。この例では、空間メタデータは、全体の音エネルギーと比較したときの方向ＤＯＡ（ｋ，ｎ，ｐ）に関連するエネルギー量を示す直接全体比率パラメータｒ（ｋ，ｎ，ｐ）をさらに備える。このような定義により、

が成立する。

【0132】

いくつかの実施形態におけるターゲット共分散行列決定器５０３は、最初に、Ｃ_ｘ（ｋ，ｎ）の対角要素の合計（または、平均）として全エネルギー値Ｅ（ｋ，ｎ）を決定するように構成される。いくつかの実施形態では、この値は、共分散行列推定器５０１において決定され得、共分散行列推定器５０１から取得され得る。処理の出力がバイノーラルオーディオ信号になるいくつかの実施形態では、ターゲット共分散行列決定器５０３は、各ＤＯＡ（ｋ，ｎ，ｐ）について、与えられたＤＯＡ（ｋ，ｎ，ｐ）のための左耳および右耳の複素応答（振幅および位相）を含み、帯域ｋの周波数（例えば、中心周波数）に対応する頭部関連伝達関数（ＨＲＴＦ）２ｘ１列ベクトルｈ（ＤＯＡ（ｋ，ｎ，ｐ），ｋ）を形成するように構成される。いくつかの実施形態では、拡散場バイノーラル共分散行列は、方向ＤＯＡ_ｄ（ｄ＝１・・・Ｄ）の一様な空間分布を選択することによって、および以下の方法によって得られてもよい。

【0133】

【数3】

【0134】

次に、いくつかの実施形態におけるターゲット共分散行列決定器は、ターゲット共分散行列を以下のように決定するように構成される。

【0135】

【数4】

【0136】

ターゲット共分散行列は、次に、いくつかの実施形態において、残差共分散行列決定器５０５および混合行列決定器５０７に出力され得る。

【0137】

いくつかの実施形態では、空間シンセサイザ３１３は、混合行列決定器５０７を有する。混合行列決定器５０７は、ターゲット共分散行列５０４および推定共分散行列５０２を受信するように構成される。いくつかの実施形態における混合行列決定器５０７は、混合行列を決定するように構成されている。いくつかの実施形態では、この決定は、Ｖｉｌｋａｍｏ，Ｊ．，Ｂａｃｋｓｔｒｏｍ，Ｔ．ａｎｄＫｕｎｔｚ，Ａ．，２０１３，“Ｏｐｔｉｍｉｚｅｄｃｏｖａｒｉａｎｃｅｄｏｍａｉｎｆｒａｍｅｗｏｒｋｆｏｒｔｉｍｅ－ｆｒｅｑｕｅｎｃｙｐｒｏｃｅｓｓｉｎｇｏｆｓｐａｔｉａｌａｕｄｉｏ”，ＪｏｕｒｎａｌｏｆｔｈｅＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ，６１（６），ｐｐ．４０３－４１１に記載の方法を採用してもよい。この方法では、プロトタイプ行列を利用し、例えば両耳再生の場合、

に設定することができる。また、ユーザの頭の向きを追跡する場合、ユーザが背面方向（左右９０度を超える）を向いているときには、プロトタイプ行列を

に変更することができる。まとめると、実施形態は、共分散行列Ｃ_ｘ（ｋ，ｎ）を有する入力信号に適用されたとき、ターゲット共分散行列Ｃ_ｙ（ｋ，ｎ）に類似する共分散行列を有する出力信号を提供する混合行列Ｍ（ｋ，ｎ）を備えるように構成される。この混合解は、プロトタイプ信号Ｑｘ（ｂ，ｎ）に関して最小二乗法で最適化されてもよい。混合行列の定式化は、いくつかの実施形態において、小さな独立した信号成分の任意に大きな増幅を避けるために正則化されてもよく、したがって、多くの状況において実際には、ターゲット共分散行列は完全に到達されない。この理由のために、残差信号が、以下に説明するように、定式化される。混合行列決定器５０７は、混合行列Ｍ（ｋ，ｎ）５０８をミキサ５３１および残差共分散行列決定器５０５に出力するように構成される。

【0138】

いくつかの実施形態では、空間シンセサイザ３１３は、残差共分散行列決定器５０５を有する。残差共分散行列決定器５０５は、推定共分散行列Ｃ_ｘ（ｋ，ｎ）５０２、ターゲット共分散行列Ｃ_ｙ（ｋ，ｎ）５０４、および、混合行列Ｍ（ｋ，ｎ）５０８を受信するように構成されている。残差共分散行列決定器５０５は、残差共分散行列を決定するように構成され、これは、以下のように定式化される。

【0139】

【数5】

【0140】

換言すれば、残差共分散行列は、ターゲット共分散行列Ｃ_ｙ（ｋ，ｎ）と、入力信号をＭ（ｋ，ｎ）で処理することで実現されたものとの差分の情報を含んでいる。残差共分散行列決定器５０５は、残差共分散行列Ｃ_ｒ（ｋ，ｎ）５０６を、相関（残差）エネルギー減衰器５０９に提供するように構成される。

【0141】

いくつかの実施形態では、空間シンセサイザ３１３は、非相関（残差）エネルギー減衰器５０９を具備する。非相関（残差）エネルギー減衰器５０９は、残差混合行列Ｃ_ｒ（ｋ，ｎ）５０６および空間メタデータ１２２を受信するように構成されている。非相関（残差）エネルギー減衰器５０９は、処理された残差共分散行列５１０を生成するように構成されている。残差信号は、入力信号の非相関バージョンに基づいて生成され（以下で、さらに説明する）、なぜなら、ターゲット共分散行列がそう示す場合、非干渉性に到達するために新しい独立した信号が必要だからである。しかしながら、出力信号に対する非干渉性の合成の必要性は、多数の理由に由来する可能性がある。１つの可能性のある理由は、実際にアンビエンスや残響があることであり、もう１つの可能性のある理由は、複数の同時発生源がアクティブであることである。残差信号が合成されないと、アンビエントの空間的な響きが少なくなる。また、残差信号が完全に合成されてしまうと、より指向性の高い音に対して、非相関化による音質劣化が生じる状況もある。したがって、非相関（残差）エナジー減衰器５０９は、空間メタデータに基づいて残差共分散行列を処理または修正するように構成される。例えば、いくつかの実施形態における修正は、以下のようになり得る。

【0142】

【数6】

【0143】

この例では、共分散行列は、メタデータ（例えば、比率）パラメータと同じ時間的解像度で決定される。いくつかの実施形態では、メタデータは、例えば、メタデータの複数の時間インデックスが共分散行列の１つの時間インデックスに寄与するなど、異なる時間解像度で決定されてよい。そのような場合、残差共分散行列を修正するために、この例示された式の前に比率パラメータの時間平均（または、エネルギー加重時間平均）を取ることは、例えば、オプションである。

【0144】

したがって、例えば、音が完全にアンビエントである場合、残差共分散行列は未処理であり、音が指向性音のみである場合、残差共分散行列はゼロになる。したがって、非相関（残差）エネルギー減衰器は、処理された残差共分散行列Ｃ´_ｒ（ｋ，ｎ）５１０を残差混合行列決定器５１１に提供するように構成される。

【0145】

いくつかの実施形態では、空間シンセサイザ３１３は、残差混合行列決定器５１１を有する。残差混合行列決定器５１１は、処理された残差共分散行列Ｃ´_ｒ（ｋ，ｎ）５１０および推定共分散行列Ｃ_ｘ（ｋ，ｎ）５０２を受け取るように構成される。残差混合行列決定器５１１は、混合行列決定器５０７と同様の方法で動作するが、共分散Ｃ_ｘ（ｋ，ｎ）行列５０２の代わりに、入力共分散行列の対角化されたバージョンを使用する。換言すれば、この行列は、その対角線上に共分散行列Ｃ_ｘ（ｋ，ｎ）５０２のエントリを有するが、それ以外はゼロである。これは、残差混合行列が、入力信号の非相関化バージョンを処理するために定式化されるためである。さらに、この場合の対象共分散行列は、処理された残差共分散行列Ｃ´_ｒ（ｋ，ｎ）５１０である。それ以外の処理は、混合行列決定器５０７と同様である。残差混合行列決定器５１１は、得られた残差混合行列５１２（Ｍ_ｒ（ｋ，ｎ）と表記）をミキサ５３１に出力するように構成される。

【0146】

いくつかの実施形態では、空間シンセサイザ３１３は、デコリレータ５２１を有する。デコリレータ５２１は、時間周波数オーディオ信号ｘ（ｂ，ｎ）３０２を受信し、それを非相関化したｄ（ｂ，ｎ）バージョン５２２を生成するように構成される。そして、非相関オーディオ信号ｄ（ｂ，ｎ）５２２は、ミキサ５３１に渡される。

【0147】

いくつかの実施形態では、空間シンセサイザ３１３は、ミキサ５３１を有する。ミキサ５３１は、時間周波数オーディオ信号３０２および非相関オーディオ信号ｄ（ｂ，ｎ）５２２を受信し、混合行列５０８Ｍ（ｋ，ｎ）および残差混合行列Ｍ_ｒ（ｋ，ｎ）５１２に基づく混合を生成するように構成される。ミキサ５３１は、例えば、次のようにして出力を生成することができる。

【0148】

【数7】

ここで、帯域インデックスｋは、ビンｂが存在するものである。この出力信号が、図３に示すような空間シンセサイザの出力である空間時間周波数信号３０４である。

【0149】

空間シンセサイザ３１３の動作をフロー図に関してまとめると、図６のようになる。

【0150】

図６において、ステップ６０１で示すように、オーディオ信号および空間メタデータなどの入力を受信する。

【0151】

図６において、ステップ６０３で示すように、次の動作は、共分散行列を推定するものである。

【0152】

そして、図６において、ステップ６０５で示すように、空間メタデータおよび推定された共分散行列に基づいて、ターゲット共分散行列が生成される。

【0153】

そして、図６において、ステップ６０７で示すように、推定された共分散行列およびターゲット共分散行列に基づいて、混合行列が決定される。

【0154】

次に、図６において、ステップ６０９で示すように、共分散行列、ターゲット共分散行列、および、混合行列に基づいて、残差共分散行列が決定される。

【0155】

図６において、ステップ６１１で示すように、残差共分散行列を決定した後、残差共分散行列および空間メタデータに基づいて、処理された残差共分散行列が決定される。

【0156】

次に、図６において、ステップ６１３で示すように、処理された残差共分散行列および共分散行列に基づいて、残差混合行列が決定される。

【0157】

図６において、ステップ６０４で示すように、これにより、非相関オーディオ信号が生成される。

【0158】

そして、図６において、ステップ６１５で示すように、時間周波数オーディオ信号、非相関オーディオ信号、混合行列、残差混合行列に基づいて、空間時間周波数オーディオ信号が決定される。

【0159】

そして、図６において、ステップ６１７で示すように、空間時間周波数オーディオ信号が出力される。

【0160】

上記では、オーディオ信号を周波数帯域で処理することを説明した。いくつかの実施形態では、処理はすべて周波数ビンで実行される。そのような実施形態では、すべての行列、ＨＲＴＦ、および、他の値は、各周波数ビンについて決定される。空間メタデータは周波数帯域ｋで定義されているため、例えば、ビンｂのＤＯＡ値（または他の任意のメタデータ）を選択する場合、ビンｂが存在する帯域ｋのＤＯＡ値が選択される。

【0161】

いくつかの実施形態では、上記の手順は、バイノーラルオーディオ信号以外の空間出力に対しても構成されてよい。例えば、ターゲット共分散行列は、ＨＲＴＦの代わりにラウドスピーカー振幅パンニングゲインを含むベクトルに基づいて決められてよい。さらに、ラウドスピーカー出力では、拡散音場共分散行列は対角行列となる。

【0162】

上記の定式化では、表現を簡単にするために、時間周波数信号の時間分解能が空間メタデータの時間分解能と同じであると仮定した。これは、時間周波数変換が多くのビンを有する場合、例えば、２０４８点の短時間フーリエ変換（ＳＴＦＴ）を使用する場合に成り立つ可能性がある。他の実施形態では、フィルタバンクは、例えば、６０ビンの複素変調直交ミラーフィルタ（ＱＭＦ）バンクであり得るが、これは、はるかに高い時間分解能をもたらす。そのような実施形態では、メタデータは、すべての時間的インデックスｎではないが、メタデータに関連するインデックスは、（時間的に）より間隔が空いている。

【0163】

いくつかの実施形態では、非相関エネルギーの量は、以下の式を用いて制限することができる。

【0164】

【数8】

【0165】

ここで、ｔｒ（）は、行列のトレースである。このような実施形態の実用的な実装では、最大でも全エネルギーの

となるように非相関エネルギー量を制限している。先に説明したように、非相関の制限のための他の定式を用いることができる。

【0166】

本明細書で論じたような実施形態では、（非相関（残差）エネルギー減衰器５０９における）非相関オーディオ信号の量の制限は、メタデータに基づいている。しかしながら、いくつかの実施形態では、空間出力信号に存在するための非相関オーディオ信号の量の制限（または、換言すれば、非相関オーディオ信号の減衰）は、信号分析に基づくことができる。例えば、オーディオ信号は、オーディオ信号が実質的な音声成分、または、知覚されるオーディオ品質の特定の低下を引き起こすことが知られている他の信号タイプからなるか否かを決定するために分析され得る。したがって、いくつかの実施形態は、オーディオ信号（例えば、音声）のタイプを決定するように構成されたオーディオタイプ分析器を含み、これは、非相関（残差）エネルギー減衰器５０９への入力として使用されて、非相関（残差）信号の減衰を可能にすることができる。例えば、音声が検出された場合、非相関量を半分に減衰することができる。このような場合、さらに空間メタデータに基づいても、あるいは空間メタデータを考慮せずに、非相関化音の抑圧を行うことも可能である。

【0167】

上記実施形態では、非相関音の抑圧は、別の非相関（残差）エネルギー減衰器５０９として実行した。このブロックは、残差共分散行列を抑圧することにより、抑圧を行うように説明した。これにより、その後、空間出力信号における非相関音は低減される。減衰は、残差共分散行列を減衰する以外の方法、例えば、デコリレータ５２１への入力信号を減衰すること、デコリレータ５２１の出力信号を減衰すること、または、残差混合行列５１２を減衰することによっても実行できることは明らかである。

【0168】

図７に関して、上述したようなシステムの装置の部分のいずれかとして使用され得る例示的な電子装置である。装置は、任意の適切な電子機器または装置であってよい。例えば、いくつかの実施形態では、デバイス１７００は、モバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオ再生装置などである。装置は、例えば、図１に示すようなエンコーダ／アナライザ部１０１、および／または、デコーダ／シンセサイザ部１０５、あるいは、上述したような任意の機能ブロックを実装するように構成されてもよい。

【0169】

いくつかの実施形態では、デバイス１７００は、少なくとも１つのプロセッサまたは中央処理装置１７０７を有する。プロセッサ１７０７は、本明細書に記載されるような方法など、様々なプログラムコードを実行するように構成され得る。

【0170】

いくつかの実施形態では、デバイス１７００は、メモリ１７１１を備える。いくつかの実施形態では、少なくとも１つのプロセッサ１７０７は、メモリ１７１１に結合される。メモリ１７１１は、任意の適切な記憶手段であり得る。いくつかの実施形態では、メモリ１７１１は、プロセッサ１７０７に実装可能なプログラムコードを格納するためのプログラムコード部を有する。さらに、いくつかの実施形態では、メモリ１７１１は、データ、例えば、本明細書に記載されるような実施形態に従って、処理されたまたは処理されるべきデータを格納するための格納データ部をさらに備えることができる。プログラムコード部内に格納された実装プログラムコードおよび格納データ部内に格納されたデータは、メモリプロセッサ結合を介して必要なときにいつでもプロセッサ１７０７によって取り出すことができる。

【0171】

いくつかの実施形態では、デバイス１７００は、ユーザインターフェース１７０５を備える。ユーザインターフェース１７０５は、いくつかの実施形態では、プロセッサ１７０７に結合され得る。いくつかの実施形態では、プロセッサ１７０７は、ユーザインターフェース１７０５の動作を制御し、ユーザインターフェース１７０５から入力を受信することができる。いくつかの実施形態では、ユーザインターフェース１７０５は、ユーザが、例えば、キーパッドを介して、デバイス１７００に命令を入力することを可能にし得る。いくつかの実施形態では、ユーザインターフェース１７０５は、ユーザがデバイス１７００から情報を取得することを可能にすることができる。例えば、ユーザインターフェース１７０５は、デバイス１７００からの情報をユーザに表示するように構成された表示部を含んでいてもよい。ユーザインターフェース１７０５は、いくつかの実施形態において、デバイス１７００に情報を入力することを可能にし、さらに、デバイス１７００のユーザに情報を表示することの両方が可能なタッチスクリーンまたはタッチインターフェースで構成され得る。いくつかの実施形態では、ユーザインターフェース１７０５は、通信するためのユーザインターフェースであってもよい。

【0172】

いくつかの実施形態では、デバイス１７００は、入力／出力ポート１７０９を有する。いくつかの実施形態における入力／出力ポート１７０９は、トランシーバを具備する。そのような実施形態におけるトランシーバは、プロセッサ１７０７に結合され、例えば、無線通信ネットワークを介して他の装置または電子デバイスとの通信を可能にするように構成され得る。トランシーバまたは任意の適切なトランシーバまたは送信機および／または受信手段は、いくつかの実施形態において、有線または有線結合を介して他の電子デバイスまたは装置と通信するように構成され得る。

【0173】

トランシーバは、任意の好適な既知の通信プロトコルによって、さらなる装置と通信することができる。例えば、いくつかの実施形態において、トランシーバは、ロングタームエボリューションアドバンス（ＬＴＥＡｄｖａｎｃｅｄ、ＬＴＥ－Ａ）または新無線（ＮＲ）（または、５Ｇと呼ばれ得る）、ユニバーサル移動通信システム（ＵＭＴＳ）無線アクセスネットワーク（ＵＴＲＡＮまたはＥ－ＵＴＲＡＮ）、ロングタームエボリューション（ＬＴＥ、Ｅ－ＵＴＲＡと同じ）、２Ｇネットワーク（レガシネットワーク技術）、無線ローカルエリアネットワーク（ＷＬＡＮまたはＷｉＦｉ）に基づいて、適切な無線アクセスアーキテクチャを用いることが可能である。ｗｏｒｌｄｗｉｄｅｉｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒｍｉｃｒｏｗａｖｅａｃｃｅｓｓ（ＷｉＭＡＸ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、パーソナル通信サービス（ＰＣＳ）、ＺｉｇＢｅｅ（登録商標）、広帯域符号分割多重アクセス（ＷＣＤＭＡ（登録商標））、超広帯域（ＵＷＢ）技術を用いたシステム、センサーネットワーク、モバイルアドホックネットワーク（ＭＡＮＥＴｓ）、セルラー物のインターネット（ＩｏＴ）ＲＡＮ、および、インターネットプロトコルマルチメディアサブシステム（ＩＭＳ）、他の任意の適切な選択肢、および／または、それらの任意の組合せが挙げられる。

【0174】

トランシーバ入力／出力ポート１７０９は、信号を受信するように構成されてよい。

【0175】

いくつかの実施形態では、デバイス１７００は、合成装置の少なくとも一部として採用されてもよい。入力／出力ポート１７０９は、ヘッドフォン（ヘッドトラック付きヘッドフォンまたはトラック無しのヘッドフォンであってもよい）などに結合されてもよい。

【0176】

一般に、本発明の様々な実施形態は、ハードウェアまたは特殊用途回路、ソフトウェア、ロジック、または、それらの任意の組み合わせで実装されてもよい。例えば、いくつかの態様はハードウェアで実装されてもよく、他の態様は、コントローラ、マイクロプロセッサ、または他のコンピューティングデバイスによって実行されてもよいファームウェアまたはソフトウェアで実装されてもよいが、本発明はこれに限定されない。本発明の様々な態様は、ブロック図、フローチャートとして、または、他の何らかの絵画的表現を用いて図示および説明され得るが、本明細書に記載されるこれらのブロック、装置、システム、技術または方法は、非限定例として、ハードウェア、ソフトウェア、ファームウェア、特殊用途回路または論理、汎用ハードウェア、または、コントローラ、もしくは、他のコンピューティングデバイス、または、それらの何らかの組み合わせで実施されてよいことは十分に理解されよう。

【0177】

この発明の実施形態は、プロセッサエンティティなどのモバイルデバイスのデータプロセッサによって実行可能なコンピュータソフトウェアによって、または、ハードウェアによって、または、ソフトウェアとハードウェアの組み合わせによって実装されてもよい。さらにこの点で、図のような論理フローの任意のブロックは、プログラムステップ、または、相互接続された論理回路、ブロックおよび機能、または、プログラムステップと論理回路、ブロックおよび機能の組み合わせを表すことができることに留意されたい。ソフトウェアは、メモリチップ、または、プロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピーディスクなどの磁気媒体、および、例えば、ＤＶＤおよびそのデータ変種であるＣＤなどの光媒体などの物理媒体に格納されてもよい。

【0178】

メモリは、ローカルな技術環境に適した任意のタイプであってよく、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光学メモリデバイスおよびシステム、固定メモリおよび取り外し可能メモリなど、任意の好適なデータ記憶技術を使用して実装されてよい。データプロセッサは、ローカルな技術環境に適した任意のタイプであってよく、非限定的な例として、汎用コンピュータ、特殊用途コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途集積回路（ＡＳＩＣ）、ゲートレベル回路およびマルチコアプロセッサアーキテクチャに基づくプロセッサの１つ以上を含んでもよい。

【0179】

本発明の実施形態は、集積回路モジュールなどの様々な部品において実施することができる。集積回路の設計は、概して高度に自動化されたプロセスである。論理レベル設計を、半導体基板上にエッチングして形成するのに適した半導体回路設計に変換するために、複雑で強力なソフトウェアツールが利用可能である。

【0180】

カリフォルニア州マウンテンビューのシノプシス社やカリフォルニア州サンノゼのケイデンスデザイン社などのプログラムは、確立された設計ルールと予め保存された設計モジュールのライブラリを使って、半導体チップ上の導体の配線や部品の配置を自動的に行うものである。半導体回路の設計が完了すると、設計結果は標準化された電子フォーマット（Ｏｐｕｓ、ＧＤＳＩＩなど）で、半導体製造施設（ファブ）に送信され、製造されることがある。

【0181】

前述の説明は、例示的かつ非限定的な例によって、この発明の例示的な実施形態の完全かつ有益な説明を提供した。しかしながら、添付の図面および添付の特許請求の範囲と併せて読むと、前述の説明に鑑みて、様々な修正および適応が関連する技術の当業者には明らかになるであろう。しかしながら、この発明の教示のすべてのそのような、および、類似の修正は、やはり添付の特許請求の範囲で定義されるこの発明の範囲内に入るであろう。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【手続補正書】

【提出日】2023-01-25

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリと、を備える装置であって、前記少なくとも１つのメモリ、および、前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサを用いて、前記装置に、少なくとも、
空間オーディオ信号を受信することであって、該空間オーディオ信号は、少なくとも１つのオーディオ信号、および、該少なくとも１つのオーディオ信号に関連する空間メタデータを含み、受信することと、
前記少なくとも１つのオーディオ信号に基づいて、少なくとも１つの非相関オーディオ信号を生成することと、
空間オーディオ再生のための少なくとも２つの出力オーディオ信号内の少なくとも１つの非相関オーディオ信号の量を制御するように構成された少なくとも１つの制御パラメータを決定することであって、前記少なくとも１つの制御パラメータは、前記少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性、ならびに、空間メタデータ、および、前記少なくとも１つのオーディオ信号に基づいて決定される少なくとも１つの特性のうちの少なくとも１つに基づいており、決定することと、
前記空間オーディオ信号、および、少なくとも１つの非相関オーディオ信号に基づいて、空間オーディオ再生のための前記少なくとも２つの出力オーディオ信号を生成することであって、前記少なくとも２つの出力オーディオ信号内の前記少なくとも１つの非相関オーディオ信号の前記量は、前記少なくとも１つの制御パラメータに基づいて制御される、生成することと、
を実行させる装置。

【請求項2】

【請求項3】

前記決定された少なくとも１つの制御パラメータは、前記装置に、
前記少なくとも１つのオーディオ信号に基づいて、少なくとも１つの少なくとも１つのさらなる特性を決定し、
前記少なくとも２つの出力オーディオ信号の前記少なくとも１つのさらなるターゲット特性を決定し、
前記少なくとも１つのオーディオ信号に基づく、前記少なくとも１つのさらなる特性、および、前記少なくとも２つの出力オーディオ信号の前記少なくとも１つのさらなるターゲット特性に基づいて、少なくとも１つの第１制御パラメータを決定し、
前記空間メタデータ、および、前記少なくとも１つのオーディオ信号に基づいて決定された前記少なくとも１つの特性のうちの少なくとも１つに基づいて、少なくとも１つの第２制御パラメータを決定し、または、前記少なくとも１つの第１制御パラメータを変更する、
ことを実行させる、請求項１に記載の装置。

【請求項4】

空間オーディオ再生のための生成された前記少なくとも２つの出力オーディオ信号は、前記装置に、少なくとも、
前記少なくとも１つの第１制御パラメータ、および、少なくとも１つの第２の制御パラメータ、または、前記少なくとも１つの修正された第１制御パラメータに基づいて、前記少なくとも１つのオーディオ信号、および、前記少なくとも１つの非相関オーディオ信号を混合し、
空間オーディオ再生のための前記少なくとも２つの出力オーディオ信号を出力する、
ことを実行させる、請求項３に記載の装置。

【請求項5】

決定された前記少なくとも１つの第２制御パラメータ、または、前記修正された少なくとも１つの第１制御パラメータは、前記空間メタデータ内の少なくとも１つの直接対全エネルギー比パラメータに基づく、請求項３に記載の装置。

【請求項6】

前記少なくとも１つのオーディオ信号に基づく前記少なくとも１つのさらなる特性は、共分散特性であり、前記少なくとも２つの出力オーディオ信号の前記少なくとも１つのさらなるターゲット特性は、前記少なくとも２つの出力オーディオ信号のターゲット共分散特性である、請求項３に記載の装置。

【請求項7】

決定された前記少なくとも１つの第２制御パラメータ、または、修正された前記少なくとも１つの第１制御パラメータは、前記装置に、
前記少なくとも２つの出力オーディオ信号の前記共分散特性および前記ターゲット共分散特性に基づいて、残差共分散特性を決定し、
前記少なくとも１つのオーディオ信号に関連付けられた前記空間メタデータに基づいて、前記残差共分散特性を処理する、
ことを実行させる、請求項６に記載の装置。

【請求項8】

処理された前記残差共分散特性は、前記装置に、
前記空間メタデータが前記少なくとも１つのオーディオ信号が高指向性であることを示す場合、前記残差共分散特性を減衰させ、
前記空間メタデータが前記少なくとも１つのオーディオ信号が完全にアンビエントであることを示す場合、前記残差共分散特性を未処理で通過させる、
ことを実行させる、請求項７に記載の装置。

【請求項9】

決定されたターゲット共分散特性は、前記装置に、
前記共分散特性に基づいて、全エネルギー推定値を生成し、
前記少なくとも１つのオーディオ信号に関連付けられた前記メタデータから方向パラメータに基づいて、頭部関連伝達関数データを決定し、
前記頭部関連伝達関数データ、および、前記全エネルギー推定値に基づいて、さらに、前記少なくとも２つの出力オーディオ信号の前記ターゲット共分散特性を決定する、
ことを実行させる、請求項６に記載の装置。

【請求項10】

決定された前記少なくとも１つの特性は、前記少なくとも１つのオーディオ信号に基づき、前記少なくとも１つの特性はオーディオタイプであり、決定された前記少なくとも１つの制御パラメータは、前記装置に、
前記オーディオタイプは、決定されたオーディオタイプであるか否かを決定し、
前記オーディオタイプが、前記決定されたオーディオタイプであることに基づいて、前記少なくとも１つの制御パラメータを決定する、
ことを実行させる、請求項１に記載の装置。

【請求項11】

前記決定されたオーディオタイプは、音声である、請求項１０に記載の装置。

【請求項12】

前記少なくとも１つのオーディオ信号は、エンコーダによって生成されたトランスポートオーディオ信号を含む、請求項１に記載の装置。

【請求項13】

【請求項14】

【請求項15】

【請求項16】

【請求項17】

前記少なくとも１つの第２制御パラメータ、または、前記修正された少なくとも１つの第１制御パラメータを決定することは、前記空間メタデータ内の少なくとも１つの直接対全エネルギー比パラメータに基づく、請求項１５に記載の方法。

【請求項18】

前記少なくとも１つのオーディオ信号に基づく前記少なくとも１つのさらなる特性は、共分散特性であり、前記少なくとも２つの出力オーディオ信号の少なくとも１つのさらなるターゲット特性は、前記少なくとも２つの出力オーディオ信号のターゲット共分散特性である、請求項１５に記載の方法。

【請求項19】

前記少なくとも１つの第２制御パラメータを決定すること、または、前記少なくとも１つの第１制御パラメータを修正することは、
前記少なくとも２つの出力オーディオ信号の前記共分散特性および前記ターゲット共分散特性に基づいて、残差共分散特性を決定することと、
前記少なくとも１つのオーディオ信号に関連付けられた前記空間メタデータに基づいて、前記残差共分散特性を処理することと、
のうちの少なくとも１つを備え、
前記少なくとも１つのオーディオ信号に関連付けられた前記空間メタデータに基づいて、前記残差共分散特性を処理することは、
前記少なくとも１つのオーディオ信号が高指向性であることを前記空間メタデータが示す場合、前記残差共分散特性を減衰させることと、
前記少なくとも１つのオーディオ信号が完全にアンビエントであることを前記空間メタデータが示す場合、前記残差共分散特性を未処理で通過させることと、
を含む、
請求項１８に記載の方法。

【請求項20】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版