特表2024-542311 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特表2024-542311基本空間セクタを使用して空間的に拡張された音源を合成するための装置、方法、及びコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2a
2b
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-11-14

(54)【発明の名称】基本空間セクタを使用して空間的に拡張された音源を合成するための装置、方法、及びコンピュータプログラム

(51)【国際特許分類】

H04S 7/00 20060101AFI20241107BHJP

H04R 3/00 20060101ALI20241107BHJP

【ＦＩ】

H04S7/00 300

H04R3/00 310

【審査請求】有

【予備審査請求】有

(21)【出願番号】P 2024527156

(86)(22)【出願日】2022-11-07

(85)【翻訳文提出日】2024-06-12

(86)【国際出願番号】 EP2022080996

(87)【国際公開番号】W WO2023083752

(87)【国際公開日】2023-05-19

(31)【優先権主張番号】21207288.8

(32)【優先日】2021-11-09

(33)【優先権主張国・地域又は機関】EP

(81)【指定国・地域】

(71)【出願人】

【識別番号】500341779

【氏名又は名称】フラウンホーファー－ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン

(74)【代理人】

【識別番号】100134119

【弁理士】

【氏名又は名称】奥町哲行

(72)【発明者】

【氏名】ウー・ユンハン

(72)【発明者】

【氏名】ヘレ・ユルゲン

(72)【発明者】

【氏名】コロティアエフ・ミハイル

(72)【発明者】

【氏名】ガイアー・マティアス

(72)【発明者】

【氏名】シュヴェア・ジモン

(72)【発明者】

【氏名】アダミ・アレクサンダー

(72)【発明者】

【氏名】アネミュラー・カルロッタ

【テーマコード（参考）】

5D162

5D220

【Ｆターム（参考）】

5D162AA07

5D162CA26

5D162CD07

5D162DA22

5D162EG02

5D220AA05

5D220AB01

(57)【要約】

空間的に拡張された音源（ＳＥＳＳ）（７０００）を合成するための装置は、聴取者のためのレンダリングレンジをカバーする異なる基本空間セクタのためのレンダリングデータ項目を記憶するための記憶装置（２００、２０００）と、異なる基本空間セクタから、空間的に拡張された音源に属する基本空間セクタのセットを、聴取者データ及び空間的に拡張された音源データに基づいて識別するセクタ識別プロセッサ（４０００）と、基本空間セクタのセットについてのレンダリングデータ項目からターゲットレンダリングデータを計算するためのターゲットデータ計算器（５０００）と、ターゲットレンダリングデータを使用して空間的に拡張された音源を表すオーディオ信号を処理するためのオーディオプロセッサ（３００、３０００）と、を備えている。

【特許請求の範囲】

【請求項1】

空間的に拡張された音源（ＳＥＳＳ）（７０００）を合成するための装置であって、
聴取者に関するレンダリングレンジをカバーする異なる基本空間セクタのためのレンダリングデータ項目を記憶するための記憶装置（２００、２０００）と、
前記異なる基本空間セクタから、前記空間的に拡張された音源に属する基本空間セクタのセットを、聴取者データ及び空間的に拡張された音源のデータに基づいて識別するセクタ識別プロセッサ（４０００）と、
前記基本空間セクタのセットについての前記レンダリングデータ項目からターゲットレンダリングデータを計算するためのターゲットデータ計算器（５０００）と、
前記ターゲットレンダリングデータを使用して前記空間的に拡張された音源を表すオーディオ信号を処理するためのオーディオプロセッサ（３００、３０００）と、
を備えた装置。

【請求項2】

前記記憶装置（２００、２０００）が、前記レンダリングデータ項目として、各基本空間セクタについて、左頭部伝達関数データに関する左分散データ項目、右頭部伝達関数（ＨＲＴＦ）データに関する右分散データ項目、並びに、前記左ＨＲＴＦデータ及び前記右ＨＲＴＦデータに関する共分散データ項目のうちの少なくとも１つを記憶する（８１０）ように構成されており、
前記ターゲット計算器（５０００）が、少なくとも１つの合計された項目を取得するために、前記基本空間セクタのセットの前記左分散データ項目又は前記基本空間セクタのセットの前記右分散データ項目、又は前記基本空間セクタのセットの前記共分散データ項目をそれぞれ合計する（８３０）ように構成されており、
前記ターゲット計算器（５０００）が、前記少なくとも１つの合計された項目から前記ターゲットレンダリングデータとして少なくとも１つのレンダリングキューを計算する（８４０）ように構成されており、（）
前記オーディオプロセッサ（３００、３０００）が、前記少なくとも１つのレンダリングキューを使用して前記オーディオ信号を処理する（８５０）ように構成されている、
請求項１に記載の装置。

【請求項3】

前記セクタ識別プロセッサ（４０００）が、プロジェクションアルゴリズム又はレイトレーシング分析を適用して、前記基本空間セクタのセットを判定するように構成されるか、
前記聴取者データとして、聴取者位置若しくは聴取者向きを使用するか、又は前記空間的に拡張された音源（ＳＥＳＳ）データとして、ＳＥＳＳ向き、ＳＥＳＳ位置、若しくは前記ＳＥＳＳのジオメトリに関する情報を使用するように構成される、
請求項１又は２に記載の装置。

【請求項4】

前記セクタ識別プロセッサ（４０００）が、
オーディオシーンの記述から、潜在的遮蔽オブジェクト（７０１０）に関する遮蔽情報を受信することと、
前記遮蔽情報に基づいて、前記基本空間セクタのセットのうちの特定の空間セクタを遮蔽セクタとして判定することと、
を行うように構成されており、
前記ターゲットデータ計算器（５０００）が、修正データを得るために前記遮蔽セクタについて記憶された前記レンダリングデータ項目に遮蔽関数を適用し（５０２０）、前記ターゲットレンダリングデータを計算する（５０６０）ために前記修正データを使用するように構成されている、
請求項１から３のいずれか一項に記載の装置。

【請求項5】

前記遮蔽関数が、異なる周波数に関する異なる減衰値を有するローパス関数であり、前記レンダリングデータ項目は、異なる周波数のデータ項目であり、
前記ターゲットデータ計算器（５０００）が、いくつかの周波数について、特定の周波数のデータ項目を前記特定の周波数の前記減衰値で重み付けして（５０２０）、前記修正レンダリングデータを取得するように構成された、
請求項４に記載の装置。

【請求項6】

前記セクタ識別プロセッサ（４０００）が、前記遮蔽オブジェクトについて判定された前記基本空間セクタのセットのうちの別の基本空間セクタが前記潜在的遮蔽オブジェクトによって遮蔽されていないと判定する（４０１０）ように構成されており、
前記ターゲットデータ計算器（５０００）が、前記遮蔽セクタからの前記修正データと、前記他のセクタの前記レンダリングデータ項目とを、前記遮蔽関数を用いた修正なしに、又は異なる修正関数によって修正されて結合して（５０４０）、前記ターゲットレンダリングデータを取得するように構成されている、
請求項４又は５に記載の装置。

【請求項7】

前記セクタ識別プロセッサ（４０００）が、前記基本空間セクタのセットのうちの第１の基本空間セクタを第１の特性を有するように判定し、前記基本空間セクタのセットのうちの第２の基本空間セクタを第２の異なる特性を有するように判定するように構成されており、
前記ターゲットデータ計算器（５０００）が、前記第１の基本空間セクタにいかなる修正関数も適用せず（４０１０）、前記第２の基本空間セクタに修正関数を適用する（４０２０）か、又は前記第１の基本空間セクタに第１の修正関数を適用し（４０２０）、前記第２の基本空間セクタに第２の修正関数を適用する（４０３０）ように構成されており、前記第２の修正関数は前記第１の修正関数とは異なる、
請求項１から６のいずれか一項に記載の装置。

【請求項8】

請求項７に記載の装置であって、
前記第１の修正関数が周波数選択的であり、前記第２の修正関数が周波数にわたって一定であるか、又は前記第１の修正関数が第１の周波数選択的特性を有し、前記第２の修正関数が前記第１の周波数選択的特性とは異なる第２の周波数選択的特性を有するか、又は前記第１の修正関数が第１の減衰特性を有し、前記第２の修正関数が第２の異なる減衰特性を有し、
前記ターゲットデータ計算器（５０００）が、前記第１の基本空間セクタ又は前記第２の基本空間セクタと前記聴取者との間の距離に基づいて、又は前記聴取者と前記対応する基本空間セクタとの間に置かれているオブジェクトの特性に基づいて、前記第１の修正関数及び前記第２の修正関数から前記修正関数を選択又は調整するように構成されている、
装置。

【請求項9】

前記セクタ識別プロセッサ（４０００）が、前記基本空間セクタに関連付けられた特性に基づいて、前記基本空間セクタのセットを異なるセクタクラスに分類するように構成され、
前記ターゲットデータ計算器（５０００）が、２つ以上の基本空間セクタがクラス内にある場合、各クラスの結合結果を取得するために各クラスの前記基本空間セクタの前記レンダリングデータ項目を結合し（５０２０）、このクラスの修正された結合結果を取得するために、このクラスの前記結合結果に少なくとも１つのクラスに関連付けられた特定の修正関数を適用するように構成されており、又は、
修正データ項目を取得するために、各クラスの前記１つ又は複数の基本空間セクタの前記１つ又は複数のデータ項目に少なくとも１つのクラスと関連付けられた特定の修正関数を適用し、各クラスの前記基本空間セクタの前記修正データ項目を結合して、このクラスの修正された結合結果を取得し、
結合結果、又は利用可能であれば、各クラスの前記修正された結合結果を結合して（５０４０）、全体の結合結果を取得し、
前記全体の結合結果を前記ターゲットレンダリングデータとして使用するか、又は前記全体の結合結果から前記ターゲットレンダリングデータを計算する（５０６０）、
請求項１から８のいずれか一項に記載の装置。

【請求項10】

請求項９に記載の装置であって、
基本空間セクタの前記特性が、第１の遮蔽特性を含む遮蔽された基本空間セクタ、前記第１の遮蔽特性とは異なる第２の遮蔽特性を含む遮蔽された基本空間セクタ、前記聴取者までの第１の距離を有する遮蔽されていない基本空間セクタ、及び前記聴取者までの第２の距離を有する遮蔽されていない基本空間セクタを含むグループのうちの１つであると判定され、前記第２の距離が前記第１の距離とは異なる、
装置。

【請求項11】

前記ターゲットデータ計算器（５０００）が、前記レンダリングデータ項目として周波数依存分散又は共分散パラメータを修正又は結合（５０２０、５０４０）して、前記全体の結合結果として、全体の結合された分散又は全体の結合された共分散パラメータを取得するように構成され、
両耳間コヒーレンスキュー、両耳間レベル差キュー、両耳間位相差キュー、第１のサイドゲイン、又は第２のサイドゲインのうちの少なくとも１つを前記ターゲットレンダリングデータとして計算する（５０６０）、
請求項９又は１０に記載の装置。

【請求項12】

前記オーディオプロセッサ（３００、３０００）が、前記ターゲットレンダリングデータとして対応するキューを使用して、チャネル間コヒーレンス調整（３２０、３２００）、チャネル間位相差調整（３３０、３３００）、チャネル間レベル差調整（３４０、３４００）のうちの少なくとも１つを実行するように構成されている、
請求項１から１１のいずれか一項に記載の装置。

【請求項13】

前記レンダリングレンジが、前記聴取者の周りの球又は球の一部を含み、前記レンダリングレンジが、前記聴取者の位置又は聴取者の向きに関連付けられ、各基本空間セクタが、方位角サイズ及び仰角サイズを有する、
請求項１から１２のいずれか一項に記載の装置。

【請求項14】

前記基本空間セクタの前記方位角サイズ及び前記仰角サイズが互いに異なり、それにより、方位角サイズが、前記聴取者のより側部にある基本空間セクタの方位角サイズと比較して、前記聴取者の正面にある基本空間セクタに対してより細かくなるか、又は前記方位角サイズが、前記聴取者の側部に向かって減少するか、又は基本空間セクタの仰角サイズが、このセクタの方位角サイズよりも小さい、
請求項１３に記載の装置。

【請求項15】

空間的に拡張された音源（ＳＥＳＳ）を合成する方法であって、
聴取者に関するレンダリングレンジをカバーする異なる基本空間セクタのためのレンダリングデータ項目を記憶することと、
前記異なる基本空間セクタから、前記空間的に拡張された音源に属する基本空間セクタのセットを、聴取者データ及び空間的に拡張された音源のデータに基づいて識別することと、
前記基本空間セクタのセットについての前記レンダリングデータ項目からターゲットレンダリングデータを計算することと、
前記ターゲットレンダリングデータを使用して前記空間的に拡張された音源を表すオーディオ信号を処理することと、
を含む、方法。

【請求項16】

コンピュータ又はプロセッサ上で実行されると、請求項１５に記載の合成する方法を実行するためのコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、オーディオ信号処理に関し、特に空間的に拡張された音源（ＳＥＳＳ）の合成に関する。

【背景技術】

【0002】

いくつかのスピーカ又はヘッドホンによる音源の再現は、長い間研究されてきた。そのような設定で音源を再現する最も簡単な方法は、それらを点音源、すなわち非常に（理想的には無限に）小さい音源としてレンダリングすることである。しかしながら、この理論的概念は、現実的な方法で既存の物理音源をモデル化することができない。例えば、グランドピアノは、内部に多くの空間的に分散された弦を有する大きな振動する木製クロージャを有し、したがって、（特に聴取者（及びマイクロフォン）がグランドピアノに近い場合に点音源よりも聴覚においてはるかに大きく見える。多くの現実世界の音源は、楽器、機械、オーケストラ若しくはコーラス、又は周囲音（滝の音）のようなかなりのサイズ（「空間範囲」）を有する。

【0003】

そのような音源の正しい／現実的な再現は、ヘッドホンを使用するバイノーラル（すなわち、いわゆる頭部伝達関数ＨＲＴＦ又はバイノーラル室内インパルス応答ＢＲＩＲを使用する）であっても、又は、２つのスピーカ（「ステレオ」）から水平面に配置された多くのスピーカ（「サラウンドサウンド」）及び３次元すべてで聴取者を取り囲む多くのスピーカ（「３Ｄオーディオ」）までのスピーカ設定を慣習的に使用するものであっても、多くの音響再現方法の対象となっている。

【0004】

一例として、噴水の一部がブッシュによって遮られている場所からＳＥＳＳ（例えば、噴水）を聞く場合、噴水の遮られた部分は周波数減衰プロセスを受け、すなわち、ブッシュの伝達特性によって判定される特定の周波数応答によって減衰される。そのような（部分的に）遮蔽されたＳＥＳＳ部分をレンダリングする能力は、最初に記載されたＳＥＳＳレンダリングアルゴリズムでは利用できない。

【0005】

同様に、本発明を使用して、ＳＥＳＳのより遠い部分をより低いレベルで現実的にレンダリングすることができる。

【0006】

２Ｄ音源幅
このセクションでは、聴取者の視点から面した２Ｄ表面上に、例えば、（従来のステレオ／サラウンドサウンドの場合のような）０度の仰角における特定の方位角レンジ又は（ユーザの動き、すなわちピッチ／ヨー／ロール軸の頭部回転の３自由度［「３ＤｏＦ」］を有する３Ｄオーディオ又は仮想現実の場合のような）方位角及び仰角の特定のレンジで拡張音源をレンダリングすることに関する方法について説明する。

【0007】

２つ以上のスピーカ間でパンニングされるオーディオオブジェクトの見かけの幅を増加させること（いわゆるファントムイメージ又はファントムソースを生成すること）は、関与するチャネル信号の相関を減少させることによって達成することができる（Ｂｌａｕｅｒｔ，２００１，Ｓ．２４１－２５７）。相関が減少すると、ファントムソースの広がりは、０に近い（かつ開き角度が広すぎない）相関値について、スピーカ間のすべてのレンジをカバーするまで増加する。

【0008】

音源信号の非相関バージョンは、適切な非相関フィルタを導出し適用することによって取得される。Ｌａｕｒｉｄｓｅｎ（Ｌａｕｒｉｄｓｅｎ，１９５４）は、信号の２つの非相関バージョンを取得するために、音源信号の時間遅延及びスケーリングバージョンをそれ自体に加算／減算することを提案した。より複雑なアプローチが、例えばＫｅｎｄａｌｌ（Ｋｅｎｄａｌｌ，１９９５）によって提案された。彼は、乱数シーケンスの組み合わせに基づいてペア非相関化オールパスフィルタを反復的に導出した。Ｆａｌｌｅｒらは、（Ｂａｕｍｇａｒｔｅ＆Ｆａｌｌｅｒ，２００３）（Ｆａｌｌｅｒ＆Ｂａｕｍｇａｒｔｅ，２００３）で適切な非相関化フィルタ（「ディフューザ」）を提案している。また、Ｚｏｔｔｅｒらは、ファントムソースの拡大を達成するために周波数依存の位相差又は振幅差が使用されるフィルタ対を導出した（Ｚｏｔｔｅｒ＆Ｆｒａｎｋ，２０１３）。さらに、（Ａｌａｒｙ，Ｐｏｌｉｔｉｓ，＆Ｖａｌｉｍａｋｉ，２０１７）は、（Ｓｃｈｌｅｃｈｔ，Ａｌａｒｙ，Ｖａｌｉｍａｋｉ，＆Ｈａｂｅｔｓ，２０１８）によってさらに最適化された、ベルベットノイズに基づく非相関化フィルタを提案した。

【0009】

ファントムソースの対応するチャネル信号の相関を低減することに加えて、オーディオオブジェクトに起因するファントムソースの数を増加させることによって音源の幅を増加させることもできる。（Ｐｕｌｋｋｉ，１９９９）において、音源の幅は、同じ音源信号を（わずかに）異なる方向にパンニングすることによって制御される。この方法は、ＶＢＡＰパンニングされた（Ｐｕｌｋｋｉ，１９９７）音源信号が音響シーン内で動かされるときに、これらの音源信号の知覚されるファントムソースの広がりを安定させるために最初に提案された。これは、音源の方向に依存して、レンダリングされた音源が２つ以上のスピーカによって再現され、知覚される音源の幅の望ましくない変更をもたらす可能性があるため、有利である。

【0010】

仮想世界ＤｉｒＡＣ（Ｐｕｌｋｋｉ，Ｌａｉｔｉｎｅｎ，＆Ｅｒｋｕｔ，２００９）は、仮想世界における音声合成のための従来の指向性オーディオ符号化（ＤｉｒＡＣ）（Ｐｕｌｋｋｉ，２００７）アプローチの拡張である。空間範囲をレンダリングするために、音源の指向性音成分は、音源の元の方向の周りの特定のレンジ内でランダムにパンニングされ、パンニング方向は時間及び周波数と共に変化する。

【0011】

同様のアプローチが（Ｐｉｈｌａｊａｍａｋｉ，Ｓａｎｔａｌａ，＆Ｐｕｌｋｋｉ，２０１４）で追求され、ここでは、音源信号の周波数帯域を異なる空間的方向にランダムに分配することによって空間範囲が達成される。これは、範囲の正確な程度を制御するのではなく、あらゆる方向から等しく到来する、空間的に分散され、包み込むような音を生成することを目的とした方法である。

【0012】

Ｖｅｒｒｏｎらは、パンニングされた相関信号を使用せずに、音源信号の複数のインコヒーレントなバージョンを合成し、それらを聴取者の周りの円上に均一に分配し、それらの間で混合することによって、音源の空間範囲を達成した（Ｖｅｒｒｏｎ，Ａｒａｍａｋｉ，Ｋｒｏｎｌａｎｄ－Ｍａｒｔｉｎｅｔ，＆Ｐａｌｌｏｎｅ，２０１０）。同時に活性な音源の数及びゲインは、拡大効果の強度を判定する。この方法は、環境音の合成器に対する空間的拡張として実施された。

【0013】

３Ｄ音源幅
このセクションでは、３Ｄ空間、すなわち６自由度（「６ＤｏＦ」）の仮想現実に必要とされる立体的な方法で拡張音源をレンダリングすることに関する方法について説明する。これは、ユーザの移動の６自由度、すなわちピッチ／ヨー／ロール軸における頭部の回転）＋３つの並進移動方向ｘ／ｙ／ｚを意味する。

【0014】

Ｐｏｔａｒｄらは、音源形状の知覚を研究することによって音源の１次元のパラメータ（すなわち、２つのスピーカ間のその幅）としての音源範囲の概念を拡張した（Ｐｏｔａｒｄ，２００３）。彼らは、元の音源信号に（時間変化する）非相関化技術を適用し、次いでインコヒーレントな音源を異なる空間位置に配置し、これによってそれらに３次元的範囲を与えることによって、複数のインコヒーレントな点音源を生成した（Ｐｏｔａｒｄ＆Ｂｕｒｎｅｔｔ，２００４）。

【0015】

ＭＰＥＧ－４ＡｄｖａｎｃｅｄＡｕｄｉｏＢＩＦＳ（Ｓｃｈｍｉｄｔ＆Ｓｃｈｒｏｄｅｒ，２００４）では、立体オブジェクト／形状（皮、箱、楕円体、及びシリンダ）を、３次元音源範囲を想起させるために、いくつかの等しく分散され、非相関化された音源で満たすことができる。

【0016】

アンビソニックス（Ａｍｂｉｓｏｎｉｃｓ）を使用して音源範囲を拡大及び制御するために、Ｓｃｈｍｅｌｅら（Ｓｃｈｍｅｌｅ＆Ｓａｙｉｎ，２０１８）は、本質的に見かけの音源幅を増加させる入力信号のアンビソニックス次数を低減することと、音源信号の非相関コピーをリスニング空間の周りに分配することとの混合を提案した。

【0017】

別のアプローチがＺｏｔｔｅｒらによって導入され、そこで彼らは、アンビソニックスに関し、（Ｚｏｔｔｅｒ＆Ｆｒａｎｋ，２０１３）で提案された原理（すなわち、ステレオ再現設定において音源範囲を達成するために周波数依存の位相及び大きさの差を導入するフィルタ対を導出すること）を採用した（ＺｏｔｔｅｒＦ．，Ｆｒａｎｋ，Ｋｒｏｎｌａｃｈｎｅｒ，＆Ｃｈｏｉ，２０１４）。

【0018】

パンニングベースのアプローチ（例えば、（Ｐｕｌｋｋｉ，１９９７）（Ｐｕｌｋｋｉ，１９９９）（Ｐｕｌｋｋｉ，２００７）（Ｐｕｌｋｋｉ，Ｌａｉｔｉｎｅｎ，＆Ｅｒｋｕｔ，２００９））の一般的な欠点は、それらアプローチが聴取者の位置に依存することである。スイートスポットからのわずかなずれであっても、空間イメージが聴取者に最も近いスピーカに縮められる。これは、聴取者が自由に動き回ることが想定されている６自由度（６ＤｏＦ）の仮想現実及び拡張現実のコンテキストにおけるそれらの適用を大幅に制限する。さらに、ＤｉｒＡＣベースのアプローチ（例えば、（Ｐｕｌｋｋｉ，２００７）（Ｐｕｌｋｋｉ，Ｌａｉｔｉｎｅｎ，＆Ｅｒｋｕｔ，２００９））で時間周波数ビンを分配することは、ファントムソースの空間的範囲の適切なレンダリングを常に保証するとは限らない。さらに、これは通常、音源信号の音色を著しく低下させる。

【0019】

音源信号の非相関化は、通常、以下の方法のうちの１つによって達成される：ｉ）相補的な大きさを有するフィルタ対を導出すること（例えば（Ｌａｕｒｉｄｓｅｎ，１９５４））、ｉｉ）一定の大きさであるが（ランダムに）スクランブルされた位相を有するオールパスフィルタを使用すること（例えば（Ｋｅｎｄａｌｌ，１９９５）（Ｐｏｔａｒｄ＆Ｂｕｒｎｅｔｔ，２００４））、又はｉｉｉ）音源信号の時間－周波数ビンを空間的にランダムに分配すること（例えば（Ｐｉｈｌａｊａｍａｋｉ，Ｓａｎｔａｌａ，＆Ｐｕｌｋｋｉ，２０１４））。

【0020】

すべてのアプローチは、それ自体の意味を伴う：ｉ）に従って音源信号を相補的にフィルタリングすることは、典型的には、非相関信号の知覚される音色の変化をもたらす。ｉｉ）のようなオールパスフィルタリングは、音源信号の音色を維持するが、スクランブルされた位相は元の位相関係を乱し、特に過渡信号の場合、深刻な時間的分散及び不鮮明なアーチファクトを引き起こす。空間的に分布する時間－周波数ビンは、いくつかの信号に効果的であることが証明されたが、信号の知覚される音色も変化させる。さらに、これは高度に信号依存性であることが示され、非連続的な信号に深刻なアーチファクトを導入する。

【0021】

ＡｄｖａｎｃｅｄＡｕｄｉｏＢＩＦＳ（（Ｓｃｈｍｉｄｔ＆Ｓｃｈｒｏｄｅｒ，２００４）（Ｐｏｔａｒｄ，２００３）（Ｐｏｔａｒｄ＆Ｂｕｒｎｅｔｔ，２００４））で提案されているように、音源信号の複数の非相関バージョンを有する立体形状を配置することは、相互に非相関化された出力信号（典型的には、体積形状当たり１０を超える点音源が使用される）を生成する多数のフィルタの利用可能性を前提とする。しかしながら、そのようなフィルタを見つけることは些細なタスクではなく、そのようなフィルタがより多く必要とされるほどより困難になる。さらに、音源信号が完全に非相関ではなく、聴取者がそのような形状の周りを移動する場合、例えば（仮想現実）シナリオでは、聴取者までの個々の音源距離は、音源信号の異なる遅延に対応し、聴取者の耳でのそれらの重ね合わせは、位置依存コームフィルタリングをもたらし、潜在的に音源信号の不快な不安定な着色を導入する。

【0022】

アンビソニックス次数を下げることにより、（Ｓｃｈｍｅｌｅ＆Ｓａｙｉｎ，２０１８）においてアンビソニックスベースの技術で音源幅を制御することにより、２次から１次又は０次への遷移に対してのみオーディオ効果があることが示された。さらに、これらの遷移は、音源幅の拡大として知覚されるだけでなく、ファントムソースの動きとして知覚されることも多い。音源信号の非相関バージョンを追加することは、見かけの音源幅の知覚の安定化を助けることができるが、ファントムソースの音色を変化させるコムフィルタ効果も導入する。

【0023】

空間的に拡張された音源（ＳＥＳＳ）をバイノーラルレンダリングするための効率的な方法は、入力波形信号の２つの非相関バージョン（これは、元のモノラル信号及び相関除去器を使用してこのモノラル信号の非相関バージョンを生成することによって生成され得る）、音源のサイズに応じて空間的に拡張された音源の目標バイノーラル（及び音色）キューを計算するキュー計算段階（例えば、空間的に拡張された音源及び聴取者の位置及び向きに応じて方位角－仰角レンジとして与えられる）を使用して国際公開第２０２１／１８０９３５号パンフレットに開示されている。好ましい実施形態では、このキュー計算ステージは、ＳＥＳＳによってカバーされる空間領域に応じてターゲットキューを事前計算し、それらをルックアップテーブルに記憶し、ターゲットキューを使用して入力信号及びその非相関バージョンからバイノーラルでレンダリングされた出力信号を生成するバイノーラルキュー調整ステージは、キュー計算ステージ（ルックアップテーブル）を形成する。バイノーラル調整ステージは、キュー計算ステージ／ルックアップテーブルによって計算されるように、入力信号のバイノーラルキュー（チャネル間コヒーレンスＩＣＣ、チャネル間位相差ＩＣＰＤ、チャネル間レベル差ＩＣＬＤ）をいくつかのステップでそれらの所望の目標値に調整する。

【先行技術文献】

【特許文献】

【0024】

【特許文献1】国際公開第２０２１／１８０９３５号パンフレット

【非特許文献】

【0025】

【非特許文献1】Ｂｌａｕｅｒｔ，２００１，Ｓ．２４１－２５７

【非特許文献2】Ｌａｕｒｉｄｓｅｎ，１９５４

【非特許文献3】Ｋｅｎｄａｌｌ，１９９５

【非特許文献4】Ｂａｕｍｇａｒｔｅ＆Ｆａｌｌｅｒ，２００３

【非特許文献5】Ｆａｌｌｅｒ＆Ｂａｕｍｇａｒｔｅ，２００３

【非特許文献6】Ｚｏｔｔｅｒ＆Ｆｒａｎｋ，２０１３

【非特許文献7】Ａｌａｒｙ，Ｐｏｌｉｔｉｓ，＆Ｖａｌｉｍａｋｉ，２０１７

【非特許文献8】Ｓｃｈｌｅｃｈｔ，Ａｌａｒｙ，Ｖａｌｉｍａｋｉ，＆Ｈａｂｅｔｓ，２０１８

【非特許文献9】Ｐｕｌｋｋｉ，１９９９

【非特許文献10】Ｐｕｌｋｋｉ，１９９７

【非特許文献11】Ｐｕｌｋｋｉ，Ｌａｉｔｉｎｅｎ，＆Ｅｒｋｕｔ，２００９

【非特許文献12】Ｐｕｌｋｋｉ，２００７

【非特許文献13】Ｐｉｈｌａｊａｍａｋｉ，Ｓａｎｔａｌａ，＆Ｐｕｌｋｋｉ，２０１４

【非特許文献14】Ｖｅｒｒｏｎ，Ａｒａｍａｋｉ，Ｋｒｏｎｌａｎｄ－Ｍａｒｔｉｎｅｔ，＆Ｐａｌｌｏｎｅ，２０１０

【非特許文献15】Ｐｏｔａｒｄ，２００３

【非特許文献16】Ｐｏｔａｒｄ＆Ｂｕｒｎｅｔｔ，２００４

【非特許文献17】Ｓｃｈｍｉｄｔ＆Ｓｃｈｒｏｄｅｒ，２００４

【非特許文献18】Ｓｃｈｍｅｌｅ＆Ｓａｙｉｎ，２０１８

【非特許文献19】ＺｏｔｔｅｒＦ．，Ｆｒａｎｋ，Ｋｒｏｎｌａｃｈｎｅｒ，＆Ｃｈｏｉ，２０１４

【非特許文献20】Ｌａｕｒｉｄｓｅｎ，１９５４

【発明の概要】

【0026】

本発明の目的は、空間的に拡張された音源のための改善された概念を提供することである。
この目的は、独立請求項に定義される主題によって達成され、好ましい実施形態は従属請求項に定義される。

【0027】

通常の空間的に拡張された音源（ＳＥＳＳ）の高速合成アルゴリズムは、特定の指定されたターゲット空間領域における拡散場の音印象をシミュレートする。これは、オーディオ信号の非相関バージョンによって駆動される多くの近接して配置された音源の（仮想）総和によって達成される。時々、ＳＥＳＳの一部は、部分的に透過性の材料（例えば、ブッシュ）によって遮られ、遮られた空間領域におけるＳＥＳＳの周波数選択的減衰をもたらす。この効果は、テーブルルックアップ操作と所望のバイノーラルキューのさらなる計算との間の計算に重み付けステップを導入することによって、効率的なＳＥＳＳアルゴリズムに見事かつ効率的に組み込むことができる。ルックアップテーブルは、聴取者の周りの各空間セクタの項の事前計算された部分和を記憶する。この拡張は、実質的に追加の計算コストを伴わない。実施形態は、選択的空間重み付けを用いて空間的に拡張された音源（ＳＥＳＳ）を再現又は合成するための装置及び方法又はコンピュータプログラムに関する。

【0028】

本発明の利点は、本発明が、場合によっては複雑な幾何学的形状を有する空間的に拡張された音源の処理を可能にすることである。

【0029】

本発明のさらなる利点は、実施形態が、空間的に拡張された音源を再現する改善された概念を可能にし、ＳＥＳＳレンダリングの空間的に選択的な変更の可能性を可能にすることである。

【0030】

第１の態様は、基本空間セクタの使用に関する。この第１の態様は、ルックアップテーブルにおける基本空間セクタのデータの記憶に関し、基本空間セクタは球にわたって分布している。基本空間セクタのデータは、好ましくは、ユーザ中心のオーディオシーンを形成するユーザの頭部に結び付けられ、同じ位置における頭部の各傾斜、及び聴取者の頭部の各位置、すなわち６－ＤＯＦの各自由度でも同じである。しかしながら、頭部の各移動又は傾斜は、ＳＥＳＳからの音が別の１つ又は複数の基本空間セクタにおいてユーザの頭部に「入る」状況をもたらす。レンダラは、ＳＥＳＳによってカバーされる基本空間セクタを判定し、これらの特定のセクタのための記憶されたデータを取り出し、必要に応じて、遮蔽オブジェクト又は特定の距離に起因する記憶されたデータの重み付けを実行し、次いで、記憶されたデータ（又は、を重み付けする場合には、重み付けされた記憶されたデータ）を結合し、次いで、レンダリングのために結合操作の結果を使用する（例えば、レンダリングキューは、結合された（共）分散データから計算されるが、他のステップ及びパラメータもここで使用することができる。したがって、この態様は、遮蔽オブジェクトへの参照を使用してもしなくてもよく、特定の記憶された分散データへの参照を使用してもしなくてもよく、その理由は、組み合わせ（及び任意選択で重み付けも）は、（基本空間セクタ又は全空間範囲に関する）（平均の）ＨＲＴＦ又は周波数依存キュー自体などの他のデータが記憶されている場合にも行うことができるためである。

【0031】

第２の態様は、遮蔽オブジェクト又は他のオブジェクトであり得るオブジェクトを修正することに関し、その結果、ＳＥＳＳ位置から特定の位置及び／又は傾斜を有するユーザへの途中でＳＥＳＳの音が修正される。この第２の態様は、例えば遮蔽オブジェクトの処理に関する。遮蔽オブジェクトの影響は、ローパス特性を有する周波数依存性の減衰である。周波数依存性の重み付けは、基本空間セクタを有していない場合の従来技術の手順にも適用することができる。遮蔽オブジェクトを記述する送信されたデータに基づいて、ＳＥＳＳが遮蔽されているか否かを決定し、次いで、従来技術の異なる周波数に対して既に与えられている、例えば周波数依存の記憶されたキューに遮蔽関数を適用しなければならない。したがって、これは、基本空間セクタを使用せずに、又は記憶された分散データを使用せずに、従来技術における遮蔽効果の有用な適用である。

【0032】

第３の態様は、例えば、異なる空間範囲又は基本空間セクタのＨＲＴＦの分散データ及び共分散データの記憶装置に関する。この第３の態様は、例えば、記憶位置におけるＨＲＴＦの分散データ及び共分散データの、例えばルックアップテーブルにおける記憶装置に関する。従来技術のように一定の空間範囲に対してこのデータを記憶するか、又は基本空間セクタに対してこのデータを記憶するかは重要ではない。次いで、レンダラは、記憶された分散データからすべてのレンダリングキューを進行中に計算する。少なくともＩＡＣＣが記憶され、おそらく他のキュー又はＨＲＦＴデータが記憶される従来技術のアプリケーションとは対照的に、この態様ではｈｉｓは行われない。共分散データが記憶され、キューは進行中に計算される。したがって、この態様は、基本空間セクタを使用してもしなくてもよく、修正又は遮蔽オブジェクトを使用してもしなくてもよい。

【0033】

すべての態様は、互いに別々に、若しくは互いに一緒に使用することができ、又は任意に選択された２つの態様のみを組み合わせることもできる。

【0034】

続いて、本発明の好ましい実施形態を添付の図面に関して説明する。

【図面の簡単な説明】

【0035】

【図1】本発明の第１の態様による空間的に拡張された音源を合成するための装置を示す図である。

【図2a】本発明の第２の態様による空間的に拡張された音源を合成するための装置を示す図である。

【図2b】本発明の第２の態様によるオーディオシーン発生器を示す図である。

【図3】本発明の第３の態様の好ましい実施形態を示す図である。

【図4】本発明の態様の特定の部分を説明するためのブロック図である。

【図5】本発明の態様のいくつかの部分を説明するための別のブロック図である。

【図6】本発明の態様の一部を説明するためのさらなるブロック図である。

【図7】基本空間セクタにおけるレンダリングレンジの例示的な分割を示す。

【図8】空間的に拡張された音源の合成のために３つの本発明の態様を組み合わせるための手順を示す図である。

【図9】図４、５、及び６のブロック３２０の好ましい実施態様を示す図である。

【図10】第２のチャネルプロセッサの実施態様を示す図である。

【図11】本発明の第１の態様及び第２の態様の特徴を特に示す概略図である。

【図12】発明の第１、第２、及び第３の態様を説明するための図である。

【図13】さらなる実施形態による、オーディオプロセッサ合成に接続された図１０の相関除去器を示す図である。

【発明を実施するための形態】

【0036】

図１は、空間的に拡張された音源を合成するための装置を示す図である。本装置は、聴取者のためのレンダリングレンジをカバーする異なる基本空間セクタのためのレンダリングデータ項目を記憶するための記憶装置２０００を備えている。本装置はさらに、異なる基本空間セクタから、特定の空間的に拡張された音源に属する基本空間セクタのセットを識別するセクタ識別プロセッサ４０００を備えている。識別は、聴取者データと、空間的に拡張された音源（ＳＥＳＳ）に関するデータとに基づいて行われる。さらに本装置は、基本空間セクタのセットについてのレンダリングデータ項目からターゲットレンダリングデータを計算するためのターゲットデータ計算器５０００を備えている。さらに、本装置は、ターゲットデータ計算器５０００によって生成されたターゲットレンダリングデータを使用して空間的に拡張された音源を表すオーディオ信号を処理するためのオーディオプロセッサ３０００を備えている。

【0037】

図２ａは、オーディオシーンの記述を受信するための入力インターフェース４０２０を備える空間的に拡張された音源（ＳＥＳＳ）を合成するための装置を示し、オーディオシーンの記述は、空間的に拡張された音源に関する空間的に拡張された音源データと、潜在的修正オブジェクトに関する修正データとを備える。さらに、入力インターフェース４０２０は、聴取者データを受信するように構成される。

【0038】

一般に、図１のセクタ識別プロセッサ４０００として実施することができるセクタ識別プロセッサ４０００は、聴取者のレンダリングレンジ内の空間的に拡張された音源の制限された修正された空間セクタを識別するように構成され、聴取者のレンダリングレンジは、制限された修正された空間セクタよりも大きい。識別は、空間的に拡張された音源データと、聴取者データ及び修正データとに基づいて行われる。さらに、装置は、一般に、図１のターゲットデータ計算器５０００と同一又は同様に実施することができるターゲットデータ計算器５０００を備える。このデバイスは、図２ａのブロック４０００によって判定されるように、修正された制限された空間セクタに属する１つ又は複数のレンダリングデータ項目からターゲットレンダリングデータを計算するように構成される。さらに、図２ａに示される第２の態様に係る空間的に拡張された音源を合成するための装置は、修正データ、すなわち、遮蔽オブジェクトなどの修正オブジェクトのデータによる影響を受けたターゲットレンダリングデータを使用して空間的に拡張された音源を表すオーディオ信号を処理するためのオーディオプロセッサを備えている。

【0039】

図２ｂは、やはり第２の態様による、空間的に拡張された音源データ生成器６０１０と、修正データ生成器６０２０と、出力インターフェース６０３０とを備えるオーディオシーン生成器を示している。空間的に拡張された音源データ生成器６０１０は、空間的に拡張された音源のデータを生成し、このデータを出力インターフェースに提供するように構成される。このデータは、好ましくは、空間的に拡張された音源のためのメタデータとして、空間的に拡張された音源のための位置情報、方向情報、及びジオメトリデータのうちの少なくとも１つを含み、加えて、例えば、グランドピアノのような大きなＳＥＳＳの場合のＳＥＳＳのためのステレオ信号、又は、例えば、図１０の要素３１０又は図１３の要素３１００に示されている相関除去器によって処理されるＳＥＳＳデータのためのモノラル信号のみのような、ＳＥＳＳのための波形データを含むことができる。

【0040】

修正データ生成器６０２０は、修正データを生成するように構成され、この修正データは、ローパス関数の記述、又は潜在的修正オブジェクトに関するジオメトリデータの記述を含むことができる。一実施形態では、ローパス関数は、より高い周波数の減衰値を含み、より高い周波数の減衰値は、より低い周波数の減衰値と比較してより強い減衰値を表し、このデータは、生成されたオーディオシーン記述に挿入するために出力インターフェース６０３０に転送される。

【0041】

したがって、図２ｂに示すオーディオシーン記述は、ＳＥＳＳデータだけでなく、それ自体は音源ではなく、音源によって生成された音場を修正する要素である修正オブジェクトに関するデータも含まれる点で、ＳＥＳＳ記述と比較して拡張されている。

【0042】

図３は、第３の態様による空間的に拡張された音源を合成するための装置の好ましい実施形態を示す図である。

【0043】

この要素は、異なる制限された空間セクタについての１つ又は複数のレンダリングデータ項目を記憶するための記憶装置を備え、異なる制限された空間セクタは、聴取者のレンダリングレンジ内に位置し、制限された空間セクタについての１つ又は複数のレンダリングデータ項目は、左分散データ項目、右分散データ項目、及び左右共分散データ項目のうちの少なくとも１つを備える。

【0044】

さらに、装置は、空間的に拡張された音源データに基づいて、好ましくは聴取者の位置又は向きに基づいて、聴取者のレンダリングレンジ内の空間的に拡張された音源のための１つ又は複数の制限された空間セクタを識別するためのセクタ識別プロセッサ４０００を備える。

【0045】

左分散データ、右分散データ、及び共分散データは、セクタ識別プロセッサ４０００によって判定されるように、１つ又は複数の制限された空間セクタに対応する、記憶された左分散データ、記憶された右分散データ、又は記憶された共分散データからターゲットレンダリングデータを計算するためのターゲットデータ計算器５０００に入力される。ターゲットレンダリングデータは、ターゲットレンダリングデータを使用して空間的に拡張された音源を表すオーディオ信号を処理するためのオーディオプロセッサ３０００に転送される。一般に、オーディオプロセッサ３０００は、図１及び図２ｂ又は図４、図５、及び図６と同じ方法で実施することができ、又はオーディオプロセッサ３０００は異なる方法で実施することができる。

【0046】

好ましくは、左分散データ項目、右分散データ項目、及び／又は左右共分散データ項目は、頭部伝達関数データに関連する、又はバイノーラル室内インパルス応答データに関連する、又はバイノーラル室内伝達関数データに関連する、又は頭部インパルス応答データに関連するデータ項目である。さらに、レンダリングデータ項目は、周波数選択的／周波数依存性の処理が達成されるように、異なる周波数に対する分散又は共分散データ項目値を含む。

【0047】

特に、記憶装置２０００は、制限された空間セクタごとに、左分散データ項目の周波数依存表現、右分散データ項目の周波数依存表現、及び共分散データ項目の周波数依存表現を記憶するように構成される。

【0048】

記憶された分散／共分散データ項目の上流処理は、図４、５、及び６として後に示す国際公開第２０２１／１８０９３５号パンフレットのいくつかの図に例示されている。

【0049】

図４は、ＳＥＳＳ合成のブロック図を示す。図５は、選択肢１に従って簡略化されたＳＥＳＳ合成の別のブロック図を示し、図６は、選択肢２に従って簡略化されたＳＥＳＳ合成のブロック図を示す。

【0050】

図４は、空間的に拡張された音源を合成するための装置の実施態様を示す図である。装置は、最大空間レンジ内の空間的に拡張された音源の制限された空間レンジを示す空間レンジ通知情報入力を受信する空間情報インターフェースを備える。制限された空間レンジは、空間情報インターフェースによって与えられた制限された空間レンジに応答して、１つ又は複数のキュー情報項目を提供するように構成されたキュー情報プロバイダ２００に入力される。キュー情報項目又はいくつかのキュー情報項目は、キュー情報プロバイダ２００によって提供される１つ又は複数のキュー情報項目を使用して空間的に拡張された音源を表すオーディオ信号を処理するように構成されたオーディオプロセッサ３００に提供される。空間的に拡張された音源（ＳＥＳＳ）のオーディオ信号は、単一のチャネルであってもよく、又は第１のオーディオチャネル及び第２のオーディオチャネルであってもよく、又は３つ以上のオーディオチャネルであってもよい。しかし、処理負荷を低くするためには、空間的に拡張された音源、又は空間的に拡張された音源を表すオーディオ信号のチャネル数が少ないことが好ましい。

【0051】

オーディオ信号は、オーディオプロセッサ３００に入力され、オーディオプロセッサ３００は、入力されたオーディオ信号を処理し、又は、入力されたオーディオチャネルの数が、必要とされる数よりも少ない、例えば、ただ１つである場合、オーディオプロセッサは、例えば、図１０にＳ_１としても示されている第１のオーディオチャネルＳから相関除去された第２のオーディオチャネルＳ_２を生成するための相関除去器を備える、図１０に示されている第２のチャネルプロセッサ３１０を備える。キュー情報項目は、チャネル間相関項目、チャネル間位相差項目、チャネル間レベル差及びゲイン項目などの実際のキュー項目、例えば、ともにチャネル間レベル差及び／又は絶対振幅若しくは電力若しくはエネルギーレベルを表すゲイン係数項目Ｇ_１、Ｇ_２であってもよく、又はキュー情報項目は、合成信号内の合成されるべき出力チャネルの実際の数によって必要とされる数を有する頭部伝達関数などの実際のフィルタ関数であってもよい。したがって、合成信号が２つのバイノーラルチャネル又は２つのスピーカチャネルなどの２つのチャネルを有する場合、各チャネルに対して１つの頭部伝達関数が必要とされる。頭部伝達関数の代わりに、頭部インパルス応答関数（ＨＲＩＲ）又はバイノーラル又は非バイノーラル室内インパルス応答関数（Ｂ）ＲＩＲが必要である。そのような伝達関数は各チャネルに１つ必要であり、図４は２つのチャネルを有する実施態様を示している。

【0052】

一実施形態では、キュー情報プロバイダ２００は、キュー情報項目として、チャネル間相関値を提供するように構成される。オーディオプロセッサ３００は、オーディオ信号インターフェース３０５を介して、第１のオーディオチャネル及び第２のオーディオチャネルを実際に受信するように構成される。しかしながら、オーディオ信号インターフェース３０５が単一チャネルのみを受信する場合、任意選択的に設けられる第２のチャネルプロセッサは、例えば図９の手順によって第２のオーディオチャネルを生成する。オーディオプロセッサは、チャネル間相関値を使用して第１のオーディオチャネルと第２のオーディオチャネルとの間の相関を課すための相関処理を実行する。

【0053】

追加的又は代替的に、チャネル間位相差項目、チャネル間時間差項目、チャネル間レベル差及びゲイン項目、又は第１のゲイン係数及び第２のゲイン係数の情報項目などのさらなるキュー情報項目を提供することができる。項目は、両耳間（ＩＡＣＣ）相関値、すなわちより具体的なチャネル間相関値、又は両耳間位相差項目（ＩＡＰＤ）、すなわちより具体的なチャネル間位相差値であってもよい。

【0054】

好ましい実施形態では、相関は、ＩＣＰＤ（３３０）、ＩＣＴＤ若しくはＩＣＬＤ（３４０）調整が実行される前に、又はＨＲＴＦ若しくは他の転送フィルタ関数処理（３５０）が実行される前に、相関キュー情報項目に応答してオーディオプロセッサ３００によって３２０で課される。しかしながら、場合によっては、順序は異なるように設定することができる。

【0055】

好ましい実施形態では、装置は、異なる空間レンジ通知に関連する異なるキュー情報項目に関する情報を記憶するためのメモリを備える。この状況では、キュー情報プロバイダは、対応するメモリに入力された空間レンジ通知に関連する１つ又は複数のキュー情報項目をメモリから検索するための出力インターフェースをさらに備える。そのようなルックアップテーブル２１０は、例えば、図４、図５、又は図６に示されており、ルックアップテーブルは、対応するキュー情報項目を出力するためのメモリ及び出力インターフェースを含む。特に、メモリは、図１ｂに示されるようにＩＡＣＣ、ＩＡＰＤ又はＧ_ｌ及びＧ_ｒ値を記憶するだけでなく、ルックアップテーブル内のメモリはまた、「ＨＲＴＦを選択する」として示される図５及び図６のブロック２２０に示されるようにフィルタ関数を記憶することもできる。この実施形態では、図５及び図６に別々に示されているが、ブロック２１０、２２０は同じメモリを備えることができ、方位角及び仰角として示されている対応する空間レンジ通知に関連して、ＩＡＣＣ及び任意選択的にＩＡＰＤなどの対応するキュー情報項目、並びに左出力チャネルのＨＲＴＦ_ｌ及び右出力チャネルのＨＲＴＦ_ｒなどのフィルタの伝達関数が記憶され、左出力チャネル及び右出力チャネルは、図４又は図５又は図６ではＳ_ｌ及びＳ_ｒとして示されている。

【0056】

ルックアップテーブル２１０又は選択機能ブロック２２０によって使用されるメモリはまた、特定のセクタコード又はセクタ角度又はセクタ角度レンジに基づいて、対応するパラメータが利用可能である記憶装置を使用してもよい。代替的には、メモリは、場合によってベクトルコードブック、又は多次元関数適合ルーチン、又は混合ガウスモデル（ＧＭＭ）又はサポートベクタマシン（ＳＶＭ）を記憶してもよい。

【0057】

ターゲットキューは、以下のように計算される。図４に、概念の一般的なブロック図を示す。

は、方位角レンジに関する所望の音源範囲を示している。

は、仰角範囲に関する所望の音源範囲である。

及び

は、２つの非相関入力信号を示しており、

は、周波数の指数を示している。したがって、

及び

に関し、以下の式が成り立つ。

（１）

【0058】

加えて、両方の入力信号は、同じパワースペクトル密度を有する必要がある。代替として、１つの入力信号

のみを与えることが可能である。第２の入力信号は、図１０に示すように、相関除去器を用いて内部で生成される。

及び

が与えられると、拡張音源は、対応する両耳間キューに一致するように、チャネル間コヒーレンス（ＩＣＣ）、チャネル間位相差（ＩＣＰＤ）、及びチャネル間レベル差（ＩＣＬＤ）を連続的に調整することによって合成される。これらの処理ステップに必要な量は、予め計算されたルックアップテーブルから読み取られる。結果として得られる左右のチャネル信号

及び

は、ヘッドホンを介して再生することができ、ＳＥＳＳを模倣している。ＩＣＣ調整を最初に実行する必要があるが、ＩＣＰＤ及びＩＣＬＤ調整ブロックは相互交換することができることに留意されたい。ＩＡＰＤの代わりに、対応する両耳間時間差（ＩＡＴＤ）も同様に再現することができる。しかしながら、以下では、ＩＡＰＤのみがさらに考慮される。

【0059】

ＩＣＣ調整ブロックにおいて、両方の入力信号間の相互相関は、以下の式［２１］を使用して所望の値｜ＩＡＣＣ（ω）｜に調整される。

（２）

（３）

（４）

（５）

【0060】

これらの式を適用すると、入力信号

及び

が完全に非相関である限り、所望の相互相関が得られる。さらに、それらのパワースペクトル密度は同一である必要がある。対応するブロック図を図９に示す。４つのフィルタ３２１から３２４及び２つの加算器３２５、３２６は、ブロック３２０の出力を得るために入力を処理する。ＩＣＰＤ調整ブロック３３０は、以下の式によって記述される。

（６）

（７）

【0061】

最後に、ＩＣＬＤ調整３４０は以下のように実行される。

（８）

（９）
式中、

は左耳ゲインを表し、

は右耳ゲインを表す。これにより、

及び

が同じパワースペクトル密度を有する限り、所望のＩＣＬＤが得られる。左右の耳ゲインが直接使用されるので、ＩＡＬＤに加えてモノラルスペクトルキューが再現される。

【0062】

前述の方法をさらに簡略化するために、簡略化のための２つの選択肢が記載されている。前述のように、（水平面内の）知覚される空間範囲に影響を及ぼす主な両耳間キューはＩＡＣＣである。したがって、事前計算されたＩＡＰＤ及び／又はＩＡＬＤ値を使用せずに、ＨＲＴＦを介してそれらを直接調整することが考えられる。この目的のために、所望の音源範囲レンジを表す位置に対応するＨＲＴＦが使用される。この位置として、一般性を失うことなく、所望の方位角／仰角レンジの平均がここで選択される。以下、両方の選択肢について説明する。

【0063】

第１の選択肢は、事前に計算されたＩＡＣＣ値及びＩＡＰＤ値を使用することを含む。しかしながら、ＩＣＬＤは、音源範囲レンジの中心に対応するＨＲＴＦを使用して調整される。

【0064】

第１の選択肢のブロック図が図５に示されている。ここで、

及び

は、以下の式を使用して計算される。

（１０）

（１１）

及び

は、所望の方位角／仰角レンジの平均を表すＨＲＴＦの位置を記述する。第１の選択肢の主な利点は以下を含む。

【0065】

・音源範囲が音源範囲レンジの中央の点音源と比較して増加している場合、スペクトル成形／着色がない。

【0066】

・

及び

がルックアップテーブルに記憶されている必要はないので、フルブローンと比較してより低いメモリ要件。

【0067】

ＩＣＬＤではなく結果として生じるＩＣＣ及びＩＣＰＤのみが事前計算中に使用されるＨＲＴＦデータセットに依存するため、フルブローン法と比較してランタイムのＨＲＴＦデータセットの変化に対してより柔軟である。

【0068】

この単純化されたバージョンの主な欠点は、拡張されていない音源と比較して、ＩＡＬＤの劇的な変化が発生するときはいつでも失敗することである。この場合、ＩＡＬＤが十分な精度で再現されない。これは、例えば、音源が０°の方位角を中心とせず、同時に水平方向の音源範囲が大きくなりすぎる場合である。

【0069】

第２の選択肢は、事前に計算されたＩＡＣＣ値のみを使用することを含む。ＩＣＰＤ及びＩＣＬＤは、音源範囲レンジの中心に対応するＨＲＴＦを使用して調整される。

【0070】

第２の選択肢のブロック図が図６に示されている。ここで、

及び

は、以下の式を使用して計算される。

（１２）

（１３）
第１の選択肢とは対照的に、ここでは、大きさのみではなく、ＨＲＴＦの位相及び大きさが使用される。これにより、ＩＣＬＤだけでなくＩＣＰＤも調整することができる。

【0071】

まず、左右のチャネル間の（共）分散項を以下のように計算する。

【0072】

第２のステップでは、ターゲットキューＩＡＣＣ、ＩＡＬＤ、及びＩＡＰＤは、以下のように分散項から計算される。

また、左右の耳ゲインは以下のようになる。

これらのターゲットキューから、バイノーラル信号の最終的な効率的な合成は、国際公開第２０２１／１８０９３５号パンフレットに説明されているように、入力音をレンダリングされたバイノーラル出力に変換する４つのフィルタを設計することによって実行することができる。

【0073】

【0074】

【0075】

【0076】

すべての態様は、互いに別々に、若しくは互いに一緒に使用することができ、又は任意に選択された２つの態様のみを組み合わせることもできる。

【0077】

本発明の利点は、例えば、
・特定の方法でターゲットキュー計算のためのルックアップテーブルを編成すること（セクタベース、（共）分散項の使用、周波数依存）；又は
・ＳＥＳＳの（部分的又は完全に）遮蔽された部分の合成に必要とされるように、又は一定の距離減衰をモデル化するために、所望のターゲット周波数応答に従って（共）分散項の（周波数選択的な）重み付けを行うこと
によって、国際公開第２０２１／１８０９３５号パンフレットと比較して、空間的に拡張された音源のための強化された効率的で現実的なバイノーラルレンダリングを提供することである。

【0078】

本発明の実施形態は、いくつかの方法でＳＥＳＳを効率的にレンダリングするために国際公開第２０２１／１８０９３５号パンフレットから前述の概念を拡張して、記憶効率を高め、ＳＥＳＳの部分的に遮蔽した部分をもレンダリングする能力を可能にする。

【0079】

ルックアップテーブル及びルックアップテーブルに基づくターゲットキュー計算を編成する特に効率的な方法が開示され、これにより、ＳＥＳＳのすべての可能な空間ターゲット領域を小さいサイズのルックアップテーブルにカバーすることが可能になる。これは、ルックアップテーブルを、聴取者の頭部の周りの全球を小さな方位角／仰角セクタに分割するテーブルとして編成することによって達成される。これらのセクタのサイズ（すなわち、それらの方位角及び仰角サイズ）は、好ましくは、人間の方位角／仰角の知覚の分解能に従って選択される。例えば、方位角に対する人間の聴覚解像度は、前方で最も細かく（約１度）、側方に向かって減少する。また、聴取者の耳が頭部の左右に位置するため、仰角の知覚の解像度は方位角の解像度よりもはるかに粗い。これらの空間セクタの各々について、特定の部分的に合計された項がルックアップテーブルに記憶される。好ましい実施形態では、これらは、多くの点音源（それらのそれぞれの頭部インパルス応答、ＨＲＩＲによって記述され、非相関信号バージョン＝拡散フィールドによって駆動される）が合計されるときの２つの耳信号の（共）分散項（Ｅ｛Ｙｌ・Ｙｒ^＊｝、Ｅ｛｜Ｙｌ｜^２｝、Ｅ｛｜Ｙｒ｜^２｝）である。さらに、好ましい実施形態では、これらのテーブルエントリは、周波数選択的方法で記憶される（Ｅ｛Ｙｌ・Ｙｒ^＊｝、Ｅ｛｜Ｙｌ｜^２｝、Ｅ｛｜Ｙｒ｜^２｝）。

【0080】

これは、キュー計算プロセスが、いくつかのセクタがカバーされるべきであるときに、これらのセクタの（共）分散データを単純に追加して（すべてのセクタを含む）ターゲット領域全体の（共）分散データを生成することができるように、各空間セクタについて記憶されたＨＲＩＲ寄与からこれらの合計項（Ｅ｛Ｙｌ・Ｙｒ^＊｝、Ｅ｛｜Ｙｌ｜^２｝、Ｅ｛｜Ｙｒ｜^２｝）を利用するので、単独で又は上記に加えて達成される。

【0081】

さらに、（例えば、ＳＥＳＳのこの部分の遮蔽をモデル化するための）特定の空間セクタの空間重み付けは、これらの空間セクタについて記憶された（共）分散データを、後続のキュー計算プロセスでそれらを使用する前に重み付けすることによって達成することができる。具体的には、すべての（共）分散項を、対応するエネルギースケーリング係数ｇ^２（ｆ）と乗算することによって、所望のターゲット周波数応答ｇ（ｆ）を課すことができる。一例として、遮蔽ブッシュは、この遮蔽ブッシュを通して音が伝播するときに減衰及びローパス周波数応答を課す。したがって、（共）分散項は減衰され、より高い周波数の項は、低周波数の項よりも減衰される。異なる遮蔽／重み付けのためのいくつかのゾーンが可能である。同様に、オブジェクト距離のモデル化も可能である：河川のような大きなオブジェクトの場合、オブジェクトの一部は、他の部分よりも聴取者から実質的に遠く離れている可能性があり、したがって、近くの部分よりも音量が小さくなる。これは、異なる空間セクタの距離の重み付けによってモデル化及びレンダリングすることができる。空間セクタ内の項は、この空間セクタ内のオブジェクトの（例えば、平均）距離に対応する距離エネルギー減衰係数で重み付けされる。

【0082】

本発明の方法若しくは装置又はコンピュータプログラムの実施形態の概要を以下に提供する。

【0083】

レンダラの初期化／起動段階では、ＨＲＩＲ寄与を後で合計できる空間セクタ（例えば方位角及び仰角のレンジ）を定義することによって、聴取者の頭部の周りの球の分割が行われる。次に、これらの空間セクタに基づいて、対応するＨＲＩＲ寄与を、（共）分散項を使用してルックアップテーブルに記憶することができる。

【0084】

図１１は、第１の態様と第２の態様との協働を実施する本発明（方法又は装置又はコンピュータプログラム）のさらなる概要を示す。特に、ブロック「ＳＥＳＳレンダリングのための空間セクタの選択」は、図１から３に示されたセクタ識別プロセッサ４０００に対応する。空間セクタの選択の結果は、空間セクタのグループであり、４０１０に示されるいかなる修正もなしにいくつかのセクタが存在することができる。さらに、判定されたセクタの中に、４０２０で示された第１の特性による遮蔽の修正を伴うセクタを含めることができる。さらに、「数Ｎ」として示される別の遮蔽の修正を伴うセクタも存在し得る。これは４０３０に示されている。特に第２の態様に関してターゲットデータ計算器５０００によって示される特定のターゲットデータ計算は、２つ以上のそのようなセクタが存在する場合に、左側の分散項、右側の分散項、及びすべての非遮蔽セクタの共分散項の合計を実行する。さらに、重み関数１による合計が実行され、すなわち、遮蔽／修正番号１による遮蔽を有するセクタが２つ以上ある場合、これらは合計され、次いで対応する重みが適用され、又は重み操作と合計操作とを交換することができる。さらに、４０３０に示すように遮蔽修正番号Ｎを有する他のセクタがある場合、そのようなセクタは、これらのセクタの特定の重み／修正関数の対応する重みと合計することができる。

【0085】

当然のことながら、ＳＥＳＳに関して非遮蔽セクタのみが存在するか、又は単一の修正関数による遮蔽セクタのみが存在するか、これらの可能性の間の任意の混合、すなわち、１つのセクタが非遮蔽であり、遮蔽／修正番号１を有するセクタが１つだけであるが、遮蔽／修正番号Ｎのセクタが存在しないことをケースとすることができる。当然ながら、数「Ｎ」は１に等しくてもよく、それによってライン４０１０及び４０２０のみが存在するが、修正番号１に加えて別の修正を有する修正はブロック４０００によって判定されない。

【0086】

ブロック５０２０において個々の遮蔽／修正の個々の重み付けが実行されるとすぐに、ブロック５０４０における全体的なキュー合計が行われ、次いで最終的なターゲットキュー計算５０６０のための入力データが実行される。次いで、このターゲットキューデータは、図１１のバイノーラルキュー合成又はオーディオプロセッサブロック３０００に入力される。ブロック３０００への入力は、ＳＥＳＳがステレオ波形信号を有する場合、ＳＥＳＳ入力信号番号１及びＳＥＳＳ入力信号番号２である。モノラル波形信号のみを有するＳＥＳＳの場合、それにもかかわらず、２つの信号が生成されるが、図１３の３１００に示されているか、又は図１０の３０１０に示されている相関除去器を用いる。

【0087】

図１２は、ＩＡＣＣ調整３２００、ＩＡＰＤ調整３３００、及びＩＡＬＤ調整３４００からなるバイノーラルキュー合成３０００の好ましい実施態様を示す。これらのすべてのブロックには、ブロック２０００で「ルックアップテーブル」として示されているストレージからのデータが提供される。しかしながら、実施態様に応じて、ＩＡＣＣ、ＩＡＰＤ、及びＩＡＬＤの最終値を判定するための対応する処理もまた、ブロック２０００において、ターゲットデータ計算ステップ５０２０、５０４０、５０６０に従って生成される。したがって、図１２の「ルックアップテーブル」と題するブロックには、参照番号２０００及び参照番号５０００が付されている。しかしながら、このブロックへの入力は、図１、２ａ、３、１１のいずれかのセクタ識別プロセッサ４０００によって提供される。

【0088】

図１３の左側には、単一のＳＥＳＳ波形信号から、相関除去器の出力における番号１及び番号２の２つのＳＥＳＳ入力信号を生成するための相関除去器３１００が示されている。次いで、このデータは、４つのフィルタリング操作３２１０、３２２０、３２３０、及び３２４０を受け、左チャネルの対応する寄与が加算器３２５０を介して加算され、右チャネルの対応する寄与が加算器３２６０を介して加算されて、最終的な左右の出力信号が得られる。個々のフィルタ関数３２１０、３２２０、３２３０、及び３２４０は、国際公開第２０２１／１８０９３５号パンフレットに記載されているように、対応して判定された制限された空間レンジについてターゲットデータ計算器５０００を介して計算されるか、又は空間的に拡張された音源が２つ以上の基本空間セクタによって表される図７に関して説明したように、複数の基本空間セクタに従って計算される。

【0089】

各オーディオブロックの処理は、第１の態様、第２の態様、及び第３の態様を一緒に実施する好ましい実施形態の全体のフローチャートを示す図１１に示されている。各オーディオ信号ブロックについて、ＳＥＳＳに属するターゲット空間領域の（時間変化する）ターゲットキューが判定され、バイノーラルキュー合成段階において２つの入力信号に適用されて、Ｌ及びＲバイノーラル出力信号が生成される。

【0090】

ターゲットバイノーラルキューは、以下のように計算される。
聴取者及びＳＥＳＳの位置及び向き、並びにＳＥＳＳジオメトリを考慮して、ＳＥＳＳに属する空間セクタが（例えば、プロジェクションアルゴリズム又はレイトレーシング分析を使用して）計算される。

【0091】

具体的には、遮蔽及び／又は距離減衰などのような効果をモデル化するように重み付けされるべきＳＥＳＳの部分に属する空間セクタが見出される。異なる減衰／周波数応答特性を必要とするいくつかの空間領域が存在する可能性がある。対応するセクタは、異なるいわゆる「セクタクラス」（例えば、「非遮蔽」、「遮蔽／修正＃１」、．．．「遮蔽／修正＃ｎ」）に属する各領域で別々に処理される。

【0092】

各セクタクラス内のセクタについて記憶された（共）分散項が合計される。次に、異なるセクタクラスの合計セクタ（共）分散データは、セクタクラスごとに所望の伝達関数に従って重み付けされる。具体的には、そのセクタクラスの（共）分散データは、このクラスに属する（周波数依存）エネルギー伝達関数（振幅スケーリング係数／振幅周波数応答の二乗）と乗算される。

【0093】

ＳＥＳＳのすべてのセクタクラスの重み付き分散項は、全体的な（重み付け）（共）分散項に合計される。

【0094】

修正／重み付けされた全体的な（共）分散項を使用するターゲットキューは、式（２３）～（２７）を使用して計算される。もちろん、各セクタの（共）分散データは、最初にセクタクラス内で部分的な合計を実行し、各セクタクラスに対して１回重み付けし、最終的に合計するのではなく、個々に重み付けされ、次いで合計することもできる。しかしながら、前述のアプローチは、そのより高い効率のために好ましい実施形態である。

【0095】

最新技術に対する本発明の実施形態の利点は、サイズが決められた音源（ＳＥＳＳ）の非常に効率的でより現実的なレンダリング、小さいルックアップテーブルサイズ、及び／又はサイズ音源（ＳＥＳＳ）の選択された空間部分の周波数応答を変化させるレンダリング効果（部分遮蔽又は距離減衰など）を含む能力を提供する。

【0096】

好ましい例は、１つ又は複数の信号チャネル、空間的に拡張された音源（ＳＥＳＳ）及びＨＲＴＦセットのジオメトリ、サイズ及び向きを入力として使用し、空間的に拡張された音源のバイノーラルレンダリングのために装備されている（すなわち、２つの出力信号を提供する）レンダラに関する。

【0097】

ＳＰＥＳＳを合成するためのさらに好ましいレンダラ又は装置及び方法は、上記に加えて、又は上記の代わりに、（例えば、所望の両耳間ターゲットキューを計算するための）ターゲットキュー計算ステージ及び（例えば、入力信号（複数可）を所望のターゲットキューを有するバイノーラルにレンダリングされた信号に変換するための）キュー合成ステージを備える。

【0098】

ＳＰＥＳＳを合成するためのさらに好ましいレンダラ又は装置及び方法は、上記に加えて、又は上記の代わりに、ＳＥＳＳのバイノーラルレンダリングのための予め計算されたデータを含み、ＨＲＴＦセットに応じて異なる周波数帯域について提供／予め計算されるルックアップテーブルの使用を含む。

【0099】

ＳＰＥＳＳを合成するためのさらに好ましいレンダラ又は装置及び方法は、上記に加えて、又は上記の代わりに、空間セクタごとに（共）分散項を記憶するように編成されたルックアップテーブルを備える（例えば、ｌ（左）分散、ｒ（右）分散、ｌｒ共分散）。

【0100】

他の好ましい実施形態では、空間セクタは方位角／仰角レンジとして定義される。

【0101】

他の好ましい実施形態では、空間セクタサイズは、人間の聴覚空間定位能力（例えば、方位角方向よりも仰角が広い）の分解能に関連して選択される。

【0102】

他の好ましい実施形態では、ターゲットバイノーラルレンダリングキューの計算は、ＳＥＳＳに属する空間セクタの合計された分散項に基づいて実行される。

【0103】

他の好ましい実施形態では、ＳＥＳＳ（例えば、遮蔽又は距離のモデリング）の異なる空間領域のレンダリングの修正は、最初に記憶されたものではなくルックアップテーブルからの修正された分散項を使用することによって達成される。

【0104】

他の好ましい実施形態では、変更は、分散項と空間セクタに属するエネルギー減衰係数との乗算によって行われる。

【0105】

他の好ましい実施形態では、この減衰係数は（例えば、部分的な遮蔽によるローパス効果をモデル化するために）周波数依存性である。

【0106】

さらなる実施形態は、以下の情報、すなわち、サイズ、オブジェクト及び波形の位置及び向き、並びに遮蔽オブジェクトのジオメトリを含むビットストリームに関する。

【0107】

続いて、ＭＰＥＧＩＩＳＯ２３０９０－４のために現在開発されているさらに好ましい実施形態について説明する。

【0108】

この実施形態は、１に設定された関連フラグｏｂｊｅｃｔＳｏｕｒｃｅＨａｓＥｘｔｅｎｔを有するオブジェクトソースのためのヘッドホンでの再現のための１つ又は複数の空間的に拡張された音源（ＳＥＳＳ）を合成する。オブジェクトソースのそれぞれのパラメータは、ｏｂｊｅｃｔＳｏｕｒｃｅＥｘｔｅｎｔＩｄによって識別される。

【0109】

合成は、音源範囲の空間範囲全体にわたって分布する（理想的には）無限の非相関点音源によるＳＥＳＳの記述に基づいている。現在の聴取者位置に向かう方向にＳＥＳＳジオメトリを連続的に投影することによって、前述のジオメトリによってカバーされるレンジをフレームごとに識別し、リアルタイムで更新することができる。言い換えれば、ジオメトリは、フレームごとにユーザの仮想聴取空間を表す球に投影される。そして、球上の投影されたジオメトリによって占められる空間セクションは、ＳＥＳＳのオーラル化に含まれるものである。

【0110】

ＳＥＳＳは、ユーザによってエンコーダ入力フォーマット（ＥＩＦ）で定義される。所望の音源範囲レンジが与えられると、ＳＥＳＳは、２つの非相関入力信号を使用して合成される。これらの入力信号は、知覚的に重要な聴覚キューが合成されるように処理される。これは、以下の両耳間キュー、：両耳間相互相関（ＩＡＣＣ）、両耳間位相差（ＩＡＰＤ）及び両耳間レベル差（ＩＡＬＤ）を含む。それに加えて、モノラルスペクトルキューが再現される。これを図１２に示す。

【0111】

データ要素及び変数
ｉｔｅｍＳｔｏｒｅＲｅｎｄｅｒＩｔｅｍＳｔｏｒｅオブジェクトへのローカルポインタ
Ｂブロックサイズ
Ｆｓサンプリングレート
ｅｘｔｅｎｔＰｒｏｃｅｓｓｏｒｓ項目ｉｄからそのｅｘｔｅｎｔＰｒｏｃｅｓｓｏｒインスタンスへのマッピング
ｅｘｔｅｎｔＤｏｗｎｍｉｘＩｔｅｍすべての範囲のバイノーラル信号の最終出力を記憶するＲＩ
ステージの説明
リアルタイムの計算コストを節約するために、個々のＨＲＴＦ点は、聴取者の仮想聴取球を均一に分布した領域に分離する事前定義されたグリッドテーブルに割り当てられる。初期化中に、各ＨＲＩＲについてＮ／２＋１個の周波数成分を得るためにＮ点ＤＦＴが実行され、Ｎはその長さである。そして、左右のチャネルのゲインである非正規化ＩＡＣＣ内のすべてのＨＲＴＦ点のデータを統合して、グリッドごとに３つの中間値を得る。さらに、各グリッドに含まれるＨＲＴＦデータ点の数も記憶する。これらは、リアルタイムで最終キューを計算するために使用される。

【0112】

各グリッドの両方のチャネルのゲインは、式２８及び２９で計算され、ここで、

及び

は、それぞれ左右のＨＲＴＦの大きさであり、Ｎは、このグリッド内にあるＨＲＴＦ点の数である。

（２８）

（２９）
各グリッドの非正規化ＩＡＣＣは、式３０を用いて計算され、式中、φ，ｌ及びφ，ｒは、それぞれ左右のＨＲＴＦの位相である。

（３０）
式２８から３０の手順は、実際の処理の前に予め実行され、図８のステップ８００、８１０に対応し、これらの処理の結果は、対応する図の記憶装置２０００又は２００に記憶されることが好ましいデータである。

【0113】

リアルタイム処理中、各固有の拡張音源は、拡張プロセッサによって生成及び管理される。各アクティブプロセッサは、フレームごとに、オーディオサンプルのバッファと、拡張音源をどのように合成するかを示すメタデータとを受信する。２つの別々の処理チェーンが存在する：更新スレッドにおけるメタデータ処理及びオーディオスレッドにおけるオーディオ処理。これらは、以下のセクションでそれぞれ説明され、それらの結果は、バイノーラルオーディオ出力を生成するために第２のチェーンの終わりに組み合わされる。

【0114】

更新スレッドで実行される計算：
固有の拡張音源ごとに、ＲＩ（レンダリング項目）の形式の１つ又は複数のメタデータキャリアが、遮蔽ステージ（例えば、ブロック４０００に対応する）によって生成される。

【0115】

このステージ４０００は、すべての到来するＲＩをループし、関連する範囲のメタデータを対応するプロセッサに割り当てる。事前定義されたテーブルからの空間セクションのうちの１つがカバーされ、このフレーム内の範囲をオーラル化するために含まれるべきである場合、到来するメタデータは、ゲイン係数（図１１の項目４０１０、４０２０、４０３０）と、そのためのいくつかの事前定義された周波数ビンに対応するゲインのリストとを含む。選択（例えば４０００）し、重み付け（例えば５０２０）し、最終的にゲイン及びＥＱで記憶された中間データを累積（例えば５０４０）することによって、任意の形態及び遮蔽度（サイズ／材料）を有する任意の形状の拡張音源の生成が達成される。

【0116】

最終的なフィルタは、以下のステップによって得られる。ＲＩ（レンダリング項目）に示されるすべてのグリッド点を統合（又は累積）した後、左右のチャネルのゲイン及びＩＡＣＣ（例えば分散及び共分散データ）は、ＨＲＴＦデータポイントの重み付けされた総数で正規化される。

（３１）

（３２）

（３３）
式３１から式３３の手順はブロック５０４０に対応する。

【0117】

周波数依存性の

及び

は、正規化されたＩＡＣＣを使用して計算される。

（３４）

（３５）
ブロック５０６０における計算は、一実施形態における式３４及び式３５の処理に対応する。

【0118】

最終的なステレオフィルタ３２１０、３２２０、３２３０、３２４０は、

及び

、左右のチャネルのゲイン（

及び

）を使用して得られ、ＨＲＴＦポイントから抽出された位相は、範囲の中心に相当する。（

及び

）

（３６）

（３７）

（３８）

（３９）
ブロック３６から３９の計算は、好ましくはブロック５０６０においても実行される。

【0119】

オーディオスレッドで実行される計算：
入力モノラル信号は、最初に相関除去器３１００に供給されて、２つの非相関バージョンを取得する。ＭＰＥＧ－Ｉ相関除去器や、図１０に示すような任意の他の相関除去器を用いることができる。

【0120】

次に、２つの非相関信号の各々は、更新スレッドで計算された対応するステレオフィルタ３２１０、３２２０、３２３０、３２４０で畳み込まれ、結果として４つの出力チャネルが得られる。次に、最終的なバイノーラル出力を生成するために交差混合３２５０、３２６０が実行される。

【0121】

式（４０）及び（４１）は、（フィルタリング及び）混合プロセスを定義し、ここで、

及び

は、２つの非相関信号を表し、

及び

は、メタデータ処理セクションで計算された２つのステレオフィルタ（左及び右のそれぞれに関する）である。図１３は、処理の信号フロー図である。図１３に示すフィルタは、図９のフィルタと同様である。

（４０）

（４１）
式４０及び式４１による処理は、好ましくは、図１１の３０００又は図４、５、６の３００であるオーディオプロセッサ又はバイノーラルキュー合成ブロックにおいて実行される。

【0122】

図７は、聴取者のレンダリングレンジの概略図を示している。レンダリングレンジは、例示的に、ユーザを中心とする球である。したがって、ユーザ又は聴取者（図７には示されていない）は球の中心に位置し、聴取者の周りのこの球に対応するレンダリングレンジはユーザの手に「結び付けられている」と考えることができる。したがって、ユーザが水平方向、垂直方向、又は奥行き方向（ｘ、ｙ、ｚ）のいずれかの位置を変更すると、球は、ユーザに対して固定されていると見なすことができる空間的に拡張された音源に対するユーザの動きに従って動き回る。さらに、ユーザが上を見る、下を見る、又は横を見ることによって手を動かすと、聴取者のレンダリングレンジを表す球も上、下、又は横に動く、すなわち、ユーザが水平方向、垂直方向、又は奥行き方向に動くことなく頭に加える「動き」も実行する。したがって、聴取者の球面レンダリングレンジは、６自由度すべてにおいて常にユーザ又は聴取者の頭部の動きに追従する一種の「ヘルメット」であると考えることができる。

【0123】

この球は、音響心理学的所見を反映するために、間隔を置くことができ、したがって方位角及び仰角に対して異なる寸法にすることができる個々の基本空間セクタに分離される。特に、レンダリングレンジは、聴取者の周囲の球又は球の一部を含み、図７に示す各基本空間セクタは、例えば、方位角サイズ及び仰角サイズを有する。特に、基本空間セクタの方位角サイズと仰角サイズとが互いに異なり、それにより、方位角サイズが、聴取者のより側部にある基本空間セクタの方位角サイズと比較して、聴取者の正面にある基本空間セクタに対してより細かくなり、かつ／又は、方位角サイズが、聴取者の側部に向かって減少し、かつ／又は、基本空間セクタの仰角サイズが、このセクタの方位角サイズよりも小さい。

【0124】

したがって、本発明の態様は、空間的に拡張された音源に対してユーザと共に移動するユーザ中心表現に依存し、ユーザの頭は空間の中心にあり、球又は球の一部はレンダリングレンジである。

【0125】

ここで、セクタ識別プロセッサ４０００は、図７に７０００で示す空間的に拡張された音源をどの異なる基本空間セクタが表すかを判定する。この例では、例えば、この球の中心から始まり、ＳＥＳＳ７０００を指すレイトレーシングアルゴリズムによって、図７において「１」、「２」、「３」、及び「４」として示されている４つの基本空間セクタＥＳＳが、ＳＥＳＳ７０００に対するユーザの特定の向き及び位置においてＳＥＳＳ７０００に「属する」と判定される。したがって、実際にユーザの耳に到達するＳＥＳＳ７０００によって放出された音場は、これらの４つのＥＳＳを通過すると仮定される。さらに、図７には遮蔽オブジェクト７０１０も示されており、例の目的のために、基本空間セクタ（ＥＳＳ１）は完全に遮蔽されており、基本空間セクタ２（ＥＳＳ２）は部分的に遮蔽されており、ＥＳＳ３、４は遮蔽オブジェクトによって遮蔽されていないと仮定する。

【0126】

したがって、図１１を参照すると、基本空間セクタ１、２は項目４０１０に対応し、基本空間セクタ１は項目４０２０に対応し、基本空間セクタ２は図１１の項目４０３０に対応する。あるいは、部分的に遮蔽されたセクタも完全に遮蔽されたセクタと同じクラスに属すると判定することができ、又はセクタが非常に小さい部分でのみ遮蔽されている場合、特定の閾値未満の遮蔽を有するセクタも全く遮蔽されていないと判定することもできる。

【0127】

図７には、基本空間セクタ及びセクタの遮蔽又は修正特性の任意選択の遮蔽度が両耳について、すなわち左右について同じであることが示されているが、基本空間セクタの数及び／又は識別が左耳及び右耳について異なる場合もあり得る。これは、ＳＥＳＳがユーザに非常に近く、ＳＥＳＳが一方又は他方ではなく両方の耳の間の中央に位置する場合に容易に当てはまり得る。

【0128】

さらに、聴取者に関する、すなわち例示的な球に関するレンダリングレンジへのＳＥＳＳの投影を判定するために、レイトレーシングアルゴリズム以外の手順を実行することができる。なお、ＳＥＳＳ７０００は、必ずしも固定されていなくてもよい。ＳＥＳＳはまた、動的であってもよく、すなわち、経時的に移動してもよい。次に、ユーザに対するＳＥＳＳ位置を事前に判定する必要があり、次に、ある時点について／ＳＥＳＳ波形信号のあるフレームについて、聴取者の頭部の実際の位置に対する聴取者の左側及び右側の対応する基本空間セクタが判定され、次に、図１１のログ５０２０から５０６０に関して示すようにキューが計算される。

【0129】

さらに、ここで、レンダリングレンジは必ずしも全球である必要はないことに留意されたい。レンダリングレンジは球の一部のみを含むことができる。さらに、レンダリングレンジは必ずしも球形である必要はない。レンダリングレンジは、円筒形であってもよく、又は聴取者の周りの空間の特定の三次元部分を覆う限り、多角形の形状を有してもよい。

【0130】

基本空間セクタのサイズに関しては、基本空間セクタを非常に小さくすることができ、記憶されたレンダリングデータ項目の判定のために、特定の数にわたる合計の代わりに振幅及び位相で示される単一のＨＲＴＦのみとすることができることが強調されるべきである（例えば、式２０、式２１及び式２２又は式２８から式３０に示すように、十分である）。しかしながら、特定の寸法を有する基本空間セクタが使用され、その結果、各基本空間セクタのレンダリングデータ項目を記憶する記憶装置のサイズが縮小されるとき、各基本空間セクタの記憶装置に記憶されたレンダリングデータ項目の判定は、式２０から式２２又は式２８から式３０に沿って実行することができ、特定の基本空間セクタにのみ属するＨＲＴＦが、特定の周波数及びこの基本空間セクタの実際の（共）分散データを取得するために合計される。

【0131】

この手順の具体的な利点は、これらの計算のすべてをランタイムに実行する必要がないことであることに留意されたい。代わりに、基本空間セクタの特定のグリッド又はグリッド点へのレンダリングレンジの特定の分割が判定されるとすぐに、個々の又は基本空間セクタごとの記憶されたデータを計算及び記憶することができ、特定のグリッドでの特定の初期化のために、ランタイム中に行われる唯一の手順は、このグリッドの対応する事前計算されたデータを記憶装置又はルックアップテーブルにロードすることである。

【0132】

ランタイム中に実行される必要がある唯一の手順は、特定のユーザの向き／位置及び遮蔽オブジェクトに起因する潜在的に必要な重み付けのための空間的に拡張された音源に属する基本空間セクタの識別であり、次いで、図１１のブロック５０４０に対応する最終的な全体的な合計は、ブロック５０６０における最終的なターゲットキュー計算のための自由な方法を与える。したがって、ランタイム中に必要な計算操作は非常に制限され、基本空間セクタ、すなわち特定のグリッドのレンダリングデータ項目を判定するために必要な計算操作と比較して非常に小さい。

【0133】

さらに、特定のグリッドの記憶装置は、ＳＥＳＳの位置又は特性が変化した場合、又はユーザの向き／位置が変化した場合、識別された基本空間セクタのみが変化するが、グリッドを表す基本空間セクタについて記憶されたデータは変化しないため、ユーザの位置／向きに依存しないことに留意されたい。言い換えれば、基本空間セクタのＩＤ番号のみが変化し、特定のＩＤ番号を有する基本空間セクタのデータは変化しない。

【0134】

続いて、本発明の１つ又はいくつかの態様の好ましい手順を説明するために、図８を説明する。

【0135】

ステップ８００において、球などのレンダリングレンジが判定又は初期化される。結果は、例えば、特定のグリッドポイント又は基本空間セクタを有する球である。ブロック８１０において、（共）分散データなどのレンダリングデータ項目は、レンダリングレンジ内のすべての基本空間セクタについてルックアップテーブルなどの記憶装置に記憶される。

【0136】

次に、ステップ８２０において、ブロック４０００によって行われるようなセクタ識別が実行される。したがって、空間的に拡張された音源に属する１つ又は複数の基本空間セクタは、ブロック８２０に入力された聴取者のＳＥＳＳデータ及び位置／方向データに基づいて判定される。ブロック８２０の結果は、１つ又は複数の基本空間セクタである。

【0137】

ブロック８３０において、ブロック５０４０によって示されるように、重み付けの有無などの複数の基本空間セクタについてのレンダリングデータ項目の合計が実行される。

【0138】

ブロック８４０において、ＩＡＣＣ、ＩＡＬＤ、ＩＡＰＤ、ＧＬ、ＧＲなどのターゲットレンダリングデータが計算され、これはブロック５０６０によって実行される。

【0139】

ブロック８５０において、ターゲットレンダリングデータは、例えば図１１のオーディオプロセッサブロック３０００又はバイノーラルキュー合成ブロック３０００によっても、図示のように空間的に拡張された音源オーディオ信号に適用される。

【0140】

本発明の第１の態様によれば、レンダリング球は図７に示すように実施され、すなわち、聴取者のレンダリングレンジをカバーする基本空間セクタが判定され、セクタ識別プロセッサは、空間的に拡張された音源の２つ以上の基本空間セクタなどの基本空間セクタのセットを定義する。しかしながら、記憶されたレンダリングデータ項目が分散又は共分散データであることは、好ましい実施形態にすぎない。その代わりに、レンダリングに必要な他のデータ項目もまた、ターゲットデータ計算器によって記憶及び結合することができる。また、この手順も修正処理を必ずしも必要としないが、修正処理を行うことが好ましい。

【0141】

本発明の第２の態様によれば、潜在的修正オブジェクトの判定及び潜在的修正オブジェクト識別に基づく制限された修正された空間セクタの判定が必要とされる。しかしながら、この手順のために、レンダリングレンジは、必ずしも図７に示すように、すなわち、個々の基本空間セクタが個々の記憶されたデータ項目を有するように寸法決めされる必要はない。代わりに、レンダリングレンジは、国際公開第２０２１／１８０９３５号パンフレットに示されているものなどの他の実施態様に示されているように実施することもできる。さらに、修正オブジェクトの判定及び考慮のために、記憶されたレンダリングデータ項目が分散／共分散データであるとは限らない。代わりに、国際公開第２０２１／１８０９３５号パンフレットに記憶データとして示されているような他のレンダリングデータも同様に使用することができる。

【0142】

第３の態様に関しては、図７に示すようなレンダリングレンジの判定は必ずしも必要ではない。代わりに、国際公開第２０２１／１８０９３５号パンフレットに示されているようなレンダリングレンジの定義などの他の判定を、１つ又は複数の制限された空間セクタに使用することができる。しかしながら、制限された空間セクタは、好ましくは、図７に示される基本空間セクタとして実施される。さらに、分散／共分散データを記憶データとして使用する目的で、修正／遮蔽オブジェクトの特定の処理も必須の特徴ではないが、例えば図８のブロック８３０に関して前述したように好ましい。

【0143】

第１の態様に関連するさらなる実施形態は、続いて要約される。
実施形態は、空間的に拡張された音源（ＳＥＳＳ）を合成するための装置であって、聴取者に関するレンダリングレンジをカバーする異なる基本空間セクタのためのレンダリングデータ項目を記憶するための記憶装置と、異なる基本空間セクタから、空間的に拡張された音源に属する基本空間セクタのセットを、聴取者データ及び空間的に拡張された音源のデータに基づいて識別するセクタ識別プロセッサと、基本空間セクタのセットについてのレンダリングデータ項目からターゲットレンダリングデータを計算するためのターゲットデータ計算器と、ターゲットレンダリングデータを使用して空間的に拡張された音源を表すオーディオ信号を処理するためのオーディオプロセッサと、を備えている装置に関する。

【0144】

さらなる実施形態では、記憶装置は、レンダリングデータ項目として、各基本空間セクタについて、左頭部伝達関数データに関する左分散データ項目、右頭部伝達関数（ＨＲＴＦ）データに関する右分散データ項目、並びに、左ＨＲＴＦデータ及び右ＨＲＴＦデータに関する共分散データ項目のうちの少なくとも１つを記憶するように構成されており、ターゲット計算器が、少なくとも１つの合計された項目を取得するために、基本空間セクタのセットの左分散データ項目又は基本空間セクタのセットの右分散データ項目、又は基本空間セクタのセットの共分散データ項目をそれぞれ合計するように構成されており、ターゲット計算器が、少なくとも１つの合計された項目からターゲットレンダリングデータとして少なくとも１つのレンダリングキューを計算するように構成されており、オーディオプロセッサは、少なくとも１つのレンダリングキューを使用してオーディオ信号を処理するように構成されている。

【0145】

さらなる実施形態では、セクタ識別プロセッサは、プロジェクションアルゴリズム又はレイトレーシング分析を適用して、基本空間セクタのセットを判定するように構成されるか、聴取者データとして、聴取者位置若しくは聴取者向きを使用するか、又は空間的に拡張された音源（ＳＥＳＳ）データとして、ＳＥＳＳ向き、ＳＥＳＳ位置、若しくはＳＥＳＳのジオメトリに関する情報を使用する。

【0146】

さらなる実施形態では、セクタ識別プロセッサは、オーディオシーンの記述から、潜在的遮蔽オブジェクトに関する遮蔽情報を受信することと、遮蔽情報に基づいて、基本空間セクタのセットのうちの特定の空間セクタを遮蔽セクタとして判定することと、を行うように構成されており、ターゲットデータ計算器が、修正データを得るために遮蔽セクタについて記憶されたレンダリングデータ項目に遮蔽関数を適用し、ターゲットレンダリングデータを計算するために修正データを使用するように構成されている。

【0147】

さらなる実施形態では、遮蔽関数は、異なる周波数に関する異なる減衰値を有するローパス関数であり、レンダリングデータ項目は、異なる周波数のデータ項目であり、ターゲットデータ計算器は、いくつかの周波数について、特定の周波数のデータ項目を特定の周波数の減衰値で重み付けして、修正レンダリングデータを取得するように構成されている。

【0148】

さらなる実施形態では、セクタ識別プロセッサは、遮蔽オブジェクトについて判定された基本空間セクタのセットのうちの別の基本空間セクタが潜在的遮蔽オブジェクトによって遮蔽されていないと判定するように構成されており、ターゲットデータ計算器が、遮蔽セクタからの修正データと、他のセクタのレンダリングデータ項目とを、遮蔽関数を用いた修正なしに、又は異なる修正関数によって修正されて結合して、ターゲットレンダリングデータを取得するように構成されている。

【0149】

さらなる実施形態では、セクタ識別プロセッサは、基本空間セクタのセットのうちの第１の基本空間セクタを第１の特性を有するように判定し、基本空間セクタのセットのうちの第２の基本空間セクタを第２の異なる特性を有するように判定するように構成されており、ターゲットデータ計算器が、第１の基本空間セクタにいかなる修正関数も適用せず、第２の基本空間セクタに修正関数を適用するか、又は第１の基本空間セクタに第１の修正関数を適用し、第２の基本空間セクタに第２の修正関数を適用するように構成されており、第２の修正関数は第１の修正関数とは異なる。

【0150】

さらなる実施形態では、第１の修正関数が周波数選択的であり、第２の修正関数が周波数にわたって一定であるか、又は第１の修正関数が第１の周波数選択的特性を有し、第２の修正関数が第１の周波数選択的特性とは異なる第２の周波数選択的特性を有するか、又は第１の修正関数が第１の減衰特性を有し、第２の修正関数が第２の異なる減衰特性を有し、ターゲットデータ計算器は、第１の基本空間セクタ又は第２の基本空間セクタと聴取者との間の距離に基づいて、又は聴取者と対応する基本空間セクタとの間に置かれているオブジェクトの特性に基づいて、第１の修正関数及び第２の修正関数から修正関数を選択又は調整するように構成されている。

【0151】

さらなる実施形態では、セクタ識別プロセッサは、基本空間セクタに関連付けられた特性に基づいて、基本空間セクタのセットを異なるセクタクラスに分類するように構成され、ターゲットデータ計算器が、２つ以上の基本空間セクタがクラス内にある場合、各クラスの結合結果を取得するために各クラスの基本空間セクタのレンダリングデータ項目を結合し、このクラスの修正された結合結果を取得するために、このクラスの結合結果に少なくとも１つのクラスに関連付けられた特定の修正関数を適用するように構成されており、又は、修正データ項目を取得するために、各クラスの１つ又は複数の基本空間セクタの１つ又は複数のデータ項目に少なくとも１つのクラスと関連付けられた特定の修正関数を適用し、各クラスの基本空間セクタの修正データ項目を結合して、このクラスの修正された結合結果を取得し、結合結果又は利用可能であれば、各クラスの修正された結合結果を結合して、全体の結合結果を取得し、全体の結合結果をターゲットレンダリングデータとして使用するか、又は全体の結合結果からターゲットレンダリングデータを計算する。

【0152】

さらなる実施形態では、基本空間セクタの特性が、第１の遮蔽特性を含む遮蔽基本空間セクタ、第１の遮蔽特性とは異なる第２の遮蔽特性を含む遮蔽基本空間セクタ、聴取者までの第１の距離を有する遮蔽されていない基本空間セクタ、及び聴取者までの第２の距離を有する遮蔽されていない基本空間セクタを含むグループのうちの１つであると判定され、第２の距離が第１の距離とは異なる。

【0153】

さらなる実施形態では、ターゲットデータ計算器は、レンダリングデータ項目として周波数依存分散又は共分散パラメータを修正又は結合して、全体の結合結果として、全体の結合された分散又は全体の結合された共分散パラメータを取得するように構成され、両耳間コヒーレンスキュー、両耳間レベル差キュー、両耳間位相差キュー、第１のサイドゲイン、又は第２のサイドゲインのうちの少なくとも１つをターゲットレンダリングデータとして計算する。

【0154】

さらなる実施形態では、オーディオプロセッサは、ターゲットレンダリングデータとして対応するキューを使用して、チャネル間コヒーレンス調整、チャネル間位相差調整、チャネル間レベル差調整のうちの少なくとも１つを実行するように構成されている。

【0155】

さらなる実施形態では、レンダリングレンジは、聴取者の周りの球又は球の一部を含み、レンダリングレンジが、聴取者の位置又は聴取者の向きに関連付けられ、各基本空間セクタが、方位角サイズ及び仰角サイズを有する。

【0156】

さらなる実施形態では、基本空間セクタの方位角サイズと仰角サイズとが互いに異なり、それにより、方位角サイズが、聴取者のより側部にある基本空間セクタの方位角サイズと比較して、聴取者の正面にある基本空間セクタに対してより細かくなるか、又は方位角サイズが、聴取者の側部に向かって減少するか、又は基本空間セクタの仰角サイズが、このセクタの方位角サイズよりも小さい。

【0157】

第２の態様に関連するさらなる実施形態は、続いて要約される。
空間的に拡張された音源を合成するための装置の実施形態は、オーディオシーンの記述であって、オーディオシーンの記述が、空間的に拡張された音源に関する空間的に拡張された音源データと、潜在的修正オブジェクトに関する修正データとを備える、オーディオシーンの記述を受信するため、及び、聴取者データを受信するための入力インターフェースと、空間的に拡張された音源データ及び聴取者データ及び修正データに基づく、聴取者のレンダリングレンジ内の空間的に拡張された音源の制限された修正された空間セクタを識別するためのセクタ識別プロセッサであって、聴取者のレンダリングレンジは、制限された修正された空間セクタよりも大きい、セクタ識別プロセッサと、修正された制限された空間セクタに属する１つ又は複数のレンダリングデータ項目からターゲットレンダリングデータを計算するためのターゲットデータ計算器と、ターゲットレンダリングデータを使用して空間的に拡張された音源を表すオーディオ信号を処理するためのオーディオプロセッサと、を備えている。

【0158】

さらなる実施形態では、修正データは遮蔽データであり、潜在的修正オブジェクトは潜在的遮蔽オブジェクトである。

【0159】

さらなる実施形態では、潜在的修正オブジェクトは、関連する修正関数を有し、１つ又は複数のレンダリングデータ項目は周波数依存性であり、修正関数は周波数選択的であり、ターゲットデータ計算器は、周波数選択的修正関数を１つ又は複数の周波数依存レンダリングデータ項目に適用するように構成される。

【0160】

さらなる実施形態では、周波数選択的修正関数は、異なる周波数に対して異なる値を有し、周波数依存性の１つ又は複数のレンダリングデータ項目は、異なる周波数に対して異なる値を有し、ターゲットデータ計算器は、特定の周波数に対する周波数選択的修正関数の値を、特定の周波数に対する１つ又は複数のレンダリングデータ項目の値に適用するか、乗算するか、又は組み合わせるように構成される。

【0161】

さらなる実施形態では、いくつかの異なる制限された空間セクタについての１つ又は複数のレンダリングデータ項目を記憶するための記憶装置が提供され、いくつかの異なる制限された空間セクタは、ともに聴取者のレンダリングレンジを形成する。

【0162】

さらなる実施形態では、修正関数は、周波数選択的ローパス関数であり、ターゲットデータ計算器は、より高い周波数における１つ又は複数のレンダリングデータ項目の値が、より低い周波数における１つ又は複数のレンダリングデータ項目の値よりも強く減衰されるように、ローパス関数を適用するように構成される。

【0163】

さらなる実施形態では、セクタ識別プロセッサは、聴取者データ及び空間的に拡張された音源データに基づいて空間的に拡張された音源の制限された空間セクタを判定し、制限された空間セクタの少なくとも一部が修正オブジェクトによる修正を受けるかどうかを判定し、この一部が閾値よりも大きい場合、又は制限された空間セクタ全体が修正オブジェクトによる修正を受ける場合、制限された空間セクタを修正された空間セクタとして判定するように構成される。

【0164】

さらなる実施形態では、セクタ識別プロセッサは、プロジェクションアルゴリズム又はレイトレーシング分析を適用して、制限された空間セクタを判定するように構成されるか、聴取者データとして、聴取者位置若しくは聴取者向きを使用するか、又は空間的に拡張された音源（ＳＥＳＳ）データとして、ＳＥＳＳ向き、ＳＥＳＳ位置、若しくはＳＥＳＳのジオメトリに関する情報を使用するように構成される。

【0165】

さらなる実施形態では、レンダリングレンジは、聴取者の周りの球又は球の一部を含み、レンダリングレンジが、聴取者の位置又は聴取者の向きに関連付けられ、修正された制限された空間セクタが、方位角サイズ及び仰角サイズを有する。

【0166】

さらなる実施形態では、修正された制限された空間セクタの方位角サイズと仰角サイズとが互いに異なり、それにより、方位角サイズが、聴取者のより側部にある修正された制限された空間セクタの方位角サイズと比較して、聴取者の正面にある修正された制限された空間セクタに対してより細かくなるか、又は方位角サイズが、聴取者の側部に向かって減少するか、又は修正された制限された空間セクタの仰角サイズが、修正された制限された空間セクタの方位角サイズよりも小さい。

【0167】

さらなる実施形態では、１つ又は複数のレンダリングデータ項目として、修正された制限された空間セクタについて、左頭部伝達関数データに関する左分散データ項目、右頭部伝達関数（ＨＲＴＦ）データに関する右分散データ項目、並びに、左ＨＲＴＦデータ及び右ＨＲＴＦデータに関する共分散データ項目のうちの少なくとも１つが使用される。

【0168】

さらなる実施形態では、セクタ識別プロセッサは、空間的に拡張された音源に属する基本空間セクタのセットを判定し、基本空間セクタのセットの中で、１つ又は複数の基本空間セクタを制限された修正された空間セクタとして判定するように構成され、ターゲットデータ計算器は、結合データを取得するために修正データを使用して制限された修正された空間セクタに関連付けられた１つ又は複数のレンダリングデータ項目を修正し、結合データを、制限された修正された空間セクタとは異なり、修正されていないか、制限された修正された空間セクタの修正と比較して異なる方法で修正された基本空間セクタのセットの１つ又は複数の基本空間セクタのレンダリングデータ項目と結合するように構成される。

【0169】

【0170】

【0171】

さらなる実施形態では、ターゲットデータ計算器は、レンダリングデータ項目として周波数依存分散又は共分散パラメータを修正又は結合して、全体の結合結果として、全体の結合された分散又は全体の結合された共分散パラメータを取得するように構成され、両耳間若しくはチャネル間コヒーレンスキュー、両耳間若しくはチャネル間レベル差キュー、両耳間若しくはチャネル間位相差キュー、第１のサイドゲイン、又は第２のサイドゲインのうちの少なくとも１つをターゲットレンダリングデータとして計算し、オーディオプロセッサは、両耳間若しくはチャネル間コヒーレンスキュー、両耳間若しくはチャネル間レベル差キュー、両耳間若しくはチャネル間位相差キュー、第１のサイドゲイン、又は第２のサイドゲインのうちの少なくとも１つをターゲットレンダリングデータとして使用して、オーディオ信号を処理するように構成されている。

【0172】

さらなる実施形態は、オーディオシーン記述を生成するためのオーディオシーン発生器であって、空間的に拡張された音源のＳＥＳＳデータを生成するための空間的に拡張された音源（ＳＥＳＳ）データ生成器と、潜在的修正オブジェクトに関する修正データを生成するための修正データ生成器と、ＳＥＳＳデータ及び修正データを含むオーディオシーン記述を生成するための出力インターフェースと、を備えているオーディオシーン発生器を備える。

【0173】

さらなる実施形態では、修正データは、潜在的修正オブジェクトに関するローパス関数又はジオメトリデータの記述を含み、ローパス関数は、より高い周波数の減衰値を含み、より高い周波数の減衰値は、より低い周波数の減衰値と比較してより強い減衰値を表し、出力インターフェースは、潜在的修正オブジェクトに関する減衰関数又はジオメトリデータの記述を修正データとしてオーディオシーン記述に導入するように構成される。

【0174】

さらなる実施形態では、ＳＥＳＳデータ生成器は、ＳＥＳＳデータとして、ＳＥＳＳの位置及びＳＥＳＳのジオメトリに関する情報を生成するように構成され、出力インターフェースは、ＳＥＳＳデータとして、ＳＥＳＳの位置に関する情報及びＳＥＳＳのジオメトリに関する情報を導入するように構成される。

【0175】

さらなる実施形態では、ＳＥＳＳデータ生成器は、ＳＥＳＳデータとして、空間的に拡張された音源のサイズ、位置、若しくは向きに関する情報、又は空間的に拡張された音源に関連する１つ若しくは複数のオーディオ信号の波形データを生成するように構成されるか、修正データ計算器は、修正データとして、潜在的遮蔽オブジェクトなどの潜在的修正オブジェクトのジオメトリを計算するように構成される。

【0176】

さらなる実施形態は、空間的に拡張された音源データと、１つ又は複数の潜在的修正オブジェクトに関する修正データとを含むオーディオシーン記述を含む。

【0177】

さらなる実施形態では、オーディオシーン記述は、送信又は記憶されたビットストリームとして実施され、空間的に拡張された音源データは第１のビットストリーム要素を表し、修正データは第２のビットストリーム要素を表す。

【0178】

第３の態様に関連するさらなる実施形態は、続いて要約される。
実施形態は、空間的に拡張された音源（ＳＥＳＳ）を合成するための装置を備え、異なる制限された空間セクタについての１つ又は複数のレンダリングデータ項目を記憶するための記憶装置であって、異なる制限された空間セクタは、聴取者のレンダリングレンジ内に位置し、制限された空間セクタについての１つ又は複数のレンダリングデータ項目は、左頭部関数データに関連する左分散データ項目、右頭部関数データに関連する右分散データ項目、及び、左頭部関数データと右頭部関数データとに関連する左右共分散データ項目のうちの少なくとも１つを備える、記憶装置と、空間的に拡張された音源データに基づいて、聴取者のレンダリングレンジ内の空間的に拡張された音源のための１つ又は複数の制限された空間セクタを識別するためのセクタ識別プロセッサと、記憶された左分散データ、記憶された右分散データ、又は記憶された共分散データからターゲットレンダリングデータを計算するためのターゲットデータ計算器と、ターゲットレンダリングデータを使用して空間的に拡張された音源を表すオーディオ信号を処理するためのオーディオプロセッサと、を備えている。

【0179】

さらなる実施形態では、記憶装置は、頭部伝達関数データ、又はバイノーラル室内インパルス応答データ、又はバイノーラル室内伝達関数データ、又は頭部インパルス応答データに関連する分散データ項目又は共分散データ項目を記憶するように構成される。

【0180】

さらなる実施形態では、１つ又は複数のレンダリングデータ項目は、異なる周波数の分散又は共分散データ項目値を含む。

【0181】

さらなる実施形態では、記憶装置は、制限された空間セクタごとに、左分散データ項目の周波数依存表現、右分散データ項目の周波数依存表現、及び共分散データ項目の周波数依存表現を記憶するように構成される。

【0182】

さらなる実施形態では、ターゲットデータ計算器は、ターゲットレンダリングデータとして、両耳間又はチャネル間コヒーレンスキュー、両耳間又はチャネル間レベル差キュー、両耳間又はチャネル間位相差キュー、第１のサイドゲイン、及び第２のサイドゲインのうちの少なくとも１つをターゲットレンダリングデータとして計算するように構成されており、オーディオプロセッサは、ターゲットレンダリングデータとして対応するキューを使用して、チャネル間若しくは両耳間コヒーレンス調整、両耳間若しくはチャネル間位相差調整、又は両耳間若しくはチャネル間レベル差調整のうちの少なくとも１つを実行するように構成されている。

【0183】

さらなる実施形態では、ターゲットデータ計算器は、左分散データ項目、右分散データ項目、及び共分散データ項目に基づいて両耳間若しくはチャネル間コヒーレンスキューを計算するか、又は左分散データ項目、及び右分散データ項目に基づいてチャネル間若しくは両耳間位相差キューを計算するか、又は共分散データ項目に基づいてチャネル間若しくは両耳間位相差キューを計算するか、又は左若しくは右分散データ項目、及びオーディオ信号の信号出力に関する情報を使用して左若しくは右サイドゲインを計算するように構成される。

【0184】

さらなる実施形態では、ターゲットデータ計算器は、両耳間若しくはチャネル間コヒーレンスキューの値が本明細書に記載の両耳間若しくはチャネル間コヒーレンスキューの式によって得られる値の＋／－２０％のレンジ内にあるように、両耳間若しくはチャネル間コヒーレンスキューを計算するように構成され、又は、ターゲットデータ計算器は、両耳間若しくはチャネル間レベル差キューの値が本明細書に記載の両耳間若しくはチャネル間レベル差キューの式によって得られる値の＋／－２０％のレンジ内にあるように、両耳間若しくはチャネル間レベル差キューを計算するように構成され、又は、ターゲットデータ計算器は、両耳間若しくはチャネル間位相差キューの値が本明細書に記載の両耳間若しくはチャネル間位相差キューの式によって得られる値の＋／－２０％のレンジ内にあるように、両耳間若しくはチャネル間位相差キューを計算するように構成され、又は、ターゲットデータ計算器は、第１若しくは第２のサイドゲインの値が、本明細書に記載された左側又は右側のサイドゲインの式によって得られる値の＋／－２０％のレンジ内となるように、第１若しくは第２のサイドゲインを計算するように構成されている。

【0185】

さらなる実施形態では、セクタ識別プロセッサは、プロジェクションアルゴリズム又はレイトレーシング分析を適用して、１つ又は複数の制限された空間セクタを基本空間セクタのセットとして判定するように構成されるか、聴取者データとして、聴取者位置若しくは聴取者向きを使用するか、又は空間的に拡張された音源（ＳＥＳＳ）データとして、ＳＥＳＳ向き、ＳＥＳＳ位置、若しくはＳＥＳＳのジオメトリに関する情報を使用するように構成される。

【0186】

さらなる実施形態では、レンダリングレンジは、聴取者の周りの球又は球の一部を含み、レンダリングレンジが、聴取者の位置又は聴取者の向きに関連付けられ、１つ又は複数の制限された空間セクタが、方位角サイズ及び仰角サイズを有する。

【0187】

さらなる実施形態では、異なる制限された空間セクタの方位角サイズと仰角サイズとが互いに異なり、それにより、方位角サイズが、聴取者のより側部にある異なる制限された空間セクタの方位角サイズと比較して、聴取者の正面にある異なる制限された空間セクタに対してより細かくなるか、又は方位角サイズが、聴取者の側部に向かって減少するか、又は制限された空間セクタの仰角サイズが、このセクタの方位角サイズよりも小さい。

【0188】

さらなる実施形態では、セクタ識別プロセッサは、基本空間セクタのセットを１つ又は複数の制限された空間セクタとして判定するように構成され、各基本空間セクタについて、左分散データ項目、右分散データ項目、及び共分散データ項目のうちの少なくとも１つが記憶される。

【0189】

【0190】

【0191】

【0192】

【0193】

【0194】

【0195】

【0196】

【0197】

さらなる実施形態では、予め記憶された頭部関数データから左分散データ項目、右分散データ項目、及び共分散データ項目のうちの少なくとも１つを判定するためのイニシャライザが提供され、イニシャライザは、制限された空間セクタについての複数の頭部関数データから左分散データ項目、右分散データ項目、又は共分散データ項目を計算するように構成され、制限された空間セクタは、少なくとも２つの左頭部関数データ、少なくとも２つの右頭部関数データが制限された空間レンジについて存在するようなサイズにされる。

【0198】

参考文献
Ａｌａｒｙ，Ｂ．，Ｐｏｌｉｔｉｓ，Ａ．，＆Ｖａｌｉｍａｋｉ，Ｖ．（２０１７）．ＶｅｌｖｅｔＮｏｉｓｅＤｅｃｏｒｒｅｌａｔｏｒ．

【0199】

Ｂａｕｍｇａｒｔｅ，Ｆ．，＆Ｆａｌｌｅｒ，Ｃ．（２００３）．ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ－ＰａｒｔＩ：ＰｓｙｃｈｏａｃｏｕｓｔｉｃＦｕｎｄａｍｅｎｔａｌｓａｎｄＤｅｓｉｇｎＰｒｉｎｃｉｐｌｅｓ．ＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ，１１（６），Ｓ．５０９－５１９．

【0200】

Ｂｌａｕｅｒｔ，Ｊ．（２００１）．Ｓｐａｔｉａｌｈｅａｒｉｎｇ（３Ａｕｓｇ．）．Ｃａｍｂｒｉｄｇｅ；Ｍａｓｓ：ＭＩＴＰｒｅｓｓ．

【0201】

Ｆａｌｌｅｒ，Ｃ．，＆Ｂａｕｍｇａｒｔｅ，Ｆ．（２００３）．ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ－ＰａｒｔＩＩ：ＳｃｈｅｍｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ．ＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ，１１（６），Ｓ．５２０－５３１．

【0202】

Ｋｅｎｄａｌｌ，Ｇ．Ｓ．（１９９５）．ＴｈｅＤｅｃｏｒｒｅｌａｔｉｏｎｏｆＡｕｄｉｏＳｉｇｎａｌｓａｎｄＩｔｓＩｍｐａｃｔｏｎＳｐａｔｉａｌＩｍａｇｅｒｙ．ＣｏｍｐｕｔｅｒＭｕｓｉｃＪｏｕｒｎａｌ，１９（４），Ｓ．ｐ７１－８７．

【0203】

Ｌａｕｒｉｄｓｅｎ，Ｈ．（１９５４）．ＥｘｐｅｒｉｍｅｎｔｓＣｏｎｃｅｒｎｉｎｇＤｉｆｆｅｒｅｎｔＫｉｎｄｓｏｆＲｏｏｍ－ＡｃｏｕｓｔｉｃｓＲｅｃｏｒｄｉｎｇ．Ｉｎｇｅｎｉｏｒｅｎ，４７．

【0204】

Ｐｉｈｌａｊａｍａｋｉ，Ｔ．，Ｓａｎｔａｌａ，Ｏ．，＆Ｐｕｌｋｋｉ，Ｖ．（２０１４）．ＳｙｎｔｈｅｓｉｓｏｆＳｐａｔｉａｌｌｙＥｘｔｅｎｄｅｄＶｉｒｔｕａｌＳｏｕｒｃｅｗｉｔｈＴｉｍｅ－ＦｒｅｑｕｅｎｃｙＤｅｃｏｍｐｏｓｉｔｉｏｎｏｆＭｏｎｏＳｉｇｎａｌｓ．ＪｏｕｒｎａｌｏｆｔｈｅＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ，６２（７／８），Ｓ．４６７－４８４．

【0205】

Ｐｏｔａｒｄ，Ｇ．（２００３）．Ａｓｔｕｄｙｏｎｓｏｕｎｄｓｏｕｒｃｅａｐｐａｒｅｎｔｓｈａｐｅａｎｄｗｉｄｅｎｅｓｓ．

【0206】

Ｐｏｔａｒｄ，Ｇ．，＆Ｂｕｒｎｅｔｔ，Ｉ．（２００４）．ＤｅｃｏｒｒｅｌａｔｉｏｎＴｅｃｈｎｉｑｕｅｓｆｏｒｔｈｅＲｅｎｄｅｒｉｎｇｏｆＡｐｐａｒｅｎｔＳｏｕｎｄＳｏｕｒｃｅＷｉｄｔｈｉｎ３ＤＡｕｄｉｏＤｉｓｐｌａｙｓ．

【0207】

Ｐｕｌｋｋｉ，Ｖ．（１９９７）．ＶｉｒｔｕａｌＳｏｕｎｄＳｏｕｒｃｅＰｏｓｉｔｉｏｎｉｎｇＵｓｉｎｇＶｅｃｔｏｒＢａｓｅＡｍｐｌｉｔｕｄｅＰａｎｎｉｎｇ．ＪｏｕｒｎａｌｏｆｔｈｅＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ，４５（６），Ｓ．４５６－４６６．

【0208】

Ｐｕｌｋｋｉ，Ｖ．（１９９９）．Ｕｎｉｆｏｒｍｓｐｒｅａｄｉｎｇｏｆａｍｐｌｉｔｕｄｅｐａｎｎｅｄｖｉｒｔｕａｌｓｏｕｒｃｅｓ．

【0209】

Ｐｕｌｋｋｉ，Ｖ．（２００７）．ＳｐａｔｉａｌＳｏｕｎｄＲｅｐｒｏｄｕｃｔｉｏｎｗｉｔｈＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ．Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ，５５（６），Ｓ．５０３－５１６．

【0210】

Ｐｕｌｋｋｉ，Ｖ．，Ｌａｉｔｉｎｅｎ，Ｍ．－Ｖ．，＆Ｅｒｋｕｔ，Ｃ．（２００９）．ＥｆｆｉｃｉｅｎｔＳｐａｔｉａｌＳｏｕｎｄＳｙｎｔｈｅｓｉｓｆｏｒＶｉｒｔｕａｌＷｏｒｌｄｓ．

【0211】

Ｓｃｈｌｅｃｈｔ，Ｓ．Ｊ．，Ａｌａｒｙ，Ｂ．，Ｖａｌｉｍａｋｉ，Ｖ．，＆Ｈａｂｅｔｓ，Ｅ．Ａ．（２０１８）．ＯｐｔｉｍｉｚｅｄＶｅｌｖｅｔ－ＮｏｉｓｅＤｅｃｏｒｒｅｌａｔｏｒ．

【0212】

Ｓｃｈｍｅｌｅ，Ｔ．，＆Ｓａｙｉｎ，Ｕ．（２０１８）．ＣｏｎｔｒｏｌｌｉｎｇｔｈｅＡｐｐａｒｅｎｔＳｏｕｒｃｅＳｉｚｅｉｎＡｍｂｉｓｏｎｉｃｓＵｎｉｓｎｇＤｅｃｏｒｒｅｌａｔｉｏｎＦｉｌｔｅｒｓ．

【0213】

Ｓｃｈｍｉｄｔ，Ｊ．，＆Ｓｃｈｒｏｄｅｒ，Ｅ．Ｆ．（２００４）．ＮｅｗａｎｄＡｄｖａｎｃｅｄＦｅａｔｕｒｅｓｆｏｒＡｕｄｉｏＰｒｅｓｅｎｔａｔｉｏｎｉｎｔｈｅＭＰＥＧ－４Ｓｔａｎｄａｒｄ．

【0214】

Ｖｅｒｒｏｎ，Ｃ．，Ａｒａｍａｋｉ，Ｍ．，Ｋｒｏｎｌａｎｄ－Ｍａｒｔｉｎｅｔ，Ｒ．，＆Ｐａｌｌｏｎｅ，Ｇ．（２０１０）．Ａ３－ＤＩｍｍｅｒｓｉｖｅＳｙｎｔｈｅｓｉｚｅｒｆｏｒＥｎｖｉｒｏｎｍｅｎｔａｌＳｏｕｎｄｓ．Ａｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ，ｔｉｔｌｅ＝ＡＢａｃｋｗａｒｄ－ＣｏｍｐａｔｉｂｌｅＭｕｌｔｉｃｈａｎｎｅｌＡｕｄｉｏＣｏｄｅｃ，１８（６），Ｓ．１５５０－１５６１．

【0215】

Ｚｏｔｔｅｒ，Ｆ．，＆Ｆｒａｎｋ，Ｍ．（２０１３）．ＥｆｆｉｃｉｅｎｔＰｈａｎｔｏｍＳｏｕｒｃｅＷｉｄｅｎｉｎｇ．ＡｒｃｈｉｖｅｓｏｆＡｃｏｕｓｔｉｃｓ，３８（１），Ｓ．２７－３７．

【0216】

Ｚｏｔｔｅｒ，Ｆ．，Ｆｒａｎｋ，Ｍ．，Ｋｒｏｎｌａｃｈｎｅｒ，Ｍ．，＆Ｃｈｏｉ，Ｊ．－Ｗ．（２０１４）．ＥｆｆｉｃｉｅｎｔＰｈａｎｔｏｍＳｏｕｒｃｅＷｉｄｅｎｉｎｇａｎｄＤｉｆｆｕｓｅｎｅｓｓｉｎＡｍｂｉｓｏｎｉｃｓ．

【図1】

【図2a】

【図2b】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12】

【図13】

【手続補正書】

【提出日】2023-10-09

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

空間的に拡張された音源（ＳＥＳＳ）（７０００）を合成するための装置であって、
聴取者に関するレンダリングレンジをカバーする異なる基本空間セクタのためのレンダリングデータ項目を記憶するための記憶装置（２００、２０００）と、
前記異なる基本空間セクタから、前記空間的に拡張された音源に属する基本空間セクタのセットを、聴取者データ及び空間的に拡張された音源のデータに基づいて識別するセクタ識別プロセッサ（４０００）であって、前記基本空間セクタのセットが、前記異なる基本空間セクタからの２つ以上の基本空間セクタを含む、セクタ識別プロセッサ（４０００）と、
前記基本空間セクタのセットについての前記レンダリングデータ項目の組み合わせを使用してターゲットレンダリングデータを計算するためのターゲットデータ計算器（５０００）と、
前記ターゲットレンダリングデータを使用して前記空間的に拡張された音源を表すオーディオ信号を処理するためのオーディオプロセッサ（３００、３０００）と、
を備えた装置。

【請求項2】

前記記憶装置（２００、２０００）が、前記レンダリングデータ項目として、各基本空間セクタについて、左頭部伝達関数データに関する左分散データ項目、右頭部伝達関数（ＨＲＴＦ）データに関する右分散データ項目、並びに、前記左ＨＲＴＦデータ及び前記右ＨＲＴＦデータに関する共分散データ項目のうちの少なくとも１つを記憶する（８１０）ように構成されており、
前記ターゲットデータ計算器（５０００）が、少なくとも１つの合計された項目を取得するために、前記基本空間セクタのセットの前記左分散データ項目又は前記基本空間セクタのセットの前記右分散データ項目、又は前記基本空間セクタのセットの前記共分散データ項目をそれぞれ合計する（８３０）ように構成されており、
前記ターゲットデータ計算器（５０００）が、前記少なくとも１つの合計された項目から前記ターゲットレンダリングデータとして少なくとも１つのレンダリングキューを計算する（８４０）ように構成されており、
前記オーディオプロセッサ（３００、３０００）が、前記少なくとも１つのレンダリングキューを使用して前記オーディオ信号を処理する（８５０）ように構成されている、
請求項１に記載の装置。

【請求項3】

【請求項4】

前記セクタ識別プロセッサ（４０００）が、
オーディオシーンの記述から、潜在的遮蔽オブジェクト（７０１０）に関する遮蔽情報を受信することと、
前記遮蔽情報に基づいて、前記基本空間セクタのセットのうちの特定の空間セクタを遮蔽セクタとして判定することと、
を行うように構成されており、
前記ターゲットデータ計算器（５０００）が、修正データを得るために前記遮蔽セクタについて記憶された前記レンダリングデータ項目に遮蔽関数を適用し（５０２０）、前記ターゲットレンダリングデータを計算する（５０６０）ために前記修正データを使用する

ように構成されている、
請求項１から３のいずれか一項に記載の装置。

【請求項5】

【請求項6】

【請求項7】

【請求項8】

【請求項9】

【請求項10】

【請求項11】

【請求項12】

前記オーディオプロセッサ（３００、３０００）が、前記ターゲットレンダリングデータとして対応するキューを使用して、チャネル間コヒーレンス調整（３２０、３２００）、チャネル間位相差調整（３３０、３３００）、チャネル間レベル差調整（３４０、３４００）のうちの少なくとも１つを実行するように構成されている、請求項１から１１のいずれか一項に記載の装置。

【請求項13】

【請求項14】

【請求項15】

空間的に拡張された音源（ＳＥＳＳ）を合成する方法であって、
聴取者に関するレンダリングレンジをカバーする異なる基本空間セクタのためのレンダリングデータ項目を記憶することと、
前記異なる基本空間セクタから、前記空間的に拡張された音源に属する基本空間セクタのセットを、聴取者データ及び空間的に拡張された音源のデータに基づいて識別することであって、前記基本空間セクタのセットが、前記異なる基本空間セクタからの２つ以上の基本空間セクタを含む、識別することと、
前記基本空間セクタのセットについての前記レンダリングデータ項目の組み合わせを使用してターゲットレンダリングデータを計算することと、
前記ターゲットレンダリングデータを使用して前記空間的に拡張された音源を表すオーディオ信号を処理することと、
を含む、方法。

【請求項16】

コンピュータ又はプロセッサ上で実行されると、請求項１５に記載の合成する方法を実行するためのコンピュータプログラム。

【手続補正書】

【提出日】2024-06-12

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

空間的に拡張された音源（ＳＥＳＳ）（７０００）を合成するための装置であって、
聴取者に関するレンダリングレンジをカバーする異なる基本空間セクタのためのレンダリングデータ項目を記憶するための記憶装置（２００、２０００）と、
前記異なる基本空間セクタから、前記空間的に拡張された音源に属する基本空間セクタのセットを、聴取者データ及び空間的に拡張された音源のデータに基づいて識別するセクタ識別プロセッサ（４０００）であって、前記基本空間セクタのセットが、前記異なる基本空間セクタからの２つ以上の基本空間セクタを含む、セクタ識別プロセッサ（４０００）と、
前記基本空間セクタのセットについての前記レンダリングデータ項目の組み合わせを使用してターゲットレンダリングデータを計算するためのターゲットデータ計算器（５０００）と、
前記ターゲットレンダリングデータを使用して前記空間的に拡張された音源を表すオーディオ信号を処理するためのオーディオプロセッサ（３００、３０００）と、
を備えた装置。

【請求項2】

前記記憶装置（２００、２０００）が、前記レンダリングデータ項目として、各基本空間セクタについて、左頭部伝達関数データに関する左分散データ項目、右頭部伝達関数（ＨＲＴＦ）データに関する右分散データ項目、並びに、前記左ＨＲＴＦデータ及び前記右ＨＲＴＦデータに関する共分散データ項目のうちの少なくとも１つを記憶する（８１０）ように構成されており、
前記ターゲットデータ計算器（５０００）が、少なくとも１つの合計された項目を取得するために、前記基本空間セクタのセットの前記左分散データ項目又は前記基本空間セクタのセットの前記右分散データ項目、又は前記基本空間セクタのセットの前記共分散データ項目をそれぞれ合計する（８３０）ように構成されており、
前記ターゲットデータ計算器（５０００）が、前記少なくとも１つの合計された項目から前記ターゲットレンダリングデータとして少なくとも１つのレンダリングキューを計算する（８４０）ように構成されており、
前記オーディオプロセッサ（３００、３０００）が、前記少なくとも１つのレンダリングキューを使用して前記オーディオ信号を処理する（８５０）ように構成されている、
請求項１に記載の装置。

【請求項3】

【請求項4】

前記セクタ識別プロセッサ（４０００）が、
オーディオシーンの記述から、潜在的遮蔽オブジェクト（７０１０）に関する遮蔽情報を受信することと、
前記遮蔽情報に基づいて、前記基本空間セクタのセットのうちの特定の空間セクタを遮蔽セクタとして判定することと、
を行うように構成されており、
前記ターゲットデータ計算器（５０００）が、修正データを得るために前記遮蔽セクタについて記憶された前記レンダリングデータ項目に遮蔽関数を適用し（５０２０）、前記ターゲットレンダリングデータを計算する（５０６０）ために前記修正データを使用する

ように構成されている、
請求項１に記載の装置。

【請求項5】

【請求項6】

【請求項7】

【請求項8】

【請求項9】

【請求項10】

【請求項11】

【請求項12】

【請求項13】

前記レンダリングレンジが、前記聴取者の周りの球又は球の一部を含み、前記レンダリングレンジが、前記聴取者の位置又は聴取者の向きに関連付けられ、各基本空間セクタが、方位角サイズ及び仰角サイズを有する、
請求項１に記載の装置。

【請求項14】

【請求項15】

空間的に拡張された音源（ＳＥＳＳ）を合成する方法であって、
聴取者に関するレンダリングレンジをカバーする異なる基本空間セクタのためのレンダリングデータ項目を記憶することと、
前記異なる基本空間セクタから、前記空間的に拡張された音源に属する基本空間セクタのセットを、聴取者データ及び空間的に拡張された音源のデータに基づいて識別することであって、前記基本空間セクタのセットが、前記異なる基本空間セクタからの２つ以上の基本空間セクタを含む、識別することと、
前記基本空間セクタのセットについての前記レンダリングデータ項目の組み合わせを使用してターゲットレンダリングデータを計算することと、
前記ターゲットレンダリングデータを使用して前記空間的に拡張された音源を表すオーディオ信号を処理することと、
を含む、方法。

【請求項16】

コンピュータ又はプロセッサ上で実行されると、請求項１５に記載の合成する方法を実行するためのコンピュータプログラム。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版