IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特表2024-540745潜在的に修正するオブジェクトに関する修正データを使用して空間的に拡張された音源を合成するための装置、方法、又はコンピュータプログラム
<>
  • 特表-潜在的に修正するオブジェクトに関する修正データを使用して空間的に拡張された音源を合成するための装置、方法、又はコンピュータプログラム 図1
  • 特表-潜在的に修正するオブジェクトに関する修正データを使用して空間的に拡張された音源を合成するための装置、方法、又はコンピュータプログラム 図2a
  • 特表-潜在的に修正するオブジェクトに関する修正データを使用して空間的に拡張された音源を合成するための装置、方法、又はコンピュータプログラム 図2b
  • 特表-潜在的に修正するオブジェクトに関する修正データを使用して空間的に拡張された音源を合成するための装置、方法、又はコンピュータプログラム 図3
  • 特表-潜在的に修正するオブジェクトに関する修正データを使用して空間的に拡張された音源を合成するための装置、方法、又はコンピュータプログラム 図4
  • 特表-潜在的に修正するオブジェクトに関する修正データを使用して空間的に拡張された音源を合成するための装置、方法、又はコンピュータプログラム 図5
  • 特表-潜在的に修正するオブジェクトに関する修正データを使用して空間的に拡張された音源を合成するための装置、方法、又はコンピュータプログラム 図6
  • 特表-潜在的に修正するオブジェクトに関する修正データを使用して空間的に拡張された音源を合成するための装置、方法、又はコンピュータプログラム 図7
  • 特表-潜在的に修正するオブジェクトに関する修正データを使用して空間的に拡張された音源を合成するための装置、方法、又はコンピュータプログラム 図8
  • 特表-潜在的に修正するオブジェクトに関する修正データを使用して空間的に拡張された音源を合成するための装置、方法、又はコンピュータプログラム 図9
  • 特表-潜在的に修正するオブジェクトに関する修正データを使用して空間的に拡張された音源を合成するための装置、方法、又はコンピュータプログラム 図10
  • 特表-潜在的に修正するオブジェクトに関する修正データを使用して空間的に拡張された音源を合成するための装置、方法、又はコンピュータプログラム 図11
  • 特表-潜在的に修正するオブジェクトに関する修正データを使用して空間的に拡張された音源を合成するための装置、方法、又はコンピュータプログラム 図12
  • 特表-潜在的に修正するオブジェクトに関する修正データを使用して空間的に拡張された音源を合成するための装置、方法、又はコンピュータプログラム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-01
(54)【発明の名称】潜在的に修正するオブジェクトに関する修正データを使用して空間的に拡張された音源を合成するための装置、方法、又はコンピュータプログラム
(51)【国際特許分類】
   H04S 7/00 20060101AFI20241025BHJP
【FI】
H04S7/00 300
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024527155
(86)(22)【出願日】2022-11-07
(85)【翻訳文提出日】2024-06-20
(86)【国際出願番号】 EP2022080997
(87)【国際公開番号】W WO2023083753
(87)【国際公開日】2023-05-19
(31)【優先権主張番号】21207294.6
(32)【優先日】2021-11-09
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【弁理士】
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】ウー・ユンハン
(72)【発明者】
【氏名】ヘレ・ユルゲン
(72)【発明者】
【氏名】コロティアエフ・ミハイル
(72)【発明者】
【氏名】ガイアー・マティアス
(72)【発明者】
【氏名】シュヴェア・ジモン
(72)【発明者】
【氏名】アダミ・アレクサンダー
【テーマコード(参考)】
5D162
【Fターム(参考)】
5D162AA13
5D162CA11
5D162CA26
5D162CC08
5D162CC18
5D162CC33
5D162CD02
5D162CD03
5D162CD04
5D162CD07
5D162CD11
5D162CD17
5D162EG02
(57)【要約】
空間的に拡張された音源を合成するための装置はオーディオシーンの記述であって、オーディオシーンの記述が、空間的に拡張された音源に関する空間的に拡張された音源データと、潜在的に修正されるオブジェクト(7010)に関する修正データとを備える、オーディオシーンの記述を受信するため、及び、聴取者データを受信するための入力インターフェース(4020)と、空間的に拡張された音源データ及び聴取者データ及び修正データに基づく、聴取者のレンダリング範囲内の空間的に拡張された音源(7000)の制限された修正された空間セクタを識別するためのセクタ識別プロセッサ(4000)であって、聴取者のレンダリング範囲は、制限された修正された空間セクタよりも大きい、セクタ識別プロセッサ(4000)と、修正された制限された空間セクタに属する1つ又は複数のレンダリングデータ項目からターゲットレンダリングデータを計算するためのターゲットデータ計算器(5000)と、ターゲットレンダリングデータを使用して空間的に拡張された音源を表すオーディオ信号を処理するためのオーディオプロセッサ(300、3000)と、を備えている。

【特許請求の範囲】
【請求項1】
空間的に拡張された音源を合成するための装置であって、
オーディオシーンの記述であって、前記オーディオシーンの前記記述が、前記空間的に拡張された音源に関する空間的に拡張された音源データと、潜在的に修正されるオブジェクト(7010)に関する修正データとを備える、オーディオシーンの記述を受信するため、及び、聴取者データを受信するための入力インターフェース(4020)と、
前記空間的に拡張された音源データ及び前記聴取者データ及び前記修正データに基づく、前記聴取者のレンダリング範囲内の空間的に拡張された音源(7000)の制限された修正された空間セクタを識別するためのセクタ識別プロセッサ(4000)であって、前記聴取者の前記レンダリング範囲は、前記制限された修正された空間セクタよりも大きい、セクタ識別プロセッサ(4000)と、
修正された制限された空間セクタに属する1つ又は複数のレンダリングデータ項目からターゲットレンダリングデータを計算するためのターゲットデータ計算器(5000)と、
前記ターゲットレンダリングデータを使用して前記空間的に拡張された音源を表すオーディオ信号を処理するためのオーディオプロセッサ(300、3000)と、
を備えた装置。
【請求項2】
前記修正データが遮蔽データであり、前記潜在的に修正するオブジェクト(7010)が潜在的に遮蔽するオブジェクトである、請求項1に記載の装置。
【請求項3】
前記潜在的に修正するオブジェクト(7010)が、関連する修正関数を有し、
前記1つ又は複数のレンダリングデータ項目が周波数依存性であり、
前記修正関数が周波数選択的であり、
前記ターゲットデータ計算器(5000)が、前記周波数選択的修正関数を前記1つ又は複数の周波数依存レンダリングデータ項目に適用するように構成される、
請求項1又は2に記載の装置。
【請求項4】
前記周波数選択的修正関数が、異なる周波数に対して異なる値を有し、前記周波数依存性の1つ又は複数のレンダリングデータ項目が、異なる周波数に対して異なる値を有し、
前記ターゲットデータ計算器(5000)が、特定の周波数に対する前記周波数選択的修正関数の値を、前記特定の周波数に対する1つ又は複数のレンダリングデータ項目の値に適用するか、乗算するか、又は組み合わせる(5020)ように構成されている、
請求項3に記載の装置。
【請求項5】
いくつかの異なる限定された空間セクタについての前記1つ又は複数のレンダリングデータ項目を記憶するための記憶装置(200、2000)をさらに備え、前記いくつかの異なる限定された空間セクタが、ともに前記聴取者の前記レンダリング範囲を形成する、請求項1から4のいずれか一項に記載の装置。
【請求項6】
前記修正関数が周波数選択的ローパス関数であり、
前記ターゲットデータ計算器(5000)が、より高い周波数における前記1つ又は複数のレンダリングデータ項目の値が、より低い周波数における前記1つ又は複数のレンダリングデータ項目の値よりも強く減衰されるように、前記ローパス関数を適用(5020)するように構成されている、
請求項1から5のいずれか一項に記載の装置。
【請求項7】
前記セクタ識別プロセッサ(4000)が、
前記聴取者データ及び前記空間的に拡張された音源データに基づいて前記空間的に拡張された音源の前記制限された空間セクタを判定すること(820)と、
前記制限された空間セクタの少なくとも一部が前記修正オブジェクト(7010)による修正を受けるかどうかを判定することと、
前記一部が閾値よりも大きい場合、又は前記制限された空間セクタ全体が前記修正オブジェクト(7010)による前記修正を受ける場合、前記制限された空間セクタを修正された空間セクタとして判定することと、
を行うように構成されている、請求項1から6のいずれか一項に記載の装置。
【請求項8】
前記セクタ識別プロセッサ(4000)が、プロジェクションアルゴリズム又はレイトレーシング分析を適用して、前記制限された空間セクタを判定するように構成されるか、前記聴取者データとして、聴取者位置若しくは聴取者向きを使用するか、又は前記空間的に拡張された音源(SESS)データとして、SESS向き、SESS位置、若しくは前記SESSのジオメトリに関する情報を使用するように構成されている、
請求項1から7のいずれか一項に記載の装置。
【請求項9】
前記レンダリング範囲が、前記聴取者の周りの球又は球の一部を含み、前記レンダリング範囲が、前記聴取者位置又は聴取者向きに関連付けられ、修正された制限された空間セクタが、方位角サイズ及び仰角サイズを有する、
請求項1から8のいずれか一項に記載の装置。
【請求項10】
前記修正された制限された空間セクタの前記方位角サイズと前記仰角サイズとが互いに異なり、それにより、方位角サイズが、前記聴取者のより側部にある前記修正された制限された空間セクタの方位角サイズと比較して、前記聴取者の正面にある修正された制限された空間セクタに対してより細かくなるか、又は前記方位角サイズが、前記聴取者の側部に向かって減少するか、又は前記修正された制限された空間セクタの仰角サイズが、前記修正された制限された空間セクタの方位角サイズよりも小さい、請求項9に記載の装置。
【請求項11】
前記1つ又は複数のレンダリングデータ項目として、前記修正された制限された空間セクタについて、左頭部伝達関数データに関する左分散データ項目、右頭部伝達関数(HRTF)データに関する右分散データ項目、並びに、前記左HRTFデータ及び前記右HRTFデータに関する共分散データ項目のうちの少なくとも1つが使用される、請求項1から10のいずれか一項に記載の装置。
【請求項12】
前記セクタ識別プロセッサ(4000)が、前記空間的に拡張された音源に属する基本空間セクタのセットを判定し、前記基本空間セクタのセットの中で、1つ又は複数の基本空間セクタを前記制限された修正された空間セクタとして判定するように構成され、
前記ターゲットデータ計算器(5000)が、結合データを取得するために前記修正データを使用して前記制限された修正された空間セクタに関連付けられた前記1つ又は複数のレンダリングデータ項目を修正し(5020)、前記結合データを、前記制限された修正された空間セクタとは異なり、修正されていないか、前記制限された修正された空間セクタの前記修正と比較して異なる方法で修正された前記基本空間セクタのセットの1つ又は複数の基本空間セクタのレンダリングデータ項目と結合する(5040)ように構成される、
請求項1から11のいずれか一項に記載の装置。
【請求項13】
前記セクタ識別プロセッサ(4000)が、前記基本空間セクタに関連付けられた特性に基づいて、前記基本空間セクタのセットを異なるセクタクラス(4010、4020、4030)に分類するように構成され、
前記ターゲットデータ計算器(5000)が、2つ以上の基本空間セクタがクラス内にある場合、各クラスの結合結果を取得するために各クラスの前記基本空間セクタの前記レンダリングデータ項目を結合し、このクラスの修正された結合結果を取得するために、このクラスの前記結合結果に少なくとも1つのクラスに関連付けられた特定の修正関数を適用するように構成されており、又は、
修正データ項目を取得するために、各クラスの前記1つ又は複数の基本空間セクタの前記1つ又は複数のデータ項目に少なくとも1つのクラスと関連付けられた前記特定の修正関数を適用し、各クラスの前記基本空間セクタの前記修正データ項目を結合して、このクラスの修正された結合結果を取得し、
前記結合結果を結合し(5040)、又は利用可能であれば、各クラスの前記修正された結合結果を結合して、全体の結合結果を取得し、
前記全体の結合結果を前記ターゲットレンダリングデータとして使用する(5060)か、又は前記全体の結合結果から前記ターゲットレンダリングデータを計算する、
請求項12に記載の装置。
【請求項14】
基本空間セクタの前記特性が、第1の遮蔽特性を含む遮蔽基本空間セクタ、前記第1の遮蔽特性とは異なる第2の遮蔽特性を含む遮蔽基本空間セクタ、前記聴取者までの第1の距離を有する遮蔽されていない基本空間セクタ、及び前記聴取者までの第2の距離を有する遮蔽されていない基本空間セクタを含むグループのうちの1つであると判定され、前記第2の距離が前記第1の距離とは異なる、
請求項13に記載の装置。
【請求項15】
前記ターゲットデータ計算器(5000)が、前記レンダリングデータ項目として周波数依存分散又は共分散パラメータを修正又は結合(5040)して、前記全体の結合結果として、全体の結合された分散又は全体の結合された共分散パラメータを取得するように構成され、
両耳間若しくはチャネル間コヒーレンスキュー、両耳間若しくはチャネル間レベル差キュー、両耳間若しくはチャネル間位相差キュー、第1のサイドゲイン、又は第2のサイドゲインのうちの少なくとも1つを前記ターゲットレンダリングデータとして計算し(5060)、
前記オーディオプロセッサ(300、3000)が、前記両耳間若しくはチャネル間コヒーレンスキュー、前記両耳間若しくはチャネル間レベル差キュー、前記両耳間若しくはチャネル間位相差キュー、第1のサイドゲイン、又は第2のサイドゲインのうちの少なくとも1つを前記ターゲットレンダリングデータとして使用して、前記オーディオ信号を処理するように構成されている、
請求項8から14のいずれか一項に記載の装置。
【請求項16】
空間的に拡張された音源を合成する方法であって、
オーディオシーンの記述を受信することであって、前記オーディオシーンの前記記述が、前記空間的に拡張された音源に関する空間的に拡張された音源データと、潜在的に修正するオブジェクト(7010)に関する修正データとを備える、受信することと、聴取者データを受信することと、
前記空間的に拡張された音源データ及び前記聴取者データ及び前記修正データに基づく、前記聴取者のレンダリング範囲内の前記空間的に拡張された音源の制限された修正された空間セクタを識別することであって、前記聴取者の前記レンダリング範囲が、前記制限された修正された空間セクタよりも大きい、識別することと、
前記修正された制限された空間セクタに属する前記1つ又は複数のレンダリングデータ項目からターゲットレンダリングデータを計算することと、
前記ターゲットレンダリングデータを使用して前記空間的に拡張された音源を表すオーディオ信号を処理することと、
を含む方法。
【請求項17】
コンピュータ又はプロセッサ上で実行されると、請求項16に記載の方法を実行するためのコンピュータプログラム。
【請求項18】
オーディオシーン記述を生成するためのオーディオシーン発生器であって、
前記空間的に拡張された音源の空間的に拡張する音源(SESS)データを生成するためのSESSデータ生成器(6010)と、
潜在的に修正するオブジェクト(7010)の修正データを生成するための修正データ生成器(6020)と、
前記SESSデータ及び前記修正データを含む前記オーディオシーン記述を生成するための出力インターフェース(6030)と、
を備えたオーディオシーン発生器。
【請求項19】
前記修正データがローパス関数の記述を含み、前記ローパス関数が、より高い周波数の減衰値を含み、前記より高い周波数の前記減衰値が、より低い周波数の減衰値と比較してより強い減衰値を表し、前記出力インターフェース(6030)が、前記減衰関数の前記記述を前記修正データとして前記オーディオシーン記述に導入するように構成されている、請求項18に記載のオーディオシーン発生器。
【請求項20】
前記修正データが、前記潜在的に修正するオブジェクト(7010)に関するジオメトリデータを含み、前記出力インターフェース(6030)が、前記潜在的に修正するオブジェクト(7010)に関する前記ジオメトリデータを前記修正データとして前記オーディオシーン記述に導入するように構成されている、請求項18又は19に記載のオーディオシーン発生器。
【請求項21】
前記SESSデータ生成器(6010)が、前記SESSデータとして、前記SESSの位置及び前記SESSのジオメトリに関する情報を生成するように構成され、
前記出力インターフェース(6030)が、前記SESSデータとして、前記SESSの前記位置に関する前記情報及び前記SESSの前記ジオメトリに関する前記情報を導入するように構成されている、
請求項18から20のいずれか一項に記載のオーディオシーン発生器。
【請求項22】
前記SESSデータ生成器(6010)が、前記SESSデータとして、前記空間的に拡張された音源のサイズ、位置、若しくは向きに関する情報、又は前記空間的に拡張された音源に関連する1つ若しくは複数のオーディオ信号の波形データを生成するように構成されるか、
前記修正データ計算器(6020)が、前記修正データとして、潜在的に遮蔽するオブジェクトなどの潜在的に修正するオブジェクト(7010)のジオメトリを計算するように構成される、
請求項18から21のいずれか一項に記載のオーディオシーン発生器。
【請求項23】
オーディオシーン記述を生成するための方法であって、
前記空間的に拡張された音源の空間的に拡張する音源(SESS)データを生成することと、
潜在的に修正するオブジェクト(7010)の修正データを生成することと、
前記SESSデータ及び前記修正データを含む前記オーディオシーン記述を生成することと、
を含む方法。
【請求項24】
コンピュータ又はプロセッサ上で実行されると、請求項23に記載の方法を実行するためのコンピュータプログラム。
【請求項25】
空間的に拡張された音源データと、
1つ又は複数の潜在的に修正するオブジェクト(7010)の修正データと、
を含む、オーディオシーン記述。
【請求項26】
前記空間的に拡張された音源データが第1のビットストリーム要素を表し、前記修正データが第2のビットストリーム要素を表す、送信又は格納されたビットストリームとして実施される、請求項25に記載のオーディオシーン記述。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号処理に関し、特に空間的に拡張された音源(SESS)の合成に関する。
【背景技術】
【0002】
いくつかのスピーカ又はヘッドホンによる音源の再現は、長い間研究されてきた。そのような設定で音源を再現する最も簡単な方法は、それらを点音源、すなわち非常に(理想的には無限に)小さい音源としてレンダリングすることである。しかしながら、この理論的概念は、現実的な方法で既存の物理音源をモデル化することができない。例えば、グランドピアノは、内部に多くの空間的に分散された弦を有する大きな振動する木製クロージャを有し、したがって、(特に聴取者(及びマイクロフォン)がグランドピアノに近い場合に点音源よりも聴覚においてはるかに大きく見える。多くの現実世界の音源は、楽器、機械、オーケストラ若しくはコーラス、又は周囲音(滝の音)のようなかなりのサイズ(「空間範囲」)を有する。
【0003】
そのような音源の正しい/現実的な再現は、ヘッドホンを使用するバイノーラル(すなわち、いわゆる頭部伝達関数HRTF又はバイノーラル室内インパルス応答BRIRを使用する)であっても、又は、2つのスピーカ(「ステレオ」)から水平面に配置された多くのスピーカ(「サラウンドサウンド」)及び3次元すべてで聴取者を取り囲む多くのスピーカ(「3Dオーディオ」)までのスピーカ設定を慣習的に使用するものであっても、多くの音響再現方法の対象となっている。
【0004】
一例として、噴水の一部がブッシュによって遮られている場所からSESS(例えば、噴水)を聞く場合、噴水の遮られた部分は周波数減衰プロセスを受け、すなわち、ブッシュの伝達特性によって判定される特定の周波数応答によって減衰される。そのような(部分的に)遮蔽されたSESS部分をレンダリングする能力は、最初に記載されたSESSレンダリングアルゴリズムでは利用できない。
【0005】
同様に、本発明を使用して、SESSのより遠い部分をより低いレベルで現実的にレンダリングすることができる。
【0006】
2D音源幅
このセクションでは、聴取者の視点から面した2D表面上に、例えば、(従来のステレオ/サラウンドサウンドの場合のような)0度の仰角における特定の方位角レンジ又は(ユーザの動き、すなわちピッチ/ヨー/ロール軸の頭部回転の3自由度[「3DoF」]を有する3Dオーディオ又は仮想現実の場合のような)方位角及び仰角の特定のレンジで拡張音源をレンダリングすることに関する方法について説明する。
【0007】
2つ以上のスピーカ間でパンニングされるオーディオオブジェクトの見かけの幅を増加させること(いわゆるファントムイメージ又はファントムソースを生成すること)は、関与するチャネル信号の相関を減少させることによって達成することができる(Blauert,2001,S.241-257)。相関が減少すると、ファントムソースの広がりは、0に近い(かつ開き角度が広すぎない)相関値について、スピーカ間のすべてのレンジをカバーするまで増加する。
【0008】
音源信号の非相関バージョンは、適切な非相関フィルタを導出し適用することによって取得される。Lauridsen(Lauridsen,1954)は、信号の2つの非相関バージョンを取得するために、音源信号の時間遅延及びスケーリングバージョンをそれ自体に加算/減算することを提案した。より複雑なアプローチが、例えばKendall(Kendall,1995)によって提案された。彼は、乱数シーケンスの組み合わせに基づいてペア非相関化オールパスフィルタを反復的に導出した。Fallerらは、(Baumgarte&Faller,2003)(Faller&Baumgarte,2003)で適切な非相関化フィルタ(「ディフューザ」)を提案している。また、Zotterらは、ファントムソースの拡大を達成するために周波数依存の位相差又は振幅差が使用されるフィルタ対を導出した(Zotter&Frank,2013)。さらに、(Alary,Politis,&Valimaki,2017)は、(Schlecht,Alary,Valimaki,&Habets,2018)によってさらに最適化された、ベルベットノイズに基づく非相関化フィルタを提案した。
【0009】
ファントムソースの対応するチャネル信号の相関を低減することに加えて、オーディオオブジェクトに起因するファントムソースの数を増加させることによって音源の幅を増加させることもできる。(Pulkki,1999)において、音源の幅は、同じ音源信号を(わずかに)異なる方向にパンニングすることによって制御される。この方法は、VBAPパンニングされた(Pulkki,1997)音源信号が音響シーン内で動かされるときに、これらの音源信号の知覚されるファントムソースの広がりを安定させるために最初に提案された。これは、音源の方向に依存して、レンダリングされた音源が2つ以上のスピーカによって再現され、知覚される音源の幅の望ましくない変更をもたらす可能性があるため、有利である。
【0010】
仮想世界DirAC(Pulkki,Laitinen,&Erkut,2009)は、仮想世界における音声合成のための従来の指向性オーディオ符号化(DirAC)(Pulkki,2007)アプローチの拡張である。空間範囲をレンダリングするために、音源の指向性音成分は、音源の元の方向の周りの特定のレンジ内でランダムにパンニングされ、パンニング方向は時間及び周波数と共に変化する。
【0011】
同様のアプローチが(Pihlajamaki,Santala,&Pulkki,2014)で追求され、ここでは、音源信号の周波数帯域を異なる空間的方向にランダムに分配することによって空間範囲が達成される。これは、範囲の正確な程度を制御するのではなく、あらゆる方向から等しく到来する、空間的に分散され、包み込むような音を生成することを目的とした方法である。
【0012】
Verronらは、パンニングされた相関信号を使用せずに、音源信号の複数のインコヒーレントなバージョンを合成し、それらを聴取者の周りの円上に均一に分配し、それらの間で混合することによって、音源の空間範囲を達成した(Verron,Aramaki,Kronland-Martinet,&Pallone,2010)。同時に活性な音源の数及びゲインは、拡大効果の強度を判定する。この方法は、環境音の合成器に対する空間的拡張として実施された。
【0013】
3D音源幅
このセクションでは、3D空間、すなわち6自由度(「6DoF」)の仮想現実に必要とされる立体的な方法で拡張音源をレンダリングすることに関する方法について説明する。これは、ユーザの移動の6自由度、すなわちピッチ/ヨー/ロール軸における頭部の回転)+3つの並進移動方向x/y/zを意味する。
【0014】
Potardらは、音源形状の知覚を研究することによって音源の1次元のパラメータ(すなわち、2つのスピーカ間のその幅)としての音源範囲の概念を拡張した(Potard,2003)。彼らは、元の音源信号に(時間変化する)非相関化技術を適用し、次いでインコヒーレントな音源を異なる空間位置に配置し、これによってそれらに3次元的範囲を与えることによって、複数のインコヒーレントな点音源を生成した(Potard&Burnett,2004)。
【0015】
MPEG-4 Advanced AudioBIFS(Schmidt&Schroder,2004)では、立体オブジェクト/形状(皮、箱、楕円体、及びシリンダ)を、3次元音源範囲を想起させるために、いくつかの等しく分散され、非相関化された音源で満たすことができる。
【0016】
アンビソニックス(Ambisonics)を使用して音源範囲を拡大及び制御するために、Schmeleら(Schmele&Sayin,2018)は、本質的に見かけの音源幅を増加させる入力信号のアンビソニックス次数を低減することと、音源信号の非相関コピーをリスニング空間の周りに分配することとの混合を提案した。
【0017】
別のアプローチがZotterらによって導入され、そこで彼らは、アンビソニックスに関し、(Zotter&Frank,2013)で提案された原理(すなわち、ステレオ再現設定において音源範囲を達成するために周波数依存の位相及び大きさの差を導入するフィルタ対を導出すること)を採用した(Zotter F.,Frank,Kronlachner,&Choi,2014)。
【0018】
パンニングベースのアプローチ(例えば、(Pulkki,1997)(Pulkki,1999)(Pulkki,2007)(Pulkki,Laitinen,&Erkut,2009))の一般的な欠点は、それらアプローチが聴取者の位置に依存することである。スイートスポットからのわずかなずれであっても、空間イメージが聴取者に最も近いスピーカに縮められる。これは、聴取者が自由に動き回ることが想定されている6自由度(6DoF)の仮想現実及び拡張現実のコンテキストにおけるそれらの適用を大幅に制限する。さらに、DirACベースのアプローチ(例えば、(Pulkki,2007)(Pulkki,Laitinen,&Erkut,2009))で時間周波数ビンを分配することは、ファントムソースの空間的範囲の適切なレンダリングを常に保証するとは限らない。さらに、これは通常、音源信号の音色を著しく低下させる。
【0019】
音源信号の非相関化は、通常、以下の方法のうちの1つによって達成される:i)相補的な大きさを有するフィルタ対を導出すること(例えば(Lauridsen,1954))、ii)一定の大きさであるが(ランダムに)スクランブルされた位相を有するオールパスフィルタを使用すること(例えば(Kendall,1995)(Potard&Burnett,2004))、又はiii)音源信号の時間-周波数ビンを空間的にランダムに分配すること(例えば(Pihlajamaki,Santala,&Pulkki,2014))。
【0020】
すべてのアプローチは、それ自体の意味を伴う:i)に従って音源信号を相補的にフィルタリングすることは、典型的には、非相関信号の知覚される音色の変化をもたらす。ii)のようなオールパスフィルタリングは、音源信号の音色を維持するが、スクランブルされた位相は元の位相関係を乱し、特に過渡信号の場合、深刻な時間的分散及び不鮮明なアーチファクトを引き起こす。空間的に分布する時間-周波数ビンは、いくつかの信号に効果的であることが証明されたが、信号の知覚される音色も変化させる。さらに、これは高度に信号依存性であることが示され、非連続的な信号に深刻なアーチファクトを導入する。
【0021】
Advanced AudioBIFS((Schmidt&Schroder,2004)(Potard,2003)(Potard&Burnett,2004))で提案されているように、音源信号の複数の非相関バージョンを有する立体形状を配置することは、相互に非相関化された出力信号(典型的には、体積形状当たり10を超える点音源が使用される)を生成する多数のフィルタの利用可能性を前提とする。しかしながら、そのようなフィルタを見つけることは些細なタスクではなく、そのようなフィルタがより多く必要とされるほどより困難になる。さらに、音源信号が完全に非相関ではなく、聴取者がそのような形状の周りを移動する場合、例えば(仮想現実)シナリオでは、聴取者までの個々の音源距離は、音源信号の異なる遅延に対応し、聴取者の耳でのそれらの重ね合わせは、位置依存コームフィルタリングをもたらし、潜在的に音源信号の不快な不安定な着色を導入する。
【0022】
アンビソニックス次数を下げることにより、(Schmele&Sayin,2018)においてアンビソニックスベースの技術で音源幅を制御することにより、2次から1次又は0次への遷移に対してのみオーディオ効果があることが示された。さらに、これらの遷移は、音源幅の拡大として知覚されるだけでなく、ファントムソースの動きとして知覚されることも多い。音源信号の非相関バージョンを追加することは、見かけの音源幅の知覚の安定化を助けることができるが、ファントムソースの音色を変化させるコムフィルタ効果も導入する。
【0023】
空間的に拡張された音源(SESS)をバイノーラルレンダリングするための効率的な方法は、入力波形信号の2つの非相関バージョン(これは、元のモノラル信号及び相関除去器を使用してこのモノラル信号の非相関バージョンを生成することによって生成され得る)、音源のサイズに応じて空間的に拡張された音源の目標バイノーラル(及び音色)キューを計算するキュー計算段階(例えば、空間的に拡張された音源及び聴取者の位置及び向きに応じて方位角-仰角レンジとして与えられる)を使用して国際公開第2021/180935号パンフレットに開示されている。好ましい実施形態では、このキュー計算ステージは、SESSによってカバーされる空間領域に応じてターゲットキューを事前計算し、それらをルックアップテーブルに記憶し、ターゲットキューを使用して入力信号及びその非相関バージョンからバイノーラルでレンダリングされた出力信号を生成するバイノーラルキュー調整ステージは、キュー計算ステージ(ルックアップテーブル)を形成する。バイノーラル調整ステージは、キュー計算ステージ/ルックアップテーブルによって計算されるように、入力信号のバイノーラルキュー(チャネル間コヒーレンスICC、チャネル間位相差ICPD、チャネル間レベル差ICLD)をいくつかのステップでそれらの所望の目標値に調整する。
【先行技術文献】
【特許文献】
【0024】
【特許文献1】国際公開第2021/180935号パンフレット
【非特許文献】
【0025】
【非特許文献1】Blauert,2001,S.241-257
【非特許文献2】Lauridsen,1954
【非特許文献3】Kendall,1995
【非特許文献4】Baumgarte&Faller,2003
【非特許文献5】Faller&Baumgarte,2003
【非特許文献6】Zotter&Frank,2013
【非特許文献7】Alary,Politis,&Valimaki,2017
【非特許文献8】Schlecht,Alary,Valimaki,&Habets,2018
【非特許文献9】Pulkki,1999
【非特許文献10】Pulkki,1997
【非特許文献11】Pulkki,Laitinen,&Erkut,2009
【非特許文献12】Pulkki,2007
【非特許文献13】Pihlajamaki,Santala,&Pulkki,2014
【非特許文献14】Verron,Aramaki,Kronland-Martinet,&Pallone,2010
【非特許文献15】Potard,2003
【非特許文献16】Potard&Burnett,2004
【非特許文献17】Schmidt&Schroder,2004
【非特許文献18】Schmele&Sayin,2018
【非特許文献19】Zotter F.,Frank,Kronlachner,&Choi,2014
【非特許文献20】Lauridsen,1954
【発明の概要】
【0026】
本発明の目的は、空間的に拡張された音源のための改善された概念を提供することである。
この目的は、独立請求項に定義される主題によって達成され、好ましい実施形態は従属請求項に定義される。
【0027】
通常の空間的に拡張された音源(SESS)の高速合成アルゴリズムは、特定の指定されたターゲット空間領域における拡散場の音印象をシミュレートする。これは、オーディオ信号の非相関バージョンによって駆動される多くの近接して配置された音源の(仮想)総和によって達成される。時々、SESSの一部は、部分的に透過性の材料(例えば、ブッシュ)によって遮られ、遮られた空間領域におけるSESSの周波数選択的減衰をもたらす。この効果は、テーブルルックアップ操作と所望のバイノーラルキューのさらなる計算との間の計算に重み付けステップを導入することによって、効率的なSESSアルゴリズムに見事かつ効率的に組み込むことができる。ルックアップテーブルは、聴取者の周りの各空間セクタの項の事前計算された部分和を記憶する。この拡張は、実質的に追加の計算コストを伴わない。実施形態は、選択的空間重み付けを用いて空間的に拡張された音源(SESS)を再現又は合成するための装置及び方法又はコンピュータプログラムに関する。
【0028】
本発明の利点は、本発明が、場合によっては複雑な幾何学的形状を有する空間的に拡張された音源の処理を可能にすることである。
【0029】
本発明のさらなる利点は、実施形態が、空間的に拡張された音源を再現する改善された概念を可能にし、SESSレンダリングの空間的に選択的な変更の可能性を可能にすることである。
【0030】
第1の態様は、基本空間セクタの使用に関する。この第1の態様は、ルックアップテーブルにおける基本空間セクタのデータの記憶に関し、基本空間セクタは球にわたって分布している。基本空間セクタのデータは、好ましくは、ユーザ中心のオーディオシーンを形成するユーザの頭部に結び付けられ、同じ位置における頭部の各傾斜、及び聴取者の頭部の各位置、すなわち6-DOFの各自由度でも同じである。しかしながら、頭部の各移動又は傾斜は、SESSからの音が別の1つ又は複数の基本空間セクタにおいてユーザの頭部に「入る」状況をもたらす。レンダラは、SESSによってカバーされる基本空間セクタを判定し、これらの特定のセクタのための記憶されたデータを取り出し、必要に応じて、遮蔽オブジェクト又は特定の距離に起因する記憶されたデータの重み付けを実行し、次いで、記憶されたデータ(又は、を重み付けする場合には、重み付けされた記憶されたデータ)を結合し、次いで、レンダリングのために結合操作の結果を使用する(例えば、レンダリングキューは、結合された(共)分散データから計算されるが、他のステップ及びパラメータもここで使用することができる。したがって、この態様は、遮蔽オブジェクトへの参照を使用してもしなくてもよく、特定の記憶された分散データへの参照を使用してもしなくてもよく、その理由は、組み合わせ(及び任意選択で重み付けも)は、(基本空間セクタ又は全空間範囲に関する)(平均の)HRTF又は周波数依存キュー自体などの他のデータが記憶されている場合にも行うことができるためである。
【0031】
第2の態様は、遮蔽オブジェクト又は他のオブジェクトであり得るオブジェクトを修正することに関し、その結果、SESS位置から特定の位置及び/又は傾斜を有するユーザへの途中でSESSの音が修正される。この第2の態様は、例えば遮蔽オブジェクトの処理に関する。遮蔽オブジェクトの影響は、ローパス特性を有する周波数依存性の減衰である。周波数依存性の重み付けは、基本空間セクタを有していない場合の従来技術の手順にも適用することができる。遮蔽オブジェクトを記述する送信されたデータに基づいて、SESSが遮蔽されているか否かを決定し、次いで、従来技術の異なる周波数に対して既に与えられている、例えば周波数依存の記憶されたキューに遮蔽関数を適用しなければならない。したがって、これは、基本空間セクタを使用せずに、又は記憶された分散データを使用せずに、従来技術における遮蔽効果の有用な適用である。
【0032】
第3の態様は、例えば、異なる空間範囲又は基本空間セクタのHRTFの分散データ及び共分散データの記憶装置に関する。この第3の態様は、例えば、記憶位置におけるHRTFの分散データ及び共分散データの、例えばルックアップテーブルにおける記憶装置に関する。従来技術のように一定の空間範囲に対してこのデータを記憶するか、又は基本空間セクタに対してこのデータを記憶するかは重要ではない。次いで、レンダラは、記憶された分散データからすべてのレンダリングキューを進行中に計算する。少なくともIACCが記憶され、おそらく他のキュー又はHRFTデータが記憶される従来技術のアプリケーションとは対照的に、この態様ではhisは行われない。共分散データが記憶され、キューは進行中に計算される。したがって、この態様は、基本空間セクタを使用してもしなくてもよく、修正又は遮蔽オブジェクトを使用してもしなくてもよい。
【0033】
すべての態様は、互いに別々に、若しくは互いに一緒に使用することができ、又は任意に選択された2つの態様のみを組み合わせることもできる。
【0034】
続いて、本発明の好ましい実施形態を添付の図面に関して説明する。
【図面の簡単な説明】
【0035】
図1】本発明の第1の態様による空間的に拡張された音源を合成するための装置を示す図である。
図2a】本発明の第2の態様による空間的に拡張された音源を合成するための装置を示す図である。
図2b】本発明の第2の態様によるオーディオシーン発生器を示す図である。
図3】本発明の第3の態様の好ましい実施形態を示す図である。
図4】本発明の態様の特定の部分を説明するためのブロック図である。
図5】本発明の態様のいくつかの部分を説明するための別のブロック図である。
図6】本発明の態様の一部を説明するためのさらなるブロック図である。
図7】基本空間セクタにおけるレンダリングレンジの例示的な分割を示す。
図8】空間的に拡張された音源の合成のために3つの本発明の態様を組み合わせるための手順を示す図である。
図9図4、5、及び6のブロック320の好ましい実施態様を示す図である。
図10】第2のチャネルプロセッサの実施態様を示す図である。
図11】本発明の第1の態様及び第2の態様の特徴を特に示す概略図である。
図12】発明の第1、第2、及び第3の態様を説明するための図である。
図13】さらなる実施形態による、オーディオプロセッサ合成に接続された図10の相関除去器を示す図である。
【発明を実施するための形態】
【0036】
図1は、空間的に拡張された音源を合成するための装置を示す図である。本装置は、聴取者のためのレンダリングレンジをカバーする異なる基本空間セクタのためのレンダリングデータ項目を記憶するための記憶装置2000を備えている。本装置はさらに、異なる基本空間セクタから、特定の空間的に拡張された音源に属する基本空間セクタのセットを識別するセクタ識別プロセッサ4000を備えている。識別は、聴取者データと、空間的に拡張された音源(SESS)に関するデータとに基づいて行われる。さらに本装置は、基本空間セクタのセットについてのレンダリングデータ項目からターゲットレンダリングデータを計算するためのターゲットデータ計算器5000を備えている。さらに、本装置は、ターゲットデータ計算器5000によって生成されたターゲットレンダリングデータを使用して空間的に拡張された音源を表すオーディオ信号を処理するためのオーディオプロセッサ3000を備えている。
【0037】
図2aは、オーディオシーンの記述を受信するための入力インターフェース4020を備える空間的に拡張された音源(SESS)を合成するための装置を示し、オーディオシーンの記述は、空間的に拡張された音源に関する空間的に拡張された音源データと、潜在的修正オブジェクトに関する修正データとを備える。さらに、入力インターフェース4020は、聴取者データを受信するように構成される。
【0038】
一般に、図1のセクタ識別プロセッサ4000として実施することができるセクタ識別プロセッサ4000は、聴取者のレンダリングレンジ内の空間的に拡張された音源の制限された修正された空間セクタを識別するように構成され、聴取者のレンダリングレンジは、制限された修正された空間セクタよりも大きい。識別は、空間的に拡張された音源データと、聴取者データ及び修正データとに基づいて行われる。さらに、装置は、一般に、図1のターゲットデータ計算器5000と同一又は同様に実施することができるターゲットデータ計算器5000を備える。このデバイスは、図2aのブロック4000によって判定されるように、修正された制限された空間セクタに属する1つ又は複数のレンダリングデータ項目からターゲットレンダリングデータを計算するように構成される。さらに、図2aに示される第2の態様に係る空間的に拡張された音源を合成するための装置は、修正データ、すなわち、遮蔽オブジェクトなどの修正オブジェクトのデータによる影響を受けたターゲットレンダリングデータを使用して空間的に拡張された音源を表すオーディオ信号を処理するためのオーディオプロセッサを備えている。
【0039】
図2bは、やはり第2の態様による、空間的に拡張された音源データ生成器6010と、修正データ生成器6020と、出力インターフェース6030とを備えるオーディオシーン生成器を示している。空間的に拡張された音源データ生成器6010は、空間的に拡張された音源のデータを生成し、このデータを出力インターフェースに提供するように構成される。このデータは、好ましくは、空間的に拡張された音源のためのメタデータとして、空間的に拡張された音源のための位置情報、方向情報、及びジオメトリデータのうちの少なくとも1つを含み、加えて、例えば、グランドピアノのような大きなSESSの場合のSESSのためのステレオ信号、又は、例えば、図10の要素310又は図13の要素3100に示されている相関除去器によって処理されるSESSデータのためのモノラル信号のみのような、SESSのための波形データを含むことができる。
【0040】
修正データ生成器6020は、修正データを生成するように構成され、この修正データは、ローパス関数の記述、又は潜在的修正オブジェクトに関するジオメトリデータの記述を含むことができる。一実施形態では、ローパス関数は、より高い周波数の減衰値を含み、より高い周波数の減衰値は、より低い周波数の減衰値と比較してより強い減衰値を表し、このデータは、生成されたオーディオシーン記述に挿入するために出力インターフェース6030に転送される。
【0041】
したがって、図2bに示すオーディオシーン記述は、SESSデータだけでなく、それ自体は音源ではなく、音源によって生成された音場を修正する要素である修正オブジェクトに関するデータも含まれる点で、SESS記述と比較して拡張されている。
【0042】
図3は、第3の態様による空間的に拡張された音源を合成するための装置の好ましい実施形態を示す図である。
【0043】
この要素は、異なる制限された空間セクタについての1つ又は複数のレンダリングデータ項目を記憶するための記憶装置を備え、異なる制限された空間セクタは、聴取者のレンダリングレンジ内に位置し、制限された空間セクタについての1つ又は複数のレンダリングデータ項目は、左分散データ項目、右分散データ項目、及び左右共分散データ項目のうちの少なくとも1つを備える。
【0044】
さらに、装置は、空間的に拡張された音源データに基づいて、好ましくは聴取者の位置又は向きに基づいて、聴取者のレンダリングレンジ内の空間的に拡張された音源のための1つ又は複数の制限された空間セクタを識別するためのセクタ識別プロセッサ4000を備える。
【0045】
左分散データ、右分散データ、及び共分散データは、セクタ識別プロセッサ4000によって判定されるように、1つ又は複数の制限された空間セクタに対応する、記憶された左分散データ、記憶された右分散データ、又は記憶された共分散データからターゲットレンダリングデータを計算するためのターゲットデータ計算器5000に入力される。ターゲットレンダリングデータは、ターゲットレンダリングデータを使用して空間的に拡張された音源を表すオーディオ信号を処理するためのオーディオプロセッサ3000に転送される。一般に、オーディオプロセッサ3000は、図1及び図2b又は図4図5、及び図6と同じ方法で実施することができ、又はオーディオプロセッサ3000は異なる方法で実施することができる。
【0046】
好ましくは、左分散データ項目、右分散データ項目、及び/又は左右共分散データ項目は、頭部伝達関数データに関連する、又はバイノーラル室内インパルス応答データに関連する、又はバイノーラル室内伝達関数データに関連する、又は頭部インパルス応答データに関連するデータ項目である。さらに、レンダリングデータ項目は、周波数選択的/周波数依存性の処理が達成されるように、異なる周波数に対する分散又は共分散データ項目値を含む。
【0047】
特に、記憶装置2000は、制限された空間セクタごとに、左分散データ項目の周波数依存表現、右分散データ項目の周波数依存表現、及び共分散データ項目の周波数依存表現を記憶するように構成される。
【0048】
記憶された分散/共分散データ項目の上流処理は、図4、5、及び6として後に示す国際公開第2021/180935号パンフレットのいくつかの図に例示されている。
【0049】
図4は、SESS合成のブロック図を示す。図5は、選択肢1に従って簡略化されたSESS合成の別のブロック図を示し、図6は、選択肢2に従って簡略化されたSESS合成のブロック図を示す。
【0050】
図4は、空間的に拡張された音源を合成するための装置の実施態様を示す図である。装置は、最大空間レンジ内の空間的に拡張された音源の制限された空間レンジを示す空間レンジ通知情報入力を受信する空間情報インターフェースを備える。制限された空間レンジは、空間情報インターフェースによって与えられた制限された空間レンジに応答して、1つ又は複数のキュー情報項目を提供するように構成されたキュー情報プロバイダ200に入力される。キュー情報項目又はいくつかのキュー情報項目は、キュー情報プロバイダ200によって提供される1つ又は複数のキュー情報項目を使用して空間的に拡張された音源を表すオーディオ信号を処理するように構成されたオーディオプロセッサ300に提供される。空間的に拡張された音源(SESS)のオーディオ信号は、単一のチャネルであってもよく、又は第1のオーディオチャネル及び第2のオーディオチャネルであってもよく、又は3つ以上のオーディオチャネルであってもよい。しかし、処理負荷を低くするためには、空間的に拡張された音源、又は空間的に拡張された音源を表すオーディオ信号のチャネル数が少ないことが好ましい。
【0051】
オーディオ信号は、オーディオプロセッサ300に入力され、オーディオプロセッサ300は、入力されたオーディオ信号を処理し、又は、入力されたオーディオチャネルの数が、必要とされる数よりも少ない、例えば、ただ1つである場合、オーディオプロセッサは、例えば、図10にSとしても示されている第1のオーディオチャネルSから相関除去された第2のオーディオチャネルSを生成するための相関除去器を備える、図10に示されている第2のチャネルプロセッサ310を備える。キュー情報項目は、チャネル間相関項目、チャネル間位相差項目、チャネル間レベル差及びゲイン項目などの実際のキュー項目、例えば、ともにチャネル間レベル差及び/又は絶対振幅若しくは電力若しくはエネルギーレベルを表すゲイン係数項目G、Gであってもよく、又はキュー情報項目は、合成信号内の合成されるべき出力チャネルの実際の数によって必要とされる数を有する頭部伝達関数などの実際のフィルタ関数であってもよい。したがって、合成信号が2つのバイノーラルチャネル又は2つのスピーカチャネルなどの2つのチャネルを有する場合、各チャネルに対して1つの頭部伝達関数が必要とされる。頭部伝達関数の代わりに、頭部インパルス応答関数(HRIR)又はバイノーラル又は非バイノーラル室内インパルス応答関数(B)RIRが必要である。そのような伝達関数は各チャネルに1つ必要であり、図4は2つのチャネルを有する実施態様を示している。
【0052】
一実施形態では、キュー情報プロバイダ200は、キュー情報項目として、チャネル間相関値を提供するように構成される。オーディオプロセッサ300は、オーディオ信号インターフェース305を介して、第1のオーディオチャネル及び第2のオーディオチャネルを実際に受信するように構成される。しかしながら、オーディオ信号インターフェース305が単一チャネルのみを受信する場合、任意選択的に設けられる第2のチャネルプロセッサは、例えば図9の手順によって第2のオーディオチャネルを生成する。オーディオプロセッサは、チャネル間相関値を使用して第1のオーディオチャネルと第2のオーディオチャネルとの間の相関を課すための相関処理を実行する。
【0053】
追加的又は代替的に、チャネル間位相差項目、チャネル間時間差項目、チャネル間レベル差及びゲイン項目、又は第1のゲイン係数及び第2のゲイン係数の情報項目などのさらなるキュー情報項目を提供することができる。項目は、両耳間(IACC)相関値、すなわちより具体的なチャネル間相関値、又は両耳間位相差項目(IAPD)、すなわちより具体的なチャネル間位相差値であってもよい。
【0054】
好ましい実施形態では、相関は、ICPD(330)、ICTD若しくはICLD(340)調整が実行される前に、又はHRTF若しくは他の転送フィルタ関数処理(350)が実行される前に、相関キュー情報項目に応答してオーディオプロセッサ300によって320で課される。しかしながら、場合によっては、順序は異なるように設定することができる。
【0055】
好ましい実施形態では、装置は、異なる空間レンジ通知に関連する異なるキュー情報項目に関する情報を記憶するためのメモリを備える。この状況では、キュー情報プロバイダは、対応するメモリに入力された空間レンジ通知に関連する1つ又は複数のキュー情報項目をメモリから検索するための出力インターフェースをさらに備える。そのようなルックアップテーブル210は、例えば、図4図5、又は図6に示されており、ルックアップテーブルは、対応するキュー情報項目を出力するためのメモリ及び出力インターフェースを含む。特に、メモリは、図1bに示されるようにIACC、IAPD又はG及びG値を記憶するだけでなく、ルックアップテーブル内のメモリはまた、「HRTFを選択する」として示される図5及び図6のブロック220に示されるようにフィルタ関数を記憶することもできる。この実施形態では、図5及び図6に別々に示されているが、ブロック210、220は同じメモリを備えることができ、方位角及び仰角として示されている対応する空間レンジ通知に関連して、IACC及び任意選択的にIAPDなどの対応するキュー情報項目、並びに左出力チャネルのHRTF及び右出力チャネルのHRTFなどのフィルタの伝達関数が記憶され、左出力チャネル及び右出力チャネルは、図4又は図5又は図6ではS及びSとして示されている。
【0056】
ルックアップテーブル210又は選択機能ブロック220によって使用されるメモリはまた、特定のセクタコード又はセクタ角度又はセクタ角度レンジに基づいて、対応するパラメータが利用可能である記憶装置を使用してもよい。代替的には、メモリは、場合によってベクトルコードブック、又は多次元関数適合ルーチン、又は混合ガウスモデル(GMM)又はサポートベクタマシン(SVM)を記憶してもよい。
【0057】
ターゲットキューは、以下のように計算される。図4に、概念の一般的なブロック図を示す。
は、方位角レンジに関する所望の音源範囲を示している。
は、仰角範囲に関する所望の音源範囲である。
及び
は、2つの非相関入力信号を示しており、
は、周波数の指数を示している。したがって、
及び
に関し、以下の式が成り立つ。
(1)
【0058】
加えて、両方の入力信号は、同じパワースペクトル密度を有する必要がある。代替として、1つの入力信号
のみを与えることが可能である。第2の入力信号は、図10に示すように、相関除去器を用いて内部で生成される。
及び
が与えられると、拡張音源は、対応する両耳間キューに一致するように、チャネル間コヒーレンス(ICC)、チャネル間位相差(ICPD)、及びチャネル間レベル差(ICLD)を連続的に調整することによって合成される。これらの処理ステップに必要な量は、予め計算されたルックアップテーブルから読み取られる。結果として得られる左右のチャネル信号
及び
は、ヘッドホンを介して再生することができ、SESSを模倣している。ICC調整を最初に実行する必要があるが、ICPD及びICLD調整ブロックは相互交換することができることに留意されたい。IAPDの代わりに、対応する両耳間時間差(IATD)も同様に再現することができる。しかしながら、以下では、IAPDのみがさらに考慮される。
【0059】
ICC調整ブロックにおいて、両方の入力信号間の相互相関は、以下の式[21]を使用して所望の値|IACC(ω)|に調整される。
(2)
(3)
(4)
(5)
【0060】
これらの式を適用すると、入力信号
及び
が完全に非相関である限り、所望の相互相関が得られる。さらに、それらのパワースペクトル密度は同一である必要がある。対応するブロック図を図9に示す。4つのフィルタ321から324及び2つの加算器325、326は、ブロック320の出力を得るために入力を処理する。ICPD調整ブロック330は、以下の式によって記述される。
(6)
(7)
【0061】
最後に、ICLD調整340は以下のように実行される。
(8)
(9)
式中、
は左耳ゲインを表し、
は右耳ゲインを表す。これにより、
及び
が同じパワースペクトル密度を有する限り、所望のICLDが得られる。左右の耳ゲインが直接使用されるので、IALDに加えてモノラルスペクトルキューが再現される。
【0062】
前述の方法をさらに簡略化するために、簡略化のための2つの選択肢が記載されている。前述のように、(水平面内の)知覚される空間範囲に影響を及ぼす主な両耳間キューはIACCである。したがって、事前計算されたIAPD及び/又はIALD値を使用せずに、HRTFを介してそれらを直接調整することが考えられる。この目的のために、所望の音源範囲レンジを表す位置に対応するHRTFが使用される。この位置として、一般性を失うことなく、所望の方位角/仰角レンジの平均がここで選択される。以下、両方の選択肢について説明する。
【0063】
第1の選択肢は、事前に計算されたIACC値及びIAPD値を使用することを含む。しかしながら、ICLDは、音源範囲レンジの中心に対応するHRTFを使用して調整される。
【0064】
第1の選択肢のブロック図が図5に示されている。ここで、
及び
は、以下の式を使用して計算される。
(10)
(11)
及び
は、所望の方位角/仰角レンジの平均を表すHRTFの位置を記述する。第1の選択肢の主な利点は以下を含む。
【0065】
・音源範囲が音源範囲レンジの中央の点音源と比較して増加している場合、スペクトル成形/着色がない。
【0066】

及び
がルックアップテーブルに記憶されている必要はないので、フルブローンと比較してより低いメモリ要件。
【0067】
ICLDではなく結果として生じるICC及びICPDのみが事前計算中に使用されるHRTFデータセットに依存するため、フルブローン法と比較してランタイムのHRTFデータセットの変化に対してより柔軟である。
【0068】
この単純化されたバージョンの主な欠点は、拡張されていない音源と比較して、IALDの劇的な変化が発生するときはいつでも失敗することである。この場合、IALDが十分な精度で再現されない。これは、例えば、音源が0°の方位角を中心とせず、同時に水平方向の音源範囲が大きくなりすぎる場合である。
【0069】
第2の選択肢は、事前に計算されたIACC値のみを使用することを含む。ICPD及びICLDは、音源範囲レンジの中心に対応するHRTFを使用して調整される。
【0070】
第2の選択肢のブロック図が図6に示されている。ここで、
及び
は、以下の式を使用して計算される。
(12)
(13)
第1の選択肢とは対照的に、ここでは、大きさのみではなく、HRTFの位相及び大きさが使用される。これにより、ICLDだけでなくICPDも調整することができる。
【0071】
まず、左右のチャネル間の(共)分散項を以下のように計算する。
【0072】
第2のステップでは、ターゲットキューIACC、IALD、及びIAPDは、以下のように分散項から計算される。
また、左右の耳ゲインは以下のようになる。
これらのターゲットキューから、バイノーラル信号の最終的な効率的な合成は、国際公開第2021/180935号パンフレットに説明されているように、入力音をレンダリングされたバイノーラル出力に変換する4つのフィルタを設計することによって実行することができる。
【0073】
第1の態様は、基本空間セクタの使用に関する。この第1の態様は、ルックアップテーブルにおける基本空間セクタのデータの記憶に関し、基本空間セクタは球にわたって分布している。基本空間セクタのデータは、好ましくは、ユーザ中心のオーディオシーンを形成するユーザの頭部に結び付けられ、同じ位置における頭部の各傾斜、及び聴取者の頭部の各位置、すなわち6-DOFの各自由度でも同じである。しかしながら、頭部の各移動又は傾斜は、SESSからの音が別の1つ又は複数の基本空間セクタにおいてユーザの頭部に「入る」状況をもたらす。レンダラは、SESSによってカバーされる基本空間セクタを判定し、これらの特定のセクタのための記憶されたデータを取り出し、必要に応じて、遮蔽オブジェクト又は特定の距離に起因する記憶されたデータの重み付けを実行し、次いで、記憶されたデータ(又は、を重み付けする場合には、重み付けされた記憶されたデータ)を結合し、次いで、レンダリングのために結合操作の結果を使用する(例えば、レンダリングキューは、結合された(共)分散データから計算されるが、他のステップ及びパラメータもここで使用することができる。したがって、この態様は、遮蔽オブジェクトへの参照を使用してもしなくてもよく、特定の記憶された分散データへの参照を使用してもしなくてもよく、その理由は、組み合わせ(及び任意選択で重み付けも)は、(基本空間セクタ又は全空間範囲に関する)(平均の)HRTF又は周波数依存キュー自体などの他のデータが記憶されている場合にも行うことができるためである。
【0074】
第2の態様は、遮蔽オブジェクト又は他のオブジェクトであり得るオブジェクトを修正することに関し、その結果、SESS位置から特定の位置及び/又は傾斜を有するユーザへの途中でSESSの音が修正される。この第2の態様は、例えば遮蔽オブジェクトの処理に関する。遮蔽オブジェクトの影響は、ローパス特性を有する周波数依存性の減衰である。周波数依存性の重み付けは、基本空間セクタを有していない場合の従来技術の手順にも適用することができる。遮蔽オブジェクトを記述する送信されたデータに基づいて、SESSが遮蔽されているか否かを決定し、次いで、従来技術の異なる周波数に対して既に与えられている、例えば周波数依存の記憶されたキューに遮蔽関数を適用しなければならない。したがって、これは、基本空間セクタを使用せずに、又は記憶された分散データを使用せずに、従来技術における遮蔽効果の有用な適用である。
【0075】
第3の態様は、例えば、異なる空間範囲又は基本空間セクタのHRTFの分散データ及び共分散データの記憶装置に関する。この第3の態様は、例えば、記憶位置におけるHRTFの分散データ及び共分散データの、例えばルックアップテーブルにおける記憶装置に関する。従来技術のように一定の空間範囲に対してこのデータを記憶するか、又は基本空間セクタに対してこのデータを記憶するかは重要ではない。次いで、レンダラは、記憶された分散データからすべてのレンダリングキューを進行中に計算する。少なくともIACCが記憶され、おそらく他のキュー又はHRFTデータが記憶される従来技術のアプリケーションとは対照的に、この態様ではhisは行われない。共分散データが記憶され、キューは進行中に計算される。したがって、この態様は、基本空間セクタを使用してもしなくてもよく、修正又は遮蔽オブジェクトを使用してもしなくてもよい。
【0076】
すべての態様は、互いに別々に、若しくは互いに一緒に使用することができ、又は任意に選択された2つの態様のみを組み合わせることもできる。
【0077】
本発明の利点は、例えば、
・特定の方法でターゲットキュー計算のためのルックアップテーブルを編成すること(セクタベース、(共)分散項の使用、周波数依存);又は
・SESSの(部分的又は完全に)遮蔽された部分の合成に必要とされるように、又は一定の距離減衰をモデル化するために、所望のターゲット周波数応答に従って(共)分散項の(周波数選択的な)重み付けを行うこと
によって、国際公開第2021/180935号パンフレットと比較して、空間的に拡張された音源のための強化された効率的で現実的なバイノーラルレンダリングを提供することである。
【0078】
本発明の実施形態は、いくつかの方法でSESSを効率的にレンダリングするために国際公開第2021/180935号パンフレットから前述の概念を拡張して、記憶効率を高め、SESSの部分的に遮蔽した部分をもレンダリングする能力を可能にする。
【0079】
ルックアップテーブル及びルックアップテーブルに基づくターゲットキュー計算を編成する特に効率的な方法が開示され、これにより、SESSのすべての可能な空間ターゲット領域を小さいサイズのルックアップテーブルにカバーすることが可能になる。これは、ルックアップテーブルを、聴取者の頭部の周りの全球を小さな方位角/仰角セクタに分割するテーブルとして編成することによって達成される。これらのセクタのサイズ(すなわち、それらの方位角及び仰角サイズ)は、好ましくは、人間の方位角/仰角の知覚の分解能に従って選択される。例えば、方位角に対する人間の聴覚解像度は、前方で最も細かく(約1度)、側方に向かって減少する。また、聴取者の耳が頭部の左右に位置するため、仰角の知覚の解像度は方位角の解像度よりもはるかに粗い。これらの空間セクタの各々について、特定の部分的に合計された項がルックアップテーブルに記憶される。好ましい実施形態では、これらは、多くの点音源(それらのそれぞれの頭部インパルス応答、HRIRによって記述され、非相関信号バージョン=拡散フィールドによって駆動される)が合計されるときの2つの耳信号の(共)分散項(E{Yl・Yr}、E{|Yl|}、E{|Yr|})である。さらに、好ましい実施形態では、これらのテーブルエントリは、周波数選択的方法で記憶される(E{Yl・Yr}、E{|Yl|}、E{|Yr|})。
【0080】
これは、キュー計算プロセスが、いくつかのセクタがカバーされるべきであるときに、これらのセクタの(共)分散データを単純に追加して(すべてのセクタを含む)ターゲット領域全体の(共)分散データを生成することができるように、各空間セクタについて記憶されたHRIR寄与からこれらの合計項(E{Yl・Yr}、E{|Yl|}、E{|Yr|})を利用するので、単独で又は上記に加えて達成される。
【0081】
さらに、(例えば、SESSのこの部分の遮蔽をモデル化するための)特定の空間セクタの空間重み付けは、これらの空間セクタについて記憶された(共)分散データを、後続のキュー計算プロセスでそれらを使用する前に重み付けすることによって達成することができる。具体的には、すべての(共)分散項を、対応するエネルギースケーリング係数g(f)と乗算することによって、所望のターゲット周波数応答g(f)を課すことができる。一例として、遮蔽ブッシュは、この遮蔽ブッシュを通して音が伝播するときに減衰及びローパス周波数応答を課す。したがって、(共)分散項は減衰され、より高い周波数の項は、低周波数の項よりも減衰される。異なる遮蔽/重み付けのためのいくつかのゾーンが可能である。同様に、オブジェクト距離のモデル化も可能である:河川のような大きなオブジェクトの場合、オブジェクトの一部は、他の部分よりも聴取者から実質的に遠く離れている可能性があり、したがって、近くの部分よりも音量が小さくなる。これは、異なる空間セクタの距離の重み付けによってモデル化及びレンダリングすることができる。空間セクタ内の項は、この空間セクタ内のオブジェクトの(例えば、平均)距離に対応する距離エネルギー減衰係数で重み付けされる。
【0082】
本発明の方法若しくは装置又はコンピュータプログラムの実施形態の概要を以下に提供する。
【0083】
レンダラの初期化/起動段階では、HRIR寄与を後で合計できる空間セクタ(例えば方位角及び仰角のレンジ)を定義することによって、聴取者の頭部の周りの球の分割が行われる。次に、これらの空間セクタに基づいて、対応するHRIR寄与を、(共)分散項を使用してルックアップテーブルに記憶することができる。
【0084】
図11は、第1の態様と第2の態様との協働を実施する本発明(方法又は装置又はコンピュータプログラム)のさらなる概要を示す。特に、ブロック「SESSレンダリングのための空間セクタの選択」は、図1から3に示されたセクタ識別プロセッサ4000に対応する。空間セクタの選択の結果は、空間セクタのグループであり、4010に示されるいかなる修正もなしにいくつかのセクタが存在することができる。さらに、判定されたセクタの中に、4020で示された第1の特性による遮蔽の修正を伴うセクタを含めることができる。さらに、「数N」として示される別の遮蔽の修正を伴うセクタも存在し得る。これは4030に示されている。特に第2の態様に関してターゲットデータ計算器5000によって示される特定のターゲットデータ計算は、2つ以上のそのようなセクタが存在する場合に、左側の分散項、右側の分散項、及びすべての非遮蔽セクタの共分散項の合計を実行する。さらに、重み関数1による合計が実行され、すなわち、遮蔽/修正番号1による遮蔽を有するセクタが2つ以上ある場合、これらは合計され、次いで対応する重みが適用され、又は重み操作と合計操作とを交換することができる。さらに、4030に示すように遮蔽修正番号Nを有する他のセクタがある場合、そのようなセクタは、これらのセクタの特定の重み/修正関数の対応する重みと合計することができる。
【0085】
当然のことながら、SESSに関して非遮蔽セクタのみが存在するか、又は単一の修正関数による遮蔽セクタのみが存在するか、これらの可能性の間の任意の混合、すなわち、1つのセクタが非遮蔽であり、遮蔽/修正番号1を有するセクタが1つだけであるが、遮蔽/修正番号Nのセクタが存在しないことをケースとすることができる。当然ながら、数「N」は1に等しくてもよく、それによってライン4010及び4020のみが存在するが、修正番号1に加えて別の修正を有する修正はブロック4000によって判定されない。
【0086】
ブロック5020において個々の遮蔽/修正の個々の重み付けが実行されるとすぐに、ブロック5040における全体的なキュー合計が行われ、次いで最終的なターゲットキュー計算5060のための入力データが実行される。次いで、このターゲットキューデータは、図11のバイノーラルキュー合成又はオーディオプロセッサブロック3000に入力される。ブロック3000への入力は、SESSがステレオ波形信号を有する場合、SESS入力信号番号1及びSESS入力信号番号2である。モノラル波形信号のみを有するSESSの場合、それにもかかわらず、2つの信号が生成されるが、図13の3100に示されているか、又は図10の3010に示されている相関除去器を用いる。
【0087】
図12は、IACC調整3200、IAPD調整3300、及びIALD調整3400からなるバイノーラルキュー合成3000の好ましい実施態様を示す。これらのすべてのブロックには、ブロック2000で「ルックアップテーブル」として示されているストレージからのデータが提供される。しかしながら、実施態様に応じて、IACC、IAPD、及びIALDの最終値を判定するための対応する処理もまた、ブロック2000において、ターゲットデータ計算ステップ5020、5040、5060に従って生成される。したがって、図12の「ルックアップテーブル」と題するブロックには、参照番号2000及び参照番号5000が付されている。しかしながら、このブロックへの入力は、図1、2a、3、11のいずれかのセクタ識別プロセッサ4000によって提供される。
【0088】
図13の左側には、単一のSESS波形信号から、相関除去器の出力における番号1及び番号2の2つのSESS入力信号を生成するための相関除去器3100が示されている。次いで、このデータは、4つのフィルタリング操作3210、3220、3230、及び3240を受け、左チャネルの対応する寄与が加算器3250を介して加算され、右チャネルの対応する寄与が加算器3260を介して加算されて、最終的な左右の出力信号が得られる。個々のフィルタ関数3210、3220、3230、及び3240は、国際公開第2021/180935号パンフレットに記載されているように、対応して判定された制限された空間レンジについてターゲットデータ計算器5000を介して計算されるか、又は空間的に拡張された音源が2つ以上の基本空間セクタによって表される図7に関して説明したように、複数の基本空間セクタに従って計算される。
【0089】
各オーディオブロックの処理は、第1の態様、第2の態様、及び第3の態様を一緒に実施する好ましい実施形態の全体のフローチャートを示す図11に示されている。各オーディオ信号ブロックについて、SESSに属するターゲット空間領域の(時間変化する)ターゲットキューが判定され、バイノーラルキュー合成段階において2つの入力信号に適用されて、L及びRバイノーラル出力信号が生成される。
【0090】
ターゲットバイノーラルキューは、以下のように計算される。
聴取者及びSESSの位置及び向き、並びにSESSジオメトリを考慮して、SESSに属する空間セクタが(例えば、プロジェクションアルゴリズム又はレイトレーシング分析を使用して)計算される。
【0091】
具体的には、遮蔽及び/又は距離減衰などのような効果をモデル化するように重み付けされるべきSESSの部分に属する空間セクタが見出される。異なる減衰/周波数応答特性を必要とするいくつかの空間領域が存在する可能性がある。対応するセクタは、異なるいわゆる「セクタクラス」(例えば、「非遮蔽」、「遮蔽/修正#1」、...「遮蔽/修正#n」)に属する各領域で別々に処理される。
【0092】
各セクタクラス内のセクタについて記憶された(共)分散項が合計される。次に、異なるセクタクラスの合計セクタ(共)分散データは、セクタクラスごとに所望の伝達関数に従って重み付けされる。具体的には、そのセクタクラスの(共)分散データは、このクラスに属する(周波数依存)エネルギー伝達関数(振幅スケーリング係数/振幅周波数応答の二乗)と乗算される。
【0093】
SESSのすべてのセクタクラスの重み付き分散項は、全体的な(重み付け)(共)分散項に合計される。
【0094】
修正/重み付けされた全体的な(共)分散項を使用するターゲットキューは、式(23)~(27)を使用して計算される。もちろん、各セクタの(共)分散データは、最初にセクタクラス内で部分的な合計を実行し、各セクタクラスに対して1回重み付けし、最終的に合計するのではなく、個々に重み付けされ、次いで合計することもできる。しかしながら、前述のアプローチは、そのより高い効率のために好ましい実施形態である。
【0095】
最新技術に対する本発明の実施形態の利点は、サイズが決められた音源(SESS)の非常に効率的でより現実的なレンダリング、小さいルックアップテーブルサイズ、及び/又はサイズ音源(SESS)の選択された空間部分の周波数応答を変化させるレンダリング効果(部分遮蔽又は距離減衰など)を含む能力を提供する。
【0096】
好ましい例は、1つ又は複数の信号チャネル、空間的に拡張された音源(SESS)及びHRTFセットのジオメトリ、サイズ及び向きを入力として使用し、空間的に拡張された音源のバイノーラルレンダリングのために装備されている(すなわち、2つの出力信号を提供する)レンダラに関する。
【0097】
SPESSを合成するためのさらに好ましいレンダラ又は装置及び方法は、上記に加えて、又は上記の代わりに、(例えば、所望の両耳間ターゲットキューを計算するための)ターゲットキュー計算ステージ及び(例えば、入力信号(複数可)を所望のターゲットキューを有するバイノーラルにレンダリングされた信号に変換するための)キュー合成ステージを備える。
【0098】
SPESSを合成するためのさらに好ましいレンダラ又は装置及び方法は、上記に加えて、又は上記の代わりに、SESSのバイノーラルレンダリングのための予め計算されたデータを含み、HRTFセットに応じて異なる周波数帯域について提供/予め計算されるルックアップテーブルの使用を含む。
【0099】
SPESSを合成するためのさらに好ましいレンダラ又は装置及び方法は、上記に加えて、又は上記の代わりに、空間セクタごとに(共)分散項を記憶するように編成されたルックアップテーブルを備える(例えば、l(左)分散、r(右)分散、lr共分散)。
【0100】
他の好ましい実施形態では、空間セクタは方位角/仰角レンジとして定義される。
【0101】
他の好ましい実施形態では、空間セクタサイズは、人間の聴覚空間定位能力(例えば、方位角方向よりも仰角が広い)の分解能に関連して選択される。
【0102】
他の好ましい実施形態では、ターゲットバイノーラルレンダリングキューの計算は、SESSに属する空間セクタの合計された分散項に基づいて実行される。
【0103】
他の好ましい実施形態では、SESS(例えば、遮蔽又は距離のモデリング)の異なる空間領域のレンダリングの修正は、最初に記憶されたものではなくルックアップテーブルからの修正された分散項を使用することによって達成される。
【0104】
他の好ましい実施形態では、変更は、分散項と空間セクタに属するエネルギー減衰係数との乗算によって行われる。
【0105】
他の好ましい実施形態では、この減衰係数は(例えば、部分的な遮蔽によるローパス効果をモデル化するために)周波数依存性である。
【0106】
さらなる実施形態は、以下の情報、すなわち、サイズ、オブジェクト及び波形の位置及び向き、並びに遮蔽オブジェクトのジオメトリを含むビットストリームに関する。
【0107】
続いて、MPEG I ISO 23090-4のために現在開発されているさらに好ましい実施形態について説明する。
【0108】
この実施形態は、1に設定された関連フラグobjectSourceHasExtentを有するオブジェクトソースのためのヘッドホンでの再現のための1つ又は複数の空間的に拡張された音源(SESS)を合成する。オブジェクトソースのそれぞれのパラメータは、objectSourceExtentIdによって識別される。
【0109】
合成は、音源範囲の空間範囲全体にわたって分布する(理想的には)無限の非相関点音源によるSESSの記述に基づいている。現在の聴取者位置に向かう方向にSESSジオメトリを連続的に投影することによって、前述のジオメトリによってカバーされるレンジをフレームごとに識別し、リアルタイムで更新することができる。言い換えれば、ジオメトリは、フレームごとにユーザの仮想聴取空間を表す球に投影される。そして、球上の投影されたジオメトリによって占められる空間セクションは、SESSのオーラル化に含まれるものである。
【0110】
SESSは、ユーザによってエンコーダ入力フォーマット(EIF)で定義される。所望の音源範囲レンジが与えられると、SESSは、2つの非相関入力信号を使用して合成される。これらの入力信号は、知覚的に重要な聴覚キューが合成されるように処理される。これは、以下の両耳間キュー、:両耳間相互相関(IACC)、両耳間位相差(IAPD)及び両耳間レベル差(IALD)を含む。それに加えて、モノラルスペクトルキューが再現される。これを図12に示す。
【0111】
データ要素及び変数
itemStore RenderItemStoreオブジェクトへのローカルポインタ
B ブロックサイズ
Fs サンプリングレート
extentProcessors 項目idからそのextentProcessorインスタンスへのマッピング
extentDownmixItem すべての範囲のバイノーラル信号の最終出力を記憶するRI
ステージの説明
リアルタイムの計算コストを節約するために、個々のHRTF点は、聴取者の仮想聴取球を均一に分布した領域に分離する事前定義されたグリッドテーブルに割り当てられる。初期化中に、各HRIRについてN/2+1個の周波数成分を得るためにN点DFTが実行され、Nはその長さである。そして、左右のチャネルのゲインである非正規化IACC内のすべてのHRTF点のデータを統合して、グリッドごとに3つの中間値を得る。さらに、各グリッドに含まれるHRTFデータ点の数も記憶する。これらは、リアルタイムで最終キューを計算するために使用される。
【0112】
各グリッドの両方のチャネルのゲインは、式28及び29で計算され、ここで、
及び
は、それぞれ左右のHRTFの大きさであり、Nは、このグリッド内にあるHRTF点の数である。
(28)
(29)
各グリッドの非正規化IACCは、式30を用いて計算され、式中、φ,l及びφ,rは、それぞれ左右のHRTFの位相である。
(30)
式28から30の手順は、実際の処理の前に予め実行され、図8のステップ800、810に対応し、これらの処理の結果は、対応する図の記憶装置2000又は200に記憶されることが好ましいデータである。
【0113】
リアルタイム処理中、各固有の拡張音源は、拡張プロセッサによって生成及び管理される。各アクティブプロセッサは、フレームごとに、オーディオサンプルのバッファと、拡張音源をどのように合成するかを示すメタデータとを受信する。2つの別々の処理チェーンが存在する:更新スレッドにおけるメタデータ処理及びオーディオスレッドにおけるオーディオ処理。これらは、以下のセクションでそれぞれ説明され、それらの結果は、バイノーラルオーディオ出力を生成するために第2のチェーンの終わりに組み合わされる。
【0114】
更新スレッドで実行される計算:
固有の拡張音源ごとに、RI(レンダリング項目)の形式の1つ又は複数のメタデータキャリアが、遮蔽ステージ(例えば、ブロック4000に対応する)によって生成される。
【0115】
このステージ4000は、すべての到来するRIをループし、関連する範囲のメタデータを対応するプロセッサに割り当てる。事前定義されたテーブルからの空間セクションのうちの1つがカバーされ、このフレーム内の範囲をオーラル化するために含まれるべきである場合、到来するメタデータは、ゲイン係数(図11の項目4010、4020、4030)と、そのためのいくつかの事前定義された周波数ビンに対応するゲインのリストとを含む。選択(例えば4000)し、重み付け(例えば5020)し、最終的にゲイン及びEQで記憶された中間データを累積(例えば5040)することによって、任意の形態及び遮蔽度(サイズ/材料)を有する任意の形状の拡張音源の生成が達成される。
【0116】
最終的なフィルタは、以下のステップによって得られる。RI(レンダリング項目)に示されるすべてのグリッド点を統合(又は累積)した後、左右のチャネルのゲイン及びIACC(例えば分散及び共分散データ)は、HRTFデータポイントの重み付けされた総数で正規化される。
(31)
(32)
(33)
式31から式33の手順はブロック5040に対応する。
【0117】
周波数依存性の
及び
は、正規化されたIACCを使用して計算される。
(34)
(35)
ブロック5060における計算は、一実施形態における式34及び式35の処理に対応する。
【0118】
最終的なステレオフィルタ3210、3220、3230、3240は、
及び
、左右のチャネルのゲイン(
及び
)を使用して得られ、HRTFポイントから抽出された位相は、範囲の中心に相当する。(
及び

(36)
(37)
(38)
(39)
ブロック36から39の計算は、好ましくはブロック5060においても実行される。
【0119】
オーディオスレッドで実行される計算:
入力モノラル信号は、最初に相関除去器3100に供給されて、2つの非相関バージョンを取得する。MPEG-I相関除去器や、図10に示すような任意の他の相関除去器を用いることができる。
【0120】
次に、2つの非相関信号の各々は、更新スレッドで計算された対応するステレオフィルタ3210、3220、3230、3240で畳み込まれ、結果として4つの出力チャネルが得られる。次に、最終的なバイノーラル出力を生成するために交差混合3250、3260が実行される。
【0121】
式(40)及び(41)は、(フィルタリング及び)混合プロセスを定義し、ここで、
及び
は、2つの非相関信号を表し、
及び
は、メタデータ処理セクションで計算された2つのステレオフィルタ(左及び右のそれぞれに関する)である。図13は、処理の信号フロー図である。図13に示すフィルタは、図9のフィルタと同様である。
(40)
(41)
式40及び式41による処理は、好ましくは、図11の3000又は図4、5、6の300であるオーディオプロセッサ又はバイノーラルキュー合成ブロックにおいて実行される。
【0122】
図7は、聴取者のレンダリングレンジの概略図を示している。レンダリングレンジは、例示的に、ユーザを中心とする球である。したがって、ユーザ又は聴取者(図7には示されていない)は球の中心に位置し、聴取者の周りのこの球に対応するレンダリングレンジはユーザの手に「結び付けられている」と考えることができる。したがって、ユーザが水平方向、垂直方向、又は奥行き方向(x、y、z)のいずれかの位置を変更すると、球は、ユーザに対して固定されていると見なすことができる空間的に拡張された音源に対するユーザの動きに従って動き回る。さらに、ユーザが上を見る、下を見る、又は横を見ることによって手を動かすと、聴取者のレンダリングレンジを表す球も上、下、又は横に動く、すなわち、ユーザが水平方向、垂直方向、又は奥行き方向に動くことなく頭に加える「動き」も実行する。したがって、聴取者の球面レンダリングレンジは、6自由度すべてにおいて常にユーザ又は聴取者の頭部の動きに追従する一種の「ヘルメット」であると考えることができる。
【0123】
この球は、音響心理学的所見を反映するために、間隔を置くことができ、したがって方位角及び仰角に対して異なる寸法にすることができる個々の基本空間セクタに分離される。特に、レンダリングレンジは、聴取者の周囲の球又は球の一部を含み、図7に示す各基本空間セクタは、例えば、方位角サイズ及び仰角サイズを有する。特に、基本空間セクタの方位角サイズと仰角サイズとが互いに異なり、それにより、方位角サイズが、聴取者のより側部にある基本空間セクタの方位角サイズと比較して、聴取者の正面にある基本空間セクタに対してより細かくなり、かつ/又は、方位角サイズが、聴取者の側部に向かって減少し、かつ/又は、基本空間セクタの仰角サイズが、このセクタの方位角サイズよりも小さい。
【0124】
したがって、本発明の態様は、空間的に拡張された音源に対してユーザと共に移動するユーザ中心表現に依存し、ユーザの頭は空間の中心にあり、球又は球の一部はレンダリングレンジである。
【0125】
ここで、セクタ識別プロセッサ4000は、図7に7000で示す空間的に拡張された音源をどの異なる基本空間セクタが表すかを判定する。この例では、例えば、この球の中心から始まり、SESS7000を指すレイトレーシングアルゴリズムによって、図7において「1」、「2」、「3」、及び「4」として示されている4つの基本空間セクタESSが、SESS7000に対するユーザの特定の向き及び位置においてSESS7000に「属する」と判定される。したがって、実際にユーザの耳に到達するSESS7000によって放出された音場は、これらの4つのESSを通過すると仮定される。さらに、図7には遮蔽オブジェクト7010も示されており、例の目的のために、基本空間セクタ(ESS1)は完全に遮蔽されており、基本空間セクタ2(ESS2)は部分的に遮蔽されており、ESS3、4は遮蔽オブジェクトによって遮蔽されていないと仮定する。
【0126】
したがって、図11を参照すると、基本空間セクタ1、2は項目4010に対応し、基本空間セクタ1は項目4020に対応し、基本空間セクタ2は図11の項目4030に対応する。あるいは、部分的に遮蔽されたセクタも完全に遮蔽されたセクタと同じクラスに属すると判定することができ、又はセクタが非常に小さい部分でのみ遮蔽されている場合、特定の閾値未満の遮蔽を有するセクタも全く遮蔽されていないと判定することもできる。
【0127】
図7には、基本空間セクタ及びセクタの遮蔽又は修正特性の任意選択の遮蔽度が両耳について、すなわち左右について同じであることが示されているが、基本空間セクタの数及び/又は識別が左耳及び右耳について異なる場合もあり得る。これは、SESSがユーザに非常に近く、SESSが一方又は他方ではなく両方の耳の間の中央に位置する場合に容易に当てはまり得る。
【0128】
さらに、聴取者に関する、すなわち例示的な球に関するレンダリングレンジへのSESSの投影を判定するために、レイトレーシングアルゴリズム以外の手順を実行することができる。なお、SESS7000は、必ずしも固定されていなくてもよい。SESSはまた、動的であってもよく、すなわち、経時的に移動してもよい。次に、ユーザに対するSESS位置を事前に判定する必要があり、次に、ある時点について/SESS波形信号のあるフレームについて、聴取者の頭部の実際の位置に対する聴取者の左側及び右側の対応する基本空間セクタが判定され、次に、図11のログ5020から5060に関して示すようにキューが計算される。
【0129】
さらに、ここで、レンダリングレンジは必ずしも全球である必要はないことに留意されたい。レンダリングレンジは球の一部のみを含むことができる。さらに、レンダリングレンジは必ずしも球形である必要はない。レンダリングレンジは、円筒形であってもよく、又は聴取者の周りの空間の特定の三次元部分を覆う限り、多角形の形状を有してもよい。
【0130】
基本空間セクタのサイズに関しては、基本空間セクタを非常に小さくすることができ、記憶されたレンダリングデータ項目の判定のために、特定の数にわたる合計の代わりに振幅及び位相で示される単一のHRTFのみとすることができることが強調されるべきである(例えば、式20、式21及び式22又は式28から式30に示すように、十分である)。しかしながら、特定の寸法を有する基本空間セクタが使用され、その結果、各基本空間セクタのレンダリングデータ項目を記憶する記憶装置のサイズが縮小されるとき、各基本空間セクタの記憶装置に記憶されたレンダリングデータ項目の判定は、式20から式22又は式28から式30に沿って実行することができ、特定の基本空間セクタにのみ属するHRTFが、特定の周波数及びこの基本空間セクタの実際の(共)分散データを取得するために合計される。
【0131】
この手順の具体的な利点は、これらの計算のすべてをランタイムに実行する必要がないことであることに留意されたい。代わりに、基本空間セクタの特定のグリッド又はグリッド点へのレンダリングレンジの特定の分割が判定されるとすぐに、個々の又は基本空間セクタごとの記憶されたデータを計算及び記憶することができ、特定のグリッドでの特定の初期化のために、ランタイム中に行われる唯一の手順は、このグリッドの対応する事前計算されたデータを記憶装置又はルックアップテーブルにロードすることである。
【0132】
ランタイム中に実行される必要がある唯一の手順は、特定のユーザの向き/位置及び遮蔽オブジェクトに起因する潜在的に必要な重み付けのための空間的に拡張された音源に属する基本空間セクタの識別であり、次いで、図11のブロック5040に対応する最終的な全体的な合計は、ブロック5060における最終的なターゲットキュー計算のための自由な方法を与える。したがって、ランタイム中に必要な計算操作は非常に制限され、基本空間セクタ、すなわち特定のグリッドのレンダリングデータ項目を判定するために必要な計算操作と比較して非常に小さい。
【0133】
さらに、特定のグリッドの記憶装置は、SESSの位置又は特性が変化した場合、又はユーザの向き/位置が変化した場合、識別された基本空間セクタのみが変化するが、グリッドを表す基本空間セクタについて記憶されたデータは変化しないため、ユーザの位置/向きに依存しないことに留意されたい。言い換えれば、基本空間セクタのID番号のみが変化し、特定のID番号を有する基本空間セクタのデータは変化しない。
【0134】
続いて、本発明の1つ又はいくつかの態様の好ましい手順を説明するために、図8を説明する。
【0135】
ステップ800において、球などのレンダリングレンジが判定又は初期化される。結果は、例えば、特定のグリッドポイント又は基本空間セクタを有する球である。ブロック810において、(共)分散データなどのレンダリングデータ項目は、レンダリングレンジ内のすべての基本空間セクタについてルックアップテーブルなどの記憶装置に記憶される。
【0136】
次に、ステップ820において、ブロック4000によって行われるようなセクタ識別が実行される。したがって、空間的に拡張された音源に属する1つ又は複数の基本空間セクタは、ブロック820に入力された聴取者のSESSデータ及び位置/方向データに基づいて判定される。ブロック820の結果は、1つ又は複数の基本空間セクタである。
【0137】
ブロック830において、ブロック5040によって示されるように、重み付けの有無などの複数の基本空間セクタについてのレンダリングデータ項目の合計が実行される。
【0138】
ブロック840において、IACC、IALD、IAPD、GL、GRなどのターゲットレンダリングデータが計算され、これはブロック5060によって実行される。
【0139】
ブロック850において、ターゲットレンダリングデータは、例えば図11のオーディオプロセッサブロック3000又はバイノーラルキュー合成ブロック3000によっても、図示のように空間的に拡張された音源オーディオ信号に適用される。
【0140】
本発明の第1の態様によれば、レンダリング球は図7に示すように実施され、すなわち、聴取者のレンダリングレンジをカバーする基本空間セクタが判定され、セクタ識別プロセッサは、空間的に拡張された音源の2つ以上の基本空間セクタなどの基本空間セクタのセットを定義する。しかしながら、記憶されたレンダリングデータ項目が分散又は共分散データであることは、好ましい実施形態にすぎない。その代わりに、レンダリングに必要な他のデータ項目もまた、ターゲットデータ計算器によって記憶及び結合することができる。また、この手順も修正処理を必ずしも必要としないが、修正処理を行うことが好ましい。
【0141】
本発明の第2の態様によれば、潜在的修正オブジェクトの判定及び潜在的修正オブジェクト識別に基づく制限された修正された空間セクタの判定が必要とされる。しかしながら、この手順のために、レンダリングレンジは、必ずしも図7に示すように、すなわち、個々の基本空間セクタが個々の記憶されたデータ項目を有するように寸法決めされる必要はない。代わりに、レンダリングレンジは、国際公開第2021/180935号パンフレットに示されているものなどの他の実施態様に示されているように実施することもできる。さらに、修正オブジェクトの判定及び考慮のために、記憶されたレンダリングデータ項目が分散/共分散データであるとは限らない。代わりに、国際公開第2021/180935号パンフレットに記憶データとして示されているような他のレンダリングデータも同様に使用することができる。
【0142】
第3の態様に関しては、図7に示すようなレンダリングレンジの判定は必ずしも必要ではない。代わりに、国際公開第2021/180935号パンフレットに示されているようなレンダリングレンジの定義などの他の判定を、1つ又は複数の制限された空間セクタに使用することができる。しかしながら、制限された空間セクタは、好ましくは、図7に示される基本空間セクタとして実施される。さらに、分散/共分散データを記憶データとして使用する目的で、修正/遮蔽オブジェクトの特定の処理も必須の特徴ではないが、例えば図8のブロック830に関して前述したように好ましい。
【0143】
第1の態様に関連するさらなる実施形態は、続いて要約される。
実施形態は、空間的に拡張された音源(SESS)を合成するための装置であって、聴取者に関するレンダリングレンジをカバーする異なる基本空間セクタのためのレンダリングデータ項目を記憶するための記憶装置と、異なる基本空間セクタから、空間的に拡張された音源に属する基本空間セクタのセットを、聴取者データ及び空間的に拡張された音源のデータに基づいて識別するセクタ識別プロセッサと、基本空間セクタのセットについてのレンダリングデータ項目からターゲットレンダリングデータを計算するためのターゲットデータ計算器と、ターゲットレンダリングデータを使用して空間的に拡張された音源を表すオーディオ信号を処理するためのオーディオプロセッサと、を備えている装置に関する。
【0144】
さらなる実施形態では、記憶装置は、レンダリングデータ項目として、各基本空間セクタについて、左頭部伝達関数データに関する左分散データ項目、右頭部伝達関数(HRTF)データに関する右分散データ項目、並びに、左HRTFデータ及び右HRTFデータに関する共分散データ項目のうちの少なくとも1つを記憶するように構成されており、ターゲット計算器が、少なくとも1つの合計された項目を取得するために、基本空間セクタのセットの左分散データ項目又は基本空間セクタのセットの右分散データ項目、又は基本空間セクタのセットの共分散データ項目をそれぞれ合計するように構成されており、ターゲット計算器が、少なくとも1つの合計された項目からターゲットレンダリングデータとして少なくとも1つのレンダリングキューを計算するように構成されており、オーディオプロセッサは、少なくとも1つのレンダリングキューを使用してオーディオ信号を処理するように構成されている。
【0145】
さらなる実施形態では、セクタ識別プロセッサは、プロジェクションアルゴリズム又はレイトレーシング分析を適用して、基本空間セクタのセットを判定するように構成されるか、聴取者データとして、聴取者位置若しくは聴取者向きを使用するか、又は空間的に拡張された音源(SESS)データとして、SESS向き、SESS位置、若しくはSESSのジオメトリに関する情報を使用する。
【0146】
さらなる実施形態では、セクタ識別プロセッサは、オーディオシーンの記述から、潜在的遮蔽オブジェクトに関する遮蔽情報を受信することと、遮蔽情報に基づいて、基本空間セクタのセットのうちの特定の空間セクタを遮蔽セクタとして判定することと、を行うように構成されており、ターゲットデータ計算器が、修正データを得るために遮蔽セクタについて記憶されたレンダリングデータ項目に遮蔽関数を適用し、ターゲットレンダリングデータを計算するために修正データを使用するように構成されている。
【0147】
さらなる実施形態では、遮蔽関数は、異なる周波数に関する異なる減衰値を有するローパス関数であり、レンダリングデータ項目は、異なる周波数のデータ項目であり、ターゲットデータ計算器は、いくつかの周波数について、特定の周波数のデータ項目を特定の周波数の減衰値で重み付けして、修正レンダリングデータを取得するように構成されている。
【0148】
さらなる実施形態では、セクタ識別プロセッサは、遮蔽オブジェクトについて判定された基本空間セクタのセットのうちの別の基本空間セクタが潜在的遮蔽オブジェクトによって遮蔽されていないと判定するように構成されており、ターゲットデータ計算器が、遮蔽セクタからの修正データと、他のセクタのレンダリングデータ項目とを、遮蔽関数を用いた修正なしに、又は異なる修正関数によって修正されて結合して、ターゲットレンダリングデータを取得するように構成されている。
【0149】
さらなる実施形態では、セクタ識別プロセッサは、基本空間セクタのセットのうちの第1の基本空間セクタを第1の特性を有するように判定し、基本空間セクタのセットのうちの第2の基本空間セクタを第2の異なる特性を有するように判定するように構成されており、ターゲットデータ計算器が、第1の基本空間セクタにいかなる修正関数も適用せず、第2の基本空間セクタに修正関数を適用するか、又は第1の基本空間セクタに第1の修正関数を適用し、第2の基本空間セクタに第2の修正関数を適用するように構成されており、第2の修正関数は第1の修正関数とは異なる。
【0150】
さらなる実施形態では、第1の修正関数が周波数選択的であり、第2の修正関数が周波数にわたって一定であるか、又は第1の修正関数が第1の周波数選択的特性を有し、第2の修正関数が第1の周波数選択的特性とは異なる第2の周波数選択的特性を有するか、又は第1の修正関数が第1の減衰特性を有し、第2の修正関数が第2の異なる減衰特性を有し、ターゲットデータ計算器は、第1の基本空間セクタ又は第2の基本空間セクタと聴取者との間の距離に基づいて、又は聴取者と対応する基本空間セクタとの間に置かれているオブジェクトの特性に基づいて、第1の修正関数及び第2の修正関数から修正関数を選択又は調整するように構成されている。
【0151】
さらなる実施形態では、セクタ識別プロセッサは、基本空間セクタに関連付けられた特性に基づいて、基本空間セクタのセットを異なるセクタクラスに分類するように構成され、ターゲットデータ計算器が、2つ以上の基本空間セクタがクラス内にある場合、各クラスの結合結果を取得するために各クラスの基本空間セクタのレンダリングデータ項目を結合し、このクラスの修正された結合結果を取得するために、このクラスの結合結果に少なくとも1つのクラスに関連付けられた特定の修正関数を適用するように構成されており、又は、修正データ項目を取得するために、各クラスの1つ又は複数の基本空間セクタの1つ又は複数のデータ項目に少なくとも1つのクラスと関連付けられた特定の修正関数を適用し、各クラスの基本空間セクタの修正データ項目を結合して、このクラスの修正された結合結果を取得し、結合結果又は利用可能であれば、各クラスの修正された結合結果を結合して、全体の結合結果を取得し、全体の結合結果をターゲットレンダリングデータとして使用するか、又は全体の結合結果からターゲットレンダリングデータを計算する。
【0152】
さらなる実施形態では、基本空間セクタの特性が、第1の遮蔽特性を含む遮蔽基本空間セクタ、第1の遮蔽特性とは異なる第2の遮蔽特性を含む遮蔽基本空間セクタ、聴取者までの第1の距離を有する遮蔽されていない基本空間セクタ、及び聴取者までの第2の距離を有する遮蔽されていない基本空間セクタを含むグループのうちの1つであると判定され、第2の距離が第1の距離とは異なる。
【0153】
さらなる実施形態では、ターゲットデータ計算器は、レンダリングデータ項目として周波数依存分散又は共分散パラメータを修正又は結合して、全体の結合結果として、全体の結合された分散又は全体の結合された共分散パラメータを取得するように構成され、両耳間コヒーレンスキュー、両耳間レベル差キュー、両耳間位相差キュー、第1のサイドゲイン、又は第2のサイドゲインのうちの少なくとも1つをターゲットレンダリングデータとして計算する。
【0154】
さらなる実施形態では、オーディオプロセッサは、ターゲットレンダリングデータとして対応するキューを使用して、チャネル間コヒーレンス調整、チャネル間位相差調整、チャネル間レベル差調整のうちの少なくとも1つを実行するように構成されている。
【0155】
さらなる実施形態では、レンダリングレンジは、聴取者の周りの球又は球の一部を含み、レンダリングレンジが、聴取者の位置又は聴取者の向きに関連付けられ、各基本空間セクタが、方位角サイズ及び仰角サイズを有する。
【0156】
さらなる実施形態では、基本空間セクタの方位角サイズと仰角サイズとが互いに異なり、それにより、方位角サイズが、聴取者のより側部にある基本空間セクタの方位角サイズと比較して、聴取者の正面にある基本空間セクタに対してより細かくなるか、又は方位角サイズが、聴取者の側部に向かって減少するか、又は基本空間セクタの仰角サイズが、このセクタの方位角サイズよりも小さい。
【0157】
第2の態様に関連するさらなる実施形態は、続いて要約される。
空間的に拡張された音源を合成するための装置の実施形態は、オーディオシーンの記述であって、オーディオシーンの記述が、空間的に拡張された音源に関する空間的に拡張された音源データと、潜在的修正オブジェクトに関する修正データとを備える、オーディオシーンの記述を受信するため、及び、聴取者データを受信するための入力インターフェースと、空間的に拡張された音源データ及び聴取者データ及び修正データに基づく、聴取者のレンダリングレンジ内の空間的に拡張された音源の制限された修正された空間セクタを識別するためのセクタ識別プロセッサであって、聴取者のレンダリングレンジは、制限された修正された空間セクタよりも大きい、セクタ識別プロセッサと、修正された制限された空間セクタに属する1つ又は複数のレンダリングデータ項目からターゲットレンダリングデータを計算するためのターゲットデータ計算器と、ターゲットレンダリングデータを使用して空間的に拡張された音源を表すオーディオ信号を処理するためのオーディオプロセッサと、を備えている。
【0158】
さらなる実施形態では、修正データは遮蔽データであり、潜在的修正オブジェクトは潜在的遮蔽オブジェクトである。
【0159】
さらなる実施形態では、潜在的修正オブジェクトは、関連する修正関数を有し、1つ又は複数のレンダリングデータ項目は周波数依存性であり、修正関数は周波数選択的であり、ターゲットデータ計算器は、周波数選択的修正関数を1つ又は複数の周波数依存レンダリングデータ項目に適用するように構成される。
【0160】
さらなる実施形態では、周波数選択的修正関数は、異なる周波数に対して異なる値を有し、周波数依存性の1つ又は複数のレンダリングデータ項目は、異なる周波数に対して異なる値を有し、ターゲットデータ計算器は、特定の周波数に対する周波数選択的修正関数の値を、特定の周波数に対する1つ又は複数のレンダリングデータ項目の値に適用するか、乗算するか、又は組み合わせるように構成される。
【0161】
さらなる実施形態では、いくつかの異なる制限された空間セクタについての1つ又は複数のレンダリングデータ項目を記憶するための記憶装置が提供され、いくつかの異なる制限された空間セクタは、ともに聴取者のレンダリングレンジを形成する。
【0162】
さらなる実施形態では、修正関数は、周波数選択的ローパス関数であり、ターゲットデータ計算器は、より高い周波数における1つ又は複数のレンダリングデータ項目の値が、より低い周波数における1つ又は複数のレンダリングデータ項目の値よりも強く減衰されるように、ローパス関数を適用するように構成される。
【0163】
さらなる実施形態では、セクタ識別プロセッサは、聴取者データ及び空間的に拡張された音源データに基づいて空間的に拡張された音源の制限された空間セクタを判定し、制限された空間セクタの少なくとも一部が修正オブジェクトによる修正を受けるかどうかを判定し、この一部が閾値よりも大きい場合、又は制限された空間セクタ全体が修正オブジェクトによる修正を受ける場合、制限された空間セクタを修正された空間セクタとして判定するように構成される。
【0164】
さらなる実施形態では、セクタ識別プロセッサは、プロジェクションアルゴリズム又はレイトレーシング分析を適用して、制限された空間セクタを判定するように構成されるか、聴取者データとして、聴取者位置若しくは聴取者向きを使用するか、又は空間的に拡張された音源(SESS)データとして、SESS向き、SESS位置、若しくはSESSのジオメトリに関する情報を使用するように構成される。
【0165】
さらなる実施形態では、レンダリングレンジは、聴取者の周りの球又は球の一部を含み、レンダリングレンジが、聴取者の位置又は聴取者の向きに関連付けられ、修正された制限された空間セクタが、方位角サイズ及び仰角サイズを有する。
【0166】
さらなる実施形態では、修正された制限された空間セクタの方位角サイズと仰角サイズとが互いに異なり、それにより、方位角サイズが、聴取者のより側部にある修正された制限された空間セクタの方位角サイズと比較して、聴取者の正面にある修正された制限された空間セクタに対してより細かくなるか、又は方位角サイズが、聴取者の側部に向かって減少するか、又は修正された制限された空間セクタの仰角サイズが、修正された制限された空間セクタの方位角サイズよりも小さい。
【0167】
さらなる実施形態では、1つ又は複数のレンダリングデータ項目として、修正された制限された空間セクタについて、左頭部伝達関数データに関する左分散データ項目、右頭部伝達関数(HRTF)データに関する右分散データ項目、並びに、左HRTFデータ及び右HRTFデータに関する共分散データ項目のうちの少なくとも1つが使用される。
【0168】
さらなる実施形態では、セクタ識別プロセッサは、空間的に拡張された音源に属する基本空間セクタのセットを判定し、基本空間セクタのセットの中で、1つ又は複数の基本空間セクタを制限された修正された空間セクタとして判定するように構成され、ターゲットデータ計算器は、結合データを取得するために修正データを使用して制限された修正された空間セクタに関連付けられた1つ又は複数のレンダリングデータ項目を修正し、結合データを、制限された修正された空間セクタとは異なり、修正されていないか、制限された修正された空間セクタの修正と比較して異なる方法で修正された基本空間セクタのセットの1つ又は複数の基本空間セクタのレンダリングデータ項目と結合するように構成される。
【0169】
さらなる実施形態では、セクタ識別プロセッサは、基本空間セクタに関連付けられた特性に基づいて、基本空間セクタのセットを異なるセクタクラスに分類するように構成され、ターゲットデータ計算器が、2つ以上の基本空間セクタがクラス内にある場合、各クラスの結合結果を取得するために各クラスの基本空間セクタのレンダリングデータ項目を結合し、このクラスの修正された結合結果を取得するために、このクラスの結合結果に少なくとも1つのクラスに関連付けられた特定の修正関数を適用するように構成されており、又は、修正データ項目を取得するために、各クラスの1つ又は複数の基本空間セクタの1つ又は複数のデータ項目に少なくとも1つのクラスと関連付けられた特定の修正関数を適用し、各クラスの基本空間セクタの修正データ項目を結合して、このクラスの修正された結合結果を取得し、結合結果又は利用可能であれば、各クラスの修正された結合結果を結合して、全体の結合結果を取得し、全体の結合結果をターゲットレンダリングデータとして使用するか、又は全体の結合結果からターゲットレンダリングデータを計算する。
【0170】
さらなる実施形態では、基本空間セクタの特性が、第1の遮蔽特性を含む遮蔽基本空間セクタ、第1の遮蔽特性とは異なる第2の遮蔽特性を含む遮蔽基本空間セクタ、聴取者までの第1の距離を有する遮蔽されていない基本空間セクタ、及び聴取者までの第2の距離を有する遮蔽されていない基本空間セクタを含むグループのうちの1つであると判定され、第2の距離が第1の距離とは異なる。
【0171】
さらなる実施形態では、ターゲットデータ計算器は、レンダリングデータ項目として周波数依存分散又は共分散パラメータを修正又は結合して、全体の結合結果として、全体の結合された分散又は全体の結合された共分散パラメータを取得するように構成され、両耳間若しくはチャネル間コヒーレンスキュー、両耳間若しくはチャネル間レベル差キュー、両耳間若しくはチャネル間位相差キュー、第1のサイドゲイン、又は第2のサイドゲインのうちの少なくとも1つをターゲットレンダリングデータとして計算し、オーディオプロセッサは、両耳間若しくはチャネル間コヒーレンスキュー、両耳間若しくはチャネル間レベル差キュー、両耳間若しくはチャネル間位相差キュー、第1のサイドゲイン、又は第2のサイドゲインのうちの少なくとも1つをターゲットレンダリングデータとして使用して、オーディオ信号を処理するように構成されている。
【0172】
さらなる実施形態は、オーディオシーン記述を生成するためのオーディオシーン発生器であって、空間的に拡張された音源のSESSデータを生成するための空間的に拡張された音源(SESS)データ生成器と、潜在的修正オブジェクトに関する修正データを生成するための修正データ生成器と、SESSデータ及び修正データを含むオーディオシーン記述を生成するための出力インターフェースと、を備えているオーディオシーン発生器を備える。
【0173】
さらなる実施形態では、修正データは、潜在的修正オブジェクトに関するローパス関数又はジオメトリデータの記述を含み、ローパス関数は、より高い周波数の減衰値を含み、より高い周波数の減衰値は、より低い周波数の減衰値と比較してより強い減衰値を表し、出力インターフェースは、潜在的修正オブジェクトに関する減衰関数又はジオメトリデータの記述を修正データとしてオーディオシーン記述に導入するように構成される。
【0174】
さらなる実施形態では、SESSデータ生成器は、SESSデータとして、SESSの位置及びSESSのジオメトリに関する情報を生成するように構成され、出力インターフェースは、SESSデータとして、SESSの位置に関する情報及びSESSのジオメトリに関する情報を導入するように構成される。
【0175】
さらなる実施形態では、SESSデータ生成器は、SESSデータとして、空間的に拡張された音源のサイズ、位置、若しくは向きに関する情報、又は空間的に拡張された音源に関連する1つ若しくは複数のオーディオ信号の波形データを生成するように構成されるか、修正データ計算器は、修正データとして、潜在的遮蔽オブジェクトなどの潜在的修正オブジェクトのジオメトリを計算するように構成される。
【0176】
さらなる実施形態は、空間的に拡張された音源データと、1つ又は複数の潜在的修正オブジェクトに関する修正データとを含むオーディオシーン記述を含む。
【0177】
さらなる実施形態では、オーディオシーン記述は、送信又は記憶されたビットストリームとして実施され、空間的に拡張された音源データは第1のビットストリーム要素を表し、修正データは第2のビットストリーム要素を表す。
【0178】
第3の態様に関連するさらなる実施形態は、続いて要約される。
実施形態は、空間的に拡張された音源(SESS)を合成するための装置を備え、異なる制限された空間セクタについての1つ又は複数のレンダリングデータ項目を記憶するための記憶装置であって、異なる制限された空間セクタは、聴取者のレンダリングレンジ内に位置し、制限された空間セクタについての1つ又は複数のレンダリングデータ項目は、左頭部関数データに関連する左分散データ項目、右頭部関数データに関連する右分散データ項目、及び、左頭部関数データと右頭部関数データとに関連する左右共分散データ項目のうちの少なくとも1つを備える、記憶装置と、空間的に拡張された音源データに基づいて、聴取者のレンダリングレンジ内の空間的に拡張された音源のための1つ又は複数の制限された空間セクタを識別するためのセクタ識別プロセッサと、記憶された左分散データ、記憶された右分散データ、又は記憶された共分散データからターゲットレンダリングデータを計算するためのターゲットデータ計算器と、ターゲットレンダリングデータを使用して空間的に拡張された音源を表すオーディオ信号を処理するためのオーディオプロセッサと、を備えている。
【0179】
さらなる実施形態では、記憶装置は、頭部伝達関数データ、又はバイノーラル室内インパルス応答データ、又はバイノーラル室内伝達関数データ、又は頭部インパルス応答データに関連する分散データ項目又は共分散データ項目を記憶するように構成される。
【0180】
さらなる実施形態では、1つ又は複数のレンダリングデータ項目は、異なる周波数の分散又は共分散データ項目値を含む。
【0181】
さらなる実施形態では、記憶装置は、制限された空間セクタごとに、左分散データ項目の周波数依存表現、右分散データ項目の周波数依存表現、及び共分散データ項目の周波数依存表現を記憶するように構成される。
【0182】
さらなる実施形態では、ターゲットデータ計算器は、ターゲットレンダリングデータとして、両耳間又はチャネル間コヒーレンスキュー、両耳間又はチャネル間レベル差キュー、両耳間又はチャネル間位相差キュー、第1のサイドゲイン、及び第2のサイドゲインのうちの少なくとも1つをターゲットレンダリングデータとして計算するように構成されており、オーディオプロセッサは、ターゲットレンダリングデータとして対応するキューを使用して、チャネル間若しくは両耳間コヒーレンス調整、両耳間若しくはチャネル間位相差調整、又は両耳間若しくはチャネル間レベル差調整のうちの少なくとも1つを実行するように構成されている。
【0183】
さらなる実施形態では、ターゲットデータ計算器は、左分散データ項目、右分散データ項目、及び共分散データ項目に基づいて両耳間若しくはチャネル間コヒーレンスキューを計算するか、又は左分散データ項目、及び右分散データ項目に基づいてチャネル間若しくは両耳間位相差キューを計算するか、又は共分散データ項目に基づいてチャネル間若しくは両耳間位相差キューを計算するか、又は左若しくは右分散データ項目、及びオーディオ信号の信号出力に関する情報を使用して左若しくは右サイドゲインを計算するように構成される。
【0184】
さらなる実施形態では、ターゲットデータ計算器は、両耳間若しくはチャネル間コヒーレンスキューの値が本明細書に記載の両耳間若しくはチャネル間コヒーレンスキューの式によって得られる値の+/-20%のレンジ内にあるように、両耳間若しくはチャネル間コヒーレンスキューを計算するように構成され、又は、ターゲットデータ計算器は、両耳間若しくはチャネル間レベル差キューの値が本明細書に記載の両耳間若しくはチャネル間レベル差キューの式によって得られる値の+/-20%のレンジ内にあるように、両耳間若しくはチャネル間レベル差キューを計算するように構成され、又は、ターゲットデータ計算器は、両耳間若しくはチャネル間位相差キューの値が本明細書に記載の両耳間若しくはチャネル間位相差キューの式によって得られる値の+/-20%のレンジ内にあるように、両耳間若しくはチャネル間位相差キューを計算するように構成され、又は、ターゲットデータ計算器は、第1若しくは第2のサイドゲインの値が、本明細書に記載された左側又は右側のサイドゲインの式によって得られる値の+/-20%のレンジ内となるように、第1若しくは第2のサイドゲインを計算するように構成されている。
【0185】
さらなる実施形態では、セクタ識別プロセッサは、プロジェクションアルゴリズム又はレイトレーシング分析を適用して、1つ又は複数の制限された空間セクタを基本空間セクタのセットとして判定するように構成されるか、聴取者データとして、聴取者位置若しくは聴取者向きを使用するか、又は空間的に拡張された音源(SESS)データとして、SESS向き、SESS位置、若しくはSESSのジオメトリに関する情報を使用するように構成される。
【0186】
さらなる実施形態では、レンダリングレンジは、聴取者の周りの球又は球の一部を含み、レンダリングレンジが、聴取者の位置又は聴取者の向きに関連付けられ、1つ又は複数の制限された空間セクタが、方位角サイズ及び仰角サイズを有する。
【0187】
さらなる実施形態では、異なる制限された空間セクタの方位角サイズと仰角サイズとが互いに異なり、それにより、方位角サイズが、聴取者のより側部にある異なる制限された空間セクタの方位角サイズと比較して、聴取者の正面にある異なる制限された空間セクタに対してより細かくなるか、又は方位角サイズが、聴取者の側部に向かって減少するか、又は制限された空間セクタの仰角サイズが、このセクタの方位角サイズよりも小さい。
【0188】
さらなる実施形態では、セクタ識別プロセッサは、基本空間セクタのセットを1つ又は複数の制限された空間セクタとして判定するように構成され、各基本空間セクタについて、左分散データ項目、右分散データ項目、及び共分散データ項目のうちの少なくとも1つが記憶される。
【0189】
さらなる実施形態では、セクタ識別プロセッサは、オーディオシーンの記述から、潜在的遮蔽オブジェクトに関する遮蔽情報を受信することと、遮蔽情報に基づいて、基本空間セクタのセットのうちの特定の空間セクタを遮蔽セクタとして判定することと、を行うように構成されており、ターゲットデータ計算器が、修正データを得るために遮蔽セクタについて記憶されたレンダリングデータ項目に遮蔽関数を適用し、ターゲットレンダリングデータを計算するために修正データを使用するように構成されている。
【0190】
さらなる実施形態では、遮蔽関数は、異なる周波数に関する異なる減衰値を有するローパス関数であり、レンダリングデータ項目は、異なる周波数のデータ項目であり、ターゲットデータ計算器は、いくつかの周波数について、特定の周波数のデータ項目を特定の周波数の減衰値で重み付けして、修正レンダリングデータを取得するように構成されている。
【0191】
さらなる実施形態では、セクタ識別プロセッサは、遮蔽オブジェクトについて判定された基本空間セクタのセットのうちの別の基本空間セクタが潜在的遮蔽オブジェクトによって遮蔽されていないと判定するように構成されており、ターゲットデータ計算器が、遮蔽セクタからの修正データと、他のセクタのレンダリングデータ項目とを、遮蔽関数を用いた修正なしに、又は異なる修正関数によって修正されて結合して、ターゲットレンダリングデータを取得するように構成されている。
【0192】
さらなる実施形態では、セクタ識別プロセッサは、基本空間セクタのセットのうちの第1の基本空間セクタを第1の特性を有するように判定し、基本空間セクタのセットのうちの第2の基本空間セクタを第2の異なる特性を有するように判定するように構成されており、ターゲットデータ計算器が、第1の基本空間セクタにいかなる修正関数も適用せず、第2の基本空間セクタに修正関数を適用するか、又は第1の基本空間セクタに第1の修正関数を適用し、第2の基本空間セクタに第2の修正関数を適用するように構成されており、第2の修正関数は第1の修正関数とは異なる。
【0193】
さらなる実施形態では、第1の修正関数が周波数選択的であり、第2の修正関数が周波数にわたって一定であるか、又は第1の修正関数が第1の周波数選択的特性を有し、第2の修正関数が第1の周波数選択的特性とは異なる第2の周波数選択的特性を有するか、又は第1の修正関数が第1の減衰特性を有し、第2の修正関数が第2の異なる減衰特性を有し、ターゲットデータ計算器は、第1の基本空間セクタ又は第2の基本空間セクタと聴取者との間の距離に基づいて、又は聴取者と対応する基本空間セクタとの間に置かれているオブジェクトの特性に基づいて、第1の修正関数及び第2の修正関数から修正関数を選択又は調整するように構成されている。
【0194】
さらなる実施形態では、セクタ識別プロセッサは、基本空間セクタに関連付けられた特性に基づいて、基本空間セクタのセットを異なるセクタクラスに分類するように構成され、ターゲットデータ計算器が、2つ以上の基本空間セクタがクラス内にある場合、各クラスの結合結果を取得するために各クラスの基本空間セクタのレンダリングデータ項目を結合し、このクラスの修正された結合結果を取得するために、このクラスの結合結果に少なくとも1つのクラスに関連付けられた特定の修正関数を適用するように構成されており、又は、修正データ項目を取得するために、各クラスの1つ又は複数の基本空間セクタの1つ又は複数のデータ項目に少なくとも1つのクラスと関連付けられた特定の修正関数を適用し、各クラスの基本空間セクタの修正データ項目を結合して、このクラスの修正された結合結果を取得し、結合結果又は利用可能であれば、各クラスの修正された結合結果を結合して、全体の結合結果を取得し、全体の結合結果をターゲットレンダリングデータとして使用するか、又は全体の結合結果からターゲットレンダリングデータを計算する。
【0195】
さらなる実施形態では、基本空間セクタの特性が、第1の遮蔽特性を含む遮蔽基本空間セクタ、第1の遮蔽特性とは異なる第2の遮蔽特性を含む遮蔽基本空間セクタ、聴取者までの第1の距離を有する遮蔽されていない基本空間セクタ、及び聴取者までの第2の距離を有する遮蔽されていない基本空間セクタを含むグループのうちの1つであると判定され、第2の距離が第1の距離とは異なる。
【0196】
さらなる実施形態では、ターゲットデータ計算器は、レンダリングデータ項目として周波数依存分散又は共分散パラメータを修正又は結合して、全体の結合結果として、全体の結合された分散又は全体の結合された共分散パラメータを取得するように構成され、両耳間若しくはチャネル間コヒーレンスキュー、両耳間若しくはチャネル間レベル差キュー、両耳間若しくはチャネル間位相差キュー、第1のサイドゲイン、又は第2のサイドゲインのうちの少なくとも1つをターゲットレンダリングデータとして計算するように構成されている。
【0197】
さらなる実施形態では、予め記憶された頭部関数データから左分散データ項目、右分散データ項目、及び共分散データ項目のうちの少なくとも1つを判定するためのイニシャライザが提供され、イニシャライザは、制限された空間セクタについての複数の頭部関数データから左分散データ項目、右分散データ項目、又は共分散データ項目を計算するように構成され、制限された空間セクタは、少なくとも2つの左頭部関数データ、少なくとも2つの右頭部関数データが制限された空間レンジについて存在するようなサイズにされる。
【0198】
参考文献
Alary,B.,Politis,A.,&Valimaki,V.(2017).Velvet Noise Decorrelator.
【0199】
Baumgarte,F.,&Faller,C.(2003).Binaural Cue Coding-Part I:Psychoacoustic Fundamentals and Design Principles.Speech and Audio Processing,IEEE Transactions on,11(6),S.509-519.
【0200】
Blauert,J.(2001).Spatial hearing(3 Ausg.).Cambridge;Mass:MIT Press.
【0201】
Faller,C.,&Baumgarte,F.(2003).Binaural Cue Coding-Part II:Schemes and Applications.Speech and Audio Processing,IEEE Transactions on,11(6),S.520-531.
【0202】
Kendall,G.S.(1995).The Decorrelation of Audio Signals and Its Impact on Spatial Imagery.Computer Music Journal,19(4),S.p 71-87.
【0203】
Lauridsen,H.(1954).Experiments Concerning Different Kinds of Room-Acoustics Recording.Ingenioren,47.
【0204】
Pihlajamaki,T.,Santala,O.,&Pulkki,V.(2014).Synthesis of Spatially Extended Virtual Source with Time-Frequency Decomposition of Mono Signals.Journal of the Audio Engineering Society,62(7/8),S.467-484.
【0205】
Potard,G.(2003).A study on sound source apparent shape and wideness.
【0206】
Potard,G.,&Burnett,I.(2004).Decorrelation Techniques for the Rendering of Apparent Sound Source Width in 3D Audio Displays.
【0207】
Pulkki,V.(1997).Virtual Sound Source Positioning Using Vector Base Amplitude Panning.Journal of the Audio Engineering Society,45(6),S.456-466.
【0208】
Pulkki,V.(1999).Uniform spreading of amplitude panned virtual sources.
【0209】
Pulkki,V.(2007).Spatial Sound Reproduction with Directional Audio Coding.J.Audio Eng.Soc,55(6),S.503-516.
【0210】
Pulkki,V.,Laitinen,M.-V.,&Erkut,C.(2009).Efficient Spatial Sound Synthesis for Virtual Worlds.
【0211】
Schlecht,S.J.,Alary,B.,Valimaki,V.,&Habets,E.A.(2018).Optimized Velvet-Noise Decorrelator.
【0212】
Schmele,T.,&Sayin,U.(2018).Controlling the Apparent Source Size in Ambisonics Unisng Decorrelation Filters.
【0213】
Schmidt,J.,&Schroder,E.F.(2004).New and Advanced Features for Audio Presentation in the MPEG-4 Standard.
【0214】
Verron,C.,Aramaki,M.,Kronland-Martinet,R.,&Pallone,G.(2010).A 3-D Immersive Synthesizer for Environmental Sounds.Audio,Speech,and Language Processing,IEEE Transactions on,title=A Backward-Compatible Multichannel Audio Codec,18(6),S.1550-1561.
【0215】
Zotter,F.,&Frank,M.(2013).Efficient Phantom Source Widening.Archives of Acoustics,38(1),S.27-37.
【0216】
Zotter,F.,Frank,M.,Kronlachner,M.,&Choi,J.-W.(2014).Efficient Phantom Source Widening and Diffuseness in Ambisonics.

図1
図2a
図2b
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
【手続補正書】
【提出日】2024-06-20
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
空間的に拡張された音源を合成するための装置であって、
オーディオシーンの記述であって、前記オーディオシーンの前記記述が、前記空間的に拡張された音源に関する空間的に拡張された音源データと、潜在的に修正されるオブジェクト(7010)に関する修正データとを備える、オーディオシーンの記述を受信するため、及び、聴取者データを受信するための入力インターフェース(4020)と、
前記空間的に拡張された音源データ及び前記聴取者データ及び前記修正データに基づく、前記聴取者のレンダリング範囲内の空間的に拡張された音源(7000)の制限された修正された空間セクタを識別するためのセクタ識別プロセッサ(4000)であって、前記聴取者の前記レンダリング範囲は、前記制限された修正された空間セクタよりも大きい、セクタ識別プロセッサ(4000)と、
修正された制限された空間セクタに属する1つ又は複数のレンダリングデータ項目からターゲットレンダリングデータを計算するためのターゲットデータ計算器(5000)と、
前記ターゲットレンダリングデータを使用して前記空間的に拡張された音源を表すオーディオ信号を処理するためのオーディオプロセッサ(300、3000)と、
を備えた装置。
【請求項2】
前記修正データが遮蔽データであり、前記潜在的に修正するオブジェクト(7010)が潜在的に遮蔽するオブジェクトである、請求項1に記載の装置。
【請求項3】
前記潜在的に修正するオブジェクト(7010)が、関連する修正関数を有し、
前記1つ又は複数のレンダリングデータ項目が周波数依存性であり、
前記修正関数が周波数選択的であり、
前記ターゲットデータ計算器(5000)が、前記周波数選択的修正関数を前記1つ又は複数の周波数依存レンダリングデータ項目に適用するように構成される、
請求項1に記載の装置。
【請求項4】
前記周波数選択的修正関数が、異なる周波数に対して異なる値を有し、前記周波数依存性の1つ又は複数のレンダリングデータ項目が、異なる周波数に対して異なる値を有し、
前記ターゲットデータ計算器(5000)が、特定の周波数に対する前記周波数選択的修正関数の値を、前記特定の周波数に対する1つ又は複数のレンダリングデータ項目の値に適用するか、乗算するか、又は組み合わせる(5020)ように構成されている、
請求項3に記載の装置。
【請求項5】
いくつかの異なる限定された空間セクタについての前記1つ又は複数のレンダリングデータ項目を記憶するための記憶装置(200、2000)をさらに備え、前記いくつかの異なる限定された空間セクタが、ともに前記聴取者の前記レンダリング範囲を形成する、請求項1に記載の装置。
【請求項6】
前記修正関数が周波数選択的ローパス関数であり、
前記ターゲットデータ計算器(5000)が、より高い周波数における前記1つ又は複数のレンダリングデータ項目の値が、より低い周波数における前記1つ又は複数のレンダリングデータ項目の値よりも強く減衰されるように、前記ローパス関数を適用(5020)するように構成されている、
請求項1に記載の装置。
【請求項7】
前記セクタ識別プロセッサ(4000)が、
前記聴取者データ及び前記空間的に拡張された音源データに基づいて前記空間的に拡張された音源の前記制限された空間セクタを判定すること(820)と、
前記制限された空間セクタの少なくとも一部が前記修正オブジェクト(7010)による修正を受けるかどうかを判定することと、
前記一部が閾値よりも大きい場合、又は前記制限された空間セクタ全体が前記修正オブジェクト(7010)による前記修正を受ける場合、前記制限された空間セクタを修正された空間セクタとして判定することと、
を行うように構成されている、請求項1に記載の装置。
【請求項8】
前記セクタ識別プロセッサ(4000)が、プロジェクションアルゴリズム又はレイトレーシング分析を適用して、前記制限された空間セクタを判定するように構成されるか、前記聴取者データとして、聴取者位置若しくは聴取者向きを使用するか、又は前記空間的に拡張された音源(SESS)データとして、SESS向き、SESS位置、若しくは前記SESSのジオメトリに関する情報を使用するように構成されている、
請求項1に記載の装置。
【請求項9】
前記レンダリング範囲が、前記聴取者の周りの球又は球の一部を含み、前記レンダリング範囲が、前記聴取者位置又は聴取者向きに関連付けられ、修正された制限された空間セクタが、方位角サイズ及び仰角サイズを有する、
請求項1に記載の装置。
【請求項10】
前記修正された制限された空間セクタの前記方位角サイズと前記仰角サイズとが互いに異なり、それにより、方位角サイズが、前記聴取者のより側部にある前記修正された制限された空間セクタの方位角サイズと比較して、前記聴取者の正面にある修正された制限された空間セクタに対してより細かくなるか、又は前記方位角サイズが、前記聴取者の側部に向かって減少するか、又は前記修正された制限された空間セクタの仰角サイズが、前記修正された制限された空間セクタの方位角サイズよりも小さい、請求項9に記載の装置。
【請求項11】
前記1つ又は複数のレンダリングデータ項目として、前記修正された制限された空間セクタについて、左頭部伝達関数データに関する左分散データ項目、右頭部伝達関数(HRTF)データに関する右分散データ項目、並びに、前記左HRTFデータ及び前記右HRTFデータに関する共分散データ項目のうちの少なくとも1つが使用される、請求項1に記載の装置。
【請求項12】
前記セクタ識別プロセッサ(4000)が、前記空間的に拡張された音源に属する基本空間セクタのセットを判定し、前記基本空間セクタのセットの中で、1つ又は複数の基本空間セクタを前記制限された修正された空間セクタとして判定するように構成され、
前記ターゲットデータ計算器(5000)が、結合データを取得するために前記修正データを使用して前記制限された修正された空間セクタに関連付けられた前記1つ又は複数のレンダリングデータ項目を修正し(5020)、前記結合データを、前記制限された修正された空間セクタとは異なり、修正されていないか、前記制限された修正された空間セクタの前記修正と比較して異なる方法で修正された前記基本空間セクタのセットの1つ又は複数の基本空間セクタのレンダリングデータ項目と結合する(5040)ように構成される、
請求項1に記載の装置。
【請求項13】
前記セクタ識別プロセッサ(4000)が、前記基本空間セクタに関連付けられた特性に基づいて、前記基本空間セクタのセットを異なるセクタクラス(4010、4020、4030)に分類するように構成され、
前記ターゲットデータ計算器(5000)が、2つ以上の基本空間セクタがクラス内にある場合、各クラスの結合結果を取得するために各クラスの前記基本空間セクタの前記レンダリングデータ項目を結合し、このクラスの修正された結合結果を取得するために、このクラスの前記結合結果に少なくとも1つのクラスに関連付けられた特定の修正関数を適用するように構成されており、又は、
修正データ項目を取得するために、各クラスの前記1つ又は複数の基本空間セクタの前記1つ又は複数のデータ項目に少なくとも1つのクラスと関連付けられた前記特定の修正関数を適用し、各クラスの前記基本空間セクタの前記修正データ項目を結合して、このクラスの修正された結合結果を取得し、
前記結合結果を結合し(5040)、又は利用可能であれば、各クラスの前記修正された結合結果を結合して、全体の結合結果を取得し、
前記全体の結合結果を前記ターゲットレンダリングデータとして使用する(5060)か、又は前記全体の結合結果から前記ターゲットレンダリングデータを計算する、
請求項12に記載の装置。
【請求項14】
基本空間セクタの前記特性が、第1の遮蔽特性を含む遮蔽基本空間セクタ、前記第1の遮蔽特性とは異なる第2の遮蔽特性を含む遮蔽基本空間セクタ、前記聴取者までの第1の距離を有する遮蔽されていない基本空間セクタ、及び前記聴取者までの第2の距離を有する遮蔽されていない基本空間セクタを含むグループのうちの1つであると判定され、前記第2の距離が前記第1の距離とは異なる、
請求項13に記載の装置。
【請求項15】
前記ターゲットデータ計算器(5000)が、前記レンダリングデータ項目として周波数依存分散又は共分散パラメータを修正又は結合(5040)して、前記全体の結合結果として、全体の結合された分散又は全体の結合された共分散パラメータを取得するように構成され、
両耳間若しくはチャネル間コヒーレンスキュー、両耳間若しくはチャネル間レベル差キュー、両耳間若しくはチャネル間位相差キュー、第1のサイドゲイン、又は第2のサイドゲインのうちの少なくとも1つを前記ターゲットレンダリングデータとして計算し(5060)、
前記オーディオプロセッサ(300、3000)が、前記両耳間若しくはチャネル間コヒーレンスキュー、前記両耳間若しくはチャネル間レベル差キュー、前記両耳間若しくはチャネル間位相差キュー、第1のサイドゲイン、又は第2のサイドゲインのうちの少なくとも1つを前記ターゲットレンダリングデータとして使用して、前記オーディオ信号を処理するように構成されている、
請求項8に記載の装置。
【請求項16】
空間的に拡張された音源を合成する方法であって、
オーディオシーンの記述を受信することであって、前記オーディオシーンの前記記述が、前記空間的に拡張された音源に関する空間的に拡張された音源データと、潜在的に修正するオブジェクト(7010)に関する修正データとを備える、受信することと、聴取者データを受信することと、
前記空間的に拡張された音源データ及び前記聴取者データ及び前記修正データに基づく、前記聴取者のレンダリング範囲内の前記空間的に拡張された音源の制限された修正された空間セクタを識別することであって、前記聴取者の前記レンダリング範囲が、前記制限された修正された空間セクタよりも大きい、識別することと、
前記修正された制限された空間セクタに属する前記1つ又は複数のレンダリングデータ項目からターゲットレンダリングデータを計算することと、
前記ターゲットレンダリングデータを使用して前記空間的に拡張された音源を表すオーディオ信号を処理することと、
を含む方法。
【請求項17】
コンピュータ又はプロセッサ上で実行されると、請求項16に記載の方法を実行するためのコンピュータプログラム。
【請求項18】
オーディオシーン記述を生成するためのオーディオシーン発生器であって、
前記空間的に拡張された音源の空間的に拡張する音源(SESS)データを生成するためのSESSデータ生成器(6010)と、
潜在的に修正するオブジェクト(7010)の修正データを生成するための修正データ生成器(6020)と、
前記SESSデータ及び前記修正データを含む前記オーディオシーン記述を生成するための出力インターフェース(6030)と、
を備えたオーディオシーン発生器。
【請求項19】
前記修正データがローパス関数の記述を含み、前記ローパス関数が、より高い周波数の減衰値を含み、前記より高い周波数の前記減衰値が、より低い周波数の減衰値と比較してより強い減衰値を表し、前記出力インターフェース(6030)が、前記減衰関数の前記記述を前記修正データとして前記オーディオシーン記述に導入するように構成されている、請求項18に記載のオーディオシーン発生器。
【請求項20】
前記修正データが、前記潜在的に修正するオブジェクト(7010)に関するジオメトリデータを含み、前記出力インターフェース(6030)が、前記潜在的に修正するオブジェクト(7010)に関する前記ジオメトリデータを前記修正データとして前記オーディオシーン記述に導入するように構成されている、請求項18に記載のオーディオシーン発生器。
【請求項21】
前記SESSデータ生成器(6010)が、前記SESSデータとして、前記SESSの位置及び前記SESSのジオメトリに関する情報を生成するように構成され、
前記出力インターフェース(6030)が、前記SESSデータとして、前記SESSの前記位置に関する前記情報及び前記SESSの前記ジオメトリに関する前記情報を導入するように構成されている、
請求項18に記載のオーディオシーン発生器。
【請求項22】
前記SESSデータ生成器(6010)が、前記SESSデータとして、前記空間的に拡張された音源のサイズ、位置、若しくは向きに関する情報、又は前記空間的に拡張された音源に関連する1つ若しくは複数のオーディオ信号の波形データを生成するように構成されるか、
前記修正データ計算器(6020)が、前記修正データとして、潜在的に遮蔽するオブジェクトなどの潜在的に修正するオブジェクト(7010)のジオメトリを計算するように構成される、
請求項18に記載のオーディオシーン発生器。
【請求項23】
オーディオシーン記述を生成するための方法であって、
前記空間的に拡張された音源の空間的に拡張する音源(SESS)データを生成することと、
潜在的に修正するオブジェクト(7010)の修正データを生成することと、
前記SESSデータ及び前記修正データを含む前記オーディオシーン記述を生成することと、
を含む方法。
【請求項24】
コンピュータ又はプロセッサ上で実行されると、請求項23に記載の方法を実行するためのコンピュータプログラム。
【請求項25】
空間的に拡張された音源データと、
1つ又は複数の潜在的に修正するオブジェクト(7010)の修正データと、
を含む、オーディオシーン記述。
【請求項26】
前記空間的に拡張された音源データが第1のビットストリーム要素を表し、前記修正データが第2のビットストリーム要素を表す、送信又は格納されたビットストリームとして実施される、請求項25に記載のオーディオシーン記述。
【国際調査報告】