IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ノキア テクノロジーズ オサケユイチアの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-04-26
(54)【発明の名称】残響のレンダリング
(51)【国際特許分類】
   G10K 15/12 20060101AFI20230419BHJP
   H04S 7/00 20060101ALI20230419BHJP
【FI】
G10K15/12
H04S7/00 350
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022555801
(86)(22)【出願日】2021-03-05
(85)【翻訳文提出日】2022-11-14
(86)【国際出願番号】 FI2021050160
(87)【国際公開番号】W WO2021186102
(87)【国際公開日】2021-09-23
(31)【優先権主張番号】2003798.2
(32)【優先日】2020-03-16
(33)【優先権主張国・地域又は機関】GB
(81)【指定国・地域】
(71)【出願人】
【識別番号】515076873
【氏名又は名称】ノキア テクノロジーズ オサケユイチア
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【弁理士】
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100141162
【弁理士】
【氏名又は名称】森 啓
(72)【発明者】
【氏名】アンティ エロネン
(72)【発明者】
【氏名】タパニ ピフラヤクヤ
(72)【発明者】
【氏名】アルコンティス ポリティス
(72)【発明者】
【氏名】オット プオミオ
(72)【発明者】
【氏名】タピオ ロッキ
【テーマコード(参考)】
5D162
5D208
【Fターム(参考)】
5D162CC37
5D162DA22
5D162EG07
5D208AA01
5D208AB09
5D208AD07
(57)【要約】
【課題】残響のレンダリング。
【解決手段】少なくとも1つのインパルス応答を取得し、取得された少なくとも1つのインパルス応答に基づいて少なくとも1つの反射フィルタを取得するように構成された手段を含む装置であって、少なくとも1つの反射フィルタは任意の他の反射によって時間的に重複しない音響表面からの少なくとも1つの初期反射を決定するように構成され、少なくとも1つの初期反射の持続時間は取得された少なくとも1つのインパルス応答の持続時間よりも短い、装置。
【選択図】図1
【特許請求の範囲】
【請求項1】
少なくとも1つのインパルス応答を取得し、該取得された少なくとも1つのインパルス応答に基づいて少なくとも1つの反射フィルタを取得するように構成された手段を備える装置であって、前記少なくとも1つの反射フィルタは、任意の他の反射によって時間的に重複しない音響表面からの少なくとも1つの初期反射を決定するように構成され、少なくとも1つの初期反射の持続時間は、取得された少なくとも1つのインパルス応答の持続時間よりも短い、装置。
【請求項2】
少なくとも1つのインパルス応答を取得するように構成された前記手段は、空間室内インパルス応答を取得するように構成され、前記空間室内インパルス応答は前記少なくとも1つの個別反射を含む、請求項1に記載の装置。
【請求項3】
前記得られた少なくとも1つのインパルスレスポンスに基づいて少なくとも1つの反射フィルタを得るように構成された前記手段は、前記空間室内インパルス応答の分析に基づいて到来方向情報を決定し、前記空間室内インパルス応答に基づいて音圧レベル情報を決定し、前記到来方向情報および前記音圧レベル情報に基づいて、任意の他の反射によって時間的に重複しない少なくとも1つの初期反射を決定するように構成される、請求項2に記載の装置。
【請求項4】
前記到来方向情報および前記音圧レベル情報に基づいて少なくとも1つの初期反射を決定するように構成された前記手段は、他の反射によって時間的に重複しない、前記決定された少なくとも1つの初期反射に関連する期間を決定するようにさらに構成される、請求項3に記載の装置。
【請求項5】
前記取得された少なくとも1つのインパルス応答に基づいて少なくとも1つの反射フィルターを取得するように構成された前記手段は、他の反射によって時間的に重複しない、前記決定された少なくとも1つの初期反射に関連する前記期間によって定義される前記インパルス応答の一部を抽出するように構成される、請求項4に記載の装置。
【請求項6】
前記手段は、前記少なくとも1つの反射フィルターを、前記初期反射に関連するパラメータに関連付けるようにさらに構成される、請求項1ないし5のいずれか1項に記載の装置。
【請求項7】
前記初期反射に関連する前記パラメータは、材料、材料仕様、および、他の反射によって時間的に重複しない前記少なくとも1つの初期反射が生じる材料形状のうちの少なくとも1つを含む、請求項6に記載の装置。
【請求項8】
前記初期反射に関連する前記パラメータは、パラメータを選択または定義するように構成された少なくとも1つのユーザ入力と、仮想音響シーン幾何形状および仮想音響シーン幾何形状における材料の音響記述と、少なくとも1つの個別反射フィルタを材料に関連付けるために、パラメータが材料を含むときのパラメータの少なくとも1つの視覚認識と、のうちの少なくとも1つに基づいて有効化される、請求項7に記載の装置。
【請求項9】
前記得られた少なくとも1つのインパルスレスポンスに基づいて、少なくとも1つの反射フィルタを得るように構成された前記手段は、視認材料のオクターブバンド吸収係数を得るステップと、前記少なくとも1つの反射フィルタのオクターブ帯域大きさスペクトルを、前記視認材料のオクターブ帯域吸収係数と比較するステップと、前記視認材料の前記オクターブ帯域吸収係数に最も近いオクターブ帯域大きさスペクトルを有する前記少なくとも1つの反射フィルタを選択するステップと、を実行するように構成される、請求項8に記載の装置。
【請求項10】
前記手段は、前記少なくとも1つの反射フィルタのデータベースを生成するようにさらに構成される、請求項1ないし9のいずれか1項に記載の装置。
【請求項11】
請求項6に従属する場合、前記手段は、前記少なくとも1つの反射フィルターの前記データベースを、前記初期反射に関連する前記関連パラメータと共に記憶するようにさらに構成される、請求項10に記載の装置。
【請求項12】
前記少なくとも1つのオーディオ信号を得るステップと、少なくとも1つのオーディオ信号に関連する少なくとも1つのメタデータを取得するステップと、室内音響学に関連する少なくとも1つのパラメータを取得し、幾何形状、寸法、および材料のうちの少なくとも1つを備えるステップと、少なくとも1つのパラメータに従って少なくとも1つの反射フィルタを取得するステップであって、前記少なくとも1つの反射フィルタは、前記少なくとも1つのインパルス応答から、他の反射と時間的に重なっていない、少なくとも1つの初期反射を決定するように構成され、少なくとも1つの初期反射の持続時間は、前記少なくとも1つのインパルス応答の持続時間よりも短い、ステップと、前記少なくとも1つのオーディオ信号、前記少なくとも1つのメタデータ、前記少なくとも1つのパラメータ、およびv、少なくとも1つの反射フィルタに基づいて出力オーディオ信号を合成するステップと、を実行するように構成された手段を備える装置。
【請求項13】
前記少なくとも1つのオーディオ信号、前記少なくとも1つのメタデータ、前記少なくとも1つのパラメータおよび前記少なくとも1つの反射フィルタに基づいて出力オーディオ信号を合成するように構成された前記手段は、室内音響に関連する前記少なくとも1つのパラメータに基づいて、反射フィルタのデータベースから前記少なくとも1つの反射フィルタを選択するように構成される、請求項11に記載の装置。
【請求項14】
室内音響に関連する前記少なくとも1つのパラメータは、材料パラメータである、請求項13に記載の装置。
【請求項15】
前記少なくとも1つのパラメータに従って少なくとも1つの反射フィルタを取得するように構成された前記手段は、各材料について前記少なくとも1つの反射フィルタを取得するステップと、各材料について少なくとも1つの反射フィルタのデータベースを取得するステップと、さらに、前記データベースから前記少なくとも1つの反射フィルタを識別するように構成されたインジケータを取得するステップと、のうちの1つを実行するように構成される、請求項11または12に記載の装置。
【請求項16】
少なくとも1つのインパルス応答を取得するステップであって、少なくとも1つのインパルス応答は、レンダリング中に知覚可能な音色で構成されるものである、ステップと、音色修正フィルタを作成するステップと、少なくとも1つのオーディオ信号を取得するステップと、少なくとも1つのオーディオ信号に基づいて前記少なくとも1つの出力オーディオ信号をレンダリングするステップであって、前記少なくとも1つの出力信号は、前記音色修正フィルタの適用に基づく、ステップと、を実行するように構成された手段を備える装置。
【請求項17】
前記少なくとも1つのインパルス応答は室内インパルス応答であり、前記手段は、さらに、少なくとも1つのリファレンス室内インパルス応答を取得するステップであって、前記少なくとも1つのリファレンス室内インパルスは知覚可能なリファレンス音色で構成される、ステップと、音色修正を適用するために、定義された指向性空間知覚を維持しながら、前記少なくとも1つのリファレンス室内インパルス応答の周波数応答に基づいて、前記少なくとも1つの室内インパルス応答の振幅スペクトルを修正するステップと、を実行するように構成される、請求項16に記載の装置。
【請求項18】
定義された方向性空間知覚を維持しながら、前記少なくとも1つのリファレンス室内インパルス応答の周波数応答に基づいて前記少なくとも1つの室内インパルス応答の大きさスペクトルを修正するように構成された前記手段は、前記少なくとも1つの室内インパルス応答に前記音色修正フィルタを適用するように構成され、前記音色修正フィルタは、前記少なくとも1つの室内インパルス応答の振幅スペクトルを、少なくとも1つの初期反射の時間構造を維持しながら、前記リファレンス室内インパルス応答の振幅スペクトルにより近くなるように修正するように構成される、請求項17に記載の装置。
【請求項19】
前記手段はさらに、前記音色修正フィルタを前記少なくとも1つのオーディオ信号に適用し、前記少なくとも1つのオーディオ信号に関連付けられた少なくとも1つのメタデータを取得するように構成され、少なくとも1つのオーディオ信号に基づいて、少なくとも1つの出力オーディオ信号をレンダリングするように構成された手段は、前記音色修正された少なくとも1つのオーディオ信号に基づいて、反射オーディオ信号を合成するように構成される、請求項16に記載の装置。
【請求項20】
前記手段は、前記少なくとも1つのオーディオ信号を、初期部分オーディオ信号と後期部分オーディオ信号とに分離するようにさらに構成され、前記音色修正フィルタを、前記少なくとも1つのオーディオ信号に適用するように構成された前記手段は、前記音色修正フィルタを、前記少なくとも1つのオーディオ信号の前記初期部分と前記少なくとも1つのオーディオ信号の前記後期部分とを別々に適用するように構成され、前記少なくとも1つのオーディオ信号に基づいて少なくとも1つの出力オーディオ信号をレンダリングするように構成された前記手段は、前記少なくとも1つのオーディオ信号の前記音色修正された初期部分と、前記少なくとも1つのオーディオ信号の前記音色修正された後期部分とを別々にレンダリングし、前記少なくとも1つの出力オーディオ信号を生成するために、前記少なくとも1つのオーディオ信号の前記別々にレンダリングされ音色修正された初期部分と、前記少なくとも1つのオーディオ信号の前記音色修正された後期部分とを組み合わせるように構成される、請求項19に記載の装置。
【請求項21】
前記手段は、少なくとも1つのリファレンス室内インパルスレスポンスを取得するように構成され、前記少なくとも1つのリファレンス室内インパルスは、知覚可能なリファレンス音色を用いて、所望の品質を有する物理的音響空間の空間的または非空間的室内インパルス応答を得るステップと、仮想空間の音響シミュレーションを得るステップと、リスナーの物理的な再生空間の音響測定またはシミュレーションを行うステップと、高品質の残響オーディオ効果のモノフォニックインパルス応答を得るステップと、のうちの1つを実行するように構成されている、請求項17ないし19のいずれか1項に記載の装置。
【請求項22】
少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備える装置であって、該少なくとも1つのメモリおよび該コンピュータプログラムコードは、該少なくとも1つのプロセッサを用いて、該装置に、少なくとも、少なくとも1つのインパルス応答を取得するステップと、前記取得された少なくとも1つのインパルス応答に基づいて少なくとも1つの反射フィルタを取得するステップであって、前記少なくとも1つの反射フィルタは、任意の他の反射によって時間的に重複しない音響表面からの少なくとも1つの初期反射を決定するように構成され、前記少なくとも1つの初期反射の持続時間は、取得された少なくとも1つのインパルス応答の持続時間よりも短い、ステップと、を実行させるように構成される、装置。
【請求項23】
少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備える装置であって、該少なくとも1つのメモリおよび該コンピュータプログラムコードは、該少なくとも1つのプロセッサを用いて、該装置に、少なくとも、少なくとも1つのオーディオ信号を得るステップと、前記少なくとも1つのオーディオ信号に関連する少なくとも1つのメタデータを取得するステップと、室内音響に関連する少なくとも1つのパラメータを取得するステップであって、幾何形状、寸法、および材料のうちの少なくとも1つを備える、ステップと、少なくとも1つのパラメータに従って少なくとも1つの反射フィルタを取得するするステップであって、前記少なくとも1つの反射フィルタは、少なくとも1つのインパルス応答から、他の反射と時間的に重なっていない、少なくとも1つの初期反射を決定するように構成され、少なくとも1つの初期反射の持続時間は、前記少なくとも1つのインパルス応答の持続時間よりも短い、ステップと、前記少なくとも1つの音声信号、前記少なくとも1つのメタデータ、前記少なくとも1つのパラメータ、および、前記少なくとも1つの反射フィルタに基づいて出力オーディオ信号を合成するステップと、実行させるように構成される、装置。
【請求項24】
少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つの記憶装置とを備える装置であって、前記少なくとも1つの記憶装置と、前記少なくとも1つのプロセッサを用いて、前記装置に、少なくとも、少なくとも1つのインパルス応答を取得するステップであって、前記少なくとも1つのインパルス応答は、レンダリング中に知覚可能な音色で構成される、ステップと、音色修正フィルタを作成するステップと、少なくとも1つのオーディオ信号を取得するステップと、前記少なくとも1つのオーディオ信号に基づいて少なくとも1つの出力オーディオ信号をレンダリングするステップであって、前記少なくとも1つの出力信号は、音色修正フィルタの適用に基づく、ステップと、を実行させる、装置。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、残響の空間オーディオレンダリングのための装置および方法に関し、とくに、排他的なものではないが、拡張現実および/または仮想現実装置における残響の空間オーディオレンダリングのための装置および方法に関する。
【背景技術】
【0002】
没入型(イマーシブ)オーディオコーデックは、低ビットレート動作から透明度までの範囲の多数の動作点をサポートするように実装されている。その一例は、MPEG-I(MPEG Immersive audio)である。これらのコーデックの開発は、オブジェクト、チャネル、パラメトリック空間オーディオおよび高次アンビソニックス(HOA)などのオーディオ要素と、幾何形状、寸法、音響材料、ならびに指向性および空間的広がりなどのオブジェクト特性を含むオーディオシーン情報とを含むオーディオシーンをパラメータ化し、レンダリングするための装置および方法を開発することを伴う。加えて、芸術的意図、すなわち、ユーザがシーン内を移動するときにレンダリングをどのように制御および/または変更すべきかを伝えることを可能にする様々なメタデータが存在することができる。
【0003】
MPEG-I Immersive Audio standard (MPEG-I Audio Phase 2 6DoF)は、仮想現実(VR)および拡張現実(AR)アプリケーションのためのオーディオレンダリングをサポートする。この規格は、オブジェクト、チャネル、およびHOAコンテンツの3自由度(3DoF)ベースのレンダリングをサポートするMPEG-H3D Audioに基づく。3DoFレンダリングでは、リスナーが頭部を3次元(ヨー(yaw)、ピッチ(pitch)、ロール(roll))で回転させながら、単一の位置でオーディオシーンを聴くことができ、レンダリングはユーザの頭部回転に対して一貫したままである。すなわち、オーディオシーンは、ユーザの頭部とともに回転するのではなく、ユーザが頭部を回転させるときに固定されたままである。
【0004】
6自由度(6DoF)オーディオレンダリングにおける追加の自由度は、リスナーが3つのデカルト寸法x、y、およびzに沿ってオーディオシーン内を移動することを可能にする。現在開発されているMPEG-I標準は、6DoFレンダリングを容易にするために新しいメタデータおよびレンダリング技術を定義しながら、オーディオ信号トランスポートフォーマットとしてMPEG-H 3Dオーディオを使用することによって、これを可能にすることを目的としている。
【0005】
MPEG-Iにおける中心的なトピックは、仮想音響シーンにおける残響のモデリングおよびレンダリングである。先行MPEG-H 3Dでは、リスナが空間内を移動できなかったので、これは必要ではなかった。このような状況では、固定されたバイノーラルルームインパルス応答(BRIR)フィルタがしたがって、単一の聴取位置に対して知覚的にもっともらしいノンパラメトリック残響をレンダリングするのに十分であった。しかしながら、MPEG-Iでは、リスナは仮想空間内を移動する能力を有し、空間の異なる部分における個別反射および残響の変化が高品質の没入型リスニング体験を生成する際の重要な側面である可能性が高い。さらに、コンテンツクリエータは任意の仮想空間の残響パラメータを知覚的にもっともらしい方法でパラメータ化するための方法を必要とすることがあり、その結果、コンテンツクリエータは、自分の芸術的好みに従って仮想オーディオ体験を作成することができる。
【0006】
残響とは、実際の音源が停止した後の空間における音の持続性を指す。異なる空間は、異なる残響特性によって特徴付けられる。環境の空間的印象を伝えるためには、知覚的に正確に残響を再現することが重要である。なぜなら、日常の環境において自然な音声シーンを聴くことは、特定の方向の音についてだけではないからである。背景の雰囲気がなくても、耳に到達する音エネルギーの大部分は直接的な音からではなく、音響環境からの間接的な音(すなわち、反射および残響)であることが典型的である。離散的な反射および残響を含む室内効果に基づいて、リスナーは他の特徴の中でも音源距離および室内特性(小型、大きい、湿った、残響)を聴覚的に知覚し、室内は、オーディオコンテンツの知覚される感覚を追加する。言い換えれば、音響環境は、空間音の本質的かつ知覚的に関連する特徴である。
【発明の概要】
【0007】
第1の態様によれば、少なくとも1つのインパルス応答を取得することと、取得された少なくとも1つのインパルス応答に基づいて少なくとも1つの反射フィルタを取得することとを行うように構成された手段を備える装置が提供され、少なくとも1つの反射フィルタは任意の他の反射によって経時的に重複しない音響面からの少なくとも1つの初期反射を決定するように構成され、少なくとも1つの初期反射の持続時間は取得された少なくとも1つのインパルス応答の持続時間よりも短い。
【0008】
少なくとも1つのインパルス応答を取得するように構成された手段は、空間室内インパルス応答を取得するように構成されてもよく、空間室内インパルス応答は少なくとも1つの個別反射を含む。
【0009】
取得された少なくとも1つのインパルス応答に基づいて少なくとも1つの反射フィルターを取得するように構成された手段は、空間室内インパルス応答の分析に基づいて到来方向情報を決定することと、空間室内インパルス応答に基づいて音圧レベル情報を決定することと、到来方向情報および音圧レベル情報に基づいて、任意の他の反射によって時間的に重複しない少なくとも1つの初期反射を決定することと、を行うように構成され得る。
【0010】
到来方向情報および音圧レベル情報に基づいて、少なくとも1つの初期反射を決定するように構成された手段は、任意の他の反射によって時間的に重複しない、決定された少なくとも1つの初期反射に関連付けられた期間を決定するようにさらに構成され得る。
【0011】
取得された少なくとも1つのインパルス応答に基づいて少なくとも1つの反射フィルターを取得するように構成された手段は、任意の他の反射によって時間的に重複しない、決定された少なくとも1つの初期反射に関連する期間によって定義されるインパルス応答の一部を抽出するように構成され得る。手段は、少なくとも1つの反射フィルターを、初期反射に関連付けられたパラメータに関連付けるようにさらに構成され得る。
【0012】
初期反射に関連するパラメータは、材料、材料仕様、および、任意の他の反射によって時間的に重複しない少なくとも1つの初期反射が生じる材料形状のうちの少なくとも1つを含むことができる。
【0013】
初期反射に関連するパラメータは、パラメータを選択または定義するように構成された少なくとも1つのユーザ入力と、仮想音響シーン幾何形状および仮想音響シーン幾何形状内の材料の音響記述と、少なくとも1つの個別反射フィルタを材料に関連付けるために、パラメータが材料を含むときのパラメータの少なくとも1つの視覚認識とのうちの少なくとも1つに基づいて有効にすることができる。
【0014】
取得された少なくとも1つのインパルスレスポンスに基づいて少なくとも1つの反射フィルタを取得するように構成された手段は、視認された材料のオクターブバンド吸収係数を取得し、少なくとも1つの反射フィルタのオクターブバンド大きさスペクトルを視認された材料のオクターブバンド吸収係数と比較し、視認された材料のオクターブバンド吸収係数に最も近いオクターブバンド大きさスペクトルを有する少なくとも1つの反射フィルタを選択するように構成され得る。
【0015】
この手段は、少なくとも1つの反射フィルタのデータベースを生成するようにさらに構成され得る。
【0016】
この手段は、少なくとも1つの反射フィルターのデータベースを、初期反射に関連する関連パラメータと共に記憶するようにさらに構成されてもよい。
【0017】
第2の態様によれば、少なくとも1つのオーディオ信号を取得することと、前記少なくとも1つのオーディオ信号に関連する少なくとも1つのメタデータを取得することと、室内音響に関連する少なくとも1つのパラメータを取得して、幾何形状、寸法、および材料のうちの少なくとも1つを備えることと、前記少なくとも1つのパラメータに従って少なくとも1つの反射フィルタを取得することであって、前記少なくとも1つの反射フィルタは、任意の他の反射によって時間的に重複しない少なくとも1つのインパルス応答から少なくとも1つの初期反射を決定するように構成され、前記少なくとも1つの初期反射の持続時間は前記少なくとも1つのインパルス応答の持続時間よりも短い、ことと、前記少なくとも1つのオーディオ信号、前記少なくとも1つのメタデータ、前記少なくとも1つのパラメータ、および前記少なくとも1つの反射フィルタに基づいて、出力オーディオ信号を合成することと、を行うように構成された手段を備える装置が提供される。
【0018】
少なくとも1つのオーディオ信号、少なくとも1つのメタデータ、少なくとも1つのパラメータ、および少なくとも1つの反射フィルタに基づいて出力オーディオ信号を合成するように構成された手段は、室内音響に関連する少なくとも1つのパラメータに基づいて、反射フィルタのデータベースから少なくとも1つの反射フィルタを選択するように構成され得る。
【0019】
室内音響に関連する少なくとも1つのパラメータは、材料パラメータであってもよい。
【0020】
少なくとも1つのパラメータに従って少なくとも1つの反射フィルタを取得するように構成された手段は、各材料について少なくとも1つの反射フィルタを取得することと、各材料について少なくとも1つの反射フィルタのデータベースを取得して、さらにすることと、データベースから少なくとも1つの反射フィルタを識別するように構成された指標を取得することとのうちの1つを実行するように構成され得る。
【0021】
第3の態様によれば、少なくとも1つのインパルス応答を取得するように構成された手段を備える装置が提供され、少なくとも1つのインパルス応答は、レンダリング中に知覚可能な音色を用いて構成され、音色修正フィルタを作成し、少なくとも1つのオーディオ信号を取得し、少なくとも1つのオーディオ信号に基づいて少なくとも1つの出力オーディオ信号をレンダリングし、少なくとも1つの出力信号は、音色修正フィルタの適用に基づく。
【0022】
前記少なくとも1つのインパルス応答は室内インパルス応答であり、前記手段は、少なくとも1つのリファレンス室内インパルス応答を取得するように構成されることができる。前記少なくとも1つのリファレンス室内インパルスは知覚可能なリファレンス音色を用いて構成され、前記少なくとも1つの室内インパルス応答の振幅スペクトルを、前記少なくとも1つのリファレンス室内インパルス応答の周波数応答に基づいて修正し、一方、定義された指向性空間知覚を維持して、音色修正を適用する。定義された指向性空間知覚を維持しながら、前記少なくとも1つのリファレンス室内インパルス応答の周波数応答に基づいて、前記少なくとも1つの室内インパルス応答の振幅スペクトルを修正するように構成された手段は、前記少なくとも1つの室内インパルス応答に前記音色修正フィルタを適用するように構成されることができ、前記音色修正フィルタは、前記少なくとも1つの室内インパルス応答の振幅スペクトルを、前記少なくとも1つの初期反射の時間構成を維持しながら、前記リファレンス室内インパルス応答の振幅スペクトルにより近くなるように修正するように構成される。
【0023】
この手段は、少なくとも1つのオーディオ信号に音色修正フィルタを適用することと、少なくとも1つのオーディオ信号に関連付けられた少なくとも1つのメタデータを取得することとを行うようにさらに構成され得、少なくとも1つのオーディオ信号に基づいて少なくとも1つの出力オーディオ信号をレンダリングするように構成された手段は、音色を修正された少なくとも1つのオーディオ信号に基づいて、反射オーディオ信号を合成するように構成される。
【0024】
手段は少なくとも1つのオーディオ信号を初期部分オーディオ信号と後期部分オーディオ信号とに分離するようにさらに構成され得、少なくとも1つのオーディオ信号に音色修正フィルタを適用するように構成された手段は、音色修正フィルタを少なくとも1つのオーディオ信号の初期部分と少なくとも1つのオーディオ信号の後期部分とに別々に適用するように構成され得、少なくとも1つのオーディオ信号に基づいて少なくとも1つの出力オーディオ信号をレンダリングするように構成された手段は、少なくとも1つのオーディオ信号の音色修正初期部分と少なくとも1つのオーディオ信号の音色修正後期部分とを別々にレンダリングし、少なくとも1つのオーディオ信号の別々にレンダリングされた音色修正後期部分と少なくとも1つのオーディオ信号の音色修正後期部分とを組み合わせて、少なくとも1つの出力オーディオ信号を生成するように構成され得る。
【0025】
少なくとも1つのリファレンス室内インパルス応答を取得するように構成された手段であって、少なくとも1つのリファレンス室内インパルスは、知覚可能なリファレンス音色で構成され、所望の品質を有する物理音響空間の空間的または非空間的室内インパルス応答を取得することと、仮想空間の音響シミュレーションを取得することと、リスナーの物理再生空間の音響計測またはシミュレーションを実行することと、高品質残響オーディオエフェクトのモノフォニックインパルス応答を取得することとのうちの1つを実行するように構成され得る。
【0026】
第4の態様によれば、少なくとも1つのインパルス応答を取得するステップと、取得された少なくとも1つのインパルス応答に基づいて少なくとも1つの反射フィルタを取得するステップとを含む方法が提供され、ここで、前記少なくとも1つの反射フィルタは、他の反射と時間的に重ならない音響面からの少なくとも1つの初期反射を決定するように構成され、前記少なくとも1つの初期反射の継続時間は、前記得られた少なくとも1つのインパルス応答の継続時間よりも短い。
【0027】
少なくとも1つのインパルス応答を取得することは空間室内インパルス応答を取得することを含むことができ、空間室内インパルス応答は少なくとも1つの個別反射を含む。
【0028】
取得された少なくとも1つのインパルス応答に基づいて少なくとも1つの反射フィルタを取得することは、空間室内インパルス応答の分析に基づいて到来方向情報を決定することと、空間室内インパルス応答に基づいて音圧レベル情報を決定することと、到来方向情報および音圧レベル情報に基づいて、他の反射によって時間的に重複しない少なくとも1つの初期反射を決定することとを含むことができる。
【0029】
到来方向情報および音圧レベル情報に基づいて少なくとも1つの初期反射を決定することは、任意の他の反射によって時間的に重複しない、決定された少なくとも1つの初期反射に関連する期間を決定することを含むことができる。
【0030】
取得された少なくとも1つのインパルス応答に基づいて少なくとも1つの反射フィルタを取得することは、任意の他の反射によって時間的に重複しない、決定された少なくとも1つの初期反射に関連する期間によって定義されるインパルス応答の一部を抽出することを含むことができる。
【0031】
この方法は、少なくとも1つの反射フィルタを、初期反射に関連するパラメータに関連付けることをさらに含むことができる。
【0032】
初期反射に関連するパラメータは、材料、材料仕様、および任意の他の反射によって時間的に重複しない少なくとも1つの初期反射が生じる材料形状のうちの少なくとも1つを含むことができる。
【0033】
初期反射に関連するパラメータは、パラメータを選択または定義するように構成された少なくとも1つのユーザ入力と、仮想音響シーン幾何形状および仮想音響シーン幾何形状内の材料の音響記述と、少なくとも1つの個別反射フィルタを材料に関連付けるために、パラメータが材料を含むときのパラメータの少なくとも1つの視覚認識とのうちの少なくとも1つに基づいて有効にすることができる。
【0034】
得られた少なくとも1つのインパルス応答に基づいて少なくとも1つの反射フィルタを取得することは、視認された材料のオクターブバンド吸収係数を取得することと、少なくとも1つの反射フィルタのオクターブバンド振幅スペクトルを視認された材料のオクターブバンド吸収係数と比較することと、視認された材料のオクターブバンド吸収係数に最も近いオクターブバンド振幅スペクトルを有する少なくとも1つの反射フィルタを選択することとを含み得る。
【0035】
本方法は、少なくとも1つの反射フィルタのデータベースを生成することをさらに含むことができる。
【0036】
方法は、初期反射に関連する関連パラメータを有する少なくとも1つの反射フィルタのデータベースを記憶することをさらに含むことができる。
【0037】
第5の態様によれば、少なくとも1つのオーディオ信号を取得することと、前記少なくとも1つのオーディオ信号に関連する少なくとも1つのメタデータを取得することと、室内音響に関連する少なくとも1つのパラメータを取得することであって、前記少なくとも1つのパラメータは幾何形状、寸法、および材料のうちの少なくとも1つを備える、ことと、前記少なくとも1つのパラメータに従って少なくとも1つの反射フィルタを取得することであって、前記少なくとも1つの反射フィルタは他の反射によって時間的に重複しない少なくとも1つのインパルス応答から少なくとも1つの初期反射を決定するように構成され、前記少なくとも1つの初期反射の持続時間は前記少なくとも1つのインパルス応答の持続時間よりも短い、ことと、前記少なくとも1つのオーディオ信号、前記少なくとも1つのメタデータ、前記少なくとも1つのパラメータ、および前記少なくとも1つの反射フィルタに基づいて、出力オーディオ信号を合成することと、を含む方法が提供される。
【0038】
少なくとも1つのオーディオ信号、少なくとも1つのメタデータ、少なくとも1つのパラメータ、および少なくとも1つの反射フィルタに基づいて出力オーディオ信号を合成することは、室内音響に関連する少なくとも1つのパラメータに基づいて、反射フィルタのデータベースから少なくとも1つの反射フィルタを選択することを含むことができる。
【0039】
室内音響に関連する少なくとも1つのパラメータは、材料パラメータであってもよい。
【0040】
少なくとも1つのパラメータに従って少なくとも1つの反射フィルタを取得することは、各材料について少なくとも1つの反射フィルタを取得することと、各材料について少なくとも1つの反射フィルタのデータベースを取得し、さらに、データベースから少なくとも1つの反射フィルタを識別するように構成されたインジケータを取得することとのうちの1つを含み得る。
【0041】
第6の態様によれば、少なくとも1つのインパルス応答を取得するステップであって、少なくとも1つのインパルス応答は、レンダリング中に知覚可能な音色で構成される、ステップと、音色修正フィルタを作成するステップと、少なくとも1つのオーディオ信号を取得するステップと、少なくとも1つのオーディオ信号に基づいて、少なくとも1つの出力オーディオ信号をレンダリングするステップであって、少なくとも1つの出力信号は音色修正フィルタの適用に基づく、ステップと、を含む、方法が提供される。
【0042】
少なくとも1つのインパルス応答は室内インパルス応答であってもよく、この方法は、少なくとも1つのリファレンス室内インパルス応答を取得することであって、少なくとも1つのリファレンス室内インパルスは知覚可能なリファレンス音色を用いて構成されてもよい、ステップと、音色修正を適用するように、定義された指向性空間知覚を維持しながら、少なくとも1つのリファレンス室内インパルス応答の周波数応答に基づいて、少なくとも1つの室内インパルス応答の振幅スペクトルを修正するステップとをさらに含むことができる。
【0043】
定義された指向性空間知覚を維持しながら、少なくとも1つのリファレンス室内インパルス応答の周波数応答に基づいて少なくとも1つの室内インパルス応答の振幅スペクトルを修正するステップは、少なくとも1つの室内インパルス応答に音色修正フィルタを適用するステップを備えることができ、音色修正フィルタは、少なくとも1つの初期反射の時間構造を維持しながら、リファレンス室内インパルス応答の振幅スペクトルにより近くなるように、少なくとも1つの室内インパルス応答の振幅スペクトルを修正することができる。
【0044】
本願方法は、音色修正フィルタを少なくとも1つのオーディオ信号に適用するステップと、少なくとも1つのオーディオ信号に関連付けられた少なくとも1つのメタデータを取得するステップとを含むことができ、少なくとも1つのオーディオ信号に基づいて少なくとも1つの出力オーディオ信号をレンダリングするステップは、音色修正された少なくとも1つのオーディオ信号に基づいて反射オーディオ信号を合成するステップを含むことができる。
【0045】
本方法は、少なくとも1つのオーディオ信号を初期部分オーディオ信号と後期部分オーディオ信号とに分離するステップを含むことができ、少なくとも1つのオーディオ信号に音色修正フィルタを適用するステップは、少なくとも1つのオーディオ信号の初期部分と少なくとも1つのオーディオ信号の後期部分とに音色修正フィルタを適用するステップを含み、少なくとも1つのオーディオ信号に基づいて少なくとも1つの出力オーディオ信号をレンダリングするステップは、少なくとも1つのオーディオ信号の音色修正初期部分と少なくとも1つのオーディオ信号の音色修正後期部分とを別々にレンダリングするステップと、少なくとも1つの出力オーディオ信号を生成するために、少なくとも1つのオーディオ信号の別々にレンダリングされた音色修正後期部分と少なくとも1つのオーディオ信号の音色修正後期部分とを組み合わせるステップと、を含むことができる。
【0046】
少なくとも1つのリファレンス室内インパルス応答を取得することであって、少なくとも1つのリファレンス室内インパルスが知覚可能なリファレンス音色で構成されることは、所望の品質を有する物理音響空間の空間的または非空間的室内インパルス応答を取得することと、仮想空間の音響シミュレーションを取得することと、リスナーの物理再生空間の音響測定またはシミュレーションを実行することと、高品質残響オーディオ効果のモノフォニックインパルス応答を取得することとのうちの1つを含むことができる。
【0047】
第7の態様によれば、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備える装置が提供され、該少なくとも1つのメモリおよび該コンピュータプログラムコードは、該少なくとも1つのプロセッサを用いて、該装置に、少なくとも、少なくとも1つのインパルス応答を取得するステップと、前記取得された少なくとも1つのインパルス応答に基づいて少なくとも1つの反射フィルタを取得するステップであって、前記少なくとも1つの反射フィルタは任意の他の反射によって時間的に重複しない音響表面からの少なくとも1つの初期反射を決定するように構成され、前記少なくとも1つの初期反射の持続時間は前記取得された少なくとも1つのインパルス応答の持続時間よりも短い、ステップと、を実行させるように構成される。
【0048】
少なくとも1つのインパルス応答を取得するようにされた装置は、空間室内インパルス応答を取得するようにされてもよく、空間室内インパルス応答は少なくとも1つの個別反射を含むようにすることができる。
【0049】
取得された少なくとも1つのインパルス応答に基づいて少なくとも1つの反射フィルタを取得させる装置は、空間室内インパルス応答の分析に基づいて到来方向情報を決定することと、空間室内インパルス応答に基づいて音圧レベル情報を決定することと、到来方向情報および音圧レベル情報に基づいて、任意の他の反射によって時間的に重複しない少なくとも1つの初期反射を決定することと、を行うようにすることができる。
【0050】
到来方向情報および音圧レベル情報に基づいて少なくとも1つの初期反射を判定させる装置は、さらに、任意の他の反射によって時間的に重複しない、判定された少なくとも1つの初期反射に関連する期間を判定させることができる。
【0051】
取得された少なくとも1つのインパルス応答に基づいて少なくとも1つの反射フィルタを取得させる装置は、他の反射によって時間的に重複しない、決定された少なくとも1つの初期反射に関連する期間によって定義されるインパルス応答の一部を抽出させることができる。
【0052】
装置はさらに、少なくとも1つの反射フィルタを、初期反射に関連するパラメータに関連づけることができる。
【0053】
初期反射に関連するパラメータは、材料、材料仕様、および任意の他の反射によって時間的に重複しない少なくとも1つの初期反射が生じる材料形状のうちの少なくとも1つを含むことができる。
【0054】
初期反射に関連するパラメータは、パラメータを選択または定義するように構成された少なくとも1つのユーザ入力と、仮想音響シーン幾何形状および仮想音響シーン幾何形状内の材料の音響記述と、少なくとも1つの個別反射フィルタを材料に関連付けるために、パラメータが材料を含むときのパラメータの少なくとも1つの視覚認識とのうちの少なくとも1つに基づいて有効にすることができる。
【0055】
取得された少なくとも1つのインパルス応答に基づいて、少なくとも1つの反射フィルタを取得させる装置は、視覚的に認識される材料のオクターブ帯域吸収係数を取得し、少なくとも1つの反射フィルタのオクターブ帯域振幅スペクトル係数を視覚的に認識される材料のオクターブ帯域吸収係数と比較し、視覚的に認識される材料のオクターブ帯域吸収係数に最も近いオクターブ帯域振幅スペクトルを有する少なくとも1つの反射フィルタを選択させることができる。
【0056】
装置はさらに、少なくとも1つの反射フィルタのデータベースを生成させることができる。
【0057】
装置はさらに、初期反射に関連する関連パラメータを有する少なくとも1つの反射フィルタのデータベースを記憶させることができる。
【0058】
第8の態様によれば、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備える装置が提供され、該少なくとも1つのメモリおよび該コンピュータプログラムコードは、該少なくとも1つのプロセッサを用いて、該装置に、少なくとも、少なくとも1つのオーディオ信号を取得するステップと、少なくとも1つのオーディオ信号に関連付けられた少なくとも1つのメタデータを取得するステップと、室内音響に関連付けられ、幾何形状、寸法、および材料のうちの少なくとも1つを含む、少なくとも1つのパラメータを取得するステップと、少なくとも1つのパラメータに従って少なくとも1つの反射フィルタを取得するステップであって、少なくとも1つの反射フィルタが、任意の他の反射によって時間的に重複しない少なくとも1つのインパルス応答から少なくとも1つの初期反射を決定するように構成され、少なくとも1つの初期反射の持続時間が、少なくとも1つのインパルス応答の持続時間よりも短い、ステップと、少なくとも1つのオーディオ信号、少なくとも1つのメタデータ、少なくとも1つのパラメータ、および少なくとも1つの反射フィルタに基づいて出力オーディオ信号を合成するステップと、を実行させるように構成される。
【0059】
少なくとも1つの音声信号、少なくとも1つのメタデータ、少なくとも1つのパラメータ、および少なくとも1つの反射フィルタに基づいて、出力音声信号を合成する装置は、室内音響に関連する少なくとも1つのパラメータに基づいて、反射フィルタのデータベースから少なくとも1つの反射フィルタを選択することができる。
【0060】
室内音響に関連する少なくとも1つのパラメータは、材料パラメータであってもよい。
【0061】
少なくとも1つのパラメータに従って少なくとも1つの反射フィルタを取得させる装置は、各材料について少なくとも1つの反射フィルタを取得するステップと、各材料について少なくとも1つの反射フィルタのデータベースを取得することと、データベースから少なくとも1つの反射フィルタを識別するように構成されたインジケータをさらに取得するステップとのうちの1つを実行させることができる。
【0062】
第9の態様によれば、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備える装置であって、該少なくとも1つのメモリおよび該コンピュータプログラムコードは、該少なくとも1つのプロセッサを用いて、該装置に、少なくとも、少なくとも1つのインパルス応答を取得するステップであって、前記少なくとも1つのインパルス応答はレンダリング中に知覚可能な音色を用いて構成される、ステップと、音色修正フィルタを作成するステップと、少なくとも1つのオーディオ信号を取得するステップと、前記少なくとも1つのオーディオ信号に基づいて少なくとも1つの出力オーディオ信号をレンダリングするステップであって、前記少なくとも1つの出力信号は、前記音色修正フィルタの適用に基づいている、ステップと、を実行させるように構成される、装置が提供される。
【0063】
前記少なくとも1つのインパルス応答は室内インパルス応答であり、前記装置は、少なくとも1つのリファレンス室内インパルス応答を取得するステップであって、前記少なくとも1つのリファレンス室内インパルスは知覚可能なリファレンス音色で構成される、ステップと、前記少なくとも1つの室内インパルス応答の振幅スペクトルを、前記少なくとも1つのリファレンス室内インパルス応答の周波数応答に基づいて修正するステップと、を実行することができる。一方、定義された指向性空間知覚を維持して、音色修正を適用することができる。
【0064】
定義された指向性空間知覚を維持しながら、少なくとも1つのリファレンス室内インパルス応答の周波数応答に基づいて、少なくとも1つの室内インパルス応答の大きさスペクトルを修正することを引き起こす装置は、少なくとも1つの室内インパルス応答に音色修正フィルタを適用することができ、音色修正フィルタは、少なくとも1つの初期反射の時間構造を維持しながら、リファレンス室内インパルス応答の大きさスペクトルにより近くなるように、少なくとも1つの室内インパルス応答の大きさスペクトルを修正するように構成される。
【0065】
この装置はさらに、音色修正フィルタを少なくとも1つの音声信号に適用するステップと、少なくとも1つのオーディオ信号に関連付けられた少なくとも1つのメタデータを取得するステップと、を実行することができ、少なくとも1つのオーディオ信号に基づいて少なくとも1つの出力オーディオ信号をレンダリングする装置は、少なくとも1つのオーディオ信号に基づいて、反射オーディオ信号を合成するステップを実行することができる。
【0066】
本装置はさらに、少なくとも1つのオーディオ信号を初期部分のオーディオ信号と後期部分のオーディオ信号とに分離させることができ、少なくとも1つのオーディオ信号に音色修正フィルタを適用させる装置は、少なくとも1つのオーディオ信号の初期部分と少なくとも1つのオーディオ信号の後期部分とに別々に音色修正フィルタを適用させることができ、少なくとも1つのオーディオ信号に基づいて少なくとも1つの出力オーディオ信号をレンダリングさせる装置は、少なくとも1つのオーディオ信号の音色修正初期部分と少なくとも1つのオーディオ信号の音色修正後期部分とを別々にレンダリングさせることができ、少なくとも1つのオーディオ信号の別々にレンダリングされた音色修正初期部分と少なくとも1つのオーディオ信号の音色修正後期部分とを組み合わせて、少なくとも1つの出力オーディオ信号を生成させることができる。
【0067】
少なくとも1つのリファレンス室内インパルス応答を取得するようにされた装置であって、少なくとも1つのリファレンス室内インパルスが知覚可能なリファレンス音色で構成される装置は、所望の品質を有する物理的音響空間の空間的または非空間的室内インパルス応答を取得するステップと、仮想空間の音響シミュレーションを取得するステップと、リスナーの物理的再生空間の音響測定またはシミュレーションを実行するステップと、高品質残響オーディオ効果のモノフォニックインパルス応答を取得するステップと、のうちの1つを実行することができる。
【0068】
第10の態様によれば、少なくとも1つのインパルス応答を取得するように構成された取得回路と、取得された少なくとも1つのインパルス応答に基づいて少なくとも1つの反射フィルタを取得するように構成された取得回路とを備える装置が提供され、少なくとも1つの反射フィルタは任意の他の反射によって時間的に重複しない音響表面からの少なくとも1つの初期反射を決定するように構成され、少なくとも1つの初期反射の持続時間は取得された少なくとも1つのインパルス応答の持続時間よりも短い。
【0069】
第11の態様によれば、少なくとも1つのオーディオ信号を取得するように構成された取得回路と、前記少なくとも1つのオーディオ信号に関連する少なくとも1つのメタデータを取得するように構成された取得回路と、幾何形状、寸法、および材料のうちの少なくとも1つを備える室内音響に関連する少なくとも1つのパラメータを取得し、前記少なくとも1つのパラメータに従って少なくとも1つの反射フィルタを取得するように構成された取得回路であって、前記少なくとも1つの反射フィルタは、任意の他の反射によって時間的に重複しない少なくとも1つのインパルス応答から少なくとも1つの初期反射を決定するように構成され、前記少なくとも1つの初期反射の持続時間は、前記少なくとも1つのインパルス応答の持続時間よりも短い、取得回路と、前記少なくとも1つのオーディオ信号、前記少なくとも1つのメタデータ、前記少なくとも1つのパラメータ、および前記少なくとも1つの反射フィルタに基づいて出力オーディオ信号を合成するように構成された合成回路とを備える装置が提供される。
【0070】
第12の態様によれば、少なくとも1つのインパルス応答を取得するように構成された取得回路であって、少なくとも1つのインパルス応答がレンダリング中に知覚可能な音色を用いて構成される、取得回路と、音色修正フィルタを作成し、少なくとも1つのオーディオ信号を取得するように構成されたフィルタ作成回路と、少なくとも1つのオーディオ信号に基づいて少なくとも1つの出力オーディオ信号をレンダリングするように構成されたレンダリング回路であって、少なくとも1つの出力信号が音色修正フィルタの適用に基づく、レンダリング回路と、を備える装置が提供される。
【0071】
第13の態様によれば、装置に、少なくとも1つのインパルス応答を取得することと、取得された少なくとも1つのインパルス応答に基づいて少なくとも1つの反射フィルタを取得することとを少なくとも実行させるための命令[またはプログラム命令を備えるコンピュータ可読媒体]を備えるコンピュータプログラムが提供され、少なくとも1つの反射フィルタは任意の他の反射によって時間的に重複しない音響表面からの少なくとも1つの初期反射を決定するように構成され、少なくとも1つの初期反射の持続時間は取得された少なくとも1つのインパルス応答の持続時間よりも短い。
【0072】
第14の態様によれば、装置に、少なくとも1つのオーディオ信号を取得することと、少なくとも1つのオーディオ信号に関連付けられた少なくとも1つのメタデータを取得することと、室内音響に関連付けられた少なくとも1つのパラメータを取得することと、幾何形状、寸法、および材料のうちの少なくとも1つを備える、少なくとも1つのパラメータを取得することであって、少なくとも1つのパラメータに従って少なくとも1つの反射フィルタを取得することであって、少なくとも1つの反射フィルタは任意の他の反射によって時間的にオーバーラップされない、少なくとも1つのインパルス応答から少なくとも1つの初期反射を決定するように構成される、取得することと、少なくとも1つのオーディオ信号、少なくとも1つのメタデータ、少なくとも1つのパラメータ、および、少なくとも1つの反射フィルタに基づいて出力オーディオ信号を合成することと、を実行させるための命令[またはプログラム命令を備えるコンピュータ可読媒体]を備えるコンピュータプログラムが提供される。
【0073】
第15の態様によれば、装置に、少なくとも1つのインパルス応答を取得することであって、少なくとも1つのインパルス応答がレンダリング中に知覚可能な音色で構成される、取得することと、音色修正フィルタを作成することと、少なくとも1つのオーディオ信号を取得することと、少なくとも1つのオーディオ信号に基づいて少なくとも1つの出力オーディオ信号をレンダリングすることであって、少なくとも1つの出力信号が音色修正フィルタの適用に基づく、レンダリングすることと、を少なくとも実行させるための命令[またはプログラム命令を備えるコンピュータ可読媒体]を備えるコンピュータプログラムが提供される。
【0074】
第16の態様によれば、装置に、少なくとも1つのインパルス応答を取得することと、取得された少なくとも1つのインパルス応答に基づいて少なくとも1つの反射フィルタを取得することと、を少なくとも実行させるためのプログラム命令を備える、非一時的コンピュータ可読媒体が提供される。ここにおいて、少なくとも1つの反射フィルタは、任意の他の反射によって時間的に重複されない音響表面からの少なくとも1つの初期反射を決定するように構成され、少なくとも1つの初期反射の持続時間は取得された少なくとも1つのインパルス応答の持続時間よりも短い。
【0075】
第17の態様によれば、装置に、少なくとも1つのオーディオ信号を取得することと、少なくとも1つのオーディオ信号に関連する少なくとも1つのメタデータを取得することと、室内音響に関連する少なくとも1つのパラメータを取得することであって、幾何形状、寸法、および材料のうちの少なくとも1つを備える、取得することと、少なくとも1つのパラメータに従って少なくとも1つの反射フィルタを取得することであって、少なくとも1つの反射フィルタは、任意の他の反射によって時間的に重複しない少なくとも1つのインパルス応答から少なくとも1つの初期反射を決定するように構成され、前記少なくとも1つの初期反射の継続時間は、前記少なくとも1つのインパルス応答の継続時間よりも短い、取得することと、少なくとも1つのオーディオ信号、少なくとも1つのメタデータ、少なくとも1つのパラメータ、および少なくとも1つの反射フィルタに基づいて出力オーディオ信号を合成することと、を実行させるためのプログラム命令を備える、非一時的コンピュータ可読媒体が提供される。
【0076】
第18の態様によれば、装置に、少なくとも1つのインパルス応答を取得するステップであって、少なくとも1つのインパルス応答がレンダリング中に知覚可能な音色を用いて構成される、ステップと、音色修正フィルタを作成するステップと、少なくとも1つのオーディオ信号を取得するステップと、少なくとも1つのオーディオ信号に基づいて少なくとも1つの出力オーディオ信号をレンダリングするステップであって、少なくとも1つの出力信号が音色修正フィルタの適用に基づく、ステップとを実行させるためのプログラム命令を備える、非一時的コンピュータ可読媒体が提供される。
【0077】
第19の態様によれば、少なくとも1つのインパルス応答を取得するための手段と、取得された少なくとも1つのインパルス応答に基づいて少なくとも1つの反射フィルタを取得するための手段とを備える装置が提供され、少なくとも1つの反射フィルタは、任意の他の反射によって時間的に重複しない音響面からの少なくとも1つの初期反射を決定するように構成され、少なくとも1つの初期反射の持続時間は取得された少なくとも1つのインパルス応答の持続時間よりも短い。
【0078】
第20の態様によれば、少なくとも1つのオーディオ信号を取得するための手段と、前記少なくとも1つのオーディオ信号に関連する少なくとも1つのメタデータを取得するための手段と、室内音響に関連する少なくとも1つのパラメータを取得するための手段であって、幾何形状、寸法、および材料のうちの少なくとも1つを含む、手段と、前記少なくとも1つのパラメータに従って少なくとも1つの反射フィルタを取得するための手段であって、該少なくとも1つの反射フィルタは、任意の他の反射によって時間的に重複しない少なくとも1つのインパルス応答から少なくとも1つの初期反射を決定するように構成され、前記少なくとも1つの初期反射の持続時間が、前記少なくとも1つのインパルス応答の持続時間よりも短い、手段と、前記少なくとも1つのオーディオ信号、前記少なくとも1つのメタデータ、前記少なくとも1つのパラメータ、および前記少なくとも1つの反射フィルタに基づいて、出力オーディオ信号を合成するための手段とを備える機器が提供される。
【0079】
第21の態様によれば、少なくとも1つのインパルス応答を取得するための手段であって、レンダリング中に知覚可能な音色で構成される、手段と、音色修正フィルタを作成するための手段と、少なくとも1つのオーディオ信号を取得するための手段と、少なくとも1つのオーディオ信号に基づいて少なくとも1つの出力オーディオ信号をレンダリングするための手段であって、該少なくとも1つの出力信号は、音色修正フィルタの適用に基づく、手段と、とを備える装置が提供される。
【0080】
第22の態様によれば、装置に、少なくとも1つのインパルス応答を取得することと、取得された少なくとも1つのインパルス応答に基づいて少なくとも1つの反射フィルタを取得することと、を少なくとも実行させるためのプログラム命令を備えるコンピュータ可読媒体が提供される。ここにおいて、少なくとも1つの反射フィルタは、任意の他の反射によって時間的に重複しない音響表面からの少なくとも1つの初期反射を決定するように構成され、少なくとも1つの初期反射の持続時間は取得された少なくとも1つのインパルス応答の持続時間よりも短い。
【0081】
第23の態様によれば、装置に、少なくとも1つのオーディオ信号を取得するステップと、少なくとも1つのオーディオ信号に関連する少なくとも1つのメタデータを取得するステップと、室内音響に関連する少なくとも1つのパラメータを取得するステップであって、幾何形状、寸法、および材料のうちの少なくとも1つを備える、ステップと、少なくとも1つのパラメータに従って少なくとも1つの反射フィルタを取得するステップであって、少なくとも1つの反射フィルタは、任意の他の反射によって時間的に重複しない少なくとも1つのインパルス応答から少なくとも1つの初期反射を決定するように構成され、前記少なくとも1つの初期反射の継続時間は、前記少なくとも1つのインパルス応答の継続時間よりも短い、ステップと、少なくとも1つのオーディオ信号、少なくとも1つのメタデータ、少なくとも1つのパラメータ、および少なくとも1つの反射フィルタに基づいて出力オーディオ信号を合成するステップと、を実行させるためのプログラム命令を備えるコンピュータ可読媒体が提供される。
【0082】
第24の態様によれば、装置に、少なくとも1つのインパルス応答を取得するステップであって、少なくとも1つのインパルス応答がレンダリング中に知覚可能な音色で構成される、ステップと、音色修正フィルタを作成するステップと、少なくとも1つのオーディオ信号を取得するステップと、少なくとも1つのオーディオ信号に基づいて少なくとも1つの出力オーディオ信号をレンダリングするステップであって、少なくとも1つの出力信号が音色修正フィルタの適用に基づく、ステップと、を少なくとも実行させるためのプログラム命令を備えるコンピュータ可読媒体が提供される。
【0083】
上記の方法の作用を実行するための手段を含む装置。
【0084】
上述のような方法の動作を実行するように構成された装置。
【0085】
コンピュータに上述の方法を実行させるためのプログラム命令を含むコンピュータプログラム。
【0086】
媒体上に記憶されたコンピュータプログラム製品は装置に、本明細書で記載する方法を実行させ得る。
【0087】
電子デバイスは、本明細書で記載されるような装置を備えることができる。
【0088】
チップセットは、本明細書に記載の装置を備えてもよい。
【0089】
本出願の実施形態は、最新技術に関連する課題に対処することを目的とする。
【図面の簡単な説明】
【0090】
本出願をより良く理解するために、ここで、例として添付の図面をリファレンスする。
図1図1は、いくつかの実施形態が実装され得る例示的なMPEG-Iリファレンスアーキテクチャを概略的に示す。
図2図2は、いくつかの実施形態が実装され得る例示的なMPEG-Iオーディオシステムを概略的に示す。
図3図3に室内インパルス応答モデルを示す。
図4図4は、いくつかの実施形態による室内残響システムの例を概略的に示す。
図5図5は、いくつかの実施形態による、図4に示されるような例示的な室内残響システムの動作のフロー図を示す。
図6図6は、いくつかの実施形態による例示的な個別反射データベース生成器を概略的に示す。
図7図7は、いくつかの実施形態による、例示的個別反射データベース生成器の動作のフロー図を示す。
図8図8は、球面上の集中展開例における到来重量の方向の例を示す。
図9図9に、サウンドレベルウェイト計算と個別反射検出の例を示す。
図10図10は、いくつかの実施形態による、例示的なクリーン個別反射検出プロセスの動作のフロー図を示す。
図11図11は、到来方向および音レベル重みベクトルの例示的な組み合わせを示す。
図12図12は、いくつかの実施形態による、個別反射抽出およびデータベース記憶の動作のフロー図を示す。
図13図13は、個別反射検出のサウンドレベルピークマッチングの例を示している。
図14図14 に、抽出および検出ウィンドウの機能例を示す。
図15図15に、インパルス応答の個別反射フィルタカットラインの例を示す。
図16a図16aは、例示的な6-DoFレンダラ装置を示す。
図16b図16bは、いくつかの実施形態による、音色修正を伴う例示的な6-DoFレンダラ装置を示す。
図16c図16cは、いくつかの実施形態による、音色修正の動作のフロー図を示す。
図16d図16dは、いくつかの実施形態による、音色修正を伴うさらなる例の6-DoFレンダラ装置を示す。
図17a図17aは、ソースおよびターゲットのインパルス応答の例を示している。
図17b図17bは、例示的な音源および対象インパルス応答に対する、時間における直接音のマッチングの例を示す。
図17c図17cは、インパルス応答例の長さのマッチング例を示す。
図17d図17dは、オーディオレベルのマッチングの例を示している。
図17e図17eは、反応を個々の部分と後期の部分との分離例を示している。
図18a図18aは、いくつかの実施形態による例示的なレンダラ装置を示す。
図18b図18bは、いくつかの実施形態による、例示的レンダラ装置の動作のフロー図を示す。
図18c図18cは、いくつかの実施形態による例示的なフィードバック遅延ネットワーク後期残響発生器を示す。
図19図19はいくつかの実施形態によるシステムの実装を示す。
図20図20は、前の図に示された装置を実装するのに適した例示的なデバイスを示す。
【発明を実施するための形態】
【0091】
以下では、オブジェクト、チャネル、パラメトリック空間オーディオおよび高次アンビソニックス(HOA)などのオーディオ要素と、幾何形状、寸法、音響材料、ならびに、指向性および空間範囲などのオブジェクト特性を含むオーディオシーン情報を備えるオーディオシーンをパラメータ化し、レンダリングするための適切な装置および可能な機構をさらに詳細に記載する。加えて、芸術的意図、すなわち、ユーザがシーン内を移動するときにレンダリングをどのように制御および/または変更すべきかを伝えることを可能にする様々なメタデータが存在することができる。
【0092】
実施形態をさらに詳細に記載する前に、例示的なMPEG-I符号化、伝達、およびレンダリングアーキテクチャについて記載する。例えば、図1に関して、MPEG-Iシステムのためのリファレンスアーキテクチャが示されている。
【0093】
システムは、システム層101を示す。システム層101は、ビットストリームおよび他のデータ入力を備える。例えば、図1に示されるように、システム層101は、低遅延デコーダ111に渡され得る適切なオーディオ信号ビットストリーム104を取得または生成するように構成されたソーシャルバーチャルリアリティ(VR)オーディオビットストリーム(通信)103を備える。さらに、システム層101は、オーディオメタデータおよび制御データ122の一部としてレンダラ121に出力することができる適切なVRメタデータを取得または生成するように構成されたソーシャルVRメタデータ105を備える。システム層101はさらに、適切なMPEG-Iオーディオ信号108を取得または生成するように構成され、MPEG-H 3DAデコーダ115に出力することができるMPEG-Iオーディオビットストリーム(MHAS)107を備えることができる。さらに、MPEG-Iオーディオビットストリーム(MHAS)107は、レンダラ121に出力されるオーディオメタデータおよび制御データ122の一部を形成することができる適切なオーディオメタデータ106を取得または生成するように構成することができる。システム層101は、オーディオメタデータおよび制御データ122の一部としてレンダラ121に出力することができるシーングラフ情報などの適切な6DoFメタデータを取得または生成するように構成された共通6自由度(6DoF)メタデータ109を備える。
【0094】
システムは、復号およびレンダリング動作を制御するように構成された制御機能117を示す。
【0095】
システムはソーシャルバーチャルリアリティ(VR)オーディオビットストリーム104を受信し、レンダラ121に渡されるオーディオデータ120の一部として出力され得る適切な低遅延オーディオ信号112を生成するように構成され得る、低遅延デコーダ111を示す。低遅延デコーダ111は例えば、3GPP(登録商標)コーデックとすることができる。
【0096】
システムは、MPEG-Iオーディオビットストリーム出力108を受信し、レンダラ121に渡されるオーディオデータ120の一部として出力され得る、オブジェクト、チャネル、またはより高次のアンビソニックス(HOA)118などのオーディオ要素を生成するように構成され得るMPEG-H3DAデコーダ115をさらに備えることができる。MPEG-H3DAデコーダ115はさらに、復号されたオーディオ信号をオーディオサンプルバッファ咳13に出力するように構成され得る。
【0097】
システムは、さらに、MPEG-H3DAデコーダ115の出力を受信し、それを記憶するように構成されたオーディオサンプルバッファ113を備えることができる。記憶されたオーディオ124(オブジェクト、チャネル、またはより高次のアンビソニックスなどのオーディオ要素など)は、レンダラ121に渡されるオーディオデータ120の一部として出力され得る。オーディオ・サンプル・バッファ113は、オーディオ・エフェクト・サンプルを格納するように構成される。例えば、オーディオサンプルバッファ113は、いくつかの実施形態では必要なときにトリガされ得るイヤコンなどのオーディオサンプルを記憶するように構成され得る。イヤコン(earcon)は、エラーを示す単純なビープ音から、起動、シャットダウン、および他のイベントを示す最新のオペレーティングシステムのカスタマイズ可能なサウンドスキームまでにわたるコンピュータオペレーティングシステムおよびアプリケーションの共通の特徴である。オーディオ・サンプル・バッファ113に、またはそれを介して、すべてのオーディオコンテンツが渡されるわけではないことが理解される。
【0098】
システムは、ユーザデータ(頭部伝達関数、言語)、消費環境情報、およびユーザ位置、方向または相互作用情報などのユーザ入力131を備え、ユーザデータ134としてこれらの入力131をレンダラ121に渡すことができる。
【0099】
さらに、システムはレンダラ121からデータを受信し、処理されたデータをレンダラにさらに出力するように構成された拡張ツール127をさらに備えることができる。たとえば、拡張ツール127は、レンダラ121によってレンダリングすることができないオーディオデータのための外部レンダラとして動作するように構成され得る。
【0100】
システムはさらに、レンダラ(MPEG-I 6DoFオーディオレンダラ)121を備えてもよい。レンダラ121は、オーディオデータ120、オーディオメタデータおよび制御データ122、ユーザデータ134、ならびに拡張ツールデータを受信するように構成される。レンダラは、適切なオーディオ出力信号144を生成するように構成される。例えば、オーディオ出力信号144は、スピーカ(LS)再生のためのヘッドフォン(バイノーラル)オーディオ信号又はマルチチャネルオーディオ信号を含むことができる。
【0101】
レンダラ121は、いくつかの実施形態ではレンダリングプロセスを制御するように構成された聴覚化制御部125を備える。レンダラ121は、オーディオ出力124を生成するように構成された聴覚化プロセッサ123をさらに備える。
【0102】
図2に関して、MPEG-Iエンコーダシステムのさらなる例が示される。図示のMPEG-Iエンコーダシステムは、オーディオシーン201を特徴とする。オーディオシーン201は合成されたシーン(言い換えれば、少なくとも部分的に人工的に生成された)または現実世界のシーン(言い換えれば、キャプチャまたは記録されたオーディオシーン)であり得る。オーディオシーン201は、オーディオシーンに関する情報を含むオーディオシーン情報203を含む。例えば、オーディオシーン情報203は、シーンの幾何形状(壁の位置など)、シーンの材料プロパティ(シーン内の材料の音響パラメータなど)、およびオーディオシーンに関連する他のパラメータを定義することができる。オーディオシーン201は、オーディオ信号情報205をさらに備えることができる。オーディオ信号情報205はオブジェクト、チャネル、HOA、およびソース位置、向き、指向性、サイズなどのメタデータパラメータとしてオーディオ要素を備えることができる。
【0103】
システムは、オーディオシーン情報、およびオーディオ信号情報を受信し、オーディオシーンパラメータをビットストリームに符号化するように構成された、エンコーダ211、たとえばMPEG-H 3DAエンコーダ213をさらに備える。
【0104】
以下に記載するいくつかの実施形態では、エンコーダが初期反射および後期残響分析およびパラメータ化を実行するように構成することができる。さらに、エンコーダは6DoFレンダリングのためのメタデータを生成するために、音響シーンおよびオーディオ要素含有量の分析を実行するように構成され得る。さらに、エンコーダ211は、メタデータ圧縮を実行するように構成される。次いで、オーディオビットストリーム214を出力することができる。
【0105】
上述のように、レンダリングシステムにおける残響のモデリングおよびシミュレーションは、現在研究されているトピックである。残響のシミュレーションは多くの場合、再生の知覚品質を向上させるために、オブジェクトオーディオ、より一般的には、任意の音響的にドライのソースのレンダリングにおいて必要とされる。より正確なシミュレーションは仮想音源(すなわち、オーディオオブジェクト)およびリスナが没入型仮想空間内を移動することができる対話型アプリケーションにおいて望まれる。仮想シーンの真の知覚的妥当性のために、知覚的に妥当な残響シミュレーションが必要である。
【0106】
残響のシミュレーションは、様々な方法で行うことができる。適切で一般的なアプローチは、仮想シーンの音響記述に基づいて、直接経路、初期反射、および後期残響をいくらか別々にシミュレートすることである。これは、特に、現在想定されているMPEG-I標準に当てはまる。
【0107】
ルーム内のオーディオソースの直接パス、初期反射、および後期残響のモデリングの例を図3に示す。図3は、検出されたイベントの大きさと時間のグラフを示している。したがって、グラフは、オーディオソースから直接受信されたオーディオ信号である直接サウンドイベント301を示す。したがって、グラフは、音源からリスナーまたはマイクロフォンへの直接経路上を伝播する音波である第1(直接音)事象またはインパルス301を示す。
【0108】
第1の事象またはインパルス301に続いて、一連の(指向性初期反射)事象またはインパルス303がある。指向性初期反射事象またはインパルスは、音源からの音波が室内表面から反射されるときに生成される別個に検出可能な事象である。
【0109】
次いで、さらなる(拡散反射)事象またはインパルス305が存在することができる。拡散反射事象またはインパルスは複数の表面から反射されたオーディオ源からの音波の効果であり、反射事象は、もはや別々に検出可能ではない。
【0110】
言い換えれば、「直接」音を検出した後、言い換えれば、音源からの音を、反射なしでリスナー/マイクロホンへと検出した後、リスナーは、室内表面からの指向性初期反射を聞く。ある時点の後、個別反射はもはや知覚され得ないが、音源エネルギーが複数の方向に複数の表面から反射されているので、リスナーは拡散、後期残響を聞く。いくつかの初期反射は、複数の表面から反射された反射を含むか、または複数の同時反射の重ね合わせでさえあり得る。初期反射と後期残響との間の差異は、検出された反射事象間を分離する可能性である。
【0111】
(例えば、ラウドスピーカを介してテスト信号を再生することによって)実際の室内で記録が実行され、次いで、同じ信号が室内のシミュレーションを用いてオブジェクト信号としてレンダリングされるとき、結果は計算効率のよい(すなわち、リアルタイム対話型レンダリングに適した)方法と同じ品質ではない。
【0112】
効率的なシミュレーションと実際のキャプチャとの間のこの相違の原因は、反射の密度およびスペクトル品質に寄与する室内(材料および空気吸収、回折、壁要素からの散乱)で起こる実質的な量の異なる効果を効率的にキャプチャできないことである。例えば、典型的には、個別反射が例えば、低次無限インパルス応答(IIR)フィルタとして実装される合成材料フィルタでフィルタリングされる。これらのフィルタはある程度、異なる材料の周波数依存材料吸収特性を模倣するが、より複雑な音響効果はこのアプローチによって無視される。
【0113】
効率的なシミュレーションと実際のキャプチャとの間の相違は、初期の反射がリスナーの耳において、直接音と合計されるときに明確な櫛形フィルタリングを引き起こすので、後期残響よりも初期の反射を伴う効果の方が大きい。これはリスナーが空間を正しく知覚することを可能にするが、スペクトルの色付けも適用する。シミュレーションとキャプチャとの間のスペクトル色の差はしばしば、品質の損失として知覚される。後期残響では、直接音と比較して十分に大きい遅延と組み合わされた反射の純粋な密度が櫛形フィルタ効果を知覚的にあまり意味がないようにさせるので、この着色は通常、問題ではない。
【0114】
したがって、初期反射のスペクトル色は、同様の現実の室内によって引き起こされるスペクトル色と密接に一致すべきである。
【0115】
さらに、6-DoFレンダリングは、残響レンダリングがリアルタイムで対話型である必要があるという追加の特定の要件を追加する。畳み込みを使用することは、各位置に対するインパルス応答のデータベースと、それらの間の補間方法とが必要であるため、実際には不可能になる。これは非常に高い記憶要求、またはインパルス応答が各ソース-リスナ位置で動的に生成される場合、非常に高い計算要求につながる。
【0116】
残響のシミュレーションの実施は、音源およびリスナーの位置の完全な制御を提供する。しかし、シミュレーションは、結果の精度(および品質)とシミュレーションの計算コストとの間にトレードオフをもたらす。実空間の正確な一致が望まれる場合、シミュレーションは非常に高品質である必要がある。これは、非常に高い計算コストをもたらし、計算をリアルタイムで達成することは困難である。計算コストを低減するためにシミュレーションを単純化することによって、知覚的に良好な品質を達成することができるが、所望の現実的なサウンディング残響をほとんど達成することができない。
【0117】
したがって、以下の実施形態で記載する概念は、没入型オーディオコーディングに関し、具体的には、空間オーディオレンダリングシステムにおける残響の表現、符号化、送信、および合成に関する。いくつかの実施形態では、MPEG-Iおよび3GPP IVASなどの没入型オーディオコーデックに適用することができる。
【0118】
本明細書で論じられるいくつかの実施形態では、空間オーディオ信号を適切な出力装置に提供するためにレンダリング動作で使用され得る、測定された空間インパルス応答から個別反射フィルタを抽出するための装置および方法が記載される。測定された個別反射フィルタは、室内内の音響表面からのクリーン個別反射を特徴付け、完全な室内インパルス応答よりも実質的に短く、他の反射によって時間的に重複されない。室内は内部または完全に密閉された空間またはボリュームであってもよいが、いくつかの実施形態は1つまたは複数の反射面を備える外部空間に実装されてもよいことが理解される。同様に、室内は、1つまたは複数の反射面と、反射面が「無限」距離に位置する音源またはマイクロフォンから十分遠くに位置する1つまたは複数の面とを有する内部空間であってもよい。
【0119】
これらの実施形態は、少なくとも1つのクリーン個別反射を含む空間室内インパルス応答(RIR)を受信すること、空間RIRにおける時間サンプルの到来方向(DOA)を決定するための空間分解を実行すること、判定されたDOAおよび空間RIRの音圧レベルを用いて、他の個別反射によって時間的に重複しない少なくとも1つのクリーン個別反射の位置を判定すること、クリーン個別反射を含む空間RIRの部分を抽出し、フィルタ係数に変換すること、抽出されたフィルタ係数を、クリーン個別反射が生じた材料と関連付けること、および、抽出されたフィルタ係数を、材料と関連付けてデータベースに記憶(または送信)すること、のように要約することができる、
【0120】
いくつかの実施形態では、個別反射フィルタの収集されたデータベースを使用して没入型オーディオレンダラのためのビットストリームを作成する装置および方法がある。これらの実施形態は、仮想音響シーン幾何形状内の材料の入力仮想音響シーン幾何形状および音響記述、または材料の少なくとも1つの視覚認識の取得、(仮想シーン幾何形状から、または再生環境から視覚的に認識される)材料の各々に対する個別反射フィルタを取得すること、のように要約され得る。いくつかの実施形態では、これは、測定された個別反射フィルタのオクターブ帯域振幅スペクトルを材料のオクターブ帯域吸収係数にマッチングさせ、最も近いマッチングを与えるフィルタを選択することによって実行される。視認材料の場合、これは、視認材料のオクターブバンド吸収係数を得ることによって先行される。さらに、いくつかの実施形態において、これらのフィルタは、最小位相有限インパルス応答(FIR)フィルタである。何らかの材料が測定された材料フィルタを欠いている場合、材料のオクターブバンド吸収係数を近似する合成材料フィルタを取得し、材料IDおよび関連する測定された個別反射フィルタ係数(または、合成フィルタのみが利用可能である場合、その係数)をビットストリームに書き込む。
【0121】
いくつかの実施形態では、ビットストリームにおいてフルフィルタを送信する代わりに、所定の個別反射フィルタデータベースがレンダラ(またはデコーダ)およびエンコーダに記憶され、エンコーダはビットストリームにおいてインジケータまたはインジケータを送信するように構成される。デコーダまたはレンダラはインジケータまたはインジケータを受信し、これらからフィルタを識別するように構成される。
【0122】
いくつかの実施形態では、初期反射合成部を有する没入型オーディオレンダラのための装置または方法があり、初期反射は、音伝搬遅延、音レベル、到来方向、および材料反射フィルタを含む室内記述パラメータを使用して個々に合成される。材料反射フィルタは、いくつかの実施形態では、測定された実際の個別反射フィルタ(言い換えれば、オーディオ信号の分析によって決定される)であってもよく、ビットストリーム(言い換えれば、ビットストリームから受信されたフィルタパラメータ)からまたはビットストリームに基づくデータベースから(言い換えれば、インジケータまたはインデックスから信号伝達される)取得されてもよい。
【0123】
したがって、いくつかの実施形態は、測定された個別反射フィルタのデータベースを収集し、これらのフィルタをレンダラにシグナリングし、次いで、離散的な初期反射のリアルタイム仮想音響レンダリングにおいてこれらのシグナリングされたフィルタを使用することによって、仮想音響レンダラ内の現実の室内における初期反射によって引き起こされるスペクトル色を正確に生成することを目的とする。いくつかの実施形態では、再生環境において行われる音響測定から少なくとも1つの個別反射フィルタを抽出することによって、または再生環境の少なくとも1つの幾何学的表面の少なくとも1つの材料の視覚認識によって、実際の再生環境における初期反射によって引き起こされるスペクトル色をより正確に生成することも目的とする。
【0124】
いくつかの実施形態では、ユーザ入力が少なくとも1つの材料を選択または定義するように構成され得る。言い換えれば、材料の自動視覚認識ではなく、選択は、(ユーザの支援を受けて)半自動化されてもよく、またはユーザによって手動で選択されてもよい。
【0125】
いくつかの実施形態では個別反射フィルタを抽出し、それらのデータベースを形成することはエンコーダデバイス上で実行される。いくつかの実施形態では、個別反射フィルタが仮想オーディオシーンに関連付けられたオーディオビットストリームに含まれる。さらに、いくつかの実施形態では、ビットストリームが次いで、離散初期反射の合成においてリアルタイム仮想音響レンダラで使用される。
【0126】
いくつかの実施形態では、特定の反射面タイプに対応する個別反射フィルタのデータベースの製造がある。この反射フィルタは、その反射によって引き起こされる信号に対する相当数の音響効果を含む。これはいくつかのさらなる実施形態のためのイネーブラであり、これは、仮想シーン記述に関連付けられた少なくとも1つの材料定義に基づいて選択されたデータベースからの少なくとも1つの個別反射フィルタを含むオーディオビットストリームであり、レンダラは少なくとも1つの個別反射フィルタを使用する。レンダラは、個別反射の合成のために個別反射フィルタを使用する。
【0127】
いくつかの実施形態では、個別反射のデータベースが得られる。上述のように、データベースを使用して、残響の初期反射部分における音響材料依存性フィルタリングをモデル化する際に使用される個別反射フィルタを選択することができる。
【0128】
データベースの取得は、いくつかの実施形態では室内残響の分析に使用される空間分解法(SDM)に基づいて実施することができる。この場合、それは、完全な空間室内インパルス応答を個別反射に自動的に分離するような方法で実装される。これは、例えば、最初にSDM分析結果(時間領域信号に対するサンプルの到来方向)を取得し、次いで、同様の時間フレームに対する信号の取得された方向および音圧レベル(SPL)を調べて、きれいな個別反射があるかどうかを示す各時間モーメントに対する信頼値を取得することによって達成することができる。個別反射が検出されると、それは、個別反射フィルタを得るためにインパルス応答から抽出される。次いで、これらの個別反射フィルタをさらに分類して(例えば、反射がどの壁材料に対応するか)、レンダリング目的に適したデータベースを得ることができる。
【0129】
いくつかの実施形態では、測定された個別反射フィルタ係数が仮想シーン幾何形状定義に含まれる音響材料のためのビットストリームに含まれるように、ビットストリームは仮想シーン幾何形状およびその材料定義に基づいて作成される。
【0130】
いくつかのさらなる実施形態では、測定された個別反射フィルタが空間オーディオ信号をレンダリングするために使用され得る。初期反射ごとに、1つのフィルタ、または(実装に基づく)複数のフィルタのカスケードがあり得る。これらのフィルタは、実際の室内反射の効果を含むので、既存の効率的なシミュレーションが達成できるよりも、スペクトルに関して著しく複雑な効果を生成する。これらの効果は効率的な実装を維持しながら、実際の室内の残響により近い、知覚的により妥当な残響をもたらす。
【0131】
さらに、いくつかの実施形態は没入型オーディオ符号化に関し、具体的には、空間オーディオレンダリングシステムにおける残響の合成に関する。具体的な焦点は6 DoFユースケースであり、これは、VRおよびAR用途を対象とするMPEG-Iおよび3GPP IVASのような没入型オーディオコーデックのレンダリング部分に適用することができる。
【0132】
そのような実施形態では、対話型空間残響レンダリングにおいて音色修正フィルタを作成し、適用して、計算的に効率的な方法で実際の室内残響に近い知覚品質を達成するための装置および方法を提供することができる。装置および方法は、シミュレーションされた空間室内インパルス応答および高品質のリファレンス室内インパルス応答を得ることと、シミュレーションによって生成された指向性空間知覚を維持しながら、それがリファレンスの音色により近くなるように、シミュレーションの知覚された音色を修正することと、のように要約することができる。
【0133】
いくつかの実施形態では、装置および関連する方法が、音色修正フィルタを自動的に作成し、適用することができる。さらに、装置および方法は、いくつかの実施形態では、音色修正フィルタがシミュレーションの個別反射の時間構造を維持しながら、高品質リファレンスの振幅スペクトルにより近くなるように音色修正フィルタがシミュレーションされた空間室内インパルス応答の振幅スペクトルを修正する場所を定義することができる。
【0134】
いくつかの実施形態では、空間室内応答シミュレーションが対話型アプリケーションに適した任意の計算効率のよい方法で作成され、リファレンス室内インパルスは、所望の品質を有する物理的音響空間の(空間的または非空間的)室内インパルス応答、仮想空間の高品質音響シミュレーション、または、リスナーの物理再生空間の音響測定またはシミュレーション(特にARの場合)のいずれかである。
【0135】
したがって、実施形態は、シミュレートされた室内インパルス応答の対話型空間性を、実際の室内インパルス応答の知覚的に妥当かつ快適な音色と組み合わせるインパルス応答修正方法を提示することができる。音色修正のためのそのような実施形態は、オブジェクトベースのオーディオレンダリングを含む完全なシステム内において、本願明細書に記載される。いくつかの例示的な実施形態がここに提示され、それらの理解を助けるために、音色修正方法の概要も提示される。
【0136】
音色修正方法は、オブジェクトの6DoFレンダリングのために意図された仮想室のシミュレートされた空間室内インパルス時答(ソースとしてさらに知られる)を取得するステップと、データベース、ビットストリーム、または任意の他の場所からリファレンス室内インパルス応答(対象としてさらに知られる)を取得するステップと、音色修正フィルタを作成するために、ソースインパルス応答と対象ルームインパルス応答の上で処理するステップと、ソースインパルス応答に音色修正フィルタを適用し、残響をレンダリングするステップと、のように、いくつかの重要なステップに簡略化することができる。
【0137】
言い換えれば、いくつかの実施形態では、対象の大きさ応答(理論的にはほとんどが、残響の音色、すなわち、「それがどのように鳴るか」を定義する)と、ソースの位相応答(残響の時間構造を定義する)とを有する、複合室内インパルス応答を生成する目的がある。
【0138】
図4に関して、いくつかの実施形態による例示的なシステムが示される。
【0139】
システムは例えば、空間室内インパルス応答測定決定器401を示す。空間室内インパルス応答測定器401は空間室内インパルス応答を測定し、これを個別反射データベース生成器403に渡すように構成される。
【0140】
いくつかの実施形態では、システムは、空間室内インパルス応答測定値を受信し、これらを処理して個別反射データベースを生成するように構成された個別反射データベース生成器403を備える。
【0141】
図4はさらに、任意選択の態様であり、したがって任意選択でデータベースを記憶することができるデータベース記憶装置405を示す。他の実施形態では、得られたデータベースがシミュレートされた室内残響発生器407に直接送信することができる。
【0142】
いくつかの実施形態では、システムがシミュレートされた室内残響発生器407を備える。シミュレートされた室内残響生成器407は、生成器403または記憶装置405のいずれかから直接、取得されたデータベース406を受信するように構成される。さらに、シミュレートされた室内残響生成器407は、オーディオシーン信号(たとえば、オーディオオブジェクトまたはMPEG-H3Dオーディオ)を受信し、シミュレートされた室内苗響オーディオ信号を生成するように構成される。言い換えれば、シミュレートされた室内残響生成器407は、直接オーディオを受信し、残響生成器がモデル化された遅延および減衰(距離による)を提供するので、直接オーディオおよび残響オーディオの両方を出力するように構成される。いくつかの実施形態では経路(直接オーディオ、初期反射、および後期残響)は別個であり得る。
【0143】
したがって、図5図4に示されるシステムの動作の流れ図を示し、空間室内インパルス応答は、ステップ501によって、図5に示されるように取得または決定される。
【0144】
次に、ステップ503によって、図5に示すように、空間室内インパルス応答から個別反射データベースが生成される。
【0145】
任意選択的に、データベースは、ステップ505によって図5に示されるように記憶され得る。
【0146】
さらに、室内シミュレーションメタデータは、ステップ506によって、図5に示すように取得または受信することができる。
【0147】
また、ステップ508によって、図5に示すように、オーディオシーン信号が取得または受信される。
【0148】
オーディオシーン信号を取得または受信すると、室内シミュレーションメタデータおよびデータベースは、ステップ509によって、図5に示されるように、取得または受信された成分に基づいて、シミュレートされた室内残響オーディオ信号を生成する。
【0149】
図6に関して、例示的な空間室内インパルス応答測定決定器401および個別反射データベース生成器403が示されている。さらに、図7に関して、例示的な空間室内インパルス応答測定決定器401および個別反射データベース生成器403の動作が示される。
【0150】
空間室内インパルス応答測定決定器401は例えば、空間内の空間室内インパルス応答のキャプチャとして実装することができる。このキャプチャは適切な空間マイクロフォン601(例えば、G.R.A.S.ベクトル強度プローブ、または任意の他のもの)を用いて実行することができる。加えて、少なくとも1つのリファレンスマイクロフォンキャプチャが、リファレンスマイクロフォン603を用いて同時に行われる。リファレンスマイクロフォンは信号に過剰なスペクトル色を課さない限り、空間マイクロフォンアレイ内のマイクロフォンのうちの1つであってもよい。
【0151】
リファレンスマイクロフォン603の指向性は、厳密に全方向性であるか、またはそれに近いものであるべきである。後者の場合、信号補正を適用して、リファレンスを可能な限り全方向にすることができる。
【0152】
空間室内インパルス応答キャプチャは反射のより良好な分離を可能にするために、高サンプリングレート(例えば、192kHz)で実装され得る。しかしながら、反射が互いに十分に分離されている場合には、低サンプリングレートを使用することができる。
【0153】
空間マイクロフォンを用いた空間室内インパルス応答のキャプチャは、ステップ701によって図7に示される。
【0154】
リファレンスマイクロフォンを用いたリファレンス信号のキャプチャは、ステップ703によって図7に示される。
【0155】
いくつかの実施形態では、データベース生成器403がSDM分析器605を備える。空間分解法(SDM)分析器605は、応答の各時間サンプルについて到来方向(DOA)推定値を取得するように構成される。SDMの分析ウィンドウはサンプリングレートと音速を所与とし、対応する距離がマイクロフォンアレイ全体をカバーする限り、任意の適当なウィンドウとすることができる。例えば、192kHzのサンプリングレートの64サンプルである。DOA推定値は、マイクロフォン位置および平面波仮定を使用することによって、非中心リファレンスマイクロフォンについてさらに補間され得る。
【0156】
次いで、SDM分析器605はDOA検出データトラックを作成するために、DOA値を重み付けするように構成され得る。DOAトラックおよび重みの例を図8に関して示し、図8は、例として、集中801およびスプレッド811の例についてのDOA重みを示す。さらに、集中トラック803およびスプレッドトラック813のグラフに関して示されるように、サンプル上のトラックが示される。この重み付けおよびトラック生成動作は、2つのステップで実施することができる。第1のステップでは、信号中の各サンプルについて、電流DOAサンプルとその前後のサンプルとの間のユークリッド距離が決定される。これは、例えば、192kHzのサンプリング・レートに対して、前方と後方の両方の32個のサンプルで行われる。第2のステップでは、これらの距離が電流DOAサンプルを中心とするガウス窓で重み付けされ、DOA重みを形成するために合計される。作成された重量は、その特定のDOAサンプルの周りの隣接するDOAの平均変位を表す。
【0157】
いくつかの実施形態では、音パワー検出データトラックも形成される。これは、短い(たとえば、1.3ms)および長い(たとえば、13ms)の2つのウィンドウを用いて音圧レベル(SPL)を計算し、長い/短いSPL比を決定することによって決定され得る。この比トラックから、一定の限界(例えば、メジアンを上回る3つのスケーリングされたメジアン絶対偏差)を上回るサンプルが選択される。次いで、SPL検出トラックは(例えば、64サンプルのガウス窓を用いて)さらに平滑化される。音響パワー検出データトラックの例を図9に示す。
【0158】
サンプル当たりの方向(さらに、音響パワー検出データトラック)でインパルス応答を生成する動作を、ステップ705によって図7に示す。
【0159】
いくつかの実施形態では、データベース生成器403が個別反射抽出器607を備える。個別反射抽出器607は、SDM分析器605によって提供されるトラックから個別反射を検出および抽出するように構成される。
【0160】
したがって、個別反射抽出器607は、いくつかの実施形態ではデータ内のクリーン個別反射を検出することができる。データにおけるクリーン個別反射の検出を、ステップ707によって図7に示す。
【0161】
図10に関して、個別反射抽出器の例示的な動作が示される。
【0162】
いくつかの実施形態では、個別反射抽出器607が最初に、閾値をDOA検出トラックとSPL検出トラックの両方に適用するように構成される。
【0163】
例えば、DOA検出トラック(図10の左側)に関して、以下の動作を実行することができる。ステップ1001によって、図10に示すように、DOA検出トラックが得られる。
【0164】
次いで、DOA検出トラックは、ステップ1003によって図10に示されるように重み付けされる。
【0165】
次に、ステップ1005によって、図10に示すように、DOA検出トラックが補正される。
【0166】
閾値はリファレンス方向(例えば、5°)内の一定の角度変位内にあるすべてのデータを選択することによって実装され得る。ステップ1007によって、DOA検出トラックの閾値処理を図10に示す。
【0167】
SPL検出トラック(図10の右側)に関して、以下の動作を実行することができる。
【0168】
インパルス応答は、ステップ1002によって図10に示すように得られる。
【0169】
次に、ステップ1004によって、図10に示すように、SPL検出トラックが作成される。
【0170】
次に、ステップ1006によって、図10に示すように、SPL検出トラックが平滑化される。
【0171】
SPL検出トラックの閾値は、ゼロではない値が選択されるように選択される。SPLトラックの閾値処理は、ステップ1008によって図10に示されている。
【0172】
これらの2つの閾値データトラックは次いで、組み合わされ、それらの両方が検出を示唆するとき、クリーン個別反射が検出されるようにマークされる。これは、結合検出トラックを形成する。結合検出トラックの生成は、ステップ1009によって図10に示される。
【0173】
いくつかの実施形態では、クリーン個別反射検出のために使用される他の追加のデータトラックがあってもよい。
【0174】
DOAとサウンドレベルトラックの組み合わせ例を図11に示す。
【0175】
個別反射抽出器は、検出された任意のクリーン個別反射を抽出することができる。
【0176】
図12に関して、いくつかの実施形態による個別反射動作の抽出が示される。
【0177】
結合検出トラックは、ステップ1201によって図12に示されるように得られる。次いで、得られた検出トラックは、適切な平滑化ウィンドウで平滑化される。平滑化ウィンドウの例としては、1msの長さのウィンドウで、サンプリング・レートが192kHzの場合、短い(例:32個のサンプル)ガウシアン・フェード・イン・フェードアウトがある。
【0178】
検出トラックの平滑化は、ステップ1203によって図12に示される。平滑化結合検出トラックのピーク値は、ステップ1205によって図12に示すように選択される。
【0179】
さらに、ステップ1202によって図12に示されるようにインパルス応答が得られ、ステップ1204によって図12に示されるようにSPL検出トラックが形成される。
【0180】
同じピークが元のインパルス応答の平滑化された(例えば、128サンプルのガウス窓で平滑化された)SPLにおいて検出される。次いで、検出信号のピークはSPL信号のピークに整合され、すなわち、ステップ1206によって、図12に示されるように、SPL時間インデックスが抽出のために使用される。
【0181】
マッチングは例えば、図13に示すグラフに示すことができる。
【0182】
次いで、このピーク時間指数の周りに窓関数を適用することによって、マッチしたピーク時間指数に基づいて、クリーン個別反射を抽出することができる。この窓関数は、個別反射の仮定された持続時間に適合するような長さを有する。この場合に適した窓の例は図14に示されるように、192kHzのサンプリングレートについて、整合ピーク時間インデックスを中心とする192サンプルHann窓(Hann window)であり、これは、検出窓関数1401(およびフィルタ1411)および抽出窓関数1403(およびフィルタ1413)を示す。さらに、図15に関して、個別反射を抽出する例示的な動作が示される。
【0183】
窓関数を用いたピークの周りの個別反射の抽出を、ステップ1208によって図12に示す。
【0184】
個別反射を抽出したら、情報を個別反射分類器609に渡すことができる。個別反射分類器609は、クリーン反射を、室内シミュレーションメタデータに基づいてレンダリングにおいて使用するための選択を可能にする特性(材料タイプおよび/またはオクターブ帯域吸収係数など)と関連付けるように構成され得る。いくつかの実施形態では、分類器609は、測定プロセスの一部として(例えば、ある方向が既知の材料を有する測定室内のある反射面に対応すること)、または、自動的に、例えば、反射のスペクトル減衰特性(オクターブ帯域振幅スペクトル)を、既知の材料のデータベースおよびそれらの反射特性(オクターブ帯域吸収係数)にマッチングさせることによって実施することができる。
【0185】
いくつかの実施形態では、反射が関連付けられ得る追加のパラメータが存在することができる。そのようなパラメータは、例えば、元のインパルス応答における検出された事象の相対時間モーメント、反射の入射角を含み得る(ただし、これらに限定されない)。
【0186】
反射とパラメータとの関連付けは、ステップ711によって図7に示され、ステップ1210によって図12に示される。
【0187】
いくつかの実施形態では、データベース形成部611があってもよい。データベースフォーマは、個別反射および関連するパラメータのデータベースを構築することができる。いったんデータベースが構築されると、それは、任意の適切な方法で記憶されるか、またはレンダラに送信されることができる。反射を記憶する動作は、ステップ713によって図7に示され、ステップ1212によって図12に示される。
【0188】
図16aに関して例示的なレンダラが示されている。6DoF空間オーディオ信号のための例示的なレンダラは、オーディオオブジェクトオーディオ信号を受信するように構成されたオブジェクトオーディオ入力1600を備える。オブジェクトオーディオ入力1600はいくつかの実施形態では図1に示されるようなオーディオデータ120の例であると理解され得る。さらに、レンダラは、ワールドパラメータ入力1602を備える。ワールドパラメータ入力1602は、いくつかの実施形態では図1に示されるように、オーディオメタデータおよび制御データ124ならびにユーザ入力データストリーム134の一例であると見なされ得る。
【0189】
これらの「ワールド」パラメータは、いくつかの実施形態では、少なくとも、リスナー(ユーザ)の位置と方向、オーディオオブジェクト/ソースの位置と方向、およびルームの記載または残響パラメータを含むことができる。
【0190】
これらのパラメータは前に記載したように、オーディオビットストリームおよび/または仮想現実エンジンから取得することができる。上記の実施形態で記載されたようなMPEG-Iレンダリングシステムでは、室内記述および残響パラメータとともに、オーディオオブジェクト/ソース位置および向きがオーディオビットストリームに到着することができ、リスナ位置および向きはユーザ/リスナを定義するユーザ入力または仮想現実エンジンから到着する。これらのパラメータは、いくつかの実施形態では周期的に更新することができる(仮想現実エンジンから到着するユーザ移動データ、または音源位置の更新を提供されるビットストリームのいずれかのため)。
【0191】
いくつかの実施形態では、レンダラがワールドパラメータ入力1602からワールドパラメータを受信するように構成された空間室内インパルス応答シミュレータ1601を備える。いくつかの実施形態では、ワールドパラメータの更新が空間室内インパルス応答シミュレータ1601を呼び出して新しい応答を作成するように構成することができる。この応答は、シミュレーションを再度実行することによって作成される。このシミュレーションは、レンダラプロセッサ1603に渡すことができる空間室内インパルス応答を生成するための任意の適切な音響モデリング動作とすることができる。
【0192】
レンダラは、オブジェクトオーディオ入力1600からオーディオ信号を、および、空間室内インパルス応答シミュレータから空間室内インパルス応答を受信し、提供された空間室内インパルス応答で出力をレンダリングするように構成されたレンダラプロセッサ1603を備えることができる。この空間室内インパルス応答がワールドパラメータに基づいて時間を通して更新されるとき、結果は、6-DoFオーディオ出力1604を介したユーザへのシーンの完全対話型6-DoFオーディオレンダリングであり得る。
【0193】
レンダラプロセッサ1603は、インパルス応答による直接レンダリングを示す一例である。いくつかの実施形態では、例えば、リアルタイムの状況において、他のレンダリング方法を使用することができる。これらの実施形態では、レンダリングが空間室内インパルス応答を用いて実施される。空間インパルス応答は、事実上、各時間サンプルについて定義された方向(すなわち、各反射についての方向)を有するモノフォニックインパルス応答(直接音に続く一連の固有の反射およびそれらの重ね合わせ)である。これは、例えば、各時間サンプルに対して(例えば、VBAPを使用して)ラウドスピーカパンニングゲインを作成し、モノフォニックインパルス応答を作成されたパンニングゲインと乗算することによって、各ラウドスピーカチャネルに対して別個のFIRフィルタを作成することにより、ラウドスピーカにレンダリングすることができる。結果として物チャネルベースのFIRフィルタ(すなわち、チャネルベースのインパルス応答)は次いで、空間化された残響出力を生成するために、モノフォニックオブジェクトオーディオと畳み込みされ得る。
【0194】
図18aに関して、例示的なレンダラがさらに示される。図18aは、遅延線1803に入力されるドライ入力1800を示す。ドライ入力1800は「直接」オーディオ信号、言い換えれば、反射がないオーディオ信号である。この記載は、単一のソース(たとえば、1つのオーディオオブジェクトまたはラウドスピーカーチャネル)に対応するが、(計算力を最適化するために)システム全体または関連する部分のいずれかを複製することによって、これを複数のソースまたは他のソースタイプに拡張することは自明である。
【0195】
このプロセスは、遅延線に入力される(通常は)音響的にドライの入力信号(オブジェクトオーディオなど)を取得することによって開始する。この遅延線は通常、長く(例えば、複数秒)、例えば、循環バッファを用いて実装することができる。これは、通常、正確に1つの入力と、異なる(または同じ)遅延を有する複数の(少なくとも1つの)出力とを有する。これらの出力は、音の直接的な移動経路、異なる初期反射経路、および後期残響発生器への挿入に適した出力に対応する。シミュレーションメタデータは、各出力に適用される時間遅延を制御する。例えば、ソースからリスナーまでの距離が3.4メートルであれば、直接サウンドパスについて約10msの遅延を意味し、例示的なレンダリングサンプリングレートが48kHzであれば、これは、直接パス信号についての遅延ラインからの出力が遅延ラインの入力と比較して時間的に遅延した約480サンプルになることを意味する。同様に、初期反射は、正しい遅延値を受信する。
【0196】
次いで、直接経路、初期反射、および後期残響経路は、それら自体の処理を別個のものとして(または場合によっては計算効率のために部分的に組み合わせて)受信する。
【0197】
例えば、レンダラは、遅延線1803から直接パスオーディオ信号を抽出し、距離ベースの減衰、空気、および音源指向性のような室内シミュレーション依存性の影響を含むフィルターT0 1805を適用するように構成される。このフィルタは、単一のフィルタまたは複数のカスケード接続された変更とすることができる。
【0198】
抽出され直接オーディオ信号がフィルタリングされた後、フィルタリングされたオーディオ信号は空間レンダラ1809に渡されることができ、ここで、直接パスオーディオ信号成分は、室内シミュレーションデータおよびリスナの位置および向きに基づいて、リスナに関するソース位置に対応する方向に空間化されることができる。
【0199】
そのような空間化はシステムのターゲットフォーマットに依存し得、例えば、ベクトルベース振幅パンニング(VBAP)、バイノーラルパンニング、またはHOAパンニングであり得る。最後に、空間化されフィルタリングされた直接信号は、任意のさらなる反射オーディオ信号(以下に記載するように)および適切な空間化された出力信号を生成すること1810と組み合わせることができる。この例では、空間化、結合、およびレンダリング動作は1つのユニットに組み合わせることができるが、これらの動作は別々のユニットに分離することができることが理解される。
【0200】
以下の例では、レンダラがシミュレーションにおいて、初期反射音伝播経路ごとに、初期反射経路を別々に生成し、処理するように構成される。いくつかの実施形態では、これらは最適化されるか、またはより少ない経路にグループ化され得る。各初期反射の遅延は、(直接経路オーディオ信号の抽出と同様に)室内シミュレーションメタデータから生じる。
【0201】
抽出された初期反射オーディオシグナルの各々は、フィルターTkに渡されるように構成される。フィルタTkは直接経路フィルタT0と同様であり、同様の室内シミュレーション効果を適用するように構成される。
【0202】
さらに、いくつかの実施形態では、フィルタリングされた抽出された初期反射音声信号が、個別反射フィルタ(M1-Mk 1807)の適用によってフィルタリングされる。個別反射フィルタは、上述した実施形態によって得られるものである。これは、レンダリングされた反射の知覚品質を著しく向上させる。いくつかの実施形態では、個別反射フィルタが有限インパルス応答(FIR)フィルタ(すなわち、記憶された反射インパルス応答を用いたフィルタリング)として実装される。
【0203】
初期反射経路は、次いで、空間化され、(直接および後期残響素子と)組み合わされ、レンダリングされて、レンダリングされたオーディオ出力1810を形成することができる。
【0204】
レンダリングされた初期反射は、いくつかの実施形態では異なる次数の反射を含むことができる。反射の順序は、音がリスナーに到達する前に反射した表面の数を定義する。それぞれの面反射は反射フィルタを必要とするので、これは、いくつかの実施形態では、より高次の反射のための多数の個別反射フィルタのカスケードが存在することができることを意味する。いくつかの実施形態では、多次反射がフィルタのカスケードとしてではなく、材料のすべての可能な組合せに対して異なるフィルタを設計し、次いで、設計されたフィルタまたは材料の組合せのうちのどれが、組み合わされたフィルタを形成するか、またはそれに対応するかをシグナリングまたは指示するように構成されたエンコーダによって実施される。
【0205】
後期(残響)部分は、いくつかの実施形態ではフィードバック遅延ネットワーク(FDN)残響器として実装され得る後期残響ユニット1801においてレンダリングされ得る。
【0206】
FDN残響器の例を図18cに示す。この残響器は、遅延のネットワーク1859、フィードバック要素(利得1861、1857、および結合器1855として示される)、および出力結合器1865を使用して、後期部分のための非常に密なインパルス応答を生成する。入力サンプルは、後期残響オーディオ信号成分を生成するために残響器に入力され、後期残響オーディオ信号成分はその後、後期、個別反射、および直接オーディオ信号コンバイナに出力され得る。
【0207】
FDN残響器は、複数の再循環遅延線を備えている。ユニタリ行列A 1857は、ネットワーク内の再循環を制御するために使用される。いくつかの実施形態では低次IIRフィルタとして実装することができる減衰フィルタ1861は、異なる周波数でのエネルギー減衰率の制御を容易にすることができる。フィルタ1861は、遅延線を通過する各パルスにおいて所望の量をデシベルで減衰させ、所望のRT60時間が得られるように設計される。
【0208】
いくつかの実施形態では、後期部分は空間化することができる。いくつかの実施形態では、後期部分が「特定の方向がない」と知覚されるように、すなわち、完全に拡散するように処理される。図18cは、2チャンネル出力に実際に適用されるが、より複雑な出力に適用されるように拡張され得る(FDNからのより多くの出力があり得る)FDN残響器の例を示す。
【0209】
いくつかの実施形態では、後期部分は空間化されない。言い換えれば、いくつかの実施形態では、後期部分がFDNの無相関出力が空間出力(バイノーラルまたはラウドスピーカーチャネル)に直接ルーティングされるように構成される。FDNからの2つの無相関出力が生成されるとき、それらはヘッドフォン出力に直接ルーティングされ得るか、または対応してN個の無相関出力がN個のスピーカにルーティングされ得る(これらのN個の出力はFDNのN個の遅延線であり得る)。出力ラウドスピーカの数よりも少ない遅延線がある場合、いくつかの実施形態では、異なる遅延線出力を異なる出力チャネルにルーティングする(出力のセットから均等に選択される)か、または非相関性を介してFDNのための追加の出力チャネルを作成するように構成することができる。いくつかの実施形態では、FDNの出力はまた、割り当てられるか、または空間位置を与えられ、次いで、空間化され得る。いくつかの実施形態では、FDN出力がバイノーラルレンダリングのために固定された空間位置で空間化され得る。
【0210】
図18bに関して、いくつかの実施形態によるレンダラの動作の例示的な流れ図が示される。
【0211】
ステップ1820によって、図18bに示されるように、室内シミュレーションモデルが得られる。
【0212】
入力信号は、ステップ1822によって図18bに示されるように得られる。
【0213】
さらに、ステップ1840によって、図18bに示すように、個別反射フィルタが得られる。
【0214】
ステップ1824によって、図18bに示すように、入力信号が遅延線に適用される。
【0215】
初期反射は、ステップ1821によって、図18bに示されるメタデータに基づいて遅延線から抽出される。
【0216】
ステップ1823によって、図18bに示されるように、1/rレベルの減衰が初期反射に適用される。次いで、ステップ1825によって、図18bに示されるように、空気吸収が初期反射に適用される。
【0217】
次に、ステップ1827によって、図18bに示すように、初期反射にソース指向性が適用される。
【0218】
個別反射フィルタはステップ1829によって、図18に示すように、初期反射に適用される。
【0219】
初期反射は、ステップ1831によって、図18bに示されるように空間化される。
【0220】
直接信号は、ステップ1826によって、図18bに示されるような距離に基づいて、遅延線から抽出される。
【0221】
ステップ1828によって、図18bに示されるように、1/rレベルの減衰が直接信号に適用される。
【0222】
次いで、ステップ1830によって、図18bに示すように、空気吸収が直接信号に適用される。次に、ステップ1832によって、図18bに示すように、ソース指向性が直接信号に適用される。
【0223】
次いで、直接信号は、ステップ1834によって、図18bに示されるように空間化される。
【0224】
入力はステップ1833によって、図18bに示されるように、FDN後期残響発生器にさらに渡される。
【0225】
次いで、FDNはステップ1835によって図18bに示されるように、後期残響を生成するために使用される。
【0226】
次いで、ステップ1837によって、図18bに示されるように、FDNから空間的後期残響部分が取得される。
【0227】
その後、ステップ1839によって、図18bに示されるように、後期残響部分が空間化される。次いで、ステップ1841によって、図18に示されるように、部分が組み合わされて、レンダ出力を生成する。
【0228】
図16bは、レンダラシステムのさらなる例を示す。さらなる例示的なレンダラシステムは図16aに示されるようなレンダラと同様であるが、音色修正処理を含む。6 DoF空間オーディオ信号のための例示的なレンダラは、オーディオオブジェクトオーディオ信号を受信するように構成されたオブジェクトオーディオ入力1600を備える。オブジェクトオーディオ入力1600はいくつかの実施形態では前述のように、図1に示されるようなオーディオデータ120の一例であると理解され得る。
【0229】
さらに、レンダラは、ワールドパラメータ入力1602を含む。ワールドパラメータ入力1602は、いくつかの実施形態では、やはり前述したように、図1に示されるようなオーディオメタデータおよび制御データ124ならびにユーザ入力データストリーム134の一例であると見なされ得る。
【0230】
レンダラは、ワールドパラメータ入力1602からワールドパラメータを受信するように構成された上述の方法で空間室内インパルス応答シミュレータ1601を備える。このシミュレーションは、レンダラプロセッサ1603に渡すことができる空間室内インパルス応答を生成するための任意の適切な残響モデリング動作とすることができる。
【0231】
いくつかの実施形態では、レンダラが記録された室内インパルスセレクタ1611に渡すことができるユーザ入力1620を含む。
【0232】
レンダラは、記録された室内インパルス応答データベース1613と、記録された室内インパルス応答セレクタ1611とを備える。記録室内インパルス応答セレクタ1611は、ユーザ入力1620および世界パラメータを受信し、記録室内インパルス応答データベース1613から記録室内インパルス応答を選択するように構成される。
【0233】
いくつかの実施形態では、これは提供された残響時間T_60を使用して、データベースからシミュレートされた室内に最も近い一致を見つけることによって達成される。残響時間は、1組の周波数帯域、例えばオクターブ帯域について示すことができる。さらに、拡散対直接比などの他のパラメータを提供し、一致を見つけるために使用することができる。あるいはワールドパラメータ、ユーザ、またはビットストリームは一定の応答が使用されるべき一定の定義を示すことができる。選択され記録された室内インパルス応答は、音色修正器1615に転送される。
【0234】
レンダラは、空間室内インパルス応答シミュレータ1601および選択室内インパルス応答データベース1613を受信するように構成された音色修正器1615を備えることができ、シミュレートされた室内インパルス応答と共に音色修正アルゴリズムを出力および実装する。いくつかの実施形態では、上記のプロセスの一部がエンコーダ上で実施することができる。特に、仮想現実オーディオレンダリングのためのMPEG-Iシナリオでは、エンコーダデバイスが音響シーンをレンダリングするために使用される1つまたは複数の記録された室内インパルス応答を選択することができる。これらの選択されたインパルス応答は、次いで、オーディオビットストリームにおいてレンダラ装置に送信される。
【0235】
いくつかの実施形態では、音色補正フィルタがエンコーダにおいて生成または作成され、個別反射フィルタに関して記載したのと同様の方法でレンダラにシグナリングされ得る。これらの実施形態では、ビットストリームが特定のリスナーおよび/または音源位置(記録されたインパルス応答ではない)のために作成された音色補正フィルタ係数を記憶するように構成される。エンコーダは次に、エンコーダ内の記録されたインパルス応答に基づいて音色補正フィルタを設計するように構成される。
【0236】
レンダラは、いくつかの実施形態では、オブジェクトオーディオ入力1600からオーディオ信号を受信し、音色修正器1615から合成空間室内インパルス応答を受信し、提供された合成空間室内インパルス応答で出力をレンダリングするように構成されたレンダラプロセッサ1623を備えることができる。結合された空間室内インパルス応答はいくつかの実施形態では時間を通して(例えば、ワールドパラメータに基づいて)更新することができる。レンダプロセッサ1623の結果は、次いで、オーディオ出力1604に渡され得る。
【0237】
図16cは図16bに示されるように、レンダラ内の音色修正器の動作の流れ図を示す。このプロセスは、効果的には初期部分(直接音および初期の反射)および後期部分(後期残響)について別々に同様の処理が実行される2つの並列プロセスを含むことに留意されたい。この分離は音色修正方法をより正確かつ/または効率的にするために、初期部分および後期部分のための異なるアルゴリズムおよびパラメータの使用を可能にする。
【0238】
シミュレートされた室内インパルス応答(ソース)は、ステップ1631によって図16cに示されるように得られる。
【0239】
さらに、ステップ1633によって、図16cに示すように、方向が応答から分離される。シミュレートされた空間室内インパルス応答から方向を分離し、シミュレートされた単音室内インパルス応答を得る。実際には、指示が渡すことができる単純な追加のメタデータトラックであってもよい。
【0240】
さらに、記録された室内インパルス応答(対象)は、ステップ1632によって図16cに示されるように取得される。
【0241】
ソースおよびターゲットインパルス応答のセットの例を図17aに示す。
【0242】
次のステップは、ステップ1634によって、図16cに示されるような応答の全体的な構造を一致させることである。これは、いくつかの実施形態では(必要に応じて)サンプリングレートをマッチングすることによって実施することができる。さらに、マッチングは直接音を時間的にマッチングさせることができる(すなわち、最大振幅は、同時にサンプルである)。時間サンプルマッチングは図17bに示されるように、移動直接音時間に関して示すことができる。さらに、図17(c)に示すように、短い方の応答の終わりにゼロを加えることで、応答の長さを等しくすることができる。さらに、いくつかの実施形態における整合は、100Hz~10kHzの周波数の大きさの合計を同じにすることによって、オーディオレベルを整合させることができる。この例は、図17dに示される例によって示される。
【0243】
さらに、両方のインパルス応答はステップ1635、1636、1637、および1638によって、図16cに示されるように、初期部分と後期部分とに分離される。この分離は、ヘッドフィルタとテールフィルタによって図17eに示されている。この分離は、後の残響が始まる時間モーメントを定義する「ミキシング時間」を使用して行われる。シミュレーションのためのいくつかの実施形態では、初期部分および後期部分も別々に得ることができ、したがって、分離ステップをスキップする。
【0244】
ミキシング時間は応答から決定することができ、あるいは、この時間モーメントが例えば、シミュレーションの初期部分の長さに基づいて、または対象応答当たりの固定値として選択することができる。いくつかの実施形態では、ミキシング時間が拡散後期残響の開始を示すプリディレイ時間としてオーディオビットストリーム中でシグナリングされ得る。
【0245】
いくつかの実施形態では、分離された初期部分および後期部分がステップ1639、1640、1641、および1642によって、図16cに示されるような振幅応答を得るために、周波数領域に変換される。いくつかの実施形態では、振幅応答が周波数応答の絶対値である。
【0246】
いくつかの実施形態では、対象インパルス応答の振幅応答が、図16cに示されるような音色修正ゼロ位相フィルタを得るために、ステップ1645(初期部分について)およびステップ1643(後期部分について)によって、ソースインパルス応答の振幅応答で分割される。これは、
【数1】
のように表すことができる。
【0247】
音源振幅応答は、音色修正フィルタにおいて大きな増幅を引き起こす非常に小さな値を含むことができる。これは、いくつかの実施形態では音色修正フィルタの増幅を最大値に制限することによって回避することができる。最大値の例は4である。
【0248】
結果として生じる音色修正フィルタは、ゼロ位相であるので、直接適用可能ではない。いくつかの実施形態では、追加のステップがそれを対応する最小位相フィルタに変換することである。
【数2】
これは、例えば、https://ccrma.stanford.edu/~jos/filters/Conversion_Minimum_Phase.html
の範囲内で議論されるような手法を実施することによって達成することができる。
【0249】
この方法は、
【数3】
のケプストラムを計算することと、任意の副成分を対応する因果的成分と置き換えることとを含む。この手段は、時間ゼロの前のケプストラムの部分が時間ゼロの周りに反転され、時間ゼロの後のケプストラムの部分に追加される。これは、スペクトルの大きさが保存されるように、単位円内の非最小位相ゼロおよび不安定極を反映することに対応する。次いで、元のスペクトル位相(ゼロ)が、得られたスペクトルの大きさに対応する最小位相によって置き換えられる。
【0250】
次いで、シミュレートされたインパルス応答の初期部分(例えば、畳み込みを伴う)に最小位相フィルタが適用されて、ステップ1646によって、図16cに示されるように、結合され、音色的に修正された初期部分が得られる。
【0251】
最小位相フィルタは次いで、ステップ1644によって、図16cに示されるように、合成された、音色的に修正された後期部分を取得するために、シミュレートされたインパルス応答の後期部分(例えば、畳み込みを伴う)に適用される。
【0252】
次いで、この組み合わされた初期部分は、組み合わされた後期部分と一緒に組み合わされて、ステップ1647によって図16cに示されるような完全な組み合わされたインパルス応答を形成する。
【0253】
次いで、ステップ1648によって、図16cに示されるように、完全に合成されたインパルス応答が、前に分離された方向と合成され得る。これは、既に上述したようにオブジェクトオーディオをレンダリングするために、ステップ1649によって図16cに示されるようにレンダラプロセッサに出力される、結合された空間室内インパルス応答を生成する。
【0254】
いくつかの実施形態では、音色修正フィルタ設計のための代替オプションは、通常の離散フーリエ変換(または同様の均等にサンプリングされた変換)の代わりに周波数ワープ変換を使用することである。これらの実施形態は不均一な周波数分解能を得るために、特定のフィルタバンクまたは別様に修正された変換を使用する。例えば、これは、「Harma, Karjalainen, Savioja, Valimaki, Laine, Huopaniemi, “Frequency-Warped Signal Processing for Audio Applications”, Journal of the Audio Engineering Society, Vol. 48, no. 11, pp. 1011-1031」に記載されている。オーディオアプリケーションでは、これは通常、例えば、バークまたは同等の矩形帯域幅(ERB)スケールに従うように周波数スケールをワーピングすることによって、人間の聴力に対してより良好な整合を達成するために使用される。したがって、例えば、これは、結果として得られる音色修正フィルタが高周波数上の整合精度を犠牲にすることによって、低周波数上のより近い整合を生成することを可能にする。低周波数は多くの場合、リスナーに対してより多くのエネルギーおよび知覚的意味を有するので、この修正はターゲットに対する複合応答の知覚的一致を改善することができる。さらに、これは、計算の複雑さにも直接影響するフィルタの次数を低減することを可能にする。
【0255】
いくつかの実施形態では、ソースインパルス応答の振幅応答を対象インパルス応答の振幅応答に直接置き換えることも可能である。このプロセスは理論的にはソースインパルス応答の音色を対象インパルス応答に向けて修正する意図を完全に達成するが、このプロセスは因果関係がなく、応答の先端のインパルス応答に「リンギング」(インパルス応答時間成分のミラーリング)を生じさせることがある。しかし、これは、これらの余分なインパルスを除去することによって抑制することができる。プロセスは、いくつかの実施形態では以下の動作を実施することができる。
【0256】
ソースおよびターゲットインパルス応答の周波数応答を取得し(すなわち、周波数領域に変換し)、上記の実施形態で記載したように、それらの全体的な構造に一致させる。
【0257】
ソース大きさ応答を対象大きさ応答に置き換えて、複合応答を生成する。
【0258】
結合された応答を時間領域に変換する。
【0259】
結合された応答の先端から、それらをゼロに設定することによって、望ましくない成分を除去する(実際には、元のインパルス応答長の後のすべてのサンプル)。
【0260】
結果として得られる合成インパルス応答は目標応答により近いが、先の実施形態で記載した方法と同等に大きな効果を達成しない。しかしながら、これらの実施形態は、反復的に適用される動作を実施して、ターゲット応答に対してより良好かつより良好に一致するようにすることができる。そうでなければ、いくつかの実施形態では、これらの実施形態が以前の方法と同様の方法で使用することができる。換言すれば、フィルタ設計部品を置き換えることである。
【0261】
いくつかの実施形態では、全空間室内インパルス応答による畳み込みは実行されない。これは、畳み込みを使用する長いインパルス応答(高速畳み込み技法を用いても)を用いたレンダリングにおける固有の計算の複雑さに起因する。したがって、いくつかの実施形態では、レンダリングプロセッサが(先の実施形態で記載した音色修正と同様の方法で)初期部分と後期部分とを別々にレンダリングし、異なる方法を使用してそれらを別々にレンダリングするように構成される。必要に応じて、直接経路を初期部分からさらに分離することも可能である。
【0262】
したがって、例えば、図16dに示されるように、入力サンプル1650は、後期部分音色修正フィルタ1659および初期部分音色修正フィルタ1657によってフィルタリングされる後期部分および初期部分に分離される。後期部分音色修正フィルタ1659および初期部分音色修正フィルタ1657は、音色修正フィルタ更新器1653に基づいて定義される。音色修正フィルタ更新器1653は、ワールド情報入力1651によって制御される。
【0263】
音色修正方法は、このレンダリングシステムに加えるのが簡単である。最初に、レンダリングシステムの初期部分と後期部分のインパルス応答が得られる。後者の部分については、FDNのインパルス応答が単に、インパルスをシステムに入力し、出力エネルギーがゼロに近く低下するまで出力を記憶することによって測定することができる。初期部分は通常、シミュレーションから直接得られるが、同じインパルス応答測定法で測定することができる。これらのインパルス応答は、ソースインパルス応答である。
【0264】
後期部分音色修正フィルタ1659および初期部分音色修正フィルタ1657の出力は、その後、後期部分フィードバック遅延ネットワーク(FDN)レンダラ1661および遅延線初期部分レンダラ1655にそれぞれ渡され得る。後期部分FDNレンダラ1661および遅延線初期部分レンダラ1655は、ワールド情報入力1651に基づいて制御することができる。後期部分FDNレンダラ1661および遅延線初期部分レンダラ1655からの出力は、次いで、ミキサ1663に渡され得る。
【0265】
ミキサー1663は初期および後期部分レンダリングを出力するように構成され、次いで、これらは出力1665によって出力され得る。
【0266】
この例では、初期部分は遅延線でレンダリングされる。上述の遅延線は、個別反射をレンダリングする実用的な方法である。実際には、各入力サンプルは遅延線に入力され、定義された初期応答は遅延線の「タップ」を制御する。これらの遅延線タップは、入力と比較して特定の遅延を有する別個の出力である。これらの出力のそれぞれは、エフェクトを追加するための追加のゲインとフィルタを持つことができる。したがって、各タップは、事実上、応答における反射(またはそれらの重ね合わせ)または直接信号(通常、第1のタップ)である。
【0267】
音源応答が知られている場合、音色修正手順に単純に従い、音色修正フィルタを設計することが可能である。しかしながら、いくつかの実施形態では、フィルタはインパルス応答に適用されない。代わりに、フィルタは、初期部分および後期部分の入力サンプルに直接適用される(両方のための別個のフィルタ)。これらのフィルタは例えば、最小位相フィルタとすることができる。
【0268】
いくつかの実施形態ではリアルタイムシステムにおいて、フィルタの更新はレンダリングされたソースまたはリスナが移動するときなど、任意の適切な方式に基づいて実装され得る。他の更新メカニズムは、後期残響が通常、位置依存性ではなく、室内依存性のみであるので、選択され得る。したがって、後期残響のためのフィルタを予め形成することができ、室内が変わったときにのみ表示を変更することができる。例えば、いくつかの実施形態では、後期残響部分生成が個別反射および直接オーディオ遅延線部分から独立して実装することができる。
【0269】
MPEG-I実装では、拡散後期残響を音響環境内で一定に保つことができる。複数の室内を有する空間は、いくつかの音響環境を有することができる。いくつかの実施形態では初期部分の変化が位置に基づくことができるが、レンダリングの更新は徐々に、よりまれに(例えば、50msごとに)行うことができる。ソース位置を正確に保つために、直接経路は、より頻繁に更新され得る。ただし、小さな音色の変化が生じることがある。
【0270】
音色修正フィルタは、ゼロ位相または最小位相FIRフィルタとして上述されている。しかしながら、大きさ応答の同様の「色付け」は例えば、等化フィルタバンクを用いて行うことができる。このアプローチは、リアルタイム使用に特に有益である。特に、位相応答が重要でない応答の後期部分については、そのような等化フィルタバンクが適切であり得る。一実施形態では、音色修正フィルタが図18cのFDN残響器の減衰フィルタgi,i=1,...,Dに結合される。これは、例えば、所望の周波数依存性RT60が実現され得るように、減衰フィルタの所望の振幅応答を取得し、次いで、音色修正フィルタの所望の振幅応答を取得し、次いで、それらの振幅応答としてこれらの2つの振幅応答の合計を有する新たな減衰フィルタを設計することによって行うことができる。この実施形態では、後期部分音色修正フィルタを適用することは、音色修正フィルタが使用されないときと同じに減衰フィルタの構造を保つことができると仮定すると、最小の追加コストを伴う。
【0271】
遅延ライン使用事例のための音色修正フィルタはまた、遅延ラインタップの利得に直接適用され得る。この場合、遅延線のインパルス応答が音色的に修正されたシミュレートされたインパルス応答にできるだけ近くなるように、各遅延タップについて別個の広帯域利得値が得られる。
【0272】
後期残響は、個別反射の時間モーメントが知覚にあまり寄与しないほど十分に密であるので、残響の後期部分のために非時間保存音色修正を使用することが可能である。
【0273】
本プロセスは実ターゲット応答およびシミュレートされたソース応答を使用するために具体的に記載されるが、本方法は決して、この特定の組合せに限定されない。例えば、非常に複雑な(非リアルタイムの)シミュレーションを使用して、高品質のシミュレートされたターゲット応答を作成し、次いで、それと共に計算的に単純なソース応答を使用することが可能である。例えば、エンコーダデバイスは、非常に高次の画像ソースシミュレーション、波ベースの音響シミュレーション方法、またはこれらの組み合わせを用いて、VRシーンのための仮想空間の音響シミュレーションを実行して、シーン内の異なる位置に対して高品質のシミュレーションされたインパルス応答を生成することができる。これらは、次いで、仮想オーディオシーンの記述と共にビットストリームに含まれ得る。レンダラでは、例えば、低次画像ソースおよびデジタル残響器を用いた低次音響シミュレーションがシミュレートされたインパルス応答を生成するために使用され、提案された方法を使用して、シミュレートされたインパルス応答は仮想シーンのこの位置に関連する高品質のシミュレートされたインパルス応答により近くなるように成形される。同様の方法で実応答対を使用することも可能である。
【0274】
提示された方法はまた、AR残響レンダリングにおいて実装され得る。ARでは、リスナが存在する空間にオブジェクトをもっともらしくレンダリングできる場合が有益である。ARヘッドセット(Microsoft Hololensなど)は、室内の幾何形状情報を取得する可能性を提供する。これは、適切なターゲットリアルルーム応答に近くなるように音色的に修正することができるシミュレーションソース応答を作成するために、または、リスナーがいる空間から測定されるリアルルーム応答を使用するために使用することができる。これは、AR使用において、妥当な室内残響を有するという課題を解決する。
【0275】
測定可能な残響パラメータ(例えば、残響時間)が指定された公差を超えて変化しないように、一定のまたは周波数依存の制限を使用して、音色修正の量を制限することが可能である。この公差は、ユーザ提供、ビットストリームでのシグナリング、または任意の他の形式で取得することができる。
【0276】
上記の実施形態における例は音色修正方法がレンダラと同じ装置内にあることを暗示しているが、必要な情報が利用可能であれば、別個の装置内で処理を行うことも可能である。例えば、音色修正は複数の既知の可能な位置のためにエンコーダデバイスにおいて事前計算されることができ、対応する修正フィルタは、ビットストリームにおいてデコーダ内のレンダラに送られることになる。別の例として、ARレンダリングシナリオでは、ARレンダリングデバイスが環境の主走査を実行して、幾何形状情報を取得することができ、幾何形状情報は次いで、5G電気通信ネットワークエッジサーバなどのサーバコンピュータにアップロードされる。次いで、5Gエッジサーバは、音響シミュレーションを実行して、室内に対する高品質のターゲット応答を得ることができる。室内の高品質対象応答は、次いで、ARレンダリングデバイスに送信され得、レンダリングデバイスは、高品質シミュレーションベースの対象応答により近いリアルタイムレンダリングされたソースインパルス応答を修正するように、音色修正フィルタを設計する。別の例として、5Gエッジサーバは高品質音響シミュレーションターゲット応答の両方を作成し、次いで、レンダリングクライアントが行うように、単純化されたソース応答をシミュレートすることができる。例えば、高品質音響シミュレーションは、レンダリングクライアントから受信した高品質環境モデリングデータに基づくことができ、簡略化されたソース応答は、ARレンダリングデバイス上で実行されるそのような簡略化された室内モデリングのエミュレーションに基づいて作成することができる。言い換えれば、5Gエッジサーバは、高品質音響モデリングと、空間内のARレンダリングデバイスによって行われるモデリングとの両方を実行する。次に、5Gエッジサーバは音色修正フィルタがターゲットにより近くなるようにソース応答に適用されるように、音色修正フィルタを既に設計することができる。これらの音色修正フィルタは次に、クライアントレンダラにシグナリングされ、クライアントレンダラはそれらを考慮に入れ、高品質のソース応答により近くなるように、それがリアルタイムで作成しているソース応答を修正する。
【0277】
リファレンス室内インパルス応答は一般に、処理中に変更されず、したがって、データベースは計算を節約するために、リファレンス応答が適切な周波数領域に変換されたフォーマットで既に記憶され得ることに留意されたい。さらに、音色修正フィルタは、リファレンス応答の寄与が同じままである別個の部分(ソース部分およびターゲット部分)に実装することもできる。
【0278】
実施形態は、実測定インパルス応答の音を近似することができ、リソース制約環境におけるリアルタイムレンダリングに適した知覚的に良好な結果を提供することができるという利点を有する。
【0279】
図19は、本明細書に記載のいくつかの実施形態を利用することができる例示的なシステムを示す。システムは、レンダリングデバイス1921に記憶されるか、ストリーミングされるか、さもなければ転送されるビットストリーム1920を作成するエンコーダデバイス1911を備える。エンコーダおよびレンダラを実行する装置は、エンコーダを実行するワークステーション、クラウドに提供されるビットストリーム、およびレンダラを実行するエンドユーザ装置など、異なる装置とすることができる。または、エンコーダ/ビットストリーム/レンダラチェーンのすべての要素がパーソナルコンピュータなどの単一のデバイス上で実行することもできる。
【0280】
図19は、いくつかの実施形態において、EIFシーン記述1903、オーディオオブジェクト情報1905、およびオーディオチャネル情報1907を備えることができるエンコーダ入力1901を示す。
【0281】
エンコーダ1911は、幾何形状および材料などのパラメータを示すシーン記載1903とともに、符号化される仮想オーディオシーン1901の記載を受信する。それはまた、符号化されるオーディオオブジェクト情報1905またはオーディオチャネル情報1907を受信する。いくつかの実施形態では、エンコーダ1911が個別反射フィルタを抽出するように構成された個別反射フィルタ決定器1912を備える。エンコーダ1911は、個別反射フィルタが抽出される空間インパルス応答のデータベース1910とインターフェースする。この個別反射フィルタ抽出は、実際のコンテンツ符号化の前にオフラインプロセスとして、または、次いで、例示的な空間インパルス応答を提供するコンテンツ作成者に応答してコンテンツ符号化中に、のいずれかで行うことができる。
【0282】
さらに、エンコーダ1911は、コンプレッサ1917に渡すことができるEIF(エンコーダ入力フォーマット)シーン記述1903から残響パラメータを生成するように構成された残響器パラメータ決定器1913を備えることができる。
【0283】
さらに、エンコーダ1911は、オーディオオブジェクト情報1905の出力と、オーディオチャネル情報1907とを受信し、これらを分析して、コンプレッサ1917に渡すことができる適切なメタデータを生成するように構成されたメタデータ分析器1915を備えることができる。
【0284】
適切なシーンおよび6DoFメタデータコンプレッサ1917は、個別反射フィルタ、残響パラメータ、およびメタデータを受信し、適切なMPEG-Iビットストリーム1920を生成するように構成され得る。
【0285】
したがって、個別反射フィルタ抽出処理の結果得られた個別反射フィルタは、オーディオビットストリーム1920に含まれ、レンダラ1921に伝達される。エンコーダは、シーン幾何形状のためのエンコーダ入力フォーマット(EIF)シーン記述に見られる材料に基づいて、必要な個別反射フィルタを含む。
【0286】
エンコーダは、このようにして得られたメタデータをさらに圧縮することができる。圧縮されたメタデータは、MPEG-Iビットストリームで搬送される。さらに、いくつかの実施形態では、オーディオ信号がMPEG-H 3Dオーディオビットストリーム1990で搬送され得る。これらのビットストリーム1990、1920は、多重化されてもよく、または別個のビットストリームであってもよい。
【0287】
デコーダ/レンダラ1921は、MPEG-H 3Dオーディオビットストリーム1920からオーディオチャネルおよびオブジェクトを含むオーディオビットストリームと、MPEG-Iメタデータビットストリーム1990から符号化メタデータとを受信する。
【0288】
MPEG-Iデータストリーム1920は、いくつかの実施形態では、シーンおよび6DoFメタデータデコンプレッサ1923(いくつかの実施形態ではシーンおよび6DoFメタデータパーサ1924を含む)によって処理されて、個々のフィルタ情報、残響パラメータ、およびメタデータを取得するように構成されることができる。
【0289】
レンダラは、VRヘッドマウントデバイス(HMD)などの外部トラッキングデバイスを使用して、仮想空間内のユーザ位置および向き(一緒にポーズと呼ばれる)1994をさらに受信することができる。
【0290】
さらに、デコーダ/レンダラ1921は、位置/姿勢の十分な変化がいつ発生したかを決定するように構成された位置および姿勢アップデータ1991を備える。デコーダ/レンダラ1921は、ズームインタラクションなどの任意のインタラクション入力1922を処理するように構成されたインタラクションハンドラ1992をさらに備えることができる。
【0291】
仮想空間内のユーザの位置および向きに基づいて、レンダラはオーディオ信号を生成する。ドライオブジェクトまたはチャネルソースの場合、レンダラーは、直接音、離散的な初期反射、および拡散的後期残響の組み合わせとして音を合成する。
【0292】
したがって、例えば、デコーダ/レンダラ1921は、個別反射フィルタプロセッサ1926およびビームトレーサ1927を備える初期反射プロセッサ1925を備える。本発明は、合成材料フィルタまたは吸収係数を、オーディオビットストリームにおいて得られる測定された個別反射フィルタに置き換えることによって、初期反射合成に適用される。
【0293】
デコーダ/レンダラ1921は、FDN 1929を適用するように構成された遅延リバーブプロセッサ1928をさらに備える。
【0294】
さらに、デコーダ/レンダラ1921は、オブジェクト/チャネルフロントエンド1931においてオブジェクトおよびチャネル直接処理を適用するように構成された遮蔽(オクルージョン)、空気吸収(直接)パートプロセッサ1930を備える。
【0295】
デコーダ/レンダラ1921は、出力レンダラ1941に渡されるべき適切なHOA信号を生成するためのHOAエンコーダ1933をさらに備えることができる。
【0296】
デコーダ/レンダラ1921は、空間オーディオ信号を出力レンダラ1941に出力するように構成された空間エクステントプロセッサ1935をさらに備えることができる。
【0297】
出力レンダラ1941は、例えば、(ヘッドセット/ヘッドホンなどに関連する)ヘッド関連伝達関数1940を受信することができ、バイノーラル/ラウドスピーカオーディオ信号を生成するためのシンセサイザ1943を備える。いくつかの例では、出力レンダラ1941が、1つまたは複数のオブジェクトからバイノーラルまたはラウドスピーカオーディオ信号を生成するように構成された、バイノーラルまたはラウドスピーカジェネレータ1945へのオブジェクト/チャネルを備えることができる。
【0298】
図20に関して、上記のようなシステムの装置部品のいずれかとして使用され得る例示的な電子デバイスである。デバイスは、任意の適切な電子デバイスまたは装置であってもよい。例えば、いくつかの実施形態では、デバイス2000がモバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオ再生装置などである。装置はたとえば、図1に示されるようなエンコーダまたはレンダラ、または上記で記載されるような任意の機能ブロックを実装するように構成され得る。
【0299】
いくつかの実施形態では、デバイス2000が少なくとも1つのプロセッサまたは中央処理装置2007を備える。プロセッサ2007は、本明細書で記載されるような方法などの様々なプログラムコードを実行するように構成され得る。
【0300】
いくつかの実施形態では、装置2000が記憶装置2011を備える。いくつかの実施形態では、少なくとも1つのプロセッサ2007が記憶装置2011に結合される。記憶装置2011は、任意の適切な記憶手段とすることができる。いくつかの実施形態では、記憶装置2011がプロセッサ2007上で実施可能なプログラムコードを記憶するためのプログラムコードセクションを備える。さらに、いくつかの実施形態では、記憶装置2011は、データ、たとえば、本明細書で記載する実施形態に従って処理された、または処理されるべきデータを記憶するための記憶データセクションをさらに備えることができる。プログラムコードセクション内に記憶された実装されたプログラムコードおよび記憶されたデータセクション内に記憶されたデータは、必要に応じて、メモリ-プロセッサ結合を介してプロセッサ2007によって取り出すことができる。
【0301】
いくつかの実施形態では、装置2000がユーザインターフェース2005を備える。ユーザインターフェース2005は、いくつかの実施形態ではプロセッサ2007に結合され得る。いくつかの実施形態では、プロセッサ2007がユーザインターフェース2005の動作を制御し、ユーザインターフェース2005から入力を受信することができる。いくつかの実施形態では、ユーザインターフェース2005は、ユーザが例えばキーパッドを介して、デバイス2000にコマンドを入力することを可能にすることができる。いくつかの実施形態では、ユーザインターフェース2005は、ユーザが装置2000から情報を取得することを可能にすることができる。例えば、ユーザインターフェース2005は、装置2000からの情報をユーザに表示するように構成されたディスプレイを備えることができる。ユーザインターフェース2005は、いくつかの実施形態では、情報がデバイス2000に入力されることを可能にすることと、デバイス2000のユーザに情報をさらに表示することとの両方が可能なタッチスクリーンまたはタッチインターフェースを備えることができる。いくつかの実施形態では、ユーザインターフェース2005が通信するためのユーザインターフェースであってもよい。
【0302】
いくつかの実施形態では、装置2000が入力/出力ポート2009を備える。いくつかの実施形態では、入力/出力ポート2009がトランシーバを備える。そのような実施形態におけるトランシーバはプロセッサ2007に結合され、例えば、無線通信ネットワークを介して、他の装置または電子デバイスとの通信を可能にするように構成され得る。トランシーバまたは任意の好適なトランシーバまたは送信機および/または受信機手段は、いくつかの実施形態では有線または有線結合を介して他の電子機器または機器と通信するように構成され得る。
【0303】
トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。例えば、いくつかの実施形態では、トランシーバは、適切なユニバーサルモバイルテレコミュニケーションシステム(UMTS)プロトコル、例えばIEEE802.Xなどのワイヤレスローカルエリアネットワーク(WLAN)プロトコル、Bluetooth(登録商標)などの適切な短距離無線周波数通信プロトコル、または赤外線データ通信経路(IRDA)を使用することができる。
【0304】
入力/出力ポート2009は、信号を受信するように構成され得る。
【0305】
いくつかの実施形態では、装置2000がレンダラの少なくとも一部として使用され得る。入力/出力ポート2009は、ヘッドフォン(ヘッドトラック付きまたは非トラック付きヘッドフォンであり得る)または同様のものに結合され得る。
【0306】
一般に、本発明の様々な実施形態は、ハードウェアまたは専用回路、ソフトウェア、ロジック、またはそれらの任意の組合せで実装され得る。たとえば、いくつかの態様はハードウェアで実装され得るが、他の態様はコントローラ、マイクロプロセッサ、または他の計算装置によって実行され得るファームウェアまたはソフトウェアで実装され得るが、本発明はそれらに限定されない。本発明の様々な態様はブロック図、フローチャートとして、または何らかの他の図表現を使用して図示および目的され得るが、本明細書で目的するこれらのブロック、装置、システム、技術または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路または論理、汎用ハードウェアもしくはコントローラ、または他の計算装置、あるいはそれらの何らかの組合せで実装され得ることが十分に理解される。
【0307】
本発明の実施形態は、プロセッサエンティティ内などのモバイルデバイスのデータプロセッサによって、またはハードウェアによって、またはソフトウェアとハードウェアとの組合せによって実行可能なコンピュータソフトウェアによって実装され得る。さらに、この点に関して、図のような論理フローの任意のブロックは、プログラムステップ、または相互接続された論理回路、ブロックおよび機能、またはプログラムステップと論理回路、ブロックおよび機能の組合せを表すことができることに留意されたい。ソフトウェアは、メモリチップなどの物理的媒体、またはプロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピー(登録商標)ディスクなどの磁気媒体、およびたとえばDVDおよびそのデータ変異体CDなどの光媒体に記憶され得る。
【0308】
メモリはローカル技術環境に適した任意のタイプのものとすることができ、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光メモリデバイスおよびシステム、固定メモリおよび取り外し可能メモリなどの任意の適切なデータ記憶技術を使用して実装することができる。データプロセッサは、ローカル技術環境に適した任意のタイプであってよく、非限定的な例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、ゲートレベル回路、およびマルチコアプロセッサアーキテクチャに基づくプロセッサのうちの1つまたは複数を含み得る。
【0309】
本発明の実施形態は、集積回路モジュールなどの様々な部品において実施することができる。集積回路の設計は、大規模で高度に自動化された処理によるものである。論理レベル設計を、エッチングされて半導体基板上に形成される準備ができた半導体回路設計に変換するために、複雑で強力なソフトウェアツールが利用可能である。
【0310】
シノプシス社(カリフォルニア州マウンテンビュー)およびケイデンス・デザイン社(カリフォルニア州サンノゼ)によって提供されるプログラムなどのプログラムは、導体を自動的にルーティングし、十分に確立された設計規則および事前に格納された設計モジュールのライブラリを使用して半導体チップ上の構成要素を位置特定する。半導体回路の設計が完了すると、標準化された電子フォーマット(例えば、Opus、GDSIIなど)で得られた設計は、製造のために半導体製造設備または「ファブ」に送信され得る。
【0311】
前述の記載は、例示的かつ非限定的な例として、本発明の例示的な実施形態の完全かつ有益な記載を提供してきた。しかしながら、添付の図面および付随の請求項を熟読する際に、前述の記載を考慮して、種々の修正および適合が、当業者に明白になるのであろう。しかしながら、本発明の教示の全てのそのような同様の修正は、添付の特許請求の範囲に定義される本発明の範囲内に依然として含まれる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16a
図16b
図16c
図16d
図17a
図17b
図17c
図17d
図17e
図18a
図18b
図18c
図19
図20
【手続補正書】
【提出日】2022-11-14
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備える装置であって、
該少なくとも1つのメモリおよび該コンピュータプログラムコードは、該少なくとも1つのプロセッサを用いて、該装置に、少なくとも、
少なくとも1つのインパルス応答を取得するステップと
前記取得された少なくとも1つのインパルス応答に基づいて少なくとも1つの反射フィルタを取得するステップであって、
前記少なくとも1つの反射フィルタは、他の反射と時間的に重複しない、音響表面からの少なくとも1つの初期反射を決定するように構成され、
前記少なくとも1つの初期反射の持続時間は、取得された少なくとも1つのインパルス応答の持続時間よりも短い、
ステップと、
を実行させるように構成される、装置。
【請求項2】
前記取得された少なくとも1つのインパルス応答は、前記装置に、空間室内インパルス応答を取得させ、
前記空間室内インパルス応答は前記少なくとも1つの個別反射を含む、請求項1に記載の装置。
【請求項3】
前記取得された少なくとも1つの反射フィルタは、前記装置に、前記空間室内インパルス応答の分析に基づいて到来方向情報を決定するステップと
前記空間室内インパルス応答に基づいて音圧レベル情報を決定するステップと
前記到来方向情報および前記音圧レベル情報に基づいて、他の反射と時間的に重なっていない、少なくとも1つの初期反射を決定するステップと
を実行させる、請求項2に記載の装置。
【請求項4】
前記決定された少なくとも1つの初期反射は、前記装置に、他の反射によって時間的に重複しない、前記決定された少なくとも1つの初期反射に関連する期間を決定するステップを実行させる、請求項3に記載の装置。
【請求項5】
前記取得された少なくとも1つのインパルスレスポンスに基づいて、前記取得された少なくとも1つの反射フィルタは、前記装置に、他の反射によって時間的に重複しない、前記決定された少なくとも1つの初期反射に関連する前記期間によって定義される前記インパルス応答の一部を抽出させる、請求項4に記載の装置。
【請求項6】
前記装置は、さらに、前記少なくとも1つの反射フィルターを、前記少なくとも1つの初期反射に関連するパラメータに関連付けする、請求項1に記載の装置。
【請求項7】
前記少なくとも1つの初期反射に関連する前記パラメータは、材料、材料仕様、ならびに、他の反射によって時間的に重複しない前記少なくとも1つの初期反射が生じる材料形状のうちの少なくとも1つを含む、請求項6に記載の装置。

【請求項8】
前記少なくとも1つの初期反射に関連する前記パラメータは、
パラメータを選択または定義するように構成された少なくとも1つのユーザ入力と、
仮想音響シーン幾何形状および仮想音響シーン幾何形状における材料の音響記述と、
少なくとも1つの個別反射フィルタを材料に関連付けるために、パラメータが材料を含むときのパラメータの少なくとも1つの視覚認識と、
のうちの少なくとも1つに基づいて有効化される、
請求項7に記載の装置。
【請求項9】
前記取得された少なくとも1つのインパルスレスポンスに基づいて、前記取得された少なくとも1つの反射フィルタは、前記装置に、
視認材料のオクターブバンド吸収係数を得るステップと、
前記少なくとも1つの反射フィルタのオクターブ帯域大きさスペクトルを、前記視認材料のオクターブ帯域吸収係数と比較するステップと、
前記視認材料の前記オクターブ帯域吸収係数に最も近いオクターブ帯域大きさスペクトルを有する前記少なくとも1つの反射フィルタを選択するステップと、
を実行させる請求項8に記載の装置。
【請求項10】
前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサを用いて、前記装置に、さらに、
前記少なくとも1つの反射フィルタのデータベースを生成するステップと、
前記少なくとも1つの初期反射に関連付けられたパラメータを有する前記少なくとも1つの反射フィルタの前記データベースを格納するステップと、
のうちの少なくとも1つを実行するように構成される、
請求項1ないし5のいずれか1項に記載の装置。
【請求項11】
少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備えた装置であって、
該少なくとも1つのメモリおよび該コンピュータプログラムコードは、該少なくとも1つのプロセッサを用いて、該装置に、少なくとも、
少なくとも1つのオーディオ信号を得るステップと、
前記少なくとも1つのオーディオ信号に関連する少なくとも1つのメタデータを取得するステップと、
室内音響に関連する少なくとも1つのパラメータを取得するステップであって、該少なくとも1つのパラメータは幾何形状、寸法、および材料のうちの少なくとも1つを備える、ステップと、
少なくとも1つのパラメータに従って少なくとも1つの反射フィルタを取得するするステップであって、
前記少なくとも1つの反射フィルタは、前記少なくとも1つのインパルス応答から、他の反射と時間的に重なっていない、少なくとも1つの初期反射を決定するように構成され、
前記少なくとも1つの初期反射の持続時間は、前記少なくとも1つのインパルス応答の持続時間よりも短い、
ステップと、
前記少なくとも1つのオーディオ信号、前記少なくとも1つのメタデータ、前記少なくとも1つのパラメータ、および、少なくとも1つの反射フィルタに基づいて出力オーディオ信号を合成するステップと、
を実行させるように構成される、装置。
【請求項12】
前記合成された出力オーディオ信号は、前記装置に、室内音響に関連する前記少なくとも1つのパラメータに基づいて、反射フィルタのデータベースから前記少なくとも1つの反射フィルタを選択させる、請求項11に記載の装置。
【請求項13】
室内音響に関連する前記少なくとも1つのパラメータは、材料パラメータである、請求項11に記載の装置。
【請求項14】
前記装置は、
少なくとも1つの材料について前記少なくとも1つの反射フィルタを取得するステップと、
少なくとも1つの材料について少なくとも1つの反射フィルタのデータベースを取得するステップと、
さらに、前記データベースから前記少なくとも1つの反射フィルタを識別するように構成されたインジケータを取得するステップと、
のうちの1つを実行する、
請求項11に記載の装置。
【請求項15】
少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備える装置であって、
該少なくとも1つのメモリおよび該コンピュータプログラムコードは、該少なくとも1つのプロセッサを用いて、該装置に、少なくとも、
少なくとも1つのインパルス応答を取得するステップであって、
前記少なくとも1つのインパルス応答は、レンダリング中に知覚可能な音色で構成される、ステップと、
音色修正フィルタを作成するステップと、
少なくとも1つのオーディオ信号を得るステップと、
前記少なくとも1つのオーディオ信号に基づいて少なくとも1つの出力オーディオ信号をレンダリングするステップであって、前記少なくとも1つの出力信号は、音色修正フィルタの適用に基づく、ステップと、
を実行させるように構成される、装置。
【請求項16】
前記少なくとも1つのインパルス応答は室内インパルス応答であり、前記装置は、
少なくとも1つのリファレンス室内インパルス応答を取得するステップであって、前記少なくとも1つのリファレンス室内インパルスは知覚可能なリファレンス音色で構成される、ステップと、
音色修正を適用するために、定義された指向性空間知覚を維持しながら、前記少なくとも1つのリファレンス室内インパルス応答の周波数応答に基づいて前記少なくとも1つの室内インパルス応答の振幅スペクトルを修正するステップと、
を実行する、請求項15に記載の装置。
【請求項17】
前記装置は、前記少なくとも1つの室内インパルス応答の前記振幅スペクトルを、定義された方向性空間知覚を維持しながら、修正するステップを実行し、
さらに前記装置は、前記少なくとも1つの室内インパルス応答に前記音色修正フィルタを適用するステップを実行し、
前記音色修正フィルタは、前記少なくとも1つの室内インパルス応答の前記振幅スペクトルを、少なくとも1つの初期反射の時間構造を維持しながら、前記リファレンス室内インパルス応答の振幅スペクトルにより近くなるように修正するように構成される、
請求項16に記載の装置。
【請求項18】
前記装置は、
前記音色修正フィルタを前記少なくとも1つのオーディオ信号に適用するステップと、
前記少なくとも1つのオーディオ信号に関連する少なくとも1つのメタデータを取得するステップと、
をさらに実行し、
前記レンダリングされた少なくとも1つの出力オーディオ信号は、前記装置に、音色修正された前記少なくとも1つのオーディオ信号に基づいて、反射オーディオ信号を合成させる、
請求項15に記載の装置。
【請求項19】
前記装置は、さらに、前記少なくとも1つのオーディオ信号を、初期部分オーディオ信号と後期部分オーディオ信号とに分離
前記装置は、前記音色修正フィルタを、前記音色修正フィルタを、前記少なくとも1つのオーディオ信号の初期部分と前記少なくとも1つのオーディオ信号の後期部分とを別々に適用するように、前記少なくとも1つのオーディオ信号に適用し、
前記レンダリングされた少なくとも1つの出力オーディオ信号が、前記装置に、
少なくとも1つのオーディオ信号の前記音色修正された初期部分と、前記少なくとも1つのオーディオ信号の前記音色修正された後期部分とを別々にレンダリングするステップと、
前記少なくとも1つの出力オーディオ信号を生成するために、前記少なくとも1つのオーディオ信号の前記別々にレンダリングされ音色修正された初期部分と、前記少なくとも1つのオーディオ信号の前記音色修正された後期部分とを組み合わせるステップと、
を実行させる、
請求項18に記載の装置。
【請求項20】
前記取得された少なくとも1つのリファレンス室内インパルスは、知覚可能なリファレンス音色で、前記装置に、
所望の品質を有する物理的音響空間の空間的または非空間的室内インパルス応答を得るステップと、
仮想空間の音響シミュレーションを得るステップと、
リスナーの物理的な再生空間の音響測定またはシミュレーションを行うステップと、
高品質の残響オーディオ効果のモノフォニックインパルス応答を得るステップと、
のうちの1つを実行させる、
請求項17に記載の装置。
【国際調査報告】