(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-31
(54)【発明の名称】オーディオ装置及びその動作方法
(51)【国際特許分類】
H04S 7/00 20060101AFI20241024BHJP
G10K 15/10 20060101ALI20241024BHJP
【FI】
H04S7/00 300
G10K15/10
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024525040
(86)(22)【出願日】2022-10-19
(85)【翻訳文提出日】2024-04-25
(86)【国際出願番号】 EP2022078998
(87)【国際公開番号】W WO2023072684
(87)【国際公開日】2023-05-04
(32)【優先日】2021-10-26
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】590000248
【氏名又は名称】コーニンクレッカ フィリップス エヌ ヴェ
【氏名又は名称原語表記】Koninklijke Philips N.V.
【住所又は居所原語表記】High Tech Campus 52, 5656 AG Eindhoven,Netherlands
(74)【代理人】
【識別番号】110001690
【氏名又は名称】弁理士法人M&Sパートナーズ
(72)【発明者】
【氏名】コッペンス イェルーン ジェラルドゥス ヘンリクス
【テーマコード(参考)】
5D162
5D208
【Fターム(参考)】
5D162AA06
5D162CC36
5D208AA08
5D208AC01
(57)【要約】
環境の残響パラメータのデータを含むオーディオデータ及びメタデータを受信する受信機501を備えたオーディオ装置である。修正器503は、残響遅延パラメータ又は残響減衰率パラメータである第1の残響パラメータの修正された第1のパラメータ値を生成する。補償器505は、第1の残響パラメータの修正に応じて、第2の残響パラメータの修正された第2のパラメータ値を生成する。第2の残響パラメータは、音響環境における残響のエネルギーを示す。レンダラ400は、メタデータを使用してオーディオデータをレンダリングすることによってオーディオ出力信号を生成し、具体的には、残響レンダラ407が、オーディオ信号のうちの少なくとも1つから、且つ第1の修正されたパラメータ値及び第2の修正されたパラメータ値に応じて、少なくとも1つのオーディオ出力信号の少なくとも1つの残響信号成分を生成する。補償は、柔軟な適応を可能にしながら、知覚される残響の改善を提供する。
【特許請求の範囲】
【請求項1】
オーディオデータ及び前記オーディオデータのメタデータを受信する受信機であって、前記オーディオデータが、環境内のオーディオ源を表す複数のオーディオ信号のデータを含み、前記メタデータが、前記環境の残響パラメータのデータを含む、受信機と、
第1の残響パラメータの初期の第1のパラメータ値を修正することによって、修正された第1のパラメータ値を生成する修正器であって、前記第1の残響パラメータが、残響遅延パラメータ及び残響減衰率パラメータからなる群からのパラメータである、修正器と、
前記第1の残響パラメータの前記修正に応じて、第2の残響パラメータの初期の第2のパラメータ値を修正することによって、修正された第2のパラメータ値を生成する補償器であって、前記第2の残響パラメータが、前記メタデータに含まれ、前記音響環境内の残響のエネルギーを示す、補償器と、
前記メタデータを使用して前記オーディオデータをレンダリングすることによって、オーディオ出力信号を生成するレンダラであって、前記レンダラが、前記オーディオ信号のうちの少なくとも1つから、且つ前記第1の修正されたパラメータ値及び前記第2の修正されたパラメータ値に応じて、少なくとも1つのオーディオ出力信号の少なくとも1つの残響信号成分を生成する残響レンダラを備える、レンダラとを備える、オーディオ装置。
【請求項2】
前記補償器が、拡散残響のモデルを備え、前記モデルが、前記第1の残響パラメータ及び前記第2の残響パラメータに依存し、前記補償器が、前記モデルに応じて、修正された前記第2のパラメータ値を決定する、請求項1に記載のオーディオ装置。
【請求項3】
前記第1の残響パラメータが、残響減衰率である、請求項1又は2に記載のオーディオ装置。
【請求項4】
前記補償器が、前記第1の残響パラメータの前記修正から得られる前記残響減衰率の振幅基準の変化を低減するために、前記第2のパラメータ値を修正する、請求項3に記載のオーディオ装置。
【請求項5】
前記補償器は、前記残響減衰率の前記振幅基準が前記第1の残響パラメータの前記修正に対して実質的に変化しないように、前記第2のパラメータ値を修正する、請求項4に記載のオーディオ装置。
【請求項6】
前記第1の残響パラメータが、前記環境内の残響の伝播時間遅延を示す残響遅延パラメータである、請求項1から5のいずれか一項に記載のオーディオ装置。
【請求項7】
前記第2の残響パラメータが、前記第1の残響パラメータによって示される伝播時間遅延の後の前記音響環境内の残響のエネルギーを示す、請求項1から6のいずれか一項に記載のオーディオ装置。
【請求項8】
前記補償器が、第1の残響エネルギー尺度と第2の残響エネルギー尺度との間の差を低減するために、修正された前記第2のパラメータ値を決定し、前記第1の残響エネルギー尺度が、修正された遅延の後の残響のエネルギーであり、前記修正された遅延が、修正された前記第1のパラメータ値によって表され、且つ修正された前記遅延値及び修正された前記第2のパラメータ値を使用して残響モデルから決定され、前記第2の残響エネルギー尺度が、修正された前記遅延の後の残響のエネルギーであり、且つ初期遅延値及び前記初期の第2のパラメータ値を使用して前記残響モデルから決定される、請求項6又は7に記載のオーディオ装置。
【請求項9】
前記補償器は、前記第1の残響エネルギー尺度と前記第2の残響エネルギー尺度とが実質的に同じであるように、修正された前記第2の残響パラメータ値を決定する、請求項8に記載のオーディオ装置。
【請求項10】
前記補償器が、修正された前記第1のパラメータ値によって示される遅延を超える遅延の時間の関数として残響振幅の差を低減するように、前記第2のパラメータ値を修正する、請求項6から9のいずれか一項に記載のオーディオ装置。
【請求項11】
前記第2のパラメータが、前記環境内の全放出音に対する拡散残響音のレベルを表す、請求項1から10のいずれか一項に記載のオーディオ装置。
【請求項12】
前記第2の残響パラメータは、前記環境内の音伝播に対する直接応答のエネルギーが前記環境内の残響のエネルギーと等しい距離を表す、請求項1から10のいずれか一項に記載のオーディオ装置。
【請求項13】
前記第1の残響パラメータが、前記メタデータの前記残響パラメータのうちの1つである、請求項1から10のいずれか一項に記載のオーディオ装置。
【請求項14】
前記レンダラが、前記第2のパラメータ値に依存して、前記少なくとも1つの残響信号成分のレベルゲインを決定する、請求項1から13のいずれか一項に記載のオーディオ装置。
【請求項15】
オーディオ装置のための動作の方法であって、前記方法が、
オーディオデータ及び前記オーディオデータのメタデータを受信するステップであって、前記オーディオデータが、環境内のオーディオ源を表す複数のオーディオ信号のデータを含み、前記メタデータが、前記環境の残響パラメータのデータを含む、ステップと、
第1の残響パラメータの初期の第1のパラメータ値を修正することによって、第1のパラメータ値を修正するステップであって、前記第1の残響パラメータが、残響遅延パラメータ及び残響減衰率パラメータからなる群からのパラメータである、ステップと、
前記第1の残響パラメータの前記修正に応じて、第2の残響パラメータの初期の第2のパラメータ値を修正することによって、修正された第2のパラメータ値を生成するステップであって、前記第2の残響パラメータが、前記メタデータに含まれ、前記音響環境内の残響のエネルギーを示す、ステップと、
前記メタデータを使用して前記オーディオデータをレンダリングすることによってオーディオ出力信号を生成するステップであって、前記レンダリングが、前記オーディオ信号のうちの少なくとも1つから、且つ前記第1の修正されたパラメータ値及び前記第2の修正されたパラメータ値に応じて、少なくとも1つのオーディオ出力信号の少なくとも1つの残響信号成分を生成することを含む、ステップとを有する、方法。
【請求項16】
コンピュータにおいて実行されると、請求項15に記載の方法の全てのステップを実行するコンピュータプログラムコード手段を備えた、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ出力信号を生成するための装置及び方法に関し、特に、排他的ではないが、例えば、仮想現実体験の一部として環境の残響特性をエミュレートする拡散残響信号成分を含むオーディオ出力信号を生成するための装置及び方法に関する。
【背景技術】
【0002】
近年、視聴覚コンテンツに基づく体験の多様性及び範囲が大幅に増加しており、そのようなコンテンツを利用及び消費する新しいサービス及び手法が継続的に開発及び導入されている。特に、より深く関与できる没入型の体験をユーザに与えるために、多くの空間的で対話型のサービス、アプリケーション、及び体験が開発されている。
【0003】
このようなアプリケーションの例としては、仮想現実(VR:Virtual Reality)、拡張現実(AR:Augmented Reality)、及び混合現実(MR:Mixed Reality)アプリケーションが挙げられ、これらは急速に主流になりつつあり、多くのソリューションが消費者市場に向けられている。また、多くの標準化団体によって多くの標準が開発されている。このような標準化活動により、例えば、ストリーミング、ブロードキャスト、レンダリングなどを含む、VR/AR/MRシステムの様々な側面に関する標準が積極的に開発されている。
【0004】
VRアプリケーションは、ユーザが異なる世界/環境/シーンにいることに対応するユーザ体験を提供する傾向があるのに対し、AR(混合現実MRを含む)アプリケーションは、ユーザが現在の環境にいるが、追加情報又は仮想物体若しくは情報が追加されていることに対応するユーザ体験を提供する傾向がある。したがって、VRアプリケーションは、完全没入型の合成生成された世界/シーンを提供する傾向があるのに対し、ARアプリケーションは、ユーザが物理的に存在する現実のシーンに重ねて部分的に合成された世界/シーンを提供する傾向がある。ただし、これらの用語は、多くの場合、同じ意味で使用され、多くの部分で重複している。以下では、仮想現実/VRという用語は、仮想現実及び拡張/混合現実の両方を表すために使用される。
【0005】
一例として、ますます人気が高まっているサービスは、ユーザが、システムと積極的且つ動的に対話して、レンダリングのパラメータを変更し、これが、動きや、ユーザの位置及び向きにおける変化に適応できるような方式で、画像及びオーディオを提供することである。多くのアプリケーションにおける非常に魅力的な機能は、視覚者の効果的な視聴位置及び視聴方向を変更できる機能、例えば、提示されているシーン内で視覚者が動いて「見回す」ことができるようなものなどである。
【0006】
このような機能により、具体的には、仮想現実体験をユーザに提供できるようになる。これにより、ユーザは、仮想環境内を(比較的)自由に動き回り、自分の位置及び自分が見ている場所を動的に変更できるようになる。通常、このような仮想現実アプリケーションは、シーンの三次元モデルに基づいており、モデルは、動的に評価されて、特定の要求されたビューを提供する。このアプローチは、例えば、コンピュータ及びコンソール用の、一人称シューティングゲームのカテゴリなどのゲームアプリケーションからよく知られている。
【0007】
また、特に仮想現実アプリケーションでは、提示されている画像が三次元画像であり、通常は立体ディスプレイを使用して提示されることが望ましい。実際、視覚者の没入感を最適化するために、通常、提示されたシーンを三次元シーンとしてユーザが体験することが好ましい。実際、仮想現実体験では、ユーザが仮想世界に対して自分の位置、視点、及び時間における瞬間を選択できることが好ましい。
【0008】
ほとんどのVR/ARアプリケーションは、視覚的レンダリングに加えて、更に、対応するオーディオ体験を提供する。多くのアプリケーションにおいて、オーディオは、オーディオ源が視覚的シーン内の対応する物体の位置に対応する位置から到着するように知覚される空間オーディオ体験を提供することが好ましい。したがって、オーディオシーンとビデオシーンとは、一貫性があり、両方が完全な空間体験を提供するものとして知覚されることが好ましい。
【0009】
例えば、多くの没入型体験は、バイノーラルオーディオレンダリング技術を使用したヘッドフォン再生によって生成される仮想オーディオシーンによって提供される。多くのシナリオでは、このようなヘッドフォン再生は、レンダリングをユーザの頭の動きに応答させることができるようなヘッドトラッキングに基づいており、これにより没入感が大幅に向上する。
【0010】
多くのアプリケーションにとって重要な機能は、オーディオ環境の自然でリアルな知覚を提供できるオーディオをどのように生成及び/又は配信するかということである。例えば、仮想現実アプリケーション用の音声を生成する場合、所望のオーディオ源を生成するだけでなく、減衰、反射、カラーレーションなどを含むオーディオ環境の現実的な知覚を提供するために、これらのオーディオ源も修正することが重要である。
【0011】
室内音響、より一般的には環境音響では、音波が環境の壁、床、天井、物体などに反射することで、音声源信号の遅延及び減衰(通常は周波数に依存する)の変形形態が生じ、異なるパスを介して聴取者(すなわち、VR/ARシステムのユーザ)に到達する。組み合わせ効果は、インパルス応答によってモデル化でき、この応答は、以降、室内インパルス応答(RIR:Room Impulse Response)と呼ばれることがある(この用語は、部屋という形式の音響環境の特定の用途を示唆しているが、部屋に対応するかどうかに関係なく、音響環境に関してより一般的に使用される傾向がある)。
【0012】
図1に示すように、室内インパルス応答は、通常、音声源から聴取者までの距離に依存する直接音と、それに続く部屋の音響特質を特徴付ける残響部分とからなる。部屋のサイズ及び形状、部屋内の音声源及び聴取者の位置、部屋の表面の反射特質は全て、この残響部分の特性に影響する。
【0013】
残響部分は、通常は重なり合う2つの時間領域に分解できる。第1の領域は、いわゆる早期反射を含み、これは、聴取者に到達する前に、部屋内の壁又は障害物で発生した音声源の孤立した反射を表す。タイムラグ/(伝播)遅延が増加するにつれて、一定の時間間隔内に存在する反射の数が増加し、パスは、二次以上の反射を含む(例えば、反射が複数の壁、又は壁及び天井の両方から離れている場合など)。
【0014】
残響部分における第2の領域は、これらの反射の密度が人間の脳によってそれ以上分離できなくなるポイントまで増加する部分である。この領域は通常、拡散残響、後期残響、又は残響テールと呼ばれる。
【0015】
残響部分は、音源の距離、部屋のサイズ及び音響特質に関する情報を聴覚系に与える手がかりを含む。残響部分のエネルギーと無響部分のエネルギーとの関係は、音声源の知覚される距離を大きく左右する。最も早期の反射のレベル及び遅延は、音声源が壁にどれだけ近いかについての手がかりを提供し、人体計測によるフィルタリングは、特定の壁、床、又は天井の評価を強化する。
【0016】
(早期)反射の密度は、部屋の知覚される大きさに寄与する。反射のエネルギーレベルが60dB低下するのにかかる時間は、残響時間T60で示され、部屋での反射がどれだけ早く消散するかを表す尺度としてよく使用される。残響時間は、部屋の音響特質、例えば具体的には、壁の反射率が高いか(例えば、浴室)、又は音の吸収が多いか(例えば、家具、カーペット、及びカーテンのある寝室)に関する情報を提供する。
【0017】
更に、RIRは、頭、耳、及び肩によってフィルタリングされるため、すなわち、頭部関連インパルス応答(HRIR:head related impulse response)であるため、バイノーラル室内インパルス応答(BRIR:binaural room impulse response)の一部である場合、ユーザの人体計測特質に依存する。
【0018】
後期残響の反射は、聴取者によって区別及び分離できないため、例えば、よく知られているJotリバーブレータのように、フィードバック遅延ネットワークを使用するパラメトリックリバーブレータを用いてシミュレーションされ、パラメトリックに表されることが多い。
【0019】
早期反射の場合、入射方向及び距離に依存する遅延は、人間が部屋及び音声源の相対位置に関する情報を抽出するための重要な手がかりとなる。したがって、早期反射のシミュレーションは、後期残響よりも明確でなければならない。したがって、効率的な音響レンダリングアルゴリズムでは、早期反射は、後期残響とは異なるようにシミュレーションされる。早期反射のよく知られた方法は、部屋の各境界の音声源をミラーリングして、反射を表す仮想音声源を生成することである。
【0020】
早期反射の場合、部屋の境界(壁、天井、床)に対するユーザ及び/又は音声源の位置が関係するが、後期残響の場合、部屋の音響応答は拡散するため、部屋全体が均質になる傾向がある。これにより、後期残響のシミュレーションは、早期反射よりも計算効率が高くなることが多い。
【0021】
部屋によって定義される後期残響の2つの主な特質は、所与のレベルを上回る時間に対するインパルス応答の勾配及び振幅を表すパラメータである。どちらのパラメータも自然な部屋では周波数に強く依存する傾向がある。
【0022】
拡散残響に対応するインパルス応答の勾配及び振幅を示すために伝統的に使用されているパラメータの例としては、既知のT60値及び残響レベル/エネルギーが挙げられる。最近では、振幅レベルを示す他の指標、例えば、具体的に、拡散残響エネルギーと全放出音源エネルギーとの比を示すパラメータが提案されている。
【0023】
このような既知のアプローチは、レンダリング側で環境の残響特性を正確に再現できる残響の効率的な記載を提供する傾向にある。ただし、これらのアプローチは、環境内の残響を正確にレンダリングしようとする場合には有利になる傾向があるが、シナリオによっては最適ではない傾向があり、特に比較的柔軟性に欠ける傾向がある。通常、処理及び/又は結果として得られる残響成分を、特に(知覚される)オーディオ品質を低下させることなく、及び/又は推奨以上の計算リソースを必要とせずに、適応及び修正することは困難な傾向がある。
【発明の概要】
【発明が解決しようとする課題】
【0024】
したがって、環境の残響オーディオをレンダリングするための改善されたアプローチが有利である。特に、動作の改善、柔軟性の向上、複雑さの軽減、実施の容易化、オーディオ体験の向上、オーディオ品質の改善、計算負荷の低減、様々な位置に対する好適性の改善、仮想/混合/拡張現実アプリケーションのパフォーマンスの改善、拡散残響の知覚的手がかりの改善、適応性の向上及び/若しくは容易化、処理の柔軟性の向上、レンダリング側のカスタマイズの改善、並びに/又はパフォーマンス及び/若しくは動作の改善を可能にするアプローチは有利である。
【0025】
したがって、本発明は、上述した欠点の1つ又は複数を単独で、又は任意の組み合わせで、好ましくは緩和、軽減、又は排除しようとするものである。
【課題を解決するための手段】
【0026】
本発明の態様によれば、オーディオ装置が提供され、オーディオ装置は、オーディオデータ及びオーディオデータのメタデータを受信するように構成された受信機であって、オーディオデータが、環境内のオーディオ源を表す複数のオーディオ信号のデータを含み、メタデータが、環境の残響パラメータのデータを含む、受信機と、第1の残響パラメータの初期の第1のパラメータ値を修正することによって、修正された第1のパラメータ値を生成するように構成された修正器であって、第1の残響パラメータが、残響遅延パラメータ及び残響減衰率パラメータからなる群からのパラメータである、修正器と、第1の残響パラメータの修正に応じて、第2の残響パラメータの初期の第2のパラメータ値を修正することによって、修正された第2のパラメータ値を生成するように構成された補償器であって、第2の残響パラメータが、メタデータに含まれており、音響環境内の残響のエネルギーを示す、補償器と、メタデータを使用してオーディオデータをレンダリングすることによって、オーディオ出力信号を生成するように構成されたレンダラであって、レンダラが、オーディオ信号のうちの少なくとも1つから、且つ第1の修正されたパラメータ値及び第2の修正されたパラメータ値に応じて、少なくとも1つのオーディオ出力信号の少なくとも1つの残響信号成分を生成するように構成された残響レンダラを備える、レンダラと、を備える。
【0027】
本発明は、残響成分を含むオーディオのレンダリングの改善及び/又は容易化を提供する。本発明は、多くの実施形態及びシナリオにおいて、より自然に聞こえる(拡散した)残響信号を生成し、音響環境の改善された知覚を提供する。オーディオ出力信号及び残響信号成分のレンダリングは、複雑さが軽減し、計算リソース要件が軽減されて生成されることが多い。
【0028】
このアプローチは、処理及び/又はレンダリングされたオーディオの柔軟性及び/又は適応を改善、増加、及び/又は容易化を提供する。このような適応は、多くのアプリケーション及び実施形態において、パラメータ値を修正することによって実行される適応によって実質的に容易にされる。特に、多くの場合、アルゴリズム、プロセス、及び/又はレンダリング動作は変更されず、パラメータ値を修正するだけで必要な適応が達成される。残響出力及び/又は処理の適応若しくは修正は、残響遅延パラメータ及び/又は残響減衰率パラメータがどのように変更されるかに基づいて、第2の残響パラメータ(音響環境内の残響のエネルギーを示す)を修正することによって更に容易にされる。
【0029】
残響遅延パラメータ及び/又は残響減衰率パラメータを修正することは、特に効率的で有利な動作及び残響の適応を提供し、第2の残響パラメータは、この修正に対して自動的に補償される。これにより、残響遅延パラメータ及び/又は残響減衰率パラメータの修正による意図しない影響が自動的に低減又は除去される。例えば、適応の知覚的影響を軽減し、且つ/又は、例えば、より一貫した及び/又は調和のとれたオーディオ信号出力を提供する。
【0030】
このアプローチにより、音響環境における拡散残響音を比較的少ないパラメータで効果的に表現できるようになる。
【0031】
このアプローチにより、多くの実施形態において、音源及び/又は聴取者の位置には依存せずに拡散残響信号を生成できるようになる。これにより、位置が変化する動的アプリケーション、例えば、多くの仮想現実及び拡張現実アプリケーションのための拡散残響信号を効率的に生成できるようになる。
【0032】
オーディオ装置は、単一のデバイス又は単一の機能ユニットに実装されるか、又は異なるデバイス若しくは機能にわたって分散される。例えば、オーディオ装置は、デコーダ機能ユニットの一部として実装されるか、又は一部の機能要素がデコーダ側で実行され、他の要素がエンコーダ側で実行されるように分散される。
【0033】
補償器は、修正された第1のパラメータ値と初期の第1のパラメータ値との間の差に応じて、修正された第2のパラメータ値を生成するように構成される。
【0034】
多くの実施形態において、レンダラは、オーディオ信号の直接パス成分及び/又は早期反射成分をレンダリングするための更なるレンダラを備え、レンダラは、直接パス成分、早期反射成分、及び少なくとも1つの残響信号の組み合わせに応じて出力信号を生成するように構成される。
【0035】
残響レンダラは、拡散残響レンダラである。残響レンダラは、フィードバック遅延ネットワーク(FDN:Feedback Delay Network)リバーブレータ、具体的にはJotリバーブレータなどのパラメトリック残響レンダラである。
【0036】
メタデータは、オーディオ信号/オーディオ源及び/又は環境に関するものである。
【0037】
本発明の任意選択の特徴によれば、補償器は、補償器は、拡散残響のモデルを備え、モデルは、第1の残響パラメータ及び第2の残響パラメータに依存し、補償器は、モデルに応じて、修正された第2のパラメータ値を決定するように構成される。
【0038】
このアプローチは、周波数依存性を反映する拡散残響信号を生成するための特に効率的な動作を提供する。
【0039】
モデルは、数学的な関数/方程式/又は関数/方程式のセットである。
【0040】
本発明の任意選択の特徴によれば、第1の残響パラメータは、残響減衰率である。
【0041】
本発明は、パフォーマンス及び/又は動作の改善を提供する。これにより、適応及び柔軟性が容易化及び/又は改善され、レンダリングされた残響の制御の強化が可能になる。残響減衰率パラメータは、特に効率的な適応を提供し、特に、環境内で知覚される残響特質の実際的な適応を可能にする。
【0042】
残響減衰率パラメータは、例えば、T60(又はより一般的にはTxxは任意の好適な整数である)パラメータである。
【0043】
本発明の任意選択の特徴によれば、補償器は、第1の残響パラメータの修正から得られる残響減衰率の振幅基準の変化を低減するために、第2のパラメータ値を修正するように構成される。
【0044】
これにより、特に有利な適応が可能となり、非常に効率的でありながら通常は複雑さの低い補償が可能となる。
【0045】
振幅基準は、残響減衰率と第2のパラメータとの関数である。
【0046】
本発明の任意選択の特徴によれば、補償器は、残響減衰率の振幅基準が第1の残響パラメータの修正に対して実質的に変化しないように、第2のパラメータ値を修正するように構成される。
【0047】
これにより、特に有利な動作及び/又はパフォーマンスが可能になる。
【0048】
本発明の任意選択の特徴によれば、第1の残響パラメータは、環境内の残響の伝播時間遅延を示す残響遅延パラメータである。
【0049】
本発明は、パフォーマンス及び/又は動作の改善を提供する。これにより、適応及び柔軟性が容易化及び/又は改善され、レンダリングされた残響の制御の強化が可能になる。残響遅延パラメータは、特に効率的な適応を提供し、特に、環境内で知覚される残響特質の実際的な適応を可能にする。
【0050】
残響遅延パラメータは、具体的には、プリディレイパラメータである。
【0051】
伝播時間遅延は、部屋内の波の伝播における基準イベントからの時間オフセットを示す。通常、基準イベントはオーディオ源での音エネルギーの放出であるが、場合/実施形態によっては、直接パス応答である。より具体的には、室内インパルス応答のラグを示す。多くの実施形態において、それは、音響環境における残響のエネルギーを示す第2の残響パラメータが計算されるオフセット時間を示す。この値は、残響パラメータによって表される室内インパルス応答を分析することによって選択される。例えば、伝播時間遅延は、音源における放出と信号の拡散後期残響部分(すなわち、早期反射後の音)の開始との間の遅延を示し、秒単位で指定され、又は信号が拡散する部屋応答のラグ、すなわち、全ての方向からの同じ入射レベル、及び部屋の全ての位置にわたって同様のレベルを示す。
【0052】
本発明の任意選択の特徴によれば、第2の残響パラメータは、第1の残響パラメータによって示される伝播時間遅延の後の音響環境内の残響のエネルギーを示す。
【0053】
これにより、特に有利な動作及び/又はパフォーマンスが可能になる。
【0054】
本発明の任意選択の特徴によれば、補償器は、第1の残響エネルギー尺度と第2の残響エネルギー尺度との間の差を低減するために、修正された第2のパラメータ値を決定するように構成されており、第1の残響エネルギー尺度は、修正された遅延の後の残響のエネルギーであり、修正された遅延は、修正された第1のパラメータ値によって表され、且つ修正された遅延値及び修正された第2のパラメータ値を使用して残響モデルから決定され、第2の残響エネルギー尺度は、修正された遅延の後の残響のエネルギーであり、且つ初期遅延値及び初期の第2のパラメータ値を使用して残響モデルから決定される。
【0055】
これにより、特に有利な動作及び/又はパフォーマンスが可能になる。これにより、多くのシナリオでは、レンダリングされた残響に対する残響遅延パラメータの修正による知覚的影響を軽減できるようになる。
【0056】
本発明の任意選択の特徴によれば、補償器は、第1の残響エネルギー尺度と第2の残響エネルギー尺度とが実質的に同じであるように、修正された第2の残響パラメータ値を決定するように構成される。
【0057】
これにより、特に有利な動作及び/又はパフォーマンスが可能になる。これにより、多くのシナリオでは、レンダリングされた残響に対する残響遅延パラメータの修正による知覚的影響を低減し、又は更には実質的になくせるようになる。
【0058】
本発明の任意選択の特徴によれば、補償器は、修正された第1のパラメータ値によって示される遅延を超える遅延の時間の関数として残響振幅の差を低減するように、第2のパラメータ値を修正するように構成される。
【0059】
これにより、特に有利な動作及び/又はパフォーマンスが可能になる。これにより、多くのシナリオでは、レンダリングされた残響に対する残響遅延パラメータの修正による知覚的影響を軽減できるようになる。
【0060】
多くの実施形態において、残響レンダラは、第1の修正された残響パラメータによって示される伝播遅延時間を超える伝播遅延に対応する寄与のみを含めるように、少なくとも1つの残響信号成分を生成するように構成される。
【0061】
いくつかの実施形態では、残響レンダラは、第1の修正された残響パラメータによって示される伝播遅延時間を超える時間における室内インパルス応答の一部に対応する寄与のみを含めるように、少なくとも1つの残響信号成分を生成するように構成される。
【0062】
本発明の任意選択の特徴によれば、第2のパラメータは、環境内の全放出音に対する拡散残響音のレベルを表す。
【0063】
これにより、特に有利な動作及び/又はパフォーマンスが提供される。
【0064】
多くの実施形態において、第2のパラメータは、環境内の全放出エネルギーに対する拡散残響音のエネルギーを表す。
【0065】
拡散残響信号対全信号の関係/比は、拡散残響信号レベル対全信号レベル比、又は拡散残響レベル対全レベル比、又は放出音源エネルギー対拡散残響エネルギー比(又はその変動/順列)とも呼ばれる。
【0066】
本発明の任意選択の特徴によれば、第2の残響パラメータは、環境内の音伝播に対する直接応答のエネルギーが環境内の残響のエネルギーと等しい距離を表す。
【0067】
これにより、特に有利な動作及び/又はパフォーマンスが提供される。
【0068】
第2の残響パラメータは、臨界距離パラメータである。
【0069】
いくつかの実施形態では、第2のパラメータは、環境に対する室内インパルス応答の所与の決定された時間/ラグにおける振幅を表す。
【0070】
本発明の任意選択の特徴によれば、第1の残響パラメータは、メタデータの残響パラメータのうちの1つである。
【0071】
本発明の任意選択の特徴によれば、レンダラは、第2のパラメータ値に依存して、少なくとも1つの残響信号成分のレベルゲインを決定するように構成される。
【0072】
これにより、多くのシナリオにおいて、残響信号成分の効率的で有利な生成が提供される。レベルゲインは、例えば、残響信号成分のレベルを決定/設定/制御するゲイン/スケール係数である。
【0073】
これにより、特に有利な動作及び/又はパフォーマンスが提供される。
【0074】
本発明の態様によれば、オーディオ装置のための動作の方法が提供され、オーディオ装置は、オーディオデータ及びオーディオデータのメタデータを受信することであって、オーディオデータが、環境内のオーディオ源を表す複数のオーディオ信号のデータを含み、メタデータが、環境の残響パラメータのデータを含む、受信することと、第1の残響パラメータの初期の第1のパラメータ値を修正することによって、第1のパラメータ値を修正することであって、第1の残響パラメータが、残響遅延パラメータ及び残響減衰率パラメータからなる群からのパラメータである、修正することと、第1の残響パラメータの修正に応じて、第2の残響パラメータの初期の第2のパラメータ値を修正することによって、修正された第2のパラメータ値を生成することであって、第2の残響パラメータが、メタデータに含まれており、音響環境内の残響のエネルギーを示す、生成することと、メタデータを使用してオーディオデータをレンダリングすることによってオーディオ出力信号を生成することであって、レンダリングすることが、オーディオ信号のうちの少なくとも1つから、且つ第1の修正されたパラメータ値及び第2の修正されたパラメータ値に応じて、少なくとも1つのオーディオ出力信号の少なくとも1つの残響信号成分を生成することを含む、生成することとを有する。
【0075】
本発明のこれら及び他の態様、特徴、及び利点は、以下に記載する実施形態を参照して明らかとなり、解明されるであろう。
【0076】
本発明の実施形態を、単なる例としてのみ、以下に図面を参照して記載する。
【図面の簡単な説明】
【0077】
【
図4】本発明のいくつかの実施形態による、オーディオ出力を生成するためのレンダラの例を示す。
【
図5】本発明のいくつかの実施形態による、オーディオ出力を生成するためのオーディオ装置の例を示す。
【
図7】室内インパルス応答の振幅及び蓄積エネルギーの例を示す。
【
図10】室内インパルス応答の残響部分の例を示す。
【
図11】室内インパルス応答の残響部分の例を示す。
【
図12】室内インパルス応答の残響部分の例を示す。
【
図13】パラメトリックリバーブレータの例を示す。
【発明を実施するための形態】
【0078】
以下の記載は、仮想現実アプリケーションのためのオーディオ処理及びレンダリングに焦点を当てているが、記載される原理及び概念は他の多くのアプリケーション及び実施形態で使用できることが理解されるであろう。
【0079】
ユーザが仮想世界内を動き回ることができる仮想体験は、ますます人気が高まっており、そのような需要を満たすサービスが開発されている。
【0080】
いくつかのシステムでは、VRアプリケーションは、例えば、いずれのリモートVRデータも処理も使用しない、又はアクセスさえしないスタンドアロンデバイスによって視認者へローカルに提供される。例えば、ゲームコンソールなどのデバイスは、シーンデータを記憶するためのストアと、視覚者の姿勢を受信/生成するための入力部と、シーンデータから、対応する画像を生成するためのプロセッサと、を備える。
【0081】
他のシステムでは、VRアプリケーションは、視覚者からリモートで実装及び実行される。例えば、ユーザにとってローカルなデバイスは、視覚者の姿勢を生成するためにデータを処理するリモートデバイスに送信される動き/姿勢データを検出/受信する。次いで、リモートデバイスは、シーンを記述するシーンデータに基づいて、ユーザの姿勢に適したビュー画像及び対応するオーディオ信号を生成する。ビュー画像及び対応するオーディオ信号は、視覚者のローカルのデバイスに送信され、そこで提示される。例えば、リモートデバイスは、ビデオストリーム(通常は、ステレオ/3Dビデオストリーム)、及びローカルデバイスによって直接提示される対応するオーディオストリームを直接生成する。したがって、このような例では、ローカルデバイスは、動きデータを送信し、受信したビデオデータを提示すること以外には、いかなるVR処理も実行しない。
【0082】
多くのシステムでは、機能が、ローカルデバイスとリモートデバイスとに分散される。例えば、ローカルデバイスは、受信した入力データ及びセンサデータを処理して、リモートVRデバイスに継続的に送信されるユーザの姿勢を生成する。次いで、リモートVRデバイスは、対応するビュー画像及び対応するオーディオ信号を生成し、これらを提示のためにローカルデバイスに送信する。他のシステムでは、リモートVRデバイスは、ビュー画像及び対応するオーディオ信号を直接生成しないが、関連するシーンデータを選択し、これをローカルデバイスに送信し、その後、ローカルデバイスは、提示されるビュー画像及び対応するオーディオ信号を生成する。例えば、リモートVRデバイスは、最も近いキャプチャポイントを識別し、対応するシーンデータ(例えば、物体源とそれらの位置メタデータとのセット)を抽出し、これをローカルデバイスに送信する。次いで、ローカルデバイスは、受信したシーンデータを処理して、特定の現在のユーザ姿勢の画像及びオーディオ信号を生成する。ユーザ姿勢は通常、頭の姿勢に対応し、ユーザ姿勢への言及は、通常、頭の姿勢への言及に対応すると同様に見なされる。
【0083】
特にブロードキャストサービスのための多くのアプリケーションでは、音源は、ユーザ姿勢には依存しないシーンの画像(ビデオを含む)及びオーディオ表現の形式でシーンデータを送信又はストリーミングする。例えば、特定の仮想的な部屋の範囲内のオーディオ源に対応する信号及びメタデータが、複数のクライアントに送信又はストリーミングされる。次いで、個々のクライアントは、現在のユーザ姿勢に対応するオーディオ信号をローカルで合成する。同様に、音源は、環境内のオーディオ源及び環境の音響特性の記述を含む、オーディオ環境の一般的な記述を送信する。次いで、オーディオ表現がローカルに生成され、例えば、バイノーラルレンダリング及び処理を使用してユーザに提示される。
【0084】
図3は、リモートVRクライアントデバイス301が、例えば、インターネットなどのネットワーク305を介して、VRサーバ303と連携するVRシステムのそのような例を示す。サーバ303は、潜在的に多数のクライアントデバイス301を同時にサポートするように構成される。
【0085】
VRサーバ303は、例えば、適切なユーザ姿勢(姿勢は、位置及び/又は向きと呼ぶ)に対応するビュー画像をローカルに合成するために、クライアントデバイスによって使用される画像データの形態で、画像表現を含む画像信号を送信することによって、ブロードキャスト体験をサポートする。同様に、VRサーバ303は、シーンのオーディオ表現を送信して、オーディオをユーザ姿勢のためにローカルに合成できる。具体的には、ユーザが仮想環境内で動き回ると、合成されてユーザに提示される画像及びオーディオが更新され、(仮想)環境におけるユーザの現在の(仮想)位置及び向きが反映される。
【0086】
したがって、
図3のアプリケーションなどの多くのアプリケーションでは、シーンをモデル化し、データ信号に効率的に含めることができる効率的な画像及びオーディオ表現を生成することが望ましく、データ信号は、様々なデバイスへ送信又はストリームされ、これらのデバイスは、キャプチャ姿勢とは異なる姿勢のビュー及びオーディオを、ローカルに合成できる。
【0087】
いくつかの実施形態では、シーンを表すモデルは、例えば、ローカルに記憶され、適切な画像及びオーディオを合成するためにローカルで使用される。例えば、部屋のオーディオモデルは、部屋の音響特質だけでなく、部屋で聞くことができるオーディオ源の特質の指標も含む。次に、モデルデータを使用して、特定の位置に適切なオーディオを合成する。
【0088】
オーディオシーンがどのように表現されるか、またこの表現がオーディオの生成にどのように使用されるかは重要な問題である。自然で現実的な効果を聴取者に提供することを目的としたオーディオレンダリングは、通常、音響環境のレンダリングを含む。多くの環境のために、これは、部屋などの環境に存在する拡散残響の表現及びレンダリングを含む。そのような拡散残響のレンダリング及び表現は、オーディオが自然で現実的な環境を表現していると知覚されるかどうかかなど、環境の知覚に顕著な効果を有することが分かっている。以下には、オーディオシーンを表し、オーディオ、特に、拡散残響オーディオをレンダリングするための有利なアプローチについて記載する。
【0089】
このアプローチは、
図4に示されるようなレンダラ400を備えるオーディオ装置を参照して記載する。オーディオ装置は、音響環境におけるオーディオを表すオーディオ出力信号を生成するように構成される。具体的には、オーディオ装置は、いくつかのオーディオ源及び所与の音響特質を有する仮想環境内を動き回るユーザによって知覚されるオーディオを表すオーディオを生成する。各オーディオ源は、オーディオ源からの音を表すオーディオ信号、及びオーディオ源の特性を記述するメタデータ(オーディオ信号のレベル指標を提供するものなど)によって表される。加えて、音響環境を特徴付けるメタデータが提供される。
【0090】
レンダラ400は、オーディオ源ごとにパスレンダラ401を備える。各パスレンダラ401は、オーディオ源から聴取者への直接パスを表する直接パス信号成分を生成するように構成される。直接パス信号成分は、聴取者及びオーディオ源の位置に基づいて生成され、具体的には、距離に依存するオーディオ源のための、潜在的に周波数に依存するオーディオ信号と、例えば、ユーザに対する特定の方向のオーディオ源(例えば、非無指向性音源)のための相対ゲインとをスケーリングすることによって、直接信号成分を生成する。
【0091】
多くの実施形態において、レンダラ401はまた、音源位置とユーザ位置との間にある遮蔽又は回折(仮想)要素に基づいて直接パス信号を生成する。
【0092】
多くの実施形態において、パスレンダラ401は、1つ又は複数の反射を含む個々のパスに対して更なる信号成分を生成する。これは、例えば、当業者に知られているように、壁、天井などの反射を評価することによって行われる。直接パス成分及び反射パス成分は、パスレンダラごとに単一の出力信号に組み合わされ、したがって、オーディオ源ごとに直接パス反射及び早期/個別反射を表す単一の信号が生成される。
【0093】
いくつかの実施形態では、各オーディオ源の出力オーディオ信号はバイノーラル信号であり、したがって、各出力信号は、左耳及び右耳(サブ)の両方の信号を含む。
【0094】
パスレンダラ401からの出力信号は、コンバイナ403に提供され、コンバイナ403は、異なるパスレンダラ401からの信号を組み合わせて、単一の組み合わせ信号を生成する。多くの実施形態において、バイノーラル出力信号が生成され、コンバイナは、パスレンダラ401からの個々の信号の、重み付けられた組み合わなどの組み合わせを実行し、すなわち、パスレンダラ401からの全ての右耳信号がともに加算されて、組み合わされた右耳信号を生成し、パスレンダラ401からの全ての左耳信号がともに加算されて、組み合わされた左耳信号を生成する。
【0095】
パスレンダラ及びコンバイナは、通常、好適な計算リソースで、例えば、マイクロコントローラ、マイクロプロセッサ、デジタル信号プロセッサ、又はメモリなどのサポート回路構成を含む中央処理装置などで、処理するために実行可能コードを含む、任意の好適な手法で実装される。複数のパスレンダラは、例えば、専用の処理ユニットのバンクのような並列機能ユニットとして実施されるか、又は各オーディオ源の繰り返し動作として実施されることが理解される。通常、同じアルゴリズム/コードが、各オーディオ源/信号に対して実行される。
【0096】
個々のパスオーディオ成分に加えて、レンダラ400は、環境内の拡散残響を表す信号成分を生成するように更に構成される。拡散残響信号は、具体例では、音源信号をダウンミックス信号に組み合わせ、次いで、残響アルゴリズムをダウンミックス信号に適用して拡散残響信号を生成することによって生成される。
【0097】
図4のオーディオ装置は、複数の音声源(通常、リバーブレータが拡散残響をシミュレーションしている音響環境内の全ての音源)のオーディオ信号を受信し、それらをダウンミックスに組み合わせるダウンミキサ405を備える。したがって、ダウンミックスは、環境内で生成された全ての音を反射する。個々のオーディオ信号の係数/重みは、例えば、対応する音声源のレベルを反映するように設定される。
【0098】
ダウンミックスは、ダウンミックスに基づいて拡散残響信号を生成するように構成された残響レンダラ/リバーブレータ407に供給される。リバーブレータ407は、具体的には、Jotリバーブレータなどのパラメトリックリバーブレータである。リバーブレータ407は、拡散残響信号が供給されるコンバイナ403に結合される。コンバイナ403は次に、拡散残響信号を、個々のパスを表現するパス信号と組み合わせて、聴取者によって知覚される環境内の組み合わせ音を表す組み合わせオーディオ信号を生成する。
【0099】
レンダラは、この例では、環境のオーディオデータ及びメタデータを受信し、受信したデータに基づいて環境の少なくとも一部を表すオーディオをレンダリングするように構成されたオーディオ装置の一部である。
図5は、このような装置の一例を示す図であり、受信したオーディオデータ及びメタデータに基づいてオーディオ出力信号、具体的には残響信号成分を生成するためのアプローチについて、
図4及び
図5を参照して記載する。
図5のオーディオ装置は、具体的には、
図3のクライアントデバイス301に対応するか、又はその一部である。
【0100】
図5のオーディオ装置は、1つ又は複数の音源からデータを受信するように構成された受信機501を備える。音源は、データを提供するための任意の好適な音源であり、内部音源又は外部音源である。受信機501は、データを受信/取得するために必要な機能、例えば、無線機能、ネットワークインターフェース機能のようなものなどを備える。
【0101】
受信機501は、データを、任意の好適な音源から、例えばオーディオ信号の一部として含む、任意の好適な形態で受信する。データは、内部音源又は外部音源から受信される。受信機401は、例えば、ネットワーク接続、無線接続、又は内部音源への任意の他の好適な接続を介して部屋データを受信するように構成される。多くの実施形態において、受信機は、ローカルメモリなどのローカル音源からデータを受信する。多くの実施形態において、受信機501は、例えば、ローカルRAM又はROMメモリなどのローカルメモリから部屋データを検索するように構成される。具体例において、受信機501は、VRサーバ303からデータを受信するために、ネットワーク305にインターフェースするためのネットワーク機能を含む。
【0102】
受信機501は、例えば、個別又は専用の電子機器を使用することを含む任意の好適な手法で実装される。受信機501は、例えば、特定用途向け集積回路(ASIC)などの集積回路として実装される。いくつかの実施形態において、回路は、プログラムされた処理ユニット、例えば、中央処理装置、デジタル信号処理ユニット、又はマイクロコントローラなどの好適なプロセッサ上で実行される、例えば、ファームウェア又はソフトウェアなどとして実装される。そのような実施形態において、処理ユニットは、オンボード又は外部メモリ、クロック駆動回路、インターフェース回路構成、ユーザインターフェース回路構成などを含むことが理解されるであろう。そのような回路構成は更に、処理ユニットの一部として、集積回路として、及び/又は個別の電子回路として実装される。
【0103】
受信したデータは、環境内のオーディオ源を表す複数のオーディオ信号のオーディオデータを含む。オーディオデータは、具体的には、複数のオーディオ信号を含み、オーディオ信号の各々は1つのオーディオ源を表す(したがって、オーディオ信号はオーディオ源からの音を記述する)。
【0104】
加えて、受信機501は、オーディオ源及び/又は環境のメタデータを受信する。
【0105】
個々のオーディオ信号/音源のメタデータは、オーディオ源の(相対)信号レベル指標を含み、信号レベル指標は、オーディオ信号によって表される音声源のレベル/エネルギー/振幅を示す。音源のメタデータは、音声源からの音放射の指向性を示す指向性データも含む。オーディオ信号の指向性データは、例えば、ゲインパターンを記述し、具体的には、オーディオ源の位置からの異なる方向におけるオーディオ源の相対ゲイン/エネルギー密度を記述する。メタデータは、例えば、オーディオ源の名目上の開始位置、又は現在(若しくは場合によっては静的)位置の指標など、他のデータも含む。
【0106】
受信機501は更に、音響環境を示すメタデータを受信する。具体的には、受信機501は、環境の残響特質を記述する残響パラメータを含むメタデータを受信する。特に、メタデータは、残響減衰率パラメータの指標、及び場合によっては残響遅延パラメータの指標も含む。メタデータは、残響のエネルギー/レベルを示す残響エネルギーパラメータを更に含む。
【0107】
拡散残響特質は、例えば、室内インパルス応答(RIR)は、パラメータデータを介してレンダラに通信できるパラメータによって表される。
【0108】
環境の残響を少なくとも部分的に記述するパラメータは、残響遅延パラメータである。残響遅延パラメータは、オーディオ源からの残響の遅延を示す。具体的には、残響遅延パラメータは、具体的には、RIRの残響部分の(RIRにおける)開始時間を示す。
【0109】
多くの実施形態において、メタデータは、拡散残響信号がいつ開始すべきかについての指標を含み、すなわち、これは、拡散残響信号に関連付けられた時間遅延を示す。時間遅延指標は、具体的にはプリディレイの形態である。
【0110】
プリディレイは、RIRの遅延/遅れを表し、早期反射と拡散、後期残響との間の閾値となるように定義される。この閾値は、通常、(多かれ少なかれ)個別の反射から、完全に干渉する高次反射の混合への滑らかな遷移の一部として発生するため、好適な評価/決定プロセスを使用して、好適な閾値が選択される。この決定は、RIRの分析に基づいて自動的に行われるか、又は、部屋の寸法及び/又は材料特質に基づいて計算される。
【0111】
或いは、固定された閾値、例えば、RIRへの80msなどを選択できる。プリディレイは、秒、ミリ秒、又はサンプルで示される。以下の記載では、プリディレイは、残響が実際に拡散した後のポイントにおいて選択されると想定される。しかしながら、そうではない場合でも、記載される方法で十分に機能する。
【0112】
したがって、プリディレイは、音源放出の開始からの拡散残響応答の開始を示す。例えば、
図6に示すような例では、音源がt0で放出を開始した場合(例えば、t0=0)、直接音はt1>t0でユーザに到達し、第1の反射はt2>t1でユーザに到達し、早期反射と拡散残響との間の定義された閾値は、t3>t2でユーザに到達する。その場合、プリディレイはt3-t0である。プリディレイは、拡散残響の開始時の伝播遅延を反映すると見なされる。
【0113】
多くの実施形態において、残響遅延パラメータは、例えば、プリディレイの形態でメタデータに含める。しかしながら、他の実施形態において、それは、所定のパラメータ又は固定パラメータである。例えば、ビットストリームは、他の残響パラメータ(例えば、減衰率又は残響エネルギーパラメータ)が与えられることを参照して標準的なプリディレイを定義する、好適なオーディオ標準又は仕様に従う。
【0114】
環境の残響を少なくとも部分的に記述する別のパラメータは、残響減衰率パラメータである。残響減衰率パラメータは、環境の残響のレベル低下率を示し、具体的には、RIRの残響部分のレベル低下率を示す。具体的には、残響減衰率パラメータは、RIRの残響部分の勾配を示す。
【0115】
残響減衰率パラメータは、時間/ラグ/遅延の関数として残響のレベル変動を示し、具体的には、遅延/時間の関数として残響(具体的には、RIRの残響部分)の減衰/低減レベルを示す。いくつかの実施形態では、残響減衰率パラメータは、単位時間当たり(例えば、1秒当たり)の残響応答低減の平均デシベル数(dB)を示すパラメータであり、又は線形振幅若しくはエネルギー領域(例えば、2-γt)におけるレベル減衰を記述する指数方程式の指数係数である。
【0116】
残響減衰率パラメータは、異なる実施形態の間で変化する。多くの実施形態において、それは、例えば、当業者に知られているT
60、T
30、又はT
20パラメータである。これらのパラメータは、残響エネルギーが60dB(それぞれ、30、20dB)減衰するのにかかる時間を示す。例えば、エネルギー減衰曲線(EDC)の60dBの低下に対応する時間で示され、積分方程式で与えられる。
【数1】
t
maxは、t
max=∞又はそのポイントであり、ここで、室内インパルス応答(RIR(t))は、RIRのノイズフロアに消える。
【0117】
環境の残響を少なくとも部分的に記述する別のパラメータは、音響環境における残響のエネルギーを示す残響パラメータであり、特にRIRの残響部分のエネルギーを示す。このようなパラメータは、残響エネルギーパラメータとも呼ばれる。残響エネルギーパラメータは、例えば、全音源エネルギーに対する残響エネルギーとして、臨界距離として、全音源エネルギーに対する残響振幅として、与えられる。
【0118】
多くの実施形態において、環境の残響、特にRIRの(拡散)残響部分は、残響遅延パラメータ、残響減衰率パラメータ、及び残響エネルギーパラメータの組み合わせによって特徴付けられる。このようなパラメータのセットは、残響の開始時期、残響のレベルの時間的な進行、及び残響の全体的なレベルを記述する。これらのパラメータのうちの1つ、複数、又は全てがメタデータの一部として受信される。
【0119】
受信したオーディオデータは、受信した残響パラメータによって制御されるレンダリングされたオーディオの残響部分を用いてレンダリングされ、その結果、環境の残響成分に対応する残響成分を有する出力オーディオ信号が生成される。しかしながら、
図5のオーディオ装置は、残響をローカルで適応及びカスタマイズできる機能を更に備える。
図5のオーディオ装置において、これは、レンダラ400による残響レンダリングを制御するために使用される前に、残響遅延パラメータ及び/又は残響減衰率パラメータを修正できる機能を含めることによって達成される。
【0120】
図5のオーディオ装置において、受信機501は、レンダラ400に結合されており、受信したオーディオデータは、レンダラ400に直接供給される。しかしながら、メタデータは、レンダラ400に直接供給されるのではなく、最初に、残響遅延パラメータ又は残響減衰率パラメータである第1の残響パラメータを修正する(これらのパラメータの両方が修正される場合もある)ように構成された修正器503に供給される。
【0121】
したがって、第1の残響パラメータは、最初は所与のパラメータ値を有し、これが修正器503によって修正されて(異なる)修正されたパラメータ値となる。例えば、残響遅延パラメータの場合、初期遅延値は、通常はより小さい遅延又はより大きい遅延のいずれかである修正された遅延値に修正される(ただし、いくつかの実施形態では、修正器503は、非対称であり、遅延を増加させることしかできないか、又は遅延を減少させることしかできない)。代わりに、又は追加的に、残響減衰率パラメータについて、初期減衰率値は、通常はより小さい減衰率/勾配又はより大きい減衰率/勾配のいずれかであり得る修正された減衰率値に修正される(ただし、いくつかの実施形態では、修正器503は、非対称であり、減衰率を増加させることしかできないか、又は減衰率を減少させることしかできない)。
【0122】
パラメータ値の修正は完全に自動であり、例えば、現在の動作条件に依存して、装置自体によって決定される。例えば、利用可能な計算リソースに依存して、パスレンダラ401及び残響レンダラ407によってそれぞれ処理されるRIRの量は、残響遅延パラメータを変更する修正器503によって動的に変更される。他の実施形態及びアプリケーションにおいて、修正は、ユーザ入力に応じて行われ、実際にユーザは、残響パラメータの修正を直接制御する。例えば、残響の少ない体験がユーザによって望まれる場合、ユーザ入力によって、残響減衰率パラメータがより高い減衰率に対応するパラメータ値に修正され、その結果、残響がより早く消滅する。修正には他の多くの理由、アプローチ、及び目的が可能であり、記載されるアプローチは、残響パラメータを修正するための特定の背景又はアプローチに依存しないことが理解されるであろう。
【0123】
RIRの残響部分を記述する第2の残響パラメータを修正することによって、レンダリングを修正する、具体的には、残響レンダリングを適応及びカスタマイズする、このようなアプローチは、非常に効率的で有利である一方で、全てのシナリオにおいて最適ではなく、多くのシナリオにおいて、理想的であると知覚されないオーディオレンダリングをもたらす可能性があることが分かった。例えば、多くのシナリオでは、アーチファクト、品質劣化、知覚の歪み、及び/又はRIRの異なる部分間の不均衡が発生する。
【0124】
更に、環境内の残響のエネルギーを示す残響パラメータ(残響エネルギーパラメータ)、具体的にはRIRの残響部分のエネルギー/レベルを示す残響パラメータを修正する補償を導入することによって、多くの欠点が緩和され、実質的に除去することさえできることが分かった。補償は、残響遅延及び/又は減衰率パラメータの修正、具体的には、第1の残響パラメータの修正されたパラメータ値と第1のパラメータの元の値との差に基づく。特に、受信したメタデータから残響エネルギーパラメータを補償することは、修正された残響パラメータとの整合性の改善をもたらし、例えば、より自然に聞こえる残響及び全体的なオーディオ体験を知覚することを可能にする。
【0125】
したがって、
図5の装置は、補償器505を備え、補償器505は、第2の残響パラメータがメタデータの一部として提供され、第2の残響パラメータが音響環境における残響のエネルギーを示す残響エネルギーパラメータである場合、第1の残響パラメータの修正に応じて第2の残響パラメータの残響値を修正することによって修正された第2の残響パラメータ値を生成するように構成される。
【0126】
補償器505は、例えば、修正された残響遅延パラメータについて、多かれ少なかれRIRがパス反射ではなく拡散残響としてレンダリングされる場合にエネルギーが変化する可能性があることを反映するように、残響エネルギーパラメータを適応させるように構成される。別の例として、残響減衰率パラメータにおける変更に対して、残響エネルギーパラメータは、異なる減衰率に対してエネルギーを正規化するように変更される。
【0127】
メタデータでは、異なるアプリケーションにおいて異なるパラメータが使用され、拡散残響のエネルギーを示すためにビットストリームが使用される。通常、RIRの拡散部分のエネルギーは、単一のパラメータで示される傾向がある。ただし、場合によっては、複数のパラメータが代替又は組み合わせとして使用される。エネルギー指標は、周波数に依存する。
【0128】
したがって、補償器によって修正される特定の残響エネルギーパラメータも、異なる実施形態では異なる。以下には、いくつかの特に有利な残響エネルギーパラメータについて記載する。
【0129】
残響レベル/エネルギーは、通常、直接音との関係において主に心理音響的な関連性を有する。両者間のレベル差は、音声源とユーザ(又はRIR測定ポイント)との間の距離の指標である。距離が長くなると、直接音の減衰が大きくなるが、後期残響のレベルは同じままである(部屋全体で同じである)。同様に、ユーザが音源に対してどこにいるかに依存する指向性を有する音源の場合、ユーザが、音源の周りを動き回ると、指向性は直接応答に影響するが、残響のレベルには影響しない。
【0130】
したがって、残響レベルは、多くの場合、直接音に関して有利に示されず、むしろ音源及び部屋内のユーザの位置に依存しない、より一般的な特質が使用される。
【0131】
いくつかの実施形態において、残響エネルギーパラメータは、環境内の全放出音に対する拡散残響音のレベルを示すパラメータである。残響エネルギーパラメータは、拡散残響信号対全信号比を示し、すなわち、拡散対音源比(DSR:Diffuse to Source Ratio)は、ユーザによって受信される音源の拡散残響エネルギー量又はレベルを、その音源の全放出エネルギーの比として表すために使用される。これは、拡散残響エネルギーが、レンダリングされる信号のレベル較正及び対応するメタデータ(例えばプリゲイン)に対して適切に条件付けされる方法で表現される。
【0132】
このように表現することで、環境内の聴取者及び音源の絶対的な位置及び向きに依存せず、音源に対するユーザの相対的な位置及び向きに依存せず、またその逆も同様であり、残響をレンダリングするための特定のアルゴリズムに依存せず、システムで使用される信号レベルに意味のある関連付けがあることを保証する。
【0133】
後述するように、このような残響エネルギーパラメータについて、記載される例示的なレンダリングは、音源信号間の正しい相対レベルを課すための指向性パターンと、リバーブレータ407の出力上の正しいレベルを達成するためのDSRとの両方を考慮するダウンミックス係数を計算する。
【0134】
DSRは、放出音源エネルギーと拡散残響特質、具体的には、拡散残響信号のエネルギー又は(初期)レベルなどとの間の比を表す。
【0135】
記述は主に、全エネルギーに対する拡散残響エネルギーを示すDSRに焦点を当てる。
【数2】
【0136】
以降、これをDSR(拡散対源比)と呼ぶ。
【0137】
比率と逆比率とが、同じ情報を提供すること、すなわち、任意の比率が、逆比率として表現できることが理解される。したがって、拡散残響信号対全信号の関係は、拡散残響音のレベルを反映する値の、全放出音を反映する値によって除された分数によって、又は同様に、全放出音を反映する値の、拡散残響音のレベルを反映する値によって除された分数によって表現される。推定値の様々な修正を導入できること、例えば、非線形関数(例えば、対数関数)を適用できることも理解される。
【0138】
このようなアプローチは、現在の標準提案と一致する。MPEG-I Audio Call for Proposals(CfP)の準備において、Encoder Input Format(EIF)が定義された(MPEG output document N19211のセクション3.9、「MPEG-I 6DoF Audio Encoder Input Format」、MPEG 130)。EIFは、プリディレイ及び直接拡散比(DDR)によって残響レベルを定義する。これは、名称は異なるが、放出音源エネルギーとプリディレイ後の拡散残響エネルギーとの比(DDR=DSR)として定義される。
【0139】
拡散残響エネルギーは、拡散セクションの開始点からの部屋の応答によって作られたエネルギーであると見なされ、例えば、これは、プリディレイによって示された時間から無限大までのRIRのエネルギーである。後続の部屋の励起は、残響エネルギーに加算され、したがって、これは通常、ディラックパルスによる励起によってのみ直接測定されることに留意されたい。或いは、測定されたRIRから導出される。
【0140】
残響エネルギーは、空間全体にわたって積分されるのではなく、拡散場空間内の単一ポイントにおけるエネルギーを表す。
【0141】
上記に対する特に有利な代替案は、環境内の全放出音のエネルギーに対する拡散音の初期振幅を示すDSRを使用することである。具体的には、DSRは、プリディレイによって示される時間における残響振幅を示す。
【0142】
プリディレイ時における振幅は、プリディレイ時の、又は、例えば、プリディレイ後5,10,20又は50ms以内のように、プレディレイ直後の室内インパルス応答の最大励起である。特定の範囲内で最大の励起を選択する理由は、プリディレイ時間において、室内インパルス応答が、偶然にも応答の低い部分にあるためである。一般的な傾向は、減衰振幅であり、プリディレイ後の短い間隔での最大の励起は、通常、拡散残響応答全体の最大励起でもある。
【0143】
(例えば10ミリ秒の間隔内である)初期振幅を示すDSRを使用すると、DSRを多くの残響アルゴリズムのパラメータにマッピングすることがより簡単且つ確実になる。したがって、DSRは、いくつかの実施形態では、
【数3】
として与えられる。
【0144】
いくつかの実施形態では、残響エネルギーパラメータは、環境に対する室内インパルス応答の所定の時間における振幅を表すことができる。上記の例のように、振幅は相対振幅(例えば全放出エネルギーに対する相対振幅)として与えられ、及び/又は所定の時間はRIRの拡散残響部分の初期化の開始時間であり得る。
【0145】
DSR内のパラメータは、同じ音源信号レベル基準に関して表現される。
【0146】
これは、例えば、(音源とマイクロフォンとの間の距離、及び音源の指向性パターンなどのような)特定の知られている条件内でマイクロフォンを用いて、対象の部屋のRIRを測定(又はシミュレーション)することによって達成される。音源は、較正された量のエネルギー、例えば、知られているエネルギーを有するディラックインパルスを、部屋に放出する必要がある。
【0147】
測定機器の電気変換、及びアナログからデジタルへの変換の較正係数は、測定されるか、又は仕様から導出される。これは、音源の指向性パターン、及び、音源とマイクロフォンとの距離から予測できるRIRの直接パス応答からも計算できる。直接応答は、デジタル領域において特定のエネルギーを有し、マイクロフォンの方向に関する指向性ゲインと、音源とマイクロフォンとの距離に等しい半径を有する全球表面積に対するマイクロフォン表面に依存する距離ゲインとを乗じられた放出エネルギーを表す。
【0148】
両方の要素が、同じデジタルレベル基準を使用する必要があり、例えば、フルスケールの1kHzサインは、100dBSPLに相当する。
【0149】
RIRから拡散残響エネルギーを測定し、それを較正係数で補償すると、知られている放出エネルギーと同じ領域で、適切なエネルギーが得られる。放出エネルギーとともに、適切なDSRを計算できる。
【0150】
基準距離は、信号に適用する距離ゲインが0dBになる距離、すなわち、距離を補償するためにゲイン又は減衰が適用されない距離を示す。次いで、パスレンダラ401によって適用される実際の距離ゲインは、基準距離に対する実際の距離を考慮することによって計算できる。
【0151】
音伝播への距離の効果の表現は、所与の距離を参照して実行される。距離が2倍になると、エネルギー密度(表面単位あたりのエネルギー)が、6dB減少する。距離が半分になると、エネルギー密度(表面単位あたりのエネルギー)を、6dB誘発する。
【0152】
所与の距離における距離ゲインを決定するために、すなわち、密度がどれだけ減少又は増加したかを決定するために、現在の距離の相対的な変動を決定できるように、所与のレベルに対応する距離を知る必要がある。
【0153】
空気中の吸収を無視し、反射又は遮蔽要素が存在しないと仮定すると、音源の放出エネルギーは、音源位置を中心とする任意の半径を有する球上で一定である。実際の距離対基準距離に対応する表面の比は、エネルギーの減衰を示す。レンダリング距離dにおける線形信号振幅ゲインは、bで表現でき、
【数4】
であり、ここで、r
refは、基準距離である。
【0154】
例として、基準距離が1メートルであり、レンダリング距離が2メートルである場合、この式により、約6dBの信号減衰(又は-6dBのゲイン)となる。
【0155】
全放出エネルギー指標は、音声源が放出する全エネルギーを表す。通常、音声源は全方向に放射するが、全方向に均等に放射する訳ではない。音源の周りの球にわたるエネルギー密度の積分は、全放出エネルギーを提供する。ラウドスピーカの場合、放出エネルギーは、多くの場合、端子に印加される電圧、及びインピーダンスと、エネルギー損失と、電気エネルギーの音圧波への伝達とを記述するラウドスピーカ係数を認識して計算できる。
【0156】
いくつかの実施形態では、残響エネルギーパラメータは、環境内の音伝播に対する直接応答のエネルギーが環境内の残響のエネルギーと等しい距離を表す。このようなパラメータは、例えば、臨界距離パラメータである。
【0157】
臨界距離は、音源から、直接応答のエネルギーが残響応答のエネルギーと等しくなる(潜在的な名目的/仮想的/理論的な)ポイント(又はオーディオ受信機(マイクロフォンなど))までの距離と見なされ/定義される。この距離は、指向性が変化する場合、音源に対する受信機の方向に依存して変化する。
【0158】
残響音のエネルギーは、部屋内の音源及び受信機の位置には多かれ少なかれ依存しない。早期反射は依然として位置に依存するが、RIRに入れば入るほど、レベルは位置に依存しなくなる。この特質により、音源の直接音が同じ音源の残響音と同じ大きさであり/同じレベルを有する距離が存在する。
【0159】
拡散残響は、オーディオ源の場所に関係なく、部屋全体で均一なレベルになる。直接パス応答のレベルは、マイクロフォン/観察者/聴取者の場所と音源との間の距離に大きく依存する。マイクロフォンまでの距離の関数としてのオーディオ源の直接応答レベルの減衰は、非常に明確に定義されている。したがって、オーディオ源とマイクロフォンの間の距離は、臨界距離を示すためによく使用される。当該距離は、オーディオ源の直接応答が(一定の)残響レベルと同じレベルまで減衰する距離である。臨界距離は、当業者には既知の音響特質である。
【0160】
したがって、
図5のアプローチでは、装置は、特定の残響メタデータパラメータ(遅延及び減衰率)を補償器で修正し、その後、関連する残響エネルギーメタデータを調整することを可能にする。補償は、例えば、好適なアルゴリズム、基準、及び尺度に従って、残響エネルギーメタデータと他のメタデータパラメータとの間の関係がオリジナルと類似したままのようなものである。修正/補償された残響パラメータは、残響信号成分のレンダリングが元の値ではなく修正された残響パラメータ値に基づいて行われる状態で、レンダラに供給される。
【0161】
多くの実施形態において、レンダラ400は、具体的に、第2のパラメータ値に依存して、少なくとも1つの残響信号成分のレベルゲインを決定するように構成される。例えば、残響信号成分を生成するためにレンダラによって実行されるパス/信号処理は、残響信号成分のエネルギーレベルを設定するゲイン/スケール係数を含む。例えば、レンダラ400は、残響信号成分(又はそれが生成される入力オーディオ信号)に適用される可変ゲインが後に続く(又は先行する)エネルギー正規化関数を含む。可変ゲインは、残響信号成分の全体的なレベルを設定する。レンダラ400は、修正/補償された第2のパラメータ値から可変ゲインのゲインを決定するように構成される。
【0162】
多くの実施形態において、補償器505は、拡散残響のモデルを備え、このモデルは残響パラメータに基づく。補償器505は、この残響モデルに基づいて新しい値を決定するように構成され、具体的には、修正されたパラメータに対するモデルの評価が所望の結果を提供するようにパラメータを修正し、その結果は、通常は初期パラメータ値から決定される。例えば、補償された残響エネルギーパラメータ値は、元のパラメータ値に対するモデルから決定することができるパラメータ又は尺度が、修正された残響減衰率パラメータ及び/又は残響遅延パラメータと、補償された残響エネルギーパラメータとの組み合わせに対して変更されない(又は所望の方式で変更される)ように決定される。このような尺度は、例えば、RIRの直接パス成分のエネルギー(又は残響が開始するまでの時間/遅延などの初期時間間隔のエネルギー)と残響部分のエネルギーとの間のエネルギー/レベル比である。別の例として、尺度は、初期基準振幅である。
【0163】
残響メタデータが減衰率(例えば、T60、T30、T20)及び残響エネルギー指標(例えば、DSR)を含むビットストリームでは、エネルギー指標は明示的又は暗黙的に残響応答/RIRの特定の選択に関連している必要がある。これは通常、RIRのある特定のラグ/遅延で開始し、RIRのノイズフロア(デジタル表現の解像度、又は測定若しくは測定デバイスによってもたらされたノイズによって引き起こされるノイズ)に十分に近い応答振幅が減衰したRIRの十分な距離まで継続することに関係する。通常、残響は指数関数的に減衰する性質があるため、残響エネルギーの主な定義ポイントは通常、エネルギー測定の開始ラグであり、これは上述したプリディレイパラメータに対応する。
【0164】
プリディレイ値は、他の残響メタデータとともに提供されるが、アプリケーションで使用される残響エネルギー指標の定義によって暗示される。
【0165】
一般的な数学方程式は、通常、拡散残響振幅包絡線の単純なモデルとして使用できる。指数関数は通常、減衰する振幅エンベロープとよく一致し、
【数5】
であり、t≧t
pre=プリディレイでは、
【数6】
(T60によって制御される減衰係数)であり、A
0は、プリディレイ(t
pre)での振幅である。したがって、このような場合、残響遅延パラメータはプリディレイによって与えられ、残響減衰率パラメータは、T60値で与えられ、残響エネルギーパラメータは、プリディレイでの振幅によって与えられる(t3)。
【0166】
このような関数の累積エネルギーを計算すると、
図7に示すように、最終的なエネルギー値に漸近的に近づく。
【0167】
通常、拡散残響は、時間の関数として非常に疎であり(多くの値は、指数関数によって与えられる振幅指標よりも低い)、上記の式から残響のエネルギーを決定するために、一般的に、補償が含まれ、多くの場合、単にスケール係数として含まれる。
【0168】
実際、数学的モデルから開始すると、モデルで計算されたエネルギーは、通常、残響エネルギーに比例する。したがって、(経験的に導出された)補正を伴わずに残響エネルギーを予測するモデルとしては適していないことが多い。ただし、この比例関係は、プリディレイ又はT
60の修正のためのエネルギー調整係数を計算するために、補正を伴わずに使用できる。残響エネルギーは、プリディレイから無限大までの積分を用いてモデルによって計算でき(モデルにはノイズフロアが含まれていないため)、解析的に解くことができる(
【数7】
を使用する)。
【数8】
ここで、G
corrは、モデルのエネルギーを残響エネルギーにマッピングするための補正係数を表し、A
0は、t=t
pre(プリディレイ)での初期残響振幅を表し、E
preは、プリディレイ以降の残響エネルギーを表す。
【0169】
モデルは、例えば、修正前及び修正後のモデルのエネルギー予測の比率を決定するために使用され、残響エネルギーパラメータは、その後、この変化を反映するように適応され、例えば、単に同じ比率で補償される。
【0170】
いくつかの実施形態において、修正器503は、具体的に、環境/RIRにおける残響の伝播時間遅延を示す残響遅延パラメータを修正するように構成される。具体的には、修正器503は、プリディレイを修正するように構成される。プリディレイは通常、RIRの拡散残響部分の開始を示すために使用される。したがって、プリディレイは、RIRが拡散残響によって支配される時間(遅延)、つまりJotリバーブレータなどの拡散残響レンダラによって通常レンダリングされる部分を示す。したがって、プリディレイは通常、RIRのどの部分がパスレンダラではなく拡散残響レンダリング機能によってレンダリングされるかを示すために、レンダラによって使用される。
図4の例において、プリディレイは、リバーブレータ407及びパスレンダラ401によってそれぞれレンダリングされるRIRの瞬間的な時間を示すために使用される。
【0171】
いくつかの実施形態において、修正器403は、レンダリング前にプリディレイ(デフォルト値又は受信したメタデータによって示される値)を修正するように構成される。これにより、拡散残響レンダラ407によってモデル化されるRIRの量、及びパスレンダラ401によってレンダリングされる量が修正される。RIRの拡散残響部分を示す
図8及び
図9に示すように、修正前のプリディレイt
preは、元の値t
preよりも早い(
図8)又は遅い(
図9)新しい値t
rendに修正される。
【0172】
このような修正は、いくつかの実施形態において、所望の知覚効果を達成するために、例えば手動で行われる。例えば、パスレンダラはより正確なレンダリングを提供する傾向があり、ユーザは例えば、プリディレイを修正することによって、レンダリングされたオーディオの品質を調整する。
【0173】
しかしながら、いくつかの実施形態では、修正は自動的である。例えば、パスレンダリングは、パラメトリックリバーブレータを使用した拡散残響レンダリングよりもはるかに多くの計算リソースを必要とする傾向がある。いくつかの実施形態では、修正器は、デバイスの計算負荷を決定するように、及び/又はレンダリングのために利用可能な計算リソースの量を決定するように構成される(そのような尺度を決定するための多くのアプローチは、当業者に知られている)。修正器は、利用可能な計算リソースに応じて、残響遅延パラメータ/プリディレイを修正するように構成される。特に、修正器は、利用可能なリソースの量が増加すると遅延を増加させ、利用可能なリソースの量が減少すると遅延を減少させる。例えば、遅延(修正)は、利用可能な計算リソースの単調減少関数である。
【0174】
プリディレイパラメータは、レンダラ構成以外の理由、例えば、暗黙のプリディレイ値との整合を必要とする異なるフォーマットへのメタデータのトランスコード、又はある特定のフィルタ長を有する共シグナルHRTFの理由で変更される。
【0175】
したがって、拡散残響レンダリングを含むレンダラは、メタデータのプリディレイ(又はデフォルト/公称プリディレイ)が示すものとは異なるラグから拡散残響をレンダリングする。その結果、必要な残響エネルギーは、受信したメタデータによって示されたものとは異なり、メタデータによって意図されたものとは異なる残響効果/体験をもたらす。多くの場合、この違いは大きい。
【0176】
記載されるアプローチでは、補償器505は、調整されたプリディレイがレンダリング遅延(又はそれ以外の目標遅延)に対応する、知覚的に類似した残響エネルギーメタデータを表すように、メタデータの残響エネルギーパラメータを調整する。調整は、更新されたプリディレイを伴う残響エネルギーが、元の残響エネルギーメタデータと同様の残響効果/体験を表すようにする。例えば、
図8及び
図9において、灰色エリアは、拡散リバーブレータによって提供されるべき残響エネルギーを示す。これは、プリディレイt
preから無限大までのRIRのそれとは異なる。
図8において、エネルギーメタデータ値が低すぎるため、残響レンダリングをより早いラグで開始できない(破線の三角形)。
図9において、エネルギーメタデータ値が高すぎるため、レンダリングをより遅いラグで開始できない(破線の三角形)。
【0177】
多くの実施形態では、修正器505は、残響遅延パラメータの修正後に残響部分と見なされ、具体的に残響レンダラによってレンダリングされる予定のRIRの部分の間の残響のエネルギー/振幅/レベルが、パラメータによって示される初期遅延及びエネルギーを使用して決定されたときと、修正された遅延及びエネルギーを使用して決定されたときとで、類似であるか、又は更には同じであるように、残響エネルギーパラメータを修正するように構成される。
【0178】
具体的には、多くの実施形態において、補償器505は、第1の残響エネルギー尺度と第2の残響エネルギー尺度との間の差を低減するように、修正された残響エネルギーパラメータ値を決定するように構成される。両方のエネルギー尺度は、修正された遅延値から開始する残響に対して決定され、両方のエネルギー尺度は、特に以前にもたらされた指数関数的減少残響モデルなどの同じモデルを使用して決定される。ただし、第1の尺度は、残響遅延パラメータ及び残響エネルギーパラメータの修正パラメータ値を使用してモデルを評価することによって決定されるのに対し、第2の尺度は、残響遅延パラメータ及び残響エネルギーパラメータの初期(修正前/補償前)パラメータ値を使用してモデルを評価することによって決定される。補償器505は、これらのエネルギーが等しくなるように、したがって修正された遅延後の残響のエネルギーが元の値と一致するように、特に、修正された残響エネルギーパラメータ値を設定する。
【0179】
したがって、第1の残響エネルギー尺度は、修正された残響遅延パラメータによって表される修正された遅延後の残響のエネルギーとして決定される。それは、修正された遅延値及び修正された残響エネルギーパラメータを使用して残響モデルから決定される。第1の残響エネルギー尺度は、修正された値を使用して計算された、修正された遅延後の残響のエネルギーを示す。
【0180】
第2の残響エネルギー尺度は、修正された残響遅延パラメータによって表される修正された遅延後の残響のエネルギーとして決定される。また、同じ残響モデルから、初期遅延値及び初期残響エネルギーパラメータを使用して決定される。第2の残響エネルギー尺度は、初期値を使用して計算された、修正された遅延後の残響のエネルギーを示す。
【0181】
多くの実施形態では、補償器505は、修正された遅延(具体的には、残響レンダラによってレンダリングされるRIRの部分を示すレンダリング遅延)後の残響の時間の関数としての残響振幅の差を低減する(又は更には除去する)ように、残響エネルギーパラメータを修正するように構成される。
【0182】
残響レンダラは、前述したように、通常、修正遅延によって示される伝播遅延時間を超える伝播遅延に対応する寄与のみを含むように、残響信号成分を生成するように構成される。残響レンダラは、特に、修正された遅延時間に続くRIRの部分を実装する。
【0183】
先に提供した指数関数モデルを使用した具体例として、初期の修正されていないプリディレイ以降の残響のエネルギーがモデルエネルギーに比例する場合(G
corr)、修正されたプリディレイ以降の残響のエネルギーも同じように比例すると見なされる(すなわち、疎性を示すために必要な補償は同じである)。
【数9】
【数10】
及びE
renderは、モデルに基づいて計算されたエネルギー尺度である(インデックスpreは一般に修正前の初期値を示すために使用され、インデックスレンダリングは、修正された値を示すために使用される)。
【0184】
エネルギー変換係数は、残響エネルギーメタデータを初期プリディレイに対応する値から修正されたプリディレイ(レンダリング遅延とも呼ばれる)に対応する値にスケーリングし、依然として同じ残響特性を記述するこれらの式で計算することができる。
【数11】
【0185】
式から、変換係数は、nrender>npreのときは1より小さく、npre>nrenderのときは1より大きいことが分かる。
【0186】
例えば、残響レンダリングの構成の計算にDSRrenderを使用する前に、DSRパラメータを補償する。
DSRrender=DSRmetadata*Gconv
【0187】
いくつかの実施形態では、修正器は、T60値などの残響減衰率を修正するように構成される。これは、例えば、多くの実施形態において、知覚される残響量を修正することによって環境の知覚体験を修正するために望ましい。これは、例えば、修正された知覚、例えば、特に異なる芸術的効果を提供するために、ユーザによって手動で修正される。
【0188】
ただし、減衰率を修正すると、残響エネルギーにも影響を与える。T60が短いと、それに応じて減衰が速くなるため、残響エネルギーが小さくなる。
【0189】
更に、変更された減衰率は、プリディレイ後の残響応答の減衰率に影響を与えるだけでなく、通常は、プリディレイ前の減衰にも影響を与え、したがって、残響エネルギー指標に関連付けられているプリディレイラグにおける初期残響応答振幅にも影響を与える。このことは、
図10、
図11、及び
図12によって記載され、これらの図は、修正前/補償前の残響エネルギーパラメータが、レンダリングのための所望の条件、すなわち修正された減衰パラメータに対して不一致であるエネルギー(灰色の三角形で示される)を示す状況を例示する。
図10において、修正されていない残響エネルギーパラメータは、より短い減衰時間(破線の三角形)で残響をレンダリングするには高すぎる値を有する。
図11において、修正されていない残響エネルギーパラメータは、より長い減衰時間(破線の三角形)で残響をレンダリングするには低すぎる値を有する。
【0190】
図5のシステムでは、補償器は、残響エネルギーパラメータを補償して、修正された残響減衰率パラメータ値に対応する修正されたエネルギーレベルを示す。補償器は、減衰率の増加に対して示されたエネルギー値を減少させ、且つ/又は減衰率の減少に対して示されたエネルギー値を増加させる。
【0191】
多くの実施形態において、補償器505は、第1の残響パラメータの修正から得られる残響減衰率の振幅基準(
図12のA
00)の変化を低減するように、残響エネルギーパラメータ値を修正するように構成され、これは、特に、この基準振幅が実質的に変化しないように維持しようとする。
【0192】
振幅基準は、残響減衰率と残響エネルギーパラメータとの関数であり、例えば、減衰率及び残響エネルギーの指標によって示されるように、RIRの拡散残響部分(すなわち、プリディレイ後のRIR)の減衰率及びエネルギーレベルをもたらすRIRのt=0における値と見なされる。
【0193】
これは、通常、どのように元の残響エネルギーメタデータが元の減衰率に対応するかと同様に、残響エネルギーパラメータが修正された減衰率に対応するように修正されることとなる。
【0194】
具体例として、修正器503は、T
60値を変更して部屋の特性を修正し、それに応じて、DSRの形態で残響エネルギーパラメータを修正する。例えば、これは、先に提示した残響のモデルに基づいて、DSRをどのように調整すべきかを決定される。通常、T
60が変化すると、プリディレイ時間/拡散残響開始時での振幅も変化し、A
0も、
図12に見られるように変化する。その結果、DSRには、残響中に変化した減衰による直接的な影響と、変化した減衰がプリディレイまでのRIRに及ぼす影響、したがって残響部分の開始時の振幅A
0に及ぼす影響との、二重の影響があると見なされる。
【0195】
A0の変化は、プリディレイの前に変化した減衰率の影響によって決定される。通常、RIRの早期部分は、RIRの測定又はモデリングに使用される音源及び受信機の位置に大きく依存する。これにより、例えば、音源と受信機とが比較的近い場合、RIRの早期部分で急峻な減衰が発生する早期減衰が生じる。
【0196】
拡散残響モデリングにおける残響パラメータの調整に関しては、このような側面を無視し、全長にわたって一貫した減衰率を有するRIRを仮定することが有益なことが多い。これは、音源と受信機とが比較的離れている場合によく一致する。
【0197】
この目的のために、
図12に示すように、減衰線の基準振幅をt=t
0にするアプローチがある。
【数12】
ここで、通常、t
0=0である。
【0198】
次に、修正された残響遅延パラメータの修正されたA
0値、A
rは、T60
rを参照する修正されたT
60を用いて計算できる。
【数13】
又は、まとめると
【数14】
になる。
【0199】
残響エネルギーの変換係数は、
【数15】
になり、
【数16】
である。更に単純化すると、
【数17】
になる。
【0200】
変換ゲインは、残響遅延パラメータの修正の場合と同様に、乗算によって適用される。
【0201】
T60が周波数に依存する場合、変換ゲインは周波数に依存する。
【0202】
上記の例では、残響エネルギーパラメータの補償は、線形変換係数又は補償係数を決定し、これをDSFパラメータの形式で残響エネルギーパラメータに適用することによって簡単に達成された。
【0203】
例えば、残響エネルギーパラメータが臨界距離又は振幅パラメータである場合にも、同様のアプローチを使用する。
【0204】
例えば、残響エネルギーパラメータが臨界距離パラメータである場合、これは残響応答エネルギーが計算される特定のプリディレイも意味する。したがって、同じ変換が適用される。例えば、
Epre=Ecd
Erend=Epre*Gconv=Ecd*Gconv
であり、Ecdは、臨界距離での直接応答のエネルギーであり、Epreは、臨界距離メタデータに関連付けられたプリディレイから測定された残響エネルギーであり、Erendは、レンダリング遅延からの残響エネルギーを表す。
【0205】
残響エネルギーパラメータが、初期残響エネルギー対音源エネルギー(又は全エネルギー若しくは音源振幅)比の振幅のような振幅で表される例では、当業者によく知られているように、ゲインの平方根が取られる。
【数18】
【0206】
残響遅延パラメータと残響減衰率パラメータとの両方が変更された場合、補償が組み合わされる。例えば、上記の様々なパラメータに対して示された変換ゲインは、例えば単に乗算することによって、組み合わされる。
【0207】
以下に、
図4及び
図5のアプローチの様々な実施形態の特定の態様を示す。
【0208】
レンダラ407は、具体的には、個々のオーディオ源のダウンミックスを生成し、この信号を、
図13のJotリバーブレータなどのパラメトリックリバーブレータに適用することによって残響を生成し、パラメトリックリバーブレータは、残響パラメータに基づいて設定される。
【0209】
このアプローチは、前述し、
図14に示すように、ダウンミックス信号に残響処理を適用することに基づく。ダウンミックス係数が決定され、ダウンミックスにおけるそのオーディオ信号の重み付けに対応する。ダウンミックス係数は、ダウンミックス信号を生成する重み付けされた組み合わせにおけるオーディオ信号の重みである。したがって、ダウンミックス係数は、ダウンミックス信号(多くの実施形態ではモノ信号である)を生成するためにこれらを組み合わせるときのオーディオ信号に対する相対的な重みであり、例えば、重み付けされた合計の重みである。
【0210】
ダウンミックス係数は、受信した拡散残響信号対全信号比、すなわち拡散対音源比、DSRに基づく。
【0211】
係数は更に、オーディオ源から放出される全エネルギーを示す決定された全放出エネルギー指標に応じて決定される。DSRは通常、いくつかの、また通常は全てのオーディオ信号について共通であるのに対し、全放出エネルギー指標は、通常、各オーディオ源に固有である。
【0212】
全放出エネルギー指標は通常、正規化された全放出エネルギーを示し、信号内容には依存せず、指向性パターンや基準距離などの音源特質によって完全に定義される。同じ正規化が、全てのオーディオ源と直接パス成分と反射パス成分とに適用される。したがって、全放出エネルギー指標は、他のオーディオ源/信号の全放出エネルギー指標、又は個々のパス成分、又はオーディオ信号のフルスケールのサンプル値に関する相対値である。
【0213】
DSRと組み合わされたときの全放出エネルギー指標は、各オーディオ源について、そのオーディオ源からの拡散残響音への相対的な寄与を反映するダウンミックス係数を提供する。したがって、DSRと全放出エネルギー指標との関数として、ダウンミックス係数を決定することによって、拡散音への相対的な寄与を反映するダウンミックス係数を提供する。したがって、ダウンミックス係数を使用してダウンミックス信号を生成すると、音声源の各々が適切に重み付けられ、音響環境が正確にモデル化された環境内で生成された音全体を反映するダウンミックス信号が得られる。
【0214】
多くの実施形態において、DSRと、リバーブレータの特質に応じたスケーリングと組み合わされた全放出エネルギー指標との関数としてのダウンミックス係数は、対応するパス信号成分に関して、拡散残響音の適切な相対レベルを反映するダウンミックス係数を提供する。
【0215】
全放出エネルギーは、オーディオ源について受信されたメタデータから決定される。
【0216】
受信したメタデータは、オーディオのレベルの指標を提供する各音源の信号基準レベルを含む。信号基準レベルは、通常、他のオーディオ源に対する信号基準レベル又は正規化された基準レベルに対する信号基準レベルの指標を提供する、正規化された値又は相対値である。したがって、信号基準レベルは、通常、音源の絶対的な音レベルを示すのではなく、他のオーディオ源に対する相対的なレベルを示す。
【0217】
具体例では、信号基準レベルは、オーディオ信号に適用される距離減衰が0dBである距離を提供する基準距離の形態での指標を含む。したがって、オーディオ源と聴取者との間の距離が、基準距離に等しい場合、受信されたオーディオ信号は、距離に依存するいずれのスケーリングも伴わずに使用できる。基準距離よりも短い距離では、減衰が小さいため、聞いている位置での音レベルを決定する際に、0dBよりも高いゲインを適用する必要がある。基準距離よりも遠い距離では、減衰が大きくなるため、聞いている位置での音レベルを決定する際に、0dBよりも高い減衰を適用する必要がある。同様に、オーディオ源と、聞いている位置との間の距離が一定の場合、短い基準距離に関連付けられたオーディオ信号よりも、長い基準距離に関連付けられたオーディオ信号に、高いゲインが適用される。オーディオ信号は通常、意味のある基準距離を表現するために、又は全ダイナミックレンジを活用するために、正規化される(例えば、ジェットエンジンとコオロギとは両方とも、使用されるデータワードの全ダイナミックレンジを活用するオーディオ信号によって表される)ので、基準距離は、特定のオーディオ源の信号基準レベルの指標を提供する。
【0218】
この例では、信号基準レベルは更に、プリゲインと呼ばれる基準ゲインによって示される。基準ゲインは、オーディオ源ごとに提供され、レンダリングされたオーディオレベルを決定するときにオーディオ信号に適用する必要があるゲインを提供する。したがって、プリゲインを使用して、異なるオーディオ源間のレベル変動を更に示す。
【0219】
メタデータは、オーディオ信号によって表される音声源からの音放射の指向性を示す指向性データを更に含む。各オーディオ源の指向性データは、オーディオ源からの異なる方向における、信号基準レベルに対する相対ゲインを示す。指向性データは、例えば、各方向のゲインを定義するオーディオ源からの放射パターンの全機能又は記載を提供する。別の例として、例えば、所定のパターンを示す単一のデータ値のような、単純化された指標が使用される。更に別の例として、指向性データは、ある範囲の異なる方向間隔(例えば、球のセグメント)について、個々のゲイン値を提供する。
【0220】
したがって、オーディオ信号とともにメタデータにより、オーディオレベルを生成できる。具体的には、パスレンダラは、オーディオ信号にゲインを適用することによって、直接パスの信号成分を決定し、ここで、ゲインは、プリゲインと、オーディオ源と聴取者との間の距離及び基準距離の関数として決定される距離ゲインと、オーディオ源から聴取者への方向の指向性ゲインとの組み合わせである。
【0221】
拡散残響信号の生成に関して、メタデータを使用して、オーディオ源の信号基準レベル及び指向性データに基づいて、オーディオ源の(正規化された)全放出エネルギー指標を決定する。
【0222】
具体的には、全放出エネルギー指標は、全方向にわたって指向性ゲインを積分する(例えば、オーディオ源の位置を中心とする球の表面にわたって積分する)ことによって生成され、信号基準レベルによって、具体的には距離ゲイン及びプリゲインによってスケーリングされる。
【0223】
その後、決定された全放出エネルギー指標は、DSRで処理されてダウンミックス係数が生成される。
【0224】
その後、ダウンミックス係数は、ダウンミックス信号を生成するために使用される。具体的には、ダウンミックス信号は、対応するオーディオ信号のダウンミックス係数によって各オーディオ信号が重み付けられたオーディオ信号の組み合わせ、具体的には総和として生成される。
【0225】
ダウンミックスは、通常、モノ信号として生成され、その後、リバーブレータに供給され、拡散残響信号が生成される。
【0226】
パスレンダラ401による個々のパス信号成分のレンダリング及び生成は、例えば、距離ゲインと指向性ゲインとの決定に関して、位置に依存し、その後、拡散残響信号の生成は、音源と聴取者との両方の位置に依存しないことに留意されたい。
【0227】
全放出エネルギー指標は、信号基準レベル及び指向性データに基づいて、音源及び聴取者の位置を考慮せずに決定できる。具体的には、プリゲイン及び音源の基準距離を使用して、音源からの公称距離(公称距離は、全てのオーディオ信号/音源に対して同じ)において、例えば、オーディオ信号のフルスケールのサンプルに関して正規化された、指向性に依存しない信号基準レベルを決定できる。全ての方向にわたる指向性ゲインの積分は、例えば、基準距離における球の場合のように、正規化された球に対して実行できる。したがって、全放出エネルギー指標は、音源及び(部屋などの環境内で、拡散残響音は均一になる傾向があることを反映する)聴取者の位置に依存しない。次に、全放出エネルギー指標が、DSRと組み合わされて、ダウンミックス係数が生成される(多くの実施形態では、リバーブレータのパラメータなどの他のパラメータも考慮される)。DSRも位置に依存しないので、ダウンミックス及び残響処理と同様に、音源及び聴取者の特定の位置をまったく考慮せずに、拡散残響信号が生成される。
【0228】
そのようなアプローチは、過度の計算リソースを必要とせずに、高性能で自然に聞こえるオーディオ知覚を提供する。それは、例えば、ユーザ(及び音源)が環境内を動き回り、したがって、聴取者(及び、おそらくはオーディオ源の一部又は全て)の相対位置が動的に変化する仮想現実アプリケーションに特に適している。
【0229】
リバーブレータは、オーディオ源の指向性データを考慮することによって、全放出エネルギー指標を決定する。音源指向性が変化する音源の拡散残響信号を決定する際には、信号レベル又は信号基準レベルだけでなく、全放出エネルギーを使用することが重要であることに留意されたい。例えば、指向性係数が1であり、他の全ての方向の係数が0である非常に狭いビームに対応する音源指向性を考慮されたい(すなわち、エネルギーは、非常に狭いビームでのみ送信される)。この場合、放出音源エネルギーは、全エネルギーを表現しているので、オーディオ信号のエネルギー及び信号基準レベルに非常に類似している。同じエネルギー及び信号基準レベルであるが、無指向性を有するオーディオ信号を有する別の音源が、代わりに考慮される場合、この音源の放出エネルギーは、オーディオ信号エネルギー及び信号基準レベルよりもはるかに高くなる。したがって、両音源が同時にアクティブである場合、無指向性音源の信号は、拡散残響信号において、つまりダウンミックスにおいて、非常に指向性のある音源よりも、はるかに強く表されるはずである。
【0230】
放出エネルギーは、オーディオ源を取り囲む球の表面にわたってエネルギー密度を積分することから決定される。距離ゲインを無視する、すなわち、距離ゲインが0dBである半径(すなわち、基準距離に対応する半径)の表面にわたって積分すると、全放出エネルギー指標は、次の式から決定でき、
【数19】
ここで、gは指向性ゲイン関数、pは、オーディオ信号/音源に関連付けられたプリゲイン、xは、オーディオ信号自体のレベルを示す。
【0231】
pは、方向に依存しないので、積分の外に移動する。同様に、信号xは、方向に依存しない(指向性ゲインは、その変動を反映する)。(
【数20】
であり、したがって、積分は信号に依存しなくなるので、これは後で乗じられる)。
【0232】
この積分を決定するための1つの特定のアプローチについて、以下により詳細に記載する。
【0233】
指向性ゲインを球にわたって積分することが望ましい。
【数21】
【0234】
基準距離(r)に等しい半径の球を使用することは、距離ゲインで0dBになり、これにより距離ゲイン/減衰を無視できることを意味する。
【0235】
この例では、計算に有利であることから球が選択されているが、音源位置を取り囲む任意の形状の、任意の閉じた表面から、同じエネルギーを決定できる。適切な距離ゲイン及び指向性ゲインが積分に使用される限り、有効表面は、音源位置に面して(すなわち、音源位置に沿った法線ベクトルを用いて)いると見なされる。
【0236】
表面積分は、小さな表面dSを定義する必要がある。したがって、方位角(a)及び仰角(e)の2つのパラメータを用いて球を定義すると、これを行うための寸法が提供される。解に座標系を使用すると、
f(a,e,r)=r*cos(e)*cos(a)*ux+r*cos(e)*cos(a)*uy+r*sin(e)*uzとなり、
ここで、ux、uy、及びuzは、座標系の単位基底ベクトルである。
【0237】
小さな表面dSは、2つのパラメータに関する球表面の偏導関数の外積の大きさに、各パラメータの微分を乗じた
dS=|fa×fe|da deである。
【0238】
この導関数は、対象ポイントで球に接するベクトルを決定する。
fa=-r*cos(e)*sin(a)*ux+r*cos(e)*cos(a)*uy+0*uz
fe=-r*sin(e)*cos(a)*ux-r*sin(e)*sin(a)*uy+r*cos(e)*uz
【0239】
導関数の外積は、両方に垂直なベクトルである。
fa×fe=(r2*cos(e)*cos(a)*cos(e)+0*sin(e)*sin(a))*ux+(-0*sin(e)*cos(a)+r2*cos(e)*sin(a)*cos(e))*uy+(r2*cos(e)*sin(a)*sin(e)*sin(a)+r2*cos(e)*cos(a)*sin(e)*cos(a))*uz
=r2*cos2(e)*cos(a)*ux+r2*cos2(e)*sin(a)*uy+(r2*cos(e)*sin(e)*sin2(a)+r2*cos(e)*sin(e)*cos2(a))*uz
=r2*cos2(e)*cos(a)*ux+r2*cos2(e)*sin(a)*uy+(r2*cos(e)*sin(e)*(sin2(a)+cos2(a)))*uz
=r2*cos2(e)*cos(a)*ux+r2*cos2(e)*sin(a)*uy+r2*cos(e)*sin(e)*uz
【0240】
外積の大きさは、ベクトルf_a及びf_eがまたがる平行四辺形の表面積、つまり球の表面積であり、
|fa×fe|=sqrt((r2*cos2(e)*cos(a))2+(r2*cos2(e)*sin(a))2+(r2*cos(e)*sin(e))2)
=sqrt(r4*cos4(e)*cos2(a)+r4*cos4(e)*sin2(a)+r4*cos2(e)*sin2(e))
=sqrt(r4*cos4(e)*(cos2(a)+sin2(a))+r4*cos2(e)*sin2(e))
=sqrt(r4*cos4(e)+r4*cos2(e)*sin2(e))
=sqrt(r4*cos2(e)*(cos2(e)+sin2(e)))
=sqrt(r4*cos2(e))
=abs(r2*cos(e))=r2*cos(e)
であり、ここで、e=[-0.5*pi,0.5*pi]である。
【0241】
その結果、
dS=r
2*cos(e)*da*deとなり、
ここで、最初の2項は、正規化された表面積を定義し、da及びdeを乗じると、セグメントda及びdeのサイズに基づいて、実際の表面になる。表面にわたる二重積分は、方位角と仰角との観点で表現できる。表面dSは、上記のように、a及びeの観点で表現される。2つの積分は、方位角=0...2*pi(内積)、及び仰角=-0.5*pi...0.5*pi(外積)にわたって実行できる。
【数22】
ここで、g(a,e)は方位角と仰角の関数としての指向性である。したがって、g(a,e)=1の場合、結果は球の表面になる(証明として積分を解析的に計算すると、予想どおり4*pi*r
2になる)。
【0242】
多くの実際的な実施形態では、指向性パターンは、積分可能な関数としてではなく、例えば、サンプルポイントの離散セットとして提供される。例えば、サンプリングされた各指向性ゲインは、方位角及び仰角に関連付けられる。通常、これらのサンプルは、球上のグリッドを表す。これを取り扱う1つのアプローチは、積分を総和に変換することであり、すなわち、離散積分が実行される。積分は、この例では、指向性ゲインが利用可能な球上のポイントにわたる総和として実施される。これにより、g(a,e)の値が得られるが、da及びdeが正しく選択される必要があり、これにより、オーバラップやギャップによる大きな誤差は発生しない。
【0243】
他の実施形態では、指向性パターンは、空間内の限られた数の不均一な間隔のポイントとして提供される。この場合、指向性パターンは補間され、対象の方位角及び仰角の範囲にわたって均一に再サンプリングされる。
【0244】
別の解決策は、g(a,e)がその定義されたポイントの周りで一定であると仮定し、例えば、小さな方位角及び仰角の範囲について、例えば、隣接する定義されたポイントの中間のように、積分をローカルに解析的に解くことである。これは上記の積分を使用するが、a及びeの範囲が異なり、g(a,e)は一定と見なされる。
【0245】
実験は、指向性の分解能がかなり粗い場合でも、単純な総和では誤差が小さいことを示す。更に、誤差は半径に依存しない。10ポイント間の方位角の線形的な間隔、及び仰角の線形的に間隔を空けられた10ポイントでは、-20dBの相対誤差が生じる。
【0246】
上で表現した積分は、球の半径にスケーリングする結果を提供する。したがって、これは、基準距離に合わせてスケーリングする。この半径への依存性は、2つの異なる半径間の「距離ゲイン」の逆効果を考慮していないためである。半径が2倍になると、一定の表面積(例えば1cm2)を「流れる」エネルギーは6dB低くなる。したがって、積分は、距離ゲインを考慮する必要があると言える。しかしながら、積分は、距離ゲインが信号に反映される距離として定義される基準距離で行われる。言い換えれば、基準距離によって示される信号レベルは、積分される値のスケーリングとして含まれないが、(積分は、基準距離に等しい半径を有する球にわたって実行されるので、)基準距離で変動する積分が実行される表面積によって反映される。
【0247】
その結果、上述した積分は、オーディオ信号のエネルギースケーリング係数(任意のプリゲイン又は同様の較正調整を含む)を反映する。なぜなら、オーディオ信号が、(指向性ゲインのない)基準距離に等しい半径を有する球の固定表面積での正しい信号再生エネルギーを表すためである。
【0248】
これは、基準距離がより大きい場合、信号を変化させることなく、全信号エネルギースケーリング係数も大きくなることを意味する。なぜなら、対応する信号は、同じ信号エネルギーを有する音声源よりも比較的大きいが、小さな基準距離において、音声源を表すからである。
【0249】
言い換えれば、基準距離に等しい半径を有する球の表面にわたって積分を実行することによって、基準距離によって提供される信号レベル指標が、自動的に考慮される。基準距離が大きいほど、表面積が大きくなり、全放出エネルギー指標が大きくなる。積分は、具体的には、距離ゲインが1である距離において直接実行される。
【0250】
上記の積分は、使用される表面単位に、及び基準距離rを示すために使用される単位に、正規化された値になる。基準距離rがメートルで表現される場合、積分の結果は、m2の単位で提供される。
【0251】
推定放出エネルギー値を信号に関連付けるには、信号に対応する表面単位で表現する必要がある。信号のレベルは、ユーザが基準距離で再生するレベルを表現するので、人間の耳の表面積の方が適している場合がある。基準距離では、球の表面全体に対するこの表面は、人が知覚する音源のエネルギーの部分に関連する。
【0252】
したがって、オーディオ信号におけるフルスケールのサンプルに対して正規化された放出音源エネルギーを表す全放出エネルギー指標は、
【数23】
によって示すことができ、ここで、E
dir,rは、半径が基準距離に等しい球の表面にわたって指向性ゲインを積分することによって決定されるエネルギーを示し、pは、プリゲインであり、S
earは、(決定されたエネルギーを、人間の耳の面積に関連付けるための)正規化スケーリング係数である。
【0253】
空間の拡散音響特質を特徴付けるDSRと、指向性、プリゲイン、及び基準距離メタデータから導出された計算された放出音源エネルギーとを用いて、対応する残響エネルギーを計算できる。
【0254】
DSRは、通常、両方のその成分によって使用される同じ基準レベルで決定される。これは、全放出エネルギー指標と同じであるか、又は異なる。いずれにせよ、そのようなDSRが全放出エネルギー指標と組み合わされた場合、結果として生じる残響エネルギーは、上記の積分によって決定された全放出エネルギーが使用される場合、オーディオ信号におけるフルスケールのサンプルに対して正規化されたエネルギーとしても表現される。言い換えれば、考慮される全てのエネルギーは、レベル調整を必要とせずに直接組み合わせることができるように、基本的に同じ基準レベルに正規化される。具体的には、決定された全放出エネルギーを、直接DSRとともに使用して、各音源から生成される拡散残響のレベル指標を生成でき、レベル指標は、他のオーディオ源の拡散残響に関する、及び、個々のパス信号成分に関する、適切なレベルを直接示す。
【0255】
具体例として、異なる音源の拡散残響信号成分の相対信号レベルは、DSRに全放出エネルギー指標を乗じることによって直接取得される。
【0256】
記載されるシステムでは、拡散残響信号への異なるオーディオ源の寄与の適応は、ダウンミックス信号を生成するために使用されるダウンミックス係数を適応させることによって少なくとも部分的に実行される。したがって、ダウンミックス係数は、各オーディオ源からの拡散音の相対的な寄与/エネルギーレベルが、音源について決定された拡散残響エネルギーを反映するように生成される。
【0257】
具体例として、DSRが、初期振幅レベルを示す場合、ダウンミックス係数は、DSRに、全放出エネルギー指標を乗じたものに比例する(又は等しい)ことが決定される。DSRがエネルギーレベルを示す場合、ダウンミックス係数は、DSRの平方根に、全放出エネルギー指標を乗じたものに比例する(又は等しい)ことが決定される。
【0258】
具体例として、複数の入力信号のインデックスxを有する信号のために、適切な調整を提供するためのダウンミックス係数d
xは、
【数24】
によって計算され、
ここで、pは、プリゲインを表し、
【数25】
は、プリゲイン前の信号xの正規化された放出音源エネルギーである。DSRは、放出音源エネルギーに対する拡散残響エネルギーの比を表す。ダウンミックス係数d
xが、入力信号xに適用されると、結果として得られる信号は、単位エネルギーの残響応答を有するリバーブレータによってフィルタ処理された場合、信号xの直接パスレンダリングに関して、並びに、他の音源j≠xの直接パス及び拡散残響エネルギーに関して、信号xに対して正しい拡散残響エネルギーを提供する信号レベルを表す。
【0259】
或いは、ダウンミックス係数d
xは、
d
x=E
norm,x*DSR
に従って計算され、
ここで、
【数26】
は、信号xの正規化された放出音源エネルギーを表し、DSRは、初期残響応答振幅に対する拡散残響エネルギーの比を表す。ダウンミックス係数d
xが、入力信号xに適用されると、結果として得られる信号は、拡散残響信号の初期レベルに対応する信号レベルを表し、振幅1で開始する残響応答を有するリバーブレータによって処理できる。その結果、リバーブレータの出力は、信号xの直接パスレンダリングに関して、並びに他の音源j≠xの直接パス及び拡散残響エネルギーに関して、信号xの正しい拡散残響エネルギーを提供する。
【0260】
多くの実施形態において、ダウンミックス係数は、DSRを全放出エネルギー指標と組み合わせることによって部分的に決定される。DSRが、拡散残響応答の拡散残響エネルギー又は初期振幅に対する全放出エネルギーの関係を示すか否かに関わらず、ダウンミックス係数の更なる適応は、多くの場合、残響プロセッサの出力が、所望されるエネルギー又は初期振幅を反映するように信号をスケーリングする、使用される特定のリバーブレータアルゴリズムに適応するために必要である。例えば、残響アルゴリズムの反射の密度は、入力レベルが同じままでも、生じた残響エネルギーに強い影響を与える。別の例として、残響アルゴリズムの初期振幅は、その励起の振幅に等しくない。したがって、アルゴリズム固有、又はアルゴリズム及び構成固有の調整が必要とされる。これはダウンミックス係数に含めることができ、通常は、全ての音源に共通である。いくつかの実施形態では、これらの調整は、ダウンミックスに適用されるか、又は、リバーブレータアルゴリズムに含まれる。
【0261】
ダウンミックス係数が生成されると、ダウンミックス信号は、例えば、直接重み付けられた組み合わせ又は総和によって生成される。
【0262】
記載されるアプローチの利点は、従来のリバーブレータを使用することである。例えば、リバーブレータ407は、例えば、標準的なJotリバーブレータにおいて実施されるような、フィードバック遅延ネットワークによって実装される。
【0263】
図13に例示されるように、フィードバック遅延ネットワークの原理は、遅延が異なる1つ又は複数(通常は複数)のフィードバックループを使用する。この場合はダウンミックス信号である入力信号は、ループに供給され、ループで、信号は、適切なフィードバックゲインでフィードバックされる。出力信号は、ループ内の信号を組み合わせることによって抽出される。したがって、信号は、異なる遅延で連続的に繰り返される。互いに素である遅延を使用し、ループ間で信号を混合するフィードバック行列を有することで、実空間において残響に類似したパターンを作成できる。
【0264】
安定した減衰インパルス応答を達成するために、フィードバック行列における要素の絶対値を、1より小さくする必要がある。多くの実装形態では、追加のゲイン又はフィルタがループに含まれる。これらのフィルタは、行列の代わりに減衰を制御できる。フィルタを使用すると、減衰応答が、周波数ごとに異なるという利点がある。
【0265】
リバーブレータの出力がバイノーラルでレンダリングされるいくつかの実施形態では、左右のチャネル残響信号を生じさせるために、推定された残響は、左右の耳のそれぞれの平均HRTF(Head Related Transfer Function)(頭部伝達関数)によってフィルタリングされる。HRTFが、ユーザの周りの球上で、均一な間隔の複数の距離のために利用可能である場合、左右の耳の平均HRTFは、距離が最大のHRTFのセットを使用して生成されることを理解できる。平均的なHRTFを使用することは、残響が等方性であり、全方向から到来するという考慮に基づくか、この考慮を反映している。したがって、所与の方向のHRTFのペアを含めるのではなく、全てのHRTFにわたる平均を使用できる。平均化は、左耳に対して1回、右耳に対して1回実行することができ、結果として得られるフィルタを使用して、バイノーラルレンダリング用のリバーブレータの出力を処理する。
【0266】
場合によっては、リバーブレータ自体が入力信号のカラーレーションを導入し、DSRによって記載されるような望ましい出力拡散信号エネルギーを有していない出力をもたらす。したがって、このプロセスの効果も同様に均等化される。この均等化は、リバーブレータ動作の周波数応答の逆数として解析的に決定されるフィルタに基づいて実行できる。いくつかの実施形態では、伝達関数は、線形回帰、ラインフィッティングなどの機械推定学習技法を使用して推定できる。
【0267】
いくつかの実施形態では、同じアプローチが、周波数帯域全体に均一に適用される。しかしながら、他の実施形態では、周波数依存処理が実行される。例えば、提供されたメタデータパラメータのうちの1つ又は複数は、周波数に依存する。そのような例では、装置は、周波数依存性に対応する異なる周波数帯域に、信号を分割するように構成され、前述の処理は、周波数帯域の各々において、個々に実行される。
【0268】
具体的には、いくつかの実施形態では、拡散残響信号対全信号比DSRは、周波数に依存する。例えば、個別の周波数帯域/ビンの範囲に対して異なるDSR値が提供されるか、又は、DSRが周波数の関数として提供される。そのような実施形態では、装置は、DSRの周波数依存性を反映する周波数依存ダウンミックス係数を生成するように構成される。例えば、個々の周波数帯域のダウンミックス係数が生成される。同様に、周波数依存ダウンミックス及び拡散残響信号が、結果として生成される。
【0269】
周波数依存DSRの場合、ダウンミックス係数は、他の実施形態では、ダウンミックスの生成の一部としてオーディオ信号をフィルタリングするフィルタによって補完される。別の例として、DSR効果は、ダウンミックス信号を生成するときに個々のオーディオ信号をスケーリングするために使用される周波数非依存ダウンミックス係数を生成するために使用される周波数非依存(ブロードバンド)成分と、例えば、ダウンミックスに周波数依存フィルタを適用することによって、ダウンミックスに適用される周波数依存成分とに分離される。いくつかの実施形態では、そのようなフィルタは、例えば、リバーブレータアルゴリズムの一部として、更なるカラーレーションフィルタと組み合わされる。
図7は、相関(u,v)フィルタ及びカラーレーション(h
L,h
R)フィルタを用いた例を示す。これは、Jotリバーブレータとして知られる、バイノーラル出力専用のフィードバック遅延ネットワークである。
【0270】
したがって、いくつかの実施形態では、DSRは、周波数依存成分部分及び非周波数依存成分部分を備え、ダウンミックス係数は、非周波数依存成分部分に依存して(及び周波数依存部分に依存せずに)決定される。次いで、ダウンミックスの処理は、周波数依存成分部分に基づいて適応され、すなわち、リバーブレータは、周波数依存部分に依存して適応される。
【0271】
いくつかの実施形態では、オーディオ源のうちの1つ又は複数からの音放射の指向性は、周波数に依存し、そのようなシナリオでは、周波数に依存する全放出エネルギーが生成され、(周波数に依存する、又は依存しない)DSRと組み合わされた場合、周波数に依存するダウンミックス係数がもたらされる。
【0272】
これは、例えば、個別の周波数帯域で個々の処理を実行することによって達成される。周波数に依存するDSRの処理とは対照的に、指向性に対する周波数依存性は、通常、ダウンミックス信号の生成前に(又は生成の一部として)実行する必要がある。これは、周波数依存ダウンミックスは、通常、音源によって異なるので、指向性の周波数依存効果を含めるために通常必要とされることを反映している。積分後、正味の効果が、周波数によって大きく変動する可能性がある。すなわち、所与の音源の全放出エネルギー指標は、音源ごとに異なり、実質的な周波数依存性を有する。したがって、異なる音源は、通常、異なる指向性パターンを有するため、異なる音源の全放出エネルギー指標も、通常、異なる周波数依存性を有する。
【0273】
考えられるアプローチの具体例を以下に記載する。空間の拡散音響特質を特徴付けるDSRを提供し、指向性、プリゲイン、及び基準距離メタデータから放出音源エネルギーを決定することで、対応する所望の残響エネルギーを計算できる。例えば、これは、
Enorm*DSR
として決定できる。
【0274】
DSRを計算するための成分が(例えば、信号のフルスケールに関連する)同じ基準レベルを使用している場合、結果として得られる残響エネルギーは、放出音源エネルギーについて上記で計算されたようなEnormを使用する場合、PCM信号におけるフルスケールのサンプルに対して正規化されたエネルギーにもなり、したがって、使用される信号表現で正しいレベルの残響を提供するために、対応する入力信号に適用できる拡散残響のインパルス応答(IR)のエネルギーに対応する。
【0275】
これらのエネルギー値を使用して、残響アルゴリズムの設定パラメータ、残響アルゴリズムの前のダウンミックス係数、又はダウンミックスフィルタを決定できる。
【0276】
残響を生成するために様々な手法がある。Jotリバーブレータなどのフィードバック遅延ネットワーク(FDN)ベースのアルゴリズムは、好適な低複雑性アプローチである。或いは、ノイズシーケンスは、適切な(周波数に依存する)減衰及びスペクトル形状を有するように成形できる。両方の例において、(少なくとも適切なT60を有する)プロトタイプのIRは、その(周波数に依存する)レベルが補正されるように調整できる。
【0277】
リバーブレータアルゴリズムは、単位エネルギーでインパルス応答を生じさせる(又は、DSRの単位初期振幅が、初期振幅に関連する)ように調整されるか、又は、リバーブレータアルゴリズムは、例えば、Jotリバーブレータのカラーレーションフィルタに、独自の補償を含む。或いは、ダウンミックスは、(場合によっては周波数に依存する)調整によって修正されるか、又は係数プロセッサ507によって生じさせるダウンミックス係数が修正される。
【0278】
補償は、そのようないずれの調整も伴わずに、(適切な残響時間(T60)及び反射密度(例えば、FDNにおける遅延値)などの)適用された他の全ての構成を用いてインパルス応答を生成し、そのIRのエネルギーを測定することによって決定される。
【数27】
【0279】
補償は、そのエネルギーの逆数である。ダウンミックス係数に含めるには、例えば
【数28】
のように、通常、平方根が適用される。
【0280】
多くの他の実施形態では、補償は、構成パラメータから導出される。例えば、DSRが初期残響振幅に関連している場合、最初の反射は、その構成から導出できる。相関フィルタは、定義上、エネルギー保存型であり、カラーレーションフィルタもそのように設計できる。
【0281】
カラーレーションフィルタによる正味のブースト又は減衰がないと仮定すると、リバーブレータは、例えば、T60と最小の遅延値minDelayとに依存する初期振幅(A
0)となる。
【数29】
【0282】
残響エネルギーの予測は、ヒューリスティックにも行われる。
【0283】
拡散残響エネルギーの一般的なモデルとして、指数関数A(t)を考慮でき、
【数30】
A(t)=A
0・e
-α・(t-t3)
t≧3=プリディレイである。αは、T60によって制御される減衰係数であり、A
0は、プリディレイにおける振幅である。
【0284】
このような関数の累積エネルギーを計算すると、最終的なエネルギー値に漸近的に近づく。最終的なエネルギー値は、T60とほぼ完全に線形関係を有する。
【0285】
線形関係の係数は、関数Aのまばらさ(2つおきの値を0に設定すると、エネルギーの約半分になる)、初期値A
0(エネルギーは、
【数31】
に線形的にスケーリングする)、及びサンプルレート(fsにおける変化と線形的にスケールする)に依存する。拡散テールは、T60、反射密度(FDN遅延から導出される)、及びサンプルレートを使用して、そのような関数で確実にモデル化できる。モデルのA
0は、上記のように計算でき、FDNのA
0と等しくなる。
【0286】
0.1~2秒の範囲の広帯域T60値で複数のパラメトリックな残響を生成すると、IRのエネルギーは、モデルとほぼ線形的になる。実際のエネルギーと、指数方程式モデルの平均との間のスケーリング係数は、FDN応答のまばらさによって決定される。このまばらさは、IRの終了に向かって減少するが、最初に最も影響を与える。遅延値の複数の構成を用いて上記をテストした結果、モデル低減係数と、FDNで構成された遅延間の最小差との間に、ほぼ線形の関係が存在することが分かった。
【0287】
例えば、Jotリバーブレータの特定の実装の場合、これは、
SF=7.0208*MinDelayDiff+214.1928
によって計算されるスケーリング係数SFになる。
【0288】
モデルのエネルギーは、t=0から無限大まで積分することによって計算される。これは解析的に行うことができ、結果は、
【数32】
のようになる。
【0289】
上記を組み合わせると、残響エネルギーについて次の予測
【数33】
が得られる。
【0290】
明確化のための上記の記載は、異なる機能回路、ユニット、及びプロセッサを参照して本発明の実施形態を記載したと理解されたい。しかしながら、異なる機能回路、ユニット、又はプロセッサ間の機能の任意の好適な分散が、本発明を損なうことなく使用されることが明らかであろう。例えば、別個のプロセッサ又はコントローラによって実行されるように示されている機能は、同じプロセッサ又はコントローラによって実行される。したがって、特定の機能ユニット又は回路への言及は、厳密な論理的又は物理的構造又は編成を示すのではなく、記載された機能を提供するための好適な手段への言及としてのみ見なされるべきである。
【0291】
本発明は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組み合わせを含む任意の好適な形態で実施できる。本発明は、任意選択的に、少なくとも部分的に、1つ又は複数のデータプロセッサ及び/又はデジタル信号プロセッサ上で実行されるコンピュータソフトウェアとして実施される。本発明の実施形態の要素及び構成要素は、物理的、機能的、及び論理的に任意の好適な手法で実施される。実際、これら機能は、単一のユニットで、複数のユニットで、又は他の機能ユニットの一部として実装される。したがって、本発明は、単一のユニットで実施されるか、又は、異なるユニット、回路、及びプロセッサ間で物理的及び機能的に分散される。
【0292】
本発明は、いくつかの実施形態に関連して記載されたが、本明細書に記載された特定の形態に限定されるように意図されていない。むしろ、本発明の範囲は、添付の特許請求の範囲によってのみ限定される。それに加えて、特徴は特定の実施形態に関連して記載されているように見えるが、当業者は、記載された実施形態の様々な特徴が、本発明に従って組み合わされることを認識するであろう。請求項において、備える、という用語は、他の要素又はステップの存在を排除しない。
【0293】
更に、個々に列挙されているが、複数の手段、要素、回路、又は方法のステップは、例えば、単一の回路、ユニット、又はプロセッサによって実装される。それに加えて、個々の特徴は異なる請求項に含まれるが、これらは、有利に組み合わされる可能性があり、異なる請求項に含まれることは、特徴の組み合わせが、実行可能ではない、及び/又は有利ではないことを意味しない。また、請求項の1つのカテゴリに特徴を含めることは、このカテゴリへの限定を意味せず、その特徴が必要に応じて他の請求項カテゴリに、等しく適用可能であることを示す。更に、請求項における特徴の順序は、特徴が機能せねばならない特定の順序を意味せず、特に、方法の請求項における個々のステップの順序は、ステップをこの順序で実行する必要があることを意味しない。むしろ、ステップは、任意の好適な順序で実行される。それに加えて、単数の言及は、複数を除外しない。したがって、「第1の」、「第2の」などへの言及は、複数を排除しない。請求項における参照符号は、明確化の例として提供されているにすぎず、いずれにせよ、請求項を限定するものと解釈されるべきではない。
【国際調査報告】