IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コーニンクレッカ フィリップス エヌ ヴェの特許一覧

特許7746308拡散残響信号を生成するための装置及び方法
<>
  • 特許-拡散残響信号を生成するための装置及び方法 図1
  • 特許-拡散残響信号を生成するための装置及び方法 図2
  • 特許-拡散残響信号を生成するための装置及び方法 図3
  • 特許-拡散残響信号を生成するための装置及び方法 図4
  • 特許-拡散残響信号を生成するための装置及び方法 図5
  • 特許-拡散残響信号を生成するための装置及び方法 図6
  • 特許-拡散残響信号を生成するための装置及び方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-09-19
(45)【発行日】2025-09-30
(54)【発明の名称】拡散残響信号を生成するための装置及び方法
(51)【国際特許分類】
   H04S 7/00 20060101AFI20250922BHJP
【FI】
H04S7/00 360
【請求項の数】 16
(21)【出願番号】P 2022578968
(86)(22)【出願日】2021-06-21
(65)【公表番号】
(43)【公表日】2023-07-18
(86)【国際出願番号】 EP2021066763
(87)【国際公開番号】W WO2021259829
(87)【国際公開日】2021-12-30
【審査請求日】2024-06-20
(31)【優先権主張番号】20181351.6
(32)【優先日】2020-06-22
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】590000248
【氏名又は名称】コーニンクレッカ フィリップス エヌ ヴェ
【氏名又は名称原語表記】Koninklijke Philips N.V.
【住所又は居所原語表記】High Tech Campus 52, 5656 AG Eindhoven,Netherlands
(74)【代理人】
【識別番号】110001690
【氏名又は名称】弁理士法人M&Sパートナーズ
(72)【発明者】
【氏名】コッペンス イェルーン ジェラルドゥス ヘンリクス
(72)【発明者】
【氏名】ケチチャン パトリック
【審査官】齊田 寛史
(56)【参考文献】
【文献】特表2017-507525(JP,A)
【文献】特表2011-529650(JP,A)
【文献】欧州特許出願公開第3595337(EP,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 7/00
(57)【特許請求の範囲】
【請求項1】
環境の拡散残響信号を生成するための音声装置であって、前記音声装置は、
前記環境内の音源を表現する複数の音声信号を受信する受信機と、
前記複数の音声信号のメタデータを受信するメタデータ受信機であって、前記メタデータは、
前記環境内の全放射音に対する拡散残響音のレベルを示す、拡散残響信号対全信号の関係の尺度と、
各音声信号に関する、
信号レベル指標と、
前記音声信号によって表現される前記音源からの音放射の指向性を示す指向性データとを含む、メタデータ受信機と、
前記複数の音声信号の各々に関する、
前記信号レベル指標及び前記指向性データに基づく全放射エネルギ指標と、
前記全放射エネルギ及び前記拡散残響信号対全信号の関係に基づくダウンミックス係数と、を決定する回路と、
各音声信号の前記ダウンミックス係数を、前記音声信号に適用することによって生成された、各音声信号の信号成分を組み合わせることによって、ダウンミックス信号を生成するダウンミキサと、
前記ダウンミックス信号成分から、前記環境の前記拡散残響信号を生成するリバーブレータとを備える、音声装置。
【請求項2】
音放射の前記指向性は、周波数に依存し、前記回路は、周波数依存全放射エネルギ及び周波数依存ダウンミックス係数を決定する、請求項1に記載の音声装置。
【請求項3】
前記拡散残響信号対全信号の関係は、周波数に依存し、前記回路は、周波数依存ダウンミックス係数を決定する、請求項1又は2に記載の音声装置。
【請求項4】
前記拡散残響信号対全信号の関係は、周波数依存部分及び非周波数依存部分を含み、前記回路は、前記非周波数依存部分に依存して前記ダウンミックス係数を決定し、前記周波数依存部分に依存して前記リバーブレータを適応させる、請求項1から3のいずれか一項に記載の音声装置。
【請求項5】
前記回路は、前記複数の音声信号のうちの第1の音声信号によって表現される前記音源の指向性パターンを積分することによって決定された値による前記第1の音声信号の前記信号レベル指標のスケーリングに応じて、前記第1の音声信号の前記全放射エネルギ指標を決定し、前記指向性パターンは、指向性データに基づいて決定される、請求項1から4のいずれか一項に記載の音声装置。
【請求項6】
前記複数の音声信号のうちの第1の音声信号の前記信号レベル指標は、基準距離を含み、前記基準距離は、前記第1の音声信号のための距離基準ゲインについて、前記第1の音声信号によって表現される音声源からの距離を示す、請求項1から5のいずれか一項に記載の音声装置。
【請求項7】
前記積分は、前記第1の音声信号によって表現される前記音声源からの前記基準距離である距離に対して実行される、請求項5に従属する請求項6に記載の音声装置。
【請求項8】
前記拡散残響信号対全信号の関係は、前記環境内の全放射音のエネルギに対する拡散残響音のエネルギを示す、請求項1から7のいずれか一項に記載の音声装置。
【請求項9】
前記拡散残響信号対全信号の関係は、前記環境内の全放射音のエネルギに対する拡散音の初期振幅を示す、請求項1からのいずれか一項に記載の音声装置。
【請求項10】
前記複数の音声信号のうちの第1の音声信号について決定される前記ダウンミックス係数は、前記第1の音声信号によって表現される第1の音声源の位置に依存しない、請求項1から9のいずれか一項に記載の音声装置。
【請求項11】
前記複数の音声信号のうちの第1の音声信号について決定された前記ダウンミックス係数は、聴き手の位置に依存しない、請求項1から10のいずれか一項に記載の音声装置。
【請求項12】
前記複数の音声信号のうちの第1の音声信号の前記信号レベル指標は更に、前記第1の音声信号のゲイン指標を含み、前記ゲイン指標は、前記第1の音声信号によって表現される第1の音声源からの音をレンダリングするときに、前記第1の音声信号に適用するゲインを示し、前記回路は、前記ゲイン指標に応じて前記第1の音声信号の前記ダウンミックス係数を決定する、請求項1から11のいずれか一項に記載の音声装置。
【請求項13】
前記複数の音声信号のうちの第1の音声信号の前記信号レベル指標及び前記指向性データに応じて、前記第1の音声信号の直接パス音声信号を生成する直接レンダリング回路を更に備える、請求項1から12のいずれか一項に記載の音声装置。
【請求項14】
前記メタデータは更に、遅延指標を含み、前記拡散残響信号対全信号の関係は、前記環境における全放射音のエネルギに対する前記遅延指標よりも長い遅延を有する拡散残響音のエネルギを示す、請求項1からのいずれか一項に記載の音声装置。
【請求項15】
環境の拡散残響信号を生成する方法であって、前記方法は、
前記環境内の音源を表現する複数の音声信号を受信するステップと、
前記複数の音声信号のメタデータを受信するステップであって、前記メタデータは、
前記環境内の全放射音に対する拡散残響音のレベルを示す、拡散残響信号対全信号の関係の尺度と、
各音声信号に関する、
信号レベル指標と、
前記音声信号によって表現される前記音源からの音放射の指向性を示す指向性データとを含む、メタデータを受信するステップと、
前記複数の音声信号の各々に関する、
前記信号レベル指標及び前記指向性データに基づく全放射エネルギ指標と、
前記全放射エネルギ及び前記拡散残響信号対全信号の関係に基づくダウンミックス係数と、を決定するステップと、
各音声信号の前記ダウンミックス係数を、前記音声信号に適用することによって生成された、各音声信号の信号成分を組み合わせることによって、ダウンミックス信号を生成するステップと、
前記ダウンミックス信号成分から、前記環境の前記拡散残響信号を生成するステップとを有する、方法。
【請求項16】
コンピュータにおいて実行された場合、請求項15に記載の方法のすべてのステップを実行するコンピュータプログラムコード手段を備えた、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声データを処理する装置及び方法に関し、特に拡張/混合/仮想現実アプリケーション用の拡散残響信号を生成するための処理に関するが、これに限定されない。
【背景技術】
【0002】
近年、視聴覚コンテンツに基づく体験の多様性及び範囲が、大幅に拡大しており、そのようなコンテンツを利用及び消費する新しいサービス及び手法が継続的に開発及び導入されている。特に、多くの空間的及びインタラクティブなサービス、アプリケーション、及び体験が開発されており、ユーザに、より没頭できる、没入型の体験を提供する。
【0003】
そのようなアプリケーションの例として、仮想現実(VR)、拡張現実(AR)、及び複合現実(MR)アプリケーションがあり、これらは急速に主流になりつつあり、多くのソリューションが消費者市場に向けられている。また、多くの規格が、多くの規格化団体によって開発されている。そのような規格化活動は、例えば、ストリーミング、ブロードキャスト、レンダリングなどを含む、VR/AR/MRシステムの様々な態様の規格を積極的に開発している。
【0004】
VRアプリケーションは、異なる世界/環境/シーンにいるユーザに対応するユーザ体験を提供する傾向があるが、AR(Mixed Reality MRを含む)アプリケーションは、現在の環境におけるユーザに対応するユーザ体験を提供する傾向があるが、追加情報又は仮想物体又は情報が追加される。したがって、VRアプリケーションは、完全没入型の合成的に生成された世界/シーンを提供する傾向があるが、ARアプリケーションは、ユーザが物理的に存在する実際のシーンにオーバレイされる、部分的に合成された世界/シーンを提供する傾向がある。しかしながら、これら用語はしばしば同じ意味で使用され、大部分重複している。以下では、仮想現実/VRという用語は、仮想現実と、拡張/複合現実との両方を表すために使用される。
【0005】
一例として、ますます人気が高まっているサービスは、ユーザが、システムと積極的かつ動的に対話して、レンダリングのパラメータを変更し、これが、動きや、ユーザの位置及び向きにおける変化に適応できるような手法で、画像及び音声を提供することである。多くのアプリケーションで非常に魅力的な機能は、例えば、提示されているシーンで視覚者が移動して「見回す」ことができるような、視覚者の有効な視覚位置及び視覚方向を変更する機能である。
【0006】
そのような機能により、具体的に、仮想現実体験をユーザに提供できるようになる。これにより、ユーザは、仮想環境内を(比較的)自由に動き回り、自分の位置と、自分が見ている場所とを動的に変更できる。通常、そのような仮想現実アプリケーションは、シーンの3次元モデルに基づいており、モデルは、動的に評価されて、特定の要求されたビューを提供する。このアプローチは、例えば、一人称シューティングゲームのカテゴリなど、コンピュータ及びコンソール用のゲームアプリケーションからよく知られている。
【0007】
また、特に仮想現実アプリケーションでは、提示される画像が三次元画像であることが望ましく、通常、立体ディスプレイを使用して提示される。実際、視覚者の没入感を最適化するために、提示されたシーンを三次元シーンとして体験することが、通常、ユーザにとって好ましい。実際、仮想現実体験は、好ましくは、ユーザが仮想世界に対して自分の位置、視点、及び瞬間を選択できるようにする必要がある。
【0008】
視覚的なレンダリングに加えて、ほとんどのVR/ARアプリケーションは更に、対応する音声体験を提供する。多くのアプリケーションにおいて、音声は、音声源が視覚シーン内の対応する物体の位置に対応する位置から到着するように知覚される、空間音声体験を提供することが好ましい。したがって、音声シーン及びビデオシーンは、好ましくは、一貫して認識され、両方によって完全な空間体験を提供する。
【0009】
例えば、バイノーラル音声レンダリング技術を使用したヘッドフォン再生によって生成される仮想音声シーンによって、多くの没入型体験が提供される。多くのシナリオでは、そのようなヘッドフォン再生は、レンダリングが、ユーザの頭の動きに反応するように、ヘッドトラッキングに基づいており、これにより没入感が大幅に向上する。
【0010】
多くのアプリケーションにとって重要な機能は、音声環境の自然で現実的な知覚を提供できる音声を生成し、及び/又は、分布させる方法である。例えば、仮想現実アプリケーション用の音声を生成する場合、所望される音声源を生成するだけでなく、減衰、反射、カラーレーションなどを含む音声環境の現実的な知覚を提供するために、これらの音声源を変更することも重要である。
【0011】
室内音響、又はより一般的な環境音響の場合、環境の壁、床、天井、物体などからの音波の反射により、音源信号の遅延及び減衰(通常は周波数依存)のバージョンが、異なるパスを経由して聴き手(つまり、VR/ARシステムのユーザ)に到達する。組合せ効果は、インパルス応答によってモデル化でき、これは、以後、室内インパルス応答(RIR)と称される(この用語は、部屋の形態での音響環境の特定の用途を示唆するが、部屋に対応するか否かに関係なく、音響環境に関してより一般的に使用される傾向がある)。
【0012】
図1に例示されるように、室内インパルス応答は、通常、音源から聴き手までの距離に依存する直接音と、その後の、部屋の音響特性を特徴付ける残響部分とで構成される。部屋のサイズと形状、部屋内の音源と聴き手の位置、及び部屋の表面の反射特性のすべてが、この残響部分の特性の役割を果たす。
【0013】
残響部分は、普通は重なり合う2つの時間領域に分割できる。第1の領域は、いわゆる早期反射を含み、これは、聴き手に到達する前に、部屋内の壁や障害物での音源の孤立した反射を表現する。タイムラグが増加すると、一定の時間間隔内に存在する反射の数が増加し、パスは、2次以上の反射(例えば、反射が、複数の壁、又は壁と天井との両方から離れている場合など)を含む。
【0014】
残響部分における第2の領域は、これらの反射の密度が、人間の脳によってこれ以上分離できなくなるポイントまで増加する部分である。この領域は通常、拡散残響、後期残響、又は残響テールと呼ばれる。
【0015】
残響部分は、音源の距離と、部屋のサイズ及び音響特性とに関する情報を、聴覚系に与える手がかりを含む。無響部分のエネルギに対する残響部分のエネルギは、音源の知覚距離を大部分決定する。最も早期の反射のレベル及び遅延は、音源が壁にどれだけ近いかについての手がかりを提供し、人体測定によるフィルタリングは、特定の壁、床、又は天井の評価を強化する。
【0016】
(早期)反射の密度は、部屋の知覚サイズに影響する。残響時間T60で示される、反射のエネルギレベルが60dB低下するのに要する時間は、部屋で反射がどれだけ早く消散するかの尺度としてよく使用される。残響時間は、具体的には、壁が非常に反射性である(例えば、浴室)か、又は音の吸収が多い(例えば、家具、カーペット、及びカーテンのある寝室)かのように、部屋の音響特性に関する情報を提供する。
【0017】
更に、RIRは、頭部、耳、及び肩によってフィルタ処理される、つまり、RIPは、頭部関連インパルス応答(HRIR)であるため、バイノーラル室内インパルス応答(BRIR)の一部である場合、ユーザの人体測定特性に依存する。
【0018】
後期残響の反射は、聴き手によって区別及び分離できないため、例えば、よく知られているJotリバーブレータのように、フィードバック遅延ネットワークを使用するパラメトリックリバーブレータを使用してシミュレーションされ、パラメトリックに表現されることが多い。
【0019】
早期反射の場合、入射方向及び距離に依存する遅延は、人間が、部屋と、音源の相対位置とに関する情報を抽出するための重要な手がかりである。したがって、早期反射のシミュレーションは、後期残響よりも、より明確である必要がある。したがって、効率的な音響レンダリングアルゴリズムでは、早期反射は、後期残響とは異なる手法でシミュレーションされる。早期反射のよく知られた方法は、部屋の境界毎に音源をミラーリングして、反射を表現する仮想音源を生成することである。
【0020】
早期反射の場合、部屋の境界(壁、天井、床)に対するユーザ及び/又は音源の位置が関連するが、後期残響の場合、部屋の音響応答は拡散するため、部屋全体がより均一になる傾向がある。これにより、後期残響のシミュレーションは、多くの場合、早期反射よりも計算効率が高くなる。
【0021】
部屋によって定義される後期残響の2つの主要な特性は、T60値及び残響レベルである。拡散残響インパルス応答に関して、これらの値は、インパルス応答の勾配及び振幅を表現する。どちらも通常、自然な部屋では周波数に大きく依存する。
【0022】
T60パラメータは、部屋の反射率及びサイズの印象を与えるのに重要であり、残響レベルは、部屋の境界における複数の反射の複合効果を示す。残響レベルとその周波数挙動は、プリディレイに依存し、早期反射と後期残響との間の区別がなされる場所を示す(図2参照)。
【0023】
残響レベルは、直接音との関係において、主に心理音響的な関連性がある。両者間のレベル差は、音源とユーザ(又はRIR測定ポイント)との間の距離の指標である。距離が長くなると、直接音の減衰が大きくなるが、後期残響のレベルは同じままである(部屋全体で同じである)。同様に、ユーザが音源に対してどこにいるかに依存する指向性を有する音源の場合、ユーザが、音源の周りを移動すると、指向性は直接応答に影響するが、残響のレベルには影響しない。
【0024】
仮想現実アプリケーションなどの多くのシステムにとって重要な課題及び考慮事項は、音声環境を効率的に表現し、分布させる方法である。多くの場合、環境の音声は、個々の音源信号を表現する信号を、音声源及び音響環境の特性をパラメトリックに記述するデータとともに提供することによって、表現され、分布される。この課題は、些細な問題ではなく、様々な問題が考えられる。
【0025】
直接パス及び拡散残響の記述を分けることが提案されている。しかしながら、拡散残響をどのように表現し、分布させ、及びレンダリングし/合成するかという問題は、現在大きな関心を集めている。
【0026】
直接音に関連するのではなく、より一般的な特性によって残響レベルの指標を提供することが提案されている。Encoder Input Format(EIF)が定義されているMPEG-I Audio Call for Proposals(CfP)の準備の一環として、具体的な提案(MPEG output document N19211のセクション3.9、「MPEG-I 6DoF Audio Encoder Input Format」,MPEG 130)がなされた。EIFは、プリディレイ及び直接拡散比(DDR)によって残響レベルを定義する。DDRは、プリディレイ後の拡散残響エネルギと、放射音源エネルギとの間の比として定義される。
【数1】
【0027】
しかしながら、そのようなパラメータは有用であるが、対処する必要がある多くの実質的な問題がある。例えば、現在、特定のパラメータをどのように定義又は決定するかについての提案はない。また、DDR指標を使用して音声をレンダリングする方法、及び、具体的に拡散残響信号を生成するために使用される方法についても、考慮されていない。
【0028】
EP3402222は、マルチチャネル音声信号のチャネルに応じて、バイノーラル信号を生成するための仮想化方法を開示し、この方法は、少なくとも1つのフィードバック遅延ネットワーク(FDN)を使用することによって、共通の後期残響を、チャネルのダウンミックスへ適用することを含む、バイノーラル室内インパルス応答(BRIR)を、各チャネルに適用する。
【発明の概要】
【発明が解決しようとする課題】
【0029】
したがって、音声、具体的に拡散残響を表現及び生成する方法に関する現在のアプローチ及び提案は、最適ではないか、又は不十分であるか、及び/又は不完全である傾向がある。これは特に、例えば、音声が生成される位置が大幅に変わる、仮想現実アプリケーションの場合である。
【0030】
したがって、拡散残響信号を生成するためのアプローチが有利である。特に、動作の改善、柔軟性の向上、複雑さの軽減、実施の容易化、音声体験の改善、音声品質の改善、計算負荷の軽減、変動する位置への適合性の改善、仮想/混合/拡張現実アプリケーションのパフォーマンスの改善、拡散残響の知覚的な手がかりの改善、及び/又はパフォーマンス及び/又は動作の改善を可能にするアプローチは有利である。
【0031】
したがって、本発明は、上述の欠点のうちの1つ又は複数を、単独で、又は任意の組合せで、好ましくは軽減、緩和、又は排除しようとするものである。
【課題を解決するための手段】
【0032】
本発明の態様によれば、環境の拡散残響信号を生成するための音声装置が提供され、装置は、環境内の音源を表現する複数の音声信号を受信するように構成された受信機と、複数の音声信号のメタデータを受信するように構成されたメタデータ受信機であって、メタデータは、環境内の全放射音に対する拡散残響音のレベルを示す、拡散残響信号対全信号の関係と、各音声信号に関する、信号レベル指標と、音声信号によって表現される音源からの音放射の指向性を示す指向性データとを含む、メタデータ受信機と、複数の音声信号の各々に関する、信号レベル指標及び指向性データに基づく全放射エネルギ指標と、全放射エネルギ及び拡散残響信号対全信号の関係に基づくダウンミックス係数とを決定するように構成された回路と、各音声信号のダウンミックス係数を、音声信号に適用することによって生成された、各音声信号の信号成分を組み合わせることによって、ダウンミックス信号を生成するように構成されたダウンミキサと、ダウンミックス信号成分から、環境の拡散残響信号を生成するためのリバーブレータとを備える。
【0033】
本発明は、多くの実施形態において、拡散残響信号の決定を改善及び/又は容易にする。本発明は、多くの実施形態及びシナリオにおいて、音響環境の改善された知覚を提供する、より自然に聞こえる拡散残響信号を生成する。拡散残響信号の生成は、多くの場合、複雑性が低く、計算リソース要件が低い。このアプローチにより、音響環境における拡散残響音を、比較的少数のパラメータで効果的に表すことができ、これは、個々の音源の効率的な表現と、これらからの個々のパスの音の伝播、具体的には直接パスの伝播も提供する。
【0034】
このアプローチは、多くの実施形態において、音源及び/又は聴き手の位置に依存せず拡散残響信号を生成することを可能にする。これにより、多くの仮想現実や拡張現実のアプリケーションなど、位置が変化する動的なアプリケーションのために拡散残響信号を効率的に生成できる。
【0035】
拡散残響信号対全信号比は、拡散残響信号レベル対全信号レベル比、又は拡散残響レベル対全レベル比、又は放射音源エネルギ対拡散残響エネルギ比(又はその変動/順列)とも称される。
【0036】
音声装置は、単一のデバイス又は単一の機能ユニットにおいて実施されるか、又は異なるデバイス又は機能に分散される。例えば、音声装置は、デコーダ機能ユニットの一部として実施されるか、又は、いくつかの機能要素がデコーダ側で実行され、他の要素がエンコーダ側で実行されるように分散される。
【0037】
本発明の任意選択の特徴によれば、音放射の指向性は、周波数に依存し、回路は、周波数依存全放射エネルギ及び周波数依存ダウンミックス係数を生成するように構成される。
【0038】
このアプローチは、周波数依存性を反映する拡散残響信号を生成するための特に効率的な動作を提供する。
【0039】
本発明の任意選択の特徴によれば、拡散残響信号対全信号の関係は、周波数に依存し、回路は、周波数依存ダウンミックス係数を生成するように構成される。
【0040】
このアプローチは、周波数依存性を反映する周波数依存性拡散残響信号を生成するための特に効率的な動作を提供する。
【0041】
本発明の任意選択の特徴によれば、拡散残響信号対全信号の関係は、周波数依存部分及び非周波数依存部分を含み、回路は、非周波数依存部分に依存してダウンミックス係数を生成し、周波数依存部分に依存してリバーブレータを適応させるように構成される。
【0042】
このアプローチは、周波数依存性を反映する拡散残響信号を生成するための特に効率的な動作を提供し、具体的には、複雑さ及び/又はリソースの使用を軽減する。例えば、このアプローチは、周波数依存性が、ダウンミックス信号の単一のフィルタリングによって反映されることを可能にする。
【0043】
本発明の任意選択の特徴によれば、回路は、複数の音声信号のうちの第1の音声信号によって表現される音源の指向性パターンを積分することによって決定された値による第1の音声信号の信号レベル指標のスケーリングに応じて、第1の音声信号の全放射エネルギ指標を決定するように構成される。
【0044】
これは、多くの実施形態において、特に有利な動作を提供する。スケーリングは、ダウンミックス係数の決定に関連して信号レベル指標に適用される任意の関数である。この関数は、通常、全放射エネルギ指標の関数として単調に増加する。スケーリングは、線形スケーリング又は非線形スケーリングである。
【0045】
スケーリングは、信号の時間的な変動に依存しないので、音声信号の瞬間的なレベルで更新する必要はなく、信号レベル指標又は指向性パターンが変化した場合にのみ再計算する必要がある。
【0046】
本発明の任意選択の特徴によれば、複数の音声信号のうちの第1の音声信号の信号レベル指標は、基準距離を含み、基準距離は、第1の音声信号のための距離基準ゲインについて、第1の音声信号によって表現される音声源からの距離を示す。
【0047】
これは、多くの実施形態において、特に有利な動作を提供する。距離基準ゲインは、所定の値であり、通常、少なくともいくつかの、多くの場合、すべての音声源及び信号に共通である。多くの実施形態において、距離基準ゲインは0dBである。
【0048】
本発明の任意選択の特徴によれば、積分は、第1の音声信号によって表現される音声源からの基準距離である距離に対して実行される。
【0049】
これは、特に効率的なアプローチを提供し、動作を容易にする。
【0050】
本発明の任意選択の特徴によれば、拡散残響信号対全信号の関係は、環境内の全放射音のエネルギに対する拡散残響音のエネルギを示す。
【0051】
これは、多くの実施形態において、特に有利な動作を提供する。
【0052】
本発明の任意選択の特徴によれば、拡散信号対全信号の関係は、環境内の全放射音のエネルギに対する拡散音の初期振幅を示す。
【0053】
これは、多くの実施形態において、特に有利な動作を提供する。
【0054】
本発明の任意選択の特徴によれば、複数の音声信号のうちの第1の音声信号について決定されるダウンミックス係数は、第1の音声信号によって表現される第1の音声源の位置に依存しない。
【0055】
これは、多くの実施形態において、特に有利な動作を提供し、特に、仮想現実アプリケーションなど、音源の位置が変化する動的アプリケーションの動作を容易にする。
【0056】
本発明の任意選択の特徴によれば、複数の音声信号のうちの第1の音声信号について決定されるダウンミックス係数は、聴き手の位置に依存しない。
【0057】
これは、多くの実施形態において、特に有利な動作を提供し、特に、仮想現実アプリケーションなど、位置が変化する動的アプリケーションのための動作を容易にする。
【0058】
いくつかの実施形態では、音声装置の処理は、音声源位置に依存しない。いくつかの実施形態では、音声装置の処理は、聴き手の位置に依存しない。
【0059】
いくつかの実施形態では、音声装置の処理は、拡散信号対全信号比が適用される領域内の聴き手の位置にのみ依存しない。
【0060】
いくつかの実施形態では、ダウンミックス係数の更新レートは、第1の音声信号によって表現される第1の音声源の位置の更新レートよりも低い。いくつかの実施形態では、ダウンミックス係数の更新レートは、聴き手の位置の更新レートよりも低い。ダウンミックス係数は、聴き手位置/音声源位置の更新レートよりもはるかに低い時間レートで計算される。
【0061】
本発明の任意選択の特徴によれば、複数の音声信号のうちの第1の音声信号の信号レベル指標は更に、第1の音声信号のゲイン指標を含み、ゲイン指標は、第1の音声信号によって表現される第1の音声源からの音をレンダリングするときに、第1の音声信号に適用するゲインを示し、回路は、ゲイン指標に応じて第1の音声信号のダウンミックス係数を決定するように構成される。
【0062】
本発明の任意選択の特徴によれば、音声装置は更に、複数の音声信号のうちの第1の音声信号の信号レベル指標及び指向性データに応じて、第1の音声信号の直接パス音声信号を生成するように構成された直接レンダリング回路を備える。
【0063】
これは、多くの実施形態において、特に有利な動作を提供する。
【0064】
本発明の任意選択の特徴によれば、メタデータは更に、遅延指標を含み、拡散信号対全信号比(DSR)は、全放射音のエネルギに対する遅延指標によって示される遅延よりも長い遅延を有する環境における拡散残響音のエネルギを示す。
【0065】
遅延指標よりも長い遅延を有する環境における拡散残響音のエネルギは、音声源での対応する音の放射後に、少なくとも特定の遅延が発生する室内インパルス応答の寄与によって反映され、或いは室内インパルスの寄与として決定され、特定の遅延は、遅延指標によって示される。
【0066】
いくつかの実施形態では、拡散信号対全信号比(DSR)は、環境内の全放射音のエネルギに対する拡散残響音のエネルギを示し、拡散残響音のエネルギは、音声源における対応する音の放射後、少なくとも特定の遅延を発生させる室内応答寄与によって決定される。
【0067】
本発明の別の態様によれば、環境の拡散残響信号を生成する方法が提供され、この方法は、環境内の音源を表現する複数の音声信号を受信することと、複数の音声信号のメタデータを受信することであって、メタデータは、環境内の全放射音に対する拡散残響音のレベルを示す、拡散残響信号対全信号の関係と、各音声信号に関する、信号レベル指標と、音声信号によって表現される音源からの音放射の指向性を示す指向性データとを含む、メタデータを受信することと、複数の音声信号の各々に関する、信号レベル指標及び指向性データに基づく全放射エネルギ指標と、全放射エネルギ及び拡散残響信号対全信号の関係に基づくダウンミックス係数とを決定することと、各音声信号のダウンミックス係数を、音声信号に適用することによって生成された、各音声信号の信号成分を組み合わせることによって、ダウンミックス信号を生成することと、ダウンミックス信号成分から、環境の拡散残響信号を生成することとを有する。
【0068】
本発明のこれら及び他の態様、特徴及び利点は、以下に記述される実施形態を参照して明らかになり、解明されるであろう。
【0069】
本発明の実施形態は、例としてのみ、図面を参照して記述される。
【図面の簡単な説明】
【0070】
図1】室内インパルス応答の例を示す図である。
図2】室内インパルス応答の例を示す図である。
図3】仮想現実システムの要素の例を示す図である。
図4】本発明のいくつかの実施形態による、音声出力を生成するための音声装置の例を示す図である。
図5】本発明のいくつかの実施形態による、拡散残響信号を生成するための音声残響装置の一例を示す図である。
図6】室内インパルス応答の例を示す図である。
図7】リバーブレータの例を示す図である。
【発明を実施するための形態】
【0071】
以下の記述は、仮想現実アプリケーションの音声処理及び生成に注目しているが、記述される原理及び概念は、他の多くのアプリケーション及び実施形態で使用されることを理解されたい。
【0072】
ユーザが仮想世界を動き回ることができる仮想体験はますます人気が高まっており、そのような需要を満たすためのサービスが開発されている。
【0073】
いくつかのシステムでは、VRアプリケーションは、例えばリモートVRデータ又は処理を使用しない、又はアクセスさえしないスタンドアロンデバイスによって視覚者へローカルに提供される。例えば、ゲームコンソールなどのデバイスは、シーンデータを格納するためのストアと、視覚者の姿勢を受信/生成するための入力部と、シーンデータから、対応する画像を生成するためのプロセッサとを備える。
【0074】
他のシステムでは、VRアプリケーションは、視覚者から離れて実施及び実行される。例えば、ユーザにとってローカルなデバイスは、データを処理して視覚者の姿勢を生成するリモートデバイスに送信される動き/姿勢データを検出/受信する。次いで、リモートデバイスは、シーンを記述するシーンデータに基づいて、ユーザ姿勢に適した適切なビュー画像及び対応する音声信号を生成する。次に、ビュー画像及び対応する音声信号は、提示される視覚者にローカルなデバイスに送信される。例えば、リモートデバイスは、ローカルデバイスによって直接提示されるビデオストリーム(通常、立体/3Dビデオストリーム)及び対応する音声ストリームを直接生成する。したがって、そのような例では、ローカルデバイスは、動きデータを送信し、受信したビデオデータを提示することを除いて、VR処理を実行しない。
【0075】
多くのシステムでは、機能が、ローカルデバイス及びリモートデバイスに分散される。例えば、ローカルデバイスは、受信した入力及びセンサデータを処理して、リモートVRデバイスに連続的に送信されるユーザ姿勢を生成する。次いで、リモートVRデバイスは、対応するビュー画像及び対応する音声信号を生成し、提示するためにローカルデバイスに送信する。他のシステムでは、リモートVRデバイスは、ビュー画像と、対応する音声信号とを直接生成しないが、関連するシーンデータを選択して、これをローカルデバイスに送信し、ローカルデバイスは、提示されるビュー画像及び対応する音声信号を生成する。例えば、リモートVRデバイスは、最も近いキャプチャポイントを識別し、対応するシーンデータ(例えば、物体源とそれらの位置メタデータとのセット)を抽出し、これをローカルデバイスに送信する。次いで、ローカルデバイスは、受信したシーンデータを処理して、特定の現在のユーザ姿勢に関する画像及び音声信号を生成する。ユーザ姿勢は通常、頭の姿勢に対応し、ユーザ姿勢への言及は通常、頭の姿勢への言及に対応すると同様に見なされる。
【0076】
特にブロードキャストサービスのための多くのアプリケーションでは、音源は、ユーザ姿勢に依存しないシーンの画像(ビデオを含む)及び音声表現の形態で、シーンデータを送信又はストリーミングする。例えば、特定の仮想的な部屋の範囲内の音声源に対応する信号及びメタデータが、複数のクライアントに送信又はストリーミングされる。次に、個々のクライアントは、現在のユーザ姿勢に対応する音声信号をローカルに合成する。同様に、音源は、環境内の音声源、及び環境の音響特性の記述を含む、音声環境の一般的な記述を送信する。次いで、例えばバイノーラルレンダリング及び処理を使用して、音声表現がローカルに生成され、ユーザに提示される。
【0077】
図3は、リモートVRクライアントデバイス301が、例えばインターネットなどのネットワーク305を介して、VRサーバ303と連携するVRシステムのそのような例を示している。サーバ303は、潜在的に多数のクライアントデバイス301を同時にサポートするように構成される。
【0078】
VRサーバ303は、例えば、適切なユーザ姿勢(姿勢は、位置及び/又は向きを称する)に対応するビュー画像をローカルに合成するために、クライアントデバイスによって使用される画像データの形態で、画像表現を含む画像信号を送信することによって、ブロードキャスト体験をサポートする。同様に、VRサーバ303は、シーンの音声表現を送信して、音声を、ユーザ姿勢のためにローカルに合成できる。具体的には、ユーザが、仮想環境内を動き回ると、合成されてユーザに提示される画像及び音声が更新され、(仮想)環境内のユーザの現在の(仮想)位置及び向きが反映される。
【0079】
したがって、図3のアプリケーションなどの多くのアプリケーションでは、シーンをモデル化し、データ信号に効率的に含めることができる効率的な画像及び音声表現を生成することが望ましい。データ信号は、様々なデバイスへ送信又はストリームされ、これらデバイスは、キャプチャ姿勢とは異なる姿勢のビュー及び音声を、ローカルに合成できる。
【0080】
いくつかの実施形態では、シーンを表現するモデルは、例えば、ローカルに保存され、適切な画像と音声とを合成するためにローカルに使用される。例えば、部屋の音声モデルは、部屋の音響特性だけではなく、部屋で聞くことができる音声源の特性の指標を含む。次に、モデルデータを使用して、特定の位置に適した音声を合成する。
【0081】
音声シーンがどのように表現され、この表現が音声の生成にどのように使用されるかは重要な問題である。自然で現実的な効果を聴き手に提供することを目的とした音声レンダリングは、通常、音響環境のレンダリングを含む。多くの環境のために、これは、部屋などの環境内に存在する拡散残響の表現及びレンダリングを含む。そのような拡散残響のレンダリング及び表現は、音声が自然で現実的な環境を表現していると知覚されるか否かなど、環境の知覚に顕著な効果を有することが知られている。以下では、音声シーンを表現し、この表現に基づいて音声、特に拡散残響音声をレンダリングするための有利なアプローチが記述される。
【0082】
このアプローチは、図4に例示されるような音声装置を参照して記述される。音声装置は、音響環境における音声を表現する音声出力信号を生成するように構成される。具体的には、音声装置は、いくつかの音声源及び所与の音響特性を有する仮想環境内を動き回るユーザによって知覚される音声を表現する音声を生成する。各音声源は、音声源からの音を表現する音声信号と、音声源の特性を記述する(音声信号のレベル指標を提供するような)メタデータとによって表現される。それに加えて、音響環境を特徴付けるメタデータが提供される。
【0083】
音声装置は、音声源毎にパスレンダラ401を備える。各パスレンダラ401は、音声源から聴き手への直接パスを表現する直接パス信号成分を生成するように構成される。直接パス信号成分は、聴き手及び音声源の位置に基づいて生成され、具体的に、距離に依存する音声源のための、潜在的に周波数に依存する音声信号と、例えば、ユーザに対する特定の方向の音声源(例えば、非無指向性音源)のための相対ゲインとをスケーリングすることによって、直接信号成分を生成する。
【0084】
多くの実施形態において、レンダラ401はまた、源位置とユーザ位置との間にある遮蔽又は回折(仮想)要素に基づいて直接パス信号を生成する。
【0085】
多くの実施形態において、パスレンダラ401は、1つ又は複数の反射を含む個々のパスについてさらなる信号成分を生成する。これは、例えば、当業者に知られているように、壁、天井などの反射を評価することによって行われる。直接パス成分及び反射パス成分は、パスレンダラ毎に単一の出力信号に組み合わされ、したがって、音声源毎に直接パス反射及び早期/個別反射を表現する単一の信号が生成される。
【0086】
いくつかの実施形態では、各音声源の出力音声信号はバイノーラル信号であり、したがって、各出力信号は、左耳及び右耳(サブ)の両方の信号を含む。
【0087】
パスレンダラ401からの出力信号は、コンバイナ403に提供され、コンバイナ403は、異なるパスレンダラ401からの信号を組み合わせて、単一の組合せ信号を生成する。多くの実施形態において、バイノーラル出力信号が生成され、コンバイナは、パスレンダラ401からの個々の信号の、重み付けられた組合せなどの組合せを実行し、すなわち、パスレンダラ401からのすべての右耳信号がともに加算されて、組み合わされた右耳信号を生成し、パスレンダラ401からのすべての左耳信号がともに加算されて、組み合わされた左耳信号を生成する。
【0088】
パスレンダラ及びコンバイナは、通常、マイクロコントローラや、マイクロプロセッサや、デジタル信号プロセッサや、又はメモリなどのサポート回路構成を含む中央処理装置などの適切な計算リソースで処理するために実行可能コードを含む、任意の適切な手法で実施される。複数のパスレンダラは、例えば、専用の処理ユニットのバンクのような並列機能ユニットとして実施されるか、又は各音声源の繰り返し動作として実施されることを理解されたい。通常、各音声源/信号に対して、同じアルゴリズム/コードが実行される。
【0089】
個々のパス音声成分に加えて、音声装置は更に、環境内の拡散残響を表現する信号成分を生成するように構成される。拡散残響信号は、音声源信号をダウンミックス信号に組み合わせて、次に残響アルゴリズムをダウンミックス信号に適用して拡散残響信号を生成することによって(効率的に)生成される。
【0090】
図4の音声装置は、複数の音源(通常、リバーブレータが拡散残響をシミュレーションしている音響環境内のすべての音源)の音声信号を受信し、それらをダウンミックスに組み合わせるダウンミキサ405を備える。したがって、ダウンミックスは、環境内で生成されたすべての音を反射する。ダウンミックスは、ダウンミックスに基づいて拡散残響信号を生成するように構成されたリバーブレータ407に供給される。リバーブレータ407は、具体的には、Jotリバーブレータなどのパラメトリックリバーブレータである。リバーブレータ407は、拡散残響信号が供給されるコンバイナ403に結合される。コンバイナ403は次に、拡散残響信号を、個々のパスを表現するパス信号と組み合わせて、聴き手によって知覚される環境内の組合せ音を表す組合せ音声信号を生成する。
【0091】
拡散残響信号の生成が、図5に例示されるような音声残響装置を参照して更に記述される。音声残響装置は、図4の音声装置に含まれ、具体的には、ダウンミキサ405及びリバーブレータ407を実施する。
【0092】
音声残響装置は、音声を表現する音声シーンデータを受信するように構成された受信機501を備える。音声シーンデータは、具体的には、複数の音声信号を含み、音声信号の各々は、1つの音声源を表現する(したがって、音声信号は、音声源からの音を記述する)。それに加えて、受信機501は、音声源の各々についてメタデータを受信する。このメタデータは、音声信号によって表現される音源のレベル/エネルギ/振幅を示す音声源の(相対的な)信号レベル指標を含む。音声源のメタデータは更に、音源からの音放射の指向性を示す指向性データを含む。音声信号の指向性データは、例えばゲインパターンを記述し、具体的には、音声源の位置からの異なる方向における音声源の相対ゲイン/エネルギ密度を記述する。
【0093】
受信機501は更に、音響環境を示すメタデータを受信する。具体的には、受信機501は、拡散残響信号対全信号の関係、具体的には、音響環境内の全放射音に対する拡散残響音のレベルを示す、(拡散残響信号レベル対全信号レベル比、又は場合によっては、拡散残響信号レベル対全信号エネルギ比、又は放射エネルギ対拡散残響エネルギ比とも称される)拡散残響信号対全信号比を受信する。拡散残響信号対全信号比は、簡略化のために以下では、拡散対音源比DSR、又は同等に、音源対拡散比SDRとも称される(以下の記述では主に前者を使用する)。
【0094】
比率と逆比率とが、同じ情報を提供すること、すなわち、任意の比率が、逆比率として表現できることを理解されたい。したがって、拡散残響信号対全信号の関係は、拡散残響音のレベルを反映する値の、全放射音を反映する値によって除された分数によって、又は同様に、全放射音を反映する値の、拡散残響音のレベルを反映する値によって除された分数によって表現される。推定値の様々な修正を導入できること、例えば、非線形関数(例えば、対数関数)を適用できることも理解されたい。
【0095】
音響環境内の全放射音に対する拡散残響音のレベルを示す拡散残響信号対全信号の関係の任意の指標が使用され、メタデータに提供される。以下の記述は、拡散残響信号のレベルと、全信号比のレベル(例えば、エネルギ又はエネルギ密度)との間の比によって表現される関係に注目する。したがって、この記述は、DSRとも称される拡散残響信号対全信号比の例に注目する。
【0096】
受信機501は、例えば、個別又は専用の電子機器を使用することを含む、任意の適切な手法で実施される。受信機501は、例えば、特定用途向け集積回路(ASIC)などの集積回路として実施される。いくつかの実施形態では、回路は、例えば、中央処理装置、デジタル信号処理ユニット、又はマイクロコントローラなどの適切なプロセッサ上で実行されるファームウェア又はソフトウェアなど、プログラムされた処理ユニットとして実施される。そのような実施形態では、処理ユニットは、オンボード又は外部メモリ、クロック駆動回路構成、インターフェース回路構成、ユーザインターフェース回路構成などを含むことが理解されるであろう。そのような回路構成は更に、処理ユニットの一部として、集積回路として、及び/又は個別の電子回路構成として実施される。
【0097】
受信機501は、音声シーンデータを、任意の適切な音声源から、例えば音声信号の一部として含む、任意の適切な形態で受信する。データは、内部源又は外部源から受信される。受信機401は、例えば、ネットワーク接続や、無線接続や、又は内部源への任意の他の適切な接続を介して部屋データを受信するように構成される。多くの実施形態において、受信機は、ローカルメモリなどのローカルソースからデータを受信する。多くの実施形態において、受信機501は、例えば、ローカルRAM又はROMメモリなどのローカルメモリから部屋データを検索するように構成される。
【0098】
受信機501は、パスレンダラ401に結合され、前述のようにパス信号成分(直接パス及び早期反射)を生成するために音声シーンデータをこれらに転送する。
【0099】
音声残響装置は更に、音声シーンデータも供給されるダウンミキサ405を備える。ダウンミキサ405は、エネルギ回路/プロセッサ505、係数回路/プロセッサ507、及びダウンミックス回路/プロセッサ509を備える。
【0100】
ダウンミキサ405、及び実際には、エネルギ回路/プロセッサ505、係数回路/プロセッサ507、及びダウンミックス回路/プロセッサ509の各々は、例えば、個別又は専用の電子機器を使用することを含む任意の適切な手法で実施される。受信機501は、例えば、特定用途向け集積回路(ASIC)などの集積回路として実施される。いくつかの実施形態では、回路/プロセッサは、例えば、中央処理装置、デジタル信号処理ユニット、又はマイクロコントローラなどの適切なプロセッサ上で実行されるファームウェア又はソフトウェアなど、プログラムされた処理ユニットとして実施される。そのような実施形態では、処理ユニットは、オンボード又は外部メモリ、クロック駆動回路、インターフェース回路構成、ユーザインターフェース回路構成などを含むことが理解されるであろう。そのような回路構成は更に、処理ユニットの一部として、集積回路として、及び/又は個別の電子回路として実施される。
【0101】
係数プロセッサ507は、受信された音声信号の少なくともいくつかのダウンミックス係数を決定するように構成される。音声信号のダウンミックス係数は、ダウンミックスにおけるその音声信号の重み付けに対応する。ダウンミックス係数は、ダウンミックス信号を生成する、重み付け組合せにおける音声信号の重みである。したがって、ダウンミックス係数は、これらを組み合わせてダウンミックス信号(多くの実施形態では、モノ信号である)を生成するときの音声信号の相対的な重みであり、例えば、重み付けられた総和の重みである。
【0102】
係数プロセッサ507は、受信された拡散残響信号対全信号比、すなわち拡散対音源比DSRに基づいて、ダウンミックス係数を生成するように構成される。
【0103】
この係数は更に、音声源から放射された全エネルギを示す、決定された全放射エネルギ指標に応じて決定される。DSRは通常、音声信号の一部、通常はすべてに共通であるが、全放射エネルギ指標は、通常、各音声源に固有である。
【0104】
全放射エネルギ指標は、通常、正規化された全放射エネルギを示す。同じ正規化が、すべての音声源と、直接パス成分及び反射パス成分に適用される。したがって、全放射エネルギ指標は、他の音声源/信号の全放射エネルギ指標、又は個々のパス成分、又は音声信号のフルスケールのサンプル値に関する相対値である。
【0105】
DSRと組み合わされたときの全放射エネルギ指標は、各音声源について、その音声源からの拡散残響音への相対的な寄与を反映するダウンミックス係数を提供する。したがって、DSRと全放射エネルギ指標との関数として、ダウンミックス係数を決定することによって、拡散音への相対的な寄与を反映するダウンミックス係数を提供する。したがって、ダウンミックス係数を使用してダウンミックス信号を生成すると、音源の各々が適切に重み付けられ、音響環境が正確にモデル化された環境内で生成された音全体を反映するダウンミックス信号が得られる。
【0106】
多くの実施形態において、DSRと、リバーブレータ(407)の特性に応じたスケーリングと組み合わされた全放射エネルギ指標との関数としてのダウンミックス係数は、対応するパス信号成分に関して、拡散残響音の適切な相対レベルを反映するダウンミックス係数を提供する。
【0107】
エネルギプロセッサ505は、係数プロセッサ507に結合され、音声源について受信されたメタデータから、全放射エネルギ指標を決定するように構成される。
【0108】
受信したメタデータは、音声のレベルの指標を提供する各音声源の信号基準レベルを含む。信号基準レベルは、通常、他の音声源に対する信号基準レベル又は正規化された基準レベルに対する信号基準レベルの指標を提供する、正規化された値又は相対値である。したがって、信号基準レベルは、通常、音声源の絶対的な音レベルを示すのではなく、他の音声源に対する相対的なレベルを示す。
【0109】
具体例では、信号基準レベルは、音声信号に適用される距離減衰が0dBである距離を提供する基準距離の形態での指標を含む。したがって、音声源と聴き手との間の距離が、基準距離に等しい場合、受信された音声信号は、距離に依存するスケーリングなしで使用できる。基準距離よりも短い距離では、減衰が小さいため、聞いている位置での音レベルを決定する際に、0dBよりも高いゲインを適用する必要がある。基準距離よりも遠い距離では、減衰が大きくなるため、聞いている位置での音レベルを決定する際に、0dBよりも高い減衰を適用する必要がある。同様に、音声源と、聞いている位置との間の距離が一定の場合、短い基準距離に関連付けられた音声信号よりも、長い基準距離に関連付けられた音声信号に、高いゲインが適用される。音声信号は通常、意味のある基準距離を表現するために、又は全ダイナミックレンジを活用するために、正規化される(例えば、ジェットエンジンとコオロギとは両方とも、使用されるデータワードの全ダイナミックレンジを活用する音声信号によって表現される)ので、基準距離は、特定の音声源の信号基準レベルの指標を提供する。
【0110】
この例では、信号基準レベルは更に、プリゲインと称される基準ゲインによって示される。基準ゲインは、音声源毎に提供され、レンダリングされた音声レベルを決定するときに音声信号に適用する必要があるゲインを提供する。したがって、プリゲインを使用して、異なる音声源間のレベル変動を更に示す。
【0111】
メタデータは更に、音声信号によって表現される音源からの音放射の指向性を示す指向性データを含む。各音声源の指向性データは、音声源からの異なる方向における、信号基準レベルに対する相対ゲインを示す。指向性データは、例えば、各方向のゲインを定義する音声源からの放射パターンの全機能又は記述を提供する。別の例として、例えば、所定のパターンを示す単一のデータ値のような、単純化された指標が使用される。更に別の例として、指向性データは、ある範囲の異なる方向間隔(例えば、球のセグメント)について、個々のゲイン値を提供する。
【0112】
したがって、音声信号とともにメタデータにより、音声レベルを生成できる。具体的には、パスレンダラは、音声信号にゲインを適用することによって、直接パスの信号成分を決定し、ここで、ゲインは、プリゲインと、音声源と聴き手との間の距離及び基準距離の関数として決定される距離ゲインと、音声源から聴き手への方向の指向性ゲインとの組合せである。
【0113】
拡散残響信号の生成に関して、メタデータを使用して、音声源の信号基準レベル及び指向性データに基づいて、音声源の(正規化された)全放射エネルギ指標を決定する。
【0114】
具体的には、全放射エネルギ指標は、全方向にわたって指向性ゲインを積分する(例えば、音声源の位置を中心とする球の表面にわたって積分する)ことによって生成され、信号基準レベルによって、具体的には距離ゲイン及びプリゲインによってスケーリングされる。
【0115】
その後、決定された全放射エネルギ指標は、係数プロセッサ507へ供給され、DSRで処理されてダウンミックス係数が生成される。
【0116】
その後、ダウンミックス係数は、ダウンミックス信号を生成するためにダウンミックスプロセッサ509によって使用される。具体的には、ダウンミックス信号は、対応する音声信号のダウンミックス係数によって各音声信号が重み付けられた音声信号の組合せ、具体的には総和として生成される。
【0117】
ダウンミックスは、通常、モノ信号として生成され、その後、リバーブレータ407に供給され、拡散残響信号が生成される。
【0118】
パスレンダラ401による個々のパス信号成分のレンダリング及び生成は、例えば、距離ゲインと指向性ゲインとの決定に関して、位置に依存し、その後、拡散残響信号の生成は、音声源と聴き手との両方の位置に依存しないことに留意されたい。
【0119】
全放射エネルギ指標は、信号基準レベル及び指向性データに基づいて、音声源及び聴き手の位置を考慮せずに決定できる。具体的には、プリゲイン及び音声源の基準距離を使用して、音声源からの公称距離(公称距離は、すべての音声信号/音声源に対して同じ)において、例えば、音声信号のフルスケールのサンプルに関して正規化された、指向性に依存しない信号基準レベルを決定できる。すべての方向にわたる指向性ゲインの積分は、例えば、基準距離における球の場合のように、正規化された球に対して実行できる。したがって、全放射エネルギ指標は、音声源及び(部屋などの環境内で、拡散残響音は均一になる傾向があることを反映する)聴き手の位置に依存しない。次に、全放射エネルギ指標が、DSRと組み合わされて、ダウンミックス係数が生成される(多くの実施形態では、リバーブレータのパラメータなどの他のパラメータも考慮され得る)。DSRも位置に依存しないので、ダウンミックスや残響処理と同様に、音声源及び聴き手の特定の位置を考慮せずに、拡散残響信号が生成される。
【0120】
そのようなアプローチは、過度の計算リソースを必要とせずに、高性能で自然に聞こえる音声知覚を提供する。それは、例えば、ユーザ(及び音声源)が環境内を移動し、したがって、聴き手(及び、おそらくは音声源の一部又はすべて)の相対位置が動的に変化する仮想現実アプリケーションに特に適している。
【0121】
図4及び図5のアプローチの様々な実施形態の以下の特定の態様が、より詳細に記述される。
【0122】
多くの実施形態において、メタデータは更に、拡散残響信号がいつ開始すべきかを示す指標を含み、すなわち、これは、拡散残響信号に関連付けられた時間遅延を示す。時間遅延指標は、具体的にはプリディレイの形態である。
【0123】
プリディレイは、RIRにおける遅延/ラグを表現し、早期反射と拡散、後期残響との間のしきい値となるように定義される。このしきい値は、通常、(多かれ少なかれ)個別の反射から、完全に干渉する高次反射の混合への滑らかな遷移の一部として発生するため、適切な評価/決定プロセスを使用して、適切なしきい値が選択される。この決定は、RIRの分析に基づいて自動的に行われるか、又は、部屋の寸法及び/又は材料特性に基づいて計算される。
【0124】
或いは、例えばRIRへの80ミリ秒のように、固定されたしきい値を選択できる。プリディレイは、秒、ミリ秒、又はサンプルで示される。以下の記述では、プリディレイは、残響が実際に拡散した後のポイントにおいて選択されると想定される。しかしながら、そうではない場合でも、記述された方法で十分に機能する。
【0125】
したがって、プリディレイは、音声源放射の開始からの拡散残響応答の開始を示す。例えば、例えば図6に示すように、音声源がt0で放射を開始した場合(例えば、t0=0)、直接音はt1(>t0)でユーザに到達し、第1の反射はt2(>t1)でユーザに到達し、早期反射と拡散残響との間の定義されたしきい値は、t3(>t2)でユーザに到達する。その場合、プリディレイはt3-t0である。
【0126】
システムでは、拡散残響信号対全信号比、すなわち拡散対音源比DSRを使用して、ユーザによって受信された拡散残響エネルギの量又は音源のレベルを、その音源の全放射エネルギの比として表現する。これは、拡散残響エネルギが、レンダリングされる信号と、対応するメタデータ(例えば、プリゲイン)とのレベル較正のために適切に調整されるように表現される。
【0127】
このように表現することは、値が、環境内の聴き手と音源との絶対的な位置及び向きに依存せず、音源に対するユーザに対する、及びその逆に対する相対的な位置及び向きに依存せず、残響をレンダリングするための特定のアルゴリズムに依存せず、システムにおいて使用される信号レベルへの意味のあるリンクがあることを保証する。
【0128】
記述されたアプローチは、両方の指向性パターンを考慮して、音源信号間の正しい相対レベルを課すダウンミックス係数と、DSRとを計算して、リバーブレータ407の出力において正しいレベルを達成する。
【0129】
DSRは、放射音源エネルギと、具体的には、拡散残響信号のエネルギ又は(初期)レベルのような、拡散残響特性との間の比を表す。
【0130】
この記述は、主に、全エネルギに対する拡散残響エネルギを示すDSRに注目する。
【数2】
【0131】
拡散残響エネルギは、拡散部分の開始からの室内応答によって生成されたエネルギであると見なされ、例えば、これは、プリディレイによって示された時間から無限大までのRIRのエネルギである。その後の室内の励起は、残響エネルギに加算され、したがって、これは通常、ディラックパルスによる励起によってのみ直接測定できることに留意されたい。或いは、測定されたRIRから導出することもできる。
【0132】
残響エネルギは、空間全体にわたって積分されるのではなく、拡散場空間内の単一ポイントにおけるエネルギを表現する。
【0133】
上記に対する特に有利な代替案は、環境内の全放射音のエネルギに対する拡散音の初期振幅を示すDSRを使用することである。具体的には、DSRは、プリディレイによって示される時間における残響振幅を示す。
【0134】
プリディレイ時における振幅は、プリディレイ時の、又は、例えば、プリディレイ後5,10,20又は50ミリ秒以内のように、プレディレイ直後の室内インパルス応答の最大励起である。特定の範囲内で最大の励振を選択する理由は、プレディレイ時間において、室内インパルス応答が、偶然にも応答の低い部分にあるためである。一般的な傾向は、減衰振幅であり、プリディレイ後の短い間隔での最大の励起は、通常、拡散残響応答全体の最大励起でもある。
【0135】
(例えば10ミリ秒の間隔内である)初期振幅を示すDSRを使用すると、DSRを多くの残響アルゴリズムのパラメータにマッピングすることがより簡単かつ確実になる。したがって、DSRは、いくつかの実施形態では、
【数3】
として与えられる。
【0136】
DSRにおけるパラメータは、同じ音源信号レベル基準に対して表現される。
【0137】
これは、例えば、(音源とマイクロフォンとの間の距離や、音源の指向性パターンなどのような)特定の知られている条件内でマイクロフォンを使用して、対象の部屋のRIRを測定(又はシミュレーション)することによって達成できる。音源は、較正された量のエネルギ、例えば、知られているエネルギを有するディラックインパルスを、部屋に放射する必要がある。
【0138】
測定機器の電気変換、及びアナログからデジタルへの変換の較正係数は、測定されるか、又は仕様から導出される。これは、音源の指向性パターン、及び、音源とマイクロフォンとの距離から予測できるRIRの直接パス応答からも計算できる。直接応答は、デジタル領域において特定のエネルギを有し、マイクロフォンの方向に関する指向性ゲインと、音源とマイクロフォンとの距離に等しい半径を有する全球表面積に対するマイクロフォン表面に依存する距離ゲインとを乗じられた放射エネルギを表現する。
【0139】
両方の要素が、同じデジタルレベル基準を使用する必要があり、例えば、フルスケールの1kHzサインは、100dBSPLに相当する。
【0140】
RIRから拡散残響エネルギを測定し、それを較正係数で補償すると、知られている放射エネルギと同じ領域で、適切なエネルギが得られる。放射エネルギとともに、適切なDSRを計算できる。
【0141】
基準距離は、信号に適用する距離ゲインが0dBになる距離、つまり、距離を補償するためにゲイン又は減衰が適用されない距離を示す。次いで、パスレンダラ401によって適用される実際の距離ゲインは、基準距離に対する実際の距離を考慮することによって計算できる。
【0142】
音伝播への距離の効果の表現は、与えられた距離を参照して実行される。距離が2倍になると、エネルギ密度(表面単位あたりのエネルギ)が、6dB減少する。距離が半分になると、エネルギ密度(表面単位あたりのエネルギ)を、6dB誘発する。
【0143】
特定の距離における距離ゲインを決定するために、つまり、密度がどれだけ減少又は増加したかを判定するために、現在の距離の相対的な変動を判定できるように、特定のレベルに対応する距離を知る必要がある。
【0144】
空気中の吸収を無視し、反射や遮蔽要素が存在しないと仮定すると、音源の放射エネルギは、音源位置を中心とする任意の半径を有する球上で一定である。実際の距離対基準距離に対応する表面の比は、エネルギの減衰を示す。レンダリング距離dにおける線形信号振幅ゲインは、bで表現でき、
【数4】
であり、ここで、rrefは、基準距離である。
【0145】
例として、基準距離が1メートルであり、レンダリング距離が2メートルである場合、この式により、約6dBの信号減衰(又は-6dBのゲイン)となる。
【0146】
全放射エネルギ指標は、音源が放射する全エネルギを表現する。通常、音源は全方向に放射するが、全方向に均等に放射する訳ではない。音源の周りの球にわたるエネルギ密度の積分は、全放射エネルギを与える。ラウドスピーカの場合、放射エネルギは、多くの場合、端子に印加される電圧、及びインピーダンスと、エネルギ損失と、電気エネルギの音圧波への伝達とを記述するラウドスピーカ係数を認識して計算できる。
【0147】
エネルギプロセッサ505は、音声源の指向性データを考慮することによって、全放射エネルギ指標を決定するように構成される。音源指向性が変化する音源の拡散残響信号を決定する際には、信号レベル又は信号基準レベルだけでなく、全放射エネルギを使用することが重要であることに留意されたい。例えば、指向性係数が1であり、他のすべての方向の係数が0である非常に狭いビームに対応する音源指向性を考慮されたい(つまり、エネルギは、非常に狭いビームでのみ伝送される)。この場合、放射音源エネルギは、全エネルギを表現しているので、音声信号のエネルギ及び信号基準レベルに非常に類似している。同じエネルギ及び信号基準レベルであるが、無指向性を有する音声信号を有する別の音源が、代わりに考慮される場合、この音源の放射エネルギは、音声信号エネルギ及び信号基準レベルよりもはるかに高くなる。したがって、両音源が同時にアクティブである場合、無指向性音源の信号は、拡散残響信号において、つまりダウンミックスにおいて、非常に指向性のある音源よりも、はるかに強く表現されるはずである。
【0148】
前述のように、エネルギプロセッサ505は、音声源を取り囲む球の表面にわたってエネルギ密度を積分することにより、放射エネルギを決定する。距離ゲインを無視する、つまり、距離ゲインが0dBである半径(つまり、基準距離に対応する半径)の表面にわたって積分すると、全放射エネルギ指標は、次の式から決定でき、
【数5】
ここで、gは、指向性ゲイン関数、pは、音声信号/音声源に関連付けられたプリゲイン、xは、音声信号自体のレベルを示す。
【0149】
pは、方向に依存しないので、積分の外に移動する。同様に、信号xは、方向に依存しない(指向性ゲインは、その変動を反映する)。(
【数6】
であり、したがって、積分は信号に依存しなくなるので、これは後で乗じられる)。
【0150】
この積分を決定するための1つの特定のアプローチが、以下でより詳細に記述される。
【0151】
指向性ゲインを球にわたって積分することが望ましい。
【数7】
【0152】
基準距離(r)に等しい半径の球を使用することは、距離ゲインで0dBになり、距離ゲイン/減衰を無視できることを意味する。
【0153】
この例では、計算に有利な球が選択されているが、音源位置を取り囲む任意の形状の、任意の閉じた表面から、同じエネルギを決定できる。適切な距離ゲイン及び指向性ゲインが積分に使用される限り、有効表面は、音源位置に面して(つまり、音源位置に沿った法線ベクトルを使用して)いると見なされる。
【0154】
表面積分は、小さな表面dSを定義する必要がある。したがって、方位角(a)及び仰角(e)の2つのパラメータを使用して球を定義すると、これを行うための寸法が得られる。解に座標系を使用すると、
f(a,e,r)=r*cos(e)*cos(a)*u+r*cos(e)*cos(a)*u+r*sin(e)*uとなり、
ここで、u,u、及びuは、座標系の単位基底ベクトルである。
【0155】
小さな表面dSは、2つのパラメータに関する球表面の偏導関数の外積の大きさに、各パラメータの微分を乗じた
dS=|f×f|da deである。
【0156】
この導関数は、対象ポイントで球に接するベクトル
=-r*cos(e)*sin(a)*u+r*cos(e)*cos(a)*u+0*u及び、
=-r*sin(e)*cos(a)*u-r*sin(e)*sin(a)*u+r*cos(e)*uを決定する。
【0157】
導関数の外積は、両方に垂直なベクトルである。
【0158】
×f=(r*cos(e)*cos(a)*cos(e)+0*sin(e)*sin(a))*u+(-0*sin(e)*cos(a)+r*cos(e)*sin(a)*cos(e))*u+(r*cos(e)*sin(a)*sin(e)*sin(a)+r*cos(e)*cos(a)*sin(e)*cos(a))*u
=r*cos(e)*cos(a)*u+r*cos(e)*sin(a)*u+(r*cos(e)*sin(e)*sin(a)+r*cos(e)*sin(e)*cos(a))*u
=r*cos(e)*cos(a)*u+r*cos(e)*sin(a)*u+(r*cos(e)*sin(e)*(sin(a)+cos(a)))*u
=r*cos(e)*cos(a)*u+r*cos(e)*sin(a)*u+r*cos(e)*sin(e)*u
【0159】
外積の大きさは、ベクトルf_a及びf_eがまたがる平行四辺形の表面積、つまり球の表面積であり、
|f×f|=sqrt((r*cos(e)*cos(a))+(r*cos(e)*sin(a))+(r*cos(e)*sin(e))
=sqrt(r*cos(e)*cos(a)+r*cos(e)*sin(a)+r*cos(e)*sin(e))
=sqrt(r*cos(e)*(cos(a)+sin(a))+r*cos(e)*sin(e))
=sqrt(r*cos(e)+r*cos(e)*sin(e))
=sqrt(r*cos(e)*(cos(e)+sin(e)))
=sqrt(r*cos(e))
=abs(r*cos(e))
=r*cos(e)
であり、ここで、e=[-0.5*pi,0.5*pi]である。
【0160】
その結果dS=r*cos(e)*da*deとなり、ここで、最初の2項は、正規化された表面積を定義し、da及びdeを乗じると、セグメントda及びdeのサイズに基づいて、実際の表面になる。表面にわたる二重積分は、方位角と仰角との観点で表現できる。表面dSは、上記のように、a及びeの観点で表現される。2つの積分は、方位角=0...2*pi(内積)、及び仰角=-0.5*pi...0.5*pi(外積)にわたって実行できる。
【数8】
ここで、g(a,e)は方位角及び仰角の関数としての指向性である。したがって、g(a,e)=1の場合、結果は球の表面になる(証明として積分を解析的に計算すると、予想どおり4*pi*rになる)。
【0161】
多くの実際的な実施形態では、指向性パターンは、積分可能な関数としてではなく、例えば、サンプルポイントの離散セットとして提供される。例えば、サンプリングされた各指向性ゲインは、方位角及び仰角に関連付けられる。通常、これらのサンプルは、球上のグリッドを表現する。これを取り扱う1つのアプローチは、積分を総和に変換することであり、つまり、離散積分が実行される。積分は、この例では、指向性ゲインが利用可能な球上のポイントにわたる総和として実施される。これにより、g(a,e)の値が得られるが、da及びdeが正しく選択される必要があり、これにより、オーバラップやギャップによる大きな誤差は発生しない。
【0162】
他の実施形態では、指向性パターンは、空間内の限られた数の不均一な間隔のポイントとして提供される。この場合、指向性パターンは補間され、対象の方位角及び仰角の範囲にわたって均一に再サンプリングされる。
【0163】
別の解決策は、g(a,e)がその定義されたポイントの周りで一定であると仮定し、例えば、小さな方位角及び仰角の範囲について、例えば、隣接する定義されたポイントの中間のように、積分をローカルに解析的に解くことである。これは上記の積分を使用するが、a及びeの範囲が異なり、g(a,e)は一定と見なされる。
【0164】
実験は、指向性の分解能がかなり粗い場合でも、単純な総和では誤差が小さいことを示す。更に、誤差は半径に依存しない。10ポイント間の方位角の線形的な間隔、及び仰角の線形的に間隔を空けられた10ポイントでは、-20dBの相対誤差が生じる。
【0165】
上記の積分は、球の半径にスケーリングする結果を提供する。したがって、これは、基準距離に合わせてスケーリングする。この半径への依存性は、2つの異なる半径間の「距離ゲイン」の逆効果を考慮していないためである。半径が2倍になると、一定の表面積(例えば1cm2)を「流れる」エネルギは6dB低くなる。したがって、積分は、距離ゲインを考慮する必要があると言える。しかしながら、積分は、距離ゲインが信号に反映される距離として定義される基準距離で行われる。言い換えれば、基準距離によって示される信号レベルは、積分される値のスケーリングとして含まれないが、(積分は、基準距離に等しい半径を有する球にわたって実行されるので、)基準距離で変動する積分が実行される表面積によって反映される。
【0166】
その結果、上述した積分は、音声信号のエネルギスケーリング係数(プリゲイン又は同様の較正調整を含む)を反映する。これは、音声信号が、(指向性ゲインのない)基準距離に等しい半径を有する球の固定表面積での正しい信号再生エネルギを表現するためである。
【0167】
これは、基準距離が大きい場合、信号を変化させることなく、全信号エネルギスケーリング係数も大きくなることを意味する。なぜなら、対応する信号は、同じ信号エネルギを有する音源よりも比較的大きいが、小さな基準距離において、音源を表現するからである。
【0168】
言い換えれば、基準距離に等しい半径を有する球の表面にわたって積分を実行することによって、基準距離によって提供される信号レベル指標が、自動的に考慮される。基準距離が大きいほど、表面積が大きくなり、全放射エネルギ指標が大きくなる。積分は、具体的には、距離ゲインが1である距離において直接実行される。
【0169】
上記の積分は、使用される表面単位に、及び基準距離rを示すために使用される単位に、正規化された値になる。基準距離rがメートルで表現される場合、積分の結果は、mの単位で提供される。
【0170】
推定放射エネルギ値を信号に関連付けるには、信号に対応する表面単位で表現する必要がある。信号のレベルは、ユーザが基準距離で再生するレベルを表現するので、人間の耳の表面積の方が適している場合がある。基準距離では、球の表面全体に対するこの表面は、人が知覚する音源のエネルギの一部に関連する。
【0171】
したがって、音声信号におけるフルスケールのサンプルに対して正規化された放射音源エネルギを表現する全放射エネルギ指標は、
【数9】
によって示すことができ、ここで、Edir,rは、半径が基準距離に等しい球の表面にわたって指向性ゲインを積分することによって決定されるエネルギを示し、pは、プリゲインであり、Searは、(決定されたエネルギを、人間の耳の面積に関連付けるための)正規化スケーリング係数である。
【0172】
空間の拡散音響特性を特徴付けるDSRと、指向性、プリゲイン、及び基準距離メタデータから導出された計算された放射音源エネルギとを使用して、対応する残響エネルギを計算できる。
【0173】
DSRは、通常、両方のその成分によって使用される同じ基準レベルで決定される。これは、全放射エネルギ指標と同じであるか、又は異なる。いずれにせよ、そのようなDSRが全放射エネルギ指標と組み合わされた場合、結果として得られる残響エネルギは、上記の積分によって決定された全放射エネルギが使用される場合、音声信号におけるフルスケールのサンプルに対して正規化されたエネルギとしても表現される。言い換えれば、考慮されるすべてのエネルギは、レベル調整を必要とせずに直接組み合わせることができるように、基本的に同じ基準レベルに正規化される。具体的には、決定された全放射エネルギを、直接DSRとともに使用して、各音源から生成される拡散残響のレベル指標を生成でき、レベル指標は、他の音声源の拡散残響に関する、及び、個々のパス信号成分に関する、適切なレベルを直接示す。
【0174】
具体例として、異なる音源の拡散残響信号成分の相対信号レベルは、DSRに全放射エネルギ指標を乗じることによって直接取得される。
【0175】
記述されたシステムでは、拡散残響信号への異なる音声源の寄与の適応は、ダウンミックス信号を生成するために使用されるダウンミックス係数を適応させることによって少なくとも部分的に実行される。したがって、ダウンミックス係数は、各音声源からの拡散音の相対的な寄与/エネルギレベルが、音源について決定された拡散残響エネルギを反映するように生成される。
【0176】
具体例として、DSRが、初期振幅レベルを示す場合、ダウンミックス係数は、DSRに、全放射エネルギ指標を乗じたものに比例する(又は等しい)と判定される。DSRがエネルギレベルを示す場合、ダウンミックス係数は、DSRの平方根に、全放射エネルギ指標を乗じたものに比例する(又は等しい)と判定される。
【0177】
具体例として、複数の入力信号のインデクスxを有する信号のために、適切な調整を提供するためのダウンミックス係数dは、
【数10】
によって計算され、ここで、pは、プリゲインを表し、
【数11】
は、プリゲイン前の信号xの正規化された放射音源エネルギである。DSRは、放射音源エネルギに対する拡散残響エネルギの比を表現する。ダウンミックス係数dが、入力信号xに適用されると、結果として得られる信号は、単位エネルギの残響応答を有するリバーブレータによってフィルタ処理された場合、信号xの直接パスレンダリングに関して、及び、他の音源j≠xの直接パス及び拡散残響エネルギに関して、信号xに対して正しい拡散残響エネルギを提供する信号レベルを表現する。
【0178】
或いは、ダウンミックス係数dは、d=Enorm,x*DSRにしたがって計算され、ここで、
【数12】
は、信号xの正規化された放射音源エネルギを表し、DSRは、初期残響応答振幅に対する拡散残響エネルギの比を表現する。ダウンミックス係数dが、入力信号xに適用されると、結果として得られる信号は、拡散残響信号の初期レベルに対応する信号レベルを表現し、振幅1で開始する残響応答を有するリバーブレータによって処理できる。その結果、リバーブレータの出力は、信号xの直接パスレンダリングに関して、及び他の音源j≠xの直接パス及び拡散残響エネルギに関して、信号xの正しい拡散残響エネルギを提供する。
【0179】
多くの実施形態において、ダウンミックス係数は、DSRを全放射エネルギ指標と組み合わせることによって部分的に決定される。DSRが、拡散残響応答の拡散残響エネルギ又は初期振幅に対する全放射エネルギの関係を示すか否かに関わらず、ダウンミックス係数のさらなる適応は、多くの場合、残響プロセッサの出力が、所望されるエネルギ又は初期振幅を反映するように信号をスケーリングする、使用される特定のリバーブレータアルゴリズムに適応するために必要である。例えば、残響アルゴリズムの反射の密度は、入力レベルが同じままでも、生成される残響エネルギに強い影響を与える。別の例として、残響アルゴリズムの初期振幅は、その励起の振幅に等しくない。したがって、アルゴリズム固有、又はアルゴリズム及び構成固有の調整が必要とされる。これはダウンミックス係数に含めることができ、通常は、すべての音源に共通である。いくつかの実施形態では、これらの調整は、ダウンミックスに適用されるか、又は、リバーブレータアルゴリズムに含まれる。
【0180】
ダウンミックス係数が生成されると、ダウンミックスプロセッサ509は、例えば、直接重み付けられた組合せ又は総和によって、ダウンミックス信号を生成する。
【0181】
記述されたアプローチの利点は、従来のリバーブレータを使用することである。例えば、リバーブレータ407は、例えば、標準的なJotリバーブレータにおいて実施されるような、フィードバック遅延ネットワークによって実施される。
【0182】
図7に例示されるように、フィードバック遅延ネットワークの原理は、遅延が異なる1つ又は複数(通常は複数)のフィードバックループを使用する。この場合はダウンミックス信号である入力信号は、ループに供給され、ループで、信号は、適切なフィードバックゲインでフィードバックされる。出力信号は、ループ内の信号を組み合わせることによって抽出される。したがって、信号は、異なる遅延で連続的に繰り返される。互いに素である遅延を使用し、ループ間で信号を混合するフィードバック行列を有することで、実空間において残響に類似したパターンを作成できる。
【0183】
安定した減衰インパルス応答を達成するために、フィードバック行列における要素の絶対値を、1より小さくする必要がある。多くの実施では、追加のゲイン又はフィルタがループに含まれる。これらのフィルタは、行列の代わりに減衰を制御できる。フィルタを使用すると、減衰応答が、周波数毎に異なるという利点がある。
【0184】
リバーブレータの出力がバイノーラルでレンダリングされるいくつかの実施形態では、左右のチャネル残響信号を生成するために、推定された残響は、左右の耳のそれぞれの平均HRTF(頭部伝達関数)によってフィルタリングされる。HRTFが、ユーザの周りの球上で、均一な間隔の複数の距離のために利用可能である場合、左右の耳の平均HRTFは、距離が最大のHRTFのセットを使用して生成されることを理解できる。平均的なHRTFを使用することは、残響が等方性であり、全方向から到来するという考慮に基づくか、この考慮を反映している。したがって、所与の方向のHRTFのペアを含めるのではなく、すべてのHRTFにわたる平均を使用できる。平均化は、左耳に対して1回、右耳に対して1回実行することができ、結果として得られるフィルタを使用して、バイノーラルレンダリング用のリバーブレータの出力を処理する。
【0185】
場合によっては、リバーブレータ自体が入力信号のカラーレーションを導入し、DSRによって記述されているような望ましい出力拡散信号エネルギを有していない出力をもたらす。したがって、このプロセスの効果も同様に均等化される。この均等化は、リバーブレータ動作の周波数応答の逆数として解析的に決定されるフィルタに基づいて実行できる。いくつかの実施形態では、伝達関数は、線形回帰、ラインフィッティングなどの機械推定学習技法を使用して推定できる。
【0186】
いくつかの実施形態では、同じアプローチが、周波数帯域全体に均一に適用される。しかしながら、他の実施形態では、周波数依存処理が実行される。例えば、提供されたメタデータパラメータのうちの1つ又は複数は、周波数に依存する。そのような例では、装置は、周波数依存性に対応する異なる周波数帯域に、信号を分割するように構成され、前述の処理は、周波数帯域の各々において、個々に実行される。
【0187】
具体的には、いくつかの実施形態では、拡散残響信号対全信号比DSRは、周波数に依存する。例えば、個別の周波数帯域/ビンの範囲に対して異なるDSR値が提供されるか、又は、DSRが周波数の関数として提供される。そのような実施形態では、装置は、DSRの周波数依存性を反映する周波数依存ダウンミックス係数を生成するように構成される。例えば、個々の周波数帯域のダウンミックス係数が生成される。同様に、周波数依存ダウンミックス及び拡散残響信号が、結果として生成される。
【0188】
周波数依存DSRの場合、ダウンミックス係数は、他の実施形態では、ダウンミックスの生成の一部として音声信号をフィルタリングするフィルタによって補完される。別の例として、DSR効果は、ダウンミックス信号を生成するときに個々の音声信号をスケーリングするために使用される周波数非依存ダウンミックス係数を生成するために使用される周波数非依存(ブロードバンド)成分と、例えば、ダウンミックスに周波数依存フィルタを適用することによって、ダウンミックスに適用される周波数依存成分とに分離される。いくつかの実施形態では、そのようなフィルタは、例えば、リバーブアルゴリズムの一部として、さらなるカラーレーションフィルタと組み合わされる。図7は、相関(u,v)フィルタ及びカラーレーション(h,h)フィルタを用いた例を示す。これはJotリバーブレータとして知られる、バイノーラル出力専用のフィードバック遅延ネットワークである。
【0189】
したがって、いくつかの実施形態では、DSRは、周波数依存成分部分及び非周波数依存成分部分を備え、係数プロセッサ507は、非周波数依存成分部分に依存して(及び周波数依存部分に依存せずに)ダウンミックス係数を生成するように構成される。次いで、ダウンミックスの処理は、周波数依存成分部分に基づいて適応され、すなわち、リバーブレータは、周波数依存部分に依存して適応される。
【0190】
いくつかの実施形態では、音声源のうちの1つ又は複数からの音放射の指向性は、周波数に依存し、そのようなシナリオでは、エネルギプロセッサ505は、(周波数に依存する、又は依存しない)DSRと組み合わされた場合、周波数依存ダウンミックス係数になる、周波数依存全放射エネルギを生成するように構成される。
【0191】
これは、例えば、個別の周波数帯域で個々の処理を実行することによって達成される。周波数に依存するDSRの処理とは対照的に、指向性に対する周波数依存性は、通常、ダウンミックス信号の生成前に(又は生成の一部として)実行する必要がある。これは、周波数依存ダウンミックスは、通常、音源によって異なるので、指向性の周波数依存効果を含めるために必要とされることを反映している。積分後、正味の効果が、周波数によって大きく変動する可能性がある。つまり、所与の音源の全放射エネルギ指標は、音源毎に異なり、実質的な周波数依存性を有する。したがって、異なる音源は、通常、異なる指向性パターンを有するため、異なる音源の全放射エネルギ指標も、通常、異なる周波数依存性を有する。
【0192】
可能なアプローチの具体例が、以下に記述される。空間の拡散音響特性を特徴付けるDSRを提供し、指向性、プリゲイン、及び基準距離メタデータから放射音源エネルギを決定することで、対応する所望の残響エネルギを計算できる。例えば、これは、Enorm*DSRとして決定できる。
【0193】
DSRを計算するための成分が(例えば、信号のフルスケールに関連する)同じ基準レベルを使用している場合、結果として得られる残響エネルギは、放射音源エネルギについて上記計算されたようなEnormを使用する場合、PCM信号におけるフルスケールのサンプルに対して正規化されたエネルギにもなり、したがって、使用される信号表現で正しいレベルの残響を提供するために、対応する入力信号に適用できる拡散残響のインパルス応答(IR)のエネルギに対応する。
【0194】
これらのエネルギ値を使用して、残響アルゴリズムの設定パラメータ、残響アルゴリズムの前のダウンミックス係数、又はダウンミックスフィルタを決定できる。
【0195】
残響を生成するために様々な手法がある。Jotリバーブレータなどのフィードバック遅延ネットワーク(FDN)ベースのアルゴリズムは、適切な低複雑性アプローチである。或いは、ノイズシーケンスは、適切な(周波数に依存する)減衰及びスペクトル形状を有するように成形できる。両方の例において、(少なくとも適切なT60を有する)プロトタイプのIRは、その(周波数に依存する)レベルが補正されるように調整できる。
【0196】
リバーブレータアルゴリズムは、単位エネルギでインパルス応答を生成する(又は、DSRの単位初期振幅が、初期振幅に関連する)ように調整されるか、又は、リバーブレータアルゴリズムは、例えば、Jotリバーブレータのカラーレーションフィルタに、独自の補償を含む。或いは、ダウンミックスは、(場合によっては周波数に依存する)調整によって修正されるか、又は係数プロセッサ507によって生成されるダウンミックス係数が修正される。
【0197】
補償は、そのような調整なしで、(適切な残響時間(T60)及び反射密度(例えば、FDNにおける遅延値)などの)適用された他のすべての構成を用いてインパルス応答を生成し、そのIRのエネルギを測定することによって決定される。
【数13】
【0198】
補償は、そのエネルギの逆数である。ダウンミックス係数に含めるには、例えば
【数14】
のように、通常、平方根が適用される。
【0199】
多くの他の実施形態では、補償は、構成パラメータから導出される。例えば、DSRが初期残響振幅に関連している場合、最初の反射は、その構成から導出できる。相関フィルタは、定義上、エネルギ保存型であり、カラーレーションフィルタもそのように設計できる。
【0200】
カラーレーションフィルタによる正味のブースト又は減衰がないと仮定すると、リバーブレータは、例えば、T60と最小の遅延値minDelayに依存する初期振幅(A)となる。
【数15】
【0201】
残響エネルギの予測は、ヒューリスティックにも行われる。
【0202】
拡散残響エネルギの一般的なモデルとして、指数関数A(t)を考慮でき、
【数16】
ここで、t≧t3=プリディレイである。αは、T60によって制御される減衰係数であり、Aは、プリディレイにおける振幅である。
【0203】
このような関数の累積エネルギを計算すると、最終的なエネルギ値に漸近的に近づく。最終的なエネルギ値は、T60とほぼ完全に線形関係を有する。
【0204】
線形関係の係数は、関数Aのまばらさ(2つおきの値を0に設定すると、エネルギの約半分になる)、初期値A(エネルギは、A に比例的にスケーリングする)、及びサンプルレート(fにおける変化と線形的にスケールする)に依存する。拡散テールは、T60、反射密度(FDN遅延から導出される)、及びサンプルレートを使用して、そのような関数で確実にモデル化できる。モデルのAは、上記のように計算でき、FDNのAと等しくなる。
【0205】
0.1~2秒の範囲の広帯域T60値で複数のパラメトリックな残響を生成すると、IRのエネルギは、モデルとほぼ線形的になる。実際のエネルギと、指数方程式モデルの平均との間のスケーリング係数は、FDN応答のまばらさによって決定される。このまばらさは、IRの終了に向かって減少するが、最初に最も影響を与える。遅延値の複数の構成を使用して上記をテストした結果、モデル低減係数と、FDNで構成された遅延間の最小差との間に、ほぼ線形の関係が存在することが分かった。
例えば、Jotリバーブレータの特定の実施の場合、これは、SF=7.0208*MinDelayDiff+214.1928によって計算されるスケーリング係数SFになる。
【0206】
モデルのエネルギは、t=0から無限大まで積分することによって計算される。これは解析的に行うことができ、結果は、
【数17】
のようになる。
【0207】
上記を組み合わせると、残響エネルギについて次の予測
【数18】
が得られる。
【0208】
明確化のための上記の記述は、異なる機能回路、ユニット、及びプロセッサを参照して本発明の実施形態を記述したと理解されたい。しかしながら、異なる機能回路、ユニット、又はプロセッサ間の機能の任意の適切な分散が、本発明を損なうことなく使用されることが明らかであろう。例えば、別個のプロセッサ又はコントローラによって実行されるように示されている機能は、同じプロセッサ又はコントローラによって実行される。したがって、特定の機能ユニット又は回路への言及は、厳密な論理的又は物理的構造又は編成を示すのではなく、記述された機能を提供するための適切な手段への言及としてのみ見なされるべきである。
【0209】
本発明は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組合せを含む任意の適切な形態で実施できる。本発明は、任意選択で、少なくとも部分的に、1つ又は複数のデータプロセッサ及び/又はデジタル信号プロセッサ上で実行されるコンピュータソフトウェアとして実施される。本発明の実施形態の要素及び構成要素は、物理的、機能的、及び論理的に任意の適切な手法で実施される。実際、これら機能は、単一のユニットで、複数のユニットで、又は他の機能ユニットの一部として実施される。したがって、本発明は、単一のユニットで実施されるか、又は、異なるユニット、回路、及びプロセッサ間で物理的及び機能的に分散される。
【0210】
本発明は、いくつかの実施形態に関連して記述されたが、本明細書に記載された特定の形態に限定されるように意図されていない。むしろ、本発明の範囲は、添付の特許請求の範囲によってのみ限定される。それに加えて、特徴は特定の実施形態に関連して記述されているように見えるが、当業者は、記述された実施形態の様々な特徴が、本発明にしたがって組み合わされることを認識するであろう。請求項において、備える、という用語は、他の要素又はステップの存在を排除しない。
【0211】
更に、個々に列挙されているが、複数の手段、要素、回路、又は方法のステップは、例えば、単一の回路、ユニット、又はプロセッサによって実施される。それに加えて、個々の特徴は異なる請求項に含まれるが、これらは、有利に組み合わされる可能性があり、異なる請求項に含まれることは、特徴の組合せが、実行可能ではない、及び/又は有利ではないことを意味しない。また、請求項の1つのカテゴリに特徴を含めることは、このカテゴリへの限定を意味せず、その特徴が必要に応じて他の請求項カテゴリに、等しく適用可能であることを示す。更に、請求項における特徴の順序は、特徴が機能せねばならない特定の順序を意味せず、特に、方法請求項における個々のステップの順序は、ステップをこの順序で実行する必要があることを意味しない。むしろ、ステップは、任意の適切な順序で実行される。それに加えて、単数の言及は、複数を除外しない。したがって、「第1」、「第2」などへの言及は、複数を排除しない。請求項における参照符号は、明確化の例として提供されているにすぎず、いずれにせよ、請求項を限定するものと解釈されるべきではない。
図1
図2
図3
図4
図5
図6
図7