(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-11
(45)【発行日】2022-03-22
(54)【発明の名称】近/遠距離レンダリングを用いた距離パニング
(51)【国際特許分類】
G10L 19/008 20130101AFI20220314BHJP
H04S 7/00 20060101ALI20220314BHJP
G10L 19/00 20130101ALI20220314BHJP
【FI】
G10L19/008 200
H04S7/00 340
G10L19/00 400Z
(21)【出願番号】P 2018566233
(86)(22)【出願日】2017-06-16
(86)【国際出願番号】 US2017038001
(87)【国際公開番号】W WO2017218973
(87)【国際公開日】2017-12-21
【審査請求日】2020-06-10
(32)【優先日】2016-06-17
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】503206684
【氏名又は名称】ディーティーエス・インコーポレイテッド
【氏名又は名称原語表記】DTS,Inc.
(74)【代理人】
【識別番号】100094569
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100088694
【氏名又は名称】弟子丸 健
(74)【代理人】
【識別番号】100103610
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【氏名又は名称】西島 孝喜
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100109335
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【氏名又は名称】那須 威夫
(72)【発明者】
【氏名】シュタイン エドワード
(72)【発明者】
【氏名】ウォルシュ マーティン
(72)【発明者】
【氏名】シー グァンジー
(72)【発明者】
【氏名】コルセロ デイヴィッド
【審査官】菊池 智紀
(56)【参考文献】
【文献】国際公開第2016/089180(WO,A1)
【文献】国際公開第2009/046223(WO,A2)
【文献】特開2006-005868(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-19/26
H04S 7/00
(57)【特許請求の範囲】
【請求項1】
近距離バイノーラルレンダリング方法であって、
音源とオーディオオブジェクト位置とを含むオーディオオブジェクトを受け取るステップと、
前記オーディオオブジェクト位置と、リスナー位置及びリスナー配向を示す位置メタデータとに基づいて、半径方向重みセットを決定するステップと、
前記オーディオオブジェクト位置と、前記リスナー位置と、前記リスナー配向とに基づいて、音源方向を決定するステップと、
近距離HRTFオーディオ境界半径及び遠距離HRTFオーディオ境界半径の少なくとも一方を含む少なくとも1つのHRTF半径境界の前記音源方向に基づいて頭部伝達関数(HRTF)重みセットを決定するステップと、
前記半径方向重みセット及び前記HRTF重みセットに基づいて、オーディオオブジェクト方向とオーディオオブジェクト距離とを含む3Dバイノーラルオーディオオブジェクト出力を生成するステップと、
前記3Dバイノーラルオーディオオブジェクト出力に基づいてバイノーラルオーディオ出力信号を変換するステップと、
を含むことを特徴とする方法。
【請求項2】
ヘッドトラッカー及びユーザ入力の少なくとも一方から前記位置メタデータを受け取るステップをさらに含む、
請求項1に記載の方法。
【請求項3】
前記HRTF重みセットを決定するステップは、前記オーディオオブジェクト位置が前記遠距離HRTFオーディオ境界半径を超えていると判断するステップを含み、
前記HRTF重みセットを決定するステップは、レベルロールオフ及び直接残響比率の少なくとも一方にさらに基づく、
請求項1に記載の方法。
【請求項4】
前記HRTF半径境界は、前記近距離HRTFオーディオ境界半径と前記遠距離HRTFオーディオ境界半径との間の間隙半径を定義するHRTFオーディオ境界有意性半径を含む、
請求項1に記載の方法。
【請求項5】
オーディオオブジェクト半径比較を取得するように前記オーディオオブジェクト
の半径を前記近距離HRTFオーディオ境界半径及び前記遠距離HRTFオーディオ境界半径と比較するステップをさらに含み、前記HRTF重みセットを決定するステップは、前記オーディオオブジェクト半径比較に基づいて近距離HRTF重みと遠距離HRTF重みとの組み合わせを決定するステップを含む、
請求項4に記載の方法。
【請求項6】
両耳間時間遅延(ITD)を決定するステップをさらに含み、3Dバイノーラルオーディオオブジェクト出力を生成するステップは、前記決定されたITD及び前記少なくとも1つのHRTF半径境界にさらに基づく、
請求項1に記載の方法。
【請求項7】
近距離バイノーラルレンダリングシステムであって、
プロセッサと、
トランスデューサと、
を備え、前記プロセッサは、
音源とオーディオオブジェクト位置とを含むオーディオオブジェクトを受け取り、
前記オーディオオブジェクト位置と、リスナー位置及びリスナー配向を示す位置メタデータとに基づいて、半径方向重みセットを決定し、
前記オーディオオブジェクト位置と、前記リスナー位置と、前記リスナー配向とに基づいて、音源方向を決定し、
近距離HRTFオーディオ境界半径及び遠距離HRTFオーディオ境界半径の少なくとも一方を含む少なくとも1つのHRTF半径境界の前記音源方向に基づいて頭部伝達関数(HRTF)重みセットを決定し、
前記半径方向重みセット及び前記HRTF重みセットに基づいて、オーディオオブジェクト方向とオーディオオブジェクト距離とを含む3Dバイノーラルオーディオオブジェクト出力を生成する、
ように構成され、前記トランスデューサは、
前記3Dバイノーラルオーディオオブジェクト出力に基づいてバイノーラルオーディオ出力信号を可聴バイノーラル出力に変換する、
ことを特徴とするシステム。
【請求項8】
前記プロセッサは、ヘッドトラッカー及びユーザ入力の少なくとも一方から前記位置メタデータを受け取るようにさらに構成される、
請求項7に記載のシステム。
【請求項9】
前記HRTF重みセットを決定することは、前記オーディオオブジェクト位置が前記遠距離HRTFオーディオ境界半径を超えていると判断することを含み、
前記HRTF重みセットを決定することは、レベルロールオフ及び直接残響比率の少なくとも一方にさらに基づく、
請求項7に記載のシステム。
【請求項10】
前記HRTF半径境界は、前記近距離HRTFオーディオ境界半径と前記遠距離HRTFオーディオ境界半径との間の間隙半径を定義するHRTFオーディオ境界有意性半径を含む、
請求項7に記載のシステム。
【請求項11】
前記プロセッサは、
オーディオオブジェクト半径比較を取得するように前記オーディオオブジェクト
の半径を前記近距離HRTFオーディオ境界半径及び前記遠距離HRTFオーディオ境界半径と比較するようにさらに構成され、前記HRTF重みセットを決定することは、前記オーディオオブジェクト半径比較に基づいて近距離HRTF重みと遠距離HRTF重みとの組み合わせを決定することを含む、
請求項10に記載のシステム。
【請求項12】
前記プロセッサは、両耳間時間遅延(ITD)を決定するようにさらに構成され、3Dバイノーラルオーディオオブジェクト出力を生成することは、前記決定されたITD及び前記少なくとも1つのHRTF半径境界にさらに基づく、
請求項7に記載のシステム。
【請求項13】
複数の命令を含む少なくとも1つの機械可読記憶媒体であって、前記複数の命令は、コンピュータ制御された近距離バイノーラルレンダリング装置のプロセッサ回路によって実行されたことに応答して、前記装置に、
音源とオーディオオブジェクト位置とを含むオーディオオブジェクトを受け取るステップと、
前記オーディオオブジェクト位置と、リスナー位置及びリスナー配向を示す位置メタデータとに基づいて、半径方向重みセットを決定するステップと、
前記オーディオオブジェクト位置と、前記リスナー位置と、前記リスナー配向とに基づいて、音源方向を決定するステップと、
近距離HRTFオーディオ境界半径及び遠距離HRTFオーディオ境界半径の少なくとも一方を含む少なくとも1つのHRTF半径境界の前記音源方向に基づいて頭部伝達関数(HRTF)重みセットを決定するステップと、
前記半径方向重みセット及び前記HRTF重みセットに基づいて、オーディオオブジェクト方向とオーディオオブジェクト距離とを含む3Dバイノーラルオーディオオブジェクト出力を生成するステップと、
前記3Dバイノーラルオーディオオブジェクト出力に基づいてバイノーラルオーディオ出力信号を変換するステップと、
を実行させる、ことを特徴とする機械可読記憶媒体。
【請求項14】
前記HRTF半径境界は、前記近距離HRTFオーディオ境界半径と前記遠距離HRTFオーディオ境界半径との間の間隙半径を定義するHRTFオーディオ境界有意性半径を含む、
請求項13に記載の機械可読記憶媒体。
【請求項15】
前記命令は、前記装置に、
オーディオオブジェクト半径比較を取得するように前記オーディオオブジェクト
の半径を前記近距離HRTFオーディオ境界半径及び前記遠距離HRTFオーディオ境界半径と比較するステップをさらに実行させ、前記HRTF重みセットを決定するステップは、前記オーディオオブジェクト半径比較に基づいて近距離HRTF重みと遠距離HRTF重みとの組み合わせを決定するステップを含む、
請求項14に記載の機械可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
〔関連出願及び優先権の主張〕
本出願は、2016年6月17日に出願された「近距離及び遠距離レンダリングを用いた距離パニングのためのシステム及び方法(Systems and Methods for Distance Panning using Near And Far Field Rendering)」という名称の米国仮特許出願第62/351,585号に関連するとともにこの仮特許出願に対する優先権を主張するものであり、この文献はその全体が引用により本明細書に組み入れられる。
【0002】
本特許文書において説明する技術は、音響再生システムにおける空間オーディオの合成に関連する方法及び装置に関する。
【背景技術】
【0003】
空間オーディオ再生は、数十年にわたって音響技師及び家電業界の関心を集めてきた。空間オーディオ再生は、用途の文脈(例えば、コンサート演奏、映画館、家庭用Hi-Fi設備、コンピュータディスプレイ、個人のヘッドマウントディスプレイ)に従って構成しなければならない2チャネル又はマルチチャネル電子音響システム(例えば、スピーカ、ヘッドホン)を必要とし、これについては、引用により本明細書に組み入れられる、Jot、Jean-Marc著、「音楽、マルチメディア及び対話型人間-コンピュータ間インターフェイスのためのリアルタイム空間音響処理(Real-time Spatial Processing of Sounds for Music, Multimedia and Interactive Human-Computer Interfaces)」、IRCAM、1 Place Igor-Stravinsky 1997(以下、「Jot、1997」)にさらに記載されている。
【0004】
映画及び家庭用ビデオ娯楽産業のための録音及び再生技術が発達した結果、様々なマルチチャネル「サラウンドサウンド」レコーディングフォーマット(中でも注目すべきは5.1フォーマット及び7.1フォーマット)が標準化された。レコーディングにおける3次元オーディオキューを符号化するための様々な録音フォーマットも開発された。これらの3Dオーディオフォーマットとしては、アンビソニックス(Ambisonics)、及びNHK22.2フォーマットなどの頭上スピーカチャネル(elevated loudspeaker channels)を含む離散的マルチチャネルオーディオフォーマットが挙げられる。
【0005】
カリフォルニア州カラバサスのDTS社が提供するDTS-ES及びDTS-HDなどの様々なマルチチャネルデジタルオーディオフォーマットのサウンドトラックデータストリームにはダウンミックスが含まれる。このダウンミックスは後方互換性を有し、レガシーデコーダによる復号及び既存の再生装置上での再生が可能である。このダウンミックスは、レガシーデコーダには無視されるが非レガシーデコーダであれば使用できる追加のオーディオチャネルを有するデータストリーム拡張(data stream extension)を含む。例えば、DTS-HDデコーダは、これらの追加チャネルを回復し、後方互換的なダウンミックスにおけるこれらの寄与を減じ、後方互換的なフォーマットとは異なる、頭上スピーカ位置を含むことができる目標空間オーディオフォーマットでこれらをレンダリングすることができる。DTS-HDでは、後方互換的なミックス及び目標空間オーディオフォーマットにおける追加チャネルの寄与が(例えば、スピーカチャネル毎に1つの)ミキシング係数の組によって表される。サウンドトラックが対象とする目標空間オーディオフォーマットは、符号化段階で指定される。
【0006】
この方法では、マルチチャネルオーディオサウンドトラックを、レガシーサラウンドサウンドデコーダ及び符号化/制作段階中に選択される1又は2以上の別の目標空間オーディオフォーマットと互換性があるデータストリームの形で符号化することができる。これらの別の目標フォーマットは、3次元オーディオキューの再生を改善するのに適したフォーマットを含むことができる。しかしながら、このスキームの1つの制約は、同じサウンドトラックを別の目標空間オーディオフォーマットに合わせて符号化する場合、新たなフォーマットに合わせてミキシングされた新たなバージョンのサウンドトラックを録音して符号化するために制作施設に戻る必要が生じる点である。
【0007】
オブジェクトベースのオーディオシーンコーディングは、目標空間オーディオフォーマットとは無関係なサウンドトラック符号化のための一般的解決策を提供する。オブジェクトベースのオーディオシーンコーディングシステムの例には、MPEG-4 Advanced Audio Binary Format for Scenes(AABIFS)がある。この方法では、各音源信号がレンダーキューデータストリーム(render cue data stream)と共に個別に送信される。このデータストリームは、空間オーディオシーンレンダリングシステムのパラメータの時変値を搬送する。このパラメータの組をフォーマット非依存型オーディオシーン記述(format-independent audio scene description)の形で提供し、このフォーマットに従ってレンダリングシステムを設計することによって、あらゆる目標空間オーディオフォーマットでサウンドトラックをレンダリングできるようになる。各音源信号は、その関連するレンダーキューと共に「オーディオオブジェクト」を定義する。この方法では、レンダラーが、再生終了時に選択されるあらゆる目標空間オーディオフォーマットで各オーディオオブジェクトをレンダリングするために利用できる最も正確な空間オーディオ合成技術を実装することができる。オブジェクトベースのオーディオシーンコーディングシステムでは、リミキシング、音楽の再演奏(例えば、カラオケ)、又はシーン内の仮想ナビゲーション(例えば、ビデオゲーム)を含むレンダリングされたオーディオシーンを復号段階で相互作用的に修正することもできる。
【0008】
マルチチャネルオーディオ信号を低ビットレートで送信又は記憶する必要性は、バイノーラルキューコーディング(BCC)及びMPEGサラウンドを含む新たな周波数領域空間オーディオコーディング(SAC)技術を開発する動機付けになってきた。例示的なSAC技術では、Mチャネルオーディオ信号が、元々のMチャネル信号内に存在するチャネル間関係(チャネル間相関及びレベル差)を時間-周波数領域で表す空間キューデータストリームを伴うダウンミックスオーディオ信号の形で符号化される。ダウンミックス信号はMよりも少ないオーディオチャネルを含み、空間キューデータレートはオーディオ信号データレートに比べて低いので、このコーディング法ではデータレートが大幅に低減される。また、レガシー装置との後方互換性を容易にするようにダウンミックスフォーマットを選択することもできる。
【0009】
米国特許出願第2007/0269063号に記載されるような空間オーディオシーンコーディング(SASC)と呼ばれるこの方法の変種では、デコーダに送信される時間-周波数空間キューデータがフォーマット非依存である。これにより、あらゆる目標空間オーディオフォーマットでの空間再生が可能になると同時に、符号化サウンドトラックデータストリームで後方互換的なダウンミックス信号を搬送する能力が保持される。しかしながら、この方法では、符号化サウンドトラックデータが分離可能なオーディオオブジェクトを定義しない。ほとんどのレコーディングでは、サウンドシーン内の異なる位置に存在する複数の音源が時間-周波数領域において一点に集まる。この場合、空間オーディオデコーダは、ダウンミックスオーディオ信号におけるこれらの寄与を分離することができない。この結果、空間的定位エラーによってオーディオ再生の空間的忠実性が損なわれる恐れがある。
【0010】
MPEG空間オーディオオブジェクトコーディング(SAOC)は、符号化サウンドトラックデータストリームが後方互換的なダウンミックスオーディオ信号及び時間-周波数キューデータストリームを含むという点でMPEGサラウンドに類似する。SAOCは、モノラル又は2チャネルダウンミックスオーディオ信号でM個のオーディオオブジェクトを送信するように設計された複数オブジェクトコーディング技術である。SAOCダウンミックス信号と共に送信されるSAOCキューデータストリームは、モノラル又は2チャネルダウンミックス信号の各チャネル内の各オブジェクト入力信号に適用される混合係数を各周波数サブバンドにおいて記述する時間-周波数オブジェクトミックスキューを含む。また、SAOCキューデータストリームは、オーディオオブジェクトをデコーダ側で個別に事後処理できるようにする周波数領域オブジェクト分離キューを含む。SAOCデコーダに提供されるオブジェクト事後処理機能は、オブジェクトベースの空間オーディオシーンレンダリングシステムの能力を模倣して複数の目標空間オーディオフォーマットをサポートする。
【0011】
SAOCは、複数のオーディオオブジェクト信号及びオブジェクトベースのフォーマット非依存型3次元オーディオシーン記述の低ビットレート送信及び計算効率の良い空間オーディオレンダリングのための方法を提供する。しかしながら、SAOC符号化ストリームのレガシーな互換性はSAOCオーディオダウンミックス信号の2チャネルステレオ再生に制限され、従って既存のマルチチャネルサラウンドサウンド符号化フォーマットを拡張することには適していない。さらに、SAOCデコーダ内でオーディオオブジェクト信号に適用されるレンダリング動作が人工残響などの特定のタイプの事後処理効果を含む場合、(これらの効果は、レンダリングシーン内では聞こえるが、未処理のオブジェクト信号を含むダウンミックス信号には同時に取り入れられないので)SAOCダウンミックス信号は、レンダリングされたオーディオシーンを知覚的に表現しない。
【0012】
また、SAOCには、時間-周波数領域において一点に集まるオーディオオブジェクト信号をSAOCデコーダがダウンミックス信号内で十分に分離できないという、SAC及びSASC技術と同じ制約がある。例えば、SAOCデコーダによってオブジェクトが大規模に増幅又は減衰されると、レンダリングされたシーンの音質が受け入れ難いほど低下する。
【0013】
空間的に符号化されるサウンドトラックは、(a)同じ場所に又は狭い間隔で配置された(基本的にシーン内のリスナーの仮想位置又はその付近に配置された)マイクシステムを用いた既存のサウンドシーンのレコーディング、又は(b)仮想サウンドシーンの合成、という2つの補完的方法によって制作することができる。
【0014】
従来の3Dバイノーラル録音を使用する第1の方法は、「ダミーヘッド」マイクの使用を通じて、「その場にいる」体験にできるだけ近いものをほぼ間違いなく生み出す。この場合、サウンドシーンは、一般に耳にマイクを配置した音響マネキンを用いてライブで取り込まれる。次に、録音されたオーディオを耳元でヘッドホンを通じて再生するバイノーラル再生を用いてオリジナルの空間認知を再現する。従来のダミーヘッド録音の制約の1つは、ライブ事象のみをダミーの視点及び頭部配向のみからしか取り込むことができない点である。
【0015】
第2の方法では、ダミーヘッド(又は外耳道にプローブマイクを挿入した人間の頭部)の周囲の頭部伝達関数(HRTF)の選択をサンプリングし、これらの測定を補間してあらゆる中間位置について測定されるHRTFを概算することによってバイノーラルリスニングをエミュレートするデジタル信号処理(DSP)技術が開発されてきた。最も一般的な技術は、全ての測定された同側及び対側HRTFを最小位相に変換し、これらの間で線形補間を行ってHRTFペア(HRTF pair)を導出することである。適切な両耳間時間遅延(ITD)と組み合わせたHRTFペアは、所望の合成位置のHRTFを表す。一般に、この補間は、典型的には時間領域フィルタの線形結合を含む時間領域で実行される。この補間は、周波数領域分析(例えば、1又は2以上の周波数サブバンドに対して行われる分析)、及びその後の周波数領域分析出力間の線形補間を含むこともできる。時間領域分析は計算効率の高い結果を提供できるのに対し、周波数領域分析は精度の高い結果を提供することができる。いくつかの実施形態では、この補間が、時間周波数分析などの、時間領域分析と周波数領域分析との組み合わせを含むことができる。エミュレートした距離に対して音源の利得を低減することによって距離キューをシミュレートすることができる。
【0016】
この方法は、距離に伴う両耳間HRTFの差分がごくわずかである遠距離の音源をエミュレートするために使用されてきた。しかしながら、音源が次第に頭部に接近する(例えば、「近距離」)につれ、音源の距離に比べて頭部のサイズが重要になる。この遷移の位置は周波数によって異なるが、慣例では音源が約1メートルを超える(例えば、「遠距離」)と言われている。音源がリスナーの近距離に深く入り込むと、特に低周波数における両耳間HRTFの変化が顕著になる。
【0017】
HRTFベースのレンダリングエンジンには、リスナーからの一定の半径方向距離で測定された全ての測定値を含む遠距離HRTF測定値のデータベースを使用するものもある。この結果、遠距離HRTFデータベース内のオリジナル測定値よりも大幅に近い音源の変化する周波数依存HRTFキューを正確にエミュレートすることは困難である。
【0018】
多くの最新の3Dオーディオ空間化製品は、近距離HRTFをモデル化する複雑性には従来コストが掛かり過ぎており、典型的な対話型オーディオシミュレーションでは伝統的に近距離音響事象がそれほど一般的でないという理由で、近距離を無視することを選択している。しかしながら、仮想現実(VR)用途及び拡張現実(AR)用途の出現により、複数の用途においてしばしば仮想オブジェクトがユーザの頭部付近で発生するようになった。このようなオブジェクト及び事象のさらに正確なオーディオシミュレーションが必要になってきた。
【0019】
これまでに知られているHRTFベースの3Dオーディオ合成モデルは、リスナーの周囲の一定距離で測定された単一のHRTFペアの組(すなわち、同側及び対側)を使用する。通常、これらの測定は、距離の増加と共にHRTFが大きく変化しない遠距離で行われる。この結果、適切な一対の遠距離HRTFフィルタを通じて音源をフィルタ処理し、結果として得られた信号を、距離に伴うエネルギー損失をエミュレートした周波数非依存利得(frequency-independent gains)(例えば、逆二乗の法則)に従ってスケーリングすることによって、遠く離れた音源をエミュレートすることができる。
【先行技術文献】
【特許文献】
【0020】
【文献】米国特許出願公開第2007/0269063号明細書
【文献】米国特許第5,974,380号明細書
【文献】米国特許第5,978,762号明細書
【文献】米国特許第6,487,535号明細書
【文献】米国特許第9,332,373号明細書
【非特許文献】
【0021】
【文献】Jot、Jean-Marc著、「音楽、マルチメディア及び対話型人間-コンピュータ・インターフェイスのためのリアルタイム空間音響処理(Real-time Spatial Processing of Sounds for Music, Multimedia and Interactive Human-Computer Interfaces)」、IRCAM、1 Place Igor-Stravinsky 1997
【文献】「3-Dオーディオ符号化とレンダリング技術の比較研究(A Comparative Study of 3-D Audio Encoding and Rendering Techniques)」
【発明の概要】
【発明が解決しようとする課題】
【0022】
しかしながら、音が同じ入射角で次第に頭部に近くなるにつれ、HRTF周波数応答が各耳に対して大きく変化し、もはや遠距離測定によって効率的にエミュレートできなくなり得る。オブジェクトが頭部に近付いた時の音をエミュレートするこのようなシナリオは、オブジェクト及びアバターとのさらに厳密な試験及び相互作用が広く見られるようになる仮想現実などの新たな用途にとって特に興味深いものである。
【0023】
6自由度の頭部追跡及び相互作用を可能にするために完全な3Dオブジェクト(例えば、オーディオ及びメタデータ位置)の送信が使用されてきたが、このような方法では、音源毎に複数のオーディオバッファが必要であり、使用する音源が増えると複雑性も大幅に増す。この方法では、動的音源管理も必要になり得る。このような方法は、既存のオーディオフォーマットに容易に統合することができない。マルチチャネルミックスは、一定数のチャネルでは一定のオーバヘッドを有するが、通常は十分な空間分解能を定めるために多くのチャネル数を必要とする。マトリクス符号化又はアンビソニックなどの既存のシーン符号化は、チャネル数は少ないが、リスナーからの所望のオーディオ信号の深度又は距離を示す機構を含んでいない。
【図面の簡単な説明】
【0024】
【
図1A】音源位置例の近距離及び遠距離レンダリングの概略図である。
【
図1B】音源位置例の近距離及び遠距離レンダリングの概略図である。
【
図1C】音源位置例の近距離及び遠距離レンダリングの概略図である。
【
図2A】距離キューを含むバイノーラルオーディオを生成するためのアルゴリズム的フローチャートである。
【
図2B】距離キューを含むバイノーラルオーディオを生成するためのアルゴリズム的フローチャートである。
【
図2C】距離キューを含むバイノーラルオーディオを生成するためのアルゴリズム的フローチャートである。
【
図3A】HRTFキューの推定方法を示す図である。
【
図3B】頭部インパルス応答(HRIR)補間の方法を示す図である。
【
図6】配向角、仰角及び半径(θ、φ、r)の関数である3D音源の概略図である。
【
図7】3D音源に近距離及び遠距離レンダリングを適用する第1の概略図である。
【
図8】3D音源に近距離及び遠距離レンダリングを適用する第2の概略図である。
【
図9】HRIR補間の第1の時間遅延フィルタ法を示す図である。
【
図10】HRIR補間の第2の時間遅延フィルタ法を示す図である。
【
図11】HRIR補間の単純化した第2の時間遅延フィルタ法を示す図である。
【
図12】単純化した近距離レンダリング構造を示す図である。
【
図13】単純化した2音源近距離レンダリング構造を示す図である。
【
図14】頭部追跡を含むアクティブデコーダの機能ブロック図である。
【
図15】深度及び頭部追跡を含むアクティブデコーダの機能ブロック図である。
【
図16】単一のステアリングチャネル「D」を用いた深度及び頭部追跡を含む別のアクティブデコーダの機能ブロック図である。
【
図17】メタデータ深度のみを用いた深度及び頭部追跡を含むアクティブデコーダの機能ブロック図である。
【
図18】仮想現実用途にとって最適な送信シナリオ例を示す図である。
【
図19】アクティブ3Dオーディオ復号及びレンダリングのための一般化アーキテクチャを示す図である。
【
図20】3つの深度の深度ベースサブミキシングの例を示す図である。
【
図21】オーディオレンダリング装置の一部の機能ブロック図である。
【
図22】オーディオレンダリング装置の一部の概略的ブロック図である。
【
図23】近距離及び遠距離音源位置の概略図である。
【
図24】オーディオレンダリング装置の一部の機能ブロック図である。
【発明を実施するための形態】
【0025】
本明細書で説明する方法及び装置は、完全な3Dオーディオミックス(例えば、配向角、仰角及び深度)を、復号プロセスが頭部追跡を容易にする「サウンドシーン」として最適に表す。サウンドシーンのレンダリングをリスナーの配向(例えば、ヨー、ピッチ、ロール)及び3D位置(例えば、x、y、z)に合わせて修正することができる。これにより、サウンドシーンの音源位置をリスナーに対する位置に制限される代わりに3D位置として処理する能力がもたらされる。本明細書で説明するシステム及び方法は、あらゆる数のオーディオチャネルにおけるこのようなシーンを完全に表現してDTS HDなどの既存のオーディオコーデックを通じた送信との互換性をもたらし、さらに7.1チャネルミックスよりも実質的に多くの情報(例えば、深度、高度)を搬送することができる。この方法は、あらゆるチャネルレイアウトに、又はDTSヘッドホンXを通じて容易に復号することができ、特に頭部追跡機能がVR用途に利益をもたらす。この方法は、DTSヘッドホンXによって可能になるVRモニタリングなどのVRモニタリングを含むコンテンツ生成ツールのためにリアルタイムで使用することもできる。デコーダの完全な3D頭部追跡は、レガシーな2Dミックス(例えば、配向角及び仰角のみ)を受け取った時にも後方互換性がある。
【0026】
一般的定義
添付図面に関連して以下に示す詳細な説明は、現在のところ好ましい本主題の実施形態の説明として意図するものであり、本主題を構築又は使用できる唯一の形態を表すように意図するものではない。この説明では、本主題を展開して動作させるための機能及びステップシーケンスを図示の実施形態に関連して示す。異なる実施形態によって同一又は同等の機能及びシーケンスを実現することもでき、これらの実施形態も本主題の趣旨及び範囲に含まれるように意図されていると理解されたい。さらに、(第1の、第2のなどの)関係語の使用については、あるエンティティを別のエンティティと区別するために使用しているにすぎず、このようなエンティティ間の実際のこのような関係又は順序を必ずしも必要とするものではないと理解されたい。
【0027】
本主題は、オーディオ信号(すなわち、物理的な音を表す信号)の処理に関する。これらのオーディオ信号は、デジタル電子信号によって表される。以下の考察では、概念を示すためにアナログ波形について図示又は説明することがある。しかしながら、本主題の典型的な実施形態は、アナログ信号又は最終的に物理的な音の離散近似を形成する時系列的なデジタルバイト又はデジタルワードとの関連で動作すると理解されたい。この離散的なデジタル信号は、周期的にサンプリングされるオーディオ波形のデジタル表現に対応する。均一なサンプリングのためには、関心周波数のナイキストのサンプリング定理を満たすのに十分なレート又はそれよりも高いレートで波形をサンプリングすべきである。典型的な実施形態では、約44,100サンプル/秒の均一なサンプリングレート(例えば、44.1kHz)を使用することができるが、さらに高いサンプリングレート(例えば、96Hz、128kHz)を使用することもできる。定量化スキーム及びビット解像度は、標準的なデジタル信号処理技術に従って特定の用途の要件を満たすように選択すべきである。通常、本主題の技術及び装置は、複数のチャネル内で依存し合って適用される。例えば、本発明の技術及び装置は、(例えば、2つよりも多くのチャネルを有する)「サラウンド」オーディオシステムとの関連で使用することができる。
【0028】
本明細書で使用する「デジタルオーディオ信号」又は「オーディオ信号」は、単なる数学的抽象概念を表すものではなく、機械又は装置が検出できる、物理媒体に具体化される又は物理媒体によって搬送される情報を示す。これらの用語は、録音信号又は送信信号を含み、パルスコード変調(PCM)又はその他の符号化を含むあらゆる形の符号化による搬送を含むと理解されたい。出力オーディオ信号、入力オーディオ信号又は中間オーディオ信号は、MPEG、ATRAC、AC3、又は米国特許第5,974,380号、第5,978,762号及び第6,487,535号に記載されるDTS社専用の方法を含む様々な既知の方法のいずれかによって符号化又は圧縮することができる。当業者には明らかなように、特定の圧縮法又は符号化法に対応するために何らかの計算の修正が必要になることもある。
【0029】
ソフトウェアにおけるオーディオ「コーデック」は、所与のオーディオファイルフォーマット又はストリーミングオーディオフォーマットに従ってデジタルオーディオデータをフォーマットするコンピュータプログラムを含む。ほとんどのコーデックは、QuickTime Player、XMMS、Winamp、Windows Media Player、Pro Logic又はその他のコーデックなどの1又は2以上のマルチメディアプレーヤにインターフェイスで接続するライブラリとして実装される。ハードウェアにおけるオーディオコーデックは、アナログオーディオをデジタル信号として符号化し、逆にデジタルをアナログに復号する単一の又は複数の装置を示す。換言すれば、オーディオコーデックは、共通クロックから外れて動作するアナログデジタルコンバータ(ADC)及びデジタルアナログコンバータ(DAC)の両方を含む。
【0030】
オーディオコーデックは、DVDプレーヤ、Blu-Rayプレーヤ、TVチューナ、CDプレーヤ、ハンドヘルドプレーヤ、インターネットオーディオ/ビデオ装置、ゲーム機又は携帯電話機、或いは別の電子装置などの消費者向け電子装置に実装することができる。消費者向け電子装置は、IBM PowerPC、Intel Pentium(x86)プロセッサ又はその他のプロセッサなどの1又は2以上の従来のタイプのこのようなプロセッサを表すことができる中央処理装置(CPU)を含む。CPUが行ったデータ処理動作の結果は、通常は専用メモリチャネルを介してCPUに相互接続されるランダムアクセスメモリ(RAM)に一時的に記憶される。消費者向け電子装置は、入力/出力(I/O)バスを介してやはりCPUと通信するハードドライブなどの永久記憶装置を含むこともできる。テープドライブ、光学ディスクドライブ又はその他の記憶装置などの他のタイプの記憶装置を接続することもできる。CPUには、ビデオバスを介して、表示データを表す信号をディスプレイモニタに送信するグラフィクスカードを接続することもできる。オーディオ再生システムには、USBポートを介してキーボード又はマウスなどの外部周辺データ入力装置を接続することもできる。USBポートに接続されたこれらの外部周辺装置のために、CPUとの間でやりとりされるデータ及び命令をUSBコントローラが翻訳する。消費者向け電子装置には、プリンタ、マイク、スピーカ又はその他の装置などの追加装置を接続することもできる。
【0031】
消費者向け電子装置は、ワシントン州レドモンドのMicrosoft社から提供されているWINDOWS(登録商標)、カリフォルニア州クパチーノのApple社から提供されているMAC OS、Android又はその他のオペレーティングシステムなどのモバイルオペレーティングシステム向けに設計された様々なバージョンのモバイルGUIなどのグラフィックユーザインターフェイス(GUI)を有するオペレーティングシステムを使用することができる。消費者向け電子装置は、1又は2以上のコンピュータプログラムを実行することができる。一般に、オペレーティングシステム及びコンピュータプログラムは、ハードドライブを含む固定式及び/又は着脱式データ記憶装置のうちの1つ又は2つ以上を含むコンピュータ可読媒体内に有形的に具体化される。これらのオペレーティングシステム及びコンピュータプログラムは、いずれもCPUによる実行のために上述のデータ記憶装置からRAMにロードすることができる。コンピュータプログラムは、CPUに読み込まれて実行された時に本主題のステップ又は機能を実行するためのステップをCPUに行わせる命令を含むことができる。
【0032】
オーディオコーデックは、様々な構成又はアーキテクチャを含むことができる。このような構成又はアーキテクチャは、いずれも本主題明の範囲から逸脱することなく容易に代用することができる。当業者であれば、コンピュータ可読媒体では上述のシーケンスが最も一般的に使用されているが、本主題の範囲から逸脱することなく代用できる既存のシーケンスは他にも存在すると認識するであろう。
【0033】
オーディオコーデックの1つの実施形態の要素は、ハードウェア、ファームウェア、ソフトウェア、又はこれらのいずれかの組み合わせによって実装することができる。ハードウェアとして実装する場合には、オーディオコーデックを1つのオーディオ信号プロセッサ上で使用することも、又は様々な処理要素に分散することもできる。ソフトウェアで実装する場合、本主題の実施形態の要素は、必要なタスクを実行するためのコードセグメントを含むことができる。ソフトウェアは、本主題の1つの実施形態で説明する動作を実行するための実際のコード、或いは動作をエミュレート又はシミュレートするコードを含むことが好ましい。これらのプログラム又はコードセグメントは、プロセッサ又は機械アクセス可能媒体に記憶することも、或いは搬送波に具体化されるコンピュータデータ信号(例えば、搬送体によって変調された信号)によって伝送媒体を介して送信することもできる。この「プロセッサ可読又はアクセス可能媒体」又は「機械可読又はアクセス可能媒体」は、情報の記憶、送信又は転送を行うことができるあらゆる媒体を含むことができる。
【0034】
プロセッサ可読媒体の例としては、電子回路、半導体メモリ素子、リードオンリメモリ(ROM)、フラッシュメモリ、消去可能ROM、フロッピディスケット、コンパクトディスク(CD)ROM、光ディスク、ハードディスク、光ファイバメディア、高周波(RF)リンク又はその他の媒体が挙げられる。コンピュータデータ信号としては、電子ネットワークチャネル、光ファイバ、無線リンク、電磁リンク、RFリンク又はその他の伝送媒体などの伝送媒体を介して伝搬できるあらゆる信号を挙げることができる。コードセグメントは、インターネット、イントラネット又は別のネットワークなどのコンピュータネットワークを介してダウンロードすることができる。機械アクセス可能媒体は、製造の物品内に具体化することができる。機械アクセス可能媒体は、機械によってアクセスされた時に、以下で説明する動作を機械に実行させるデータを含むことができる。ここでの「データ」という用語は、プログラム、コード、データ、ファイル又はその他の情報を含むことができる、機械が読み取れるように符号化されたあらゆるタイプの情報を意味する。
【0035】
本主題の実施形態の全部又は一部は、ソフトウェアによって実装することもできる。ソフトウェアは、互いに結合された複数のモジュールを含むことができる。1つのソフトウェアモジュールは別のモジュールに結合されて、変数、パラメータ、引数、ポインタ、結果、最新の変数、ポインタ又はその他の入力又は出力の生成、送信、受信又は処理を行う。ソフトウェアモジュールは、プラットフォーム上で実行されるオペレーティングシステムと相互作用するためのソフトウェアドライバ又はインターフェイスとすることもできる。ソフトウェアモジュールは、データの構成、設定、初期化を行ってハードウェア装置との間で送受信するためのハードウェアドライバとすることもできる。
【0036】
本主題の1つの実施形態は、通常はフローチャート、フロー図、構造図又はブロック図として示されるプロセスとして説明することができる。ブロック図には、動作を逐次プロセスとして記載することもあるが、これらの動作の多くは並行して又は同時に行うことができる。また、動作の順序を並べ替えることもできる。プロセスは、その動作が完了した時に終了することができる。プロセスは、方法、プログラム、手順又はその他の一群のステップなどに対応することができる。
【0037】
本明細書は、特にヘッドホン(例えば、ヘッドセット)用途においてオーディオ信号を合成するための方法及び装置を含む。ヘッドセットを含む例示的なシステムの文脈で本開示の態様を提示しているが、説明する方法及び装置はこのようなシステムに限定されるものではなく、本明細書の教示は、オーディオ信号の合成を含む他の方法及び装置に適用することもできると理解されたい。以下の説明で使用するオーディオオブジェクトは、3D位置データを含む。従って、オーディオオブジェクトは、通常は位置が動的である3D位置データと音源との特定の組み合わせ表現を含むと理解されたい。対照的に、「音源」は、最終的なミックス又はレンダーにおける再生又は再現のためのオーディオ信号であり、意図される静的又は動的レンダリング方法又は目的を有する。例えば、音源は、「前方左」信号とすることができ、或いは低音効果(「LFE」)チャネルに再生し又は右に90度パンすることができる。
【0038】
本明細書で説明する実施形態は、オーディオ信号の処理に関する。1つの実施形態は、少なくとも1組の近距離測定を用いて近距離聴覚事象の印象を与え、遠距離モデルと並行して近距離モデルを実行する方法を含む。指定された近距離モデルと遠距離モデルとをクロスフェードさせることにより、2つのモデルによってシミュレートされた領域間の空間領域においてシミュレートすべき聴覚事象を作成する。
【0039】
本明細書で説明する方法及び装置は、近距離から遠距離の境界にまで及ぶ基準頭部からの様々な距離で合成又は測定された複数組の頭部伝達関数(HRTF)を使用する。さらなる合成又は測定伝達関数を用いて頭部の内部まで、すなわち近距離よりも近い距離にわたって拡張することができる。また、各HRTFの組の相対的距離に関する利得を遠距離HRTF利得に標準化する。
【0040】
図1A~
図1Cは、音源位置の例の近距離及び遠距離レンダリングの概略図である。
図1Aは、リスナーに対する近距離領域及び遠距離領域を含む音響空間内にオーディオオブジェクトを配置する基本例である。
図1Aには2つの半径を用いた例を示しているが、音響空間は、
図1Cに示すように2つよりも多くの半径を用いて表すこともできる。具体的に言えば、
図1Cには、いずれかの数の有意性半径を用いた
図1Aの拡張例を示す。
図1Bには、球面表現21を用いた
図1Aの球面拡張例を示す。具体的に言えば、
図1Cには、オブジェクト22が接地面上の関連する高度23及び関連する投影25と、関連する仰角27と、関連する配向角と29を有することができることを示す。このような例では、半径Rnの完全な3D球面上であらゆる適切な数のHRTFをサンプリングすることができる。各共通半径HRTFセットにおけるサンプリングは同じものである必要はない。
【0041】
図1A~
図1Bに示すように、円R1はリスナーからの遠距離を表し、円R2はリスナーからの近距離を表す。
図1Cに示すように、オブジェクトは、遠距離位置、近距離位置、遠距離と近距離の間のどこか、近距離の内部又は遠距離の外部に位置することができる。原点を中心とするリングR1及びR2上の位置に関連する複数のHRTF(Hxy)を示しており、xはリング番号を表し、yはリング上の位置を表す。このような組は、「共通半径HRTFセット」と呼ばれる。図の遠距離セットには4つの位置重みを示しており、近距離セットには慣例Wxyを用いて2つを示しており、xはリング番号を表し、yはリング上の位置を表す。WR1及びWR2は、オブジェクトを共通半径HRTFセットの重み付けした組み合わせに分解する半径方向重み(radial weight)を表す。
【0042】
図1A及び
図1Bに示す例では、オーディオオブジェクトがリスナーの近距離を通過した時に頭部の中心までの半径方向距離を測定する。この半径方向距離を境界付ける2つの測定されたHRTFデータセットを識別する。各セットにつき、音源位置の所望の配向角及び仰角に基づいて適切なHRTFペア(同側及び対側)を導出する。その後、新たな各HRTFペアの周波数応答を補間することによって最終的なHRTFペアの組み合わせを形成する。この補間は、レンダリングすべき音源の相対的距離及び各HRTFセットの実際の測定された距離に基づく可能性が高い。導出されたHRTFペアによってレンダリングすべき音源をフィルタ処理し、結果として得られた信号の利得をリスナーの頭部までの距離に基づいて増減する。この利得は、音源がリスナーの片方の耳にぎりぎりまで接近した時には飽和を避けるために制限することができる。
【0043】
各HRTFセットは、水平面のみにおいて行われる測定又は合成HRTFの組に及ぶことができ、又はリスナーの周囲のHRTF測定の完全な球面を表すことができる。また、各HRTFセットは、半径方向測定距離に基づいてさらに少ない又はさらに多くの数のサンプルを有することもできる。
【0044】
図2A~
図2Cは、距離キューを含むバイノーラルオーディオを生成するためのアルゴリズム的フローチャートである。
図2Aは、本主題の態様によるサンプルフローを表す。線12上に、オーディオオブジェクトのオーディオ及び位置メタデータ10が入力される。このメタデータを用いて、ブロック13に示すように半径方向重みWR1及びWR2を決定する。また、ブロック14において、このメタデータを評価して、オブジェクトが遠距離境界の内側又は外側のいずれに位置しているかを判定する。線16によって表すようにオブジェクトが遠距離領域内に存在する場合、次のステップ17において、
図1Aに示すW11及びW12などの遠距離HRTF重みを決定する。線18によって表すようにオブジェクトが遠距離内に位置していない場合、ブロック20によって示すように、メタデータを評価してオブジェクトが近距離境界内に位置しているかどうかを判定する。線22によって表すようにオブジェクトが近距離境界と遠距離境界との間に位置している場合、次のステップにおいて、遠距離HRTF重み(ブロック17)と
図1AのW21及びW22などの近距離HRTF重み(ブロック23)の両方を決定する。線24によって表すようにオブジェクトが近距離境界内に位置している場合、次のステップであるブロック23において近距離HRTF重みを決定する。適切な半径方向重み、近距離HRTF重み及び遠距離HRTF重みが計算されると、26、28においてこれらを組み合わせる。最後に、ブロック30において、組み合わせた重みによってオーディオオブジェクトをフィルタ処理して、距離キューを含むバイノーラルオーディオを生成する(32)。このように、半径方向重みを用いて各共通半径HRTFセットからHRTF重みをさらにスケール調整し、距離利得/減衰を作成してオブジェクトが所望の位置に存在する感覚を再現する。この方法は、値が遠距離を上回る結果として半径方向重みによって距離減衰が適用されるあらゆる半径に拡張することもできる。近距離のHRTFセットのみの何らかの組み合わせによって、近距離境界R2よりも小さな「内部」と呼ばれるあらゆる半径を再現することもできる。単一のHRTFを用いて、リスナーの耳の間に存在すると認識されるモノフォニックの「中間チャネル」の位置を表すこともできる。
【0045】
図3Aに、HRTFキューの推定方法を示す。H
L(θ、φ)及びH
R(θ、φ)は、単位球面(遠距離)上の(配向角=θ、仰角=φ)における音源の、左耳及び右耳で測定された最小位相頭部インパルス応答(HRIR)を表す。τ
L及びτ
Rは、(通常は過度の共通遅延を除去した)各耳までの飛行時間を表す。
【0046】
図3Bに、HRIR補間の方法を示す。この例では、事前に測定された最小位相左耳及び右耳HRIRのデータベースが存在する。所与の方向のHRIRは、記憶されている遠距離HRIRの重み付けした組み合わせを加算することによって導出される。重み付けは、角度位置の関数として決定される利得の配列によって決定される。例えば、所望の位置に最も近い4つのサンプリングされたHRIRの利得は、音源までの角距離に比例する正の利得を有することができ、他の利得は全てゼロに設定される。或いは、配向角及び仰角方向の両方においてHRIRデータベースがサンプリングされた場合、VBAP/VBIP又は同様の3Dパナーを使用して、測定された3つの最も近いHRIRに利得を適用することもできる。
【0047】
図3Cは、HRIR補間の方法である。
図3Cは、
図3Bの単純化バージョンである。太線は、(本発明者らのデータベースに記憶されているHRIRの数に等しい)複数のチャネルのバスを意味する。G(θ、φ)は、HRIR重み付け利得配列を表し、左右の耳で同一であると想定することができる。H
L(f)、H
R(f)は、左耳HRIR及び右耳HRIRの固定データベースを表す。
【0048】
さらに、目標HRTFペアを導く方法は、既知の技術(時間領域又は周波数領域)に基づいて最も近い測定リングの各々から2つの最も近いHRTFを補間した後に、音源までの半径方向距離に基づいてこれらの2つの測定値間で補間を行うことである。これらの技術を、O1に位置するオブジェクトについて式(1)で、O2に位置するオブジェクトについて式(2)で示す。なお、Hxyは、測定されたリングy内の位置指数(position index)xにおいて測定されたHRTFペアを表す。Hxyは、周波数依存関数(frequency dependent function)であり、α、β及びδは、全て補間重み付け関数(interpolation weighing function)である。これらは周波数の関数でもある。
O1=δ11(α11H11+α12H12)+δ12(β11H21+β12H22) (1)
O2=δ21(α21H21+α22H22)+δ22(β21H31+β22H32) (2)
【0049】
この例では、測定されたHRTFセットがリスナーの周囲のリング内(配向角、固定半径)で測定されたものである。他の実施形態では、HRTFを球面の周囲(配向角及び仰角、固定半径)で測定することもできる。この例では、文献に記載されているように、HRTFが2又は3以上の測定間で補間される。半径補間は同じ状態のままである。
【0050】
HRTFモデリングの他の1つの要素は、音源が頭部に近付いた際のオーディオのラウドネスの指数関数的増加に関する。一般に、音のラウドネスは、頭部までの距離が半分になる毎に2倍になる。従って、例えば、0.25mにおける音源は、同じ音1mで測定した時よりも約4倍大きくなる。同様に、0.25mで測定したHRTFの利得は、1mで測定した同じHRTFの利得の4倍になる。この実施形態では、知覚される利得が距離と共に変化しないように、全てのHRTFデータベースの利得が標準化される。このことは、HRTFデータベースを最大ビット分解能で記憶できることを意味する。この時、距離に関する利得は、レンダリング時間に導出される近距離HRTF近似に適用することもできる。これにより、開発者は、自身が望むあらゆる距離モデルを使用できるようになる。例えば、HRTF利得が頭部に近付いた時にはこれを何らかの最大値に制限し、これによって信号利得が歪みすぎたり又はリミッターを支配したりするのを抑制又は防止ことができる。
【0051】
図2Bは、リスナーからの半径方向距離を2つよりも多く含む拡張アルゴリズムを表す。任意に、この構成では、各関心半径についてHRTF重みを計算することができるが、オーディオオブジェクトの位置に関連しない距離ではいくつかの重みをゼロにすることができる。場合によっては、これらの計算の結果として重みがゼロになり、
図2Aに示すように条件付きで除外することができる。
【0052】
図2Cに、両耳間時間遅延(ITD)の計算を含むさらなる例を示す。遠距離では、測定されたHRTF間で補間を行うことによって、元々は測定していなかった位置の近似的HRTFペアを導出することが一般的である。多くの場合、この導出は、測定された無響HRTF(anechoic HRTF)のペアをその最小位相等価に変換し、わずかな時間遅延でITDを概算することによって行われる。この導出は、HRTFセットが1つしか存在しない遠距離では上手く機能し、このHRTFセットは何らかの固定距離で測定される。1つの実施形態では、音源の半径方向距離を求めて最も近い2つのHRTF測定セットを識別する。音源が最も遠いセットを超える場合の実装は、利用可能な遠距離測定セットが1つしか存在しない場合に行われるものと同じである。近距離内では、モデル化すべき音源に最も近い2つのHRTFデータベースの各々から2つのHRTFペアを導出し、目標と基準測定距離との相対的距離に基づいてこれらのHRTFペアを補間して目標HRTFペアを導出する。この時、目標配向角及び仰角に必要なITDは、ITDのルックアップテーブル又はWoodworthが定義するような公式から導出される。なお、近距離に出入りする同様の方向では、ITD値は大幅に異ならない。
【0053】
図4は、2つの同時音源の第1の概略図である。このスキームを使用すると、点線内の部分が角距離の関数であるのに対してHRIRは固定されたままであることに注目されたい。この構成では、同じ左耳及び右耳HRIRデータベースが2回実装される。ここでも、太い矢印は、データベース内のHRIRの数に等しい信号のバスを表す。
【0054】
図5は、2つの同時音源の第2の概略図である。
図5には、新たな3D音源毎にHRIRを補間する必要がないことを示す。線形の時間不変システムを有しているので、この出力は、固定されたフィルタブロックの前にミックスすることができる。このようなさらに多くの音源を追加することは、3D音源の数に関わらず固定フィルタオーバヘッドを一度しか招かないことを意味する。
【0055】
図6は、配向角、仰角及び半径(θ、φ、r)の関数である3D音源の概略図である。この例では、音源までの半径方向距離に従って入力がスケール調整され、通常は標準的な距離ロールオフ曲線(distance roll-off curve)に基づく。この方法の1つの問題点は、この種の周波数独立距離スケーリングは遠距離では機能するが、音源が一定の(θ、φ)で頭部に近付くにつれてHRIRの周波数応答が変化し始めた時に近距離(r<1)ではうまく機能しない点である。
【0056】
図7は、3D音源に近距離及び遠距離レンダリングを適用する第1の概略図である。
図7では、配向角、仰角及び半径の関数として表される単一の3D音源が存在すると想定する。標準的な技術は単一の距離を実装する。本主題の様々な態様によれば、2つの別個の遠距離及び近距離HRIRデータベースがサンプリングされる。その後、これらの2つのデータベース間に半径方向距離r<1の関数としてクロスフェーディング(crossfading)を適用する。近距離HRIRは、測定で見られるあらゆる周波数独立距離利得を低減するために遠距離HRIRに標準化した利得である。これらの利得は、r<1の時にg(r)によって定義される距離ロールオフ関数(distance roll-off function)に基づいて、入力において再挿入される。なお、r>1の時には、g
FF(r)=1かつg
NF(r)=0である。r<1の時には、g
FF(r)、g
NF(r)が距離の関数であり、例えばg
FF(r)=a、g
NF(r)=1-aである。
【0057】
図8は、3D音源に近距離及び遠距離レンダリングを適用する第2の概略図である。
図8は
図7に類似しているが、頭部からの異なる距離で測定された2つの近距離HRIRセットを含む。これにより、半径方向距離に伴う近距離HRIR変化のサンプリング範囲が良好になる。
【0058】
図9に、HRIR補間の第1の時間遅延フィルタ法を示す。
図9は、
図3Bの代替例である。
図3Bとは対照的に、
図9には、HRIR時間遅延が固定フィルタ構造の一部として記憶されることを示す。ここでは、導出された利得に基づいてITDがHRIRで補間される。ITDは、3D音源の角度に基づいて更新されない。なお、この例は同じ利得ネットワーク(gain network)を不必要に2回適用している。
【0059】
図10に、HRIR補間の第2の時間遅延フィルタ法を示す。
図10は、両耳のための1つの利得セットG(θ、φ)と単一のさらに大きな固定フィルタ構造H(f)とを適用することによって
図9の二重利得適用を解消する。この構成の1つの利点は、半分の数の利得と対応する数のチャネルとを使用する点であるが、HRIR補間の精度が犠牲になる。
【0060】
図11に、HRIR補間の単純化した第2の時間遅延フィルタ法を示す。
図11は、
図5に関して説明したものと同様の2つの異なる3D音源を含む
図10の簡略図である。
図11に示すように、この実装は
図10から単純化されている。
【0061】
図12に、単純化した近距離レンダリング構造を示す。
図12は、(1つの音源のための)さらに単純化した構造を用いて近距離レンダリングを実装する。この構成は
図7に類似しているが、実装がさらに単純である。
【0062】
図13に、単純化した2音源近距離レンダリング構造を示す。
図13は
図12に類似しているが、2つの近距離HRIRデータベースセットを含む。
【0063】
ここまでの実施形態では、各音源位置を更新して3D音源毎に異なる近距離HRTFペアが計算されると想定している。従って、処理要件は、レンダリングすべき3D音源の数と共に線形にスケール調整を行う。一般に、この特徴は、3Dオーディオレンダリングソリューションを実装するために使用されるプロセッサがその割り当てられたリソースを(恐らくはいずれかの所与の時点でレンダリングすべきコンテンツに依存して)直ぐに非決定的に超える可能性があるため望ましくない。例えば、多くのゲームエンジンのオーディオ処理バジェット(audio processing budget)はCPUの最大3%になることもある。
【0064】
図21は、オーディオレンダリング装置の一部の機能ブロック図である。可変フィルタリングオーバヘッドとは対照的に、音源当たりのオーバヘッドが小さな一定の予測可能なフィルタリングオーバヘッドを有することが望ましい。これにより、所与のリソースバジェットについて多くの数の音源をさらに決定的にレンダリングできるようになる。
図21にはこのようなシステムを示す。このトポロジーの背後にある理論は、「3-Dオーディオ符号化とレンダリング技術の比較研究(A Comparative Study of 3-D Audio Encoding and Rendering Techniques)」に記載されている。
【0065】
図21には、固定フィルタネットワーク60と、ミキサー62と、オブジェクト当たり利得及び遅延の追加ネットワーク64とを用いたHRTF実装を示す。この実施形態では、オブジェクト当たり遅延のネットワークが、入力72、74及び76をそれぞれ有する3つの利得/遅延モジュール66、68及び70を含む。
【0066】
図22は、オーディオレンダリング装置の一部の概略的ブロック図である。具体的に言えば、
図22には、固定オーディオフィルタネットワーク80と、ミキサー82と、オブジェクト当たり利得遅延ネットワーク(per-object gain delay network)84とを含む、
図21で概説した基本トポロジーを用いた実施形態を示す。この例では、音源当たりのITDモデルが、
図2Cのフロー図に示すようなオブジェクト当たりのさらに正確な遅延制御を可能にする。オブジェクト当たり利得遅延ネットワーク84の入力86に音源を適用し、これを各測定セットの半径方向距離に対する音の距離に基づいて導出されるエネルギー保存利得又は重み88、90のペアを適用することによって近距離HRTFと遠距離HRTFとに分割する。右側信号に対して左側信号を遅延させるために両耳間時間遅延(ITD)92、94を適用する。ブロック96、98、100及び102において信号レベルをさらに調整する。
【0067】
この実施形態は、単一の3Dオーディオオブジェクトと、約1mよりも離れた4つの位置を表す遠距離HRTFセットと、約1mよりも近い4つの位置を表す近距離HRTFセットとを使用する。このシステムの入力のオーディオオブジェクトアップストリームには既にいずれかの距離ベースの利得又はフィルタリングが適用されていると想定する。この実施形態では、遠距離に位置する全ての音源についてGNEAR=0である。
【0068】
近距離信号寄与と遠距離信号寄与の両方についてITDを模倣するために左耳信号及び右耳信号を相対的に遅延させる。左耳及び右耳、並びに近距離及び遠距離のための各信号寄与に、サンプリングしたHRTF位置に対するオーディオオブジェクトの位置によって決定された値を有する4つの利得のマトリックスによって重み付けする。HRTF104、106、108及び110を、最小位相フィルタネットワークなどにおいて除去される両耳間遅延と共に記憶する。両耳リスニングのために、各フィルタバンクの寄与を左側出力112又は右側出力114に加算してヘッドホンに送信する。
【0069】
メモリ又はチャネル帯域幅によって制限される実装では、音源毎にITDを実装する必要なく同様のサウンディング結果を提供するシステムを実装することができる。
【0070】
図23は、近距離及び遠距離音源位置の概略図である。具体的に言えば、
図23には、固定フィルタネットワーク120と、ミキサー122と、オブジェクト当たり利得の追加ネットワーク124とを用いたHRTF実装を示す。この例では、音源当たりのITDを適用しない。ミキサー122に提供される前に、オブジェクト当たりの処理によって、共通半径HRTFセット136及び138当たりのHRTF重みと半径方向重み130、132とを適用する。
【0071】
図23に示す例では、固定フィルタネットワークが、元々のHRTFペアのITDが保持されたHRTF126、128のセットを実装する。この結果、この実装は、近距離信号経路及び遠距離信号経路のための単一の利得136、138のセットしか必要としない。オブジェクト当たり利得遅延ネットワーク124の入力134に音源を適用し、これを各測定セットの半径方向距離に対する音の距離に基づいて導出される一対のエネルギー又は振幅保存利得130、132を適用することによって近距離HRTFと遠距離HRTFとに分割する。ブロック136及び138において信号レベルをさらに調整する。両耳リスニングのために、各フィルタバンクの寄与を左側出力140又は右側出力142に加算してヘッドホンに送信する。
【0072】
この実装には、それぞれが異なる時間遅延を有する2又は3以上の対側HRTF間の補間に起因して、レンダリングされるオブジェクトの空間分解能にそれほど重点が置かれていないという不利点がある。関連するアーチファクトの可聴性は、十分にサンプリングされたHRTFネットワークを用いて最小化することができる。まばらにサンプリングされたHRTFセットでは、特にサンプリングされたHRTF位置間で対側フィルタ加算(contralateral filter summation)に関連するくし形フィルタリング(comb filtering)が聞き取れる。
【0073】
説明する実施形態は、有効な対話型3Dオーディオ体験と左耳及び右耳の近くでサンプリングされた近距離HRTFのペアとを提供するように十分な空間分解能でサンプリングされた少なくとも1つの遠距離HRTFセットを含む。この例では、近距離HRTFデータ空間がまばらにサンプリングされているが、その効果は依然として非常に説得力のあるものである。さらなる単純化では、単一の近距離又は「中間」HRTFを使用することもできる。このような最小事例では、遠距離セットがアクティブである時にのみ方向性が可能である。
【0074】
図24は、オーディオレンダリング装置の一部の機能ブロック図である。
図24は、オーディオレンダリング装置の一部の機能ブロック図である。
図24は、上述した図の単純化した実装を表す。実際の実装は、3次元リスニング空間の周囲でもサンプリングされるさらに大きなサンプル遠距離HRTF位置のセットを有している可能性が高い。さらに、様々な実施形態では、出力にクロストークキャンセレーション(cross-talk cancellation)などのさらなる処理ステップを行って、スピーカ再生に適したトランスオーラル信号(transaural signals)を形成することができる。同様に、共通半径セットにわたってパニングする距離を用いて、他の適切に構成されたネットワークにおけるストレージ/送信/トランスコーディング又はその他の遅延レンダリングに適するようにサブミックス(例えば、
図23のミキシングブロック122)を形成することもできる。
【0075】
上記の説明は、音響空間におけるオーディオオブジェクトの近距離レンダリングのための方法及び装置を示すものである。オーディオオブジェクトを近距離及び遠距離の両方でレンダリングする能力は、オブジェクトの深度だけでなく、アンビソニックス、マトリックス符号化などのアクティブなステアリング/パニングによって復号されたあらゆる空間オーディオミックスの深度も十分にレンダリングする能力を可能にし、これによって水平面における単純な回転を超えた完全な並進頭部追跡(full translational head tracking)(例えば、ユーザの動き)を可能にする。以下、例えば取り込み又はアンビソニックパニングのいずれかによって作成されたアンビソニックミックスに深度情報を添付する方法及び装置について説明する。本明細書で説明する技術は、一例として一次アンビソニックスを使用するが、三次又はさらに高次のアンビソニックに適用することもできる。
【0076】
アンビソニックの基本
マルチチャネルミックスが複数の着信信号からの寄与としての音を取り込む場合、アンビソニックスは、単一地点からの音場内の全ての音の方向を表す固定信号セットを取り込む/符号化する方法である。換言すれば、同じアンビソニック信号を用いてあらゆる数のスピーカに音場を再レンダリングすることができる。マルチチャネルの例では、チャネルの組み合わせに由来する音源の再生に制限される。高さが存在しない場合、高度情報は送信されない。一方で、アンビソニックは、常に完全な方向画像を送信し、再生地点のみにおいて制限される。
【0077】
関心地点における仮想マイクであると広く考えることができる連立一次(Bフォーマット)パニング方程式(set of 1st order (B-Format) panning equations)について検討する。
W=S*1/√2、ここでのW=オムニ成分(omni component)であり、
X=S*cos(θ)*cos(φ)、ここでのX=
図8の前向き(figure 8 pointed front)であり、
Y=S*sin(θ)*cos(φ)、ここでのY=
図8の右向き(figure 8 pointed right)であり、
Z=S*sin(φ)、ここでのZ=
図8の上向き(figure 8 pointed up)であり、
Sはパニングされる信号である。
【0078】
これらの4つの信号から、いずれかの方向に向けられた仮想マイクを形成することができる。従って、デコーダは、レンダリングに使用される各スピーカに向けられた仮想マイクを再現することに大きく関与する。この技術はかなりの程度まで機能するが、実際のマイクを用いて反応を取り込むのと同じ程度にしか良好でない。この結果、復号信号は出力チャネル毎に所望の信号を有するが、各チャネルには一定量の漏れ又は「かぶり(bleed)」が含まれ、従って特に間隔が均一でない場合にデコーダレイアウトを最良に表すデコーダを設計する何らかの技術が存在する。多くのアンビソニック再生システムが対称レイアウト(クアド、ヘキサゴンなど)を使用するのはこのためである。
【0079】
復号は、WXYZ方向のステアリング信号の組み合わせた重みによって達成されるので、頭部追跡は、当然ながらこれらの種類のソリューションによってサポートされる。Bフォーマットを回転させるには、復号前にWXYZ信号に回転マトリクスを適用することができ、この結果、正しく調整された方向への復号が行われる。しかしながら、このようなソリューションは、並進(例えば、ユーザの動き又はリスナー位置の変化)を実装することができない。
【0080】
アクティブ復号拡張
漏れに対処して非均一レイアウトの性能を向上させることが望ましい。Harpex又はDirACなどのアクティブ復号ソリューションは、復号のために仮想マイクを形成しない。代わりに、これらは音場の方向を調査し、信号を再現し、この信号を識別した方向に時間周波数毎に明確にレンダリングする。これによって復号の指向性が大幅に向上するが、各時間周波数タイルが厳しい決定を必要とするため方向性が制限される。DirACの例では、時間周波数毎に単一の方向仮定が行われる。Harpexの例では、2つの方向波面(directional wavefronts)を検出することができる。いずれのシステムにおいても、デコーダは、方向性決定をどれほど柔軟又は厳密にすべきについての制御を行うことができる。本明細書では、このような制御を、ソフトフォーカス、インナーパニング(inner panning)、又は方向性の断定(assertion of directionality)を和らげる他の方法を可能にする有用なメタデータパラメータとすることができる「フォーカス」のパラメータと呼ぶ。
【0081】
たとえアクティブデコーダの事例であっても、距離は鍵紛失関数(key missing function)である。アンビソニックのパニング方程式では方向が直接符号化されるが、音源距離に基づくレベル又は残響比(reverberation ratio)の単純な変更を超えて音源距離に関する情報を直接符号化することはできない。アンビソニックの取り込み/復号シナリオでは、マイクの「近さ」又は「マイク近接性」のためのスペクトル補償が存在することができ存在すべきであるが、これによって例えば2メートルにおける1つの音源と4メートルにおける別の音源とをアクティブに復号することはできない。この理由は、信号が指向性情報のみを搬送することに制限されるからである。実際に、パッシブなデコーダ性能は、リスナーが完全にスイートスポットに位置して全てのチャネルが等距離である場合には漏れがそれほど問題にならないという事実に依拠する。これらの条件は、意図する音場の再現を最大化する。
【0082】
さらに、BフォーマットWXYZ信号における回転の頭部追跡ソリューションでは、並進を用いた変換マトリックスが可能でない。座標が投影ベクトル(例えば、同次座標)を可能にすることはできるが、(修正が失われる)動作後の再符号化は困難又は不可能であり、そのレンダリングも困難又は不可能である。これらの制限を克服することが望ましい。
【0083】
並進を含む頭部追跡
図14は、頭部追跡を含むアクティブデコーダの機能ブロック図である。上述したように、Bフォーマット信号で直接符号化された深度は考慮されない。復号時には、レンダラーが、この音場がスピーカの距離でレンダリングされた音場の一部である音源の方向を表すと仮定する。しかしながら、アクティブステアリングを使用することにより、形成された信号を特定の方向にレンダリングする能力はパナーの選択のみによって制限される。このことを、頭部追跡を含むアクティブデコーダを示す
図14に機能的に示す。
【0084】
選択されたパナーが、上述した近距離レンダリング技術を使用する「距離パナー」である場合、リスナーが移動すると、完全な3D空間において各信号を絶対座標で完全にレンダリングするために必要な回転及び並進を含む同次座標変換マトリクスによって音源位置(この例ではビングループ当たりの空間分析の結果)を修正することができる。例えば、
図14に示すアクティブデコーダは、入力信号28を受け取り、FFT30を使用して信号を時間領域に変換する。空間分析32は、時間領域信号を使用して1又は2以上の信号の相対的位置を判断する。例えば、空間分析32は、第1の音源がユーザの正面(例えば0°配向角)に位置し、第2の音源がユーザの右側(例えば90°配向角)に位置すると判断することができる。信号形成34は、時間領域信号を使用してこれらの音源を生成し、関連するメタデータと共にサウンドオブジェクトとして出力する。アクティブステアリング38は、空間分析32又は信号形成34から入力を受け取って信号を回転(例えば、パン)させることができる。具体的に言えば、アクティブステアリング38は、信号形成34から音源出力を受け取り、空間分析32の出力に基づいて音源をパンすることができる。アクティブステアリング38は、ヘッドトラッカー36から回転又は並進入力を受け取ることもできる。アクティブステアリングは、回転又は並進入力に基づいて音源を回転又は並進させる。例えば、ヘッドトラッカー36が90°の反時計回り回転を示す場合、第1の音源はユーザの正面から左に回転し、第2の音源はユーザの右から正面に回転する。アクティブステアリング38においていずれかの回転又は変換入力が適用されると、逆FFT40に出力が提供され、これを使用して1又は2以上の遠距離チャネル42又は1又は2以上の近距離チャネル44が生成される。音源位置の修正は、3Dグラフィクスの分野で使用されるような音源位置の修正に類似する技術を含むこともできる。
【0085】
アクティブステアリング法は、VBAPなどの(空間分析から計算された)方向及びパニングアルゴリズムを使用することができる。方向及びパニングアルゴリズムを使用することにより、変換をサポートするための計算では、主に(回転のみに必要な3×3とは対照的な)4×4変換マトリクスへの変更、(元々のパニング法の約2倍の)距離パニング、及び近距離チャネルのためのさらなる逆高速フーリエ変換(IFFT)のコストが増加する。なお、この例では、4×4回転及びパニング動作が信号ではなくデータ座標に対して行われ、すなわちビングループが増えると共に計算コストが低くなる。
図14の出力ミックスは、上述して
図21に示したような近距離サポートを有する同様に構成された固定HRTFフィルタネットワークの入力としての役割を果たすことができ、従って
図14は、アンビソニックオブジェクトのための利得/遅延ネットワークとして機能することができる。
【0086】
深度符号化
デコーダが並進を含む頭部追跡をサポートして(アクティブ復号に起因する)適度に正確なレンダリングを有すると、音源までの深度を直接符号化することが望ましと思われる。換言すれば、コンテンツ制作中に深度インジケータの追加をサポートするように送信フォーマット及びパニング方程式を修正することが望ましいと思われる。この方法は、ミックスにおいてラウドネスなどの深度キュー及び残響変化を適用する典型的な方法とは異なり、ミックスにおいて音源の距離を回復させることにより、これを制作側ではなくむしろ最終的な再生能力のためにレンダリング可能にすることができる。本明細書では異なるトレードオフを有する3つの方法について説明するが、トレードオフは、許容できる計算コスト、複雑性及び後方互換性などの要件に応じて行うこともできる。
【0087】
深度ベースのサブミキシング(Nミックス)
図15は、深度及び頭部追跡を含むアクティブデコーダの機能ブロック図である。最も簡単な方法は、それぞれが関連するメタデータ(又は想定される)深度を有する「N」個の独立したBフォーマットミックスの並行復号をサポートすることである。例えば、
図15には、深度及び頭部追跡を含むアクティブデコーダを示す。この例では、近距離及び遠距離Bフォーマットが任意の「中間」チャネルと共に独立したミックスとしてレンダリングされている。実装の大部分は近距離高度チャネルをレンダリングすることができないので、近距離Zチャネルも任意である。高度情報は、脱落すると、遠距離/中間距離において、又は以下で近距離符号化について説明するフォークスプロキシミティ(偽近接)(「フロキシミティ」)法を用いて投影される。これらの結果は、様々な深度ミックス(近、遠、中など)が分離を維持するという点で上述した「距離パナー」/「近距離レンダラー」と同等のアンビソニックである。しかしながら、この例では、あらゆる復号構成について送信が合計8又は9チャネルしか存在せず、深度毎に完全に独立したフレキシブルな復号レイアウトが存在する。距離パナーの場合と同様に、このレイアウトは「N」ミックスに一般化されるが、ほとんどの場合に(遠距離に1つ及び近距離に1つの)2つを使用できることにより、遠距離よりもさらに遠い音源が距離減衰によって遠距離においてミキシングされ、近距離の内側の音源は、「フロキシミティ」スタイルの修正又は投影の有無にかかわらず、半径0における音源が方向を伴わずにレンダリングされるように近距離ミックスに配置される。
【0088】
このプロセスを一般化するために、各ミックスに何らかのメタデータを関連付けることが望ましいと思われる。各ミックスには、(1)ミックスの距離、及び(2)ミックスのフォーカス(又は多すぎるアクティブステアリングによって頭部内のミックスが復号されないように、そのミックスをどれほど明瞭に復号すべきか)をタグ付けすることが理想的である。他の実施形態は、ウェット/ドライミックスパラメータを用いて、多い又は少ない反射(又はチューナブル反射エンジン)を有するHRIRの選択が存在する場合にどの空間モデルを使用すべきであるかを示すことができる。さらなるメタデータが8チャネルミックスとして送信する必要が無いようにレイアウトに関する適切な仮説を立て、従って既存のストリーム及びツールとの互換性があるようにすることが好ましい。
【0089】
(WXYZDなどにおける)「D」チャネル
図16は、単一のステアリングチャネル「D」による深度及び頭部追跡を含む別のアクティブデコーダの機能ブロック図である。
図16は、考えられる冗長信号セット(WXYZ近(WXYZnear))を1又は2以上の深度(又は距離)チャネル「D」に置き換えた代替方法である。これらの深度チャネルを使用して、各周波数の音源を距離レンダリングするためにデコーダが使用できるアンビソニックミックスの有効深度に関する時間周波数情報を符号化する。「D」チャネルは、一例として(頭部内の基点における)0の値として、正確に近距離における0.25の値として、完全に遠距離においてレンダリングされる音源では最大1の値として回復できる標準化距離として符号化を行う。この符号化は、OdBFSなどの絶対値基準を使用することによって、或いは「W」チャネルなどの他のチャネルのうちの1つ又は2つ以上に対する相対的な大きさ及び/又は位相によって行うことができる。遠距離を超えることによって生じるあらゆる実際の距離減衰は、レガシーソリューションと同様にミックスのBフォーマット部分によって処理される。
【0090】
この方法で距離mを処理することにより、Bフォーマットチャネルは、(単複の)Dチャネルを脱落させることによって標準的なデコーダとの機能的な後方互換性を有する結果、1の距離又は「遠距離」が想定されるようになる。しかしながら、本発明者らのデコーダは、これらの信号を用いて近距離内外へのステアリングを行うこともできる。外部メタデータが不要なため、この信号は、レガシー5.1オーディオコーデックとの互換性を有することができる。「Nミックス」ソリューションと同様に、(単複の)余分なチャネルは信号レートであり、全ての時間周波数のために定義される。このことは、Bフォーマットチャネルと同期し続ける限りあらゆるビングルーピング又は周波数領域タイリングとも互換性があることを意味する。これらの2つの互換性因子は、この方法を特にスケーラブルなソリューションにする。Dチャネルを符号化する1つの方法は、各周波数におけるWチャネルの相対的大きさを使用することである。特定の周波数におけるDチャネルの大きさがこの周波数のWチャネルの大きさと全く同じである場合、この周波数における有効距離は1又は「遠距離」である。特定の周波数におけるDチャネルの大きさが0である場合、この周波数の有効距離は、リスナーの頭部の中央に対応する0である。別の例では、特定の周波数におけるDチャネルの大きさがこの周波数におけるWチャネルの大きさの0.25である場合、有効距離は0.25又は「近距離」である。同じ概念を用いて、各周波数におけるWチャネルの相対的パワーを使用してDチャネルを符号化することができる。
【0091】
Dチャネルを符号化する別の方法は、各周波数に関連する音源方向を抽出するためにデコーダが使用するものと全く同じ方向性分析(空間分析)を実行することである。特定の周波数において検出された音源が1つしか存在しない場合、その音源に関連する距離が符号化される。特定の周波数において検出された音源が1つよりも多く存在する場合、これらの音源に関連する距離の加重平均が符号化される。
【0092】
或いは、特定の時間フレームにおける各個々の音源の周波数分析を実行することによって距離チャネルを符号化することもできる。各周波数における距離は、その周波数における最も優勢な音源に関連する距離、又はその周波数におけるアクティブな音源に関連する距離の加重平均として符号化することができる。上述した技術は、Nチャネルの合計などのさらなるDチャネルに拡張することができる。デコーダが各周波数において複数の音源方向をサポートできる場合、これらの複数の方向に距離を拡張する支援となるようにさらなるDチャネルを含めることができる。正しい符号化/復号順によって音源方向及び音源距離が関連付けられたままになるように注意が必要である。
【0093】
フォークスプロキシミティ又は「フロキシミティ」符号化は、「D」チャネルの追加によってXYZにおける信号に対するWにおける信号の比率が所望の距離を示すように「W」チャネルが修正される別のコーディングシステムである。しかしながら、典型的なデコーダは、復号時におけるエネルギー保存を保証するために一定比率のチャネルを必要とするので、このシステムは標準的なBフォーマットとの後方互換性がない。このシステムは、これらのレベル変動を補償するために「信号形成」部分におけるアクティブな復号論理を必要とし、エンコーダは、XYZ信号を事前補償するために方向性分析を必要とする。さらに、このシステムには、複数の相関する音源を反対側にステアリングする際に制限がある。例えば、XYZ符号化時には、2つの音源の側方左/側方右、前方/後方又は上方/下方が0に低減される。従って、デコーダは、その帯域について「ゼロ方向」の想定を行って両音源を中央にレンダリングせざるを得ない。この例では、別個のDチャネルが、両方の音源を「D」の距離を有するようにステアリングすることができる。
【0094】
近接性を示す近接レンダリングの能力を最大化するために好ましい符号化は、音源が近付くにつれてWチャネルエネルギーを増加させることである。このバランスは、XYZチャネルを相補的に減少させることによって保つことができる。この近接性のスタイルは、全体的な標準化エネルギーを増加させながら「方向性」を低下させることによって同時に「近接性」も符号化することにより、「存在する」音源をさらに多くする。これは、アクティブ復号法又は動的深度拡張によってさらに拡張することができる。
【0095】
図17は、メタデータ深度のみを有する深度及び頭部追跡を含むアクティブデコーダの機能ブロック図である。或いは、完全なメタデータの使用はオプションである。この代替例では、Bフォーマット信号の増強のみを行って、それと共にあらゆるメタデータを送信することができる。このことを
図17に示す。メタデータは、最低でも全体的なアンビソニック信号の深度を定義する(例えば、ミックスに近又は遠としてラベル付けする)が、1つの音源がミックス全体の距離を修正するのを防ぐように複数の周波数帯域においてサンプリングすることが理想的である。
【0096】
1つの例では、必要なメタデータが、上記のNミックスソリューションと同じパラメータであるミックスをレンダリングするために深度(又は半径)及び「フォーカス」を含む。このメタデータは動的なものであり、コンテンツと共に変化することができ、周波数当たりであり、又は少なくともグループ化された値の臨界帯域に存在することが好ましい。
【0097】
1つの例では、任意のパラメータが、ウェット/ドライミックスを含み、或いは多少の早期反射又は「ルームサウンド」を有することができる。これは、早期反射/残響ミックスレベルの制御としてレンダラーに与えることができる。なお、これは、近距離又は遠距離バイノーラルルームインパルス応答(BRIR)を用いて行うことができ、この場合、BRIRはほぼドライである。
【0098】
空間信号の最適送信
上記の方法では、アンビソニックBフォーマットを拡張する特定の例について説明した。本文書の残り部分では、さらに幅広い文脈における空間シーンコーディングへの拡張に焦点を当てるが、これは本主題の主要素を強調するのに役立つ。
【0099】
図18に、仮想現実用途のための最適送信シナリオの例を示す。高度空間レンダラーの性能を最適化しながら送信帯域幅を同程度に低く維持する複雑なサウンドシーンの効率的な表現を識別することが望ましい。理想的なソリューションでは、標準的なオーディオ専用コーデックとの互換性を保つ最小数のオーディオチャネルを用いて複雑なサウンドシーン(複数の音源、ベッドミックス(bed mixes)、又は高度及び深度情報を含む完全な3Dポジショニングを有する音場)を完全に表現することができる。換言すれば、新たなコーデックを作成せず、又はメタデータ側チャネルに依拠せずに、通常はオーディオ専用である既存の送信経路を介して最適なストリームを搬送することが理想的である。「最適」な送信は、高度及び深度レンダリングなどの高度機能の用途優先度に応じて若干主観的になることが明らかになる。この説明では、仮想現実などの完全な3D及び頭部又は位置追跡を必要とするシステムに焦点を当てる。仮想現実のための最適な送信シナリオの例である
図18に一般化されたシナリオを示す。
【0100】
出力フォーマットを不可知論的なままにしていずれかのレイアウト法又はレンダリング法への復号をサポートすることが望ましい。あらゆる数のオーディオオブジェクト(位置を有するモノステム)、ベース/ベッドミックス、又は(アンビソニックスなどの)他の音場表現を符号化しようと試みることを用途とすることができる。任意の頭部/位置追跡の使用は、再分配のための音源の回復、又はレンダリング中のスムーズな回転/並進を可能にする。さらに、ビデオが存在する可能性もあるので、オーディオは、音源の視覚表現から離れないように比較的高い空間分解能で制作しなければならない。なお、本明細書で説明する実施形態はビデオを必要としない(含まれていない場合には、A/Vの多重化及び分離は不要である)。さらに、オーディオをコンテナフォーマットでパッケージして移送する限り、マルチチャネルオーディオコーデックは、ロスレスPCM波データと同程度に単純に、又は低ビットレート知覚コーダと同程度に高度にすることができる。
【0101】
オブジェクト、チャネル、及びシーンベース表現
最も完全なオーディオ表現は、(1又は2以上のオーディオバッファと、所望の結果を達成するためにこれらを正しい方法及び位置でレンダリングするのに必要なメタデータとをそれぞれが含む)独立したオブジェクトを維持することによって実現される。これには大量のオーディオ信号が必要であり、動的音源管理が必要になる可能性もあるため大きな問題となり得る。
【0102】
チャネルベースのソリューションは、レンダリングされる対象の空間サンプリングと見なすことができる。最終的に、チャネル表現は、最終的なレンダリングスピーカレイアウト又はHRTFサンプリング分解能に一致しなければならない。一般化されたアップ/ダウンミックス技術は、異なるフォーマットへの適合を可能にすることができるが、1つのフォーマットから別のフォーマットへの各遷移、頭部/位置追跡のための適合、又は他の遷移は、結果的に「リパニング」音源を生じる。これによって最終的な出力チャネル間の相関性が増し、HRTFの場合には外面化が低下する可能性がある。一方、チャネルソリューションは、既存のミキシングアーキテクチャとの互換性が高く、追加音源に対してロバストであり、いずれの時間でベッドミックスにさらなる音源を追加しても、既にミックス内に存在する音源の送信位置に影響が及ばない。
【0103】
シーンベース表現は、オーディオチャネルを用いて位置オーディオの記述を符号化することによってステップの先へと進む。これは、最終的なフォーマットをステレオペアとして再生できるマトリックス符号化、又はオリジナルサウンドシーンに近いさらに空間的なミックスへの「復号」などのチャネル互換性のオプションを含むことができる。或いは、アンビソニックス(Bフォーマット、UHJ、HOAなど)のようなソリューションを使用して、直接再生しても又はしなくてもよい信号のセットとして音場記述を直接「取り込む」こともできるが、空間的に復号してあらゆる出力フォーマットでレンダリングすることもできる。このようなシーンベースの方法は、チャネル数を大幅に低減する一方で限られた数の音源のための同様の空間分解能を提供するが、シーンレベルにおける複数の音源の相互作用は、基本的にフォーマットを個々の音源が失われる知覚方向符号化(perceptual direction encoding)に低下させる。この結果、復号プロセス中に音源の漏れ又はぼやけが生じて実効分解能を低下させる(これはチャネルを犠牲にした高次アンビソニックス又は周波数領域技術を用いて改善することができる)。
【0104】
シーンベース表現の改善は、様々なコーディング技術を用いて達成することができる。例えば、アクティブ復号は、符号化信号に対する空間分析、又は信号の部分的/パッシブ復号を行った後に、離散的パニングを介してその信号部分を検出位置に直接レンダリングすることによってシーンベースの符号化の漏れを低減する。例えば、DTSニューラルサラウンドにおけるマトリックス復号プロセス又はDirACにおけるBフォーマット処理。場合によっては、高角度分解能プレーンウェーブ拡張(High Angular Resolution Planewave Expansion(Harpex))と同様に複数の方向を検出してレンダリングすることもできる。
【0105】
別の技術は、周波数符号化/復号を含むことができる。ほとんどのシステムは、周波数依存処理から大きな恩恵を受ける。時間周波数分析及び合成のオーバヘッドを犠牲にして周波数領域において空間分析を実行し、非重複音源をそれぞれの方向に独立してステアリングすることができる。
【0106】
さらなる方法は、復号の結果を用いて符号化を通知することである。例えば、マルチチャネルベースのシステムがステレオマトリクス符号化に低減されている時。第1のパスにおいてマトリクス符号化を行い、復号し、オリジナルマルチチャネルレンダリングに対して分析する。検出されたエラーに基づいて、最終的に復号された出力をオリジナルマルチチャネルコンテンツにさらに良好に位置合わせする補正を用いて第2のパスエンコードを行う。この種のフィードバックシステムは、上述した周波数依存アクティブ復号を既に有している方法への適用性が最も高い。
【0107】
深度レンダリング及び音源並進
本明細書で上述した距離レンダリング技術は、両耳レンダリングにおける深度/近接度の知覚を達成する。この技術は、距離パニングを使用して2又は3以上の基準距離にわたって音源を分散させる。例えば、目標深度を達成するために、遠距離及び近距離HRTFの重み付けバランスをレンダリングする。このような距離パナーを用いて様々な深度でサブミックスを形成することは、深度情報の符号化/送信においても有用となり得る。基本的に、これらのサブミックスは全て同じ方向性のシーン符号化を表すが、サブミックスの組み合わせは、その相対的エネルギー分布を通じて深度情報を明らかにする。このような分布は、(1)(「近」及び「遠」などの関連性について均等に分散又はグループ化された)深度の直接量子化、又は(2)例えば何らかの信号を遠距離ミックスの残り部分よりも近いと理解するような、何らかの基準距離よりも近い又は遠い相対的ステアリング、のいずれかとすることができる。
【0108】
たとえ距離情報が送信されない場合でも、デコーダは、深度パニングを利用して、音源の並進を含む3D頭部追跡を実行することができる。ミックス内に表現される音源は、方向及び基準距離に由来すると想定される。空間内でリスナーが動くと、距離パナーを用いて音源を再パニングして、リスナーから音源までの絶対距離の変化の感覚をもたらすことができる。完全な3D両耳レンダラーを使用しない場合には、例えば同一出願人による米国特許第9,332,373号に記載されているような拡張によって深度の知覚を修正する他の方法を使用することができ、この文献の内容は引用により本明細書に組み入れられる。重要なのは、音源の並進が、本明細書で説明するような修正された深度レンダリングを必要とする点である。
【0109】
送信技術
図19に、アクティブ3Dオーディオ復号及びレンダリングの一般化アーキテクチャを示す。以下の技術は、容認できるエンコーダの複雑性又はその他の要件に応じて利用可能である。後述する全てのソリューションは、上述したような周波数依存アクティブ復号から恩恵を受けると想定される。これらのソリューションは、深度情報を符号化する新規方法に大きな重点を置いており、この階層を使用する動機がオーディオオブジェクト以外のものである場合には、古典的ないずれかのオーディオフォーマットによって深度が直接符号化されないことも分かる。1つの例では、深度が、再導入を必要とする欠落した次元(missing dimension)である。
図19は、後述するソリューションに使用されるアクティブ3Dオーディオ復号及びレンダリングの一般化したアーキテクチャのブロック図である。信号経路は、明確にするために単一の矢印で示しているが、これらはあらゆる数のチャネル又はバイノーラル/トランスオーラル信号ペアを表すと理解されたい。
【0110】
図19で分かるように、オーディオチャネル又はメタデータを介して送信されるオーディオ信号及び任意にデータは、各時間周波数ビンをレンダリングする所望の方向及び深度を決定する空間分析において使用される。音源は、オーディオチャネル、パッシブマトリクス又はアンビソニック復号の加重和と見なすことができる信号形成を介して再構成される。その後、「音源」は、頭部又は位置追跡を介したリスナーの動きのあらゆる調整を含む最終的なオーディオフォーマット内の所望の位置にアクティブにレンダリングされる。
【0111】
このプロセスは、時間周波数分析/合成ブロック内に示しているが、周波数処理はFFTに基づく必要はなく、いずれの時間周波数表現とすることもできると理解されたい。また、キーブロックの全部又は一部を(周波数依存処理を伴わずに)時間領域で実行することもできる。例えば、このシステムを用いて、時間及び/又は周波数領域処理のさらなるミックスにおいてHRTF/BRIRのセットによって後でレンダリングされる新たなチャネルベースのオーディオフォーマットを形成することもできる。
【0112】
図示のヘッドトラッカーは、3Dオーディオを調整すべき回転及び/又は並進のいずれかの指示であると理解される。通常、この調整は、ヨー/ピッチ/ロール、四元数又は回転マトリクス、及び相対的配置を調整するために使用されるリスナーの位置である。この調整は、意図されるオーディオシーン又は視覚成分との絶対的位置合わせをオーディオが維持するように実行される。アクティブステアリングは応用の可能性が最も高い場所であるが、この情報は、音源信号形成などの他のプロセスにおける決定を通知するために使用することもできると理解されたい。回転及び/又は並進の指示を与えるヘッドトラッカーは、頭部装着型仮想現実又は拡張現実ヘッドセット、内部センサ又は位置センサを含むポータブル電子装置、或いは別の回転及び/又は並進追跡電子装置からの入力を含むことができる。ヘッドトラッカーの回転及び/又は並進は、電子コントローラからのユーザ入力などのユーザ入力として提供することもできる。
【0113】
以下、3つのレベルのソリューションを示して詳細に説明する。各レベルは、少なくとも一次オーディオ信号を有していなければならない。この信号は、あらゆる空間フォーマット又はシーン符号化とすることができ、通常はマルチチャネルオーディオミックス、マトリクス/位相符号化ステレオペア、又はアンビソニックミックスの何らかの組み合わせである。各サブミックスは、それぞれが従来の表現に基づくので、特定の距離又は距離の組み合わせについて左/右、前/後、及び理想的には上/下(高度)を表すと予想される。
【0114】
オーディオサンプルストリームを表さないさらなる任意のオーディオデータ信号は、メタデータとして提供し、又はオーディオ信号として符号化することができる。これらを使用して空間分析又はステアリングを通知することもできるが、これらのデータは、オーディオ信号を完全に表す一次オーディオミックスの補助的なものであると想定されるので、通常は最終的なレンダリングのためのオーディオ信号を形成する必要はない。このソリューションは、メタデータが利用可能である場合には「オーディオデータ」を使用しないが、ハイブリッドデータソリューションも可能であると予想される。同様に、最も単純で最も後方互換性の高いシステムは、真のオーディオ信号のみに依拠すると想定される。
【0115】
深度チャネルコーディング
深度チャネルコーディング又は「D」チャネルの概念は、所与のサブミックスの各時間周波数ビンの一次深度/距離が各ビンの大きさ及び/又は位相によってオーディオ信号に符号化されるものである。例えば、最大/基準距離に対する音源距離は、-inf dBが距離のない音源であり、完全なスケールが基準/最大距離の音源であるように、OdBFSに対するピン当たりの大きさによって符号化される。基準距離又は最大距離を超えると、音源は、レベルの低減、又はレガシーミキシングフォーマットでは既に可能であった距離についての他のミックスレベル指示のみによって変化するように考えられると想定される。換言すれば、最大/基準距離は、上記で遠距離と呼ぶ深度コーディングを伴わずに一般に音源がレンダリングされる従来の距離である。
【0116】
或いは、「D」チャネルは、他の一次チャネルのうちの1つ又は2つ以上に対する「D」チャネルの大きさ及び/又は位相の比率として深度が符号化されるようなステアリング信号とすることもできる。例えば、深度は、アンビソニックスにおけるオムニ「W」チャネルに対する「D」の比率として符号化することができる。符号化は、OdBFS又は他の何らかの絶対レベルの代わりに他の信号に対して行うことによって、オーディオコーデック、又はレベル調整などの他のオーディオプロセスの符号化に対してさらにロバストにすることができる。
【0117】
デコーダがこのオーディオデータチャネルの符号化前提(encoding assumption)を承知している場合には、たとえデコーダ時間周波数分析又は知覚的グルーピングが符号化プロセスで使用されるものとは異なる場合であっても必要な情報を回復することができる。このようなシステムの主な問題は、所与のサブミックスについて信号深度値を符号化しなければならない点である。すなわち、複数の重複する音源を表現しなければならない場合には、これらを別個のミックスで送信しなければならず、又は支配的な距離を選択しなければならない。このマルチチャネルベッドミックスを含むシステムを使用することは可能であるが、デコーダにおいて既に時間周波数ステアリングが分析されており、チャネル数が最小値に維持されている場合には、このようなチャネルを使用してアンビソニック又はマトリクス符号化シーンを増強する可能性の方が高い。
【0118】
アンビソニックベースの符号化
提案するアンビソニックソリューションのさらに詳細な説明については、上記の「深度コーディングを伴うアンビソニック」の節を参照されたい。このような方法は、Bフォーマット+深度を送信するための5チャネルミックスW、X、Y、Z及びDの最小値をもたらす。X、Y、Z指向性チャネルに対するW(全方向性チャネル)のエネルギー比率によって既存のBフォーマットに深度符号化を組み込まなければならないフォークスプロキシミティ又は「フロキシミティ」法についても説明する。この方法では、4つのチャネルしか送信することができないと同時に、他の4チャネル符号化スキームによって最良に対処できる他の欠点もある。
【0119】
マトリクスベースの符号化
マトリクスシステムは、Dチャネルを使用して、既に送信されたものに深度情報を追加することができる。1つの例では、単一のステレオペアが、各サブバンドにおける音源への配向角及び仰角方向(azimuth and elevation headings)を表現するように符号化された利得-位相である。従って、完全な3D情報を送信するには3チャネル(MatrixL、MatrixR、D)で十分であり、MatrixL、MatrixRは、後方互換性のあるステレオダウンミックスを提供する。
【0120】
或いは、高度チャネル(MatrixL、MatrixR、HeightMatrixL、HeightMatrixR、D)の別個のマトリクス符号化として高度情報を送信することもできる。しかしながら、この例では、「D」チャネルと同様に「高度」を符号化することが有利である。これにより、MatrixL及びMatrixRが後方互換性のあるステレオダウンミックスを表し、H及びDが位置ステアリングのみの任意のオーディオデータチャネルである(MatrixL、MatrixR、H、D)が提供される。
【0121】
特別な例では、「H」チャネルが、本質的にBフォーマットミックスの「Z」チャネル又は高度チャネルに類似することができる。「H」チャネルとマトリクスチャネルとの間のエネルギー比率の関係は、ステアリングアップに正の信号を使用し、ステアリングダウンに負の信号を使用してどれほどステアアップ又はステアダウンを行ってよいかを示す。Bフォーマットミックスでは、「W」チャネルに対する「Z」チャネルのエネルギー比率と全く同様である。
【0122】
深度ベースのサブミキシング
深度ベースのサブミキシングでは、遠(通常はレンダリング距離)及び近(近接性)などの異なるキー深度において2又は3以上のミックスが形成される。完全な記述は、深度ゼロ又は「中央」チャネル及び遠(最大距離チャネル)によって行うことができ、より多くの深度が送信されるほど、最終的なレンダラーは正確/柔軟なものになり得る。換言すれば、サブミックスの数は、各個々の音源の深度に対する量子化として機能する。量子化深度において正確に降下する音源は最も高い精度で直接符号化され、従ってサブミックスが関連するレンダラーの深度に対応する上でも有利である。例えば、バイノーラルシステムでは、近距離ミックス深度が近距離HRTFの深度に対応すべきであり、遠距離が本発明者らの遠距離HRTFに対応すべきである。この深度コーディングに勝る方法の主な利点は、ミキシングが付加的であり、他の音源についての高度な又は以前の知識を必要としない点である。このことは、ある意味で「完全な」3Dミックスの送信である。
【0123】
図20は、3つの深度についての深度ベースのサブミキシングの例を示す。
図20に示すように、これらの3つの深度は、(頭部の中心を意味する)中央と、(リスナーの頭部周辺を意味する)近距離と、(本発明者らの典型的な遠距離ミックス距離を意味する)遠距離とを含むことができる。あらゆる数の深度を使用することができるが、
図20は(
図1Aと同様に)、頭部のごく近く(近距離)でHRTFがサンプリングされ、典型的な遠距離が1mよりも大きく典型的には2~3mであるバイノーラルシステムに対応する。音源「S」は、正確に遠距離の深度である時には、遠距離ミックスのみに含まれる。音源が遠距離を超えて広がるにつれてそのレベルは低下し、任意にさらに大きく反響する又は「直接性」が低下したサウンディングになる。換言すれば、遠距離ミックスは、まさに標準的な3Dレガシー用途において処理される方法である。音源は、近距離に向かって遷移するにつれて、そこからはもはや遠距離ミックスに寄与しなくなる近距離に正確に存在する地点まで、遠距離ミックス及び近距離ミックスの同じ方向に符号化される。このミックス間のクロスフェーディング中には、全体的な音源利得が増加し、レンダリングがさらに直接的/ドライなものになって「近接性」の感覚を生じる。音源は、頭部の中央(「M」)に存在し続けることができる場合、最終的にリスナーが方向を認識せずにまるで頭の中から生じるように、複数の近距離HRTF又は1つの代表的な中央HRTFにおいてレンダリングされる。この内部パニングは符号化側で行うこともできるが、中央信号を送信すると、最終的なレンダラーが頭部追跡動作においてより良く音源を操作できるとともに、「中央パン」された音源の最終レンダリング法を最終的なレンダラーの能力に基づいて選択できるようになる。
【0124】
この方法は2又は3以上の独立したミックス間のクロスフェーディングに依拠するので、深度方向に沿って音源がさらに分離する。例えば、同様の時間周波数コンテンツを有する音源S1及びS2は、同じ又は異なる方向、異なる深度を有し、完全に独立性を保つことができる。デコーダ側では、遠距離が、全てが何らかの基準距離D1の距離を有する音源のミックスとして処理され、近距離が、全てが何らかの基準距離D2を有する音源ミックスとして処理される。しかしながら、最終的なレンダリング前提のための補償が存在しなければならない。例えば、D1=1(音源レベルが0dBである基準最大距離)及びD2=0.25(音源レベルが+12dBであると想定される近接性のための基準距離)を採用する。レンダラーは、D2においてレンダリングする音源に12dB利得を適用してD1においてレンダリングする音源に0dBを適用する距離パナーを使用しているので、送信されるミックスを目標距離利得に対して補償すべきである。
【0125】
1つの例では、ミキサーがD1とD2の間の中間距離D(50%が近、50%が遠)に音源S1を配置した場合、このミキサーは、遠距離における「S1遠」6dB及び近距離における-6dB(6dB-12dB)の「S1近」として符号化すべき6dBの音源利得を有することが理想的である。復号されて再びレンダリングされると、システムは、+6dB(又は6dB-12dB+12dB)でS1近を再生し、+6dB(6dB+0dB+0dB)でS1遠を再生する。
【0126】
同様に、ミキサーは、同じ方向の距離D=D1に音源S1を配置した場合、遠距離のみにおける0dBの音源利得で符号化される。この時にレンダリング中であれば、リスナーは、再びDがD1とD2の中間に等しくなるようにS1の方向に動き、レンダリング側の距離パナーが、再び6dBの音源利得を適用してS1を近HRTFと遠HRTFとの間で再分配する。この結果、最終的なレンダリングは上記と同じになる。これはほんの例示であり、この送信フォーマットでは、距離利得を使用しない事例を含む他の値にも対応することができると理解されたい。
【0127】
アンビソニックベースの符号化
アンビソニックシーンの例では、最小の3D表現が、4チャネルBフォーマット(W、X、Y、Z)+中央チャネルで構成される。通常、4チャネルのさらなるBフォーマットミックスでは、それぞれにさらなる深度が提示される。完全な遠-近-中の符号化には9チャネルが必要である。しかしながら、近距離は高度を伴わずにレンダリングされることが多いので、近距離を水平のみに単純化することも可能である。この時、比較的効果的な構成は8チャネル(W、X、Y、Z遠距離、W、X、Y近距離、中央)で達成することができる。この例では、近距離にパンされる音源が、遠距離及び/又は中央チャネルの組み合わせに投影される高度を有する。これは、所与の距離における音源仰角が増加した時にサイン/コサインフェード(又は同様に単純な方法)を用いて達成することができる。
【0128】
オーディオコーデックが7又はそれ未満のチャネルを必要とする場合には、(WXYZ中)という最小3D表現の代わりに(W、X、Y、Z遠距離、W、X、Y近距離)を送信することが好ましい。複数の音源の深度精度と頭部内への完全な制御との間にトレードオフが存在する。音源位置が近距離以上に制限されることを許容できる場合には、さらなる全方向性チャネルが、最終的なレンダリングの空間分析中における音源分離を改善する。
【0129】
マトリクスベースの符号化
同様の拡張により、複数のマトリクス又は利得/位相符号化ステレオペアを使用することができる。例えば、MatrixFarL、MatrixFarR、MatrixNearL、MatrixNearR、Middle、LFEの5.1送信は、完全な3D音場に必要な全ての情報を提供することができる。マトリクスペアが高度を完全に符号化できない場合(例えば、本発明者らがDTSニューラルとの後方互換性を望む場合)には、追加のMatrixFarHeightペアを使用することができる。Dチャネルコーディングで考察したものと同様に、高度ステアリングチャネルを使用するハイブリッドシステムを追加することもできる。しかしながら、7チャネルミックスでは、上記のアンビソニック法が好ましいと予想される。
【0130】
一方、マトリクスペアから完全な配向角及び仰角方向を復号できる場合、この方法の最小構成は、いずれかの低ビットレートコーディングの前であっても既に必要な送信帯域幅の大幅な節約である3チャネル(MatrixL、MatrixR、Mid)である。
【0131】
メタデータ/コーデック
上述した(「D」チャネルコーディングなどの)方法は、オーディオコーデックの他方側においてデータが正確に回復されることを保証するさらに容易な方法としてメタデータによって支援することができる。しかしながら、このような方法は、もはやレガシーオーディオコーデックとの互換性がない。
【0132】
ハイブリッドソリューション
上記で別個に考察したように、各深度又はサブミックスの最適な符号化は適用要件に応じて異なることができると十分に理解される。上述したように、アンビソニックステアリングを含むマトリクス符号化のハイブリッドを使用してマトリクス符号化信号に高度情報を追加することができる。同様に、深度ベースのサブミックスシステムにおけるサブミックスのうちの1つ、いずれか又は全てにDチャネルコーディング又はメタデータを使用することもできる。
【0133】
深度ベースのサブミキシングを中間ステージングフォーマットとして使用した後に、ミックスが完成した時点で「D」チャネルコーディングを使用してチャネル数をさらに低減することもできる。基本的には、複数の深度ミックスを単一のミックス+深度に符号化する。
【0134】
実際には、ここでの主な提案は、本発明者らが基本的に3つ全てを使用していることである。最初に距離パナーを用いて、このミックスを深度ベースのサブミックスに分解することによって各サブミックスの深度を一定にし、送信されない暗黙の深度チャネルを可能にする。このようなシステムでは、本発明者らの深度制御を高めるために深度コーディング使用され、単一の全方向性ミックスを通じて達成される良好な音源方向分離を維持するためにサブミキシングが使用される。この時、オーディオコーデック、最大許容可能帯域幅、及びレンダリング要件などの用途仕様に基づいて最終的な妥協を選択することができる。また、これらの選択は、送信フォーマットにおける各サブミックスについて異なることもあり、最終的な復号レイアウトが異なって、特定のチャネルをレンダリングするレンダラー能力にのみ依存することもあると理解されたい。
【0135】
例示的な実施形態を参照しながら本開示について詳細に説明したが、当業者には、実施形態の趣旨及び範囲から逸脱することなく本明細書において様々な変更及び修正を行えることが明らかであろう。従って、本開示は、その修正及び変形が添付の特許請求の範囲及びその同等物に含まれる限り、そのような修正及び変形も対象とするように意図されている。
【0136】
以下、本明細書で開示した方法及び装置をさらに良好に示すために実施形態の非限定的なリストを示す。
【0137】
実施例1は、近距離バイノーラルレンダリング方法であって、音源とオーディオオブジェクト位置とを含むオーディオオブジェクトを受け取るステップと、オーディオオブジェクト位置と、リスナー位置及びリスナー配向を示す位置メタデータとに基づいて、半径方向重みセットを決定するステップと、オーディオオブジェクト位置と、リスナー位置と、リスナー配向とに基づいて、音源方向を決定するステップと、近距離HRTFオーディオ境界半径及び遠距離HRTFオーディオ境界半径の少なくとも一方を含む少なくとも1つのHRTF半径境界の音源方向に基づいて頭部伝達関数(HRTF)重みセットを決定するステップと、半径方向重みセット及びHRTF重みセットに基づいて、オーディオオブジェクト方向とオーディオオブジェクト距離とを含む3Dバイノーラルオーディオオブジェクト出力を生成するステップと、3Dバイノーラルオーディオオブジェクト出力に基づいてバイノーラルオーディオ出力信号を変換するステップと、を含む方法である。
【0138】
実施例2では、実施例1の主題が、ヘッドトラッカー及びユーザ入力の少なくとも一方から位置メタデータを受け取るステップを任意に含む。
【0139】
実施例3では、実施例1又は2の主題が、HRTF重みセットを決定するステップが、オーディオオブジェクト位置が遠距離オーディオ境界半径を超えていると判断するステップを含み、HRTF重みセットを決定するステップが、レベルロールオフ及び直接残響比率の少なくとも一方にさらに基づくことを任意に含む。
【0140】
実施例4では、実施例1~3のいずれか1つ又は2つ以上の主題が、HRTF半径境界が、近距離HRTFオーディオ境界半径と遠距離HRTFオーディオ境界半径との間の間隙半径を定義するHRTFオーディオ境界有意性半径を含むことを任意に含む。
【0141】
実施例5では、実施例4の主題が、オーディオオブジェクト半径を近距離HRTFオーディオ境界半径及び遠距離HRTFオーディオ境界半径と比較するステップを任意に含み、HRTF重みセットを決定するステップが、オーディオオブジェクト半径比較に基づいて近距離HRTF重みと遠距離HRTF重みとの組み合わせを決定するステップを含む。
【0142】
実施例6では、実施例1~5のいずれか1つ又は2つ以上の主題が、Dバイノーラルオーディオオブジェクト出力が、決定されたITD及び少なくとも1つのHRTF半径境界にさらに基づくことを任意に含む。
【0143】
実施例7では、実施例6の主題が、オーディオオブジェクト位置が近距離HRTFオーディオ境界半径を超えていると判断するステップを任意に含み、ITDを決定するステップが、決定された音源方向に基づいて部分的時間遅延を決定するステップを含む。
【0144】
実施例8では、実施例6又は7の主題が、オーディオオブジェクト位置が近距離HRTFオーディオ境界半径上又はその内部に存在すると判断するステップを任意に含み、ITDを決定するステップが、決定された音源方向に基づいて近距離両耳間時間遅延を決定するステップを含む。
【0145】
実施例9では、実施例1~8のいずれか1つ又は2つ以上の主題が、Dバイノーラルオーディオオブジェクト出力が時間周波数分析に基づくことを任意に含む。
【0146】
実施例10は、6自由度音源追跡方法であって、基準配向を含んで少なくとも1つの音源を表す空間オーディオ信号を受け取るステップと、少なくとも1つの空間オーディオ信号基準配向に対するリスナーの物理的な動きを表す3D動き入力を受け取るステップと、空間オーディオ信号に基づいて空間分析出力を生成するステップと、空間オーディオ信号及び空間分析出力に基づいて信号形成出力を生成するステップと、信号形成出力と、空間分析出力と、3D動き入力とに基づいて、空間オーディオ信号基準配向に対するリスナーの物理的な動きによって引き起こされる少なくとも1つの音源の最新の明白な方向及び距離を表すアクティブステアリング出力を生成するステップと、アクティブステアリング出力に基づいてオーディオ出力信号を変換するステップと、を含む方法である。
【0147】
実施例11では、実施例10の主題が、リスナーの物理的な動きが回転及び並進の少なくとも一方を含むことを任意に含む。
【0148】
実施例12では、実施例11の主題が、頭部追跡装置及びユーザ入力装置の少なくとも一方からの-Dモーション入力を任意に含む。
【0149】
実施例13では、実施例10~12のいずれか1つ又は2つ以上の主題が、アクティブステアリング出力に基づいて、それぞれが所定の量子化深度に対応する複数の量子化チャネルを生成するステップを任意に含む。
【0150】
実施例14では、実施例13の主題が、複数の量子化チャネルからヘッドホン再生に適したバイノーラルオーディオ信号を生成するステップを任意に含む。
【0151】
実施例15では、実施例14の主題が、クロストークキャンセレーションを適用することによってスピーカ再生に適したトランスオーラルオーディオ信号を生成するステップを任意に含む。
【0152】
実施例16では、実施例10~15のいずれか1つ又は2つ以上の主題が、形成されたオーディオ信号及び最新の明白な方向からヘッドホン再生に適したバイノーラルオーディオ信号を生成するステップを任意に含む。
【0153】
実施例17では、実施例16の主題が、クロストークキャンセレーションを適用することによってスピーカ再生に適したトランスオーラルオーディオ信号を生成するステップを任意に含む。
【0154】
実施例18では、実施例10~17のいずれか1つ又は2つ以上の主題が、モーション入力が3つの直交する動作軸のうちの少なくとも1つの動作軸の動きを含むことを任意に含む。
【0155】
実施例19では、実施例18の主題が、モーション入力が3つの直交する回転軸のうちの少なくとも1つの回転軸の周囲の回転を含むことを任意に含む。
【0156】
実施例20では、実施例10~19のいずれか1つ又は2つ以上の主題が、モーション入力がヘッドトラッカーモーションを含むことを任意に含む。
【0157】
実施例21では、実施例10~20のいずれか1つ又は2つ以上の主題が、空間オーディオ信号が少なくとも1つのアンビソニック音場を含むことを任意に含む。
【0158】
実施例22では、実施例21の主題が、少なくとも1つのアンビソニック音場が、一次音場、高次音場及びハイブリッド音場のうちの少なくとも1つを含むことを任意に含む。
【0159】
実施例23では、実施例21又は22の主題が、空間音場復号を適用するステップが、時間周波数音場分析に基づいて少なくとも1つのアンビソニック音場を分析するステップを含み、少なくとも1つの音源の最新の明白な方向が時間周波数音場分析に基づくことを任意に含む。
【0160】
実施例24では、実施例10~23のいずれか1つ又は2つ以上の主題が、空間オーディオ信号がマトリクス符号化信号を含むことを任意に含む。
【0161】
実施例25では、実施例24の主題が、空間マトリクス復号を適用するステップが時間周波数マトリクス分析に基づき、少なくとも1つの音源の最新の明白な方向が時間周波数マトリクス分析に基づくことを任意に含む。
【0162】
実施例26では、実施例25の主題が、空間マトリクス復号を適用するステップが高度情報を保存することを任意に含む。
【0163】
実施例27は、深度復号方法であって、音源深度における少なくとも1つの音源を表す空間オーディオ信号を受け取るステップと、空間オーディオ信号及び音源深度に基づいて空間分析出力を生成するステップと、空間オーディオ信号及び空間分析出力に基づいて信号形成出力を生成するステップと、信号形成出力及び空間分析出力に基づいて、少なくとも1つの音源の最新の明白な方向を表すアクティブステアリング出力を生成するステップと、アクティブステアリング出力に基づいてオーディオ出力信号を変換するステップと、を含む方法である。
【0164】
実施例28では、実施例27の主題が、少なくとも1つの音源の最新の明白な方向が、少なくとも1つの音源に対するリスナーの物理的な動きに基づくことを任意に含む。
【0165】
実施例29では、実施例27又は28の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0166】
実施例30では、実施例29の主題が、アンビソニック音場符号化オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0167】
実施例31では、実施例27~30のいずれか1つ又は2つ以上の主題が、空間オーディオ信号が複数の空間オーディオ信号サブセットを含むことを任意に含む。
【0168】
実施例32では、実施例31の主題が、複数の空間オーディオ信号サブセットの各々が関連するサブセット深度を含み、空間分析出力を生成するステップが、関連する各サブセット深度における複数の空間オーディオ信号サブセットの各々を復号して複数の復号サブセット深度出力を生成するステップと、複数の復号サブセット深度出力を組み合わせて空間オーディオ信号における少なくとも1つの音源の正味深度知覚を生成するステップとを含むことを任意に含む。
【0169】
実施例33では、実施例32の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つが固定位置チャネルを含むことを任意に含む。
【0170】
実施例34では、実施例32又は33の主題が、固定位置チャネルが、左耳チャネル、右耳チャネル及び中央チャネルのうちの少なくとも1つを含み、中央チャネルが、左耳チャネルと右耳チャネルとの間に位置するチャネルの知覚をもたらすことを任意に含む。
【0171】
実施例35では、実施例32~34のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0172】
実施例36では、実施例35の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0173】
実施例37では、実施例32~26のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがマトリクス符号化オーディオ信号を含むことを任意に含む。
【0174】
実施例38では、実施例37の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。
【0175】
実施例39では、実施例31~38のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つが関連する可変深度オーディオ信号を含むことを任意に含む。
【0176】
実施例40では、実施例39の主題が、関連する各可変深度オーディオ信号が、関連する基準オーディオ深度及び関連する可変オーディオ深度を含むことを任意に含む。
【0177】
実施例41では、実施例39又は40の主題が、関連する各可変深度オーディオ信号が、複数の空間オーディオ信号サブセットの各々の有効深度に関する時間周波数情報を含むことを任意に含む。
【0178】
実施例42では、実施例40又は41の主題が、関連する基準オーディオ深度における形成されたオーディオ信号を復号するステップを任意に含み、この復号ステップが、関連する可変オーディオ深度を廃棄するステップと、複数の空間オーディオ信号サブセットの各々を関連する基準オーディオ深度で復号するステップを含む。
【0179】
実施例43では、実施例39~42のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0180】
実施例44では、実施例43の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0181】
実施例45では、実施例39~44のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがマトリクス符号化オーディオ信号を含むことを任意に含む。
【0182】
実施例46では、実施例45の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。
【0183】
実施例47では、実施例31~46のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットの各々が、音源物理位置情報を含む関連する深度メタデータ信号を含むことを任意に含む。
【0184】
実施例48では、実施例47の主題が、音源物理位置情報が基準位置と基準配向とに対する位置情報を含み、音源物理位置情報が物理位置深度及び物理位置方向の少なくとも一方を含むことを任意に含む。
【0185】
実施例49では、実施例47又は48の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0186】
実施例50では、実施例49の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0187】
実施例51では、実施例47~50のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがマトリクス符号化オーディオ信号を含むことを任意に含む。
【0188】
実施例52では、実施例51の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。
【0189】
実施例53では、実施例27~52のいずれか1つ又は2つ以上の主題が、オーディオ出力が帯域分割及び時間周波数表現の少なくとも一方を使用して1又は2以上の周波数において単独で実行されることを任意に含む。
【0190】
実施例54は、深度復号方法であって、音源深度における少なくとも1つの音源を表す空間オーディオ信号を受け取るステップと、空間オーディオ信号に基づいて、少なくとも1つの音源の明白な正味深度及び方向を表すオーディオ出力を生成するステップと、アクティブステアリング出力に基づいてオーディオ出力信号を変換するステップと、を含む方法である。
【0191】
実施例55では、実施例54の主題が、少なくとも1つの音源の明白な方向が少なくとも1つの音源に対するリスナーの物理的な動きに基づくことを任意に含む。
【0192】
実施例56では、実施例54又は55の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0193】
実施例57では、実施例54~56のいずれか1つ又は2つ以上の主題が、空間オーディオ信号が複数の空間オーディオ信号サブセットを含むことを任意に含む。
【0194】
実施例58では、実施例57の主題が、複数の空間オーディオ信号サブセットの各々が関連するサブセット深度を含み、信号形成出力を生成するステップが、関連する各サブセット深度における複数の空間オーディオ信号サブセットの各々を復号して複数の復号サブセット深度出力を生成するステップと、複数の復号サブセット深度出力を組み合わせて空間オーディオ信号における少なくとも1つの音源の正味深度知覚を生成するステップとを含むことを任意に含む。
【0195】
実施例59では、実施例58の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つが固定位置チャネルを含むことを任意に含む。
【0196】
実施例60では、実施例58又は59の主題が、固定位置チャネルが、左耳チャネル、右耳チャネル及び中央チャネルのうちの少なくとも1つを含み、中央チャネルが、左耳チャネルと右耳チャネルとの間に位置するチャネルの知覚をもたらすことを任意に含む。
【0197】
実施例61では、実施例58~60のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0198】
実施例62では、実施例61の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0199】
実施例63では、実施例58~62のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがマトリクス符号化オーディオ信号を含むことを任意に含む。
【0200】
実施例64では、実施例63の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。
【0201】
実施例65では、実施例57~64のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つが関連する可変深度オーディオ信号を含むことを任意に含む。
【0202】
実施例66では、実施例65の主題が、関連する各可変深度オーディオ信号が、関連する基準オーディオ深度及び関連する可変オーディオ深度を含むことを任意に含む。
【0203】
実施例67では、実施例65又は66の主題が、関連する各可変深度オーディオ信号が、複数の空間オーディオ信号サブセットの各々の有効深度に関する時間周波数情報を含むことを任意に含む。
【0204】
実施例68では、実施例66又は67の主題が、関連する基準オーディオ深度における形成されたオーディオ信号を復号するステップを任意に含み、この復号ステップは、関連する可変オーディオ深度を廃棄するステップと、複数の空間オーディオ信号サブセットの各々を関連する基準オーディオ深度で復号するステップとを含む。
【0205】
実施例69では、実施例65~68のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0206】
実施例70では、実施例69の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0207】
実施例71では、実施例65~70のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがマトリクス符号化オーディオ信号を含むことを任意に含む。
【0208】
実施例72では、実施例71の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。
【0209】
実施例73では、実施例57~72のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットの各々が関連する深度メタデータ信号を含み、深度メタデータ信号が音源物理位置情報を含むことを任意に含む。
【0210】
実施例74では、実施例73の主題が、音源物理位置情報が基準位置と基準配向とに対する位置情報を含み、音源物理位置情報が物理位置深度及び物理位置方向の少なくとも1つを含むことを任意に含む。
【0211】
実施例75では、実施例73又は74の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0212】
実施例76では、実施例75の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含む。
【0213】
実施例77では、実施例73~76のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがマトリクス符号化オーディオ信号を含むことを任意に含む。
【0214】
実施例78では、実施例77の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。
【0215】
実施例79では、実施例54~78のいずれか1つ又は2つ以上の主題が、信号形成出力を生成するステップが時間周波数ステアリング分析にさらに基づくことを任意に含む。
【0216】
実施例80は、近距離バイノーラルレンダリングシステムであって、プロセッサと、トランスデューサとを備え、プロセッサが、音源とオーディオオブジェクト位置とを含むオーディオオブジェクトを受け取り、オーディオオブジェクト位置と、リスナー位置及びリスナー配向を示す位置メタデータとに基づいて、半径方向重みセットを決定し、オーディオオブジェクト位置と、リスナー位置と、リスナー配向とに基づいて、音源方向を決定し、近距離HRTFオーディオ境界半径及び遠距離HRTFオーディオ境界半径の少なくとも一方を含む少なくとも1つのHRTF半径境界の音源方向に基づいて頭部伝達関数(HRTF)重みセットを決定し、半径方向重みセット及びHRTF重みセットに基づいて、オーディオオブジェクト方向とオーディオオブジェクト距離とを含む3Dバイノーラルオーディオオブジェクト出力を生成するように構成され、トランスデューサが、3Dバイノーラルオーディオオブジェクト出力に基づいてバイノーラルオーディオ出力信号を可聴バイノーラル出力に変換するシステムである。
【0217】
実施例81では、実施例80の主題が、ヘッドトラッカー及びユーザ入力の少なくとも一方から位置メタデータを受け取るようにさらに構成されたプロセッサを任意に含む。
【0218】
実施例82では、実施例80又は81の主題が、HRTF重みセットを決定することが、オーディオオブジェクト位置が遠距離オーディオ境界半径を超えていると判断することを含み、HRTF重みセットを決定することが、レベルロールオフ及び直接残響比率の少なくとも一方にさらに基づくことを任意に含む。
【0219】
実施例83では、実施例80~82のいずれか1つ又は2つ以上の主題が、HRTF半径境界がHRTFオーディオ境界有意性半径を含み、HRTFオーディオ境界有意性半径が、近距離HRTFオーディオ境界半径と遠距離HRTFオーディオ境界半径の間の間隙半径を定義することを任意に含む。
【0220】
実施例84では、実施例83の主題が、オーディオオブジェクト半径を近距離HRTFオーディオ境界半径及び遠距離HRTFオーディオ境界半径と比較するようにさらに構成されたプロセッサを任意に含み、HRTF重みセットを決定することが、オーディオオブジェクト半径比較に基づいて近距離HRTF重みと遠距離HRTF重みとの組み合わせを決定することを含む。
【0221】
実施例85では、実施例80~84のいずれか1つ又は2つ以上の主題が、Dバイノーラルオーディオオブジェクト出力が、決定されたITD及び少なくとも1つのHRTF半径境界にさらに基づくことを任意に含む。
【0222】
実施例86では、実施例85の主題が、オーディオオブジェクト位置が近距離HRFオーディオ境界半径を超えていると判断するようにさらに構成されたプロセッサを任意に含み、ITDを決定することが、決定された音源方向に基づいて部分的時間遅延を決定することを含む。
【0223】
実施例87では、実施例85又は86の主題が、オーディオオブジェクト位置が近距離HRTFオーディオ境界半径上又はその内部に存在すると判断するようにさらに構成されたプロセッサを任意に含み、ITDを決定することが、決定された音源方向に基づいて近距離両耳間時間遅延を決定することを含む。
【0224】
実施例88では、実施例80~87のいずれか1つ又は2つ以上の主題が、Dバイノーラルオーディオオブジェクト出力が時間周波数分析に基づくことを任意に含む。
【0225】
実施例89は、6自由度音源追跡システムであって、プロセッサと、トランスデューサとを備え、プロセッサが、基準配向を含んで少なくとも1つの音源を表す空間オーディオ信号を受け取り、少なくとも1つの空間オーディオ信号基準配向に対するリスナーの物理的な動きを表す3D動き入力を受け取り、空間オーディオ信号に基づいて空間分析出力を生成し、空間オーディオ信号及び空間分析出力に基づいて信号形成出力を生成し、信号形成出力と、空間分析出力と、3D動き入力とに基づいて、空間オーディオ信号基準配向に対するリスナーの物理的な動きによって引き起こされる少なくとも1つの音源の最新の明白な方向及び距離を表すアクティブステアリング出力を生成するように構成され、トランスデューサが、アクティブステアリング出力に基づいてオーディオ出力信号を可聴バイノーラル出力に変換するシステムである。
【0226】
実施例90では、実施例89の主題が、リスナーの物理的な動きが回転及び並進の少なくとも一方を含むことを任意に含む。
【0227】
実施例91では、実施例89又は90の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0228】
実施例92では、実施例91の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0229】
実施例93では、実施例91又は92の主題が、モーション入力装置が頭部追跡装置及びユーザ入力装置の少なくとも一方を含むことを任意に含む。
【0230】
実施例94では、実施例89~93のいずれか1つ又は2つ以上の主題が、アクティブステアリング出力に基づいて、それぞれが所定の量子化深度に対応する複数の量子化チャネルを生成するようにさらに構成されたプロセッサを任意に含む。
【0231】
実施例95では、実施例94の主題が、トランスデューサがヘッドホンを含み、プロセッサが、複数の量子化チャネルからヘッドホン再生に適したバイノーラルオーディオ信号を生成するようにさらに構成されることを任意に含む。
【0232】
実施例96では、実施例95の主題が、トランスデューサがスピーカを含み、プロセッサが、クロストークキャンセレーションを適用することによってスピーカ再生に適したトランスオーラルオーディオ信号を生成するようにさらに構成されることを任意に含む。
【0233】
実施例97では、実施例89~96のいずれか1つ又は2つ以上の主題が、トランスデューサがヘッドホンを含み、プロセッサが、形成されたオーディオ信号及び最新の明白な方向からヘッドホン再生に適したバイノーラルオーディオ信号を生成するようにさらに構成されることを任意に含む。
【0234】
実施例98では、実施例97の主題が、トランスデューサがスピーカを含み、プロセッサが、クロストークキャンセレーションを適用することによってスピーカ再生に適したトランスオーラルオーディオ信号を生成するようにさらに構成されることを任意に含む。
【0235】
実施例99では、実施例89~98のいずれか1つ又は2つ以上の主題が、モーション入力が3つの直交する動作軸のうちの少なくとも1つの動作軸の動きを含むことを任意に含む。
【0236】
実施例100では、実施例99の主題が、モーション入力が3つの直交する回転軸のうちの少なくとも1つの回転軸の周囲の回転を含むことを任意に含む。
【0237】
実施例101では、実施例89~100のいずれか1つ又は2つ以上の主題が、モーション入力がヘッドトラッカーモーションを含むことを任意に含む。
【0238】
実施例102では、実施例89~101のいずれか1つ又は2つ以上の主題が、空間オーディオ信号が少なくとも1つのアンビソニック音場を含むことを任意に含む。
【0239】
実施例103では、実施例102の主題が、少なくとも1つのアンビソニック音場が、一次音場、高次音場及びハイブリッド音場のうちの少なくとも1つを含むことを任意に含む。
【0240】
実施例104では、実施例102又は103の主題が、空間音場復号を適用することが、時間周波数音場分析に基づいて少なくとも1つのアンビソニック音場を分析することを含み、少なくとも1つの音源の最新の明白な方向が時間周波数音場分析に基づくことを任意に含む。
【0241】
実施例105では、実施例89~104のいずれか1つ又は2つ以上の主題が、空間オーディオ信号がマトリクス符号化信号を含むことを任意に含む。
【0242】
実施例106では、実施例105の主題が、空間マトリクス復号を適用することが時間周波数マトリクス分析に基づき、少なくとも1つの音源の最新の明白な方向が時間周波数マトリクス分析に基づくことを任意に含む。
【0243】
実施例107では、実施例106の主題が、空間マトリクス復号を適用することが高度情報を保存することを任意に含む。
【0244】
実施例108は、深度復号システムであって、プロセッサと、トランスデューサとを備え、プロセッサが、音源深度における少なくとも1つの音源を表す空間オーディオ信号を受け取り、空間オーディオ信号及び音源深度に基づいて空間分析出力を生成し、空間オーディオ信号及び空間分析出力に基づいて信号形成出力を生成し、信号形成出力及び空間分析出力に基づいて、少なくとも1つの音源の最新の明白な方向を表すアクティブステアリング出力を生成するように構成され、トランスデューサが、アクティブステアリング出力に基づいてオーディオ出力信号を可聴バイノーラル出力に変換するシステムである。
【0245】
実施例109では、実施例108の主題が、少なくとも1つの音源の最新の明白な方向が、少なくとも1つの音源に対するリスナーの物理的な動きに基づくことを任意に含む。
【0246】
実施例110では、実施例108又は109の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0247】
実施例111では、実施例108~110のいずれか1つ又は2つ以上の主題が、空間オーディオ信号が複数の空間オーディオ信号サブセットを含むことを任意に含む。
【0248】
実施例112では、実施例111の主題が、複数の空間オーディオ信号サブセットの各々が関連するサブセット深度を含み、空間分析出力を生成することが、関連する各サブセット深度における複数の空間オーディオ信号サブセットの各々を復号して複数の復号サブセット深度出力を生成することと、複数の復号サブセット深度出力を組み合わせて空間オーディオ信号における少なくとも1つの音源の正味深度知覚を生成することとを含むことを任意に含む。
【0249】
実施例113では、実施例112の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つが固定位置チャネルを含むことを任意に含む。
【0250】
実施例114では、実施例112又は113の主題が、固定位置チャネルが、左耳チャネル、右耳チャネル及び中央チャネルのうちの少なくとも1つを含み、中央チャネルが、左耳チャネルと右耳チャネルとの間に位置するチャネルの知覚をもたらすことを任意に含む。
【0251】
実施例115では、実施例112~114のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0252】
実施例116では、実施例115の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0253】
実施例117では、実施例112~116のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがマトリクス符号化オーディオ信号を含むことを任意に含む。
【0254】
実施例118では、実施例117の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。
【0255】
実施例119では、実施例111~118のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つが関連する可変深度オーディオ信号を含むことを任意に含む。
【0256】
実施例120では、実施例119の主題が、関連する各可変深度オーディオ信号が、関連する基準オーディオ深度及び関連する可変オーディオ深度を含むことを任意に含む。
【0257】
実施例121では、実施例119又は120の主題が、関連する各可変深度オーディオ信号が複数の空間オーディオ信号サブセットの各々の有効深度に関する時間周波数情報を含むことを任意に含む。
【0258】
実施例122では、実施例120又は121のいずれか1つ又は2つ以上の主題が、関連する基準オーディオ深度における形成されたオーディオ信号を復号するようにさらに構成されたプロセッサを任意に含み、この復号が、関連する可変オーディオ深度を廃棄することと、複数の空間オーディオ信号サブセットの各々を関連する基準オーディオ深度で復号することとを含む。
【0259】
実施例123では、実施例119~122のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0260】
実施例124では、実施例123の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0261】
実施例125では、実施例119~124のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがマトリクス符号化オーディオ信号を含むことを任意に含む。
【0262】
実施例126では、実施例125の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。
【0263】
実施例127では、実施例111~126のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットの各々が、音源物理位置情報を含む関連する深度メタデータ信号を含むことを任意に含む。
【0264】
実施例128では、実施例127の主題が、音源物理位置情報が、基準位置と基準配向とに対する位置情報を含み、音源物理位置情報が、物理位置深度及び物理位置方向の少なくとも1つを含むことを任意に含む。
【0265】
実施例129では、実施例127又は128の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0266】
実施例130では、実施例129の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0267】
実施例131では、実施例127~130のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがマトリクス符号化オーディオ信号を含むことを任意に含む。
【0268】
実施例132では、実施襟131の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。
【0269】
実施例133では、実施例108~132のいずれか1つ又は2つ以上の主題が、オーディオ出力が、帯域分割及び時間周波数表現の少なくとも一方を使用して1又は2以上の周波数において単独で実行されることを任意に含む。
【0270】
実施例134は、深度復号システムであって、プロセッサと、トランスデューサとを備え、プロセッサが、音源深度における少なくとも1つの音源を表す空間オーディオ信号を受け取り、空間オーディオ信号に基づいて、少なくとも1つの音源の明白な正味深度及び方向を表すオーディオ出力を生成するように構成され、トランスデューサが、アクティブステアリング出力に基づいてオーディオ出力信号を可聴バイノーラル出力に変換するシステムである。
【0271】
実施例135では、実施例134の主題が、少なくとも1つの音源の明白な方向が少なくとも1つの音源に対するリスナーの物理的な動きに基づくことを任意に含む。
【0272】
実施例136では、実施例134又は135の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0273】
実施例137では、実施例134~136のいずれか1つ又は2つ以上の主題が、空間オーディオ信号が複数の空間オーディオ信号サブセットを含むことを任意に含む。
【0274】
実施例138では、実施例137の主題が、複数の空間オーディオ信号サブセットの各々が関連するサブセット深度を含み、信号形成出力を生成することが、関連する各サブセット深度における複数の空間オーディオ信号サブセットの各々を復号して複数の復号サブセット深度出力を生成することと、複数の復号サブセット深度出力を組み合わせて空間オーディオ信号における少なくとも1つの音源の正味深度知覚を生成することとを含むことを任意に含む。
【0275】
実施例139では、実施例138の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つが固定位置チャネルを含むことを任意に含む。
【0276】
実施例140では、実施例138又は139の主題が、固定位置チャネルが、左耳チャネル、右耳チャネル及び中央チャネルのうちの少なくとも1つを含み、中央チャネルが、左耳チャネルと右耳チャネルの間に位置付けられるチャネルの知覚をもたらすことを任意に含む。
【0277】
実施例141では、実施例138~140のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0278】
実施例142では、実施例141の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0279】
実施例143では、実施例138~142のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがマトリクス符号化オーディオ信号を含むことを任意に含む。
【0280】
実施例144では、実施例143の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。
【0281】
実施例145では、実施例137~144のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つが関連する可変深度オーディオ信号を含むことを任意に含む。
【0282】
実施例146では、実施例145の主題が、関連する各可変深度オーディオ信号が、関連する基準オーディオ深度及び関連する可変オーディオ深度を含むことを任意に含む。
【0283】
実施例147では、実施例145又は146の主題が、関連する各可変深度オーディオ信号が、複数の空間オーディオ信号サブセットの各々の有効深度に関する時間周波数情報を含むことを任意に含む。
【0284】
実施例148では、実施例146又は147の主題が、関連する基準オーディオ深度における形成されたオーディオ信号を復号するようにさらに構成されたプロセッサを任意に含み、この復号が、関連する可変オーディオ深度を廃棄することと、複数の空間オーディオ信号サブセットの各々を関連する基準オーディオ深度で復号することとを含む。
【0285】
実施例149では、実施例145~148のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0286】
実施例150では、実施例149の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0287】
実施例151では、実施例145~150のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがマトリクス符号化オーディオ信号を含むことを任意に含む。
【0288】
実施例152では、実施例151の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。
【0289】
実施例153では、実施例137~152のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットの各々が音源物理位置情報を含む関連する深度メタデータ信号を含むことを任意に含む。
【0290】
実施例154では、実施例153の主題が、音源物理位置情報が、基準位置と基準配向とに対する位置情報を含み、音源物理位置情報が、物理位置深度及び物理位置方向の少なくとも一方を含むことを任意に含む。
【0291】
実施例155では、実施例153又は154の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0292】
実施例156では、実施例155の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0293】
実施例157では、実施例153~156のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがマトリクス符号化オーディオ信号を含むことを任意に含む。
【0294】
実施例158では、実施例157の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。
【0295】
実施例159では、実施例134~158のいずれか1つ又は2つ以上の主題が、信号形成出力を生成することが時間周波数ステアリング分析にさらに基づくことを任意に含む。
【0296】
実施例160は、複数の命令を含む少なくとも1つの機械可読記憶媒体であって、複数の命令が、コンピュータ制御された近距離バイノーラルレンダリング装置のプロセッサ回路によって実行されたことに応答して、装置に、音源とオーディオオブジェクト位置とを含むオーディオオブジェクトを受け取るステップと、オーディオオブジェクト位置と、リスナー位置及びリスナー配向を示す位置メタデータとに基づいて、半径方向重みセットを決定するステップと、オーディオオブジェクト位置と、リスナー位置と、リスナー配向とに基づいて、音源方向を決定するステップと、近距離HRTFオーディオ境界半径及び遠距離HRTFオーディオ境界半径の少なくとも一方を含む少なくとも1つのHRTF半径境界の音源方向に基づいて頭部伝達関数(HRTF)重みセットを決定するステップと、半径方向重みセット及びHRTF重みセットに基づいて、オーディオオブジェクト方向とオーディオオブジェクト距離とを含む3Dバイノーラルオーディオオブジェクト出力を生成するステップと、3Dバイノーラルオーディオオブジェクト出力に基づいてバイノーラルオーディオ出力信号を変換するステップとを実行させる機械可読記憶媒体である。
【0297】
実施例161では、実施例160の主題が、ヘッドトラッカー及びユーザ入力の少なくとも一方から位置メタデータを受け取ることを装置に実行させる命令を任意に含む。
【0298】
実施例162では、実施例160又は161の主題が、HRTF重みセットを決定するステップが、オーディオオブジェクト位置が遠距離HRTFオーディオ境界半径を超えていると判断するステップと、HRTF重みセットがレベルロールオフ及び直接残響比率の少なくとも一方にさらに基づくと決定するステップとを含むことを任意に含む。
【0299】
実施例163では、実施例160~162のいずれか1つ又は2つ以上の主題が、HRTF半径境界が、近距離HRTFオーディオ境界半径と遠距離HRTFオーディオ境界半径との間の間隙半径を定義するHRTFオーディオ境界有意性半径を含むことをさらに含む。
【0300】
実施例164では、実施例163の主題が、オーディオオブジェクト半径を近距離HRTFオーディオ境界半径及び遠距離HRTFオーディオ境界半径と比較するステップを装置にさらに実行させる命令を任意に含み、HRTF重みセットを決定するステップが、オーディオオブジェクト半径比較に基づいて近距離HRTF重みと遠距離HRTF重みとの組み合わせを決定するステップを含む。
【0301】
実施例165では、実施例160~164のいずれか1つ又は2つ以上の主題が、Dバイノーラルオーディオオブジェクト出力が、決定されたITD及び少なくとも1つのHRTF半径境界にさらに基づくことを任意に含む。
【0302】
実施例166では、実施例165の主題が、オーディオオブジェクト位置が近距離HRTFオーディオ境界半径を超えていると判断することを装置に実行させる命令を任意に含み、ITDを決定するステップが、決定された音源方向に基づいて部分的時間遅延を決定するステップを含む。
【0303】
実施例167では、実施例165又は166の主題が、オーディオオブジェクト位置が近距離HRTFオーディオ境界半径上又はその内部に存在すると判断することを装置に実行させる命令を任意に含み、ITDを決定するステップが、決定された音源方向に基づいて近距離両耳間時間遅延を決定するステップを含む。
【0304】
実施例168では、実施例160~167のいずれか1つ又は2つ以上の主題が、Dバイノーラルオーディオオブジェクト出力が時間周波数分析に基づくことを任意に含む。
【0305】
実施例169は、複数の命令を含む少なくとも1つの機械可読記憶媒体であって、複数の命令が、コンピュータ制御された6自由度音源追跡装置のプロセッサ回路によって実行されたことに応答して、装置に、基準配向を含んで少なくとも1つの音源を表す空間オーディオ信号を受け取るステップと、少なくとも1つの空間オーディオ信号基準配向に対するリスナーの物理的な動きを表す3D動き入力を受け取るステップと、空間オーディオ信号に基づいて空間分析出力を生成するステップと、空間オーディオ信号及び空間分析出力に基づいて信号形成出力を生成するステップと、信号形成出力と、空間分析出力と、3D動き入力とに基づいて、空間オーディオ信号基準配向に対するリスナーの物理的な動きによって引き起こされる少なくとも1つの音源の最新の明白な方向及び距離を表すアクティブステアリング出力を生成するステップと、アクティブステアリング出力に基づいてオーディオ出力信号を変換するステップと、を実行させる機械可読記憶媒体である。
【0306】
実施例170では、実施例169の主題が、リスナーの物理的動きが回転及び並進の少なくとも一方を含むことを任意に含む。
【0307】
実施例171では、実施例169又は170の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0308】
実施例172では、実施例171の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0309】
実施例173では、実施例171又は172の主題が、頭部追跡装置及びユーザ入力装置の少なくとも一方からの-Dモーション入力を任意に含む。
【0310】
実施例174では、実施例169~173のいずれか1つ又は2つ以上の主題が、アクティブステアリング出力に基づいて、それぞれが所定の量子化深度に対応する複数の量子化チャネルを生成するステップを装置に実行させる命令を任意に含む。
【0311】
実施例175では、実施例174の主題が、複数の量子化チャネルからヘッドホン再生に適したバイノーラルオーディオ信号を生成するステップを装置に実行させる命令を任意に含む。
【0312】
実施例176では、実施例175の主題が、クロストークキャンセレーションを適用することによってスピーカ再生に適したトランスオーラルオーディオ信号を生成するステップを装置に実行させる命令を任意に含む。
【0313】
実施例177では、実施例169~176のいずれか1つ又は2つ以上の主題が、形成されたオーディオ信号及び最新の明白な方向からヘッドホン再生に適したバイノーラルオーディオ信号を生成するステップを装置に実行させる命令を任意に含む。
【0314】
実施例178では、実施例177の主題が、クロストークキャンセレーションを適用することによってスピーカ再生に適したトランスオーラルオーディオ信号を生成するステップを装置に実行させる命令を任意に含む。
【0315】
実施例179では、実施例169~178のいずれか1つ又は2つ以上の主題が、モーション入力が3つの直交する動作軸のうちの少なくとも1つの動作軸の動きを含むことを任意に含む。
【0316】
実施例180では、実施例179の主題が、モーション入力が3つの直交する回転軸のうちの少なくとも1つの回転軸の周囲の回転を含むことを任意に含む。
【0317】
実施例181では、実施例169~180のいずれか1つ又は2つ以上の主題が、モーション入力がヘッドトラッカーのモーションを含むことを任意に含む。
【0318】
実施例182では、実施例169~181のいずれか1つ又は2つ以上の主題が、空間オーディオ信号が少なくとも1つのアンビソニック音場を含むことを任意に含む。
【0319】
実施例183では、実施例182の主題が、少なくとも1つのアンビソニック音場が、一次音場、高次音場及びハイブリッド音場のうちの少なくとも1つを含むことを任意に含む。
【0320】
実施例184では、実施例182又は183の主題が、空間音場復号を適用するステップが、時間周波数音場分析に基づいて少なくとも1つのアンビソニック音場を分析するステップを含むことと、少なくとも1つの音源の最新の明白な方向が時間周波数音場分析に基づくこととを任意に含む。
【0321】
実施例185では、実施例169~184のいずれか1つ又は2つ以上の主題が、空間オーディオ信号がマトリクス符号化信号を含むことを任意に含む。
【0322】
実施例186では、実施例185の主題が、空間マトリクス復号を適用するステップが時間周波数マトリクス分析に基づくことと、少なくとも1つの音源の最新の明白な方向が時間周波数マトリクス分析に基づくこととを任意に含む。
【0323】
実施例187では、実施例186の主題が、空間マトリクス復号を適用するステップが高度情報を保存することを任意に含む。
【0324】
実施例188は、複数の命令を含む少なくとも1つの機械可読記憶媒体であって、複数の命令が、コンピュータ制御された深度復号装置のプロセッサ回路によって実行されたことに応答して、装置に、音源深度における少なくとも1つの音源を表す空間オーディオ信号を受け取るステップと、空間オーディオ信号及び音源深度に基づいて空間分析出力を生成するステップと、空間オーディオ信号及び空間分析出力に基づいて信号形成出力を生成するステップと、信号形成出力及び空間分析出力に基づいて、少なくとも1つの音源の最新の明白な方向を表すアクティブステアリング出力を生成するステップと、アクティブステアリング出力に基づいてオーディオ出力信号を変換するステップと、を実行させる機械可読記憶媒体である。
【0325】
実施例189では、実施例188の主題が、少なくとも1つの音源の最新の明白な方向が、少なくとも1つの音源に対するリスナーの物理的な動きに基づくことを任意に含む。
【0326】
実施例190では、実施例188又は189の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0327】
実施例191では、実施例188~190のいずれか1つ又は2つ以上の主題が、空間オーディオ信号が複数の空間オーディオ信号サブセットを含むことを任意に含む。
【0328】
実施例192では、実施例191の主題が、複数の空間オーディオ信号サブセットの各々が関連するサブセット深度を含み、空間分析出力を生成するステップを装置に実行させる命令が、関連する各サブセット深度における複数の空間オーディオ信号サブセットの各々を復号して複数の復号サブセット深度出力を生成するステップと、複数の復号サブセット深度出力を組み合わせて空間オーディオ信号における少なくとも1つの音源の正味深度知覚を生成するステップとを装置に実行させる命令を含むことを任意に含む。
【0329】
実施例193では、実施例192の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つが固定位置チャネルを含むことを任意に含む。
【0330】
実施例194では、実施例192又は193の主題が、固定位置チャネルが、左耳チャネル、右耳チャネル及び中央チャネルのうちの少なくとも1つを含み、中央チャネルが、左耳チャネルと右耳チャネルとの間に位置するチャネルの知覚をもたらすことを任意に含む。
【0331】
実施例195では、実施例192~194のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0332】
実施例196では、実施例195の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0333】
実施例197では、実施例192~196のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがマトリクス符号化オーディオ信号を含むことを任意に含む。
【0334】
実施例198では、実施例197の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。
【0335】
実施例199では、実施例191~198のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つが関連する可変深度オーディオ信号を含むことを任意に含む。
【0336】
実施例200では、実施例199の主題が、関連する各可変深度オーディオ信号が、関連する基準オーディオ深度及び関連する可変オーディオ深度を含むことを任意に含む。
【0337】
実施例201では、実施例199又は200の主題が、関連する各可変深度オーディオ信号が、複数の空間オーディオ信号サブセットの各々の有効深度に関する時間周波数情報を含むことを任意に含む。
【0338】
実施例202では、実施例200又は201の主題が、関連する基準オーディオ深度における形成されたオーディオ信号を復号するステップを装置に実行させる命令を任意に含み、この命令が、関連する可変オーディオ深度を廃棄するステップと、複数の空間オーディオ信号サブセットの各々を関連する基準オーディオ深度で復号するステップとを装置に実行させる命令を含む。
【0339】
実施例203では、実施例199~202のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0340】
実施例204では、実施例203の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0341】
実施例205では、実施例199~204のいずれか1つ又は2つ以上の主題が、複数のオーディオ信号サブセットの少なくとも1つがマトリクス符号化オーディオ信号を含むことを任意に含む。
【0342】
実施例206では、実施例205の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。
【0343】
実施例207では、実施例191~206のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットの各々が、音源物理位置情報を含む関連する深度メタデータ信号を含むことを任意に含む。
【0344】
実施例208では、実施例207の主題が、音源物理位置情報が基準位置と基準配向とに対する位置情報を含み、音源物理位置情報が物理位置深度及び物理位置方向の少なくとも1つを含むことを任意に含む。
【0345】
実施例209では、実施例207又は208の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0346】
実施例210では、実施例209の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0347】
実施例211では、実施例207~210のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがマトリクス符号化オーディオ信号を含むことを任意に含む。
【0348】
実施例212では、実施例211の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。
【0349】
実施例213では、実施例188~212のいずれか1つ又は2つ以上の主題が、オーディオ出力が帯域分割及び時間周波数表現の少なくとも一方を使用して1又は2以上の周波数において単独で実行されることを任意に含む。
【0350】
実施例214は、複数の命令を含む少なくとも1つの機械可読記憶媒体であって、複数の命令が、コンピュータ制御された深度復号装置のプロセッサ回路によって実行されたことに応答して、装置に、音源深度における少なくとも1つの音源を表す空間オーディオ信号を受け取るステップと、空間オーディオ信号に基づいて、少なくとも1つの音源の明白な正味深度及び方向を表すオーディオ出力を生成するステップと、アクティブステアリング出力に基づいてオーディオ出力信号を変換するステップと、を実行させる機械可読記憶媒体である。
【0351】
実施例215では、実施例214の主題が、少なくとも1つの音源の明白な方向が少なくとも1つの音源に対するリスナーの物理的な動きに基づくことを任意に含む。
【0352】
実施例216では、実施例214又は215の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0353】
実施例217では、実施例214~216のいずれか1つ又は2つ以上の主題が、空間オーディオ信号が複数の空間オーディオ信号サブセットを含むことを任意に含む。
【0354】
実施例218では、実施例217の主題が、複数の空間オーディオ信号サブセットの各々が関連するサブセット深度を含み、信号形成出力を生成するステップを装置に実行させる命令が、関連する各サブセット深度における複数の空間オーディオ信号サブセットの各々を復号して複数の復号サブセット深度出力を生成するステップと、複数の復号サブセット深度出力を組み合わせて空間オーディオ信号における少なくとも1つの音源の正味深度知覚を生成するステップとを装置に実行させる命令を含むことを任意に含む。
【0355】
実施例219では、実施例218の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つが固定位置チャネルを含むことを任意に含む。
【0356】
実施例220では、実施例218又は219の主題が、固定位置チャネルが、左耳チャネル、右耳チャネル及び中央チャネルのうちの少なくとも1つを含み、中央チャネルが、左耳チャネルと右耳チャネルとの間に位置するチャネルの知覚をもたらすことを任意に含む。
【0357】
実施例221では、実施例218~220のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0358】
実施例222では、実施例221の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0359】
実施例223では、実施例218~222のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがマトリクス符号化オーディオ信号を含むことを任意に含む。
【0360】
実施例224では、実施例223の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。
【0361】
実施例225では、実施例217~224のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つが関連する可変深度オーディオ信号を含むことを任意に含む。
【0362】
実施例226では、実施例225の主題が、関連する各可変深度オーディオ信号が、関連する基準オーディオ深度及び関連する可変オーディオ深度を含むことを任意に含む。
【0363】
実施例227では、実施例225又は226の主題が、関連する各可変深度オーディオ信号が、複数の空間オーディオ信号サブセットの各々の有効深度に関する時間周波数情報を含むことを任意に含む。
【0364】
実施例228では、実施例226又は227のいずれか1つ又は2つ以上の主題が、関連する基準オーディオ深度における形成されたオーディオ信号を復号するステップを装置に実行させる命令を任意に含み、この命令が、関連する可変オーディオ深度を廃棄するステップと、複数の空間オーディオ信号サブセットの各々を関連する基準オーディオ深度で復号するステップとを装置に実行させる命令を含む。
【0365】
実施例229では、実施例225~228のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0366】
実施例230では、実施例229の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0367】
実施例231では、実施例225~230のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがマトリクス符号化オーディオ信号を含むことを任意に含む。
【0368】
実施例232では、実施例231の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。
【0369】
実施例233では、実施例217~232のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットの各々が、音源物理位置情報を含む関連する深度メタデータ信号を含むことを任意に含む。
【0370】
実施例234では、実施例233の主題が、音源物理位置情報が基準位置と基準配向とに対する位置情報を含み、音源物理位置情報が物理位置深度及び物理位置方向の少なくとも1つを含むことを任意に含む。
【0371】
実施例235では、実施例233又は234の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがアンビソニック音場符号化オーディオ信号を含むことを任意に含む。
【0372】
実施例236では、実施例235の主題が、空間オーディオ信号が、一次アンビソニックオーディオ信号、高次アンビソニックオーディオ信号及びハイブリッドアンビソニックオーディオ信号のうちの少なくとも1つを含むことを任意に含む。
【0373】
実施例237では、実施例233~236のいずれか1つ又は2つ以上の主題が、複数の空間オーディオ信号サブセットのうちの少なくとも1つがマトリクス符号化オーディオ信号を含むことを任意に含む。
【0374】
実施例238では、実施例237の主題が、マトリクス符号化オーディオ信号が保存された高度情報を含むことを任意に含む。
【0375】
実施例239では、実施例214~238のいずれか1つ又は2つ以上の主題が、信号形成出力を生成するステップが時間周波数ステアリング分析にさらに基づくことを任意に含む。
【0376】
上記の詳細な説明は、詳細な説明の一部を成す添付図面の参照を含む。図面には、特定の実施形態を一例として示す。本明細書では、これらの実施形態を「実施例」とも呼ぶ。このような実施例は、図示又は説明した要素以外の要素を含むこともできる。さらに、本主題は、本明細書で図示又は説明した特定の実施例(或いはその1又は2以上の態様)又は他の実施例(或いはその1又は2以上の態様)に関して図示又は説明した要素(或いはその1又は2以上の態様)のあらゆる組み合わせ又は置換を含むこともできる。
【0377】
本文書における「1つの(英文不定冠詞)」という用語の使用は、特許文書でよく見られるように、他のいずれかの例、或いは「少なくとも1つ(at least one)」又は「1又は2以上(one or more)」の使用とは関係なく1つ又は複数のものを含む。本文書における「又は(or)」という用語の使用は非排他的なorを示し、従って「A又はB」は、別途指示がない限り、「AであるがBではない」、「BであるがAではない」、並びに「A及びB」を含む。本文書における「含む(including)」及び「において(in which)」という用語は、「備える(comprising)」及び「において(wherein)」というそれぞれの用語の分かり易い英語の同等表現として使用するものである。また、以下の特許請求の範囲における「含む(including)」及び「備える(comprising)」という用語は包括的なものであり、すなわち特許請求の範囲においてこのような用語の後に列挙される要素以外の要素を含むシステム、装置、物品、構成、定式化又は方法もその特許請求の範囲に含まれると見なされる。さらに、以下特許請求の範囲における「第1の」、「第2の」及び「第3の」などの用語は単にラベルとして使用しているものであり、これらの対象に数字的要件を課すものではない。
【0378】
上記の説明は例示であり、限定的なものではない。例えば、上述した実施例(或いはその1又は2以上の態様)は互いに組み合わせて使用することもできる。上記の説明を再考察すれば、当業者などは他の実施形態を使用することもできる。要約書は、技術的な開示の性質を読者が素早く確認できるように示すものである。要約書は、特許請求の範囲又はその意味を解釈又は限定するために使用されるものではないという了解の下で提出するものである。上記の詳細な説明では、本開示を簡素化するために様々な特徴をグループ化していることがある。これについて、特許請求の範囲に記載していない開示する特徴がいずれかの請求項に必須であることを意図するものであると解釈すべきではない。むしろ、本主題は、開示した特定の実施形態の全ての特徴より少ないものによって成立する。従って、以下特許請求の範囲は、各請求項が別個の実施形態として自立した状態で詳細な説明に組み込まれ、このような実施形態は、様々な組み合わせ又は置換で互いに組み合わせることができるように企図される。本発明の範囲は、添付の特許請求の範囲、並びにこのような特許請求の範囲が権利を有する同等物の完全な範囲を参照して決定されるべきものである。