(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-02-08
(54)【発明の名称】深度による空間オーディオキャプチャ
(51)【国際特許分類】
G10L 19/008 20130101AFI20230201BHJP
H04R 3/00 20060101ALI20230201BHJP
G10L 19/00 20130101ALI20230201BHJP
【FI】
G10L19/008 100
H04R3/00 320
G10L19/008 200
G10L19/00 330B
【審査請求】有
【予備審査請求】有
(21)【出願番号】P 2022521620
(86)(22)【出願日】2019-10-10
(85)【翻訳文提出日】2022-06-09
(86)【国際出願番号】 US2019055693
(87)【国際公開番号】W WO2021071498
(87)【国際公開日】2021-04-15
(81)【指定国・地域】
(71)【出願人】
【識別番号】503206684
【氏名又は名称】ディーティーエス・インコーポレイテッド
【氏名又は名称原語表記】DTS,Inc.
(74)【代理人】
【識別番号】100094569
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【氏名又は名称】西島 孝喜
(74)【代理人】
【識別番号】100109335
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【氏名又は名称】那須 威夫
(74)【代理人】
【識別番号】100122563
【氏名又は名称】越柴 絵里
(72)【発明者】
【氏名】シュタイン エドワード
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220BA06
5D220BC05
(57)【要約】
空間オーディオ信号は、複数の異なる深度の各々でそれぞれに符号化及びレンダリングすることができるオーディオオブジェクトを含むことができる。1つの例では、空間オーディオ信号を符号化する方法は、環境におけるオーディオキャプチャソースからのオーディオシーン情報を受信するステップ、及び環境における第1オブジェクトの深度特性を受信するステップを含むことができる。深度特性は、深度センサからの情報を用いて決定することができる。オーディオシーン情報の少なくとも一部と第1オブジェクトの間の相関関係を識別することができる。空間オーディオ信号は、オーディオシーンの一部と第1オブジェクトの深度特性を用いて符号化することができる。
【選択図】
図5
【特許請求の範囲】
【請求項1】
環境におけるオーディオキャプチャソースからオーディオシーン情報を受信するステップと、
前記受信したオーディオシーンにおいて少なくとも1つのオーディオ成分を識別するステップと、
深度センサから、前記環境における1又は2以上のオブジェクトに関する深度特性情報を受信するステップと、
前記識別された少なくとも1つのオーディオ成分及び前記深度特性情報に基づいて空間オーディオ信号を符号化するステップと、
を含む方法。
【請求項2】
前記少なくとも1つのオーディオ成分は、前記受信したオーディオシーン情報の時間-周波数表現に対する信号寄与に関する情報を用いて決定される、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記オーディオキャプチャソースに対して、前記少なくとも1つのオーディオ成分の第1方向及び基準深度を決定するステップを更に含む、
ことを特徴とする請求項1に記載の方法。
【請求項4】
前記深度センサからの前記深度特性情報の少なくとも一部が前記少なくとも1つのオーディオ成分に対応するという信頼度を決定するステップと、
前記決定された信頼度を用いて前記識別された少なくとも1つのオーディオ成分の第1深度特性を提供するステップと、
を更に含み、
前記空間オーディオ信号を符号化するステップは、前記第1深度特性を用いるステップを含む、
ことを特徴とする請求項3に記載の方法。
【請求項5】
前記第1深度特性を提供するステップは、
前記信頼度が高い時に、前記深度センサからの情報に基づいて前記第1深度特性を提供するステップと、
前記信頼度が低い時に、前記基準深度として前記第1深度特性を提供するステップと、
前記信頼度が中間である時に、前記基準深度と前記深度センサを用いて決定された深度との間にある深度として前記第1深度特性を提供するステップと、
を含む、
ことを特徴とする請求項4に記載の方法。
【請求項6】
前記信頼度を決定するステップは、コンピュータビジョンプロセッサを用いて、前記環境において識別されたオブジェクトを分類し、更に前記少なくとも1つのオーディオ成分が、前記分類されたオブジェクトの少なくとも1つからのオーディオを含むか又は含む可能性があるかどうかを決定するステップを含む、
ことを特徴とする請求項4に記載の方法。
【請求項7】
前記深度特性情報は、それぞれの深度及び方向特性を備えた複数のオブジェクトに関する情報を含み、
前記信頼度を決定するステップは、前記識別された少なくとも1つのオーディオ成分が前記複数のオブジェクトの特定のオブジェクトに対応するという信頼度を決定するステップを含む、
ことを特徴とする請求項4に記載の方法。
【請求項8】
前記信頼度を決定するステップは、
前記深度センサからの前記深度特性情報において1又は2以上のデータクラスタを識別するステップと、
前記少なくとも1つのオーディオ成分の第1方向を前記識別された1又は2以上のデータクラスタに相関付けるステップと、
を含む、
ことを特徴とする請求項4に記載の方法。
【請求項9】
前記深度センサから、それぞれの深度の大きさ及び深度方向特性を備えた複数のオブジェクトに関する深度特性情報を受信するステップと、
前記複数のオブジェクトに対して、前記深度特性情報が前記少なくとも1つのオーディオ成分に対応するというそれぞれの信頼度指標を決定するステップと、
前記それぞれの信頼度指標に基づいて組み合わせ深度特性を決定するステップと、
を更に含み、
前記空間オーディオ信号を符号化するステップは、前記組み合わせ深度特性を用いるステップを含む、
ことを特徴とする請求項3に記載の方法。
【請求項10】
前記空間オーディオ信号を符号化するステップは、前記オーディオシーン及び前記深度特性情報に基づいて深度拡張アンビソニック信号を符号化するステップを含む、
ことを特徴とする請求項1に記載の方法。
【請求項11】
オーディオキャプチャソースから前記オーディオシーン情報を受信するステップは、マルチトランスデューサマイクロフォン、音場マイクロフォン、マイクロフォンアレイ、及びアンビソニックマイクロフォンの1又は2以上から前記オーディオシーン情報を受信するステップを含む、
ことを特徴とする請求項1に記載の方法。
【請求項12】
前記深度特性情報を受信するステップは、前記環境における第1オブジェクトの動きを示す第1オブジェクトに関する時間変化深度特性情報を受信するステップを含み、
前記空間オーディオ信号を符号化するステップは、前記オーディオシーン及び前記時間変化深度特性情報に基づくようにするステップを含む、
ことを特徴とする請求項1に記載の方法。
【請求項13】
画像ベースのオブジェクト分類子を用いて前記環境における前記1又はそれ以上のオブジェクトの第1オブジェクトの分類を決定するステップを更に含み、
前記空間オーディオ信号を符号化するステップは、前記オーディオシーン情報の第1部分が、前記分類に基づく前記第1オブジェクトからのオーディオ情報を含むこと、又は含む可能性があることの決定が条件付けられる、
ことを特徴とする請求項1に記載の方法。
【請求項14】
前記オーディオシーン情報の第1部分が、前記第1オブジェクトの分類に関連付けられるオーディオ周波数コンテンツ及び前記オーディオ情報のオーディオ周波数コンテンツに基づく前記第1オブジェクトからのオーディオ情報を含むかどうか、又は含む可能性があるかどうかを決定するステップを更に含む、
ことを特徴とする請求項13に記載の方法。
【請求項15】
前記深度特性情報を受信するステップは、3次元ビデオキャプチャシステム、ステレオカメラ、又はレーザもしくは赤外線プローブ信号の飛行時間情報を測定するように構成されたアクティブ深度プローブの1又は2以上からの情報を分析するステップを含む、
ことを特徴とする請求項1に記載の方法。
【請求項16】
システムであって、
環境におけるオーディオシーンを取り込むように構成されたオーディオキャプチャソースと、
前記環境における1又は2以上のオブジェクトに関する深度特性情報を提供するように構成された深度センサと、
プロセッサ回路と、
を備え、
前記プロセッサ回路が、
前記オーディオシーンにおいて、第1方向と前記オーディオキャプチャソースに対する基準深度とを有する少なくとも1つのオーディオ成分を識別し、
前記オーディオシーンにおける前記識別された少なくとも1つのオーディオ成分及び提供された前記深度特性情報に基づいて空間オーディオ信号を符号化する、
ように構成されている、
ことを特徴とするシステム。
【請求項17】
前記オーディオキャプチャソースは、マルチトランスデューサマイクロフォン、音場マイクロフォン、マイクロフォンアレイ、及びアンビソニックマイクロフォンの1又は2以上を含む、
ことを特徴とする請求項16に記載のシステム。
【請求項18】
前記深度センサは、レーザ、変調光源、ステレオカメラ、深度プローブ、赤外線センサ、及びカメラアレイの1又は2以上を含む、
ことを特徴とする請求項16に記載のシステム。
【請求項19】
前記プロセッサ回路は、前記第1オブジェクトの前記オーディオシーン及び前記深度特性に基づいて深度拡張アンビソニック信号として前記空間オーディオ信号を符号化するよう構成される、
ことを特徴とする請求項16に記載のシステム。
【請求項20】
前記深度センサは、前記環境における複数のオブジェクトの深度情報を提供するよう構成され、
前記プロセッサ回路は、前記複数のオブジェクトの選択されたオブジェクトに関する深度情報を用いて前記空間オーディオ信号を符号化するよう構成される、
ことを特徴とする請求項16に記載のシステム。
【請求項21】
前記深度センサは、前記環境における複数のオブジェクトの深度情報を提供するよう構成され、
前記プロセッサ回路は、前記複数のオブジェクトに関する深度情報の加重組み合わせを用いて前記空間オーディオ信号を符号化するよう構成される、
ことを特徴とする請求項16に記載のシステム。
【請求項22】
前記プロセッサ回路は、前記オーディオシーンからの情報が前記環境における前記1又は2以上のオブジェクトの中から第1オブジェクトに対応するという信頼度を決定するよう構成され、
前記プロセッサ回路は、指定された信頼度閾値に一致するか又はこれを超える前記決定された信頼度に基づいて前記空間オーディオ信号を符号化するよう構成される、
ことを特徴とする請求項16に記載のシステム。
【請求項23】
前記深度センサは、前記深度センサからの情報において識別された1又は2以上のデータクラスタからの情報を用いて前記1又は2以上のオブジェクトの深度特性を決定するよう構成される、
ことを特徴とする請求項16に記載のシステム。
【請求項24】
前記1又は2以上のオブジェクトの分類を決定するように構成されたオブジェクト分類子回路を更に備え、
前記プロセッサ回路は、前記オブジェクトの分類と前記少なくとも1つのオーディオ成分との間の対応を決定するよう構成され、
前記プロセッサ回路は、閾値対応条件を満足させる前記決定された対応の値に基づいて前記空間オーディオ信号を符号化するよう構成される、
ことを特徴とする請求項16に記載のシステム。
【請求項25】
オーディオ信号符号器デバイスであって、
プロセッサ及び該プロセッサに動作可能に結合された非一時的コンピュータ可読媒体を備え、
前記非一時的コンピュータ可読媒体は、関連付けられて格納され、前記プロセッサにアクセス可能で且つ前記プロセッサによって実行可能である命令を含み、
前記命令は、
実行された時に、環境におけるオーディオキャプチャソースからオーディオシーンを受信する命令と、
実行された時に、前記オーディオシーンにおける複数の異なるオーディオ成分の中から前記オーディオシーンにおける第1オーディオ成分を識別する命令と、
実行された時に、前記環境における1又は2以上のオブジェクトに関する深度情報を含む前記環境に関する画像情報を受信する命令と、
実行された時に、ニューラルネットワークに基づく分類子を用いて前記1又は2以上のオブジェクトから第1オブジェクトを分類する命令と、
実行された時に、前記第1オブジェクトに関連付けられる予想されるオーディオ特性を識別する命令と、
実行された時に、前記予想されるオーディオ特性が前記オーディオシーンにおいて識別された前記第1オーディオ成分に対応するかどうかを決定する命令と、
を含む、
オーディオ信号符号器デバイス。
【請求項26】
実行された時に、空間オーディオ信号を条件的に符号化する命令を更に含み、
前記命令は、実行された時に、
前記予想されるオーディオ特性が前記オーディオシーンにおいて識別された前記第1オーディオ成分に対応する時に、前記環境における前記第1オブジェクトに関する深度情報に基づいて前記空間オーディオ信号を符号化し、
前記予想されるオーディオ特性が前記オーディオシーンにおいて識別された第1オーディオ成分に対応しない時に、基準深度に基づいて前記空間オーディオ信号を符号化する命令を含み、
前記基準深度は、前記オーディオキャプチャソース及び/又は前記環境の特性である、
ことを特徴とする請求項25に記載のオーディオ信号符号器デバイス。
【請求項27】
実行された時に、前記第1オーディオ成分を用いて及び前記環境における前記第1オブジェクトに関する深度情報を用いて空間オーディオ信号を符号化する命令を更に含む、
ことを特徴とする請求項25に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
マイクロフォン及びカメラをそれぞれに含むことができるか用いることができるオーディオ及びビデオキャプチャシステムなどは、環境内の同一場所に位置付けることができ且つ環境からのオーディオビジュアル情報を取り込むよう構成することができる。取り込まれたオーディオビジュアル情報を、要求に応じて記録、送信、及び再生することができる。1つの例では、オーディオビジュアル情報を、空間オーディオフォーマット及び多次元ビデオ又は画像フォーマットなどを用いる没入型フォーマットで取り込むことができる。
【背景技術】
【0002】
1つの例では、オーディオキャプチャシステムは、環境からオーディオ情報を受信するためのマイクロフォン、マイクロフォンアレイ、又は1又は2以上のトランスデューサを含む他のセンサを含むことができる。オーディオキャプチャシステムは、3次元又は360度の音場を取り込むように構成されたアンビソニックマイクロフォンなどの空間オーディオマイクロフォンを含むことができるか又は用いることができる。
【0003】
1つの例では、ビデオキャプチャシステムはシングルレンズカメラ又はマルチレンズカメラシステムを含むことができる。1つの例では、ビデオキャプチャシステムは、没入型ビデオ又は球面ビデオと呼ばれることもある360度ビデオ情報を受信するよう構成することができる。360度ビデオでは、複数の方向からの画像情報を受信することができ且つ同時に記録することができる。1つの例では、ビデオキャプチャシステムは、本システムの視野における1又は2以上のオブジェクトの深度情報を検出するように構成された深度センサを内包するか又は包含することができる。
【0004】
様々なオーディオ記録フォーマットは、記録における3次元オーディオキューを符号化することができる。3次元オーディオフォーマットはアンビソニックス及び高設のラウドスピーカチャネルを含む離散的マルチチャネルオーディオフォーマットを含む。1つの例では、マルチチャネルデジタルオーディオ信号のサウンドトラック成分にダウンミックスを含めることができる。ダウンミックスは後方互換性があるものとでき、且つレガシー復号器によって復号し且つ既存の又は従来の再生機器で再生することができる。ダウンミックスは、レガシー復号器によって無視されることがあるが非レガシー復号器によって用いられることがある1又は2以上のオーディオチャネルを備えたデータストリーム拡張を含むことができる。例えば、非レガシー復号器は、追加のオーディオチャネルを回復する、後方互換性ダウンミックスにおけるこれらの寄与を取り去り、且つ次に目標空間オーディオフォーマットで追加のオーディオチャネルをレンダリングすることができる。
【0005】
1つの例では、サウンドトラックが意図される目標空間オーディオフォーマットを、符号化又は作成段階で指定することができる。この方式は、レガシーサラウンドサウンド復号器と互換性のあるデータストリームの形態及び符号化又は作成段階中にも選択された1又は2以上の代替の目標空間オーディオフォーマットでのマルチチャネルオーディオサウンドトラックの符号化を可能にする。これらの代替の目標フォーマットは、3次元オーディオキューの改良された再生に適したフォーマットを含むことができる。しかしながら、この方式の1つの制限は、別の目標空間オーディオフォーマットに対して同じサウンドトラックを符号化することが、新しいフォーマットにミックスされるサウンドトラックの新しいバージョンを記録及び符号化するために作成設備に戻ることを必要とする可能性があることである。
【0006】
オブジェクトベースのオーディオシーンコーディングは目標空間オーディオフォーマットとは独立したサウンドトラック符号化の一般的な解決策を提供する。オブジェクトベースのオーディオシーンコーディングシステムの例がMPEG-4アドバンスドオーディオバイナリフォーマットフォーシーン(AABIFS)である。この方式では、ソース信号の各々が、レンダーキューデータストリームと共に個々に送信される。このデータストリームは空間オーディオシーンレンダリングシステムのパラメータの時間変化値を運ぶ。このパラメータのセットは、フォーマット独立オーディオシーン記述の形態で提供することができ、これによってこのフォーマットに従ってレンダリングシステムを設計することによって何れの目標空間オーディオフォーマットでもサウンドトラックをレンダリングすることができる。各ソース信号は、それに関連付けられるレンダーキューと組み合わさって、「オーディオオブジェクト」を定義することができる。この方式は、レンダラーが正しい空間オーディオ合成技術を実施して再生側で選択された何れの目標空間オーディオフォーマットでも各オーディオオブジェクトをレンダリングするのを可能にする。オブジェクトベースのオーディオシーンコーディングシステムはまた、リミックス、音楽再演奏(例、カラオケ)、又はシーン内の仮想ナビゲーション(例、ビデオゲーム)を含む復号段階のレンダリングされたオーディオシーンの対話型修正を可能にする。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】米国特許第9,973,874号明細書
【特許文献2】国際際特許出願PCT/US2019/40837
【特許文献3】米国特許出願第16/212,387号明細書
【特許文献4】米国特許第9,973,784号明細書
【特許文献5】米国特許第10,231,073号明細書
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明者らは、解決されるべき問題が深度定量化空間オーディオフォーマットへの音場情報の取り込みを含むことを認識している。例えば、本発明者らは、異なる深度からの信号を補間又はミキシングすることなどによって、空間オーディオ信号が、遠視野又は全指向性成分、近視野成分、及び中間視野からの情報を含むことができることが分かった。例えば、指定された近視野と遠視野の間の空間領域でシミュレートされる聴覚事象は2つの深度間をクロスフェードすることによって生成することができる。
【0009】
問題は、例えば、深度情報のない音場マイクロフォンを用いて取り込まれたオーディオシーン情報を含むことがある。このような取り込まれたオーディオシーン情報は、一般的には、汎用又は非特定「音場」に定量化され且つ次に遠視野情報としてレンダリング又は符号化される。このような情報を受信する復号器は、近視野と遠視野ソースの間を区別するよう構成できず、更に近視野レンダリングを利用又は用いることができない。例えば音場マイクロフォンを用いて取り込まれた一部の情報は、近視野情報を含むことがある。しかし、深度情報がオーディオシーン情報と共に符号化されない場合、次に近視野情報は、遠視野、又は他の基準音場、又はデフォルト深度に格下げされることがある。
【課題を解決するための手段】
【0010】
音場キャプチャ又はオーディオキャプチャの問題に対する解決策は、環境に関する音響情報及び視覚情報をほぼ同時に受信するためにオーディオセンサと共に深度センサを用いる段階を含むことができる。深度センサは、中でも、3次元深度カメラ、又は2次元画像センサ又は処理能力を備えた複数のセンサを含むことができる。深度センサは、環境における1又は2以上のオブジェクトに関する情報をレンダリング又は提供することができる。オーディオセンサは、環境からの音響情報を感知することができる1又は2以上のマイクロフォン要素を含むことができる。1つの例では、この解決策は、深度センサ及びオーディオセンサからの情報を組み合わせて空間オーディオ信号を提供するように構成されたシステム又は符号器を含む。この空間オーディオ信号は1又は2以上のオーディオオブジェクトを含むことができ更にオーディオオブジェクトはそれぞれの深度特性を有することができる。
【0011】
この要約は、本特許出願の主題の概要を提供するものとする。この要約は、本発明の排他的又は網羅的な説明を提供するものではない。詳細な説明は、本特許出願に関する詳しい情報を提供するために含まれる。
【0012】
何れかの特定の要素又は動作の論議の識別を容易にするために、参照番号における1又は2以上の最上位桁は、この要素が最初に導入された図の番号を指す。
【図面の簡単な説明】
【0013】
【
図1A】リスナーに対するオーディオソース又はオブジェクト位置を示す略図である。
【
図1B】リスナーに対するオーディオソース又はオブジェクト位置を示す略図である。
【
図1C】リスナーに対するオーディオソース又はオブジェクト位置を示す略図である。
【
図2A】環境に関するオーディオ情報及び視覚情報を受信するように構成されたシステムの例を一般的に示す図である。
【
図2B】環境のオブジェクト識別及び深度分析の例を一般的に示す図である。
【
図3】環境からの情報がどのように様々な深度に定量化されるかを一般的に示す例である。
【
図4】空間オーディオキャプチャ及び符号化のシステムのブロック図の例を一般的に示す図である。
【
図5】空間オーディオ信号を符号化するステップを含むことができる第1の方法の例を一般的に示す図である。
【
図6】相関関係情報に基づいて空間オーディオ信号を符号化するステップを含むことができる第2の方法の例を一般的に示す図である。
【
図7】オーディオシーン情報が指定されたオブジェクトに対応する信頼度指標を提供するステップを含むことができる第3の方法の例を一般的に示す図である。
【
図8】オーディオ信号特性とオーディオシーンに関して受信された情報の間の対応を決定するステップを含むことができる第4の方法の例を一般的に示す図である。
【
図9】本明細書で論議される方法の何れか1つ又はそれ以上を機械に実行させるために命令のセットを実行することができるコンピュータシステムの形態における機械を一般的に示す図である。
【発明を実施するための形態】
【0014】
オーディオビジュアルプログラム情報をコーディネートするような空間オーディオ信号処理を実行するシステム、方法、装置、及びデバイスの例を含む以下の説明では、詳細な説明の一部を形成する添付の図面を参照されたい。図面は、本明細書で開示する本発明を実施することができる特定の実施形態を例として示す。これらの実施形態は、本明細書では「実施例」として一般的に示される。このような実施例は、図示又は説明されたものに加えて要素を含むことができる。しかし、本発明者らは、図示又は説明する要素だけが提供される実施例も意図する。本発明者らは、特定の実施例(又はこれらの1又は2以上の態様)に関して、又は本明細書に図示又は記述される他の実施例(又はこれらの1又は2以上の態様)に関しての何れかで、図示又は記述するこれらの要素(又はこれらの1又は2以上の態様)の何れの組み合わせ又は入れ替えも用いた実施例を意図する。
【0015】
本主題はオーディオ信号(すなわち、物理的な音を表す信号)の処理に関する。これらのオーディオ信号は一般的にはデジタル電子信号によって表される。本明細書で用いる「オーディオ信号」という語句は、物理的な音を表す信号を含むことができる。本明細書に記述するオーディオ処理システム及び方法は、様々なフィルタを用いてオーディオ信号を使用又は処理するように構成されたハードウェア回路及び/又はソフトウェアを含むことができる。一部の例では、本システム及び方法は、複数のオーディオチャネルからの信号、又は複数のオーディオチャネルに対応する信号を用いることができる。1つの例では、オーディオ信号は、複数のオーディオチャネルに対応する情報を含むデジタル信号を含むことができる。本主題の一部の例は、時系列のデジタルバイト又はワードの文脈で作動することができ、ここでこれらのバイト又はワードはアナログ信号の離散的近似値又は最終的には物理的な音を形成する。離散的デジタル信号は、周期的にサンプルされたオーディオ波形のデジタル表現に対応する。
【0016】
本発明のシステム及び方法は環境キャプチャシステムを含むことができる。この環境キャプチャシステムは、1又は2以上のカメラ、深度センサ、マイクロフォン、又は環境をモニタするように構成された他のセンサを含む光学、視覚、又は聴覚センサなどを含むことができる。本システム及び方法は、環境からオーディオ情報を受信し且つ環境における物理的オブジェクトに関する距離又は位置情報を受信するよう構成することができる。本システム及び方法は、オーディオ情報、又はオーディオ情報の成分と、環境における物理的オブジェクトとの間の相関関係を識別するよう構成することができる。相関関係がオーディオオブジェクトと物理的オブジェクトの間に識別された時、次に基準位置に対する仮想距離又は位置に位置付けられ且つ物理的オブジェクトの1又は2以上に対応するオーディオソースなどを備えたオーディオオブジェクトのオーディオソースを含む空間オーディオ信号を符号化することができる。
【0017】
1つの例では、マイクロフォンから受信されたオーディオ情報又はオーディオ信号が音場からの情報を含むことができる。受信したオーディオ情報は、深度情報と共にほぼリアルタイムに符号化することができる。例えば、3次元深度カメラなどの深度センサからの情報をオーディオ情報と共に用いることができ、更にオーディオ情報を、方向又は深度大きさ情報などを含む深度特性と共に空間オーディオフォーマットに符号化することができる。
【0018】
1つの例では、深度と共に空間オーディオキャプチャを実行するシステムは、音場又はサウンドシーンを取り込むように構成されたマイクロフォンアレイ又は音場マイクロフォンを含むことができる。本システムは、センサの視野にある1又は2以上のオブジェクトの深度を決定又は推定するように構成された深度カメラ又は深度センサを含むことができ、更に複数の方向(例えば、上/下、左/右など)からの深度情報を受信するよう任意的に構成することができる。1つの例では、本システムは、深度センサから受信された深度又は距離情報によって取り込まれた音響情報を増補することができ、更に空間オーディオ信号における音響情報及び深度情報を符号化することができる。空間オーディオ信号は、起点又は基準位置に対するそれぞれの深度又は距離を持つ成分又はソースを含むことができる。
【0019】
1つの例では、深度センサからの情報は基準位置から又は基準方向から1又は2以上の物理的オブジェクト又は任意的オーディオソースへの方向に関する情報を含む。物理的オブジェクトに関する方向情報にオーディオオブジェクトを相関付けることができる。1つの例では、本明細書に記述する符号化された空間オーディオ情報は、近視野から遠視野に渡る基準頭部からの様々な距離で合成又は測定できる頭部伝達関数(HRTF)などを用いることができる。近視野より近い距離などの頭部の内側に拡張させるために追加の合成又は測定伝達関数を用いることができる。加えて、HRTFの各セットの相対的な距離に関する利得を遠視野HRTF利得に標準化することができる。
【0020】
図1A-1Cは、例示的オーディオソース又はオブジェクト位置に対する近視野及び遠視野の略図を一般的に示す。
図1Aは基準位置101に対するオーディオオブジェクト22の位置を示す第1
図100Aを含む。基準位置101は、第1
図100Aによって表される環境における基準ポイントとして用いられるリスナーの位置、マイクロフォンの位置、カメラ又は深度センサの位置、又は他の位置とすることができる。
図1A及び1Bの例では、半径R1が、遠視野に一致する基準位置101からの距離を表すことができ、更に半径R2が、近視野又は近視野の境界に一致する基準位置101からの距離を表すことができる。環境は、例えば以下に論じる
図1Cに示すように、2つより多い半径を用いて表すことができる。
【0021】
図1Bは、例えば球面表現21を用いて
図1Aの第1
図100Aの球面拡張を示す第2
図100Bを含む。
図1Bでは、オーディオオブジェクト22が、関連付けられる高さ特性23、及び接地平面上などへの関連付けられる投影特性25、関連付けられる仰角特性27、及び関連付けられる方位角特性29を有することができる。
図1A及び1Bの例では、HRTFの何れかの適切な数を半径Rnの全3D球面でサンプルすることができ、更に各共通半径HRTFセットでのサンプリングは同じである必要はない。
図1Cは、深度の任意の数に分割又は定量化された音場を示す第3
図100Cを含む。例えば、オブジェクト22を、遠視野位置、近視野位置、これらの間の何処か、又は近視野の内側又は遠視野を超えて位置付けることができる。
【0022】
図1A-1Cの例では、様々なHRTF(Hxy)が、基準位置101上に中心を置かれる半径R1及びR2の位置に示され、ここでxはリング番号又は半径を表し、更にyはリング上の位置を表す。このような位置的に関係付けられるHRTFを、「共通半径HRTFセット」と呼ぶことができる。例では、4つの位置加重が遠視野セットに示されており更に2つがコンベンションWxyを用いて近視野に示されており、ここでxはリング番号を表し更にyはリング上の位置を表す。インジケータWR1及びWR2は、共通半径HRTFセットの加重組み合わせにオブジェクト22を分解するために用いることができる半径加重を表す。例えば、オブジェクト22は、互いにレンダリングされた時に、要求される深度又は位置のオブジェクト22を提供する第1及び第2ソース20及び24の組み合わせを含むことができる。
【0023】
図1A及び1Bの例では、オーディオオブジェクトがリスナー位置に一致するような基準位置101を通過した場合に、リスナーの頭部の中心までの半径距離を測定することができる。この半径距離の境界を付ける2つの測定されたHRTFデータセットを識別することができる。各セットに対して、サウンドソース又はオブジェクト位置の要求される方位角及び仰角に基づいて適切なHRTFペア(例えば、同側及び対側)を導出することができる。各々の新しいHRTFペアの周波数反応を補間することによって最終的な組み合わせHRTFペアを決定することができる。この補間は、レンダリングされるサウンドソースの相対的距離及び各HRTFセットの実際の測定された距離に基づくことができる。レンダリングされるサウンドソースは導出されたHRTFペアによってフィルタすることができ更にリスナーの頭部までの距離に基づいて結果信号の利得を上げるか又は下げることができる。この利得は、サウンドソースがリスナーの耳の1つに近付いた場合の飽和を回避するために制限することができる。
【0024】
各HRTFセットは測定のセット又は水平面だけに作られる合成HRTFをスパンすることができるか又はリスナーの周囲のHRTF測定の全球面を表すことができる。加えて、各HRTFセットは、測定された半径距離に基づいて少ない又は多い数のサンプルを有することができる。
【0025】
様々な技術を用いて距離又は深度情報を持つオーディオ信号を生成することができる。例えば、全体が引用により本明細書に組み入れられる「6-DOFトラッキングを用いたオーディオレンダリング」という名称の米国特許第9,973,874号は、本明細書の
図2A-2Cの距離キューを備えたバイノーラルオーディオを生成する例を含み、更に本明細書の
図3A-3CのHRTFの決定及びHRTFペア間の補間の例を含む。
【0026】
1つの例では、近視野及び遠視野の両方においてオーディオオブジェクトをレンダリングするステップは、オブジェクトだけでなく、アンビソニックス、マトリックス符号化などを用いたアクティブステアリング/パンニングによって復号された何れの空間オーディオミックスの深度もレンダリングするのを可能にでき、更にこれによって6自由度(6-DOF)トラッキング及びレンダリングによるフル変換ヘッドトラッキング(例えば、ユーザの動き)を可能にする。深度情報を、例えば、キャプチャによって又はアンビソニックパンニングによって作成されたアンビソニックミックスに張り付けるための様々なシステム及び方法は、全体が引用により本明細書に組み入れられる「6-DOFトラッキングを用いたオーディオレンダリング」という名称の米国特許第9,973,874号において論じられており、更にこれらの一部の態様を本明細書に要約している。本技術は、一般的には例として第1次アンビソニックスを用いるが、第3次又は他の高次アンビソニックスに適用することができる。
【0027】
アンビソニックの基礎
マルチチャネルミックスが複数の着信信号からの寄与としてサウンドを取り込む場合、アンビソニックスは、単一ポイントから音場の全てのサウンドの方向を表す固定された信号のセットを取り込む又は符号化するステップを提供する。換言すると、同じアンビソニック信号を用いて、ラウドスピーカの何れの数でも音場を再レンダリングすることができる。マルチチャネルの場合、1つをチャネルの組み合わせから発生したソースの再生に制限することができる。例えば、高さチャネルが無い場合、次に高さ情報は送信されない。他方、アンビソニックスでは、全方向画像に関する情報を取り込み且つ送信することができ、制限は一般的に再生のポイントにだけ課せられる。
【0028】
大きくは関心のポイントの仮想マイクロフォンと考えることができる第1次(例えば、Bフォーマット)パンニング式のセットを考える。
W = S * 1/√2 、ここでW=単方向成分、
X = S * cos(θ) * cos(Φ)、ここでX=前に示される8の字、
Y = S * sin(θ) * cos(Φ)、ここでY=右に示される8の字、
Z = S * sin(Φ)、ここでZ=上に示される8の字、
及びSはパンニングされる信号である。
【0029】
これらの4つの信号(W、X、Y、及びZ)から、何れの方向に向けられた仮想マイクロフォンも生成することができる。従って、信号を受信する復号器は、レンダリングするために用いられるスピーカの各々に向けられた仮想マイクロフォンを再生成することができる。この技術は大きな程度まで働くが、場合によっては、反応を取り込むためにリアルマイクロフォンを用いることと同じである。この結果、復号された信号が各出力チャネルに対する要求された信号を有することができる場合、各チャネルはまた、一定の量の漏れを有するか又は「ブリード」が含まれることがあり、特に非均一スペーシングを有する場合、復号器レイアウトを最も良く表す復号器を設計するための一定の技術が存在する。
【0030】
復号がWXYZ指向性ステアリング信号の組み合わせ加重によって達成されるので、ヘッドトラッキングはこれらの種類の解決策によって支援することができる。Bフォーマットミックスを回転させるために、例えば、復号前にWXYZ信号を用いて回転マトリックスを適用することができ更に結果が適切に調節された方向に復号される。しかし、このような解決策は、変換(例えば、ユーザの移動又はリスナー位置の変更)を実施することができない。
【0031】
アクティブ復号拡張
漏れに対抗し且つ非均一レイアウトの性能を改良することが望ましい。Harpex又はDirACなどのアクティブ復号解決策は復号のための仮想マイクロフォンを形成しない。確かに、これらは音場の方向を調査し、信号を再作成し、更に詳細には信号を各時間-周波数に対して識別された方向にレンダリングする。これは復号の指向性を大いに改良すると同時に、各時間-周波数タイルが厳しい決定を用いるので方向性を制限する。DirACの場合、これは1つの時間-周波数当たり単一の方向仮定を行う。Harpexの場合、2つの方向波形を検出することができる。何れのシステムにおいても、復号器は方向性決定がどのようにソフト又はハードにあるべきかの制御を提供することができる。このような制御は本明細書では「フォーカス」のパラメータと呼ばれ、ソフトフォーカス、インナーパンニング、又は方向性の判定をやわらげる他の方法を可能にするための有用なメタデータパラメータとすることができる。
【0032】
アクティブ復号器の場合でも、距離又は深度を紛失関数とすることができる。方向がアンビソニックパンニング式で直接符号化される場合、ソース距離に関する情報はソース距離に基づくレベル又は残響率に対する単純変化を超えて直接符号化することはできない。アンビソニックキャプチャ及び復号シナリオでは、マイクロフォン「接近」又は「マイクロフォン近接性」に対するスペクトラル補償が存在することができるが、信号が方向性情報だけを運ぶことに制限されるので、これは、例えば2メートルで1つのソース及び4メートルの別のソースをアクティブに復号することはできない。実際、リスナーがスイートスポットに完全に位置付けられ全てのチャネルが等距離である場合、パッシブ復号器性能は、漏れがそれほど問題にならないという事実に頼る。これらの条件は意図された音場の再作成を最大化する。
【0033】
深度符号化
1つの例では、オーディオオブジェクトに関する深度又は距離情報は、オーディオソースに関する他の情報と共に符号化することができる。1つの例では、送信フォーマット又はパンニング式を修正又は拡張してコンテンツ作成中の深度インジケータの追加を支援することができる。ミックスにラウドネス及び残響変化などの深度キューを適用する方法とは異なり、本明細書で論じる方法は、ミックスにおけるソースに関する距離又は深度情報を測定又は回復するステップを含むことができるか又はこれを可能にすることができ、これによって製作側ではなく最終的な再生能力に対してレンダリングすることができる。異なるトレードオフを備えた様々な方法が、全体が引用によって本明細書に組み入れられる「6-DOFトラッキングを用いたオーディオレンダリング」という名称の米国特許第9,973,874号で論じられており、深度ベースのサブミキシング及び「D」チャネル符号化を含む。
【0034】
深度ベースのサブミキシングでは、メタデータに各ミックスを関連付けることができる。1つの例では、各ミックスに(1)ミックスの距離、及び(2)ミックスのフォーカス(例えばリスナーの頭部の内側のミックスが多すぎるアクティブステアリングによって復号されないように、ミックスをどのくらいシャープに復号しなければならないかの指示)に関する情報をタグ付けすることができる。他の実施形態は、より多い又は少ない反射を有するHRIRの選択(又はチューナブル反射エンジン)がある場合に使用する空間モデルを示すウェット/ドライミックスパラメータを用いることができる。好ましくは、例えば8チャネルミックスとして送信するのに追加のメタデータが必要ないように適切な仮定をレイアウトに関して行うことになり、従って既存のストリーム及びツールと互換性がある。
【0035】
「D」チャネル符号化では、アクティブ深度対応復号器は、指定されたステアリングチャネルDからの情報を用いることができる。深度チャネルを用いてアンビソニックミックスの有効深度に関する時間-周波数情報を符号化することができ、これは各周波数のサウンドソースの距離レンダリングのために復号器によって用いることができる。「D」チャネルは、1つの例では、0の値(起点の頭部にある)、近視野では実際に0.25、及び遠視野では完全にレンダリングされるソースに対して最大1として回復することができる標準化距離として符号化することができる。この符号化は、0dBFSなどの絶対値基準を用いることによって又は「W」チャネルなどの他のチャネルの1又は2以上の相対的大きさ及び/又は位相によって達成することができる。
【0036】
距離チャネルを符号化する別の方法は方向性分析又は空間分析を用いるステップを含むことができる。例えば、特定の周波数で検出されるサウンドソースが1つしかない場合、次にこのサウンドソースに関連付けられる距離又は深度を符号化することができる。特定の周波数で検出される1より多いサウンドソースがある場合、次にこれらのサウンドソースに関連付けられる距離の加重平均値などの組み合わせを符号化することができる。代替として、深度又は距離チャネルは、特定の時間フレームの各個々のサウンドソースの周波数分析を実行することによって符号化することができる。各周波数の距離は、この周波数の最優位サウンドソースに関連付けられる距離の通りに又はこの周波数のアクティブサウンドソースに関連付けられる距離の加重平均値の通りに符号化することができる。上述の技術は、Nチャネルの総数などに拡張する追加のDチャネルに拡張することができる。復号器が各周波数の複数のサウンドソース方向を支援できる場合、これらの複数の方向への距離の拡張を支援するために追加のDチャネルを含めることができる。
【0037】
深度レンダリング及びソース変換
本明細書で論じる距離レンダリング技術を用いてバイノーラルレンダリングにおける深度又は近接性の知覚を達成することができる。距離パンニングを用いて、2又は3以上の基準距離に渡ってサウンドソースを分散させることができる。例えば、遠及び近視野HRTFの加重バランスをレンダリングして目標深度を達成することができる。様々な深度のサブミックスを作成するためのこのような距離パナーの使用はまた、深度情報の符号化又は送信にも有用とすることができる。一般的には、サブミックスは各々、シーン符号化の同じ方向性を有する情報を含むか又は表すことができ、更に複数のサブミックスの組み合わせはこれらの相対的エネルギー分布を介して深度情報を明らかにする。このようなエネルギー分布は、例えば「近」及び「遠」などの関連性に対して均一に分配又は分類される深度の直接定量化を含むことができる。1つの例では、このようなエネルギー分布は基準距離に対する相対的ステアリング又は近さ又は遠さ、例えば遠視野ミックスの残りよりも近いものと理解されるある信号を含むことができる。
【0038】
オーディオビジュアルシーンキャプチャ及び空間オーディオ信号符号化
図2Aは、環境に関するオーディオ情報及び視覚情報を受信するように構成されたシステムの例を一般的に示す。
図2Bは、同じ環境に対するオブジェクト識別及び深度分析の例を一般的に示す。
【0039】
図2Aの例は様々な物理的オブジェクトを含むことができる第1環境210を含み且つ物理的オブジェクトの様々なオブジェクトはサウンドを発生又は生成することができる。物理的オブジェクトは、環境の起点に対して定義することができるそれぞれの座標又は位置などを有することができる。
図2Aの例では、起点が基準位置201に指定され、更に
図2Aの例では、基準位置201がセンサ位置に一致する。
【0040】
図2Aの例はオーディオキャプチャデバイス220及び深度センサ230を含む。オーディオキャプチャデバイス220及び/又は深度センサ230からの情報を様々な記録ハードウェア及びソフトウェアを用いてオーディオビジュアルプログラムとして同時に受信及び記録することができる。オーディオキャプチャデバイス220は、第1環境210からオーディオ情報を受信するように構成された、マイクロフォン、又はマイクロフォンアレイを含むことができる。1つの例では、オーディオキャプチャデバイス220は音場マイクロフォン又はアンビソニックマイクロフォンを含み更に3次元オーディオ信号フォーマットでオーディオ情報を取り込むよう構成される。
【0041】
深度センサ230は、1又は複数のレンズ又は画像受信機を有することができるカメラなどを含むことができる。1つの例では、深度センサ230は、360度カメラなどの大視野カメラを含む。オーディオビジュアルプログラムの一部として深度センサ230から受信又は記録された情報を用いて、ビューワがヘッドトラッキングシステム又は他のプログラムナビゲーションツール又はデバイスなどを用いる時に、ビューワが第1環境210を「ぐるりと見渡す」ことができる没入型又は対話型経験などをビューワに提供することができる。
【0042】
深度センサ230又はカメラから受信されたビデオ情報と同時にオーディオキャプチャデバイス220から受信することができるオーディオ情報などは、ビューワに提供することができる。全体が本明細書に引用により組み入れられる「非一致オーディオビジュアルキャプチャシステム」という名称の国際特許出願PCT/US2019/40837に記述されているようなオーディオ信号処理技術をオーディオキャプチャデバイス220から受信されたオーディオ情報に適用して、ビューワがプログラムをナビゲートする時にオーディオ情報がビューワの位置又は見る方向の変化を追跡できるようにする。
【0043】
深度センサ230は様々な方法で又は様々なデバイスを用いて実施することができる。1つの例では、深度センサ230は、第1環境210の視野の深度画像を取り込み更に深度画像から深度マップを提供又は決定するように構成された3次元深度センサを含む。深度マップは、1又はそれ以上の表面又はオブジェクト距離に関する情報を含むことができる。1つの例では、深度センサ230は、入射光を受信し且つ第1環境210に関する画像情報を取り込むように構成された1又はそれ以上の2次元画像センサを含み、且つプロセッサ回路を用いてこの画像情報を処理しオブジェクト及び関連付けられる深度情報を識別することができる。深度センサ230は、例えば、レーザ、構造光、飛行時間、立体鏡、又は他のセンサ技術を用いて第1環境210に関する深度情報を取り込むデバイスを含むことができる。
【0044】
1つの例では、深度センサ230は送信機及び受信機を備えたシステムを含むことができ、更にアクティブサンプリング技術を用いてオブジェクト深度を決定するよう構成することができる。例えば、送信機は、信号を発信して、更にバウンスバック信号に関するタイミング情報を用いて、例えば環境のポイントクラウド表現を確立することができる。深度センサ230は、環境から及び様々な視野からの情報を同時に受信することができるパッシブセンサなどの2又はそれ以上のセンサを含むか又は用いることができる。受信したデータ又は画像における視差を用いて、環境における様々なオブジェクトに関する深度情報を決定することができる。1つの例では、深度センサ230は、クラスタリング及びオブジェクト識別に用いることができるデータセットをレンダリングするよう構成することができる。例えば、データが共通の深度の比較的大きな連続平面を指示する場合、次にオブジェクトを共通深度で識別することができる。他の技術も同様に用いることができる。
【0045】
図2Aの例では、第1環境210は基準位置201に対するそれぞれの様々な深度の様々なオブジェクトを含む。第1環境210は、サウンドを生成又は作成できる一部のオブジェクト及び生成又は作成できない他のオブジェクトを含む。例えば、第1環境210は、キイキイ鳴くアヒルのおもちゃなどの第1オブジェクト211、及び吠えるライオンのおもちゃなどの第2オブジェクト212を含む。第1環境210は、カラーパネル、ボックス、キャニスタなどの他のオブジェクトを含むことができる。
【0046】
図2Bは、基準位置201、深度センサ230、及び文脈に対して例として含まれるオーディオキャプチャデバイス220による、第1環境210の深度マップ250表現を一般的に示す。深度マップ250は、基準位置201に対して近くの表面又は小さい深度に属するものとしてこれらのオブジェクトを示すために明るい色で第1環境210からの物理的オブジェクトの一部を示す。深度マップ250は、基準位置201に対して離れた表面又は大きな深度に属するものとしてこれらの他のオブジェクトを示すために暗い色で第1環境201からの物理的オブジェクトの他のオブジェクトを示す。
図2Bの例では、第1オブジェクト211は、これらの相対的偽カラー(グレースケール)表現によって指示されるように、第2オブジェクト212よりも基準位置201に近いと識別又は決定される。
【0047】
1つの例では、第1環境210に関するオーディオ又は音響情報はオーディオキャプチャデバイス220を用いて受信することができる。例えば、オーディオキャプチャデバイス220は、環境から高周波短期持続時間「SQUEAK!(キイキイ鳴く)」サウンド及び低周波長期持続時間「ROAR!(吠える)」サウンドを受信することができる。オーディオキャプチャデバイス220及び深度センサ230に結合することができるプロセッサ回路などが、オーディオキャプチャデバイス220からオーディオ情報を受信することができ且つ深度センサ230から深度マップ情報を受信することができる。以下に論じる
図4の例からのプロセッサ回路410を含むプロセッサ回路などが、オーディオ情報と深度情報の間の相関関係を識別することができる。識別された相関関係に基づいて、プロセッサ回路は、本明細書で論じるシステム又は方法の1又はそれ以上などを用いて、それぞれの異なる深度のオーディオオブジェクトに関する情報と共に空間オーディオ信号を符号化することができる。
【0048】
図3は、第1環境210からの情報が異なる深度にどのように定量化できるかを示す定量化例300を一般的に示す。
図3の例では、基準位置201が音場の起点に対応する。
図3に指示した見る方向は、
図2A又は2Bに指示された見る方向に対応することができる。図示した例では、見る方向が基準位置201の右になる。
【0049】
定量化例300は、基準位置201に対して遠視野深度又は第1半径R1に一致する位置にマップされた第2オブジェクト212を示す。すなわち、第2オブジェクト212が、深度センサ230からの深度マップ又は他の情報を用いて決定できるような基準位置201からの距離R1にあると決定された時に、オーディオキャプチャデバイス220を用いて受信することができるような第2オブジェクト212からのサウンドは、遠視野信号として符号化することができる。1つの例では、第2オブジェクト212は半径又は球面座標などの座標によって指示できる位置を有することができ、更に基準位置201から又は見る方向などの基準方向からの距離及び角度(例えば、方位角及び/又は仰角を含む)に関する情報を含むことができる。
図3の例では、第2オブジェクト212は、半径R1、0°の方位角、及び0°の仰角によって定められる位置を有することができる(
図3の例は「仰角」平面を示していない)。
【0050】
定量化例300は、中間深度にマップされた第1オブジェクト211、又は遠視野深度又は第1半径R1より小さく且つ近視野深度又はR
Nより大きな半径R2を示す。すなわち、オーディオキャプチャデバイス220を用いて受信することができるような第1オブジェクト211からのサウンドは、第1オブジェクト211が、深度マップ又は深度センサ230からの他の情報を用いて決定することができるような基準位置201から距離R2にあると決定された時などに、特定の又は指定された深度R2を有する信号として符号化することができる。1つの例では、第1オブジェクト211は、半径又は球面座標などの座標によって指定できる位置を有することができ、更に基準位置201から又は見る方向などの基準方向からの距離及び角度(例えば、方位角及び/又は仰角を含む)に関する情報を含むことができる。
図3の例では、第1オブジェクト211は、半径R2、α°の方位角、及び0°の仰角によって定められる位置を有することができる(
図3の例は「仰角」平面を示していない)。
【0051】
1つの例では、オーディオソース、又は仮想ソースを生成することができ、且つオーディオキャプチャデバイス220及び深度センサ230からの情報を用いて符号化することができる。例えば、深度センサ230が基準位置201に対して距離(又は半径)R2及び見る方向に対して角度α°のオブジェクトを示す場合、次に第1空間オーディオ信号を提供することができ更に第1空間オーディオ信号はR2及び角度α°に位置付けられるオーディオキャプチャデバイス220(例えば、オーディオオブジェクト又は仮想ソース)からのオーディオ信号情報を含むことができる。深度センサ230が距離(又は半径)R1及び方位角0°のオブジェクトを指示する場合、次に第2空間オーディオ信号を提供することができ、更に第2空間オーディオ信号は半径R1及び方位角0°に位置付けられたオーディオキャプチャデバイス220からのオーディオ信号情報を含むことができる。
【0052】
1つの例では、深度センサ230からの情報は、1又は複数のオブジェクトが環境に同時に存在するかどうか指示することができる。様々な技術を用いて、あるとすればオーディオキャプチャデバイス220からのオーディオ情報のどれがそれぞれのオブジェクトの1又はそれ以上に対応するか決定することができる。例えば、深度センサ230からの情報を用いて決定されるような経時的な物理的オブジェクトの動きに関する情報を、オーディオ情報の変化に相関付けることができる。例えば、環境の1つの側から別の側に移動する物理的オブジェクトが観察され且つオーディオ情報の少なくとも一部が環境の同じ側から他の側に移動した場合、次に物理的オブジェクトとオーディオ情報の一部の間に相関関係を見付けることができ、更にオーディオ情報に移動する物理的オブジェクトの深度に対応する深度を割り当てることができる。1つの例では、オーディオ情報に関連付けられる深度情報が、物理的オブジェクトの動きと共に経時的に変化することがある。様々な閾値条件又は学習されたパラメータを用いて偽陽性相関関係の発見を低減することができる。
【0053】
1つの例では、分類子回路又はソフトウェア実施分類子モジュールを用いて物理的オブジェクトを分類することができる。例えば、分類子回路は環境に関する深度センサ230からの画像情報を処理するように構成されたニューラルネットワーク又は他のレコグナイザ回路を含むことができるか、又は同じ環境に関する画像情報を受信するように構成された画像キャプチャデバイスからの画像情報を処理することができる。1つの例では、様々なオブジェクトを認識し更にこのようなオブジェクトに関連付けられるそれぞれの音響プロファイルに関する情報を提供するよう分類子回路を構成することができる。1つの例では、音響プロファイルは、特定のオブジェクトに関連付けられることが公知であるか又は考えられているサウンドのオーディオ周波数、振幅、又は他の特性に関する情報を含むことができる。
図3の例では、分類子回路を用いて、アヒル又はキイキイ鳴くおもちゃとして第1オブジェクト211を認識し、更にこれに応じて「SQUEAK」サウンドの音響プロファイル(例えば、比較的高い周波数の情報を含み、短期持続時間を有し、更に過渡性の高いサウンド)に第1オブジェクト211からのサウンドを一般的に関連付けることができるという指示を提供することができる。同様に、分類子回路を用いて、ライオンとして第2オブジェクト212を認識し、更にこれに応じて「ROAR」サウンド(例えば、比較的低い周波数の情報を含み、持続時間が長く更に大きな振幅を有し且つ過渡性を抑制されたサウンド)の音響プロファイルに第2オブジェクト212からのサウンドを一般的に関連付けることができるという指示を提供することができる。1つの例では、空間オーディオ符号器回路は分類子回路に結合するか又はこれを含むことができ更に分類されたオブジェクトに関する情報を用いて入力オーディオ情報と環境における物理的オブジェクトの間の相関関係を識別することができる。
【0054】
図4は、オーディオキャプチャ及び空間オーディオ信号符号化のためのオーディオ符号器システム400のブロック図の例を一般的に示す。
図4の例は、空間オーディオ符号器回路又はモジュール、又はオブジェクト分類子回路又はモジュールを含むことができるプロセッサ回路410などを含むことができる。1つの例では、オーディオ符号器システム400のブロック図に従って構成された回路を用いて、それぞれの方向又は深度特性を有する1又は2以上の信号を符号化又はレンダリングすることができる。
図4は、信号の流れ及び処理の1つの例を表し、更に図示した機能的ブロック内又は間の他の相互接続又はデータ共有が許容される。同様に、処理ステップをモジュール間に再分配して、様々なプロセッサ回路アーキテクチャ又は最適化に対応することができる。
【0055】
1つの例では、オーディオ符号器システム400を用いて、オーディオキャプチャデバイス220を用いてオーディオ信号を受信し、深度センサ230を用いて物理的オブジェクト位置又は向き情報を受信し、更に受信したオーディオ信号及び受信した物理的オブジェクト情報を用いて空間オーディオ信号を符号化することができる。例えば、この回路は、異なるそれぞれの深度特性を有する各ソース又はソースのグループなどを備えた3次元音場における1又は2以上のオーディオソース、又は仮想ソースに関する情報と共に空間オーディオ信号を符号化することができる。1つの例では、受信したオーディオ信号は、1又は2以上の成分又はオーディオオブジェクトを含む音場又は3Dオーディオ信号を含むことができる。受信した物理的オブジェクト情報は分類されたオブジェクト及び関連付けられる音響プロファイルに関する情報を含むことができるか、又は環境における1又は2以上の物理的オブジェクトの配置又は向きに関する情報を含むことができる。
【0056】
1つの例では、空間オーディオ信号符号化は、プロセッサ回路410、又はこの1又は2以上の処理モジュールを用いるステップを含み、第1オーディオ信号を受信し更にオーディオ信号の成分の位置、方向、及び/又は深度を決定することができる。オーディオ信号成分の基準フレーム座標又は起点情報を受信、測定、又はそうでなければ決定することができる。1又は2以上のオーディオオブジェクトはラウドスピーカ又はヘッドフォンを介した再生のために復号することができるか、又は新しい音場フォーマットに再符号化するためのプロセッサに提供することができる。
【0057】
1つの例では、プロセッサ回路410は、オーディオ信号符号化を実行するための様々なモジュール又は回路又はソフトウェア実施プロセス(汎用又は専用回路を用いて実施できるもの)を含むことができる。
図4では、オーディオ信号又はデータソースはオーディオキャプチャデバイス200を含むことができる。1つの例では、オーディオソースが基準データ又は起点情報のオーディオフレームをプロセッサ回路410に提供する。基準データのオーディオフレームは、環境又は深度センサ230に対するオーディオ情報の固定された又は変化する基点又は基準ポイントなどに関する情報を含むことができる。深度センサ230及びオーディオキャプチャデバイス220のそれぞれの起点、基準位置、又は向きは経時的に変化させることができ、更に環境において識別された物理的オブジェクトと環境からのオーディオ情報との間の相関関係を決定する場合に考慮することができる。
【0058】
1つの例では、プロセッサ回路410は、オーディオキャプチャデバイス220からのオーディオ信号情報を受信して更に受信した信号を周波数ドメインに変換するように構成されたFFTモジュール440を含む。変換された信号は、空間処理、ステアリング、又はパンニングを用いて処理し、受信したオーディオ信号情報の位置、深度、又は基準のフレームを変えることができる。
【0059】
1つの例では、プロセッサ回路410はオブジェクト分類子モジュール402を含むことができる。オブジェクト分類子モジュール402は、本明細書で論じる分類子回路の1又は2以上の態様を実施するよう構成することができる。例えば、オブジェクト分類子モジュール402は、深度センサ230からの画像又は深度情報を受信し更に機械学習又はニューラルネットワークに基づく処理などの人工知能に基づくツールを適用して、環境に存在する1又は2以上の物理的オブジェクトを識別するよう構成することができる。
【0060】
1つの例では、プロセッサ回路410は、FFTモジュール404からの周波数ドメインオーディオ信号を受信し、更に任意的には、オーディオ信号に関連付けられるオーディオデータの少なくとも一部分を受信するように構成された空間分析モジュール406を含む。空間分析モジュール406は、周波数ドメイン信号を用いて1又は2以上の信号又はこの信号成分の相対的位置を決定するよう構成することができる。例えば、空間分析モジュール406は、第1サウンドソースがリスナー又は基準ビデオ位置の前(例えば、0°方位角)に位置付けられるか又は位置付けなければならず更に第2サウンドソースがリスナー又は基準ビデオ位置の右に(例えば、90°方位角に)位置付けられるか又は位置付けなければならないことを決定するよう構成することができる。1つの例では、空間分析モジュール406は、受信した信号を処理し且つ、仮想ソースが1又は2以上の入力オーディオ信号からの情報に基づき更に空間オーディオ信号の各々が、基準位置に対してそれぞれの異なる位置などに対応する時を含み、基準ビデオ又は画像位置に対して指定された位置又は深度に位置付けられるか又はレンダリングされることを意図される仮想ソースを生成するよう構成することができる。
【0061】
1つの例では、空間分析モジュール406は、オーディオソース位置又は深度を決定し、更に基準のフレームに基づく分析を用いてビデオソースの基準のフレームに対応する新しい位置などにソースを変換するよう構成され、これは、全体が引用により本明細書に組み入れられる「非一致オーディオビジュアルキャプチャシステム」という名称のPCT特許出願PCT/US2019/40837に同様に論じられている。アンビソニックス信号を含む音場信号の空間分析及び処理は、「アンビソニック深度抽出」という名称の、及び「6-DOFトラッキングを用いたオーディオレンダリング」という名称の米国特許第9,973,784号に詳細に論じられており、これらの各々は全体が引用により本明細書に組み入れられる。
【0062】
1つの例では、プロセッサ回路410は信号フォーミングモジュール408を含むことができる。信号フォーミングモジュール408は、受信した周波数ドメイン信号を用いて、関連付けられるメタデータを備えたサウンドオブジェクトとして出力することができるか、又は空間オーディオ信号として符号化することができる1又は2以上の仮想ソースを生成するよう構成することができる。1つの例では、信号フォーミングモジュール408は空間分析モジュール406からの情報を用いて、音場におけるそれぞれの指定された位置又はそれぞれの深度の様々なサウンドオブジェクトを識別又は配置することができる。
【0063】
1つの例では、信号フォーミングモジュール408は、空間分析モジュール406及びオブジェクト分類子モジュール402の両方からの情報を用いて、空間分析モジュール406によって識別された様々なサウンドオブジェクトを識別又は配置するよう構成することができる。1つの例では、信号フォーミングモジュール408は、識別されたオブジェクトの音響プロファイル又は署名に関する情報などの識別された物理的オブジェクト又はオーディオオブジェクトに関する情報を用いて、オーディオデータ(例えば、オーディオキャプチャデバイス220を用いて受信)が、音響プロファイルに対応する情報を含むかどうかを決定するよう構成することができる。十分な対応が特定のオブジェクト(例えば、環境における他のオブジェクトは区別される)の音響プロファイルとオーディオデータの特定の部分(例えば、特定の周波数帯域又は複数の帯域、又は持続時間、又は経時的なオーディオスペクトラムの他の部分に対応する)との間に存在する場合、次に特定のオブジェクトにオーディオデータの対応する特定の部分を関連付けることができる。更なる例では、このような対応は、機械学習又はニューラルネットワークに基づく処理などの人工知能を用いて決定することができる。
【0064】
別の例では、信号フォーミングモジュール408は、任意的にはオブジェクト分類子モジュール402によって処理された深度センサ230からの情報を備えた空間分析モジュール406の結果又は産物を用いて、オーディオソース位置又は深度を決定することができる。例えば、信号フォーミングモジュール408は相関関係情報を用いることができるか又は相関関係が画像データの識別された物理的オブジェクト又は深度と空間分析モジュール406から受信されたオーディオ情報との間に存在するかどうかを決定することができる。1つの例では、相関関係を決定するステップは、識別された視覚オブジェクトの方向又は位置と識別されたオーディオオブジェクトの方向又は位置を比較することによって少なくとも一部実行することができる。プロセッサ回路410の他のモジュール又は部分は、画像データの情報とオーディオデータの情報との間の相関関係を決定するために同様に又は独立して用いることができる。
【0065】
高度の対応又は相関関係を持つ例では、信号フォーミングモジュール408はオーディオ及び視覚オブジェクトからの位置情報の加重組み合わせを用いることができる。例えば、加重を用いて、空間オーディオ分布に最も一致するオーディオオブジェクトの相対的方向を指示することができ、更に深度センサ視覚データ又は画像データからの深度情報と共に用いることができる。これは、空間オーディオ信号出力の深度能力に最も正確に一致する最終ソース位置符号化を深度センサ及びオーディオキャプチャデバイスが用いられる音響環境に提供することができる。
【0066】
1つの例では、信号フォーミングモジュール408からの信号を、送信、再生、又は他の処理のための信号の生成を助けることができる他のダウンストリーム処理モジュールに提供することができる。例えば、信号フォーミングモジュール408からの空間オーディオ信号出力は、仮想化処理、フィルタリング、又は他の信号処理を含むか又は用いて、オーディオ信号又は信号成分を形成又は修正することができる。ダウンストリーム処理モジュールは、1又は2以上のモジュールからデータ及び/又はオーディオ信号入力を受信して更に信号処理を用いて受信したオーディオ信号を回転又はパンすることができる。
【0067】
1つの例では、複数のダウンストリームモジュールが音響環境を観察する複数のバンテージポイントを作成する。このようなモジュールは、本明細書に引用により組み入れられる「非一致オーディオビジュアルキャプチャシステム」という名称のPCT特許出願PCT/US2019/40837に記述される方法を利用することができる。
【0068】
代替の例では、信号フォーミングモジュール408のオーディオ符号化/レンダリング部分は、各々の要求されるバンテージポイントに対して複製することができる。1つの例では、空間オーディオ信号出力は、それぞれの異なる基準位置又は向きによる複数の符号化を含むことができる。1つの例では、信号フォーミングモジュール408は信号を含むことができるか又は逆FFTモジュールに信号を提供することができる。逆FFTモジュールはメタデータあり又はなしの1又は2以上の出力オーディオ信号チャネルを生成することができる。1つの例では、逆FFTモジュールからのオーディオ出力を、サウンド再生システム又は他のオーディオ処理システムの入力として用いることができる。1つの例では、出力は、引用により本明細書に組み入れられる米国特許第10,231,073号の「深度復号によるアンビソニックオーディオレンダリング」で論じられるシステム又は方法によって復号することができる深度拡張アンビソニック信号などを含むことができる。1つの例では、出力フォーマット不可知論を残し且つ、例えば位置情報、ベース/ベッドミックス、又はアンビソニックフォーマットを含む他の音場表現などを備えたモノステムを含む様々なレイアウト又はレンダリング方法への復号を支援することが望ましい。
【0069】
1つの例では、複数の深度センサをプロセッサ回路410に結合することができ更にプロセッサ回路410は深度センサの何れか1つ又は1以上からの情報を用いて環境における物理的オブジェクトに関する深度情報を識別することができる。各深度センサは、環境における各深度センサ固有の基準のフレーム又はそれぞれの基準位置を有することができるか又は関連付けることができる。従って環境におけるオーディオオブジェクト又はソースは、各深度センサの基準位置に対して様々な相対的位置又は深度を有することができる。ビューワの視野が変わる場合、例えばビデオ情報が第1カメラの視野から異なる第2カメラの視野に変化した時、次にリスナーの視野は関連付けられる1又は複数のオーディオソースの深度又は向き又は回転を更新又は調節することによって同様に変化させることができる。1つの例では、プロセッサ回路410は、例えばクロスフェーディング又は他の信号ブレンディング技術を用いて、オーディオ情報のこのような視野の変更を抑えるよう構成することができる。
【0070】
1つの例では、複数のオーディオキャプチャデバイス(例えば、オーディオキャプチャデバイス220の複数の事例)をプロセッサ回路410に結合することができ更にプロセッサ回路410はオーディオキャプチャデバイスの何れか1つ又は1以上からの情報を用いて環境に関するオーディオ情報を受信することができる。1つの例では、環境において識別された特定の物理的オブジェクトとの特定のオーディオキャプチャデバイスの近接性に少なくとも一部基づいて使用するオーディオキャプチャデバイスの特定のデバイス又は組み合わせを選択することができる。すなわち、環境における第1オーディオキャプチャデバイスが第1の物理的オブジェクトに近い場合、次に第1オーディオキャプチャデバイスが環境内の別のオーディオキャプチャデバイスによって取り込まれるよりも第1物理的オブジェクトに関するサウンド情報を上手に取り込んだ時などに第1オーディオキャプチャデバイスからのオーディオ情報を用いて第1物理的オブジェクトの深度符号化オーディオ信号を生成することができる。
【0071】
図5は、空間オーディオ信号を符号化するステップを含むことができる第1方法500の例を一般的に示す。第1方法500は、プロセッサ回路410の1又は2以上の部分を用いて少なくとも一部実行することができる。ステップ502で、第1方法500は環境におけるオーディオキャプチャソースからオーディオシーン情報を受信するステップを含むことができる。1つの例では、オーディオシーン情報を受信するステップはオーディオキャプチャデバイス220を使用するステップを含むことができ更にオーディオシーン情報は深度情報あり又は深度情報なしのオーディオ信号を含むことができる。オーディオシーン情報は、関連付けられる視野、見る方向、向き、又は他の空間特性を任意的に有することができる。
【0072】
ステップ504で、第1方法500は受信したオーディオシーンに少なくとも1つのオーディオ成分を識別するステップを含むことができる。オーディオ成分を識別するステップは、例えば、受信したオーディオシーン情報の時間-周波数表現への信号寄与を識別するステップを含むことができる。オーディオ成分は、オーディオプログラムの持続時間に渡って又はプログラムの離散的な部分などの特定の周波数帯域又は範囲のオーディオ信号情報を含むことができる。1つの例では、ステップ504はオーディオシーン情報に関連付けられるか又はオーディオシーン情報の一部に関連付けられる方向を識別するステップを含むことができる。
【0073】
ステップ506で、第1方法500は、深度センサから、環境における1又は2以上のオブジェクトに関する深度特性情報を受信するステップを含むことができる。ステップ506は、深度センサ230からの情報を含むか又は用いることができる。1つの例では、ステップ506は、深度センサ230の回路を用いて画像又は深度マップ情報を受信し情報を処理して更に深度情報を識別するステップを含むことができるか、又はステップ506はセンサに結合された様々なプロセッサ回路を用いるステップを含むことができる。1つの例では、ステップ506は、オブジェクトに関する境界情報を識別するステップなどを含む、画像又は深度マップ情報で深度センサ230によってモニタされる環境における1又は2以上の物理的オブジェクトを識別するステップを含む。1つの例では、深度センサ230の基準位置又は環境の基準位置に対して深度特性情報を提供することができる。
【0074】
1つの例では、ステップ506は、深度センサ230からの情報を用いて、環境における1又は2以上のオブジェクトに関する方向情報などを受信するステップを含むことができる。ステップ506は、何れかの識別された物理的オブジェクトのそれぞれの方向又は向き情報を識別するステップを含むことができる。方向又は向き情報は、基準位置又は見る方向に対して提供することができる。1つの例では、ステップ506で方向情報を受信するステップは、基準に対する方位角又は高度角度に関する情報を受信するステップを含むことができる。
【0075】
ステップ508で、第1方法500は、識別された少なくとも1つのオーディオ成分及び深度特性情報に基づいて空間オーディオ信号を符号化するステップを含むことができる。ステップ508は、ステップ502からの受信したオーディオシーン情報を用いて空間オーディオ信号を符号化するステップ、及びステップ506からの受信した深度特性を用いるステップを含むことができる。すなわち、ステップ508で符号化された空間オーディオ信号は、ステップ502で受信したオーディオシーンからのオーディオを備えた仮想ソースなどの情報、及びステップ506の受信した深度情報からの深度特性を含むことができる。符号化された空間オーディオ信号は、例えば、様々な深度で定量化されたオーディオ情報を含むアンビソニック信号とすることができる。1つの例では、ステップ508は、ステップ504で識別された又はステップ506で深度特性と共に受信された方向情報に基づいて空間オーディオ信号を符号化するステップを含むことができる。符号化された空間オーディオ信号は従って、オーディオが対応する物理的オブジェクトの深度などに加えて、仮想ソースの方位角又は高度に関する情報を含むことができる。
【0076】
図6は、相関関係情報に基づいて空間オーディオ信号を符号化するステップを含むことができる第2方法600の例を一般的に示す。第2方法600は、プロセッサ回路410の1又は2以上の部分を用いて少なくとも一部実行することができる。
図6の例では、ステップ610は環境からのオーディオシーン情報と環境において識別された物理的オブジェクトの深度特性との間の相関関係を決定するステップを含むことができる。1つの例では、オーディオシーン情報を第1方法500の例に従って受信又は決定することができる。ステップ610はプロセッサ回路410を用いてオーディオ情報を分析して、更にオーディオ情報と環境におけるオブジェクト又はオブジェクトの位置との間の対応、又は対応の可能性を決定するステップを含むことができる。
【0077】
例えば、プロセッサ回路410は、環境における1又は2以上の任意的オーディオソースの変化する位置を経時的に識別することができ、更にプロセッサ回路410は更に同じ時間に渡る環境における1又は2以上の物理的オブジェクトの変化する位置を更に識別することができる。任意のオーディオソースの少なくとも1つの位置の変化が物理的オブジェクトの少なくとも1つの位置変化に対応する場合、次にプロセッサ回路410は、オーディオソース及び物理的オブジェクトが関係付けられるという強力な相関関係又は陽性指示を提供することができる。
【0078】
様々な因子又は検討事項を用いて、識別されたオーディオソースと物理的オブジェクトの間の相関関係又は対応の強度を決定することができる。例えば、オブジェクト分類子モジュール402からの情報を用いて、特定の識別された物理的オブジェクトに関連付けられることが公知であるか又は予想される特定のオーディオ特性に関する情報を提供することができる。特定のオーディオ特性を有するオーディオソースが、識別された物理的オブジェクトに近接して見付けられた場合、オーディオ情報及び物理的オブジェクトが対応する又は相関付けられると考えることができる。対応の強度又は質を更に識別又は計算して、オーディオ及び物理的オブジェクトが相関付けられるという信頼度を指示することができる。
【0079】
ステップ620及び630で、プロセッサ回路410などを用いてステップ610で識別された相関関係の強度を評価することができる。ステップ620で、第2方法600は強力な相関関係が特定の物理的オブジェクトのオーディオシーン情報と深度特性の間に存在するかどうかを決定するステップを含む。1つの例では、相関関係が強力かどうかを、ステップ610などで決定できるような相関関係の定量値に基づいて決定することができる。相関関係の定量値は、指定又はプログラムできるような様々な閾値レベルと比較することができるか、又は機械学習システムによって経時的に学習することができる。1つの例では、相関関係が強力であると620で決定するステップは、相関関係の値が指定された第1閾値に一致するか又はこれを超えると決定するステップを含むことができる。
【0080】
図6の例では、相関関係が強力であることがステップ620で決定された場合、次に第2方法600はステップ622に進み、特定のオブジェクトの受信した深度特性を用いて空間オーディオ信号を符号化することができる。すなわち、強力な相関関係がステップ620で決定された場合、次に受信した又は識別されたオーディオソース情報が特定の物理的オブジェクトに十分対応すると考えることができ、これによってオーディオソースを特定の物理的オブジェクトと同じ深度又は位置に位置付けることができる。
【0081】
ステップ620で、相関関係の相対的強度がステップ620からの条件を満足させない場合、次に第2方法600は、相関関係の更なる評価のためにステップ630に進むことができる。相関関係の値が指定された第2閾値条件又は値に一致するか又はこれを超える場合、次に相関関係は弱いと決定することができ、更に第2方法600はステップ632で続く。ステップ632はオーディオソースの基準深度特性を用いて空間オーディオ信号を符号化するステップを含むことができる。1つの例では、基準深度特性は遠視野深度又は他のデフォルト深度を含むことができる。例えば、十分な又は最小の相関関係が、オーディオシーンからの特定のオーディオソース又は他のオーディオ情報と環境において識別されたオブジェクトとの間に見付けられなかった場合、又は特定の又は離散的なオブジェクトが識別されないか又は識別可能でない場合、次にオーディオソースが遠視野又は基準平面に属すると決定することができる。
【0082】
ステップ630の相関関係の値が第2閾値条件又は値に一致しなかった場合、次に第2方法600はステップ634で続行することができる。ステップ634はオーディオソースの中間深度特性を用いて空間オーディオ信号を符号化するステップを含むことができる。中間深度は、遠視野深度よりも基準位置に近い深度とすることができ、且つ識別された物理的オブジェクトの深度以外の深度である。1つの例では、ステップ610で決定された相関関係が、特定のオーディオ信号が特定の物理的オブジェクトに対応する中間確実性又は信頼度を指示する場合、次に特定の物理的オブジェクトの深度に必ずではないが近い位置又は深度の特定のオーディオ信号を符号化することができる。
【0083】
1つの例では、深度情報は相関関係を決定する場合に検討することができる不確実性の尺度を含むことができる。例えば、深度マップが、オブジェクトが特定の深度にあることが不確実であるが可能性があると指示する場合、次に例えば特定の深度よりも遠視野に近い特定の深度以外の深度のオブジェクトに対応するオーディオ信号を符号化することができる。1つの例では、深度マップが、オブジェクトが様々な深度の範囲に存在できることを指示する場合、次に範囲における最も遠い深度などの範囲における深度の選択された深度のオブジェクトに対応するオーディオ情報を符号化することができる。様々な深度に対して様々に加重されたHRTFなどを用いて、中間深度特性を備えたオーディオ情報又はミックスを符号化、復号、及び使用するシステム及び方法が、全体が引用により本明細書に組み入れられる「アンビソニック深度抽出」という名称の米国特許出願第16/212,387号に詳細に論じられている。
【0084】
図7は、オーディオシーン情報が指定された物理的オブジェクトに対応するという信頼度指標を提供するステップを含むことができる第3方法700の例を一般的に示す。第3方法700はプロセッサ回路410の1又は2以上の部分を用いて少なくとも一部実行することができる。
【0085】
ステップ710で、第3方法700は深度センサ230を用いて物理的オブジェクト深度情報を受信するステップを含むことができる。1つの例では、ステップ710は複数のオブジェクトに関する深度情報を受信するステップ及び単一のオブジェクト又は複数のオブジェクトのグループに対する組み合わせ深度推定値を決定するステップを含むことができる。1つの例では、ステップ710は環境における候補オブジェクトの様々なオブジェクト深度の組み合わせを表すことができる組み合わせ深度推定値を決定するステップを含むことができる。1つの例では、深度情報は、複数のオブジェクトに関する加重深度又は信頼度指標に基づくことができる。オブジェクトに関する信頼度指標は、機械識別のオブジェクトが関心の特定のオブジェクト又は特定のオーディオオブジェクトに対応するという信頼度又は可能性を指示することができる。1つの例では、複数のオブジェクトに基づく組み合わせ深度推定値は、ビデオの複数のフレームに基づくか又は経時的な深度情報などから基づくことができ、様々な位置に迅速にジャンプするのではなくゆっくりと遷移する深度の平滑化又は連続指示を提供することができる。
【0086】
ステップ720で、第3方法700は、オーディオキャプチャデバイス220などを用いて、オーディオセンサからオーディオシーン情報を受信するステップを含むことができる。
図7の例では、ステップ730は受信したオーディオシーン情報を離散的なオーディオ信号又はオーディオ成分に分解するステップを含むことができる。1つの例では、受信したオーディオシーン情報は、指向性マイクロフォンから、又はマイクロフォンアレイから、又は音場マイクロフォンからの情報を含む。1つの例では、受信したオーディオシーン情報は、複数の異なる基準位置、視野、見る方向からのオーディオ情報などを表すことができる複数の異なるオーディオ信号のマルチチャネルミックスを含むか、又は他の類似の又は異なる特性を有することができる。ステップ730は、離散的なオーディオ信号チャネル、時間-周波数タイル、又はオーディオシーン情報の異なる部分の他の表現などの離散的な信号を生成するステップを含むことができる。
【0087】
ステップ740は各オーディオ信号におけるオーディオオブジェクトの優勢な方向を識別するステップを含むことができる。例えば、ステップ740はステップ730で生成された離散的な信号の各々を分析して、これらの信号におけるオーディオオブジェクトを識別するステップを含むことができる。オーディオオブジェクトは、例えば、特定の周波数帯域に属するオーディオ情報、又は特定の時間又は持続時間に対応するオーディオ情報、又は過渡特性などの指定された信号特性を含むオーディオ情報を含むことができる。ステップ740は、オーディオオブジェクトの各々がオーディオシーンにおいて検出された方向を識別するステップを含むことができる。
【0088】
ステップ750は、ステップ740で識別された方向とステップ710で受信されたオブジェクト深度情報とを比較するステップを含むことができる。方向の比較は、ある方向が、オーディオオブジェクトの共通基準方向又は見る方向などに対して、環境における物理的オブジェクトの方向に対応するかどうかを決定するステップを含むことができる。オーディオオブジェクト及び物理的オブジェクトの両方が共通基準角度に対して30°の方位角に位置付けられると決定された時などに、対応が識別された場合、次に第3方法700はオーディオシーン(又はオーディオオブジェクトに対応するオーディオシーンの特定の部分)が環境における識別された物理的オブジェクトに相関付けられるという信頼度指標を提供するステップを含むことができる。この相関関係情報を用いて、例えば
図6の例に従ってオーディオシーンを符号化することができる。
【0089】
図8は、オーディオ信号特性とオーディオシーンに関して受信された情報との間の対応を決定するステップを含むことができる第4方法800の例を一般的に示す。第4方法800は、プロセッサ回路410の1又は2以上の部分を用いて少なくとも一部実行することができる。ステップ810で、第4方法800は、オーディオキャプチャデバイス220などを用いて、オーディオセンサからオーディオシーン情報を受信するステップを含むことができる。ステップ820で、第4方法800はカメラから又は深度センサ230などから画像又はビデオ情報を受信するステップを含むことができる。
【0090】
ステップ830で、第4方法800はステップ820で受信された画像又はビデオ情報でオブジェクトを識別するステップを含むことができる。ステップ830は、クラスタリング、人工知能に基づく分析、又は機械学習などを用いる画像ベースの処理を含み、カメラの画像又は視野に存在するか、又は存在する可能性がある物理的オブジェクトを識別することができる。1つの例では、ステップ830は、識別される何れか1つ又は1以上の様々なオブジェクトの深度特性を決定するステップを含むことができる。
【0091】
ステップ840で、第4方法800はステップ830で識別されたオブジェクトを分類するステップを含むことができる。1つの例では、ステップ840はニューラルネットワークに基づく分類子又は機械学習分類子を用いて、画像情報を受信し、更にこれに応じて識別されたオブジェクトの分類を提供するステップを含むことができる。分類子を様々なデータに対して訓練して、例えば、人間、動物、無生物のオブジェクト、又はサウンドを生成できるか又は生成しないこともある他のオブジェクトを認識することができる。ステップ850は分類されたオブジェクトに関連付けられるオーディオ特性を決定するステップを含むことができる。例えば、人間の男性がステップ840で識別された場合、次にステップ850は、様々な周波数及び過渡特性を有することができる人間の男性の声に対応する音響プロファイルを決定するステップを含むことができる。ライオンがステップ840で識別された場合、次にステップ850は、人間に関連付けられるものとは異なる周波数及び過渡特性などを有することができるライオンに関連付けられることが公知であるノイズ又は発声に対応する音響プロファイルを決定するステップを含むことができる。1つの例では、ステップ850はルックアップテーブルを含むか又は用いて、オーディオ特性に様々なオブジェクト又はオブジェクトタイプをマップすることができる。
【0092】
ステップ860で、第4方法800は、ステップ850で決定されたオーディオ特性とステップ810で受信されたオーディオシーン情報との間の対応を決定するステップを含むことができる。例えば、ステップ860は、オーディオシーン情報が、環境において識別されたオブジェクトの音響プロファイルに一致するか又は対応するオーディオ信号コンテンツを含むかどうかを決定するステップを含むことができる。1つの例では、対応に関する情報を用いて、
図6の例に従って使用することができるオーディオシーンと検出された物理的オブジェクトとの間の相関関係を決定することができる。
【0093】
本明細書で開示する実施形態に関して記述した様々な例証の論理的ブロック、モジュール、方法、及びアルゴリズム処理及びシーケンスは、電子ハードウェア、コンピュータソフトウェア、又はこれら両方の組み合わせとして実施することができる。ハードウェアとソフトウェアのこの互換性を分かり易くするために、様々な例証の構成要素、ブロック、モジュール、及び処理動作を、これらの機能の点で一般的に上述してきた。このような機能がハードウェア又はソフトウェアとして実施されるかどうかは、全体的なシステムに課される特定の応用及び設計制約に依存する。記述した機能は、各々の特定の応用に対して様々な方法で実施できるが、このような実施の決定は、本文書の範囲から逸脱するものとして解釈すべきではない。深度情報を検出して更に深度とオーディオ情報との間の相関関係を用いて空間オーディオ信号を符号化するシステム及び方法の実施形態は、本明細書に記述する他の技術の中でも、
図9の論議などに説明されるように、汎用又は専用コンピュータシステム環境又は構成の多数のタイプの中で動作可能である。
【0094】
本明細書で開示する実施形態に関して記述した様々な例証の論理的ブロック及びモジュールは、汎用プロセッサ、処理デバイス、1又は2以上の処理デバイスを有するコンピュータデバイス、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)又は他のプログラマブル論理デバイス、離散的ゲート又はトランジスタ論理、離散的ハードウェア構成要素、又は本明細書に記述した機能を実行するよう設計されたこれらの何れかの組み合わせなどの機械によって実施又は実行することができる。汎用プロセッサ及び処理デバイスはマイクロプロセッサとすることができるが、代替として、プロセッサを、コントローラ、マイクロコントローラ、又は状態機械、同様のものの組み合わせなどとすることができる。プロセッサはまた、DSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、DSPコアと連結した1又は2以上のマイクロプロセッサ、又は何れかの他のこのような構成などのコンピュータデバイスの組み合わせとして実施することができる。
【0095】
更に、本明細書に記述する仮想化及び/又はスイートスポット適応の様々な例の一部又は全部を実施するソフトウェア、プログラム、又はコンピュータプログラム製品の1つ又は何れかの組み合わせ、又はこれらの一部は、コンピュータ実行可能命令又は他のデータ構造の形態のコンピュータ又は機械可読媒体又はストレージ媒体及び通信媒体の何れかの要求される組み合わせから格納、受信、送信、又は読み取ることができる。本主題は構造的特徴及び方法の動作に固有の言語で記述されるが、添付の請求項に定義される本主題は本明細書に記述する特定の特徴又は動作に必ずしも制限されないことを理解されたい。むしろ、上述の特定の特徴及び動作は、請求項を実施するための例示的形態として開示される。
【0096】
様々なシステム及び機械は、限定されないが、HRTF及び/又は他のオーディオ信号処理などを用いるオーディオ成分位置付け又は再位置付け、又は向き決定又は推定を含む本明細書に記述する信号処理タスクの1つ又は2以上を実行又は実施するよう構成することができる。開示する回路又は処理タスクの何れか1つ又はそれ以上は、汎用機械を用いて、又は有形の非一時的プロセッサ可読媒体から検索された命令などを用いて様々な処理タスクを実行する専用構築機械を用いて実施又は実行することができる。
【0097】
図9は、機械900に本明細書で論じる方法の何れか1つ又はそれ以上を実行させるための命令908(例えば、ソフトウェア、プログラム、アプリケーション、アプレット、app、又は他の実行可能コード)を実行することができる機械900の図表示である。例えば、命令908は本明細書に記述する方法の何れか1つ又はそれ以上を機械900に実行させることができる。命令908は汎用の非プログラム化機械900をプログラムされた特定の機械900に変換して記述した方式で記述した及び例示した機能を実行することができる。
【0098】
1つの例では、機械900は独立型デバイスとして作動することができるか又は他の機械又はデバイス又はプロセッサに結合する(例えば、ネットワーク化する)ことができる。ネットワーク化された配備では、機械900はサーバ-クライアントネットワーク環境におけるサーバ機械又はクライアント機械の能力で、又はピアーツーーピア(又は分散)ネットワーク環境におけるピア機械として作動することができる。機械900は、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ(PC)、タブレットコンピュータ、ラップトップコンピュータ、ネットブック、セットトップボックス(STB)、PDA、娯楽媒体システム、セルラー電話、スマートフォン、移動デバイス、ウェアラブルデバイス(例えば、スマートウォッチ)、スマートホームデバイス(例えば、スマート機器)、他のスマートデバイス、ウェブ機器、ネットワークルータ、ネットワークスイッチ、ネットワークブリッジ、又は機械900によって取られる動作を指定する命令908を順次又はそれ以外で実行することができる何れかの機械を含むことができる。更に、1つの機械900だけが図示されているが、「機械」という語は、本明細書で論じる方法の何れか1つ又はそれ以上を実行するために命令908を個々に又は一緒に実行する機械の集まりを含むものと捉えることができる。1つの例では、命令908は、本明細書で論じる方法の1又はそれ以上を実行するために処理回路410を用いて実行することができる命令を含むことができる。
【0099】
機械900は、バス944を介して互いに通信するよう構成することができる、プロセッサ902、メモリ904、及びI/O構成要素942として
図9の例に表されるような様々なプロセッサ及びプロセッサ回路を含むことができる。1つの例では、プロセッサ902(例えば、中央処理ユニット(CPU)、縮小命令セットコンピューティング(RISC)プロセッサ、複数命令セットコンピューティング(CISC)プロセッサ、グラフィクス処理ユニット(GPU)、デジタル信号プロセッサ(DSP)、ASIC、ラジオ周波数集積回路(RFIC)、別のプロセッサ、又は何れかの適切な(これらの)組み合わせは、例えば、命令908を実行するプロセッサ906及びプロセッサ910を含むことができる。「プロセッサ」という語は、命令を同時に実行することができる2又は3以上の独立プロセッサ(「コア」と呼ばれることもある)を含むことができるマルチコアプロセッサを含むものとする。
図9は複数のプロセッサを示すが、機械900は、シングルコアを備えたシングルプロセッサ、複数のコアを備えたシングルプロセッサ(例えば、マルチコアプロセッサ)、シングルコアを備えたマルチプロセッサ、マルチコアを備えたマルチプロセッサ、又はこれらの何れかの組み合わせを含み、例えばプロセッサ回路410を提供することができる。
【0100】
メモリ904は、バス944を介してプロセッサ902にアクセス可能とすることができる主メモリ912、静的メモリ914、又はストレージユニット916などを含むことができる。メモリ904、静的メモリ914、及びストレージユニット916は、本明細書に記述する方法又は機能又は処理の何れか1つ又はそれ以上を実施する命令908を格納することができる。命令908はまた、主メモリ912内、静的メモリ914内、機械可読媒体918内、ストレージユニット916内、プロセッサの少なくとも1つ内(例えば、プロセッサのキャッシュメモリ内)、又は機械900によって実行中の何れかの適切なこれらの組み合わせ内に、完全に又は部分的に存在することができる。
【0101】
I/O構成要素942は、多種多様な構成要素を含み、入力の受信、出力の提供、出力の生成、情報の送信、情報の交換、測定値の取り込みなどを実行することができる。特定の機械に含まれる特定のI/O構成要素942は機械のタイプに依存することになる。例えば、移動電話などの携帯式機械はタッチ入力デバイス又は他のこのような入力機構を含むことができるが、ヘッドレスサーバ機械はこのようなタッチ入力デバイスを含まない可能性がある。I/O構成要素942は
図9に示していない多くの他の構成要素を含むことができることが理解されるであろう。様々な例示的実施形態では、I/O構成要素942は出力構成要素928及び入力構成要素930を含むことができる。出力構成要素928は、視覚構成要素(例えば、プラズマディスプレイパネル(PDP)、発光ダイオード(LED)ディスプレイ、液晶ディスプレイ(LCD)、プロジェクタ、又はブラウン管(CRT)などのディスプレイ)、音響構成要素(例えば、スピーカ)、触覚構成要素(例えば、振動モータ、抵抗機構)、他の信号生成器などを含むことができる。入力構成要素930は、英数字入力構成要素(例えば、キーボード、英数字入力を受信するように構成されたタッチ画面、光学式キーボード、又は他の英数字入力構成要素)、ポイントベース入力構成要素(例えば、マウス、タッチパッド、トラックボール、ジョイスティック、モーションセンサ、又は別のポインティング器具)、触知性入力構成要素(例えば、物理的ボタン、タッチ又はタッチジェスチャの位置及び/又は力を提供するタッチ画面、又は他の触知性入力構成要素)、オーディオ入力構成要素(例えば、マイクロフォン)、ビデオ入力構成要素などを含むことができる。
【0102】
1つの例では、I/O構成要素942は、多種多様な他の構成要素の中でも、生体測定構成要素932、モーション構成要素934、環境構成要素936、又は位置構成要素938を含むことができる。例えば、生体測定構成要素932は、人間、ペット、又は他の個人又はオブジェクトの存在又は不存在を検出するよう構成されるか、又は表現(例えば、手の表現、顔の表現、声の表現、身体ジェスチャ、又はアイトラッキング)を検出して、生体信号(例えば、血圧、心拍、体温、発汗、又は脳波)を測定し、人(例えば、音声識別、網膜識別、顔識別、指紋識別、又は脳波図に基づく識別)を識別するように構成された構成要素を含む。モーション構成要素934は、加速度センサ構成要素(例えば、加速度計)、重力センサ構成要素、回転センサ構成要素(例えば、ジャイロスコープ)などを含むことができる。
【0103】
環境構成要素936は、例えば、照明センサ構成要素(例えば、フォトメータ)、温度センサ構成要素(例えば、周囲温度を検出する1又は2以上のサーモメータ)、湿度センサ構成要素、圧力センサ構成要素(例えば、バロメータ)、音響センサ構成要素(例えば、背景雑音を検出する1又は2以上のマイクロフォン)、近接センサ構成要素(例えば、近くのオブジェクトを検出する赤外線センサ)、ガスセンサ(例えば、安全のために有害なガスの知覚を検出するか又は大気の汚染物質を測定するためのガス検出センサ)、又は周囲の物理的環境に対応する指示、測定値、又は信号を提供することができる他の構成要素を含むことができる。位置構成要素938は、位置センサ構成要素(例えば、GPS受信機構成要素、RFIDタグなど)、高度センサ構成要素(例えば、高度を導きだすことができる気圧を検出する高度計又はバロメータ)、方位センサ構成要素(例えば、磁気探知機)などを含む。
【0104】
I/O構成要素942は、カップリング924及びカップリング926をそれぞれに介してネットワーク920又はデバイス922に機械900を結合することができる通信構成要素940を含むことができる。例えば、通信構成要素940はネットワーク920に接続するためのネットワークインタフェース構成要素又は別の適切なデバイスを含むことができる。更なる例では、通信構成要素940は、有線通信構成要素、無線通信構成要素、セルラー通信構成要素、近距離通信(NFC)構成要素、Bluetooth(登録商標)構成要素(例えば、Bluetooth(登録商標)ローエネルギー)、Wi-Fi(登録商標)構成要素、及び他の通信構成要素を含み、他の様式を介した通信を提供することができる。デバイス922は別の機械又は多種多様な周辺デバイスの何れか(例えば、USBを介して結合される周辺デバイス)とすることができる。
【0105】
更にまた、通信構成要素940は識別子を検出するか又は識別子を検出できる構成要素を含むことができる。例えば、通信構成要素940は、ラジオ周波数識別(RFID)タグリーダ構成要素、NFCスマートタグ検出構成要素、光学リーダ構成要素(例えば、ユニバーサル製品コード(UPC)バーコードなどの1次元バーコード、クイックレスポンス(QR)コード、アズテックコード、データマトリックス、データグリフ、マキシコード、PDF417、ウルトラコード、UCC RSS-2Dバーコードなどの多次元バーコード、及び他の光学コードを検出するための光学センサ)、又は音響検出構成要素(例えば、タグ付けされたオーディオ信号を識別するためのマイクロフォン)を含むことができる。加えて、インターネットプロトコル(IP)ジオロケーションを介した位置、Wi-Fi(登録商標)信号三角測量を介した位置、又は特定の位置を指示することができるNFCビーコン信号の検出を介した位置などの多種多様な情報を、通信構成要素940を介して取得することができる。
【0106】
様々なメモリ(例えば、メモリ904、主メモリ912、静的メモリ914、及び/又はプロセッサ902のメモリ)及び/又はストレージユニット916は、本明細書に記述する方法又は機能の何れか1つ又はそれ以上を実施するか又はこれによって用いられる1又は2以上の命令又はデータ構造(例えば、ソフトウェア)を格納することができる。これらの命令(例えば、命令908)は、プロセッサ又はプロセッサ回路によって実行された時に、本明細書で論じる実施形態を様々な動作に実施させる。
【0107】
命令908は、ネットワーク920を通じて、送信媒体を用いて、ネットワークインタフェースデバイス(例えば、通信構成要素940に含まれるネットワークインタフェース構成要素)を介して、及び幾つかの公知の転送プロトコルの何れか1つ(例えば、ハイパーテキスト転送プロトコル(HTTP))を用いて、送信又は受信することができる。同様に、命令908はデバイス922とのカップリング926(例えば、ピア-ツー-ピアカップリング)を介した送信媒体を用いて送信又は受信することができる。
【0108】
本明細書において、用語「a」又は「an」は、特許文書で共通するように、「少なくとも1つ」又は「1又は2以上」の他の何れかの事例又は使用に関係なく1又は1よりも多いものを含むのに使用される。本明細書において、用語「or(又は)」は、非排他的であることを指すのに使用され、すなわち、別途指示がない限り、「A又はB」が「BではなくA」、「AではなくB」、及び「A及びB」を含むものとする。本明細書において、「including」及び「in which」は、それぞれの用語「comprising」及び「wherein」の一般的意味の等価物として使用される。
【0109】
とりわけ、「can(可能性がある)」、「might(できた)」、「may(できる)」などの本明細書で用いる条件言語は、他に具体的に明示されない限り、又は用いられる文脈内で他に理解されない限り、一般的には、一定の実施形態は、一定の特徴、要素及び/又は状態を含むが、他の実施形態は含まないということを伝えるものとする。従って、このような条件語は、一般的には、特徴、要素及び/又は状態が、1又は2以上の実施形態に必要である何れかの方法であること、又は1又は2以上の実施形態が、オーサー入力又はプロンプティングあり又はなしで、これらの特徴、要素及び/又は状態が、何れかの特定の実施形態に含まれるか又はこの実施形態で実行されるかどうかを決定する論理を必ず含むことを意図するものではない。
【0110】
上記の詳細な説明は、様々な実施形態に適用される新規の特徴を図示、説明、及び指摘しているが、例証されたデバイス又はアルゴリズムの形態及び詳細における様々な省略、置換及び変更を行い得ることが理解されるであろう。理解されるように、本明細書に記述する本発明の特定の実施形態は、一部の特徴を他の特徴とは別に使用又は実施できるので、本明細書に記載された特徴及び利点の全てを提供しない形態の範囲内で具現化することができる。
【0111】
更にまた、本主題は、構造的な特徴又は方法又は動作に固有の言語で記述しているが、添付の請求項に定義される主題は必ずしも上述の特定の特徴又は動作に限定されないことを理解されたい。逆に、上述の特定の特徴及び動作は、請求項を実施する例示的形態として開示される。
【符号の説明】
【0112】
500 第1方法
502 環境におけるオーディオキャプチャソースからオーディオシーン情報を受信する
504 受信したオーディオシーンにおいて少なくとも1つのオーディオ成分を識別する
506 深度センサから、環境における1又は2以上のオブジェクトに関する深度特性情報を受信する
508 識別された少なくとも1つのオーディオ成分及び深度特性情報に基づいて空間オーディオ信号を符号化する
【手続補正書】
【提出日】2022-06-14
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
環境におけるオーディオキャプチャソースからオーディオシーン情報を受信するステップと、
前記受信したオーディオシーンにおいて少なくとも1つのオーディオ成分を識別するステップと、
深度センサから、前記環境における基準位置から第1及び第2物理的オブジェクトまでの距離に関する深度特性情報を受信するステップと、
前記第1及び第2物理的オブジェクトのうちの選択された物理的オブジェクトについて前記受信した深度特性情報と前記識別された少なくとも1つのオーディオ成分を関連付けるステップと、
前記第1及び第2物理的オブジェクトのうちの選択された物理的オブジェクトについて前記識別された少なくとも1つのオーディオ成分及び前記深度特性情報に基づいて空間オーディオ信号を符号化するステップと、
を含む方法。
【請求項2】
前記少なくとも1つのオーディオ成分は、前記受信したオーディオシーン情報の時間-周波数表現に対する信号寄与に関する情報を用いて決定される、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記オーディオキャプチャソースに対して、前記少なくとも1つのオーディオ成分の第1方向及び基準深度を決定するステップを更に含む、
ことを特徴とする請求項1に記載の方法。
【請求項4】
前記深度センサからの前記深度特性情報の少なくとも一部が前記少なくとも1つのオーディオ成分に対応するという信頼度を決定するステップと、
前記決定された信頼度を用いて前記識別された少なくとも1つのオーディオ成分の第1深度を提供するステップと、
を更に含み、
前記空間オーディオ信号を符号化するステップは、前記第1深度を用いるステップを含む、
ことを特徴とする請求項3に記載の方法。
【請求項5】
前記第1深度を提供するステップは、
前記信頼度が高い時に、前記深度センサからの情報に基づいて前記第1深度を提供するステップと、
前記信頼度が低い時に、前記基準深度として前記第1深度を提供するステップと、
前記信頼度が中間である時に、前記基準深度と前記深度センサを用いて決定された深度との間にある深度として前記第1深度を提供するステップと、
を含む、
ことを特徴とする請求項4に記載の方法。
【請求項6】
前記信頼度を決定するステップは、コンピュータビジョンプロセッサを用いて、前記環境において識別されたオブジェクトを分類し、更に前記少なくとも1つのオーディオ成分が、前記オブジェクトの少なくとも1つからのオーディオを含むか又は含む可能性があるかどうかを決定するステップを含む、
ことを特徴とする請求項4に記載の方法。
【請求項7】
前記信頼度を決定するステップは、前記識別された少なくとも1つのオーディオ成分が前記第1及び第2オブジェクトの特定のオブジェクトに対応するという信頼度を決定するステップを含む、
ことを特徴とする請求項4に記載の方法。
【請求項8】
前記信頼度を決定するステップは、
前記深度センサからの前記深度特性情報において1又は2以上のデータクラスタを識別するステップと、
前記少なくとも1つのオーディオ成分の第1方向を前記識別された1又は2以上のデータクラスタに相関付けるステップと、
を含む、
ことを特徴とする請求項4に記載の方法。
【請求項9】
前記深度センサから、それぞれの深度の大きさ及び深度方向特性を備えた前記第1及び第2オブジェクトに関する深度特性情報を受信するステップと、
前記第1及び第2オブジェクトに対して、前記深度特性情報が前記少なくとも1つのオーディオ成分に対応するというそれぞれの信頼度指標を決定するステップと、
前記それぞれの信頼度指標に基づいて組み合わせ深度特性を決定するステップと、
を更に含み、
前記空間オーディオ信号を符号化するステップは、前記組み合わせ深度特性を用いるステップを含む、
ことを特徴とする請求項3に記載の方法。
【請求項10】
前記空間オーディオ信号を符号化するステップは、前記オーディオシーン及び前記深度特性情報に基づいて深度拡張アンビソニック信号を符号化するステップを含む、
ことを特徴とする請求項1に記載の方法。
【請求項11】
オーディオキャプチャソースから前記オーディオシーン情報を受信するステップは、マルチトランスデューサマイクロフォン、音場マイクロフォン、マイクロフォンアレイ、及びアンビソニックマイクロフォンの1又は2以上から前記オーディオシーン情報を受信するステップを含む、
ことを特徴とする請求項1に記載の方法。
【請求項12】
前記深度特性情報を受信するステップは、前記環境における第1オブジェクトの動きを示す前記第1オブジェクトに関する時間変化深度特性情報を受信するステップを含み、
前記空間オーディオ信号を符号化するステップは、前記オーディオシーン及び前記時間変化深度特性情報に基づくようにするステップを含む、
ことを特徴とする請求項1に記載の方法。
【請求項13】
画像ベースのオブジェクト分類子を用いて前記第1オブジェクトの分類を決定するステップを更に含み、
前記空間オーディオ信号を符号化するステップは、前記オーディオシーン情報の第1部分が、前記分類に基づく前記第1オブジェクトからのオーディオ情報を含むこと、又は含む可能性があることの決定が条件付けられる、
ことを特徴とする請求項1に記載の方法。
【請求項14】
前記オーディオシーン情報の第1部分が、前記第1オブジェクトの分類に関連付けられるオーディオ周波数コンテンツ及び前記オーディオ情報のオーディオ周波数コンテンツに基づく前記第1オブジェクトからのオーディオ情報を含むかどうか、又は含む可能性があるかどうかを決定するステップを更に含む、
ことを特徴とする請求項13に記載の方法。
【請求項15】
前記深度特性情報を受信するステップは、3次元ビデオキャプチャシステム、ステレオカメラ、又はレーザもしくは赤外線プローブ信号の飛行時間情報を測定するように構成されたアクティブ深度プローブの1又は2以上からの情報を分析するステップを含む、
ことを特徴とする請求項1に記載の方法。
【請求項16】
システムであって、
環境におけるオーディオシーンを取り込むように構成されたオーディオキャプチャソースと、
深度センサであって、前記深度センサの基準位置に対する前記環境における複数のオブジェクトに関する深度特性情報を提供するように構成された深度センサと、
プロセッサ回路と、
を備え、
前記プロセッサ回路が、
前記オーディオシーンにおいて、第1方向と前記オーディオキャプチャソースに対する基準深度とを有する少なくとも1つのオーディオ成分を識別し、
前記複数のオブジェクトのうちの第1オブジェクトを選択して、前記識別された少なくとも1つのオーディオ成分と関連付け、
前記オーディオシーンにおける前記識別された少なくとも1つのオーディオ成分及び前記識別された少なくとも1つのオーディオ成分に関連付けられた前記深度特性情報に基づいて空間オーディオ信号を符号化する、
ように構成されている、
ことを特徴とするシステム。
【請求項17】
前記オーディオキャプチャソースは、マルチトランスデューサマイクロフォン、音場マイクロフォン、マイクロフォンアレイ、及びアンビソニックマイクロフォンの1又は2以上を含む、
ことを特徴とする請求項16に記載のシステム。
【請求項18】
前記深度センサは、レーザ、変調光源、ステレオカメラ、深度プローブ、赤外線センサ、及びカメラアレイの1又は2以上を含む、
ことを特徴とする請求項16に記載のシステム。
【請求項19】
前記プロセッサ回路は、前記第1オブジェクトの前記オーディオシーン及び前記深度特性情報に基づいて深度拡張アンビソニック信号として前記空間オーディオ信号を符号化するよう構成される、
ことを特徴とする請求項16に記載のシステム。
【請求項20】
前記プロセッサ回路は、前記複数のオブジェクトに関する深度情報の加重組み合わせを用いて前記空間オーディオ信号を符号化するよう構成される、
ことを特徴とする請求項16に記載のシステム。
【請求項21】
前記プロセッサ回路は、前記オーディオシーンからの情報が前記環境における前記1又は2以上のオブジェクトの中から第1オブジェクトに対応するという信頼度を決定するよう構成され、
前記プロセッサ回路は、指定された信頼度閾値に一致するか又はこれを超える前記決定された信頼度に基づいて前記空間オーディオ信号を符号化するよう構成される、
ことを特徴とする請求項16に記載のシステム。
【請求項22】
前記深度センサは、前記深度センサからの情報において識別された1又は2以上のデータクラスタからの情報を用いて前記オブジェクトの深度特性を決定するよう構成される、
ことを特徴とする請求項16に記載のシステム。
【請求項23】
前記オブジェクトの分類を決定するように構成されたオブジェクト分類子回路を更に備え、
前記プロセッサ回路は、前記オブジェクトの分類と前記少なくとも1つのオーディオ成分との間の対応を決定するよう構成され、
前記プロセッサ回路は、閾値対応条件を満足させる前記決定された対応の値に基づいて前記空間オーディオ信号を符号化するよう構成される、
ことを特徴とする請求項16に記載のシステム。
【請求項24】
オーディオ信号符号器デバイスであって、
プロセッサ及び該プロセッサに動作可能に結合された非一時的コンピュータ可読媒体を備え、
前記非一時的コンピュータ可読媒体は、関連付けられて格納され、前記プロセッサにアクセス可能で且つ前記プロセッサによって実行可能である命令を含み、
前記命令は、
実行された時に、環境におけるオーディオキャプチャソースからオーディオシーンを受信する命令と、
実行された時に、前記オーディオシーンにおける複数の異なるオーディオ成分の中から前記オーディオシーンにおける第1オーディオ成分を識別する命令と、
実行された時に、前記環境におけるオブジェクト深度センサと1又は2以上の物理的オブジェクトとの間の距離に関する深度情報を含む前記環境に関する画像情報を受信する命令と、
実行された時に、ニューラルネットワークに基づく分類子を用いて前記1又は2以上のオブジェクトから第1オブジェクトの分類を識別する命令と、
実行された時に、前記第1オブジェクトの識別された分類に関連付けられるオーディオ特性を識別する命令と、
実行された時に、前記オーディオ特性が前記オーディオシーンにおいて識別された前記第1オーディオ成分に対応するかどうかを決定する命令と、
を含む、
オーディオ信号符号器デバイス。
【請求項25】
実行された時に、空間オーディオ信号を条件的に符号化する命令を更に含み、
前記命令は、実行された時に、
前記オーディオ特性が前記オーディオシーンにおいて識別された前記第1オーディオ成分に対応する時に、前記環境における前記第1オブジェクトに関する深度情報に基づいて前記空間オーディオ信号を符号化し、
前記オーディオ特性が前記オーディオシーンにおいて識別された第1オーディオ成分に対応しない時に、基準深度に基づいて前記空間オーディオ信号を符号化する命令を含み、
前記基準深度は、前記オーディオキャプチャソース及び/又は前記環境の特性である、
ことを特徴とする請求項24に記載のオーディオ信号符号器デバイス。
【請求項26】
実行された時に、前記第1オーディオ成分を用いて及び前記環境における前記第1オブジェクトに関する深度情報を用いて空間オーディオ信号を符号化する命令を更に含む、
ことを特徴とする請求項24に記載の方法。
【国際調査報告】