(58)【調査した分野】(Int.Cl.,DB名)
前記マルチチャネルオーディオデータを生成することは、前記オーディオオブジェクトのうちの前記第2のものが前記マルチチャネルオーディオデータの前記1つまたは複数の背景チャネル内で拡散したオーディオオブジェクトとして発生するように、前記マルチチャネルオーディオデータを生成することを備える、請求項5に記載の方法。
前記オーディオメタデータは、前記ビデオメタデータを定義するために使用されるテキストフォーマットと共通のテキストフォーマットで定義される、請求項1に記載の方法。
【発明を実施するための形態】
【0013】
[0020]
図1Aは、本開示で説明される技術を行う例示的なビデオキャプチャデバイス10の様々なビュー8A〜8C(それぞれ、前面と、平面と、側面)を示す図である。ビデオキャプチャデバイス10は、ビデオカムコーダ、タブレットまたはスレートコンピュータ、携帯電話(いわゆる「スマートフォン」を含む)、パーソナルゲームデバイス、パーソナルメディアデバイス、などのような、ビデオおよびオーディオデータをキャプチャすることが可能な任意のタイプのデバイスを表し得る。例示の目的のために、ビデオキャプチャデバイス10は、スマートフォンを表すと仮定される。本開示では、特定のタイプのデバイス、すなわち、スマートフォンに関連して説明されるが、技術は、ビデオデータと、マルチチャネルオーディオデータとをキャプチャすることが可能な任意のタイプのデバイスによって実現され得る。
【0014】
[0021]
図1Aの例では、ビデオキャプチャデバイス10が、3つの異なるビュー8A〜8Cから示される。ビュー8Aは、前面からのビデオキャプチャデバイス10を示す。ビュー8Bは、背面からのビデオキャプチャデバイス10を示す。ビュー8Cは、側面からのビデオキャプチャデバイス10を示す。
【0015】
[0022] ビュー8Aに示されるように、ビデオキャプチャデバイス10は、受話口9と、スピーカ(loudspeakers)11A、11Bと、マイクロホン16A、16B、および16Eとを含む。受話口9は、ユーザの耳に近いデバイス10でオーディオを聴くときに、音またはオーディオデータの再生のために使用される小型のスピーカを表す。スピーカ11Aおよび11Bは、各々、(音楽を再生し、ビデオを見るために、またはスピーカフォンとして使用されるときに)ユーザからより遠いデバイス10でオーディオを聴くときに、音またはオーディオデータの再生のために使用されるスピーカを表す。スピーカ11Aは、スピーカ11Aがマルチチャネルオーディオデータの左チャネルを再生し得ることで、左スピーカ11A(または「スピーカL」)と呼ばれ得る。スピーカ11Bは、スピーカ11Bがマルチチャネルオーディオデータの右チャネルを再生し得ることで、右スピーカ11A(または「スピーカR」)と呼ばれ得る。マイクロホン16A、16B、および16Eは、以下でより詳細に説明される。
【0016】
[0023]
図8Bに示されるように、一例では、ビデオキャプチャデバイス10が、カメラ14、マイクロホン16Cおよび16Dも含む。カメラ14は、画像をキャプチャすることが可能な任意のタイプのデバイスを表し得る。カメラ14は、ビデオデータを形成するために、所定のレート(一般に、「フレームレート」と呼ばれる)で一連の画像をキャプチャし得る。カメラ14は、画像を発生、または他の方法で生成するために、光のキャプチャを容易にし得るレンズと、他の構成要素とを含み得る。カメラ14は、また、フラッシュまたは他の光発生要素(
図1Aの例には示されない)とインターフェースでき、いくつかの場合には、カメラ14は、フラッシュと一体化され得る。スマートフォンの想定された状況では、カメラ14が、典型的には、フィルムカメラで一般的である光を感知するためのセルロイド媒体とは対照的に、レンズに入る光の光度と色度とを感知するために、光感知センサ(相補型金属酸化膜半導体(CMOS)光画像センサ、または電荷結合デバイス(CCD)画像センサのような)を含むデジタルカメラを備える。カメラ14は、光をキャプチャし、以下の
図1Bの例でビデオデータ18として示される一連の画像を生成し得る。
【0017】
[0024] マイクロホン16A〜16E(「マイクロホン16」)は、各々、オーディオデータをキャプチャすることが可能な任意のタイプのデバイスを表し得る。マイクロホン16は、一般的に、音を電気信号に変換できる任意のタイプの音響−電気変換器またはセンサを指指し得る。いくつかの異なるタイプのマイクロホンが存在し、それらの各々は、異なるタイプが音をキャプチャする方法において異なる。いくつかの例を提供するために、マイクロホン16は、ダイナミックマイクロホン(電磁誘導を使用して音をキャプチャするマイクロホンを指す)と、コンデンサマイクロホン(静電容量の変化を使用して音をキャプチャするマイクロホンを指す)と、圧電マイクロホンとを含み得る。ビデオキャプチャデバイス10内に組み込まれている、またはその内部にあるものとして示されるが、1つまたは複数のマイクロホン16は、ビデオキャプチャデバイス10の外部にあり得、ワイヤード接続またはワイヤレス接続のいずれかを介してビデオキャプチャデバイス10に結合され得る。マイクロホン16の各々は、
図1Bの例に関連してより詳細に示されるように、別々のオーディオデータ20A〜20Eをキャプチャし得る。
【0018】
[0025] 典型的には、ビデオカムコーダ、タブレットまたはスレートコンピュータ、携帯電話(いわゆる「スマートフォン」を含む)、パーソナルゲームデバイス、パーソナルメディアデバイス、などのようなビデオキャプチャデバイスは、ビデオデータを生成するための所与のフレームレートで一連の画像をキャプチャするためにカメラを備える。しばしば、これらのビデオキャプチャデバイスは、ビデオデータ中に描かれたシーンのモノラルオーディオデータをキャプチャするために、マイクロホンを備える。より高性能のビデオキャプチャデバイスは、キャプチャされることが可能なチャネルの数を(モノラルオーディオデータにおける単一チャネルから)増加させるために、2つ以上のマイクロホンを備え得る。これらのより高性能のビデオ記録デバイスは、(左および右チャネルを有するオーディオデータを指す)ステレオオーディオデータをキャプチャするために、少なくとも2つのマイクロホンを含み得る。
【0019】
[0026] マイクロホン16として
図1Aに示される5つのマイクロホンのような3つ以上のマイクロホンは、ビデオキャプチャデバイスが「ビーム形成」と呼ばれるものを行うことを可能にして、前後および左右の区別(または、前方もしくは中央チャネル、前方左チャネル、前方右チャネル、後方左チャネル、および後方右チャネルのような、いわゆるオーディオデータの「チャネル」)を有するサラウンドサウンドオーディオのキャプチャを容易にし得る。マイクロホン信号(「オーディオデータ」とも呼ばれ得る)をキャプチャした後、スマートフォンは、他の空間方向に対する空間ビーム(特定の方向における音が増幅されるプロセスを指すことができる)をアルゴリズム的に形成し得る。キャプチャされた音をこれらのビームで別々にフィルタリングすることによって、スマートフォンは、異なる出力サラウンドサウンドチャネルを生成し得る。いくつかの例で、スマートフォンは、ビーム領域と対応するヌルビーム領域との間の差が6dBの音量レベル差を示すように、ビームを生成し得る。一例として、スマートフォンは、これらのビームに基づいて、5.1サラウンドサウンドオーディオデータを生成し得る。
【0020】
[0027] スマートフォンは、ビーム形成技術を使用してサラウンドオーディオをキャプチャし、それによって、1つまたは2つのマイクロホンのみを備えるビデオキャプチャデバイスと比較して、より現実的なオーディオをキャプチャし得るが、しばしば、
図1Aの例のビュー8A〜8Cに示されるような、いくつかのスマートフォンにおけるマイクロホン配置は、最高品質のサラウンドサウンドオーディオを可能にしない。典型的には、角部に関するデシベル差は、あまり顕著でない。すなわち、ビームを結合するときの6dB差は、識別されたビームを生成する音が、再生されるときに、非常に定位されるように感じさせないように、大きい差を作成しない。サラウンドサウンドオーディオデータを生成するとき、スマートフォンは、例えば、オーディオが前方右チャネルにより定位されるべきであるとき、定位されたオーディオであるべきであるものを、中央チャネルと前方右チャネルの両方に置き得る。
【0021】
[0028] 加えて、いくつかの前方マイクロホンと後方マイクロホンとの間、例えば、マイクロホン16Bとマイクロホン16Cとの間の近接性を考えると、スマートフォンは、前方オーディオと後方オーディオとの間を十分に区別できないことがある。前方オーディオと、後方オーディオとの間を十分に区別できないことは、スマートフォンが、前方チャネルと後方チャネルとの間でオーディオに十分な区別を提示しないサラウンドサウンドまたはマルチチャネルオーディオデータを生成する結果になることがある。言い換えれば、後方の音が前方スピーカによって(しばしば、前方と後方とを混ぜるように後方の音とともに)再生され、前方の音が後方のスピーカによって(しばしば、前方と後方とを混ぜるように前方の音とともに)再生されると、前方および後方チャネルが混じって鳴り得る。
【0022】
[0029] ビデオキャプチャデバイス10は、ビデオデータをキャプチャするときに聞こえるオーディオデータをより良好に複製するサラウンドサウンドまたはマルチチャネルオーディオデータの生成を容易にするために、本開示で説明される技術を実施し得る。本開示で説明される技術に従って、このマルチチャネルオーディオデータを生成するために、ビデオキャプチャデバイス10は、マルチチャネルオーディオデータのキャプチャを支援するために、ビデオ解析を使用し得る。ビデオキャプチャデバイス10は、ビデオシーン解析(またはコンピュータビジョン)技術を使用して、マルチチャネルオーディオデータ(しばしば、5つ以上のチャネルを有する)の生成を容易にし得る。いくつかの例では、ビデオキャプチャデバイス10がオーディオデータとビデオデータとの両方をキャプチャでき、オーディオオブジェクトを識別するために、オーディオデータを処理すると同時に、ビデオオブジェクトを識別するために、ビデオデータを処理する。ビデオキャプチャデバイス10は、これらのビデオオブジェクトと、これらのオブジェクトに関する様々なメタデータとを識別するために、ビデオシーン解析技術を行い得る。ビデオキャプチャデバイス10は、オーディオオブジェクトと、これらのオブジェクトに関する様々なメタデータとを識別する試みにおいて、聴覚的シーン解析も行い得る。これらのオブジェクトを比較することによって、ビデオキャプチャデバイスは、オーディオデータのソースであり得るこれらのビデオオブジェクトを識別し得る。
【0023】
[0030] ビデオ解析技術が、オーディオオブジェクト単独と比較して、ビデオキャプチャデバイス10に対するビデオオブジェクトの位置をより密接に識別できることを考えると、ビデオキャプチャデバイス10は、しばしば不正確なビーム形成技術に単独に依存するのと比較して、オーディオオブジェクトをより良好に定位させ得る。これらのオーディオオブジェクトは、次いで、オーディオオブジェクトを前方チャネルのうちの1つに対してより良好に位置付けるデシベル差を使用して、1つまたは複数のチャネルに対してレンダリングされ得、それによって、従来のビデオキャプチャデバイスによって生成されたものと比較して、サラウンドサウンドまたは他のタイプのマルチチャネルオーディオデータのより良好な生成を可能にする。ビデオキャプチャデバイス10によって行われる技術は、以下の
図1Bに関連してより詳細に説明される。
【0024】
[0031]
図1Bは、本開示で説明される技術を行うビデオキャプチャデバイス10をより詳細に示すブロック図である。
図1Bの例では、ビデオキャプチャデバイス10が、制御ユニット12と、カメラ14と、マイクロホン(「mic」)16A〜16E(「マイクロホン16」または「mic16」)とを含む。例示の容易さの目的のため、
図1Bの例には示されないが、ビデオキャプチャデバイス10は、一般に、ビデオキャプチャデバイス10に関連付けられた様々な他の機能を行う追加のモジュール、要素、および/またはユニットと同様に、受話口9、スピーカ11Aおよび11Bも含み得る。
【0025】
[0032] いずれにしても、制御ユニット12は、1つもしくは複数の処理ユニットに本明細書で説明される技術を行わせるための命令を記憶する記憶デバイス(例えば、ディスクドライブもしくは光学ドライブ)もしくは(フラッシュメモリ、ランダムアクセスメモリ、もしくはRAMのような)メモリ、または任意の他のタイプの揮発性もしくは不揮発性メモリのような非一時的コンピュータ可読記憶媒体(
図1には示されない)に記憶されたソフトウェアもしくはコンピュータプログラムを定義するために使用されるもののようなソフトウェア命令を実行する1つもしくは複数の中央処理ユニット(再び、
図1には示されない「CPU」)、グラフィクス処理ユニット(再び、
図1には示されない「GPU」)、または他の処理ユニットを表し得る。
【0026】
[0033] 代替的に、または付加的には、制御ユニット12は、1つもしくは複数の集積回路、1つもしくは複数の特定用途向け集積回路(ASIC)、1つもしくは複数の特定用途向け特殊プロセッサ(ASSP:Application Specific Special Processor)、1つもしくは複数のフィールドプログラマブルゲートアレイ(FPGA)、または、本明細書に記載される技術を行うための専用ハードウェアの上記の例のうちの1つもしくは複数の任意の組合せのような、専用ハードウェアを表し得る。ソフトウェアを実行するCPUおよび/もしくはGPU、専用ハードウェア、またはそれらのなにかの組合せで構成されるかにかかわらず、制御ユニット12は、いくつかの文脈で「プロセッサ」と呼ばれ得る。
【0027】
[0034] 上記で説明されるように、カメラ14は、画像をキャプチャすることが可能な任意のタイプのデバイスを表すことができ、一方マイクロホン16は、オーディオデータをキャプチャすることが可能な任意のタイプのデバイスを各々表し得る。カメラ14は、光をキャプチャし、
図1の例でビデオデータ18として示される一連の画像を生成し得る。マイクロホン16の各々は、別々のオーディオデータ20A〜20Eをキャプチャし得る。
【0028】
[0035]
図1の例にさらに示されるように、制御ユニット12は、視覚的解析ユニット22と、聴覚的解析ユニット24と、オブジェクト関連ユニット26と、レンダリングユニット28A〜28C(「レンダリングユニット28」)と、オーディオミキシングユニット30とを含む。視覚的解析ユニット22は、ビデオデータ18のようなビデオデータの視覚的シーン解析を行うハードウェアまたはハードウェアとソフトウェアとの組合せを表し得る。視覚的シーン解析は、コンピュータまたは他のデバイスが、画像の様々なオブジェクト、要素、および/または態様を検出し、識別するために、画像を処理し、解析するプロセスを指すコンピュータビジョンの態様を含み得る。コンピュータビジョンおよびマシンビジョンは、多くの重複するまたは関連する概念を有するので、コンピュータビジョンは、いくつかの例で、マシンビジョンと呼ばれ得る。しばしば、マシンビジョンは、異なる文脈であるが、コンピュータビジョンの態様および概念を用いる。技術を説明するとき、本開示は、コンピュータビジョンを参照するが、技術は、また、コンピュータビジョンとともに、またはコンピュータビジョンの代替として、マシンビジョンを使用して行われ得る。この理由のため、「マシンビジョン」および「コンピュータビジョン」という用語は、交換可能に使用され得る。
【0029】
[0036]
図1の例に示されないが、視覚的解析ユニット22は、いくつかの例で、視覚的シーン解析を行うとき、ビデオキャプチャデバイス10の外部の画像サーバまたは他のデータベースと通信し得る。視覚的解析ユニット22は、しばしばリソース(処理リソースおよび/またはメモリリソースを意味する)集約的な視覚的シーン解析プロセスの様々な態様をオフロードするために、この画像サーバと通信し得る。例えば、視覚的解析ユニット22は、オブジェクトを検出するためにいくつかの初期解析を行なって、これらのオブジェクトを識別のために画像サーバに渡し得る。画像サーバは、次いで、オブジェクトを分類または他の方法で識別し、分類されたオブジェクトを視覚的解析ユニット22に戻し得る。典型的には、視覚的解析ユニット22は、ワイヤレスセッションを介して画像サーバと通信する。そのようなものとして、ビデオキャプチャデバイス10は、(
図1の例には示されないが)1つまたは複数のインターフェースを含むことができ、これらのインターフェースによって、ビデオキャプチャデバイス10は、ワイヤレスに、またはワイヤード接続を介して、周辺デバイス、サーバ、および任意の他のタイプのデバイスまたはアクセサリと通信し得る。視覚的解析ユニット22は、視覚的シーン解析を行った結果として、ビデオオブジェクト32を出力し得る。
【0030】
[0037] 聴覚的解析ユニット24は、オーディオデータ20A〜20N(「オーディオデータ20」)のようなオーディオデータの聴覚的シーン解析を行い、オーディオオブジェクト34を生成し得る。聴覚解析ユニット24は、オーディオオブジェクトを検出し、識別するために、オーディオデータを解析し得る。オーディオオブジェクトは、所与のオブジェクトに分類また他の方法で関連付けられ得る、別個のまたは認識可能な音を指し得る。例えば、自動車のエンジンは、容易に認識可能である音を発し得る。聴覚的シーン解析は、オーディオデータ中で、これらの音を検出し、識別または分類することを試み得る。
【0031】
[0038] 視覚的解析ユニット22と同様に、聴覚的解析ユニット24は、いくつかの例で、聴覚的シーン解析を行うとき、ビデオキャプチャデバイス10の外部の、おそらくはビデオキャプチャデバイス10から離れた(
図1の例には示されない)オーディオネットワークサーバまたは他のデータベースと通信し得る。視覚的解析ユニット24は、しばしばリソース(処理リソースおよび/またはメモリリソースを意味する)集約的な聴覚的シーン解析プロセスの様々な態様をオフロードするために、このオーディオサーバと通信し得る。例えば、聴覚的解析ユニット24は、オブジェクトを検出するために、いくつかの初期解析を行って、これらのオブジェクトを識別のためにオーディオサーバに渡し得る。オーディオサーバは、次いで、オブジェクトを分類または他の方法で識別し、分類されたオブジェクトを聴覚的解析ユニット24に戻し得る。聴覚的解析ユニット24は、視覚的解析ユニット22を説明する際に上述されたインターフェースを使用して、このオーディオサーバと通信し得る。聴覚的解析ユニット24は、聴覚的シーン解析を行った結果として、オーディオオブジェクト34を出力し得る。
【0032】
[0039] オブジェクト関連付けユニット26は、ビデオオブジェクト32をオーディオオブジェクト34と関連付けることを試みるハードウェア、またはハードウェアとソフトウェアとの組合せを表す。ビデオオブジェクト32およびオーディオオブジェクト34は、ビデオオブジェクト32およびオーディオオブジェクト34が、オブジェクト32とオブジェクト34との間の関連付けを容易にする方法で両方とも定義されるという意味で、各々、互換性または共通フォーマットに従って定義され得る。オブジェクト32および34の各々は、いくつかの例を提供するために、対応するオブジェクトの予測された位置(例えば、x、y、z座標)、対応するオブジェクトのサイズ(または、予測されたサイズ)、対応するオブジェクトの形状(または、予測された形状)、対応するオブジェクトの速度(または、予測された速度)、位置の信頼水準、および、オブジェクトに焦点が合っているかどうか、または、オブジェクトが、近い前景、遠い前景、近い背景、もしくは遠い背景のいずれに属しているか、のうちの1つまたは複数を定義するメタデータを含み得る。オブジェクト関連付けユニット26は、メタデータに基づいて、1つまたは複数のビデオオブジェクト32を1つまたは複数のオーディオオブジェクト34と関連付け(しばしば、ビデオオブジェクト32のうちの単一のものをオーディオオブジェクト34の単一のものと関連付け)し得る。
【0033】
[0040] オブジェクト関連付けユニット26は、オブジェクト32および34を、3つのクラスのうちの1つに分類し得る。第1のクラスは、オーディオオブジェクト34のうちの、メタデータを有するビデオオブジェクト32のうちの1つに関連付けられたメタデータを有するものを含む。第2のクラスは、オーディオオブジェクト34のうちの、ビデオオブジェクト32のうちのいずれにも関連付けられていないものを含む。第3のクラスは、ビデオオブジェクト32のうちの、オーディオオブジェクト34のうちのいずれにも関連付けられていないものを含む。オブジェクト関連付けユニット26は、第1のクラスに分類されたオーディオオブジェクト34(オーディオオブジェクト34’として示される)を、支援型オーディオレンダリングユニット28Aに渡し得る。オブジェクト関連付けユニット26は、第2のクラスに分類されたオーディオオブジェクト34(オーディオオブジェクト34’’として示される)を、無支援型オーディオレンダリングユニット28Bに渡し得る。オブジェクト関連付けユニット26は、第3のクラスに分類されたビデオオブジェクト32(ビデオオブジェクト32’として示される)を、拡張現実オーディオレンダリングユニット28Cに渡し得る。
【0034】
[0041] 3つのクラスに関連して説明されるが、技術は、最初の2つのクラスのみに関連して実施され得る。第3のクラスは、言い換えれば、利用可能なリソースに基づいて適応的に行われ得る。いくつかの例で、第3のクラスは、特に、電力が限られた、またはリソースが限られたデバイスで利用されない。いくつかの例で、これらの電力が限られた、またはリソースが限られたデバイスは、第3のクラスが利用されないので、拡張現実オーディオレンダリングユニット28Cを含まなくてもよい。さらに、オブジェクト関連付けユニット26は、ビデオオブジェクトを渡さなかったり、そうでなければ第3のクラスに分類しなかったりし得る。従って、この技術は、本開示で説明される例に限定されるべきでなく、第3のクラスでなく第1および第2のクラスに対して行われ得る。
【0035】
[0042] いずれにせよ、レンダリングユニット28は、各々、それぞれ、オーディオオブジェクト34’、34’’およびビデオオブジェクト32’のうちの1つまたは複数からオーディオデータ38A〜38Cをレンダリングするように構成されたハードウェア、またはハードウェアとソフトウェアとの組合せを表す。支援型オーディオレンダリングユニット28Aは、支援型オーディオレンダリングユニット28Aが、ビデオオブジェクト32のうちの一致するまたは関連付けられたものによって潜在的に拡張されるメタデータを有するオーディオオブジェクト34’を受信する点で、「支援型」オーディオレンダリングユニット28Aと呼ばれ得る。この意味で、レンダリングユニット28Aは、ビデオオブジェクト32のうちの対応する、または関連付けられたものから、オーディオオブジェクト34’をより正確にレンダリングする上で支援を受け得る。支援型オーディオレンダリングユニット28Aは、ユニット28Aがビデオオブジェクトと関連付けられたオーディオオブジェクトを受信することを考えれば、これらのオーディオオブジェクトが、カメラによってキャプチャされ、従って前景に存在するビデオオブジェクトと関連付けられていることを示す、前景レンダリングユニット28Aと呼ばれ得る。
【0036】
[0043] 無支援型オーディオレンダリングユニット28Bは、レンダリングユニット28Bが第2のクラスに分類されたオーディオオブジェクト34’’をレンダリングする点で、これらのオーディオオブジェクト34’’がビデオオブジェクト32のうちのいずれとも関連付けられていないという意味で、「無支援型」と呼ばれ得る。従って、レンダリングユニット28Bは、ビデオオブジェクト32のうちのいずれからも、オーディオオブジェクト34’’をレンダリングする上でどのような支援も受けない。無支援型オーディオレンダリングユニット28Bは、また、オーディオオブジェクトユニット28Bの処理がどのビデオオブジェクトとも関連付けられていない点で、これらのオブジェクトが、背景、または、ビデオデータ18としてシーンをキャプチャするユーザの背後に存在し得るという意味で、背景レンダリングユニット28Bと呼ばれ得る。
【0037】
[0044] 拡張現実オーディオレンダリングユニット28Cは、レンダリングユニット28Cが、一致しないまたは関連付けられていないビデオオブジェクト32’に対応するオーディオオブジェクトを取得し、オーディオデータ38Cを、マイクロホン16によってキャプチャされたオーディオデータ20を反映する拡張オーディオデータ38Aおよび38Bにレンダリングするために、(デバイス10の内部または外部のいずれかに配置された)オーディオライブラリ、または他のオーディオリポジトリにアクセスできるという意味で、「現実を拡張」し得る。拡張現実オーディオレンダリングユニット28Cは、カメラ14によってビデオデータ18としてキャプチャされたシーン内で検出されたビデオオブジェクト32’をユニット28Cが処理して与えられる前景のオーディオデータをレンダリングし得る。
【0038】
[0045] レンダリングユニット28の各々は、空間化方法でオーディオデータ38A〜38Cをレンダリングし得る。言い換えれば、レンダリングユニット28は、空間化されたオーディオデータ38A〜38Cを生成でき、ここで、オーディオオブジェクト34’、34’’、および34’’’の各々(尚、オーディオオブジェクト34’’’は、拡張現実オーディオレンダリングユニット28Cによって取得された拡張現実オーディオオブジェクト34’’’を指す)は、再生のための特定のスピーカ較正を想定して割り当てられ、レンダリングされる。レンダリングユニット28は、頭部伝達関数(HRTF)と、空間化されたオーディオデータをレンダリングするときに一般的に使用される他のアルゴリズムとを使用して、オーディオオブジェクト34’、34’’、および34’’’をレンダリングし得る。
【0039】
[0046] オーディオミキシングユニット30は、オーディオデータ38A〜38C(「オーディオデータ38」)を、特定のマルチチャネルオーディオデータフォーマットにミックスするハードウェア、またはハードウェアとソフトウェアとの組合せを表す。本開示でのマルチチャネルオーディオデータへの参照は、ステレオ、またはより高次のマルチチャネルオーディオデータを指し得る。より高次のマルチチャネルオーディオデータは、5.1サラウンドサウンドオーディオデータまたは7.1サラウンドサウンドオーディオデータを含むことができ、ここで、ピリオドの前の第1の数は、チャネルの数を指し、ピリオドの後の数は、低音または低周波数チャネルの数を指す。例えば、5.1サラウンドサウンドオーディオデータは、左チャネルと、中央チャネルと、右チャネルと、左後方またはサラウンド左チャネルと、右後方またはサラウンド右チャネルとを、単一の低周波数チャネルとともに含む。ミキシングユニット30は、マルチチャネルオーディオデータ40を生成するために、オーディオデータ38を、1つまたは複数のこれらのマルチチャネルオーディオデータフォーマットにミックスし得る。
【0040】
[0047] 動作時に、ビデオキャプチャデバイス10は、ビデオデータ18をキャプチャするために、カメラ14を呼び出すように構成され得、また同時に、オーディオデータ20A〜20E(「オーディオデータ20」)をキャプチャするために、マイクロホン16の1つまたは複数、しばしばすべてを呼び出すように構成され得る。ビデオデータ18およびオーディオデータ20の受信に応答して、ビデオキャプチャデバイス10の制御ユニット12は、マルチチャネルオーディオデータ40を生成するための本明細書で説明される技術を行うように構成され得る。
【0041】
[0048] オーディオデータ20を受信すると、制御ユニット12は、聴覚的解析ユニット24を呼び出すことができ、聴覚的解析ユニット24は、1つまたは複数のオーディオオブジェクト34を識別するために、オーディオデータ20を解析し得る。上記で簡単に説明さるように、聴覚的解析ユニット24は、オーディオオブジェクト34を識別して生成するために、聴覚的シーン解析を行い得る。同様に、ビデオデータ18を受信すると、制御ユニット12は、視覚的解析ユニット22を呼び出すように構成され得、視覚的解析ユニット22は、1つまたは複数のビデオオブジェクト32を識別するために、オーディオデータ20の解析および/またはキャプチャと同時にビデオデータ18を解析し得る。また、上記で簡単に説明されるように、視覚的解析ユニット22は、1つまたは複数のビデオオブジェクト32を識別し生成するために、(コンピュータビジョンアルゴリズムを使用して)視覚的シーン解析を行い得る。
【0042】
[0049] 視覚的解析ユニット22および聴覚的解析ユニット24は、共通または共有フォーマットを使用して、それぞれ、ビデオオブジェクト32とオーディオオブジェクト34とを生成するように構成され得る。しばしば、この共有フォーマットは、メタデータと呼ばれ得るテキスト構成要素を含む。このメタデータは、ビデオオブジェクト32とオーディオオブジェクト34とのうちの対応する1つの様々な特性または態様を記述し得る。ビデオオブジェクト32のうちの対応する1つを記述するビデオメタデータは、いくつかの非限定的な例として、対応するビデオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの1つまたは複数を備える1つまたは複数のオーディオメタデータを指定し得る。オーディオオブジェクト32のうちの対応する1つを記述するオーディオメタデータは、同様に、非限定的な例を提供するために、対応するオーディオオブジェクトの、オーディオオブジェクトの位置と、オーディオオブジェクトの形状と、オーディオオブジェクトの速度と、位置の信頼水準とのうちの1つまたは複数を指定し得る。
【0043】
[0050] オーディオメタデータとビデオメタデータの両方は、この同じ意味レベル、すなわち、この例では同じテキスト意味レベルに抽象化されるので、このメタデータによって指定されるそれぞれのタグ(上記で説明されるメタデータの異なるタイプの各々を指すことができる)を、ビデオキャプチャデバイス10は、テキスト領域で直接比較し、マッピングし(言い換えれば、オブジェクトを関連付ける)得る。マッピングされたオブジェクトを用いて、ビデオキャプチャデバイス10は、デバイスがオブジェクトを「見る」方法を、デバイスがシーン内のオブジェクトを「聞く」方法と直接関連付けし得る。
【0044】
[0051] 制御ユニット12は、ビデオオブジェクト32とオーディオオブジェクト34とを受信し、オブジェクト関連付けユニット26を呼び出し得る。オブジェクト関連付けユニット26は、オーディオオブジェクト34のうちの少なくとも1つをビデオオブジェクト32のうちの少なくとも1つと関連付けし得る。オブジェクト関連付けユニット26は、この関連付けを行うとき、典型的にはメタデータ(いくつかの例では、オーディオオブジェクトのタイプを定義できる)に基づいて、オーディオオブジェクト34の各々を、オーディオオブジェクトのタイプとして分類し得る。同様に、オブジェクト関連付けユニット26は、この関連付けを行うとき、典型的には対応するメタデータ(いくつかの例では、また、ビデオオブジェクトのタイプを定義できる)に基づいて、ビデオオブジェクト32の各々を、ビデオオブジェクトのタイプとして分類し得る。ビデオオブジェクトの例示的なタイプは、自動車、ビーチ、波、流水、音楽、人、犬、猫、などを備え得る。オブジェクト関連付けユニット26は、次いで、オーディオオブジェクト34のうちの1つのタイプがビデオオブジェクト32のうちの1つと同じタイプであることを決定し得る。オーディオオブジェクト34のうちの1つのタイプがビデオオブジェクト32のうちの1つと同じタイプであることの決定に応答して、オブジェクト関連付けユニット26は、オーディオオブジェクト34のうちの1つをビデオオブジェクト32のうちの1つと関連付けし得る。
【0045】
[0052] オブジェクト関連付けユニット26は、上記で説明される3つの異なるクラスのうちの1つへのオーディオオブジェクト34の分類に基づいて、様々なオーディオオブジェクトを生成し得る。再び、第1のクラスは、オーディオオブジェクト34のうちの、メタデータを有するビデオオブジェクト32のうちの1つに関連付けられたメタデータを有するものを含む。第2のクラスは、オーディオオブジェクト34のうちの、ビデオオブジェクト34のうちのいずれにも関連付けられていないものを含む。第3のクラスは、ビデオオブジェクト32のうちの、オーディオオブジェクト34のうちのいずれにも関連付けられていないものを含む。
【0046】
[0053] オブジェクト関連付けユニット26は、第1のクラスに分類されたオーディオオブジェクト34(オーディオオブジェクト34’として示される)を、支援型オーディオレンダリングユニット28Aに渡し得る。オブジェクト関連付けユニット26は、第2のクラスに分類されたオーディオオブジェクト34(オーディオオブジェクト34’’として示される)を、無支援型オーディオレンダリングユニット28Bに渡し得る。オブジェクト関連付けユニット26は、第3のクラスに分類されたビデオオブジェクト32(ビデオオブジェクト32’として示される)を、拡張現実オーディオレンダリングユニット28Cに渡し得る。
【0047】
[0054] オーディオオブジェクト34のうちの、第1のクラスに属すると決定されたものに関して、オブジェクト関連付けユニット26は、オーディオオブジェクト34のうちの1つのオーディオメタデータと、関連付けられた1つのビデオオブジェクト32のビデオメタデータとの間の相関のレベルを決定でき、決定された相関のレベルに基づいて、1つのビデオオブジェクト32が関連付けられたオーディオオブジェクト34のうちの1つに関する複合メタデータを生成する。いくつかの例では、オブジェクト関連付けユニット26が、オーディオメタデータおよびその一部を、オーディオメタデータによって指定された場所と同様に、対応するビデオメタデータまたはその一部で置き換え得る。オブジェクト関連付けユニット26は、次いで、このオーディオオブジェクト34を、オーディオオブジェクト34’の1つとして、支援型オーディオレンダリングユニット28Aに渡し得る。支援型オーディオレンダリングユニット28Aは、次いで、オーディオオブジェクト34’のうちの1つに関して生成された複合メタデータに基づいて、マルチチャネルオーディオデータ40の1つまたは複数の前景チャネルにオーディオオブジェクト34’のうちの1つをレンダリングし得る。支援型オーディオレンダリングユニット28Aは、マルチチャネルオーディオデータ40のこの部分を、オーディオデータ38Aとして、オーディオミキシングユニット30に渡す。
【0048】
[0055] 第2のクラスに属すると決定されたオーディオオブジェクト34のうちのこれらに関して、オブジェクトレンダリングユニット26は、オーディオオブジェクト34のうちの1つがビデオオブジェクト32のうちのいずれにも関連付けられていないことを決定し得る。オブジェクトレンダリングユニット26は、これらのオーディオオブジェクト34を、オーディオオブジェクト34’’のうちの1つとして、無支援型オーディオレンダリングユニット28Bに渡し得る。無支援型オーディオレンダリングユニット28Bは、オーディオオブジェクト34’’のうちの1つがマルチチャネルオーディオデータ40の1つまたは複数の背景チャネルに源を発するように、マルチチャネルオーディオデータ40を生成し得る。すなわち、これらのオーディオオブジェクト34は、ビデオオブジェクト32のうちのいずれにも関連付けられていないので、無支援型オーディオレンダリングユニット28Bは、これらのオーディオオブジェクト34’’が、カメラ14によってキャプチャされたシーンの外部で生じるオブジェクトであると想定するように構成される。そのように、無支援型オーディオレンダリングユニット28Bは、しばしば拡散音として背景中のオーディオオブジェクト34’’をレンダリングするように構成され得る。無支援型オーディオレンダリングユニット28Bは、マルチチャネルオーディオデータ40のこの部分を、オーディオメタデータ38Bとしてオーディオミキシングユニット30に渡す。
【0049】
[0056] 第3のクラスに属すると決定されたこれらのビデオオブジェクト32に関して、すなわち、ビデオオブジェクト32が、
図1Bの例におけるオーディオオブジェクト34のいずれにも関連付けられていない場合、オブジェクト関連付けユニット26は、これらのビデオオブジェクト32を、ビデオオブジェクト32’として拡張現実オーディオレンダリングユニット28Cに渡し得る。拡張現実オーディオレンダリングユニット28Cは、ビデオオブジェクト32’を受信することに応答して、ビデオオブジェクト32’の(可能な場合)1つ1つに関連付けられていたであろうオーディオライブラリから基準オーディオオブジェクトを取得し得る。拡張現実オーディオレンダリングユニット28Cは、次いで、マルチチャネルオーディオデータ40の少なくとも一部を生成するために、基準オーディオオブジェクト(オーディオオブジェクト34’’’とも呼ばれ得る)の各々をレンダリングし得る。拡張現実オーディオレンダリングユニット28Cは、マルチチャネルオーディオデータ40のこの部分を、オーディオデータ38Cとしてオーディオミキシングユニット30に渡す。
【0050】
[0057] オーディオミキシングユニット30は、オーディオデータ38を受信し、マルチチャネルオーディオデータ40を形成するために、このオーディオデータ38をミックスする。オーディオミキシングユニット30は、任意の形式のマルチチャネルオーディオデータ40を生成するために、上記で説明される方法で、このオーディオデータ38をミックスし得る。これらのフォーマットは、5.1サラウンドサウンドフォーマット、7.1サラウンドサウンドフォーマット、10.1サラウンドサウンドフォーマット、22.2サラウンドサウンドフォーマット、または任意の他の独自もしくは非独自フォーマットを含み得る。
【0051】
[0058] この方法では、ビデオキャプチャデバイス10の制御ユニット12が、1つまたは複数のオーディオオブジェクトを識別するためにオーディオデータを解析し、1つまたは複数のビデオオブジェクトを識別するためにオーディオデータのキャプチャと同時にデバイスでキャプチャされたビデオデータを解析するように構成され得る。制御ユニット12は、さらに、オーディオオブジェクト34のうちの1つをビデオオブジェクト32のうちの1つと関連付け、ビデオオブジェクト32のうちの1つとのオーディオオブジェクト34のうちの1つの関連付けに基づいて、オーディオデータ20からマルチチャネルオーディオデータ40を生成するように構成され得る。
【0052】
[0059] ビデオシーン解析が、オーディオオブジェクト単独と比較して、ビデオキャプチャデバイス10に対するビデオオブジェクトの位置をより密接に識別できることを考えると、ビデオキャプチャデバイス10は、しばしば不正確なビーム形成技術に単独に依存するのと比較して、オーディオオブジェクトをより良好に定位させ得る。これらのオーディオオブジェクトは、次いで、オーディオオブジェクトを前方チャネルのうちの1つに対してより良好に位置付けるデシベル差を使用して、1つまたは複数のチャネルに対してレンダリングされ得、それによって、従来のビデオキャプチャデバイスによって生成されたものと比較して、サラウンドサウンドまたはマルチチャネルオーディオデータのより良好な生成を可能にする。
【0053】
[0060] さらに、ビデオキャプチャデバイスは、いくつかの例で、前景(聴取者の前方180度)内の別個のオーディオソースとしてオーディオオブジェクト32をレンダリングし得る。ビデオキャプチャデバイス10が「聞く」が、「見ない」オーディオオブジェクト32に関して、ビデオキャプチャデバイス10は、これらのオーディオオブジェクト32が聴取者の背後にある可能性が高いので、これらのオーディオオブジェクト32を背景内にレンダリングし得る。
【0054】
[0061] ビデオキャプチャデバイス10によって行われるものとして上記では説明されるが、技術は、ビデオデータ18とオーディオデータ20とをキャプチャしたデバイスと異なるデバイスによって実施され得る。言い換えれば、スマートフォンまたは他のビデオキャプチャデバイスは、ビデオデータとオーディオデータとをキャプチャでき、このビデオデータおよびオーディオデータを、専用処理サーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットもしくはスレートコンピュータ、または、データを処理できる任意の他のタイプのデバイスなどの異なるデバイスにアップロードする。この他のデバイスは、次いで、より正確なサラウンドサウンドまたはマルチチャネルオーディオデータと考えられ得るものの生成を容易にするために、本開示で説明される技術を行い得る。従って、ビデオおよびオーディオデータをキャプチャしたデバイスによって行われるものとして説明されるが、技術は、ビデオおよびオーディオデータをキャプチャしたデバイスとは異なるデバイスによって行われ得、この点において、本開示で説明される例に限定されるべきでない。
【0055】
[0062]
図2A〜
図2Dは、本開示で説明される技術に従ってビデオオブジェクト32をオーディオオブジェクト34と関連付ける際に
図1のビデオキャプチャデバイス10によって行われる動作を示す図である。上記の
図2Aでは、オーディオオブジェクト34のうちの1つ(
図2Aの例で「オーディオオブジェクト34A」と表記される)と、ビデオオブジェクト32のうちの1つ(
図2Aの例で「ビデオオブジェクト32A」と表記される)とが、それぞれのオーディオメタデータ54Aと、ビデオメタデータ52Aとを含む。ビデオキャプチャデバイス10のオブジェクト関連付けユニット26は、拡張メタデータ56Aを有する(
図1Bの例に示されるオーディオオブジェクト34のうちの1つである)拡張オーディオオブジェクト34A’を生成するために、オーディオデータ54Aを拡張するために、ビデオメタデータ52Aを使用して、オーディオオブジェクト34Aをビデオオブジェクト32Aと関連付けし得る。この拡張メタデータ56Aは、オーディオメタデータ54Aとビデオメタデータ52Aとの両方を含むことができ、ここで、いくつかの例では、ビデオメタデータ52Aが、オーディオメタデータ54Aの一部またはすべてを置き換え得る。いくつかの例では、オブジェクト関連付けユニット26が、オーディオメタデータ54Aとビデオメタデータ52Aとが高い相関を有することを決定し得る。
【0056】
[0063] 他の例では、オブジェクト関連付けユニット26が、オーディオメタデータ54Aとビデオメタデータ52Aとが低い相関を有することを決定し得る。この例で、オブジェクト関連付けユニット26は、拡張メタデータ56Aを生成するときに、オーディオメタデータ52Aよりもビデオメタデータ52Aを支持するために、ビデオメタデータ52Aに重み付けし得る。マルチチャネルオーディオデータ40を生成するために、このオーディオオブジェクト34A’をレンダリングし、ミキシングするときに、支援型オーディオレンダリングユニット28Aは、オーディオメタデータ54Aとビデオメタデータ52Aとの間の相関の不足のため、前景のより多くのチャネルにまたがってより拡散して広がるオーディオオブジェクト34A’として、このオーディオオブジェクト34A’をレンダリングし得る。ビデオキャプチャデバイス10は、オブジェクトを拡散させるために、これらのオブジェクトにサウンド非相関化のような様々な拡散アルゴリズムを行い得る。
【0057】
[0064]
図2Bの例では、聴覚的解析ユニット24が、オーディオオブジェクト34のうちの別の1つ(
図2Bの例ではオーディオオブジェクト34Bと表記される)を識別するが、オーディオオブジェクト34Bのための任意のメタデータを識別できない。この例は、複数のマイクロホンがビデオキャプチャデバイス10上で利用可能でなく、結果として、ビデオキャプチャデバイス10がオーディオメタデータを決定できない例を反映している。結果として、オブジェクト関連付けユニット26は、オーディオオブジェクト34B’(オーディオオブジェクト34’のうちの1つを指す)を生成するために、このオーディオオブジェクトをレンダリングするときに、オーディオメタデータの代わりに、関連付けられたビデオオブジェクト32Bのビデオメタデータ52Bを利用し得る。
図2Bの例に示されるように、オーディオオブジェクト34B’は、ビデオメタデータ52Bを含む。
【0058】
[0065]
図2Cの例では、聴覚的解析ユニット24が、オーディオオブジェクト34のうちの1つ(「オーディオオブジェクト34C」と表記される)を識別し、このオーディオオブジェクトのためのオーディオメタデータ54Cを決定するが、このオーディオオブジェクト34Cが対応するビデオオブジェクト32のいずれも識別できない。このオーディオオブジェクト34Cのために何もビデオオブジェクトが識別されていないので、オブジェクト関連付けユニット26は、オーディオオブジェクト34Cがビデオキャプチャデバイス10の後ろに配置されることを決定し得る。オブジェクト関連付けユニット26は、この決定に基づいて、オーディオオブジェクト34Cを、オーディオオブジェクト34’’のうちの1つ(すなわち、
図2Cの例ではオーディオオブジェクト34C’’)として無支援型レンダリングユニット28Bに渡すことができ、無支援型レンダリングユニット28Bは、次いで、このオーディオオブジェクトを、マルチチャネルオーディオデータ40の背景チャネルにおいてレンダリングし得る。このオーディオオブジェクト34C’’をレンダリングするとき、無支援型オーディオレンダリングユニット28Bは、オーディオオブジェクト34C’’を、オーディオメタデータ54C内の予測された位置に基づいて、または、背景チャネルに非常に拡散してまたがってレンダリングし得る。すなわち、ビデオキャプチャデバイス10は、オーディオメタデータに基づいて実際の位置を推定し、または、オブジェクトが特定の知覚的角度なしで空間中の雲状の形状を有するように、(上記の識別された音の拡散プロセスを使用して)オブジェクトを非常に拡散してレンダリングし得る。
【0059】
[0066]
図2Dの例では、オブジェクト関連付けユニット26が、ビデオメタデータ52Dを含むビデオオブジェクト32のうちの1つ(
図2Dの例では「ビデオオブジェクト32D」と表記される)を受信するが、ビデオオブジェクト32Dをオーディオオブジェクト34のいずれとも関連付けることができない。結果として、オブジェクト関連付けユニット26は、ビデオオブジェクト32Dを、ビデオオブジェクト32’のうちの1つ(すなわち、
図2Dの例ではビデオオブジェクト32D’)として拡張現実オーディオレンダリングユニット28Cに渡す。ビデオオブジェクト32Dは、ビデオメタデータ52Dを含む。拡張現実オーディオレンダリングユニット28Cは、基準オーディオオブジェクト34’’’のライブラリにアクセスし、ビデオオブジェクト32D’に関連付けられていたであろう基準オーディオオブジェクト34’’’のうちの(例えば、オブジェクト32D’のタイプを識別するビデオメタデータ52Dで指定されたタイプと一致する基準オーディオオブジェクト34’’’のような)1つを取得するために、ビデオメタデータ52Dを利用し得る。拡張現実オーディオレンダリングユニット28Cは、次いで、オーディオオブジェクト34’’’のレンダリングを精密化するまたは他の方法で空間化するために、ビデオメタデータ52Dを使用してこの基準オーディオオブジェクト34’’’をレンダリングし得る。
【0060】
[0067] このように、ビデオキャプチャデバイス10は、関連付けられたビデオオブジェクトによって指定されたメタデータとのオーディオオブジェクトによって指定されたメタデータの相関関係に基づいて、オーディオオブジェクトをレンダリングし、オーディオオブジェクトを、いくつかのビデオオブジェクトまたはその一部から発生するものとして定位させることを試み得る。ビデオシーン解析がしばしば聴覚的シーン解析よりもはるかに正確であることを考慮すると、ビデオキャプチャデバイス10は、(
図2Aのような)いくつかの例で、オーディオオブジェクトメタデータよりもビデオオブジェクトメタデータを(重みを使用して)支持する。ビデオキャプチャデバイスは、いくつかの例で、まったくメタデータを有していない、または非常に不確かなメタデータ(
図2Bの例に示されるような)を有するオーディオオブジェクトを生成することがあり、ここで、ビデオキャプチャデバイスは、オーディオオブジェクトをレンダリングするときに使用されるメタデータとして使用するための「一致する」ビデオオブジェクトメタデータをインポートし得る。
【0061】
[0068] 例示するために、拡張メタデータ56Aは、オーディオメタデータ54Aとビデオメタデータ52Aの両方を含むことができ、ここで、いくつかの例では、ビデオメタデータ52Aが、オーディオメタデータ54Aを置き換え得る。いくつかの例では、ビデオキャプチャデバイス10が、高い相関を有するオーディオメタデータ54Aとビデオメタデータ52Aとを決定し得る。言い換えれば、ビデオキャプチャデバイス10は、オーディオメタデータ54Aで指定された音を発生したオブジェクトの位置が、ビデオメタデータ52Aによって定義された対応するオブジェクトの位置と高い程度(例えば、しばしばパーセンテージとして表されるなにかの信頼度しきい値によって定義され得る)まで相関することを決定し得る。ビデオキャプチャデバイス10は、次いで、高い信頼度を有するマルチチャネルオーディオデータ40を生成するために、オーディオオブジェクトをレンダリングし、ミックスし得る。
【0062】
[0069] 他の例では、ビデオキャプチャデバイス10が、オーディオメタデータ54Aとビデオメタデータ52Aとが低い相関を有することを決定し得る。この例で、ビデオキャプチャデバイス10は、拡張メタデータ56Aを生成するとき、オーディオメタデータ54Aよりもビデオメタデータ52Aを支持するために、ビデオメタデータ52Aを重み付けし得る。マルチチャネルオーディオデータ40を生成するためにオーディオオブジェクト34A’をレンダリングし、ミックスするときに、ビデオキャプチャデバイス10は、オーディオメタデータ54Aとメタデータ52Aとの間の相関の不足のために、オーディオオブジェクト34A’をより拡散するようにレンダリングし、前景のより多くのチャネルにまたがってオーディオオブジェクト34A’を拡散させ得る。
【0063】
[0070]
図3は、
図1Bの支援型オーディオレンダリングユニット28Aをより詳細に示すブロック図である。
図3の例では、支援型オーディオレンダリングユニット28Aが、いくつかの空間オーディオレンダリングユニット60A〜60N(「空間オーディオレンダリングユニット60」)を含む。いくつかの空間オーディオレンダリングユニット60が
図3の例に示されるが、支援型オーディオレンダリングユニット28は、いくつかの例で、複数のオブジェクトを並列に処理できる単一の空間オーディオレンダリングユニット60のみを含み得る。代替的には、支援型オーディオレンダリングユニット28は、単一のオーディオオブジェクトのみを処理できる単一の空間オーディオレンダリングユニット60を含み得る。技術は、従って、この点で
図3の例に限定されるべきでない。
【0064】
[0071]
図3の例では、空間オーディオレンダリングユニット60の各々が、オーディオオブジェクト38Aを生成するために、オーディオオブジェクト34A’〜34N’(
図1Bの例に示される「オーディオオブジェクト34’’’」)に関して空間オーディオレンダリングを行う別々のオーディオレンダリングプロセスを表し得る。空間オーディオレンダリングは、オーディオデータをレンダリングするための様々なアルゴリズムまたはプロセスを指すことができ、2、3の例として、アンビソニックス、波面合成(WFS:wave field synthesis)、およびベクトルベースの振幅パニング(VBAP:vector−based amplitude panning)を含み得る。空間オーディオレンダリングユニット60は、拡張メタデータ56A〜56N(「拡張メタデータ56」)に基づいて、オーディオオブジェクト34’のそれぞれを処理し得る。すなわち、空間オーディオレンダリングユニット60は、マルチチャネルオーディオデータ40が再生されるとき、オーディオオブジェクト34’の対応するものがより正確に再生できるように、オーディオオブジェクト34’の対応するものをさらに精密化するまたは他の方法でより正確に定位させるために、拡張メタデータ56を使用してオーディオオブジェクト34’をレンダリングし得る。空間オーディオレンダリングユニット60は、レンダリングされたオーディオデータ38Aをオーディオミキシングユニット30に出力でき、オーディオミキシングユニット30は、次いで、マルチチャネルオーディオデータ40を生成するためにレンダリングされたオーディオデータ38Aをミックスできる。いくつかの例では、所与のオーディオオブジェクト34’に対応するオーディオデータ38Aが、マルチチャネルオーディオデータ40の2つ以上のチャネルにまたがってミックスされ得る。
【0065】
[0072]
図3の例で支援型オーディオレンダリングユニット28Aに関して説明されるように、レンダリングユニット28の各々は、空間オーディオレンダリングユニット60と同様の空間オーディオレンダリングユニットを含むことができ、この空間オーディオレンダリングユニットは、(再び、基準オーディオライブラリから取得された、ビデオオブジェクト32’に関連付けられていたであろう基準オーディオオブジェクト34’’’を指す)、オーディオデータ38Bと38Cとを生成するためにオーディオオブジェクト34’’と34’’’を同様に処理し得る。さらに、レンダリングユニット28Cを含むように説明されるが、ビデオキャプチャデバイス10は、レンダリングユニット28Cを含まなくてもよく、ここで、ビデオキャプチャデバイス10は、本開示で説明される技術の拡張現実オーディオレンダリングの態様を行わなくてもよい。
【0066】
[0073]
図4は、
図1Bの例で示されるビデオキャプチャデバイス10のカメラ14によってキャプチャされ、本開示で説明される技術に従って処理されたシーン70を示す図である。シーン70は、
図1Bの例に示されるビデオデータ18の一部を表し得る。ビデオキャプチャデバイス10は、シーン70を受信することに応答して、視覚的解析ユニット22を呼び出すことができ、視覚的解析ユニット22は、ビデオオブジェクト32を識別するために、シーン70を処理する。
【0067】
[0074]
図4に示されるように、シーン70は、例えば、フレームの時間的シーケンスで、第1のフレームまたは画像72Aと、第2のフレームまたは画像72Bと、第3のフレームまたは画像72Cとを含む。例示の容易さの目的のために3つのフレームまたは画像72A〜72C(「画像72」)のみを含むものとして示されるが、シーン70は、多数の画像72または単一の画像72を含むことができ、技術は、この点で、
図4に示される例に限定されるべきでない。
【0068】
[0075] いずれにしても、視覚的解析ユニット22は、ビデオオブジェクト32A〜32Gを識別するために、コンピュータビジョンアルゴリズムを使用して画像72Aを処理し得る。視覚的解析ユニット22は、ビデオメタデータ52A〜52Gを含むように、または他の方法でビデオメタデータ52A〜52Gと関連付けられるように、ビデオオブジェクト32A〜32Gを生成し得る。ビデオメタデータ52A〜52Gは、シーン70をキャプチャしたカメラ14に対するビデオオブジェクト32A〜32Gの対応する位置を定義し得る。ビデオメタデータ52A〜52Gは、また、一般的には、例えば、マシンビジョンベースのオブジェクト認識に基づいて、ビデオオブジェクト32のうちの対応するもののタイプを識別でき、マシンビジョンベースのオブジェクト認識は、視覚的解析ユニット22内に、または、1つまたは複数の外部の、およびおそらくはリモートのネットワークサーバとともに視覚的解析ユニット22によって完全にサポートされ得る。例えば、ビデオオブジェクト32Aと関連付けられたビデオメタデータ52Aは、ビデオオブジェクト32Aを自動車として識別し得る。ビデオメタデータ52B〜32Fは、別の例として、ビデオオブジェクト32B〜32Fの対応するもののタイプを、人間として識別し得る。ビデオメタデータ52Gは、さらに別の例として、対応するビデオオブジェクト32Gのタイプを、ステレオとして識別し得る。
【0069】
[0076] 視覚的解析ユニット22は、移動、速度、または、ビデオオブジェクト32A〜32Gがシーン70の間にどのように移動するのかを記述する他の位置に関連するメトリックスを表現するために、視覚的メタデータ52A〜52Gの形態の位置情報を生成するために、1つまたは複数の画像72を同時に解析し得る。例示するために、画像72Aから画像72Cまでのビデオオブジェクト32Aを検討し、ここで、ビデオオブジェクト32Aは、ほぼ水平線に沿って、第1の位置から第2の位置に、次いで第3の位置に移動している。視覚的解析ユニット22は、オブジェクト32Aを識別し、画像72Aから画像72B、次いで画像72Cまでに、ビデオオブジェクト32Aが、第1の位置から第2の位置に、次いで第3の位置に移動していることを示すために、ビデオメタデータ52Aを生成し得る。このビデオメタデータ52Aは、オーディオオブジェクト34のうちの対応するもの(例えば、オーディオオブジェクト34A)と関連付けられているとき、オブジェクト関連付けユニット26が、オーディオオブジェクト34Aとして識別されたオーディオデータを発するオブジェクトの位置を(視覚的シーン解析が、一般に、聴覚的シーン解析よりも正確であると考えると)より正確に指定するようにオーディオメタデータ54Aを拡張することを可能にし得る。オブジェクト関連付けユニット26は、次いで、(例えば、
図2Aに示されるような)拡張メタデータ56Aを有するオーディオオブジェクト34’を生成し得る。
【0070】
[0077] 別の例として、ビデオオブジェクト32Gを、シーン70内で移動するものとして検討する。最初に、画像72Aは、第1の位置のビデオオブジェクト32Gを示す。画像72Bは、第2の位置のビデオオブジェクト32Gを示す。画像72Cは、ビデオオブジェクト32Gを含まず、ビデオオブジェクト32Gがシーンを離れており、背景内にあるか、カメラ14によってキャプチャされているシーン70の左または右側に外れていることを示唆している。オブジェクト関連付けユニット26は、次いで、ビデオオブジェクト32Gがシーン70を通って移動するようにビデオオブジェクト32Gの位置を指定するビデオメタデータ52Gを含むようにビデオオブジェクト32Gを生成し得る。オブジェクト関連付けユニット26は、ビデオオブジェクト32Gを、同じタイプ、すなわち、本例ではステレオを指定するメタデータを有するオーディオオブジェクト34のうちの1つと関連付けし得る。しかしながら、ビデオオブジェクト32Gがシーンから離れることを考えると、オブジェクト関連付けユニット26は、ビデオメタデータ52Gによって指定された位置情報を置き換えるか、そうでなければ利用できず、代わりに、オーディオオブジェクト34のこの1つに関連付けられたオーディオメタデータ54によって指定された位置情報を維持する。
【0071】
[0078] オブジェクト関連付けユニット26は、画像72A、72Bに関して再生するための、オーディオオブジェクト34のうちの関連付けられた1つ、例えば、オーディオオブジェクト34Gをレンダリングするときに、ビデオメタデータ52Gによって指定された位置を利用し得る。しかしながら、ビデオメタデータ52Gは、これらのときの位置に関する高い信頼レベルを指定できるが、画像72Cに対応するときの位置情報に関して低い〜ゼロの信頼度を指定し得る。結果として、オブジェクト関連付けユニット26は、画像72Cが提示されるときに再生するための関連付けられたオーディオオブジェクト34Gをレンダリングするとき、ビデオメタデータ52Gによって指定された位置情報を置き換えない、または他の方法で利用しないことがある。代わりに、オブジェクト関連付けユニット26は、画像72Cが提示されるべき時間の間のオーディオオブジェクト34Gをレンダリングするとき、オーディオオブジェクト34Gによって指定された位置情報を利用し得る。
【0072】
[0079] 上記されるように、オブジェクト関連付けユニット26は、画像72Cの例のように、オーディオオブジェクト34Gに対応するビデオオブジェクト32Gを識別できないことがある。すなわち、ビデオオブジェクト32Gは、画像72Cに示されるようにシーン70を離れているかもしれないが、ステレオから再生している音楽は、依然としてキャプチャされ、オーディオオブジェクト34Gとして識別され得る。この例では、オブジェクト関連付けユニット26が、
図2Cに関して上記で説明される動作を行い得る。すなわち、オブジェクト関連付けユニット26は、オーディオオブジェクト34Gを、ビデオオブジェクトに関連付けられたオーディオオブジェクトの現在の分類から、ビデオオブジェクト32のうちのいずれとも関連付けられていないオーディオオブジェクト34Gに再分類し、
図2Cに関して上記で説明されるようにオーディオオブジェクト34Gを処理し得る。オブジェクト関連付けユニット26は、オーディオオブジェクト34G’’を生成し、このオーディオオブジェクト34G’’を無支援型オーディオレンダリングユニット28Bに渡し得る。この点で、オーディオオブジェクト34Gは、
図2Aに関して上記で説明される方法で処理されることから、
図2Cに関して上記で説明されて方法で処理されることに移行し得る。
【0073】
[0080] このように、ビデオキャプチャデバイス10は、より正確なマルチチャネルオーディオデータ40を潜在的に生成するために、本開示で説明される技術を動的に行い得る。この目的のため、ビデオキャプチャデバイス10は、オーディオオブジェクト34を適応的に分類し、これらのオーディオオブジェクト34とビデオオブジェクト32とを、上記で説明される3つのクラスのうちの様々なものの間で移行させ得る。いくつかの例では、ビデオキャプチャデバイス10が、オーディオオブジェクト34とビデオオブジェクト32とを適応的に分類し、
図2A〜
図2Dに関して上記で説明される方法のうちの1つからオーディオオブジェクト34とビデオオブジェクト32を処理することから、
図2A〜
図2Dに関して上記で説明される方法のうちの異なるものに移行し得る。
【0074】
[0081]
図5は、
図1Bの例で示されるビデオキャプチャデバイス10のカメラ14によってキャプチャされ、本開示で説明される技術の拡張現実の態様に従って処理された別のシーン80を示す図である。
図5の例では、シーン80が、
図1Bの例で示されるビデオデータ18の一部を表し得る。ビデオキャプチャデバイス10は、シーン80を受信することに応答して、視覚的解析ユニット22を呼び出すことができ、視覚的解析ユニット22は、ビデオオブジェクト32Iと32Hとを識別するために、シーン80を処理する。シーン80は、画像82を含む。例示の容易さの目的のため、単一の画像、画像82を含むものとして示されるが、シーン80は、追加の画像を含むことができ、技術は、この点で、
図5に示される例に限定されるべきでない。
【0075】
[0082] いずれにしても、視覚的解析ユニット22は、ビデオメタデータ52Iと52Hとをそれぞれ含むように、ビデオオブジェクト32Iと32Hとを識別し、生成し得る。視覚的解析ユニット22は、視覚的オブジェクト32Iと32Hとを、オブジェクト関連付けユニット26に渡すことができ、オブジェクト関連付けユニット26は、視覚的オブジェクト32Iと32Hとを、オーディオオブジェクト34のうちの1つに関連付けることを試み得る。オブジェクト関連付けユニット26は、例の目的のため、視覚的オブジェクト32Iを、オーディオオブジェクト34のうちの1つ、例えば、オーディオオブジェクト34Iに関連付けるように仮定される。オブジェクト関連付けユニット26は、次いで、
図2Aの例に関して上記で説明されるものと同様の方法で、関連付けられたビデオオブジェクト32Iを考慮してオーディオオブジェクト34Iを処理し得る。オブジェクト関連付けユニット26は、次いで、拡張メタデータ56Iを有するオーディオオブジェクト34I’を生成し得る。
【0076】
[0083] ビデオオブジェクト32Iとして識別された人間に加えて、シーン80は、視覚的解析ユニット22がビデオオブジェクト32Hとして識別しているビーチを含み、ここで、例示の目的のため、波の音がマイクロホン16によってキャプチャされていないと仮定される。すなわち、砂に衝突する波の音が、距離、話している人、風雑音、またはなにか他の妨害のいずれかのために聞き取られないように、ビデオキャプチャデバイス10は、ビーチから十分に離れていると仮定される。オブジェクト関連付けユニット26は、結果として、ビデオオブジェクト32Hを、第3のクラス、すなわち、本開示の例で、ビデオオブジェクト32のうちの、オーディオオブジェクト34のうちのいずれにも関連付けられていないものに属するものとして分類し得る。結果として、オブジェクト関連付けユニット26は、
図2Dの例に関して上記で説明される方法でビデオオブジェクト32Hを処理し、ビデオオブジェクト32H’を生成し得る。オブジェクト関連付けユニット26は、次いで、ビデオオブジェクト32H’を、拡張現実オーディオレンダリングユニット28Cに転送し得る。
【0077】
[0084] オーディオレンダリングユニット28Cは、ビデオオブジェクト32H’を受信し、本例で、波、ビーチ、などのタイプであり得る、同じタイプのものである基準オーディオオブジェクト34’’’のうちの対応するものを取得し得る。オーディオレンダリングユニット28Cは、次いで、ビデオメタデータ52Hに基づいて、基準オーディオオブジェクト34’’’のうちのこの1つ、例えば、オーディオレンダリングオブジェクト34H’’’をレンダリングし得る。拡張現実オーディオレンダリングユニット28Cは、このレンダリングされたオーディオデータを、オーディオデータ38Cとしてミキシングユニット30に渡すことができ、ミキシングユニット30は、上記で説明される方法でマルチチャネルオーディオデータ40を形成するために、オーディオデータ38A〜38Cをミックスする。
【0078】
[0085]
図6は、本開示で説明される技術を行う際の、
図1Bの例に示されるビデオキャプチャデバイス10のようなビデオキャプチャデバイスの例示的な動作を示すフローチャートである。最初に、ビデオキャプチャデバイス10は、ビデオデータ18をキャプチャするためにカメラ14を呼び出すように構成され得、同時に、また、オーディオデータ20をキャプチャするためにマイクロホン16のうちの1つまたは複数、しばしばすべてを呼び出すように構成され得る(90、92)。ビデオデータ18とオーディオデータ20とを受信することに応答して、ビデオキャプチャデバイス10の制御ユニット12は、マルチチャネルオーディオデータ40を生成するための本開示で説明される技術を行うように構成され得る。
【0079】
[0086] ビデオデータ18を受信すると、制御ユニット12は、視覚的解析ユニット22を呼び出すように構成され得、視覚的解析ユニット22は、1つまたは複数のビデオオブジェクト32を識別するために、ビデオデータ18に関する視覚的シーン解析を行い得る(94)。オーディオデータ20を受信すると、制御ユニット12は、聴覚的解析ユニット24を呼び出すことができ、聴覚的解析ユニット24は、1つまたは複数のオーディオオブジェクト34を識別するために、オーディオデータ20に関する聴覚的シーン解析を行い得る(96)。
【0080】
[0087] 制御ユニット12は、ビデオオブジェクト32とオーディオオブジェクト34とを受信し、オブジェクト関連付けユニット26を呼び出し得る。オブジェクト関連付けユニット26は、少なくとも1つのオーディオオブジェクト34を少なくとも1つのビデオオブジェクト32と関連付ける試みに際して、オーディオオブジェクト34をビデオオブジェクト32と比較できる(98)。上記で説明されるように、オブジェクト関連付けユニット26は、この関連付けを行うとき、オーディオオブジェクト34の各々を、典型的には(いくつかの例では、オーディオオブジェクトのタイプを定義できる)メタデータに基づいて、オーディオオブジェクトのタイプとして分類し得る。同様に、オブジェクト関連付けユニット26は、この関連付けを行うとき、ビデオオブジェクト32の各々を、典型的には(いくつかの例では、ビデオオブジェクトのタイプを定義することもできる)対応するメタデータに基づいて、ビデオオブジェクトのタイプとして分類し得る。例示的なタイプは、自動車、ビーチ、波、流水、音楽、人間、犬、猫、風、などを備え得る。オブジェクト関連付けユニット26は、次いで、オーディオオブジェクト34のうちの1つのタイプがビデオオブジェクト32のうちの1つと同じタイプであることを決定でき、それによって、一致を決定できる(100)オーディオオブジェクト34のうちの1つのタイプがビデオオブジェクト32のうちの1つのタイプと同じである、すなわち、一致が識別されている(「はい」100)ことの決定に応答して、オブジェクト関連付けユニット26は、オーディオオブジェクト34のうちの1つをビデオオブジェクト32のうちの一致する1つと関連付けし得る(102)。
【0081】
[0088] オーディオオブジェクト34のうちの、第1のクラスに属すると決定されたものに関して、オブジェクト関連付けユニット26は、オーディオオブジェクト34のうちの1つのオーディオデータメタデータと、ビデオオブジェクト32のうちの関連付けられた1つのビデオメタデータとの間の相関のレベルを決定し、決定された相関のレベルに基づいて、1つのビデオオブジェクト32が関連付けされるオーディオオブジェクトのうちの1つに関する複合メタデータを生成し得る。いくつかの例では、オブジェクト関連付けユニット26が、また、オーディオメタデータによって指定された位置のような、オーディオメタデータまたはその一部を、対応するビデオメタデータまたはその一部で置換し得る。このように、オブジェクト関連付けユニット26は、更新されたまたは拡張されたオーディオオブジェクト34’を生成するために、ビデオオブジェクト32のうちの関連付けられた1つに基づいて、1つまたは複数のオーディオオブジェクト34を更新できる(104)。
【0082】
[0089] オブジェクト関連付けユニット26は、次いで、これらのオーディオオブジェクト34’を支援型オーディオレンダリングユニット28Aに渡し得る。支援型オーディオレンダリングユニット28Aは、次いで、オーディオオブジェクト34’のうちの1つに関して生成された複合メタデータに基づいて、マルチチャネルオーディオデータ40のうちの1つまたは複数の前景チャネルにおいてオーディオオブジェクト34’のうちの1つをレンダリングできる(106)。支援型オーディオレンダリングユニット28Aは、マルチチャネルオーディオデータ40のうちのこの部分を、オーディオデータ38Aとしてオーディオミキシングユニット30に渡す。
【0083】
[0090] オーディオオブジェクト34のうちの、第2のクラスに属すると決定されたものに関して、すなわち、本開示の例でビデオオブジェクト32のうちのいずれにも対応しないと決定されたもの(または、換言すれば、一致、「いいえ」100、「はい」108が存在しないオーディオオブジェクト)に関して、オブジェクト関連付けユニット26は、これらのオーディオオブジェクト34を、オーディオオブジェクト34’’のうちの1つとして無支援型オーディオレンダリングユニット28Bに渡し得る。無支援型オーディオレンダリングユニット28Bは、オーディオオブジェクト34’’のうちの1つが、マルチチャネルオーディオデータ40のうちの1つまたは複数の背景チャネルで発生するように、マルチチャネルオーディオデータ40を生成し得る。無支援型オーディオレンダリングユニット28Bは、一致されないオーディオオブジェクト34’’を背景内に、しばしば拡散音としてレンダリングするように構成され得る(110)。無支援型オーディオレンダリングユニット28Bは、マルチチャネルオーディオデータ40のこの部分を、オーディオデータ38Bとしてオーディオミキシングユニット30に渡す。
【0084】
[0091] 第3のクラスに属すると決定されたこれらのオーディオオブジェクト32に関して、すなわち、ビデオオブジェクト32が、
図1Bの例で、オーディオオブジェクト34のうちのいずれにも関連付けられていない場合(または、言い換えれば、オーディオオブジェクト34のうちのいずれにも一致せず、ビデオオブジェクトである、「いいえ」100、「いいえ」108ビデオオブジェクト32のオブジェクトである場合)、オブジェクト関連付けユニット26は、これらのビデオオブジェクト32を、ビデオオブジェクト32’として拡張現実オーディオレンダリングユニット28Cに渡し得る。拡張現実オーディオレンダリングユニット28Cは、ビデオオブジェクト32’を受信することに応答して、オーディオライブラリから、ビデオオブジェクト32’のうちの各々1つ(可能な場合)に関連付けられていたであろう基準オーディオライブラリを取得し、次いで、マルチチャネルオーディオデータ40の少なくとも一部を生成するために、(オーディオオブジェクト34’’’と呼ばれ得る)基準オーディオオブジェクトの各々をレンダリングできる(112)。拡張現実オーディオレンダリングユニット28Cは、マルチチャネルオーディオデータ40のこの部分を、オーディオデータ38Cとしてオーディオミキシングユニット30に渡す。
【0085】
[0092] オーディオミキシングユニット30は、オーディオデータ38を受信し、マルチチャネルオーディオデータ40を形成するために、このオーディオデータ38をミックスする(114)。オーディオミキシングユニット30は、マルチチャネルオーディオデータ40の任意の形態を生成するために、上記で説明されるようにこのオーディオデータ38をミックスし得る。これらのフォーマットは、5,1サラウンドサウンドフォーマット、7.1サラウンドサウンドフォーマット、10.1サラウンドサウンドフォーマット、22.2サラウンドサウンドフォーマット、または、任意の他の独自もしくは非独自フォーマットを含み得る。オーディオミキシングユニット30は、次いで、このマルチチャネルオーディオデータ40を出力できる(116)。
【0086】
[0093] このように、ビデオキャプチャデバイス10の制御ユニット12は、1つまたは複数のオーディオオブジェクトを識別するためにオーディオデータを解析し、1つまたは複数のビデオオブジェクトを識別するために、オーディオデータのキャプチャと同時にデバイスによってキャプチャされたビデオメタデータを解析するように構成され得る。制御ユニット12は、さらに、オーディオオブジェクト34のうちの1つをビデオオブジェクト32のうちの1つと関連付け、ビデオオブジェクト32のうちの1つとのオーディオオブジェクト34のうちの1つの関連付けに基づいて、オーディオデータ20からマルチチャネルオーディオデータ40を生成するように構成され得る。
【0087】
[0094] マルチチャネルオーディオデータ40を生成する文脈で説明されるが、ビデオキャプチャデバイス10は、さらに、ビデオデータを符号化し得る。符号化するとき、オーディオオブジェクトを拡散するビデオデータは、ビデオキャプチャデバイス10が、より少ないビットを使用してこれらのオーディオオブジェクトを符号化することを可能にし得る。すなわち、背後の背景内、または遠方のオーディオオブジェクトは、それらが目によって見られない、または、焦点が合わされた近距離の空間内のオーディオオブジェクトよりも重要でなく、他のオーディオオブジェクトと一緒に提示されるとき、マスクされる可能性が非常に高いので、高品質でレンダリングされる必要がないことある。結果として、ビデオキャプチャデバイス10は、再生システムのためにそれらを符号化し、送信するとき、より少ないビットをこれらのオーディオオブジェクトに割り当て得る。
【0088】
[0095] また、オーディオデータとビデオデータとのキャプチャ後に(もしくは、この形式の処理が一般的に呼ばれているように「オフライン」で)、または、リアルタイムもしくは準リアルタイムシステムでなく行われるものとして説明されるが、技術は、オーディオデータとビデオデータの少なくとも一部のキャプチャの間に、リアルタイムまたは準リアルタイムシステムで実施され得る。準リアルタイムまたはリアルタイムシステムのためにビデオシーン解析の実施態様が存在するが、オーディオシーン解析は、典型的にはビデオシーン解析ほど複雑でなく、オーディオシーン解析が準リアルタイムまたはリアルタイムデバイスで行えることを意味する。
【0089】
[0096] さらに、オーディオおよびビジュアル領域に関して説明されるが、技術は、他の領域に関して行われ得る。例えば、タッチ、動き、コンパス、高度、温度、および他のセンサ領域も、3D空間性質に潜在的な焦点を有するメディアレンダリング品質を向上させるために一緒に考慮され得る。従って、技術は、この点で、本開示に記載される例に限定されるべきでない。
【0090】
[0097]
図7は、本開示で説明される技術に従って様々なオーディオオブジェクト126A〜126Kがマルチチャネルオーディオデータの前景と背景とにレンダリングされ得る方法を示す図である。
図7の図は、下向きの視点または鳥瞰からの「スイートスポット」と一般に呼ばれるものを示すビュー120を指定する。スイートスポットは、スピーカが5.1またはより高次のサラウンドサウンド再生のために適切に構成されるときにサラウンドサウンド体験が最も適した室内の場所を指す。
【0091】
[0098]
図7の例では、ビュー120が、2つの部分に分割され、これらの部分は、前景部分122Aと背景部分122Bとして示される。円内で、聴取者124は、背景部分122Bから前景部分122Aを分離する水平上に、スイートスポットの中央に配置される。マルチチャネルオーディオデータ40の再生中、聴取者124は、ビュー120内に提示されるように音場内のオーディオオブジェクト126A〜126Kを聞き得る。すなわち、オーディオオブジェクト126A〜126Dは、聴取者124の視野から、より遠い前景から発生しているように現れる。オーディオオブジェクト126A〜126Dは、
図2Bに関して上記で説明されるようにオブジェクト関連付けユニット26によって処理され得、その結果、支援型オーディオレンダリングユニット28Aは、なんらかのオーディオメタデータの不足のために、より拡散したオーディオオブジェクトとして遠い前景にこれらをレンダリングする。
【0092】
[0099] オーディオオブジェクト126E〜126Gは、聴取者124の視野から、より焦点が合わされたオブジェクトとして、より近い前景で発生しているように現れ得る。オーディオオブジェクト126E〜126Gは、オブジェクト関連付けユニット26によって
図2Aに関して上記で説明される方法で処理されていてもよく、その結果、支援型オーディオレンダリングユニット28Aは、高いオーディオおよびメタデータ相関を有する拡張メタデータを提供するオブジェクト関連付けユニット26の能力により、より焦点が合わされた前景にこれらをレンダリングする。
【0093】
[0100] 1つまたは複数のオーディオオブジェクト126A〜126Gは、拡張現実オーディオレンダリングユニット28Cに関して上記で説明される方法で基準ライブラリから取得された基準オーディオオブジェクトであり得る。この意味において、オブジェクト関連付けユニット26は、ビデオオブジェクト32のうちの、オーディオオブジェクト34のうちのいずれにも一致しないものを識別し、ビデオオブジェクト32のうちのこれらを、ビデオオブジェクト32’として拡張現実オーディオレンダリングユニット28Cに渡し得る。拡張現実オーディオレンダリング28Cは、次いで、ビデオオブジェクト32’のうちの1つに対応または一致する基準オーディオオブジェクト34’’’のうちの1つを取得し、ビデオオブジェクト32’のうちの関連付けられている1つ内に含まれるビデオメタデータに基づいて、基準オーディオオブジェクト34’’’のうちのこの1つをレンダリングし得る。
【0094】
[0101] オーディオオブジェクト126H〜126Kは、背景内で発生しているように現れ、聴取者124の視野を形成し得る。オーディオオブジェクト126H〜126Kは、オブジェクト関連付けユニット26によって
図2Cに関して上記で説明される方法で処理されていてもよく、その結果、無支援型オーディオレンダリングユニット28Bは、これらのオーディオオブジェクト34’’をビデオオブジェクト32のうちのいずれか1つに関連付けるオブジェクト関連付けユニット26の能力の欠如により、背景にこれらをレンダリングする。すなわち、聴覚的シーン解析は、典型的には、視覚的シーン解析と比較して、音の発生源を位置決めする上で正確でないので、無支援型オーディオレンダリングユニット28Bは、オーディオオブジェクト34’’のソースを正確に位置決めするできないことがある。無支援型オーディオレンダリングユニット28Bは、最大でも対応するオーディオメタデータ54に基づいてオーディオオブジェクト34’’を単にレンダリングでき、その結果、オーディオレンダリングユニット28Bが、より拡散したオブジェクトとして背景にこれらのオーディオオブジェクト34’’をレンダリングする結果になることがある。
【0095】
[0102] このように、技術は、デバイスが、1つまたは複数のオーディオオブジェクトを識別するために、デバイスによってキャプチャされたオーディオデータを解析し、1つまたは複数のビデオオブジェクトを識別するために、オーディオデータのキャプチャと同時にデバイスによってキャプチャされたビデオデータを解析することを可能にし得る。デバイスは、さらに、1つまたは複数のオーディオオブジェクトのうちの少なくとも1つを、1つまたは複数のビデオオブジェクトのうちの少なくとも1つと関連付け、1つまたは複数のビデオオブジェクトのうちの少なくとも1つとの1つまたは複数のオーディオオブジェクトのうちの少なくとも1つの関連付けに基づいて、オーディオデータからマルチチャネルオーディオデータを生成し得る。
【0096】
[0103] いくつかの例では、デバイスが、オーディオデータを解析するとき、1つまたは複数のオーディオオブジェクトと、1つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するためにオーディオデータの聴覚的シーン解析を行うことができ、ここで、オーディオメタデータは、対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの1つまたは複数を備える。デバイスは、ビデオデータを解析するとき、1つまたは複数のビデオオブジェクトと、1つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、ビデオデータの視覚的シーン解析を行うことができ、ここで、ビデオメタデータは、対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの1つまたは複数を備える。
【0097】
[0104] デバイスは、いくつかの例で、1つまたは複数のオーディオオブジェクトのうちの少なくとも1つを、1つまたは複数のビデオオブジェクトのうちの少なくとも1つと関連付けるとき、オーディオオブジェクトのタイプとして1つまたは複数のオーディオオブジェクトの各々を分類し、ビデオオブジェクトのタイプとして1つまたは複数のビデオオブジェクトの各々を分類し、オーディオオブジェクトのうちの少なくとも1つのタイプがビデオオブジェクトのうちの少なくとも1つと同じタイプであることを決定し、1つまたは複数のオーディオオブジェクトのうちの少なくとも1つのタイプが1つまたは複数のビデオオブジェクトのうちの少なくとも1つと同じタイプであることの決定に応答して、1つまたは複数のオーディオオブジェクトのうちの少なくとも1つを、1つまたは複数のビデオオブジェクトのうちの少なくとも1つと関連付けし得る。
【0098】
[0105] いくつかの例では、デバイスが、マルチチャネルオーディオデータを生成するとき、1つまたは複数のオーディオオブジェクトのうちの少なくとも1つのオーディオメタデータと、1つまたは複数のオーディオオブジェクトのうちの少なくとも1つと関連付けられた1つまたは複数のビデオオブジェクトのうちの少なくとも1つのビデオメタデータとの間の相関のレベルを決定し、決定された相関のレベルに基づいて、1つまたは複数のビデオオブジェクトのうちの少なくとも1つが関連付けられている1つまたは複数のオーディオオブジェクトのうちの少なくとも1つに関する複合メタデータを生成し、1つまたは複数のオーディオオブジェクトのうちの少なくとも1つに関して生成された複合メタデータに基づいて、マルチチャネルオーディオデータの1つまたは複数の前景チャネルに、1つまたは複数のオーディオオブジェクトのうちの少なくとも1つをレンダリングし得る。
【0099】
[0106] いくつかの例では、1つまたは複数のオーディオオブジェクトのうちの少なくとも1つが、1つまたは複数のオーディオオブジェクトのうちの第1のものを備える。デバイスは、いくつかの例で、さらに、1つまたは複数のオーディオオブジェクトのうちの第2のものが、1つまたは複数のビデオオブジェクトのうちのいずれにも関連付けられていないことを決定し、マルチチャネルオーディオデータを生成するとき、オーディオオブジェクトのうちの第2のものが、マルチチャネルオーディオデータの1つまたは複数の背景チャネル内で発生するように、マルチチャネルオーディオデータを生成し得る。
【0100】
[0107] デバイスは、マルチチャネルオーディオデータを生成するとき、オーディオオブジェクトのうちの第2のものが、マルチチャネルオーディオデータの1つまたは複数の背景チャネル内で拡散したオーディオオブジェクトとして発生するように、マルチチャネルオーディオデータを生成し得る。
【0101】
[0108] いくつかの例では、1つまたは複数のビデオオブジェクトのうちの少なくとも1つが、1つまたは複数のビデオオブジェクトのうちの第1のものを備える。これらの例では、デバイスが、ビデオオブジェクトのうちの1つまたは複数のうちの第2のものが1つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定し得る。ビデオオブジェクトのうちの1つまたは複数のうちの第2のものが1つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定することに応答して、デバイスは、1つまたは複数のビデオオブジェクトのうちの第2のものと関連付けられていたであろう基準オーディオオブジェクトをオーディオライブラリから取得し得る。さらに、デバイスは、マルチチャネルオーディオデータの少なくとも一部を生成するために、1つまたは複数のビデオオブジェクトのうちの第2のものに基づいて、基準オーディオオブジェクトをレンダリングし得る。
【0102】
[0109] いくつかの例では、デバイスが、オーディオデータを解析するとき、1つまたは複数のオーディオオブジェクトと、1つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、オーディオデータの聴覚的シーン解析を行い得る。デバイスは、ビデオデータを解析するとき、1つまたは複数のビデオオブジェクトと、1つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、ビデオデータの視覚的シーン解析を行い得る。これらの例では、オーディオメタデータが、ビデオメタデータを定義するために使用されたテキストフォーマットと共通のテキストフォーマットで定義される。
【0103】
[0110] いくつかの例では、デバイスが、オーディオデータを解析するとき、1つまたは複数のオーディオオブジェクトと、1つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、オーディオデータの聴覚的シーン解析を行い得る。ビデオデータを解析するとき、デバイスは、1つまたは複数のビデオオブジェクトと、1つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、ビデオデータの視覚的シーン解析を行い得る。これらの例では、デバイスが、マルチチャネルオーディオデータを生成するとき、オーディオオブジェクトのうちの少なくとも1つに関して識別されたオーディオメタデータと、ビデオオブジェクトのうちの関連付けられているものに関して識別されたビデオメタデータとの間の相関のレベルを決定し、マルチチャネルオーディオデータを生成するとき、決定された相関のレベルに基づいて、拡散するオーディオオブジェクトとしてオーディオオブジェクトのうちの少なくとも1つをレンダリングし得る。しばしば、相関のレベルは、なんらかの形式の信頼区間に基づいており、ここで、信頼の水準は、オーディオおよび相対物ビデオオブジェクトのメタデータと信頼区間との間の百分率差の関数として導出され得る。
【0104】
[0111] 技術の様々な態様は、また、1つまたは複数のプロセッサを備えるデバイスが、オーディオオブジェクトを取得し、ビデオオブジェクトを取得し、オーディオオブジェクトとビデオオブジェクトとを関連付け、オーディオオブジェクトを、関連付けられているビデオオブジェクトと比較し、オーディオオブジェクトと、関連付けられているビデオオブジェクトとの間の比較に基づいて、オーディオオブジェクトをレンダリングすることを可能にし得る。
【0105】
[0112] いくつかの例では、オーディオオブジェクトが、オーディオメタデータを含む。いくつかの例では、オーディオメタデータが、サイズと位置とを備える。いくつかの例では、ビデオオブジェクトが、ビデオメタデータを含む。いくつかの例では、ビデオメタデータが、サイズと位置とを備える。
【0106】
[0113] いくつかの例では、1つまたは複数のプロセッサが、さらに、オーディオオブジェクトを、関連付けられているビデオオブジェクトと比較するとき、サイズと位置とのうちの1つまたは複数を備える複合メタデータを少なくとも部分的に生成するように構成される。
【0107】
[0114] いくつかの例では、オーディオオブジェクトが、位置メタデータを含み、ビデオオブジェクトは、位置メタデータを含む。複合メタデータを生成するとき、1つまたは複数のプロセッサは、さらに、相関値を決定するために、オーディオオブジェクトの位置メタデータをビデオオブジェクトの位置メタデータと比較し、相関値が信頼しきい値を超えたかどうかの決定に基づいて、複合メタデータの位置メタデータを生成するように構成される。
【0108】
[0115] さらに、技術の様々な態様は、オーディオオブジェクトを取得することと、ビデオオブジェクトを取得することと、オーディオオブジェクトとビデオオブジェクトとを関連付けられることと、オーディオオブジェクトを、関連付けられているビデオオブジェクトと比較することと、オーディオオブジェクトと、関連付けられているビデオオブジェクトとの間の比較に基づいて、オーディオオブジェクトをレンダリングすることとを含む方法を提供し得る。
【0109】
[0116] 加えて、オーディオオブジェクトを、関連付けられているビデオオブジェクトと比較するとき、方法は、さらに、サイズと位置とのうちの1つまたは複数を備える複合メタデータを少なくとも部分的に生成することを含み得る。
【0110】
[0117] また、オーディオオブジェクトが位置メタデータを含み、ビデオオブジェクトが位置メタデータを含むとき、複合メタデータを生成することは、相関値を決定するために、オーディオオブジェクトの位置メタデータをビデオオブジェクトの位置メタデータと比較することと、相関値が信頼しきい値を超えたかどうかの決定に基づいて、複合メタデータの位置メタデータを生成することとを備え得る。
【0111】
[0118] さらに、技術の様々な態様は、オーディオオブジェクトを取得するための手段と、ビデオオブジェクトを取得するための手段と、オーディオオブジェクトとビデオオブジェクトとを関連付け、オーディオオブジェクトと、関連付けられているビデオオブジェクトとを比較するための手段と、オーディオオブジェクトと、関連付けられているビデオオブジェクトとの間の比較に基づいて、オーディオオブジェクトをレンダリングするための手段とを備えるデバイスを提供し得る。
【0112】
[0119] 加えて、オーディオオブジェクトと、関連付けられているビデオオブジェクトとを比較するための手段は、サイズと位置とのうちの1つまたは複数を備える複合メタデータを、少なくとも部分的に生成するための手段を備え得る。
【0113】
[0120] また、オーディオオブジェクトが位置メタデータを含み、ビデオオブジェクトが位置メタデータを含むとき、複合メタデータを生成するための手段は、相関値を決定するために、オーディオオブジェクトの位置メタデータをビデオオブジェクトの位置メタデータと比較するための手段と、相関値が信頼しきい値を超えたかどうかの決定に基づいて、複合メタデータの位置メタデータを生成するための手段とを備え得る。
【0114】
[0121] いくつかの例では、実行されたとき、1つまたは複数のプロセッサに、オーディオオブジェクトを取得させ、ビデオオブジェクトを取得させ、オーディオオブジェクトとビデオオブジェクトとを関連付けさせ、オーディオオブジェクトを、関連付けられているビデオオブジェクトと比較させ、オーディオオブジェクトと、関連付けられているビデオオブジェクトとの間の比較に基づいて、オーディオオブジェクトをレンダリングさせる命令が記憶される非一時的コンピュータ可読記憶媒体。
【0115】
[0122] 本開示で説明される技術の様々な態様は、また、オーディオ出力信号を生成するデバイスによって行われ得る。デバイスは、第1のオーディオオブジェクトのデータ構成要素と第1のビデオオブジェクトのデータ構成要素との第1の比較に基づいて、第1のビデオオブジェクトの相対物に関連付けられている第1のオーディオオブジェクトを識別するための手段と、第2のオーディオオブジェクトのデータ構成要素と第2のビデオオブジェクトのデータ構成要素との第2の比較に基づいて、第2のビデオオブジェクトの相対物に関連付けられていない第2のオーディオオブジェクトを識別するための手段とを備え得る。デバイスは、加えて、第1のゾーン内に第1のオーディオオブジェクトをレンダリングするための手段と、第2のゾーン内に第2のオーディオオブジェクトをレンダリングするための手段と、第1のゾーン内のレンダリングされた第1のオーディオオブジェクトと第2のゾーン内のレンダリングされた第2のオーディオオブジェクトとを結合することに基づいて、オーディオ出力信号を生成するための手段とを備え得る。本明細書で説明される様々な手段は、手段の各々に関して説明される機能を行うように構成された1つまたは複数のプロセッサを備え得る。
【0116】
[0123] いくつかの例では、第1のオーディオオブジェクトのデータ構成要素が、位置とサイズとのうちの1つを備える。いくつかの例では、第1のビデオオブジェクトのデータ構成要素が、位置とサイズとのうちの1つを備える。いくつかの例では、第2のオーディオオブジェクトのデータ構成要素が、位置とサイズとのうちの1つを備える。いくつかの例では、第2のビデオオブジェクトのデータ構成要素が、位置とサイズとのうちの1つを備える。
【0117】
[0124] いくつかの例では、第1のゾーンおよび第2のゾーンが、オーディオ前景内の異なるゾーンであり、または、オーディオ背景内の異なるゾーンである。いくつかの例では、第1のゾーンおよび第2のゾーンがオーディオ前景内の同じゾーンであり、または、オーディオ背景内の同じゾーンである。いくつかの例では、第1のゾーンがオーディオ前景内であり、第2のゾーンがオーディオ背景内である。いくつかの例では、第1のゾーンがオーディオ背景内であり、第2のゾーンがオーディオ前景内である。
【0118】
[0125] いくつかの例では、第1のデータオブジェクトのデータ構成要素、第2のオーディオオブジェクトのデータ構成要素、第1のビデオオブジェクトのデータ構成要素、および第2のビデオオブジェクトのデータ構成要素が、各々、メタデータを備える。
【0119】
[0126] いくつかの例では、デバイスが、さらに、第1の比較が信頼区間の外側にあるかどうかを決定するための手段と、第1の比較が信頼区間の外側にあるかどうかの決定に基づいて、第1のオーディオオブジェクトのデータ構成要素と第1のビデオオブジェクトのデータ構成要素とを重み付けするための手段とを備える。いくつかの例では、重み付けするための手段が、第1のオーディオオブジェクトのデータ構成要素と第1のビデオオブジェクトのデータ構成要素とを平均化するための手段を備える。
【0120】
[0127] いくつかの例では、デバイスが、また、第1の比較と第2の比較とのうちの1つまたは複数に基づいて異なるビット数を割り当てるための手段を備え得る。
【0121】
[0128] いくつかの例では、技術が、実行されたとき、1つまたは複数のプロセッサに、第1のオーディオオブジェクトのデータ構成要素と第1のビデオオブジェクトのデータ構成要素との第1の比較に基づいて、第1のビデオオブジェクトの相対物に関連付けられている第1のオーディオオブジェクトを識別させ、第2のオーディオオブジェクトのデータ構成要素と第2のビデオオブジェクトのデータ構成要素との第2の比較に基づいて、第2のビデオオブジェクトの相対物に関連付けられていない第2のオーディオオブジェクトを識別させ、第1のゾーン内に第1のオーディオオブジェクトをレンダリングさせ、第2のゾーン内に第2のオーディオオブジェクトをレンダリングするための手段と、第1のゾーン内のレンダリングされた第1のオーディオオブジェクトと第2のゾーン内のレンダリングされた第2のオーディオオブジェクトとを結合することに基づいて、オーディオ出力信号を生成させる命令が記憶される非一時的コンピュータ可読記憶媒体を提供し得る。
【0122】
[0129] 例に応じて、本明細書で説明される方法のいずれかの特定の動作またはイベントは、異なる順序で行われ得、追加、合併、またはまったく除外され得る(例えば、すべての説明された動作またはイベントが方法の実施のために必要というわけでない)ことを理解されたい。さらに、特定の例では、動作またはイベントが、順次にでなく、例えば、マルチスレッド処理、割り込み処理、または複数のプロセッサを介して同時に行われ得る。加えて、本開示の特定の態様が、明確さの目的のため、単一のモジュールまたはユニットによって行われるものとして説明されるが、本開示の技術は、ビデオコーダに関連付けられているユニットまたはモジュールの組合せによって行われ得ることを理解されたい。
【0123】
[0130] 1つまたは複数の例では、説明される機能が、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実現され得る。ソフトウェアで実現される場合、機能は、コンピュータ可読媒体上の1つまたは複数の命令またはコードとして記憶または伝送され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、例えば、通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を支援する任意の媒体を含む、データ記憶媒体または通信媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得る。
【0124】
[0131] このようにして、コンピュータ可読媒体は、一般に、(1)非一時的である有形コンピュータ可読記憶媒体、あるいは(2)信号または搬送波などの通信媒体に対応し得る。データ記憶媒体は、本開示で説明される技術の実施のための命令、コード、および/またはデータ構造を取得するために、1つもしくは複数のコンピュータまたは1つもしくは複数のプロセッサによってアクセスされることができる任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。
【0125】
[0132] 例として、限定としてでなく、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM(登録商標)、CD−ROM、もしくは他の光ディスク記憶装置、磁気ディスク記憶装置、もしくは他の磁気記憶デバイス、フラッシュメモリ、または、命令もしくはデータ構造の形式で所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備え得る。また、任意の接続は、適切にコンピュータ可読媒体と呼ばれる。例えば、命令が、同軸ケーブル、光ファイバケーブル、より対線、デジタル加入者線(DSL)、または、赤外線、無線、およびマイクロ波のようなワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから伝送される場合、同軸ケーブル、光ファイバケーブル、より対線、DSL、または、赤外線、無線、およびマイクロ波のようなワイヤレス技術は、媒体の定義に含まれる。
【0126】
[0133] しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的な媒体を含まず、代わりに、非一時的な有形の記憶媒体に向けられることを理解されたい。ディスク(disk)およびディスク(disc)は、本明細書で使用されるとき、コンパクトディスク(CD)、レーザーディスク(登録商標)、光ディスク、デジタル多用途ディスク(DVD)、フロッピー(登録商標)ディスク、およびブルーレイ(登録商標)ディスクを含み、ここで、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)は、レーザーを用いて光学的にデータを再生する。上記の組合せも、コンピュータ可読媒体の範囲内に含まれるべきである。
【0127】
[0134] 命令は、1つまたは複数のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルロジックアレイ(FPGA)、または他の等価の集積もしくは離散的論理回路網のような、1つまたは複数のプロセッサによって行われ得る。従って、「プロセッサ」という用語は、本明細書で使用されるとき、前述の構造のいずれか、または、本明細書で説明される技術の実施に適した任意の他の構造を指し得る。加えて、いくつかの態様では、本明細書で説明される機能が、符号化と復号化とのために構成された、または、組み合わされたコーデックに組み込まれた専用ハードウェアおよび/もしくはソフトウェアモジュール内で提供され得る。また、技術は、1つまたは複数の回路または論理要素で完全に実施され得る。
【0128】
[0135] 本開示の技術は、ワイヤレスハンドセット、集積回路(IC)、またはICのセット(例えば、チップセット)を含む、多種多様なデバイスまたは装置で実施され得る。様々な構成要素、モジュール、またはユニットは、開示される技術を行うように構成されたデバイスの機能的態様を強調するために本開示で説明されるが、異なるハードウェアユニットによる実現を必ずしも必要としない。むしろ、上で説明されたように、様々なユニットが、好適なソフトウェアおよび/またはファームウェアとともに、上記の1つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、または相互動作ハードウェアユニットの集合によって与えられ得る。
【0129】
[0136] 本技法の様々な実施形態が説明された。これらおよび他の実施形態は、以下の特許請求の範囲の範疇内にある。
以下に、本出願の当初の特許請求の範囲に記載された発明を付記する。
[C1] 1つまたは複数のオーディオオブジェクトを識別するために、デバイスによってキャプチャされたオーディオデータを解析することと、
1つまたは複数のビデオオブジェクトを識別するために、前記オーディオデータの前記キャプチャと同時に前記デバイスによってキャプチャされたビデオデータを解析することと、
前記1つまたは複数のオーディオオブジェクトのうちの少なくとも1つを前記1つまたは複数のビデオオブジェクトのうちの少なくとも1つと関連付けることと、
前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つとの前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記関連付けに基づいて、前記オーディオデータからマルチチャネルオーディオデータを生成することとを備える方法。
[C2] 前記オーディオデータを解析することが、前記1つまたは複数のオーディオオブジェクトと、前記1つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、前記オーディオデータの聴覚的シーン解析を行うことを備え、前記オーディオメタデータが、対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの1つまたは複数を備え、
前記ビデオデータを解析することが、前記1つまたは複数のビデオオブジェクトと、前記1つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、前記ビデオデータの視覚的シーン解析を行うことを備え、前記ビデオメタデータが、前記対応するオーディオオブジェクトの位置と、形状と、速度と、位置の信頼水準とのうちの1つまたは複数を備える、C1に記載の方法。
[C3] 前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つを前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つと関連付けることが、
前記オーディオオブジェクトのタイプとして前記1つまたは複数のオーディオオブジェクトの各々を分類することと、
前記ビデオオブジェクトのタイプとして前記1つまたは複数のビデオオブジェクトの各々を分類することと、
前記オーディオオブジェクトのうちの前記少なくとも1つの前記タイプが前記ビデオオブジェクトのうちの前記少なくとも1つと同じタイプであることを決定することと、
前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記タイプが前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つと同じタイプであることの前記決定に応答して、前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つを前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つと関連付けることとを備える、C2に記載の方法。
[C4] 前記マルチチャネルオーディオデータを生成することが、
前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記オーディオメタデータと、前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つと関連付けられている前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つの前記ビデオメタデータとの間の相関のレベルを決定することと、
前記決定された相関のレベルに基づいて、前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つが関連付けられている前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つに関する複合メタデータを生成することと、
前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つに関して生成された前記複合メタデータに基づいて、前記マルチチャネルオーディオデータの1つまたは複数の前景チャネル内に前記1つまたは複数のオーディオデータのうちの前記少なくとも1つをレンダリングすることとを備える、C2に記載の方法。
[C5] 前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つが、前記1つまたは複数のオーディオオブジェクトのうちの第1のものを備え、
前記方法が、さらに、前記1つまたは複数のオーディオオブジェクトのうちの第2のものが前記1つまたは複数のビデオオブジェクトのうちのいずれにも関連付けられていないことを決定することを備え、
前記マルチチャネルオーディオデータを生成することが、前記オーディオオブジェクトのうちの前記第2のものが前記マルチチャネルオーディオデータの1つまたは複数の背景チャネル内で発生するように、前記マルチチャネルオーディオデータを生成することを備える、C1に記載の方法。
[C6] 前記マルチチャネルオーディオデータを生成することが、前記オーディオオブジェクトのうちの前記第2のものが前記マルチチャネルオーディオデータの前記1つまたは複数の背景チャネル内で拡散したオーディオオブジェクトとして発生するように、前記マルチチャネルオーディオデータを生成することを備える、C1に記載の方法。
[C7] 前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つが、前記1つまたは複数のビデオオブジェクトのうちの第1のものを備え、
前記方法が、さらに、
前記ビデオオブジェクトのうちの前記1つまたは複数のうちの第2のものが前記1つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定することと、
前記ビデオオブジェクトのうちの前記1つまたは複数のうちの前記第2のものが前記1つまたは複数のオーディオオブジェクトのうちのいずれにも関連付けられていないことを決定することに応答して、前記1つまたは複数のビデオオブジェクトのうちの前記第2のものに関連付けられているであろう基準オーディオオブジェクトをオーディオライブラリから取得することと、
前記マルチチャネルオーディオデータの少なくとも一部を生成するために、前記1つまたは複数のビデオオブジェクトのうちの前記第2のものに基づいて前記基準オーディオオブジェクトをレンダリングすることとを備える、C1に記載の方法。
[C8] 前記オーディオデータを解析することが、前記1つまたは複数のオーディオオブジェクトと、前記1つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、前記オーディオデータの聴覚的シーン解析を行うことを備え、
前記ビデオデータを解析することが、前記1つまたは複数のビデオオブジェクトと、前記1つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、前記ビデオデータの視覚的シーン解析を行うことを備え、
前記オーディオメタデータが、前記ビデオメタデータを定義するために使用されるテキストフォーマットと共通のテキストフォーマットで定義される、C1に記載の方法。
[C9] 前記オーディオデータを解析することが、前記1つまたは複数のオーディオオブジェクトと、前記1つまたは複数のオーディオオブジェクトを記述するオーディオメタデータとを識別するために、前記オーディオデータの聴覚的シーン解析を行うことを備え、
前記ビデオデータを解析することが、前記1つまたは複数のビデオオブジェクトと、前記1つまたは複数のビデオオブジェクトを記述するビデオメタデータとを識別するために、前記ビデオデータの視覚的シーン解析を行うことを備え、
前記マルチチャネルオーディオデータを生成することが、
前記オーディオオブジェクトのうちの前記少なくとも1つに関して識別された前記オーディオメタデータと、前記ビデオオブジェクトのうちの前記関係付けられている1つに関して識別された前記ビデオメタデータとの間の相関のレベルを決定することと、
前記マルチチャネルオーディオデータを生成するとき、前記決定された相関のレベルに基づいて、拡散するオーディオオブジェクトとして前記オーディオオブジェクトのうちの前記少なくとも1つをレンダリングすることとを備える、C1に記載の方法。
[C10] 前記デバイスが、携帯電話を備える、C1に記載の方法。
[C11] オーディオオブジェクトを取得し、ビデオオブジェクトを取得すること、前記オーディオオブジェクトと前記ビデオオブジェクトとを関連付け、前記オーディオオブジェクトを、前記関連付けられているビデオオブジェクトと比較し、前記オーディオオブジェクトと、前記関連付けられているビデオオブジェクトとの間の前記比較に基づいて前記オーディオオブジェクトをレンダリングするように構成される1つまたは複数のプロセッサを備えるデバイス。
[C12] 前記オーディオオブジェクトが、オーディオメタデータを含む、C11に記載のデバイス。
[C13] 前記オーディオメタデータが、サイズと位置とを備える、C12に記載のデバイス。
[C14] 前記ビデオオブジェクトが、ビデオメタデータを含む、C11に記載のデバイス。
[C15] 前記ビデオメタデータが、サイズと位置とを備える、C14に記載のデバイス。
[C16] 前記1つまたは複数のプロセッサが、前記オーディオオブジェクトを前記関連付けられているビデオオブジェクトと比較するとき、サイズと位置とのうちの1つまたは複数を備える複合メタデータを少なくとも部分的に生成するようにさらに構成される、C11に記載のデバイス。
[C17] 前記オーディオオブジェクトが、位置メタデータを含み、
前記ビデオオブジェクトが、位置メタデータを含み、
前記複合メタデータを生成することが、
相関値を決定するために、前記オーディオオブジェクトの前記位置メタデータを前記ビデオオブジェクトの前記位置メタデータと比較することと、
前記相関値が信頼しきい値を超えているかどうかの決定に基づいて、前記複合メタデータの位置メタデータを生成することとを備える、C14に記載のデバイス。
[C18] オーディオ出力信号を生成するデバイスであって、前記デバイスが、
第1のオーディオオブジェクトのデータ構成要素と第1のビデオオブジェクトのデータ構成要素との第1の比較に基づいて、前記第1のビデオオブジェクトの相対物と関連付けられている前記第1のオーディオオブジェクトを識別するための手段と、
第2のオーディオオブジェクトのデータ構成要素と第2のビデオオブジェクトのデータ構成要素との第2の比較に基づいて、前記第2のビデオオブジェクトの相対物と関連付けられていない前記第2のオーディオオブジェクトを識別するための手段と、
第1のゾーン内に前記第1のオーディオオブジェクトをレンダリングするための手段と、
第2のゾーン内に前記第2のオーディオオブジェクトをレンダリングするための手段と、
前記第1のゾーン内の前記レンダリングされた第1のオーディオオブジェクトと、前記第2のゾーン内の前記レンダリングされた第2のオーディオオブジェクトとを組み合わせることに基づいて前記オーディオ出力信号を生成するための手段とを備える、デバイス。
[C19] 前記第1のオーディオオブジェクトの前記データ構成要素が、位置とサイズとのうちの1つを備える、C18に記載のデバイス。
[C20] 前記第1のビデオオブジェクトの前記データ構成要素が、位置とサイズとのうちの1つを備える、C18に記載のデバイス。
[C21] 前記第2のオーディオオブジェクトの前記データ構成要素が、位置とサイズとのうちの1つを備える、C18に記載のデバイス。
[C22] 前記第2のビデオオブジェクトの前記データ構成要素が、位置とサイズとのうちの1つを備える、C18に記載のデバイス。
[C23] 前記第1のゾーンおよび第2のゾーンが、オーディオ前景内の異なるゾーン、またはオーディオ背景内の異なるゾーンである、C18に記載のデバイス。
[C24] 前記第1のゾーンおよび第2のゾーンが、オーディオ前景内の同じゾーン、またはオーディオ背景内の同じゾーンである、C18に記載のデバイス。
[C25] 前記第1のゾーンが、オーディオ前景内にあり、前記第2のゾーンが、オーディオ背景内にある、C18に記載のデバイス。
[C26] 前記第1のゾーンが、オーディオ背景内にあり、前記第2のゾーンが、オーディオ前景内にある、C18に記載のデバイス。
[C27] 前記第1のオーディオオブジェクトの前記データ構成要素と、前記第2のオーディオオブジェクトの前記データ構成要素と、前記第1のビデオオブジェクトの前記データ構成要素と、前記第2のビデオオブジェクトの前記データ構成要素とが、各々、メタデータを備える、C18に記載の方法。
[C28] 前記第1の比較が信頼区間の外部にあるかどうかを決定するための手段と、
前記第1の比較が前記信頼区間の外部にあるかどうかの決定に基づいて、前記第1のオーディオオブジェクトの前記データ構成要素と前記第1のビデオオブジェクトの前記データ構成要素とを重み付けするための手段とをさらに備える、C18に記載のデバイス。
[C29] 前記重み付けするための手段が、前記第1のオーディオオブジェクトの前記データ構成要素と前記第1のビデオオブジェクトの前記データ構成要素とを平均化するための手段を備える、C28に記載のデバイス。
[C30] 前記第1の比較と前記第2の比較とのうちの1つまたは複数に基づいて異なるビット数を割り当てるための手段をさらに備える、C18に記載のデバイス。
[C31] 実行されたとき、デバイスの1つまたは複数のプロセッサに、
1つまたは複数のオーディオオブジェクトを識別するために、前記デバイスによってキャプチャされたオーディオデータを解析させ、
1つまたは複数のビデオオブジェクトを識別するために、前記オーディオデータの前記キャプチャと同時に前記デバイスによってキャプチャされたビデオデータを解析させ、
前記1つまたは複数のオーディオオブジェクトのうちの少なくとも1つを、前記1つまたは複数のビデオオブジェクトのうちの少なくとも1つと関連付けさせ、
前記1つまたは複数のビデオオブジェクトのうちの前記少なくとも1つとの前記1つまたは複数のオーディオオブジェクトのうちの前記少なくとも1つの前記関連付けに基づいて、前記オーディオデータからマルチチャネルオーディオデータを生成させる命令が記憶される非一時的コンピュータ可読記憶媒体。