(58)【調査した分野】(Int.Cl.,DB名)
前記適応的なオーディオ・コンテンツを生成する段階が、前記少なくとも一つのオーディオ・オブジェクトの再オーサリングを実行することを含み、前記再オーサリングが:
前記少なくとも一つのオーディオ・オブジェクトのうちで少なくとも部分的に重なっているオーディオ・オブジェクトを分離すること;
前記少なくとも一つのオーディオ・オブジェクトに関連付けられた属性を修正すること;および
前記少なくとも一つのオーディオ・オブジェクトを対話的に操作することのうちの少なくとも一つを含む、
請求項1ないし9のうちいずれか一項記載の方法。
【発明を実施するための形態】
【0012】
本発明の原理および精神についてここで図面に示されるさまざまな例示的実施形態を参照して述べる。これらの実施形態の描画は、当業者が本発明をよりよく理解し、さらに実装することを可能にするためだけのものであって、いかなる仕方であれ本発明の範囲を限定することは意図されていないことは理解しておくべきである。
【0013】
まず
図1を参照する。
図1では、本発明のある実施形態に基づく適応的なオーディオ・コンテンツの図が示されている。本発明の実施形態によれば、処理されるべき源オーディオ・コンテンツ101は、ステレオ、サラウンド5.1、サラウンド7.1などといったチャネル・ベースのフォーマットである。具体的には、本発明の実施形態によれば、源オーディオ・コンテンツ101は、任意の型の最終ミックス、あるいは伝統的なステレオまたはマルチチャネル・コンテンツの最終ミックスに組み合わされる前に別個に処理されることのできるオーディオ・トラックの諸グループであってもよい。源オーディオ・コンテンツ101は処理されて二つの部分、すなわちチャネル・ベースのオーディオ・ベッド102およびオーディオ・オブジェクト103、104を生成する。オーディオ・ベッド102は諸チャネルを使って、効率的なオーサリングおよび頒布のために音場における背景または周囲音のような比較的複雑なオーディオ・テクスチャーを表現してもよい。オーディオ・オブジェクトは、鮮鋭なおよび/または動的な音のための源のような音場における一次音源であってもよい。
図1に示した例では、オーディオ・オブジェクトは鳥103およびカエル104を含む。適応的なオーディオ・コンテンツ105は、オーディオ・ベッド102およびオーディオ・オブジェクト103、104に基づいて生成されうる。
【0014】
本発明の実施形態によれば、適応的なオーディオ・コンテンツは必ずしもオーディオ・オブジェクトおよびオーディオ・ベッドから構成されるのではないことを注意しておくべきである。むしろ、いくつかの適応的なオーディオ・コンテンツは、オーディオ・オブジェクトおよびオーディオ・ベッドのうちの一方のみを含むことがありうる。あるいはまた、適応的なオーディオ・コンテンツは、オーディオ・オブジェクトおよび/またはベッド以外の任意の好適なフォーマットの追加的なオーディオ要素を含んでいてもよい。たとえば、いくつかの適応的なオーディオ・コンテンツは、オーディオ・ベッドおよびいくつかのオブジェクト様コンテンツ、たとえばスペクトルにおける部分オブジェクト(a partial object in spectral)から構成されていてもよい。本発明の範囲はこの点に関して限定されない。
【0015】
図2を参照するに、本発明の例示的実施形態に基づく適応的なオーディオ・コンテンツを生成する方法200のフローチャートが示されている。方法200の開始後、ステップS201において、少なくとも一つのオーディオ・オブジェクトがチャネル・ベースのオーディオ・コンテンツから抽出される。議論のために、入力のチャネル・ベースのオーディオ・コンテンツは「源オーディオ・コンテンツ」と称される。本発明の実施形態によれば、源オーディオ・コンテンツのオーディオ信号を直接処理することによってオーディオ・オブジェクトを抽出することが可能である。あるいはまた、たとえば源オーディオ・コンテンツの空間的忠実度をよりよく保存するために、信号分解のような前処理が、源オーディオ・コンテンツの信号に対して実行されてもよく、前処理されたオーディオ信号からオーディオ・オブジェクトが抽出されうる。これに関する実施形態を下記で詳述する。
【0016】
本発明の実施形態によれば、オーディオ・オブジェクトを抽出するために任意の適切なアプローチが使用されうる。一般に、オーディオ・コンテンツにおける同じオブジェクトに属する信号成分が、スペクトル連続性および空間的一貫性に基づいて判別されうる。諸実装では、源オーディオ・コンテンツを処理することによって一つまたは複数の信号特徴または手がかりが得られ、それにより源オーディオ・コンテンツのサブバンド、チャネルまたはフレームが同じオーディオ・オブジェクトに属するかどうかを測ってもよい。そのようなオーディオ信号特徴の例は、音方向/位置、拡散性、直接音対残響比(DRR: direct-to-reverberation ratio)、オン/オフセット同期、調波性(harmonicity)、ピッチおよびピッチ揺動、顕著性(saliency)/部分ラウドネス/エネルギー、反復性などを含みうるがこれに限られなくてもよい。他の任意の適切なオーディオ信号特徴が、本発明の実施形態との関連で使用されうる。本発明の範囲はこれに関して限定されない。オーディオ・オブジェクト抽出の具体的な実施形態は下記で詳述する。
【0017】
ステップS201において抽出されたオーディオ・オブジェクトはいかなる好適な形であってもよい。たとえば、いくつかの実施形態では、オーディオ・オブジェクトは、同様のオーディオ信号特徴をもつ信号成分を含むマルチチャネル音トラックとして生成されうる。あるいはまた、オーディオ・オブジェクトは、ダウンミックスされたモノ音トラックとして生成されてもよい。これらは単にいくつかの例であり、抽出されるオーディオ・オブジェクトはいかなる適切な形で表現されてもよいことを注意しておく。本発明の範囲はこれに関して限定されない。
【0018】
方法200は、次いでステップS202に進む。ここで、少なくとも部分的にはステップS201において抽出された前記少なくとも一つのオーディオ・オブジェクトに基づいて、適応オーディオ・コンテンツが生成される。いくつかの実施形態によれば、オーディオ・オブジェクトおよび可能性としては他のオーディオ要素は、結果として得られる適応オーディオ・コンテンツとしての単一ファイルにパッケージングされてもよい。そのような追加的なオーディオ要素は、チャネル・ベースのオーディオ・ベッドおよび/または他の任意のフォーマットのオーディオ・コンテンツを含むがそれに限られなくてもよい。あるいはまた、オーディオ・オブジェクトおよび追加的なオーディオ要素は別個に頒布されて、次いで再生システムによって組み合わされて再生スピーカー構成に基づくオーディオ・コンテンツを適応的に再構成してもよい。
【0019】
具体的には、いくつかの実施形態によれば、適応的なオーディオ・コンテンツを生成する際、オーディオ・オブジェクトおよび/または他のオーディオ要素(もしあれば)に対して再オーサリング・プロセスを実行することが可能である。再オーサリング・プロセスはたとえば、重なり合ったオーディオ・オブジェクトを分離すること、オーディオ・オブジェクトを操作すること、オーディオ・オブジェクトの属性を修正すること、適応的なオーディオ・コンテンツの利得を制御することなどを含みうる。これに関する実施形態は下記で詳述する。
【0020】
方法200は、この特定の例ではステップS202の後に終了する。方法200を実行することにより、チャネル・ベースのオーディオ・コンテンツは、鮮鋭かつ動的な音がオーディオ・オブジェクトによって表現されうる一方、背景音のような複雑なオーディオ・テクスチャーは他のフォーマットによって表現されうる、たとえばオーディオ・ベッドとして表現されうる適応的なオーディオ・コンテンツに変換されうる。生成された適応的なオーディオ・コンテンツは、効率的に頒布され、さまざまな種類の再生システム構成によって高い忠実度をもって再生されうる。このようにして、オブジェクト・ベースのフォーマットおよびチャネル・ベースのフォーマットのような他のフォーマットを活用することが可能である。
【0021】
ここで
図3を参照する。
図3は、本発明のある例示的実施形態に基づく、適応的なオーディオ・コンテンツを生成する方法300のフローチャートを示している。方法300は、
図2を参照して上記した方法200の具体的な実施形態であると考えられてもよいことは理解されるはずである。
【0022】
方法300の開始後、ステップS301において、チャネル・ベースの源オーディオ・コンテンツに対して、指向性オーディオ信号および拡散性オーディオ信号の分解が実行され、源オーディオ・コンテンツが指向性オーディオ信号および拡散性オーディオ信号に分解される。信号分解により、オーディオ・オブジェクトのその後の抽出およびオーディオ・ベッドの生成はより正確かつ効果的となりうる。特に、結果として得られる指向性オーディオ信号はオーディオ・オブジェクトを抽出するために使用されてもよく、一方、拡散性のオーディオ信号はオーディオ・ベッドを生成するために使用されてもよい。このようにして、源オーディオ・コンテンツの、より高い忠実度を保証しつつ、良好な没入感が達成できる。さらに、これは柔軟なオブジェクト抽出および正確なメタデータ推定を実装する助けとなる。これに関する実施形態は下記で詳述する。
【0023】
指向性オーディオ信号は、比較的簡単に局在化可能であり、チャネル間でパンされる一次音である。拡散性信号は、指向性源と、および/または諸チャネルを横断して、弱く相関した周囲信号である。本発明の実施形態によれば、ステップS301において、源オーディオ・コンテンツにおける指向性オーディオ信号が任意の好適な手法によって抽出されてもよく、残りの信号が拡散性オーディオ信号となる。指向性オーディオ信号を抽出するための手法は、主成分解析(PCA)、独立成分解析、Bフォーマット解析などを含むがそれに限られなくてもよい。PCAベースの手法を例として考えると、これは、固有値の対に基づいて確率解析を実行することによって任意のチャネル構成に対して動作できる。たとえば、左(L)、右(R)、中央(C)、左サラウンド(Ls)および右サラウンド(Rs)チャネルを含む五つのチャネルをもつ源オーディオ・コンテンツについて、PCAは、チャネルのいくつかの対(たとえば10個の対)に対してそれぞれ適用されてもよく、各チャネルはそれぞれのステレオ指向性信号および拡散性信号出力をもつ。
【0024】
伝統的に、PCAベースの分離は通例、二チャネルの対に適用される。本発明の実施形態によれば、PCAは、源オーディオ・コンテンツのより効果的な信号成分分解を達成するためにマルチチャネル・オーディオ信号に拡張されてもよい。特に、C個のチャネルを含む源オーディオ・コンテンツについて、D個の指向性源がC個のチャネルにわたって分配されると想定され、それぞれが一つのチャネルによって表わされるC個の拡散性オーディオ信号が、指向性源と、および/またはC個のチャネルを横断して、弱く相関しているとする。本発明の実施形態によれば、各チャネルのモデルは、空間的な知覚される位置に従って重み付けされる周囲信号および指向性オーディオ信号の和として定義されうる。時間領域のマルチチャネル信号X
C=(x
1,…,x
c)
Tは
【数1】
と表現されてもよい。ここで、c∈[1,…,C]であり、g
c,d(t)はc番目のチャネルの指向性源〔ベクトル〕S
D=(S
1,…,S
D)
Tに適用されるパン利得を表わす。拡散性オーディオ信号〔ベクトル〕A
C=(A
1,…,A
C)
Tはすべてのチャネルにわたって分配される。
【0025】
上記のモデルに基づいて、PCAは、周波数サブバンド毎に短時間フーリエ変換(STFT)信号に対して適用されてもよい。STFT信号の絶対値はX
b,t,cと記される。ここで、b∈[1,…,B]はSTFT周波数ビン・インデックスを表わし、t∈[1,…,T]はSTFTフレーム・インデックスを表わし、c∈[1,…,C]はチャネル・インデックスを表わす。
【0026】
各周波数帯域b∈[1,…,B]について(議論のため、以下の記号についてはbは省略する)、源オーディオ・コンテンツに関する共分散行列はたとえば、チャネル間の相関を計算することによって計算されてもよい。結果として得られるC×C共分散行列は適切な時定数をもって平滑化されうる。固有ベクトル分解が実行されて、固有値λ
1>λ
2>λ
3>…>λ
Cおよび固有ベクトルv
1,v
2,…v
Cが得られる。次に、各チャネルc=1,…,Cについて、固有値λ
c,λ
c+1の対が比較され、zスコアが計算される。
【0027】
z=abs(λ
c−λ
c+1)/(λ
c+λ
c+1)
ここで、absは絶対値関数を表わす。次いで、分解された信号成分を解析することによって、拡散性(diffusivity)または周囲性(ambiance)の確率が計算されてもよい。具体的には、より大きなzは、拡散性についてのより小さな確率を示す。zスコアに基づいて、拡散性についての確率は、正規化された累積分布関数(cdf)/相補誤差関数(erfc)に基づくヒューリスティックな仕方で計算されうる。
【0028】
p=erfc(−z/√2)
一方、チャネルcについての拡散性についての確率は次のように更新される:
p
c=max(p
c,p)
p
c+1=max(p
c+1,p
c)
最終的な拡散性オーディオ信号をAc、最終的な指向性オーディオ信号をS
cと表わす。こうして、各チャネルcについて、
A
c=X
c・p
c
S
c=X
c・(1−p
c)
となる。
【0029】
上記は単に例であり、本発明の範囲に対する限定と解釈されるべきではないことを注意しておくべきである。たとえば、上記の信号の共分散または相関行列の固有値の比較に基づく他の任意のプロセスまたはメトリックが、上記の信号の拡散性の量または拡散性成分を推定するために使用されうる。たとえば、比、差、商などによる。さらに、いくつかの実施形態では、源オーディオ・コンテンツの信号はフィルタ処理されてもよく、次いで、フィルタ処理された信号に基づいて共分散が推定される。例として、信号は直交ミラー・フィルタによってフィルタ処理されてもよい。代替的または追加的に、信号は他の任意のフィルタ処理手段によってフィルタ処理または帯域制限されてもよい。いくつかの他の実施形態では、源オーディオ・コンテンツの信号の包絡がが、共分散または相関行列を計算するために使われてもよい。
【0030】
図3の参照を続けると、方法300は次いでステップS302に進み、ここでステップS301において得られた指向性オーディオ信号から少なくとも一つのオーディオ・オブジェクトが抽出される。源オーディオ・コンテンツからオーディオ・オブジェクトを直接抽出することに比べて、指向性オーディオ信号からオーディオ・オブジェクトを抽出することは、拡散性オーディオ信号成分による干渉を除去することができ、よってオーディオ・オブジェクト抽出およびメタデータ推定はより正確に実行できる。さらに、さらなる指向性および拡散性信号分解を適用することによって、抽出されたオブジェクトの拡散性が調整されてもよい。また、適応的なオーディオ・コンテンツの再オーサリング・プロセスを容易にする助けともなる。これについては後述する。本発明の範囲は指向性オーディオ信号からオーディオ・オブジェクトを抽出することに制限されないことを理解しておくべきである。本稿に記載されたさまざまな動作および特徴は、源オーディオ・コンテンツのもとの信号にも該もとのオーディオ信号から分解された任意の他の信号成分にも適用可能である。
【0031】
本発明の実施形態によれば、ステップS302におけるオーディオ・オブジェクト抽出は空間的な源分離プロセスによってなされてもよい。かかるプロセスは二段階で実行されうる。まず、源オーディオ・コンテンツの複数のまたは全部のフレームのそれぞれに対してスペクトル合成(spectrum composition)が実施されてもよい。スペクトル合成は、オーディオ・オブジェクトが二つ以上のチャネルに存在していれば、これらのチャネルにおけるそのスペクトルは、包絡およびスペクトル形状の点で高度な類似性をもつ傾向があるという想定に基づく。したがって、周波数範囲全体が複数のサブバンドに分割されてもよく、次いでこれらのサブバンドの間の類似性が測定される。本発明の実施形態によれば、比較的短かめの継続時間(たとえば80ms未満)をもつオーディオ・コンテンツについて、サブバンド間のスペクトルの類似性を比較することが可能である。より長い継続時間をもつオーディオ・コンテンツについては、サブバンド包絡コヒーレンスが比較されてもよい。他の任意の好適なサブバンド類似性メトリックも可能である。次いで、同じオーディオ・オブジェクトからのサブバンドおよびチャネルを総合するために、さまざまなクラスタリング技法が適用されてもよい。たとえば、ある実施形態では、階層的なクラスタリング技法が適用されてもよい。そのような技法は、最低の類似性スコアの閾値を設定し、次いで該閾値との比較に基づいて、類似したチャネルと、クラスターの数とを自動的に識別する。よって、各フレームにおいて、同じオブジェクトを含む諸チャネルが識別され、総合されることができる。
【0032】
次に、単一フレーム・オブジェクト・スペクトル合成において識別され、総合されたのと同じオブジェクトを含む諸チャネルについて、複数のフレームを横断して時間的合成が実行されて、時間に沿った完全なオーディオ・オブジェクトを合成してもよい。本発明の実施形態によれば、複数のフレームを横断して完全なオーディオ・オブジェクトを合成するためには、既知のものであれ将来開発されるものであれ、いかなる好適な技法が適用されてもよい。そのような技法の例は、確率的なフレームワークを使ってオーディオ・オブジェクト成分を総合する動的プログラミング;特徴の一貫性および時間的制約条件に基づいて同じオーディオ・オブジェクトからの成分を総合するクラスタリング;異なるオーディオ・オブジェクトは通例異なる時点において現われたり消えたりするので複数のオーディオ・オブジェクトの生起を追跡するために適用できるマルチエージェント技法;時間を追ってオーディオ・オブジェクトを追跡しうるカルマン・フィルタ処理などを含むがそれに限られない。
【0033】
上記のような単一フレームのスペクトル合成または複数フレームの時間的合成のために、サブバンド/チャネル/フレームが同じオーディオ・オブジェクトを含んでいるかどうかが、スペクトル連続性および空間的一貫性に基づいて決定されてもよい。たとえば、クラスタリングおよび動的プログラミングのような複数フレームの時間的合成処理では、オーディオ・オブジェクトは、次のうちの一つまたは複数に基づいて総合されて、時間的な完全なオーディオ・オブジェクトを形成してもよい:方向/位置、拡散性、DDR、オン/オフセット同期、調波性変調(harmonicity modulations)、ピッチおよびピッチ揺動、顕著性/部分的ラウドネス/エネルギー、反復性など。
【0034】
特に、本発明の実施形態によれば、ステップS301で得られた拡散性のオーディオ信号A
c(またはその一部)が一つまたは複数のオーディオ・オブジェクトと見なされてもよい。たとえば、個々の信号A
cのそれぞれは、対応するスピーカーの想定される位置に対応する位置をもつオーディオ・オブジェクトとして出力されうる。あるいはまた、信号A
cは、ダウンミックスされてモノ信号を生成してもよい。そのようなモノ信号は、拡散性であるまたは大きなオブジェクト・サイズをもつものとして、その関連するメタデータにおいてラベル付けされてもよい。他方、指向性信号に対するオーディオ・オブジェクト抽出を実行後、いくつかの残差信号があってもよい。いくつかの実施形態によれば、そのような残差信号成分は下記のようにオーディオ・ベッド中に入れられてもよい。
【0035】
図3の参照を続けると、ステップS303において、源オーディオ・コンテンツに基づいてチャネル・ベースのオーディオ・ベッドが生成される。オーディオ・ベッド生成が、オーディオ・オブジェクト抽出後に実行されるように示されているが、本発明の範囲はこれに関して限定されない。代替的な実施形態では、オーディオ・ベッドはオーディオ・オブジェクトの抽出前にまたは抽出と並行して生成されてもよい。
【0036】
一般に、オーディオ・ベッドはチャネル・ベースのフォーマットで表現されるオーディオ信号成分を含む。いくつかの実施形態によれば、上記で論じたように、源オーディオ・コンテンツはステップS301において分解される。そのような実施形態では、オーディオ・ベッドは、源オーディオ・コンテンツから分解された拡散性の信号から生成されてもよい。すなわち、拡散性のオーディオ信号は、オーディオ・ベッドとしてはたらくよう、チャネル・ベースのフォーマットにおいて表現されてもよい。追加的または代替的に、オーディオ・オブジェクト抽出後に残差信号成分からオーディオ・ベッドを生成することが可能である。
【0037】
具体的には、いくつかの実施形態によれば、生成されたオーディオ・ベッドをより没入的で迫真的なものにするために、源オーディオ・コンテンツに存在するチャネルに加えて、一つまたは複数の追加的なチャネルが生成されてもよい。たとえば、伝統的なチャネル・ベースのオーディオ・コンテンツは通例高さ情報を含まないことが知られている。いくつかの実施形態によれば、ステップS303において周囲アップミキサーを適用することによって、少なくとも一つの高さチャネルが生成されてもよい。こうして源オーディオ情報が拡張される。このようにして、生成されたオーディオ・ベッドはより没入的で、迫真的なものになる。次世代サラウンド(Next Generation Surround)またはプロロジックIIxデコーダのような任意の好適なアップミキサーが、本発明の実施形態との関連で使用されうる。サラウンド5.1フォーマットの源オーディオ・コンテンツを例として考えると、受動的な行列(passive matrix)がLsおよびRs出力に適用されて、周囲信号中のLsおよびRsチャネルの位相外れ成分を生成してもよい。それがそれぞれ高さチャネルLvhおよびRvhとして使用されることになる。
【0038】
図4を参照するに、いくつかの例示的実施形態によれば、アップミックスは次の二段階でなされてもよい。第一に、LsおよびRsチャネルの位相外れ内容が計算され、高さチャネルにリダイレクトされてもよい。これにより単一の高さ出力チャネルC'が生成される。次いで、チャネルL'、R'、Ls'およびRs'が計算される。次に、チャネルL'、R'、Ls'およびRs'がそれぞれLs、Rs、LrsおよびRrs出力にマッピングされる。最後に、導出された高さチャネルC'が、たとえば3dBだけ減衰させられ、LvhおよびRvh出力にマッピングされれる。よって、高さチャネルC'は二つの高さスピーカーLvhおよびRvh出力にフィードするよう分割される。任意的に、ある種のチャネルには遅延および利得補償が適用されてもよい。
【0039】
いくつかの実施形態によれば、アップミックス・プロセスは、入力(一つまたは複数)から、互いに独立な追加的信号を生成するために、脱相関器を使うことを含んでいてもよい。脱相関器はたとえば、全域通過フィルタ、全域通過遅延セクション、残響生成器などを含んでいてもよい。これらの実施形態において、信号Lvh、Rvh、LrsおよびRrsは、信号L、C、R、LsおよびRsのうちの一つまたは複数に脱相関を適用することによって生成されてもよい。既知のものであれ将来開発されるものであれ、いかなるアップミックス技法が本発明の実施形態との関連で使われてもよいことは理解しておくべきである。
【0040】
チャネル・ベースのオーディオ・ベッドは、周囲アップミックスによって生成された高さチャネルと、源オーディオ・コンテンツにおける拡散性のオーディオ信号の他のチャネルとによって構成されている。ステップS303における高さチャネルの生成は任意的であることは理解しておくべきである。たとえば、いくつかの代替的な実施形態によれば、オーディオ・ベッドは、チャネル拡張なしで、源オーディオ・コンテンツにおける拡散性のオーディオ信号のチャネルに基づいて直接、生成されてもよい。実際、本発明の範囲は、拡散性のオーディオ信号からオーディオ・ベッドを生成することにも限定されない。上記のように、オーディオ・オブジェクトが源オーディオ・コンテンツから直接抽出される実施形態では、オーディオ・オブジェクト抽出後の残りの信号がオーディオ・ベッドを生成するために使われてもよい。
【0041】
方法300は次いでステップS304に進む。ここで、適応的なオーディオ・コンテンツに関連するメタデータが生成される。本発明の実施形態によれば、メタデータは源オーディオ・コンテンツ、一つまたは複数の抽出されたオーディオ・オブジェクトおよびオーディオ・ベッドのうちの少なくとも一つに基づいて推定または計算されてもよい。メタデータは、高レベルの意味的メタデータ(semantic metadata)から低レベルの記述情報(descriptive information)まで幅があってもよい。たとえば、いくつかの実施形態によれば、メタデータは、オンセット、調波性、顕著性、ラウドネス、時間的構造などを含む中レベルの属性を含んでいてもよい。代替的または追加的に、メタデータは、音楽、発話、歌声、音響効果、環境音、効果音などを含む高レベルの意味的属性を含んでいてもよい。
【0042】
具体的には、いくつかの実施形態によれば、メタデータは、オーディオ・オブジェクトの位置、サイズ、幅などといった空間的属性を表わす空間的メタデータを含んでいてもよい。たとえば、推定されるべき空間的メタデータが、抽出されるオーディオ・オブジェクトの方位角(αと記される、0≦α<2π)であるとき、典型的なパン則(たとえば正弦‐余弦則)が適用されうる。正弦‐余弦則では、オーディオ・オブジェクトの振幅は、次のような仕方で二つのチャネル/スピーカー(c
0およびc
1と記される)に分配されうる:
g
0=βcos(α')
g
1=βsin(α')
ここで、g
0およびg
1は二つのチャネルの振幅を表わし、βはオーディオ・オブジェクトの振幅を表わし、α'は二つのチャネルの間のその方位角を表わす。対応して、g
0およびg
1に基づいて、方位角α'は次のように計算されてもよい:
α'=argtan((g
1−g
0)/(g
1+g
0))+π/4
こうして、オーディオ・オブジェクトの方位角αを推定するために、最高の振幅をもつ上位二つのチャネルがまず検出されてもよく、これら二つのチャネルの間の方位角α'が推定される。次いで、選択された二つのチャネルのインデックスに基づいて、マッピング関数がα'に適用されて、最終的な軌跡パラメータαを得てもよい。推定されたメタデータは、空間的軌跡の点で、源オーディオ・コンテンツのもとの創造的な意図の近似的な基準を与えうる。
【0043】
いくつかの実施形態では、オーディオ・オブジェクトの推定された位置はデカルト座標系におけるxおよびy座標を有していてもよく、あるいは角度によって表現されてもよい。具体的には、本発明の実施形態によれば、オブジェクトのxおよびy座標が次のように推定されてもよい。
【0044】
【数2】
ここで、x
cおよびy
cはチャネルcに対応するスピーカーのxおよびy座標である。
【0045】
次いで、方法300はステップS305に進む。ここで、オーディオ・オブジェクトおよびチャネル・ベースのオーディオ・ベッドの両方を含んでいてもよい適応的なオーディオ・コンテンツに対して再オーサリング・プロセスが実行される。オーディオ・オブジェクト、オーディオ・ベッドおよび/またはメタデータにある種のアーチファクトがありうることが理解されるであろう。結果として、ステップS301からS304において得られた結果を調整または修正することが望ましいことがありうる。さらに、エンドユーザーは、生成された適応的なオーディオ・コンテンツに対してある種の制御をもつことを与えられてもよい。
【0046】
いくつかの実施形態によれば、再オーサリング・プロセスはオーディオ・オブジェクト分離を含んでいてもよい。これは、抽出されたオーディオ・オブジェクトの間で互いに少なくとも部分的に重なり合っているオーディオ・オブジェクトを分離するために使われる。ステップS302において抽出されたオーディオ・オブジェクトにおいて、二つ以上のオーディオ・オブジェクトが少なくとも部分的に互いに重なり合っていることがあることが理解できる。たとえば、
図5のAは、諸チャネルの一部(この場合中央Cチャネル)において重なり合っている二つのオーディオ・オブジェクトを示している。ここで、一方のオーディオ・オブジェクトがLチャネルとCチャネルの間でパンされ、その間、他方はCチャネルとRチャネルの間でパンされる。
図5のBは、二つのオーディオ・オブジェクトがすべてのチャネルにおいて部分的に重なっているシナリオを示している。
【0047】
本発明の実施形態によれば、オーディオ・オブジェクト分離プロセスは自動プロセスであってもよい。あるいはまた、オブジェクト分離プロセスは半自動プロセスであってもよい。ユーザーが、たとえば重なり合っているオーディオ・オブジェクトがある時点を指示することによって、分離されるべきオーディオ・オブジェクトを対話的に選択しうるよう、グラフィカル・ユーザー・インターフェース(GUI)のようなユーザー・インターフェースが設けられてもよい。よって、オブジェクト分離処理は、その時間期間内のオーディオ信号に適用されてもよい。既知のものか将来開発されるものかによらず、オーディオ・オブジェクトを分離するためのいかなる好適な技法が本発明の実施形態との関連で使われてもよい。
【0048】
さらに、本発明の実施形態によれば、再オーサリング・プロセスはオーディオ・オブジェクトの属性を制御および修正することを含んでいてもよい。たとえば、分離されたオーディオ・オブジェクトおよびそれらそれぞれの時間依存かつチャネル依存の利得G
r,tおよびA
r,cに基づいて、オーディオ・オブジェクトのエネルギー・レベルが変更されてもよい。さらに、オーディオ・オブジェクトを形状変更する、たとえばオーディオ・オブジェクトの幅およびサイズを変えることも可能である。
【0049】
代替的または追加的に、ステップS305における再オーサリング・プロセスは、ユーザーがたとえばGUIを介してオーディオ・オブジェクトを対話的に操作することを許容しうる。操作はたとえば、オーディオ・オブジェクトの空間的な位置または軌跡を変えること、いくつかのオーディオ・オブジェクトのスペクトルを一つのオーディオ・オブジェクトに混合すること、一つのオーディオ・オブジェクトのスペクトルをいくつかのオーディオ・オブジェクトに分離すること、時間に沿ったいくつかのオブジェクトを連結して一つのオーディオ・オブジェクトを形成すること、一つのオーディオ・オブジェクトを時間に沿ってスライスしていくつかのオーディオ・オブジェクトにすることなどを含むがそれに限られなくてもよい。
【0050】
図3を参照するに、適応的なオーディオ・コンテンツに関連するメタデータがステップS304において推定される場合、方法300はそのようなメタデータを編集するためにステップS306に進んでもよい。いくつかの実施形態によれば、メタデータの編集は、オーディオ・オブジェクトおよび/またはオーディオ・ベッドに関連する空間的メタデータを操作することを含んでいてもよい。たとえば、オーディオ・オブジェクトの空間的な位置/軌跡および幅といったメタデータが、オーディオ・オブジェクトの利得G
r,tおよびA
r,cを使って調整され、あるいはさらに推定し直されてもよい。たとえば、上記の空間的メタデータは次のように更新されてもよい。
【0051】
【数3】
ここで、Gは当該オーディオ・オブジェクトの時間依存の利得を表わし、A
0およびA
1は異なるチャネルの間の、当該オーディオ・オブジェクトの上位二つの最高のチャネル依存の利得を表わす。
【0052】
さらに、空間的メタデータは、源オーディオ・コンテンツの忠実度を保証する際の基準として使用されたり、あるいは新たな芸術的創造のための基礎のはたらきをしたりしてもよい。たとえば、抽出されたオーディオ・オブジェクトは、関連する空間的メタデータを修正することによって位置決めし直されてもよい。たとえば、
図6に示されるように、空間的メタデータを編集して三次元軌跡を生成することによって、オーディオ・オブジェクトの二次元軌跡が所定のヘミスフィア(hemisphere)にマッピングされてもよい。
【0053】
あるいはまた、いくつかの実施形態によれば、メタデータ編集はオーディオ・オブジェクトの利得を制御することを含んでいてもよい。代替的または追加的に、利得制御はチャネル・ベースのオーディオ・ベッドについて実行されてもよい。たとえば、いくつかの実施形態では、利得制御はチャネル・ベースのオーディオ・ベッドについて実行されてもよい。たとえば、いくつかの実施形態では、利得制御は、源オーディオ・コンテンツに存在しない高さチャネルに適用されてもよい。
【0054】
方法300は、この特定の例ではステップS306後に終わる。
【0055】
上述したように、方法300に記述されるさまざまな動作が適応的なオーディオ・コンテンツの生成を容易にしうるものの、その一つまたは複数は、本発明のいくつかの代替的な実施形態では省略されてもよい。たとえば、指向性/拡散性信号分解を実行することなく、オーディオ・オブジェクトは直接的に、源オーディオ・コンテンツの信号から抽出されてもよく、チャネル・ベースのオーディオ・ベッドは、オーディオ・オブジェクト抽出後の残差信号から生成されてもよい。さらに、追加的な高さチャネルを生成しないことが可能である。同様に、メタデータの生成および適応的なオーディオ・コンテンツの再オーサリングはいずれも任意的である。本発明の範囲はこれらに関して限定されない。
【0056】
図7を参照するに、本発明のある例示的実施形態に基づく適応的なオーディオ・コンテンツを生成するシステム700のブロック図が示されている。図のように、システム700は、チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出するよう構成されたオーディオ・オブジェクト抽出器701と;少なくとも部分的には前記少なくとも一つのオーディオ・オブジェクトに基づいて前記適応的なオーディオ・コンテンツを生成するよう構成された適応オーディオ生成器702とを有する。
【0057】
いくつかの実施形態によれば、オーディオ・オブジェクト抽出器701は:源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解するよう構成された信号分解器を有する。これらの実施形態では、オーディオ・オブジェクト抽出器701は、指向性オーディオ信号から前記少なくとも一つのオーディオ・オブジェクトを抽出するよう構成されていてもよい。いくつかの実施形態では、信号分解器は、源オーディオ・コンテンツに対して信号成分分解を実行するよう構成された成分分解器と;分解された信号成分を解析することによって拡散性についての確率を計算するよう構成された確率計算器とを有していてもよい。
【0058】
代替的または追加的に、いくつかの実施形態によれば、オーディオ・オブジェクト抽出器701は:源オーディオ・コンテンツにおける複数のフレームのそれぞれについてスペクトル合成(spectrum composition)を実行して、同じオーディオ・オブジェクトを含むチャネルを識別して総合するよう構成されたスペクトル合成器と;前記複数のフレームを横断して前記識別および総合されたチャネルの時間的合成を実行して、時間に沿った前記少なくとも一つのオーディオ・オブジェクトを形成するよう構成された時間的合成器とを有していてもよい。たとえば、スペクトル合成器は、前記複数のフレームのそれぞれについて、周波数範囲を複数のサブバンドに分割するよう構成された周波数分割器を有していてもよい。よって、スペクトル合成器は、前記複数のサブバンドの間の、包絡およびスペクトル形状の少なくとも一方の類似性に基づいて、同じオーディオ・オブジェクトを含むチャネルを識別し、総合するよう構成されていてもよい。
【0059】
いくつかの実施形態によれば、システム700は、源オーディオ・コンテンツからチャネル・ベースのオーディオ・ベッドを生成するよう構成されたオーディオ・ベッド生成器703を有していてもよい。そのような実施形態では、適応オーディオ生成器702は、前記少なくとも一つのオーディオ・オブジェクトおよび前記オーディオ・ベッドに基づいて前記適応的なオーディオ・コンテンツを生成するよう構成されていてもよい。いくつかの実施形態では、上記で論じたように、システム700は、源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解して、拡散性のオーディオ信号からオーディオ・ベッドを生成するよう構成された信号分解器を有していてもよい。
【0060】
いくつかの実施形態によれば、オーディオ・ベッド生成器703は、源オーディオ・コンテンツを周囲アップミックスすることによって少なくとも一つの高さチャネルを生成するよう構成された高さチャネル生成器を有していてもよい。これらの実施形態では、オーディオ・ベッド生成器703は、源オーディオ・コンテンツのチャネルおよび前記少なくとも一つの高さチャネルから前記オーディオ・ベッドを生成するよう構成されていてもよい。
【0061】
いくつかの実施形態によれば、システム700はさらに、適応的なオーディオ・コンテンツに関連するメタデータを推定するよう構成されたメタデータ推定器704を有していてもよい。メタデータは、前記源オーディオ・コンテンツ、前記少なくとも一つのオーディオ・オブジェクトおよび/または前記オーディオ・ベッド(もしあれば)に基づいて推定されてもよい。これらの実施形態では、システム700はさらに、適応的なオーディオ・コンテンツに関連するメタデータを編集するよう構成されたメタデータ編集器を有していてもよい。特に、いくつかの実施形態では、メタデータ編集器は、適応的なオーディオ・コンテンツの利得、たとえばオーディオ・オブジェクトおよび/またはチャネル・ベースのオーディオ・ベッドの利得を制御するよう構成された利得コントローラを有していてもよい。
【0062】
いくつかの実施形態によれば、適応オーディオ生成器702は、前記少なくとも一つのオーディオ・オブジェクトに対して再オーサリングを実行するよう構成された再オーサリング・コントローラを有していてもよい。たとえば、再オーサリング・コントローラは:前記少なくとも一つのオーディオ・オブジェクトのうちの少なくとも部分的に重なり合っているオーディオ・オブジェクトを分離するよう構成されたオブジェクト分離器;前記少なくとも一つのオーディオ・オブジェクトに関連付けられた属性を修正するよう構成された属性修正器;および前記少なくとも一つのオーディオ・オブジェクトを対話的に操作するよう構成されたオブジェクト操作器のうちの少なくとも一つを有していてもよい。
【0063】
明確のため、システム700のいくつかの任意的なコンポーネントは
図7に示していない。しかしながら、
図2〜
図3を参照して上記した事項はみなシステム700に適用可能であることは理解されるはずである。さらに、システム700のコンポーネントは、ハードウェア・モジュールまたはソフトウェア・モジュールでありうる。たとえば、いくつかの実施形態では、システム700は、部分的にまたは完全に、たとえばコンピュータ可読媒体において具現されたコンピュータ・プログラム・プロダクトとして実装されるソフトウェアおよび/またはファームウェアを用いて実装されてもよい。代替的または追加的に、システム700は部分的または完全に、たとえば集積回路(IC)、特定用途向け集積回路(ASIC)、システムオンチップ(SOC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)などのようなハードウェアに基づいて実装されてもよい。本発明の範囲はこれに関して限定されない。
【0064】
図8を参照するに、本発明の実施形態を実装するために好適な例示的なコンピュータ・システム800のブロック図が示されている。図のように、コンピュータ・システム800は、読み出し専用メモリ(ROM)802に記憶されたプログラムまたは記憶セクション808からランダム・アクセス・メモリ(RAM)にロードされたプログラムに従ってさまざまなプロセスを実行することのできる中央処理ユニット(CPU)801を有する。RAM 803では、CPU 801がさまざまなプロセスを実行するときに必要とされるデータなども必要に応じて記憶される。CPU 801、ROM 802およびRAM 803はバス804を介して互いに接続されている。入出力(I/O)インターフェース805もバス804に接続されている。
【0065】
以下のコンポーネントがI/Oインターフェース805に接続される:キーボード、マウスなどを含む入力部806;陰極線管(CRT)、液晶ディスプレイ(LCD)などのようなディスプレイまたはスピーカーなどを含む出力部807;ハードディスクなどを含む記憶部808;およびLANカード、モデムなどのようなネットワーク・インターフェース・カードを含む通信部809である。通信部809は、インターネットのようなネットワークを介して通信プロセスを実行する。ドライブ810も必要に応じてI/Oインターフェース805に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのような着脱可能な媒体811が必要に応じてドライブ810にマウントされ、それにより必要に応じて、そこから読まれたコンピュータ・プログラムが記憶部808にインストールされる。
【0066】
特に、本発明の実施形態によれば、
図2〜
図3を参照して上記したプロセスがソフトウェア・プログラムとして実装されてもよい。たとえば、本発明の実施形態は、方法200および/または方法300を実行するためのプログラム・コードを含む、機械可読媒体上に有体に具現されたコンピュータ・プログラムを含むコンピュータ・プログラム・プロダクトを含む。そのような実施形態では、コンピュータ・プログラムは、通信ユニット809を介してネットワークからダウンロードおよびマウントされ、および/または着脱可能なメモリ・ユニット811からインストールされてもよい。
【0067】
一般に、本発明のさまざまな例示的実施形態はハードウェアまたは特殊目的回路、ソフトウェア、論理またはそれらの任意の組み合わせにおいて実装されうる。いくつかの側面はハードウェアにおいて実装され、一方で他の側面がコントローラ、マイクロプロセッサまたは他のコンピューティング装置によって実行されうるファームウェアまたはソフトウェアにおいて実装されてもよい。本発明の例示的実施形態のさまざまな側面がブロック図、フローチャートとしてまたは他のいくつかの絵的表現を使って図示され、記述されているが、本稿に記載されるブロック、装置、システム、技法または方法は、限定しない例として、ハードウェア、ソフトウェア、ファームウェア、特殊目的回路または論理、汎用ハードウェアまたはコントローラまたは他のコンピューティング装置またはそれらの何らかの組み合わせにおいて実装されてもよいことは理解されるであろう。
【0068】
さらに、フローチャートに示されるさまざまなブロックを方法ステップとしておよび/またはコンピュータ・プログラム・コードの動作から帰結する動作としておよび/または関連する機能(単数または複数)を実行するよう構築された複数の結合された論理回路要素として見ることができる。たとえば、本発明の実施形態は、機械可読媒体上に有体に具現されたコンピュータ・プログラムを有するコンピュータ・プログラム・プロダクトを含み、該コンピュータ・プログラムは、上記で述べた諸方法を実行するために構成されたプログラム・コードを含む。
【0069】
本開示のコンテキストにおいて、機械可読媒体は、命令実行システム、装置またはデバイスによってまたはそれとの関連で使うためのプログラムを含むまたは記憶することができるいかなる有体の媒体であってもよい。機械可読媒体は機械可読信号媒体または機械可読記憶媒体でありうる。機械可読媒体は、電子式、磁気式、光学式、電磁式、赤外線または半導体のシステム、装置またはデバイスまたは上記の任意の好適な組み合わせを含みうる、それに限られなくてもよい。機械可読記憶媒体のより具体的な例は、一つまたは複数のワイヤを有する電気接続、ポータブルなコンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラム可能型読み出し専用メモリ(EPROMまたはフラッシュ・メモリ)、光ファイバー、ポータブルなコンパクト・ディスク読み出し専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイスまたは上記の任意の好適な組み合わせを含む。
【0070】
本発明の方法を実行するためのコンピュータ・プログラム・コードは、一つまたは複数のプログラミング言語の任意の組み合わせにおいて書かれうる。これらのコンピュータ・プログラム・コードは、汎用コンピュータ、特殊目的コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサに提供されてもよく、それにより該プログラム・コードは、該コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実行されたとき、フローチャートおよび/またはブロック図において規定された機能/動作を実装させる。プログラム・コードは完全にコンピュータ上で、部分的にコンピュータ上で、スタンドアローンのソフトウェア・パッケージとして、部分的にはコンピュータ上で部分的にはリモート・コンピュータ上で、あるいは完全にリモート・コンピュータまたはサーバー上で実行されてもよい。
【0071】
さらに、動作は特定の順序で描かれているが、これは、そのような動作が示される特定の順序で、あるいは逐次順に実行されること、あるいは所望される結果を達成するために示されているすべての動作が実行されることを要求するものと理解されるべきではない。ある種の状況では、マルチタスクおよび並列処理が有利であることがある。同様に、いくつかの個別的な実装詳細が上記の議論に含まれるものの、これらはいずれかの発明のまたは特許請求されうるものの範囲に対する限定として解釈されるべきではなく、むしろ特定の発明の特定の実施形態に固有でありうる事項の記述と解釈されるべきである。別個の実施形態のコンテキストにおいて本明細書に記載されるある種の特徴は、単一の実施形態において組み合わせて実装されることもできる。逆に、単一の実施形態のコンテキストにおいて記述されているさまざまな特徴が、複数の実施形態において別個にまたは任意の好適なサブコンビネーションにおいて実装されることもできる。
【0072】
付属の図面との関連で読まれるときの上記の記述に鑑み、本発明の上記の例示的実施形態へのさまざまな修正、適応が当業者に明白となることがありうる。任意の、あらゆる修正がそれでも、本発明の限定しない、例示的な実施形態の範囲内にはいる。さらに、本稿に記載される発明の他の実施形態が、上記の記述および図面に呈示される教示の恩恵をもつ当業者には思いつくであろう。
【0073】
よって、本発明は、本稿に記載される形の任意のもので具現されうる。たとえば、以下の付番実施例(EEE: enumerated example embodiment)は、本発明のいくつかの側面のいくつかの構造、特徴および機能を記述するものである。
〔EEE1〕
適応的なオーディオ・コンテンツを生成する方法であって:チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出する段階と;少なくとも部分的に前記少なくとも一つのオーディオ・オブジェクトに基づいて前記適応的なオーディオ・コンテンツを生成する段階とを含む、方法。
〔EEE2〕
前記少なくとも一つのオーディオ・オブジェクトを抽出する段階が、前記源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解し;前記指向性オーディオ信号から前記少なくとも一つのオーディオ・オブジェクトを抽出することを含む、EEE1記載の方法。
〔EEE3〕
前記源オーディオ・コンテンツを分解することが:前記源オーディオ・コンテンツに対して信号成分分解を実行し;分解された信号成分を解析することによって拡散性の確率を計算し;前記拡散性の確率に基づいて前記源オーディオ・コンテンツを分解することを含む、EEE2記載の方法。
〔EEE4〕
前記源オーディオ・コンテンツが複数のチャネルを含み、前記信号成分分解が:前記複数のチャネルの間の相関を計算することによって共分散行列を計算し;前記共分散行列に対して固有ベクトル分解を実行して固有ベクトルおよび固有値を取得し;付随する固有値の対の間の差に基づいて前記拡散性の確率を計算することを含む、EEE3記載の方法。
〔EEE5〕
前記拡散性の確率がp=erfc(−z/√2)として計算され、ここで、z=abs(λ
c−λ
c+1)/(λ
c+λ
c+1)であり、λ
1>λ
2>λ
3>…>λ
Cは固有ベクトルであり、absは絶対値関数を表わし、erfcは相補誤差関数を表わす、EEE4記載の方法。
〔EEE6〕
チャネルcについての拡散性についての前記確率を p
c=max(p
c,p)およびp
c+1=max(p
c+1,p
c)として更新する段階をさらに含む、EEE5記載の方法。
〔EEE7〕
前記共分散行列を平滑化する段階をさらに含む、EEE4ないし6のうちいずれか一項記載の方法。
〔EEE8〕
前記拡散性オーディオ信号が前記源オーディオ・コンテンツに前記拡散性の確率を乗算することによって得られ、前記指向性オーディオ信号が前記源オーディオ・コンテンツから前記拡散性オーディオ信号を減算することによって得られる、EEE3ないし7のうちいずれか一項記載の方法。
〔EEE9〕
前記信号成分分解が、方向、位置、拡散性、直接音対残響比、オン/オフセット同期、調波性変調、ピッチ、ピッチ揺動、顕著性、部分ラウドネス、反復性のうちの少なくとも一つを含む、空間的一貫性およびスペクトル連続性の手がかりに基づいて実行される、EEE3ないし8のうちいずれか一項記載の方法。
〔EEE10〕
前記少なくとも一つのオーディオ・オブジェクトをマージ、分離、接続、分割、位置変更、形状変更、レベル調整すること;前記少なくとも一つのオーディオ・オブジェクトについての時間依存利得およびチャネル依存利得を更新すること;前記少なくとも一つのオーディオ・オブジェクトおよび利得に対してエネルギーが保存されるダウンミックスを適用して、モノ・オブジェクト・トラックを生成すること;および前記オーディオ・ベッドに残差信号を組み込むことのうちの少なくとも一つを含む再オーサリング・プロセスにおいて前記少なくとも一つのオーディオ・オブジェクトを操作する段階をさらに含む、EEE1ないし9のうちいずれか一項記載の方法。
〔EEE11〕
前記適応的なオーディオ・コンテンツに関連付けられるメタデータを推定する段階をさらに含む、請求項1ないし10のうちいずれか一項記載の方法。
〔EEE12〕
前記適応的なオーディオ・コンテンツを生成する段階が、前記適応的なオーディオ・コンテンツに関連付けられた前記メタデータを編集することを含む、EEE11記載の方法。
〔EEE13〕
前記メタデータを編集することが、前記少なくとも一つのオーディオ・オブジェクトの時間依存利得およびチャネル依存利得に基づいて空間位置/軌跡メタデータを推定し直すことを含む、EEE12記載の方法。
〔EEE14〕
前記空間メタデータが、前記少なくとも一つのオーディオ・オブジェクトの時間依存かつチャネル依存の利得に基づいて推定される、EEE13記載の方法。
〔EEE15〕
前記空間メタデータがα=argtan((G・A
1−G・A
0)/(G・A
1+G・A
0))+π/4として推定され、Gは前記少なくとも一つのオーディオ・オブジェクトの前記時間依存利得を表わし、A
0およびA
1は、種々のチャネルのうちでの前記少なくとも一つのオーディオ・オブジェクトの上位二つの最も高いチャネル依存の利得を表わす、EEE14記載の方法。
〔EEE16〕
空間位置メタデータおよびあらかじめ定義されたヘミスフィア形状が、推定された二次元空間位置を前記あらかじめ定義されたヘミスフィア形状にマッピングすることによって三次元軌跡を自動的に生成するために使われる、EEE11ないし15のうちいずれか一項記載の方法。
〔EEE17〕
顕著性/エネルギー・メタデータを参照することによって連続的な仕方で前記少なくとも一つのオーディオ・オブジェクトの参照エネルギー利得を自動的に生成する段階をさらに含む、EEE11ないし16のうちいずれか一項記載の方法。
〔EEE18〕
前記源オーディオ・コンテンツを周囲アップミックスすることによって高さチャネルを生成する段階と;前記高さチャネルおよび前記源オーディオ・コンテンツのサラウンド・チャネルからチャネル・ベースのオーディオ・ベッドを生成する段階とをさらに含む、EEE11ないし17のうちいずれか一項記載の方法。
〔EEE19〕
前記高さチャネルおよび前記サラウンド・チャネルにエネルギーが保存される因子を乗算することによって前記オーディオ・ベッドに対する利得制御を適用して、周囲の知覚されるヘミスフィア高さを修正する段階をさらに含む、EEE18記載の方法。
〔EEE20〕
EEE1ないし19のうちいずれか一項記載の方法の段階を実行するよう構成されたユニットを有する、適応的なオーディオ・コンテンツを生成するシステム。
【0074】
本発明の実施形態は開示されている個別的な実施形態に限定されるものではなく、他の実施形態が付属の請求項の範囲内に含まれることが意図されていることは理解されるであろう。本稿では個別的な用語が使われているが、これらは一般的かつ記述的な意味でのみ使われており、限定のためではない。
いくつかの態様を記載しておく。
〔態様1〕
適応的なオーディオ・コンテンツを生成する方法であって:
チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出する段階と;
少なくとも部分的に前記少なくとも一つのオーディオ・オブジェクトに基づいて前記適応的なオーディオ・コンテンツを生成する段階とを含む、
方法。
〔態様2〕
前記少なくとも一つのオーディオ・オブジェクトを抽出する段階が:
前記源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解し;
前記指向性オーディオ信号から前記少なくとも一つのオーディオ・オブジェクトを抽出することを含む、
態様1記載の方法。
〔態様3〕
前記源オーディオ・コンテンツを分解することが:
前記源オーディオ・コンテンツに対して信号成分分解を実行し;
分解された信号成分を解析することによって拡散性の確率を計算することを含む、
態様2記載の方法。
〔態様4〕
前記少なくとも一つのオーディオ・オブジェクトを抽出する段階が:
前記源オーディオ・コンテンツにおける複数のフレームのそれぞれについて、同じオーディオ・オブジェクトを含むチャネルを識別し、総合するスペクトル分解を実行し;
前記複数のフレームを横断して識別され、総合されたチャネルの時間的合成を実行して、時間に沿った前記少なくとも一つのオーディオ・オブジェクトを形成することを含む、
態様1ないし3のうちいずれか一項記載の方法。
〔態様5〕
前記同じオーディオ・オブジェクトを含むチャネルを識別し、総合することが:
前記複数のフレームのそれぞれについて、周波数範囲を複数のサブバンドに分解し;
前記複数のサブバンドの間の包絡およびスペクトル形状の少なくとも一方の類似性に基づいて、同じオーディオ・オブジェクトを含むチャネルを識別し、総合することを含む、
態様4記載の方法。
〔態様6〕
前記源オーディオ・コンテンツからチャネル・ベースのオーディオ・ベッドを生成する段階をさらに含み、
前記適応的なオーディオ・コンテンツを生成する段階が、前記少なくとも一つのオーディオ・オブジェクトおよび前記オーディオ・ベッドに基づいて前記適応的なオーディオ・コンテンツを生成することを含む、
態様1ないし5のうちいずれか一項記載の方法。
〔態様7〕
前記オーディオ・ベッドを生成する段階が:
前記源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解し;
前記拡散性オーディオ信号から前記オーディオ・ベッドを生成することを含む、
態様6記載の方法。
〔態様8〕
前記オーディオ・ベッドを生成する段階が:
前記源オーディオ・コンテンツを周囲アップミックスすることによって少なくとも一つの高さチャネルを生成する段階と;
前記源オーディオ・コンテンツのチャネルおよび前記少なくとも一つの高さチャネルから前記オーディオ・ベッドを生成する段階とを含む、
態様6または7記載の方法。
〔態様9〕
前記適応的なオーディオ・コンテンツに関連付けられるメタデータを推定する段階をさらに含む、
態様1ないし8のうちいずれか一項記載の方法。
〔態様10〕
前記適応的なオーディオ・コンテンツを生成する段階が、前記適応的なオーディオ・コンテンツに関連付けられた前記メタデータを編集することを含む、態様9記載の方法。
〔態様11〕
前記メタデータを編集することが、前記適応的なオーディオ・コンテンツの利得を制御することを含む、態様10記載の方法。
〔態様12〕
前記適応的なオーディオ・コンテンツを生成する段階が、前記少なくとも一つのオーディオ・オブジェクトの再オーサリングを実行することを含み、前記再オーサリングが:
前記少なくとも一つのオーディオ・オブジェクトのうちで少なくとも部分的に重なっているオーディオ・オブジェクトを分離すること;
前記少なくとも一つのオーディオ・オブジェクトに関連付けられた属性を修正すること;および
前記少なくとも一つのオーディオ・オブジェクトを対話的に操作することのうちの少なくとも一つを含む、
態様1ないし11のうちいずれか一項記載の方法。
〔態様13〕
適応的なオーディオ・コンテンツを生成するシステムであって:
チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出するよう構成されたオーディオ・オブジェクト抽出器と;
少なくとも部分的には前記少なくとも一つのオーディオ・オブジェクトに基づいて前記適応的なオーディオ・コンテンツを生成するよう構成された適応オーディオ生成器とを有する、
システム。
〔態様14〕
前記源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解するよう構成された信号分解器をさらに有しており、
前記オーディオ・オブジェクト抽出器は、前記指向性オーディオ信号から前記少なくとも一つのオーディオ・オブジェクトを抽出するよう構成されている、
態様13記載のシステム。
〔態様15〕
前記信号分解器は:
前記源オーディオ・コンテンツに対して信号成分分解を実行するよう構成された成分分解器と;
分解された信号成分を解析することによって拡散性の確率を計算するよう構成された確率計算器とを有する、
態様14記載のシステム。
〔態様16〕
前記オーディオ・オブジェクト抽出器は:
前記源オーディオ・コンテンツにおける複数のフレームのそれぞれについてスペクトル合成を実行して、同じオーディオ・オブジェクトを含むチャネルを識別して総合するよう構成されたスペクトル合成器と;
前記複数のフレームを横断して前記識別および総合されたチャネルの時間的合成を実行して、時間に沿った前記少なくとも一つのオーディオ・オブジェクトを形成するよう構成された時間的合成器とを有する、
態様13ないし15のうちいずれか一項記載のシステム。
〔態様17〕
前記スペクトル合成器は、前記複数のフレームのそれぞれについて、周波数範囲を複数のサブバンドに分割するよう構成された周波数分割器を有しており、
前記スペクトル合成器は、前記複数のサブバンドの間の、包絡およびスペクトル形状の少なくとも一方の類似性に基づいて、同じオーディオ・オブジェクトを含むチャネルを識別し、総合するよう構成されている、
態様16記載のシステム。
〔態様18〕
前記源オーディオ・コンテンツからチャネル・ベースのオーディオ・ベッドを生成するよう構成されたオーディオ・ベッド生成器をさらに有しており、
前記適応オーディオ生成器は、前記少なくとも一つのオーディオ・オブジェクトおよび前記オーディオ・ベッドに基づいて前記適応的なオーディオ・コンテンツを生成するよう構成されている、
態様13ないし17のうちいずれか一項記載のシステム。
〔態様19〕
前記源オーディオ・コンテンツを指向性オーディオ信号および拡散性オーディオ信号に分解するよう構成された信号分解器をさらに有しており、
前記オーディオ・ベッド生成器は、前記拡散性オーディオ信号から前記オーディオ・ベッドを生成するよう構成されている、
態様18記載のシステム。
〔態様20〕
前記オーディオ・ベッド生成器が:
前記源オーディオ・コンテンツを周囲アップミックスすることによって少なくとも一つの高さチャネルを生成するよう構成された高さチャネル生成器を有しており、
前記オーディオ・ベッド生成器は、前記源オーディオ・コンテンツのチャネルおよび前記少なくとも一つの高さチャネルから前記オーディオ・ベッドを生成するよう構成されている、
態様18または19記載のシステム。
〔態様21〕
前記適応的なオーディオ・コンテンツに関連するメタデータを推定するよう構成されたメタデータ推定器をさらに有する、
態様13ないし20のうちいずれか一項記載のシステム。
〔態様22〕
前記適応的なオーディオ・コンテンツに関連する前記メタデータを編集するよう構成されたメタデータ編集器をさらに有する、
態様21記載のシステム。
〔態様23〕
前記メタデータ編集器は、前記適応的なオーディオ・コンテンツの利得を制御するよう構成された利得コントローラを有する、態様22記載のシステム。
〔態様24〕
前記適応オーディオ生成器は、前記少なくとも一つのオーディオ・オブジェクトに対して再オーサリングを実行するよう構成された再オーサリング・コントローラを有しており、前記再オーサリング・コントローラは:
前記少なくとも一つのオーディオ・オブジェクトのうちの少なくとも部分的に重なり合っているオーディオ・オブジェクトを分離するよう構成されたオブジェクト分離器;
前記少なくとも一つのオーディオ・オブジェクトに関連付けられた属性を修正するよう構成された属性修正器;および
前記少なくとも一つのオーディオ・オブジェクトを対話的に操作するよう構成されたオブジェクト操作器のうちの少なくとも一つを有する、
態様13ないし23のうちいずれか一項記載のシステム。
〔態様25〕
態様1ないし12のうちいずれか一項記載の方法を実行するためのプログラム・コードを含むコンピュータ・プログラムが機械可読媒体上に有体に具現されているコンピュータ・プログラム・プロダクト。