(58)【調査した分野】(Int.Cl.,DB名)
前記時間整列を実行する段階が、プロトコル・ベースのクロック同期プロセス、ピアツーピアのクロック同期プロセスおよび相互相関プロセスのうちの少なくとも一つを適用することを含む、請求項4記載の方法。
前記時間整列ユニットが、プロトコル・ベースのクロック同期プロセス、ピアツーピアのクロック同期プロセスおよび相互相関プロセスのうちの少なくとも一つを適用するよう構成されている、請求項10記載の装置。
【発明を実施するための形態】
【0012】
一般に、本発明の実施形態は、サラウンド音場生成のための方法、装置およびコンピュータ・プログラム・プロダクトを提供する。本発明の実施形態によれば、サラウンド音場は、エンドユーザーの携帯電話のようなオーディオ捕捉装置のアドホック・ネットワークの使用によって効果的かつ正確に生成されうる。本発明のいくつかの実施形態は以下に詳述される。
【0013】
まず
図1を参照する。
図1では、本発明の実施形態が実装できるシステム100が示されている。
図1では、システム100は複数のオーディオ捕捉装置101およびサーバー102を含む。本発明の実施形態によれば、中でもオーディオ捕捉装置101は、オーディオ信号を捕捉、記録および/または処理することができる。オーディオ捕捉装置101の例は、これに限られないが、携帯電話、携帯情報端末(PDA: personal digital assistant)、ラップトップ、タブレット・コンピュータ、パーソナル・コンピュータ(PC)またはオーディオ捕捉機能を備える他の任意の好適なユーザー端末を含みうる。たとえば、市販の携帯電話は通例、少なくとも一つのマイクロフォンを備えており、よってオーディオ捕捉装置101として使用できる。
【0014】
本発明の実施形態によれば、オーディオ捕捉装置101は、それぞれ一つまたは複数のオーディオ捕捉装置を含む一つまたは複数のアドホック・ネットワークまたはグループ103に配置されてもよい。オーディオ捕捉装置は、あらかじめ決定された戦略に従ってまたは動的にグループ化されてもよい。これについては後述する。異なるグループは同じまたは異なる物理的位置に位置することができる。各グループ内では、オーディオ捕捉装置は同じ物理的位置に位置しており、互いに近接して位置されてもよい。
【0015】
図2のA〜Cは、三つのオーディオ捕捉装置からなるグループのいくつかの例を示している。
図2のA〜Cに示される例示的実施形態では、オーディオ捕捉装置101は携帯電話、PDAまたはオーディオ信号を捕捉するために一つまたは複数のマイクロフォンのようなオーディオ捕捉要素201を備えている他の任意のポータブル・ユーザー端末であってもよい。特に、
図2のCに示した例示的実施形態では、オーディオ捕捉装置101はさらに、カメラのようなビデオ捕捉要素202を備えていて、オーディオ捕捉装置101はオーディオ信号を捕捉する間にビデオおよび/または画像を捕捉するよう構成されてもよい。
【0016】
グループ内のオーディオ捕捉装置の数は三つに限定されないことを注意しておくべきである。むしろ、任意の好適な数のオーディオ捕捉装置がグループとして配置されうる。さらに、グループ内で、前記複数のオーディオ捕捉装置は任意の所望されるトポロジーとして配置されうる。いくつかの実施形態では、グループ内のオーディオ捕捉装置は、ほんのいくつか例示するとコンピュータ・ネットワーク、ブルートゥース、赤外線、遠隔通信などによって、互いと通信してもよい。
【0017】
引き続き
図1を参照するに、図のように、サーバー102は、ネットワーク接続を介してオーディオ捕捉装置101の諸グループと通信上接続される。オーディオ捕捉装置101およびサーバー102は互いと、たとえばローカル・エリア・ネットワーク(LAN)、広域ネットワーク(WAN)もしくはインターネット、通信ネットワーク、近距離場通信接続またはそれらの任意の組み合わせのようなコンピュータ・ネットワークによって通信してもよい。本発明の範囲はこれに関して限定されない。
【0018】
動作では、サラウンド音場の生成は、オーディオ捕捉装置101によってまたはサーバー102によって開始されうる。具体的には、いくつかの実施形態では、オーディオ捕捉装置101がサーバー102にログインし、サーバー102にサラウンド音場を生成するよう要求してもよい。その場合、該要求を送るオーディオ捕捉装置101がマスター装置になって、次いで当該オーディオ捕捉セッションに参加するよう他の捕捉装置に招待を送る。これに関し、該マスター装置が属するあらかじめ定義されたグループがあってもよい。これらの実施形態において、このグループ内の他のオーディオ捕捉装置はマスター装置から招待を受領し、しかるべくオーディオ捕捉セッションに参加する。代替的または追加的に、別の一つまたは複数のオーディオ捕捉装置が動的に識別され、マスター装置と一緒にグループ化されてもよい。たとえば、GPS(全地球測位サービス)のような位置特定サービスがオーディオ捕捉装置101に利用可能である場合、マスター装置の近傍に位置している一つまたは複数のオーディオ捕捉装置をオーディオ捕捉グループに参加するよう自動的に招待することが可能である。いくつかの代替的な実施形態では、オーディオ捕捉装置の発見およびグループ化は、サーバー102によって実行されてもよい。
【0019】
オーディオ捕捉装置のグループを形成する際、サーバー102は、グループ内のすべてのオーディオ捕捉装置に捕捉コマンドを送る。あるいはまた、捕捉コマンドは、グループ内のオーディオ捕捉装置101の一つによって、たとえばマスター装置によって送られてもよい。グループ内の各オーディオ捕捉装置は、捕捉コマンド受信後すぐにオーディオ信号を捕捉および記録することを開始する。オーディオ捕捉セッションは、いずれかのオーディオ捕捉装置が捕捉をやめるときに終了する。オーディオ捕捉の間、オーディオ信号はオーディオ捕捉装置101上でローカルに記録され、捕捉セッションの完了後にサーバー102に送信されてもよい。あるいはまた、捕捉されたオーディオ信号はリアルタイム式にサーバー102にストリーミングされてもよい。
【0020】
本発明の実施形態によれば、単一のグループのオーディオ捕捉装置101によって捕捉されたオーディオ信号は、同じグループ識別情報(ID)を割り当てられ、それによりサーバー102ははいってくるオーディオ信号が同じグループに属するかどうかを識別できる。さらに、オーディオ信号に加えて、オーディオ捕捉セッションに関連する任意の情報がサーバー102に送信されうる。これには、グループ内のオーディオ捕捉装置101の数、一つまたは複数のオーディオ捕捉装置101のパラメータなどが含まれる。
【0021】
あるグループの複数の捕捉装置101によって捕捉されたオーディオ信号に基づいて、サーバー102は、サラウンド音場を生成するために、オーディオ信号を処理する一連の動作を実行する。これに関し、
図3は、複数の捕捉装置101によって捕捉されたオーディオ信号からサラウンド音場を生成する方法のフローチャートを示している。
【0022】
図3に示されるように、ステップS301においてオーディオ捕捉装置101のグループによって捕捉されたオーディオ信号を受信するのに際して、ステップS302においてこれらのオーディオ捕捉装置のトポロジーが推定される。グループ内のオーディオ捕捉装置101の位置のトポロジーを推定することは、音場の再生に直接的な影響をもつその後の空間的処理にとって重要である。本発明の実施形態によれば、オーディオ捕捉装置のトポロジーはさまざまな仕方で推定されうる。たとえば、いくつかの実施形態では、オーディオ捕捉装置101のトポロジーはあらかじめ定義されていて、よってサーバー102にとって既知であってもよい。この場合、サーバー102は、グループIDを使ってオーディオ信号の送信元のグループを決定し、次いで決定されたグループに関連付けられたあらかじめ定義されたトポロジーを、トポロジー推定として取得してもよい。
【0023】
代替的または追加的に、オーディオ捕捉装置101のトポロジーは、グループ内の複数のオーディオ捕捉装置101の各対の間の距離に基づいて推定されてもよい。オーディオ捕捉装置101の対の間の距離を取得できる多くの可能な仕方がある。たとえば、オーディオ捕捉装置がオーディオを再生できる実施形態では、各オーディオ捕捉装置101は、それぞれ同時にオーディオ片を再生し、グループ内の他の装置からオーディオ信号を受信するよう構成されていてもよい。すなわち、各オーディオ捕捉装置101は、一意的なオーディオ信号をグループの他の構成員にブロードキャストする。例として、各オーディオ捕捉装置は、一意的な周波数範囲をスパンするおよび/または他の任意の固有の音響特徴を有する線形チャープ信号を再生してもよい。線形チャープ信号が受信される諸時点を記録することによって、オーディオ捕捉装置101の各対の間の距離が、音響レンジング処理によって計算されうる。音響レンジング処理は当業者には既知であり、よってここでは詳述しない。
【0024】
そのような距離計算は、たとえばサーバー102において実行されてもよい。あるいはまた、オーディオ捕捉装置が互いに直接通信しうる場合、そのような距離計算はクライアント側で実行されてもよい。サーバー102では、グループ内に二つのオーディオ捕捉装置101しかない場合には、追加的な処理は必要とされない。三つ以上のオーディオ捕捉装置101があるときは、いくつかの実施形態では、多次元スケーリング(MDS: multidimensional scaling)解析または同様のプロセスが取得された諸距離に対して実行されて、オーディオ捕捉装置のトポロジーを推定することができる。具体的には、オーディオ捕捉装置101の諸対の諸距離を示す入力行列を用いて、MDSは、二次元空間におけるオーディオ捕捉装置101の座標を生成するために適用されてもよい。たとえば、三装置グループにおける測定された距離行列が
【数1】
であるとする。すると、オーディオ捕捉装置101のトポロジーを示す二次元(2D)MDSの出力は、M1(0,−0.0441)、M2(−0.0750,0.0220)およびM3(0.0750,0.0220)である。
【0025】
本発明の範囲は上記に示した例に限定されないことを注意しておくべきである。現在既知のものであれ将来開発されるものであれ、オーディオ捕捉装置の対の間の距離を推定できるいかなる好適な方法が本発明の実施形態との関連で使われてもよい。たとえば、オーディオ信号を再生する代わりに、オーディオ捕捉装置101は距離推定を容易にするために互いに対して電気および/または光信号をブロードキャストするよう構成されていてもよい。
【0026】
次に、方法300はステップS303に進む。ここでは、ステップS301において受領された諸オーディオ信号に対して時間整列が実行される。それにより、異なる捕捉装置101によって捕捉されたオーディオ信号が時間的に互いに整列させられる。本発明の実施形態によれば、オーディオ信号の時間整列は多くの可能な仕方でなされてもよい。いくつかの実施形態では、サーバー102は、プロトコル・ベースのクロック同期プロセスを実装してもよい。たとえば、ネットワーク時間プロトコル(NTP: Network Time Protocol)は、インターネットを横断して正確で同期された時刻を提供する。インターネットに接続しているとき、各オーディオ捕捉装置101は、オーディオ捕捉を実行している間、別個にNTPサーバーと同期するよう構成されていてもよい。ローカル・クロックを調整することは必要ない。その代わり、ローカル・クロックとNTPサーバーとの間のオフセットが計算され、メタデータとして記憶されることができる。ひとたびオーディオ捕捉が終了したら、ローカル時間およびそのオフセットがオーディオ信号と一緒にサーバー102に送られる。すると、サーバー102は、受領されたオーディオ信号をそのような時間情報に基づいて整列させる。
【0027】
代替的または追加的に、ステップS303における時間整列は、ピアツーピアのクロック同期プロセスによって実現されてもよい。これらの実施形態では、オーディオ捕捉装置は、たとえばブルートゥースまたは赤外線接続のようなプロトコルを介して、互いとピアツーピアで通信されてもよい。オーディオ捕捉装置の一つが同期マスターとして選択されてもよく、他のすべての捕捉装置のクロック・オフセットが同期マスターを基準として計算されてもよい。
【0028】
もう一つの可能な実装は、相互相関ベースの時間整列である。既知のように、一対の入力信号x(i)とy(i)の間の一連の相互相関係数は次式によって計算される。
【0029】
【数2】
ここで、 ̄付きのxおよびyはx(i)およびy(i)の平均を表わし、Nはx(i)およびy(i)の長さを表わし、dは二つの系列の間の時間ラグを表わす。二つの信号の間の遅延は、次のように計算されうる。
【0030】
【数3】
次いで、x(i)を参照として使って、信号y(i)は
y(k)=y(i−D)
によってx(i)に時間整列されることができる。
【0031】
時間整列は相互相関プロセスを適用することによって実現できるが、探索範囲が大きい場合、このプロセスは時間がかかり、誤りを生じやすいことがある。しかしながら、実際上は、探索レンジは、大きなネットワーク遅延変動を受け入れるために、かなり長くなければならない。この問題に対処するために、オーディオ捕捉装置101によって発された較正信号についての情報が収集され、相互相関プロセスの探索範囲を縮小するために使われるべく、サーバー102に送信されてもよい。上記のように、本発明のいくつかの実施形態では、オーディオ捕捉装置101は、オーディオ捕捉の開始時に、オーディオ信号をグループ内の他の構成員にブロードキャストしてもよい。それによりオーディオ捕捉装置101の各対の間の距離の計算を容易にする。これらの実施形態において、ブロードキャストされたオーディオ信号は、信号相関にかかる時間を短縮するために較正信号として使われることができる。具体的には、グループ内の二つのオーディオ捕捉装置AおよびBを考えると、
S
Aは装置Aが較正信号を再生するコマンドを発する時点であり;
S
Bは装置Bが較正信号を再生するコマンドを発する時点であり;
R
AAは装置Aが装置Aによって送信された信号を受信する時点であり;
R
BAは装置Aが装置Bによって送信された信号を受信する時点であり;
R
BBは装置Bが装置Bによって送信された信号を受信する時点であり;
R
ABは装置Bが装置Aによって送信された信号を受信する時点である
とする。これらの時点の一つまたは複数がオーディオ捕捉装置101によって記録され、相互相関プロセスにおいて使うためにサーバー102に送信されてもよい。
【0032】
一般に、装置Aから装置Bへの音響伝搬遅延はネットワーク遅延差より小さい。すなわち、S
B−S
A>R
AB−S
Aである。よって、時点R
BAおよびR
BBを、相互相関ベースの時間整列プロセスを開始するために使用できる。換言すれば、時点R
BAおよびR
BBより後のオーディオ信号サンプルのみが相関計算に含められる。このようにして、探索範囲を縮小でき、よって時間整列の効率を改善できる。
【0033】
しかしながら、ネットワーク遅延差が音響伝搬遅延差より小さいことがありうる。これは、ネットワークが非常に低いジッタをもつまたは二つの装置がより遠く離れて置かれているまたはその両方であるときに起こりうる。この場合、時点S
BおよびS
Aを、相互相関プロセスの開始点として使用できる。具体的には、時点S
BおよびS
Aより後のオーディオ信号が較正信号を含んでいるので、R
BAが装置Aにとっての相関の開始点として使用でき、S
B+(R
BA−S
A)が装置Bにとっての相関の開始点として使用できる。
【0034】
時間整列のための上記の機構はいかなる好適な仕方で組み合わされてもよいことは理解されるであろう。たとえば、本発明のいくつかの実施形態では、時間整列は三段階プロセスでできる。まず、オーディオ捕捉装置101とサーバー102との間で粗い時間同期が実行されてもよい。次に、上記で論じたような較正信号が、同期を洗練するために使われてもよい。最後に、オーディオ信号の時間整列を完了するために相互相関解析が適用される。
【0035】
ステップS303における時間整列は任意的であることを注意しておくべきである。たとえば、通信および/または装置条件が十分良好である場合、すべてのオーディオ捕捉装置101がほぼ同時に捕捉コマンドを受信し、よって同時にオーディオ捕捉を開始すると考えることに理がある。さらに、サラウンド音場の品質が余り敏感でないいくつかの応用では、オーディオ捕捉の開始時刻のある程度の整列不良は許容できるまたは無視できることは容易に理解されるであろう。これらの状況において、ステップS303における時間整列は省略されることができる。
【0036】
特に、ステップS302は必ずしもS303より前に実行されるのではないことを注意しておくべきである。その代わり、いくつかの代替的な実施形態では、オーディオ信号の時間整列は、トポロジー推定の前またさらにはトポロジー推定と並列に実行されてもよい。たとえば、NTP同期またはピアツーピア同期のようなクロック同期プロセスはトポロジー推定の前に実行されることができる。音響レンジングの手法に依存して、そのようなクロック同期プロセスは、トポロジー推定において音響レンジングに有益でありうる。
【0037】
引き続き
図3を参照すると、ステップS304において、受領されたオーディオ信号(可能性としては時間的に整列されている)から、少なくとも部分的にはステップS302において推定されたトポロジーに基づいて、サラウンド音場が生成される。この目的に向け、いくつかの実施形態によれば、複数のオーディオ捕捉装置の数に基づいて、オーディオ信号を処理するためのモードが選択されてもよい。たとえば、グループ内に二つのオーディオ捕捉装置101しかない場合には、それら二つのオーディオ信号が単に組み合わされてステレオ出力を生成してもよい。任意的に、ステレオ音像拡幅、マルチチャネル・アップミックスなどを含むがそれに限られない何らかの後処理が実行されてもよい。他方、グループ内に三つ以上のオーディオ捕捉装置101があるときは、サラウンド音場を生成するためにアンビソニックスまたはBフォーマット処理が適用されてもよい。処理モードの適応的な選択は必ずしも必要とされないことを注意しておくべきである。たとえば、たとえ二つのオーディオ捕捉装置しかない場合であっても、サラウンド音場は捕捉されたオーディオ信号をBフォーマット処理により処理することによって生成されてもよい。
【0038】
次に、いかにしてサラウンド音場を生成するかの本発明のいくつかの実施形態が、アンビソニックス処理を参照して論じられる。しかしながら、本発明の範囲がこれに関して限定されないことを注意しておくべきである。推定されたトポロジーに基づいて受領されたオーディオ信号からサラウンド音場を生成することのできるいかなる好適な技法が本発明の実施形態との関連で使用されてもよい。たとえば、バイノーラルまたは5.1チャネルのサラウンド・サウンド生成技術が利用されてもよい。
【0039】
アンビソニックスについて、これは、音場および源位置復元可能性を提供する柔軟な空間的オーディオ処理技法として知られている。アンビソニックスでは、3Dサラウンド音場がW-X-Y-ZチャネルをもってBフォーマットと称される四チャネル信号として記録される。Wチャネルは無指向性音圧情報を含み、一方、残りの三つのチャネルX、YおよびZは3Dデカルト座標における三つの対応する軸で測った音速情報を表わす。具体的には、方位角φおよび仰角θのところに局在化された音源Sが与えられて、サラウンド音場の理想的なBフォーマット表現は次のようになる。
【0040】
【数4】
簡単のため、Bフォーマット信号についての指向性パターンの生成の以下の議論では、水平面内のW、XおよびYチャネルのみが考慮され、高さ軸Zは無視される。本発明の諸実施形態に基づいてオーディオ信号がオーディオ捕捉装置101によって捕捉される仕方では、一般に高さ情報はないので、これは理にかなった想定である。
【0041】
平面波を与えられると、離散的なアレイの指向性は次のように表現できる。
【0042】
【数5】
ここで、
【数6】
は中心までの距離Rおよび角φ
Mをもつオーディオ捕捉装置の空間的位置を表わし、ベクトルαは角φにおける源位置
α=[cosφ sinφ 0]
を表わす。さらに、A
n(f,r)はオーディオ捕捉装置についての重みを表わし、これはユーザー定義された重みと、特定の周波数および角におけるオーディオ捕捉装置の利得との積:
A
n(f,r)=W
n(f)r(φ)
r(φ)=β+(1−β)cos(φ)
として定義される。ここで、β=0.5はカージオイド極性パターンを表わし、β=0.7はサブカージオイド極性パターンを表わし、β=1は無指向性を表わす。
【0043】
ひとたびオーディオ捕捉装置の極性パターンおよび位置トポロジーが決定されたら、それぞれの捕捉されたオーディオ信号についての重みW
n(f)が生成されたサラウンド音場の品質に影響することが見て取れる。異なる重みW
n(f)はBフォーマット信号についての異なる品質を生成する。種々のオーディオ信号についての重みはマッピング行列として表現されてもよい。
図2Aに示されるトポロジーを例として考えると、オーディオ信号M
1、M
2およびM
3からW、XおよびYチャネルへのマッピング行列(W)は次のように定義されうる。
【0044】
【数7】
伝統的に、Bフォーマット信号は、業務用の音場マイクロフォンのような特別に設計された(しばしばきわめて高価な)マイクロフォン・アレイを使って生成される。この場合、マッピング行列は、前もって設計されてもよく、動作中に不変のままであってもよい。しかしながら、本発明の実施形態によれば、オーディオ信号は、可能性としては変化したトポロジーをもって動的にグループ化される諸オーディオ捕捉装置のアドホック・ネットワークによって捕捉される。結果として、既存の解決策は、特別に設計され位置決めされているのでないユーザー装置によって捕捉されるそのような生のオーディオ信号からW、X、Yチャネルを生成するためには適用可能でないことがある。たとえば、グループがπ/2、3π/4および3π/2の角および中心までの同じ距離4cmをもつ三つのオーディオ捕捉装置101を含むとする。
図4のA〜Cは、それぞれ、上記のようなもとのマッピング行列を使うときのさまざまな周波数についての、それぞれW、XおよびYチャネルについての極性パターンを示す。見て取れるように、XおよびYチャネルの出力は正しくない。これらはもはや互いに直交していないからである。さらに、Wチャネルは1000Hzほど低くても問題がなる。したがって、生成されるサラウンド音場の高い品質を保証するために、マッピング行列が柔軟に適応されることができることが望まれる。
【0045】
この目的に向けて、本発明の実施形態によれば、マッピング行列によって表わされるそれぞれのオーディオ信号についての重みが、ステップS303において推定されたオーディオ捕捉装置のトポロジーに基づいて動的に適応されうる。引き続き三つのオーディオ捕捉装置101がπ/2、3π/4および3π/2の角および中心までの同じ距離4cmをもつ上記の例示的なトポロジーを考えると、マッピング行列がこの特定のトポロジーに従って、たとえば
【数8】
のように適応される場合、よりよい結果が達成できる。このことは、この状況におけるさまざまな周波数についてのそれぞれW、XおよびYチャネルについての極性パターンを示す
図5A〜5Cから見て取れる。
【0046】
いくつかの実施形態によれば、オンザフライで、オーディオ捕捉装置の前記推定されたトポロジーに基づいてオーディオ信号についての重みを選択することが可能である。代替的または追加的に、マッピング行列の適応は、あらかじめ定義されたテンプレートに基づいて実現されてもよい。これらの実施形態では、サーバー102は、あらかじめ定義されたトポロジー・テンプレートのセットを記憶する貯蔵部を維持してもよい。各トポロジー・テンプレートはあらかじめチューニングされたマッピング行列に対応する。たとえば、トポロジー・テンプレートは、オーディオ捕捉装置の座標および/または位置関係によって表わされてもよい。所与の推定されるトポロジーについて、推定されるトポロジーにマッチするテンプレートが決定されてもよい。マッチしたトポロジー・テンプレートを特定するには多くの仕方がある。一例として、ある実施形態では、オーディオ捕捉装置の推定された座標とテンプレート中の座標との間のユークリッド距離が計算される。最小の距離をもつトポロジー・テンプレートがマッチしたテンプレートとして決定される。よって、決定されたマッチしたトポロジー・テンプレートに対応するあらかじめチューニングされたマッピング行列が、Bフォーマット信号の形のサラウンド音場の生成において使うために選択される。
【0047】
いくつかの実施形態では、決定されたトポロジー・テンプレートに加えて、それぞれの装置によって捕捉されたオーディオ信号の重みは、さらにそれらのオーディオ信号の周波数に基づいて、選択されることができる。具体的には、より高い周波数については、オーディオ捕捉装置の間の相対的に大きな間隔のため、空間的エイリアシングが現われはじめることが観察される。性能をさらに改善するために、Bフォーマット処理におけるマッピング行列の選択は、オーディオ周波数に基づいてなされてもよい。たとえば、いくつかの実施形態では、各トポロジー・テンプレートは少なくとも二つのマッピング行列に対応してもよい。位置トポロジー・テンプレートの決定に際して、受領されたオーディオ信号の周波数があらかじめ定義された閾値と比較され、該比較に基づいて、決定されたトポロジー・テンプレートに対応するマッピング行列の一つが選択され、使用されることができる。選択されたマッピング行列を使って、Bフォーマット処理が受領されたオーディオ信号に適用され、それにより上記で論じたようにサラウンド音場を生成する。
【0048】
サラウンド音場はトポロジー推定に基づいて生成されるよう示されているが、本発明の範囲はこれに関して限定されるものではないことを注意しておくべきである。たとえば、クロック同期および距離/トポロジー推定が利用可能でないまたは既知であるいくつかの代替的な実施形態では、音場は、捕捉されたオーディオ信号に適用される相互相関プロセスから直接生成されてもよい。たとえば、オーディオ捕捉装置のトポロジーが既知である場合、オーディオ信号の何らかの時間整列を達成するための相互相関プロセスを実行し、単にBフォーマット処理において固定したマッピング行列を適用することによって音場を生成することが可能である。このようにして、異なるチャネルの間での優勢な源についての諸時間遅延差が本質的に除去されうる。結果として、オーディオ捕捉装置のアレイのセンサー距離は短縮されてもよく、それにより同時アレイ(coincident array)を生成する。
【0049】
任意的に、方法300は、レンダリング装置に対する、生成されたサラウンド音の到達方向(DOA: direction of arrival)を推定するステップS305に進む。次いで、サラウンド音場はステップS306において少なくとも部分的には推定されたDOAに基づいて回転される。生成されたサラウンド音場をDOAに従って回転させることは、主として、サラウンド音場の空間的レンダリングを改善するためである。Bフォーマット・ベースの空間的レンダリングを実行するとき、左と右のオーディオ捕捉装置の間に公称上の正面、すなわち方位角0度がある。この方向からの音源は、バイノーラル再生の間、正面から来ると知覚される。目標音源が正面からくるようにすることが望ましい。これが最も自然な聴取条件だからである。しかしながら、アドホック・グループ内のオーディオ捕捉装置の位置決めの性質そのもののため、左右の装置を常に主たる目標音源、たとえば演奏ステージのほうに向けることをユーザーに要求することは不可能である。この問題に対処するために、推定された角度θに従ってサラウンド音場を回転させるために、マルチチャネル入力を使ってDOA推定が実行されてもよい。これに関し、位相変換を伴う一般化相互相関(GCC-PHAT: Generalized Cross Correlation with Phase Transform)、方向制御された応答パワー‐位相変換(SRP-PHAT: Steered Response Power-Phase Transform)、多重信号分類(MUSIC: Multiple Signal Classification)または他の任意の好適なDOA推定アルゴリズムが、本発明の実施形態との関連で使用できる。次いで、音場回転は、次のような標準的な回転行列を使ってBフォーマット信号に対して簡単に達成できる。
【0050】
【数9】
いくつかの実施形態では、DOAに加えて、音場はさらに生成された音場のエネルギーに基づいて回転されてもよい。換言すれば、エネルギーおよび継続時間の両方の点で最も優勢な音源を見出すことが可能である。目標は、音場におけるユーザーについての最良の聴取角を見出すことである。θ
nおよびE
nが、それぞれ生成された音場のフレームnについての短期の推定されたDOAおよびエネルギーを表わすとする。生成された音全体についてのフレーム総数はNである。さらに、中央面が0度であり、角度は反時計回りに測るとする。すると、フレームは極座標表現を使って、点(θ
n,E
n)に対応する。ある実施形態では、回転角θ'はたとえば、次の目的関数を最大化することによって決定されうる。
【0051】
【数10】
次に、方法300は、生成された音場が、レンダリング装置上での再生のために好適な任意の目標フォーマットに変換されうる任意的なステップS307に進む。続けて、サラウンド音場がBフォーマット信号として生成される例を考える。ひとたびBフォーマット信号が生成されたら、W、X、Yチャネルは空間的レンダリングのために好適なさまざまなフォーマットに変換されうることは容易に理解されるであろう。アンビソニックスのデコードおよび再生は、空間的レンダリングのために使われるスピーカー・システムに依存する。一般に、アンビソニックス信号から一組のスピーカー信号へのデコードは、デコードされたスピーカー信号が再生される場合にスピーカー・アレイの幾何学的中心において記録された「仮想」アンビソニックス信号がデコードのために使われたアンビソニックス信号と同一であるべきであるという想定に基づく。これは次のように表現できる:
【数11】
ここで、L={L
1,L
2,…,L
n}
Tは一組のスピーカー信号を表わし、B={W,X,Y,Z}
Tは、デコードのための入力アンビソニックス信号と同一であると想定される「仮想」アンビソニックス信号を表わし、Cはスピーカー・アレイの幾何学的定義、すなわち各スピーカーの方位角、仰角によって定義される「再エンコード」行列として知られる。たとえば、スピーカーが方位角{45°,−45°,135°,−135°}および仰角{0°,0°,0°,0°}のところに水平に置かれている正方形のスピーカー・アレイを与えられると、これはCを次のように定義する。
【0052】
【数12】
これに基づいて、スピーカー信号は次のようにして導出できる。
【0053】
【数13】
ここで、Dは典型的にはCの擬似逆行列として定義されるデコード行列を表わす。
【0054】
いくつかの実施形態によれば、オーディオが一対のイヤホンまたはヘッドフォンを通じて再生されるバイノーラル・レンダリングが望まれることがありうる。ユーザーがモバイル装置上でオーディオ・ファイルを聞くことが期待されるからである。Bフォーマットからバイノーラルへの変換は、スピーカー・アレイ・フィードをスピーカー位置にマッチする頭部伝達関数(HRTF)によってそれぞれフィルタ処理したものを合計することによって近似的に達成できる。空間的な聴取においては、指向性の音源は二つの相異なる伝搬経路を進んでそれぞれ左および右の耳に到達する。その結果、二つの耳の入口信号の間に到達時間および強度の差が生じ、人間の聴覚系はそれを利用して定位された聴覚を達成する。これら二つの伝搬経路は、頭部伝達関数と称される一対の方向依存の音響フィルタによってよくモデル化されることができる。たとえば、方向φに位置する音源Sを与えられて、耳入口信号S
leftおよびS
rightは次のようにモデル化できる。
【0055】
【数14】
ここで、H
left,φおよびH
right,φは方向φのHRTFを表わす。実際上、所与の方向のHRTFは、その方向に位置されたインパルスまたは既知の刺激からの応答を拾う被験体(人またはダミー頭部)の耳に挿入されたプローブ・マイクロフォンを使って測定できる。
【0056】
これらのHRTF測定は、モノフォニック源から仮想耳入口信号を合成するために使用されることができる。この源をある方向に対応する一対のHRTFを用いてフィルタ処理し、結果として得られる左右の信号をヘッドフォンまたはイヤホンを介して聴取者に呈示することによって、所望される方向に空間化された仮想音源をもつ音場がシミュレートできる。上記の四スピーカー・アレイを使うと、次のようにしてW、X、Yチャネルをバイノーラル信号に変換できる。
【0057】
【数15】
ここで、H
left,nはn番目のスピーカーから左耳への伝達関数を表わし、H
right,nはn番目のスピーカーから右耳への伝達関数を表わす。これはより多くのスピーカーに拡張できる。
【0058】
【数16】
ここで、nはスピーカーの総数を表わす。
【0059】
生成されたサラウンド音場を信号の好適なフォーマットに変換した後、サーバー102はそのような信号をディスプレイのためにレンダリング装置に送信してもよい。いくつかの実施形態では、レンダリング装置およびオーディオ捕捉装置は同じ物理端末上で共位置であってもよい。
【0060】
方法300はステップS307で終わる。
【0061】
ここで
図6を参照する。
図6は、本発明のある実施形態に基づく、サラウンド音場を生成する装置を示すブロック図を示している。本発明の実施形態によれば、装置600は
図6に示したサーバー102にあってもよく、あるいは他の仕方でサーバー102と関連していて、
図3を参照して上記した方法300を実行するよう構成されていてもよい。
【0062】
図のように、本発明の実施形態によれば、装置600は、複数のオーディオ捕捉装置によって捕捉されたオーディオ信号を受領するよう構成された受領ユニット601を有する。装置600はまた、前記複数のオーディオ捕捉装置のトポロジーを推定するよう構成されたトポロジー推定ユニット602をも有する。さらに、装置600は、少なくとも部分的には推定されたトポロジーに基づいて受領されたオーディオ信号からサラウンド音場を生成するよう構成された生成ユニット603を有する。
【0063】
いくつかの例示的な実施形態では、推定ユニット602は、前記複数のオーディオ捕捉装置の各対の間の距離を取得するよう構成された距離取得ユニットと;取得された距離に対して多次元スケーリング(MDS)を実行することによって前記トポロジーを推定するよう構成されたMDSユニットとを有していてもよい。
【0064】
いくつかの例示的実施形態では、生成ユニット603は、前記複数のオーディオ捕捉装置の数に基づいてオーディオ信号を処理するためのモードを選択するよう構成されたモード選択ユニットを有していてもよい。代替的または追加的に、いくつかの例示的実施形態では、生成ユニット603は、前記複数のオーディオ捕捉装置の推定されたトポロジーにマッチするトポロジー・テンプレートを決定するよう構成されたテンプレート決定ユニットと;少なくとも部分的には決定されたトポロジー・テンプレートに基づいてオーディオ信号についての重みを選択するよう構成された重み選択ユニットと;選択された重みを使ってオーディオ信号を処理してサラウンド音場を生成するよう構成された信号処理ユニットとを有していてもよい。いくつかの例示的実施形態では、重み選択ユニットは、オーディオ信号の決定されたトポロジー・テンプレートおよび周波数に基づいて重みを選択するよう構成されたユニットを有していてもよい。
【0065】
いくつかの例示的実施形態では、装置600はさらに、オーディオ信号に対して時間整列を実行するよう構成された時間整列ユニット604を有していてもよい。いくつかの例示的実施形態では、時間整列ユニット604は、プロトコル・ベースのクロック同期プロセス、ピアツーピア・クロック同期プロセスおよび相互相関プロセスのうちの少なくとも一つを適用するよう構成されている。
【0066】
いくつかの例示的な実施形態では、装置600はさらに、レンダリング装置に対する生成されたサラウンド音場の到達方向(DOA)を推定するよう構成されたDOA推定ユニット605と;少なくとも部分的には推定されたDOAに基づいて、生成されたサラウンド音場を回転させるよう構成された回転ユニット606とを有していてもよい。いくつかの例示的実施形態では、回転ユニットは、生成されたサラウンド音場の推定されたDOAおよびエネルギーに基づいて生成されたサラウンド音場を回転させるよう構成されたユニットを有していてもよい。
【0067】
いくつかの例示的実施形態では、装置600はさらに、生成されたサラウンド音場を、レンダリング装置上での再生のために目標フォーマットに変換するよう構成された変換ユニット607を有していてもよい。たとえば、Bフォーマット信号は、バイノーラル信号または5.1チャネル・サラウンド・サウンド信号に変換されてもよい。
【0068】
装置600内のさまざまなユニットはそれぞれ
図3を参照して上記した方法300のステップに対応することを注意しておくべきである。結果として、
図3に関して述べたすべての事項は装置600にも当てはまり、ここで詳述はしない。
【0069】
図7は、本発明の例示的実施形態を実装するためのユーザー端末700を示すブロック図である。ユーザー端末700は、本稿で論じたオーディオ捕捉装置101として動作してもよい。いくつかの実施形態では、ユーザー端末700は携帯電話として具現されてもよい。しかしながら、携帯電話は本発明の実施形態から恩恵を受ける装置の一つの型を例示するだけであり、よって本発明の実施形態の範囲を限定するものと解釈するべきではない。
【0070】
図のように、ユーザー端末700は、送信機714および受信機716と動作可能に通信するアンテナ(単数または複数)712を含む。ユーザー端末700はさらに、少なくとも一つのプロセッサまたはコントローラ720を含む。たとえば、コントローラ720は、デジタル信号プロセッサ、マイクロプロセッサおよびさまざまなアナログ‐デジタル変換器、デジタル‐アナログ変換器および他の支援回路から構成されていてもよい。ユーザー端末700の制御および情報処理機能は、それぞれの機能に従ってこれらの装置の間で割り当てられる。ユーザー端末700は、呼び出し音発生器〔リンガー〕722、イヤホンまたはスピーカー724のような出力装置、オーディオ捕捉のための一つまたは複数のマイクロフォン726、ディスプレイ728およびキーボード730、ジョイスティックまたは他のユーザー入力インターフェースのようなユーザー入力装置を含むユーザー・インターフェースをも有しており、これらはみなコントローラ720に結合されている。ユーザー端末700はさらに、ユーザー端末700を動作させるために必要とされるさまざまな回路に電力を供給するとともに任意的には検出可能な出力として機械的な振動を提供するための振動バッテリー・パックのようなバッテリー734を含む。
【0071】
いくつかの実施形態では、ユーザー端末700は、コントローラ720と通信する、カメラ、ビデオおよび/またはオーディオ・モジュールのようなメディア捕捉要素を含む。メディア捕捉要素は、記憶、表示または伝送のために画像、ビデオおよび/またはオーディオを捕捉するいかなる手段であってもよい。たとえば、メディア捕捉要素がカメラ・モジュール736である例示的実施形態では、カメラ・モジュール736は、捕捉された画像からデジタル画像ファイルを形成することができるデジタル・カメラを含んでいてもよい。携帯電話として具現されるとき、ユーザー端末700はさらに、ユニバーサル識別モジュール(UIM: universal identify module)738を含んでいてもよい。UIM 738は典型的にはプロセッサが組み込まれているメモリ・デバイスである。UIM 738はたとえば、加入者識別モジュール(SIM: subscriber identity module)、ユニバーサル集積回路カード(UICC: universal integrated circuit card)、ユニバーサル加入者識別モジュール(USIM: universal subscriber identity module)、着脱可能ユーザー識別モジュール(R-UIM: removable user identity module)などを含みうる。UIM 738は典型的には加入者に関係した情報要素を記憶する。
【0072】
ユーザー端末700は、少なくとも一つのメモリを備えていてもよい。たとえば、ユーザー端末700は、データの一時記憶のためのキャッシュ領域を含む揮発性ランダム・アクセス・メモリ(RAM)のような揮発性メモリ740を含んでいてもよい。ユーザー端末700は、埋め込まれることができるおよび/または着脱可能であってもよい他の不揮発性メモリ742をも含んでいてもよい。不揮発性メモリ742は追加的または代替的に、EEPROM、フラッシュ・メモリなどを含むことができる。メモリは、ユーザー端末700の機能を実装するためにユーザー端末700が使用する任意の数の情報、プログラムおよびデータを記憶することができる。
【0073】
図8を参照するに、本発明の実施形態を実装するための例示的なコンピュータ・システム800を示すブロック図がある。たとえば、コンピュータ・システム800は上記のサーバー102として機能してもよい。図のように、中央処理ユニット(CPU)801が読み出し専用メモリ(ROM)802に記憶されたプログラムまたは記憶セクション808からランダム・アクセス・メモリ(RAM)にロードされたプログラム従ってさまざまなプロセスを実行する。RAM 803では、CPU 801がさまざまな処理を実行するときに必要とされるデータなども必要に応じて記憶される。CPU 801、ROM 802およびRAM 803はバス804を介して互いに接続されている。入出力(I/O)インターフェース805もバス804に接続されている。
【0074】
以下のコンポーネントがI/Oインターフェースに接続される:キーボード、マウスなどを含む入力部806;陰極線管(CRT)、液晶ディスプレイ(LCD)などのようなディスプレイまたはスピーカーなどを含む出力部807;ハードディスクなどを含む記憶部808;およびLANカード、モデムなどのようなネットワーク・インターフェース・カードを含む通信部809である。通信部809は、インターネットのようなネットワークを介して通信プロセスを実行する。ドライブ810も必要に応じてI/Oインターフェース805に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのような着脱可能な媒体811が必要に応じてドライブ810にマウントされ、それにより必要に応じて、そこから読まれたコンピュータ・プログラムが記憶部808にインストールされる。
【0075】
上記のステップおよびプロセス(たとえば方法300)がソフトウェアによって実装される場合、ソフトウェアを構成するプログラムは、インターネットのようなネットワークまたは着脱可能な媒体811のような記憶媒体からインストールされる。
【0076】
一般に、本発明のさまざまな例示的実施形態はハードウェアまたは特殊目的回路、ソフトウェア、論理またはそれらの任意の組み合わせにおいて実装されうる。いくつかの側面はハードウェアにおいて実装され、一方で他の側面がコントローラ、マイクロプロセッサまたは他のコンピューティング装置によって実行されうるファームウェアまたはソフトウェアにおいて実装されてもよい。本発明の例示的実施形態のさまざまな側面がブロック図、フローチャートとしてまたは他の絵的表現を使って図示され、記述されているが、本稿に記載されるブロック、装置、システム、技法または方法は、限定しない例として、ハードウェア、ソフトウェア、ファームウェア、特殊目的回路または論理、汎用ハードウェアまたはコントローラまたは他のコンピューティング装置またはそれらの何らかの組み合わせにおいて実装されてもよいことは理解されるであろう。
【0077】
たとえば、上記の装置600はハードウェア、ソフトウェア/ファームウェアまたはそれらの任意の組み合わせとして実装されてもよい。いくつかの実施形態では、装置600中の一つまたは複数のユニットがソフトウェア/モジュールとして実装されていてもよい。代替的または追加的に、それらのユニットの一部または全部が、集積回路(IC)、特定用途向け集積回路(ASIC)、システムオンチップ(SOC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)などのようなハードウェア・モジュールを使って実装されてもよい。本発明の範囲はこれに関して限定されない。
【0078】
さらに、
図3に示されるさまざまなブロックを方法ステップとしておよび/またはコンピュータ・プログラム・コードの動作から帰結する動作としておよび/または関連する機能(単数または複数)を実行するよう構築された複数の結合された論理回路要素として見ることができる。たとえば、本発明の実施形態は、機械可読媒体上に有体に具現されたコンピュータ・プログラムを有するコンピュータ・プログラム・プロダクトを含み、該コンピュータ・プログラムは、上記で詳述した方法300を実行するよう構成されたプログラム・コードを含む。
【0079】
本開示のコンテキストにおいて、機械可読媒体は、命令実行システム、装置またはデバイスによってまたはそれとの関連で使うためのプログラムを含むまたは記憶することができるいかなる有体の媒体であってもよい。機械可読媒体は機械可読信号媒体または機械可読記憶媒体でありうる。機械可読媒体は、電子式、磁気式、光学式、電磁式、赤外線または半導体のシステム、装置またはデバイスまたは上記の任意の好適な組み合わせを含みうる。機械可読記憶媒体のより具体的な例は、一つまたは複数のワイヤを有する電気接続、ポータブルなコンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラム可能型読み出し専用メモリ(EPROMまたはフラッシュ・メモリ)、光ファイバー、ポータブルなコンパクト・ディスク読み出し専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイスまたは上記の任意の好適な組み合わせを含む。
【0080】
本発明の方法を実行するためのコンピュータ・プログラム・コードは、一つまたは複数のプログラミング言語の任意の組み合わせにおいて書かれうる。これらのコンピュータ・プログラム・コードは、汎用コンピュータ、特殊目的コンピュータまたは他のプログラム可能な処理装置のプロセッサに提供されてもよく、それにより該プログラム・コードは、該コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実行されたとき、フローチャートおよび/またはブロック図において規定された機能/動作を実装させる。プログラム・コードは完全にコンピュータ上で、部分的にコンピュータ上でスタンドアローンのソフトウェア・パッケージとして、部分的にはコンピュータ上で部分的にはリモート・コンピュータ上で、あるいは完全にリモート・コンピュータまたはサーバー上で実行されてもよい。
【0081】
さらに、動作は特定の順序で描かれているが、これは、そのような動作が示される特定の順序で、あるいは逐次順に実行されること、あるいは所望される結果を達成するために示されているすべての動作が実行されることを要求するものと理解されるべきではない。ある種の状況では、マルチタスクおよび並列処理が有利であることがある。同様に、いくつかの個別的な実装詳細が上記の議論に含まれるものの、これらはいずれかの発明のまたは特許請求されうるものの範囲に対する限定として解釈されるべきではなく、むしろ特定の発明の特定の実施形態に固有でありうる事項の記述と解釈されるべきである。別個の実施形態のコンテキストにおいて本明細書に記載されるある種の特徴は、単一の実施形態において組み合わせて実装されることもできる。逆に、単一の実施形態のコンテキストにおいて記述されているさまざまな特徴が、複数の実施形態において別個にまたは任意の好適なサブコンビネーションにおいて実装されることもできる。
【0082】
付属の図面との関連で読まれるときの上記の記述に鑑み、本発明の上記の例示的実施形態へのさまざまな修正、適応が当業者には明白となるであろう。任意の、あらゆる修正がそれでも、本発明の限定しない、例示的な実施形態の範囲内にはいる。さらに、本稿に記載される発明の他の実施形態が、上記の記述および図面に呈示される教示の恩恵をもつ当業者には思いつくであろう。
【0083】
よって、本発明は、本稿に記載される形の任意のもので具現されうる。たとえば、以下の付番実施例(EEE: enumerated example embodiment)は、本発明のいくつかの側面のいくつかの構造、特徴および機能を記述するものである。
〔EEE1〕
サラウンド音場を生成する方法であって:複数のオーディオ捕捉装置によって捕捉されたオーディオ信号を受領する段階と;受領したオーディオ信号に対して相互相関プロセスを適用することによって受領したオーディオ信号の時間整列を実行する段階と;時間整列されたオーディオ信号からサラウンド音場を生成する段階とを含む、方法。
〔EEE2〕
前記複数のオーディオ捕捉装置によって発される較正信号についての情報を受領する段階と;前記較正信号についての受領された情報に基づいて前記相互相関プロセスの探索範囲を縮小する段階とを含む、EEE1記載の方法。
〔EEE3〕
前記サラウンド音場を生成する段階が:前記複数のオーディオ捕捉装置のあらかじめ定義されたトポロジー推定に基づいて前記サラウンド音場を生成することを含む、EEE1または2記載の方法。
〔EEE4〕
前記サラウンド音場を生成する段階が:前記複数のオーディオ捕捉装置の数に基づいて前記オーディオ信号を処理するモードを選択することを含む、EEE1ないし3のうちいずれか一項記載の方法。
〔EEE5〕
レンダリング装置に関する前記生成されたサラウンド音場の到達方向(DOA)を推定する段階と;少なくとも部分的には前記推定されたDOAに基づいて前記生成されたサラウンド音場を回転させる段階とをさらに含む、EEE1ないし4のうちいずれか一項記載の方法。
〔EEE6〕
前記生成されたサラウンド音場を回転させる段階が:前記生成されたサラウンド音場の前記推定されたDOAおよびエネルギーに基づいて前記生成されたサラウンド音場を回転させることを含む、EEE5記載の方法。
〔EEE7〕
前記生成されたサラウンド音場をレンダリング装置上での再生のための目標フォーマットに変換する段階をさらに含む、EEE1ないし6のうちいずれか一項記載の方法。
〔EEE8〕
サラウンド音場を生成する装置であって:複数のオーディオ捕捉装置によって捕捉されたオーディオ信号を受領するよう構成された第一受領ユニットと;受領したオーディオ信号に対して相互相関プロセスを適用することによって受領したオーディオ信号の時間整列を実行するよう構成された時間整列ユニットと;時間整列されたオーディオ信号からサラウンド音場を生成するよう構成された生成ユニットとを有する、装置。
〔EEE9〕
前記複数のオーディオ捕捉装置によって発される較正信号についての情報を受領するよう構成された第二受領ユニットと;前記較正信号についての情報に基づいて前記相互相関プロセスの探索範囲を縮小するよう構成された縮小ユニットとを有する、EEE8記載の装置。
〔EEE10〕
前記生成ユニットが:前記複数のオーディオ捕捉装置のトポロジーのあらかじめ定義された推定に基づいて前記サラウンド音場を生成するよう構成されたユニットを有する、EEE8または9記載の装置。
〔EEE11〕
前記生成ユニットが:前記複数のオーディオ捕捉装置の数に基づいて前記オーディオ信号を処理するモードを選択するよう構成されたモード選択ユニットを有する、EEE8ないし10のうちいずれか一項記載の装置。
〔EEE12〕
レンダリング装置に関する前記生成されたサラウンド音場の到達方向(DOA)を推定するよう構成されたDOA推定ユニットと;少なくとも部分的には前記推定されたDOAに基づいて前記生成されたサラウンド音場を回転させるよう構成された回転ユニットとをさらに有する、EEE8ないし11のうちいずれか一項記載の装置。
〔EEE13〕
前記回転ユニットが:前記生成されたサラウンド音場の前記推定されたDOAおよびエネルギーに基づいて前記生成されたサラウンド音場を回転させるよう構成されたユニットを有する、EEE12記載の装置。
〔EEE14〕
前記生成されたサラウンド音場をレンダリング装置上での再生のための目標フォーマットに変換するよう構成された変換ユニットをさらに有する、EEE8ないし13のうちいずれか一項記載の装置。
【0084】
本発明の実施形態が開示されている個別的な実施形態に限定されないこと、付属の請求項の範囲内に修正および他の実施形態が含まれることが意図されていることは理解されるであろう。本稿では具体的な用語が使われているが、それらは一般的な、説明の意味においてのみ使われており、限定のためではない。
本発明の実施形態は適応的なオーディオ・コンテンツ生成に関する。具体的には、適応的なオーディオ・コンテンツを生成するための方法が提供される。本方法は、チャネル・ベースの源オーディオ・コンテンツから少なくとも一つのオーディオ・オブジェクトを抽出し、少なくとも部分的には前記少なくとも一つのオーディオ・オブジェクトに基づいて適応的なオーディオ・コンテンツを生成することを含む。対応するシステムおよびコンピュータ・プログラム・プロダクトも開示される。