(58)【調査した分野】(Int.Cl.,DB名)
前記オブジェクトベースオーディオプログラムに応答して、各スピーカチャネルと各オーディオオブジェクトチャネルとのオーディオコンテンツのミックスを示すスピーカフィードを生成するため、空間レンダリングシステムを実行させるステップを更に有する、請求項1記載の方法。
前記ステップ(e)は、少なくとも1つのクラスタ化されたオーディオオブジェクトを生成するため、前記入力オーディオオブジェクトの少なくとも2つのオーディオコンテンツをミックスするステップを有する、請求項1記載の方法。
前記第1サブシステムは、少なくとも1つのクラスタ化されたオーディオオブジェクトを生成するため、前記入力オーディオオブジェクトの少なくとも2つのオーディオコンテンツをミックスするよう構成される、請求項6記載のゲームコンソール。
【背景技術】
【0003】
Dolby、Dolby Digital及びDolby Digital Plusは、Dolby Laboratories Licensing Corporationの商標である。Dolby Laboratoriesは、Dolby Digital及びDolby Digital Plusとしてそれぞれ知られるAC−3及びE−AC−3の独自の実装を提供する。
【0004】
オーディオは、ビデオゲームのプレイの体感における重要なコンポーネントであり、ゲーム制作技術は、産業の拡大と共にますます洗練されてきている。現在の世代のゲームにおけるゲームサウンドは、スピーカチャネルベースプログラム(スピーカチャネルベース“ミックス”とも呼ばれる)を生成するため、ゲームコンソールにおいて処理されるオーディオオブジェクトを用いて生成される。複数のスピーカチャネルを有するミックスは、典型的には符号化され(AC−3又はE−AC−3ビットストリームなどとして)、符号化されたオーディオはレンダリングシステムに送出される。再生を実現するため、レンダリングシステムは、符号化されたオーディオにより示されるスピーカチャネルに応答して、スピーカフィードを生成する。
図1は、典型的な従来のゲームコンソール(ゲームコンソールの現世代の1つ)のオーディオ処理要素のブロック図である。
【0005】
典型的には、従来のゲームにおいて聞こえる音声の多くは、個別のモノファイルとして格納され(典型的には、2チャネル又は5チャネルファイルとして格納される一部の雰囲気及び音楽トラックを除く)、これらのファイルへのアクセスは、ゲームプレイ中に現れるイベントによってトリガされる。
図1の“オーディオアセット”としてラベル付けされるオーディオデータは、このように格納されているオーディオファイルの具体例である。典型的なゲームコンソールは、格納されているオーディオファイルのライブラリを管理し、ゲーム状態/ユーザ入力をモニタし、適切な時点でオーディオファイルの適切なものを再生し、これに対応してアクセスされた音声を配置し(それらが再生中に適切な位置から発信されているとして知覚されるように)、その後に最終的にスピーカチャネルベースミックス(例えば、
図1のエンジン1から出力される5.1チャネルスピーカチャネルPCMオーディオなど)を生成するよう構成されるオーディオエンジン(
図1のシステムのゲームオーディオエンジン1など)を有する。ゲームコンソールはまた、典型的には、システムサウンド、アラート、付加的な音楽(及び任意的には他のオーディオコンテンツ)によりスピーカチャネルベースミックスを補完するため結合及び構成されるオーディオミキサ(
図1のシステムのゲームコンソールオーディオミキサ3など)を有する。ゲームコンソールはまた、典型的には、レンダリングのためのレンダリングシステムへの送出のための(典型的には、S/PDIFリンクによる送信)符号化されたオーディオビットストリーム(例えば、
図1のエンコーダ5から取得されるAC−3フォーマットを有する符号化されたビットストリームなど)を生成するため、修正された(ミックスされた)スピーカチャネルベースミックス(例えば、
図1のミキサ3から取得される5.1スピーカチャネルPCMなど)を符号化するよう結合及び構成されるエンコーダ(
図1のシステムのエンコーダ5など)を有する。
図1のシステムのエンコーダ5は、ミキサ3からの5.1スピーカチャネルPCMオーディオに応答して、符号化されたAC−3ビットストリームを出力する従来の“Dolby Digital Live”エンコーダとして実現されてもよい。
【0006】
しばしば従来のゲームオーディオの生成中、オリジナルのオブジェクトベースオーディオコンテンツ(
図1のシステムのオーディオアセットなど)の空間情報の多くは、スピーカチャネルベースミックス(例えば、スピーカチャネルを有するが、オブジェクトチャネルを有しない
図1のエンジン1又はミキサ3から出力されるスピーカチャネルベースミックス、又はスピーカチャネルを示すが、オブジェクトチャネルを示さない
図1のエンコーダ5から出力されるスピーカチャネルベースミックスの符号化されたバージョンなど)を生成する際に失われる。最終的なリスナの体感はまた、最終的な再生システムがスピーカチャネルベースミックスを正確にレンダリングしないときには損なわれる。本発明者は、ゲームコンソールによって生成される(及びレンダリングのためコンソールから出力される)符号化されたオーディオに、スピーカチャネルだけでなく、少なくとも1つのオーディオオブジェクトを示す少なくとも1つのオブジェクトチャネル(例えば、ゲームプレイ中に出現するイベントに応答してファイルから読み出されるか、又はアクセスされる格納されているオーディオコンテンツを示す)と、このような少なくとも1つのオーディオオブジェクトに関する記述情報(メタデータ)(例えば、再生中の時間の関数として各オーディオオブジェクトの知覚されるサイズと位置の軌跡など)とを含むことが望ましいことを認識していた。従って、本発明のゲームコンソールの典型的な実施例は、オブジェクトベースオーディオプログラム(ゲームオーディオコンテンツを示す)を生成し、典型的には更に再生システムのスピーカコンフィギュレーションを知っている外部の空間レンダリングシステム(装置など)に送出するためのプログラムを出力するよう構成される。典型的には、オブジェクトベースオーディオプログラムをレンダリングするのに用いられる空間レンダリングシステムは、プログラムのスピーカチャネル及びオブジェクトチャネルコンテンツの適切な空間ミックスを示すスピーカフィードを生成するよう実行可能である。
【0007】
オブジェクトベースオーディオプログラムをレンダリングするためハイエンド再生システム(映画館などにおける)を利用することが知られている。例えば、映画サウンドトラックであるオブジェクトベースオーディオプログラムは、意図された全体的な聴取体感を生成するためのバックグラウンド音楽及び雰囲気効果(プログラムのスピーカチャネルにより示されてもよい)と共に、スクリーン上(に対する)の異なる場所から生じるスクリーン上の画像、ダイアログ、ノイズ及びサウンド効果に対応する多数の異なるサウンド要素(オーディオオブジェクト)を示すものであってもよい。このようなプログラムの正確な再生は、オーディオオブジェクトサイズ、位置、強度、動き及び深さに関してコンテンツ制作者により意図されるものに可能な限り近く対応する方法によりサウンドが再生されることを要求する。
【0008】
オブジェクトベースオーディオプログラムは、スピーカチャネルベースオーディオがオブジェクトチャネルベースオーディオよりも特定のオーディオオブジェクトの空間再生に関してより限定的であるため、従来のスピーカチャネルベースオーディオプログラムに対する有意な向上を表す。スピーカチャネルベースオーディオプログラムは、スピーカチャネルのみから構成され(オブジェクトチャネルでなく)、各スピーカチャネルは、典型的には、リスニング環境における特定の個々のスピーカのためのスピーカフィードを決定する。
【0009】
オブジェクトベースオーディオプログラムを生成及びレンダリングするための各種方法及びシステムが提案されてきた。オブジェクトベースオーディオプログラムの生成中、典型的には、任意数のラウドスピーカがプログラムの再生のため利用され、再生に利用されるラウドスピーカ(典型的には、映画館における)は、必ずしも(名目上)水平面に又はプログラム生成時に知られる他の何れか所定の構成において、再生環境における任意の位置に配置されることが仮定される。典型的には、プログラムに含まれるオブジェクト関連メタデータは、例えば、3次元スピーカアレイなどを用いて、見かけ上の空間位置に又は軌跡に沿って(3次元ボリュームにおける)プログラムの少なくとも1つのオブジェクトをレンダリングするためのレンダリングパラメータを示す。例えば、プログラムのオブジェクトチャネルは、オブジェクト(オブジェクトチャネルにより示される)がレンダリングされる見かけ上の空間位置の3次元の軌跡を示す対応するメタデータを有してもよい。当該軌跡は、“フロア”位置の系列(再生環境のフロア上に配置されたと仮定されるスピーカのサブセットの平面又は他の水平面における)と、“フロア上”位置の系列(それぞれは、再生環境の少なくとも1つの他の水平面に配置されていると仮定されるスピーカのサブセットを駆動することによって決定される)とを含むものであってもよい。オブジェクトベースオーディオプログラムのレンダリングの具体例は、例えば、本出願の譲受人に譲渡され、2011年9月29日に国際公開WO2011/119401A2により公開されたPCT国際出願PCT/US2001/028783などにおいて説明される。
【0010】
オブジェクトベースオーディオプログラムレンダリングの出現は、部分的にはオブジェクトベースオーディオプログラムが多くのオブジェクト(それぞれが対応するメタデータを有する)を示し、多くのラウドスピーカを含むシステムによって再生のためレンダリングされる可能性があるため、レンダリングシステムにより実行される必要があるオーディオデータの処理量及びレンダリングの複雑さとを有意に増大させてきた。意図されるレンダリングシステムがプログラムをレンダリングする能力を有するように、オブジェクトベースオーディオプログラムに含まれるオブジェクトチャネルの個数を制限することが提案されてきた。例えば、本発明の譲受人に譲渡され、発明者としてBrett Crockett,Alan Seefeldt,Nicolas Tsingos,Rhonda Wilson,and Jeroen Breebaartが記載された2012年12月21日に出願された米国仮特許出願第61/745,401“Scene Simplification and Object Clustering for Rendering Object−based Audio Content”は、プログラムに含まれるクラスタ化されたオブジェクトチャネルを生成するため入力されたオブジェクトチャネルをクラスタ化することによって、及び/又はプログラムに含まれるミックスされたスピーカチャネルを生成するため入力されたオブジェクトチャネルのオーディオコンテンツとスピーカチャネルとをミックスすることによって、オブジェクトベースオーディオプログラムのオブジェクトチャネルの個数を制限するための方法及び装置について説明する。
【図面の簡単な説明】
【0018】
【
図1】
図1は、従来のゲームコンソールのブロック図である。
【
図2】
図2は、本発明のゲームコンソールの実施例と、ゲームコンソールの外部のオーディオプログラム配信システム(システム15)及びレンダリングシステム(サブシステム17)とのブロック図である。
【
図3】
図3は、本発明のゲームコンソールの他の実施例と、ゲームコンソールの外部のオーディオプログラム配信システム(システム15)及びレンダリングシステム(サブシステム17)とのブロック図である。
【
図4】
図4は、オーディオオブジェクトクラスタ化システムの実施例(本発明のゲームコンソールの実施例のサブシステムなど)のブロック図である。[記号及び用語] 請求項を含む本開示を通じて、信号若しくはデータに“対して”処理を実行する(例えば、信号若しくはデータに対するフィルタリング、スケーリング、変換又はゲインの印加など)という表現は、信号若しくはデータに対して又は信号又はデータの処理されたバージョンに対して当該処理を直接的に実行することを示すため、広い意味で用いられる(例えば、その処理の実行前の予備的なフィルタリング又は前処理を受けた信号のバージョンなどに対して)。
【0019】
請求項を含む本開示を通じて、“システム”という表現は、装置、システム又はサブシステムを示すため広い意味で用いられる。例えば、デコーダを実現するサブシステムは、デコーダシステムとして参照されてもよく、当該サブシステムを含むシステム(例えば、複数の入力に応答してX個の出力信号を生成するシステムと、当該システムにおいて、サブシステムが当該入力のうちのM個を生成し、その他の(X−M)個の入力が外部ソースから受信されるなど)はまた、デコーダシステムとして参照されてもよい。
【0020】
請求項を含む本開示を通じて、“プロセッサ”という用語は、データ(例えば、オーディオ、ビデオ又は他の画像データなど)に対して処理を実行するようプログラム可能又は設定可能な(例えば、ソフトウェア又はファームウェアなどにより)システム又は装置を示すため広い意味で用いられる。プロセッサの具体例は、FPGA(Field−Programmable Gate Array)(又は他の設定可能な集積回路又はチップセットなど)、オーディオ又は他の音声データに対してパイプライン化された処理を実行するようプログラム及び/又は構成されるデジタル信号プロセッサ、プログラマブル汎用プロセッサ又はコンピュータ、及びプログラマブルマイクロプロセッサチップ又はチップセットを含む。
【0021】
請求項を含む本開示を通じて、“オーディオビデオ受信機”(又は“AVR”)という表現は、例えば、ホームシアタなどにおいて、オーディオ及びビデオコンテンツの再生を制御するのに利用される家電機器のクラスにおける受信機を示す。
【0022】
請求項を含む本開示を通じて、“サウンドバー”という表現は、あるタイプの家電機器(典型的には、ホームシアタシステムに設置される)であって、少なくとも1つのスピーカ(典型的には、少なくとも2つのスピーカ)と内蔵される各スピーカによる再生用(又は内蔵される各スピーカ及びサウンドバーの外部の少なくとも1つの追加的なスピーカとによる再生用)のオーディオをレンダリングするためのサブシステムとを有する装置を示す。
【0023】
請求項を含む本開示を通じて、“オーディオプロセッサ”及び“オーディオ処理部”という表現は互換的に用いられ、広い意味では、オーディオデータを処理するよう構成されるシステムを示すのに用いられる。オーディオ処理部の具体例は、限定することなく、エンコーダ(トランスコーダ)、デコーダ、コーデック、前処理システム、後処理システム及びビットストリーム処理システム(ビットストリーム処理ツールとして参照されることもある)を含む。
【0024】
請求項を含む本開示を通じて、“メタデータ”という表現(例えば、“処理状態メタデータ”という表現と同様に)は、対応するオーディオデータ(メタデータをまた含むビットストリームのオーディオコンテンツ)と別の異なるデータを表す。メタデータはオーディオデータと関連付けされ、オーディオデータの少なくとも1つの特徴又は特性を示す(例えば、オーディオデータ又はオーディオデータにより示されるオブジェクトの軌跡に対して、何れのタイプの処理が既に実行されたか、又は実行されるべきかなど)。メタデータとオーディオデータとの関連付けは、時間同期的である。従って、現在の(最近受信又は更新された)メタデータは、対応するオーディオデータが指定された特徴を同時に有し、及び/又は指定されたタイプのオーディオデータ処理の結果を有することを示すものであってもよい。
【0025】
請求項を含む本開示を通じて、“結合”という用語は、直接的又は間接的の何れかの接続を意味するのに利用される。従って、第1装置が第2装置に結合する場合、当該接続は、直接的な接続を介すものであってもよく、又は他の装置及び接続を介した間接的な接続を介すものであってもよい。
【0026】
請求項を含む本開示を通じて、以下の表現は以下の定義を有する。
【0027】
スピーカ及びラウドスピーカは、何れかの音声発信トランスデューサを示すため同義的に用いられる。この定義は、複数のトランスデューサ(ウーファやツイータなど)として実現されるラウドスピーカを含む。
【0028】
スピーカフィード:ラウドスピーカに直接印加されるオーディオ信号又は直列的なアンプ及びラウドスピーカに印加されるオーディオ信号
チャネル(又は“オーディオチャネル”):モノラルオーディオ信号。このような信号は、典型的には、所望の又は名目的な位置にあるラウドスピーカへの信号の直接的な印加に等しい方法でレンダリング可能である。所望の位置は、典型的には、物理的なラウドスピーカによるケースと同様に静的又は動的とすることが可能である。
【0029】
オーディオプログラム:1以上のオーディオチャネルのセット(少なくとも1つのスピーカチャネル及び/又は少なくとも1つのオブジェクトチャネル)及び任意的には関連するメタデータ(所望の空間オーディオプレゼンテーションを記述するメタデータなど)。
【0030】
スピーカチャネル(又は“スピーカフィードチャネル”):(所望の又は名目的な位置にある)指定されたラウドスピーカ又は所定のスピーカコンフィギュレーション内の指定されたスピーカゾーンに関連するオーディオチャネル。スピーカチャネルは、指定されたラウドスピーカ(所望の又は名目的な位置にある)又は指定されたスピーカゾーン内のスピーカへのオーディオ信号の直接的な印加に等価となるようにレンダリングされる。
【0031】
オブジェクトチャネル:オーディオソース(オーディオ“オブジェクト”とも呼ばれることもある)により発せられる音声を示すオーディオチャネル。典型的には、オブジェクトチャネルは、パラメータ的なオーディオソースの記述を決定する(例えば、パラメータ的なオーディオソースの記述を示すメタデータが、オブジェクトチャネルに含まれるか、又は備えられるなど)。ソースの記述は、当該ソースにより発せられる音声(時間の関数として)、時間の関数としてのソースの見かけ上の位置(3D空間座標など)、及び任意的にはソースを特徴付ける少なくとも1つの追加的なパラメータ(見かけ上のソースのサイズ又は幅など)を決定してもよい。
【0032】
オブジェクトベースオーディオプログラム:1以上のオブジェクトチャネルのセット(及び任意的には更に少なくとも1つのスピーカチャネルを含む)及び任意的には更に関連するメタデータ(例えば、オブジェクトチャネルにより示される音声を発するオーディオオブジェクトの軌跡を示すメタデータ、オブジェクトチャネルにより示される音声の所望の空間オーディオプレゼンテーションを示すメタデータ、又はオブジェクトチャネルにより示される音声のソースである少なくとも1つのオーディオオブジェクトの識別情報を示すメタデータなど)を有するオーディオプログラム。
【0033】
レンダリング:オーディオプログラムを1以上のスピーカフィードに変換する処理、又はオーディオプログラムを1以上のスピーカフィードに変換し、スピーカフィードを1以上のラウドスピーカを用いて音声に変換する処理(後者のケースでは、当該レンダリングは、ラウドスピーカによるレンダリングとしてここで参照されることもある)。オーディオチャネルは、所望の位置にある物理的なラウドスピーカに信号を直接的に印加することによって自明にレンダリングされるか(所望の位置において)、又は1以上のオーディオチャネルが、このような自明なレンダリングに実質的に等価となるよう(リスナにとって)設計された各種仮想化技術の1つを用いてレンダリング可能である。この後者のケースでは、各オーディオチャネルは、フィードに応答してラウドスピーカにより発せされた音声が所望の位置から発していると知覚されるように、一般的に所望の位置と異なる既知の位置のラウドスピーカに印加される1以上のスピーカフィードに変換されてもよい。このような仮想化技術の具体例は、ヘッドフォンを介した両耳のレンダリング(ヘッドフォンウェアのためのサラウンド音声の7.1チャネルまでをシミュレートするDolby Headphone処理などを利用して)及び波面合成を含む。
【発明を実施するための形態】
【0034】
本発明のゲームコンソール(及びゲームコンソールにより実行される方法)の実施例が、
図2、3及び4を参照して説明される。
【0035】
図2のゲームコンソールの実施例(ゲームコンソール6)は、図示されるように接続されたゲームオーディオエンジン7、ラウドネスマネージメントステージ9、ラウドネスマネージメントステージ10、オブジェクトベースオーディオミキサ11及びリアルタイムオブジェクトベースエンコーダ13を有する。これらの要素は、典型的には、ゲームコンソール6のオーディオ処理サブシステムとして(又は内に)実現され、ゲームコンソールは、典型的には、
図2に図示されない少なくとも1つの他のサブシステム(例えば、ビデオゲームデータ処理のためなど)を有する。エンコーダ13により生成される符号化されたオーディオプログラム(符号化されたオーディオビットストリーム)は、配信サブシステム15に出力される。配信サブシステム15は、符号化されたオーディオプログラムを格納及び/又は送信するよう構成される。
【0036】
典型的には、符号化されたオーディオプログラムは、配信システム15によって空間レンダリングシステム17に配信(送信など)される。システム17は、符号化されたオーディオプログラムを復号化し、再生システムのスピーカを駆動するためのスピーカフィード(復号化されたオーディオに応答して)を生成するよう構成される。
【0037】
典型的には、レンダリングシステム17は、ゲームコンソール6と異なるシステム又は装置において(又はとして)実現される。このような実施例の具体例では、配信システム15はHDMI接続であってもよく、システム17はAVR、サウンドバー又はヘッドセットにおいて実現されてもよく、あるいは、リンク15はSPDIF光接続であってもよく、システム17は従来のAVRにおいて実現されてもよく、配信システム15はWifi接続であってもよく、システム17は無線受信機において実現されてもよく、配信システム15はMiracast接続であってもよく、システム17は無線受信機において実現されてもよく、配信システム15はAirPlay接続であってもよく、システム17はApple TVシステムにおいて実現されてもよい。
【0038】
ゲームオーディオエンジン7への入力は、以下の1以上を含むものであってもよい。
【0039】
典型的には、アクセス及び符号化されたモノオーディオデータファイル(又は任意的には符号化されたマルチチャネルオーディオデータファイル)を示すオーディオデータ(
図2において“オーディオアセット”として識別される)。これらのファイルは、ゲームコンソール6によってアクセス可能な記憶媒体(ディスクなど)に格納されるか、又はゲームコンソール6によって(インターネット又は他のネットワークなどを介し)アクセスされてもよい。オーディオアセットへのアクセスはゲームによってトリガされ、オーディオエンジン7に現在アサートされている(ゲームプレイ中の任意の時点で)オーディオアセットは、コンソール6により最近にアクセスされたものとなる。
【0040】
ゲームイベントデータ(オーディオエンジン7に現在アサートされているオーディオアセットの各セットに何れのオーディオデータファイルが含まれるか選択するゲームプレイ中のイベントを示すものであってもよい)。
【0041】
ゲームプレイ中にユーザコマンド(コンソール6に結合される制御装置のユーザの起動によって入力されるなど)を示し、オーディオエンジン7に現在アサートされているオーディオアセットの各セットに何れかのオーディオデータファイルが含まれているか選択するユーザ入力データ
ボイスチャットデータ(典型的には、ゲームプレイ中に1以上のプレーヤにより発せられたオーディオを示す)。ボイスチャットデータは、外部のボイスチャットシステム(コンソール6に結合されるマイクロフォンを内蔵してもよい)からコンソール6にアサートされてもよい。
【0042】
ゲームオーディオエンジン7は、それに入力されたデータを管理し、ゲーム状態及びユーザ入力をモニタし、ゲームイベント及びユーザ入力により決定されるオーディオファイルを再生し、スピーカチャネルベースミックス(
図2に示されるようなエンジン7から出力される5.1スピーカチャネルPCMビットストリームなど)とオブジェクトチャネルデータ(オーディオオブジェクト又はオーディオオブジェクトセット及び対応するオブジェクト関連メタデータを示す)との双方をラウドネスマネージメントステージ9への出力としてアサートするよう構成される。
図2に示されるように、エンジン7は、それに入力されるオーディオデータに対するドップラー、ディスタンス及びリバーブ処理を実現してもよい。
【0043】
システムサウンド(例えば、アラート及び/又は付加的な音楽及び任意的には他のオーディオコンテンツなど)は、典型的には、ゲームプレイ中にゲームイベント又はユーザ入力により決定されないオーディオコンテンツを示し、ラウドネスマネージメントステージ10に別々にアサートされる。
【0044】
ステージ9及び10のそれぞれは、リアルタイムラウドネスマネージメントを実現するよう構成される。ラウドネスマネージメントは、好ましくは、各ソースからのオーディオコンテンツに対して独立に適用される(例えば、ステージ9は、ラウドネスマネージメントをエンジン7から出力される各スピーカチャネル及び各オブジェクトチャネルに独立に適用され、ステージ10は、それに入力された各タイプのシステムサウンドを別のオーディオオブジェクトとして扱い、ラウドネスマネージメントをこのような各オブジェクトに独立に適用する)。これにより、ステージ9は、修正されたスピーカチャネルベースミックス及び修正されたオブジェクトチャネルデータを出力し、ステージ10は、修正された付加的なオーディオコンテンツを出力する。
【0045】
修正されたスピーカチャネルベースミックス及び修正されたオブジェクトチャネルデータ(ステージ9から出力される)と、修正された付加的なオーディオコンテンツ(ステージ10から出力される)とは、オブジェクトベースオーディオミキシングサブシステム11にアサートされる。典型的には、サブシステム11は、ステージ10からそれに入力された各タイプのラウドネス管理されたシステムサウンドを別のオーディオオブジェクトとして扱う。サブシステム11は、オブジェクト(及び対応するメタデータ)及びスピーカチャネルの選択されたセットを決定する(ステージ9から受信されたスピーカチャネル及びオブジェクトのオーディオサンプル、ステージ10から受信されたオブジェクトのオーディオサンプル、及びステージ9,10から受信されたオブジェクト関連メタデータに応答して)。ステージ11の出力及び任意的にはコンソール6により生成されたリニアオーディオコンテンツ(又は外部ソースからアサートされた)に応答して、エンコーダ13は、スピーカチャネルとオブジェクトチャネルとのミックスを示すオブジェクトベース符号化されたオーディオプログラム(符号化されたオーディオビットストリーム)を生成し、当該符号化されたオーディオビットストリームをリンク15に出力する。エンコーダ13に入力されたリニアオーディオコンテンツは、1以上のオブジェクトチャネル及び/又は1以上のスピーカチャネルを有するオブジェクトベースオーディオプログラム(映画又はテレビ番組サウンドトラックなど)であってもよい。エンコーダ13により生成される符号化されたオーディオプログラムの各スピーカチャネルは、エンコーダ13に入力されるスピーカチャネルの1つを示すものであってもよい(又はこのように入力されたスピーカチャネル及び他のオーディオコンテンツのミックスであってもよい)。符号化されたオーディオプログラムの各オブジェクトチャネルは、エンコーダ13に入力されたオブジェクトの1つを示すものであってもよい(又はこのような2以上のオブジェクトのオーディオコンテンツのミックスであってもよい)。
【0046】
サブシステム11は、好ましくは、エンコーダ13にアサートされるオブジェクト(及び対応するメタデータ)及びスピーカチャネルの選択されたセットを決定し、また周辺装置(
図2に示されるような)に直接アサートされるオブジェクト(及び対応するメタデータ)及びスピーカチャネルの少なくとも1つの他の選択されたセットを決定するよう実現される。例えば、このように実現されたサブシステム11によって、本発明のゲームコンソールは、周辺装置に送信したミックスから1以上のオブジェクトを削除し、最終的なレンダリング装置への符号化及び配信のため、エンコーダ13に送信した他のミックスに各オブジェクトを含めるよう動作してもよい。
【0047】
サブシステム11は、典型的には、サブシステム13(又は1以上の周辺装置)にアサートするオブジェクト、オブジェクト関連メタデータ及びスピーカチャネルオーディオを生成するため、オブジェクトクラスタリング(他の箇所で説明される)及びオブジェクト選択を実行するよう構成される。サブシステム11により実行されるオブジェクト選択は、サブシステム11が実現するようプログラム又は構成されたユーザ選択及び/又はルール(条件及び/又は制約などを示す)によって決定されてもよい。サブシステム11は、典型的には、ミックスされたスピーカチャネル(1以上のオブジェクトのオーディオコンテンツがミックスされた)と共に、複数のオブジェクト(所定の最大数を超えない)を有する出力を生成するため、1以上の特定のオブジェクトのオーディオコンテンツを特定のスピーカチャネルのオーディオコンテンツとミックスするよう動作可能である。サブシステム11はまた、典型的には、異なるオブジェクトのオーディオコンテンツをミックスし、(所定の最大数を超えない)複数のオブジェクト(サブシステム11に入力されるオブジェクトの1以上のオーディオコンテンツを示す少なくとも1つのミックスされたオブジェクトを含むものであってもよい)及び典型的にはスピーカチャネルを有する出力を生成するよう動作可能である。
【0048】
サブシステム11の出力により決定されるオーディオコンテンツ(及びメタデータ)に応答して、エンコーダ13は、オブジェクトベース符号化されたオーディオビットストリームが再生システムのスピーカ(図示せず)による再生のためレンダリングされるように(システム17などにより)、オブジェクトベース符号化されたオーディオビットストリームを生成する。典型的には、エンコーダ13から出力されたオブジェクトベースプログラムが圧縮されたオーディオビットストリームとなるように、当該符号化は圧縮を実現する。
【0049】
レンダリングシステム17は、選択された各オブジェクトに関連付けされるレンダリングパラメータ(例えば、レベル及び空間位置又は軌跡を示すオブジェクト関連メタデータ値など)を用いて、サブシステム13により選択された(及び出力された符号化されたビットストリームに含まれる)オブジェクトチャネルにより決定されるオーディオオブジェクトを、再生システムの利用可能なスピーカチャネルにマッピングするよう構成される。これらレンダリングパラメータの少なくとも一部は、サブシステム13から出力された符号化されたビットストリームに含まれるオブジェクト関連メタデータにより決定されてもよい。レンダリングシステム17はまた、サブシステム13から出力される符号化されたビットストリームに含まれたスピーカチャネルのベッド(すなわち、少なくとも1つのスピーカチャネル)を受信する。典型的には、レンダリングシステム17は、インテリジェントミキサであり、1以上の選択されたオブジェクトを複数の個々のスピーカチャネルのそれぞれにマッピングし、スピーカチャネルベッドの対応する各スピーカチャネルにより示される“ベッド”オーディオコンテンツにより当該オブジェクトをミックスすることによって、利用可能なスピーカのスピーカフィードを生成するよう構成される。
【0050】
本発明のゲームコンソールの簡単化された実施例では、オーディオオブジェクト及びスピーカチャネル(
図2のゲームオーディオエンジン7又は他のゲームオーディオエンジンなどから)は、最初にゲームコンソールオーディオサブシステムの他の要素を通過することなく、オブジェクトベースオーディオエンコーダ(
図2のエンコーダ13など)に直接わたされる。
【0051】
本発明のゲームコンソールの他の簡単化された実施例では、オーディオオブジェクト及びスピーカチャネル(
図2のゲームオーディオエンジン7又は他のゲームオーディオエンジンなどから)は、最初にリアルタイムラウドネスマネージメントを受けることなく、ミキシングサブシステム(及び園後にリアルタイムオブジェクトベースオーディオエンコーダ)に直接わたされる。
図3の実施例は、このような簡単化された実施例の一例である。
図3のゲームコンソール16は、ラウドネスマネージメントステージ9,10(コンソール6の)がコンソール16から省かれている点を除き、
図2のゲームコンソール6と同じである。
図3のシステムに含まれる
図2のシステムの要素の説明は、
図3を参照して繰り返されない。
図3の実施例では、ゲームオーディオエンジン7から出力されるオーディオオブジェクト及びスピーカチャネルは、ミキシングサブシステム11に直接アサートされる。
【0052】
他の実施例のクラスでは、本発明のゲームコンソールは、オーディオオブジェクトに対応する限定的なサウンドのライブラリを含む典型的なタイプのゲームをプレイするよう構成される。ゲームのライブラリの各サウンドがゲームプレイ中にコンソールにより生成される符号化されたオブジェクトベースオーディオプログラムに(符号化されたオブジェクトとして)挿入するのに適したフォーマットに予め符号化されている場合(すなわち、ゲームを有するコンソールに提供される時点ですでに符号化されている)、コンソールのエンコーダ(
図2のエンコーダ13など)は、好ましくは、ゲームオーディオコンテンツを示すスピーカチャネル(
図2のサブシステム13から出力されるものなど)と、ゲームのサウンドライブラリからアクセスされ、任意的にはその後に(符号化されたオーディオオブジェクト自体を符号化するためでなく)コンソールのミキサ又はラウドネスマネージメントサブシステムにおいて修正される符号化されたオーディオオブジェクトを示すメタデータ(
図2のサブシステム13から出力されるオブジェクトの記述など)とを符号化するよう構成される。予め符号化されたオブジェクト(又はそれの修正されたバージョン)自体を符号化するのでなく、エンコーダは、あらなじめ符号化されたオブジェクト(又はそれの修正されたバージョン)と共に、スピーカチャネル及びメタデータ(エンコーダ自体が符号化する)をゲームコンソールから出力される最終的なオブジェクトベースオーディオプログラムにパッケージ化する。
【0053】
いくつかの実施例では、本発明のゲームコンソールは、ゲームコンソールに結合された配信システム(
図2のシステム15など)及び/又はレンダリングシステムの制限(制約など)を管理するよう構成される。例えば、いくつかの実施例では、ゲームコンソールは、レンダリングシステムが互換的である最大数のオーディオオブジェクトをレンダリングシステム(いくつかの実施例では、オーディオビデオ受信機、サウンドバー又はヘッドセットとして実現される
図2のシステム17など)がゲームコンソールに(レンダリングシステムにアサートされる符号化されたオーディオビットストリームにより)通知することを可能にするオブジェクトクラスタリング処理を実現し、ここで、ゲームコンソールは、ゲームコンソールから出力される符号化されたオブジェクトベースオーディオビットストリームに含まれるオーディオオブジェクトの個数を管理する。同様に、ゲームコンソールは、ゲームコンソールと意図されるレンダリングシステムとの間に結合される配信システムに対する制限(帯域幅や他のキャパシティ制約など)に関する情報に応答して生成する符号化されたオブジェクトベースオーディオビットストリームに含まれるオーディオオブジェクトの個数を管理する(例えば、当該オブジェクトの最大数を制限するなど)よう構成されてもよい。ゲームコンソールは、好ましくは、ゲームコンソールから出力されるオブジェクトベースオーディオプログラムにおいてゲームコンソールにより符号化されるオブジェクトの個数を管理するよう構成されるオブジェクトクラスタ化サブシステムを有する。例えば、本発明のゲームコンソールの
図2の実施例のゲームオーディオエンジン7又は処理サブシステム11は、このようなオブジェクトクラスタ化サブシステムを含むよう実現されてもよい。
図2(及び
図3)に示されるように、レンダリングシステム17は、サブシステム11にコンフィギュレーションデータをアサートする(例えば、配信システム15を介するが、必ずしも配信システム15を介さなくてもよい)よう構成されてもよい。このようなコンフィギュレーションデータは、レンダリングシステム17が互換的なオーディオオブジェクトの最大数を示すものであってもよい(レンダリングシステム17にアサートされる符号化されたオーディオビットストリームにおいて)。コンフィギュレーションデータに応答して、ゲームコンソール(サブシステム11などの)のオブジェクトクラスタ化サブシステムは、ゲームコンソールから出力される符号化されたオブジェクトベースオーディオプログラムに含まれるオーディオオブジェクトの個数を(必要に応じて)制限するよう構成される。
【0054】
一実施例では、オブジェクトクラスタ化サブシステム(例えば、
図2のサブシステム11の実装に含まれるなど)が、符号化されたビットストリームにおいてレンダリングシステム又は伝送プロトコルが32個より多くのオーディオオブジェクトを処理できないと想定する(例えば、通知される)よう構成される場合、オブジェクトクラスタ化サブシステムは、任意数のオーディオオブジェクトを受け入れ(例えば、
図2のサブシステム9,10などから)、それに対してリアルタイム解析を実行し、(
図2のエンコーダ32により生成される符号化されたビットストリームに内蔵するため)オブジェクトクラスタ化サブシステムから出力されたオーディオオブジェクトの個数を32以下の個数に減少させてもよい。上述した米国仮特許出願第61/745,401号“Scene Simplification and Object Clustering for Rendering Object−based Audio Content”は、本発明の実施例による実現されるオブジェクトクラスタ化システム及び方法の実施例について説明する(例えば、
図4のクラスタ化システム、又は
図2又は3のサブシステム11の実現形態など)。
【0055】
いくつかの実施例では、本発明のゲームコンソールのオーディオ処理サブシステムは、ゲーム又はゲームコンソールの少なくとも1つの他の要素(サブシステムのゲームコンフィギュレーションなど)に、ゲームコンソールにより生成される符号化されたオーディオビットストリームに含まれてもよいオーディオオブジェクトの最大数を通知するよう構成される。これに応答して、ゲームプレイ中にゲームコンソールのオーディオ処理サブシステムに出力又はアクセスされるオーディオオブジェクトの個数が管理されてもよい。例えば、ゲームコンソールにより生成されるオブジェクトベースオーディオプログラムは、スピーカチャネルのベッドとオーディオオブジェクトのセットとの双方を含むものであってもよく、ゲームプレイ中にアクセス可能なオブジェクトの最大数は、別々にアクセス可能なオーディオオブジェクトとして提供するのでなく、あるゲームオーディオコンテンツをベッドにミックスすることによって(ベッドがゲームコンソールのオーディオ処理サブシステムに提供される前に)制限されてもよい(最大数を超過しないように)。これは、ゲーム開発者に対してフレキシビリティを提供する。オーディオオブジェクトマネージメントを処理することを所望しない開発者は、単に全てのオブジェクトをゲームプレイ中にアクセス可能にし(
図2のゲームオーディオエンジン7などによって)、ゲームコンソールにより生成される各オブジェクトベースオーディオプログラムに含まれるオーディオオブジェクトの最大数を管理するため、ゲームコンソールのオブジェクトクラスタ化システムに依拠する(例えば、
図2のサブシステム11により実現されるなど)ことが可能である。ゲームオーディオミックスを注意深く管理することを所望する開発者は、ゲーム内のアクセス可能なオーディオオブジェクトの個数を手動により管理可能である。
【0056】
いくつかの実施例では、本発明により生成されるオブジェクトベースオーディオプログラムのスピーカチャネルのベッドは、5.1スピーカチャネルベッドである。他の実施例では、スピーカチャネルのベッドは他のフォーマットを有する(例えば、7.1又は9.1スピーカチャネルベッドなどであってもよい)。
【0057】
本発明のゲームコンソールのいくつかの実施例に含まれるオブジェクトクラスタ化システム(
図2のゲームオーディオエンジン7又は処理サブシステム11において実現されるオブジェクトクラスタ化サブシステムなど)は、(特定の効果を実現するためなど)オーディオオブジェクトに対して前処理を実行するよう構成される。例えば、オーディオオブジェクトに関連するオブジェクト関連メタデータが、大きな(極めて広いなど)ソースから発せられたサウンド(すなわち、大きなソースから発せられるサウンドとして知覚されるようにレンダリングされるべきサウンド)をオブジェクトが示していることを示す場合、オブジェクトクラスタ化システムは、オーディオコンテンツをゲームコンソールから出力される符号化されたビットストリームにオブジェクトチャネルとして含めるのでなく、オブジェクトのオーディオコンテンツを少なくとも1つのスピーカチャネルによりミックスしてもよい(これにより、オブジェクトから発せられるオーディオコンテンツ及び他のオーディオコンテンツを示す少なくとも1つのミックスされたスピーカチャネルを生成する)。他の例について、オーディオオブジェクトチャネルに関連するオブジェクト関連メタデータが、オブジェクトチャネルが反響するサウンドを示すことを示す場合(極めて大きなソースから発せられるサウンドとして知覚されるようレンダリングされるべき)、オブジェクトクラスタ化システムは、
オブジェクトチャネルのオーディオコンテンツをゲームコンソールから出力される符号化されたプログラムにオブジェクトチャネルとして含めるのでなく、オブジェクトチャネルのオーディオコンテンツを少なくとも1つのスピーカチャネルとミックスするか(これにより、オブジェクトチャネルのオーディオコンテンツ又は他のオーディオコンテンツを示す少なくとも1つのミックスされたスピーカチャネルを生成する)、又は、
(小さなソースから発せられたサウンドとして知覚されるようレンダリングされるべき)サウンドのドライ(非反響)バージョンを示す“ドライ”オーディオオブジェクトを生成し(例えば、オブジェクトチャネルのオーディオコンテンツに対して無相関処理を実行するなどによって)、当該“ドライ”オーディオオブジェクトをゲームコンソールから出力された符号化されたプログラムにオブジェクトチャネルとして含め、サウンドの“ドライ”バージョンの反響を示すオーディオコンテンツを生成し(例えば、オリジナルの反響サウンドの“ドライ”バージョンと無相関であるオリジナルの反響サウンドの部分など)、このように生成されたオーディオコンテンツを少なくとも1つのスピーカチャネルとミックスする(これにより、“ドライ”オーディオオブジェクトチャネルにより示される“ドライ”サウンドの反響を示す少なくとも1つのミックスされたスピーカチャネルを生成する)よう構成されてもよい。従って、オリジナルの反響サウンド(反響を示す)の無相関部分が生成され、ベッドスピーカチャネルに加えられる一方、オブジェクトチャネルのコンテンツのドライ(非反響)部分がオーディオオブジェクトとして残る。あるいは、“ドライ”サウンドの反響を示すオーディオコンテンツ(すなわち、無相関コンポーネント)がスピーカフィードのベッド(又はバーチャルベッド)に予めレンダリング可能であり、このような各ベッド(又はバーチャルベッド)は、その後にオブジェクトとして扱われ、他の全てのオブジェクトによりクラスタ化できる。
【0058】
従来のゲームオーディオエンジン(
図1のオーディオエンジン1など)は、しばしば極めて成熟したデザインを有するスピーカチャネルベースレンダリング装置を有する。本発明のゲームコンソールの好適な実施例では、コンソールのゲームオーディオエンジン(
図2又は3のエンジン7など)は従来のデザインを有し(又は従来のゲームオーディオエンジンと些細な点しか異なっていない)、これにより、コンソールの当該サブシステムの完全な再デザインの必要性を回避する。例えば、コンソールの
図3の実施例のゲームオーディオエンジン7は、それにアサートされたオーディオオブジェクトを通過する(又は従来のデザインを有する)よう実現されてもよく、
図3の実施例のサブシステム11は、(エンジン7からサブシステム11に通過するオーディオオブジェクトを含む、それにアサートされるオーディオオブジェクト及びスピーカチャネルに応答して)オブジェクトクラスタ化を実現し、オブジェクトベースオーディオプログラムとして符号化するため、オブジェクトチャネルのセットとスピーカチャネルのベッドとを(エンコーダ13に)出力するよう構成されてもよい。エンコーダ13により生成されるオブジェクトベースプログラムは、典型的には、オーディオオブジェクト及びオブジェクト関連メタデータと共に、スピーカチャネルのベッドを含む。このような本発明のゲームコンソールの実現形態は、従来方法によりスピーカチャネルのベッドを生成するゲームオーディオエンジンをコンソールが有し、当該コンソールがまたゲームコンソールから出力される符号化されたオブジェクトベースオーディオプログラムにオーディオオブジェクトのセット及びオブジェクト関連メタデータを含む(スピーカチャネルベッドと共に)ことをゲーム開発者が可能にする。
【0059】
好適な実施例では、本発明のゲームコンソールは、スピーカチャネルのセット、オーディオオブジェクトのセット及びオブジェクト関連メタデータを受け付けるよう構成されるリアルタイムエンコーダ(
図2のエンコーダ13のリアルタイム符号化実現形態など)を有する。好ましくは、オーディオオブジェクト及びスピーカチャネルは、ゲームプレイにより決定されるオーディオコンテンツ出力と、コンソールにおける(又は結合される)少なくとも1つの他のオーディオソースからのオーディオコンテンツとを示す。例えば、このような他のオーディオソースは、ゲームコンソールに結合され、コンソールのエンコーダに提供されるスピーカチャネル及び/又はオブジェクトチャネルにコンソールが含めるボイスチャットデータ(
図2及び3に示されるような)を提供するよう構成されるボイスチャットシステムであってもよい。
【0060】
いくつかの実施例では、本発明のゲームコンソールは、非ゲームオーディオ(
図2及び3に示されるタイプのシステムサウンド及び/又はボイスチャットデータなど)がオーディオオブジェクトとして符号化されるか、又は1以上のスピーカチャネルにミックスされるか判断するよう構成される。いくつかの実施例では、ゲームコンソールは、符号化されたプログラムのフル復号化、ミックス及び再符号化を実行することなく、(例えば、ゲームコンソールからの出力のためなど)ゲームコンソールにより生成された符号化されたオブジェクトベースプログラムに対してオブジェクトを内蔵(挿入など)及び/又は削除するよう構成される。例えば、ゲームコンソールは、プログラムの復号化、ミックス及び再符号化を実行することなく、(プログラムがレンダリングされるとき、システムサウンド又はボイスチャットコンテンツが、プログラムの他のオーディオコンテンツに重畳されるように)エンコーダ13により生成されるオブジェクトベースオーディオプログラムのオブジェクトチャネルとして、システムサウンド(アラートなど)又はボイスチャットコンテンツを、符号化されたオブジェクトベースプログラムに含めるよう構成されてもよい(
図2及び3のシステムと同様に)。他の例について、
図2又は3のシステムのエンコーダ13は、オブジェクトベースオーディオプログラムの1以上のオブジェクトチャネルのコンテンツ(
図2及び3に示されるようなエンコーダ13にアサートされるリニアオーディオコンテンツ、又はエンコーダ13にアサートされるオブジェクトベースオーディオプログラムの1以上のオブジェクトチャネルのシステムサウンド若しくはボイスチャットコンテンツを示すオブジェクトベースオーディオプログラムのオブジェクトチャネルなど)を、エンコーダ13において生成される符号化されたオブジェクトベースオーディオプログラム(例えば、サブシステム11から受信されるオブジェクト及びスピーカチャネルコンテンツに応答してエンコーダ13において生成されるプログラムなど)と合成するよう構成されてもよい。例えば、ビデオチャットコンテンツは、ユーザにより制御可能な具体的な位置と共に、オブジェクトとして含める(投入など)ことが可能である。いくつかの実施例では、符号化されたプログラムのフル復号化、ミックス及び再符号化を実行することなく、ゲームコンソールにより生成される符号化されたオブジェクトベースプログラムへの本発明のゲームコンソールによるオブジェクトの投入(又はオブジェクトの削除)は、本発明の譲受人に譲渡され、当該出願のテキスト及び開示全体が参照することによりここに援用される、Stephen Spencer Hooks and Freddie Sanchezを発明者とする2012年8月31日に出願された米国仮特許出願第61/696,073号“Processing Audio Objects in Principal and Supplementary Encoded Audio Signals”に開示される方法の何れかにより(又はシステム又は装置の何れかによって)実行される。
【0061】
実施例のあるクラスでは、本発明は、(ゲームのプレイ又はイベントに関するオーディオコンテンツ及び任意的にはゲームに関する他の情報)ゲームオーディオコンテンツを示すオブジェクトベースオーディオプログラムを生成する方法(典型的には、ゲームコンソールにより実行される)である。プログラムは、少なくとも1つのオブジェクトチャネル及びスピーカチャネルの少なくとも1つのスピーカチャネル(セット又は“ベッド(bed)”など)を含む。各オブジェクトチャネルは、オーディオオブジェクト又はオーディオオブジェクトのセット(ミックス又はクラスタなど)を示し、典型的には、対応するオブジェクト関連メタデータを含む。スピーカチャネルのベッドは、オブジェクトチャネルを含まない従来のスピーカチャネルベースブロードキャストプログラムに含まれてもよいタイプのスピーカチャネルの従来のミックス(5.1チャネルミックスなど)であってもよい。
【0062】
典型的な実施例では、オブジェクトベースオーディオプログラムは、少なくとも1つのオーディオオブジェクトチャネルと少なくとも1つのスピーカチャネルとを有し、本方法は、
少なくとも1つのオーディオオブジェクトチャネルを決定するステップであって(各オーディオオブジェクトチャネルを示すオーディオデータを生成するなど)、各オーディオオブジェクトチャネルが少なくとも1つのオーディオオブジェクトを示し、少なくとも1つのオーディオオブジェクトチャネルがゲームオーディオコンテンツを示す、決定するステップと、
少なくとも1つのスピーカチャネルを決定するステップであって(例えば、各スピーカチャネルを示すオーディオデータを生成するなど)、少なくとも1つのスピーカチャネルがゲームオーディオコンテンツを示す、決定するステップと、
各オーディオオブジェクトチャネルと各スピーカチャネルを示すデータを符号化することによって、オブジェクトベースオーディオプログラムを生成するステップと、
を有する。
【0063】
典型的には、本方法は、少なくとも1つのオーディオオブジェクトを示すデータにアクセスすることによって、ゲームをプレイするためにゲームコンソールを実行するステップを含み、決定及び生成ステップのそれぞれは、ゲームのプレイ中にゲームコンソールにより実行される。
【0064】
いくつかの実施例では、オブジェクトベースオーディオプログラムはAC−3又はE−AC−3ビットストリームである。このクラスの典型的な実施例により生成されるオブジェクトベースオーディオプログラムに応答して、空間レンダリングシステム(例えば、ゲームコンソールのサブシステム又はゲームコンソールの外部のシステムなど)は、各スピーカチャネル及び各オブジェクトチャネルのオーディオコンテンツのミックスを示すスピーカフィードを生成してもよい。本発明の方法は、典型的にはゲームコンソールにより実行され、空間レンダリングシステムは、典型的には、ゲームコンソールの外部であり、スピーカフィードがプログラムのスピーカチャネル及びオブジェクトチャネルコンテンツの適切な空間ミックスを示すように、スピーカフィードを生成するための再生システムのスピーカコンフィギュレーションの知識によって動作可能であることが想定される。
【0065】
いくつかの実施例では、本発明の方法は、
(a)オブジェクトベースオーディオプログラムに含まれるゲームオーディオコンテンツ(ゲームのプレイ又はイベントに関するオーディオコンテンツ及び任意的にはゲームに関する他の情報)を示す入力されたオーディオオブジェクトのセットを特定するステップであって、当該セットはN個の入力オーディオオブジェクトからなり、Nは1より大きい、特定するステップと、
(b)入力オーディオオブジェクトのセットを縮小されたオーディオオブジェクトのセット(及び任意的には少なくとも1つのミックスされたスピーカチャネル)と置換するステップであって(セットの少なくとも1つのオーディオオブジェクトのオーディオコンテンツをミックスすることなどによって)、縮小されたセットはM個のオーディオオブジェクトからなり、MはN未満の正の整数である、置換するステップと、
(c)オブジェクトベースオーディオプログラムが縮小されたオーディオオブジェクトのセットを示し、M個のオブジェクトチャネルしか含まず、少なくとも1つのスピーカチャネルを含むように、オブジェクトベースオーディオプログラムを生成するステップと、
を有する。
【0066】
例えば、ステップ(a)は
図2(又は
図3)のゲームオーディオエンジン7により実行されてもよく、ステップ(b)は
図2(又は
図3)のオーディオミキサ13により実行されてもよい。
【0067】
ステップ(b)は、
少なくとも1つのクラスタ化されたオーディオオブジェクトを生成するため、入力オーディオオブジェクトの少なくとも2つのオーディオコンテンツをミックスするステップ、又は
少なくとも1つのミックスされたスピーカチャネルを生成するため、入力オーディオオブジェクトの少なくとも1つのオーディオコンテンツをスピーカチャネルのオーディオコンテンツとミックスするステップ、
の一方又は双方を含むものであってもよい。
【0068】
いくつかの実施例では、ステップ(b)は、入力オーディオオブジェクトのセットの各オーディオオブジェクトに関連するメタデータにより示される少なくとも1つのパラメータについてエラー閾値を定義するステップと、少なくとも1つのパラメータがエラー閾値を超えるメタデータに関連するセットの各オーディオオブジェクトを、縮小されたオーディオオブジェクトのセットの1つとして特定(及びオーディオコンテンツをミックス)するステップとを含む。従って、入力オーディオオブジェクトのセットは、エラー閾値に基づき減少された個数のオーディオオブジェクト(及び任意的には少なくとも1つのミックスされたスピーカチャネル)によって効果的に置換される。減少された個数のオーディオオブジェクトは、典型的には、グループ化(ミックスなど)されたオーディオオブジェクトの時間可変的なクラスタを有し、当該クラスタは、規定された(所定など)時間間隔により又はオブジェクトイベントに応答して、空間的に近い及び/又は特性が類似したオブジェクトをクラスタ化することによって形成される。
【0069】
典型的な実施例では、本発明の方法は、(レンダリング及び再生後)、オブジェクトクラスタ化サブシステム(又はステップ)への入力によって決定されるプログラムコンテンツと、オブジェクトクラスタ化サブシステム(又はステップ)からの出力により決定されるプログラムコンテンツとの間の知覚される差分が最小化されるように、プログラムが十分な空間情報を有することを可能にしながら、(オブジェクトベースオーディオプログラムの一部として)レンダリングシステムに配信される個々のオーディオオブジェクトの個数を減少させるクラスタ化処理を実行する(及び本発明のゲームコンソールのオブジェクトクラスタ化サブシステムが実行するよう構成される)。
【0070】
本発明の各種実施例では、オブジェクトベースオーディオプログラムの各オブジェクトチャネルに対応するオブジェクト関連メタデータは、関連するオーディオオブジェクトコンテンツの特性を定義する(例えば、時間の関数としてのオブジェクト空間位置、コンテンツタイプ、ラウドネスなど)。一般に、何れか実際的な個数のオーディオオブジェクト(数百などのオブジェクト)は、(再生のため)本発明のシステムを介し処理され、生成されたオブジェクトベースオーディオプログラムに含まれてもよい。広範な再生システム及び伝送媒体においてこれらのオブジェクト(多数のオブジェクトを含むものであってもよい)の正確な再生を実現するため、本発明の方法及びゲームコンソールは、例えば、オリジナルのオブジェクトをより少数のオブジェクトグループに組み合わせることなどによって、初期的な個数のオリジナルオブジェクトをより小さなより管理可能な個数のオブジェクトに減少させる(オブジェクトベースオーディオプログラムに含めるため)オブジェクトクラスタ化処理又はコンポーネントを実現又は有してもよい。クラスタ化処理は、個々の入力オブジェクトのオリジナルセットからより少数の出力クラスタ(ミックス又はクラスタ化されたオブジェクト)を生成するため、オブジェクトのクラスタ(グループ)を構成してもよい。典型的には、クラスタ化処理又はコンポーネントは、減少された個数のオブジェクト(クラスタ化されたオブジェクトなど)を生成するため、オーディオオブジェクトコンテンツ自体だけでなく、入力オブジェクトのオブジェクト関連メタデータを処理する。典型的には、メタデータは、任意の時点において何れのオブジェクトが他のオブジェクト(又はスピーカチャネル)と最も適切に合成されるか決定するため解析され、合成されたオブジェクトの対応するオーディオ波形が、その後に代替的な又は合成されたオブジェクトを生成するため集約されてもよい。合成されたオブジェクトグループは、その後にオブジェクトベースプログラムを生成するエンコーダ(
図2のエンコーダ13など)に入力される。
【0071】
典型的な実施例では、オブジェクトクラスタ化方法は、縮小された帯域幅のチャネル又は符号化システムにおいてオブジェクトチャネル及びスピーカチャネルコンテンツの配信及び/又はレンダリングを実現し、出力オーディオプログラムに含まれるオブジェクトの個数を減少するため、オーディオオブジェクトに関する情報(空間位置、時間属性、コンテンツタイプ、幅及び/又は他の適切な特性の1以上を含む)を利用して、オブジェクトを動的にクラスタ化する。当該処理は、以下のクラスタ化処理、すなわち、少なくとも1つのオブジェクトによるオブジェクトのクラスタ化及び/又は少なくとも1つのスピーカチャネルによるオブジェクトのクラスタ化の一方又は双方を実行することによって、プログラムに含まれるオブジェクトの個数を減少させることができる。任意的には、オブジェクトは2以上のクラスタに分散できる。クラスタ化処理は、典型的には、位置の変化(クラスタ化から生じる)、ラウドネス又はクラスタ化されたオブジェクトの他の特性による歪みに基づくエラーメトリックを用いて、クラスタ化されたオブジェクトのサウンド劣化とクラスタ化圧縮との間の最適なトレードオフを決定する。クラスタ化処理は同期的に実行可能であるか、又は聴覚情景解析(ASA)及びイベント境界検出を用いてクラスタ化を介しオブジェクト簡単化をを制御するなどによるイベントドリブンとすることが可能である。いくつかの実施例では、当該処理は、エンドポイントのレンダリングアルゴリズム及び装置の知識を利用してクラスタ化を制御してもよい。このようにして、再生システムの特定の特性又は性質が、クラスタ化処理を通知するのに利用されてもよい。例えば、異なるクラスタ化スキームがスピーカ対ヘッドフォン又は他のオーディオドライバについて利用されてもよく、あるいは、異なるクラスタ化スキームが可逆対不可逆符号化などのために利用されてもよい。
【0072】
ここで、“クラスタ化”及び“グループ化”又は“合成”という用語は、オーディオ再生システムへの配信(送信など)及びレンダリングのため、オーディオコンテンツの単位(符号化されたオブジェクトベースオーディオプログラムのフレーム又は他のセグメントなど)でデータ量を減少させるため、オブジェクト及び/又はスピーカチャネルの組み合わせを記述するのに互換的に用いられ、“圧縮”又は“縮小”という用語は、オブジェクト及び/又はスピーカチャネルのクラスタ化を介しオーディオのシーン簡単化を実行する処理を表すのに用いられてもよい。ここでの“クラスタ化”、“グループ化”又は“合成”という用語は、1つのクラスタのみへのオブジェクト又はスピーカチャネルの一意的な割り当てに限定されるものでない。代わりに、オブジェクト又はスピーカチャネルは、複数の出力スピーカチャネル又はオブジェクトクラスタに分散化されることによってクラスタ化されてもよい(例えば、出力クラスタ又は出力スピーカチャネル信号へのオブジェクト又はスピーカチャネル信号の相対的な貢献を決定するウェイト又はゲインベクトルを利用するなど)。
【0073】
図4は、オーディオオブジェクトクラスタ化システム(例えば、本発明のゲームコンソールの実施例のサブシステムなど)の実施例の図である。
図4に示されるように、オブジェクト処理コンポーネント256は、説明されるシーン簡単化タスクを実行するよう構成される。処理について、コンポーネント256は、ゲームオーディオコンテンツ及び典型的には対応するオブジェクト関連メタデータ(例えば、ゲームプレイ中に
図2のゲームオーディオエンジン7に入力さえるタイプのオーディオオブジェクトファイルなど)を示す任意数(“X”として参照される)の入力オーディオオブジェクト252と、任意数のスピーカチャネル254(またゲームオーディオコンテンツを示す)及び任意的な関連するスピーカチャネルベッドメタデータとをリードインする。オブジェクト処理コンポーネント256は、スピーカチャネル及びより少数の出力オブジェクト(“Y”個の出力オブジェクト、ただし、YはX未満である)を示す出力を生成するため、メディアインテリジェンス/コンテンツ分類、空間歪み解析及びオブジェクト選択/クラスタ化を実行する。出力オブジェクト258は、関連するオブジェクト/クラスタメタデータと共に、新たなオブジェクト(入力オブジェクトと同一又は等価)及び/又はオブジェクトクラスタ(入力オブジェクトのミックスなど)を含むことが可能である。入力オブジェクトの1以上が、1以上のスピーカチャネルにダウンミックスするため選択可能である。このように選択されたオブジェクト(
図4のダウンミックスされたオブジェクト260として示される)は、出力スピーカチャネル270及び任意的には関連するメタデータを生成するため、スピーカチャネル262による要素268における合成(ミキシング)に適したフォーマットへのレンダリングのため、コンポーネント256からレンダリング装置266にアサートされる。出力スピーカチャネル270のコンフィギュレーション(ナンバー及びフォーマット)(例えば、典型的なホーム再生システム上の再生用の典型的な5.1スピーカチャネルコンフィギュレーションなど)は、入力スピーカチャネル254のコンフィギュレーションに一致する必要はなく、例えば、9.1スピーカチャネルコンフィギュレーションとすることが可能である。新たなスピーカチャネルメタデータが、入力スピーカチャネルからのメタデータを組み合わせることによって、出力スピーカチャネルについて生成されてもよい(コンポーネント256及び/又はレンダリング装置266において)。出力スピーカチャネルの新たなオーディオデータが、少なくとも1つの入力スピーカチャネル及び少なくとも1つのダウンミックスされたオブジェクト260からのオーディオを組み合わせることによって生成される(要素266,268において)。
【0074】
オブジェクト処理コンポーネント256は、特定の処理コンフィギュレーション情報272を利用する。一実施例では、これらは、出力オブジェクト数、フレームサイズ及び特定のメディアインテリジェンス設定を含む。メディアインテリジェンスは、コンテンツタイプ(すなわち、対話/音楽/効果/など)、領域(セグメント/分類)、前処理結果、聴覚情景解析結果及び他の同様の情報など、オブジェクトに関連する複数のパラメータ又は特性を含むことが可能である。
【0075】
他の実施例では、(要素266,268において実行されるタイプの)オーディオ生成は、シンプル化メタデータ(何れのオブジェクトが何れのクラスタに属するか、何れのオブジェクトがベッドにレンダリングされるべきかなど)と共に、全てのオリジナルチャネル(ダウンミックスされたオブジェクトチャネル及びスピーカチャネル)への参照を保持(及び出力)することによって保留される。これは、ゲームコンソール(コンポーネント256を含みうる)と外部の装置又はシステム(コンポーネント256の出力を受信しうる)との間のクラスタ化処理を分散させるのに有用となるうる。
【0076】
オブジェクト258及び/又は260と共に含まれるオブジェクト関連メタデータは、他の可能性のあるメタデータタイプのうち、オブジェクト位置、オブジェクトサイズ(幅など)、オーディオコンテンツタイプ、ラウドネス、レンダリングモード、制御信号を示すものであってもよい。メタデータの定義は、各メタデータタイプに関連する特定の値を定義する要素を有してもよい。2以上のオブジェクトがクラスタ化処理中に組み合わされるとき、それら各自のメタデータ要素は、典型的には、定義された合成スキームを介し組み合わされる(例えば、合成されたオブジェクトの位置及び幅を導出するための加重平均など)。位置に関して、クラスタ化された(構成要素となる)オブジェクトにおける重心の幾何学的中心が、置換オブジェクトの位置を表すのに利用可能である。
【0077】
合成されたオブジェクトのラウドネスは、構成要素となるオブジェクトのラウドネスを平均化又は合計することによって導出されてもよい。一実施例では、信号のラウドネスメトリックは、周波数に基づき重み付けされるエネルギーの指標である信号の知覚エネルギーを表す。このため、ラウドネスは、サウンドのリスナの知覚に対応するスペクトル加重エネルギーである。他の実施例では、ラウドネスの代わりに又は一緒に、当該処理は、オブジェクトの重要性を決定する際のファクタとして、信号のピュアエネルギー(RMSエネルギー)又は信号エネルギーの他の指標を利用してもよい。更なる他の実施例では、合成されたオブジェクトのラウドネスは、クラスタ化されたオブジェクトのパーシャルラウドネスデータから導出され、当該パーシャルラウドネスは、心理音響原理に従って完全なオブジェクトのセット及びベッドに関してオブジェクトの(相対的な)ラウドネスを表す。従って、ラウドネスメタデータタイプは、絶対的なラウドネス、パーシャルラウドネス又は合成ラウドネスメタデータ定義として具体化されてもよい。オブジェクトのパーシャルラウドネス(又は相対的な重要性)は、レンダリングシステムが全てのオブジェクトを個別にレンダリングするのに十分な能力を有しない場合、オブジェクトを選択的にレンダリングするための手段として又は重要性の指標としてクラスタ化に利用可能である。
【0078】
オブジェクトのクラスタ化の一例は、空間的に関連するオブジェクトをグループ化すること、すなわち、同様の空間位置に配置されているオブジェクトを組み合わせることであり、ここで、空間位置の類似性は、置換クラスタにより規定される位置に構成要素となるオブジェクトをシフトさせたことによる歪みに基づく最大エラー閾値によって定義される。
【0079】
第2のクラスタ化スキームは、空間的に様々であってもよいオーディオオブジェクトを固定的な空間位置を表すスピーカチャネルと組み合わせることが適切である時点を決定する。このタイプのクラスタ化の一例は、3次元空間における探索として当初表されるオブジェクトを送信し、代わりにオブジェクトをスピーカチャネルが典型的に表現される場所である水平面上のそれのプロジェクションにミックスするのに利用可能な帯域幅が十分ないときである。これは、1以上のオブジェクトが静的なスピーカチャネルに動的にミックスされることを可能にし、これにより、送信される必要があるオブジェクトの個数を減少させることができる。
【0080】
第3のクラスタ化スキームは、特定の既知のシステム特性の事前的な知識を利用する。例えば、再生システムにおけるエンドポイントレンダリングアルゴリズム及び/又は再生装置の知識は、クラスタ化処理を制御するのに利用されてもよい。例えば、典型的なホームシアタコンフィギュレーションは、固定された位置に配置された物理的スピーカに依拠する。これらのシステムはまた、室内にいくつかのスピーカがないことを補償し、アルゴリズムを用いて室内にあるバーチャルスピーカをリスナに与えるスピーカ仮想化アルゴリズムに依拠してもよい。スピーカの空間的な多様性及び仮想化アルゴリズムの精度などの情報が既知である場合、スピーカコンフィギュレーション及び仮想化アルゴリズムは限定的な知覚体感しかリスナに提供できないため、減少された個数のオブジェクトを送信することが可能であるかもしれない。この場合、オブジェクト表現と共にフルスピーカチャネルベッドを送信することは、帯域幅の浪費となり、ある程度のクラスタ化が適切であろう。クラスタ化を制御するためのオブジェクトのコンテンツタイプ、又はクラスタ化を制御するためのオブジェクトの幅などの他のタイプの既知の情報がまた、当該クラスタ化スキームにおいて利用可能である。
【0081】
第4のクラスタ化スキームは、オブジェクトのダイナミックなクラスタ化及びクラスタ解除を制御するための時間情報の利用を含む。一実施例では、クラスタ化処理は、一定間隔又は期間(10ミリ秒ごとに1回など)により実行される。あるいは、オーディオコンテンツを解析及び処理し、個々のオブジェクトの期間に基づき最適なクラスタ化コンフィギュレーションを決定するため、聴覚情景解析(ASA)及び聴覚イベント境界検出などの技術を含む他の時間イベントが利用可能である。
【0082】
一実施例では、クラスタ化処理は、当初の個数のオーディオオブジェクト及びスピーカチャネルを目標数の新たな等価なオブジェクト及びスピーカチャネルに動的にグループ化する。最も実際上の用途では、目標数は当初の個数より有意に小さく、例えば、100個のオリジナル入力チャネルは、20個以下の合成されたグループに合成される。
【0083】
一実施例では、クラスタ化処理は、所与のエラーメトリックを最小化する等しい個数の出力オブジェクト/スピーカチャネルを導出するため、対応するメタデータ(オブジェクトの空間位置など)と共に全ての個々の入力(オブジェクト又はスピーカ)チャネルのオーディオコンテンツを解析することに関する。一実現形態では、エラーメトリックは、クラスタ化されたオブジェクトのシフト処理による空間歪みに基づき、経時的に各オブジェクトの重要性の指標によって更に重み付けすることが可能である。オブジェクトの重要性は、ラウドネス、コンテンツタイプ及び他の関連するファクタなどのオブジェクトの他の特性をカプセル化することが可能である。あるいは、これら他のファクタは、空間エラーメトリックと組み合わせ可能な別のエラーメトリックを構成可能である。
【0084】
一実施例では、クラスタ化処理は、幅又はスプレッドパラメータによりオブジェクトをサポートする。幅は、ピンポイントのソースとしてでなく見かけ上の空間的な範囲によるサウンドとしてレンダリングされるオブジェクトのために利用される。幅パラメータが増加するに従って、レンダリングされるサウンドはより空間的に拡散し、この結果、それの具体的な位置はあまり該当しなくなる。従って、幅が増えるに従ってより位置エラーに有利になるように、クラスタ化歪みメトリックに幅を含めることが効果的である。
【0085】
クラスタ化処理は、典型的には、オブジェクトの特定の特性と超過不可な規定されたエラー量とに基づき、オブジェクトをクラスタに合成する。クラスタ化処理は、典型的には、時間ベースによりオブジェクトのグループ化を最適化するため、異なる又は定期的な時間間隔によるオブジェクトグループをコンスタントに構築するため、出力オブジェクトグループを動的に再計算する。一実施例では、クラスタ化処理は、10ミリ秒毎に1回、又は他の何れか適切な期間などの定期的な時間間隔により入力オブジェクトを解析し、クラスタ化を実行する。様々な入力オブジェクトが何れか1つの時点で異なる位置に存在する可能性があり、オブジェクトは異なる幅を有することが可能である。クラスタ化処理は、規定された最大エラー閾値に対して空間的に十分近いオブジェクトのグループを形成するため、入力オブジェクトを解析する。ある時点においてエラー閾値により定義される距離の範囲内で互いに離間したオブジェクトは、一緒にクラスタ化されるのに適したものであってもよい。
【0086】
クラスタ化を定期的に実行する代わりに、クラスタ化処理は、入力オブジェクトに関連するトリガ条件又はイベントに基づきオブジェクトをクラスタ化してもよい。このようなトリガ条件の1つは、各入力オブジェクトのスタート及びストップ時間である。
【0087】
本発明の実施例は、ハードウェア、ファームウェア、ソフトウェア又はこれらの組み合わせ(プログラマブルロジックアレイなど)により実現されてもよい。例えば、
図2、3又は4のシステムは、例えば、プログラムされた汎用プロセッサ、デジタル信号プロセッサ又はマイクロプロセッサ(又は適切に構成された汎用プロセッサ、デジタル信号プロセッサ又はマイクロプロセッサを含むゲームコントローラ)などとして適切にプログラム(又は構成)されたハードウェア又はファームウェアにより実現されてもよい。特段の断りがない場合、本発明の一部として含まれるアルゴリズム又は処理は、何れか特定のコンピュータ、ゲームコントローラ又は他の装置に本来的には関連するものでない。特に、各種汎用マシーンは、ここでの教示に従って記述されたプログラムと共に利用されてもよいし、あるいは、要求される方法ステップを実行するため、より特化した装置(集積回路、又は特殊な回路を含むゲームコントローラなど)を構成することがより便利であるかもしれない。従って、本発明は、1以上のプログラマブルコンピュータシステム(例えば、
図2、3又は4のゲームコントローラを実現するコンピュータシステムなど)上で実行される1以上のコンピュータプログラムにより実現されてもよく、各プログラマブルコンピュータシステムは、少なくとも1つのプロセッサ、少なくとも1つのデータストレージシステム(揮発性及び不揮発性メモリ及び/又はストレージ要素を含む)、少なくとも1つの入力装置若しくはポート、及び少なくとも1つの出力装置若しくはポートを有する。プログラムコードは、ここに説明された機能を実行し、出力情報を生成するため、入力データに適用される。出力情報は、既知の方法により1以上の出力装置に適用される。
【0088】
このような各プログラムは、コンピュータシステムと通信するため、何れか所望のコンピュータ言語(機械語、アセンブリ語、ハイレベル手続き型言語、論理言語又はオブジェクト指向プログラミング言語を含む)により実現されてもよい。何れの場合も、言語はコンパイル又はインタープリットされた言語であってもよい。
【0089】
例えば、コンピュータソフトウェアの命令シーケンスにより実現されるとき、本発明の実施例の各種機能及びステップは、適切なデジタル信号処理ハードウェアにおいて実行されるマルチスレッド化されたソフトウェア命令シーケンスにより実現されてもよく、この場合、実施例の各種装置、ステップ及び機能は、ソフトウェア命令の一部に対応するものであってもよい。
【0090】
このようなコンピュータプログラムは、好ましくは、記憶媒体又は装置がここに説明された処理を実行するためコンピュータシステムにより読み出されたときにコンピュータを設定及び実行するため、汎用又は特定用途プログラマブルコンピュータにより可読な記憶媒体又は装置(ソリッドステートメモリ若しくは媒体、又は磁気若しくは光媒体など)に格納又はダウンロードされる。本発明のシステムはまた、このように構成された記憶媒体がコンピュータシステムにここで説明される機能を実行するための特定の予め規定された方法により動作させるコンピュータプログラムにより設定(すなわち、記憶)されるコンピュータ可読記憶媒体として実現されてもよい。
【0091】
各実現形態が具体例によって、また特定の実施例に関して説明されたが、本発明の実現形態は開示された実施例に限定されないことが理解されるべきである。他方、当業者に明らかなような各種修正及び同様の構成をカバーすることが意図される。従って、添付した請求項の範囲は、このような全ての修正及び同様の構成を含むように、最も広い解釈が与えられるべきである。