IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー ラボラトリーズ ライセンシング コーポレイションの特許一覧

特開2023-181199メタデータ保存オーディオ・オブジェクト・クラスタリング
<>
  • 特開-メタデータ保存オーディオ・オブジェクト・クラスタリング 図1
  • 特開-メタデータ保存オーディオ・オブジェクト・クラスタリング 図2
  • 特開-メタデータ保存オーディオ・オブジェクト・クラスタリング 図3
  • 特開-メタデータ保存オーディオ・オブジェクト・クラスタリング 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023181199
(43)【公開日】2023-12-21
(54)【発明の名称】メタデータ保存オーディオ・オブジェクト・クラスタリング
(51)【国際特許分類】
   H04S 7/00 20060101AFI20231214BHJP
【FI】
H04S7/00 300
【審査請求】有
【請求項の数】1
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023172770
(22)【出願日】2023-10-04
(62)【分割の表示】P 2022067385の分割
【原出願日】2015-12-10
(31)【優先権主張番号】201410765578.6
(32)【優先日】2014-12-11
(33)【優先権主張国・地域又は機関】CN
(31)【優先権主張番号】62/100,183
(32)【優先日】2015-01-06
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】チェン,リアンウー
(72)【発明者】
【氏名】ルー,リエ
(72)【発明者】
【氏名】トウィンゴ,ニコラ エール.
(57)【要約】
【課題】本稿に開示される例示的実施形態はオーディオ・オブジェクト・クラスタリングに関する。
【解決手段】メタデータが保存されるオーディオ・オブジェクト・クラスタリングのための方法が開示される。本方法は、複数のオーディオ・オブジェクトを、該複数のオーディオ・オブジェクトに関連付けられたメタデータにおいて保存されるべき情報に基づいていくつかのカテゴリーに分類することを含む。本方法はさらに、所定数のクラスターを前記カテゴリーに割り当て、前記カテゴリーのそれぞれにおけるオーディオ・オブジェクトを前記割り当てに基づいて前記クラスターのうちの少なくとも一つに割り振ることを含む。対応するシステムおよびコンピュータ・プログラム・プロダクトも開示される。
【選択図】図2
【特許請求の範囲】
【請求項1】
エンコードされたオーディオ信号を復号する方法であって:
前記エンコードされたオーディオ信号を受領し、前記エンコードされたオーディオ信号から少なくとも一つのオーディオ・オブジェクトを決定する段階と;
前記少なくとも一つのオーディオ・オブジェクトを、該少なくとも一つのオーディオ・オブジェクトに関連付けられたレンダリング・モード・メタデータに基づいて少なくとも一つのカテゴリーに分類する段階と;
クラスター割り当てを案内するユーザー入力に基づいて少なくとも一つのクラスターを決定する段階と;
前記少なくとも一つのクラスターについての前記レンダリング・モード・メタデータに基づいて、前記少なくとも一つのオーディオ・オブジェクトをレンダリングする段階とを含む、
方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は2014年12月11日に出願された中国特許出願第201410765578.6号および2015年1月6日に出願された米国仮特許出願第62/100,183号の優先権の利益を主張するものである。各出願の内容はここに参照によってその全体において組み込まれる。
【0002】
技術
本稿に開示される例示的実施形態は、概括的にはオーディオ・コンテンツ処理に、より詳細には、メタデータが保存されることを許容するオーディオ・オブジェクト・クラスタリングのための方法およびシステムに関する。
【背景技術】
【0003】
オブジェクト・ベースのオーディオの到来は、オーディオ・データの量およびハイエンド再生システム内でこのデータをレンダリングすることの複雑さを有意に増した。たとえば、映画サウンドトラックは、スクリーン上の像に対応する多くの異なる音要素、ダイアログ、ノイズおよびサウンド効果を含むことがある。これらのサウンドトラックはまた、スクリーン上の異なる位置から発し、背景音楽および周囲効果(ambient effects)と組み合わさって全体的な聴覚体験を作り出す。正確な再生は、音が、音源の位置、強度、動きおよび奥行きに関してスクリーン上に示されるものにできるだけ近く対応する仕方で再現されることを要求する。オブジェクト・ベースのオーディオは、伝統的なチャネル・ベースのオーディオ・システムに対して有意な改善を表わす。チャネル・ベースのオーディオ・システムは、オーディオ・コンテンツをスピーカー・フィードの形で聴取環境内の個々のスピーカーに送り、よって特定のオーディオ・オブジェクトの空間的再生に関して比較的制限されている。
【0004】
デジタル映画館の導入および三次元(「3D」)コンテンツの発達は、サウンドについての新たなスタンダードを作り出した。たとえば、コンテンツ・クリエーターにとってのより大きな創造性を許容する複数チャネル・オーディオの組み込みや、聴衆にとってより包み込むような、リアルな聴覚経験などである。空間的オーディオを配送する手段として伝統的なスピーカー・フィードおよびチャネル・ベースのオーディオを超えて拡張することは枢要である。さらに、選ばれた構成のために特にレンダリングされたオーディオを用いることで聴取者が所望される再生構成を選択することを許容するモデル・ベースのオーディオ記述に多大な関心が寄せられてきた。音の空間的呈示はオーディオ・オブジェクトを利用する。オーディオ・オブジェクトは、見かけの源位置(たとえば3D座標)、見かけの源幅および他のパラメータのような、関連付けられたパラメトリックな源記述をもつオーディオ信号である。さらなる進歩として、オーディオ・オブジェクトと伝統的なチャネル・ベースのスピーカー・フィード(オーディオ・ベッド)との混合をオーディオ・オブジェクトのための位置メタデータとともに含めることによって、次世代空間的オーディオ(「適応オーディオ」とも称される)フォーマットが開発されている。
【0005】
本稿での用法では、用語「オーディオ・オブジェクト」は、音場においてある定義された継続時間にわたって存在する個別のオーディオ要素をいう。用語「オーディオ・ベッド」または「ベッド」は、あらかじめ定義された、固定されたスピーカー位置において再生されることが意図されているオーディオ・チャネルをいう。
【0006】
いくつかのサウンドトラックでは、オーディオを含むいくつかの(たとえば7、9または11の)ベッド・チャネルがあることがある。さらに、オーサリング・システムの機能に基づいて、レンダリングの間に組み合わされて空間的に多様で没入的なオーディオ経験を作り出す数十、またさらには数百の個別のオーディオ・オブジェクトがあることがある。他の配送および伝送システムでは、ほとんどまたは全くオーディオ圧縮なしにすべてのオーディオ・ベッドおよびオブジェクトを伝送するために十分に大きな利用可能帯域幅があることがある。だが、ブルーレイ・ディスク、放送(ケーブル、衛星、地上波)、携帯電話(3Gおよび4G)およびオーバーザトップ(OTTまたはインターネット)配送のようないくつかの場合には、オーサリングの時点で生成されたベッドおよびオブジェクト情報のすべてをデジタル的に伝送するための利用可能な帯域幅に著しい制限があることがある。必要とされる帯域幅を減らすようオーディオにオーディオ符号化方法(可逆または不可逆)が適用されてもよいが、オーディオ符号化は、モバイル3Gおよび4Gネットワークのような非常に制限されたネットワークを通じてオーディオを伝送するために必要とされる帯域幅を減らすのに十分ではないことがある。
【0007】
クラスタリングによって入力されたオブジェクトの数を出力オブジェクトのより小さな集合に削減するいくつかの従来の方法が開発されている。一般に、いくつかのクラスタリング・プロセスでは、サイズ、ゾーン・マスクおよびスナップのようなメタデータが内部チャネル・レイアウトに事前レンダリングされるべきである。オーディオ・オブジェクトのクラスタリングは、オーディオ・オブジェクトの空間位置にのみ基づき、出力オブジェクトは位置メタデータのみを含む。この種の出力オブジェクトは、メタデータの喪失が期待される芸術的意図を破ることがあるので、いくつかの再生システムについてはうまく機能しないことがある。
【0008】
背景セクションで論じられている主題は、単に背景セクションでの開示のために従来技術であると想定されるべきではない。同様に、背景セクションにおいて言及されているまたは背景セクションの主題に関連する問題は、従来技術において以前から認識されていたと想定されるべきではない。背景セクションにおける主題は単に、種々のアプローチを表わすものであり、それらのアプローチ自身も例示的実施形態であることがありうる。
【発明の概要】
【発明が解決しようとする課題】
【0009】
上記および他の潜在的な問題に対処するために、例示的実施形態は、メタデータが保存されるオーディオ・オブジェクト・クラスタリングのための方法およびシステムを提案する。
【課題を解決するための手段】
【0010】
ある側面では、例示的実施形態は、メタデータが保存されるオーディオ・オブジェクト・クラスタリングのための方法を提供する。本方法は、複数のオーディオ・オブジェクトを、該複数のオーディオ・オブジェクトに関連付けられたメタデータにおいて保存されるべき情報に基づいていくつかのカテゴリーに分類することを含む。本方法はさらに、所定数のクラスターを前記カテゴリーに割り当て、前記カテゴリーのそれぞれにおけるオーディオ・オブジェクトを前記割り当てに基づいて前記クラスターのうちの少なくとも一つに割り振ることを含む。この点に関する諸実施形態は、さらに、対応するコンピュータ・プログラム・プロダクトを含む。
【0011】
もう一つの側面において、例示的実施形態は、メタデータが保存されるオーディオ・オブジェクト・クラスタリングのためのシステムを提供する。本システムは、複数のオーディオ・オブジェクトを、該複数のオーディオ・オブジェクトに関連付けられたメタデータにおいて保存されるべき情報に基づいていくつかのカテゴリーに分類するよう構成されたオーディオ・オブジェクト分類ユニットを含む。本システムはさらに、所定数のクラスターを前記カテゴリーに割り当てるよう構成されたクラスター割り当てユニットと、前記カテゴリーのそれぞれにおけるオーディオ・オブジェクトを前記割り当てに基づいて前記クラスターのうちの少なくとも一つに割り振るよう構成されたオーディオ・オブジェクト割り振りユニットとを含む。
【0012】
以上の記述を通じて、本稿に開示される例示的実施形態によれば、入力オーディオ・オブジェクトが、メタデータにおいて保存されるべき情報に依存して対応するカテゴリーに分類され、それにより、保存されるべき異なるメタデータまたは保存されるべきメタデータの一意的な組み合わせが異なるカテゴリーと関連付けられることが理解されるであろう。クラスタリング後、あるカテゴリー内のオーディオ・オブジェクトについて、それが異なるメタデータに関連付けられたオーディオ・オブジェクトと混合される可能性が少なくなる。これに関し、オーディオ・オブジェクトのメタデータは、クラスタリング後に保存されることができる。例示的実施形態によって達成される他の利点は以下の記述から明白となるであろう。
【図面の簡単な説明】
【0013】
付属の図面を参照しての以下の詳細な説明を通じて、実施形態の上記および他の目的、特徴および利点が、より理解できるようになるであろう。図面においては、いくつかの例示的実施形態が例示的かつ限定しない仕方で示される。
図1】ある例示的実施形態に基づくメタデータが保存されるオーディオ・オブジェクト・クラスタリングのための方法のフローチャートである。
図2】ある例示的実施形態に基づくオーディオ・オブジェクト・クラスタリング・プロセスのための概略図である。
図3】ある例示的実施形態に基づくメタデータが保存されるオーディオ・オブジェクト・クラスタリングのためのシステムのブロック図である。
図4】実施形態を実装するのに好適な例示的なコンピュータ・システムのブロック図である。 図面を通じて、同じまたは対応する参照符号は同じまたは対応する部分を指す。
【発明を実施するための形態】
【0014】
例示的実施形態の原理についてこれから図面に示されるさまざまな例示的実施形態を参照して述べる。これらの実施形態の描出は、単に当業者が例示的実施形態をよりよく理解し、さらに実装することができるようにするためだけであり、いかなる仕方であれ範囲を限定することは意図されていないことは理解しておくべきである。
【0015】
上述したように、符号化/復号レートおよび伝送帯域幅における制限のため、適応オーディオ・コンテンツを生成するために使われるオーディオ・オブジェクトの数がクラスタリングによって減らされることがある。その空間位置を記述するメタデータのほかに、オーディオ・オブジェクトは通例、サイズ、ゾーン・マスク、スナップおよびコンテンツの型などといったその属性を記述する他のメタデータを有している。こうした各属性は、オーディオ・オブジェクトがレンダリングされるときにどのように処理されるべきかについての芸術的意図を記述する。しかしながら、いくつかの従来の方法では、オーディオ・オブジェクトがクラスタリングされた後は、位置メタデータのみが残る。他のメタデータは7.1.2または7.1.4システムのような内部チャネル・レイアウトに事前レンダリングされることがあるが、それはすべてのシステムについてうまく機能するものではない。特にオーディオ・オブジェクトがたとえば5.1または7.1システムにダウンミックスされるとき、レンダリングされるときにオーディオ・オブジェクトの芸術的意図は破られることがある。
【0016】
メタデータ「ゾーン・マスク」を例に取る。これは複数のモードをもち、各モードはオーディオ・オブジェクトがレンダリングされるべきではない領域を定義する。ゾーン・マスクの一つのモードは、そのオーディオ・オブジェクトをレンダリングするときに側方スピーカーがマスクされるべきであることを記述する「側方なし」である。伝統的なクラスタリング方法を利用することにより空間位置z=1におけるオーディオ・オブジェクトがメタデータ「側方なし」を用いて5.1システムにレンダリングされる場合、5.1レンダリングにおいて側方スピーカーがアクティブ化されることがある。天井スピーカーでの音が側方に畳み込まれることがあるからである。この問題に対処するために、クラスタリング・プロセスにおいてメタデータ「ゾーン・マスク」が保存され、オーディオ・レンダラーにおいて正しく処理できるようにするべきである。
【0017】
もう一つの例では、ダイアログ・オブジェクトはクラスタリング後に他のオブジェクトから分離されていることが期待されることがある。これは、その後のオーディオ・オブジェクト処理のために多くの恩恵をもちうる。たとえば、ダイアログ向上のようなその後のオーディオ処理において、分離されたダイアログ・オブジェクト・クラスターは、単に利得(単数または複数)を適用することによって容易に増強されることができる。さもなければ、クラスターにおいて他のオブジェクトと混合されている場合にダイアログ・オブジェクトを分離することは、非常に難しいことがありうる。ダイアログ置換の応用では、各言語でのダイアログが完全に互いから分離されていてもよい。そうした目的のために、クラスタリング・プロセスにおいて、ダイアログ・オブジェクトは保存され、分離された個別のクラスターに割り振られるべきである。
【0018】
さらに、オーディオ・オブジェクトはそのレンダリング・モード、たとえばヘッドフォン・レンダラーにおいて処理するときに左合計/右合計(Lt/Rt)としてまたは頭部伝達関数(HRTF)によるバイノーラルとしてレンダリングすることを記述するメタデータに関連付けられていてもよい。これらのレンダリング・モードも、最良のレンダリング結果を生じるために、クラスタリング後に保存されることが期待される。
【0019】
したがって、よりよいオーディオ経験を達成するために、メタデータがオーディオ・オブジェクト・クラスタリングにおいて保存されるようにすることが望まれる。本稿に開示される例示的実施形態は、メタデータが保存されるオブジェクト・クラスタリングのための方法およびシステムを提案する。
【0020】
まず図1を参照する。図1は、例示的実施形態に基づくメタデータが保存されるオーディオ・オブジェクト・クラスタリングのための方法100のフローチャートを描いている。
【0021】
S101では、複数のオーディオ・オブジェクトが、該複数のオーディオ・オブジェクトに関連付けられたメタデータにおいて保存されるべき情報に基づいていくつかのカテゴリーに分類される。これらのオーディオ・オブジェクトは入力として与えられ、数十、数百あるいは時には数千の入力オーディオ・オブジェクトがあってもよい。
【0022】
本稿での用法では、各オーディオ・オブジェクトに関連付けられたメタデータにおいて保存されるべき情報は、オーディオ・オブジェクトがレンダリングされるときの処理意図を示してもよい。その情報は、オーディオ・オブジェクトがレンダリングされるときにどのように処理されるべきかを記述してもよい。いくつかの実施形態では、その情報は、オーディオ・オブジェクトのサイズ情報、ゾーン・マスク情報、スナップ情報、コンテンツ型またはレンダリング・モードの一つまたは複数を含んでいてもよい。サイズ情報は、オーディオ・オブジェクトによって占められる空間面積または体積を示すために使われてもよい。ゾーン・マスク情報は、オーディオ・オブジェクトがレンダリングされるべきではない領域を定義するゾーン・マスクのモードを示す。たとえば、ゾーン・マスク情報は、「側方なし」、「サラウンドのみ」、「前方のみ」などのモードを示してもよい。スナップ情報は、オーディオ・オブジェクトが最も近いスピーカーに直接パンされるべきであるか否かを示す。
【0023】
メタデータにおいて保存されるべき情報のいくつかの例が記述されており、ユーザーまたはオーディオ・エンジニアの選好に応じて、メタデータに含まれる他の情報(限定しない例は空間位置、空間的な幅などを含む)もオーディオ・オブジェクト分類において考慮されてもよいことを注意しておくべきである。いくつかの実施形態では、オーディオ・オブジェクトに関連付けられたメタデータにおけるすべての情報が考慮されてもよい。
【0024】
カテゴリーの数は、それらのオーディオ・オブジェクトのメタデータにおける情報に依存してもよく、1以上でありうる。ある実施形態では、保存されるべき情報のないオーディオ・オブジェクトは一つのカテゴリーに分類されてもよく、保存されるべき異なる情報をもつオーディオ・オブジェクトは異なるカテゴリーに分類されてもよい。すなわち、保存されるべき異なる情報に依存して、対応するオーディオ・オブジェクトは異なるカテゴリーに分類される。あるいはまた、カテゴリーは、メタデータにおいて保存されるべき異なる情報の一意的な組み合わせを表わしてもよい。関心のある情報がない他のすべてのオーディオ・オブジェクトは、いくつかの場合には、一つのカテゴリーまたは複数のカテゴリーに含まれてもよい。例示的実施形態の範囲はこれに関して限定されない。
【0025】
カテゴリーは、手動の割り当て、自動的な割り当てまたはそれらの組み合わせによって与えられてもよい。たとえば、ユーザーまたはオーディオ・エンジニアは、異なる種類のメタデータに関連付けられたオーディオ・オブジェクトを異なるフラグによってラベル付けしてもよく、するとそれらのラベル付けされたオーディオ・オブジェクトはそのフラグに従って異なるカテゴリーに分類されてもよい。もう一つの例として、メタデータにおいて保存されるべき情報は、自動的に同定されてもよい。ユーザーまたはオーディオ・エンジニアが、ダイアログ・オブジェクトを分離する、異なるダイアログ言語を分離するおよび/またはゾーン・マスクの異なるモードを分離するなど、その選好または期待を事前構成設定してもよい。該事前構成設定に応じて、オーディオ・オブジェクトは異なるカテゴリーに分類されてもよい。
【0026】
O個のオーディオ・オブジェクトがあるとする。分類プロセスにおいて、オーディオ・オブジェクトのメタデータにおいて保存されるべき情報は、(1)ユーザー入力によって与えられるメタデータの手動ラベル、たとえばゾーン・マスクまたはスナップまたはコンテンツ型または言語のラベルから、および/または(2)メタデータの自動的な識別/ラベル付け、たとえばこれに限られないがコンテンツ型の識別情報から、導出されてもよい。可能なカテゴリーの数Nは、導出された情報に従って決定されてもよく、各カテゴリーは、保存されるべき情報の一意的な組み合わせからなる。分類後、各オーディオ・オブジェクトは関連付けられたカテゴリー識別情報noをもちうる。
【0027】
図2を参照するに、オーディオ・オブジェクト・クラスタリングの概略図が示されている。図2に示されるように、メタデータにおける保存されるべき情報に基づいて、複数の入力オーディオ・オブジェクトが五つのカテゴリー、カテゴリー0ないし4に分類される。カテゴリーの一例は下記のように与えられてもよい:
・カテゴリー0:保存されるべき情報のないすべてのオーディオ・オブジェクト;
・カテゴリー1:音楽オブジェクト、ゾーン・マスクなし;
・カテゴリー2:サウンド効果オブジェクト、ゾーン・マスク「サラウンドのみ」をもつ;
・カテゴリー3:英語ダイアログ・オブジェクト;
・カテゴリー4:スペイン語ダイアログ・オブジェクト、ゾーン・マスク「前方のみ」をもつ。
【0028】
入力オーディオ・オブジェクトは一つまたは複数のフレームを含んでいてもよい。フレームは、オーディオ・コンテンツのための処理単位であり、フレームの継続時間は変わることがあり、オーディオ処理システムの構成に依存することがある。分類されるべきオーディオ・オブジェクトは異なるフレームについて時間的に変わることがあり、そのメタデータも変わることがあるので、カテゴリーの数の値も時間とともに変わることがある。保存されるべき異なる種類の情報を表わすカテゴリーは、ユーザーによってまたはデフォルトで事前に定義されてもよく、その場合、一つまたは複数のフレームにおける入力オーディオ・オブジェクトはその情報に基づいてあらかじめ決定されたカテゴリーに分類されてもよい。その後の処理では、分類されたオーディオ・オブジェクトをもつカテゴリーは考慮されてもよく、オーディオ・オブジェクトがないものは無視されてもよい。たとえば、図2において保存されるべき情報のないオーディオ・オブジェクトがないときは、対応するカテゴリー0は省略されてもよい。各カテゴリーに分類されるオーディオ・オブジェクトの数は時間とともに変化することが考えられる。
【0029】
S102では、所定数のクラスターが前記カテゴリーに割り当てられる。所定数は1より大きくてもよく、伝送帯域幅およびオーディオ処理システムの符号化/復号レートに依存してもよい。伝送帯域幅(および/または符号化レートおよび/または復号レート)と出力オーディオ・オブジェクトの誤差基準との間のトレードオフがあってもよい。たとえば、所定数は11または16であってもよい。5、7または20など他の値が決定されてもよく、例示的実施形態の範囲はこれに関して限定されない。
【0030】
いくつかの実施形態では、所定数は同じ処理システム内では変わらなくてもよい。他のいくつかの実施形態では、所定数は処理されるべき異なるオーディオ・ファイルについて変わってもよい。
【0031】
本稿に開示される例示的実施形態では、オーディオ・オブジェクトはまずS101においてメタデータに応じてカテゴリーに分類され、各カテゴリーが保存されるべき異なる情報または保存されるべき異なる情報の一意的な組み合わせを表わしうるようにされる。次いで、それらのカテゴリーにおけるオーディオ・オブジェクトがその後の処理においてクラスタリングされてもよい。所定の全体的な数のクラスターをカテゴリーに割り当てる/割り振るためにはさまざまなアプローチがありうる。いくつかの例示的実施形態では、クラスターの全体的な数はあらかじめ決まっていて固定なので、オーディオ・オブジェクトをクラスタリングする前に、各カテゴリーに割り当てられるべきクラスターの数を決定することが可能である。いくつかの例示的実施形態についてこれから論じる。
【0032】
ある例示的実施形態では、クラスター割り当ては前記複数のオーディオ・オブジェクトの重要性に依存してもよい。具体的には、前記複数のオーディオ・オブジェクトからの前記所定数のオーディオ・オブジェクトが、まず、各オーディオ・オブジェクトの他のオーディオ・オブジェクトに対する重要度に基づいて決定されてもよく、次いで、前記カテゴリーの間での前記所定数のオーディオ・オブジェクトの分配が決定されてもよい。前記所定数のクラスターは、該分配に応じて、対応して、前記カテゴリーに割り当てられる。
【0033】
各オーディオ・オブジェクトの重要性は、そのオーディオ・オブジェクトのコンテンツの型、部分的ラウドネス・レベルまたはエネルギー・レベルの一つまたは複数に関連していてもよい。重要性の高いオーディオ・オブジェクトは、そのオーディオ・オブジェクトが、たとえばその部分的ラウドネス・レベルまたはエネルギー・レベルのため、入力オーディオ・オブジェクトのうちで知覚的に顕著であることを表わしていてもよい。いくつかの使用事例では、コンテンツの一つまたは複数の型が重要とみなされてもよく、すると対応するオーディオ・オブジェクトに高い重要性が与えられてもよい。たとえば、ダイアログ・オブジェクトにはより高い重要性が割り当てられてもよい。各オーディオ・オブジェクトの重要性を決定または定義するための他の多くの仕方があることを注意しておくべきである。たとえば、いくつかのオーディオ・オブジェクトの重要性レベルはユーザーによって指定されてもよい。例示的実施形態の範囲はこれに関して限定されない。
【0034】
所定の全体的なクラスター数がMであるとする。第一段階では、入力オーディオ・オブジェクトの間で最も重要なM個までのオーディオ・オブジェクトが選択される。すべての入力オーディオ・オブジェクトはS101において対応するカテゴリーに分類されるので、第二段階において、それらM個の重要なオーディオ・オブジェクトの、カテゴリーの間での分配が決定されてもよい。あるカテゴリーにそれらM個のオーディオ・オブジェクトのうち何個が分配されるかに基づいて、そのカテゴリーに同数のクラスターが割り当てられてもよい。
【0035】
図2を参照するに、たとえば、最も重要なオーディオ・オブジェクト(丸201として示されている)の11個が、複数の入力オーディオ・オブジェクト(丸201および202の集合として示されている)から決定される。すべての入力オーディオ・オブジェクトを五つのカテゴリー、カテゴリー0ないし4に分類した後には、図2から、四つの最も重要なオーディオ・オブジェクトがカテゴリー0に分類されており、三つの最も重要なオーディオ・オブジェクトがカテゴリー1に分類されており、一つの最も重要なオーディオ・オブジェクトがカテゴリー2に分類されており、二つの最も重要なオーディオ・オブジェクトがカテゴリー3に分類されており、一つの最も重要なオーディオ・オブジェクトがカテゴリー4に分類されていることが見て取れる。その結果、図2に示されるように、カテゴリー0ないし4には、それぞれ4個、3個、1個、2個および1個のクラスターが割り当てられる。
【0036】
諸例示的実施形態のこの例示的実施形態に基づく重要性基準の上記の例はそれほど厳密ではなくてもよいことを注意しておくべきである。すなわち、最も重要なオーディオ・オブジェクトが選択されることは必須ではない。いくつかの実施形態では、重要性閾値が構成設定されてもよい。重要性が閾値より高いオーディオ・オブジェクトのうちから、前記所定数のオーディオ・オブジェクトがランダムに選択されてもよい。
【0037】
重要性基準のほかに、クラスター割り当ては、前記カテゴリーについての全体的な空間的歪みを減らすことに基づいて実行されてもよい。すなわち、前記所定数のクラスターは、前記カテゴリーについての全体的な空間的歪みを減らす、あるいはさらに最小化することに基づいて、前記カテゴリーに割り当てられてもよい。
【0038】
ある例示的実施形態では、カテゴリーについての全体的な空間的歪みは、それらのカテゴリーの個々の空間的歪みの重み付けされた和を含んでいてもよい。対応するカテゴリーの重みは、そのカテゴリーの重要性またはそのカテゴリーに関連付けられた保存されるべき情報の重要性を表わしていてもよい。たとえば、より高い重要性をもつカテゴリーはより大きな重みを有していてもよい。別の実施形態では、それらのカテゴリーについての全体的な空間的歪みは、それらのカテゴリーの個々の空間的歪みの間での最大の空間的歪みを含んでいてもよい。最大だけが選択されることは必須ではないことが考えられるべきであり、いくつかの実施形態では、二番目に大きな空間的歪み、三番目に大きな空間的歪みなどといった前記カテゴリーの間での他の空間的歪みが全体的な空間的歪みとみなされてもよい。
【0039】
各カテゴリーについての空間的歪みは、そのカテゴリーに含まれるオーディオ・オブジェクトの歪みレベルによって表わされてもよく、各オーディオ・オブジェクトの歪みレベルは、そのもとの空間位置とクラスタリングされた後の位置との間の差によって測られてもよい。一般に、オーディオ・オブジェクトのクラスタリングされた位置は、それが割り振られるクラスター(単数または複数)の空間位置に依存する。この意味で、各カテゴリーについての空間的歪みは、そのカテゴリー内の各オーディオ・オブジェクトのもとの空間位置およびクラスター(単数または複数)の空間位置に関連している。オーディオ・オブジェクトのもとの空間位置はオーディオ・オブジェクトのメタデータに含まれていてもよく、たとえば3つのデカルト座標からなっていてもよい(あるいは同様にたとえば、極座標または円柱および球面座標、斉次座標、ライン数座標などからなっていてもよい)。ある実施形態では、各カテゴリーについての空間的歪みを計算するために、カテゴリー内の各オーディオ・オブジェクトの再構成された空間位置が、クラスター(単数または複数)の空間位置に基づいて決定されてもよい。次いで、各カテゴリーについての空間的歪みが、カテゴリー内の各オーディオ・オブジェクトのもとの空間位置とオーディオ・オブジェクトの再構成された空間位置との間の距離に基づいて計算されてもよい。オーディオ・オブジェクトの再構成された空間位置は、一つまたは複数の対応する空間的クラスターによって表わされるオーディオ・オブジェクトの空間位置である。再構成された空間位置の決定の一つの例示的なアプローチを以下に述べる。
【0040】
全体的な空間的歪みを得るために、異なるクラスター数に関する空間的歪みがまず、各カテゴリーについて計算されてもよい。オーディオ・オブジェクトのカテゴリーについての空間的歪みを決定するための多くのアプローチがある。一つのアプローチが、下記で例として与えられる。オーディオ・オブジェクトの(よってカテゴリーの)空間的歪みを測定する他の既存の仕方が適用されてもよいことを注意しておくべきである。
【0041】
カテゴリーnについて、空間位置
【数1】
をもつMn個のクラスター重心があり、{Cn(1),Cn(2),…,Cn(Mn)}と表わすとする。dis(on(i),{Cn(1),Cn(2),…,Cn(Mn)})が、オーディオ・オブジェクトon(i)についての、Mn個のクラスター重心にクラスタリングするときの空間的歪みを表わしてもよい(この場合、あるカテゴリー内のオーディオ・オブジェクトは、そのカテゴリーに関連付けられたクラスターにのみ割り振られるとする)。カテゴリーnについての空間的歪みは、次のように表現されてもよい:
【数2】
ここで、Onはカテゴリーnにおけるオーディオ・オブジェクトの数を表わし、on(i)カテゴリーnにおけるi番目のオーディオ・オブジェクトを表わす。いくつかの実施形態では、Cn(m)はカテゴリー内でm番目に大きな重要性をもつオーディオ・オブジェクトの空間位置であってもよく、Cn(m)の空間位置はそのオーディオ・オブジェクトの空間位置であってもよい。空間的歪みdis(on(i),{Cn(1),Cn(2),…,Cn(Mn)})は、各オーディオ・オブジェクトon(i)の空間位置
【数3】
と、Mn個のクラスターにクラスタリングされた場合のそのオーディオ・オブジェクトの再構成された空間位置
【数4】
との間の距離(または距離の二乗)によって決定されてもよい。
【0042】
各カテゴリーについての空間的歪みが得られると、ある実施形態では、それらのカテゴリーについての全体的な空間的歪みが、上述したようにそれらのカテゴリーの個々の空間的歪みの重み付けされた和として決定されてもよい。たとえば、全体的な空間的歪みは次式のように決定されてもよい:
【数5】
ここで、Nは全体的なカテゴリーの数を表わす。各カテゴリーについての利得anはあらかじめ決定されていてもよく、対応するカテゴリーの、またはそのカテゴリーに関連付けられたメタデータにおいて保存されるべき情報の重要性を表わしていてもよい。
【0043】
もう一つの実施形態では、前記カテゴリーについての全体的な空間的歪みは、それらのカテゴリーの個々の空間的歪みの間の最大の空間的歪みとして決定されてもよい。たとえば、全体的な空間的歪みは次式のように決定されてもよい:
【数6】
このようにして、各カテゴリーについて割り当てられるべきクラスターの数Mnは、全体的な空間的歪みメトリックを低下させるまたは最小化することに基づいて決定されてもよく、ここで、
【数7】
という制約条件がある。すなわち、割り当てられるクラスターの全体的な数は、前記所定数Mに等しい。
【0044】
前記入力オーディオ・オブジェクトは一般に、オーディオ信号の一つのフレーム内にある。オーディオ信号の典型的な動的な性質のため、またオーディオ・オブジェクト数は各カテゴリーにおいて変化することを考えると、各カテゴリーに割り当てられるクラスターの数は典型的には時間とともに変わりうる。各カテゴリーについての変化したクラスター数は、何らかの不安定性問題を引き起こすことがあるので、クラスター数一貫性を考慮する修正された空間的歪みがコスト・メトリックにおいて利用される。結果として、コスト・メトリックは時間の関数として定義されてもよい。具体的には、各カテゴリーについての空間的歪みはさらに、現在フレームにおいてそのカテゴリーに割り当てられるクラスターの数と前のフレームにおいてそのカテゴリーに割り当てられたクラスターの数との間の差に基づく。これに関し、式(2)における全体的な空間的歪みは、下記のように修正されてもよい:
【数8】
式(3)における全体的な空間的歪みは下記のように修正されてもよい:
【数9】
式(4)および(5)において、Mnは現在フレームにおけるカテゴリーnのクラスター数を表わし、Mn'は前記前のフレームにおけるカテゴリーnのクラスター数を表わし、f(Dn(Mn),Mn,Mn')は修正された全体的な空間的歪みを表わす。
【0045】
カテゴリーに割り当てられたクラスター数が現在フレームにおいて、前記前の空間的歪みと比べて変化する場合、クラスター数の変化を防ぐよう、修正された空間的歪みが増大させられてもよい。ある実施形態では、f(Dn(Mn),Mn,Mn')は下記のように決定されてもよい:
【数10】
ここで、β1は正の値をもつパラメータを表わす。修正された空間的歪みを用いると、各カテゴリーについてクラスター数変化についてのペナルティーがある。したがって、クラスター数の変動によって導入される空間的不安定性が軽減できる。
【0046】
カテゴリーのクラスター数の低減のほうが、クラスター数の増大よりも空間的不安定性を導入する可能性が高いので、もう一つの実施形態では、f(Dn(Mn),Mn,Mn')は下記のように決定されてもよい:
【数11】
ここで、β2は1より大きな値をもつパラメータを表わす。この実施形態においては、クラスター数減少についての大きなペナルティーがある。特に、減少させられたクラスター数をもつカテゴリーの空間的歪みが大きいときにそうである。したがって、減少したクラスター数によって導入される空間的不安定性が軽減できる。
【0047】
上記の記述において、全体的な空間的歪みを低下させることに基づくクラスター割り当てに関し、各カテゴリーについての最適なクラスター数を決定することに、大量の計算努力が関わることがある。各カテゴリーについてクラスター数を効率的に決定するために、ある実施形態では、逐次反復プロセスが提案される。すなわち、各カテゴリーの最適なクラスター数が、クラスター割り当てプロセスの各反復工程におけるコスト低減を最大にすることによって推定される。それにより、前記カテゴリーについての全体的な空間的歪みが、逐次反復的に低減される、またさらには最小化されることがありうる。
【0048】
1から所定のクラスター数Mまで逐次反復することによって、各反復工程において、一つまたは複数のクラスターが、それを最も必要とするカテゴリーに割り当てられていく。(m-1)番目およびm番目の反復工程における全体的な空間的歪みとしてCost(m-1)およびCost(m)と記す。m番目の反復工程では、一つまたは複数の新しいクラスターが、全体的な空間的歪みを最も減らすことのできるカテゴリーn*に割り当てられてもよい。したがって、n*は、全体的な空間的歪みの削減を拡大するまたは最大にすることによって決定されてもよい。このことは下記のように表わされてもよい:
【数12】
逐次反復プロセスは、現在の反復工程および前の反復工程におけるあるカテゴリーについての空間的歪みの間の差または前の反復工程におけるあるカテゴリーについての空間的歪みの量の少なくとも一方に基づいていてもよい。
【0049】
諸カテゴリーのすべての空間的歪みの重み付けされた和によって得られる全体的な空間的歪みについて、逐次反復プロセスは、現在の反復工程および前の反復工程におけるあるカテゴリーについての空間的歪みの間の差に基づいていてもよい。各反復工程において、少なくとも一つのクラスターがあるカテゴリーに割り当てられ、該カテゴリーは、そのカテゴリーが前記少なくとも一つのクラスターと一緒に割り当てられる場合に現在の反復工程におけるその空間的歪みが前の反復工程におけるその空間的歪みより(ある第一の所定のレベルに従って)十分に低くなるようなカテゴリーであってもよい。ある実施形態では、前記少なくとも一つのクラスターは、前記少なくとも一つのクラスターと一緒に割り当てられる場合に最も低減した空間的歪みをもつカテゴリーに割り当てられてもよい。たとえば、この実施形態では、n*は次のように決定されてもよい:
【数13】
ここで、Mn*,m-1およびDn*(Mn*,m-1)は(m-1)番目の反復工程後のカテゴリーn*についてのクラスター数および空間的歪みを表わす。Mn*,m-1+1は、この反復工程においてカテゴリーn*に一つの新しいクラスターが割り当てられる/加えられる場合にm番目の反復工程におけるカテゴリーn*のクラスター数を表わし、Dn*(Mn*,m-1+1)はm番目の反復工程におけるカテゴリーn*についての空間的歪みを表わす。各反復工程において、二つ以上の新しいクラスターが割り当てられてもよく、カテゴリーn*は同様に決定されてもよいことを注意しておく。
【0050】
すべてのカテゴリーの間での最大の空間的歪みとして決定される全体的な空間的歪みについては、逐次反復プロセスは、前の反復工程におけるあるカテゴリーについての空間的歪みの量に基づいていてもよい。各反復工程において、少なくとも一つのクラスターが、前の反復工程において第二の所定のレベルより高い空間的歪みをもつカテゴリーに割り当てられてもよい。ある実施形態では、前記少なくとも一つのクラスターは、前の反復工程において最大の空間的歪みをもつカテゴリーに割り当てられてもよい。たとえば、この実施形態において、n*は次のように決定されてもよい:
【数14】
前の反復工程における最大の空間的歪みをもつカテゴリーが現在の反復工程においてその空間的歪みを低減される(もし現在の反復工程において一つまたは複数のクラスターが割り当てられればであるが)ので、すべてのカテゴリーの間での最大の空間的歪みによって決定される全体的な空間的歪みも現在の反復工程において低減されうる。
【0051】
式(9)および(10)において与えられる決定は、一つの逐次反復プロセスにおいて合同して使われてもよいことを注意しておく。たとえば、ある反復工程ではこの反復工程において新たなクラスター(単数または複数)を割り当てるために式(9)が使われてもよい。別の反復工程では他の新たなクラスター(単数または複数)を割り当てるために式(10)が使われてもよい。
【0052】
クラスター割り当ての二つの仕方を上記した。一方はオーディオ・オブジェクトの重要性に基づき、他方は全体的な空間的歪みを減らすことに基づく。追加的または代替的に、ユーザー入力も、クラスター割り当てを案内するために使用されうる。ユーザーは異なる使用事例について異なるコンテンツについて異なる要求をもつことがあるので、これはクラスタリング・プロセスの柔軟性を大幅に改善しうる。いくつかの実施形態では、クラスター割り当ては、さらに:各カテゴリーに割り当てられるべきクラスターの数についての第一の閾値、各カテゴリーについての空間的歪みについての第二の閾値または各カテゴリーの他のカテゴリーと比しての重要性のうちの一つまたは複数に基づいていてもよい。
【0053】
第一の閾値は、各カテゴリーに割り当てられるべきクラスターの数についてあらかじめ定義されていてもよい。第一の閾値は、各カテゴリーについて所定の最小または最大クラスター数であってもよい。たとえば、ユーザーは、あるカテゴリーはある最小数のクラスターをもつべきであると指定してもよい。この場合、割り当てのプロセスの間、少なくともその指定された数のクラスターがそのカテゴリーに割り当てられるべきである。最大閾値が設定される場合には、高々、指定された数のクラスターがそのカテゴリーに割り当てられることができる。第二の閾値は、あるカテゴリーについての空間的歪みが合理的なレベルにまで低減されることを保証するために設定されてもよい。各カテゴリーの重要性もユーザーによって指定されてもよく、あるいはそのカテゴリーにおいて分類されるオーディオ・オブジェクトの重要性に基づいて決定されてもよい。
【0054】
いくつかの場合には、あるカテゴリーについての空間的歪みは、クラスター割り当てがなされた後には高いことがあり、これは可聴なアーチファクトを導入することがある。この問題に対処するために、いくつかの実施形態では、あるカテゴリーにおける少なくとも一つのオーディオ・オブジェクトが、そのカテゴリーについての空間的歪みに基づいて別のカテゴリーに分類し直されてもよい。ある例示的実施形態では、前記カテゴリーのうちの一つのカテゴリーの空間的歪みが所定の閾値より高い場合、該空間的歪みが前記閾値より小さく(またはそれに等しく)なるまで、そのカテゴリー内のいくつかのオーディオ・オブジェクトが別のカテゴリーに分類し直されてもよい。いくつかの例では、オーディオ・オブジェクトは、図2におけるカテゴリー0のような、メタデータにおいて保存されるべき情報のないオーディオ・オブジェクトを含むカテゴリーに分類し直されてもよい。クラスター割り当てが逐次反復プロセスにおいて全体的な空間的歪みを最小化することに基づくいくつかの実施形態では、オブジェクト再割り振りも、当該カテゴリーについて空間的歪みの基準が満たされるまで、各反復工程において最大の空間的歪みdis(on(i),{Cn(1),Cn(2),…,Cn(Mn)})をもつオーディオ・オブジェクトが再分類される逐次反復プロセスであってもよい。
【0055】
オーディオ信号の典型的な動的な性質のため、オーディオ・オブジェクトの重要性または空間位置は(よって空間的歪みも)時間とともに変化する。結果として、クラスター割り当ては時間変化することがあり、その場合、各カテゴリーに割り振られるクラスターの数は時間とともに変わりうる。この場合、クラスターmに関連するカテゴリー識別情報は時間とともに変化しうる。特に、クラスターmは、第一のフレームの間、ある言語(たとえばスペイン語)を表わしていてもよく、一方、第二のフレームについてはカテゴリー識別情報を、よって言語を変化させてもよい(たとえば英語)。これは、言語が動的に変化するのではなくチャネルに静的に結びつけられているレガシーのチャネル・ベースのシステムとは対照的である。
【0056】
S102でのクラスター割り当てが上記で述べられた。
【0057】
図1の参照に戻ると、S103において、前記カテゴリーのそれぞれにおけるオーディオ・オブジェクトが前記割り当てに基づいて前記クラスターのうちの少なくとも一つに割り振られる。
【0058】
以下の記述では、S101においてオーディオ・オブジェクトがカテゴリーに分類され、S102において各カテゴリーにクラスターが割り当てられた後に、オーディオ・オブジェクトをクラスタリングするための二つのアプローチが提供される。
【0059】
一つのアプローチでは、各カテゴリーにおけるオーディオ・オブジェクトは、それらのカテゴリーに関連付けられた歪みコストを減らすことに基づいて、それらのカテゴリーの一つまたは複数に割り当てられたクラスターの少なくとも一つに割り振られてもよい。すなわち、各カテゴリーに割り当てられたクラスターの数における制限のため、歪みコストを低下させ、複雑なオーディオ・コンテンツについてのアーチファクトを避けるためにクラスターおよびカテゴリーを横断したいくらかの漏れが許容される。このアプローチは、ファジー・カテゴリー・クラスタリングと称されてもよい。このファジー・カテゴリー・クラスタリング・アプローチでは、あるオーディオ・オブジェクトが、異なるカテゴリーにおける異なるクラスターへの利得および対応するコストを用いて、ソフトに分割されてもよい。クラスタリング・プロセスの間、全体的な空間的歪みならびにカテゴリー内のオブジェクトを異なるカテゴリーのクラスターに割り振る不利益もしくは不一致に関して、歪みコストが極小であることが期待される。したがって、クラスター予算とオーディオ・コンテンツの複雑さとの間にトレードオフがある。ファジー・カテゴリー・クラスタリング・アプローチは、ゾーン・マスクおよびスナップのようなメタデータをもつオーディオ・オブジェクトについて好適でありうる。それらについては、他のメタデータとの厳密な分離が要求されないからである。ファジー・カテゴリー・クラスタリング・アプローチは、以下のように記述されうる。
【0060】
ファジー・カテゴリー・クラスタリング・アプローチでは、各カテゴリーに割り当てられるクラスター数はS102において、オーディオ・オブジェクトの重要性に基づいて、あるいは全体的な空間的歪みを最小化することに基づいて、決定されてもよい。重要性に基づくクラスター割り当てについては、いかなるクラスターも割り当てられないいくつかのカテゴリーがあることがある。これらの場合、オーディオ・オブジェクトをクラスタリングするときにファジー・カテゴリー・クラスタリング・アプローチが適用されてもよい。オブジェクトは他のカテゴリーのクラスター(単数または複数)にソフトにクラスタリングされてもよいからである。クラスター割り当ての段階において適用されるアプローチと、オーディオ・オブジェクト・クラスタリングの段階において適用されるアプローチとの間には必要な相関がなくてもよい。
【0061】
ファジー・カテゴリー・クラスタリング・アプローチでは、歪みコストは:(1)各オーディオ・オブジェクトのもとの空間位置
【数15】
(2)各オーディオ・オブジェクトが分類されるカテゴリーの識別情報no、(3)各クラスターの空間位置
【数16】
あるいはより具体的には、そのオーディオ・オブジェクトが割り振られるクラスター(単数または複数)の空間位置、または(4)各クラスターに関連付けられるカテゴリーの識別情報nmのうちの一つまたは複数に関連付けられているコスト関数として表現されてもよい。一例では、あるクラスターのクラスタリングされたオーディオ・オブジェクトは、利得go,mを使ってそれに分配されたすべての入力オーディオ・オブジェクトによって決定されてもよく、次のように表わされてもよい:
【数17】
ここで、Oは入力オーディオ・オブジェクトの数を表わし、ymはm番目のクラスターのクラスタリングされたオーディオ・オブジェクトを表わし、xoはo番目の入力オーディオ・オブジェクトを表わし、利得o,m
【数18】
として表わされてもよい。たとえば、図2に示されるように、カテゴリー1内のオーディオ・オブジェクトは、クラスターが割り当てられているカテゴリーに関わりなくすべての11個のクラスターに、対応する利得をもってクラスタリングされてもよい。
【0062】
いくつかの実施形態では、利得go,mは、
【数19】
の一つまたは複数に関連付けられているコスト関数を最小化することによって決定されてもよい。コスト関数は、各オーディオ・オブジェクトのもとの空間位置
【数20】
と、オーディオ・オブジェクトが割り振られるクラスターの空間位置
【数21】
との間の距離に基づいていてもよい。
【0063】
【数22】
は、上記で論じたように、m番目のカテゴリー内で最大の重要性をもつオーディオ・オブジェクトの空間位置として決定されてもよい。たとえば、
【数23】
の間の距離ができるだけ小さいことが望まれる。代替的または追加的に、コスト関数は、各オーディオ・オブジェクトが分類されるカテゴリーの識別情報noと、そのオーディオ・オブジェクトが割り振られるクラスターに関連付けられたカテゴリーの識別情報nmとの間の不一致に関連付けられていてもよい。一般に、オーディオ・オブジェクトは、同じカテゴリー内にクラスタリングされることが所望され、その場合、そのコストは小さくなりうる。
【0064】
いくつかの実施形態では、コスト関数は、
【数24】
の二次多項式を使って累積的な寄与として表現されてもよく、該コスト関数から、グローバルな最小値が、利得go,mとして決定されてもよい。詳細な議論は以下のようにして与えられてもよい。
【0065】
コスト関数は典型的には、ある種の追加的な基準のもとに最小化されてもよい。オーディオ信号を割り振る際、一つの基準は、入力オーディオ・オブジェクトの合計された振幅またはエネルギーを維持するということであってもよい。たとえば、
【数25】
ここで、αは1から2までの間の値であってもよい。任意のオーディオ・オブジェクトoについて、すべてのM個のクラスターに対応する利得go,mは、上式に従ってもよい。
【0066】
以下では、コスト関数Eを論じてもよい。コスト関数を最小化することによって、利得go,mが決定されうる。
【0067】
コスト関数は、上述したように、
【数26】
の間の距離に関連付けられていてもよく、これがコスト関数における第一項EDとみなされてもよく、
【数27】
として決定されてもよい。
【0068】
コスト関数は、
【数28】
の間の不一致にも関連付けられていてもよく、これがコスト関数における第二項ECとみなされてもよい。ECは、異なるカテゴリー内のクラスターを横断してオーディオ・オブジェクトをクラスタリングすることのコストを表わしてもよく、次のように決定されてもよい:
【数29】
ここで、nm!=n0は次のように決定されてもよい:
【数30】
上述したように、コスト関数を最小化するときに、一つの基準は、入力オーディオ・オブジェクトの合計された振幅またはエネルギーを維持することである。したがって、コスト関数はエネルギーの利得または損失にも関連していてもよい;すなわち、特定のオーディオ・オブジェクトについての利得の和と+1からの逸脱である。逸脱は、コスト関数における第三項ENとみなされてもよく、それは次のように決定されてもよい:
【数31】
さらに、コスト関数は、各オーディオ・オブジェクトのもとの空間位置
【数32】
と、そのオーディオ・オブジェクトの再構成された空間位置
【数33】
との間の距離に基づいていてもよい。この再構成された空間位置は、そのオーディオ・オブジェクトが利得go,mをもってクラスタリングされるクラスターの空間位置
【数34】
に従って決定されてもよい。たとえば、これは次のように決定されてもよい:
【数35】
【数36】
の間の距離は、コスト関数における第四項EPとみなされてもよく、次のように表わされてもよい:
【数37】
第一、第二、第三および第四項によれば、コスト関数はこれらの項の重み付けされた和として表現されてもよく、次のように表わされてもよい:
【数38】
ここで、重みwD、wC、wN、wPはコスト関数における異なる項の重要性を表わしてもよい。
【0069】
コスト関数におけるこれら四つの項に基づいて、利得go,mが決定されうる。利得go,mについての計算の例を以下に与える。計算の他の方法も可能であることを注意しておくべきである。
【0070】
M個のクラスターについてのo番目のオーディオ・オブジェクトの利得go,mは、ベクトルとして書かれてもよい:
【数39】
M個のクラスターの空間位置は行列として書かれてもよい:
【数40】
オーディオ・オブジェクトのもとの空間位置についての行列も次のように構築されてもよい:
【数41】
オーディオ・オブジェクトのもとの空間位置と再構成された空間位置との間の距離を表わす第一項EDは次のように定式化し直されてもよい:
【数42】
ここで、ΛDは対角要素
【数43】
をもつ対角行列を表わす。
【0071】
オーディオ・オブジェクトのnoとnmとの間の不一致を表わす第二項ECは次のように定式化し直されてもよい:
【数44】
ここで、ΛCは対角要素λmm=(nm!=no)をもつ対角行列を表わす。
【0072】
オーディオ・オブジェクトの利得の和と+1の逸脱を表わす第三項ENは次のように定式化し直されてもよい:
【数45】
ここで、JN,Mは次元(N,M)をもつ全部1の行列を表わす。
【0073】
オーディオ・オブジェクトのもとの空間位置と再構成された空間位置との間の距離を表わす第四項EPは次のように定式化し直されてもよい:
【数46】
上記の式(23)~(26)を組み合わせることにより、コスト関数は次のように表わされてもよい:
【数47】
上記で論じたように、コスト関数における最小を得ることが望ましく、それは
【数48】
によって決定されうる。これは次式を与える。
【数49】
最後に、ベクトルgoは次のように決定されうる:
【数50】
上記の式を計算することにより、M個のクラスターの間でのo番目のオーディオ・オブジェクトについての利得が決定されうる。
【0074】
o番目のオーディオ・オブジェクトはM個のクラスターに、決定された利得ベクトル
【数51】
をもってクラスタリングされてもよい。決定された利得ベクトルに依存して、オーディオ・オブジェクトは、それが分類される一つのカテゴリーまたは異なるカテゴリーの一つのクラスターのみにクラスタリングされてもよく、あるいはそれが分類される一つのカテゴリーのまたは複数の異なるカテゴリーの複数のクラスターにクラスタリングされてもよいことは理解できる。
【0075】
オーディオ・オブジェクトの再構成された空間位置は、上記利得ベクトルが決定されたときに式(17)によって得られてもよい。これに関し、利得を決定するプロセスは、再構成された空間位置を、よって各カテゴリーの空間位置を決定するよう上記された全体的な空間的歪みを最小にすることに基づいて、クラスター割り当てにおいても適用されてもよい。
【0076】
コスト関数において最小を決定するために例として二次多項式が使われていることを注意しておくべきである。他の例示的実施形態では、他の多くの指数値、たとえば1、1.5、3なども使われてもよい。
【0077】
オーディオ・オブジェクト・クラスタリングのためのファジー・カテゴリー・クラスタリング・アプローチが上記された。もう一つのアプローチでは、各カテゴリーにおけるオーディオ・オブジェクトは、そのカテゴリーに割り当てられるクラスターのうちの少なくとも一つに、そのカテゴリーに関連付けられた空間的歪みコストを減らすことに基づいて、割り振られてもよい。すなわち、カテゴリーを横断する漏れは許容されない。オーディオ・オブジェクト・クラスタリングは、各カテゴリー内で実行され、オーディオ・オブジェクトは、別のカテゴリーに割り当てられたクラスターにはグループ化され得ない。このアプローチは、ハード・カテゴリー・クラスタリング・アプローチと称されてもよい。このアプローチが適用されるいくつかの実施形態では、オーディオ・オブジェクトは、そのオーディオ・オブジェクトに対応するカテゴリーに割り当てられたクラスターの二つ以上に割り振られてもよい。あるさらなる実施形態では、クラスターを横断した漏れは許容されず、オーディオ・オブジェクトは、対応するカテゴリーに割り当てられたクラスターのうちの一つだけに割り振られてもよい。
【0078】
ハード・カテゴリー・クラスタリング・アプローチは、ダイアログ置換またはダイアログ向上といった、オーディオ・オブジェクト(ダイアログ・オブジェクト)が他と分離されていることを要求するいくつかの個別的な用途に好適でありうる。
【0079】
ハード・カテゴリー・クラスタリング・アプローチでは、あるカテゴリー内のオーディオ・オブジェクトは他のカテゴリーの一つまたは複数のクラスターにはクラスタリングされ得ないので、前のクラスター割り当てにおいて、各カテゴリーに少なくとも一つのクラスターが割り当てられていることが期待される。この目的のために、いくつかの実施形態では、上記した全体的な空間的歪みを最小にすることによるクラスター割り当てがより好適であることがある。他の実施形態では、ハード・カテゴリー・クラスタリングが適用されるときに、重要性に基づくクラスター割り当ても使われてもよい。上記で論じたように各カテゴリーに少なくとも一つのクラスターが割り当てられることを保証するように、いくつかの追加的な条件がクラスター割り当てにおいて使用されてもよい。たとえば、クラスターの最小閾値または各カテゴリーについての空間的歪みの最小閾値が利用されてもよい。
【0080】
カテゴリーは同じ種類のメタデータを表わすので、カテゴリー内では、オーディオ・オブジェクトは、一つまたは複数の例示的実施形態において、ただ一つのクラスター内にまたは複数のクラスター内にクラスタリングされうる。たとえば図2に示されるように、カテゴリー1のオーディオ・オブジェクトはクラスター4、5または6の一つまたは複数にクラスタリングされてもよい。あるオーディオ・オブジェクトが一つのカテゴリー内の複数のクラスターにクラスタリングされるシナリオでは、対応する利得も、そのカテゴリーに関連する歪みコストを低下させる、またさらには最小化するよう決定されてもよい(これはファジー・カテゴリー・クラスタリング・アプローチに関して述べたのと同様であってもよい)。違いは、決定が一つのカテゴリー内で実行されるという点にある。いくつかの実施形態では、各入力オーディオ・オブジェクトは、そのカテゴリーに割り当てられたただ一つのクラスターにクラスタリングされることが許容されうる。
【0081】
オーディオ・クラスタリングについての二つのアプローチを上記で論じた。これら二つのアプローチが別個にまたは組み合わせて利用されうることを注意しておくべきである。たとえば、S101におけるオーディオ・オブジェクト分類およびS102におけるクラスター割り当ての後、カテゴリーのいくつかについて、それらの中で諸オーディオ・オブジェクトをクラスタリングするためにファジー・カテゴリー・クラスタリング・アプローチが適用されてもよく;残りのカテゴリーについては、ハード・カテゴリー・クラスタリング・アプローチが適用されてもよい。すなわち、いくつかのカテゴリー内ではカテゴリーを横断したいくらかの漏れが許容可能であってもよく、他のカテゴリーについてはカテゴリーをまたがる漏れは許容可能でない。
【0082】
入力オーディオ・オブジェクトがクラスターに割り振られた後、各クラスターについて、オーディオ・オブジェクトが組み合わされてクラスタリングされたオーディオ・オブジェクトが得られてもよく、各クラスターにおけるオーディオ・オブジェクトのメタデータが組み合わされて、クラスタリングされたオーディオ・オブジェクトのメタデータが得られてもよい。クラスタリングされたオーディオ・オブジェクトは、クラスター内のすべてのオーディオ・オブジェクトの、対応する利得を用いた重み付けされた和であってもよい。クラスタリングされたオーディオ・オブジェクトのメタデータは、いくつかの例ではそのカテゴリーを表わす対応するメタデータであってもよく、あるいは他の例では、クラスターまたはそのカテゴリーのうちでの任意のオーディオ・オブジェクトまたは最も重要なオーディオ・オブジェクトのメタデータであってもよい。
【0083】
すべての入力オーディオ・オブジェクトは、オーディオ・オブジェクト・クラスタリング前のメタデータにおける保存されるべき情報に依存して対応するカテゴリーに分類されているので、異なる保存されるべきメタデータまたは保存されるメタデータの一意的な組み合わせは、異なるカテゴリーに関連付けられる。クラスタリング後、あるカテゴリー内のオーディオ・オブジェクトについて、異なるメタデータに関連付けられたオーディオ・オブジェクトと混合される可能性が少なくなる。これに関し、オーディオ・オブジェクトのメタデータは、クラスタリング後に保存されることができる。さらに、クラスター割り当ておよびオーディオ・オブジェクト割り振りプロセスの間に、空間的歪みまたは歪みコストが考慮される。
【0084】
図3は、ある例示的実施形態に基づくメタデータが保存されるオーディオ・オブジェクト・クラスタリングのためのシステム300のブロック図を描いている。図3に描かれるように、システム300は、複数のオーディオ・オブジェクトを、該複数のオーディオ・オブジェクトに関連付けられたメタデータにおいて保存されるべき情報に基づいていくつかのカテゴリーに分類するよう構成されたオーディオ・オブジェクト分類ユニット301を有する。システム300はさらに、所定数のクラスターをそれらのカテゴリーに割り当てるよう構成されたクラスター割り当てユニット302と、それらのカテゴリーのそれぞれにおけるオーディオ・オブジェクトを前記割り当てに基づいて前記クラスターのうちの少なくとも一つに割り振るよう構成されたオーディオ・オブジェクト割り振りユニット303とを有する。
【0085】
いくつかの実施形態では、前記情報は、オーディオ・オブジェクトのサイズ情報、ゾーン・マスク情報、スナップ情報、コンテンツ型またはレンダリング・モードの一つまたは複数を含んでいてもよい。
【0086】
いくつかの実施形態では、オーディオ・オブジェクト分類ユニット301はさらに、保存されるべき情報のないオーディオ・オブジェクトを一つのカテゴリーに分類し;保存されるべき異なる情報をもつオーディオ・オブジェクトを異なるカテゴリーに分類するよう構成されていてもよい。
【0087】
いくつかの実施形態では、クラスター割り当てユニット302さらに:前記複数のオーディオ・オブジェクトから前記所定数のオーディオ・オブジェクトを、各オーディオ・オブジェクトの他のオーディオ・オブジェクトに対する重要性に基づいて決定するよう構成された重要度ベースの決定ユニットと;前記所定数のオーディオ・オブジェクトの前記カテゴリーの間での分配を決定するよう構成された分配決定ユニットとを有していてもよい。これらの実施形態では、クラスター割り当てユニット302はさらに、前記分配に基づいて前記所定数のクラスターを前記カテゴリーに割り当てるよう構成されていてもよい。
【0088】
いくつかの実施形態では、クラスター割り当てユニット302はさらに、前記所定数のクラスターを、前記カテゴリーについての全体的な空間的歪みを減らすことに基づいて、前記カテゴリーに割り当てるよう構成されていてもよい。
【0089】
いくつかの実施形態では、前記カテゴリーについての前記全体的な空間的歪みは、前記カテゴリーの個々の空間的歪みの間での最大の空間的歪み、あるいは前記カテゴリーの個々の空間的歪みの重み付けされた和を含んでいてもよい。各カテゴリーについての空間的歪みは、そのカテゴリーにおける各オーディオ・オブジェクトのもとの空間位置と前記クラスターのうち少なくとも一つのクラスターの空間位置とに関連付けられていてもよい。
【0090】
いくつかの実施形態では、各オーディオ・オブジェクトの再構成された空間位置が、前記少なくとも一つのクラスターの空間位置に基づいて決定されてもよく、各カテゴリーについての空間的歪みが、そのカテゴリーにおける各オーディオ・オブジェクトのもとの空間位置とそのオーディオ・オブジェクトの再構成された空間位置との間の距離に基づいて決定されてもよい。
【0091】
いくつかの実施形態では、前記複数のオーディオ・オブジェクトは、オーディオ信号の一つのフレーム内であってもよく、各カテゴリーについての空間的歪みは、さらに、現在フレームにおいてそのカテゴリーに割り当てられるクラスターの数と前のフレームにおいてそのカテゴリーに割り当てられたクラスターの数との間の差に基づいていてもよい。
【0092】
いくつかの実施形態では、クラスター割り当てユニット302はさらに、前記カテゴリーについての全体的な空間的歪みを:前の反復工程におけるあるカテゴリーについての空間的歪みの量または現在の反復工程と前の反復工程におけるあるカテゴリーについての空間的歪みの間の差のうちの少なくとも一方に基づいて、逐次反復的に減らすよう構成されていてもよい。
【0093】
いくつかの実施形態では、クラスター割り当てユニット302はさらに、前記所定数のクラスターを前記カテゴリーに割り当てることを:各カテゴリーに割り当てられるクラスターの数についての第一の閾値、各カテゴリーについての空間的歪みについての第二の閾値または各カテゴリーの他のカテゴリーに対する重要性のうちの一つまたは複数に基づいて実行するよう構成されていてもよい。
【0094】
いくつかの実施形態では、システム300はさらに、あるカテゴリーにおける少なくとも一つのオーディオ・オブジェクトを、そのカテゴリーについての空間的歪みに基づいて別のカテゴリーに分類し直すよう構成されたオーディオ・オブジェクト再分類ユニットを有していてもよい。
【0095】
いくつかの実施形態では、オーディオ・オブジェクト割り振りユニット303はさらに、各カテゴリーにおけるオーディオ・オブジェクトをそのカテゴリーに割り当てられたクラスターの少なくとも一つに割り振ることを、そのカテゴリーに関連する歪みコストを減らすことに基づいて行なってもよい。
【0096】
いくつかの実施形態では、オーディオ・オブジェクト割り振りユニット303はさらに、各カテゴリーにおけるオーディオ・オブジェクトを前記カテゴリーの一つまたは複数に割り当てられたクラスターの少なくとも一つに割り振ることを、それらのカテゴリーに関連する歪みコストを減らすことに基づいて行なってもよい。
【0097】
いくつかの実施形態では、前記歪みコストは、各オーディオ・オブジェクトのもとの空間位置、前記少なくとも一つのクラスターの空間位置、各オーディオ・オブジェクトが分類されるカテゴリーの識別情報または前記少なくとも一つのクラスターが割り当てられる各カテゴリーの識別情報のうちの一つまたは複数に関連付けられていてもよい。
【0098】
いくつかの実施形態では、前記歪みコストは:各オーディオ・オブジェクトのもとの空間位置と前記少なくとも一つのクラスターの空間位置との間の距離、各オーディオ・オブジェクトのもとの空間位置と前記少なくとも一つのクラスターの空間位置に基づいて決定されるそのオーディオ・オブジェクトの再構成された空間位置との間の距離、または各オーディオ・オブジェクトが分類されるカテゴリーの識別情報と前記少なくとも一つのクラスターが割り当てられる各カテゴリーの識別情報との間の不一致のうちの一つまたは複数に基づいて決定されてもよい。
【0099】
いくつかの実施形態では、システム300はさらに、各クラスター内のオーディオ・オブジェクトを組み合わせて、クラスタリングされたオーディオ・オブジェクトを得るよう構成されたオーディオ・オブジェクト組み合わせユニットと、各クラスターにおけるオーディオ・オブジェクトのメタデータを組み合わせて前記クラスタリングされたオーディオ・オブジェクトのメタデータを得るよう構成されたメタデータ組み合わせユニットとを有していてもよい。
【0100】
明確のために、システム300のいくつかの追加的コンポーネントは図3には描かれていない。しかしながら、図1を参照して上記した特徴はみなシステム300に適用可能であることは理解しておくべきである。さらに、システム300のコンポーネントはハードウェア・モジュールまたはソフトウェア・ユニット・モジュールなどであってもよい。たとえば、いくつかの実施形態では、システム300は部分的にまたは完全に、コンピュータ可読媒体において具現されるコンピュータ・プログラム・プロダクトとして実装されるソフトウェアおよび/またはファームウェアで実装されてもよい。代替的または追加的に、システム300は、部分的にまたは完全にハードウェアに基づいて、たとえば集積回路(IC)、特定用途向け集積回路(ASIC)、システムオンチップ(SOC)、フィールドプログラマブルゲートアレイ(FPGA)などとして、実装されてもよい。
【0101】
図4は、実施形態を実装するのに好適な例示的なコンピュータ・システム400のブロック図を描いている。図のように、コンピュータ・システム400は、読み出し専用メモリ(ROM)402に記憶されたプログラムまたは記憶部408からランダム・アクセス・メモリ(RAM)403にロードされたプログラムに基づいてさまざまな処理を実行できる中央処理ユニット(CPU)401を有する。RAM 403では、CPU 401がさまざまなプロセスなどを実行するときに必要とされるデータも必要に応じて記憶される。CPU 401、ROM 402およびRAM 403はバス404を介して互いに接続される。入出力(I/O)インターフェース405もバス404に接続される。
【0102】
以下のコンポーネントがI/Oインターフェース405に接続される:キーボード、マウスなどを含む入力部406;陰極線管(CRT)、液晶ディスプレイ(LCD)などといったディスプレイおよびスピーカーなどを含む出力部407;ハードディスクなどを含む記憶部408;およびLANカード、モデムなどといったネットワーク・インターフェース・カードを含む通信部409。通信部409は、インターネットのようなネットワークを介した通信プロセスを実行する。ドライブ410も必要に応じてI/Oインターフェース405に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどといったリムーバブル媒体411が必要に応じてドライブ410にマウントされ、それから読み込まれるコンピュータ・プログラムが必要に応じて記憶部408にインストールされる。
【0103】
具体的には、本稿に開示される例示的実施形態によれば、図1を参照して上記したプロセスはコンピュータ・ソフトウェア・プログラムとして実装されてもよい。たとえば、例示的実施形態の実施形態は、機械可読媒体上に有体に具現されたコンピュータ・プログラムであって、方法100を実行するためのプログラム・コードを含むコンピュータ・プログラムを含むコンピュータ・プログラム・プロダクトを含む。そのような実施形態では、コンピュータ・プログラムはネットワークから通信部409を介してダウンロードされ、マウントされてもよく、および/またはリムーバブル媒体411からインストールされてもよい。
【0104】
一般に、さまざまな例示的実施形態は、ハードウェアまたは特殊目的回路、ソフトウェア、論理またはそれらの任意の組み合わせで実装されてもよい。いくつかの側面は、ハードウェアで実装されてもよく、他の側面は、コントローラ、マイクロプロセッサまたは他のコンピューティング装置によって実行されてもよいファームウェアまたはソフトウェアで実装されてもよい。例示的実施形態のさまざまな側面がブロック図、フローチャートとして、あるいは他の何らかの絵的な表現を使って図示され、記述されているが、本稿に記載されるブロック、装置、システム、技法または方法は、限定しない例として、ハードウェア、ソフトウェア、ファームウェア、特殊目的回路または論理、汎用ハードウェアまたはコントローラまたは他のコンピューティング装置またはその何らかの組み合わせで実装されてもよい。
【0105】
さらに、フローチャートに示されるさまざまなブロックは、方法段階として、および/またはコンピュータ・プログラム・コードの動作から帰結する動作として、および/または関連する機能(単数または複数)を実行するよう構築された複数の結合された論理回路要素として見られてもよい。たとえば、実施形態は、機械可読媒体上に有体に具現されたコンピュータ・プログラムであって、上記の方法を実行するよう構成されたプログラム・コードを含むコンピュータ・プログラムを含むコンピュータ・プログラム・プロダクトを含む。
【0106】
本開示のコンテキストでは、機械可読媒体は、命令実行システム、装置またはデバイスによる使用またはそれとの関連での使用のためのプログラムを含むまたは記憶することのできるいかなる有体の媒体であってもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であってもよい。機械可読媒体は、電子的、磁気的、光学式、電磁式、赤外線または半導体のシステム、装置またはデバイスまたは上記の任意の好適な組み合わせを含みうるがそれに限定されない。機械可読記憶媒体のより具体的な例は、一つまたは複数のワイヤを有する電気接続、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラム可能型読み出し専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイスまたは上記の任意の好適な組み合わせを含む。
【0107】
例示的実施形態の方法を実行するためのコンピュータ・プログラム・コードは、一つまたは複数のプログラミング言語の任意の組み合わせで書かれてもよい。これらのコンピュータ・プログラム・コードは、汎用コンピュータ、特殊目的コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサに提供されてもよい。それにより、プログラム・コードは、該コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図において指定されている機能/動作を実装させる。プログラム・コードは、完全にコンピュータ上で、部分的にコンピュータ上で、スタンドアローンのソフトウェア・パッケージとして、部分的にはコンピュータ上、部分的にはリモート・コンピュータ上で、あるいは完全にリモート・コンピュータもしくはサーバー上で実行されてもよい。プログラム・コードは、本稿で一般に「モジュール」と称されることのある特別にプログラムされたデバイス上で分散されていてもよい。モジュールのソフトウェア・コンポーネント部分はいかなるコンピュータ言語で書かれていてもよく、モノリシックなコード・ベースの一部であってもよく、あるいはオブジェクト指向コンピュータ言語で典型的なように、より離散的なコード部分において開発されてもよい。さらに、モジュールは、複数のコンピュータ・プラットフォーム、サーバー、端末、モバイル・デバイスなどを横断して分散されていてもよい。所与のモジュールは、記載される機能が別個の諸プロセッサおよび/またはコンピューティング・ハードウェア・プラットフォームによって実行されるよう実装されてもよい。
【0108】
本願での用法では、用語「回路」は、次のすべてを指す:(a)ハードウェアのみの回路実装(たとえばアナログおよび/またはデジタル回路のみで実装される)および(b)回路およびソフトウェア(および/またはファームウェア)の組み合わせ、たとえば(適宜):(i)プロセッサ(単数または複数)の組み合わせまたは(ii)プロセッサ(単数または複数)/ソフトウェア(デジタル信号プロセッサを含む)、ソフトウェアおよびメモリ(単数または複数)の、一緒になって携帯電話もしくはサーバーのような装置にさまざまな機能を実行させる部分および(c)マイクロプロセッサ(単数または複数)またはマイクロプロセッサ(単数または複数)の一部のような、たとえソフトウェアまたはファームウェアが物理的に存在していなくても、ソフトウェアまたはファームウェアを動作のために必要とする回路。さらに、当業者には、通信媒体が典型的には、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の送達媒体を含むことはよく知られている。
【0109】
さらに、動作は特定の順序で描出されているが、これは、望ましい結果を達成するために、そのような動作が、示されている特定の順序でまたは逐次順で実行されることや、すべての示されている動作が実行されることを要求するものと理解されるべきではない。ある種の状況では、マルチタスキングおよび並列処理が有利であることがある。同様に、いくつかの個別的な実装詳細が上記の議論に含まれるが、これらは特許請求されうるもののいずれの範囲に対する制限としても解釈されるべきではない。これらはむしろ、具体的な例示的実施形態に固有でありうる特徴の記述として解釈されるべきである。本明細書において別個の実施形態のコンテキストで記述されるある種の特徴が、単一の実施形態において組み合わせて実装されることもできる。逆に、単一の実施形態のコンテキストで記述されるさまざまな特徴が、複数の実施形態において別個に、あるいは任意の好適なサブコンビネーションにおいて実装されることもできる。
【0110】
上記の例示的実施形態へのさまざまな修正および適応が、上記の記述が付属の図面との関連で読まれるときに、上記の記述に鑑みて当業者に明白となりうる。任意の、あらゆる修正が、限定しない例示的実施形態の範囲内にはいる。さらに、本稿に記載される他の例示的実施形態が、上記の記述および図面に呈示される教示の恩恵をもつ当業者に思いつくであろう。
【0111】
よって、本稿に開示される例示的実施形態は、本稿に記述される形のいずれで具現されてもよい。たとえば、以下の付番実施例(EEE: enumerated example embodiment)は、本稿に開示される例示的実施形態のいくつかの側面のいくつかの構造、特徴および機能を記述する。
〔EEE1〕
オーディオ・オブジェクト・クラスタリングにおいてオブジェクト・メタデータを保存する方法であって:オーディオ・オブジェクトをカテゴリーに割り振る段階であって、各カテゴリーは保存を必要とするメタデータの一つまたは一意的な組み合わせを表わす、段階と;利用可能なクラスターの全体的な(最大)数および全体的な誤差基準のもとで、クラスタリング・プロセスを通じて各カテゴリーについていくつかのクラスターを生成する段階とを含み、当該方法はさらに:ファジー・オブジェクト・カテゴリー分離またはハード・オブジェクト・カテゴリー分離を含む、方法。
〔EEE2〕
前記ファジー・オブジェクト・カテゴリー分離は:たとえば最も重要な諸オブジェクトを選択することによって諸出力クラスター重心を決定する段階と、(1)各オブジェクトの位置メタデータ
【数52】
(2)各オブジェクトのカテゴリー識別情報no、(3)各クラスターの位置メタデータ
【数53】
および(4)各クラスターに関連付けられたカテゴリー識別情報nmを統合して考慮するコスト関数を最小化することによって出力クラスター信号を生成する段階とを含む、EEE1記載の方法。
〔EEE3〕
前記コスト関数は、オブジェクト・カテゴリー識別情報noとクラスター・カテゴリー識別情報nmの間の不一致に関連するコストを考慮する、EEE2記載の方法。
〔EEE4〕
前記ハード・オブジェクト・カテゴリー分離は:全体的な空間的歪みを最小にすることによって各カテゴリーについての最適なクラスター数を決定し、各カテゴリー内にオブジェクトをクラスタリングすることを含み、クラスタリング・プロセスは各カテゴリーについて独立して実行される、EEE1記載の方法。
〔EEE5〕
前記全体的な空間的歪みが:もとのオブジェクト位置とクラスタリング後の位置との間の差を測る各カテゴリー内の空間的歪み、各カテゴリーの重要性および各カテゴリーのクラスター数変化を含む、EEE4記載の方法。
〔EEE6〕
各カテゴリーについての最適なクラスター数を決定する工程は逐次反復プロセスであり、各反復工程において、クラスターは、該クラスターを最も必要とするカテゴリーに加えられるまたは割り当てられる、EEE4記載の方法。
〔EEE7〕
最適なクラスター数を決定する工程がさらに、一つのカテゴリーにおける大きな空間的歪みを避けるために、オブジェクト再割り振りを含む、EEE4記載の方法。
【0112】
本稿に開示される例示的実施形態の実施形態は開示される特定の実施形態に限定されないこと、修正および他の実施形態が付属の請求項の範囲内に含まれることが意図されていることは理解されるであろう。本稿では個別的な用語が使われているが、それは限定の目的ではなく、一般的な、記述する意味において使われているだけである。
【0113】
いくつかの態様を記載しておく。
〔態様1〕
メタデータが保存されるオーディオ・オブジェクト・クラスタリングのための方法であって:
複数のオーディオ・オブジェクトを、該複数のオーディオ・オブジェクトに関連付けられたメタデータにおいて保存されるべき情報に基づいていくつかのカテゴリーに分類する段階と;
所定数のクラスターを前記カテゴリーに割り当てる段階と;
前記カテゴリーのそれぞれにおけるオーディオ・オブジェクトを前記割り当てに基づいて前記クラスターのうちの少なくとも一つに割り振る段階とを含む、
方法。
〔態様2〕
前記情報は、オーディオ・オブジェクトのサイズ情報、ゾーン・マスク情報、スナップ情報、コンテンツ型またはレンダリング・モードの一つまたは複数を含む、態様1記載の方法。
〔態様3〕
複数のオーディオ・オブジェクトを、該複数のオーディオ・オブジェクトに関連付けられたメタデータにおいて保存されるべき情報に基づいていくつかのカテゴリーに分類する段階が:
保存されるべき情報のないオーディオ・オブジェクトを一つのカテゴリーに分類し;
保存されるべき異なる情報をもつオーディオ・オブジェクトを異なるカテゴリーに分類することを含む、
態様1記載の方法。
〔態様4〕
所定数のクラスターを前記カテゴリーに割り当てる段階が:
前記複数のオーディオ・オブジェクトからの前記所定数のオーディオ・オブジェクトを、各オーディオ・オブジェクトの他のオーディオ・オブジェクトに対する重要度に基づいて決定し;
前記カテゴリーの間での前記所定数のオーディオ・オブジェクトの分配を決定し;
前記所定数のクラスターを、前記分配に基づいて前記カテゴリーに割り当てることを含む、
態様1記載の方法。
〔態様5〕
所定数のクラスターを前記カテゴリーに割り当てる段階が:
前記カテゴリーについての全体的な空間的歪みを減らすことに基づいて前記所定数のクラスターを前記カテゴリーに割り当てることを含む、
態様1記載の方法。
〔態様6〕
前記カテゴリーについての前記全体的な空間的歪みは、前記カテゴリーの個々の空間的歪みの間での最大の空間的歪みまたは前記カテゴリーの個々の空間的歪みの重み付けされた和を含み、
各カテゴリーについての空間的歪みは、そのカテゴリー内の各オーディオ・オブジェクトのもとの空間位置および前記クラスターのうちの少なくとも一つのクラスターの空間位置に関連する、
態様5記載の方法。
〔態様7〕
各オーディオ・オブジェクトの再構成された空間位置が前記少なくとも一つのクラスターの空間位置に基づいて決定され、各カテゴリーについての空間的歪みが、そのカテゴリー内の各オーディオ・オブジェクトのもとの空間位置とそのオーディオ・オブジェクトの再構成された空間位置との間の距離に基づいて決定される、態様6記載の方法。
〔態様8〕
前記複数のオーディオ・オブジェクトはオーディオ信号の一つのフレーム内であり、各カテゴリーについての空間位置はさらに、現在フレームおよび前のフレームにおいてそのカテゴリーに割り当てられるクラスター数の間の差に基づく、態様6記載の方法。
〔態様9〕
前記カテゴリーについての全体的な空間的歪みを減らすことに基づいて前記所定数のクラスターを前記カテゴリーに割り当てることが:
前の反復工程でのあるカテゴリーについての空間的歪みの量、または
現在の反復工程および前の反復工程でのあるカテゴリーに付いての空間的歪みの間の差
のうちの少なくとも一方に基づいて前記カテゴリーについての全体的な空間的歪みを逐次反復的に減らすことを含む、
態様5記載の方法。
〔態様10〕
所定数のクラスターを前記カテゴリーに割り当てる段階がさらに:
各カテゴリーに割り当てられるべきクラスターの数についての第一の閾値、
各カテゴリーについての空間的歪みについての第二の閾値または
各カテゴリーの他のカテゴリーに対する重要性
のうちの一つまたは複数に基づく、態様4ないし9のうちいずれか一項記載の方法。
〔態様11〕
あるカテゴリー内の少なくとも一つのオーディオ・オブジェクトを、そのカテゴリーについての空間的歪みに基づいて別のカテゴリーに分類し直す段階をさらに含む、
態様1記載の方法。
〔態様12〕
前記カテゴリーのそれぞれにおけるオーディオ・オブジェクトを前記割り当てに基づいて前記クラスターのうちの少なくとも一つに割り振る段階が:
それぞれのカテゴリーにおけるオーディオ・オブジェクトを、そのカテゴリーに関連する歪みコストを減らすことに基づいて、そのカテゴリーに割り当てられた前記クラスターのうちの少なくとも一つに割り振ることを含む、
態様1記載の方法。
〔態様13〕
前記カテゴリーのそれぞれにおけるオーディオ・オブジェクトを前記割り当てに基づいて前記クラスターのうちの少なくとも一つに割り振る段階が:
それぞれのカテゴリーにおけるオーディオ・オブジェクトを、前記カテゴリーのうちの一つまたは複数に割り当てられたクラスターのうちの少なくとも一つに、前記カテゴリーに関連する歪みコストを減らすことに基づいて割り振ることを含む、
態様1記載の方法。
〔態様14〕
前記歪みコストは、各オーディオ・オブジェクトのもとの空間位置、前記少なくとも一つのクラスターの空間位置、各オーディオ・オブジェクトが分類されるカテゴリーの識別情報または前記少なくとも一つのクラスターが割り当てられる各カテゴリーの識別情報のうちの一つまたは複数に関連する、態様12または13記載の方法。
〔態様15〕
前記歪みコストが:
各オーディオ・オブジェクトのもとの空間位置と前記少なくとも一つのクラスターの空間位置との間の距離;
各オーディオ・オブジェクトのもとの空間位置と前記少なくとも一つのクラスターの空間位置に基づいて決定されるそのオーディオ・オブジェクトの再構成された空間位置との間の距離;または
各オーディオ・オブジェクトが分類されるカテゴリーの識別情報と前記少なくとも一つのクラスターが割り当てられる各カテゴリーの識別情報との間の不一致、
のうちの一つまたは複数に基づいて決定される、態様14記載の方法。
〔態様16〕
各クラスター内のオーディオ・オブジェクトを組み合わせて、クラスタリングされたオーディオ・オブジェクトを得る段階と;
各クラスター内のオーディオ・オブジェクトのメタデータを組み合わせて、前記クラスタリングされたオーディオ・オブジェクトのメタデータを得る段階とをさらに含む、
態様1記載の方法。
〔態様17〕
メタデータが保存されるオーディオ・オブジェクト・クラスタリングのためのシステムであって:
複数のオーディオ・オブジェクトを、該複数のオーディオ・オブジェクトに関連付けられたメタデータにおいて保存されるべき情報に基づいていくつかのカテゴリーに分類するよう構成されたオーディオ・オブジェクト分類ユニットと;
所定数のクラスターを前記カテゴリーに割り当てるよう構成されたクラスター割り当てユニットと;
前記カテゴリーのそれぞれにおけるオーディオ・オブジェクトを前記割り当てに基づいて前記クラスターのうちの少なくとも一つに割り振るよう構成されたオーディオ・オブジェクト割り振りユニットとを有する、
システム。
〔態様18〕
前記情報は、オーディオ・オブジェクトのサイズ情報、ゾーン・マスク情報、スナップ情報、コンテンツ型またはレンダリング・モードの一つまたは複数を含む、態様17記載のシステム。
〔態様19〕
前記オーディオ・オブジェクト分類ユニットは、保存されるべき情報のないオーディオ・オブジェクトを一つのカテゴリーに分類し、保存されるべき異なる情報をもつオーディオ・オブジェクトを異なるカテゴリーに分類するようさらに構成される、態様17記載のシステム。
〔態様20〕
前記クラスター割り当てユニットが:
前記複数のオーディオ・オブジェクトからの前記所定数のオーディオ・オブジェクトを、各オーディオ・オブジェクトの他のオーディオ・オブジェクトに対する重要度に基づいて決定するよう構成された重要性ベースの決定ユニットと;
前記カテゴリーの間での前記所定数のオーディオ・オブジェクトの分配を決定するよう構成された分配決定ユニットとをさらに有し、
前記クラスター割り当てユニットは、前記所定数のクラスターを、前記分配に基づいて前記カテゴリーに割り当てるようさらに構成される、
態様17記載のシステム。
〔態様21〕
前記クラスター割り当てユニットがさらに、前記カテゴリーについての全体的な空間的歪みを減らすことに基づいて前記所定数のクラスターを前記カテゴリーに割り当てるよう構成される、態様17記載のシステム。
〔態様22〕
前記カテゴリーについての前記全体的な空間的歪みは、前記カテゴリーの個々の空間的歪みの間での最大の空間的歪みまたは前記カテゴリーの個々の空間的歪みの重み付けされた和を含み、
各カテゴリーについての空間的歪みは、そのカテゴリー内の各オーディオ・オブジェクトのもとの空間位置および前記クラスターのうちの少なくとも一つのクラスターの空間位置に関連する、
態様21記載のシステム。
〔態様23〕
各オーディオ・オブジェクトの再構成された空間位置が前記少なくとも一つのクラスターの空間位置に基づいて決定され、各カテゴリーについての空間的歪みが、そのカテゴリー内の各オーディオ・オブジェクトのもとの空間位置とそのオーディオ・オブジェクトの再構成された空間位置との間の距離に基づいて決定される、態様22記載のシステム。
〔態様24〕
前記複数のオーディオ・オブジェクトはオーディオ信号の一つのフレーム内であり、各カテゴリーについての空間位置はさらに、現在フレームおよび前のフレームにおいてそのカテゴリーに割り当てられるクラスター数の間の差に基づく、態様22記載のシステム。
〔態様25〕
前記クラスター割り当てユニットがさらに:
前の反復工程でのあるカテゴリーについての空間的歪みの量、または
現在の反復工程および前の反復工程でのあるカテゴリーに付いての空間的歪みの間の差
のうちの少なくとも一方に基づいて前記カテゴリーについての全体的な空間的歪みを逐次反復的に減らすよう構成されている、
態様21記載のシステム。
〔態様26〕
前記クラスター割り当てユニットが、さらに、前記所定数のクラスターを前記カテゴリーに割り当てることを:
各カテゴリーに割り当てられるべきクラスターの数についての第一の閾値、
各カテゴリーについての空間的歪みについての第二の閾値または
各カテゴリーの他のカテゴリーに対する重要性
のうちの一つまたは複数に基づいて行なうよう構成されている、態様20ないし25のうちいずれか一項記載のシステム。
〔態様27〕
あるカテゴリー内の少なくとも一つのオーディオ・オブジェクトを、そのカテゴリーについての空間的歪みに基づいて別のカテゴリーに分類し直すよう構成されたオーディオ・オブジェクト再分類ユニットをさらに有する、
態様17記載のシステム。
〔態様28〕
前記オーディオ・オブジェクト割り振りユニットがさらに、それぞれのカテゴリーにおけるオーディオ・オブジェクトを、そのカテゴリーに関連する歪みコストを減らすことに基づいて、そのカテゴリーに割り当てられた前記クラスターのうちの少なくとも一つに割り振るよう構成される、態様17記載のシステム。
〔態様29〕
前記オーディオ・オブジェクト割り振りユニットがさらに、それぞれのカテゴリーにおけるオーディオ・オブジェクトを、前記カテゴリーのうちの一つまたは複数に割り当てられたクラスターのうちの少なくとも一つに、前記カテゴリーに関連する歪みコストを減らすことに基づいて割り振るよう構成されている、態様17記載のシステム。
〔態様30〕
前記歪みコストは、各オーディオ・オブジェクトのもとの空間位置、前記少なくとも一つのクラスターの空間位置、各オーディオ・オブジェクトが分類されるカテゴリーの識別情報または前記少なくとも一つのクラスターが割り当てられる各カテゴリーの識別情報のうちの一つまたは複数に関連する、態様28または29記載のシステム。
〔態様31〕
前記歪みコストが:
各オーディオ・オブジェクトのもとの空間位置と前記少なくとも一つのクラスターの空間位置との間の距離;
各オーディオ・オブジェクトのもとの空間位置と前記少なくとも一つのクラスターの空間位置に基づいて決定されるそのオーディオ・オブジェクトの再構成された空間位置との間の距離;または
各オーディオ・オブジェクトが分類されるカテゴリーの識別情報と前記少なくとも一つのクラスターが割り当てられる各カテゴリーの識別情報との間の不一致、
のうちの一つまたは複数に基づいて決定される、態様30記載のシステム。
〔態様32〕
各クラスター内のオーディオ・オブジェクトを組み合わせて、クラスタリングされたオーディオ・オブジェクトを得るよう構成されたオーディオ・オブジェクト組み合わせユニットと;
各クラスター内のオーディオ・オブジェクトのメタデータを組み合わせて、前記クラスタリングされたオーディオ・オブジェクトのメタデータを得るよう構成されたメタデータ組み合わせユニットとをさらに有する、
態様17記載のシステム。
〔態様33〕
態様1ないし16のうちいずれか一項記載の方法を実行するためのプログラム・コードを含むコンピュータ・プログラムを、機械可読媒体上に具現されて有する、コンピュータ・プログラム・プロダクト。
図1
図2
図3
図4
【外国語明細書】