特許第6239110号(P6239110)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特許6239110効率的なオブジェクト・メタデータ符号化の装置と方法
<>
  • 特許6239110-効率的なオブジェクト・メタデータ符号化の装置と方法 図000015
  • 特許6239110-効率的なオブジェクト・メタデータ符号化の装置と方法 図000016
  • 特許6239110-効率的なオブジェクト・メタデータ符号化の装置と方法 図000017
  • 特許6239110-効率的なオブジェクト・メタデータ符号化の装置と方法 図000018
  • 特許6239110-効率的なオブジェクト・メタデータ符号化の装置と方法 図000019
  • 特許6239110-効率的なオブジェクト・メタデータ符号化の装置と方法 図000020
  • 特許6239110-効率的なオブジェクト・メタデータ符号化の装置と方法 図000021
  • 特許6239110-効率的なオブジェクト・メタデータ符号化の装置と方法 図000022
  • 特許6239110-効率的なオブジェクト・メタデータ符号化の装置と方法 図000023
  • 特許6239110-効率的なオブジェクト・メタデータ符号化の装置と方法 図000024
  • 特許6239110-効率的なオブジェクト・メタデータ符号化の装置と方法 図000025
  • 特許6239110-効率的なオブジェクト・メタデータ符号化の装置と方法 図000026
  • 特許6239110-効率的なオブジェクト・メタデータ符号化の装置と方法 図000027
  • 特許6239110-効率的なオブジェクト・メタデータ符号化の装置と方法 図000028
  • 特許6239110-効率的なオブジェクト・メタデータ符号化の装置と方法 図000029
  • 特許6239110-効率的なオブジェクト・メタデータ符号化の装置と方法 図000030
  • 特許6239110-効率的なオブジェクト・メタデータ符号化の装置と方法 図000031
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6239110
(24)【登録日】2017年11月10日
(45)【発行日】2017年11月29日
(54)【発明の名称】効率的なオブジェクト・メタデータ符号化の装置と方法
(51)【国際特許分類】
   G10L 19/008 20130101AFI20171120BHJP
   G10L 19/00 20130101ALI20171120BHJP
【FI】
   G10L19/008 100
   G10L19/008 200
   G10L19/00 330B
【請求項の数】17
【全頁数】42
(21)【出願番号】特願2016-528437(P2016-528437)
(86)(22)【出願日】2014年7月16日
(65)【公表番号】特表2016-528541(P2016-528541A)
(43)【公表日】2016年9月15日
(86)【国際出願番号】EP2014065299
(87)【国際公開番号】WO2015011000
(87)【国際公開日】20150129
【審査請求日】2016年2月23日
(31)【優先権主張番号】13177367.3
(32)【優先日】2013年7月22日
(33)【優先権主張国】EP
(31)【優先権主張番号】13177365.7
(32)【優先日】2013年7月22日
(33)【優先権主張国】EP
(31)【優先権主張番号】13177378.0
(32)【優先日】2013年7月22日
(33)【優先権主張国】EP
(31)【優先権主張番号】13189284.6
(32)【優先日】2013年10月18日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100085497
【弁理士】
【氏名又は名称】筒井 秀隆
(72)【発明者】
【氏名】ボルス,クリスチャン
(72)【発明者】
【氏名】エルテル,クリスチャン
【審査官】 五貫 昭一
(56)【参考文献】
【文献】 特表2014−520491(JP,A)
【文献】 特表2014−522155(JP,A)
【文献】 特許第5129888(JP,B2)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/008
G10L 19/00
(57)【特許請求の範囲】
【請求項1】
1つ以上のオーディオチャネルを生成する装置(100)であって、
1つ以上の圧縮済みメタデータ信号を受信するメタデータ復号器(110)であって、前記1つ以上の圧縮済みメタデータ信号の各々は複数の第1メタデータサンプルを含み、前記1つ以上の圧縮済みメタデータ信号の各々の前記第1メタデータサンプルは、1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示しており、前記メタデータ復号器(110)は1つ以上の再生メタデータ信号を生成するよう構成されており、前記1つ以上の再生メタデータ信号の各再生メタデータ信号は前記1つ以上の圧縮済みメタデータ信号の1つの圧縮済みメタデータ信号の第1メタデータサンプルを含み、前記再生メタデータ信号は前記圧縮済みメタデータ信号と関連しており、前記各再生メタデータ信号はさらに複数の第2メタデータサンプルを含み、前記メタデータ復号器(110)は、前記再生メタデータ信号について複数の近似済みメタデータサンプルを生成することにより、前記1つ以上の再生メタデータ信号の各々の第2メタデータサンプルを生成するよう構成され、前記再生メタデータ信号の第1メタデータサンプルの少なくとも2つに依存して、前記複数の近似済みメタデータサンプルの各々を生成するよう構成されている、メタデータ復号器(110)と、
前記1つ以上のオーディオオブジェクト信号に依存しかつ前記1つ以上の再生メタデータ信号に依存して、前記1つ以上のオーディオチャネルを生成するオーディオチャネル生成部(120)と、を備え、
前記メタデータ復号器(110)は、前記1つ以上の圧縮済みメタデータ信号の1つの圧縮済みメタデータ信号について複数の差分値を受信するよう構成され、かつ前記複数の差分値の各々を前記圧縮済みメタデータ信号と関連する前記再生メタデータ信号の近似済みメタデータサンプルの1つに加算して、前記再生メタデータ信号の第2メタデータサンプルを取得するよう構成されている、装置。
【請求項2】
請求項1に記載の装置(100)であって、
前記メタデータ復号器(110)は、前記1つ以上の再生メタデータ信号の各再生メタデータ信号を、前記1つ以上の圧縮済みメタデータ信号の1つをアップサンプリングすることにより生成するよう構成され、前記メタデータ復号器(110)は、前記1つ以上の再生メタデータ信号の各再生メタデータ信号の第2メタデータサンプルの各々を、前記再生メタデータ信号の第1メタデータサンプルの少なくとも2つに依存して、線形補間することにより生成するよう構成されている、装置。
【請求項3】
請求項1又は2に記載の装置(100)であって、
前記メタデータ復号器(110)は、前記1つ以上の圧縮済みメタデータ信号の1つの圧縮済みメタデータ信号について複数の差分値を受信するよう構成され、前記差分値の各々は、前記圧縮済みメタデータ信号と関連する前記再生メタデータ信号の前記近似済みメタデータサンプルの1つに割り当てられた受信済み差分値であり、
前記メタデータ復号器(110)は、前記複数の受信済み差分値の各受信済み差分値を、前記受信済み差分値と関連する前記近似済みメタデータサンプルに加算して、前記再生メタデータ信号の前記第2メタデータサンプルの1つを取得するよう構成され、
前記複数の受信済み差分値のいずれもが前記近似済みメタデータサンプルと関連していないとき、前記メタデータ復号器(110)は、複数の受信済み差分値の1つ以上に依存して、前記圧縮済みメタデータ信号と関連する前記再生メタデータ信号の複数の近似済みメタデータサンプルの各近似済みメタデータサンプルについて近似済み差分値を決定するよう構成され、
前記メタデータ復号器(110)は、前記複数の近似済み差分値の各近似済み差分値を、前記近似済み差分値の近似済みメタデータサンプルに加算して、前記再生メタデータ信号の第2メタデータサンプルの他の1つを取得するよう構成されている、装置。
【請求項4】
請求項1乃至3のいずれか1項に記載の装置(100)であって、
前記1つ以上の再生メタデータ信号の少なくとも1つは、前記1つ以上のオーディオオブジェクト信号の1つについての位置情報を含むか、又は前記1つ以上のオーディオオブジェクト信号の前記1つについての位置情報のスケールされた表現を含み、
前記オーディオチャネル生成部(120)は、前記1つ以上のオーディオオブジェクト信号の前記1つに依存しかつ前記位置情報に依存して、前記1つ以上のオーディオチャネルの少なくとも1つを生成するよう構成されている、装置。
【請求項5】
請求項1乃至4のいずれか1項に記載の装置(100)であって、
前記1つ以上の再生メタデータ信号の少なくとも1つは、前記1つ以上のオーディオオブジェクト信号の1つについての音量を含むか、又は前記1つ以上のオーディオオブジェクト信号の前記1つについての音量のスケールされた表現を含み、
前記オーディオチャネル生成部(120)は、前記1つ以上のオーディオオブジェクト信号の前記1つに依存しかつ前記音量に依存して、前記1つ以上のオーディオチャネルの少なくとも1つを生成するよう構成されている、装置。
【請求項6】
請求項1乃至5のいずれか1項に記載の装置(100)であって、
前記装置(100)はランダムアクセス情報を受信するよう構成されており、前記1つ以上の圧縮済みメタデータ信号の各圧縮済みメタデータ信号について、前記ランダムアクセス情報は前記圧縮済みメタデータ信号のアクセスされた信号部分を指示し、前記圧縮済みメタデータ信号の少なくとも1つの他の信号部分は前記ランダムアクセス情報によって指示されておらず、更に前記メタデータ復号器(110)は、前記圧縮済みメタデータ信号の前記アクセスされた信号部分の第1メタデータサンプルに依存する一方で、前記圧縮済みメタデータ信号の他の信号部分の他の如何なる第1メタデータサンプルにも依存せずに、前記1つ以上の再生メタデータ信号の1つを生成するよう構成されている、装置。
【請求項7】
1つ以上の符号化済みオーディオ信号と1つ以上の圧縮済みメタデータ信号とを含む符号化済みオーディオ情報を生成する装置(250)であって、
1つ以上のオリジナル・メタデータ信号を受信するメタデータ符号器(210)であって、前記1つ以上のオリジナル・メタデータ信号の各々は複数のメタデータサンプルを含み、前記1つ以上のオリジナル・メタデータ信号の各々の前記メタデータサンプルは1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示し、前記メタデータ符号器(210)は、前記1つ以上の圧縮済みメタデータ信号の各圧縮済みメタデータ信号が前記1つ以上のオリジナル・メタデータ信号の1つのオリジナル・メタデータ信号の2つ以上のメタデータサンプルの第1グループを含み、前記圧縮済みメタデータ信号は前記オリジナル・メタデータ信号と関連しており、かつ前記圧縮済みメタデータ信号が前記オリジナル・メタデータ信号の前記1つにおける他の2つ以上のメタデータサンプルの第2グループの如何なるサンプルも含まないように、前記1つ以上の圧縮済みメタデータ信号を生成するよう構成された、メタデータ符号器(210)と、
前記1つ以上のオーディオオブジェクト信号を符号化して前記1つ以上の符号化済みオーディオ信号を取得するオーディオ符号器(220)と、を備え、
前記1つ以上のオリジナル・メタデータ信号の1つのオリジナル・メタデータ信号に含まれ、かつ前記オリジナル・メタデータ信号と関連している前記圧縮済みメタデータ信号にも含まれる、前記メタデータサンプルの各々は、複数の第1メタデータサンプルの1つであり、
前記1つ以上のオリジナル・メタデータ信号の1つのオリジナル・メタデータ信号に含まれ、かつ前記オリジナル・メタデータ信号と関連している前記圧縮済みメタデータ信号には含まれない、前記メタデータサンプルの各々は、複数の第2メタデータサンプルの1つであり、
前記メタデータ符号器(210)は、前記1つ以上のオリジナル・メタデータ信号の前記1つにおける少なくとも2つの前記第1メタデータサンプルに依存して、線形補間を実行することにより、前記オリジナル・メタデータ信号の1つにおける複数の第2メタデータサンプルの各々について近似済みメタデータサンプルを生成するよう構成され、
前記メタデータ符号器(210)は、前記1つ以上のオリジナル・メタデータ信号の前記1つにおける前記複数の第2メタデータサンプルの各第2メタデータサンプルについて差分値を生成するよう構成され、前記差分値は前記第2メタデータサンプルと前記第2メタデータサンプルの前記近似済みメタデータサンプルとの差を示す、装置。
【請求項8】
請求項7に記載の装置(250)であって、
前記メタデータ符号器(210)は、前記1つ以上のオリジナル・メタデータ信号の前記1つにおける前記複数の第2メタデータサンプルの前記差分値の少なくとも1つについて、前記差分値の少なくとも1つの各々がある閾値より大きいか否かを決定するよう構成されている、装置。
【請求項9】
請求項7又は8に記載の装置(250)であって、
前記メタデータ符号器(210)は、前記1つ以上の圧縮済みメタデータ信号の1つにおける1つ以上のメタデータサンプルを第1のビット数で符号化するよう構成され、前記1つ以上の圧縮済みメタデータ信号の前記1つにおける1つ以上のメタデータサンプルの各々は整数を示し、
前記メタデータ符号器(210)は、前記複数の第2メタデータサンプルの1つ以上の前記差分値を第2のビット数で符号化するよう構成され、前記複数の第2メタデータサンプルの1つ以上の前記差分値の各々は整数を示し、
前記第2のビット数は前記第1のビット数よりも小さい、装置。
【請求項10】
請求項7乃至9のいずれか1項に記載の装置(250)であって、
前記1つ以上のオリジナル・メタデータ信号の少なくとも1つは、前記1つ以上のオーディオオブジェクト信号の1つについての位置情報を含むか、又は前記1つ以上のオーディオオブジェクト信号の前記1つについての位置情報のスケールされた表現を含み、
前記メタデータ符号器(210)は、前記1つ以上のオリジナル・メタデータ信号の前記少なくとも1つに依存して、前記1つ以上の圧縮済みメタデータ信号の少なくとも1つを生成するよう構成されている、装置。
【請求項11】
請求項7乃至10のいずれか1項に記載の装置(250)であって、
前記1つ以上のオリジナル・メタデータ信号の少なくとも1つは、前記1つ以上のオーディオオブジェクト信号の1つについての音量を含むか、又は前記1つ以上のオーディオオブジェクト信号の前記1つについての音量のスケールされた表現を含み、
前記メタデータ符号器(210)は、前記1つ以上のオリジナル・メタデータ信号の前記少なくとも1つに依存して、前記1つ以上の圧縮済みメタデータ信号の少なくとも1つを生成するよう構成されている、装置。
【請求項12】
1つ以上の符号化済みオーディオ信号と1つ以上の圧縮済みメタデータ信号とを含む符号化済みオーディオ情報を生成する、請求項7乃至11のいずれか1項に記載の装置(250)と、
前記1つ以上の符号化済みオーディオ信号と前記1つ以上の圧縮済みメタデータ信号とを受信し、前記1つ以上の符号化済みオーディオ信号と前記1つ以上の圧縮済みメタデータ信号とに依存して1つ以上のオーディオチャネルを生成する、請求項1乃至6のいずれか1項に記載の装置(100)と、
を備えるシステム。
【請求項13】
1つ以上のオーディオチャネルを生成する方法であって、
1つ以上の圧縮済みメタデータ信号を受信するステップであって、前記1つ以上の圧縮済みメタデータ信号の各々は複数の第1メタデータサンプルを含み、前記1つ以上の圧縮済みメタデータ信号の各々の第1メタデータサンプルは1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示す、ステップと、
1つ以上の再生メタデータ信号を生成するステップであって、そのステップは、前記1つ以上の再生メタデータ信号の各再生メタデータ信号が前記1つ以上の圧縮済みメタデータ信号の1つの圧縮済みメタデータ信号の第1メタデータサンプルを含み、前記再生メタデータ信号は前記圧縮済みメタデータ信号に関連しており、さらに複数の第2メタデータサンプルを含むように実行され、前記1つ以上の再生メタデータ信号を生成するステップは、前記1つ以上の再生メタデータ信号の各々の第2メタデータサンプルを前記再生メタデータ信号について複数の近似済みメタデータサンプルを生成することにより生成し、前記複数の近似済みメタデータサンプルの各々の生成は、前記再生メタデータ信号の第1メタデータサンプルの少なくとも2つに依存して実行される、ステップと、
前記1つ以上のオーディオオブジェクト信号と前記1つ以上の再生メタデータ信号とに依存して、前記1つ以上のオーディオチャネルを生成するステップと、を備え、
前記方法は、前記1つ以上の圧縮済みメタデータ信号の1つの圧縮済みメタデータ信号について複数の差分値を受信するステップと、前記複数の差分値の各々を前記圧縮済みメタデータ信号と関連する前記再生メタデータ信号の近似済みメタデータサンプルの1つに加算して、前記再生メタデータ信号の第2メタデータサンプルを取得するステップと、
をさらに備える方法。
【請求項14】
1つ以上の符号化済みオーディオ信号と1つ以上の圧縮済みメタデータ信号とを含む符号化済みオーディオ情報を生成する方法であって、
1つ以上のオリジナル・メタデータ信号を受信するステップであって、前記1つ以上のオリジナル・メタデータ信号の各々は複数のメタデータサンプルを含み、前記1つ以上のオリジナル・メタデータ信号の各々の前記メタデータサンプルは1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示す、ステップと、
前記1つ以上の圧縮済みメタデータ信号を生成するステップであって、前記1つ以上の圧縮済みメタデータ信号の各圧縮済みメタデータ信号が前記1つ以上のオリジナル・メタデータ信号の1つのオリジナル・メタデータ信号の2つ以上のメタデータサンプルの第1グループを含み、前記圧縮済みメタデータ信号は前記オリジナル・メタデータ信号と関連しており、かつ前記圧縮済みメタデータ信号が前記オリジナル・メタデータ信号の前記1つにおける他の2つ以上のメタデータサンプルの第2グループの如何なるメタデータサンプルも含まないように実行する、ステップと、
前記1つ以上のオーディオオブジェクト信号を符号化して前記1つ以上の符号化済みオーディオ信号を取得するステップと、
を備え、
前記1つ以上のオリジナル・メタデータ信号の1つのオリジナル・メタデータ信号に含まれ、かつ前記オリジナル・メタデータ信号と関連している前記圧縮済みメタデータ信号にも含まれる、前記メタデータサンプルの各々は、複数の第1メタデータサンプルの1つであり、
前記1つ以上のオリジナル・メタデータ信号の1つのオリジナル・メタデータ信号に含まれ、かつ前記オリジナル・メタデータ信号と関連している前記圧縮済みメタデータ信号には含まれない、前記メタデータサンプルの各々は、複数の第2メタデータサンプルの1つであり、
前記方法はさらに、前記1つ以上のオリジナル・メタデータ信号の前記1つにおける少なくとも2つの前記第1メタデータサンプルに依存して、線形補間を実行することにより、前記オリジナル・メタデータ信号の1つにおける複数の第2メタデータサンプルの各々について近似済みメタデータサンプルを生成するステップを備え、
前記方法はさらに、前記1つ以上のオリジナル・メタデータ信号の前記1つにおける前記複数の第2メタデータサンプルの各第2メタデータサンプルについて差分値を生成するステップを備え、前記差分値は前記第2メタデータサンプルと前記第2メタデータサンプルの前記近似済みメタデータサンプルとの差を示す、
方法。
【請求項15】
コンピュータ又は信号プロセッサ上で作動されたとき、請求項13又は14に記載の方法を実行するためのコンピュータプログラム。
【請求項16】
オーディオ入力データ(101)を符号化してオーディオ出力データ(501)を取得する装置であって、
複数のオーディオチャネルと複数のオーディオオブジェクトと前記複数のオーディオオブジェクトの1つ又は複数に関連するメタデータとを受信する、入力インターフェイス(1100)と、
前記複数のオーディオオブジェクトと前記複数のオーディオチャネルとをミキシングして、複数のプレミクス済みチャネルを取得するミキサー(200)であって、各プレミクス済みチャネルは1つのオーディオチャネルのオーディオデータと少なくとも1つのオーディオオブジェクトのオーディオデータとを含む、ミキサー(200)と、
請求項7乃至11のいずれか1項に記載の装置(250)と、を備え、
請求項7乃至11のいずれか1項に記載の装置(250)の前記オーディオ符号器(220)は、コア符号器入力データをコア符号化するコア符号器(300)であり、
請求項7乃至11のいずれか1項に記載の装置(250)の前記メタデータ符号器(210)は、前記複数のオーディオオブジェクトの1つ以上に関連する前記メタデータを圧縮するメタデータ圧縮部(400)である、装置。
【請求項17】
符号化済みオーディオデータを復号化する装置であって、
符号化済みオーディオデータを受信する入力インターフェイス(1100)であって、前記符号化済みオーディオデータが、複数の符号化済みチャネル、複数の符号化済みオブジェクト、及び前記複数の符号化済みオブジェクトに関連する圧縮済みメタデータを含む、入力インターフェイス(1100)と、
請求項1乃至6のいずれか1項に記載の装置(100)と、を備え、
請求項1乃至6のいずれか1項に記載の前記装置(100)の前記メタデータ復号器(110)は、前記圧縮済みメタデータを解凍するメタデータ解凍部(1400)であり、
請求項1乃至6のいずれか1項に記載の前記装置(100)の前記オーディオチャネル生成部(120)は、前記複数の符号化済みチャネルと前記複数の符号化済みオブジェクトとを復号化するコア復号器(1300)を備え、
前記オーディオチャネル生成部(120)は、複数の復号化済みオブジェクトを解凍されたメタデータを使用して処理し、前記復号化済みオブジェクト及び復号化済みチャネルからオーディオデータを含む幾つかの出力チャネル(1205)を取得する、オブジェクト処理部(1200)を更に備え、
前記オーディオチャネル生成部(120)は、前記幾つかの出力チャネル(1205)を出力フォーマットへ変換する後処理部(1700)を更に備える、装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はオーディオ符号化/復号化に関し、特に空間オーディオ符号化及び空間オーディオオブジェクト符号化に関し、更に詳しくは効率的なオブジェクト・メタデータ符号化の装置と方法に関する。
【背景技術】
【0002】
空間オーディオ符号化ツールは当該技術において公知であり、例えばMPEGサラウンド標準で標準化されている。空間オーディオ符号化は、5個又は7個のチャネルなどのオリジナル入力チャネルから開始し、それらチャネルは再生設定におけるそれらの配置によって識別される。即ち、左チャネル、中央チャネル、右チャネル、左サラウンドチャネル、右サラウンドチャネル、及び低周波数強化チャネルである。空間オーディオ符号器は、典型的にはオリジナルチャネルから1つ以上のダウンミクスチャネルを導出し、加えて空間的キューに関連するパラメトリックデータを導出しており、その空間的キューにはチャネルコヒーレンス値におけるチャネル間レベル差(interchannel level differences)、チャネル間位相差(interchannel phase differences)、チャネル間時間差(interchannel time differences)などがある。1つ以上のダウンミクスチャネルは、空間的キューを示すパラメトリックサイド情報と一緒に空間オーディオ復号器へと伝送され、その復号器は、ダウンミクスチャネルとその関連するパラメトリックデータとを復号化して、オリジナル入力チャネルの近似されたバージョンである出力チャネルを最終的に取得する。出力設定におけるチャネルの配置は典型的には固定されており、例えば5.1フォーマット、7.1フォーマットなどである。
【0003】
そのようなチャネルベースのオーディオフォーマットは、多チャネルオーディオコンテンツを記憶又は伝送するために広く使用されており、その場合、各チャネルは所与の位置にある特異なラウドスピーカに関連している。このような種類のフォーマットを忠実に再生するためには、オーディオ信号の生成時に使用されたスピーカ一位置と同じ位置にスピーカが配置されているような、ラウドスピーカ設定が要求される。ラウドスピーカの個数を増加させると、真に音に浸りこむような改善された3Dオーディオシーンの再生が可能になる一方で、特にリビングルームのような家庭的な環境では、そのような要求を満たすことはますます困難になる。
【0004】
特異なラウドスピーカ設定を有することの必要性は、ラウドスピーカ信号が再生設定のために特異的にレンダリングされるオブジェクト・ベースの手法によって克服され得る。
【0005】
例えば空間オーディオオブジェクト符号化ツールは、当該技術において公知であり、MPEG SAOC標準(SAOC=空間オーディオオブジェクト符号化)において標準化されている。オリジナルチャネルから開始する空間オーディオ符号化とは対照的に、空間オーディオオブジェクト符号化はオーディオオブジェクトから開始し、それらオブジェクトはあるレンダリング再生設定に対して自動的に専用となる訳ではない。代わりに、再生シーン内におけるオーディオオブジェクトの配置には柔軟性があり、あるレンダリング情報を空間オーディオオブジェクト符号化・復号器へと入力することによりユーザーが決定することもできる。代替的又は追加的に、レンダリング情報、即ち再生設定におけるどの位置に、あるオーディオオブジェクトが典型的には時間にわたって配置されるべきかという情報は、追加的サイド情報又はメタデータとして伝送され得る。あるデータ圧縮を得るために幾つかのオーディオオブジェクトがSAOC符号器によって符号化され、その符号器は、あるダウンミクス情報に従ってオブジェクトをダウンミクスすることで入力オブジェクトから1つ以上の転送チャネルを計算する。更に、SAOC符号器は、オブジェクトレベル差(OLD)、オブジェクトコヒーレンス値などのオブジェクト間キューを表現しているパラメトリックサイド情報を計算する。SAC(SAC=空間オーディオ符号化)においては、オブジェクト間のパラメトリックデータが個別の時間/周波数タイルについて計算される。即ち、例えば1024個又は2048個のサンプルを有するオーディオ信号のあるフレームについて、最終的に各フレーム及び各周波数帯域に対してパラメトリックデータが存在するように、24個,32個又は64個などの周波数帯域が考慮される。一例として、あるオーディオピースが20フレームを有し、各フレームが32個の周波数帯域へと分割される場合、時間/周波数タイルの数は640個となる。
【0006】
オブジェクト・ベースの手法において、音場は離散的なオーディオオブジェクトによって記述される。そのため、とりわけ3D空間における各音源の時間変化する位置を記述するオブジェクト・メタデータが必要になる。
【0007】
先行技術における第1のメタデータ符号化概念は、空間サウンド記述インターチェンジフォーマット(SpatDIF)であり、これは未だ開発中のオーディオシーン記述フォーマットである(非特許文献1)。そのフォーマットは、オブジェクト・ベースのサウンドシーンのためのインターチェンジフォーマットとして設計され、オブジェクト軌跡についての圧縮方法を何も提供してはいない。SpatDIFは、オブジェクト・メタデータを構築するために、テキスト・ベースのオープンサウンド制御(OSC)フォーマットを使用する(非特許文献2)。しかしながら、単純なテキスト・ベースの表現はオブジェクト軌跡の圧縮された伝送のための選択肢にはならない。
【0008】
先行技術における他のメタデータ概念はオーディオシーン記述フォーマット(ASDF)(非特許文献3)であり、同様の欠点を持つテキスト・ベースの解決策である。そのデータは、拡張可能なマーク付け言語(Extensible Markup Language:XML)(非特許文献4、非特許文献5)の部分集合である、同期されたマルチメディア統合言語(Synchronized Multimedia Integration Language:SMIL)の拡張によって構築される。
【0009】
先行技術における更なるメタデータ概念は、シーンのためのオーディオバイナリフォーマット(AudioBIFS)であり、MPEG−4仕様(非特許文献6、非特許文献7)の一部であるバイナリフォーマットである。そのフォーマットは、視聴覚の3Dシーンや双方向仮想現実アプリケーション(非特許文献8)のために開発されたXMLベースの仮想現実モデリング言語(Virtual Reality Modeling Language:VRML)に深く関連している。複雑なAudioBIFS仕様は、オブジェクトの動きの経路を特定するためにシーングラフを使用する。AudioBIFSの主たる欠点は、制限されたシステム遅延及びデータストリームへのランダムアクセスが要件となるようなリアルタイム操作のために設計されていないという点である。更に、オブジェクト位置の符号化は人間のリスナーの制限された定位性能を活用していない。視聴覚シーン内の固定的なリスナー位置に対しては、オブジェクトデータは遥かに少数のビットで量子化され得る(非特許文献9)。よって、AudioBIFSの中で適用されるオブジェクト・メタデータの符号化は、データ圧縮に関して効率的でない。
【0010】
そこで、改善された効率的なオブジェクト・メタデータ符号化の概念が提供されれば、高く評価されるであろう。
【先行技術文献】
【非特許文献】
【0011】
【非特許文献1】[1] Peters, N., Lossius, T. and Schacher J. C., "SpatDIF: Principles, Specification, and Examples", 9th Sound and Music Computing Conference, Copenhagen, Denmark, Jul. 2012.
【非特許文献2】[2] Wright, M., Freed, A., "Open Sound Control: A New Protocol for Communicating with Sound Synthesizers", International Computer Music Conference, Thessaloniki, Greece, 1997.
【非特許文献3】[3] Matthias Geier, Jens Ahrens, and Sascha Spors. (2010), "Object-based audio reproduction and the audio scene description format", Org. Sound, Vol. 15, No. 3, pp. 219-227, December 2010.
【非特許文献4】[4] W3C, "Synchronized Multimedia Integration Language (SMIL 3.0)", Dec. 2008.
【非特許文献5】[5] W3C, "Extensible Markup Language (XML) 1.0 (Fifth Edition)", Nov. 2008.
【非特許文献6】[6] MPEG, "ISO/IEC International Standard 14496-3 - Coding of audio-visual objects, Part 3 Audio", 2009.
【非特許文献7】[7] Schmidt, J.; Schroeder, E. F. (2004), "New and Advanced Features for Audio Presentation in the MPEG-4 Standard", 116th AES Convention, Berlin, Germany, May 2004
【非特許文献8】[8] Web3D, "International Standard ISO/IEC 14772-1:1997 - The Virtual Reality Modeling Language (VRML), Part 1: Functional specification and UTF-8 encoding", 1997.
【非特許文献9】[9] Sporer, T. (2012), "Codierung raeumlicher Audiosignale mit leichtgewichtigen Audio-Objekten", Proc. Annual Meeting of the German Audiological Society (DGA), Erlangen, Germany, Mar. 2012.
【非特許文献10】[10] Ramer, U. (1972), "An iterative procedure for the polygonal approximation of plane curves", Computer Graphics and Image Processing, 1(3), 244?256.
【非特許文献11】[11] Douglas, D.; Peucker, T. (1973), "Algorithms for the reduction of the number of points required to represent a digitized line or its caricature", The Canadian Cartographer 10(2), 112?122.
【非特許文献12】[12] Ville Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”; J. Audio Eng. Soc., Volume 45, Issue 6, pp. 456-466, June 1997.
【発明の概要】
【発明が解決しようとする課題】
【0012】
本発明の目的は、効率的なオブジェクト・メタデータ符号化のための改善された概念を提供することである。本発明の目的は、請求項1に記載の装置と、請求項に記載の装置と、請求項12に記載のシステムと、請求項13に記載の方法と、請求項14に記載の方法と、請求項15に記載のコンピュータプログラムと、請求項16に記載の装置と、請求項17に記載の装置とによって達成される。
【課題を解決するための手段】
【0013】
1つ以上のオーディオチャネルを生成する装置が提供される。この装置は、1つ以上の圧縮済みメタデータ信号を受信するメタデータ復号器を含む。1つ以上の圧縮済みメタデータ信号の各々は複数の第1メタデータサンプルを含む。1つ以上の圧縮済みメタデータ信号の各々の第1メタデータサンプルは、1つ以上のオーディオオブジェクト信号のうちの1つのオーディオオブジェクト信号に関連する情報を示す。メタデータ復号器は1つ以上の再生メタデータ信号を、それら1つ以上の再生メタデータ信号の各々が1つ以上の圧縮済みメタデータ信号の1つの第1メタデータサンプルを含み、さらに複数の第2メタデータサンプルを含むように、生成するよう構成されている。更に、メタデータ復号器は、1つ以上の再生メタデータ信号の各再生メタデータ信号の第2メタデータサンプルの各々を、前記再生メタデータ信号の第1メタデータサンプルの少なくとも2つに依存して、生成するよう構成されている。更に、この装置は、1つ以上のオーディオオブジェクト信号に依存しかつ1つ以上の再生メタデータ信号に依存して、1つ以上のオーディオチャネルを生成するオーディオチャネル生成部を含む。
【0014】
更に、1つ以上の符号化済みオーディオ信号と1つ以上の圧縮済みメタデータ信号とを含む符号化済みオーディオ情報を生成する装置が提供される。この装置は、1つ以上のオリジナル・メタデータ信号を受信するメタデータ符号器を含む。1つ以上のオリジナル・メタデータ信号の各々は複数のメタデータサンプルを含む。1つ以上のオリジナル・メタデータ信号の各々のメタデータサンプルは、1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示す。メタデータ符号器は、1つ以上の圧縮済みメタデータ信号を以下のように生成するよう構成されている。即ち、1つ以上の圧縮済みメタデータ信号の各圧縮済みメタデータ信号が、オリジナル・メタデータ信号の1つにおける2つ以上のメタデータサンプルの第1グループを含み、且つ、前記圧縮済みメタデータ信号が、オリジナル・メタデータ信号の前記1つにおける他の2つ以上のメタデータサンプルの第2グループのメタデータサンプルを何も含まないように、生成する。更に、この装置は、1つ以上のオーディオオブジェクト信号を符号化して、1つ以上の符号化済みオーディオ信号を取得する、オーディオ符号器を含む。
【0015】
更に、あるシステムが提供される。そのシステムは、上述のような1つ以上の符号化済みオーディオ信号と1つ以上の圧縮済みメタデータ信号とを含む、符号化済みオーディオ情報を生成する装置を含む。更に、そのシステムは、1つ以上の符号化済みオーディオ信号と1つ以上の圧縮済みメタデータ信号とを受信し、且つ、上述のような1つ以上の符号化済みオーディオ信号と1つ以上の圧縮済みメタデータ信号とに依存して1つ以上のオーディオチャネルを生成する装置を含む。
【0016】
実施形態によれば、オブジェクト・メタデータのためのデータ圧縮概念が提供され、それら概念は、限定されたデータレートでの伝送チャネルのための効率的な圧縮メカニズムを達成する。更に、純粋な方位角変化、例えばカメラ回転に対する良好な圧縮レートが達成される。更に、提案の概念は、例えば位置的ジャンプのような、不連続的な軌跡をサポートする。更に、複雑性の低い復号化を実現できる。更に、限定的な再初期化時間を有するランダムアクセスを達成できる。
【0017】
1つ以上のオーディオチャネルを生成する方法が提供される。その方法は、
−1つ以上の圧縮済みメタデータ信号を受信するステップであって、1つ以上の圧縮済みメタデータ信号の各々が複数の第1メタデータサンプルを含み、1つ以上の圧縮済みメタデータ信号の各々の第1メタデータサンプルが、1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示す、ステップと、
−1つ以上の再生メタデータ信号を生成するステップであって、1つ以上の再生メタデータ信号の各々は、1つ以上の圧縮済みメタデータ信号のうちの1つの第1メタデータサンプルを含みかつ複数の第2メタデータサンプルを含み、1つ以上の再生メタデータ信号を生成するステップが、1つ以上の再生メタデータ信号の各再生メタデータ信号の第2メタデータサンプルの各々を、前記再生メタデータ信号の第1メタデータサンプルの少なくとも2つに依存して生成するステップを含む、ステップと、
−1つ以上のオーディオオブジェクト信号に依存し、かつ1つ以上の再生メタデータ信号に依存して、1つ以上のオーディオチャネルを生成するステップと、
を含む。
【0018】
更に、1つ以上の符号化済みオーディオ信号と1つ以上の圧縮済みメタデータ信号とを含む、符号化済みオーディオ情報を生成する方法が提供される。その方法は、
−1つ以上のオリジナル・メタデータ信号を受信するステップであって、1つ以上のオリジナル・メタデータ信号の各々は、複数のメタデータサンプルを含み、1つ以上のオリジナル・メタデータ信号の各々のメタデータサンプルは、1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示す、ステップと、
−1つ以上の圧縮済みメタデータ信号を生成するステップであって、1つ以上の圧縮済みメタデータ信号の各圧縮済みメタデータ信号が、オリジナル・メタデータ信号のうちの1つの、メタデータサンプルの2つ以上からなる第1グループを含み、且つ、前記圧縮済みメタデータ信号が、オリジナル・メタデータ信号のうちの前記1つの、メタデータサンプルの他の2つ以上からなる第2グループのメタデータサンプルを何も含まないように、生成するステップと、
−1つ以上のオーディオオブジェクト信号を符号化して、1つ以上の符号化済みオーディオ信号を取得するステップと、
を含む。
【0019】
更に、コンピュータ又は信号プロセッサ上で作動するとき、上述の方法を実行するコンピュータプログラムが提供される。
【0020】
以下に、本発明の実施形態を、図面を参照しながらより詳細に説明する。
【図面の簡単な説明】
【0021】
図1】1つ以上のオーディオチャネルを生成する、一実施形態に係る装置を示す。
図2】1つ以上の符号化済みオーディオ信号及び1つ以上の圧縮済みメタデータ信号を含む符号化済みオーディオ情報を生成する、一実施形態に係る装置を示す。
図3】一実施形態に係るシステムを示す。
図4】方位角、仰角及び半径により表現された、原点からの3次元空間におけるオーディオオブジェクトの位置を示す。
図5】オーディオチャネル生成部により想定されたオーディオオブジェクト及びラウドスピーカ設定の位置を示す。
図6】一実施形態に係るメタデータ符号化を示す。
図7】一実施形態に係るメタデータ復号化を示す。
図8】他の実施形態に係るメタデータ符号化を示す。
図9】他の実施形態に係るメタデータ復号化を示す
図10】別の実施形態に係るメタデータ符号化を示す。
図11】別の実施形態に係るメタデータ復号化を示す
図12】3Dオーディオ符号器の第1実施形態を示す。
図13】3Dオーディオ復号器の第1実施形態を示す。
図14】3Dオーディオ符号器の第2実施形態を示す。
図15】3Dオーディオ復号器の第2実施形態を示す。
図16】3Dオーディオ符号器の第3実施形態を示す。
図17】3Dオーディオ復号器の第3実施形態を示す。
【発明を実施するための形態】
【0022】
図2は、1つ以上の符号化済みオーディオ信号と1つ以上の圧縮済みメタデータ信号とを含む、符号化済みオーディオ情報を生成するための一実施形態に係る装置250を示す。
【0023】
装置250は、1つ以上のオリジナル・メタデータ信号を受信するメタデータ符号器210を含む。1つ以上のオリジナル・メタデータ信号の各々は、複数のメタデータサンプルを含む。1つ以上のオリジナル・メタデータ信号の各々のオリジナル・メタデータサンプルは、1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示す。メタデータ符号器210は、1つ以上の圧縮済みメタデータ信号の各圧縮済みメタデータ信号がオリジナル・メタデータ信号の1つの2つ以上のメタデータサンプルの第1グループを含み、かつ前記圧縮済みメタデータ信号がオリジナル・メタデータ信号の前記1つのメタデータサンプルの他の2つ以上の第2グループのメタデータサンプルを何も含まないように、1つ以上の圧縮済みメタデータ信号を生成するよう構成されている。
【0024】
更に装置250は、1つ以上のオーディオオブジェクト信号を符号化して、1つ以上の符号化済みオーディオ信号を取得するオーディオ符号器220を含む。例えば、オーディオチャネル生成部は、1つ以上のオーディオオブジェクト信号を符号化し、1つ以上の符号化済みオーディオ信号として1つ以上のSAOC転送チャネルを取得する、現状技術に係るSAOC符号器を備えていてもよい。1つ以上のオーディオオブジェクトチャネルを符号化するための種々の他の符号化技術が代替的又は追加的に使用されて、1つ以上のオーディオオブジェクトチャネルを符号化してもよい。
【0025】
図1は、1つ以上のオーディオチャネルを生成する一実施形態に係る装置100を示す。
【0026】
装置100は、1つ以上の圧縮済みメタデータ信号を受信するメタデータ復号器110を含む。1つ以上の圧縮済みメタデータ信号の各々は、複数の第1メタデータサンプルを含む。1つ以上の圧縮済みメタデータ信号の各々の第1メタデータサンプルは、1つ以上のオーディオオブジェクト信号のうちの1つのオーディオオブジェクト信号に関連する情報を示す。メタデータ復号器110は1つ以上の再生メタデータ信号を生成するよう構成されており、それら1つ以上の再生メタデータ信号の各々は、1つ以上の圧縮済みメタデータ信号の1つの第1メタデータサンプルを含み、更に複数の第2メタデータサンプルを含む。更にメタデータ復号器110は、1つ以上の再生メタデータ信号の各再生メタデータ信号の第2メタデータサンプルの各々を、前記再生メタデータ信号の第1メタデータサンプルの少なくとも2つに依存して生成するよう構成されている。
【0027】
更に装置100は、1つ以上のオーディオオブジェクト信号に依存しかつ1つ以上の再生メタデータ信号に依存して、1つ以上のオーディオチャネルを生成するオーディオチャネル生成部120を含む。
【0028】
メタデータサンプルについて言及する場合には、1つのメタデータサンプルは、そのメタデータサンプル値によって特徴付けられるだけでなく、そのメタデータサンプルが関連する時点によっても特徴付けられるという点にも留意すべきである。例えば、そのような時点とは、オーディオシーケンスの開始点又はそれと同様な点に対して相対的であってもよい。例えば、インデックスn又はkはメタデータ信号内のメタデータサンプルの位置を識別していてもよく、これにより、(開始時刻に関連する)(相対的)時点が示されてもよい。注意すべきは、2つのメタデータサンプルが異なる時点に関連する場合、(時々起こり得ることであるが)たとえそれらのメタデータサンプル値が同一であったとしても、それら2つのメタデータサンプルは異なるメタデータサンプルであるということである。
【0029】
上述の実施形態は、オーディオオブジェクト信号と関連する(メタデータ信号に含まれる)メタデータ情報がゆっくりと変化する場合が多い、という知見に基づいている。
【0030】
例えば、メタデータ信号は、オーディオオブジェクトについての位置情報(例えばオーディオオブジェクトの位置を定義する方位角、仰角又は半径)を示してもよい。殆どの時点でオーディオオブジェクトの位置は変化しないか又はゆっくりとだけ変化する、と想定されてもよい。
【0031】
あるいは、メタデータ信号は、例えばオーディオオブジェクトの音量(例えばゲイン)を示してもよく、殆どの時点でオーディオオブジェクトの音量はゆっくりと変化すると想定されてもよい。
【0032】
このような理由により、全ての時点における(完全な)メタデータ情報を伝送する必要はない。その代わり、幾つかの実施形態によれば、(完全な)メタデータ情報が例えばある時点においてだけ伝送されてもよく、例えばN番目の時点毎に周期的に、例えば時点0,N,2N,3N等において伝送されてもよい。その場合、復号器側では、(例えば時点1,2,…,N−1などの)中間時点に関し、2つ以上の時点についてのメタデータサンプルに基づいてメタデータが近似され得る。例えば、時点1,2,…,N−1についてのメタデータサンプルは、復号器側において、時点0及びNについてのメタデータサンプルに依存して、例えば線形補間を使用して近似され得る。上述したように、そのような手法は、オーディオオブジェクトについてのメタデータ情報が一般的に低速で変化するという知見に基づいている。
【0033】
例えば、実施形態においては、3個のメタデータ信号が3D空間におけるオーディオオブジェクトの位置を特定する。メタデータ信号の1番目は、例えばオーディオオブジェクトの位置の方位角を特定してもよい。メタデータ信号の2番目は、例えばオーディオオブジェクトの位置の仰角を特定してもよい。メタデータ信号の3番目は、例えばオーディオオブジェクトの距離に関係する半径を特定してもよい。
【0034】
方位角と仰角と半径とは、3D空間におけるオーディオオブジェクトの原点からの位置を明確に定義する。これについては図4を参照しながら説明する。
【0035】
図4は、三次元(3D)空間におけるオーディオオブジェクトの原点400からの位置410を、方位角と仰角と半径とで示す。
【0036】
仰角は、例えば、原点からオブジェクト位置までの直線と、この直線のxy平面(x軸とy軸とによって定義される平面)への垂直投影線との角度を特定する。方位角は、例えばx軸と前記垂直投影線との角度を定義する。方位角と仰角とを特定することで、原点400とオーディオオブジェクトの位置410とを通過する直線415が定義され得る。更に半径を特定することで、オーディオオブジェクトの正確な位置410が定義され得る。
【0037】
一実施形態において、方位角は−180°<方位角≦180°の範囲で定義され、仰角は−90°≦仰角≦90°の範囲で定義され、半径は例えばメートル[m](0m以上である)で定義され得る。
【0038】
例えばxyz座標系におけるオーディオオブジェクト位置の全てのx値がゼロ以上であると想定され得るような他の実施形態においては、方位角は−90°≦方位角≦90°の範囲で定義され、仰角は−90°≦仰角≦90°の範囲で定義され、半径は例えばメートル[m]で定義され得る。
【0039】
更なる実施形態において、方位角が−128°<方位角≦128°の範囲で定義され、仰角が−32°≦仰角≦32°の範囲で定義され、半径が例えば対数スケールで定義され得るように、メタデータ信号はスケールされてもよい。幾つかの実施形態において、オリジナル・メタデータ信号、処理済みメタデータ信号、及び再生メタデータ信号は、それぞれ、1つ以上のオーディオオブジェクト信号の1つの位置情報のスケールされた表現及び/又は音量のスケールされた表現を含んでもよい。
【0040】
オーディオチャネル生成部120は、例えば、1つ以上のオーディオオブジェクト信号に依存しかつ再生メタデータ信号に依存して、1つ以上のオーディオチャネルを生成するよう構成されてもよく、その再生メタデータ信号は、例えばオーディオオブジェクトの位置を示してもよい。
【0041】
図5は、オーディオオブジェクトの位置と、オーディオチャネル生成部により想定されるラウドスピーカ設定とを示す。xyz座標系の原点500が示されている。更に、第1オーディオオブジェクトの位置510と、第2オーディオオブジェクトの位置520とが示されている。更に、図5は、オーディオチャネル生成部120が4個のラウドスピーカのための4個のオーディオチャネルを生成するシナリオを示す。オーディオチャネル生成部120は、4個のラウドスピーカ511,512,513,514が図5に示す位置に配置されていると想定している。
【0042】
図5において、第1オーディオオブジェクトは、ラウドスピーカ511と512の想定位置に近い位置510に配置されており、ラウドスピーカ513と514からは遠い位置に配置されている。従って、オーディオチャネル生成部120は、第1オーディオオブジェクト510がラウドスピーカ511及び512により再生され、ラウドスピーカ513及び514では再生されないように、4個のオーディオチャネルを生成してもよい。
【0043】
他の実施形態において、オーディオチャネル生成部120は、第1オーディオオブジェクト510がラウドスピーカ511及び512により高い音量で再生され、ラウドスピーカ513及び514により低い音量で再生されるように、4個のオーディオチャネルを生成してもよい。
【0044】
更に、第2オーディオオブジェクトは、ラウドスピーカ513と514の想定位置に近い位置520に配置されており、ラウドスピーカ511と512からは遠い位置に配置されている。従って、オーディオチャネル生成部120は、第2オーディオオブジェクト520がラウドスピーカ513及び514により再生され、ラウドスピーカ511及び512では再生されないように、4個のオーディオチャネルを生成してもよい。
【0045】
他の実施形態において、オーディオチャネル生成部120は、第2オーディオオブジェクト520がラウドスピーカ513及び514により高い音量で再生され、ラウドスピーカ511及び512により低い音量で再生されるように、4個のオーディオチャネルを生成してもよい。
【0046】
代替的な実施形態において、オーディオオブジェクトの位置を特定するために、2個のメタデータ信号だけが使用されてもよい。例えば、全てのオーディオオブジェクトが単一平面に配置されていると想定される場合には、例えば方位角と半径だけが特定されてもよい。
【0047】
更に他の実施形態においては、各オーディオオブジェクトのために、単一のメタデータ信号だけが位置情報として符号化されかつ伝送される。例えば、あるオーディオオブジェクトについて、方位角だけが位置情報として特定されてもよい(例えば全てのオーディオオブジェクトが同一平面上に配置され、中心点から同一距離を持ち、従って同一半径を有すると想定される場合など)。方位角情報は、例えば、オーディオオブジェクトが左のラウドスピーカに近く、右のラウドスピーカからは遠いと判定することで十分であってもよい。そのような状況において、オーディオチャネル生成部120は、例えばオーディオオブジェクトが左のラウドスピーカによって再生されるが、右のラウドスピーカでは再生されないように、1つ以上のオーディオチャネルを生成してもよい。
【0048】
例えば、ラウドスピーカのオーディオチャネルの各々の中におけるオーディオオブジェクト信号の重みを決定するために、ベクトル方式振幅パニング(Vector Base Amplitude Panning (VBAP))が使用されてもよい(例えば非特許文献12を参照)。例えば、VBAPに関しては、オーディオオブジェクトが仮想音源に関連すると想定されている。
【0049】
実施形態において、各オーディオオブジェクトについて、更なるメタデータ信号が音量、例えばゲイン(例えばデシベル[dB]で表現された)を特定してもよい。
【0050】
例えば図5において、第1ゲイン値は、位置510に配置された第1オーディオオブジェクトのための更なるメタデータ信号により特定されてもよく、その値は、位置520に配置された第2オーディオオブジェクトのための別の更なるメタデータ信号によって特定される第2ゲイン値よりも高い。そのような状況において、ラウドスピーカ511及び512は第1オーディオオブジェクトを、ラウドスピーカ513及び514が第2オーディオオブジェクトを再生する音量よりも高い音量で再生してもよい。
【0051】
実施形態はまた、オーディオオブジェクトのそのようなゲイン値がゆっくりと変化する場合が多いと想定している。従って、そのようなメタデータ情報を全ての時点において伝送する必要はない。代わりに、メタデータ情報は、ある時点において伝送されるだけである。中間の時点においては、メタデータ情報は、例えば伝送された先行するメタデータサンプルと後続のメタデータサンプルとを使用して近似されてもよい。例えば、中間値の近似のために線形補間が使用されてもよい。例えば、オーディオオブジェクトの各々のゲイン、方位角、仰角及び/又は半径が、そのようなメタデータが伝送されなかった時点のために近似されてもよい。
【0052】
そのような手法により、メタデータの伝送レートにおける相当な節約を達成し得る。
【0053】
図3は、一実施形態に従うシステムを示す。
【0054】
このシステムは、1つ以上の符号化済みオーディオ信号と1つ以上の処理済みメタデータ信号とを含む符号化済みオーディオ情報を生成する、上述のような装置250を備える。
【0055】
更に、そのシステムは、1つ以上の符号化済みオーディオ信号と1つ以上の圧縮済みメタデータ信号とを受信し、且つ、その1つ以上の符号化済みオーディオ信号と1つ以上の圧縮済みメタデータ信号とに依存して、1つ以上のオーディオチャネルを上述のように生成する装置100を備える。
【0056】
例えば、1つ以上のオーディオオブジェクトを符号化するための符号化装置250がSAOC符号器を使用した場合には、1つ以上の符号化済みオーディオ信号が、現状技術に係るSAOC復号器を使用して1つ以上のオーディオチャネルを生成する装置100によって復号化されて、1つ以上のオーディオオブジェクト信号が取得されてもよい。
【0057】
オブジェクト位置をメタデータに関する一例としてだけ考慮する場合、限定的な再初期化時間でランダムアクセスを可能にするために、実施形態は、全てのオブジェクト位置の完全な再伝送を規則的なベースで提供する。
【0058】
一実施形態によれば、装置100はランダムアクセス情報を受信するよう構成されており、1つ以上の圧縮済みメタデータ信号の各圧縮済みメタデータ信号について、ランダムアクセス情報は前記圧縮済みメタデータ信号のアクセスされた信号部分を指示しており、前記メタデータ信号の少なくとも1つの他の信号部分は、前記ランダムアクセス情報によって指示されていない。更に、メタデータ復号器110は、前記圧縮済みメタデータ信号の前記アクセスされた信号部分の第1メタデータサンプルに依存する一方で、前記圧縮済みメタデータ信号の他の如何なる信号部分の他の如何なる第1メタデータサンプルにも依存せずに、1つ以上の再生メタデータ信号のうちの1つを生成するよう構成されている。換言すれば、ランダムアクセス情報を特定することで、圧縮済みメタデータ信号の各々の一部が特定されることができ、前記メタデータ信号の他の部分は特定されない。この場合、前記圧縮済みメタデータ信号の特定された部分だけが、再生メタデータ信号の1つとして再生されるが、他の部分は再生されない。圧縮済みメタデータ信号の伝送された第1メタデータサンプルが、ある時点についての圧縮済みメタデータ信号の完全なメタデータ情報を表現しているので(ただし、他の時点についてはメタデータ情報は伝送されない)、再生は可能である。
【0059】
図6は、一実施形態に係るメタデータ符号化を示す。実施形態に係るメタデータ符号器210が、図6で示すメタデータ符号化を実行するよう構成されてもよい。
【0060】
図6において、s(n)はオリジナル・メタデータ信号の1つを表現し得る。例えば、s(n)は、オーディオオブジェクトの1つの方位角の関数などを表現してもよく、nは、(例えばオリジナル・メタデータ信号におけるサンプル位置を指示することで)時間を示してもよい。
【0061】
オーディオサンプリングレートよりも有意に低い(例えば1:1024又はそれよりも低い)サンプリングレートでサンプリングされる、経時変化する軌跡要素s(n)は、量子化され(611を参照)、かつファクタNでダウンサンプリングされる(612を参照)。その結果、上述した規則的に伝送されるデジタル信号がもたらされ、ここではz(k)で示す。
【0062】
z(k)は、1つ以上の圧縮済みメタデータ信号のうちの1つである。例えば、
のN番目毎のメタデータサンプルは圧縮済みメタデータ信号z(k)のメタデータサンプルでもあるが、
のN番目毎のメタデータサンプル間の他のN−1個のメタデータサンプルは、圧縮済みメタデータ信号z(k)のメタデータサンプルとはならない。
【0063】
例えば、s(n)において、nは(例えばオリジナル・メタデータ信号内のサンプル位置を指示することで)時間を示し、ここで、nは正の整数又は0である(例えば開始時点:n=0)と仮定する。Nはダウンサンプリングファクタである。例えば、N=32又は他の任意の適切なダウンサンプリングファクタである。
【0064】
例えば、オリジナル・メタデータ信号sから圧縮済みメタデータ信号zを得るためのダウンサンプリング612は、例えば以下のように実現されてもよい。
[数1]
【0065】
従って、
[数2]
【0066】
図7は、一実施形態に係るメタデータ復号化を示す。実施形態に係るメタデータ復号器110が図7で示すメタデータ復号化を実行するよう構成されてもよい。
【0067】
図7に示す実施形態によれば、メタデータ復号器110は、1つ以上の再生メタデータ信号の各再生メタデータ信号を、1つ以上の圧縮済みメタデータ信号の1つをアップサンプリングすることにより生成するよう構成される。ここで、メタデータ復号器110は、前記再生メタデータ信号の第1メタデータサンプルの少なくとも2つに依存して、線形補間を実行することにより、1つ以上の再生メタデータ信号の各再生メタデータ信号の第2メタデータサンプルの各々を生成するよう構成されている。
【0068】
従って、各再生メタデータ信号は、その圧縮済みメタデータ信号の全てのメタデータサンプルを含む(これらのサンプルは、1つ以上の圧縮済みメタデータ信号の「第1メタデータサンプル」と称される)。
【0069】
アップサンプリングを実行することで、追加的な(「第2の」)メタデータサンプルが再生メタデータ信号へと追加される。アップサンプリングのステップは、再生メタデータ信号内のどの位置に(例えばどの「相対的な」時点に)、追加的な(「第2の」)メタデータサンプルがそのメタデータ信号に加えられたかを決定する。
【0070】
線形補間を実行することで、第2メタデータサンプルのメタデータサンプル値が決定される。その線形補間は、圧縮済みメタデータ信号の2個のメタデータサンプル(再生メタデータ信号の第1メタデータサンプルになったサンプル)に基づいて実行される。
【0071】
実施形態によれば、アップサンプリングと、線形補間を実行することによる第2メタデータサンプルの生成とは、例えば単一ステップで実行されてもよい。
【0072】
図7において、線形補間(722を参照)と組み合わせたアップサンプリング処理(721を参照)は、オリジナル信号の粗い近似をもたらす。そのアップサンプリング処理(721を参照)及び線形補間(722を参照)は、例えば単一ステップにおいて実行されてもよい。
【0073】
例えば、復号器側におけるアップサンプリング処理(721)及び線形補間(722)は、例えば以下のように実行されてもよい。
[数3]
[数4]
【0074】
ここで、z(k)は圧縮済みメタデータ信号zの実際に受信されたメタデータサンプルであり、z(k-1)は実際に受信されたメタデータサンプルz(k)の直前に受信された圧縮済みメタデータ信号zのメタデータサンプルである。
【0075】
図8は、他の実施形態に係るメタデータ符号化を示す。実施形態に係るメタデータ符号器210が図8で示すメタデータ符号化を実行するよう構成されてもよい。
【0076】
実施形態において、例えば図8に示すように、このメタデータ符号化の中では、遅延補償された入力信号と線形補間された粗い近似との間の符号化された差分によって、細密構造が特定されてもよい。
【0077】
そのような実施形態によれば、アップサンプリング処理と線形補間との組合せも、符号器側でのメタデータ符号化の一部として実行される(図8の621及び622を参照)。ここでも、アップサンプリング処理(621参照)と線形補間(622参照)とは、例えば単一ステップにおいて実行されてもよい。
【0078】
上述したように、メタデータ符号器210は1つ以上の圧縮済みメタデータ信号を生成するよう構成されており、その場合、1つ以上の圧縮済みメタデータ信号の各圧縮済みメタデータ信号が、1つ以上のオリジナル・メタデータ信号のうちの1つのオリジナル・メタデータ信号の2つ以上のメタデータサンプルのからなる第1グループを含むように生成する。前記圧縮済みメタデータ信号は、前記オリジナル・メタデータ信号と関連すると考えることができる。
【0079】
1つ以上のオリジナル・メタデータ信号の1つのオリジナル・メタデータ信号に含まれ、かつ当該オリジナル・メタデータ信号に関連する圧縮済みメタデータ信号に含まれる、メタデータサンプルの各々は、複数の第1メタデータサンプルの1つとして考えることができる。
【0080】
更に、1つ以上のオリジナル・メタデータ信号のうちの1つのオリジナル・メタデータ信号に含まれ、かつ当該オリジナル・メタデータ信号に関連する圧縮済みメタデータ信号に含まれない、メタデータサンプルの各々は、複数の第2メタデータサンプルの1つである。
【0081】
図8の実施形態によれば、メタデータ符号器210は、1つ以上のオリジナル・メタデータ信号の前記1つの第1メタデータサンプルの少なくとも2つに依存して、線形補間を実行することで、オリジナル・メタデータ信号の1つにおける複数の第2メタデータサンプルの各々について、近似済みメタデータサンプルを生成するよう構成されている。
【0082】
更に図8の実施形態において、メタデータ符号器210は、1つ以上のオリジナル・メタデータ信号の前記1つの複数の第2メタデータサンプルの各第2メタデータサンプルについて、ある差分値を生成するよう構成されており、その場合、前記差分値が、前記第2メタデータサンプルと、当該第2メタデータサンプルの近似済みメタデータサンプルと、の差を指示するように生成される。
【0083】
後段において図10を参照しながら説明する好ましい一実施形態において、メタデータ符号器210は、例えば、1つ以上のオリジナル・メタデータ信号の前記1つの前記複数の第2メタデータサンプルの差分値の少なくとも1つについて、前記差分値の少なくとも1つの各々がある閾値よりも大きいか否か、を決定するよう構成されてもよい。
【0084】
図8に係る実施形態において、近似済みメタデータサンプルは、例えば圧縮済みメタデータ信号z(k)に対してアップサンプリングを実行すること、及び線形補間を実行することにより、(例えば信号s''のサンプルs''(n)として)決定されてもよい。アップサンプリング及び線形補間は、例えば符号器側のメタデータ符号化の一部として(図8の621と622を参照)実行されてもよく、例えば符号721と722を参照しながらメタデータ復号化について説明したものと同様である。
[数5]
[数6]
【0085】
例えば図8で示された実施形態では、メタデータ符号化を実行する場合、差分値は、630において以下の差分について決定されてもよい。
[数7]
【0086】
実施形態においては、1つ以上のこれら差分値がメタデータ復号器へと伝送される。
【0087】
図9は、他の実施形態に係るメタデータ復号化を示す。実施形態に係るメタデータ復号器110が図9で示すメタデータ復号化を実行するよう構成されてもよい。
【0088】
上述したように、1つ以上の再生メタデータ信号の各再生メタデータ信号は、1つ以上の圧縮済みメタデータ信号の1つの圧縮済みメタデータ信号の第1メタデータサンプルを含む。前記再生メタデータ信号は、前記圧縮済み信号と関連していると考えられる。
【0089】
図9により示す実施形態において、メタデータ復号器110は、1つ以上の再生メタデータ信号の各々の第2メタデータサンプルを、当該再生メタデータ信号について複数の近似済みメタデータサンプルを生成することで、生成するよう構成されており、メタデータ復号器110は、複数の近似済みメタデータサンプルの各々を、当該再生メタデータ信号の第1メタデータサンプルの少なくとも2つに依存して生成するよう構成されている。例えば、これら近似済みメタデータサンプルは、図7を参照しながら説明したように、線形補間によって生成されてもよい。
【0090】
図9に示す実施形態によれば、メタデータ復号器110は、1つ以上の圧縮済みメタデータ信号の1つの圧縮済みメタデータ信号について複数の差分値を受信するよう構成されている。メタデータ復号器110は更に、当該圧縮済みメタデータに関連する再生メタデータ信号の近似済みメタデータサンプルの1つに対し、複数の差分値の各々を加算して、当該再生メタデータ信号の第2メタデータサンプルを取得するよう構成されている。
【0091】
近似済みメタデータサンプルであって、それに関する差分値が受信されている近似済みメタデータサンプルの全てに対し、その差分値がその近似済みメタデータサンプルに加算されて、第2メタデータサンプルが取得される。
【0092】
一実施形態によれば、近似済みメタデータサンプルであって、それに関する差分値が受信されていない近似済みメタデータサンプルは、再生メタデータ信号の第2メタデータサンプルとして使用される。
【0093】
しかし、他の実施形態によれば、ある近似済みメタデータサンプルについて差分値が受信されていない場合、当該近似済みメタデータサンプルのために、ある近似済み差分値が1つ以上の受信された差分値に依存して生成され、当該近似済み差分値が後段で示すように当該近似済みメタデータサンプルに加算される。
【0094】
図9に示す実施形態によれば、受信された差分値は、アップサンプリングされたメタデータ信号の対応するメタデータサンプルに加算される(730を参照)。これにより、差分値が伝送されてきた対応する補間済みメタデータサンプルは、必要に応じて修正され、正確なメタデータサンプルが取得され得る。
【0095】
図8のメタデータ符号化に戻ると、好ましい実施形態において、メタデータサンプルを符号化するために使用されるビット数よりも少数のビットが、差分値を符号化するために使用される。これらの実施形態は、(例えばN個の)連続するメタデータサンプルが大部分の時点において僅かしか変化しない、という知見に基づいている。例えば、ある種のメタデータサンプルが例えば8ビットで符号化されると、これらのメタデータサンプルは256個の異なる値の中の1つをとることができる。(例えばN個の)連続するメタデータ値の一般的に僅かな変化により、例えば5ビットだけで差分値を符号化することが十分と考えられる。従って、差分値が伝送される場合でも、伝送されるビット数は低減され得る。
【0096】
好ましい実施形態においては、1つ以上の差分値が伝送され、1つ以上の差分値の各々はメタデータサンプルの各々よりも少ないビットを用いて符号化され、差分値の各々は整数値である。
【0097】
一実施形態によれば、メタデータ符号器110は、1つ以上の圧縮済みメタデータ信号の内の1つの1つ以上のメタデータサンプルを第1のビット数を用いて符号化するよう構成されており、ここで、前記1つ以上の圧縮済みメタデータ信号の内の1つの前記1つ以上のメタデータサンプルの各々は整数を示す。更に、メタデータ符号器(110)は、1つ以上の差分値を第2のビット数を用いて符号化するよう構成されており、ここで、前記1つ以上の差分値の各々は整数を示し、前記第2のビット数は前記第1のビット数よりも少ない。
【0098】
例えば一実施形態において、メタデータサンプルが8ビットで符号化された方位角を表現できると考慮されたい。例えば、その方位角は−90≦方位角≦90の整数であってもよい。従って、その方位角は181個の異なる値をとり得る。しかし、(例えばN個の)後続の方位角サンプルは、例えば±15以下しか変化しないと想定することができ、その場合、差分値を符号化するために5ビット(25=32)で十分となり得る。差分値が整数として表現される場合、その差分値を決定することは、伝送されるべき追加的な値を適切な値領域へと自動的に変換することになる。
【0099】
例えば、第1オーディオオブジェクトの第1方位角値が60°であり、その後続の値が45°から75°まで変化する場合を考慮されたい。さらに、第2オーディオオブジェクトの第2方位角値が−30°であり、その後続の値が−45°から−15°まで変化する場合を考慮されたい。第1オーディオオブジェクトの両方の後続の値についての差分値、及び第2オーディオオブジェクトの両方の後続の値についての差分値を決定すると、第1方位角値及び第2方位角値の差分値は両方とも−15°から+15°までの値領域内にある。よって、差分値の各々を符号化するために5ビットで十分となり、差分値を符号化するビットシーケンスは、第1方位角の差分値と第2方位角の差分値とに対して同じ意味を持つ。
【0100】
一実施形態において、各差分値であって、圧縮済みメタデータ信号の中にそれに関するメタデータサンプルが存在しない各差分値が、復号化側へと伝送される。更に、一実施形態によれば、各差分値であって、圧縮済みメタデータ信号の中にそれに関するメタデータサンプルが存在しない各差分値は、メタデータ復号器により受信されかつ処理される。しかし、図10及び図11に示す好ましい実施形態の幾つかは、異なる概念を実現する。
【0101】
図10は更なる実施形態に係るメタデータ符号化を示す。実施形態に係るメタデータ符号器210は、図10に示すメタデータ符号化を実行するよう構成されてもよい。
【0102】
上述した実施形態の幾つかと同様に、図10において、差分値は、例えば圧縮済みメタデータ信号に含まれないオリジナル・メタデータ信号の各メタデータサンプルについて決定される。例えば、時刻n=0及びn=Nにおけるメタデータサンプルが圧縮済みメタデータ信号に含まれ、時刻n=1からn=N−1までのメタデータサンプルが圧縮済みメタデータ信号に含まれていない場合、差分値は時刻n=1からn=N−1までに関して決定される。
【0103】
しかしながら、図10の実施形態によれば、次に640においてポリゴン近似(polygon approximation)が実行される。メタデータ符号器210は、差分値の内のどれが伝送されるべきかを決定し、そもそも差分値が伝送されるべきか否かをも決定する。
【0104】
例えば、メタデータ210は、ある閾値を超える差分値を有する差分値だけを伝送するよう構成されてもよい。
【0105】
他の実施形態においては、メタデータ符号器210は、差分値であって、対応するメタデータサンプルに対するその比がある閾値を超える差分値だけを伝送するよう構成されてもよい。
【0106】
一実施形態において、メタデータ符号器210は、最大の絶対値差分値について、この絶対値差分値がある閾値を超えるかどうかを検査する。絶対値差分値が閾値を超える場合、その差分値が伝送され、その他の場合には、差分値は全く伝送されず、検査は終了する。その検査は2番目に大きな差分値について続行され、3番目に大きな差分値等々と続行されて、全ての差分値がその閾値を下回るまで続行される。
【0107】
必ずしも全ての差分値が伝送される必要はないので、実施形態によれば、メタデータ符号器210は、(図10における値y1[k],…,yN-1[k]の1つである)差分値自体(のサイズ)を符号化するだけでなく、オリジナル・メタデータ信号のどのメタデータサンプルに対してその差分値が関係しているのかを示す情報(図10における値x1[k],…,xN-1[k]の1つ)をも伝送する。例えば、メタデータ符号器210は、差分値が関連する時刻を符号化してもよい。例えば、メタデータ符号器210は、圧縮済みメタデータ信号内で既に伝送されているメタデータサンプル0とNとの間のどのメタデータサンプルに差分値が関係しているのかを示すために、1からN−1までの間のある値を符号化してもよい。ポリゴン近似の出力において値 x1[k],…,xN-1[k],y1[k],…,yN-1[k]を列記していることは、必ずしもこれら全ての値が伝送されるという意味ではなく、差分値に依存して、これらの値ペアの内の何も伝送されないか、1つ、複数、又は全てが伝送されることを意味している。
【0108】
一実施形態において、メタデータ符号器210は、例えばN個の連続的な差分値のセグメントを処理してもよく、各セグメントを、可変数の量子化されたポリゴン点[xi, yi]によって形成されるポリゴンコース(polygon course)によって近似してもよい。
【0109】
差分信号を十分な精度で近似するために必要なポリゴン点の個数は、平均的に、N個よりも有意に小さいことが予想され得る。また、[xi, yi]は小さな整数であるため、低いビット数で符号化され得る。
【0110】
図11は更なる実施形態に係るメタデータ復号化を示す。実施形態に係るメタデータ復号器110は、図11に示すメタデータ復号化を実行するよう構成されてもよい。
【0111】
実施形態において、メタデータ復号器110は、幾つかの差分値を受信し、これら差分値を730において対応する線形補間済みメタデータサンプルに対して加算する。
【0112】
幾つかの実施形態において、メタデータ復号器110は、730において、受信された差分値を対応する線形補間済みメタデータサンプルに対してだけ加算し、差分値が受信されていない他の線形補間済みメタデータサンプルは、そのままにする。
【0113】
他の概念を実現させる実施形態について、以下に説明する。
【0114】
他の実施形態によれば、メタデータ復号器110は、1つ以上の圧縮済みメタデータ信号のある圧縮済みメタデータ信号について、複数の差分値を受信するよう構成されている。差分値の各々は、「受信された差分値」と称することができる。1つの受信された差分値は、再生メタデータ信号の近似済みメタデータサンプルの1つに割り当てられ、その再生メタデータ信号は、受信された差分値が関係する前記圧縮済みメタデータ信号に関連する(前記圧縮済みメタデータ信号から構築された)ものである。
【0115】
図9に関して前述したように、メタデータ復号器110は、複数の受信された差分値の各受信された差分値を、当該受信された差分値に関連する近似済みメタデータサンプルに対して加算するよう構成されている。受信された差分値をその近似済みメタデータサンプルへと加算することで、再生メタデータ信号の第2メタデータサンプルの1つが取得される。
【0116】
しかしながら、近似済みメタデータサンプルの幾つか(又は、ときには大部分)については、差分値は全く受信されない。
【0117】
幾つかの実施形態において、複数の受信された差分値のどれもが近似済みメタデータサンプルと関連していない場合には、メタデータ復号器110は、例えば近似済み差分値を、前記圧縮済みメタデータ信号と関連する再生メタデータ信号の複数の近似済みメタデータサンプルの各近似済みメタデータサンプルについて複数の受信された差分値の1つ以上に依存して、決定するよう構成されてもよい。
【0118】
換言すれば、近似済みメタデータサンプルであって、それらに対して差分値が受信されない近似済みメタデータサンプルの全てに対し、ある近似済み差分値が、受信された差分値の1つ以上に依存して生成される。
【0119】
メタデータ復号器110は、複数の近似済み差分値の各近似済み差分値を、当該近似済み差分値の近似済みメタデータサンプルに加算して、再生メタデータ信号の第2メタデータサンプルの他の1つを取得するよう構成されている。
【0120】
しかし、他の実施形態において、メタデータ復号器110は、ステップ740において受信された差分値に依存して線形補間を実行することで、差分値が受信されていないメタデータサンプルについての差分値を近似する。
【0121】
例えば、第1差分値と第2差分値が受信された場合、これらの受信された差分値の間に位置する差分値は、例えば線形補間を用いて近似され得る。
【0122】
例えば、時点n=15における第1差分値が差分値d[15]=5を有し、かつ時点n=18における第2差分値が差分値d[18]=2を有する場合、n=16及びd=17に対する差分値は、線形的にd[16]=4及びd[17]=3として近似され得る。
【0123】
更なる実施形態において、メタデータサンプルが圧縮済みメタデータ信号に含まれている場合、当該メタデータサンプルの差分値は0と想定され、また、受信されていない差分値の線形補間は、差分値がゼロと想定されている当該メタデータサンプルに基づいて、メタデータ復号器によって実行されてもよい。
【0124】
例えば、n=16について単一の差分値d=8が伝送され、n=0及びn=32について1つのメタデータサンプルが圧縮済みメタデータ信号内で伝送された場合、n=0及びn=32における伝送されない差分値は0と想定される。
【0125】
nが時刻を示し、d[n]が時点nにおける差分値を示すと仮定する。その場合、
d[16] = 8 (受信された差分値)
d[0] = 0 (想定された差分値、メタデータサンプルがz(k)内に存在するため)
d[32] = 0 (想定された差分値、メタデータサンプルがz(k)内に存在するため)
【0126】
近似済み差分値:
d[1] = 0.5; d[2] = 1; d[3] = 1.5; d[4] = 2; d[5] = 2.5; d[6] = 3; d[7] = 3.5; d[8] = 4; d[9] = 4.5; d[10] = 5; d[11] = 5.5; d[12] = 6; d[13] = 6.5; d[14] = 7; d[15] = 7.5; d[17] = 7.5; d[18] = 7; d[19] = 6.5; d[20] = 6; d[21] = 5.5; d[22] = 5; d[23] = 4.5; d[24] = 4; d[25] = 3.5; d[26] = 3; d[27] = 2.5; d[28] = 2; d[29] = 1.5; d[30] = 1; d[31] = 0.5
【0127】
実施形態において、受信された差分値及び近似済み差分値が、対応する線形補間済みサンプルに対して(730において)加算される。
【0128】
以下に、好ましい実施形態を説明する。
【0129】
(オブジェクト)メタデータ符号器は、例えば、所与のサイズNを有するルックアヘッド・バッファを使用して、規則的に(サブ)サンプリングされた軌跡値のシーケンスを合同的に符号化してもよい。このバッファが満たされるとすぐに、全体のデータブロックが符号化されかつ伝送される。符号化されたオブジェクトデータは、2つの部分、即ち、イントラ符号化されたオブジェクトデータと、任意ではあるが各セグメントの細密構造を含む差分データ部分と、から構成されてもよい。
【0130】
イントラ符号化されたオブジェクトデータは、規則的な格子上で(例えば長さ1024の32フレーム毎に)サンプリングされた量子化済み値z(k)を含む。各オブジェクトに対して値が個別に特定されているか、又はそれに続く値が全てのオブジェクトに対して共通であるかを示すために、ブーリアン変数(Boolean variables)が使用されてもよい。
【0131】
復号器は、線形補間により、イントラ符号化されたオブジェクトデータから粗い軌跡を導出するよう構成されてもよい。軌跡の精密な構造は、入力された軌跡と線形補間との間の符号化された差分を含む差分データ部分によって与えられる。方位角、仰角、半径及びゲイン値についての様々な量子化ステップと組み合わされたポリゴン表現により、所望の不適切低減(irrelevance reduction)を達成できる。
【0132】
ポリゴン表現は、Ramer-Douglas-Peuckerアルゴリズム(非特許文献10、11を参照)の変異形から取得し得る。その手法は、帰納法を使用せず、かつ追加的な中断基準(abort criterium)、即ち全てのオブジェクト及び全てのオブジェクト構成要素についての最大数のポリゴン点を有することで、オリジナルの手法とは異なる。
【0133】
結果として得られるポリゴン点は、ビットストリーム内で特定される可変語長を使用して差分データ部分の中に符号化されてもよい。追加的なブーリアン変数は、同一値の共通の符号化を示す。
【0134】
以下に、実施形態に係るオブジェクト・メタデータ・フレーム及び実施形態に係るシンボル表現について説明する。
【0135】
効率性から見た理由により、規則的に(サブ)サンプリングされた軌跡値のシーケンスは、合同的に符号化される。符号器は所与のサイズのルックアヘッド・バッファを使用し、このバッファが満たされるとすぐに全体のデータブロックが符号化され、伝送される。この符号化されたオブジェクトデータ(例えば、オブジェクト・メタデータについてのペイロード)は、例えば2つの部分、即ちイントラ符号化されたオブジェクトデータ(第1部分)と、任意ではあるが差分データ部分(第2部分)と、を含み得る。
【0136】
例えば、以下のシンタックスの一部又は全部が使用されてもよい。
【0137】
【表1】
【0138】
以下に、一実施形態に係るイントラ符号化されたオブジェクトデータを示す。
【0139】
符号化済みオブジェクト・メタデータのランダムアクセスをサポートするために、全てのオブジェクト・メタデータの完全かつ自己充足的な仕様(specification)が規則的に伝送される必要がある。これは、規則的な格子上で(例えば長さ1024の32フレーム毎に)サンプリングされた量子化済み値を含む、イントラ符号化されたオブジェクトデータ(「Iフレーム」)を介して実現される。これらIフレームは、例えば以下のようなシンタックスを有し、その中で、position_azimuth,position_elevation,position_radius及びgain_factorは、現在のIフレームの後のiframe_periodフレーム内の量子化された値を特定する。
【0140】
【表2】
【0141】
以下に、一実施形態に係る差分オブジェクトデータについて説明する。
【0142】
少数のサンプリング点に基づくポリゴンコースを伝送することにより、さらに高精度な近似が達成される。従って、非常に粗い3次元行列が伝送されてもよく、そこでは、第1の次元がオブジェクトインデックスでもよく、第2の次元がメタデータ構成要素(方位角、仰角、半径及びゲイン)により形成されてもよく、第3の次元がポリゴンサンプリング点のフレームインデックスであってもよい。更なる尺度なしに、行列のどの成分が値を含むかの指示は、既にnum_objects*num_components*(iframe_period-1)ビットを要求する。このビットの量を低減させる第1ステップは、4個の構成要素の内の1つに属する少なくとも1つの値があるか否かを示す、4つのフラグを加えることであってもよい。例えば、差分的な半径又はゲイン値が存在するような場合はごく稀であることが予想できる。低減された3次元行列の第3の次元は、iframe_period-1個の要素を有するベクトルを含む。ポリゴン点がごく少数であると予想される場合、このベクトルを1セットのフレームインデックスとこのセットのカーディナリティとによりパラメータ化することが更に効率的となり得る。例えば、Nperiod=32フレームのiframe_periodで最大16個のポリゴン点については、この方法はNpoints<(32−log2(16))/log2(32)=5.6のポリゴン点に関して好都合であり得る。実施形態に従えば、そのような符号化スキームのために以下のシンタックスが使用される。
【0143】
【表3】
【0144】
【表4】
【0145】
マクロoffset_data()は、単純なビットフィールドとして、又は上述の概念を使用して、ポリゴン点の位置(フレームオフセット)を符号化している。num_bits値は大きな位置的ジャンプの符号化を可能にし、他方、差分データの残りはより小さなワードサイズで符号化される。
【0146】
特に、一実施形態において、上述のマクロは例えば以下の意味を有してもよい。
【0147】
一実施形態に係るobject_metadata() payloads の定義:
has_differential_metadata 差分オブジェクト・メタデータが存在するか否かを示す
【0148】
一実施形態に係るintracoded_object_metadata() payloadsの定義:
ifperiod 独立フレーム同士の間のフレームの個数を定義する
common_azimuth 全てのオブジェクトについて共通の方位角が使用されるか否かを示す
default_azimuth 共通の方位角の値を定義する
position_azimuth 共通の方位角値がない場合、各オブジェクトのための値が伝送される
common_elevation 全てのオブジェクトについて共通の仰角が使用されるか否かを示す
default_elevation 共通の仰角の値を定義する
position_elevation 共通の仰角値がない場合、各オブジェクトのための値が伝送される
common_radius 全てのオブジェクトについて共通の半径値が使用されるか否かを示す
default_radius 共通の半径の値を定義する
position_radius 共通の半径値がない場合、各オブジェクトのための値が伝送される
common_gain 全てのオブジェクトについて共通のゲイン値が使用されるか否かを示す
default_gain 共通のゲインファクタの値を定義する
gain_factor 共通のゲイン値がない場合、各オブジェクトのための値が伝送される
position_azimuth 単一のオブジェクトだけがある場合、その方位角
position_elevation 単一のオブジェクトだけがある場合、その仰角
position_radius 単一のオブジェクトだけがある場合、その半径
gain_factor 単一のオブジェクトだけがある場合、そのゲインファクタ
【0149】
一実施形態に係るdifferential_object_metadata() payloadsの定義:
bits_per_point ポリゴン点の個数を表現するために必要なビット数
fixed_azimuth 全てのオブジェクトについて方位角値が固定か否かを示すフラグ
flag_azimuth 方位角値が変化するか否かを示すオブジェクト毎のフラグ
nbits_azimuth 差分値を表現するために必要なビット数
differential_azimuth 線形補間された値と実際値との間の差分値
fixed_elevation 全てのオブジェクトについて仰角値が固定か否かを示すフラグ
flag_elevation 仰角値が変化するか否かを示すオブジェクト毎のフラグ
nbits_elevation 差分値を表現するために必要なビット数
differential_elevation 線形補間された値と実際値との間の差分値
fixed_radius 全てのオブジェクトについて半径が固定か否かを示すフラグ
flag_radius 半径が変化するか否かを示すオブジェクト毎のフラグ
nbits_radius 差分値を表現するために必要なビット数
differential_radius 線形補間された値と実際値との間の差分値
fixed_gain 全てのオブジェクトについてゲインが固定か否かを示すフラグ
flag_gain ゲインが変化するか否かを示すオブジェクト毎のフラグ
nbits_gain 差分値を表現するために必要なビット数
differential_gain 線形補間された値と実際値との間の差分値
【0150】
一実施形態に係る、offset_data() payloadsの定義:
bitfield_syntax ポリゴンインデックスを有するベクトルがビットストリーム内に存在するか否かを示すフラグ
offset_bitfield iframe_period の各点について、その点がポリゴン点であるか否かのフラグを含むブール配列
npoints ポリゴン点の数−1 (num_points = npoints + 1)
foffset iframe_period 内のポリゴン点の時間スライスインデックス
(frame_offset = foffset+1)
【0151】
一実施形態によれば、メタデータは、例えば、全てのオーディオオブジェクトについての所与の位置(例えば方位角、仰角及び半径によって示された)として所定の時間スタンプで搬送されてもよい。
【0152】
先行技術においては、低ビットレートで許容可能なオーディオ品質が得られるように、チャネル符号化と一方としオブジェクト符号化を他方として結合するような、柔軟性のある技術は存在しない。
【0153】
この制約は3Dオーディオコーデックシステムにより克服できる。以下に、3Dオーディオコーデックシステムについて説明する。
【0154】
図12は、本発明の一実施形態に係る3Dオーディオ符号器を示す。この3Dオーディオ符号器は、オーディオ入力データ101を符号化してオーディオ出力データ501を取得するよう構成されている。3Dオーディオ符号器は、CHで示された複数のオーディオチャネルとOBJで示された複数のオーディオオブジェクトとを受信する入力インターフェイスを備える。更に、図12に示すように、入力インターフェイス1100は、複数のオーディオオブジェクトOBJの1つ以上に関連するメタデータを追加的に受信する。更に、3Dオーディオ符号器は、複数のオブジェクトと複数のチャネルとをミキシングして複数のプレミクス済みチャネルを取得するミキサー200を備え、各プレミクス済みチャネルは1つのチャネルのオーディオデータと少なくとも1つのオブジェクトのオーディオデータとを含む。
【0155】
更に、3Dオーディオ符号器は、コア符号器入力データをコア符号化するコア符号器300と、複数のオーディオオブジェクトの1つ以上に関連するメタデータを圧縮するメタデータ圧縮部400とを備える。
【0156】
更に、3Dオーディオ符号器は、ミキサーとコア符号器及び/又は出力インターフェイス500を複数の動作モードの1つで制御する、モード制御部600を備え、第1モードでは、コア符号器は、入力インターフェイス1100により受信された複数のオーディオチャネル及び複数のオーディオオブジェクトを、ミキサーによる相互作用なしに、即ちミキサー200によるミキシングなしに、符号化するよう構成されている。しかし、ミキサー200が活性化していた第2モードでは、コア符号器は、複数のミクス済みチャネル、即ちブロック200により生成された出力を符号化する。後者の場合、それ以上のオブジェクトデータを符号化しないことが好ましい。代わりに、オーディオオブジェクトの位置を示すメタデータは、メタデータによって示された通りにオブジェクトをチャネル上へとレンダリングするために、ミキサー200によって既に使用されている。換言すれば、ミキサー200は複数のオーディオオブジェクトに関連するメタデータを、オーディオオブジェクトをプレレンダリングするために使用し、次に、プレレンダリングされたオーディオオブジェクトはチャネルとミキシングされて、ミキサーの出力においてミクス済みチャネルが得られる。この実施形態では、如何なるオブジェクトも必ずしも伝送される必要がなく、このことは、ブロック400により出力される圧縮済みメタデータにも当てはまる。しかし、インターフェイス1100に入力された全てのオブジェクトがミキシングされる訳でなく、所定量のオブジェクトだけがミキシングされる場合には、ミキシングされていない残りのオブジェクト及び関連するメタデータだけが、コア符号化300又はメタデータ圧縮部400へとそれぞれ伝送される。
【0157】
図12において、メタデータデータ圧縮部400は、上述した実施形態の1つに従う、符号化済みオーディオ情報を生成する装置250のメタデータ符号器210である。更に、図12において、ミキサー200及びコア符号器300は一緒に、上述した実施形態の1つに従う符号化済みオーディオ情報を生成する装置250のオーディオ符号器220を形成する。
【0158】
図14は、SAOC符号器800を追加的に含む、3Dオーディオ符号器の更なる実施形態を示す。SAOC符号器800は、空間オーディオオブジェクト符号器入力データから、1つ以上の転送チャネル及びパラメトリックデータを生成するよう構成されている。図14に示すように、空間オーディオオブジェクト符号器入力データは、プレレンダラー/ミキサーによって処理されなかったオブジェクトである。代替的に、個別のチャネル/オブジェクト符号化が活性化しているモード1におけるように、プレレンダラー/ミキサーが迂回されていたと仮定すると、入力インターフェイス1100に入力された全てのオブジェクトはSAOC符号器800により符号化される。
【0159】
更に、図14に示すように、コア符号器300は好ましくは、USAC符号器、即ち、MPEG−USAC標準(USAC=統合されたスピーチ及びオーディオ符号化)の中で定義されかつ標準化されているような符号器として構成される。図14に示す全体的な3Dオーディオ符号器の出力は、MPEG4データストリームであり、個別のデータタイプのためのコンテナ状構造を有している。更に、メタデータは「OAM」データとして示され、図12におけるメタデータ圧縮部400は、圧縮済みOAMデータを取得するOAM符号器400に対応し、その圧縮済みOAMデータはUSAC符号器300へ入力され、USAC符号器300は、図14に示すように、MP4出力データストリームを取得するための出力インターフェイスを追加的に含み、そのMP4出力データストリームは符号化済みチャネル/オブジェクトデータだけでなく圧縮済みOAMデータをも有する。
【0160】
図14において、OAM符号器400は、上述した実施形態の1つに従う、符号化済みオーディオ情報を生成する装置250のメタデータ符号器210である。更に、図14では、SAOC符号器800とUSAC符号器300とは一緒に、上述した実施形態の1つに従う、符号化済みオーディオ情報を生成する装置250のオーディオ符号器220を形成する。
【0161】
図16は、3Dオーディオ符号器の更なる実施形態を示し、ここでは、図14とは対照的に、SAOC符号器はSAOC符号化アルゴリズムを用いて、このモードにおいて活性化していないプレレンダラー/ミキサー200により提供されたチャネルを符号化するか、又は代替的に、プレレンダリング済みチャネル+オブジェクトをSAOC符号化するか、の何れかを実行するよう構成されている。従って、図16においては、SAOC符号器800は3種類の異なる入力データ、即ち、プレレンダリング済みオブジェクトを持たないチャネル、チャネル及びプレレンダリング済みオブジェクト、又はオブジェクトのみ、に対して作動できる。更に、追加的なOAM復号器420を図16に設け、SAOC符号器800がその処理のために復号器側と同じデータを使用できるように、即ち、オリジナルOAMデータよりも寧ろ損失の多い圧縮により得られたデータを使用できるようにすることが好ましい。
【0162】
図16の3Dオーディオ符号器は、複数の個別のモードにおいて作動できる。
【0163】
図12の文脈の中で説明した第1モード及び第2モードに加え、図16の3Dオーディオ符号器は追加的に第3モードでも作動でき、そのモードでは、プレレンダラー/ミキサー200が活性化していなかった場合、コア符号器が個別のオブジェクトから1つ以上の転送チャネルを生成する。代替的又は追加的に、この第3モードにおいて、図12のミキサー200に対応するプレレンダラー/ミキサー200が活性化していなかった場合、SAOC符号器800は、オリジナルチャネルから1つ以上の代替的又は追加的な転送チャネルを生成することができる。
【0164】
最後に、3Dオーディオ符号器が第4モードで構成されている場合、SAOC符号器800は、プレレンダラー/ミキサーによって生成されたチャネル+プレレンダリング済みオブジェクトを符号化することができる。そのため、第4モードにおいては、最低ビットレートのアプリケーションが次のような事実により良好な品質を提供できる。なぜなら、チャネルとオブジェクトとが、個別のSAOC転送チャネル及び図14図16の中で「SAOC−SI」として示すような関連するサイド情報へと完全に変換されており、加えて、この第4モードでは如何なる圧縮済みメタデータも伝送される必要がないからである。
【0165】
図16において、OAM符号器400は、上述した実施形態の1つに従う符号化済みオーディオ情報を生成する装置250のメタデータ符号器210である。更に、図16において、SAOC符号器800とUSAC符号器300とは一緒に、上述した実施形態の1つに従う符号化済みオーディオ情報を生成する装置250のオーディオ符号器220を形成する。
【0166】
一実施形態によれば、オーディオ入力データ101を符号化してオーディオ出力データ501を取得する装置が提供される。そのオーディオ入力データ101を符号化する装置は、
−複数のオーディオチャネルと、複数のオーディオオブジェクトと、複数のオーディオオブジェクトの1つ以上に関連するメタデータと、を受信する入力インターフェイス1100と、
−複数のオブジェクトと複数のチャネルとをミキシングして、複数のプレミクス済みチャネルを取得するミキサー200であって、各プレミクス済みチャネルが1つのチャネルのオーディオデータと少なくとも1つのオブジェクトのオーディオデータとを含む、ミキサー200と、
−上述したようなメタデータ符号器とオーディオ符号器とを含む、符号化済みオーディオ情報を生成する装置250と、
を備える。
【0167】
符号化済みオーディオ情報を生成する装置250のオーディオ符号器220は、コア符号器入力データを符号化するコア符号器(300)である。
【0168】
符号化済みオーディオ情報を生成する装置250のメタデータ符号器210は、複数のオーディオオブジェクトの1つ以上に関連するメタデータを圧縮するメタデータ圧縮部400である。
【0169】
図13は本発明の一実施形態に係る3Dオーディオ復号器を示す。その3Dオーディオ復号器は、入力として符号化済みオーディオデータ、即ち図12のデータ501を受信する。
【0170】
3Dオーディオ復号器は、メタデータ解凍部1400と、コア復号器1300と、オブジェクト処理部1200と、モード制御部1600と、後処理部1700とを備える。
【0171】
具体的には、その3Dオーディオ復号器は符号化済みオーディオデータを復号化するよう構成されており、入力インターフェイスは符号化済みオーディオデータを受信するよう構成されており、符号化済みオーディオデータは、あるモードにおいて、複数の符号化済みチャネルと、複数の符号化済みオブジェクトと、複数のオブジェクトに関連する圧縮済みメタデータとを含む。
【0172】
更に、コア復号器1300は複数の符号化済みチャネルと複数の符号化済みオブジェクトとを復号化するよう構成されており、追加的に、メタデータ解凍部は圧縮済みメタデータを解凍するよう構成されている。
【0173】
更に、オブジェクト処理部1200は、コア復号器1300により生成された複数の復号化済みオブジェクトを解凍済みメタデータを使用して処理し、オブジェクトデータと復号化済みチャネルとを含む所定数の出力チャネルを得るよう構成されている。符号1205で示されたこれら出力チャネルは、次に後処理部1700へと入力される。後処理部1700は、出力チャネル1205の数を、バイノーラル出力フォーマット又は5.1や7.1などの出力フォーマットのようなラウドスピーカ出力フォーマットであり得る、ある出力フォーマットへと変換するよう構成されている。
【0174】
好ましくは、3Dオーディオ復号器は、符号化済みデータを分析してモード指示を検出するよう構成された、モード制御部1600を備える。従って、そのモード制御部1600が図13の入力インターフェイス1100に接続されている。しかし、代替的に、モード制御部が必ずしも存在する必要はない。代わりに、柔軟性のあるオーディオ復号器は、ユーザー入力や任意の他の制御のような、他の如何なる種類の制御データによってもプリセットされ得る。好ましくはモード制御部1600により制御される図13の3Dオーディオ復号器は、その一方では、オブジェクト処理部を迂回して複数の復号化済みチャネルを後処理部1700へと供給するよう構成される。これは、図12の3Dオーディオ符号器においてモード2が適用されていた場合のモード2における作動であり、即ちプレレンダリング済みチャネルだけが受信される場合である。代替的に、3Dオーディオ符号器においてモード1が適用されていた場合、即ち、3Dオーディオ符号器が個別のチャネル/オブジェクト符号化を実行していた場合、オブジェクト処理部1200は迂回されず、複数の復号化済みチャネルと複数の復号化済みオブジェクトとが、メタデータ解凍部1400によって生成された解凍済みメタデータと一緒にオブジェクト処理部1200へと供給される。
【0175】
好ましくは、モード1又はモード2が適用されるべきかどうかの指示は符号化済みオーディオデータの中に含まれており、よって、モード制御部1600がモード指示を検出するために符号化済みデータを分析する。符号化済みオーディオデータは符号化済みチャネルと符号化済みオブジェクトとを含むとモード指示が示す場合には、モード1が使用され、他方、符号化済みオーディオデータはオーディオオブジェクトを何も含まない、即ち、図12の3Dオーディオ符号器のモード2によって得られたプレレンダリング済みチャネルだけを含むとモード指示が示す場合には、モード2が適用される。
【0176】
図13において、メタデータ解凍部1400は、上述の実施形態の1つに従い1つ以上のオーディオチャネルを生成する装置100のメタデータ復号器110である。更に図13において、コア復号器1300とオブジェクト処理部1200と後処理部1700とは一緒に、上述の実施形態の1つに従い1つ以上のオーディオチャネルを生成する装置100のオーディオ復号器120を形成する。
【0177】
図15は、図13の3Dオーディオ復号器と比較した好適な実施形態を示し、図15の実施形態は図14のオーディオ符号器に対応する。図13の3Dオーディオ復号器の構成に加えて、図15の3Dオーディオ復号器はSAOC復号器1800を含む。更に、図13のオブジェクト処理部1200は、別個のオブジェクトレンダラー1210とミキサー1220として構成されているが、モードに依存して、オブジェクトレンダラー1210の機能はSAOC復号器1800によっても実行され得る。
【0178】
更に、後処理部1700は、バイノーラルレンダラー1710又はフォーマット変換部1720として構成され得る。代替的に、図13のデータ1205の直接的な出力もまた、1730で示されるように構成され得る。従って、より小さなフォーマットが要求される場合には、柔軟性を持ち、かつ次に後処理するために、復号器内の処理は22.2や32などの最大数のチャネルに対して実行することが好ましい。しかしながら、5.1フォーマットのような小さなフォーマットだけが要求されることが正に最初から明白になる場合には、図17におけるショートカット1727で示すように、不要なアップミクス操作及び後続のダウンミクス操作を防止するための、SAOC復号器及び/又はUSAC復号器に対するある制御を適用し得ることが望ましい。
【0179】
本発明の好適な実施形態において、オブジェクト処理部1200はSAOC復号器1800を含み、そのSAOC復号器は、コア復号器により出力される1つ以上の転送チャネル及び関連するパラメトリックデータを復号化し、かつ解凍済みメタデータを使用して、複数のレンダリング済みオーディオオブジェクトを取得するよう構成されている。この目的で、OAM出力がボックス1800に接続されている。
【0180】
更に、オブジェクト処理部1200は、コア復号器により出力された復号化済みオブジェクトをレンダリングするよう構成されており、そのオブジェクトはSAOC転送チャネルの中で符号化されたものではなく、オブジェクトレンダラー1210により示されるように、典型的には単一チャネル化された構成要素の中で個別に符号化されたものである。更に、復号器は、ミキサーの出力をラウドスピーカへと出力するための、出力1730に対応する出力インターフェイスを備える。
【0181】
更なる実施形態において、オブジェクト処理部1200は、符号化済みオーディオ信号又は符号化済みオーディオチャネルを表現している1つ以上の転送チャネル及び関連するパラメトリックサイド情報を復号化するための、空間オーディオオブジェクト・符号化復号器1800を含む。その空間オーディオオブジェクト・符号化復号器は、関連するパラメトリック情報及び解凍済みメタデータを、出力フォーマットを直接的にレンダリングするために使用可能な、例えばSAOCの初期バージョンで定義されているような、符号変換済みパラメトリックサイド情報へと符号変換するよう構成されている。後処理部1700は、復号化済み転送チャネルと符号変換済みパラメトリックサイド情報とを使用して、出力フォーマットのオーディオチャネルを計算するよう構成されている。後処理部により実行される処理は、MPEGサラウンド処理と類似していてもよく、又はBCC処理などのような他の如何なる処理であってもよい。
【0182】
更なる一実施形態において、オブジェクト処理部1200は、(コア復号器による)復号化済み転送チャネルとパラメトリックサイド情報とを使用して、出力フォーマットのためのチャネル信号を直接的にアップミクス及びレンダリングするよう構成された、空間オーディオオブジェクト符号化・復号器1800を含む。
【0183】
更に、及び重要なことに、図13のオブジェクト処理部1200は、チャネルとミキシングされたプレレンダリング済みオブジェクトが存在する場合、即ち図12のミキサー200が活性化していた場合、入力としてUSAC復号器1300により出力されたデータを直接的に受信する、ミキサー1220をさらに備える。加えて、ミキサー1220は、SAOC復号化を用いずにオブジェクトレンダリングを実行しているオブジェクトレンダラーからのデータを受信する。更にミキサーは、SAOC復号器出力データ、即ちSAOCレンダリング済みオブジェクトを受信する。
【0184】
ミキサー1220は、出力インターフェイス1730とバイノーラルレンダラー1710とフォーマット変換部1720とに接続されている。バイノーラルレンダラー1710は、頭部関連伝達関数又はバイノーラル室内インパルス応答(BRIR)を使用して、出力チャネルを2つのバイノーラルチャネルへとレンダリングするよう構成されている。フォーマット変換部1720は、出力チャネルを、ミキサーの出力チャネル1205よりも少数のチャネルを有する出力フォーマットへと変換するよう構成されており、そのフォーマット変換部1720は、5.1スピーカなどのような再生レイアウトについての情報を要求する。
【0185】
図15において、OAM復号器1400は、上述した実施形態の1つに従って1つ以上のオーディオチャネルを生成する装置100のメタデータ復号器110である。更に、図15において、オブジェクトレンダラー1210とUSAC復号器1300とミキサー1220とは一緒に、上述した実施形態の1つに従って1つ以上のオーディオチャネルを生成する装置100のオーディオ復号器120を形成する。
【0186】
図17の3Dオーディオ復号器は、図15の3Dオーディオ復号器とは以下の点で異なる。即ち、SAOC復号器は、レンダリング済みオブジェクトだけでなくレンダリング済みチャネルをも生成しており、このことは、図16の3Dオーディオ符号器が使用され、チャネル/プレレンダリング済みオブジェクトとSAOC符号器800の入力インターフェイスとの間の接続900が活性化している場合であるという点である。
【0187】
更に、ベクトル方式振幅パニング(VBAP)ステージ1810は、SAOC復号器から再生レイアウトについての情報を受信し、かつSAOC復号器に対してレンダリング行列を出力するよう構成され、その結果、SAOC復号器が、ミキサーの更なる動作を必要とせずに、レンダリング済みチャネルを高いチャネルフォーマット1205で、即ち32個のラウドスピーカに提供できるようになる。
【0188】
VBAPブロックは、好適には復号化済みOAMデータを受信してレンダリング行列を導出する。より一般的には、VBAPブロックは、再生レイアウトの幾何学的情報だけでなく、その再生レイアウト上で入力信号がレンダリングされるべき位置の幾何学的情報をも要求することが好ましい。この幾何学的入力データは、オブジェクトについてのOAMデータであってもよく、又は、SAOCを用いて伝送されたチャネルについてのチャネル位置情報であってもよい。
【0189】
しかしながら、ある特異な出力インターフェイスだけが要求される場合、VBAPステージ1810は、例えば5.1出力について要求されたレンダリング行列を既に供給することができる。その場合、SAOC復号器1800は、SAOC転送チャネルと関連するパラメトリックデータと解凍済みメタデータとから、直接的レンダリング、即ちミキサー1220の相互作用を何も受けずに、要求された出力フォーマットへの直接的なレンダリングを実行する。しかしながら、モード間のあるミキシングが適用される場合、即ち、複数のチャネルがSAOC符号化されているが、全てのチャネルがSAOC符号化されてはいない場合、複数のオブジェクトがSAOC符号化されているが、全てのオブジェクトがSAOC符号化されてはいない場合、又は、プレレンダリング済みオブジェクトとチャネルとのある量だけがSAOC復号化され、残りのチャネルがSAOC処理されない場合には、ミキサーは、個別の入力部分からのデータ、即ちコア復号器1300とオブジェクトレンダラー1210とSAOC復号器1800とからの直接的なデータを、結合するであろう。
【0190】
図17において、OAM復号器1400は、上述した実施形態の1つに従って1つ以上のオーディオチャネルを生成する装置100のメタデータ復号器110である。更に、図17において、オブジェクトレンダラー1210とUSAC復号器1300とミキサー1220とは一緒に、上述した実施形態の1つに従って1つ以上のオーディオチャネルを生成する装置100のオーディオ復号器120を形成する。
【0191】
符号化済みオーディオデータを復号化する装置が提供される。その符号化済みオーディオデータを復号化する装置は、
−符号化済みオーディオデータを受信する入力インターフェイス1100であって、符号化済みオーディオデータは、複数の符号化済みチャネル、複数の符号化済みオブジェクト、又は複数のオブジェクトに関連する圧縮済みメタデータを含む、インターフェイス1100と、
−メタデータ復号器110と、上述したように1つ以上のオーディオチャネルを生成するオーディオチャネル生成部120とを含む、装置100と、
を備える。
【0192】
1つ以上のオーディオチャネルを生成する装置100のメタデータ復号器110は、圧縮済みメタデータを解凍するメタデータ解凍部400である。
【0193】
1つ以上のオーディオチャネルを生成する装置100のオーディオチャネル生成部120は、複数の符号化済みチャネルと複数の符号化済みオブジェクトとを復号化する、コア復号器1300を備える。
【0194】
更に、オーディオチャネル生成部120は、複数の復号化済みオブジェクトを解凍済みメタデータを使用して処理し、オブジェクト及び復号化済みチャネルからオーディオデータを含む幾つかの出力チャネル1205を取得する、オブジェクト処理部1200を更に備える。
【0195】
更に、オーディオチャネル生成部120は、幾つかの出力チャネル1205を出力フォーマットへと変換する後処理部1700を更に備える。
【0196】
これまで装置の文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明をも表しており、1つのブロック又は装置が1つの方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。
【0197】
本発明の分解された信号は、デジタル記憶媒体に記憶されることができ、又は、インターネットのような無線伝送媒体もしくは有線伝送媒体などの伝送媒体を介して伝送されることもできる。
【0198】
所定の構成要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。
【0199】
本発明に従う幾つかの実施形態は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有する非一時的なデータキャリアを含む。
【0200】
一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。
【0201】
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。
【0202】
換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0203】
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体)である。
【0204】
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。
【0205】
他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
【0206】
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0207】
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
【0208】
上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17