特許第6887461号(P6887461)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特許6887461メディア信号を復号化する復号器及び、一次メディアデータについてのメタデータ又は制御データを含む二次メディアデータを符号化する符号器
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6887461
(24)【登録日】2021年5月20日
(45)【発行日】2021年6月16日
(54)【発明の名称】メディア信号を復号化する復号器及び、一次メディアデータについてのメタデータ又は制御データを含む二次メディアデータを符号化する符号器
(51)【国際特許分類】
   H04N 21/233 20110101AFI20210603BHJP
   H04N 19/46 20140101ALI20210603BHJP
   G10L 19/00 20130101ALI20210603BHJP
   H04N 21/235 20110101ALI20210603BHJP
   H04N 21/435 20110101ALI20210603BHJP
   H04N 21/439 20110101ALI20210603BHJP
【FI】
   H04N21/233
   H04N19/46
   G10L19/00 330B
   H04N21/235
   H04N21/435
   H04N21/439
【請求項の数】36
【全頁数】51
(21)【出願番号】特願2019-91836(P2019-91836)
(22)【出願日】2019年5月15日
(62)【分割の表示】特願2017-525797(P2017-525797)の分割
【原出願日】2015年11月6日
(65)【公開番号】特開2019-193268(P2019-193268A)
(43)【公開日】2019年10月31日
【審査請求日】2019年6月13日
(31)【優先権主張番号】14192907.5
(32)【優先日】2014年11月12日
(33)【優先権主張国】EP
(31)【優先権主張番号】15163198.3
(32)【優先日】2015年4月10日
(33)【優先権主張国】EP
(31)【優先権主張番号】15181428.2
(32)【優先日】2015年8月18日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100085497
【弁理士】
【氏名又は名称】筒井 秀隆
(72)【発明者】
【氏名】ブリート,ロバート
(72)【発明者】
【氏名】ブリーム,トビアス
(72)【発明者】
【氏名】クレーゲロー,ステファン
【審査官】 川中 龍太
(56)【参考文献】
【文献】 米国特許出願公開第2012/0059491(US,A1)
【文献】 特開2004−201267(JP,A)
【文献】 特開2013−157659(JP,A)
【文献】 特開平08−065072(JP,A)
【文献】 米国特許第06226758(US,B1)
【文献】 米国特許第04550425(US,A)
【文献】 特開2009−212697(JP,A)
【文献】 特開昭59−134933(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00 − 21/858
H04N 19/46
G10L 19/00
(57)【特許請求の範囲】
【請求項1】
一次メディアデータ(90,90a,90b)についてのメタデータ又は制御データを有する二次メディアデータ(80,125,130)を符号化する符号器(100)において、
前記符号器(100)は前記二次メディアデータ(80,125,130)を符号化して、符号化済み二次メディアデータ(55)を表すデジタル語(142)のストリーム(145)を取得するよう構成され、前記符号化は前記二次メディアデータ(80,125,130)をデジタル変調によって変換すること又は帯域制限することを含み、
前記符号器(100)は、前記デジタル語(142)のストリーム(145)として、前記符号化済み二次メディアデータ(55)を出力するよう構成され、
前記符号器(100)は、
第1のビット数を有するグループ化された二次メディアデータ(80,125,130)を、前記第1のビット数より大きな第2のビット数を有するデータ語(140)へマッピングするよう構成されたマッパ(115)であって、前記グループ化された二次メディアデータ(80,125,130)は、前記データ語(140)の最上位ビット又は最下位ビットへとあるギャップを持って整列されている、マッパ(115)と、
前記データ語(140)を使用して、前記符号化済み二次メディアデータ(55)を表すデジタル語(142)のストリーム(145)を構築するよう構成されたストリームビルダ(120)と、を備える、
符号器。
【請求項2】
請求項1に記載の符号器(100)において、前記符号化は前記デジタル変調によって冗長性を付加することを含む、符号器(100)。
【請求項3】
請求項1又は2に記載の符号器(100)において、前記デジタル変調は、前記デジタル語(142)のストリーム(145)の1デジタル語当り、前記二次メディアデータ(80,125,130)の2ビット以上が伝送されるようにされる、符号器(100)。
【請求項4】
請求項1乃至3の何れか1項に記載の符号器(100)において、前記符号器(100)は、前記デジタル語(142)のストリーム(145)がPCMオーディオチャネルを介して伝送可能なように、前記デジタル語(142)のストリーム(145)を出力するよう構成される、符号器(100)。
【請求項5】
請求項1乃至4の何れか1項に記載の符号器(100)において、前記符号器(100)は、デジタル語の追加的ストリームを出力するよう構成され、前記デジタル語の追加的ストリームは前記一次メディアデータ(90,90a,90b)を表し、前記追加的ストリームは前記デジタル語(142)のストリーム(145)から分離されている、符号器(100)。
【請求項6】
請求項5に記載の符号器(100)において、前記一次メディアデータ(90,90a,90b)はオーディオデータであり、前記二次メディアデータ(80,125,130)は前記オーディオデータについてのメタデータ又は前記オーディオデータについての制御データである、符号器(100)。
【請求項7】
請求項5又は6に記載の符号器(100)において、前記符号器(100)は、前記デジタル語の追加的ストリームが第1のオーディオPCMチャネルを介して伝送可能であり、かつ前記デジタル語(142)のストリーム(145)が第1のオーディオPCMチャネルとは異なる第2のオーディオPCMチャネルを介して伝送可能であるように、前記デジタル語(142)のストリーム(145)と前記デジタル語の追加的ストリームとを出力するよう構成される、符号器(100)。
【請求項8】
請求項5乃至7の何れか1項に記載の符号器(100)において、前記一次メディアデータ(90,90a,90b)を表す前記追加的ストリームのデジタル語の各々は、8ビットより大きく、32ビットより小さな所定のビット数を有しており、前記デジタル語(142)のストリーム(145)のデジタル語(142)の各々もまた所定のビット数を有する、符号器(100)。
【請求項9】
請求項1乃至8の何れか1項に記載の符号器(100)において、前記デジタル変調はパルス振幅変調である、符号器(100)。
【請求項10】
請求項1乃至9の何れか1項に記載の符号器(100)において、前記符号器(100)は、前記デジタル語(142)のストリーム(145)がタイミング基準パターン又は振幅基準パターンである基準パターン(135)を含むように、前記デジタル語(142)のストリーム(145)を生成するよう構成される、符号器(100)。
【請求項11】
請求項1乃至10の何れか1項に記載の符号器(100)において、前記符号器(100)はビデオ画像のシーケンスを表現するビデオストリームを出力するよう構成され、前記符号器(100)は、あるビデオ画像に関連する前記二次メディアデータ(80,125,130)の制御データ又はメタデータがそのビデオ画像に関係するように、前記デジタル語(142)のストリーム(145)を出力するよう構成される、符号器(100)。
【請求項12】
請求項11に記載の符号器(100)において、前記符号器(100)は前記デジタル語(142)のストリーム(145)を、前記ビデオ画像のシーケンスの第1ビデオ画像に関連したデジタル語の第1ストリームとして出力するよう構成され、かつ前記デジタル語(142)のストリーム(145)を、前記ビデオ画像のシーケンスの第2ビデオ画像に関連したデジタル語の第2ストリームとして出力するよう構成され、前記第1及び第2のデジタル語は互いに等しい、符号器(100)。
【請求項13】
請求項1乃至12の何れか1項に記載の符号器(100)において、
前記符号器(100)は、前記デジタル語(142)が12〜28ビットを有するか、30kHz〜55kHzの間のサンプリングレートでサンプリングされるか、70〜160dBのダイナミックレンジを有するか、又はRMSフルスケールで−20dBの公称信号レベルを有するように、前記デジタル語(142)のストリーム(145)を生成するよう構成される、符号器(100)。
【請求項14】
請求項1乃至13の何れか1項に記載の符号器(100)において、前記符号器(100)は、30kHz〜55kHzの間のサンプリングレートについて、前記二次メディアデータ(80,125,130)を帯域制限するために15kHz〜27.5kHzの間の上側周波数を使用するよう構成される、符号器(100)。
【請求項15】
請求項1乃至14の何れか1項に記載の符号器(100)において、二次メディアデータ(80,125,130)のビットストリームをグループ化して、グループ化された二次メディアデータ(80,125,130)を形成するためのグルーパ(105)を含む、符号器(100)。
【請求項16】
請求項1乃至9の何れか1項に記載の符号器(100)において、
前記符号器(100)は、前記一次メディアデータ(90,90a,90b)における基準振幅(41、42)又は所定のタイミング時点(40,165)を示す基準パターン(135)を生成するよう構成された基準信号生成部(17)を有し、
前記ストリームビルダ(120)は、前記基準パターン(135)又は前記データ語(140)を使用して、符号化済み二次メディアデータ(55)を表すデジタル語(142)のストリーム(145)を構築するよう構成される、符号器。
【請求項17】
請求項1乃至9の何れか1項に記載の符号器(100)において、前記ストリームビルダは、データ語(140)又は前記一次メディアデータ(90,90a,90b)における基準振幅(41、42)又は所定のタイミング時点(40,165)を示す基準パターン(135)をローパスフィルタリングして、所定のサンプルレートの1サンプルより大きな長さを有する中間デジタル語を取得するフィルタ(15)を備え、前記中間デジタル語の振幅は、前記データ語(140)又は前記基準パターン(135)に従って重み付けされ、前記フィルタ(15)は所定のサンプルレートの各時点において連続的な中間デジタル語を合算し、前記デジタル語(142)のストリーム(145)を取得するよう構成される、符号器。
【請求項18】
請求項1乃至9の何れか1項に記載の符号器(100)において、
前記ストリームビルダ(120)は、データ語(140)又は前記一次メディアデータ(90,90a,90b)における基準振幅(41、42)又は所定のタイミング時点(40,165)を示す基準パターン(135)をローパスフィルタリングするフィルタ(15)を備え、
前記フィルタ(15)は、データパルス(15')の所定のサンプルレートの各時点におけるゼロ点(165)を得るよう構成され、前記データパルスはグループ化された二次メディアデータ(80,125,130)又は前記基準パターン(135)を含む1つのデータ語(140)を有し、
前記ストリームビルダ(120)は、前記データパルス(15')のゼロ点(180c)が追加のデータパルスの最大値(180a)に整列されるように、前記基準パターン(135)及び前記データ語(140)を含む複数のデータ語を使用して、前記符号化済み二次メディアデータ(55)を表す前記デジタル語(142)のストリーム(145)を構築し、前記符号化済み二次メディアデータ(55)を表すシンボル間干渉(ISI)のないストリームを取得するよう構成される、符号器。
【請求項19】
請求項17又は18に記載の符号器(100)において、前記フィルタ(15)は、前記一次メディアデータ(90,90a,90b)のサンプリング周波数の1.5倍未満のカットオフ周波数を有する、符号器。
【請求項20】
請求項1乃至9の何れか1項に記載の符号器(100)において、
前記一次メディアデータ(90,90a,90b)における基準振幅(41,42)又は所定のタイミング時点(40,165)を示す基準パターン(135)を生成するよう構成された基準信号生成部(17)を有し、前記基準信号生成部(17)は、第1のビット数を持つグループ化された基準パターンを生成するよう構成され、前記基準信号生成部(17)は前記グループ化された基準パターンを、第1のビット数より大きな第2のビット数を持つ追加のデータ語(140)へとマップするようさらに構成される、
符号器。
【請求項21】
請求項1乃至20の何れか1項に記載の符号器(100)において、前記符号器(100)は、デジタル語(142)のストリーム(145)としての符号化済み二次メディアデータ(55)を制御トラックとして出力し、かつ15チャネルまでの一次メディアデータ(90,90a,90b)をオーディオトラックとして出力するよう構成され、前記制御トラック及び前記オーディオトラックはAES3標準に従って形成される、符号器。
【請求項22】
一次メディアデータ(90,90a,90b)についてのメタデータ又は制御データを有する符号化済み二次メディアデータ(55)を表す、デジタル語の受信されたストリームを有するメディア信号(155)を復号化する復号器(50)であって、
前記復号器(50)は、前記符号化済み二次メディアデータ(55)から復元された二次メディアデータ(80,125,130)を復元するよう構成され、前記復元は、デジタル復調操作又はリサンプリング操作を適用して、前記復元された二次メディアデータ(80,125,130)を取得することを含み、
前記復号器(50)は、前記復元された二次メディアデータ(80,125,130)からビットストリーム(125')を導出するよう構成され、
前記復号器は、
第2のビット数を有するデータ語(140)を、前記復元された二次メディアデータ(80,125,130)内のグループ化された二次メディアデータへとデマップするよう構成されたデマッパ(29,30)であって、前記グループ化された二次メディアデータは第1のビット数を有し、前記第2のビット数は前記第1のビット数より大きい、デマッパ(29,30)、又は
前記復元された二次メディアデータ(80,125,130)内のグループ化された二次メディアデータのグループ化を解除し、前記グループ化された二次メディアデータは第1のビット数を有し、前記復元された二次メディアデータ(80,125,130)のビットストリーム(125')を取得するアングルーパ(31)、を備える、
復号器。
【請求項23】
請求項22に記載の復号器(50)において、前記復元は、受信されたデジタル語によって表現された振幅に関して、デジタル語の受信されたストリームを操作することを含む、復号器。
【請求項24】
請求項22又は23に記載の復号器(50)において、前記メディア信号は、符号化済み一次メディアデータを表す追加的に受信されたデジタル語のストリームをさらに含み、前記追加的に受信されたストリームは前記受信されたストリームとは分離されており、
前記復号器(50)は、前記追加的に受信されたストリームによって表現された前記一次メディアデータを、前記ビットストリーム(125')によって表現された前記メタデータ又は制御データを使用して処理するよう構成されている、復号器。
【請求項25】
請求項22乃至24の何れか1項に記載の復号器(50)において、
前記符号化済み二次メディアデータ(55)の基準パターン(135)を分析するための基準パターン分析部(60)であって、前記基準パターン(135)の振幅(41,42)を決定し、又は前記一次メディアデータ(90,90a,90b)内での所定のタイミング時点(40)を決定するよう構成された、基準パターン分析部(60)と、
前記符号化済み二次メディアデータ(55)を分析された基準パターン(75)及び計算された基準パターンに従って操作し、前記復元された二次メディアデータ(80,125,130)を得る信号マニピュレータ(65)と、
前記一次メディアデータ(90,90a,90b)を前記復元された二次メディアデータ(80,125,130)に従って処理し、復号化済みメディア信号(85)を得る、信号処理部(70)と、
を有する復号器。
【請求項26】
請求項25に記載の復号器(50)において、前記信号マニピュレータ(65)が、前記符号化済み二次メディアデータ(55)の前記基準パターン(135)において示された前記一次メディアデータ(90,90a,90b)における所定のタイミング時点(40,165)にしたがって、前記デジタル語に関連するサンプルレートを所定のサンプルレートへと変換し、リサンプル済みのデジタル語を取得するよう構成されたサンプルレート変換器(28)を含む、復号器。
【請求項27】
請求項22乃至24の何れか1項に記載の復号器(50)において、
前記符号化済み二次メディアデータ(55)の基準パターン(135)を分析するための基準パターン分析部(60)であって、前記一次メディアデータ(90,90a,90b)における所定のタイミング時点(40)を決定するよう構成された基準パターン分析部(60)を備え、
前記基準パターン分析部(60)は、
あるサンプルレートのサンプルについて、前記基準パターンにおいて示された前記一次メディアデータ(90,90a,90b)における所定のタイミング時点(40)を決定するよう構成された、タイミング時点決定部(32)と、
決定されたタイミング時点周りのある範囲をアップサンプルして、所定のタイミング時点の正確な位置を決定するよう構成された、アップサンプラ(33)と、
デジタル語のストリーム内での前記デジタル語の正確な位置を決定し、所定のサンプルレートとは異なる、前記デジタル語に関連した実際のサンプルレートを取得するよう構成された、サンプリング・アキュムレータ(34)と、を含む、
復号器。
【請求項28】
請求項22乃至24の何れか1項に記載の復号器(50)において、
前記符号化済み二次メディアデータ(55)の基準パターン(135)を分析するための基準パターン分析部(60)であって、前記基準パターン(135)の振幅(41,42)を決定するよう構成された基準パターン分析部(60)と、
前記符号化済み二次メディアデータ(55)を分析された基準パターン(75)及び計算された基準パターンに従って操作し、前記復元された二次メディアデータ(80,125,130)を得る信号マニピュレータ(65)と、を備え、
前記基準パターン分析部(60)は、前記基準パターン(135)の振幅(41,42)及び前記計算された基準パターンの振幅に従って増幅又は減衰ファクタを計算するゲインファクタ計算部(94)を含み、
前記信号マニピュレータ(65)は、前記増幅又は減衰ファクタに従って前記データ語を増幅又は減衰させ、ゲイン補償されたデータ語を得るよう構成された乗算器(27)を含む、復号器。
【請求項29】
請求項22乃至24の何れか1項に記載の復号器(50)において、
前記復号器(50)は、前記符号化済み二次メディアデータ(55)の基準パターン(135)を分析するための基準パターン分析部(60)を備え、
前記基準パターン分析部(60)は、
前記基準パターン(135)の振幅(41,42)と前記基準パターン(135)の追加的振幅とを決定する振幅検出部(20)と、
前記基準パターン(135)の振幅と前記基準パターン(135)の追加的振幅とのドリフトに従って、前記符号化済み二次メディアデータのオフセット(96a)を計算するよう構成されたオフセット補償ユニット(96)と、を有し、
前記復号器(50)は、前記符号化済み二次メディアデータ(55)を分析された基準パターン(75)及び計算された基準パターンに従って操作し、前記復元された二次メディアデータ(80,125,130)を得る信号マニピュレータ(65)を備え、
前記信号マニピュレータ(65)は、前記符号化済み二次メディアデータ(55)に対して前記符号化済み二次メディアデータ(55)のオフセットを加算して、オフセット補償された符号化済み二次メディアデータを得るよう構成された加算器を含む、
復号器。
【請求項30】
一次メディアデータ(90,90a,90b)についてのメタデータ又は制御データを有する符号化済み二次メディアデータ(55)を表す、デジタル語の受信されたストリームを有するメディア信号(155)を復号化する方法(1100)において、
前記符号化済み二次メディアデータ(55)から復元された二次メディアデータ(80,125,130)を復元するステップであって、前記復元は、デジタル復調操作又はリサンプリング操作を適用して、復元された二次メディアデータ(80,125,130)を取得することを含む、ステップと、
前記復元された二次メディアデータ(80,125,130)からビットストリーム(125')を導出するステップと、
を含み、
前記復元するステップは、
第2のビット数を有するデータ語(140)を、前記復元された二次メディアデータ(80,125,130)内のグループ化された二次メディアデータへとデマップするサブステップであって、前記グループ化された二次メディアデータは第1のビット数を有し、前記第2のビット数は前記第1のビット数より大きい、サブステップ、又は
前記復元された二次メディアデータ(80,125,130)内のグループ化された二次メディアデータのグループ化を解除し、前記グループ化された二次メディアデータは第1のビット数を有し、前記復元された二次メディアデータ(80,125,130)のビットストリーム(125')を取得するサブステップ、を含む、
方法。
【請求項31】
一次メディアデータ(90,90a,90b)についてのメタデータ又は制御データを有する二次メディアデータ(80,125,130)を符号化する方法(1200)であって、
前記二次メディアデータ(80,125,130)を符号化して符号化済み二次メディアデータ(55)を表すデジタル語(142)のストリーム(145)を取得するステップであって、前記符号化は前記二次メディアデータ(80,125,130)をデジタル変調によって変換すること又は帯域制限することを含む、ステップと、
第1のビット数を有するグループ化された二次メディアデータ(80,125,130)を、前記第1のビット数より大きな第2のビット数を有するデータ語(140)へマッピングするステップであって、前記グループ化された二次メディアデータ(80,125,130)は、前記データ語(140)の最上位ビット又は最下位ビットへとあるギャップを持って整列されている、ステップと、
前記データ語(140)を使用して、前記符号化済み二次メディアデータ(55)を表すデジタル語(142)のストリーム(145)を構築するステップと、
前記符号化済み二次メディアデータ(55)を表す前記デジタル語(142)のストリーム(145)を出力するステップと、
を含む方法。
【請求項32】
コンピュータプログラムがコンピュータ上で作動するとき、請求項30又は31に記載の方法を実行する、プログラムコードを有するコンピュータプログラム。
【請求項33】
請求項1乃至21の何れか1項に記載の符号器(100)と、
請求項22乃至29の何れか1項に記載の復号器(50)と、を含むデータ処理システム。
【請求項34】
請求項33に記載のデータ処理システムであって、
前記復号器(50)は、前記デジタル語の受信されたストリームを操作して、デジタル語の操作済みストリームを取得する信号マニピュレータ(65)をさらに含み、
前記復号器(50)は、前記デジタル語の操作済みストリームからデジタル語のストリームを復元するよう構成される、データ処理システム。
【請求項35】
請求項34に記載のデータ処理システムであって、
前記信号マニピュレータ(65)は、振幅増幅若しくは振幅減衰、オフセット導入若しくはオフセット変化、周波数選択的な減衰若しくは増幅、又はリサンプリングによって、操作するよう構成され、
前記復号器(50)は、振幅増幅若しくは振幅減衰、オフセット導入若しくはオフセット変化、周波数選択的な減衰若しくは増幅、又はリサンプリングによって操作された、デジタル語のストリームを復元するよう構成される、データ処理システム。
【請求項36】
請求項34又は35に記載のデータ処理システムであって、
前記信号マニピュレータ(65)はPCMオーディオチャネルを受信し、PCMオーディオチャネルを出力するよう構成され、
前記符号器(100)は前記PCMオーディオチャネルを介して伝送可能な信号を出力するよう構成され、
前記復号器(50)は前記PCMオーディオチャネルから前記受信されたストリームを受信するよう構成される、データ処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、メディア信号を復号化する復号器及び、一次メディアデータについてのメタデータ又は制御データを含む二次メディアデータを符号化する符号器に関する。
【0002】
換言すれば、本発明は、1つのデジタルオーディオチャネルを介して制御データ又はメタデータを配信するための方法と装置とを示す。一実施形態は、特にHD−SDI(高解像度シリアルデジタルインターフェース)ビデオ信号に埋め込まれた標準AES3(AES:オーディオ技術協会)PCM(パルス符号変調)オーディオビットストリームを使用するテレビ設備、システム、又はネットワークにおいて、オーディオ信号に付随する制御データ又はメタデータの簡便で信頼性のある伝送を示す。
【背景技術】
【0003】
音楽、ビデオ、及び他のマルチメディアコンテンツの生成及び伝送において、そのコンテンツの再生は、そのコンテンツの特性を表すメタデータを含ませることによって、強化され、又はより便利又は価値あるようになし得る。例えば、MP3フォーマットで符号化された音楽は、コンテンツのタイトル又はアーティストについての情報を提供するために、MP3ファイルの中にID3タグを含ませることにより、さらに便利になってきた。
【0004】
ビデオコンテンツの中に、記述的メタデータだけでなく、消費者の設備や環境に依存してコンテンツの再生を制御するためのデータをも含むことは通常のことである。例えば、テレビ放送及びDVDやブルーレイなどのビデオディスクは、コンテンツのラウドネスレンジを修正するのに使用されるダイナミックレンジ制御データと、ステレオ装置における再生のためにサラウンドサウンド・マルチチャネルオーディオ信号の変換を制御するために使用されるダウンミックスゲインとを含む。ダイナミックレンジ制御データの場合には、ゲインはコンテンツの数ミリ秒毎に送られ、これにより、ノイズの多い環境やプログラム内でより小さなラウドネスレンジが望まれる場所では、任意選択的に最終的なオーディオ信号がそのゲインで乗算されることで、再生用コンテンツのダイナミックレンジが圧縮される。
【0005】
消費者への配信のためのデジタルビットストリーム又はファイルにそのようなメタデータ又は制御データを混入する手段は、(Advanced Television Systems Committee, Inc.オーディオ圧縮標準A/52において標準化された)ATSC A/52又は(ISO/IEC 14496−3 及び ETSI TS 101 154において標準化された)MPEG HE−AACのような、オーディオ符号化標準において良好に確立されかつ準備されている。
【0006】
しかしながら、コンテンツが最終的なビットストリームに符号化される前の、プロフェッショナルな、又はクリエイティブな環境におけるメタデータ又は制御データの伝送は、非常に僅かしか標準化されていない。現在まで、この情報は、コンテンツの持続時間に亘って一定を維持しながら本質的に静的な特性を持っていた。しかし、ラウドネス制御ゲインはダイナミックであり、コンテンツ生成標準において、最終的なオーディオ符号化処理の間のゲインの生成を制御するために、「符号化プロファイル」が確立されてもよい。このようにすれば、コンテンツ創造環境において、ダイナミック・メタデータが記録され又は伝送される必要がない。
【0007】
二次元又は三次元における音が、伝統的なスピーカチャネル又はアンビソニックコンポーネントにおけるレベルによって表現されず、空間座標又はそれらの位置及び大きさを表す他のデータによって表される、オブジェクト指向のオーディオシステムの発展により、そのような音が時間と共に移動する場合に、連続的に変化するダイナミック・メタデータの伝送が必要となった。また、切替可能な言語、視覚障害者のための音声記述、又はスポーツイベントのためのホーム又はアウェイチーム用の解説のような、異種の追加的オーディオ要素を有するコンテンツの創造を可能にするためにも、静的オブジェクトが使用される。そのような静的オブジェクトを持つコンテンツは、プロフェショナルな設備が順応させるべく現在設計されている、ステレオや5.1サラウンドのような均一モデルのチャネルにはもはや適合しない。そのため、記述的メタデータが生成又は配信の期間中にコンテンツの各項目に付随するようにしてもよく、その方法でそのメタデータが消費者への放射又は配信のためにオブジェクトビットストリーム内へと符号化され得るようにしてもよい。
【0008】
理想的には、プロフェショナルなコンテンツ・フォーマットは、そのような位置又は記述的メタデータのための手段を、それらのストラクチャ又はスキームの中に単純に含み得る。実際のところ、MDAやBWF−ADMのような現実のフォーマットに対する新たなフォーマット又は延長は、この目的で発展してきた。しかしながら、そのようなフォーマットは、殆どの場合、レガシー設備によって理解されず、特にライブ又はリアルタイム使用のために設計されたシステムにおける配信には向いていない。
【0009】
そのようなシステムでは、AES 2,MADI又はSDIにおける埋込型オーディオのようなレガシー標準が通常である。これら標準の使用は、Revanna,Dante又はAES67のようなIPベースの標準によって、徐々に増強され、又は置き換えられている。これら標準又は技術の全ては、PCMオーディオのチャネルを伝送するために設計されており、ダイナミック・メタデータ又は記述的メタデータを送信するための手段を持っていない。
【0010】
この問題を解決すると考えられる一手法は、静的メタデータをも含み適切にフォーマットされたデジタルビットストリームが含まれ得るように、トランスペアレント・ビットレートオーディオ符号化を使用する「メザニン」フォーマットで、オーディオを符号化することであった。その場合、このビットストリームは、伝統的なテレビ装置又はプロフェッショナルな設備上で、PCM符号化済みオーディオデータとして送信され得るように、フォーマットされていた。この技術のテレビ産業への一般的な実装は、SMPTE標準ST 337に従うPCM AES3オーディオチャネルにおいて搬送されている、ドルビーEシステムである。
【0011】
ドルビーEは、4つのPCMオーディオチャネルを持つよう設計されたレガシー設備を、サラウンド音響のために必要とされる5.1チャネルのために使用可能にし、またプログラムの「ダイアルノルム(dialnorm)」又は統合されたラウドネス値を伝送するための手段を含む。
【0012】
ドルビーEシステムの使用は、幾つか操作上の欠点を明らかにした。その第1の欠点は、生成又は配信設備のSDI装置においてPCMオーディオ信号を埋め込むために使用される多くの装置の中で、サンプルレート変換を含むことであった。オーディオ信号のサンプルレート変換又はリサンプリングは、オーディオデータ・サンプリングクロックと、その設備内で使用されるビデオ・サンプリングクロック及びビデオ同期信号と、の間の正確な位相及び周波数同期を確保するために、通常実行される。そのようなリサンリングは、PCMオーディオ信号に対して通常は不可聴効果を有するが、PCMサンプル値を変化させる。そのため、ドルビーEビットストリームを伝送するために使用されるオーディオチャネルは、リサンプリングによって破損したビットストリームを有するおそれがある。そのような場合には、リサンプリングは不可とされ得、他の手段がその設備内でサンプルクロックの同期を確保するために用いられ得る。
【0013】
他の欠点は、使用されたオーディオコーデックのブロック変換の特質によって導入された遅延であった。ドルビーEコーデックは、その信号を符号化するための1つのビデオフレーム(インターレースATSCビデオについて略1/30秒)と、その信号を復号化するための1つのビデオフレームとを必要とし、その結果、ビデオに比べてオーディオの2フレーム分の遅延をもたらした。このことは、リップ同期(lip-sync)を維持するために、ビデオ信号を遅延させる必要があり、配信設備におけるさらなる遅延を導入することになる。
【0014】
第3の欠点は、オーディオ信号に代えてドルビーEビットストリームをデータチャネルとして搬送している入力を取り扱うために、SDIルーティング切替器(SDI routing switchers)をプログラムする必要があることである。ドルビーEは、ビデオ信号の垂直帰線期間(vertical interval)の周りに「ガードバンド」を含み、ドルビーEデータの損失なしにルーティング切替器を他の入力へと切り替えることを可能にするが、多くのルーティング切替器は、そのような切り替えの間にオーディオ信号のクロスフェードを実行し、通常のPCMオーディオ信号における可聴ポップや過渡を防止する。これらクロスフェードは5−20msの持続時間があり、その切替点の付近でドルビーEビットストリームを破損する。
【0015】
これら動作上の制約により、殆どのテレビ設備は、それらがネットワークに接続された途端に全てのコンテンツのダイアルノルムレベルを正規化する方式を選択して、ドルビーEの使用を放棄させる結果となり、固定のダイアルノルム値とダイナミックレンジ・プロファイルとがそれらの出力オーディオ符号器の中へとプログラムされかねない状況だった。
【0016】
テレビ設備において時折使用される代替技術は、SMPTE標準ST2020において標準化されているように、メタデータ情報をVANCデータ内のSDIビデオ信号そのものに挿入することである。この技術は、AES3のユーザービットを使用してメタデータを搬送することと組合せられることが多い。しかし、しかしながら、通常のSDI埋込型設備は、VANCビット内への挿入用に、このメタデータをAESストリームから抽出することをサポートしていない。
【0017】
時折使用される更なる技術は、ダイナミック制御データをオーディオ信号のLSB内に挿入することによって、ダイナミック制御データをPCMオーディオ信号内に符号化することである。そのような技術は、非特許文献8に記載されており、MPEGサラウンド・オーディオ符号化標準の実装において用いられてきた。しかしながら、そのような埋込データは、サンプルレート変換又はLSBの切り詰めに対する耐性を持たない。
【0018】
関連する一技術は、AES3標準において規定されたユーザービット又は補助サンプルビットなどの追加的ビットを、ダイナミック制御データに適したサイドデータチャネルとして使用することである。しかし、残念ながら、AES3標準の多くの実装は、この情報を廃棄してしまう。
【0019】
上述した複数の技術のさらなる制約は、それら技術が技術的伝送環境においてのみ使用されるよう意図されていることである。もしそれらが、オーディオコンソールやデジタルオーディオ・ワークステーションのようなクリエイティブな設備を介してルーティングされた場合には、含んでいるPCMチャネルに対して何ら動作が実行されなかったとしても、そのような設備がそのような目的のために設計されていないので、そのコンソールを介したデータ経路がビット厳密であることが保証され得ないであろう。たとえそのようなビット厳密さが確保されたとしても、制御フェーダーに触れて、それによりPCMチャネルにおける僅かなゲイン変化を誘発するという単純な事故が、信号を破損してしまうであろう。
【0020】
これら全ての技術に共通する点は、PCMオーディオ信号の搬送だけの目的で設計され、デジタル制御データの埋込について考慮していない、生成及びトランスポート設備により課された制約である。
【0021】
したがって、改善されたアプローチが必要になる。
【先行技術文献】
【非特許文献】
【0022】
【非特許文献1】International Organization for Standardization and International Electrotechnical Commission, ISO/IEC 14496-3 Information technology _ Coding of audio-visual objects _ Part 3: Audio, www.iso.org.
【非特許文献2】International Organization for Standardization and International Electrotechnical Commission, ISO/IEC 23003-1:2007 Information technology - MPEG audio technologies - Part 1: MPEG Surround, www.iso.org.
【非特許文献3】International Organization for Standardization and International Electrotechnical Commission, ISO/IEC DIS 23008-3 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, www.iso.org.
【非特許文献4】European Telecommunications Standards Institute, ETSI TS 101 154: Digital Video Broadcasting (DVB); Specification for the use of Video and Audio Coding in Broadcasting Applications based on the MPEG-2 transport stream, www.etsi.org.
【非特許文献5】Advanced Television Systems Committee, Inc., Audio Compression Standard A/52, www.atsc.org.
【非特許文献6】Dolby Laboratories, Inc., “Post It with Dolby E”, www.dolby.com, 2003.
【非特許文献7】Snell Ltd., “White Paper: Dolby E Processing, Working with Dolby E in a Broadcast Environment”, www.snellgroup.com, 2011.
【非特許文献8】A. W. J. Oomen, M. E. Groenewegen, R. G. van der Waal, and R. N. J. Veldhuis, “A Variable-Bit-Rate Buried-Data Channel for Compact Disc,” J. Audio Eng. Soc., vol. 43, p. 23-28 (1995 Jan./Feb.).
【非特許文献9】Audio Engineering Society, AES 3-2003, AES standard for digital audio - Digital input-output interfacing - Serial transmission format for two-channel linearly represented digital audio data, www.aes.org, 2003.
【非特許文献10】Audio Engineering Society, AES10-2008 (r2014): AES Recommended Practice for Digital Audio Engineering - Serial Multichannel Audio Digital Interface (MADI), www.aes.org, 2014.
【非特許文献11】Audio Engineering Society, AES67-2013: AES standard for audio applications of networks - High-performance streaming audio-over-IP interoperability), www.aes.org, 2013.
【非特許文献12】Society of Motion Picture and Television Engineers, Ancillary Data Packet and Space Formatting, ST 291-1:2011.
【非特許文献13】Society of Motion Picture and Television Engineers, 1.5 Gb/s Signal/Data Serial Interface ST 292-1:2012.
【非特許文献14】Society of Motion Picture and Television Engineers, Format for Non-PCM Audio and Data in an AES3 Serial Digital Audio Interface ST 337:2008.
【非特許文献15】Society of Motion Picture and Television Engineers, Format of Audio Metadata and Description of the Asynchronous Serial Bitstream Transport ST 2020-1:2014.
【非特許文献16】"A flexible sampling-rate conversion method," Julius O. Smith and P. Gossett, IEEE International Conference on ICASSP 1984, pp.112-115, Mar 1984.
【非特許文献17】“Principles of Interactive Computer Graphics”, Newman and Sproull, 2nd ed., Mc-Graw-Hill, 1979, figure 2-9,
【発明の概要】
【発明が解決しようとする課題】
【0023】
本発明の目的は、メタデータ又は制御データを含むメディア信号を処理するための改善されたコンセプトを提供することである。この目的は、独立請求項の主題によって解決される。
【課題を解決するための手段】
【0024】
本発明は、次のような知見に基づいている。すなわち、二次メディアデータ、例えば一次メディア信号(例えばペイロードデータ)のコンテンツの追加情報を運ぶメタデータ、又は一次メディアデータのコンテンツの再生を制御するデータを含む制御データは、信号操作の有為な変動に対してロバストであるデジタル語のストリームの中に配置され得るという知見である。実施形態は、オーディオ信号にとって典型的である信号操作に対して耐性を持つか又はロバストであり得る、オーディオ状のデジタル信号としてデジタル語のストリームを示す。その信号処理は、サンプリング周波数の変換、信号の増幅又は減衰、又はDC(直流)オフセットであってもよい。例えばデジタル語のストリームがAES3 PCMデジタルオーディオチャネルのような高次のストリーム内に配置され、そこではデジタル語のストリームを生成する符号器のサンプリング周波数が、AES3デジタルオーディオインターフェースのような、前記高次のストリームを生成する信号処理器のサンプリング周波数と異なる場合には、サンプリング周波数の変換が実行されてもよい。したがって、二次メディアデータを典型的なオーディオ信号として取り扱うことができ、よって、二次メディアデータは、例えばテレビ(TV)スタジオにおける特殊なハードウエアのような現状のシステムにおいて、多数のオーディオチャネルの1つに実装されてもよい。特殊な実施形態は、16個のオーディオチャネルを含むSDIビデオ信号であってもよく、その場合には1つのオーディオチャネルがメタデータ又は制御データのために使用される。SDIビデオ信号は、1つ以上のビデオチャネルを含んでもよい。オーディオチャネルはPCMデジタルオーディオチャネルであってもよい。したがって、メタデータ又は制御データは、標準的なデジタルビットストリームに代えて、PCMデジタルオーディオチャネルについての典型的な信号操作に対してロバストである、ロバストなアナログ状デジタル信号として符号化されてもよい。現状のシステムは、現在の符号器及び復号器を以下に説明する符号器及び復号器に取り替えることにより、制御データ又はメタデータを含むよう拡張されてもよい。この取り替えは、比較的安価なソフトウエアの更新によって達成され得る。たとえ符号器及び復号器がハードウエアで実現されている場合でも、放送設備のような追加的(高価な)ハードウエアを変更せずに使用できる。
【0025】
実施形態は、一次メディアデータについてのメタデータ又は制御データを含む二次メディアデータを符号化する符号器を示す。この符号器は、二次メディアデータを符号化して、デジタル語のストリームを取得するよう構成され、その符号化は、二次メディアデータのデジタル変調による変換、又はバンド制限を含む。さらに、符号器は符号化済み二次メディアデータをデジタル語のストリームとして出力するよう構成される。したがって、デジタル語のストリームは、デジタルオーディオストリームの典型的な処理に耐えられるように形成され得る。さらに、そのデジタル語のストリームはオーディオ状又はアナログ状のデジタルストリームとして設計され得るので、デジタルオーディオストリームを処理する手段であればそのデジタル語のストリームを処理することができる。
【0026】
実施形態は符号化に関係している。その符号化は、デジタル変調によって冗長性を付加することを含む。デジタル変調、例えばパルス振幅変調は、デジタル語のストリームの1デジタル語当り二次メディアデータの2つ以上のビットが伝送されるようにしてもよい。さらに、符号器は、デジタル語のストリームがPCMオーディオチャネルを介して伝送可能なように、デジタル語のストリームを出力するようにしてもよい。さらに、符号器は、デジタル語の追加的ストリームを出力してもよい。このデジタル語の追加的ストリームは一次メディアデータを表し、この追加的ストリームはデジタル語のストリームから分離されている。一次メディアデータはオーディオデータであってもよく、二次メディアデータはそのオーディオデータについてのメタデータ又はそのオーディオデータについての制御データであってもよい。したがって。符号器は、デジタル語の追加的ストリームが第1のオーディオPCMチャネルを介して伝送可能であり、かつデジタル語のストリームが第1のオーディオPCMチャネルとは異なる第2のオーディオPCMチャネルを介して伝送可能であるように、デジタル語のストリーム及びデジタル語の追加的ストリームを出力してもよい。一次メディアデータを表す追加的ストリームのデジタル語の各々は、8ビットより大きく、32ビットより小さな所定のビット数を有しても良く、デジタル語のストリームのデジタル語の各々もまた、所定のビット数を有しても良い。符号器はさらに、デジタル語のストリームがタイミング基準パターン又は振幅基準パターンを含むように、デジタル語のストリームを生成してもよい。
【0027】
さらなる実施形態は、二次メディアデータの整列を示す。したがって、符号器が複数のビデオ画像の1つのシーケンスを表現する1つのビデオストリームを出力する際に、1つの所定のビデオ画像に関連する二次メディアデータの複数の制御データ又はメタデータが、その所定のビデオ画像に関連付けられる。この点は、ビデオ画像のシーケンスが任意のビデオ画像で又は連続的なビデオ画像の任意の間でカットされ得ること、及び後続するビデオ画像がこのビデオ画像に関連する制御データ又はメタデータを依然として含んでいることから、有利である。さらに、符号器は、デジタル語のストリームを、ビデオ画像のシーケンスの第1ビデオ画像に関連したデジタル語の第1ストリームとして出力してもよく、そのデジタル語のストリームを、ビデオ画像のシーケンスの第2ビデオ画像に関連したデジタル語の第2ストリームとして出力してもよく、ここで第1及び第2のデジタル語は互いに等しい。この点は、連続的なビデオ画像が同じメタデータ又は制御データを含む場合に、各ビデオ画像がそのビデオ画像に関連したメタデータ又は制御データを確実に含むようにできるので有利である。
【0028】
さらに、実施形態は、デジタル語のストリームとしての符号化済み二次メディアデータを制御トラックとして出力し、かつ15チャネルまでの一次メディアデータをオーディオトラックとして出力するための符号器を示しており、ここでは制御トラック及びオーディオトラックはAES3標準に従って形成される。
【0029】
さらなる実施形態は、デジタル語を生成するよう構成された符号器を示し、そのデジタル語は12〜28ビットを有するか、そのデジタル語が30kHz〜55kHzの間のサンプリングレートでサンプリングされるか、そのデジタル語が70〜160dBのダイナミックレンジを有するか、又はRMSフルスケールで−20dBの公称信号レベルを有する。その符号器は、30kHz〜55kHzの間のサンプリングレートについて、二次メディアデータを帯域制限するために15kHz〜27.5kHzの間の上側周波数を使用してもよい。
【0030】
実施形態はさらに、マッパとストリームビルダとを含む符号器を示す。マッパは、第1のビット数(a first number of bits)を有するグループ化された二次メディアデータを、第1のビット数より大きな第2のビット数(a second number of bits)を有するデータ語へマッピングするよう構成されている。さらに、グループ化された二次メディアデータは、データ語の最上位ビット(most significant bit)又は最下位ビット(least significant bit)へとあるギャップを持って整列される。ストリームビルダは、1つの基準パターンと複数のデータ語とを使用して符号化済み二次メディアデータを表現するストリームを構築するよう構成されている。このことは、次のような利点がある。すなわち、前記ギャップはグループ化された二次メディアデータを、このギャップが含む各ビットについて最上位ビットに向かって約6dBずつ(又は2の係数で)増幅することを可能にし、かつギャップが含む各ビットについて、データ語の最下位ビットに向かって約6dBの(又は0.5の係数で)減衰を可能にするからである。したがって、増幅又は減衰が故意に又は偶発的に適用されたかどうかには関係がない。なぜなら、グループ化された二次メディアデータ(情報)のデータ語へのマッピングであって、グループ化された二次メディアデータの両端においてデータ語を得るためにパディングが適用されるマッピングにより、データ語の構造がビットシフト(最上位ビットへとシフトされる各ビットについて係数2による増幅、又は最下位ビットへシフトされる各ビットについて係数0.5による減衰)を可能にするからである。したがって、グループ化された二次メディアデータは破壊されず、増幅又は減衰がパディングより大きくなるまで有効性を維持する。
【0031】
実施形態はさらに、二次メディアデータのビットストリームをグループ化して、グループ化された二次メディアデータを形成するためのグルーパを含む符号器を示す。さらに、その符号器は、一次メディアデータにおける基準振幅(reference amplitude)又は所定のタイミング時点(timing instant)を示す、基準パターンを生成するための基準信号生成部を有しても良い。ストリームビルダは、基準パターン又はデータ語を使用して、符号化済み二次メディアデータを表すデジタル語のストリームを構築してもよい。基準パターンは、一次メディアデータにおける基準振幅又は所定のタイミング時点を示してもよい。復号器における基準パターンの分析は、ストリームが符号器において符号化された後にデジタル語のストリームに対して適用された、増幅、減衰又はDCオフセットを復号器が計算することを可能にする。さらに、デジタル語のストリームのサンプリングレートは、一次メディアデータにおける所定のタイミング時点から決定されてもよい。
【0032】
ストリームビルダはさらに、データ語又は基準パターンをローパスフィルタリングし、所定のサンプルレートの1サンプルより大きな長さを有するデジタル語を取得するフィルタを有しても良く、ここで、このデジタル語の振幅はデータ語又は基準パターンに従って重み付けされ、そのフィルタは所定のサンプルレートの各時点で連続的なデジタル語を合算し、デジタル語のストリームを取得するよう構成される。このフィルタを適用することは、二次メディアデータが通常のオーディオデータに比べてリサンプリングに対して脆弱であるため、有利である。つまり、このフィルタにより、二次メディアデータは、符号器と復号器との間、又は符号器に対する復号器の中で、適用されたリサンプリングステップに対する耐性を持つことが可能となり、かつ復号器期間中の必須のリサンプリングステップに対する耐性を持つことが可能となる。さらに、デジタル語のストリームはアナログであってもよく、リサンプリング期間中に大きな損失なくデジタル変換され得る。しかしながら、リサンプリングはデジタル信号からアナログ信号への変換と同じでなくてもよい。アナログ変換は、データをスミアし得るインパルス応答を持つフィルタを含む可能性があり、アナログ−デジタル変換はその信号に対して、何らかのアナログノイズ(熱的又は半導体生成ノイズ、ハム又は干渉等)と共に量子化ノイズを付加する可能性がある。本発明の概念を用いて生成された信号は、リサンプリング及びデジタル−アナログ変換に対する耐性を持つことができる。
【0033】
追加の実施形態に従えば、フィルタはデータパルスの所定のサンプルレートの各時点でゼロ点を得るよう構成され、その1つのデータパルスはグループ化された二次メディアデータ又は基準パターンを含む1つのデータ語を有する。さらに、ストリームビルダは、基準パターン及び複数のデータ語を使用して、符号化済み二次メディアデータを表すストリームを構築するよう構成され、その場合、データパルスのゼロ点が追加のデータパルスの最大値に整列されて、符号化済み二次メディアデータを表すシンボル間干渉のないストリーム(inter-symbol-interference-free stream)を取得する。換言すれば、ナイキスト・フィルタリング済み信号は、復号器においてシンボル間干渉を受けずに復号化され得るので、ナイキストフィルタを使用することが有利である。換言すれば、ゼロのシンボル間干渉のためのナイキスト基準を満足するフィルタを使用することが有利である。この実施形態によれば、フィルタのカットオフ周波数は、一次メディアデータのサンプリング周波数の1.5倍未満であってもよい。
【0034】
一実施形態によれば、基準信号生成部は、第1のビット数を持つグループ化された基準パターンを生成する。この基準信号生成部はさらにグループ化された基準パターンを、第1のビット数より大きな第2のビット数を持つデータ語へとマップするよう構成される。代替的に、マッパは第1のビット数を持つグループ化された基準パターンを、第1のビット数より大きな第2のビット数を持つデータ語へとマップする。様々な実施形態は、メタデータ又は制御データを含むデータ語のフォーマットを基準パターンに適用する選択肢について説明する。好適には、基準パターンは、二次メディアデータについて採られたメディア信号の増幅又は減衰に対する同じ措置が適用されるように、設計される。したがって、基準信号生成部は、マップされた二次メディアデータの形式で基準パターンを提供してもよく、このことは、基準パターンが第1のビット数を有し、第1のビット数より大きい第2のビット数を有する基準パターンであってかつ復号器及び符号器において既に説明したように最上位ビット及び最下位ビットへと同じギャップを持つ基準パターンへとマップされることを意味する。代替的に、基準信号生成部は第1のビット数を持つ基準パターンを出力する。二次メディアデータに従って、マッパは第1のビット数を有する基準パターンを第2のビット数を有するデータ語へとマップする。
【0035】
実施形態はさらに、一次メディアデータについてのメタデータ又は制御データを有する符号化済み二次メディアデータを表す、デジタル語の受信されたストリームを有するメディア信号を復号化する復号器を示す。その復号器は、受信されたデジタル語によって表現された振幅に関して、デジタル語の受信されたストリームを操作し、又はリサンプリングすることによって、二次メディアデータを復元するよう構成される。復号器は、復元された二次メディアデータからビットストリームを導出するよう構成される。
【0036】
実施形態はさらに、基準信号生成部、信号マニピュレータ、及び信号処理部を含む復号器を示す。基準信号分析部は、符号化済み二次メディアデータの基準パターンを分析し、その基準信号分析部は、基準パターンの振幅を決定し、又は一次メディアデータ内での所定のタイミング時点を決定するよう構成される。信号マニピュレータは、符号化済み二次メディアデータを分析された基準パターン及び計算された基準パターンに従って操作し、二次メディアデータを得る。信号処理部は、一次メディアデータを符号化済み二次メディアデータに従って処理し、復号化済みメディア信号を得る。このことは、符号化の間にメディア信号に対して適用された信号処理により、信号マニピュレータが、増幅のような典型的な信号操作から独立して、符号化済みメディア信号からメディア信号を正確に取り戻せるようになるので、有利である。
【0037】
幾つかの実施形態によれば、信号マニピュレータは、基準パターンにおいて示された一次メディアデータの所定のタイミング時点にしたがって、デジタル語に関連するサンプルレートを、所定のサンプルレートへと変換し、リサンプル済みのデジタル語を取得するよう構成されたサンプルレート変換器を含む。この点は、オーディオサンプリングレートについての標準がメディアデータの処理の期間中にミックスされ得るので、有利である。オーディオデータとは対照的に、メタデータ又は制御データを有する二次メディアデータには冗長性又は依存性がないので、例えば48kHzから48.1kHzへの小さなサンプルレート変換であっても、二次メディアデータを破損する。換言すれば、二次メディアデータの連続的シンボルは、1サンプルの中で最高の可能な値から最低の可能な値まで変化し得る。このことは、二次メディアデータ内での強い変化に起因して非常に高い周波数をもたらす。
【0038】
しかしながら、二次メディアデータとは対照的に、オーディオサンプルは典型的に帯域制限されており、このことはオーディオデータの変化はサンプリング周波数によって決定された最大周波数に制限されていることを意味する。
【0039】
さらなる実施形態は、サンプルレートのサンプルの点から基準パターンにおける一次メディアデータの所定のタイミング時点を決定するよう構成されたタイミング時点決定部と、決定されたタイミング時点周りのある範囲をアップサンプルして所定のタイミング時点の正確な位置を決定するよう構成されたアップサンプラと、デジタル語のストリーム内でのデジタル語の正確な位置を決定し、所定のサンプルレートとは異なる、デジタル語に関連した実際のサンプルレートを取得するよう構成されたサンプリング・アキュムレータ(accumulator)と、を含む基準パターン分析部を示す。
【0040】
実施形態はさらに、基準パターンの振幅及び計算された基準パターンの振幅に従って増幅ファクタ又は減衰ファクタを計算するよう構成されたゲインファクタ計算部を含む基準パターン分析部を示し、信号マニピュレータは、増幅ファクタ又は減衰ファクタに従ってデータ語を増幅させ又は減衰させ、ゲイン補償されたデータ語を得るよう構成された乗算器を含む。この点は、符号化済みメディア信号の増幅及び減衰が、符号器から復号器への転送の間に発生し得る大きな問題の1つであるから、有利である。上述の特性を持つチャネルに起因して、他のオーディオチャネルが故意に又は偶発的に増幅され又は減衰されるべきである場合に、増幅又は減衰が例えばイコライザにおいて故意に適用されてもよい。
【0041】
さらなる実施形態によれば、デジタル語のストリームを含むメディア信号が示される。そのデジタル語のストリームは、一次メディアデータについてのメタデータ及び制御データを含む二次メディアデータを表している。
【0042】
さらなる実施形態は、基準パターンの振幅と基準パターンの追加の振幅とを決定するよう構成された振幅検出部を含む、基準パターン分析部を有する。基準パターン分析部はさらに、基準パターンの振幅と基準パターンの追加的振幅とのドリフトに従って、符号化済み二次メディアデータのオフセットを計算するよう構成されたオフセット補償ユニットを有し、ここで、第2マニピュレータは、符号化済み二次メディアデータに計算された符号化済み二次メディアデータのオフセットを加算して、オフセット補償された符号化済み二次メディアデータを得る、加算器を含む。この実施形態の長所は、ゲインファクタ計算部の前述の実施形態と同様であり、オフセットは、例えば符号器と復号器との間のイコライゼーション処理の期間中、又は伝送チャネルによって生起されるドリフトから偶発的に、ゲインに代えて符号化済み二次メディアデータに対して適用されてもよい。
【0043】
実施形態はさらに、第1のビット数よりも大きい第2のビット数を有するデータ語から、第1のビット数を有するグループ化された二次メディアデータをデマップするよう構成されたデマッパを備えた、信号マニピュレータを示す。追加的又は代替的に、信号マニピュレータは、第1のビット数を有するグループ化された二次メディアデータのグループ化を解除し、復号化済みメディアデータビットストリームを取得するアングルーパを備える。デジタル語はさらに、基準パターンと複数のデータ語とを含むフィルタリングされた二次メディアデータを含むデジタル語を有しても良く、二次メディアデータは、データ語の最上位ビット又はデータ語の最下位ビットに対してあるギャップをもって、データ語内にマップされる。さらに、基準パターンは、符号化済み二次メディアデータの基準振幅と一次メディアデータにおける所定のタイミング時点とを有してもよく、ここで複数のデータ語は二次メディアデータを含む。
【0044】
実施形態は、一次メディアデータの追加のストリームを有するメディア信号を示し、その一次メディアデータはオーディオデータ又はビデオデータを有し、一次メディアデータを有する追加のストリームは、符号化済み二次メディアデータのストリームに対して、一次メディアデータの所定のタイミング時点において整列される。この点は、一次メディアにおけるタイミング時点が二次メディアデータの一次メディアデータに対する正確な整列を可能にするので、有利である。換言すると、オーディオ信号とメタデータ又は制御データとは、垂直帰線消去(vertical blanking)にあるビデオ信号のフレームに対して整列されてもよいし、又はビデオ信号の追加の同期信号に対して整列されても良い。さらに、タイミング時点は、二次メディアデータがそれに対して整列されるべき、オーディオ信号内の同期信号であってもよい。従って、二次メディアデータはまた、オーディオだけのストリームに適用されてもよい。このアイデアは、ビデオ信号の各フレーム内に、二次メディアデータの任意の情報を提供することである。二次メディアデータはビデオストリームがカットされている一次メディアデータ内のタイミング時点に整列されているので、二次メディアデータは変更されずに残り、無傷である。従って、ビデオフレームを含むビデオ信号がカットされていても、各ビデオフレームは二次メディアデータからの任意の情報を含み得る。
【0045】
実施形態は以下の考察にしたがって発展され得る。従って、本発明の実施形態の利点は、PCMオーディオチャネルだけを提供する伝統的なクリエイティブかつ配信用の装置を介して、PCM(パルス符号変調)デジタルオーディオ信号に付随する、静的及び動的な制御データ又はメタデータを運ぶ手段を提供することである。
【0046】
このことは、オーディオ信号のための伝送手段として、PCMデジタルオーディオチャネルの基礎的性質を考慮することによって、達成され得る。そのようなオーディオ信号は、テレビ使用のために16〜24ビットのビット深さで、かつ48kHzのサンプリングレートで標準的にデジタル化され、RMS(平均二乗平方根)フルスケールで−20dBの公称信号レベルを持つ、90〜140dBの結果的なダイナミックレンジを有する。
【0047】
よって、典型的なAES3伝送チャネルを、これら特性を持つデジタル化された通信チャネルとして考慮した場合、デジタル通信において一般的に使用される変調技術が、チャネルを介して変調されたデータを送信するのに使用され得る。そのような技術は、ゲイン変化、適度な時間ベースの歪み、及び多くの場合、チャネルの周波数応答歪みに対して、通常は不感応である。
【0048】
AES3 PCMデジタルオーディオチャネルは、デジタル通信に用いられるチャネルとは異なる。それは厳密にはデジタルチャネルであり、無線通信チャネルに典型的なマルチパス及び高速チャネルフェーディングからの影響を受けない。90〜140dBのダイナミックレンジが与えられた場合、AES3 PCMデジタルオーディオチャネルは、十分なキャリア対ノイズ比を提供するために、潜在的な伝送パワーにおいて実際上制限されない。SDI(シリアルデジタルインターフェース)ビデオ信号に埋め込まれるなどして、ビデオシステムで使用された場合、切り替えが発生し得るビデオ垂直同期区間を避ける必要性に起因して、本来的にブロックする性質を有する。また、多くの通信システムとは異なり、ライブ放送を制作している場合には、リップ同期問題を避けるため、又はオーディオをモニタリングする中での困難さを避けるために、短い待ち時間(low latency)とする必要性がある。
【0049】
オブジェクトオーディオについて必要とされる制御データ又はメタデータのスループット要件は、オブジェクトの数、オブジェクトが静的又は動的であるかどうか、及び使用された具体的なオブジェクトオーディオ標準、によって変化する。1つのそのような標準はMPEG−Hオーディオ仕様、ISO/IEC23008−3である。この標準では、典型的な使用例は、MHAS(MPEG−Hオーディオストリーム(ISO/IEC23008−3の第14章MPEG−H 3Dオーディオストリームにおいて定義される)の仕様を10−30kb/sで使用したストリーミングパケット内に符号化されているメタデータ又は制御データを含む。
【0050】
例えば、MPEG−Hオーディオシーンにおける各ダイナミックオブジェクトは、伝送のために1.5kb/sを必要とする。よって、16個のダイナミックオブジェクトを持つプログラム(SDIインターフェースは埋込型オーディオの16チャネルしかサポートしないという実用上の最大値が与えられている)は、約25kb/sのデータを必要とする。オーディオシーンに関する静的なメタデータは、もしそれが各オーディオフレームの中で送られていた場合には、別の40〜50kb/sを必要とするであろう。
【0051】
必要とされる潜在的ビットエラーレート(BER)は、次のファクタを考慮することによって推定され得る。すなわち、単一のビットエラーが1年に1度だけ作動中に許可された場合には、75kb/sのビットレートを所与とすると、2.36E12ビットが1年に送られることになり、4.2E−13のビットエラーレートが必要となる。しかしながら、制御データにおける情報は高度な冗長性を有する。殆どの場合、ビットエラーは基礎をなすMHASプロトコルによって検出されるであろうし、制御データは周囲のパケットから補間されるであろう。代替的又は追加的に、ビットエラーをチェックするための例えば16ビットを使用するCRC(巡回冗長検査)値もしくは他の適切な符号又はメカニズムが使用されてもよい。この場合には、1時間に1度だけのビットエラーが合理的な上限であろう。この後者の場合には、3.7E−9のBERを必要とするであろう。よって、この伝送スキームにとって合理的なBERは、1E−9及び1E−12の間のBERを必要とする傾向があるであろうし、そのBERは、AES3デジタルオーディオチャネルにおいて利用可能な高い信号対ノイズ比を用いて容易に可能である。
【0052】
通信チャネルのためのBERについての典型的な表現は、ここでは通用しない点に留意すべきである。なぜなら、このチャネルにおけるノイズは、厳密には、矩形又は可能であれば三角形(ディザーが適用される場合)の確率密度関数(probability density function)を有する量子化及びリサンプリングのノイズとなるからである。
【0053】
サンプルレート変換(又はより正確には、非周期的に作動する複数のソース)によって導入された時間ベースのエラーは、1つの非周期的ソースとして作動している設備の各ピースにおいて用いられるクロックソースの正確さによって制限される。最もプロフェッショナルなテレビ設備は、高精度クリスタル、GPS、又はルビジウム標準から生成されるクロック又は同期信号ソースを用いて作動し、典型的には0.1〜1.0ppmの最大周波数許容誤差を持つ。典型的な消費者設備は、30ppmの周波数許容誤差を有するかもしれない。プロフェッショナルなテレビ設備に接続されたフィールド内で操作されている消費者設備の場合には、温度限界において作動する消費者設備の場合について幾分かの余裕をもって、100ppmの許容誤差が安全に仮定されてもよい。
【0054】
よって、本発明を制御データ又はメタデータを伝送する目的で適用する上で、MPEG−Hオーディオ標準の一般的な使用のために必要となる、設計仮定及び目標の可能なセットは、以下の通りである。
【0055】
【表1】
【0056】
本発明の好ましい実施形態のさらなる目的は、オーディオ符号化技術者による実装及び手直しを容易にすることであり、その技術者は知覚オーディオ符号化において使用されるブロック構築)に精通しているが、データ通信について一般的な実装技術については経験を持たない可能性がある者である。
【0057】
24kHzのチャネル帯域と16kbaudの設計シンボルレートとを想定した場合、ASK又はPSKのような単純な伝統的変調技術は適切ではないであろう。少なくとも5b/s/Hzの符号化効率を提供する変調が使われるであろう。
【0058】
当業者は、デジタル通信のための一般的に使用される幾つかの変調技術が、これら設計仮定及び目標を満足するであろうと分かるであろう。例えば、64QAMS(64シンボルのアルファベットを用いた直角位相振幅変調)は、6b/s/Hzの符号化効率を提供するので、それを使用することは可能であろう。しかしながら、QAM復調器を実装することは、搬送周波数及びシンボルクロックを復元するために、中程度に複雑な信号処理を通常必要とし、その処理は、オーディオ符号化技術者にとっては不慣れなデジタル位相ロックループ(PLL)の使用を含む、そのようなPLLは、ループの不安定性を避けるためにループフィルタ又はアキュムレータの調整作業を必要とし、過渡又は切り替えの後で信号を安定的に獲得するために幾らかの時間を必要とする。
【0059】
ここで示された望ましい実施形態は、PLLを必要としない代替手段として、32PAM(32レベルを持つパルス振幅変調)を使用し、かつオーディオ符号化において一般に用いられる信号処理機能を使用するある設計を提供する。PAMは、QAMで必要とされた3dBに比べ、符号化効率の各増分について、信号対ノイズ比において6dB増加を必要とするが、このシステムでは信号対ノイズ比は固有に高く、その一方でPAM受信器の設計及び手直しコストは比較的低い。
【0060】
前述の実施形態の全ては、例えばテレビ装置において全体として又はその組合せとして示されることができ、そこでは符号器が、ビデオ信号を対応するオーディオ信号及びメタデータ又は制御データ(二次メディアデータ)を用いて、例えば第1のサンプリング周波数で符号化し、さらに復号器が制御実例(例えばモニタリング装置)又は放射実例に対してメディア信号を消費者へ伝送する前に適用されてもよい。
【0061】
添付図面を参照しながら、以下に本発明の実施形態をより詳細に説明する。
【図面の簡単な説明】
【0062】
図1】テレビ設備内における符号器及び復号器のシステムの概略ブロック図を示す。
図2】一実施形態に係る、二次メディアデータを符号化する符号器の概略ブロック図を示す。
図3】他の一実施形態に係る、二次メディアデータを符号化する符号器の概略ブロック図を示す。
図4】一実施形態に従い、メタデータ又は制御データビットストリームを受け取り、それを16ビット、48kHzPCMオーディオチャネルにおける伝送のためにフォーマットされた32PAM信号として符号化する、本発明の送信機部分の概略な概念ブロック図を示す。
図5】メディア信号を復号化する復号器の概略ブロック図である。
図6】一実施形態に係る復号器の概略ブロック図を示す。
図7】一実施形態に従い、16ビット、48kHzPCMオーディオチャネルからのPCMデータを受け取り、埋め込まれた32PAM信号をメタデータ又は制御データビットストリーム内へと復号化する、一実施形態に係る受信機部分の概略な概念ブロック図を示す。
図8a】一実施形態に係るメディア信号の概略表現を示す。
図8b】他の実施形態に係るメディア信号の概略表現を示す。
図8c】5ビット32PAM信号シンボルの、16ビットPCMオーディオチャネルサンプル語内への、一実施形態に従うマッピングを示す概略図を示す。
図9】一実施形態に係るビデオ機器の垂直同期信号とPCMオーディオチャネル内の符号化済みメタデータ又は制御データとの間のタイミング関係を示す概略波形図である。
図10a】0.98のロールオフファクタを有するレイズドコサイン型フィルタを時間連続的な表現で示す。
図10b】0.98のロールオフファクタを有するレイズドコサイン型フィルタを時間離散的な表現で示す。
図11a】0.7のロールオフファクタを有するレイズドコサイン型フィルタを時間連続的な表現で示す。
図11b】0.7のロールオフファクタを有するレイズドコサイン型フィルタを時間離散的な表現で示す。
図11c】隣接するフィルタ機能同士間で2つのサンプル分だけオフセットして整列された状態で、図11bの図を1列内に3回示す図である。
図12a】一実施形態に係るストリームの一実施形態に係る時間連続的な表現における概略表現を示す。
図12b図12a内で既に提示されたストリームの一部を拡大バージョンで示す。
図12c】一実施形態に係るストリームの一実施形態に係る時間離散的な表現における概略表現を示す。
図12d図12c内で既に提示されたストリームの一部を拡大バージョンで示す。
図13】基準パターンと複数のデータ語を使用して、二次メディアデータを表現しているストリームを含むメディア信号を復号化する方法の概略フロー図を示す。
図14】符号器を用いてメディア信号を符号化する方法の概略フロー図を示す。
図15a-1】固定モードにおけるシステムの概略図の一部を示す。
図15a-2】固定モードにおけるシステムの概略図の残部を示す。
図15b-1】制御トラックモードにおけるシステムの概略図の一部を示す。
図15b-2】制御トラックモードにおけるシステムの概略図の残部を示す。
【発明を実施するための形態】
【0063】
以下に、本発明の実施形態をより詳細に説明する。各図において同一又は同等な機能を有する要素は、以下の説明では同一の参照番号によって示されている。
【0064】
実施形態は、デジタルオーディオ信号に付随するオーディオ信号メタデータ又は制御データの簡便で信頼性のある送信を提供する。メタデータ又は制御データは、プロフェッショナルなオーディオ又はビデオの制作又は配信の設備、及び通常のデジタルオーディオチャネルを通じたネットワークにおける配信について、典型的な伝送劣化の耐性を持つ信号へとデジタル的に変調又は符号化されるか、又はそのチャネルはデジタルビデオ信号の中に埋め込まれる。メタデータは、オンスクリーンディスプレイ、ビデオフレーム内のオブジェクトの位置、異なるオーディオチャネルについての例えばドイツ語、英語、フランス語などの言語情報についての記述を含んでもよい。制御データは、正確な復号化パラメータを適用するために、オーディオチャネルの符号化に関する情報を含んでもよく、又は制御データは、より高次のアンビソニックスを解釈するためのパラメータ又はオーディオ信号を復号化するための任意の他の情報を含んでも良い。しかしながら、メタデータ又は制御データは多くの他の目的のために使用され得る。デジタル媒体においては、本質はアセットの基礎をなすコンテンツであり、メタデータはそのアセットについて記述するデータである。従って、上述の実施例は本発明の範囲を限定するものではない。
【0065】
図1は符号器と復号器とを含むデータ処理システム400の概略ブロック図を示す。特に図1は、符号器を含む32PAM変調器3と、復号器を含む32PAM復調器9とを示す。また、二次メディアデータ125と、一次メディアデータ90a(例えばオーディオエッセンス信号)と、さらには一次メディアデータ90b(例えばビデオ信号)とを含むメディア信号155を、一実施形態に従って示す。このシステムはテレビスタジオの一部であってもよく、オーディオ制御データ又はメタデータビットストリームを含む二次メディアデータが、オーディオエッセンス信号の中に含まれており、従って各ビデオフレームのためのビデオ信号に対して整列されている。従って、テレビスタジオ内において、符号化済みビデオ信号は、モニタリングユニットを使用して、つまり符号化済みメディア信号を復号化する復号器を使用して、検査され得る。更に、メディア信号は、消費者に対して送信されるべき最終的なメディア信号を準備するためのチャネル符号化と更なる処理操作との前に、二次メディアデータを使用して復号化されてもよい。この最終的なメディア信号は、二次メディア信号をもはや含んではいない。
【0066】
より一般的には、一実施形態によれば、データ処理システムは、デジタル語のストリームを操作してデジタル語の操作済みのストリームを取得する、信号マニピュレータを含み、その場合、復号器はデジタル語の操作済みのストリームからデジタル語のストリームを復元するよう構成されている。信号マニピュレータは、振幅増幅もしくは振幅減衰、オフセット導入もしくはオフセット変化、周波数選択的な減衰もしくは増幅、又はリサンプリングによって操作してもよい。更に、復号器は、振幅増幅もしくは振幅減衰、オフセット導入もしくはオフセット変化、周波数選択的な減衰もしくは増幅、又はリサンプリングによって操作されたデジタル語のストリームを、復元できる。更に、信号マニピュレータは、PCMオーディオチャネルを受信することができ、PCMオーディオチャネルを出力することもでき、その場合、符号器はPCMオーディオチャネルを通じて送信可能な信号を出力するよう構成されており、復号器は送信されたストリームをPCMオーディオチャネルから受信するよう構成されている。
【0067】
換言すれば、図1は、プロフェッショナルなオーディオもしくはビデオの制作もしくは配信設備又はネットワークの環境内における、本発明の好ましい一実施形態の動作を示す。オーディオ周辺装置又はワークステーション1は、エッセンス信号(又は一次メディアデータ)として言及される1つ以上のデジタルオーディオ信号の発信源であり、そのオーディオ周辺装置又はワークステーションを発信源とするエッセンス信号を、関連する制御データ又はメタデータ信号(二次メディアデータ)から区別している。
【0068】
制御データ又はメタデータのビットストリームは送信部3に入力され、その送信部3はそのビットストリームを、AES3又はHD-SDIチャネルの通常のチャネル障害に耐え得るであろう32PAM変調済みPCMサンプルなどの形態へと変換する。そのサンプルと、1つ以上の任意選択的なオーディオエッセンス信号とが、次にAES3デジタルオーディオインターフェース4へと送られる。このインターフェースの出力は、埋込部5によりHD-SDIビデオ信号内へと埋め込まれ、埋込部5は、サンプルレート変換を適用して、AES3クロックの位相及び周波数を、HD-SDIビデオ信号のクロック及び同期信号と整列させてもよい。このビデオ信号は、次に配信のためにSDIベースのテレビ設備又はインフラストラクチャ6を介して、第2のオーディオ周辺装置又はワークステーション2へと配給される。それらのデジタルオーディオ信号は、HD-SDI信号からデ・エンベッダ7により抽出されて、AEC3ビットストリームとしてAES3デジタルオーディオインターフェース8へと送られる。制御データ又はメタデータ情報(符号化済み二次メディアデータ)を含むAESチャネルに対応するPCMデータは、受信機9へと送られる。受信機9は復号器50を含み、その復号器は、32PAM又は類似の変調済み信号をオーディオ制御データ又はメタデータのビットストリーム85'へと復号化し、そのビットストリームは復号化されたメディア信号85の一部であってもよい。更に、図6に示す信号処理部70は、符号化済み二次メディアデータに従って一次メディアデータ(オーディオエッセンス信号)を処理して、符号化済みメディア信号を取得する。
【0069】
図2は、一次メディアデータについてのメタデータ又は制御データを含む二次メディアデータを符号化するための符号器100の概略ブロック図を示す。この符号器は、二次メディアデータ80を、冗長性付加(adding redundancy)又は帯域制限を使用して符号化するよう構成されている。符号器は、符号化済み二次メディアデータを、デジタル語のストリーム145として出力するよう更に構成されている。好ましい一実施形態において、冗長性は、ゼロパディング又は符号拡張(sign-extension)により付加されてもよい。他の実施形態はチェックサム又は冗長性コードを使用してもよい。更なる実施形態は、帯域制限された二次メディアデータ又は帯域制限された二次メディアデータのグループを有してもよく、それらは任意選択的に、付加された冗長性を有してもよく、又は有しなくてもよい。帯域制限は、信号、より具体的には符号器のアウトバウンド信号(outbound signal)に対し、(ローパス)フィルタを適用することで実行されてもよく、そのアウトバウンド信号は、グループ化又はマップされた二次メディアデータであってもよい。更なる実施形態によれば、符号器はデジタル語を生成するよう構成され、それらデジタル語が12〜28ビットを有するか、それらデジタル語が30kHz〜55kHzの間のサンプリングレートでサンプリングされているか、又はそれらデジタル語が70〜160dBのダイナミックレンジを有するか、若しくはRMS(二乗平均平方根)フルスケールで−20dBの公称信号レベルを有している。符号器はまた、30kHz〜55kHzの間のサンプリングレートについて、二次メディアデータを帯域制限するために15kHz〜27.5kHzの間の上側周波数を使用するよう構成されてもよい。
【0070】
図3は、メディア信号を符号化するための符号器100の概略ブロック図を示す。符号器100はマッパ115とストリームビルダ120とを含む。マッパ115は、第1のビット数を有するグループ化された二次メディアデータのグループ130を、第1のビット数よりも多い第2のビット数を有するデータ語140へとマップするよう構成されている。グループ化された二次メディアデータは、データ語の最上位ビット又は最下位ビットへとギャップを用いて整列される。ストリームビルダは、符号化済み二次メディアデータを表現するデジタル語のストリームを構築するよう構成されている。更なる実施形態によれば、符号器は、二次メディアデータのビットストリームであってもよい二次メディアデータ80をグループ化して、グループ化された二次メディアデータ130を形成するよう構成されたグルーパ105を含む。更に、符号器は、一次メディアデータにおける基準振幅又は所定のタイミング時点を示す基準パターンを生成するよう構成された基準信号生成部17を有しており、ストリームビルダ120は、その基準パターン60又はデータ語140を使用して、符号化済み二次メディアデータ55を表現するデジタル語のストリーム145を構築するよう構成されている。従って、両方の信号、即ち基準パターン135とデータ語140とが、符号化済み二次メディアデータを表現するデジタル語のストリーム145を構築するよう構成されたストリームビルダ120へと入力されてもよい。
【0071】
図4は、一実施形態に係る符号器100の概略ブロック図を示す。この実施形態では、符号器100は、データ語又は基準パターンをローパスフィルタ処理して所定のサンプルレートの1サンプルより大きな長さを含むデータパルスを取得する、フィルタ15を含み、そのデータパルスの振幅はデータ語又は基準パターンに従って重み付けされ、そのフィルタは、サンプルレートの各時点において連続的なデータパルスを合計するよう構成されている。更に、フィルタは、データパルスの所定のサンプルレートのサンプル毎にゼロ点を取得するよう構成されている。そのデータパルスは、グループ化された二次メディアデータ又は基準パターンを有するデータ語を含む。ストリームビルダは、基準パターン及び複数のデータ語を使用して、データパルスのゼロ点が更なるデータパルスの最大値と整合するように、符号化済み二次メディアデータを表現するストリームを構築することで、符号化済み二次メディアデータを表現するシンボル間干渉(ISI)のないストリームを取得する。換言すれば、復号器がデータ語又はデジタル語のストリームをシンボル間干渉又はエイリアシング問題なしでリサンプルできるようにする、ナイキストフィルタを使用することが有利である。図11cは、フィルタ処理済みデータ語とそれらデータ語の3個からの例示的なストリームの構築とを表す実施形態を示す。実施形態によれば、フィルタは、一次メディアデータのサンプリング周波数の1.5倍よりも小さいカットオフ周波数を有する。
【0072】
図4には、マッパ115が図示されていない点に留意されたい。しかし、レジスタ14とフィルタ15との間にマッパが設けられてもよく、又は、それらブロック又は機能の内の1つの一部であってもよい。
【0073】
換言すれば、図4は、本発明の好ましい実施形態の送信機部分の概念的動作を示している。オーディオ制御データ又はメタデータビットストリームは一時記憶用にバッファ10へと入力され、垂直同期160又は他の処理動作の間に、送信されるデータへの割り込みを可能にする。ビットストリーム125は5ビットの語へと並列化されて、概念的レジスタ11によりバッファから伝送される。レジスタの出力は次に、符号器12によりグレイコード値へと符号化される。垂直同期信号160が活性化している場合を除き、符号器12の出力はレジスタ14へと入力される。レジスタ14の出力は2の補数の二値数として受け取られ、これが図8cに示すように符号拡張され、かつ16ビットのデータ語へとマップされ、パルス整形フィルタ15内へと入力される。そのフィルタは、シンボル間干渉を防止するため、シンボル期間においてそのインパルス応答内にsin(x)/x nullsを示す、理想的にはナイキスト型フィルタである。そのようなフィルタはデジタル通信理論では周知である。例えば、0.75に設定された過剰帯域幅(excess bandwidth)パラメータを有するレイズドコサイン・パルス整形フィルタが、適切なフィルタとなり得るであろう。フィルタ15の出力は、次に更なる伝送手段へと供給されて、PCMオーディオチャネル内にオーディオサンプルとして含まれ、SDIビデオ信号内に埋め込まれる。その処理は、例えば48kHzの(PCM)サンプルクロック99により駆動されてもよい。
【0074】
ビデオ信号の垂直同期期間(vertical sync interval)の間に、概念的スイッチ13が、グレイ符号器12の出力の代わりに、基準信号生成部17の出力を送信用に選択する。この期間中にはバッファ10からデータは何も読み出されない。基準信号生成部17は、ゼロのシンボル値を出力するので、垂直帰線消去期間(vertical blanking interval)の間は、ゼロの定常PCM値となる。垂直帰線消去期間の最後には、基準信号生成部は、コード0x0Fの8個のシンボルを出力し、次にコード0x11の8個のシンボルを出力し、その後、スイッチ13がグレイ符号器12の出力へと切り戻され、バッファ10からのデータの読み出しが始まる。このような方法で(例えばフィルタ15でのスケーリングを使用して)、図9に示す16ビットの符号付きの2の補数PCM信号が生成され、その信号は、垂直帰線消去期間にはゼロの値を有し、次に値0x0780の8シンボル幅の正のパルス41が続き、次に値0xf880の8シンボル幅の負のパルス42が続く。このように、パルス41と42は、正と負の振幅基準と、シンボルエッジにおける強い遷移とを形成し、受信機内においては、送信された32PAM信号のオリジナルの振幅及び位相を復元するためにそれが使用され得る。
【0075】
図5は、一次メディアデータについてのメタデータ又は制御データを含む符号化済み二次メディアデータ55を表現するデジタル語の受信されたストリーム145を有する、メディア信号155を復号化するための復号器50の概略ブロック図を示す。この復号器50は、デジタル語の受信されたストリームの、受信されたデジタル語により表現された振幅に関する操作を使用して、又はリサンプリングを使用して、二次メディアデータを復元するよう構成されており、復号器は、復元された二次メディアデータからビットストリーム125'を導出するよう更に構成されている。復号器は、受信されたデジタル語の操作をして二次メディアデータを復元するために、伝送の前にデジタル語のオリジナル振幅又は所定のタイミング時点を知っていてもよい。
【0076】
図6は基準パターン及び複数のデータ語を使用して符号化済み二次メディアデータを表現するストリームを含むメディア信号を復号化する、復号器50の概略ブロック図を示す。復号器50は、基準パターン分析部60と信号マニピュレータ65と信号処理部70とを有する。基準パターン60は符号化済み二次メディアデータの基準パターンを分析するよう構成されており、基準パターン分析部60は、一次メディアデータ内の基準パターンの振幅を決定するか、又は所定のタイミング時点を決定するよう構成されている。信号マニピュレータ65は、符号化済み二次メディアデータ55と基準パターン分析部60の分析済み基準パターン75とを受信する。信号マニピュレータ65は、分析済み基準パターン75及び計算された基準パターンに従って符号化済み二次メディアデータ55を操作して、二次メディアデータ80を取得するよう構成されている。メディアデータ、例えばデータ語は、信号マニピュレータに対して個別に送信されてもよく、又は、メディアデータは、基準パターン分析部を介して信号マニピュレータに対して直接的に送信されてもよい。信号処理部70は、二次メディアデータ80を受信し、かつこの二次メディアデータ80に従って一次メディアデータ90を処理して、復号化済みメディア信号85を取得するよう構成されている。
【0077】
メディア信号は、以下の説明において、特に図8〜12に関して具体的に説明する。実施形態によれば、符号化済み二次メディアデータはパルスコード変調(PCM)されており、そのデータ語の中にパルス振幅変調(PAM)されたシンボルを含んでいる。PCM変調された符号化済み二次メディアデータを取得するため、データ語はPCM変調されてもよい。
【0078】
図7は一実施形態に係る復号器50の概略ブロック図を示す。ここでは、基準パターン分析部60と信号マニピュレータ65とが示される。
【0079】
実施形態は、基準パターンの振幅と計算された基準パターンの振幅とに従って、増幅又は減衰ファクタを計算するよう構成されたゲインファクタ計算部94を含む、基準パターン分析部60を示す。更に、信号マニピュレータ65は、符号化済み二次メディアデータを前記増幅又は減衰ファクタに従って増幅又は減衰させ、ゲイン補償された符号化済み二次メディアデータ95を取得するよう構成された乗算部27を含む。従って、基準パターン分析部60は、基準パターンの振幅を決定するよう構成された振幅検出部20を更に含み得る。しかし、基準パターンの振幅は基準パターンの既知の振幅と比較されて、ゲインファクタを取得してもよい。この方法は好ましくはDC-freeのために、換言すればゲイン補償された信号を用いて作動する。従って、図7の実施形態は、減算部24を使用して基準パターン内の正の振幅と基準パターン内の負の振幅とを減算すること、及び振幅間の既知の差とその振幅間の計算された差との小数部を計算することによって、増幅又は減衰ファクタを取得するさらなるゲイン計算方法を提案する。
【0080】
実施形態は、基準パターンの振幅と基準パターンの追加的振幅とを決定するよう構成された振幅検出部20を含む、基準パターン分析部60を示し、その基準パターン分析部は、基準パターンの振幅と基準パターンの追加的振幅とのドリフトに従って、符号化済み二次メディアデータ55のオフセット96aを計算するよう構成されたオフセット補償ユニット96を更に含む。信号マニピュレータ65は、符号化済み二次メディアデータのオフセットを符号化済み二次メディアデータに加算して、オフセット補償された符号化済み二次メディアデータ97を取得するよう構成された加算部を更に含む。前記ドリフトは、基準パターンの(正の)振幅と基準パターンの(負の)追加的振幅とを加算することで計算されてもよい。前記オフセットは、又は実施形態に従えば、そのオフセットの2分の1は、減算部26によって符号化済み二次メディアデータ55から減算され、オフセット補償された符号化済み二次メディアデータ97を取得してもよい。
【0081】
換言すれば、図7は本発明の好ましい実施形態の受信機部分の概念的操作を示す。SDIビデオ信号(一次メディアデータ)から抽出(de-embedded)されたAES3のPCMオーディオデータ(二次メディアデータ)55は、基準振幅検出部20へと入力され、この検出部は、基準パターン135(図7参照)におけるパルス期間41中とパルス期間42中のPCMオーディオ信号の中央の4個のサンプルを平均化する。これは、垂直同期信号160に基づくか、又は代替的な実施形態においては垂直同期信号160と到来しつつあるPCM値の検査との組合せに基づいて、タイミング回路を使用して実行され、基準パターン135におけるパルス41の立ち上り(leading edge)を検出してもよい。パルス41の平均振幅はこのようにレジスタ21内に記憶され、パルス42の平均振幅は同様にしてレジスタ22内に記憶される。レジスタ21及び22の出力は、オリジナル信号のゼロレベルを決定するために加算され、減算部26へと入力される。その減算部26は信号から如何なるDCオフセット96aをも除去する。レジスタ21及び22の出力は、2つのパルス41及び42のピーク間の振幅を決定するために、減算部24によって減算される。この振幅は機能ブロック25へと入力され、そのブロック25は、乗算部27の出力においてオリジナルPCM信号値がほぼ生成されるように、減算部26の出力を正規化する乗算部27へと適用されるべき適切なゲインファクタ94aを計算する。ここで説明するそのような機能は、tri-level同期検出器及びsync-trip制御AGC(自動ゲイン制御)機能のデジタル構成として、アナログテレビシステム設計の分野に精通する当業者にとっては、熟知したものと言えるであろう。
【0082】
機能20,21,22,23,24,25,26,27の動作により、符号器(図4参照)内の送信フィルタ15の出力において作成されたPCM信号(ストリーム)145の正確な値が理想的にはリストアされるであろうが、他方、算術操作における丸め誤差やパルス41及び42のリンギング又は他の劣化により、乗算部27の出力がフィルタ15において生成された信号を近似するだけとなる可能性もある。このような誤差は、基準パターンにおけるパルス41と42の4個の中央サンプルを平均化することにより、かつ十分なサイズのPCM値を使用することにより、低減され、その結果、そのような近似誤差が後述するようにシンボル決定に対して相当な影響を与えないようになる。
【0083】
追加的に、図8cに示すようなPCM値へのシンボルの割り当てにより、送信されたPCM信号の4ビット又は凡そ24dBまでの増幅が可能になり、また、4ビット又は凡そ24dBの同様の減衰が可能になる一方で、3個のLSBを丸め誤差又は信号の劣化のためのマージンとして維持できる。
【0084】
更なる実施形態によれば、信号マニピュレータ65はサンプルレート変換部28を含み、その変換部28は、基準パターン135内に示された一次メディアデータの所定のタイミング時点に従って、デジタル語140に関連するサンプルレートを所定のサンプルレートへと変換し、リサンプリング済みのデジタル語を取得する。換言すれば、受信された基準パターンは、特異なシーケンス、例えば2つのパルス間のゼロ交差を含んでもよく、その場合、送信前のオリジナルシーケンスは復号器により既知となっている。復号器は、そのゼロ交差の位置の正確な分析に基づいて、送信前のデジタル語のストリームのサンプルレートと、そのデジタル語のストリームの受信後のサンプルレートとの間の差を計算できる。その差は、送信前のデータ語のオリジナルサンプルレートを使用してデジタル語のストリームを復号化するために使用され得る。
【0085】
実施形態の基準パターン分析部は、1つのサンプルレートのサンプルに関して基準パターン内の一次メディアデータの所定のタイミング時点を決定するよう構成されたタイミング時点決定部32と、決定されたタイミング時点の周辺領域をアップサンプリングしてそのタイミング時点の正確な位置を決定するよう構成されたアップサンプラ33と、デジタル語のストリーム内の複数のデジタル語の正確な位置を決定して、所定のサンプルレートとは異なるデジタル語に関連する実際のサンプルレート92を取得するよう構成されたサンプリング・アキュムレータ34と、を更に含む。
【0086】
注意すべきは、実施形態によれば、一次メディアデータの所定のタイミング時点は、基準パターンの正の振幅と基準パターンの負の振幅との間のゼロ交差として示されることであり、一次メディアデータ内の同期信号が基準パターンの正の振幅よりも前に送られたことを示している。従って、基準パターン分析部はタイミング時点決定部32内でゼロ交差を発見するよう構成されている。アップサンプラ33は、ゼロ交差の前のサンプルとゼロ交差の後のサンプルとの間の領域をN回アップサンプリングするよう構成されている。このように、2つのサンプルの値が取得され、ゼロに最も近い2つのサンプル間のN個の値の1つの値が、現在及び後続の基準パターンのために取得される。サンプリング・アキュムレータ34は、基準パターンと後続の基準パターンとの間のサンプルレートを計算し、又は、換言すれば、符号化済み二次メディアデータ内のそれらサンプルに対応する時点を計算し、その時点では、現在のシンボルの値が、例えば符号器内の符号化済み二次メディアデータのナイキスト・フィルタリングにより、シンボル間干渉なしに取得可能となる。従って、サンプルレート変換部28は、計算された所定のタイミング時点、又はサンプリング・アキュムレータ34の実際のサンプルレート92に従って、符号化済み二次メディアデータをサンプリングするよう構成されている。
【0087】
換言すれば、図7は実施形態に係る受信機部分の概念的ブロック図を示し、その受信機部分は、16ビットの48kHzPCMオーディオチャネルからPCMデータを受信し、埋め込まれた32RAM信号145を実施形態に係るメタデータ又は制御データビットストリームへと復号化するものである。乗算部27の出力において、正規化されたPCMデータからPAMシンボルを復元するために、そのデータは、シンボル間干渉を防止するため、シンボル期間の中央に対応する時点でサンプリングされなければならない。これは次のような方法で達成される。即ち、乗算部27の出力が機能ブロック32へと入力され、このブロック32は検出器20及びレジスタ21,22の機能と同様に作動し、ブロック33に対して、基準パターンのパルス41と42との間のゼロ交差において発生し乗算部27により出力された、正規化されたPCM信号のPCM値を出力する。
【0088】
機能ブロック33はこれら2つのPCM値を受け取り、以下の線形関数のy切片を計算するための一般的な代数式を計算する。
【数1】
ここで、Xnはゼロ交差から左側のサンプルの値であり、Xn+1はゼロ交差から右側のサンプルの値である。このように、1つのサンプル期間のN個の区分(subdivisions)のうちのどの区分において、PCMサンプルにより表現された波形のゼロ交差が発生しそうであるかが決定され得る。この好ましい実施形態の場合には、Nは16に等しく設定されるが、Nの選択は、以下に説明するように、増大するシンボルサンプリング精度とフィルタ28に関する追加的フィルタ係数を記憶する必要性との間の技術的妥協点である。更なる実施形態によれば、Nは128又は256に設定される。他の値もまた同様に、適切となり得る。
【0089】
アキュムレータ34とサンプリング/補間フィルタ(interpolating filter)28との組合せが、シンボル期間の中央に近い時点で乗算部27からの入力信号をリサンプリングするために使用される。アキュムレータ34は、非特許文献17に記載のようなDDA(デジタル差分分析器)と類似するフラクショナル・アキュムレータ(fractional accumulator)として機能し、また、デジタル位相同期ループ設計及びダイレクトデジタル周波数シンセサイザにおいて使用される位相アキュムレータと類似している。
【0090】
この場合、アキュムレータ34は、機能ブロック33により計算されたゼロ交差の区分番号(subdivision number)を用いて初期化され、次にシンボル期間の半分により増分され、これはこの場合では16kbaudのシンボルレートについて48kHzクロックの1.5サンプルであり、これにより、アキュムレータ位置がシンボルの端からシンボルの中央へと移動する。アキュムレータ34は、次に各サンプルクロックについて1.0により増分され、その小数ビット(log2 N)が補間フィルタ28の位相、例えばポリフェーズFIR補間フィルタバンクを選択する。システム34と28とは、非特許文献16に記載のものと同様なサンプルレート変換部を形成する。ポリフェーズフィルタの一手法の設計が、非特許文献16内に示されている。
【0091】
次に、アキュムレータ34から小数部分のキャリーアウトがある各クロック周期において、フィルタ28の出力は各受信されたシンボルの中点サンプルを含むであろう。サンプリング・アキュムレータ34のそのようなキャリーアウトがあると、レジスタ29はシンボルを蓄積することができ、そのシンボルは次に機能ブロック30へと入力され、そのブロック30は16ビット値を丸め操作を用いて7ビット右シフトさせて、送信されたシンボルを復元する。次に5個の低いビットがグレイコードから復号化されて、出力バッファ31に蓄積される。その後、バッファ31のコンテンツは、受信されたオーディオ制御データ又はメタデータビットストリーム(例えば二次メディアデータ125のビットストリーム)として利用可能となる。
【0092】
上述したアキュムレータ34の作動の結果として、各垂直同期パルスの後で送られたパルス41と42からのタイミング基準だけに基づいて、シンボルサンプリング位相が調整される。このことは、入来するシンボルとローカルシンボルサンプリングクロックとの間の位相誤差を修正する一方で、如何なる周波数誤差をも完全に修正するものではないことは、当業者にとって理解できるであろう。上述の設計目標を用いれば、送信機時間ベースにおける100ppmの周波数誤差は、垂直同期区間の直前のデータペイロードの最端部においてサンプルクロックの0.15のサンプル誤差又はシンボル幅の0.050のサンプル誤差をもたらすであろう。
【0093】
この誤差は、アキュムレータ34の増分に対してある周波数項目(frequency term)を追加することにより、更に減少され得る。そのような項目は、アキュムレータの小数部分と垂直同期期間に続いてそれが初期化されるべき値とを比較することにより計算され得る。これら値のこの差は、次に、最後の垂直同期期間からの近似的又は正確なサンプルクロック数により除算されることができ、サンプリング・アキュムレータ34を増分するために使用された1.0値へと加算され得る。このような方法で、周波数誤差の影響の大半が除去できる。
【0094】
更なる実施形態によれば、信号マニピュレータは、第1のビット数よりも多い第2のビット数を有するデータ語から、第1のビット数を有するグループ化された二次メディアデータをデマップするよう構成された、デマッパ29を含む。追加的又は代替的に、信号マニピュレータは、第1のビット数を有するグループ化された二次メディアデータのグループ化を解除して、二次メディアデータの復号化済みビットストリーム125'を取得するよう構成された、アングルーパ31を含み、その復号化済みビットストリームは、二次メディアデータ80のビットストリーム表現であり、よって二次メディアデータ125のビットストリームを表現している。
【0095】
図8図12は符号化済み二次メディアデータの実施形態を示し、データ語がPAM符号化されており、(ナイキスト)フィルタ15への適用がPCM信号をもたらすことを示している。
【0096】
図8aは一実施形態に係るメディア信号155の概略表現を示す。メディア信号は、符号化済み二次メディアデータ55を表現するデジタル語のストリーム145を有し、符号化済み二次メディアデータは一次メディアデータについてのメタデータ又は制御データを含む。
【0097】
図8bは、他の実施形態に係るメディア信号155の概略表現を示す。メディア信号は、基準パターン135と複数のデータ語140とを使用して符号化済み二次メディアデータ55を表現するストリーム145を含み、複数のデータ語は二次メディアデータを含む。更に、符号化済み二次メディアデータは、データ語の最上位ビット又は最下位ビットに対するギャップを持って複数のデータ語へとマップされる。実施形態によれば、基準パターン135とデータ語140とはフィルタリングされて、デジタル語142が導出されるか、又はより正確には、デジタル語のストリーム145が導出される。
【0098】
基準パターンは、好ましくはデータ語140と同じ構造を有する。つまり、二次メディアデータ125のビットストリームは基準パターン135を含み、これが(グループ化された二次メディアデータに従って)グループ化済み基準パターンへとグループ化され、データ語140のようなデータ語へと形成される。これは例えば図4に示す符号器100内の均一な処理をもたらすことができ、ここで、スイッチ13は、基準パターン135と一次メディアデータのメタデータ又は制御データとの間を切り替えるよう構成されている。換言すれば、第1の実施形態において、二次メディアデータは、グループ化済み基準パターンと一次メディアデータのメタデータ又は制御データとを含む。第2の実施形態においては、基準パターンは二次メディアデータから独立している。基準パターンとメタデータ又は制御データとの処理は、任意選択的に合同して又は互いに別個に行い得るため、この区別は有利である。更に、復号化されたメディア信号85又は二次メディアデータの復号化されたビットストリーム125'は、例えば丸め誤差に関して、二次メディアデータ55の符号化済みビットストリームと理想的には同一、又は少なくとも類似している。
【0099】
実施形態は、符号化済み二次メディアデータの基準振幅と、一次メディアデータの所定のタイミング時点とを含む、基準パターン135を示す。更なる実施形態によれば、メディア信号は一次メディアデータの追加のストリームを有し、その一次メディアデータはオーディオデータ又はビデオデータを含む。一次メディアデータを含む追加のストリームは、一次メディアデータ内の所定のタイミング時点において、符号化済み二次メディアデータのストリームに対して整列される。一次メディア90a又は90bは、基準パターン内で例えばゼロ交差165により表現されるタイミング時点40を含む。
【0100】
図8cは、一実施形態に係るデータ語140の概略表現を示す。グルーパは、二次メディアデータのビットストリームを5個のビット(例えばビット7〜ビット11)を有するグループ化済み二次メディアデータ130へとグループ化し、マッパは、そのグループ化済み二次メディアデータを最上位ビット(例えばビット12〜15)へと符号拡張130aするよう構成され、即ち、グループ化済み二次メディアデータの最初のビット(ビット11)がビット15〜12へとパディングされることを意味し、マッパは更に、ゼロを有する最下位ビット(例えばビット6〜0)130bへとギャップをパディングする。更なる実施形態は、8個のビットを含む二次メディアデータを示す。左又は右へのパディングは、このようにして全体で3ビット減少されて、16ビットのデータ語が得られる。異なる長さの二次メディアデータ若しくはデータ語、又は別のサイズのパディングなど、他の組合せもまた実現可能である。更に、基準パターンは、その基準パターンがデータ語140と同じ構造を有するように、処理されてもよい。
【0101】
図9aは一次メディアデータ160内のタイミング時点40を示し、例えば垂直帰線消去期間又はビデオフレーム内の追加の同期点を示す。有利なことに、同期部分40は、ビデオフレーム内の適切な時点であって、ビデオフレームのストリームをカットするための適切な位置を示している。これは垂直帰線消去期間であってもよく、又は、例えばビデオフレームにおいてビデオストリームの切断が実行され得る所定のライン(例えばライン7)であってもよい。従って、2つの連続的な同期パルス間の距離は1つのフレームである。1フレームは800又は801個のオーディオサンプルを有してもよく、その結果、各ビデオフレームにつき約300個のデータ語と追加的な基準パターン、バージョン番号、連続性指標(continuity counter)、巡回冗長検査(cyclic redundancy check)又は更なるオーバーヘッドがもたらされる。
【0102】
図9bは、基準パターンと複数のデータ語とを使用して符号化済み二次メディアデータを表現しているストリーム145の概略表現を示す。図9bは図9aと整列されているため、基準パターン135はタイミング時点40によって駆動されることが分かる。従って、この実施形態によれば基準パターンの振幅41と42の間のゼロ交差である所定のタイミング時点165は、一次メディアデータの同期信号160におけるタイミング時点40を示す。基準パターンの第1振幅41は、0x0780HEXの振幅を有してもよく、基準パターンの第2振幅42は0xf880HEXの値を有してもよい。基準パターンの第1及び第2の振幅の隣接部はゼロでパディングされてもよく、又は、更なる実施形態によれば、ゼロパディングが基準パターンの一部であってもよい。基準パターンが処理された後で、ストリームビルダはデータ語140をデータペイロードコンテナ43へと適用する。更なる実施形態は、ペイロードコンテナ43内の追加部分を示し、そこでは、例えばチェックサム、パリティビット、巡回冗長検査のようなビット誤差修正を実行するために冗長性が適用される。基準パターン135及びデータ語140はフィルタリングされて、ストリーム145を形成するデジタル語142が取得されてもよい。
【0103】
続く図10図12はフィルタ15、ストリームビルダ120、及びストリーム145をより詳細に示す。図10aは、ロールオフファクタ=0.98を持つレイズドコサイン型フィルタを示し、図10bは、あるサンプリング周波数に従ってサンプリングされたレイズドコサイン型フィルタを示す。図から、0.98のロールオフファクタを持つレイズドコサイン型フィルタは、インパルスのエネルギーの略全てを、3個の中央サンプル180aと180bとに置くことが理解できる。しかし、追加のための使用済みの13個のサンプル、又はより詳細にはゼロとは異なる7個だけの係数が存在する可能性がある。しかしながら、それら3個の中央サンプルだけを使用することはまた、エイリアシング問題又はシンボル間干渉なしに、符号化済みシンボルの良好な再構築を可能にするであろう。
【0104】
図11a及び図11bは、ロールオフファクタ0.7を有するレイズドコサイン型フィルタ機能15'を、時間連続的表現(図11a)及び時間離散的表現(図11b)で示す。図11cは、図11bの図を3回並べて示し、それらはデータパルス15'であり得る連続的なフィルタ機能の間に2個のサンプル分のオフセットを有して整列されている。フィルタ機能又はデータパルス15'は、(二次メディアデータの1個のシンボルを表現している)マッピング済み二次メディアデータ又は基準パターン(のシンボル)を用いて変調たとえば乗算されており、各々がデータ語140又は基準パターンの(PCM変調された)シンボルを表現している。パラメータは、レイズドコサインフィルタの離散的表現の各2番目のサンプルがゼロになるように、選択される。従って、2つの隣接するパルスはサンプル2個分の距離を持って配置され、各パルスの中央は、他の全てのパルスがゼロと交差している位置にある。このような概念は変調プロセスにとってかなり簡素であり、また復調にとっても簡素であり、このとき、中央サンプルを検査することは、タイミング誤差及びゲイン誤差についての補償を含む。送信後のデジタル語のクロック偏差、又はオリジナルサンプリング周波数と実際のサンプリング周波数との間の差が十分に低い場合、復号器内でのシンボル復元は、ソースサンプリング周波数を計算することなく実行され得る。更に、振幅値が少数であることは、復号器におけるサンプルレート変換なしのシンボル復元にとって有利である。しかし、クロック偏差の修正から独立して位相補償を適用することは、有利であり得る。
【0105】
各サンプル(頂上部から底部まで)の値の加算により、デジタル語のストリーム145がもたらされる。更に、振幅、又は換言すれば各サンプルの値は、データ語140又は基準パターンのシンボルによって重み付け(例えば乗算)され、これはパルス振幅変調として見られ得る。これらの図式は、実施形態に従い、基準パターン及びデータ語へと適用される。更に、一秒当たり24000個のシンボルと256個の振幅値(8ビット)又は32個の振幅値(5ビット)とを用いて示される実施形態は例示的なものであり、本発明の範囲を限定するものではないことに注意されたい。他のシンボルレートも可能であり、二次メディアデータを含むストリームのゼロ交差においてシンボルを挿入するためのサンプルレート変換を使用するより低いシンボルレート及びより高いシンボルレートも、振幅ステップについての他の解決策と同様に可能である。
【0106】
図12は一実施形態に係るストリーム145の概略表現を示す。図12aは、フィルタリング済み基準パターン135及びフィルタリング済みデータ語140を含むストリーム145の、時間連続的な表現の概略図を示す。更に、第2基準パターン135aが示され、これは信号フレーム内の正確なタイミング復元を達成するために、任意選択的にフレームの末尾において適用され得る。従って、第2同期シンボル(又は基準パターン)135aは、第1同期シンボル135よりも僅かに低い振幅を持つ可能性があり、更に、その第1同期シンボル135は、他の全てのシンボルよりも高い振幅を含む可能性がある。そのように、第1の同期シンボルを探索することは非常に効果的である。更に、データ語は、誤差検出を可能にするための1つ以上の冗長性ビットを含み得る。図12bはストリーム145を拡大バージョンで示す。図12cは、図12aに示す信号と類似する信号をあるサンプルレートのサンプルにおける時間離散形式で示す。更に、図12dは、図12bに示す信号と類似する信号を時間離散形式で示す。
【0107】
図13は、基準パターンと複数のデータ語を使用して二次メディアデータを表現しているストリームを含むメディア信号を復号化する方法の概略フロー図を示し、その方法1100は、復号器を用いて二次メディアデータを復元するステップ1105を含み、その復元は、受信されたデジタル語のストリームを、受信されたデジタル語により表現される振幅に関して操作すること、又はリサンプリングを使用することを含み、また方法1100は、復元された二次メディアデータからビットストリームを導出するステップ1110を含む。
【0108】
図14は符号器を用いてメディア信号を符号化する方法1200の概略フロー図を示す。その方法1200は、冗長性付加又は帯域制限を使用する符号器を用いて二次メディアデータを符号化するステップ1205と、符号化済み二次メディアデータをデジタル語のストリームとして出力するステップ1210とを含む。
【0109】
[好ましい一実施形態の構成の考察]
上述した実施形態は、ソフトウエアにおける一連のコンピュータ命令として、又はハードウエア構成要素において実装可能である。ここで説明された操作は、典型的にはコンピュータCPU又はデジタル信号プロセッサによるソフトウエア命令として実行され、図示されたレジスタ又はオペレータは、対応するコンピュータ命令によって実行されてもよい。しかしながら、このことは、ハードウエア構成要素を使用する等価のハードウエア設計における実施形態を排除するものではない。更に、本発明の操作は、ここでは逐次的で初歩的な方法で示されている。当業者には、それらの操作は、特定のハードウエア又はソフトウエア上で実装されたときの効率を最適化するために、結合され、変換され、又は事前計算されてもよいことが理解できるであろう。
【0110】
[オーディオ専用システムのための代替的な実施形態]
分散した垂直同期を持たないオーディオ専用のシステムにおいて、送信機内の垂直同期信号を同等の局所的に生成された信号によって置換することにより、また、パルス41と同じパルスを生成するであろうシンボルパターンからレジスタ11に入力されたデータビットストリームを畳み込み符号化又は他の手段を介して保護することにより、本発明はさらに利用可能となる。その場合、基準振幅検出部20は、パルス41の検出により、受信機において局所的同期信号を再生成するよう修正されてもよい。
【0111】
更なる実施形態において、図1のブロック3の出力におけるストリームのようなオーディオ状のデジタルストリームを取得するためのビットのストリームとして提供されるオーディオメタデータについての変調は、相互に代替的に、又は相互に追加的に、複数の処理を含んでもよい。特に、図1内のブロック3により出力されかつ図1内のブロック4に入力されるストリームは、例えばPCM値のシーケンスであり、例えばCDに蓄積される16ビット又は32ビットのPCM値などである。当然ながら、制御データ又はメタデータビットストリームは、あるビットストリームシンタックスを有し、メタデータビットストリーム内の複数のビットから成る実際のデジタル語は、典型的には可変の長さを有するであろう。しかし、ブロック3、又は一般的には、オーディオ制御データ又はメタデータからオーディオ状のデジタルストリームを生成する処理は、そのストリームから第1のビット数をグループ化するためのグルーパを含む。つまり、これは例えば、メタデータビットストリームから5ビットのシーケンスが取り出されることを意味する。次に、その第1のビット数、即ち5ビットにより表現される状態が決定される。この状態は32個の状態の1つである。次に、一実施形態において、その状態は第2のビット数により表現され、その第2のビット数は第1のビット数よりも大きい。この第2のビット数における表現は、例えば16ビットの表現又は32ビットの表現にもなり得る。しかしいずれの場合でも、第2のビット数は第1のビット数よりも大きく、その結果、ある種のロバスト性又は冗長性がその表現内に導入される。第2のビット数により表現される状態は、全てその第2のビット数からなるデジタル語の1つのシーケンス内へと書き込まれ、この書き込みは1回だけ実行されるか、又は更に冗長性を増大させるために、2回以上連続的に実行される。好ましくは、この状態は、シーケンス内へと2回、3回又はそれ以上の回数で連続的に実行され、その結果、この実施形態により生成されるオーディオ状のデジタルストリームは、常に同じ複数の値からなる1つのグループが同じ複数の値からなる別のグループを後続して持つような階段状の形状を有し、これらの値の高さ又は状態は、所定個数の状態のうちの1つでしかなく、例えば可能性のある32個の異なる状態のうちの1つでしかない。但し、それら別個の値が例えば5ビット値で表現されるのではなく、16又は32ビット値で表現されている。代替的に、第1のビット数へとグループ化すること、及び、その第1のビット数を2回以上連続的にデジタル語のシーケンス内へと書き込むこと、即ち所定回数繰り返すことにより、所定の冗長性が既に取得されている。
【0112】
適用された冗長性に依存して、即ち第1のビット数よりも大きい第2のビット数を有することによる冗長性に依存して、及び/又はその状態を所定回数繰り返すことによる冗長性に依存して、受信機側における再生の色々な方法が実行され得る。例えば、1種類の繰り返しが実行される場合、例えば後続の同一であるべき3個の値が取り出され、値はそれら2又は3個の値により表現される値であると宣言するような決定が実行される。このようにして、多数決がなされ得る。
【0113】
代替的又は追加的に、特に第1のビット数よりも多い第2のビット数を用いる実施形態が適用された場合、即ち例えば5ビット状態が16ビットにより表現された場合には、多数決に加え、若しくはその決定のための追加的な材料として、又はその多数決の代わりに、オリジナル値を発見するため又は再生するため、ローパスフィルタリング又は平均値計算などが実行され得る。
【0114】
本発明の伝送信号又は符号化済み信号は、デジタル記憶媒体上に記憶されるか、又はインターネットのような無線伝送媒体又は有線伝送媒体などの伝送媒体によって伝送され得る。
【0115】
実施形態は、メタデータ又は制御データのための別のPCMチャネルを示し、本質的なオーディオ信号(又は一次メディアデータ)が十分な品質と分解能を持って伝送されることを可能にする。更に、制御データ又はメタデータ信号は、ゲイン変化、時間ベースの誤差、リサンプリング、一次信号に対する遅延の変化など、PCMオーディオ信号の典型的な劣化に耐え得ることができる信号へと変換され得る。更に、実施形態は、符号化されていない又は圧縮されていない本質的な信号を用いる、好ましいが排他的ではない場合でも、作動可能である。
【0116】
以下に好ましい実施形態を説明する。
【0117】
新たなMPEG−HベースのTVオーディオシステムは、テレビ放送に対して3つの主要な新たな特性をもたらすであろう。「MPEG−H」はMPEG−H標準,ISO/IEC23008−3のパート3を意味し、MMTトランスポート,HEVCビデオ符号化などと関係する他の部分とは関連性がない可能性もある。より具体的には、MPEG−Hオーディオコーデックに基づくMPEG−Hオーディオアライアンスにより開発された新たなTVオーディオシステムと関連する。3つの主要な新たな特性とは以下の通りである。
・消費者が異なるオーディオプレゼンテーションを選択できるようにする双方向性。例えばあるスポーツイベントにおいて地元チーム又はアウェイチームの解説を選択する場合、又は1つのプログラム内の特別なオーディオ要素−例えば会話や音声効果−を消費者の好みに合わせて音量アップ又はダウンさせる場合など。
・ハイトチャネルを追加し、MPEG−HのMPEG−H高次アンビソニックスモードを使用し、又はリスナーの上方の静的にパンニングされたオブジェクトを使用することによる、サウンドの臨場感を高める没入型サウンド。
・マルチプラットフォーム適応(Multi-platform Adaption)。今日のTVサウンドとは異なり、MPEG−Hシステムは再生を適応させるので、装置及び環境の領域に合わせた、即ちスピーカを備えた静かなホームシアターから小型イヤホンを用いた地下鉄又は空港での再生に合わせた、最高品質のサウンド再生が得られるであろう。
【0118】
これらの特性は放送者又はコンテンツ配信者の制御下となり、例えば追加的な言語、プレーヤ、公式マイクロホン、又は、アライアンスが実証したようにレースにおけるピットクルー無線への車を効率的に追加する能力など、新たな創造的機会を提供するであろう。
【0119】
MPEG−Hオーディオシステムは、未修正のHD−SDI埋込オーディオチャネルに対して働きかけるので、各ステーションは、それら内部の機構又は操作手順を変化させることなく、それらの選択に応じてMPEG−Hオーディオ特性を実装し始めることができる。放送者がMPEG−Hを採用する際に考慮すべき4段階の処理を以下のように提案する。
1.MPEG−Hオーディオを使用したステレオ及びサウンドプログラミングの伝送。これにより放送者は、如何なる操作上の変化もなく、MPEG−Hオーディオのビットレート効率性及び新たなモバイルオーディオ特性を取得できるであろう。
2.追加的言語又は代替的解説のためのオーディオオブジェクトの追加。これにより、視聴者は、Hear Your Home Team(登録商標)オーディオや、彼らの好みのレースドライバの無線を聞くことができるようになり、また視覚的描写などの指令されたアクセス特性を提供できる。
3.ハイトチャネル、高次アンビソニックスモード、又はリスナーの上方の静的にパンニングされたオブジェクトを追加することによる、サウンドの臨場感を高める没入型サウンドの追加。
4.ダイナミックオーディオオブジェクトの追加。位置に固定された静止オブジェクトとは対照的に、ダイナミックオブジェクトは、ビデオの動きを追跡するように又はクリエイティブな効果を提供するように、時間にわたって移動する。サウンド効果がパニングされるべき場合には、例えばダイナミックオブジェクトは、5又は9チャネルの静止オブジェクトを送る場合と比較して、必要なビットレートを減少させることができる。
【0120】
MPEG−Hのためのライブプロダクション及びプレイアウト:2つの手法
今日のテレビ装置において、ライブ又はリアルタイムのビデオ信号は、埋め込まれたオーディオの16個までのチャネルをサポートするHD−SDIインターフェースを使用してトランスポートされている。例示的なシステムは、これらのチャネルをプログラムのチャネル、オブジェクト、及び他のオーディオ要素のために直接的に使用するよう設計されている。
【0121】
図15は、一実施形態に係るMPEG−H配信システムの概略図を示し、ここでは、図15aは固定モードを示し、図15bは制御トラックモードを示す。上述した1〜3段階について、固定のチャネルマップ又はランダウンと固定のメタデータ符号化を使用する伝統的手法(図15a参照)が使用可能である。この手法は理解され易いという利点があり、オーディオが使用されないか少数のルーチンオブジェクトだけが使用される場合、操作の変化を殆ど必要としない。この手法は固定モードと称されるが、外部的制御の下で符号器設定を変化させるためにプリセットが使用され得る。
【0122】
図15aで示される固定モードは、基本的に、モニタリングモードで操作され得るMPEG−Hオーディオモニタリング及びオーサリングユニット200を示す。そのモニタリング及びオーサリングユニット200に入力されるのは、16個までのオーディオチャネルを含むHD−SDI信号のような、埋め込みオーディオ205を有するビデオである。MPEG−Hオーディオモニタリング及びオーサリングユニット200は、ウエブベースの制御インターフェース210を使用するよう構成されてもよく、そのインターフェースはチャネル割当て及びオーディオパラメータのための固定のプリセットを設定する。MPEG−Hオーディオモニタリング及びオーサリングユニット200の出力は、遠隔制御215であり、その遠隔制御はモニター制御部220と統合型ラウドネス機器225とを含む。ウエブベースの制御インターフェース又はリモートコントロール(又はその両方)は、MPEG−Hオーディオモニタリング及びオーサリングユニット200に対し、インターネットプロトコル接続240を介して接続されてもよい。更に、MPEG−Hオーディオモニタリング及びオーサリングユニット200は、接続235を使用してスピーカ(図示せず)へと接続されてもよい。
【0123】
HD−SDI信号205は、ビデオ符号器250とMPEG−H符号器255とを含むビデオ/MPEG−Hオーディオコントリビューション又は配信符号器245へと入力される。MPEG−H符号器には、ウエブベースの制御インターフェース210及びインターネットプロトコル接続240を使用して、チャネル割当て及びオーディオパラメータのための固定プリセットが供給される。ビデオ符号器250とMPEG−H符号器255との出力は、トランスポートマルチプレクサ260へと入力される。マルチプレクス済み信号265は、例えばインターネットプロトコル(IP)又はデジタルビデオ放送非同期式シリアルインターフェース(DVB/ASI)を使用して、配信又は伝送される。
【0124】
ビデオ/MPEG−Hオーディオコントリビューション又は配信復号器270は、マルチプレクス済み信号265を受信し、トランスポートデマルチプレクサ275はそのマルチプレクス済み信号265をデマルチプレクスする。そのデマルチプレクス済み信号はビデオ復号器280及びMPEG−H復号器285へと入力されて、16チャネルまで含む埋込オーディオを有するビデオ信号205の復号化済みバージョン205'を形成する。復号化済みバージョン205'に適用される更なるオーディオ処理は、HD−SDIビデオ信号205における送信前のオーディオ信号の処理と同様であり得る。
【0125】
一実施形態によれば、ある代替的手法、即ち制御トラックモード(図15b参照)が開発された。これはオーディオチャネルの1つ、通常はチャネル16の上に配置された制御トラックを使用する。この制御トラックは一次メディアデータについてのメタデータ又は制御データを含み得る。
【0126】
図15bに示された概略ブロック図は、図15aの概略ブロック図と比較すると、少しの変化が見られる。まず、MPEG−Hオーディオモニタリングユニット200はオーサリングモードで作動し、これによりモニタリングユニット200が制御トラックを生成して、例えば15チャネルまで含む埋め込まれたオーディオを有するビデオのチャネル16内へと、その制御トラックを挿入できるようになる。その16番目のチャネルは制御トラックのために残っていた可能性もある。制御トラックを生成するためのチャネル割当て及びオーディオパラメータは、ウエブベースの制御インターフェース210により設定され得る。15オーディオチャネルまで含む埋め込まれたオーディオを有するビデオ信号と、生成された制御トラック205''の更なる処理は、図15aの信号処理と類似している。しかし、チャネル割当てとオーディオパラメータは、制御トラックから読み出され、例えばウエブインターフェースを使用して適用される必要はない。
【0127】
制御トラックは垂直同期に対して同期され、容易なビデオ編集及び切り替えを可能にし得る。制御トラックはちょうど縦の時間コード信号のように作動するよう設計されている。それはPCMオーディオチャネルの通常の処理に耐え得るであろうが、しかし、レイヤIIコントリビューションコーデックのような圧縮されたオーディオチャネルを介して十分に伝送されることはできない。このような状況に対し、MPEG−Hオーディオコントリビューション符号器が使用され得る。その符号器は、オーディオチャネルを伝送用に圧縮し、かつ制御トラックをMPEG−Hオーディオビットストリーム内で搬送されるメタデータ内へと変換する。
【0128】
制御トラック
・符号器によって必要とされる、以下を含む全てのコンフィグレーション情報を含む。
・・チャネルマップ又はランダウン
・・オブジェクト名又はラベル
・・オブジェクトグループ及び制御制限
・・プログラム基準レベル(MPEG技術における「dialnorm」)、ダウンミックスゲイン及びDRCプロファイル
・・ダイナミックオブジェクトについての位置情報
・ルーティング、プロダクション又はマスター制御スイッチャ内で切り替えられ得る。
・フレームシンクロナイザ及び他の端末機器を通過するであろう。
・ビデオ編集部又はオーディオワークステーション内で他のオーディオトラックと一緒に編集され得る。
・オーディオコンソールを他のトラックと共に通過するであろう。
・ビデオプログラムスイッチ又は編集部と適合するため、符号化済み又はモニタリング済みオーディオのフレーム正確性のある遷移を提供する。
・制御トラックチャネルの「データモード」又は「非オーディオモード」処理のためのコンフィグ装置を必要としない。
【0129】
制御トラックは、オーディオチャネル内でコンテンツと一緒に搬送されており、手動のプログラミングや装置内で他の機構を修正する必要もなく、MPEG−Hオーディオ符号器の全てのパラメータの自動的な設定を提供する。符号器は制御トラック情報をMPEG−Hオーディオメタデータ内へと翻訳し、そのメタデータは符号化済みビットストリーム内でMPEG−Hオーディオ復号器へと伝送される。この操作モードは制御トラックモードと呼ばれている。
【0130】
プロフェッショナルの復号器は、コントリビューション又はトランスミッションのモードであって受信されたメタデータから制御トラック信号を再構築するモードか、又は、エミッションモードであって消費者の復号器が行うのと同様にそのオーディオチャネルを再現するモードか、において操作され得る。
【0131】
制御トラックは、ライブプログラムのためのオーディオオペレータにより使用されるオーディオモニタリング及びオーサリングユニットにより生成されてもよい。記録されたコンテンツを取り入れる目的で、リアルタイムダビングの間に制御トラックを追加するためにHD−SDI信号がオーディオモニタリング及びオーサリングユニットを通過させられてもよく、又は、ファイルベースの機構が使用されて、その制御トラックをQuickTime/MP4FF又はMXFなどの一般的なファイルフォーマット内へと挿入してもよい。当然ながら、オーディオモニタリング及びオーサリングユニットはまた、MPEG−Hオーディオ復号器の活動をシミュレートするためにモニタリングの間に制御トラックを使用する。
【0132】
制御トラックは他の任意のオーディオチャネルと同様に編集され得るので、様々なチャネル割当て又は様々なオブジェクトを用いたプログラミングが、編集部において、アイテムを編集タイムライン上に落とすことだけで結合され得る。
【0133】
制御トラックを使用することは、1つのオーディオチャネルがオブジェクト又はチャネルのために利用できなくなることを意味しているが、しかしまた、ダイナミックオブジェクトを使用する可能性を開くことも意味する。サウンド効果などのパニング済みサウンドにとって、1つの単一チャネルダイナミックオブジェクトを用いて行われる得る効果を創造するために、(複数の)静止オブジェクトの複数のチャネルが必要とされ得る。
【0134】
制御トラックの手法は、一放送日の期間中に使用される(複数の)MPEG−Hオーディオモードにおいて、十分な柔軟性を可能にする。1つのステレオベッドと2つの会話オブジェクトとが、十分な没入型7.1+4Hサウンドにおけるプログラム挿入による割り込みを受けるようなショウ番組、又は更には高次アンソビニックスであってステレオ又は5.1サラウンドにおけるコマーシャル休憩が点在するような番組を作ることは容易に可能である。
【0135】
1つの新たな可能性として、主要言語における広告に耳を傾けることでより快適さを感じるデモグラフィクスを含めるようにコマーシャルの到達範囲を広げる能力が挙げられる。可能な最大広範囲の視聴者に届くように意図されたローカルスポットは、広告者により選択された複数の言語におけるボイスオーバー又は会話を有し得る。例示的なシステムの好ましい言語特性は、放送された場合に視聴者が好む言語でコマーシャルを提供し、また、その言語が存在しない他のプログラミング又はコマーシャルについてはデフォルト言語へと自動的に切り戻すであろう。
【0136】
主にネットワーク中断及び接続オペレーションの期間中に、コンテンツ遷移に対する所定の制限を伴うが、制御トラック信号を持つ新たなコンテンツと制御トラック信号を持たないレガシーコンテンツとの混合を有することは可能である。例えば、MPEG−Hオーディオ符号器とMPEG−Hオーディオモニタリング及びオーサリングユニットとは、現状の装置が典型的に使用するような、−24LKFS(フルスケースに対するラウドネス、K−重み付き)の固定ラウドネスと標準ダウンミックスゲインとDRCプロファイルとを有する5.1サラウンドモードへと切り替えるように設定されることができる。このように、レガシーコンテンツは現状と同様に符号化されるであろうし、没入型又は双方向型の特性を有する新たなコンテンツは正確な設定で自動的に符号化されるであろう。
【0137】
本発明の更なる実施形態は以下のような実例に関連する。
1.デジタルオーディオチャネル内でデータを送信又は受信するシステムであって、前記データを、帯域制限されているか又は前記チャネル内の送信について送信劣化に耐え得る信号か、又は、何らかの方法で一緒にパックされている生のビットではないがチャネル劣化に耐え得る信号か、へとデジタル的に変調又は符号化することにより実行されるシステム。
2.実例1のシステムであって、前記データは、制御データ、メタデータ、又は二次デジタルオーディオチャネル内で搬送されるオーディオ信号に関連する他のデータであるシステム。
3.データ圧縮済みデジタルオーディオビットストリームをデジタルオーディオチャネル内で送信するシステムであり、前記チャネル内で送信するために前記ビットストリームをデジタル的に変調又は符号化することにより実行されるシステム。
4.実例3のシステムであって、前記データ圧縮済みデジタルオーディオビットストリームはメタデータ又は制御データを含むシステム。
5.実例3のシステムであって、前記データ圧縮済みデジタルオーディオビットストリームはメタデータ又は制御データだけを含み、関連するオーディオ情報は含まないシステム。
6.実例1のシステムであって、前記デジタルオーディオチャネルはデジタルビデオ信号内へと埋め込まれるシステム。
7.実例2のシステムであって、前記デジタルオーディオチャネルはデジタルビデオ信号内へと埋め込まれるシステム。
8.実例3のシステムであって、前記デジタルオーディオチャネルはデジタルビデオ信号内へと埋め込まれるシステム。
9.実例4のシステムであって、前記デジタルオーディオチャネルはデジタルビデオ信号内へと埋め込まれるシステム。
10.実例5のシステムであって、前記デジタルオーディオチャネルはデジタルビデオ信号内へと埋め込まれるシステム。
11.ビットのストリームを含むオーディオ制御データ又はメタデータを変調してオーディオ状のデジタルストリームを取得する方法、装置又はコンピュータプログラムであって、
第1のビット数をグループ化すること、
前記第1のビット数により表現される状態を決定すること、
前記状態を前記第1のビット数よりも大きい第2数のビット数により表現し、かつ前記第2のビット数の1回分を有するか又は2回分以上を連続的に有するデジタル語のシーケンス内へと前記第2のビット数を書き込むこと、又は
前記第1のビットをデジタル語のシーケンス内へと2回以上連続的に書き込むことを含む。
12.デジタルストリームを復調してオーディオメタデータ又は制御データのビットのストリームを取得する方法、装置又はコンピュータであって、
受信されたオーディオサンプルのシーケンス間の多数決又は平均値計算を実行してグループ化された第1のビット数を取得するか、又は1つのオーディオサンプルを幾つかのビットへと量子化すること、及び
第1のビット数の2つ以上のグループを連結することにより得られたビットのシーケンスをシンタックス的に解析して、前記メタデータ情報を取得することを含む。
【0138】
これまで本発明を、ブロックが実際の又は論理ハードウエア要素を表すブロック図の文脈で説明してきたが、本発明はまたコンピュータ実装された方法によって構成され得る。後者の場合、ブロックは対応する方法ステップを表しており、これらステップは対応する論理的又は物理的ハードウエアブロックによって実行される機能を表している。
【0139】
これまで幾つかの態様を装置の文脈で示してきたが、これらの態様は対応する方法の説明をも表しており、1つのブロック又は装置が1つの方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応するブロック、項目、又は対応する装置の特徴を表している。方法ステップの幾つか又は全ては、例えばマイクロプロセッサ、プログラム可能なコンピュータ、又は電子回路などのハードウエア装置によって(を使用して)実行されてもよい。幾つかの実施形態では、最も重要な方法ステップの1つ又はそれ以上がそのような装置によって実行されてもよい。
【0140】
所定の構成要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、例えばフレキシブルディスク,DVD,ブルーレイ,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体を使用して実行することができ、そのデジタル記憶媒体は、その中に格納された電子的に読み取り可能な制御信号を有し、それら制御信号は、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能である)。従って、そのデジタル記憶媒体はコンピュータ読み取り可能であってもよい。
【0141】
本発明に従う幾つかの実施形態は、電子的に読み取り可能な制御信号を有するデータキャリアを含み、それら制御信号は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能である。
【0142】
一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。
【0143】
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。
【0144】
換言すれば、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0145】
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体などの非一時的記憶媒体)である。そのデータキャリア、デジタル記憶媒体又は記録された媒体は、典型的には有形及び/又は非一時的である。
【0146】
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。
【0147】
他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
【0148】
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0149】
本発明に係るさらなる実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを受信機へ(例えば電子的又は光学的に)伝送するよう構成された装置又はシステムを含む。受信機は、例えばコンピュータ、モバイル装置、メモリ装置等であってもよい。この装置又はシステムは、例えばコンピュータプログラムを受信機へと送信するためのファイルサーバを含み得る。
【0150】
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
【0151】
上述の実施形態は、本発明の原理の単なる説明に過ぎない。上述の装置及び詳細の修正及び変更が当業者にとって明らかなことは理解されよう。従って、以下に添付する特許請求の範囲の主題によってのみ限定されるべきであり、実施形態の説明及び解説の方法で表現された特定の詳細によっては限定されないことが趣旨である。
[備考]
[請求項1]
一次メディアデータ(90,90a,90b)についてのメタデータ又は制御データを有する二次メディアデータ(80,125,130)を符号化する符号器(100)において、
前記符号器(100)は前記二次メディアデータ(80,125)を符号化して、デジタル語(142)のストリーム(145)を取得するよう構成され、前記符号化は前記二次メディアデータをデジタル変調によって変換すること又は帯域制限することを含み、
前記符号器(100)は、前記デジタル語(142)のストリーム(145)として、符号化済み二次メディアデータを出力するよう構成される、符号器。
[請求項2]
請求項1に記載の符号器(100)において、前記符号化は前記デジタル変調によって冗長性を付加することを含む、符号器(100)。
[請求項3]
請求項1又は2に記載の符号器(100)において、前記デジタル変調は、前記デジタル語のストリームの1デジタル語当り、前記二次メディアデータ(80,125,130)の2ビット以上が伝送されるようにされる、符号器(100)。
[請求項4]
請求項1乃至3の何れか1項に記載の符号器(100)において、前記符号器は、前記デジタル語のストリームがPCMオーディオチャネルを介して伝送可能なように、前記デジタル語(142)のストリーム(145)を出力するよう構成される、符号器(100)。
[請求項5]
請求項1乃至4の何れか1項に記載の符号器(100)において、前記符号器は、デジタル語の追加的ストリームを出力するよう構成され、前記デジタル語の追加的ストリームは前記一次メディアデータを表し、前記追加的ストリームは前記デジタル語(142)のストリーム(145)から分離されている、符号器(100)。
[請求項6]
請求項5に記載の符号器(100)において、前記一次メディアデータはオーディオデータであり、前記二次メディアデータは前記オーディオデータについてのメタデータ又は前記オーディオデータについての制御データである、符号器(100)。
[請求項7]
請求項5又は6に記載の符号器(100)において、前記符号器は、前記デジタル語の追加的ストリームが第1のオーディオPCMチャネルを介して伝送可能であり、かつ前記デジタル語のストリームが第1のオーディオPCMチャネルとは異なる第2のオーディオPCMチャネルを介して伝送可能であるように、前記デジタル語(142)のストリーム(145)と前記デジタル語の追加的ストリームとを出力するよう構成される、符号器(100)。
[請求項8]
請求項5乃至7の何れか1項に記載の符号器(100)において、前記一次メディアデータ(90a,90b)を表す前記追加的ストリームのデジタル語の各々は、8ビットより大きく、32ビットより小さな所定のビット数を有しており、前記デジタル語のストリームのデジタル語の各々もまた所定のビット数を有する、符号器(100)。
[請求項9]
請求項1乃至8の何れか1項に記載の符号器(100)において、前記デジタル変調はパルス振幅変調である、符号器(100)。
[請求項10]
請求項1乃至9の何れか1項に記載の符号器(100)において、前記符号器は、前記デジタル語のストリームがタイミング基準パターン又は振幅基準パターンを含むように、前記デジタル語のストリームを生成するよう構成される、符号器(100)。
[請求項11]
請求項1乃至10の何れか1項に記載の符号器(100)において、前記符号器はビデオ画像のシーケンスを表現するビデオストリームを出力するよう構成され、前記符号器は、あるビデオ画像に関連する前記二次メディアデータの制御データ又はメタデータがそのビデオ画像に関係するように、前記デジタル語(142)のストリーム(145)を出力するよう構成される、符号器(100)。
[請求項12]
請求項11に記載の符号器(100)において、前記符号器は前記デジタル語のストリームを、前記ビデオ画像のシーケンスの第1ビデオ画像に関連したデジタル語の第1ストリームとして出力するよう構成され、かつ前記デジタル語のストリームを、前記ビデオ画像のシーケンスの第2ビデオ画像に関連したデジタル語の第2ストリームとして出力するよう構成され、前記第1及び第2のデジタル語は互いに等しい、符号器(100)。
[請求項13]
請求項1乃至12の何れか1項に記載の符号器(100)において、
前記符号器(100)は、12〜28ビットを有するか、30kHz〜55kHzの間のサンプリングレートでサンプリングされるか、70〜160dBのダイナミックレンジを有するか、又はRMSフルスケールで−20dBの公称信号レベルを有する、前記デジタル語(142)を生成するよう構成される、符号器(100)。
[請求項14]
請求項1乃至13の何れか1項に記載の符号器(100)において、前記符号器は、30kHz〜55kHzの間のサンプリングレートについて、前記二次メディアデータを帯域制限するために15kHz〜27.5kHzの間の上側周波数を使用するよう構成される、符号器(100)。
[請求項15]
請求項1乃至14の何れか1項に記載の符号器(100)において、前記符号器は、
第1のビット数を有する二次メディアデータのグループを、前記第1のビット数より大きな第2のビット数を有するデータ語(140)へマッピングするよう構成されたマッパ(115)であって、前記グループ化された二次メディアデータ(130)は、前記データ語(140)の最上位ビット又は最下位ビットへとあるギャップを持って整列されている、マッパ(115)と、
符号化済み二次メディアデータ(55)を表すデジタル語のストリーム(145)を構築するよう構成されたストリームビルダ(120)とを備える、符号器。
[請求項16]
請求項1乃至15の何れか1項に記載の符号器(100)において、二次メディアデータ(125)のビットストリームをグループ化して、グループ化された二次メディアデータ(130)を形成するためのグルーパ(105)を含む、符号器(100)。
[請求項17]
請求項1乃至16の何れか1項に記載の符号器(100)において、
前記符号器は、前記一次メディアデータ(90,90a,90b)における基準振幅(41、42)又は所定のタイミング時点(40,165)を示す基準パターン(135)を生成するよう構成された基準信号生成部(17)を有し、
前記ストリームビルダ(120)は、前記基準パターン(60)又は前記データ語(140)を使用して、符号化済み二次メディアデータ(55)を表すデジタル語のストリーム(145)を構築するよう構成される、符号器。
[請求項18]
請求項1乃至17の何れか1項に記載の符号器(100)において、ストリームビルダは、データ語(140)又は基準パターン(135)をローパスフィルタリングして、所定のサンプルレートの1サンプルより大きな長さを有するデジタル語を取得するフィルタ(15)を備え、前記デジタル語の振幅は、前記データ語(140)又は前記基準パターン(135)に従って重み付けされ、前記フィルタ(15)は所定のサンプルレートの各時点において連続的なデジタル語を合算し、前記デジタル語のストリームを取得するよう構成される、符号器。
[請求項19]
請求項1乃至18の何れか1項に記載の符号器(100)において、
前記フィルタ(15)は、データパルス(15')の所定のサンプルレートの各時点におけるゼロ点(165)を得るよう構成され、前記データパルスはグループ化された二次メディアデータ(130)又は前記基準パターン(135)を含む1つのデータ語(140)を有し、
前記ストリームビルダ(120)は、前記データパルス(15')のゼロ点(180c)が追加のデータパルスの最大値(180a)に整列されるように、前記基準パターン及び複数のデータ語を使用して、前記符号化済み二次メディアデータ(55)を表す前記ストリームを構築し、前記符号化済み二次メディアデータを表すシンボル間干渉のないストリームを取得するよう構成される、符号器。
[請求項20]
請求項1乃至19の何れか1項に記載の符号器(100)において、前記フィルタ(15)は、前記一次メディアデータのサンプリング周波数の1.5倍未満のカットオフ周波数を有する、符号器。
[請求項21]
請求項1乃至20の何れか1項に記載の符号器(100)において、基準信号生成部(17)は、第1のビット数を持つグループ化された基準パターンを生成するよう構成され、前記基準信号生成部(17)は前記グループ化された基準パターンを、第1のビット数より大きな第2のビット数を持つ1つのデータ語(140)へとマップするようさらに構成され、又は
前記マッパ(115)は、第1のビット数を持つグループ化された基準パターンを、第1のビット数より大きな第2のビット数を持つ1つのデータ語(140)へとマップするよう構成される、符号器。
[請求項22]
請求項1乃至21の何れか1項に記載の符号器(100)において、前記符号器は、デジタル語(142)のストリーム(145)としての符号化済み二次メディアデータを制御トラックとして出力し、かつ15チャネルまでの一次メディアデータをオーディオトラックとして出力するよう構成され、前記制御トラック及び前記オーディオトラックはAES3標準に従って形成される、符号器。
[請求項23]
一次メディアデータ(90,90a,90b)についてのメタデータ又は制御データを有する符号化済み二次メディアデータ(55)を表す、デジタル語の受信されたストリーム(145)を有するメディア信号(155)を復号化する復号器(50)であって、
前記復号器は、二次メディアデータ(80,125)を復元するよう構成され、前記復元は、デジタル復調操作又はリサンプリング操作を適用して、復元された二次メディアデータ(80,125)を取得することを含み、
前記復号器は、前記復元された二次メディアデータ(80,125)からビットストリーム(125')を導出するよう構成される、復号器。
[請求項24]
請求項23に記載の復号器(50)において、前記復元は、受信されたデジタル語(142)によって表現された振幅に関して、デジタル語(142)の受信されたストリーム(145)を操作することを含む、復号器。
[請求項25]
請求項23又は24に記載の復号器(50)において、前記メディア信号は、符号化済み一次メディアデータを表す追加的に受信されたデジタル語のストリームをさらに含み、前記追加的に受信されたストリームは前記受信されたストリームとは分離されており、
前記復号器は、前記追加的に受信されたストリームによって表現された前記一次メディアデータを、前記ビットストリームによって表現された前記メタデータ又は制御データを使用して処理するよう構成されている、復号器。
[請求項26]
請求項23乃至25の何れか1項に記載の復号器(50)において、
前記符号化済み二次メディアデータ(55)の基準パターン(135)を分析するための基準パターン分析部(60)であって、前記基準パターン(135)の振幅(41,42)を決定し、又は前記一次メディアデータ(90,90a,90b)内での所定のタイミング時点(40)を決定するよう構成された、基準パターン分析部(60)と、
前記符号化済み二次メディアデータ(55)を分析された基準パターン(75)及び計算された基準パターンに従って操作し、二次メディアデータ(80,125)を得る信号マニピュレータ(65)と、
前記一次メディアデータ(90,90a,90b)を前記符号化済み二次メディアデータ(55)に従って処理し、復号化済みメディア信号(85)を得る,信号処理部(70)と、
を有する復号器。
[請求項27]
請求項23乃至26の何れか1項に記載の復号器(50)において、信号マニピュレータ(65)が、前記基準パターン(135)において示された前記一次メディアデータ(90,90a,90b)の所定のタイミング時点(40,165)にしたがって、前記デジタル語(140)に関連するサンプルレートを所定のサンプルレートへと変換し、リサンプル済みのデジタル語を取得するよう構成されたサンプルレート変換器(28)を含む、復号器。
[請求項28]
請求項23乃至27の何れか1項に記載の復号器(50)において、基準パターン分析部は、
サンプルレートのサンプルについて、前記基準パターンにおける前記一次メディアデータの所定のタイミング時点を決定するよう構成された、タイミング時点決定部(32)と、
決定されたタイミング時点周りのある範囲をアップサンプルして、所定のタイミング時点の正確な位置を決定するよう構成された、アップサンプラ(33)と、
デジタル語のストリーム内での前記デジタル語の正確な位置を決定し、所定のサンプルレートとは異なる、前記デジタル語に関連した実際のサンプルレートを取得するよう構成された、サンプリング・アキュムレータ(34)と、を含む、
復号器。
[請求項29]
請求項23乃至28の何れか1項に記載の復号器(50)において、前記基準パターン分析部(60)は、前記基準パターンの振幅及び前記計算された基準パターンの振幅に従って増幅又は減衰ファクタを計算するゲインファクタ計算部(94)を含み、前記信号マニピュレータ(65)は、前記増幅又は減衰ファクタに従って前記データ語を増幅又は減衰させ、ゲイン補償されたデータ語を得るよう構成された乗算器(27)を含む、復号器。
[請求項30]
請求項23乃至29の何れか1項に記載の復号器(50)において、
前記基準パターン分析部は、基準パターンの振幅と前記基準パターンの追加的振幅とを決定する振幅検出部を有し、
前記基準パターン分析部(60)は、前記基準パターン(135)の振幅と前記基準パターンの追加的振幅とのドリフトに従って、前記符号化済み二次メディアデータのオフセットを計算するよう構成されたオフセット補償ユニット(96)をさらに有し、前記信号マニピュレータ(65)は、前記符号化済み二次メディアデータに対して前記符号化済み二次メディアデータのオフセットを加算して、オフセット補償された符号化済み二次メディアデータ(96)を得るよう構成された加算器を含む、
復号器。
[請求項31]
請求項23乃至30の何れか1項に記載の復号器(50)において、
信号マニピュレータ(65)は、第1のビット数よりも大きい第2のビット数を有するデータ語(140)から、第1のビット数を有する二次メディアデータをデマップするよう構成されたデマッパ(29)を備え、又は
信号マニピュレータ(65)は、第1のビット数を有する二次メディアデータのグループのグループ化を解除し、復号化済み二次メディアデータのビットストリームを取得するアングルーパ(31)を備える、
復号器。
[請求項32]
一次メディアデータ(90,90a,90b)についてのメタデータ又は制御データを含む符号化済み二次メディアデータ(55)を表すデジタル語(142)のストリーム(145)を有する、メディア信号(155)。
[請求項33]
請求項32に記載のメディア信号(155)であって、前記デジタル語(142)はフィルタリングされた二次メディアデータを含む、メディア信号(155)。
[請求項34]
請求項32又は33に記載のメディア信号(155)であって、前記二次メディアデータは基準パターン(135)と複数のデータ語(140)とを含む、メディア信号(155)。
[請求項35]
請求項32乃至34の何れか1項に記載のメディア信号(155)であって、前記二次メディアデータは、前記データ語の最上位ビット又はデータ語の最下位ビットに対してあるギャップをもって、データ語にマップされている、メディア信号(155)。
[請求項36]
請求項32乃至35の何れか1項に記載のメディア信号(155)であって、前記基準パターンは、符号化済み二次メディアデータの基準振幅と一次メディアデータにおける所定のタイミング時点とを有し、前記複数のデータ語は二次メディアデータを含む、メディア信号(155)。
[請求項37]
請求項32乃至36の何れか1項に記載のメディア信号(155)であって、前記メディア信号は前記一次メディアデータの追加的ストリームを有し、前記一次メディアデータはオーディオデータ又はビデオデータを有し、前記一次メディアデータを有する追加的ストリームは、前記一次メディアデータにおける所定のタイミング時点において前記符号化済み二次メディアデータのストリームに整列されている、メディア信号(155)。
[請求項38]
一次メディアデータ(90,90a,90b)についてのメタデータ又は制御データを有する符号化済み二次メディアデータ(55)を表す、デジタル語の受信されたストリーム(145)を有するメディア信号(155)を復号化する方法(1100)において、
二次メディアデータ(80,125)を復元するステップであって、前記復元は、デジタル復調操作又はリサンプリング操作を適用して、復元された二次メディアデータ(80,125)を取得することを含む、ステップと、
前記復元された二次メディアデータ(80,125)からビットストリーム(125')を導出するステップと、
を含む方法。
[請求項39]
一次メディアデータ(90,90a,90b)についてのメタデータ又は制御データを有する二次メディアデータ(80,125)を符号化する方法(1200)であって、
前記二次メディアデータ(80,125)を符号化してデジタル語(142)のストリーム(145)を取得するステップであって、前記符号化は前記二次メディアデータをデジタル変調によって変換すること又は帯域制限することを含む、ステップと、
前記デジタル語(142)のストリーム(145)として、符号化済み二次メディアデータを出力するステップと、
を含む方法。
[請求項40]
コンピュータプログラムがコンピュータ上で作動するとき、請求項38又は39に記載の方法を実行する、プログラムコードを有するコンピュータプログラム。
[請求項41]
請求項1乃至22の何れか1項に記載の符号器と、
請求項23乃至31の何れか1項に記載の復号器と、を含むデータ処理システム。
[請求項42]
請求項41に記載のデータ処理システムであって、
前記デジタル語(142)のストリーム(145)を操作して、デジタル語の操作済みストリームを取得する信号マニピュレータをさらに含み、
前記復号器は、前記デジタル語の操作済みストリームから前記デジタル語のストリームを復元するよう構成される、データ処理システム。
[請求項43]
請求項42に記載のデータ処理システムであって、
前記信号マニピュレータは、振幅増幅若しくは振幅減衰、オフセット導入若しくはオフセット変化、周波数選択的な減衰若しくは増幅、又はリサンプリングによって、操作するよう構成され、
前記復号器(50)は、振幅増幅若しくは振幅減衰、オフセット導入若しくはオフセット変化、周波数選択的な減衰若しくは増幅、又はリサンプリングによって操作された、デジタル語のストリームを復元するよう構成される、データ処理システム。
[請求項44]
請求項42又は43に記載のデータ処理システムであって、前記信号マニピュレータはPCMオーディオチャネルを受信し、PCMオーディオチャネルを出力するよう構成され、
前記符号器は前記PCMオーディオチャネルを介して伝送可能な信号を出力するよう構成され、
前記復号器は前記PCMオーディオチャネルから前記受信されたストリームを受信するよう構成される、データ処理システム。
図1
図2
図3
図4
図5
図6
図7
図8a
図8b
図8c
図9
図10a
図10b
図11a
図11b
図11c
図12a
図12b
図12c
図12d
図13
図14
図15a-1】
図15a-2】
図15b-1】
図15b-2】