(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-06-12
(45)【発行日】2023-06-20
(54)【発明の名称】オーディオデコーダ、オーディオエンコーダ、復号化オーディオ信号の供給方法、符号化オーディオ信号の供給方法、オーディオストリーム、オーディオストリーム供給器、ストリーム識別子を使用するオーディオストリーム供給器およびコンピュータプログラム
(51)【国際特許分類】
G10L 19/00 20130101AFI20230613BHJP
【FI】
G10L19/00 312E
G10L19/00 330B
G10L19/00 400A
【外国語出願】
(21)【出願番号】P 2021161136
(22)【出願日】2021-09-30
(62)【分割の表示】P 2019557682の分割
【原出願日】2018-01-10
【審査請求日】2021-11-01
(32)【優先日】2017-01-10
(33)【優先権主張国・地域又は機関】EP
(32)【優先日】2017-01-11
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】591037214
【氏名又は名称】フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
(74)【代理人】
【識別番号】100079577
【氏名又は名称】岡田 全啓
(72)【発明者】
【氏名】ノイエンドルフ マクス
(72)【発明者】
【氏名】フェリックス マティアス
(72)【発明者】
【氏名】ヒルデンブラント マティアス
(72)【発明者】
【氏名】シュースター ルーカス
(72)【発明者】
【氏名】ホーフマン インゴ
(72)【発明者】
【氏名】ヘルマン ベルント
(72)【発明者】
【氏名】レッテルバッハ ニコラウス
【審査官】菊地 陽一
(56)【参考文献】
【文献】特表2016-539357(JP,A)
【文献】Daehyun Pak, et al.,Low-delay stream switch method for real-time transfer protocol,The 18th IEEE International Symposium on Consumer Electronics (ISCE 2014),IEEE,2014年06月22日,https://ieeexplore.ieee.org/document/6884494,IEL Online (IEEE Xplore)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00
(57)【特許請求の範囲】
【請求項1】
エンコードされたオーディオ信号表現(110;210;312;412;550;600;700;800)に基づいて、デコードされたオーディオ信号表現(112;212)を供給するためのオーディオデコーダ(100;200)であって、
前記オーディオデコーダは構成情報(110a;222c;332;424;1010,1030)に依存して復号化パラメータを調整するように構成され、
前記オーディオデコーダは現在の構成情報(140;240)を使用して1つ以上のオーディオフレームをデコードするように構成され、かつ、
前記オーディオデコーダはデコードされる
ことになる1つ以上のフレーム(222)
に関連付けられた構成構造における構成情報(110a;222c;332;424;1010,1030)を前記現在の構成情報(140;240)と比較し
て、前記デコードされる
ことになる1つ以上のフレーム
に関連付けられた前記構成構造における前記構成情報または前記デコードされる
ことになる1つ以上のフレーム
に関連付けられた前記構成構造における前記構成情報の関連部分(1020a,1020b,1022a,1024a,1024b,1026a,1050a)が前記現在の構成情報と異なる場合、遷移を実行して、前記デコードされる
ことになる1つ以上のフレーム
に関連付けられた前記構成構造における前記構成情報を新しい構成情報として使用してデコードを実行するように構成され、
前記オーディオデコーダは前記構成情報を比較する際に、前記構成構造に含まれるストリーム識別子情報(230;streamID,1050a,streamIdentifier)を考慮して、前記オーディオデコーダが以前に獲得したストリーム識別子と前記デコードされる
ことになる1つ以上のフレームに関連付けられた前記構成構造内の前記ストリーム識別子情報により表されるストリーム識別子との相違によって前記遷移が実行されるようにするように構成され、
前記構成構造は、オーディオフレームの拡張要素に含まれている、
オーディオデコーダ。
【請求項2】
前記オーディオデコーダは、前記構成構造が前記ストリーム識別子情報(230;streamID,1050a,streamIdentifier)を含むかをチェックし、前記ストリーム識別子情報が前記構成構造(222c;1010,1030)に含まれている場合、前記比較において前記ストリーム識別子情報を選択的に考慮するように構成される、請求項1に記載のオーディオデコーダ。
【請求項3】
前記オーディオデコーダは、前記構成構造(222c;1010,1030)が構成拡張構造(226;1030)を含んでいるかをチェックし、かつ、前記構成拡張構造が前記ストリーム識別子情報(230;streamID,1050a,streamIdentifier)を含んでいるかをチェックするように構成され、かつ、
前記オーディオデコーダは、前記ストリーム識別子情報が前記構成拡張構造に含まれている場合、前記比較において前記ストリーム識別子情報を選択的に考慮するように構成される、請求項1または2に記載のオーディオデコーダ。
【請求項4】
前記オーディオデコーダは、前記構成拡張構造(226;1030;UsacConfigExtension())における構成情報アイテムの順序が可変であることを受け入れるように構成され、かつ、
前記オーディオデコーダは、デコードされる
ことになる1つ以上のフレームに関連付けられた前記構成構造における前記構成情報を前記現在の構成情報(140;240)と比較するとき、前記構成拡張構造において前記ストリーム識別子情報(230;streamID,1050a,streamIdentifier)より前に配置された構成情報アイテムを考慮するように構成され、かつ、
前記オーディオデコーダは、デコードされる
ことになる1つ以上のフレームに関連付けられた前記構成構造における前記構成情報を前記現在の構成情報と比較するとき、前記構成拡張構造において前記ストリーム識別子情報の後に配置された構成情報アイテム
を考慮しないままにするように構成される、請求項3に記載のオーディオデコーダ。
【請求項5】
前記オーディオデコーダは、前記構成拡張構造における1つ以上の構成情報アイテム(1046a,1048a,1050a)を、前記各構成情報アイテムに先行する1つ以上の構成拡張タイプ識別子(1042)に基づいて識別するように構成される、請求項4に記載のオーディオデコーダ。
【請求項6】
前記構成拡張構造(226;1030)は前記構成構造(222c;1010,1030)のサブデータ構造であり、前記構成拡張構造の存在は前記オーディオデコーダによって評価される前記構成構造(222c;1010,1030)のビット(UsacConfigExtensionPresent)により示され、かつ、
前記ストリーム識別子情報(230;streamID,1050a,streamIdentifier)は前記構成拡張構造のサブデータアイテムであり、
前記ストリーム識別子情報の存在は、前記オーディオデコーダによって評価される前記ストリーム識別子情報に関連付けられた構成拡張タイプ識別子(1042)によって示される、請求項3ないし5のいずれか1つに記載のオーディオデコーダ。
【請求項7】
前記オーディオデコーダはランダムアクセス情報(222b)を含むオーディオフレーム表現を取得して処理するように構成され、
前記ランダムアクセス情報は構成構造(222c,1010,1030)と前記オーディオデコーダの処理チェーンの状態を所望の状態にするための情報(222d;AccessUnit())とを含み、
前記オーディオデコーダが前記ランダムアクセス情報の前記構成構造(222c)における前記構成情報または前記ランダムアクセス情報の前記構成構造における前記構成情報の関連部分が、前記現在の構成情報(240)と異なることを検出した場合、前記オーディオデコーダは
、前記ランダムアクセス情報を含む前記オーディオフレーム表現に到達する前に処理されたオーディオフレーム(220)により表わされるオーディオ情報(272)と
前記ランダムアクセス情報の前記構成構造(222c)を使用した前記オーディオデコーダの初期化を行った後および処理チェーンの状態を所望の状態にするための前記情報(222d)を使用して前記オーディオデコーダの状態を調整した後の前記ランダムアクセス情報を含む前記オーディオフレーム表現(222)に基づいて導出されるオーディオ情報(276)との間でクロスフェードを行うように構成さ
れる、請求項1ないし6のいずれかに記載のオーディオデコーダ。
【請求項8】
前記オーディオデコーダが前記ランダムアクセス情報を含む前記オーディオフレーム表現により表わされるオーディオフレームの直前のオーディオフレームをデコードした場合
、および前記オーディオデコーダが
、前記ランダムアクセス情報の前記構成構造における前記構成情報(222c)の前記関連部分が前記現在の構成情報(240)に等しいことを検知した場合、前記オーディオデコーダは
、前記オーディオデコーダの初期化を実行することなく、かつ前記オーディオデコーダの前記処理チェーンの状態を所望の状態にするための前記情報(222d)を使用することなく、デコードを
継続するように構成さ
れる、請求項7に記載のオーディオデコーダ。
【請求項9】
前記オーディオデコーダが前記ランダムアクセス情報を含む前記オーディオフレーム表現により表わされるオーディオフレームの直前のオーディオフレームをデコードしなかった場合、前記オーディオデコーダは
、前記ランダムアクセス情報の前記構成構造(222c)を使用して前記オーディオデコーダの初期化を実行し、前記処理チェーンの状態を所望の状態にするための前記情報(222d)を使用して前記オーディオデコーダの状態を調整するように構成さ
れる、請求項7または8に記載のオーディオデコーダ。
【請求項10】
エンコードされたオーディオ信号表現に基づいて、デコードされたオーディオ信号表現を提供するための方法であって、
前記方法は構成情報(110a;222c;332;424;1010,1030)に応じて復号化パラメータを調整するステップを含み、
前記方法は現在の構成情報(140;240)を使用して1つ以上のオーディオフレームをデコードするステップを含み、
前記方法はデコードされる
ことになる1つ以上のフレーム(222)に関連付けられた構成構造における構成情報(110a;222c;332;424;1010,1030)を前記現在
の構成情報と比較するステップを含み、かつ前記方法は、前記デコードされる
ことになる1つ以上のフレームに関連付けられた前記構成構造における前記構成情報
、または前記デコードされる
ことになる1つ以上のフレームに関連付けられた前記構成構造における前記構成情報の関連部分(1020a,1020b,1022a,1024a,1024b,1026a,1050a)が前記現在の構成情報と異なる場合、遷移を実行して、前記デコードされる
ことになる1つ以上のフレームと関連付けられた前記構成構造における前記構成情報を新たな構成情報として使用して、デコードを実行するステップを含み、
前記方法は前記構成情報を比較するとき、前記構成構造に含まれるストリーム識別子情報(230;streamID,1050a,streamIdentifier)を考慮して
、オーディオデコードにおいて以前に獲得したストリーム識別子と
前記デコードされる
ことになる1つ以上のフレームに関連付けられた前記構成構造における前記ストリーム識別子情報により表わされるストリーム識別子との間の相違
によって前記遷移を
行うステップを含み、
前記構成構造は、オーディオフレームの拡張要素に含まれている、
方法。
【請求項11】
コンピュータプログラムがコンピュータ上で動作するとき
に、請求項10に記載の方法を実行するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願発明に係る実施例は、符号化オーディオ信号表現に基づく復号化オーディオ信号表現を供給するためのオーディオデコーダに関する。
【0002】
また、本願発明に係る実施例は、符号化オーディオ信号表現を供給するためのオーディオエンコーダに関する。
【0003】
また、本願発明に係る実施例は、復号化オーディオ信号表現を供給するための方法に関する。
【0004】
また、本願発明に係る実施例は、符号化オーディオ信号表現を供給するための方法に関する。
【0005】
また、本願発明に係る実施例は、オーディオストリームに関する。
【0006】
また、本願発明に係る実施例は、オーディオストリーム供給器に関する。
【0007】
また、本願発明に係る実施例は、方法の1つを実行するためのコンピュータプログラムに関する。
【背景技術】
【0008】
以下では、本願発明の態様の根底にある問題および本願発明による実施形態の可能な使用シナリオについて説明する。
【0009】
符号化オーディオフレームの異なるオーディオストリーム間または異なるシーケンスの間に遷移がある状況が存在する。例えば、オーディオフレームの異なるシーケンスは異なるオーディオコンテンツを含むことができ、それらの間で遷移が行われるべきである。
【0010】
例えば、MPEG- D USAC(ISO/IEC 23003- 3+Amd.1+Amd.2+Amd.3)が適応ストリーミングを使用するケースで使用されるとき、いわゆる適応セット(例えば、ユーザが切替えることができる2つ以上のストリームをグループ化することができる)内の2つのストリームがたとい、それらのビットレートが異なっていても、全く同一の構成構造を有するという状況が起こり得る。これは、例えば、エンコーダが両方のビットレートに対して全く同じエンコードツールセットを使用してエンコーダを操作することを選択した場合に発生する可能性がある。
【0011】
例えば、オーディオエンコーダは、同じ基本的な符号化設定(これもまたオーディオデコーダに通知される)を使用することができるが、それでもオーディオ値の異なる表現を供給することができる。例えば、オーディオエンコーダはスペクトル値のより粗い量子化を使用することができ、これは、基本的なエンコーダ設定またはデコーダ設定が変更されないままであるが、より低いビットレートを達成することが望まれる場合、より小さなビット要求をもたらす。
【0012】
しかしながら、これ(例えば、適応セット内の2つのストリームがそれらのビットレートが異なっていても全く同一の構成構造を有する状況の発生)はそれ自体で問題ではない。
【0013】
しかしながら、適応ストリーミングを使用する場合では、デコーダは、その後に受信されたアクセスユニット(または"フレーム")が同じストリームに由来するかどうか、またはストリームの変更が発生したかどうかを知るべきである、ということが分かった。
【0014】
ストリームの変化が検出された場合、オーディオデコーダは、場合によっては、以下のことを保証する特定の一連の動作ステップを実行することが分かっている。
・1つのデコーダインスタンスが適切にシャットダウンされ、一時的に内部に保存されたデコード済み信号部分がデコーダ出力に送信される。-"フラッシング"と呼ばれるプロセス
・デコーダは、変更されたストリームに関連付けられている設定情報を使用して、自分自身を再度インスタンス化して再設定する。
・デコーダは、即時再生フレーム(IPF)でピギーバックされる埋め込みアクセスユニットを"プリロール"する。アクセスユニットのこのプレローリングは、デコーダを完全に初期化された状態にし、その結果、最初のフレームをデコードすることからの出力は、完全に準拠したデコードされたオーディオ信号をもたらす。
・オプションで、例えば対応するビットストリームシグナリング要素に応じて、デコーダフラッシングプロセスからのオーディオ出力と再構成されたデコーダの第1のアクセスユニットをデコードすることからの出力とが非常に短い期間にわたってクロスフェードされる。
【0015】
例えば、1つのストリームの復号化オーディオから別のストリームの復号化オーディオへの"シームレスな"遷移を得るという唯一の目的を達成するために、上記のステップのすべてを実行することができる。"シームレス"は、可聴アーチファクトやストリームトランジション自体からのグリッチがないことを意味する。実際には、ストリームの遷移は知覚的に目立つ可能性がある。これは、-例えば-全体的な符号化品質またはオーディオ帯域幅や音質の変動が原因である。しかしながら、遷移の実際の時点(時間内の)は、それ自体では聴覚的印象を引起こさない。換言すれば、遷移点に"クリック"や"ノイズバースト"などの邪魔な音は存在しない。
【0016】
ストリーム変化が生じたかどうかの情報は、即時再生フレームに埋込まれた構成構造を分析し、それを現在デコードされているストリームの構成と比較することから得られることが分かった。例えば、オーディオデコーダは、受信した構成が現在の構成と異なる場合に限り、ストリームの変更を想定することができる。
【0017】
例えば、デコーダがさまざまなビットレートでストリームの即時再生フレーム(IPF)を受信すると、オーディオプレロール拡張ペイロードの存在を検出し、設定構造を抽出して、この新しい設定と現在の設定とを比較するであろう。詳細については、ISO/IEC 23003-3:2012/Amd.3の小節「ビットレート適応」も参照されたい。
【0018】
しかしながら、現在および新規の両方の構成構造が同一である場合、デコーダは、それが以前とは異なるストリームからアクセスユニットを受信していることを認識することができず、したがってデコーダを再構成せず、IPFの拡張ペイロードにあるオーディオプリロールもデコードしない。
【0019】
代わりに、デコーダはあたかもそれが前のアクティブなストリームから継続的なアクセスユニットを受信したかのようにデコードし続けようと試みるであろう。これは(例えば、streamIDが使用または評価されていない従来の場合)、最後の復号化フレームと新しいストリームの新しいフレームのウィンドウ境界および符号化モードが対応しないというありそうな状況につながり、クリック音やノイズバーストなどの可聴アーチファクトの発生をもたらす。これは、IPFの主な目的と、ストリーム間のシームレスな遷移の概念に基づく適応型オーディオストリーミングのアイデアを妨害するであろう。
【0020】
以下では、いくつかの従来の手法について説明する。
【0021】
音声音響統合符号化(USAC)の場合、既知の解決策は存在しない点に留意すべきである。
【0022】
MPEG-H 3Dオーディオ(ISO/IEC 23008- 3+すべての改訂)において、オーディオデータがMPEG- Hオーディオストリーム("MHAS")パケット化ストリームフォーマットによって送信される場合、問題は解決され得る。MHASパッケージには、ストリーム間で異なる可能性があるパケットラベルが含まれているため、構成を区別する目的を果たすことができる。但し、MHAS形式はMPEG-D USACには規定されていない。
【0023】
MPEG- 4 HE- AAC(ISO/IEC 14496- 3+すべての改訂)では、潜在的な遷移点(いわゆるストリームアクセスポイント(SAP))ですべてのストリームが同一のウィンドウ形状およびウィンドウシーケンス、ならびに使用される信号処理ツールに関するさらなる制約を有することを保証することをエンコーダに要求する回避策がある。これは、オーディオ品質に悪影響を及ぼす可能性がある。上記のIPFは、これらすべての制約から新しいコーデックを解放するように設計されている。
【0024】
結論として、異なるオーディオストリーム間の切替えを可能にし、オーバーヘッドの量と実装の容易さとの間の改善された妥協点を提供する概念に対する要求がある。
【発明の概要】
【発明が解決しようとする課題】
【0025】
本願発明による実施形態は、符号化オーディオ信号表現に基づいて復号化オーディオ信号表現を供給するためのオーディオデコーダを作成する。オーディオデコーダは、構成情報に応じて復号化パラメータを調整するように構成される。オーディオデコーダは、現在の構成を使用して(例えば、現在アクティブな構成情報を使用して)1つ以上のオーディオフレームをデコードするように構成される。さらに、デコードされるべき1つ以上のフレームに関連付けられた構成構造内の構成情報またはデコードされるべき1つ以上のフレームに関連付けられた構成構造内の構成情報の関連部分(たとえば、ストリーム識別子までおよびストリーム識別子を含んで)が現在の構成情報とは異なる場合、オーディオデコーダは、デコードされるべき1つ以上のフレームに関連付けられた構成構造内の構成情報を現在の構成情報と比較し、新しい構成情報としてデコードされるべき1つ以上のフレームに関連付けられた構成構造内の構成情報を使用してデコードを実行するように遷移するように構成されている。オーディオデコーダは、オーディオデコーダによって以前に取得されたストリーム識別子と、デコードされるべき1つ以上のフレームに関連付けられている構成構造内のストリーム識別子情報によって表されるストリーム識別子との相違が、遷移を発生するように、構成情報を比較するときに構成構造に含まれるストリーム識別子情報を考慮するように構成されている。
【0026】
本願発明によるこの実施形態は、構成構造に含まれるストリーム識別子情報の存在および評価により、オーディオデコーダの側で異なるストリームの区別が可能になり、その結果、実際の復号化構成(例えば、構成構造内の残りの構成情報で記述できる)が両方のストリームで同一である場合でも、遷移の実行が可能になる、というアイデアに基づく。従って、ストリーム識別子は、遷移を行うことができる異なるストリームを区別するための基準として使用できる。ストリーム識別子情報は構成構造に含まれているため(例えば、オーディオデコーダのデコードパラメータを調整する他の構成情報とともに)、遷移を行うかどうかを決定するときに、異なるプロトコルレイヤからの情報を評価する必要はない。例えば、ストリーム識別子情報は、パケットレベルから実際のオーディオデコーダに情報を転送する必要がないように、デコードパラメータ("構成構造")を定義するデータ構造のサブデータ構造に含まれている。構成構造にストリーム識別子情報を含めることにより、オーディオデコーダは第1のストリームから第2のストリームへの遷移を認識できるが、単一ストリームの連続部分をデコードするときにデコードパラメータに影響を与えず、異なるストリームで同じデコードパラメータが使用されている状況でも、異なるプロトコルレベルからの情報にアクセスすることなく、オーディオデコーダ側で異なるストリーム間の切替えを認識できる。また、異なるストリーム間の切替えが許容される位置で、異なるストリームで同一の復号化パラメータを使用する必要はない。
【0027】
結論として、独立請求項1によって定義される概念は、遷移時に特定の符号化/復号化設定(例えば、ウィンドウの選択など)を強制する必要性を回避しながら、適度な実装複雑さ(例えば、異なるプロトコルレベルから専用のシグナリング情報を抽出し、それをオーディオデコーダに転送することなく)で異なるストリーム間の切替えの認識を可能にする。従って、過度のオーバーヘッドおよびオーディオ品質の低下も回避することができる。
【0028】
好ましい実施形態では、オーディオデコーダは、構成構造がストリーム識別子情報を含むかどうかをチェックし、ストリーム識別子情報が構成構造に含まれる場合、比較におい
てストリーム識別子情報を選択的に考慮するように構成される。従って、各構成構造にストリーム識別子情報を含める必要はない。むしろ、異なるストリーム間の切替えの可能性が必要とされないオーディオフレームの構成構造においてストリーム識別子を省略することが可能である。従って、いくつかのビットを節約することができ、ストリーム識別情報の評価は、異なるストリーム間の切替えが許容できない点で回避することができる。
【0029】
好ましい実施形態では、オーディオデコーダは、構成構造が構成拡張構造を含むかどうかをチェックし、構成拡張構造がストリーム識別子を含むかどうかをチェックするように構成される。オーディオデコーダは、ストリーム識別子情報が構成拡張構造に含まれる場合、比較においてストリーム識別子情報を選択的に考慮するように構成され得る。
【0030】
従って、ストリーム識別子は、その存在がオプションである構成拡張構造内に配置することができ、ストリーム識別子情報の存在は、構成拡張構造が存在していてもオプションと見なすことさえできる。従って、オーディオデコーダは、ストリーム識別子情報が存在するか否かを柔軟に認識することができ、オーディオエンコーダに不要な情報が含まれることを回避することができる。アクティブ化および非アクティブ化が可能なデータ構造にストリーム識別子を配置すると(たとえば、構成構造の固定(常に存在する)部分にあるフラグによって)、ストリーム識別子情報が必要ない場合は、ビットを節約しながら、ストリーム識別子情報を必要な場所に正確に配置できる。ストリーム間の切替えは通常指定された時間にのみ可能であるため、構成構造がある各フレームがストリーム識別子情報も含む必要はないので、これは有利である。
【0031】
好ましい実施形態では、オーディオデコーダは、構成拡張構造内の構成情報アイテムの可変順序付けを受入れるように構成される。例えば、復号化されるべき1つ以上のフレームに関連する構成構造内の構成情報を現在の構成情報と比較するとき、オーディオデコーダは、ストリーム識別子情報の前(例えば、"streamID"という名前のアイテムの前)(例えば、ストリーム識別子情報と同様に)に、構成拡張構造内に配置された構成情報アイテム(例えば、構成拡張)を考慮するように構成される。さらに、オーディオデコーダは、デコードされるべき1つ以上のフレームに関連付けられた構成構造内の構成情報を現在の構成情報と比較するときにストリーム識別子情報が考慮されない後に、構成拡張構造(例えば、"UsacConfigExtension()")内に配置された構成情報アイテム(例えば構成拡張)を残すように構成され得る。
【0032】
そのような概念を使用することによって、異なるストリーム間の遷移の検出を非常に柔軟な方法で行うことができる。例えば、オーディオストリームの「重要な」変更を示すそのようなすべての構成情報アイテムは、これらのパラメータの変更があるストリームから別のストリームへの遷移を引起こすように、ストリーム識別子情報の前に構成拡張構造に配置することができる。一方、復号化されるべき1つ以上のフレームに関連する構成構造内の情報を現在の構成情報と比較するときにいくつかの構成情報アイテムを考慮せずに残すことによって、"遷移"、すなわち1つのストリームから再初期化とつながり得る別のストリームへの切替えをトリガすることなく、オーディオデコーダの"従属"構成パラメータを変更することが可能である。換言すれば、比較において、ストリーム識別情報の前の構成拡張構造内に配置された構成情報アイテムとストリーム識別情報それ自体を評価することのみによって、"従属"復号化パラメータの変更が"遷移"を引起こすことを回避できる。むしろ、オーディオエンコーダが、そのような"従属"構成情報アイテム(従属復号化パラメータに関連する)を構成拡張構造内のストリーム識別子情報の後に配置することが可能である。それから、オーディオエンコーダは、各変更で"遷移"(または再初期化)をトリガすることなく、ストリーム内のそのような"従属"構成情報アイテムを変更することができる。他方、構成拡張構造内のストリーム識別子情報の前にストリーム中に変更されずに残る構成情報アイテム、およびそのような"関連性の高い"構成情報アイテムの変更(例えば、オーディオストリームの"著しい"変化を示し得る)は、"遷移"(および
典型的にはオーディオデコーダの再初期化)をもたらすであろう。オーディオデコーダは構成拡張構造内の構成情報アイテムの可変順序付けも受入れることができるので、オーディオエンコーダは、信号特性または他の基準に応じて、どの構成情報アイテムの変化がオーディオデコーダの"遷移"または再初期化を引起こすかおよびどの構成情報アイテムの変化がオーディオデコーダの"遷移"または再初期化を引起こすことなく、ストリーム内で可能であるかを決定することができる。
【0033】
好ましい実施形態では、オーディオデコーダは、それぞれの構成情報アイテムに先行する1つ以上の構成拡張タイプ識別子に基づいて構成拡張構造内の1つ以上の構成情報アイテムを識別するように構成される。そのような構成拡張タイプ識別子を使用することで構成情報アイテムの可変順序付けが可能になる。
【0034】
好ましい実施形態では、構成拡張構造は構成構造のサブデータ構造であり、構成拡張構造の存在は、オーディオデコーダによって評価される構成構造のビットによって示される。ストリーム識別子情報は構成拡張構造のサブデータアイテムであり、ストリーム識別子情報の存在は、オーディオデコーダによって評価されるストリーム識別子情報に関連付けられた構成拡張タイプ識別子によって示される。従って、いつストリーム識別子情報をオーディオストリームに追加すべきかを柔軟に決定することが可能であり、オーディオデコーダは、そのようなストリーム識別子情報がいつ利用可能であるかを容易に決定することができる。従って、異なるストリーム間の切替えがあり得る点にオーディオストリームのストリーム識別子情報(これは多数のビットを必要とする)を含めるのに十分である。連続するオーディオストリーム内の即時再生フレーム(IPF)は、異なるストリーム間で切り替える可能性が存在しない位置で、ストリーム識別子情報を伝える必要がないため、ビットレートが節約される。
【0035】
好ましい実施形態では、オーディオデコーダは、ランダムアクセス情報(例えば、"AudioPreRoll()"とも示される"オーディオプリロール拡張ペイロード")を含むオーディオフレーム表現(例えば、即時再生フレーム、IPF)を取得し処理するように構成される。ランダムアクセス情報は、オーディオデコーダの処理チェーンの状態を所望の状態にするための構成構造(例えば、" Config()"と示される)および情報(例えば" AccessUnit()"と示される)を含む。オーディオデコーダは、オーディオデコーダが、ランダムアクセス情報の構成構造と(たとえば、"Config()")内の構成情報、またはランダムアクセス情報の構成構造の構成情報の関連部分が現在の構成情報とは異なることを検出した場合、オーディオデコーダは、ランダムアクセス情報の構成構造を使用してオーディオデコーダの初期化を行った後および処理チェーンの状態を所望の状態にするための情報を使用してオーディオデコーダの状態を調整した後に、ランダムアクセス情報(例えば直接再生フレーム,IPF)を含むオーディオフレーム表現に達する前に処理された(復号化された)オーディオフレームによって表現されたオーディオ情報およびランダムアクセス情報を含むオーディオフレーム表現に基づいて導出されたオーディオ情報の間でクロスフェードを行うように構成される。例えば、値"numPreRollFrames"がゼロの場合、プリロールフレームのデコードは省略できる。
【0036】
換言すれば、構成構造内の構成情報、またはその関連部分(例えば、ストリーム識別子情報までおよびストリーム識別子を含んで)を評価することによって、オーディオデコーダは、異なるストリーム間に遷移があるかどうかを認識することができ、そして、異なるストリーム間に遷移がある場合、オーディオデコーダはランダムアクセス情報を利用することができる。ランダムアクセス情報は、オーディオデコーダの処理チェーンを適切な状態(通常、遷移がない場合、1つ以上の前のフレームによって影響を受ける)にすることを助け、それによって遷移におけるアーチファクトを回避することができる。結論として、この概念は、異なるストリーム間のアーチファクトのない切替えを可能にし、オーディオデコーダは、一連のフレーム表現を除いて、異なるプロトコルレベルからのいかなる情報をも必要としない。
【0037】
好ましい実施形態では、オーディオデコーダが、ランダムアクセス情報を含むオーディオフレーム表現によって表されるオーディオフレームの直前のオーディオフレーム(例えば、即時再生フレーム)をデコードした場合、およびオーディオデコーダが、ランダムアクセス情報の構成構造における構成情報の関連部分が、現在の構成情報と等しい場合、オーディオデコーダは、オーディオデコーダの初期化を実行することなく、かつオーディオデコーダの処理チェーンの状態を所望の状態にするための情報(例えば、プリロール拡張ペイロード)を使用することなくデコードを継続するように構成される。従って、オーディオデコーダが、構成構造内の構成情報の関連部分を現在の構成情報と比較することによって、異なるストリーム間の遷移ではなく同じストリームの連続的な再生があることを認識すると、オーディオデコーダの初期化の実行によって引起こされるであろうオーバーヘッド(例えば、処理オーバーヘッドまたは計算オーバーヘッド)が回避される。従って、高レベルの効率が達成され、オーディオデコーダの初期化はそれが必要とされるときにのみ実行される。
【0038】
好ましい実施形態では、オーディオデコーダは、ランダムアクセス情報の構成構造を使用してオーディオデコーダの初期化を実行し、ランダムアクセス情報を含むオーディオフレーム表現によって表されるオーディオフレームの直前のオーディオフレームをオーディオデコーダがデコードを行っていない場合、処理チェーンの状態を所望の状態にするための情報を使用してオーディオデコーダの状態を調整するように構成される。換言すれば、実際の"ランダムアクセス"(ここで、オーディオデコーダは先行するオーディオフレームがデコードされていないことを知っている)がある場合、初期化も実行される。従って、ランダムアクセス情報は、実際の"ランダムアクセス"の場合(すなわち、特定のフレームにジャンプするとき)および異なるストリーム間で切替えるとき("実際の"ランダムアクセスがオーディオデコーダにシグナリングされ得る場合、および異なるストリーム間の切替えが、ストリーム識別子情報の評価によりオーディオデコーダによってのみ認識可能であり得る場合)に使用される。
【0039】
本明細書で説明したオーディオデコーダは、本明細書で説明した特徴、機能性および詳細のいずれかの個々または組合せのいずれかによってオプションで追加できることに留意すべきである。
【0040】
本願発明による実施形態は、符号化音声信号表現を供給するためのオーディオエンコーダを作成する。オーディオエンコーダは、符号化パラメータを使用してオーディオ信号の重畳または非重畳フレームを符号化し、符号化オーディオ信号表現を取得するように構成される。オーディオエンコーダは、符号化パラメータ(または、同様に、オーディオデコーダによって使用される復号化パラメータ)を記述する構成構造を供給するように構成される。構成構造はまた、ストリーム識別子を含む。
【0041】
従って、オーディオエンコーダは、上述のオーディオデコーダによって十分に使用可能なオーディオ信号表現を供給する。例えば、オーディオエンコーダは、異なるストリームの構成構造に異なるストリーム識別子を含めることができる。従って、ストリーム識別子は、オーディオデコーダによって使用されるべきデコーダ構成(またはデコードパラメータ)を記述せず、むしろストリームを識別する情報であり得る。従って、符号化オーディオ信号表現はストリーム識別子を含み、異なるプロトコルレベルからの情報を必要とせずに、符号化オーディオ信号情報自体に基づいて異なるストリームの識別が可能である。例えば、ストリーム識別子情報はオーディオ信号表現、またはオーディオ信号表現内に含まれる構成構造の不可欠な部分であるため、パケットレベルで供給される情報の使用は必要ではない。その結果、本明細書で論じられるように、オーディオデコーダは、デコーダの実際の構成パラメータが変更されないままであっても、異なるストリーム間の切替えを認識することができる。
【0042】
好ましい実施形態では、オーディオエンコーダは、構成構造の構成拡張構造にストリーム識別子を含めるように構成され、ストリーム識別子を含む構成拡張構造は、オーディオエンコーダによってイネーブルおよびディセーブルにすることができる。従って、オーディオエンコーダ側で、ストリーム識別子情報を含めるべきか否かを柔軟に決定することができる。例えば、ストリーム識別子情報の包含は、オーディオエンコーダがストリーム切替えが存在しないことを知っているオーディオフレームについては選択的に省略され得る。
【0043】
好ましい実施形態では、オーディオエンコーダは、構成拡張構造内にストリーム識別子の存在を知らせるために、構成拡張構造にストリーム識別子を指定する構成拡張タイプ識別子を含めるように構成される。従って、構成拡張構造内に他の構成拡張情報が存在する場合、ストリーム識別子情報を省略することさえ可能である。換言すれば、すべての構成拡張構造が必ずしもストリーム識別子を含む必要があるわけではなく、ビットを節約するのに役立つ。
【0044】
好ましい実施形態では、オーディオエンコーダは、ストリーム識別子を含む少なくとも1つの構成構造と、ストリーム識別子を含まない少なくとも1つの構成構造とを供給するように構成される。従って、オーディオエンコーダがこれが必要であると認識した場合、ストリーム識別子は構成構造に含まれるだけである。例えば、オーディオエンコーダは、ストリーム識別子をストリーム間の切替えが可能であるフレームの構成構造に含めるだけでよい。そうすることによって、ビットレートをかなり小さく保つことができる。
【0045】
好ましい実施形態では、オーディオエンコーダは、第1のオーディオフレームのシーケンスによって表される第1の符号化オーディオ情報の供給と、第2のフレームのシーケンスによって表される第2の符号化オーディオ情報の供給との間で切替えるように構成され、ここで、オーディオフレームの第1のシーケンスの最後のフレームのレンダリングの後のオーディオフレームの第2のシーケンスの最初のオーディオフレームの適切なレンダリングは、オーディオデコーダの再初期化を必要とする。この場合、オーディオエンコーダは、第2のオーディオフレームのシーケンスの最初のオーディオフレームを表すオーディオフレーム表現に、第2のオーディオフレームのシーケンスに関連するストリーム識別子を含む構成構造を含めるように構成される。オーディオフレームの第2のシーケンスに関連付けられたストリーム識別子は、フレームの第1のシーケンスに関連付けられたストリーム識別子とは異なるように選択される。従って、オーディオエンコーダは、構成構造内で、オーディオデコーダが異なるストリームを区別し、再初期化(「遷移」とも呼ばれる)がいつ実行されるべきかを認識することを可能にするシグナリングを供給することができる。
【0046】
好ましい実施形態では、オーディオエンコーダは、ストリーム識別子を除いて、オーディオフレームの第1のシーケンスからオーディオフレームの第2のシーケンスへの切替えを示す他のいかなるシグナリング情報も供給しない。従って、ビットレートをかなり小さく保つことができる。特に、シグナリングが符号化オーディオ情報以外の異なるプロトコルレベルに含まれることを回避することができる。さらに、オーディオエンコーダは、オーディオフレームの第1のシーケンスからオーディオフレームの第2のシーケンスへの切替えが実際にいつ行われるかは事前には知らない。例えば、オーディオデコーダは、最初にオーディオフレームの第1のシーケンスからオーディオフレームを要求し、オーディオデコーダが何らかの必要性を認識したとき(例えば、利用可能なビットレートの増減があるとき)、オーディオデコーダ(又はオーディオフレームの供給を制御する他の制御装置)は、第2のストリームからのオーディオフレームがオーディオデコーダによって処理されるべきであると決定することができる。しかしながら、場合によっては、オーディオデコーダは、いつ(または正確にいつ)第1のシーケンスからのオーディオフレームの供給と第2のシーケンスからのオーディオフレームの供給との間の切替えがあるかをそれ自体で知らないことが起こり得て、構成構造に含まれるストリーム識別子を評価することによって、現在受信しているオーディオフレームがどのシーケンスのオーディオフレームから発生したかを認識することのみが可能であろう。
【0047】
好ましい実施形態では、オーディオエンコーダは、異なるビットレートを使用してオーディオフレームの第1のシーケンス(たとえば第1のストリーム)およびオーディオフレームの第2のシーケンス(たとえば第2のストリーム)を供給するように構成される(但し、第1のストリームと第2のストリームとは同じオーディオコンテンツを表すことができる)。さらに、オーディオエンコーダは、異なるビットストリーム識別子を除いて、オーディオフレームの第1のシーケンスの復号化およびオーディオフレームの第2のシーケンスの復号化のために同一のデコーダ構成情報をオーディオデコーダに示すように構成され得る。換言すれば、オーディオエンコーダは、同じデコーダパラメータを使用するようにオーディオデコーダに示し得るが、第1のストリームおよび第2のストリームは、依然異なるビットレートを含み得る。これは、例えば、第1のオーディオストリームと第2のオーディオストリームとを供給するときに、異なる量子化分解能または異なる心理音響モデルを使用することによって引起こされ得る。しかしながら、これらの異なる量子化分解能または異なる音響心理学的モデルは、オーディオデコーダによって使用される復号化パラメータに影響を与えず、実際のビットレートにのみ影響を与える。従って、異なるビットストリーム識別子は、復号化されるべきオーディオフレームが第1のストリームからのものであるか第2のストリームからのものであるかをオーディオデコーダが区別するための唯一の可能性であり得て、ビットストリーム識別子の評価は、オーディオデコーダが遷移(または再初期化)をいつ行うべきかを認識するのを可能とする。
【0048】
従って、オーディオエンコーダは、利用可能なビットレートの変化が起こり得て、シグナリングのオーバーヘッドが適度に小さく保たれ得る環境において機能し得る。
【0049】
さらに、本明細書で説明したオーディオエンコーダは、本明細書で説明した特徴、機能、および詳細のいずれかをオプションで追加できることに留意すべきである。
【0050】
本願発明による別の実施形態は、符号化オーディオ信号表現に基づいて復号化オーディオ信号表現を供給する方法に関する。方法は、構成情報に応じて復号化パラメータを調整することを含み、方法は、現在の構成情報(例えば、現在アクティブな構成情報)を使用して1つ以上のオーディオフレームを復号化することを含む。方法は、デコードされるべき1つ以上のフレームに関連付けられた構成構造内の構成情報を現在の構成情報と比較することを含み、かつ方法は、デコードされるべき1つ以上のフレームに関連付けられた構成構造内の構成情報またはデコードされるべき1つ以上のフレームに関連付けられた構成構造内の構成情報の関連部分(例えば、ストリーム識別子までおよびストリーム識別子を含む)が現在の構成情報と異なる場合、新しい構成としてデコードされるべき1つ以上のフレームに関連する構成構造内の構成情報を使用してデコードを実行するための遷移(例えば、デコードの再初期化を含む)を行うことを含む。この方法は、構成情報を比較するときに構成構造に含まれるストリーム識別子情報を考慮することも含んでおり、その結果、オーディオ復号化で以前に取得されたストリーム識別子と、デコードされるべき1つ以上のフレームと関連する構成構造内のストリーム識別子情報によって表されるストリーム識別子との相違が遷移を引起こす。この方法は、上述のオーディオデコーダと同じ考察に基づく。
【0051】
この方法は、本明細書に記載された任意の特徴および機能性および詳細を、個別にまたは組合せてのいずれかで追加することができる。
【0052】
本願発明による別の実施形態は、符号化オーディオ信号表現を供給する方法を作成する。この方法は、符号化パラメータを使用してオーディオ信号の重畳または非重畳フレームをエンコードすることを含んで、符号化オーディオ信号表現を取得する。方法は、符号化パラメータ(または、等価的に、オーディオデコーダによって使用される復号化パラメータ)を記述する構成構造を供給することを含み、構成構造はストリーム識別子を含む。この方法は、上述したようにオーディオエンコーダと同じ考慮に基づく。
【0053】
さらに、本明細書で説明された方法は、対応するオーディオデコーダおよびオーディオエンコーダに関して上記で説明された任意の特徴および機能を追加され得ることに留意すべきである。さらに、本方法は、本明細書に記載された任意の特徴、機能性および詳細を、個別にまたは組合せて追加することができる。
【0054】
本願発明による実施形態は、オーディオストリームを作成する。オーディオストリームは、オーディオ信号の重畳または非重畳フレームの符号化表現を含む。オーディオストリームはまた、符号化パラメータ(または、等価的に、オーディオデコーダによって使用される復号化パラメータ)を記述する構成構造を含む。構成構造は、ストリーム識別子を表す(例えば、整数値の形式で)ストリーム識別子情報を含む。
【0055】
オーディオストリームは、上記の考慮に基づく。特に、符号化パラメータ(または、同様に、オーディオデコーダによって使用される復号化パラメータ)を記述するオーディオストリームの構成構造に含まれるストリーム識別子は、同じ符号化パラメータ(または復号化パラメータ)が使用される場合、オーディオデコーダが異なるストリームを区別することを可能にする。
【0056】
好ましい実施形態では、ストリーム識別子情報は構成拡張構造に含まれる。この場合、構成拡張構造は、好ましくは、構成構造のサブデータ構造であり、構成拡張構造の存在は、構成構造のビットによって示される。さらに、ストリーム識別子情報は、構成拡張構造のサブデータアイテムであり、ストリーム識別子情報の存在は、ストリーム識別子情報に関連付けられた構成拡張タイプ識別子によって示される。そのようなオーディオストリームの使用は、それが必要とされるときはいつでもストリーム識別子情報の柔軟な包含を可能にし、一方、それが必要でない場合にはストリーム識別子情報の包含は省略できる(例えば、複数のストリーム間で切替えが許可されていないフレームの場合など)。従って、ビットレートを節約することができる。
【0057】
好ましい実施形態では、ストリーム識別子は、オーディオフレームの表現のサブデータ構造に埋込まれる(そしてそのようなサブデータ構造からオーディオデコーダによって抽出され得る)。オーディオフレームの表現のサブデータ構造にストリーム識別子を埋込むことによって、オーディオデコーダがより高いプロトコルレベルからの情報を使用しなければならないのを回避できる。むしろ、オーディオフレームをデコードするために、オーディオデコーダは、オーディオフレームの表現を必要とするだけであり、異なるストリーム間の切替えがあったかどうかを決定することができる。
【0058】
好ましい実施形態では、ストリーム識別子は、構成構造を含むオーディオフレームの表現のサブデータ構造に埋込まれるだけである(そして、構成構造を含むオーディオフレームの表現のサブデータ構造からオーディオデコーダによって抽出され得る)。このアイデアは、ストリーム間の切替え(顕著なアーチファクトなし)は、構成構造を含むフレームでしか実行できないという知見に基づいている。従って、構成構造を含むオーディオフレームの表現のサブデータ構造にストリーム識別子を埋込むことで十分である一方、構成構造を含まないオーディオフレームの表現に含まれるストリーム識別子は存在しないことが分かった。
【0059】
本明細書で説明されているオーディオストリームは、本明細書で説明されている任意の特徴、機能、および詳細を、個々にまたは組合せて追加することができる。特に、オーディオエンコーダ、オーディオデコーダ、およびストリーム供給器に関して説明されたそのような機能は、オーディオストリームにも適用することができる。
【0060】
本願発明による実施形態は、符号化オーディオ信号表現を供給するためのオーディオストリーム供給器を作成する。オーディオストリーム供給器は、符号化オーディオ信号表現の一部として、符号化パラメータを使用してエンコードされた、オーディオ信号の時間的に重畳するフレームまたは重畳しないフレームの符号化バージョンを供給するように構成される。オーディオストリーム供給器は、符号化オーディオ信号表現の一部として符号化パラメータ(または、同様に、オーディオデコーダによって使用される復号化パラメータ)を記述する構成構造を供給するように構成され、構成構造はストリーム識別子を含む。このオーディオストリーム供給器は、上述のオーディオエンコーダおよび上述のオーディオデコーダと同じ考察に基づいている。
【0061】
好ましい実施形態では、オーディオストリーム供給器は、ストリーム識別子が構成構造の構成拡張構造に含まれるように符号化オーディオ信号表現を供給するように構成され、ストリーム識別子を含む構成拡張構造は、構成構造内の1つ以上のビットによって有効化および無効化することができる。この実施形態は、オーディオエンコーダに関してもオーディオデコーダに関しても上述したのと同じアイデアに基づいている。換言すれば、オーディオストリーム供給器は、(たとえば並行して動作する複数のオーディオエンコーダによって供給される、またはストレージメディアから供給されるなど、異なるストリームの供給を切替えるように、オーディオストリーム供給器が構成されている場合でも)オーディオエンコーダによって供給されるオーディオストリームに対応するオーディオストリームを供給する。
【0062】
好ましい実施形態では、オーディオストリーム供給器は、構成拡張構造が、構成拡張構造内のストリーム識別子の存在を示すためにストリーム識別子を指定する構成拡張タイプ識別子を含むように、符号化オーディオ信号表現を供給するように構成される。この実施形態は、オーディオエンコーダおよびオーディオストリームに関して上述したものと同じ考察に基づいている。
【0063】
好ましい実施形態では、オーディオストリーム供給器は、符号化オーディオ信号表現がストリーム識別子を含む少なくとも1つの構成構造とストリーム識別子を含まない少なくとも1つの構成構造とを含むように、符号化オーディオ信号表現を供給するように構成される。上述のように、ストリーム識別子が各構成構造に含まれる必要はない。むしろ、どの構成構造にストリーム識別子を含めるべきかという柔軟な調整があり得る。典型的には、ストリーム識別子は、ストリーム間の切替えがある(またはストリーム間の切替えが予想されるかまたは許可される)ようなオーディオフレームの構成構造に含まれることになる。換言すれば、異なるストリーム識別子を除いて、同一の構成構造を含む異なるストリーム間の切替えは、ストリーム識別子が存在するフレームでストリーム供給器によってのみ実行されることになる。従って、(構成構造によって示される)復号化パラメータが実質的に同一または完全に同一でさえあっても、オーディオデコーダ(オーディオストリーム供給器から符号化音声表現を受信する)は異なるストリーム間の切替えを認識する可能性がある。
【0064】
好ましい実施形態では、オーディオストリーム供給器は、オーディオフレームの第1のシーケンスによって表される符号化オーディオ情報の第1の部分の供給と、オーディオフレームの第2のシーケンスによって表される符号化オーディオ情報の第2の部分の供給とで切替えるように構成され、オーディオフレームの第1のシーケンスの最後のフレームのレンダリング後にオーディオフレームの第2のシーケンスの第1のオーディオフレームを適切にレンダリングすることは、オーディオデコーダの再初期化を必要とする。オーディオストリーム供給器は、オーディオフレームの第2のシーケンスの第1のフレームを表すオーディオフレーム表現が、オーディオフレームの第2のシーケンスに関連するストリーム識別子を含む構成構造を含むように、符号化オーディオ信号表現を供給するように構成され、ここで、オーディオフレームの第2のシーケンスに関連付けられたストリーム識別子は、オーディオフレームの第1のシーケンスに関連付けられたストリーム識別子とは異なる。換言すれば、オーディオストリーム供給器は、関連する異なるストリーム識別子を有する2つのオーディオストリーム(オーディオフレームのシーケンス)を切替える。従って、オーディオデコーダは通常、オーディオフレームの第1のシーケンスに関連するストリーム識別子を(例えば、オーディオフレームの第1のシーケンスに関連する構成構造を評価することによって)知っており、オーディオデコーダは、オーディオフレームの第2のシーケンスの第1のフレームを受信するとき、オーディオデコーダは、オーディオフレームの第2のシーケンスに関連付けられたストリーム識別子を含む構成構造を評価することができ、ストリーム識別子(ストリームごとに異なる)の比較によって第1のストリームから第2のストリームへの切替えを認識することができる。従って、オーディオストリーム供給器は、第1のストリームからのオーディオフレームを供給し、次いで第2のストリームからのオーディオフレームの供給に切替え、切替え後に供給される第2のオーディオストリームの第1のフレームの構成構造内で適切なシグナリング情報、すなわちストリーム識別子を供給する。従って、異なるオーディオストリーム間の切替えをシグナリングするために追加のシグナリングを必要としない。
【0065】
好ましい実施形態では、オーディオストリーム供給器は、符号化オーディオ信号表現がストリーム識別子を除くオーディオフレームの第1のシーケンスからオーディオフレームの第2のシーケンスへの切替えを示す他のシグナリング情報を供給しないように、符号化オーディオ信号表現を供給するように構成される。従って、ビットレートの大幅な節約を達成することができる。また、異なるプロトコルレベルの情報を含み、オーディオデコーダ側で異なるプロトコルレベルからそのような情報を抽出する必要がないので、プロトコルの複雑さも小さく保たれる。
【0066】
好ましい実施形態では、オーディオストリーム供給器は、オーディオフレームの第1のシーケンス(たとえば第1のストリーム)およびオーディオフレームの第2のシーケンス(たとえば第2のストリーム)が異なるビットレートを使用してエンコードされるように、符号化オーディオ信号表現を供給するように構成される。さらに、オーディオストリーム供給器は、符号化オーディオ信号表現が、異なるビットストリーム識別子を除いて、オーディオフレームの第1のシーケンスを復号化するためのかつオーディオフレームの第2のシーケンスを復号化するためのデコーダ構成情報(またはデコーダパラメータ、または復号化パラメータ)と同一のオーディオデコーダに示すように符号化オーディオ信号表現を供給するように構成される。従って、オーディオストリーム供給器は、異なるストリーム(第1のストリームと第2のストリーム)に対して非常に類似した構成情報を供給し、それは、例えば、ビットストリーム識別子によってのみ異なる可能性がある。このシナリオでは、ビットストリーム識別子を使用すると、シグナリングオーバーヘッドを最小限に抑えながら、異なるビットストリームを確実に区別できるため、ビットストリーム識別子を使用することは特に有用である。
【0067】
好ましい実施形態では、オーディオストリーム供給器は、オーディオデコーダへのオーディオフレームの第1のシーケンス(例えば第1のストリーム)の供給とオーディオフレームの第2のシーケンス(例えば第2のストリーム)とを切替えるように構成され、オーディオフレームの第1のシーケンスとオーディオフレームの第2のシーケンスとは、異なるビットレートを使用して符号化される。オーディオストリーム供給器は、ランダムアクセス情報を含まないオーディオフレームでのシーケンス間の切替えを回避しながら、オーディオフレーム表現(例えば、即時再生フレーム、IPF)がランダムアクセス情報(例えば、オーディオプリロール拡張ペイロード、"AudioPreRoll()"を含むオーディオフレームにおいてオーディオフレームの第1のシーケンスの供給とオーディオフレームの第2のシーケンスの供給とを選択的に切替えるように構成される。オーディオストリーム供給器は、ストリーム識別子がオーディオフレームの第1のシーケンスからオーディオフレームの第2のシーケンスに切替わるときに供給されるオーディオフレームの構成構造に含まれるように、符号化オーディオ信号表現を供給するように構成される。例えば、オーディオフレームの第2のシーケンスの最初のフレームがストリーム識別子およびランダムアクセス情報をも有する構成構造を含むとき、オーディオストリーム供給器のそのような構成によって、オーディオフレームの第1のシーケンスからのフレームの供給とオーディオフレームの第2のシーケンスのフレームの供給との間の切替えのみがあることが保証される。その結果、オーディオデコーダは、異なるオーディオストリーム間の切替えを検出することができ、したがって、ランダムアクセス情報が評価されるべきであることを認識することができる(一方、ランダムアクセス情報は、異なるオーディオストリーム間の切替えがないときおよびオーディオデコーダが単一ストリームのオーディオフレームの連続したシーケンスがレンダリングされることを前提としているときに通常は評価されない。)。
【0068】
従って、異なるオーディオストリーム間で切替えるときにアーチファクトのない良好なオーディオ品質をそのような概念によって達成することができる。
【0069】
さらなる実施形態では、オーディオストリーム供給器は、異なるビットレートを使用して符号化されたオーディオフレームの複数の並列シーケンスを取得するように構成され、オーディオストリーム供給器は、異なる並列シーケンスからのオーディオデコーダへのフレームの供給を切替えるように構成され、オーディオストリーム供給器は、切替え後に供給される最初のオーディオフレーム表現の構成構造に含まれるストリーム識別子を使用して、どのシーケンスに1つ以上のフレームが関連付けられるかをオーディオデコーダに示すように構成される。従って、オーディオデコーダは、わずかなオーバーヘッドで、他のプロトコル層からの情報を使用することなく、異なるストリーム間の遷移を認識することができる。
【0070】
本明細書で説明したオーディオストリーム供給器は、本明細書で説明した特徴、機能および詳細のいずれかを個々にまたは組合せて追加することができることに留意すべきである。
【0071】
本願発明による別の実施形態は、符号化オーディオ信号表現を供給する方法を作成する。方法は、符号化されたオーディオ信号表現の一部として、符号化パラメータを使用して符号化された、オーディオ信号のオーバーラップまたは非オーバーラップフレームの符号化バージョンを供給することを含む。方法は、符号化オーディオ信号表現の一部として符号化パラメータ(または、等価的に、オーディオデコーダによって使用される復号化パラメータ)を記述する構成構造を供給することを含み、構成構造はストリーム識別子を含む。
【0072】
この方法は、上述したストリーム供給器と同じ考慮に基づいている。この方法は、例えばストリーム供給器に関してではなく、オーディオエンコーダ、オーディオデコーダまた
はオーディオストリームに関しても、本明細書に記載されている他の任意の特徴、機能および詳細を追加することができる。
【0073】
本願発明による別の実施形態は、本明細書に記載の方法を実行するためのコンピュータプログラムを作成する。
【図面の簡単な説明】
【0074】
本願発明による実施形態は、添付の図面を参照して後述される。
【0075】
【
図1】
図1は、本願発明の(簡単な)実施形態による、オーディオデコーダの概略ブロック図を示す。
【
図2A】
図2Aは、本願発明の一実施形態による、オーディオデコーダのブロック概略図を示す。
【
図2B】
図2Bは、本願発明の一実施形態による、オーディオデコーダのブロック概略図を示す。
【
図3】
図3は、本願発明の(簡単な)実施形態によるオーディオエンコーダのブロック概略図を示す。
【
図4】
図4は、本願発明の(簡単な)実施形態によるオーディオストリーム供給器の概略ブロック図を示す。
【
図5】
図5は、本願発明の一実施形態によるオーディオストリーム供給器のブロック概略図を示す。
【
図6】
図6は、本願発明の一実施形態による、ランダムアクセスを可能にし、構成拡張部分内にストリーム識別子を有する構成部分を含むオーディオフレームの表現を示す図である。
【
図7】
図7は、本願発明の一実施形態による、オーディオストリームの一例の表現を示す図である。
【
図8】
図8は、本願発明の一実施形態による、例示的なオーディオストリームの表現を示す図である。
【
図9】
図9は、本明細書に記載のオーディオデコーダの可能なデコーダ機能の概略表現を示す図である。
【
図10a】
図10aは、本明細書に記載のオーディオエンコーダおよびオーディオデコーダによって使用される構成構造の一例の表現を示す図である。
【
図10b】
図10bは、本明細書に記載のオーディオエンコーダおよびオーディオデコーダによって使用される構成拡張構造の一例の表現を示す図である。
【
図10c】
図10cは、ストリーム識別子ビットストリーム要素の一例の表現を示す図である。
【
図10d】
図10dは、USAC規格のテーブル74をオプションで置き換えることができる"usacConfigExtType"の値の一例を示す図である。
【
図11a】
図11aは、本願発明の実施形態による、符号化オーディオ信号表現に基づいて復号化オーディオ信号表現を供給する方法のフローチャートを示す図である。
【
図11b】
図11bは、本願発明の実施形態による、符号化オーディオ信号表現を供給する方法のフローチャートを示す図である。
【
図11c】
図11cは、本願発明の実施形態による、符号化オーディオ信号表現を供給する方法のフローチャートを示す図である。
【発明を実施するための形態】
【0076】
1.
図1に係るオーディオデコーダ
図1は、本願発明の(簡単な)実施形態による、オーディオデコーダの概略ブロック図を示す。
【0077】
オーディオデコーダ100は、符号化オーディオ信号表現110を受取り、それに基づいて、復号化オーディオ信号表現112を供給する。例えば、符号化オーディオ信号表現110は、一連の統合音声音響符号化(USAC)フレームを含むオーディオストリームとすることができる。しかしながら、符号化オーディオ信号表現は異なる形式をとることができ、例えば、既知のオーディオ符号化規格のいずれかのビットストリームシンタックスによって定義されたオーディオ表現とすることができる。エンコードされたオーディオ信号表現は、例えば、構成構造に含まれることができ、かつ例えばストリーム識別子を含むことができる構成情報110を含むことができる。ストリーム識別子は、例えば、構成情報または構成構造に含まれてもよい。構成情報または構成構造は、例えば、デコードされるべき1つ以上のフレームに関連付けられてもよく、例えば、オーディオデコーダによって使用される復号化パラメータを記述してもよい。
【0078】
ここで、デコーダ100は、例えば、現在の構成情報を使用して1つ以上のオーディオフレームをデコードするように構成され得る(現在の構成情報は、例えば復号化パラメータを定義し得る)デコーダコア130を含み得る。オーディオデコーダは、構成情報110aに応じて復号化パラメータを調整するようにも構成される。オーディオデコーダは、構成情報110aに応じて復号化パラメータを調整するようにも構成される。
【0079】
例えば、オーディオデコーダは、復号化される1つ以上のフレームに関連する構成構造内の構成情報を現在の構成情報(たとえば、1つ以上の以前にデコードされたフレームのデコードに使用される構成情報)と比較するように構成される。さらに、デコードされるべき1つ以上のフレームに関連付けられた構成構造内の構成情報、またはデコードされるべき1つ以上のフレームに関連付けられた構成構造内の構成情報の関連部分が現在の構成情報と異なる場合、オーディオデコーダは、新しい構成情報としてデコードされる1つ以上のフレームに関連付けられた構成構造内の構成情報を使用して復号化を実行するように遷移するように構成され得る。"遷移"を行うとき、オーディオデコーダは、例えば、ランダムアクセス情報を使用してデコーダコア130を再初期化でき、ランダムアクセス情報は、"遷移"の後のオーディオフレーム(または最初のオーディオフレーム)を適切にデコードするために使用されるべきデコーダコアの状態を記述することを意図している。
【0080】
特に、オーディオデコーダは、オーディオデコーダによって以前に取得されたストリーム識別子と、デコードされるべき1つ以上のフレームに関連付けられた構成構造内のストリーム識別子情報によって表されるストリーム識別子との違いが遷移を引起こすように、構成情報を比較するとき(つまり、現在の構成情報でデコードされるべき1つ以上のフレームに関連付けられている構成構造内の構成情報を比較するとき)に、構成構造に(つまり、構成情報内に)含まれるストリーム識別子を考慮するように構成されている。
【0081】
換言すれば、オーディオデコーダは、例えば、140で指定され得る現在の構成(または現在の構成情報)のためのメモリを含み得る。オーディオデコーダ100は、ストリーム識別子を含む現在の構成情報の少なくとも関連する部分を、ストリーム識別子を含む、デコードされる次の(オーディオ)フレームと関連する構成情報の対応する部分と比較することができる比較器(または比較を実行する任意の他の手段)150も含むことができる。関連部分は、例えば、ストリーム識別子までおよびストリーム識別子を含む部分であり、いくつかの実施形態では、構成情報を表すビットストリーム内のストリーム識別子の後の構成情報は無視され得る。
【0082】
比較器150によって実行され得るこの比較が、現在の構成情報(またはその関連部分)と次にデコードされる(オーディオ)フレーム(またはその関連部分)に関連する構成情報との間の相違を示す場合、"遷移"がなされるべきであると認識されるかもしれない。
【0083】
遷移を行うことは、例えば、デコードされるべき次の(オーディオ)フレームに関連する構成情報によって記述された復号化パラメータが現在の構成情報(ここで、復号化されるべき次のオーディオフレームに関連する構成情報は、ストリーム識別子が異なるという点で現在の構成情報と異なるだけである)によって記述されたデコーダ構成(復号化パラメータ)と同一である場合でも、デコーダコアを再初期化することを含み得る。一方、例えば異なる復号化パラメータを定義することによって、デコードされるべき次のオーディオフレームに関連する構成情報が現在の構成情報とさらに異なる場合、オーディオデコーダ100は、デコーダコア130を再初期化し復号化パラメータを変更することを通常意味する"遷移"も当然行う。
【0084】
結論として、
図1に係るオーディオデコーダ100は、デコーダコア130によって使用される復号化パラメータが、オーディオフレームの構成構造に含まれるストリーム識別子を評価することによって不変のままであっても、異なるオーディオストリームのフレーム間の遷移を認識することができ、これは、オーディオストリーム間の遷移および/またはデコーダコアを再初期化するための条件の専用のシグナリングの必要性を排除する。従って、オーディオデコーダは、そのような遷移を認識し、例えばオーディオデコーダを再初期化し、(必要ならば)新しい設定パラメータを持つオーディオデコーダを再構成することによって、それを適切に扱うことができるので、デコーダ100は、1つのストリームから別のストリームへの遷移があっても適切にオーディオフレームを復号化することができる。
【0085】
図1に係るオーディオデコーダ100は、個々にまたは組合せて、本明細書に記載された特徴および機能および詳細のうちの任意のものによってオプションで追加されることができることに留意すべきである。
【0086】
2.
図2に係るオーディオデコーダ
図2は、本願発明の一実施形態によるオーディオデコーダ200のブロック概略図を示す。
【0087】
オーディオデコーダ200は、符号化オーディオ信号表現210を受信し、それに基づいて、復号化オーディオ信号表現212を供給するように構成される。符号化オーディオ信号表現210は、例えば、一連の統合音声音響符号化(USAC)フレームを含むオーディオストリームとすることができる。しかしながら、異なるオーディオ符号化概念を使用して符号化されたオーディオフレームのシーケンスもまたオーディオデコーダ200に入力されてもよい。例えば、オーディオデコーダは、第1のストリームのオーディオフレーム220を受信し、続いて(次のオーディオフレームとして)第2のストリームのオーディオフレーム222を受信することができる。オーディオフレーム220、222は、例えば、オーディオストリーム供給器によって供給され得る。オーディオフレーム220は、例えば、符号化スペクトル値および符号化スケール係数の形で、および/または符号化スペクトル値および符号化線形予測符号化係数(TXC)の形で、および/または符号化励振および符号化線形予測符号化係数の形で例えば、オーディオ信号の符号化表現220aを含むことができる。オーディオフレーム222は、例えば、フレーム220に含まれるオーディオ信号の符号化表現220aとして同じ形式であり得るオーディオ信号の符号化表現222aも含み得る。しかしながら、さらに、フレーム222はランダムアクセス情報222bをも含むことができ、これは構成構造222cおよび望ましい状態への処理チェーン(たとえばデコーダコア)の状態をもたらすための情報222dを含むことができる。この情報222dは、例えば、"AudioPreRoll"として示すことができる。
【0088】
オーディオデコーダ200は、例えば、符号化オーディオ信号表現210から構成構造222cを抽出することができ、これは構成情報と見なすこともできる。構成構造222cは、例えば、構成拡張構造226が構成構造の一部として存在するかどうかを示す情報またはフラグ(またはビット)を含むことができる。この情報またはフラグまたはビットは224aで示される。
【0089】
構成拡張構造226は、例えば、ストリーム識別子が存在するかどうかを示す情報またはフラグまたはビットまたは識別子を含み得る。後者の情報、フラグ、ビットまたは識別子は228で示される。情報またはフラグまたはビットまたは識別子228がストリーム識別子の存在を示す場合、ストリーム識別子230も存在し、これは典型的には構成拡張構造226の一部であり得る。
【0090】
さらに、構成拡張構造は、適切なビット、フラグ、または識別子など、他の情報があるかどうかの情報を含むことができ、また(該当する場合)他の情報も含むことができる。
【0091】
オーディオデコーダ100は、例えば、現在の構成情報(例えば、前のフレームの復号化に使用されかつ前のフレームまたは先行するフレームの構成構造から抽出された構成情報)を保存することができるメモリ240を含むことができる。オーディオデコーダ200はまた、デコードされるべきオーディオフレームに関連する構成情報をメモリ240に格納されている現在の構成情報と比較するように構成されている比較器または比較250を含む。例えば、比較器または比較250は、デコードされるべきオーディオフレームの構成構造222cの構成情報を、ストリーム識別子までおよびそれを含むメモリに格納された現在の構成情報と比較するように構成され得る。換言すれば、ストリーム識別子を含むまでの構成構造222cの任意の情報アイテムをメモリ240からの現在の構成情報と比較して、フレーム222内の構成情報(ストリーム識別子までおよびストリーム識別子を含んで)が前のオーディオフレームの1つから抽出された現在の構成情報と同じか否かを判定できる。この比較では、構成構造222cが構成拡張構造226とストリーム識別子230を実際に含むか否かが当然にチェックされる。構成拡張構造226が存在しない場合、当然のことながら比較において考慮することはできない。また、ストリーム識別子230が存在しない場合(たとえば、フラグ228がフレーム222に含まれていないことを示すため)、それは当然比較で評価されない。また、構成構造222c内のストリーム識別子230の後にある構成情報は、そのような構成情報の重要度は低く、構成構造222c内のストリーム識別子230の後にあるそのような構成情報の変更は、異なるストリーム間の切替えを示さないが、単一のストリーム内でも発生する可能性があると想定されるため、通常、比較では無視される。
【0092】
結論として、比較250は、通常、デコードされるべきオーディオフレームのストリーム識別子(ただし、好ましくはストリーム識別子の後に構成拡張構造に配置される構成を省略する)までおよびストリーム識別子を含む構成情報を(以前にデコードされたオーディオフレームから取得された)現在の構成情報と比較する。従って、比較250は、比較で見つかった構成情報に違いがある場合に、新しいストリーム(またはサブストリーム)を検出する。従って、比較は、第1のストリーム(またはサブストリーム)から第2のストリーム(またはサブストリーム)への遷移を制御するために使用される。
【0093】
例えば、そのような遷移を生じることは、第1のストリームの最後のフレームのデコード、再構成、処理チェーンの状態の所望の状態への初期化、および例えば第1のストリームの最後のフレームと第2のストリームの最初のフレームの時間領域表現の間のクロスフェーディングの実行、を生じさせることを含み得る。
【0094】
オーディオデコーダ200はまた、第1の構成(現在の構成情報によって記述され得る
)を使用して第1のストリーム(またはフレームの第1のシーケンス)のフレームをデコードするように構成され得るデコーダコア216を含む。さらに、デコーダコア216は、第2の構成を使用して(例えば、デコードされるべきオーディオフレームの構成情報222cによって記述される新しい構成を使用して)第2のストリームまたはフレームの第2のシーケンスをデコードするように構成され得る。例えば、デコーダコアの再初期化は、比較250により、デコードされるべきオーディオフレーム222の構成情報222cの重要な部分とメモリ240内の現在の構成情報との相違が発見されたときにトリガされ得る。
【0095】
例えば、デコーダの再初期化は、第1のストリームの最後のフレームのデコードと第2のストリームの最初のフレームのデコードとの間で使用されてもよい。あるいは、例えば、デコーダがソフトウェアで(少なくとも部分的に)実装される場合、デコーダの"新しいインスタンス"が使用されてもよい。さらに、第1のストリームのデコードから第2のストリームのデコード("遷移")に切替えるとき、デコーダコアの処理チェーンの状態は、何らかのサイド情報を使用して所望の状態にもたらされ得る。例えば、算術復号化のコンテキスト状態を所望の状態にすることができ、または時間離散フィルタの内容を所望の状態にすることができる。これは、"オーディオプレロール"APRとしても示される専用情報を使用して実行できる。オーディオデコーダによって処理(デコード)される第2のストリームの最初のフレームは、第2のオーディオストリームの実際の最初のフレームではない場合があるため、処理チェーンの状態を望ましい状態にすることは重要である。むしろ、オーディオデコーダによって処理される第2のオーディオストリームの最初のフレームは、オーディオストリーム供給器が第1のオーディオストリームからのフレームの供給から第2のオーディオストリームからのフレームの供給に切替わるときの第2のオーディオストリーム間のいくつかのフレームである場合がある。従って、オーディオデコーダによって処理される"第2のオーディオストリームの最初のフレーム"は、第2のオーディオストリーム(デコードされるオーディオフレームに先行し、これは、遷移後にオーディオデコーダによって扱われる第2のオーディオストリームの最初のオーディオフレームである)の前のフレームのデコードによって通常引起こされるデコードチェーンの状態の特定の設定に依存する場合がある。従って、第1のオーディオストリームのオーディオフレームのデコードから第2のオーディオストリームのオーディオフレームのデコードに切替えるとき、第2のオーディオストリームに先行するフレームのデコードによって通常もたらされるオーディオデコーダの状態の設定の欠落は、オーディオデコードの状態の適切な設定を定義する"オーディオプレロール"情報を使用して作成される。
【0096】
参照符号270に見られるように、第1のオーディオストリームの最後のフレームのデコードは、デコードされた部分272("有用な部分"としても示される)を供給する。オプションで、最初のオーディオストリームの最後のフレームのデコードは、さらに長いデコード部分を供給し、それは部分的に破棄される。さらに、第2のオーディオストリームの最初のフレームをデコードするとき、第2のオーディオストリームの最初のフレームの適切なデコードのためにデコーダ状態が初期化される間に"プリロール部分"274が設けられる。さらに、デコーダコア260は、デコーダ200によって扱われる第2のオーディオストリームの第1のフレームの有用な部分276も供給し、第2のオーディオストリームの最初のフレームの有用な部分276は、第1のストリームの最後のフレームの有用な部分272と時間的に重畳する。従って、第1のストリームの最後のフレームの有用な部分272の終わりと第2のストリームの第1のフレームの有用な部分の始まりとの間で、オプションでクロスフェードを実行できる。従って、復号化された出力信号212を導出でき、第1のストリームの最後のフレーム(オーディオデコーダ200によって処理される)と第2のストリームの最初のフレーム(オーディオデコーダ200によって処理される)との間にアーチファクトのない遷移がある。
【0097】
要約すると、オーディオデコーダ200は、オーディオエンコーダまたはオーディオス
トリーム供給器が、第1のストリームのオーディオフレームの供給から第2のストリームのオーディオフレームの供給に切替えるときを認識できる。この目的のために、オーディオデコーダは、構成情報222c(構成構造とも呼ばれる)を評価し、メモリ240に格納されている現在の構成情報との比較を実行する。以前にデコードされたオーディオフレームと比較して、デコードされるべきオーディオフレームが異なるオーディオストリームに属していることを認識すると、デコーダコアの再初期化が実行され、これには通常、"オーディオプレロール"情報を評価して、デコーダコアの処理チェーンの状態を望ましい状態にすることが含まれる。従って、オーディオデコーダは、オーディオエンコーダまたはオーディオストリーム供給器が、さらなる通知なしで(ストリーム識別子230を含む構成構造222cの供給を除く)新しいストリーム(第2のオーディオストリーム)からオーディオフレームを供給する状況を適切に対処できる。
【0098】
本明細書で説明するオーディオデコーダ200は、本明細書で説明する特徴および機能性および詳細のいずれかを個々にまたは組合せて追加できることに留意すべきである。
【0099】
3.
図3に係るオーディオエンコーダ
図3は、本願発明の一実施形態によるオーディオエンコーダのブロック概略図を示す。
【0100】
オーディオエンコーダ300は、(例えば、時間領域表現の形式の)入力オーディオ信号310を受信し、それに基づいて、エンコードされたオーディオ信号表現312を供給する。オーディオエンコーダ300は、符号化パラメータを使用して入力オーディオ信号310の重畳するフレームまたは非重畳のフレームをエンコードし、エンコードされたオーディオ信号表現を取得するように構成されたエンコーダコア320を含む。オーディオエンコーダ320は、例えば、時間領域からスペクトル領域への変換およびスペクトル領域表現の符号化を含んでもよい。処理は、例えば、フレームごとに実行されてもよい。
【0101】
さらに、オーディオエンコーダは、例えば、エンコードパラメータ(または、同等に、オーディオデコーダによって使用されるデコードパラメータ)を記述する構成構造332を供給するように構成される構成構造供給330を含んでもよい。構成構造332は、例えば、構成構造222cに対応し得る。特に、構成構造332は、エンコードされたオーディオ信号表現312をデコードするときデコーダ(またはデコーダコア)によって使用されるべき設定を記述する符号化パラメータ(例えば、符号化形態)または同等に、復号化パラメータ(例えば、符号化形態)を含み得る。構成構造332の例は以下に記述されるであろう。さらに、構成構造332は、ストリーム識別子230に対応し得るストリーム識別子を含む。例えば、ストリーム識別子は、オーディオストリーム(例えば、特定のエンコーダ設定を使用して連続的にエンコードされるオーディオコンテンツの連続部分)を指定できる。例えば、構成構造供給330によって供給されるストリーム識別子は、アーチファクトなしに、かつ切替えについてオーディオデコーダに明示的に通知せずに切替える可能性があるすべてのオーディオストリームが異なるストリーム識別子を伝えるように選択することができる。しかしながら、場合によっては、関連する同一のエンコードパラメータ(または、同等に、オーディオデコーダで使用されるべきデコードパラメータ)を持つストリームに異なるストリーム識別子が含まれていれば十分な場合がある。換言すれば、異なるストリーム識別子は、他のエンコードパラメータまたはデコードパラメータが同一であるようなストリームにのみ必要となる場合がある。
【0102】
従って、エンコーダ制御340は、例えば、エンコーダコア320と構成構造供給330との両方を制御することができる。エンコーダ制御340は、例えば、エンコーダコア320により使用される符号化パラメータ(例えば、オーディオデコーダにより使用される復号化パラメータに少なくとも部分的に対応し得る)について決定することができ、構成構造332に含まれる符号化パラメータ/復号化パラメータに関する構成構造規定330にも通知することができる。従って、エンコードされたオーディオ表現312は、エンコードされた音声コンテンツおよび構成構造332も含む。従って、オーディオデコーダ(例えば、オーディオデコーダ100またはオーディオデコーダ200)は、(すべてのエンコードパラメータが構成構造内に含まれるデコードパラメータに反映されていなくても)異なるエンコードパラメータを使用してエンコードされた異なるオーディオストリームが供給されるときを即座に認識できる。
【0103】
この問題に関して、すべてのエンコードパラメータをオーディオデコーダに示す必要は通常ないことに留意すべきである。例えば、デコードアルゴリズムに影響を与えるオーディオデコーダにエンコードパラメータを示す必要があるのみである。オーディオデコーダの設定を決定するためにオーディオデコーダに送信されるエンコードパラメータも、デコードパラメータとして示される。一方、いくつかの重要なエンコードパラメータは、通常、オーディオデコーダに通知されず、むしろエンコードされたオーディオ信号表現に暗黙的に反映される。例えば、所望のビットレートは重要なエンコードパラメータであり、オーディオエンコーダがスペクトル値をどれだけ粗く量子化するか、および/またはオーディオが小さい値またはゼロ値にさえ量子化するスペクトル値がどれだけかを決定する場合がある。但し、オーディオデコーダでは、エンコードの結果を確認するだけで十分であるが、ビットレートを適度に小さく保つエンコーダの特定の戦略を知る必要はない。また、オーディオコンテンツのタイプに応じて、また実際に必要なビットレートに応じて、エンコーダの側で十分に小さいビットレートを実現するためのさまざまなアプローチが存在し得る。これらのパラメータは"エンコードパラメータ"と見なされるが、"デコードパラメータ"のセットには反映されない(また、オーディオフレームのエンコードされた表現に含まれない)。デコードパラメータ(およびこれらのエンコードオーディオ表現に組込まれるエンコードパラメータ)は、通常、デコーダが使用する設定、すなわち、エンコーダによって供給されたエンコードされた情報をどのように処理するかを記述するだけである。
【0104】
従って、実際には、エンコーダコアが異なるエンコードパラメータを使用している場合でも、設定構造332に含まれる可能性のあるデコードパラメータが同一である場合がある(例えば、ターゲットビットレートに関して、または量子化解像度や心理音響モデルなどが含まれるターゲットビットレートに影響するパラメータに関して)。
【0105】
換言すれば、オーディオエンコーダは、例えば、デコーダによって使用されるデコードパラメータが(オーディオコンテンツのエンコードされた表現を処理およびデコードするために)同一であるかもしれないにしても、異なるエンコードパラメータを使用して特定のオーディオコンテンツをエンコードできる場合がある。
【0106】
そのような場合、オーディオエンコーダは、オーディオデコーダがオーディオコンテンツのそのような異なる符号化表現を依然として区別できるように、構成構造332内で異なるストリーム識別子を供給してもよい。
【0107】
さらに、
図3によるオーディオエンコーダ300は、本明細書で説明される特徴、機能性、および詳細のいずれかによってオプションで追加できることに留意すべきである。
【0108】
4.
図4に係るオーディオストリーム供給器
図4は、本願発明の実施形態による、オーディオストリーム供給器のブロック概略図を示す。
【0109】
オーディオストリーム供給器400は、エンコードされたオーディオ信号表現412を供給するように構成される。オーディオストリーム供給器は、エンコードされたオーディオ信号表現412の一部として、エンコードパラメータを使用してエンコードされた、オーディオ信号の(一時的に)重畳または非重畳フレームのエンコードされたバージョン422を供給するように構成される。
【0110】
さらに、オーディオストリーム供給器は、エンコードされたオーディオ信号表現の一部として、エンコードパラメータ(または、同等に、オーディオデコーダによって使用されるデコードパラメータ)を記述する構成構造424を供給するように構成され、構成構造424はストリーム識別子を含む。
【0111】
例えば、オーディオストリーム供給器は、オーディオ信号の重畳または非重畳フレームのエンコードされたバージョンの供給(または供給器)を含んでもよい。さらに、オーディオストリーム供給器は、構成構造424を供給するための構成構造供給または構成構造供給器423を備えてもよい。
【0112】
従って、オーディオストリーム供給器は、エンコードされたオーディオ信号表現412の一部として、オーディオストリーム供給器が例えばメモリに格納し得るか、オーディオエンコーダから受信し得る異なるオーディオストリームの一部を供給してもよい。第1のオーディオストリームの一部を供給し、次に第2のオーディオストリームの一部の供給に切替えるとき、構成構造424は、第1のオーディオストリームから第2のオーディオストリームへの切替え後に供給される第2のオーディオストリームの第1のオーディオフレームに関連付けられ得る。構成構造424は、例えば、オーディオエンコーダからオーディオストリーム供給器によって受信されるか、オーディオストリーム供給器のメモリに格納されるそれぞれのオーディオストリームの一部であってもよい。従って、オーディオストリーム供給器は、例えば、第1のオーディオストリームのオーディオフレームの連続したシーケンスを保存し、かつ第2のオーディオストリームのオーディオフレームの連続したシーケンスを保存してもよい。第1のオーディオストリームのフレームの少なくともいくつかおよび第2のオーディオストリームのフレームのいくつかは、オーディオデコーダによって使用される復号化パラメータを記述する関連するそれぞれの構成構造を有し得る。構成構造は、それぞれのストリーム識別子、たとえば、オーディオストリームを識別する整数も含むことができる。例えば、オーディオストリーム供給器は、第1のオーディオフレームのためにフレーム1~n-1(1からn-1は時間インデックスでもよい)を供給しかつ符号化オーディオ信号表現412の一部として第2のオーディオストリームのフレームn~n+x(nからn+xは時間インデックスでもよい)を供給するように構成され、第2のオーディオストリームのフレーム1~n-1は、特定のオーディオデコーダまたは特定のオーディオデコーダグループに向けられた符号化オーディオ信号表現412の一部として供給されない場合がある。第1のオーディオストリームおよび第2のオーディオストリームは、例えば、異なるビットレートでエンコードされた同一のコンテンツを表してもよい。従って、オーディオコンテンツのフレーム1~n-1は、第1のオーディオストリームにより第1のビットレートで符号化された特定のデバイスまたはデバイスのグループに向けられた符号化オーディオ信号表現412で、表わされ、かつオーディオコンテンツのフレームn~n+xは、第1のビットレートとは異なる第2のビットレートでエンコードされた第2のオーディオストリームのフレームn~n+xで表わされる。
【0113】
例えば、オーディオストリーム供給器400、または何らかの外部制御は、エンコードされたオーディオ信号表現412に含まれる第2のオーディオストリームの第1のフレームnが構成構造を含むことを保証してもよい。換言すれば、例えば、第1のオーディオストリームからのオーディオフレームの供給と第2のオーディオストリームからのオーディオフレームの供給との間の切替えは、"適切な"フレームでのみ行われることが保証され得てもよく、これは、構成構造を含み、好ましくは、オーディオデコーダを初期化するための何らかの情報(たとえば、オーディオプリロールなど)も含む。
【0114】
従って、オーディオストリーム供給器は、例えば、第1のビットレートでエンコードされたオーディオコンテンツの一部(例えば、第1のオーディオストリームのフレーム1からn-1を供給することによって)および第2のビットレートを用いてエンコードされたオーディオストリームの他の部分(例えば、第2のオーディオストリームのオーディオフレームnからn+xを供給することによって)を供給できる。おそらく、第1のオーディオストリームと第2のオーディオストリームの構成構造は、ストリーム識別子が異なるという事実を除いて同一になるであろう。これは、実際にはストリーム識別子(のみ)であり、これも構成構造に含まれており、これにより、オーディオデコーダは、"遷移"を行うべきかどうかを決定できる(例えば、デコーダコアを再初期化することにより)ように、構成構造424に反映される復号化パラメータが、第1のオーディオストリームの符号化および第2のオーディオストリームの符号化に使用される異なる符号化パラメータ(またはすべての符号化パラメータ)を必ずしも反映する必要がないという事実による。
【0115】
いくつかの実施形態では、第1のオーディオストリームまたは第2のオーディオストリームからオーディオフレームを供給するかどうかの決定は、オーディオストリーム供給器によって行われてもよい(例えば、ネットワーク条件の知識に基づいて行われた、例えばネットワーク負荷またはオーディオストリーム供給器とオーディオデコーダ間のネットワークの利用可能なネットワークビットレート)。但し、代りに、オーディオデコーダ、または中間デバイス(例えばネットワーク管理デバイス)が、使用するオーディオストリームを決定し得る。
【0116】
しかしながら、オーディオデコーダまたは少なくともオーディオデコーダコアは、ストリームの変更が発生したことをオーディオストリーム供給器および/または中間ネットワークから明示的に通知されない場合があることに留意すべきである。換言すれば、オーディオデコーダは、構成構造424を除いて、フレームnからn+xは第2のオーディオストリームからのものであり、フレーム1からn-1は第1のオーディオストリームからのものであることをオーディオデコーダに示す追加情報を受信しない。
【0117】
結論として、オーディオストリーム供給器は、オーディオコンテンツのエンコードされた表現を、エンコードされたオーディオ信号表現の形式でオーディオデコーダに柔軟に供給できる。オーディオストリーム供給器は、例えば、第1のオーディオストリームからの符号化フレームと第2のオーディオストリームからの符号化フレームの供給を柔軟に切替えることができ、ここで、オーディオストリーム間の切替えは、エンコードされたオーディオ信号表現412の一部である構成構造424に含まれるストリーム識別子の変更によって示される。
【0118】
ここで、オーディオストリーム供給器400は、本明細書で説明される特徴、機能、および詳細のいずれかによってオプションで追加できることに留意すべきである。
【0119】
以下では、本願発明の実施形態によるオーディオストリーム供給器のブロック概略図を示す
図5を参照しながら、オーディオストリーム供給器400の機能の例を説明する。
【0120】
図5に示されるオーディオストリーム供給器は、500で示され、
図4によるオーディオストリーム供給器400に対応し得る。オーディオストリーム供給器500は、エンコードされたオーディオ信号表現412に対応し得るエンコードされたオーディオ信号表現512を供給するように構成される。
【0121】
特に、オーディオストリーム供給器は、第1のオーディオストリームからのフレームの供給と第2のオーディオストリームからのフレームの供給とを切替えるように構成されてもよい。例えば、オーディオストリーム供給器500は、いわゆる"独立再生(playout)フレーム"("IPF"とも呼ばれる)でのみ、第1のオーディオストリームからのフレームの供給と第2のオーディオストリームからのフレームの供給とを切替えるように構成されてもよい。
【0122】
オーディオストリーム供給器500は、メモリに格納されていてもよいし、オーディオエンコーダから第1オーディオストリーム520および第2オーディオストリーム530を受信してもよい。第1のオーディオストリームは、例えば、第1のビットレートでエンコードされてもよく、(例えば、即時再生フレームの)構成構造において、第1のストリーム識別子を備えてもよい。第2のオーディオストリーム530は、第2のビットレートでエンコードされてもよく、(例えば、即時再生フレームの)構成構造において、第2のストリーム識別子を備えてもよい。しかしながら、第1のオーディオストリームおよび第2のオーディオストリームは、例えば、同じオーディオコンテンツを表してもよい。ただし、第1のオーディオストリームと第2のオーディオストリームは、異なるオーディオコンテンツを表すこともできる。
【0123】
例えば、第1のオーディオストリーム520は、n1、n2、n3、およびn4で示されるフレームで独立再生フレームを備えてもよい。例えば、独立した再生フレームではない1つ以上の"通常の"オーディオフレームを、2つの隣接する独立した再生フレームの間に配置することができる。但し、状況によっては、独立した再生フレームも隣接していることもあり得る。
【0124】
同様に、第2のオーディオストリーム530は、フレーム位置n1、n2、n3およびn4に独立した再生フレームも含む。
【0125】
2つのストリーム520、530内の独立した再生フレームの位置は、オプションで同一であってもよいが、異なっていてもよいことに留意すべきである。簡単のために、ここでは、独立した再生フレームのフレーム位置は両方のストリームで同一であると仮定する。
【0126】
ただし、原則として、切替え後の最初のフレームが独立した再生フレームであることがのみが重要である。例えば、第1のオーディオストリームのオーディオフレームの供給から第2のオーディオストリームからのオーディオフレームの供給に切替えるとき、オーディオストリーム供給器500により、第2のオーディオストリームから供給されるフレームの一部の最初のフレームは、独立した再生フレームであることを確実にする必要がある。
【0127】
実施例は、参照符号550で示される符号化されたオーディオ信号表現を参照して説明される。参照して分かるように、符号化されたオーディオ信号表現512は、その開始に、第1のオーディオストリームの1つ以上のフレームを含む部分552を含む。しかしながら、第1のオーディオストリームのインデックスn1- 1を有するオーディオフレームを供給した後、オーディオストリーム供給器500は、(内部決定に基づいて、または外部から受信した何らかの制御情報に基づいて)第2のオーディオストリームに切替えることを決定し得る。従って、第2のオーディオストリームのオーディオフレームの一部554は、エンコードされたオーディオ信号表現512内に供給される。例えば、第2のオーディオストリームのn1からn2-1までのフレームインデックスを有するフレームは、エンコードされたオーディオ信号表現512内の部分554に供給される。部分554の第1のフレームは独立した再生フレームであり、それは、第2のオーディオストリーム530内のフレームインデックスn1にあることに留意すべきである。しかしながら、フレームインデックスn2- 1を有するフレームがエンコードされたオーディオ信号表現512内に供給されたとき、オーディオストリーム供給器は再び第1のオーディオストリーム520からのオーディオフレームの供給に戻ることを決定するかもしれない。従って、(第2のオーディオストリーム530に基づく)フレームインデックスn2- 1を有するオーディオフレームの後(または直後)に、第1のオーディオストリーム520から取得されたフレームインデックスn2を有するフレームがエンコードされたオーディオ信号表現内に供給され得る。インデックスn2を持つフレームも独立した再生フレームであることに注意すべきである。従って、第1のオーディオストリームからの部分は、インデックスn2を有するフレームから始まり、フレームインデックスn4- 1で終わるものとされる。
【0128】
結論として、エンコードされたオーディオ信号表現512は、1つ以上のフレームの一部の連結であり、フレームのいくつかの部分は第1のオーディオストリーム520から取得され、フレームのいくつかの部分は第2のオーディオストリーム530から取得される。各部分の最初のフレームは、独立した再生フレームであることが好ましく、これは、オーディオストリーム供給器の動作によって保証されることが好ましい。
【0129】
そのような独立した再生フレームは、ストリーム識別子を有する構成構造を含み、ストリーム識別子は、例えば、構成拡張構造に含まれていてもよい。例えば、第1のストリームと第2のストリームの構成情報は、ストリーム識別子を除いて同一である可能性がある(そして、おそらく、ストリーム識別子の後に構成拡張構造内に含まれる構成情報を除く)。
【0130】
例えば、独立した再生フレームは、オーディオデコーダ200に関して上記で説明したようにフレーム220に対応してもよい。
【0131】
さらに結論として、オーディオストリーム供給器500は、複数のオーディオストリーム(例えば、第1のオーディオストリーム520および第2のオーディオストリーム530、およびオプションとしてさらなるオーディオストリーム)にアクセスすることができ、これらの2つ以上のオーディオストリームからエンコードされたオーディオ信号表現512に含めるため、オーディオデコーダに(例えば、通信ネットワークを介して)転送されるフレームの部分を選択することができる。エンコードされたオーディオ信号表現512に含まれるフレームの部分を選択するとき、オーディオストリーム供給器は、各部分の最初のフレームが、当該オーディオストリームの前のフレームをデコードせずに(アーチファクトのない)レンダリングのために十分な情報を含む独立した再生フレームであることを保証できる。さらに、オーディオストリーム供給器は、異なるストリームからのオーディオフレームの部分間の切替えが、構成構造の関連部分内の相違からエンコードされたオーディオ信号表現512を受信するオーディオデコーダで認識できるように、エンコードされたオーディオ信号表現を供給する。一部の遷移では、デコーダの構成パラメータに関して構成構造が異なる場合があるが、1つ以上の他の遷移の場合、構成構造はストリーム識別子のみが異なり、他のデコード構成パラメータは同一である場合がある。
【0132】
その結果、オーディオデコーダは異なるオーディオストリーム間の切替えを認識でき、適切な場合はいつでも再初期化("遷移")を実行できる。
【0133】
5.
図6に係るオーディオフレーム
図6は、ランダムアクセスを可能にし、構成拡張部分にストリーム識別子を備えた構成部分を含むオーディオフレームの表現を示す。
【0134】
例えば、
図6は、
図2を参照して説明したオーディオフレーム222の役割を引き継ぐことができるオーディオフレームの例を示している。例えば、オーディオフレームは"USACフレーム"とすることができる。
図6のオーディオフレームは、"ストリームアク
セスポイント"または"中間再生フレーム"と見なすことができる。
【0135】
フレームは、例えば、利用可能な修正を含む、統合音声音響符号化規格の構文(syntax)規則に従うことができるが、他のまたはより新しいオーディオ規格のビットストリーム構文に適合させることもできる。
【0136】
例えば、USACフレーム600は、USAC独立フラグ610を含んでもよい。さらに、USACフレームは、"USAC ExtElement"として指定された拡張要素を含み得る。拡張要素620は、構成情報およびプレロールデータを備えた拡張要素であってもよい。
【0137】
オプションで、さらなるデータの存在を示すフラグ"USAC ExtElementPresent"が存在する場合がある。例えば、IPF(例えば、ストリームアクセスポイント)の場合、このフラグは1であることが好ましい。但し、このフラグはオプションと見なすことができる。
【0138】
さらに、オプションで、拡張要素のデフォルトの長さを使用するか、拡張要素の長さをエンコードするかをエンコードするために使用できるフラグ"USAC ExtElementUseDefaultLength"があってもよい。例えば、IPFの場合、このフラグの値はゼロであることが好ましい(必須ではない)。
【0139】
さらに、"USACExtElementSegmentData"としても示される拡張要素セグメントデータがある。これらの拡張要素セグメントデータは、USAC規格の改訂で"AudioPreRoll()"としても示されるオーディオプレロール情報を含む。オーディオプレロールは、構成長情報"configLen"および構成情報"Config()"をオプションで含み、構成情報は"UsacConfig()"としても示される"USAC構成情報"と同一であってもよい。構成情報が存在する場合、"configLen"はゼロより大きい値を取る必要があるが、好ましくは必ずしもそうある必要はない。例えば、"config Len"のゼロ値は、構成情報が存在しないことを示す場合がある。構成情報は、サンプリング周波数に関する情報、SBRフレーム長に関する情報、チャネル構成およびその他の(オプションの)デコーダ構成アイテムの数に関する情報など、いくつかの基本的な構成情報を含むことができる。他のデコーダ構成アイテムは、例えば、USAC規格の"UsacDecoderConfig()"構文要素の定義に記述された1つ以上またはすべての構成アイテムを含むことができる。
【0140】
さらに、構成情報は、サブデータ構造として、構成拡張構造を含む。構成拡張構造は、例えば、構文要素"UsacConfigExtension()"の構文に従うことができる。例えば、構成拡張構造は、多くの構成拡張"numConfigExtensions"に関する情報を含んでもよい。本願発明による実施形態の典型的な場合であるtype ID_Config_Ext_Stream_IDの構成拡張がある場合、ストリーム識別子は、例えば、16ビット値によって表され得るビットストリーム構文要素"streamId()"によって表される。
【0141】
結論として、拡張要素のUSACフレームに含まれる構成構造は、デコーダパラメータを設定するためのいくつかの構成情報を含み、さらに、構成拡張として例えば16ビットの整数値として表わされ得るストリーム識別子を含む。
【0142】
オーディオプレロール情報は、クロスフェードを適用するかどうかを示すフラグ"applyCrossfade"(たとえば、ゼロ値はクロスフェードを適用しないことを示す場合がある)、プリロールフレームの数を示す情報および"auLen"および"Ac
cessUnit()"として指定できるプリロールフレームに関する情報などのさらなる情報をオプションで含む。
【0143】
USACフレームは、オプションで、追加の拡張要素をさらに含み、通常、単一のチャネル要素、チャネルペア要素、または低周波効果要素のうちの1つ以上を備える。
【0144】
結論として、USACフレーム(例えば、USACフレーム222または即時再生フレームIPFの1つ)は、例えば、拡張構文要素を含むことができ、前記拡張構文要素は、構成構造(例えば、222c)および1つ以上のプリロールフレームに関する情報を含むことができ、構成構造および1つ以上のプリロールフレームに関する情報は、例えば処理チェーンの状態を所望の状態にするために使用され、かつ例えば、情報222dに対応できる。さらに、USACフレームは、単一チャネル要素、チャネルペア要素、または低周波効果要素などのエンコードされたオーディオ情報も備える。従って、オーディオデコーダは、ストリーム識別子"streamId()"に基づいてオーディオストリームの変化を認識することが可能である。また、復号化パラメータは構成構造に含まれる構成情報に基づいて設定でき、オーディオデコードの適切な状態がプリロールフレーム情報に基づいて設定できるため、オーディオデコーダがUSACフレーム600のアーチファクトのないデコードを実行することが可能である。従って、記載されているUSACフレームは、異なるオーディオストリームからのフレームのデコードを切替えることを可能にし、追加の制御情報なしでオーディオデコーダによる切替えの検出も可能にする。
【0145】
本明細書で説明するUSACフレーム600は、オーディオフレーム222に対応するか、符号化オーディオ信号表現312に含まれる第2のオーディオストリームの第1のフレームに対応するか、符号化信号に含まれる第2のオーディオストリームの第1のフレームに対応するか、符号化信号表現412に含まれる第2のオーディオストリームの第1のフレームに対応するか、または
図5に示されるような即時再生フレームIPFに対応することができる。
【0146】
6.
図7に係るオーディオストリームの例
図7は、本明細書に記載のオーディオエンコーダの1つにより供給され、本明細書に記載のオーディオデコーダの1つによりデコードされ得る例示的なオーディオストリームの表現を示す。
図7のオーディオストリームは、本明細書で説明されるように、オーディオストリーム供給器によって供給されることもできる。
【0147】
オーディオストリーム700は、例えば、第1の情報ブロックとして、デコーダ構成情報を含む。デコーダ構成情報は、例えば、USAC規格で定義されているようにビットストリーム要素"UsacConfig()"を含んでもよい。デコーダ構成情報は、例えば、1のストリーム識別子を示してもよく、ストリームの先頭にあるストリームアクセスポイントとみなされてもよい。
【0148】
オーディオストリームはまた、例えば、プリロールデータを含まなくてもよく、またストリーム識別子情報も含まなくてもよいオーディオフレームデータ情報ユニット720を含む。例えば、情報ユニット720は、USACフレームであってもよく、例えば、USAC規格で定義されているビットストリーム構文要素"UsacFrame()"に対応してもよい。
【0149】
情報ユニット710および720は、例えば、両方とも第1のオーディオストリームに属し得る。
【0150】
オーディオストリーム700は、例えばオーディオストリーム700に含まれる第2の
ストリームの第1のフレームを表すことができる情報ユニット730も含むことができる。情報ユニット730は、例えば、オーディオフレームデータ、プリロールデータ、およびストリーム識別子情報を備えてもよい。ストリーム識別子情報は、例えば、情報ユニット710に含まれるストリーム識別子とは異なる2つのストリーム識別子を示してもよい。
【0151】
情報ユニット730は、例えば、ストリームアクセスポイントと見なされ得る。
【0152】
例えば、情報ユニット730は、USAC規格で定義されているように、ビットストリーム要素"UsacFrame()"のシンタックスに従うことができる。しかしながら、情報ユニット730は、タイプ"id_ext_ele_audiopreroll"の拡張要素を備えてもよい。この拡張要素は、例えば、ビットストリーム構文"UsacConfigExtension"による構成拡張構造を備えた例えばビットストリーム構文"UsacConfig"による構成構造を含むことができる。構成拡張構造は、例えば、ストリーム識別子をエンコードするタイプ"ID_CONFIG_EXT_STREAM_ID"の拡張要素を含んでもよい。従って、情報アイテムまたは情報ユニット730は、例えば、上で説明したようにUSACフレーム600の情報を含んでもよい。
【0153】
従って、情報ユニット730は、第2のストリームのオーディオフレームを表し、オーディオフレームを適切にデコードするようにオーディオデコーダを構成するための完全な構成情報を供給し得る。特に、構成情報は、オーディオデコーダの状態を設定するためのオーディオプリロール情報も含み、構成情報は、情報ユニット730が情報ユニット700、710と比較したとき異なるオーディオストリームに関連付けられているかどうかをオーディオデコーダが認識できるようにするストリーム識別子を含む。
【0154】
オーディオストリーム700は、情報ユニット700に続く情報ユニット740も含む。情報ユニット740は、例えば、プリロールデータ、構成データおよびストリーム識別子のない、オーディオフレームデータのみを含む"通常の"オーディオフレームであってもよい。例えば、情報ユニット740は、拡張要素を利用せずにビットストリーム構文"UsacFrame()"に従い得る。
【0155】
オーディオストリーム700は、例えばオーディオフレームデータおよびプリロールデータを含むことができるが、ストリーム識別子を含まないこともある情報ユニット750も含むことができる。従って、情報ユニット750は、ストリームアクセスポイントとして使用可能であるが、異なるストリーム間の切替えの検出を許可しない場合がある。
【0156】
例えば、情報ユニット750は、拡張要素ID_ext_ele_audioprerollを伴うビットストリーム構文"UsacFrame()"に従うことができる。しかしながら、情報ユニット750では、オーディオプリロール拡張要素の一部である構成情報は、ストリーム識別子を含まない。従って、情報ユニット750は、異なるオーディオストリーム間の切替え後、第1の情報ユニットとして確実に使用することはできない。他方、情報ユニット730は、そこに含まれるストリーム識別子は、異なるストリーム間の切替えの検出を可能にし、情報ユニットは、構成情報およびプリロール情報を含むデコードのための完全な情報も含むので、異なるオーディオストリーム間の切替え後の最初の情報ユニットとして確実に使用できる。
【0157】
結論として、オーディオストリーム700は、異なる情報コンテンツを有する"情報ユニット"またはエンコードされたオーディオフレームを備えてもよい。構成データなしおよびプリロールデータなしの、エンコードされたオーディオデータのみを含む"非常に単純な"オーディオフレームが存在する場合がある。また、エンコードされたオーディオ情報だけでなく、ストリーム識別子とプリロール情報も含む構成情報を含むオーディオフレームが存在する場合がある。このようなフレームにより、異なるオーディオストリーム間の切替えの識別と完全に独立したデコードが可能になる。
【0158】
さらに、オプションとして、部分的な情報しか持たないが、たとえば、ストリーム識別子情報がないため、異なるストリーム間の切替えの信頼できる識別を可能にしないフレームもあり得る。
【0159】
図1および
図2によるオーディオデコーダは、通常、オーディオストリーム700を利用することができ、
図3および
図4によるオーディオエンコーダおよびオーディオストリーム供給器は、
図7に示されるように(例えば、エンコードされたオーディオ信号表現312、314として)典型的にオーディオストリーム700を供給できることに留意すべきである。
【0160】
7.
図8に係るオーディオストリーム
図8は、本発明の別の実施形態による例示的なオーディオストリームの表現を示す。
【0161】
図8のオーディオストリームは、全体が800で示されている。
【0162】
情報ユニット810aから810eは第1のオーディオストリームに属することに留意すべきである。例えば、情報ユニット810aは、デコーダ構成を備えてもよく、例えば、USAC規格で定義されるビットストリーム構文"UsacConfig()"に従ってもよい。デコーダ構成は、例えば、構成構造222cに類似し得る構成構造を備えてもよい。例えば、情報ユニット810は、ストリーム識別子拡張を含むことができ、ストリーム識別子は、例えば、構成構造の構成拡張構造に含まれることができる。
【0163】
情報ユニット810bは、例えば、プリロールデータおよびストリーム識別子のないオーディオフレームデータ(例えば、エンコードされたスペクトル値およびエンコードされたスケールファクター情報のような)を含み得る。情報ユニット810dは、情報ユニット810bと構造が類似または同一であってもよく、また、プリロールデータおよびストリーム識別子のないオーディオフレームデータを表してもよい。
【0164】
さらに、オーディオストリームは、部分810に続く部分820を含むことができ、部分820は、第1のオーディオストリームとは異なる第2のオーディオストリームに関連付けられる。部分820は、情報ユニット820aを含み、情報ユニット820aは、プリロールデータを伴うオーディオフレームデータを含み、プリロールデータは、(例えば、構成構造内に)ストリーム識別子拡張を含む。従って、情報ユニット820aはオーディオフレームを表す。オーディオデコーダが、ストリーム識別子の拡張に基づいて、以前にデコードされたオーディオフレームが別のオーディオストリームからのものであることを検出した場合、プリロールデータはオーディオデコーダによって使用され、情報ユニット820a内のオーディオフレームデータをデコードする前にオーディオデコーダを適切な状態に設定する。従って、情報ユニット820aは、異なるオーディオストリーム間の切替え後の最初の情報ユニットであるのに適している。
【0165】
ブロック820は、オーディオフレームデータを含むが、プリロールデータを含まず、ストリーム識別子も含まない、1つ、2つまたはそれ以上の情報ユニット820b、820dも含む。
【0166】
データストリーム800は、第3のオーディオストリームに関連する部分830も含む。部分830は、情報ユニット830aを備え、情報ユニット830aは、プリロールデータを伴うオーディオフレームデータを含み、ストリーム識別子拡張を含む。部分830は、プリロールデータおよびストリーム識別子のないオーディオフレームデータを含む情報ユニット830bをさらに含む。第3の部分830は、プリロールデータを有するがストリーム識別子を有さないオーディオフレームデータを含む情報ユニット830dも含む。
【0167】
従って、オーディオストリーム800は、異なるオーディオストリームから生じる後続部分を含み、あるストリームから別のストリームへの各遷移において、プレロールデータとストリーム識別子を持つオーディオフレームデータを含む情報ユニット(例えば、エンコードされたオーディオフレーム)がある。従って、エンコードされたオーディオフレーム内のオーディオストリームから別のオーディオストリームへの各切替えで利用可能なストリーム識別子情報があるため、オーディオデコーダは、ストリーム識別子を評価することで(たとえば、以前に取得した保存されたストリーム識別子との比較に関して)、遷移を容易に認識できる。
【0168】
オーディオストリームは、本明細書に記載のオーディオエンコーダまたはビットストリーム供給器によって供給でき、オーディオストリーム800は本明細書に記載のオーディオデコーダによって評価できることに留意すべきである。
【0169】
8.
図9に係るデコーダ機能
図9は、本明細書で説明されるオーディオデコーダの可能なデコーダ機能の概略図を示す。
【0170】
例えば、
図9を参照して説明した機能は、
図1によるオーディオエンコーダ100または
図2によるオーディオデコーダ200に実装され得る。例えば、
図5で説明した機能を使用して、デコードを続行する方法を決定できる。
【0171】
しかしながら、
図9を参照して説明した機能は単なる例であり、たとえば、機能全体が同じである限り、決定の順序を変更できることに留意すべきである。また、全体的な機能が変更されない限り、決定を組合せることができる。
【0172】
図9で説明される機能は、以前にデコードされたフレームに関する情報についての知識を有し、本明細書で説明される構文に準拠し得る新しいオーディオフレームを評価することが想定される。
【0173】
例えば、第1のチェック110では、オーディオデコーダは、"ランダムアクセス"、すなわちストリームアクセスポイントへのジャンプ操作があるかどうかをチェックすることができる。フレームの"通常の"順序が意図的に変更されるストリームアクセスポイントへのジャンプがあることが認識された場合、デコーダ機能は、デコーダを再初期化するためにストリームアクセスポイントの構成データを評価するステップ920に進む。突然の切替えを避けるために、オプションでクロスフェードを実行できる。ランダムアクセスとは、第1のフレームから第2のフレームへの"ジャンプ"を意味し、第2のフレームは、以前にデコードされたフレームのフレームインデックスのすぐ後ではないフレームインデックスを有することに留意すべきである。換言すれば、ランダムアクセスは、フレームインデックスnを有するフレームからフレームインデックスoを有するフレームへのジャンプであり、oはn+1とは異なる。
【0174】
ステップ920では、ジャンプが実行され、ジャンプターゲットは、即時再生フレームであり、デコーダを再初期化するのに十分な情報を含むフレームである。
【0175】
しかしながら、チェック910において、"ランダムアクセス"ではなく"連続再生"が存在することが判明した場合、さらなるチェック930を実行することができる。換言すれば、デコードがフレームインデックスnを有するフレームからフレームインデックスn+1を有するフレームに進む場合、チェック930が実行される。
【0176】
チェック930では、ストリーム識別子を考慮せずに(例えば、ストリーム識別子まででストリーム識別子を含まない)ストリームアクセスポイント(または中間再生フレーム)の構成構造で定義された(関連する)構成が現在の構成と異なるかどうかがチェックされる。ストリームアクセスポイントの構成構造に記述された(関連する)構成が現在の構成(パス"はい")と異なる場合、デコードはステップ940で進行し得る。しかしながら、次のフレームが構成構造を含むストリームアクセスポイントである場合にのみ、ステップ930を当然実行できることに留意すべきである。次のフレームが構成構造を含まない場合、ステップ930は当然実行できず、現在の構成との違いは発見できない。
【0177】
しかしながら、ステップ930で、次のフレームの構成構造の構成が(ストリーム識別子を考慮せずに)現在の構成と同一であることが検出された場合、ブロック950に示される次のチェックが行われる。ステップ950では、ストリームアクセスポイントが(例えば、構成構造内に)ストリーム識別子を含むかどうかが判定される。例えば、ストリーム識別子は必ずしも含める必要はないが、構成拡張構造があり、この構成拡張構造がストリーム識別子であるデータ構造要素を実際に含む場合にのみ、構成構造に含まれる。比較950において、ストリームアクセスポイントがストリーム識別子を含むことが判明した場合(分岐"はい")、次のフレーム(復号化されるフレーム)のストリームアクセスポイントに含まれるストリーム識別子が現在の(保存された)ストリーム識別子と比較される。次のフレーム(デコードされるフレーム)に含まれるストリーム識別子が現在のストリーム識別子(判断960の分岐"はい")と異なることが判明した場合、ブロック940にジャンプする。他方、次のフレームのストリーム識別子が保存されたストリーム識別子と同一であることが検出された場合、ストリーム識別子の後の構成拡張構造に続く追加の構成情報(構成拡張など)は、"遷移"または最初の初期化(ステップ960の分岐"いいえ")のどちらを実行するかを決定するため、考慮されないままになる。
【0178】
しかしながら、チェック950で、ストリームアクセスポイント(デコードする次のフレーム)がストリーム識別子を含まないことがわかった場合、またはデコードする次のフレームのストリーム識別子が保存されたストリーム識別子と等しいことが判明した場合、手順はステップ970で継続する。
【0179】
さらに、ステップ940は、古い構成を使用するオーディオフレームと新しい構成を使用するオーディオフレームとの間のフェージングを含むことに留意すべきである。新しい構成を使用してオーディオフレームをデコードするために、オーディオデコーダの再初期化が行われる(新しいデコーダインスタンスの初期化が含まれる場合がある)。また、古いデコーダインスタンスは"フラッシュ"され、クロスフェードが実行される。
【0180】
一方、ステップ970は、デコーダを再初期化することなく次のフレームをデコードすることを含み、次のフレームに含まれる可能性のあるプリロール情報は破棄される(考慮されないままにされる)。
【0181】
結論として、オーディオデコーダが"ストリームアクセスポイント"とも見なされる"中間再生フレーム"に到達するたびに実行できるさまざまな可能性がある。また、そのようなオーディオフレームには利用可能な構成構造やプリロール情報がなく、そのようなフレームは、オーディオデコーダの再初期化を許可しないため、"中間再生フレーム"または"ストリームアクセスポイント"ではないフレームでは、通常、特定の処理が行
われないことに注意されたい。
【0182】
デコーダが"ジャンプ"、つまり通常のフレーム順序からの逸脱があることを認識すると、通常、プリロール情報と(同じストリーム内でジャンプする)新しい構成構造を使用するオーディオデコーダの再初期化が自然に行われる。
【0183】
そのようなジャンプが存在する場合、異なるケースが存在する。
【0184】
オーディオデコーダは、構成識別子までおよび構成識別子を含んでデコードされる次のストリームの構成情報が、格納されている情報と異なることを検出した場合、オーディオデコーダの再初期化も行われる。他方、オーディオデコーダが、ストリーム識別子(存在する場合)までのおよびストリーム識別子を含んで、デコードされる次のフレームの構成情報が、以前にデコードされたフレームから取得した保存情報と同一であることを検出した場合、再初期化は実行されない。いずれの場合でも、再初期化を実行するかどうかを決定するときに、構成構造内のストリーム識別子の後に配置される構成情報は、オーディオデコーダによって無視される。また、オーディオデコーダが構成構造内にストリーム識別子が存在しないことを検出した場合、オーディオデコーダは保存された情報との比較でストリーム識別子を考慮しない。
【0185】
ただし、計算的に効率的な方法で評価を実行するために、デコーダはまず、ストリーム識別子の前にある構成情報を保存された構成情報で確認し、次に、構成構造に含まれるストリーム識別子が存在するかどうかを確認し、ストリーム識別子(構成構造に存在する場合)と保存されているストリーム識別子との比較に進む。オーディオデコーダが相違を検出するとすぐに、それは再初期化を決定するかもしれない。一方、オーディオデコーダがストリーム識別子を含むまで構成情報間の相違を検出できない場合、オーディオデコーダは再初期化を省略することを決定できる。
【0186】
従って、オーディオエンコーダによる構成拡張構造内のストリーム識別子の後に、再初期化にならないマイナーな構成変更を通知でき、この場合、オーディオデコーダはわずかに構成を変更しただけでデコードに進むことができる(再初期化を必要としない)。
【0187】
結論として、
図9を参照して説明したデコーダ機能は、本明細書で説明したオーディオデコーダのいずれでも使用できるが、オプションであると見なされるべきである。
【0188】
9.
図10a,10b,10cおよび
図10dによるビットストリームシンタックス
以下では、ビットストリームの構文について説明する。特に、構成構造の構文について説明する。例として、構成構造"UsacConfig()"の構文を説明するが、これは、構成構造222cまたは構成構造332または構成構造424または
図6に示す構成構造"Config()"または
図7に示す構成構造"UsacConfig()"または
図8に示す構成構造"Config"の代わりになり得る。
【0189】
図10は、構成構造"UsacConfig()"の表現を示す。図から分かるように、前記構成構造は、例えば、サンプリング周波数インデックス情報1020aと、オプションでサンプリング周波数情報1020bとを含んでもよい。サンプリング周波数インデックス情報1020a(おそらくサンプリング周波数情報1020bと組合せて)は、例えば、エンコーダによって使用されるサンプリング周波数を記述し、従って、オーディオデコーダによって使用されるサンプリング周波数も記述する。
【0190】
さらに、構成構造は、スペクトル帯域複製(SBR)のフレーム長インデックス情報も含むことができる。例えば、インデックスは、例えばUSAC規格で定義されているよう
に、スペクトル帯域幅複製のいくつかのパラメータを決定する場合がある。
【0191】
さらに、構成構造はまた、例えば、チャネル構成を決定することができるチャネル構成インデックス1024を含むことができる。チャネル構成インデックス情報は、例えば、多数のチャネルと関連するスピーカーマッピングとを定義する場合がある。例えば、チャネル構成インデックス情報には、USAC規格で定義されているような意味があり得る。例えば、チャネル構成インデックス情報がゼロに等しい場合、チャネル構成に関する詳細は、"UsacChannelConfig()"データ構造1024bに含まれてもよい。
【0192】
さらに、構成構造は、例えば、オーディオフレームデータ構造に存在する情報要素を記述(または列挙)し得るデコーダ構成情報1026aを含んでもよい。例えば、デコーダ構成情報は、USAC規格に記載されている要素の1つ以上を含むことができる。
【0193】
さらに、構成構造1010は、構成拡張構造(例えば、構成拡張構造226)の存在を示すフラグ(例えば、"UsacConfigExtensionPresent"という名前)も含む。構成構造1010は、例えば"UsacConfigExtension()"1028aで示される構成拡張構造も含む。構成拡張構造は、好ましくは、構成構造1010の一部であり、例えば、構成構造1010の他の構成アイテムを表すビットのすぐ後に続くビットシーケンスによって表すことができる。構成拡張構造は、以下で説明するように、例えば、ストリーム識別子情報を伝えることができる。
【0194】
以下では、構成拡張構造の可能な構文を
図10bを参照して説明するが、構成拡張構造は全体が1030で示され、構成拡張構造1028aに対応する。
【0195】
構成拡張構造("UsacConfigExtension()"としても示される)は、例えば、構文要素1040a内のいくつかの構成拡張をエンコードしてもよい。各構成拡張アイテムごとに構成拡張タイプ情報1042aおよび構成拡張長情報1044aがあるため、異なる構成拡張情報アイテムの順序は任意に選択できることに留意すべきである。従って、構成拡張構造1030は、複数の構成拡張アイテム(または構成拡張情報アイテム)を可変の順序で伝えることができ、オーディオエンコーダは、どの構成拡張アイテムが最初にエンコードされ、どの構成拡張アイテムが後にエンコードされるかを決定できる。例えば、各構成情報アイテムについて、最初に構成拡張タイプ識別子1042aが存在し、続いて構成拡張長情報1044が存在し、次にそれぞれの構成拡張情報アイテムの"ペイロード"が存在する場合がある。それぞれの構成拡張情報アイテムのペイロードのエンコードは、例えば、構成拡張タイプ情報によって示される構成拡張情報アイテムのタイプに応じて異なり、それぞれの構成拡張情報アイテムのペイロードの長さは、それぞれの構成拡張長情報1044aの値によって決定できる。例えば、構成拡張情報アイテムが充填情報である場合、1つ以上の充填バイトが存在する場合がある。他方、構成拡張情報アイテムが構成拡張ラウドネス情報である場合、(例えば、"loudnessInfoSet()"として示される)ラウドネスに関する情報を含むデータ構造があり得る。
【0196】
さらに、構成拡張情報アイテムがストリーム識別子である場合、"streamId()"として指定されるストリーム識別子の番号表現があり得る。さまざまなタイプの構成拡張情報アイテムの構文例が、参照符号1046a、1048a、および1050aで示されている。
【0197】
結論として、構成拡張構造の構文は、異なる構成情報アイテムの順序を変えることができるようなものである。例えば、ストリーム識別子構成拡張情報アイテムは、オーディオエンコーダによって他の構成拡張情報アイテムの前後に配置することができる。従って、
現在の構成構造によって示される構成とオーディオデコーダによって以前に取得された構成情報との比較において構成拡張構造の他の情報アイテムを考慮すべきである、構成拡張構造内のストリーム識別子構成拡張情報アイテムの配置によって、オーディオエンコーダは、制御可能である。通常、構成拡張構造に先行する構成情報アイテムおよびストリーム識別子情報までのかつストリーム識別子情報を含むすべての構成拡張情報アイテムは、このような比較で考慮されるが、ストリーム識別子構成拡張情報アイテムの後にビットストリームでエンコードされるすべての構成拡張情報アイテムは、比較では無視される。
【0198】
以上のようにして、
図10a及び
図10bに関して説明した構成構造は、本願発明による概念に非常に適している。
【0199】
図10は、ストリーム識別子(構成拡張)情報アイテムのシンタックスを示しており、これも"StreamId()"(または"streamId()")と表記されている。図示されるように、ストリーム識別子は16ビットの2進数表現によって表すことができる。従って、65000を超える異なる値をストリーム識別子として符号化することができ、これは通常、異なるオーディオストリーム間の遷移を認識するのに十分である。
【0200】
図10dは、異なる構成拡張情報アイテムに対するタイプ識別子の割当ての一例を示す。例えば、タイプ"ストリーム識別子"の構成拡張情報アイテムは、構成拡張タイプ情報1042aの値7によって表され得る。他のタイプの構成拡張情報アイテムは、例えば、構成拡張タイプ識別子1042aの他の値によって表すことができる。
【0201】
結論として、
図10a~
図10dは、ストリーム識別子情報を抽出するためにオーディオデコーダによって使用され得るストリーム識別子情報を符号化するためにオーディオエンコーダによって使用され得る構成構造の可能なシンタックス(またはシンタックス拡張)を記述する。
【0202】
しかしながら、本明細書に記載された構成構造は単に例として考慮されるべきであり、広い範囲にわたって変更され得ることに留意すべきである。例えば、サンプリング周波数インデックス情報および/またはサンプリング周波数情報および/またはスペクトル帯域幅複製フレーム長インデックス情報および/またはチャネル構成インデックス情報は、異なる方法でエンコードすることができる。また、オプションで、上記の情報アイテムの1つ以上をドロップすることができる。さらに、UsacDecoderConfig情報アイテムも省略することができる。
【0203】
さらに、構成拡張タイプおよび構成拡張長の構成拡張の番号のエンコードは修正することが可能である。また、異なる構成拡張情報アイテムもオプションとして考慮されるべきであり、おそらく異なる方法で符号化することもできる。
【0204】
さらに、ストリーム識別子は、より多いまたはより少ないビットでエンコードすることもでき、そこでは異なるタイプの番号表現を使用することができる。さらに、異なる構成拡張タイプへの識別子番号の割当ては、好ましい例としてではあるが本質的な特徴としてではなく考慮されるべきである。
【0205】
9.結論
【0206】
以下では、本願発明によるいくつかの態様を説明するが、それらは個別にまたは本明細書に記載の実施形態と組合せて使用することができる。
【0207】
特に、本願発明による解決策が本明細書で説明される。
【0208】
本願発明による実施形態の態様は、添付の特許請求の範囲によって説明されることに留意すべきである。
【0209】
しかしながら、特許請求の範囲によって定義される実施形態は、個別にまたは組合せてのいずれかで、本明細書に記載される特徴のうちのいずれかによってオプションで追加され得る。また、括弧"()"または"[]"内の定義は、特に特許請求の範囲で使用されるときには、オプションであると見なすべきであることに留意すべきである。
【0210】
それにもかかわらず、以下に記載される本願発明の特徴はまた、特許請求の範囲の特徴とは別に使用されてもよいことに留意すべきである。
【0211】
さらに、特許請求の範囲に記載され、以下に記載される特徴および機能は、本願発明の態様の根底にある問題、実施形態および従来のアプローチのための可能な使用シナリオについて説明する節に記載される特徴および機能とオプションで組合せることができる。特に、本明細書に記載の特徴および機能は、改訂3、小節"ビットレート適応"(例えば、本願の優先権出願の出願日に標準化されているように、または本願発明の出願日に標準化されているように、しかし場合によってはさらなる将来の改訂を含む)を含むISO/IEC 23003- 3:2012に従うUSACオーディオデコーダにおいて使用され得る。
【0212】
本願発明の一態様によれば、usacConfigExtType==ID_CONFIG_EXT_STREAM_IDを持つUSACの新しい構成拡張を単純なユニバーサル16ビット識別子ビットフィールドを含む関連したビットストリーム構造とともに(たとえば、USACビットストリーム構文に)導入することが提案される。この識別子は、それらの間のシームレスな切替えを意図したストリームのセット内のすべてのストリームに対する任意の2つの構成構造の間で異なる(例えば、オーディオエンコーダまたはオーディオストリーム供給器によって異なるように選択され得る)。そのようなストリームのセットの一例は、MPEG- DASH配信の使用事例におけるいわゆる"適応セット"である。
【0213】
提案された固有のストリームID構成拡張は、例えば、現在の(または現在の構成)を新しい構成構造(例えば、オーディオエンコーダ側またはオーディオデコーダ側)と比較する時点で確実になり、新しい構成(ひいては新しいストリーム)は正しく識別され、デコーダは期待どおりに動作し、たとえば、デコーダは適切なデコーダフラッシュを実行し、アクセスユニットをプレロールし、クロスフェードを実行するであろう(該当する場合)。
【0214】
以下は、(本出願の出願日に標準化されあるいは優先権出願の出願日に標準化されており、オプションで将来の修正を含む(例えば、MPEG- D USAC(ISO/IEC 23003- 3+AMD.1+AMD- 2+AMD.3)の))仕様書テキスト(修正)の提案である
【0215】
以下に記載される本願発明の態様で言及される節は、個別にまたはUSACオーディオデコーダと組合せて、あるいは別のフレームベースのオーディオデコーダ内で使用され得る。
【0216】
次の表15に示すように、構成拡張は、オーディオエンコーダがオーディオビットストリームを提供するために使用でき、オーディオデコーダがオーディオビットストリームから情報を抽出するために使用できる。
【0217】
上述のUSAC規格に従ってオーディオの符号化および復号化を使用する場合、セクション5.2の表15は、表15の次の更新版に置き換える必要がある。
【0218】
表15-UsacConfigExtension()のシンタックス
【0219】
また、USAC規格のオーディオエンコードまたはオーディオデコードを検討する場合、USAC規格のセクション5.2の最後に、次のような新しいテーブルAMD.01を追加する必要がある(エンコードの詳細、ビット数はオプションである)。
【0220】
表AMD.01-StreamId()のシンタックス
【0221】
しかしながら、上記の表において、符号化の詳細および例えば多数のビットはオプションであると見なされるべきである。
【0222】
また、USAC規格に従った符号化または復号化を検討するときは、"6.1.14 UsacConfigExtension()"の後に次の従属節6.1.15を追加する必要がある。
【0223】
"6.1.15一意のストリーム識別子(streamID)
6.1.15.1用語、定義および意味
【0224】
ストリーム識別子
これらのストリーム間のシームレスな切替えを目的とした、関連付けられた一連のストリーム内のストリームの構成を一意に識別する2バイトの符号なし整数ストリーム識別子(ストリームID)。streamIdentifierは0から65535までの値を取ることができる(エンコードの詳細はオプション)。
【0225】
例ISO/IEC 23009で定義されているMPEG-DASH適合セットの一部である場合、そのDASH適合セット内のストリームのすべてのストリームIDはペアごとに異なる。
【0226】
6.1.15.2ストリーム識別子の説明
タイプID_CONFIG_EXT_STREAM_IDの構成拡張は、ストリーム識別子(省略形: "stream ID")を示すためのコンテナを提供する。ストリームID構成拡張は、構成構造の残りが(ビット)同一であっても、2つのストリームのオーディオビットストリーム構成を区別することができるように、固有の整数を構成構造に付加することを可能にする。
【0227】
タイプID_CONFIG_EXT_STREAM_IDの構成拡張のusacConfigExtLengthは、値2(2)を持つものとする(オプションで、異なる場合もある)。
【0228】
どの既定のオーディオビットストリームも、タイプID_CONFIG_EXT_STREAM_IDの構成拡張を複数持つことはできない(オプションで)。
【0229】
例えばID_EXT_ELE_AUDIOPREROLL拡張ペイロードの中のConfig()によって、通常動作しているデコーダインスタンスが新しい構成構造を受信する場合、それはこの新しい構成構造を現在アクティブな構成と比較しなければならない(例えば7.18.3.3参照)。そのような比較は、例えば、対応する構成構造のビットごとの比較によって行うことができる。
【0230】
構成構造が構成拡張を含む場合、例えば、タイプID_CONFIG_EXT_STREAM_IDの構成拡張までのおよびを含むすべての構成拡張が比較に含まれなければならない。タイプID_CONFIG_EXT_STREAM_IDの構成拡張に続くすべての構成拡張は、例えば、比較中に考慮されないものとする(オプションで)。
【0231】
註上記の規則は、エンコーダが特定の構成拡張における変更がデコーダ再構成の原因になるかどうかを制御することを可能にする。"
【0232】
規格に追加されるべきこの文章からの定義および詳細は、本願発明による実施形態において、オプションで個々にも組み合わせてもいずれにしても、使用することができることに留意すべきである。
【0233】
USACの符号化または復号化を検討するときには、条項6の表74を
図10dに示す表で置き換える必要がある。
【0234】
USAC規格に導入されるかもしれないいくつかの可能な変更を結論づけることが説明された。しかしながら、ここで説明されているような概念は他のオーディオ符号化規格と
関連しても使用され得る。換言すれば、本明細書で説明されるように、他の任意のオーディオコーディング規格のいくつかの構成構造にストリーム識別子情報を導入することも可能であろう。
【0235】
本明細書でストリーム識別子情報に関して説明した特徴は、他の符号化規格と組み合わせて採用したときにも適用することができる。この場合、用語はそれぞれのオーディオ符号化規格の用語に適合されるべきである。
【0236】
以下に、本願発明によるいくつかのオプションの効果および利点または特徴を説明する。
【0237】
提示された構成拡張は、それ以外はビット同一である構成構造を区別するための容易に実施可能な解決策を提供する。構成間で獲得された区別可能性は、例えば、ストリーム間のシームレスな遷移を伴う動的適応ストリーミングの正確かつ本来意図された機能を可能にする。
【0238】
以下では、いくつかの代替解決策を説明する。
【0239】
例えば、エンコーダが、ストリームのセット内のすべてのストリームが異なる構成を有すること、すなわちそれらが異なる符号化ツールを使用すること、または異なるパラメータ化を使用することを保証する場合、上述の問題は回避され得る。個々のストリームのビットレートの相違が十分に大きい場合、これは通常ペアごとに異なる設定になる。これはよくあるが、ビットレートの細かいグリッドが必要な場合、(従来の)解決策ではうまくいかない場合がある。
【0240】
対照的に、構成部分(構成構造とも呼ばれる)に含まれるストリーム識別子を使用して異なるストリームを区別することにより、残りの構成構造が同一である場合にも(ビットレートは似ていることもある)ストリームを区別することができる。
【0241】
代わりに(例えば、ストリーム識別子を使用する代わりとして)、ストリームごとに異なるが、どういうわけか異なるように構造化された、適切な未指定の構成拡張を作成することができる。効果は同じになる。上述のシナリオで構成が比較されるときにすべてのデコーダ実装がこの未指定の構成拡張を評価することを保証することはできないため、正しい機能は保証できない。
【0242】
対照的に、本願発明による実施形態は、ストリーム識別子が構成構造内で明確に指定され、異なるストリームの明確な区別を可能にするという概念を生み出す。
【0243】
本願発明の概念の実施は、USACストリームの構成構造の分析によって認識することができることに留意すべきである。さらに、本願発明の概念の実施は、上述のように構成拡張の存在についてテストすることによって認識することができる。
【0244】
以下では、本願発明による態様のいくつかの可能な適用分野について説明する。
【0245】
本願発明による実施形態は、その他の点では同一のデータ構造の識別可能性を提供する。
【0246】
本願発明によるさらなる実施形態は、他の点では同一のオーディオコーデック構成構造の識別可能性を提供する。
【0247】
本願発明による実施形態は、任意の伝送ネットワーク上で音声のシームレスで動的な適応ストリーミングを可能にする。
【0248】
以下では、いくつかのさらなる態様が説明され、それらはオプションであると見なされるべきである。
【0249】
例えば、オーディオエンコーダ/オーディオストリーム供給器の振舞いを以下に説明する。以下では、(オーディオストリーム供給器の形態をとることもできる)オーディオエンコーダに関するいくつかのオプションの詳細について説明する。
【0250】
オーディオエンコーダは通常、その構成を突然変更する単一の(単一の)ストリームを生成しないが、エンコーダまたは複数のエンコーダインスタンスを含むエンコーダフレームワークは、ストリーム内の同期位置(時点)でIPF("即時再生フレーム")をそれぞれ含む複数のストリームを並列に生成する。
【0251】
次いで、デコーダフレームワークは、特定のおよび/または所定の基準に従って、たとえばインターネット接続の品質、並列に生成されたストリームのうちの1つを選択し、かつエンコーダ側サーバに"依頼"(または要求)してストリームを正確に送信する。そしてそのストリームをデコーダに転送する。それ以上エンコードされたストリームはすべて単に無視される。ストリーム間の変更は、IPFでのみ許可される。
【0252】
オーディオデコーダは、最初はそのような変更を認識しない、および/またはそのような変更について、例えばデコーダフレームワークによって通知されない。むしろ、オーディオデコーダは、埋込まれた構成構造("Config-structures")の比較によってストリームの変化を検出する必要がある。デコーダから見ると、エンコーダは構成("Config")が変更されたストリームを生成しただけのように見える。実際、これは通常そうではない。むしろ、(異なるビットレートを含む)複数の変形が常に(連続的に)エンコーダによって並行して生成され、デコーダフレームワークおよびエンコーダ側サーバ(またはストリーム供給器)のみがストリームを分割し、ストリームの一部(またはストリーム)を再配置(再連結)する。
【0253】
さらなるオプションの詳細が図示されている。
【0254】
さらに、図面に示されている装置は、個々にまたは組合せてのいずれかで、本明細書に記載されている任意の特徴および機能によって追加できることに留意すべきである。
【0255】
結論として、オーディオエンコーダまたはオーディオストリーム供給器は、異なるストリームの供給を特定のオーディオデコーダ(またはオーディオ復号化装置)に切替えることができ、この切替えは、例えばオーディオデコーダの要求に応じて、あるいは、オーディオ復号化装置、または他のネットワーク管理装置の要求に応じて、あるいはオーディオエンコーダまたはオーディオストリーム供給器の決定によってさえ実行できる。異なるオーディオストリームからのフレームの供給間の切替えは、実際のビットレートを利用可能なビットレートに適応させるために使用され得る。オーディオエンコーダ(またはオーディオストリーム供給器)からオーディオデコーダに示されるデコーダ構成は、異なるストリーム間で同一であり得るが、ストリーム識別子は異なるストリーム間で異なるはずである。従って、オーディオデコーダは、ストリーム識別子を用いて、即時再生フレームに含まれる付加情報(例えば、設定情報およびプリロール情報)を用いてオーディオデコーダの再初期化がいつ行われるべきかを認識することができる。
【0256】
さらなる結論として、本願明細書で説明されるようにストリーム識別子("strea
mID」)を使用することは、本願発明の態様の根底にある問題および実施形態の可能な使用シナリオを説明するセクションで述べられる問題を克服し得る。
【0257】
10.方法
【0258】
図11a~
図11cは、本願発明による実施形態による方法のフローチャートを示す。
【0259】
図11a~
図11cに示される方法は、本明細書に記載される特徴および機能のうちのいずれかによって補足され得る。
【0260】
11.代替の実装
【0261】
いくつかの態様が装置の文脈で説明されてきたが、これらの態様が対応する方法の説明も表すことは明らかであり、ブロックまたはデバイスは方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された態様はまた、対応する装置の対応するブロックまたはアイテムまたは特徴の説明を表す。方法ステップのいくつかまたはすべては、例えばマイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって(または使用して)実行されてもよい。いくつかの実施形態では、そのような装置によって1つ以上の最も重要な方法ステップを実行することができる。
【0262】
本願発明の符号化オーディオ信号は、デジタル記憶媒体に記憶することができ、あるいは無線伝送媒体またはインターネットのような有線伝送媒体のような伝送媒体に伝送することができる。
【0263】
特定の実施要件に応じて、本願発明の実施形態はハードウェアまたはソフトウェアで実装することができる。実装は、電子的に読み取り可能な制御信号が記憶されているデジタル記憶媒体、例えばフロッピーディスク(フロッピーは登録商標)、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリを使用して実行することができ、それらは、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)。従って、デジタル記憶媒体はコンピュータ可読であり得る。
【0264】
本願発明によるいくつかの実施形態は、本明細書に記載の方法のうちの1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読取り可能な制御信号を有するデータ担体を含む。
【0265】
一般に、本願発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作するときに方法のうちの1つを実行するように動作可能である。プログラムコードは、例えば機械可読キャリアに格納してもよい。
【0266】
他の実施形態は、機械可読キャリアに格納された、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを含む。
【0267】
換言すれば、本願発明の方法の一実施形態は、従って、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0268】
従って、本願発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを記録したデータ担体(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データ担体、デジタル記憶媒体、または記録された媒体は通常、有形および/または非一時的である。
【0269】
従って、本願発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは一連の信号は、例えばインターネットなどのデータ通信接続を介して転送されるように構成されてもよい。
【0270】
さらなる実施形態は、本明細書に記載の方法のうちの1つを実行するように構成または適合された処理手段、例えばコンピュータ、またはプログラマブルロジックデバイスを含む。
【0271】
さらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
【0272】
本願発明によるさらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを(例えば、電子的または光学的に)レシーバに転送するように構成された装置またはシステムを含む。レシーバは、例えば、コンピュータ、モバイル機器、メモリ機器などであり得る。装置またはシステムは、例えば、コンピュータプログラムをレシーバに転送するためのファイルサーバを含み得る。
【0273】
いくつかの実施形態では、プログラマブルロジックデバイス(例えばフィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部または全部を実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法のうちの1つを実行するためにマイクロプロセッサと協働し得る。一般に、方法は、任意のハードウェア装置によって実行されることが好ましい。
【0274】
本明細書に記載の装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組合せを使用して実施することができる。
【0275】
本明細書に記載の装置、または本明細書に記載の装置の任意の構成要素は、少なくとも部分的にハードウェアおよび/またはソフトウェアで実施することができる。
【0276】
本明細書に記載の方法は、ハードウェア装置を使用して、またはコンピュータを使用して、あるいはハードウェア装置とコンピュータとの組み合わせを使用して実行することができる。
【0277】
本明細書に記載の方法、または本明細書に記載の装置の任意の構成要素は、少なくとも部分的にハードウェアおよび/またはソフトウェアによって実行され得る。
【0278】
上述の実施形態は、本願発明の原理を説明するための例示にすぎない。本明細書に記載された配置および詳細の修正および変形は、他の当業者にとって明らかであろうことが理解される。従って、差し迫った特許請求の範囲によってのみ限定され、本明細書の実施形態の記述または説明のために提示された具体的な詳細によっては限定されないことが意図されている。