(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-19
(54)【発明の名称】1つ以上のシーン構成パケット、1つ以上のシーン更新パケット、1つ以上のシーンペイロードパケットを含む複数のパケットを用いる、オーディオデコーダ、オーディオエンコーダ、復号方法、符号化方法及びビットストリーム
(51)【国際特許分類】
G10L 19/008 20130101AFI20241112BHJP
【FI】
G10L19/008 200
G10L19/008 100
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024527298
(86)(22)【出願日】2022-11-09
(85)【翻訳文提出日】2024-07-02
(86)【国際出願番号】 EP2022081340
(87)【国際公開番号】W WO2023083896
(87)【国際公開日】2023-05-19
(32)【優先日】2021-11-09
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】ディッシュ・ザシャ
(72)【発明者】
【氏名】シュヴェア・ジモン
(72)【発明者】
【氏名】ハッサン・カーリールポーター
(57)【要約】
本発明による実施形態は、符号化オーディオ表現に基づいて、復号化オーディオ表現を提供するためのオーディオデコーダに関し、前記オーディオデコーダは、1つ以上のオーディオ信号を空間的にレンダリングするように構成されており、前記オーディオデコーダは、異なるパケットタイプの複数のパケットを受信するように構成されており、前記パケットは、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する1つ以上のシーン構成パケットを含み、前記パケットは、前記レンダリングのためのシーンメタデータの更新を定義する1つ以上のシーン更新パケットを含み、前記パケットは、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義を含む1つ以上のシーンペイロードパケットを含み、前記オーディオデコーダは、前記レンダラ構成情報に応じて、前記レンダリングのために、前記シーンペイロードパケットに含まれている1つ以上のシーンオブジェクトの定義及び/又は1つ以上のシーン特性の定義を、選択するように構成されており、前記オーディオデコーダは、前記1つ以上のシーン更新パケットのコンテンツに応じて、1つ以上のシーンメタデータを更新するように構成されている、オーディオデコーダ。更なる実施形態は、エンコーダ、方法、及びビットストリームに関する。
更なる実施形態は、更新条件を有するシーン更新パケットを有するデコーダ、エンコーダ、方法及びビットストリームに関し、シーン構成パケットは、レンダリングシナリオの時間的展開を定義するレンダラ構成情報を、タイムスタンプ情報及び/又はサブシーンセル情報と共に提供し、セル情報は、1つ以上のセルとそれぞれの1つ以上のデータ構造との間の関連付けを定義する。
【特許請求の範囲】
【請求項1】
符号化オーディオ表現(102,104,202,204)に基づいて、復号化オーディオ表現(106,206)を提供するためのオーディオデコーダ(100,200)であって、
前記オーディオデコーダは、1つ以上のオーディオ信号を空間的にレンダリングするように構成されており、
前記オーディオデコーダは、異なるパケットタイプの複数のパケット(104,204,322)を受信するように構成されており、
前記パケットは、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する1つ以上のシーン構成パケットを含み、
前記パケットは、前記レンダリングのためのシーンメタデータ(130,230)の更新を定義する1つ以上のシーン更新パケットを含み、
前記パケットは、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義を含む1つ以上のシーンペイロードパケットを含み、
前記オーディオデコーダは、前記レンダラ構成情報に応じて、前記レンダリングのために、前記シーンペイロードパケットに含まれている1つ以上のシーンオブジェクトの定義及び/又は1つ以上のシーン特性の定義を、選択するように構成されており、
前記オーディオデコーダは、前記1つ以上のシーン更新パケットのコンテンツに応じて、1つ以上のシーンメタデータを更新するように構成されている、
オーディオデコーダ(100,200)。
【請求項2】
前記オーディオデコーダは、シーン構成パケットに基づいて、レンダリング構成を決定するように構成されており、
前記オーディオデコーダは、1つ以上のシーン更新パケットに基づいて、前記レンダリング構成の更新を決定するように構成されている、
請求項1に記載のオーディオデコーダ(100,200)。
【請求項3】
前記1つ以上のシーン更新パケットは、変更されるシーンメタデータ項目の列挙を含み、
前記列挙は、変更される1つ以上のメタデータ項目について、メタデータ識別子及びメタデータ更新値を含む、
請求項1又は2に記載のオーディオデコーダ(100,200)。
【請求項4】
前記オーディオデコーダは、前記1つ以上のシーンペイロードパケットから、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義を取得するように構成されている、
請求項1から3のいずれか一項に記載のオーディオデコーダ(100,200)。
【請求項5】
前記1つ以上のシーンペイロードパケットは、シーンオブジェクト及び/又はシーン特性を定義するペイロードの列挙を含み、
前記オーディオデコーダは、シーンオブジェクト及び/又はシーン特性を定義するペイロードの前記列挙を評価するように構成されている、
請求項1から4のいずれか一項に記載のオーディオデコーダ(100,200)。
【請求項6】
ペイロード識別子はシーンペイロードパケット内の前記ペイロードに関連付けられており、
前記オーディオデコーダは、所与のペイロードが前記レンダリングに使用されるべきかどうかを決定するために、前記所与のペイロードの前記ペイロード識別子を評価するように構成されている、
請求項1から5のいずれか一項に記載のオーディオデコーダ(100,200)。
【請求項7】
前記シーン更新パケットのうちの1つ以上はシーン更新のための条件を定義し、
前記オーディオデコーダは、シーン更新パケットにおいて定義された前記シーン更新のための前記条件が満たされているかどうかを評価して、前記シーン更新が行われるべきかどうかを決定するように構成されている、
請求項1から6のいずれか一項に記載のオーディオデコーダ(100,200)。
【請求項8】
前記シーン更新パケットのうちの1つ以上は対話型トリガ条件を定義し、
前記オーディオデコーダは、前記対話型トリガ条件が満たされているかどうかを評価して、前記シーン更新が行われるべきかどうかを決定するように構成されている、
請求項1から7のいずれか一項に記載のオーディオデコーダ(100,200)。
【請求項9】
前記1つ以上のシーン構成パケット及び1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットは、MPEG-H MHASパケット定義に適合している、
請求項1から8のいずれか一項に記載のオーディオデコーダ(100,200)。
【請求項10】
前記1つ以上のシーン構成パケット及び前記1つ以上のシーン更新パケット及び前記1つ以上のシーンペイロードパケットは、各々、パケットタイプ識別子と、パケットラベルと、パケット長情報と、パケットペイロードとを含む、
請求項1から9のいずれか一項に記載のオーディオデコーダ。
【請求項11】
前記オーディオデコーダは、レンダリングされる1つ以上のオーディオチャネルを表すパケットを含む、複数のMPEG-Hパケットを含むビットストリーム(208)から、前記1つ以上のシーン構成パケット、前記1つ以上のシーン更新パケット、及び前記1つ以上のシーンペイロードパケットを抽出するように構成されている、
請求項1から10のいずれか一項に記載のオーディオデコーダ(100,200)。
【請求項12】
前記オーディオデコーダは、ブロードキャストストリームを介して前記1つ以上のシーン構成パケットを受信するように構成されている、
請求項1から11のいずれか一項に記載のオーディオデコーダ(100,200)。
【請求項13】
前記オーディオデコーダは、パケットプロバイダから前記1つ以上のシーンペイロードパケットを要求する(201)ように構成されている、
請求項1から12のいずれか一項に記載のオーディオデコーダ(100,200)。
【請求項14】
前記オーディオデコーダは、ペイロードIDを用いて、前記パケットプロバイダから前記1つ以上のシーンペイロードパケットを要求する(201)ように構成されている、又は、
前記オーディオデコーダは、パケットIDを用いて、前記パケットプロバイダから前記1つ以上のシーンペイロードパケットを要求するように構成されている、
請求項1から13のいずれか一項に記載のオーディオデコーダ。
【請求項15】
前記オーディオデコーダは、どの1つ以上のデータ構造が必要とされるか、又は必要とされると予想されるかを予期し、前記データ構造が実際に必要とされる前に、前記1つ以上のデータ構造、又は前記1つ以上のデータ構造を含む1つ以上のシーンペイロードパケットを要求する(201)ように構成されている、
請求項1から14のいずれか一項に記載のオーディオデコーダ(100,200)。
【請求項16】
前記オーディオデコーダは、どの1つ以上のシーンペイロードパケットが所定の期間内に必要であるか、又は必要とされることになるかを示す情報をパケットプロバイダに提供するように構成されている、
請求項1から15のいずれか一項に記載のオーディオデコーダ(100,200)。
【請求項17】
前記1つ以上のシーン更新パケットは、前記レンダリングのためのシーンメタデータ(130,230)の更新を定義し、1つ以上の更新条件の表現を含み、
前記オーディオデコーダは、前記1つ以上の更新条件が満たされているかどうかを評価し、前記1つ以上の更新条件が満たされている場合、前記1つ以上のシーン更新パケットのコンテンツに応じて、1つ以上のシーンメタデータ(130,230)を選択的に更新するように構成されている、
請求項1から16のいずれか一項に記載のオーディオデコーダ(100,200)。
【請求項18】
符号化オーディオ表現を提供するための装置(300)であって、
前記装置は、1つ以上のオーディオ信号の空間レンダリングのための情報を提供するように構成されており、
前記装置は、異なるパケットタイプの複数のパケット(104,204,322)を提供するように構成されており、
前記パケットは、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する1つ以上のシーン構成パケットを含み、
前記パケットは、前記レンダリングのためのシーンメタデータの更新を定義する1つ以上のシーン更新パケットを含み、
前記パケットは、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義を含む1つ以上のシーンペイロードパケットを含む、
装置(300)。
【請求項19】
前記装置は、前記レンダリングのために、前記レンダラ構成情報が、前記シーンペイロードパケットに含まれる1つ以上のシーンオブジェクトの定義及び/又は1つ以上のシーン特性の定義の選択を定義するように、前記シーン構成パケットに含まれる前記レンダラ構成情報を提供するように構成されている、
請求項18に記載の装置(300)。
【請求項20】
前記装置は、前記1つ以上のシーン更新パケットのコンテンツが1つ以上のシーンメタデータ(130,230)の更新を定義するように、前記1つ以上のシーン更新パケットを提供するように構成されている、
請求項18又は19に記載の装置(300)。
【請求項21】
前記装置は、前記シーン構成パケットがレンダリング構成を決定するように、前記シーン構成パケットを提供するように構成されており、
前記装置は、前記シーン更新パケットが前記レンダリング構成の更新を定義するように、前記シーン更新パケットを提供するように構成されている、
請求項18から20のいずれか一項に記載の装置(300)。
【請求項22】
前記装置は、前記1つ以上のシーン構成パケット及び前記1つ以上のシーン更新パケット及び前記1つ以上のシーンペイロードパケットが、MPEG-H MHASパケット定義に適合するように、前記1つ以上のシーン構成パケット及び前記1つ以上のシーン更新パケット及び前記1つ以上のシーンペイロードパケットを提供するように構成されている、
請求項18から21のいずれか一項に記載の装置(300)。
【請求項23】
前記装置は、前記1つ以上のシーン構成パケット及び前記1つ以上のシーン更新パケット及び前記1つ以上のシーンペイロードパケットが、各々、パケットタイプ識別子と、パケットラベルと、パケット長情報と、パケットペイロードとを含むように、前記1つ以上のシーン構成パケット及び前記1つ以上のシーン更新パケット及び前記1つ以上のシーンペイロードパケットを提供するように構成されている、
請求項18から22のいずれか一項に記載の装置(300)。
【請求項24】
前記装置は、レンダリングされる1つ以上のオーディオチャネルを表すパケットを含む、複数のMPEG-Hパケットを含むビットストリーム内の前記1つ以上のシーン構成パケット、前記1つ以上のシーン更新パケット、及び前記1つ以上のシーンペイロードパケットを提供するように構成されている、
請求項18から23のいずれか一項に記載の装置(300)。
【請求項25】
前記装置は、ブロードキャストストリームを介して前記シーン構成パケットを提供するように構成されている、
請求項18から24のいずれか一項に記載の装置(300)。
【請求項26】
前記装置は、オーディオデコーダからの要求に応答して、前記1つ以上のシーンペイロードパケットを提供するように構成されている、
請求項18から25のいずれか一項に記載の装置(300)。
【請求項27】
前記装置は、ペイロードIDを含むオーディオデコーダからの要求に応答して、前記1つ以上のシーンペイロードパケットを提供するように構成されており、又は、
前記装置は、パケットIDを含むオーディオデコーダからの要求に応答して、前記1つ以上のシーンペイロードパケットを提供するように構成されている、
請求項18から26のいずれか一項に記載の装置(300)。
【請求項28】
前記装置は、どの1つ以上のシーンペイロードパケットが必要であるか、又は所定の期間内に必要とされることになるかを示す情報に応答して、前記1つ以上のシーンペイロードパケットを提供するように構成されている、
請求項18から27のいずれか一項に記載の装置(300)。
【請求項29】
前記装置は、前記レンダリングのために、前記1つ以上のシーン更新パケットがシーンメタデータ(130,230)の更新を定義し、1つ以上の更新条件の表現を含むように、前記1つ以上のシーン更新パケットを提供するように構成されている、
請求項18から28のいずれか一項に記載の装置(300)。
【請求項30】
前記装置は、前記シーン構成パケットの提供を周期的に繰り返すように構成されている、
請求項18から29のいずれか一項に記載の装置(300)。
【請求項31】
前記装置は、前記シーン構成パケットが、空間及び時間の所与のポイントにおいて、どのシーンペイロードパケットが必要であるかを定義するように、前記シーン構成パケットを提供するように構成されている、
請求項18から30のいずれか一項に記載の装置(300)。
【請求項32】
前記装置は、前記シーン構成パケットが、シーンペイロードパケットを取り出すことができる場所を定義するように、前記シーン構成パケットを提供するように構成されている、
請求項18から31のいずれか一項に記載の装置(300)。
【請求項33】
前記装置は、前記シーン更新パケットがシーン更新のための条件を定義するように、前記シーン更新パケットを提供するように構成されている、
請求項18から32のいずれか一項に記載の装置(300)。
【請求項34】
前記装置は、前記シーン更新パケットがシーン更新のための対話型トリガ条件を定義するように、前記シーン更新パケットを提供するように構成されている、
請求項18から33のいずれか一項に記載の装置(300)。
【請求項35】
前記装置は、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義がレンダラ(100,200)によっていつ及び/又はどこで必要とされるかに応じて、前記シーンペイロードパケット内の前記シーンオブジェクトのうちの1つ以上の前記定義及び/又は前記シーン特性のうちの1つ以上の前記定義の順序を適合させるように構成されている、
請求項18から34のいずれか一項に記載の装置(300)。
【請求項36】
前記装置は、レンダラ(100,200)に対する、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義の重要性に応じて、前記シーンペイロードパケット内の前記シーンオブジェクトのうちの1つ以上の前記定義及び/又は前記シーン特性のうちの1つ以上の前記定義の順序を適合させるように構成されている、
請求項18から35のいずれか一項に記載の装置(300)。
【請求項37】
前記装置は、パケットサイズ制限に応じて、前記シーンペイロードパケット内の前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義の順序を適合させるように構成されている、
請求項18から36のいずれか一項に記載の装置(300)。
【請求項38】
前記装置は、最初に比較的低い詳細レベルを含むペイロードパケットを提供し、後に比較的高い詳細レベルを含むペイロードパケットを提供するように構成されている、
請求項18から37のいずれか一項に記載の装置(300)。
【請求項39】
前記装置は、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義を複数のシーンペイロードパケットに分離するように構成されており、
前記装置は、異なる時間に前記異なるシーンペイロードパケットを提供するように構成されている、
請求項18から38のいずれか一項に記載の装置(300)。
【請求項40】
前記装置は、シーンを、異なるレンダリングメタデータ(130,230)が有効である複数の空間領域に分解するために、前記シーン構成パケットを提供するように構成されている、
請求項18から39のいずれか一項に記載の装置(300)。
【請求項41】
符号化オーディオ表現に基づいて、復号化オーディオ表現を提供するための方法(400)であって、
前記方法は、1つ以上のオーディオ信号を空間的にレンダリングすること(410)を含み、
前記方法は、異なるパケットタイプの複数のパケット(104,204,322)を受信すること(420)を含み、
前記パケットは、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する1つ以上のシーン構成パケットを含み、
前記パケットは、前記レンダリングのためのシーンメタデータの更新を定義する1つ以上のシーン更新パケットを含み、
前記パケットは、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義を含む1つ以上のシーンペイロードパケットを含み、
前記方法は、前記レンダラ構成情報に応じて、前記レンダリングのために、前記シーンペイロードパケットに含まれている1つ以上のシーンオブジェクトの定義及び/又は1つ以上のシーン特性の定義を、選択すること(440)を含み、
前記方法は、前記1つ以上のシーン更新パケットのコンテンツに応じて、1つ以上のシーンメタデータを更新すること(450)を含む、
方法(400)。
【請求項42】
符号化オーディオ表現を提供するための方法(500)であって、
前記方法は、1つ以上のオーディオ信号の空間レンダリングのための情報を提供すること(510)を含み、
前記方法は、異なるパケットタイプの複数のパケット(104,204,322)を提供すること(520)を含み、
前記パケットは、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する1つ以上のシーン構成パケットを含み、
前記パケットは、前記レンダリングのためのシーンメタデータの更新を定義する1つ以上のシーン更新パケットを含み、
前記パケットは、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義を含む1つ以上のシーンペイロードパケットを含む、方法(500)。
【請求項43】
コンピュータプログラムがコンピュータ上で実行されるときに請求項41又は42に記載の方法を実行するための、前記コンピュータプログラム。
【請求項44】
オーディオコンテンツを表すビットストリーム(208,302,306)であって、
前記ビットストリームは、異なるパケットタイプの複数のパケット(104,204,322)を含み、
前記パケットは、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する1つ以上のシーン構成パケットを含み、
前記パケットは、前記レンダリングのためのシーンメタデータ(130,230)の更新を定義する1つ以上のシーン更新パケットを含み、
前記パケットは、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義を含む1つ以上のシーンペイロードパケットを含む、
ビットストリーム(208,302,306)。
【請求項45】
符号化オーディオ表現(102,104,202,204)に基づいて、復号化オーディオ表現(106,206)を提供するためのオーディオデコーダ(100,200)であって、
前記オーディオデコーダは、1つ以上のオーディオ信号を空間的にレンダリングするように構成されており、
前記オーディオデコーダは、異なるパケットタイプの複数のパケット(104,204,322)を受信するように構成されており、
前記パケットは、シーンオブジェクト及び/又はシーン特性を定義するレンダラ構成情報を提供する1つ以上のシーン構成パケットを含み、
前記パケットは、前記レンダリングのためのシーンメタデータ(130,230)の更新を定義する1つ以上のシーン更新パケットを含み、
前記パケットは、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義を含む1つ以上のシーンペイロードパケットを含み、
前記オーディオデコーダは、前記レンダリングのために、前記シーンペイロードパケットに含まれている1つ以上のシーンオブジェクトの定義及び/又は1つ以上のシーン特性の定義を、選択するように構成されており、
前記オーディオデコーダは、前記1つ以上のシーン更新パケットのコンテンツに応じて、1つ以上のシーンメタデータを更新するように構成されている、
オーディオデコーダ(100,200)。
【発明の詳細な説明】
【技術分野】
【0001】
本発明による実施形態は、例えば3つのパケットタイプを使用する、更新条件付きのシーン更新パケットを使用する、タイムスタンプを使用する、及び/又はセル情報を使用する、動的VR(仮想現実)/AR(拡張現実)ビットストリームに関する。
【背景技術】
【0002】
VR及び/又はARアプリケーションに没入型体験を提供するためには、空間視聴体験だけでなく空間聴覚体験も提供するだけでは十分ではない。一例として、そのような必要性を満たすために、6自由度(6DoF)オーディオ技術が開発されている。これに関して、実現可能な帯域幅でも使用可能でありながら、高精細で没入型の聴覚体験を可能にするビットストリーム及び対応するエンコーダ及びデコーダを開発することは困難である。
【0003】
したがって、レンダリングされたオーディオシーンの達成可能な聴覚印象と、オーディオシーンのレンダリングに使用されるデータの送信の効率と、データの復号及び/又はレンダリングの効率との間のより良好な妥協を可能にする概念を得ることが望ましい。
【0004】
これは、本出願の独立請求項の主題によって達成される。
本発明による更なる実施形態は、本出願の従属請求項の主題によって定義される。
【発明の概要】
【0005】
以下では、本発明の第1の態様による実施形態について説明する。本発明の第1の態様による実施形態は、3つのパケットタイプを使用することに基づいてもよい。本発明の第1の態様による実施形態は、例えば、シーン更新パケット及び/又はシーンペイロードパケットを含むことができる。本発明の第1の態様による実施形態は、MPEG-H互換パケットを備えることができ、あるいはMPEG-H互換デコーダ、エンコーダ、及び/又はビットストリームを提供又は備えることができる。
【0006】
本発明による実施形態は、符号化オーディオ表現に基づいて復号され、任意選択でレンダリングされたオーディオ表現を提供するためのオーディオデコーダを備える。オーディオデコーダは、1つ以上のオーディオ信号を空間的にレンダリングし、例えば、MPEG-H MHASパケット定義に適合するパケットタイプを有する、異なるパケットタイプの複数のパケットを受信するように構成され、パケットは、1つ以上のシーン構成パケット、例えば、Scene ConfigPacket、例えば、mpegiSceneConfig[](「mpeghiSceneConfig[]」と呼ばれることもある)を含み、例えば、セルの定義を使用して、異なるシーンオブジェクト及び/又はシーン特性がレンダリングプロセスにおいていつ又はどの条件下で使用されるべきかを定義する、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する。セルの概念は、例えば、サブシーンサポートを実際に実施するために特に重要である。サブシーンは、例えば、シーン時間内の特定のポイント又は所定のシーンロケーションの特定の近傍/近接に関連するシーンの部分である。場合によっては、セル及びサブシーンという用語は同義的に使用され得る。
【0007】
任意選択で、シーン構成パケットは、例えば、どのシーンペイロードパケットが空間及び時間の所与のポイントで必要とされるかを定義することができる。別の任意選択の特徴として、シーン構成パケットは、例えば、シーンペイロードパケットをどこから取り出すことができるかを定義することができる。
【0008】
更に、パケットは、1つ以上のシーン更新パケット、例えば、mpegiSceneUpdate[](「mpeghiSceneUpdate[]」と呼ばれることもある)を含み、レンダリングのためのシーンメタデータの更新、例えば変更を定義する(例えば、1つ以上のメタデータ値の変更、シーンオブジェクトのパラメータの変更又はシーン特性の変更、例えば、再生中に発生するシーンメタデータの変更)。任意選択で、1つ以上のシーン更新パケットは、例えば、シーン更新のための1つ以上の条件を定義し得る。
【0009】
更に、パケットは、シーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義(例えば、バルクメタデータ、例えば、1つ以上のオーディオシーンのレンダリングに必要なメタデータ、例えば、レンダリングのためのオーディオシーンを記述するジオメトリメタデータ、及び/又はレンダリングのためのパラメトリックレンダリング命令、及び/又はレンダリングのためのオーディオシーン内の1つ以上のオーディオ要素を記述するオーディオ要素メタデータ、例えば、指令、及び/又はジオメトリ及び/又はオーディオエフェクトメタデータ、例えば、残響メタデータ、及び/又は初期反射メタデータ、及び/又は回折メタデータ、例えば、MHASPacketPayload()内の例えば、mpegiScenePayload(「mpeghiScenePayload」とも指定される))を含む1つ以上のシーンペイロードパケット(例えば、「mpeghiScenePayload」とも呼ばれることがあるmpegiScenePayload)を含む。
【0010】
加えて、オーディオデコーダは、レンダリングのために、シーンペイロードパケットに含まれている1つ以上のシーンオブジェクトの定義及び/又は1つ以上のシーン特性の定義を、任意選択でシーン構成パケットに含まれていてもよいレンダラ構成情報に応じて選択するように構成される。別の任意選択の特徴として、セルを使用して、どのシーンオブジェクト及び/又はシーン特性を使用すべきかを選択することができる。
【0011】
更に、オーディオデコーダは、1つ以上のシーン更新パケットのコンテンツに応じて、1つ以上のシーンメタデータ(例えば、「targetId」によって指定された1つ以上のレンダリングパラメータであって、1つ以上のレンダリングパラメータの新しい値を「属性」によって指定することができるレンダリングパラメータ)を更新するように構成される。
【0012】
一例として、オーディオデコーダは、レンダラの機能を更に備えてもよく、レンダラ又はレンダリングユニットを備えてもよい。したがって、いくつかの実施形態の文脈では、オーディオデコーダは、レンダラ、例えば復号機能を有するレンダラと同義であってもよい。
【0013】
本発明者らは、少なくとも3つの異なるパケットタイプ、すなわち、シーン構成パケット、シーン更新パケット、及びシーンペイロードパケットを使用することにより、例えば、動的6DoFオーディオシーンのための複雑で動的なオーディオ符号化アプリケーションのためのメタデータを効率的に提供、送信、格納、及び/又は更新することができることを認識した。
【0014】
一例として、シーン構成パケットは、デコーダ(又はレンダラ)がそれ自体を構成するための関連情報を含むか、又は提供することができる。具体的には、これは、例えば、空間及び/又は時間内の任意の所与のポイント(例えば、オーディオシーン又はレンダリングシナリオにおける空間ポジション)で必要とされるシーンペイロードパケット、任意選択で、それらを取り出すことができる場所、例えば専用のクライアント-サーバのバックチャネル、の命令を含むことができる。
【0015】
一方、シーンペイロードパケットは、例えば、バルクメタデータ用のコンテナであってもよく、バルクメタデータは、オーディオストリームのタイムラインに直接関連付けることはできないが、例えば、6 DoFオーディオシーンなどの複雑で動的なオーディオシーンのレンダリングに必要又は有用なメタデータであってもよい。ペイロードパケットは、例えば、オーディオシーンに存在する音響的に関連するオブジェクトのジオメトリ情報、パラメトリックレンダリング命令、及び/又は更なるオーディオ要素メタデータ、例えば反射又は回折特性を含むことができる。言い換えれば、ペイロードパケットは、例えば、指向性、ジオメトリ、及び残響、初期反射又は回折などの個々のオーディオエフェクトのための特別なメタデータを含むことができる。
【0016】
更に、本発明者らは、上述のシーンメタデータを更新するために、第3のクラスのパケット、すなわちシーン更新パケットを定義することが有利であり得ることを認識した。例えば、更新が実行される条件(例えば、時間ベース、及び/又はロケーションベース、及び/又は対話型トリガに基づく)及びシーンに行われた変更を指定することを可能にすることができる。
【0017】
簡単に言えば、一例として、本発明による実施形態は、シーンペイロードパケット内のシーンの音響的に関連する要素及び/又は属性を定義するためのシーンメタデータを提供するという考えに基づくことができる。それぞれのペイロード情報がどのように処理されるべきか、並びに/又はそれぞれのペイロード情報がいつ及び/若しくはどこで(例えば、オーディオシーン又はレンダリングシナリオにおいて)使用されるかに関する情報を提供するために、シーン構成パケットを使用して、レンダラ又はデコーダを対応する構成に設定することができる。そのようなメタデータを更新できるようにするために、更新に関する情報、及び任意選択で更新条件を提供するために、シーン更新パケットが使用され得る。
【0018】
したがって、「測定された」(例えば、実)オーディオシーンは、ペイロード情報を使用して正確に再構築されてもよく、又は仮想オーディオシーンは、現実的にレンダリングされてもよく、デコーダ又はレンダラ構成、並びに情報の送信、記憶、配信、及び更新は、上記で説明した異なるパケットタイプへの分離に基づいて効率的に実行されてもよい。
【0019】
言い換えれば、シーン構成パケット、シーンペイロードパケット、及びシーン更新パケットを含む3つの異なるパケットタイプの使用は、1つ以上のシーン構成パケットに基づいて、どのシーンペイロードパケットが必要であるか、又はシーンペイロードパケットからのどの情報が必要であるかをオーディオデコーダが決定することができるので、シーン情報(例えば、シーンオブジェクト情報及びシーン特性情報)の特に効率的な送信及び評価を可能にする。したがって、オーディオデコーダは、例えば、どのシーンペイロードパケットを格納及び/又は評価するかを決定するためにシーン構成パケットの情報を使用することができ、オーディオデコーダは、例えば、場合によっては、シーンペイロードパケットプロバイダ(例えば、サーバから)からどのシーンペイロードパケットを要求するかを決定するためにシーン構成パケットも使用することができる。加えて、シーン更新パケットは、シーン情報の変化の効率的なシグナリングを可能にし、それによってシーン情報の送信及び処理の高効率に寄与し得る。
【0020】
本発明の更なる実施形態によれば、オーディオデコーダは、シーン構成パケットに基づいてレンダリング構成を決定するように構成される。任意選択で、シーン構成パケットは、例えば、globalPayloadIdを使用してグローバルペイロードパケットを参照することができ、シーン構成パケットは、例えば、payloadIdsをセルに関連付けるセル概念を使用して個々のペイロード(又は個々のペイロードパケット)を参照することができる。更に、オーディオデコーダは、1つ以上のシーン更新パケットに基づいてレンダリング構成の更新を決定するように構成される。
【0021】
セルは、オーディオシーンの空間的及び/又は時間的セグメンテーションを提供することができ、オーディオシーンがレンダリングされるリスナーの現在のポジションは、それぞれのペイロードパケットの要求又は使用をトリガすることができ、例えば、シーン内の音響的に関連するオブジェクトに関するメタデータを定義することができ、例えば、セルに関連するエリア内に空間的に位置し、例えば、現在の再生時間においてアクティブである。
【0022】
本発明の更なる実施形態によれば、1つ以上のシーン更新パケット、例えば、mpegiSceneUpdate()(「mpeghiSceneUpdate()」と呼ばれることもある)は、変更されるシーンメタデータ項目の列挙、例えば、変更されるシーンメタデータ項目の可変数及び変更されるシーンメタデータ項目の可変順序を有する列挙を含む。更に、列挙は、変更される1つ以上のメタデータ項目について、メタデータ識別子、例えばtargetId、及びメタデータ更新値、例えば属性を含む。任意選択で、オーディオデコーダは、列挙に含まれるシーンメタデータを選択的に更新するように構成されてもよい。
【0023】
本発明者らは、これにより、どのメタデータ項目が更新されるかを効率的に示すことができ、それを更新することができることを認識した。
【0024】
本発明の更なる実施形態によれば、オーディオデコーダは、1つ以上のシーンペイロードパケットから、シーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義を取得するように構成される。
【0025】
先に説明したように、本発明者らは、シーンペイロードパケットが音響的に関連するシーンオブジェクト及び/又はシーン特性を効率的に定義することを可能にし得ることを認識した。これらの要素及び/又は特性に基づいて、現実的な音環境レンダリングを実行することができる。
【0026】
本発明の更なる実施形態によれば、1つ以上のシーンペイロードパケットは、シーンオブジェクト及び/又はシーン特性を定義するペイロードの列挙、例えば、可変数のペイロード及び可変順序のペイロードを有する列挙を含む。更に、オーディオデコーダは、シーンオブジェクト及び/又はシーン特性を定義するペイロードの列挙を評価するように構成される。
【0027】
ペイロードの列挙は、どのペイロード、例えばペイロード要素を現在考慮するかの単純な選択を可能にすることができる。更に、どのペイロード要素を更新するかを単純に選択するために、シーン更新パケットによって使用される列挙は、シーンペイロードパケットの列挙に対応し得る。
【0028】
本発明の更なる実施形態によれば、ペイロード識別子、例えばIDは、シーンペイロードパケット内のペイロードに関連付けられ、オーディオデコーダは、所与のペイロード、例えば特定の所与のシーンオブジェクトの定義及び/又は特定のシーン特性を、例えばシーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を使用して、レンダリングに使用すべきかどうかを決定するために、所与のペイロードのペイロード識別子を評価するように構成される。
【0029】
本発明者らは、ペイロード識別子を使用することにより、レンダリングのために考慮すべきペイロードを効率的に選択することができることを認識した。
【0030】
本発明の更なる実施形態によれば、シーン更新パケットのうちの1つ以上はシーン更新のための条件を定義し、オーディオデコーダは、シーン更新パケットにおいて定義されたシーン更新のための条件が満たされているかどうかを評価して、シーン更新が行われるべきかどうかを決定するように構成される。
【0031】
したがって、効率的なシーン更新が実行され得る。条件付き更新の使用は、条件が満たされた後、当該更新を迅速に実行することを可能にすることができ、例えば、条件が満たされたときにそれぞれの更新情報を最初に要求する必要がない。したがって、更新自体に関する情報及びトリガ条件を含むそのような更新は、基準が満たされるまでデコーダが単に「待機」することができるように、必要とされる前にデコーダに送信され得る。
【0032】
本発明の更なる実施形態によれば、シーン更新パケットのうちの1つ以上は、対話型トリガ条件、例えば、ユーザがシーン内の単なる動きを超える特定のアクションを取るという条件、例えば、ユーザが所定のコマンドを与える、又は所定のボタンを起動する条件を定義する。更に、オーディオデコーダは、シーン更新を行うべきかどうかを決定するために、対話型トリガ条件が満たされているかどうかを評価するように構成される。
【0033】
したがって、現実的なオーディオ環境レンダリングを提供することができ、例えば環境(例えば、ボタンを押すこと、例えば、シーンの音響特性の変化を引き起こす仮想的にシミュレートされた機械を起動すること)との現実のタイマーのユーザ対話さえも考慮に入れることができる。
【0034】
本発明の更なる実施形態によれば、1つ以上のシーン構成パケット及び1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットは、MPEG-H MHASパケット定義に適合している。任意選択で、オーディオデコーダは、例えばMPEG-H MHASパケット定義に適合したビットストリーム構文解析を用いて、パケットのストリーム内の1つ以上のシーン構成パケット及び1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットを識別するように構成されてもよい。
【0035】
これにより、既存の符号化フレームワークに簡単に統合することができる。
【0036】
本発明の更なる実施形態によれば、1つ以上のシーン構成パケット及び1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットは各々、パケットタイプ識別子、例えばMHASPacketType、パケットラベル、例えばMHASPacketLabel、パケット長情報、例えばMHASPacketLength、及びパケットペイロード、例えばMHASPAcketPayloadを含む。任意選択で、オーディオデコーダは、異なるパケットタイプのパケットを区別するために、パケットタイプ識別子を評価するように構成されてもよい。
【0037】
一例として、パケットラベルは、どのパケットが共に属するかの指示を提供することができる。例えば、異なるラベルを使用して、異なるMPEG-H 3Dオーディオ構成構造をMPEG-H 3Dオーディオアクセスユニットの特定のシーケンスに割り当てることができる。パケット長情報は、パケットペイロードの長さを示してもよい。本発明者らは、そのようなデータ構造の使用がパケットの効率的な処理を可能にし得ることを認識した。
【0038】
本発明の更なる実施形態によれば、オーディオデコーダは、レンダリングされる1つ以上のオーディオチャネルを表すパケットを含む、複数のMPEG-Hパケットを含むビットストリームから、1つ以上のシーン構成パケット、1つ以上のシーン更新パケット、及び1つ以上のシーンペイロードパケットを抽出するように構成される。
【0039】
任意選択で、オーディオデコーダは、例えば、異なるタイプのパケットを含むパケットのインタリーブされたシーケンス(例えば、MHASパケットのインタリーブされたシーケンスから)から、1つ以上のシーン構成パケット、1つ以上のシーン更新パケット、及び1つ以上のシーンペイロードパケットを抽出するように、例えば、パケット内に含まれるパケットタイプ識別子及び/又はパケットラベルを利用するように構成されてもよい。
【0040】
本発明による実施形態は、MPEG-Hオーディオストリームの文脈において使用されてもよい。したがって、本発明による実施形態は、既存のオーディオストリーミングフレームワークと互換性があり得る。更に、実施形態は、例えば、(例えばインタリーブされた)パケットを提供するために複数の異なるオプションをサポートすることができる。一例として、インタリーブ方式での提供は、それぞれのパケットのサイズを低く保つことを可能にすることができ、これは、いくつかの、例えばブロードキャスト、チャネルにとって有利であり得る。
【0041】
本発明の更なる実施形態によれば、オーディオデコーダは、ブロードキャストストリームを介して、例えば低ビットレートブロードキャストストリームを介して、1つ以上のシーン構成パケットを受信するように構成される。本発明者らは、例えば、多くのユーザを有するアプリケーションのために、シーン構成パケットがブロードキャストストリームを介して効率的に提供され得ることを認識した。
【0042】
本発明の更なる実施形態によれば、オーディオデコーダは、例えばオーディオデコーダによる、1つ以上のシーンペイロードパケット、又は1つ以上のシーンペイロードパケットのコンテンツがレンダリングに必要であるという判定に応答して、例えばパケットプロバイダへのバックチャネルを使用して、パケットプロバイダから1つ以上のシーンペイロードパケットを要求するように構成される。
【0043】
例えば、シーン構成パケットに基づいて、デコーダは、(例えば、どのメタデータ要素が必要であるか、又はどのペイロードが必要であるかを示すことができるレンダラ構成を最初に決定することによって)どのペイロードパケットが必要であるかを決定することができ、したがって、それを要求することができる。これにより、例えば、ブロードキャストチャネルの負担を軽減し、個別に関連する(例えば、デコーダがオーディオシーンをレンダリングしている特定のデコーダ又はリスナーの場合)情報送信をユニキャスト及び/又はマルチキャストチャネルに再割り当てすることが可能になり得る。
【0044】
本発明の更なる実施形態によれば、オーディオデコーダは、ペイロードIDを使用して、例えばペイロード要素に関連付けられたIDを使用して、パケットプロバイダから1つ以上のシーンペイロードパケットを要求するように構成される。あるいは、オーディオデコーダは、パケットIDを用いて、例えばシーンペイロードパケットに関連付けられたIDを用いて、パケットプロバイダから1つ以上のシーンペイロードパケットを要求するように構成される。
【0045】
したがって、実施形態によれば、シーンペイロードパケットは、例えばそれぞれのペイロードパケットのペイロードを表すペイロードIDを使用して、又はパケットIDを使用して識別され得る。これにより、情報の効率的な要求が可能になり得る。
【0046】
本発明の更なる実施形態によれば、オーディオデコーダは、例えば、予測を使用して、どの1つ以上のデータ構造、例えば、どの1つ以上のPayloadElementが必要とされるか、又は必要とされると予想されるかを予期し、例えば、どのセルが次にアクティブになるか、又は次にアクティブになる定義された尤度を有するかを予期し、データ構造が実際に必要とされる前に、1つ以上のデータ構造、又は当該1つ以上のデータ構造を含む1つ以上のシーンペイロードパケットを要求するように構成される。
【0047】
本発明者らは、例えば、バッファ時間が必要ないことを確実にするために、例えば、流暢な、又は滑らかなオーディオシーン再構築を可能にするために、そのような予測が実行され得ることを認識した。例えば、予期しない帯域幅の低下は、必要なデータ構造の適時の予測、したがってそれらが必要とされる前のその送信に基づいて緩和され得る。
【0048】
本発明の更なる実施形態によれば、オーディオデコーダは、例えば、どの1つ以上のシーンペイロードパケットが必要であるか、又は所定の期間内に必要とされるかを、少なくとも暗黙的に示す情報、例えば、ポジション情報、又は再生時間情報、又はシーン時間をパケットプロバイダに提供するように構成され、それによって、パケットプロバイダが、例えば、ポイントツーポイント送信を使用して、オーディオデコーダによって必要とされるか、又は所定の期間内にオーディオデコーダによって必要とされるパケットをオーディオデコーダに選択的に提供することを可能にする。
【0049】
したがって、要求されたシーンペイロードパケットの送信を考慮に入れるために、以下に提供されるビットストリームを最適化することができる。更に、このようにして、例えば、必要な情報が必要なときにデコーダに存在することが保証されるか、又は少なくとも非常に可能性が高いように、タイミング制約をロバストに満たすことを可能にするスケジューリングを決定することができる。
【0050】
一般に、パケットプロバイダは、例えば、本明細書に開示されるような実施形態のいずれかによるエンコーダであってもよいことに留意されたい。
【0051】
本発明の更なる実施形態によれば、1つ以上のシーン更新パケット、例えば、mpegiSceneUpdate[](「mpeghiSceneUpdate[]」と呼ばれることもある)は、レンダリングのためのシーンメタデータの更新、例えば、シーンオブジェクトのパラメータの変更又はシーン特性の変更を定義し、1つ以上の更新条件の表現を含む。更に、オーディオデコーダは、1つ以上の更新条件が満たされているかどうかを評価し、1つ以上の更新条件が満たされている場合、1つ以上のシーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータを選択的に更新するように構成され、例えば、それによって、タイムスタンプに対応するレンダリングシナリオを決定する。
【0052】
したがって、シーン更新パケットは、更新自体を提供するだけでなく、いつ、及び/又はどこで(例えば、音響シーン内で空間的に、及び/又はどのペイロードをそれぞれ)更新すべきかの条件も提供し得る。したがって、更新情報は、更新が必要とされる前に提供されてもよく、したがって、バッファ時間を防止することができ、リアルタイムのオーディオシーン適応を可能にする。一例として、条件は、ドアの開放であってもよく、その結果、周囲のVR内のユーザがドアを開くと、シーンは、音響的に変化した特性に関して直ちに更新され得る。
【0053】
以下の実施形態では、符号化オーディオ表現を提供するための装置、例えばエンコーダに関する実施形態が説明される。そのような実施形態は、デコーダに関連する上記の実施形態と同じ又は類似の又は対応する考慮事項に基づくことができることに留意されたい。したがって、以下の実施形態は、個別に、及び組み合わせて、上記で開示された実施形態と同じ、類似の、又は対応する特徴、機能及び詳細を含むことができる。
【0054】
したがって、本発明による更なる実施形態は、符号化オーディオ表現を提供するための装置、例えばオーディオエンコーダ又はオーディオサーバを備え、装置は、1つ以上のオーディオ信号の空間レンダリングのための情報を提供するように構成され、装置は、例えば、MPEG-H MHASパケット定義に適合するパケットタイプを有する、異なるパケットタイプの複数のパケットを提供するように構成される。
【0055】
更に、パケットは、1つ以上のシーン構成パケット、例えば、Scene ConfigPacket、例えば、mpegiSceneConfig[](「mpeghiSceneConfig」と呼ばれることもある)を含み、例えば、セルの定義を使用して、異なるシーンオブジェクト及び/又はシーン特性がレンダリングプロセスにおいていつ又はどの条件下で使用されるべきかを定義する、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する。
【0056】
更に、パケットは、1つ以上のシーン更新パケット、例えば、mpegiSceneUpdate[](「mpeghiSceneUpdate」と呼ばれることもある)を含み、レンダリングのためのシーンメタデータの更新を定義する(例えば、1つ以上のメタデータ値の変更、シーンオブジェクトのパラメータの変更又はシーン特性の変更、例えば、1つ以上のメタデータ値の変更)。
【0057】
更に、パケットは、シーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義、例えば、バルクメタデータ、例えば、1つ以上のオーディオシーンのレンダリングに必要なメタデータ、例えば、レンダリングのためのオーディオシーンを記述するジオメトリメタデータ、及び/又はレンダリングのためのパラメトリックレンダリング命令、及び/又はレンダリングのためのオーディオシーン内の1つ以上のオーディオ要素を記述するオーディオ要素メタデータを含む、1つ以上のシーンペイロードパケットを含む。
【0058】
本発明の更なる実施形態によれば、装置は、レンダリングのために、レンダラ構成情報が、シーンペイロードパケットに含まれる1つ以上のシーンオブジェクトの定義及び/又は1つ以上のシーン特性の定義の選択を定義するように、シーン構成パケットに含まれるレンダラ構成情報を提供するように構成される。
【0059】
したがって、オーディオシーンは、没入的な方法及び/又は高詳細レベルであってもよく、又はそのようにレンダリングされてもよい。
【0060】
本発明の更なる実施形態によれば、装置は、1つ以上のシーン更新パケットのコンテンツが1つ以上のシーンメタデータの更新を定義するように、1つ以上のシーン更新パケットを提供するように構成される。
【0061】
本発明の更なる実施形態によれば、本装置は、シーン構成パケットがレンダリング構成を決定するように、シーン構成パケットを提供するように構成されており、本装置は、シーン更新パケットがレンダリング構成の更新を定義するように、シーン更新パケットを提供するように構成されている。
【0062】
本発明の更なる実施形態によれば、本装置は、1つ以上のシーン構成パケット及び1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットは、MPEG-H MHASパケット定義に適合するように、1つ以上のシーン構成パケット及び1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットを提供するように構成される。
【0063】
本発明の更なる実施形態によれば、本装置は、1つ以上のシーン構成パケット及び1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットは各々、パケットタイプ識別子、例えばMHASPacketType、パケットラベル、例えばMHASPacketLabel、パケット長情報、例えばMHASPacketLength、及びパケットペイロード、例えばMHASPAcketPayloadを含むように、1つ以上のシーン構成パケット及び1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットを提供するように構成される。
【0064】
本発明の更なる実施形態によれば、装置は、レンダリングされる1つ以上のオーディオチャネルを表すパケットを含む、例えば、インタリーブ方式で複数のMPEG-Hパケットを含むビットストリーム内の、1つ以上のシーン構成パケット及び1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットを提供するように構成される。
【0065】
任意選択で、オーディオデコーダは、例えば、異なるタイプのパケットを含むパケットのインタリーブされたシーケンス(例えば、MHASパケットのインタリーブされたシーケンスから)から、1つ以上のシーン構成パケット、1つ以上のシーン更新パケット、及び1つ以上のシーンペイロードパケットを抽出するように、例えば、パケット内に含まれるパケットタイプ識別子及び/又はパケットラベルを利用するように構成されてもよい。
【0066】
したがって、より小さいデータ部分は、例えば、インタリーブ方式で送信され得る。例えば、ブロードキャストシナリオでは、これにより、ブロードキャストビットストリームデータレートを低く保つことが可能になり得る。そのような場合、一例として、ペイロードパケットは、別個のクライアント-サーバチャネルを使用して任意選択で提供されてもよい。
【0067】
本発明の更なる実施形態によれば、本装置は、ブロードキャストストリームを介して、例えば低ビットレートブロードキャストストリームを介してシーン構成パケットを提供し、任意選択で、シーン時間及び/又はユーザポジションに依存するシーンペイロードパケットを提供するように構成される。
【0068】
本発明の更なる実施形態によれば、装置は、オーディオデコーダからの要求に応答して、例えばオーディオデコーダによる、1つ以上のシーンペイロードパケット、又は1つ以上のシーンペイロードパケットのコンテンツが、例えば、オンデマンドで、レンダリングに必要であるという判定に応答して、1つ以上のシーンペイロードパケットを提供するように構成される。これにより、ペイロードパケットを効率的に提供することができる。
【0069】
本発明の更なる実施形態によれば、装置は、例えばペイロード要素に関連付けられたIDを使用して、ペイロードIDを含むオーディオデコーダからの要求に応答して1つ以上のシーンペイロードパケットを提供するように構成される。あるいは、装置は、例えばシーンペイロードパケットに関連付けられたIDを使用して、パケットIDを含むオーディオデコーダからの要求に応答して、1つ以上のシーンペイロードパケットを提供するように構成される。
【0070】
本発明の更なる実施形態によれば、装置は、例えば、どの1つ以上のシーンペイロードパケットが必要であるか、又は所定の期間内に必要とされるかを、少なくとも暗黙的に示す情報、例えば、ポジション情報、又は再生時間情報、又はシーン時間に応じて1つ以上のシーンペイロードパケットを提供するように構成され、例えば、その結果、装置は、例えば、ポイントツーポイント送信を使用して、オーディオデコーダによって必要とされるパケット、又は所定の期間内にオーディオデコーダによって必要とされるパケットをオーディオデコーダに選択的に提供し得る。
【0071】
本発明の更なる実施形態によれば、装置は、1つ以上のシーン更新パケット、例えば、mpegiSceneUpdate[](「mpeghiSceneUpdate 」と呼ばれることもある)は、レンダリングのためのシーンメタデータの更新、例えば、シーンオブジェクトのパラメータの変更又はシーン特性の変更を定義し、1つ以上の更新条件の表現を含むように、1つ以上のシーン更新パケットを提供するように構成されている。
【0072】
本発明の更なる実施形態によれば、本装置は、シーン構成パケット、又はシーン構成パケット及び1つ以上のシーンペイロードパケット、及び任意選択で1つ以上のシーン更新パケットのシーケンスの提供さえも周期的に繰り返すように構成される。これにより、それぞれのデコーダ又はレンダラの簡単な調整が可能になり得る。
【0073】
本発明の更なる実施形態によれば、本装置は、シーン構成パケットが、空間及び時間の所与のポイントにおいてどのシーンペイロードパケットが必要であるかを定義するように、シーン構成パケットを提供するように構成される。
【0074】
本発明の更なる実施形態によれば、本装置は、シーン構成パケットが、シーンペイロードパケットをどこから取り出すことができるかを定義するように、シーン構成パケットを提供するように構成される。したがって、それぞれのデコーダ又はレンダラは、それぞれの必要なペイロードパケットを個別に要求することができる。
【0075】
本発明の更なる実施形態によれば、装置は、シーン更新パケットがシーン更新のための条件を定義するように、シーン更新パケットを提供するように構成される。
【0076】
本発明の更なる実施形態によれば、装置は、シーン更新パケットが、シーン更新のために、対話型トリガ条件(例えば、ユーザがシーン内の単なる動きを超える特定のアクションを取るという条件、例えば、ユーザが所定のコマンドを与える、又は所定のボタンを起動する条件)を定義するように、シーン更新パケットを提供するように構成される。
【0077】
本発明の更なる実施形態によれば、装置は、シーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義がレンダラによっていつ及び/又はどこで必要とされるかに応じて、シーンペイロードパケット内のシーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義の順序を適合させるように構成される。
【0078】
これにより、シーンオブジェクト又は特性を記述するペイロードの送信を効率的にスケジュールすることができる。一例として、シーン時間又は再生時間に基づいて、音響的に関連するオブジェクトの関連性を決定することができ、したがって送信の順序を設定することができる。別の例として、仮想音響シーン内のリスナーのポジションに基づいて、その順序に基づいて、このポジションに近い音響的に関連するオブジェクトをより早く送信することができ、例えば、リスナーの空間トリガ条件が満たされた場合には、シーンを中断することなく詳細にレンダリングすることができる(簡単に言えば、リスナーが実際のロケーションの近くの別のポジションに移動した場合、新しいポジションの音響特性に関するそれぞれの情報は、例えばすぐに利用可能であり得る)。
【0079】
本発明の更なる実施形態によれば、装置は、レンダラに対する、シーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義の重要性に応じて、シーンペイロードパケット内のシーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義の順序を適合させるように構成される。
【0080】
したがって、順序は、例えば、それぞれのオブジェクト又は特性の音響的影響に従って選択されてもよい。これにより、実施形態による詳細レベルの概念を組み込むことが更に可能になり得る。
【0081】
本発明の更なる実施形態によれば、装置は、パケットサイズ制限に応じて、シーンペイロードパケット内のシーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義の順序を適合させるように構成される。
【0082】
したがって、実施形態は、その送信のために所望のパケットサイズを提供するために、シーンオブジェクト及び/又はシーン特性の定義を分散させることを可能にすることができ、例えば、他のパケットとインタリーブ方式でそれを効率的に提供するために小さいパケットサイズを実現することを可能にする。
【0083】
本発明の更なる実施形態によれば、装置は、最初に比較的低い詳細レベルを含むペイロードパケットを提供し、後に比較的高い詳細レベルを含むペイロードパケットを提供するように構成される。
【0084】
これにより、例えば十分に良好な通信チャネルが与えられると、後に洗練され得るシーンのレンダリングのための最小量の情報を最初に提供することが可能になり得る。したがって、オーディオシーンをロバストに提供することができる。
【0085】
本発明の更なる実施形態によれば、装置は、シーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義(例えば、バルクメタデータ、例えば、1つ以上のオーディオシーンのレンダリングに必要なメタデータ、例えば、レンダリングのためのオーディオシーンを記述するジオメトリメタデータ、及び/又はレンダリングのためのパラメトリックレンダリング命令、及び/又はレンダリングのためのオーディオシーン内の1つ以上のオーディオ要素を記述するオーディオ要素メタデータ)を、複数のシーンペイロードパケット、例えば、異なる時点(例えば、異なる再生時間)及び/又はシーンの空間内の異なるロケーションに関連するシーンペイロードパケットに分離するように構成される。
【0086】
更に、装置は、例えば異なる時間に、例えば、それぞれのシーンペイロードパケットに含まれるシーン特性がどの再生時間及び/又はシーン内のどのポジションで必要とされるかの判定に従う異なる時間に、異なるシーンペイロードパケットを提供するように構成される。
【0087】
したがって、本発明者らは、簡単に言えば、より小さいペイロードパケットの拡散が、効率的なビットストリームを提供することを可能にし得ることを認識した。
【0088】
本発明の更なる実施形態によれば、装置は、シーンを複数の空間領域、例えばエリア又はボリューム、例えば、異なるレンダリングメタデータが有効である、ジオメトリオブジェクトによって定義される形状を含む空間領域に分解するためにシーン構成パケットを提供するように構成される。
【0089】
本発明者らは、複数の空間領域におけるシーン分解が、現実的な音響シーンを提供するために、例えば、時間及び/又は空間に関して、例えばペイロードで表される音響的に関連する要素のアクティブ化を効率的に編成又はスケジュール又は操作することを可能にし得ることを認識した。一例として、例えば更なる実施形態の文脈で説明したようなセルは、そのようなシーン分解のために、並びに詳細レベルの概念のために使用することができ、したがって、一例として、1つのセルが別のセルに関連する音響要素のための精緻化情報を提供することができるように、例えばオーバーラップし得る異なるセル内の空間及び/又は時間内のオーディオシーンを分離することができる。
【0090】
以下の実施形態では、復号及び符号化オーディオ表現を提供するための方法に関する実施形態が説明される。そのような実施形態は、装置に関連する上記の実施形態と同じ又は類似の又は対応する考慮事項に基づくことができることに留意されたい。したがって、以下の実施形態は、個別に、及び組み合わせて、上記で開示された実施形態と同じ、類似の、又は対応する特徴、機能及び詳細を含むことができる。
【0091】
更に、本発明による実施形態は、符号化オーディオ表現に基づいて復号され、任意選択でレンダリングされたオーディオ表現を提供するための方法を備える。本方法は、1つ以上のオーディオ信号を空間的にレンダリングすることと、例えば、MPEG-H MHASパケット定義に適合するパケットタイプを有する、異なるパケットタイプの複数のパケットを受信することとを含む。
【0092】
更に、パケットは、1つ以上のシーン構成パケット、例えば、Scene ConfigPacket、例えば、mpegiSceneConfig[](「mpeghiSceneConfig」と呼ばれることもある)を含み、例えば、セルの定義を使用して、異なるシーンオブジェクト及び/又はシーン特性がレンダリングプロセスにおいていつ又はどの条件下で使用されるべきかを定義する、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する。
【0093】
任意選択で、シーン構成パケットは、例えば、どのシーンペイロードパケットが空間及び時間の所与のポイントで必要とされるかを定義することができ、シーン構成パケットは、例えば、シーンペイロードパケットがどこから取り出し得るかを定義することができる。
【0094】
加えて、パケットは、1つ以上のシーン更新パケット、例えば、mpegiSceneUpdate[](「mpeghiSceneUpdate」と呼ばれることもある)を含み、レンダリングのためのシーンメタデータの更新、例えば変更、例えば、1つ以上のメタデータ値の変更、シーンオブジェクトのパラメータの変更又はシーン特性の変更、例えば、再生中に発生するシーンメタデータの変更、を定義する。任意選択で、1つ以上のシーン更新パケットは、例えば、シーン更新のための1つ以上の条件を定義することもでき、更に、パケットは、シーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義、例えば、バルクメタデータ、例えば、1つ以上のオーディオシーンのレンダリングに必要なメタデータ、例えば、レンダリングのためのオーディオシーンを記述するジオメトリメタデータ、及び/又はレンダリングのためのパラメトリックレンダリング命令、及び/又はレンダリングのためのオーディオシーン内の1つ以上のオーディオ要素を記述するオーディオ要素メタデータ、例えば、指令、及び/又はジオメトリ及び/又はオーディオエフェクトメタデータ、例えば、残響メタデータ、及び/又は初期反射メタデータ、及び/又は回折メタデータを含む1つ以上のシーンペイロードパケットを含む。
【0095】
更に、方法は、レンダリングのために、シーンペイロードパケットに含まれている1つ以上のシーンオブジェクトの定義及び/又は1つ以上のシーン特性の定義を、例えば、シーン構成パケットに含まれていてもよいレンダラ構成情報に応じて選択することを含み、例えば、セルは、どのシーンオブジェクト及び/又はシーン特性が使用されるべきかを選択するのに使用され得る。
【0096】
更に、方法は、1つ以上のシーン更新パケットのコンテンツに応じて、1つ以上のシーンメタデータ、例えば、「targetId」によって指定された1つ以上のレンダリングパラメータであって、1つ以上のレンダリングパラメータの新しい値を「属性」によって指定されるレンダリングパラメータ、を更新することを含む。
【0097】
本発明による更なる実施形態は、符号化オーディオ表現を提供するための方法を含み、本方法は、1つ以上のオーディオ信号の空間レンダリングのための情報を提供することと、例えば、MPEG-H MHASパケット定義に適合するパケットタイプを有する、異なるパケットタイプの複数のパケットを提供することとを含む。
【0098】
パケットは、1つ以上のシーン構成パケット、例えば、Scene ConfigPacket、例えば、mpegiSceneConfig[](「mpeghiSceneConfig」と呼ばれることもある)を含み、例えば、セルの定義を使用して、異なるシーンオブジェクト及び/又はシーン特性がレンダリングプロセスにおいていつ又はどの条件下で使用されるべきかを定義する、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する。
【0099】
更に、パケットは、1つ以上のシーン更新パケット、例えば、mpegiSceneUpdate[](「mpeghiSceneUpdate 」と呼ばれることもある)を含み、レンダリングのためのシーンメタデータの更新を定義する(例えば、1つ以上のメタデータ値の変更、シーンオブジェクトのパラメータの変更又はシーン特性の変更)。
【0100】
更に、パケットは、シーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義、例えば、バルクメタデータ、例えば、1つ以上のオーディオシーンのレンダリングに必要なメタデータ、例えば、レンダリングのためのオーディオシーンを記述するジオメトリメタデータ、及び/又はレンダリングのためのパラメトリックレンダリング命令、及び/又はレンダリングのためのオーディオシーン内の1つ以上のオーディオ要素を記述するオーディオ要素メタデータを含む、1つ以上のシーンペイロードパケットを含む。
【0101】
本発明による更なる実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に開示される実施形態のいずれかによる方法を実行するためのコンピュータプログラムを含む。
【0102】
以下では、ビットストリームに関する実施形態について説明する。そのような実施形態は、装置及び/又は方法に関連する上記の実施形態と同じ又は類似の又は対応する考慮事項に基づくことができることに留意されたい。したがって、以下の実施形態は、個別に、及び組み合わせて、上記で開示された実施形態と同じ、類似の、又は対応する特徴、機能及び詳細を含むことができる。
【0103】
本発明による更なる実施形態は、オーディオコンテンツを表すビットストリームを備え、ビットストリームは、例えば、MPEG-H MHASパケット定義に適合するパケットタイプを有する、異なるパケットタイプの複数のパケットを備える。
【0104】
パケットは、1つ以上のシーン構成パケット、例えば、Scene ConfigPacket、例えば、mpegiSceneConfig[](「mpeghiSceneConfig」と呼ばれることもある)を含み、例えば、セルの定義を使用して、異なるシーンオブジェクト及び/又はシーン特性がレンダリングプロセスにおいていつ又はどの条件下で使用されるべきかを定義する、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する。
【0105】
任意選択で、シーン構成パケットは、例えば、どのシーンペイロードパケットが空間及び時間の所与のポイントで必要とされるかを定義することができ、シーン構成パケットは、例えば、シーンペイロードパケットがどこから取り出し得るかを定義することができる。
【0106】
更に、パケットは、1つ以上のシーン更新パケット、例えば、mpegiSceneUpdate[](「mpeghiSceneUpdate」と呼ばれることもある)を含み、レンダリングのためのシーンメタデータの更新、例えば変更を定義する(例えば、1つ以上のメタデータ値の変更、シーンオブジェクトのパラメータの変更又はシーン特性の変更、例えば、再生中に発生するシーンメタデータの変更)。任意選択で、1つ以上のシーン更新パケットは、例えば、シーン更新のための1つ以上の条件を定義し得る。
【0107】
更に、パケットは、シーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義、例えば、バルクメタデータ、例えば、1つ以上のオーディオシーンのレンダリングに必要なメタデータ、例えば、レンダリングのためのオーディオシーンを記述するジオメトリメタデータ、及び/又はレンダリングのためのパラメトリックレンダリング命令、及び/又はレンダリングのためのオーディオシーン内の1つ以上のオーディオ要素を記述するオーディオ要素メタデータ、例えば、指令、及び/又はジオメトリ及び/又はオーディオエフェクトメタデータ、例えば、残響メタデータ、及び/又は初期反射メタデータ、及び/又は回折メタデータを含む1つ以上のシーンペイロードパケットを含む。
【0108】
更に、ビットストリームは、個別に、及び組み合わせて、本明細書に開示された任意のビットストリーム要素によって任意選択で補足されてもよい。
【0109】
更なる実施形態は、符号化オーディオ表現に基づいて復号化オーディオ表現を提供するためのオーディオデコーダを備え、オーディオデコーダは、1つ以上のオーディオ信号を空間的にレンダリングし、異なるパケットタイプの複数のパケットを受信するように構成され、パケットは、シーンオブジェクト及び/又はシーン特性を定義するレンダラ構成情報を提供する1つ以上のシーン構成パケットを備え、パケットは、レンダリングのためのシーンメタデータの更新を定義する1つ以上のシーン更新パケットを備え、パケットは、シーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義を備える1つ以上のシーンペイロードパケットを備える。
【0110】
更に、オーディオデコーダは、レンダリングのために、シーンペイロードパケットに含まれる1つ以上のシーンオブジェクトの定義及び/又は1つ以上のシーン特性の定義を選択し、1つ以上のシーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータを更新するように構成される。
【0111】
そのような本発明のデコーダは、個別に、及び組み合わせて、上記で開示された実施形態のいずれか又は本明細書で開示された他の実施形態のいずれかと同じ、類似の又は対応する特徴、機能及び詳細を含むことができることに留意されたい。
【0112】
以下では、本発明の第2の態様による実施形態について説明する。本発明の第2の態様による実施形態は、更新条件付きのシーン更新パケットを使用すること、及び/又は更新条件付きのシーン更新パケット及び他の特徴を使用することに基づくことができる。
【0113】
第2の態様による実施形態は、個別に、又は組み合わせて、本発明の第1の態様の実施形態の特徴機能及び詳細を含むことができ、逆もまた同様である。
【0114】
本発明による実施形態は、符号化オーディオ表現に基づいて復号され、任意選択で、レンダリングされるオーディオ表現を提供するためのオーディオデコーダを備え、オーディオデコーダは、1つ以上のオーディオ信号を空間的にレンダリングするように構成される。オーディオデコーダは、例えば、MPEG-H MHASパケット定義に適合するパケットタイプを有する、異なるパケットタイプの複数のパケットを受信するように構成される。
【0115】
更に、パケットは、1つ以上のシーン構成パケット、例えば、Scene ConfigPacket、例えば、mpegiSceneConfig[](「mpeghiSceneConfig」と呼ばれることもある)を含み、例えば、異なるシーンオブジェクト及び/又はシーン特性がレンダリングプロセスにおいていつ又はどの条件下で使用されるべきかを定義する、例えば、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する。
【0116】
更に、パケットは、レンダリングのためのシーンメタデータの更新、例えば、シーンオブジェクトのパラメータの変更又はシーン特性の変更を定義し、1つ以上の更新条件の表現を含む、1つ以上のシーン更新パケット、例えば、mpegiSceneUpdate[](「mpeghiSceneUpdate」と呼ばれることもある)を含む。
【0117】
加えて、オーディオデコーダは、例えば、シーン更新パケットに定義されているような、1つ以上の更新条件が満たされているかどうかを評価し、1つ以上の更新条件が満たされている場合、1つ以上のシーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータを選択的に更新するように構成される。
【0118】
本発明者らは、オーディオシーンが、シーン更新パケットの形態のメタデータ更新を使用して効率的に更新され得ることを認識した。したがって、シーン更新パケットは、デコーダが、例えば、更新自体が実行されなければならない前にシーン更新パケットを受信することができるように、更新条件の表現を備え、したがって、送信タイミング制約が緩和される。そして、装置は、それぞれの条件が満たされたときに更新を実行することができる。
【0119】
これにより、オーディオシーンにおける所定のトリガされた音響影響を効率的に考慮することができる。例えば、VR周囲では、ユーザはドアを開き、したがって仮想部屋の音響特性を変更することができる。したがって、ドアの開放は更新をトリガすることができる。したがって、ドア開口部の音響「力学」に関する情報は、ドアが開く前に送信されてもよい。
【0120】
したがって、仮想音響シーンは、メタデータ更新情報の送信を単純化しながら、高度な臨場感及びリアルタイムで提供され得る。
【0121】
更に、この手法の1つの利点は、例えば、更新情報だけでなく、シーン更新パケット内の更新条件の形態の更新トリガ情報の集約であってもよく、これにより、自己整合的及び/又は自己充足的及び/又は自立的な更新情報を提供できることが強調されるべきである。
【0122】
更に、オーディオデコーダは、(例えば、オーディオデコーダ側で発生するローカルイベントに対して、更新をトリガする)更新条件によって定義される異なるイベントに反応することができ、シーンの所定の時間的展開に束縛されない。したがって、シーン更新パケットの使用は、必要なビットレートを適度に小さく保ちながら、特に良好な聴覚表現をもたらす。
【0123】
本発明の更なる実施形態によれば、前記オーディオデコーダは、前記1つ以上のシーン更新パケットのコンテンツに応じて、例えば、例えば「targetId」によって参照される、変更されるシーンメタデータ項目の列挙、及び例えば「属性」によって定義される、対応する新しい値に応じて、1つ以上のシーンメタデータを更新すべきかどうか決定するために、シーン更新パケットに含まれている時間条件、例えば、startTimestampによって定義される、例えば、時間的トリガ条件、を評価するように構成されている。
【0124】
本発明者らは、更新トリガが、例えば、イベントによって提供されるだけでなく、タイミングによっても提供され得ることを認識した。したがって、ここでも、シーン更新パケットは、更新自体に関する情報と、更新をいつ実行するかを決定するための時間又は時間帯とを含み得る。したがって、例えば、経時的な音響変化を効率的に考慮に入れることができる。
【0125】
本発明の更なる実施形態によれば、時間条件は、例えばビットストリーム要素startTimestampを使用して、開始時刻を定義する。あるいは、時間条件は、例えば開始時間及び終了時間を使用して時間間隔を定義する。
【0126】
更に、オーディオデコーダは、例えばそれぞれのシーン更新パケットに含まれる定義に従って、検出に応答して、例えば検出に応答して直ちに、又はそれぞれのシーン更新パケット内で定義された時間遅延を使用して、現在の再生時間、例えばシーン時間が開始時刻に達したか、又は開始時刻の後にあるという検出に応答して、1つ以上のシーンメタデータの更新を行うように構成される。
【0127】
あるいは、オーディオデコーダは、例えばシーン時間などの現在の再生時間が時間間隔内にあるという検出に応答して、例えばそれぞれのシーン更新パッケージに含まれる定義に従って、1つ以上のシーンメタデータの更新を行うように構成される。
【0128】
したがって、具体的な実装に応じて、更新が実行されなければならない時点、又は簡単に言えば更新が実行されなければならないまでの「タイマー」が、例えば、提供されてもよく、メタデータの効率的な更新を可能にする。
【0129】
本発明の更なる実施形態によれば、前記オーディオデコーダは、前記1つ以上のシーン更新パケットのコンテンツに応じて、例えば、例えば「targetId」によって参照される、変更されるシーンメタデータ項目の列挙、及び例えば「属性」によって定義される、対応する新しい値に応じて、1つ以上のシーンメタデータを更新すべきかどうか決定するために、シーン更新パケットに含まれている空間条件、例えば、空間的トリガ条件、例えば、ジオメトリ定義を参照することによって定義される空間条件、例えば、geometryIdによって定義される空間条件、を評価するように構成されている。
【0130】
したがって、音響シーン内の空間ロケーションに依存する更新を効率的に示すことができる。
【0131】
本発明の更なる実施形態によれば、空間条件は、例えばジオメトリ定義への参照を使用してジオメトリ要素を定義し、当該ジオメトリ定義は、例えばシーンペイロード要素に含まれ得る。
【0132】
更に、オーディオデコーダは、例えばそれぞれのシーン更新パケットに含まれる定義に従って、検出に応答して、例えば検出に応答して直ちに、又は例えば、現在のポジションがジオメトリ要素に到達した(例えば、ジオメトリ要素によって定義された1次元境界に到達した、又はジオメトリオブジェクトによって定義された2次元境界に到達した、又はジオメトリオブジェクトによって定義された3次元境界に到達した)というそれぞれのシーン更新パケット内で定義された時間遅延を使用して、又は検出に応答して、例えば検出に応答して直ちに、又は例えば、現在のポジションがジオメトリ要素内、例えば2次元ジオメトリ要素内又は3次元ジオメトリ要素内にあるというそれぞれのシーン更新パケット内で定義された時間遅延を使用して、1つ以上のシーンメタデータの更新を行うように構成される。
【0133】
一例として、VR周囲のユーザは、例えばボックスなどのジオメトリ要素によって定義された音響ゾーン内で分離されたVR部屋を移動することができる。ユーザが新しい音響ゾーンに入ると、対応する音響特性を正確に記述するためにそのゾーンを更新することができ、したがって没入ユーザ体験を可能にする。このようにして、現在関連する音響ゾーンのみを更新する必要があり得る。
【0134】
本発明の更なる実施形態によれば、オーディオデコーダは、1つ以上のシーン更新パケットのコンテンツに応じて、1つ以上のシーンメタデータが更新されるべきかどうかを決定するために、例えば、シーン更新パケット(例えば、ユーザがシーン内の単なる動きを超える特定のアクションを取るという条件、例えばフラグ「fireOn」によって定義される、例えば、ユーザが所定のコマンドを与える、又は所定のボタンを起動する条件)において定義され得る、対話型トリガ条件が満たされているかどうかを評価するように構成される。
【0135】
前述したように、例えば本発明の第1の態様の文脈において、音響シーンは、したがって効率的に更新され得る。
【0136】
本発明の更なる実施形態によれば、オーディオデコーダは、2つ以上の更新条件の組み合わせ、例えば、AND組み合わせ、又は別のブール組み合わせを評価するように構成され、オーディオデコーダは、組み合わせられた更新条件が満たされた場合、例えば、2つ以上の更新条件がすべて満たされた場合、1つ以上のシーン更新パケットのコンテンツに応じて、1つ以上のシーンメタデータを選択的に更新するように構成される。
【0137】
本発明者らは、相互リンク又は連鎖更新条件の評価が、音響シーン、例えばオーディオシーン、例えばレンダリングシナリオの効率的な更新を可能にし得ることを認識した。
【0138】
本発明の更なる実施形態によれば、オーディオデコーダは、時間的更新条件及び空間的更新条件の両方を評価するように構成される。あるいは、オーディオデコーダは、時間的更新条件と対話的更新条件の両方を評価するように構成される。
【0139】
したがって、更新条件を高い柔軟性で示すことができ、更新の効率及び/又は適応性を向上させることができる。
【0140】
本発明の更なる実施形態によれば、オーディオデコーダは、前記シーン更新パケットに含まれる遅延情報、例えば遅延、を評価するように構成されており、前記オーディオデコーダは、前記遅延情報に従って、前記1つ以上の更新条件が満たされたという検出に応答して、前記1つ以上のシーン更新パケットのコンテンツに応じて、1つ以上のシーンメタデータの更新を遅延させるように構成されている。
【0141】
音響シーンのいくつかの変化は、イベントによってトリガされ、遅延、例えばタイムラグが続く場合がある。そのような変更は、上記で説明した手法に基づいて、音響シーン更新に効率的に組み込むことができる。
【0142】
本発明の更なる実施形態によれば、オーディオデコーダは、時間的更新条件がシーン更新パケット内で定義されているかどうかを指示する、シーン更新パケット内のフラグ、例えばhasTemporalConditionを評価するように構成される。代替的又は追加的に、オーディオデコーダは、空間的更新条件がシーン更新パケット内で定義されているかどうかを指示する、シーン更新パケット内のフラグ、例えばhasSpatialConditionを評価するように構成される。任意選択で、オーディオデコーダは、その存在がそれぞれのフラグによって示される条件をAND結合するように構成される。
【0143】
したがって、デコーダには、時間的及び/又は空間的更新条件が考慮されるべきかどうかの情報がフラグを使用して、したがって低いシグナリング労力で提供され得る。
【0144】
本発明の更なる実施形態によれば、オーディオデコーダは、遅延情報がシーン更新パケットにおいて定義されているかどうかを指示するシーン更新パケット内のフラグ、例えば遅延を有する、例えば「遅延あり」を指示するフラグを評価するように構成される。
【0145】
したがって、遅延が考慮されるべきかどうかの指示は、低いシグナリング労力で提供され得る。
【0146】
本発明の更なる実施形態によれば、シーン更新パケットは、1つ以上のシーンオブジェクトの1つ以上のパラメータ及び/又は1つ以上のシーン特性の複数の修正の表現(例えば、列挙であって、列挙のエントリの数は、例えば、ビットストリームパラメータによって、例えばnumOfModificationsによって示され得る、列挙」)を含む。
【0147】
任意選択で、修正(又は更新)されるパラメータ又はシーン特性は、例えば「targetId」で指定され、パラメータ又はシーン特性のそれぞれの新しい値は、例えば「attribute」で指定される。
【0148】
加えて、オーディオデコーダは、1つ以上の更新条件が満たされたという検出に応答して、修正を適用するように構成される。
【0149】
本発明の更なる実施形態によれば、シーン更新パケットは軌跡情報を含み、軌跡情報は、例えば、変更されるシーンオブジェクトのパラメータと関連付けられてもよく、又は例えば、変更されるシーン特性と関連付けられてもよく、例えば、isTrajectory、interpolationType、numPoints、time[n]及びvalue[n]を含む。
【0150】
更に、オーディオデコーダは、軌跡情報によって定義された軌跡、例えば時間的展開に従って、パラメータ変動、例えば滑らかな補間パラメータ変動を使用して、軌跡情報が関連付けられたそれぞれのシーンメタデータを更新するように構成され、オーディオデコーダは、例えば、複数の支点に基づいて軌跡を決定することができる。
【0151】
したがって、複雑な更新であっても、例えば、軌跡を使用して低い労力でパラメータ化又は表現することができ、シグナリングの労力を削減することができる。したがって、任意選択で、支点に基づいて、軌跡、したがってメタデータ更新を補間することができる。
【0152】
本発明の更なる実施形態によれば、オーディオデコーダは、シーンメタデータの軌跡ベースの更新をアクティブ化又は非アクティブ化するために、シーンメタデータの軌跡ベースの更新が使用されるかどうかを示す情報(例えば、フラグisTrajectory、例えば、シーン更新パケットに含まれる情報)を評価するように構成される。
【0153】
本発明の更なる実施形態によれば、オーディオデコーダは、軌跡の2つ以上の支点間の補間のタイプを決定するために、例えば、シーン更新パケットに含まれる線形補間、及び/又は立方体補間、及び/又はサンプルホールド挙動を示すことができる補間タイプ情報、例えば、interpolationType情報を評価するように構成され、支点は、例えば、それぞれの支点に関連する時間情報(例えば、時間[n])及びそれぞれの支点に関連する値情報(例えば、値[n])によって定義され得る。
【0154】
したがって、所望の軌跡に応じて、適切な補間タイプを選択することができる。更に、軌跡の補間のための計算複雑度と所望の軌跡の精度との間の良好な妥協が、補間のタイプの選択に基づいて達成され得る。
【0155】
本発明の更なる実施形態によれば、オーディオデコーダは、軌跡を記述する支点情報(例えば、いくつかの支点に関する情報を含む支点情報、例えば、1つ以上の値time[n]及び値[n]を含む支点情報)を評価するように構成され、支点情報は、例えば、支点時間情報と支点値情報とのペアを使用して、シーンメタデータの時間的変動に対する複数の支点を記述することができる。
【0156】
本発明者らは、支点が、低い計算コスト及び/又は送信コストで軌跡、したがって更新ルールを記述することを可能にし得ることを認識した。
【0157】
以下の実施形態では、符号化オーディオ表現を提供するための装置、例えばエンコーダに関する実施形態が説明される。そのような実施形態は、デコーダに関連する上記の実施形態と同じ又は類似の又は対応する考慮事項に基づくことができることに留意されたい。したがって、以下の実施形態は、個別に、及び組み合わせて、上記で開示された実施形態と同じ、類似の、又は対応する特徴、機能及び詳細を含むことができる。
【0158】
本発明による更なる実施形態は、符号化オーディオ表現を提供するための装置、例えばオーディオエンコーダ又はオーディオサーバを備え、装置は、1つ以上のオーディオ信号の空間レンダリングのための情報を提供するように構成され、装置は、例えば、MPEG-H MHASパケット定義に適合するパケットタイプを有する、異なるパケットタイプの複数のパケットを提供するように構成される。
【0159】
更に、パケットは、1つ以上のシーン構成パケット、例えば、Scene ConfigPacket、例えば、mpegiSceneConfig[](「mpeghiSceneConfig」と呼ばれることもある)を含み、例えば、異なるシーンオブジェクト及び/又はシーン特性がレンダリングプロセスにおいていつ又はどの条件下で使用されるべきかを定義する、例えば、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する。
【0160】
加えて、パケットは、レンダリングのためのシーンメタデータの更新、例えば、シーンオブジェクトのパラメータの変更又はシーン特性の変更を定義し、1つ以上の更新条件の表現を含む、1つ以上のシーン更新パケット、例えば、mpegiSceneUpdate [](「mpeghiSceneUpdate」と呼ばれることもある)を含む。
【0161】
本発明の更なる実施形態によれば、装置は、シーン更新パケットが時間条件、例えば、「targetId」によって参照される、変更されるシーンメタデータ項目の列挙、及び例えば「attribute」によって定義される、対応する新しい値に応じて、シーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータを更新するために、startTimestampによって定義される、例えば時間的トリガ条件、の表現を含むように、シーン更新パケットを提供するように構成される。
【0162】
本発明の更なる実施形態によれば、時間条件は、例えばビットストリーム要素startTimestampを使用して、開始時刻を定義する。あるいは、時間条件は、例えば開始時間及び終了時間を使用して時間間隔を定義する。
【0163】
本発明の更なる実施形態によれば、装置は、シーン更新パケットが空間条件、例えば空間トリガ条件、例えばジオメトリ定義への参照によって定義された空間条件、例えば、「targetId」によって参照される、変更されるシーンメタデータ項目の列挙、及び例えば「attribute」によって定義される、対応する新しい値に応じて、シーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータを更新するための、例えばgeometryIdによって定義される空間条件、の表現を含むように、シーン更新パケットを提供するように構成される。
【0164】
本発明の更なる実施形態によれば、空間条件は、例えばジオメトリ定義への参照を使用してジオメトリ要素を定義し、当該ジオメトリ定義は、例えばシーンペイロード要素に含まれ得る。
【0165】
本発明の更なる実施形態によれば、装置は、シーン更新パケットが、例えば、シーン更新パケット内で定義され得る対話型トリガ条件の表現、例えば、「targetId」によって参照される、変更されるシーンメタデータ項目の列挙に応じて、シーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータを更新するための(例えば、ユーザがシーン内の単なる動きを超える特定のアクションを取るという条件、例えば、ユーザが所定のコマンドを与える、又は所定のボタンを起動する条件、例えば、フラグ「fireOn」によって定義される)、及び例えば、「attribute」によって定義される、対応する新しい値を含むように、シーン更新パケットを提供するように構成される。
【0166】
本発明の更なる実施形態によれば、装置は、シーン更新パケットが、2つ以上の更新条件の組み合わせ、例えばAND組み合わせ、又は別のブール組み合わせの表現を含むように、シーン更新パケットを提供するように構成される。
【0167】
本発明の更なる実施形態によれば、装置は、シーン更新パケットが、1つ以上の更新条件が満たされたという検出に応答して、1つ以上のシーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータの更新を遅延させるように定義する遅延情報、例えば遅延を含むように、シーン更新パケットを提供するように構成される。
【0168】
本発明の更なる実施形態によれば、装置は、シーン更新パケットが、時間的更新条件がシーン更新パケットにおいて定義されているかどうかを指示するフラグ、例えばhasTemporalConditionを含むように、シーン更新パケットを提供するように構成される。これに代え、あるいはこれに加えて、装置は、シーン更新パケットが、空間的更新条件がシーン更新パケットにおいて定義されているかどうかを指示するフラグ、例えばhasSpatialConditionの表現を含むように、シーン更新パケットを提供するように構成される。
【0169】
本発明の更なる実施形態によれば、本装置は、シーン更新パケットが、遅延情報がシーン更新パケットにおいて定義されているかどうかを指示する、例えば遅延を有するフラグ、例えば「遅延あり」を含むように、シーン更新パケットを提供するように構成される。
【0170】
本発明の更なる実施形態によれば、装置は、シーン更新パケットが、1つ以上のシーンオブジェクトの1つ以上のパラメータ及び/又は1つ以上のシーン特性の複数の修正の表現(例えば、列挙であって、列挙のエントリの数は、例えば、ビットストリームパラメータによって、例えばnumOfModificationsによって示され得る、列挙」)を含むように、シーン更新パケットを提供するように構成されている。
【0171】
本発明の更なる実施形態によれば、装置は、シーン更新パケットが軌跡情報を含み、軌跡情報は、例えば、変更されるシーンオブジェクトのパラメータと関連付けられてもよく、又は例えば、変更されるシーン特性と関連付けられてもよく、例えば、isTrajectory、interpolationType、numPoints、time[n]及びvalue[n]を含むように、シーン更新パケットを提供するように構成されている。
【0172】
更に、軌跡情報は、軌跡情報によって定義された軌跡、例えば時間的展開に従って、パラメータ変動、例えば滑らかな補間パラメータ変動を使用して、軌跡情報が関連付けられたそれぞれのシーンメタデータを更新することを記述し、オーディオデコーダは、例えば、複数の支点に基づいて軌跡を決定することができる。
【0173】
本発明の更なる実施形態によれば、装置は、軌跡情報がシーンメタデータの軌跡ベースの更新をアクティブ化又は非アクティブ化するために、シーンメタデータの軌跡ベースの更新が使用されるかどうかを示す情報(例えば、フラグisTrajectory、例えば、シーン更新パケットに含まれる情報)を含むように、シーン更新パケットを提供するように構成されている。
【0174】
本発明の更なる実施形態によれば、装置は、シーン更新パケットを提供するように構成されており、軌跡情報は、軌跡の2つ以上の支点間の補間のタイプを決定するために、例えば、シーン更新パケットに含まれる線形補間、及び/又は立方体補間、及び/又はサンプルホールド挙動を示すことができる補間タイプ情報、例えば、interpolationType情報を含み、支点は、例えば、それぞれの支点に関連する時間情報(例えば、時間[n])及びそれぞれの支点に関連する値情報(例えば、値[n])によって定義され得る。
【0175】
本発明の更なる実施形態によれば、装置は、軌跡情報が、軌跡を記述する支点情報(例えば、いくつかの支点に関する情報を含む支点情報、例えば、1つ以上の値time[n]及び値[n]を含む支点情報)を含むようにシーン更新パケットを提供するように構成されており、支点情報は、例えば、支点時間情報と支点値情報とのペアを使用して、シーンメタデータの時間的変動に対する複数の支点を記述することができる。
【0176】
以下の実施形態では、復号及び符号化オーディオ表現を提供するための方法に関する実施形態が説明される。そのような実施形態は、装置に関連する上記の実施形態と同じ又は類似の又は対応する考慮事項に基づくことができることに留意されたい。したがって、以下の実施形態は、個別に、及び組み合わせて、上記で開示された実施形態と同じ、類似の、又は対応する特徴、機能及び詳細を含むことができる。
【0177】
本発明による更なる実施形態は、符号化オーディオ表現に基づいて復号され、任意選択で、レンダリングされるオーディオ表現を提供するための方法を備え、本方法は、1つ以上のオーディオ信号を空間的にレンダリングすることと、例えば、MPEG-H MHASパケット定義に適合するパケットタイプを有する、異なるパケットタイプの複数のパケットを受信することとを備える。
【0178】
更に、パケットは、1つ以上のシーン構成パケット、例えば、Scene ConfigPacket、例えば、mpegiSceneConfig[](「mpeghiSceneConfig」と呼ばれることもある)を含み、(例えば、異なるシーンオブジェクト及び/又はシーン特性がレンダリングプロセスにおいていつ又はどの条件下で使用されるべきかを定義する、例えば、シーンオブジェクトの使用及び/又はシーン特性の使用を定義する)レンダラ構成情報を提供する。
【0179】
加えて、パケットは、レンダリングのためのシーンメタデータの更新、例えば、シーンオブジェクトのパラメータの変更又はシーン特性の変更を定義し、1つ以上の更新条件の表現を含む、1つ以上のシーン更新パケット、例えば、mpegiSceneUpdate[](「mpeghiSceneUpdate」と呼ばれることもある)を含み、更に、本方法は、例えばシーン更新パケットにおいて定義されているような1つ以上の更新条件が満たされているかどうかを評価することと、1つ以上の更新条件が満たされている場合、1つ以上のシーン更新パケットのコンテンツに応じて、1つ以上のシーンメタデータを選択的に更新することとを含む。
【0180】
本発明による更なる実施形態は、符号化オーディオ表現を提供するための方法を含み、本方法は、例えば、MPEG-H MHASパケット定義に適合するパケットタイプを有する、異なるパケットタイプの複数のパケットを提供することを含む。
【0181】
更に、パケットは、1つ以上のシーン構成パケット、例えば、Scene ConfigPacket、例えば、mpegiSceneConfig[](「mpeghiSceneConfig」と呼ばれることもある)を含み、(例えば、異なるシーンオブジェクト及び/又はシーン特性がレンダリングプロセスにおいていつ又はどの条件下で使用されるべきかを定義する、例えば、シーンオブジェクトの使用及び/又はシーン特性の使用を定義する)レンダラ構成情報を提供する。
【0182】
加えて、パケットは、レンダリングのためのシーンメタデータの更新、例えば、シーンオブジェクトのパラメータの変更又はシーン特性の変更を定義し、1つ以上の更新条件の表現を含む、1つ以上のシーン更新パケット、例えば、mpegiSceneUpdate [](「mpeghiSceneUpdate」と呼ばれることもある)を含む。
【0183】
本発明による更なる実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、実施形態のいずれかによる方法を実行するためのコンピュータプログラムを含む。
【0184】
以下では、ビットストリームに関する実施形態について説明する。そのような実施形態は、装置及び/又は方法に関連する上記の実施形態と同じ又は類似の又は対応する考慮事項に基づくことができることに留意されたい。したがって、以下の実施形態は、個別に、及び組み合わせて、上記で開示された実施形態と同じ、類似の、又は対応する特徴、機能及び詳細を含むことができる。
【0185】
本発明による更なる実施形態は、オーディオコンテンツを表すビットストリームを備え、ビットストリームは、例えば、MPEG-H MHASパケット定義に適合するパケットタイプを有する、異なるパケットタイプの複数のパケットを備える。
【0186】
更に、パケットは、1つ以上のシーン構成パケット、例えば、Scene ConfigPacket、例えば、mpegiSceneConfig[](「mpeghiSceneConfig」と呼ばれることもある)を含み、(例えば、異なるシーンオブジェクト及び/又はシーン特性がレンダリングプロセスにおいていつ又はどの条件下で使用されるべきかを定義する、例えば、シーンオブジェクトの使用及び/又はシーン特性の使用を定義する)レンダラ構成情報を提供する。
【0187】
加えて、パケットは、レンダリングのためのシーンメタデータの更新、例えば、シーンオブジェクトのパラメータの変更又はシーン特性の変更を定義し、1つ以上の更新条件の表現を含む、1つ以上のシーン更新パケット、例えば、mpegiSceneUpdate[](「mpeghiSceneConfigUpdate」と呼ばれることもある)を含む。
【0188】
例えば、ビットストリームは、個別に、及び組み合わせて、本明細書に開示された任意のビットストリーム要素によって任意選択で補足されてもよい。
【0189】
以下では、本発明の第3の態様による実施形態について説明する。本発明の第3の態様による実施形態は、タイムスタンプの使用、及び/又はタイムスタンプ情報の評価、及び他の特徴に基づくことができる。
【0190】
第3の態様による実施形態は、個別に又は組み合わせて、本発明の第1及び/又は第2の態様の実施形態の特徴機能及び詳細を含むことができ、それぞれ逆もまた同様である。
【0191】
本発明による実施形態は、符号化オーディオ表現に基づいて復号され、任意選択でレンダリングされたオーディオ表現を提供するためのオーディオデコーダを備える。オーディオデコーダは、1つ以上のオーディオ信号を空間的にレンダリングし、例えば、MPEG-H MHASパケット定義に適合するパケットタイプを有する、異なるパケットタイプの複数のパケットを受信するように構成され、パケットは、複数のシーン構成パケット、例えば、Scene ConfigPacket、例えば、mpegiSceneConfig[](「mpeghiSceneConfig[]」と呼ばれることもある)を含み、例えば、セルの定義を使用して、異なるシーンオブジェクト及び/又はシーン特性がレンダリングプロセスにおいていつ又はどの条件下で使用されるべきかを定義する、レンダリングシナリオの時間的展開を定義する、例えば、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供し、タイムスタンプ情報を含む。
【0192】
更に、オーディオデコーダは、タイムスタンプ情報を評価し、レンダリング構成を、例えばオーディオデコーダがストリームに同調するときに、レンダラ構成情報を用いて、タイムスタンプに対応するレンダリングシナリオに設定するように構成される。
【0193】
本発明者らは、それぞれのデコーダのレンダラ構成を調整することによって、時間的展開を有するオーディオシーンを効率的にレンダリングできることを認識した。したがって、デコーダには、例えば、レンダリングシナリオ、例えばオーディオシーンの時間的展開を定義するレンダラ構成情報を提供するシーン構成パケットが提供されてもよい。
【0194】
したがって、オーディオシーン又はレンダリングシナリオを良好にレンダリングするために、例えばシーン構成パケットで提供される、それぞれのレンダラ構成をいつ使用するかを定義する情報をデコーダに提供することができる。
【0195】
したがって、シーン構成パケットはタイムスタンプ情報を含む。したがって、タイムスタンプ情報の評価時に、デコーダ又はレンダラは、例えば、レンダリング構成を設定することができ、これは、例えばタイムスタンプ情報によって定義されるように、ある時点におけるレンダリングシナリオのレンダリングに適している。例えば、再生時間がタイムスタンプ情報によって定義された時間と一致するか又はタイムスタンプ情報によって定義された時間を超える場合、レンダラ構成を例えばアクティブ化することができる。
【0196】
レンダラ構成は、例えば、オーディオシーンの正確なレンダリングのためにどの音響的に関連するオブジェクト又はシーン特性が考慮されるべきかを定義することができる。
【0197】
したがって、例えば、参照時点及びタイムスタンプ情報から抽出された時間差情報に基づいて、又は任意選択で直接、シーン構成パケットによって提供されるそれぞれのレンダラ構成が使用される時点を決定することができる。したがって、タイムスタンプは、例えば、それぞれのレンダラ構成が使用される時点を定義するのに適した情報の任意のエンティティであってもよい。
【0198】
これにより、ある時点又は経過時間によってトリガされる音響シーンの変化を効率的に組み込むことができる。
【0199】
更に、この手法の1つの利点は、例えば、構成情報(例えば、レンダラ構成の設定方法)だけでなく、適応に関する時間情報(例えば、レンダラ構成をいつ設定するか)の形態のトリガ情報の集約であってもよいことが強調されるべきである。これにより、自己整合的及び/又は自己充足的及び/又は自立的な更新情報を提供することが可能になり得る。
【0200】
加えて、シーン構成パケットは、任意選択で、先に説明したように、時間及び/又は空間における所与のポイントにおいてどのペイロードパケット(例えば、mpegiScenePayload(「mpeghiScenePayload」と呼ばれることもある))が必要とされ得るかに関する情報を含み得ることに留意されたい。したがって、レンダリングシナリオの時間的展開に関する情報は、タイミング情報に基づいて、例えばペイロードパケットで定義されるような、例えば音響的に関連するオブジェクト及び/又はシーン特性のメタデータを適応させるために、任意選択で同様に使用されてもよい。
【0201】
したがって、タイムスタンプ情報は、レンダリング構成が適切に設定され、実際の再生時間に適合する(又は一致する)ことを保証する。
【0202】
一例として、レンダリング構成は、例えば他の情報、例えばユーザ入力情報及び/又は先行入力情報及び/又は先行パケット情報の中でも、レンダラ構成情報に基づく情報又は設定を含むことができる。
【0203】
本発明の更なる実施形態によれば、オーディオデコーダは、オーディオデコーダがストリームの1つ以上の先行するシーン構成パケットを逃したとき、又はオーディオデコーダがストリームに同調したときにタイムスタンプ情報を評価するように構成される。
【0204】
加えて、オーディオデコーダは、シーン構成パケットに含まれるタイムスタンプ情報に応じて、再生時間、又は任意選択でシーン時間を設定するように構成される。
【0205】
したがって、デコーダは、例えば、現在の再生時間、例えば、外乱の後、又は新たにストリームに参加するとき、又は再びストリームに参加するとき、関連するオーディオ情報が表示されるべき時間(例えば、相対時間又は絶対時間)を効率的に決定し、したがって設定することができる。
【0206】
本発明の更なる実施形態によれば、オーディオデコーダは、オーディオデコーダがストリームの1つ以上の先行するシーン構成パケットを逃したとき、又はオーディオデコーダがストリームに同調したときに、タイムスタンプ情報によって定義される再生時間、又は例えばシーン時間までのレンダリングシーンの時間的発展を実行するか、又は任意選択で、等価的に、リトレースするか、又は再構築するように構成される。
【0207】
したがって、一例として、デコーダ又はレンダラは、例えばタイムスタンプ情報を考慮に入れて、シーン構成パケットに基づいて一連の更新、例えばメタデータ更新をキャプチャすることができる。
【0208】
本発明の更なる実施形態によれば、オーディオデコーダは、パケットに、例えばシーン構成パケット、例えば、mpegiSceneConfig()パケット(「mpeghiSceneConfig」と呼ばれることもある)に含まれるタイムスケール情報を取得するように構成される。
【0209】
更に、オーディオデコーダは、タイムスケール情報を使用してタイムスタンプ情報を評価するように構成され、オーディオデコーダは、例えば、タイムスケール情報によって定義されるタイムスケールでタイムスタンプ情報を評価するように構成されてもよく、例えば、前記タイムスケール情報は、前記オーディオデコーダ又は前記レンダラのクロックソースに関連して、前記タイムスタンプ情報の解釈を構成し、任意選択で他の時間情報の解釈も構成する。したがって、時間情報又はタイミング情報を効率的に提供及び決定することができる。
【0210】
本発明の更なる実施形態によれば、オーディオデコーダは、タイムスタンプ情報に応じて、レンダリングにどのシーンオブジェクトを使用すべきかを決定するように構成される。したがって、オブジェクトによってモデル化され得る時間的に依存するシーン変化を効率的に表現することができる。
【0211】
本発明の更なる実施形態によれば、オーディオデコーダは、タイムスタンプ情報によって定義される時間の前にある時点から始まるレンダリングシーンの展開を定義するシーン構成パケットを評価するように構成される。
【0212】
加えて、オーディオデコーダは、シーン構成パケット内の情報に基づいてタイムスタンプ情報によって定義される時点に関連付けられたシーン構成を導出するように構成される。
【0213】
したがって、タイムスタンプ情報の時刻の前のオーディオシーン更新の展開は、例えば、タイムスタンプの時刻に存在するシーン構成を決定するためにオーディオデコーダによって考慮され得る。したがって、タイムスタンプ情報の時刻に関連付けられた自己整合的なシーン構成情報を有することなく、オーディオストリームにおけるオーディオデコーダの同調が可能である。これにより、良好な聴覚体験を提供しながらビットレートを低減することができる。
【0214】
本発明の更なる実施形態によれば、オーディオデコーダは、1つ以上のシーン更新パケットを用いて、かつ例えば、好ましくはシーン構成パケット内の情報も用いて、タイムスタンプ情報によって定義される時点に関連付けられたシーン構成を導出するように構成される。
【0215】
したがって、実施形態は、パケットを提供するレンダラ構成情報に関して良好な柔軟性を提供する。
【0216】
本発明の更なる実施形態によれば、シーン構成パケット、及び任意選択で1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットは、MPEG-H MHASパケット定義に適合している。
【0217】
したがって、本発明による実施形態は、既存のオーディオ符号化フレームワーク又は規格と共に、又はそれに従って使用することができる。
【0218】
本発明の更なる実施形態によれば、シーン構成パケット、及び任意選択で、1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットは各々、パケットタイプ識別子、例えばMHASPacketType、パケットラベル、例えばMHASPacketLabel、パケット長情報、例えばMHASPacketLength、及びパケットペイロード、例えばMHASPAcketPayloadを含む。
【0219】
一例として、パケットラベルは、どのパケットが共に属するかの指示を提供することができる。例えば、異なるラベルを使用して、異なるMPEG-H 3Dオーディオ構成構造をMPEG-H 3Dオーディオアクセスユニットの特定のシーケンスに割り当てることができる。パケット長情報は、パケットペイロードの長さを示してもよい。本発明者らは、そのようなデータ構造の使用がパケットの効率的な処理を可能にし得ることを認識した。
【0220】
本発明の更なる実施形態によれば、オーディオデコーダは、レンダリングされる1つ以上のオーディオチャネルを表すパケットを含む、複数のMPEG-Hパケットを含むビットストリームから、1つ以上のシーン構成パケット、及び任意選択で、1つ以上のシーン更新パケット、及び1つ以上のシーンペイロードパケットを抽出するように構成される。
【0221】
任意選択で、オーディオデコーダは、例えば、異なるタイプのパケットを含むパケットのインタリーブされたシーケンス(例えば、MHASパケットのインタリーブされたシーケンスから)から、1つ以上のシーン構成パケット、1つ以上のシーン更新パケット、及び1つ以上のシーンペイロードパケットを抽出するように、例えば、パケット内に含まれるパケットタイプ識別子及び/又はパケットラベルを利用するように構成されてもよい。
【0222】
したがって、より小さいデータ部分は、例えば、インタリーブ方式で送信され得る。例えば、ブロードキャストシナリオでは、これにより、ブロードキャストビットストリームデータレートを低く保つことが可能になり得る。
【0223】
本発明の更なる実施形態によれば、オーディオデコーダは、ブロードキャストストリームを介して、例えば低ビットレートブロードキャストストリームを介して、1つ以上のシーン構成パケットを受信するように構成される。
【0224】
これにより、例えば、送信リソースの使用が制限された複数のデコーダ又はレンダラへのレンダラ構成情報の配信が可能になり得る。
【0225】
本発明の更なる実施形態によれば、前記オーディオデコーダは、前記ブロードキャストストリームに同調し、前記同調後に前記オーディオデコーダによって識別された第1のシーン構成パケットの前記タイムスタンプに基づいて、再生時間を決定するように構成されている。
【0226】
本発明者らは、同調後にオーディオデコーダによって識別された第1のシーン構成パケットに基づいてタイムスタンプの決定を可能にすることによって、オーディオデコーダは、オーディオ情報を正しくレンダリングするために正しい現在の再生時間を迅速に設定することができることを認識した。
【0227】
以下の実施形態では、符号化オーディオ表現を提供するための装置、例えばエンコーダに関する実施形態が説明される。そのような実施形態は、デコーダに関連する上記の実施形態と同じ又は類似の又は対応する考慮事項に基づくことができることに留意されたい。したがって、以下の実施形態は、個別に、及び組み合わせて、上記で開示された実施形態と同じ、類似の、又は対応する特徴、機能及び詳細を含むことができる。
【0228】
本発明による更なる実施形態は、符号化オーディオ表現を提供するための装置、例えばオーディオエンコーダ又はオーディオサーバを備え、装置は、1つ以上のオーディオ信号の空間レンダリングのための情報を提供するように構成される。
【0229】
更に装置は、例えば、MPEG-H MHASパケット定義に適合するパケットタイプを有する、異なるパケットタイプの複数のパケットを提供するように構成され、パケットは、複数のシーン構成パケット、例えば、Scene ConfigPacket、例えば、mpegiSceneConfig[](「mpeghiSceneConfig[]」と呼ばれることもある)を含み、例えば、セルの定義を使用して、異なるシーンオブジェクト及び/又はシーン特性がレンダリングプロセスにおいていつ又はどの条件下で使用されるべきかを定義する、レンダリングシナリオの時間的展開を定義する、例えば、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供し、タイムスタンプ情報を含む。
【0230】
本発明の更なる実施形態によれば、前記装置は、前記パケットのうちの1つにおいて、例えば、シーン構成パケットにおいて、タイムスケール情報を提供するように構成されており、前記タイムスタンプ情報は、前記タイムスケール情報に関連する表現で提供される。
【0231】
本発明の更なる実施形態によれば、本装置は、シーン構成パケット、及び任意選択で、1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットは、MPEG-H MHASパケット定義に適合するように、シーン構成パケット、及び任意選択で、1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットを提供するように構成される。
【0232】
本発明の更なる実施形態によれば、本装置は、シーン構成パケット、及び任意選択で、1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットは各々、パケットタイプ識別子、例えばMHASPacketType、パケットラベル、例えばMHASPacketLabel、パケット長情報、例えばMHASPacketLength、及びパケットペイロード、例えばMHASPAcketPayloadを含むように、シーン構成パケット、及び任意選択で、1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットを提供するように構成される。
【0233】
本発明の更なる実施形態によれば、本装置は、レンダリングされる1つ以上のオーディオチャネルを表すパケットと、1つ以上のシーン構成パケットと、任意選択で、1つ以上のシーン更新パケットと、1つ以上のシーンペイロードパケットとを含む、例として、MHAS又はMHASストリームとも呼ばれる複数のMPEG-Hパケットを含むビットストリームを提供するように構成される。
【0234】
本発明の更なる実施形態によれば、本装置は、レンダリングされる1つ以上のオーディオチャネルを表すパケットと、インタリーブ方式で、1つ以上のシーン構成パケットと、任意選択で、1つ以上のシーン更新パケットと、1つ以上のシーンペイロードパケットとを含む、例として、MHAS又はMHASストリームとも呼ばれる複数のMPEG-Hパケットを含むビットストリームを提供するように構成される。
【0235】
本発明の更なる実施形態によれば、本装置は、2つの後続のシーン構成パケットの間で、1つ以上のシーンペイロードパケット(例えばペイロード1、ペイロード2)及びレンダリングされる1つ以上のオーディオチャネル(例えば、MPEGH3DAFRAME)を表す1つ以上のパケットを(及び任意選択で1つ以上のシーン更新パケットも)用いて、例えばタイムスタンプのみを変更して、シーン構成パケットを周期的に繰り返すように構成されており、例えば、2つの後続のシーン構成パケットの間で、レンダリングされる1つ以上のオーディオチャネル(例えば、MPEGH3DAFRAME)を表す1つ以上のパケットを(及び任意選択で1つ以上のシーン更新パケットも)用いて、シーン構成パケットを周期的に繰り返すように構成されており、本装置は、これを提供する。
【0236】
これは、ストリームに参加するデコーダ又はレンダラのための効率的な同調手順を可能にし得る。
【0237】
本発明の更なる実施形態によれば、本装置は、シーン構成パケットを、例えばブロードキャストビットストリームにおいて、任意選択でタイムスタンプのみを変更して、1つ以上のシーンペイロードパケット、例えばペイロード1、ペイロード2と、レンダリングされる1つ以上のオーディオチャネルを表す1つ以上のパケット、例えばMPEGH3DAFRAMEと、任意選択で、再び1つ以上のシーン更新パケットとを、2つの後続のシーン構成パケットの間で周期的に繰り返すように構成される。
【0238】
本発明の更なる実施形態によれば、本装置は、2つの後続のシーン構成パケットの間で、レンダリングされるべき1つ以上のオーディオチャネルを表す1つ以上のパケット、例えば、MPEGH3DAFRAME、及び任意選択で1つ以上のシーン更新パケットも含めて、シーン構成パケットを、例えばブロードキャストビットストリームで、任意選択でタイムスタンプの変更又は更新のみを伴って、周期的に繰り返すように構成されている。
【0239】
更に、装置は、要求時に、例えばオーディオデコーダ又はレンダラの要求時に、1つ以上のシーンペイロードパケットを提供又は要求するように構成される。
【0240】
任意選択で、本装置は、2つの後続のシーン構成パケットの間に(例えば、MPEGH3DAFRAME)レンダリングされる1つ以上のオーディオチャネルを表す1つ以上のパケットを(及び任意選択で1つ以上のシーン更新パケットも)用いて、シーン構成パケットを周期的に繰り返すように構成することもでき、例えば、本装置は、シーンペイロードパケットを要求時にのみ提供する。
【0241】
したがって、シーン構成パケットは、例えば、小さいパケットであってもよく、それぞれのデコーダ又はレンダラは、例えば、当該シーン構成パケットに基づいて、どのペイロードパケットが必要であるかを決定することができ、ペイロードパケットは、例えば、それを提供するように構成され得る、上述の装置からのバックチャネルを介してそれらを要求することができる。したがって、ブロードキャストビットストリームデータレートを低く保つことができる。
【0242】
本発明の更なる実施形態によれば、前記装置は、例えば、前記タイムスタンプ情報のみが異なる複数の、他の点では同一であるシーン構成パケットを、例えば周期的に提供するように構成されている。
【0243】
このため、例えば、タイムスタンプ情報のみを更新するようにしてもよい。したがって、現在の再生時間に関する情報も提供しながら、適応努力を低く保つことができる。
【0244】
本発明の更なる実施形態によれば、装置は、タイムスタンプ情報を再生時間、例えばシーン時間に適合させるように構成される。
【0245】
本発明の更なる実施形態によれば、装置は、タイムスタンプ情報を、パケットに含まれるレンダリングシーン情報の再生時間、例えばindendent再生時間、例えば意図された再生時間、例えば独立再生時間、例えば、シーン時間に適合させるように構成され、パケットは、前記それぞれのタイムスタンプ情報が含まれるそれぞれのシーン構成パケットの時間環境において前記装置によって提供される。
【0246】
以下の実施形態では、復号及び符号化オーディオ表現を提供するための方法に関する実施形態が説明される。そのような実施形態は、装置に関連する上記の実施形態と同じ又は類似の又は対応する考慮事項に基づくことができることに留意されたい。したがって、以下の実施形態は、個別に、及び組み合わせて、上記で開示された実施形態と同じ、類似の、又は対応する特徴、機能及び詳細を含むことができる。
【0247】
本発明の更なる実施形態は、符号化オーディオ表現に基づいて復号された、任意選択で、レンダリングされたオーディオ表現を提供するための方法を含み、方法は、1つ以上のオーディオ信号を空間的にレンダリングすることと、例えば、MPEG-H MHASパケット定義に適合するパケットタイプを有する、異なるパケットタイプの複数のパケットを受信することとを含み、パケットは、複数のシーン構成パケット、例えば、Scene ConfigPacket、例えば、mpegiSceneConfig[](「mpeghiSceneConfig[]」と呼ばれることもある)を含み、例えば、セルの定義を使用して、異なるシーンオブジェクト及び/又はシーン特性がレンダリングプロセスにおいていつ又はどの条件下で使用されるべきかを定義する、レンダリングシナリオの時間的展開を定義する、例えば、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供し、タイムスタンプ情報を含む。
【0248】
更に、方法は、タイムスタンプ情報を評価することと、レンダリング構成を、例えばオーディオデコーダがストリームに同調するときに、レンダラ構成情報を用いて、タイムスタンプに対応するレンダリングシナリオに設定することとを含む。
【0249】
本発明の更なる実施形態は、符号化オーディオ表現を提供するための方法を含み、方法は、1つ以上のオーディオ信号を空間レンダリングするための情報を提供することと、例えば、MPEG-H MHASパケット定義に適合するパケットタイプを有する、異なるパケットタイプの複数のパケットを提供することとを含み、パケットは、複数のシーン構成パケット、例えば、Scene ConfigPacket、例えば、mpegiSceneConfig[](「mpeghiSceneConfig[]」と呼ばれることもある)を含み、例えば、セルの定義を使用して、異なるシーンオブジェクト及び/又はシーン特性がレンダリングプロセスにおいていつ又はどの条件下で使用されるべきかを定義する、レンダリングシナリオの時間的展開を定義する、例えば、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供し、タイムスタンプ情報を含む。
【0250】
本発明による更なる実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、実施形態のいずれかによる方法を実行するためのコンピュータプログラムを含む。
【0251】
以下では、ビットストリームに関する実施形態について説明する。そのような実施形態は、装置及び/又は方法に関連する上記の実施形態と同じ又は類似の又は対応する考慮事項に基づくことができることに留意されたい。したがって、以下の実施形態は、個別に、及び組み合わせて、上記で開示された実施形態と同じ、類似の、又は対応する特徴、機能及び詳細を含むことができる。
【0252】
本発明の更なる実施形態は、オーディオコンテンツを表すビットストリームを含み、ビットストリームは、例えば、MPEG-H MHASパケット定義に適合するパケットタイプを有する、異なるパケットタイプの複数のパケットを含み、パケットは、複数のシーン構成パケット、例えば、Scene ConfigPacket、例えば、mpegiSceneConfig[](「mpeghiSceneConfig[]」と呼ばれることもある)を含み、例えば、セルの定義を使用して、異なるシーンオブジェクト及び/又はシーン特性がレンダリングプロセスにおいていつ又はどの条件下で使用されるべきかを定義する、レンダリングシナリオの時間的展開を定義する、例えば、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供し、タイムスタンプ情報を含む。
【0253】
例えば、ビットストリームは、個別に、及び組み合わせて、本明細書に開示された任意のビットストリーム要素によって任意選択で補足されてもよい。
【0254】
本発明の更なる実施形態によれば、符号化オーディオ表現に基づいて、復号化オーディオ表現を提供するためのオーディオデコーダを含み、前記オーディオデコーダは、1つ以上のオーディオ信号を空間的にレンダリングし、異なるパケットタイプの複数のパケットを受信するように構成されており、前記パケットは、レンダラ構成情報を提供する複数のシーン構成パケットを含む。
【0255】
更に、オーディオデコーダは、タイムスタンプ情報を評価し、レンダリング構成をタイムスタンプに対応するレンダリングシナリオに設定するように構成される。
【0256】
そのような本発明のデコーダは、個別に、及び組み合わせて、上記で開示された実施形態のいずれか又は本明細書で開示された他の実施形態のいずれかと同じ、類似の又は対応する特徴、機能及び詳細を含むことができることに留意されたい。
【0257】
以下では、本発明の第4の態様による実施形態について説明する。本発明の第4の態様による実施形態は、セル情報の使用に基づくことができる。
【0258】
第4の態様による実施形態は、個別に又は組み合わせて、本発明の第1、第2及び第3の態様の実施形態の特徴機能及び詳細を含むことができ、逆もまた同様である。
【0259】
本発明による実施形態は、符号化オーディオ表現に基づいて復号され、任意選択で、レンダリングされるオーディオ表現を提供するためのオーディオデコーダを備え、オーディオデコーダは、1つ以上のオーディオ信号を空間的にレンダリングするように構成され、これは例えば、符号化オーディオ表現内で符号化され得る。
【0260】
更に、オーディオデコーダは、シーン構成パケット、例えば、MPEG-H MHASパケット定義に適合するシーン構成パケット、例えば、Scene ConfigPacket、例えば、mpegiSceneConfig[](「mpeghiSceneConfig」と呼ばれることもある)を受信し、例えば、異なるシーンオブジェクト及び/又はシーン特性がレンダリングプロセスにおいていつ又はどの条件下で使用されるべきかを定義する、例えば、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する。
【0261】
加えて、シーン構成パケットは、セル情報(例えば、セル数、及び各セルについて、1つ以上のセル条件(例えば、開始タイムスタンプ及び任意選択で終了タイムスタンプ、又はジオメトリ識別子)の定義、並びに1つ以上のセル、例えば好ましくは複数のセルを定義する1つ以上のシーンペイロード(例えば、payloadId[i][j]及び/又はシーン更新パケットへの参照(例えば、updateId[i]))(例えば、必ずしもそうとは限らないが、セル情報はサブシーンセル情報であってもよい)の定義、また任意選択で、1つ以上のオーディオストリームの定義、又は例えば1つ以上のオーディオストリームを定義する定義を示す情報numCells)を含む。
【0262】
更に、セル情報は、例えばセルインデックスiを有する1つ以上の、例えば時間的及び/又は空間的なセルと、例えば1つ以上のそれぞれのデータ構造を表すシーンペイロードパケットのペイロードへの参照を使用して、1つ以上のセルに関連付けられたそれぞれの1つ以上のデータ構造(例えば、ペイロード又はペイロードパケット(例えば、mpegiScenePayload(「mpeghiScenePayload」と呼ばれることもある))、例えば、payloadId[i][j]、例えば、シーンオブジェクト及び/又はシーン特性を定義するペイロード、例えば、音源及び/又は散乱物体及び/又は散乱表面及び/又は減衰オブジェクト及び/又は減衰表面、及び/又は材料パラメータ及び/又は残響特性及び/又はポータル及び/又は初期反射及び/又は後期残響及び/又は回折特性及び/又は音響材料及び/又はシーン内のジオメトリ要素を定義するデータ構造であって、例えばデータ構造識別子又はペイロード識別子によって識別されるデータ構造、例えばpayloadIdによって識別される)との間の関連付けを定義し、レンダリングシナリオ(例えば、サブシーンレンダリングシナリオであるが、必ずしもそうである必要はない)を定義する。
【0263】
加えて、オーディオデコーダは、どのデータ構造、例えばpayloadId[i][j]によって識別されるどのシーンペイロードが、例えば異なる時間又は異なるリスナーポジションで空間レンダリングに使用されるべきかを決定するためにセル情報を評価するように構成され、当該データ構造は、例えばシーンペイロードパケットに含まれ得る。
【0264】
本発明者らは、セルの定義に基づいて、データ構造を含むレンダリングシナリオが効率的に定義され得ることを認識した。上で説明したように、セルは、例えば、時間的及び/又は空間的セルであり得る。言い換えれば、オーディオシーン、例えば音響的に関連するオブジェクトなどのオーディオシーンの態様は、時間及び/又は空間において分割又は分離又は仕切られていてもよい。
【0265】
言い換えれば、メタデータは、例えば、(a)特定の時点で、又は(b)空間内の特定のロケーションで必要とされるようになり得る。「セル」概念は、例えば、シーンをレンダリングするために特定のペイロードパケットがどの時間及び/又はロケーションに必要とされるかを指定する方法を提供する。
【0266】
セルは、空間音響シーン内のセルのジオメトリを定義するセル境界を含むことができる。セルは、例えば、ある時間にリスナーがセル境界内にあるとき、及び/又はリスナーがセル境界内にあるときにアクティブであり得る。セル境界は、例えば、任意のジオメトリとすることができるが、効率的な実装にはプリミティブなジオメトリ(軸整列境界ボックスなど)が好ましい場合がある。
【0267】
簡単に言えば、一例として、セルは、例えば、シーンオブジェクト及び/又はシーン特性を定義するペイロードの形態で、データ構造のための「パッケージ」を提供することができ、それらの要素は、音響シーン内の特定のエリア及び/又は時間に関連付けられ、それらの要素は、例えば、それぞれのセルをアクティブ化することによって、単純な方式でアクティブ化又は考慮に入れることができる。
【0268】
更に、第1のセルがオーディオシーンの音響的に関連する要素に関する粗い情報を提供し、より詳細な情報を提供する重なり合うセルによって精緻化されるように、セルは重なり合っていてもよく、例えば、詳細レベルの手法を実装していてもよい。
【0269】
一例として、ペイロードパケットに任意選択で含まれるセル情報に基づいて、デコーダは、例えばセル情報の時間条件又は空間条件に基づいて、オーディオシーンのレンダリングに必要なペイロードを選択することができる。したがって、デコーダは、使用及び/又は格納され得るペイロードの選択のみを要求することができる。
【0270】
したがって、より少ないペイロードが要求及び評価されなければならない可能性があり、エンコーダとデコーダとの間の対応する必要なビットレートを低減する可能性があるため、効率を高めることができる。
【0271】
更に、一例として、シーン構成パケットは、任意選択でブロードキャストチャネル内の小さなビットストリームパケットとして配信され得るセル情報を含むことができるので、例えばペイロードの効率的な選択のために、そのような基本的なレンダリング情報の良好な利用可能性を提供することができ、これは本発明の概念の効率を高めることができる。
【0272】
本発明の更なる実施形態によれば、セル情報は、所与のセル、例えばセルインデックスiを有するセルの時間的定義、例えば時間条件、例えば開始時間情報及び/又は停止時間情報、例えば、開始タイムスタンプ及び/又は終了タイムスタンプ、例えば、startTimestamp[i]及び/又はendTimestamp[i]を含む。
【0273】
更に、オーディオデコーダは、例えばpayloadId[i][j]によって識別される所与のセルに関連付けられた1つ以上のデータ構造が空間レンダリングにおいて考慮される(例えば、使用される)とみなされるべきかどうかを決定するために、所与のセルの時間的定義を評価するように構成され、オーディオデコーダは、例えば、現在の再生時間が所与のセルの時間的定義(例えば、時間条件)を満たす場合に、所与のセルに関連付けられたデータ構造を選択的に使用するように構成され得る。
【0274】
したがって、オーディオシーンの時間情報(例えば、時間的展開)は、例えば、セル概念に基づいて、レンダリング手順に容易に組み込むことができる。
【0275】
本発明の更なる実施形態によれば、セル情報は、所与のセルの空間的定義、例えば空間条件、例えば直接ジオメトリ定義、又はジオメトリオブジェクトの定義への参照、例えば、ジオメトリ識別子、例えば、geometryId[i]を含む。
【0276】
更に、オーディオデコーダは、例えばpayloadId[i][j]によって識別される、所与のセルに関連付けられた1つ以上のデータ構造が空間レンダリングにおいて考慮される(例えば、使用される)べきかどうかを決定するために、所与のセルの空間的定義を評価するように構成される。
【0277】
任意選択で、オーディオデコーダは、例えば、現在のリスナーポジションが所与のセルの空間的定義(例えば、空間条件)を満たす場合、所与のセルに関連付けられたデータ構造を選択的に使用するように構成されてもよい。
【0278】
したがって、オーディオシーンに関する空間情報は、例えば、セル概念に基づいて、レンダリング手順に容易に組み込むことができる。
【0279】
本発明の更なる実施形態によれば、オーディオデコーダは、セル数を決定するために、シーン構成パケットに含まれるセル数情報、例えばnumCellsを評価するように構成される。
【0280】
本発明の更なる実施形態によれば、セル情報は、セル情報がセルの時間的定義又はセルの空間的定義を含むかどうかを示すフラグ、例えばisTimed[i]を含む。
【0281】
更に、オーディオデコーダは、例えば、それぞれのセルに関連付けられた1つ以上のデータ構造が空間レンダリングに使用されるべきであるときの条件を導出するために、セル情報がセルの時間的定義又はセルの空間的定義を含むかどうかを示すフラグを評価するように構成される。
【0282】
フラグは、例えば、低い計算労力及び送信リソースに関する低い要件で送信及び評価され得る。
【0283】
本発明の更なる実施形態によれば、セル情報は、セルを定義するために、ジオメトリ構造、例えば、geometryId[i]の参照を含み、ジオメトリ構造は、例えば、ペイロードパケットで定義され得る。
【0284】
更に、オーディオデコーダは、セルのジオメトリ定義を取得するために、ジオメトリ構造の基準を評価するように構成される。
【0285】
参照情報を使用することにより、例えば、複数の複雑なジオメトリを定義することができ、その選択は、例えば、ジオメトリ自体を定義する広範な情報の送信が省略され得るように、エンコーダ及びデコーダの両方に共通であり得るリスト又はルックアップテーブルを使用して、参照情報によって示され得る。
【0286】
一般に、セルは、例えば、ペイロード要素を使用して説明することができる音響的に関連する要素を含むオーディオシーンの空間的及び/又は時間的分割を定義することができることに留意されたい。したがって、セルは、ペイロード又はペイロードパケットに関連付けられ得る。しかしながら、セル自体も任意選択で音響的に関連するオブジェクトを表すことができ、それらのジオメトリは、例えば、要素のジオメトリを表すことができる。
【0287】
本発明の更なる実施形態によれば、オーディオデコーダは、グローバルペイロードパケットから、例えば、セルのジオメトリ境界を定義するgeometryIdによって参照されるジオメトリ構造のジオメトリ構造の定義を取得するように構成され、グローバルペイロードパケットへの参照は、例えば、シーン構成パケットに含まれ得、グローバルペイロードパケットは、例えば、複数のセルで使用される、及び/又はグローバルに利用可能であるべきシーンオブジェクト及び/又はシーン特性のようなデータ構造を定義し得る。
【0288】
本発明者らは、ジオメトリ構造、例えば特に頻繁に使用されるジオメトリ構造が、グローバル定義、したがってグローバルに利用可能であり得るグローバルペイロードパケットによって効率的に定義され得ることを認識した。
【0289】
本発明の更なる実施形態によれば、オーディオデコーダは、例えば現在の再生時間及び/又は現在のポジション、並びに任意選択でセルの時間的及び/又は空間的定義を使用して、1つ以上の現在の、例えば時間的及び/又は空間的セルを識別するように構成される。
【0290】
更に、オーディオデコーダは、例えば、1つ以上の識別された現在のセルに関連付けられた1つ以上のデータ構造、例えばペイロードを選択的に使用し、任意選択で、1つ以上のグローバルに必要なペイロードも使用して、空間レンダリングを実行するように構成される。
【0291】
一例として、現在のセルは、例えばアクティブセルであってもよく、したがって、オーディオシーンのレンダリングのために、関連するメタデータ、例えばペイロードが考慮されてもよい。したがって、限られた量のセルのみをアクティブ化する必要があり、その結果、シグナリング及び計算の労力が制限され得る。
【0292】
本発明者らは、(例えば、空間的に特定のロケーションにある)例えば特定のリスナーの場合、及び/又は例えばオーディオシーンの現在の再生時間の場合、利用可能なセルの一部のみをアクティブ化及び/又は考慮に入れる必要があり得ることを認識した。
【0293】
本発明の更なる実施形態によれば、オーディオデコーダは、例えば現在の再生時間及び/又は現在のポジション、並びに任意選択でセルの時間的及び/又は空間的定義を使用して、1つ以上の現在の、例えば時間的及び/又は空間的セルを識別するように構成される。
【0294】
更に、オーディオデコーダは、例えば、1つ以上の識別された現在のセルに関連付けられた1つ以上のシーンオブジェクト(例えば、オーディオソース及び/又は散乱物体及び/又は減衰オブジェクト及び/又は障害物)及び/又はシーン特性(例えば、材料特性、及び/又は伝搬特性、及び/又は回折特性、及び/又は反射特性)を選択的に使用し、任意選択で、1つ以上のグローバルに必要とされるペイロードも使用して、空間レンダリングを実行するように構成される。
【0295】
本発明の更なる実施形態によれば、オーディオデコーダは、セル情報に応じて、空間レンダリングにおいて考慮される、例えば使用されるシーンオブジェクト及び/又はシーン特性を選択するように構成される。
【0296】
本発明の更なる実施形態によれば、オーディオデコーダは、例えば、それによって識別されたセルを取得するために、例えば、1つ以上のグローバルに必要とされるペイロードにおいて定義され得るセル境界を使用して、1つ以上の、例えば、空間的に重なり合う空間セルの、現在のポジション、例えば、現在のリスナーのポジションを決定するように構成される。
【0297】
更に、オーディオデコーダは、例えば、1つ以上の識別された現在のセルに関連付けられた1つ以上のシーンオブジェクト、例えば、オーディオソース及び/又は散乱物体及び/又は減衰オブジェクト及び/又は障害物、及び/又はシーン特性、例えば、材料特性、及び/又は伝搬特性、及び/又は回折特性、及び/又は反射特性、を選択的に使用し、任意選択で、1つ以上のグローバルに必要とされるペイロードも使用して、空間レンダリングを実行するように構成される。
【0298】
これにより、オーディオシーンを効率的にレンダリングすることができる。
【0299】
本発明の更なる実施形態によれば、オーディオデコーダは、1つ以上のペイロード、例えばシーンオブジェクト及び/又はシーン特性を記述するペイロード、例えば、セルのセル定義に含まれる、(j=0;j<numPayloads[i];j++){payloadId[i][j];}について、ペイロード識別子の列挙に基づいて、例えば、セルインデックスiを有する、例えば、1つ以上の現在セルに関連付けられたペイロードmpegiPayloadElement()(「mpeghiPayloadElement」と呼ばれることもある)を決定するように構成される。
【0300】
更に、オーディオデコーダは、決定された1つ以上のペイロードを使用して、例えば、他のセルに関連付けられた他のペイロードを考慮されず/無視されたままにしながら、空間レンダリングを実行するように構成される。
【0301】
したがって、一例として、セルはペイロードに関連付けられてもよく、ペイロードは、例えば、音響シーンに音響的に関連する要素を組み込むために使用され得るメタデータを定義してもよい。したがって、それぞれのセルの識別に基づいて、考慮されるペイロードの選択(及びどのペイロードを考慮されないままにするかの選択)を行うことができ、したがって、オーディオレンダリングの効率が向上する。
【0302】
本発明の更なる実施形態によれば、オーディオデコーダは、1つ以上の現在のセルに関連付けられ、例えば、セルのセル定義において、例えば、参照updateId[i]を使用して識別され得る、1つ以上のシーン更新パケット、例えば、mpegiSceneUpdate()(「mpeghiSceneUpdate」とも呼ばれる)からの情報を使用して空間レンダリングを実行するように構成され、シーン更新パケットによって定義されるシーン更新は、例えば、1つ以上のシーンオブジェクトのアクティブ化及び/又は非アクティブ化を含むことができる。
【0303】
一例として、更新は、特定のセル、又は特定のセルにそれぞれ関連付けられた要素、例えばペイロード要素に関連付けられ得る。したがって、シーン更新は、対応するセルの参照に基づいて効率的に指示され得る。
【0304】
本発明の更なる実施形態によれば、オーディオデコーダは、所与のセルがアクティブになるという発見に応答して、例えば、ポジションがセルに関連付けられた領域に到達又は進入するという発見に応答して、及び/又は再生時間がセルに関連付けられた時間若しくは時間間隔に到達する、又はセルに関連付けられた時間間隔に進入するという発見に応答して、所与のセルに関連付けられた1つ以上のシーン更新パケット、例えば、updateId[]によって指定されたシーン更新パケットからの情報を使用してレンダリングシーンを更新するように構成される。
【0305】
したがって、シーンの音響的に関連する要素は、例えば、それらがレンダリングシーン、例えばオーディオシーンのレンダリングに必要とされるときに更新されることができる。本発明者らは、セルのアクティブ化状態に基づいて、最新バージョンの音響メタデータを提供する必要性が効率的に示され得ることを認識した。
【0306】
本発明の更なる実施形態によれば、セル情報は、レンダリングのためのシーンメタデータの更新、例えばシーンオブジェクトのパラメータの変更又はシーン特性の変更を定義する、及び任意選択で1つ以上の更新条件の表現を含む、シーン更新パケット、例えばmpegiSceneUpdate[](「mpeghiSceneUpdate」とも呼ばれる)の、及び/又はシーン更新パケットへの参照、例えばupdateId[i]を含む。
【0307】
更に、オーディオデコーダは、所与のシーン更新パケットへのリンクを備えるセルがアクティブになったという検出に応答して、例えばオーディオデコーダがセル情報の評価を使用して、どのシーンオブジェクト及び/又はシーン特性が空間レンダリングに使用されるべきかを決定すると共に、シーン更新パケットへのリンクによって、セルのアクティブ化に応答して、どのシーンメタデータの更新が行われるべきかを決定するように、所与のシーン更新パケットにおいて定義されたシーンメタデータの更新を選択的に実行するように構成される。
【0308】
したがって、セル情報に基づいて、それぞれのセルに関連付けられたシーン更新パケットが要求及び/又は取得され得る。一例として、セルのアクティブ化時に、セルに関連付けられたメタデータは、参照されるシーン更新パケットに基づいて更新され得る。したがって、メタデータを効率的に更新することができる。
【0309】
本発明の更なる実施形態によれば、1つ以上のシーン更新パケットは、1つ以上の更新条件の表現を含み、オーディオデコーダは、1つ以上の更新条件が満たされた場合に、1つ以上の更新条件、例えば、シーン更新パケットにおいて定義された1つ以上の更新条件が満たされているかどうかを評価し、1つ以上のシーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータを選択的に更新するように構成され、例えば、1つ以上のシーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータの更新をトリガする、すなわち、シーン構成パケットにおいて定義されたセルを使用してトリガすることと、シーン更新パケット自体において定義された条件を使用してトリガすることとの2つの機構がある。
【0310】
したがって、音響シーンを効率的に更新することができる。実施形態は、効率的な更新トリガが複数の異なるアプリケーションに提供され得るように、柔軟なトリガ条件を定義及び提供することを可能にし得る。
【0311】
本発明の更なる実施形態によれば、前記オーディオデコーダは、前記1つ以上のシーン更新パケットのコンテンツに応じて、例えば、例えば「targetId」によって参照される、変更されるシーンメタデータ項目の列挙、及び例えば「属性」によって定義される、対応する新しい値に応じて、1つ以上のシーンメタデータを更新すべきかどうか決定するために、シーン更新パケットに含まれている時間条件、例えば、startTimestampによって定義される、例えば、時間的トリガ条件、を評価するように構成されている。
【0312】
更に、時間条件は、例えばビットストリーム要素startTimestampを使用して開始時刻を定義するか、又は時間条件は、例えば開始時刻及び終了時刻を使用して時間間隔を定義する。
【0313】
加えて、オーディオデコーダは、例えばそれぞれのシーン更新パケットに含まれる定義に従って、検出に応答して、例えば検出に応答して直ちに、又はそれぞれのシーン更新パケット内で定義された時間遅延を使用して、現在の再生時間、例えばシーン時間が開始時刻に達したか、又は開始時刻の後にあるという検出に応答して、1つ以上のシーンメタデータの更新を行うように構成される。
【0314】
あるいは、オーディオデコーダは、例えばシーン時間などの現在の再生時間が時間間隔内にあるという検出に応答して、例えばそれぞれのシーン更新パッケージに含まれる定義に従って、1つ以上のシーンメタデータの更新を行うように構成される。
【0315】
代替的又は追加的に、前記オーディオデコーダは、前記1つ以上のシーン更新パケットのコンテンツに応じて、例えば、例えば「targetId」によって参照される、変更されるシーンメタデータ項目の列挙、及び例えば「属性」によって定義される、対応する新しい値に応じて、1つ以上のシーンメタデータを更新すべきかどうか決定するために、シーン更新パケットに含まれている空間条件、例えば、空間トリガ条件、例えば、ジオメトリ定義を参照することによって定義される空間条件、例えば、geometryIdによって定義される空間条件、を評価するように構成されている。
【0316】
したがって、更新は、例えば、時間条件及び/又は空間条件によってトリガされてもよく、更新条件の実装のための良好な柔軟性を提供し、したがって音響シーンを効率的に更新することを可能にする。
【0317】
本発明の更なる実施形態によれば、シーン更新パケット内の空間条件は、例えばジオメトリ定義への参照を使用してジオメトリ要素を定義し、当該ジオメトリ定義は、例えばシーンペイロード要素に含まれ得る。
【0318】
加えて、オーディオデコーダは、例えばそれぞれのシーン更新パケットに含まれる定義に従って、検出に応答して、例えば検出に応答して直ちに、又は例えば、現在のポジションがジオメトリ要素に到達した(例えば、ジオメトリ要素によって定義された1次元境界に到達した、又は、例えば、ジオメトリオブジェクトによって定義された2次元境界に到達した、又は、例えば、ジオメトリオブジェクトによって定義された3次元境界に到達した)というそれぞれのシーン更新パケット内で定義された時間遅延を使用して、又は検出に応答して、例えば検出に応答して直ちに、又は例えば、現在のポジションがジオメトリ要素内、例えば2次元ジオメトリ要素内又は3次元ジオメトリ要素内にあるというそれぞれのシーン更新パケット内で定義された時間遅延を使用して、1つ以上のシーンメタデータの更新を行うように構成される。
【0319】
したがって、本発明者らは、空間条件が、例えばセルの形態のジオメトリ要素を表すか又は定義することができることを認識した。ジオメトリ要素は、例えば、オーディオシーンの空間部分、例えばレンダリングシナリオであってもよい。したがって、音響的に関連するメタデータは、一例として、オーディオシーンがレンダリングされるリスナー又はユーザのポジションに基づいて決定することができ、その結果、ジオメトリ要素に関連付けられたメタデータであって、シーンの音響的に関連する要素又は特性を任意選択で記述するメタデータは、リスナー又はユーザがジオメトリ要素に近いか、又はジオメトリ要素内にある場合に関連することができる。このようにしてオーディオシーンを高品質でレンダリングするために、そのようなジオメトリ要素(例えば、オーディオシーン内のジオメトリ要素の周り、又はその中に空間的に配置された要素を記述するメタデータ)に関連付けられたメタデータを更新することができる。
【0320】
本発明の更なる実施形態によれば、オーディオデコーダは、1つ以上のシーン更新パケットのコンテンツに応じて、1つ以上のシーンメタデータが更新されるべきかどうかを決定するために、例えば、シーン更新パケット(例えば、ユーザがシーン内の単なる動きを超える特定のアクションを取るという条件、例えばフラグ「fireOn」によって定義される、例えば、ユーザが所定のコマンドを与える、又は所定のボタンを起動する条件)において定義され得る、対話型トリガ条件が満たされているかどうかを評価するように構成される。
【0321】
したがって、イベントトリガ更新は、オーディオシーンのレンダリングに組み込まれてもよい。これは、例えば、機械又は建物などの物体のデジタルツインがシミュレートされるVRアプリケーションの文脈において特に有利であり得る。音響環境は、オブジェクトに対する相対ポジション又はシミュレーションにおける時間のみに基づいてではなく、オブジェクトのデジタルツインとの対話に基づいて変化し得る。
【0322】
本発明の更なる実施形態によれば、オーディオデコーダは、どの時点で、例えばどの再生時間で、及び/又はどのリスナーポジションのエリアで、どのデータ構造、例えばペイロード識別子、例えばpayloadIdによって指定されたどのペイロードが空間レンダリングに必要とされるか、又は例えば使用されるべきかを決定するために、セル情報を評価するように構成される。
【0323】
したがって、セル情報は、オーディオシーンの音響的に関連する情報(例えば、ロケーション(例えば、エリア)、時間(例えば、再生時間)、及びロケーション及び時間における音響特性(例えば、ペイロードによって定義されるように))を決定すること、関連付けること、又は接続することを可能にするコンパクトな情報とすることができ、したがって、オーディオシーンの効率的なレンダリングを可能にする。
【0324】
本発明の更なる実施形態によれば、オーディオデコーダは、リスナーポジションが第1の空間領域内、例えば第1のセル内にあるとき、第1のセットのシーンオブジェクト及び/又はシーン特性を使用して、例えば、第1のセルに関連するセル情報内で参照されるシーンオブジェクト及び/又はシーン特性を使用して、並びに任意選択で、グローバルなシーンオブジェクト及び/又はすべてのセルに適用されるシーン特性を使用して、1つ以上のオーディオ信号を空間的にレンダリングするように構成される。
【0325】
更に、オーディオデコーダは、リスナーポジションが第2の空間領域内、例えば第2のセル内にあるとき、第2のセットのシーンオブジェクト及び/又はシーン特性を使用して、例えば、第2のセルに関連するセル情報内で参照されるシーンオブジェクト及び/又はシーン特性を使用して、並びに任意選択で、グローバルなシーンオブジェクト及び/又はすべてのセルに適用されるシーン特性を使用して、1つ以上のオーディオ信号を空間的にレンダリングするように構成される。
【0326】
更に、例えば、第1のセットのシーンオブジェクト及び/又はシーン特性は、第2のセットのシーンオブジェクト及び/又はシーン特性よりも多数のシーンオブジェクト及び/又はシーン特性を含み、例えば、第1の第2の空間領域は、第1の空間領域よりも音源に近くてもよいため、第1のセットのシーンオブジェクト及び/又はシーン特性は、第2のセットのシーンオブジェクト及び/又はシーン特性と比較した場合、より詳細な空間レンダリングを提供する。
【0327】
発明者らは、詳細レベル概念がオーディオシーンの効率的なレンダリングを可能にし得ることを認識した。一例として、音響シーンの詳細レベル(LOD)分解を実行することができ、例えば、ジオメトリ構造から遠く離れている場合、構造の粗いジオメトリ表現で十分(例えば、少数の反射面を有する)であり得るが、同じ構造に近い場合、ジオメトリ構造の反射及びジオメトリ音響に関連する他の効果は、より高いLOD(例えば、多数の反射面を有する)でレンダリングされるべきである。これは、例えば、高LODジオメトリ表現を含む考慮されるジオメトリの近傍に対して1つのセルを指定し、低LODジオメトリ表現を含む残りのシーンに対して1つのセルを指定することによって達成することができる。
【0328】
したがって、一般に、セルは、互いに重なり合っていてもよく、及び/又は互いに収容していてもよく、又は互いに含んでいてもよい。したがって、一般に、セルは、オーディオシーンの一般化又は抽象化の異なる度合いを定義するために使用され得ることに留意されたい。例えば、第1のセルは、セルのロケーション及び例えば起動時間におけるオーディオシーンのレンダリングのための粗いメタデータと関連付けられてもよい。第2の重なり合うセルは、オーディオシーンのより細かいレンダリングのための精緻化された又は追加のメタデータ情報を提供することができる。
【0329】
したがって、詳細レベルは、特定の要素までの距離だけでなく、利用可能な帯域幅及び/又は詳細レベルのスケーリングを必要又は有益にし得る他の要件に関してもスケーリングされ得る。
【0330】
したがって、オーディオシーンは、可変レベルの粒度でレンダリングすることができる。
【0331】
本発明の更なる実施形態によれば、オーディオデコーダは、例えば、オーディオデコーダによる、1つ以上のシーンペイロードパケット、又は1つ以上のシーンペイロードパケットのコンテンツがレンダリングに必要であるという判定に応答して、例えば、パケットプロバイダへのバックチャネルを使用して、例えば、セル情報で参照されるデータ構造を含むことができる1つ以上のシーンペイロードパケットを、パケット提供者から要求するように構成される。
【0332】
したがって、それぞれのデコーダは、それ自体に必要なペイロードパケットのみを個別に要求することができるので、例えば、ブロードキャストチャネル上のトラフィックを低減することができる。
【0333】
本発明の更なる実施形態によれば、オーディオデコーダは、セル情報に含まれるペイロード識別子、例えばpayloadId[i]を使用して、空間レンダリングに使用される1つ以上のデータ構造を識別するように構成される。
【0334】
ペイロード識別子に基づいて、例えば、データ構造を効率的に識別することができる。
【0335】
本発明の更なる実施形態によれば、オーディオデコーダは、セル情報に基づいて、例えばオーディオデコーダによる、1つ以上のシーンペイロードパケット、又は1つ以上のシーンペイロードパケットのコンテンツがレンダリングに必要であるというセル情報に基づいて、例えばバックチャネルを使用して、パケットプロバイダに1つ以上のシーンペイロードパケットを要求するように構成される。
【0336】
本発明者らは、例えば、ブロードキャストシナリオでは、デコーダ又はレンダラが、例えば別個のチャネルを介して、欠落シーンペイロードパケットを識別及び要求するように構成され、したがって例えば役割を担う場合、ブロードキャストチャネル上のトラフィックが低減され得ることを認識した。
【0337】
本発明の更なる実施形態によれば、オーディオデコーダは、セル情報に含まれるペイロードIDを使用して、例えばペイロード要素に関連付けられたIDを使用して、パケットプロバイダから1つ以上のシーンペイロードパケットを要求するように構成される。
【0338】
あるいは、オーディオデコーダは、パケットIDを用いて、例えばシーンペイロードパケットに関連付けられたIDを用いて、パケットプロバイダから1つ以上のシーンペイロードパケットを要求するように構成される。
【0339】
ペイロード及び/又はパケットIDは、例えば、欠落シーンペイロードパケットを識別して要求するための効率的な手段とすることができ、したがって、要求送信コストを低く抑えることができる。
【0340】
本発明の更なる実施形態によれば、オーディオデコーダは、例えば、予測を使用して、どの1つ以上のデータ構造、例えば、どの1つ以上のPayloadElementが必要とされるか、又は必要とされると予想されるかを予期し、例えば、セル情報を使用して、どのセルが次にアクティブになるか、又は次にアクティブになる定義された尤度を有するかを予期し、データ構造が実際に必要とされる前に、1つ以上のデータ構造、又は当該1つ以上のデータ構造を含む1つ以上のシーンペイロードパケットを要求するように構成される。
【0341】
したがって、それぞれのデータ構造の送信のための時間制約を緩和することができる。これは、例えば、オーディオシーンがリアルタイムでレンダリングされなければならないシナリオ、及び/又はオーディオシーンがリアルタイムではあるが予測可能な方法で変化し得るシナリオ、例えば、イベントがシーンの音響特性を変化させる後続の更なるイベントをどのようにトリガするかが事前に知られているか、又は少なくともモデル化することができる場合に特に有利であり得る。
【0342】
本発明の更なる実施形態によれば、オーディオデコーダは、ビットストリームから、例えばビットストリームのペイロードパケットから、例えばブロードキャストビットストリームのペイロードパケットから、セル情報によって識別されるペイロードを抽出するように構成される。
【0343】
本発明の更なる実施形態によれば、オーディオデコーダは、セル情報を使用して、必要なデータ構造、例えばペイロード識別子payloadId[i]によって識別されるペイロードを追跡するように構成される。
【0344】
したがって、デコーダは、例えばシーンの音響的に関連する要素に関して、例えばシーン時間又は再生時間まで、例えば少なくともほぼ常に最新であり得る。これにより、例えば送信コストを削減することができる小さな増分更新の使用が可能になる。
【0345】
本発明の更なる実施形態によれば、オーディオデコーダは、例えばセル情報を使用して、現在の再生時間がデータ構造が必要とされる(セル情報で定義された)時間間隔の後にあるという発見に応答して、及び/又は現在のリスナーポジションがデータ構造が必要とされるセルのジオメトリセル境界から十分に離れているという発見に応答して、セル情報に応じて、例えばペイロード識別子payloadId[i]によって識別されるペイロードなどの1つ以上のデータ構造を選択的に破棄するように構成される。
【0346】
したがって、オーディオシーン情報は、セル内の音響シーン又はその態様の分離に基づいて、効率的に更新され得る。
【0347】
本発明の更なる実施形態によれば、セル情報は、レンダリングシーンのロケーションベース及び/又は時間ベースの細分割を定義する。
【0348】
これにより、レンダリングシナリオの複雑さを低減することができる。
【0349】
本発明の更なる実施形態によれば、オーディオデコーダは、シーン構成データ構造、例えばシーン構成パケット、例えばSceneConfigに基づいて、例えば時間的及び/又は空間的セルの定義を取得するように構成され、シーン構成データ構造はファイル又はストリームの先頭に位置していてもよく、シーン構成データ構造はストリーム内で任意選択で繰り返されていてもよく、デコーダは、例えばシーン構成パケットについてファイル又はストリームを構文解析するように構成されていてもよい。
【0350】
本発明者らは、本発明のシーン構成データ構造を使用して、セル定義が効率的に提供され得ることを認識した。
【0351】
本発明の更なる実施形態によれば、オーディオデコーダは、それぞれのデータ構造識別子、例えばペイロード識別子又はペイロードパケット識別子、例えばpayloadIdを使用して、1つ以上のデータ構造、例えばペイロード又はペイロードパケットを要求するように構成される。
【0352】
加えて、オーディオデコーダは、例えば現在のポジションがどの1つ以上のセル内にあるかを識別することによって、及び任意選択で、1つ以上の識別されたセルに関連するデータ構造識別子を含む要求メッセージを提供することによって、例えば、現在時刻情報に関連付けられた1つ以上のセルを識別し、1つ以上の識別されたセルに関連付けられたデータ構造識別子を含む要求メッセージを提供することによって、セル情報を使用して要求されるデータ構造のデータ構造識別子を導出するように構成される。
【0353】
前述したように、一例として、要求ベースのデータ構造の提供を実施することによって、ブロードキャストチャネル上のトラフィックを低減することができる。
【0354】
本発明の更なる実施形態によれば、オーディオデコーダは、例えば、予測を使用して、どの1つ以上のデータ構造、又は必要とされると予想されるかを予期し、例えば、どのセルが次にアクティブになるか、又は次にアクティブになる定義された尤度を有するかを予期し、データ構造が実際に必要とされる前に、1つ以上のデータ構造を要求するように構成される。
【0355】
前述したように、これは、例えば、リアルタイムアプリケーションにおいて、必要なデータ構造の送信に対する時間制約を緩和することができる。
【0356】
本発明の更なる実施形態によれば、オーディオデコーダは、それぞれのデータ構造識別子、例えばペイロード識別子又はペイロードパケット識別子、例えばpayloadIdを使用して、1つ以上のデータ構造、例えばペイロード又はペイロードパケットを抽出するように構成される。
【0357】
加えて、オーディオデコーダは、セル情報を使用して、抽出され、任意選択で評価されるデータ構造のデータ構造識別子を導出するように構成される。
【0358】
本発明の更なる実施形態によれば、オーディオデコーダは、ペイロードパケット、例えば「Scene Payload」パケットから、レンダリング、例えば複雑な及び/又は動的な6DoFオーディオシーンのレンダリングに必要なメタデータを抽出するように構成される。
【0359】
任意選択で、シーンペイロードパケットは、複数のペイロード要素、例えばmpegiPayloadElement(「mpeghiPayloadElement」とも呼ばれる)を含むことができ、ペイロード要素識別子、例えばIDが割り当てられる。
【0360】
以下の実施形態では、符号化オーディオ表現を提供するための装置、例えばエンコーダに関する実施形態が説明される。そのような実施形態は、デコーダに関連する上記の実施形態と同じ又は類似の又は対応する考慮事項に基づくことができることに留意されたい。したがって、以下の実施形態は、個別に、及び組み合わせて、上記で開示された実施形態と同じ、類似の、又は対応する特徴、機能及び詳細を含むことができる。
【0361】
本発明による更なる実施形態は、符号化オーディオ表現を提供するための装置、例えばオーディオエンコーダ又はオーディオサーバを備え、装置は、1つ以上のオーディオ信号の空間レンダリングのための情報を提供し、例えば、MPEG-H MHASパケット定義に適合するパケットタイプを有する、異なるパケットタイプの複数のパケットを提供するように構成される。
【0362】
更に、装置は、シーン構成パケット、例えば、MPEG-H MHASパケット定義に適合するシーン構成パケット、例えば、Scene ConfigPacket、例えば、mpegiSceneConfig[](「mpeghiSceneConfig」と呼ばれることもある)を提供し、例えば、異なるシーンオブジェクト及び/又はシーン特性がレンダリングプロセスにおいていつ又はどの条件下で使用されるべきかを定義する、例えば、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する。
【0363】
加えて、シーン構成パケットは、セル情報(例えば、セル数を示す情報numCells、並びに各セルについて、1つ以上のセル条件(例えば、開始タイムスタンプ及び任意選択で終了タイムスタンプ、又はジオメトリ識別子)の定義及び1つ以上のシーンペイロード(例えば、payloadId[i][j]及び/又はシーン更新パケットへの参照(例えば、updateId[i]))の定義を含み、1つ以上のセル、好ましくは複数のセルを定義し、任意選択で1つ以上のオーディオストリームの定義も含む。
【0364】
更に、セル情報は、例えばセルインデックスiを有する1つ以上の、例えば時間的及び/又は空間的なセルと、例えば1つ以上のそれぞれのデータ構造を表すシーンペイロードパケットのペイロードへの参照を使用して、1つ以上のセルに関連付けられたそれぞれの1つ以上のデータ構造(例えば、ペイロード又はペイロードパケット、例えば、payloadId[i][j]、例えば、シーンオブジェクト及び/又はシーン特性を定義するペイロード、例えば、音源及び/又は散乱物体及び/又は散乱表面及び/又は減衰オブジェクト及び/又は減衰表面、及び/又は材料パラメータ及び/又は残響特性及び/又はポータル及び/又は初期反射及び/又は後期残響及び/又は回折特性及び/又は音響材料及び/又はシーン内のジオメトリ要素を定義するデータ構造であって、例えばデータ構造識別子又はペイロード識別子によって識別されるデータ構造、例えばpayloadIdによって識別される)との間の関連付けを定義し、レンダリングシナリオを定義する。
【0365】
オーディオデコーダは、任意選択で、オーディオエンコーダに関しても、本明細書に開示されているパケットのいずれかを、個別に、及び組み合わせて提供してもよい。更に、セル情報は、例えば、オーディオデコーダに関しても、個別に、及び組み合わせて、本明細書に開示された特性のいずれかを含むことができる。
【0366】
本発明の更なる実施形態によれば、本装置は、シーン構成パケット、又は例えば、シーン構成パケット及び1つ以上のシーンペイロードパケット、及び任意選択で1つ以上のシーン更新パケットのシーケンスの提供さえも周期的に繰り返すように構成される。代替的又は追加的に、装置は、要求時に、例えばオーディオデコーダ又はレンダラの要求時に、1つ以上のシーンペイロードパケットを提供するように構成される。
【0367】
簡単に言えば、一例として、シーン構成パケットを分配する役割は、エンコーダによって果たされ得る。任意選択で、エンコーダは、どのペイロードパケットをいつ提供するかを決定することもでき、例えば、同じ又はその一部を、例えば周期的に、例えばシーン構成パケットと共にブロードキャストすることができる。一方、デコーダは、必要なペイロードを明示的に要求することができ、その結果、それぞれのペイロードパケットは、任意選択で、例えばユニキャストチャネルを介してのみ提供される。
【0368】
本発明の更なる実施形態によれば、装置は、セル情報において参照される1つ以上のデータ構造を含む1つ以上のシーンペイロードパケットを提供するように構成される。
【0369】
本発明の更なる実施形態によれば、装置は、前記シーンペイロードパケットに含まれる前記データ構造が前記セル情報に従ってオーディオデコーダによって必要とされるときを考慮に入れて、前記シーンペイロードパケットを提供するように構成されている。
【0370】
したがって、一例として、例えばバッファ時間又は音響ラグを防止するために、必要な情報が適時にデコーダ又はレンダラにあることをエンコーダによって確実に、又は少なくとも可能性を高くすることができる。
【0371】
本発明の更なる実施形態によれば、オーディオエンコーダ又はデコーダは、リスナーのポジションが第1の空間領域内、例えば第1のセル内にあるときに、シーンのレンダリングのためのシーンオブジェクト及び/又はシーン特性の第1のセットを定義する第1のセル情報を提供するように構成される。
【0372】
更に、オーディオエンコーダ又はデコーダは、リスナーのポジションが第2の空間領域内、例えば第2のセル内にあるときに、シーンのレンダリングのためのシーンオブジェクト及び/又はシーン特性の第2のセットを定義する第2のセル情報を提供するように構成される。
【0373】
例えば、第1のセットのシーンオブジェクト及び/又はシーン特性は、第2のセットのシーンオブジェクト及び/又はシーン特性よりも多数のシーンオブジェクト及び/又はシーン特性を含み、例えば、第1の第2の空間領域は、第1の空間領域よりも音源に近くてもよいため、第1のセットのシーンオブジェクト及び/又はシーン特性は、第2のセットのシーンオブジェクト及び/又はシーン特性と比較した場合、より詳細な空間レンダリングを提供する。
【0374】
本発明の更なる実施形態によれば、装置は、例えばリスナーのポジションが第1のセル内にあるか第2のセル内にあるかに応じて、異なる詳細レベルで空間レンダリングを制御するために異なるセル定義を使用するように構成され、例えば、音源に比較的近いセルは、音源から比較的遠いセルよりも多くのデータ構造(例えば、反射面及び/又は吸収面、及び/又は散乱物体及び/又は吸収物体などを記述するデータ構造)を含むことができる。
【0375】
本発明者らは、異なるセル定義又は異なるカテゴリのセル定義を使用することにより、オーディオシーンのレンダリングの品質がスケーラブルであり得るように、詳細レベルの概念を効率的に実装することが可能になり得ることを認識した。
【0376】
以下の実施形態では、復号及び符号化オーディオ表現を提供するための方法に関する実施形態が説明される。そのような実施形態は、装置に関連する上記の実施形態と同じ又は類似の又は対応する考慮事項に基づくことができることに留意されたい。したがって、以下の実施形態は、個別に、及び組み合わせて、上記で開示された実施形態と同じ、類似の、又は対応する特徴、機能及び詳細を含むことができる。
【0377】
本発明による更なる実施形態は、符号化オーディオ表現に基づいて復号され、任意選択で、レンダリングされるオーディオ表現を提供するための方法を含み、方法は、1つ以上のオーディオ信号を空間的にレンダリングすることを含み、これは例えば、符号化オーディオ表現内で符号化され得る。
【0378】
加えて、本方法は、シーン構成パケット、例えば、MPEG-H MHASパケット定義に適合するシーン構成パケット、例えば、Scene ConfigPacket、例えば、mpegiSceneConfig[](「mpeghiSceneConfig」と呼ばれることもある)を受信することを含み、例えば、異なるシーンオブジェクト及び/又はシーン特性がレンダリングプロセスにおいていつ又はどの条件下で使用されるべきかを定義する、例えば、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する。
【0379】
更に、シーン構成パケットは、セル情報(例えば、セル数、及び各セルについて、1つ以上のセル条件(例えば、開始タイムスタンプ及び任意選択で終了タイムスタンプ、又はジオメトリ識別子)の定義、並びに1つ以上のセル、例えば好ましくは複数のセルを定義する1つ以上のシーンペイロード(例えば、payloadId[i][j]及び/又はシーン更新パケットへの参照(例えば、updateId[i]))の定義、また任意選択で、1つ以上のオーディオストリームの定義を示す情報numCells)を含む。
【0380】
加えて、セル情報は、例えばセルインデックスiを有する1つ以上の、例えば時間的及び/又は空間的なセルと、例えば1つ以上のそれぞれのデータ構造を表すシーンペイロードパケットのペイロードへの参照を使用して、1つ以上のセルに関連付けられたそれぞれの1つ以上のデータ構造(例えば、ペイロード又はペイロードパケット、例えば、payloadId[i][j]、例えば、シーンオブジェクト及び/又はシーン特性を定義するペイロード、例えば、音源及び/又は散乱物体及び/又は散乱表面及び/又は減衰オブジェクト及び/又は減衰表面、及び/又は材料パラメータ及び/又は残響特性及び/又はポータル及び/又は初期反射及び/又は後期残響及び/又は回折特性及び/又は音響材料及び/又はシーン内のジオメトリ要素を定義するデータ構造であって、例えばデータ構造識別子又はペイロード識別子によって識別されるデータ構造、例えばpayloadIdによって識別される)との間の関連付けを定義し、レンダリングシナリオを定義する。
【0381】
更に本方法は、どのデータ構造、例えばpayloadId[i][j]によって識別されるどのシーンペイロードが、例えば異なる時間又は異なるリスナーポジションで空間レンダリングに使用されるべきかを決定するためにセル情報を評価することを含み、当該データ構造は、例えばシーンペイロードパケットに含まれ得る。
【0382】
本発明による更なる実施形態は、符号化オーディオ表現を提供するための方法、例えばオーディオエンコーダ又はオーディオエンコーダのための、又はオーディオサーバ又はオーディオサーバのための方法を含み、本方法は、1つ以上のオーディオ信号の空間レンダリングのための情報を提供することと、例えば、MPEG-H MHASパケット定義に適合するパケットタイプを有する、異なるパケットタイプの複数のパケットを提供することとを含む。
【0383】
更に、本方法は、シーン構成パケット、例えば、MPEG-H MHASパケット定義に適合するシーン構成パケット、例えば、Scene ConfigPacket、例えば、mpegiSceneConfig[](「mpeghiSceneConfig」と呼ばれることもある)を提供することを含み、例えば、異なるシーンオブジェクト及び/又はシーン特性がレンダリングプロセスにおいていつ又はどの条件下で使用されるべきかを定義する、例えば、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する。
【0384】
更に、シーン構成パケットは、セル情報(例えば、セル数、及び各セルについて、1つ以上のセル条件(例えば、開始タイムスタンプ及び任意選択で終了タイムスタンプ、又はジオメトリ識別子)の定義、並びに1つ以上のセル、例えば好ましくは複数のセルを定義する1つ以上のシーンペイロード(例えば、payloadId[i][j]及び/又はシーン更新パケットへの参照(例えば、updateId[i]))の定義、また任意選択で、1つ以上のオーディオストリームの定義を示す情報numCells)を含む。
【0385】
更に、セル情報は、例えばセルインデックスiを有する1つ以上の、例えば時間的及び/又は空間的なセルと、例えば1つ以上のそれぞれのデータ構造を表すシーンペイロードパケットのペイロードへの参照を使用して、1つ以上のセルに関連付けられたそれぞれの1つ以上のデータ構造(例えば、ペイロード又はペイロードパケット、例えば、payloadId[i][j]、例えば、シーンオブジェクト及び/又はシーン特性を定義するペイロード、例えば、音源及び/又は散乱物体及び/又は散乱表面及び/又は減衰オブジェクト及び/又は減衰表面、及び/又は材料パラメータ及び/又は残響特性及び/又はポータル及び/又は初期反射及び/又は後期残響及び/又は回折特性及び/又は音響材料及び/又はシーン内のジオメトリ要素を定義するデータ構造であって、例えばデータ構造識別子又はペイロード識別子によって識別されるデータ構造、例えばpayloadIdによって識別される)との間の関連付けを定義し、レンダリングシナリオを定義する。
【0386】
本発明による更なる実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に開示される実施形態のいずれかによる方法を実行するためのコンピュータプログラムを含む。
【0387】
以下では、ビットストリームに関する実施形態について説明する。そのような実施形態は、装置及び/又は方法に関連する上記の実施形態と同じ又は類似の又は対応する考慮事項に基づくことができることに留意されたい。したがって、以下の実施形態は、個別に、及び組み合わせて、上記で開示された実施形態と同じ、類似の、又は対応する特徴、機能及び詳細を含むことができる。
【0388】
本発明の更なる実施形態は、オーディオコンテンツを表すビットストリームを含み、ビットストリームは、例えば、MPEG-H MHASパケット定義に適合するパケットタイプを有する、異なるパケットタイプの複数のパケットを含み、パケットは、シーン構成パケット、MPEG-H MHASパケット定義に適合するシーン構成パケット、例えば、Scene ConfigPacket、例えば、mpegiSceneConfig[](「mpeghiSceneConfig[]」と呼ばれることもある)を含み、例えば、セルの定義を使用して、異なるシーンオブジェクト及び/又はシーン特性がレンダリングプロセスにおいていつ又はどの条件下で使用されるべきかを定義する、例えば、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する。
【0389】
更に、シーン構成パケットは、セル情報(例えば、セル数、及び各セルについて、1つ以上のセル条件(例えば、開始タイムスタンプ及び任意選択で終了タイムスタンプ、又はジオメトリ識別子)の定義、並びに1つ以上のセル、例えば好ましくは複数のセルを定義する1つ以上のシーンペイロード(例えば、payloadId[i][j]及び/又はシーン更新パケットへの参照(例えば、updateId[i]))の定義、また任意選択で、1つ以上のオーディオストリームの定義を示す情報numCells)を含む。
【0390】
更に、セル情報は、例えばセルインデックスiを有する1つ以上の、例えば時間的及び/又は空間的なセルと、例えば1つ以上のそれぞれのデータ構造を表すシーンペイロードパケットのペイロードへの参照を使用して、1つ以上のセルに関連付けられたそれぞれの1つ以上のデータ構造(例えば、ペイロード又はペイロードパケット、例えば、payloadId[i][j]、例えば、シーンオブジェクト及び/又はシーン特性を定義するペイロード、例えば、音源及び/又は散乱物体及び/又は散乱表面及び/又は減衰オブジェクト及び/又は減衰表面、及び/又は材料パラメータ及び/又は残響特性及び/又はポータル及び/又は初期反射及び/又は後期残響及び/又は回折特性及び/又は音響材料及び/又はシーン内のジオメトリ要素を定義するデータ構造であって、例えばデータ構造識別子又はペイロード識別子によって識別されるデータ構造、例えばpayloadIdによって識別される)との間の関連付けを定義し、レンダリングシナリオを定義する。
【0391】
例えば、ビットストリームは、個別に、及び組み合わせて、本明細書に開示された任意のビットストリーム要素によって任意選択で補足されてもよい。
【0392】
本発明の更なる実施形態によれば、符号化オーディオ表現に基づいて、復号化オーディオ表現を提供するためのオーディオデコーダを含み、前記オーディオデコーダは、異なるパケットタイプの複数のパケットを受信するように構成されており、前記パケットは、レンダラ構成情報を提供する1つ以上のシーン構成パケットを含み、パケットは、レンダリングのためのシーンメタデータの更新を定義する1つ以上のシーン更新パケットを含む。
【0393】
更に、オーディオデコーダは、1つ以上の更新条件が満たされているかどうかを評価し、1つ以上の更新条件が満たされている場合、1つ以上のシーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータを選択的に更新するように構成される。
【0394】
そのような本発明のデコーダは、個別に、及び組み合わせて、上記で開示された実施形態のいずれか又は本明細書で開示された他の実施形態のいずれかと同じ、類似の又は対応する特徴、機能及び詳細を含むことができることに留意されたい。
【0395】
図面は必ずしも縮尺通りではなく、代わりに、概して本発明の原理を説明することに重点が置かれている。以下の説明では、本発明の様々な実施形態が、以下の図面を参照して説明される。
【図面の簡単な説明】
【0396】
【
図1】本発明の第1の態様の実施形態によるオーディオデコーダの概略図である。
【
図2】本発明の第1の態様の実施形態による、更なる追加の任意選択の特徴を有するオーディオデコーダの概略図である。
【
図3】本発明の第1の態様の実施形態によるエンコーダの概略図である。
【
図4】本発明の第1の態様の実施形態による、符号化オーディオ表現に基づいて復号化オーディオ表現を提供するための方法の概略ブロック図である。
【
図5】本発明の第1の態様の実施形態による、符号化オーディオ表現を提供するための方法の概略ブロック図である。
【
図6】本発明の第2の態様の実施形態によるオーディオデコーダの概略図である。
【
図7】本発明の第2の態様の実施形態によるエンコーダの概略図である。
【
図8】本発明の第2の態様の実施形態による、符号化オーディオ表現に基づいて復号化オーディオ表現を提供するための方法の概略ブロック図である。
【
図9】本発明の第2の態様の実施形態による、符号化オーディオ表現を提供するための方法の概略ブロック図である。
【
図10】本発明の第3の態様の実施形態によるオーディオデコーダの概略図を示す。
【
図11】本発明の第3の態様の実施形態によるエンコーダの概略図を示す。
【
図12】本発明の第3の態様の実施形態による、符号化オーディオ表現に基づいて復号化オーディオ表現を提供するための方法の概略ブロック図である。
【
図13】本発明の第3の態様の実施形態による、符号化オーディオ表現を提供するための方法の概略ブロック図である。
【
図14】本発明の第4の態様の実施形態によるオーディオデコーダの概略図である。
【
図15】本発明の第3の態様の実施形態によるエンコーダの概略図を示す。
【
図16】本発明の第4の態様の実施形態による、符号化オーディオ表現に基づいて復号化オーディオ表現を提供するための方法の概略ブロック図である。
【
図17】本発明の第4の態様の実施形態による、符号化オーディオ表現を提供するための方法の概略ブロック図である。
【
図18】本発明の実施形態による第1のビットストリームの概略図を示す。
【
図19】本発明の実施形態による第2のビットストリームの概略図を示す。
【
図20】本発明の実施形態による第3のビットストリームの概略図を示す。及び
【
図21】本発明の実施形態によるアーキテクチャ概要の概略ブロック図である。
【発明を実施するための形態】
【0397】
等しいか同等である要素又は等しいか同等である機能を有する要素は、以下の説明において、異なる図で発生する場合でも、等しいか同等である参照番号で示される。
【0398】
以下の説明では、本発明の実施形態のより完全な説明を提供するために複数の詳細が示される。しかしながら、当業者には、本発明の実施形態がこれらの特定の詳細なしに実施され得ることは明らかであろう。他の例では、本発明の実施形態を不明瞭にすることを避けるために、周知の構造及びデバイスは、詳細ではなくブロック図の形態で示す。また、以下に説明する異なる実施形態の特徴は、特記しない限り、互いに組み合わせることができる。
【0399】
図1は、本発明の第1の態様の実施形態によるオーディオデコーダの概略図である。
図1は、符号化オーディオ表現102に基づいて、図示されているように、任意選択でレンダリングされた、復号化オーディオ表現106を提供するように構成されたオーディオデコーダ100を示す。オーディオデコーダ100は、1つ以上のオーディオ信号を空間的にレンダリングするように構成されたレンダリングユニット110を備える。したがって、レンダリングユニット110は、任意選択で、復号ユニットを備えてもよく、復号ユニットは、符号化オーディオ表現を復号して、1つ以上のオーディオ信号を得るように構成されてもよい。しかしながら、別の選択肢として、点線及び破線で示されているように、オーディオデコーダ100は、符号化オーディオ表現102を備えることができ、かつ1つ以上のオーディオ信号をレンダリングユニット110に提供することができる復号ユニット120を備えることができる。
【0400】
更に、オーディオデコーダ100は、異なるパケットタイプの複数のパケット104を受信するように構成され、パケットは、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する1つ以上のシーン構成パケットと、レンダリングのためのシーンメタデータ130の更新を定義する1つ以上のシーン更新パケットと、シーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義を備える1つ以上のシーンペイロードパケットとを含む。
【0401】
したがって、シーン構成パケットに基づいて、レンダリングユニット110のレンダラ構成を設定及び/又は調整することができる。レンダリングユニット110は、レンダラ構成に基づいて、どのシーンオブジェクト及び/又はシーン特性を考慮すべきかを決定することができる。
【0402】
そのようなオブジェクト及び/又は特性は、例えば、メタデータ130を使用して定義することができる。前述したように、シーン更新パケットに基づいて、当該メタデータ130をレンダリングのために更新することができる。
【0403】
一例として、シーンペイロードパケットに基づいて、シーンオブジェクト及び/又はシーン特性の新しい定義が、レンダリングユニット110のためのメタデータ130に追加されてもよく、及び/又はレンダリングユニット110に直接提供されてもよい。
【0404】
したがって、レンダリングユニット110は、レンダリングのために、シーンペイロードパケットに含まれている1つ以上のシーンオブジェクトの定義及び/又は1つ以上のシーン特性の定義を、レンダラ構成情報に応じて選択するように構成される。加えて、前述したように、デコーダ100は、1つ以上のシーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータ130を更新するように構成される。
【0405】
簡単に言えば、一例として、デコーダ100は、符号化オーディオ表現102を受信することができる。この符号化オーディオ表現は、オーディオ情報を取得するために復号されてもよい。オーディオ情報は、例えば、オーディオ信号のスペクトル係数に関する情報を含むことができる。
【0406】
しかしながら、オーディオシーンの正確な再構築、又は例えばVR又はAR環境における没入聴感のために、更なるエフェクトを考慮に入れなければならない場合がある。したがって、デコーダ100は、オーディオ情報のレンダリングのためのメタデータ130を考慮に入れるように構成されてもよい。
【0407】
このメタデータは、例えば、音響シーンの特性又は要素、例えばオブジェクトを更に定義することができるデータオブジェクトを含むか、記述するか、又は関連することができる。メタデータは、例えば、残響、反射などの音響的に関連するエフェクトを引き起こす可能性がある空間及び/又は時間内の要素を定義することができる。
【0408】
オーディオメタデータの概念を効率的に活用するために、パケット104がデコーダ100に提供される。本発明者らは、例えば、少なくとも3つのパケットタイプの区別が有利であり得ることを認識した。
【0409】
シーン構成パケットは、例えば、オーディオシーン内の特定のロケーション、又は特定の時間において、どの音響要素及び/又は特性が考慮されるべきかに関する情報を提供することができる。音響的に関連する要素への変更を組み込むために、例えば、それぞれのメタデータを変更することができるようにシーン更新パケットが導入される。
【0410】
一方、シーンペイロードパケットは、例えば、音響的に関連する要素、例えばオーディオ信号のレンダリングに関連し得るオブジェクト又はシーン特性自体の情報及び/又は定義を含むことができる。ペイロード要素の選択は、シーン構成情報に基づいて実行され得る。
【0411】
更に、上記で説明及び図示されたメタデータ130は任意選択であることが強調されるべきである。レンダリングユニットは、例えば、デコーダ100に提供されるペイロードパケットによって定義される音響的に関連する要素のみを選択して考慮することができる。その選択は、例えば、シーン構成パケットに基づいて適合され得るレンダリング構成によって実行され得る。
【0412】
更に、パケット104及び符号化オーディオ表現102における入力信号の分離は一例であることに留意されたい。符号化オーディオ表現は、例えばスペクトルオーディオ係数に関する情報を含むパケットの形態で、例えばMPEGH3DAFRAMEとして、パケット104の一部として提供されてもよい。一方、デコーダ100は、例えば、オーディオ情報又はオーディオ信号に加えて、構成データ、更新データ、及びメタデータを含む、上述したようなパケット104を含む、符号化オーディオ表現のみを受信することができる。したがって、任意選択の復号ユニット120は、代替的又は追加的に、符号化されたパケットを復号するように構成され得る。
【0413】
任意選択の特徴として、デコーダ100は、レンダリング構成を、例えば、レンダリングユニット110又は(例えば、
図2の文脈で説明したように)任意選択の評価ユニットを用いてシーン構成パケットに基づいて決定し、レンダリングユニット110のレンダリング構成の更新を、1つ以上のシーン更新パケットに基づいて決定するように構成される。
【0414】
したがって、シーン構成パケットは、例えば、構成パラメータの完全なセットを含むことができ、それに基づいて、例えば増分更新が、シーン更新パケットに基づいて提供又は実行され得る。
【0415】
任意選択で、1つ以上のシーン更新パケットは、変更されるシーンメタデータ項目の列挙を含むことができ、列挙は、変更される1つ以上のメタデータ項目について、メタデータ識別子及びメタデータ更新値を含むことができる。したがって、任意選択で、メタデータ130は、識別子、例えば数、及び1つ以上の値に基づいて編成することができる。このような値は、メタデータ更新値に応じて変更されてもよい。
【0416】
別の任意選択の特徴として、オーディオデコーダ100、例えばデコーダ100のレンダリングユニット110は、シーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義を、例えば一例としてメタデータの定義を取得するように構成される。
【0417】
以下、
図2を参照する。
図2は、本発明の第1の態様の実施形態による、更なる追加の任意選択の特徴を有するオーディオデコーダの概略図である。
図2は、
図1の文脈で説明したように、レンダリングユニット210、任意選択の復号ユニット220、及びメタデータ230、並びに対応する復号化及び符号化オーディオ表現202、206及びパケット204を備えるオーディオデコーダ200を示す。
【0418】
任意選択の特徴として、オーディオデコーダ200は評価ユニット240を備える。任意選択で、1つ以上のシーンペイロードパケット(例えば、パケット204に含まれる)は、シーンオブジェクト及び/又はシーン特性を定義するペイロードの列挙を含む。更に、オーディオデコーダ100は、例えば評価ユニット240を使用して、シーンオブジェクト及び/又はシーン特性を定義するペイロードの列挙を評価するように構成される。
【0419】
別の任意選択の特徴として、ペイロード識別子がシーンペイロードパケット内のペイロードに関連付けられ、オーディオデコーダ、例えばその評価ユニット240は、所与のペイロードがレンダリングユニット210におけるレンダリングのために使用されるべきかどうかを決定するために、所与のペイロードのペイロード識別子を評価するように構成されてもよい。
【0420】
したがって、任意選択で、パケット204に関する情報は、任意選択で、評価ユニット240を介して排他的にレンダリングユニット210に提供されてもよい。
【0421】
別の任意選択の特徴として、シーン更新パケットのうちの1つ以上はシーン更新のための条件を定義し、オーディオデコーダ、例えばその評価ユニット240は、は、シーン更新パケットにおいて定義されたシーン更新のための条件が満たされているかどうかを評価して、シーン更新が行われるべきかどうかを決定するように構成される。したがって、一例として、メタデータ230が調整されてもよく、及び/又はレンダリングユニット210のレンダリング構成が調整されてもよい。
【0422】
任意選択の特徴として、前記シーン更新パケットのうちの1つ以上は対話型トリガ条件を定義し、前記オーディオデコーダ、例えばその評価ユニット240は、は、前記対話型トリガ条件が満たされているかどうかを評価して、前記シーン更新が行われるべきかどうかを決定するように構成されている。したがって、一例として、メタデータ230を更新することができ、及び/又はレンダリングユニット210に、レンダリング及び/又はレンダリング構成を調整するように指示することができる。トリガ条件は、例えば、ロケーションベース及び/又は時間ベースの条件とは別に、又はそれに加えて、イベントベースの条件であってもよい。
【0423】
別の任意選択の特徴として、1つ以上のシーン構成パケット及び1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケット、したがって例示的なパケット204は、MPEG-H MHASパケット定義に適合する。
【0424】
別の任意選択の特徴として、1つ以上のシーン構成パケット及び1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットは各々、パケットタイプ識別子、例えばMHASPacketType、パケットラベル、例えばMHASPacketLabel、パケット長情報、例えばMHASPacketLength、及びパケットペイロード、例えばMHASPacketPayloadを含む。一例として、オーディオデコーダ200は、異なるパケットタイプのパケットを区別するために、例えば評価ユニット240を用いて、パケットタイプ識別子を評価するように任意選択で構成されてもよい。したがって、デコーダは、更なる処理のために異なるパケットを区別することができる。
【0425】
別の任意選択の特徴として、オーディオデコーダ200は抽出ユニット250を備える。別の任意選択の特徴として、オーディオデコーダ200、例えばその抽出ユニット250は、レンダリングされる1つ以上のオーディオチャネルを表すパケットを含む、複数のMPEG-Hパケットを含むビットストリーム208から、前記1つ以上のシーン構成パケット、前記1つ以上のシーン更新パケット、及び前記1つ以上のシーンペイロードパケットを抽出するように構成されている。
【0426】
一例として、符号化オーディオ表現202は、レンダリングされるオーディオチャネルに関する情報を含むことができ、あるいはレンダリングされるオーディオチャネルに関する情報であってもよい。前述したように、符号化オーディオ表現202は、パケットであってもよい。任意選択で、抽出ユニット250は、図示のように、ビットストリーム208から、パケット204から分離された符号化オーディオ表現202を抽出するように構成されてもよい。
【0427】
ここでも、パケット204及び符号化オーディオ表現202における入力信号の分離が一例であることに留意されたい。符号化オーディオ表現は、例えばスペクトルオーディオ係数に関する情報を含むパケットの形態で、例えばMPEGH3DAFRAMEとして、パケット204の一部として提供されてもよい。一方、デコーダ200は、例えば、オーディオ情報又はオーディオ信号に加えて、構成データ、更新データ、及びメタデータを含む、上述したようなパケット204を含む、符号化オーディオ表現のみを受信することができる。
【0428】
別の任意選択の特徴として、ビットストリーム208は、ブロードキャストビットストリームであってもよい。したがって、デコーダ200は、ブロードキャストストリームを介して、1つ以上のシーン構成パケットを受信するように構成され得る。しかしながら、パケット204は、異なるビットストリームを介してデコーダ204によって受信され得ることに留意されたい。ビットストリームは、例えば専用サーバ又はエンコーダへの送信要求のために、ブロードキャストビットストリーム及びユニキャストビットストリームを含むことができる。
【0429】
別の任意選択の特徴として、デコーダ200は、要求ユニット260を備える。任意選択で、オーディオデコーダ200は、例えば要求ユニット260を使用して、パケットプロバイダから1つ以上のシーンペイロードパケットを要求するように構成される。したがって、デコーダ200は、要求201を提供することができる。したがって、シーンペイロードパケットは、要求201の送信に使用されるチャネルを介して、別個のビットストリーム(図示せず)、例えばユニキャストビットストリームを介してデコーダによって受信され得る。
【0430】
1つ以上のシーンペイロードパケットを要求するために、デコーダ200は、例えばペイロード要素に関連付けられたIDを使用するペイロードID、又は例えばシーンペイロードパケットに関連付けられたIDを使用するパケットIDを任意選択で使用することができる。したがって、要求201はそのようなIDを含むことができる。
【0431】
別の任意選択の特徴として、デコーダ200は、予期ユニット270を備える。任意選択の特徴として、オーディオデコーダ200は、データ構造が実際に必要とされる前に、例えば、どの1つ以上のデータ構造が必要とされるか、又は必要とされると予想されるかを予期し、例えば、予期ユニット270を使用して予期し、1つ以上のデータ構造、又は当該1つ以上のデータ構造を含む1つ以上のシーンペイロードパケットを要求するように構成される。
【0432】
したがって、予期ユニット270は、例えば、要求201を定義するための情報を要求ユニット260に提供することができる。
【0433】
別の任意選択の特徴として、例えば要求ユニット260などのオーディオデコーダは、どの1つ以上のシーンペイロードパケットが所定の期間内に必要であるか、又は必要とされることになるかを示す情報、例えば要求201をパケットプロバイダ、例えば実施形態によるエンコーダに提供するように構成される。
【0434】
任意選択の特徴として、1つ以上のシーン更新パケット(例えば、パケット204)は、レンダリングのために、例えばメタデータ230のシーンメタデータの更新を定義し、1つ以上の更新条件の表現を含む。更に、任意選択の特徴として、オーディオデコーダ200、例えばその評価ユニット240は、1つ以上の更新条件が満たされているかどうかを評価し、1つ以上の更新条件が満たされている場合、1つ以上のシーン更新パケットのコンテンツに応じて、1つ以上のシーンメタデータ、例えばメタデータ230を選択的に更新するように構成される。
【0435】
以下、
図3を参照する。簡潔にするために、かつ先に説明したように、本発明による実施形態は、デコーダ、したがって
図1に示すデコーダに応じた対応する特徴を有するエンコーダを備えることに留意されたい。したがって、エンコーダは、
図1のデコーダ100によって受信されるような信号を提供し、復号化オーディオ表現106を提供するためにそれを処理するために必要な特徴のみを備えることができ、任意選択の特徴はない。しかしながら、
図1及び
図2の文脈において上で開示された任意選択の特徴、機能及び詳細のいずれも、個別に又は組み合わせて、実施形態によるエンコーダに対応して(例えば、対応する方式で)存在し得る。同じことが、本発明の他の態様のデコーダ及び/又はエンコーダの特徴、機能及び詳細にも当てはまる。
【0436】
図3は、本発明の第1の態様の実施形態によるエンコーダの概略図である。エンコーダ300は、ビットストリーム302(例えば、
図2に示すようなビットストリーム208に類似しているか、対応しているか、又は同一である)を提供するように構成され、ビットストリームは、例えば、符号化オーディオ表現を含むことができる。特に、エンコーダ300は、ビットストリーム302に含まれる、1つ以上のオーディオ信号の空間レンダリングのための情報を提供するように構成される。したがって、ビットストリーム302は、異なるパケットタイプの複数のパケット322を含む。
【0437】
ビットストリーム、したがって上記の情報エンティティを提供するために、エンコーダ300は、パケット322が提供されるビットストリームプロバイダ310を備える。
【0438】
図示されるように、エンコーダ300は、任意選択で、パケット提供ユニット320を備え得る。エンコーダ300は、例えば、パケット提供ユニット320を使用して、パケット322を提供するように構成される。パケット322は、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する1つ以上のシーン構成パケットと、レンダリングのためのシーンメタデータの更新を定義する1つ以上のシーン更新パケットと、シーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義を備える1つ以上のシーンペイロードパケットとを含む。
【0439】
一例として、符号化されるオーディオ信号304がエンコーダ300に提供されてもよい。オーディオ信号は、例えば音声信号及び/又は音楽信号の時間領域サンプル及び/又はスペクトル値を含むことができる。任意選択で(図示せず)、この信号が既に符号化されている場合、この信号は、例えばパケット322と共にビットストリームに含まれるように、ビットストリームプロバイダ310に直接提供されてもよい。
【0440】
パケット322は、パケット提供ユニットによって異なる方法で提供されてもよい。例えば、パケット提供ユニット320は、音響シーンを規定し、予め定義されていてもよいし、パケット提供ユニットにより取得されてもよいシーン情報に基づいて、パケット322を提供してもよい。
【0441】
例えば、仮想現実アプリケーションの場合、(例えば音響シーンの)仮想モデルに基づいて、パケットを使用して音響シーン(例えば、音響的に関連する仮想オブジェクト及びオーディオ信号を有する仮想モデルを含む音響シーン)をモデル化又は表現するために、音響的に関連する仮想オブジェクトを決定することができる。任意選択で、(任意選択の)解析ユニット330は、音響的に関連する仮想オブジェクト、又はその特性(例えば、オーディオ信号の特性を使用して、例えば音源のポジションに関する情報を提供することによって、音響シーンの仮想モデルを補足及び/又は改良することができる)の決定をサポートすることができる。
【0442】
そこで、それぞれのパケット322の決定をサポートする情報を、任意選択の解析ユニット330からパケット提供ユニット320に提供するようにしてもよい。例えば、パケット提供ユニット320は、仮想モデルを管理してもよいし、仮想モデルに関する情報を提供されてもよい。
【0443】
別の例として、拡張現実アプリケーションの文脈では、符号化されるオーディオ信号304は、エンコーダ300に提供されてもよく、例えば音声信号及び/又は音楽信号の時間領域サンプル及び/又はスペクトル値を含んでもよい。しかしながら、任意選択で、オーディオ信号304は、拡張される現実のオーディオシーンの空間情報(例えば、暗黙の形式で)、例えば、シーン内の、例えば発話しているユーザの測定されたオーディオソースのポジション情報を更に含む(又は運ぶ)ことができる。そのような情報、及び任意選択で追加の仮想オーバーレイ情報(例えば、現実のシーンを拡張するために、音響的に関連する仮想オブジェクトを現実のシーンに追加するための情報)は、パケットを使用してシーンをモデル化又は表現するために、任意選択の解析ユニット330によって抽出及び/又は解析及び/又は適用することができる。そこで、前述したように、各パケット322を決定するための情報をパケット提供ユニット320に提供するようにしてもよい。一例として、解析ユニット330は、オーディオ信号304内の空間情報に基づいて、所望の聴覚体験を提供するために、シーンのどの音響的に関連するオブジェクトが考慮又は更新又はレンダリングされるべきかを決定することができる。
【0444】
しかしながら、エンコーダ300は、例えば、パケット322に関する情報が外部ユニット、例えば、仮想又は拡張シーンを管理するユニットからエンコーダ300に提供され得るように、任意選択で解析ユニットを備えなくてもよいことに留意されたい。
【0445】
上記の例を更に説明するために、符号化されるオーディオ信号304がエンコーダ300に提供されてもよく、これは空間オーディオシーンからのオーディオ信号であってもよく、オーディオシーンに関する空間情報を任意選択で更に含んでもよい。したがって、任意選択の特徴として、エンコーダ300は解析ユニット330を備える。解析ユニット330は、オーディオシーンの表現を決定又は近似するために、オーディオシーンから提供される情報を解析するように構成される。一例として、オーディオシーンは、例えば、オーディオ信号のスペクトル係数と共に使用されてリスナーにオーディオシーンの没入表現を提供することができる、シーンオブジェクト及び/又はシーン特性を記述するメタデータを使用してモデル化することができる。
【0446】
メタデータは、(例えば、仮想現実アプリケーションの場合)例えば、オーディオシーンのデジタルモデル及び/又はオーディオ信号が記録された実際のシーンの解析(例えば、拡張現実アプリケーションの事例について)に基づいてもよいことに留意されたい。
【0447】
これに基づいて、一例として、対応するシーン構成パケット、シーン更新パケット、及びシーンペイロードパケットを決定し、提供することができる。
【0448】
したがって、一例として、パケット提供ユニット320は、例えば、パケット322の一部であり得るレンダリングされる(例えば、任意選択で、MPEGH3DAFRAME等のパケット)1つ以上のオーディオチャネルを表すパケットの形態で、オーディオ信号の当該スペクトル情報を含むパケットを更に提供することができる。
【0449】
任意選択で、オーディオ信号304は、例えば、パケット提供ユニット320及び/又はビットストリームプロバイダ310に直接供給されてもよい。一例として、オーディオ信号304が既に符号化されている場合、これらのパケットは、例えば、ビットストリームプロバイダ310において符号化、例えば再符号化されるために、パケット提供ユニット322においてのみ抽出され得るように、定義されたパケット322を既に含んでもよい。オーディオ信号情報は、例えばメタデータ情報とは別に、例えば、パケットの形態で、又はオーディオ信号304に直接基づいてビットストリームプロバイダ310に提供されてもよい。
【0450】
更に、解析ユニット330は、任意選択で、例えば音響信号自体(例えばVR部屋のユーザのヘッドセットによって測定されるそのスペクトル係数)のみを表すオーディオ信号304を用いて、仮想音響シーンを決定又は近似するように構成されてもよく、シーンの更なる空間特性は、仮想音響シーン内の周囲の仮想モデルに基づいてもよく、例えば仮想周囲内のユーザのポジションに基づいてもよいことに留意されたい。例えば、仮想会議室では、仮想壁の反射特性、及び/又は仮想カーペットの減衰特性は、例えば現実の測定に基づかずに、例えばリスナーのポジションに関する壁又はカーペットの仮想音響モデルに基づいて、例えばシーンオブジェクトを記述するメタデータとして組み込むことができる。
【0451】
別の任意選択の特徴として、エンコーダ300、例えば、パケット提供ユニット320は、前記レンダリングのために、前記レンダラ構成情報が、前記シーンペイロードパケットに含まれる1つ以上のシーンオブジェクトの定義及び/又は1つ以上のシーン特性(例えば、メタデータによって定義されるように、例えば、
図2に示すように、メタデータ230)の定義の選択を定義するように、前記シーン構成パケットに含まれる前記レンダラ構成情報を提供するように構成されている。
【0452】
別の任意選択の特徴として、エンコーダ300、例えばパケット提供ユニット320は、1つ以上のシーン更新パケットのコンテンツが1つ以上のシーンメタデータの更新を定義するように、1つ以上のシーン更新パケットを提供するように構成される。
【0453】
別の任意選択の特徴として、エンコーダ300、例えばパケット提供ユニット320は、シーン構成パケットがレンダリング構成を決定するように、シーン構成パケットを提供し、シーン更新パケットがレンダリング構成の更新を定義するように、シーン更新パケットを提供するように構成されている。したがって、一例として、シーン構成パケットレンダラパラメータに基づいて、及びシーン更新パケットに基づいて、レンダリングパラメータの更新、例えば増分更新を提供することができる。
【0454】
更に、別の任意選択の特徴として、エンコーダ300、例えばパケット提供ユニット320は、1つ以上のシーン構成パケット及び1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットは、MPEG-H MHASパケット定義に適合するように、1つ以上のシーン構成パケット及び1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットを提供するように構成される。
【0455】
別の任意選択の特徴として、エンコーダ300、例えばパケット提供ユニット320は、1つ以上のシーン構成パケット及び1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットは各々、パケットタイプ識別子、例えばMHASPacketType、パケットラベル、例えばMHASPacketLabel、パケット長情報、例えばMHASPacketLength、及びパケットペイロード、例えばMHASPacketPayloadを含むように、1つ以上のシーン構成パケット及び1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットを提供するように構成される。
【0456】
したがって、任意選択の特徴として、ビットストリーム302は、例えば、レンダリングされる1つ以上のオーディオチャネルを表すパケットを含む複数のMPEG-Hパケットを含むことができる。したがって、エンコーダ300、例えばビットストリームプロバイダ310は、ビットストリーム内に、例えばMPEG-Hパケットとインタリーブされた、1つ以上のシーン構成パケット及び1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットを提供するように構成され得る。
【0457】
更に、エンコーダ300(一般的な符号化装置)は、任意選択で、ブロードキャストストリームを介してビットストリームを提供することができる。しかしながら、エンコーダ300、例えばビットストリームプロバイダ310は、任意選択で、ブロードキャストビットストリームを介して、例えば、任意選択で示されたブロードキャストビットストリーム306を介して、いくつかのパケットを提供し、非ブロードキャストビットストリームを介して、例えば、302いくつかのパケットを提供するように構成されてもよいことに留意されたい。例えば、ブロードキャストビットストリーム306は、シーン構成パケットを含み得る。一方、ビットストリーム302は、例えば、特定のユーザをアドレス指定することができ、したがって、特定のペイロードパケットを含むことができる。したがって、エンコーダ300は、例えば、複数のサーバ-クライアントチャネルを介して、ブロードキャストビットストリーム306及び複数の個々のビットストリーム302を提供することができる。
【0458】
別の任意選択の特徴として、エンコーダ300は、要求ユニット340を備える。エンコーダ300は、例えばデコーダから、(例えば、
図2に示す要求201に対応する)要求308を受信し、したがって、要求308に応じて、1つ以上のシーンペイロードパケットを提供し得る。したがって、要求ユニット340は、そのような要求をパケット提供ユニット320及び/又はビットストリームプロバイダ310に転送して、パケットを提供し、それをビットストリームに符号化することができる。
【0459】
1つ以上のシーンペイロードパケットは、例えば、ペイロードID及び/又はパケットIDを使用して識別することができる。言い換えれば、エンコーダ300は、ペイロードIDを備えるオーディオデコーダからの要求308に応答して、又はパケットIDを備えるオーディオデコーダからの要求308に応答して、1つ以上のシーンペイロードパケットを提供するように構成され得る。
【0460】
要求308は、任意選択の特徴として、例えば上記に加えて、又は上記の代替として、どの1つ以上のシーンペイロードパケットが必要であるか、又は所定の期間内に必要とされるかを少なくとも暗黙的に示す情報を含む。したがって、要求ユニット340は、任意選択で、要求されたパケットの適時の送信をスケジュールすることができる。
【0461】
別の任意選択の特徴として、エンコーダ300は、例えば、パケット提供ユニット320を用いて、前記レンダリングのために、前記1つ以上のシーン更新パケットがシーンメタデータの更新を定義し、1つ以上の更新条件の表現を含むように、前記1つ以上のシーン更新パケットを提供するように構成されている。
【0462】
一例として、解析ユニット330は、オーディオシーンの表現又は近似に必要なシーンメタデータを決定してもよい。対応するデコーダにおいて現在使用されているメタデータに基づいて、解析ユニットは、対応するデコーダにメタデータ更新情報を提供するためにシーン更新パケットを定義又は決定するために、パケット提供ユニット320に情報を提供することができる。更に、更新は、例えば、時間、オーディオシーン内のロケーション、及び/又はイベントに関して条件付きであってもよい(例えば、VR部屋にいるユーザが窓を開いている場合)。
【0463】
別の任意選択の特徴として、エンコーダ300は、例えば新たなデコーダの効率的な調整を可能にするために、例えばブロードキャストビットストリーム306において、シーン構成パケットの提供を周期的に繰り返すように構成される。
【0464】
別の任意選択の特徴として、エンコーダ300は、例えば、パケット提供ユニット320を用いて、シーン構成パケットを提供するように構成され、これにより、シーン構成パケットは、どのシーンペイロードパケットが空間及び時間の所与のポイントで必要とされるかを定義する。言い換えれば、一例として、音響シーンの分析に基づいて、時間及び空間におけるどのポイントにおいて、及び/又はどの条件に関して、例えば、音響的に関連するオブジェクト及び/又は特性を定義するメタデータを表すどのペイロード、が必要とされ得るか、又はオーディオシーンを定義又は再現するのに有利であるかを定義する構成を決定することができる。
【0465】
別の任意選択の特徴として、エンコーダ300は、例えば、パケット提供ユニット320を用いて、シーン構成パケットを提供するように構成され、これにより、シーン構成パケットは、シーンペイロードパケットを取り出すことができる場所を定義する。したがって、例えばブロードキャストチャネルからのシーン構成パケットに基づいて、デコーダは、例えばユニキャストチャネルを介して、それぞれのペイロードパケットを個別に要求することができる。
【0466】
前述したように、任意選択の特徴として、エンコーダ300は、例えば、パケット提供ユニット320を用いて、シーン更新パケットがシーン更新のための条件を定義するように、シーン更新パケットを提供するように構成される。任意選択で、シーン更新パケットは、シーン更新のための対話型トリガ条件を定義することができる。
【0467】
更に、別の任意選択の特徴として、エンコーダ300は、例えばパケット提供ユニット320を用いて、シーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義がレンダラ又はデコーダによっていつ及び/又はどこで必要とされるかに応じて、シーンペイロードパケット内のシーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義の順序を適合させるように構成される。
【0468】
別の任意選択の特徴として、装置300は、例えば、パケット提供ユニット320を用いて、レンダラに対する、シーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義の重要性に応じて、シーンペイロードパケット内のシーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義の順序を適合させるように構成される。
【0469】
任意選択で、シーンペイロードパケット内のシーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義の順序は、パケットサイズ制限に応じて設定され得る。
【0470】
別の任意選択の特徴として、装置は、最初に比較的低い詳細レベルを含むペイロードパケットを提供し、後に比較的高い詳細レベルを含むペイロードパケットを提供するように構成される。一例として、解析ユニット330は、符号化対象のオーディオシーンを異なる詳細度又は粒度で「分解」してもよい。これによれば、まず、オーディオシーンに関する粗い情報が提供され、その後、より正確な情報が提供され得る。
【0471】
更に、任意選択の特徴として、装置300は、例えば解析ユニット330を使用して、シーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義を複数のシーンペイロードパケットに分離し、異なる時間に異なるシーンペイロードパケットを提供するように構成される。上記に従って、いくつかのシーンオブジェクト又は特性は、オーディオシーンにより大きな影響を与える可能性があり、したがって、オーディオシーンのレンダリングのために直ちに提供され得る。他のオブジェクト又は特性は、例えば、音響体験の改善のためにのみ必要とされてもよく、したがって、計算リソース及び/又は帯域幅制限がそれを可能にする場合に送信されてもよい。
【0472】
別の任意選択の特徴として、装置300は、例えば解析ユニット330を使用して、シーンを、異なるレンダリングメタデータが有効である複数の空間領域に分解するために、シーン構成パケットを提供するように構成される。したがって、オーディオシーンの特定のロケーションにいる特定のユーザをアドレス指定するデコーダは、有効なメタデータのみを選択的に要求することができ、効率を高めることができる。
【0473】
図4は、本発明の第1の態様の実施形態による、符号化オーディオ表現に基づいて復号化オーディオ表現を提供するための方法の概略ブロック図である。
【0474】
方法400は、1つ以上のオーディオ信号を空間的にレンダリングすること410を含み、異なるパケットタイプの複数のパケットを受信すること420を含み、パケットは、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する1つ以上のシーン構成パケットを備え、パケットは、レンダリングのためのシーンメタデータの更新を定義する1つ以上のシーン更新パケットを備え、パケットは、シーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義を備える1つ以上のシーンペイロードパケットを備える。
【0475】
更に、方法は、レンダラ構成情報に応じて、レンダリングのために、シーンペイロードパケットに含まれる1つ以上のシーンオブジェクトの定義及び/又は1つ以上のシーン特性の定義を選択すること430と、1つ以上のシーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータを更新すること440とを含む。
【0476】
図5は、本発明の第1の態様の実施形態による、符号化オーディオ表現を提供するための方法の概略ブロック図である。方法500は、1つ以上のオーディオ信号の空間レンダリングのための情報を提供すること510と、異なるパケットタイプの複数のパケットを提供すること520とを含み、パケットは、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する1つ以上のシーン構成パケットを備え、パケットは、レンダリングのためのシーンメタデータの更新を定義する1つ以上のシーン更新パケットを備え、パケットは、シーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義を備える1つ以上のシーンペイロードパケットを備える。
【0477】
以下、
図2から
図3を参照する。
図2のビットストリーム208、したがって
図3のビットストリーム302及び/又は306は、オーディオコンテンツを表す。本発明による実施形態は、上述のビットストリームなどのビットストリームを含む。要約すると、そのようなビットストリームは、異なるパケットタイプの複数のパケットを備え、パケットは、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する1つ以上のシーン構成パケットを備え、パケットは、レンダリングのためのシーンメタデータの更新を定義する1つ以上のシーン更新パケットを備え、パケットは、シーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義を備える1つ以上のシーンペイロードパケットを備える。
【0478】
図6は、本発明の第2の態様の実施形態によるオーディオデコーダの概略図である。
図6は、復号化オーディオ表現606に基づいて符号化オーディオ表現602を提供するためのオーディオデコーダ600を示す。デコーダ600は、任意選択の特徴として、1つ以上のオーディオ信号を空間的にレンダリングするように構成されたレンダリングユニット610を備える。したがって、レンダリングユニット610は、任意選択で、復号ユニットを備えてもよく、復号ユニットは、符号化オーディオ表現を復号して、1つ以上のオーディオ信号を得るように構成されてもよい。しかしながら、別の選択肢として、点線及び破線で示されているように、オーディオデコーダ600は、符号化オーディオ表現602を備えることができ、かつ1つ以上のオーディオ信号をレンダリングユニット610に提供することができる復号ユニット620を備えることができる。
【0479】
更に、オーディオデコーダ600は、異なるパケットタイプの複数のパケット604を受信するように構成され、パケット604は、レンダラ構成情報を提供する1つ以上のシーン構成パケットを含み、パケット604は、1つ以上のシーン更新パケットを含み、レンダリングのためのシーンメタデータの更新を定義し、1つ以上の更新条件の表現を含む。
【0480】
したがって、シーン構成パケットに基づいて、レンダリングユニット610のレンダラ構成を設定及び/又は調整することができる。レンダリングユニット610は、レンダラ構成に基づいて、どのシーンオブジェクト及び/又はシーン特性を考慮すべきかを決定することができる。
【0481】
そのようなオブジェクト及び/又は特性は、例えば、メタデータ630を使用して定義することができる。前述したように、シーン更新パケットに基づいて、当該メタデータ630をレンダリングのために更新することができる。
【0482】
更に、オーディオデコーダ600は、任意選択の評価ユニット640を使用して、1つ以上の更新条件が満たされているかどうかを評価し、1つ以上の更新条件が満たされている場合、1つ以上のシーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータ130を選択的に更新するように構成される。
【0483】
したがって、言い換えれば、一例として、デコーダ600は、例えば復号ユニット620を使用して復号され、レンダリングユニット610を使用してレンダリングされる符号化オーディオ表現602を受信することができる。レンダリングは、オーディオ表現602に加えてデコーダ600に提供される1つ以上のシーン構成パケットに基づいて定義されるレンダラ構成に基づいて実行される。
【0484】
更に、デコーダ600に提供されるパケット604は、レンダリングユニット610によって使用されるメタデータの更新に関する情報を含むシーン更新に関する情報を含む。しかしながら、更新データ自体に加えて、デコーダが条件を評価し、定義された基準が満たされたときにレンダリングに使用されるメタデータを更新することができるように、更新条件が提供される。
【0485】
図6に示すように、評価ユニット640は、メタデータ630、例えば、シーンオブジェクトの定義及び/又はシーン特性自体の更新を引き起こすことができる。任意選択で、評価ユニット640は、他のメタデータオブジェクトを選択するように、又はレンダリングユニットを介してメタデータを更新するようにレンダリングユニットにおける適応を行わせてもよい。しかしながら、そのような追加の機能又は信号経路は任意選択であり得る。
【0486】
ここでも、パケット604及び符号化オーディオ表現602における入力信号の分離が一例であることに留意されたい。符号化オーディオ表現は、例えばスペクトルオーディオ係数に関する情報を含む、例えばパケットの形態で、例えばMPEGH3DAFRAMEとして、パケット604の一部として提供されてもよい。一方、デコーダ600は、例えば、オーディオ情報又はオーディオ信号に加えて、構成データ及び更新データを含む上記で説明したようなパケット604を含む、符号化オーディオ表現のみを受信することができる。したがって、任意選択の復号ユニット620は、代替的又は追加的に、符号化されたパケットを復号するように構成されてもよい。
【0487】
任意選択で、デコーダ600は、例えば評価ユニット640を用いて、1つ以上のシーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータ630を更新すべきかどうか決定するために、シーン更新パケットに含まれる時間条件を評価するように構成されている。
【0488】
一例として、時間条件は、開始時点、又は時間間隔を定義することができ、デコーダ600は、例えば評価ユニット640を使用して、現在の再生時間が開始時刻に達した、又は開始時刻の後にあるという検出に応答して、1つ以上のシーンメタデータの更新を実行するように、又は現在の再生時間が時間間隔内にあるという検出に応答して、1つ以上のシーンメタデータ630の更新を実行するように構成することができる。
【0489】
別の任意選択の特徴として、例えば上記に加えて、又は代わりに、デコーダ600は、例えば評価ユニット640を用いて、1つ以上のシーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータを更新すべきかどうか決定するために、シーン更新パケットに含まれる空間条件を評価するように構成され得る。
【0490】
任意選択で、空間条件はジオメトリ要素を定義し、オーディオデコーダ600は、例えば評価ユニット640を使用して、現在のポジションがジオメトリ要素に到達したという検出に応答して、又は現在のポジションがジオメトリ要素内にあるという検出に応答して、1つ以上のシーンメタデータ630の更新を行うように構成される。
【0491】
したがって、任意選択の特徴として、デコーダ600は、そのような現在のポジションに関する情報を含み得る追加情報608を受信するように構成され得る。ポジションは、例えば、当該シーン内の、デコーダが音響シーンをレンダリングしているリスナーのポジションであってもよい。しかしながら、デコーダ600は、例えば評価ユニット640を使用して、提供されたパケット604に基づいてそのような情報を決定することもできることに留意されたい。
【0492】
更に、デコーダ600、例えば評価ユニット640は、対話型トリガ条件が満たされているかどうかを評価して、1つ以上のシーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータを更新すべきかどうかを決定するように構成されてもよい。一例として、ユーザが仮想部屋の窓を開くと、部屋の音響特性を変更することができ、したがって、トリガ「窓を開く」メタデータ、例えば壁の音響特性を表す要素に基づいて、穴(=窓)を有する壁に変更することができる。このイベントは、一例として、追加情報608を介してデコーダに通信することができる。しかしながら、デコーダは、任意選択で、そのような情報を含むか、又はそれ自体でそのような情報を導出することができる。
【0493】
別の任意選択の特徴として、オーディオデコーダ600、例えば評価ユニット640は、2つ以上の更新条件の組み合わせを評価し、組み合わせた更新条件が満たされている場合、1つ以上のシーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータ130を選択的に更新するよう構成される。
【0494】
したがって、任意選択の特徴として、オーディオデコーダ600、例えば評価ユニット640は、時間的更新条件と空間的更新条件の両方を評価するように、又は時間的更新条件と対話的更新条件の両方を評価するように構成される。実施形態によれば、空間的、時間条件及び/又はイベント条件の任意の組み合わせを考慮することができる。
【0495】
別の任意選択の特徴として、オーディオデコーダ、例えば評価ユニット640は、シーン更新パケットに含まれている遅延情報を評価し、遅延情報に従って、1つ以上の更新条件が満たされたという検出に応答して、1つ以上のシーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータ130の更新を遅延させるように構成されている。
【0496】
更に、任意選択の特徴として、オーディオデコーダ600、例えば評価ユニット640は、前記シーン更新パケット内で時間的更新条件が定義されているかどうかを示す前記シーン更新パケット内のフラグを評価し、及び/又は、前記シーン更新パケット内で空間的更新条件が定義されているかどうかを示す前記シーン更新パケット内のフラグを評価するように構成されている。
【0497】
したがって、オーディオデコーダ600、例えば評価ユニット640は、前記シーン更新パケット内で遅延情報が定義されているかどうかを示す前記シーン更新パケット内のフラグを評価するように構成されている。
【0498】
別の任意選択の特徴として、シーン更新パケットは、1つ以上のシーンオブジェクトの1つ以上のパラメータ及び/又は1つ以上のシーン特性の複数の修正の表現を含み、オーディオデコーダ600は、例えば評価ユニット640を使用して、1つ以上の更新条件が満たされたという検出に応答して、修正を、例えばそのようなオブジェクト又は特性を定義するメタデータ630に適用するように構成される。
【0499】
別の任意選択の特徴として、シーン更新パケットは軌跡情報を含み、オーディオデコーダ600は、例えば評価ユニット640を使用して、軌跡情報によって定義された軌跡に追従するパラメータ変動を使用して、軌跡情報が関連付けられたそれぞれのシーンメタデータ130を更新するように構成される。
【0500】
したがって、評価ユニット640は、上記で説明した更新、例えばメタデータ更新のいずれか又はすべてを実行するように構成されてもよいことに留意されたい。したがって、評価ユニット640は、簡略化のために図示されていない更新ユニットを備えてもよい。任意選択で、デコーダ600は、評価ユニット640から評価結果を受信し、それぞれの更新を実行するように構成された別個の更新ユニットを備えてもよい。
【0501】
別の任意選択の特徴として、例えば評価ユニット640などのオーディオデコーダ600は、シーンメタデータの軌跡ベースの更新をアクティブ化又は非アクティブ化するために、シーンメタデータ630の軌跡ベースの更新が使用されるかどうかを示す情報を評価するように構成される。
【0502】
別の任意選択の特徴として、オーディオデコーダ600、例えば評価ユニット640は、軌跡の2つ以上の支点間の補間のタイプを決定するために、シーン更新パケットに含まれる補間タイプ情報を評価するように構成される。
【0503】
したがって、任意選択の特徴として、オーディオデコーダ600、例えば評価ユニット640は、軌跡を記述する支点情報を評価するように構成される。
【0504】
デコーダ600は、
図1及び
図2に示すデコーダの文脈で説明したような特徴のいずれか又はすべてを個別に、及び組み合わせて含むことができることに留意されたい。例えば、デコーダ600は、任意選択で、抽出ユニット、予期ユニット、及び/又は要求ユニット(したがって、それぞれの機能)を備えてもよい。更に、デコーダ600は、例えば、パケット604の一部として、
図1及び
図2の文脈で説明したように、ペイロードパッケージを受信及び処理するように構成され得る。逆もまた同様であり、
図1及び
図2からのデコーダ100及び200は、
図6に示すデコーダの文脈で説明したような特徴のいずれか又はすべてを含むことができ、例えば、追加情報を受信し、それを評価ユニットで使用する手段を含むことができる。
【0505】
以下、
図7を参照する。簡潔にするために、また先に説明したように、本発明による実施形態は、
図6に示されるようなデコーダ、したがってデコーダに応じた対応する特徴を有するエンコーダを備えることに留意されたい。したがって、エンコーダは、
図6のデコーダ600によって受信されるような任意選択ではない信号を提供し、復号化オーディオ表現606を提供するためにそれを処理するために必要な特徴のみを備えることができ、任意選択の特徴はない。しかしながら、上記で開示された任意選択の特徴、機能、及び詳細のいずれも、個別に又は組み合わせて、実施形態によるエンコーダに対応して存在し得る。同じことが、本発明の他の態様のデコーダ及び/又はエンコーダの特徴、機能及び詳細にも当てはまる。
【0506】
図7は、本発明の第2の態様の実施形態によるエンコーダの概略図である。エンコーダ700は、ビットストリーム702を提供するように構成され、ビットストリームは、例えば、符号化オーディオ表現を含むことができる。具体的には、エンコーダ700は、ビットストリーム702に含まれる1つ以上のオーディオ信号の空間レンダリングのための情報を提供するように構成される。したがって、ビットストリーム702は、異なるパケットタイプの複数のパケット722を含む。
【0507】
ビットストリーム702、したがって上記の情報エンティティを提供するために、エンコーダ700は、パケット722が提供される任意選択のビットストリームプロバイダ710を備える。
【0508】
図示されるように、エンコーダ700は、任意選択で、パケット提供ユニット720を備え得る。エンコーダ700は、例えば、パケット提供ユニット720を用いて、パケット722を提供するように構成される。パケット722は、レンダラ構成情報を提供する1つ以上のシーン構成パケットを含み、1つ以上のシーン更新パケットを含み、レンダリングのためのシーンメタデータの更新を定義し、1つ以上の更新条件の表現を含む。
【0509】
一例として、符号化されるオーディオ信号704がエンコーダ700に提供されてもよい。オーディオ信号は、例えば音声信号及び/又は音楽信号の時間領域サンプル及び/又はスペクトル値を含むことができる。任意選択で(図示せず)、この信号が既に符号化されている場合、この信号は、例えばパケット722と共にビットストリームに含まれるように、ビットストリームプロバイダ710に直接提供されてもよい。
【0510】
パケット722は、パケット提供ユニットによって異なる方法で提供されてもよい。例えば、パケット提供ユニット720は、音響シーンを規定し、予め定義されていてもよいし、パケット提供ユニットにより取得されてもよいシーン情報に基づいて、パケット722を提供してもよい。
【0511】
例えば、仮想現実アプリケーションの場合、(例えば音響シーンの)仮想モデルに基づいて、パケットを使用して音響シーン(例えば、音響的に関連する仮想オブジェクト及びオーディオ信号を有する仮想モデルを含む音響シーン)をモデル化又は表現するために、音響的に関連する仮想オブジェクトを決定することができる。任意選択で、(任意選択の)解析ユニット730は、音響的に関連する仮想オブジェクト、又はその特性(例えば、オーディオ信号の特性を使用して、例えば音源のポジションに関する情報を提供することによって、音響シーンの仮想モデルを補足及び/又は改良することができる)の決定をサポートすることができる。
【0512】
そこで、それぞれのパケット722の決定をサポートする情報を、任意選択の解析ユニット730からパケット提供ユニット720に提供するようにしてもよい。例えば、パケット提供ユニット720は、仮想モデルを管理してもよいし、仮想モデルに関する情報を提供されてもよい。
【0513】
別の例として、拡張現実アプリケーションの文脈では、符号化されるオーディオ信号704は、エンコーダ700に提供されてもよく、例えば音声信号及び/又は音楽信号の時間領域サンプル及び/又はスペクトル値を含んでもよい。しかしながら、任意選択で、オーディオ信号704は、拡張される現実のオーディオシーンの空間情報(例えば、暗黙の形式で)、例えば、シーン内の、例えば発話しているユーザの測定されたオーディオソースのポジション情報を更に含む(又は運ぶ)ことができる。そのような情報、及び任意選択で追加の仮想オーバーレイ情報(例えば、現実のシーンを拡張するために、音響的に関連する仮想オブジェクトを現実のシーンに追加するための情報)は、パケットを使用してシーンをモデル化又は表現するために、任意選択の解析ユニット730によって抽出及び/又は解析及び/又は適用することができる。そこで、前述したように、各パケット722を決定するための情報をパケット提供ユニット720に提供するようにしてもよい。一例として、解析ユニット730は、オーディオ信号704内の空間情報に基づいて、所望の聴覚体験を提供するために、シーンのどの音響的に関連するオブジェクトが考慮又は更新又はレンダリングされるべきかを決定することができる。
【0514】
しかしながら、エンコーダ700は、例えば、パケット722に関する情報が外部ユニット、例えば、仮想又は拡張シーンを管理するユニットからエンコーダ700に提供され得るように、任意選択で解析ユニットを備えなくてもよいことに留意されたい。
【0515】
上記の例を更に説明するために、符号化されるオーディオ信号704がエンコーダ700に提供されてもよく、これは空間オーディオシーンからのオーディオ信号であってもよく、オーディオシーンに関する空間情報を任意選択で更に含んでもよい。したがって、任意選択で、エンコーダ700は解析ユニット730を備えてもよい。解析ユニット730は、オーディオシーンの表現を決定又は近似するために、オーディオシーンから提供される情報を解析するように構成されてもよい。一例として、オーディオシーンは、スペクトル係数と共に使用されてリスナーにオーディオシーンの没入表現を提供することができる、例えばシーンオブジェクト及び/又はシーン特性を記述するメタデータを使用して表すことができる。
【0516】
これに基づいて、一例として、オーディオシーンのレンダリングのためのレンダラ構成情報及びメタデータ更新を提供するために、パケット提供ユニット720を使用して、対応するシーン構成パケット及び更新条件を含むシーン更新パケットを決定及び提供することができ、オーディオシーンの展開、又は例えば、空間、時間、及び/又は更なる条件に関する、オーディオシーン内のリスナーに対するオーディオシーンの知覚の変化を示すことができる。
【0517】
メタデータは、(例えば、仮想現実アプリケーションの場合)例えば、オーディオシーンのデジタルモデル及び/又はオーディオ信号が記録された実際のシーンの解析(例えば、拡張現実アプリケーションの事例について)に基づいてもよいことに留意されたい。
【0518】
一例として、パケット提供ユニット720は、例えば、パケット722の一部であるレンダリングされる(例えば、任意選択で、MPEGH3DAFRAME等のパケット)1つ以上のオーディオチャネルを表すパケットの形態で、オーディオ信号の当該スペクトル情報を含むパケットを更に提供することができる。
【0519】
任意選択で、オーディオ信号704は、例えば、パケット提供ユニット720及び/又はビットストリームプロバイダ710に直接供給されてもよい。一例として、オーディオ信号704は、これらのパケットがビットストリームプロバイダ710において符号化されるためにパケット提供ユニット722においてのみ抽出され得るように、定義されたパケット722を既に含んでもよい。オーディオ信号情報は、例えばメタデータ情報とは別に、例えば、パケットの形態で、又はオーディオ信号304に直接基づいてビットストリームプロバイダ710に提供されてもよい。
【0520】
更に、解析ユニット730は、例えば音響信号自体のみを表すオーディオ信号704を用いて、仮想音響シーンを決定又は近似してもよく、シーンの更なる空間特性は、例えば仮想周囲内のユーザのポジションに関する情報を使用して、仮想音響シーン内の周囲の仮想モデルに基づいてもよい。例えば、仮想会議室では、仮想壁の反射特性、又は仮想カーペットの減衰特性は、例えば実際の測定に基づかずに、例えばリスナーのポジションに関する壁又はカーペットの仮想音響モデルに基づいて、メタデータとして組み込むことができる。
【0521】
任意選択の特徴として、エンコーダ700、例えば、パケット提供ユニット720は、シーン更新パケットが、前記シーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータを更新するための時間条件の表現を含むように、前記シーン更新パケットを提供するように構成されている。例えば、解析ユニット730の結果に基づいて、エンコーダ700は、符号化されるオーディオシーンが時間的展開に従って変化し得ることを決定又は推定することができ、したがって、そのような情報、例えばモデリングを、それぞれの更新データ及び時間条件の送信を介して通信することができる。
【0522】
別の任意選択の特徴として、時間条件は、開始時刻又は時間間隔を定義する。
【0523】
したがって、別の任意選択の特徴として、解析ユニット730は、一例として、符号化されるオーディオシーンが空間依存性を含むと決定するように構成され、したがって、それぞれの更新データ及び空間条件の送信を介してそのような情報を通信することができる。したがって、装置700は、任意選択で、シーン更新パケットが、前記シーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータを更新するための空間条件の表現を含むように、前記シーン更新パケットを提供するように構成されている。
【0524】
別の任意選択の特徴として、空間条件はジオメトリ要素を定義する。したがって、解析ユニットは、そのようなジオメトリ要素を使用してオーディオシーンを効率的にモデル化することができる。
【0525】
別の任意選択の特徴として、エンコーダ700、例えば、パケット提供ユニット720は、シーン更新パケットが、前記シーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータを更新するための対話型トリガ条件の表現を含むように、前記シーン更新パケットを提供するように構成されている。
【0526】
任意選択で、装置700、例えばパケット提供ユニット720は、シーン更新パケットが2つ以上の更新条件の組み合わせの表現を含むように、シーン更新パケットを提供するように構成されている。
【0527】
別の任意選択の特徴として、装置700、例えばパケット提供ユニット720は、シーン更新パケットが、前記1つ以上の更新条件が満たされているという検出に応答して、前記1つ以上のシーン更新パケットのコンテンツに応じて、1つ以上のシーンメタデータの更新を遅延させるように定義している遅延情報を含むように、前記シーン更新パケットを提供するように構成されている。
【0528】
任意選択で、装置700、例えばパケット提供ユニット720は、シーン更新パケットが、時間的更新条件がシーン更新パケットにおいて定義されているかどうかを示すフラグ、及び/又は空間的更新条件がシーン更新パケットにおいて定義されているかどうかを示すフラグの表現を含むように、シーン更新パケットを提供するように構成されている。
【0529】
別の任意選択の特徴として、装置700、例えばパケット提供ユニット720は、遅延情報がシーン更新パケットに定義されているかどうかを示すフラグを前記シーン更新パケットが含むように、前記シーン更新パケットを提供するように構成されている。
【0530】
別の任意選択の特徴として、装置700、例えばパケット提供ユニット720は、シーン更新パケットが1つ以上のシーンオブジェクトの1つ以上のパラメータ及び/又は1つ以上のシーン特性の複数の修正の表現を含むように、前記シーン更新パケットを提供するように構成されている。
【0531】
任意選択で、装置700、例えばパケット提供ユニット720は、シーン更新パケットが軌跡情報を含むように、シーン更新パケットを提供するように構成され、軌跡情報は、軌跡情報によって定義された軌跡に続くパラメータ変動を使用して、軌跡情報が関連付けられるそれぞれのシーンメタデータを更新するように記述する。
【0532】
一例として、解析ユニット730は、符号化されるオーディオシーンの音響的に関連するオブジェクト又は特性の変化が、軌跡情報に従ってメタデータ更新を使用してモデル化又は近似することができると判定するように構成されてもよく、したがって、軌跡情報の形式で提供することによって、そのような更新情報のシグナリング労力を低減するように構成されてもよい。
【0533】
別の任意選択の特徴として、装置700、例えばパケット提供ユニット720は、前記軌跡情報が、シーンメタデータの軌跡ベースの更新をアクティブ化又は非アクティブ化するために、前記シーンメタデータの軌跡ベースの更新が使用されるかどうかを示す情報を含むように、シーン更新パケットを提供するように構成されている。
【0534】
別の任意選択の特徴として、装置700、例えばパケット提供ユニット720は、軌跡情報がシーン更新パケットに含まれる補間タイプ情報を含むように、シーン更新パケットを提供するように構成される。
【0535】
別の任意選択の特徴として、装置700、例えばパケット提供ユニット720は、軌跡情報が軌跡を記述する支点情報を含むように、シーン更新パケットを提供するように構成される。
【0536】
図8は、本発明の第2の態様の実施形態による、符号化オーディオ表現に基づいて復号化オーディオ表現を提供するための方法の概略ブロック図である。方法800は、1つ以上のオーディオ信号を空間的にレンダリングすること810と、異なるパケットタイプの複数のパケットを受信すること820とを含み、前記パケットは、レンダラ構成情報を提供する1つ以上のシーン構成パケットを含み、パケットは、前記レンダリングのためのシーンメタデータの更新を定義する1つ以上のシーン更新パケットを含み、1つ以上の更新条件の表現を含む。
【0537】
更に、方法800は、1つ以上の更新条件が満たされているか否かを評価すること830と、1つ以上の更新条件が満たされている場合、1つ以上のシーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータを選択的に更新することとを含む。
【0538】
図9は、本発明の第2の態様の実施形態による、符号化オーディオ表現を提供するための方法の概略ブロック図である。方法900は、異なるパケットタイプの複数のパケットを提供すること910を含み、前記パケットは、レンダラ構成情報を提供する1つ以上のシーン構成パケットを含み、パケットは、前記レンダリングのためのシーンメタデータの更新を定義する1つ以上のシーン更新パケットを含み、1つ以上の更新条件の表現を含む。
【0539】
以下、
図7を参照する。
図7のビットストリーム702は、オーディオコンテンツを表している。本発明による実施形態は、上述のビットストリームなどのビットストリームを含む。要約すると、このようなビットストリームは、異なるパケットタイプの複数のパケットを含み、前記パケットは、レンダラ構成情報を提供する1つ以上のシーン構成パケットを含み、前記パケットは、前記レンダリングのためのシーンメタデータの更新を定義する1つ以上のシーン更新パケットを含み、1つ以上の更新条件の表現を含む。
【0540】
図10は、本発明の第3の態様の実施形態によるオーディオデコーダの概略図を示す。
図10は、復号化オーディオ表現1006に基づいて符号化オーディオ表現602を提供するためのオーディオデコーダ1000を示す。デコーダ1000は、1つ以上のオーディオ信号を空間的にレンダリングするように構成されたレンダリングユニット1010を備える。したがって、レンダリングユニット1010は、任意選択で、復号ユニットを備えてもよく、復号ユニットは、符号化オーディオ表現を復号して、1つ以上のオーディオ信号を得るように構成されてもよい。しかしながら、別の選択肢として、点線及び破線で示されているように、オーディオデコーダ1000は、符号化オーディオ表現1002を備えることができ、かつ1つ以上のオーディオ信号をレンダリングユニット1010に提供することができる復号ユニット1020を備えることができる。
【0541】
更に、オーディオデコーダ1000は、異なるパケットタイプの複数のパケット1004を受信するように構成され、パケット1004は、レンダリングシナリオの時間的展開を定義するレンダラ構成情報を提供し、タイムスタンプ情報を含む複数のシーン構成パケットを含む。
【0542】
更に、オーディオデコーダ1000は、評価ユニット1020を使用して、タイムスタンプ情報を評価し、レンダリングユニット1010のレンダリング構成を、レンダラ構成情報を使用してタイムスタンプに対応するレンダリングシナリオに設定するように構成される。
【0543】
ここでも、パケット1004及び符号化オーディオ表現1002における入力信号の分離が一例であることに留意されたい。符号化オーディオ表現は、例えばスペクトルオーディオ係数に関する情報を含むパケットの形態で、例えばMPEGH3DAFRAMEとして、パケット1004の一部として提供されてもよい。一方、デコーダ1000は、例えば、オーディオ情報又はオーディオ信号に加えて、構成データ、更新データ、及びメタデータを含む上記で説明したようなパケット1004を含む、符号化オーディオ表現のみを受信することができる。したがって、任意選択の復号ユニット1020は、代替的又は追加的に、符号化されたパケットを復号するように構成され得る。
【0544】
任意選択の特徴として、オーディオデコーダ1000、例えば評価ユニット1020は、前記オーディオデコーダがストリームの1つ以上の先行するシーン構成パケットを逃したとき、又は前記オーディオデコーダがストリームに同調したときに、前記タイムスタンプ情報を評価するように構成される。更に、オーディオデコーダ1000は、シーン構成パケットに含まれるタイムスタンプ情報に応じて、例えばレンダリングユニット1010において再生時間を設定するように構成される。
【0545】
別の任意選択の特徴として、オーディオデコーダ1000、例えばレンダリングユニット1010は、前記オーディオデコーダがストリームの1つ以上の先行するシーン構成パケットを逃したとき、又は前記オーディオデコーダがストリームに同調したときに、前記タイムスタンプ情報によって定義される再生時間まで、レンダリングシーンの時間的発展を実行するように構成されている。
【0546】
別の任意選択の特徴として、オーディオデコーダ1000は、パケットに含まれるタイムスケール情報を取得し、例えば評価ユニット1020を使用して、タイムスケール情報を使用してタイムスタンプ情報を評価するように構成される。
【0547】
別の任意選択の特徴として、オーディオデコーダ1000、例えば評価ユニット1020は、前記タイムスタンプ情報に応じて、前記レンダリングにどのシーンオブジェクトを使用すべきかを決定するように構成されている。このような決定に基づいて、レンダリングユニット1010のレンダラ構成をそれに応じて適合させることができる。
【0548】
任意選択で、レンダリングユニット1010は、例えば
図1、
図2及び/又は
図6に示されるように、メタデータ要素のセットからレンダリングのためのシーンオブジェクト又はシーン特性を受信又は選択することができる。
【0549】
別の任意選択の特徴として、オーディオデコーダ1000は、例えば評価ユニット1020を用いて、タイムスタンプ情報によって定義される時間の前の時点から始まるレンダリングシーンの展開を定義するシーン構成パケットを評価するように構成される。更に、オーディオデコーダ1000、例えばその評価ユニット1020は、シーン構成パケット内の情報に基づいて、タイムスタンプ情報によって定義される時点に関連付けられたシーン構成を導出するように構成される。
【0550】
したがって、そのようなシーン構成は、例えば、レンダリングユニット1010に提供することができる。
【0551】
別の任意選択の特徴として、オーディオデコーダ1000は、例えば評価ユニット1020を使用して、1つ以上のシーン更新パケットを用いてタイムスタンプ情報によって定義される時点に関連付けられたシーン構成を導出するように構成される。
【0552】
したがって、パケット1004は、任意選択で、1つ以上のシーン更新パケットを備え得る。
【0553】
別の任意選択の特徴として、シーン構成パケットはMPEG-H MHASパケット定義に適合している。
【0554】
別の任意選択の特徴として、シーン構成パケットは各々、パケットタイプ識別子、パケットラベル、パケット長情報、及びパケットペイロードを含む。
【0555】
別の任意選択の特徴として、オーディオデコーダ1000は、レンダリングされる1つ以上のオーディオチャネルを表すパケットを含む複数のMPEG-Hパケットを含むビットストリームから、1つ以上のシーン構成パケットを抽出するように構成される。したがって、デコーダ1000は、任意選択で、例えば
図2に示すような抽出ユニットを備えてもよい。
【0556】
任意選択の特徴として、オーディオデコーダ1000は、ブロードキャストストリームを介して、1つ以上のシーン構成パケットを受信するように構成される。
【0557】
別の任意選択の特徴として、オーディオデコーダ1000は、ブロードキャストストリームに同調し、同調後にオーディオデコーダによって識別された第1のシーン構成パケットのタイムスタンプに基づいて再生時間を決定するように構成されている。
【0558】
以下、
図11を参照する。簡潔にするために、かつ先に説明したように、本発明による実施形態は、
図10に示すデコーダによる対応する特徴を有するエンコーダを備えることに留意されたい。したがって、エンコーダは、
図10のデコーダ1000によって受信されるような任意選択ではない信号を提供し、復号化オーディオ表現1006を提供するためにこれを処理するために必要な特徴のみを備えることができ、任意選択の特徴はない。しかしながら、上記で開示された任意選択の特徴、機能、及び詳細のいずれも、個別に又は組み合わせて、実施形態によるエンコーダに対応して存在し得る。同じことが、本発明の他の態様のデコーダ及び/又はエンコーダの特徴、機能及び詳細にも当てはまる。
【0559】
図11は、本発明の第3の態様の実施形態によるエンコーダの概略図を示す。エンコーダ1100は、ビットストリーム1102を提供するように構成され、ビットストリームは、例えば、符号化オーディオ表現を含むことができる。特に、エンコーダ1100は、ビットストリームに含まれる、1つ以上のオーディオ信号の空間レンダリングのための情報を提供するように構成される。したがって、ビットストリーム1102は、異なるパケットタイプの複数のパケット1122を含む。
【0560】
ビットストリーム1102、したがって上記の情報エンティティを提供するために、エンコーダ1100は、パケット1122が提供されるビットストリームプロバイダ1110を備える。
【0561】
図示されるように、エンコーダ1100は、パケット提供ユニット1120を備え得る。エンコーダ1100は、例えば、パケット提供ユニット1120を用いて、パケット1122を提供するように構成される。パケット1122は、レンダリングシナリオの時間的展開を定義し、タイムスタンプ情報を含むレンダラ構成情報を提供する複数のシーン構成パケットを含む。
【0562】
そこで、
図11に示すように、当該タイムスタンプ情報は、任意選択の時間情報ユニット1140により、パケット提供ユニット1120に提供されるようにしてもよい。
【0563】
一例として、符号化されるオーディオ信号1104がエンコーダ1100に提供されてもよい。オーディオ信号は、例えば音声信号及び/又は音楽信号の時間領域サンプル及び/又はスペクトル値を含むことができる。任意選択で(図示せず)、この信号が既に符号化されている場合、この信号は、例えばパケット1122と共にビットストリームに含まれるように、ビットストリームプロバイダ1110に直接提供されてもよい。
【0564】
パケット1122は、パケット提供ユニットによって異なる方法で提供されてもよい。例えば、パケット提供ユニット1120は、音響シーンを規定し、予め定義されていてもよいし、パケット提供ユニットにより取得されてもよいシーン情報に基づいて、パケット322を提供してもよい。
【0565】
例えば、仮想現実アプリケーションの場合、(例えば音響シーンの)仮想モデルに基づいて、パケットを使用して音響シーン(例えば、音響的に関連する仮想オブジェクト及びオーディオ信号を有する仮想モデルを含む音響シーン)をモデル化又は表現するために、音響的に関連する仮想オブジェクトを決定することができる。任意選択で、(任意選択の)解析ユニット1130は、音響的に関連する仮想オブジェクト、又はその特性(例えば、オーディオ信号の特性を使用して、例えば音源のポジションに関する情報を提供することによって、音響シーンの仮想モデルを補足及び/又は改良することができる)の決定をサポートすることができる。
【0566】
そこで、それぞれのパケット1122の決定をサポートする情報を、任意選択の解析ユニット1130からパケット提供ユニット1120に提供するようにしてもよい。例えば、パケット提供ユニット1120は、仮想モデルを管理してもよいし、仮想モデルに関する情報を提供されてもよい。
【0567】
別の例として、拡張現実アプリケーションの文脈では、符号化されるオーディオ信号1104は、エンコーダ1100に提供されてもよく、例えば音声信号及び/又は音楽信号の時間領域サンプル及び/又はスペクトル値を含んでもよい。しかしながら、任意選択で、オーディオ信号1104は、拡張される現実のオーディオシーンの空間情報(例えば、暗黙の形式で)、例えば、シーン内の、例えば発話しているユーザの測定されたオーディオソースのポジション情報を更に含む(又は運ぶ)ことができる。そのような情報、及び任意選択で追加の仮想オーバーレイ情報(例えば、現実のシーンを拡張するために、音響的に関連する仮想オブジェクトを現実のシーンに追加するための情報)は、パケットを使用してシーンをモデル化又は表現するために、任意選択の解析ユニット1130によって抽出及び/又は解析及び/又は適用することができる。そこで、前述したように、各パケット1122を決定するための情報をパケット提供ユニット1120に提供するようにしてもよい。一例として、解析ユニット1130は、オーディオ信号1104内の空間情報に基づいて、所望の聴覚体験を提供するために、シーンのどの音響的に関連するオブジェクトが考慮又は更新又はレンダリングされるかを決定することができる。
【0568】
しかしながら、エンコーダ1100は、例えば、パケット1122に関する情報が外部ユニット、例えば、仮想又は拡張シーンを管理するユニットからエンコーダ1100に提供され得るように、任意選択で解析ユニットを備えなくてもよいことに留意されたい。
【0569】
上記の例を更に説明するために、オーディオ信号1104は、空間オーディオシーンからのオーディオ信号であってもよく、任意選択で、オーディオシーンに関する空間情報を更に含んでもよい。したがって、任意選択で、エンコーダ1100は解析ユニット1130を備えてもよい。解析ユニット1130は、例えば、オーディオシーンの表現を決定又は近似するために、オーディオシーンから提供される情報を解析するように構成されてもよい。一例として、オーディオシーンは、オーディオ信号のスペクトル係数と共に使用されてリスナーにオーディオシーンの没入表現を提供することができる、例えば、シーンオブジェクト及び/又はシーン特性を記述するメタデータを使用して表すことができる。
【0570】
メタデータは、(例えば、仮想現実アプリケーションの場合)例えば、オーディオシーンのデジタルモデル及び/又はオーディオ信号が記録された実際のシーンの解析(例えば、拡張現実アプリケーションの事例について)に基づいてもよいことに留意されたい。
【0571】
これに基づいて、一例として、対応するシーン構成パケット、シーン更新パケット、及びシーンペイロードパケットを決定し、提供することができる。
【0572】
したがって、一例として、パケット提供ユニット1120は、任意選択でパケット1122に含まれるレンダリングされる1つ以上のオーディオチャネルを表す、例えばパケットの形態で、オーディオ信号の当該スペクトル情報を含むパケットを更に提供することができる。
【0573】
任意選択で、オーディオ信号1104は、パケット提供ユニット1120及び/又はビットストリームプロバイダ1110に直接提供されてもよい。一例として、オーディオ信号1104は、これらのパケットがビットストリームプロバイダ1110において符号化されるためにパケット提供ユニット1122においてのみ抽出され得るように、定義されたパケット1122を既に含んでもよい。オーディオ信号情報は、例えばメタデータ情報とは別に、パケットの形態で、又はオーディオ信号1104に直接基づいてビットストリームプロバイダ1110に提供されてもよい。
【0574】
更に、解析ユニット1130はまた、例えば音響信号自体のみを表すオーディオ信号1104を用いて、仮想音響シーンを決定又は近似してもよく、シーンの更なる空間特性は、仮想音響シーン内の周囲の仮想モデルに基づいてもよく、例えば仮想周囲内のユーザのポジションに基づいてもよいことに留意されたい。例えば、仮想会議室では、仮想壁の反射特性、又は仮想カーペットの減衰特性は、例えば実際の測定に基づかずに、例えばリスナーのポジションに関する壁又はカーペットの仮想音響モデルに基づいて、メタデータとして組み込むことができる。
【0575】
任意選択で、タイムスタンプ情報は、例えば破線で示すように、オーディオ信号1104の分析を介して導出されてもよく、又は例えば、独立して定義又は設定されてもよい。任意選択で、タイムスタンプ情報は、エンコーダ1100の別の入力信号として提供されてもよい。
【0576】
任意選択で、装置1100は、例えば、時間情報ユニット1140を使用して、パケットのうちの1つにタイムスケール情報を提供するように構成され、タイムスタンプ情報は、タイムスケール情報に関連する表現で提供される。
【0577】
別の任意選択の特徴として、装置1100、例えばパケット提供ユニット1120は、シーン構成パケットがMPEG-H MHASパケット定義に適合するように、シーン構成パケットを提供するように構成される。
【0578】
別の任意選択の特徴として、装置1100、例えばパケット提供ユニット1120は、シーン構成パケットが各々、パケットタイプ識別子、パケットラベル、パケット長情報、及びパケットペイロードを含むように、シーン構成パケットを提供するように構成される。
【0579】
別の任意選択の特徴として、装置1100、例えばビットストリームプロバイダ1120は、レンダリングされる1つ以上のオーディオチャネルを表すパケットと、1つ以上のシーン構成パケットとを含む複数のMPEG-Hパケットを含むビットストリーム1102を提供するように構成される。
【0580】
したがって、パケット1122は、例えば、パケット提供ユニット1120によって提供され得る当該MPEG-Hパケットを含み得る。
【0581】
別の任意選択の特徴として、装置1100、例えばビットストリームプロバイダ1110は、インタリーブ方式で、レンダリングされる1つ以上のオーディオチャネルを表すパケットと、1つ以上のシーン構成パケットとを含む複数のMPEG-Hパケットを含むビットストリーム1102を提供するように構成される。
【0582】
別の任意選択の特徴として、装置1100は、シーン構成パケットを周期的に繰り返すように構成されている。
【0583】
別の任意選択の特徴として、装置1100は、1つ以上のシーンペイロードパケットと、2つの後続のシーン構成パケットの間にレンダリングされる1つ以上のオーディオチャネルを表す1つ以上のパケットとを用いて、前記シーン構成パケットを周期的に繰り返すように構成されている。
【0584】
したがって、パケット提供ユニット1120は、任意選択で、ビットストリームプロバイダ1110を使用してその符号化のためにシーンペイロードパケットを提供するように構成されてもよい。
【0585】
別の任意選択の特徴として、装置1100は、2つの後続のシーン構成パケットの間にレンダリングされる1つ以上のオーディオチャネルを表す1つ以上のパケットを用いて、前記シーン構成パケットを周期的に繰り返すように構成されている。更に、装置1100は、要求に応じて1つ以上のシーンペイロードパケットを提供するように構成される。
【0586】
したがって、装置1100は、任意選択の特徴として、そのような要求1108を受信するように構成された要求ユニット1150を備える。したがって、要求ユニット1150は、要求に関する情報をパケット提供ユニット1120に提供して、1つ以上のシーンペイロードパケットを提供することができ、任意選択で、ビットストリーム1102で符号化するために、ビットストリームプロバイダ1110に提供することができる。
【0587】
別の任意選択の特徴として、装置は、タイムスタンプ情報が異なる、他の点では同一である複数のシーン構成パケットを提供するように構成されている。
【0588】
別の任意選択の特徴として、装置1100、例えば時間情報ユニット1140は、タイムスタンプ情報を再生時間に適合させるように構成される。任意選択で、エンコーダ1100は、再生時間に関する情報を入力信号として受信してもよく、又は、例えば解析ユニット1130を使用して、オーディオ信号に基づいて再生時間を推定又は決定してもよい。
【0589】
別の任意選択の特徴として、装置1100は、前記タイムスタンプ情報を、パケットに含まれるレンダリングシーン情報の再生時間に適合させるように構成されており、前記パケットは、前記それぞれのタイムスタンプ情報が含まれるそれぞれのシーン構成パケットの時間環境において前記装置によって提供される。
【0590】
図12は、本発明の第3の態様の実施形態による、符号化オーディオ表現に基づいて復号化オーディオ表現を提供するための方法の概略ブロック図である。方法1200は、1つ以上のオーディオ信号を空間的にレンダリングすること1210と、異なるパケットタイプの複数のパケットを受信することと1220とを含み、パケットは、レンダリングシナリオの時間的展開を定義するレンダラ構成情報を提供し、タイムスタンプ情報を含む複数のシーン構成パケットを含む。方法は更に、タイムスタンプ情報を評価すること1230と、レンダリング構成を、レンダラ構成情報を用いて、タイムスタンプに対応するレンダリングシナリオに設定することとを含む。
【0591】
図13は、本発明の第3の態様の実施形態による、符号化オーディオ表現を提供するための方法の概略ブロック図である。方法1300は、1つ以上のオーディオ信号の空間レンダリングのための情報を提供すること1310と、異なるパケットタイプの複数のパケットを提供すること1320とを含み、これらのパケットは、レンダリングシナリオの時間的展開を定義し、タイムスタンプ情報を含むレンダラ構成情報を提供する複数のシーン構成パケットを含む。
【0592】
以下、
図11を参照する。
図11のビットストリーム1102は、オーディオコンテンツを表している。本発明による実施形態は、上述のビットストリームなどのビットストリームを含む。要約すると、そのようなビットストリームは、異なるパケットタイプの複数のパケットを含み、パケットは、レンダリングシナリオの時間的展開を定義するレンダラ構成情報を提供し、タイムスタンプ情報を含む複数のシーン構成パケットを含む。
【0593】
図14は、本発明の第4の態様の実施形態によるオーディオデコーダの概略図である。
図14は、復号化オーディオ表現1406に基づいて符号化オーディオ表現1402を提供するためのオーディオデコーダ1400を示す。デコーダ1400は、任意選択の特徴として、1つ以上のオーディオ信号を空間的にレンダリングするように構成されたレンダリングユニット1410を備える。したがって、レンダリングユニット1410は、任意選択で、復号ユニットを備えてもよく、復号ユニットは、符号化オーディオ表現を復号して、1つ以上のオーディオ信号を得るように構成されてもよい。しかしながら、別の選択肢として、点線及び破線で示されているように、オーディオデコーダ1400は、符号化オーディオ表現1402を備えることができ、かつ1つ以上のオーディオ信号をレンダリングユニット1410に提供することができる復号ユニット1420を備えることができる。
【0594】
更に、オーディオデコーダ1400は、パケット1404を受信するように構成され、パケット1404は、レンダラ構成情報を提供するシーン構成パケットを含み、シーン構成パケットは、1つ以上のセルを定義するサブシーンセル情報を含み、セル情報は、1つ以上のセルと、1つ以上のセルに関連付けられ、レンダリングシナリオを定義するそれぞれの1つ以上のデータ構造1430との間の関連付けを定義する。
【0595】
したがって、シーン構成パケットに基づいて、レンダリングユニット1410のレンダラ構成を設定及び/又は調整することができる。更に、例えば図示されている任意選択の評価ユニット1440を使用するオーディオデコーダ1400は、レンダリングユニット1410における空間レンダリングのためにどのデータ構造1430が使用されるべきかを決定するためにセル情報を評価するように構成される。
【0596】
したがって、言い換えれば、一例として、デコーダ600は、例えば復号ユニット1420を使用して復号され、レンダリングユニット1410を使用してレンダリングされる符号化オーディオ表現1402を受信することができる。レンダリングは、オーディオ表現4102に加えてデコーダ1400に提供されるシーン構成パケットに基づいて定義されるレンダラ構成に基づいて実行される。
【0597】
更に、評価ユニット1440を使用して、セル情報に基づいて、例えば、空間及び/又は時間におけるオーディオシーン又はレンダリングシーン又はレンダリングシナリオの一部を定義するように、構成情報からセル情報を抽出することができ、オーディオ信号のレンダリングに関連するデータ構造を、レンダリングユニット1410のために選択することができ、及び/又はレンダリングユニットに提供することができる。
【0598】
したがって、任意選択で、評価ユニット1440は、例えばレンダリングユニット1410への直接信号経路を介して、他のデータ構造を選択するようにレンダリングユニットにおける適応を行わせることができる。
【0599】
ここでも、パケット1404及び符号化オーディオ表現1402における入力信号の分離が一例であることに留意されたい。符号化オーディオ表現は、パケット1404の一部として、例えばMPEGH3DAFRAMEとして、例えばレンダリングされるスペクトルオーディオ係数及び/又はオーディオチャネルに関する情報を含むパケットの形態で提供されてもよい。一方、デコーダ1400は、例えば、オーディオ情報又はオーディオ信号に加えて、構成データ、及び任意選択で、更に更新データ、及びメタデータを含む上記で説明したようなパケット1404を含む、符号化オーディオ表現のみを受信することができ、メタデータは、データ構造の一例であってもよく、例えば、レンダリングされるオーディオシーンの音響的に関連するオブジェクト及び/又は特性を定義するものであってもよい。更に、したがって、任意選択の復号ユニット1420は、代替的又は追加的に、符号化されたパケットを復号するように構成されてもよい。
【0600】
任意選択の特徴として、セル情報は、所与のセルの時間的定義を含み、オーディオデコーダ1400は、例えば評価ユニット1400を使用して、所与のセルの時間的定義を評価するように構成され、所与のセルに関連付けられた1つ以上のデータ構造が、空間レンダリングにおいて、例えばレンダリングユニット1410において考慮される(例えば、使用される)べきかどうかを決定する。
【0601】
別の任意選択の特徴として、セル情報は、所与のセルの空間的定義を含み、オーディオデコーダ1400は、例えば評価ユニット1440を使用して、所与のセルの空間的定義を評価するように構成され、所与のセルに関連付けられた1つ以上のデータ構造が、空間レンダリングにおいて、例えばレンダリングユニット1410において考慮される(例えば、使用される)べきかどうかを決定する。
【0602】
別の任意選択の特徴として、オーディオデコーダ1400は、例えば評価ユニット1400を用いて、セル数を決定するために、シーン構成パケットに含まれているセル数情報を評価するように構成される。
【0603】
別の任意選択の特徴として、セル情報は、セル情報がセルの時間的定義又はセルの空間的定義のいずれを含むかを示すフラグを含み、オーディオデコーダ1400は、例えば評価ユニット1400を使用して、セル情報がセルの時間的定義又はセルの空間的定義のいずれを含むかを示すフラグを評価するように構成される。
【0604】
別の任意選択の特徴として、セル情報は、セルを定義するためのジオメトリ構造の参照を含み、オーディオデコーダは、例えば評価ユニット1440を使用して、セルのジオメトリ定義を取得するために、ジオメトリ構造の参照を評価するように構成される。
【0605】
別の任意選択の特徴として、オーディオデコーダ1400は、例えば評価ユニット1440を使用して、グローバルペイロードパケットから、セルのジオメトリ境界を定義するジオメトリ構造の定義を取得するように構成される。したがって、パケット1404は、ブロードキャストビットストリームを介して提供され得るそのようなグローバルペイロードパケットを含むことができる。
【0606】
別の任意選択の特徴として、オーディオデコーダ1400は、例えば評価ユニット1440を使用して、1つ以上の現在のセルを識別するように構成され、オーディオデコーダ1400は、例えばレンダリングユニット1410を使用して、例えば1つ以上の識別された現在のセルに関連付けられた複数のデータ構造、例えば1430からの1つ以上のデータ構造を使用して、空間レンダリングを実行するように構成される。
【0607】
別の任意選択の特徴として、オーディオデコーダ1400は、例えば評価ユニット1440を使用して、1つ以上の現在のセルを識別するように構成され、オーディオデコーダ1400は、例えばレンダリングユニット1410を使用して、1つ以上の識別された現在のセルに関連付けられた1つ以上のシーンオブジェクト及び/又はシーン特性を使用して、空間レンダリングを実行するように構成される。一例として、データオブジェクトのセットを1つ又は複数の現在のセルに関連付けることができ、データ構造は、例えば、音響的に関連するオブジェクト及び/又はレンダリングされるシーンの特性を定義するメタデータを含む。
【0608】
別の任意選択の特徴として、オーディオデコーダ1400は、例えば評価ユニット1440を使用して、セル情報に応じて空間レンダリングにおいて考慮されるシーンオブジェクト及び/又はシーン特性を選択するように構成される。
【0609】
別の任意選択の特徴として、オーディオデコーダ1400は、例えば評価ユニット1440を使用して、現在のポジションがどの1つ以上の空間セル内にあるかを決定するように構成され、オーディオデコーダは、例えばレンダリングユニット1410を使用して、1つ以上の識別された現在セルに関連する1つ以上のシーンオブジェクト及び/又はシーン特性を使用して空間レンダリングを実行するように構成される。
【0610】
任意選択で示されるように、デコーダ1400は、追加情報1408を受信するように構成され得る。追加情報は、現在のポジションに関する情報を含むことができる。任意選択で、デコーダ1400は、代替的に、例えば音響シーンなどのレンダリングシナリオが内部的に、例えば専用の入力を受信することなくレンダリングされる、例えばリスナー又はユーザの現在のポジションに関する情報を推定又は決定するように構成されてもよい。
【0611】
別の任意選択の特徴として、オーディオデコーダ1400は、セルのセル定義に含まれるペイロード識別子の列挙に基づいて、1つ以上の現在のセルに関連付けられた1つ以上のペイロード、例えばシーンオブジェクト及び/又はシーン特性を記述するペイロードを決定するように構成され、オーディオデコーダ1400は、決定された1つ以上のペイロードを使用して、例えばレンダリングユニット1410を使用して空間レンダリングを実行するように構成される。
【0612】
任意選択で、ペイロードは、ペイロードパケットとして提供されてもよく、その結果、パケット1404は、任意選択でペイロードパケットを含んでもよい。一例として、ペイロードパケットのペイロードはメタデータと関連付けられてもよく、又はメタデータを定義してもよく、その情報はデータ構造1430によって表されてもよい。
【0613】
別の任意選択の特徴として、オーディオデコーダは、例えば、レンダリングユニット1410を用いて、1つ以上の現在のセルに関連付けられた1つ以上のシーン更新パケットからの情報を用いて、空間レンダリングを行うように構成されている。したがって、パケット1404は更に、シーン更新パケットを備え得る。
【0614】
別の任意選択の特徴として、オーディオデコーダ1400は、所与のセルがアクティブになるという発見に応答して、所与のセルに関連付けられた1つ以上のシーン更新パケットからの情報を使用して、レンダリングシーン、例えばレンダリングされるオーディオシナリオを更新するように構成される。一例として、セルは、その関連するメタデータ情報及び/又は関連するデータ構造が音響的に著しく関連するときにアクティブになることができ、これは、リスナーの空間ロケーションがセル内又はセル内にある場合であり得る。
【0615】
別の任意選択の特徴として、セル情報は、レンダリングのための、例えばデータ構造1430を記述し、あるいは備え、あるいはそれである、シーンメタデータの更新を定義するシーン更新パケットの参照、及び/又はシーン更新パケットへの参照を含み、オーディオデコーダ1400は、所与のシーン更新パケットへのリンクを含むセルがアクティブになったという検出に応答して、前記所与のシーン更新パケットにおいて定義された前記シーンメタデータの前記更新を選択的に実行するように構成されている。
【0616】
言い換えれば、一例として、評価ユニット1440は、例えば、ユーザがセルのジオメトリ境界内のレンダリングされたオーディオシーン内に空間的に位置しているために、セルがアクティブであると判定することができ、したがって、アクティブセルに対応するセル情報によって参照される更新パケットに基づいて、アクティブセルに関連付けられたシーンメタデータの更新を実行することができる。
【0617】
別の任意選択の特徴として、1つ以上のシーン更新パケットは1つ以上の更新条件の表現を含み、オーディオデコーダは、例えば評価ユニット1440を用いて、1つ以上の更新条件が満たされているかどうかを評価し、1つ以上の更新条件が満たされている場合、1つ以上のシーン更新パケットのコンテンツに応じて、1つ以上のシーンメタデータ、例えばデータ構造1430を選択的に更新するように構成される。
【0618】
別の任意選択の特徴として、オーディオデコーダ1400は、例えば、データ構造1430のような1つ以上のシーンメタデータが、例えば、パケット1404に含まれ得る1つ以上のシーン更新パケットのコンテンツに応じて更新されるべきかどうか決定するために、例えば、評価ユニット1440を用いて、シーン更新パケットに含まれている時間条件を評価するように構成される。
【0619】
時間条件は、任意選択で開始時刻を定義する、又は時間条件は、任意選択で時間間隔を定義する。
【0620】
オーディオデコーダ1400は、例えば、現在の再生時間が開始時刻に到達した、又は開始時刻の後にあるという検出に応答して、例えばデータ構造1430などの、1つ以上のシーンメタデータの更新を行うように構成される。
【0621】
あるいは、オーディオデコーダ1400は、任意選択で、現在の再生時間が時間間隔内にあるという検出に応答して、例えばデータ構造1430などの1つ以上のシーンメタデータの更新を行うように構成される。
【0622】
代替的又は追加的に、オーディオデコーダは任意選択で、例えば評価ユニット1440を用いて、1つ以上のシーン更新パケットのコンテンツに応じて1つ以上のシーンメタデータを更新すべきかどうか決定するために、シーン更新パケットに含まれる空間条件を評価するように構成され得る。
【0623】
別の任意選択の特徴として、例えばパケット1404に含まれるシーン更新パケット内の空間条件は、ジオメトリ要素を定義し、オーディオデコーダ1400は、現在のポジションがジオメトリ要素に到達したという検出に応答して、又は現在のポジションがジオメトリ要素内にあるという検出に応答して、例えばデータ構造1430を少なくとも部分的に使用して表される、1つ以上のシーンメタデータの更新を行うように構成される。
【0624】
別の任意選択の特徴として、オーディオデコーダ1400は、例えば評価ユニット1440を使用して、対話型トリガ条件が満たされているかどうかを評価して、例えば記述データ構造1430などの1つ以上のシーンメタデータが、例えばパケット1404に含まれる、1つ以上のシーン更新パケットのコンテンツに応じて更新されるべきかどうかを決定するように構成される。
【0625】
別の任意選択の特徴として、オーディオデコーダ1400は、どのデータ構造がどの時間及び/又はリスナーポジションのどのエリアで必要とされるかを決定するために、例えば評価ユニット1440を使用してセル情報を評価するように構成される。
【0626】
別の任意選択の特徴として、オーディオデコーダ1400は、リスナー位置が第1の空間領域内にあるとき、例えばレンダリングユニット1410を用いて、第1のセットのシーンオブジェクト及び/又はシーン特性を使用して、1つ以上のオーディオ信号を空間的にレンダリングするように構成されており、前記オーディオデコーダは、リスナーポジションが第2の空間領域内にあるときに、第2のセットのシーンオブジェクト及び/又はシーン特性を使用して、前記1つ以上のオーディオ信号を空間的にレンダリングするように構成されている。
【0627】
第1のセットのシーンオブジェクト及び/又はシーン特性は、任意選択で、第2のセットのシーンオブジェクト及び/又はシーン特性と比較して、より詳細な空間レンダリングを提供する。
【0628】
データ構造1430は、シーンオブジェクト及び/又はシーン特性に関する情報を含むか、記述するか、又は表すことができ、シーンに対するそれらの音響的影響に関する異なる詳細レベルを有するそのような情報を含むか、記述するか、又は表すことができる。例えば、特定のシーンオブジェクトからのリスナーポジションの空間距離及び/又はシーン特性に基づいて、レンダリングのためにその異なる詳細レベルを考慮することができる。
【0629】
別の任意選択の特徴として、オーディオデコーダ1400は、パケットプロバイダから1つ以上のシーンペイロードパケットを要求するように構成される。したがって、エンコーダ1400は、任意選択の特徴として、要求1401を提供するための要求ユニット1460を備える。
【0630】
別の任意選択の特徴として、オーディオデコーダ1400は、例えば評価ユニット1440を使用して、セル情報に含まれるペイロード識別子を使用して空間レンダリングに使用される1つ以上のデータ構造を識別するように構成される。
【0631】
別の任意選択の特徴として、オーディオデコーダ1400は、例えば要求ユニット1460を使用して、パケットプロバイダ、例えば実施形態によるエンコーダからの1つ以上のシーンペイロードパケットを要求するように構成される。
【0632】
別の任意選択の特徴として、オーディオデコーダ1400は、例えば要求ユニット1460を使用して、セル情報に含まれるペイロードIDを使用してパケットプロバイダからの1つ以上のシーンペイロードパケットを要求するように構成されるか、又はオーディオデコーダは、例えば要求ユニット1460を使用して、パケットIDを使用してパケットプロバイダから1つ以上のシーンペイロードパケットを要求するように構成される。任意選択で、それぞれのペイロードID及び/又はパケットIDは、評価ユニット1440によって決定され、要求ユニット1460に提供されてもよい。
【0633】
別の任意選択の特徴として、オーディオデコーダ1400は、例えば、任意選択で示された予期ユニット1470を使用して、セル情報を使用して、例えば、評価ユニット1440のセル情報の評価結果を使用して、どの1つ以上のデータ構造が必要とされるか、又は必要とされると予想されるかを予期し、データ構造が実際に必要とされる前に、例えば、要求ユニット1460を使用して要求1401を送信することによって、1つ以上のデータ構造、又は当該1つ以上のデータ構造を含む1つ以上のシーンペイロードパケットを要求するように構成される。
【0634】
別の任意選択の特徴として、オーディオデコーダ1400は、ビットストリームからセル情報によって識別されるペイロードを抽出するように構成される。したがって、デコーダ1400は、任意選択で、例えば
図2に示すような抽出ユニットを備えてもよく、抽出ユニットは、セル情報の評価結果に基づいて、評価ユニット1440から抽出命令を提供されてもよい。
【0635】
別の任意選択の特徴として、オーディオデコーダ1400は、例えば評価ユニット1440の評価結果に基づいて、セル情報を使用して必要なデータ構造を追跡するように構成される。
【0636】
別の任意選択の特徴として、オーディオデコーダ1400は、セル情報に応じて、1つ以上のデータ構造1430を選択的に破棄するように構成される。一例として、複数のデータ構造のうちの破棄されたデータ構造は、レンダリングのために考慮されなくてもよく、又は例えばデコーダ1400のメモリ内で削除されてもよい。
【0637】
別の任意選択の特徴として、セル情報は、レンダリングシーン(オーディオシーン、レンダリングシナリオ)のロケーションベース及び/又は時間ベースの細分割を定義する。
【0638】
別の任意選択の特徴として、オーディオデコーダ1400は、シーン構成データ構造に基づいて、例えば評価ユニット1440を用いたその評価に基づいて、セルの定義を取得するように構成される。
【0639】
別の任意選択の特徴として、オーディオデコーダ1400は、例えば要求ユニット1460を使用して、1つ以上のデータ構造を要求するように構成され、オーディオデコーダ1400は、例えば評価ユニット1440を使用して、セル情報を使用して要求されるデータ構造のデータ構造識別子を導出するように構成される。
【0640】
別の任意選択の特徴として、オーディオデコーダ1400は、例えば、予期ユニット1470を使用して、どの1つ以上のデータ構造が必要とされるか、又は必要とされると予想されるかを予期し、データ構造が実際に必要とされる前に、例えば要求ユニット1460を使用して、1つ以上のデータ構造を要求するように構成される。
【0641】
別の任意選択の特徴として、オーディオデコーダ1400は、例えば評価ユニット1440を使用して、それぞれのデータ構造識別子を使用して1つ以上のデータ構造を抽出するように構成され、オーディオデコーダ1400は、セル情報を使用して抽出されるデータ構造のデータ構造識別子を導出するように構成される。
【0642】
別の任意選択の特徴として、オーディオデコーダ1400は、例えば評価ユニット1440を使用して、ペイロードパケットからレンダリングに必要なメタデータを抽出するように構成される。したがって、パケット1404は、任意選択で、そのようなペイロードパケットを含むことができる。しかしながら、デコーダ1400は、例えばブロードキャスト及び/又はユニキャストチャネルから複数のビットストリームを受信するように構成されてもよいことに留意されたい。以下、
図15を参照する。簡潔にするために、かつ先に説明したように、本発明による実施形態は、
図14に示すデコーダによる対応する特徴を有するエンコーダを備えることに留意されたい。したがって、エンコーダは、
図14のデコーダ1400によって受信されるような任意選択ではない信号を提供し、復号化オーディオ表現1406を提供するためにこれを処理するために必要な特徴のみを備えることができ、任意選択の特徴はない。しかしながら、上記で開示された任意選択の特徴、機能、及び詳細のいずれも、個別に又は組み合わせて、実施形態によるエンコーダに対応して存在し得る。同じことが、本発明の他の態様のデコーダ及び/又はエンコーダの特徴、機能及び詳細にも当てはまる。
【0643】
図15は、本発明の第4の態様の実施形態によるエンコーダの概略図を示す。エンコーダ1500は、ビットストリーム1502を提供するように構成され、ビットストリームは、例えば、符号化オーディオ表現を含むことができる。具体的には、エンコーダ1500は、ビットストリーム1502に含まれる1つ以上のオーディオ信号の空間レンダリングのための情報を提供するように構成される。したがって、ビットストリーム1502は、異なるパケットタイプの複数のパケット1522を含む。
【0644】
ビットストリーム1502、したがって上記の情報エンティティを提供するために、エンコーダ1500は、任意選択でパケット1522が提供されるビットストリームプロバイダ1510を備える。
【0645】
図示されるように、エンコーダ1500は、パケット1522を提供するためのパケット提供ユニット1520を備え得る。パケット1522は、レンダラ構成情報を提供するシーン構成パケットを含む。更に、シーン構成パケットは、1つ以上のセルを定義するセル情報を含み、セル情報は、1つ以上のセルと、1つ以上のセルに関連付けられ、レンダリングシナリオを定義するそれぞれの1つ以上のデータ構造との間の関連付けを定義する。
【0646】
一例として、符号化されるオーディオ信号1504がエンコーダ1500に提供されてもよい。オーディオ信号は、例えば音声信号及び/又は音楽信号の時間領域サンプル及び/又はスペクトル値を含むことができる。任意選択で(図示せず)、この信号が既に符号化されている場合、この信号は、例えばパケット1522と共にビットストリームに含まれるように、ビットストリームプロバイダ1510に直接提供されてもよい。
【0647】
パケット1522は、パケット提供ユニットによって異なる方法で提供されてもよい。例えば、パケット提供ユニット1520は、音響シーンを規定し、予め定義されていてもよいし、パケット提供ユニットにより取得されてもよいシーン情報に基づいて、パケット1522を提供してもよい。
【0648】
例えば、仮想現実アプリケーションの場合、(例えば音響シーンの)仮想モデルに基づいて、パケットを使用して音響シーン(例えば、音響的に関連する仮想オブジェクト及びオーディオ信号を有する仮想モデルを含む音響シーン)をモデル化又は表現するために、音響的に関連する仮想オブジェクトを決定することができる。任意選択で、(任意選択の)解析ユニット1530は、音響的に関連する仮想オブジェクト、又はその特性(例えば、オーディオ信号の特性を使用して、例えば音源のポジションに関する情報を提供することによって、音響シーンの仮想モデルを補足及び/又は改良することができる)の決定をサポートすることができる。
【0649】
そこで、それぞれのパケット1522の決定をサポートする情報を、任意選択の解析ユニット1530からパケット提供ユニット1520に提供するようにしてもよい。例えば、パケット提供ユニット1520は、仮想モデルを管理してもよいし、仮想モデルに関する情報を提供されてもよい。
【0650】
別の例として、拡張現実アプリケーションの文脈では、符号化されるオーディオ信号1504は、エンコーダ1500に提供されてもよく、例えば音声信号及び/又は音楽信号の時間領域サンプル及び/又はスペクトル値を含んでもよい。しかしながら、任意選択で、オーディオ信号1504は、拡張される現実のオーディオシーンの空間情報(例えば、暗黙の形式で)、例えば、シーン内の、例えば発話しているユーザの測定されたオーディオソースのポジション情報を更に含む(又は運ぶ)ことができる。そのような情報、及び任意選択で追加の仮想オーバーレイ情報(例えば、現実のシーンを拡張するために、音響的に関連する仮想オブジェクトを現実のシーンに追加するための情報)は、パケットを使用してシーンをモデル化又は表現するために、任意選択の解析ユニット1530によって抽出及び/又は解析及び/又は適用することができる。そこで、前述したように、各パケット1522を決定するための情報をパケット提供ユニット1520に提供するようにしてもよい。一例として、解析ユニット1530は、オーディオ信号1504内の空間情報に基づいて、所望の聴覚体験を提供するために、シーンのどの音響的に関連するオブジェクトが考慮又は更新又はレンダリングされるべきかを決定することができる。
【0651】
しかしながら、エンコーダ1500は、例えば、パケット1522に関する情報が外部ユニット、例えば、仮想又は拡張シーンを管理するユニットからエンコーダ1500に提供され得るように、任意選択で解析ユニットを備えなくてもよいことに留意されたい。
【0652】
上記の例を更に説明するために、オーディオ信号1504は、空間オーディオシーンからのオーディオ信号であってもよく、任意選択で、オーディオシーンに関する空間情報を更に含んでもよい。したがって、任意選択で、エンコーダ1500は解析ユニット1530を備えてもよい。解析ユニット1530は、オーディオシーンの表現を決定又は近似するために、オーディオシーンから提供される情報を解析するように構成されてもよい。一例として、オーディオシーンは、オーディオ信号のスペクトル係数と共に使用されてリスナーにオーディオシーンの没入表現を提供することができる、シーンオブジェクト及び/又はシーン特性を記述するメタデータ及び/又はデータ構造(例えば、メタデータを含むか、メタデータであるデータ構造)を使用して表すことができる。
【0653】
メタデータは、(例えば、仮想現実アプリケーションの場合)例えば、オーディオシーンのデジタルモデル及び/又はオーディオ信号が記録された実際のシーンの解析(例えば、拡張現実アプリケーションの事例について)に基づいてもよいことに留意されたい。
【0654】
これに基づいて、一例として、対応するシーン構成パケット、シーン更新パケット、及びシーンペイロードパケットが、例えば、決定され、提供されることができる。
【0655】
したがって、一例として、パケット提供ユニット1520は、例えば、パケット1522の一部であり得るレンダリングされる(例えば、任意選択で、MPEGH3DAFRAME等のパケット)1つ以上のオーディオチャネルを表すパケットの形態で、オーディオ信号の当該スペクトル情報を含むパケットを更に提供することができる。
【0656】
別の任意選択の特徴として、エンコーダ1500は、セル情報ユニット1540を備え、これは、1つ以上のセルとそれぞれの1つ以上のデータ構造との間の関連付けに関する情報を定義又は決定し、これをパケット提供ユニット1520に提供するように構成される。任意選択で示されるように、そのような関連付けは、解析ユニット1530を使用して、オーディオ信号1504の解析に基づいて実行されてもよい。しかしながら、そのような情報は、任意選択でエンコーダ1500に提供されてもよい。
【0657】
任意選択で、オーディオ信号1504は、パケット提供ユニット1520及び/又はビットストリームプロバイダ1510に直接提供されてもよい。一例として、オーディオ信号1504は、ビットストリームプロバイダ1510において符号化されるために、これらのパケットがパケット提供ユニット1522においてのみ抽出され得るように、定義されたパケット1522を既に含んでもよい。オーディオ信号情報は、例えばメタデータ情報とは別に、例えば、パケットの形態で、又はオーディオ信号1504に直接基づいてビットストリームプロバイダ1510に提供されてもよい。
【0658】
更に、解析ユニット1530はまた、例えば音響信号自体のみを表すオーディオ信号1504を用いて、仮想音響シーンを決定又は近似してもよく、シーンの更なる空間特性は、仮想音響シーン内の周囲の仮想モデルに基づいてもよく、例えば仮想周囲内のユーザのポジションに基づいてもよいことに留意されたい。例えば、仮想会議室では、仮想壁の反射特性、又は仮想カーペットの減衰特性は、例えば実際の測定に基づかずに、例えばリスナーのポジションに関する壁又はカーペットの仮想音響モデルに基づいて、メタデータとして組み込むことができる。
【0659】
ここでも、オーディオエンコーダ1500は、本明細書に開示されているオーディオデコーダ及び/又はエンコーダのいずれに関しても、本明細書に開示されているパケットのいずれかを、個別に、及び組み合わせて任意選択で提供することができることに留意されたい。更に、セル情報は、例えば、オーディオデコーダに関しても、個別に、及び組み合わせて、本明細書に開示された特性のいずれかを含むことができる。
【0660】
任意選択の特徴として、装置1500は、シーン構成パケットの提供を周期的に繰り返すように、及び/又は要求に応じて1つ以上のシーンペイロードパケットを提供するように構成される。
【0661】
したがって、エンコーダ1500は、任意選択で、要求1508を受信するように構成された要求ユニット1550を備える。したがって、要求ユニット1550は、シーンペイロードパケットを含むパケット1522を提供するようにパケット提供ユニット1520に命令することができ、任意選択で示されるように、ビットストリームプロバイダ1510は、それをビットストリーム1502に符号化する。前述したように、エンコーダ1500はまた、複数のビットストリーム、例えば、ブロードキャスト及びユニキャストビストリームを提供するように構成されてもよく、グローバルヘッダデータは、ブロードキャストビットストリームにおいて繰り返されてもよく、要求されたデータ構造、ペイロードパケット、メタデータ、又はレンダリングに個別に必要とされる任意の情報エンティティは、ユニキャストビットストリームを介して提供されてもよい。
【0662】
別の任意選択の特徴として、装置1500は、例えばパケット提供ユニット1520を使用して、セル情報において参照される1つ以上のデータ構造を含む1つ以上のシーンペイロードパケットを提供するように構成される。
【0663】
別の任意選択の特徴として、装置1500は、シーンペイロードパケットに含まれるデータ構造がセル情報に従ってオーディオデコーダによって必要とされるときを考慮に入れて、シーンペイロードパケットを提供するように構成される。
【0664】
別の任意選択の特徴として、オーディオエンコーダ1500は、例えば場合により追加の入力信号としてエンコーダ1500に提供されるか、又はオーディオ信号に基づいてエンコーダによって暗黙的に決定されるリスナーポジションが第1の空間領域(例えば、解析ユニット1530によって決定されるように)内にあるとき、シーンのレンダリングのための第1のセットのシーンオブジェクト及び/又はシーン特性を定義する第1のセル情報を提供するように構成され、オーディオエンコーダは、リスナーポジションが第2の空間領域内にあるとき、シーンのレンダリングのための第2のセットのシーンオブジェクト及び/又はシーン特性を定義する第2のセル情報を提供するように構成される。更に、第1のセットのシーンオブジェクト及び/又はシーン特性は、第2のセットのシーンオブジェクト及び/又はシーン特性と比較して、より詳細な空間レンダリングを提供する。
【0665】
別の任意選択の特徴として、装置1500は、異なる詳細レベルで空間レンダリングを制御するために異なるセル定義を使用するように構成される。
【0666】
図16は、本発明の第4の態様の実施形態による、符号化オーディオ表現に基づいて復号化オーディオ表現を提供するための方法の概略ブロック図である。方法1600は、1つ以上のオーディオ信号を空間的にレンダリングすること1610と、レンダラ構成情報を提供するシーン構成パケットを受信すること1620とを含み、シーン構成パケットは、1つ以上のセルを定義するセル情報を含み、セル情報は、1つ以上のセルと、1つ以上のセルに関連付けられ、レンダリングシナリオを定義するそれぞれの1つ以上のデータ構造との間の関連付けを定義する。更に、本方法は、空間レンダリングにどのデータ構造を使用すべきかを決定するために、セル情報を評価すること1630を含む。
【0667】
図17は、本発明の第4の態様の実施形態による、符号化オーディオ表現を提供するための方法の概略ブロック図である。方法1700は、1つ以上のオーディオ信号の空間レンダリングのための情報を提供すること1710と、異なるパケットタイプの複数のパケットを提供し、シーン更新パケットを提供すること1720と、レンダラ構成情報を提供するシーン構成パケットを提供すること1730とを含み、前記シーン構成パケットは1つ以上のセルを定義するセル情報を含み、前記セル情報は、前記1つ以上のセルと、前記1つ以上のセルに関連付けられ、レンダリングシナリオを定義するそれぞれの1つ以上のデータ構造との間の関連付けを定義する。
【0668】
以下、
図15を参照する。
図15のビットストリーム1502は、オーディオコンテンツを表している。本発明による実施形態は、上述のビットストリームなどのビットストリームを含む。要約すると、そのようなビットストリームは、レンダラ構成情報を提供するシーン構成パケットを提供する異なるパケットタイプの複数のパケットを含み、前記シーン構成パケットは1つ以上のセルを定義するセル情報を含み、前記セル情報は、前記1つ以上のセルと、前記1つ以上のセルに関連付けられ、レンダリングシナリオを定義するそれぞれの1つ以上のデータ構造との間の関連付けを定義する。
【0669】
ここでも、本発明による実施形態は、4つの本発明の態様に分けて説明されていることに留意されたい。本発明のそのような細分割は、本発明の趣旨の理解を容易にし、冗長性を制限するのに役立つことに留意されたい。したがって、本発明の任意選択の態様による実施形態の任意の機能、特徴及び/又は詳細を、本発明の同じ又は別の態様の任意の他の実施形態に組み合わせて又は個別に組み込むことができることを強調すべきである。同じ趣旨で、エンコーダの特徴、機能、及び詳細は、本発明のデコーダに対して交換可能に使用されてもよく、その逆も同様であることに留意されたい。同じことが、本発明のビットストリーム及び方法の詳細に適用される。
【0670】
更に、本発明による実施形態は、デコーダ及び/又はレンダラを含むことに留意されたい。実施形態によるデコーダは、レンダラの機能を含むことができるが、実施形態は、これらの2つの機能が異なるエンティティにおいて実現されるアーキテクチャを含むことができる。上記の説明では、デコーダがレンダラと交換可能に使用される、例えばそのような機能を更に提供するいくつかの実施形態について説明した。しかしながら、これは一例として理解されるべきであることに留意されたい。上記で1つのエンティティにおいて説明された機能、例えばデコーダのレンダリングユニットは、レンダリングユニットを備える例として、レンダラを用いて2つの別個のエンティティ、すなわちデコーダ及びレンダラに分割されてもよい。したがって、入出力信号を分割することができる。
【0671】
以下では、本発明の更なる実施形態が開示される。以下の実施形態は、例えば3つのパケットタイプを使用して、例えば更新条件を伴うシーン更新パケットを使用して、例えばタイムスタンプを使用して、例えばセル情報を使用して、動的VR/ARオーディオビットストリームの文脈又はそのために使用され得る。
【0672】
備考:
以下では、「概要」、「新しい手法」の章及び「発明を実施するための形態」の章、並びに「応用例」の章及び「本発明の態様」の章に、異なる発明の実施形態及び態様を説明する。更に、更なる任意選択の詳細が付録に記載されている。
【0673】
また、更なる実施形態は、添付の特許請求の範囲によって定義される。
【0674】
特許請求の範囲によって定義される任意の実施形態は、上記の章及び説明の残りに記載された詳細(特徴及び機能)のいずれかによって任意選択で補足することができることに留意されたい。
【0675】
また、上記の章に記載された実施形態は、任意選択で個別に使用することができ、別の章の特徴のいずれかによって、又は特許請求の範囲に含まれる任意の特徴によって、又は本明細書の残りの部分に開示されているような任意の特徴によって補足することもできる。
【0676】
また、本明細書に記載の個々の態様は、個別に又は組み合わせて使用することができることに留意されたい。したがって、詳細は、当該態様の別の1つに詳細を追加することなく、当該個々の態様のそれぞれに追加することができる。
【0677】
更に、方法に関連して本明細書で開示される特徴及び機能は、任意選択で、(そのような機能を実行するように構成された)装置で使用することもできる。更に、装置に関して本明細書に開示された任意の特徴及び機能を、任意選択で、対応する方法で使用することもできる。言い換えれば、本明細書に開示された方法は、装置に関して説明された特徴及び機能のいずれかによって任意選択で、補足することができる。
【0678】
また、本明細書で説明される特徴及び機能のいずれも、「実装の代替手段」のセクションで説明されるように、ハードウェア若しくはソフトウェアで、又はハードウェアとソフトウェアの組み合わせを使用して実装することができる。
【0679】
更に、オーディオビットストリーム[又は、同等に、符号化オーディオ表現]は、個別に、及び組み合わせて、本明細書に開示された特徴、機能、及び詳細のいずれかによって任意選択で補足されてもよいことに留意されたい。
【0680】
更に、前述したように、デコーダの文脈で開示される実施形態は、個別に又は組み合わせて、対応するエンコーダの対応する特徴、機能及び詳細を含むことができ、その逆も可能であることに留意されたい。
【0681】
更に、一般に、本発明による実施形態は、1つ以上のペイロードを含むペイロードパケットを含むことができ、ペイロードパケット及びペイロードはデータ構造の例であり得る。データ構造は、他のタイプのパケットであってもよい。
【0682】
ペイロード情報は、メタデータ、例えば、音響的に関連するジオメトリ、パラメトリックレンダリング命令、及びオーディオ要素に関する情報など、対応するオーディオストリームのタイムラインに直接関連しないオーディオシーンの情報を含むことができる。
【0683】
一例として、メタデータは、音響的に関連するオブジェクト及び/又は特性に関する情報を含んでもよく、又は音響的に関連するオブジェクト及び/又は特性に関する情報であってもよい。
【0684】
したがって、ペイロードパケット及びそれぞれペイロードは、シーンオブジェクトのうちの1つ以上の定義及び/又はシーン特性のうちの1つ以上の定義、したがってメタデータの定義を含むことができる。
【0685】
1.概要
本発明の一態様は、例えば、ビットストリームパケットの送信が、例えば現場でのスタンドアロンレンダリング、ストリーミング、ブロードキャスト、又はクライアント-サーバ方式などのアプリケーションのユースケースに柔軟に適合され得るような、例えば6自由度(6DoF)のオーディオアプリケーションのためのビットストリーム設計に関する。
【0686】
本発明の他の態様も本明細書に開示される。
【0687】
2.従来の解決策及びその欠点
従来の解決策は、MPEG-HなどのMPEGオーディオコーデックに見られるビットストリーム設計である。そのようなビットストリームでは、データパケットは、例えば、主に送信側(「エンコーダ」)からデコーダ/レンダラに送信される。レンダラサイトでは、ユーザの対話性は、オーディオコンテンツをレンダリングするために静的な方法で使用される追加のパケットを生成することができる。例は、カスタマイズされたオーディオミックスのヘッドトラッキングデータ又はレベル値である。
【0688】
6自由度(6DoF)オーディオアプリケーションは、VR/ARオーディオアプリケーションにおいて動的対話性を必要とするときがあることが分かっている。6DoFメタデータを送信することは、これが効率的であることを考慮すべき(又は考慮しなければならない)ことが分かっている。
【0689】
事前のバルクデータとして送信側から受信側/レンダラに必要なすべてのメタデータを事前に送信することは、簡単で容易な操作方法であるが、実際のレンダリングを開始できる前に膨大なデータレートピーク及びいくらかの送信遅延を伴うことが分かっている。
【0690】
特定の用途では、この単純な解決策は、例えば、レンダリング開始の初期時点でシーンの更なる展開が未知である場合には不可能でさえあることが分かっている。
【0691】
一態様によれば、本発明による実施形態は、そのようなシナリオ及び用途で使用することができる。
【0692】
しかしながら、別の態様によれば、本発明の実施形態は、異なるシナリオ及び用途で使用することもできる。
【0693】
3.新しい手法
一態様によれば、本発明のビットストリームの概念は、例えば、6自由度(6DoF)のオーディオアプリケーションに固有の増加したレベルの対話性、及び、例えば、特にVR/ARオーディオアプリケーションにおける大規模な動的対話性を考慮し、例えば、必要なレンダリングメタデータは、ユーザのローカルポジション、ユーザの対話(例えば、仮想ボタンを押すことなど)、及び/又は仮想シーンのタイムラインに強く依存する。したがって、一態様によれば、例えば、ビットストリームパケットの送信が、例えば現場でのスタンドアロンレンダリング、ストリーミング、ブロードキャスト、又はクライアント-サーバ方式などのアプリケーションのユースケースに柔軟に適合され得るように、ビットストリームを柔軟な方法で設計することが有益である。
〔発明を実施するための形態〕
【0694】
4.1.パケットタイプ
本発明の一態様によれば、本発明のビットストリームは、MHASの拡張、すなわちMPEG-Hオーディオストリームである。既存のMHASパケットタイプに加えて、例えば、複雑で動的な6DoFオーディオシーンのためのメタデータを格納及び送信することを可能にする3つの新しいパケットタイプが指定される。
【0695】
Scene Config
Scene Configパケットは、例えば、MPEG-Iビットストリームの「ヘッダ」であり、例えば、ランダムアクセス用のビットストリームにおいて周期的に繰り返すことができる。これは、例えば、レンダラがそれ自体を構成するためのすべての関連情報を提供する。特に、それは、例えば、空間及び時間内の任意の所与のポイントでどのScene Payloadパケットが必要とされるか、及び(任意選択で)それらが取り出され得る命令を含み得る。
【0696】
Scene Update
シーン更新(すなわち、再生中に発生するシーンメタデータへの変更)は、例えば、Scene Updateパケットを使用して通信することができる。それは、例えば、更新が実行される条件(例えば、時間ベースのトリガ、及び/又はロケーションベースのトリガ、及び/又は対話型トリガ)及びシーンに加えられた変更を指定することを可能にする。
【0697】
Scene Payload
Scene Payloadパケットは、例えば、ビットストリーム内のすべてのバルクメタデータのコンテナである。
【0698】
バルクメタデータは、例えば、オーディオストリームのタイムラインに直接関連付けることはできないが、例えば、(音響的に関連する)ジオメトリ、パラメトリックレンダリング命令、及びオーディオ要素メタデータを含む複雑で動的な6DoFオーディオシーンのレンダリングに必要とされる(又は有用である)すべてのメタデータである。パケットは、例えば、指向性、ジオメトリ、及び残響、初期反射又は回折などの個々のオーディオエフェクトのための特別なメタデータを含むことができる。
【0699】
シーンペイロードパケットへのペイロードの分配は、例えば、メタデータがレンダラによって必要とされるとき及び場所、どのメタデータがレンダリングに必須であるか、並びにパケットの最大サイズなどを考慮に入れて、エンコーダによって編成することができる。
【0700】
更に、個々のモジュールの(任意選択の)「詳細レベル」概念は、ブロードキャストシナリオでより長い期間にわたってより大きなペイロード(例えば、ジオメトリ)を拡散することを可能にする。(任意選択の)サーバクライアントシナリオでは、ペイロードは、例えば、別個のチャネルを介してロードすることができる。
【0701】
4.2.パケットシンタックス(詳細は任意選択)
【0702】
【0703】
【表2】
注記:
・ 持続時間によるエンコーダ入力フォーマット(EIF)の更新は、線形補間の特別な場合にすぎない(任意選択)
・ 任意選択のinterpolationTypeは、例えば、線形、サンプルホールド、立方体などであり得る
・ EIFからの任意選択の「ListenerProximityCondition」は、例えば、空間条件として表現される
・ 例えば、空間条件と時間条件の組み合わせはすべてをカバーする
・ 任意選択:時間条件は、後の段階で時間範囲に更新することができる
・ 更新は、例えば、単に修正されたエンティティ及び新しい値を含むように構成することができるため、パラメータインジケータは、任意選択で完全に除去することができる(例えば、CfP後)。
【0704】
【0705】
【0706】
【表5】
4.3.Payload、Cell、及びSubscene Decomposition(任意選択の態様及び実施例)
・ Scene Payloadパケット(以下の「Payloadパケット」)は、例えば、オーディオストリームのタイムラインに直接関連付けることはできないが、例えば、(音響的に関連する)ジオメトリ、パラメトリックレンダリング命令、及びオーディオ要素メタデータを含む複雑で動的な6DoFオーディオシーンのレンダリングに必要とされる(又は有用である)、すべてのバルクメタデータのためのコンテナである。
【0707】
・ 最も単純なケースでは、シーンのバルクメタデータ全体は、例えば、シーン再生の開始前にデコーダに送信される単一のPayloadパケットに含まれることができる。これは、例えば、ファイルベースの送信のための好ましい方法であり、Payloadパケットは、例えば、ファイルの先頭に位置することができる。
【0708】
・ しかしながら、ストリーミングシナリオでは、例えば、バルクメタデータを複数のペイロードパケットに分割して、例えば、シーン再生を開始することができる前に大規模な送信を回避することが有益であり得る。
【0709】
・ メタデータは、例えば、(a)特定の時点で、又は(b)空間内の特定のロケーションで必要になる可能性がある。任意選択の「Cell」概念は、例えば、シーンをレンダリングするために特定のペイロードパケットがどの時間及び/又はロケーションに必要とされるかを指定する方法を提供する。
【0710】
・ 例えば、シーンのすべてのCellは、例えば、ランダムアクセスを可能にするために、ファイルの先頭に位置するか、又はMHASストリーム内で周期的に繰り返される、Scene Configパケット内で定義される。デコーダは、例えば、(場合によっては、又は場合によっては、しなければならない)、最初にScene Configパケットを構文解析して、例えば、シーン再生を開始することができる前にどのペイロードパケットが必要であるかを判定することができる。
【0711】
・ 例えば、位置ベースのCellがアクティブであるボリュームを指定するジオメトリは、「Cell境界」と呼ばれる。Cellは、例えば、リスナーがCell境界内にある場合にアクティブである。Cell境界は、例えば、任意のジオメトリとすることができるが、効率的な実装のためにはプリミティブなジオメトリ(軸整列境界ボックスなど)が好ましい。
【0712】
・ 任意選択で、0以上のグローバルに必要なペイロードのセットは、例えば、シーンの適切なレンダリングに常に必要とされるバルクメタデータ(例えば、セル境界を指定する幾何形状を含む)を含む。
【0713】
・ 例えば、レンダリングプロファイルに応じて、所与のCellに対して異なるペイロードが必要とされ得る。このようにして、例えば、単純化されたジオメトリを低複雑度プロファイルに提供することができる。
【0714】
・ この文書は、ペイロードパケットがデコーダにどのように到達するかを指定しない(又は必要としない)。複数の可能性が存在する(これは、例えば、本発明の実施形態と組み合わせて使用することができる):
a)任意選択の態様によれば、デコーダは、例えば、別個のチャネル(例えば、TCP/IPベース)から、IDによってペイロードパケットを要求することができる。この場合、例えば、デコーダは、含まれるメタデータがシーン再生に必要とされるときに利用可能であるようにペイロードパケットをフェッチする責任を担う。
【0715】
b)任意選択の態様によれば、ペイロードパケットは、例えば、ブロードキャストシナリオにおいて、MHASストリームとインタリーブされる。シーン開始後の後の時点で必要となるペイロードは、例えば、必要となる前にストリームに埋め込むことができる。しかしながら、ランダムアクセスが許容される場合、これは、例えば、規則的な間隔で必要なペイロードパケットの繰り返し送信を必要とする可能性があり、この方法は大量のバルクメタデータを有するシーンには適さない場合がある。
【0716】
c)任意選択の態様によれば、「パーソナル化」ユニキャストストリームにおいて、送信側は、例えば、ペイロードパケットが必要になる前にMHASストリームに埋め込まれていることを確認することができる。
【0717】
・(おそらく:任意選択の態様によれば、デコーダは、時間ベースのセル、並びにもはやアクティブではないロケーションベースのセルの終了タイムスタンプを観察することによって、どのペイロードが廃止されるかを追跡することができる)
・ 例えば、極端な場合には、Cellの概念的可能性を説明するために、各音響的に関連するジオメトリ及びオーディオ要素は、例えば、シーン内の知覚的関連性に基づいて、別個の、場合によっては重なり合うロケーションベースのCellを有する別個のPayloadパケットにパケット化することができる。例えば、このようにして、各ジオメトリは、ジオメトリ音響効果についてのみ考慮され、及び/又はすべてのオーディオ要素は、例えば現在のリスナーのポジションで実際に知覚的に関連する場合にのみアクティブである。
【0718】
・ 任意選択の態様によれば、この概念はまた、シーンの詳細レベル(LOD)分解のために利用することもできる。例えば、ジオメトリ構造から遠く離れている場合、構造の粗いジオメトリ表現で十分であり得る(例えば、少数の反射面を有する)が、同じ構造に近い場合、ジオメトリ構造の反射及びジオメトリ音響に関連する他の効果は、より高いLOD(例えば、多数の反射面を有する)でレンダリングされるべきである。これは、例えば、高LODジオメトリ表現を含む考慮されるジオメトリの近傍に対して1つのCellを指定し、低LODジオメトリ表現を含む残りのシーンに対して1つのCellを指定することによって達成することができる。
【0719】
・ 例えば、サブシーン分解(すなわち、知覚的に無関係である場合に特定の要素を非アクティブ化する)には2つの選択肢がある。
【0720】
a)シーンオブジェクト(例えば、オーディオ要素及びジオメトリ)のレンダリングは、それらが現在関連するペイロードパケット内にある場合にのみ行われるべきである。
【0721】
b)対応するシーン更新は、例えば、シーンオブジェクトを起動及び停止することを可能にする。このために、EIF仕様に加えて、ジオメトリは、例えば、「isActive」フラグを必要とし得る。
【0722】
・ 例えば、音響環境(例えば、後期残響のパラメトリック記述については)は、ロケーションベースのセルと一致し得るが、そうする必要はない。
【0723】
4.4.シーン更新パケットに関する注記(任意選択の態様及び実施例)
・ 連続値範囲を有する各パラメータについて、補間タイプを任意選択で指定することができる。補間タイプは、例えば、線形、サンプルホールド、立方体などとすることができ、対応する補間曲線は、例えば、所与の支点から構成される。
【0724】
4.5.Scene Configパケットに関する注意事項(任意選択の態様及び実施例、ペイロードは任意選択である)
・ sceneSize(任意選択)-シーン内のポジションのスケーリングを構成する。これにより、例えば、任意の座標の最高予想値がより小さい場合に、ポジションを符号化するのに必要なビット数を変更することができる。
【0725】
・ timeScale(任意選択)-レンダラのクロックソースに関するタイムスタンプの解釈を設定する。
【0726】
・ currentTime(任意選択)-所与のタイムスケールにおけるこのconfigのタイムスタンプ。ストリーミングシナリオでは、これを使用して新しい受信機の時間を設定することができる。
【0727】
・ numSceneObjects(任意選択)-例えば、すべてのサブシーンを含む、合計のシーンオブジェクト(例えば、オーディオ要素+アンカー/変換+ジオメトリ)の数。これは、例えば、シーンオブジェクトのID範囲を導出し、レンダラ内のリソースを事前に割り振るために使用することができる。
【0728】
・ globalPayloadId(任意選択)-レンダラを構成しシーンをレンダリングするためにグローバルに必要とされるアーティファクトを含むペイロードパケットのMHASパケットID。これは、例えば、セル境界を記述するためのジオメトリを含む。「なし」とすることもできる。
【0729】
・ オーディオストリーム(任意選択)-MPEG-I内部ストリームIDからソースへのマッピングであり、ソースは、例えば、(「ローカルに取り込まれたオーディオ」のための)物理PCM入力チャネル又はMPEG-H 3Dオーディオフレームチャネルの何らかの種類のアドレス指定のいずれかであり得る。任意選択の「isLocallyCaptured」分岐は、例えば、CfPチャネル構成に使用できる。チャネル番号は、例えば、HOAのための十分な空間を残すべきである。更に、オーディオストリームは、例えば(任意選択で)「動的再生」としてマークされることができる。この場合、動的再生トリガを遅延なく実行することができるように、例えば、オーディオコンテンツ全体が事前にロード及び復号されるべきである。また、各オーディオストリームのデータは、必要とされる可能性のある遅延補償に関する情報を任意選択で含んでもよい。
【0730】
・ セル(任意選択)-セルは、シーンのロケーション及び/又は時間ベースの細分割を可能にする。例えば、各セルは、(a)1つ以上のペイロードが必要になるボリュームを記述するIDによってジオメトリを参照し、及び/又は(b)ペイロードが必要になるタイムスタンプを参照する。更に、セルトリガが実行されたときに発生するはずのシーンに対するすべての修正をバンドルする、対応する任意選択のSceneUpdateのIDを任意選択で参照することができる。ロケーションベースのセルのジオメトリは、任意選択で重なり合うことができる。第4.3項も参照されたい。
【0731】
5.応用例(詳細は任意選択)
以下に、ビットストリームシンタックスの好ましい実施形態に基づく3つの例を示す。例は、本発明のMPEG-IメタデータビットストリームのMHASパケットがMPEG-Hオーディオストリーム(「MPEGH3DAFRAME」)を含むMHASパケットと組み合わされる3つの異なるユースケースに対処する。例えば、MPEG-Hオーディオストリームは、MPEG-Iメタデータを使用してMPEG-Iデコーダ/レンダラによってレンダリングされたオーディオ材料(チャネル、オブジェクト、及びHOA信号)を6DoFオーディオシーンに送信する。
【0732】
以下の実施形態では、ファイルベースのMHASストリーム(開示例、詳細は任意選択)に対処するものとして説明する。
【0733】
図18を参照する。
図18は、本発明の実施形態による第1のビットストリームの概略図を示す。ビットストリーム1800は、シーン構成パケット1810と、複数のシーンペイロードパケット1820、1830と、オーディオストリーム又はオーディオストリーム、例えばMPEG-Hオーディオストリームの一部を含む複数のパケット1840、1850とを含む。
図18に示すように、シーン構成パケット1810は、それぞれのデコーダ又はレンダラの状態及び/又は設定に関する情報1812と、どのシーンペイロードパケットがどのセルに必要であるかを示す(例えば、ペイロードパケット識別子を用いて)セル情報及びSphereカウント及びObjSrcカウントなどの情報を含む更なる情報1814とを任意選択で含むことができる。
【0734】
第1のシーンペイロードパケット1820は、一例として、ジオメトリに関する情報1822、アニメーション情報1824、及びオーディオ要素に関する情報1826を含む。第2のシーンペイロードパケット1830は、一例として、3つのジオメトリに関する情報1832、1834、1836と、材料情報1838とを含む。
【0735】
したがって、シーン構成パケット1810で指示されるように、セル1は、複数の音響的に関連する情報、例えば、インデックス12、3、4、及び5で識別されるようなジオメトリ情報、インデックス27で識別されるようなアニメーション情報、インデックス1で識別されるようなオーディオ要素情報、及びインデックス1で識別されるような材料情報に関連付けられ得る。したがって、オーディオシーンを正しくレンダリングするために、セル1がアクティブである場合、これらの要素に関する情報を含むペイロードパケット1820及び1830が必要とされ得る。例えば、オーディオデコーダは、それぞれのセルに関連付けられたペイロードパケット識別子を使用して、どのペイロードパケットが評価されるべきか(又はデータソースから取り出される及び/又は要求されるべきか)を判定することができる。
【0736】
別の任意選択の特徴として、ペイロードパケット1、1820は、ペイロードパケット1830のジオメトリ情報によって洗練され得る、セル要素のジオメトリの粗い記述を含むことができる。
【0737】
したがって、デコーダは、場合によっては(例えば、特定のセルがアクティブである場合)、洗練されたジオメトリ情報のみを使用することができる。例えば、セル1がアクティブであるとき、情報パケット1820及び1830の情報を使用することができるが、セル2がアクティブであるとき、デコーダはペイロードパケット1820の情報を使用するが、ペイロードパケット1830の情報を無視することができる。
【0738】
別の例として、ペイロードパケットは、例えば、情報1822、1832、1834、1836によって定義されるように、例えば、セルのジオメトリ、したがってセルのジオメトリ構造を定義することができる。
【0739】
ストリームアプリケーションでは、例えば、単一のストリームからデータを受信するか、又はファイルからデータを読み取る。例えば、MPEG-Iシーン構成パケット及びペイロードパケットが最初に送信され、続いていくつかのMPEG-Hオーディオストリームパケットが送信される。例えばconfigパケットに含まれる更新されたタイムスタンプに反映される周期的な間隔において、このパケットシーケンスは、MPEG-Iシーンへのランダムアクセス又は「同調」を可能にするために任意選択で繰り返されてもよい。このアプリケーションは、必要なすべてのデータを送信するため、例えばブロードキャストを可能にする。ダウンサイドとして、ブロードキャストビットストリームデータレートは、場合によっては、大きいペイロードパケットが周期的に送信及び反復されるため、かなり大きい。
【0740】
以下の実施形態では、ブロードキャストMHASストリーム(例えば、ペイロードパケットのためのクライアント-サーバチャネル)(例、詳細は任意選択)に対処することが論じられる。
【0741】
図19を参照する。
図19は、複数のシーン構成パケット1910、1920と、オーディオストリーム、例えばMPEG-Hオーディオストリームを含む複数のパケット1930、1940とを含む本発明のビットストリーム1900の概略図を示す。
【0742】
クライアント-サーバアプリケーションでは、例えば、小さいシーン構成パケット、例えば、1910、1920、及びMPEG-Hオーディオストリームパケット、例えば、1930、1940のみが、例えば、ブロードキャストストリームから受信されるか、又はファイルから読み取られる。
【0743】
その結果、例えば、小さいMPEG-Iシーン構成パケットのみが送信され、例えば、更新されたタイムスタンプ(例えば、パケット1910は、タイムスタンプ情報から離れて1920に等しい)を用いて周期的な間隔で繰り返される。MPEG-Iデコーダ/レンダラは、例えば、シーン構成パケットに含まれるレジストリから、どのペイロードパケット1950が所与のタイムスタンプ又は仮想ロケーションでシーンに入る必要があるかを判定し、例えば、サーバ、例えばエンコーダからのバックチャネルを介してこれらのペイロードパケットのみを一度だけ要求することができる。これにより、ブロードキャストビットストリームデータレートは、例えば、第1のシナリオと比較して低く保たれる。
【0744】
以下の実施形態では、ブロードキャストMHASストリーム(例えば、ペイロードパケットのためのクライアント-サーバチャネル)に対処し、シーンの動的変更(その例、詳細は任意である)を伴う実施形態について説明する。
【0745】
図20を参照する。
図20は、シーン構成パケット2010と、例えばMPEG-Hオーディオストリームなどのオーディオストリームを含む複数のパケット2020、2030と、例えば更新自体、例えばエンティティインデックスと修正との関連付けが実行されるべき時点を示すためのタイムスタンプ情報を一例として含むシーン更新パケット2040とを含む本発明のビットストリーム2000の概略図を示す。
【0746】
更に、例えば、バックチャネルを介して要求され得るペイロードパケット2050が示されている。
【0747】
例えば、両方のタイプのブロードキャストストリームは、パケットシーケンスの任意のポイントで、例えば2040などのシーン更新パケットを更に含むことができる。更新パケット自体は、例えば、その実行に関する情報、例えば、適用されるべき時間(例えば、タイムスタンプが受信シーン時間以下であれば直ちに)、又は任意の他のトリガ(例えば、仮想オブジェクトを操作したり、仮想空間内の特定のロケーションに入ったりするようなユーザ対話)がこの更新をアクティブ化することができる場合を含む。
【0748】
すべてのストリームは、例えば、任意のポイントでビットストリームを切断し、復号/レンダリングプロセスを開始するために次の有効なシーン構成パケットを見つけることを可能にするために、例えば、時間的に又は一定の時間間隔で選択されたピットにおいてMPEG-HオーディオストリームMHAS同期パケットを含むことができる。
【0749】
6.本発明の態様
例えば、オーディオアプリケーションのための6自由度(6DoF)メタデータを送信するための装置/方法
・ 分離する3つの異なるパケットタイプ
o構成
o動的更新
oデータペイロード
・ パケットタイプは、MPEG-H MHASパケット定義(任意選択の態様、独立して使用することもできる)に準拠している。
【0750】
・ これらのパケットを事前バルクデータとして整列させる方式(任意選択の態様、独立して使用することもできる)
・ ブロードキャストアプリケーションのためにこれらのパケットのシーケンスを周期的に繰り返す方式(任意選択の態様、独立して使用することもできる)
・ 低ビットレートブロードキャストストリームでのみ構成パケットを送信し、バックチャネルを介して要求に応じて高ビットレートペイロードパケットを供給する方式(任意選択の態様、独立して使用することもできる)
・ 低ビットレートブロードキャストストリームでのみ構成パケットを送信し、シーン時間及びユーザポジションに依存して高ビットレートペイロードパケットを供給する方式(任意選択の態様、独立して使用することもできる)
・ 低ビットレートブロードキャストストリームでのみ構成パケットを送信し、VR/ARシーンのサブシーンにオンデマンドで高ビットレートペイロードパケットを供給する方式(任意選択の態様、独立して使用することもできる)
・ オーディオ(MPEG-Hパケット)と6自由度(6DoF)メタデータを共通のビットストリーム(任意選択の態様、独立して使用することもできる)にインタリーブする方式
・ バルクメタデータを、シーンの異なる時点又は空間内の異なるロケーションに関連する別々のチャンク(ペイロードパケット)に分離するスキーム(任意選択の態様、独立して使用することもできる)
・ 別々のペイロードパケットにおいて異なる詳細レベル要件のために異なるメタデータを提供するスキーム(任意選択の態様)
・ 1つ以上のメタデータ値を変更する動的更新をブロードキャストストリームに組み込んで6DoFオーディオシーンを変更する方式(任意選択の態様)
・ 6DoFオーディオシーンを、異なるメタデータが有効な任意形状のボリュームに分解する方式(任意選択の態様)
本発明の更なる態様は、上記の例によって定義され、例えば、上記の特徴のうちの1つ以上を含むビットストリームと、上記の特徴のうちの1つ以上を含むオーディオデコーダとを含む。
【0751】
付記:MPEG-I 6DoF MHASストリームパケット定義(例:詳細は任意選択)
概要
この節では、MPEG-H 3Dオーディオデータを送信するために規格化されているMPEG-H 3DA MHASストリームフォーマットに適合するように、MPEG-Iシーンデータのパケットを定義する。
【0752】
Syntax
メインMHASシンタックス要素
【0753】
【0754】
【表7】
セマンティクス
MHASPacketLabel この(任意選択の)要素は、どのパケットが共に属するかの指示を提供する。例えば、異なるラベルを使用して、異なるMPEG-H 3Dオーディオ構成構造をMPEG-H 3Dオーディオアクセスユニットの特定のシーケンスに割り当てることができる。
【0755】
MHASPacketLength この(任意選択の)要素は、MHASPacketPayload()の長さをBytesで示す。
【0756】
MHASPacketPayload()実際のMHASPacketの(任意選択の)ペイロード。
【0757】
本発明の一態様によれば、MPEG-Iは、例えば、MPEG-Hオーディオコンテンツ(例えば、チャネル、オブジェクト、HOA信号)の6DoFレンダリングに必要なデータを送信するために、既存のMPEG-H 3DA MHASストリームのためのMHASPacketPayloadとして、3つの追加のMHASPacketTypeを導入する。このパケットのMHASPacketLabelは、例えば、MPEG-H 3DA Audioコンテンツをその関連する6DoFシーンデータに接続するために用いられる。
【0758】
【表8】
mpegiSceneConfig()構成のためのMPEG-Iデータ構造
mpegiSceneUpdate()更新用MPEG-Iデータ構造
mpegiScenePayload()パラメータペイロード用のMPEG-Iデータ構造
ISO/IEC 23003-3で定義されているescapedValue()のシンタックス:
【0759】
【表9】
以下では、本発明による実施形態について更に説明する。
【0760】
一般に、本発明による実施形態は、例えば、仮想現実(VR)及び/又は拡張現実(AR)シミュレーションにおいて仮想音響の体験を可能にするオーディオシーンにおけるリスナーの6自由度(6DoF)の動きによる、没入オーディオ再生、例えばMPEG-I没入オーディオに対処することができる。例えば、定位、距離減衰、反射、残響、閉塞、回折、及びドップラー効果などの現実世界の音響効果から知られているオーディオエフェクト及び現象は、例えば、対話型リスナーポジションデータの追加入力を伴うビットストリームで送信されたメタデータを介して制御されるデコーダ又はレンダラによってモデル化することができる。
【0761】
MPEG-Iの他の部分(すなわち、第4部「Immersive Video」、第5部「Visual Volumetric Video-based Coding(V3C)and Video-based Point Cloud Compression」及び第2部「Systems Support」)と共に、実施形態は、例えば、ユーザが、例えば、空間ナビゲーション(x、y、z)及びユーザの頭の向き(ヨー、ピッチ、ロール)である6DoFを使用してシミュレートされた環境をナビゲートし、対話することができる完全なオーディオビジュアルVR又はAR提示をサポートすることができる。
【0762】
VR提示は、ユーザが実際に仮想世界に存在しているという感覚を与えることができるが、ARは、現実世界の一部であるとシームレスに知覚される仮想要素によって現実世界の豊かさを可能にすることができる。ユーザは、例えば、仮想シーン又は仮想要素と対話し、それに応じて、現実的でユーザの現実世界での体験に一致すると知覚される音を発生させることができる。
【0763】
本発明による実施形態は、ユーザが6DoF移動することを可能にしながら、例えばオーディオシーン、例えばレンダリングシナリオ、例えばオーディオシナリオなどのリアルタイム対話型オーディオプレゼンテーションをレンダリングするための手段を提供する。したがって、実施形態は、このレンダリングをサポートするためのメタデータ及び/又はデータ構造、並びにイマーシブオーディオコンテンツの効率的な記憶及びストリーミングを可能にするビットストリームシンタックスの使用を含むことができる。
【0764】
実施形態によれば、一般に、動的シーン更新は、更新される属性の値を含む外部エンティティによってトリガされる更新を含むことができることに留意されたい。メタデータは、入力及び状態パラメータ、例えば、仮想環境の音響イベントを計算するために使用されるすべての入力及び状態パラメータさえも含むことができる。レンダラは、ソフトウェア、例えばレンダリングに使用されるソフトウェア全体であってもよい。トリガされたシーン更新は、トリガを受信した直後に、例えば手動で、例えばイベントベースで、外部エンティティからトリガされ、レンダラによって実行されるか、又は例えばデコーダによって考慮されるシーン更新であってもよい。
【0765】
一例として、実施形態による符号化ビットストリームペイロードで使用される異なるデータタイプを記述するために、以下のニモニックを定義することができる。
【0766】
bslbf ビット列、左ビットが最初、「左」は、ビット列がISO/IEC 14496(全部分)に書き込まれる順序である。ビット列は、単一の引用符マーク内の1及び0の列、例えば’1000 0001’として書かれ得る。ビット列内の空白は読み取りを容易にするためのものであり、意味を持たない。
【0767】
uimsbf 符号なし整数、最上位ビットから。
【0768】
vlclbf 可変長コード、左ビットが最初、「左」は、可変長コードが書き込まれる順序を指す。
【0769】
tcimsbf 2の補数整数、最上位(符号)ビットが最初である。
【0770】
新たなニモニックが追加されている。これらのニモニックは一時的なものであり、MPEG-Iビットストリームの開発期間中にのみ使用される。将来、これらを削除することが意図されている。以下のニモニックが追加されている。
【0771】
cstring A Cスタイルの文字列、ヌルバイト(0x00)で終端するバイト単位のアスキー文字のシーケンス。
【0772】
フロート IEEE 754単精度浮動小数点精度数。
【0773】
実施形態によるレンダラ又はデコーダは、例えば、48 kHzのグローバルサンプリング周波数で動作することができる。他のサンプリング周波数を有する入力PCMオーディオデータは、例えば、処理前に48 kHzに再サンプリングされなければならないか、又は再サンプリングされてもよい。実施形態による、例えばMPEG-Iアーキテクチャ概要のアーキテクチャ概要のブロック図を
図21に示す。概略図は、どのようにしてレンダラがMPEG-H 3DA符号化オーディオエレメントビットストリーム、メタデータMPEG-Iビットストリーム、及び他のインタフェースなどの外部ユニットに任意選択で接続されるかを示している。MPEG-H 3DA符号化Audio Elementは、MPEG-H 3DA Decoderにより復号される。デコーダは、任意選択でレンダラを含んでもよく、言い換えれば、レンダラの機能を含んでもよいことに留意されたい。復号されたオーディオは、次に、MPEG-Iビットストリームと共にレンダリングされ、これについては以下で説明する。MPEG-Iビットストリームは、オーディオシーン記述及びレンダラによって任意選択で使用される他のメタデータを搬送することができる。更に、レンダラは、消費環境情報、再生中のシーン更新、ユーザ対話、及びユーザポジション情報にアクセスするために任意選択で利用可能なインタフェースを有する。
【0774】
以下では、MPEG-I没入型オーディオトランスポートに対処する実施形態を参照する。したがって、以下のセクションは、「MPEG-I没入型オーディオトランスポート」と題されてもよい。
【0775】
概要
MPEG-I Audioに対処する実施形態は、例えば、MPEG-Hオーディオコンテンツ(例えば、チャネル、オブジェクト、HOA信号)の6DoFレンダリングに必要なデータなどのデータを送信するために、既存のMPEG-H 3DA MHASストリームのための3つの追加のMHASPacketType値及び関連するMHASPacketPayloadを含むことができる。このパケットのMHASPacketLabelは、例えば、MPEG-H 3DAオーディオコンテンツをその関連する6DoFシーンデータに接続するために使用することができる。MHASPacketType PACTYP_MPEGI_CFGのMHAS Packet、PACTYP_MPEGI_UPD、及びPACTYP_MPEGI_PLDは、MHASPacketPayload()にMPEG-I 6DoFシーンデータ、mpegiSceneConfig、mpegiSceneUpdate、及びmpegiScenePayloadを埋め込む。
【0776】
mpegiSceneConfigパケットは、例えば、MPEG-Iビットストリーム用の軽量パケットであってもよい。これは、例えば、レンダラが初期化のためにそれ自体を構成するためのすべての関連情報を提供することができる。それは、例えば、レンダラがUpdateパケット及びPayloadパケットから送信された整数識別子を人間が読める文字列識別子に変換することができるように、シーン内のすべてのエンティティの識別子間のマッピングを提供することができる。サイドチャネルが存在するシナリオでは、構成パケットは、例えば、サイドチャネルロケーション、及びどのペイロードパケットが当該サイドチャネル又はバックチャネルを介して、例えばユニキャストビットストリームを介して利用可能であるかを詳述することができるか、又は詳述するものとする。
【0777】
mpegiSceneUpdateパケットは、L1,L2(すなわち、ストリームが開始するときに知られているシーン内のエンティティへの変更)、L3更新(すなわち、ストリームが開始するときに未知であるシーン内のエンティティへの変化である)を通信する。
【0778】
mpegiScenePayloadパケットは、例えば、MPEG-Iオーディオビットストリーム内のすべての「バルク」メタデータのメインコンテナであってもよい。これは、例えば、指向性、ジオメトリ特性、及び残響、初期反射又は回折などの個々のオーディオエフェクトのための他のメタデータを含むか、又は含むことができる。シーンペイロードパケットへのペイロードの分配は、例えば、メタデータがいつどこでレンダラによって必要とされるか、どのメタデータがレンダリングに不可欠であるか、並びにパケットの最大サイズなどを考慮に入れて、エンコーダによって編成することができる。サーバクライアントシナリオでは、ペイロードは、例えば、バックチャネルなどの別個のチャネルを介してロードすることができる。純粋なブロードキャストシナリオの場合、例えば、帯域幅を節約するためにペイロードサイズを制限することができる。
【0779】
サーバクライアントアプリケーションでは、MHASPacketType PACTYP_MPEGI_CFGは、例えば、ブロードキャストストリーム内のMHASオーディオパケットと周期的にインタリーブされてもよく、又はインタリーブされるべきであるが、大きなPACTYP_MPEGI_PLDパケットが送信されるか、又は、例えば、要求のみで送信されてもよい。
【0780】
ブロードキャストストリームに同期するために、MHAS同期パケットPACTYP_SYNCは、例えば、各mpegiSceneConfig()パケットの前に挿入されてもよく、又は挿入されるものとする。MPEG-Iシーンペイロードは、例えば、1つ以上のmpegiScenePayload()パケットにパッケージ化することができる。MPEG-Iメタデータとオーディオコンテンツとの間の細かい粒度のインタリーブは、例えば、複数のペイロードパケットにわたってインタリーブするMPEG-IメタデータにMPEG-Iメタデータを分配することによって達成することができる。
【0781】
以下の定義では、本発明の実施形態について、及び本発明の実施形態に従って示される。したがって、以下のセクションは「定義」と題され得る。
【0782】
実施形態によるシンタックスを参照する。
【0783】
最初に、例えばシンタックスに関する一般的な情報が提供される。
【0784】
実施形態によるビットストリームシンタックスは、ISO/IEC ISO/IEC 23008-3(MPEG-H Part 3)、条項5に基づくことができる。既存のビットストリームシンタックスに対する修正及び補正の例を以下に列挙する。
【0785】
バイトアライメントを必要とする環境では、長さが整数バイト数ではないMPEG-I Immersiveオーディオ構成要素又はペイロード要素は、例えば、整数バイトカウントを達成するために最後にパディングされてもよい。これは関数ByteAlign()によって示される。
【0786】
したがって、本発明による実施形態、例えばエンコーダ及び/又はデコーダは、以下のシンタックスを含むか又は使用することができる。
【0787】
MHASシンタックス
【0788】
【0789】
【0790】
【0791】
【0792】
【0793】
【0794】
【表16】
セマンティクス
本発明による実施形態は、以下の意味を含むか又は利用することができる。
【0795】
bitstreamIdentifier この整数は、例えば、C文字列の形態の「MPEGI」を表すことができる。これは、例えば、MPEG-Iビットストリームを検証するために開発目的で使用され得る。これは、他のファイルを誤って読み込むことを防ぐ仕組みである。
【0796】
bitstreamVersion この整数は、例えば、このビットストリームのバージョン番号を表すことができる。整数は、レンダラがこのビットストリームを正しく復号できることを保証するために、シンタックスと共に変化し得る。これは、例えば、シンタックスが流動的である間、主に開発目的で使用され得る。
【0797】
MHASPacketLabel この要素は、例えば、どのパケットが共に属するかの指示を提供し得る。例えば、異なるラベルを使用して、異なるMPEG-H 3Dオーディオ構成構造をMPEG-H 3Dオーディオアクセスユニットの特定のシーケンスに割り当てることができる。
【0798】
MHASPacketLength この要素は、例えば、パケットの長さをバイト単位で示し得る。
【0799】
【表17】
mpegiSceneConfig()構成のためのMPEG-Iデータ構造
mpegiSceneUpdate()更新用MPEG-Iデータ構造
mpegiScenePayload()パラメータペイロード用のMPEG-Iデータ構造
payloadId この整数は、例えば、ペイロードパケットの一意の識別子であってもよい。これは、例えば、他のペイロードパケットと区別するためであり得る。
【0800】
payloadCount この整数は、例えば、このパケットに現在いくつのペイロードが存在するかを示すことができる。
【0801】
payloadType この整数は、例えば、現在のペイロードのタイプを示すことができる。
【0802】
以下に示すように、表7に列挙されたペイロード要素は、例えば、以下の任意選択のシンタックスに従って定義することができる。
【0803】
指向性ペイロードシンタックス
【0804】
【0805】
【0806】
【0807】
【0808】
【0809】
【0810】
【表24】
payloadLabel この要素は、例えば、複数のペイロードを一緒にグループ化するために使用され得る。
【0811】
payloadLength この要素は、例えば、ペイロードの長さ(バイト単位)であってもよい。
【0812】
entityCount この整数は、例えば、識別子と共に存在するエンティティの数を表すことができる。
【0813】
integerId この整数は、例えば、文字列識別子から新たに導出された整数を表すことができる。すべてのintegerId値は、例えば、一意であってもよいか、又は一意であるべきである。
【0814】
stringId この文字列は、例えば、このエンティティのエンコーダ入力フォーマットから見つかった元の文字列であってもよい。意図は、例えば、残りのビットストリームがビットストリームサイズに対するidとして整数を使用できるように、文字列を整数にマッピングすることであり得る。すべてのstringId値は、例えば、一意であってもよいか、又は一意であるべきである。
【0815】
delayBufferSize この要素は、例えば、伝搬遅延バッファのサイズを設定し得る。サイズは、例えば、シーンで発生し得る最大の伝搬遅延を処理するのに十分な大きさであり得るか、又はそれでなければならない。
【0816】
【表25】
gainCullingThreshold この要素は、例えば、大きな減衰(例えば、大きな距離減衰に起因して)を有するレンダリング項目が例えば非アクティブ化され得る閾値を設定することができる。非アクティブ化閾値係数
は、例えば、値
から計算することができ、ここで
である。
は、0と7との間の範囲にあり、これは、例えば、10dB刻みで-100dBと-30dBとの間の非アクティブ化閾値をもたらし得る。
【0817】
overrideSpeedOfSound このフラグは、例えば、伝搬遅延の計算に使用されるデフォルトの音速(340 m/s)がこのシーンに対して上書きされるかどうかを示すことができる。
【0818】
speedOfSound この値は、例えば、音速を設定することができる。
【0819】
overrideTemperature このフラグは、例えば、中間減衰の計算に使用されるデフォルト温度(20°C)が、例えば、このシーンに対して上書きされ得るかどうかを示すことができる。
【0820】
temperature この値は、例えば、温度を設定することができる。温度
(°C)は、例えば、値
から計算することができ、ここで
である。
【0821】
overrideHumidity このフラグは、例えば、中程度の減衰の計算に使用されるデフォルト湿度(40%)をこのシーンに対して上書きされ得るかどうかを示すことができる。
【0822】
humidity この値は、例えば、湿度を設定することができる。%での湿度
は、例えば、値
から計算することができ、ここで
である。
【0823】
updatesCount この整数は、例えば、このペイロードにおける更新の数であり得る。
【0824】
modificationsCount この整数は、例えば、この更新における修正の数であってもよい。
【0825】
targetId この整数は、例えば、修正されているターゲットエンティティの一意の識別子であり得る。
【0826】
hasDuration このフラグは、例えば、修正がある期間にわたって行われるかどうかを示すことができる。
【0827】
持続時間 この値は、例えば、秒単位の修正の総持続時間であってもよい。範囲は、例えば、0.0から180.0の間であり得る。これを浮動小数点値に逆量子化するために、例えば、以下の式を使用することができる。
(1)
changesCount この整数は、例えば、この修正にいくつの値の変更があるかを表すことができる。
【0828】
targetAttribute この整数は、例えば、どの属性が修正され得るかを示すことができる。
【0829】
【表26】
isPositionParameterVariable このフラグは、例えば、値が評価プラットフォームから来ているかどうかを示すことができる。
【0830】
positionParameterVariableIndex この整数は、例えば、評価プラットフォームから供給される更新値チャネルインデックスであってもよい。
【0831】
newPositionValue この浮動小数点は、例えば、対象エンティティのメートル単位の新しいポジション値であってもよい。
【0832】
isOrientationParameterVariable このフラグは、例えば、値が評価プラットフォームから来ているかどうかを示すことができる。
【0833】
orientationParameterVariableIndex この整数は、例えば、評価プラットフォームから供給される更新値チャネルインデックスであってもよい。
【0834】
newOrientationValue このフロートは、例えば、ターゲットエンティティの度単位の新しい向きの値であってもよい。
【0835】
newCoordSpaceValue このフラグは、例えば、ターゲットエンティティのための新たな協調空間値であり得る。
【0836】
【表27】
newActiveValue このフラグは、例えば、ターゲットエンティティのレンダリングを非アクティブ化/アクティブ化することができる。
【0837】
isGainDbParameterVariable このフラグは、例えば、値が評価プラットフォームから来ているかどうかを示すことができる。
【0838】
gainDbParameterVariableIndex この整数は、例えば、評価プラットフォームから供給される更新値チャネルインデックスであってもよい。
【0839】
newGainValue この値は、例えば、ターゲットエンティティの新しい利得値であってもよい。それは、-127.0と127.0との間の範囲である。これを浮動小数点値に逆量子化するために、例えば、以下の式を使用することができる。
(2)
newSignalId この整数は、例えば、ターゲットエンティティの新しい一意のオーディオストリーム識別子であってもよい。
【0840】
newExtentId この整数は、例えば、ターゲットエンティティのエクステント属性の新しい一意のジオメトリ識別子であってもよい。
【0841】
newDirectivityId この整数は、例えば、ターゲットエンティティのソース指向性のための新たなユニークな指向性識別子であり得る。
【0842】
newDirectivenessValue この値は、例えば、ターゲットエンティティの新しい指向性値であってもよい。これは、例えば、0.0から20.0の範囲であり得る。これを浮動小数点値に逆量子化するために、例えば、以下の式を使用することができる。
(3)
newPlayValue このフラグは、例えば、ターゲットエンティティの新しい再生値を示すことができる。
【0843】
newGroupId この整数は、例えば、ターゲットHOAソースの新しい一意のHOAグループを表すことができる。
【0844】
newRegionId この整数は、例えば、ターゲットエンティティの領域属性の新しい一意のジオメトリ識別子を表すことができる。
【0845】
newSizeXValue この浮動小数点は、例えば、ターゲットプリミティブエンティティのX軸の新しいサイズ(m)属性を表すことができる。
【0846】
newSizeYValue この浮動小数点は、例えば、ターゲットプリミティブエンティティの新しいサイズ(m)属性をY軸で表すことができる。
【0847】
newSizeZValue この浮動小数点は、例えば、ターゲットプリミティブエンティティのZ軸の新しいサイズ(m)属性を表すことができる。
【0848】
updateType この整数は、例えば、以下のタイプ、すなわち、時限、条件付き、動的、又はトリガされる更新を示すことができる。
【0849】
【表28】
timedUpdateHasId このフラグは、例えば、時限更新が一意の識別子を有するかどうかを示すことができる。
【0850】
timedUpdateId この整数は、例えば、この時限更新のための一意の識別子を示すことができる。
【0851】
timedUpdateHasIndex このフラグは、例えば、時限更新がインデックス値を有するかどうかを示すことができる。
【0852】
timedUpdateIndex この整数は、例えば、この時限更新のためのインデックス値であってもよい。
【0853】
time この値は、例えば、更新が開始する時点であってもよい。これは、例えば、0.0と180.0との間の範囲であり得る。これを浮動小数点値に逆量子化するために、例えば、以下の式を使用することができる。
(4)
conditionalUpdateHasId このフラグは、例えば、この条件付き更新が一意の識別子を有するかどうかを示すことができる。
【0854】
conditonalUpdateId この整数は、例えば、この条件付き更新のための固有の識別子であってもよい。
【0855】
conditionalUpdateIndex この整数は、例えば、この条件付き更新のためのインデックス値であってもよい。
【0856】
fireOn このフラグは、例えば、この更新がいつトリガされるかを判定することができる。これは、例えば、この値の状態に達したときにトリガされてもよい。
【0857】
conditonalHasDelay このフラグは、例えば、条件付き更新がトリガ後に遅延されるかどうかを示すことができる。
【0858】
conditionalDelay この値は、例えば、更新トリガと更新自体の実現との間の秒単位の遅延であってもよい。これは、例えば、0.0と10.0との間の範囲であり得る。これを浮動小数点値に逆量子化するために、例えば、以下の式を使用することができる。
(5)
conditonId この整数は、例えば、この更新がトリガされる固有のリスナー近接条件識別子であってもよい。
【0859】
triggeredUpdateId この整数は、例えば、このトリガされた更新の一意の識別子であってもよい。
【0860】
triggeredUpdateIndex この整数は、例えば、このトリガされた更新のインデックス値であってもよい。
【0861】
dynamicUpdateId この整数は、例えば、この動的更新の一意の識別子であってもよい。
【0862】
dynamicUpdateIndex この整数は、例えば、この動的更新のインデックス値であってもよい。
【0863】
更なる注記:
一例として、本発明によるデコーダは、例えば、すべてのオーディオ要素及びジオメトリを含む6DoFシーン表現を維持するための中心的なコンポーネントであり得るシーンコントローラを備えることができる。それは、例えば、シーン状態を保持することができ、例えば、ビットストリーム又はローカル更新インタフェースを介して受信することができる更新を通じて、それに対するすべての内部及び外部の修正を処理することができる。シーンがARシーンである場合、Scene Controllerは、シーン状態に統合されたリスニング空間の音響特性及びアンカーポジションを記述するLSDFを更に読み取る。
【0864】
一例として、前に説明したような評価ユニットは、シーンコントローラを備えてもよく、又はシーンコントローラであってもよい。
【0865】
一例として、本発明によるデコーダは、例えば、及び任意選択で常に、シーン内の複数のエンティティ又は更にはすべてのエンティティの現在の状態を反映することができるシーン状態を含むことができ、ビットストリーム、LSDF(リスニング空間記述フォーマット)、及びローカル更新を含む複数のソースからのメタデータを組み込む。エンティティは、例えば、シーンオブジェクト(SO)として表され得る。一例として、シーンコントローラのみが、例えばシーン状態を修正するように構成されてもよいが、レンダラ内の他のすべてのコンポーネント、例えばデコーダのレンダリングユニットは、シーン状態及びすべてのSOへの読み取り専用アクセスを有してもよい。
【0866】
コンポーネントは、例えば、シーン状態及び個々のSOの変更にもサブスクライブすることができ、その結果、属性が修正されたときにコールバックが呼び出される。このために、コンポーネントは、例えば、SceneStateObserver及びSceneObjectObserverインタフェースを実装するように構成することができる。SceneStateObserverのコールバックは、例えば、SOがシーン状態から追加又は削除されるときに呼び出されてもよい。
【0867】
実施例:
class SceneStateObserver {
public:
virtual ~SceneStateObserver(){};
virtual void sceneStateAttached(const SceneState* sceneState)=0;
virtual void sceneStateDetached()=0;
virtual void sceneObjectAdded(SceneObject* object)=0;
virtual void sceneObjectRemoved(SceneObject* object)=0;
};
SceneObjectObserverコールバックは、個々のSOの修正について通知する。
【0868】
class SceneObjectObserver {
public:
virtual ~SceneObjectObserver(){};
enum class Property {
Position,
Activity,
Directivity,
Gain,
DistanceModel,
AudioStream,
Extent,
ReferenceDistance,
Staticity
};
virtual void objectChanged(SceneObject* obj,Property modification)=0;
};
実施形態によれば、シーン内の任意のオーディオ要素、ジオメトリ、変換、及びリスナーは、例えば、シーンオブジェクト(SO)として表され得る。すべてのSOは、例えば、少なくとも表88に指定された属性を有することができる。
【0869】
【表29】
更に、更新(例えば、シーン更新パケットの文脈で説明したように)は、シーンオブジェクトのメタデータに対する修正の集合であってもよい。例えば評価ユニット及び/又はレンダリングユニットに実装され、あるいは評価ユニット及び/又はレンダリングユニットであるシーンコントローラは、例えば以下の手段によってシーン状態における更新を可能にすることができる。
【0870】
1.ビットストリーム内のSceneUpdateパケットは、例えば、シーン内の個々のエンティティに対する変更に関する情報(例えば、前に説明したように)を含むことができる。それらは、即時の、事前定義された、ロケーション又は時間ベースの、及び補間された更新を可能にすることができる。
【0871】
a.即時更新:例えば評価ユニットを使用するシーンは、eaxmpleについて、例えばSceneUpdateパケットがBitstreamインタフェースから受信されるとすぐに、シーン状態を更新することができる。
【0872】
b.事前定義された更新:修正の指定されたパケットは、例えば、所与の識別子によってローカルに送信及びトリガされ得る。
【0873】
c.ロケーションベース又は時間ベースの単一更新:例えば評価ユニットを使用するシーンは、例えば、以前に受信されたロケーションベース及び時間ベースの基準を評価することができ、基準がメタデータ変更を必要とする場合にシーン状態を更新することができる。
【0874】
d.補間された更新:例えば評価ユニットを使用して、シーンは、例えば、以前に受信され開始されたメタデータ軌跡を評価することができ、それに応じてシーン状態を更新することができる。
【0875】
2.デコーダにおける他のシステム及びコンポーネントのためのローカル更新API(例えば、以下で説明するように)
ロケーション及び時間ベースの基準の評価、並びに補間は、例えば、シーンコントローラによって作成された別個のスレッドで行うことができる。スレッドは、例えば、少なくとも毎秒100回の実行速度で動作し得るか、又は動作しなければならない。
【0876】
時間的補間は、例えば、更新が持続時間を収容するか又は含むときに、予め定義された、ロケーションベースの、又はローカルな更新によってトリガされてもよく、例えば、任意選択で常に線形補間であってもよい。時間補間は、例えば、シーンがループされたときに停止され得る。一時的な補間の開始値は、例えば、任意選択で、遅延を考慮せずに、更新がトリガされた時点のメタデータプロパティ値であってもよい。
【0877】
挙動は、例えば、SOメタデータプロパティが複数のタイプの更新で同時に変更される場合、例えば、Object Sourceが時限軌跡上を移動している場合、そのロケーションは、例えば、ローカル更新によって変更されない可能性がある場合に、定義されない可能性がある。
【0878】
デコーダの外部コンポーネント及びサブシステムは、例えば、シーンオブジェクトのメタデータを変更するためのローカル更新を構築することができる。更新(例):
struct Modification {
std::string entityId;
std::string attributeName;
Variant targetValue;
bool teleport=false;
};
struct Update {
double timestamp=-1;
std::vector<Modification> modifications;
};
タイムスタンプは、例えば、シーン時間で与えられてもよい。Updateが受信されたときの現在のScene時間がUpdateタイムスタンプよりも大きい場合、Updateは、例えば、任意選択で直ちに実行されてもよい。更に、各更新は、例えば、各々が任意選択で構成されるか、又は構成される修正のリストを収容するか、又は含むことができる。
【0879】
・ EIFで使用されるエンティティの文字列識別子に対応するentityId。予約識別子「listener」は、例えば、他のエンティティと同じAPIを介して例えばListenerポジションを更新するために使用されてもよく、
・ attributeName、例えば、EIFで使用されるような属性名であってもよいし、そうでなければならない場合もある
・ targetValue、そのデータタイプが、例えば、属性に依存し得る、
・ テレポートフラグ、例えば伝搬遅延に影響を与える、エンティティのロケーションに対する補間されていない修正を示す。
【0880】
更に、実施形態によるデコーダ又はレンダラは、例えばビットストリーム又は外部更新において参照され得る識別子を用いて、オーディオストリームにアクセスするように構成され得るストリームマネージャ(例えば、本発明の評価ユニット又はレンダリングユニットにおいて)を備えてもよい。オーディオストリームソースは、例えば、可変であってもよく、ローカルPCMストリーム又はビットストリームからの復号されたMPEG-Hオーディオストリームのいずれかであってもよい。
【0881】
オーディオストリームアクセスは、例えば、フレームベースであってもよい。レンダラ内のコンポーネントは、例えば、特定のオーディオストリームに関連付けられ得るStreamAccessBufferを作成することができ、サンプルのブロックは、例えば、オーディオストリームの処理されたフレームごとにそのメモリバッファに書き込まれ得る。ストリームアクセスは、例えば、オーディオストリームにおけるシークをサポートすることができる。ストリームマネージャは、例えば、アクセスされたストリームが変化した場合、オーディオストリーム間でクロスフェードすることができる。
【0882】
実施例:
class StreamBuffer {
RealFrame&getFrame();
const RealFrame&getFrame()const;
};
class StreamAccessBuffer:public StreamBuffer
{
void setStream(const std::string&id,double t=0.0);
void play();
void stop();
void seekTo(double t);
void setLoop(bool shouldLoop);
std::size_t getReadPosition()const;
inline const std::string&getStreamId()const;
};
コンポーネントは、例えば、ストリーミングアクセスバッファと同じプロパティを有することができる空のストリーミングバッファインスタンスを作成することもできるが、コンテンツは、所有するコンポーネントによって管理されてもよく、又は例えば管理されなければならない。
【0883】
更に、実施形態によるデコーダは、任意選択で、Clockコンポーネント(例えば、本発明の評価ユニットにおいて)を備え、これにより、シーン時間を外部のタイムキーパに同期させることが可能になり得る。スタンドアロンの場合、ClockインタフェースのInternalClock実装は、例えば、CPUウォールクロック(例えば、std::chrono::steady_clock)を使用して、Sceneが開始してから経過した秒単位の時間を判定することができる。InternalClockの現在時刻は、例えば、Sceneが開始されてから再生されたサンプルの数をカウントすることによってオーディオスレッドと同期され得る。
【0884】
class Clock {
public:
virtual ~Clock(){};
virtual double getCurrentTime()=0;
virtual void start()=0;
virtual void stop()=0;
virtual bool isRunning()=0;
virtual void sync(double t)=0;
};
本発明によるデコーダは、例えば本発明の評価ユニットを使用して、マルチスレッディングを実行するように構成され得る。シーンコントローラは、例えば、時間ベース及びロケーションベースの更新、任意選択で補間を処理するための別個のスレッドを作成することができる。このスレッドにおける更新ルーチンは、少なくとも100Hzのレートで実行されてもよく、又は例えば実行されるべきである。
【0885】
シーン状態及びSOを観察することは、例えば、読み取り専用であってもよい。オブザーバのコールバックは、例えば、更新がトリガされたスレッドから呼び出されてもよい。観測コンポーネントは、コールバックのスレッドセーフを保証し得るか、保証しなくてはならない。
【0886】
Clock::sync()ルーチンは、getCurrentTime()への同時呼び出しに関してスレッドセーフであり得るか、又はスレッドセーフでなければならない。
【0887】
ストリームバッファ及びストリームアクセスバッファは、例えば、オーディオスレッド内でのみアクセスされ得る。ストリームマネージャは、例えば、各オーディオスレッドコールバックの始めに正しいサンプルを含むように、StreamAccessBuffersを確実にすることができる。
【0888】
本発明の更なる実施形態によれば、エンコーダは、例えば、没入型オーディオエンコーダ入力フォーマット(EIF)シーン記述ファイルを構文解析して可読データ構造にすることができ、例えば、異なるカテゴリのサイド情報並びにシーン記述を生成することができる。最後に、エンコーダは、例えば、データを符号化及び直列化してMHASビットストリームファイルを作成することができる。
【0889】
このビットストリームでは、エンコーダは、例えば、MHASペイロードパケットにバンドルされた別個のペイロード要素として異なるカテゴリのサイド情報を表すことができる。これらのペイロードは、例えば、より高品質のレンダリングのために追加のデータでレンダラ又はデコーダステージを強化するために使用され得る。サイド情報は、例えば、サイド情報自体と結合されたシーン記述において書かれたエンティティの識別子(ID)というペアとして表されることが多くてもよい。例えば、エンコーダは残響パラメータを生成し、それらをシーン記述で見つかった各音響環境IDと結合する。音響環境は、例えば、部屋の音響(残響)パラメータによって、例えばシーン全体又は特定の空間ゾーン内の音響条件を記述することができる。
【0890】
一例として、前に説明したように、シーン状態は、本発明の実施形態による解析ユニット及び/又は評価ユニットに記憶され、それによって決定され、及び/又はそれを使用して提供され得る。
【0891】
実装の代替手段
いくつかの態様は、装置の文脈で説明されているが、これらの態様は、対応する方法の説明も表しており、ブロック又はデバイスは、方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップの文脈で説明される態様は、対応するブロック又は対応する装置の項目又は特徴の記述も表す。方法ステップの一部又は全部は、例えば、マイクロプロセッサ、プログラム可能なコンピュータ又は電子回路のようなハードウェア装置によって(又は使用して)実行されてもよい。いくつかの実施形態では、最も重要な方法ステップの1つ以上は、そのような装置によって実行されてもよい。
【0892】
特定の実装要件に応じて、本発明の実施形態は、ハードウェア又はソフトウェアで実装することができる。実装は、中に格納される電子的に読み取り可能な制御信号を有し、各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、例えばフロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。したがって、デジタル記憶媒体はコンピュータ可読であってもよい。
【0893】
本発明によるいくつかの実施形態は、プログラム可能なコンピュータシステムと協働して、本明細書に記載の方法の1つが実行されるような、電子的に読み取り可能な制御信号を有するデータキャリアを備える。
【0894】
一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するときに、本方法の1つを実行するように動作するプログラムコードを有するコンピュータプログラム製品として実施することができる。プログラムコードは、例えば、機械読み取り可能なキャリアに格納することができる。
【0895】
他の実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含み、機械読み取り可能なキャリアに格納される。
【0896】
従って、言い換えれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0897】
したがって、本発明の方法の更なる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを含み、そこに記録される、データキャリア(又はデジタル記憶媒体又はコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体又は記録媒体は、典型的には有形及び/又は非一時的である。
【0898】
したがって、本発明の方法の更なる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号のシーケンスである。データストリーム又は信号のシーケンスは、例えば、データ通信接続、例えばインターネットを介して転送されるように構成することができる。
【0899】
更なる実施形態は、本明細書に記載の方法のうちの1つを実行するように構成された、又は適用される処理手段、例えばコンピュータ又はプログラマブルロジックデバイスを含む。
【0900】
更なる実施形態は、本明細書で説明される方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0901】
本発明による更なる実施形態は、本明細書で説明される方法の1つを実行するためのコンピュータプログラムを受信機に転送(例えば、電子的に又は光学的に)するように構成された装置又はシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。この装置又はシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えることができる。
【0902】
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部又は全部を実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書で説明する方法の1つを実行するためにマイクロプロセッサと協働することができる。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。
【0903】
本明細書に記載の装置は、ハードウェア装置を使用して、又はコンピュータを使用して、又はハードウェア装置とコンピュータの組み合わせを使用して実装することができる。
【0904】
本明細書に記載の装置、又は本明細書に記載の装置の任意の構成要素は、少なくとも部分的にハードウェア及び/又はソフトウェアで実装されてもよい。
【0905】
ここに記載された方法は、ハードウェア装置を使用して、又はコンピュータを使用して、又はハードウェア装置とコンピュータの組み合わせを使用して実行されてもよい。
【0906】
本明細書に記載の方法、又は本明細書に記載の装置の任意の構成要素は、ハードウェア及び/又はソフトウェアによって少なくとも部分的に実行され得る。
【0907】
上述の実施形態は、本発明の原理の単なる例示である。本明細書に記載された構成及び詳細の修正及び変形は、当業者には明らかであることが理解される。従って、差し迫った特許請求の範囲によってのみ限定され、本明細書の実施形態の記載及び説明によって示される特定の詳細によっては限定されないことが意図される。
【0908】
一般的な意見として、例えばビットストリーム要素などの指定に使用される接頭辞「mpegi」は、任意選択で接頭辞「mpeghi」によって置き換えられてもよく、その逆も同様であり、例えば、接頭辞「mpeghi」は接頭辞「mpegi」と同義であってもよいことに留意されたい。
【手続補正書】
【提出日】2024-07-02
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
符号化オーディオ表現(102,104,202,204)に基づいて、復号化オーディオ表現(106,206)を提供するためのオーディオデコーダ(100,200)であって、
前記オーディオデコーダは、1つ以上のオーディオ信号を空間的にレンダリングするように構成されており、
前記オーディオデコーダは、異なるパケットタイプの複数のパケット(104,204,322)を受信するように構成されており、
前記パケットは、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する1つ以上のシーン構成パケットを含み、
前記パケットは、前記レンダリングのためのシーンメタデータ(130,230)の更新を定義する1つ以上のシーン更新パケットを含み、
前記パケットは、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義を含む1つ以上のシーンペイロードパケットを含み、
前記オーディオデコーダは、前記レンダラ構成情報に応じて、前記レンダリングのために、前記シーンペイロードパケットに含まれている1つ以上のシーンオブジェクトの定義及び/又は1つ以上のシーン特性の定義を、選択するように構成されており、
前記オーディオデコーダは、前記1つ以上のシーン更新パケットのコンテンツに応じて、1つ以上のシーンメタデータを更新するように構成されており、
前記シーン構成パケットは、どのシーンペイロードパケットが空間及び時間の所与のポイントで必要とされるかを定義する、
オーディオデコーダ(100,200)。
【請求項2】
前記オーディオデコーダは、シーン構成パケットに基づいて、レンダリング構成を決定するように構成されており、
前記オーディオデコーダは、1つ以上のシーン更新パケットに基づいて、前記レンダリング構成の更新を決定するように構成されている、
請求項1に記載のオーディオデコーダ(100,200)。
【請求項3】
前記1つ以上のシーン更新パケットは、変更されるシーンメタデータ項目の列挙を含み、
前記列挙は、変更される1つ以上のメタデータ項目について、メタデータ識別子及びメタデータ更新値を含む、
請求項1に記載のオーディオデコーダ(100,200)。
【請求項4】
前記オーディオデコーダは、前記1つ以上のシーンペイロードパケットから、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義を取得するように構成されている、
請求項1に記載のオーディオデコーダ(100,200)。
【請求項5】
前記1つ以上のシーンペイロードパケットは、シーンオブジェクト及び/又はシーン特性を定義するペイロードの列挙を含み、
前記オーディオデコーダは、シーンオブジェクト及び/又はシーン特性を定義するペイロードの前記列挙を評価するように構成されている、
請求項1に記載のオーディオデコーダ(100,200)。
【請求項6】
ペイロード識別子はシーンペイロードパケット内の前記ペイロードに関連付けられており、
前記オーディオデコーダは、所与のペイロードが前記レンダリングに使用されるべきかどうかを決定するために、前記所与のペイロードの前記ペイロード識別子を評価するように構成されている、
請求項1に記載のオーディオデコーダ(100,200)。
【請求項7】
前記シーン更新パケットのうちの1つ以上はシーン更新のための条件を定義し、
前記オーディオデコーダは、シーン更新パケットにおいて定義された前記シーン更新のための前記条件が満たされているかどうかを評価して、前記シーン更新が行われるべきかどうかを決定するように構成されている、
請求項1に記載のオーディオデコーダ(100,200)。
【請求項8】
前記シーン更新パケットのうちの1つ以上は対話型トリガ条件を定義し、
前記オーディオデコーダは、前記対話型トリガ条件が満たされているかどうかを評価して、前記シーン更新が行われるべきかどうかを決定するように構成されている、
請求項1に記載のオーディオデコーダ(100,200)。
【請求項9】
前記1つ以上のシーン構成パケット及び1つ以上のシーン更新パケット及び1つ以上のシーンペイロードパケットは、MPEG-H MHASパケット定義に適合している、
請求項1に記載のオーディオデコーダ(100,200)。
【請求項10】
前記1つ以上のシーン構成パケット及び前記1つ以上のシーン更新パケット及び前記1つ以上のシーンペイロードパケットは、各々、パケットタイプ識別子と、パケットラベルと、パケット長情報と、パケットペイロードとを含む、
請求項1に記載のオーディオデコーダ。
【請求項11】
前記オーディオデコーダは、レンダリングされる1つ以上のオーディオチャネルを表すパケットを含む、複数のMPEG-Hパケットを含むビットストリーム(208)から、前記1つ以上のシーン構成パケット、前記1つ以上のシーン更新パケット、及び前記1つ以上のシーンペイロードパケットを抽出するように構成されている、
請求項1に記載のオーディオデコーダ(100,200)。
【請求項12】
前記オーディオデコーダは、ブロードキャストストリームを介して前記1つ以上のシーン構成パケットを受信するように構成されている、
請求項1に記載のオーディオデコーダ(100,200)。
【請求項13】
前記オーディオデコーダは、パケットプロバイダから前記1つ以上のシーンペイロードパケットを要求する(201)ように構成されている、
請求項1に記載のオーディオデコーダ(100,200)。
【請求項14】
前記オーディオデコーダは、ペイロードIDを使用して、パケットプロバイダから前記1つ以上のシーンペイロードパケットを要求する(201)ように構成されている、又は、
前記オーディオデコーダは、パケットIDを使用して、パケットプロバイダから前記1つ以上のシーンペイロードパケットを要求するように構成されている、
請求項1に記載のオーディオデコーダ。
【請求項15】
前記オーディオデコーダは、どの1つ以上のデータ構造が必要とされるか、又は必要とされると予想されるかを予期し、前記データ構造が実際に必要とされる前に、前記1つ以上のデータ構造、又は前記1つ以上のデータ構造を含む1つ以上のシーンペイロードパケットを要求する(201)ように構成されている、
請求項1に記載のオーディオデコーダ(100,200)。
【請求項16】
前記オーディオデコーダは、どの1つ以上のシーンペイロードパケットが所定の期間内に必要であるか、又は必要とされることになるかを示す情報をパケットプロバイダに提供するように構成されている、
請求項1に記載のオーディオデコーダ(100,200)。
【請求項17】
前記1つ以上のシーン更新パケットは、前記レンダリングのためのシーンメタデータ(130,230)の更新を定義し、1つ以上の更新条件の表現を含み、
前記オーディオデコーダは、前記1つ以上の更新条件が満たされているかどうかを評価し、前記1つ以上の更新条件が満たされている場合、前記1つ以上のシーン更新パケットのコンテンツに応じて、1つ以上のシーンメタデータ(130,230)を選択的に更新するように構成されている、
請求項1に記載のオーディオデコーダ(100,200)。
【請求項18】
符号化オーディオ表現を提供するための装置(300)であって、
前記装置は、1つ以上のオーディオ信号の空間レンダリングのための情報を提供するように構成されており、
前記装置は、異なるパケットタイプの複数のパケット(104,204,322)を提供するように構成されており、
前記パケットは、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する1つ以上のシーン構成パケットを含み、
前記パケットは、前記レンダリングのためのシーンメタデータの更新を定義する1つ以上のシーン更新パケットを含み、
前記パケットは、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義を含む1つ以上のシーンペイロードパケットを含み、
前記装置は、前記シーン構成パケットがどのシーンペイロードパケットが空間及び時間の所与のポイントで必要とされるかを定義するように、前記シーン構成パケットを提供するように構成されている、
装置(300)。
【請求項19】
前記装置は、前記レンダリングのために、前記レンダラ構成情報が、前記シーンペイロードパケットに含まれる1つ以上のシーンオブジェクトの定義及び/又は1つ以上のシーン特性の定義の選択を定義するように、前記シーン構成パケットに含まれる前記レンダラ構成情報を提供するように構成されている、
請求項18に記載の装置(300)。
【請求項20】
前記装置は、前記1つ以上のシーン更新パケットのコンテンツが1つ以上のシーンメタデータ(130,230)の更新を定義するように、前記1つ以上のシーン更新パケットを提供するように構成されている、
請求項18に記載の装置(300)。
【請求項21】
前記装置は、前記シーン構成パケットがレンダリング構成を決定するように、前記シーン構成パケットを提供するように構成されており、
前記装置は、前記シーン更新パケットが前記レンダリング構成の更新を定義するように、前記シーン更新パケットを提供するように構成されている、
請求項18に記載の装置(300)。
【請求項22】
前記装置は、前記1つ以上のシーン構成パケット及び前記1つ以上のシーン更新パケット及び前記1つ以上のシーンペイロードパケットが、MPEG-H MHASパケット定義に適合するように、前記1つ以上のシーン構成パケット及び前記1つ以上のシーン更新パケット及び前記1つ以上のシーンペイロードパケットを提供するように構成されている、
請求項18に記載の装置(300)。
【請求項23】
前記装置は、前記1つ以上のシーン構成パケット及び前記1つ以上のシーン更新パケット及び前記1つ以上のシーンペイロードパケットが、各々、パケットタイプ識別子と、パケットラベルと、パケット長情報と、パケットペイロードとを含むように、前記1つ以上のシーン構成パケット及び前記1つ以上のシーン更新パケット及び前記1つ以上のシーンペイロードパケットを提供するように構成されている、
請求項18に記載の装置(300)。
【請求項24】
前記装置は、レンダリングされる1つ以上のオーディオチャネルを表すパケットを含む、複数のMPEG-Hパケットを含むビットストリーム内の前記1つ以上のシーン構成パケット、前記1つ以上のシーン更新パケット、及び前記1つ以上のシーンペイロードパケットを提供するように構成されている、
請求項18に記載の装置(300)。
【請求項25】
前記装置は、ブロードキャストストリームを介して前記シーン構成パケットを提供するように構成されている、
請求項18に記載の装置(300)。
【請求項26】
前記装置は、オーディオデコーダからの要求に応答して、前記1つ以上のシーンペイロードパケットを提供するように構成されている、
請求項18に記載の装置(300)。
【請求項27】
前記装置は、ペイロードIDを含むオーディオデコーダからの要求に応答して、前記1つ以上のシーンペイロードパケットを提供する、又は、
前記装置は、パケットIDを含むオーディオデコーダからの要求に応答して、前記1つ以上のシーンペイロードパケットを提供するように構成されている、
請求項18に記載の装置(300)。
【請求項28】
前記装置は、どの1つ以上のシーンペイロードパケットが必要であるか、又は所定の期間内に必要とされることになるかを示す情報に応答して、前記1つ以上のシーンペイロードパケットを提供するように構成されている、
請求項18に記載の装置(300)。
【請求項29】
前記装置は、前記レンダリングのために、前記1つ以上のシーン更新パケットがシーンメタデータ(130,230)の更新を定義し、1つ以上の更新条件の表現を含むように、前記1つ以上のシーン更新パケットを提供するように構成されている、
請求項18に記載の装置(300)。
【請求項30】
前記装置は、前記シーン構成パケットの提供を周期的に繰り返すように構成されている、
請求項18に記載の装置(300)。
【請求項31】
前記装置は、前記シーン構成パケットが、シーンペイロードパケットを取り出すことができる場所を定義するように、前記シーン構成パケットを提供するように構成されている、
請求項18に記載の装置(300)。
【請求項32】
前記装置は、前記シーン更新パケットがシーン更新のための条件を定義するように、前記シーン更新パケットを提供するように構成されている、
請求項18に記載の装置(300)。
【請求項33】
前記装置は、前記シーン更新パケットがシーン更新のための対話型トリガ条件を定義するように、前記シーン更新パケットを提供するように構成されている、
請求項18に記載の装置(300)。
【請求項34】
前記装置は、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義がレンダラ(100,200)によっていつ及び/又はどこで必要とされるかに応じて、前記シーンペイロードパケット内の前記シーンオブジェクトのうちの1つ以上の前記定義及び/又は前記シーン特性のうちの1つ以上の前記定義の順序を適合させるように構成されている、
請求項18に記載の装置(300)。
【請求項35】
前記装置は、レンダラ(100,200)に対する、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義の重要性に応じて、前記シーンペイロードパケット内の前記シーンオブジェクトのうちの1つ以上の前記定義及び/又は前記シーン特性のうちの1つ以上の前記定義の順序を適合させるように構成されている、
請求項18に記載の装置(300)。
【請求項36】
前記装置は、パケットサイズ制限に応じて、前記シーンペイロードパケット内の前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義の順序を適合させるように構成されている、
請求項18に記載の装置(300)。
【請求項37】
前記装置は、最初に比較的低い詳細レベルを含むペイロードパケットを提供し、後に比較的高い詳細レベルを含むペイロードパケットを提供するように構成されている、
請求項18に記載の装置(300)。
【請求項38】
前記装置は、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義を複数のシーンペイロードパケットに分離するように構成されており、
前記装置は、異なる時間に前記異なるシーンペイロードパケットを提供するように構成されている、
請求項18に記載の装置(300)。
【請求項39】
前記装置は、シーンを、異なるレンダリングメタデータ(130,230)が有効である複数の空間領域に分解するために、前記シーン構成パケットを提供するように構成されている、
請求項18に記載の装置(300)。
【請求項40】
符号化オーディオ表現に基づいて、復号化オーディオ表現を提供するための方法(400)であって、
前記方法は、1つ以上のオーディオ信号を空間的にレンダリングすること(410)を含み、
前記方法は、異なるパケットタイプの複数のパケット(104,204,322)を受信すること(420)を含み、
前記パケットは、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する1つ以上のシーン構成パケットを含み、
前記パケットは、前記レンダリングのためのシーンメタデータの更新を定義する1つ以上のシーン更新パケットを含み、
前記パケットは、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義を含む1つ以上のシーンペイロードパケットを含み、
前記方法は、前記レンダラ構成情報に応じて、前記レンダリングのために、前記シーンペイロードパケットに含まれている1つ以上のシーンオブジェクトの定義及び/又は1つ以上のシーン特性の定義を、選択すること(440)を含み、
前記方法は、前記1つ以上のシーン更新パケットのコンテンツに応じて、1つ以上のシーンメタデータを更新すること(450)を含み、前記シーン構成パケットは、どのシーンペイロードパケットが空間及び時間の所与のポイントで必要とされるかを定義する、
方法(400)。
【請求項41】
符号化オーディオ表現を提供するための方法(500)であって、
前記方法は、1つ以上のオーディオ信号の空間レンダリングのための情報を提供すること(510)を含み、
前記方法は、異なるパケットタイプの複数のパケット(104,204,322)を提供すること(520)を含み、
前記パケットは、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する1つ以上のシーン構成パケットを含み、
前記パケットは、前記レンダリングのためのシーンメタデータの更新を定義する1つ以上のシーン更新パケットを含み、
前記パケットは、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義を含む1つ以上のシーンペイロードパケットを含み、
前記方法は、前記シーン構成パケットがどのシーンペイロードパケットが空間及び時間の所与のポイントで必要とされるかを定義するように、前記シーン構成パケットを提供することを含む、
方法(500)。
【請求項42】
コンピュータプログラムがコンピュータ上で実行されるときに請求項40又は41に記載の方法を実行するための、前記コンピュータプログラム。
【請求項43】
オーディオコンテンツを表すビットストリーム(208,302,306)であって、
前記ビットストリームは、異なるパケットタイプの複数のパケット(104,204,322)を含み、
前記パケットは、シーンオブジェクトの使用及び/又はシーン特性の使用を定義するレンダラ構成情報を提供する1つ以上のシーン構成パケットを含み、
前記パケットは、前記レンダリングのためのシーンメタデータ(130,230)の更新を定義する1つ以上のシーン更新パケットを含み、
前記パケットは、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義を含む1つ以上のシーンペイロードパケットを含み、
前記シーン構成パケットは、どのシーンペイロードパケットが空間及び時間の所与のポイントで必要とされるかを定義する、
ビットストリーム(208,302,306)。
【請求項44】
符号化オーディオ表現(102,104,202,204)に基づいて、復号化オーディオ表現(106,206)を提供するためのオーディオデコーダ(100,200)であって、
前記オーディオデコーダは、1つ以上のオーディオ信号を空間的にレンダリングするように構成されており、
前記オーディオデコーダは、異なるパケットタイプの複数のパケット(104,204,322)を受信するように構成されており、
前記パケットは、シーンオブジェクト及び/又はシーン特性を定義するレンダラ構成情報を提供する1つ以上のシーン構成パケットを含み、
前記パケットは、前記レンダリングのためのシーンメタデータ(130,230)の更新を定義する1つ以上のシーン更新パケットを含み、
前記パケットは、前記シーンオブジェクトのうちの1つ以上の定義及び/又は前記シーン特性のうちの1つ以上の定義を含む1つ以上のシーンペイロードパケットを含み、
前記オーディオデコーダは、前記レンダリングのために、前記シーンペイロードパケットに含まれている1つ以上のシーンオブジェクトの定義及び/又は1つ以上のシーン特性の定義を、選択するように構成されており、
前記オーディオデコーダは、前記1つ以上のシーン更新パケットのコンテンツに応じて、1つ以上のシーンメタデータを更新するように構成されており、
前記シーン構成パケットは、どのシーンペイロードパケットが空間及び時間の所与のポイントで必要とされるかを定義する、
オーディオデコーダ(100,200)。
【国際調査報告】