(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-02
(45)【発行日】2024-10-10
(54)【発明の名称】6DOF MPEG-Iイマーシブオーディオのエッジベースレンダリングの効率的なデリバリ方法および装置
(51)【国際特許分類】
G10L 19/008 20130101AFI20241003BHJP
G10L 19/00 20130101ALI20241003BHJP
【FI】
G10L19/008 100
G10L19/00 330B
【外国語出願】
(21)【出願番号】P 2022165141
(22)【出願日】2022-10-14
【審査請求日】2023-02-14
(32)【優先日】2021-10-15
(33)【優先権主張国・地域又は機関】GB
(73)【特許権者】
【識別番号】515076873
【氏名又は名称】ノキア テクノロジーズ オサケユイチア
(74)【代理人】
【識別番号】100099759
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100141162
【氏名又は名称】森 啓
(72)【発明者】
【氏名】スジート シャムスンダル マテ
(72)【発明者】
【氏名】ラッセ ユハニ ラークソネン
(72)【発明者】
【氏名】アンティ ヨハンネス エロネン
【審査官】山下 剛史
(56)【参考文献】
【文献】特表2020-524420(JP,A)
【文献】国際公開第2021/124903(WO,A1)
【文献】国際公開第2021/069793(WO,A1)
【文献】国際公開第2021/170903(WO,A1)
【文献】国際公開第2021/186104(WO,A1)
【文献】国際公開第2021/074007(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-19/26
H04S 1/00- 7/00
(57)【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備えた装置であって、該少なくとも1つのメモリおよび該コンピュータプログラムコードは、該少なくとも1つのプロセッサを用いて、該装置に、
少なくとも、ユーザ位置値を取得するステップと、
少なくとも1つの入力オーディオ信号と、前記少なくとも1つの入力オーディオ信号のレンダリングを可能にする関連するメタデータと、を取得するステップと、
前記少なくとも1つの入力オーディオ信号、前記メタデータ、および前記ユーザ位置値に基づいて中間フォーマット・イマーシブオーディオ信号を生成するステップと、
少なくとも1つの空間パラメータおよび前記少なくとも1つのオーディオ信号を取得するために、前記中間フォーマット・イマーシブオーディオ信号を処理するステップと、
前記少なくとも1つの空間パラメータおよび前記少なくとも1つのオーディオ信号を符号化するステップであって、前記少なくとも1つの空間パラメータおよび前記少なくとも1つのオーディオ信号は、
空間化されたオーディオ出力を少なくとも部分的に生成するように構成される、ステップと、
を実行させるように構成される、装置。
【請求項2】
前記装置は、さらに、
前記符号化された少なくとも1つの空間パラメータおよび前記少なくとも1つのオーディオ信号を、さらなる装置に送信するステップを実行し、
前記さらなる装置は、前記少なくとも1つのオーディオ信号を処理することに基づいてバイノーラルまたはマルチチャネルオーディオ信号を出力するように構成され、
前記処理はユーザ回転値および前記少なくとも1つの空間オーディオレンダリングパラメータに基づく、
請求項1に記載の装置。
【請求項3】
前記さらなる装置はユーザによって操作され、
前記取得されたユーザ位置値は、前記さらなる装置から受信される、
請求項2に記載の装置。
【請求項4】
前記装置は、ヘッドマウントデバイスから前記ユーザ位置値を受信することに基づいて、前記ユーザ位置値を取得する、請求項1に記載の装置。
【請求項5】
前記装置は、さらに、前記ユーザ位置値を送信させる、請求項2に記載の装置。
【請求項6】
前記少なくとも1つの空間パラメータおよび前記少なくとも1つのオーディオ信号を取得するために、前記中間フォーマット・イマーシブオーディオ信号は、前記装置に、メタデータアシスト空間オーディオビットストリームを生成させる、請求項1に記載の装置。
【請求項7】
前記符号化された少なくとも1つの空間パラメータおよび前記少なくとも1つのオーディオ信号は、
イマーシブボイスおよびオーディオサービスビットストリームを生成することと、
前記少なくとも1つの空間パラメータと、前記少なくとも1つのオーディオ信号とを低レイテンシ符号化することと、
のうちの少なくとも1つを前記装置に実行させる、
請求項1に記載の装置。
【請求項8】
前記処理された中間フォーマット・イマーシブオーディオ信号は、該装置に、
前記中間フォーマット・イマーシブオーディオ信号および前記少なくとも1つのオーデ
ィオ信号の間のオーディオフレーム長差を決定させ、
前記オーディオフレーム長差の前記決定に基づいて前記中間フォーマット・イマーシブオーディオ信号のバッファリングを制御させる、
請求項1に記載の装置。
【請求項9】
前記装置は、さらに、ユーザ回転値を取得させ、
前記生成された中間フォーマット・イマーシブオーディオ信号は、前記装置に、前記ユーザ回転値にさらに基づいて前記中間フォーマット・イマーシブオーディオ信号を生成させる、
請求項1に記載の装置。
【請求項10】
前記生成された中間フォーマット・イマーシブオーディオ信号は、さらに、所定のまたは合意されたユーザ回転値に基づくものであり、
前記さらなる装置は、前記少なくとも1つのオーディオ信号を処理することに基づいてバイノーラルまたはマルチチャネルオーディオ信号を出力するように構成され、
前記処理が、前記所定のまたは合意されたユーザ回転値および前記少なくとも1つの空間オーディオレンダリングパラメータに対する取得されたユーザ回転値に基づく、
請求項2に記載の装置。
【請求項11】
少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備えた装置であって、該少なくとも1つのメモリおよび該コンピュータプログラムコードは、該少なくとも1つのプロセッサを用いて、該装置に、
少なくとも、ユーザ位置値およびユーザ回転値を取得させ、
符号化された少なくとも1つのオーディオ信号および少なくとも1つの空間パラメータを取得させ、ここで、前記符号化された少なくとも1つのオーディオ信号は、前記ユーザ位置値に基づいて入力オーディオ信号を処理することによって生成された中間フォーマット・イマーシブオーディオ信号に基づいており、
前記符号化された少なくとも1つのオーディオ信号と、前記少なくとも1つの空間パラメータおよび前記ユーザ回転値とを6自由度で処理することに基づいて、出力オーディオ信号を生成させる
ように構成される、装置。
【請求項12】
前記装置はユーザによって操作され、前記装置は、前記ユーザ位置値を生成するために前記ユーザ位置値を取得するようにされる、請求項11に記載の装置。
【請求項13】
前記取得されたユーザ位置値は、ユーザによって操作されるヘッドマウントデバイスから受信される、請求項11に記載の装置。
【請求項14】
前記取得された符号化された少なくとも1つのオーディオ信号および少なくとも1つの空間パラメータが、さらなる装置から受信される、請求項11に記載の装置。
【請求項15】
前記装置は、さらに、前記ユーザ位置値および/またはユーザ方位値を前記さらなる装置から受信させる、請求項14に記載の装置。
【請求項16】
前記装置は、前記ユーザ位置値および/またはユーザ方向値を前記さらなる装置に送信し、
前記さらなる装置は、少なくとも1つの入力オーディオ信号、決定されたメタデータおよび前記ユーザ位置値に基づいて、前記中間フォーマット・イマーシブオーディオ信号を生成する
ように構成される、請求項14に記載の装置。
【請求項17】
前記さらなる装置は、さらに前記少なくとも1つの空間パラメータおよび前記少なくとも1つのオーディオ信号を取得するために前記中間フォーマット・イマーシブオーディオ信号を処理するように構成される、請求項16に記載の装置。
【請求項18】
前記中間フォーマット・イマーシブオーディオ信号が、前記中間フォーマット・イマーシブオーディオ信号の符号化圧縮性に基づいて選択されたフォーマットを有する、請求項1に記載の装置。
【請求項19】
ユーザ位置に基づいて空間化されたオーディオ出力を生成するための装置のための方法であって、前記方法は、
少なくとも1つの入力オーディオ信号と、前記少なくとも1つの入力オーディオ信号のレンダリングを可能にする関連するメタデータと、を取得するステップと、
前記少なくとも1つの入力オーディオ信号、前記メタデータ、およびユーザ位置値に基づいて中間フォーマット・イマーシブオーディオ信号を生成するステップと、
少なくとも1つの空間パラメータおよび前記少なくとも1つのオーディオ信号を取得するために、前記中間フォーマット・イマーシブオーディオ信号を処理するステップと、
前記少なくとも1つの空間パラメータおよび前記少なくとも1つのオーディオ信号を符号化するステップであって、前記少なくとも1つの空間パラメータおよび前記少なくとも1つのオーディオ信号は、前記空間化されたオーディオ出力を少なくとも部分的に生成す
るように構成される、ステップと、
を含む、方法。
【請求項20】
ユーザ位置に基づいて空間化されたオーディオ出力を生成するための装置のための方法であって、
ユーザ位置値とユーザ回転値を取得するステップと、
符号化された少なくとも1つのオーディオ信号および少なくとも1つの空間パラメータを取得するステップであって、前記符号化された少なくとも1つのオーディオ信号は、前記ユーザ位置値に基づいて入力オーディオ信号を処理することによって生成された中間フォーマット・イマーシブオーディオ信号に基づいている、ステップと、
前記符号化された少なくとも1つのオーディオ信号と、前記少なくとも1つの空間パラメータと、前記ユーザ回転値とを6自由度で処理することに基づいて、出力オーディオ信号を生成するステップと、
を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は6自由度MPEG-Iイマーシブオーディオのエッジベースレンダリングの効率的なデリバリのための方法および装置に関し、6自由度MPEG-Iイマーシブオーディオのエッジベースレンダリングのユーザ機器ベースレンダラへの効率的なデリバリのための方法および装置に関する。ただし、それに限定されるものではない。
【背景技術】
【0002】
5Gのような現代のセルラーおよびワイヤレス通信ネットワークは、様々な用途およびサービスのための計算リソースをエッジに近づけ、ミッションクリティカルネットワーク対応アプリケーションおよびイマーシブマルチメディアレンダリングの推進力を提供してきた。
【0003】
さらに、これらのネットワークは、エッジコンピューティング層と、モバイルデバイス、HMD(拡張現実/仮想現実/複合現実-AR/VR/XR用途のために構成される)、およびタブレットなどのエンドユーザメディア消費デバイスとの間の遅延および帯域幅制約を大幅に低減している。
【0004】
超低レイテンシエッジコンピューティングリソースは10ms未満のエンドツーエンドレイテンシを有する(例えば、4ms程度の低レイテンシが報告される)エンドユーザデバイスによって使用され得る。ハードウェア加速SoC(System on Chip)は、メディアエッジコンピューティングプラットフォーム上で、ボリュームメトリックおよびイマーシブメディア(6自由度-6DoFオーディオなど)のための豊富で多様なマルチメディア処理アプリケーションを活用するために、ますます展開されている。これらの傾向は、エッジコンピューティングベースのメディア符号化ならびにエッジコンピューティングベースのレンダリングを魅力的な提案として採用している。高度なメディア体験は、非常に複雑なボリュームメトリックメディアやイマーシブメディアのレンダリングを実行する能力を持たない多くのデバイスに提供することができる。
【0005】
MPEG Audio WG06で標準化されているMPEG-I6DoFオーディオフォーマットは、イマーシブオーディオシーンに応じて、計算的に非常に複雑最あることが多い。MPEG-I6DoFオーディオフォーマットからシーンを符号化し、復号し、レンダリングするプロセスは、言い換えれば、計算機的に非常に複雑、あるいは負荷が高いということである。例えば、中程度に複雑なシーンレンダリング内で、
2 次または 3 次効果のためのオーディオ(オーディオソースからの反射のモデリングなど)は、有効な画像ソースの数が多くなることがある。これにより、レンダリング(リスナ位置依存方式で実装される)だけでなく、エンコーディング(オフラインで発生する可能性がある)も、非常に複雑な命題となる。
【0006】
さらに、イマーシブオーディオおよびオーディオサービス(IVAS)コーデックは3GPP(登録商標) EVSコーデックの延伸方向であり、上述のような通信ネットワークを介した新たなイマーシブオーディオおよびオーディオサービスを意図している。そのようなイマーシブサービスはたとえば、仮想現実(VR)のためのイマーシブオーディオおよびオーディオを含む。この多目的オーディオコーデックは、スピーチ、音楽、および汎用オーディオの符号化、復号、およびレンダリングを処理することが期待される。チャネルベースやシーンベースの入力など、さまざまな入力フォーマットをサポートすることが期待されている。また、会話サービスを可能にし、様々な送信条件下で高い誤りロバスト性をサポートするために、低レイテンシで動作することも期待される。IVASコーデックの標準化は、2022年末までに完了する予定である。
【0007】
メタデータ支援空間オーディオ(MASA)は、IVASに対して提案された1つの入力フォーマットである。それは、オーディオ信号を、対応する空間メタデータ(例えば、周波数帯域における方向および直接-全エネルギー比を含む)と共に使用する。MASAストリームは、例えば、モバイルデバイスのマイクロフォンを用いて空間オーディオをキャプチャすることによって取得することができ、空間メタデータの設定は、マイクロフォン信号に基づいて推定される。MASAストリームは、他の供給源、例えば、特有の空間オーディオマイクロフォン(例えば、アンビソニックス)、スタジオミックス(例えば、5.1ミックス)、又は他の内容から、適当な形式変換の手段によって得ることもできる。そのような変換方法の1つは、Tdoc S4-191167(Nokia Corporation:Description of IVAS MASA C Reference Software;3GPP TSG-SA4#106 meeting; 21-25 October, 2019, Busan, Republic of Korea)に開示されている。
【発明の概要】
【0008】
第1の態様によれば、ユーザ位置に基づいて空間化オーディオ出力を生成するための装置であって、ユーザ位置値を取得することと、少なくとも1つの入力オーディオ信号と、少なくとも1つの入力オーディオ信号のレンダリングを可能にする関連メタデータとを取得することと、少なくとも1つの入力オーディオ信号と、メタデータと、ユーザ位置値とに基づいて中間フォーマット・イマーシブオーディオ信号を生成することと、中間フォーマット・イマーシブオーディオ信号を処理して、少なくとも1つの空間パラメータと少なくとも1つのオーディオ信号とを取得することと、少なくとも1つの空間パラメータと少なくとも1つのオーディオ信号とを符号化することとを行うように構成された手段を備える装置が提供される。ここで、少なくとも1つの空間パラメータと少なくとも1つのオーディオ信号とは、空間化されたオーディオ出力を少なくとも部分的に生成するように構成される。
【0009】
この手段は、符号化された少なくとも1つの空間パラメータと少なくとも1つのオーディオ信号とをさらなる装置に送信するようにさらに構成されることができ、さらに装置は、前記少なくとも1つのオーディオ信号の処理に基づいて、バイノーラルまたはマルチチャネルのオーディオ信号を出力するように構成され、前記処理は、前記ユーザ回転値および前記少なくとも1つの空間オーディオレンダリングパラメータに基づく。
【0010】
さらなる装置はユーザによって操作されてもよく、ユーザ位置値を取得するように構成された手段はさらなる装置からユーザ位置値を受信するように構成されてもよい。
【0011】
ユーザ位置値を取得するように構成された手段は、ユーザによって操作されるヘッドマウントデバイスからユーザ位置値を受信するように構成することができる。
【0012】
この手段は、ユーザ位置を送信するようにさらに構成することができる。
【0013】
中間形式イマーシブオーディオ信号を処理して少なくとも1つの空間パラメータを取得するように構成された手段は、メタデータアシスト空間オーディオビットストリームを生成するように構成することができる。
【0014】
少なくとも1つの空間パラメータを符号化するように構成された手段は、イマーシブボイスおよびオーディオサービスビットストリームを生成するように構成することができる。
【0015】
少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を符号化するように構成された手段は、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を低レイテンシ符号化するように構成することができる。
【0016】
中間フォーマット・イマーシブオーディオ信号を処理して、少なくとも1つの空間パラメータを取得し、少なくとも1つのオーディオ信号を取得するように構成された手段は、
中間フォーマット・イマーシブオーディオ信号と少なくとも1つのオーディオ信号との間のオーディオフレーム長差を決定し、オーディオフレーム長差の決定に基づいて中間フォーマット・イマーシブオーディオ信号のバッファリングを制御するように構成することができる。
【0017】
本願手段は、ユーザ回転値を取得するように構成され得、ここで、中間フォーマット・イマーシブオーディオ信号を生成するようにさらに構成された手段は、ユーザ回転値にさらに基づいて中間フォーマット・イマーシブオーディオ信号を生成するように構成できる。
【0018】
中間フォーマット・イマーシブオーディオ信号を生成するように構成された手段は、所定の、または合意されたユーザ回転値にさらに基づいて中間フォーマット・イマーシブオーディオ信号を生成するように構成することができ、さらなる装置は、少なくとも1つのオーディオ信号を処理することに基づいてバイノーラルまたはマルチチャネルオーディオ信号を出力するように構成することができ、この処理は所定の、または合意されたユーザ回転値および少なくとも1つの空間オーディオレンダリングパラメータに対する取得されたユーザ回転値に基づく。
【0019】
第2の態様によれば、ユーザ位置に基づいて空間化オーディオ出力を生成するための装置が提供され、装置はユーザ位置値および回転値を取得することと、符号化された少なくとも1つのオーディオ信号および少なくとも1つの空間パラメータを取得することであって、符号化された少なくとも1つのオーディオ信号は、ユーザ位置値に基づいて入力オーディオ信号を処理することによって生成された中間フォーマット・イマーシブオーディオ信号に基づいて、取得することと、符号化された少なくとも1つのオーディオ信号、少なくとも1つの空間パラメータおよびユーザ回転値を6自由度で処理することに基づいて出力オーディオ信号を生成することと、を行うように構成された手段を備える。
【0020】
この装置はユーザによって操作され得、ユーザ位置値を取得するように構成された手段はユーザ位置値を生成するように構成することができる。
【0021】
ユーザ位置値を取得するように構成された手段は、ユーザによって操作されるヘッドマウントデバイスからユーザ位置値を受信するように構成することができる。
【0022】
符号化された少なくとも1つのオーディオ信号および少なくとも1つの空間パラメータを取得するように構成された手段は、符号化された少なくとも1つのオーディオ信号および少なくとも1つの空間パラメータをさらなる装置から受信するように構成することができる。
【0023】
この手段は、ユーザ位置値および/またはユーザ方位値をさらなる機器から受信するようにさらに構成することができる。
【0024】
この手段は、ユーザ位置値および/またはユーザ配向値をさらなる装置に送信するように構成することができ、さらなる装置は少なくとも1つの入力オーディオ信号、決定されたメタデータ、およびユーザ位置値に基づいて中間フォーマット・イマーシブオーディオ信号を生成し、中間フォーマット・イマーシブオーディオ信号を処理して、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を取得するように構成することができる。
【0025】
符号化された少なくとも1つのオーディオ信号は、少なくとも1つのオーディオ信号で符号化された低レイテンシであり得る。
【0026】
中間フォーマット・イマーシブオーディオ信号は、中間フォーマット・イマーシブオーディオ信号の符号化圧縮性に基づいて選択されたフォーマットを有することができる。
【0027】
第3の態様によれば、ユーザ位置に基づいて空間化オーディオ出力を生成するための装置のための方法が提供され、該方法は、ユーザ位置値を取得することと、少なくとも1つの入力オーディオ信号と、少なくとも1つの入力オーディオ信号のレンダリングを可能にする関連メタデータとを取得することと、少なくとも1つの入力オーディオ信号と、メタデータと、ユーザ位置値とに基づいて中間フォーマット・イマーシブオーディオ信号を生成することと、中間フォーマット・イマーシブオーディオ信号を処理して、少なくとも1つの空間パラメータと少なくとも1つのオーディオ信号とを取得することと、少なくとも1つの空間パラメータと少なくとも1つのオーディオ信号とを符号化することとを備え、少なくとも1つの空間パラメータと少なくとも1つのオーディオ信号とは空間化オーディオ出力を少なくとも部分的に生成するように構成される。
【0028】
本願方法は、符号化された少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号をさらなる装置に送信することをさらに備えることができ、さらなる装置は、少なくとも1つのオーディオ信号を処理することに基づいてバイノーラルまたはマルチチャネルオーディオ信号を出力するように構成されることができ、その処理はユーザ回転値および少なくとも1つの空間オーディオレンダリングパラメータに基づく。
【0029】
さらなる装置はユーザによって操作され得、ユーザ位置値を取得することはさらなる装置からユーザ位置値を受信することを含むことができる。
【0030】
ユーザ位置値を取得することは、ユーザによって操作されるヘッドマウントデバイスからユーザ位置値を受信することを含むことができる。
【0031】
この方法は、ユーザ位置値を送信することをさらに含むことができる。
【0032】
中間フォーマット・イマーシブオーディオ信号を処理して少なくとも1つの空間パラメータを取得することは、メタデータ支援空間オーディオビットストリームを生成することを備えることができる。
【0033】
少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を符号化することは、イマーシブオーディオおよびオーディオサービスビットストリームを生成することを備えることができる。
【0034】
少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を符号化することは、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を低レイテンシ符号化することを備えることができる。
【0035】
中間フォーマット・イマーシブオーディオ信号を処理して、少なくとも1つの空間パラメータを取得し、少なくとも1つのオーディオ信号を取得することは、中間フォーマット・イマーシブオーディオ信号と少なくとも1つのオーディオ信号との間のオーディオフレーム長差を決定することと、オーディオフレーム長差の決定に基づいて中間フォーマット・イマーシブオーディオ信号のバッファリングを制御することとを備えることができる。
【0036】
本方法は、ユーザ回転値を取得することをさらに含むことができ、中間フォーマットイマーシブオーディオ信号を生成することは、ユーザ回転値にさらに基づいて中間フォーマットイマーシブオーディオ信号を生成することを備えることができる。
【0037】
中間フォーマット・イマーシブオーディオ信号を生成することは、所定のまたは合意されたユーザ回転値にさらに基づいて中間フォーマット・イマーシブオーディオ信号を生成することを備えることができ、さらなる装置は少なくとも1つのオーディオ信号を処理することに基づいてバイノーラルまたはマルチチャネルオーディオ信号を出力するように構成することができ、処理は所定のまたは合意されたユーザ回転値および少なくとも1つの空間オーディオレンダリングパラメータに対する取得されたユーザ回転値に基づいている。
【0038】
第4の態様によれば、ユーザ位置に基づいて空間化されたオーディオ出力を生成するための装置のための方法であって、ユーザ位置値および回転値を取得することと、符号化された少なくとも1つのオーディオ信号および少なくとも1つの空間パラメータを取得することであって、符号化された少なくとも1つのオーディオ信号は、ユーザ位置値に基づいて入力オーディオ信号を処理することによって生成された中間フォーマット・イマーシブオーディオ信号に基づいて、取得することと、符号化された少なくとも1つのオーディオ信号、少なくとも1つの空間パラメータ、およびユーザ回転値を6自由度で処理することに基づいて出力オーディオ信号を生成することと、を含む方法が提供される。
【0039】
装置はユーザによって操作され得、ユーザ位置値を取得することはユーザ位置値を生成することを含むことができる。
【0040】
ユーザ位置値を取得することは、ユーザによって操作されるヘッドマウントデバイスからユーザ位置値を受信することを含むことができる。
【0041】
符号化された少なくとも1つのオーディオ信号および少なくとも1つの空間パラメータを取得することは、さらなる装置から符号化された少なくとも1つのオーディオ信号および少なくとも1つの空間パラメータを受信することを備えることができる。
【0042】
この方法は、さらなる装置からユーザ位置値および/またはユーザ配向値を受信することをさらに含むことができる。
【0043】
この方法は、ユーザ位置値および/またはユーザ配向値をさらなる装置に送信することを備えることができ、さらなる装置は、少なくとも1つの入力オーディオ信号、決定されたメタデータ、およびユーザ位置値に基づいて中間フォーマットイマーシブオーディオ信号を生成し、中間フォーマットイマーシブオーディオ信号を処理して、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を取得するように構成することができる。
【0044】
符号化された少なくとも1つのオーディオ信号は、少なくとも1つのオーディオ信号で符号化された低レイテンシであり得る。
【0045】
中間フォーマット・イマーシブオーディオ信号は、中間フォーマット・イマーシブオーディオ信号の符号化圧縮性に基づいて選択されたフォーマットを有することができる。
【0046】
第5の態様によれば、ユーザ位置に基づいて空間化オーディオ出力を生成するための装置が提供され、本願装置は、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備え、少なくとも1つのメモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサを用いて、少なくとも装置に、ユーザ位置値を取得させ、少なくとも1つの入力オーディオ信号と、少なくとも1つの入力オーディオ信号のレンダリングを可能にする関連メタデータとを取得させ、少なくとも1つの入力オーディオ信号、メタデータ、およびユーザ位置値に基づいて中間フォーマット・イマーシブオーディオ信号を生成させ、中間フォーマット・イマーシブオーディオ信号を処理して、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を取得させ、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を符号化させるように構成される。ここで、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号は、少なくとも部分的に空間化オーディオ出力を生成する。
【0047】
本願装置は、符号化された少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号をさらなる装置に送信することをさらに引き起こされることができ、さらなる装置は、少なくとも1つのオーディオ信号を処理することに基づいて、バイノーラルまたはマルチチャネルオーディオ信号を出力するように構成することができる。この処理は、ユーザ回転値および少なくとも1つの空間オーディオレンダリングパラメータに基づく。
【0048】
さらなる装置はユーザによって操作されてもよく、ユーザ位置値を取得させられた装置はさらなる装置からユーザ位置値を受信することができる。
【0049】
ユーザ位置値を取得する装置は、ユーザが操作するヘッドマウントデバイスからユーザ位置値を受信することができる。
【0050】
この装置はさらに、ユーザ位置値を送信させることができる。
【0051】
中間フォーマット・イマーシブオーディオ信号を処理して少なくとも1つの空間パラメータを取得させる装置は、メタデータ支援空間オーディオビットストリームを生成させることができる。
【0052】
少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を符号化させる装置は、イマーシブオーディオおよびオーディオサービスビットストリームを生成させることができる。
【0053】
少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を符号化させる装置は、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を低レイテンシ符号化させることができる。
【0054】
中間フォーマット・イマーシブオーディオ信号を処理して、少なくとも1つの空間パラメータを取得し、少なくとも1つのオーディオ信号を取得することを行わせる装置は、
中間フォーマット・イマーシブオーディオ信号と少なくとも1つのオーディオ信号との間のオーディオフレーム長差を決定することと、オーディオフレーム長差の決定に基づいて中間フォーマット・イマーシブオーディオ信号のバッファリングを制御することとを行わせることができる。
【0055】
本願装置はユーザ回転値を取得することがさらにでき、中間フォーマットイマーシブオーディオ信号を生成する装置は、ユーザ回転値にさらに基づいて中間フォーマットイマーシブオーディオ信号を生成することができる。
【0056】
中間フォーマット・イマーシブオーディオ信号を生成させる装置は、所定のまたは合意されたユーザ回転値にさらに基づいて中間フォーマット・イマーシブオーディオ信号を生成させることができ、さらなる装置は少なくとも1つのオーディオ信号を処理することに基づいてバイノーラルまたはマルチチャネルオーディオ信号を出力するように構成されることができ、その処理は所定のまたは合意されたユーザ回転値および少なくとも1つの空間オーディオレンダリングパラメータに対する取得されたユーザ回転値に基づいている。
【0057】
第6の態様によれば、ユーザ位置に基づいて空間化されたオーディオ出力を生成するための装置が提供され、その装置は、コンピュータプログラムコードを含む少なくとも1つのプロセッサおよび少なくとも1つのメモリを備え、少なくとも1つのメモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサを用いて、装置に、ユーザ位置値および回転値を取得させ、ユーザ位置値に基づいて入力オーディオ信号を処理することによって生成された中間フォーマット・イマーシブオーディオ信号に基づいて、符号化された少なくとも1つのオーディオ信号および少なくとも1つの空間パラメータを取得させ、符号化された少なくとも1つのオーディオ信号、少なくとも1つの空間パラメータおよびユーザ回転値を6自由度での処理に基づいて、出力オーディオ信号を生成させるように構成される。
【0058】
この装置はユーザによって操作されてもよく、ユーザ位置値を取得させる装置はユーザ位置値を生成するように構成されてもよい。
【0059】
ユーザ位置値を取得させる装置は、ユーザが操作するヘッドマウントデバイスからユーザ位置値を受信させてもよい。
【0060】
符号化された少なくとも1つのオーディオ信号および少なくとも1つの空間パラメータを取得するこの装置は、符号化された少なくとも1つのオーディオ信号および少なくとも1つの空間パラメータをさらなる装置から受信することを引き起こすことができる。
【0061】
この装置はさらに、さらなる装置からユーザ位置値および/またはユーザ配向値を受信するようにできる。
【0062】
装置は、ユーザ位置値および/またはユーザ配向値をさらなる装置に送信させることができ、さらなる装置は、少なくとも1つの入力オーディオ信号、決定されたメタデータ、およびユーザ位置値に基づいて中間フォーマット・イマーシブオーディオ信号を生成し、中間フォーマット・イマーシブオーディオ信号を処理して、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を取得するように構成することができる。
【0063】
符号化された少なくとも1つのオーディオ信号は、少なくとも1つのオーディオ信号で符号化された低レイテンシであり得る。
【0064】
中間フォーマット・イマーシブオーディオ信号は、中間フォーマット・イマーシブオーディオ信号の符号化圧縮性に基づいて選択されたフォーマットを有することができる。
【0065】
第7の態様によれば、ユーザ位置に基づいて空間化オーディオ出力を生成するための装置であって、ユーザ位置値を取得するための手段と、少なくとも1つの入力オーディオ信号と、少なくとも1つの入力オーディオ信号のレンダリングを可能にする関連メタデータとを取得する手段と、少なくとも1つの入力オーディオ信号と、メタデータと、ユーザ位置値とに基づいて、中間フォーマットイマーシブオーディオ信号を生成するための手段と、少なくとも1つの空間パラメータと少なくとも1つのオーディオ信号とを取得するために中間フォーマットイマーシブオーディオ信号を処理するための手段と、少なくとも1つの空間パラメータと少なくとも1つのオーディオ信号とを符号化するための手段とを備える装置であり、ここで、少なくとも1つの空間パラメータと少なくとも1つのオーディオ信号とは、空間化オーディオ出力を少なくとも部分的に生成するように構成される、装置が提供される。
【0066】
第8の態様によれば、ユーザ位置に基づいて空間化オーディオ出力を生成するための装置が提供され、この装置は、ユーザ位置値および回転値を取得するための手段と、符号化された少なくとも1つのオーディオ信号および少なくとも1つの空間パラメータを取得するための手段であって、ここで、該符号化された少なくとも1つのオーディオ信号は、ユーザ位置値に基づいて入力オーディオ信号を処理することによって生成された中間フォーマットのイマーシブオーディオ信号に基づいている、手段と、符号化された少なくとも1つのオーディオ信号、少なくとも1つの空間パラメータおよびユーザ回転値を6自由度で処理することに基づいて出力オーディオ信号を生成するための手段、を含む。
【0067】
第9の態様によれば、ユーザ位置に基づいて空間化されたオーディオ出力を生成するための装置に、少なくとも、ユーザ位置値を取得することと、少なくとも1つの入力オーディオ信号と、少なくとも1つの入力オーディオ信号のレンダリングを可能にする関連メタデータとを取得することと、少なくとも1つの入力オーディオ信号、メタデータ、およびユーザ位置値に基づいて中間フォーマットイマーシブオーディオ信号を生成することと、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を取得するために中間フォーマットイマーシブオーディオ信号を処理することと、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を符号化することとを実行させるための命令[またはプログラム命令を含むコンピュータ可読メディア]を含むコンピュータ・プログラムが提供される。ここで、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号は、空間化オーディオ出力を少なくとも部分的に生成するように構成される。
【0068】
本願第10の態様によれば、装置に、ユーザ位置値および回転値を取得することと、符号化された少なくとも1つのオーディオ信号および少なくとも1つの空間パラメータを取得することと、ここで、該符号化された少なくとも1つのオーディオ信号は、ユーザ位置値に基づいて入力オーディオ信号を処理することによって生成された中間フォーマットのイマーシブオーディオ信号に基づいており、符号化された少なくとも1つのオーディオ信号、少なくとも1つの空間パラメータおよびユーザ回転値を6自由度で処理することに基づいて出力オーディオ信号を生成することと、を少なくとも実行させるための命令[またはプログラム命令を備えるコンピュータ可読メディア]を備えるコンピュータプログラムが提供される。
【0069】
第11の態様によれば、ユーザ位置値を取得することと、少なくとも1つの入力オーディオ信号と、少なくとも1つの入力オーディオ信号のレンダリングを可能にする関連メタデータとを取得することと、少なくとも1つの入力オーディオ信号と、メタデータと、ユーザ位置値とに基づいて中間フォーマットイマーシブオーディオ信号を生成することと、中間フォーマットイマーシブオーディオ信号を処理して、少なくとも1つの空間パラメータと少なくとも1つのオーディオ信号とを取得することと、少なくとも1つの空間パラメータと少なくとも1つのオーディオ信号とを符号化することとを実行させる少なくとも装置に実行させるためのプログラム命令を含む、非一時的なコンピュータ可読メディアが提供され、ここで、少なくとも1つの空間パラメータと少なくとも1つのオーディオ信号とは、空間化オーディオ出力を少なくとも部分的に生成するように構成される。
【0070】
第12の態様によれば、装置に、ユーザ位置に基づいて空間化オーディオ出力を生成するための装置であって、ユーザ位置値および回転値を取得することと、符号化された少なくとも1つのオーディオ信号および少なくとも1つの空間パラメータを取得することと、ここで、該符号化された少なくとも1つのオーディオ信号は、ユーザ位置値に基づいて入力オーディオ信号を処理することによって生成された中間フォーマットのイマーシブオーディオ信号に基づいており、符号化された少なくとも1つのオーディオ信号、少なくとも1つの空間パラメータおよびユーザ回転値を6自由度で処理することに基づいて出力オーディオ信号を生成することと、を行うように構成された手段を備え、装置を実行させるためのプログラム命令を備える、非一時的コンピュータ可読メディアが提供される。
【0071】
第13の態様によれば、ユーザ位置値を取得するように構成された取得回路と、少なくとも1つの入力オーディオ信号と、前記少なくとも1つの入力オーディオ信号のレンダリングを可能にする関連メタデータとを取得するように構成された取得回路と、前記少なくとも1つの入力オーディオ信号と、前記メタデータと、前記ユーザ位置値とに基づいて中間フォーマット・イマーシブオーディオ信号を生成するように構成された生成回路と、前記中間フォーマット・イマーシブオーディオ信号を処理して、前記少なくとも1つの空間パラメータと前記少なくとも1つのオーディオ信号とを取得し、前記少なくとも1つの空間パラメータと前記少なくとも1つのオーディオ信号とを符号化するように構成された処理回路と、を備える装置が提供される。ここで、前記少なくとも1つの空間パラメータと前記少なくとも1つのオーディオ信号とは、前記空間化オーディオ出力を少なくとも部分的に生成するように構成される。
【0072】
第14の態様によれば、ユーザ位置値および回転値を取得するように構成された取得回路と、符号化された少なくとも1つのオーディオ信号および少なくとも1つの空間パラメータを取得するように構成された取得回路と、ここで、該符号化された少なくとも1つのオーディオ信号は、ユーザ位置値に基づいて入力オーディオ信号を処理することによって生成された中間フォーマットのイマーシブオーディオ信号に基づいており、前記符号化された少なくとも1つのオーディオ信号、前記少なくとも1つの空間パラメータおよび前記ユーザ回転値を6自由度で処理することに基づいて、出力オーディオ信号を生成するように構成された生成回路と、を備える装置が提供される。
【0073】
第15の態様によれば、装置に、ユーザ位置値を取得することと、少なくとも1つの入力オーディオ信号と、少なくとも1つの入力オーディオ信号のレンダリングを可能にする関連メタデータとを取得することと、少なくとも1つの入力オーディオ信号、メタデータ、およびユーザ位置値に基づいて中間フォーマットイマーシブオーディオ信号を生成することと、中間フォーマットイマーシブオーディオ信号を処理して、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を取得することと、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を符号化することと、を少なくとも実行させるためのプログラム命令を備えるコンピュータ可読メディアが提供され、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号は、空間化オーディオ出力を少なくとも部分的に生成するように構成される。
【0074】
第16の態様によれば、装置に、ユーザ位置値および回転値を取得することと、符号化された少なくとも1つのオーディオ信号および少なくとも1つの空間パラメータを取得することと、ここで、該符号化された少なくとも1つのオーディオ信号は、ユーザ位置値に基づいて入力オーディオ信号を処理することによって生成された中間フォーマットのイマーシブオーディオ信号に基づいており、符号化された少なくとも1つのオーディオ信号、少なくとも1つの空間パラメータおよびユーザ回転値を6自由度で処理することに基づいて出力オーディオ信号を生成することと、を少なくとも実行させるためのプログラム命令を備えるコンピュータ可読メディアが提供される。
【0075】
本願手段は、上述のような動作を実行するための手段を含む。
【0076】
本願装置は、上述のような方法の動作を実行するように構成される。
【0077】
コンピュータに上述の方法を実行させるためのプログラム命令を含むコンピュータプログラム。
【0078】
メディア上に記憶されたコンピュータプログラム製品は装置に、本明細書で説明する方法を実行させ得る。電子デバイスは、本明細書で説明されるような装置を備えることができる。
【0079】
チップセットは、本明細書に記載の装置を備えてもよい。
【0080】
本出願の実施形態は、最新技術に関連する課題に対処することを目的とする。
【図面の簡単な説明】
【0081】
本出願をより良く理解するために、ここで、例として添付の図面を参照する。
【
図1a】
図1aおよび1bは、いくつかの実施形態が実施され得る装置の適切なシステムを概略的に示す。
【
図1b】
図1aおよび1bは、いくつかの実施形態が実施され得る装置の適切なシステムを概略的に示す。
【
図2】
図2は、MPEG-IフレームレートとIVASフレームレートとの間の例示的な転化を概略的に示す。
【
図3】
図3は、いくつかの実施形態を実装するのに適したエッジレイヤおよびユーザ機器装置を概略的に示す。
【
図4】
図4は、いくつかの実施形態による、
図3に示されるようなエッジレイヤおよびユーザ機器装置の例示的動作のフロー図を示す。
【
図5】
図5は、いくつかの実施形態による、
図2に示されるようなシステムの例示的動作のフロー図を示す。
【
図6】
図6はいくつかの実施形態による、
図2に示される低レイテンシレンダ出力をさらに詳細に概略的に示す。
【
図7】
図7は、示される装置を実装するのに適した例示的なデバイスを概略的に示す。
【発明を実施するための形態】
【0082】
以下では、6DoF MPEG-Iイマーシブオーディオのエッジベースのレンダリングの効率的なデリバリのための適切な装置および可能な機構をさらに詳細に説明する。
【0083】
上述のような初期反射モデリング、回折、オクルージョン、拡張ソースレンダリングなどの音響モデリングは、中程度に複雑なシーンに対してさえ、計算上非常に要求が厳しくなる可能性がある。
例えば、大きなシーン(すなわち、多数の反射要素を有するシーン)をレンダリングし、
高い妥当性を有する出力を生成するために、二次またはより高次の反射のための初期反射モデリングを実施することを試みることは、非常にリソース集約的である。
したがって、6DoFシーンにおいて、複雑なシーンをレンダリングするための柔軟性を定義することにおいて、コンテンツ作成者にとって有意な利益がある。
これは、レンダリングデバイスが高品質のレンダリングを提供するためのリソースを有していない場合にはより重要である。
【0084】
このレンダリングデバイスリソースの問題に対するソリューションは、エッジにおける複雑6DoFオーディオシーンのレンダリングの提供である。
言い換えれば、エッジコンピューティング層を使用して、高度な妥当性を有する複雑なシーンのための物理または知覚音響ベースのレンダリングを提供する。
【0085】
以下において、複雑6DoFシーンは、多数のソース(静的又は動的、移動するソースであってもよい)を有する6DoFシーン、並びに反射、オクルージョン及び回折特性を有する複数の表面又は幾何学的要素を有する複雑シーンジオメトリを含むシーンを指す。
【0086】
エッジベースのレンダリングの適用はシーンをレンダリングするために必要とされる計算リソースのオフロードを可能にすることによって支援し、したがって、限られたコンピューティングリソースを有するデバイスであっても、非常に複雑なシーンの消費を可能にする。これは、MPEG-I含有量のためのより広いターゲットアドレス可能市場をもたらす。
【0087】
そのようなエッジレンダリングアプローチの課題は、レンダリングされたオーディオを、リスナの向きおよび位置の変化に確実に応答しながら、効率よくリスナーに届けること、そして、リスナーの方向や位置の変化に対応し、真実味と没入感を維持することである。
【0088】
MPEG-I 6DOF Audioフォーマットのエッジレンダリングは、(HMD、携帯電話、又はARガラス上のよう)消費デバイスにおける従来のレンダリングとは異なる構成又は制御を必要とする。6DOF含有量はヘッドホンを介してローカルデバイス上で消費されるとき、ヘッドホン出力モードに設定される。しかしながら、ヘッドホン出力は、IVASのための提案された入力フォーマットの1つMASA(メタデータ支援空間オーディオ)のような空間オーディオフォーマットへの変換には最適ではない。したがって、エンドポイント消費がヘッドフォンであるにもかかわらず、MPEG-Iレンダラ出力は、IVAS支援エッジレンダリングを介して消費される場合、「ヘッドフォン」に出力するように構成することができない。
【0089】
したがって、レンダリングされたオーディオの空間オーディオ特性を保持し、耳の待ち時間に対する応答性のある知覚される動きを維持しながら、エッジベースのレンダリングを可能にするビットレート効率の良いソリューションを有する必要がある。これはエッジベースのレンダリングが(帯域幅制約を有する)現実世界のネットワーク上で実行可能である必要があり、ユーザはユーザの聴取位置および向きの変化に対する遅延した応答を経験すべきではないため、重要である。これは、6DoFの没入感および妥当性を維持するために必要とされる。以下の開示における耳に対する動きの待ち時間は、頭部の動きの変化に基づいて、知覚されるオーディオシーンの変化の効果をもたらすのに必要な時間である。
【0090】
現在のアプローチは、クラウドレイヤではなくエッジレイヤにおいて実装され得るヘッド配向変化に基づいて、オーディオフレームの遅延補正を用いて、完全にプリレンダリングされたオーディオを提供することを試みている。したがって、本明細書の実施形態で説明する概念は分散自由視点オーディオレンダリングを提供するように構成された1つまたは提供する装置および方法であり、プリレンダリングは、効率的な送信を提供し、第2のインスタンス(UE)におけるユーザの3DoF配向に基づいてユーザにバイノーラルにレンダリングされる3DoF空間オーディオへの知覚的に動機付けられた変換をレンダリングするために、ユーザの6DoF位置に基づいて第1のインスタンス(ネットワークエッジ層)において実行される。
【0091】
したがって、本明細書で説明する実施形態はUEの能力を拡張し(たとえば、6DoFオーディオレンダリングのためのサポートを追加する)、最も高い複雑度の復号およびレンダリングをネットワークに割り振り、効率的な高品質の伝達および空間オーディオのレンダリングを可能にし、一方で、より低いモーション対音レイテンシを達成し、したがって、ネットワークエッジのみでレンダリングすることによって達成可能であるものよりも、ユーザの向きに従って、より正確で自然な空間レンダリングを実現する。
【0092】
以下の開示では、エッジレンダリングが、低レイテンシ(または超低レイテンシ)データリンクを介して適切な消費デバイスに接続されたネットワークエッジ層ベースのコンピューティングリソース上で(少なくとも部分的に)レンダリングを実行することを指す。例えば、5GセルラーネットワークにおけるgNodeBに近接するコンピューティングリソースである。
【0093】
本明細書の実施形態はさらに、いくつかの実施形態では、分散された6自由度(すなわち、リスナがシーン内で移動することができ、リスナ位置が追跡される)オーディオレンダリングおよび配信に関し、空間オーディオキューを保持しながら、部分的にレンダリングされたオーディオのビットレート効率的な低レイテンシ配信を達成し、耳の待ち時間に対する応答運動を維持するために、低レイテンシ通信コーデックを使用して、6DoFオーディオレンダラによって生成された3DoFイマーシブオーディオ信号を符号化および送信する方法が提案される。
【0094】
いくつかの実施形態では、これは、(たとえば、UEから位置を受信することによって)ユーザ位置を取得し、少なくとも1つのオーディオ信号と、少なくとも1つのオーディオ信号(MPEG-I EIF)の6DoFレンダリングを可能にするメタデータとを取得し、少なくとも1つのオーディオ信号と、メタデータと、ユーザヘッド位置とを使用して、イマーシブオーディオ信号をレンダリングすること(MPEG-IレンダリングをHOAまたはLSにレンダリングすること)によって達成される。
【0095】
実施形態はさらに、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ搬送信号(たとえば、メタデータ支援空間オーディオ-MASAフォーマットの一部として)を取得するためにイマーシブオーディオ信号を処理し、低レイテンシを有するオーディオコーデック(IVASベースのコーデックなど)を使用して、別のデバイスに少なくとも1つの空間パラメータおよび少なくとも1つの搬送信号を符号化および送信することを説明する。
【0096】
他のデバイス上のいくつかの実施形態では、ユーザ頭部配向(UE頭部追跡)を取得し、ユーザ頭部配向および少なくとも1つの空間パラメータを使用し、少なくとも1つのトランスポート信号をバイノーラル出力にレンダリングする(たとえば、IVASフォーマットオーディオを適切なバイノーラルオーディオ信号出力にレンダリングする)ことができる。
【0097】
いくつかの実施形態では、イマーシブオーディオ信号をレンダリングするためのオーディオフレーム長が低レイテンシオーディオコーデックと同じであると決定される。
【0098】
さらに、いくつかの実施形態ではイマーシブオーディオレンダリングのオーディオフレーム長が低レイテンシオーディオコーデックと同じであることができない場合、FIFOバッファは過剰サンプルを収容するようにインスタンス化される。例えば、EVS/IVASは20msフレーム毎に960サンプルを予想し、これは240サンプルに対応する。MPEG-Iが240サンプルのフレーム長で動作する場合、それはロックステップにあり、追加の中間バッファリングはない。MPEG-Iが256で動作する場合、追加のバッファリングが必要である。
【0099】
いくつかのさらなる実施形態では、ユーザ位置の変化が許容可能なユーザ翻訳をサウンドレイテンシに得るために、閾値周波数よりも高く、閾値レイテンシよりも低い周波数でレンダラに配信される。
【0100】
そのような方法で、実施形態は、リソース制約付きデバイスが6自由度イマーシブオーディオシーンの非常に複雑なシーンを消費することを可能にする。このような消費がないと、かなりの計算リソースを備えた消費デバイスでしか実現できず、提案された方法は、より低い電力要件を有するデバイスでの消費を可能にする。
【0101】
さらに、これらの実施形態は、限られた計算リソースでのレンダリングと比較して、オーディオシーンをより詳細にレンダリングすることを可能にする。
【0102】
これらの実施形態における頭部の動きは、低レイテンシ空間オーディオの「オン・デバイス」レンダリングに即座に反映される。リスナー翻訳は、リスナー位置がエッジレンダラにリレーされるとすぐに反映される。
【0103】
さらに、動的に修正することができる複雑な仮想環境でさえ、ARメガネ、VRメガネ、モバイル装置などのリソース制約消費デバイス上で高品質で仮想音響シミュレートすることができる。
【0104】
図1aおよび1bに関して、実施形態が実施され得る例示的なシステムが示される。エッジベースのレンダリングのためのエンドツーエンドシステムのこの高レベルの概要は、システムの
図1aに関して、3つの主要部分に分けることができる。これらの3つの部分は、クラウド層/サーバ101、エッジ層/サーバ111、およびUE 121(またはユーザ機器)である。さらに、エッジベースのレンダリングのためのエンドツーエンドシステムの高レベルの概要は、クラウド層/サーバ101がコンテンツ作成サーバ160とクラウド層/サーバ/CDN161とに分割されるシステムの
図1bに関して、4つの部分に分けることができる。
図1bの例は、コンテンツの作成および符号化が別個のサーバにおいて行われることができ、生成されたビットストリームがUE位置に応じてエッジレンダラによってアクセスされるために、適切なクラウドサーバまたはCDNに記憶またはホストされることを示す。エッジベースのレンダリングのためのエンドツーエンドシステムに関するクラウド層/サーバ101はネットワーク内のUE位置に近接していてもよいし、それとは無関係であってもよい。
クラウド層/サーバ101は、6DoFオーディオコンテンツが生成または記憶される場所またはエンティティである。この例では、クラウド層/サーバ101が6DoFオーディオフォーマットのためのMPEG-Iイマーシブオーディオにおいてオーディオコンテンツを生成/記憶するように構成される。
【0105】
したがって、いくつかの実施形態では、
図1aに示されるクラウド層/サーバ101がMPEG-Iエンコーダ103を備え、
図1bではコンテンツ作成サーバ160がMPEG-Iエンコーダ103を備える。MPEG-Iエンコーダ103は、コンテンツ作成者シーン記述またはエンコーダ入力フォーマット(EIF)ファイル、関連するオーディオデータ(生オーディオファイルおよびMPEG-H符号化オーディオファイル)の助けを借りて、MPEG-I6DoFオーディオコンテンツを生成するように構成される。
【0106】
さらに、クラウド層/サーバ101は、
図1aに示されるようなMPEG-I含有量ビットストリーム出力105を備え、
図1bに示されるように、クラウド層/サーバ/CDN161は、MPEG-I含有量ビットストリーム出力105を備える。MPEG-I含有量ビットストリーム出力105は、MPEG-Iエンコーダ出力をMPEG-I含有量ビットストリームとして、任意の利用可能または適切なインターネットプロトコル(IP)ネットワークまたは任意の他の適切な通信ネットワークを介して出力またはストリーミングするように構成される。
【0107】
エッジ層/サーバ111は、エンドツーエンドシステムにおける第2のエンティティである。エッジベースのコンピューティング層/サーバまたはノードは、ネットワーク内のUE位置に基づいて選択される。これは、エッジコンピュータ層とエンドユーザ消費デバイス(UE 121)との間の最小データリンク待ち時間のプロビジョニングを可能にする。
いくつかのシナリオでは、エッジレイヤ/サーバ111が、UE121が接続される基地局(たとえば、gNodeB)とコロケートされることができ、それは最小のエンドツーエンドレイテンシをもたらすことができる。
【0108】
クラウド層/サーバ/CDN161がMPEG-I含有量ビットストリーム出力105を含む、
図1bに示されるようないくつかの実施形態では、エッジサーバ111がクラウドまたはCDN161から検索するMPEG-I含有量ビットストリーム(すなわち、6DoFオーディオシーンビットストリーム)を記憶するためのMPEG-I含有量バッファ163を備える。いくつかの実施形態では、エッジレイヤ/サーバ111がMPEG-Iエッジレンダラ113を備える。MPEG-Iエッジレンダラ113は、クラウド層/サーバ出力105(またはクラウド層/サーバ一般)またはMPEG-I含有量バッファ163からMPEFG-I含有量ビットストリームを取得するように構成され、ユーザ位置(またはより一般的には消費デバイスまたはUE位置)に関する情報を低レイテンシレンダアダプタ115から取得するようにさらに構成される。MPEG-Iエッジレンダラ113は、ユーザ位置(x,y,z)情報に応じてMPEG-I含有量ビットストリームをレンダリングするように構成される。
【0109】
エッジレイヤ/サーバ111は、低レイテンシレンダアダプタ115をさらに備える。低レイテンシレンダアダプタ115は、MPEG-Iエッジレンダラ113の出力を受信し、
MPEG-Iレンダリングされた出力を、低レイテンシデリバリのための効率的な表現に適したフォーマットに変換し、次いで、それを消費デバイスまたはUE121に出力するように構成される。したがって、低レイテンシレンダアダプタ115は、MPEG-I出力フォーマットをIVAS入力フォーマット116に変換するように構成される。
【0110】
いくつかの実施形態では、低レイテンシレンダアダプタ115が6DoFオーディオレンダリングパイプラインの別のステージであり得る。そのような追加のレンダリング段は、低レイテンシ配信モジュールのための入力としてネイティブに最適化される出力を生成することができる。
【0111】
いくつかの実施形態では、エッジ後/サーバ111が、UE121内のプレーヤアプリケーションから受信されたレンダラ設定情報に従ってMPEG-Iエッジレンダラ113の必要な構成および制御を実行するように構成されたエッジレンダコントローラ117を備える。
【0112】
これらの実施形態では、UE121が6DoFオーディオシーンのリスナによって使用される消費デバイスである。UE121は、適切なデバイスであり得る。たとえば、UE121は、モバイルデバイス、ヘッドマウント装置(HMD)、拡張現実(AR)メガネ、またはヘッドトラッキングを伴うヘッドフォンであり得る。UE121は、ユーザ位置/向きを取得するように構成される。例えば、いくつかの実施形態では、UE121が、ユーザが6DoF含有量を消費しているときにユーザの位置を決定するために、ヘッドトラッキングおよび位置トラッキングを備える。6DoFシーンにおけるユーザの位置126は、6DoFレンダリングのための位置の変換または変更に影響を与えるために、UEから、エッジレイヤ/サーバ111内に位置するMPEG-Iエッジレンダラ(低レイテンシレンダアダプタ115を介して)に配信される。
【0113】
いくつかの実施形態では、低レイテンシ空間レンダ受信器123が低レイテンシレンダアダプタ115の出力を受信し、これをヘッドトラッキング空間オーディオレンダラ125に渡すように構成される。
【0114】
UE121はさらに、ヘッドトラッキング空間オーディオレンダラ125を備えることができる。頭部追跡空間オーディオレンダラ125は低レイテンシ空間レンダレシーバ123の出力およびユーザ頭部回転情報を受信し、それに基づいて適切な出力オーディオレンダリングを生成するように構成される。ヘッドトラッキング空間オーディオレンダラ125は、リスナが一般により敏感である3DOF回転自由度を実装するように構成される。
【0115】
いくつかの実施形態では、UE121がレンダラ制御部127を備える。レンダラ制御部127は、エッジレンダラ113の構成および制御を開始するように構成される。
【0116】
エッジレンダラ113および低レイテンシレンダアダプタ115に関して、MPEG-6DoFオーディオコンテンツのエッジベースレンダリングを実装し、5G ULLRC(超低レイテンシ信頼性通信)リンクなどの低レイテンシ高帯域幅リンクを介して接続され得るエンドユーザにそれを配信するためのいくつかの要件が続く。
【0117】
いくつかの実施形態では、MPEG-I6DoFオーディオレンダリングの時間フレーム長が任意の中間バッファリング遅延を最小化するために、低レイテンシ配信フレーム長と整合される。たとえば、低レイテンシ転送フォーマットフレーム長が240サンプル(サンプリングレート48KHz)である場合、いくつかの状況では、MPEG-Iレンダラ113が240サンプルのオーディオフレーム長で動作するように構成される。この例は図の上半分によって
図2に示されており、MPEG-I出力201はフレーム当たり240サンプルであり、IVAS入力203もまた、フレーム当たり240サンプルであり、フレーム長変換またはバッファリングは存在しない。
【0118】
したがって、例えば、
図2の下部ではMPEG-I出力211がフレーム当たり128、256サンプルであり、IVAS入力213はフレーム当たり240サンプルである。これらの実施形態では、入力がMPEG-I出力からのものであり、出力がIVAS入力213へのものであるFIFOバッファ212が挿入され得、したがって、フレーム長変換またはバッファリングが実施される。
【0119】
いくつかの実施形態では、MPEG-I 6DoFオーディオが必要に応じて、デフォルト設定リスニングモード指定フォーマットの代わりに中間フォーマットにレンダリングされるべきである。中間フォーマットへのレンダリングの必要性は、レンダラ出力の重要な空間特性を保持することである。これは、効率的で低レイテンシのデリバリにより適したフォーマットに変換するときに、必要な空間オーディオキューを用いてレンダリングされたオーディオの忠実な再生を可能にする。したがって、これは、いくつかの実施形態ではリスナーの妥当性および没入感を維持することができる。
【0120】
いくつかの実施形態では、レンダラ制御部127からエッジレンダラ制御部117への構成情報が、
【数1】
のデータフォーマットである。いくつかの実施形態では、listening_mode変数(またはパラメータ)が6DOFオーディオコンテンツを消費するエンドユーザリスナ方法を定義する。
これは、いくつかの実施形態では以下の表に定義される値を有することができる。
【表1】
いくつかの実施形態では、rendering_mode変数(またはパラメータ)がMPEG-Iレンダラを利用するための方法を定義する。
指定されないとき、または値rendering_mode値が0であり得る場合、デフォルトモードは、MPEG-Iレンダリングがローカルに実行される。MPEG-Iエッジレンダラはrendering_mode値が1であるとき、効率的な低レイテンシデリバリでエッジベースのレンダリングを実行するように構成される。このモードでは、低レイテンシレンダアダプタ115も使用される。rendering_mode値が2である場合、エッジベースのレンダリングが実施され、低レイテンシレンダアダプタ115も使用される。
【0121】
しかし、rendering_mode値が1であるとき、中間フォーマットは低レイテンシコーデックを用いたさらなる符号化および復号化を伴うので、低レイテンシ効率の配信メカニズムを介してオーディオを転送しながら、空間オーディオ特性の忠実な再生を可能にすることが必要である。一方、rendering_mode値が2である場合、レンダラ出力は、それ以上圧縮することなくlistening_mode値に従って生成される。
【0122】
したがって、2の直接フォーマット値は(たとえば、1~4msの送信遅延を有する専用ネットワークスライスの場合)十分な帯域幅および超低レイテンシネットワーク配信パイプが存在するネットワークに有用である。rendering_mode値が1である間接フォーマットで利用される方法は、低レイテンシ伝達を有するより大きな帯域幅制約を有するネットワークに適している。
【表2】
6dof_audio_frame_lengthはインジェスチョンのための動作オーディオバッファフレーム長であり、出力として配信される。これは、サンプルの数に関して表すことができる。典型的な値は、128、240、256、512、1024などである。
【0123】
いくつかの実施形態では、sampling_rate変数(またはパラメータ)が1秒当たりのオーディオサンプリングレートの値を示す。いくつかの例示的な値は、48000、44100、96000などであり得る。この例では、MPEG-Iレンダラならびに低レイテンシ転送のために、共通サンプリングレートが使用される。いくつかの実施形態では、それぞれが異なるサンプリングレートを有することができる。
【0124】
いくつかの実施形態では、low_latency_transfer_format変数(またはパラメータ)が低レイテンシデリバリコーデックを示す。これは、低レイテンシデリバリに適した空間オーディオのための任意の効率的な表現コーデックであり得る。
【0125】
いくつかの実施形態では、low_latency_transfer_frame_length変数(またはパラメータ)がサンプル数に関して低レイテンシデリバリコーデックフレーム長を示す。低レイテンシ転送フォーマットおよびフレーム長可能値は、以下に示される。
【表3】
【0126】
いくつかの実施形態では、intermediate_format_type変数(またはパラメータ)が何らかの理由で、rendering_modeを別のフォーマットに変換する必要があるときに、MPEG-Iレンダラのために構成されるオーディオ出力のタイプを示す。そのような動機の1つは、空間特性を縮小させることなく、その後の圧縮に適したフォーマットを有することであり得る。例えば、低レイテンシデリバリのための効率的な表現、すなわち、rendering_mode値を1として表現する。いくつかの実施形態では、以下でより詳細に説明する、変換のための他の動機付けがあり得る。
【0127】
いくつかの実施形態では、エンドユーザリスニングモードがオーディオレンダリングパイプライン構成および構成要素レンダリング段に影響を与える。例えば、所望のオーディオ出力がヘッドフォンへのものである場合、最終的なオーディオ出力は、バイノーラルオーディオとして直接合成することができる。対照的に、ラウドスピーカ出力の場合、オーディオレンダリングステージは、バイノーラルレンダリングステージなしでラウドスピーカ出力を生成するように構成される。
【0128】
いくつかの実施形態ではrendering_modeのタイプに応じて、6DoFオーディオレンダラ(またはMPEG-Iイマーシブオーディオレンダラ)の出力はlistening_modeとは異なり得る。そのような実施形態では、レンダラが、それが低レイテンシの効率的な配信フォーマットを介して配信されるとき、MPEG-Iレンダラ出力の顕著なオーディオ特性を保持することを容易にするために、intermediate_format_type変数(またはパラメータ)に基づいてオーディオ信号をレンダリングするように構成され、例えば、以下のオプションを採用することができる。
【表4】
【0129】
6DoFオーディオのエッジベースのレンダリングを可能にするための例示的なintermediate_format_type変数(またはパラメータ)オプションは例えば、以下の通りであり得る。
【表5】
図3および
図4は、ヘッドトラッキングされたオーディオレンダリングを用いたMPEG-I 6DoFオーディオコンテンツのエッジベースレンダリングのための例示的な装置およびフロー図を提示する。
【0130】
いくつかの実施形態では、EDGE層/サーバMPEG-Iエッジレンダラ113が、MPEG-I符号化オーディオ信号を入力として受信し、これをMPEG-I仮想シーンエンコーダ303に渡すように構成されたMPEG-Iエンコーダ入力301を備える。
【0131】
さらに、いくつかの実施形態では、EDGE層/サーバMPEG-Iエッジレンダラ113が、MPEG-I符号化オーディオ信号を受信し、仮想シーンモデリングパラメータを抽出するように構成されたMPEG-I仮想シーンエンコーダ303を備える。
【0132】
EDGE層/サーバMPEG-Iエッジレンダラ113は、VLS/HOA305に対するMPEG-Iレンダラをさらに備える。VLS/HOAへのMPEG-Iレンダラは仮想シーンパラメータおよびMPEG-Iオーディオ信号を取得し、さらに、ユーザ位置トラッカ304からの信号ユーザ変換を取得し、(リスナによるヘッドホンリスニングの場合であっても)VLS/HOAフォーマットでMPEG-Iレンダリングを生成するように構成される。MPEG-Iレンダリングは、最初のリスナ位置に対して実行される。
【0133】
低レイテンシレンダアダプタ115はさらに、MASAフォーマット変換器307を備える。MASAフォーマット変換器307は、レンダリングされたMPEG-Iオーディオ信号を適切なMASAフォーマットに変換するように構成される。これは、次いで、IVASエンコーダ309に提供され得る。
【0134】
低レイテンシレンダアダプタ115はさらに、IVASエンコーダ309を備える。IVASエンコーダ309は、符号化されたIVASビットストリームを生成するように構成される。
【0135】
いくつかの実施形態では、符号化されたIVASビットストリームがUEへのIPリンクを介してIVASデコーダ311に提供される。
【0136】
いくつかの実施形態ではUE121が、低レイテンシ空間レンダ受信器123を備え、それは次に、IVASビットストリームを復号し、それをMASAフォーマットとして出力するように構成されたIVASデコーダ311を備える。
【0137】
いくつかの実施形態ではUE121が頭部追跡空間オーディオレンダラ125を備え、これは次に、MASAフォーマット入力313を備える。MASAフォーマット入力はIVASデコーダの出力を受け取り、それをMASA外部レンダラ315に渡す。
【0138】
さらに、ヘッドトラッキング空間オーディオレンダラ125は、いくつかの実施形態ではユーザ位置トラッカ304からヘッドモーション情報を取得し、適切な出力フォーマット(たとえば、ヘッドフォンのバイノーラルオーディオ信号)をレンダリングするように構成されたMASA外部レンダラ315を備える。MASA外部レンダラ315は、ローカルレンダリングおよびヘッドトラッキングに起因する最小の知覚可能な待ち時間で3DoF回転自由度をサポートするように構成される。位置情報としてのユーザ翻訳情報は、エッジベースのMPEG-Iレンダラに返送される。いくつかの実施形態における6DoFオーディオシーンにおけるリスナの位置情報および任意選択的に回転は、RTCPフィードバックメッセージとして配信される。いくつかの実施形態では、エッジベースのレンダリングがレンダリングされたオーディオ情報をUEに配信する。これにより、受信器は新しい並進位置に切り替える前に、向きを再調整することができる。
【0139】
【0140】
まず、ステップ401によって、
図4に示すようなMPEG-Iエンコーダ出力が得られる。
【0141】
次に、ステップ403によって、
図4に示すように、仮想シーンパラメータが決定される。
【0142】
ユーザの位置/向きは、ステップ404によって
図4に示されるように取得される。
【0143】
次に、MPEG-Iオーディオはステップ405によって、
図4に示すように、仮想シーンパラメータおよびユーザ位置に基づいて、VLS/HOAフォーマットとしてレンダリングされる。
【0144】
VLS/HOAフォーマットレンダリングは、ステップ407によって
図4に示されるようにMASAフォーマットに変換される。
【0145】
MASAフォーマットは、ステップ409によって
図4に示されるようにIVAS符号化される。
【0146】
次いで、ステップ411によって、IVAS符号化された(部分的にレンダリングされた)オーディオが復号されることが、
図4に示されている。
【0147】
デコードされたIVASオーディオは次いで、ステップ413によって、
図4に示されるように、ヘッド(回転)関連レンダリングに渡される。
【0148】
次に、ステップ415によって、
図4に示されるように、デコードされたIVASオーディオは、ユーザ/頭部回転情報に基づいて、頭部(回転)関連レンダリングされる。
【0149】
図5に関して、
図3および
図1の装置の動作の流れ図をさらに詳細に示す。
【0150】
ステップ501によって
図5に示されるような第1の動作において、エンドユーザは、消費される6DoFオーディオコンテンツを選択する。これは、6DOF含有量ビットストリームへのURLポインタおよび関連するマニフェスト(たとえば、MPDまたはメディアプレゼンテーション記述)によって表すことができる。
【0151】
次いで、いくつかの実施形態では、ステップ503(UEレンダラ制御部)によって
図5に示されるように、たとえば、0または1または2とすることができるrender_modeを選択する。render_mode値0が選択された場合、MPDはMPEG-I 6DoF含有量ビットストリームを取り出し、それをUE上のレンダラでレンダリングするために使用され得る。render_mode値1または2が選択されている場合、エッジベースのレンダラを設定する必要がある。render_mode、low_latency_transfer_format、および関連するlow_latency_transfer_frame_lengthなどの必要な情報は、エッジレンダラコントローラにシグナリングされる。加えて、エンドユーザ消費方法、すなわちlistener_modeもシグナリングすることができる。
【0152】
UEは、以下の構造によって表される構成情報を配信するように構成することができる。
【数2】
【0153】
ステップ505(エッジ・レンダラ・コントローラ)によって、
図5に示されるように、空間オーディオ特性の損失を最小限に抑えながら、低レイテンシ転送フォーマットに変換するために、MPEG-Iレンダラの出力フォーマットとして適切な中間フォーマットを決定する。様々な可能な暫定フォーマットが上記に列挙されており、適切な暫定フォーマットが選択されている。
【0154】
さらに、いくつかの実施形態におけるステップ507および509によって
図5に示されるように、方法(エッジレンダラコントローラ)は、MPEG-Iレンダラ(6dof_audio_frame_length)および低レイテンシ転送フォーマット(low_latency_transfer_frame_length)からサポートされる時間フレーム長情報を取得する。
【0155】
その後、ステップ511によって
図5に示されるように、適切な待ち行列機構(例えば、FIFO待ち行列)が、オーディオフレーム長(発生すると決定された)における視差を処理するために実装される。16個のMPEG-Iレンダラ出力フレームごとに17個のオーディオフレームのデリバリを成功させるために、低レイテンシ転送は、MPEG-Iレンダラと比較してより厳しい動作制約を有する必要があることに留意されたい。例えば、MPEG-Iレンダラがフレーム長256サンプルを有するが、IVASフレーム長は240サンプルのみである。期間において、MPEG-Iレンダラは16フレーム、すなわち4096を出力し、遅延蓄積を回避するために、240サンプルサイズの17フレームを配信するために、低レイテンシ転送が必要とされる。これは、低レイテンシレンダアダプタ動作のための変換処理、コーディング、および送信制約を決定する。
【0156】
判定された中間フォーマット(例えば、LS、HOA)へのMPEG-Iのレンダリングは、ステップ513によって
図5に示される。
【0157】
次いで、本方法はステップ514によって
図5に示されるように、レンダリングされたオーディオ空間パラメータ(例えば、レンダリングされた中間フォーマットの位置および向き)を追加することを含むことができる。
【0158】
いくつかの実施形態では、ステップ515によって
図5に示されるように、MPEG-Iレンダラ出力は中間フォーマットで低レイテンシ転送入力フォーマット(例えば、MASA)に変換される。
【0159】
次に、ステップ517によって、MASAフォーマットでレンダリングされたMPEG-I出力は、
図5に示すようにIVAS符号化ビットストリームに符号化される。
【0160】
IVAS符号化ビットストリームはステップ519によって、
図5に示されるように、適切なネットワークビットパイプを介してUEに配信される。
【0161】
図5に示されるように、いくつかの実施形態におけるステップ521(UE)は、受信されたIVAS符号化ビットストリームを復号する。
【0162】
加えて、ステップ523によって
図5に示されるようないくつかの実施形態では、UEが3つの回転自由度を用いて、復号された出力のヘッドトラッキングされたレンダリングを実行する。
【0163】
最後に、UEはステップ525によって
図5に示されるように、位置フィードバックメッセージとしてRTCPフィードバックメッセージとしてユーザ翻訳情報を送信する。レンダラは、ステップ513から開始して、525において取得された新しい位置でシーンをレンダリングし続ける。いくつかの実施形態では、ネットワークジッタによるユーザ位置および/または回転情報信号に不一致がある場合、ドップラー処理における適切な平滑化が行われる。
【0164】
図6に関して、ULLRCを可能にする5Gネットワークスライスを利用するMPEG-I 6DoFオーディオのエッジベースレンダリングの例示的な展開が示される。
図6の上部は、UE内のMPEG-Iレンダラがオーディオ信号をレンダリングすることができないが、リスニングモードを決定するように構成されていると決定するときなどの従来のアプリケーションを示す。
【0165】
図6の下部はエッジベースのレンダリング装置を示し、さらに、低レイテンシレンダアダプタ115の例をさらに詳細に示す。例示的な低レイテンシレンダアダプタ115は例えば、リスニングモードの代わりにMPEG-Iエッジレンダラ113の出力を受信するように構成された中間出力601を備えるように示されている。
【0166】
さらに、低レイテンシレンダアダプタ115は、MPEG-I出力フレームとIVAS入力フレームとの間にフレーム長差があるかどうかを決定し、上述のように適切なフレーム長補償を実装するように構成された時間フレーム長マッチャ605を備える。
【0167】
さらに、低レイテンシレンダアダプタ115は、例えば、MPEG-Iフォーマット信号をMASAフォーマット信号に変換するように構成された低レイテンシ変換器607を備えるように示されている。
【0168】
さらに、低レイテンシレンダアダプタ115は、MASAまたは適切な低レイテンシフォーマットオーディオ信号を受信し、それらを低レイテンシ符号化ビットストリームとして出力する前にそれらを符号化するように構成された低レイテンシ(IVAS)エンコーダ609を備える。
【0169】
上記で説明したようなUEは、ヘッドトラッキングされたレンダリングを実行し、リスナ位置をMPEG-Iエッジレンダラ113にさらに出力するようにさらに構成されたヘッドトラッキングされたレンダラ125に信号を出力する低レイテンシ空間(IVAS)デコーダ123を備える適切な低レイテンシ空間レンダリング受信器を備えることができる。
【0170】
いくつかの実施形態ではリスナ/ユーザ(例えば、ユーザ機器)はリスナ方位値をエッジ層/サーバに渡すように構成される。しかしながら、いくつかの実施形態では、エッジレイヤ/サーバがデフォルト設定または所定の向きのための低レイテンシレンダリングを実装するように構成される。そのような実施形態では、回転デリバリがセッションのための一定の向きを仮定することによってスキップされ得る。例えば、ヨー・ピッチロールの場合は(0,0,0)である。
【0171】
次いで、「ローカル」レンダリングが、リスナの頭の向きに基づいて所望の向きへのパンニングを実行する、デフォルト設定または所定の向きのオーディオデータがリスニングデバイスに提供される。
【0172】
言い換えれば、例示的な展開は、従来のMPEG-Iレンダリングにおける黒い矢印によって表される従来のネットワーク接続性、ならびにエッジベースレンダリングのための5G対応ULLRC、ならびに低レイテンシフィードバックリンクを介したMPEG-Iレンダラへのユーザ位置および/または配向フィードバックのデリバリを活用する。例は5G ULLRCを示すが、任意の他の適切なネットワークまたは通信リンクが使用され得ることに留意されたい。フィードバックリンクは、レンダリングを生成するためにフィードバック信号を搬送しているので、高帯域幅を必要とせず、ローエンドツーエンドレイテンシを優先することが重要である。この例では低レイテンシ転送コーデックとしてIVASを示しているが、他の低レイテンシコーデックも使用することができる。実装の一実施形態では、MPEG-IレンダラパイプラインがMPEG-Iレンダラの組み込みレンダリング段として低レイテンシ転送配信を組み込むように拡張される(たとえば、ブロック601はMPEG-Iレンダラの一部であり得る)。
【0173】
上述の実施形態では、トラッキングを用いてイマーシブオーディオシーンを生成するための装置があるが、リスナまたはユーザ位置に基づいて空間化されたオーディオ出力を生成するための装置としても知られ得る。
【0174】
上記の実施形態で詳述したように、これらの実施形態の目的は、リソース制約なしに高品質のイマーシブオーディオシーンレンダリングを実行し、リソース制約付き再生デバイスにレンダリングされたオーディオを利用可能にすることである。これは、エッジコンピューティングノードと再生消費デバイスとの間の低レイテンシ接続を介して接続されるエッジコンピューティングノードを活用することによって実行することができる。ユーザの動きに対する応答性を維持するためには、低い待ち時間応答が必要とされる。低レイテンシネットワーク接続にもかかわらず、実施形態は、中間フォーマットでのイマーシブオーディオシーンレンダリング出力の低レイテンシ効率的符号化を有することを目的とする。低レイテンシ符号化はエッジから再生消費デバイスへの効率的なデータ転送のために、追加のレイテンシペナルティが最小化されることを確実にするのに役立つ。低レイテンシ符号化は、(エッジノードにおけるイマーシブオーディオシーンレンダリング、エッジレンダリングから出力される中間フォーマットの符号化、符号化されたオーディオの復号、伝達レイテンシを含む)全体の許容可能なレイテンシと比較した相対値である。たとえば、会話コーデックは、最大32msの符号化および復号待ち時間を有することができる。一方、最大1msであり得る低レイテンシ符号化技法が存在する。いくつかの実施形態におけるコーデック選択において採用される基準は、最小の帯域幅要件および最小のエンドツーエンドコーディングレイテンシで再生消費デバイスに配信されるべき中間レンダリング出力フォーマットの転送を有することである。
【0175】
図7に関して、上に示した装置のいずれかを表すことができる例示的な電子デバイスである。このデバイスは、エンドユーザが操作する任意の適切な電子デバイスまたは装置であってもよい。例えば、いくつかの実施形態では、デバイス1400がモバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオ再生装置などである。しかしながら、例示的な電子デバイスは少なくとも部分的に、分散コンピューティングリソースの形成でエッジレイヤ/サーバ111またはクラウドレイヤ/サーバ101を表し得る。
【0176】
いくつかの実施形態では、デバイス1400が少なくとも1つのプロセッサまたは中央処理装置1407を備える。プロセッサ1407は、本明細書で説明されるような方法などの様々なプログラムコードを実行するように構成することができる。
【0177】
いくつかの実施形態では、デバイス1400がメモリ1411を備える。いくつかの実施形態では、少なくとも1つのプロセッサ1407がメモリ1411に結合される。メモリ1411は、任意の適切な記憶手段とすることができる。いくつかの実施形態では、メモリ1411がプロセッサ1407上で実施可能なプログラムコードを記憶するためのプログラムコードセクションを備える。さらに、いくつかの実施形態では、メモリ1411がデータ、たとえば、本明細書で説明する実施形態に従って処理された、または処理されるべきデータを記憶するための記憶データセクションをさらに備えることができる。プログラムコードセクション内に記憶された実施されたプログラムコードおよび記憶されたデータセクション内に記憶されたデータは、必要に応じて、メモリ-プロセッサ結合を介してプロセッサ1407によって取り出すことができる。
【0178】
いくつかの実施形態では、デバイス1400がユーザインターフェース1405を備える。ユーザインターフェース1405は、いくつかの実施形態ではプロセッサ1407に結合され得る。いくつかの実施形態では、プロセッサ1407がユーザインターフェース1405の動作を制御し、ユーザインターフェース1405から入力を受信することができる。いくつかの実施形態では、ユーザインターフェース1405が、ユーザが例えばキーパッドを介して、デバイス1400にコマンドを入力することを可能にすることができる。いくつかの実施形態では、ユーザインターフェース1405が、ユーザがデバイス1400から情報を取得することを可能にすることができる。例えば、ユーザインターフェース1405は、デバイス1400からの情報をユーザに表示するように構成されたディスプレイを備えてもよい。ユーザインターフェース1405は、いくつかの実施形態では、情報がデバイス1400に入力されることを可能にすることと、デバイス1400のユーザに情報をさらに表示することとの両方が可能なタッチスクリーンまたはタッチインターフェースを備えることができる。いくつかの実施形態では、ユーザインターフェース1405が本明細書で説明されるように、位置決定器と通信するためのユーザインターフェースであり得る。
【0179】
いくつかの実施形態では、デバイス1400が入力/出力ポート1409を備える。いくつかの実施形態では、入力/出力ポート1409がトランシーバを備える。そのような実施形態におけるトランシーバはプロセッサ1407に結合され、例えば、無線通信ネットワークを介して、他の装置または電子デバイスとの通信を可能にするように構成することができる。トランシーバまたは任意の好適なトランシーバまたは送信機および/または受信機手段は、いくつかの実施形態では有線または有線結合を介して他の電子デバイスまたは装置と通信するように構成することができる。
【0180】
トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。例えば、いくつかの実施形態では、トランシーバが、適切なユニバーサルモバイルテレコミュニケーションシステム(UMTS)プロトコル、例えばIEEE802.Xなどのワイヤレスローカルエリアネットワーク(WLAN)プロトコル、Bluetooth(登録商標)などの適切な短距離無線周波数通信プロトコル、または赤外線データ通信経路(IRDA)を使用することができる。
【0181】
トランシーバ入力/出力ポート1409は、信号を受信するように構成され得、いくつかの実施形態では適切なコードを実行するプロセッサ1407を使用することによって、本明細書で説明するようにパラメータを決定する。
【0182】
また、本明細書では上記で例示的な実施形態を説明したが、本発明の技術的範囲から逸脱することなく、開示されたソリューションに対して行うことができるいくつかの変形形態および修正形態があることに留意されたい。
【0183】
一般に、様々な態様は、ハードウェアまたは専用回路、ソフトウェア、ロジック、またはそれらの任意の組合せで実装され得る。本開示のいくつかの態様は、ハードウェアで実装され得、他の態様は、コントローラ、マイクロプロセッサ、または他の計算デバイスによって実行され得るファームウェアまたはソフトウェアで実装され得るが、本開示はそれらに限定されない。本開示の様々な態様は、ブロック図、フローチャートとして、または何らかの他の図表現を使用して図示および目的され得るが、本明細書で目的するこれらのブロック、装置、システム、技術または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路または論理、汎用ハードウェアもしくはコントローラ、または他の計算デバイス、あるいはそれらの何らかの組合せで実装され得ることが十分に理解される。
【0184】
本出願で使用される場合、「回路」という用語は、以下のうちの1つまたは複数またはすべてを指し得る。
(a)ハードウェアのみの回路実装(アナログおよび/またはデジタル回路のみの実装など)、および
(b)(該当する場合)などのハードウェア回路とソフトウェアの組み合わせ
(i)アナログおよび/またはデジタルハードウェア回路とソフトウェア/ファームウェアとの組み合わせ、および、
(ii)(デジタル信号プロセッサを含む)ソフトウェア、ソフトウェア、およびメモリを有するハードウェアプロセッサの任意の部分は、携帯電話またはサーバなどの装置に様々な機能を実行させるように協働する
(c)ハードウェア回路および/または動作のためにソフトウェア(例えば、ファームウェア)を必要とするマイクロプロセッサまたはマイクロプロセッサの一部などのプロセッサを含むが、動作のために必要とされないときにはソフトウェアは存在しなくてもよい。
【0185】
回路のこの定義は、任意の特許請求の範囲を含む、本出願におけるこの用語の全ての使用に適用される。さらなる例として、本出願で使用されるように、回路という用語は、単にハードウェア回路もしくはプロセッサ(または複数のプロセッサ)、またはハードウェア回路もしくはプロセッサの一部、およびそれ(またはそれらの)付随するソフトウェアおよび/またはファームウェアの実装も包含する。
【0186】
回路という用語は例えば、特定の請求項要素に適用可能な場合、サーバ、セルラーネットワークデバイス、または他のコンピューティングもしくはネットワークデバイスにおけるモバイルデバイスまたは同様の集積回路のためのベースバンド集積回路またはプロセッサ集積回路も包含する。
【0187】
本開示の実施形態は、プロセッサエンティティ内などのモバイルデバイスのデータプロセッサによって、またはハードウェアによって、またはソフトウェアとハードウェアとの組合せによって実行可能なコンピュータソフトウェアによって実装され得る。ソフトウェアルーチン、アプレット、および/またはマクロを含む、プログラム製品とも呼ばれるコンピュータソフトウェアまたはプログラムは、任意の装置可読データ記憶メディアに記憶され得、それらは特定のタスクを実行するためのプログラム命令を備える。コンピュータプログラム製品はプログラムが実行されるとき、実施形態を実行するように構成される、1つまたは複数のコンピュータ実行可能構成要素を備えることができる。1つまたは複数のコンピュータ実行可能コンポーネントは、少なくとも1つのソフトウェアコードまたはその一部であってもよい。
【0188】
さらに、この点に関して、図のような論理フローの任意のブロックは、プログラムステップ、または相互接続された論理回路、ブロックおよび機能、またはプログラムステップと論理回路、ブロックおよび機能の組合せを表し得ることに留意されたい。ソフトウェアは、メモリチップなどの物理的メディア、またはプロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピーディスクなどの磁気メディア、およびたとえばDVDおよびそのデータ変異体CDなどの光メディアに記憶され得る。物理メディアは、非一時的なメディアである。
【0189】
メモリはローカル技術環境に適した任意のタイプのものとすることができ、半導体ベースの記憶デバイス、磁気記憶デバイスおよびシステム、光メモリおよびシステム、固定メモリおよび取り外し可能メモリなどの任意の適切なデータ記憶技術を使用して実装することができる。データプロセッサは、ローカル技術環境に適した任意のタイプであってもよく、非限定的な例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、FPGA、ゲートレベル回路、およびマルチコアプロセッサアーキテクチャに基づくプロセッサのうちの1つまたは複数を備えてもよい。
【0190】
本開示の実施形態は、集積回路モジュールなどの様々な部品において実施され得る。集積回路の設計は、大規模で高度に自動化された処理によるものである。論理レベル設計を、エッチングされて半導体基板上に形成される準備ができた半導体回路設計に変換するために、複雑で強力なソフトウェアツールが利用可能である。
【0191】
本開示の様々な実施形態のために求められる保護の範囲は、独立請求項によって示される。本明細書に記載され、独立請求項の技術的範囲に含まれない実施形態および特徴は、本開示の様々な実施形態を理解するのに有用な例として解釈されるべきである。
【0192】
前述の説明は、非限定的な例として、本開示の例示的な実施形態の完全かつ有益な説明を提供した。しかしながら、添付の図面および付随の請求項を熟読する際に、前述の説明を考慮して、種々の修正および適合が、当業者に明白になる。しかしながら、本開示の教示のすべてのそのようなおよび同様の修正は、添付の特許請求の範囲に定義される本発明の範囲内に依然として含まれる。実際、1つ以上の実施形態と、先に論じた他の実施形態のいずれかとの組み合わせを含むさらなる実施形態がある。