(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-12-06
(54)【発明の名称】没入型メディアの互換性
(51)【国際特許分類】
G06T 19/00 20110101AFI20231129BHJP
G06F 3/04815 20220101ALI20231129BHJP
H04N 21/431 20110101ALI20231129BHJP
【FI】
G06T19/00 300B
G06F3/04815
H04N21/431
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023530542
(86)(22)【出願日】2022-08-23
(85)【翻訳文提出日】2023-05-19
(86)【国際出願番号】 US2022075334
(87)【国際公開番号】W WO2023028479
(87)【国際公開日】2023-03-02
(32)【優先日】2021-08-23
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-08-22
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ティエン,ジュン
(72)【発明者】
【氏名】シュー,シャオジョン
(72)【発明者】
【氏名】リウ,シャン
【テーマコード(参考)】
5B050
5C164
5E555
【Fターム(参考)】
5B050AA10
5B050BA09
5B050BA11
5B050CA07
5B050EA27
5B050FA02
5B050FA05
5B050FA08
5C164GA07
5C164PA31
5C164SB02S
5C164UA31S
5C164UB82P
5E555AA27
5E555BA08
5E555BA87
5E555BA88
5E555BB08
5E555BC08
5E555BC09
5E555BD01
5E555BE17
5E555DA08
5E555DB57
5E555DC43
5E555FA00
(57)【要約】
本開示の態様は、オーディオ処理のための方法及び機器を提供する。いくつかの例では、メディア処理のための機器は処理回路を含む。処理回路は、メディア・アプリケーションのシーンのメディアコンテンツに関連付けられた第1の6自由度(6DoF)情報を受信する。第1の6DoF情報には、第1の空間位置と、第1の空間位置を中心としたその周りの回転のための第1の回転の向きとが含まれる。処理回路は、メディアコンテンツをレンダリングするためのレンダリングプラットフォームが3自由度(3DoF)プラットフォームであると決定し、少なくとも第1の空間位置に従って、第1の空間位置以外を中心とする球体上のメディアコンテンツの回転運動の向きを計算する。回転運動の向きは、3DoFプラットフォームでレンダリングするためのメディアコンテンツに関連付けられた3DoF情報である。
【特許請求の範囲】
【請求項1】
メディア処理装置でメディアを処理する方法であって、当該方法は、
メディア・アプリケーションのシーンのメディアコンテンツに関連付けられた第1の6自由度(6DoF)情報を受信するステップであって、該第1の6DoF情報には、第1の空間位置と該第1の空間位置を中心とする第1の回転の向きとが含まれる、ステップと、
前記メディアコンテンツをレンダリングするためのレンダリングプラットフォームが3自由度(3DoF)プラットフォームであると決定するステップと、
少なくとも前記第1の空間位置に従って、前記第1の空間位置以外を中心とする球体上の前記メディアコンテンツの回転運動の向きを計算するステップであって、該回転運動の向きは、前記3DoFプラットフォームでレンダリングするための前記メディアコンテンツに関連付けられた3DoF情報である、ステップと、を含む、
方法。
【請求項2】
前記第1の空間位置は、3次元(3D)デカルト座標系の3つの軸にそれぞれ関連付けられた3つの座標値によって前記3Dデカルト座標系で記述される、請求項1に記載の方法。
【請求項3】
前記メディア・アプリケーションのユーザに関連付けられた第2の6DoF情報を受信するステップであって、該第2の6DoF情報には、第2の空間位置と、該第2の空間位置を中心とする第2の回転の向きとが含まれる、ステップと、
前記第1の空間位置及び前記第2の空間位置に従って、前記第2の空間位置を中心とする前記球体上の前記メディアコンテンツの前記回転運動の向きを計算するステップと、をさらに含む、請求項2に記載の方法。
【請求項4】
前記第2の空間位置を中心とする前記球体上の前記メディアコンテンツの前記回転運動の向きを計算するステップは、
前記第1の空間位置と前記第2の空間位置との間の距離を計算するステップであって、該距離を使用して、前記メディアコンテンツのオーディオのゲインを調整する、ステップをさらに含む、請求項3に記載の方法。
【請求項5】
前記第2の空間位置を中心とする前記球体上の前記メディアコンテンツの前記回転運動の向きを計算するステップは、
前記球体上の開始点から前記球体上の前記第1の空間位置まで前記球体上で回転させるための回転行列を決定するステップと、
該回転行列に基づいて前記回転運動の向きを計算するステップと、をさらに含む、請求項3に記載の方法。
【請求項6】
前記第2の空間位置を中心とする前記球体上の前記メディアコンテンツの前記回転運動の向きを計算するステップは、
前記第1の空間位置と前記第2の空間位置との間の距離を計算するステップと、
前記第1の空間位置に対応する単位球体上の終点を決定するステップであって、該単位球体は、前記第2の空間位置を中心とし、単位半径を有する、ステップと、
始点から前記終点まで前記単位球体上で回転させるための回転行列を決定するステップと、
該回転行列に基づいて前記回転運動の向きを計算するステップと、をさらに含む、請求項3に記載の方法。
【請求項7】
前記第1の空間位置は、半径距離、方位角、及び極角によって3次元(3D)極座標系で記述される、請求項1に記載の方法。
【請求項8】
前記球体上の前記メディアコンテンツの前記回転運動の向きを計算するステップは、
前記方位角を前記回転運動の向きのヨー角に変換するステップと、
前記極角を前記回転運動の向きのピッチ角及びロール角に変換するステップと、を含む、請求項7に記載の方法。
【請求項9】
前記メディア処理装置はメディアクライアント装置であり、当該方法は、
前記回転運動の向きに従って前記メディアコンテンツをレンダリングするステップをさらに含む、請求項1に記載の方法。
【請求項10】
前記メディア処理装置はメディアサーバ装置であり、当該方法は、
前記回転の向きに関連付けられた前記メディアコンテンツを前記メディアサーバ装置からメディアクライアント装置に提供するステップをさらに含む、請求項1に記載の方法。
【請求項11】
処理回路を含む、メディア処理の機器であって、
前記処理回路は、
請求項1乃至10のいずれか一項に記載の方法を行うように構成される、
機器。
【請求項12】
命令を記憶する非一時的なコンピュータ可読記憶媒体であって、前記命令が少なくとも1つのプロセッサによって実行されると、該少なくとも1つのプロセッサに、
請求項1乃至10のいずれか一項に記載の方法を実行させる、
非一時的なコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
参照による組込み
本願は、2022年8月22日に出願した、“IMMERSIVE MEDIA COMPATIBILITY”という表題の米国特許出願第17/892,976号に対する優先権の利益を主張するものであり、この出願は、2021年8月23日に出願した、“IMMERSIVE MEDIA COMPATIBILITY”という表題の米国仮出願第63/260,508号に対する優先権の利益を主張する。先の出願の開示は、その全体が参照により本明細書に組み込まれる。
【0002】
本開示は、一般にメディア処理に関連する実施形態を説明する。
【背景技術】
【0003】
本明細書で提供する背景技術の説明は、本開示の文脈を一般的に提示することを目的としている。現在名前が載っている発明者の研究は、この背景技術の段落に記載されている範囲で、出願時に先行技術として認められない可能性のある説明の態様と同様に、明示的又は黙示的に本開示に対する先行技術として認めるものではない。
【0004】
仮想現実又は拡張現実のアプリケーションでは、ユーザにアプリケーションの仮想世界において存在感を抱かせるために、アプリケーションの仮想シーンにおけるビデオ、オーディオ又は他の刺激が現実世界のように知覚される。いくつかの例では、現実世界でのユーザの物理的な動きは、アプリケーションの仮想シーンでの動きと一致していると知覚される。さらに、ユーザは、現実的であると知覚され且つ現実世界でのユーザの経験と一致するメディアを使用して、仮想シーンと対話することができる。
【発明の概要】
【0005】
本開示の態様は、メディア処理のための方法及び機器を提供する。いくつかの例では、メディア処理のための機器は処理回路を含む。処理回路は、メディア・アプリケーションのシーンのメディアコンテンツに関連付けられた第1の6自由度(6DoF)情報を受信する。第1の6DoF情報には、第1の空間位置と、第1の空間位置を中心としたその周りの回転のための第1の回転の向き(rotation orientation)とが含まれる。処理回路は、メディアコンテンツをレンダリングするためのレンダリングプラットフォームが3自由度(3DoF)プラットフォームであると決定し、少なくとも第1の空間位置に従って、第1の空間位置以外を中心とする球体上のメディアコンテンツの回転運動の向き(revolution orientation)を計算する。回転運動の向きは、3DoFプラットフォームでレンダリングするためのメディアコンテンツに関連付けられた3DoF情報である。
【0006】
いくつかの実施形態では、第1の空間位置は、3次元(3D)デカルト座標系の3つの軸にそれぞれ関連付けられた3つの座標値によって3Dデカルト座標系で記述される。
【0007】
いくつかの例では、処理回路は、メディア・アプリケーションのユーザに関連付けられた第2の6DoF情報を受信する。第2の6DoF情報には、第2の空間位置と、第2の空間位置を中心とするその周りの回転のための第2の回転の向きとが含まれる。処理回路は、第1の空間位置及び第2の空間位置に従って、第2の空間位置を中心とする球体上のメディアコンテンツの回転運動の向きを計算する。
【0008】
一例では、処理回路は、第1の空間位置と第2の空間位置との間の距離を計算し、距離は、メディアコンテンツのオーディオのゲインを調整するために使用される。
【0009】
いくつかの例では、処理回路は、球体上の開始点から球体上の第1の空間位置まで球体上で回転させるための回転行列を決定し、回転行列に基づいて回転運動の向きを計算する。
【0010】
いくつかの例では、処理回路は、第1の空間位置と第2の空間位置との間の距離を計算し、第1の空間位置に対応する単位球体上の終点を決定する。単位球体は、第2の空間位置を中心とし、単位半径を有する。処理回路は、始点から終点まで単位球体上で回転させるための回転行列を決定し、回転行列に基づいて回転運動の向きを計算する。
【0011】
いくつかの実施形態では、第1の空間位置は、半径距離、方位角、及び極角によって3次元(3D)極座標系で記述される。いくつかの例では、処理回路は、方位角を回転運動の向きのヨー角に変換し、極角を回転運動の向きのピッチ角及びロール角に変換する。
【0012】
いくつかの例では、メディア処理装置はメディアクライアント装置であり、処理回路は、回転運動の向きに従ってメディアコンテンツをレンダリングする。
【0013】
いくつかの例では、メディア処理装置はメディアサーバ装置であり、処理回路は、次に、メディアサーバ装置からメディアクライアント装置に回転運動の向きに関連付けられたメディアコンテンツを提供する。
【0014】
本開示の態様は、命令を記憶する非一時的なコンピュータ可読媒体も提供し、命令がコンピュータによって実行されると、コンピュータに、メディア処理のための方法を実行させる。
【図面の簡単な説明】
【0015】
開示する主題の更なる特徴、性質、及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになろう。
【
図1A】いくつかの例において6自由度(6DoF)及び3自由度(3DoF)を使用する環境を示す図である。
【
図1B】いくつかの例において6自由度(6DoF)及び3自由度(3DoF)を使用する環境を示す図である。
【
図1C】いくつかの例において6自由度(6DoF)及び3自由度(3DoF)を使用する環境を示す図である。
【
図2】本開示の一実施形態によるメディアシステムのブロック図である。
【
図3】本開示のいくつかの実施形態によるプロセスを概説するフローチャートである。
【
図4】一実施形態によるコンピュータシステムの概略図である。
【発明を実施するための形態】
【0016】
本開示の態様は、没入型メディアの互換性を改善するための技術を提供する。没入型の技術により、没入型メディアは、デジタルシミュレーションを通じて物理的な世界を形成又は模倣しようとする。本開示の一態様によれば、没入型メディア・アプリケーションの機器は、6自由度(6DoF)、及び3自由度(3DoF)等、異なる自由度をサポートすることができる。6DoFをサポートする機器は、6DoFをサポートするハードウェア及びソフトウェアを含む6DoFプラットフォームと呼ぶことができる。3DoFをサポートする機器は、3DoFをサポートするハードウェア及びソフトウェアを含む3DoFプラットフォームと呼ぶことができる。一部のメディアコンテンツは、6DoFプラットフォーム上でユーザと対話するために生成され、6DoFメディアコンテンツと呼ばれる。一部のメディアコンテンツは、3DoFプラットフォーム上でユーザと対話するために生成され、3DoFメディアコンテンツと呼ばれる。本開示は、没入型メディアコンテンツを調整して、没入型メディアの互換性を改善するための技術を提供する。具体的には、これらの技術は、3DoFプラットフォームで使用する6DoFメディアコンテンツに適用することができる。
【0017】
本開示のいくつかの態様によれば、いくつかの技術は、没入型メディアと呼ばれるデジタルシミュレーションを通じて物理的な世界を形成又は模倣しようとする。没入型メディア処理は、「没入型のオーディオ」、「没入型のビデオ」、及び「システムサポート」を含む、MPEG-I(Moving Picture Expert Group Immersive)規格スイート等の没入型メディア規格に従って実装することができる。没入型メディア規格は、ユーザが6自由度(6DoF)を使用して環境をナビゲートし及びこれと対話できるVR又はARプレゼンテーションをサポートすることができる。6DoFとは、3次元空間における剛体の動きの自由度を指す。その剛体の動きには並進運動及び回転運動が含まれる。
【0018】
図1Aは、いくつかの例において6自由度(6DoF)を使用する環境(100A)を示す図を示している。ユーザの6DoFの動きには、並進運動及び回転運動が含まれる。例えば、並進運動は、3次元空間でのユーザの位置(a,b,c)を使用する、ユーザの空間ナビゲーションとして表すことができる。aの変化はX軸に沿った動き(例えば、前後)であり、bの変化はY軸に沿った動き(例えば、左右)であり、cの変化はZ軸に沿った動き(例えば、上下)である。回転運動(rotational motion)は、ユーザの頭の向き(α1,β1,γ1)を使用してユーザの向きとして表すことができる。ここで、α1は、Z軸周りの回転角度であり、ヨー角とも呼ばれる。β1は、Y軸周りの回転角度であり、ピッチ角とも呼ばれる。γ1は、X軸周りの回転角度であり、ロール角とも呼ばれる。
図1Aに示すように、ユーザの回転の向き(α1,β1,γ1)は、ユーザの空間位置(a,b,c)を中心とする。
【0019】
一方、
図1Aはユーザの6DoFを示しているが、同様の規定を他の剛体に適用することができる。例えば、6DoFは、環境(100A)内のスピーカ、仮想オブジェクト等の音源に対して同様に規定することができる。
【0020】
図1Bは、いくつかの例において6自由度(6DoF)を使用する環境(100B)を示す図を示している。環境(100B)には、ユーザ及びスピーカが含まれる。ユーザの6DoFは、環境(100A)と同様に規定される。例えば、ユーザの6DoFには、3次元空間におけるユーザの空間位置(a,b,c)と、ユーザの回転の向き(α1,β1,γ1)とが含まれる。回転の向き(α1,β1,γ1)は、ユーザの空間位置(a,b,c)を中心として規定される。
【0021】
スピーカの6DoFの動きには、スピーカの空間位置(x1,y1,z1)及びスピーカの回転の向き(α2、β2、γ2)が含まれ得る。回転の向き(α2、β2、γ2)は、スピーカの空間位置(x1,y1,z1)を中心として規定される。
【0022】
一方、
図1Bはスピーカの6DoFを示しているが、同様の規定を他の剛体に適用することができる。
【0023】
いくつかの使用用途では、没入型メディア装置が6DoFをサポートするときに、ユーザは、没入型メディア装置によるサポートにより6DoFメディアコンテンツと対話することができる。例えば、ユーザの6DoF情報は、没入型メディア装置によって検出することができ、没入型メディア装置は、ユーザの6DoF情報に基づいて、6DoFメディアコンテンツのオーディオ及びビデオをレンダリングすることができる。
【0024】
3DoFプラットフォーム等のいくつかの没入型メディア装置は、6DoFをサポートせず、人々が3自由度(3DoF)を使用してメディアコンテンツ(例えば、3DoFメディアコンテンツ)と対話することのみを可能にする場合がある。3DoFメディアコンテンツのいくつかの例では、3DoFは、ユーザ及びメディアに関連付けられた向き情報を指す場合がある。例えば、3DoF設定でのメディアの向き情報には、球体の中心にユーザを含む球体上にあるメディアの回転運動の向きの角度が含まれる。メディアは、ビジュアル、オーディオ(オーディオチャネル、オーディオ・オブジェクト等)、又は他の形式にすることができる。3DoF設定での向き情報は、回転運動の向き(θ,φ,ψ)として参照することができる。ここで、θはユーザのZ軸の周りの回転(revolution)角度であり、φはユーザのY軸の周りの回転角度であり、ψはユーザのX軸の周りの回転角度である。
【0025】
図1Cは、いくつかの例において3自由度(6DoF)を使用する環境(100C)を示す図を示している。環境(100C)には、ユーザ及びスピーカが含まれる。スピーカは、球体(110)上の点(111)として扱われる。球体(110)の中心はユーザである。スピーカの3DoFは、球体(110)上の点(111)の回転運動の向き(θ,φ,ψ)として規定される。
【0026】
いくつかのアプリケーションでは、6DoFメディアコンテンツを3DoFプラットフォームでレンダリングする必要がある場合がある。本開示は、3DoFプラットフォーム上でレンダリングするために、6DoFメディアコンテンツを3DoFメディアコンテンツに調整する技術を提供する。
【0027】
図2は、本開示の一実施形態によるメディアシステム(200)のブロック図を示す。メディアシステム(200)は、没入型メディア・アプリケーション、拡張現実(AR)アプリケーション、仮想現実アプリケーション、ビデオゲームアプリケーション、スポーツゲームアニメーションアプリケーション、電話会議及びテレプレゼンスアプリケーション、及びメディアストリーミングアプリケーション等の様々な使用アプリケーションで使用することができる。
【0028】
メディアシステム(200)は、メディアサーバ装置(210)と、
図2に示されるメディアクライアント装置(260A)及び(260B)等の複数のメディアクライアント装置とを含み、これらは、ネットワーク(図示せず)によって接続することができる。一例では、メディアサーバ装置(210)は、オーディオコーディング及びビデオコーディング機能を有する1つ又は複数の装置を含むことができる。一例では、メディアサーバ装置(210)は、デスクトップコンピュータ、ラップトップコンピュータ、サーバコンピュータ、及びタブレットコンピュータ等の単一のコンピュータ装置を含む。別の例では、メディアサーバ装置(210)には、データセンタ、及びサーバファーム等が含まれる。メディアサーバ装置(210)は、ビデオ及びオーディオコンテンツを受信し、ビデオコンテンツ及びオーディオコンテンツを、適切なメディアコーディング規格に従って1つ又は複数の符号化ビットストリームに圧縮することができる。符号化ビットストリームは、ネットワークを介してメディアクライアント装置(260A)及び(260B)に配信することができる。
【0029】
メディアクライアント装置(例えば、メディアクライアント装置(260A)及び(260B))はそれぞれ、メディア・アプリケーションのためのビデオコーディング及びオーディオコーディング機能を有する1つ又は複数の装置を含む。一例では、メディアクライアント装置のそれぞれは、デスクトップコンピュータ、ラップトップコンピュータ、サーバコンピュータ、タブレットコンピュータ、及びウェアラブルコンピュータ装置、及びヘッドマウントディスプレイ(HMD)装置等のコンピュータ装置を含む。メディアクライアント装置は、適切なメディアコーディング規格に従って、符号化ビットストリームを復号化することができる。復号化したビデオコンテンツ及びオーディオコンテンツは、メディア再生に使用することができる。
【0030】
メディアサーバ装置(210)は、任意の適切な技術を使用して実現することができる。
図2の例では、メディアサーバ装置(210)は、一緒に結合される処理回路(230)及びインターフェイス回路(211)を含む。
【0031】
処理回路(230)は、1つ又は複数の中央処理装置(CPU)、1つ又は複数のグラフィック処理装置(GPU)、及び特定用途向け集積回路等、任意の適切な処理回路を含むことができる。処理回路(230)は、オーディオエンコーダ、及びビデオエンコーダ等の様々なエンコーダを含むように構成することができる。一例では、1つ又は複数のCPU及び/又はGPUは、ソフトウェアを実行して、オーディオエンコーダ又はビデオエンコーダとして機能することができる。別の例では、オーディオエンコーダ又はビデオエンコーダは、特定用途向け集積回路を使用して実現することができる。
【0032】
インターフェイス回路(211)は、メディアサーバ装置(210)をネットワークとインターフェイス接続することができる。インターフェイス回路(211)は、ネットワークから信号を受信する受信部分と、ネットワークに信号を送信する送信部分とを含むことができる。例えば、インターフェイス回路(211)は、符号化ビットストリームを搬送する信号を、ネットワークを介してメディアクライアント装置(260A)、及びメディアクライアント装置(260B)等の他の装置に送信することができる。インターフェイス回路(211)は、メディアクライアント装置(260A)及び(260B)等のメディアクライアント装置から信号を受信することができる。
【0033】
ネットワークは、イーサネット接続、光ファイバ接続、WiFi接続、及びセルラーネットワーク接続等の有線及び/又は無線接続を介して、メディアサーバ装置(210)及びメディアクライアント装置(例えば、メディアクライアント装置(260A)及び(260B))と適切に結合される。ネットワークには、ネットワークサーバ装置、記憶装置、及びネットワーク装置等が含まれ得る。ネットワークのコンポーネントは、有線及び/又は無線接続を介して適切に結合される。
【0034】
メディアクライアント装置(例えば、メディアクライアント装置(260A)及び(260B))はそれぞれ、符号化ビットストリームを復号化するように構成される。一例では、各メディアクライアント装置は、ビデオ復号化を実行して、表示可能な一連のビデオフレームを再構築することができ、オーディオ復号化を実行して、再生のためのオーディオ信号を生成することができる。
【0035】
メディアクライアント装置(260A)及び(260B)等のメディアクライアント装置は、任意の適切な技術を使用して実現することができる。
図2の例では、メディアクライアント装置(260A)が示されているが、ユーザAが使用できるユーザ機器としてイヤホンを備えたヘッドマウントディスプレイ(HMD)に限定されず、メディアクライアント装置(260B)が示されているが、ユーザBが使用できるユーザ機器としてイヤホンを備えたHMDに限定されない。
【0036】
図2では、メディアクライアント装置(260A)は、
図2に示されるように一緒に結合されたインターフェイス回路(261A)及び処理回路(270A)を含む。メディアクライアント装置(260B)は、
図2に示されるように一緒に結合されたインターフェイス回路(261B)及び処理回路(270B)を含む。
【0037】
インターフェイス回路(261A)は、メディアクライアント装置(260A)をネットワークとインターフェイス接続することができる。インターフェイス回路(261A)は、ネットワークから信号を受信する受信部分と、ネットワークに信号を送信する送信部分とを含むことができる。例えば、インターフェイス回路(261A)は、ネットワークから符号化ビットストリームを搬送する信号等、データを搬送する信号を受信することができる。
【0038】
処理回路(270A)は、CPU、GPU、及び特定用途向け集積回路等の適切な処理回路を含むことができる。処理回路(270A)は、DoFコンバータ(271A)、レンダラ(272A)、ビデオデコーダ(図示せず)、及びオーディオデコーダ(図示せず)等の様々なコンポーネントを含むように構成することができる。
【0039】
いくつかの例では、オーディオデコーダは、オーディオコンテンツを符号化したスキームに適した復号化ツールを選択することによって、符号化ビットストリーム内のオーディオコンテンツを復号化することができ、ビデオデコーダは、ビデオコンテンツを符号化したスキームに適した復号化ツールを選択することによって、符号化ビットストリーム内のビデオコンテンツを復号化することができる。DoFコンバータ(271A)は、メディアクライアント装置(260A)と互換性があるように、復号化したメディアコンテンツ内のDoF情報を調整するように構成される。一例では、メディアクライアント装置(260A)のハードウェアが3DoFのみをサポートし、受信したメディアコンテンツが6DoFメディアコンテンツを含む場合に、DoFコンバータ(271A)は、6DoFメディアコンテンツを3DoFメディアコンテンツに変換し、これをメディアクライアント装置(260A)で再生することができる。
【0040】
さらに、レンダラ(272A)は、符号化ビットストリームから復号化したオーディオコンテンツ及びビデオコンテンツから、メディアクライアント装置(260A)に適した最終デジタル製品を生成することができる。処理回路(270A)は、更なるメディア処理のために、ミキサ、及び後処理回路等の他の適切なコンポーネント(図示せず)を含むことができることに留意されたい。
【0041】
同様に、インターフェイス回路(261B)は、メディアクライアント装置(260B)をネットワークとインターフェイス接続することができる。インターフェイス回路(261B)は、ネットワークから信号を受信する受信部分と、ネットワークに信号を送信する送信部分とを含むことができる。例えば、インターフェイス回路(261B)は、ネットワークから符号化ビットストリームを搬送する信号等、データを搬送する信号を受信することができる。
【0042】
処理回路(270B)は、CPU、GPU、及び特定用途向け集積回路等の適切な処理回路を含むことができる。処理回路(270B)は、DoFコンバータ(271B)、レンダラ(272B)、ビデオデコーダ、及びオーディオデコーダ等の様々なコンポーネントを含むように構成することができる。
【0043】
いくつかの例では、オーディオデコーダは、オーディオコンテンツを符号化したスキームに適した復号化ツールを選択することによって、符号化ビットストリーム内のオーディオコンテンツを復号化することができ、ビデオデコーダは、ビデオコンテンツを符号化したスキームに適した復号化ツールを選択することによって、符号化ビットストリーム内のビデオコンテンツを復号化することができる。DoFコンバータ(271B)は、メディアクライアント装置(260B)と互換性があるように、受信したメディアコンテンツ内のDoF情報を調整するように構成される。一例では、メディアクライアント装置(260B)のハードウェアが3DoFのみをサポートし、受信したメディアコンテンツが6DoFメディアコンテンツを含む場合に、DoFコンバータ(271B)は、6DoFメディアコンテンツを3DoFメディアコンテンツに変換し、これをメディアクライアント装置(260B)で再生することができる。
【0044】
さらに、レンダラ(272B)は、符号化ビットストリームから復号化したオーディオコンテンツから、メディアクライアント装置(260B)に適した最終的なデジタル製品を生成することができる。処理回路(270B)は、更なるオーディオ処理のために、ミキサ、及び後処理回路等の他の適切なコンポーネント(図示せず)を含むことができることに留意されたい。
【0045】
いくつかの例では、メディアサーバ装置(210)はDoF変換を実行することができる。一例では、メディアサーバ装置(210)はDoFコンバータ(231)を含む。一例では、メディアサーバ装置(210)は、メディアクライアント装置(260A)及びメディアクライアント装置(260B)等のメディアクライアント装置からハードウェア情報を受信することができる。例えば、メディアサーバ装置(210)がメディアクライアント装置(260A)からハードウェア情報を受信し、ハードウェア情報によって、メディアクライアント装置(260A)が3DoFメディアコンテンツのみをサポートし、低バッテリ状態にあることが示される場合に、DoFコンバータ(231)は、6DoFメディアコンテンツを3DoFメディアコンテンツに変換することができる。3DoFメディアコンテンツは、適切に符号化され、メディアクライアント装置(260A)に送信することができる。別の例では、メディアサーバ装置(210)がメディアクライアント装置(260B)からハードウェア情報を受信し、ハードウェア情報によって、メディアクライアント装置(260B)が3DoFメディアコンテンツのみをサポートしており、メディアクライアント装置(260)の処理能力が不足している(例えば、DoFコンバータを有していない)ことが示される場合に、DoFコンバータ(231)は、6DoFメディアコンテンツを3DoFメディアコンテンツに変換することができる。3DoFメディアコンテンツは、適切に符号化され、メディアクライアント装置(260B)に送信することができる。
【0046】
本開示の一態様によれば、6DoFメディアコンテンツは、(3D空間での)メディアの空間位置情報を含むことができる6DoFを使用して、メディア(例えば、音源、オーディオチャネル、オーディオ・オブジェクト、ビジュアルオブジェクト、及び仮想オブジェクト等)と、(メディアの軸に関する)回転情報とを記述することができる。いくつかの例では、空間位置情報は、3Dデカルト座標の(x,y,z)として提供され得る。ここで、xはX軸に沿った距離であり、yはY軸に沿った距離であり、zはZ軸に沿った距離である。いくつかの例では、空間位置情報は、極座標系で(r,ω,φ)として提供され得る。ここで、rは半径距離であり、ωは方位角であり、φは極角である。6DoFでのメディアの回転情報は、回転の向き(α,β,γ)として提供され得る。ここで、αはメディアのZ軸の周りの回転角度であり、βはメディアのY軸の周りの回転角度であり、γは、メディアのX軸の周りの回転角度である。
【0047】
本開示の別の態様によれば、3DoFメディアコンテンツは、ユーザに関する回転運動の向き情報を使用してメディア(例えば、音源、及び仮想オブジェクト等)を記述することができる。一例では、3DoFメディアコンテンツ内の各メディアの回転運動の向き情報は、球体上に存在するメディアの回転運動の向き(θ,φ,ψ)を含み、ユーザは球体の中心に存在する。θは球体の中心のZ軸の周りの回転角度であり、φは球体の中心のY軸の周りの回転角度であり、ψは球体の中心のX軸の周りの回転角度である。メディアは、ビジュアル、オーディオ(オーディオチャネル、オーディオ・オブジェクト等)、又は他の形式であってもよい。
【0048】
本開示のいくつかの態様によれば、6DoFメディアコンテンツを3DoFメディアコンテンツに調整するために、(ユーザが球体の中心にいる状態の)球体上の各メディアの回転運動の向きを計算することができる。
【0049】
いくつかの例では、6DoFの空間位置情報は、3Dデカルト座標系を使用して記述することができる。回転角度は、ユーザの空間位置情報及びメディアの空間位置情報に基づいて計算することができる。一例では、6DoFにおけるユーザの空間位置情報は(a,b,c)によって示され、6DoFにおけるメディアの位置情報は(x1,y1,z1)によって示される。3DoFメディアコンテンツに変換するために、ユーザは球体の中心に存在し、メディアは球体の表面位置にあると想定される。球体の半径rは、式(1)に従って計算することができる。
【数1】
【0050】
いくつかの例では、オーディオメディア(オーディオチャネル、オーディオ・オブジェクト等)の場合に、メディアクライアント装置は、位置の変化に応じてオーディオメディアのゲイン(ボリューム)を調整することができる。一例では、半径rに反比例してゲインを調整することができる。
【0051】
さらに、メディアの空間位置(x1,y1,z1)は、例えば式(2)、式(3)、及び式(4)に従って、中心が(0,0,0)である単位球体(半径が1に等しい)上の位置である(x
2,y
2,z
2)に正規化することができる。
【数2】
【0052】
さらに、いくつかの実施形態では、単位球体上の正規化した位置(x2,y2,z2)及び開始点に基づいて、回転行列を決定することができ、回転角(θ,φ,ψ)を回転行列に基づいて決定することができる。
【0053】
いくつかの例では、開始点は(0,0,1)に設定され、回転行列Rは式(5)を満たすように決定することができる。
【数3】
【0054】
一例では、回転行列Rが決定され、式(6)の形式を有する。
【数4】
【0055】
次に、開始点を基準とした回転運動の向き(θ,φ,ψ)は、一例では、式(7)、式(8)、及び式(9)に従って、回転行列に基づいて決定することができる。
【数5】
ここで、atanは逆正接関数である。
【0056】
上記の例では、回転行列Rを決定するための開始点として点(0,0,1)が選択されることに留意されたい。開始点の選択は例示的なものである。いくつかの例では、(1,0,0)、(0,1,0)等の他の点を、回転行列の開始点として選択することができる。回転角度(θ,φ,ψ)の導出は適切に調整され得る。
【0057】
本開示の別の態様によれば、6DoFメディアコンテンツ内のメディアの空間位置情報は、3D極座標系(r,ω,φ)を使用して記述することができ、ここで、rは半径距離であり、ωは方位角であり、φは極角である。方位角ω及び極角φのそれぞれは、360度の範囲を有することができる。本開示の一態様によれば、方位角ω及び極角は、3DoFにおける回転角(ヨーθ、ピッチφ、ロールψ)にマッピングすることができる。一例では、方位角ωはヨーθにマッピングされ、極角φはピッチφ、ロールψに適切に変換することができる。この例では、ヨーθは360度の範囲を有しており、ピッチφ及びロールψはそれぞれ180度の範囲を有する。いくつかの例では、メディアコンテンツを6DoFから3DoFに変換するときに、空間位置情報の半径情報を削除し、角度情報を回転角度(ヨーθ、ピッチφ、ロールψ)にマッピングして、3DoFメディアコンテンツ形式に適合させることができる。
【0058】
一例では、ユーザは3D極座標系の原点にあり、ヨー角θは方位角ωに等しくなる可能性がある。
【0059】
図3は、本開示の一実施形態によるプロセス(300)を概説するフローチャートを示す。プロセス(300)は、メディアサーバ装置(210)内のDoFコンバータ(231)、メディアクライアント装置(260A)内のDoFコンバータ(271A)、及びメディアクライアント装置(260B)内のDoFコンバータ(271B)等のメディア処理装置によって実行することができる。いくつかの実施形態では、プロセス(300)はソフトウェア命令で実施されるため、処理回路がソフトウェア命令を実行すると、処理回路はプロセス(300)を実行する。処理は(S301)から開始し、(S310)に進む。
【0060】
(S310)において、メディア・アプリケーションのシーンのメディアコンテンツに関連付けられた第1の6DoF情報が受信される。第1の6DoF情報には、第1の空間位置と、第1の空間位置を中心とする(回転中心)第1の回転の向きとが含まれる。
【0061】
(S320)において、メディア処理装置は、メディアコンテンツをレンダリングするためのレンダリングプラットフォームが3DoFプラットフォームであると決定する。一例では、メディア処理装置は、3DoFのみをサポートするメディアクライアント装置であり、メディア処理装置は、メディアクライアント装置の構成に基づいて決定を行うことができる。別の例では、メディア処理装置はメディアサーバ装置であり、メディアサーバ装置はメディアクライアント装置から信号を受信することができる。信号は、メディアクライアント装置が3DoFのみをサポートすることを示す。
【0062】
(S330)において、少なくとも第1の空間位置に従って、第1の空間位置以外を中心とする球体上のメディアコンテンツの回転運動の向きが計算される。回転運動の向きは、3DoFプラットフォームでレンダリングするためのメディアコンテンツに関連付けられた3DoF情報である。
【0063】
いくつかの実施形態では、第1の空間位置は、3つの軸についての3つの座標値によって3次元(3D)デカルト座標系で記述される。いくつかの例では、メディア処理装置は、メディア・アプリケーションのユーザに関連付けられた第2の6DoF情報を受信する。第2の6DoF情報には、第2の空間位置と、第2の空間位置を中心とする第2の回転の向きとが含まれる。メディア処理装置は、第1の空間位置及び第2の空間位置に従って、第2の空間位置を中心とする球体上のメディアコンテンツの回転運動の向きを計算することができる。
【0064】
いくつかの例では、メディア処理装置は、第1の空間位置と第2の空間位置との間の距離を計算する。距離は、メディアコンテンツのオーディオのゲインを調整するために使用される。
【0065】
いくつかの例では、メディア処理装置は、球体上の開始点から球体上の第1の空間位置まで球体上で回転させるための回転行列を決定し、回転行列に基づいて回転運動の向きを計算する。
【0066】
いくつかの例では、メディア処理装置は、第1の空間位置と第2の空間位置との間の距離を計算し、第1の空間位置に対応する単位球体上の終点を決定する。単位球体は、第2の空間位置を中心とし、単位半径を有する。次に、メディア処理装置は、始点から終点まで単位球体上で回転させるための回転行列を決定し、回転行列に基づいて回転運動の向きを計算する。一例では、開始点は(0、0、1)であり、回転運動の向きは式(7)、式(8)、及び式(9)に従って計算することができる。
【0067】
いくつかの実施形態では、第1の空間位置は、半径距離、方位角、及び極角によって3次元(3D)極座標系で記述される。一例では、メディア処理装置は、方位角を回転運動の向きのヨー角に変換し、極角を回転運動の向きのピッチ角及びロール角に変換する。
【0068】
いくつかの例では、メディア処理装置はメディアクライアント装置であり、メディアクライアント装置は、回転運動の向きに従ってメディアコンテンツをレンダリングすることができる。
【0069】
いくつかの例では、メディア処理装置はメディアサーバ装置であり、メディア処理装置は、メディアサーバ装置から、メディアコンテンツをレンダリングするための3DoFプラットフォームを使用するメディアクライアント装置に、回転運動の向きに関連付けられたメディアコンテンツを提供することができる。
【0070】
次に、(S399)に進み、終了する。
【0071】
プロセス(300)は、適切に適合させることができる。プロセス(300)のステップは、変更及び/又は省略してもよい。追加のステップを追加してもよい。実施態様の任意の適切な順序を使用してもよい。
【0072】
上述の技術は、コンピュータ可読命令を使用してコンピュータソフトウェアとして実装することができ、1つ又は複数のコンピュータ可読媒体に物理的に記憶させることができる。例えば、
図4は、開示する主題の特定の実施形態を実施するのに適したコンピュータシステム(400)を示している。
【0073】
コンピュータソフトウェアは、アセンブリ、コンパイル、リンク、又は同様のメカニズムに従って、1つ又は複数のコンピュータ中央処理装置(CPU)、及びグラフィック処理装置(GPU)等によって直接又は解釈を通じてマイクロコードを実行できる命令を含むコードを作成する任意の適切なマシンコード又はコンピュータ言語を使用してコード化することができる。
【0074】
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム装置、及びモノのインターネット装置等を含む、様々なタイプのコンピュータ又はそのコンポーネント上で実行することができる。
【0075】
図4に示されるコンピュータシステム(400)のコンポーネントは、本質的に例示であり、本開示の実施形態を実現するコンピュータソフトウェアの使用又は機能の範囲に関していかなる制限も示唆することを意図していない。コンポーネントの構成は、コンピュータシステム(400)の例示的な実施形態に示されるコンポーネントのいずれか1つ又は組合せに関連する依存性又は要件を有するものと解釈すべきではない。
【0076】
コンピュータシステム(400)は、特定のヒューマンインターフェイス入力装置を含むことができる。このようなヒューマンインターフェイス入力装置は、例えば、触覚入力(キーストローク、スワイプ、データグローブの動き等)、音声入力(声、拍手等)、視覚入力(ジェスチャ等)、嗅覚入力(図示せず)を通じて、1人又は複数の人間のユーザによる入力に応答することができる。ヒューマンインターフェイス装置を使用して、オーディオ(音声、音楽、周囲の音等)、画像(スキャン画像、静止画カメラから取得した写真画像)、ビデオ(二次元動画、立体動画を含む三次元動画等)等、人間によって入力された意識に必ずしも直接関連しない特定のメディアを取り込むこともできる。
【0077】
入力ヒューマンインターフェイス装置は、キーボード(401)、マウス(402)、トラックパッド(403)、タッチ画面(410)、データグローブ(図示せず)、ジョイスティック(405)、マイク(406)、スキャナ(407)、カメラ(408)(それぞれ1つのみが示される)の1つ又は複数を含むことができる。
【0078】
コンピュータシステム(400)は、特定のヒューマンインターフェイス出力装置も含むことができる。このようなヒューマンインターフェイス出力装置は、例えば、触覚出力、音、光、及び匂い/味を通じて、1人又は複数の人間のユーザの感覚を刺激することができる。このようなヒューマンインターフェイス出力装置は、触覚出力装置(例えば、タッチ画面(410)、データグローブ(図示せず)、又はジョイスティック(405)による触覚フィードバックであるが、入力装置として機能しない触覚フィードバック装置でもあり得る)、オーディオ出力装置(スピーカ(409)、ヘッドホン(図示せず)等)、視覚出力装置(CRT画面、LCD画面、プラズマ画面、OLED画面を含む画面(410)等、それぞれがタッチ画面入力機能を有する又は有さない、それぞれ触覚フィードバック機能を有する又は有さない、そのいくつかは、立体画像出力等の手段を介して2次元の視覚出力又は3次元以上の出力を出力できるものもある、仮想現実眼鏡(図示せず)、ホログラフィックディスプレイ、及びスモークタンク(図示せず))、及びプリンタ(図示せず)を含むことができる。
【0079】
コンピュータシステム(400)は、人間がアクセス可能な記憶装置、及びCD/DVDを有するCD/DVD ROM/RW(420)を含む光媒体等の関連媒体、又は同様の媒体(421)、サムドライブ(422)、リムーバブルハードドライブ又はソリッドステートドライブ(423)、テープ及びフロッピーディスク等の従来の磁気メディア(図示せず)、及びセキュリティドングル等の特殊なROM/ASIC/PLDベースの装置(図示せず)等を含むことができる。
【0080】
当業者は、現在開示している主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、又は他の一時的な信号を含まないことも理解すべきである。
【0081】
コンピュータシステム(400)は、1つ又は複数の通信ネットワーク(455)へのインターフェイス(454)も含むことができる。ネットワークは、例えば、無線、有線、光等であってもよい。ネットワークはさらに、ローカル、広域、メトロポリタン、車両及び産業用、リアルタイム、遅延耐性等があってもよい。ネットワークの例には、イーサネット等のローカルエリアネットワーク、ワイヤレスLAN、GSM、3G、4G、5G、及びLTE等を含むセルラーネットワーク、ケーブルTV、衛星TV、及び地上放送TVを含むTV有線又は無線広域デジタルネットワーク、CANBus等を含む車両及び産業用が含まれる。特定のネットワークは、一般に、特定の汎用データポート又は周辺バス(449)(例えば、コンピュータシステム(400)のUSBポート等)に接続された外部ネットワークインターフェイスアダプタを必要とする。他のものは、一般に、以下に説明するように、システムバス(例えば、PCコンピュータシステムへのイーサネットインターフェイス又はスマートフォンコンピュータシステムへのセルラーネットワークインターフェイス)に接続することによって、コンピュータシステム(400)のコアに統合される。これらのネットワークのいずれかを使用して、コンピュータシステム(400)は他のエンティティと通信することができる。このような通信は、単方向、受信のみ(例えば、TV放送)、単方向送信のみ(例えば、CANbusから特定のCANbus装置へ)、又は双方向(例えば、ローカル又はワイドエリアデジタルネットワークを使用する他のコンピュータシステムへ)のいずれかである。上記のように、これらのネットワーク及びネットワークインターフェイスのそれぞれで、特定のプロトコル及びプロトコルスタックを使用することができる。
【0082】
前述のヒューマンインターフェイス装置、ヒューマンアクセス可能な記憶装置、及びネットワークインターフェイスは、コンピュータ・システム(400)のコア(440)に取り付けることができる。
【0083】
コア(440)は、1つ又は複数の中央処理装置(CPU)(441)、グラフィック処理装置(GPU)(442)、フィールドプログラマブルゲートエリア(FPGA)(443)の形態の特殊なプログラマブル処理装置、特定のタスクのためのハードウェア・アクセラレータ(444)、及びグラフィックアダプタ(450)等を含むことができる。これらの装置は、読み取り専用メモリ(ROM)(445)、ランダムアクセスメモリ(446)、ユーザがアクセスできない内部ハードドライブ、SSD等の内部大容量記憶装置(447)とともに、システムバス(448)を介して接続することができる。いくつかのコンピュータシステムでは、システムバス(448)は、追加のCPU、及びGPU等による拡張を可能にするために、1つ又は複数の物理プラグの形態でアクセス可能である。周辺装置は、コアのシステムバス(448)に直接接続するか、又は周辺バス(449)を介して接続することができる。一例では、画面(410)をグラフィックスアダプタ(450)に接続することができる。周辺バスのアーキテクチャには、PCI、及びUSB等が含まれる。
【0084】
CPU(441)、GPU(442)、FPGA(443)、及びアクセラレータ(444)は、組み合わせて前述のコンピュータコードを構成できる特定の命令を実行することができる。そのコンピュータコードを、ROM(445)又はRAM(446)に格納することができる。移行データは、RAM(446)に格納することもできるが、永久データは、例えば内部大容量記憶装置(447)に格納することができる。キャッシュメモリを使用することで、任意のメモリ装置への高速な格納及び取得が可能になり、その使用は、1つ又は複数のCPU(441)、GPU(442)、大容量記憶装置(447)、ROM(445)、及びRAM(446)等に密接に関連し得る。
【0085】
コンピュータ可読媒体は、様々なコンピュータ実装オペレーションを実行するためのコンピュータコードをその上に有することができる。メディア及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものであるか、又はコンピュータソフトウェア技術の当業者に周知で利用可能な種類のものであり得る。
【0086】
限定ではなく一例として、アーキテクチャ(400)、具体的にはコア(440)を有するコンピュータシステムは、プロセッサ(CPU、GPU、FPGA、及びアクセラレータ等を含む)が1つ又は複数の有形のコンピュータ可読媒体に組み込まれたソフトウェアを実行する結果として機能を提供することができる。そのようなコンピュータ可読媒体は、上で紹介したようにユーザがアクセスできる大容量記憶装置、及びコア内部大容量記憶装置(447)又はROM(445)等の非一時的な性質のコア(440)の特定の記憶装置に関連付けられた媒体であり得る。本開示の様々な実施形態を実施するソフトウェアは、そのような装置に記憶され、コア(440)によって実行することができる。コンピュータ可読媒体は、特定の必要性に応じて、1つ又は複数のメモリ装置又はチップを含むことができる。ソフトウェアは、コア(440)、具体的にはその中のプロセッサ(CPU、GPU、及びFPGA等を含む)に、RAM(446)に記憶したデータ構造を規定する及びソフトウェアによって規定されたプロセスに従ってそのようなデータ構造を変更することを含む、本明細書に記載の特定のプロセス又は特定のプロセスの特定の部分を実行させることができる。加えて又は代替として、コンピュータシステムは、ハードワイヤード又は回路(例えば、アクセラレータ(444))に組み込まれたロジックの結果として機能を提供することができ、これは、ソフトウェアの代わりに又はソフトウェアと共に動作して、本明細書に記載の特定のプロセス又は特定のプロセスの特定の部分を実行することができる。ソフトウェアへの言及は、必要に応じてロジックを包含する場合があり、その逆も同様である。コンピュータ可読媒体への言及は、必要に応じて、実行のためのソフトウェアを格納する回路(集積回路(IC)等)、実行のためのロジックを具現化する回路、又はその両方を包含することができる。本開示は、ハードウェア及びソフトウェアの任意の適切な組合せを包含する。
【0087】
本開示はいくつかの例示的な実施形態を説明してきたが、本開示の範囲内にある変更、置換、及び様々な代替同等物が存在する。こうして、当業者は、本明細書では明示的に図示又は説明していないが、本開示の原理を具現化し、従って本開示の精神及び範囲内にある多数のシステム及び方法を考案できることを理解されたい。
【国際調査報告】