(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-12-20
(54)【発明の名称】メディアリソースの再生およびテキストレンダリング方法、装置、機器および記憶媒体
(51)【国際特許分類】
H04N 21/434 20110101AFI20221213BHJP
H04N 21/4728 20110101ALI20221213BHJP
H04N 21/431 20110101ALI20221213BHJP
H04N 13/293 20180101ALI20221213BHJP
H04N 5/765 20060101ALI20221213BHJP
H04N 5/92 20060101ALI20221213BHJP
【FI】
H04N21/434
H04N21/4728
H04N21/431
H04N13/293
H04N5/765
H04N5/92 010
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022523231
(86)(22)【出願日】2020-11-12
(85)【翻訳文提出日】2022-04-18
(86)【国際出願番号】 CN2020128276
(87)【国際公開番号】W WO2021109822
(87)【国際公開日】2021-06-10
(31)【優先権主張番号】201911223329.3
(32)【優先日】2019-12-03
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】511151662
【氏名又は名称】中興通訊股▲ふん▼有限公司
【氏名又は名称原語表記】ZTE CORPORATION
【住所又は居所原語表記】ZTE Plaza,Keji Road South,Hi-Tech Industrial Park,Nanshan Shenzhen,Guangdong 518057 China
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】白 雅 賢
(72)【発明者】
【氏名】黄 成
【テーマコード(参考)】
5C053
5C061
5C164
【Fターム(参考)】
5C053GB06
5C053GB37
5C053JA21
5C053LA11
5C053LA14
5C061AB08
5C164FA06
5C164MB13S
5C164SB11S
5C164UB11P
5C164UB81P
5C164UD44P
(57)【要約】
本願はメディアリソースの再生およびテキストレンダリング方法、装置、機器および記憶媒体を提案し、前記方法は、第1ボックスタイプまたは第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも1つのメディアリソースとを確定するステップと、前記関心領域に関連付けられた少なくとも1つのメディアリソースを再生するステップと、を含む。
【特許請求の範囲】
【請求項1】
第1ボックスタイプまたは第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも1つのメディアリソースとを確定するステップと、
前記関心領域に関連付けられた少なくとも1つのメディアリソースを再生するステップと、
を含むメディアリソース再生方法。
【請求項2】
第1ボックスタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも1つのメディアリソースとを確定するステップは、
前記第1ボックスタイプに基づいて、ビデオサンプル入口または全方向ビデオ制限サンプル入口内の関心領域記述ボックスを識別するステップと、
前記関心領域記述ボックス内の要素に基づいて、前記全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも1つのメディアリソースとを確定するステップと、
を含む請求項1に記載の方法。
【請求項3】
第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも1つのメディアリソースとを確定するステップは、
前記第1グループタイプに基づいて全方向ビデオトラック内の関心領域サンプルグループ入口を識別するステップと、
前記関心領域サンプルグループ入口内の要素に基づいて、前記全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも1つのメディアリソースとを確定するステップと、
を含む請求項1に記載の方法。
【請求項4】
前記関心領域に関連付けられた少なくとも1つのメディアリソースを再生する前記ステップは、
現在のビューポートにおいて、前記関心領域に関連付けられた少なくとも1つのメディアリソースを再生するステップ、または、
前記関心領域において、前記関心領域に関連付けられた少なくとも1つのメディアリソースを再生するステップ、
を含む請求項1に記載の方法。
【請求項5】
前記関心領域は、
関心領域の数と、関心領域の識別子と、関心領域の空間領域と、関心領域のタイプと、関心領域の記述と、
のうちの少なくとも1つの情報によって記述される請求項1~4の何れか一項に記載の方法。
【請求項6】
前記関心領域のタイプは、
クリエータ推薦タイプと、画面強化タイプと、リアルタイムホットスポットタイプと、方位ガイドタイプと、マルチ画面インタラクティブタイプと、
のうちの少なくとも1つの情報を含む請求項5に記載の方法。
【請求項7】
前記関心領域の空間領域は、
球面領域の中心点と、
球面領域の方位角範囲と俯仰角範囲と、
のうちの少なくとも1つの情報を含み、
ここで、前記球面領域の中心点は、中心点の方位角、中心点の俯仰角、中心点の傾斜角によって確定される請求項5に記載の方法。
【請求項8】
前記メディアリソースは、
音声、ビデオ、画像、時限テキスト
のうちの少なくとも一つを含む請求項1~4の何れか一項に記載の方法。
【請求項9】
時限テキストの少なくとも1つのテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの少なくとも1つのテキスト領域をレンダリングする深度情報とを確定するステップと、
前記全方向ビデオの関心領域に対して前記時限テキストの少なくとも1つのテキスト領域をレンダリングするステップと、
を含む時限テキストレンダリング方法。
【請求項10】
時限テキストの少なくとも1つのテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップは、
ボックスタイプに基づいて時限テキストトラックサンプル入口内の時限テキスト配置ボックスを識別するステップと、
前記時限テキスト配置ボックス内の要素に基づいて、前記時限テキストの少なくとも1つのテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップと、
を含む請求項9に記載の方法。
【請求項11】
時限テキストの少なくとも1つのテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップは、
グループタイプに基づいて時限テキストトラック内の時限テキスト配置サンプルグループ入口を識別するステップと、
前記時限テキスト配置サンプルグループ入口内の要素に基づいて、前記時限テキストの少なくとも1つのテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップと、
を含む請求項9に記載の方法。
【請求項12】
前記全方向ビデオの関心領域に対して前記時限テキストの少なくとも1つのテキスト領域をレンダリングするステップは、
単位球に対する3次元平面を構築するステップであって、前記全方向ビデオの関心領域に基づいて前記3次元平面に対応する球面領域位置を確定し、前記深度情報に基づいて前記3次元平面と前記単位球の球心との距離を確定するステップと、
前記3次元平面に前記時限テキストの少なくとも1つのテキスト領域をレンダリングするステップと、
を含む請求項9に記載の方法。
【請求項13】
前記全方向ビデオの関心領域は、
関心領域の数と、関心領域の識別子と、関心領域の空間領域と、関心領域のタイプと、関心領域の記述と、
のうちの少なくとも1つの情報によって記述される請求項9~12の何れか一項に記載の方法。
【請求項14】
前記関心領域のタイプは、
クリエータ推薦タイプと、画面強化タイプと、リアルタイムホットスポットタイプと、方位ガイドタイプと、マルチ画面インタラクティブタイプと、
のうちの少なくとも1つの情報を含む請求項13に記載の方法。
【請求項15】
前記関心領域の空間領域は、
球面領域の中心点と、
球面領域の方位角範囲と俯仰角範囲と、
のうちの少なくとも1つの情報を含み、
ここで、前記球面領域の中心点は、中心点の方位角、中心点の俯仰角、中心点の傾斜角によって確定される請求項13に記載の方法。
【請求項16】
第1ボックスタイプまたは第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも1つのメディアリソースとを確定するように構成された領域とリソース確定モジュールと、
前記関心領域に関連付けられた少なくとも1つのメディアリソースを再生するように構成されたメディアリソース再生モジュールと、
を含むメディアリソース再生装置。
【請求項17】
時限テキストの少なくとも1つのテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの少なくとも1つのテキスト領域をレンダリングする深度情報とを確定するように構成された領域と深度情報確定モジュールと、
前記全方向ビデオの関心領域に対して前記時限テキストの少なくとも1つのテキスト領域をレンダリングするように構成された時限テキストレンダリングモジュールと、
を含む時限テキストレンダリング装置。
【請求項18】
少なくとも1つのプロセッサと、
少なくとも一つのプログラムを記憶するように構成されたメモリと、
を含む機器であって、
前記少なくとも1つのプログラムが前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~15の何れか一項に記載の方法を実行させる機器。
【請求項19】
コンピュータプログラムを記憶した記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されたときに、請求項1~15の何れか一項に記載の方法を実現する記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は中国特許庁に2019年12月03日に提出された、出願番号が201911223329.3である中国特許出願の優先権を主張し、その出願の全ての内容を引用により本願に組み入れる。
【0002】
本願は没入型メディアの技術分野に関し、例えばメディアリソースの再生およびテキストレンダリング方法、装置、機器および記憶媒体に関する。
【背景技術】
【0003】
パノラマビデオは360°パノラマビデオまたは没入型ビデオとも呼ばれ、水平360°と垂直180°をカバーし、一般的に異なる方向を向く複数のカメラで撮影してつなぎ合わせたもので、3次元の動的パノラマビデオとユーザの身体的行動の融合により、ユーザの視聴体験を大幅に向上させ、仮想世界の体験効果を達成することができる。この技術は仮想現実(Virtual Reality: VR)とも呼ばれている。
【0004】
ユーザがVRシーンを体験する場合、ビューポートを自主的に制御するため、ユーザは動画鑑賞中に360°全てのシーンに同時に気を配ることができず、指定方向のエキサイティングなハイライトが見逃されることが到底避けられない。クライアント側で関心領域(Region of interest:ROI)に関する提示を提供する場合、関連するROI記述情報が必要となるが、ROI記述情報は統一された表現方法に欠けている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願はメディアリソースの再生およびテキストレンダリング方法、装置、機器および記憶媒体を提供する。
【課題を解決するための手段】
【0006】
本願の実施例はメディアリソースの再生方法を提供し、前記方法は、
第1ボックスタイプまたは第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースとを確定するステップと、
前記関心領域に関連付けられた1つまたは複数のメディアリソースを再生するステップと、
を含む。
【0007】
本願の実施例は時限テキストのレンダリング方法を提供し、前記方法は、
時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの1つまたは複数のテキスト領域をレンダリングする深度情報とを確定するステップと、
前記全方向ビデオの関心領域に対して前記時限テキストの1つまたは複数のテキスト領域をレンダリングするステップと、
を含む。
【0008】
本願の実施例はメディアリソースの再生装置を提供し、前記装置は、
第1ボックスタイプまたは第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースとを確定するように構成された領域とリソース確定モジュールと、
前記関心領域に関連付けられた1つまたは複数のメディアリソースを再生するように構成されたメディアリソース再生モジュールと、
を含む。
【0009】
本願の実施例は時限テキストのレンダリング装置を提供し、前記装置は、
時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの1つまたは複数のテキスト領域をレンダリングする深度情報とを確定するように構成された領域と深度情報確定モジュールと、
前記全方向ビデオの関心領域に対して前記時限テキストの1つまたは複数のテキスト領域をレンダリングするように構成された時限テキストレンダリングモジュールと、
を含む。
【0010】
機器は、
1つまたは複数のプロセッサと、
1つまたは複数のプログラムを記憶するメモリと、
を含み、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行された場合、前記1つまたは複数のプロセッサに本願の実施例における何れか一つの方法を実行させる。
【0011】
本願の実施例は記憶媒体を提供し、前記記憶媒体にはコンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサにより実行された場合は、本願の実施例における何れか一つの方法を実現する。
【0012】
本願の以上の実施例およびその他の側面、ならびにその実現方法については、図面の簡単な説明、発明を実施するための形態、および請求の範囲において、さらに説明する。
【図面の簡単な説明】
【0013】
【
図1】本願の実施例が提供するメディアリソース再生方法のフローチャートである。
【
図2】本願の実施例が提供する全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースの模式図である。
【
図3】本願の実施例が提供する関心領域とユーザビューポートとの結合方法のフローチャートである。
【
図4】本願の実施例が提供する時限テキストレンダリング方法のフローチャートである。
【
図5】本願の実施例が提供するパノラマビデオトラックにおけるボックス分布の模式図である。
【
図6】本願の実施例が提供するパノラマビデオトラックにおけるもう一つのボックス分布の模式図である。
【
図7】本願の実施例が提供する字幕データ調整フローの模式図である。
【
図8】本願の実施例が提供するメディアリソース再生装置の構造模式図である。
【
図9】本願の実施例が提供する時限テキストレンダリング装置の構造模式図である。
【
図10】本願の実施例が提供する電子機器の構造模式図である。
【発明を実施するための形態】
【0014】
以下、添付図面を合わせて本願の実施例を説明する。添付図面のフローチャートに示されたステップは、一組のコンピュータ実行可能な命令のようなコンピュータシステム内で実行することができる。また、フローチャートには論理的順序が示されているが、場合によっては、こことは異なる順序で図示または説明されたステップを実行してもよい。
【0015】
VR技術の最もユニークなところは、360°のシーンに囲まれていることであるが、人の視野が限られているため、画面全体を一つの時刻で、一つの観覧角度から鑑賞することはできず、指定領域に注意を向けることになる。ROIはVRビデオコンテンツの中の領域の一つで、ROIは事前の定義によって取得することができる。例えば、監督が視野角を推薦したり、大量のユーザ行動分析を通じて、最適なビデオ鑑賞方向、エキサイティングな領域、エキサイティングなクリップなどを取得したりすることができる。ROIはメディアコンテンツ自体と強く関連しており、ビデオ固有の属性である。ユーザの現在時刻のビューポート(Viewport)は、ユーザの見る方向と端末機器で定義されたパラメータによって決まる視野領域であり、同じくVRビデオコンテンツの一部であるが、ビューポート領域の位置はユーザの動きによって変化する。ROIとViewportとの2つの領域の属性は互いに独立している。しかしながら、ユーザがVRシーンを体験する場合、ビューポートを自主的に制御するため、ユーザは動画鑑賞中に360°全てのシーンに同時に気を配ることができず、指定された方向の見どころについては見落としが避けられない。クライアント側でROIに関する提示を提供する場合、関連するROI記述情報が必要となるが、ROI記述情報は統一された表現方法に欠けている。ISO/国際電気標準会議の第一合同専門委員会(The First Joint Technology Council of International Electrotechnical Commission:IEC JTC1/第29分科技術委員会(Twenty-ninth Sub-technical Committee:SC29)/第11ワークグループ(Eleventh Work Group:WG11)動画専門家グループ(MPEG)が制定したMPEG-I Part 2(第2部)OMAF(Omnidirectional Media Format:全方向性メディアフォーマット)にもROI関連のシグナリングがなく、この問題に対して、有効な解決策がない。
【0016】
本願の実施例の実現方法によれば、国際標準化機構(International Organization for Standardization:ISO)基本メディアファイルフォーマットに基づいて、パノラマビデオ内の関心領域空間位置情報をメディアファイルに格納する。基本メディアファイルフォーマットは、ISO/IEC JTC1/SC29/WG11動画専門家グループ(Moving Picture Experts Group,略称MPEG)が制定したMPEG-4 第12部国際標準化機構基本メディアファイルフォーマット(MPEG-4 Part 12 ISO Base Media File Format)を参照して操作することができる。全方向ビデオの投影、パッケージング手順とその基本フォーマットはISO/IEC JTC1/SC29/WG11動画専門家グループ(MPEG)が制定したMPEG-I Part 2 OMAF(全方向性メディアフォーマット)を参照して操作することができる。
【0017】
図1は本願の実施例が提供するメディアリソース再生方法のフローチャートである。本実施例が提供するメディアリソース再生方法は主に、VRシーンの関心領域内で1つまたは複数のメディアリソースを再生する場合に適し、前記メディアリソース再生方法はメディアリソース再生装置によって実行され、前記メディアリソース再生装置はハードウェアおよび/またはソフトウェアの方法によって実現可能である。
【0018】
図1に示すように、本願の実施例が提供するメディアリソース再生方法は主としてステップS11およびS12を含む。
【0019】
S11:第1ボックスタイプまたは第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースとを確定する。
【0020】
S12:前記関心領域に関連付けられた1つまたは複数のメディアリソースを再生する。
【0021】
一つの例示的な実施形態において、すべてのビデオサンプルに適した関心領域について、第1ボックスタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースを確定するステップは、前記第1ボックスタイプに基づいて、ビデオサンプル入口または全方向ビデオ制限サンプル入口内の関心領域記述ボックスを識別するステップと、前記関心領域記述ボックス内の要素に基づいて、前記全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースとを確定するステップと、を含む。
【0022】
一つの例示的な実施形態において、ビデオサンプルグループに適した関心領域について、第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースを確定するステップは、前記第1グループタイプに基づいて全方向ビデオトラック内の関心領域サンプルグループ入口を識別するステップと、前記関心領域サンプルグループ入口内の要素に基づいて、前記全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースとを確定するステップと、を含む。
【0023】
一つの例示的な実施形態において、前記関心領域に関連付けられた1つまたは複数のメディアリソースを再生する前記ステップは、ユーザ現在のビューポートにおいて、前記関心領域に関連付けられた1つまたは複数のメディアリソースを再生するステップ、または、前記関心領域において、前記関心領域に関連付けられた1つまたは複数のメディアリソースを再生するステップ、を含む。
【0024】
一つの例示的な実施形態において、前記関心領域は、関心領域の数と、関心領域の識別子と、関心領域の空間領域と、関心領域のタイプと、関心領域の記述と、のうちの1つまたは複数の情報によって記述される。
【0025】
一つの例示的な実施形態において、前記関心領域のタイプは、クリエータ推薦タイプと、画面強化タイプと、リアルタイムホットスポットタイプと、方位ガイドタイプと、マルチ画面インタラクティブタイプと、のうちの1つまたは複数種類の情報を含む。
【0026】
一つの例示的な実施形態において、前記関心領域の空間領域は、球面領域の中心点と、球面領域の方位角範囲と俯仰角範囲と、のうちの1つまたは複数種類の情報を含み、ここで、前記球面領域の中心点は、中心点の方位角、中心点の俯仰角、中心点の傾斜角によって確定される。
【0027】
一つの例示的な実施形態において、前記メディアリソースは、音声、ビデオ、画像、時限テキストのうちの一つまたは複数を含む。
【0028】
図2は本願の実施例が提供する全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースの模式図である。ビデオデータは360°の空間領域をカバーし、関心領域ROIを含み、ビデオデータと関心領域の位置情報はすべてビデオトラック内に記述されている。関心領域は、例えば音声、時限テキストなど、1つまたは複数種類のメディアリソースと関連関係にあり、ここでいう関連関係は、それぞれメディアリソース独自のトラック内に記述される。パノラマビデオの関心領域には、時間とともに変化する空間位置情報が含まれており、前記空間位置はパノラマビデオの画面内容と強い関連があるので、本実施例においては、関心領域情報をビデオデータ情報の一部として、ビデオメディアトラックのメタデータ領域に格納する。関心領域が時間とともに変化するシーンでは、次のような場合がよく見られる。
【0029】
1つ目:パノラマビデオ再生の全過程においてROIの空間位置が変化しないままである。
【0030】
2つ目:ROI空間位置はビデオ再生、時間経過とともに変化し、極限の場合、各ビデオメディアサンプルは異なるROI空間位置に対応する。
【0031】
3つ目:ROI空間位置はビデオ再生、時間経過とともに変化するが、いくつかの時間帯では変化しない。
【0032】
4つ目:同じ時刻に異なるタイプのROIが存在する。
一つの応用的な実例において、本願の実施例は、主にサーバとクライアント側との間での転送とクライアント側でデコーディング、レンダリングに適用される、パノラマビデオにおける関心領域とユーザビューポートとの結合方法を提供する。
図3は本願の実施例が提供する関心領域とユーザビューポートとの結合方法のフローチャートである。
図3に示すように、パノラマビデオにおける関心領域とユーザビューポートとの結合方法は、主に以下のステップを含む。
【0033】
S31:クライアント側からユーザ行動データをサーバにフィードバックする。
S32:サーバによって、ユーザの観覧行動を統計的に分析し、関心領域の空間位置情報を識別し、パノラマビデオ中の関心領域をマークし、MPEG-I Part 2 OMAFとISOBMFFをもとに、ビデオトラックに関心領域記述情報を追加し、ROI画面コンテンツと指定関係のあるメディアオブジェクト、例えば字幕、音声、オーバーレイビデオなどには、ROI関連記述情報を追加する。
【0034】
S33:クライアント側からサーバに再生要求を送信する。
S34:サーバによって、上記再生要求に基づいてメディアファイルをクライアント側に送信する。
【0035】
S35:クライアント側でパノラマビデオメディアファイルをデコーディングし、現在のビューポートパラメータを取得し、現在のビューポートまたはビューポート内のオブジェクトと関心領域との関連関係に基づいて、レンダリング画面またはビューポート内のオブジェクトの空間位置を調整する。
【0036】
S36:クライアント側で現在のビューポート画面をレンダリングし、ユーザはディスプレイを通してビューポート内で見る。
【0037】
関心領域には様々なソースがあるが、大きく分けて以下を含む2つのカテゴリがある。1つ目、関心領域はコンテンツ製作者からあらかじめ与えられる。例えば、芸術指導の必要性から、監督推薦の視角を提供したり、オンデマンドのコンテンツに対して初期ビューポートを提供したりするなどである。2つ目、ユーザ行動の予測またはクライアント側からの送信信号に基づいて、パノラマビデオ内の関心領域の位置を判断して、かつ、関連記述情報を追加する。
【0038】
S35における空間位置の調整は、オブジェクトタイプと、クライアントの動作とのうちのいずれか1つまたは複数種類の情報に基づいて確定することができる。
【0039】
応用シーンには、次のような様々な形式がある。
1つ目:音声と関心領域とに関連関係がある場合、音声には自然に定位特性があるため、クライアント側はステレオサウンドやサラウンドサウンドなどの技術と組み合わせて、音声の方位によって関心領域の位置情報をユーザに提示し、エキサイティングなホットライトをタイムリーに捉えるようにユーザを誘導することができる。
【0040】
2つ目:時限テキストと関心領域とに関連関係がある場合、クライアント側は必要に応じて時限テキストが表示される領域を調整する。時限テキストはナレーションや会話のテキスト提示としてだけでなく、ビデオ画面内の一部のシーンにコメントを付けることもでき、特に聴覚障害のあるユーザにとってはVR体験を効果的に向上させることができる。
【0041】
3つ目:ユーザは、パノラマビデオの全体画面を見ながら、一部の特殊領域に注目したい場合である。例えばスポーツ大会では、競技場全体を見ながら指定されたアスリートに注目したい場合が考えられる。クライアント側は、ビデオを重ねる方法で、関心領域を「ピクチャインピクチャ」形式でユーザビューポート内に表示することができる。
【0042】
本願の実施例で提供する関連関係と調整方式は説明のみであり、限定するものではない。最終的な表現効果は、クライアント側とメディアデータとの組み合わせによって決まる。
【0043】
ISOBMFFメディアファイル内のすべてのデータはボックス(box)に入っており、ボックスのヘッダにそのタイプとサイズを記述できる。あるboxがネストをサポートしている場合、つまりあるboxに別のサブboxが含まれている場合、そのboxはネストをサポートするボックス(container box)と呼ばれる。
【0044】
「trak」はデータトラックを表し、そのサブboxにはそのtrackのメディアデータ参照と記述が含まれている。trakにはメディアボックス(media box、mdia)を含むことができ、trakとmdiaの関係はtrak->mdiaと表記することができる。ここで、mdiaはメディアデータ情報を含み、メディアタイプとサンプル(sample)データを定義し、サンプル情報を記述することができる。前記メディアデータは、ビデオ、音声、字幕など様々なタイプを含むことができる。mdiaは一つのcontainer boxとして、一つのメディアヘッダボックス(media header box、mdhd)、一つの処理参照ボックス(handler reference box、hdlr)、および一つのメディア情報ボックス(media information box、minf)を含むことができる。trakとmdiaとminfの関係はtrak->mdia->minfと表記できる。
【0045】
本願の実施例では、minf内のサンプルテーブルボックス(sample table box、stbl)を利用して関心領域情報を格納し、様々なシーンにおける関心領域記述のニーズを満たすことができる。
【0046】
本願の実施例が提供するメディアリソース再生方法は、主にパノラマビデオ処理方法に用いられるものであり、ユーザが観覧方向を自主的にコントロールしながら、パノラマビデオ内でのROIの関連分布情報を知ることができるように、ISOBMFFを利用して没入型メディアビデオコンテンツ内の関心領域を記述して、さらにビューポートと関心領域との関連を提供することができる。
【0047】
本願の実施例において、パノラマメディアファイルに関心領域マークを追加してから、ユーザビューポート内のビデオ画面やその他の種類のオブジェクト(例えば字幕、ビデオオーバーレイ、音声など)に、さらにビューポートやオブジェクト、及び関心領域の関連情報記述を追加することで、現在のビューポート内でビデオ画面またはメディアオブジェクトに相応の調整を行い、ROI領域の関連情報をユーザに取得させることができる。上記の関連関係により、ユーザが自主的にビューポートをコントロールするニーズを満たせるだけでなく、ユーザの権限に影響を与えることなくROI指示を提供し、ユーザのビデオ観覧を補助し、ユーザのVR体験を効果的に向上させることができる。
【0048】
図4は本願の実施例が提供する時限テキストレンダリング方法のフローチャートである。本実施例が提供する時限テキストレンダリング方法は主に、VRシーンにおいて関心領域内のテキストをレンダリングする場合に適し、前記時限テキストレンダリング方法は時限テキストレンダリング装置によって実行され、前記時限テキストレンダリング装置はハードウェア及び/またはソフトウェアの方法によって実現可能である。
【0049】
図4に示すように、本願の実施例が提供する時限テキストレンダリング方法は、主にステップS41とS42とを含む。
【0050】
S41:時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの1つまたは複数のテキスト領域をレンダリングする深度情報とを確定する。
【0051】
S42:前記全方向ビデオの関心領域に対して前記時限テキストの1つまたは複数のテキスト領域をレンダリングする。
【0052】
一つの例示的な実施形態において、時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップは、すべての時限テキストサンプルに適した関心領域に対して、第2ボックスタイプに基づいて時限テキストトラックサンプル入口内の時限テキスト配置ボックスを識別するステップと、前記時限テキスト配置ボックス内の要素に基づいて、時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップと、を含む。
【0053】
一つの例示的な実施例において、時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップは、時限テキストサンプルグループに適した関心領域に対して、前記第2グループタイプに基づいて時限テキストトラック内の時限テキスト配置サンプルグループ入口を識別するステップと、前記時限テキスト配置サンプルグループ入口内の要素に基づいて、時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップと、を含む。
【0054】
一つの例示的な実施例において、前記全方向ビデオの関心領域に対して前記時限テキストの1つまたは複数のテキスト領域をレンダリングするステップは、単位球に対する3次元平面を構築するステップであって、前記全方向ビデオの関心領域に基づいて前記3次元平面に対応する球面領域位置を確定し、深度情報に基づいて前記3次元平面と前記単位球の球心との距離を確定するステップと、前記3次元平面に前記時限テキストの1つまたは複数のテキスト領域をレンダリングするステップと、を含む。
【0055】
一つの例示的な実施例において、前記深度情報は、前記全方向ビデオの関心領域に対して前記時限テキストの1つまたは複数のテキスト領域をレンダリングする深度値である。
【0056】
一つの例示的な実施例において、前記全方向ビデオの関心領域は、関心領域の数と、関心領域の識別子と、関心領域の空間領域と、関心領域のタイプと、関心領域の記述と、のうちの1つまたは複数の情報によって記述される。
【0057】
一つの例示的な実施形態において、前記関心領域のタイプは、クリエータ推薦タイプと、画面強化タイプと、リアルタイムホットスポットタイプと、方位ガイドタイプと、マルチ画面インタラクティブタイプと、のうちの1つまたは複数種類の情報を含む。
【0058】
一つの例示的な実施例において、関心領域の空間領域は、球面領域の中心点と、球面領域の方位角範囲と俯仰角範囲と、のうちの1つまたは複数種類の情報を含み、ここで、前記球面領域の中心点は、中心点の方位角、中心点の俯仰角、中心点の傾斜角によって確定される。
【0059】
応用的な一例として、本願の実施例はパノラマビデオ内の関心領域の位置が最初から最後まで変化しない場合に、メディアファイル内でのROI空間位置情報の記述方法を提供する。
図5は本願の実施例が提供するパノラマビデオトラックにおけるボックス分布の模式図である。
【0060】
本実施例のシーンでは、ROI空間位置はメディアビデオデータの一種の固有属性と考えることができ、このようなシーンに対して、ROIの位置情報はstbl boxにおけるSample Entryを用いて記述する。
図5に示すように、stblはcontainer boxであり、そのサブboxには、メディアデータのデコーディングに必要な初期化パラメータなどの関連デコーダ情報を記述するためのサンプル記述ボックス(sample description box、stsd)が含まれており、trak、mdia、minf、stblとstsdの関係はtrak->mdia->minf->stbl->stsdとして表記できる。stsdには複数のサンプルエントリ(Sample Entry)を含むことができ、一つのメディアデータトラックに複数の記述情報を持たせることができ、ビデオデータのサンプルエントリタイプはビジュアルサンプルエントリ(Visual Sample Entry)として固定されている。一方、パノラマメディアデータについては、ビデオデータの空間位置情報、投影方式、つなぎ合わせ方式などの記述情報は通常のデコーダでは解析できないため、上記記述情報はスキーム情報ボックス(scheme information box)内で記述される。
【0061】
本実施例において、通常のビデオデータに対して、関心領域の情報はVisual Sample Entryに記述し、パノラマビデオについては、scheme information boxに記述し、関心領域記述ボックス(Region Of Interest Description Box(roid))を追加し、前記roidの目的は、当該ビデオデータトラック内の関心領域の空間位置及びその変化状況を記述することであり、以下のように定義される。
【0062】
【0063】
構文は次のとおりである。
【0064】
【0065】
構文は以下のように定義される。
roi_countは関心領域の数を示す。ROIRegionStruct()は空間位置、関心領域識別子、関連情報などの、関心領域の関連情報を示す。
【0066】
track_countは関心領域に関連付けられたメディアトラックの数を示す。track_idは関心領域に関連付けられたメディアトラック識別子を示し、トラック識別子によって関心領域に関連付けられた1つまたは複数のメディアリソースを確定することができる。
【0067】
ROIRegionStruct()の構文は以下のように定義される。
roi_shape_typeは関心領域の空間領域の形状タイプを示す。roi_idは関心領域の識別子を示し、現在のトラックでは一意である。roi_typeは関心領域のタイプを示す。
【0068】
関心領域のソース、タイプを表1に示す。
【0069】
【0070】
roi_descriptionは空文字で終わるUTF-8(8-bit Unicode Transformation Format)文字列で、関心領域の記述を提供する。SphereRegionStruct()は、関心領域の空間領域を示し、グローバル座標軸に対して、関心領域の形状タイプ値(shape_type)はroi_shape_typeで示され、SphereRegionStruct(1)での補間値(interpolate)は0と等しくなければならない。
【0071】
本実施例は、パノラマビデオ内の関心領域の位置がビデオ再生、時間経過とともに変化するが、いくつかの時間帯では変化しない場合に、メディアファイル内でのROI空間位置情報の記述方法を説明する。
図6は本願の実施例に係るパノラマビデオトラックにおけるもう一つのボックス分布の模式図である。
【0072】
本実施例のシーンでは、関心領域の位置情報は、ビデオトラック内の一部サンプルに共通の属性として捉えることができるので、ISOBMFFにおけるサンプルグループ(Sample Group)構造を用いて関心領域の空間情報を記述する。
図6に示すように、サンプルグループはメディアトラック内で一部サンプルの属性を表すメカニズムであり、サンプルグループは二つの構造、すなわちサンプルグループボックス(Sample To Group box、sbgp)とグループ記述ボックス(Sample Group Description box、sgpd)から構成される。関心領域がいくつかの時間帯では変化しない場合、すなわちビデオトラック内の一部サンプルに対応する関心領域が同じである場合、そのときのROI空間位置はサンプルグループを用いて記述することができる。
【0073】
grouping_typeは、サンプルグループのタイプ、つまりサンプルグループを形成するための条件を指示し、そしてそれを、グループ記述内に同じタイプ値を持つグループにリンクするためのものである。1つのメディアトラックについて、同じgrouping_typeが最大で1回現われる。本実施例において、関心領域の空間情報グループタイプを「rigp」と定義し、ビデオトラック内のサンプルを関心領域別に複数のグループに分け、sgpd boxに対応させる。
【0074】
各sgpd boxは1つのsbgp boxに対応しており、関心領域の空間位置情報はsgpd box内で記述され、grouping_typeの定義は「roig」で上記と同じである。sgpd box内のサンプルグループエントリは、関心領域に対して、対応する拡張、すなわち関心領域グループエントリ(ROI Sample Group Entry)を追加している。
【0075】
構文は以下のように定義される。
【0076】
【0077】
構文は以下のように定義される。
roi_countは関心領域の数を示す。ROIRegionStruct()は空間位置、関心領域識別子、関連情報などの、関心領域の関連情報を示す。
【0078】
track_countは関心領域に関連付けられたメディアトラックの数を示す。track_idは関心領域に関連付けられたメディアトラック識別子を示し、トラック識別子によって関心領域に関連付けられた1つまたは複数のメディアリソースを確定することができる。ROIRegionStruct()の構文定義は前述の通りであり、本実施例では説明を省略する。
【0079】
応用的な一例において、本実施例は、パノラマメディアファイル内のメディアデータと空間領域とが関連関係を有し、かつ、全てのサンプルが1つの空間領域にしか対応していない場合の、この関連関係の記述方法について説明し、ここでの空間領域は、ビデオトラック内の関心領域によって定義される。
【0080】
関心領域に関連付けることができるメディアの種類には、音声、テキスト、一部のビデオ領域など様々なものがあり、その表現効果もクライアントの操作に関連している。本実施例では、時限テキストを例に、その中の一つの関連方法について説明する。時限テキストとは、VR字幕のことであり、本実施例において、時限テキストのレンダリング位置は、時限テキストトラックに定義された2次元領域情報だけでなく、ビデオ内の関心領域にも関係する。このシーンに対し、VR字幕の再生、レンダリング過程は以下の通りである。
【0081】
1)仮想現実シーンの立体を構成するために、ビデオソースカメラの位置を中心点として、球形の空間領域を構築する。
【0082】
2)時刻tにおいて、パノラマプレーヤは、時限テキストの深度情報や両眼視差、関心領域の関連関係、2次元領域情報を読み取る。
【0083】
3)パノラマプレーヤは、関心領域の関連関係に基づいて、対応するビデオトラックから関心領域の空間位置情報を読み取る。
【0084】
4)字幕の表示方法が常に表示画面に表示される場合は、ステップ1~ステップ3のパラメータと両眼視差値に基づいて、時限テキストの左右の目の表示画面での表示位置をそれぞれ計算し、左右の目の表示画面で時限テキストをそれぞれレンダリングする。
【0085】
5)字幕の表示方法が関心領域に固定して表示される場合は、ステップ1~ステップ3のパラメータと深度値に基づいて3次元平面を構築し、かつ、3次元平面上で時限テキストをレンダリングする。
【0086】
本実施例において、パノラマメディアにおける時限テキスト空間パラメータ、関心領域の関連関係は、全方向時限テキスト配置ボックス(Omaf Timed Text Config box,otcf)によって記述され、本実施例では、それぞれ2つの構文構造に対応する2つの選択可能な実施形態を提供する。
【0087】
1つ目の選択可能な実施形態において、時限テキスト配置ボックスの定義と構文は以下の通りである。
【0088】
【0089】
relative_to_roi_flagは時限テキストのレンダリング方法を表し、1は時限テキストが常にディスプレイに表示されることを表し、0は時限テキストが空間的な関心領域に表示され、ユーザが関心領域の方向に見ているときにのみ見られることを表す。
【0090】
【0091】
relative_disparity_flagは視差の単位を表し、0はピクセル、1はパーセンテージである。roi_included_flagは関心領域がotcf box内で提供されるか否かを表し、0は提供されないことを表し、1は提供されることを表す。disparity_in_percent/pixelsは視差の大きさを表し、負の値とすることができる。roi_idは、時限テキストに関連付けられている関心領域を表し、ビデオトラック内の関心領域に対応する。
【0092】
track_idはオプションで、時限テキストに関連付けられたビデオトラック識別子を表し、時限テキストトラックとビデオトラックとがトラック参照ボックス(Track Reference Box,tref)を通して関連付けられている場合、この識別子は提供されなくてもよい。
【0093】
2つ目の実施形態において、時限テキスト配置ボックスの定義と構文は以下の通りである。
【0094】
【0095】
relative_to_viewport_flagは、時限テキストのレンダリング方法を表す。値が1の場合、時限テキストが常にディスプレイに表示されるべきであることを表す。値が0の場合、時限テキストが球体上の固定された空間位置にレンダリングされることを表す。つまり、ユーザがテキスト提示をレンダリングする方向に見ているときにのみ、当該テキスト提示が見られる。値が2の場合、時限テキストが球体の関心領域内でレンダリングされることを表し、ユーザが関心領域の方向に見ているときに、テキスト提示が見られる。
【0096】
roi_idは、時限テキストに関連付けられている関心領域を表し、ビデオトラック内の関心領域に対応する。
【0097】
track_idはオプションで、時限テキストに関連付けられたビデオトラック識別子を表し、時限テキストトラックとビデオトラックとがトラック参照ボックス(Track Reference Box,tref)を通して関連付けられている場合、この識別子は提供されなくてもよい。
【0098】
応用的な一例において、本実施例は、パノラマメディアファイル内のメディアデータと空間領域とが関連関係を有し、かつ、異なるサンプルが異なる空間領域に対応している場合の、この関連関係の記述方法について説明する。
【0099】
本実施例において、同様に時限テキストを例に、サンプルグループ構造を利用して記述する。本実施例において、2つの選択可能な実施形態を提供し、即ち、時限テキストサンプルに対応する空間領域は、ビデオトラック内の関心領域によって定義することも、2つの構文構造にそれぞれ対応する一つの空間領域を指定することもできる。
【0100】
本実施例において、VR字幕の再生、レンダリング過程は上記実施例と基本的に一致するが、関連関係は時限テキストサンプルグループによって取得される。
【0101】
1つ目の実施形態では、本実施形態において、関心領域の空間情報グループタイプを「rcgp」と定義し、時限テキストトラック内のサンプルをそれに関連付けられた関心領域によって、複数のグループに分ける。一方、各sgpd boxは1つのsbgp boxに対応しており、同じグループ内のサンプルに関連付けられた関心領域のタイプはsgpd box内で記述され、grouping_typeの定義は「rcgp」で上記と同じである。sgpd box内のサンプルグループエントリは、関心領域関連関係に対して、対応する拡張、すなわち関心領域関連関係グループエントリ(ROICorrelationSampleGroupEntry)を追加する。
【0102】
構文は以下のように定義される。
【0103】
【0104】
relative_disparity_flagは視差の単位を表し、0はピクセル、1はパーセンテージである。roi_included_flagは関心領域がotcf box内で提供されるか否かを表し、0は提供されないことを表し、1は提供されることを表す。disparity_in_percent/pixelsは視差の大きさを表し、負の値とすることができる。roi_idは、時限テキストに関連付けられている関心領域を表し、ビデオトラック内の関心領域に対応する。
【0105】
track_idはオプションで、時限テキストに関連付けられたビデオトラック識別子を表し、時限テキストトラックとビデオトラックとがトラック参照ボックス(Track Reference Box,tref)を通して関連付けられている場合、この識別子は提供されなくてもよい。
【0106】
2つ目の実施形態では、本実施例において、関心領域の空間情報グループタイプを「otgp」と定義し、時限テキストトラック内のサンプルをそれに関連付けられた空間領域によって、複数のグループに分ける。一方、各sgpd boxは1つのsbgp boxに対応しており、同じグループ内のサンプルに関連付けられた関心領域のタイプはsgpd box内で記述され、grouping_typeの定義は「otgp」で上記と同じである。sgpd box内のサンプルグループエントリは、関心領域関連関係に対して、対応する拡張、すなわち関心領域関連関係グループエントリ(OmafTimedTextConfigEntry)を追加する。
【0107】
構文は以下のように定義される。
【0108】
【0109】
relative_disparity_flagは視差の単位を表し、0はピクセル、1はパーセンテージである。disparity_in_percent/pixelsは視差の大きさを表し、負の値とすることができる。SphereRegionStruct()は球体の位置を表し、この位置は他の情報とともに3次元空間における時限テキストの配置と表示位置を確定するために使用される。
【0110】
本実施例では、時限テキストを例に、
図7は本願の実施例が提供する字幕データ調整フローの模式図である。
図7に示すように、パノラマビデオに、1つのタイプの関心領域がある場合の、時限テキストのレンダリング過程について説明する。
【0111】
ステップ1において、プレーヤは、テキスト、画像などのメディアデータと、色、透明度、サイズ、空間位置などの情報を含む1つの時刻(t)の時限テキストデータを取得する。
【0112】
ステップ2において、otcf box内の時限テキスト配置情報を読み取る。本実施例において、relative_to_viewport_flagは2、roi_included_flagは1で、時限テキストは関心領域とともに変化し、関心領域は1タイプしかなく、関心領域のタイプroi_idを読み取る。
【0113】
ステップ3において、otcf box内のroi_idに基づいて、ビデオトラック内の同じroi_idで表される空間位置情報(Posroi)を取得する。
【0114】
ステップ4において、現在のビューポートの中心点(PosViewport)と関心領域の中心点(Posroi)の空間上の最短経路を取得する。
【0115】
ステップ5において、時限テキスト表示領域の座標を計算し、時限テキスト表示領域の中心点がステップ4の最短経路上にあり、かつ表示領域が現在のビューポート範囲を超えないようにする必要がある。
【0116】
ステップ6において、左右のビューポートの視差に応じて、左右のビューポート内での時限テキストの領域座標を対応するように調整する。
【0117】
ステップ7において、それぞれ左右のビューポート内で時限テキストをレンダリングする。
【0118】
本実施例は、パノラマメディアファイル内でのメディアデータと関心領域とを関連付ける応用の一つに過ぎず、メディアオブジェクトとパノラマビデオ画面内の領域とを関連付ける必要があるいかなるシーンにおいても、本願の案を適用することができる。
【0119】
図8は本願の実施例が提供するメディアリソース再生装置の構造模式図である。本実施例が提供するメディアリソース再生装置は主に、VRシーンの関心領域内で1つまたは複数のメディアリソースを再生する場合に適し、前記メディアリソース再生装置はハードウェアおよび/またはソフトウェアの方法によって実現可能である。
【0120】
図1に示すように、本願の実施例が提供するメディアリソース再生装置は主に領域とリソース確定モジュール81と、メディアリソース再生モジュール82とを含む。
【0121】
領域とリソース確定モジュール81は、第1ボックスタイプまたは第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースとを確定するように構成され、メディアリソース再生モジュール82は、前記関心領域に関連付けられた1つまたは複数のメディアリソースを再生するように構成されている。
【0122】
一つの例示的な実施形態において、領域とリソース確定モジュール81は、すべてのビデオサンプルに適した関心領域について、第1ボックスタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースを確定するように構成されている。
【0123】
領域とリソース確定モジュール81は、前記第1ボックスタイプに基づいて、ビデオトラックサンプル入口内の関心領域記述ボックスを識別するように構成され、前記ビデオトラックサンプルは、ビデオトラックビジュアルサンプル、全方向ビデオトラック制限サンプルのうちの1つまたは複数を含み、前記関心領域記述ボックス内の要素に基づいて、前記全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースとを確定する。
【0124】
一つの例示的な実施形態において、領域とリソース確定モジュール81は、ビデオサンプルグループに適した関心領域について、第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースを確定するように構成されている。
【0125】
領域とリソース確定モジュール81は、前記第1グループタイプに基づいて全方向ビデオトラック内の関心領域サンプルグループ入口を識別し、前記関心領域サンプルグループ入口内の要素に基づいて、前記全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースとを確定するように構成されている。
【0126】
一つの例示的な実施形態において、メディアリソース再生モジュール82は、ユーザ現在のビューポートにおいて、前記関心領域に関連付けられた1つまたは複数のメディアリソースを再生し、または、前記関心領域において、前記関心領域に関連付けられた1つまたは複数のメディアリソースを再生するように構成されている。
【0127】
一つの例示的な実施形態において、前記関心領域は、関心領域の数と、関心領域の識別子と、関心領域の空間領域と、関心領域のタイプと、関心領域の記述と、のうちの1つまたは複数の情報によって記述される。
【0128】
一つの例示的な実施形態において、前記関心領域のタイプは、クリエータ推薦タイプと、画面強化タイプと、リアルタイムホットスポットタイプと、方位ガイドタイプと、マルチ画面インタラクティブタイプと、のうちの1つまたは複数種類の情報を含む。
【0129】
一つの例示的な実施形態において、前記関心領域の空間領域は、球面領域の中心点と、球面領域の方位角範囲と俯仰角範囲と、のうちの1つまたは複数種類の情報を含み、ここで、前記球面領域の中心点は、中心点の方位角、中心点の俯仰角、中心点の傾斜角によって確定される。
【0130】
一つの例示的な実施形態において、前記メディアリソースは:音声、ビデオ、画像、時限テキストのうちの一つまたは複数を含む。
【0131】
図9は本願の実施例が提供する時限テキストレンダリング装置の構造模式図である。本実施例が提供する時限テキストレンダリング装置は主に、VRシーンにおいて関心領域内のテキストをレンダリングする場合に適し、前記時限テキストレンダリング装置はハードウェア及び/またはソフトウェアの方法によって実現可能である。
【0132】
図9に示すように、本願の実施例が提供する時限テキストレンダリング装置は主に領域と深度情報確定モジュール91と、時限テキストレンダリングモジュール92とを含む。
【0133】
領域と深度情報確定モジュール91は、時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの1つまたは複数のテキスト領域をレンダリングする深度情報とを確定するように構成され、時限テキストレンダリングモジュール92は、前記全方向ビデオの関心領域に対して前記時限テキストの1つまたは複数のテキスト領域をレンダリングするように構成されている。
【0134】
一つの例示的な実施形態において、領域と深度情報確定モジュール91は、すべての時限テキストサンプルに適した関心領域に対して、第2ボックスタイプに基づいて時限テキストトラックサンプル入口内の時限テキスト配置ボックスを識別し、前記時限テキスト配置ボックス内の要素に基づいて、時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域を確定するように構成されている。
【0135】
一つの例示的な実施例において、領域と深度情報確定モジュール91は、時限テキストサンプルグループに適した関心領域に対して、前記第2グループタイプに基づいて時限テキストトラック内の時限テキスト配置サンプルグループ入口を識別し、前記時限テキスト配置サンプルグループ入口内の要素に基づいて、時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域を確定するように構成されている。
【0136】
一つの例示的な実施例において、時限テキストレンダリングモジュール92は、単位球に対する3次元平面を構築し、前記全方向ビデオの関心領域に基づいて前記3次元平面に対応する球面領域位置を確定し、深度情報に基づいて前記3次元平面と前記単位球の球心との距離を確定し、前記3次元平面に前記時限テキストの1つまたは複数のテキスト領域をレンダリングするように構成されている。
【0137】
一つの例示的な実施例において、前記深度情報は、前記全方向ビデオの関心領域に対して前記時限テキストの1つまたは複数のテキスト領域をレンダリングする深度値である。
【0138】
一つの例示的な実施例において、前記全方向ビデオの関心領域は、関心領域の数と、関心領域の識別子と、関心領域の空間領域と、関心領域のタイプと、関心領域の記述と、のうちの1つまたは複数の情報によって記述される。
【0139】
一つの例示的な実施形態において、前記関心領域のタイプは、クリエータ推薦タイプと、画面強化タイプと、リアルタイムホットスポットタイプと、方位ガイドタイプと、マルチ画面インタラクティブタイプと、のうちの1つまたは複数種類の情報を含む。
【0140】
一つの例示的な実施例において、前記関心領域の空間領域は:球面領域の中心点と、球面領域の方位角範囲と俯仰角範囲と、のうちの1つまたは複数種類の情報を含み、ここで、前記球面領域の中心点は、中心点の方位角、中心点の俯仰角、中心点の傾斜角によって確定される。
【0141】
上記実施例に基づいて、本願の実施例はさらに電子機器を提供する。
図10は本願の実施例が提供する電子機器の構造模式図である。
図10に示すように、この電子機器はプロセッサ100と、メモリ101と、入力装置102と出力装置103とを含む。電子機器内のプロセッサ100の数は1つまたは複数であってもよく、
図10では1つのプロセッサ100を例に挙げている。電子機器内のプロセッサ100、メモリ101、入力装置102および出力装置103はバスまたはその他の方法で接続されてもよく、
図10ではバスで接続されている例を示している。
【0142】
メモリ101は、コンピュータ読み取り可能な記憶媒体として、ソフトウェアプログラム、コンピュータ実行可能なプログラムおよびモジュール、例えば本願の実施例におけるメディアリソース再生方法に対応するプログラム命令/モジュール(例えば、メディアリソース再生装置内の領域とリソース確定モジュール81、メディアリソース再生モジュール82)、または例えば本願の実施例における時限テキストレンダリング方法に対応するプログラム命令/モジュール(例えば、時限テキストレンダリング装置内の領域と深度情報確定モジュール91、時限テキストレンダリングモジュール92)の記憶に利用できる。
【0143】
プロセッサ100は、メモリ101に記憶されたソフトウェアプログラム、命令及びモジュールを実行することにより、電子機器の様々な機能アプリケーション及びデータ処理を実行し、すなわち、本願の実施例において提供される何れか一つの方法を実現する。
【0144】
メモリ101は、主に、プログラム記憶領域とデータ記憶領域とを含むことができ、プログラム記憶領域はオペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、端末の使用によって作成されたデータなどを記憶することができる。さらに、メモリ101は、高速ランダムアクセスメモリを含むことができ、または不揮発性のメモリ、例えば少なくとも1つの磁気ディスクメモリ装置、フラッシュメモリ装置、または他の不揮発性のソリッドステートメモリ装置を含むことができる。いくつかの実例において、メモリ101はさらに、プロセッサ100に対して遠隔地に配置されたメモリを含んでもよく、これらの遠隔メモリは、ネットワークを介して電子機器に接続することができる。上記のネットワークの実例は、インターネット、社内イントラネット、ローカルエリアネットワーク、移動通信ネットワーク、及びこれらの組み合わせを含むが、これらに限定されない。
【0145】
入力装置102は、入力された数字や文字情報を受け取ったり、電子機器のユーザ設定や機能制御に関するキー信号入力を生成したりするために使用できる。出力装置103は、ディスプレイなどの表示装置を含むことができる。
【0146】
上記実施例に基づいて、本願の実施例はさらにコンピュータ実行可能な命令を含む記憶媒体を提供し、前記コンピュータ実行可能な命令は、コンピュータプロセッサによって実行されたとき、本願の実施例において提供される何れか一つの方法を実行するように構成されている。
【0147】
例えば、本願の実施例において提供されるメディアリソース再生方法を実行する場合、この方法は、
第1ボックスタイプまたは第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースとを確定するステップと、前記関心領域に関連付けられた1つまたは複数のメディアリソースを再生するステップと、を含む。
【0148】
例えば、本願の実施例において提供される時限テキストレンダリング方法を実行する場合、この方法は、時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの1つまたは複数のテキスト領域をレンダリングする深度情報とを確定するステップと、前記全方向ビデオの関心領域に対して前記時限テキストの1つまたは複数のテキスト領域をレンダリングするステップと、を含む。
【0149】
本願の実施例が提供するコンピュータ実行可能な命令を含む記憶媒体によれば、そのコンピュータ実行可能な命令は、上述のような方法の操作に限定されるものではなく、本願の任意の実施例が提供する何れか一つの方法における関連操作を実行することもできる。
【0150】
以上の実施形態についての説明から、本願はソフトウェアおよび汎用ハードウェアによって実現できるが、ハードウェアによっても実現できることは、当業者であれば理解できるであろう。このような理解に基づいて、本願の技術案は、ソフトウェア製品の形で具現化することができ、このソフトウェア製品は、例えばコンピュータのフロッピー(登録商標)ディスク、読み取り専用メモリ(Read-Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、フラッシュメモリ(FLASH)、ハードディスクまたは光ディスクなどの、1台のコンピュータ機器(パーソナルコンピュータ、サーバまたはネットワーク機器などでもよく)に本願の各実施例に記載の方法を実行させるように構成された幾つかの命令を含む、コンピュータ読み取り可能な記憶媒体に格納できる。
【0151】
上記メディアリソース再生装置および時限テキストレンダリング装置の実施例において、含まれる各ユニットとモジュールは、機能ロジックに基づいて分類されているだけであり、対応する機能を実現できれば、上記の分類に限定されるものではない。また、各機能ユニットの名称も、相互の区別を容易にするためのものであり、本願の保護範囲を制限するものではない。
【0152】
上記は本願の例示的な実施例にすぎず、本願の保護範囲を限定するためのものではない。
【0153】
当業者であれば、ユーザ端末という用語は、例えば携帯電話、携帯データ処理装置、携帯ウェブブラウザ、または車載用移動局など、あらゆる適切なタイプの無線ユーザ機器をカバーすることは理解されるだろう。
【0154】
一般的に、本願の様々な実施例は、ハードウェアまたは専用回路、ソフトウェア、論理またはそれらの任意の組合せ内で実現できる。例えば、本願はそれに限定されないが、いくつかの態様はハードウェア内で実現でき、一方、他の態様はコントローラ、マイクロプロセッサまたはその他のコンピューティング装置によって実行可能なファームウェアまたはソフトウェア内で実現できる。
【0155】
本願の実施例は、例えば、プロセッサの実体内で、またはハードウェアによって、あるいはソフトウェアとハードウェアの組み合わせによって、モバイル装置のデータプロセッサがコンピュータプログラム命令を実行することによって実現されることができる。コンピュータプログラム命令は、アセンブリ命令、命令セットアーキテクチャ(Instruction Set Architecture,ISA)命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、または1つまたは複数のプログラミング言語の任意の組み合わせで作成されたソースコードまたはターゲットコードであってもよい。
【0156】
本願の添付図面における任意の論理フローのブロック図は、プログラムのステップを表してもよく、または相互に接続された論理回路、モジュール、および機能を表してもよく、あるいは、プログラムのステップと論理回路、モジュール、および機能との組み合わせを表してもよい。コンピュータプログラムはメモリに格納できる。メモリは、ローカル技術環境に適した任意のタイプを有することができ、かつ、任意の適切なデータ記憶技術で実現でき、例えば、読み取り専用メモリ、ランダムアクセスメモリ、光学メモリ装置及びシステム(DVD(デジタルバーサタイルディスク(Digital Video Disc,DVD)、または光学ディスク(compact disc,CD))などを含むが、それらに限定されない。コンピュータ読み取り可能な媒体は、不揮発性の記憶媒体を含むことができる。データプロセッサは、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(Digital Signal Processing,DSP)、専用集積回路(Application Specific Integrated Circuit,ASIC)、プログラマブルロジックデバイス(Field Programmable Gate Array,FPGA)、及びマルチコアプロセッサアーキテクチャに基づくプロセッサなど、ローカル技術環境に適した任意のタイプであってもよいが、これらに限定されない。
【国際調査報告】