IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧
特許7072649高品質のエクスペリエンスのためのオーディオメッセージの効率的な配信および使用のための方法および装置
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-05-12
(45)【発行日】2022-05-20
(54)【発明の名称】高品質のエクスペリエンスのためのオーディオメッセージの効率的な配信および使用のための方法および装置
(51)【国際特許分類】
   G06F 3/01 20060101AFI20220513BHJP
   H04N 21/4728 20110101ALI20220513BHJP
   H04N 21/439 20110101ALI20220513BHJP
   G06F 3/16 20060101ALI20220513BHJP
【FI】
G06F3/01 510
H04N21/4728
H04N21/439
G06F3/16 530
【請求項の数】 46
(21)【出願番号】P 2020520211
(86)(22)【出願日】2018-10-10
(65)【公表番号】
(43)【公表日】2020-12-17
(86)【国際出願番号】 EP2018077556
(87)【国際公開番号】W WO2019072890
(87)【国際公開日】2019-04-18
【審査請求日】2020-05-30
(31)【優先権主張番号】17196255.8
(32)【優先日】2017-10-12
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【弁理士】
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】ムルタザ・アドリアン
(72)【発明者】
【氏名】フックス・ハラルド
(72)【発明者】
【氏名】ツェルハン・ベルント
(72)【発明者】
【氏名】プログシュティーズ・ヤン
【審査官】田川 泰宏
(56)【参考文献】
【文献】米国特許出願公開第2016/0381398(US,A1)
【文献】米国特許出願公開第2013/0205247(US,A1)
【文献】欧州特許出願公開第03037915(EP,A1)
【文献】米国特許出願公開第2013/0259312(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/01
H04N 21/4728
H04N 21/439
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのコンテンツ消費デバイスシステムであって、前記コンテンツ消費デバイスシステムは、
再生されるオーディオおよびビデオシーン(118a、118b)に関連付けられた少なくとも1つのビデオストリーム(106)を受信し、
再生される前記オーディオおよびビデオシーン(118a、118b)に関連付けられた少なくとも1つの第1のオーディオストリーム(116、316)を受信し、
前記少なくとも1つの第1のオーディオストリーム(116)から少なくとも1つのオーディオ情報メッセージに関連付けられたオーディオ情報メッセージメタデータ(141)を受信する、ように構成され、
前記コンテンツ消費デバイスシステムは、
ユーザーへの前記オーディオおよびビデオシーン(118a、118b)の表現のために、前記少なくとも1つのビデオストリーム(106)からの少なくとも1つのビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダ(102)と、
前記ユーザーへの前記オーディオおよびビデオシーン(118a、118b)の前記表現のために、前記少なくとも1つの第1のオーディオストリーム(116、316)から少なくとも1つのオーディオ信号をデコードするように構成された少なくとも1つのメディアオーディオデコーダ(112)と、
メタデータプロセッサ(132)と、
関心領域ROIプロセッサ(120)と、を含み、前記関心領域ROIプロセッサ(120)は、
現在のユーザーのビューポートおよび/または頭の向きおよび/または動きのデータ(122)を受信し、
前記少なくとも1つのビデオストリーム(106)から前記少なくとも1つのビデオ信号に関連付けられたビューポートメタデータ(131)を受信し、前記ビューポートメタデータ(131)は少なくとも1つのROIを定義し、
前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータ(122)と、
ビューポートメタデータ(131)と、
に少なくとも基づいて、
前記少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定し、前記オーディオ情報メッセージは、前記少なくとも1つのビデオ信号および前記少なくとも1つのオーディオ信号から独立しており、
前記オーディオ情報メッセージを再生するように前記ROIプロセッサが決定すると、前記メタデータプロセッサ(132)への前記オーディオ情報メッセージメタデータ(141)の変更を要求する、ように構成され、
前記メタデータプロセッサ(132)は、オーディオ情報メッセージメタデータ(141)を受信し、前記ROIプロセッサ(120)から前記オーディオ情報メッセージメタデータを変更する要求を受信し、前記ROIプロセッサ(141)からの前記要求に従って、前記オーディオ情報メッセージメタデータ(141)を変更されたオーディオ情報メッセージメタデータに変更するように構成され、
前記ROIプロセッサ(120)は、前記変更されたオーディオ情報メッセージメタデータ(234)に従って、前記オーディオ情報メッセージを再生するようにさらに構成される、コンテンツ消費デバイスシステム。
【請求項2】
前記オーディオ情報メッセージはイアコンである、請求項1に記載のコンテンツ消費デバイスシステム。
【請求項3】
前記ROIプロセッサ(120)は、オーディオ情報メッセージメタデータ(141)にも基づいて、前記決定を実行するように構成される、請求項1または2に記載のコンテンツ消費デバイスシステム。
【請求項4】
前記ROIプロセッサ(120)は、
前記少なくとも1つのROIが前記ユーザーの現在のビューポートの外側にある場合には、前記少なくとも1つのオーディオ信号の再生に加えて、前記少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生し、
前記少なくとも1つのROIが前記ユーザーの現在のビューポート内にある場合には、前記少なくとも1つのROIに関連付けられた前記オーディオ情報メッセージの再生を非アクティブにするために、前記決定を実行するようにさらに構成される、請求項1から3のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項5】
前記少なくとも1つのオーディオ情報メッセージがエンコードされている少なくとも1つの追加のオーディオストリーム(140)を受信するようにさらに構成され、
前記コンテンツ消費デバイスシステムは、
前記メタデータプロセッサ(132)または別のプロセッサの制御下で、前記少なくとも1つの追加のオーディオストリーム(140)のパケットを、1つのストリーム(414)内の前記少なくとも1つの第1のオーディオストリーム(116、316)のパケットとマージし、前記ROIプロセッサ(120)によって提供された、前記少なくとも1つのオーディオ情報メッセージを再生するという前記決定に基づいて、前記オーディオシーンに加えて、前記オーディオ情報メッセージを再生する、少なくとも1つのマクサーまたはマルチプレクサ(412)をさらに含む、請求項1から4のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項6】
前記少なくとも1つの第1のオーディオストリーム(116)にエンコードされた前記少なくとも1つのオーディオ信号を記述する少なくとも1つのオーディオメタデータ(236)を受信し、
前記オーディオ情報メッセージを再生するように前記ROIプロセッサが決定すると、前記メタデータプロセッサ(132)によって、前記オーディオ情報メッセージメタデータ(141)を変更し、前記少なくとも1つのオーディオ信号の再生に加えて、前記オーディオ情報メッセージの再生を可能にする、
ようにさらに構成される、請求項1から4のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項7】
前記少なくとも1つの第1のオーディオストリーム(116)にエンコードされた前記少なくとも1つのオーディオ信号を記述する少なくとも1つのオーディオメタデータ(236)を受信し、
前記オーディオ情報メッセージを再生するように前記ROIプロセッサが決定すると、前記メタデータプロセッサ(132)によって、前記オーディオ情報メッセージメタデータ(141)を変更し、前記少なくとも1つのオーディオ信号の再生に加えて、前記少なくとも1つのROIに関連付けられたオーディオ情報メッセージの再生を可能にし、
前記メタデータプロセッサ(132)により、前記少なくとも1つのオーディオ信号を記述する前記オーディオメタデータ(236)を変更して、前記少なくとも1つの第1のオーディオストリーム(116)と前記少なくとも1つの追加のオーディオストリーム(140)とのマージを可能にする、
ようにさらに構成される、請求項1から4のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項8】
前記少なくとも1つの第1のオーディオストリーム(116)にエンコードされた前記少なくとも1つのオーディオ信号を記述する少なくとも1つのオーディオメタデータ(236)を受信し、
前記オーディオ情報メッセージを再生するように前記ROIプロセッサが決定すると、前記メタデータプロセッサ(132)により、前記オーディオ情報メッセージメタデータ(141)を合成オーディオジェネレータ(246)に提供して、合成オーディオストリーム(140)を作成し、前記オーディオ情報メッセージメタデータ(141)を前記合成オーディオストリーム(140)に関連付けて、前記合成オーディオストリーム(140)および前記オーディオ情報メッセージメタデータ(141)をマルチプレクサまたはマクサー(412)に提供して、前記少なくとも1つの第1のオーディオストリーム(116)と前記合成オーディオストリーム(140)とのマージを可能にする、
ようにさらに構成される、請求項1から4のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項9】
前記オーディオ情報メッセージがエンコードされている前記少なくとも1つの追加のオーディオストリーム(140)から前記オーディオ情報メッセージメタデータ(141)を取得するようにさらに構成される、請求項5に記載のコンテンツ消費デバイスシステム。
【請求項10】
将来の使用のために、前記オーディオ情報メッセージメタデータ(141)および/または前記オーディオ情報メッセージストリーム(140)を格納するようにさらに構成される、請求項1から9のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項11】
前記少なくとも1つのROIに関連付けられたオーディオ情報メッセージメタデータ(141)に基づいて、オーディオ情報メッセージを合成するように構成された合成オーディオジェネレータ(246)をさらに含む、
請求項1から10のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項12】
前記メタデータプロセッサ(132)は、前記オーディオメタデータ(236)および前記オーディオ情報メッセージメタデータに基づいて、前記少なくとも1つの第1のオーディオストリーム(116)への前記オーディオ情報メッセージの追加を得るために、前記オーディオ情報メッセージストリーム(140)のパケットを1つのストリーム(414)における前記少なくとも1つの第1のオーディオストリーム(116)のパケットとマージするために、マクサーまたはマルチプレクサ(412)を制御するようにさらに構成される、請求項1から4のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項13】
前記オーディオ情報メッセージメタデータ(141)は、構成フレームに、または再生される前記オーディオ情報メッセージの音量レベルに関連付けられた少なくともゲインデータを含むデータフレームにエンコードされる、請求項1から12のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項14】
前記オーディオ情報メッセージメタデータ(141)は、構成フレームに、または
位置データと、
前記オーディオ情報メッセージの言語と、
データテキストの長さと、
前記関連付けられたテキストラベルのデータテキストと、
前記オーディオ情報メッセージの記述と、
のうちの少なくとも1つを含むデータフレームにエンコードされる、請求項1から13のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項15】
前記メタデータプロセッサ(132)は、オーディオ情報メッセージメタデータを変更して、前記オーディオ情報メッセージをアクティブ化し、かつ/またはその位置を設定/変更するようにさらに構成される、請求項1から14のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項16】
前記メタデータプロセッサ(132)は、
ストリームからオーディオ情報メッセージメタデータを抽出し、
メタデータをストリームに埋め込み、
前記ストリームを追加のメディアデコーダに供給し、
前記少なくとも1つの第1のオーディオストリーム(116)からオーディオメタデータを抽出し、
追加のストリームからオーディオ情報メッセージメタデータを抽出し、
前記オーディオ情報メッセージの存在を考慮に入れてマージすることができるように、前記少なくとも1つの第1のオーディオストリーム(116)のオーディオメタデータを変更し、
前記ROIプロセッサから受信した前記情報に基づいてそれらをマルチプレクスまたは多重化するために、前記マルチプレクサまたはマクサーにストリームを供給する、操作のうちの少なくとも1つを実行するようにさらに構成される、請求項1から15のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項17】
前記ROIプロセッサ(120)は、前記オーディオ情報メッセージがエンコードされている追加のオーディオストリーム(140)および/またはオーディオ情報メッセージメタデータのローカル検索を実行し、検索することができない場合には、前記追加のオーディオストリーム(140)および/またはオーディオ情報メッセージメタデータをリモートエンティティに対して要求するようにさらに構成される、請求項1から16のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項18】
前記ROIプロセッサ(120)は、追加のオーディオストリーム(140)および/またはオーディオ情報メッセージメタデータのローカル検索を実行し、検索することができない場合には、前記合成オーディオジェネレータ(432)に対して前記オーディオ情報メッセージストリームおよび/またはオーディオ情報メッセージメタデータを生成させるようにさらに構成される、請求項11に記載のコンテンツ消費デバイスシステム。
【請求項19】
前記少なくとも1つのROIに関連付けられた少なくとも1つのオーディオ情報メッセージが含まれる前記少なくとも1つの追加のオーディオストリーム(140)を受信するようにさらに構成され、
前記少なくとも1つのメディアオーディオデコーダ(112)は、前記ROIプロセッサが、前記少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生することを決定した場合には、前記少なくとも1つの追加のオーディオストリーム(140)をデコードするようにさらに構成される、請求項1に記載のコンテンツ消費デバイスシステム。
【請求項20】
前記少なくとも1つの第1のメディアオーディオデコーダ(112)は、前記少なくとも1つの第1のオーディオストリーム(116)からの前記少なくとも1つのオーディオ信号をデコードするように構成され、
前記コンテンツ消費デバイスシステムは、
追加のオーディオストリーム(140)からの前記少なくとも1つのオーディオ情報メッセージをデコードするように構成された少なくとも1つの追加のオーディオデコーダ(112)と、
前記少なくとも1つの追加のオーディオストリーム(140)からの前記オーディオ情報メッセージを、前記少なくとも1つの第1のオーディオストリーム(116)からの前記少なくとも1つのオーディオ信号と混合および/または重畳するための少なくとも1つのミキサーおよび/またはレンダラー(314)と、
をさらに含む、請求項19に記載のコンテンツ消費デバイスシステム。
【請求項21】
前記オーディオ情報メッセージの累積再生数を定義するメトリックの追跡を保持して、前記メトリックが所定のしきい値を超えた場合に前記オーディオ情報メッセージの再生を無効にするようにさらに構成される、請求項1から20のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項22】
前記ROIプロセッサの決定は、前記ROIの位置との関係におけるユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ(122)の予測に基づく、請求項1から21のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項23】
前記情報メッセージを再生するように前記ROIプロセッサが決定すると、リモートエンティティからのオーディオメッセージ情報ストリームを要求するようにさらに構成される、請求項1から22のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項24】
2つのオーディオ情報メッセージを同時に再生するか、またはより優先度の低いオーディオ情報メッセージに対して優先的に再生されるより優先度の高いオーディオ情報メッセージを選択するかを確立するようにさらに構成される、請求項1から23のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項25】
オーディオストリームの前記オーディオ情報メッセージのアドレスおよび/または位置に基づいて、1つの追加のオーディオストリーム(140)にエンコードされた複数のオーディオ情報メッセージの中から、オーディオ情報メッセージを識別するようにさらに構成される、請求項1から24のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項26】
前記オーディオストリームは、MPEG-H 3Dオーディオストリームフォーマットでフォーマットされる、請求項1から25のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項27】
複数のアダプテーションセット(556、557)の利用可能性に関するデータを受信し、前記利用可能なアダプテーションセットは、前記少なくとも1つの第1のオーディオストリーム(116、316)の少なくとも1つのオーディオシーンのアダプテーションセットと、少なくとも1つのオーディオ情報メッセージを含む前記少なくとも1つの追加のオーディオストリーム(140)の少なくとも1つのオーディオメッセージのアダプテーションセットと、を含み、
前記ROIプロセッサの決定に基づいて、前記アダプテーションセットのうちのどれを検索するかを特定する選択データ(559)を作成し、前記利用可能なアダプテーションセットは、少なくとも1つのオーディオシーンのアダプテーションセットおよび/または少なくとも1つのオーディオメッセージのアダプテーションセットを含み、
前記選択データによって特定された前記アダプテーションセットの前記データを要求および/または検索し、
各アダプテーションセットは、異なるビットレートの異なるエンコーディングをグループ化する、
ようにさらに構成される、請求項1から26のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項28】
その要素の少なくとも1つは、HTTP、DASH、クライアントを介したダイナミックアダプティブストリーミングを含み、および/またはISOベースメディアファイルフォーマットISO BMFF、またはMPEG-2トランスポートストリームMPEG-2 TSを使用して、前記アダプテーションセットの各々について前記データを検索するように構成される、請求項27に記載のコンテンツ消費デバイスシステム。
【請求項29】
前記ROIプロセッサ(120)は、前記ROIが前記現在のビューポートに表現されているかどうかをチェックするために、前記ROIと前記現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ(122)との対応をチェックし、前記ROIが前記現在のビューポートの外側にある場合には、前記ROIの存在を前記ユーザーに音声で通知するようにさらに構成される、請求項1から28のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項30】
前記ROIプロセッサ(120)は、前記ROIが前記現在のビューポートに表現されているかどうかをチェックするために、前記ROIと前記現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ(122)との対応をチェックし、前記ROIが前記現在のビューポートおよび/または位置および/または頭の向きおよび/または移動データ(122)内にある場合には、前記ROIの存在を前記ユーザーに音声で通知することを抑えるようにさらに構成される、請求項1から29のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項31】
リモートエンティティ(202)から、前記ビデオシーンに関連付けられた前記少なくとも1つのビデオストリーム(116)と、前記オーディオシーンに関連付けられた前記少なくとも1つの第1のオーディオストリーム(106)と、を受信するようにさらに構成され、前記オーディオシーンは前記ビデオシーンに関連付けられている、請求項1から30のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項32】
前記ROIプロセッサ(120)は、再生される複数のオーディオ情報メッセージの中から、第2のオーディオ情報メッセージの前の1つの第1のオーディオ情報メッセージの再生を選択するようにさらに構成される、請求項1から31のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項33】
リモートエンティティ(204)から受信した、または合成的に生成されたオーディオ情報メッセージを格納し、異なる時間インスタンスで前記オーディオ情報メッセージを再利用するためのキャッシュメモリ(246)をさらに含む、請求項1から32のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項34】
前記少なくとも1つのビデオストリームおよび/または前記少なくとも1つの第1のオーディオストリームは、それぞれ、前記現在のビデオシーンおよびオーディオシーンの一部であり、前記現在のビデオおよびオーディオシーンにおける前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータ(122)から独立している、請求項1から33のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項35】
前記少なくとも1つの第1のオーディオストリームおよび/または少なくとも1つのビデオストリームを、それぞれ前記オーディオストリームおよび/またはビデオストリームに関連付けられたリモートエンティティに要求し、前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータ(122)に基づいて、前記少なくとも1つのオーディオ情報メッセージを再生するようにさらに構成される、請求項1から34のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項36】
前記少なくとも1つの第1のオーディオストリームおよび/または少なくとも1つのビデオストリームを、それぞれ前記オーディオストリームおよび/またはビデオストリームに関連付けられたリモートエンティティに要求し、前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータ(122)に基づいて、前記リモートエンティティに対して、前記少なくとも1つのオーディオ情報メッセージを要求するようにさらに構成される、請求項1から34のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項37】
前記少なくとも1つの第1のオーディオストリームおよび/または少なくとも1つのビデオストリームを、それぞれ前記オーディオストリームおよび/またはビデオストリームに関連付けられたリモートエンティティに要求し、前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータ(122)に基づいて、前記少なくとも1つのオーディオ情報メッセージを合成するようにさらに構成される、請求項1から34のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項38】
前記オーディオ情報メッセージの前記再生のための追加の基準のうちの少なくとも1つをチェックするようにさらに構成され、前記基準はユーザーの選択および/またはユーザーの設定をさらに含む、請求項1から37のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項39】
前記オーディオ情報メッセージの前記再生のための追加の基準のうちの少なくとも1つをチェックするようにさらに構成され、前記基準は、既に再生されている場合にはオーディオ情報メッセージの反復を禁止することにさらに基づき、前記基準は、速すぎる反復を回避するためにタイマーを使用する、請求項1から37のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項40】
前記オーディオ情報メッセージの前記再生のための追加の基準のうちの少なくとも1つをチェックするようにさらに構成され、前記基準は、リモートエンティティから取得されたオーディオメッセージメタデータにフラグをさらに含み、前記フラグは、前記オーディオ情報メッセージがアクティブであるかどうかを定義する、請求項1から37のいずれか一項に記載のコンテンツ消費デバイスシステム。
【請求項41】
請求項1から40のいずれか一項に記載のコンテンツ消費デバイスシステムとして構成されたクライアントと、前記少なくとも1つのビデオストリーム(106)および前記少なくとも1つの第1のオーディオストリーム(116)を配信するためのサーバーとして構成されたリモートエンティティ(202、240)と、を含むシステム。
【請求項42】
前記リモートエンティティ(202、240)は、データベース、イントラネット、インターネット、および/または地理的ネットワークにおいて、前記少なくとも1つの追加のオーディオストリーム(140)および/またはオーディオ情報メッセージメタデータを検索し、検索された場合に、前記少なくとも1つの追加のオーディオストリーム(140)および/またはオーディオ情報メッセージメタデータを配信するように構成される、請求項41に記載のシステム。
【請求項43】
前記リモートエンティティ(202、240)は、前記少なくとも1つの追加のオーディオストリーム(140)を合成し、および/または前記オーディオ情報メッセージメタデータを生成するように構成される、請求項42に記載のシステム。
【請求項44】
コンテンツ消費デバイスシステムにおける仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオのための方法であって、前記方法は、
前記コンテンツ消費デバイスシステムにより、再生される少なくとも1つのビデオストリーム(106)を受信するステップと、
前記コンテンツ消費デバイスシステムにより、再生される少なくとも1つのオーディオストリーム(116、316)を受信するステップと、
前記コンテンツ消費デバイスシステムにより、前記少なくとも1つの第1のオーディオストリーム(116)から少なくとも1つのオーディオ情報メッセージに関連付けられたオーディオ情報メッセージメタデータ(141)を受信するステップと、
前記少なくとも1つのメディアビデオデコーダ(102)により、前記少なくとも1つのビデオストリーム(106)からの少なくとも1つのビデオ信号をデコードするステップと、
前記少なくとも1つのメディアオーディオデコーダ(112)により、前記少なくとも1つのオーディオストリーム(116、316)からの少なくとも1つのオーディオ信号をデコードするステップと、
関心領域ROIプロセッサ(120)により、現在のユーザーのビューポートおよび/または頭の向きおよび/または動きのデータ(122)を受信するステップと、
前記ROIプロセッサ(120)により、前記少なくとも1つのビデオストリーム(106)から前記少なくとも1つのビデオ信号に関連付けられたビューポートメタデータ(131)を受信するステップであって、前記ビューポートメタデータ(131)は少なくとも1つのROIを定義する、ステップと、
前記ROIプロセッサ(120)により、
前記ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータ(122)および
ビューポートメタデータ(131)に基づいて、
前記少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定するステップであって、前記オーディオ情報メッセージは、前記少なくとも1つのビデオ信号および前記少なくとも1つのオーディオ信号から独立している、ステップと、
前記オーディオ情報メッセージを再生するように前記ROIプロセッサが決定すると、前記ROIプロセッサにより、前記メタデータプロセッサ(132)への前記オーディオ情報メッセージメタデータ(141)の変更を要求するステップと、
前記メタデータプロセッサ(132)により、オーディオ情報メッセージメタデータ(141)を受信するステップと、
前記メタデータプロセッサ(132)により、前記ROIプロセッサ(120)から前記オーディオ情報メッセージメタデータを変更する要求を受信するステップと、
前記メタデータプロセッサ(132)により、前記ROIプロセッサ(141)からの前記要求に従って、前記オーディオ情報メッセージメタデータ(141)を変更されたオーディオ情報メッセージメタデータに変更するステップと、
前記ROIプロセッサ(120)により、前記変更されたオーディオ情報メッセージメタデータ(234)に従って前記オーディオ情報メッセージを再生するステップと、
を含む方法。
【請求項45】
前記オーディオおよびビデオシーン(118a、118b)を再生するステップと、
前記少なくとも1つのROIが前記ユーザーの現在のビューポートの外側にある場合には、前記少なくとも1つのオーディオ信号の再生に加えて、前記少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するステップ、および/または
前記少なくとも1つのROIが前記ユーザーの現在のビューポート内にある場合には、前記少なくとも1つのROIに関連付けられた前記オーディオ情報メッセージの再生を非アクティブにするステップと、
をさらに含む、請求項44に記載の方法。
【請求項46】
プロセッサによって実行されると、前記プロセッサに請求項44または45に記載の方法を実行させる命令を含む、非過渡的記憶ユニット。
【発明の詳細な説明】
【技術分野】
【0001】
【背景技術】
【0002】
1.導入
多くのアプリケーションでは、可聴メッセージの配信により、メディア消費中のユーザーエクスペリエンスを向上させることができる。このようなメッセージの最も関連性の高いアプリケーションの1つは、仮想現実(VR)コンテンツによって提供される。VR環境、または同様に拡張現実(AR)または複合現実(MR)または360度のビデオ環境では、ユーザーは通常、例えばヘッドマウントディスプレイ(HMD)を使用して360度のコンテンツ全体を視覚化し、それをヘッドフォンで(または、スピーカーの位置に応じた正しいレンダリングを含むスピーカーで同様に)聞くことができる。ユーザーは通常、VR/AR空間で移動するか、少なくとも視聴方向を変更することができるが、これはビデオのいわゆる「ビューポート」である。HMDの代わりに従来の再生システム(ワイドディスプレイ画面)を使用する360度ビデオ環境では、リモートコントロールデバイスを使用して、シーン内のユーザーの動きをエミュレートでき、同様の原理が適用される。360度コンテンツとは、ユーザーが(例えば、ユーザーの頭の向きによって、またはリモートコントロールデバイスを使用して)選択することができる、同時に複数の視野角で構成される任意のタイプのコンテンツを指すことができることに留意されたい。
【0003】
従来のコンテンツ消費と比較して、VRの場合、コンテンツ作成者は、ユーザーが視覚化するものを様々な時点で現在のビューポートで制御することができなくなる。ユーザーは、許可されたビューポートまたは利用可能なビューポートから、時間のインスタンスごとに異なるビューポートを自由に選択することができる。
【0004】
VRコンテンツの消費に関する一般的な問題は、ビューポートの選択が間違っているため、ユーザーがビデオシーンの重要なイベントを見逃してしまうリスクである。この問題に対処するために、関心領域(ROI)の概念が導入され、ROIを通知するためのいくつかの概念が検討されている。ROIは通常、推奨されたビューポートを含む領域をユーザーに示すために使用されるが、他の目的で使用することもでき、例えば、シーン内の新しいキャラクター/オブジェクトの存在を示し、シーン内のオブジェクトに関連付けられたアクセシビリティ機能、基本的に、ビデオシーンを構成する要素に関連付けることができる機能を示すことを含む。例えば、視覚的なメッセージ(例えば、「頭を左に向けてください」)を使用して、現在のビューポートにオーバーレイすることができる。あるいは、ROIの位置で再生することにより、自然音または合成音の可聴音を使用することができる。これらの音声メッセージは「イアコン」として知られている。
【0005】
このアプリケーションの場面では、イアコンの概念を使用して、ROIを通知するために伝達されるオーディオメッセージを特徴付けるが、提案された通知と処理は、ROIを通知する以外の目的で一般的なオーディオメッセージにも使用することができる。そのような音声メッセージの一例は、対話型AR/VR/MR環境でユーザーが持つ様々なオプションの情報/表示を伝えるためのオーディオメッセージ(例えば、「部屋Xに入るには、ボックスの左側を飛び越えてください」)によって提供される。さらに、VRの例を使用するが、この文書で説明するメカニズムは、あらゆるメディア消費環境に適用される。
【0006】
2.用語および定義
以下の用語がこの技術分野で使用されている。
【0007】
・オーディオ要素:例えば、オーディオオブジェクト、オーディオチャネル、シーンベースのオーディオ(高次アンビソニックス-HOA)、またはすべての任意の組み合わせとして表すことができるオーディオ信号。
【0008】
・関心領域(ROI):ある時点でユーザーが関心をもつビデオコンテンツ(または表示またはシミュレーションされた環境)の1つの領域。これは通常、例えば球上の領域、または2Dマップからの多角形の選択である。ROIは特定の目的のために特定の領域を識別し、考慮中のオブジェクトの境界を定義する。
【0009】
・ユーザー位置情報:位置情報(例えば、x、y、z座標)、方位情報(ヨー、ピッチ、ロール)、移動方向、移動速度など。
【0010】
・ビューポート:現在表示され、ユーザーが閲覧している全天球ビデオの一部。
【0011】
・ビューポイント:ビューポートの中心点。
【0012】
・360度ビデオ(没入型ビデオまたは全天球ビデオとしても公知である):この文書の場面では、同時に一方向に複数のビュー(ビューポート)を含むビデオコンテンツを表す。そのようなコンテンツは、例えば、全方位カメラまたはカメラの集合を使用して作成することができる。再生中に、視聴者は視聴方向を制御することができる。
【0013】
・アダプテーションセットには、メディアストリームまたは一組のメディアストリームが含まれる。最も単純なケースでは、1つのアダプテーションセットはコンテンツのすべてのオーディオとビデオを含むが、帯域幅を減らすために、各ストリームを異なるアダプテーションセットに分割することができる。一般的な事例は、1つのビデオアダプテーションセットと複数のオーディオアダプテーションセットを(サポートされる言語ごとに1つ)有することである。アダプテーションセットは、字幕または任意のメタデータを含むこともできる。
【0014】
・表現により、アダプテーションセットに異なる方法でエンコードされた同じコンテンツを含めることができる。ほとんどの場合、表現は複数のビットレートで提供される。これにより、クライアントはバッファリングを待たずに再生することができる最高品質のコンテンツを要求することができる。表現は様々なコーデックでエンコードすることもできるため、サポートされている様々なコーデックを有するクライアントをサポートすることができる。
【0015】
・メディアプレゼンテーション記述(MPD)は、メディアセグメントに関する情報、それらの関係、およびそれらを選択するために必要な情報を含むXML構文である。
【0016】
このアプリケーションの場面では、アダプテーションセットの概念がより一般的に使用され、実際に表現を参照することもある。また、メディアストリーム(オーディオ/ビデオストリーム)は通常、最初にクライアント(例えば、DASHクライアント)によって再生される実際のメディアファイルであるメディアセグメントにカプセル化される。メディアセグメントには、MPEG-4コンテナフォーマットに類似したISOベースメディアファイルフォーマット(ISOBMFF)およびMPEG-TSなどの、様々なフォーマットを使用することができる。メディアセグメントへのカプセル化および様々な表現/アダプテーションセットでのカプセル化は、ここで説明する方法とは無関係であり、本方法はすべての様々なオプションに適用される。
【0017】
さらに、この文書における方法の説明は、DASHサーバーとクライアントの通信を中心とすることができるが、本方法はMMT、MPEG-2トランスポートストリーム、DASH-ROUTE、ファイル再生用のファイルフォーマットなどの他の配信環境で機能するのに十分に一般的である。
【0018】
3.現在の解決策
現在の解決策は次の通りである。
【0019】
[1].ISO/IEC 23008-3:2015,Information technology--High efficiency coding and media delivery in heterogeneous environments--Part 3:3D Audi
【0020】
[2].N16950,Study of ISO/IEC DIS 23000-20 Omnidirectional Media Forma
【0021】
[3].M41184,Use of Earcons for ROI Identification in 360-degree Video。
【0022】
360度コンテンツの配信メカニズムは、ISO/IEC 23000-20、Omnidirectional Media Format[2]によって提供される。この規格は、全方位画像、ビデオ、および関連付けられたオーディオのコーディング、ストレージ、配信、およびレンダリングのためのメディアフォーマットを指定する。それは、オーディオとビデオの圧縮に使用されるメディアコーデックに関する情報と、360度のA/Vコンテンツを正しく使用するための追加のメタデータ情報を提供する。それはまた、DASH/MMT経由のストリーミングやファイルベースの再生など、配信チャネルの制約と要件も指定する。
【0023】
イアコンの概念は、M41184で最初に導入された「Use of Earcons for ROI Identification in 360-degree Video」[3]であり、イアコンオーディオデータをユーザーに通知するメカニズムを提供する。
【0024】
しかし、一部のユーザーは、これらのシステムの期待外れのコメントを報告している。多くの場合、大量のイアコンが煩わしくなる。設計者がイアコンの数を減らすと、一部のユーザーは重要な情報を失った。特に、各ユーザーは自分の知識と経験レベルを有しているため、自分に適したシステムを好む。例を挙げれば、各ユーザーはイアコンを(例えば、他のオーディオ信号に使用されているボリュームとは無関係に)好ましいボリュームで再生することを好む。システム設計者にとって、すべての可能なユーザーに満足のいくレベルを提供するシステムを入手することは困難であることが証明されている。したがって、ほとんどすべてのユーザーの満足度を高めることができる解決策が求められてきた。
【0025】
さらに、設計者であってもシステムを再構成することは難しいことが証明されている。例えば、オーディオストリームの新しいリリースを準備したり、イアコンを更新したりするのが困難であった。
【0026】
さらに、制限されたシステムでは、イアコンを1つのオーディオストリームに正確に特定することができないなど、機能に特定の制限が課される。さらに、イアコンは常にアクティブである必要があり、不要なときに再生するとユーザーに迷惑をかける可能性がある。
【0027】
さらに、イアコン空間情報は、例えば、DASHクライアントによって信号を送ったり、変更したりすることはできない。システムレベルでこの情報に簡単にアクセスすることができるため、ユーザーエクスペリエンスを向上させる追加機能を有効にすることができる。
【0028】
さらに、様々なタイプのイアコン(例えば、自然な音、合成音、DASHクライアントで生成される音など)に対応する柔軟性がない。
【0029】
これらの問題はすべて、ユーザーのエクスペリエンス品質の低下につながる。したがって、より柔軟なアーキテクチャが望まれる。
【先行技術文献】
【非特許文献】
【0030】
【文献】ISO/IEC 23008-3:2015, Information technology--High efficiency coding and media delivery in heterogeneous environments--Part 3:3D audio
【文献】N16950,Study of ISO/IEC DIS 23000-20 Omnidirectional Media Format
【文献】M41184,Use of Earcons for ROI Identification in 360-degree Video
【発明の概要】
【0031】
4.本発明
例によれば、仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステムが提供され、システムは、
オーディオおよびビデオシーンに関連付けられた少なくとも1つのビデオストリームを受信し、
再生されるオーディオおよびビデオシーンに関連付けられた少なくとも1つの第1のオーディオストリームを受信するように構成され、
システムは、
ユーザーへのオーディオおよびビデオシーンの表現のために、少なくとも1つのビデオストリームからの少なくとも1つのビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
ユーザーへのオーディオおよびビデオシーンの表現のために、少なくとも1つの第1のオーディオストリームから少なくとも1つのオーディオ信号をデコードするように構成された少なくとも1つのメディアオーディオデコーダと、
関心領域ROIプロセッサと、を含み、関心領域ROIプロセッサは、
少なくともユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはビューポートメタデータおよび/またはオーディオ情報メッセージメタデータに基づいて、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定し、オーディオ情報メッセージは、少なくとも1つのビデオ信号および少なくとも1つのオーディオ信号から独立しており、
情報メッセージを再生することが決定されると、オーディオ情報メッセージを再生する、ように構成される。
【0032】
例によれば、仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステムが提供され、システムは、
少なくとも1つのビデオストリームを受信し、
少なくとも1つの第1のオーディオストリームを受信するように構成され、
システムは、
VR、AR、MR、または360度ビデオ環境シーンをユーザーに表現するために、少なくとも1つのビデオストリームから少なくとも1つのビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
ユーザーへのオーディオシーンの表現のために、少なくとも1つの第1のオーディオストリームから少なくとも1つのオーディオ信号をデコードするように構成された少なくとも1つのメディアオーディオデコーダと、
関心領域ROIプロセッサと、を含み、関心領域ROIプロセッサは、
ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはビューポートメタデータおよび/またはオーディオ情報メッセージメタデータに基づいて、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定し、オーディオ情報メッセージはイアコンであり、
情報メッセージを再生することが決定されると、オーディオ情報メッセージを再生する、ように構成される。
【0033】
システムは、
オーディオ情報メッセージメタデータを受信および/または処理および/または操作して、情報メッセージを再生することを決定したときに、オーディオ情報メッセージメタデータに従ってオーディオ情報メッセージを再生するように構成されたメタデータプロセッサをさらに含んでもよい。
【0034】
ROIプロセッサは、
ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータおよび/または他のユーザー関連データを受信し、
少なくとも1つのビデオストリームから少なくとも1つのビデオ信号に関連付けられたビューポートメタデータを受信し、ビューポートメタデータは少なくとも1つのROIを定義し、
ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータおよびビューポートメタデータのうちの少なくとも1つに基づいて、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定する、ように構成されてもよい。
【0035】
システムは、
オーディオ情報メッセージを記述するオーディオ情報メッセージメタデータおよび/または少なくとも1つのオーディオストリームにエンコードされた少なくとも1つのオーディオ信号を記述するオーディオメタデータおよび/またはビューポートメタデータを受信および/または処理および/または操作して、オーディオ情報メッセージメタデータおよび/または少なくとも1つのオーディオストリームにエンコードされた少なくとも1つのオーディオ信号を記述するオーディオメタデータおよび/またはビューポートメタデータに従って、オーディオ情報メッセージを再生するように構成されたメタデータプロセッサをさらに含んでもよい。
【0036】
ROIプロセッサは、
少なくとも1つのROIがユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータの外側にある場合には、少なくとも1つのオーディオ信号の再生に加えて、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生し、
少なくとも1つのROIがユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ内にある場合には、少なくとも1つのROIに関連付けられたオーディオ情報メッセージの再生を不許可および/または非アクティブにする、ように構成されてもよい。
【0037】
システムは、
少なくとも1つのオーディオ情報メッセージがエンコードされている少なくとも1つの追加のオーディオストリームを受信するようにさらに構成されてもよく、
システムは、
メタデータプロセッサおよび/またはROIプロセッサおよび/または別のプロセッサの制御下で、少なくとも1つの追加のオーディオストリームのパケットを、1つのストリーム内の少なくとも1つの第1のオーディオストリームのパケットとマージし、ROIプロセッサによって提供された、少なくとも1つのオーディオ情報メッセージを再生するという決定に基づいて、オーディオシーンに加えて、オーディオ情報メッセージを再生する、少なくとも1つのマクサーまたはマルチプレクサをさらに含む。
【0038】
システムは、
少なくとも1つのオーディオストリームにエンコードされた少なくとも1つのオーディオ信号を記述する少なくとも1つのオーディオメタデータを受信し、
少なくとも1つのオーディオストリームから少なくとも1つのオーディオ情報メッセージに関連付けられたオーディオ情報メッセージメタデータを受信し、
情報メッセージを再生することが決定されると、少なくとも1つのオーディオ信号の再生に加えて、オーディオ情報メッセージメタデータを変更してオーディオ情報メッセージの再生を可能にする、ように構成されてもよい。
【0039】
システムは、
少なくとも1つのオーディオストリームにエンコードされた少なくとも1つのオーディオ信号を記述する少なくとも1つのオーディオメタデータを受信し、
少なくとも1つのオーディオストリームから少なくとも1つのオーディオ情報メッセージに関連付けられたオーディオ情報メッセージメタデータを受信し、
オーディオ情報メッセージを再生することが決定されると、少なくとも1つのオーディオ信号の再生に加えて、オーディオ情報メッセージメタデータを変更して少なくとも1つのROIに関連付けられたオーディオ情報メッセージの再生を可能にし、
少なくとも1つのオーディオ信号を記述するオーディオメタデータを変更して、少なくとも1つの第1のオーディオストリームと少なくとも1つの追加のオーディオストリームとのマージを可能にする、ように構成されてもよい。
【0040】
システムは、
少なくとも1つのオーディオストリームにエンコードされた少なくとも1つのオーディオ信号を記述する少なくとも1つのオーディオメタデータを受信し、
少なくとも1つのオーディオストリームから少なくとも1つのオーディオ情報メッセージに関連付けられたオーディオ情報メッセージメタデータを受信し、
オーディオ情報メッセージを再生することが決定されると、オーディオ情報メッセージメタデータを合成オーディオジェネレータに提供して、合成オーディオストリームを作成し、オーディオ情報メッセージメタデータを合成オーディオストリームに関連付けて、合成オーディオストリームおよびオーディオ情報メッセージメタデータをマルチプレクサまたはマクサーに提供して、少なくとも1つのオーディオストリームと合成オーディオストリームとのマージを可能にする、ように構成されてもよい。
【0041】
システムは、
オーディオ情報メッセージがエンコードされている少なくとも1つの追加のオーディオストリームからオーディオ情報メッセージメタデータを取得するように構成されてもよい。
【0042】
システムは、
少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するという決定に基づいて、オーディオ情報メッセージメタデータを生成するように構成されたオーディオ情報メッセージメタデータジェネレータを含んでもよい。
【0043】
システムは、
将来の使用のために、オーディオ情報メッセージメタデータおよび/またはオーディオ情報メッセージストリームを格納するように構成されてもよい。
【0044】
システムは、
少なくとも1つのROIに関連付けられたオーディオ情報メッセージメタデータに基づいて、オーディオ情報メッセージを合成するように構成された合成オーディオジェネレータを含んでもよい。
【0045】
メタデータプロセッサは、オーディオメタデータおよび/またはオーディオ情報メッセージメタデータに基づいて、少なくとも1つのオーディオストリームへのオーディオ情報メッセージの追加を得るために、オーディオ情報メッセージストリームのパケットを1つのストリームにおける少なくとも1つの第1のオーディオストリームのパケットとマージするために、マクサーまたはマルチプレクサを制御するように構成されてもよい。
【0046】
オーディオ情報メッセージメタデータは、構成フレームおよび/またはデータフレームにエンコードされてもよく、データフレームは、
識別タグ、
オーディオ情報メッセージメタデータの再生を一意的に識別する整数、
メッセージのタイプ、
ステータス
シーンからの依存性/非依存性の表示、
位置データ、
ゲインデータ、
関連付けられたテキストラベルの存在の表示、
利用可能な言語の数、
オーディオ情報メッセージの言語、
データテキストの長さ、
関連付けられたテキストラベルのデータテキスト、および/または
オーディオ情報メッセージの記述のうちの少なくとも1つを含む。
【0047】
メタデータプロセッサおよび/またはROIプロセッサは、
ストリームからオーディオ情報メッセージメタデータを抽出し、
オーディオ情報メッセージメタデータを変更して、オーディオ情報メッセージをアクティブ化し、および/またはその位置を設定し/変化させ、
メタデータをストリームに埋め込み、
ストリームを追加のメディアデコーダに供給し、
少なくとも1つの第1のオーディオストリームからオーディオメタデータを抽出し、
追加のストリームからオーディオ情報メッセージメタデータを抽出し、
オーディオ情報メッセージメタデータを変更して、オーディオ情報メッセージをアクティブ化し、および/またはその位置を設定し/変化させ、
オーディオ情報メッセージの存在を考慮に入れてマージすることができるように、少なくとも1つの第1のオーディオストリームのオーディオメタデータを変更し、
ROIプロセッサから受信した情報に基づいてそれらをマルチプレクスまたは多重化するために、マルチプレクサまたはマクサーにストリームを供給する、操作のうちの少なくとも1つを実行するように構成されてもよい。
【0048】
ROIプロセッサは、オーディオ情報メッセージがエンコードされている追加のオーディオストリームおよび/またはオーディオ情報メッセージメタデータのローカル検索を実行し、検索することができない場合には、追加のオーディオストリームおよび/またはオーディオ情報メッセージメタデータをリモートエンティティに対して要求するように構成されてもよい。
【0049】
ROIプロセッサは、追加のオーディオストリームおよび/またはオーディオ情報メッセージメタデータのローカル検索を実行し、検索することができない場合には、合成オーディオジェネレータに対してオーディオ情報メッセージストリームおよび/またはオーディオ情報メッセージメタデータを生成させるように構成されてもよい。
【0050】
システムは、
少なくとも1つのROIに関連付けられた少なくとも1つのオーディオ情報メッセージが含まれる少なくとも1つの追加のオーディオストリームを受信し、
ROIプロセッサが、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生することを決定した場合には、少なくとも1つの追加のオーディオストリームをデコードする、ように構成されてもよい。
【0051】
システムは、
少なくとも1つの第1のオーディオストリームからの少なくとも1つのオーディオ信号をデコードするための少なくとも1つの第1のオーディオデコーダと、
追加のオーディオストリームからの少なくとも1つのオーディオ情報メッセージをデコードするための少なくとも1つの追加のオーディオデコーダと、
少なくとも1つの追加のオーディオストリームからのオーディオ情報メッセージを、少なくとも1つの第1のオーディオストリームからの少なくとも1つのオーディオ信号と混合および/または重畳するための少なくとも1つのミキサーおよび/またはレンダラーと、を含んでもよい。
【0052】
システムは、オーディオ情報メッセージの再生に関連付けられた履歴データおよび/または統計データに関連付けられたメトリックの追跡を保持して、メトリックが所定のしきい値を超えた場合にオーディオ情報メッセージの再生を無効にするように構成されてもよい。
【0053】
ROIプロセッサの決定は、ROIの位置との関係におけるユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータの予測に基づいてもよい。
【0054】
システムは、少なくとも1つの第1のオーディオストリームを受信し、情報メッセージを再生することが決定されると、リモートエンティティからのオーディオメッセージ情報ストリームを要求するように構成されてもよい。
【0055】
システムは、2つのオーディオ情報メッセージを同時に再生するか、またはより優先度の低いオーディオ情報メッセージに対して優先的に再生されるより優先度の高いオーディオ情報メッセージを選択するかを確立するように構成されてもよい。
【0056】
システムは、オーディオストリームのオーディオ情報メッセージのアドレスおよび/または位置に基づいて、1つの追加のオーディオストリームにエンコードされた複数のオーディオ情報メッセージの中から、オーディオ情報メッセージを識別するように構成されてもよい。
【0057】
オーディオストリームは、MPEG-H 3Dオーディオストリームフォーマットでフォーマットされてもよい。
【0058】
システムは、
複数のアダプテーションセットの利用可能性に関するデータを受信し、利用可能なアダプテーションセットは、少なくとも1つの第1のオーディオストリームの少なくとも1つのオーディオシーンのアダプテーションセットと、少なくとも1つのオーディオ情報メッセージを含む少なくとも1つの追加のオーディオストリームの少なくとも1つのオーディオメッセージのアダプテーションセットと、を含み、システムは、
ROIプロセッサの決定に基づいて、アダプテーションセットのうちのどれを検索するかを特定する選択データを作成し、利用可能なアダプテーションセットは、少なくとも1つのオーディオシーンのアダプテーションセットおよび/または少なくとも1つのオーディオメッセージのアダプテーションセットを含み、
選択データによって特定されたアダプテーションセットのデータを要求および/または検索し、
各アダプテーションセットは、異なるビットレートの異なるエンコーディングをグループ化する、ように構成されてもよい。
【0059】
システムは、その要素の少なくとも1つは、HTTP、DASH、クライアントを介したダイナミックアダプティブストリーミングを含み、および/またはISOベースメディアファイルフォーマットISO BMFF、またはMPEG-2トランスポートストリームMPEG-2 TSを使用して、アダプテーションセットの各々についてデータを検索するように構成されてもよい。
【0060】
ROIプロセッサは、ROIが現在のビューポートに表現されているかどうかをチェックするために、ROIと現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータとの対応をチェックし、ROIが現在のビューポートおよび/または位置および/または頭の向きおよび/または移動データの外側にある場合には、ROIの存在をユーザーに音声で通知するように構成されてもよい。
【0061】
ROIプロセッサは、ROIが現在のビューポートに表現されているかどうかをチェックするために、ROIと現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータとの対応をチェックし、ROIが現在のビューポートおよび/または位置および/または頭の向きおよび/または移動データ内にある場合には、ROIの存在をユーザーに音声で通知することを抑えるように構成されてもよい。
【0062】
システムは、リモートエンティティから、ビデオ環境シーンに関連付けられた少なくとも1つのビデオストリームと、オーディオシーンに関連付けられた少なくとも1つのオーディオストリームと、を受信するように構成されてもよく、オーディオシーンはビデオ環境シーンに関連付けられている。
【0063】
ROIプロセッサは、再生される複数のオーディオ情報メッセージの中から、第2のオーディオ情報メッセージの前の1つの第1のオーディオ情報メッセージの再生を選択するように構成されてもよい。
【0064】
システムは、リモートエンティティから受信した、または合成的に生成されたオーディオ情報メッセージを格納し、異なる時間インスタンスでオーディオ情報メッセージを再利用するためのキャッシュメモリを含んでもよい。
【0065】
オーディオ情報メッセージはイアコンであってもよい。
【0066】
少なくとも1つのビデオストリームおよび/または少なくとも1つの第1のオーディオストリームは、それぞれ、現在のビデオ環境シーンおよび/またはビデオオーディオシーンの一部であってもよく、現在のビデオ環境シーンおよび/またはビデオオーディオシーンにおけるユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータから独立していてもよい。
【0067】
システムは、少なくとも1つの第1のオーディオストリームおよび/または少なくとも1つのビデオストリームを、それぞれオーディオストリームおよび/またはビデオ環境ストリームに関連付けられたリモートエンティティに要求し、ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータに基づいて、少なくとも1つのオーディオ情報メッセージを再生するように構成されてもよい。
【0068】
システムは、少なくとも1つの第1のオーディオストリームおよび/または少なくとも1つのビデオストリームを、それぞれオーディオストリームおよび/またはビデオ環境ストリームに関連付けられたリモートエンティティに要求し、ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータに基づいて、少なくとも1つのオーディオ情報メッセージをリモートエンティティに要求するように構成されてもよい。
【0069】
システムは、少なくとも1つの第1のオーディオストリームおよび/または少なくとも1つのビデオストリームを、それぞれオーディオストリームおよび/またはビデオ環境ストリームに関連付けられたリモートエンティティに要求し、ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータに基づいて、少なくとも1つのオーディオ情報メッセージを合成するように構成されてもよい。
【0070】
システムは、オーディオ情報メッセージの再生のための追加の基準のうちの少なくとも1つをチェックするように構成されてもよく、基準はユーザーの選択および/またはユーザーの設定をさらに含んでもよい。
【0071】
システムは、オーディオ情報メッセージの再生のための追加の基準のうちの少なくとも1つをチェックするように構成されてもよく、基準はシステムの状態をさらに含む。
【0072】
システムは、オーディオ情報メッセージの再生のための追加の基準のうちの少なくとも1つをチェックするように構成されてもよく、基準は、既に実行されたオーディオ情報メッセージの再生の数をさらに含む。
【0073】
システムは、オーディオ情報メッセージの再生のための追加の基準のうちの少なくとも1つをチェックするように構成されてもよく、基準は、リモートエンティティから取得されたデータストリーム内のフラグをさらに含む。
【0074】
一態様によれば、上記および/または下記の例のいずれかのシステムとして構成されたクライアントと、少なくとも1つのビデオストリームおよび少なくとも1つのオーディオストリームを配信するためのサーバーとして構成されたリモートエンティティと、を含むシステムが提供される。
【0075】
リモートエンティティは、データベース、イントラネット、インターネット、および/または地理的ネットワークにおいて、少なくとも1つの追加のオーディオストリームおよび/またはオーディオ情報メッセージメタデータを検索し、検索された場合に、少なくとも1つの追加のオーディオストリームおよび/またはオーディオ情報メッセージメタデータを配信するように構成されてもよい。
【0076】
リモートエンティティは、少なくとも1つの追加のオーディオストリームを合成し、および/またはオーディオ情報メッセージメタデータを生成するように構成されてもよい。
【0077】
一態様によれば、仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のための方法が提供されてもよく、方法は、
ユーザーに対して再生される少なくとも1つのビデオおよびオーディオシーンからの少なくとも1つのビデオ信号をデコードするステップと、
再生されるビデオおよびオーディオシーンからの少なくとも1つのオーディオ信号をデコードするステップと、
ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータに基づいて、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定するステップであって、オーディオ情報メッセージは、少なくとも1つのビデオ信号および少なくとも1つのオーディオ信号から独立している、ステップと、
情報メッセージを再生することが決定されると、オーディオ情報メッセージを再生するステップと、を含む。
【0078】
一態様によれば、仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のための方法が提供されてもよく、方法は、
VR、AR、MR、または360度ビデオ環境シーンをユーザーに表現するために、少なくとも1つのビデオストリームからの少なくとも1つのビデオ信号をデコードするステップと、
ユーザーへのオーディオシーンの表現のために、少なくとも1つの第1のオーディオストリームからの少なくとも1つのオーディオ信号をデコードするステップと、
ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータに基づいて、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定するステップであって、オーディオ情報メッセージはイアコンである、ステップと、
情報メッセージを再生することが決定されると、オーディオ情報メッセージを再生するステップと、
を含む。
【0079】
上記および/または下記の方法は、
情報メッセージを再生することが決定されると、オーディオ情報メッセージがオーディオシーンの一部であるように、メタデータに従ってオーディオ情報メッセージを再生するために、メタデータを受信および/または処理および/または操作するステップを含んでもよい。
【0080】
上記および/または下記の方法は、
オーディオおよびビデオシーンを再生するステップと、
ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータに基づいて、オーディオ情報メッセージをさらに再生するように決定するステップと、を含んでもよい。
【0081】
上記および/または下記の方法は、
オーディオおよびビデオシーンを再生するステップと、
少なくとも1つのROIがユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータの外側にある場合には、少なくとも1つのオーディオ信号の再生に加えて、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生し、および/または
少なくとも1つのROIがユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ内にある場合には、少なくとも1つのROIに関連付けられたオーディオ情報メッセージの再生を不許可および/または非アクティブにするステップと、を含んでもよい。
【0082】
例によれば、仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステムが提供され、システムは、
少なくとも1つのビデオストリームを受信し、
少なくとも1つの第1のオーディオストリームを受信するように構成され、
システムは、
VR、AR、MR、または360度ビデオ環境シーンをユーザーに表現するために、少なくとも1つのビデオストリームから少なくとも1つのビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
ユーザーへのオーディオシーンの表現のために、少なくとも1つの第1のオーディオストリームから少なくとも1つのオーディオ信号をデコードするように構成された少なくとも1つのメディアオーディオデコーダと、
関心領域ROIプロセッサと、を含み、関心領域ROIプロセッサは、
ユーザーの現在のビューポートおよび/または頭の向きおよび/または動きのデータおよび/またはメタデータに基づいて、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定し、
情報メッセージを再生することが決定されると、オーディオ情報メッセージを再生する、ように構成される。
【0083】
例では、仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステムが提供され、システムは、
少なくとも1つのビデオストリームを受信し、
少なくとも1つの第1のオーディオストリームを受信するように構成され、
システムは、
VR、AR、MR、または360度ビデオ環境シーンをユーザーに表現するために、少なくとも1つのビデオストリームから少なくとも1つのビデオ信号をデコードするように構成された少なくとも1つのメディアビデオデコーダと、
ユーザーへのオーディオシーンの表現のために、少なくとも1つの第1のオーディオストリームから少なくとも1つのオーディオ信号をデコードするように構成された少なくとも1つのメディアオーディオデコーダと、
ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータおよび/またはメタデータおよび/または他の基準に基づいて、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定するように構成された関心領域ROIプロセッサと、
メタデータを受信および/または処理および/または操作して、情報メッセージを再生することを決定したときに、オーディオ情報メッセージがオーディオシーンの一部であるように、メタデータに従ってオーディオ情報メッセージを再生するように構成されたメタデータプロセッサと、を含む。
【0084】
一態様によれば、プロセッサによって実行されると、プロセッサに上記および/または下記の方法を実行させる命令を含む、移行不可能な記憶ユニットが提供される。
【0085】
5.図面の説明
【図面の簡単な説明】
【0086】
図1】実施態様の例を示す図である。
図2】実施態様の例を示す図である。
図3】実施態様の例を示す図である。
図4】実施態様の例を示す図である。
図5】実施態様の例を示す図である。
図5a】実施態様の例を示す図である。
図6】実施態様の例を示す図である。
図7】一例による方法を示す図である。
図8】実施態様の一例を示す図である。
【発明を実施するための形態】
【0087】
6.例
6.1 一般的な例
図1は、仮想現実VR、拡張現実AR、複合現実MR、または360度ビデオ環境のためのシステム100の一例を示す。システム100は、例えば、コンテンツ消費デバイス(例えば、ヘッドマウントディスプレイなど)に関連付けられてもよく、これは、ユーザーの頭に密接に関連付けられた球形または半球形ディスプレイで視覚データを再生する。
【0088】
システム100は、少なくとも1つのメディアビデオデコーダ102および少なくとも1つのメディアオーディオデコーダ112を含むことができる。システム100は、VR、AR、MRまたは360度ビデオ環境シーン118aをユーザーに表現するためにビデオ信号がエンコードされている少なくとも1つのビデオストリーム106を受信することができる。システム100は、少なくとも1つの第1のオーディオストリーム116を受信することができ、その中で、オーディオ信号は、ユーザーに対するオーディオシーン118bの表現のためにエンコードされている。
【0089】
システム100は、関心領域ROIプロセッサ120も含むことができる。ROIプロセッサ120は、ROIに関連付けられたデータを処理することができる。一般的に言えば、ROIの存在は、ビューポートメタデータ131で通知されてもよい。ビューポートメタデータ131は、ビデオストリーム106でエンコードされてもよい(他の例では、ビューポートメタデータ131は他のストリームでエンコードされてもよい)。ビューポートメタデータ131は、例えば、ROIに関連付けられた位置情報(例えば、座標情報)を含むことができる。例えば、ROIは、例では、長方形として理解することができる(球面ビデオ内の長方形の4つの頂点のうちの1つの頂点の位置および長方形の辺の長さなどの座標によって識別される)。ROIは通常、球面ビデオに投影される。ROIは通常、(特定の構成に従って)ユーザーの関心があると考えられる可視要素に関連付けられる。例えば、ROIは、コンテンツ消費デバイスによって表示される(または、何らかの形でユーザーに見える)長方形の領域に関連付けられてもよい。
【0090】
ROIプロセッサ120は、とりわけ、メディアオーディオデコーダ112の動作を制御することができる。
【0091】
ROIプロセッサ120は、ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きに関連付けられたデータ122を取得することができる(仮想位置に関連付けられた仮想データも、いくつかの例では、データ122の一部として理解することができる)。これらのデータ122は、例えば、コンテンツ消費デバイスによって、または位置決め/検出ユニットによって、少なくとも部分的に提供されてもよい。
【0092】
ROIプロセッサ120は、ROIとユーザーの現在のビューポートおよび/または位置(実際または仮想)および/または頭の向きおよび/または動きのデータ122(例えば、他の基準が使用されてもよい)との間の対応をチェックすることができる。例えば、ROIプロセッサは、ROIが現在のビューポートに表現されているかどうかをチェックすることができる。ROIが(例えば、ユーザーの頭の動きに基づいて)ビューポートで部分的にしか表現されていない場合には、例えば、ROIの最小パーセンテージが画面に表示されているかどうかを判定することができる。いずれの場合でも、ROIプロセッサ120は、ROIが表現されていないか、またはユーザーに見えていないかどうかを認識することができる。
【0093】
ROIがユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ122の外側にあると考えられる場合には、ROIプロセッサ120は、ROIの存在をユーザーに音声で知らせることができる。例えば、ROIプロセッサ120は、少なくとも1つの第1のオーディオストリーム116からデコードされたオーディオ信号に加えて、オーディオ情報メッセージ(イアコン)の再生を要求することができる。
【0094】
ROIがユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ122内にあると考えられる場合、ROIプロセッサは、オーディオ情報メッセージの再生を回避することを決定することができる。
【0095】
オーディオ情報メッセージは、オーディオストリーム140(オーディオ情報メッセージストリーム)にエンコードされてもよく、これは、オーディオストリーム116と同じであっても、異なるストリームであってもよい。オーディオストリーム140は、システム100によって生成されてもよく、または外部エンティティ(例えば、サーバー)から取得されてもよい。オーディオ情報メッセージメタデータ141などのオーディオメタデータは、オーディオ情報ストリーム140のプロパティを記述するために定義することができる。
【0096】
オーディオ情報メッセージは、オーディオストリーム116でエンコードされた信号に重畳される(または混合されるか、多重化されるか、マージされるか、結合されるか、構成される)か、あるいは、例えば単にROIプロセッサ120の決定に基づいて選択されなくてもよい。ROIプロセッサ120は、ビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ122、メタデータ(ビューポートメタデータ131または他のメタデータなど)および/または他の基準(例えば、選択、システムの状態、既に実行されたオーディオ情報メッセージの再生の数、特定の機能および/または操作、イアコンの使用を無効にすることができるユーザーの好みの設定など)に基づいてその決定を行うことができる。
【0097】
メタデータプロセッサ132が実装されてもよい。メタデータプロセッサ132は、例えば、ROIプロセッサ120(これによってメタデータプロセッサ132が制御され得る)とメディアオーディオデコーダ112(メタデータプロセッサから制御され得る)との間に挿入することができる。例では、メタデータプロセッサは、ROIプロセッサ120の一部である。メタデータプロセッサ132は、オーディオ情報メッセージメタデータ141を受信、生成、処理、および/または操作することができる。メタデータプロセッサ132はまた、例えば、オーディオストリーム116をオーディオ情報メッセージストリーム140と多重化するために、オーディオストリーム116のメタデータを処理および/または操作することができる。さらにまたは代わりに、メタデータプロセッサ132は、例えば、サーバー(例えば、リモートエンティティ)から、オーディオストリーム116のメタデータを受信することができる。
【0098】
したがって、メタデータプロセッサ132は、オーディオシーンの再生を変更し、オーディオ情報メッセージを特定の状況および/または選択および/または状態に適合させることができる。
【0099】
ここでは、いくつかの実施態様のいくつかの利点について説明する。
【0100】
オーディオ情報メッセージは、例えば、オーディオ情報メッセージメタデータ141を使用して正確に識別され得る。
【0101】
オーディオ情報メッセージは、例えば、(例えば、メタデータプロセッサ132により)メタデータを変更することにより、容易にアクティブ化/非アクティブ化することができる。オーディオ情報メッセージは、例えば、現在のビューポートおよびROI情報(および達成される特別な機能または効果)に基づいて有効/無効にすることができる。
【0102】
オーディオ情報メッセージ(例えば、ステータス、タイプ、空間情報などを含む)は、例えばHTTP(DASH)クライアントを介したダイナミックアダプティブストリーミングなどの一般的な機器によって簡単に通知および変更することができる。
【0103】
したがって、システムレベルでオーディオ情報メッセージ(ステータス、タイプ、空間情報などを含む)に簡単にアクセスすることができるため、ユーザーエクスペリエンスを向上させるための追加機能を有効にすることができる。したがって、システム100は容易にカスタマイズすることができ、システム100の設計者から独立した要員が実行できるさらなる実施態様(例えば、特定のアプリケーション)を可能にすることができる。
【0104】
さらに、様々なタイプのオーディオ情報メッセージ(例えば、自然音、合成音、DASHクライアントで生成された音など)への対処において柔軟性が実現される。
【0105】
その他の利点(以下の例でも明らかになる):
・メタデータ内のテキストラベルの使用(何かを表示したりイアコンを生成したりするための基礎として)
・デバイスに基づくイアコンの位置の調整(HMDの場合には正確な位置が必要になる、スピーカーの場合には別の位置を使用する方が良いかもしれない-1つのスピーカーに直接)。
【0106】
・異なるデバイスクラス:
・イアコンメタデータは、イアコンがアクティブであることを通知する方法で作成することができる。
【0107】
・一部のデバイスは、メタデータを解析してイアコンを再生する方法のみを認識する
・より良いROIプロセッサを備えた一部の新しいデバイスは、不要な場合にそれを非アクティブにすることを決定することができる
・アダプテーションセットのさらなる情報と追加の図。
【0108】
したがって、VR/AR環境では、ユーザーは通常、例えばヘッドマウントディスプレイ(HMD)を使用して360度のコンテンツ全体を視覚化し、ヘッドフォンで聞くことができる。ユーザーは通常、VR/AR空間で移動するか、少なくとも表示方向を変更することができ、これは、ビデオのいわゆる「ビューポート」である。従来のコンテンツ消費と比較して、VRの場合、コンテンツ作成者は、ユーザーが視覚化するものを様々な時点で現在のビューポートで制御することができなくなる。ユーザーは、許可されたビューポートまたは利用可能なビューポートから、時間のインスタンスごとに異なるビューポートを自由に選択することができる。関心領域(ROI)をユーザーに示すために、ROIの位置で再生することにより、可聴音(自然音または合成音)を使用することができる。これらのオーディオメッセージは「イアコン」として知られている。本発明は、そのようなメッセージの効率的な配信のための解決策を提案し、ユーザーエクスペリエンスおよびコンテンツ消費に影響を与えることなくイアコンを利用するための最適化された受信機動作を提案する。これにより、エクスペリエンスの品質が向上する。これは、最終的なシーンでイアコンを有効または無効にするために、システムレベルで専用のメタデータおよびメタデータ操作メカニズムを使用することで実現することができる。
【0109】
メタデータプロセッサ132は、メタデータ141を受信および/または処理および/または操作して、情報メッセージを再生するという決定において、メタデータ141に従ってオーディオ情報メッセージを再生するように構成することができる。オーディオ信号(例えば、シーンを表現するためのもの)は、オーディオシーン(例えば、リモートサーバーからダウンロードされたオーディオシーン)の一部であると理解することができる。オーディオ信号は一般にオーディオシーンにとって意味論的に意味があり、一緒に存在するすべてのオーディオ信号はオーディオシーンを構成する。オーディオ信号は、1つのオーディオビットストリームにまとめてエンコードすることができる。オーディオ信号は、コンテンツ作成者によって作成されてもよく、および/または特定のシーンに関連付けられてもよく、および/またはROIから独立していてもよい。
【0110】
オーディオ情報メッセージ(例えば、イアコン)は、オーディオシーンにとって意味論的に意味がないと理解されてもよい。録音された音や人のレコーダーの声など、人為的に生成することができる独立した音として理解することができる。それはまた、デバイスに依存する場合もある(例えば、リモコンのボタンを押すと生成されるシステムサウンド)。オーディオ情報メッセージ(例えば、イアコン)は、シーンの一部ではなく、シーン内でユーザーを案内することを意味するものとして理解されてもよい。
【0111】
オーディオ情報メッセージは、上記のようにオーディオ信号から独立していてもよい。異なる例によれば、それは、同じビットストリームに含まれるか、または別個のビットストリームで送信されるか、またはシステム100によって生成されてもよい。
【0112】
複数のオーディオ信号で構成されるオーディオシーンの例は次の通りである。
【0113】
-オーディオシーン 5つのオーディオ信号を含むコンサートルーム:
---オーディオ信号1:ピアノの音
---オーディオ信号2:歌手の声
---オーディオ信号3:聴衆の一部である人1の声
---オーディオ信号4:聴衆の一部である人2の声
---オーディオ信号5:壁の時計により生成される音
オーディオ情報メッセージは、例えば、「ピアノ奏者に目を向ける」(ピアノがROIである)のような録音された音声であってもよい。ユーザーが既にピアノ奏者を見ている場合には、オーディオメッセージは再生されない。
【0114】
別の例:ユーザーの背後にあるドア(例えば仮想ドア)が開き、新しい人が部屋に入ってくる。ユーザーはそこを見ていない。イアコンが、これ(仮想位置などのVR環境に関する情報)に基づいてトリガーされ、ユーザーの背後で何かが発生したことをユーザーに通知することができる。
【0115】
例では、ユーザーが環境を変更すると、各シーン(例えば、関連付けられたオーディオストリームとビデオストリームなど)がサーバーからクライアントに送信される。
【0116】
オーディオ情報メッセージは柔軟であってもよい。特に:
-オーディオ情報メッセージは、再生されるシーンに関連付けられた同じオーディオストリームに配置することができる。
【0117】
-オーディオ情報メッセージは、追加のオーディオストリームに配置することができる。
【0118】
-オーディオ情報メッセージは完全に欠落している可能性があるが、イアコンを説明するメタデータのみがストリームに存在でき、オーディオ情報メッセージはシステムで生成することができる。
【0119】
-オーディオ情報メッセージとオーディオ情報メッセージを説明するメタデータが完全に欠落している可能性があるが、その場合、システムはストリーム内のROIに関する他の情報に基づいて両方(イアコンとメタデータ)を生成する。
【0120】
オーディオ情報メッセージは、一般に、オーディオシーンのオーディオ信号部分から独立しており、オーディオシーンの表現には使用されない。
【0121】
システム100を具現化するまたは部分を含むシステムの例を以下に提示する。
【0122】
6.2 図2の例
図2は、ここではサーバー側202、メディア配信側203、クライアント側204、および/またはメディア消費デバイス側206に細分されるものとして表されるシステム200(少なくとも一部の実施システム100を含むことができる)を示す。側202、203、204、および206の各々は、システム自体であり、他のシステムと組み合わせて別のシステムを取得することができる。ここでは、任意の種類のオーディオ情報メッセージに一般化することが可能であっても、オーディオ情報メッセージをイアコンと呼ぶ。
【0123】
クライアント側204は、サーバー側202からメディア配信側203を介して少なくとも1つのビデオストリーム106および/または少なくとも1つのオーディオストリーム116を受信することができる。
【0124】
配信側203は、例えば、クラウドシステム、ネットワークシステム、地理的通信ネットワークまたは周知のメディアトランスポートフォーマット(MPEG-2 TSトランスポートストリーム、DASH、MMT、DASH ROUTEなど)などの通信システムあるいはファイルベースのストレージに基づくことができる。配信側203は、(例えば、ケーブル、無線などで)電気信号の形で、および/または(例えば、特定の通信プロトコルに従って)オーディオおよびビデオ信号がエンコードされているビットストリームでデータパケットを配信することにより、通信を実行することができる。しかしながら、配信側203は、ポイントツーポイントリンク、シリアルまたはパラレル接続などによって具体化されてもよい。配信側203は、例えば、WiFi、ブルートゥース(登録商標)などのプロトコルに従って、無線接続を実行することができる。
【0125】
クライアント側204は、例えばユーザーが頭を挿入することができるHNDなどのメディア消費デバイスに関連付けることができる(ただし、他のデバイスを使用してもよい)。したがって、ユーザーは、サーバー側202によって提供されるビデオおよびオーディオデータに基づいて、クライアント側204によって準備されるビデオおよびオーディオシーン(例えば、VRシーン)を体験することができる。ただし、他の実施態様も可能である。
【0126】
サーバー側202は、ここでは、(ビデオエンコーダ、オーディオエンコーダ、字幕エンコーダなどをカバーすることができる)メディアエンコーダ240を有するものとして表されている。このエンコーダ240は、例えば、表現されるオーディオおよびビデオシーンに関連付けられてもよい。オーディオシーンは、例えば、環境を再生するためのものであってもよく、少なくとも1つのオーディオおよびビデオデータストリーム106、116に関連付けられ、これらは、VR、AR、MR環境においてユーザーが到達した位置(または仮想位置)に基づいてエンコードされてもよい。一般的には、ビデオストリーム106は球面画像をエンコードし、その一部(ビューポート)のみがその位置と動きに従ってユーザーに表示される。オーディオストリーム116は、オーディオシーン表現に参加し、ユーザーによって聞かれることが意図されているオーディオデータを含む。例によれば、オーディオストリーム116は、オーディオメタデータ236(これは、オーディオシーン表現に参加することを目的とする少なくとも1つのオーディオ信号を指す)および/またはイアコンメタデータ141(これは、場合によっては、再生されるイアコンのみを記述してもよい)を含んでもよい。
【0127】
システム100は、ここではクライアント側204にあるものとして表されている。簡単にするために、メディアビデオデコーダ112は図2には表されていない。
【0128】
イアコン(または他のオーディオ情報メッセージ)の再生を準備するために、イアコンメタデータ141を使用することができる。イアコンメタデータ141は、イアコンに関連付けられた属性を記述および提供するメタデータ(オーディオストリームにエンコードされてもよい)として理解することができる。したがって、イアコン(再生される場合)は、イアコンメタデータ141の属性に基づくことができる。
【0129】
有利には、メタデータプロセッサ132は、イアコンメタデータ141を処理するために特に実装されてもよい。例えば、メタデータプロセッサ132は、イアコンメタデータ141の受信、処理、操作、および/または生成を制御することができる。イアコンメタデータは、処理されると、変更されたイアコンメタデータ234として表される。例えば、イアコンメタデータを操作して、特定の効果を取得し、ならびに/あるいはマルチプレクスまたは多重化などのオーディオ処理操作を実行し、オーディオシーンで表現されるオーディオ信号にイアコンを追加することができる。
【0130】
メタデータプロセッサ132は、少なくとも1つのストリーム116に関連付けられたオーディオメタデータ236の受信、処理、操作を制御することができる。処理されると、オーディオメタデータ236は、変更されたオーディオメタデータ238として表すことができる。
【0131】
変更されたメタデータ234、238は、ユーザーへのオーディオシーン118bの再生のために、メディアオーディオデコーダ112(またはいくつかの例では複数のデコーダ)に提供することができる。
【0132】
例では、オプションの構成要素として、合成オーディオジェネレータおよび/または記憶デバイス246が提供されてもよい。ジェネレータは、(例えば、ストリームにエンコードされていないイアコンを生成するために)オーディオストリームを合成することができる。記憶デバイスは、ジェネレータによって生成され、かつ/または受信されたオーディオストリームで取得されたイアコンストリームを(例えば将来の使用のために)(例えば、キャッシュメモリに)格納することを可能にする。
【0133】
したがって、ROIプロセッサ120は、ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ122に基づいて、イアコンの表現を決定することができる。しかし、ROIプロセッサ120はまた、他の態様を含む基準に基づいてその決定を行ってもよい。
【0134】
例えば、ROIプロセッサは、例えば、ユーザーの選択や上位層の選択など、他の条件に基づいて、例えば、消費されることを意図した特定のアプリケーションに基づいて、イアコンの再生を有効/無効にすることができる。例えば、ビデオゲームアプリケーションの場合、イアコンやその他のオーディオ情報メッセージは、ビデオゲームレベルが高い場合は回避することができる。これは、メタデータプロセッサによって、イアコンメタデータのイアコンを無効にすることで簡単に取得することができる。
【0135】
さらに、システムの状態に基づいてイアコンを無効にすることができる。例えば、イアコンが既に再生されている場合、その繰り返しは禁止される。例えば、あまりにも速い繰り返しを避けるために、タイマーを使用してもよい。
【0136】
ROIプロセッサ120はまた、例えば、ユーザーが見ることができる要素についてユーザーに指示するために、一連のイアコン(例えば、シーン内のすべてのROIに関連付けられたイアコン)の制御された再生を要求することができる。メタデータプロセッサ132は、この動作を制御することができる。
【0137】
ROIプロセッサ120はまた、イアコン位置(すなわち、シーン内の空間的位置)またはイアコンタイプを変更することができる。例えば、イアコンとしてROIの正確な場所/位置で特定のサウンドを再生することを好むユーザーもいれば、ROIが位置する場所を音声で示すように、イアコンを常に1つの固定位置(例えば、中央または上部の「神の声」など)で再生することを好むユーザーもいる。
【0138】
イアコンの再生のゲインを変更する(例えば、異なるボリュームを取得する)ことができる。この決定は、例えば、ユーザーの選択に従ってもよい。特に、ROIプロセッサの決定に基づいて、メタデータプロセッサ132は、イアコンに関連付けられたイアコンメタデータのうち、ゲインに関連付けられた特定の属性を変更することによって、ゲイン変更を実行する。
【0139】
VR、AR、MR環境の元の設計者も、イアコンが実際にどのように再生されるかを認識していない可能性がある。例えば、ユーザーの選択により、イアコンの最終的なレンダリングが変更される場合がある。そのような動作は、例えば、ROIプロセッサの決定に基づいてイアコンメタデータ141を変更することができるメタデータプロセッサ132によって制御することができる。
【0140】
したがって、イアコンに関連付けられたオーディオデータに対して実行される操作は、原則として、オーディオシーンを表現するために使用される少なくとも1つのオーディオストリーム116とは独立しており、異なる方法で管理することができる。イアコンは、オーディオおよびビデオシーンを構成するオーディオおよびビデオストリーム106、116とは別に生成することもでき、異なる独立した起業家グループによって生成することもできる。
【0141】
したがって、この例はユーザーの満足度を高めることを可能にする。例えば、ユーザーは、例えば、オーディオ情報メッセージのボリュームを変更することにより、オーディオ情報メッセージを無効にすることなどにより、ユーザー自身の選択を行うことができる。したがって、各ユーザーは自分の好みにより適したエクスペリエンスを得ることができる。さらに、取得したアーキテクチャはより柔軟である。オーディオ情報メッセージは、例えば、オーディオストリームとは独立してメタデータを変更することによって、および/またはメタデータとメインオーディオストリームとは独立してオーディオ情報メッセージストリームを変更することによって、簡単に更新することができる。
【0142】
得られたアーキテクチャは、レガシーシステムとも互換性があり、例えば、レガシーオーディオ情報メッセージストリームは、新しいオーディオ情報メッセージメタデータに関連付けることができる。適切なオーディオ情報メッセージストリームが存在しない場合には、例では、後者は容易に合成することができる(そして、例えば、その後の使用のために格納することができる)。
【0143】
ROIプロセッサは、オーディオ情報メッセージの再生に関連付けられた履歴データおよび/または統計データに関連付けられたメトリックの追跡を保持して、メトリックが所定のしきい値を超えた場合にオーディオ情報メッセージの再生を無効にすることができる(これは基準として使用することができる)。
【0144】
ROIプロセッサの決定は、基準として、ROIの位置との関係におけるユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ122の予測に基づいてもよい。
【0145】
ROIプロセッサは、少なくとも1つの第1のオーディオストリーム116を受信し、情報メッセージを再生することが決定されると、リモートエンティティからのオーディオメッセージ情報ストリームを要求するようにさらに構成されてもよい。
【0146】
ROIプロセッサおよび/またはメタデータジェネレータは、2つのオーディオ情報メッセージを同時に再生するか、またはより優先度の低いオーディオ情報メッセージに対して優先的に再生されるより優先度の高いオーディオ情報メッセージを選択するかを確立するようにさらに構成されてもよい。この決定を実行するために、オーディオ情報メタデータを使用することができる。優先度は、例えば、オーディオ情報メッセージメタデータ内の値に基づいてメタデータプロセッサ132によって取得することができる。
【0147】
いくつかの例では、メディアエンコーダ240は、リモートエンティティは、データベース、イントラネット、インターネット、および/または地理的ネットワークにおいて、追加のオーディオストリームおよび/またはオーディオ情報メッセージメタデータを検索し、検索された場合に、追加のオーディオストリームおよび/またはオーディオ情報メッセージメタデータを配信するように構成されてもよい。例えば、クライアント側の要求に基づいて検索を実行してもよい。
【0148】
上記で説明したように、イアコンメッセージをオーディオコンテンツと共に効率的に配信するための解決策がここで提案されている。ユーザーエクスペリエンスおよびコンテンツ消費に影響を与えずにオーディオ情報メッセージ(例えばイアコン)を利用するために、最適化された受信機動作が得られる。これにより、エクスペリエンスの品質が向上する。
【0149】
これは、最終的なオーディオシーンでオーディオ情報メッセージを有効または無効にするために、システムレベルで専用のメタデータおよびメタデータ操作メカニズムを使用することで実現することができる。メタデータは、任意のオーディオコーデックと共に使用することができ、次世代オーディオコーデックメタデータ(例えばMPEG-Hオーディオメタデータ)を適切に補完する。
【0150】
配信メカニズムは様々であり得る(例えば、DASH/HLSを介したストリーミング、DASH-ROUTE/MMT/MPEG-2 TSを介したブロードキャスト、ファイル再生など)。このアプリケーションでは、DASH配信が考慮されているが、他の配信オプションについてもすべての概念が有効である。
【0151】
ほとんどの場合、オーディオ情報メッセージは時間領域で重複しない。つまり、特定の時点で、ROIが1つだけ定義される。しかし、例えばユーザーが選択/移動に基づいてコンテンツを変更することができるインタラクティブな環境など、より高度な使用事例を考慮すると、複数のROIを必要とする使用事例もあり得る。この目的のために、一度に複数のオーディオ情報メッセージが必要になる場合がある。したがって、すべての異なる使用事例をサポートするための一般的な解決策について説明する。
【0152】
オーディオ情報メッセージの配信と処理は、次世代オーディオの既存の配信方法を補完するものでなければならない。
【0153】
時間領域で独立している複数のROIの複数のオーディオ情報メッセージを伝達する1つの方法は、異なる時間インスタンスで各オーディオ情報メッセージの空間位置を記述する関連付けられたメタデータを用いて、すべてのオーディオ情報メッセージを1つのオーディオ要素(例えば、オーディオオブジェクトなど)に混合することである。オーディオ情報メッセージは時間的に重複しないため、1つの共有オーディオ要素で個別にアドレス指定することができる。このオーディオ要素は、オーディオ情報メッセージの間に、つまりオーディオ情報メッセージがない場合は常に、無音(またはオーディオデータがない)を含むことができる。この場合、次のメカニズムが適用される。
【0154】
・共通のオーディオ情報メッセージであるオーディオ要素は、関連付けられたオーディオシーンと同じ基本ストリーム(ES)で配信するか、1つの補助ストリーム(メインストリームに依存または非依存)で配信することができる。
【0155】
・イアコンオーディオ要素がメインストリームに依存する補助ストリームで配信される場合には、クライアントは視覚シーンに新しいROIが存在するときはいつでも追加のストリームを要求することができる。
【0156】
・クライアント(例えば、システム100)は、例えば、イアコンを必要とするシーンの前にストリームを要求することができる。
【0157】
・クライアントは、例では、現在のビューポートに基づいてストリームを要求することができる。つまり、現在のビューポートがROIと一致する場合には、クライアントは追加のイアコンストリームを要求しないことを決定することができる。
【0158】
・イアコンオーディオ要素がメインストリームとは独立した補助ストリームで配信される場合には、クライアントは、以前と同様に、視覚シーンに新しいROIが存在するときはいつでも追加のストリームを要求することができる。さらに、2つの(またはそれ以上の)ストリームは、2つのメディアデコーダと、デコードされたイアコンオーディオデータを最終的なオーディオシーンにミキシングするための共通のレンダリング/ミキシングステップを使用して処理することができる。あるいは、メタデータプロセッサを使用して2つのストリームのメタデータを変更し、「ストリームマージャー」を使用して2つのストリームをマージすることもできる。このようなメタデータプロセッサとストリームマージャーの可能な実施態様について、以下で説明する。
【0159】
代替的な例では、別の例では、時間領域で独立している、または時間領域で重複している、いくつかのROIの複数のイアコンを複数のオーディオ要素(オーディオオブジェクトなど)で配信して、メインオーディオシーンと一緒に1つの基本ストリームに埋め込むか、複数の補助ストリーム、例えば、1つのES内の各イアコンまたは共有プロパティ(例えば、左側にあるすべてのイアコンは1つのストリームを共有する)に基づく1つのES内のイアコンのグループに埋め込むことができる。
【0160】
・すべてのイアコンオーディオ要素がメインストリームに依存するいくつかの補助ストリームで配信される場合(例えば、ストリームごとに1つのイアコンまたはストリームごとのイアコンのグループ)には、クライアントは、そのイアコンに関連付けられたROIが視覚シーンに存在するときは常に、例えば、目的のイアコンを含む1つの追加ストリームを要求することができる。
【0161】
・クライアントは、例えば、イアコンを必要とするシーンの前に、イアコンでストリームを要求することができる(例えば、ユーザーの動きに基づいて、ROIプロセッサ120は、ROIがまだシーンの一部でなくても決定を行うことができる)。
【0162】
・クライアントは、例では、現在のビューポートに基づいてストリームを要求することができ、現在のビューポートがROIと一致する場合には、クライアントは追加のイアコンストリームを要求しないことを決定することができる。
【0163】
・1つのイアコンオーディオ要素(またはイアコンのグループ)がメインストリームとは独立した補助ストリームで配信される場合には、クライアントは、例えば、以前と同様に、視覚シーンに新しいROIが存在するときはいつでも追加のストリームを要求することができる。さらに、2つの(またはそれ以上の)ストリームは、2つのメディアデコーダと、デコードされたイアコンオーディオデータを最終的なオーディオシーンにミキシングするための共通のレンダリング/ミキシングステップを使用して処理することができる。あるいは、メタデータプロセッサを使用して2つのストリームのメタデータを変更し、「ストリームマージャー」を使用して2つのストリームをマージすることもできる。このようなメタデータプロセッサとストリームマージャーの可能な実施態様について、以下で説明する。
【0164】
あるいは、1つの共通(汎用)イアコンを使用して、1つのオーディオシーン内のすべてのROIを通知することができる。これは、異なる時間インスタンスのオーディオコンテンツに関連付けられた異なる空間情報を持つ同じオーディオコンテンツを使用することで実現することができる。この場合、ROIプロセッサ120は、シーン内のROIに関連するイアコンを収集し、(例えば、ユーザーの選択時または上位層のアプリケーション要求時に)イアコンの再生を順番に制御するようにメタデータプロセッサ132に要求することができる。
【0165】
あるいは、1つのイアコンを1回だけ送信して、クライアントにキャッシュすることもできる。クライアントは、1つのオーディオシーン内のすべてのROIに再利用でき、異なる時間インスタンスのオーディオコンテンツに関連付けられた異なる空間情報を使用することができる。
【0166】
あるいは、イアコンオーディオコンテンツをクライアントで合成して生成することもできる。それと併せて、メタデータジェネレータを使用して、イアコンの空間情報を通知するために必要なメタデータを作成することができる。例えば、イアコンオーディオコンテンツを圧縮して、メインオーディオコンテンツと新しいメタデータと共に1つのメディアデコーダに供給するか、メディアデコーダの後に最終的なオーディオシーンに混合するか、複数のメディアデコーダを使用することができる。
【0167】
あるいは、イアコンオーディオコンテンツは、例えば、イアコンを記述するメタデータが既にストリームに埋め込まれている間に、クライアントで(例えば、メタデータプロセッサ132の制御下で)合成的に生成することができる。メタデータは、エンコーダでイアコンタイプの特定の通知を使用して、イアコンの空間情報、「デコーダで生成されたイアコン」の特定の単一化を含むことができるが、イアコンのオーディオデータを含むことはできない。
【0168】
あるいは、イアコンオーディオコンテンツをクライアントで合成して生成し、メタデータジェネレータを使用して、イアコンの空間情報を通知するために必要なメタデータを作成することができる。例えば、イアコンオーディオコンテンツは
・メインオーディオコンテンツと新しいメタデータと共に圧縮され、1つのメディアデコーダに供給される。
【0169】
・または、メディアデコーダの後に最終的なオーディオシーンに混合することができる。
【0170】
・または複数のメディアデコーダを使用することができる。
【0171】
6.3 オーディオ情報メッセージ(例えばイアコン)のメタデータの例
上述のように、オーディオ情報メッセージ(イアコン)メタデータ141の例をここに提示する。
【0172】
イアコンプロパティを記述するための1つの構造と、これらの値を簡単に調整する可能性を提供する。
【0173】
【表1】
表の各識別子は、イアコンメタデータ132の属性に関連付けられるように意図されている。
【0174】
ここでは、意味論について説明する。
【0175】
numEarcons-このフィールドは、ストリームで利用可能なイアコンオーディオ要素の数を指定する。
【0176】
Earcon_isIndependent-このフラグは、イアコンオーディオ要素が任意のオーディオシーンから独立しているかどうかを定義する。Earcon_isIndependent==1の場合、イアコンオーディオ要素はオーディオシーンから独立している。Earcon_isIndependent==0の場合、イアコンオーディオ要素はオーディオシーンの一部であり、Earcon_idはオーディオ要素に関連付けられたmae_groupIDと同じ値を有する必要がある。
【0177】
EarconType-このフィールドはイアコンのタイプを定義する。次の表は、許容値を示している。
【0178】
【表2】
EarconActive このフラグは、イアコンがアクティブかどうかを定義する。EarconActive==1の場合、イアコンオーディオ要素がデコードされ、オーディオシーンにレンダリングされる。
【0179】
EarconPosition このフラグは、イアコンに利用可能な位置情報があるかどうかを定義する。Earcon_isIndependent==0の場合、dynamic_object_metadata()またはintracoded_object_metadata_efficient()構造体で指定されたオーディオオブジェクトメタデータの代わりに、この位置情報が使用される。
【0180】
Earcon_azimuth 方位角の絶対値。
【0181】
Earcon_elevation 仰角の絶対値。
【0182】
Earcon_radius 半径の絶対値。
【0183】
EarconHasGain このフラグは、イアコンのゲイン値が異なるかどうかを定義する。
【0184】
Earcon_gain このフィールドは、イアコンのゲインの絶対値を定義する。
【0185】
EarconHasTextLabel このフラグは、イアコンにテキストラベルが関連付けられているかどうかを定義する。
【0186】
Earcon_numLanguages このフィールドは、説明テキストラベルの利用可能な言語の数を指定する。
【0187】
Earcon_Language この24ビットのフィールドは、イアコンの説明テキストの言語を識別する。それはISO 639-2で指定されている3文字コードを含む。ISO 639-2/BとISO 639-2/Tの両方を使用することができる。各文字は、ISO/IEC 8859-1に従って8ビットにコード化され、24ビットフィールドに順番に挿入される。例:Frenchには3文字のコード「fre」があり、「0110 0110 0111 0010 0110 0101」のようにコード化される。
【0188】
Earcon_TextDataLength このフィールドは、ビットストリーム内の次のグループ記述の長さを定義する。
【0189】
Earcon_TextData このフィールドには、イアコンの説明、つまり高いレベルの説明によってコンテンツを説明する文字列が含まれる。フォーマットは、ISO/IEC 10646に従ってUTF-8に従う必要がある。
【0190】
システムレベルでイアコンを識別し、それらを既存のビューポートに関連付けるための1つの構造。次の2つの表は、様々な実施態様で使用することができるこのような構造を実現する2つの方法を示している。
aligned(8)class EarconSample()extends SphereRegionSample{
for(i=0;i<num_regions;i++){
unsigned int(7)reserved;
unsigned int(1)hasEarcon;
if(hasEarcon==1){
unsigned int(8)numRegionEarcons;
for(n=0;n<numRegionEarcons;n++){
unsigned int(8)Earcon_id;
unsigned int(32)Earcon_track_id;




または代わりに:
aligned(8)class EarconSample()extends SphereRegionSample{
for(i=0;i<num_regions;i++){
unsigned int(32)Earcon_track_id;
unsigned int(8)Earcon_id;


意味論:
hasEarconは、1つの領域でイアコンデータが利用可能かどうかを指定する。
【0191】
numRegionEarconsは、1つの領域で利用可能なイアコンの数を指定する。
【0192】
Earcon_idは、球体領域に関連付けられた1つのイアコン要素のIDを一意的に定義する。イアコンがオーディオシーンの一部である場合(つまり、イアコンが1つのmae_groupIDによって識別される要素の1つのグループの一部である場合)には、Earcon_idはmae_groupIDと同じ値を持つ必要がある。Earcon_idは、オーディオファイル/トラックでの識別に使用することができ、例えば、DASH配信の場合、MPDのEarconComponent
【0193】
tag要素が含まれるAdaptationSetはEarcon_idと等しい。
【0194】
Earcon_track_idは、1つのプレゼンテーションのライフタイム全体にわたって球体領域に関連付けられた1つのイアコントラックを一意的に識別する整数である。つまり、イアコントラックが同じISO BMFFファイルで配信される場合、Earcon_track_idはイアコントラックの対応するtrack_idを表す。イアコンが同じISO BMFFファイル内で配信されない場合には、この値はゼロに設定する必要がある。
【0195】
MPDレベルでイアコントラックを簡単に識別するために、次の属性/要素をEarconComponent
【0196】
tagとして使用することができる。
【0197】
MPEG-Hオーディオに関連付けられたMPD要素と属性の概
【0198】
【表3】
MPEG-Hオーディオの場合、これは、例では、MHASパケットを使用して実施することができる。
【0199】
・イアコンに関する情報を運ぶための新しいMHASパケットを定義することができる:EarconInfo()構造体を運ぶPACTYP_EARCON;
・EarconInfo()構造体を運ぶための、一般的なMHAS METADATA MHASパケットの新しい識別フィールド。
【0200】
メタデータに関して、メタデータプロセッサ132は、以下の機能のうちの少なくともいくつかを有することができる:
ストリームからオーディオ情報メッセージメタデータを抽出し、
オーディオ情報メッセージメタデータを変更して、オーディオ情報メッセージをアクティブ化し、および/またはその位置を設定し/変化させ、および/またはオーディオ情報メッセージのテキストラベルを書き込み/変更し、
メタデータをストリームに埋め込み、
ストリームを追加のメディアデコーダに供給し、
少なくとも1つの第1のオーディオストリーム(116)からオーディオメタデータを抽出し、
追加のストリームからオーディオ情報メッセージメタデータを抽出し、
オーディオ情報メッセージメタデータを変更して、オーディオ情報メッセージをアクティブ化し、および/またはその位置を設定し/変化させ、および/またはオーディオ情報メッセージのテキストラベルを書き込み/変更し、
オーディオ情報メッセージの存在を考慮に入れてマージできるように、少なくとも1つの第1のオーディオストリーム(116)のオーディオメタデータを変更し、
ROIプロセッサから受信した情報に基づいてそれらをマルチプレクスまたは多重化するために、マルチプレクサまたはマクサーにストリームを供給する。
【0201】
6.4 図3の例
図3は、クライアント側204において、例えば、システム100または200を具現化することができるシステム302(クライアントシステム)を含むシステム300を示す。
【0202】
システム302は、ROIプロセッサ120、メタデータプロセッサ132、複数のデコーダ112によって形成されたデコーダグループ313を含むことができる。
【0203】
この例では、異なるオーディオストリームがデコードされ(それぞれメディアオーディオデコーダ112によって)、続いて一緒に混合および/またはレンダリングされて、最終的なオーディオシーンが提供される。
【0204】
ここで、少なくとも1つのオーディオストリームは、2つのストリーム116、316を含むものとして表されている(他の例は、図2のように1つの単一のストリーム、または3つ以上のストリームを提供することができる)。これらは、ユーザーが体験することが期待されているオーディオシーンを再生するためのオーディオストリームである。ここでは、イアコンを参照しているが、オーディオ情報メッセージの概念を一般化することも可能である。
【0205】
さらに、イアコンストリーム140は、メディアエンコーダ240によって提供されてもよい。ユーザーの動きと、ビューポートメタデータ131および/またはその他の基準に示されているROIに基づいて、ROIプロセッサは、イアコンストリーム140からイアコンを再生する(オーディオストリーム116、316に追加されているため、追加のオーディオストリームとしても示されている)。
【0206】
特に、イアコンの実際の表現は、イアコンメタデータ141およびメタデータプロセッサ132によって実行された変更に基づいている。
【0207】
例では、ストリームは、必要な場合に、システム302(クライアント)によってメディアエンコーダ240(サーバー)に要求することができる。例えば、ROIプロセッサは、ユーザーの動きに基づいて、特定のイアコンがすぐに必要になると判断し、したがって、適切なイアコンストリーム140をメディアエンコーダ240に要求することができる。
【0208】
この例の次の態様に留意することができる。
【0209】
・使用事例:オーディオデータは1つまたは複数のオーディオストリーム116、316(例えば、1つのメインストリームと補助ストリーム)で配信されるが、イアコンは1つまたは複数の追加のストリーム140(メインオーディオストリームに依存またはそれから独立)で配信される。
【0210】
・クライアント側204の1つの実施態様では、ROIプロセッサ120とメタデータプロセッサ132が、イアコン情報を効率的に処理するために使用される。
【0211】
・ROIプロセッサ120は、(例えば、HMDに基づいて)コンテンツ消費に使用されるメディア消費デバイス側206から、現在のビューポートに関する情報122(ユーザーの向きの情報)を受信することができる。ROIプロセッサは、メタデータで通知されたROIとROIを受信することもできる(ビデオビューポートはOMAFのように通知される)。
【0212】
・この情報に基づいて、ROIプロセッサ120は、イアコンオーディオストリーム140に含まれる1つ(または複数)のイアコンをアクティブ化することを決定することができる。さらに、ROIプロセッサ120は、(例えば、コンテンツが消費される現在の空間におけるイアコンのより正確な表現のために)イアコンの異なる場所および異なるゲイン値を決定することができる。
【0213】
・ROIプロセッサ120は、この情報をメタデータプロセッサ132に提供する。
【0214】
・メタデータプロセッサ132は、イアコンオーディオストリームに含まれるメタデータを解析し、
・イアコンを有効にし(その再生を許可するため)
・そして、ROIプロセッサ120によって要求された場合には、それに応じて、イアコンメタデータ141に含まれる空間位置およびゲイン情報を変更することができる。
【0215】
・各オーディオストリーム116、316、140は(ユーザーの位置情報に基づいて)独立してデコードおよびレンダリングされ、すべてのメディアデコーダの出力は、ミキサーまたはレンダラー314によって最終ステップとして一緒に混合される。別の実施態様では、圧縮された音声のみをデコードし、デコードされたオーディオデータとメタデータをすべてのオーディオ要素(イアコンを含む)の最終レンダリング用の一般共通レンダラーに提供することができる。
【0216】
・さらに、ストリーミング環境では、ROIプロセッサ120は同じ情報に基づいて、事前にイアコンストリーム140を要求することを決定することができる(例えば、ROIが有効になる数秒前にユーザーが間違った方向を覗き込んだ場合)。
【0217】
6.5 図4の例
図4は、クライアント側204において、例えば、システム100または200を具現化することができるシステム402(クライアントシステム)を含むシステム400を示す。ここでは、イアコンを参照しているが、オーディオ情報メッセージの概念を一般化することも可能である。
【0218】
システム402は、ROIプロセッサ120、メタデータプロセッサ132、ストリームマルチプレクサまたはマクサー412を含むことができる。マルチプレクサまたはマクサー412が存在する例では、ハードウェアによって実行される操作の数は、複数のデコーダおよび1つのミキサーまたはレンダラーが使用されるときに実行される操作の数に対して有利に低減される。
【0219】
この例では、要素412でのメタデータと多重化またはマルチプレクスに基づいて、異なるオーディオストリームが処理される。
【0220】
ここで、少なくとも1つのオーディオストリームは、2つのストリーム116、316を含むものとして表されている(他の例は、図2のように1つの単一のストリーム、または3つ以上のストリームを提供することができる)。これらは、ユーザーが体験することが期待されているオーディオシーンを再生するためのオーディオストリームである。
【0221】
さらに、イアコンストリーム140は、メディアエンコーダ240によって提供されてもよい。ユーザーの動きと、ビューポートメタデータ131および/またはその他の基準に示されているROIに基づいて、ROIプロセッサ120は、イアコンストリーム140からイアコンを再生する(オーディオストリーム116、316に追加されているため、追加のオーディオストリームとしても示されている)。
【0222】
各オーディオストリーム116、316、140は、それぞれメタデータ236、416、141を含むことができる。これらのメタデータの少なくとも一部は、オーディオストリームのパケットが一緒にマージされるストリームマクサーまたはマルチプレクサ412に提供されるように操作および/または処理される。したがって、イアコンはオーディオシーンの一部として表すことができる。
【0223】
したがって、ストリームマクサーまたはマルチプレクサ412は、変更されたオーディオメタデータ238および変更されたイアコンメタデータ234を含むオーディオストリーム414を提供することができ、これがオーディオデコーダ112に提供されてデコードされ、ユーザーに対して再生することができる。
【0224】
この例の次の態様に留意することができる。
【0225】
・使用事例:オーディオデータは1つまたは複数のオーディオストリーム116、316で配信される(例えば、1つのメインストリーム116と補助ストリーム316が提供されるが、単一のオーディオストリームも提供され得る)が、イアコンは1つまたは複数の追加のストリーム140(メインオーディオストリーム116に依存またはそれから独立)で配信される。
【0226】
・クライアント側204の1つの実施態様では、ROIプロセッサ120とメタデータプロセッサ132はイアコン情報を効率的に処理するために使用される。
【0227】
・ROIプロセッサ120は、コンテンツ消費のために使用されるメディア消費デバイス(例えば、HMD)から現在のビューポートに関する情報122(ユーザーの向きの情報)を受信することができる。ROIプロセッサ120はまた、イアコンメタデータ141で通知されたROIに関する情報を受信することができる(ビデオビューポートは、Omnidirectional Media Application Format、OMAFで通知することができる)。
【0228】
・この情報に基づいて、ROIプロセッサ120は、追加のオーディオストリーム140に含まれる1つ(または複数)のイアコンをアクティブ化することを決定することができる。さらに、ROIプロセッサ120は、(例えば、コンテンツが消費される現在の空間におけるイアコンのより正確な表現のために)イアコンの異なる場所および異なるゲイン値を決定することができる。
【0229】
・ROIプロセッサ120は、この情報をメタデータプロセッサ132に提供することができる。
【0230】
・メタデータプロセッサ132は、イアコンオーディオストリームに含まれるメタデータを解析し、
・イアコンを有効にし
・また、ROIプロセッサから要求された場合は、イアコンメタデータに含まれる空間位置および/またはゲイン情報および/またはテキストラベルを適宜変更することができる。
【0231】
・メタデータプロセッサ132は、すべてのオーディオストリーム116、316のオーディオメタデータ236、416も解析し、イアコンをオーディオシーンの一部として使用することができるようにオーディオ固有情報を操作することができる(例えば、オーディオシーン5.1チャネルベッドと4つのオブジェクトがあり、イアコンオーディオ要素が第5のオブジェクトとしてシーンに追加される。すべてのメタデータフィールドはそれに応じて更新される)。
【0232】
・各ストリーム116、316のオーディオデータと変更されたオーディオメタデータとイアコンメタデータは、これに基づいて、一組のメタデータ(変更されたオーディオメタデータ238および変更されたイアコンメタデータ234)を有する1つのオーディオストリーム414を生成できるストリームマクサーまたはマルチプレクサに提供される。
【0233】
・このストリーム414は、ユーザー位置情報122に基づいて単一のメディアオーディオデコーダ112によってデコードされてもよい。
【0234】
・さらに、ストリーミング環境では、ROIプロセッサ120は同じ情報に基づいて、事前にイアコンストリーム140を要求することを決定することができる(例えば、ROIが有効になる数秒前にユーザーが間違った方向を覗き込んだ場合)。
【0235】
6.6 図5の例
図5は、クライアント側204において、例えば、システム100または200を具現化することができるシステム502(クライアントシステム)を含むシステム500を示す。ここでは、イアコンを参照しているが、オーディオ情報メッセージの概念を一般化することも可能である。
【0236】
システム502は、ROIプロセッサ120、メタデータプロセッサ132、ストリームマルチプレクサまたはマクサー412を含むことができる。
【0237】
この例では、イアコンストリームはリモートエンティティによって(クライアント側で)提供されていないが、合成オーディオジェネレータ246によって生成される(これは、後で再利用するために、または保存された圧縮/非圧縮バージョンの自然音を使用する)。イアコンメタデータ141は、リモートエンティティによって、例えばオーディオストリーム116(イアコンストリームではない)で提供される。したがって、合成オーディオジェネレータ246は、イアコンメタデータ141の属性に基づいてオーディオストリーム140を作成するためにアクティブ化され得る。例えば、属性は合成音声のタイプ(自然音、合成音、音声テキストなど)および/またはテキストラベルを参照することができる(イアコンは、メタデータのテキストに基づいて合成音を作成することにより生成することができる)。例では、イアコンストリームが作成された後に、同じものが将来の再利用のために格納される。あるいは、合成音は、デバイスに永続的に保存された一般的な音であってもよい。
【0238】
ストリームマクサーまたはマルチプレクサ412を使用して、オーディオストリーム116のパケット(および、補助オーディオストリーム316などの他のストリームの場合も)を、ジェネレータ246によって生成されたイアコンストリームのパケットとマージすることができる。その後に、変更されたオーディオメタデータ238および変更されたイアコンメタデータ234に関連付けられているオーディオストリーム414を取得することができる。オーディオストリーム414は、デコーダ112によってデコードされ、メディア消費デバイス側206でユーザーに再生されてもよい。
【0239】
この例の次の態様に留意することができる。
【0240】
・使用事例:
・音声データは、1つまたは複数の音声ストリームで配信される(例えば、1つのメインストリームと補助ストリーム)。
【0241】
・リモートデバイスからイアコンは配信されないが、イアコンメタデータ141はメインオーディオストリームの一部として配信される(イアコンにオーディオデータが関連付けられていないことを示すために特定の通知が使用されてもよい)。
【0242】
・クライアント側の一実施態様では、ROIプロセッサ120およびメタデータプロセッサ132は、イアコン情報を効率的に処理するために使用される。
【0243】
・ROIプロセッサ120は、コンテンツ消費デバイス側206(例えば、HMD)で使用されるデバイスから現在のビューポートに関する情報(ユーザーの向きの情報)を受信することができる。ROIプロセッサ120は、メタデータで通知されたROIとROIを受信することもできる(ビデオビューポートはOMAFのように通知される)。
【0244】
・この情報に基づいて、ROIプロセッサ120は、ストリーム116に存在しない1つ(または複数)のイアコンをアクティブ化することを決定することができる。さらに、ROIプロセッサ120は、(例えば、コンテンツが消費される現在の空間におけるイアコンのより正確な表現のために)イアコンの異なる場所および異なるゲイン値を決定することができる。
【0245】
・ROIプロセッサ120は、この情報をメタデータプロセッサ132に提供することができる。
【0246】
・メタデータプロセッサ120は、オーディオストリーム116に含まれるメタデータを解析し、
・イアコンを有効にする
・そして、ROIプロセッサ120によって要求された場合には、それに応じてイアコンメタデータ141に含まれる空間位置をおよびゲイン情報を変更することができる。
【0247】
・メタデータプロセッサ132は、すべてのオーディオストリーム(116、316)のオーディオメタデータ(例えば236、417)も解析し、イアコンをオーディオシーンの一部として使用することができるようにオーディオ固有情報を操作することができる(例えば、オーディオシーン5.1チャネルベッドと4つのオブジェクトがあり、イアコンオーディオ要素が第5のオブジェクトとしてシーンに追加される。すべてのメタデータフィールドはそれに応じて更新される)。
【0248】
・変更されたイアコンメタデータおよびROIプロセッサ120からの情報は、合成オーディオジェネレータ246に提供される。合成オーディオジェネレータ246は、受信した情報に基づいて合成音を作成することができる(例えば、イアコンの空間的位置に基づいて、音声信号が生成されて位置を綴る)。また、イアコンメタデータ141は、生成されたオーディオデータと関連付けられて、新しいストリーム414になる。
【0249】
・同様に、以前のように、各ストリームのオーディオデータ(116、316)および変更されたオーディオメタデータとイアコンメタデータは、ストリームマクサーに提供されて、ストリームマクサーが、一組のメタデータ(オーディオとイアコン)を有するこの1つのオーディオストリームに基づいて生成することができる。
【0250】
・このストリーム414は、ユーザーの位置情報に基づいて単一のメディアオーディオデコーダ112によりデコードされる。
【0251】
・代わりにまたはさらに、イアコンのオーディオデータは(例えば、以前のイアコンの使用から)クライアントでキャッシュすることができる。
【0252】
・あるいは、合成オーディオジェネレータ246の出力は非圧縮オーディオとすることができ、最終的なレンダリングされたシーンに混合することができる。
【0253】
・さらに、ストリーミング環境では、同じ情報に基づいて、ROIプロセッサ120は、事前にイアコンストリームを要求することを決定することができる(例えば、ROIが有効になる数秒前にユーザーが間違った方向を覗き込んだ場合)。
【0254】
6.7 図6の例
図6は、クライアント側204において、例えば、システム100または200を具現化することができるシステム602(クライアントシステム)を含むシステム600を示す。ここでは、イアコンを参照しているが、オーディオ情報メッセージの概念を一般化することも可能である。
【0255】
システム602は、ROIプロセッサ120、メタデータプロセッサ132、ストリームマルチプレクサまたはマクサー412を含むことができる。
【0256】
この例では、イアコンストリームはリモートエンティティによって(クライアント側で)提供されていないが、合成オーディオジェネレータ236によって生成される(これは、後で再利用するためにストリームを格納することができる)。
【0257】
この例では、イアコンメタデータ141はリモートエンティティによって提供されない。イアコンメタデータは、メタデータプロセッサ132によって使用される(例えば、処理、操作、変更される)イアコンメタデータを生成することができるメタデータジェネレータ432によって生成される。イアコンメタデータジェネレータ432によって生成されたイアコンメタデータ141は、前の例で説明したイアコンメタデータと同じ構造および/またはフォーマットおよび/または属性を有してもよい。
【0258】
メタデータプロセッサ132は、図5の例のように動作することができる。イアコンメタデータ141の属性に基づいて、オーディオストリーム140を作成するために、合成オーディオジェネレータ246をアクティブ化することができる。例えば、属性は、合成音声のタイプ(自然音、合成音、音声テキストなど)、および/またはゲイン、および/またはアクティブ化/非アクティブ化状態などを参照することができる。例では、イアコンストリーム140が作成された後に、同じものが将来再利用されるために格納(例えば、キャッシュ)されてもよい。イアコンメタデータジェネレータ432によって生成されたイアコンメタデータを格納(例えばキャッシュ)することもできる。
【0259】
ストリームマクサーまたはマルチプレクサ412を使用して、オーディオストリーム116のパケット(および、補助オーディオストリーム316などの他のストリームの場合も)を、ジェネレータ246によって生成されたイアコンストリームのパケットとマージすることができる。その後に、変更されたオーディオメタデータ238および変更されたイアコンメタデータ234に関連付けられているオーディオストリーム414を取得することができる。オーディオストリーム414は、デコーダ112によってデコードされ、メディア消費デバイス側206でユーザーに再生されてもよい。
【0260】
この例の次の態様に留意することができる。
【0261】
・使用事例:
・オーディオデータは、1つまたは複数のオーディオストリームで配信される(例えば、1つのメインストリーム116と補助ストリーム316)。
【0262】
・クライアント側202からイアコンは配信されない、
・クライアント側202からイアコンメタデータは配信されない。
【0263】
・この使用事例は、イアコンなしで作成されたレガシーコンテンツに対してイアコンを有効にするための解決策を表すことができる。
【0264】
・クライアント側の一実施態様では、ROIプロセッサ120およびメタデータプロセッサ232は、イアコン情報を効率的に処理するために使用される。
【0265】
・ROIプロセッサ120は、コンテンツ消費デバイス側206(例えば、HMD)で使用されるデバイスから現在のビューポートに関する情報122(ユーザーの向きの情報)を受信することができる。ROIプロセッサ210は、メタデータで通知されたROIとROIを受信することもできる(ビデオビューポートはOMAFのように通知される)。
【0266】
・この情報に基づいて、ROIプロセッサ120は、ストリーム(116、316)に存在しない1つ(または複数)のイアコンをアクティブ化することを決定することができる。
【0267】
・さらに、ROIプロセッサ120は、イアコンの位置およびゲイン値に関する情報をイアコンメタデータジェネレータ432に提供することができる。
【0268】
・ROIプロセッサ120は、この情報をメタデータプロセッサ232に提供することができる。
【0269】
・メタデータプロセッサ232は、イアコンオーディオストリーム(存在する場合)に含まれるメタデータを解析し、
・イアコンを有効にし
・ROIプロセッサ120により要求された場合には、それに応じてイアコンメタデータに含まれる空間位置およびゲイン情報を変更することができる。
【0270】
・メタデータプロセッサはまた、すべてのオーディオストリーム116、316のオーディオメタデータ236、417も解析し、イアコンをオーディオシーンの一部として使用することができるようにオーディオ固有情報を操作することができる(例えば、オーディオシーン5.1チャネルベッドと4つのオブジェクトがあり、イアコンオーディオ要素が第5のオブジェクトとしてシーンに追加される。すべてのメタデータフィールドはそれに応じて更新される)。
【0271】
・変更されたイアコンメタデータ234およびROIプロセッサ120からの情報は、合成オーディオジェネレータ246に提供される。合成オーディオジェネレータ246は、受信した情報に基づいて合成音を作成することができる(例えば、イアコンの空間的位置に基づいて、音声信号が生成されて位置を綴る)。また、イアコンメタデータは、生成されたオーディオデータと関連付けられて、新しいストリームになる。
【0272】
・同様に、以前のように、各ストリームのオーディオデータおよび変更されたオーディオメタデータとイアコンメタデータは、この1つのオーディオストリーム414に基づいて一組のメタデータ(オーディオとイアコン)に基づいて生成することができるストリームマクサーまたはマルチプレクサ412に提供される。
【0273】
・このストリーム414は、ユーザー位置情報に基づいて単一のメディアオーディオデコーダによってデコードされる。
【0274】
・あるいは、イアコンのオーディオデータをクライアントで現金化することができる(例えば、以前のイアコンの使用から)。
【0275】
・あるいは、合成オーディオジェネレータの出力は非圧縮オーディオで、最終的なレンダリングされたシーンに混合することができる
・さらに、ストリーミング環境では、ROIプロセッサ120は同じ情報に基づいて、事前にイアコンストリームを要求することを決定することができる(例えば、ROIが有効になる数秒前にユーザーが間違った方向を覗き込んだ場合)。
【0276】
6.8 ユーザーの位置に基づく例
ユーザーがROIを表示しない場合にのみイアコンを再生することができる機能を実施することができる。
【0277】
ROIプロセッサ120は、例えば、ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ122を定期的にチェックすることができる。ROIがユーザーに表示される場合には、イアコンの再生は行われない。
【0278】
ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータから、ROIがユーザーには見えないとROIプロセッサが判断した場合には、ROIプロセッサ120はイアコンの再生を要求することができる。この場合、ROIプロセッサ120は、メタデータプロセッサ132にイアコンの再生を準備させることができる。メタデータプロセッサ132は、上記の例について説明された技法のうちの1つを使用することができる。例えば、メタデータは、サーバー側202によって配信されるストリームで取得でき、イアコンメタデータジェネレータ432によって生成することができる。イアコンメタデータの属性は、ROIプロセッサの要求および/または様々な条件に基づいて容易に変更することができる。例えば、ユーザーの選択によって以前にイアコンが無効にされていた場合には、ユーザーがROIを見ていなくても、イアコンは再生されない。例えば、(以前に設定された)タイマーがまだ期限切れになっていない場合には、ユーザーがROIを見ていなくても、イアコンは再生されない。
【0279】
さらに、ROIプロセッサが、ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータから、ROIがユーザーから見えると判断した場合には、ROIプロセッサ120は、イアコンの再生が行われないことを要求することができ、特にイアコンメタデータに既にアクティブなイアコンの通知が含まれている場合には、そのようにすることができる。
【0280】
この場合、ROIプロセッサ120は、メタデータプロセッサ132にイアコンの再生を無効にさせることができる。メタデータプロセッサ132は、上記の例について説明された技法のうちの1つを使用することができる。例えば、メタデータは、サーバー側202によって配信されるストリームで取得でき、イアコンメタデータジェネレータ432によって生成することができる。イアコンメタデータの属性は、ROIプロセッサの要求および/または様々な条件に基づいて容易に変更することができる。メタデータにイアコンを再生する必要があるという指示が既に含まれている場合、この場合には、メタデータはイアコンが非アクティブであり、再生することができないことを示すように変更される。
【0281】
この例の次の態様に留意することができる。
【0282】
・使用事例:
・オーディオデータは1つまたは複数のオーディオストリーム116、316(例えば、1つのメインストリームと補助ストリーム)で配信されるが、イアコンは、同じ1つまたは複数のオーディオストリーム116、316、あるいは1つまたは複数の追加のストリーム140(メインオーディオストリームに依存またはそれから独立)のいずれかで配信される。
【0283】
・イアコンメタデータは、イアコンが常に特定の瞬間にアクティブになることを示すように設定されている。
【0284】
・ROIプロセッサを含まない第1世代のデバイスは、イアコンメタデータを読み取り、ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータは、ROIがユーザーに可視であることを示すという事実とは無関係に、イアコンを再生させる。
【0285】
・いずれかのシステムで説明されているROIプロセッサを含む新世代のデバイスは、ROIプロセッサの決定を利用する。ROIプロセッサが、ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータから、ROIがユーザーから見えると判断した場合には、ROIプロセッサ120は、イアコンの再生が行われないことを要求することができ、特にイアコンメタデータに既にアクティブなイアコンの通知が含まれている場合には、そのようにすることができる。この場合、ROIプロセッサ120は、メタデータプロセッサ132にイアコンの再生を無効にさせることができる。メタデータプロセッサ132は、上記の例について説明された技法のうちの1つを使用することができる。例えば、メタデータは、サーバー側202によって配信されるストリームで取得でき、イアコンメタデータジェネレータ432によって生成することができる。イアコンメタデータの属性は、ROIプロセッサの要求および/または様々な条件に基づいて容易に変更することができる。メタデータにイアコンを再生する必要があるという指示が既に含まれている場合、この場合には、メタデータはイアコンが非アクティブであり、再生することができないことを示すように変更される。
【0286】
・さらに、再生デバイスによっては、ROIプロセッサがイアコンメタデータの変更を要求する場合がある。例えば、イアコンの空間情報は、サウンドがヘッドフォンまたはスピーカーを介して再生される場合、異なる方法で変更することができる。
【0287】
したがって、ユーザーが体験する最終的なオーディオシーンは、メタデータプロセッサによって実行されるメタデータの変更に基づいて取得される。
【0288】
6.9 サーバークライアント通信に基づく例(図5a)
図5aは、クライアント側204において、例えば、システム100または200または300または400または500を具現化することができるシステム552(クライアントシステム)を含むシステム550を示す。ここでは、イアコンを参照しているが、オーディオ情報メッセージの概念を一般化することも可能である。
【0289】
システム552は、ROIプロセッサ120、メタデータプロセッサ132、ストリームマルチプレクサまたはマクサー412を含むことができる。(例では、異なるオーディオストリームがデコードされ(それぞれメディアオーディオデコーダ112によって)、続いて一緒に混合および/またはレンダリングされて、最終的なオーディオシーンが提供される)。
【0290】
ここで、少なくとも1つのオーディオストリームは、2つのストリーム116、316を含むものとして表されている(他の例は、図2のように1つの単一のストリーム、または3つ以上のストリームを提供することができる)。これらは、ユーザーが体験することが期待されているオーディオシーンを再生するためのオーディオストリームである。
【0291】
さらに、イアコンストリーム140は、メディアエンコーダ240によって提供されてもよい。
【0292】
オーディオストリームは、ネットワーク接続に応じて効率的なビットレート適応を可能にする様々なビットレートでエンコードすることができる(つまり、高速接続を使用しているユーザーには高いビットレートコード化バージョンが配信され、低速ネットワーク接続を使用しているユーザーには低いビットレートバージョンが配信される)。
【0293】
オーディオストリームは、メディアサーバー554に格納されてもよく、各オーディオストリームについて、異なるビットレートでの異なるエンコーディングが、作成されたすべてのアダプテーションセットの利用可能性を通知する適切なデータと共に1つのアダプテーションセット556にグループ化される。オーディオアダプテーションセット556およびビデオアダプテーションセット557が提供され得る。
【0294】
ユーザーの動きと、ビューポートメタデータ131および/またはその他の基準に示されているROIに基づいて、ROIプロセッサ120は、イアコンストリーム140からイアコンを再生する(オーディオストリーム116、316に追加されているため、追加のオーディオストリームとしても示されている)。
【0295】
この例では:
・クライアント552は、サーバーから、すべてのアダプテーションセットの利用可能性に関するデータを受信するように構成されている。
【0296】
・少なくとも1つのオーディオストリーム用の少なくとも1つのオーディオシーンアダプテーションセット。そして
・少なくとも1つのオーディオ情報メッセージを含む少なくとも1つの追加のオーディオストリーム用の少なくとも1つのオーディオメッセージアダプテーションセット
・他の例示的な実施態様と同様に、ROIプロセッサ120は、(例えば、HMDに基づいて)コンテンツ消費に使用されるメディア消費デバイス側206から現在のビューポートに関する情報122(ユーザーの向きの情報)を受信することができる。ROIプロセッサ120は、メタデータで通知されたROIとROIを受信することもできる(ビデオビューポートはOMAFのように通知される)。
【0297】
・この情報に基づいて、ROIプロセッサ120は、イアコンオーディオストリーム140に含まれる1つ(または複数)のイアコンをアクティブ化することを決定することができる。
【0298】
・さらに、ROIプロセッサ120は、(例えば、コンテンツが消費される現在の空間におけるイアコンのより正確な表現のために)イアコンの異なる場所および異なるゲイン値を決定することができる。
【0299】
・ROIプロセッサ120は、この情報を選択データジェネレータ558に提供することができる。
【0300】
・選択データジェネレータ558は、ROIプロセッサの決定に基づいて、どのアダプテーションセットを受信するかを特定する選択データ559を作成するように構成されてもよい。アダプテーションセットは、オーディオシーンアダプテーションセットとオーディオメッセージアダプテーションセットを含む。
【0301】
・メディアサーバー554は、クライアント552に命令データを提供して、ストリーミングクライアントに、どのアダプテーションセットを受信するかを特定する選択データによって識別されるアダプテーションセット556、557のデータを検索させるように構成されてもよい。アダプテーションセットは、オーディオシーンアダプテーションセットとオーディオメッセージアダプテーションセットを含む。
【0302】
・ダウンロードおよびスイッチングモジュール560は、どのアダプテーションセットを受信するかを特定する選択データに基づいて、メディアサーバー554から要求されたオーディオストリームを受信するように構成される。アダプテーションセットは、オーディオシーンアダプテーションセットとオーディオメッセージアダプテーションセットを含む。ダウンロードおよびスイッチングモジュール560は、オーディオメタデータおよびイアコンメタデータ141をメタデータプロセッサ132に提供するようにさらに構成されてもよい。
【0303】
・ROIプロセッサ120は、この情報をメタデータプロセッサ132に提供することができる。
【0304】
・メタデータプロセッサ132は、イアコンオーディオストリーム140に含まれるメタデータを解析し、
・イアコンを有効にし(その再生を許可するため)
・そして、ROIプロセッサ120によって要求された場合には、それに応じて、イアコンメタデータ141に含まれる空間位置およびゲイン情報を変更することができる。
【0305】
・メタデータプロセッサ132は、すべてのオーディオストリーム116、316のオーディオメタデータも解析し、イアコンをオーディオシーンの一部として使用することができるようにオーディオ固有情報を操作することができる(例えば、オーディオシーン5.1チャネルベッドと4つのオブジェクトがあり、イアコンオーディオ要素が第5のオブジェクトとしてシーンに追加される。すべてのメタデータフィールドはそれに応じて更新されてもよい)。
【0306】
・各ストリーム116、316のオーディオデータと変更されたオーディオメタデータとイアコンメタデータは、これに基づいて、一組のメタデータ(変更されたオーディオメタデータ238および変更されたイアコンメタデータ234)を有する1つのオーディオストリーム414を生成できるストリームマクサーまたはマルチプレクサに提供されてもよい。
【0307】
・このストリームは、ユーザー位置情報122に基づいて単一のメディアオーディオデコーダ112によってデコードされてもよい。
【0308】
アダプテーションセットは、それぞれのコンテンツの交換可能なバージョン、例えば、異なるオーディオビットレート(例えば、異なるビットレートの異なるストリーム)を含む一組の表現によって形成されてもよい。理論的には1つの表現で再生可能なストリームを提供するには十分であるが、複数の表現を使用すると、クライアントがメディアストリームを現在のネットワーク条件と帯域幅の要件に適合させ、スムーズな再生を保証することができる。
【0309】
6.10 方法
上記のすべての例は、方法ステップによって実施することができる。ここで、方法700(上記の例のいずれかによって実行され得る)は、完全に説明される。本方法は以下を含む。
【0310】
ステップ702で、少なくとも1つのビデオストリーム(106)および少なくとも1つの第1のオーディオストリーム(116、316)を受信する。
【0311】
ステップ704で、VR、AR、MR、または360度ビデオ環境シーン(118a)をユーザーに表現するために、少なくとも1つのビデオストリーム(106)からの少なくとも1つのビデオ信号をデコードする。
【0312】
ステップ706で、ユーザーへのオーディオシーン(118b)の表現のために、少なくとも1つの第1のオーディオストリーム(116、316)からの少なくとも1つのオーディオ信号をデコードし、
ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ(122)を受信する。
【0313】
ステップ708で、少なくとも1つのビデオストリーム(106)から少なくとも1つのビデオ信号に関連付けられたビューポートメタデータ(131)を受信し、ビューポートメタデータは少なくとも1つのROIを定義する。
【0314】
ステップ710で、ユーザーの現在のビューポートおよび/または位置および/または頭の向きおよび/または動きのデータ(122)およびビューポートメタデータおよび/または他の基準に基づいて、少なくとも1つのROIに関連付けられたオーディオ情報メッセージを再生するかどうかを決定する。
【0315】
ステップ712で、オーディオ情報メッセージがオーディオシーンの一部であるような方法で、オーディオ情報メッセージ属性に従ってオーディオ情報メッセージを再生するために、オーディオ情報メッセージを記述するオーディオ情報メッセージメタデータ(141)を受信、処理、および/または操作する。
【0316】
特に、シーケンスも異なってもよい。例えば、受信ステップ702、706、708は、情報が配信される実際の順序に従って、異なる順序を有してもよい。
【0317】
行714は、方法が繰り返されてもよいという事実に言及している。オーディオ情報メッセージを再生しないというROIプロセッサの決定の場合には、ステップ712はスキップされる。
【0318】
6.11 その他の実施態様
図8は、システム(またはその構成要素)のうちの1つを実装するか、または方法700を実行することができるシステム800を示す。システム800は、プロセッサ802と、プロセッサ802によって実行されたときに、プロセッサに少なくとも上記のストリーム処理操作および/または上記のメタデータ処理操作を実行させ得る命令を格納する非一時的メモリユニット806と、を含むことができる。システム800は、外部デバイスとの接続のための入力/出力ユニット804を含むことができる。
【0319】
システム800は、ROIプロセッサ120、メタデータプロセッサ232、ジェネレータ246、マクサーまたはマルチプレクサ412、デコーダ112m、イアコンメタデータジェネレータ432などの機能の少なくとも一部(またはすべて)を実装することができる。
【0320】
特定の実施態様に応じて、実施例はハードウェアで実施することができる。実施態様は、例えば、フロッピーディスク、デジタル多用途ディスク(DVD)、ブルーレイディスク、コンパクトディスク(CD)、読み取り専用メモリ(ROM)、プログラム可能な読み取り専用メモリ(PROM)、消去およびプログラム可能な読み取り専用メモリ(EPROM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)またはフラッシュメモリなど、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)電子的に読み取り可能な制御信号が格納されているデジタル記憶媒体を使用して実行することができる。したがって、デジタル記憶媒体はコンピュータで読み取り可能であってもよい。
【0321】
一般に、実施例は、プログラム命令を含むコンピュータプログラム製品として実施されてもよく、プログラム命令は、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の1つを実行するように動作する。プログラム命令は、例えば、機械可読媒体に格納されてもよい。
【0322】
他の実施例は、機械可読なキャリアに格納された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。言い換えれば、したがって、方法の一例は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の1つを実行するためのプログラム命令を有するコンピュータプログラムである。
【0323】
したがって、本方法のさらなる例は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含み、それが記録されたデータキャリア媒体(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア媒体、デジタルストレージ媒体、または記録された媒体は、無形で一時的な信号ではなく、有形および/または非一時的なものである。
【0324】
さらなる例は、本明細書に記載されている方法の1つを実行する処理ユニット、例えばコンピュータ、またはプログラム可能な論理デバイスを含む。
【0325】
さらなる例は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0326】
さらなる例は、本明細書で説明される方法の1つを実行するためのコンピュータプログラムを受信機に(例えば、電子的または光学的に)転送する装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバーを含んでもよい。
【0327】
いくつかの例では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部またはすべてを実行してもよい。いくつかの例では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の1つを実行するためにマイクロプロセッサと協働してもよい。一般に、本方法は、任意の適切なハードウェア装置によって実行されてもよい。
【0328】
上記の例は、上で説明した原理を例示するものである。本明細書に記載の配置および詳細の修正および変更は明らかであることを理解されたい。したがって、本明細書の実施例の記述および説明として提示される特定の詳細によってではなく、差し迫った特許請求の範囲によって限定されることが意図されている。
図1
図2-1】
図2-2】
図3-1】
図3-2】
図4-1】
図4-2】
図5-1】
図5-2】
図5a-1】
図5a-2】
図6-1】
図6-2】
図7
図8