特許7595765 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・アメリカ・エルエルシーの特許一覧

特許7595765音響シーンと視覚シーンの整合性

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-28

(45)【発行日】2024-12-06

(54)【発明の名称】音響シーンと視覚シーンの整合性

(51)【国際特許分類】

G06T 19/20 20110101AFI20241129BHJP

H04N 21/435 20110101ALI20241129BHJP

【ＦＩ】

G06T19/20

H04N21/435

【請求項の数】 11

(21)【出願番号】P 2023527786

(86)(22)【出願日】2022-09-16

(65)【公表番号】

(43)【公表日】2023-11-29

(86)【国際出願番号】 US2022076555

(87)【国際公開番号】W WO2023049666

(87)【国際公開日】2023-03-30

【審査請求日】2023-05-09

(31)【優先権主張番号】63/248,942

(32)【優先日】2021-09-27

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/945,024

(32)【優先日】2022-09-14

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】520353802

【氏名又は名称】テンセント・アメリカ・エルエルシー

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100150197

【弁理士】

【氏名又は名称】松尾直樹

(72)【発明者】

【氏名】ジュン・ティアン

(72)【発明者】

【氏名】シャオジョン・シュ

(72)【発明者】

【氏名】シャン・リュウ

【審査官】益戸宏

(56)【参考文献】

【文献】米国特許出願公開第２０１７／０３２４９３１（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ１９／２０

Ｈ０４Ｎ２１／００

Ｈ０４Ｎ７／１４－７／１７３

(57)【特許請求の範囲】

【請求項1】

メディア処理デバイスが実行するメディア処理の方法であって、
オブジェクトのメディアコンテンツデータを受信するステップであって、前記メディアコンテンツデータが、音声エンジンによって生成された音響シーン内の前記オブジェクトの第1の記述と、視覚エンジンによって生成された視覚シーン内の前記オブジェクトの第2の記述とを含む、ステップと、
前記音響シーン内の前記オブジェクトの前記第1の記述によって示される第1のパラメータと、前記視覚シーン内の前記オブジェクトの前記第2の記述によって示される第2のパラメータとが不整合であるかどうかを決定するステップと、
前記音響シーン内の前記オブジェクトの前記第1の記述によって示される前記第1のパラメータと、前記視覚シーン内の前記オブジェクトの前記第2の記述によって示される前記第2のパラメータとが不整合であることに応じて、前記音響シーン内の前記オブジェクトの前記第1の記述および前記視覚シーン内の前記オブジェクトの前記第2の記述のうちの一方を、前記第1の記述および前記第2の記述のうちの修正されていない他方に基づいて修正するステップであって、前記第1の記述および前記第2の記述のうちの修正された前記一方が、修正されていない前記第1の記述および前記第2の記述のうちの前記他方と整合性を取り、前記第1のパラメータおよび前記第2のパラメータのいずれも、前記オブジェクトのオブジェクトサイズ、オブジェクト形状、オブジェクト位置、オブジェクト方向およびオブジェクトテクスチャのうちの1つに関連付けられる、ステップと、
メディアアプリケーションのために、前記オブジェクトの前記メディアコンテンツデータを、前記オブジェクトの前記メディアコンテンツデータをレンダリングする受信機に提供するステップと、
統合シーン内の前記オブジェクトの第3の記述を、前記音響シーン内の前記オブジェクトの前記第1の記述または前記視覚シーン内の前記オブジェクトの前記第2の記述のうちの少なくとも1つに基づいて決定するステップと、
前記音響シーン内の前記オブジェクトの前記第1の記述によって示される前記第1のパラメータが、前記統合シーン内の前記オブジェクトの前記第3の記述によって示される第3のパラメータとは異なることに応じて、前記音響シーン内の前記オブジェクトの前記第1の記述によって示される前記第1のパラメータを、前記統合シーン内の前記オブジェクトの前記第3の記述によって示される前記第3のパラメータに基づいて修正するステップと、
前記視覚シーン内の前記オブジェクトの前記第2の記述によって示される前記第2のパラメータが、前記統合シーン内の前記オブジェクトの前記第3の記述によって示される前記第3のパラメータとは異なることに応じて、前記視覚シーン内の前記オブジェクトの前記第2の記述によって示される前記第2のパラメータを、前記統合シーン内の前記オブジェクトの前記第3の記述によって示される前記第3のパラメータに基づいて修正するステップとを含む、方法。

【請求項2】

修正する前記ステップが、
前記音響シーン内の前記オブジェクトの前記第1の記述によって示される前記第1のパラメータが前記視覚シーン内の前記オブジェクトの前記第2の記述によって示される前記第2のパラメータと整合性を取るように、前記音響シーン内の前記オブジェクトの前記第1の記述および前記視覚シーン内の前記オブジェクトの前記第2の記述のうちの前記一方を、前記音響シーン内の前記オブジェクトの前記第1の記述および前記視覚シーン内の前記オブジェクトの前記第2の記述のうちの前記他方に基づいて修正するステップを含む、請求項1に記載の方法。

【請求項3】

決定する前記ステップが、
前記統合シーン内の前記オブジェクトの前記第3の記述内のオブジェクトサイズを、前記音響シーン内の前記オブジェクトの前記第1の記述内のオブジェクトサイズに基づいて決定するステップ、
前記統合シーン内の前記オブジェクトの前記第3の記述内の前記オブジェクトサイズを、前記視覚シーン内の前記オブジェクトの前記第2の記述内のオブジェクトサイズに基づいて決定するステップ、
前記統合シーン内の前記オブジェクトの前記第3の記述内の前記オブジェクトサイズを、前記音響シーン内の前記オブジェクトの前記第1の記述内の前記オブジェクトと前記視覚シーン内の前記オブジェクトの前記第2の記述内の前記オブジェクトとの交差の交差サイズに基づいて決定するステップ、および
前記統合シーン内の前記オブジェクトの前記第3の記述内の前記オブジェクトサイズを、前記音響シーン内の前記オブジェクトの前記第1の記述内の前記オブジェクトサイズと前記視覚シーン内の前記オブジェクトの前記第2の記述内の前記オブジェクトサイズとのサイズ差に基づいて決定するステップのうちの1つをさらに含む、請求項1に記載の方法。

【請求項4】

決定する前記ステップが、
前記統合シーン内の前記オブジェクトの前記第3の記述内のオブジェクト形状を、前記音響シーン内の前記オブジェクトの前記第1の記述内のオブジェクト形状に基づいて決定するステップ、
前記統合シーン内の前記オブジェクトの前記第3の記述内の前記オブジェクト形状を、前記視覚シーン内の前記オブジェクトの前記第2の記述内のオブジェクト形状に基づいて決定するステップ、
前記統合シーン内の前記オブジェクトの前記第3の記述内の前記オブジェクト形状を、前記音響シーン内の前記オブジェクトの前記第1の記述内の前記オブジェクトと前記視覚シーン内の前記オブジェクトの前記第2の記述内の前記オブジェクトとの交差の交差形状に基づいて決定するステップ、および
前記統合シーン内の前記オブジェクトの前記第3の記述内の前記オブジェクト形状を、前記音響シーン内の前記オブジェクトの前記第1の記述内の前記オブジェクト形状と前記視覚シーン内の前記オブジェクトの前記第2の記述内の前記オブジェクト形状との形状差に基づいて決定するステップのうちの1つをさらに含む、請求項1に記載の方法。

【請求項5】

決定する前記ステップが、
前記統合シーン内の前記オブジェクトの前記第3の記述内のオブジェクト位置を、前記音響シーン内の前記オブジェクトの前記第1の記述内のオブジェクト位置に基づいて決定するステップ、
前記統合シーン内の前記オブジェクトの前記第3の記述内の前記オブジェクト位置を、前記視覚シーン内の前記オブジェクトの前記第2の記述内のオブジェクト位置に基づいて決定するステップ、および
前記統合シーン内の前記オブジェクトの前記第3の記述内の前記オブジェクト位置を、前記音響シーン内の前記オブジェクトの前記第1の記述内の前記オブジェクト位置と、前記視覚シーン内の前記オブジェクトの前記第2の記述内の前記オブジェクト位置との位置差に基づいて決定するステップのうちの1つをさらに含む、請求項1に記載の方法。

【請求項6】

決定する前記ステップが、
前記統合シーン内の前記オブジェクトの前記第3の記述内のオブジェクト方向を、前記音響シーン内の前記オブジェクトの前記第1の記述内のオブジェクト方向に基づいて決定するステップ、
前記統合シーン内の前記オブジェクトの前記第3の記述内の前記オブジェクト方向を、前記視覚シーン内の前記オブジェクトの前記第2の記述内のオブジェクト方向に基づいて決定するステップ、
前記統合シーン内の前記オブジェクトの前記第3の記述内の前記オブジェクト方向を、前記音響シーン内の前記オブジェクトの前記第1の記述内の前記オブジェクト方向と、前記視覚シーン内の前記オブジェクトの前記第2の記述内の前記オブジェクト方向との方向差に基づいて決定するステップのうちの1つをさらに含む、請求項1に記載の方法。

【請求項7】

決定する前記ステップが、
前記統合シーン内の前記オブジェクトの前記第3の記述内のオブジェクトテクスチャを、前記音響シーン内の前記オブジェクトの前記第1の記述内のオブジェクトテクスチャに基づいて決定するステップ、
前記統合シーン内の前記オブジェクトの前記第3の記述内の前記オブジェクトテクスチャを、前記視覚シーン内の前記オブジェクトの前記第2の記述内のオブジェクトテクスチャに基づいて決定するステップ、および
前記統合シーン内の前記オブジェクトの前記第3の記述内の前記オブジェクトテクスチャを、前記音響シーン内の前記オブジェクトの前記第1の記述内の前記オブジェクトテクスチャと、前記視覚シーン内の前記オブジェクトの前記第2の記述内の前記オブジェクトテクスチャとのテクスチャ差に基づいて決定するステップのうちの1つをさらに含む、請求項1に記載の方法。

【請求項8】

メディア処理デバイスが実行するメディア処理の方法であって、
オブジェクトのメディアコンテンツデータを受信するステップであって、前記メディアコンテンツデータが、音声エンジンによって生成された音響シーン内の前記オブジェクトの第1の記述と、視覚エンジンによって生成された視覚シーン内の前記オブジェクトの第2の記述とを含む、ステップと、
前記音響シーン内の前記オブジェクトの前記第1の記述によって示される第1のパラメータと、前記視覚シーン内の前記オブジェクトの前記第2の記述によって示される第2のパラメータとが不整合であるかどうかを決定するステップと、
前記音響シーン内の前記オブジェクトの前記第1の記述によって示される前記第1のパラメータと、前記視覚シーン内の前記オブジェクトの前記第2の記述によって示される前記第2のパラメータとが不整合であることに応じて、前記音響シーン内の前記オブジェクトの前記第1の記述および前記視覚シーン内の前記オブジェクトの前記第2の記述のうちの一方を、前記第1の記述および前記第2の記述のうちの修正されていない他方に基づいて修正するステップであって、前記第1の記述および前記第2の記述のうちの修正された前記一方が、修正されていない前記第1の記述および前記第2の記述のうちの前記他方と整合性を取る、ステップと、
メディアアプリケーションのために、前記オブジェクトの前記メディアコンテンツデータを、前記オブジェクトの前記メディアコンテンツデータをレンダリングする受信機に提供するステップと、
前記メディアコンテンツデータのアンカーシーン内のオブジェクトの記述を、前記音響シーン内の前記オブジェクトの前記第1の記述および前記視覚シーン内の前記オブジェクトの前記第2の記述のうちの1つに基づいて決定するステップと、
前記アンカーシーン内の前記オブジェクトの前記記述が前記音響シーン内の前記オブジェクトの前記第1の記述に基づいて決定されるのに応じて、前記視覚シーン内の前記オブジェクトの前記第2の記述を前記音響シーン内の前記オブジェクトの前記第1の記述に基づいて修正するステップと、
前記アンカーシーン内の前記オブジェクトの前記記述が前記視覚シーン内の前記オブジェクトの前記第2の記述に基づいて決定されるのに応じて、前記音響シーン内の前記オブジェクトの前記第1の記述を前記視覚シーン内の前記オブジェクトの前記第2の記述に基づいて修正するステップと、
前記音響シーン内の前記オブジェクトの前記第1の記述および前記視覚シーン内の前記オブジェクトの前記第2の記述のうちのいずれが、前記アンカーシーンの前記記述を決定するために選択されるかを示すシグナリング情報を生成するステップと
を含む、方法。

【請求項9】

前記音響シーン内の前記オブジェクトの前記第1の記述内の前記第1のパラメータ、および前記視覚シーン内の前記オブジェクトの前記第2の記述内の前記第2のパラメータのいずれが、前記統合シーン内の前記オブジェクトの前記第3の記述内の前記第3のパラメータを決定するために選択されるかを示すシグナリング情報を生成するステップ
をさらに含む、請求項1に記載の方法。

【請求項10】

請求項1～9のいずれか一項に記載の方法を行うように構成された装置。

【請求項11】

少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに、請求項1～9のいずれか一項に記載の方法を行わせるためのコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

オフライン符号化／処理コンポーネント（204）では、MPEG－I没入型音声ストリームを処理することができる。MPEG－H3D音声（206）は、全ての音声信号（例えば、（208））のためのコーデックとすることができる。したがって、音声信号は、全ての提案されたレンダラ（例えば、レンダラA、B、およびC）に共通とすることができる。AEP（200）では、音声信号を「プリコーディング」することができ、これは、元の音声信号を符号化し、次いでMEPG－H3D音声（206）を使用して復号することができることを意味することができ、これらの信号は、評価コンポーネント（202）内のMax／MSP（210）および個々のmax外部（またはレンダラ）に供給される。さらに図2を参照して、オフライン符号化／処理コンポーネント（204）では、シーンファイル（220）内のデータおよび指向性ファイル（222）内のデータを、MPEG－Iプロセッサ（またはコンプレッサ）（228）によって処理することができる。処理されたデータを、Max／Msp（210）にさらに送信することができる。さらに、HRTFファイル（224）内のデータをMax／Msp（210）のレンダラに送信し、モデルファイル／映像ファイル（226）内のデータを処理のためにUnity（212）に送信することができる。

【0002】

視覚シーン記述内のオブジェクトのオブジェクトサイズが音響シーン記述内のオブジェクトのオブジェクトサイズと異なる場合、視覚シーン記述内のオブジェクトのオブジェクトサイズを、音響シーン記述内のオブジェクトのオブジェクトサイズに基づいて変更することができる。例えば、視覚シーン記述内のオブジェクトのオブジェクトサイズを、音響シーン記述内のオブジェクトのオブジェクトサイズと同一となるように変更することができる。

【背景技術】

【0003】

視覚シーン記述内のオブジェクトのオブジェクト形状が音響シーン記述内のオブジェクトのオブジェクト形状と異なる場合、視覚シーン記述内のオブジェクトのオブジェクト形状を、音響シーン記述内のオブジェクトのオブジェクト形状に基づいて変更することができる。例えば、視覚シーン記述内のオブジェクトのオブジェクト形状を、音響シーン記述内のオブジェクトのオブジェクト形状と同一となるように変更することができる。

【0004】

視覚シーン記述内のオブジェクトのオブジェクト位置が音響シーン記述内のオブジェクトのオブジェクト位置と異なる場合、視覚シーン記述内のオブジェクトのオブジェクト位置を、音響シーン記述内のオブジェクトのオブジェクト位置に基づいて変更することができる。例えば、視覚シーン記述内のオブジェクトのオブジェクト位置を、音響シーン記述内のオブジェクトのオブジェクト位置と同一となるように変更することができる。

【発明の概要】

【課題を解決するための手段】

【0005】

視覚シーン記述内のオブジェクトのオブジェクト方向が音響シーン記述内のオブジェクトのオブジェクト方向と異なる場合、視覚シーン記述内のオブジェクトのオブジェクト方向を、音響シーン記述内のオブジェクトのオブジェクト方向に基づいて変更することができる。例えば、視覚シーン記述内のオブジェクトのオブジェクト方向を、音響シーン記述内のオブジェクトのオブジェクト方向と同一となるように変更することができる。

【0006】

視覚シーン記述内のオブジェクトのオブジェクト素材が音響シーン記述内のオブジェクトのオブジェクト素材と異なる場合、視覚シーン記述内のオブジェクトのオブジェクト素材を、音響シーン記述内のオブジェクトのオブジェクト素材に基づいて変更することができる。例えば、視覚シーン記述内のオブジェクトのオブジェクト素材を、音響シーン記述内のオブジェクトのオブジェクト素材と同一となるように変更することができる。

【0007】

いくつかの実施形態では、第1のパラメータおよび第2のパラメータのいずれも、オブジェクトのオブジェクトサイズ、オブジェクト形状、オブジェクト位置、オブジェクト方向およびオブジェクトテクスチャのうちの1つに関連付けることができる。

【0008】

音響シーン内のオブジェクトの第1の記述および視覚シーン内のオブジェクトの第2の記述のうちの一方を、音響シーン内のオブジェクトの第1の記述および視覚シーン内のオブジェクトの第2の記述のうちの他方に基づいて修正することができる。したがって、音響シーン内のオブジェクトの第1の記述によって示される第1のパラメータは、視覚シーン内のオブジェクトの第2の記述によって示される第2のパラメータと整合性を取ることができる。

【0009】

本方法では、統合シーン内のオブジェクトの第3の記述を、音響シーン内のオブジェクトの第1の記述または視覚シーン内のオブジェクトの第2の記述のうちの少なくとも1つに基づいて決定することができる。音響シーン内のオブジェクトの第1の記述によって示される第1のパラメータが、統合シーン内のオブジェクトの第3の記述によって示される第3のパラメータとは異なることに応じて、音響シーン内のオブジェクトの第1の記述によって示される第1のパラメータを、統合シーン内のオブジェクトの第3の記述によって示される第3のパラメータに基づいて修正することができる。視覚シーン内のオブジェクトの第2の記述によって示される第2のパラメータが、統合シーン内のオブジェクトの第3の記述によって示される第3のパラメータとは異なることに応じて、視覚シーン内のオブジェクトの第2の記述によって示される第2のパラメータを、統合シーン内のオブジェクトの第3の記述によって示される第3のパラメータに基づいて修正することができる。

【0010】

一例では、統合シーン内のオブジェクトの第3の記述内のオブジェクトサイズを、音響シーン内のオブジェクトの第1の記述内のオブジェクトサイズに基づいて決定することができる。統合シーン内のオブジェクトの第3の記述内のオブジェクトサイズを、視覚シーン内のオブジェクトの第2の記述内のオブジェクトサイズに基づいて決定することができる。統合シーン内のオブジェクトの第3の記述内のオブジェクトサイズを、音響シーン内のオブジェクトの第1の記述内のオブジェクトと視覚シーン内のオブジェクトの第2の記述内のオブジェクトとの交差の交差サイズに基づいて決定することができる。統合シーン内のオブジェクトの第3の記述内のオブジェクトサイズを、音響シーン内のオブジェクトの第1の記述内のオブジェクトサイズと、視覚シーン内のオブジェクトの第2の記述内のオブジェクトサイズとのサイズ差に基づいて決定することができる。

【0011】

一例では、統合シーン内のオブジェクトの第3の記述内のオブジェクト形状を、音響シーン内のオブジェクトの第1の記述内のオブジェクト形状に基づいて決定することができる。統合シーン内のオブジェクトの第3の記述内のオブジェクト形状を、視覚シーン内のオブジェクトの第2の記述内のオブジェクト形状に基づいて決定することができる。統合シーン内のオブジェクトの第3の記述内のオブジェクト形状を、音響シーン内のオブジェクトの第1の記述内のオブジェクトと視覚シーン内のオブジェクトの第2の記述内のオブジェクトとの交差の交差形状に基づいて決定することができる。統合シーン内のオブジェクトの第3の記述内のオブジェクト形状を、音響シーン内のオブジェクトの第1の記述内のオブジェクト形状と、視覚シーン内のオブジェクトの第2の記述内のオブジェクト形状との形状差に基づいて決定することができる。

【0012】

一例では、統合シーン内のオブジェクトの第3の記述内のオブジェクト位置を、音響シーン内のオブジェクトの第1の記述内のオブジェクト位置に基づいて決定することができる。統合シーン内のオブジェクトの第3の記述内のオブジェクト位置を、視覚シーン内のオブジェクトの第2の記述内のオブジェクト位置に基づいて決定することができる。統合シーン内のオブジェクトの第3の記述内のオブジェクト位置を、音響シーン内のオブジェクトの第1の記述内のオブジェクト位置と、視覚シーン内のオブジェクトの第2の記述内のオブジェクト位置との位置差に基づいて決定することができる。

【0013】

一例では、統合シーン内のオブジェクトの第3の記述内のオブジェクト方向を、音響シーン内のオブジェクトの第1の記述内のオブジェクト方向に基づいて決定することができる。統合シーン内のオブジェクトの第3の記述内のオブジェクト方向を、視覚シーン内のオブジェクトの第2の記述内のオブジェクト方向に基づいて決定することができる。統合シーン内のオブジェクトの第3の記述内のオブジェクト方向を、音響シーン内のオブジェクトの第1の記述内のオブジェクト方向と、視覚シーン内のオブジェクトの第2の記述内のオブジェクト方向との方向差に基づいて決定することができる。

【0014】

一例では、統合シーン内のオブジェクトの第3の記述内のオブジェクトテクスチャを、音響シーン内のオブジェクトの第1の記述内のオブジェクトテクスチャに基づいて決定することができる。統合シーン内のオブジェクトの第3の記述内のオブジェクトテクスチャを、視覚シーン内のオブジェクトの第2の記述内のオブジェクトテクスチャに基づいて決定することができる。統合シーン内のオブジェクトの第3の記述内のオブジェクトテクスチャを、音響シーン内のオブジェクトの第1の記述内のオブジェクトテクスチャと、視覚シーン内のオブジェクトの第2の記述内のオブジェクトテクスチャとのテクスチャ差に基づいて決定することができる。

【0015】

いくつかの実施形態では、メディアコンテンツデータのアンカーシーン内のオブジェクトの記述を、音響シーン内のオブジェクトの第1の記述および視覚シーン内のオブジェクトの第2の記述のうちの1つに基づいて決定することができる。アンカーシーン内のオブジェクトの記述が音響シーン内のオブジェクトの第1の記述に基づいて決定されるのに応じて、視覚シーン内のオブジェクトの第2の記述を音響シーン内のオブジェクトの第1の記述に基づいて修正することができる。アンカーシーン内のオブジェクトの記述が視覚シーン内のオブジェクトの第2の記述に基づいて決定されるのに応じて、音響シーン内のオブジェクトの第1の記述を視覚シーン内のオブジェクトの第2の記述に基づいて修正することができる。さらに、音響シーン内のオブジェクトの第1の記述および視覚シーン内のオブジェクトの第2の記述のうちのいずれが、アンカーシーンの記述を決定するために選択されるかを示すためにシグナリング情報を生成することができる。

【0016】

いくつかの実施形態では、音響シーン内のオブジェクトの第1の記述内の第1のパラメータ、および視覚シーン内のオブジェクトの第2の記述内の第2のパラメータのいずれが、統合シーン内のオブジェクトの第3の記述内の第3のパラメータを決定するために選択されるかを示すためにシグナリング情報を生成することができる。

【0017】

本開示の別の態様によれば、装置が提供される。装置は処理回路を含む。処理回路を、メディア処理のための方法のいずれかを実行するように構成することができる。

【0018】

本開示の態様はまた、映像復号のためにコンピュータによって実行される場合に、コンピュータにメディア処理のための方法のいずれかを実行させる命令を記憶する非一時的コンピュータ可読媒体を提供する。

【0019】

開示された主題のさらなる特徴、性質および様々な利点は、以下の詳細な説明および添付の図面から、より明らかになるであろう。

【図面の簡単な説明】

【0020】

【図1】いくつかの例における6自由度（6 DoF）を使用する環境を示す図である。

【図2】本開示の一実施形態によるMPEG－I没入型音声評価プラットフォームおよび処理を示す図である。

【図3】本開示の一実施形態によるテストシーンの例示的な音響シーンを示す図である。

【図4】本開示の一実施形態によるUnityエンジンからのテストシーンの例示的な視覚シーンを示す図である。

【図5】本開示の一実施形態によるメディアシステムのブロック図である。

【図6】本開示のいくつかの実施形態による処理を概説するフローチャートである。

【図7】一実施形態による、コンピュータシステムの概略図である。

【発明を実施するための形態】

【0021】

「没入型音声」、「没入型映像」および「システムサポート」を含むMPEG－I没入型メディア規格群は、仮想現実（VR）または拡張現実（AR）のプレゼンテーション（100）をサポートすることができ、ユーザ（102）は、例えば図1に示すように、空間ナビゲーション（x、y、z）およびユーザの頭の向き（ヨー、ピッチ、ロール）を含む6自由度（6 DoF）を使用して環境内を移動し、かつ環境と対話することができる。

【0022】

MPEG－Iプレゼンテーションの目的は、ユーザ（例えば、（102））が実際に仮想世界に存在しているという感覚を与えることである。世界（またはシーン）内の音声を、関連付けられた視覚的な像から得られる音によって、現実世界にいるように知覚することができる。すなわち、正しい位置および／または正しい距離で音を知覚することができる。現実世界におけるユーザの物理的な動きを、仮想世界において動きが一致していると知覚することができる。さらに、重要なことに、ユーザは、仮想シーンと対話し、現実的であると知覚される音を発生させて、現実世界におけるユーザの体験に一致させるか、そうでなければこの体験をシミュレートすることができる。

【0023】

本開示は、没入型メディアに関する。没入型メディアをレンダリングする場合、音響シーンと視覚シーンとは不整合を示すことがあり、これはユーザのメディア体験を低下させかねない。本開示では、音響シーンと視覚シーンとの整合性を改善するための方法および装置を含む態様が提供される。

【0024】

MPEG－I没入型音声規格では、視覚シーンをUnityエンジンなどの第1のエンジンによってレンダリングすることができ、音響シーンを第2のエンジンによって記述することができる。第2のエンジンは、MPEG－I没入型音声エンコーダなどの音声エンジンとすることができる。

【0025】

図2は、例示的なMPEG－I没入型音声評価プラットフォーム（AEP）（200）のブロック図である。図2に示すように、AEP（200）は、評価コンポーネント（202）およびオフライン符号化／処理コンポーネント（204）を含むことができる。評価コンポーネント（202）は、Unity（212）およびMax／MSP（210）を含むことができる。Unityは、3次元および2次元ゲーム、ならびに対話型シミュレーションおよび他の体験を作るために使用することができるクロスプラットフォームゲームエンジンである。Max／MSPは、MaxまたはMax／MSP／Jitterとしても知られ、例えば、音楽およびマルチメディアのための視覚的プログラミング言語である。Maxは、柔軟なパッチ当ておよびプログラミング環境を使用して、音、グラフィック、音楽および対話性のための多種多様なツールを収容し、かつ接続することができるプラットフォームである。

【0026】

Unity（212）は、ヘッドマウントディスプレイ（HMD）（214）に映像を表示することができる。位置決めビーコンに応答するHMD内のヘッドトラッカは、Unityエンジン（212）に接続して戻すことができ、次いで、Unity extOSCメッセージを介してMax／MSP（210）にユーザの位置および向き情報を送信することができる。Max／MSP（210）は、並列に走る多数のmax外部をサポートすることができる。AEP（200）では、各max外部は、リアルタイムで動作する候補没入型音声の復号およびレンダリングエンジンとすることができる。例えば、図2に示すように、Max／MSP（210）は、並列に実行することができるレンダラA、BおよびCを含むことができる。さらに図2では、評価コンポーネント（202）は、例えばPythonプログラムをコンパイルし、スマートフォンおよびゲームコントローラなどのコントローラ（218）からの制御および映像データと通信するように構成されたコンパイラ（216）を含むことができる。コンパイラ（216）は、Unity extOSCメッセージを介してMax／MSP（210）と通信することもできる。

【0027】

オフライン符号化／処理コンポーネント（204）では、MPEG－I没入型音声ストリームを処理することができる。MPEG－H3D音声（206）は、全ての音声信号（例えば、（208））のためのコーデックとすることができる。したがって、音声信号は、全ての提案者のレンダラ（例えば、レンダラA、B、およびC）に共通とすることができる。AEP（200）では、音声信号を「プリコーディング」することができ、これは、元の音声信号を符号化し、次いでMEPG－H3D音声（206）を使用して復号することができることを意味することができ、これらの信号は、評価コンポーネント（202）内のMax／MSP（210）および個々のmax外部（またはレンダラ）に供給される。さらに図2を参照して、オフライン符号化／処理コンポーネント（204）では、シーンファイル（220）内のデータおよび指向性ファイル（222）内のデータを、MPEG－Iプロセッサ（またはコンプレッサ）（228）によって処理することができる。処理されたデータを、Max／Msp（210）にさらに送信することができる。さらに、HRTFファイル（224）内のデータをMax／Msp（210）のレンダラに送信し、モデルファイル／映像ファイル（226）内のデータを処理のためにUnity（212）に送信することができる。

【0028】

没入型メディアレンダリングの場合、音響シーンおよび視覚シーンを、異なるエンジンによって記述することができる。例えば、音響シーンをMPEG－I没入型音声エンコーダ入力フォーマットによって記述することができ、視覚シーンをUnityエンジンから記述することができる。音響シーンおよび視覚シーンが2つの異なるエンジンまたはモジュールによって処理される場合、音響シーンと視覚シーンとが不整合であることが起こり得る。

【0029】

音響シーンと視覚シーンとの不整合の例を、図3および図4に示すことができる。図3は、MPEG－I没入型音声規格におけるテストシーンの音響シーン（300）の概観を示している。図3に見られるように、隙間（例えば、（302））が立方体状の壁要素（304）の間に存在することができる。音響の回折効果および閉塞効果を、壁要素（304）の角部および縁部の周囲のテスト者によって評価することができる。

【0030】

図4は、図3の同じテストシーンについてUnityエンジンからの視覚シーン（400）の概観を示している。図4に見られるように、隙間が壁要素（402）間にほとんどない状態で、壁を石の形状でレンダリングすることができる。Unityによってレンダリングされた視覚シーン（400）内の可視エッジは、音響シーン（300）内の音響的形状のエッジに対応しないため、このような不一致は、テスト者（またはユーザ）のメディア体験を低下させる可能性がある。換言すれば、音声レンダラは、音響シーン（300）内の立方体状の壁要素によって引き起こされる回折を音響的にレンダリングすることができるのに対して、壁は、視覚シーン（400）内で非常に異なる視覚的形状を示すことができる。視覚シーン内の壁形状と音響シーン内の壁形状とが不整合であるため、レンダリングされた音声が視覚レンダリングからの視覚的期待と一貫性なく動作するため、テスト者を混乱させかねない。

【0031】

レンダリングされた音声体験と視覚体験との不整合は、音響シーン記述と視覚シーン記述との不整合によって引き起こされかねない。本開示では、音響シーン記述および視覚シーン記述の整合性を改善するための方法が提供される。

【0032】

音響シーン内のオブジェクトの記述および視覚シーン内のオブジェクトの記述のうちの一方によって示されるオブジェクト（例えば、壁要素（304））の1つまたは複数のパラメータを、音響シーン内のオブジェクトの記述および視覚シーン内のオブジェクトの記述のうちの他方によって示されるオブジェクトの1つまたは複数のパラメータに従って修正することができる。オブジェクトのパラメータは、オブジェクトのオブジェクトサイズ、オブジェクト形状、オブジェクト位置、オブジェクト方向、オブジェクトテクスチャ（またはオブジェクト素材）などのうちの少なくとも1つとすることができる。

【0033】

いくつかの実施形態では、音響シーン記述（または音響シーンの記述）を、視覚シーン記述（または視覚シーンの記述）と整合性を取るように変更（または修正）することができ、変更（または修正）された音響シーン記述に基づいて、音声レンダリングを提供することができる。

【0034】

例えば、音響シーン記述を視覚シーン記述と照合することができ、視覚シーン記述と音響シーン記述との間の1つまたは複数の不整合、または場合によっては任意の不整合が決定された場合、音響シーン記述を視覚シーン記述と整合性を取るように変更することができる。不一致は、例えば、オブジェクトの1つまたは複数の異なるパラメータおよび1つまたは複数の閾値に基づいて決定することができる。

【0035】

音響シーン記述内のオブジェクトのオブジェクトサイズが視覚シーン記述内のオブジェクトのオブジェクトサイズと異なる場合、音響シーン記述内のオブジェクトのオブジェクトサイズを、視覚シーン記述内のオブジェクトのオブジェクトサイズに基づいて変更（または修正）することができる。例えば、音響シーン記述内のオブジェクトのオブジェクトサイズを、視覚シーン記述内のオブジェクトのオブジェクトサイズと同一と（または等しく）なるように変更することができる。したがって、音響シーン記述内のオブジェクトのオブジェクトサイズは、視覚シーン記述内のオブジェクトのオブジェクトサイズと整合性を取るか、またはより整合性を取ることができる。

【0036】

音響シーン記述内のオブジェクトのオブジェクト形状が視覚シーン記述内のオブジェクトのオブジェクト形状と異なる場合、音響シーン記述内のオブジェクトのオブジェクト形状を、視覚シーン記述内のオブジェクトのオブジェクト形状に基づいて変更することができる。例えば、音響シーン記述内のオブジェクトのオブジェクト形状を、視覚シーン記述内のオブジェクトのオブジェクト形状と同一となるように変更することができる。

【0037】

音響シーン記述内のオブジェクトのオブジェクト位置が視覚シーン記述内のオブジェクトのオブジェクト位置と異なる場合、音響シーン記述内のオブジェクトのオブジェクト位置を、視覚シーン記述内のオブジェクトのオブジェクト位置に基づいて変更することができる。例えば、音響シーン記述内のオブジェクトのオブジェクト位置を、視覚シーン記述内のオブジェクトのオブジェクト位置と同一となるように変更することができる。

【0038】

音響シーン記述内のオブジェクトのオブジェクト方向が視覚シーン記述内のオブジェクトのオブジェクト方向と異なる場合、音響シーン記述内のオブジェクトのオブジェクト方向を、視覚シーン記述内のオブジェクトのオブジェクト方向に基づいて変更することができる。例えば、音響シーン記述内のオブジェクトのオブジェクト方向を、視覚シーン記述内のオブジェクトのオブジェクト方向と同一となるように変更することができる。

【0039】

音響シーン記述内のオブジェクトのオブジェクト素材が視覚シーン記述内のオブジェクトのオブジェクト素材と異なる場合、音響シーン記述内のオブジェクトのオブジェクト素材を、視覚シーン記述内のオブジェクトのオブジェクト素材に基づいて変更することができる。例えば、音響シーン記述内のオブジェクトのオブジェクト素材を、視覚シーン記述内のオブジェクトのオブジェクト素材と同一となるように変更することができる。

【0040】

いくつかの実施形態では、視覚シーン記述を音響シーン記述と整合性を取るように変更することができ、視覚シーン記述と音響シーン記述との間の1つまたは複数の不一致、または場合によっては任意の不一致が決定された場合、変更された視覚シーン記述に基づいて視覚レンダリングを提供することができる。

【0041】

例えば、視覚シーン記述を音響シーン記述と照合することができ、視覚シーン記述を音響シーン記述と整合性を取るように、またはより整合性を取るように変更することができる。

【0042】

視覚シーン記述内のオブジェクトのオブジェクトサイズが音響シーン記述内のオブジェクトのオブジェクトサイズと異なる場合、視覚シーン記述内のオブジェクトのオブジェクトサイズを、音響シーン記述内のオブジェクトのオブジェクトサイズに基づいて変更することができる。例えば、音響シーン記述内のオブジェクトのオブジェクトサイズを、音響シーン記述内のオブジェクトのオブジェクトサイズと同一となるように変更することができる。

【0043】

視覚シーン記述内のオブジェクトのオブジェクト形状が音響シーン記述内のオブジェクトのオブジェクト形状と異なる場合、視覚シーン記述内のオブジェクトのオブジェクト形状を、音響シーン記述内のオブジェクトのオブジェクト形状に基づいて変更することができる。例えば、音響シーン記述内のオブジェクトのオブジェクト形状を、音響シーン記述内のオブジェクトのオブジェクト形状と同一となるように変更することができる。

【0044】

視覚シーン記述内のオブジェクトのオブジェクト位置が音響シーン記述内のオブジェクトのオブジェクト位置と異なる場合、視覚シーン記述内のオブジェクトのオブジェクト位置を、音響シーン記述内のオブジェクトのオブジェクト位置に基づいて変更することができる。例えば、音響シーン記述内のオブジェクトのオブジェクト位置を、音響シーン記述内のオブジェクトのオブジェクト位置と同一となるように変更することができる。

【0045】

視覚シーン記述内のオブジェクトのオブジェクト方向が音響シーン記述内のオブジェクトのオブジェクト方向と異なる場合、視覚シーン記述内のオブジェクトのオブジェクト方向を、音響シーン記述内のオブジェクトのオブジェクト方向に基づいて変更することができる。例えば、音響シーン記述内のオブジェクトのオブジェクト方向を、音響シーン記述内のオブジェクトのオブジェクト方向と同一となるように変更することができる。

【0046】

視覚シーン記述内のオブジェクトのオブジェクト素材が音響シーン記述内のオブジェクトのオブジェクト素材と異なる場合、視覚シーン記述内のオブジェクトのオブジェクト素材を、音響シーン記述内のオブジェクトのオブジェクト素材に基づいて変更することができる。例えば、音響シーン記述内のオブジェクトのオブジェクト素材を、音響シーン記述内のオブジェクトのオブジェクト素材と同一となるように変更することができる。

【0047】

いくつかの実施形態では、音響シーン記述および視覚シーン記述を、統合シーン記述を生成するためにマージするかまたは他の方法で結合することができる。音響シーン記述が統合シーン記述と異なる場合、音響シーン記述を、統一シーン記述に基づいて、または統一シーン記述と整合性を取るように変更することができ、音声レンダリングは、変更された音響シーン記述を適用することができる。視覚シーン記述が統合シーン記述と異なる場合、視覚シーン記述を、統一シーン記述に基づいて、または統一シーン記述と整合性を取るように変更することができ、視覚レンダリングは、変更された視覚シーン記述を適用することができる。

【0048】

一実施形態では、音響シーン記述内のオブジェクトのオブジェクトサイズが視覚シーン記述内のオブジェクトのオブジェクトサイズと異なる場合、統合シーン記述内のオブジェクトのオブジェクトサイズは、（1）音響シーン記述内のオブジェクトのオブジェクトサイズ、（2）視覚シーン記述内のオブジェクトのオブジェクトサイズ、（3）音響シーン記述内のオブジェクトと視覚シーン記述内のオブジェクトとの交差のサイズ、または（4）音響シーン記述内のオブジェクトサイズと視覚シーン記述内のオブジェクトサイズとの差に基づくサイズのうちの1つとすることができ、または別の態様ではそれらに基づくことができる。いくつかの例では、音響シーン記述および視覚シーン記述内のオブジェクトのサイズに異なる重みを適用することができる。

【0049】

一実施形態では、音響シーン記述内のオブジェクトのオブジェクト形状が視覚シーン記述内のオブジェクトのオブジェクト形状と異なる場合、統合シーン記述内のオブジェクト形状は、（1）音響シーン記述内のオブジェクト形状、（2）視覚シーン記述内のオブジェクト形状、（3）音響シーン記述内のオブジェクトと視覚シーン記述内のオブジェクトとの交差の形状、または（4）音響シーン記述内のオブジェクト形状と視覚シーン記述内のオブジェクト形状との差に基づく形状のうちの1つとすることができ、または別の態様ではそれらに基づくことができる。いくつかの例では、音響シーン記述および視覚シーン記述内のオブジェクトの形状に異なる重みを適用することができる。

【0050】

一実施形態では、音響シーン記述内のオブジェクトのオブジェクト位置が視覚シーン記述内のオブジェクトのオブジェクト位置と異なる場合、統合シーン記述内のオブジェクトのオブジェクト位置は、（1）音響シーン記述内のオブジェクト位置、（2）視覚シーン記述内のオブジェクト位置、または（3）音響シーン記述内のオブジェクト位置と視覚シーン記述内のオブジェクト位置との差に基づく位置のうちの1つとすることができ、または別の態様ではそれらに基づくことができる。いくつかの例では、音響シーン記述および視覚シーン記述内のオブジェクトの位置に異なる重みを適用することができる。

【0051】

一実施形態では、音響シーン記述内のオブジェクトのオブジェクト方向が視覚シーン記述内のオブジェクトのオブジェクト方向と異なる場合、統合シーン記述内のオブジェクト方向は、（1）音響シーン記述内のオブジェクト方向、（2）視覚シーン記述内のオブジェクト方向、または（3）音響シーン記述内のオブジェクト方向と視覚シーン記述内のオブジェクト方向との差に基づく方向のうちの1つとすることができ、または別の態様ではそれらに基づくことができる。いくつかの例では、音響シーン記述および視覚シーン記述内のオブジェクトのオブジェクト方向に異なる重みを適用することができる。

【0052】

一実施形態では、音響シーン記述内のオブジェクトのオブジェクト素材（例えば、オブジェクトテクスチャ、オブジェクト組成、またはオブジェクト物質）が視覚シーン記述内のオブジェクトのオブジェクト素材と異なる場合、統合シーン記述内のオブジェクト素材は、（1）音響シーン記述内のオブジェクト素材、（2）視覚シーン記述内のオブジェクト素材、または（3）音響シーン記述内のオブジェクト素材と視覚シーン記述内のオブジェクト素材との差に基づく素材のうちの1つとすることができ、または別の態様ではそれらに基づくことができる。いくつかの例では、音響シーン記述および視覚シーン記述内のオブジェクトの素材に異なる重みを適用することができる。

【0053】

いくつかの実施形態では、アンカーシーン記述を、視覚シーン記述および音響シーン記述のうちの1つに基づいて決定（または選択）することができる。例えばアンカーシーンは、ARソフトウェアが現実世界と仮想世界とを統合するために認識して適用することができるオブジェクトであるアンカーを含むことができる。音響シーン記述を視覚シーン記述と整合性を取るように変更することができ、または、視覚シーン記述を音響シーン記述と整合性を取るように変更することができる。視覚レンダリングまたは音声レンダリングは、選択された（または決定された）アンカーシーン記述にさらに基づくことができる。

【0054】

一実施形態では、視覚データまたは音声データに関連付けられたビットストリームの一部として、指示を受信機（またはクライアント側）に送信することができる。指示は、アンカーシーン記述が視覚シーン記述に基づくかまたは音響シーン記述に基づくかを示すことができる。別の実施形態では、このような指示をシステムレベルのメタデータの一部として送信することができる。

【0055】

いくつかの実施形態では、選択メッセージなどの選択情報を受信機（またはクライアント側）にシグナリングすることができる。選択メッセージは、統合シーン記述が生成される態様を示すことができる。例えば選択メッセージは、統合シーン記述が視覚シーンおよび／または音声シーン（または音響シーン）のいずれによって決定されるかを示すことができる。こうして、選択メッセージに従って、統合シーンを、例えば視覚シーンまたは音声シーンのうちの1つとして決定することができる。換言すれば、いくつかの例では、視覚シーンまたは音声シーンのいずれかを統合シーンとして選択することができる。視覚レンダリングまたは音声レンダリングは、選択された統合シーン記述に基づくことができる。シグナリング情報（例えば、選択メッセージ）を、例えばビットストリームの一部として、またはシステムレベルのメタデータとして送信することができる。

【0056】

一実施形態では、統合シーン記述内のオブジェクトのオブジェクトサイズを、視覚シーンまたは音声シーンのいずれかに由来するものであるようにシグナリングすることができる。こうして、シグナリング情報に従って、統合シーン記述内のオブジェクトのオブジェクトサイズを、視覚シーン記述内のオブジェクトのオブジェクトサイズまたは音響シーン記述内のオブジェクトのオブジェクトサイズのうちの1つとして、またはそれらのうちの1つに基づいて決定することができる。

【0057】

一実施形態では、シーン記述内のオブジェクトのオブジェクト形状を、視覚シーンまたは音声シーンのいずれかに由来するものであるようにシグナリングすることができる。こうして、シグナリング情報に従って、統合シーン記述内のオブジェクトのオブジェクト形状を、視覚シーン記述内のオブジェクトのオブジェクト形状または音響シーン記述内のオブジェクトのオブジェクト形状のうちの1つとして、またはそれらのうちの1つに基づいて決定することができる。

【0058】

一実施形態では、シーン記述内のオブジェクトのオブジェクト方向を、視覚シーンまたは音声シーンのいずれかに由来するものであるようにシグナリングすることができる。こうして、シグナリング情報に従って、統合シーン記述内のオブジェクトのオブジェクト方向を、視覚シーン記述内のオブジェクトのオブジェクト方向または音響シーン記述内のオブジェクトのオブジェクト方向のうちの1つとして、またはそれらのうちの1つに基づいて決定することができる。

【0059】

一実施形態では、シーン記述内のオブジェクトのオブジェクト位置を、視覚シーンまたは音声シーンのいずれかに由来するものであるようにシグナリングすることができる。こうして、シグナリング情報に従って、統合シーン記述内のオブジェクトのオブジェクト位置を、視覚シーン記述内のオブジェクトのオブジェクト位置または音響シーン記述内のオブジェクトのオブジェクト位置のうちの1つとして、またはそれらのうちの1つに基づいて決定することができる。

【0060】

一実施形態では、シーン記述内のオブジェクトのオブジェクト素材を、視覚シーンまたは音声シーンのいずれかに由来するものであるようにシグナリングすることができる。こうして、シグナリング情報に従って、統合シーン記述内のオブジェクトのオブジェクト素材を、視覚シーン記述内のオブジェクトのオブジェクト素材または音響シーン記述内のオブジェクトのオブジェクト素材のうちの1つとして、またはそれらのうちの1つに基づいて決定することができる。

【0061】

図5は、本開示の一実施形態によるメディアシステム（500）のブロック図を示す。メディアシステム（500）を、没入型メディアアプリケーション、拡張現実（AR）アプリケーション、仮想現実アプリケーション、ビデオゲームアプリケーション、スポーツゲームアニメーションアプリケーション、テレビ会議およびテレプレゼンスアプリケーション、メディアストリーミングアプリケーションなどの様々な使用アプリケーションで使用することができる。

【0062】

メディアシステム（500）は、メディアサーバデバイス（510）と、ネットワーク（図示せず）によって接続することができる、図5に示すメディアクライアントデバイス（560）などの複数のメディアクライアントデバイスとを含む。一例では、メディアサーバデバイス（510）は、音声符号化および映像符号化機能を含む1つまたは複数のデバイスを含むことができる。一例では、メディアサーバデバイス（510）は、デスクトップコンピュータ、ラップトップコンピュータ、サーバコンピュータ、タブレットコンピュータなどの単一のコンピューティングデバイスを含む。別の例では、メディアサーバデバイス（510）は、（1つまたは複数の）データセンタ、（1つまたは複数の）サーバファームなどを含む。メディアサーバデバイス（510）はメディアコンテンツデータを受信することができる。メディアコンテンツデータは、映像コンテンツおよび音声コンテンツを含むことができる。メディアコンテンツデータは、音声エンジンによって生成された音響シーン内のオブジェクトの記述と、視覚エンジンによって生成された視覚シーン内のオブジェクトの記述とを含むことができる。メディアサーバデバイス（510）は、適切なメディア符号化規格に従って映像コンテンツおよび音声コンテンツを1つまたは複数の符号化ビットストリームに圧縮することができる。符号化ビットストリームを、ネットワークを介してメディアクライアントデバイス（560）に配信することができる。

【0063】

メディアクライアントデバイス（560）は、メディアアプリケーションのための映像符号化および音声符号化機能を含む1つまたは複数のデバイスを含むことができる。一例では、メディアクライアントデバイス（560）は、デスクトップコンピュータ、ラップトップコンピュータ、サーバコンピュータ、タブレットコンピュータ、ウェアラブルコンピューティングデバイス、HMDデバイスなどのコンピューティングデバイスを含むことができる。メディアクライアントデバイス（560）は、適切なメディア符号化規格に従って符号化ビットストリームを復号することができる。復号された映像コンテンツおよび音声コンテンツを、メディア再生に使用することができる。

【0064】

メディアサーバデバイス（510）を、任意の適切な技術を使用して実装することができる。図5の例では、メディアサーバデバイス（510）は、互いに結合された処理回路（530）およびインタフェース回路（511）を含む。

【0065】

処理回路（530）は1つまたは複数の中央処理装置（CPU）、1つまたは複数のグラフィック処理ユニット（GPU）、特定用途向け集積回路などの、任意の適切な処理回路を含むことができる。さらに、処理回路（530）を、音声エンコーダ、映像エンコーダなどの様々なエンコーダを含むように構成することができる。一例では、1つまたは複数のCPUおよび／またはGPUは、ソフトウェアを実行して、音声エンコーダまたは映像エンコーダとして機能することができる。別の例では、音声エンコーダまたは映像エンコーダを、特定用途向け集積回路を使用して実装することができる。

【0066】

いくつかの例では、処理回路（530）はシーンプロセッサ（531）を含む。シーンプロセッサ（531）は、音響シーン内のオブジェクトの記述によって示されるオブジェクトの1つまたは複数のパラメータと、視覚シーン内のオブジェクトの記述によって示されるオブジェクトの1つまたは複数のパラメータとが異なるかどうかを決定することができる。音響シーン内のオブジェクトの記述によって示されるオブジェクトのパラメータと、視覚シーン内のオブジェクトの記述によって示されるオブジェクトのパラメータとが異なることに応じて、シーンプロセッサ（531）は、音響シーン内のオブジェクトの記述によって示されるオブジェクトのパラメータが、視覚シーン内のオブジェクトの記述によって示されるオブジェクトのパラメータと整合性を取るか、またはより整合性を取るように、音響シーン内のオブジェクトの記述または視覚シーン内のオブジェクトの記述のうちの少なくとも一方を修正することができる。

【0067】

インタフェース回路（511）は、メディアサーバデバイス（510）をネットワークにインタフェースすることができる。インタフェース回路（511）は、信号をネットワークから受信する受信部と、信号をネットワークに送信する送信部とを含むことができる。例えばインタフェース回路（511）は、符号化ビットストリームを搬送する信号を、ネットワークを介してメディアクライアントデバイス（560）などの他のデバイスに送信することができる。インタフェース回路（511）は、信号をメディアクライアントデバイス（560）などのメディアクライアントデバイスから受信することができる。

【0068】

ネットワークは、イーサネット接続、光ファイバ接続、WiFi接続、セルラネットワーク接続などの有線および／または無線接続を介してメディアサーバデバイス（510）およびメディアクライアントデバイス（560）と適切に結合される。ネットワークは、ネットワークサーバデバイス、記憶デバイス、ネットワークデバイスなどを含むことができる。ネットワークの構成要素は、有線接続および／または無線接続を介して互いに適切に結合される。

【0069】

メディアクライアントデバイス（560）を、符号化ビットストリームを復号するように構成することができる。一例では、メディアクライアントデバイス（560）は、表示可能な映像フレームのシーケンスを再構築するために映像復号を実行することができ、再生のための音声信号を生成するために音声復号を実行することができる。

【0070】

メディアクライアントデバイス（560）を、任意の適切な技術を使用して実装することができる。図5の例では、メディアクライアントデバイス（560）が示されているが、ユーザ（520）が使用可能なユーザ機器としてのイヤホンを備えたHMDに限定されない。

【0071】

図5では、メディアクライアントデバイス（560）は、図5に示すように互いに結合されたインタフェース回路（561）および処理回路（570）を含むことができる。

【0072】

インタフェース回路（561）は、メディアクライアントデバイス（560）をネットワークにインタフェースすることができる。インタフェース回路（561）は、信号をネットワークから受信する受信部と、信号をネットワークに送信する送信部とを含むことができる。例えばインタフェース回路（561）は、符号化ビットストリームをネットワークから搬送する信号などのデータを搬送する信号を受信することができる。

【0073】

処理回路（570）はCPU、GPU、特定用途向け集積回路などの適切な処理回路を含むことができる。処理回路（570）を、シーンプロセッサ（571）、レンダラ（572）、映像デコーダ（図示せず）、音声デコーダ（図示せず）などの様々な構成要素を含むように構成することができる。

【0074】

いくつかの例では、音声デコーダは、音声コンテンツが符号化された方式に適した復号ツールを選択することによって、符号化ビットストリーム内の音声コンテンツを復号することができ、映像デコーダは、映像コンテンツが符号化された方式に適した復号ツールを選択することによって、符号化ビットストリーム内の映像コンテンツを復号することができる。シーンプロセッサ（571）は、復号されたメディアコンテンツ内の視覚シーンの記述および音響シーンの記述のうちの一方を修正するように構成される。したがって、音響シーン内のオブジェクトの記述によって示されるオブジェクトの1つまたは複数のパラメータは、視覚シーン内のオブジェクトの記述によって示されるオブジェクトの1つまたは複数のパラメータと整合性を取る。

【0075】

さらに、レンダラ（572）は、符号化ビットストリームから復号された音声コンテンツおよび映像コンテンツから、メディアクライアントデバイス（560）に適した最終デジタル製品を生成することができる。処理回路（570）は、さらなるメディア処理のためのミキサ、後処理回路などの他の適切な構成要素（図示せず）を含むことができることに留意されたい。

【0076】

図6は、本開示の一実施形態による処理（600）を概説するフローチャートを示す。処理（600）を、メディアサーバデバイス（510）内のシーンプロセッサ（531）、メディアクライアントデバイス（560）内のシーンプロセッサ（571）などのメディア処理デバイスによって実行することができる。いくつかの実施形態では、処理（600）はソフトウェア命令で実装され、したがって、処理回路がソフトウェア命令を実行すると、処理回路は処理（600）を実行する。処理は（S601）から開始され、（S610）に進む。

【0077】

（S610）では、オブジェクトのメディアコンテンツデータを受信することができる。メディアコンテンツデータは、音声エンジンによって生成された音響シーン内のオブジェクトの第1の記述と、視覚エンジンによって生成された視覚シーン内のオブジェクトの第2の記述とを含むことができる。

【0078】

（S620）では、音響シーン内のオブジェクトの第1の記述によって示される第1のパラメータと、視覚シーン内のオブジェクトの第2の記述によって示される第2のパラメータとが不整合であるかどうかを決定することができる。

【0079】

（S630）では、音響シーン内のオブジェクトの第1の記述によって示される第1のパラメータと、視覚シーン内のオブジェクトの第2の記述によって示される第2のパラメータとが不整合であることに応じて、音響シーン内のオブジェクトの第1の記述および視覚シーン内のオブジェクトの第2の記述のうちの一方を、修正されていない第1の記述および第2の記述のうちの他方に基づいて修正することができる。第1の記述および第2の記述のうちの修正された一方は、第1の記述および第2の記述のうちの修正されていない他方と整合性を取ることができる。

【0080】

（S640）では、メディアアプリケーションのために、オブジェクトのメディアコンテンツデータを、オブジェクトのメディアコンテンツデータをレンダリングする受信機に提供することができる。

【0081】

【0082】

【0083】

処理（600）では、統合シーン内のオブジェクトの第3の記述を、音響シーン内のオブジェクトの第1の記述または視覚シーン内のオブジェクトの第2の記述のうちの少なくとも1つに基づいて決定することができる。音響シーン内のオブジェクトの第1の記述によって示される第1のパラメータが、統合シーン内のオブジェクトの第3の記述によって示される第3のパラメータとは異なることに応じて、音響シーン内のオブジェクトの第1の記述によって示される第1のパラメータを、統合シーン内のオブジェクトの第3の記述によって示される第3のパラメータに基づいて修正することができる。視覚シーン内のオブジェクトの第2の記述によって示される第2のパラメータが、統合シーン内のオブジェクトの第3の記述によって示される第3のパラメータとは異なることに応じて、視覚シーン内のオブジェクトの第2の記述によって示される第2のパラメータを、統合シーン内のオブジェクトの第3の記述によって示される第3のパラメータに基づいて修正することができる。

【0084】

【0085】

【0086】

【0087】

【0088】

【0089】

【0090】

【0091】

その後、処理は（S699）に進み、終了する。

【0092】

処理（600）を、適切に適合させることができる。処理（600）の（1つまたは複数の）ステップを、修正および／または省略することができる。さらなる（1つまたは複数の）ステップを追加することができる。任意の適切な実施順序を使用することができる。

【0093】

上記で説明した技術を、コンピュータ可読命令を使用するコンピュータソフトウェアとして実装することができ、1つまたは複数のコンピュータ可読媒体に物理的に記憶することができる。例えば図7は、開示された主題の特定の実施形態を実装するのに適したコンピュータシステム（700）を示す。

【0094】

1つまたは複数のコンピュータ中央処理装置（CPU）およびグラフィック処理装置（GPU）などが直接的に、または解釈およびマイクロコードの実行などを通して実行することができる命令を含むコードを生成するために、コンピュータソフトウェアを、アセンブリ、コンパイル、リンキング、または同様のメカニズムを受け得る任意の適切なマシンコードまたはコンピュータ言語を使用して符号化することができる。

【0095】

命令を、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイスなどを含む、様々なタイプのコンピュータまたはその構成要素で実行することができる。

【0096】

図7に示すコンピュータシステム（700）の構成要素は、本質的に例示的なものであり、本開示の実施形態を実施するコンピュータソフトウェアの使用または機能の範囲に関する任意の限定を示唆することを意図するものではない。構成要素の構成は、コンピュータシステム（700）の例示的な実施形態に示された構成要素のいずれか1つまたは組合せに関する依存関係または要件を有すると解釈されるべきではない。

【0097】

コンピュータシステム（700）は、特定のヒューマンインタフェース入力デバイスを含んでもよい。このようなヒューマンインタフェース入力デバイスは、例えば、触覚入力（キーストローク、スワイプ、データグローブの動きなど）、音声入力（声、拍手など）、視覚入力（ジェスチャなど）、嗅覚入力（図示せず）を介した1つまたは複数の人間のユーザによる入力に応答してもよい。ヒューマンインタフェースデバイスを、音声（発話、音楽、周囲音など）、画像（走査画像、静止画カメラから取得される写真画像など）、映像（二次元映像、立体映像を含む三次元映像など）などの人間による意識的な入力に必ずしも直接関与しない、特定のメディアをキャプチャするためにさらに使用することができる。

【0098】

ヒューマンインタフェース入力デバイスは、キーボード（701）、マウス（702）、トラックパッド（703）、タッチスクリーン（710）、データグローブ（図示せず）、ジョイスティック（705）、マイクロフォン（706）、スキャナ（707）、カメラ（708）のうちの1つまたは複数を含んでもよい（各々の1つのみが描写されている）。

【0099】

コンピュータシステム（700）はまた、特定のヒューマンインタフェース出力デバイスを含んでもよい。このようなヒューマンインタフェース出力デバイスは、例えば、触覚出力、音、光および匂い／味によって、1人または複数の人間のユーザの感覚を刺激してもよい。このようなヒューマンインタフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン（710）、データグローブ（図示せず）、またはジョイスティック（705）による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスとすることもできる）、音声出力デバイス（スピーカ（709）、ヘッドフォン（図示せず）など）、視覚出力デバイス（CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン（710）などであって、それぞれタッチスクリーン入力能力を有するもの、有さないもの、それぞれ触覚フィードバック機能を有するもの、有さないものであり、そのうちのいくつかは、二次元視覚出力、または立体写真出力などの手段による三次元を越える出力を出力することができるもの、バーチャルリアリティグラス（図示せず）、ホログラフィックディスプレイ、スモークタンク（図示せず）など）、およびプリンタ（図示せず）を含んでもよい。

【0100】

コンピュータシステム（700）はまた、人間がアクセス可能な記憶デバイスおよびそれらの関連媒体、例えば、CD／DVDなどの媒体（721）を有するCD／DVD ROM／RW（720）を含む光学メディア、サムドライブ（722）、リムーバブルハードドライブまたはソリッドステートドライブ（723）、テープおよびフロッピーディスク（図示せず）などの従来の磁気メディア、セキュリティドングル（図示せず）などの専用ROM／ASIC／PLDベースのデバイスなどを含むことができる。

【0101】

当業者は、本開示の主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波またはその他の一時的な信号を包含しないことをさらに理解するはずである。

【0102】

コンピュータシステム（700）はまた、1つまたは複数の通信ネットワーク（755）へのインタフェース（754）を含むことができる。ネットワークは、例えば無線、有線、光とすることができる。ネットワークはさらに、ローカル、広域、メトロポリタン、車両および産業用、リアルタイム、遅延耐性などとすることができる。ネットワークの例は、イーサネット、無線LANなどのローカルエリアネットワーク、GSM、3G、4G、5G、LTEなどを含むセルラネットワーク、ケーブルTV、衛星TV、および地上波放送TVを含むテレビ有線または無線広域デジタルネットワーク、ならびにCANBusを含む車両および産業用ネットワークなどを含む。特定のネットワークは、一般に、特定の汎用データポートまたは周辺バス（749）（例えば、コンピュータシステム（700）のUSBポートなど）に取り付けられた外部ネットワークインタフェースアダプタを必要とし、他のものは、一般に、後述するようなシステムバスへの取り付け（例えば、PCコンピュータシステムへのイーサネットインタフェースまたはスマートフォンコンピュータシステムへのセルラネットワークインタフェース）によってコンピュータシステム（700）のコアに統合される。これらのネットワークのいずれかを使用して、コンピュータシステム（700）は他のエンティティと通信することができる。このような通信は、例えば、ローカルまたは広域のデジタルネットワークを使用して、他のコンピュータシステムに対して、単方向、受信のみ（例えば、放送TV）、単方向送信のみ（例えば、特定のCANbusデバイスへのCANbus）、または双方向とすることができる。特定のプロトコルおよびプロトコルスタックを、上述したようにそれらのネットワークおよびネットワークインタフェースのそれぞれで使用することができる。

【0103】

前述のヒューマンインタフェースデバイス、人間がアクセス可能な記憶デバイスおよびネットワークインタフェースを、コンピュータシステム（700）のコア（740）に取り付けることができる。

【0104】

コア（740）は、1つまたは複数の中央処理装置（CPU）（741）、グラフィック処理装置（GPU）（742）、フィールドプログラマブルゲートエリア（FPGA）（743）の形態の専用プログラム可能処理装置、特定のタスクのためのハードウェアアクセラレータ（744）、グラフィックアダプタ（750）などを含む。これらのデバイスは、読み取り専用メモリ（ROM）（745）、ランダムアクセスメモリ（746）、ユーザがアクセスできない内部ハードドライブ、SSDなどの内部大容量記憶装置（747）と共に、システムバス（748）を介して接続されてもよい。いくつかのコンピュータシステムでは、システムバス（748）は1つまたは複数の物理プラグの形でアクセスすることができ、追加のCPU、GPUなどによる拡張を可能にする。周辺デバイスは、コアのシステムバス（748）に直接取り付けることもでき、または周辺バス（749）を介して取り付けることもできる。一例では、スクリーン（710）をグラフィックアダプタ（750）に接続することができる。周辺バスのアーキテクチャは、PCI、USBなどを含む。

【0105】

CPU（741）、GPU（742）、FPGA（743）およびアクセラレータ（744）は、組み合わせて前述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードを、ROM（745）またはRAM（746）に記憶することができる。過渡的データをRAM（746）に記憶することもできる一方で、不変データを、例えば内部大容量記憶装置（747）に記憶することができる。メモリデバイスのいずれかへの高速記憶および検索は、1つまたは複数のCPU（741）、GPU（742）、大容量記憶装置（747）、ROM（745）、RAM（746）などと密接に関連付けることができるキャッシュメモリの使用によって可能にすることができる。

【0106】

コンピュータ可読媒体は、様々なコンピュータ実施動作を実行するためのコンピュータコードを有することができる。メディアおよびコンピュータコードを、本開示の目的のために特別に設計されかつ構築されたものとすることができ、またはコンピュータソフトウェアの分野の当業者によく知られ、当業者が利用可能な種類のものとすることができる。

【0107】

限定ではなく例として、アーキテクチャ（700）、特にコア（740）を有するコンピュータシステムは、1つまたは複数の有形のコンピュータ可読媒体で具現化されたソフトウェアを実行する（1つまたは複数の）プロセッサ（CPU、GPU、FPGAおよびアクセラレータなどを含む）の結果として機能を提供することができる。このようなコンピュータ可読媒体を、上記で紹介したようなユーザがアクセス可能な大容量記憶装置、ならびにコア内部大容量記憶装置（747）またはROM（745）などの非一時的な性質のコア（740）の特定の記憶装置に関連付けられた媒体とすることができる。本開示の様々な実施形態を実装するソフトウェアを、このようなデバイスに記憶し、コア（740）によって実行することができる。コンピュータ可読媒体は、特定の必要性に応じて、1つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア（740）および具体的にはその中のプロセッサ（CPU、GPU、FPGAなどを含む）に、RAM（746）に記憶されたデータ構造を定義すること、およびソフトウェアによって定義された処理に従ってこのようなデータ構造を修正することを含む、本明細書に記載の特定の処理または特定の処理の特定の部分を実行させることができる。追加的に、または代替として、コンピュータシステムは、回路（例えば、アクセラレータ（744））内でハードワイヤードまたは他の方法で具現化された論理の結果として機能を提供することができ、ソフトウェアの代わりに、またはソフトウェアと共に動作して、本明細書に記載の特定の処理または特定の処理の特定の部分を実行することができる。ソフトウェアへの言及は、論理を包含することができ、適切な場合には逆もまた同様である。必要に応じて、コンピュータ可読媒体への言及は、実行のためのソフトウェアを記憶する回路（集積回路（IC）など）、実行のための論理を具体化する回路、またはこれらの両方を包含することができる。本開示は、ハードウェアおよびソフトウェアの任意の適切な組合せを包含する。

【0108】

本開示は、いくつかの例示的な実施形態を説明してきたが、変更、置換および様々な代替的な等価物が存在し、これらは本開示の範囲内に含まれる。したがって、当業者は、本明細書に明示的に図示または記載されていないが、本開示の原理を具現化し、したがって、その趣旨および範囲内にある多数のシステムおよび方法を考案することができることが理解されよう。

【符号の説明】

【0109】

100 プレゼンテーション
102 ユーザ
200 MPEG－I没入型音声評価プラットフォーム（AEP）
202 評価コンポーネント
204 オフライン符号化／処理コンポーネント
206 MPEG－H3D音声
208 音声信号
210 Max／MSP
212 Unityエンジン
214 ヘッドマウントディスプレイ（HMD）
216 コンパイラ
218 コントローラ
220 シーンファイル
222 指向性ファイル
224 HRTFファイル
226 モデルファイル／映像ファイル
228 MPEG－Iプロセッサ（またはコンプレッサ）
300 音響シーン
302 隙間
304 壁要素
400 視覚シーン
402 壁要素
500 メディアシステム
510 メディアサーバデバイス
511 インタフェース回路
520 ユーザ
530 処理回路
531 シーンプロセッサ
560 メディアクライアントデバイス
561 インタフェース回路
570 処理回路
571 シーンプロセッサ
572 レンダラ
600 処理
700 コンピュータシステム
701 キーボード
702 マウス
703 トラックパッド
705 ジョイスティック
706 マイクロフォン
707 スキャナ
708 カメラ
709 スピーカ
710 タッチスクリーン
720 CD／DVD ROM／RW
721 媒体
722 サムドライブ
723 リムーバブルハードドライブまたはソリッドステートドライブ
740 コア
741 中央処理装置（CPU）
742 グラフィック処理装置（GPU）
743 フィールドプログラマブルゲートエリア（FPGA）
744 ハードウェアアクセラレータ
745 読み取り専用メモリ（ROM）
746 ランダムアクセスメモリ
747 内部大容量記憶装置
748 システムバス
749 汎用データポートまたは周辺バス
750 グラフィックアダプタ
754 インタフェース
755 通信ネットワーク

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版