(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-11
(45)【発行日】2024-07-22
(54)【発明の名称】オーディオビジュアルデータを処理するための装置及び方法
(51)【国際特許分類】
H04S 7/00 20060101AFI20240712BHJP
【FI】
H04S7/00 300
(21)【出願番号】P 2021514025
(86)(22)【出願日】2019-09-10
(86)【国際出願番号】 EP2019074046
(87)【国際公開番号】W WO2020053182
(87)【国際公開日】2020-03-19
【審査請求日】2022-09-08
(32)【優先日】2018-09-13
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】590000248
【氏名又は名称】コーニンクレッカ フィリップス エヌ ヴェ
【氏名又は名称原語表記】Koninklijke Philips N.V.
【住所又は居所原語表記】High Tech Campus 52, 5656 AG Eindhoven,Netherlands
(74)【代理人】
【識別番号】110001690
【氏名又は名称】弁理士法人M&Sパートナーズ
(72)【発明者】
【氏名】デ ブルーイン ウェルナー パウルス ヨセフス
(72)【発明者】
【氏名】コッペンス ジェロエン ジェラルドゥス ヘンリクス
【審査官】渡邊 正宏
(56)【参考文献】
【文献】特表2017-503375(JP,A)
【文献】特開2014-119701(JP,A)
【文献】特開2007-201818(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/01
G06F 3/048-3/04895
G06T 1/00- 1/40
G06T 3/00- 5/50
G06T 9/00- 9/40
G09G 3/00- 3/08
G09G 3/12- 3/16
G09G 3/19- 3/26
G09G 3/30- 3/34
G09G 3/38
H04N 5/38- 5/46
H04N 5/66- 5/74
H04N 7/00- 7/088
H04S 1/00- 7/00
(57)【特許請求の範囲】
【請求項1】
シーンのためのオーディオビジュアルデータを処理するための装置であって、前記装置は、
前記シーンのためのオーディオビジュアルデータを受信するための受信機であって、前記オーディオビジュアルデータは、複数のオーディオ要素を含む前記シーンのためのオーディオデータと、前記シーンの少なくとも第1の画像のための画像データとを含み、前記第1の画像は第1のアスペクト比を有する、受信機と、
前記第1のアスペクト比と異なる第2のアスペクト比を有する第2の画像への前記第1の画像のコンテンツ依存の不均一なマッピングを行うための画像リマッパであって、前記コンテンツ依存の不均一なマッピングを記述するマッピングデータを生成する、画像リマッパと、
前記複数のオーディオ要素のうちの第1のオーディオ要素を、前記マッピングデータに基づいて前記第1のオーディオ要素のための空間特性を変更することによって生成された第2のオーディオ要素と置き換えるオーディオリマッパと、
を備える、装置。
【請求項2】
前記オーディオリマッパは、前記マッピングデータに応じて前記第1のオーディオ要素の空間位置特性を変更することによって前記第2のオーディオ要素を生成する、請求項1に記載の装置。
【請求項3】
前記オーディオリマッパは、前記第1のオーディオ要素の空間位置を、前記第1のアスペクト比における画像位置に対応する位置から前記第2の画像における画像位置に変更することによって、前記第2のオーディオ要素を生成する、請求項1又は2に記載の装置。
【請求項4】
前記オーディオリマッパは、前記マッピングデータに応じて前記第1のオーディオ要素の空間広がり特性を変更することによって前記第2のオーディオ要素を生成する、請求項1から3のいずれか一項に記載の装置。
【請求項5】
前記オーディオリマッパは更に、前記第1のオーディオ要素のオーディオ特性に応じて前記空間特性を変更することによって前記第2のオーディオ要素を生成する、請求項1から4のいずれか一項に記載の装置。
【請求項6】
前記オーディオ特性は、前記第1のオーディオ要素の空間広がり度合いを含む、請求項5に記載の装置。
【請求項7】
前記オーディオリマッパは、前記第1のオーディオ要素の空間広がり度合いが増大する場合、前記第2のオーディオ要素と前記第1のオーディオ要素との間の位置変化を低減する、請求項6に記載の装置。
【請求項8】
前記オーディオリマッパは、前記空間広がり度合いに依拠して、前記空間特性に変更を加えるか否かを選択する、請求項6又は7に記載の装置。
【請求項9】
前記オーディオリマッパは、前記第1のオーディオ要素のオーディオタイプに応じて前記空間特性を変更する、請求項1から8のいずれか一項に記載の装置。
【請求項10】
前記オーディオリマッパは、前記第1のオーディオ要素が前記第1の画像内の画像オブジェクトにリンクしているか否かに応じて前記空間特性を変更する、請求項1から9のいずれか一項に記載の装置。
【請求項11】
前記オーディオリマッパは、前記第1のオーディオ要素が背景オーディオとして指定されているか否かに依拠して前記空間特性を変更する、請求項1から10のいずれか一項に記載の装置。
【請求項12】
前記オーディオリマッパは、前記第2の画像をレンダリングするためのディスプレイの特性に応じて前記空間特性を変更する、請求項1から11のいずれか一項に記載の装置。
【請求項13】
前記オーディオリマッパは、前記第2の画像をレンダリングするためのディスプレイに対する視聴者の位置に応じて前記空間特性を変更する、請求項1から12のいずれか一項に記載の装置。
【請求項14】
シーンのためのオーディオビジュアルデータを処理する方法であって、前記方法は、
前記シーンのためのオーディオビジュアルデータを受信するステップであって、前記オーディオビジュアルデータは、複数のオーディオ要素を含む前記シーンのためのオーディオデータと、前記シーンの少なくとも第1の画像のための画像データとを含み、前記第1の画像は第1のアスペクト比を有する、ステップと、
前記第1のアスペクト比と異なる第2のアスペクト比を有する第2の画像への前記第1の画像のコンテンツ依存の不均一なマッピングを行うステップであって、前記コンテンツ依存の不均一なマッピングは、前記コンテンツ依存の不均一なマッピングを記述するマッピングデータを生成することを含む、ステップと、
前記複数のオーディオ要素のうちの第1のオーディオ要素を、前記マッピングデータに基づいて前記第1のオーディオ要素の空間特性を変更することによって生成された第2のオーディオ要素と置き換えるステップと、
を有する、方法。
【請求項15】
コンピュータプログラムコード手段を備えるコンピュータプログラムであって、前記コンピュータプログラムコード手段は、前記プログラムがコンピュータ上で実行されると、請求項14に記載の方法の全てのステップを実行する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオビジュアルデータを処理するための装置及び方法に関し、特に、排他的ではないが、例えば、仮想現実体験を提供するためのオーディオビジュアルデータの処理に関する。
【背景技術】
【0002】
オーディオビジュアルコンテンツに基づく多岐及び広範にわたる体験が、近年大幅に増大しており、そのようなコンテンツを利用及び消費する新たなサービス及び方式が継続的に開発及び導入されている。特に、より関与したイマーシブな体験をユーザに与えるために、多くの空間的及び対話的サービス、アプリケーション及び体験が開発されている。
【0003】
そのようなアプリケーションの例が、仮想現実(VR)及び拡張現実(AR)アプリケーションであり、これらは急速に主流となっており、消費者市場において多数の解決が目指されている。複数の標準化団体によって複数の規格も開発中である。そのような標準化活動は、例えば、ストリーミング、ブロードキャスト、レンダリング等を含むVR/ARシステムの様々な態様のための規格を積極的に開発している。
【0004】
VRアプリケーションは、異なる世界/環境/シーン内にいるユーザに対応するユーザ体験を提供する傾向があるのに対し、ARアプリケーションは、現在の環境にいるが、追加の情報又は仮想オブジェクト若しくは情報が加えられているユーザに対応するユーザ体験を提供する傾向がある。このため、VRアプリケーションは、完全に包含的な合成により生成された世界/シーンを提供する傾向があるのに対し、ARアプリケーションは、ユーザが物理的に存在する現実のシーンに重ね合わされる部分的に合成された世界/シーンを提供する傾向にある。しかしながら、これらの用語は多くの場合に交換可能に用いられ、高い重複度合いを有する。以下において、仮想現実/VRという用語を用いて、仮想現実及び拡張現実の双方を表す。
【0005】
例として、人気が高まっているサービスは、ユーザがシステムと積極的かつ動的にインタラクトして、レンダリングのパラメータを変更することができ、それによってユーザの位置及び向きにおける動き及び変化に適応させるような方式で、画像及びオーディオを提供するというものである。多くのアプリケーションにおける非常に魅力的な特徴は、例えば、提示されているシーンにおいて視聴者が動き、「見回す」ことを可能にする等の、視聴者の有効な視認位置及び視認方向を変更させる能力である。
【0006】
そのような特徴は、特に、仮想現実体験がユーザに提供されることを可能にすることができる。これは、ユーザが、仮想環境において(比較的)自由に動き周り、自身の位置及び見ている場所を動的に変更することを可能にする。通常、そのような仮想現実アプリケーションは、シーンの3次元モデルに基づき、モデルが特定の要求されたビューを提供するように動的に評価される。この手法は、例えばコンピュータ及びコンソールのためのファーストパーソンシュータのカテゴリ等における、例えばゲームアプリケーションでよく知られている。
【0007】
また、特に仮想現実アプリケーションの場合、提示される画像が3次元画像であることも望ましい。実際に、視聴者のイマージョンを最適化するために、通常、ユーザが提示されるシーンを3次元シーンとして体験することが好ましい。実際に、仮想現実体験は、好ましくは、ユーザが仮想世界に対する自身の独自の位置、カメラの視点、及び時点を選択することを可能にするべきである。
【0008】
仮想レンダリングに加えて、ほとんどのVR/ARアプリケーションは、対応するオーディオ体験を更に提供する。多くのアプリケーションにおいて、オーディオは、好ましくは、オーディオソースが、仮想シーン内の対応するオブジェクトの位置に対応する位置から到来するように知覚される空間オーディオ体験を提供する。このため、オーディオシーン及びビデオシーンは、好ましくは、一貫性があるように知覚され、共に全空間体験を提供する。
【0009】
例えば、仮想現実アプリケーションに用いられるもの等のビデオコンテンツは、プロフェッショナルなカメラシステムから、スマートフォン、タブレット、アクションカム、スマートフォン用(360度)カメラアドオン等に至るまで広範な異なるタイプのデバイスを用いて捕捉されることが増えてきている。更に、全てのこのビデオコンテンツは、同様に広範なディスプレイデバイス、例えば、スマートフォン、TV、タブレット、VR用ヘッドマウントディスプレイ(HMD)等において消費されている。
【0010】
全てのこれらのデバイスは、ビデオコンテンツの本来の及び/又はサポートされるアスペクト比に関する特定の特性を有する。捕捉デバイスの場合、これは主に、ビデオセンサチップのサイズ及び形状によって定義される一方で、表示デバイスの場合、デバイス上で表示されるビデオコンテンツの最適なアスペクト比を決定するのは、ディスプレイのサイズ及び形状である。
【0011】
結果として、多くの場合、ビデオコンテンツのアスペクト比と、コンテンツが表示されるデバイスのアスペクト比とが一致せず、特に、多数のデバイスにおける消費者によってますます多くのユーザ生成コンテンツ(UGC)が捕捉されている。
【0012】
大部分のディスプレイが用いられないこと、又は逆に、ビデオ画像の一部が「カットオフ」されることを防ぐために、ビデオ画像に対しアスペクト比の変換(アップスケーリング)が適用される。しかしながら、1(以上の)次元の線形伸長又は圧縮によって、最も簡単な方式で行われるとき、この結果として、多くの場合に画像の望ましくない歪みが生じる。
【0013】
画像歪みのこの問題を克服するために、近年、より進化した「インテリジェント」ビデオアップスケーリングアルゴリズムが開発された。このアルゴリズムは、画像に対し、ビデオ画像の異なる部分の特徴を考慮に入れ、例えば、前景-背景間、「中央」部分と「周辺」部分との間、及び/又は「オブジェクト」と「テクスチャ」との間の区別を行う不均一なリマッピングを適用する。そのような区別は、例えば局所的コントラストのような純粋なビジュアルパラメータに基づくのみでなく、例えば、オブジェクトを「人物」又は「自動車」として認識する、人工知能(AI)/機械学習に基づいたより進化した分析アルゴリズムに基づいて行うことができる。
【0014】
この「インテリジェント」ビデオアップスケーリングを行うのに必要な画像分析は、計算集約型であり、AIベースの分析の場合、かなり大きな学習データベースも必要とする。
【0015】
この理由により、AIベースのアルゴリズムは、好ましくはエンドユーザデバイスに対し直接行われるのではなく、(リモート)分散コンピュータネットワークに対し行われる。このネットワークは、「クラウド」又は何らかの定義されたコンピュータネットワークである。これは、AIアルゴリズムが、多くのユーザのフィードバックから利益を得て、経時的に、インテリジェントアップスケーリングの主観的品質を改善することができるという利点も有する。
【0016】
MPEGは、近年、上述したインテリジェントアップスケーリング等の、分散した分析、及びメディアコンテンツの処理を可能にすることを目的とした「ネットワークベースのメディア処理」(「NBMP」)に対する新たな標準化活動を開始した。この活動は、イマーシブメディア(VR、AR、MR)のための新たなMPEG-I規格の一部である。
【発明の概要】
【発明が解決しようとする課題】
【0017】
しかしながら、そのようなインテリジェントアスペクト比適応は、多くの場合、提示されるビデオを特定のアスペクト比に適応させることによって改善されたユーザ体験を提供するのに対し、手法自体は最適なユーザ体験を提供しない。
【0018】
このため、シーンのためのオーディオビジュアルデータを処理するための改善された手法が有利である。特に、動作の改善、柔軟性の増大、複雑度の低減、実施の容易化、ユーザ体験の改善、より一貫性のあるシーン知覚、仮想現実体験の改善、並びに/又は性能及び/若しくは動作の改善を可能にする手法が有利である。
【0019】
したがって、本発明は、好ましくは、上述した不利点のうちの1つ又は複数を単独で又は任意の組合せで軽減するか、緩和するか、又はなくすことを目指す。
【課題を解決するための手段】
【0020】
本発明の態様によれば、シーンのためのオーディオビジュアルデータを処理するための装置が提供され、この装置は、シーンのためのオーディオビジュアルデータを受信するための受信機であって、オーディオビジュアルデータは、複数のオーディオ要素を含む、シーンのためのオーディオデータと、シーンの少なくとも第1の画像のための画像データとを含み、第1の画像は第1のアスペクト比を有する、受信機と;第2のアスペクト比を有する第2の画像への第1の画像のコンテンツ依存の不均一なマッピングを行うための画像リマッパであって、第2のアスペクト比は第1のアスペクト比と異なり、画像リマッパは、コンテンツ依存の不均一なマッピングを記述するマッピングデータを生成するように構成される、画像リマッパと;複数のオーディオ要素のうちの第1のオーディオ要素を、マッピングデータに応じて第1のオーディオ要素の空間特性を変更することによって生成された第2のオーディオ要素と置き換えるように構成されたオーディオリマッパとを備える。
【0021】
これは、多くの実施形態において改善されたユーザ体験を提供し、多くのシナリオにおいて、オーディオ及びビデオの改善した、より一貫性のある知覚を提供し、これは通常、より現実的でイマーシブな体験につながる。更に、現実的で低複雑度の実施が提供される。
【0022】
シーンの改善された、より自然な知覚が通常達成され、多くのシナリオにおいて、オーディオ及びビジュアルシーン表現の結果として生じる干渉及び非一貫性が軽減又は低減される。手法は、仮想現実(VR)(拡張現実(AR)を含む)アプリケーションの場合に特に有利である。
【0023】
手法は、多くの実施形態において、低い複雑度及びリソース使用量を維持しながら、改善された性能を提供する。
【0024】
本発明者らは、コンテンツに適応したアスペクト比の適応により、特定のレンダリング表示手段に対するレンダリングされるビデオの改善された適応がもたらされるのに対し、いくつかの状況では、結果として、適応に起因したユーザ体験全体の劣化が生じ、結果としてオーディオの空間的知覚とビデオの空間的知覚との間の潜在的相違が生じる場合もあることを認識した。本発明者らは、特定の表示手段及びアスペクト比に一致させるためのオーディオの所定の適応の手法により、準最適な結果が生じる傾向にあることを更に認識した。本発明者らは、ユーザ知覚全体の改善、特に一貫性のある手法は、オーディオに対しリマッピングを適用することによって達成することができることを認識した。ここで、画像リマッパは、実行される特定のリマッピングを記述するマッピングデータを生成し、オーディオリマッピングは、このマッピングデータに基づいて適応される。
【0025】
コンテンツ依存の不均一なマッピングは、第1の画像のコンテンツに応じて適応される非線形マッピングである。マッピングデータは、異なる画像セグメントが、第1の画像から第2の画像へどのようにシフトしたかを示す。シフトは、例えば絶対シフトであるか、又は異なる画像セグメント/位置/ピクセル間の相対シフトである。コンテンツ依存の不均一なマッピングは、(少なくともいくつかの位置について)第2の画像内の位置に対する第1の画像の位置の2次元マッピングである。2次元マッピングは、表示面におけるものであり、位置は、表示面位置である。コンテンツ依存の不均一なマッピングは、画像アスペクト比が変化するコンテンツ依存の不均一なマッピングである。
【0026】
マッピングデータは、(少なくともいくつかの位置について)第1の画像内の位置と、第2の画像内の位置との間の関係を記述することによってコンテンツ依存の不均一なマッピングを記述する。第1の画像及び/又は第2の画像における位置は、表示面における2次元位置である。第1の画像及び/又は第2の画像における位置は、絶対位置及び/又は相対位置である。
【0027】
第2のオーディオ要素は、第1のオーディオ要素と同じオーディオコンテンツであるが、異なる位置及び/又は空間広がり特性等の異なる空間特性を有するオーディオコンテンツを表す。
【0028】
多くの実施形態において、装置は、(画像リマッパ及びオーディオリマッパによる変更後の)オーディオデータ及びビジュアルデータに基づいてシーンをレンダリングするための機能を含む。しかしながら、他の実施形態において、そのようなレンダリングは装置に対し外部で行われる。
【0029】
アスペクト比は、画像又はスクリーンの幅対高さの比である。
【0030】
本発明の任意選択の特徴によれば、オーディオリマッパは、マッピングデータに応じて第1のオーディオ要素の空間位置特性を変更することによって第2のオーディオ要素を生成するように構成される。
【0031】
これは、多くの実施形態において、特に有利な性能及び/又はユーザ体験を提供する。これは通常、シーンのオーディオ表現とビジュアル表現との間の一貫性の改善をもたらす。
【0032】
本発明の任意選択の特徴によれば、オーディオリマッパは、第1のオーディオ要素の空間位置を、第1のアスペクト比における画像位置に対応する位置から第2の画像における画像位置に変更することによって、第2のオーディオ要素を生成するように構成される。
【0033】
これは、多くの実施形態において、特に有利な性能及び/又はユーザ体験を提供する。
【0034】
本発明の任意選択の特徴によれば、オーディオリマッパは、マッピングデータに応じて第1のオーディオ要素の空間広がり特性を変更することによって第2のオーディオ要素を生成するように構成される。
【0035】
これは、多くの実施形態において、改善されたユーザ体験を提供し、特に、提供されるビジュアル出力に適合した体験を提供するようにサウンドステージを適応させる際の更なる柔軟性をもたらす。空間広がり特性は、物理的サイズ又は知覚サイズの度合いを示し、ユーザのビュー、ディスプレイ、及び/又は到来する音圧波の到来方向範囲のどれだけのエリアをオーディオビジュアルオブジェクトがカバーするかを示す。音要素がポイントソースよりもどれだけ大きいか、又はどれだけ大きくレンダリングされるべきか、すなわちその拡散性が示される。異なる実施形態における空間広がりのための適切な尺度は、例えば、絶対寸法、角度、半径である。
【0036】
本発明の任意選択の特徴によれば、オーディオリマッパは更に、第1のオーディオ要素のオーディオ特性に応じて空間特性を変更することによって第2のオーディオ要素を生成するように更に構成される。
【0037】
これにより、改善された性能及び/又はユーザ体験が提供される。オーディオ特性は音響特性である。
【0038】
本発明の任意選択の特徴によれば、音響特性は、第1のオーディオ要素の空間広がり度合いを含む。
【0039】
これにより、変更された空間特性の決定のより正確な適応が可能になる。
【0040】
本発明の任意選択の特徴によれば、オーディオリマッパは、第1のオーディオ要素の空間広がり度合いが増大する場合、第2のオーディオ要素と第1のオーディオ要素との間の位置変化を低減するように構成される。
【0041】
これは、多くの実施形態において、改善された性能及び/又は改善されたユーザ体験を提供する。
【0042】
本発明の任意選択の特徴によれば、オーディオリマッパは、空間広がり度合いに依拠して、空間特性に変更を加えるか否かを選択するように構成される。
【0043】
これは、多くの実施形態において、改善された性能及び/又は改善されたユーザ体験を提供する。いくつかの実施形態では、オーディオリマッパは、空間広がり度合いに依拠して、第1のオーディオ要素を第2の要素と置き換えるか否かを選択するように構成される。
【0044】
本発明の任意選択の特徴によれば、オーディオリマッパは、第1のオーディオ要素のオーディオタイプに応じて空間特性を変更するように構成される。
【0045】
これは、多くの実施形態において、改善された性能及び/又は改善されたユーザ体験を提供する。オーディオタイプは、オーディオチャネル、高次アンビソニックスオーディオ要素、及びオーディオオブジェクトの群からの1つ又は複数を含む。
【0046】
本発明の任意選択の特徴によれば、オーディオリマッパは、第1のオーディオ要素が第1の画像内の画像オブジェクトにリンクしているか否かに応じて空間特性を変更するように構成される。
【0047】
これは、多くの実施形態において、改善された性能及び/又は改善されたユーザ体験を提供する。
【0048】
本発明の任意選択の特徴によれば、オーディオリマッパは、第1のオーディオ要素が背景オーディオとして指定されているか否かに依拠して空間特性を変更するように構成される。
【0049】
これは、多くの実施形態において、改善された性能及び/又は改善されたユーザ体験を提供する。
【0050】
いくつかの実施形態では、オーディオリマッパは、オーディオチャネルである複数のオーディオ要素のうちのオーディオ要素に対し不均一な空間拡大を適用するように構成される。
【0051】
本発明の任意選択の特徴によれば、オーディオリマッパは、第2の画像をレンダリングするためのディスプレイの特性に応じて空間特性を変更するように構成される。
【0052】
これは、多くの実施形態において、改善された性能及び/又は改善されたユーザ体験を提供する。ディスプレイの特性は、特に、ディスプレイのサイズである。
【0053】
本発明の任意選択の特徴によれば、オーディオリマッパは、第2の画像をレンダリングするためのディスプレイに対する視聴者の位置に応じて空間特性を変更するように構成される。
【0054】
これは、多くの実施形態において、改善された性能及び/又は改善されたユーザ体験を提供する。視聴者位置は、公称若しくは推定視聴者位置であるか、又は例えば、測定及び識別された視聴者位置である。
【0055】
本発明の態様によれば、シーンのためのオーディオビジュアルデータを処理する方法が提供される。この方法は、シーンのためのオーディオビジュアルデータを受信することであって、オーディオビジュアルデータは、複数のオーディオ要素を含む、シーンのためのオーディオデータと、シーンの少なくとも第1の画像のための画像データとを含み、第1の画像は第1のアスペクト比を有することと;第2のアスペクト比を有する第2の画像への第1の画像のコンテンツ依存の不均一なマッピングを行うことであって、第2のアスペクト比は第1のアスペクト比と異なり、コンテンツ依存の不均一なマッピングは、コンテンツ依存の不均一なマッピングを記述するマッピングデータを生成することを含むことと;複数のオーディオ要素のうちの第1のオーディオ要素を、マッピングデータに応じて第1のオーディオ要素の空間特性を変更することによって生成された第2のオーディオ要素と置き換えることとを有する。
【0056】
本発明のこれらの及び他の態様、特徴及び利点は、以下に説明される実施形態を参照して明らかとなり、解明される。
【0057】
本発明の実施形態を、単なる例として図面を参照して説明する。
【図面の簡単な説明】
【0058】
【
図1】仮想現実体験を提供するためのクライアントサーバ構成の例を示す。
【
図2】本発明のいくつかの実施形態による、オーディオ装置の要素の例を示す。
【
図3】本発明のいくつかの実施形態による、オーディオ装置のレンダリングの例を示す。
【
図4】本発明のいくつかの実施形態による、オーディオ装置のレンダリングの例を示す。
【発明を実施するための形態】
【0059】
以下の説明は、仮想現実システムに適用可能な本発明の実施形態に焦点を当てる。しかしながら、本発明は、本出願に限定されず、オーディオビジュアルデータの配信、処理及び/又はレンダリングのための多くの他のシステムに適用されてもよいことが理解されよう。
【0060】
説明は、特に、インターネット等の公衆ネットワークである、ネットワークによってサポートされるクライアントサーバ手法の文脈におけるオーディオビジュアルデータの扱い及び処理に更に焦点を当てる。しかしながら、ここでもまた、これは説明される原理及び手法の例示的な用途にすぎず、これらは、例えば、オーディオビジュアルデータが処理/レンダリングデバイスに直接送信される専用データストリームの形態で提供されるシステム、又はレンダリングデバイス自体がオーディオビジュアルデータを索出又は生成する実施形態を含む、多くの他のシステム及び用途において用いられてもよいことが理解されよう。
【0061】
ユーザが仮想世界又は拡張世界を動き回ることを可能にする仮想(拡張を含む)体験は、ますます人気になっており、そのような需要を満たすサービスが開発されている。多くのそのような手法において、ビジュアルデータ及びオーディオデータは、ユーザの(又は視聴者の)現在の姿勢を反映するように動的に生成される。
【0062】
この分野において、配置及び姿勢という用語は、位置及び/又は方向/向きのための一般的な用語として用いられる。例えば、オブジェクト、カメラ、頭部、又はビューの位置及び方向/向きの組合せは、姿勢又は配置と呼ばれる。このため、配置又は姿勢の指示は、6つの値/成分/自由度を含み、各値/成分は通常、対応するオブジェクトの位置/ロケーション又は向き/方向の個々の特性を記述する。当然ながら、多くの状況において、例えば、1つ又は複数の成分が固定又は無関係であるとみなされる場合、配置又は姿勢は、より少ない成分によって表される(例えば、全てのオブジェクトが同じ高さにあり、水平方向の向きを有するとみなされる場合、4つの成分がオブジェクトの姿勢の完全な表現を提供する)。以下において、姿勢という用語は、1つ~6つの値(可能な最大自由度に対応する)によって表される位置及び/又は向きを指すのに用いられる。
【0063】
通常、仮想現実アプリケーションは、左眼及び右眼について別個のビュー画像の形態で3次元出力を生成する。次に、これらは、VRヘッドセットの通常個別の左眼ディスプレイ及び右眼ディスプレイ等の適切な手段によってユーザに提示される。他の実施形態において、1つ又は複数のビュー画像は、例えば、自動立体ディスプレイ上に表示されるか、又は実際に、いくつかの実施形態では、単一の2次元画像のみが(例えば、従来の2次元ディスプレイを用いて)生成される。
【0064】
同様に、所与の視聴者/ユーザ/リスナーの姿勢について、シーンのオーディオ表現が提供される。オーディオシーンは、通常、オーディオソースが所望の位置から発せられるように知覚される空間体験を提供するようにレンダリングされる。オーディオソースはシーンにおいて静的であるため、ユーザの姿勢の変化の結果として、ユーザの姿勢に対するオーディオソースの相対位置の変化が生じることになる。したがって、オーディオソースの空間的な知覚は、ユーザに対する新たな位置を反映するように変化するべきである。これに応じて、オーディオレンダリングは、ユーザの姿勢に依拠して適応される。
【0065】
多くの実施形態において、オーディオレンダリングは、ヘッドフォンを装着しているユーザに所望の空間的効果を提供するための、頭部関連伝達関数(HRTF)又はバイノーラル室内インパルス応答(BRIR)(又は類似のもの)を用いたバイノーラルレンダリングである。しかしながら、いくつかのシステムにおいて、オーディオは、代わりに、ラウドスピーカシステムを用いてレンダリングされてもよく、各ラウドスピーカの信号は、ユーザにおける全体効果が所望の空間体験に対応するようにレンダリングされてもよいことが理解されよう。
【0066】
視聴者又はユーザ姿勢入力は、異なる用途において異なる形で決定される。多くの実施形態において、ユーザの物理的動きが直接追跡される。例えば、ユーザエリアを調査するカメラが、ユーザの頭部(又は更には眼)を検出及び追跡する。多くの実施形態において、ユーザは、外部手段及び/又は内部手段によって追跡することができるVRヘッドセットを装着する。例えば、ヘッドセットは、ヘッドセットの、このため頭部の動き及び回転に関する情報を提供する加速度計及びジャイロスコープを含む。いくつかの例において、VRヘッドセットは、信号を送信するか、又は外部センサがVRヘッドセットの位置を特定することを可能にする(例えば仮想)識別子を含む。
【0067】
いくつかのシステムにおいて、視聴者の姿勢は、手動の手段によって、例えば、ユーザがジョイスティック又は類似の手動入力を手動で制御することによって提供される。例えば、ユーザは、一方の手で第1のアナログジョイスティックを制御することにより仮想シーン内で仮想視聴者を手動で動き回らせ、他方の手で第2のアナログジョイスティックを手動で動かすことにより仮想視聴者が見ている方向を手動で制御する。
【0068】
いくつかのシステムにおいて、VRアプリケーションは、視聴者から離れて実施及び実行される。例えば、ユーザにローカルなデバイスが動き/姿勢データを検出/受信し、このデータがリモートデバイスに送信され、リモートデバイスは、データを処理して視聴者の姿勢を生成する。次に、リモートデバイスは、シーンを記述するシーンデータに基づいて、視聴者姿勢のための適切な視認画像を生成する。次に、ビュー画像は、視聴者にローカルなデバイスに送信され、このデバイスにおいて提示される。例えば、リモートデバイスは、ローカルデバイスによって直接提示されるビデオストリーム(通常、立体/3Dビデオストリーム)を直接生成する。同様に、リモートデバイスは、仮想オーディオ環境を反映するオーディオシーンを生成する。これは、多くの実施形態において、仮想オーディオ環境における異なるオーディオソースの相対位置に対応するオーディオ信号を生成することによって、例えば、頭部姿勢に対するこれらの現在の位置に対応する個々のオーディオ成分にバイノーラル処理を適用することによって行われる。このため、そのような例において、ローカルデバイスは、動きデータの送信、並びに受信したビデオ及びオーディオデータの提示を除いて、いかなるVR処理も実行しない。
【0069】
多くのシステムにおいて、機能は、ローカルデバイスとリモートデバイスとの間で分散される。例えば、ローカルデバイスは、受信した入力及びセンサデータを処理して視聴者姿勢を生成し、これらはリモートVRデバイスに次々と送信される。次に、リモートVRデバイスは、対応するビュー画像を生成し、これらを提示のためにローカルデバイスに送信する。他のシステムにおいて、リモートVRデバイスは、ビュー画像を直接生成せず、関連シーンデータを選択し、これをローカルデバイスに送信する。ローカルデバイスは、提示されるビュー画像を生成する。例えば、リモートVRデバイスは、最も近い捕捉点を識別し、対応するシーンデータ(例えば、捕捉点からの球面画像及び奥行きデータ)を抽出し、これをローカルデバイスに送信する。次に、ローカルデバイスは、受信したシーンデータを処理して、特定の現在のビュー姿勢のための画像を生成する。
【0070】
同様に、リモートVRデバイスは、複数のオーディオ要素によってオーディオシーンを表すオーディオデータを生成する。これらのオーディオ要素は、オーディオシーン内の異なるオーディオソースに対応する、異なるオーディオ成分、オーディオオブジェクト、オーディオ信号、オーディオチャネル信号等である。これらのオーディオ要素のうちのいくつか又は全てについて、オーディオビジュアルデータは、いくつかの実施形態において、オーディオソースを示す位置情報(例えば、移動するオブジェクトの場合、動的に変化する)、及び潜在的に他の空間データ又は音響メタデータ(例えば、所与のオーディオソースがどのように拡散又は残響するか)を更に含む。次に、ローカルVRデバイスは、例えば、オーディオ成分のオーディオソースの相対位置を反映する適切なバイノーラル処理を適用することによって、そのような信号を適切にレンダリングする。
【0071】
図1は、リモートサーバ101が、例えばインターネット等のネットワーク105を介してクライアントデバイス103と連携するVRシステムのそのような例を示す。リモートサーバ101は、潜在的に多数のクライアントデバイス103を同時にサポートするように構成される。
【0072】
そのような手法は、多くのシナリオにおいて、例えば、様々なデバイス、通信要件等についての複雑性とリソース要件との間の改善されたトレードオフを提供する。例えば、視聴者姿勢及び対応するシーンデータは、大きな間隔で送信され、ローカルデバイスが、視聴者姿勢及び受信したシーンデータをローカルに処理して、リアルタイムの低遅延体験を提供する。これにより、例えば、低遅延体験を提供しながら、かつシーンデータが集中して記憶、生成及び維持されることを可能にしながら、必要とされる通信帯域幅を大幅に低減させる。これは例えば、VR体験が複数のリモートデバイスに提供される用途に適している。
【0073】
いくつかの実施形態では、サーバ101は、リアルタイムビデオストリーム、及び(クライアント103から受信されるデータから特定されるような)視聴者の現在の姿勢に対応する関連リアルタイムオーディオストリームを含む連続オーディオビジュアルデータを生成する。このリアルタイムオーディオビジュアルストリームは、クライアント103によって直接レンダリングすることができるように生成され、特に、いくつかの実施形態では、クライアント103において、姿勢若しくは視点シフト処理、又は仮想現実環境処理は、実行も要求もされない。これは、例えば、多くのモバイルデバイス又は低リソースヘッドセットデバイス等の、多くの低処理リソースデバイスに適している。クライアントにおいて必要とされる処理は最小限まで低減される。
【0074】
そのような手法はまた、体験が、複数の人物がシーンの同じ知覚を有することに興味がある共有体験であるシナリオに特に適している。そのようなシナリオは、例えば、スポーツイベントからの3Dブロードキャストを含む、ブロードキャストにおいて一般的である。この手法は、従来のオーディオビジュアルブロードキャストに限定されず、視認姿勢が動的に特定され、変動しているシステムにおいても用いられる。共有体験は、いくつかのVR体験及びサービスにも適用可能である。
【0075】
例えば、eスポーツブロードキャストの場合、プレイヤーは、仮想現実環境における動きを制御し、特定の姿勢について結果として得られるオーディオビジュアルデータも、サーバ101によって多数のパッシブクライアント103に配信される。そのような実施形態において、個々のパッシブクライアントにおけるユーザは、本質的に、プレイヤーの眼を通じてeスポーツイベントを見る。
【0076】
例えば、プレイヤーがファーストパーソンシューティングゲームプレイしているeスポーツイベントについて、個々のプレイヤーが、自身のアバターを制御しており、バトルが行われるシーン内を動き回っている。他のプレイヤーは、そのアバターを見ることができるが、プレイヤー自体は、自身のアバター(又は少なくともその全て)が見えず、代わりに、自身のアバターが体験することになるシーンのビューを見る(すなわち、仮想シーン内の人物がその観点から見ることになる)。eスポーツは、近年、非常に人気のあるスポーツとなっており、非常に大きなイベントは数万人の視聴者を呼び込み、視聴者はゲームがプレイされている会場における大型ディスプレイ上でゲームを直接見ることができる。ディスプレイは、例えば、シーンのオーバービューに、個々のプレイヤーの位置の指示及び個々のプレイヤーのビューを提示する。
【0077】
加えて、そのようなeスポーツイベントはまた、多くの場合に、会場にいない観客にストリーミングされ、多くの場合に、非常に大人数の視聴者にストリーミングされ、場合によっては、リアルタイムで見ている視聴者の数が数十万人又は更には数百万人になり得る。そのような場合、プレイヤーのうちの1人について、そのプレイヤーの入力及び制御に依拠して生成されるビューが、結果として、そのプレイヤーに提示されるのみでなく、異なるロケーション及び状況における、異なる閲覧機器を用いた非常に多数の別個の視聴者にもライブストリーミングされるビュー画像(ビデオシーケンス)となる。
【0078】
コンテンツを複数の、特に多数のクライアントに提供することに関する問題は、クライアントの特性、特にレンダリング手段が、異なるデバイスについて大幅に変動し、サーバにおいて知られていない場合があることである。したがって、多くの手法において、サーバ101は、所与の公称又は標準化デバイスについてオーディオビジュアルデータストリームを生成する。特に、データストリームは、所与の公称レンダリングディスプレイのために生成される。そのような検討事項は、分解能、色深度、アスペクト比、サイズ等を含む。ローカルレンダリング手段が想定された特性に一致しない場合、デバイス103において適応がローカルに行われる。
【0079】
特に、個々のクライアントにおいて用いられる特定のディスプレイに一致するようにアスペクト比を適応させることは、ビジュアル表現に非常に直接的な影響を与えるため、ユーザ体験に大きな影響を及ぼす。例えば、誤ったアスペクト比を用いた結果として、画像の周りに黒いバーが生じ、多くの低複雑度のアスペクト比の適応の結果として、大きな幾何学的歪みが生じる。
【0080】
図2は、受信したオーディオビジュアルデータストリームを、ビジュアルデータが提示されることになるディスプレイの特定のアスペクト比に一致するように適応させるように構成されたクライアントデバイス103の例を示す。
【0081】
クライアントデバイス103は、シーンのオーディオビジュアルデータを受信するように構成された受信機201を備え、オーディオビジュアルデータは、シーンのビジュアル面及びオーディオ面の双方を記述するデータを含む。オーディオビジュアルデータは、特に、少なくとも、シーンの第1の画像についての画像データを含み、特に、説明される実施形態において、ビデオシーケンスのフレームの形式において画像を提供するビデオストリームを含む。第1の画像は、所与のアスペクト比(すなわち、画像の幅及び高さ間の所与の比)を有する。多くの実施形態において、シーンのための特定の視認姿勢に対応する左眼画像及び右眼画像の双方についてのフレームを含む3Dビデオストリームが提供される。
【0082】
加えて、オーディオビジュアルデータは、シーンについてのオーディオデータを含み、ここで、オーディオデータは、シーンについての複数のオーディオ要素を記述する。例えば、オーディオデータは、オーディオチャネル、オーディオオブジェクト、オーディオチャネル、高次アンビソニックス等の形態の異なるオーディオ要素を含む。いくつかの実施形態では、オーディオデータのオーディオ要素は、全て同じタイプであるが、多くの実施形態において、オーディオシーンは、異なるオーディオソースについて異なるタイプのオーディオ要素を含むオーディオデータによってオーディオシーンを表す。
【0083】
このため、多くの実施形態において、受信オーディオデータは、異なるタイプのオーディオ要素である複数の異なるオーディオ要素によって、ビデオデータにより視覚的に表されるシーンに対応するオーディオシーンを記述する。
【0084】
例えば、いくつかのオーディオ要素は、シーン内の特定の明確に定義された空間位置(すなわち、潜在的に、仮想シーン内の仮想空間位置)を有する単一のオーディオソースに対応する。そのようなオーディオソースは、例えば、関連付けられた位置データを有する特定の個々のオーディオオブジェクトによって表される。例えば、オーディオオブジェクトは、オーケストラにおける各楽器及び/又は所与のシーンにおける各人物について提供される。他のオーディオ要素は、異なるオーディオソースの組合せに対応し、これらは通常、より明確に定義されていない空間位置を有する。例えば、シーン内の一般的背景又は周囲音を表す背景オーディオ周囲信号が提供される。そのようなオーディオ信号は、単一のオーディオソースを直接的に表すオーディオオブジェクトよりも拡散し、広がっている。
【0085】
受信機201は、画像データを供給される画像リマッパ203に結合され、すなわち、受信機201は、少なくとも1つの画像についてであるが、通常はビデオシーケンスの多数のフレームについて画像データを受信する。画像リマッパ203は、第1の画像と、元のアスペクト比と異なるアスペクト比(第2のアスペクト比)を有する第2の画像とのコンテンツ依存の不均一なマッピングを行うように構成される。例えば、受信オーディオビジュアルデータは、例えば、偏在する16:9のアスペクト比等の所与のアスペクト比のピクチャ又はフレームを含む。しかしながら、
図2の装置は、異なるアスペクト比を有するディスプレイを駆動するように構成される。例えば、ディスプレイは、4:3のアスペクト比、21:9のアスペクト比又は18:9のアスペクト比である(これはVRヘッドセットのために多くの場合に用いられる)。
【0086】
画像リマッパ203は、異なるアスペクト比を有する変更された画像を生成するように構成される。例えば、受信オーディオビジュアルデータにおいて受信された第1の画像は、異なるアスペクト比を有する第2の画像を提供するように変更される。アスペクト比変換は、単に入力アスペクト比からディスプレイ比への画像の標準的な所定の伸長/圧縮ではなく、1つのアスペクト比から別のアスペクト比への不均一でコンテンツ依存のマッピングである。マッピングにおいて、画像のいくつかの部分は、他の部分と異なる関数に従って伸長/再位置決めされる。画像リマッパ203は、単に所定のマッピングを適用するのではなく、画像内のコンテンツに依拠して、適用されるマッピングを適応させる。
【0087】
例えば、多くの実施形態において、画像リマッパ203は、画像をセグメントに分割し、画像の少なくとも2つの異なるセグメントに異なるマッピングを適用する。例えば、画像リマッパ203は、セグメントを複数のカテゴリ又はタイプに分割し、セグメントの各タイプに特定のリマッピングアルゴリズムを適用する。結果として得られるリマッピングされたセグメントは、次に、例えば、リマッピング後に重複しているセグメントのエリアの前景セグメントを選択し、マッピングから(例えば背景セグメントから)生じる孔を埋めることによって、第2の画像に組み合わせられる。
【0088】
特定の低複雑度の例として、画像リマッパ203は、受信画像のセグメンテーションを行う。セグメンテーションは、画像コンテンツ(例えば、色、明るさ等)に基づき、場合によっては、当業者によく知られているように、受信画像に関連付けられた奥行きマップに基づく。セグメンテーションに基づいて、セグメントは、それぞれ顕著なオブジェクト(例えば、前景オブジェクト、人物に対応するオブジェクト、検出された顔等)に対応するセグメントと、顕著でないオブジェクト(例えば背景を含む)に対応するセグメントとを含むグループに分割される。全ての顕著でないオブジェクト/セグメントによって中間画像が形成され、この画像に所定のアスペクト比マッピング(例えば所定の伸長)が適用される。例えば、単純な所定の均一な伸長又は所定のアナモルフィックな伸長を適応して、ディスプレイに対応するアスペクト比を有する第2の中間画像を生成する。次に、画像内の孔が、例えば、当業者に既知の近傍エリアからの外挿を用いた充填により、又は間の背景画像の伸長により埋められる。
【0089】
新たな位置が顕著なオブジェクトについて決定され、これらは通常、顕著でない画像の所定のマッピングの場合より、元の画像と比較して小さな歪みを有するように決定される。例えば、顕著なオブジェクト/画像は全て、互いに対し変化しない位置を有するように決定され、すなわち、顕著なオブジェクト間の距離は、同じままに維持される。絶対位置は、例えば、画像の中央から同じオフセットを有するように決定される。最終的に、顕著なオブジェクトが第2の中間画像の上に重ねられ、元の画像に対応するが、通常、画像/ビデオがレンダリングされることになるディスプレイのアスペクト比等の所望のアスペクト比を有する、出力画像が生成される。
【0090】
そのような例の結果として、例えば、顕著なオブジェクトが、互いに対して、及び画像の中央に対して同じ位置に留まっているが、背景が新たなアスペクト比に一致するように伸長されていることになる。例えば、浜辺に立っている2人の人物について、生成される画像では、2人の人物が表示画像内の同じ位置に立ち、互いに対し同じ近接性を有しているが、背景の浜辺及び海が全体画像を埋めるように伸長されている。
【0091】
これは、単に低複雑度の例であり、多くの異なる、多くの場合、より複雑なアルゴリズムが代わりに用いられる場合があることが理解されよう。例は、2017年7月のトリノ(イタリア)の第119回MEPG会議の制作文書である「Use cases and draft requirements for Network Based Media Processing (v1)」に見ることができる。
【0092】
画像リマッパ203は、ビデオレンダラ205に結合され、ビデオレンダラ205は、画像リマッパ203からリマッピングされた画像/フレームを受信し、画像/フレームが表示されるディスプレイ(図示せず)に適した駆動信号を生成する。ビデオレンダラの厳密な機能は、特定のディスプレイの特性/特徴及び特定の画像特性に依拠することが理解されよう。例えば、ビデオレンダラ205は、特定のビデオ/ディスプレイドライバ規格に従って出力信号を生成するように構成される。
【0093】
例えば、画像リマッパ203は、いくつかの実施形態において、非符号化データに対し動作し、すなわち、画像は、符号化されていないピクセル値(例えば、直接RGBピクセル値)によって表され、画像リマッパ203の出力は、それに応じて、符号化されていないピクセル値となる。装置は、ビデオ圧縮(例えば、VESAディスプレイストリーム圧縮)を含むディスプレイ規格を用いてモニタを駆動するように構成され、ビデオレンダラは、画像リマッパ203からのデータを圧縮し、特定の規格に従って圧縮ビデオストリームを生成するように構成される。
【0094】
別の例として、デバイスが指定された専用のVRヘッドセットを駆動しており、画像リマッパ203によって提供される画像が符号化される場合、ビデオレンダラ205は、ビデオ画像を復号して、例えば、ピクセルごとにRGB値をレンダリングし、これらは、VRヘッドセットのディスプレイのピクセルごとに適切な駆動信号に変換される。次に、駆動信号は、ヘッドセットのディスプレイを直接駆動するために、外部ディスプレイパネルドライバに供給される。
【0095】
別の例として、ビデオレンダラ205は、画像リマッパ203からの画像データを追加及び構造化することによって、ディスプレイに適したデータストリームを生成するように構成される。例えば、例としてHDMI(登録商標)又はDisplayPortインタフェースを用いてディスプレイと通信するために、ビデオレンダラ205は、クロック、誤り補正、制御データ等を加えて、特定の規格に一致するビットストリームを生成する。
【0096】
このため、ビデオレンダラ205は、画像リマッパ203からの画像の画像データと、後続のディスプレイによって必要とされる信号/データストリームとの間で必要とされる、必要な変換、処理及び転換を行う。
【0097】
図2の装置は、用いられる特定のディスプレイに対し受信ビジュアルデータをしかるべく適応させ、改善された画像及びビジュアル体験を提供する。しかしながら、本発明者らは、そのような柔軟性のあるコンテンツベースのアスペクト比マッピングに関する問題は、これによりユーザ体験のオーディオ側が劣化することであることを更に認識した。本発明者らは、画像リマッピングの結果として、不正確又は人工的であるオーディオの知覚体験が増大する場合があり、全体体験がより自然でないと知覚される場合があることを認識した。例えばそのような問題に対処するために、
図2の装置は、レンダリングの前にオーディオ側を変更する機能を含む。
【0098】
装置は、受信機201からオーディオデータを受信するオーディオリマッパ207を含む。したがって、オーディオリマッパ207は、オーディオシーンの複数のオーディオ要素を記述するオーディオデータを受信する。オーディオリマッパ207は、受信オーディオ要素のうちの1つ又は複数の空間特性を変更するように構成される。特に、オーディオリマッパ207は、オーディオシーン/オーディオデータにおける第1のオーディオ要素を、例えば、異なる位置又は異なる広がり/位置等の変更された空間特性を有する第2のオーディオ要素と置き換える。
【0099】
オーディオリマッパ207は、オーディオレンダラ209に結合され、オーディオレンダラ209は、変更されたオーディオ要素を含むオーディオデータを受信する(すなわち、第1のオーディオ要素が置き換えられているため、第1のオーディオ要素ではなく第2のオーディオ要素が受信される)。オーディオレンダラ209は、任意の適切なレンダリング手法を用いて受信オーディオデータをレンダリングするように構成される。オーディオレンダラ209は、例えば空間オーディオレンダリングの場合、ラウドスピーカを用いて、又は例えばヘッドフォンを用いて(バイノーラルレンダリング)、オーディオ信号を生成する。
【0100】
ラウドスピーカを用いた、特にサラウンドサウンドシステムにおける、空間オーディオのレンダリングのための多くのアルゴリズム及び手法が当業者に知られ、本発明を損なうことなく任意の適切な手法が用いられることが理解されよう。
【0101】
例えば、オーディオレンダラ209は、中央スピーカ、左フロントスピーカ、右フロントスピーカ、左サラウンドスピーカ、及び右サラウンドスピーカを有するサラウンドサウンド構成における5つのラウドスピーカのためのオーディオ信号を生成する。オーディオレンダラ209は、ラウドスピーカごとのオーディオ信号を含む1組のオーディオ信号を生成する。次に、信号は個々のラウドスピーカのための駆動信号を生成するように増幅される。
【0102】
いくつかの実施形態では、ラウドスピーカを用いてレンダリングされているオーディオ信号は、例えば、ステレオダウンミックスとして受信され、オーディオレンダラ209は、アップミキシングを行い、場合によっては直接レンダリングされるサラウンド信号を生成する。そのような手法は、例えば、ユーザの姿勢に直接関係していない拡散音を表すオーディオ要素に有用である。例えば、一般的な拡散した周囲のオーディオを表すオーディオ要素がステレオダウンミックスとして提供され、これを直接アップミキシングして、適切なサラウンドサウンドオーディオチャネルを提供することができる。結果として得られるアップミキシングされた信号の各々を、他のオーディオ要素から生成された対応するスピーカのための信号と組み合わせて、1組の出力信号が生成される。
【0103】
ラウドスピーカセットアップを介してレンダリングされるいくつかのオーディオ要素は、例えばオーディオオブジェクトの形態で提供される。そのようなオーディオオブジェクトは、特定のオーディオを記述するオーディオデータ及びオーディオソースの位置を記述する関連する位置データによって表される。位置データ及びラウドスピーカの位置(サラウンドサウンドスピーカセットアップの実際の位置であるか又は公称位置であるか)に基づいて、オーディオレンダラ209は、オーディオ信号を異なるサラウンドサウンドチャネルにマッピングする行列又はベクトルの係数を決定する。
【0104】
多くの実施形態において、オーディオレンダラ209によるオーディオレンダリングは、ヘッドフォンを装着しているユーザに対し所望の空間効果を提供するために適切なバイノーラル伝達関数を用いたバイノーラルレンダリングプロセスである。例えば、オーディオレンダラ209は、バイノーラル処理を用いて、特定の位置から到達するように知覚されるオーディオ成分を生成するように構成される。
【0105】
バイノーラル処理は、リスナーの耳に対し個々の信号を用いた音源の仮想位置決めによって空間体験を提供するのに用いられることが知られている。適切なバイノーラルレンダリング処理を用いると、リスナーが任意の所望の方向からの音を知覚するために、鼓膜において必要とされる信号を計算することができ、信号を、所望の効果を提供するようにレンダリングすることができる。次に、これらの信号は、ヘッドフォン又はクロストークキャンセル方法(密集したスピーカにわたってレンダリングするのに適している)のいずれかを用いて鼓膜において再現される。バイノーラルレンダリングは、リスナーの耳に信号を生成するための手法とみなすことができ、結果として、人間の聴覚系に、所望の位置から音が到来していると錯聴させることになる。
【0106】
バイノーラルレンダリングは、頭部、耳、及び肩等の反射面の音響特性に起因して、人物ごとに変動するバイノーラル伝達関数に基づく。例えば、バイノーラルフィルタを用いて、様々なロケーションにおける複数のソースをシミュレートするバイノーラルレコーディングを作成することができる。これは、各音源信号を、例えば、音源の位置に対応する頭部関連インパルス応答(HRIR)の対を用いて畳み込むことによって実現することができる。
【0107】
バイノーラル伝達関数を決定するためのよく知られた方法は、バイノーラルレコーディングである。これは、専用マイクロフォン構成を用いる音の記録方法であり、ヘッドフォンを用いた再生を意図される。レコーディングは、対象者の外耳にマイクロフォンを配置するか、又は埋め込み型マイクロフォンを有するダミーヘッド、すなわち耳介(外耳)を有する胸像を用いることによって行われる。外耳を含むそのようなダミーヘッドの使用は、レコーディングを聴いている人物がレコーディング中に居合わせていた場合と非常に類似した空間的印象をもたらす。
【0108】
例えば、人間の耳内又は耳付近に配置されたマイクロフォンに対する、2D又は3D空間における特定のロケーションにおける音源からの応答を測定することによって、適切なバイノーラルフィルタを決定することができる。そのような測定に基づいて、ユーザの耳に対する音響伝達関数を反映するバイノーラルフィルタを生成することができる。バイノーラルフィルタを用いて、様々なロケーションにおける複数のソースをシミュレートするバイノーラルレコーディングを作成することができる。これは、例えば、各音源を、音源の所望の位置について測定されたインパルス応答の対を用いて畳み込むことによって実現することができる。音源がリスナーの周りを動かされているという錯覚を生成するために、適切な空間分解能、例えば10度を有する多数のバイノーラルフィルタが通常必要とされる。
【0109】
頭部関連バイノーラル伝達関数は、例えば、頭部関連インパルス応答(HRIR)として表されるか、又は等価には、頭部関連伝達関数(HRTF)、若しくはバイノーラル室内インパルス応答(BRIR)、若しくはバイノーラル室内伝達関数(BRTF)として表される。所与の位置からリスナーの耳(又は鼓膜)への(例えば推定又は想定される)伝達関数は、例えば、周波数領域において与えられ、この場合、これは通常、HRTF若しくはBRTFと呼ばれ、又は時間領域において与えられ、この場合、これは通常、HRIR又はBRIRと呼ばれる。いくつかのシナリオにおいて、頭部関連バイノーラル伝達関数は、音響環境の、特に測定が行われる部屋の態様又は特性を含むように決定されるのに対し、他の例では、ユーザ特性のみが検討される。第1のタイプの関数の例は、BRIR及びBRTFである。
【0110】
したがって、オーディオレンダラ209は、複数の、通常多数の異なる位置についてのバイノーラル伝達関数を有するストアを含み、各バイノーラル伝達関数は、その位置から発せられたように知覚されるために、オーディオ信号がどのように処理/フィルタリングされるべきかの情報を提供する。複数のオーディオ信号/ソースに対しバイノーラル処理を個々に適用し、結果を組み合わせることを用いて、サウンドステージにおける適切な位置に位置決めされた複数のオーディオソースを有するオーディオシーンを生成する。
【0111】
オーディオレンダラ209は、ユーザの頭部に対し所与の位置から発せられたように知覚されることになる所与のオーディオ要素について、所望の位置に最も厳密に一致する記憶されたバイノーラル伝達関数を選択し、索出する(又は場合によっては、複数の近いバイノーラル伝達関数間で補間することによってこれを生成する)。次に、選択されたバイノーラル伝達関数を、オーディオ要素のオーディオ信号に適用し、それによって、左耳のためのオーディオ信号及び右耳のためのオーディオ信号を生成する。
【0112】
このとき、左耳信号及び右耳信号の形態で生成された出力ステレオ信号は、ヘッドフォンレンダリングに適したものとなり、増幅されて、ユーザのヘッドセットに供給される駆動信号が生成される。このとき、ユーザは、オーディオ要素が、所望の位置から発せられたと知覚することになる。
【0113】
図2の装置において、画像リマッパ203は、アスペクト比を変更するために画像リマッパ203によって実行された画像リマッピングの少なくとも一部を記述するマッピングデータを生成するように構成される。例えば、画像リマッパ203は、第2の画像における特定の画像オブジェクトの変更された位置又は新たな位置を示し、かつ/又は、例えば、背景画像について、若しくは画像の特定のセグメントについて用いられたマッピングを示すデータを含む、情報を提供する。
【0114】
マッピングデータは、コンテンツ依存の不均一なマッピングによって実行される第1の画像から第2の画像へのマッピングの特性を記述する任意のデータである。マッピングデータは特に、第1の画像における位置と第2の画像における位置との間の関係を、少なくともいくつかの位置について記述するデータを含む。マッピングデータは、例えば、コンテンツ依存の不均一なマッピングによって、第1の画像内における画像位置がどのように第2の画像における画像位置にマッピングされるかを記述する。位置は、2次元位置であり、通常、対応する第1又は第2の画像の座標系に対する絶対位置及び/又は相対位置である。
【0115】
マッピングデータは、画像リマッパ203からオーディオリマッパ207に提供され、オーディオリマッパ207は、マッピングデータに依拠して/マッピングデータに応じて/マッピングデータの関数として/マッピングデータに基づいて(このため、画像アスペクト比コンテンツ依存の不均一なマッピングに基づいて)オーディオ要素の空間特性を変更するように構成される。例えば、位置マッピングを第1のオーディオ要素に適用して第2のオーディオ要素を生成し、受信マッピングデータに基づいて位置マッピングが適応される。
【0116】
例えば、マッピングデータは、第1の画像及び第2の画像における位置間の関係を記述し、オーディオリマッパ207は、マッピングデータによって記述される第1の画像と第2の画像との間の位置の変化に基づいてオーディオ要素の位置を変更するように構成される。
【0117】
特定の例として、マッピングデータが、シーン内の所与のオブジェクトに対応する画像オブジェクトの位置が画像内の異なる位置に動かされることを示す場合、オーディオリマッパ207は、オブジェクトによって生成される音を表すオーディオ要素の空間位置を、新たな位置に一致するように変更するように構成される。例えば、いくつかの実施形態では、オーディオ要素は、決定された位置から発せられたと知覚されるようにオーディオ要素をレンダリングするためにオーディオレンダラ209によって用いられる関連位置メタデータを含む。そのような実施形態において、オーディオリマッパ207は、オーディオレンダラ209に供給される前に位置メタデータを直接変更する。特に、オーディオリマッパ207は、オーディオ要素の位置を索出し、次に、変更されたアスペクト比における対応する画像オブジェクトのシフトに対応する量だけこれをオフセットする。次に、変更された位置が、オーディオレンダラ209に供給され、オーディオ要素をレンダリングする際にオーディオレンダラ209によって用いられる。したがって、オーディオ要素は、変更された位置から発せられたように見えるようにレンダリングされる。そのような手法は、通常、多くの場合に明示的な位置データを提供されるオーディオオブジェクトに特に適している。
【0118】
他の実施形態において、厳密な位置は知られていないが、受信オーディオデータから導出することができる。例えば、オーディオ要素は、例えば、5つのサラウンドサウンドチャネル(又はそのダウンミックス)によって表され、オーディオチャネルの各々における相対的な信号レベル及びタイミングが、対応するオーディオソースの空間位置を示すことになる。次に、この位置が推定され、変更され、オーディオチャネル信号は、新たな位置を反映するように補償される。多くの実施形態において、空間位置の変更は、オーディオ信号を処理することによって直接、元の位置の明示的な導出なしで行われる。例えば、マッピングデータによって、例えば10°左にシフトしたことが示される画像オブジェクトにリンクしたサラウンドチャネルオーディオ要素が受信される場合、オーディオリマッパ207は、これらを正しい方向に10°回転させる行列演算をオーディオチャネル信号に適用する。
【0119】
実際に、チャネルベースのフォーマットで定義されるオーディオコンテンツの場合、オーディオビジュアルシーンにおけるオーディオソースの空間分布は、通常、例えば、チャネルベースのオーディオ要素の生成において用いられるパンアルゴリズムに起因して、チャネル間の相対的なレベル及び時間関係によって暗黙的に定義される。また、複数のソースからの音がチャネルにおいて共に混合される場合があり、このため、個々のソースの信号が、オーディオオブジェクトの場合のように別個に容易に利用可能でない場合がある。
【0120】
チャネルベースの場合、オーディオ要素のリマッピングは、例えば、多岐にわたるものが存在する空間拡大アルゴリズムを用いて達成される。しかしながら、そのような空間拡大アルゴリズムが一般的に用いられている方式(すなわち、空間次元に沿って均一に空間オーディオシーンを伸長又は圧縮する)と対照的に、空間拡大アルゴリズムは、ビデオ画像の不均一なリマッピングに対応して不均一な方式で適用される。
【0121】
チャネル間のチャネルレベル差は、時間周波数タイルにおいて計算され、そのような時間-周波数タイルをマッピングデータにおいて表されるビジュアルオブジェクト又は画像セグメントにマッチングするのに用いられる。更に、時間-周波数タイルにおける位相差及び経時的なその安定性は、時間-周波数タイルが分離したポイントソースを表すか(位相差なし又は安定した経時的位相差)、又は拡散音若しくは様々なポイントソースの混合(通常、非ゼロの不安定な経時的位相差)を表すかを示す。
【0122】
チャネルレベル差及び位相差は、オーディオ要素の適応を誘導する。例えば、様々なチャネル対間の時間-周波数タイルのチャネルレベル差は、画像次元に対するチャネル位置のマッチングによって、第1の画像のセグメントとの対応関係を決定する。これは、知られているか、測定されるか、又は仮定される。特に、例えば、左チャネルが左画像境界に対応し、右チャネルが右画像境界に対応し、中央チャネルが画像の中央に対応する。この対応関係は、第1の画像及び第2の画像について異なる。
【0123】
この例において、左及び中央(
【数1】
ここで、P
L及びP
Cはそれぞれ左チャネル及び中央チャネルにおける信号電力である)間のチャネルレベル差は、画像の左半分における位置に対応する。例えば、-60のCLD
LCは、画像の中央に対応し、60のCLD
LCは、左境界に対応する。間のCLD
LC値は、線形に又は非線形に補間される。追加の高チャネルにより、画像に対する2次元位置が導出される。
【0124】
時間-周波数タイルごとにこのように推定された位置は、画像内のオブジェクト又はセグメント、及び画像リマッパによって提供される対応するマッピングデータとマッチングすることができる。オーディオの適応は、例えばオブジェクト又はセグメントの位置変化の、同じマッピングを辿る。例えば、
【数2】
であり、ここで、
【数3】
及び
【数4】
は、それぞれ第1のオーディオ要素及び第2のオーディオ要素の時間-周波数タイルのチャネルベッドベクトル(channel bed vector)を表し、Mは、第2のオーディオ要素について所望のCLD値を達成するためにチャネルの時間-周波数タイルにおける信号電力を変更する変更行列を表す。
【0125】
CLD
LC1が画像内の位置
【数5】
に対応し、この位置がマッピングデータに従って画像内の位置
【数6】
に動かされ、この位置が上記で用いられる補間方式に従ってCLD
LC2に対応する例において、変更、P
L2=α
L・P
L1及びP
C2=α
C・P
C1は、全体電力が等しいままである、すなわちP
L1+P
C1=P
L2+P
C2であるという要件の下で導出することができる。
【数7】
【0126】
これがこの時間-周波数タイルの唯一の適応である場合、5チャネル(L,R,C,Ls,Rs)のための適応行列Mは、以下である。
【数8】
【0127】
更なる適応が存在する場合、個々の適応行列を乗算することができる。例えば、M=MLCMRCMLLsMRRsである。
【0128】
記載のシステムにおいて、コンテンツ依存の不均一なマッピングは、コンテンツ依存であるため、本質的に動的マッピングであり、このため、画像のコンテンツに依拠して変動する。マッピングは、固定又は所定のマッピングではなく、第2の画像を生成するために第1の画像に適用されるマッピングは、第1の画像に依拠し、このため、通常前もって知られていない。このため、特定の事例において、この特定の画像について適用される実際のマッピングを記述することができ、この手法において、画像リマッパ203は、第1の画像に適用される特定のコンテンツ依存の不均一なマッピングを記述するマッピングデータを生成する。このため、データは、この画像に適用され、それによってオーディオリマッパ207が画像リマッピングに一致するオーディオリマッピングを行うことを可能にする特定のマッピングを記述する。このため、画像マッピングを記述するマッピングデータは、オーディオリマッピングが動的になることを可能にし、特定の画像アスペクト比に対し適応する。
【0129】
マッピングデータがコンテンツ依存の不均一なマッピングを記述することができ、用いられる特定の手法が個々の実施態様及び用途の選好及び要件に依拠する多くの方式が存在することが理解されよう。例えば、マッピングデータは、第1の画像内の画像/ピクセル位置が第2の画像における画像/ピクセル位置にどのようにマッピングされるかを記述する。マッピングデータは、例えば、2つの画像における絶対位置として、又は相対的画像として与えられる。
【0130】
オーディオリマッパ207は、このマッピングデータを受信すると、それに応じてオーディオ要素をリマッピングする。例えば、大きく変化しなかった位置における画像オブジェクトに対応するオーディオソースについて、オーディオリマッパ207は、対応するオーディオ要素に対し空間的変更を行わないことに進む。しかしながら、そうではなく、マッピングデータが、この特定の画像について、オーディオソースに対応する画像位置が劇的に変化したことを記述する場合、オーディオリマッパ207は、対応するオーディオ要素の位置に対し対応する変更を行うことに進む。例えば、コンテンツ依存の不均一なマッピングが、対応する位置を大幅に中央から更に離して第2の画像の右縁部に向けてシフトさせた場合、オーディオリマッパ207は、対応するオーディオ要素の位置を更に右に向けて変更する。
【0131】
このため、画像に対するコンテンツ依存の不均一なマッピングを実行することに加えて、画像リマッパ203は、画像に適用される特定のマッピングを記述するマッピングデータも生成する。このマッピングデータは、オーディオリマッパ207に供給され、オーディオリマッパ207は、マッピングによって提供される記述に基づいてオーディオ要素の空間特性を変更することができ、すなわち、空間特性の変更は、第1の画像と第2の画像との間のアスペクト比の変更を提供するように行われた特定のコンテンツ依存の不均一なマッピングに合うように適応させることができる。当然ながら、厳密なマッピングデータ(例えば、何がどのように記述されているか)及び空間特性の特定の適応は、用途及び実施態様に固有であり、特定の実施形態において望ましい結果及び特性に依拠することになる。
【0132】
いくつかの実施形態において、適応量は、対応する時間-周波数タイル又は周波数帯域における対応する位相差及び/又は位相差変動によって更に制御される。例えば、対応する位相差がゼロであるとき、完全な適応が行われ、適応は、位相差が増大するにつれ低減される。
【0133】
空間拡大アルゴリズムを適用する代わりに、又はこれに加えて、(これについても多岐にわたるものが存在する)ソース分離アルゴリズムを用いて、個々のソースを、チャネルベースのコンテンツからの方向情報と共に抽出する。次に、これらの抽出された個々のソース及びそれらの対応する方向情報が、オーディオオブジェクトについて上述したのと同様にしてリマッピングされる。
【0134】
このため、多くの実施形態において、オーディオリマッパ207は、第1の画像における画像位置に対応する位置から、第2の画像における画像位置に、第1のオーディオ要素の空間位置を変更するように構成される。
【0135】
多くの実施形態において、受信データは、オーディオ要素を画像オブジェクトとリンクするメタデータを含む。オーディオリマッパ207は、このリンク情報を用いて、個々のオーディオ要素に適用されるべきマッピングを決定することができる。他の実施形態において、明示的なリンクデータが提供されず、装置は、受信オーディオビジュアルデータを分析して、オーディオ要素及び画像オブジェクトをリンクさせるように構成される。例えば、顕著なオブジェクトを識別した後、オーディオリマッパ207は、所与の画像オブジェクトについて、オーディオ要素を分析して、画像オブジェクトについて予期される特性に一致するオーディオ要素を決定する。特に、第1の画像における顕著なオブジェクトに最も近い示された位置を有するオーディオ要素が選択される。いくつかの実施形態では、画像オブジェクト及びオーディオ要素の特性が更に考慮に入れられる。例えば、画像オブジェクトが顔に対応すると識別される(例えば、画像オブジェクトが顔検出によって決定された)場合、オーディオ要素は、発話を示す特性を有するものとして選択される。
【0136】
図2の装置において、オーディオ/ビデオアスペクト比の変化は、関連する空間オーディオコンテンツの空間特性の変化に関連付けられる。オーディオコンテンツは、全体体験の改善された品質を維持するために変更される。オーディオコンテンツのアスペクト比にリンクした変更は、特に、VR及び360度ムービーコンテンツ等のイマーシブメディアコンテンツの場合に、大幅に改善されたユーザ体験を提供することがわかっている。
【0137】
最も直接的な手法は、元のアスペクト比と変更されたアスペクト比との間の関係に従ってオーディオ要素の空間位置の線形リマッピングを適用することである。しかしながら、
図2の装置において、最も進化した手法が用いられ、この手法では、コンテンツ依存のアスペクト比リマッピングがビジュアル側で実行され、この動的マッピングが更にオーディオ側のリマッピングを制御する。これは、改善された効果をもたらし、特に、より一貫したユーザ体験をもたらす。
【0138】
したがって、この手法は、オーディオ要素のリマッピングをビデオ画像の非線形リマッピングに直接リンクさせる。例えば、ビデオ画像における所与のピクセル又はビジュアルオブジェクトの水平位置x及び垂直位置yが位置ax及びbyにリマッピングされる場合、位置(x,y)に対応するオーディオが変更された位置(ax,by)に同様にリマッピングされる。
【0139】
この手法において、オーディオビジュアルコンテンツアイテムのオーディオ要素の空間的リマッピングは、ディスプレイのアスペクト比に対しビデオ画像のアスペクト比を適応させるために実行される不均一なコンテンツ依存のビデオ/画像リマッピング動作に依拠して実行される。
【0140】
多くの実施形態において、オーディオリマッパ207は、更に又は代替的に、マッピングデータに応じて第2のオーディオ要素の空間広がり特性を変更するように構成される。空間広がり特性は、オーディオ要素の局所化度合いを反映し、このため、レンダリングされたオーディオ要素が単一のポイントから発せられたとみなされる度合いを反映する。広がりは通常、オブジェクトの物理的又は音響的に知覚されるサイズ又は範囲を示す、サイズパラメータ又は1つ若しくは複数の半径によって示すことができる。代替的に、これは、ユーザが到来する音波を受信又は知覚しているイマージョン比又は角度範囲であってもよい。別の例として、これは、レンダラが純粋なポイントソースレンダリングと完全にイマーシブな拡散レンダリングとの間のレンダリングに変換する、例えば0~1の値としてオブジェクトの拡散性を示す値であってもよい。通常、これは、複数の位置又は複数のスピーカ対するレンダリングを意味する。アーチファクトを回避し、自然さを改善するために、より大きな広がりは、様々なレンダリング位置間のより低い相関を必要とする。
【0141】
このため、オーディオリマッパ207は、所与のオーディオ要素について知覚される幅又は拡散を変更するように構成される。
【0142】
例えば、所与のオーディオ要素の広がりは、複数の位置においてオブジェクトをレンダリングすることによって、例えば、バイノーラル処理の場合、複数のHRTFを用いてオブジェクト信号を畳み込むことによって達成される。エネルギー分布を空間的に変動させるために、様々な位置におけるレンダリングに利得が適用される。異なる実施態様は、レンダリング位置範囲(レンダリング位置間の最大距離)と、利得による空間エネルギー分布の局所化との間の異なるトレードオフを行う。この手法は、通常、小さな広がり値、及び互いに相対的に近い複数の位置、例えばリスナーから見て30度の角度以内のレンダリングの場合に良好に機能する。
【0143】
通常、高品質レンダリング及び大きな広がり値の場合の他の実施形態は、オブジェクトの複数の相互に非相関の(又は部分的に非相関の)バージョンを生成し、これらを広がりデータに依拠したロケーションの範囲にレンダリングする。
【0144】
代替的に、これは、オーディオ要素のオーディオチャネルに空間拡大アルゴリズムを適用することによって達成されてもよい。オーディオオブジェクトの場合、例えば非相関信号が生成され、出力信号(例えば、バイノーラル信号)が、非相関信号と元の信号との組合せとして生成される。
【0145】
オーディオ要素の広がりを変更するためのアルゴリズムが、画像リマッパ203から提供されたマッピングデータに基づいて適応される。例えば、画像の対応するビジュアルオブジェクト又はセグメントが伸長又は圧縮される場合、オーディオ要素の広がりも増大又は低減される。このシナリオは、多くの場合、シーンの顕著でない背景特徴について生じる。
【0146】
低複雑度の例として、
図3及び
図4に示すように、装置は、4つの異なる位置からオーディオオブジェクトをレンダリングすることによって、このオーディオオブジェクトを、メディアの広がりを有するものとしてレンダリングし、より広がった4つの異なる位置からオーディオオブジェクトをレンダリングすることによって、このオーディオオブジェクトを、大きなメディアの広がりを有するものとしてレンダリングし、更に、異なる位置間に非相関を加える。第2の例におけるオーディオオブジェクトは、第1の例よりもはるかに大きな広がりを有するものとして知覚される。
【0147】
多くの実施形態において、オーディオ要素の空間的変更は、オーディオ要素の音響/オーディオ特性にも依拠し、例えば、オーディオ特性を評価して、空間特性が変化しているか否か、及びこれがどのように行われるかを判定する。このため、多くの実施形態において、オーディオ要素の空間的変更は、オーディオ要素によって表されるオーディオの特徴に依拠する。
【0148】
特に、多くの実施形態において、オーディオリマッパ207によって実行される所与のオーディオ要素の空間的変更は、オーディオ要素の空間的広がり度合いに依拠する。このため、空間的変更は、オーディオ要素の局所化又は空間的拡張の度合いに依拠する。これは例えば、オーディオ要素の拡散度合いによって表されるか又は推定される。オーディオレンダラ209によって表されるオーディオが拡散しているほど、このオーディオ要素に対応するオーディオソースが1つの特定のロケーションにおけるものであると知覚されにくくなり、より大きなエリアにわたって分散されているように知覚されることになる。
【0149】
いくつかの実施形態では、オーディオリマッパ207は、例えば、オーディオ要素の空間的広がり度合いが高いほど、増大する位置の変化を適用するように構成される。例えば、高い広がり度合いを有するオーディオ要素は、より大きな視認角度に一致する、より広い空間的印象を与えるために、アスペクト比変化に従って更に側方に動かされる。例えば、より広いディスプレイは、より側方に延びるように生成され、より多くのオーディオソースがリスナーの正面ではなく側方に位置決めされているオーディオから利益を受ける。しかしながら、このサウンドステージの増大した幅が、特定の狭い明確に定義された位置に関連付けられたオーディオソースによってではなく、オーディオシーン内の特定の位置に直接リンクしていないオーディオソースにより達成される場合、オーディオとビデオとの間のより高い一貫性が維持される。
【0150】
多くの実施形態において、オーディオリマッパ207は、オーディオ要素の増大する空間広がり度合いに応じてオーディオ要素の位置の変化のレベルを低減するように構成される。これは、例えば、画像リマッパ203によって動かされる画像オブジェクトに直接リンクしたオーディオ要素に特に適する。例えば、特定の、明確に定義され局所化されたオーディオオブジェクトは、新たな位置に直接対応するように動かされる。しかしながら、画像オブジェクトが、より広い領域にわたってより拡散し、広がっているオーディオ要素にリンクしている場合、オーディオリマッパ207は、位置変化を低減する。例えば、新たな位置は、元の位置と変更された位置との間のどこかであると判断される。これは、多くのシナリオにおいて、改善された知覚を提供する。なぜなら、これは、元のサウンドステージと変更されたサウンドステージとの間の改善された妥協点を提供するためである。これは、例えば、特定の画像オブジェクトと、オーディオの増大する広がりにわたってその画像オブジェクトにリンクしたサウンドとの低減された知覚リンクが存在することを反映する。
【0151】
実際に、多くの実施形態において、オーディオリマッパ207は、空間特性に変更を適用するか否かを、空間的広がり度合いに依拠して選択するように構成される。例えば、所与の閾値未満の広がりの尺度を有するオーディオ要素は、シーンオブジェクトに対応する画像オブジェクトが画像リマッパ203によって動かされるとき、オーディオ要素が、画像オブジェクトとオーディオオブジェクトとの間、すなわち、仮想体験とオーディオ体験との間の密な対応関係を維持するために対応して動かされるように、特定のシーンオブジェクトに十分厳密にリンクしているとみなされる。しかしながら、広がり尺度が閾値を超えているオーディオ要素について、オーディオリマッパ207によって位置変更が導入されない。この結果、オーディオ要素が、画像オブジェクトの新たな位置からではなく元の位置からのものと知覚されるようにレンダリングされることになるが、位置知覚が拡散し、不正確であるため、ビジュアル側とオーディオ側との間の任意の非一貫性は無視することができ、オーディオ要素間、例えば特に周囲オーディオソース間の改善された一貫性をもたらす尤度が上回る。このため、レンダリングされるオーディオステージの改善された一貫性がもたらされる。
【0152】
いくつかの実施形態では、オーディオリマッパ207は、第1のオーディオ要素が背景オーディオとして指定されるか否かに応じて空間特性を変更するように構成される。例えば、オーディオ要素は、前景オブジェクト及び背景オブジェクトに対応する2つのカテゴリに分割され、2つのカテゴリのオーディオ要素は異なる形で処理される。低複雑度の例として、前景オブジェクトとして分類される全てのオーディオ要素は、対応する画像要素の再位置決めに直接一致するように再位置決めされるのに対し、背景要素として分類されるオーディオ要素には位置変化が適用されない。これは、多くのシナリオにおいて、改善された知覚体験を提供する。
【0153】
このため、「前景」オーディオ要素と、「背景」オーディオ要素とを区別することができる。「前景」オーディオ要素は、別個の局所化されたオーディオ要素であると判断されるのに対し、「背景」オーディオ要素は、「周囲環境」音又は背景音楽等の局所化されていないオーディオ要素であると判断される。例えば、オブジェクトベースのオーディオ使用の例において、「前景」要素に対応するとみなすことができる高度に局所化された(ポイント)ソースと、「背景」要素に対応するとみなすことができる局所化されていない(すなわち、拡散した)オブジェクトとを区別することができる。
【0154】
他の実施形態において、「前景」又は「背景」オーディオ要素としての分類は、受信ビットストリームにおける明示的な指示に基づき、例えば、オーディオ要素ごとに、これが前景オーディオオブジェクトであるか又は背景オーディオオブジェクトであるかを示すメタデータが提供される。実際に、複数の標準化されたオーディオフォーマットが、既に、オーディオオブジェクトがポイント音源であるか又は拡散音源であるかをシグナリングするためのメタデータ要素を提供しており、これは、オーディオオブジェクトが前景オーディオオブジェクトであるか又は背景オーディオオブジェクトであるかの指示として用いられる。
【0155】
上述したように、オーディオリマッパ207は、単に、前景オーディオ要素のみが可能な位置リマッピングを受けるべきであるのに対し、背景音/オーディオ要素の空間的分布は変更されてないままであるとみなす。他の実施形態では、他の適応が用いられ、例えば、拡大効果又は増大した拡散を背景オーディオ要素に加えるが、前景オーディオ要素には加えないことが理解されよう。
【0156】
いくつかの実施形態では、オーディオリマッパ207は、第1のオーディオ要素のオーディオタイプに応じて、空間特性を変更するように構成される。オーディオタイプは、特に、少なくとも、オーディオオブジェクト、オーディオチャネル、及びより高次のアンビソニックスオーディオ要素を含む群からタイプとして決定される。
【0157】
例えば、オーディオオブジェクトは、多くの場合に、個々の特定のオーディオソースを表すために用いられるのに対し、オーディオチャネル及びアンビソニックスは、複数の(通常多くの)異なるオーディオソースを含む、より周囲のオーディオを表すために用いられる。したがって、オーディオオブジェクトは、例えば、いくつかの実施形態において、アスペクト比変化に対応する位置の変化を受けるのに対し、オーディオチャネル及び/又はアンビソニックス要素は変更されないままである。
【0158】
別の例として、いくつかの実施形態において、オーディオリマッパ207は、オーディオチャネルであるオーディオ要素に不均一な空間拡大を適用するように構成されるのに対し、オーディオオブジェクトには空間拡大が適用されない。
【0159】
オーディオ要素がオーディオオブジェクトと、チャネル及び/又はシーンベースの(例えば高次アンビソニックス)オーディオ要素との双方を含む混成使用事例において、一方でオブジェクト(前景)間の区別が行われ、他方で、チャネル/シーンベースの要素(背景)間の区別が行われる。この改良点として、オーディオオブジェクトについて、上述したようにポイントソースと拡散ソースとの間で更に区別が行われる。同様に、高次アンビソニックス要素等のシーンベースの要素が、更に、「主」成分と「周囲」成分とに分離される。これらの異なるカテゴリは、次に、オーディオリマッパ207によって異なる形で処理される。
【0160】
例えば、オーディオオブジェクトは、画像に対する対応する第1の位置についてマッピングデータに従ってレンダリングされるのに対し、左フロントチャネル及び右フロントチャネル等のオーディオチャネルは、アスペクト比変化の結果として生じる平均位置変化又は最大位置変化に依拠して公称位置よりも大きな角度又は小さな角度でレンダリングされる。高次アンビソニックス(HOA)要素は、アーチファクトを回避するために、変更されないままで、又は最小限の空間的伸長若しくは圧縮を用いてレンダリングされる。HOA要素は、HRTF、又はVBAP等のスピーカレンダリングアルゴリズムを用いたレンダリングのために方向成分に変換される。フロントステージ方向成分信号は、アスペクト比変化に従ってフロントステージを伸長又は圧縮するために、より広い角度又はより狭い角度でレンダリングされる。HOA方向成分が十分な空間分解能を有する場合、レンダリング位置更新は、画像の空間的リマッピング変動に一致するように変動する。
【0161】
フロントステージの外側の方向成分のレンダリングされた位置は、フロントステージから更に離れた位置に向けて伸長/圧縮効果の空間的フェードアウトを達成するために、変更されていないままにされるか、又はフロントステージと同様に、減少するより広い又はより狭い角度でレンダリングされる。
【0162】
フロントステージは、ユーザに可視の3D空間の一部、例えば、2Dディスプレイ又はHMDに表示される部分として定義される。
【0163】
いくつかの実施形態では、オーディオリマッパ207は、第1のオーディオ要素が第1の画像内の画像オブジェクトにリンクしているか否かに応じて、空間特性を変更するように構成される。例えば、データストリームが、所与のオーディオ要素が特定の画像オブジェクトにリンクしていることを示す(又は更には、所与のオーディオ要素が単に画像内に対応する画像オブジェクトを有することを示し、画像が何であるかの更なる指示は有しない)メタデータを含む場合、オーディオリマッパ207は、オーディオ要素の空間位置を、元の入力画像における対応する位置を有する画像セグメントを辿るように変更する。しかしながら、画像内のオブジェクトにリンクしていないオーディオ要素の場合、オーディオリマッパ207は、位置を変更せず、場合によっては、空間的広がり/拡散を増大させることに進む。これは、増大した広がりがオブジェクトの局所化を拡散させ、したがって、画像リマッパによって変更される潜在的なビジュアルの対応部分との不一致の尤度を低減させる。
【0164】
いくつかの実施形態では、オーディオリマッパ207による変更は、特定のオーディオ要素(例えばオーディオオブジェクト)がビジュアル画像内の特定のビジュアル要素(例えば、ビジュアルオブジェクト)にリンクしていることの、ビットストリームにおける明示的な指示に基づく。このようにして、リンクしたビジュアルオブジェクトの可能なリマッピングに従って変更されるべきオーディオ要素を識別することが可能である。このため、この場合、オーディオ要素は、リンクしたビジュアル要素が、画像リマッパ203によって実行されるインテリジェントビデオアップスケーリングアルゴリズムによってリマッピングされる場合にのみ変更及びリマッピングされる。ビジュアル要素にリンクしていないオーディオ要素、又は画像リマッパ203のインテリジェントビデオアップスケーリングアルゴリズムによってリマッピングされていないビジュアル要素にリンクしたオーディオ要素は、この例においてリマッピングされない場合がある。
【0165】
この例の変形形態において、ビットストリームにおける明示的な指示は、より大まかに言えば、オーディオ要素が「スクリーンに関連している」ことを単に示す(ビジュアル画像のアップスケーリングの結果として、このオーディオ要素の同様のリマッピングが生じるべきであることを暗に意味する)。
【0166】
いくつかの実施形態では、オーディオリマッパ207は、第2の画像をレンダリングするのに用いられるディスプレイの特性に応じて、空間特性を変更するように構成される。画像リマッパ203からのマッピングデータを介してディスプレイのアスペクト比に依拠して処理を間接的に適応させることに加えて、オーディオリマッパ207は、特にディスプレイのサイズ等のディスプレイの他の特性も検討する。
【0167】
例えば、多くの実施形態において、オーディオリマッパ207には、ディスプレイのサイズを示すデータが提供される。ディスプレイが、いくらかの距離をおいて見ることが意図された小さなディスプレイである場合、オーディオリマッパ207は、背景及び周囲オーディオであっても、空間的広がりを増大させない(又は更にはこれを低減させる)ように構成される。しかしながら、ディスプレイが大きい場合、オーディオリマッパ207は、空間的広がりを大幅に増大させる(例えば、拡散性を増大させるか又は空間拡大を行う)。このため、小さなディスプレイの場合、大きなディスプレイの場合よりも広範囲でないように知覚されるオーディオ体験が提供され、それによりビジュアル体験を一致させる。
【0168】
いくつかの実施形態では、オーディオリマッパ207は、ディスプレイに対する視聴者の位置に応じて空間特性を変更するように構成される。オーディオリマッパ207は、例えば、レンダリングされるオーディオが、適切な位置から到来するように知覚されるように、ディスプレイに対するユーザの向き及び位置を反映するように処理を適応させる。例えば、ユーザがディスプレイの側方に位置し、ディスプレイを或る角度から見ているとき、オーディオソースの位置決めは、これを反映するように修正される。
【0169】
別の例として、視聴者の位置からディスプレイへの距離が検討される。例えば、ディスプレイの近くに座っているユーザの場合、多くのより拡散したオーディオ要素を含むほとんどの要素の位置が、画像位置における対応する変化を辿るように変更される。これにより、より拡散した音であっても、ディスプレイの「正しい」部分から発せられるように知覚されるため、ビジュアル体験とオーディオ体験との間のより厳密な対応関係が可能になる。しかしながら、ディスプレイから離れて位置するユーザの場合、ディスプレイの異なる部分からのオーディオを差別化することが可能でなく、ディスプレイサイズに直接対応するものよりも大きなオーディオシーンを提供するユーザ体験を生成することがより魅力的である場合がある。したがって、より周囲のオーディオの空間的広がりを増大させるための空間拡大アルゴリズム又は他のアルゴリズムがオーディオリマッパ207によって適用され、結果としてよりイマーシブな体験が得られる。
【0170】
例えば、ディスプレイサイズ及び/又は視聴者位置を用いて、視聴者の表示域又は開口が推定又は決定される。オーディオリマッパ207は、この表示域に基づいて処理を適応させる。適応は、更に又は代替的に、第1の画像の表示域に対するオーディオ要素位置に依拠する。
【0171】
例えば、元の表示域の外側に位置決めされたオーディオ要素は変更されないのに対し、表示域内のオーディオ要素は、アスペクト比リマッピングにおける変化を反映するように変更される。例えば、ユーザの後ろ又は上に位置決めされたオーディオオブジェクトは変更されない。別の例は、ユーザの辺り一面に存在する周囲環境オーディオ成分、例えばHOA周囲環境要素である。これは、周囲環境成分が全ての方向において同じであることを必要としない。これは例えば、カフェ背景周囲環境のフル3D記録を含むHOA要素であり得る。
【0172】
上記は、明確さのために異なる機能回路、ユニット、及びプロセッサに関して本発明の実施形態を説明してきたことが理解されよう。しかしながら、本発明を損なうことなく、異なる機能回路、ユニット、又はプロセッサ間で機能を任意に適切に分散させ得ることが明らかであろう。例えば、別々のプロセッサ又はコントローラによって実行されると説明される機能が同じプロセッサ又はコントローラによって実行されてもよい。したがって、特定の機能ユニット又は回路への言及は、厳密な論理的又は物理的構造又は組織を示すものではなく、説明される機能を提供するための適切な手段への言及にすぎないと考えられたい。
【0173】
本発明は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組合せを含め、任意の適切な形式で実装され得る。本発明は、任意選択で、1つ又は複数のデータプロセッサ及び/又はデジタル信号プロセッサ上で動作するコンピュータソフトウェアとして少なくとも部分的に実装されてもよい。本発明の実施形態の要素及び構成要素は、任意の適切な方法で物理的に、機能的に、及び論理的に実装され得る。実際には、機能は単一のユニット若しくは複数のユニットに実装されてもよいし、又は他の機能ユニットの一部として実装されてもよい。したがって、本発明は単一のユニットに実装されてもよいし、又は、異なるユニット、回路、及びプロセッサ間で物理的に及び機能的に分散されてもよい。
【0174】
本発明をいくつかの実施形態に関連して説明してきたが、本発明を本明細書に記載される特定の形態に限定することは意図しない。むしろ、本発明の範囲は添付の特許請求の範囲によってのみ限定される。また、ある特徴が特定の実施形態と関連して説明されているように見えたとしても、当業者は、説明される実施形態の様々な特徴が本発明に従って組み合わせられ得ることを認識するであろう。請求項において、用語「含む(又は備える若しくは有する等)」は他の要素又はステップの存在を除外しない。
【0175】
更に、個々に列挙される場合でも、複数の手段、要素、回路又は方法のステップが、例えば、単一の回路、ユニット又はプロセッサによって実現される場合がある。更に、個々の特徴が異なる請求項に含まれる場合でも、これらの特徴はおそらく有利に組み合わせることができ、異なる請求項に含まれることは、特徴の組合せが実現できないこと、及び/又は有利でないことを意味するものではない。また、請求項の1つのカテゴリにある特徴を含むことは、このカテゴリに限定することを意味するものではなく、むしろ、その特徴が、必要に応じて、他の請求項カテゴリに等しく適用可能であることを示す。更に、請求項内の特徴の順序は、その特徴が処理されなければならない任意の具体的な順序を意味するものではなく、詳細には、方法請求項内の個々のステップの順序は、それらステップがこの順序において実行されなければならないことを意味するものではない。むしろ、それらのステップは任意の適切な順序において実行することができる。更に、単数形の参照は複数を除外しない。それゆえ、「1つの」、「第1の」、「第2の」等の用語は複数を除外しない。請求項内の参照符号は明確にする例として与えられるにすぎず、特許請求の範囲を多少なりとも限定するものと解釈されるべきではない。