(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-14
(45)【発行日】2024-06-24
(54)【発明の名称】画像を合成するための方法及び装置
(51)【国際特許分類】
G06T 3/147 20240101AFI20240617BHJP
G06T 19/00 20110101ALI20240617BHJP
G09G 5/00 20060101ALI20240617BHJP
G09G 5/38 20060101ALI20240617BHJP
G09G 5/36 20060101ALI20240617BHJP
G09G 5/377 20060101ALI20240617BHJP
【FI】
G06T3/147
G06T19/00 600
G09G5/00 550C
G09G5/38
G09G5/36 400
G09G5/377
【外国語出願】
(21)【出願番号】P 2022145349
(22)【出願日】2022-09-13
(62)【分割の表示】P 2018553107の分割
【原出願日】2017-04-10
【審査請求日】2022-10-07
(32)【優先日】2016-04-22
(33)【優先権主張国・地域又は機関】EP
(32)【優先日】2016-09-29
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】518341334
【氏名又は名称】インターディジタル・シーイー・パテント・ホールディングス・ソシエテ・パ・アクシオンス・シンプリフィエ
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100108213
【氏名又は名称】阿部 豊隆
(72)【発明者】
【氏名】シーバウド,シルヴァイン
(72)【発明者】
【氏名】フルーロー, ジュリアン
(72)【発明者】
【氏名】ジェラール,フランソワ
【審査官】鈴木 明
(56)【参考文献】
【文献】特開2015-228256(JP,A)
【文献】特開2007-018188(JP,A)
【文献】米国特許出願公開第2014/0253589(US,A1)
【文献】米国特許出願公開第2015/0235429(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 3/147
G06T 19/00
G09G 5/00-5/42
(57)【特許請求の範囲】
【請求項1】
画像キャプチャ手段によって、実環境のキャプチャされた画像を取得することであって、前記実環境が、スクリーンを有する装置を含み、前記キャプチャされた画像が、前記スクリーンを有する前記装置を含むことと、
決定手段によって、前記スクリーン
の姿勢を前記キャプチャされた画像に基づいて決定することと、
コンテンツ取得手段によって、前記キャプチャされた画像におけるデータとは別のデータから、仮想シーン内で前記スクリーンの表現上に表示される2Dコンテンツを取得することと、
適用手段によって、前記2Dコンテンツに透視投影を適用し、透視投影された2Dコンテンツを生成することであって、前記透視投影された2Dコンテンツが、前記スクリーンの前記姿勢に位置合わせされることと、
生成手段によって、前記仮想シーンを仮想コンテンツアイテム及び前記透視投影された2Dコンテンツの組み合わせとして生成することと、を含む方法。
【請求項2】
表示手段によって
、ユーザのヘッドマウントディスプレイ(HMD)内に前記仮想シーンを表示することを更に含む、請求項1に記載の方法。
【請求項3】
前記キャプチャされた画像が、前記HMDの少なくとも1つのカメラを用いて取得される、請求項2に記載の方法。
【請求項4】
前記キャプチャされた画像内の前記スクリーンが、少なくとも1つのマーカーを表示し、前記スクリーンの前記姿勢が、前記キャプチャされた画像内の前記少なくとも1つのマーカーを検出することに基づいて決定される、請求項1に記載の方法。
【請求項5】
前記2Dコンテンツが、2D画像である、請求項1に記載の方法。
【請求項6】
前記2Dコンテンツが、テキスト、グラフィック及びグラフィカルオブジェクトのうちの少なくとも1つを含む、請求項1に記載の方法。
【請求項7】
前記装置が、ポータブル装置である、請求項1に記載の方法。
【請求項8】
前記ポータブル装置が、グラフィカルユーザインターフェース(GUI)を含み、前記方法が、受信手段によって前記ポータブル装置における前記GUIのグラフィカルオブジェクトへの押し動作を受信することであって、前記押し動作が、前記2Dコンテンツの1つ又は複数のパラメータを制御することを更に含む、請求項7に記載の方法。
【請求項9】
分割手段によって、前記キャプチャされた画像からの前記装置の画像を分割することであって、前記仮想シーンが、前記装置の前記分割された画像から更に生成されることを更に含む、請求項1に記載の方法。
【請求項10】
前記仮想シーンが、前記装置を持ち又は前記装置に作用す
るユーザの手の表現を更に含み、前記表現が、前記キャプチャされた画像の分割を用いて取得される、請求項1に記載の方法。
【請求項11】
前記2Dコンテンツが、透視投影されて前記スクリーンの知覚されたジオメトリに適合する、請求項1に記載の方法。
【請求項12】
前記キャプチャされた画像が、前記スクリーン上に表示される画像を含み、前記スクリーン上に表示される前記画像が、第1の画像コンテンツを含み、前記透視投影された2Dコンテンツが、第2の画像コンテンツを含み、前記第1の画像コンテンツが、前記第2の画像コンテンツと本質的に同じである、請求項1に記載の方法。
【請求項13】
実環境のキャプチャされた画像を取得し、
前記キャプチャされた画像に基づいて、スクリーン
の姿勢を決定し、
前記キャプチャされた画像におけるデータとは別のデータから、仮想シーン内で前記スクリーンの表現上に表示される2Dコンテンツを取得し、
前記2Dコンテンツに透視投影を適用して、透視投影された2Dコンテンツを生成し、
前記仮想シーンを仮想コンテンツアイテム及び前記透視投影された2Dコンテンツの組み合わせとして生成するように構成された、少なくとも1つのプロセッサを含む装置であって、
前記実環境が、前記スクリーンを有する前記装置を含み、前記キャプチャされた画像が、前記スクリーンを有する前記装置を含み、前記2Dコンテンツが、前記キャプチャされた画像を通じて受信されず、前記透視投影された2Dコンテンツが、前記スクリーンの前記姿勢に位置合わせされる、装置。
【請求項14】
前記少なくとも1つのプロセッサが
、ユーザのヘッドマウントディスプレイ(HMD)内に前記仮想シーンを表示するように更に構成される、請求項13に記載の装置。
【請求項15】
前記キャプチャされた画像が、前記HMDの少なくとも1つのカメラを用いて取得される、請求項14に記載の装置。
【請求項16】
前記キャプチャされた画像内の前記スクリーンが、少なくとも1つのマーカーを表示し、前記スクリーンの前記姿勢が、前記キャプチャされた画像内の前記少なくとも1つのマーカーを検出することに基づいて決定される、請求項13に記載の装置。
【請求項17】
前記2Dコンテンツが、2D画像である、請求項13に記載の装置。
【請求項18】
前記2Dコンテンツが、テキスト、グラフィック及びグラフィカルオブジェクトのうちの少なくとも1つを含む、請求項13に記載の装置。
【請求項19】
前記装置が、ポータブル装置である、請求項13に記載の装置。
【請求項20】
前記ポータブル装置が、グラフィカルユーザインターフェース(GUI)を含み、前記少なくとも1つのプロセッサが、前記ポータブル装置における前記GUIのグラフィカルオブジェクトへの押し動作を受信するように更に構成され、前記押し動作が、前記2Dコンテンツの1つ又は複数のパラメータを制御する、請求項19に記載の装置。
【請求項21】
前記少なくとも1つのプロセッサが、前記キャプチャされた画像からの前記装置の画像を分割するように更に構成され、前記仮想シーンが、前記装置の前記分割された画像から更に生成される、請求項13に記載の装置。
【請求項22】
前記仮想シーンが、前記装置を持ち又は前記装置に作用す
るユーザの手の表現を更に含み、前記表現が、前記キャプチャされた画像の分割を用いて取得される、請求項13に記載の装置。
【請求項23】
前記少なくとも1つのプロセッサが、前記2Dコンテンツを透視投影して前記スクリーンの知覚されたジオメトリに適合させるように構成される、請求項13に記載の装置。
【請求項24】
前記キャプチャされた画像が、前記スクリーン上に表示される画像を含み、前記スクリーン上に表示される前記画像が、第1の画像コンテンツを含み、前記透視投影された2Dコンテンツが、第2の画像コンテンツを含み、前記第1の画像コンテンツが、前記第2の画像コンテンツと本質的に同じである、請求項13に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
技術分野
本開示は、例えばヘッドマウントディスプレイ(HMD)、タブレット、又はスマートフォンなどのモバイル装置上で消費される例えば没入型ビデオコンテンツの文脈における画像処理の分野に関する。
【背景技術】
【0002】
背景
ヘッドマウントディスプレイ(HMD)又はタブレットなどの表示装置は、ユーザが、没入型ビデオコンテンツを閲覧できるようにする。例えば、ヘッドマウントディスプレイ(HMD)は、片目の前(単眼HMD)又は各目の前(両眼HMD)に小型表示光学装置を有する、頭部に又はヘルメットの一部として装着される表示装置である。それらは、特に、ユーザが、自分の頭を回転させることによって、3D仮想シーンを見て、それを閲覧できるようにする。シーンのビューは、ユーザの頭部姿勢に従って更新される。かかる装置は、数十年前に最初に提案されたが、しかし最近は、特にOLED及びLCDスクリーンの進歩故に、それらの性能と同様にそれらの価格も、幾つかのHMDが、今や消費者製品であるほど、劇的に改められた。かかるHMDの価格は、手ごろであり、且つ頭部姿勢推定に関して非常に短い待ち時間(例えば20ミリ秒)を達成しながら、110°の視野を提供し得る。
【0003】
様々な不均衡が、全体的なユーザ体験に影響する可能性がある。例えば、視覚的パラメータが整合されていない場合に、ユーザは、不快に感じる可能性がある。従って、没入体験を生み出す装置及び能力は、実世界と対話するユーザ能力に関する問題を改善するか、あるいはその逆で発生させる可能性がある。
【発明の概要】
【0004】
概要
「一実施形態」、「実施形態」、「例示的な実施形態」、「特定の実施形態」に対する本出願における言及は、説明される実施形態が、特定の特徴、構造、又は特性を含み得るが、しかしあらゆる実施形態が、必ずしも特定の特徴、構造、又は特性を含むとは限らないことを示す。更に、かかる句は、必ずしも同じ実施形態を指すわけではない。更に、特定の特徴、構造又は特性が、実施形態に関連して説明される場合に、明示的に説明されていてもいなくても、他の実施形態に関連して、かかる特徴、構造又は特性に変化をもたらすことが当業者の知識の範囲内であることが提示される。
【0005】
本開示は、第1の画像を第1の表示装置に送信する方法に関し、方法は、
- シーンを表す第2の画像を受信することであって、シーンが、第3の画像を表示する第2の表示装置を含むことと、
- 第3の画像を受信することと、
- シーンに対する第2の表示装置の姿勢を表す第1の情報を取得することと、
- 第1の情報に従って第3の画像を歪ませることと、
- 取得された第1の情報を用いて、第2の画像と歪められた第3の画像とを組み合わせることによって、第1の画像を生成することと、
- 第1の画像を表すデータを送信することと、
を含む。
【0006】
特性によれば、歪められた第3の画像は、第2の表示装置におけるスクリーンの表現を含む第2の画像の一部に重ねられる。
【0007】
特定の特性によれば、第2の画像は、第1の表示装置に関連するカメラから受信される。
【0008】
別の特性によれば、第3の画像は、第2の表示装置に表示するために第2の表示装置に第3の画像を送信するソース装置から受信される。
【0009】
特定の特性によれば、第1の表示装置は、ヘッドマウントディスプレイであり、第2の表示装置は、表示スクリーンを含むモバイル装置である。
【0010】
別の特性によれば、第1の情報は、第3の画像を表示する第2の表示装置を含む第2の画像のコンテンツと、受信された第3の画像とを比較することによって取得される。
【0011】
特定の特性によれば、取得は、第2の表示装置から第1の情報を取得することを含む。
【0012】
別の特性によれば、取得は、
- 第2の表示装置の第4の画像を取得することであって、少なくとも1つの基準マーカーが、第2の表示装置に表示されることと、
- 第4の画像上の少なくとも1つの基準マーカーを追跡することと、
- 追跡された少なくとも1つの基準マーカーに基づいて第1の情報を決定することと、
を含む。
【0013】
特定の特性によれば、第1の表示装置は、第4の画像を取得するように適合されたカメラを含む。
【0014】
特定の特性によれば、第4の画像は、第1の表示装置の外部のカメラで取得され、方法は、第1の表示装置の位置を表す第2の情報を取得することを更に含み、第1の画像は、第2の情報を用いて合成される。
【0015】
特定の特性によれば、第3の画像は、
- 実環境を表すビデオシーケンス画像と、
- 仮想環境を表すビデオシーケンス画像と、
- 実オブジェクト及び仮想オブジェクトを含むシーンを表すビデオシーケンス画像と、
- グラフィカルユーザインターフェースの少なくとも1つのグラフィカルオブジェクトを含む画像と、
- 少なくとも1つのテキスト要素を含む画像と、
を含む画像セットに属する。
【0016】
特定の特性によれば、合成は、第2の画像及び歪ませる第3の画像と、前記歪められた第3の画像が重ねられる前記第2の表示装置を保持している手を表す第5の画像とを組み合わせることを更に含む。
【0017】
本開示はまた、第1の表示装置に第1の画像を送信するように構成される装置に関し、装置は、
- シーンを表す第2の画像を受信するための手段であって、シーンが、第3の画像を表示する第2の表示装置を含む手段と、
- 第3の画像を受信するための手段と、
- シーンに対する第2の表示装置の姿勢を表す第1の情報を取得するための手段と、
- 第1の情報に従って、第3の画像を歪ませるための手段と、
- 取得された第1の情報を用いて、第2の画像及び歪められた第3の画像を組み合わせることによって、第1の画像を生成するための手段と、
- 第1の画像を表すデータを送信するための手段と、
を含む。
【0018】
本開示はまた、第1の表示装置に第1の画像を送信するように構成される装置に関し、装置は、
- 第3の画像を表示する第2の表示装置を含むシーンを表す第2の画像を受信するように、且つ第3の画像を受信するように構成される受信機と、
- プロセッサであって、
・ シーンに対する第2の表示装置の姿勢を表す第1の情報を取得するように、
・ 第1の情報に従って第3の画像を歪ませるように、
・ 第1の情報を用いて、第2の画像及び歪められた第3の画像を組み合わせることによって、第1の画像を生成するように構成されるプロセッサと、
- 第1の画像を表すデータを送信するように構成される送信機と、
を含む。
【0019】
装置は、上記の方法のステップを実行するように構成される。
【0020】
本開示はまた、プログラムがコンピュータ上で実行される場合に、少なくとも1つのプロセッサによって、第1の画像を送信する上記の方法を実行するためのプログラムコードの命令を含むコンピュータプログラムプロダクトに関する。
【0021】
本開示はまた、第1の画像を送信する少なくとも上記の方法をプロセッサに実行させるための命令を自らに格納した(非一時的な)プロセッサ可読媒体に関する。
【0022】
図のリスト
以下の説明を読めば、本開示は、一層よく理解され、他の特定の特徴及び利点が明らかになろう。以下の説明は、添付された図面を参照する。
【図面の簡単な説明】
【0023】
【
図1A】本原理の例に従って、
図1C及び1Dに示された第2の画像及び第3の画像から取得された第1の画像の例を示す。
【
図1B】本原理の例に従って、
図1C及び1Dに示された第2の画像及び第3の画像から取得された第1の画像の例を示す。
【
図1C】
本原理の例に従って、第2の画像の例を示す。
【
図1D】
本原理の例に従って、第3の画像の例を示す。
【
図2A】本原理の例示的な実施形態に従って、
図1A又は1Bの第1の画像を取得する第1のプロセスを示す。
【
図2B】本原理の例示的な実施形態に従って、
図6の第1の画像を取得する第2のプロセスを示す。
【
図3】本原理の例示的な実施形態に従って、
図1A又は1Bの第1の画像を表示装置に送信する方法を示す。
【
図4】本原理の例に従って、
図1A及び1Bの1つ又は複数の第1の画像を表示するように構成される第1の表示装置4の構造を図表で示す。
【
図5】本原理の例に従って、
図3及び/又は7の第1の画像を送信する方法を実行するように適合された機器の構造を図表で示す。
【
図6】本原理の例に従って、第2の画像及び第3の画像から取得された第1の画像の別の例を示す。
【発明を実施するための形態】
【0024】
実施形態の詳細な説明
ここで、主題が、図面に関連して説明され、図面において同様の参照数字は、全体を通して同様の要素を指すために用いられる。以下の説明において、説明の目的で、多数の特定の詳細が、主題の完全な理解を提供するために明らかにされる。しかしながら、主題の実施形態が、これらの特定の詳細なしに実行され得ることが明らかであり得る。
【0025】
本原理は、第1の表示装置(例えばHMD又はタブレット)に第1の画像を送信する方法と、方法を実行するように構成される装置との特定の実施形態に関連して説明される。送信される第1の画像は、第2の画像(例えば、ユーザが没入するビデオコンテンツから抽出される)と、第3の画像(例えば、没入型コンテンツを見ているユーザの実環境を表す画像か、又はユーザが自分の手に保持している自分のスマートフォン若しくはタブレット上で、ユーザによって受信されたメッセージの画像)とを組み合わせることによって合成される。第3の画像は、例えば、ユーザが現在保持している第2の表示装置の画像上に重ねられる。ユーザの手の画像が、第3の画像を表示する第2の表示装置の画像上で第1の画像に任意選択的に追加されてもよい。
【0026】
第1の画像を形成するために、ビジュアルコンテンツ(即ち第3の画像)を第2の画像に追加することは、例えば没入型コンテンツ(即ち第2の画像)に没入しているユーザが、自分の実環境と対話できるようにする。例えば、没入型コンテンツに没入している(例えば没入型コンテンツを表示するHMDを装着している場合に)ユーザが、自分のスマートフォン上で電話呼又はSMSを受信した場合に、ユーザは、没入型コンテンツ内にやはり没入しながら、受信された電話呼又はSMS上で直接ビューを有する能力を備える。没入型コンテンツ内でスマートフォンの画像に重ねられたユーザの手の画像と共に、ユーザが自分の手に保持しているユーザのスマートフォンを表示することは、まるでユーザがスマートフォンを自分の実環境で見ているかのように、ユーザがスマートフォンを制御できるようにする。電話呼又はSMSの画像は、例えば、HMDのフル表示解像度から利益を得るために、(例えば制御機器を介して)スマートフォンから受信される。
【0027】
別の実施形態によれば、第2の画像は、第3の画像(例えばビデオコンテンツ)を表示する第2の表示装置を含むシーンの画像に対応してもよい。第2の画像は、例えば第1の表示装置に関連する、例えば第1の表示装置(例えば、タブレット又はスマートフォンのリアカメラ、HMDを装着しているユーザが移動して行くシーンの画像を取得するためにHMDの前面に統合されたカメラ)に埋め込まれた画像取得装置(例えばカメラ、ウェブカメラ)で取得される。第1の表示装置に表示されたシーンにおける画像の最適な解像度から利益を得るために、第3の画像は、第3の画像を第2の表示装置に送信するソース装置(例えばセットトップボックス、第2の表示装置に関連する復号装置)から、画像処理装置によって直接受信されてもよい。画像処理装置は、受信された第3の画像(又はその同じ画像の処理されたバージョン)及び第2の画像を組み合わせることによって、第1の画像を合成してもよい。
【0028】
図1A及び1Bは、本原理の特定の非限定的な実施形態に従って、第1の表示装置、例えばHMDに表示される第1の画像10、11の2つの例を示す。第1の画像10、11は、例えば、静止画像か、又は第1の画像のシーケンスから構成される第1のビデオシーケンスの画像である。第1の画像10、11は、例えば、2つ又は3つの相異なるソースから取得される。第1の画像10、11は、
図1Cに示されている第2の画像12と、例えば
図1Dに示されている第4の画像13の一部、例えば、第2の表示装置130、例えば人(例えば第1の表示装置を装着又は保持している人)の手によって保持されているタブレット又はスマートフォンなどのモバイル装置を表す第4の画像13の一部とを組み合わせることによって取得されてもよい。
【0029】
図1Aは、第2の画像12と、第2の表示装置130を含む画像13の一部とを組み合わせることによって取得された第1の画像10の第1の例を示し、第3の画像100は、第4の画像13から抽出された第2の表示装置130の画像上に重ねられる。この非限定的な例において、第3の画像100は、第4の画像13に示されている第2の表示装置130のカメラによって取得された実環境の画像に対応する。1つ又は複数の基準マーカーが、
図1Dの例における第2の表示装置130上に表示され、基準マーカーは、
図2に関連してより詳細に説明されるように、第2の表示装置130を配置し、且つ/又は分割するために用いられる。基準マーカーは、例えば、正方形又は長方形などの幾何学的に単純な形状から構成される二次元白黒パターンを含む。第4の画像13は、例えば、第1の表示装置を装着しているユーザが立っている実環境の画像に対応し、ユーザは、第2の表示装置130を保持している。第4の画像13は、第1の表示装置を装着しているユーザの実環境の画像を取得する第1の表示装置のカメラで取得されてもよく、主な取得方向は、例えば、第1の表示装置を装着しているユーザの主な視覚化方向に対応し、取得方向は、第1の表示装置を装着しているユーザの頭の移動と共に変化する。別の例によれば、第4の画像13は、第1の表示装置の外部のカメラ、例えばウェブカメラ又はビデオ監視システムのカメラで取得されてもよい。第2の画像12は、例えば、コンピュータ生成画像(CGI)、即ち視環境を表す画像か、(拡張現実感又は複合現実感と呼ばれる)実世界ビューに関連する画像上に重ね合わされたCGIか、又は実世界のビューに関連する画像に対応する。第3の画像を重ねるためのサポートとして第2の表示サポートの画像を用いることによって、第2の画像12内にユーザの実環境の画像をちりばめることは、ユーザが、第2の画像の(実又は仮想)環境に没入しながら、自分の実環境のビューを有することができるようにする。第3の画像が、第2の表示装置のカメラによって提供される場合に、ユーザは、(例えば、人が、ユーザの環境に入って、ユーザに話し掛け始めた場合に)自分が見たい実環境のエリアの方へ第2の表示装置を向けることによって、自分が何を見たいかを選択してもよい。第2の表示装置のカメラによって取得された第3の画像は、制御装置(例えば
図5に関連して説明される機器5)に送信され、制御装置は、歪められた第3の画像を第1の表示装置に送信する。歪められた第3の画像は、第2の表示装置のカメラの解像度から、且つ第1の表示装置のスクリーンの解像度から利益を得る。変形によれば、第3の画像100は、第3の画像用のサポートとして第2の表示装置130の画像を用いずに、第2の画像12上に直接重ねられる。
【0030】
図1Bは、第2の画像12と、第2の表示装置130を含む画像13の一部とを組み合わせることによって取得された第1の画像11の第2の例を示し、第3の画像100は、第4の画像13から抽出された第2の表示装置130の画像上に重ねられる。この非限定的な例において、グラフィカルユーザインターフェース(GUI)の画像に対応する第3の画像110は、1つ又は複数のグラフィカルオブジェクト(例えばメニュー、ボタン)を含む。第1の画像11内に没入しているユーザは、やはり自分が、第2の画像12の環境に没入しているという印象を有しながら、まるでユーザが、自分の手に現在保持している第2の表示装置に表示されているGUIを物理的に見ているかのように、任意のグラフィカルオブジェクトを押す能力を有する。GUIのグラフィカルオブジェクトに対するどんな動作も、制御装置(例えば
図5に関連して説明される機器5)に送信され、制御装置は、GUIが、第1の画像に関連する1つ又は複数のパラメータ(例えば輝度、第1の画像に関連するオーディオトラックの強度、コントラスト、再生/休止)を制御することを目指す場合に意図された機器、例えば第1の表示装置に、又はGUIが、ユーザの実環境と対話するか若しくはそれを制御する(例えば照明要素、シャッタ、オーディオプレーヤを制御する)ことを目指す場合に実環境の他の要素に、押されたグラフィカルオブジェクトに関連する制御パラメータを転送してもよい。変形によれば、第3の画像110は、第3の画像用のサポートとして第2の表示装置130の画像を用いずに、第2の画像12上に直接重ねられる。
【0031】
第2の画像12は、例えば、第2の画像の第2のビデオシーケンスから取得された画像に対応する。第2のビデオシーケンスは、例えば、没入型ビデオコンテンツに対応する。没入型ビデオコンテンツは、ビデオを見ているユーザが、ビデオを閲覧できるようにするビデオに対応する。即ち、没入型コンテンツの一部だけが、決められた時刻に第1の表示装置のスクリーン上に表示され、表示される部分は、第1の表示装置を装着しているユーザの視聴方向に依存する。没入型ビデオコンテンツは、没入型コンテンツを視覚化するために用いられる第1の表示装置の視野より大きな視野をそれぞれ有する1つ又は複数の画像のシーケンスに対応する。没入型ビデオは、画像又は画像シーケンスを含み、各画像は、例えばコンピュータ生成画像(CGI)に対応し、CGIは、(拡張現実感又は複合現実感と呼ばれる)実世界ビューか、又は例えば(4πステラジアンビデオとも呼ばれる)実世界の180°、220°又は360°画像を取得する多数のカメラで取得された実世界ビュー上に重ねられる。かかるビデオコンテンツは、それを見るユーザが、ビデオコンテンツに没入していると感じるようにできるので、没入型ビデオコンテンツと呼ばれ、ユーザは、ビデオコンテンツを閲覧することができる。没入型ビデオコンテンツの閲覧は、HMDなどの表示装置によって可能にされる。
【0032】
図6は、本原理の更なる特定の非限定的な例に従って、第1の表示装置60、例えばタブレットに表示された第1の画像600の更なる例を示す。第1の画像は、静止画像か、又は第1の画像のシーケンスを含む第1のビデオシーケンスの画像であってもよい。第1の画像600は、例えば、相異なるソースから取得された複数の画像、例えば2又は3以上の画像を組み合わせることによって取得される。第1の画像600は、例えば、第2の画像及び第3の画像の組み合わせに対応する。第1の画像が、第1のビデオシーケンスの画像である場合に、第1のビデオシーケンスは、第2のビデオ画像のシーケンスを含む第2のビデオシーケンスと、第3のビデオ画像のシーケンスを含む第3のビデオシーケンスとを組み合わせることによって取得されてもよく、各第1の画像は、第2及び第3のビデオシーケンスの内で同じ関連するタイムスタンプをそれぞれ有する第2のビデオシーケンスの1つの第2の画像と、第3のビデオシーケンスの1つの第3の画像との組み合わせに対応する。
【0033】
例えば、第2の画像は、例えば第1の表示装置60のリアカメラ601を用いてシーン6を取得することによって取得される。第2の画像に含まれるシーン6のビューは、例えば、破線で表されたカメラ601の視野(又は焦点)に依存する。第2の画像は、例えば、大視野画像(360°までで、例えば110°、135°、180°、240°若しくは360°)又は標準視野画像(例えば、65°、70°若しくは90°)である。シーン6は、1つ又は複数の第2の表示装置61(例えばテレビジョンセット、及び/又はプロジェクタに関連する表示スクリーン、及び/又はスマートフォン、及び/又はタブレット)と、シーンの性質に依存してもよい任意選択的な1つ又は複数の他のオブジェクト(
図6には示さず)(例えばシーンが居間に対応する場合のソファ、シーンが寝室に対応する場合のベッド、シーンがダイニングルームに対応する場合のテーブル、シーンが映画館に対応する場合の座席)とを含む。変形によれば、シーン6の第2の画像は、第1の表示装置60に埋め込まれていないカメラ、例えばウェブカメラ又はセキュリティカメラで取得される。
【0034】
第1の画像600は、その一部として、シーンの第2の表示装置61の表現601を含む。
【0035】
第3の画像611は、第2の画像を取得している間に第2の表示装置61上に表示されるコンテンツ610に対応する。第1の画像600を取得するために、第1の画像は、第3の画像611を用いて、第2の画像を増強することによって生成される。例えば、増強は、例えば第2の表示装置61の表現に対応する第2の画像のエリアで、第3の画像611を第2の画像上に重ねることによって取得されてもよい。オブジェクト(図示せず)が、第2の画像における表示装置61の部分を遮る場合に、他の増強、例えば遮られないエリアにおける第3の画像によって第2の画像を部分的に重ねることが可能である。他の増強モードは、超解像度画像を生成することと、第3の画像のズームされた部分を重ねることと、色管理(第1及び第2のディスプレイの場面光及び特性にリンクされた)を増強の前に第3の画像に追加することとを含んでもよい。第3の画像のコンテンツ610は、例えば、第2の画像を取得するために、第2の画像及び受信された第3の画像610を処理するように構成される画像処理機器によって受信される。第3の画像610は、例えば、第3の画像610を第2の表示装置61に送信するソース装置、例えば記憶装置、復号装置、セットトップボックス、DVD又はBlue-Rayリーダ、ラップトップ、パーソナルコンピューティング装置、タブレット又はスマートフォンなどのモバイル装置から受信される。ソースから直接受信される第3の画像を用いることによって、第3の画像の表示品質を向上させることができる。表示品質は、解像度、ぼけ、ノイズ及び色態様を含む。ソース装置から取得された第3の画像は、カメラ601で取得された、且つ第2の画像内で利用可能な第3の画像の取得バージョンより優れた質を有する。実際に、第2の画像は、カメラのノイズと、カメラセンサの限られた空間解像度と、カメラエレクトロニクスの限られた時間解像度と、カメラセンサの条件等色と、同様にカメラ601及び/又はディスプレイ60の他の限られた色容量に悩まされる。
【0036】
図4は、ビデオコンテンツを表示するように構成される第1の表示装置4のハードウェア実施形態を図表で示し、第1の表示装置4のコンテンツは、第1の表示装置4の位置に従って少なくとも部分的に変化する。第1の表示装置4は、例えばHMDに対応する。第1の表示装置4は、少なくとも1つの慣性センサ41と、少なくとも1つの表示ユニット(例えばLCD(液晶ディスプレイ)、OLED(有機発光ダイオード)又はLCOS(シリコン上液体))42と、送信ユニット43とを含む。慣性センサ41は、例えばジャイロスコープに対応し、第1の表示装置4は、例えば3つのジャイロスコープ、即ち、縦揺れ用の1つ、横揺れ用の1つ、及び偏揺れ用の1つを含む。別の例によれば、慣性センサ41は、IMU(慣性測定ユニット)に対応する。コントローラが、慣性センサと関連付けられてもよく、コントローラは、慣性センサによって取得された装置の位置の変化を表すデータを処理するように、且つ第1のバスを介して送信ユニット43にこのデータを送信するように構成される。送信ユニット43は、例えば無線インターフェースであり、且つ無線リンクを介して(例えばWi-Fi又はBluetoothに従って)、慣性センサ41から受信されたデータを外部装置(図示せず)に送信するように構成される。外部装置は、例えばセットトップボックス(STB)か、コンピュータか、又はビデオコンテンツを格納し、且つ/若しくは構成し、且つ/若しくは復号するように適合された任意の装置である。送信ユニット43は、無線リンクを介して、例えば外部装置から、表示ユニット42に表示されるビデオコンテンツの第1の画像10を表すデータを受信するように更に構成されてもよい。次に、表示される第1の画像10を表すデータは、第2のバスを介して表示ユニット42に送信される。変形によれば、送信ユニットは、例えばUSB又はHDMI標準に従い、有線リンクを介してデータを送信/受信するように構成されるインターフェースである。外部装置は、HMDの測定された位置に対応するビデオコンテンツの部分をHMDに送信してもよい。HMDの測定された位置に対応するビデオコンテンツの部分は、例えば、実世界におけるHMDに関連する視点と、ビデオコンテンツに関連する仮想カメラの視点との間の関係を確立する特定の機能を用いて決定される。特にビデオコンテンツが、第1の表示装置の表示スクリーンに関連する視野より大きい場合に、第1の表示装置の測定された位置に従って第1の表示装置の表示スクリーンに表示されるビデオコンテンツの部分を制御することは、第1の表示装置を装着しているユーザが、ビデオコンテンツを閲覧できるようにする。例えば、第1の表示装置、即ちHMDによって提供される視野が、110°(例えばヨー軸を中心に)と等しい場合に、且つビデオコンテンツが、180°のコンテンツを提供する場合に、HMDを装着しているユーザは、HMDによって提供される視野の外側のビデオコンテンツの部分を見るために、右又は左へと自分の頭を回転してもよい。
【0037】
別の例によれば、第1の表示装置4は、タブレット(例えば
図6のタブレット60)又はスマートフォンなどのモバイル装置に対応する。第1の画像は、モバイル装置に埋め込まれたメモリ(例えばRAM又はSSD)に関連する処理装置/ユニット(例えばCPU及び/又はGPU)によって取得されてもよく、処理装置/ユニットは、第1の画像を取得するために、第2の画像及び第3の画像を組み合わせるように構成される。この例によれば、送信ユニット43は、第2の画像及び/又は第3の画像を受信するように構成される。モバイル装置はまた、第2の画像を取得するように構成される取得装置、例えばカメラを含んでもよい。
【0038】
図2Aは、本原理の第1の特定の非限定的な実施形態に従って、第1の画像10又は11を生成するように適合されたプロセスを示す。プロセスは、例えば、第1の画像を表示する第1の表示装置に埋め込まれているか又はいない画像処理機器によって実行される。かかる画像処理機器の例が、
図5に示されている。
【0039】
プロセスの第1の動作20において、第4の画像13が取得される。第4の画像13は、例えば、カメラなどの取得装置から受信される。カメラは、例えば、
図2に関連して説明されたプロセスから結果として生み出される第1の画像10、11を表示するために用いられる第1の表示装置、例えばHMDに関連付けられる(例えば統合される)。カメラは、HMDを装着しているユーザが立っている実環境に関連するカメラであってもよい。別の例によれば、第4の画像は、記憶装置、例えばRAM(ランダムアクセスメモリ)又はSSD(ソリッドステートドライブ)メモリなどのメモリから受信される。第4の画像13は、例えば、第1の表示装置を装着しているユーザが立っている実環境の決定されたビューを表し、ビューは、第4の画像を取得するために用いられるカメラの取得方向によって決定される。
図2及び1Dの例において、第4の画像は、第2の表示装置、例えば、第1の表示装置を装着しているユーザの手によって保持されているタブレット又は携帯電話などのモバイル装置の表現を含む。
【0040】
プロセスの第2の動作21において、実環境における第2の表示装置の位置が決定される。位置は、例えば、第4の画像において、第2の表示装置上に配置された目に見えるランドマーク、例えば第2の表示装置の1つ又は複数のコーナーを検出することによって決定され、目に見えるランドマークを用いる位置決定方法は、例えばFanelli et al. in “Real time head pose estimation with random regression forests”, in Computer Vision and Pattern Recognition, 2011によって説明されている。別の例によれば、位置は、Chien-Ping Lu et al. in “Fast and Globally Convergent Pose Estimation From Video Images”, February 18, 1998によって説明されているように、非線形最適化アルゴリズムを用いて、又は物空間共線性誤差を最小化する方法を用いて、第4の画像を解析することによって決定されてもよい。別の例によれば、例えばFakhr-eddine Ababsa et al. in “Robust Camera Pose Estimation Using 2D Fiducials Tracking for Real-Time Augmented Reality Systems” in ACM SIGGRAPH VRCAI, 2004, pp. 2226-2229によって説明されているように、1つ又は複数の基準マーカーが、第2の表示装置の姿勢を決定するために第4の画像を解析する場合に、第2の表示装置に表示されて用いられる。第2の表示装置に表示される基準マーカーのボードと組み合わされるOpenCVにおけるArUcoソフトウェアが、例えば用いられて、第4の画像におけるマーカーボードの方位及び各マーカーの位置を表す3つのベクトルを提供してもよい。
【0041】
変形によれば、位置情報データは、第2の表示装置によって送信され、位置を表すパラメータは、例えば、第2の表示装置のセンサ(例えばジャイロスコープ)によって決定される。
【0042】
別の変形によれば、方位は、例えば位置情報が十分でない場合に、位置情報データと共に用いられてもよい。例えば、第2の表示装置が、長方形又は正方形を有する場合に、4つのコーナーの座標の決定は、後続の動作を実行するための、第2の表示装置の位置に関連する十分な情報を提供する。対照的に、第2の表示装置の単一ポイントの座標が決定された場合に、位置情報は、3D空間における第2の表示装置の方位で完成されてもよい。方位情報を備えた位置は、姿勢情報を形成する。
【0043】
第3の動作22において、第3の画像220が、動作21で決定された第2の表示装置の位置又は姿勢に適合するように投影される。第3の画像220は、透視投影を適用することによって、第2の表示装置の知覚されたジオメトリに適合するように歪められる。その目標に達するために、第4の画像において、第2の表示装置の表現上に重ねられる第4の画像を歪ませるために適用されるホモグラフィ行列が決定される。ホモグラフィ行列は、例えば、第4の画像におけるコーナーに対応する第3の画像のポイントと共に、動作21において決定された位置又は姿勢情報を用いることによって決定され、マッピングは、第4の画像のコーナーに対応する第3の画像のポイントと、第2の表示装置の表現の対応するポイントとの間で確立される。入力第3の画像220へのホモグラフィ行列の適用は、第2の表示装置の表現の形状に対応する形状を有する歪められた第3の画像221を提供する。
【0044】
第4の画像が、第1の表示装置の外部のカメラで取得される場合に、(第2の表示装置の姿勢情報と同じ基準フレームで表現される)第1の表示装置の姿勢を表す第2の情報が、第3の画像を歪ませるために必要とされる。この第2の情報は、第2の表示装置の第1の姿勢情報と同じ手法で、即ち、例えば第1の表示装置及び第2の表示装置を含む画像を解析することによって取得されてもよく、又は第1の表示装置と関連するセンサから直接取得されてもよい。
【0045】
連続して又は同時に実行され得る第4の動作23及び第5の動作24において、第2の表示装置231の表現、及び第4の画像13におけるユーザの手241の表現は、分割される。画像分割は、複数のセグメントに画像を分割するプロセスであり、各セグメントは、ピクセルのセットに対応する。第2の表示装置の分割は、例えば位置情報が、第2の表示装置のコーナーの座標によって与えられる場合に、位置を表す情報に基づいて実行される。変形によれば、分割は、例えば、第2の表示装置のただ1つのコーナーの座標だけが知られている場合に、又は第2の表示装置の方位情報だけが知られている場合に、寸法(例えば長さ及び幅)を表す情報に更に基づく。前記寸法情報は、例えば、第2の表示装置用に受信されるか、又は第2の表示装置の相異なる基準のリスト用にかかる情報を提供するルックアップテーブルから検索される。ユーザの手の分割は、例えば、V. A. Oliveira et al. in “Skin Detection using HSV color space”によって説明されているように、HSV色空間において肌の色合いを検出することによって実行される。
【0046】
第6、第7及び第8の動作25、26及び27において、最終的な第1の画像221が、連続して又は同時に実行され得る合成動作で取得される。合成は、相異なるソースからの視覚要素を単一画像に組み合わせることに対応する。歪められた第3の画像271は、第2の表示装置の分割された表現231の上に重ねられ、手241の分割された表現は、歪められた第3の画像を表示する分割された表現の前方に見える第1の画像に挿入される。最終的な合成27は、最終的な第1の画像271を生成するために、歪められた第3の画像を伴う手の表現を第2の画像上にちりばめるか又は重ねることに存する。これによって、ユーザは、自分が第1の表示装置上で現在見ているコンテンツ内に補足コンテンツを表示する窓を有することができる。第3の画像のコンテンツに依存し、それによって、ユーザは、例えば、自分が立っている実環境に関するビューを有することができるか、且つ/又は自分が立っている実環境の1つ又は複数のオブジェクトを制御することができるか、且つ/又はユーザが現在見ていたコンテンツを制御することができるようになる。
【0047】
図2Bは、本原理の第2の特定の非限定的な実施形態に従って、第1の画像600を生成するように適合された更なるプロセスを示す。プロセスは、例えば、第1の画像を表示する第1の表示装置に埋め込まれているか又はいない画像処理機器によって実行される。かかる画像処理機器の例が、
図5に示されている。
【0048】
プロセスの第1の動作201において、シーン6を表す1つ又は複数の第2の画像が取得される。第2の画像は、例えば、カメラなどの取得装置から受信される。カメラは、例えば、
図7に関連して説明されるプロセスから結果として生み出される第1の画像600を表示するために用いられる第1の表示装置、例えばHMD、又はタブレットに関連付けられる(例えば統合される)。カメラは、第1の表示装置を装着しているユーザが立っている実環境に関連するカメラであってもよい。別の例によれば、第2の画像は、記憶装置、例えばRAM(ランダムアクセスメモリ)又はSSD(ソリッドステートドライブ)メモリなどのメモリから受信又は取得される。第2の画像は、例えば、第1の表示装置を装着しているユーザが立っている実環境の決定されたビューを表し、ビューは、第2の画像を取得するために用いられるカメラの取得方向によって決定される。
図7及び6の例において、第2の画像は、第2の表示装置61、例えばテレビジョンセットの表現を含む。
【0049】
プロセスの第2の動作202において、1つ又は複数の第3の画像610が、ソース装置から取得される(例えば受信される)。第3の画像は、例えば、シーン6の第2の表示装置に表示される画像に対応する。ソース装置は、例えば、第2の表示装置における表示用に第3の画像を送信及び/又は復号するソース装置に対応する。1つ又は複数の第3の画像は、更なる処理用に、画像処理機器のメモリ(例えばRAM若しくはSSD)又はキャッシュに格納されてもよい。1つ又は複数の第3の画像は、無線(例えばWiFi若しくはBluetooth)又は有線(例えばイーサネットか、USBか、若しくはHDMI)接続を介して受信される。
【0050】
プロセスの第3の動作203において、第2の画像の視点及び視聴方向(例えば第2の画像の取得視点)に関連して、シーン6における第2の表示装置61の位置、方位、スケール、形状が決定される。その目標に達するために、第2の画像における第2の表示装置の表現は、例えば、第2の画像において検出されてもよい。
【0051】
位置は、例えば、第2の表示装置に配置された目に見えるランドマーク、例えば第2の表示装置の1つ又は複数のコーナーを第2の画像において検出することによって決定され、目に見えるランドマークを用いる位置決定方法は、例えば、Fanelli et al. in “Real time head pose estimation with random regression forests”, in Computer Vision and Pattern Recognition, 2011によって説明されている。ランドマークのスケール及び方位は、第2のディスプレイのスケール及び方位を与える。第2のディスプレイの形状は、例えば、検出されたランドマークによって占められる第2の画像におけるエリアの形状を解析することによって取得されてもよい。
【0052】
別の例によれば、位置、方位、及びスケールは、Chien-Ping Lu et al. in “Fast and Globally Convergent Pose Estimation From Video Images”, February 18, 1998によって説明されているように、非線形最適化アルゴリズムを用いて、又は物空間共線誤差を最小化する方法を用いて、第2の画像を解析することによって決定されてもよい。
【0053】
別の例によれば、第2の表示装置の位置は、第2の画像のコンテンツと、シーン6における第2の表示装置に表示されるビデオコンテンツ(即ち第3の画像)とを比較することによって決定され、ビデオコンテンツ(即ち第3の画像)は、そのビデオコンテンツを第2の表示装置に送信するソースから直接受信される。第2の表示装置6に表示されるビデオコンテンツ(即ち第3の画像)が分かれば、比較プロセスの目的は、かかるビデオコンテンツを第2の画像に位置付けることであり、それによって、第2の画像内で、第2の表示装置の表現の位置、方位、スケール及び形状を検出することが可能になる。
【0054】
更なる例によれば、第2の表示装置の位置は、相異なる連続的な(時間的に言って)第2の画像のコンテンツを互いに比較することによって決定される。連続的な第2の画像のグループ(例えば第2の画像のシーケンスに対応するビデオシーケンスの10、20又は20フレーム)に関連する視点が変化しないことを考慮することによって、経時的に変化する第2の画像のコンテンツの部分だけが、第2の表示装置61に表示されるコンテンツに対応する。第2の画像は、それらの1つに対して登録されてもよく、第2の表示装置の表現は、第3の画像のコンテンツが経時的に変化するので、第2の表示装置上に第3の画像を表示することによる、第2の画像のシーケンス内での変化を強調する画像微分によって検出されてもよい。
【0055】
別の例によれば、例えばFakhr-eddine Ababsa et al. in “Robust Camera Pose Estimation Using 2D Fiducials Tracking for Real-Time Augmented Reality Systems” in ACM SIGGRAPH VRCAI, 2004, pp. 2226-2229によって説明されているように、1つ又は複数の基準マーカーが、第2の表示装置の姿勢を決定するために第4の画像を解析する場合に、第2の表示装置に表示されて用いられる。第2の表示装置に表示される基準マーカーのボードと組み合わされるOpenCVにおけるArUcoソフトウェアが、例えば用いられて、マーカーボードの方位及び第4の画像における各マーカーの位置を表す3つのベクトルを提供してもよい。
【0056】
変形によれば、方位は、例えば位置情報が不十分な場合に、位置情報と共に用いられてもよい。例えば、第2の表示装置が、長方形又は正方形を有する場合に、4つのコーナーの座標の決定は、後続の動作を実行するための、第2の表示装置の位置に関する十分な情報を提供する。対照的に、第2の表示装置の単一ポイントの座標が決定される場合に、位置情報は、3D空間における第2の表示装置の方位で完成されてもよい。方位情報を備えた位置は、姿勢情報を形成する。
【0057】
第4の動作204において、1つ又は複数の第3の画像610は、動作203で決定された第2の表示装置の位置又は姿勢に適合するように投影される。第3の画像610は、投影を適用することによって、第2の表示装置の知覚されたジオメトリに適合するように歪められる。投影は、透視画法、弱い透視画法、正射投影、又は例えば十分な幾何学的な精度又は十分に少ない実現用の占有面積を有する任意の他の適切なタイプであってもよい。その目標に達するために、非限定的な例に従って、第2の画像における第2の表示装置の表現上に重ねられる受信された第3の画像610を歪ませるために適用されるホモグラフィ行列が決定される。ホモグラフィ行列は、例えば、受信された長方形の第3の画像610のコーナーに対応する第3の画像610のポイントと共に、動作203において決定された位置又は姿勢情報を用いることによって決定され、マッピングは、受信された第3の画像のコーナーと、第2の表示装置の表現の対応ポイント(例えば、第2の画像において検出された第2の表示装置のフレームのコーナー)との間で確立される。受信された第3の画像610へのホモグラフィ行列の適用は、第2の表示装置の表現の形状に対応する形状を有する歪められた第3の画像611を提供する。
【0058】
第2の画像が、第1の表示装置の外部のカメラで取得される場合に、第1の表示装置の姿勢を表す第2情報(第2の表示装置の姿勢情報と同じ基準フレームにおいて表現される)は、受信される第3の画像610を歪ませるために必要とされる。この第2の情報は、第2の表示装置の第1の姿勢情報と同じ手法で、即ち例えば第1の表示装置及び第2の表示装置を含む画像を解析することによって取得されてもよく、又は第1の表示装置と関連するセンサから直接取得されてもよい。
【0059】
第5の動作205において、最終的な第1の画像600が、連続して又は同時に実行され得る合成動作で取得される。合成は、相異なるソースからの視覚要素を単一画像に組み合わせるか又は増強することに対応する。歪められた第3の画像611は、例えば、第2の表示装置の表現601上に重ねられる。これは、ユーザが、第1の表示装置のスクリーンの解像度と共に、受信された第3の画像610の解像度から結果として生み出される最適な解像度から利益を得ることができるようにする。
【0060】
変形によれば、歪められた第3の画像611は、第2の画像内で経時的に固定位置で重ねられる。例えば、連続的な第2の画像のシーケンスにおいて、最初の第3の画像は、たとえ第2の表示装置の表現の位置が、第2の画像のシーケンス内で経時的に変化しても、第2の表示装置の表現に対応するシーケンスの最初の第2の画像のエリア上に重ねられてもよく、次に(第3の画像のシーケンスの)他の第3の画像は、シーケンスの他の第2の画像内の同じ位置で重ねられてもよい。第1の表示装置を保持して第2の画像を取得するユーザが、シーン内で移動する場合に、第2の表示装置の表現の位置は、変化してもよい。第3の画像の重複を固定位置に固定することは、例えば、第2の画像を取得するユーザの手の揺れによる、第3の画像の小さな揺れを回避することができる。
【0061】
任意選択の変形によれば、仮想オブジェクトは、合成プロセス中に、例えば拡張現実感シーン又は拡張仮想シーンを表す第1の画像を生成する場合に、第1の画像に追加されてもよい。
【0062】
図3は、本原理の特定の非限定的な実施形態に従って、第1の表示装置に第1の画像を送信する方法を示す。
【0063】
初期化ステップ30で、機器5の相異なるパラメータが更新される。特に、姿勢情報、透視投影のパラメータが、何らかの方法で初期化される。
【0064】
ステップ31において、第2の画像が受信される。第2の画像は、仮想環境、例えばコンピュータ生成画像(例えばゲームアプリケーション用の)を例えば表す。他の例によれば、第2の画像は、実環境、例えば1つ又は複数のカメラで取得された画像か、又は実要素及び仮想要素を含む画像を表す画像である。第2の画像は、連続する第2の画像のシーケンス(即ちビデオシーケンス)に属してもよい。特定の実施形態によれば、第2の画像は、没入型コンテンツの一部であり、第2の画像の寸法は、第1の表示装置が表示できるコンテンツのサイズに対応する。第2の画像は、例えば、インターネットを介して、又はLAN(ローカルエリアネットワーク)における無線若しくは有線接続を通じて遠隔記憶装置(例えばサーバ)から受信される。別の例によれば、第2の画像は、第2の画像を処理するように構成される処理ユニット(例えばプロセッサ、例えばCPU及び/又は1つ又は複数のGPU)からローカルメモリを接続するバスを介して、ローカルメモリ(例えばRAM又はSSD)から受信される。別の例によれば、1つ又は複数の第2の画像は、画像取得装置、例えば第1の表示装置に関連するカメラから受信される。
【0065】
ステップ32において、第2の表示装置の位置を表す第1の情報が取得される(例えば受信されるか又は決定される)。第1の情報は、例えば、有線又は無線接続を通じて第2の表示装置から受信されてもよい。別の例によれば、第1の情報は、
図2Aの動作21又は
図2Bの動作203に一層詳細に説明されているように、第2の表示装置の表現を含む第4の画像に姿勢推定アルゴリズムを適用することによって決定される。第4の画像220(
図6及び2Bの例において第2の画像とも呼ばれる)は、第1の表示装置に関連するカメラで、又は例えば第1の表示装置を装着若しくは保持しているユーザが立っている実環境に属する第1の表示装置の外部のカメラで取得されてもよい。任意選択の変形によれば、第2の表示装置の方位情報が取得されてもよく、共に組み合わされた位置及び方位情報は、第2の表示装置の姿勢を提供する。
【0066】
ステップ33において、第3の画像が受信される。第3の画像は、例えば、インターネットを介してか、若しくはLAN(ローカルエリアネットワーク)における無線若しくは有線接続を通じて遠隔記憶装置(例えばサーバ)から、又は遠隔装置(例えば、ユーザが立っている例えば実環境に属する第2の表示装置若しくはカメラ)から受信される。第3の画像は、次のものを含む画像グループに属する。
- ビデオシーケンス、例えば、実環境(例えば第1の表示装置を装着又は保持しているユーザが立っている実環境)を表す映画又はビデオシーケンスの画像。前記画像は、例えば、第2の表示装置に関連するカメラ(例えばユーザによって保持されている)で、又は前記実環境内に位置するカメラで取得される。変形によれば、画像は、ユーザの環境から遠隔の実環境を表し、例えばユーザが立っている部屋とは相異なる部屋を表す。別の変形によれば、画像は、人、例えば人の顔を表し、画像は、例えば、前記人のスマートフォン又はタブレットのカメラで取得され、第2の表示装置上で受信される。
- 仮想環境を表すビデオシーケンスの画像。
- 実要素及び仮想要素又はオブジェクトを組み合わせたシーンを表すビデオシーケンスの画像。
- ユーザの環境の要素(例えば照明、アラーム、シャッタのオン/オフ)を制御するために、例えば第1及び/又は第2の画像のパラメータを制御するように適合されたグラフィカルユーザインターフェース(GUI)1つ又は複数のグラフィカルオブジェクトを含む画像。
- テキスト要素、例えば第2の表示装置上で受信されたSMS(ショートメッセージサービス)のテキスト要素を含む画像。
【0067】
第3の画像は、上記の画像の幾つか又は全ての組み合わせの上記の画像のいずれか、例えば、実環境の1つ又は複数の画像と、次に第2の表示装置上でユーザに電話する人の顔の1つ又は複数の画像と、次に1つ又は複数のテキスト要素とを含む第3の画像のシーケンスであってもよい。変形によれば、第3の画像は、上記の画像の幾つかの合成、例えばグラフィカル要素及び/又はテキスト要素を埋め込んだユーザの実環境の画像であってもよい。
【0068】
次に、第3の画像は、
図2の動作22に関連して一層詳細に説明されているように、ステップ32で取得された第1の位置情報に従って(又は第1の姿勢情報に従って)によって歪められる。
【0069】
ステップ34において、第1の画像が、歪められた第3の画像及び受信された第2の画像を組み合わせることによって生成される(例えば、合成される)。歪められた第3の画像は、例えば、受信された第2の画像の決定されたエリアに、例えば第2の画像の底部左にか、第2の画像の底部右にか、又はユーザによって画定された部分に重ねられる。変形によれば、合成は、第1の表示装置を装着又は保持しているユーザによって保持された第2の表示装置の表現を含む第4の画像の分割された部分の組み合わせを更に含む。この変形によれば、第3の画像は、第3の画像が表示される第2の表示装置を保持しているユーザの手を伴う第2の表示装置を表す分割された部分に重ねられる。次に、第1の表示装置を装着しているユーザは、自分が没入している環境を離れることなしに、補足のコンテンツ、例えば自分の環境に関するビューか又は第2の表示装置(例えばスマートフォン又はタブレット)に入ってくるメッセージに対するビューへのアクセスを有する。ソースから直接受信された第3の画像を重ねることは、前記第3の画像を表示する場合に、第1の表示装置のフル解像度から利益を得ることができる。
【0070】
ステップ35において、ステップ34で取得された第1の画像を表すデータは、例えば第1の表示装置のスクリーン上に表示されるために、第1の表示装置に送信される。データは、例えば第1の画像の画素に関連するテクスチャ情報、例えば各画素に関連するRGB情報を含む。
【0071】
これらのステップは、第1の画像のシーケンスを生成するために、幾つかの第2の画像(即ち第2の画像のシーケンス)、幾つかの第3の画像(即ち第3の画像のシーケンス)、及び/又は幾つかの第4の画像(即ち第4の画像のシーケンス)用に繰り返されてもよい。
【0072】
図5は、第1の画像を合成及び/又は送信するように構成される機器5のハードウェア実施形態を図表で示す。装置5はまた、1つ又は幾つかの第1の画像の表示信号を生成するように構成される。装置5は、例えば、タブレット、スマートフォン、ゲーム機、コンピュータ、ラップトップ、又はセットトップボックスに対応する。
【0073】
装置5は、クロック信号も同様に搬送するアドレス及びデータのバス55によって互いに接続された次の要素を含む。即ち、
- マイクロプロセッサ51(又はCPU)と、
- グラフィックカード52であって、
・ 幾つかのグラフィカルプロセッサユニット(又はGPU)520と、
・ グラフィカルランダムアクセスメモリ(GRAM)521と、
を含むグラフィックカード52と、
- ROM(読み出し専用メモリ)タイプの不揮発性メモリ56と、
- ランダムアクセスメモリ又はRAM57と、
- 第1の画像を表すデータを例えば第1の表示信号に送信するように構成される送信機58と、
- 第2の表示装置からの、カメラからの、第1の表示装置からのデータ(例えば視聴方向を表す情報)と、第2、及び/又は第3、及び/又は第4の画像を表すデータと、第2の表示装置からの制御パラメータとを受信するように構成される受信機59と、
- 例えば触覚インターフェース、マウス、ウェブカメラなどの1つ又は幾つかのI/O(入力/出力)装置54と、
- 電源59と、
を含む。
【0074】
機器5はまた、例えばライブで、グラフィックカードにおいて計算された画像を表示するために、グラフィックカード52に直接接続される表示スクリーンタイプの1つ又は複数の表示装置53を含んでもよい。グラフィックカード52に表示装置53を接続する専用バスの使用は、はるかに大きなデータ送信ビットレートを有する、従ってグラフィックカードによって構成される画像の表示用の待ち時間を低減するという利点を提供する。変形によれば、表示装置は、機器5の外部にあり、且つ表示信号を送信するためにケーブル又は無線によって機器5に接続される。機器5、例えばグラフィックカード52は、例えば第1の表示装置(例えばHMD)、LCD、又はプラズマスクリーン、又はビデオプロジェクタなどの外部表示手段に表示信号を送信するように適合された送信又は接続用のインターフェース(
図5には示されず)を含む。
【0075】
メモリ521、56及び57の説明において用いられる「レジスタ」という単語は、言及されたメモリのそれぞれにおいて、低容量のメモリ領域(幾つかの2進データ)と同様に、大容量のメモリ領域(プログラム全体、又は計算若しくは表示されるデータの全て若しくは一部を格納できるようにする)の両方を示す。
【0076】
スイッチを入れられると、マイクロプロセッサ51は、RAM57に含まれるプログラム命令をロードし実行する。
【0077】
ランダムアクセスメモリ57は、特に次のものを含む。即ち、
- レジスタ570における、機器5のスイッチを入れる責任があるマイクロプロセッサ51の動作プログラムと、
- 第1、第2、第3及び/又は第4の画像を表すデータ571(例えばRGBデータ)と、
- 第2の表示装置及び/又は第1の表示装置の位置(及び/又は姿勢)を表す情報572と、
を含む。
【0078】
本開示に特有の方法(例えば第1の画像を送信する方法及び/又は第1の画像を合成する方法)のステップを実行するアルゴリズムは、これらのステップを実行する機器5に関連するグラフィックカード52のメモリGRAM521に格納される。スイッチを入れられ、且つひとたびデータ571及び情報572が、RAM57にロードされると、グラフィックカード52のグラフィックプロセッサ520は、これらのパラメータをGRAM521にロードし、且つ例えばHLSL(高水準シェーダ言語)言語又はGLSL(オープンGLシェーディング言語)を用いる「シェーダ」タイプのマイクロプログラムの形で、これらのアルゴリズムの命令を例えば実行する。
【0079】
ランダムアクセスメモリGRAM521は、特に次のものを含む。即ち、
- レジスタにおける、第2の画像を表すデータと、
- レジスタにおける、第3及び/又は第4の画像を表すデータと、
- レジスタにおける、第1の画像を表すデータと、
- レジスタにおける、位置又は姿勢情報を表すデータと、
を含む。
【0080】
別の変形によれば、GRAM521における利用可能なメモリ記憶空間が不十分な場合に、RAM57の一部が、識別子及び距離の記憶用に、CPU51によって割り当てられる。しかしながら、この変形は、GPUに含まれるマイクロプログラムから構成される環境の表現を含む画像の合成において、より大きな待ち時間をもたらす。何故なら、送信容量が、GPUからGRAM(逆も同様である)へのデータ送信用にグラフィックカードにおいて利用可能な送信容量より一般に劣っているバス55が通過するグラフィックカードからランダムアクセスメモリ57へと、データが、送信されなければならないからである。
【0081】
別の変形によれば、電源58は、機器5の外部にある。
【0082】
代替実施形態において、機器5は、どんなROMも含まず、RAMだけを含み、本開示に特有で、
図2又は3に関連して説明されている方法のステップを実行するアルゴリズムは、RAMに格納される。別の変形によれば、機器5は、ROM及び/又はRAMの代わりに、SSD(ソリッドステートドライブ)メモリを含む。
【0083】
当然、本開示は、前に説明した実施形態に限定されない。
【0084】
特に、本開示は、第1の画像を送信する方法に限定されず、それだけでなく第1の画像を合成/生成する方法(及びそのように構成される装置)に、且つ/又は第1の画像を表示する方法(及びそのように構成される装置)に及ぶ。
【0085】
本明細書で説明される実装形態は、例えば、方法又はプロセス、機器、ソフトウェアプログラム、データストリーム、又は信号において実行されてもよい。たとえ実装形態の単一の形式の文脈においてのみ論じられる(例えば、方法又は装置としてのみ論じられる)場合でさえ、論じられる特徴の実装形態はまた、他の形式(例えばプログラム)で実行されてもよい。機器は、例えば適切なハードウェア、ソフトウェア、及びファームウェアにおいて実現されてもよい。方法は、例えばプロセッサなどの例えば機器において実行されてもよく、機器は、例えば、コンピュータ、マイクロプロセッサ、集積回路、又はプログラマブル論理装置を含む処理装置を一般に指す。プロセッサはまた、例えばスマートフォン、タブレット、コンピュータ、携帯電話、ポータブル/携帯情報端末(「PDA」)、及びエンドユーザ間の情報の通信を促進する他の装置などの通信装置を含む。
【0086】
本明細書で説明される様々なプロセス及び特徴の実装形態は、様々な相異なる設備又はアプリケーション、特に例えばデータ符号化、データ復号化、ビュー生成、テキスト処理、並びに画像及び関係するテキスト情報及び/又は奥行き情報の他の処理に関連する設備又はアプリケーションにおいて具体化されてもよい。かかる設備の例には、エンコーダ、デコーダ、デコーダからの出力を処理するポストプロセッサ、エンコーダに入力を提供するプリプロセッサ、ビデオコーダ、ビデオデコーダ、ビデオコーデック、ウェブサーバ、セットトップボックス、ラップトップ、パーソナルコンピュータ、携帯電話、PDA、及び他の通信装置を含む。明らかであるはずだか、設備は、モバイルであってもよく、モバイル車両に設置されてもよい。
【0087】
加えて、方法は、プロセッサによって実行される命令によって実行されてもよく、かかる命令(及び/又は実装形態によって生成されたデータ値)は、例えば集積回路、ソフトウェアキャリアなどのプロセッサ可読媒体上に、又は例えばハードディスク、コンパクトディスケット(「CD」)、光ディスク(例えばデジタル多用途ディスク若しくはデジタルビデオディスクと呼ばれることが多いDVDなど)、ランダムアクセスメモリ(「RAM」)若しくは読み出し専用メモリ(「ROM」)などの他の記憶装置上に格納されてもよい。命令は、プロセッサ可読媒体上で実体的に具体化されたアプリケーションプログラムを形成してもよい。命令は、例えばハードウェア、ファームウェア、ソフトウェア、又は組み合わせであってもよい。命令は、例えばオペレーティングシステム、別個のアプリケーション、又はそれら2つの組み合わせに見出さてもよい。従って、プロセッサは、例えば、プロセスを実行するように構成される装置と、プロセスを実行するための命令を有するプロセッサ可読媒体(記憶装置など)を含む装置との両方として特徴付けられてもよい。更に、プロセッサ可読媒体は、命令に加えて又は命令の代わりに、実装形態によって生成されたデータ値を格納してもよい。
【0088】
当業者には明らかなように、実装形態は、例えば格納又は送信され得る情報を担持するようにフォーマットされた様々な信号を生成してもよい。情報は、例えば、方法を実行するための命令か、又は説明された実装形態の1つによって生成されたデータを含んでもよい。例えば、信号は、説明された実施形態のシンタックスを読み取るか若しくは書き込むための規則をデータとして担持するか、又は説明される実施形態によって書き込まれた実際のシンタックス値をデータとして担持するようにフォーマットされてもよい。信号は、例えば、電磁波(例えばスペクトルの無線周波数部分を用いる)として、又はベースバンド信号としてフォーマットされてもよい。フォーマッティングは、例えば、データストリームの符号化と、符号化されたデータストリームを備えたキャリアの変調とを含んでもよい。信号が担持する情報は、例えばアナログ又はデジタル情報であってもよい。信号は、周知のように、様々な相異なる有線又は無線リンクを通じて送信されてもよい。信号は、プロセッサ可読媒体に格納されてもよい。
【0089】
多数の実装形態が説明された。しかしながら、様々な修正が行われ得ることが理解されよう。例えば、相異なる実装形態の要素は、他の実装形態を生成するために、組み合わされるか、補足されるか、修正されるか、又は除去されてもよい。加えて、当業者は、他の構造及びプロセスが、説明された構造及びプロセスの代わりにされてもよく、結果としての実装形態が、開示された実装形態と少なくともほぼ同じ結果を達成するために、少なくともほぼ同じ手法で、少なくともほぼ機能を実行することを理解されよう。従って、これらや他の実装形態は、本出願によって考えられている。