特許7432275 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社計数技研の特許一覧

特許7432275映像表示装置、映像表示方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8A
8B
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2024-02-07

(45)【発行日】2024-02-16

(54)【発明の名称】映像表示装置、映像表示方法、及びプログラム

(51)【国際特許分類】

G09B 5/02 20060101AFI20240208BHJP

G09B 9/00 20060101ALI20240208BHJP

G06F 3/01 20060101ALI20240208BHJP

G06T 19/00 20110101ALI20240208BHJP

【ＦＩ】

G09B5/02

G09B9/00 Z

G06F3/01 570

G06T19/00 A

【請求項の数】 9

(21)【出願番号】P 2023123183

(22)【出願日】2023-07-28

【審査請求日】2023-07-28

【早期審査対象出願】

(73)【特許権者】

【識別番号】515086621

【氏名又は名称】株式会社計数技研

(74)【代理人】

【識別番号】100115749

【弁理士】

【氏名又は名称】谷川英和

(74)【代理人】

【識別番号】100121223

【弁理士】

【氏名又は名称】森本悟道

(72)【発明者】

【氏名】早石直広

【審査官】関口英樹

(56)【参考文献】

【文献】特開２００５－２３７４９４（ＪＰ，Ａ）

【文献】特表２０００－５０４８５４（ＪＰ，Ａ）

【文献】特開２００４－３４８０９５（ＪＰ，Ａ）

【文献】特開２０１５－２２９０５２（ＪＰ，Ａ）

【文献】特開２０２０－１４４２３３（ＪＰ，Ａ）

【文献】特開２０２１－００６９７７（ＪＰ，Ａ）

【文献】特開２０２１－０２６５２７（ＪＰ，Ａ）

【文献】特開２０２２－０２２６６４（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０９Ｂ１／００－９／５６

１７／００－１９／２６

(57)【特許請求の範囲】

【請求項1】

ユーザが動作を模倣する対象となる模倣対象の動作の映像である参照映像が記憶される記憶部と、
ユーザの動作の映像である第１の自己映像を取得する映像取得部と、
前記第１の自己映像に含まれるユーザの骨格認識を行う骨格認識部と、
前記模倣対象に対応する３次元オブジェクトであり、前記ユーザの動作に応じて動く３次元オブジェクトの映像である第２の自己映像を、前記骨格認識部による骨格認識の結果を用いて、前記参照映像を撮影する参照映像用カメラと前記模倣対象との相対的な位置関係と、前記３次元オブジェクトの映像の視点と前記３次元オブジェクトとの相対的な位置関係とが同じになるように生成する生成部と、
前記参照映像及び前記第２の自己映像を表示する表示部と、を備え、
前記参照映像の表示中に前記第１の自己映像が取得され、
前記参照映像は、カメラによって撮影された映像、またはカメラによって撮影された映像に相当するＣＧ映像であり、
前記参照映像用カメラと前記模倣対象との相対的な位置関係と、前記第１の自己映像を撮影する自己映像用カメラと前記模倣対象に対応する前記ユーザの部分との相対的な位置関係とは異なる、映像表示装置。

【請求項2】

前記生成部は、前記骨格認識部による骨格認識の結果の視線方向を、設定されている角度だけ変化させた第２の自己映像を生成する、請求項１記載の映像表示装置。

【請求項3】

前記参照映像は、前記模倣対象を動作させる被模倣者の視点からの映像であり、
前記生成部は、前記ユーザの視点からの映像である第２の自己映像を生成する、請求項１記載の映像表示装置。

【請求項4】

前記模倣対象は、形状が変化する操作対象物を含み、
前記第１の自己映像は、前記ユーザの手を含んでおり、
前記生成部は、前記第１の自己映像に含まれる前記ユーザの手のジェスチャに応じて形状が変化する操作対象物の３次元オブジェクトを含む第２の自己映像を生成する、請求項１記載の映像表示装置。

【請求項5】

前記模倣対象は、形状が変化する操作対象物を含み、
前記ユーザによって操作されるコントローラからの指示を受け付ける受付部をさらに備え、
前記生成部は、前記受付部によって受け付けられた指示に応じて形状が変化する操作対象物の３次元オブジェクトを含む第２の自己映像を生成する、請求項１記載の映像表示装置。

【請求項6】

前記表示部は、前記参照映像と前記第２の自己映像とを合成して表示する、請求項１から請求項５のいずれか記載の映像表示装置。

【請求項7】

前記自己映像用カメラと、前記参照映像と前記第２の自己映像とが表示される表示デバイスとは、光軸方向における前記自己映像用カメラから撮影対象への向きと、前記表示デバイスを正視する視線の向きとが逆になるように配置されている、請求項１から請求項５のいずれか記載の映像表示装置。

【請求項8】

ユーザが動作を模倣する対象となる模倣対象の動作の映像である参照映像が記憶される記憶部と、映像取得部と、骨格認識部と、生成部と、表示部とを用いて処理される映像表示方法であって、
前記映像取得部が、ユーザの動作の映像である第１の自己映像を取得するステップと、
前記骨格認識部が、前記第１の自己映像に含まれるユーザの骨格認識を行うステップと、
前記生成部が、前記模倣対象に対応する３次元オブジェクトであり、前記ユーザの動作に応じて動く３次元オブジェクトの映像である第２の自己映像を、前記骨格認識の結果を用いて、前記参照映像を撮影する参照映像用カメラと前記模倣対象との相対的な位置関係と、前記３次元オブジェクトの映像の視点と前記３次元オブジェクトとの相対的な位置関係とが同じになるように生成するステップと、
前記表示部が、前記参照映像及び前記第２の自己映像を表示するステップと、を備え、
前記参照映像の表示中に前記第１の自己映像が取得され、
前記参照映像は、カメラによって撮影された映像、またはカメラによって撮影された映像に相当するＣＧ映像であり、
前記参照映像用カメラと前記模倣対象との相対的な位置関係と、前記第１の自己映像を撮影する自己映像用カメラと前記模倣対象に対応する前記ユーザの部分との相対的な位置関係とは異なる、映像表示方法。

【請求項9】

ユーザが動作を模倣する対象となる模倣対象の動作の映像である参照映像が記憶される記憶部にアクセス可能なコンピュータを、
ユーザの動作の映像である第１の自己映像を取得する映像取得部、
前記第１の自己映像に含まれるユーザの骨格認識を行う骨格認識部、
前記模倣対象に対応する３次元オブジェクトであり、前記ユーザの動作に応じて動く３次元オブジェクトの映像である第２の自己映像を、前記骨格認識部による骨格認識の結果を用いて、前記参照映像を撮影する参照映像用カメラと前記模倣対象との相対的な位置関係と、前記３次元オブジェクトの映像の視点と前記３次元オブジェクトとの相対的な位置関係とが同じになるように生成する生成部、
前記参照映像及び前記第２の自己映像を表示する表示部として機能させ、
前記参照映像の表示中に前記第１の自己映像が取得され、
前記参照映像は、カメラによって撮影された映像、またはカメラによって撮影された映像に相当するＣＧ映像であり、
前記参照映像用カメラと前記模倣対象との相対的な位置関係と、前記第１の自己映像を撮影する自己映像用カメラと前記模倣対象に対応する前記ユーザの部分との相対的な位置関係とは異なる、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ユーザが動作を模倣する対象となる模倣対象の動作の映像と、ユーザの動作に応じた映像とを表示する映像表示装置等に関する。

【背景技術】

【0002】

従来、手術などの動きの学習のために、学習者が模倣する対象となる模倣対象の動作の映像である参照映像と、学習者の動作の映像である自己映像とを合成して表示する学習支援装置が知られている（例えば、特許文献１参照）。このような表示を参照することにより、学習者は、模倣対象の動作と同じ動作を行うためのトレーニングを行うことができる。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１４－０７１４４３号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来の学習支援装置では、参照映像と自己映像とを比較可能な映像にするため、両映像について、撮影を行うカメラと撮影対象との相対的な位置関係が同じになるようにする必要があった。例えば、参照映像が、模倣対象の動作を行う教師役が装着しているヘッドマウントカメラで撮影された一人称映像である場合には、自己映像も学習者が装着しているヘッドマウントカメラで撮影された一人称映像とする必要があった。このように、学習者も、参照映像と同様の撮影環境を用意する必要があり、そのためのコストや時間がかかるという問題があった。

【0005】

本発明は、上記課題を解決するためになされたものであり、参照映像と同様の撮影環境を用意しなくても、参照映像と比較可能な自己映像を表示することができる映像表示装置等を提供することを目的とする。

【課題を解決するための手段】

【0006】

上記目的を達成するため、本発明の一態様による映像表示装置は、ユーザが動作を模倣する対象となる模倣対象の動作の映像である参照映像が記憶される記憶部と、ユーザの動作の映像である第１の自己映像を取得する映像取得部と、第１の自己映像に含まれるユーザの骨格認識を行う骨格認識部と、模倣対象に対応する３次元オブジェクトであり、ユーザの動作に応じて動く３次元オブジェクトの映像である第２の自己映像を、骨格認識部による骨格認識の結果を用いて、参照映像を撮影する参照映像用カメラと模倣対象との相対的な位置関係と、３次元オブジェクトの映像の視点と３次元オブジェクトとの相対的な位置関係とが同じになるように生成する生成部と、参照映像及び第２の自己映像を表示する表示部と、を備え、参照映像用カメラと模倣対象との相対的な位置関係と、第１の自己映像を撮影する自己映像用カメラと模倣対象に対応するユーザの部分との相対的な位置関係とは異なる、ものである。

【0007】

このような構成により、参照映像と同様の撮影環境を用意しなくても、参照映像と比較可能な第２の自己映像を表示することができる。例えば、ノートパソコンやタブレット端末、スマートフォンなどのユーザに対面するカメラによって撮影された第１の自己映像から、ユーザの一人称視点の第２の自己映像を生成して表示することができるようになる。

【0008】

また、本発明の一態様による映像表示装置では、生成部は、骨格認識部による骨格認識の結果の視線方向を、設定されている角度だけ変化させた第２の自己映像を生成してもよい。

【0009】

このような構成により、例えば、ユーザに対面するカメラによって撮影された第１の自己映像から、ユーザの一人称視点の第２の自己映像を生成することができる。

【0010】

また、本発明の一態様による映像表示装置では、参照映像は、模倣対象を動作させる被模倣者の視点からの映像であり、生成部は、ユーザの視点からの映像である第２の自己映像を生成してもよい。

【0011】

このような構成により、第１の自己映像を撮影する自己映像用カメラとユーザとの相対的な位置関係に関わらず、一人称視点の第２の自己映像を生成することができる。

【0012】

また、本発明の一態様による映像表示装置では、模倣対象は、形状が変化する操作対象物を含み、第１の自己映像は、ユーザの手を含んでおり、生成部は、第１の自己映像に含まれるユーザの手のジェスチャに応じて形状が変化する操作対象物の３次元オブジェクトを含む第２の自己映像を生成してもよい。

【0013】

このような構成により、コントローラなどを用いることなく、ジェスチャによって操作対象物の３次元オブジェクトを操作することができる。

【0014】

また、本発明の一態様による映像表示装置では、模倣対象は、形状が変化する操作対象物を含み、ユーザによって操作されるコントローラからの指示を受け付ける受付部をさらに備え、生成部は、受付部によって受け付けられた指示に応じて形状が変化する操作対象物の３次元オブジェクトを含む第２の自己映像を生成してもよい。

【0015】

このような構成により、コントローラを用いることによって、操作対象物の３次元オブジェクトを操作することができる。そのため、例えば、参照映像が手術ロボットの映像である場合に、その手術ロボットの操作で用いられるコントローラと同様のコントローラを用いてユーザが操作対象物の３次元オブジェクトを操作するようにすることもでき、ユーザは、実環境の手術ロボットと同様な環境で３次元オブジェクトを操作することができるようになる。

【0016】

また、本発明の一態様による映像表示装置では、表示部は、参照映像と第２の自己映像とを合成して表示してもよい。

【0017】

このような構成により、参照映像と第２の自己映像とを容易に比較することができ、ユーザは、自らの動作が、参照映像の模倣対象の動作と同様になるように学習することができる。

【0018】

また、本発明の一態様による映像表示装置では、自己映像用カメラと、参照映像と第２の自己映像とが表示される表示デバイスとは、光軸方向における自己映像用カメラから撮影対象への向きと、表示デバイスを正視する視線の向きとが逆になるように配置されていてもよい。

【0019】

このような構成により、例えば、ノートパソコンやタブレット端末、スマートフォンなどのユーザに対面するカメラによって撮影された第１の自己映像から、第２の自己映像を生成し、その第２の自己映像と参照映像とをユーザに対して表示することができるようになる。

【0020】

また、本発明の一態様による映像表示方法は、ユーザが動作を模倣する対象となる模倣対象の動作の映像である参照映像が記憶される記憶部と、映像取得部と、骨格認識部と、生成部と、表示部とを用いて処理される映像表示方法であって、映像取得部が、ユーザの動作の映像である第１の自己映像を取得するステップと、骨格認識部が、第１の自己映像に含まれるユーザの骨格認識を行うステップと、生成部が、模倣対象に対応する３次元オブジェクトであり、ユーザの動作に応じて動く３次元オブジェクトの映像である第２の自己映像を、骨格認識の結果を用いて、参照映像を撮影する参照映像用カメラと模倣対象との相対的な位置関係と、３次元オブジェクトの映像の視点と３次元オブジェクトとの相対的な位置関係とが同じになるように生成するステップと、表示部が、参照映像及び第２の自己映像を表示するステップと、を備え、参照映像用カメラと模倣対象との相対的な位置関係と、第１の自己映像を撮影する自己映像用カメラと模倣対象に対応するユーザの部分との相対的な位置関係とは異なる、ものである。

【発明の効果】

【0021】

本発明の一態様による映像表示装置等によれば、参照映像と同様の撮影環境を用意しなくても、参照映像と比較可能な自己映像を表示することができるようになる。

【図面の簡単な説明】

【0022】

【図1】本発明の実施の形態による映像表示装置の構成を示すブロック図

【図2】同実施の形態による映像表示装置を実現するコンピュータの使用例を示す図

【図3】同実施の形態における参照映像の一例を示す図

【図4】同実施の形態における第１の自己映像及び骨格認識の結果の一例を示す図

【図5】同実施の形態における手の骨格認識の結果の一例を示す図

【図6】同実施の形態における第２の自己映像の一例を示す図

【図7】同実施の形態における第１及び第２の自己映像の表示の一例を示す図

【図8A】同実施の形態におけるジェスチャによる操作対象物の操作の一例を示す図

【図8B】同実施の形態におけるジェスチャによる操作対象物の操作の一例を示す図

【図9】同実施の形態による映像表示装置の動作を示すフローチャート

【図10】同実施の形態による映像表示装置の他の構成を示すブロック図

【図11】同実施の形態におけるコントローラの一例を示す斜視図

【図12】同実施の形態におけるコンピュータの構成の一例を示す図

【発明を実施するための形態】

【0023】

以下、本発明による映像表示装置、及び映像表示方法について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。本実施の形態による映像表示装置は、ユーザが動作を模倣する対象となる模倣対象の動作の映像である参照映像とは異なる撮影環境で撮影された第１の自己映像を用いて、視点と３次元オブジェクトとの相対的な位置関係が参照映像の撮影環境と同様になるように３次元オブジェクトの第２の自己映像を生成し、参照映像と第２の自己映像とを表示するものである。

【0024】

図１は、本実施の形態による映像表示装置１の構成を示すブロック図である。本実施の形態による映像表示装置１は、記憶部１１と、映像取得部１２と、骨格認識部１３と、生成部１４と、表示部１５とを備える。なお、映像表示装置１は、一例として、図２等で示されるようにコンピュータ９００によって実現されてもよい。本実施の形態では、この場合について主に説明する。

【0025】

記憶部１１では、ユーザが動作を模倣する対象となる模倣対象の動作の映像である参照映像が記憶される。ユーザは、参照映像を参照しながら動作を学習する学習者である。ユーザが学習する動作は、例えば、手術などの動作であってもよく、工場における作業の動作であってもよく、介護やホテルなどにおける業務の動作であってもよく、料理などの動作であってもよく、工芸品等の作品の作成のための動作であってもよく、スポーツなどの動作であってもよく、習字などの動作であってもよく、ロープ結びの動作であってもよく、その他の動作であってもよい。模倣対象は、例えば、被模倣者の身体の一部であってもよく、被模倣者によって動作される対象物であってもよい。被模倣者は、例えば、学習者であるユーザの先生役であり、学習者が学習する対象となる動作に熟練している者であってもよい。また、被模倣者の身体の一部は、例えば、被模倣者の手を含んでいてもよい。また、被模倣者によって動作される対象物は、例えば、手術ロボットの手先や鉗子などであってもよく、被模倣者が有している鉗子やメス、ピンセット、ハサミ、筆などの道具であってもよい。参照映像は、通常、カメラによって撮影された映像であるが、カメラによって撮影された映像に相当するＣＧ（Computer Graphics）映像であってもよい。参照映像は、一例として、模倣対象を動作させる被模倣者の視点からの映像、すなわち被模倣者の一人称視点の映像であってもよい。この場合には、参照映像は、一例として、被模倣者が装着しているヘッドマウントカメラで撮影された映像であってもよい。本実施の形態では、図３で示されるように、手術ロボットの鉗子である模倣対象２１を含む参照映像が記憶部１１で記憶されている場合について主に説明する。

【0026】

記憶部１１では、例えば、参照映像の全体が記憶されてもよく、または、参照映像の一部が記憶されてもよい。一例として、映像表示装置１が、外部から参照映像を受信しながら表示する場合には、参照映像の一部である受信された最新の参照映像の部分が記憶部１１で記憶され、それが読み出されて表示されると共に、順次、上書きされてもよい。記憶部１１には、参照映像以外の情報が記憶されてもよい。例えば、３次元オブジェクトの情報が記憶部１１で記憶されてもよく、生成部１４によって生成された第２の自己映像が記憶部１１で記憶されてもよく、映像取得部１２によって取得された第１の自己映像が記憶部１１で記憶されてもよい。

【0027】

記憶部１１に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が記憶部１１で記憶されるようになってもよく、通信回線等を介して送信された情報が記憶部１１で記憶されるようになってもよく、または、カメラなどのデバイスを介して入力された情報が記憶部１１で記憶されるようになってもよい。記憶部１１は、不揮発性の記録媒体によって実現されることが好適であるが、揮発性の記録媒体によって実現されてもよい。記録媒体は、例えば、半導体メモリや磁気ディスクなどであってもよい。

【0028】

映像取得部１２は、ユーザの動作の映像である第１の自己映像を取得する。映像取得部１２は、例えば、映像を撮影するカメラ等の光学機器であってもよく、カメラ等の光学機器によって撮影された映像を取得するものであってもよい。本実施の形態では、映像取得部１２が自己映像用カメラであるカメラ９０１によって撮影された映像を受け付ける場合について主に説明する。第１の自己映像は、一例として、ユーザの手の動作の映像であってもよい。第１の自己映像は、例えば、ユーザの手のひらの映像であってもよく、ユーザの手首から肘までの腕をも含む映像であってもよく、ユーザの肘から肩までの腕をも含む映像であってもよく、さらに、ユーザの肩や胴体をも含む映像であってもよい。視線方向が設定された角度だけ変化されることによって第２の自己映像が生成される場合には、第１の自己映像は、あらかじめ決められたように撮影されることが好適である。例えば、第１の自己映像は、自己映像用カメラとユーザとが対向した状態で撮影されてもよい。また、ユーザの視点からの第２の自己映像が生成される場合には、ユーザの視線方向が分かる第１の自己映像、例えば、ユーザの頭部をも含む第１の自己映像が取得されることが好適である。

【0029】

なお、参照映像を撮影する参照映像用カメラと模倣対象との相対的な位置関係と、第１の自己映像を撮影する自己映像用カメラと模倣対象に対応するユーザの部分との相対的な位置関係とは異なっているものとする。模倣対象に対応するユーザの部分は、特に限定されないが、例えば、ユーザの手のひらや、ユーザの肘から先の手の部分などであってもよい。一例として、参照映像は、被模倣者の一人称視点の映像であり、第１の自己映像は、図２で示されるように、ユーザ３０に対向するカメラ９０１によって撮影された映像であってもよい。本実施の形態では、主にこの場合について説明する。また、本実施の形態では、一例として、図２で示されるように、カメラ９０１と、参照映像及び第２の自己映像が表示される表示デバイス９０２とが、光軸方向におけるカメラ９０１から撮影対象であるユーザ３０への向きと、表示デバイス９０２を正視するユーザ３０の視線の向きとが逆になるように配置されている場合、すなわち、カメラ付きのノートパソコンや、カメラ付きのタブレット端末、カメラ付きのスマートフォンなどで第１の自己映像の撮影や、参照映像及び第２の自己映像の表示などを行う場合について主に説明する。なお、カメラ９０１は、例えば、コンピュータ９００の内蔵カメラであってもよい。コンピュータ９００の内蔵カメラは、例えば、ノートパソコンの対面カメラや、タブレット端末、スマートフォンのインカメラであってもよい。

【0030】

骨格認識部１３は、第１の自己映像に含まれるユーザの骨格認識を行う。骨格認識部１３は、例えば、第１の自己映像のあるフレームにおいて人または人の一部の検出を行い、検出した人や人の一部について骨格認識を行ってもよい。また、骨格認識部１３は、その処理を、第１の自己映像に含まれる複数のフレームのそれぞれについて行ってもよい。すなわち、骨格認識の処理が繰り返して行われてもよい。なお、第１の自己映像のすべてのフレームについて骨格認識が行われてもよく、飛び飛びのフレームについて骨格認識が行われてもよい。人の一部は、例えば、人の上半身であってもよく、人の手のひらを含む腕の部分であってもよく、人の手のひらの部分であってもよい。生成部１４において、ユーザの視点からの第２の自己映像が生成される場合には、ユーザの頭部を含む骨格認識が行われることが好適である。この骨格認識の方法については、すでに公知であり、その詳細な説明を省略する。骨格認識部１３は、例えば、図４で示されるように、第１の自己映像に含まれるユーザ３０を特定し、そのユーザ３０の骨格３１を認識してもよい。骨格３１は、一例として、図４で示されるように、関節、並びに指先及び頭部などの身体の端部に対応する丸形状などのノード図形と、それらを繋ぐ腕などの体の部位に対応する直線状のリンク図形とを含んでいてもよい。図５は、ユーザ３０の手３２について認識された骨格３１を示す図である。本実施の形態では、骨格認識部１３によって認識された手３２の骨格３１を用いて３次元オブジェクトが操作される場合について主に説明する。

【0031】

生成部１４は、模倣対象に対応する３次元オブジェクトであり、ユーザの動作に応じて動く３次元オブジェクトの映像である第２の自己映像を、骨格認識部１３による骨格認識の結果を用いて生成する。模倣対象に対応する３次元オブジェクトは、模倣対象に似ている形状の３次元オブジェクトであることが好適であるが、例えば、模倣対象の形状等を簡略化した形状の３次元オブジェクトであってもよい。第２の自己映像に含まれる３次元オブジェクトの位置や姿勢は、例えば、模倣対象に対応するユーザの部分の骨格の認識結果に応じた位置及び姿勢であってもよく、また、模倣対象に対応するユーザの部分の骨格の認識結果の時系列に応じた変化に応じて動いてもよい。また、生成部１４は、参照映像を撮影する参照映像用カメラと模倣対象との相対的な位置関係と、３次元オブジェクトの映像の視点と３次元オブジェクトとの相対的な位置関係とが同じになるように、第２の自己映像を生成するものとする。３次元オブジェクトの映像の視点は、例えば、３次元仮想空間に配置された３次元オブジェクトを２次元の映像にレンダリングする際の視点であってもよい。また、参照映像用カメラの光軸の方向と模倣対象との相対的な位置関係と、３次元オブジェクトの映像の視線の方向と３次元オブジェクトとの相対的な位置関係とも同じになるように第２の自己映像が生成されてもよい。このようにすることで、第１の自己映像を、参照映像と同様の撮影環境で撮影された第２の自己映像に変換することができる。例えば、参照映像が一人称視点の映像である場合には、図２のようにユーザ３０に対面するカメラ９０１で撮影された第１の自己映像から、一人称視点の映像である第２の自己映像を生成することができる。なお、視点や視線の方向が同じであるとは、例えば、両者が厳密に同じであることであってもよく、両者が所定の誤差の範囲内で同じであることであってもよい。

【0032】

骨格認識の結果によって示されるのは、２次元の画像において認識された骨格であるが、人間の身体は、肩から肘までの長さ、肘から手首までの長さ、手首から各指の付け根までの長さ、各指の長さ、手の幅などのように各部分の長さが概ね決まっており、また、各関節における可動域も決まっている。したがって、それらを考慮することにより、生成部１４は、骨格認識部１３による骨格認識の結果に基づいて、第１の自己映像に含まれるユーザ３０の骨格の３次元における位置や姿勢を推定することができる。例えば、生成部１４は、骨格認識の結果に基づいて、３次元空間における、第１の自己映像を撮影した自己映像用カメラの位置及び光軸方向と、ユーザの骨格３１とを特定してもよい。

【0033】

例えば、図５で示される手３２の骨格３１では、手３２が矢印Ｂ１の方向に回転したとしても、両矢印Ａ１の長さは変化せず、手３２が矢印Ｂ２の方向に回転したとしても、両矢印Ａ２の長さは変化しない。なお、両矢印Ａ１は、人差し指の付け根の関節と、小指の付け根の関節とを両端点とする両矢印であり、両矢印Ａ２は、手首の関節と、中指の付け根の関節とを両端点とする両矢印である。したがって、生成部１４は、骨格認識の結果において、手３２の両矢印Ａ１，Ａ２の長さや、その長さの変化に応じて、矢印Ｂ１，Ｂ２方向における手の角度や、その角度の変化について知ることができる。

【0034】

矢印Ｂ１の方向におけるどちら側に回転したのかについては、例えば、各指の関節間の距離の変化に応じて判断してもよい。例えば、矢印Ｂ１の方向に回転した際に、手首に近い側の関節間の距離が大きくなったのに対して、指先に近い側の関節間の距離が小さくなった場合には、手首側がカメラに近づく方向に回転したと判断され、手首に近い側の関節間の距離が小さくなったのに対して、指先に近い側の関節間の距離が大きくなった場合には、指先側がカメラに近づく方向に回転したと判断されてもよい。矢印Ｂ２の方向におけるどちら側に回転した除けについても、同様にして判断してもよい。例えば、矢印Ｂ２の方向に回転した際に、小指の関節間の距離が大きくなったのに対して、親指の関節間の距離が小さくなった場合には、小指側がカメラに近づく方向に回転したと判断され、小指の関節間の距離が小さくなったのに対して、親指の関節間の距離が大きくなった場合には、親指側がカメラに近づく方向に回転したと判断されてもよい。

【0035】

また、図４などで示される骨格認識の結果において、例えば、カメラの光軸方向に垂直な平面方向における肩や肘、手首の位置は、第１の自己映像における肩や肘、手首の位置に応じて特定することができる。また、肩に対する肘や手首のカメラの光軸方向における位置については、例えば、第１の自己映像において、肩から肘までの長さが肩から肘までの本来の長さと比較して短い場合には、それに応じて肘がカメラ側に近づいていると推定することができる。また、肘から手首についても同様である。このようにして、生成部１４は、ユーザ３０の腕や手のひらの骨格の３次元における位置や姿勢を推定してもよい。

【0036】

生成部１４は、このようにして推定したユーザ３０の骨格３１の３次元における位置や姿勢を用いて、第２の自己映像を生成してもよい。生成部１４は、例えば、骨格認識部１３による骨格認識の結果の視線方向を、設定されている角度だけ変化させた第２の自己映像を生成してもよい。具体的には、生成部１４は、骨格認識の結果に基づいて、３次元仮想空間における、自己映像用カメラの位置及び光軸方向に相当する視点及び視線方向と、ユーザの骨格３１とを特定し、視点及び視線方向をあらかじめ決められているように変更してもよい。このように、生成部１４は、視線方向を変化させると共に、視点も変化させてもよい。より具体的には、生成部１４は、図４で示される第１の自己映像のように、ユーザ３０の手先から肩に向かう視線方向を、ユーザ３０の肩から手先に向かう視線方向に変化させた第２の自己映像、すなわち一人称視点の第２の自己映像を生成してもよい。なお、視点及び視線方向と、骨格３１との位置関係は相対的なものであるため、生成部１４は、３次元仮想空間において、例えば、視線方向を変化させる代わりに、ユーザ３０の骨格を変化させてもよい。ユーザ３０の骨格の変化は、一例として、ユーザ３０の骨格の回転であってもよく、さらに移動を含んでいてもよい。このように、例えば、３次元仮想空間において骨格の角度などを変化させた場合にも、視線方向を変化させたと考えてもよい。

【0037】

また、生成部１４は、例えば、３次元仮想空間において、ユーザ３０の骨格の位置及び姿勢に基づいて３次元オブジェクトを配置してもよい。生成部１４は、例えば、３次元仮想空間において、ユーザ３０の肘から手先までの骨格を用いて、長手方向がユーザ３０の肘から手首までの方向に沿っており、先端がユーザ３０の手のひらの位置となるように鉗子の３次元オブジェクトを配置してもよい。また、生成部１４は、例えば、ユーザ３０の手のひらの骨格を用いて、長手方向が図５の矢印Ａ２の方向に沿っており、長手方向を中心とした角度が図５の矢印Ａ１の方向に応じて変化し、先端がユーザ３０の中指の先端の位置となるように鉗子の３次元オブジェクトを配置してもよい。この３次元オブジェクトは、例えば、記憶部１１で記憶されており、それが読み出されて用いられてもよい。３次元オブジェクトは、例えば、模倣対象に対応したものであり、例えば、鉗子やメスなどの道具であってもよく、手を含んでいてもよい。３次元オブジェクトが手を含んでいる場合には、生成部１４は、骨格認識の結果によって示される手の骨格に応じた形状の手の３次元オブジェクトを３次元仮想空間に配置してもよい。

【0038】

なお、ここでは、ユーザ３０の骨格と視点や視線方向との相対的な位置関係を変化させた後に、ユーザ３０の骨格に応じて３次元オブジェクトを配置する場合について説明したが、その順序は逆であってもよい。例えば、ユーザ３０の骨格に応じて３次元オブジェクトを配置してから、その３次元オブジェクトと視点や視線方向との相対的な位置関係を変化させてもよい。

【0039】

また、生成部１４は、例えば、ユーザ３０の視点からの映像である第２の自己映像を生成してもよい。この場合には、生成部１４は、例えば、骨格認識の結果に基づいて、３次元仮想空間における、ユーザ３０の頭部の位置を含むユーザの骨格３１を特定し、ユーザ３０の頭部の位置を視点とし、その視点からユーザ３０の手先に向かう方向を視線方向として特定してもよい。そして、上記説明と同様に、生成部１４は、３次元仮想空間において、ユーザ３０の骨格の位置及び姿勢に基づいて３次元オブジェクトを配置してもよい。

【0040】

３次元仮想空間には、例えば、ユーザ３０の右手に対応する３次元オブジェクトと、ユーザ３０の左手に対応する３次元オブジェクトとが配置されてもよい。この場合には、ユーザ３０の右手に関する骨格認識の結果に基づいて、右手に対応する３次元オブジェクトが配置され、ユーザの左手に関する骨格認識の結果に基づいて、左手に対応する３次元オブジェクトが配置されてもよい。図６は、そのようにして生成された３次元オブジェクト３３ａ，３３ｂを含む第２の自己映像の一例を示す図である。３次元オブジェクト３３ａ，３３ｂはそれぞれ、ユーザ３０の右手及び左手に対応したものであってもよい。なお、３次元オブジェクト３３ａ，３３ｂを特に区別しない場合には、３次元オブジェクト３３と呼ぶこともある。また、第２の自己映像において、３次元オブジェクト３３ａ，３３ｂ以外の領域は、例えば、透明であってもよい。

【0041】

生成部１４は、３次元仮想空間において、視点及び視線方向に基づいて３次元オブジェクト３３をレンダリングすることによって２次元画像を生成してもよい。この２次元画像は、３次元仮想空間において、視点から視線方向に３次元オブジェクト３３を見た２次元画像となる。生成部１４は、例えば、骨格認識部１３によって繰り返して行われる骨格認識の結果に応じて３次元仮想空間における３次元オブジェクト３３の位置や姿勢を変化させ、その変化後の３次元オブジェクト３３のレンダリングの結果である２次元画像を繰り返して生成してもよい。第２の自己映像は、例えば、そのようにして生成された複数の２次元画像によって構成されてもよい。

【0042】

なお、３次元仮想空間における３次元オブジェクトの大きさ、視点から３次元オブジェクトまでの距離、及びレンダリング時の画角などに応じて、第２の自己映像に含まれる３次元オブジェクト３３の大きさが決まることになる。一例として、３次元仮想空間における３次元オブジェクトの大きさ、及びレンダリング時の画角などは、あらかじめ決められた値であり、視点から３次元オブジェクトまでの距離は、自己映像用カメラから、模倣対象に対応するユーザの部分までの距離に応じて決まってもよい。自己映像用カメラから、模倣対象に対応するユーザの部分までの距離は、例えば、第１の自己映像に含まれる、模倣対象に対応するユーザの部分の大きさに応じて決まってもよい。この場合には、ユーザは、例えば、自己映像用カメラとユーザとの距離を変えることによって、第２の自己映像に含まれる３次元オブジェクト３３の大きさを調整することができる。また、ユーザは、例えば、あらかじめ決められた値を調整できてもよい。また、一例として、第２の自己映像に含まれる３次元オブジェクト３３の大きさと、参照映像に含まれる模倣対象との大きさが同じになるように、生成部１４によって、３次元仮想空間における３次元オブジェクトの大きさ、及びレンダリング時の画角などが自動的に調整されてもよい。この自動的な調整は、例えば、第２の自己映像の生成の開始時点に１回だけ行われてもよく、第２の自動映像の生成時に繰り返して行われてもよい。３次元オブジェクト３３の大きさと模倣対象との大きさが同じであるとは、例えば、厳密に同じであることであってもよく、所定の誤差の範囲内で同じであることであってもよい。また、参照映像に含まれる模倣対象の領域は、例えば、パターンマッチングや、セグメンテーションなどによって特定されてもよい。

【0043】

表示部１５は、記憶部１１で記憶されている参照映像と、生成部１４によって生成された第２の自己映像とを表示する。表示部１５は、両映像を比較することができるように両映像を表示することが好適である。表示部１５は、例えば、参照映像と第２の自己映像とを合成して表示してもよい。この場合には、例えば、図７で示されるように、模倣対象２１と、３次元オブジェクト３３ａ，３３ｂとが一緒に表示されてもよい。なお、図７では、模倣対象２１と、３次元オブジェクト３３ａ，３３ｂとを区別可能にするため、３次元オブジェクト３３ａ，３３ｂを破線で示している。また、例えば、参照映像の手前側、すなわち上側に、第２の自己映像を合成してもよい。上記したように、参照映像に合成される第２の自己映像は、３次元オブジェクト３３以外の領域は透明であってもよい。また、参照映像に合成される第２の自己映像における３次元オブジェクト３３の領域の不透明度は、例えば、１００％であってもよく、１００％未満であってもよい。第２の自己映像の不透明度が０％より大きく、１００％未満である場合、すなわち第２の自己映像が半透明である場合には、ユーザは、仮に３次元オブジェクト３３と模倣対象２１が重なっていたとしても、両方を見ることができるようになる。

【0044】

なお、表示部１５は、例えば、両映像を時分割で切り替えながら表示してもよい。より具体的には、表示部１５は、第１の時間だけ参照映像を表示し、次の第２の時間だけ第２の自己映像を表示することを繰り返してもよい。この場合には、表示部１５は、第１の時間ごとに分割された参照映像を、第２の時間の第２の自己映像の表示を挟みながら順番に表示してもよい。第１及び第２の時間は特に限定されないが、例えば、それぞれ０．１秒から１秒の範囲内の時間であってもよい。この場合でも、ユーザは、両方の映像を見ることができるようになる。なお、参照映像と第２の自己映像との切り替えながらの表示は、参照映像の手前側に合成した第２の自己映像の不透明度を、第１の時間だけ０％にして表示した後に、第２の時間だけ１００％にして表示することを繰り返していると考えることもできる。この場合には、第２の自己映像において、３次元オブジェクト３３以外の領域は不透明（例えば、白色などの単色など）であってもよい。また、この場合に、０％と１００％との間で不透明度を切り替えるのではなく、不透明度を０％から１００％まで連続して変化させてもよい。例えば、不透明度を、正弦波やノコギリ波、三角波などのように０％から１００％までの範囲内で連続的に変化させてもよい。

【0045】

なお、表示部１５は、それらの表示を行う表示デバイス（例えば、液晶ディスプレイや有機ＥＬディスプレイなど）を含んでもよく、または含まなくてもよい。また、表示対象の表示は、別の装置においてなされてもよい。その場合には、表示部１５は、装置の外部に対して表示対象の映像を送信するものであってもよい。また、表示部１５は、ハードウェアによって実現されてもよく、または表示デバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

【0046】

また、模倣対象が、形状が変化する操作対象物を含む場合には、生成部１４は、例えば、その操作対象物の３次元オブジェクトを含む第２の自己映像を生成してもよい。形状が変化する操作対象物は、操作者の操作に応じて形状が変化するものである。この操作対象物は、例えば、ハサミ、鉗子、ピンセット、トングなどのように、開閉部を有しており、その開閉部が開状態と閉状態との間で形状が変化するものであってもよい。この場合には、第１の自己映像にユーザ３０の手３２が含まれていてもよい。そして、生成部１４は、第１の自己映像に含まれるユーザ３０の手３２のジェスチャに応じて形状が変化する操作対象物の３次元オブジェクトを含む第２の自己映像を生成してもよい。ジェスチャは、例えば、ユーザ３０の手３２の形状であってもよく、手３２の形状の動きであってもよい。前者のジェスチャは静的なものであり、後者のジェスチャは動的なものである。生成部１４は、例えば、第１の自己映像そのものから、ユーザ３０の手３２のジェスチャを特定してもよく、第１の自己映像における骨格認識の結果を用いて、ユーザ３０の手３２のジェスチャを特定してもよい。動的なジェスチャは、例えば、第１の自己映像における手３２の形状の変化や、骨格３１の形状の変化を用いて特定されてもよい。

【0047】

操作対象物が開閉部を有している鉗子であり、静的なジェスチャが特定される場合には、生成部１４は、例えば、図８Ａで示されるように、手３２が開いているとき、特に手３２の人差し指の先端と親指の先端とが離れているときに、開閉部が開いている鉗子の３次元オブジェクト３３を含む第２の自己映像を生成し、図８Ｂで示されるように、手３２の人差し指の先端と親指の先端とが接しているときに、開閉部が閉じている鉗子の３次元オブジェクト３３を含む第２の自己映像を生成してもよい。なお、ジェスチャに応じて、鉗子の３次元オブジェクト３３の開閉部が、２個の状態、すなわち開いている状態と閉じている状態とに変化してもよく、さらに開閉部の開いている程度も含めて変化してもよい。後者の場合には、生成部１４は、例えば、第１の自己映像における骨格認識の結果を用いて、手３２の人差し指の先端と親指の先端とが、開いている状態（図８Ａ）に近いのか、閉じている状態（図８Ｂ）に近いのかの程度を取得し、その程度に応じて、３次元オブジェクト３３の開閉部の開いている程度を変化させてもよい。この場合には、例えば、手３２の人差し指の先端と親指の先端とが閉じている状態に近くなるほど、３次元オブジェクト３３の開閉部が閉じている状態に近くなるように、その開閉の程度が変化されてもよい。また、操作対象物が開閉部を有している鉗子であり、動的なジェスチャが特定される場合には、生成部１４は、例えば、手３２が開いている状態から人差し指の先端と親指の先端とが接している状態に変化したときに、開閉部が開いた状態から閉じた状態に変化した鉗子の３次元オブジェクト３３を含む第２の自己映像を生成し、手３２の人差し指の先端と親指の先端とが接している状態から、両先端が離れた状態に変化したときに、開閉部が閉じた状態から開いた状態に変化した鉗子の３次元オブジェクト３３を含む第２の自己映像を生成してもよい。このようにすることで、コントローラなどを用いることなく、ユーザ３０の手３２のジェスチャを用いて、第２の自己映像に含まれる３次元オブジェクト３３の形状を変化させることができる。なお、３次元オブジェクト３３の位置や姿勢は、骨格認識部１３による骨格認識の結果、例えば、手３２の位置や姿勢に応じて変化されてもよい。

【0048】

次に、映像表示装置１の動作について図９のフローチャートを用いて説明する。

【0049】

（ステップＳ１０１）表示部１５は、記憶部１１で記憶されている参照映像の表示を開始する。この後、表示部１５による参照映像の表示は、継続して行われるものとする。

【0050】

（ステップＳ１０２）映像取得部１２は、第１の自己映像を取得するかどうか判断する。そして、第１の自己映像を取得する場合にはステップＳ１０３に進み、そうでない場合には、第１の自己映像を取得すると判断するまでステップＳ１０２の処理を繰り返す。なお、映像取得部１２は、例えば、第１の自己映像を取得すると定期的に判断してもよい。

【0051】

（ステップＳ１０３）映像取得部１２は、第１の自己映像を取得する。なお、この第１の自己映像の取得は、例えば、第１の自己映像を構成する１つのフレームの取得であってもよい。映像取得部１２は、一例として、カメラ９０１から第１の自己映像を受け取ってもよい。

【0052】

（ステップＳ１０４）骨格認識部１３は、第１の自己映像に含まれるユーザ３０の骨格認識を行う。この骨格認識は、例えば、第１の自己映像を構成する１つのフレームについて行われてもよい。

【0053】

（ステップＳ１０５）生成部１４は、第１の自己映像、または骨格認識の結果を用いて、ユーザ３０の手３２のジェスチャを特定する。静的なジェスチャの特定は、例えば、１つのフレーム、または１つのフレームについて行われた骨格認識の結果を用いて行われてもよい。動的なジェスチャの特定は、例えば、複数の連続したフレーム、または、複数の連続したフレームについて行われた骨格認識の結果を用いて行われてもよい。

【0054】

（ステップＳ１０６）生成部１４は、骨格認識の結果と、ユーザ３０の手３２のジェスチャの特定結果とを用いて、３次元オブジェクト３３を含む第２の自己映像を生成する。この第２の自己映像の生成は、例えば、第２の自己映像を構成する１つのフレームの生成であってもよい。また、第２の自己映像に含まれる３次元オブジェクト３３の形状は、特定されたユーザ３０の手３２のジェスチャに応じたものであってもよい。また、この第２の自己映像は、参照映像用カメラと模倣対象との相対的な位置関係と、第２の自己映像の視点と３次元オブジェクト３３との相対的な位置関係とが同じになるように生成されてもよい。

【0055】

（ステップＳ１０７）表示部１５は、生成された第２の自己映像を、参照映像と一緒に表示する。例えば、第２の自己映像と参照映像とが合成されて表示されてもよい。このようにして、ユーザ３０は、参照映像と第２の自己映像との両方を見ることができるようになる。そして、ステップＳ１０２に戻る。

【0056】

なお、図９のフローチャートにおける処理の順序は一例であり、同様の結果を得られるのであれば、各ステップの順序を変更してもよい。また、図９のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

【0057】

次に、本実施の形態による映像表示装置１の動作について、具体例を用いて説明する。本具体例において、参照映像は、図３で示されるように、鉗子である模倣対象２１が手術ロボットによって操作されている状況の映像であるとする。また、図２で示されるように、映像表示装置１がノートパソコンであるコンピュータ９００によって実現されており、そのコンピュータ９００に内蔵されているカメラ９０１を用いて、ユーザ３０の手３２を含む第１の自己映像が撮影されるものとする。

【0058】

まず、ユーザ３０が、コンピュータ９００を操作して、参照映像、及び第２の自己映像を表示する旨の指示を入力したとする。すると、その指示に応じて、表示部１５は、記憶部１１で記憶されている参照映像の表示デバイス９０２への表示を開始する（ステップＳ１０１）。また、映像取得部１２は、カメラ９０１によって撮影されたユーザ３０の第１の自己映像を取得して、それを骨格認識部１３に渡す（ステップＳ１０２、Ｓ１０３）。骨格認識部１３は、図４で示されるように、ユーザ３０に対面するカメラ９０１によって撮影された第１の自己映像において、ユーザ３０の骨格３１を認識して、その認識した骨格３１を生成部１４に渡す（ステップＳ１０４）。認識結果の骨格３１を受け取ると、生成部１４は、その骨格３１の手の部分の形状を用いて、ユーザ３０の手のジェスチャを特定する（ステップＳ１０５）。また、生成部１４は、骨格認識の結果、及びジェスチャの特定結果を用いて、３次元仮想空間において、ユーザ３０の骨格３１に応じた位置及び姿勢となるように、特定されたジェスチャに応じた形状の３次元オブジェクト３３ａ，３３ｂを配置し、その３次元オブジェクト３３ａ，３３ｂを、ユーザ３０の一人称視点の映像となるようにレンダリングすることによって第２の自己映像を生成して表示部１５に渡す（ステップＳ１０６）。例えば、図６のような第２の自己映像が生成されることになる。第２の自己映像を受け取ると、表示部１５は、参照映像に第２の自己映像を合成して表示する（ステップＳ１０７）。その結果、ユーザ３０は、図２で示されるように、コンピュータ９００の表示デバイス９０２に表示された参照映像と第２の自己映像とを見ることができるようになる。このように、第１の自己映像の取得や、骨格の認識、ジェスチャの特定、それらに基づいた第２の自己映像の生成、参照映像と第２の自己映像との表示が繰り返されることによって、ユーザ３０は、参照映像に含まれる鉗子の動作に沿うように、自らの手の動作に応じて鉗子の３次元オブジェクト３３ａ，３３ｂを動作させることができる。そして、ユーザ３０は、参照映像に含まれる模倣対象と同様に３次元オブジェクト３３ａ，３３ｂを動作させるためのトレーニングを行うことができる。

【0059】

以上のように、本実施の形態による映像表示装置１によれば、参照映像の撮影時と同様の撮影環境を用意しなくても、参照映像と比較することができる第２の自己映像を生成して表示することができるようになる。そのため、ユーザ３０は、参照映像と第２の自己映像とを比較しながら、模倣対象の動作と同じ動作をするためのトレーニングを行うことができる。例えば、参照映像が一人称視点の映像であっても、ユーザ３０は、自らの映像をノートパソコンやタブレット端末、スマートフォンなどの対面カメラを用いて撮影することができるようになり、ヘッドマウントカメラなどを用意しなくてもよくなるため、そのためのコストや時間を低減することができるというメリットがある。また、ユーザ３０の手のジェスチャに応じて操作対象物の３次元オブジェクト３３の形状を変化させる場合には、３次元オブジェクト３３の形状を変化のためのコントローラなどを用いなくてもよいことになり、簡易な構成でトレーニングを行うことができるようになる。

【0060】

なお、本実施の形態では、ユーザ３０の手３２のジェスチャを用いて、３次元オブジェクト３３の形状を変化させる場合について説明したが、そうでなくてもよい。ユーザ３０は、コントローラを操作することによって、３次元オブジェクト３３の形状を変化させてもよい。この場合には、映像表示装置１は、図１０で示されるように、ユーザ３０によって操作されるコントローラ４からの指示を受け付ける受付部１６をさらに備えていてもよい。受付部１６は、例えば、コントローラ４からの指示を有線または無線によって受信してもよい。なお、受付部１６は、受け付けを行うためのデバイス（例えば、通信デバイスなど）を含んでもよく、または含まなくてもよい。また、受付部１６は、ハードウェアによって実現されてもよく、または所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

【0061】

ユーザ３０によって操作されるコントローラ４は、例えば、図１１で示されるものであってもよい。図１１で示されるコントローラ４は、ボタン４ａを有しており、ユーザ３０がボタン４ａを押下している際に、例えば、３次元オブジェクト３３の開閉部を閉じる旨の指示が映像表示装置１に送信されてもよい。この場合には、生成部１４は、例えば、受付部１６によって受け付けられた指示に応じて形状が変化する操作対象物の３次元オブジェクトを含む第２の自己映像を生成してもよい。より具体的には、ユーザ３０がボタン４ａを押下している際に、生成部１４は、受付部１６によって受け付けられた開閉部を閉じる旨の指示に応じて、開閉部が閉じた形状の３次元オブジェクト３３を含む第２の自己映像を生成してもよい。なお、ユーザ３０がボタン４ａを押下していない場合には、開閉部が開いた形状の３次元オブジェクト３３を含む第２の自己映像が生成されてもよい。このようにすることで、コントローラ４を用いて、操作対象物の３次元オブジェクト３３を操作することができる。そのため、例えば、参照映像が手術ロボットの映像である場合に、その手術ロボットの操作で用いられるコントローラと同様のコントローラ４を用いてユーザ３０が操作対象物の３次元オブジェクト３３を操作するようにすることもでき、ユーザ３０は、実環境の手術ロボットと同様な環境で３次元オブジェクト３３を操作することができるようになる。

【0062】

また、本実施の形態では、本実施の形態による映像表示装置１がカメラ付きのノートパソコンやカメラ付きのタブレット端末などによって実現される場合について主に説明したが、そうでなくてもよい。例えば、外付けのカメラの接続されたデスクトップパソコンなどによって本実施の形態による映像表示装置１が実現されてもよい。近年、ウェブミーティングなどのために、デスクトップパソコンのディスプレイの周囲に、ディスプレイを見るユーザと対向するようにカメラが配置されていることがあるが、そのカメラが自己映像用カメラとして用いられ、そのディスプレイが、参照映像及び第２の自己映像を表示するためのディスプレイとして用いられてもよい。

【0063】

また、本実施の形態において、３次元オブジェクトを変更できるようにしてもよい。例えば、参照映像において、模倣対象が変更されることもある。具体的には、模倣対象が鉗子からメスに変更されることも考えられる。このような場合に、第２の自己映像においても、参照映像における模倣対象の変更に応じて、３次元オブジェクトが変更されてもよい。この変更は、例えば、手動で行われてもよい。手動で３次元オブジェクトが変更される場合に、例えば、ユーザは、手のジェスチャによって、３次元オブジェクトを変更できてもよい。この場合には、例えば、ユーザが手を払うジェスチャを行うことによって、３次元オブジェクトが変更されてもよい。また、３次元オブジェクトの変更は、自動的に行われてもよい。この場合には、例えば、生成部１４が、参照映像に含まれる模倣対象の種類を特定し、その特定した種類に応じた３次元オブジェクトを３次元仮想空間に配置するようにしてもよい。模倣対象の種類の特定は、例えば、パターンマッチングや、物体認識などによって行われてもよい。

【0064】

また、上記実施の形態では、映像表示装置１がスタンドアロンである場合について説明したが、映像表示装置１は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、映像取得部や表示部は、通信回線を介して映像を取得したり、映像を表示したりしてもよい。

【0065】

また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、または、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。

【0066】

また、上記実施の形態において、各構成要素間で行われる情報の受け渡しは、例えば、その情報の受け渡しを行う２個の構成要素が物理的に異なるものである場合には、一方の構成要素による情報の出力と、他方の構成要素による情報の受け付けとによって行われてもよく、または、その情報の受け渡しを行う２個の構成要素が物理的に同じものである場合には、一方の構成要素に対応する処理のフェーズから、他方の構成要素に対応する処理のフェーズに移ることによって行われてもよい。

【0067】

また、上記実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりした情報や、各構成要素が処理で用いる閾値や数式、アドレス等の情報等は、上記説明で明記していなくても、図示しない記録媒体において、一時的に、または長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、または、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、または、図示しない読み出し部が行ってもよい。

【0068】

また、上記実施の形態において、各構成要素等で用いられる情報、例えば、各構成要素が処理で用いる閾値やアドレス、各種の設定値等の情報がユーザによって変更されてもよい場合には、上記説明で明記していなくても、ユーザが適宜、それらの情報を変更できるようにしてもよく、または、そうでなくてもよい。それらの情報をユーザが変更可能な場合には、その変更は、例えば、ユーザからの変更指示を受け付ける図示しない受付部と、その変更指示に応じて情報を変更する図示しない変更部とによって実現されてもよい。その図示しない受付部による変更指示の受け付けは、例えば、入力デバイスからの受け付けでもよく、通信回線を介して送信された情報の受信でもよく、所定の記録媒体から読み出された情報の受け付けでもよい。

【0069】

また、上記実施の形態において、映像表示装置１に含まれる２以上の構成要素が通信デバイスや入力デバイス等を有する場合に、２以上の構成要素が物理的に単一のデバイスを有してもよく、または、別々のデバイスを有してもよい。

【0070】

また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、または、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをＣＰＵ等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。その実行時に、プログラム実行部は、記憶部や記録媒体にアクセスしながらプログラムを実行してもよい。なお、上記実施の形態における映像表示装置１を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、ユーザが動作を模倣する対象となる模倣対象の動作の映像である参照映像が記憶される記憶部にアクセス可能なコンピュータを、ユーザの動作の映像である第１の自己映像を取得する映像取得部、第１の自己映像に含まれるユーザの骨格認識を行う骨格認識部、模倣対象に対応する３次元オブジェクトであり、ユーザの動作に応じて動く３次元オブジェクトの映像である第２の自己映像を、骨格認識部による骨格認識の結果を用いて、参照映像を撮影する参照映像用カメラと模倣対象との相対的な位置関係と、３次元オブジェクトの映像の視点と３次元オブジェクトとの相対的な位置関係とが同じになるように生成する生成部、参照映像及び第２の自己映像を表示する表示部として機能させ、参照映像用カメラと模倣対象との相対的な位置関係と、第１の自己映像を撮影する自己映像用カメラと模倣対象に対応するユーザの部分との相対的な位置関係とは異なる、プログラムである。

【0071】

なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得部や、情報を表示する表示部などにおけるインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。

【0072】

また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体（例えば、ＣＤ－ＲＯＭなどの光ディスクや磁気ディスク、半導体メモリなど）に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。

【0073】

また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、または分散処理を行ってもよい。

【0074】

図１２は、上記プログラムを実行して、上記実施の形態による映像表示装置１を実現するコンピュータ９００の構成の一例を示す図である。図１２において、コンピュータ９００は、カメラ９０１と、表示デバイス９０２と、キーボード９０３と、タッチパッドやマウスなどのポインティングデバイス９０４と、ＭＰＵ（Micro Processing Unit）９１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ９１２と、ＭＰＵ９１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ９１３と、アプリケーションプログラム、システムプログラム、及びデータを記憶する記憶部９１４と、ＬＡＮやＷＡＮ等への接続を提供する通信モジュール９１５とを備える。なお、ＭＰＵ９１１、ＲＯＭ９１２等はバスによって相互に接続されていてもよい。また、記憶部９１４は、例えば、ハードディスクやＳＳＤ（Solid State Drive）などであってもよい。また、カメラ９０１、表示デバイス９０２、キーボード９０３、ポインティングデバイス９０４などは、例えば、コンピュータ９００に内蔵されているデバイスであってもよく、外付けのデバイスであってもよい。

【0075】

コンピュータ９００に、上記実施の形態による映像表示装置１の機能を実行させるプログラムは、実行の際にＲＡＭ９１３にロードされてもよい。なお、プログラムは、例えば、記憶部９１４、またはネットワークから直接、ロードされてもよい。

【0076】

プログラムは、コンピュータ９００に、上記実施の形態による映像表示装置１の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能やモジュールを呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータ９００がどのように動作するのかについては周知であり、詳細な説明は省略する。

【0077】

また、以上の実施の形態は、本発明を具体的に実施するための例示であって、本発明の技術的範囲を制限するものではない。本発明の技術的範囲は、実施の形態の説明ではなく、特許請求の範囲によって示されるものであり、特許請求の範囲の文言上の範囲及び均等の意味の範囲内での変更が含まれることが意図される。

【符号の説明】

【0078】

１映像表示装置
１１記憶部
１２映像取得部
１３骨格認識部
１４生成部
１５表示部
１６受付部

【要約】

【課題】参照映像と同様の撮影環境を用意しなくても、参照映像と比較可能な自己映像を表示することができる映像表示装置を提供する。
【解決手段】映像表示装置１は、ユーザが動作を模倣する対象となる模倣対象の動作の映像である参照映像が記憶される記憶部１１と、ユーザの動作の映像である第１の自己映像を取得する映像取得部１２と、第１の自己映像のユーザの骨格認識を行う骨格認識部１３と、ユーザの動作に応じて動く３次元オブジェクトの映像である第２の自己映像を、骨格認識の結果を用いて、参照映像を撮影する参照映像用カメラと模倣対象との相対的な位置関係と、３次元オブジェクトの映像の視点と３次元オブジェクトとの相対的な位置関係とが同じになるように生成する生成部１４と、参照映像及び第２の自己映像を表示する表示部１５とを備える。
【選択図】図１