IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ トヨタ自動車株式会社の特許一覧

<>
  • 特許-端末装置 図1
  • 特許-端末装置 図2A
  • 特許-端末装置 図2B
  • 特許-端末装置 図3A
  • 特許-端末装置 図3B
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-18
(45)【発行日】2024-11-26
(54)【発明の名称】端末装置
(51)【国際特許分類】
   G02B 30/10 20200101AFI20241119BHJP
   H04N 13/373 20180101ALI20241119BHJP
   H04N 13/307 20180101ALI20241119BHJP
   G09G 5/00 20060101ALI20241119BHJP
   H04N 13/194 20180101ALI20241119BHJP
【FI】
G02B30/10
H04N13/373
H04N13/307
G09G5/00 550C
H04N13/194
【請求項の数】 2
(21)【出願番号】P 2022212673
(22)【出願日】2022-12-28
(65)【公開番号】P2024095400
(43)【公開日】2024-07-10
【審査請求日】2024-02-14
(73)【特許権者】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100139491
【弁理士】
【氏名又は名称】河合 隆慶
(72)【発明者】
【氏名】ペラエズ ホルヘ
(72)【発明者】
【氏名】レーワニッチャグン パチャラポン
【審査官】鈴木 俊光
(56)【参考文献】
【文献】特開2006-262191(JP,A)
【文献】特開2014-135590(JP,A)
【文献】再公表特許第2012/147329(JP,A1)
【文献】特開2015-149718(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G02B 30/00 - 30/60
H04N 13/30 - 13/398
(57)【特許請求の範囲】
【請求項1】
ユーザを撮像する撮像部と、
立体像を表示するための当該立体像に対する複数の視点位置毎の要素画像を構成する光線を各視点位置に向けて出力する表示面を有する表示部と、
前記ユーザの撮像画像から求められる当該ユーザの前記表示面からの距離が第1の距離のときには第1の数の前記要素画像を、前記距離が前記第1の距離より大きい第2の距離のときには前記第1の数より小さい第2の数の前記要素画像を構成する光線を前記表示部に出力させる制御部とを有する、
端末装置。
【請求項2】
請求項1において、
他の端末装置と通信する通信部を更に有し、
前記制御部は、前記撮像画像に基づいて前記ユーザを表す3Dモデルを生成するための情報を他の端末装置へ送って、当該他の端末装置にて当該3Dモデルを含む画像が表示される、
端末装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、端末装置に関する。
【背景技術】
【0002】
仮想現実又は拡張現実におけるユーザ体験を支援する技術の一例として、ユーザ体験のリアリティ向上のために、物体の立体像を表示する技術が種々提案されている。例えば特許文献1には、物体の立体像をライトフィールド方式で表示するヘッズアップディスプレイに関する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2021-189279号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ライトフィールド方式の装置を採用する場合に、立体像表示に係る処理を更に効率化する余地がある。
【0005】
本開示は、立体像表示に係る処理の更なる効率化が可能な端末装置等を提供する。
【課題を解決するための手段】
【0006】
本開示における端末装置は、ユーザを撮像する撮像部と、立体像を表示するための当該立体像に対する複数の視点位置毎の要素画像を構成する光線を各視点位置に向けて出力する表示面を有する表示部と、前記ユーザの撮像画像から求められる当該ユーザの前記表示面からの距離が第1の距離のときには第1の数の前記要素画像を、前記距離が前記第1の距離より大きい第2の距離のときには前記第1の数より小さい第2の数の前記要素画像を構成する光線を前記表示部に出力させる制御部とを有する。
【発明の効果】
【0007】
本開示における端末装置等によれば、立体像表示に係る処理を更に効率化することが可能となる。
【図面の簡単な説明】
【0008】
図1】仮想イベント提供システムの構成例を示す図である。
図2A】端末装置の動作例を示すフローチャート図である。
図2B】端末装置の動作例を示すフローチャート図である。
図3A】要素画像の例を示す図である。
図3B】表示部に対するユーザの位置の例を示す図である。
【発明を実施するための形態】
【0009】
図1は、一実施形態における端末装置を含む仮想イベント提供システムの構成例を示す。仮想イベント提供システム1では、複数の端末装置12とサーバ装置10とが、ネットワーク11を介して互いに情報通信可能に接続される。仮想イベント提供システム1は、ユーザが端末装置12を用いて参加可能な仮想空間におけるイベント、すなわち仮想イベントを提供するためのシステムである。仮想イベントは、仮想空間において複数のユーザが発話等により情報伝達を行うイベントであって、各ユーザはそれぞれを表す3Dモデルによって表現される。
【0010】
サーバ装置10は、例えば、クラウドコンピューティングシステム又はその他のコンピューティングシステムに属し、各種機能を実装するサーバとして機能するサーバコンピュータである。サーバ装置10は、情報通信可能に接続されて連携動作する二以上のサーバコンピュータにより構成されてもよい。サーバ装置10は、仮想イベントの提供に必要な情報の送受及び情報処理を実行する。
【0011】
端末装置12は、通信機能を備えた情報処理装置であって、サーバ装置10が提供する仮想イベントに参加するユーザにより使用される。端末装置12は、例えば、スマートフォン、タブレット端末といった情報処理端末、又はパーソナルコンピュータ等の情報処理装置である。
【0012】
ネットワーク11は、例えばインターネットであるが、アドホックネットワーク、LAN(Local Area Network)、MAN(Metropolitan Area Network)、もしくは他のネットワーク又はこれらいずれかの組合せが含まれる。
【0013】
本実施形態において、端末装置12は、ユーザを撮像する撮像部117と、表示部・出力部116と、制御部113とを有する。表示・出力部116は、立体像を表示するためのその立体像に対する複数の視点位置毎の要素画像を構成する光線を各視点位置に向けて出力する。制御部113は、ユーザの撮像画像から求められるユーザの表示面からの距離が第1の距離のときには第1の数の要素画像を、距離が第1の距離より大きい第2の距離のときには第1の数より小さい第2の数の要素画像を構成する光線を表示部に出力させる。
【0014】
サーバ装置10によりネットワーク上で実施される仮想イベントに複数のユーザがそれぞれ端末装置12を用いて参加するとき、各ユーザの撮像画像に基づく3Dモデルを含む仮想空間画像が、各端末装置12において表示される。制御部113は、仮想空間画像をレンダリングするときに複数の要素画像をレンダリングするので、相応の処理負荷がかかる。本実施形態の制御部113は、表示面に対するユーザの位置に応じてレンダリングする要素画像の数を減少させることで、処理負荷を低減させることができる。よって、立体像表示に係る処理を効率化することが可能となる。
【0015】
サーバ装置10と端末装置12のそれぞれの構成について詳述する。
【0016】
サーバ装置10は、通信部101、記憶部102、及び制御部103を有する。これらの構成は、サーバ装置10が二以上のサーバコンピュータで構成される場合には、二以上のコンピュータに適宜に配置される。
【0017】
通信部101は、一以上の通信用インタフェースを含む。通信用インタフェースは、例えば、LANインタフェースである。通信部101は、サーバ装置10の動作に用いられる情報を受信し、またサーバ装置10の動作によって得られる情報を送信する。サーバ装置10は、通信部101によりネットワーク11に接続され、ネットワーク11経由で端末装置12と情報通信を行う。
【0018】
記憶部102は、例えば、主記憶装置、補助記憶装置、又はキャッシュメモリとして機能する一以上の半導体メモリ、一以上の磁気メモリ、一以上の光メモリ、又はこれらのうち少なくとも2種類の組み合わせを含む。半導体メモリは、例えば、RAM(Random Access Memory)又はROM(Read Only Memory)である。RAMは、例えば、SRAM(Static RAM)又はDRAM(Dynamic RAM)である。ROMは、例えば、EEPROM(Electrically Erasable Programmable ROM)である。記憶部102は、サーバ装置10の動作に用いられる情報と、サーバ装置10の動作によって得られた情報とを格納する。
【0019】
制御部103は、一以上のプロセッサ、一以上の専用回路、又はこれらの組み合わせを含む。プロセッサは、例えば、CPU(Central Processing Unit)などの汎用プロセッサ、又は特定の処理に特化したGPU(Graphics Processing Unit)等の専用プロセッサである。専用回路は、例えば、FPGA(Field-Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)等である。制御部103は、サーバ装置10の各部を制御しながら、サーバ装置10の動作に係る情報処理を実行する。
【0020】
サーバ装置10の機能は、制御プログラムを、制御部103に含まれるプロセッサが実行することにより実現される。制御プログラムは、コンピュータをサーバ装置10として機能させるためのプログラムである。また、サーバ装置10の一部又は全ての機能が、制御部103に含まれる専用回路により実現されてもよい。また、制御プログラムは、サーバ装置10に読取り可能な非一過性の記録・記憶媒体に格納され、サーバ装置10が媒体から読み取ってもよい。
【0021】
端末装置12は、通信部111、記憶部112、制御部113、入力部115、表示・出力部116、及び撮像部117を有する。
【0022】
通信部111は、有線又は無線LAN規格に対応する通信モジュール、LTE、4G、5G等の移動体通信規格に対応するモジュール等を有する。端末装置12は、通信部111により、近傍のルータ装置又は移動体通信の基地局を介してネットワーク11に接続され、ネットワーク11経由でサーバ装置10等と情報通信を行う。
【0023】
記憶部112は一以上の半導体メモリ、一以上の磁気メモリ、一以上の光メモリ、又はこれらのうち少なくとも2種類の組み合わせを含む。半導体メモリは、例えば、RAM又はROMである。RAMは、例えば、SRAM又はDRAMである。ROMは、例えば、EEPROMである。記憶部112は、例えば、主記憶装置、補助記憶装置、又はキャッシュメモリとして機能する。記憶部112は、制御部113の動作に用いられる情報と、制御部113の動作によって得られた情報とを格納する。
【0024】
制御部113は、例えば、CPU、MPU(Micro Processing Unit)等の一以上の汎用プロセッサ、又は特定の処理に特化したGPU等の一以上の専用プロセッサを有する。あるいは、制御部113は、一以上の、FPGA、ASIC等の専用回路を有してもよい。制御部113は、制御・処理プログラムに従って動作したり、あるいは、回路として実装された動作手順に従って動作したりすることで、端末装置12の動作を統括的に制御する。そして、制御部113は、通信部111を介してサーバ装置10等と各種情報を送受し、本実施形態にかかる動作を実行する。
【0025】
入力部115は、一以上の入力用インタフェースを含む。入力用インタフェースは、例えば、物理キー、静電容量キー、ポインティングデバイス、およびディスプレイと一体的に設けられたタッチスクリーンを含む。また、入力用インタフェースは、音声入力を受け付けるマイクロフォンを含む。さらに、入力用インタフェースは、画像コードをスキャンするスキャナ又はカメラ、ICカードリーダを含んでもよい。入力部115は、制御部113の動作に用いられる情報を入力する操作を受け付け、入力される情報を制御部113に送る。
【0026】
表示・出力部116は、制御部113の動作により生成される情報を出力するための、一以上の出力用インタフェースを含む。出力用インタフェースは、例えば、ディスプレイ及びスピーカを含む。ディスプレイは、本実施形態の「表示部」に対応するライトフィールドディスプレイである。
【0027】
撮像部117は、可視光による被写体の撮像画像を撮像するカメラと、被写体までの距離を測定して距離画像を取得する測距センサとを含む。カメラは、例えば毎秒15~30フレームで被写体を撮像して連続した撮像画像からなる動画像を生成する。測距センサは、ToF(Time Of Flight)カメラ、LiDAR(Light Detection And Ranging)、ステレオカメラを含み、距離情報を含んだ被写体の距離画像を生成する。撮像部117は、撮像画像と距離画像とを制御部113へ送る。
【0028】
制御部113の機能は、制御部113に含まれるプロセッサが制御プログラムを実行することにより実現される。制御プログラムは、プロセッサを制御部113として機能させるためのプログラムである。また、制御部113の一部又は全ての機能が、制御部113に含まれる専用回路により実現されてもよい。また、制御プログラムは、端末装置12に読取り可能な非一過性の記録・記憶媒体に格納され、端末装置12が媒体から読み取ってもよい。
【0029】
本実施形態において、制御部113は、端末装置12のユーザの撮像画像と距離画像を撮像部117により取得し、ユーザの発話音声を入力部115のマイクロフォンで集音する。制御部113は、ユーザを表す3Dモデルを生成するためのユーザの撮像画像と距離画像、及びユーザの音声を再生するための音声情報を符号化して符号化情報を生成する。制御部113は、符号化に際して、撮像画像等に対して任意の加工処理(例えば解像度変更及びトリミング等)を行ってもよい。制御部113は、符号化情報を通信部111によりサーバ装置10を介して他の端末装置12へ送る。
【0030】
また、制御部113は、他の端末装置12からサーバ装置10を介して送られる符号化情報を、通信部111により受ける。制御部113は、他の端末装置12から受けた符号化情報を復号すると、復号された情報を用いて、他の端末装置12を用いるユーザを表す3Dモデルを生成し、その3Dモデルを仮想空間に配置する。制御部113は、仮想空間内の所定の視点からの3Dモデルを含んだ仮想空間画像をレンダリングにより生成する。仮想空間画像は、ライトフィールドディスプレイに対する複数の視点位置毎の要素画像を含む。すなわち、制御部113は、複数の要素画像をレンダリングする。制御部113は、仮想空間画像を表示・出力部116に出力する。表示・出力部116は、複数の要素画像を構成する光線を各視点位置へ出力することで仮想空間画像を表示するとともに、各ユーザの音声情報に基づく発話音声を出力する。
【0031】
このような制御部113等の動作により、端末装置12のユーザは、仮想イベントにリアルタイムで参加し、他のユーザと会話をすることができる。
【0032】
図2A、2Bは、仮想イベントの実施に係る端末装置12の動作手順を説明するフローチャート図である。サーバ装置10は、ネットワーク11上の複数の端末装置12の通信を仲介して端末装置12同士の通信を可能にすることで仮想イベントが実施される。
【0033】
図2Aの手順は、各端末装置12が、その端末装置12を用いるユーザの3Dモデルを生成するための情報を送出するときの、制御部113の動作手順に関する。
【0034】
ステップS201において、制御部113は、撮像部117により、任意に設定されるフレームレートでの自ユーザの可視光画像の撮像及び距離画像の取得、並びに入力部115により自ユーザの発話の音声の集音を行う。制御部113は、撮像部117から、可視光による撮像画像と距離画像とを取得し、入力部115から音声情報を取得する。
【0035】
ステップS202において、制御部113は、ユーザの位置を導出する。ユーザの位置は、画像認識が可能なユーザの顔の任意の部位の空間座標により特定される。任意の部位は、例えば、いずれかの眼、又は両眼の間の中点等である。制御部113は、撮像画像に対するパターンマッチング等の画像処理により、ユーザとその顔の部位を認識する。また、制御部113は、距離画像に基づき、例えば、撮像部117のカメラの位置に対するユーザの眼等の空間座標を導出する。制御部113は、求めた空間座標に基づきユーザの位置を導出する。
【0036】
ステップS203において、制御部113は、撮像画像、距離画像及び音声情報を符号化し、符号化情報を生成する。
【0037】
ステップS204において、制御部113は、通信部111により符号化情報をパケット化し、他の端末装置12に向けてサーバ装置10へ送出する。
【0038】
制御部113は、撮像・集音を中断するための操作又は仮想イベントを退出するための操作に対応して入力される情報を取得すると(S205のYes)、本処理手順を終了する。制御部113は、中断又は退出のための操作に対応する情報を取得しない間は(S205のNo)ステップS201~S204を実行して、ユーザの注視点の導出と、ユーザを表す3Dモデルを生成するための情報と音声を出力するための情報の送出とを実行する。
【0039】
図2Bの手順は、端末装置12が仮想イベント画像と他ユーザの音声とを出力するときの、制御部113の動作手順に関する。制御部113は、他の端末装置12が図2Aの手順を実行することで送出するパケットを、サーバ装置10を介して受けると、ステップS211~S213を実行する。
【0040】
ステップS211において、制御部113は、他の端末装置12から受けたパケットに含まれる符号化情報を復号して撮像画像、距離画像及び音声情報を取得する。
【0041】
ステップS212において、制御部113は、撮像画像及び距離画像に基づいて、他ユーザを表す3Dモデルを生成する。3Dモデルの生成に際し、制御部113は、他ユーザの距離画像を用いてポリゴンモデルを生成し、他ユーザの撮像画像を用いたテクスチャマッピングをポリゴンモデルに施すことにより、他ユーザの3Dモデルを生成する。ただし、3Dモデルの生成には、ここに示す例に限られず任意の手法が採用可能である。
【0042】
複数の他のユーザの端末装置12から情報を受ける場合、制御部113は、他の端末装置12それぞれについてステップS211~S212を実行し、ユーザ毎の3Dモデルを生成する。
【0043】
ステップS213において、制御部113は、仮想イベントが開催される仮想空間に各ユーザを表す3Dモデルを配置する。制御部113は、仮想空間内の座標に、生成した他ユーザの3Dモデルを配置する。記憶部112には、仮想空間の座標情報と、各ユーザの3Dモデルを配置すべき座標の情報が格納される。例えば、各ユーザの3Dモデルは、各ユーザが仮想イベントにログインした順番に応じた配置が割り当てられる。あるいは、各ユーザの操作により3Dモデルが仮想空間内を移動することも可能であり、その場合には、ユーザの操作に応じた位置が3Dモデルに割り当てられる。
【0044】
ステップS214において、制御部113は、要素画像の数を決定する。制御部113は、ユーザの位置に応じて要素画像の数を決定する。
【0045】
ステップS215において、制御部113は、仮想空間に配置した一以上の3Dモデルを、仮想の視点から撮像して得られる仮想空間画像をレンダリングして生成する。仮想空間画像は、複数の要素画像を含む。制御部113は、ステップS214で導出した数の要素画像を生成する。
【0046】
ステップS216において、制御部113は、表示・出力部116により仮想空間画像を表示するとともに音声を出力する。すなわち、制御部113は、ステップS214で導出した数の要素画像を構成する光線を表示部に出力させるべく、3Dモデルを仮想空間に配置した仮想空間画像を表示するための情報を表示・出力部116に出力する。表示・出力部116は、仮想空間画像を表示するとともに音声を出力する。
【0047】
図3Aは、仮想空間画像を構成する要素画像の例を示す模式的な平面図である。ここでは、ライトフィールドディスプレイ30がその表示面37の中心付近に立体像36を表示する場合に、立体像36に対する5つの視点位置31~35へ向け、5つの要素画像P31~P35を出力する場合の例が示される。立体像36は、例えば、人物の顔を含む頭部の画像である。表示面37には、それぞれ複数の画素が対応するマイクロレンズ群L31~L37が配置される。マイクロレンズ群L31~L37は、それぞれに対応する画素が出力する要素画像P31~P35を構成するための光線を、表示面37の中心に対し異なる角度に光線群38として出力する。光線群38は、視点位置31~35にてそれぞれ要素画像P31~P35を構成するような角度で出力される。ユーザは、視点位置31~35でそれぞれ要素画像P31~P35を視認し、立体像36を知覚する。例えば、要素画像P31~P35は、立体像36の、右側面寄り、右斜め前、正面、左斜め前、右側面寄りからの像に対応する。なお、ここに示す要素画像の数、及びマイクロレンズ群の数は簡略化された一例であり、いずれもここに示した例に限られないことは言うまでもない。また、マイクロレンズ群は、例えば、表示面37の鉛直方向に延在するとともに、延在方向に配置された画素群が対応するレンチキュラーレンズ群であってもよい。
【0048】
図3Bは、ライトフィールドディスプレイ30の表示面37に対するユーザの位置の例301~304を示す。制御部113は、ユーザの位置に基づき、ユーザの位置301、302の表示面37からの距離を導出する。ここには、距離D1、D2(D2>D1)の例が示される。また、制御部113は、ユーザの位置304、303の表示面37の中心C30からの距離を導出する。ここには、中心C30に対する距離d1、d2(d2>d1)の例が示される。
【0049】
制御部113は、ユーザの位置の表示面37からの距離が距離D1のときの要素画像の数より、距離D1より大きい距離D2のときの要素画像の数が少なくなるように要素画像の数を決定する。さらに、制御部113は、ユーザの位置の表示面37の中心C30からの距離が距離d1のときの要素画像の数より、距離d1より大きい距離d2のときの要素画像の数が大きくなくなるように要素画像の数を決定する。ユーザの位置に応じたこのような要素画像の決定には、任意の手段を用いることが可能である。例えば、ユーザの位置の表示面37からの距離の値の範囲、表示面37の中心C30からの距離の値の範囲、及び要素画像の数が予め対応付けられて記憶部112に格納されており、制御部113がユーザの位置に対応する要素画像の数を記憶部112から読み出して要素画像の数を決定することが可能である。あるいは、制御部113は、予め任意に決定される要素画像の数にユーザの位置の表示面37からの距離に応じて小さくなる係数、及び表示面37の中心C30からの距離に応じて大きくなる係数を乗じて、要素画像の数を決定してもよい。なお、その場合、表示面37からの距離に対し、表示面37の中心C30からの距離より大きい重みを付すことが可能である。制御部113は、光線群38が向けられる視点位置の数以下の要素画像を生成する。制御部113は、例えば、隣接する複数の視点位置へ向けて同一の要素画像を構成するための光線を出力させることで、要素画像の数を減少させてもよい。
【0050】
ユーザの位置が表示面37から遠くなるほど、ユーザが表示面37に対し平行に移動したときに立体像36を知覚するために視認すべき要素画像の数は少なくなる。よって、ユーザの位置が表示面37からより遠いときにより少ない要素画像を生成するような制御により、常時一定数以上の要素画像を生成する場合と比べて制御部113の処理負荷が軽減される。
【0051】
また、表示面37に配置されるマイクロレンズから複数の角度に出力される光線は、表示面37の垂直方向に対する角度が大きくなるほど、隣接するマイクロレンズからの光線と干渉し光量が低下するおそれが大きくなる。そうすると、立体像36が表示面37の中心C30付近に表示される場合、ユーザの位置が中心C30から遠くなるほど、つまりユーザの位置に向けた光線の表示面37の垂直方向に対する角度が大きくなるほど、その光線により構成される要素画像が不鮮明になるおそれがある。よって、ユーザの位置が中心C30から遠くなるほど要素画像の数を増加させることで、ユーザに視認される要素画像の鮮明さを維持することが可能となる。
【0052】
制御部113がステップS211~S216を繰り返し実行することで、ユーザは、他ユーザの3Dモデルを含んだ仮想空間画像の動画を見ながら、他のユーザの発話の音声を聞くことができる。
【0053】
図2A、2Bの手順が、それぞれ例えば時分割で並行して実行されることで、ユーザは端末装置12を用いて他のユーザと、仮想イベントにおいて互いの3Dモデルを見ながら対話をすることができる。その際、制御部113は、ユーザの位置に応じて生成する要素画像の数を増減させることで、無用な処理負荷を省略することが可能となる。さらに、要素画像の鮮明さを維持することが可能となる。よって、立体像表示に係る処理を更に効率化することが可能となる。
【0054】
上述において、実施形態を諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形及び修正を行うことが容易であることに注意されたい。従って、これらの変形及び修正は本開示の範囲に含まれることに留意されたい。例えば、各手段、各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段、ステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。
【符号の説明】
【0055】
1 仮想イベント提供システム
10 サーバ装置
11 ネットワーク
12 端末装置
101、111 通信部
102、112 記憶部
103、113 制御部
115 入力部
116 表示・出力部
117 撮像部
図1
図2A
図2B
図3A
図3B