(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024154608
(43)【公開日】2024-10-31
(54)【発明の名称】現場画像表示装置および現場画像表示方法
(51)【国際特許分類】
G06T 1/40 20060101AFI20241024BHJP
G06T 15/20 20110101ALI20241024BHJP
【FI】
G06T1/40
G06T15/20 500
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023068527
(22)【出願日】2023-04-19
(71)【出願人】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】110001379
【氏名又は名称】弁理士法人大島特許事務所
(72)【発明者】
【氏名】坪田 一広
(72)【発明者】
【氏名】大津 賢斗
【テーマコード(参考)】
5B057
5B080
【Fターム(参考)】
5B057CA08
5B057CA12
5B057CA16
5B057CB08
5B057CB12
5B057CB16
5B057CC01
5B057CE08
5B080DA01
5B080DA06
5B080FA02
5B080FA08
(57)【要約】
【課題】自由視点画像生成モデルを利用して、任意の視点による合成現場画像を生成して表示する場合に、合成現場画像を閲覧するユーザにとって直感的かつ効率的な操作により合成現場画像の視点を変更して表示できるようにする。
【解決手段】複数の撮影現場画像を用いた学習により構築された自由視点画像生成モデルを用いて、任意の視点による合成現場画像を生成して表示する現場画像表示装置において、合成現場画像131と複数の視点アイコン141~146とを含む現場画像閲覧画面101を表示し、その現場画像閲覧画面に表示された複数の視点アイコンから1つを選択するユーザの操作指示に応じて、選択された視点アイコンに対応する視点による合成現場画像を生成して、その合成現場画像を現場画像閲覧画面に表示する。
【選択図】
図5
【特許請求の範囲】
【請求項1】
複数の撮影現場画像を用いた学習により構築された自由視点画像生成モデルを用いて、任意の視点による合成現場画像を生成して表示するプロセッサを備えた現場画像表示装置であって、
前記プロセッサは、
前記合成現場画像と複数の視点アイコンとを含む現場画像閲覧画面を表示し、
前記現場画像閲覧画面に表示された複数の前記視点アイコンから1つを選択するユーザの操作指示に応じて、選択された前記視点アイコンに対応する視点による前記合成現場画像を生成して、その合成現場画像を前記現場画像閲覧画面に表示することを特徴とする現場画像表示装置。
【請求項2】
前記プロセッサは、
前記現場画像閲覧画面に表示された前記合成現場画像上で行われる視点をずらすユーザの操作指示に応じて、そのユーザの操作量に対応した分だけ移動した視点による前記合成現場画像を生成して表示することを特徴とする請求項1に記載の現場画像表示装置。
【請求項3】
前記プロセッサは、
前記合成現場画像と共に前記撮影現場画像を含む前記現場画像閲覧画面を表示し、
前記現場画像閲覧画面に表示された複数の前記撮影現場画像から1つを選択するユーザの操作指示に応じて、選択された前記撮影現場画像の視点と同一の視点による前記合成現場画像を生成して表示することを特徴とする請求項1に記載の現場画像表示装置。
【請求項4】
前記プロセッサは、
前記現場画像閲覧画面に現在表示中の前記合成現場画像に関する視点の現場空間に対する位置を表す視点マークを、前記現場画像閲覧画面に表示することを特徴とする請求項1に記載の現場画像表示装置。
【請求項5】
前記プロセッサは、
第1の解像度の前記撮影現場画像と、その第1の解像度より高い第2の解像度の前記撮影現場画像とを学習データとして、前記自由視点画像生成モデルを構築するための学習を行うことを特徴とする請求項1に記載の現場画像表示装置。
【請求項6】
前記プロセッサは、
現場を対象にした3次元計測処理を行うと共に、
前記3次元計測処理のために収集した前記撮影現場画像を用いて、前記自由視点画像生成モデルを構築するための学習を行うことを特徴とする請求項1に記載の現場画像表示装置。
【請求項7】
前記プロセッサは、
前記現場画像閲覧画面上で2点を指定するユーザの操作指示に応じて、ユーザが指定した2点間の距離を、前記3次元計測処理により生成した点群データに基づいて計測して、その計測結果を前記現場画像閲覧画面に表示することを特徴とする請求項6に記載の現場画像表示装置。
【請求項8】
複数の撮影現場画像を用いた学習により構築された自由視点画像生成モデルを用いて、任意の視点による合成現場画像を生成して表示する処理をプロセッサにより行う現場画像表示方法であって、
前記合成現場画像と複数の視点アイコンとを含む現場画像閲覧画面を表示し、
前記現場画像閲覧画面に表示された複数の前記視点アイコンから1つを選択するユーザの操作指示に応じて、選択された前記視点アイコンに対応する視点による前記合成現場画像を生成して、その合成現場画像を前記現場画像閲覧画面に表示することを特徴とする現場画像表示方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の撮影現場画像を用いた学習により構築された自由視点画像生成モデルを用いて、任意の視点による合成現場画像を生成して表示する現場画像表示装置および現場画像表示方法に関するものである。
【背景技術】
【0002】
例えば事件現場、作業現場、イベントの開催現場などを対象にして、現場を撮影した画像(撮影現場画像)を閲覧することで、事後に現場の状況を確認することができる。一方、撮影現場画像とは異なる視点による現場画像を生成して表示できると、現場の状況をより一層適切に把握することができる。そこで、任意の視点による現場画像を生成する技術が望まれる。
【0003】
このような任意の視点による画像(自由視点画像)を生成する技術の1つとして、従来、NeRF(Neural Radiance Fields)の技術が知られている(特許文献1参照)。この技術では、対象場所を撮影した数百枚程度の撮影画像を学習データとして、ディープラーニングにより自由視点画像生成モデルが構築される。この自由視点画像生成モデルを利用することで、実際に撮影された撮影画像とは異なる新たな視点による画像を生成することができる。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来の技術のように、撮影現場画像を利用した学習により自由視点画像生成モデルを構築すると、自由視点画像生成モデルにより精細な合成現場画像が生成されるため、現場の状況をより一層適切に把握することができる。一方、合成現場画像の閲覧において、直感的かつ効率的な操作により合成現場画像の視点を変更して表示できることが望まれる。しかしながら、従来の技術は、このような要望に対して何ら配慮されていないものであった。
【0006】
そこで、本発明は、自由視点画像生成モデルを利用して、任意の視点による合成現場画像を生成して表示する場合に、合成現場画像を閲覧するユーザにとって直感的かつ効率的な操作により合成現場画像の視点を変更して表示させることができる現場画像表示装置および現場画像表示方法を提供することを主な目的とする。
【課題を解決するための手段】
【0007】
本発明の現場画像表示装置は、複数の撮影現場画像を用いた学習により構築された自由視点画像生成モデルを用いて、任意の視点による合成現場画像を生成して表示するプロセッサを備えた現場画像表示装置であって、前記プロセッサは、前記合成現場画像と複数の視点アイコンとを含む現場画像閲覧画面を表示し、前記現場画像閲覧画面に表示された複数の前記視点アイコンから1つを選択するユーザの操作指示に応じて、選択された前記視点アイコンに対応する視点による前記合成現場画像を生成して、その合成現場画像を前記現場画像閲覧画面に表示する構成とする。
【0008】
また、本発明の現場画像表示方法は、複数の撮影現場画像を用いた学習により構築された自由視点画像生成モデルを用いて、任意の視点による合成現場画像を生成して表示する処理をプロセッサにより行う現場画像表示方法であって、前記合成現場画像と複数の視点アイコンとを含む現場画像閲覧画面を表示し、前記現場画像閲覧画面に表示された複数の前記視点アイコンから1つを選択するユーザの操作指示に応じて、選択された前記視点アイコンに対応する視点による前記合成現場画像を生成して、その合成現場画像を前記現場画像閲覧画面に表示する構成とする。
【発明の効果】
【0009】
本発明によれば、ユーザが、視点アイコンを操作することで、その視点アイコンに対応する視点による合成現場画像が生成されて表示される。これにより、合成現場画像を閲覧するユーザにとって直感的かつ効率的な操作により合成現場画像の視点を変更して表示させることができる。
【図面の簡単な説明】
【0010】
【
図1】第1実施形態に係る現場画像表示システムの全体構成図
【
図2】第1実施形態に係るユーザ端末およびサーバの概略構成を示すブロック図
【
図3】第1実施形態に係るサーバで学習時に行われる処理の概要を示すブロック図
【
図4】第1実施形態に係るサーバで運用時に行われる処理の概要を示すブロック図
【
図5】第1実施形態に係るユーザ端末に表示される現場画像閲覧画面を示す説明図
【
図6】第1実施形態に係るユーザ端末に表示される現場画像閲覧画面を示す説明図
【
図7】第2実施形態に係るユーザ端末およびサーバの概略構成を示すブロック図
【
図8】第2実施形態に係るサーバで学習時に行われる処理の概要を示すブロック図
【
図9】第2実施形態に係るサーバで運用時に行われる処理の概要を示すブロック図
【
図10】第2実施形態に係るユーザ端末に表示される現場画像閲覧画面を示す説明図
【
図11】第3実施形態に係るユーザ端末およびサーバの概略構成を示すブロック図
【
図12】第3実施形態に係るサーバで学習時に行われる処理の概要を示すブロック図
【
図13】第3実施形態に係るサーバで運用時に行われる処理の概要を示すブロック図
【
図14】第3実施形態に係るユーザ端末に表示される現場画像閲覧画面を示す説明図
【発明を実施するための形態】
【0011】
前記課題を解決するためになされた第1の発明は、複数の撮影現場画像を用いた学習により構築された自由視点画像生成モデルを用いて、任意の視点による合成現場画像を生成して表示するプロセッサを備えた現場画像表示装置であって、前記プロセッサは、前記合成現場画像と複数の視点アイコンとを含む現場画像閲覧画面を表示し、前記現場画像閲覧画面に表示された複数の前記視点アイコンから1つを選択するユーザの操作指示に応じて、選択された前記視点アイコンに対応する視点による前記合成現場画像を生成して、その合成現場画像を前記現場画像閲覧画面に表示する構成とする。
【0012】
これによると、ユーザが、視点アイコンを操作することで、その視点アイコンに対応する視点による合成現場画像が生成されて表示される。これにより、合成現場画像を閲覧するユーザにとって直感的かつ効率的な操作により合成現場画像の視点を変更して表示させることができる。
【0013】
また、第2の発明は、前記プロセッサは、前記現場画像閲覧画面に表示された前記合成現場画像上で行われる視点をずらすユーザの操作指示に応じて、そのユーザの操作量に対応した分だけ移動した視点による前記合成現場画像を生成して表示する構成とする。
【0014】
これによると、ユーザが、現場画像閲覧画面に表示される合成現場画像の視点を微調整することができる。
【0015】
また、第3の発明は、前記プロセッサは、前記合成現場画像と共に前記撮影現場画像を含む前記現場画像閲覧画面を表示し、前記現場画像閲覧画面に表示された複数の前記撮影現場画像から1つを選択するユーザの操作指示に応じて、選択された前記撮影現場画像の視点と同一の視点による前記合成現場画像を生成して表示する構成とする。
【0016】
これによると、ユーザが、撮影現場画像の視点と同一の視点による合成現場画像を容易に表示させることができる。
【0017】
また、第4の発明は、前記プロセッサは、前記現場画像閲覧画面に現在表示中の前記合成現場画像に関する視点の現場空間に対する位置を表す視点マークを、前記現場画像閲覧画面に表示する構成とする。
【0018】
これによると、ユーザが、現在表示中の合成現場画像に関する視点の現場空間に対する位置関係を容易に確認することができる。
【0019】
また、第5の発明は、前記プロセッサは、第1の解像度の前記撮影現場画像と、その第1の解像度より高い第2の解像度の前記撮影現場画像とを学習データとして、前記自由視点画像生成モデルを構築するための学習を行う構成とする。
【0020】
これによると、高精細な合成現場画像を生成する自由視点画像生成モデルを構築することができる。
【0021】
また、第6の発明は、前記プロセッサは、現場を対象にした3次元計測処理を行うと共に、前記3次元計測処理のために収集した前記撮影現場画像を用いて、前記自由視点画像生成モデルを構築するための学習を行う構成とする。
【0022】
これによると、撮影現場画像を兼用して、自由視点画像生成モデルを構築するための学習と3次元計測処理とを実施することができる。この場合、3次元計測処理にはSLAM法が用いられてもよい。
【0023】
また、第7の発明は、前記プロセッサは、前記現場画像閲覧画面上で2点を指定するユーザの操作指示に応じて、ユーザが指定した2点間の距離を、前記3次元計測処理により生成した点群データに基づいて計測して、その計測結果を前記現場画像閲覧画面に表示する構成とする。
【0024】
これによると、ユーザが、現場画像上の2点間の距離を容易に把握することができる。
【0025】
また、第8の発明は、複数の撮影現場画像を用いた学習により構築された自由視点画像生成モデルを用いて、任意の視点による合成現場画像を生成して表示する処理をプロセッサにより行う現場画像表示方法であって、前記合成現場画像と複数の視点アイコンとを含む現場画像閲覧画面を表示し、前記現場画像閲覧画面に表示された複数の前記視点アイコンから1つを選択するユーザの操作指示に応じて、選択された前記視点アイコンに対応する視点による前記合成現場画像を生成して、その合成現場画像を前記現場画像閲覧画面に表示する構成とする。
【0026】
これによると、第1の発明と同様に、ユーザが、視点アイコンを操作することで、その視点アイコンに対応する視点による合成現場画像が生成されて表示される。これにより、合成現場画像を閲覧するユーザにとって直感的かつ効率的な操作により合成現場画像の視点を変更して表示させることができる。
【0027】
以下、本発明の実施の形態を、図面を参照しながら説明する。
【0028】
(第1実施形態)
図1は、本実施形態に係る現場画像表示システムの全体構成図である。
【0029】
本システムは、カメラ1と、ユーザ端末2と、サーバ3(現場画像表示装置)とを備えている。カメラ1とユーザ端末2とは、適宜なインタフェースにより接続される。ユーザ端末2とサーバ3とは、インターネットなどのネットワークを介して接続される。
【0030】
カメラ1は、現場(対象場所)を撮影し、撮影現場画像を蓄積する。また、カメラ1は、適宜なタイミングで撮影現場画像をユーザ端末2に出力する。
【0031】
ユーザ端末2は、ユーザが操作する。ユーザ端末2は、デスクトップPC、ノートPC、タブレット端末などで構成される。ユーザ端末2は、カメラ1から入力される撮影現場画像をサーバ3に送信する。また、ユーザ端末2は、サーバ3から受信した表示情報に基づいて画面を表示する。また、ユーザ端末2は、画面でのユーザの操作入力に基づく操作情報をサーバ3に送信する。
【0032】
サーバ3は、ユーザ端末2から受信した撮影現場画像を用いて、自由視点画像生成モデルを構築するための学習を行う。また、サーバ3は、ユーザ端末2の画面においてユーザが指定した視点に関する操作情報を受信し、自由視点画像生成モデルを用いて、ユーザが指定した視点による合成現場画像を生成してユーザ端末2の画面に表示させる。
【0033】
なお、本実施形態では、カメラ1とユーザ端末2とが別々に設けられているが、カメラ1がユーザ端末2に一体に設けられてもよい。
【0034】
次に、第1実施形態に係るユーザ端末2およびサーバ3の概略構成について説明する。
図2は、ユーザ端末2およびサーバ3の概略構成を示すブロック図である。
【0035】
ユーザ端末2は、入出力部21と、通信部22と、記憶部23と、ディスプレイ24と、入力デバイス25と、プロセッサ26と、を備えている。
【0036】
入出力部21は、カメラ1との間でデータの入出力を行う。具体的には、入出力部21は、カメラ1に蓄積された撮影現場画像を取り込む。
【0037】
通信部22は、サーバ3との間で通信を行う。具体的には、通信部22は、カメラ1から取得した撮影現場画像や、ユーザによる入力デバイス25の操作により取得した操作情報をサーバ3に送信する。また、通信部22は、サーバ3から送信される画面の表示情報を受信する。
【0038】
記憶部23は、プロセッサ26で実行されるプログラムなどを記憶する。また、記憶部23は、カメラ1から取得した撮影現場画像を記憶する。
【0039】
ディスプレイ24は、現場画像閲覧画面(
図5参照)などを表示する。入力デバイス25は、ユーザが入力操作を行うものである。なお、例えば、ユーザ端末2がタブレット端末で構成される場合には、ディスプレイ24としての表示パネルと入力デバイス25としてのタッチパネルとが一体化されたタッチパネルディスプレイが設けられてもよい。また、ディスプレイ24は、ユーザの頭部に装着されるウェアラブルデバイス、例えばVRゴーグルであってもよい。
【0040】
プロセッサ26は、記憶部23に記憶されたプログラムを実行することで、カメラ1による撮影現場画像の取り込み、ディスプレイ24による画面表示、入力デバイス25による操作情報の取得などに関する各種の処理を行う。
【0041】
サーバ3は、通信部31と、記憶部32と、プロセッサ33と、を備えている。
【0042】
通信部31は、ユーザ端末2との間で通信を行う。具体的には、通信部31は、ユーザ端末2から送信される撮影現場画像および操作情報を受信する。また、通信部31は、ユーザ端末2に表示させる画面の表示情報をユーザ端末2に送信する。
【0043】
記憶部32は、プロセッサ33で実行されるプログラムなどを記憶する。また、記憶部32は、ユーザ端末2から受信した撮影現場画像を記憶する。また、プロセッサ33により構築された自由視点画像生成モデルを記憶する。
【0044】
プロセッサ33は、記憶部32に記憶されたプログラムを実行することで各種の処理を行う。本実施形態では、プロセッサ33が、位置姿勢推定処理、学習処理、指示受付処理、自由視点画像生成処理、および表示処理などを行う。
【0045】
位置姿勢推定処理では、プロセッサ33が、複数の撮影現場画像の各々に関して、撮影時におけるカメラ1の位置および姿勢を推定して、撮影現場画像の各々に関する位置姿勢情報を取得する。
【0046】
学習処理では、プロセッサ33が、複数の撮影現場画像と、その撮影現場画像の各々に関する位置姿勢情報とを学習データとして、ディープラーニングなどの機械学習により自由視点画像生成モデルを構築する。このとき、NeRFの技術に基づいて、ディープラーニングにより画像生成モデルが構築されてもよい。
【0047】
指示受付処理では、プロセッサ33が、ユーザ端末2から受信した操作情報に基づいて、ユーザによる指示を受け付ける。具体的には、操作情報に基づいて、例えば、ユーザが指定した視点に関する情報を取得する。
【0048】
自由視点画像生成処理では、プロセッサ33が、学習処理により構築された自由視点画像生成モデルを利用して、ユーザが指定した視点による合成現場画像を生成する。このとき、ユーザが指定した視点に関する情報が自由視点画像生成モデルに入力され、自由視点画像生成モデルから出力される合成現場画像を取得する。
【0049】
表示処理では、プロセッサ33が、ユーザ端末2に表示させる画面の表示情報を生成する。表示情報はユーザ端末2に送信され、ユーザ端末2に画面が表示される。
【0050】
次に、第1実施形態に係るサーバ3で学習時に行われる処理について説明する。
図3は、サーバ3で学習時に行われる処理の概要を示すブロック図である。
【0051】
本実施形態では、カメラ1から出力された撮影現場画像が、ユーザ端末2を経由してサーバ3に送信される。サーバ3では、受信した撮影現場画像が記憶部32に記憶される。なお、カメラ1がサーバ3と直接通信を行うための通信部(有線または無線)等の構成を有している場合には、ユーザ端末2を省略することができる。
【0052】
また、サーバ3では、撮影現場画像の各々を対象にして、撮影時におけるカメラ1の位置および姿勢が推定され、その推定結果としての位置姿勢情報が得られる(位置姿勢推定処理)。次に、サーバ3では、撮影現場画像とその位置姿勢情報とを学習データとして、自由視点画像生成モデルが構築される(学習処理)。
【0053】
次に、第1実施形態に係るサーバ3で運用時に行われる処理について説明する。
図4は、サーバ3で運用時に行われる処理の概要を示すブロック図である。
【0054】
サーバ3では、現場画像閲覧画面(
図5参照)において合成現場画像の視点を指定するユーザの操作入力に基づく操作情報がユーザ端末2から送信され、その操作情報に基づいて、ユーザが指定した視点に関する視点指示情報が取得される(指示受付処理)。次に、学習処理により構築された自由視点画像生成モデルを利用して、ユーザが指定した視点による合成現場画像が生成される(自由視点画像生成処理)。次に、合成現場画像を含む現場画像閲覧画面の表示情報が生成され(表示処理)、その表示情報がユーザ端末2に送信される。
【0055】
次に、第1実施形態に係るユーザ端末2に表示される現場画像閲覧画面101について説明する。
図5,
図6は、現場画像閲覧画面101を示す説明図である。
【0056】
現場画像閲覧画面101には、第1の現場画像表示部111と、第2の現場画像表示部112と、が設けられている。
【0057】
第1の現場画像表示部111には、カメラ1により現場を撮影した複数の撮影現場画像121が並べて表示される。なお、撮影現場画像のサムネイルが表示されて、そのサムネイルを選択する操作が行われると、選択されたサムネイルの元になる撮影現場画像がポップアップで拡大表示されてもよい。これにより、ユーザが、撮影現場画像を詳細に観察することができる。
【0058】
また、第1の現場画像表示部111には、スクロールバー122が設けられている。ユーザが、スクロールバー122を操作することで、撮影現場画像121が表示領域内を移動する。これにより、第1の現場画像表示部111の表示領域に収まらない撮影現場画像121が表示され、ユーザが全ての撮影現場画像121を確認することができる。
【0059】
第2の現場画像表示部112には、サーバ3において自由視点画像生成モデルを用いて生成された合成現場画像131が表示される。
【0060】
また、第2の現場画像表示部112には、視点位置選択部132が設けられている。視点位置選択部132には、複数の視点アイコン141~146が設けられている。本例では、第1~第6の合計6つの視点アイコン141~146が設けられている。ユーザが、視点アイコン141~146のいずれかを操作すると、その視点アイコン141~146に対応する視点による合成現場画像131が、第2の現場画像表示部112に表示される。
【0061】
本実施形態では、現場空間に対する基準視点が予め設定されている。例えば、現場の撮影を開始して最初に撮影された撮影現場画像の視点が基準視点に設定される。また、撮影された全ての撮影現場画像の視点の中心が基準視点に設定されてもよい。
【0062】
第1の視点アイコン141は、正面から現場空間を見た状態、すなわち、基準視点から現場空間を見た状態の視点に対応する。第2の視点アイコン142は、基準視点に対して右側方の視点、すなわち、基準視点を鉛直軸周りで右側に90度回転させた状態の視点に対応する。第3の視点アイコン143は、基準視点に対して左側方の視点、すなわち、基準視点を鉛直軸周りで左側に90度回転させた状態の視点に対応する。第4の視点アイコン144は、基準視点に対して上方の視点、すなわち、基準視点を水平軸周りで上側に90度回転させた状態の視点に対応する。第5の視点アイコン145は、基準視点に対して下方の視点、すなわち、基準視点を水平軸周りで下側に90度回転させた状態の視点に対応する。第6の視点アイコン146は、基準視点に対して後方の視点、すなわち、基準視点を鉛直軸周りで180度回転させた状態の視点に対応する。
【0063】
なお、第1の視点アイコン141が、現在の視点に対応するものとして、残りの第2~第6の視点アイコン142~146が、現在の視点を基準にしてそれぞれ右側、左側、上側、下側、後側に回転させた状態の視点に対応するものであってもよい。この場合、現場空間に対する基準視点は設定されず、視点アイコン141~146の操作に応じて、視点アイコン141~146の各々に対応する視点が変化する。
【0064】
このように視点位置選択部132では、ユーザが、視点アイコン141~146のいずれかを操作することで、視点を大きく移動させることができる。
【0065】
また、第2の現場画像表示部112には、視点位置表示部133が設けられている。視点位置表示部133には、現場空間(絶対位置)を表す画像151と、視点マーク152とが表示される。視点マーク152は、現場空間に対する視点の位置を表す。現在表示中の合成現場画像131の視点が変化するのに応じて、現場空間に対する視点マーク152の位置が変化する。これにより、ユーザが、現在表示中の合成現場画像131の視点の現場空間に対する位置、すなわち、現在表示中の合成現場画像131が現場空間をどのような位置から見たものかを、容易に把握することができる。
【0066】
また、第2の現場画像表示部112では、ユーザが、合成現場画像131上で視点をずらす操作を行うことができる。この視点をずらす操作では、ユーザの操作量に対応した分だけ合成現場画像131の視点を移動させることができる。視点をずらす操作は、例えば、入力デバイス25がマウスであれば、マウスによるドラッグ操作であり、また、入力デバイス25がタッチパネルであれば、指によるドラッグ操作である。この場合、合成現場画像131上で横方向のドラッグ操作が行われると、視点が横方向に移動し、また、縦方向のドラッグ操作が行われると、視点が縦方向に移動する。これにより、ユーザが、表示される合成現場画像131の視点を微調整することができ、視点を僅かに移動させた合成現場画像131が表示される。
【0067】
このように第2の現場画像表示部112では、合成現場画像131上でのドラッグ操作により、合成現場画像131の視点を徐々に移動させることができる。この場合、視点位置選択部132による左右上下側での視点移動(90度)を考慮し、45度未満で微調整できるものとすると良い。
【0068】
また、ユーザが、第1の現場画像表示部111に表示された複数の撮影現場画像121の1つを選択する操作を行うと、選択された撮影現場画像121の視点と同一の視点による合成現場画像131がサーバ3で生成されて第2の現場画像表示部112に表示される。このとき、第1の現場画像表示部111では、選択された撮影現場画像121において選択状態を表す強調表示が行われる。具体的には、撮影現場画像121に枠画像123が表示される(
図5参照)。
【0069】
ここで、ユーザは、第1の現場画像表示部111での撮影現場画像121を選択する操作と、第2の現場画像表示部112の合成現場画像131上での視点をずらす操作と、を組み合わせることで、撮影現場画像121と同一の視点による合成現場画像131から視点を少しずつ変化させることができる。これにより、ユーザは、撮影現場画像121と、その撮影現場画像121と少しだけ視点が異なる合成現場画像131とを比較することで、現場の状況を適切に把握することができる。
【0070】
なお、
図5に示す例は、第1の現場画像表示部111の撮影現場画像121が選択されることで、選択された撮影現場画像121の視点と同一の視点による合成現場画像131が第2の現場画像表示部112に表示されている。一方、
図6に示す例は、視点アイコン141~146の操作や合成現場画像131上でのドラッグ操作により、現場空間を斜め上方から見た状態の視点による合成現場画像131が第2の現場画像表示部112に表示されている。
【0071】
このように本実施形態では、現場画像閲覧画面101において、現場の実際の状況が写る撮影現場画像121と、その撮影現場画像121とは異なる視点による合成現場画像131とが並べて表示される。このため、ユーザは、撮影現場画像121により現場の実際の状況を正確に確認することができ、さらに様々な視点による合成現場画像131が、ユーザにとって現場の状況を適切に判断する上での手助けになる。
【0072】
ところで、本実施形態では、前記のように、第1の現場画像表示部111に表示された撮影現場画像121を選択すると、その撮影現場画像121の視点と同一の視点による合成現場画像131が第2の現場画像表示部112に表示される。一方、視点アイコン141~146の操作や、合成現場画像131上での視点をずらす操作により、第2の現場画像表示部112に表示される合成現場画像131の視点が変化すると、その合成現場画像131の視点に最も近い視点の撮影現場画像121が第1の現場画像表示部111で強調表示されてもよい。
【0073】
(第2実施形態)
次に、第2実施形態について説明する。なお、ここで特に言及しない点は前記の実施形態と同様である。
図7は、第2実施形態に係るユーザ端末2およびサーバ3の概略構成を示すブロック図である。なお、ユーザ端末2の構成は第1実施形態(
図2参照)と同様である。
【0074】
サーバ3のプロセッサ33は、第1実施形態(
図2参照)と同様に、位置姿勢推定処理、学習処理、指示受付処理、自由視点画像生成処理、および表示処理を行う。一方、本実施形態では、プロセッサ33が、更に3次元計測処理、距離計測処理、および平面射影処理を行う。
【0075】
3次元計測処理(点群データ生成処理)では、プロセッサ33が、ユーザ端末2を介してカメラ1から取得した撮影現場画像に基づいて、現場(対象場所)に関する3次元空間情報としての点群データを生成する。3次元計測処理では、例えばSLAM法が用いられる。
【0076】
距離計測処理では、プロセッサ33が、3次元計測処理で生成した点群データに基づいて、ユーザが指定した2点間の距離を計測する。なお、点群データは、例えば実空間と同一の大きさの座標系で規定され、ユーザが指定した2点に対応する点群データ上の2点の座標を取得することで、2点間の距離を計測することができる。
【0077】
平面射影処理では、プロセッサ33が、3次元計測処理で生成した点群データを所定の平面に射影して平面射影画像を生成する。なお、点群データからメッシュデータが生成されて、そのメッシュデータを所定の平面に射影することで平面射影画像が生成されてもよい。なお、メッシュデータはテクスチャを含むものでもよい。
【0078】
なお、カメラ1は、可視光を検出して被写体を撮影する可視光カメラであるが、点群データ生成のための撮影では、可視光カメラの他に、被写体までの距離を計測するデプスカメラが用いられてもよい。
【0079】
また、本実施形態では、サーバ3で3次元計測処理が行われるが、ユーザ端末2で3次元計測処理が行われてもよい。
【0080】
次に、第2実施形態に係るサーバ3で学習時に行われる処理について説明する。
図8は、サーバ3で学習時に行われる処理の概要を示すブロック図である。
【0081】
サーバ3では、第1実施形態(
図3参照)と同様に、カメラ1による撮影現場画像がユーザ端末2から送信され、その撮影現場画像の撮影時におけるカメラ1の位置および姿勢が推定されて(位置姿勢推定処理)、その推定結果としての位置姿勢情報と撮影現場画像とを学習データとして、自由視点画像生成モデルが構築される(学習処理)。
【0082】
一方、本実施形態では、撮影現場画像に基づいて、現場(対象場所)に関する3次元空間情報としての点群データが生成される(3次元計測処理)。生成された点群データは記憶部32に記憶される。
【0083】
ここで、カメラ1では、SLAM法を用いた3次元計測処理(点群データ生成処理)のための撮影作業が行われる。この撮影作業で収集された撮影現場画像が、自由視点画像生成モデルを構築するための学習で兼用される。このとき、SLAM法を用いた3次元計測処理に用いられた撮影現場画像では、3次元計測処理において撮影現場画像ごとの位置姿勢情報が得られる。一方、3次元計測処理に用いられなかった撮影現場画像には位置姿勢情報がないため、位置姿勢推定処理が行われる。
【0084】
次に、第2実施形態に係るサーバ3で運用時に行われる処理について説明する。
図9は、サーバ3で運用時に行われる処理の概要を示すブロック図である。
【0085】
サーバ3では、第1実施形態(
図4参照)と同様に、指示受付処理と、自由視点画像生成処理と、表示処理とが行われる。
【0086】
一方、本実施形態では、現場画像閲覧画面(
図10参照)において合成現場画像上で2点を指定するユーザの操作入力に基づく操作情報がユーザ端末2から送信され、その操作情報に基づいて、ユーザが指定した計測対象となる2点の座標に関する計測位置情報が取得される(指示受付処理)。次に、点群データに基づいて、ユーザが指定した2点間の距離が計測される(距離計測処理)。次に、距離計測結果を含む現場画像閲覧画面の表示情報が生成され(表示処理)、その表示情報がユーザ端末2に送信される。
【0087】
また、本実施形態では、点群データの射影により、表示中の合成現場画像と同一の視点による平面射影画像が生成される(平面射影処理)。次に、平面射影画像を含む現場画像閲覧画面の表示情報が生成され(表示処理)、その表示情報がユーザ端末2に送信される。
【0088】
次に、第2実施形態に係るユーザ端末2に表示される現場画像閲覧画面201について説明する。
図10は、現場画像閲覧画面201を示す説明図である。
【0089】
現場画像閲覧画面201の構成は第1実施形態(
図5参照)の現場画像閲覧画面101と同様である。
【0090】
一方、本実施形態では、第2の現場画像表示部112に表示された合成現場画像131上でユーザが2点を指定すると、その2点間の距離が合成現場画像131上に表示される。なお、入力デバイス25がタッチパネルである場合、第1の点と第2の点とを順次または同時に指で触れるタップ操作や、第1の点から第2の点に向けて指をずらすドラッグ操作で2点を指定することができる。また、入力デバイス25がマウスである場合も、同等の操作で2点を指定することができる。
【0091】
このとき、ユーザが合成現場画像131上の2点を指定する操作を行うと、その操作情報がサーバ3に送信される。サーバ3では、ユーザが合成現場画像131上で指定した2点に対応する点群データ上の2点が求められ、その2点の点群データ上での座標に基づいて、2点間の距離が計測され、その計測結果が合成現場画像131上に表示される。本例では、ユーザが指定した2点で規定される計測対象区間を表す画像211(2点を結ぶ矢印)と、計測結果を表す文字212とが表示される。
【0092】
また、本実施形態では、点群データの射影により生成された平面射影画像を現場画像閲覧画面201に表示させることができる。具体的には、例えば、現場画像閲覧画面201に表示中の合成現場画像131と同一の視点による平面射影画像が生成されて、第2の現場画像表示部112において、合成現場画像131の代わりに平面射影画像が表示される。この場合、現場画像閲覧画面201上でのボタン(図示せず)の操作により、合成現場画像131と平面射影画像とが切り替えて表示されてもよい。なお、平面射影画像が、合成現場画像の代わりに表示される他に、合成現場画像と並んで表示されてもよい。
【0093】
(第3実施形態)
次に、第3実施形態について説明する。なお、ここで特に言及しない点は前記の実施形態と同様である。
図11は、第3実施形態に係るユーザ端末2およびサーバ3の概略構成を示すブロック図である。なお、ユーザ端末2の構成は第1実施形態(
図2参照)と同様である。
【0094】
本実施形態では、標準解像度のカメラ1と、高解像度のカメラ5とが用いられる。標準解像度のカメラ1は、例えばHD(High Definition)の解像度、具体的には1280×720、または1920×1080となる解像度を備える。高解像度のカメラ5は、例えばUHD(Ultra-High Definition)の解像度、具体的には3840×2160となる解像度を備える。
【0095】
サーバ3のプロセッサ33は、第1実施形態(
図2参照)と同様に、位置姿勢推定処理、学習処理、指示受付処理、自由視点画像生成処理、および表示処理を行う。また、本実施形態では、プロセッサ33が、第2実施形態(
図7参照)と同様に、3次元計測処理、および距離計測処理を行う。
【0096】
次に、第3実施形態に係るサーバ3で学習時に行われる処理について説明する。
図12は、サーバ3で学習時に行われる処理の概要を示すブロック図である。
【0097】
本実施形態では、標準解像度のカメラ1から出力された標準解像度の撮影現場画像と、高解像度のカメラ5から出力された高解像度の撮影現場画像が、ユーザ端末2を経由してサーバ3に送信される。サーバ3では、受信した標準解像度の撮影現場画像、および高解像度の撮影現場画像が記憶部32に記憶される。
【0098】
また、サーバ3では、第1実施形態(
図3参照)と同様に、位置姿勢推定処理と学習処理とが行われるが、ここでは、標準解像度の撮影現場画像と高解像度の撮影現場画像との両方が学習データとして用いられて、自由視点画像生成モデルの構築のための学習処理が行われる。また、3次元計測に撮影した標準解像度の撮影現場画像の位置姿勢推定結果に基づいて高解像度の撮影現場画像も対象にして位置姿勢推定処理が行われ、各々の位置姿勢情報が取得されて学習処理に用いられる。
【0099】
また、本実施形態では、第2実施形態(
図8参照)と同様に、3次元計測処理が行われる。このとき、標準解像度の撮影現場画像を用いて3次元計測処理が行われ、現場に関する3次元空間情報としての点群データが生成される。
【0100】
次に、第3実施形態に係るサーバ3で運用時に行われる処理について説明する。
図13は、サーバ3で運用時に行われる処理の概要を示すブロック図である。
【0101】
サーバ3では、第2実施形態(
図9参照)と同様に、指示受付処理と、自由視点画像生成処理と、表示処理と、距離計測処理とが行われる。
【0102】
一方、本実施形態では、標準解像度の撮影現場画像および合成現場画像に加えて、高解像度の撮影現場画像を含む現場画像閲覧画面の表示情報が生成され(表示処理)、その表示情報がユーザ端末2に送信される。
【0103】
このように本実施形態では、標準解像度の撮影現場画像に加えて高解像度の撮影現場画像を用いた学習により自由視点画像生成モデルが構築されるため、自由視点画像生成モデルにより合成現場画像を高精細に生成することができる。
【0104】
次に、第3実施形態に係るユーザ端末2に表示される現場画像閲覧画面301について説明する。
図14は、現場画像閲覧画面301を示す説明図である。
【0105】
現場画像閲覧画面301には、第1の現場画像表示部311と、第2の現場画像表示部312と、第3の現場画像表示部313と、が設けられている。
【0106】
第1の現場画像表示部311には、標準解像度のカメラ1から出力された標準解像度の撮影現場画像121が並べて表示される。この第1の現場画像表示部311は、第1実施形態(
図5参照)における第1の現場画像表示部111と同様である。
【0107】
第2の現場画像表示部312には、サーバ3において自由視点画像生成モデルを用いて生成された合成現場画像131が表示される。この第2の現場画像表示部312は、第1実施形態(
図5参照)における第2の現場画像表示部112と同様である。
【0108】
第3の現場画像表示部313には、高解像度のカメラ5から出力された高解像度の撮影現場画像321が並べて表示される。また、第3の現場画像表示部313には、スクロールバー322が設けられている。ユーザが、スクロールバー322を操作することで、撮影現場画像321が表示領域内を移動し、表示領域に収まらない撮影現場画像321を表示させることができる。
【0109】
ユーザが、第3の現場画像表示部313に表示された複数の撮影現場画像321の1つを選択する操作を行うと、選択された撮影現場画像321の視点と同一の視点による合成現場画像131がサーバ3で生成されて第2の現場画像表示部312に表示される。このとき、第3の現場画像表示部313では、選択された撮影現場画像321において選択状態を表す強調表示が行われる。具体的には、撮影現場画像321に枠画像323が表示される。
【0110】
また、ユーザが、第1の現場画像表示部311に表示された複数の撮影現場画像121の1つを選択する操作を行うと、第3の現場画像表示部313と同様に、選択された撮影現場画像121の視点と同一の視点による合成現場画像131がサーバ3で生成されて第2の現場画像表示部112に表示される。これは、第1実施形態と同様である。なお、第3実施形態において、第2の現場画像表示部312に合成現場画像131を表示する場合に、第3の現場画像表示部313と第1の現場画像表示部311において、両方の撮影現場画像321、撮影現場画像121を表示させて選択するものとしたが、第3の現場画像表示部313の現場画像表示部311のみを表示、あるいは、第1の現場画像表示部311の撮影現場画像121のみを表示するように、ユーザの設定操作(図示せず)に基づいて、現場画像閲覧画面301の表示レイアウトを変更できるようにしてもよい。
【0111】
ところで、SLAM法を用いた3次元計測のための撮影が標準解像度のカメラ1を利用して行われることで、3次元計測(点群データ生成)と、自由視点画像生成モデルの構築のための学習との各々で利用される複数の標準解像度の撮影現場画像を収集することができる。
【0112】
ここで、SLAM法による3次元計測のための撮影では、ユーザ(作業者)がカメラ1を保持した状態で現場を移動しながら、カメラ1により現場を撮影させればよい。このとき、複数の標準解像度の撮影現場画像が、所定のフレームレートで動画として連続撮影されてもよい。
【0113】
また、高解像度のカメラ5を用いた撮影では、単眼のデジタルスチルカメラが用いられて、静止画として撮影されてもよく、また、単眼のデジタルビデオカメラや、スマートフォンに搭載されたカメラが用いられて、動画として撮影されてもよい。このとき、収集された撮影現場画像の対応付けが容易になるように、動線が一筆書きとなるように現場を移動しながら撮影が行われたり、現場内の注目点を囲むように移動しながら撮影が行われたりしてもよい。
【0114】
また、SLAM法を用いた3次元計測に利用される標準解像度の撮影現場画像と、高解像度の撮影現場画像との両方が用いられる場合、標準解像度の撮影現場画像で現場(対象場所)が網羅的に撮影されるため、標準解像度の撮影現場画像の視点を基準にして、高解像度の撮影現場画像の視点を容易に求めることができる。このため、高解像度の撮影現場画像間での対応関係は必須ではなくなり撮影の自由度が高く、必要に応じて被写体を様々な角度から撮影されたものでもよい。
【0115】
以上のように、本出願において開示する技術の例示として、実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略などを行った実施形態にも適用できる。また、上記の実施形態で説明した各構成要素を組み合わせて、新たな実施形態とすることも可能である。
【産業上の利用可能性】
【0116】
本発明に係る現場画像表示装置および現場画像表示方法は、自由視点画像生成モデルを利用して、任意の視点による合成現場画像を生成して表示する場合に、合成現場画像を閲覧するユーザにとって直感的かつ効率的な操作により合成現場画像の視点を変更して表示させることができる効果を有し、複数の撮影現場画像を用いた学習により構築された自由視点画像生成モデルを用いて、任意の視点による合成現場画像を生成して表示する現場画像表示装置および現場画像表示方法などとして有用である。
【符号の説明】
【0117】
1,5:カメラ
2:ユーザ端末
3:サーバ(現場画像表示装置)
21:入出力部
22:通信部
23:記憶部
24:ディスプレイ
25:入力デバイス
26:プロセッサ
31:通信部
32:記憶部
33:プロセッサ
101:現場画像閲覧画面
111:第1の現場画像表示部
112:第2の現場画像表示部
121:撮影現場画像
131:合成現場画像
132:視点位置選択部
133:視点位置表示部
141~146:視点アイコン
151:現場空間を表す画像
152:視点マーク
201:現場画像閲覧画面
211:計測対象を表す画像
212:計測結果を表す文字
301:現場画像閲覧画面
311:第1の現場画像表示部
312:第2の現場画像表示部
313:第3の現場画像表示部
321:撮影現場画像