(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-15
(45)【発行日】2023-03-24
(54)【発明の名称】3次元再構成方法、装置、システム及び記憶媒体
(51)【国際特許分類】
G06T 7/55 20170101AFI20230316BHJP
G06T 7/00 20170101ALI20230316BHJP
【FI】
G06T7/55
G06T7/00 350C
(21)【出願番号】P 2022537293
(86)(22)【出願日】2019-12-20
(86)【国際出願番号】 CN2019127020
(87)【国際公開番号】W WO2021120175
(87)【国際公開日】2021-06-24
【審査請求日】2022-07-07
【早期審査対象出願】
(73)【特許権者】
【識別番号】522239476
【氏名又は名称】馭勢科技(浙江)有限公司
【氏名又は名称原語表記】UISEE TECHNOLOGIES (ZHEJIANG) LTD.
(74)【代理人】
【識別番号】110000729
【氏名又は名称】弁理士法人ユニアス国際特許事務所
(72)【発明者】
【氏名】于 立冬
【審査官】山田 辰美
(56)【参考文献】
【文献】特開2003-196327(JP,A)
【文献】特開2018-163468(JP,A)
【文献】特開2011-043879(JP,A)
【文献】特開2004-302524(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
(57)【特許請求の範囲】
【請求項1】
目標物体の最初2次元画像に対して
ニューラルネットワークに基づいて3次元再構成を行って、前記最初2次元画像に対応する最初3次元物体を生成するステップと、
前記最初3次元物体の
複数の候補視角での再構成品質を決定し、前記複数の候補視角での再構成品質に基づいて、前記
複数の候補視角から前記目標物体の補充視角を選択するステップ
であり、前記再構成品質は、前記最初3次元物体と実際の前記目標物体との間の類似度を表すものである、ステップと、
前記補充視角により、前記目標物体の補充2次元画像を取得するステップと、
前記補充2次元画像に対して3次元再構成を行って、前記補充2次元画像に対応する補充3次元物体を生成するステップと、
前記最初3次元物体と前記補充3次元物体を融合して、前記目標物体の3次元再構成結果を取得するステップと、を含むことを特徴とする3次元再構成方法。
【請求項2】
目標物体の最初2次元画像に対して
ニューラルネットワークに基づいて3次元再構成を行うことは、
前記最初2次元画像から最初画像特徴を抽出するステップと、
前記最初画像特徴をボクセルニューラルネットワークによってデコードして、前記目標物体のボクセル立方体を取得するステップと、
前記ボクセル立方体に基づいて前記最初3次元物体を決定するステップと、を含むことを特徴とする請求項1に記載の3次元再構成方法。
【請求項3】
前記候補視角から前記目標物体の補充視角を選択することは、
前記最初3次元物体に対して回帰分析を行って、前記最初3次元物体の複数の候補視角での再構成品質を決定するステップと、
最悪の再構成品質に対応する候補視角を前記補充視角と決定するステップと、を含むことを特徴とする請求項1に記載の3次元再構成方法。
【請求項4】
前記最初3次元物体に対して回帰分析を行うことは第1ニューラルネットワークによって実現され、前記第1ニューラルネットワークは、
現実のトレーニング物体のトレーニング3次元物体を取得するステップと、
前記トレーニング物体のトレーニング2次元画像を取得するステップと、
前記トレーニング物体のトレーニング2次元画像に基づいて3次元再構成を行って、トレーニング再構成物体を生成するステップと、
予め設定されたトレーニング視角に基づいて、前記トレーニング再構成物体を投影して、第1投影深度マップを取得するステップと、
前記トレーニング視角に基づいて、前記トレーニング3次元物体を投影して、第2投影深度マップを取得するステップと、
前記第1投影深度マップの前記第2投影深度マップに対する相違度を計算するステップと、
前記トレーニング再構成物体を入力データとし且つ前記相違度を正解データとして、前記第1ニューラルネットワークをトレーニングするステップと、によってトレーニングして取得されることを特徴とする請求項3に記載の3次元再構成方法。
【請求項5】
前記第1投影深度マップの前記第2投影深度マップに対する相違度を計算するステップは、
前記第1投影深度マップにおける、前記トレーニング再構成物体の前記トレーニング視角での可視の各ボクセルの第1深度値を取得するステップと、
各第1深度値に対して、前記第2投影深度マップにおける、前記トレーニング3次元物体の対応ボクセルの第2深度値を取得するステップと、
前記第2深度値と前記第1深度値との間の深度差と前記第2深度値との間の比を計算するステップと、
前記第1投影深度マップにおける、前記トレーニング再構成物体の前記トレーニング視角での可視のボクセル全般に対応する比の平均値を求めて、前記相違度とするステップと、を含むことを特徴とする請求項4に記載の3次元再構成方法。
【請求項6】
前記第1ニューラルネットワークをトレーニングすることは、
前記入力データに基づいて、前記第1ニューラルネットワークに対応する出力データを取得するステップと、
前記出力データと前記正解データにより前記第1ニューラルネットワークの損失関数を計算するステップと、
前記損失関数に基づいて前記第1ニューラルネットワークのパラメータを更新するステップと、を含むことを特徴とする請求項4に記載の3次元再構成方法。
【請求項7】
前記補充視角により前記目標物体の補充2次元画像を取得するステップは、
データベースから前記補充視角に最も近い視角に対応する2次元画像を選択して、前記補充2次元画像とするステップ、又は
前記補充視角のカメラ位置姿勢に基づいてカメラを調整し、前記カメラによって前記補充2次元画像を収集するステップを含むことを特徴とする請求項1に記載の3次元再構成方法。
【請求項8】
データベースから前記補充視角に最も近い視角に対応する2次元画像を選択することは、
前記データベースに記憶された2次元画像の位置姿勢識別子を取得するステップであって、前記位置姿勢識別子は2次元画像に対応する視角のカメラ位置姿勢を識別するためのものであるステップと、
前記位置姿勢識別子により、前記2次元画像に対応する視角のカメラ位置姿勢と前記補充視角のカメラ位置姿勢との間の位置姿勢差を決定するステップと、
位置姿勢差として最小値を取った場合に、対応する2次元画像を前記補充2次元画像と決定するステップと、を含むことを特徴とする請求項7に記載の3次元再構成方法。
【請求項9】
前記最初3次元物体と前記補充3次元物体を融合した後に、
前記3次元再構成結果における可視のボクセルが占めた割合が第1割合より大きいか否かを判断するステップと、
第1割合より大きくない場合に、前記3次元再構成結果における可視のボクセルが占めた割合が前記第1割合より大きくなるまで、前記3次元再構成結果を前記最初3次元物体として、再度、補充視角に基づいて3次元再構成を行うステップと、を更に含むことを特徴とする請求項1に記載の3次元再構成方法。
【請求項10】
目標物体の最初2次元画像に対して3次元再構成を行って、前記最初2次元画像に対応する最初3次元物体を生成するように構成される第1再構成モジュールと、
前記最初3次元物体の候補視角での再構成品質に基づいて、前記候補視角から前記目標物体の補充視角を選択するように構成される補充視角モジュールと、
前記補充視角により、前記目標物体の補充2次元画像を取得するように構成される補充画像モジュールと、
前記補充2次元画像に対して3次元再構成を行って、前記補充2次元画像に対応する補充3次元物体を生成するように構成される第2再構成モジュールと、
前記最初3次元物体と前記補充3次元物体を融合して、前記目標物体の3次元再構成結果を取得するように構成される融合モジュールと、を備えることを特徴とする3次元再構成装置。
【請求項11】
プロセッサと、コンピュータプログラム命令を記憶したメモリとを備える3次元再構成システムにおいて、前記コンピュータプログラム命令が前記プロセッサにより実行される時に、請求項1~9のいずれか一項に記載の3次元再構成方法を実行することを特徴とする3次元再構成システム。
【請求項12】
プログラム命令を記憶した記憶媒体において、前記プログラム命令が実行される時に、請求項1~9のいずれか一項に記載の3次元再構成方法を実行することを特徴とする記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータビジョンの技術分野に関し、より具体的には、3次元再構成方法、装置、システム及び記憶媒体に関するものである。
【背景技術】
【0002】
3次元再構成は、既知の2次元画像に基づいて対応する3次元物体を生成するプロセスである。2次元画像は特定のカメラ視角で撮影した目標物体であるので、この特定のカメラ視角での目標物体特徴だけを反映でき、目標物体の特徴全般を呈示できない。理論から言えば、目標物体撮影時に選択したカメラ視角が多いほど、再構成で生成した3次元物体の目標物体に対する復元度が高くなり、再構成品質がよくなる。
【0003】
しかしながら、実際の操作では、コンピュータリソース費用、時間費用、人件費等の要因を考慮すると、大量の2次元画像に対して3次元再構成を無限に行うことが不可能である。従って、どのように適切な視角での2次元画像を選択し、且つ選択された2次元画像に基づいて3次元再構成を行うかは、当業者が迫って解決しようとする技術的問題となっている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は上記の問題に鑑みてなされたものである。
【課題を解決するための手段】
【0005】
本発明の一側面によれば、3次元再構成方法を提供する。前記方法は、
目標物体の最初2次元画像に対して3次元再構成を行って、前記最初2次元画像に対応する最初3次元物体を生成するステップと、
前記最初3次元物体の候補視角での再構成品質に基づいて、前記候補視角から前記目標物体の補充視角を選択するステップと、
前記補充視角により、前記目標物体の補充2次元画像を取得するステップと、
前記補充2次元画像に対して3次元再構成を行って、前記補充2次元画像に対応する補充3次元物体を生成するステップと、
前記最初3次元物体と前記補充3次元物体を融合して、前記目標物体の3次元再構成結果を取得するステップと、を含む。
【0006】
例として、目標物体の最初2次元画像に対して3次元再構成を行うことは、
前記最初2次元画像から最初画像特徴を抽出するステップと、
前記最初画像特徴をボクセルニューラルネットワークによってデコードして、前記目標物体のボクセル立方体を取得するステップと、
前記ボクセル立方体に基づいて前記最初3次元物体を決定するステップと、を含む。
【0007】
例として、前記候補視角から前記目標物体の補充視角を選択することは、
前記最初3次元物体に対して回帰分析を行って、前記最初3次元物体の複数の候補視角での再構成品質を決定するステップと、
最悪の再構成品質に対応する候補視角を前記補充視角と決定するステップと、を含む。
【0008】
例として、前記最初3次元物体に対して回帰分析を行うことは第1ニューラルネットワークによって実現され、前記第1ニューラルネットワークは、
現実のトレーニング物体のトレーニング3次元物体を取得するステップと、
前記トレーニング物体のトレーニング2次元画像を取得するステップと、
前記トレーニング物体のトレーニング2次元画像に基づいて3次元再構成を行って、トレーニング再構成物体を生成するステップと、
予め設定されたトレーニング視角に基づいて、前記トレーニング再構成物体を投影して、第1投影深度マップを取得するステップと、
前記トレーニング視角に基づいて、前記トレーニング3次元物体を投影して、第2投影深度マップを取得するステップと、
前記第1投影深度マップの前記第2投影深度マップに対する相違度を計算するステップと、
前記トレーニング再構成物体を入力データとし且つ前記相違度を正解データとして、前記第1ニューラルネットワークをトレーニングするステップと、によってトレーニングして取得される。
【0009】
例として、前記第1投影深度マップの前記第2投影深度マップに対する相違度を計算するステップは、
前記第1投影深度マップにおける、前記トレーニング再構成物体の前記トレーニング視角での可視の各ボクセルの第1深度値を取得するステップと、
各第1深度値に対して、前記第2投影深度マップにおける、前記トレーニング3次元物体の対応ボクセルの第2深度値を取得するステップと、
前記第2深度値と前記第1深度値との間の深度差と前記第2深度値との間の比を計算するステップと、
前記第1投影深度マップにおける、前記トレーニング再構成物体の前記トレーニング視角での可視のボクセル全般に対応する比の平均値を求めて、前記相違度とするステップと、を含む。
【0010】
例として、前記第1ニューラルネットワークをトレーニングすることは、
前記入力データに基づいて、前記第1ニューラルネットワークに対応する出力データを取得するステップと、
前記出力データと前記正解データにより前記第1ニューラルネットワークの損失関数を計算するステップと、
前記損失関数に基づいて前記第1ニューラルネットワークのパラメータを更新するステップと、を含む。
【0011】
例として、前記補充視角により前記目標物体の補充2次元画像を取得するステップは、
データベースから前記補充視角に最も近い視角に対応する2次元画像を選択して、前記補充2次元画像とするステップ、又は
前記補充視角のカメラ位置姿勢に基づいてカメラを調整し、前記カメラによって前記補充2次元画像を収集するステップを含む。
【0012】
例として、データベースから前記補充視角に最も近い視角に対応する2次元画像を選択することは、
前記データベースに記憶された2次元画像の位置姿勢識別子を取得するステップであって、前記位置姿勢識別子は2次元画像に対応する視角のカメラ位置姿勢を識別するためのものであるステップと、
前記位置姿勢識別子により、前記2次元画像に対応する視角のカメラ位置姿勢と前記補充視角のカメラ位置姿勢との間の位置姿勢差を決定するステップと、
位置姿勢差として最小値を取った場合に、対応する2次元画像を前記補充2次元画像と決定するステップと、を含む。
【0013】
例として、前記最初3次元物体と前記補充3次元物体を融合した後に、前記3次元再構成方法は、
前記3次元再構成結果における可視のボクセルが占めた割合が第1割合より大きいか否かを判断するステップと、
第1割合より大きくない場合に、前記3次元再構成結果における可視のボクセルが占めた割合が前記第1割合より大きくなるまで、前記3次元再構成結果を前記最初3次元物体として、再度補充視角に基づいて3次元再構成を行うステップと、を更に含む。
【0014】
本発明の別の側面によれば、更に、
目標物体の最初2次元画像に対して3次元再構成を行って、前記最初2次元画像に対応する最初3次元物体を生成するように構成される第1再構成モジュールと、
前記最初3次元物体の候補視角での再構成品質に基づいて、前記候補視角から前記目標物体の補充視角を選択するように構成される補充視角モジュールと、
前記補充視角により、前記目標物体の補充2次元画像を取得するように構成される補充画像モジュールと、
前記補充2次元画像に対して3次元再構成を行って、前記補充2次元画像に対応する補充3次元物体を生成するように構成される第2再構成モジュールと、
前記最初3次元物体と前記補充3次元物体を融合して、前記目標物体の3次元再構成結果を取得するように構成される融合モジュールと、を備える3次元再構成装置を提供する。
【0015】
本発明の更に別の側面によれば、更に、プロセッサと、コンピュータプログラム命令を記憶したメモリとを備える3次元再構成システムにおいて、前記コンピュータプログラム命令が前記プロセッサにより実行される時に、上記の3次元再構成方法を実行する3次元再構成システムを提供する。
【0016】
本発明の更に別の側面によれば、更に、プログラム命令を記憶した記憶媒体において、前記プログラム命令が実行される時に、上記の3次元再構成方法を実行する記憶媒体を提供する。
【発明の効果】
【0017】
本発明実施例の技術的解決手段によれば、3次元物体の再構成品質により補充視角を決定し、補充視角での2次元画像を用いて3次元再構成を行い、これによって少ない2次元画像で高品質の再構成3次元物体を得ることができる。
【0018】
以上は本発明の技術的解決手段を概略的に説明したが、本発明の技術的手段をより明瞭に理解して明細書の内容に基づいて実施できるように、且つ本明細書の上記及び他の目的、特徴及びメリットをより分かりやすくするために、以下において、特に本発明の具体的実施形態を挙げる。
【図面の簡単な説明】
【0019】
図面を参照しながら本発明の実施例をより詳細に説明することによって、本発明の上記及び他の目的、特徴及びメリットはより明らかになる。図面は本発明の実施例を更に理解させ、明細書の一部を構成するためのものであり、本発明の実施例と共に本発明を解釈するために用いられるが、本発明を限定するものとならない。図面において、同じ参照符号は通常同じ部材又はステップを表す。
【
図1】本発明の一実施例に係る3次元再構成方法の模式的フローチャートを示す。
【
図2】本発明の一実施例に係る補充視角選択の模式的フローチャートを示す。
【
図3】本発明の一実施例に係る第1ニューラルネットワークの取得の模式的フローチャートを示す。
【
図4】本発明の一実施例に係る相違度計算の模式的フローチャートを示す。
【
図5】本発明の一実施例に係る第1ニューラルネットワークのトレーニングの模式的フローチャートを示す。
【
図6】本発明の一実施例に係る第1ニューラルネットワークのトレーニングの模式的ブロック図を示す。
【
図7】本発明の一実施例に係るデータベースからの補充2次元画像の選択の模式的フローチャートを示す。
【
図8】本発明の別の実施例に係る3次元再構成方法の模式的フローチャートを示す。
【
図9】本発明の一実施例に係る3次元再構成装置の模式的ブロック図を示す。
【
図10】本発明の一実施例に係る3次元再構成用システムの模式的ブロック図を示す。
【発明を実施するための形態】
【0020】
本発明の目的、技術的解決手段及びメリットをより明らかにするために、以下、図面を参照しながら本発明に係る例示的実施例を詳細に説明する。当然ながら、説明される実施例は本発明の一部の実施例に過ぎず、本発明の全ての実施例ではなく、理解すべきなのは、本発明がここに記載の例示的実施例に限定されるものではないことである。本発明に記載の本発明実施例に基づき、当業者が創造的労働を行わずに得た他の全ての実施例は、いずれも本発明の保護範囲に含まれるものとする。
【0021】
本明細書に記載の3次元再構成手段は、最初2次元画を基に、この最初2次元画像の再構成品質のフィードバックにより、更に意義のある補充視角での2次元画像を選択し、最初視角の2次元画像と補充視角の2次元画像の両方に基づいて3次元再構成を行って、少ない2次元画像で再構成品質に優れる再構成3次元物体を得ることに用いられる。
【0022】
図1は本発明の一実施例に係る3次元再構成方法100の模式的フローチャートを示す。
図1に示すように、前記方法100は下記のステップS110、ステップS120、ステップS130、ステップS140及びステップS150を含む。
【0023】
S110で、目標物体の最初2次元画像に対して3次元再構成を行って、前記最初2次元画像に対応する最初3次元物体を生成する。
【0024】
最初2次元画像はカメラ又はビデオカメラ等の撮像装置を用いて直接収集した目標物体の画像であってよい。最初2次元画像は前処理操作をなされた画像であってもよい。例として、収集された画像にフィルタリング等の前処理操作を施して、より優れた品質の最初2次元画像を取得してもよい。最初2次元画像は、単一視角で得られた1枚の画像であってもよいし、複数の異なる視角で得られた複数枚の画像であってもよい。
【0025】
いかなる既に存在する又は未来に向けて研究開発された既知2次元画像に基づく3次元再構成の方法を用いて、ステップS110の3次元再構成を実現して最初3次元物体を生成することができ、例えば、ニューラルネットワークに基づく3次元再構成方法が挙げられる。
【0026】
生成した最初3次元物体と最初2次元画像は対応関係にある。この最初3次元物体は、ポイントクラウド(Point Cloud)、メッシュ(Mesh)、ボクセル(Voxel)又は深度マップ(Depth map)等で表現できる。本発明の具体的な一例において、ボクセルによって最初3次元物体を表現する。ボクセルによる表現形態は、目標物体所在空間を複数の立体格子からなるボクセル立方体と見なし、各立体格子の値がこの格子所在空間位置に物体がボクセルを有するか否かを示すようになっている。例えば、値が0の場合に物体が対応格子所在空間位置にボクセルを有しないことを示し、値が1の場合にボクセルを有することを示す。
【0027】
S120で、前記最初3次元物体の候補視角での再構成品質に基づいて、前記候補視角から前記目標物体の補充視角を選択する。
【0028】
各2次元画像はそれぞれ1つの対応カメラ視角があることが理解可能であり、このカメラ視角はカメラがこの2次元画像を収集した時の視角である。カメラ視角はカメラ位置姿勢によって決定され、カメラ位置姿勢によってカメラ視角を表現できる。カメラ位置姿勢はカメラが2次元画像を収集した時の位置と姿勢である。各種の座標系に基づいてカメラ位置姿勢を表現できる。以下に球面座標系を例としてカメラ位置姿勢を説明する。例として、物体所在位置を球面座標系の原点としてよく、カメラ位置姿勢をベクトルRとTで表してよい。R=[α,β]であり、ただし、αはカメラの方位角を表し、βはカメラの仰角を表し、Tはカメラと物体との間の距離ρを表す。
【0029】
世界座標系と上記球面座標系との間には対応する変換関係が存在することは当業者に理解される。例えば、あるカメラの世界座標系での座標(x,y,z)を知っていれば、xがカメラのX軸での座標を表し、yがカメラのY軸での座標を表し、zがカメラのZ軸での座標を表し、これに対して、このカメラの球面座標系での方位角α、仰角β及び距離ρを対応的に知ることができる。
【0030】
与えられた最初2次元画像については、最初2次元画像に対応するカメラパラメータにより、この画像を生成した時のカメラ位置姿勢を決定できることは当業者に理解される。説明を簡単にするために、最初2次元画像のカメラ位置姿勢に対応する視角を第1視角と称する。
【0031】
最初2次元画像の第1視角を知った上で、当該ステップは再構成品質に基づいて候補視角から第1視角と異なる1つの新しい補充視角を決定する。言い換えると、補充視角のカメラ位置姿勢は第1視角のカメラ位置姿勢と異なる。
【0032】
再構成品質は、再構成で生成した最初3次元物体と実際の目標物体との間の類似度を表す。最初3次元物体の特定視角での再構成品質は、最初3次元物体のこの特定視角での可視の部分と目標物体における対応部分との間の類似度を表す。最初3次元物体は異なる視角で再構成品質が異なる。最初3次元物体は第1視角で再構成品質が最もよく、その原因は最初3次元物体における第1視角での可視の部分には最初2次元画像からの信頼的情報が最も多く含まれていることである。最初3次元物体は他の視角での可視の部分には最初2次元画像に存在しない予測情報を多かれ少なかれ含んでいるので、再構成品質がやや悪い。
【0033】
例として、所定規則により、再構成品質に基づいて候補視角から補充視角を選択できる。例えば、再構成品質が所定閾値範囲にある候補視角を選択して補充視角とする。
【0034】
S130で、前記補充視角により、前記目標物体の補充2次元画像を取得する。
【0035】
補充視角のカメラ位置姿勢を決定した上で、当該ステップでは目標物体に対応する補充2次元画像を取得する。1つの目標物体に対して、複数の異なる視角から画像を撮影して、異なる視角での2次元画像を複数枚取得できることが理解可能である。補充視角を決定した上で、多種の方式でこの視角での2次元画像を取得できる。例えば、大量の目標物体の2次元画像を記憶したデータベースから目標画像を選択して補充2次元画像とする。この目標画像の視角は補充視角と同じで又は類似する。更に例えば、決定された補充視角によりカメラ位置姿勢を調整し、カメラに補充視角の位置姿勢で目標物体を再度撮影させて、目標物体の補充視角での補充2次元画像を得る。
【0036】
S140で、前記補充2次元画像に対して3次元再構成を行って、前記補充2次元画像に対応する補充3次元物体を生成する。
【0037】
当該ステップはステップS110で実行した操作に類似するが、ただステップS110で最初2次元画像を操作し、当該ステップS140で補充2次元画像を操作する点で相違する。簡素化するために、繰り返して説明しない。
【0038】
一例において、この補充3次元物体はボクセルの形式で表すこともある。補充2次元画像には最初2次元画像情報に存在しない信頼的情報が含まれているので、生成した補充3次元物体における補充視角での可視ボクセルが必ず最初3次元物体における第1視角での可視ボクセルと異なることが理解可能である。
【0039】
S150で、前記最初3次元物体と前記補充3次元物体を融合して、前記目標物体の3次元再構成結果を取得する。
【0040】
例として、最初3次元物体と補充3次元物体のボクセルに対して和集合を取る方式で目標物体の最終3次元再構成結果を決定することができる。空間における任意の位置にとって、最初3次元物体又は補充3次元物体のうちのいずれか一方がこの位置にボクセルを有すれば、3次元再構成結果がこの位置にボクセルを有すると決定する。
【0041】
代わりに、最初3次元物体と補充3次元物体のボクセルに対して共通部分を取る方式で目標物体の最終の3次元再構成結果を決定することもできる。空間における任意の位置にとって、最初3次元物体と補充3次元物体の両者が共にこの位置にボクセルを有する場合のみ、3次元再構成結果がこの位置にボクセルを有すると決定する。
【0042】
上記技術的解決手段において、最初3次元物体の各視角での再構成品質は視角のサンプリング品質に関してフィードバックした。従って、フィードバック結果に応じてより合理的な補充視角を決定でき、最初3次元物体と補充視角での補充2次元画像を用いて再構成した補充3次元物体を融合して、最終の3次元再構成結果を取得する。これによって、3次元再構成プロセスで更に目標に合わせて画像を選択でき、これで3次元再構成効率を高くし、3次元再構成品質を向上させる。
【0043】
例として、上記ステップS110は下記のステップS111、ステップS112及びステップS113を含んでよい。
【0044】
S111で、最初2次元画像から最初画像特徴を抽出する。例えば、畳み込みニューラルネットワーク(CNN)からなるエンコーダを用いて最初2次元画像から最初画像特徴を抽出できる。最初画像特徴は複数の特徴ベクトルを含んでよい。その中で、各特徴ベクトルは最初2次元画像における対応画素点に対応する。単一の最初2次元画像を例とすると、この最初2次元画像からH×W個の特徴ベクトル(Hが最初2次元画像の高さを表し、Wが最初2次元画像の幅を表す)を抽出できる。各特徴ベクトルは次元がいずれもCである。
【0045】
S112で、前記最初画像特徴をボクセルニューラルネットワークによってデコードして、前記目標物体のボクセル立方体を取得する。ボクセルニューラルネットワークは、最初画像特徴に基づいて複数の立体格子からなるボクセル立方体を出力するための複数の2D畳み込み層を含んでよい。
【0046】
S113で、前記ボクセル立方体に基づいて前記最初3次元物体を決定する。当該ステップにおいて、ボクセル立方体中の格子の値によりこの格子の所在する空間位置にボクセルが存在するか否かを決定する。ボクセルが存在する格子全般は最初3次元物体を構成する。
【0047】
ボクセル立方体によって最初3次元物体を決定することで、最初2次元画像における情報を効果的に利用でき、生成する最初3次元物体を更に目標物体に近接させる。
【0048】
上述したように、ステップS120で、前記最初3次元物体の候補視角での再構成品質に基づいて、前記候補視角から前記目標物体の補充視角を選択する。
図2は本発明の一実施例に係る補充視角を選択するステップS120の模式的フローチャートを示す。
図2に示すように、補充視角を選択するステップS120は具体的には下記のステップS121及びステップS122を含んでよい。
【0049】
S121で、前記最初3次元物体に対して回帰分析を行って、前記最初3次元物体の複数の候補視角での再構成品質を決定する。
【0050】
上述した回帰分析は第1ニューラルネットワークによって実現できる。第1ニューラルネットワークは、入力された任意の再構成3次元物体に対して、この再構成3次元物体のそれぞれの異なる視角での再構成品質を決定、出力するためのものである。最初3次元物体を第1ニューラルネットワークに入力し、第1ニューラルネットワークによってこの最初3次元物体の複数の候補視角での再構成品質を予測することができる。
【0051】
本発明における複数の候補視角は予め設定されたものであってよく、それぞれ異なるカメラ位置姿勢に対応する。各候補視角のカメラ位置姿勢は球面座標系における方位角と仰角で表してよい。例として、最初3次元物体を座標系原点とした上で、方位角αが集合[0,45,90,135,180,225,270,315]中の元素で、仰角βが集合[-60,-30,0,30,60]中の元素で、距離が1であるカメラ位置姿勢を選択して候補視角のカメラ位置姿勢とする。
【0052】
再構成物体の候補視角での再構成品質は多種の方式で評価できる。
【0053】
一例において、再構成物体のある視角での可視のボクセルが占めた割合によってこの再構成物体のこの視角での再構成品質を評価できる。いわゆる視角での可視のボクセルが占めた割合とは、再構成した3次元物体のこの視角での可視ボクセルのうち第1視角での可視のボクセルともなるボクセルの個数が占めた割合である。例えば、最初3次元物体はある候補視角で可視のボクセル個数がn個であり、且つこれらn個のボクセルのうち第1視角での可視のボクセルともなるボクセルの個数がN個である場合に、この最初3次元物体はこの候補視角での可視度がN/nである。可視のボクセルが占めた割合が高いほど、再構成品質が優れる。
【0054】
別の実施例では、再構成物体の視角での投影深度マップ相違度によって再構成品質を評価できる。投影深度マップにおける最初3次元物体の画素がそれぞれ最初3次元物体の所定視角での可視のボクセルに対応することが理解可能である。最初3次元物体におけるそれぞれの可視のボクセルと投影平面との間の距離がこの可視のボクセルに対応する深度値であり、即ち投影深度マップにおける対応画素の画素値である。例えば、最初3次元物体はある候補視角で可視ボクセルPを含み、この可視ボクセルPと投影平面との間の距離がdであり、この可視ボクセルPの投影深度マップでの対応画素がP’であり、このようにこの投影深度マップにおける画素P’の画素値がdである。
【0055】
深度マップ相違度とは最初3次元物体のある視角での深度マップと目標物体のこの視角での深度マップとの間の相違度を指す。相違度が大きいほど、この視角で最初3次元物体と目標物体との違いが大きいことを意味するので、再構成品質が悪く、相違度が小さいほど、この視角で最初3次元物体と目標物体との違いが小さいことを意味するので、再構成品質が優れることが理解可能である。
【0056】
S122で、最悪の再構成品質に対応する候補視角を前記補充視角と決定する。
【0057】
回帰分析によって最初3次元物体の各視角での再構成品質を決定し、且つ最悪の再構成品質に対応する候補視角を補充視角とする。これによって、この補充視角により補充2次元画像を取得し、且つ補充2次元画像に基づいて再度3次元再構成を行う。このようにしてより効果的に最初3次元物体における品質欠陥を補うことができ、再構成品質を向上させる。
【0058】
上述したように、第1ニューラルネットワークによって最初3次元物体の特定視角での再構成品質を予測できる。この第1ニューラルネットワークはトレーニングによって取得できる。
図3は本発明の一実施例に係る第1ニューラルネットワークのトレーニングの模式的フローチャートを示す。
図3に示すように、第1ニューラルネットワークは下記のステップS310、ステップS320、ステップS330、ステップS340、ステップS350、ステップS360及びステップS370によって取得される。
【0059】
S310で、現実のトレーニング物体のトレーニング3次元物体を取得する。
【0060】
現実のトレーニング物体は、例えば、立方体、球体、円柱体等、実際に存在する特定の形状と体積を有する物体である。好適なトレーニング効果を達成するために、自動車モデル、建物モデル等のような形状が不規則な物体が好ましい。
【0061】
更に、現実のトレーニング物体をコンピュータに認識可能な数学モデルに処理してもよい。一例において、スキャナによってトレーニング物体を走査してそのポイントクラウドデータを取得してもよい。また、手動によるモデル構築の方式で現実のトレーニング物体を対応する数学モデルに変換してもよい。本発明はトレーニング物体のトレーニング3次元物体を取得する方式を限定しない。
【0062】
S320で、前記トレーニング物体のトレーニング2次元画像を取得する。
【0063】
カメラ又はビデオカメラ等の撮影装置を用いて、直接トレーニング物体の異なる視角での写真を収集してトレーニング2次元画像としてもよい。収集された写真にフィルタリング処理のような前処理を行って、前処理後の写真をトレーニング2次元画像としてもよく、本発明はこれを限定しない。
【0064】
S330で、前記トレーニング物体のトレーニング2次元画像に基づいて3次元再構成を行って、トレーニング再構成物体を生成する。
【0065】
従来の3次元再構成技術を用いてトレーニング2次元画像に対して3次元再構成を行うことができる。一例において、まず、畳み込みニューラルネットワークからなるエンコーダを用いてトレーニング2次元画像から画像特徴を抽出し、次に、畳み込みニューラルネットワークからなるデコーダを用いて画像特徴をデコードして、トレーニング2次元画像に基づくトレーニング再構成物体を決定する。このステップはステップS110に類似し、簡素化するために、ここで詳細な説明を省略する。
【0066】
S340で、予め設定されたトレーニング視角に基づいて、前記トレーニング再構成物体を投影して、第1投影深度マップを取得する。
【0067】
予め設定されたトレーニング視角は固定カメラ位置姿勢に対応する視角であってよい。例として、トレーニング再構成物体を座標系原点とした上で、方位角αが集合[0,45,90,135,180,225,270,315]中の元素で、仰角βが集合[-60,-30,0,30,60]中の元素で、距離が1であるカメラ位置姿勢を選択してトレーニング視角のカメラ位置姿勢とする。
【0068】
予め設定されたトレーニング視角に基づいてトレーニング再構成物体を投影することは、トレーニング再構成物体における可視のボクセルを投影平面における画素にマッピングすることに相当する。一例において、投影平面はカメラ撮影平面である。上記の可視のボクセルから投影平面までの距離は投影深度マップにおける対応画素の画素値である。説明を簡単にするために、トレーニング再構成物体に基づいて生成した投影深度マップを第1投影深度マップと称する。
【0069】
一例において、トレーニング再構成物体における、トレーニング視角で投影平面に最も近いボクセルに基づいて投影深度マップを決定できる。ここで、投影平面はカメラが所在する、トレーニング視角に垂直な平面であってよい。トレーニング視角がX軸の方向であると仮定すると、下式によってトレーニング再構成物体におけるトレーニング視角で投影平面に最も近いボクセルを決定できる。
【0070】
d(y,z)=argmin(P(:,y,z))
ここで、P(:,y,z)>0
ここで、P(:,y,z)はトレーニング再構成物体における、Y軸座標がyで、Z軸座標がzで、X軸と平行する直線にある全てのボクセルを表す。トレーニング再構成物体がある位置(x,y,z)にボクセルを有する時に、P(x,y,z)=1であり、逆には、P(x,y,z)=0である。P(:,y,z)>0のように限定した場合に、argmin(P(:,y,z))はトレーニング再構成物体における、前記直線にあるボクセルから投影平面までの距離の最小値を表す。上式によれば、P(:,y,z)>0のm個のボクセルが存在し、且つm個のボクセルのX軸座標がそれぞれ{x1,x2,…,xm}であると仮定すると、d(y,z)としてはこれらのX軸座標の最小値を取り、即ち、min{x1,x2,…,xm}に等しい。このため、この直線にトレーニング再構成物体の投影が存在する。逆には、P(:,y,z)>0のボクセルが存在しないと仮定すると、d(y,z)=0である。このため、この直線にトレーニング再構成物体の投影が存在しない。以上をまとめると、トレーニング再構成物体のトレーニング視角での投影深度マップを取得できる。
【0071】
S350で、前記トレーニング視角に基づいて、前記トレーニング3次元物体を投影して、第2投影深度マップを取得する。
【0072】
上述したように、トレーニング3次元物体は実際に存在する物体に基づいて生成した数学モデルである。一例において、予め設定されたトレーニング視角に基づいてトレーニング3次元物体を投影することは、トレーニング3次元物体における可視のボクセルを投影平面における画素にマッピングすることに相当する。ここの投影平面はカメラの撮影平面であってよい。上記の可視のボクセルから投影平面までの距離は投影深度マップにおける対応画素の画素値である。この例において、トレーニング3次元物体に基づいて生成した投影深度マップを第2投影深度マップとする。
【0073】
S360で、前記第1投影深度マップの前記第2投影深度マップに対する相違度を計算する。
【0074】
一例において、相違度は第1投影深度マップの第2投影深度マップに対する違いを表現するためのものである。上述したように、相違度はトレーニング再構成物体の再構成品質を評価することに利用可能である。相違度が大きいほど、トレーニング再構成物体と目標3次元物体との違いが大きいことを意味するので、再構成品質が悪く、相違度が小さいほど、トレーニング再構成物体と目標3次元物体との違いが小さいことを意味するので、再構成品質が優れる。
【0075】
例として、第1投影深度マップと第2投影深度マップにおける各対応画素の差値の和を前記相違度としてよい。
【0076】
S370で、前記トレーニング再構成物体を入力データとし且つ前記相違度を正解データ(ground truth)として、前記第1ニューラルネットワークをトレーニングする。これによって、入力された任意の再構成物体に対して、第1ニューラルネットワークはこの再構成物体のトレーニング視角での相違度を出力できる。このようにして、出力された相違度によりこの再構成物体のこのトレーニング視角での再構成品質を決定できる。
【0077】
上記技術的解決手段において、投影深度マップの相違度によって第1ニューラルネットワークをトレーニングすることで、第1ニューラルネットワークは再構成物体の再構成品質を正確に決定できる。更に、この再構成品質により取得する最終再構成結果の正確性を確保する。
【0078】
上述したように、第1投影深度マップの第2投影深度マップに対する相違度を正解データとして第1ニューラルネットワークをトレーニングできる。
図4は本発明の一実施例に係る相違度を計算する上記ステップS360の模式的フローチャートを示す。
図4に示すように、相違度計算は下記のステップS361、ステップS362、ステップS363及びステップS364を含む。
【0079】
S361で、前記第1投影深度マップにおける、前記トレーニング再構成物体の前記トレーニング視角での可視の各ボクセルの第1深度値を取得する。
【0080】
上述したように、第1投影深度マップにおける画素値は、トレーニング再構成物体におけるトレーニング視角での可視の対応ボクセルの深度値を表す。一例において、第1投影深度マップにおける深度値を第1深度値とする。
【0081】
S362で、各第1深度値に対して、前記第2投影深度マップにおける、前記トレーニング3次元物体の対応ボクセルの第2深度値を取得する。
【0082】
上述したように、第2投影深度マップにおける画素値は、トレーニング3次元物体におけるトレーニング視角での可視の対応ボクセルの深度値を表す。トレーニング再構成物体とトレーニング3次元物体がいずれも同一のトレーニング物体に基づいて取得されたものであるので、第1投影深度マップにおける各画素に対して、第2投影深度マップにおける対応画素を取得でき、更にその画素値を第2深度値とする。
【0083】
例えば、ステップS361において、第1投影深度マップにおけるボクセルPの第1深度値Dが既に取得されており、このように当該ステップS362において、第2投影深度マップにおける、ボクセルPに対応するボクセルP’に対応する第2深度値D’を取得する。
【0084】
S363で、前記第2深度値と前記第1深度値との間の深度差と前記第2深度値との間の比を計算する。
【0085】
やはり上記の例で説明し、ステップS362では第1深度値Dと第2深度値D’が既に知られているため、第2深度値と第1深度値との間の深度差がD’-Dとなり、更に、深度差と第2深度値との間の比が(D’-D)/D’となる。
【0086】
S364で、前記第1投影深度マップにおける、前記トレーニング再構成物体の前記トレーニング視角での可視のボクセル全般に対応する比の平均値を求めて、前記相違度とする。
【0087】
第1投影深度マップと第2投影深度マップには複数のボクセルが含まれており、これに対して、複数の相違度が得られることが理解可能である。これに基づき、一例において、mean関数によって複数の相違度の平均値を求め、mean[(D’-D)/D’]を最終相違度とする。
【0088】
上記技術的解決手段において、投影深度マップにおける深度値の差と真実の投影深度値との間の比を再構成品質評価のための相違度とした。それは再構成品質に対する表現能力が強く、これによって、取得される再構成品質がより正確になり、更に最終再構成結果をより正確にする。
【0089】
上述したように、ステップS370において前記トレーニング再構成物体を入力データとし且つ前記相違度を正解データとして、前記第1ニューラルネットワークをトレーニングできる。
図5は本発明の一実施例に係る第1ニューラルネットワークをトレーニングするステップS370の模式的フローチャートを示す。
図5に示すように、第1ニューラルネットワークをトレーニングするステップS370は下記のステップS371、ステップS372及びステップS373を含む。
【0090】
S371で、前記入力データに基づいて、前記第1ニューラルネットワークに対応する出力データを取得する。
【0091】
入力データとなるトレーニング再構成物体を第1ニューラルネットワークに入力し、第1ニューラルネットワークの計算によって出力データを取得する。第1ニューラルネットワークは入力された任意の再構成物体に対して、この再構成物体のトレーニング視角での相違度を出力できる。一例において、前記入力データは任意の再構成物体であってよく、前記出力データはこの再構成物体のトレーニング視角での深度マップ相違度であってよい。
【0092】
S372で、前記出力データと前記正解データにより前記第1ニューラルネットワークの損失関数を計算する。
【0093】
上述したように、正解データは第1投影深度マップと第2投影深度マップとの間の相違度であり、その中で、第1投影深度マップはトレーニング再構成物体に基づいて生成したものであり、第2投影深度マップはトレーニング3次元物体に基づいて生成したものである。
【0094】
第1ニューラルネットワークの出力データがYであり、以上で算出された正解データがY0であると仮定すると、二者により損失関数を決定できる。損失関数は出力データYと正解データY0との間の違いを表す。本願の実施例では、交差エントロピー損失関数、指数損失関数及び二乗損失関数等のうちの1種を利用できる。
【0095】
S373で、前記損失関数に基づいて前記第1ニューラルネットワークのパラメータを更新する。当該ステップにおいて、第1ニューラルネットワークにおける関連パラメータを調整することによって、損失関数を最小値にすることができる。これによって、トレーニングが終了した後、第1ニューラルネットワークは入力された任意の再構成物体に対して、比較的正確なトレーニング視角での相違度を出力できる。一例において、所定視角は40個を含み、第1ニューラルネットワークは対応する40視角での相違度を出力する。
【0096】
上記トレーニングステップによって、第1ニューラルネットワークの出力データをより正確にできる。更に、最終再構成結果を更に正確にする。
【0097】
図6は本発明の一実施例に係る第1ニューラルネットワークのトレーニングの模式的ブロック図を示す。
図6に示すように、入力データ610を第1ニューラルネットワーク620に入力したら、出力データ630が得られる。正解データ640は出力データ630と比較するための基準データであり、出力データ630と正解データ640との間の差により損失関数650を得、第1ニューラルネットワーク620中のパラメータを調整することで損失関数650の値を変更し、これによって出力データ630を更に正解データ640に近接させる。一例において、入力データ610は3次元再構成技術で生成した任意の3次元再構成物体であり、出力データ630は前記3次元再構成物体の所定の複数の視角での深度マップ相違度であり、正解データ640は既知のトレーニングデータにより算出された、3次元再構成物体の所定の複数の視角での深度マップ相違度であり、損失関数650は二乗損失関数である。
【0098】
補充視角を決定した上で、上記ステップS130において目標物体の補充2次元画像を取得する。多種の方式で補充2次元画像を取得できる。一例において、前記補充視角のカメラ位置姿勢に基づいてカメラを調整し、前記カメラによって前記補充2次元画像を収集する。例えば、目標物体所在位置を座標原点とし、球面座標系における補充視角のカメラ位置姿勢が(α0,β0,ρ0)であることを知っていれば、α0がカメラの方位角を表し、β0がカメラの仰角を表し、ρ0がカメラから座標原点までの直線距離を表し、このようにカメラを(α0,β0,ρ0)に対応する位置と姿勢に調整して目標物体の画像を収集させて、補充2次元画像を取得することができる。この例において、カメラで補充2次元画像を収集して、補充2次元画像が補充視角にあるものであることを確保できる。これによって、補充2次元画像の情報がより十分になり、更に最終再構成結果の正確度がより高くなる。
【0099】
別の例において、データベースから前記補充視角に最も近い視角に対応する2次元画像を選択して、前記補充2次元画像とする。
図7は本発明の一実施例に係るデータベースからの補充2次元画像の選択の模式的フローチャートを示す。
図7に示すように、補充2次元画像を選択するステップはステップS131、ステップS132及びステップS133を含む。
【0100】
S131で、前記データベースに記憶された2次元画像の位置姿勢識別子を取得し、前記位置姿勢識別子は2次元画像に対応する視角のカメラ位置姿勢を識別するためのものである。
【0101】
データベースは2次元画像を記憶する時に、この2次元画像に対応する位置姿勢識別子を同時に記憶でき、この位置姿勢識別子は上記2次元画像を収集した時に対応するカメラ位置姿勢であってよい。データベースから2次元画像を取得する時に、この2次元画像に対応する位置姿勢識別子を一括取得できる。
【0102】
S132で、前記位置姿勢識別子により、前記2次元画像に対応する視角のカメラ位置姿勢と前記補充視角のカメラ位置姿勢との間の位置姿勢差を決定する。
【0103】
一例において、被撮影物体の所在位置を球面座標系の原点とし、カメラの方位角α、仰角β及び原点までの距離ρで2次元画像に対応するカメラ位置姿勢を表す。2次元画像に対応する視角のカメラ位置姿勢が(α1,β1,ρ1)で、補充視角のカメラ位置姿勢が(α2,β2,ρ2)であると仮定すると、両者間の位置姿勢差は(α1-α2,β1-β2,ρ1-ρ2)で表してもよい。
【0104】
S133で、位置姿勢差として最小値を取った場合に、対応する2次元画像を前記補充2次元画像と決定する。
【0105】
上記の例において、位置姿勢差は方位角差、仰角差及び距離差で形成した3次元ベクトルであった。位置姿勢差の大きさを表すために、上記3次元ベクトルを1つの数値に正規化してもよい。一例において、方位角差、仰角差及び距離差の平方和を求めてもよく、得られた平方和を位置姿勢差として、位置姿勢差の大きさを比較する。最も好ましくは位置姿勢差が0であり、この時に2次元画像に対応する視角のカメラ位置姿勢と補充視角のカメラ位置姿勢が完全に重なり合うことが理解できる。データベースから位置姿勢差が0の2次元画像を取得できない場合に、位置姿勢差が最も小さい2次元画像を選択して補充2次元画像としてもよい。
【0106】
上記ステップによれば、大量の画像を記憶したデータベースから、補充視角に最も近い2次元画像を選択して補充2次元画像とし、補充2次元画像に基づいて3次元再構成を行うことができる。直接データベースに既存の2次元画像を用いて最初2次元画像の補充とすることで、最終再構成結果の正確性を確保すると共に、既存の資源を効果的に利用し、そして画像を改めて収集する手数を省いた。
【0107】
選択した補充視角が多いほど、生成する補充3次元物体が多くなって、3次元再構成結果が目標物体の実際形状に近接することが理解できる。従って、ステップS120~ステップS150の過程を複数回反複してもよく、また、反復終了条件を満たしたか否かに応じて最終3次元再構成結果を決定してもよい。
【0108】
例として、上記3次元再構成方法は更に下記のステップを含んでもよい。前記3次元再構成結果における可視のボクセルが占めた割合が第1割合より大きいか否かを判断する。第1割合より大きくない場合に、前記3次元再構成結果における可視のボクセルが占めた割合が前記第1割合より大きくなるまで、現在の3次元再構成結果を最初3次元物体として、再度補充視角に基づいて3次元再構成を行う。言い換えると、当該ステップにおいて、望ましい最終再構成結果が取得されるまで、現在の3次元再構成結果を最初3次元物体として、再度上記ステップS120~S150を実行する。
【0109】
図8は本発明の別の実施例に係る3次元再構成方法800の模式的フローチャートを示す。
図8に示すように、この3次元再構成方法は下記のステップS810、ステップS820、ステップS830、ステップS840、ステップS850、ステップS860及びステップS870を含む。
【0110】
S810で、目標物体の最初2次元画像に対して3次元再構成を行って、前記最初2次元画像に対応する最初3次元物体を生成する。
【0111】
S820で、前記最初3次元物体の候補視角での再構成品質に基づいて、前記候補視角から前記目標物体の補充視角を選択する。
【0112】
S830で、前記補充視角により、前記目標物体の補充2次元画像を取得する。
【0113】
S840で、前記補充2次元画像に対して3次元再構成を行って、前記補充2次元画像に対応する補充3次元物体を生成する。
【0114】
S850で、前記最初3次元物体と前記補充3次元物体を融合して、前記目標物体の3次元再構成結果を取得する。上記ステップはステップS110-S150と類似し、本明細書で繰り返して説明しない。
【0115】
S860で、前記3次元再構成結果における可視のボクセルが占めた割合が第2割合より大きいか否かを判断する。
【0116】
3次元再構成結果における可視のボクセルが占めた割合は、3次元再構成結果における補充視角での可視ボクセルのうち第1視角での可視のボクセルともなるボクセルの個数が占めた割合である。例えば、3次元再構成結果は補充視角での可視のボクセルが合計m個あり、これらのボクセルのうち同時に第1視角での可視のボクセルともなるボクセルの個数がM個であれば、可視のボクセルが占めた割合がM/mである。可視のボクセルが占めた割合が3次元再構成結果の信頼度を反映可能であることが理解できる。第2割合は70%~90%の間の任意値であってもよい。一例において、上記第2割合が85%である。この数値は計算資源の消耗と計算結果の正確性の両方に配慮を加えたものである。
【0117】
第2割合より大きくない場合に、前記3次元再構成結果を最初3次元物体とし、且つステップS820に移行する。これによって、再度新しい補充視角に基づいて新しい補充2次元画像を取得して3次元再構成を行う。可視のボクセルが占めた割合が第2割合より大きくなければ、現在の3次元再構成結果は真実の目標物体とは一定の程度相違していることを意味するので、再度新しい補充視角のカメラ位置姿勢に基づいて3次元再構成を行う必要がある。
【0118】
前記第2割合より大きい場合に、ステップS870を実行する。
【0119】
S870で、前記3次元再構成結果を最終結果とする。3次元再構成方法が終了する。
【0120】
可視のボクセルが占めた割合が第2割合より大きければ、現在の視角で生成した3次元物体は真実の3次元物体に近接していることを意味するので、3次元再構成結果を最終結果とすることができる。
【0121】
上記ステップによれば、有限回数の反復を行った後、得られた3次元再構成結果が予想に一致した結果となることを確保でき、更に再構成3次元物体の品質を確保する。
【0122】
本発明の別の側面によれば、更に3次元再構成装置を提供する。
図9は本発明の一実施例に係る3次元再構成装置の模式的ブロック図を示す。
【0123】
図9に示すように、装置900は第1再構成モジュール910、補充視角モジュール920、補充画像モジュール930、第2再構成モジュール940及び融合モジュール950を備える。
【0124】
前記各モジュールはそれぞれ上述した3次元再構成方法の各ステップ/機能を実行できる。以下ではこの装置900の各部材の主要機能のみについて説明し、以上で既に説明した詳細内容を省略する。
【0125】
第1再構成モジュール910は、目標物体の最初2次元画像に対して3次元再構成を行って、前記最初2次元画像に対応する最初3次元物体を生成するように構成され、
補充視角モジュール920は、前記最初3次元物体の候補視角での再構成品質に基づいて、前記候補視角から前記目標物体の補充視角を選択するように構成され、
補充画像モジュール930は、前記補充視角により、前記目標物体の補充2次元画像を取得するように構成され、
第2再構成モジュール940は、前記補充2次元画像に対して3次元再構成を行って、前記補充2次元画像に対応する補充3次元物体を生成するように構成され、
融合モジュール950は、前記最初3次元物体と前記補充3次元物体を融合して、前記目標物体の3次元再構成結果を取得するように構成される。
【0126】
本発明の更に別の側面によれば、更に、プロセッサと、コンピュータプログラム命令を記憶したメモリとを備える3次元再構成システムにおいて、前記コンピュータプログラム命令が前記プロセッサにより実行される時に、上記の3次元再構成方法を実行する3次元再構成システムを提供する。
【0127】
図10は本発明の一実施例に係る3次元再構成用システム1000の模式的ブロック図を示す。
図10に示すように、システム1000は入力装置1010、記憶装置1020、プロセッサ1030及び出力装置1040を備える。
【0128】
前記入力装置1010は、ユーザの入力する操作命令を受信し、データを収集するように構成される。入力装置1010はキーボード、マウス、マイクロフォン、タッチパネル及び画像収集装置等のうちの1つ以上を含んでよい。
【0129】
前記記憶装置1020は、本発明の実施例に係る3次元再構成方法の対応ステップを実現するためのコンピュータプログラム命令を記憶する。
【0130】
前記プロセッサ1030は、前記記憶装置1020に記憶されたコンピュータプログラム命令を実行して、本発明の実施例に係る3次元再構成方法の対応ステップを実行するように構成され、また、本発明の実施例に係る3次元再構成装置における第1再構成モジュール910、補充視角モジュール920、補充画像モジュール930、第2再構成モジュール940及び融合モジュール950を実現するように構成される。
【0131】
前記出力装置1040は、外部(例えば、ユーザ)に各種の情報(例えば、画像及び/又は音声)を出力するように構成され、ディスプレイ、スピーカ等のうちの1つ以上を含んでよい。
【0132】
一実施例では、前記コンピュータプログラム命令が前記プロセッサ1030により実行される時に、
目標物体の最初2次元画像に対して3次元再構成を行って、前記最初2次元画像に対応する最初3次元物体を生成するステップと、
前記最初3次元物体の候補視角での再構成品質に基づいて、前記候補視角から前記目標物体の補充視角を選択するステップと、
前記目標物体の前記補充2次元画像を取得するステップと、
前記補充2次元画像に対して3次元再構成を行って、前記補充2次元画像に対応する補充3次元物体を生成するステップと、
前記最初3次元物体と前記補充3次元物体を融合して、前記目標物体の3次元再構成結果を取得するステップと、を前記システム1000に実行させる。
【0133】
また、本発明の更に別の側面によれば、更に、プログラム命令を記憶した記憶媒体において、前記プログラム命令がコンピュータ又はプロセッサにより実行される時に、前記コンピュータ又はプロセッサに本発明実施例の上記3次元再構成方法の対応ステップを実行させ、且つ本発明実施例に係る上記3次元再構成装置における対応モジュール又は上記の3次元再構成システム用の対応モジュールを実現するように構成される記憶媒体を提供する。前記記憶媒体は、例えば、スマートフォンのメモリーカード、タブレットの記憶手段、パーソナルコンピュータのハードディスク、読み取り専用メモリ(ROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、USBメモリ又は上記記憶媒体の任意組合を含んでよい。前記コンピュータ可読記憶媒体は1つ以上のコンピュータ可読記憶媒体の任意組合であってよい。
【0134】
一実施例では、前記コンピュータプログラム命令がコンピュータ又はプロセッサにより実行される時に、
目標物体の最初2次元画像に対して3次元再構成を行って、前記最初2次元画像に対応する最初3次元物体を生成するステップと、
前記最初3次元物体の候補視角での再構成品質に基づいて、前記候補視角から前記目標物体の補充視角を選択するステップと、
前記目標物体の前記補充2次元画像を取得するステップと、
前記補充2次元画像に対して3次元再構成を行って、前記補充2次元画像に対応する補充3次元物体を生成するステップと、
前記最初3次元物体と前記補充3次元物体を融合して、前記目標物体の3次元再構成結果を取得するステップと、を前記コンピュータ又はプロセッサに実行させる。
【0135】
当業者であれば、
図1~
図8を参照しながら上記の3次元再構成方法関連記載を読むことによって、上記3次元再構成装置、システム及び記憶媒体の具現化を理解できる。簡素化するために、ここで詳細な説明を省略する。
【0136】
上記3次元再構成手段において、最初3次元物体の再構成品質により補充視角を決定し、補充視角での補充2次元画像を用いて3次元再構成を行うことで、少ない2次元画像で高品質の再構成3次元物体を得ることができる。
【0137】
ここで図面を参照して例示的実施例を説明したが、上記例示的実施例は例示的なものに過ぎず、本発明の範囲を限定する意図がないことを理解すべきである。当業者であれば、本発明の範囲と主旨を逸脱することなく、それに対して各種の変更と修正を加えることができる。これらの変更と修正は添付された特許請求の範囲の主張する本発明の範囲に含まれるものとする。
【0138】
本明細書で開示された実施例により説明した各例のユニット及びアルゴリズムステップは電子ハードウェア又はコンピュータソフトウェアと電子ハードウェアの組合という形で実現可能であることが当業者に理解できる。これらの機能はハードウェアの形で実行するか、それともソフトウェアの形で実行するかは技術的解決手段の特定の用途及び設計上の制約条件によって決められる。専門技術者であれば、特定の用途毎に異なる方法を使用して、記載された機能を実現できるが、このような実現は本発明の範囲を超えたものであると理解してはならない。
【0139】
本願により提供されたいくつかの実施例では、開示した機器及び方法は他の形態で実現できることを理解すべきである。例えば、上述した機器実施例は例示的なものに過ぎず、例えば、前記ユニットの分割は、論理機能の分割に過ぎず、実際に実現する場合に別の形態で分割してもよく、例えば、複数のユニット又はコンポーネントは組み合わせてもよいし、別のシステムに統合してもよいし、一部の特徴を省略もしくは実行しなくてもよい。
【0140】
ここで提供された明細書において、大量の具体的詳細について説明した。ただし、これらの具体的詳細なしに本発明の実施例が実施され得ることが理解できる。いくつかの実例において、本明細書に対する理解を曖昧にしないように、周知の方法、構造及び技術を詳しく示していない。
【0141】
類似的に、本発明を簡素化し且つ各発明態様の1つ又は複数を容易に理解させるために、本発明の例示的実施例についての記載において、本発明の各特徴は共に単一の実施例や図、それらについての記載にグループ化される場合があることを理解すべきである。しかし、本発明の方法は、保護を主張される本発明が各請求項に明確に記載の特徴よりも多い特徴を要求する意図を反映するものと解釈してはならない。より明確に言えば、対応する特許請求の範囲で反映されるように、その発明のポイントは、開示されたある単一実施例の全般特徴よりも少ない特徴によって対応する技術的問題を解決できることである。従って、具体的実施形態に従った請求項はこれによって明確にこの具体的実施形態に組み入れられるが、各請求項自身はそれぞれ本発明の単独実施例となる。
【0142】
特徴同士が互に矛盾しない限り、本明細書(添付された請求項、要約書及び図面を含む)で開示された全ての特徴及びこのように開示された任意の方法又は機器の全ての工程またはユニットをいかなる組合形式で組み合わせてもよいことが当業者に理解される。別に明確に説明しない限り、本明細書(添付された請求項、要約書及び図面を含む)で開示された各特徴は、同じな、同等な又は類似的な目的を実現する代替特徴によって取り替えてもよい。
【0143】
また、ここに記載のいくつかの実施例には他の特徴ではなく、他の実施例に含まれるいくつかの特徴を含むが、異なる実施例の特徴の組合は本発明の範囲に含まれ且つ異なる実施例を形成するのを意味することが当業者に理解される。例えば、特許請求の範囲において、保護を主張される実施例はいずれも任意の組合方式で使用できる。
【0144】
本発明の各部材実施例は、ハードウェアで実現してもよいし、1つ以上のプロセッサにおいて動作するソフトウェアモジュールで実現してもよいし、それらの組合で実現してもよい。実施するに際して、マイクロプロセッサ又はデジタル信号プロセッサ(DSP)を用いて、本発明の実施例に係る3次元再構成装置における若干のモジュールの機能の一部又は全部を実現してよいことが当業者に理解される。本発明は更に、ここに記載の方法の一部又は全部を実行するための装置プログラム(例えば、コンピュータプログラムとコンピュータプログラム製品)として実現してもよい。このような本発明を実現するプログラムはコンピュータ可読媒体に記憶されてもよく、又は1つ以上の信号形式を有してもよい。このような信号はインターネットウェブサイトからダウンロードして得てもよく、又はキャリア信号で提供してもよく、又はいかなる他の形式で提供してもよい。
【0145】
上記実施例は本発明を説明するものであり、本発明を限定するものとならなく、添付された特許請求の範囲を逸脱することなく、当業者が代替実施例を設計できることに注意すべきである。請求項において、かっこにあるいずれかの参照符号も請求項を限定してはならない。用語の「含む」は、請求項に記載されない素子又はステップが存在することを排除するものとならない。素子の前にある用語の「一」又は「1つ」は、このような素子が複数存在することを排除するものとならない。本発明は異なる素子を若干含むハードウェア及び適当にプログラミングしたコンピュータによって実現してよい。若干の装置を挙げた各請求項において、これらの若干の装置は同一のハードウェア項によって具体的に体現してよい。用語の第1、第2及び第3等はいかなる順序も表さない。これらの用語を名称と解釈してもよい。
【0146】
以上は本発明の具体的実施形態又は具体的実施形態についての説明に過ぎず、本発明の保護範囲はそれに限定されるものでなく、本発明に記載された技術範囲内に当業者に容易に想到される変化又は取り替えは、全て本発明の保護範囲に含まれる。従って、本発明の保護範囲は請求項の保護範囲に準ずるものとする。