(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-26
(45)【発行日】2024-01-10
(54)【発明の名称】空間幾何情報推定モデルの生成方法及び装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20231227BHJP
G06T 7/50 20170101ALI20231227BHJP
【FI】
G06T7/00 350B
G06T7/50
(21)【出願番号】P 2022558507
(86)(22)【出願日】2022-03-22
(86)【国際出願番号】 CN2022082247
(87)【国際公開番号】W WO2022247414
(87)【国際公開日】2022-12-01
【審査請求日】2022-09-26
(31)【優先権主張番号】202110576312.7
(32)【優先日】2021-05-26
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】522378775
【氏名又は名称】北京地平▲線▼信息技▲術▼有限公司
(74)【代理人】
【識別番号】100105924
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】シエ、ジャフェン
(72)【発明者】
【氏名】スイ、ウェイ
(72)【発明者】
【氏名】チェン、テン
(72)【発明者】
【氏名】ジャン、チェン
【審査官】佐藤 実
(56)【参考文献】
【文献】特開2019-087229(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
(57)【特許請求の範囲】
【請求項1】
プリセットのシーンに対して採集した点群データ及び前記プリセットのシーンに対して撮影したシーン画像を取得するステップと、
前記シーン画像に対応するカメラ座標系での前記点群データに対応する座標を決定するステップと、
前記座標に基づいて、前記シーン画像内の、前記点群データに対応する目標画素のアノテーション空間幾何情報を決定するステップと、
前記シーン画像をプリセットの初期モデルの入力とし、前記目標画素のアノテーション空間幾何情報を前記初期モデルの期待出力として、前記初期モデルを訓練させて空間幾何情報推定モデルを得るステップと、を含
み、
空間幾何情報は、対応する画素の3次元空間特徴を表現するものであり、
前記アノテーション空間幾何情報は、前記目標画素の3次元空間特徴を表現するものである、
ことを特徴とする空間幾何情報推定モデルの生成方法。
【請求項2】
前記座標に基づいて、前記シーン画像内の、前記点群データに対応する目標画素のアノテーション空間幾何情報を決定するステップは、
前記点群データに基づいて、前記カメラ座標系での地平面方程式を決定するステップと、
前記地平面方程式によって前記カメラ座標系での地面法線ベクトルを決定するステップと、
前記座標に基づいて、前記目標画素の深度情報を決定するステップと、
前記地面法線ベクトルと前記座標と前記シーン画像を撮影するカメラの地面からの高度とに基づいて、前記目標画素の高度情報を決定するステップと、
前記深度情報及び前記高度情報に基づいて、前記目標画素のアノテーション空間幾何情報を決定するステップと、を含む、
ことを特徴とする請求項1に記載の空間幾何情報推定モデルの生成方法。
【請求項3】
前記シーン画像をプリセットの初期モデルの入力とし、前記目標画素のアノテーション空間幾何情報を前記初期モデルの期待出力として、前記初期モデルを訓練して空間幾何情報推定モデルを得るステップは、
前記初期モデルに前記シーン画像を入力して、前記シーン画像に含まれている画素のそれぞれに対応する予測空間幾何情報を得るステップと、
プリセットの損失関数を利用して、前記目標画素に対応する予測空間幾何情報とアノテーション空間幾何情報との差を表現する損失値を決定するステップと、
前記損失値に基づいて、前記初期モデルのパラメータを調整するステップと、
パラメータ調整後の初期モデルがプリセットの条件を満たしたと決定したことに応じて、前記パラメータ調整後の初期モデルを、訓練により得られた空間幾何情報推定モデルとして決定するステップとを含む、
ことを特徴とする請求項2に記載の空間幾何情報推定モデルの生成方法。
【請求項4】
目標シーンを撮影したシーン画像を取得するステップと、
前記シーン画像を
請求項1に記載の空間幾何情報推定モデルに入力して、前記シーン画像に対応するカメラ座標系での前記シーン画像に含まれている画素の空間幾何情報を得るステップと、
前記シーン画像に対応するカメラ座標系での前記画素の空間幾何情報に基づいて、前記画素の前記カメラ座標系での深度情報及び高度情報を決定するステップと、を含む、
ことを特徴とする空間幾何情報の推定方法。
【請求項5】
前記シーン画像に対応するカメラ座標系での前記画素の空間幾何情報に基づいて、前記画素の前記カメラ座標系での深度情報及び高度情報を決定するステップは、
前記カメラ座標系で地面を表現するための地平面方程式を決定するステップと、
前記地平面方程式によって地面法線ベクトル及び前記カメラ座標系で
のカメラの地面からの高度を決定するステップと、
前記シーン画像を撮影するカメラの内部パラメータを取得するステップと、
前記地面法線ベクトルと前記内部パラメータと前記高度と前記画素の前記カメラ座標系での空間幾何情報と前記画素の前記シーン画像での座標とに基づいて、前記画素の前記カメラ座標系での深度情報を決定するステップと、
前記画素の前記カメラ座標系での空間幾何情報及び深度情報に基づいて、前記画素の前記カメラ座標系での高度情報を決定するステップと、を含む、
ことを特徴とする請求項4に記載の空間幾何情報の推定方法。
【請求項6】
プリセットのシーンに対して採集した点群データ及び前記プリセットのシーンに対して撮影したシーン画像を取得するための第1取得モジュールと、
前記シーン画像に対応するカメラ座標系での前記点群データに対応する座標を決定するための第1決定モジュールと、
前記座標に基づいて、前記シーン画像内の、前記点群データに対応する目標画素のアノテーション空間幾何情報を決定するための第2決定モジュールと、
前記シーン画像をプリセットの初期モデルの入力とし、前記目標画素のアノテーション空間幾何情報を前記初期モデルの期待出力として、前記初期モデルを訓練させて空間幾何情報推定モデルを得るための訓練モジュールとを含
み、
空間幾何情報は、対応する画素の3次元空間特徴を表現するものであり、
前記アノテーション空間幾何情報は、前記目標画素の3次元空間特徴を表現するものである、
ことを特徴とする空間幾何情報推定モデルの生成装置。
【請求項7】
前記第2決定モジュールは、
前記点群データに基づいて、前記カメラ座標系での地平面方程式を決定するための第1決定ユニットと、
前記地平面方程式によって前記カメラ座標系での地面法線ベクトルを決定するための第2決定ユニットと、
前記座標に基づいて、前記目標画素の深度情報を決定するための第3決定ユニットと、
前記地面法線ベクトルと前記座標と前記シーン画像を撮影するカメラの地面からの高度とに基づいて、前記目標画素の高度情報を決定するための第4決定ユニットと、
前記深度情報及び前記高度情報に基づいて、前記目標画素のアノテーション空間幾何情報を決定するための第5決定ユニットと、を含む、
ことを特徴とする請求項6に記載の空間幾何情報推定モデルの生成装置。
【請求項8】
目標シーンを撮影したシーン画像を取得するための第2取得モジュールと、
前記シーン画像を
請求項6に記載の空間幾何情報推定モデルに入力して、前記シーン画像に対応するカメラ座標系での前記シーン画像に含まれている画素の空間幾何情報を得るための推定モジュールと、
前記シーン画像に対応するカメラ座標系での前記画素の空間幾何情報に基づいて、前記画素の前記カメラ座標系での深度情報及び高度情報を決定するための第3決定モジュールと、を含む、
ことを特徴とする空間幾何情報の推定装置。
【請求項9】
上記請求項1~5のいずれか1項に記載の方法を実行するためのコンピュータプログラムが記憶される、
ことを特徴とするコンピュータ可読記憶媒体。
【請求項10】
プロセッサと、
前記プロセッサ
によって実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリから前記実行可能な命令を読み取り、前記命令を実行して上記請求項1~5のいずれか1項に記載の方法を実施するために用いられる、
ことを特徴とする電子機器。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータ技術分野に関し、特に空間幾何情報推定モデルの生成方法及び装置、空間幾何情報推定方法及び装置、コンピュータ可読記憶媒体、並びに電子機器に関する。
【背景技術】
【0002】
視差を利用した路面推定は、運転支援や自動運転シーンに適用され、車両が路面の3D情報をセンシングするのを支援する技術である。運転支援や自動運転での適用において、視差を利用した路面推定は、カメラから提供される単一フレーム又は隣接する2つのフレームの画像と3D幾何情報とを組み合わせることにより、路面の3Dセンシング情報(当該3Dセンシング情報は、路面内の物体の高度及び深度を含む)を取得する。路面の3Dセンシング情報を取得するために、現在よく使われている方法は主に次の2つである。
【0003】
1、深度推定及び事前にキャリブレーションされた地平面方程式情報によって、深度情報を3D点群に変換し、地平面方程式及び点群の公式によって路面の3Dセンシング情報(この3Dセンシング情報は、路面内の物体の深度情報と高度情報とを含む)を復元する。
【0004】
2、単眼マルチフレーム画像シーケンスの地平面方程式及びフレーム間姿勢結合情報によって視差gamma(深度と高度との比)を得、地平面方程式情報でgammaを解析して画像内の物体の深度及び高度の3Dセンシング情報を得る。
【発明の概要】
【0005】
本開示の実施例は、空間幾何情報推定モデルの生成方法及び装置、空間幾何情報の推定方法及び装置、コンピュータ可読記憶媒体、並びに電子機器を提供する。
【0006】
本開示の実施例に係る空間幾何情報推定モデルの生成方法は、プリセットのシーンに対して採集した点群データ及びプリセットのシーンに対して撮影したシーン画像を取得するステップと、シーン画像に対応するカメラ座標系での点群データに対応する座標を決定するステップと、座標に基づいて、シーン画像内の、点群データに対応する目標画素のアノテーション空間幾何情報を決定するステップと、シーン画像をプリセットの初期モデルの入力とし、目標画素のアノテーション空間幾何情報を初期モデルの期待出力として、初期モデルを訓練させて空間幾何情報推定モデルを得るステップと、を含む。
【0007】
本開示の実施例の別の態様に係る空間幾何情報の推定方法は、目標シーンを撮影したシーン画像を取得するステップと、シーン画像を本開示の実施例の第1態様の空間幾何情報推定モデルの生成方法によって取得された事前に訓練された空間幾何情報推定モデルに入力して、シーン画像に含まれている画素のシーン画像に対応するカメラ座標系での空間幾何情報を得るステップと、シーン画像に対応するカメラ座標系での当該画素の空間幾何情報に基づいて、当該画素に対応するカメラ座標系での深度情報及び高度情報を決定するステップと、を含む。
【0008】
本開示の実施例の別の態様に係る空間幾何情報推定モデルの生成装置は、プリセットのシーンに対して採集した点群データ及びプリセットのシーンに対して撮影したシーン画像を取得するための第1取得モジュールと、シーン画像に対応するカメラ座標系での点群データに対応する座標を決定するための第1決定モジュールと、座標に基づいて、シーン画像内の、点群データに対応する目標画素のアノテーション空間幾何情報を決定するための第2決定モジュールと、シーン画像をプリセットの初期モデルの入力とし、目標画素のアノテーション空間幾何情報を初期モデルの期待出力として、初期モデルを訓練させて空間幾何情報推定モデルを得るための訓練モジュールと、を含む。
【0009】
本開示の実施例の別の態様に係る空間幾何情報の推定装置は、目標シーンを撮影したシーン画像を取得するための第2取得モジュールと、シーン画像を本開示の実施例の第1態様の空間幾何情報推定モデルの生成方法によって取得された事前に訓練された空間幾何情報推定モデルに入力して、シーン画像に含まれている画素のシーン画像に対応するカメラ座標系での空間幾何情報を得るための推定モジュールと、シーン画像に対応するカメラ座標系での当該画素の空間幾何情報に基づいて、当該画素に対応するカメラ座標系での深度情報及び高度情報を決定するための第3決定モジュールと、を含む。
【0010】
本開示の実施例の別の態様に係るコンピュータ可読記憶媒体には、上記空間幾何情報推定モデルの生成方法又は空間幾何情報の推定方法を実行するためのコンピュータプログラムが記憶される。
【0011】
本開示の実施例の別の態様に係る電子機器は、プロセッサと、プロセッサ実行可能な命令を記憶するためのメモリと、を含み、プロセッサは、メモリから実行可能な命令を読み取り、命令を実行して上記空間幾何情報推定モデルの生成方法又は空間幾何情報の推定方法を実施するために用いられる。
【0012】
本開示の上記実施例に係る空間幾何情報推定モデルの生成方法及び装置、空間幾何情報の推定方法及び装置、コンピュータ可読記憶媒体、並びに電子機器によれば、プリセットのシーンに対して採集した点群データ及び撮影したシーン画像を取得してから、カメラ座標系での点群データに対応する座標を決定し、次に、得られた座標に基づいて、シーン画像において点群データに対応するアノテーション空間幾何情報を決定し、最後に、シーン画像を入力とし、アノテーション空間幾何情報を期待出力として訓練させて空間幾何情報推定モデルを得ることにより、単一フレーム画像を用いてモデルを訓練させることができ、訓練サンプルを取得する難易度が低下し、訓練時に使用されるアノテーション空間幾何情報はプリセットのシーンに含まれている様々な物体の3次元空間状態を正確に反映することができるため、訓練により得られた空間幾何情報推定モデルの計算の正確さを効果的に向上させることができる。空間幾何情報を推定する際に、空間幾何情報推定モデルに単一フレーム画像を入力するだけで、当該空間幾何情報推定モデルは画像内の画素に対応する空間幾何情報を出力することができ、マルチフレーム画像同士の相関を分析する必要がなく、空間幾何情報推定の効率が向上され、また、推定された空間幾何情報を用いて目標シーン内の様々な物体の深度情報及び高度情報を復元することにより、物体に対するフレーム間姿勢の演算を行う必要がなく、コンピューティングリソースに対する需要を減少させ、被検物体が移動するか否かの影響を受けないため、目標シーンにおける3Dセンシング情報の取得効率が向上され、3Dセンシング情報を決定するのに適用されるシーンが多くなる。
【0013】
以下、図面及び実施例を通じて本開示の技術的解決手段をより詳細に説明する。
図面を参照しながら本開示の実施例をより詳細に説明し、本開示の上記及び他の目的、特徴及び利点をさらに明らかにする。図面は、本開示の実施例のさらなる理解のために提供され、明細書の一部を構成し、本開示の実施例とともに本開示を解釈するために用いられ、本開示を限定するものではない。図面において、同一の参照符号は、通常、同一の部材やステップを表す。
【図面の簡単な説明】
【0014】
【
図2】本開示の一例示的な実施例に係る空間幾何情報推定モデルの生成方法の概略フローチャートである。
【
図3】本開示の別の例示的な実施例に係る空間幾何情報推定モデルの生成方法の概略フローチャートである。
【
図4】本開示の別の例示的な実施例に係る空間幾何情報推定モデルの生成方法の概略フローチャートである。
【
図5】本開示の一例示的な実施例に係る空間幾何情報の推定方法の概略フローチャートである。
【
図6】本開示の別の例示的な実施例に係る空間幾何情報の推定方法の概略フローチャートである。
【
図7】本開示の一例示的な実施例に係る空間幾何情報推定モデルの生成装置の概略構造図である。
【
図8】本開示の別の例示的な実施例に係る空間幾何情報推定モデルの生成装置の概略構造図である。
【
図9】本開示の一例示的な実施例に係る空間幾何情報の推定装置の概略構造図である。
【
図10】本開示の別の例示的な実施例に係る空間幾何情報の推定装置の概略構造図である。
【
図11】本開示の一例示的な実施例に係る電子機器の構造図である。
【発明を実施するための形態】
【0015】
以下、図面を参照しながら本開示の例示的な実施例について詳細に説明する。説明される実施例は、本開示のすべての実施例ではなく、本開示の実施例の一部にすぎず、本開示は、明細書で説明した例示的な実施例に限定されるものではない。
【0016】
なお、特に説明がない限り、これらの実施例に記載の部材やステップの相対的な配置、数式および値は、本開示の範囲を限定するものではない。
【0017】
当業者であれば、本開示の実施例における「第1」、「第2」などの用語は、異なるステップ、機器やモジュールなどを区別するために用いられるのでり、いかなる特定の技術的意味を表すものでもなく、それらの間の必然的な論理的順序を表すものでもない。
【0018】
また、本開示の実施例では、「複数」は、2つ以上を意味し、「少なくとも1つ」は、1つ、2つ又は2つ以上を意味する。
【0019】
本開示の実施例に言及されるいずれか1つの部材、データや構造は、明確な限定がないか又は文脈上で逆の示唆が与えられない場合、一般に、1つ又は複数と理解され得る。
【0020】
また、本開示において、「及び/又は」という用語は、関連オブジェクトの関連関係を説明するためのものにすぎず、3種類の関係が存在することを意味し、例えば、A及び/又はBは、Aが単独で存在する場合、AとBとが同時に存在する場合、Bが単独で存在する場合との3つの場合を表すことができる。また、本開示において、符号「/」は、一般に、前後関連するオブジェクトが「又は」の関係であることを示す。
【0021】
本開示の各実施例に対する説明は、主に各実施例間の相違点を強調し、その同一又は類似の点は互いに参照することができ、簡潔のために、詳細な説明を省略することもある。
【0022】
また、図面に示されている各部分の寸法は、説明の便宜上、実際の比例関係に従って描かれたものではない。
【0023】
以下、少なくとも1つの例示的な実施例に対する説明は、実際には例示的なものに過ぎず、本開示及びその応用や使用に対するいかなる限定ではない。
【0024】
当業者が周知している技術、方法及び機器については詳細に説明しないが、適切な場合には、当該技術、方法及び機器は明細書の一部とみなされるべきである。
【0025】
なお、以下の図面では、同一の符号及び文字は同一の項目を表しており、ある項目が1つの図面で定義されたと、それ以降の図面で更に説明する必要はない。
【0026】
本開示の実施例は、端末機器、コンピュータシステム、サーバなどの電子機器に適用されることができ、多くの他の汎用又は専用のコンピューティングシステム環境又は構成とともに操作されることができる。端末機器、コンピュータシステム、サーバなどの電子機器とともに使用されるのに好適な周知の端末機器、コンピューティングシステム、環境及び/又は構成の例としては、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルド又はラップトップデバイス、マイクロプロセッサベースシステム、セットトップボックス、プログラマブル家電機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム、及び、上記いずれか1つのシステムを含む分散型クラウドコンピューティング技術環境などがあるが、これらに限定されることではない。
【0027】
端末機器、コンピュータシステム、サーバなどの電子機器は、コンピュータシステムによって実行されるコンピュータシステム実行可能な命令(例えば、プログラムモジュールなど)の一般的な言語環境で説明されることができる。通常、プログラムモジュールは、特定のタスクを実行するか、又は特定の抽象データタイプを実装するルーチン、プログラム、目標プログラム、コンポーネント、論理、データ構造などを含むことができる。コンピュータシステム/サーバは、分散型クラウドコンピューティング環境で実施されることができ、分散型クラウドコンピューティング環境において、タスクは、通信ネットワークを介してリンクされたリモート処理機器によって実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは、記憶機器を含むローカル又はリモートコンピューティングシステムの記憶媒体上に位置することができる。
【0028】
[出願の概要]
現在、常使の技術的手段は、物体の3Dセンシング情報を取得する際に、まず、深度推定モデルで当該物体を含む画像内の画素の深度情報を直接取得し、次に、地平面方程式で直接変換して対応する画素の高度情報を取得する。このような方法では、高度情報と深度情報とを一体に結合するのではなく、深度推定モデルで深度情報を取得してから、地平面方程式で直接変換して画素の高度情報を取得するので、この方式によって得られる高度の精度が多少低下される。
【0029】
別の技術的手段は、単眼マルチフレーム画像シーケンスの方案によるgamma予測は、画素に対応する物体が自己運動しないことに基づいて行われるが、このような仮定は運転シーンで成立されないことが多いため、運動する物体に対する処理効果が低く、すなわち、得られた3Dセンシング情報の精度が低い。また、当該技術的手段は、実行段階において、モデルに画像を入力する前に正確なフレーム間姿勢の変化を取得する必要があり、正確なフレーム間姿勢をマルチセンサ融合の方式によって取得する場合、多くのコンピューティングリソースを消費する必要があり、システムの遅延が増加されてしまう。
【0030】
[例示的なシステム]
図1は、本開示の実施例を適用可能な空間幾何情報推定モデルの生成方法及び装置、空間幾何情報の推定方法及び装置の例示的なシステムアーキテクチャ100を示した。
【0031】
図1に示すように、システムアーキテクチャ100は、端末機器101と、ネットワーク102と、サーバ103と、を含むことができる。ネットワーク102は、端末機器101とサーバ103との間の通信リンクを提供するための媒体である。ネットワーク102は、有線や無線の通信リンク又は光ファイバ・ケーブルなどの様々な接続タイプを含むことができる。
【0032】
ユーザは、端末機器101を使用して、ネットワーク102を介してサーバ103とインタラクションしてメッセージなどを送受信することができる。端末機器101には、撮影アプリケーションやナビゲーションアプリケーションなどの様々な通信クライアントアプリケーションをインストールすることができる。
【0033】
端末機器101は、携帯電話、ノートパソコン、デジタル放送受信機、PDA(パーソナルデジタルアシスタント:Personal digital assistant)、PAD(タブレットコンピュータ:Portable android(登録商標) device)、PMP(ポータブルマルチメディアプレーヤー:Portable Media Player)、車載端末(例えば、車載ナビゲーション端末)等のような移動端末や、デジタルTV(テレビ、television)、デスクトップコンピュータ等のような固定端末などの様々な電子機器であり得るが、これらに限定されない。
【0034】
サーバ103は、端末機器101によってアップロードされたデータを利用して空間幾何情報推定モデルを訓練させるバックグラウンドサーバなどの、様々なサービスを提供するサーバであり得る。バックグラウンドサーバは、受信したシーン画像に対して空間幾何情報をアノテーションし、アノテーション空間幾何情報に基づいてモデル訓練を行って空間幾何情報推定モデルを得ることができる。サーバ103は、訓練済みの空間幾何情報推定モデルを利用してオンラインの空間幾何情報推定を行ったり、訓練済みの空間幾何情報推定モデルを端末機器101にフィードバックして、端末機器101が空間幾何情報推定モデルを利用して空間幾何情報推定を行ったりすることもできる。
【0035】
なお、本開示の実施例に係る空間幾何情報推定モデルの生成方法及び空間幾何情報の推定方法は、サーバ103によって実行されてもよいし、端末機器101によって実行されてもよく、対応的に、空間幾何情報推定モデルの生成装置及び空間幾何情報の推定装置は、サーバ103に設置されてもよいし、端末機器101に設置されてもよい。
【0036】
図1の端末機器、ネットワーク、及びサーバの数は、例示的なことである。端末機器、ネットワーク、サーバの数は、実装の要求によって任意であり得る。シーン画像や点群データなどを遠隔から取得する必要がない場合、上記のシステムアーキテクチャは、ネットワークを含まず、サーバや端末機器のみを含むこともできる。
【0037】
[例示的な方法]
図2は、本開示の一例示的な実施例に係る空間幾何情報推定モデルの生成方法の概略フローチャートである。本実施例は、電子機器(例えば、
図1に示す端末機器101やサーバ103)に適用されることができ、
図2に示すように、当該方法は、ステップ201~ステップ204を含むことができる。
【0038】
ステップ201では、プリセットのシーンに対して採集した点群データ及びプリセットのシーンに対して撮影したシーン画像を取得する。
【0039】
本実施例において、電子機器は、ローカル又はリモートから、プリセットのシーンに対して採集した点群データ及びプリセットのシーンに対して撮影したシーン画像を取得することができる。ここで、プリセットのシーンは、道路、室内、野外などの任意のタイプのシーンであることができる。シーン画像内には、車両、歩行者、建物、家具などのような様々な物体が含まれることができる。点群データは、レーザーレーダーや双眼ステレオカメラなどのような機器によって採集されるデータであることができる。点群データは、点群座標系での3次元座標データを含むことができる。
【0040】
ステップ202では、シーン画像に対応するカメラ座標系での点群データに対応する座標を決定する。
【0041】
本実施例において、電子機器は、シーン画像に対応するカメラ座標系での点群データに対応する座標を決定することができる。ここで、カメラ座標系は、シーン画像を撮影するカメラのレンズを原点とする3次元直交座標系である。点群データを点群座標系からカメラ座標系に変換する方法は、既存の技術であるため、ここでは詳しく説明しない。
【0042】
なお、ここでの点群データの数は、複数であり、対応的に、点群データに対応する座標も複数である。
【0043】
ステップ203では、座標に基づいて、シーン画像内の、点群データに対応する目標画素のアノテーション空間幾何情報を決定する。
【0044】
本実施例において、電子機器は、座標に基づいて、シーン画像内の、点群データに対応する目標画素のアノテーション空間幾何情報を決定することができる。ここで、目標画素は、点群データによって示される3次元空間内の点がシーン画像にマッピングされた点である。例示として、電子機器は、事前にキャリブレーションされたカメラの内部パラメータに基づいて、上記の座標をシーン画像にマッピングすることができる。上記のアノテーション空間幾何情報は、目標画素の3次元空間特徴を表現するものであることができる。
【0045】
例示として、アノテーション空間幾何情報は、画素に対応する高度情報と深度情報との比、すなわち、gamma=height/depthであっても、depth/heightであってもよい。高度情報は、画素に対応する3次元空間内の点の地面からの高度を表現するために用いられ、深度情報は、画素に対応する3次元空間内の点のカメラからの距離を表現するために用いられる。電子機器は、上記の座標に基づいて、当該座標によって示される点のカメラ座標系での高度及び深度を計算することにより、gammaを算出することができる。
【0046】
ステップ204では、シーン画像をプリセットの初期モデルの入力とし、目標画素のアノテーション空間幾何情報を初期モデルの期待出力として、初期モデルを訓練させて空間幾何情報推定モデルを得る。
【0047】
本実施例において、電子機器は、シーン画像をプリセットの初期モデルの入力とし、目標画素のアノテーション空間幾何情報を初期モデルの期待出力として、初期モデルを訓練させて空間幾何情報推定モデルを得ることができる。
【0048】
ここで、初期モデルは、Resnet、Vargnetなどのようなネットワークによって構築されることができる。当該モデルは、入力された画像に対して特徴抽出及び特徴融合(Unetの構造を用いて特徴融合可能)を行ってから、融合後の特徴に基づいて空間幾何情報を予測することができる。
【0049】
電子機器は、機械学習手法を利用して、シーン画像を入力とし、入力されたシーン画像内の画素にアノテーションしたアノテーション空間幾何情報を期待出力として、初期モデルを訓練させ、訓練するたびに入力されるシーン画像についての実際出力を得ることができる。ここで、実際出力は、初期モデルが実際に出力した空間幾何情報である。その後、電子機器は、勾配降下法(gradient descent)と誤差逆伝播法(back propagation)とを用いることができ、実際出力と期待出力とに基づいて、実際出力と期待出力との差が徐々に小さくなるように初期モデルのパラメータを調整し、パラメータを調整するたびに得られるモデルを次回の訓練の初期モデルとし、プリセットの訓練終了条件が満たされた場合に訓練を終了し、これにより、訓練により空間幾何情報推定モデルを得る。
【0050】
なお、ここのプリセットの訓練終了条件は、訓練時間がプリセットの時間長さを超えること、訓練回数がプリセットの回数を超えること、及びプリセットの損失関数を利用して算出した損失値が収束していることのうちの少なくとも1つを含み得るが、これらに限定されるものではない。
【0051】
本開示の上記実施例に係る方法では、プリセットのシーンに対して採集された点群データ及び撮影されたシーン画像を取得してから、カメラ座標系において点群データに対応する座標を決定し、次に、得られた座標に基づいて、シーン画像において点群データに対応するアノテーション空間幾何情報を決定し、最後に、シーン画像を入力とし、アノテーション空間幾何情報を期待出力として訓練させて空間幾何情報推定モデルを得ることにより、単一フレーム画像を使用してモデルを訓練させることができ、訓練サンプルを取得する難易度が低下し、訓練時に使用されるアノテーション空間幾何情報は、プリセットのシーンに含まれている様々な物体の3次元空間状態を正確に反映することができるため、訓練により得られた空間幾何情報推定モデルの計算の正確さを効果的に向上させることができる。
【0052】
一部の選択可能な実施形態では、
図3に示すように、ステップ203は、ステップ2031~ステップ2035を含み得る。
【0053】
ステップ2031では、点群データに基づいて、カメラ座標系での地平面方程式を決定する。
【0054】
ここで、地平面方程式は、カメラ座標系下での地面を表す方程式であり得る。電子機器は、既存の点群分割方法に従って、大量の点群データの中から地面を表現する点群データを決定し、地面を表現する点群データの座標に基づいて、平面方程式のフィッティングを行うことにより、地平面方程式を得ることができる。
【0055】
ステップ2032では、地平面方程式によってカメラ座標系での地面法線ベクトルを決定する。
【0056】
通常、地平面方程式は、例えば、点標準形(point normal form)、標準形(normal form)などのさまざまな形態で表達されることができる。地平面方程式が標準形(normal form)である場合、直接地平面方程式から法線ベクトルを決定して、地面法線ベクトルとすることができる。
【0057】
ステップ2033では、座標に基づいて、目標画素の深度情報を決定する。
【0058】
具体地には、カメラ座標系下で点群データに対応する座標の深度成分(即ち、カメラの光軸方向上の成分)を目標画素の深度情報とすることができる。
【0059】
ステップ2034では、地面法線ベクトルと座標とシーン画像を撮影するカメラの地面からの高度とに基づいて、目標画素の高度情報を決定する。
【0060】
ここで、カメラの地面からの高度は、点から平面までの距離(即ち、カメラ座標系でのカメラの位置(例えば、原点)と地平面方程式によって表現される平面との距離)に基づいて決定されることができる。
【0061】
好ましくは、高度情報は、次の点群変換式によって決定されることができる。
height=N*P+CamH
【0062】
式中、heightは、高度情報であり、Nは、地面法線ベクトルであり、Pは、カメラ座標系下で点群データに対応する座標であり、camHは、カメラの地面からの高度である。
【0063】
ステップ2035では、深度情報及び高度情報に基づいて、目標画素のアノテーション空間幾何情報を決定する。
【0064】
例示として、アノテーション空間幾何情報は、次の式によって決定されることができる。
gamma=height/depth
【0065】
式中、gammaは、アノテーション空間幾何情報であり、heightは、目標画素の高度情報であり、depthは目標画素の深度情報である。
【0066】
図3に対応する実施例に係る方法では、カメラ座標系での地平面方程式を決定してから、地平面方程式によって地面法線ベクトルを決定し、最後に、地面法線ベクトル及び他のデータによってアノテーション空間幾何情報を決定することにより、目標画素の地平面に対するアノテーション空間幾何情報を正確に算出することができ、さらに、正確性の高いアノテーション空間幾何情報を利用してモデルを訓練させて空間幾何情報推定モデルの計算の正確さを向上させるに有利である。
【0067】
一部の選択可能な実施形態では、
図3に対応する実施例を基に、
図4に示すように、ステップ204は、以下のサブステップ2041~サブステップ2044を含み得る。
【0068】
ステップ2041では、初期モデルにシーン画像を入力して、シーン画像に含まれている画素のそれぞれに対応する予測空間幾何情報を得る。
【0069】
ここで、初期モデルは、Resnet、Vargnetなどのようなネットワークによって構築されることができる。当該モデルは、入力された画像に対して特徴抽出及び特徴融合(Unetの構造を用いて特徴融合可能)を行ってから、融合後の特徴に基づいて空間幾何情報を予測し、予測空間幾何情報を得ることができる。
【0070】
当該ステップでは、初期モデルにシーン画像を入力した後、当該シーン画像に含まれている画素のそれぞれに対応する予測空間幾何情報が当該初期モデルの出力である。
【0071】
ステップ2042では、プリセットの損失関数を利用して、目標画素に対応する予測空間幾何情報とアノテーション空間幾何情報との差を表現する損失値を決定する。
【0072】
例示として、L2損失関数を利用して、予測空間幾何情報とアノテーション空間幾何情報との間の損失値を決定することができる。
【0073】
ステップ2043では、損失値に基づいて、初期モデルのパラメータを調整する。
【0074】
通常、訓練中において、プリセットの条件が満たされるまで、損失値を最小化することにより、初期モデルのパラメータを反復的に調整する。
【0075】
ステップ2044では、パラメータ調整後の初期モデルがプリセットの条件を満たしたと決定したことに応じて、パラメータ調整後の初期モデルを、訓練により得られた空間幾何情報推定モデルとして決定する。
【0076】
例示として、プリセットの条件は、訓練時間がプリセットの時間長さを超えること、訓練回数がプリセットの回数を超えること、及びプリセットの損失関数を利用して算出した損失値が収束していることのうちの少なくとも1つを含み得るが、これらに限定されるものではない。
【0077】
図4に対応する実施例に係る方法では、点群データで示される点の数がシーン画像に含まれている画素の数よりは疎であるため、損失関数を利用して訓練させるとき、損失値の計算量を低下させ、訓練後の空間幾何情報推定モデルの予測精度を確保することができる。
【0078】
さらに、
図5を参照し、
図5は、本開示の一例示的な実施例に係る空間幾何情報の推定方法の概略フローチャートである。本実施例は、電子機器(例えば
図1に示す端末機器101やサーバ103)に適用することができ、
図5に示すように、当該方法は、ステップ501~ステップ503を含む。
【0079】
ステップ501では、目標シーンを撮影したシーン画像を取得する。
【0080】
本実施例において、電子機器は、ローカル又はリモートから、目標シーンを撮影したシーン画像を取得することができる。目標シーンは、任意のタイプのシーン(例えば、車両が現在走行している道路)であることができる。
【0081】
ステップ502では、シーン画像を事前に訓練された空間幾何情報推定モデルに入力して、シーン画像に含まれている画素のシーン画像に対応するカメラ座標系での空間幾何情報を得る。
【0082】
本実施例において、電子機器は、シーン画像を事前に訓練された空間幾何情報推定モデルに入力して、シーン画像に含まれている画素のシーン画像に対応するカメラ座標系での空間幾何情報を得ることができる。ここで、空間幾何情報推定モデルは、事前に
図2~
図4に対応するいずれか1つの実施例に記載の方法に従って訓練させることにより得ることができる。
【0083】
ステップ503では、シーン画像に含まれている画素について、当該画素の空間幾何情報に基づいて、当該画素に対応するカメラ座標系での深度情報及び高度情報を決定する。つまり、このステップでは、シーン画像に含まれている画素のシーン画像に対応するカメラ座標系での空間幾何情報に基づいて、当該画素のカメラ座標系での深度情報及び高度情報を決定する。
【0084】
ここで、シーン画像に対応するカメラ座標系は、当該シーン画像を撮影するカメラのレンズを原点とする3次元直交座標系である。
【0085】
本実施例において、シーン画像に含まれている画素について、電子機器は、当該画素の空間幾何情報に基づいて、当該画素の対応するカメラ座標系での深度情報及び高度情報を決定することができる。ここで、空間幾何情報は、対応する画素の3次元空間特徴を表現することができる。空間幾何情報によって、対応する画素の深度情報及び高度情報を復元することができる。なお、電子機器は、シーン画像に含まれている各画素に対応する深度情報及び高度情報を決定することができ、シーン画像に含まれている一部の画素に対応する深度情報及び高度情報を決定することもできる。例えば、従来の目標検出方法によって、シーン画像から目標物体(例えば、歩行者、車両、障害物など)を分割してから、本開示の実施例に係る技術的手段によって、目標物体に含まれている画素のそれぞれに対応する深度情報及び高度情報を決定することができる。
【0086】
上記の
図5に対する実施例に係る空間幾何情報の推定方法では、空間幾何情報を推定する際に、空間幾何情報推定モデルは、空間幾何情報推定モデルに単一フレーム画像を入力するだけで、画像内の画素に対応する空間幾何情報を出力することができ、マルチフレーム画像同士の関連を分析する必要がなく、空間幾何情報推定の効率が向上され、推定された空間幾何情報を用いて目標シーン内の様々な物体の深度情報及び高度情報を復元することにより、物体に対するフレーム間姿勢の演算を省略し、リソースの需要を減少させ、被検物体が移動するか否かの影響を受けないため、目標シーンにおける3Dセンシング情報の取得効率が向上され、3Dセンシング情報を決定するに適用されるシーンが多くなる。
【0087】
一部の選択可能な実施形態では、
図6に示すように、ステップ503は、以下のサブステップ5031~サブステップ5035を含み得る。
【0088】
ステップ5031では、カメラ座標系で地面を表現するための地平面方程式を決定する。
【0089】
具体的には、電子機器は、従来の目標検出方法によってシーン画像から地面を分割してから、平面方程式のフィッティングを行って地平面方程式を得ることができる。
【0090】
ステップ5032では、地平面方程式によって地面法線ベクトル及びカメラ座標系でのカメラの地面からの高度を決定する。当該ステップでは、カメラ座標系でのカメラは、シーン画像を撮影するカメラであり、つまり、このステップでは、地平面方程式によって、地面法線ベクトルを決定し、シーン画像を撮影するカメラの地面からの高度を決定する。
【0091】
通常、地平面方程式は、標準形(normal form)で表達されることができ、直接地平面方程式から法線ベクトルを決定して地面法線ベクトルとすることができる。カメラ座標系の座標原点は、一般にカメラの位置であるため、地平面方程式によってカメラの地面からの高度を決定することができる。
【0092】
ステップ5033では、シーン画像を撮影するカメラの内部パラメータを取得する。
【0093】
ここで、カメラの内部パラメータは、事前にキャリブレーションされたものであることができ、カメラの内部パラメータは、カメラ座標系での点と画像座標系での点との対応関係を表現するためのものである。
【0094】
ステップ5034では、地面法線ベクトルと内部パラメータと高度とシーン画像に対応するカメラ座標系での当該画素の空間幾何情報と当該画素のシーン画像内の座標とに基づいて、当該画素のカメラ座標系での深度情報を決定する。
【0095】
具体的には、空間幾何情報をgammaとし、gamma=height/depthとすることができ、ここで、heightは、高度情報であり、depthは、深度情報である。以下のgamma変換式によって、深度情報が得られる。
【数1】
【0096】
ここで、NTは、カメラ座標系での地面法線ベクトルNの転置を表し、camHは、カメラ座標系でのカメラの地面からの高度であり、pは、画像座標系での画素座標[u,v]からなる3次元座標[u,v,1]であり、K-1は、カメラの内部パラメータの逆数であり、画像座標系での座標をカメラ座標系でのものに変換するために用いられる。
【0097】
次に、空間幾何情報gamma及び深度情報depthに基づいて、高度情報height=gamma*depthを算出することができる。
【0098】
ステップ5035では、当該画素のカメラ座標系での空間幾何情報及び深度情報に基づいて、当該画素のカメラ座標系での高度情報を決定する。
【0099】
上記の
図6に対応する実施例に係る方法では、地平面方程式を決定し、地平面方程式及び空間幾何情報に基づいて、シーン画像内の各画素のそれぞれに対応する高度情報及び深度情報を得ることができ、それにより、空間幾何情報推定モデルによって空間幾何情報を予測する時に有する高効率、正確性という特徴を利用して、深度情報及び高度情報を決定する効率及び正確性をさらに向上させることができる。
【0100】
[例示的な装置]
図7は、本開示の一例示的な実施例に係る空間幾何情報推定モデルの生成装置の概略構造図である。本実施例は、電子機器に適用されることができ、
図7に示すように、空間幾何情報推定モデルの生成装置は、プリセットのシーンに対して採集した点群データ及びプリセットのシーンに対して撮影したシーン画像を取得するための第1取得モジュール701と、シーン画像に対応するカメラ座標系での点群データに対応する座標を決定するための第1決定モジュール702と、座標に基づいて、シーン画像内の、点群データに対応する目標画素のアノテーション空間幾何情報を決定するための第2決定モジュール703と、シーン画像をプリセットの初期モデルの入力とし、目標画素のアノテーション空間幾何情報を初期モデルの期待出力として、初期モデルを訓練させて空間幾何情報推定モデルを得るための訓練モジュール704と、を含む。
【0101】
本実施例において、第1取得モジュール701は、ローカル又はリモートから、プリセットのシーンに対して採集した点群データ及びプリセットのシーンに対して撮影したシーン画像を取得することができる。ここで、プリセットのシーンは、道路、室内、野外などの任意のタイプのシーンであることができる。シーン画像内には、車両、歩行者、建物、家具などのような様々な物体が含まれることができる。点群データは、レーザーレーダーや双眼ステレオカメラなどのような機器によって採集されるデータであることができる。点群データは、点群座標系での3次元座標データを含むことができる。
【0102】
本実施例において、第1決定モジュール702は、シーン画像に対応するカメラ座標系での点群データに対応する座標を決定することができる。ここで、カメラ座標系は、シーン画像を撮影するカメラのレンズを原点とする3次元直交座標系である。点群データを点群座標系からカメラ座標系に変換する方法は、既存の技術であるため、ここでは詳しく説明しない。なお、ここでの点群データの数は、複数であり、対応的に、点群データに対応する座標も複数である。
【0103】
本実施例において、第2決定モジュール703は、座標に基づいて、シーン画像内の、点群データに対応する目標画素のアノテーション空間幾何情報を決定することができる。ここで、目標画素は、点群データで示される3次元空間内の点の、シーン画像にマッピングされた点である。例示として、第2決定モジュール703は、事前にキャリブレーションされたカメラの内部パラメータに基づいて、上記の座標をシーン画像にマッピングすることができる。上記のアノテーション空間幾何情報は、目標画素の3次元空間特徴を表現するものであることができる。
【0104】
例示として、アノテーション空間幾何情報は、画素に対応する高度情報と深度情報との比、すなわち、gamma=height/depthであっても、depth/heightであってもよい。高度情報は、画素に対応する3次元空間内の点の地面からの高度を表現するために用いられ、深度情報は、画素に対応する3次元空間内の点のカメラからの距離を表現するために用いられる。第2決定モジュール703は、上記の座標に基づいて、当該座標によって示される点のカメラ座標系での高度及び深度を算出することにより、gammaを算出することができる。
【0105】
本実施例において、訓練モジュール704は、シーン画像をプリセットの初期モデルの入力とし、目標画素のアノテーション空間幾何情報を初期モデルの期待出力として、初期モデルを訓練させて空間幾何情報推定モデルを得ることができる。
【0106】
ここで、初期モデルは、Resnet、Vargnetなどのようなネットワークによって構築されることができる。当該モデルは、入力された画像に対して特徴抽出及び特徴融合(Unetの構造を用いて特徴融合可能)を行ってから、融合後の特徴に基づいて空間幾何情報を予測することができる。
【0107】
訓練モジュール704は、機械学習手法を利用して、シーン画像を入力とし、入力されたシーン画像内の画素をアノテーションしたアノテーション空間幾何情報を期待出力として、初期モデルを訓練させ、訓練するたびに入力されるシーン画像についての実際出力を得ることができる。ここで、実際出力は、初期モデルによって実際に出力される空間幾何情報である。その後、訓練モジュール704は、勾配降下法とバックプロパゲーション法とを用いることができ、実際出力と期待出力とに基づいて、初期モデルのパラメータを調整し、パラメータを調整するたびに得られるモデルを次回の訓練の初期モデルとし、プリセットの訓練終了条件が満たされた場合に訓練を終了し、これにより、訓練により空間幾何情報推定モデルを得る。
【0108】
なお、ここのプリセットの訓練終了条件は、訓練時間がプリセットの時間長さを超えること、訓練回数がプリセットの回数を超えること、及びプリセットの損失関数を利用して算出した損失値が収束していることのうちの少なくとも1つを含み得るが、これらに限定されるものではない。
【0109】
図8を参照し、
図8は、本開示の別の例示的な実施例に係る空間幾何情報推定モデルの生成装置の概略構造図である。
【0110】
一部の選択可能な実施形態では、第2決定モジュール703は、点群データに基づいてカメラ座標系での地平面方程式を決定するための第1決定ユニット7031と、地平面方程式によってカメラ座標系での地面法線ベクトルを決定するための第2決定ユニット7032と、座標に基づいて目標画素の深度情報を決定するための第3決定ユニット7033と、地面法線ベクトルと座標とシーン画像を撮影するカメラの地面からの高度とに基づいて目標画素の高度情報を決定するための第4決定ユニット7034と、深度情報及び高度情報に基づいて目標画素のアノテーション空間幾何情報を決定するための第5決定ユニット7035と、を含むことができる。
【0111】
一部の選択可能な実施形態では、訓練モジュール704は、初期モデルにシーン画像を入力して、シーン画像に含まれている画素のそれぞれに対応する予測空間幾何情報を得るための入力ユニット7041と、プリセットの損失関数を利用して、目標画素に対応する予測空間幾何情報とアノテーション空間幾何情報との差を表現する損失値を決定する第6決定ユニット7042と、損失値に基づいて初期モデルのパラメータを調整するための調整ユニット7043と、パラメータ調整後の初期モデルがプリセットの条件を満たしたと決定したことに応じて、パラメータ調整後の初期モデルを、訓練により得られた空間幾何情報推定モデルとして決定するための第7決定ユニット7044と、を含むことができる。
【0112】
本開示の上記実施例に係る空間幾何情報推定モデルの生成装置では、プリセットのシーンに対して採集した点群データ及び撮影したシーン画像を取得してから、カメラ座標系において点群データに対応する座標を決定し、次に、得られた座標に基づいて、シーン画像において点群データに対応する目標画素のアノテーション空間幾何情報を決定し、最後に、シーン画像を入力とし、アノテーション空間幾何情報を期待出力として訓練させて訓練空間幾何情報推定モデルを得ることにより、単一フレーム画像を用いてモデルを訓練させることができ、訓練サンプルを取得する難易度が低下し、訓練時に使用されるアノテーション空間幾何情報はプリセットのシーンに含まれている様々な物体の3次元空間状態を正確に反映することができるため、訓練により得られた空間幾何情報推定モデルの計算の正確さを効果的に向上させることができる。
【0113】
図9は、本開示の一例示的な実施例に係る空間幾何情報の推定装置の概略構造図である。本実施例は、電子機器に適用されることができ、
図9に示すように、空間幾何情報の推定装置は、目標シーンを撮影したシーン画像を取得するための第2取得モジュール901と、シーン画像を事前に訓練された空間幾何情報推定モデルに入力して、シーン画像に含まれている画素のシーン画像に対応するカメラ座標系での空間幾何情報を得るための推定モジュール902と、シーン画像に含まれている画素について、シーン画像に対応するカメラ座標系での当該画素の空間幾何情報に基づいて、当該画素のカメラ座標系での深度情報及び高度情報を決定するための第3決定モジュール903と、を含む。
【0114】
本実施例において、第2取得モジュール901は、ローカル又はリモートから、目標シーンを撮影したシーン画像を取得することができる。ここで、目標シーンは、任意のタイプのシーン(例えば、車両が現在走行している道路)であることができる。
【0115】
本実施例において、推定モジュール902は、シーン画像を事前に訓練された空間幾何情報推定モデルに入力して、シーン画像に含まれている画素のシーン画像に対応するカメラ座標系での空間幾何情報を得ることができる。ここで、空間幾何情報推定モデルは、事前に
図2~
図4に対応するいずれか1つの実施例に記載の方法に従って訓練させることにより得ることができる。
【0116】
本実施例において、第3決定モジュール903は、シーン画像に対応するカメラ座標系での当該画素の空間幾何情報に基づいて、当該画素に対応するカメラ座標系での深度情報及び高度情報を決定することができる。ここで、空間幾何情報は、対応する画素の3次元空間特徴を表現することができる。空間幾何情報によって、対応する画素の深度情報及び高度情報を復元することができる。
【0117】
図10を参照し、
図10は、本開示の別の例示的な実施例に係る空間幾何情報の推定装置の概略構造図である。
【0118】
一部の選択可能な実施形態では、第3決定モジュール903は、カメラ座標系で地面を表現する地平面方程式を決定するための第8決定ユニット9031と、地平面方程式によって地面法線ベクトル及びカメラ座標系でのカメラの地面からの高度を決定するための第9決定ユニット9032と、シーン画像を撮影するカメラの内部パラメータを取得するための取得ユニット9033と、地面法線ベクトルと内部パラメータと高度とシーン画像に対応するカメラ座標系での当該画素の空間幾何情報と当該画素のシーン画像内の座標とに基づいて、当該画素のカメラ座標系での深度情報を決定するための第10決定ユニット9034と、シーン画像に対応するカメラ座標系での当該画素の空間幾何情報及び深度情報に基づいて、当該画素のカメラ座標系での高度情報を決定する第11決定ユニット9035と、を含むことができる。
【0119】
本開示の上記実施例に係る空間幾何情報の推定装置では、空間幾何情報を推定する際に、単一フレーム画像を入力するだけで、画像内の画素に対応する空間幾何情報を出力することができ、マルチフレーム画像同士の相関を分析する必要がなく、空間幾何情報推定の効率が向上され、推定された空間幾何情報を用いて目標シーン内の様々な物体の深度情報及び高度情報を復元することにより、物体に対するフレーム間姿勢の演算を行う必要がなく、コンピューティングリソースに対する需要を減少させ、被検物体が移動するか否かの影響を受けないため、目標シーンにおける3Dセンシング情報の取得効率が向上され、3Dセンシング情報を決定するに適用されるシーンが多くなる。
【0120】
[例示的な電子機器]
以下、
図11を参照しながら本開示の実施例に係る電子機器について説明する。当該電子機器は、
図1に示す端末機器101及びサーバ103のうちのいずれか一方又は両方、又はこれらとは独立したスタンドアロン機器であることができ、このスタンドアロン機器は、端末機器101及びサーバ103と通信して、採集された入力信号をこれらから受信することができる。
【0121】
図11は、本開示の実施例に係る電子機器のブロック図を示す。
【0122】
図11に示すように、電子機器1100は、1つ又は複数のプロセッサ1101と、メモリ1102と、を含む。
【0123】
プロセッサ1101は、中央処理ユニット(CPU:central processing unit)又はデータ処理能力及び/又は命令実行能力を有する他の形態の処理であってもよく、電子機器1100内の他のコンポーネントを制御して所望の機能を実行することができる。
【0124】
メモリ1102は、1つ又は複数のコンピュータプログラム製品を含むことができ、コンピュータプログラム製品は、揮発性メモリ及び/又は不揮発性メモリなどの様々な形態のコンピュータ可読記憶媒体を含むことができる。揮発性メモリは、例えば、ランダムアクセスメモリ(RAM:random access memory)及び/又はキャッシュメモリ(cache)などを含むことができる。非揮発性メモリは、例えば、リードオンリーメモリ(ROM:read-only memory)、ハードディスク、フラッシュメモリなどを含むことができる。コンピュータ可読記憶媒体には、1つ又は複数のコンピュータプログラム命令を記憶されることができ、プロセッサ1101は、プログラム命令を実行することで、上記の本開示の各実施例における空間幾何情報推定モデルの生成方法、空間幾何情報の推定方法及び/又は他の所望の機能を実現することができる。コンピュータ可読記憶媒体には、シーン画像などの様々なコンテンツも格納することができる。
【0125】
一例示では、電子機器1100は、バスシステム及び/又は他の形態の接続機構(図示せず)を介して互に接続される入力装置1103と出力装置1104をさらに含むことができる。
【0126】
例えば、当該電子機器が端末機器101又はサーバ103である場合、入力装置1103は、カメラ、マウス、キーボードなどの機器であってもよく、シーン画像、プログラムの実行に必要な各種の命令などを入力することができる。当該電子機器がスタンドアロン機器である場合、入力装置1103は、通信ネットワークのコネクタであってもよく、端末機器101及びサーバ103から入力されたシーン画像を受信する。
【0127】
出力装置1104は、決定された空間幾何情報を含む様々な情報を外部に出力することができる。出力機器1104は、例えば、ディスプレイ、スピーカ、プリンタ、通信ネットワーク及びそれらに接続される遠隔出力機器などを含むことができる。
【0128】
無論、説明の簡素化のために、
図11には、電子機器1100内の本開示に関連する一部のコンポーネントのみが示されており、バスや入力/出力インターフェースなどのコンポーネントは省略された。このほか、具体的な応用状況に応じて、電子機器1100は、適切な任意の他のコンポーネントをさらに含んでもよい。
【0129】
[例示的なコンピュータプログラム製品及びコンピュータ可読記憶媒体]
本開示の実施例は、上記の方法及び機器に加え、コンピュータプログラム命令を含むコンピュータプログラム製品であることができる。前記コンピュータプログラム命令がプロセッサによって実行されると、前記プロセッサに、本明細書の上記「例示的な方法」部分に記載の本開示の様々な実施例に係る空間幾何情報推定モデルの生成方法又は空間幾何情報の推定方法のステップを実行させる。
【0130】
前記コンピュータプログラム製品は、1つ又は複数のプログラミング言語の任意の組み合わせによって、本開示の実施例の操作を実行するためのプログラムコードを作成することができ、前記プログラミング言語は、Java(登録商標)、C++などのオブジェクト指向プログラミング言語を含むことができ、例えば「C」言語又は類似のプログラミング言語などの一般的な手続き型プログラミング言語さらにを含むことができる。プログラムコードは、下記のように実行されることができ、すなわち、ユーザコンピューティングデバイス上で全体的に実行されてもよいし、ユーザ機器部分的にで実行されてもよいし、独立したソフトウェアパッケージとして実行されてもよいし、一部はユーザコンピューティングデバイス上で実行され、別の一部は遠隔コンピューティングデバイス上で実行されてもよいし、遠隔コンピューティングデバイスもしくはサーバ上で全体的に実行されてもよい。
【0131】
また、本開示の実施例は、コンピュータプログラム命令が記憶されるコンピュータ可読記憶媒体であることもできる。前記コンピュータプログラム命令がプロセッサによって実行されると、前記プロセッサに、本明細書の上記「例示的な方法」部分に記載の本開示の様々な実施例に係る空間幾何情報推定モデルの生成方法又は空間幾何情報の推定方法のステップを実行させる。
【0132】
前記コンピュータ可読記憶媒体として、1種又は複数種の可読媒体の任意の組み合わせを採用することができる。可読媒体は、可読信号媒体又は可読記憶媒体であり得る。可読記憶媒体は、電気、磁気、光学、電磁気、赤外線、又は半導体のシステム、装置、又はデバイス、あるいはそれらの任意の組み合わせを含み得るが、これらに限定されない。可読記憶媒体のより具体的な例(非網羅的なリスト)には、1つ又は複数のワイヤを有する電気的接続、ポータブルディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ((EPROM:erasable programmable read-only memory又はフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD-ROM:compact disc read-only memory)、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせが含まれる。
【0133】
以上、具体的な実施例を参照しながら本開示の基本的原理を説明してきたが、本開示に言及された利点、長所、効果などは、例示に過ぎず、限定的なものではない。本開示の様々な実施例がそれらの利点、長所、効果を必ずしも備えることではない。また、上記開示の具体的な細部は、例示的な作用及び理解しやすい作用のためにのものにすぎず、限定的なものではなく、上記細部は、本開示を必ずしも上記具体的な詳細により実現されるように制限するものではない。
【0134】
本明細書における各実施例は、逐次的な方法で説明されており、各実施例では、主に他の実施例との相違点を重点として説明し、各実施例間の同一又は類似の部分は、互に参照すればよい。システムの実施例については、基本的に方法の実施例に対応するため、比較的簡単に説明したが、関連部分は方法の実施例の説明の一部を参照すればよい。
【0135】
本開示に係るデバイス、装置、機器、システムのブロック図は、単なる例示的なものに過ぎず、必ずしもブロック図に示すような方式で接続、配置、構成されることを要求又は暗示することを意図しない。当業者が理解できるように認識するように、これらのデバイス、装置、機器、システムを任意の形態で接続、レイアウト、配置することができる。例えば、「含む」、「備える」、「有する」などの単語は開放的語彙であり、「含むが限定されない」ことを指し、互いに置き換えて使用され得る。本明細書で使用される「又は」及び「及び」という用語は、「及び/又は」という用語を指し、そのようでないと明記しない限り、互いに置き換えて使用され得る。ここで使用される語彙「例えば」とは、「例えば、…であるが、これに限定されない」という連語を指し、互いに置き換えて使用され得る。
【0136】
本開示の方法及び装置は、多くの形態で実現され得る。例えば、本開示の方法及び装置は、ソフトウェア、ハードウェア、ファームウェア、又はソフトウェア、ハードウェア、ファームウェアのいかなる組み合わせで実現され得る。前記方法に使用されるステップの上記順序は、単なる説明のためのものであり、本開示の方法のステップは、特に他の形態で説明しない限り、以上具体的に説明された順序に限定されない。また、いくつかの実施例では、本開示は、記録媒体に記録されたプログラムとして実施されてもよく、これらのプログラムは、本開示に係る方法を実現するための機械読み取り可能な命令を含む。したがって、本開示に係る方法を実行するためのプログラムを記憶する記録媒体も本開示に含まれる
【0137】
また、本開示の装置、機器、及び方法において、各部材又は各ステップは、分解及び/又は再度組み合わせされてもよいことに指摘されたい。これらの分解及び/又は再度組み合わせは、本開示の同等な形態とみなされるべきである。
【0138】
開示された態様の上記の説明は、当業者が本開示を作成又は使用することを可能にするために提供される。これらの態様に対する様々な修正は、当業者にとって非常に明らかであり、本明細書で定義された一般的な原理は、本開示の範囲から逸脱することなく他の態様に適用され得る。したがって、本開示は、本明細書に示された態様に制限されることを意図しておらず、本明細書に開示された原理及び新規な特徴と一致する最も広い範囲に従うものである。
【0139】
上記の説明は、例示及び説明のために提供される。さらに、この説明は、本開示の実施例を本明細書に開示された形態に制限することを意図しない。以上、複数の例示的な態様及び実施例を説明したが、当業者であれば、それらの特定の変形、修正、変更、追加、及びサブコンビネーションを認識することができる。