(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-22
(45)【発行日】2024-01-30
(54)【発明の名称】画像処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム
(51)【国際特許分類】
G06T 7/55 20170101AFI20240123BHJP
【FI】
G06T7/55
(21)【出願番号】P 2022196549
(22)【出願日】2022-12-08
【審査請求日】2022-12-08
(31)【優先権主張番号】202210239492.4
(32)【優先日】2022-03-11
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100106518
【氏名又は名称】松谷 道子
(74)【代理人】
【識別番号】100189555
【氏名又は名称】徳山 英浩
(72)【発明者】
【氏名】孟 慶月
(72)【発明者】
【氏名】王 香偉
【審査官】千葉 久博
(56)【参考文献】
【文献】特開2018-195293(JP,A)
【文献】特開2012-212428(JP,A)
【文献】米国特許出願公開第2018/0189974(US,A1)
【文献】Feng Xue, 外5名,"Toward Hierarchical Self-Supervised Monocular Absolute Depth Estimation for Autonomous Driving Applications",2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS),IEEE,2020年10月24日,p.2330-2337
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/55
(57)【特許請求の範囲】
【請求項1】
プロセッサによって実行され、
目標画像に対して深度推定を行い、前記目標画像の相対深度マップを得ることと、
前記相対深度マップにおける地面部分に基づいて、画像収集装置の相対高度を得ることと、
前記画像収集装置の相対高度及び前記画像収集装置の絶対高度に基づいて、前記相対深度マップの相対スケールを得ることと、
前記相対スケール及び前記相対深度マップに基づいて、前記目標画像の絶対深度マップを得ることとを含
み、
前記目標画像はパノラマ画像を含んでおり、
ただし、前記目標画像に対して深度推定を行い、前記目標画像の相対深度マップを得ることは、
前記パノラマ画像に対して画像セグメンテーションを行い、前記パノラマ画像の複数の視角セグメンテーションマップを得ることと、
前記複数の視角セグメンテーションマップに対して深度推定を行い、前記複数の視角セグメンテーションマップと1対1で対応する複数の第1の相対深度マップを得ることとを含み、
前記複数の視角セグメンテーションマップは、前記パノラマ画像における各画素点をカバーするとともに、隣接方向の視角セグメンテーションマップの2つずつの間には重なり部分があり、
前記目標画像に対して深度推定を行い、前記目標画像の相対深度マップを得ることは、
前記隣接方向の視角セグメンテーションマップの2つずつの間の重なり部分に基づいて、前記複数の第1の相対深度マップに対してスケール調整を行い、複数の第2の相対深度マップを得ることをさらに含む、
画像処理方法。
【請求項2】
前記目標画像に対して語義分割を行い、前記目標画像における地面部分の位置情報を得ることと、
前記位置情報に基づいて、前記相対深度マップにおける地面部分を得ることとをさらに含む、
請求項1に記載の方法。
【請求項3】
前記相対深度マップにおける地面部分に基づいて、画像収集装置の相対高度を得ることは、
前記複数の第2の相対深度マップのうち少なくとも一部の第2の相対深度マップにおける地面部分に基づいて、地面方程式を得ることと、
前記地面方程式に基づいて、前記画像収集装置の相対高度を得ることとを含む、
請求項
1に記載の方法。
【請求項4】
目標画像に対して深度推定を行い、前記目標画像の相対深度マップを得るための深度推定モジュールと、
前記相対深度マップにおける地面部分に基づいて、画像収集装置の相対高度を得るための相対高度取得モジュールと、
前記画像収集装置の相対高度及び前記画像収集装置の絶対高度に基づいて、前記相対深度マップの相対スケールを得るための相対スケール取得モジュールと、
前記相対スケール及び前記相対深度マップに基づいて、前記目標画像の絶対深度マップを得るための絶対深度マップ取得モジュールとを含
み、
前記目標画像はパノラマ画像を含んでおり、
ただし、前記深度推定モジュールは、
前記パノラマ画像に対して画像セグメンテーションを行い、前記パノラマ画像の複数の視角セグメンテーションマップを得るためのセグメンテーション手段と、
前記複数の視角セグメンテーションマップに対して深度推定を行い、前記複数の視角セグメンテーションマップと1対1で対応する複数の第1の相対深度マップを得るための第1の相対深度マップ取得手段とを含み、
前記複数の視角セグメンテーションマップは、前記パノラマ画像における各画素点をカバーするとともに、隣接方向の視角セグメンテーションマップの2つずつの間には重なり部分があり、
前記深度推定モジュールは、
前記隣接方向の視角セグメンテーションマップの2つずつの間の重なり部分に基づいて、前記複数の第1の相対深度マップに対してスケール調整を行い、複数の第2の相対深度マップを得るための第2の相対深度マップ取得手段をさらに含む、
画像処理装置。
【請求項5】
前記目標画像に対して語義分割を行い、前記目標画像における地面部分の位置情報を得るための分割モジュールと、
前記位置情報に基づいて、前記相対深度マップにおける地面部分を得るための地面取得モジュールとをさらに含む、
請求項
4に記載の装置。
【請求項6】
前記相対高度取得モジュールは、
前記複数の第2の相対深度マップのうち少なくとも一部の第2の相対深度マップにおける地面部分に基づいて、地面方程式を得ることと、
前記地面方程式に基づいて、前記画像収集装置の相対高度を得ることとに用いられる、
請求項
4に記載の装置。
【請求項7】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリとを含む電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが請求項1~
3のいずれか一項に記載の方法を実行することができるように、前記少なくとも1つのプロセッサにより実行される、
電子機器。
【請求項8】
コンピュータ命令が記憶された非一時的なコンピュータ読取可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項1~
3のいずれか一項に記載の方法を実行させるために用いられる、
記憶媒体。
【請求項9】
プロセッサにより実行される場合に、請求項1~
3のいずれか一項に記載の方法を実現する、
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能の分野に関し、特にコンピュータ視覚、画像処理、3D視覚などの技術分野に関しており、自動運転及びインテリジェント交通などのシーンに適用できる。
【背景技術】
【0002】
深度情報は、自動運転システムの自身のポーズに対する感知及び推定にとって非常的に重要であり、ディープニューラルネットワークの急速な発展に伴い、ディープラーニングに基づく単眼深度推定は広く検討されている。現在の単眼深度推定の技術案は、主に、深度真値付けのデータに基づいて単眼深度推定ネットワークをトレーニングするか、または、監督なしの技術案に基づいて単眼深度推定ネットワークをトレーニングするものである。
【発明の概要】
【0003】
本開示は、画像処理方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供している。
【0004】
本開示の1つの局面によれば、
目標画像に対して深度推定を行い、目標画像の相対深度マップを得ることと、
相対深度マップにおける地面部分に基づいて、画像収集装置の相対高度を得ることと、
画像収集装置の相対高度及び画像収集装置の絶対高度に基づいて、相対深度マップの相対スケールを得ることと、
相対スケール及び相対深度マップに基づいて、目標画像の絶対深度マップを得ることとを含む、画像処理方法を提供している。
【0005】
本開示の別の局面によれば、
目標画像に対して深度推定を行い、目標画像の相対深度マップを得るための深度推定モジュールと、
相対深度マップにおける地面部分に基づいて、画像収集装置の相対高度を得るための相対高度取得モジュールと、
画像収集装置の相対高度及び画像収集装置の絶対高度に基づいて、相対深度マップの相対スケールを得るための相対スケール取得モジュールと、
相対スケール及び相対深度マップに基づいて、目標画像の絶対深度マップを得るための絶対深度マップ取得モジュールとを含む、画像処理装置を提供している。
【0006】
本開示の別の局面によれば、
少なくとも1つのプロセッサと、
該少なくとも1つのプロセッサと通信接続されたメモリとを含む電子機器であって、
該メモリには、該少なくとも1つのプロセッサにより実行可能な命令が記憶されており、該命令は、該少なくとも1つのプロセッサが本開示の何れかの実施例における方法を実行することができるように、該少なくとも1つのプロセッサにより実行される、電子機器を提供している。
【0007】
本開示の別の局面によれば、コンピュータ命令が記憶された非一時的なコンピュータ読取可能な記憶媒体であって、該コンピュータ命令は、コンピュータに本開示の何れかの実施例における方法を実行させるために用いられる、記憶媒体を提供している。
【0008】
本開示の別の局面によれば、プロセッサにより実行される場合に、本開示の何れかの実施例における方法を実現するコンピュータプログラムを提供している。
【0009】
本開示の技術によれば、目標画像の相対深度マップのうち画像収集装置の相対高度及び実際の画像収集装置の絶対高度により目標画像の相対深度マップの相対スケールを取得し、さらに目標画像の絶対深度マップを取得することができ、すなわち、目標画像の単眼相対深度及び画像収集装置の高度を取得するだけで、少量の計算により比較的に正確な目標画像の絶対深度を得ることができ、大量のデータ真値でトレーニングして得られた単眼絶対深度推定ネットワークを使用する必要がなく、深度推定精度を向上させながら、効率を向上させてコストを低減させている。
【0010】
理解されるべきこととして、本部分に記載されたコンテンツは、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。
【図面の簡単な説明】
【0011】
図面は、本技術案をよりよく理解するために用いられ、本開示を限定するものではない。
【0012】
【
図1】
図1は、本開示の一実施例による画像処理方法のフロー模式図一である。
【
図2】
図2は、本開示の一実施例による画像処理方法のフロー模式図二である。
【
図3】
図3は、本開示の一実施例による画像処理方法のフロー模式図三である。
【
図4】
図4は、本開示の一実施例による画像処理方法のフロー模式図四である。
【
図5】
図5は、本開示の一実施例による画像処理装置の模式図一である。
【
図6】
図6は、本開示の一実施例による画像処理装置の模式図二である。
【
図7】
図7は、本開示の一実施例による画像処理装置の模式図三である。
【
図8】
図8は、本開示の実施例の画像処理方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0013】
以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細が含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば分かるように、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することはない。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
【0014】
本開示の実施例の技術案の理解を容易にするために、以下に本開示の実施例の関連技術を説明し、以下に、関連技術は選択可能な技術案として本開示の実施例の技術案と任意的に組み合わせることができ、それはいずれも本開示の実施例の保護範囲に属する。
【0015】
現在、単眼深度推定のディープラーニングの技術案には、主に、以下のいくつかのものがある。
【0016】
1)大量の深度真値付けのデータに基づいて単眼深度推定ネットワークをトレーニングするものと、
2)監督なしの技術案に基づいて、単眼絶対深度推定ネットワークをトレーニングするものと、
3)大量の公開データ/自収集データに基づいて、ネットワークをトレーニングして、相対深度を得るものとがある。
【0017】
上記のディープラーニング技術案において、技術案1)では、すべてがデータ監督の技術案を採用して、取得された絶対深度が比較的に正確的なものであるが、大量のデータ真値に依存するので、コストが比較的に高い。
【0018】
技術案2)では、監督なしのトレーニング技術案を採用して、データを比較的に取得しやすいが、取得された絶対深度の精度が比較的に低いので、その後の使用に不利となる。
【0019】
技術案3)では、大量のデータが自収集データに由来するので、精度が比較的に高い深度を取得することができるが、絶対深度を取得することができない。
【0020】
そこで、本開示は、画像処理方法を提出しており、
図1は、本開示の一実施例による画像処理方法のフロー模式図であって、以下のことを含む:
S110:目標画像に対して深度推定を行い、目標画像の相対深度マップを得る;
S120:相対深度マップにおける地面部分に基づいて、画像収集装置の相対高度を得る;
S130:画像収集装置の相対高度及び画像収集装置の絶対高度に基づいて、相対深度マップの相対スケールを得る;
S140:相対スケール及び相対深度マップに基づいて、目標画像の絶対深度マップを得る。
【0021】
例示的に、ステップS110において、目標画像をトレーニング済みの相対深度推定ネットワークに入力して、目標画像の相対深度マップを得てもよい。該相対深度マップは、各画素点間の遠近関係を表すことができる。
【0022】
理解できるように、相対深度マップから画像収集装置の相対深度マップにおける相対高度を取得した後で、画像収集装置の絶対高度及び相対高度に基づいて、相対深度マップの相対スケールが得られており、相対スケールは、相対深度マップにおける相対深度と現実の絶対深度との比例関係を示している。相対深度マップの相対スケールに基づいて相対深度マップのうち各画素点の相対深度を絶対深度に変換し、目標画像の絶対深度マップが得られる。画像収集装置の絶対高度が固定値であって、簡単な人工方式により取得することができるため、上記ステップが依存されるデータ取得方式は効率が比較的に高い。
【0023】
上記実施例の方法によれば、目標画像の相対深度マップのうち画像収集装置の相対高度及び実際の画像収集装置の絶対高度により目標画像の相対深度マップの相対深度を取得し、さらに目標画像の絶対深度マップを取得することができ、大量のデータ真値でトレーニングして得られた単眼絶対深度推定ネットワークを使用する必要がなく、大量のデータ真値への依存から外れており、目標画像の単眼相対スケール及び画像収集装置の高度を取得するだけで、少量の計算により比較的に正確な目標画像の絶対深度を得ることができる。
【0024】
選択できるように、
図2に示すように、上記実施例における画像処理方法は、以下のことをさらに含む:
S210:目標画像に対して語義分割して、目標画像における地面部分の位置情報を得る;
S220:位置情報に基づいて、相対深度マップにおける地面部分を得る。
【0025】
例示的に、目標画像に対して語義分割することにより、目標画像における地面部分の位置情報、すなわち相対深度マップにおける地面部分の位置情報を得ることができる。相対深度マップにおいて地面部分の位置情報に基づいて、相対深度マップにおける地面部分を取得することができる。
【0026】
理解できるように、相対深度マップにおける地面部分を取得した後で、相対深度マップにおける地面部分の画素点と相対深度マップにおける原点との相対深度差を計算することにより、画像収集装置の相対深度マップにおける相対高度を得ることができ、ひいては、その後、画像収集装置の相対深度マップにおける相対高度と画像収集装置の絶対高度とを比較することにより、相対深度マップの相対スケールを取得することに有利となる。
【0027】
選択できるように、目標画像はパノラマ画像を含んでおり、上記実施例における画像処理方法はパノラマ画像の処理にも適用され、
図3に示すように、上記ステップS110は以下のことを含む:
S311:パノラマ画像に対して画像セグメンテーションを行い、パノラマ画像の複数の視角セグメンテーションマップを得る;
S312:複数の視角セグメンテーションマップに対して深度推定を行い、複数の視角セグメンテーションマップと1対1で対応する複数の第1の相対深度マップを得る。
【0028】
相対深度推定ネットワークがパノラマ画像を直接的に処理することができない場合に、本開示の実施例によれば、パノラマ画像の相対深度マップを取得する前に、パノラマ画像に対して画像セグメンテーションを行い、パノラマ画像の複数の視角セグメンテーションマップを得てもよく、相対深度推定ネットワークを利用して複数の視角セグメンテーションマップに対して深度推定を行なうことにより、複数の視角セグメンテーションマップと1対1で対応する複数の第1の相対深度マップを得ることができる。いくつかの適用シーンで、複数の視角セグメンテーションマップと1対1で対応する複数の第1の相対深度マップはパノラマ画像の相対深度マップと見なされる。
【0029】
上記実施例の方法によれば、パノラマ画像に対して深度推定を行なうときに、先ず、パノラマ画像に対して画像セグメンテーションを行い、複数の異なる視角のセグメンテーションマップによってパノラマ画像の特徴を示し、さらに、相対深度推定ネットワークを利用して複数の視角セグメンテーションマップを処理することにより、相対深度推定ネットワークに対する複雑度のニーズを低下させ、相対深度推定ネットワークをトレーニングするために必要なコストを低減させている。
【0030】
例示的に、上記実施例において、パノラマ画像に対して画像セグメンテーションを行った後で得られた複数の視角セグメンテーションマップは、パノラマ画像における各画素点をカバーするとともに、隣接方向の視角セグメンテーションマップの2つずつの間には重なり部分があり、
図3に示すように、上記ステップS110は以下のことをさらに含む:
S313:隣接方向の視角セグメンテーションマップの2つずつの間の重なり部分に基づいて、複数の第1の相対深度マップに対してスケール調整を行い、複数の第2の相対深度マップを得る。
【0031】
理解できるように、パノラマ画像に対して画像セグメンテーションを行う過程は、実際に、異なる視角方向にパノラマ画像に対してセグメンテーションを行うことにより、複数の普通画像、すなわち複数の視角セグメンテーションマップを得るものである。複数の視角セグメンテーションマップがパノラマ画像における各画素点をカバーするので、複数の視角セグメンテーションマップに対応する複数の相対深度マップはパノラマ画像の相対深度の状況を完全的に表すことができ、さらに、その後に得られた複数の視角セグメンテーションマップに対応する絶対深度マップは、パノラマ画像の絶対深度をさらに表すことができる。
【0032】
隣接方向の視角セグメンテーションマップに対応する第1の相対深度マップについては、2つの第1の相対深度マップをそれぞれ画像収集装置が位置する3次元座標系にマッピングし、隣接方向の視角セグメンテーションマップの2つずつの間には重なり部分があるので、2つの第1の相対深度マップが画像収集装置が位置する3次元座標系にマッピングされた後で、必ず重なる画素点があり、したがって、重なる画素点の2つの第1の相対深度マップにおける相対深度に基づいて、2つの第1の相対深度マップにおける相対深度の比例関係を取得することができる。すべての第1の深度マップについては、それぞれ、隣接する第1の深度マップの相対深度との比例関係を取得し、最後に、比例関係に基づいてすべての第1の深度マップにおける相対深度を同一のスケールに区分してもよく、さらに、このスケールに基づいて取得された複数の第1の相対深度マップに対してスケール調整を行い、複数の第2の相対深度マップを取得することにより、複数の第2の相対深度マップにおける相対深度を同一のスケールに位置させる。いくつかの適用シーンで、複数の視角セグメンテーションマップと1対1で対応する複数の第2の相対深度マップはパノラマ画像の相対深度マップと見なされる。
【0033】
上記実施例の方法によれば、パノラマ画像に対して画像セグメンテーションを行うときに、取得された複数の視角セグメンテーションマップはパノラマ画像における各画素点をカバーすることで、その後に画像処理を経った後で複数の視角セグメンテーションマップと1対1で対応する複数の絶対深度マップがパノラマ画像の絶対深度を完全に表すことができることを保証している。同時に、隣接方向の視角セグメンテーションマップの2つずつの間には重なり部分があるので、重なり部分を利用して複数の視角セグメンテーションマップに対応する複数の第1の相対深度マップを同一のスケールに区分して、複数の第2の相対深度マップを取得することができ、これにより、後続の統一標準と画像収集装置の実際高度との比較に有利となる。
【0034】
例示的に、上記実施例におけるパノラマ画像に対する画像処理方法によれば、
図4に示すように、上記ステップS120は以下のことを含んでもよい:
S421:複数の第2の相対深度マップにおける少なくとも一部の第2の相対深度マップにおける地面部分に基づいて、地面方程式を得る;
S422:地面方程式に基づいて画像収集装置の相対高度を得る。
【0035】
理解できるように、上記のパノラマ画像に対してセグメンテーションを行った後の複数の視角セグメンテーションマップには、個別の視角セグメンテーションマップに地面部分が含まれないものが存在するので、地面部分が含まれる視角セグメンテーションマップに対応する一部の第2の相対深度マップに基づいて他の地面部分の画素点及び原点をそれぞれ取得することができる。地面部分の画素点及び原点に対応する相対深度情報に基づいて、地面方程式を取得する。
【0036】
地面方程式は以下の通りである。
xcosα+ycosβ+zcosγ=p
【0037】
ただし、x、y、zは地面部分の画素点の相対深度情報であり、cosα、cosβ、cosγは平面法線ベクトルの方向余弦であり、pは原点と平面との相対深度差であり、原点から平面までの距離、すなわち画像収集装置の第2の相対深度マップにおける相対高度を示している。
【0038】
複数の第2の相対深度マップから取得された相対高度同士の間に誤差が存在することに鑑って、複数の相対高度の平均値を画像収集装置の相対高度としてもよい。
【0039】
上記実施例の方法によれば、複数の第2の相対深度マップのうち地面部分が含まれる第2の相対深度マップを利用して、平面方程式により画像収集装置の相対高度を取得しており、平均値の計算により誤差による影響を低減させ、その後に取得されるパノラマ画像の絶対深度の正確度を向上させている。
【0040】
以下、パノラマ画像に対する画像処理を例として、上記画像処理方法がパノラマ画像の処理に適用される具体的なフローを具体的に示している:
1)目標画像とするパノラマ画像に対して画像セグメンテーションを行い、複数の異なる視角の視角セグメンテーションマップを取得し、ただし、画像セグメンテーションの過程では、隣接する視角の視角セグメンテーションマップ間に一定の重なり部分があることを保証する必要があり、かつ、取得された複数の異なる視角の視角セグメンテーションマップが目標パノラマ画像のすべての画素点をカバーする必要がある;
2)複数の視角セグメンテーションマップに対して語義分割を行い、地面部分が含まれる視角セグメンテーションマップにおける地面部分の位置情報を得る;
3)トレーニング済みの相対深度推定ネットワークを利用して、複数の視角セグメンテーションマップに対応する複数の第1の相対深度マップを取得し、隣接する視角の視角セグメンテーションマップに対応する第1の相対深度マップを2つずつ画像収集装置の3次元座標系にマッピングし、その重なり部分の画素点の相対深度を比較し、最終的に、複数の第1の相対深度マップにおける相対深度を同一のスケールに区分し、調整して複数の第1の相対深度マップに対応する複数の第2の相対深度マップを得る;
4)地面部分が含まれる視角セグメンテーションマップにおける地面部分の位置情報に基づいて、複数の第2の相対深度マップのうち地面部分が含まれる視角セグメンテーションマップに対応する一部の第2の相対深度マップにおける地面部分を取得し、地面方程式に基づいて画像収集装置のこれらの第2の相対深度マップにおける複数の相対高度を取得し、複数の相対高度について平均値を求めて画像収集装置のパノラマ画像における相対高度とする;
5)画像収集装置の目標パノラマ画像における相対高度及び画像収集装置の実際高度に基づいて、複数の第2の相対深度マップにおける相対深度と絶対深度との相対スケールを取得し、さらに相対スケールに基づいて複数の第2の相対深度マップを調整することにより、複数の第2の絶対深度マップが得られており、複数の第2の絶対深度マップに対応する視角セグメンテーションマップは目標パノラマ画像のすべての画素点をカバーしているので、複数の第2の絶対深度マップに基づいて目標パノラマ画像の絶対深度マップを得ることができる。
【0041】
さらに、上記実施例における画像収集装置は、自動運転車両の車載カメラ又は道路交通監視用の広角カメラなどであってもよく、ここで限定されない。処理しようとする目標パノラマ画像が無人車両又は自動運転車両の車載カメラで撮影されるパノラマ画像であるときに、自動運転システムの目標パノラマ画像に対する処理は、以下のようなものであってもよい:
1)パノラマ画像に対して上下左右前後の6方向に基づいて画像セグメンテーションを行い、ただし、前後左右の4方向の視角セグメンテーションマップは、時計回りまたは反時計回りに従って2つずつの間が30°の視角重なりでセグメンテーションを行ってもよく、上下の2方向の視角セグメンテーションマップは、前後左右の4方向の視角セグメンテーションマップのいずれとの間にも30°の視角重なりが保留される;
2)前後左右の4方向の視角セグメンテーションマップに対して語義分割を行い、地面部分のそれぞれの4つの視角セグメンテーションマップにおける位置情報を得る;
3)深度推定ネットワークを利用して6つの視角セグメンテーションマップを処理して、6方向の第1の相対深度マップを得ており、前後左右の4方向の第1の相対深度マップに対して2つずつの間の重なり部分に従って比例関係を取得し、上下の2方向の第1の相対深度マップについて、これらの2つの第1の相対深度マップは前後左右の4方向の第1の相対深度マップのいずれとも重なり部分があるので、前後左右の4方向の第1の相対深度マップにおける各々の方向との比例関係をそれぞれ取得し、平均値で上下の2方向の第1の相対深度マップと他の第1の相対深度マップとの最終的な比例関係を特定し、さらに比例関係により上下左右前後の6方向における第2の相対深度マップを調整し得られる;
4)前後左右の4方向の視角セグメンテーションマップにおける地面部分の位置情報に基づいて、前後左右の4方向の第2の相対深度マップにおける地面部分を取得し、地面方程式に基づいて車載カメラの4つの第2の相対深度マップにおける相対高度を取得し、4つの相対高度の平均値を車載カメラの4つの第2の相対深度マップにおける最終的な相対高度とする;
5)最終的な相対高度及び車載カメラの実際高度に基づいて、上下左右前後の6方向の第2の相対深度マップにおける相対深度及び絶対深度の相対スケールを取得し、さらに6方向の第2の相対深度マップを調整して上下左右前後の6方向の絶対深度マップを取得しており、上下左右前後の6方向の絶対深度マップにより、目標パノラマ画像における各画素点の絶対深度を反映しており、これは自動運転システムの自身ポーズに対する感知及び推定に有利となる。
【0042】
以上、異なる局面から、本願の実施例の具体的な設置及び実現方式を説明した。上記実施例により提供される方法によれば、目標画像の単眼相対スケール及び画像収集装置の高度しか取得できない場合に、少量の計算により比較的に正確な目標画像の絶対深度を得ることができ、大量のデータ真値への依存から外れ、かつ、パノラマ画像の単眼絶対深度推定に用いられ、迅速かつ効率的に目標画像の絶対深度を取得することができる。
【0043】
図5は、本願の一実施例による画像処理装置の模式図であって、該装置は、
目標画像に対して深度推定を行い、目標画像の相対深度マップを得るための深度推定モジュール510と、
相対深度マップにおける地面部分に基づいて、画像収集装置の相対高度を得るための相対高度取得モジュール520と、
画像収集装置の相対高度及び画像収集装置の絶対高度に基づいて、相対深度マップの相対スケールを得るための相対スケール取得モジュール530と、
相対スケール及び相対深度マップに基づいて、目標画像の絶対深度マップを得るための絶対深度マップ取得モジュール540とを含む。
【0044】
例示的に、
図6に示すように、上記装置は、
目標画像に対して語義分割を行い、目標画像における地面部分の位置情報を得るための分割モジュール610と、
位置情報に基づいて、相対深度マップにおける地面部分を得るための地面取得モジュール620とをさらに含む。
【0045】
選択できるように、上記画像処理装置により処理される目標画像はパノラマ画像を含んでおり、
図7に示すように、深度推定モジュール510は、
パノラマ画像に対して画像セグメンテーションして、パノラマ画像の複数の視角セグメンテーションマップを得るためのセグメンテーション手段711と、
複数の視角セグメンテーションマップに対して深度推定して、複数の視角セグメンテーションマップと1対1で対応する複数の第1の相対深度マップを得るための第1の相対深度マップ取得手段712とを含む。
【0046】
例示的に、上記画像処理装置により取得される複数の視角セグメンテーションマップは目標パノラマ画像における各画素点をカバーするとともに、隣接方向の視角セグメンテーションマップの2つずつの間には重なり部分がある。
【0047】
図7に示すように、深度推定モジュール511は、
隣接方向の視角セグメンテーションマップの2つずつの間の重なり部分に基づいて、複数の第1の相対深度マップに対してスケール調整を行い、複数の第2の相対深度マップを得るための第2の相対深度マップ取得手段713をさらに含む。
【0048】
選択できるように、上記相対高度取得モジュール520は、具体的に、
複数の第2の相対深度マップのうち少なくとも一部の第2の相対深度マップにおける地面部分に基づいて、地面方程式を得ることと、
地面方程式に基づいて画像収集装置の相対高度を得ることとに用いられる。
【0049】
本開示の実施例の各装置における各手段、モジュール又はサブモジュールの機能は、上記方法実施例における対応説明を参照することができ、該当する特別な効果を奏し、ここでは説明を繰り返さない。
【0050】
本開示の技術案では、係られたユーザ個人情報の取得、記憶、及び応用などは、いずれも関連法律や法規の規定に合致しており、公序良俗に反していない。
【0051】
本開示の実施例によれば、本開示は、電子機器、読取可能な記憶媒体及びコンピュータプログラムをさらに提供している。
【0052】
図8は、本開示の実施例を実施するために用いられる例示的電子機器800の模式的ブロック図を示している。電子機器は、様々な形式のデジタルコンピュータを示すことを目的とし、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ及び他の適切なコンピュータである。電子機器は、さらに様々な形式の移動装置を示してもよく、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器及び他の類似的な演算装置である。本明細書に示された部品、それらの接続及び関係、並びにそれらの機能は、例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定しない。
【0053】
図8に示すように、機器800は、計算手段801を含み、計算手段801は、リードオンリーメモリ(ROM)802に記憶されたコンピュータプログラム又は記憶手段808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行してもよい。RAM803には、さらに機器800の操作に必要な様々なプログラム及びデータが記憶されてもよい。計算手段801、ROM802、及びRAM803は、バス804を介して相互に接続される。入力/出力(I/O)インターフェース805も、バス804に接続される。
【0054】
機器800における複数の部品は、I/Oインターフェース805に接続され、例えばキーボード、マウス等の入力手段806と、例えば様々な種類のディスプレイ、スピーカ等の出力手段807と、例えば磁気ディスク、光ディスク等の記憶手段808と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信手段809とを含む。通信手段809は、機器800がインターネット等のコンピュータネットワーク及び/又は各種の電気ネットワークを介して他の機器と情報・データをやり取りすることを可能にする。
【0055】
計算手段801は、処理及び演算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。計算手段801の幾つかの例として、中央処理ユニット(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、各種機械学習モデルアルゴリズムをランニングする演算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算手段801は、前文で記載された各方法及び処理、例えば画像処理方法を実行する。例えば、幾つかの実施例において、画像処理方法は、例えば記憶手段808のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM802及び/又は通信手段809を介して機器800にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM803にロードされて計算手段801により実行される場合、前文に記載の画像処理方法の1つ又は複数のステップを実行してもよい。代替的に、他の実施例において、計算手段801は、他の任意の適切な方式(例えば、ファームウェアを介する)により画像処理方法を実行するように構成されてもよい。
【0056】
本明細書で以上に説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス (CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行され及び/又は解釈されることが可能であり、該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができることを含んでもよい。
【0057】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
【0058】
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。
【0059】
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、語音入力、又は触覚入力を含む)でユーザからの入力を受信してもよい。
【0060】
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
【0061】
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバはクラウドサーバであってもよく、分散型システムのサーバであってもよく、又はブロックチェーンを組み合わせたサーバであってもよい。
【0062】
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本発開示に記載の各ステップは、並列に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示に開示された技術案が所望する結果を実現することができれば、本明細書はここで限定されない。
【0063】
以上説明した画像処理方法、装置、電子機器、記憶媒体及びコンピュータプログラムは、以下のように表現することができる。
【0064】
第1態様の画像処理方法は、
目標画像に対して深度推定を行い、前記目標画像の相対深度マップを得ることと、
前記相対深度マップにおける地面部分に基づいて、画像収集装置の相対高度を得ることと、
前記画像収集装置の相対高度及び前記画像収集装置の絶対高度に基づいて、前記相対深度マップの相対スケールを得ることと、
前記相対スケール及び前記相対深度マップに基づいて、前記目標画像の絶対深度マップを得ることとを含む。
【0065】
第2態様の画像処理方法は、
第1態様に記載の画像処理方法であって、
前記目標画像に対して語義分割を行い、前記目標画像における地面部分の位置情報を得ることと、
前記位置情報に基づいて、前記相対深度マップにおける地面部分を得ることとをさらに含む。
【0066】
第3態様の画像処理方法は、
第1又は第2態様に記載の画像処理方法であって、
前記目標画像はパノラマ画像を含んでおり、
ただし、前記目標画像に対して深度推定を行い、前記目標画像の相対深度マップを得ることは、
前記パノラマ画像に対して画像セグメンテーションを行い、前記パノラマ画像の複数の視角セグメンテーションマップを得ることと、
前記複数の視角セグメンテーションマップに対して深度推定を行い、前記複数の視角セグメンテーションマップと1対1で対応する複数の第1の相対深度マップを得ることとを含む。
【0067】
第4態様の画像処理方法は、
第3態様に記載に画像処理方法であって、
前記複数の視角セグメンテーションマップは、前記パノラマ画像における各画素点をカバーするとともに、隣接方向の視角セグメンテーションマップの2つずつの間には重なり部分があり、
前記目標画像に対して深度推定を行い、前記目標画像の相対深度マップを得ることは、
前記隣接方向の視角セグメンテーションマップの2つずつの間の重なり部分に基づいて、前記複数の第1の相対深度マップに対してスケール調整を行い、複数の第2の相対深度マップを得ることをさらに含む。
【0068】
第5態様の画像処理方法は、
第4態様に記載の画像処理方法であって、
前記相対深度マップにおける地面部分に基づいて、画像収集装置の相対高度を得ることは、
前記複数の第2の相対深度マップのうち少なくとも一部の第2の相対深度マップにおける地面部分に基づいて、地面方程式を得ることと、
前記地面方程式に基づいて、前記画像収集装置の相対高度を得ることとを含む。
【0069】
第6態様の画像処理装置は、
目標画像に対して深度推定を行い、前記目標画像の相対深度マップを得るための深度推定モジュールと、
前記相対深度マップにおける地面部分に基づいて、画像収集装置の相対高度を得るための相対高度取得モジュールと、
前記画像収集装置の相対高度及び前記画像収集装置の絶対高度に基づいて、前記相対深度マップの相対スケールを得るための相対スケール取得モジュールと、
前記相対スケール及び前記相対深度マップに基づいて、前記目標画像の絶対深度マップを得るための絶対深度マップ取得モジュールとを含む。
【0070】
第7態様の画像処理装置は、
第6態様に記載の画像処理装置であって、
前記目標画像に対して語義分割を行い、前記目標画像における地面部分の位置情報を得るための分割モジュールと、
前記位置情報に基づいて、前記相対深度マップにおける地面部分を得るための地面取得モジュールとをさらに含む。
【0071】
第8態様の画像処理装置は、
第6又は第7態様に記載の画像処理装置であって、
前記目標画像はパノラマ画像を含んでおり、
ただし、前記深度推定モジュールは、
前記パノラマ画像に対して画像セグメンテーションを行い、前記パノラマ画像の複数の視角セグメンテーションマップを得るためのセグメンテーション手段と、
前記複数の視角セグメンテーションマップに対して深度推定を行い、前記複数の視角セグメンテーションマップと1対1で対応する複数の第1の相対深度マップを得るための第1の相対深度マップ取得手段とを含む。
【0072】
第9態様の画像処理装置は、
第8態様に記載の画像処理装置であって、
前記複数の視角セグメンテーションマップは、前記パノラマ画像における各画素点をカバーするとともに、隣接方向の視角セグメンテーションマップの2つずつの間には重なり部分があり、
前記深度推定モジュールは、
前記隣接方向の視角セグメンテーションマップの2つずつの間の重なり部分に基づいて、前記複数の第1の相対深度マップに対してスケール調整を行い、複数の第2の相対深度マップを得るための第2の相対深度マップ取得手段をさらに含む。
【0073】
第10態様の画像処理装置は、
第9態様に記載の画像処理装置であって、
前記相対高度取得モジュールは、
前記複数の第2の相対深度マップのうち少なくとも一部の第2の相対深度マップにおける地面部分に基づいて、地面方程式を得ることと、
前記地面方程式に基づいて、前記画像収集装置の相対高度を得ることとに用いられる。
【0074】
第11態様の電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリとを含む電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが第1~5態様のいずれか1項に記載の方法を実行することができるように、前記少なくとも1つのプロセッサにより実行される。
【0075】
第12態様の記憶媒体は、
コンピュータ命令が記憶された非一時的なコンピュータ読取可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに第1~5態様のいずれか1つに記載の方法を実行させるために用いられる、
記憶媒体である。
【0076】
第13態様のコンピュータプログラムは、
プロセッサにより実行される場合に、第1~5態様のいずれか1つに記載の方法を実現する、
コンピュータプログラムである。
【0077】
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要求及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。