(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-12
(45)【発行日】2022-08-22
(54)【発明の名称】両眼画像の深度推定方法及び装置、機器、プログラム並びに媒体
(51)【国際特許分類】
G06T 7/00 20170101AFI20220815BHJP
G06T 7/55 20170101ALI20220815BHJP
G06N 3/04 20060101ALI20220815BHJP
G02B 30/20 20200101ALI20220815BHJP
【FI】
G06T7/00 350C
G06T7/55
G06N3/04 154
G02B30/20
(21)【出願番号】P 2020522837
(86)(22)【出願日】2019-04-12
(86)【国際出願番号】 CN2019082549
(87)【国際公開番号】W WO2020019765
(87)【国際公開日】2020-01-30
【審査請求日】2020-04-22
(31)【優先権主張番号】201810847268.7
(32)【優先日】2018-07-27
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】518209698
【氏名又は名称】シェンチェン センスタイム テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】SHENZHEN SENSETIME TECHNOLOGY CO.,LTD
(74)【代理人】
【識別番号】110001427
【氏名又は名称】弁理士法人前田特許事務所
(72)【発明者】
【氏名】シアオ ルイチャオ
(72)【発明者】
【氏名】スン ウェンシウ
(72)【発明者】
【氏名】ヤン チョンシー
【審査官】宮島 潤
(56)【参考文献】
【文献】特開2012-253666(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06N 3/00 - 3/12
G06N 7/08 - 99/00
G02B 27/00 - 30/60
(57)【特許請求の範囲】
【請求項1】
処理対象である両眼画像を事前にトレーニング済みの所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得るステップであって、前記視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈し、前記所定ニューラルネットワークが、信頼度アノテーションを教師データとせずに、教師無しの学習方式でトレーニングして得られたものであり、前記所定分布は、ラプラス分布又はガウス分布であり、前記離散パラメータは標準偏差パラメータを含むステップと、
前記信頼度画像を用いて前記視差画像における誤りが発生可能な領域を検出し、前記視差画像に基づいて、前記処理対象である両眼画像の深度画像を取得するステップと、を含む両眼画像の深度推定方法。
【請求項2】
前記視差画像内の各画素の信頼度及び該画素の前記所定分布における離散パラメータに基づいて損失関数を算出し、前記損失関数を用いて、前記所定ニューラルネットワークをトレーニングするステップを更に含み、前記損失関数は、前記視差画像と実視差画像との差異を表す、請求項1に記載の方法。
【請求項3】
前記損失関数は、正則化項と、前記視差画像内の各画素の前記損失関数における重みを調整するフォーカス損失項とを含む請求項2に記載の方法。
【請求項4】
前記正則化項は、前記視差画像内の各画素の信頼度により得られる正則化項、及
び所定ニューラルネットワークパラメータにより得られる正則化項を含む請求項3に記載の方法。
【請求項5】
前記視差画像内の各画素の信頼度及び該画素の前記所定分布における離散パラメータに基づいて前記損失関数を算出するステップは、
前記視差画像とその前記信頼度画像、及び前記所定ニューラルネットワークパラメータと前記実視差画像に基づいて、前記所定ニューラルネットワークパラメータに関する尤度関数を取得するステップと、
前記視差画像内の各画素の前記所定分布に基づいて、前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係を取得するステップと、
前記所定ニューラルネットワークパラメータを前記所定分布に従わせ、前記視差画像内の各画素の信頼度を非逓減分布に従わせて、前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係、前記所定ニューラルネットワークパラメータが前記所定分布に従うこと、及び、前記視差画像内の各画素の信頼度が非逓減分布に従うことに基づいて、前記尤度関数に対して負対数を取って、前記損失関数を取得するステップと、を含む請求項4に記載の方法。
【請求項6】
前記所定分布がラプラス分布である場合、前記損失関数は、前記視差画像と前記実視差画像内の各画素の視差値との差の絶対値と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む請求項5に記載の方法。
【請求項7】
所定分布がガウス分布である場合、前記損失関数は、前記視差画像と前記実視差画像内の各画素の視差値との差の平方と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む請求項5に記載の方法。
【請求項8】
処理対象である両眼画像を事前にトレーニング済みの所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得る視差画像取得ユニットであって、前記視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈し、前記所定ニューラルネットワークが、信頼度アノテーションを教師データとせずに、教師無しの学習方式でトレーニングして得られたものであり、前記所定分布は、ラプラス分布又はガウス分布であり、前記離散パラメータは標準偏差パラメータを含む視差画像取得ユニットと、
前記信頼度画像を用いて前記視差画像における誤りが発生可能な領域を検出し、前記視差画像に基づいて、前記処理対象である両眼画像の深度画像を取得する深度画像取得ユニットと、を含む両眼画像の深度推定装置。
【請求項9】
請求項8に記載の装置を含む電子機器。
【請求項10】
実行可能コマンドを記憶するメモリと、
前記実行可能コマンドを実行して請求項1~7のいずれか一項に記載の方法を完了するプロセッサと、を含む電子機器。
【請求項11】
コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが機器上で作動する時に、前記機器におけるプロセッサが請求項1~7のいずれか一項に記載の方法を実現するためのコマンドを実行するコンピュータプログラム。
【請求項12】
コンピュータ可読コマンドを記憶し、前記
コンピュータ可読コマンドが実行される時に請求項1~7のいずれか一項に記載の方法が実現されるコンピュータ記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、出願番号が201810847268.7で、出願日が2018年7月27日である中国特許出願に基づいて提出され、且つ該中国特許出願の優先権を主張する。
【0002】
本願は、コンピュータビジョン技術に関し、特に、両眼画像の深度推定方法及び装置、電子機器、コンピュータプログラム並びに記憶媒体に関する。
【背景技術】
【0003】
機械学習技術が進むに伴って、深度学習ネットワークは、自動運転等の多くの現実的シーンで適用されている。これらの適用では予測結果が非常に重要なものであり、特に、深度学習に基づく回帰任務、例えば、両眼の立体的なマッチングで、通常、予測結果が正確であると仮定されている。しかしながら、このような仮定が合理的なものでなく、誤って予測された画素が非常に重要な領域、例えば、細かくて小さい障害物にある場合に、深度学習に基づく回避システムの故障を招くことがある。また、これらの深度学習ネットワークを他のシーンに配置する時にも、芳しくない結果、更に合理的でない結果を招くことがある。
【発明の概要】
【0004】
本願の実施例は、両眼画像の深度推定手段を提供する。
【0005】
本願の実施例の一態様によれば、
処理対象である両眼画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得るステップであって、前記視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈するステップと、
前記視差画像に基づいて、前記処理対象である両眼画像の深度画像を取得するステップと、を含む両眼画像の深度推定方法を提供する。
【0006】
選択可能に、本願の上記方法実施例では、処理対象である両眼画像を所定ニューラルネットワークに入力して、信頼度画像を得る前記ステップは、
前記処理対象である両眼画像を両眼立体マッチングニューラルネットワークにより処理した後、2つの畳み込み層と1つの正規化層によって順に処理して前記信頼度画像を得るステップを含む。
【0007】
選択可能に、本願の上記のいずれか1つの方法実施例では、
前記視差画像内の各画素の信頼度及び該画素の前記所定分布における離散パラメータに基づいて算出された損失関数を用いて、前記所定ニューラルネットワークをトレーニングするステップを更に含む。
【0008】
選択可能に、本願の上記のいずれか1つの方法実施例では、前記損失関数は、正則化項と、前記視差画像内の各画素の前記損失関数における重みを調整するフォーカス損失項とを含む。
【0009】
選択可能に、本願の上記のいずれか1つの方法実施例では、前記正則化項は、信頼度に関連する正則化項、及び所定ニューラルネットワークパラメータに関連する正則化項を含む。
【0010】
選択可能に、本願の上記のいずれか1つの方法実施例では、前記視差画像内の各画素の信頼度及び該画素の前記所定分布における離散パラメータに基づいて前記損失関数を算出するステップは、
前記視差画像とその前記信頼度画像、及び前記所定ニューラルネットワークパラメータと実視差画像に基づいて、前記所定ニューラルネットワークパラメータに関する尤度関数を取得するステップと、
前記視差画像内の各画素の従う前記所定分布に基づいて、前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係を取得するステップと、
前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係に基づいて、前記所定ニューラルネットワークパラメータが前記所定分布に従い、前記視差画像内の各画素の信頼度が非逓減分布に従うことに基づいて、前記尤度関数に対して負対数を取って、前記損失関数を取得するステップと、を含む。
【0011】
選択可能に、本願の上記のいずれか1つの方法実施例では、前記所定分布は、ラプラス分布又はガウス分布を含む。
【0012】
選択可能に、本願の上記のいずれか1つの方法実施例では、前記所定分布がラプラス分布であることに応じて、前記損失関数は、前記視差画像と実視差画像内の各画素の視差値との差の絶対値と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。
【0013】
選択可能に、本願の上記のいずれか1つの方法実施例では、所定分布がガウス分布であることに応じて、前記損失関数は、前記視差画像と実視差画像内の各画素の視差値との差の平方と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。
【0014】
本願の実施例の別の態様によれば、
処理対象である両眼画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得るように構成される視差画像取得ユニットであって、前記視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈する視差画像取得ユニットと、
前記視差画像に基づいて、前記処理対象である両眼画像の深度画像を取得するように構成される深度画像取得ユニットと、を含む両眼画像の深度推定装置を提供する。
【0015】
選択可能に、本願の上記装置実施例では、前記視差画像取得ユニットは、前記処理対象である両眼画像を両眼立体マッチングニューラルネットワークにより処理した後、2つの畳み込み層と1つの正規化層によって順に処理して前記信頼度画像を得るように構成される。
【0016】
選択可能に、本願の上記のいずれか1つの装置実施例では、
前記視差画像内の各画素の信頼度及び該画素の前記所定分布における離散パラメータに基づいて算出された損失関数を用いて、前記所定ニューラルネットワークをトレーニングするように構成されるニューラルネットワークトレーニングユニットを更に含む。
【0017】
選択可能に、本願の上記のいずれか1つの装置実施例では、前記損失関数は、正則化項と、前記視差画像内の各画素の前記損失関数における重みを調整するフォーカス損失項とを含む。
【0018】
選択可能に、本願の上記のいずれか1つの装置実施例では、前記正則化項は、信頼度に関連する正則化項、及び所定ニューラルネットワークパラメータに関連する正則化項を含む。
【0019】
選択可能に、本願の上記のいずれか1つの装置実施例では、前記ニューラルネットワークトレーニングユニットは、
前記視差画像とその前記信頼度画像、及び前記所定ニューラルネットワークパラメータと実視差画像に基づいて、前記所定ニューラルネットワークパラメータに関する尤度関数を取得し、前記視差画像内の各画素の従う前記所定分布に基づいて、前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係を取得し、前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係に基づいて、前記所定ニューラルネットワークパラメータが前記所定分布に従い、前記視差画像内の各画素の信頼度が非逓減分布に従うことに基づいて、前記尤度関数に対して負対数を取って、前記損失関数を取得するように構成される損失関数取得モジュールを含む。
【0020】
選択可能に、本願の上記のいずれか1つの装置実施例では、前記所定分布は、ラプラス分布又はガウス分布を含む。
【0021】
選択可能に、本願の上記のいずれか1つの装置実施例では、所定分布がラプラス分布であることに応じて、前記損失関数は、前記視差画像と実視差画像内の各画素の視差値との差の絶対値と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。
【0022】
選択可能に、本願の上記のいずれか1つの装置実施例では、所定分布がガウス分布であることに応じて、前記損失関数は、前記視差画像と実視差画像内の各画素の視差値との差の平方と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。
【0023】
本願の実施例の更に別の態様によれば、上記のいずれか1つの実施例に記載の装置を含む電子機器を提供する。
【0024】
本願の実施例のまた1つの態様によれば、
実行可能コマンドを記憶するように構成されるメモリと、
前記実行可能コマンドを実行して上記のいずれか1つの実施例に記載の方法を完了するように構成されるプロセッサと、を含む電子機器を提供する。
【0025】
本願の実施例のまた1つの態様によれば、コンピュータ可読コードを含むコンピュータプログラムをであって、前記コンピュータ可読コードが機器上で作動する時に、前記機器におけるプロセッサが上記のいずれか1つの実施例に記載の方法を実現するためのコマンドを実行するコンピュータプログラムを提供する。
【0026】
本願の実施例のまた1つの態様によれば、コンピュータ可読コマンドを記憶し、前記コマンドが実行される時に上記のいずれか1つの実施例に記載の方法が実現されるように構成されるコンピュータ記憶媒体を提供する。
【0027】
本願の上記実施例で提供される両眼画像の深度推定方法及び装置、電子機器、コンピュータプログラム並びに記憶媒体によれば、処理対象である両眼画像の左視界画像と右視界画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得、視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈し、次に視差画像に基づいて、処理対象である両眼画像の深度画像を取得することによって、所定ニューラルネットワークで視差画像を得ると同時に、対応する信頼度画像を得、そのように、信頼度アノテーションを教師データとせずに、教師無しの学習方式で視差画像に対応する信頼度画像を得ることができ、信頼度は、視差画像内の各画素の所定分布における離散パラメータが該画素の信頼度と負の相関関係を呈するという物理的な意義を有するので、信頼度画像を用いて視差画像における誤りが発生可能な領域を検出して、視差画像の解析に寄与して、より精確な深度画像を取得することができる。
【0028】
以下、図面及び実施例を通じて本願の技術的手段をさらに詳しく説明する。
【図面の簡単な説明】
【0029】
明細書の一部を構成する図面は、本願の実施例を説明し、その説明と共に本願の原理を解釈することに用いられる。
【0030】
図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。
【
図1】本願のいくつかの実施例の両眼画像の深度推定方法のフローチャートである。
【
図2】本願のいくつかの実施例で信頼度を含む損失関数を取得するフローチャートである。
【
図3】本願のいくつかの実施例の両眼画像の深度推定装置の構造模式図である。
【
図4】本願のいくつかの実施例で提供される電子機器の構造模式図である。
【発明を実施するための形態】
【0031】
ここで、図面を参照しながら本願の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本願の範囲を限定するものではないことに注意すべきである。
【0032】
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
【0033】
以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本願及びその適用または使用へのなんらの制限にもならない。
【0034】
関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。
【0035】
なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
【0036】
本願の実施例はコンピュータシステム/サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム/サーバとの併用に適する公知の計算システム、環境及び/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び前記の任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
【0037】
コンピュータシステム/サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能コマンド(例えば、プログラムモジュール)の一般的な言語環境において記述できる。通常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでよく、それらは特定の任務を実行するかまたは特定の抽象データ型を実現する。コンピュータシステム/サーバは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、任務は通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してよい。
【0038】
図1は本願のいくつかの実施例の両眼画像の深度推定方法のフローチャートである。
【0039】
図1に示すように、該方法は、以下のステップを含む。
【0040】
102において、処理対象である両眼画像を所定ニューラルネットワークに入力して、視差画像及びその信頼度画像を得る。
【0041】
本実施例では、処理対象である両眼画像は、ビデオカメラ等のような画像取得装置で直接入手された画像であってもよく、USBメモリ等のような記憶装置から入手された予め記憶された画像であってもよく、更にネットワークを経由してウェブサーバから入手された画像であってもよく、本実施例では処理対象である両眼画像の取得方式が限定されない。処理対象である両眼画像の左視界画像と右視界画像を所定ニューラルネットワークに入力して、視差画像及びその信頼度画像を得る。左視界画像と右視界画像は相対的な2つの画像であり、具体的に更に他の名称であってもよく、本実施例では具体的に限定されなく、後続の実施例で左視界画像、右視界画像をもって説明する。視差画像は左視界画像を基にして得られた左視界画像に対応する視差画像であってもよく、右視界画像を基にして得られた右視界画像に対応する視差画像であってもよく、本実施例では限定されない。信頼度画像は視差画像に基づいて取得された、視差画像内の各画素の信頼度を示す画像であってよく、ここで、視差画像内の各画素の所定分布における離散パラメータは該画素の信頼度と負の相関関係を呈し、離散パラメータは標準偏差パラメータを含むが、それに限定されない。
【0042】
本実施例では、所定ニューラルネットワークは、処理対象である両眼画像の左視界画像と右視界画像を処理する前に予め決定されたニューラルネットワークであってよく、この時に所定ニューラルネットワークによって所望の視差画像を取得可能であり、所定ニューラルネットワークは、処理対象である両眼画像の左視界画像と右視界画像を処理する前に予めトレーニングされたニューラルネットワークであってもよく、この時に処理対象である両眼画像の左視界画像と右視界画像はトレーニングデータ集合から取得された画像であってよく、処理対象である両眼画像の左視界画像と右視界画像によって所定ニューラルネットワークをトレーニングすることができる。
【0043】
選択可能な一例では、所定ニューラルネットワークは、両眼立体マッチングニューラルネットワーク、2つの畳み込み層及び1つの正規化(Sigmoid)層を含んでよく、処理対象である両眼画像の左視界画像と右視界画像を両眼立体マッチングニューラルネットワークにより処理された後、2つの畳み込み層と1つの正規化層によって順に処理して信頼度画像を取得するようにしてよい。本実施例は信頼度画像を得るネットワークの構成について限定するものではない。
【0044】
104において、視差画像に基づいて、処理対象である両眼画像の深度画像を取得する。
【0045】
選択可能に、処理対象である両眼画像の視差画像を取得した後、カメラ結像投影モデルにより、深度情報と視差情報の幾何演算関係に基づいて、処理対象である両眼画像の深度画像を取得するようにしてよく、本実施例は視差画像に基づいて、深度画像を取得する方法について限定するものではない。
【0046】
本実施例で提供される両眼画像の深度推定方法によれば、処理対象である両眼画像の左視界画像と右視界画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得、視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈し、次に視差画像に基づいて、処理対象である両眼画像の深度画像を取得することによって、所定ニューラルネットワークで視差画像を得ると同時に、対応する信頼度画像を得、そのように、信頼度アノテーションを教師データとせずに、教師無しの学習方式で視差画像に対応する信頼度画像を得ることができ、信頼度は、視差画像内の各画素の所定分布における離散パラメータが該画素の信頼度と負の相関関係を呈するという物理的な意義を有するので、信頼度画像を用いて視差画像における誤りが発生可能な領域を検出して、視差画像の解析に寄与して、より精確な深度画像を取得することができる。
【0047】
いくつかの実施例では、損失関数を用いて所定ニューラルネットワークをトレーニングしてよく、ここで、損失関数は視差画像内の各画素の信頼度及び該画素の所定分布における離散パラメータに基づいて算出可能であり、即ち、視差画像内の各画素の所定分布における離散パラメータが該画素の信頼度と負の相関関係を呈するという信頼度の物理的な意義により、信頼度を含む損失関数を取得することができ、損失関数中の信頼度を用いて損失関数を最適化して、該損失関数を用いてトレーニングされた所定ニューラルネットワークにより好適な頑強性を持たせることができる。
【0048】
選択可能に、損失関数は、フォーカス損失項及び正則化項を含んでよく、ここで、フォーカス損失項は、信頼度によって視差画像内の各画素の損失関数での重みを自動的に調整して、視差画像内の信頼度が高い画素に大きい重みを持たせ、視差画像中の信頼度が低い画素に小さい重みを持たせることができ、それによって学習した信頼度を所定ニューラルネットワークのトレーニングプロセスに同期して適用して、入力データ中のノイズによる影響を低減することができ、例えば、入力データ中のノイズが処理対象である両眼画像内の遮蔽された領域等であり、所定ニューラルネットワークがより好ましい段階で縮約可能であり、より好適な頑強性を有する。
【0049】
選択可能に、損失関数中の正則化項は、信頼度に関連する正則化項、及び所定ニューラルネットワークパラメータに関連する正則化項を含んでよく、ここで、信頼度に関連する正則化項は、視差画像内の信頼度が低い画素の損失重みが小さ過ぎないように、トレーニングの効率を確保することができ、所定ニューラルネットワークパラメータに関連する正則化項は重み正則化項にもなり、トレーニングプロセスでの所定ニューラルネットワークの過剰適合を防止することができる。
【0050】
図2は本願のいくつかの実施例で信頼度を含む損失関数を取得するフローチャートである。
【0051】
【0052】
202において、処理対象である両眼画像の視差画像とその信頼度画像、及び所定ニューラルネットワークパラメータと実視差画像に基づいて、所定ニューラルネットワークパラメータに関する尤度関数を取得する。
【0053】
選択可能に、処理対象である両眼画像の視差画像とその信頼度画像、及び所定ニューラルネットワークパラメータと実視差画像に基づいて、ベイズ確率論により所定ニューラルネットワークパラメータに関する尤度関数を取得してよい。
【0054】
204において、視差画像内の各画素の従う所定分布に基づいて、視差画像内の各画素の信頼度と該画素の所定分布における離散パラメータとの負の相関関係を取得する。
【0055】
選択可能に、視差画像中の各画素を異なる標準偏差の所定分布に従わせることによって、視差画像内の各画素の信頼度と該画素の所定分布における離散パラメータとの負の相関関係を取得してよい。
【0056】
206において、視差画像内の各画素の信頼度と該画素の所定分布における離散パラメータとの負の相関関係に基づいて、所定ニューラルネットワークパラメータが所定分布に従い、視差画像内の各画素の信頼度が非逓減分布に従うことに基づいて、尤度関数に対して負対数を取って、損失関数を取得する。
【0057】
選択可能に、所定ニューラルネットワークパラメータは、平均値がゼロで、標準偏差が1である所定分布に従ってよい。
【0058】
選択可能に、所定分布はラプラス分布又はガウス分布であってよい。
【0059】
いくつかの実施例では、所定分布がラプラス分布であることに応じて、損失関数は、処理対象である両眼画像の視差画像と実視差画像内の各画素の視差値との差の絶対値と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。
【0060】
ここで、ベイズ確率論により、処理対象である両眼画像の視差画像とその信頼度画像、及び所定ニューラルネットワークパラメータと実視差画像に基づいて、以下のような所定ニューラルネットワークパラメータに関する尤度関数が取得される。
【0061】
(式1)
ただし、x={x
1、x
2、…、x
T}は処理対象である両眼画像であり、y={y
1、y
2、…、y
N}は
実視差画像であり、ただし、TとNはそれぞれ処理対象である両眼画像と
実視差画像中の画素数量であり、wは所定ニューラルネットワークのパラメータであり、c={c
1、c
2、…、c
N}は信頼度画像である。
【0062】
視差画像内の各画素が異なる標準偏差のラプラス分布に従うことに基づいて、
(式2)
【0063】
以下のような視差画像内の各画素の信頼度と該画素のラプラス分布での離散パラメータとの負の相関関係が取得される。
(式3)
ただし、b={b
1、b
2、…、b
N}は異なる標準偏差のラプラス分布であり、b
iはラプラス分布の標準偏差パラメータ、即ち離散パラメータであり、c
i∈[0,1]はランダム変数とし、b
iとc
iの線形逓減関数で負の相関関係を呈し、k及びaは、b
i≧1を常に満たしているように、a≧k+1を満たす2つの正定数である。
【0064】
所定ニューラルネットワークパラメータが、平均値がゼロで、標準偏差が1であるラプラス分布に従い、
(式4)
視差画像内の各画素の信頼度が非逓減分布に従い、γ≧0であることに基づいて、
(式5)
【0065】
式2、式3、式4及び式5を式1に代入して、尤度関数に対して負対数を取って、損失関数を取得する。
【0066】
【0067】
別の些実施例では、所定分布がガウス分布であることに応じて、損失関数は、処理対象である両眼画像の視差画像と実視差画像内の各画素の視差値との差の平方と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。
【0068】
ここで、ベイズ確率論により、処理対象である両眼画像の視差画像とその信頼度画像、及び所定ニューラルネットワークパラメータと実視差画像に基づいて、以下のような所定ニューラルネットワークパラメータに関する尤度関数が取得される。
【0069】
(式1)
ただし、x={x
1、x
2、…、x
T}は処理対象である両眼画像であり、y={y
1、y
2、…、y
N}は
実視差画像であり、ただし、TとNはそれぞれ処理対象である両眼画像と
実視差画像中の画素数量であり、wは所定ニューラルネットワークのパラメータであり、c={c
1、c
2、…、c
N}は信頼度画像である。
【0070】
視差画像内の各画素が異なる標準偏差のガウス分布に従うことに基づいて、
(式7)
【0071】
以下のような視差画像内の各画素の信頼度と該画素のガウス分布での離散パラメータとの負の相関関係が取得される。
(式3)
ただし、b={b
1、b
2、…、b
N}は異なる標準偏差のガウス分布であり、b
iはガウス分布の標準偏差パラメータ、即ち離散パラメータであり、c
i∈[0,1]はランダム変数とし、b
iとc
iの線形逓減関数で負の相関関係を呈し、k及びaは、b
i≧1を常に満たしているように、a≧k+1を満たす2つの正定数である。
【0072】
所定ニューラルネットワークパラメータが、平均値がゼロで、標準偏差が1であるガウス分布に従い、
(式8)
視差画像内の各画素の信頼度が非逓減分布に従い、γ≧0であることに基づいて、
(式5)
【0073】
式7、式3、式8及び式5を式1に代入して、尤度関数に対して負対数を取って、損失関数を取得する。
【0074】
【0075】
本願の上記各実施例の方法は、携帯電話、タブレットコンピュータ等のような携帯端末又は自動運転等の装置の画像処理に利用可能である。
【0076】
図3は本願のいくつかの実施例の両眼画像の深度推定装置の構造模式図である。
【0077】
図3に示すように、該装置は、視差画像取得ユニット310と深度画像取得ユニット320を含む。
【0078】
視差画像取得ユニット310は、処理対象である両眼画像を所定ニューラルネットワークに入力して、視差画像及びその信頼度画像を得るように構成される。
【0079】
本実施例では、処理対象である両眼画像は、ビデオカメラ等のような画像取得装置で直接入手された画像であってもよく、USBメモリ等のような記憶装置から入手された予め記憶された画像であってもよく、更にネットワークを経由してウェブサーバから入手された画像であってもよく、本実施例では処理対象である両眼画像の取得方式が限定されない。処理対象である両眼画像の左視界画像と右視界画像を所定ニューラルネットワークに入力して、視差画像及びその信頼度画像を得る。左視界画像と右視界画像は相対的な2つの画像であり、具体的に更に他の名称であってもよく、本実施例では具体的に限定されなく、後続の実施例で左視界画像、右視界画像をもって説明する。視差画像は左視界画像を基にして得られた左視界画像に対応する視差画像であってもよく、右視界画像を基にして得られた右視界画像に対応する視差画像であってもよく、本実施例では限定されない。信頼度画像は視差画像に基づいて取得された、視差画像内の各画素の信頼度を示す画像であってよく、ここで、視差画像内の各画素の所定分布における離散パラメータは該画素の信頼度と負の相関関係を呈し、離散パラメータは標準偏差パラメータを含むが、それに限定されない。
【0080】
本実施例では、所定ニューラルネットワークは、処理対象である両眼画像の左視界画像と右視界画像を処理する前に予め決定されたニューラルネットワークであってよく、この時に所定ニューラルネットワークによって所望の視差画像を取得可能であり、所定ニューラルネットワークは、処理対象である両眼画像の左視界画像と右視界画像を処理する前に予めトレーニングされたニューラルネットワークであってもよく、この時に処理対象である両眼画像の左視界画像と右視界画像はトレーニングデータ集合から取得された画像であってよく、処理対象である両眼画像の左視界画像と右視界画像によって所定ニューラルネットワークをトレーニングすることができる。
【0081】
選択可能な一例では、所定ニューラルネットワークは、両眼立体マッチングニューラルネットワーク、2つの畳み込み層及び1つの正規化(Sigmoid)層を含んでよく、視差画像取得ユニット310は、処理対象である両眼画像の左視界画像と右視界画像を両眼立体マッチングニューラルネットワークにより処理された後、2つの畳み込み層と1つの正規化層によって順に処理して信頼度画像を得ることができる。本実施例は信頼度画像を得るネットワークの構成について限定するものではない。
【0082】
深度画像取得ユニット320は、視差画像に基づいて、処理対象である両眼画像の深度画像を取得するように構成される。
【0083】
選択可能に、処理対象である両眼画像の視差画像を取得した後、カメラ結像投影モデルにより、深度情報と視差情報の幾何演算関係に基づいて、処理対象である両眼画像の深度画像を取得するようにしてよく、本実施例は視差画像に基づいて、深度画像を取得する方法について限定するものではない。
【0084】
本実施例で提供される両眼画像の深度推定装置によれば、処理対象である両眼画像の左視界画像と右視界画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得、視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈し、次に視差画像に基づいて、処理対象である両眼画像の深度画像を取得することによって、所定ニューラルネットワークで視差画像を得ると同時に、対応する信頼度画像を得、そのように、信頼度アノテーションを教師データとせずに、教師無しの学習方式で視差画像に対応する信頼度画像を得ることができ、信頼度は、視差画像内の各画素の所定分布における離散パラメータが該画素の信頼度と負の相関関係を呈するという物理的な意義を有するので、信頼度画像を用いて視差画像における誤りが発生可能な領域を検出して、視差画像の解析に寄与して、より精確な深度画像を取得することができる。
【0085】
いくつかの実施例では、両眼画像の深度推定装置は、損失関数を用いて所定ニューラルネットワークをトレーニングするためのニューラルネットワークトレーニングユニットを更に含んでよく、ここで、損失関数は視差画像内の各画素の信頼度及び該画素の所定分布における離散パラメータに基づいて算出可能であり、即ち、視差画像内の各画素の所定分布における離散パラメータが該画素の信頼度と負の相関関係を呈するという信頼度の物理的な意義により、信頼度を含む損失関数を取得することができ、損失関数中の信頼度を用いて損失関数を最適化して、該損失関数を用いてトレーニングされた所定ニューラルネットワークにより好適な頑強性を持たせることができる。
【0086】
選択可能に、損失関数は、フォーカス損失項及び正則化項を含んでよく、ここで、フォーカス損失項は、信頼度によって視差画像内の各画素の損失関数での重みを自動的に調整して、視差画像内の信頼度が高い画素に大きい重みを持たせ、視差画像中の信頼度が低い画素に小さい重みを持たせることができ、それによって学習した信頼度を所定ニューラルネットワークのトレーニングプロセスに同期して適用して、入力データ中のノイズによる影響を低減することができ、例えば、入力データ中のノイズが処理対象である両眼画像内の遮蔽された領域等であり、所定ニューラルネットワークがより好ましい段階で縮約可能であり、より好適な頑強性を有する。
【0087】
選択可能に、損失関数中の正則化項は、信頼度に関連する正則化項、及び所定ニューラルネットワークパラメータに関連する正則化項を含んでよく、ここで、信頼度に関連する正則化項は、視差画像内の信頼度が低い画素の損失重みが小さ過ぎないように、トレーニングの効率を確保することができ、所定ニューラルネットワークパラメータに関連する正則化項は重み正則化項にもなり、トレーニングプロセスでの所定ニューラルネットワークの過剰適合を防止することができる。
【0088】
選択可能に、ニューラルネットワークトレーニングユニットは、信頼度を含む損失関数を取得するように構成される損失関数取得モジュールを含んでよい。
【0089】
選択可能な一例では、損失関数取得モジュールは、処理対象である両眼画像の視差画像とその信頼度画像、及び所定ニューラルネットワークパラメータと実視差画像に基づいて、所定ニューラルネットワークパラメータに関する尤度関数を取得し、視差画像内の各画素の従う所定分布に基づいて、視差画像内の各画素の信頼度と該画素の所定分布における離散パラメータとの負の相関関係を取得し、視差画像内の各画素の信頼度と該画素の所定分布における離散パラメータとの負の相関関係に基づいて、所定ニューラルネットワークパラメータが所定分布に従い、視差画像内の各画素の信頼度が非逓減分布に従うことに基づいて、尤度関数に対して負対数を取って、損失関数を取得するようになってよい。
【0090】
選択可能に、損失関数取得モジュールは、処理対象である両眼画像の視差画像とその信頼度画像、及び所定ニューラルネットワークパラメータと実視差画像に基づいて、ベイズ確率論により所定ニューラルネットワークパラメータに関する尤度関数を取得するようになってよい。
【0091】
選択可能に、損失関数取得モジュールは、視差画像中の各画素を異なる標準偏差の所定分布に従わせることによって、視差画像内の各画素の信頼度と該画素の所定分布における離散パラメータとの負の相関関係を取得するようになってよい。
【0092】
選択可能に、所定ニューラルネットワークパラメータは、平均値がゼロで、標準偏差が1である所定分布に従ってよい。
【0093】
選択可能に、所定分布はラプラス分布又はガウス分布であってよい。
【0094】
いくつかの実施例では、所定分布がラプラス分布であることに応じて、損失関数は、処理対象である両眼画像の視差画像と実視差画像内の各画素の視差値との差の絶対値と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。
【0095】
別の実施例では、所定分布がガウス分布であることに応じて、損失関数は、処理対象である両眼画像の視差画像と実視差画像内の各画素の視差値との差の平方と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。
【0096】
本願の実施例は、例えば、携帯端末、パーソナルコンピュータ(PC)、タブレット型コンピュータ、サーバなどであってよい電子機器を更に提供する。以下、本願の実施例の端末装置又はサーバを実現するのに適する電子機器400の構造模式図を示す
図4を参照し、
図4に示すように、電子機器400は1つ又は複数のプロセッサ、通信部などを含み、前記1つ又は複数のプロセッサは、例えば、1つ又は複数の中央処理ユニット(CPU)401、及び/又は1つ又は複数の画像プロセッサ(GPU)413であり、プロセッサは、読み取り専用メモリ(ROM)402に記憶された実行可能コマンド又は記憶部408からランダムアクセスメモリ(RAM)403にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信部412はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードは
インフィニバンド(Infiniband)ネットワークカードを含んでよいが、それに限定されなく、プロセッサは読み取り専用メモリ402及び/又はランダムアクセスメモリ403と通信して実行可能コマンドを実行し、通信バス404を介して通信部412に接続され、通信部412を介して他のターゲットデバイスと通信してよく、それにより本願の実施例で提供されるいずれか一項の方法に対応する操作を完成し、例えば、処理対象である両眼画像の左視界画像と右視界画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得、視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈し、前記視差画像に基づいて、前記処理対象である両眼画像の深度画像を取得する。
【0097】
また、RAM403には、装置の動作に必要な各種のプログラムやデータが格納されていてもよい。CPU401、ROM402及びRAM403は、通信バス404を介して相互に接続される。RAM403を有する場合に、ROM402は選択可能なモジュールである。RAM403は実行可能コマンドを格納して、実行可能コマンドによって中央処理ユニット401に上記通信方法に対応する操作を実行させる。入力/出力(I/O)インターフェイス405も通信バス404に接続される。通信部412は、統合的に設置されてもよく、複数のサブモジュール(例えば複数のIBネットワークカード)を有し、通信バスのリンク上にあるように設置されてもよい。
【0098】
キーボード、マウスなどを含む入力部406と、陰極線管(CRT)、液晶ディスプレイー(LCD)など及びスピーカなどを含む出力部407と、ハードディスクなどを含む記憶部408と、LANカード、モデムなどのネットワークインターフェイスカードを含む通信部409とがI/Oインターフェイス405に接続されている。通信部409は例えばインターネットのようなネットワークを介して通信処理を行う。ドライブ410も必要に応じてI/Oインターフェイス405に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体411は、必要に応じてドライブ410上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部408にインストールする。
【0099】
なお、
図4に示す構造は選択可能な一実施形態に過ぎず、具体的な実践過程では、実際の必要に応じて上記
図4の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばGPU413とCPU401は分離設置するかまたはGPU413をCPU401に統合するようにしてよく、通信部は分離設置するか、またはCPU401やGPU413に統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。
【0100】
特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法のステップを対応して実行する対応のコマンドを含んでよく、例えば、処理対象である両眼画像の左視界画像と右視界画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得、視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈し、前記視差画像に基づいて、前記処理対象である両眼画像の深度画像を取得する。このような実施例では、該コンピュータプログラムは通信部409によってネットワークからダウンロード及びインストールされ、及び/又はリムーバブル媒体411からインストールされ得る。中央処理ユニット(CPU)401によって該コンピュータプログラムを実行する時に、本願の方法で限定された上記機能を実行する。
【0101】
1つ又は複数の選択可能な実施形態では、本願の実施例は、コンピュータ可読コマンドを記憶し、該コマンドが実行される時にコンピュータに上記のいずれか1つの可能な実施形態における両眼画像の深度推定方法を実行させるように構成されるコンピュータプログラム製品を更に提供する。
【0102】
該コンピュータプログラム製品は具体的にはハードウェア、ソフトウェア又はそれらの組合せにより実現可能である。選択可能な一例において、該コンピュータプログラム製品は具体的にはコンピュータ記憶媒体として実現され、別の選択可能な一例において、該コンピュータプログラム製品は具体的には、例えばソフトウェア開発キット(Software Development Kit、SDK)などのソフトウェア製品として実現される。
【0103】
1つ又は複数の選択可能な実施形態では、本願の実施例は、両眼画像の深度推定方法及びそれに対応する装置、電子機器、コンピュータ記憶媒体、コンピュータプログラム並びにコンピュータプログラム製品を更に提供し、該方法は、第2装置に上記のいずれか1つの可能な実施例における両眼画像の深度推定方法を実行させる、両眼画像に基づく深度推定指示を第1装置から第2装置へ送信するステップと、第1装置により第2装置から送信される両眼画像の深度推定の結果を受信するステップと、を含む。
【0104】
いくつかの実施例では、この両眼画像の深度推定指示は具体的には呼び出しコマンドであってもよく、第1の装置は呼び出すことで第2の装置に両眼画像の深度推定を実行させるように指示してもよく、それに対して、呼び出しコマンドを受信したことに応答して、第2の装置は上記両眼画像の深度推定方法中の任意の実施例中のステップ及び/又は流れを実行することができる。
【0105】
本願の実施例における「第1の」、「第2の」などの用語は区別するためのものに過ぎず、本願の実施例に対する限定と理解してはならないことを理解すべきである。
【0106】
更に、本願では、「複数の」は2つ又は2つ以上を指してよく、「少なくとも1つの」は1つ、2つ又は2つ以上を指してよいことを理解すべきである。
【0107】
更に、本願で言及された任意の部材、データ又は構造は、明確に限定され又は明細書の前後で反対的に示唆された場合でなければ、一般的には1つ又は複数と理解してよいことを理解すべきである。
【0108】
更に、本願ではそれぞれの実施例についての説明はそれぞれの実施例の相違点を重点として強調し、その同一又は類似的な点について相互に参照してよく、簡単化するために、ここで一つずつに繰り返して説明しないことを理解すべきである。
【0109】
本願の方法及び装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本願の方法及び装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本願の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読コマンドを含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。
【0110】
本願の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本願の原理及び実際応用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した各種の修正を加えた各種の実施例を設計可能にするように選択され説明されたものである。