(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-09
(45)【発行日】2024-12-17
(54)【発明の名称】代表性が増加した物体認識方法
(51)【国際特許分類】
G06V 10/774 20220101AFI20241210BHJP
G06T 7/00 20170101ALI20241210BHJP
G06V 10/82 20220101ALI20241210BHJP
【FI】
G06V10/774
G06T7/00 350C
G06V10/82
(21)【出願番号】P 2022521227
(86)(22)【出願日】2020-10-08
(86)【国際出願番号】 EP2020078197
(87)【国際公開番号】W WO2021069536
(87)【国際公開日】2021-04-15
【審査請求日】2023-09-15
(32)【優先日】2019-10-10
(33)【優先権主張国・地域又は機関】FR
(73)【特許権者】
【識別番号】511148123
【氏名又は名称】タレス
(73)【特許権者】
【識別番号】510255060
【氏名又は名称】シスピア
(74)【代理人】
【識別番号】110002468
【氏名又は名称】弁理士法人後藤特許事務所
(72)【発明者】
【氏名】ベレシェ イオン
(72)【発明者】
【氏名】ベルギンク ジェラール
(72)【発明者】
【氏名】ベレシェ ステファン
【審査官】菊池 伸郎
(56)【参考文献】
【文献】特開2010-238134(JP,A)
【文献】特表2018-508850(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00-7/90
G06V 10/00-40/70
(57)【特許請求の範囲】
【請求項1】
物体の劣化二次元デジタル画像で関心のある物体を認識する方法であって、
-二次元デジタル画像で関心のある前記物体を事前に検出し、前記物体にラベルを割り当てるステップ(11)と、
-関心のある前記物体の複数の利用可能二次元デジタル画像(12)からこのようにラベル付けされる前記物体の三次元体積を再構成するステップ(13)と、
-このように三次元形式で再構成されラベル付けされる前記物体に関する記録をデータベースに記憶するステップと、
-このように記憶される各記録に対して、
-各物体のこのように再構成される三次元体積(14)から複数の表示モードに従って新しい複数の二次元デジタル画像を生成するステップ(21)であって、露光モードは、異なるレベルの閉塞及び/又は追加ノイズを用いた露光モードを含むステップ(21)と、
-このように生成され、認識されるべき関心のある前記物体の前記ラベルに対応する(22)二次元デジタル画像の拡張セットから構成される学習セットでニューラルネットワークを訓練するステップ(23)と、
-認識されるべき関心のある前記物体の劣化二次元デジタル画像から、
-このように訓練される前記ニューラルネットワークを使用して、前記物体の前記ラベル
と、関心のある前記物体の認識にリンクされる信頼指数
と、を
別々に出力として送出するステップ(30)と
を含むことを特徴とする、方法。
【請求項2】
前記信頼指数が閾値を超える場合、前記認識を停止す
る、請求項1に記載の方法。
【請求項3】
前記物体の前記三次元体積
を再構成
する前記ステップ(13)は、反射断層撮影法及び透過断層撮影法によって形成されるグループに属することを特徴とする、請求項1又は2に記載の方法。
【請求項4】
前記物体の前記再構成
される三次元体積
(14)から得られる前記
新しい複数の二次元
デジタル画像は、様々な角度(シータ(theta)、ファイ(phi)、ファイ(Phi)など)で撮影される前記三次元体積からの二次元表示モード画像、異なる距離で撮影される画像、異なる閉塞率を用いた画像、異なるノイズを用いた画像によって形成されるグループに属することを特徴とする、請求項1~3のいずれか一項に記載の方法。
【請求項5】
人間のタイプの関心のある物体に対して前記再構成
される三次元体積
(14)から得られる前記
新しい複数の二次元
デジタル画像は、
前記新しい複数の二次元デジタル画像に可変要素として付属品
が重ねられているグループに属することを特徴とする、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記ニューラルネットワークは、ResNet50、ResNet101、ResNet152によって形成されるグループに属するタイプの畳み込みニューラルネットワークである、請求項1~5のいずれか一項に記載の方法。
【請求項7】
プログラムをコンピュータで実行する場合、請求項1~6のいずれか一項に記載の方法の実行用のプログラム命令を含むコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、デジタル撮像における物体の認識に関する。本発明は、一般的に、困難な状況で撮影されたデジタル画像における物体の自動認識、特に、ランダムに撮影された二次元(2D)デジタル画像からの人間の認識、又は困難な状況(霧、遠距離、物体の閉塞、露光角度、低解像度画像など)で撮影されたデジタル画像からの物体の認識に適用する。
【背景技術】
【0002】
人工知能(AI)の分野は、現在、多くの部門で指数関数的に成長している。この成長を、3つの同時要因の関連によって説明する。3つの要因は、「機械及び/又は深層学習」と呼ばれる学習アルゴリズムの開発、インターネットの膨大なデータベース(「ビッグデータ」)の出現、及び学習アルゴリズムを訓練するために使用されるコンピュータの計算速度の増加である。
【0003】
一般的に、AIにおける物体の認識は、単に「データセット」とも呼ばれる学習データセットに基づいている。実際に、各学習セットは、画像のラベルと呼ばれる出力を供給するモデルを生成させる入力データを含む。例えば、教師あり学習(分類)において、出力は既知であり、目的は、アルゴリズム自体に応答し、処理されるべき画像でこのように認識される物体のラベルを送出するために、アルゴリズムに学習させることである。
【0004】
教師あり学習アルゴリズムを訓練するために、大量のラベル付き入力データを有する必要があることが知られている。現在、デジタル画像のデータベース又はバンクは一般的に、ラベル付き物体のデジタル画像、露光角度の点で比較的制限された変動性、及び/又は要約(回転、シフト、ノイズの追加/除去などによる画像変換)を当てにする。更に、人間の認識の変動性は、比較的制限的である(例えば、人の顔だけから認識されるべき人の画像)。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、特に、上述の欠点を少なくとも部分的に克服する解決策を与えることによって、状況を改善することにある。
【課題を解決するための手段】
【0006】
このために、本発明は、関心のある物体を、この物体の劣化二次元デジタル画像で認識する方法を提案する。
【0007】
本発明の一般的定義によれば、方法は、
-二次元デジタル画像で関心のある物体を事前に検出し、物体にラベルを割り当てるステップと、
-関心のあるこの物体の複数の利用可能二次元デジタル画像からこのようにラベル付けされるこの物体の三次元(3D)体積を再構成するステップと、
-このように三次元形式で再構成されラベル付けされるこの物体に関する少なくとも1つの記録をデータベースに記憶するステップと、
-このように記憶される各記録に対して、
-各物体のこのように再構成される三次元体積から複数の表示モードに従って新しい複数の二次元デジタル画像を生成するステップであって、露光モードは、異なるレベルの閉塞及び/又は追加ノイズを用いた露光モードを含むステップと、
-このように生成され、認識されるべき関心のある物体のラベルに対応する二次元デジタル画像の拡張セットから構成される学習セットでニューラルネットワークを訓練するステップと、
-認識されるべき関心のあるこの物体の劣化二次元デジタル画像から、
-このように訓練されるニューラルネットワークを使用して、物体のラベル、及び関心のある物体の認識にリンクされる信頼指数を出力として送出するステップと
を含む。
【0008】
驚いたことに、物体の再構成三次元体積からの新しい複数の二次元デジタル画像の生成は、学習セット(データセット)の代表性(変動性)を増加し、従って、二次元画像が劣化していても、認識されるべき物体の二次元画像で認識の信頼指数を向上させることができることを、出願人は見出した。
【0009】
好ましい実施形態によれば、本発明は、単独で、又は互いに部分的組み合わせで、又は互いに全組み合わせで使用可能な下記の特徴のうち1つ又は複数の特徴を含む。
-信頼指数が閾値を超える場合、認識を停止し、それ以外の場合、識別の成功を高めるために他の要素を探索する。
-限定されない例として、三次元体積再構成は、反射断層撮影法タイプの再構成である。
-限定されない例として、物体の再構成三次元体積のサイズは、262×262×257画素である。
-物体の再構成三次元体積から得られる複数の二次元画像は、様々な角度(シータ(theta)、ファイ(phi)、ファイ(Phi)など)における二次元画像、異なる距離における画像、異なる閉塞率を用いた画像、異なるノイズを用いた画像によって形成されるグループに属する。
-人間のタイプの関心のある物体に対して再構成三次元体積から得られる複数の二次元画像は、帽子、眼鏡、サングラス及び髭などの付属品によって形成されるグループに属する。
-限定されない例として、このように生成される二次元デジタル画像の解像度は、124画素×253画素である。
-限定されない例として、ニューラルネットワークは、ResNet50、ResNet101又はResNet152のタイプ(それぞれ50、101又は152のニューロン層を有する残留ネットワーク)の畳み込みニューラルネットワークである。
【0010】
更に、本発明は、プログラムをコンピュータで実行する場合、上述のような方法の実行用のプログラム命令を含むコンピュータプログラムに関する。
【0011】
本発明の他の特徴及び利点は、添付図面を参照して一例として与えられる本発明の好ましい実施形態の下記の説明を読めば明らかになるであろう。
【0012】
本発明の他の利点及び特徴は、説明及び図面を調べれば明らかになるであろう。
【図面の簡単な説明】
【0013】
【
図1】本発明による認識方法の主なステップを概略的に表す。
【
図2】本発明による方法によるデータベースの構成のステップのサブステップを概略的に表す。
【
図3】物体の三次元再構成のために9つの異なる角度から水平面上にSWIR赤外線(短波長赤外線)で撮影された船の二次元画像の例を概略的に表す。
【
図4】本発明による方法による拡張データベースの生成のステップのサブステップを概略的に表す。
【
図5】
図3の二次元画像から再構成された物体の三次元体積から様々な視点及び距離で生成された「boat2E0A0」とラベル付けされた物体に対する二次元画像のデータベースの記録の例を概略的に表す。
【発明を実施するための形態】
【0014】
図1~
図5を参照して、物体の三次元再構成を介して代表性が増加されているラベル付き画像のデータベースで訓練されたAIによる困難な状況における物体の自動認識用の3つの主なステップを表す。
【0015】
第1の主なステップ10の目的は、三次元で既に識別及び再構成された物体のデータベースを構成することである。
【0016】
ステップ10は、既に識別された関心のある物体(例えば、船)の予備検出のサブステップ11から始まる。次に、物体の三次元再構成を実行するのに制限されるが十分な数の二次元画像(可視、赤外線、能動又は受動)の高速撮影12がある。物体のコンテキストによって、幾つかのシナリオ(例えば、「地-地」シナリオ、「海-海」シナリオ、「空-地」シナリオ及び「空-海」シナリオ)に従って、二次元画像を撮影することができる。船の場合、「海-海」シナリオ及び「空-海」シナリオなどのシナリオに従って、画像を撮影することができる。例えば、
図3を参照して、物体の三次元再構成のために9つの異なる角度から水平面(「海-海」シナリオ)上にSWIRで撮影された船の二次元画像の例を表す。
【0017】
このように利用できる二次元画像(
図3)から、適切な再構成方法(例えば、反射断層撮影法)を用いて、物体の三次元再構成13を実行する。次に、(ボクセルで)物体の三次元(3D)体積14を取得する。
【0018】
実際に、可視帯(0.4μm~0.7μm)、又は近赤外線(0.7μm~1μm)、又はSWIR(1μm~3μm)の場合、又は物体の熱放射(3μm~5μm及び8μm~12μmの熱撮像)を考慮することによって、透過又は蛍光(光学投影断層撮影法、核撮像又はx線コンピュータ断層撮影法)に基づく、又は反射(レーザー波の後方反射)に基づく、又は太陽反射に基づく再構成方法を用いて、三次元体積を取得することができる。この三次元再構成処理は、特許「Optronic system and method dedicated to identification for formulating three-dimensional images」(米国特許第8836762B2号明細書、欧州特許第2333481B1号明細書)に記載されている。
【0019】
関連強度を有する三次元再構成から得られるボクセルのセットを使用し、好ましくは、この再構成は、後方反射によって取得されている。
【0020】
三次元再構成の最後に、既に識別された物体に関する記録を含むデータベース(即ち、{3Dvolume_Object(n)Label_Object(n)}、n=1,2,…,N(Nは、識別物体の記録の数である))がある。
【0021】
モデリング又はシミュレーションから物体でデータベースを充実させることができることに留意すべきである。
【0022】
本発明による方法の第2の主なステップ20は、様々な構成で二次元画像の拡張データベースを生成し、専用AI(人工知能)を訓練することである。
【0023】
実際に、データベースの各ラベル付き物体に対して、このように再構成される三次元体積から得られる(見られる)二次元画像を生成する(21)。
【0024】
本発明の実施形態のセットにおいて、三次元体積を、三次元表面によって外部から画定し、三次元体積が不完全である場合、三次元表面は開いている。
【0025】
例えば、三次元体積から得られるビューを、異なる距離で様々な角度(シータ(theta)、ファイ(phi)、ファイ(Phi))に従って生成する。本発明の実施形態のセットにおいて、例えば、異なる閉塞率の適用によって及び/又は異なる追加ノイズを用いて、三次元体積を修正することもできる。
【0026】
本発明の実施形態のセットにおいて、三次元表面上のノイズの追加又は閉塞の追加は、最初の三次元表面の修正となり、新しい二次元画像を生成する。
【0027】
顔の場合、識別されるべき人間の再構成三次元体積から得られるビューは、付属品(例えば、帽子、眼鏡、サングラス、髭など)の有無にかかわらず、異なる種類のビューであることができる。
【0028】
本発明の実施形態のセットにおいて、再構成体積の三次元境界を修正することができる三次元表面の要素に、付属品を局所的に重ね合わせる。
【0029】
次に、各物体の修正又は未修正三次元体積から複数の露光モードに従ってこのように生成される複数の二次元デジタル画像を、物体のラベルに関連付ける(22)。従って、三次元体積の異なる視点に対応する多数の二次元ビュー(必要ならば、三次元体積の修正)を、学習データベースに追加することができる。
【0030】
次に、下記の要素を取得する。3Dvolume_Object(n)→{2Dimage_Object(n,theta,phi,Phi,distance,Occlusion_rate,etc.),Label_Object(n)}。
【0031】
最後に、例えば、このように生成され、ラベル{Labels_Object(n)}(関心のある全物体Nの場合、n=1,2,3,…,N)に対応する二次元デジタル画像{2Dimages_Object(n)}のセットから構成される学習セットで訓練される(23)べき残留ネットワークタイプ(例えば、ResNet50)の畳み込みニューラルネットワークを選択する。
【0032】
第3の主なステップ30は、物体の劣化二次元画像から関心のある物体を認識することである。
【0033】
例えば、関心のあるObjectXの予備検出は、制限動作状態(悪化した天気、遠距離、物体の閉塞、任意の露光角度など)における1つ又は複数の二次元画像(可視、赤外線、能動又は受動)の撮影からなる。
【0034】
次に、このように訓練される畳み込みニューラルネットワークを使用して、関心のある物体のラベル、及び関心のある物体の認識にリンクされる信頼指数(スコア)を出力として送出する。
【0035】
信頼指数(スコア)が高い(例えば、95%を超える)場合、認識を停止する規定を設ける。
【0036】
信頼度(スコア)が低い場合、オペレーターは、識別の成功を高めるために、他の要素を探索することができる。
【0037】
既に識別及び再構成された物体のデータベースが増大するにつれて、専用AIの認識信頼性は、より強くなり、暗黙的に、任意の物体の識別が一層成功する。
【0038】
限定されない例として、海(「空-海」シナリオ)の表面に対して直角に露光から生成された単一二次元画像から「boat2E0A0」とラベル付けされた船に、認識方法を適用し、この画像は、学習二次元データベースに属しない。AI問合せ処理との互換性のために、124画素×253画素の解像度で、画像を再寸法決定した。