IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ トヨタ モーター ヨーロッパ ナームロゼ フェンノートシャップ/ソシエテ アノニムの特許一覧 ▶ テクニカル ユニバーシティ オブ ミュンヘンの特許一覧

特許7234378回転仮説を決定することによって画像を処理する方法及びシステム
<>
  • 特許-回転仮説を決定することによって画像を処理する方法及びシステム 図1
  • 特許-回転仮説を決定することによって画像を処理する方法及びシステム 図2
  • 特許-回転仮説を決定することによって画像を処理する方法及びシステム 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-27
(45)【発行日】2023-03-07
(54)【発明の名称】回転仮説を決定することによって画像を処理する方法及びシステム
(51)【国際特許分類】
   G06T 7/73 20170101AFI20230228BHJP
   G06T 7/00 20170101ALI20230228BHJP
【FI】
G06T7/73
G06T7/00 350C
【請求項の数】 12
(21)【出願番号】P 2021537476
(86)(22)【出願日】2018-09-07
(65)【公表番号】
(43)【公表日】2022-01-19
(86)【国際出願番号】 EP2018074215
(87)【国際公開番号】W WO2020048620
(87)【国際公開日】2020-03-12
【審査請求日】2021-09-06
(73)【特許権者】
【識別番号】511312997
【氏名又は名称】トヨタ モーター ヨーロッパ
(73)【特許権者】
【識別番号】521095145
【氏名又は名称】テクニカル ユニバーシティ オブ ミュンヘン
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【弁理士】
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100147555
【弁理士】
【氏名又は名称】伊藤 公一
(74)【代理人】
【識別番号】100123593
【弁理士】
【氏名又は名称】関根 宣夫
(74)【代理人】
【識別番号】100133835
【弁理士】
【氏名又は名称】河野 努
(72)【発明者】
【氏名】スベン マイアー
(72)【発明者】
【氏名】小堀 訓成
(72)【発明者】
【氏名】ファビアン マンハルト
(72)【発明者】
【氏名】ディエゴ マルティン アロヨ
(72)【発明者】
【氏名】フェデリコ トンバリ
(72)【発明者】
【氏名】クリスティアン ルプレヒト
【審査官】片岡 利延
(56)【参考文献】
【文献】国際公開第2018/065073(WO,A1)
【文献】米国特許出願公開第2008/0298672(US,A1)
【文献】特開平08-212329(JP,A)
【文献】特表2020-537790(JP,A)
【文献】Wadim Kehl et al.,SSD-6D:Making RGB-Based 3D Detection and 6D Pose Estimation Great Again,[online],2017年,https://ieeexplore.ieee.org/document/8237431
【文献】Fabian Manhardt et al.,Explaining the Ambiguity of ObjectDetection and 6D Pose From Visual Data,[online],2019年,https://ieeexplore.ieee.org/document/9009543
【文献】Patrick Poirson et al.,Fast Single Shot Detection and PoseEstimation,[online],2016年,https://ieeexplore.ieee.org/document/7785144
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/73
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
画像を処理する方法であって、
数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有し、
特徴マップについて、
前記画像に見られる少なくとも一つのオブジェクトのタイプと、
前記少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
前記少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行うように構成されたニューラルネットワークに画像を入力することを備え
回転が曖昧さを示すか否かを判断するために前記回転仮説の主成分分析を実行することを更に備える、方法。
【請求項2】
推定した回転を取得するために複数の回転仮説の分類を行うことを更に備える、請求項1に記載の方法。
【請求項3】
前記複数の回転仮説の分類は、外れ値の拒絶又はクラスタリングを備える、請求項2に記載の方法。
【請求項4】
前記オブジェクトと前記画像を取得した画像取得モジュールの間の距離を、少なくとも一つの境界ボックスの対角線の長さを用いて決定する、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記少なくとも一つのオブジェクトの6Dポーズを推定するために前記推定した回転及び前記距離を用いることを備える、請求項に記載の方法。
【請求項6】
回転をそれぞれ四元数として表す、請求項1から5のいずれか一項に記載の方法。
【請求項7】
ニューラルネットワークの予備トレーニングを備え、前記予備トレーニングは、少なくとも一つの3次元テンプレートオブジェクトがレンダリングされたテンプレート画像を前記ニューラルネットワークに入力することを備える、請求項1からのいずれか一項に記載の方法。
【請求項8】
前記予備トレーニングは、
前記ニューラルネットワークを用いて、
前記画像に見られる少なくとも一つのオブジェクトのタイプと、
前記少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
前記少なくとも一つのオブジェクトの複数の回転仮説と、
を取得することと、

【数1】
のLを最小にし、この場合、
【数2】
であり、
Iは、前記テンプレート画像であり、
Posは、テンプレートオブジェクトの領域の予め決定された部分を包囲する領域を有する境界ボックスを表し、
Negは、前記テンプレートオブジェクトの領域の予め決定された部分を包囲しない領域を有する境界ボックスを表し、
bは、Pos又はNegのいずれかに属する境界ボックスであり、
classは、分類の特性の誤差に関連する損失であり、
fitは、境界ボックスの角の位置の誤差に関連する損失であり、
α、β及びεは、所定の係数であり、
Mは、回転仮説の数であり、
は、少なくとも一つのオブジェクトの真の回転であり、
θ (j)(I)は、回転仮説jを提供する関数であり、
θ(I)は、回転仮説fθ (j)(I)を提供する関数であり、
L(fθ (j)(I),p)は、既知の回転pに対するfθ(I)の損失関数である、請求項に記載の方法。
【請求項9】
トレーニング中に、ニューラルネットワークが、
【数3】
として決定される回転仮説θ*を用いて更新され、piは、前記少なくとも一つのオブジェクトに対して同様の画像を有する画像Iiに関連するN回転である、請求項に記載の方法。
【請求項10】
画像を処理するシステムであって、画像を入力することができるニューラルネットワーク(INST、14、15)を備え、前記ニューラルネットワークは、
複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有し、
各特徴マップについて、
前記画像に見られる少なくとも一つのオブジェクトのタイプと、
前記少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
前記少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行うように構成され
回転が曖昧さを示すか否かを判断するために前記回転仮説の主成分分析を実行する、システム。
【請求項11】
コンピュータによって実行されるときに、請求項1からのいずれか一項に記載の方法のステップを実行する命令を有するコンピュータプログラム。
【請求項12】
コンピュータによって読取り可能であり、請求項1からのいずれか一項に記載の方法のステップを実行する命令を有するコンピュータプログラムを記録した記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像処理の分野に関し、更に正確には、画像の3次元オブジェクトの検出に関する。
【背景技術】
【0002】
カメラによって取得した画像の三次元オブジェクトを検出することが提案されてきた。
【0003】
通常、画像に表示されるオブジェクトの6Dポーズを取得することも望ましい。「6Dポーズ」は、オブジェクトの三次元の位置と三次元の向きとの組合せを示す当業者によく知られている表現である。
【0004】
6Dポーズの取得は、オブジェクトが検出及び操作されるロボット工学の分野で特に有益である。
【発明の概要】
【発明が解決しようとする課題】
【0005】
6Dポーズ又はオブジェクトの向きを検出する際の困難の一つは、対称的なオブジェクト又は閉塞(occlusion)を処理することの困難である。例えば、ハンドルを有するカップのポーズは、ハンドルが閉塞されているときを判断するのが非常に困難であるが、ハンドルが見えるときには十分に検出可能である。
【0006】
オブジェクトのポーズを検出するためにニューラルネットワークを用いることが提案されてきた。これらのニューラルネットワークを、所定の入力画像に対して検出されたポーズを出力するように構成することができる。この結果を得るために、既知の画像がニューラルネットワークに入力されるニューラルネットワークでトレーニングステップが実行され、ニューラルネットワークの出力が予測される出力に近いか否かが判断される。この判断は、通常、損失関数の使用を伴い、この損失関数の結果は、改善された損失がトレーニングの次の反復で取得されるようにニューラルネットワークを更新するためによく用いられる。
【0007】
既知の方法は、これらの曖昧さを処理することができず、これは満足のいくものではない。
【課題を解決するための手段】
【0008】
本開示は、画像を処理する方法であって、
(2)複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有し、
(3)各特徴マップについて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行うように構成されたニューラルネットワークに画像を入力することを備える、方法を提案することによって、従来技術の一つ以上の不備を解消する。
【0009】
本出願の発明者は、単一の回転仮説又はポーズのみを予測する既知の方法が対称性を有する物体を取り扱うことができないことを確認した。複数の回転仮説を取得することによって、トレーニング段階でオブジェクトの対称性を更に適切に学習でき、曖昧さが軽減される。
【0010】
例として、画像は、当業者に知られているRGB(赤-緑-青)画像のようなカラー画像となることがある。
【0011】
特徴マップは、通常、ニューラルネットワーク又はニューラルネットワークの一部によって出力されるベクトルの行列であり、表現解像度(expression resolution)は、行列の解像度に向けられ、深さは、行列のベクトルの深さに関連する。
【0012】
本願で用いられる「ニューラルネットワーク」は、複数の既知のネットワークの組合せをカバーすることができる。例えば、複数の特徴マップを取得するステップを、第1のサブネットワークを用いて実行することができる。当業者は、それぞれの解像度及びそれぞれの深さを有する特徴マップを取得するためにどのサブネットワークを用いるかを知っている。
【0013】
また、当業者は、複数の仮説を取得することにつながる複数の出力を用いて、分類を行うためにサブニューラルネットワークを用いることができる。
【0014】
当業者は、各特徴マップについて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するためにどのサブネットワークを用いるかを知っている。
【0015】
境界ボックスがオブジェクトを包囲する座標を有する仮想的な矩形であることが当業者に知られていることに留意されたい。複数のオブジェクトが決定された場合、各オブジェクトは、少なくとも一つの境界ボックスに関連付けられる。境界ボックスを、複数の所定の境界ボックスの中から選択することができる。分類ステップは、最適な境界ボックス(すなわち、オブジェクトに最も近い境界ボックス)を決定するように構成される。
【0016】
オブジェクトのタイプは、検出可能なオブジェクトの所定のセットの中から選択される。
【0017】
回転は、所定の基準位置から表されるオブジェクトの三次元回転であってもよい。
【0018】
複数のオブジェクトが画像に見える場合、ニューラルネットワークは、上記で定義されているように少なくとも二つのグループの情報を出力してもよい。
【0019】
また、ニューラルネットワークは、例えば、境界ボックスに関連する二つのグループの間の違いを有する同一のオブジェクトの二つ以上のグループの情報を出力してもよい。
【0020】
上記のニューラルネットワークを用いることによって超並列シングルパスネットワークを用いることができ、計算速度が大幅に向上し(上記方法は約10Hzすなわち10画像/秒で動作することを確認した。)、良好な精度が得られることに留意されたい。
【0021】
特定の実施の形態によれば、方法は、推定した回転を取得するために複数の回転仮説の分類を行うことを更に備える。
【0022】
特定の実施の形態によれば、複数の回転仮説の分類は、外れ値の拒絶又はクラスタリングを備える。
【0023】
例えば、クラスタリングを、平均シフトアルゴリズムを用いて行ってもよい。
【0024】
複数の回転仮説の分類によって回転のフィルタリング又は回転中央値の決定を引き起こしてもよい。
【0025】
特定の実施の形態によれば、オブジェクトと画像を取得した画像取得モジュールの間の距離を、少なくとも一つの境界ボックスの対角線の長さを用いて決定する。
【0026】
特定の実施の形態によれば、方法は、少なくとも一つのオブジェクトの6Dポーズを推定するために推定した回転及び距離を用いることを備える。
【0027】
この距離及び回転から少なくとも一つのオブジェクトの6Dポーズを取得できることを確認した。
【0028】
特定の実施の形態によれば、回転をそれぞれ四元数として表す。
【0029】
本発明者は、四元数を用いて空間回転又は三次元回転をモデル化できることを確認した。四元数は四つの値によって定義され、分類は、各仮説にそれぞれ複数の四元数を出力してもよい。
【0030】
特定の実施の形態によれば、方法は、回転が曖昧さを示すか否かを判断するために回転仮説の主成分分析を実行することを更に備える。
【0031】
例えば、優勢な特異値が曖昧さを示すしきい値を超えているか否かを判断するためにしきい値を用いてもよい。
【0032】
特定の実施の形態によれば、方法は、ニューラルネットワークの予備トレーニングを備え、予備トレーニングは、少なくとも一つの3次元テンプレートオブジェクトがレンダリングされたテンプレート画像をニューラルネットワークに入力することを備える。
【0033】
3次元テンプレートオブジェクトをレンダリングすることは、このテンプレートオブジェクトの投影が選択された角度で目に見える(したがって回転が既知である)画像を作成することを意味する。
【0034】
好適には、方法を、テンプレートオブジェクトとして用いられたオブジェクトを備える画像に用いる。
【0035】
特定の実施の形態によれば、予備トレーニングは、
ニューラルネットワークを用いて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を取得することと、

【数1】

のLを最小にし、この場合、
【数2】
であり、
Iは、テンプレート画像であり、
Posは、テンプレートオブジェクトの領域の予め決定された部分を包囲する領域を有する境界ボックスを表し、
Negは、テンプレートオブジェクトの領域の予め決定された部分を包囲しない領域を有する境界ボックスを表し、
bは、Pos又はNegのいずれかに属する境界ボックスであり、
classは、分類の特性の誤差に関連する損失であり、
fitは、境界ボックスの角の位置の誤差に関連する損失であり、
viewは、視点の特性の誤差に関連する損失であり、
inpianeは、面内回転の特性の誤差に関連する損失であり、
α、β及びεは、所定の係数であり、
Mは、回転仮説の数であり、
Iは、テンプレート画像であり、
pは、少なくとも一つのオブジェクトの真の回転であり、
θ (j)(I)は、回転仮説jを提供する関数であり、
θ(I)は、回転仮説fθ (j)(I)を提供する関数であり、
L(fθ (j)(I),p)は、既知の回転pに対するfθ(I)の損失関数である。
【0036】
上記式において、M(fθ(I)p)及び
【数3】
は、メタ損失値(meta-loss value)を表す。更に正確には、
【数4】
は、画像I及びポーズpの最小限の損失である。
【0037】
トレーニング中に、ニューラルネットワークが、
【数5】
として決定される回転仮説θ*を用いて更新され、piは、少なくとも一つのオブジェクトに対して同様の画像を有する画像Iiに関連するN回転である。
【0038】
これは、更新の基礎として前のトレーニングステップの最良の出力のみを使用することによってニューラルネットワークの更新を容易にする(トレーニングは反復的である。)。
【0039】
本発明は、画像を処理するシステムであって、画像を入力することができるニューラルネットワークを備え、ニューラルネットワークは、
複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有し、
各特徴マップについて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行うように構成された、システムも提供する。
【0040】
システムを、上述したように画像を処理する方法の全ての実施の形態を実施するように構成することができる。
【0041】
一つの特定の実施の形態において、画像を処理する方法のステップは、コンピュータプログラム命令によって決定される。
【0042】
したがって、本発明は、コンピュータによって実行されるときに、上述した方法のステップを実行する命令を有するコンピュータプログラムも対象とする。
【0043】
プログラムは、任意のプログラミング言語を用いることができ、ソースコード、オブジェクトコード、又は、部分的にコンパイルされた形式若しくは他の望ましい形式のようなソースコードとオブジェクトコードの中間のコードの形式をとることができる。
【0044】
本発明は、コンピュータによって読取り可能であり、上述した方法のステップを実行する命令を有するコンピュータプログラムを記録した記録媒体も対象とする。
【0045】
情報媒体を、プログラムを格納できる任意のエンティティ又はデバイスとすることができる。例えば、媒体は、ROMのような記憶手段、例えば、CD ROM又はマイクロ電子回路ROM又は磁気記憶手段、例えば、ディスケット(フロッピーディスク(登録商標))又はハードディスクを含むことができる。
【0046】
代替的に、情報媒体を、プログラムが組み込まれた集積回路とすることができ、回路は、当該方法を実行するように又はその実行に用いられるように適合される。
【0047】
本開示をどのように実施することができるかを、添付の図面を参照して例として説明する。
【図面の簡単な説明】
【0048】
図1】一例による例示的な画像を処理する方法のブロック図である。
図2】一例による例示的な画像を処理するシステムのブロック図である。
図3】対称性を有するオブジェクトの処理の困難性を示す。
【発明を実施するための形態】
【0049】
例示的な画像を処理する方法及びシステムを以下に説明する。
【0050】
画像を処理する方法を図1に示す。以下に説明するように、この方法は、画像に見えるオブジェクトの6Dポーズを決定することもできる。しかしながら、本発明は、画像に見えるオブジェクトの6Dポーズの決定に限定されない。
【0051】
処理される画像は、図1の基準IMG(referenced IMG)である。この例では、画像は、299画素の幅及び299画素の高さの解像度を有する。画像IMGはRGB画像であり、画像の各画素は、三つの値に関連付けられる。
【0052】
画像IMGを処理するために、この画像は、図1に示すニューラルネットワーク1に入力される。画像IMGが深さ情報を更に備える場合(例えば、画像IMGがRGB-D画像である場合)、RGB値のみをニューラルネットワーク1に入力してもよいが、深さ情報を、その後のリファインステップ(refining step)で用いてもよい。
【0053】
ニューラルネットワーク1は、複数の特徴マップを取得するように構成され、各特徴マップは、それぞれの解像度及びそれぞれの深さを有する。このために、ニューラルネットワーク1は、五つの特徴マップを作成することができるサブネットワーク2を備える。五つの特徴マップはそれぞれ、互いに異なる解像度を有する。
【0054】
例えば、第1の特徴マップ4aは、35×35の解像度及び384の深さを有する。第2の特徴マップ4bは、17×17の解像度及び1024の深さを有する。第3の特徴マップ4cは、9×9の解像度及び1536の深さを有する。第4の特徴マップ4dは、5×5の解像度及び1024の深さを有する。第5の特徴マップ4eは、3×3の解像度及び1024の深さを有する。
【0055】
当業者は、用いるべき特徴マップの数並びにそれらの解像度及び深さを選択することができる。例えば、特徴マップの数並びにそれらの解像度及びそれらの深さをアプリケーションの関数として決定するために較正ステップを実行することができる。様々な解像度を用いることによって、様々なスケールのオブジェクトを検出することができる。
【0056】
好適には、サブネットワーク2は、当業者によってInceptionV4として知られているとともにC.Szegedy、S.Ioffe及びV.Vanhouckeによる“Inception-ResNet and the Impact of Residual Connections”に記載されたネットワークである。
【0057】
好適には、サブネットワーク2は、前のステップでトレーニングされる。
【0058】
ニューラルネットワーク1は、各特徴マップについて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行うように更に構成される。
【0059】
このために、ニューラルネットワーク1は、サブネットワーク3を備える。好適には、サブネットワーク3は、回帰ニューラルネットワークである。
【0060】
サブネットワーク3は、5つの特徴マップ4a~4eを入力として受け取り、この例では、上記出力を提供するための適切な数のニューロンを有する。
【0061】
特に、サブネットワーク3は、ポーズについて複数の仮説を出力することができ、これは、これらの仮説を提供するために選択された複数のニューロンにつながる。
【0062】
回転仮説が四元数を用いて表される場合、各回転仮説に四つのニューロンを用いてもよい。
【0063】
特徴マップを受け取ったサブネットワーク3の出力は、特徴マップの解像度及び
【数6】
の深さを有してもよい。この場合、Kは、候補境界ボックスの数であり、Cは、あり得るオブジェクトタイプの数であり、Mは、仮説の数である。
【0064】
図では、画像IMGに存在するオブジェクトについて、四つの回転仮説5a、5b、5c及び5dを表す。
【0065】
ニューラルネットワークのトレーニングを説明する。
【0066】
事前に、四元数を用いて空間回転(本願では、表現される回転は3次元回転又は空間回転に向けられる。)をモデル化できることが確認されていることに留意されたい。
【0067】
四元数は、
【数7】
によって与えられる。この場合、
【数8】
である。
【0068】
南半球を省略するとともにq1=0超平面のより上の回転のみを用いることができ、これによって、単一の四元数を用いてあり得る3次元回転を表すことができる。
【0069】
また、トレーニング中に、既知のデータセットのN個の画像Iiがそれぞれ(オブジェクトの同一の画像との対称性を示すオブジェクトの
【数9】
の)所定の回転piに関連付けられる場合、回転数のセットは、
【数10】
である。
【0070】
この式は、離散対称性に適合される。非離散対称性の場合、当業者はSの合計を積分に適合させる。
【0071】
現在のニューラルネットワークでは、複数の回転仮説を取得する。ニューラルネットワークの関数は、
【数11】
として記載される。
【0072】
したがって、所定のオブジェクト及び境界ボックスについてM個の仮説がある。
【0073】
優先的には、トレーニングの各ステップでニューラルネットワークを更に適切に更新するために、予測される結果(既知の回転)に最も近い損失のみがニューラルネットワークのパラメータを更新するために用いられる。ニューラルネットワークのパラメータの更新は、ニューラルネットワークの重みの更新と呼ばれることが多く、この更新は、計算された損失に基づく。
【0074】
使用される損失の決定は、
【数12】
によって与えられる。
【0075】
トレーニング中に、レンダリングされたオブジェクト(例えば、既知の回転を有するレンダリングされた3次元オブジェクト)を備えるテンプレート画像(既知の画像)がニューラルネットワークに入力され、出力は、分類ステップの後に、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、なる。
【0076】
したがって、損失は、
【数13】
のLを最小にすることによって計算してもよく、この場合、
【数14】
であり、
Iは、テンプレート画像であり、
Posは、テンプレートオブジェクトの領域の予め決定された部分を包囲する領域を有する境界ボックスを表し、
Negは、テンプレートオブジェクトの領域の予め決定された部分を包囲しない領域を有する境界ボックスを表し、
bは、Pos又はNegのいずれかに属する境界ボックスであり、
classは、分類の特性の誤差に関連する損失であり、
fitは、境界ボックスの角の位置の誤差に関連する損失であり、
viewは、視点の特性の誤差に関連する損失であり、
inpianeは、面内回転の特性の誤差に関連する損失であり、
α、β及びεは、所定の係数であり、
Mは、回転仮説の数であり、
Iは、テンプレート画像であり、
pは、少なくとも一つのオブジェクトの真の回転であり、
θ (j)(I)は、回転仮説jを提供する関数であり、
θ(I)は、回転仮説fθ (j)(I)を提供する関数であり、
L(fθ (j)(I),p)は、既知の回転pに対するfθ(I)の損失関数である。
【0077】
所定の係数を当業者によって決定してもよいことに留意されたい。
【0078】
重みεは、全ての仮説の平均誤差に重みを付けるために用いられる。
【0079】
また、正規化定数
【数15】
及び
【数16】
は、損失
【数17】
に対する(1-ε)の重み及び他の全ての仮説に分布するεの勾配降下を与えるように設計される。
【0080】
【数18】
のとき
【数19】
である。
【0081】
画像がニューラルネットワークに入力されるとき、検出されたオブジェクトについて、推定された回転を得るために更なる分類を行ってもよいことに留意されたい。
【0082】
例えば、分類は、当業者に知られている任意の適切な方法又はクラスタリング方法を用いる外れ値の拒絶を備えてもよい。
【0083】
例えば、四元数ベクトルの角距離をそれらの類似性を測定するために用いながら平均シフトアルゴリズムを四元数空間で仮説をクラスタリングするために用いてもよい。これによって、曖昧であるが接続された回転又は複数のI非接続回転(I unconnected rotation)で一つのクラスターが生成される。また、各クラスターについて、回転の中央値を計算してもよい。
【0084】
検出されたオブジェクトと画像を取得した画像取得モジュールとの間の距離を少なくとも一つの境界ボックスの対角線の長さを用いて推定できることに留意されたい。
【0085】
次に、このオブジェクトの6Dポーズを回転及び上記距離を用いて推定することができる。これは、所定の距離(例えば、0.5メートル)でのオブジェクトの基準6Dポーズを用いてもよく、6Dポーズを推測してもよい。
【0086】
追加的に、二つの四元数の間の類似性を比較するために、角度
【数20】
の距離について三角法を用いない測定(trigonometric-free measure)を行うことができ、この場合、q及びq’は、二つの四元数である。
【0087】
距離は、
【数21】
である。
【0088】
曖昧さがあるか否かを判断するために四元数空間での仮説の分布を調べることもできる。このために、主成分分析(PCA)を四元数仮説で実行することができる。データ行列(仮説)の特異値分解は、曖昧さの情報を提供する。
【0089】
例えば、優勢な特異値
【数22】
について分散
【数23】
(しきい値を定義してもよい)である場合、オブジェクトの対称性に起因する回転の予測に曖昧さがある。小さい特異値は、単一の解への収束という結論をもたらす。
【0090】
図1を参照して説明した方法のステップは、コンピュータの命令によって決定することができる。これらの命令を、図2に示すように、システムのプロセッサで実行することができる。
【0091】
この図において、システム10を表す。このシステムは、プロセッサ11と、画像を取得するように構成された取得モジュール12と、メモリ13と、を備える。
【0092】
メモリ13を、不揮発性メモリでとすることができ、それは、図1を参照して説明した方法を実行するためにプロセッサ11によって実行することができる命令(又はコンピュータプログラム)INSTのセットを備える。命令INSTのセットは、
複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有する命令14と、
各特徴マップについて、
画像に見られる少なくとも一つのオブジェクトのタイプと、
少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行う命令15と、
を備える。
【0093】
命令INSTは、図1を参照して説明したニューラルネットワークを形成してもよい。
【0094】
図3は、ハンドルを有するカップを示す。カップの様々な投影を示す。ハンドルが閉塞されているとき、実線から撮影された画像は、カップの同一の画像を提供する。
【0095】
点線から撮影された画像は、回転又は6Dポーズの決定に曖昧さがないカップの様々な画像を提供する。本発明は、そのような曖昧さがあるときを決定することができる。
本明細書に開示される発明は以下を含む。
[態様1]
画像を処理する方法であって、
複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有し、
各特徴マップについて、
前記画像に見られる少なくとも一つのオブジェクトのタイプと、
前記少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
前記少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行うように構成されたニューラルネットワークに画像を入力することを備える、方法。
[態様2]
推定した回転を取得するために複数の回転仮説の分類を行うことを更に備える、態様1に記載の方法。
[態様3]
前記複数の回転仮説の分類は、外れ値の拒絶又はクラスタリングを備える、態様2に記載の方法。
[態様4]
前記オブジェクトと前記画像を取得した画像取得モジュールの間の距離を、少なくとも一つの境界ボックスの対角線の長さを用いて決定する、態様1から3のいずれか一つに記載の方法。
[態様5]
前記少なくとも一つのオブジェクトの6Dポーズを推定するために前記推定した回転及び前記距離を用いることを備える、態様4に記載の方法。
[態様6]
回転をそれぞれ四元数として表す、態様1から5のいずれか一つに記載の方法。
[態様7]
回転が曖昧さを示すか否かを判断するために前記回転仮説の主成分分析を実行することを更に備える、態様1から6のいずれか一つに記載の方法。
[態様8]
ニューラルネットワークの予備トレーニングを備え、前記予備トレーニングは、少なくとも一つの3次元テンプレートオブジェクトがレンダリングされたテンプレート画像を前記ニューラルネットワークに入力することを備える、態様1から7のいずれか一つに記載の方法。
[態様9]
前記予備トレーニングは、
前記ニューラルネットワークを用いて、
前記画像に見られる少なくとも一つのオブジェクトのタイプと、
前記少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
前記少なくとも一つのオブジェクトの複数の回転仮説と、
を取得することと、

【数24】
のLを最小にし、この場合、
【数25】
であり、
Iは、前記テンプレート画像であり、
Posは、テンプレートオブジェクトの領域の予め決定された部分を包囲する領域を有する境界ボックスを表し、
Negは、前記テンプレートオブジェクトの領域の予め決定された部分を包囲しない領域を有する境界ボックスを表し、
bは、Pos又はNegのいずれかに属する境界ボックスであり、
class は、分類の特性の誤差に関連する損失であり、
fit は、境界ボックスの角の位置の誤差に関連する損失であり、
α、β及びεは、所定の係数であり、
Mは、回転仮説の数であり、
pは、少なくとも一つのオブジェクトの真の回転であり、
θ (j) (I)は、回転仮説jを提供する関数であり、
θ (I)は、回転仮説f θ (j) (I)を提供する関数であり、
L(f θ (j) (I),p)は、既知の回転pに対するf θ (I)の損失関数である、態様8に記載の方法。
[態様10]
トレーニング中に、ニューラルネットワークが、
【数26】
として決定される回転仮説θ * を用いて更新され、p i は、前記少なくとも一つのオブジェクトに対して同様の画像を有する画像I i に関連するN回転である、態様9に記載の方法。
[態様11]
画像を処理するシステムであって、画像を入力することができるニューラルネットワーク(INST、14、15)を備え、前記ニューラルネットワークは、
複数の特徴マップを取得し、各特徴マップは、それぞれの解像度及びそれぞれの深さを有し、
各特徴マップについて、
前記画像に見られる少なくとも一つのオブジェクトのタイプと、
前記少なくとも一つのオブジェクトを包囲する少なくとも一つの2次元境界ボックスの画像の位置及び形状と、
前記少なくとも一つのオブジェクトの複数の回転仮説と、
を提供するために各特徴マップで分類を行うように構成された、システム。
[態様12]
コンピュータによって実行されるときに、態様1から10のいずれか一つに記載の方法のステップを実行する命令を有するコンピュータプログラム。
[態様13]
コンピュータによって読取り可能であり、態様1から10のいずれか一つに記載の方法のステップを実行する命令を有するコンピュータプログラムを記録した記録媒体。
図1
図2
図3