(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-01-22
(54)【発明の名称】多オブジェクト構成体および変形したオブジェクトを含む、オブジェクトおよびオブジェクトの部分の画像を処理すること
(51)【国際特許分類】
G06T 7/70 20170101AFI20250115BHJP
【FI】
G06T7/70 Z
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024533141
(86)(22)【出願日】2022-12-08
(85)【翻訳文提出日】2024-07-31
(86)【国際出願番号】 EP2022085055
(87)【国際公開番号】W WO2023117472
(87)【国際公開日】2023-06-29
(32)【優先日】2021-12-23
(33)【優先権主張国・地域又は機関】GR
(32)【優先日】2022-03-14
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】523306841
【氏名又は名称】アイエヌエイアイティ エスエイ
(74)【代理人】
【識別番号】100125818
【氏名又は名称】立原 聡
(72)【発明者】
【氏名】ダニエル ミラン リュトゲットマン
(72)【発明者】
【氏名】ディミトリ ザガニディス
(72)【発明者】
【氏名】ニコラ アラン ベルジェ
(72)【発明者】
【氏名】フェリックス シュアーマン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA04
5L096CA05
5L096DA02
5L096EA14
5L096FA09
5L096FA66
5L096FA67
5L096FA69
5L096GA51
(57)【要約】
画像処理の方法は、オブジェクトのインスタンスの画像とオブジェクトの三次元モデルとを受信することと、二次元画像におけるオブジェクトのインスタンスの第1の複数のランドマークを検出することと、画像を獲得したイメージングデバイスに対する、受信された画像におけるオブジェクトのインスタンスのポーズを推定することであって、受信された画像における相対ポーズが、第1の複数の検出されたランドマークから推定される、推定することと、推定された相対ポーズを使用して、オブジェクトの三次元モデルからのランドマークをオブジェクトのインスタンスの受信された画像の次元空間に投影することと、対応する投影されたランドマークと第1の複数の検出されたランドマークとの特徴を次元空間において比較することと、対応する投影されたランドマークと第1の複数の検出されたランドマークとの位置間に、閾レベルの位置対応関係が存在するか否かを判定することとを含み得る。
【選択図】
図1
【特許請求の範囲】
【請求項1】
画像処理の方法であって、前記方法が、
オブジェクトのインスタンスの画像と前記オブジェクトの三次元モデルとを受信することと、
二次元画像における前記オブジェクトの前記インスタンスの第1の複数のランドマークを検出することと、
前記画像を獲得したイメージングデバイスに対する、受信された前記画像における前記オブジェクトの前記インスタンスのポーズを推定することであって、受信された前記画像における相対ポーズが、前記第1の複数の検出された前記ランドマークから推定される、推定することと、
推定された前記相対ポーズを使用して、前記オブジェクトの前記三次元モデルからのランドマークを前記オブジェクトの前記インスタンスの受信された前記画像の次元空間に投影することと、
対応する投影された前記ランドマークと前記第1の複数の検出された前記ランドマークとの特徴を前記次元空間において比較することと、
対応する投影された前記ランドマークと前記第1の複数の検出された前記ランドマークと位置間に、閾レベルの位置対応関係が存在するか否かを判定することと、
を含む、方法。
【請求項2】
前記方法が、
前記画像における前記オブジェクトの前記インスタンスの複数のランドマークを検出することであって、検出された前記複数のものが、前記第1の複数のランドマークより多くのランドマークを含む、検出することと、
検出された前記複数のもののうちの前記ランドマークの中から前記第1の複数のランドマークを選択することと、
を更に含む、請求項1に記載の方法。
【請求項3】
前記第1の複数のものの選択が、ランダムである、
請求項2に記載の方法。
【請求項4】
前記第1の複数のランドマークの選択が、前記ランドマークの特性によりガイドされる、
請求項2に記載の方法。
【請求項5】
前記特性が、前記ランドマークのうちの所与のものが適切に検出されたことがどれだけ確かであるかである、
請求項4に記載の方法。
【請求項6】
前記閾レベルの位置対応関係が存在しないと判定したことに応答して、
第1の画像において検出された前記オブジェクトの前記インスタンスの第2の複数のランドマークから、前記第1のl画像における前記オブジェクトの前記インスタンスの前記相対ポーズを再度推定することであって、前記第2の複数のもののうちの前記ランドマークのうちの少なくとも幾つかが、前記第1の複数のもののうちの前記ランドマークと異なる、再度推定することと、
再度推定された前記相対ポーズを使用して、前記オブジェクトの前記三次元モデルからのランドマークを前記オブジェクトの前記インスタンスの受信された前記画像の前記次元空間に投影することと、
対応する投影された前記ランドマークと前記第2の複数の検出された前記ランドマークとの特徴を前記次元空間において比較することと、
対応する投影された前記ランドマークと前記第2の複数の検出された前記ランドマークとの位置間に、前記閾レベルの位置対応関係が存在するか否かを判定することと、
を更に含む、請求項1に記載の方法。
【請求項7】
前記オブジェクトの前記インスタンスの前記第2の複数のランドマークを選択することを更に含み、前記第2の複数のものを選択することが、
比較的大きい位置差を伴う、対応する投影された前記ランドマークと前記第1の複数のもののうちの前記ランドマークとを特定することと、
前記第2の複数のものから比較的大きい差を伴う前記第1の複数のもののうちの前記ランドマークを除くことと、
を含む、請求項6に記載の方法。
【請求項8】
前記オブジェクトの前記インスタンスの前記第2の複数のランドマークを選択することを更に含み、前記第2の複数のものを選択することが、
比較的大きい位置差を伴う、対応する投影された前記ランドマークと前記第1の複数のもののうちの二次元ランドマークとの位置を特定することと、
前記比較的大きい位置差を伴う、対応する投影された前記ランドマークと検出された前記ランドマークとの近傍にある前記第1の複数のもののうちのランドマークを前記第2の複数のものから除くことと、
を含む、請求項6に記載の方法。
【請求項9】
前記オブジェクトの前記インスタンスの前記第2の複数のランドマークを選択することを更に含み、前記第2の複数のものを選択することが、
対応する投影された前記ランドマークと検出された前記ランドマークとの位置ずれ方向を特定することと、
対応する投影された前記ランドマークと検出された前記ランドマークとの位置ずれの大部分の前記位置ずれ方向と異なる位置ずれ方向を伴う前記第1の複数のもののうちの前記ランドマークを前記第2の複数のものから除くことと、
を含む、請求項6に記載の方法。
【請求項10】
前記閾レベルの位置対応関係が存在すると判定したことに応答して、
対応する投影された前記ランドマークからの比較的大きいずれを伴う、前記画像において検出された前記オブジェクトの前記インスタンスの前記ランドマークの部分集合を特定することと、
検出された前記ランドマークの前記部分集合に基づいて前記オブジェクトの前記インスタンスに関する結論を導くことと、
を更に含む、請求項1に記載の方法。
【請求項11】
前記結論を導くことが、変形したまたは損傷した前記オブジェクトの前記インスタンスの部分を指定することを含む、
請求項10に記載の方法。
【請求項12】
前記結論を導くことが、比較的大きい位置ずれの大きさ、前記比較的大きい位置ずれの方向、または前記大きさと前記方向との両方を定量化することを含む、
請求項10に記載の方法。
【請求項13】
前記閾レベルの位置対応関係が存在するか否かを判定することが、
複数の対応する投影されたランドマークと検出されたランドマークとの位置差を組み合わせることと、
前記位置差の組み合わせと閾条件とを比較することと、
を含む、請求項1に記載の方法。
【請求項14】
前記オブジェクトの前記インスタンスの前記相対ポーズを推定することが、
受信された前記画像における前記オブジェクトの前記インスタンスの前記相対ポーズの第1の推定結果を形成することと、
第1の相対ポーズ推定結果の品質が不十分であることを特定することと、
それに応答して、受信された前記画像における前記オブジェクトの前記インスタンスの前記相対ポーズの第2の推定結果を形成することと、
を含む、請求項1に記載の方法。
【請求項15】
前記オブジェクトの前記インスタンスの第2の画像を受信することと、
第2のイメージングデバイスにより獲得された前記第2の画像における前記オブジェクトの前記インスタンスの第2の複数のランドマークを検出することと、
前記第2の画像を獲得した前記第2のイメージングデバイスに対する前記第2の画像における前記オブジェクトの前記インスタンスのポーズを推定することであって、前記第2の画像における前記相対ポーズが、前記第2の複数の検出された前記ランドマークから推定される、推定することと、
前記オブジェクトの前記インスタンスの推定された前記相対ポーズと前記第2の画像における前記オブジェクトの前記インスタンスの推定された前記相対ポーズとを使用して、前記オブジェクトの前記三次元モデルからの前記ランドマークを前記第2の画像の前記次元空間に投影することと、
を更に含む、請求項1に記載の方法。
【請求項16】
対応する、
a)前記第2の画像における前記オブジェクトの前記インスタンスの推定された前記相対ポーズを使用して投影された前記ランドマークと、
b)前記第2の複数の検出された前記ランドマークと、
の特徴を前記次元空間において比較することと、
対応する投影された前記ランドマークと前記第1の複数の検出された前記ランドマークとの比較された前記特徴間に、閾レベルの対応関係が存在するか否かを判定することと、
を更に含む、請求項15に記載の方法。
【請求項17】
前記インスタンスの前記画像が、二次元画像であり、
検出された前記ランドマークが、二次元ランドマークであり、
受信された前記画像の前記次元空間が、二次元空間であり、
比較される対応する投影された前記ランドマークと第2の複数の検出された前記ランドマークとの前記特徴が、二次元空間における位置特徴である、
請求項1に記載の方法。
【請求項18】
オブジェクトのインスタンスの画像における前記オブジェクトの前記インスタンスのランドマークを検出することと、
前記画像を獲得したイメージングデバイスに対する前記オブジェクトの前記インスタンスのポーズを推定することと、
推定された前記ポーズを使用して、前記オブジェクトの三次元モデルからのランドマークを前記オブジェクトの前記インスタンスの前記画像の次元空間に投影することと、
対応する投影された前記ランドマークと検出された前記ランドマークとを特定することと、
対応する前記ランドマークのずれを特定するために、対応する投影された前記ランドマークと検出された前記ランドマークとの特徴を前記次元空間において比較することと、
閾条件より大きいずれを伴う対応する前記ランドマークの部分集合を特定することと、
特定された前記部分集合に基づいて、前記オブジェクトの前記インスタンスまたは前記オブジェクトの前記インスタンスの部分の変形、動き、または不明瞭さを特定することと、
を含む、方法。
【請求項19】
前記変形、前記動き、または前記不明瞭さを特定することが、前記オブジェクトの前記インスタンスの損傷した部位を特定することを含む、
請求項18に記載の方法。
【請求項20】
前記変形、前記動き、または前記不明瞭さを特定することが、
前記オブジェクトの前記インスタンスの第2の画像における前記オブジェクトの前記インスタンスの前記ランドマークを検出することと、
前記第2の画像において検出された前記ランドマークの位置に基づいて、前記変形、前記動き、または前記不明瞭さを特定することと、
を含む、請求項18に記載の方法。
【請求項21】
位置ずれを伴う対応する前記ランドマークの前記部分集合の空間的に近いランドマークのクラスターを特定することと、
前記空間的に近いランドマークの前記クラスターに基づいて、前記オブジェクトの前記変形または前記動きを特定することと、
を更に含む、請求項18に記載の方法。
【請求項22】
対応する前記ランドマークを特定することが、対応する前記ランドマークを特定するために、投影された、および検出されたランドマークのコンテキストを比較することを含む、
請求項18に記載の方法。
【請求項23】
前記インスタンスの前記画像が、二次元画像であり、
検出された前記ランドマークが、二次元ランドマークであり、
受信された前記画像の前記次元空間が、二次元空間であり、
ずれを特定するために比較される前記特徴が、二次元位置特徴である、
請求項18に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年12月23日に出願されたギリシャ出願第20210100909号および2022年3月14日に出願された米国特許出願第17/654,647号の優先権の利益を主張する。同文献の内容全体が参照により本明細書に組み込まれる。
【0002】
本明細書は、多オブジェクト構成体および変形したオブジェクトを含む、オブジェクトおよびオブジェクトの部分の処理に関する。
【背景技術】
【0003】
画像処理は、処理される信号が画像である、ある種類の信号処理である。入力画像は、例えば出力画像または画像のキャラクタライゼーションを生成するために処理され得る。
【0004】
画像処理の一例はポーズ推定である。以下で詳細に説明されるように、ポーズ推定は、イメージングデバイスおよびオブジェクトの相対位置および配向が二次元画像から推定される工程である。ポーズ推定は、画像処理の他の結果に基づき得る。1つの例は、ランドマーク認識である。ランドマーク認識では、二次元画像が画像におけるランドマークおよびランドマークの位置を特定するために処理される。ランドマークの識別情報および位置は、ポーズ推定が基礎にし得る結果の例である。
【発明の概要】
【0005】
第1の態様において、画像処理の方法は、オブジェクトのインスタンスの画像とオブジェクトの三次元モデルとを受信することと、二次元画像におけるオブジェクトのインスタンスの第1の複数のランドマークを検出することと、画像を獲得したイメージングデバイスに対する、受信された画像におけるオブジェクトのインスタンスのポーズを推定することであって、受信された画像における相対ポーズが、第1の複数の検出されたランドマークから推定される、推定することと、推定された相対ポーズを使用して、オブジェクトの三次元モデルからのランドマークをオブジェクトのインスタンスの受信された画像の次元空間に投影することと、対応する投影されたランドマークと第1の複数の検出されたランドマークとの特徴を次元空間において比較することと、対応する投影されたランドマークと第1の複数の検出されたランドマークとの位置間に、閾レベルの位置対応関係が存在するか否かを判定することとを含む。
【0006】
第1の態様の-または第2の態様または第3の態様の-実施態様は、以下の特徴のうちの1つまたは複数を含み得る。方法は、画像におけるオブジェクトのインスタンスの複数のランドマークを検出することであって、検出された複数のものが、第1の複数のランドマークより多くのランドマークを含む、検出することと、検出された複数のもののうちのランドマークの中から第1の複数のランドマークを選択することとを含み得る。第1の複数のものの選択は、ランダムであり得る。第1の複数のランドマークの選択は、ランドマークの特性によりガイドされ得る。特性は、ランドマークのうちの所与のものが適切に検出されたことがどれだけ確かであるかであり得る。
【0007】
本方法は、閾レベルの位置対応関係が存在しないと判定したことに応答して、第1の画像において検出されたオブジェクトのインスタンスの第2の複数のランドマークから第1のl画像におけるオブジェクトのインスタンスの相対ポーズを再度推定することであって、第2の複数のもののうちのランドマークのうちの少なくとも幾つかが、第1の複数のもののうちのランドマークと異なる、再度推定することと、再度推定された相対ポーズを使用して、オブジェクトの三次元モデルからのランドマークをオブジェクトのインスタンスの受信された画像の次元空間に投影することと、対応する投影されたランドマークと第2の複数の検出されたランドマークとの特徴を次元空間において比較することと、対応する投影されたランドマークと第2の複数の検出されたランドマークとの位置間に、閾レベルの位置対応関係が存在するか否かを判定することとを含み得る。
【0008】
本方法は、オブジェクトのインスタンスの第2の複数のランドマークを選択することを更に含み得る。第2の複数のものは、例えば、比較的大きい位置差を伴う、対応する投影されたランドマークと第1の複数のもののうちのランドマークとを特定することと、第2の複数のものから、比較的大きい差を伴う第1の複数のもののうちのランドマークを除くこととにより選択され得る。第2の複数のものは、例えば、比較的大きい位置差を伴う、対応する投影されたランドマークと第1の複数のもののうちの二次元ランドマークとの位置を特定することと、比較的大きい位置差を伴う対応する投影されたランドマークと検出されたランドマークとの近傍にある、第1の複数のもののうちのランドマークを、第2の複数のものから除くこととにより選択され得る。第2の複数のものは、例えば、対応する投影されたランドマークと検出されたランドマークとの位置ずれ方向を特定することと、対応する投影されたランドマークと検出されたランドマークとの位置ずれの大部分の位置ずれ方向と異なる位置ずれ方向を伴う、第1の複数のもののうちのランドマークを、第2の複数のものから除くこととにより選択され得る。
【0009】
本方法は、閾レベルの位置対応関係が存在すると判定したことに応答して、対応する投影されたランドマークからの比較的大きいずれを伴う画像において検出されたオブジェクトのインスタンスのランドマークの部分集合を特定することと、検出されたランドマークの部分集合に基づいてオブジェクトのインスタンスに関する結論を導くこととを含み得る。結論は、変形したまたは損傷したオブジェクトのインスタンスの部分を指定し得る。結論は、比較的大きい位置ずれの大きさ、比較的大きい位置ずれの方向、または、大きさと方向との両方を定量化し得る。
【0010】
複数の対応する投影されたランドマークと検出されたランドマークとの位置差を組み合わせることと、位置差の組み合わせと閾条件とを比較することとにより、閾レベルの位置対応関係が存在すると判定され得る。オブジェクトのインスタンスの相対ポーズは、受信された画像におけるオブジェクトのインスタンスの相対ポーズの第1の推定結果を形成することと、第1の相対ポーズ推定結果の品質が不十分であることを特定することと、それに応答して、受信された画像におけるオブジェクトのインスタンスの相対ポーズの第2の推定結果を形成することとにより推定され得る。
【0011】
本方法は、オブジェクトのインスタンスの第2の画像を受信することと、第2のイメージングデバイスにより獲得された第2の画像におけるオブジェクトのインスタンスの第2の複数のランドマークを検出することと、第2の画像を獲得した第2のイメージングデバイスに対する第2の画像におけるオブジェクトのインスタンスのポーズを推定することであって、第2の画像における相対ポーズが、第2の複数の検出されたランドマークから推定される、推定することと、オブジェクトのインスタンスの推定された相対ポーズと第2の画像におけるオブジェクトのインスタンスの推定された相対ポーズとを使用して、オブジェクトの三次元モデルからのランドマークを第2の画像の次元空間に投影することとを含み得る。
【0012】
本方法は、対応するa)第2の画像におけるオブジェクトのインスタンスの推定された相対ポーズを使用して投影されたランドマークと、b)第2の複数の検出されたランドマークとの特徴を次元空間において比較することと、対応する投影されたランドマークと第1の複数の検出されたランドマークとの比較された特徴間に閾レベルの対応関係が存在するか否かを判定することとを更に含み得る。インスタンスの画像は、二次元画像であり得る。検出されたランドマークは、二次元ランドマークであり得る。受信された画像の次元空間は、二次元空間であり得る。比較される対応する投影されたランドマークと第2の複数の検出されたランドマークとの特徴は、二次元空間における位置特徴であり得る。
【0013】
第2の態様において、方法は、オブジェクトのインスタンスの画像におけるオブジェクトのインスタンスのランドマークを検出することと、画像を獲得したイメージングデバイスに対するオブジェクトのインスタンスのポーズを推定することと、推定されたポーズを使用して、オブジェクトの三次元モデルからのランドマークをオブジェクトのインスタンスの画像の次元空間に投影することと、対応する投影されたランドマークと検出されたランドマークとを特定することと、対応するランドマークのずれを特定するために、対応する投影されたランドマークと検出されたランドマークとの特徴を次元空間において比較することと、閾条件より大きいずれを伴う対応するランドマークの部分集合を特定することと、特定された部分集合に基づいて、オブジェクトのインスタンスまたはオブジェクトのインスタンスの部分の変形、動き、または不明瞭さを特定することとを含む。
【0014】
第2の態様の-または第1の態様または第3の態様の-実施態様は、以下の特徴のうちの1つまたは複数を含み得る。変形、動き、または不明瞭さを特定することは、オブジェクトのインスタンスの損傷した部位を特定することを含み得る。変形、動き、または不明瞭さを特定することは、オブジェクトのインスタンスの第2の画像におけるオブジェクトのインスタンスのランドマークを検出することと、第2の画像において検出されたランドマークの位置に基づいて、変形、動き、または不明瞭さを特定することとを含み得る。本方法は、位置ずれを伴う対応するランドマークの部分集合の空間的に近いランドマークのクラスターを特定することと、空間的に近いランドマークのクラスターに基づいてオブジェクトの変形または動きを特定することとを含み得る。
【0015】
対応するランドマークを特定することは、対応するランドマークを特定するために、投影された、および検出されたランドマークのコンテキストを比較することを含み得る。インスタンスの画像は、二次元画像であり得る。検出されたランドマークは、二次元ランドマークであり得る。受信された画像の次元空間は、二次元空間であり得る。ずれを特定するために比較される特徴は、二次元位置特徴であり得る。
【0016】
第3の態様では、二次元画像間の差を特定する方法は、第1の二次元画像と第2の二次元画像とを受信することであって、第1の画像と第2の画像との各々が、オブジェクトの同じインスタンスの少なくとも一部を含む、受信することと、オブジェクトの三次元モデルを受信することと、第1の画像におけるオブジェクトのインスタンスの第1の複数の二次元ランドマークと、第2の画像におけるオブジェクトのインスタンスの第2の複数の二次元ランドマークとを検出することと、第1の二次元画像と第2の二次元画像とを獲得した1つまたは複数のイメージングデバイスに対する第1の画像と第2の画像との各々におけるオブジェクトのインスタンスのポーズを推定することと、推定された相対ポーズのうちの少なくとも1つを使用して、オブジェクトの三次元モデルからのランドマークを二次元空間に投影することと、第1の複数の検出された二次元ランドマークと第2の複数の検出された二次元ランドマークとの各々における対応する投影されたランドマークと検出された二次元ランドマークとの位置を二次元空間において比較することと、比較に基づいて、第1の複数の二次元ランドマークのうちの、または、第2の複数の二次元ランドマークのうちの異常ランドマークを特定することとを含み得る。
【0017】
第1の態様、第2の態様、および第3の態様の上述の方法の他の実施態様は、方法のアクションを実施するように構成された対応するシステムおよび装置、および、機械可読データストレージデバイスにおいて有形に具現化された、および、アクションを実施するためにデータ処理装置を構成するコンピュータプログラムを含み得る。
【0018】
1つまたは複数の実施態様の詳細が、添付図面および以下の説明に記載されている。実施態様の他の特徴および利点が、説明および図面から、および、特許請求の範囲から明らかとなる。
【図面の簡単な説明】
【0019】
【
図1】
図1は、オブジェクトの異なる画像の集合体の獲得の概略図である。
【
図2】
図2は、1つまたは複数のカメラにより獲得された二次元画像の集合体の概略図である。
【
図3】
図3は、オブジェクトの二次元画像を処理するためにコンピュータにより実施される処理のフローチャートである。
【
図4】
図4は、同じオブジェクトの2つの異なるインスタンスの2つの異なる画像を使用して実施される、
図3の工程の一部の実施態様の概略図である。
【
図5】
図5は、
図3の工程の一部のパフォーマンス中における二次元ランドマークの異なる部分集合の選択を概略的に表す。
【
図6】
図6は、4つの異なるオブジェクトの3つの異なる画像を使用して実施される
図3の工程の一部の実施態様の概略図である。
【
図7】
図7は、二次元画像から検出されたランドマークと三次元モデルから投影されたランドマークとの間の位置ずれを表すヒストグラムである。
【
図8】
図8は、3Dモデルに現れるランドマークに注釈付けするためにコンピュータにより実施される処理のフローチャートである。
【発明を実施するための形態】
【0020】
様々な図面における類似の参照符号は類似の要素を示している。
【0021】
図1は、オブジェクト100の異なる画像の集合体の獲得の概略図である。例示を目的として、オブジェクト100は、理想的なマーキングされていない幾何学的パーツ(part)(例えば立方体、多面体、平行六面体など)の組立体として示される。しかし、現実の用途において、オブジェクトは、概して、より複雑な形状をもち、および、例えば、基礎となる形状に対する装飾的デコレーション、摩耗マーク、または他のマーキングを伴う、テクスチャのある、または別様にマーキングされたものである。
【0022】
1つまたは複数のイメージングデバイス(本例において、カメラ105、110、115、120、125として示される)の集合体が、オブジェクト100の周囲における異なる相対位置に連続的に、または同時に配置され、および、オブジェクト100に対して異なる相対角度に配向され得る。位置は、オブジェクト100の周囲における三次元空間に分散され得る。配向は更に三次元で変化し得、すなわち、オイラー角(または、ヨー、ピッチ、およびロール)の全てが変化し得る。オブジェクト100に対するカメラ105、110、115、120、125の相対的配置および配向は、カメラとオブジェクトとの間の相対ポーズと呼ばれ得る。カメラ105、110、115、120、125は異なる相対ポーズをとるので、カメラ105、110、115、120、125の各々がオブジェクト100の異なる画像を獲得する。
【0023】
カメラとオブジェクトとの間の相対ポーズは、異なる基準座標系において規定され得る。例えば、カメラおよびオブジェクトの相対ポーズに対する基準座標系は、例えば、オブジェクトにおける点とカメラにおける点との間に直線を引くことにより、および、この線に沿った点を選択することにより、カメラおよびオブジェクトのみに基づいて規定され得る。この線の長さはオブジェクトとカメラとの間の距離を規定し、線はカメラとオブジェクトとの角度傾斜を規定するために使用され得る。別の例として、基準座標系は、例えば例として地面または他の場所における位置といった他の基準点に対して規定され得る。これらの点に対して規定された距離および配向は、カメラおよびオブジェクトのみに基づいて規定された基準座標系における距離および配向に変換され得る。
【0024】
図2に戻ると、例えばオブジェクト100といった簡略化されたオブジェクトでさえ、多くのランドマーク130、131、132、133、134、135、136、…を含む。ランドマークは、オブジェクト100における関心位置である。ランドマークは、オブジェクトにおける幾何学的位置に、または、基礎となる幾何学的形状状のマーキングに位置し得る。以下で詳細に説明されるように、ランドマークは、オブジェクトのポーズを特定するために使用され得る。ランドマークは、他の種類の画像処理のために、例えば、オブジェクトを分類するために、オブジェクトの特徴を抽出するために、オブジェクトにおける他の構造物(幾何学的構造物またはマーキング)の位置を特定するために、オブジェクトに対する損傷を評価するために、および/または、これらの画像処理技術および他の画像処理技術により測定が行われ得る原点として機能するためにも使用され得る。
【0025】
図2は、例えばカメラ105、110、115、120、125(
図1)といった、1つまたは複数のカメラにより獲得された二次元画像の集合体200の概略図である。集合体200における画像は、異なる相対ポーズにおけるオブジェクト100を示す。例えばランドマーク130、131、132、133、134、135、136、…といったランドマークは、-仮にそれらが現れるとした場合-異なる画像において異なる位置に現れる。例えば、集合体200のうちの最も左の画像では、ランドマーク133、134は、オブジェクト100の残りの部分により覆い隠されている。対照的に、最も右の画像210では、ランドマーク131、135、137は、オブジェクト100の残りの部分により覆い隠されている。
【0026】
図3は、オブジェクトの二次元画像を処理するためのコンピュータにより実施される処理300のフローチャートである。二次元画像は、複数のオブジェクトおよび/または変形したオブジェクトの配置を含み得る。工程300は、例えば、変形された個々のオブジェクトの部分、1つの画像から次のものに動いたオブジェクトまたはオブジェクトの部分、および/または、画像において覆い隠されたオブジェクトの部分を特定するための工程の一部であり得る。工程300は、データ処理アクティビティを実施する1つまたは複数のデータ処理デバイスにより実施され得る。工程300のアクティビティは、機械可読命令セット、ハードウェア組立体、またはこれらの命令および/または他の命令の組み合わせのロジックに従って実施され得る。
【0027】
305において、工程300を実施するデバイスが、オブジェクトの画像と画像におけるオブジェクトの三次元モデルとを受信する。
【0028】
受信された画像は、多くの異なる種類のカメラまたは他のイメージングデバイスのうちの任意のものにより獲得され得る。例えば、画像は、スマートフォン、デジタルカメラ、医療イメージングデバイス、LIDARカメラ、X線マシンなどにより獲得され得る。幾つかの実施態様では、1つの受信された画像は、例えば、複数のイメージングデバイスにより獲得された情報、または、異なるイメージングメカニズムを使用して獲得された情報といった、異なる種類の情報を組み合わせる。例えば、1つの受信された画像は、異なるポーズから獲得された情報(立体イメージング)、同じポーズからではあるが異なるダイナミックレンジを使用して獲得された情報(高ダイナミックレンジイメージング)、偏光フィルタを使用して獲得された情報などを組み合わせ得る。受信された画像は、したがって、二次元の情報、三次元の情報、より高い次元の情報を含み得る。情報は、立体情報、偏光情報、高ダイナミックレンジ情報、デプススキャニング情報(例えばLIDAR)、偏光および他のフィルタ、マスク、ピクセル内容に関するラベル、遷移(例えば色、形状)のベクトル場の情報、動き情報などを含み得る。幾つかの例では、情報は1つのイメージングデバイス(例えば立体カメラ)を使用して獲得される。他の例において、複数のイメージングデバイスを使用して獲得された情報を組み合わせるために、獲得後の処理が実施される。
【0029】
幾つかの実施態様では、工程300を実施するデバイス自体が、受信された画像を獲得する。他の実施態様では、画像は、直接的に、または1つまたは複数の中間デバイスを介してイメージングデバイスから受信される。例えば、画像は、独立した画像として、またはビデオストリームの一部として、有線または無線データ通信を使用して工程300を実施するデバイスに通信され得る。
【0030】
三次元(3D)モデルは、概してあらゆる基準座標系から切り離された三次元空間におけるオブジェクトを表す。3Dモデルは、手動で、アルゴリズムにより(手続き型モデル化により)、または実際のオブジェクトをスキャンすることにより生成され得る。3Dモデルにおける表面は、テクスチャマッピングを使用して規定され得る。幾つかの例では、オブジェクトの3Dモデルは、オブジェクトの構成パーツまたは部分の組立体として(例えばコンピュータ支援設計(CAD:computer-aided design)ソフトウェアを使用して)生成され得る。例えば、自動車の3Dモデルは、構成する自動車パーツの3D CADモデルの組立体として形成され得、または、口の3Dモデルは、口内における口蓋および歯冠のモデルの組立体として形成され得る。しかし、他の場合において、3Dモデルは、構成パーツに再分割される一体をなす全体として始まり得る。例えば、臓器の3Dモデルは、医療または他の専門家の指示に基づいて様々な構成パーツに分割され得る。
【0031】
本開示は「オブジェクトの」または「同じオブジェクトの」三次元モデルを参照するが、三次元モデルは、概して、オブジェクトの1つの物理的なインスタンスのモデルではない。むしろ、三次元モデルは、概して、共通した特性を共有した異なるオブジェクトの一般的で理想的なモデルである。ある例は、自動車または電気機器の特定のインスタンスの詳細を考慮しない-特定の製造およびモデルの自動車または電気機器の三次元モデルを含む。他の例は、特定の生理学的な、および/または人口統計学的な特徴(例えば、年齢、性別、身長、体重、顎幅など)をもつ個人の異なる臓器または歯の三次元モデルを含む。
【0032】
幾つかの例では、画像および3Dモデルは、オブジェクトの同じ部分のものである。幾つかの例では、画像は複数のオブジェクト(または複数のオブジェクトの部分)を含み、複数の三次元モデルが受信され得る。オブジェクトの厳密な性質--またはオブジェクトの部分--は、用途のコンテキストに依存し得る。例示的なオブジェクトは、自動車、内部の臓器、歯、景色内のオブジェクト(例えば、家、街路、街灯柱、川など)などを含む。これらの例示的なオブジェクトを考慮すると、オブジェクトの例示的な部分は、
- 自動車のパーツ(例えば、バンパー、車輪、ボディパネル、フード、フロントガラス、およびサイドパネル)、
- 臓器のパーツ(例えば、室、弁、空洞、ローブ、管、膜、および脈管構造)、
- 歯のパーツ(例えば歯冠、歯頸、根)、
- 景色内のオブジェクトのパーツ(例えば、家の屋根、交差点、川の屈曲部)などを含む。他の用途のコンテキストでは他のオブジェクトおよびオブジェクトの他の部分が適切である。この多様性を理由として、および簡潔であることを目的として、オブジェクトまたはオブジェクトの部分は、本明細書ではまとめて「オブジェクト」と呼ばれる。
【0033】
工程300を実施するデバイスまたは1つまたは複数の他のデバイスは、受信された画像および三次元モデルが同じオブジェクトのものであることを確実なものとするために、多くの異なるアプローチのうちの任意のものを使用し得る。例えば、幾つかの実施態様では、受信された画像に関連したメタデータが、画像におけるオブジェクトを特徴付け得る。例えば、製造およびモデルの年が、自動車の2D画像に関連付けられ得る。患者名、または、生理学的な、および人口統計学的な特徴が、医療または歯画像に関連付けられ得る。GPS座標が、景色の画像に関連付けられ得る。このようなメタデータは、同じオブジェクトの3Dモデルを特定するために使用され得る。例えば、3D自動車モデルの既存のライブラリが、同じ製造およびモデルの自動車の3Dモデルを探して検索され得る。人口統計学的な、および/または生理学的な情報が、それらの人口統計学的な、および/または生理学的な特性を患者がもつことを表す3Dモデルを探すために使用され得る。幾つかの例では、三次元モデルは、オブジェクトの同じインスタンスから獲得され得、画像に関連したメタデータが使用され得る。例えば、患者の生理機能の、以前に生成された3D画像を検索するために、または、1つのイメージングモダリティを使用して獲得された医療画像と異なる三次元イメージングモダリティを使用して獲得された3D画像との間の対応を確実なものとするために、患者名が使用され得る。
【0034】
310において、工程300を実施するデバイスは、オブジェクトの受信された画像におけるランドマークを検出する。ランドマークは、例えば機械学習モデルを使用して検出され得る。ランドマーク検出のための例示的な機械学習モデルは、https://github.com/facebookresearch/detectron2において入手可能なdetectron2である。幾つかの実施態様では、ランドマーク検出機械学習モデルは、ランドマークが適切に検出されたことがどれほど確実かについての検出スコアまたは他のキャラクタライゼーションを各ランドマークに対して生成し得る。
【0035】
315において、工程300を実施するデバイスは、オブジェクトの受信された画像において検出されたランドマークの真部分集合を選択する。幾つかの実施態様では、ランドマークの選択はランダムである。他の実施態様では、ランドマークの選択はランダムではなく、1つまたは複数のパラメータがランドマークの選択をガイドする。例えば、幾つかの実施態様では、工程300を実施するデバイスは、受信された画像における特定の位置特徴をもつランドマークを選択的に選択し得る。例えば、工程300を実施するデバイスは、互いに比較的遠い、または、受信された画像における視野にわたって比較的一様に分散されたランドマークを選択的に選択し得る。別の例として、ランドマーク検出機械学習モデルが、異なるランドマークが適切に検出されたことがどれほど確実であるかのキャラクタライゼーションを生成する実施態様では、工程300を実施するデバイスが比較的高い確実性を伴って検出されたランドマークを選択的に選択し得る。別の例として、ランドマークの選択は、配置、確実性、および/または他のパラメータの組み合わせによりガイドされ得る。
【0036】
320において、工程300を実施するデバイスは、選択されたランドマークを使用して受信された画像におけるオブジェクトの相対ポーズを推定する。相対ポーズは、例えば機械学習モデルを使用して推定され得る。例えば、ランドマーク検出に依存したポーズ推定部は、https://docs.opencv.org/master/d7/d53/tutorial_py_pose.htmlにおいて説明されているOpenCVの機能のSolvePNPである。
【0037】
別の例として、相対ポーズは、デライブドインバースモデル(derived inverse model)から前方予測を使用して推定され得る。Yen-Chen Linらによる「iNeRF:Inverting Neural Radiance Fields for Pose Estimation」という名称の刊行物(arXiv:2012.05877v3、2021年8月10日)において例が説明されており、同文献の内容が参照により本明細書に組み込まれる(https://api.semanticscholar.org/CorpusID:228083990において入手可能)。
【0038】
幾つかの実施態様では、ポーズ推定の品質は、スコアリングされ、または別様に特徴付けられ得る。例えば、幾つかの実施態様では、ポーズ推定の品質の二値の有効/無効のキャラクタライゼーションが生成され得る。「有効な」ポーズは十分な品質であるものであるのに対し、「無効な」ポーズは不十分な品質であるものである。ポーズ予測を無効化するための基準は、受信された画像が取得される可能性がある現実世界の条件を反映した基準に基づいて確立され得る。基準は、オブジェクトの性質に従って調整され得る。例えば、オブジェクトが自動車であるポーズ推定に対して、次のことが言える。
- カメラは、自動車の下方の地面に対して0メートルから5メートルの間の高度になければならない。
- カメラは、自動車の20メートル内になければならない。
- 自動車の下方の地面に対するカメラのロールは小さい(例えば+/-10度未満である)。および、
- 自動車の境界は、予測されたポーズによりもたらされる自動車の境界に大部分において一致しなければならない。
【0039】
ポーズ推定がこのような基準を満たさない場合、ポーズ予測は、無効と示され得る。
【0040】
別の例として、幾つかの実施態様では、ポーズ推定の品質の非2値の、より細粒度の高いキャラクタライゼーションが生成され得る。例えば、受信された二次元画像においてオブジェクトの輪郭を検出するために、更なる機械学習モデルが使用され得る。更に、推定されたポーズは、推定されたポーズにおけるオブジェクトの代用二次元画像(surrogate two-dimensional image)を形成するために、オブジェクトの3Dモデルを投影するために使用され得る。受信された二次元画像から検出された輪郭は、ポーズ推定の品質を特徴付けるために、代用二次元画像におけるオブジェクトの輪郭と比較され得る。幾つかの実施態様では、結果は、全体的にオブジェクトに基づいてポーズ推定の品質を特徴付け得る。例えば、2つの画像におけるオブジェクト全体の輪郭間の対応が特徴付けられ得る。他の実施態様では、結果は、オブジェクトの部分または領域に基づいてポーズ推定の品質を特徴付け得る。例えば、より大きいオブジェクトの部分または領域のみの輪郭間の対応が特徴付けられ得る。なお、このような輪郭比較は、ポーズ推定の品質の二値の有効/無効のキャラクタライゼーションを生成するために更に使用され得る。
【0041】
更に異なる別の例として、幾つかの実施態様では、ポーズ推定の品質は、個々のランドマークの周囲におけるコンテキストから推定され得る。例えば、受信された画像において検出されたランドマークのコンテキストが、3Dモデルから形成された代用画像における対応するランドマークと考えられるもののコンテキストと比較され得る。例えば、3Dモデルからのオブジェクトの3Dランドマークは、推定されたポーズにおける二次元または三次元代用画像に投影され得る。このようなランドマークのコンテキストは、例えばランドマークの周囲における特徴の形状および/または視覚特性、例えば例として、色、構造、パターン、光学特性(例えば反射率、偏光)、典型的な隣接した構造物のサイズなどを含み得る。幾つかの実施態様では、これらの特性は、例示的な画像から学習され、または、3Dモデルから演算される(例えば、ドアハンドルは典型的にはドアに付いており、ドアは自動車の他のパーツから特定の分離を施されている。など)。
【0042】
更に異なる別の例として、幾つかの実施態様では、ポーズ推定の品質は、複数回にわたってポーズを推定すること、および、異なるポーズ推定を比較することにより特徴付けられ得る。例えば、オブジェクトの受信された画像において検出されたランドマークの異なる真部分集合が、例えば315において選択され得る。受信された画像におけるオブジェクトの相対ポーズは、異なるポーズ推定の安定性、すなわち、異なるポーズ推定が互いにどの程度ずれているかを特定するために異なる真部分集合を使用して複数回にわたって推定され得る。幾つかの実施態様では、例えば、受信された画像の全体ではなく、受信された画像の部分からのランドマークを使用して、安定性が評価される。例えば、関心オブジェクトにおけるランドマークまたは受信された画像の他の大きく変動する部分を除外するために、部分が規定され得る。このような場合において、ポーズ推定の品質を推定するために使用されるランドマークは、他のより変化しやすいランドマークから分離される。ポーズ推定の品質が不十分な場合、ポーズは、品質が十分になるまで再推定され得る。例えば、工程300は、ランドマークの異なる部分集合、および、異なる部分集合を使用して再推定されたポーズを選択するために、315に戻り得る。幾つかの例では、工程300は、更なるランドマークを検出するために、または、例えば異なるまたは微調整された機械学習モデルといった異なるアプローチを使用してランドマークを検出するために、310に戻り得る。ポーズ推定の品質が不十分なまま留まる場合、工程300は、所与の受信された画像に対して停止され得、および、異なる画像が受信されて使用され得る。
【0043】
325において、工程300を実施するデバイスは、三次元モデルからのランドマークを、受信された画像と同じ次元空間に投影するために、305において受信されたオブジェクトの三次元モデルおよび320において推定された相対ポーズを使用する。本質的には、工程300を実施するデバイスにより実施される演算は、320において推定された相対ポーズに整合するように三次元モデルを配向させ、および配置する。受信された画像と同じ次元空間に形成された仮想的な受信された画像において視認可能な三次元モデルにおける三次元ランドマークが特定され得る。
【0044】
投影後、対応する投影された、および検出されたランドマークが特定され得る。例えば、投影された、および検出されたランドマークのコンテキストが、対応するランドマークを特定するために比較され得る。このようなランドマークのコンテキストは、例えばランドマークの周囲における特徴の形状および/または視覚特性、例えば例として、色、構造、パターン、光学特性(例えば反射率、偏光)、典型的な隣接した構造物のサイズなどを含み得る。幾つかの実施態様では、これらの特性は、例示的な画像から学習され、または3Dモデルから演算される(例えば、ドアハンドルは典型的にはドアに付いており、ドアは自動車の他のパーツから特定の分離を施されている。など)。
【0045】
330において、工程300を実施するデバイスは、325において仮想的な画像に投影されたランドマークの位置または他の特性を、310において受信された画像において検出された対応するランドマークの位置または他の特性と比較する。比較は、三次元モデルが325において投影された次元のうちの少なくとも幾つかにおいてランドマークごとに実施される。
【0046】
比較の結果は、比較された特定の特性に応じて様々な異なる手法により表され得る。例えば、325において投影された個々のランドマークの各々の2Dまたは3D位置が、310において検出された対応する個々のランドマークの2Dまたは3D位置と比較されると仮定する。2Dまたは3D位置差は、大きさと方向との両方の観点から表され得る。ランドマーク間の離隔の大きさは、例えば、受信された画像の幅の割合としてピクセルの単位で、または別様に表され得る。更なる例として、色の違いは波数により表され得、反射率の違いは放射測定単位により表され得、および、偏光の違いは角度差として表され得る。
【0047】
幾つかの実施態様では、工程300を実施するデバイスは、幾つかの対応するランドマークの差の組み合わせを特徴付ける値を更に生成し得る。例えば、対応するランドマークの集合に対する、2Dまたは3D位置の平均差、または、2Dまたは3D位置の差の代数的なまたはベクトルの和が、後続のアクティビティにおいて生成され、および使用され得る。
【0048】
335において、工程300を実施するデバイスは、325において仮想的な画像に投影されたランドマークの特徴と、310において受信された画像において検出されたランドマークの特徴との間に閾レベルの対応関係が存在するか否かを判定する。閾レベル-および閾レベルと比較される特徴差の両方が、ランドマークごと、または組み合わせごとであり得る。例えば、閾条件未満の個々の差をもつ対応するランドマークの個数または割合が、閾レベルの対応関係が存在するか否かを判定するために使用され得る。別の例として、幾つかの対応するランドマークの2Dまたは3D位置差のベクトル和は、閾レベルの対応関係が存在するか否かを判定するために、閾レベルの対応関係と比較され得る。
【0049】
いずれの場合も、閾レベルは、工程300の特定の例に依存しない客観的ターム(objective terms)により、または、工程300の特定の例に対して調整された主観的ターム(subjective terms)により表され得る。例えば、幾つかの実施態様では、客観的閾レベル-例えば例として、特定のピクセル数または受信された画像の幅の割合-が、工程300の複数の例に適用され得る。他の実施態様では、主観的閾レベル-例えば例として、2Dまたは3D位置差の標準偏差、または、受信された画像においてランドマークが適切に検出されたことの確実性に対して調整された値が、工程300の異なる例中に適用され得る。
【0050】
閾レベルの対応関係が存在しないと判定したことに応答して、工程300を実施するデバイスは、340において、受信された画像において検出されたランドマークの異なる真部分集合(すなわち、310において検出されたランドマークの異なる真部分集合)を選択する。幾つかの実施態様では、ランドマークはランダムに選択される。他の実施態様では、ランドマークの選択はランダムではなく、ランドマークの選択はガイドされる。315における上述のパラメータに加えて、330におけるランドマークごとの比較の結果が、ランドマークの異なる部分集合の選択を更にガイドし得る。例えば、幾つかの実施態様では、325において投影されたランドマークと310において検出された対応する個々のランドマークとの間の差が比較的小さい場合、その個々のランドマークが、異なる真部分集合に選択的に含まれ得る。別の例として、幾つかの実施態様では、325において投影されたランドマークと310において検出された対応する個々のランドマークとの間の差が比較的大きい場合、その個々のランドマークは、異なる真部分集合から除外され得る。例えば、ヒストグラム700(
図7)を参照しながら、バーのクラスター720からのランドマークが、異なる真部分集合のために選択され得るのに対し、バー715からのランドマークは、異なる真部分集合から除外され得る。
【0051】
340における異なる真部分集合の選択後、工程300を実施するデバイスは、320において、異なる真部分集合を使用してオブジェクトの新しい相対ポーズを推定し、325において、新しい相対ポーズを使用して、3Dモデルからのランドマークを、受信された画像の次元空間に投影し、330において、ランドマークの位置を比較する。335において閾レベルの対応関係が存在すると判定されるまで、これが反復され得る。
【0052】
閾レベルの対応関係が存在すると判定したことに応答して、工程300を実施するデバイスは、345において、受信された画像において検出されたランドマークのうちの異常ランドマークを特定する。異常ランドマークは、310において検出された標識の全てのうちから、335において閾レベルの対応関係を提供する部分集合におけるランドマークのうちから、または、310において検出されたランドマークの異なる部分集合のうちから検出され得る。
【0053】
異常ランドマークは、多くの異なる手法により検出され得る。例えば、幾つかの実施態様では、対応するランドマーク間の差のヒストグラム(例えばヒストグラム700、
図7)が生成され、異常なものを特定するために使用され得る。別の例として、閾値差が、異常なものを特定するために使用され得る。幾つかの実施態様では、閾値差は、客観的ターム(例えば受信された画像の幅の特定のピクセル数または割合を上回る)により表され得る。幾つかの実施態様では、閾値位置差は、主観的タームにより、例えば工程300の特定の例を基準とするタームにより表され得る。例えば、平均差からの標準偏差、または、工程300の特定の例における他の対応するランドマークの2Dまたは3Dの方向の差に関連した方向が、異常なものを特定するために使用され得る。
【0054】
特定された異常ランドマークは、動作コンテキストに応じて様々な異なるアクティビティに適用され得る。例えば、オブジェクトインスタンスの損傷または変形が特定される動作コンテキストでは、異常ランドマークは、オブジェクトインスタンスの損傷した、または変形した部分を特定するために使用され得る。例えば、空間的に近い異常なもののクラスターは、オブジェクトインスタンスの基礎となる部分が近傍において損傷している、または変形していることを示し得る。別の例として、異常ランドマークは、損傷または変形の程度を特徴付けるために使用され得る。例えば、位置差の大きさは、-色または他の光学的な差と同様に-損傷または変形の程度の標示として取得され得る。差が比較的小さい場合、これは、オブジェクトインスタンスの通常の摩耗および損傷の標示と解釈され得る。また一方では、差が比較的大きい場合、これは、オブジェクトインスタンスに対するより深刻な損傷の標示と解釈され得る。
【0055】
別の例として、オブジェクトインスタンスの部分の動きが特定される動作コンテキストでは、異常ランドマークは、動きを特徴付けるために使用され得る。例えば、位置差の大きさおよび方向は、動きの大きさおよび方向の標示として取得され得る。このような動作コンテキストの例は、例えばロボットの可動アームまたは他の連結部または他の自動化された機械のパーツの運動が特定されるコンテキストを含む。
【0056】
更に異なる別の例として、オブジェクトインスタンスの部分の不明瞭さが特定される動作コンテキストでは、異常ランドマークは、不明瞭な部分を特徴付けるために使用され得る。例えば、不明瞭さが装飾的デコレーション、または更には新しい塗装コーティングである場合、色、または他の光学的な差が使用され得る。2Dまたは3D位置差が不明瞭さを特定するために使用されるとき、異常ランドマークは、受信された画像においてそれらが検出されないという意味で異常なものであり得る。幾つかの実施態様では、異常ランドマークの位置は、不明瞭なボディの粗い境界を規定するために使用され得る。幾つかの実施態様では、異なるランドマークが検出されない異常なものになるので、異なる画像を使用した工程300の複数回の実施が、画像間の不明瞭なボディの動きを特徴付けるために使用され得る。
【0057】
別の例として、幾つかの動作コンテキストでは、軟質ボディの変形が特定される。このようなコンテキストでは、異常ランドマークは、例えば、異常ランドマークを使用してワイヤフレームの運動学的配置を確立するために、「ワイヤフレーム」3Dモデルを使用してオブジェクトの変形を特徴付けるために使用され得る。
【0058】
別の例として、幾つかの動作コンテキストでは、オブジェクトの成長が特定される。このようなコンテキストでは、異常ランドマークの性質が、成長のタイプを特定するために使用され得る。例えば、オブジェクトのボリュームが三次元において大きくなっている場合、対応する二次元ランドマークの2D位置差は、オブジェクトにおける基準位置からのそれらの距離を反映し得る。別の例として、オブジェクトが一次元のみにおいて増大している(例えば長くなっている)場合、2D位置差は、オブジェクトの基準線または平面からの距離を反映し得る。このような場合において、「異常」ランドマークは、ランドマークの比較的大きい割合-または更には大部分-を含み得る。
【0059】
図4は、同じオブジェクトの2つの異なるインスタンスの2つの異なる二次元画像を使用して実施される工程300の部分の例示的な実施態様の概略図である。上述のように、305において受信された画像は多次元空間における情報を含み得、このような次元において比較が行われ得る。しかし、説明を目的として、工程300の一部の例示的な実施態様が第1の二次元画像405および第2の二次元画像410を使用して実施される。更に、全ての比較は二次元空間におけるものである。
【0060】
画像405は、比較的小さい程度に変形したオブジェクトのインスタンス415のインスタンスの2D画像である。画像410は、比較的より大きい程度で変形した同じオブジェクトのインスタンス420の2D画像である。両方のオブジェクトインスタンス415、420が、同じ3Dモデル425により表される。特に、3Dモデル425は、三次元空間におけるオブジェクトインスタンス415、420の一般的で理想的な表現である。例えば、3Dモデル425は、例えば変形または不明瞭さを一切伴わないオブジェクトのCADモデルまたは工程モデルであり得る。
【0061】
上述のように、2D画像405、410および3Dモデル425は、305(
図3)において、データ処理アクティビティを実施する1つまたは複数のデータ処理デバイスにより受信される。概略図において、三次元ランドマーク430の集合体が、3Dモデル425における異なる位置における塗りつぶされていない点の配置として3Dモデル425に示されている。三次元ランドマーク430は3Dモデル425における関心点である。幾つかの実施態様では、三次元ランドマーク430は、3Dモデル425が305(
図3)において受信されたときに3Dモデル425に付随しているメタデータにおいて特定される。他の実施態様では、コンピュータにより実施される処理が、3Dモデル425にランドマークを注釈付けするために使用され得る。このような処理の例は、以下で説明される工程800(
図8)である。
【0062】
受信デバイスは、310(
図3)において、画像405、410における二次元ランドマーク435の集合体を検出する。説明を目的として、2Dランドマーク435が、オブジェクトインスタンス415、420の破線の輪郭に沿った異なる位置における塗りつぶした黒色の点の二次元配置として示される。現実の実施態様において、このような配置は不必要であり、2Dランドマーク435の位置は、2D位置座標を使用して、または別様に表記され得る。示される概略図では、2Dランドマーク435は、オブジェクトインスタンス415、420における角または他の縁部の特徴である。必ずしもこうであるとは限らない。2Dランドマーク435は、オブジェクトインスタンス415、420における他の場合に位置し得る。例えば、2Dランドマーク435は、異なるコンポーネント間の連結部に、オブジェクトインスタンス415、420の表面における装飾的特徴に、または、オブジェクトインスタンス415、420における他の場合に位置し得る。
【0063】
受信デバイスは、315(
図3)において、2Dランドマーク435の各集合体における2Dランドマーク435の部分集合を更に選択する。説明を目的として、2Dランドマーク435の部分集合が、両方の画像405、410内の同様の連続したエリア440から選択される。しかし、必ずしもこうであるとは限らない。ランドマークが選択された「エリア」自体が存在しないように、選択された2Dランドマーク435は、画像405、410にわたって-ランダムに、または別様に-分散されてもよい。
【0064】
2Dランドマーク435の選択された部分集合を使用して、デバイスは、320(
図3)において、画像405、410内におけるオブジェクトインスタンス415、420の相対ポーズを推定する。画像405からの2Dランドマーク435の選択された部分集合に関して、それらは、変形していない、または比較的小さい程度しか変形していないオブジェクトインスタンス415の部分において観測される。例えば、2Dランドマーク450は、比較的小さい程度に変形したオブジェクトインスタンス415の部分の付近において観測される。対照的に、画像410からの2Dランドマーク435の選択された部分集合に関して、2Dランドマーク435は、比較的大きい程度に変形したオブジェクトインスタンス420の部分において観測される。例えば、2Dランドマーク455、460、465比較的大きい程度に変形したオブジェクトインスタンス415の部分の付近において観測される。
【0065】
画像405から選択された部分集合における2Dランドマーク435はそれらが存在すると想定される場所にあるので、オブジェクトインスタンス415の推定されたポーズは比較的正確である。2Dランドマーク450に起因した推定の任意の誤差は比較的小さい。対照的に、画像410から選択された部分集合における2Dランドマーク435は、それらが存在すると想定される場所から大幅にずれた位置にあるので、オブジェクトインスタンス420の推定されたポーズは比較的不正確である。実際、幾つかの例では、ポーズ推定は、許容できないほどに不正確な結果を返し得るか、または更には、結果を返さず、例えば、検出されたランドマークの異なる部分集合または、異なるまたは微調整された機械学習モデルを使用して検出されたランドマークを使用して、ポーズが再推定され得る。
【0066】
推定された相対ポーズを使用して、デバイスは、325(
図3)において、3Dモデル425からの3Dランドマークを、仮想的な二次元画像に投影する。画像405から推定されたポーズに対して、これはランドマークの集合体470を取得する。集合体470におけるランドマークは、(3Dモデル425における三次元空間におけるランドマーク430とは対照的に)それらが二次元空間のみに配置されているという点で「二次元」である。集合体470におけるランドマークは二次元であるが、それらは、3Dモデル425における3Dランドマーク430に対するそれらの対応を示すために、塗りつぶされていない点として集合体470において更に示される。
【0067】
デバイスは、330(
図3)において、画像405において検出された2Dランドマーク435の位置を、集合体470における2Dランドマークの位置と比較する。この比較は、
図4の左下の角に概略的に表されている。集合体470における2Dランドマークが2Dランドマーク435と重なる、またはほぼ重なる所では、塗りつぶされていない点が「x」と重ね合わされる。しかし、2Dランドマーク435と、集合体470における2Dランドマークとが描画可能な程度にずれている所では、2Dランドマーク435は塗りつぶした黒色の点により表されている。示される実施態様において、2つの異なる2Dランドマーク435-すなわち、2Dランドマーク450および2Dランドマーク475-は描画可能な程度にずれている。集合体470における対応する2Dランドマークは、「x」を使用せずに塗りつぶされていない点により表されている。
【0068】
画像405において検出された2Dランドマーク435の位置と集合体470における2Dランドマークの位置との比較に基づいて、デバイスは、335(
図3)において、閾レベルの対応関係に達しているか否かを判定する。更に、デバイスは、345(
図3)において、異常ランドマーク(例えば2Dランドマーク450、475)を特定する。
【0069】
示される実施態様では、画像410から推定されたポーズを投影することにより形成されたランドマークの集合体は示されていない。これは概略図にすぎない。ランドマークの集合体が形成され得、画像410において検出された2Dランドマーク435の位置が、このような集合体における2Dランドマークの位置と比較され得る。しかし、このような比較の結果は、ランドマークの位置間のより大きいずれをもたらす。実際、幾つかの実施態様では、対応するランドマークを特定することは困難であり得る。
【0070】
閾レベルの対応関係より大きい位置ずれまたは不正確さの他の標示に直面したとき、デバイスは、335(
図3)において、画像410からランドマーク435の異なる部分集合を選択する。320(
図3)において、再度、オブジェクト420の相対ポーズが、選択された部分集合を使用して推定され得、325(
図3)において、3Dランドマークが、3Dモデル425から、推定された相対ポーズを使用して二次元画像上に投影され得、および、330(
図3)において、2Dランドマークの位置が、3Dランドマークを投影することにより形成された2Dランドマークの位置と比較される。位置ずれが閾レベルの対応関係より大きくなくなるまで、この処理が繰り返され得る。
【0071】
図5は、オブジェクトインスタンス420の相対ポーズを正確に推定することに適していることを証明し得る、画像410において検出された2Dランドマーク435の異なる部分集合の選択を概略的に表す。特に、選択されたランドマークは、変形していない、または比較的小さい程度しか変形していないオブジェクトインスタンス420の部分を包含したエリア505に存在する。エリア505における2Dランドマーク435はそれらが存在すると想定される場所に存在するので、オブジェクトインスタンス420の推定されたポーズは、比較的正確であり得る。
【0072】
前述のように、330(
図3)において、画像410において検出された2Dランドマーク435の位置は、3Dモデル425から投影された2Dランドマークの位置と比較され得る。この比較は、
図5の下部に概略的に表されており、ここで、重なった投影されたものと検出されたものは、「x」と重ね合わされた塗りつぶされていない点を使用して示されている。検出された2Dランドマーク435の残りの部分は、塗りつぶした黒色の点により表されている。投影された3Dランドマークの残りの部分は、塗りつぶされていない点により表されている。
【0073】
図6は、4つの異なるオブジェクト620、625、630、635の3つの異なる画像605、610、615を使用して実施される工程300の一部の実施態様の概略図である。繰り返すが、画像605、610、615は説明を目的として二次元として示される。画像605、610、615は、少なくとも1つのオブジェクトのポーズ620、625、630、635が画像において異なるという点で互いに異なる。示される実施態様では、オブジェクト625のポーズが、画像605、610、615において異なる。他の実施態様では、-オブジェクト625のポーズも異なるか否かにかかわらず-1つまたは複数の他のオブジェクト620、630、635のポーズが異なり得る。
【0074】
幾つかの実施態様では、工程300を実施するデバイスは、オブジェクト620、625、630、635の各々の独立した3Dモデルを受信し得る。他の実施態様では、工程300を実施するデバイスは、オブジェクト620、625、630、635のうちの1つの単独の3Dモデルのみを受信する。例えば、デバイスは、オブジェクト620の3Dモデル425(
図4)のみを受信し得る。
【0075】
受信デバイスは、310(
図3)において、画像605、610、615、410における二次元ランドマークの集合体640、645、650を検出する。説明を目的として、2Dランドマーク640、645、650は、やはり、オブジェクトインスタンス620、625、630、635の破線の輪郭に沿った異なる位置における塗りつぶした黒色の点の二次元配置として示される。
【0076】
受信デバイスは、315(
図3)において、更に、2Dランドマーク640、645、650の各集合体において2Dランドマークの部分集合660、665、670を選択する。説明を目的として、2Dランドマークの部分集合660、665、670が、画像605、610、615内における同様のエリア655から選択される。しかし、選択された2Dランドマークは、更に、画像605、610、615にわたって分散され得る。
【0077】
2Dランドマーク640、645、650の選択された部分集合660、665、670、および、1つまたは複数の対応する3Dモデルを使用して、デバイスは、320(
図3)において、画像605、610、615内における少なくとも1つのオブジェクトインスタンス620、625、630、635の相対ポーズを推定する。
【0078】
幾つかの例では、ランドマークの部分集合660、665、670は、少なくとも1つのオブジェクト620、625、630、635からのものであり、オブジェクト620、625、630、635の推定されたポーズは比較的正確である。例えば、部分集合660、670を参照すると、オブジェクト635から比較的多数のランドマークが選択される。オブジェクト635の3Dモデルが利用可能であったと仮定して、オブジェクト635の相対ポーズが比較的正確に推定され得る。
【0079】
他の場合において、オブジェクト620、625、630、635の推定されたポーズは比較的不正確である。例えば、
- 対応する3Dモデルが存在するオブジェクト620、625、630、635から選択されたランドマークが少な過ぎること、
- 対応する3Dモードが存在するオブジェクト620、625、630、635の部分が不明瞭であること、または、
- (例えば損傷または変形に起因した)対応する3Dモデルにランドマークを割り当てる困難さ、
を含む、この不正確さに対する幾つかの想定される寄与が存在する。
【0080】
例えば、部分集合645を参照すると、比較的多数のランドマークがオブジェクト620から選択された場合でも、オブジェクト620の部分を不明瞭にするオブジェクト625のポーズが、オブジェクト620に基づくポーズ推定を比較的不正確にし得る。実際、幾つかの例では、ポーズ推定は、許容できないほどに不正確な結果を返し得、または更には結果を返さない。
【0081】
推定された相対ポーズの各々を使用して、デバイスは、325(
図3)において、1つまたは複数の3Dモデルからの3Dランドマークを二次元画像上に投影し、ランドマークのそれぞれの集合体を取得する。デバイスは、330(
図3)において、更に、画像605、610、615において検出された2Dランドマーク640、645、650の位置を、3Dモデルから投影された2Dランドマークの位置と比較する。
【0082】
この時点で、閾レベルの対応関係に達していると仮定して、325における二次元画像上への3Dモデルからの3Dランドマークの投影が、様々な異なる手法により異常ランドマークを特定するために使用され得る。例えば、画像610を参照すると、2Dランドマーク645の位置とオブジェクト620の3Dモデル(例えば3Dモデル525、
図4)から投影された2Dランドマークの位置との比較は、オブジェクト620からの多くのランドマークが画像610において検出されなかったことを示す。オブジェクト620からのランドマークが全く検出されない場合、これは、オブジェクト620が画像610において部分的に不明瞭にされていることの標示と解釈され得る。更に、検出されていないランドマークの位置に基づいて、不明瞭な部分の粗い輪郭が形成され得る。
【0083】
別の例として、画像605、610、615において特定された2Dランドマーク640、645、650の位置が、例えばオブジェクトの相対ポーズが変化したことを特定するために、互いに比較され得る。例えば、画像605、615を参照すると、2Dランドマーク640、650の位置の比較は、オブジェクト620、630、635からの2Dランドマークの位置が実質的に変化していないことを示す。対照的に、オブジェクト625からの2Dランドマークの位置は実質的に変化していないが、画像605、615におけるオブジェクト625のポーズが異なることを示す。
【0084】
図7は、受信された画像から検出されたランドマークと3Dモデルから投影されたランドマークとの間のずれを表すヒストグラム700である。本明細書において説明されている方法を実施するデバイスは概してヒストグラム700自体のようなヒストグラムを形成して表示することはしないが、ヒストグラム700は、これらの方法における様々なアクティビティにおいて対応するランドマーク間のずれがどのように作用し得るかを示す。上述のように、ずれは、2D位置ずれ、3D位置ずれ、または、更に異なる別の次元(色、反射率、偏光など)におけるずれであり得る。
【0085】
ヒストグラム700は、横軸705と縦軸710とを含む。横軸705は、対応する検出された、および投影されたランドマークの間のある範囲のずれを各々が包含する多くのインターバルに区切られる。例えば、1つのこのようなインターバルは-対応するランドマークが同一である場合に当てはまるように-対応するランドマーク間のゼロのずれを包含する。縦軸710に沿った位置は、各インターバル内のずれを伴う対応するランドマークの個数を表す。横軸705から上向きに遠くまで延びたバーは、そのバーにわたった、横軸705のずれ範囲内の対応するランドマークの個数が、横軸705からそれほど遠く延びていないバーにおける個数より多いことを示す。例えば、横軸705のずれ範囲のうちの大部分に対して、対応するランドマークの個数はゼロであると見受けられる。しかし、認識可能な数の対応するランドマークが、バー715により包含される範囲内のずれを伴う。更に、比較的多数の対応するランドマークが、クラスター720内のバーにより包含される範囲内のずれを伴う。
【0086】
上述のように、ヒストグラム700は、対応するランドマーク間の位置および他のずれが、これらの方法における様々なアクティビティにおいてどのように作用し得るかを示し得る。例えば、ヒストグラム700は、例えば330(
図3)における比較によりもたらされる、対応するランドマークの第1の部分集合の位置ずれを表すと仮定する。バー715により包含される範囲内の位置ずれを伴う対応するランドマークは、平均的な対応関係を閾レベル未満に下げ得る。例えば、これは、対応するランドマーク自体の比較的大きい位置ずれに起因するだけでなく、受信された画像から検出されたランドマークに更に起因し得、325(
図3)において推定された相対ポーズをより不正確にする。
【0087】
この状況において、340(
図3)における、検出されたランドマークの異なる部分集合のガイドされた選択は、バー715により包含される範囲内の投影されたランドマークからの位置ずれを伴うランドマークを除外し得る。更に、クラスター720内のバーにより包含される範囲内の位置ずれを伴う検出されたランドマークが、選択的に選択され得る。幾つかの状況において、他の検出されたランドマーク(すなわち、ヒストグラム700に現れない位置ずれを伴うランドマーク)も選択され得る。
【0088】
このようなガイドされた選択は、複数回にわたって繰り返され得、各繰り返しに伴って相対ポーズ推定の正確さが高まる。例えば、クラスター720内におけるバーは、存在のスケールの横軸705ではすぐ近くに一緒にあるように見受けられ得るが、そのスケールの変更は、クラスター720内のバーにより包含される範囲内の位置ずれを伴う他のランドマークが次の部分集合から除外されなければならないことを示し得る。
【0089】
対応するランドマーク間のずれが本明細書において説明されている方法においてどのように作用し得るかに関する別の例として、例えば335(
図3)において閾レベルの対応関係に達した後に特定され得るように、ヒストグラム700が対応するランドマークのうちの全てのずれを表すと仮定する。この場合において、バー715により包含される範囲内のずれを伴う対応するランドマークは、異常なものと特定され得、ランドマークが検出された画像におけるオブジェクトインスタンスに関する結論を導くための根拠として機能し得る。例えば、バー715により包含される範囲内の2Dまたは3D位置ずれを伴う検出されたランドマークは、変形した、または損傷したオブジェクトインスタンスの部分から特定されたものであり得る。別の例として、バー715により包含される範囲内の2Dまたは3D位置ずれを伴う検出されたランドマークは、画像間において動いたオブジェクトインスタンスの部分から特定されたされたものであり得る。更に異なる別の例として、バー715により包含される範囲内の色または他の光学特性のずれを伴う検出されたランドマークは、例えば装飾的デコレーションまたは塗装コーティングにより、画像において不明瞭にされたオブジェクトまたはオブジェクトの部分からのものであり得る。
【0090】
図8は、例えば例として3Dモデル425といった3Dモデルに現れるランドマークに注釈付けするための、コンピュータにより実施される処理800のフローチャートである。工程800は、例えば、機械可読命令セット、ハードウェア組立体、または、これらの命令および/または他の命令の組み合わせのロジックに従ってデータ処理アクティビティを実施する1つまたは複数のデータ処理デバイスにより実施され得る。工程800は、独立して、または他のアクティビティと組み合わされて実施され得る。例えば、工程800は、工程300(
図3)と組み合わされて実施され得る。
【0091】
805において、工程800を実施するシステムは、構成パーツから形成されたオブジェクトの3Dモデルを使用してオブジェクトの代用画像の集合体をレンダリングする。代用画像は、現実世界のオブジェクトの実際の画像ではない。むしろ、代用画像は、現実世界のオブジェクトの画像に対する代用である。これらの代用画像は、概して工程300(
図3)における305において受信された画像と同じ次元性で-カメラが様々な異なる相対ポーズオブジェクトをイメージングしているかのように-様々な異なる角度、配向、および/または次元からオブジェクトを示す。
【0092】
代用l画像は、多くの手法で3Dモデルを使用してレンダリングされ得る。例えば、光線トレーシングまたは他のコンピュータグラフィック技術が使用され得る。概して、オブジェクトの3Dモデルは、代用画像をレンダリングするために変動させられる(perturbed)。したがって、異なる代用画像は、異なるバリエーションの3Dモデルを示し得る。概して、変動(perturbation)は、3Dモデルにより表されたオブジェクト-またはオブジェクトのパーツ-における現実世界のバリエーションを模倣し得る。例えば、自動車の3Dモデルでは、外側の塗装および内側の装飾の色が変動させられ得る。幾つかの例では、パーツ(タイヤ、ホイールキャップ、および、ルーフキャリアといった特徴)が、追加され、除去され、または交換され得る。別の例として、臓器の3Dモデルでは、生理的に関連したサイズおよび相対的なサイズのバリエーションが、3Dモデルを変動させるために使用され得る。
【0093】
幾つかの実施態様では、3Dモデル以外の態様が、代用画像を更に変化させるために変動させられ得る。概して、変動は、例えば、
- イメージングデバイスにおけるバリエーション(例えばカメラ解像度、ズーム、フォーカス、開口速度)、
- 画像処理におけるバリエーション(例えばデジタルデータ圧縮、クロマサブサンプリング)、および、
- イメージング条件におけるバリエーション(例えば照明、気象、背景色、および形状)
を含む、現実世界のバリエーションを模倣し得る。
【0094】
幾つかの実施態様では、代用画像は、基準座標系においてレンダリングされる。基準座標系は、オブジェクトの後方に現れる背景の特徴、および、オブジェクトの前に現れる-および場合によってはオブジェクトのパーツを不明瞭にする-前景の特徴を含み得る。概して、基準座標系は、オブジェクトが観測される可能性がある現実世界の環境を反映する。例えば、自動車が、駐車場に似た基準座標系においてレンダリングされ得るのに対し、臓器は、生理的に関連したコンテキストにおいてレンダリングされ得る。基準座標系は、二次元画像を更に変化させるために、更に変化させられ得る。
【0095】
概して、代用画像は大きく変化することが望ましい。更に、代用画像の数-およびバリエーションの程度-は、オブジェクトの複雑さ、および、3Dモデルにおいて注釈付けされたランドマークを使用して最終的に実施される画像処理に依存し得る。例示として、自動車の2000個以上の(相対ポーズおよび置換により)非常に様々な代用画像がレンダリングされ得る。代用画像は3Dモデルからレンダリングされるので、代用画像におけるオブジェクトの位置に関する完全な知識情報が、代用画像の数およびバリエーションの程度にかかわらず保持され得る。
【0096】
810において、工程800を実施するシステムは、代用画像に示されるオブジェクトの各領域をオブジェクトのパーツに割り当てる。上述のように、オブジェクトの3Dモデルは、機能および/または構造に基づいて識別可能な構成パーツに分割され得る。3Dモデルの代用画像がレンダリングされるとき、画像における各領域が属するパーツは維持され得る。-二次元画像におけるピクセルまたは他のエリアであり得る-領域は、したがって、3Dモデルに由来する完全な知識情報を使用して3Dモデルの対応する構成パーツに割り当てられ得る。
【0097】
815において、工程800を実施するシステムは、代用画像におけるパーツの識別可能な領域を特定する。パーツの識別可能な領域は、1つまたは複数の画像処理技術を使用して代用画像において特定され得るエリア(例えばピクセルまたはピクセル群)である。例えば、幾つかの実施態様では、同じパーツに割り当てられた各画像における領域の角が、例えばMoravec角ディテクターまたはHarris角ディテクター(https://en.wikipedia.org/wiki/Harris_Corner_Detector)を使用して検出される。別の例として、画像特徴検出アルゴリズム、例えば例としてSIFT/SURF/HOG/(https://en.wikipedia.org/wiki/Scale-invariant_feature_transform)が、識別可能な領域を規定するために使用され得る。
【0098】
820において、工程800を実施するシステムは、代用画像における識別可能な領域を3Dモデル上に投影し戻すことにより、3Dモデルにおけるランドマークの集合体を特定する。代用画像における識別可能な領域に対応した3Dモデルにおけるボリュームは、3Dモデルにおいてランドマークとして特定される。
【0099】
幾つかの実施態様では、3Dモデル上への逆投影の前または後に、これらのランドマークの数を減らすために、および、品質を確実なものとするために、1つまたは複数のフィルタリング技術が適用され得る。例えば、幾つかの実施態様では、代用画像におけるオブジェクトの外側境界に近い領域は、逆投影前に破棄され得る。別の例として、3Dモデルにおける対応するパーツから離れ過ぎた領域の逆投影は破棄され得る。
【0100】
幾つかの実施態様では、閾基準を満たす3Dモデルにおけるボリュームのみが、ランドマークとして特定される。閾条件は、多くの手法により特定され得る。例えば、3Dモデルにおける候補ランドマークであり、異なる相対ポーズおよび変動を使用してレンダリングされた異なる代用画像から逆投影により特定されたボリュームが収集され得る。候補ランドマークのクラスターが特定され得、異常候補ランドマークが破棄され得る。例えば、クラスター化技術、例えば、OPTICSアルゴリズム(https://en.wikipedia.org/wiki/OPTICS_algorithm、DBSCANのバリエーション、https://en.wikipedia.org/wiki/DBSCAN)が、候補ランドマークのクラスターを特定するために使用され得る。クラスター化の有効性は、例えばCalinski-Harabaszインデックス(すなわち、分散比基準)または他の基準を使用して評価され得る。幾つかの実施態様では、クラスター化技術は、クラスター化の有効性を改善するために(例えばクラスター化アルゴリズムのハイパーパラメータを調整することにより)選択され、および/または調整され得る。必要な場合、クラスター内にあり閾条件より互いに近い候補ランドマークが融合され得る。幾つかの実施態様では、3Dモデルの異なるパーツにある候補ランドマーククラスターが、1つのクラスターに更に融合され得る。幾つかの実施態様では、クラスター内の幾つかの候補ランドマークの重心が、1つのランドマークとして表され得る。
【0101】
幾つかの実施態様では、3Dモデルにおけるランドマークは、3Dモデルからレンダリングされた代用画像におけるそれらの位置または他の特性が予測され得る正確さに基づいて、フィルタリングされ得る。例えば、代用画像における3Dランドマークの位置が予測することが難しすぎる(例えば、時間の閾パーセントを上回るほど不正確に予測された、または、不十分な正確さでしか予測されない)場合、その3Dランドマークは破棄され得る。結果として、ランドマーク予測部が比較的簡単に予測し得る代用画像における位置をもつ3Dランドマークのみが残ることとなる。
【0102】
幾つかの例では、特定されるランドマークの数は、特定のデータ処理アクティビティに合わせて調整され得る。ランドマークの数は、例えば、
- 805において、特に3Dモデルのより多い、またはより少ない置換を使用して、より多い、またはより少ない代用画像をレンダリングすること、
- 810において、領域が割り当てられた、より多い、またはより少ないパーツに3Dモデルを分割すること、
- 815において、領域を識別可能であると考えるための制約を緩和する、または厳しくすること、および/または、
- 820の後に、3Dモデル上に識別可能な領域を逆投影した後、ランドマークをフィルタリングするための制約を緩和する、または厳しくすること
を含む、多くの手法により調整され得る。
【0103】
本明細書において説明されている主題および動作の実施形態は、本明細書において開示されている構造物、およびそれらと構造的に同等なものを含む、デジタル電子回路において、または、コンピュータソフトウェア、ファームウェア、またはハードウェアにおいて、または、それらのうちの1つまたは複数の組み合わせにより実現され得る。本明細書において説明されている主題の実施形態は、データ処理装置による実行のために、またはデータ処理装置の動作を制御するためにコンピュータ記憶媒体において符号化された、1つまたは複数のコンピュータプログラム、すなわち、コンピュータプログラム命令の1つまたは複数のモジュールとして実現され得る。代替的に、または追加的に、プログラム命令は、データ処理装置による実行のための適切な受信器装置への送信のために情報を符号化するために生成された、例えば機械により生成された電気信号、光学信号、または電磁信号といった人工的に生成された伝播させられる信号上で符号化され得る。コンピュータ記憶媒体は、コンピュータ可読ストレージデバイス、コンピュータ可読ストレージ基材、ランダムまたはシリアルアクセスメモリアレイまたはデバイス、またはそれらのうちの1つまたは複数の組み合わせであり、または、これらに含まれ得る。更に、コンピュータ記憶媒体は伝播させられる信号ではないが、コンピュータ記憶媒体は、人工的に生成された伝播させられる信号において符号化されたコンピュータプログラム命令のソースまたは宛先であり得る。コンピュータ記憶媒体は、更に、1つまたは複数の独立した物理的コンポーネントまたは媒体(例えば複数のCD、ディスク、または他のストレージデバイス)であり、または、これらに含まれ得る。
【0104】
本明細書において説明されている動作は、1つまたは複数のコンピュータ可読ストレージデバイスに記憶された、または他のソースから受信されたデータに対してデータ処理装置により実施される動作として実現され得る。
【0105】
「データ処理装置」という用語は、例えばプログラム可能プロセッサ、コンピュータ、システム・オン・ア・チップ、または、これらのうちの複数のものまたは組み合わせを包含する、データを処理するための全ての種類の装置、デバイス、および機械を包含する。装置は、特定目的用論理回路、例えばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)を包含し得る。装置は、ハードウェアに加えて、問題となっているコンピュータプログラムのための実行環境を生成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、クロスプラットフォーム実行環境、仮想マシン、またはそれらのうちの1つまたは複数の組み合わせを構成するコードを更に含み得る。装置および実行環境は、様々な異なるコンピューティングモデルインフラストラクチャー、例えばウェブサービス、分散型コンピューティングおよびグリッドコンピューティングインフラストラクチャーを実現し得る。
【0106】
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても知られる)は、コンパイルされたまたはインタープリター処理された言語、宣言型または手続き型言語を包含する任意の形態のプログラミング言語により記述され得、および、それは、スタンドアロンプログラムとして、または、モジュール、コンポーネント、サブルーチン、オブジェクト、またはコンピューティング環境における使用に適した他のユニットとして、を包含する任意の形態により展開され得る。コンピュータプログラムは、ファイルシステムにおけるファイルに対応し得るが、必須ではない。プログラムは、他のプログラムまたはデータ(例えばマークアップ言語ドキュメントに記憶された1つまたは複数のスクリプト)を保持するファイルの一部に、問題となっているプログラムに割り当てられた1つのファイルに、または、複数の協調したファイル(例えば1つまたは複数のモジュール、サブプログラム、またはコードの一部を記憶したファイル)に記憶され得る。コンピュータプログラムは、1つのコンピュータにおいて、または、1つの場所に位置する、または、複数の場所にわたって分散された、および、通信ネットワークにより相互接続された複数のコンピュータにおいて実行されるように展開され得る。
【0107】
本明細書において説明されている工程およびロジックフローは、入力データを処理すること、および出力を生成することにより動作を実施するために1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラム可能プロセッサにより実施され得る。工程およびロジックフローは、例えばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)といった特定目的用論理回路により更に実施され得、および、装置は、例えばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)といった特定目的用論理回路として実現され得る。
【0108】
コンピュータプログラムの実行に適したプロセッサは、例示として、汎用マイクロプロセッサおよび特定目的用マイクロプロセッサと、任意の種類のデジタルコンピュータのうちの任意の1つまたは複数のプロセッサとの両方を包含する。概して、プロセッサは、読み出し専用メモリもしくはランダムアクセスメモリ、またはその両方から命令およびデータを受信する。コンピュータの本質的な要素は、命令に従って動作を実施するためのプロセッサ、および、命令およびデータを記憶するための1つまたは複数のメモリデバイスである。概して、コンピュータは、例えば磁気ディスク、光磁気ディスク、または光ディスクといったデータを記憶するための1つまたは複数の大容量ストレージデバイスを更に含み、または、1つまたは複数の大容量ストレージデバイスからデータを受信するように、または、1つまたは複数の大容量ストレージデバイスにデータを伝達するように、またはその両方をするように動作可能に結合される。しかし、コンピュータはこのようなデバイスをもつ必要はない。更に、コンピュータは、例えば、幾つか例示すると、携帯電話、携帯情報端末(PDA)、モバイルオーディオまたはビデオプレーヤー、ゲームコンソール、全地球測位システム(GPS)受信器、または、ポータブルストレージデバイス(例えばユニバーサルシリアルバス(USB)フラッシュドライブ)、といった別のデバイスに組み込まれ得る。コンピュータプログラム命令およびデータを記憶することに適したデバイスは、例示として、例えばEPROM、EEPROM、およびフラッシュメモリデバイスといった半導体メモリデバイス、例えば内蔵ハードディスクまたは取り外し可能なディスクといった磁気ディスク、光磁気ディスク、およびCD ROM、およびDVD-ROMディスクを包含する、全ての形態の不揮発性メモリ、媒体、およびメモリデバイスを包含する。プロセッサおよびメモリは、特定目的用論理回路により補完され、または、特定目的用論理回路に組み込まれ得る。
【0109】
ユーザーとの対話を提供するために、本明細書において説明されている主題の実施形態は、ユーザーに情報を表示するための例えばCRT(ブラウン管)またはLCD(液晶ディスプレイ)モニターといったディスプレイデバイス、および、ユーザーがコンピュータに入力を提供し得るキーボードおよび例えばマウスまたはトラックボールといったポインティングデバイスを含むコンピュータにおいて実現され得る。他の種類のデバイスが、同様にユーザーとの対話を提供するために使用され得、例えば、ユーザーに提供されるフィードバックは、例えば視覚フィードバック、聴覚フィードバック、または触覚フィードバックといった任意の形態の感覚フィードバックであり得、および、ユーザーからの入力は、音響、発話、または触覚入力を包含する任意の形態により受信され得る。加えて、コンピュータは、ユーザーにより使用されるデバイスにドキュメントを送信すること、および、ユーザーにより使用されるデバイスからドキュメントを受信することにより、例えば、ウェブブラウザから受信された要求に応答してユーザーのクライアントデバイスにおけるウェブブラウザにウェブページを送信することにより、ユーザーと対話し得る。
【0110】
したがって、主題の特定の実施形態が説明されている。他の実施形態が後述の請求項の範囲内にある。幾つかの例では、請求項に記載されているアクションは、異なる順序で実施されてもよく、依然として望ましい結果をもたらす。加えて、添付図面に描かれている工程は、望ましい結果を得るために示されている特定の順序または順番を必ずしも必要としない。特定の実施態様において、マルチタスク処理および並列処理が有益であり得る。
【0111】
多くの実施態様が説明される。それにもかかわらず、様々な変形がなされ得ることが理解される。したがって、他の実施態様が後述の請求項の範囲内である。
【手続補正書】
【提出日】2024-12-06
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像処理の方法であって、前記方法が、
オブジェクトの
物理的なインスタンスの画像と前記オブジェクトの三次元モデルとを受信することと、
二次元画像における前記オブジェクトの前記
物理的なインスタンスの第1の複数のランドマークを検出することと、
前記画像を獲得したイメージングデバイスに対する、受信された前記画像における前記オブジェクトの前記
物理的なインスタンスのポーズを推定することであって、受信された前記画像における相対ポーズが
、検出された前記ランドマーク
のうちの前記第1の複数のものから推定される、推定することと、
推定された前記相対ポーズを使用して、前記オブジェクトの前記三次元モデルからのランドマークを前記オブジェクトの前記
物理的なインスタンスの受信された前記画像の次元空間に投影することと、
対応する投影された前記ランドマーク
と検出された前記ランドマーク
のうちの前記第1の複数のものとの特徴を前記次元空間において比較することと、
対応する投影された前記ランドマーク
と検出された前記ランドマーク
のうちの前記第1の複数のものと
の位置間に、閾レベルの位置対応関係が存在するか否かを判定することと、
を含み、
前記方法が、前記閾レベルの位置対応関係が存在しないと判定したことに応答して、
第1の画像において検出された前記オブジェクトの前記物理的なインスタンスの第2の複数のランドマークから、前記第1の画像における前記オブジェクトの前記物理的なインスタンスの前記相対ポーズを再度推定することであって、前記第2の複数のもののうちの前記ランドマークのうちの少なくとも幾つかが、前記第1の複数のもののうちの前記ランドマークと異なる、再度推定することと、
再度推定された前記相対ポーズを使用して、前記オブジェクトの前記三次元モデルからのランドマークを前記オブジェクトの前記物理的なインスタンスの受信された前記画像の前記次元空間に投影することと、
対応する投影された前記ランドマークと検出された前記ランドマークのうちの前記第2の複数のものとの特徴を前記次元空間において比較することと、
対応する投影された前記ランドマークと検出された前記ランドマークのうちの前記第2の複数のものとの位置間に、前記閾レベルの位置対応関係が存在するか否かを判定することと、
を含む、
方法。
【請求項2】
前記方法が、
前記画像における前記オブジェクトの前記
物理的なインスタンスの複数のランドマークを検出することであって、検出された前記複数のものが、前記第1の複数のランドマークより多くのランドマークを含む、検出することと、
検出された前記複数のもののうちの前記ランドマークの中から前記第1の複数のランドマークを選択することと、
を更に含む、請求項1に記載の方法。
【請求項3】
前記第1の複数のものの選択が、ランダムである、
請求項2に記載の方法。
【請求項4】
前記第1の複数のランドマークの選択が、
対応する投影された前記ランドマークと別の複数の検出されたランドマークとの特徴の、ランドマークごとの比較によりガイドされる、
請求項2に記載の方法。
【請求項5】
前記
特徴が、前記ランドマークのうちの所与のものが適切に検出されたことがどれだけ確かであるかである、
請求項4に記載の方法。
【請求項6】
前記オブジェクトの前記
物理的なインスタンスの前記第2の複数のランドマークを選択することを更に含み、前記第2の複数のものを選択することが、
比較的大きい位置差を伴う、対応する投影された前記ランドマークと前記第1の複数のもののうちの前記ランドマークとを特定することと、
前記第2の複数のものから
前記比較的大きい
位置差を伴う前記第1の複数のもののうちの前記ランドマークを除くことと、
を含む、請求項
1に記載の方法。
【請求項7】
前記オブジェクトの前記
物理的なインスタンスの前記第2の複数のランドマークを選択することを更に含み、前記第2の複数のものを選択することが、
比較的大きい位置差を伴う、対応する投影された前記ランドマークと前記第1の複数のもののうちの二次元ランドマークとの位置を特定することと、
前記比較的大きい位置差を伴う、対応する投影された前記ランドマークと検出された前記ランドマークとの近傍にある前記第1の複数のもののうちのランドマークを前記第2の複数のものから除くことと、
を含む、請求項
1に記載の方法。
【請求項8】
前記オブジェクトの前記
物理的なインスタンスの前記第2の複数のランドマークを選択することを更に含み、前記第2の複数のものを選択することが、
対応する投影された前記ランドマークと検出された前記ランドマークとの位置ずれ方向を特定することと、
対応する投影された前記ランドマークと検出された前記ランドマークとの位置ずれの大部分の前記位置ずれ方向と異なる位置ずれ方向を伴う前記第1の複数のもののうちの前記ランドマークを前記第2の複数のものから除くことと、
を含む、請求項
1に記載の方法。
【請求項9】
前記閾レベルの位置対応関係が存在すると判定したことに応答して、
対応する投影された前記ランドマークからの比較的大きいずれを伴う、前記画像において検出された前記オブジェクトの前記
物理的なインスタンスの前記ランドマークの部分集合を特定することと、
検出された前記ランドマークの前記部分集合に基づいて前記オブジェクトの前記
物理的なインスタンスに関する結論を導くことと、
を更に含む、請求項1に記載の方法。
【請求項10】
前記結論を導くことが、変形したまたは損傷した前記オブジェクトの前記
物理的なインスタンスの部分を指定することを含む、
請求項
9に記載の方法。
【請求項11】
前記結論を導くことが、比較的大きい位置ずれの大きさ、前記比較的大きい位置ずれの方向、または前記大きさと前記方向との両方を定量化することを含む、
請求項
9に記載の方法。
【請求項12】
前記閾レベルの位置対応関係が存在するか否かを判定することが、
複数の対応する投影されたランドマークと検出されたランドマークとの位置差を組み合わせることと、
前記位置差の組み合わせと閾条件とを比較することと、
を含む、請求項1に記載の方法。
【請求項13】
前記オブジェクトの前記
物理的なインスタンスの前記相対ポーズを推定することが、
受信された前記画像における前記オブジェクトの前記
物理的なインスタンスの前記相対ポーズの第1の推定結果を形成することと、
第1の相対ポーズ推定結果の品質が不十分であることを特定することと、
それに応答して、受信された前記画像における前記オブジェクトの前記
物理的なインスタンスの前記相対ポーズの第2の推定結果を形成することと、
を含む、請求項1に記載の方法。
【請求項14】
前記オブジェクトの前記
物理的なインスタンスの第2の画像を受信することと、
第2のイメージングデバイスにより獲得された前記第2の画像における前記オブジェクトの前記
物理的なインスタンスの第2の複数のランドマークを検出することと、
前記第2の画像を獲得した前記第2のイメージングデバイスに対する前記第2の画像における前記オブジェクトの前記
物理的なインスタンスのポーズを推定することであって、前記第2の画像における前記相対ポーズが
、検出された前記ランドマーク
のうちの前記第2の複数のものから推定される、推定することと、
前記オブジェクトの前記
物理的なインスタンスの推定された前記相対ポーズと前記第2の画像における前記オブジェクトの前記
物理的なインスタンスの推定された前記相対ポーズとを使用して、前記オブジェクトの前記三次元モデルからの前記ランドマークを前記第2の画像の前記次元空間に投影することと、
を更に含む、請求項1に記載の方法。
【請求項15】
対応する、
a)前記第2の画像における前記オブジェクトの前記
物理的なインスタンスの推定された前記相対ポーズを使用して投影された前記ランドマークと、
b
)検出された前記ランドマーク
のうちの前記第2の複数のものと、
の特徴を前記次元空間において比較することと、
対応する投影された前記ランドマーク
と検出された前記ランドマーク
のうちの前記第1の複数のものとの比較された前記特徴間に、閾レベルの対応関係が存在するか否かを判定することと、
を更に含む、請求項
14に記載の方法。
【請求項16】
前記
物理的なインスタンスの前記画像が、二次元画像であり、
検出された前記ランドマークが、二次元ランドマークであり、
受信された前記画像の前記次元空間が、二次元空間であり、
比較される対応する投影された前記ランドマーク
と検出された前記ランドマーク
のうちの前記第2の複数のものとの前記特徴が、二次元空間における位置特徴である、
請求項1に記載の方法。
【請求項17】
オブジェクトの
物理的なインスタンスの画像における前記オブジェクトの前記
物理的なインスタンスのランドマークを検出することと、
前記画像を獲得したイメージングデバイスに対する前記オブジェクトの前記
物理的なインスタンスのポーズを推定することと、
推定された前記ポーズを使用して、前記オブジェクトの三次元モデルからのランドマークを前記オブジェクトの前記
物理的なインスタンスの前記画像の次元空間に投影することと、
対応する投影された前記ランドマークと検出された前記ランドマークとを特定することと、
対応する前記ランドマークのずれを特定するために、対応する投影された前記ランドマークと検出された前記ランドマークとの特徴を前記次元空間において比較することと、
閾条件より大きいずれを伴う対応する前記ランドマークの部分集合を特定することと、
特定された前記部分集合に基づいて、前記オブジェクトの前記
物理的なインスタンスまたは前記オブジェクトの前記
物理的なインスタンスの部分の変形、動き、または不明瞭さを特定することと、
を含む、方法。
【請求項18】
前記変形、前記動き、または前記不明瞭さを特定することが、前記オブジェクトの前記
物理的なインスタンスの損傷した部位を特定することを含む、
請求項
17に記載の方法。
【請求項19】
前記変形、前記動き、または前記不明瞭さを特定することが、
前記オブジェクトの前記
物理的なインスタンスの第2の画像における前記オブジェクトの前記
物理的なインスタンス
のランドマークを検出することと、
前記第2の画像において検出された前記ランドマークの位置に基づいて、前記変形、前記動き、または前記不明瞭さを特定することと、
を含む、請求項
17に記載の方法。
【請求項20】
位置ずれを伴う対応する前記ランドマークの前記部分集合の空間的に近いランドマークのクラスターを特定することと、
前記空間的に近いランドマークの前記クラスターに基づいて、前記オブジェクトの前記変形または前記動きを特定することと、
を更に含む、請求項
17に記載の方法。
【請求項21】
対応する前記ランドマークを特定することが、対応する前記ランドマークを特定するために、投影された、および検出されたランドマークのコンテキストを比較することを含む、
請求項
17に記載の方法。
【請求項22】
前記
物理的なインスタンスの前記画像が、二次元画像であり、
検出された前記ランドマークが、二次元ランドマークであり、
受信された前記画像の前記次元空間が、二次元空間であり、
ずれを特定するために比較される前記特徴が、二次元位置特徴である、
請求項
17に記載の方法。
【国際調査報告】