IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 所羅門股▲分▼有限公司の特許一覧

特開2024-114637目標物体の姿勢を識別する方法およびそれを実行する計算装置
<>
  • 特開-目標物体の姿勢を識別する方法およびそれを実行する計算装置 図1
  • 特開-目標物体の姿勢を識別する方法およびそれを実行する計算装置 図2
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024114637
(43)【公開日】2024-08-23
(54)【発明の名称】目標物体の姿勢を識別する方法およびそれを実行する計算装置
(51)【国際特許分類】
   G06T 7/73 20170101AFI20240816BHJP
   G06T 7/00 20170101ALI20240816BHJP
【FI】
G06T7/73
G06T7/00 300D
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2024014382
(22)【出願日】2024-02-01
(31)【優先権主張番号】112104766
(32)【優先日】2023-02-10
(33)【優先権主張国・地域又は機関】TW
(71)【出願人】
【識別番号】520461440
【氏名又は名称】所羅門股▲分▼有限公司
(74)【代理人】
【識別番号】100118256
【弁理士】
【氏名又は名称】小野寺 隆
(74)【代理人】
【識別番号】100166338
【弁理士】
【氏名又は名称】関口 正夫
(72)【発明者】
【氏名】陳 政隆
(72)【発明者】
【氏名】スアン ロック グエン
(72)【発明者】
【氏名】タフジラ ヌグラハ ブリリアン
(72)【発明者】
【氏名】マン クアン グエン
(72)【発明者】
【氏名】ツァイ チエ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA05
5L096CA02
5L096DA02
5L096FA09
5L096FA67
5L096HA11
5L096JA09
5L096KA04
(57)【要約】
【課題】目標物体の姿勢を識別する方法を提供する。
【解決手段】該方法は、データベースを記憶する計算装置により実行される。データベースは、目標物体が属する特定の種類に属する参照物体をそれぞれ含み、異なる偏向角度にそれぞれ対応する複数のテンプレート画像を含む。該方法は、入力画像に含まれる目標物体の外観に基づいて、テンプレート画像から入力画像と最もマッチするマッチング画像を選択し、入力画像とマッチング画像とに基づいて、キーポイントマッチング工程を実行し、入力画像に示されかつ目標物体の外観に関連する複数の第1の特徴点と、マッチング画像に示されかつ第1の特徴点とそれぞれマッチする複数の第2の特徴点と、を認識し、第1の特徴点と第2の特徴点との間の相対姿勢関係に基づいて、目標物体の姿勢を示す姿勢認識結果を生成する。
【選択図】図2
【特許請求の範囲】
【請求項1】
目標物体の姿勢を識別する方法であって、該方法は、データベースを記憶する計算装置により実行され、前記データベースは、前記目標物体が属する特定の種類に関連し、複数のテンプレート画像を含み、前記テンプレート画像は、前記特定の種類に属する参照物体をそれぞれ含み、前記参照物体が捕捉される参照角度に対する異なる偏向角度にそれぞれ対応し、前記方法は、
前記特定の種類に属する前記目標物体を含む入力画像を得るステップと、
前記入力画像における前記目標物体の外観に基づいて、前記データベースの前記テンプレート画像から前記入力画像と最もマッチするマッチング画像を選択するステップであって、前記マッチング画像は、前記テンプレート画像に示される前記参照物体の角度が前記入力画像に示される前記目標物体の角度と最も近い1つであるステップと、
前記入力画像と前記マッチング画像とに基づいて、キーポイントマッチング工程を実行することによって、前記入力画像に示されかつ前記目標物体の外観に関連する複数の第1の特徴点と、前記マッチング画像に示されかつ前記第1の特徴点とそれぞれマッチする複数の第2の特徴点と、を認識するステップと、
前記第1の特徴点と前記第2の特徴点との間の相対姿勢関係に基づいて、前記目標物体の前記姿勢を示す姿勢認識結果を生成するステップと、を含む、
方法。
【請求項2】
前記データベースは、前記テンプレート画像にそれぞれ対応する複数の参照特徴データセットをさらに含み、前記参照特徴データセットのそれぞれは、前記テンプレート画像の対応する1つに示される前記角度での前記参照物体の外観特徴を示し、
マッチング画像を選択するステップは、
前記入力画像に示される前記目標物体の複数の特徴部分に基づいて、前記入力画像に対応する目標特徴データセットを生成するステップであって、前記目標特徴データセットは、前記入力画像に示される前記角度での前記目標物体の外観特徴を示すステップと、
前記参照特徴データセットのそれぞれについて、前記目標特徴データセットと該参照特徴データセットとの間のマッチング程度を計算するステップと、
前記テンプレート画像の前記目標特徴データセットとの前記マッチング程度が最も高い前記参照特徴データセットに対応する1つを、前記マッチング画像として選択するステップと、を含む、
請求項1に記載の方法。
【請求項3】
前記目標特徴データセットと前記参照特徴データセットとは、それぞれベクトルで表現され、
マッチング程度を計算するステップは、前記参照特徴データセットのそれぞれについて、前記目標特徴データセットと該参照特徴データセットとの間のミンコフスキー距離を計算するステップを含む、
請求項2に記載の方法。
【請求項4】
前記テンプレート画像は、最初のテンプレート画像と、複数の加工されたテンプレート画像と、を含み、
前記方法は、入力画像を得るステップとマッチング画像を選択するステップとの前に、
前記最初のテンプレート画像を得るステップと、
前記最初のテンプレート画像に基づいて、前記最初のテンプレート画像に対応する前記参照特徴データセットを生成するステップと、
前記最初のテンプレート画像を複数回回転することにより、前記複数の加工されたテンプレート画像を生成するステップであって、毎回の回転で1つの前記加工されたテンプレート画像を生成するステップと、
前記加工されたテンプレート画像に基づいて、前記加工されたテンプレート画像にそれぞれ対応する前記参照特徴データセットを生成するステップと、をさらに含む、
請求項2に記載の方法。
【請求項5】
前記データベースは、前記テンプレート画像にそれぞれ対応する複数の参照姿勢データセットをさらに含み、前記参照姿勢データセットのそれぞれは、前記テンプレート画像の対応する1つに示される前記参照物体の姿勢を示し、
前記方法は、前記第1の特徴点と前記第2の特徴点とに基づいて、前記第1の特徴点と前記第2の特徴点との間の前記相対姿勢関係を示す校正データセットを生成することをさらに含み、
前記姿勢認識結果は、前記マッチング画像に対応する前記参照姿勢データセットと前記校正データセットとに基づいて生成される、
請求項2に記載の方法。
【請求項6】
目標物体の姿勢を認識する計算装置であって、
処理ユニットと、
前記処理ユニットに電気的に接続し、データベースを記憶する記憶ユニットと、を含み、
前記データベースは、前記目標物体が属する特定の種類に関連し、複数のテンプレート画像を含み、前記テンプレート画像は、前記特定の種類に属する参照物体をそれぞれ含み、前記参照物体が捕捉される参照角度に対する異なる偏向角度にそれぞれ対応し、
前記処理ユニットは、
前記特定の種類に属する前記目標物体を含む入力画像を得て、
前記入力画像における前記目標物体の外観に基づいて、前記データベースの前記テンプレート画像から前記入力画像と最もマッチするマッチング画像を選択し、前記マッチング画像は、前記テンプレート画像に示される前記参照物体の角度が前記入力画像に示される前記目標物体の角度と最も近い1つであり、
前記入力画像と前記マッチング画像とに基づいて、キーポイントマッチング工程を実行することによって、前記入力画像に示されかつ前記目標物体の外観に関連する複数の第1の特徴点と、前記マッチング画像に示されかつ前記第1の特徴点とそれぞれマッチする複数の第2の特徴点と、を認識し、
前記第1の特徴点と前記第2の特徴点との間の相対姿勢関係に基づいて、前記目標物体の前記姿勢を示す姿勢認識結果を生成する、ように構成される、
計算装置。
【請求項7】
前記データベースは、前記テンプレート画像にそれぞれ対応する複数の参照特徴データセットをさらに含み、前記参照特徴データセットのそれぞれは、前記テンプレート画像の対応する1つに示される前記角度での前記参照物体の外観特徴を示し、
前記処理ユニットは、
前記入力画像に示される前記目標物体の複数の特徴部分に基づいて、前記入力画像に対応する目標特徴データセットを生成し、前記目標特徴データセットは、前記入力画像に示される前記角度での前記目標物体の外観特徴を示し、
前記参照特徴データセットのそれぞれについて、前記目標特徴データセットと該参照特徴データセットとの間のマッチング程度を計算し、
前記テンプレート画像の前記目標特徴データセットとの前記マッチング程度が最も高い前記参照特徴データセットに対応する1つを、前記マッチング画像として選択することによって、前記マッチング画像を選択するように構成される、
請求項6に記載の計算装置。
【請求項8】
前記目標特徴データセットと前記参照特徴データセットとは、それぞれベクトルで表現され、
前記処理ユニットは、前記参照特徴データセットのそれぞれについて、前記目標特徴データセットと該参照特徴データセットとの間のミンコフスキー距離を計算することによって、前記マッチング程度を計算するように構成される、
請求項7に記載の計算装置。
【請求項9】
前記テンプレート画像は、最初のテンプレート画像と、複数の加工されたテンプレート画像と、を含み、
前記処理ユニットは、前記入力画像を得ることと前記マッチング画像を選択することとの前に、
前記最初のテンプレート画像を得て、
前記最初のテンプレート画像に基づいて、前記最初のテンプレート画像に対応する前記参照特徴データセットを生成し、
前記最初のテンプレート画像を複数回回転することにより、前記複数の加工されたテンプレート画像を生成し、毎回の回転で1つの前記加工されたテンプレート画像を生成し、
前記加工されたテンプレート画像に基づいて、前記加工されたテンプレート画像にそれぞれ対応する前記参照特徴データセットを生成するように、さらに構成される、
請求項7に記載の計算装置。
【請求項10】
前記データベースは、前記テンプレート画像にそれぞれ対応する複数の参照姿勢データセットをさらに含み、前記参照姿勢データセットのそれぞれは、前記テンプレート画像の対応する1つに示される前記参照物体の姿勢を示し、
前記処理ユニットは、前記第1の特徴点と前記第2の特徴点とに基づいて、前記第1の特徴点と前記第2の特徴点との間の前記相対姿勢関係を示す校正データセットを生成するようにさらに構成され、
前記処理ユニットは、前記マッチング画像に対応する前記参照姿勢データセットと前記校正データセットとに基づいて、前記姿勢認識結果を生成するように構成される、
請求項7に記載の計算装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、目標物体の姿勢を認識する方法に関し、より具体的には、画像認識に関与する目標物体の姿勢を認識する方法に関する。本発明は、該方法を実行する計算装置にさらに関する。
【背景技術】
【0002】
さまざまな自動化操作において、物体の姿勢(位置と方向付け)を識別することは、重要な工程である。例えば、ロボットアームを用いて物体を掴む操作において、物体の姿勢に基づいてロボットアームの動作を決めることによって、ロボットアームは正しい角度から物体を安定的に掴むことができる。また、物体を自動化加工する操作において、物体の姿勢に基づいて加工する位置または経路を調整することによって、加工の精確性を向上することができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】中国特許出願公開第113939852号明細書
【発明の概要】
【発明が解決しようとする課題】
【0004】
したがって、本発明の目的は、目標物体の姿勢を識別する方法およびそれを実行する計算装置を提供することにある。
【課題を解決するための手段】
【0005】
該方法は、データベースを記憶する計算装置により実行される。データベースは、目標物体が属する特定の種類に関連し、複数のテンプレート画像を含む。テンプレート画像は、特定の種類に属する参照物体をそれぞれ含み、参照物体が捕捉される参照角度に対する異なる偏向角度にそれぞれ対応する。
【0006】
該方法は、特定の種類に属する目標物体を含む入力画像を得るステップと、入力画像における目標物体の外観に基づいて、データベースのテンプレート画像から入力画像と最もマッチするマッチング画像を選択するステップであって、マッチング画像は、テンプレート画像に示される参照物体の角度が入力画像に示される目標物体の角度と最も近い1つであるステップと、入力画像とマッチング画像とに基づいて、キーポイントマッチング工程を実行することによって、入力画像に示されかつ目標物体の外観に関連する複数の第1の特徴点と、マッチング画像に示されかつ第1の特徴点とそれぞれマッチする複数の第2の特徴点と、を認識するステップと、第1の特徴点と第2の特徴点との間の相対姿勢関係に基づいて、目標物体の姿勢を示す姿勢認識結果を生成するステップと、を含む。
【0007】
計算装置は、処理ユニットと、処理ユニットに電気的に接続し、データベースを記憶する記憶ユニットと、を含む。
【0008】
データベースは、目標物体が属する特定の種類に関連し、複数のテンプレート画像を含む。テンプレート画像は、特定の種類に属する参照物体をそれぞれ含み、参照物体が捕捉される参照角度に対する異なる偏向角度にそれぞれ対応する。
【0009】
処理ユニットは、特定の種類に属する目標物体を含む入力画像を得て、入力画像における目標物体の外観に基づいて、データベースのテンプレート画像から入力画像と最もマッチするマッチング画像を選択し、マッチング画像は、テンプレート画像に示される参照物体の角度が入力画像に示される目標物体の角度と最も近い1つであり、入力画像とマッチング画像とに基づいて、キーポイントマッチング工程を実行することによって、入力画像に示されかつ目標物体の外観に関連する複数の第1の特徴点と、マッチング画像に示されかつ第1の特徴点とそれぞれマッチする複数の第2の特徴点と、を認識し、第1の特徴点と第2の特徴点との間の相対姿勢関係に基づいて、目標物体の姿勢を示す姿勢認識結果を生成する、ように構成される。
【発明の効果】
【0010】
目標物体を認識する方法を実行することによって、計算装置は、目標物体を含む入力画像を得ると、データベースから入力画像と最もマッチするマッチング画像を選択し、入力画像とマッチング画像とに基づいてキーポイントマッチング工程を実行して、第1の特徴点と第2の特徴点とを認識し、第1の特徴点と第2の特徴点とに基づいて、目標物体の姿勢を認識する。
【0011】
本発明の他の特徴及び利点は、添付の図面を参照する以下の実施形態の詳細な説明において明白になる。
【図面の簡単な説明】
【0012】
図1】本発明に係る一実施形態の目標物体の姿勢を認識する計算装置、データベース、および撮影装置を示す模式図である。
図2】本発明に係る一実施形態の目標物体の姿勢を認識する方法を示すフローチャートである。
【発明を実施するための形態】
【0013】
本発明をより詳細に説明する前に、適切と考えられる場合において、参照符号または参照符号の末端部は、同様の特性を有し得る対応のまたは類似の要素を示すために各図面間で繰り返し用いられることに留意されたい。
【0014】
本明細書において、「結合」又は「接続」という用語は、複数の電気機器/装置/設備の間が導電材料(例えば、電線)により直接的に接続されること、あるいは、2つの電気機器/装置/設備の間が他の一つ以上の機器/装置/設備または無線通信により間接的に接続されることを意味する。
【0015】
図1を参照すると、本発明に係る目標物体の姿勢を認識する計算装置1は、パーソナルコンピューター、ラップトップコンピューター、サーバーなどとして実施され得る。計算装置1は、処理ユニット11と、処理ユニット11に電気的に接続する記憶ユニット12と、を含む。なお、「姿勢」という用語は、物体の位置と方向付け(即ち物体の向き)とを表している。
【0016】
本実施形態において、処理ユニット11は、データ演算および処理機能を有するチップ(すなわち、集積回路)であり、中央処理装置(CPU)を含んでもよいが、これに限定されない。記憶ユニット12は、デジタルデータを記憶するデータ記憶装置(例えば、ハードディスク)である。いくつかの実施形態において、処理ユニット11は、チップの集合体であってもよく、記憶ユニット12は、同じタイプまたは異なるタイプのコンピュータ読み取り可能な記憶媒体の集合体であってもよいが、これに限定されない。いくつかの実施形態において、計算装置1は、スマートフォン、タブレットコンピューターなどの電子装置であってもよい。したがって、計算装置1のハードウェアの実施は、本実施形態に限定されない。
【0017】
本実施形態において、処理ユニット11は、図1に示されるデータベースDB1を生成し、データベースDB1を記憶ユニット12に記憶するように構成される。具体的には、データベースDB1は、特定の種類の物体(例えば、特定の形式の物体、特定の仕様に準拠する物体など)に関連し、本発明のいくつかの実施形態に係る該特定の種類に属する目標物体の姿勢を認識する方法の第1の段階を実行する処理ユニット11によって生成される。すなわち、処理ユニット11が該方法の第1の段階を実行する前に、データベースDB1はまだ生成されておらず、記憶ユニット12に記憶されていない。なお、図1では、計算装置1の動作を容易に説明するために、データベースDB1の一例を予め示している。さらに、処理ユニット11は、動画を撮るように構成される撮影装置2(例えば、カメラ)に電気的に接続できるように構成され、処理ユニット11は、撮影装置2から動画を受信し、目標物体の姿勢を認識する方法の第2の段階を実行することによって、データベースDB1に基づいて、動画における物体の姿勢を認識するように構成される。
【0018】
図2をさらに参照すると、計算装置1によって実行される目標物体の姿勢を認識する方法が示される。該方法は、ステップS1からステップS9を含み、ステップS1からステップS5は方法の第1の段階に関連し、ステップS6からステップS9は方法の第2の段階に関連する。
【0019】
ステップS1において、処理ユニット11は、テンプレート画像D1を得る。ここで、該テンプレート画像D1は、本実施形態の最初のテンプレート画像D1’とみなされ、最初のテンプレート画像D1’は、参照物体を含む。
【0020】
具体的には、最初のテンプレート画像D1’に含まれる参照物体は、後で計算装置1によって該方法を用いて認識される目標物体が属する特定の種類に属する。参照物体は、例えば、特定の種類のワークピースまたはコンポーネントである。例えば、特定の種類は、UTS(UNIFIED THREAD STANDARD)規格番号「#6-32UNC 2B」であり、参照物体および目標物体は、「#6-32UNC 2B」に準拠するねじである。最初のテンプレート画像D1’に示される参照物体の角度は、最初のテンプレート画像D1’が撮影される際の撮影視点からの特定の種類の物体の参照角度とみなされる。より詳細に説明すると、撮影視点は、最初のテンプレート画像D1’が撮影される際の参照物体に対するカメラ装置(例えば、図1の撮影装置2であるがこれに限定されない)の視点である。なお、特定の種類に属する他の物体(すなわち、参照物体と実質的に同じ外観を有する他の物体)の姿勢を認識するために、最初のテンプレート画像D1’は、特定の種類に関連するデータベースDB1を生成するために処理ユニット11によって利用される。したがって、参照物体自体が、方法を用いて計算装置1によって認識される実際のターゲットであるとは限らない。
【0021】
さらに、最初のテンプレート画像D1’は、複数の特徴マーカを有し、特徴マーカは、最初のテンプレート画像D1’に示される参照物体の複数の特徴部分(以下、「参照特徴部分」と称する)をそれぞれ定義する。参照特徴部分のそれぞれは、最初のテンプレート画像D1’に示される参照物体の外観の部分であり、参照物体の外観の部分は、コンピュータビジョンにおける認識されるターゲットとして適合するものであり、例えば、最初のテンプレート画像D1’に示される参照物体のパターン、輪郭、またはそれらの組み合わせであるが、これらに限定されない。さらに、特徴マーカは、手動操作によって、最初のテンプレート画像D1’に追加されるバーチャルマーカであってもよいが、これに限定されない。
【0022】
本実施形態において、処理ユニット11は、ユーザにより制御されて記憶ユニット12から、記憶ユニット12に予め記憶されている最初のテンプレート画像D1’を読み取ることによって、最初のテンプレート画像D1’を得る。いくつかの実施形態において、処理ユニット11は、電子装置(図示せず。例えば、カメラ装置やコンピュータ)に電気的に接続し、電子装置から最初のテンプレート画像D1’を得てもよい。いくつかの実施形態において、処理ユニット11は、最初のテンプレート画像D1’を記憶する外部記憶装置(図示せず。例えば、メモリカードやフラッシュドライブ)に電気的に接続し、外部電子装置から最初のテンプレート画像D1’を得てもよい。
【0023】
最初のテンプレート画像D1’を得た後、フローはステップS2に進む。
【0024】
ステップS2において、処理ユニット11は、最初のテンプレート画像D1’に基づいて、最初のテンプレート画像D1’に対応する参照姿勢データセットD2と、最初のテンプレート画像D1’に対応する参照特徴データセットD3とを生成する。
【0025】
本実施形態において、最初のテンプレート画像D1’に対応する参照姿勢データセットD2は、マトリックスで表現され、最初のテンプレート画像D1’に示される参照物体の姿勢(すなわち、撮影視点から見た特定の種類の物体の参照角度での姿勢)を示す。具体的には、参照姿勢データセットD2は、3次元空間における6自由度を用いて、最初のテンプレート画像D1’に示される参照物体の姿勢を示す。参照姿勢データセットD2によって示される姿勢は、撮影視点に基づいて定義されるバーチャル3次元座標系の座標セットであってもよく、撮影視点から見た特定の種類に属する物体の参照姿勢と見なされてもよい。例えば、参照姿勢での特定の種類に属する物体は、3次元座標系の原点に位置し、3次元のそれぞれにある方向付けはゼロである(すなわち、ヨー、ピッチ、ロールはそれぞれゼロである)。
【0026】
本実施形態において、最初のテンプレート画像D1’に対応する参照特徴データセットD3は、複数の成分(例えば、2304個の成分)を含むベクトルで表現され、成分を用いて最初のテンプレート画像D1’に示される参照角度での参照物体(特定の種類の物体)の外観特徴を示す。外観特徴は、撮影視点から見て、特徴の種類に属する物体が該参照角度にある場合のみに存在する。例えば、外観特徴は、最初のテンプレート画像D1’に示される参照特徴部分それぞれの座標セットおよび/または方向付けであり、外観特徴は、撮影視点から見た参照物体が参照角度にある際の参照特徴部分の間の相対位置関係を示すことができるが、これに限定されない。
【0027】
本実施形態において、処理ユニット11は、最初のテンプレート画像D1’を、予めトレーニングされた畳み込みニューラルネットワーク(CNN)に入力して、出力となる参照特徴データセットD3を得る。すなわち、参照特徴データセットD3は、処理ユニット11が畳み込みニューラルネットワーク(CNN)を用いて取得した最初のテンプレート画像D1’の分析結果である。なお、畳み込みニューラルネットワーク(CNN)は、本発明のポイントではなく、当業者にとって周知であるため、簡潔性を考慮して、その詳細は省略される。
【0028】
処理ユニット11は、最初のテンプレート画像D1’に対応する参照姿勢データセットD2と参照特徴データセットD3とを生成した後、フローはステップS3に進む。
【0029】
ステップS3において、処理ユニット11は、最初のテンプレート画像D1’をN回回転することによって、最初のテンプレート画像D1’と異なるN個のテンプレート画像D1を生成する。毎回の回転で1つのテンプレート画像D1を生成する。テンプレート画像D1のそれぞれは、参照物体を含む。本実施形態において、最初のテンプレート画像D1’をN回回転することにより生成されたN個のテンプレート画像D1は、N個の加工されたテンプレート画像D1’’とみなされる。具体的には、Nは1以上の整数であり、回転は時計回りまたは反時計回りであってもよい。
【0030】
より詳細に説明すると、処理ユニット11は、所定の角度に基づいて、最初のテンプレート画像D1’を複数回(すなわち、N回)回転し、最初のテンプレート画像D1’が回転される度に、1つの加工されたテンプレート画像D1’’が生成される。本実施形態において、Nは35であり、所定の角度は10度である。したがって、処理ユニット11によって生成された加工されたテンプレート画像D1’’の1つ目(以下、「第1の加工されたテンプレート画像」と称する)は、最初のテンプレート画像D1’を(例えば、時計回りに)10度回転した結果を示し、処理ユニット11によって生成された加工されたテンプレート画像D1’’の2つ目(以下、「第2の加工されたテンプレート画像」と称する)は、最初のテンプレート画像D1’をさらに10度回転(すなわち、時計回りに合計20度回転)した結果を示し、その他の加工されたテンプレート画像D1’’も同様である。このように、第1の加工されたテンプレート画像D1’’に示される参照物体の角度(以下、「参照物体の表示角度」と称する)は、最初のテンプレート画像D1’に示される参照物体の表示角度に対して時計回りに10度ずれている。同様に、第2の加工されたテンプレート画像D1’’に示される参照物体の表示角度は、第1の加工されたテンプレート画像D1’’に示される参照物体の表示角度に対して時計回りに10度ずれており、最初のテンプレート画像D1’に示される参照物体の表示角度に対して時計回りに20度ずれている。最終的に、本実施形態において、処理ユニット11は、最初のテンプレート画像D1’を35回回転して35個の加工されたテンプレート画像D1’’を生成することによって、合計36個のテンプレート画像D1を得る。すなわち、36個のテンプレート画像D1は、最初のテンプレート画像D1’と35個の加工されたテンプレート画像D1’’とを含み、テンプレート画像D1のそれぞれにおいて、各テンプレート画像D1の参照物体の表示角度は、テンプレート画像D1の前の1つまたは後の1つの参照物体の表示角度に対して10度ずれている。
【0031】
なお、処理ユニット11によって最初のテンプレート画像D1’を回転するための所定の角度と回転の回数(すなわち、N回)は、上述の例に限定されない。他の実施形態において、所定の角度は、テンプレート画像D1の数と所定の角度との関係が、テンプレート画像D1の数に所定の角度を乗じた値が360度に等しいという条件を満たす限り、25度より小さい任意の角度であってもよい。
【0032】
より詳細に説明すると、本実施形態において、テンプレート画像D1は、参照物体が捕捉される参照角度に対する異なる偏向角度にそれぞれ対応する。すなわち、偏向角度のそれぞれは、対応のテンプレート画像D1の参照物体の表示角度と最初のテンプレート画像D1’の参照物体の表示角度との間の差である。本実施形態の一例において、最初のテンプレート画像D1’に対応する偏向角度は0度であり、加工されたテンプレート画像D1’’にそれぞれ対応する残りの偏向角度は、次から次へと10度ずつずれている(すなわち、10度、20度、30度、……、350度)が、本発明はこれに限定されない。
【0033】
処理ユニット11が加工されたテンプレート画像D1’’を生成した後、フローはステップS4に進む。
【0034】
ステップS4において、処理ユニット11は、加工されたテンプレート画像D1’’に基づいて、加工されたテンプレート画像D1’’にそれぞれ対応する複数の参照姿勢データセットD2と、加工されたテンプレート画像D1’’にそれぞれ対応する複数の参照特徴データセットD3と、をさらに生成する。
【0035】
ステップS2と同様に、本実施形態において、参照姿勢データセットD2は、マトリックスで表現され、対応の加工されたテンプレート画像D1’’に示される参照物体の姿勢(すなわち、撮影視点から見た対応の加工されたテンプレート画像D1’’に対応する偏向角度での特定の種類の物体の姿勢)を示す。具体的には、参照姿勢データセットD2のそれぞれは、3次元空間における6自由度を用いて、対応の加工されたテンプレート画像D1’’に示される参照物体の姿勢を示す。加工されたテンプレート画像D1’’が最初のテンプレート画像D1’を所定の角度で複数回回転することによって得られるため、加工されたテンプレート画像D1’’にそれぞれ対応する参照姿勢データセットD2は、最初のテンプレート画像D1’に対応する参照姿勢データセットD2に基づいて計算して得ることができる。
【0036】
ステップS2と同様に、本実施形態において、参照特徴データセットD3は、複数の成分(例えば、2304の個成分)を含むベクトルで表現され、成分を用いて対応の加工されたテンプレート画像D1’’に示される参照角度での参照物体(特定の種類の物体)の外観特徴を示す。
【0037】
外観特徴は、撮影視点から見て、特徴の種類に属する物体が該参照角度から対応の加工されたテンプレート画像D1’’(例えば、第1の加工されたテンプレート画像D1’’)に対応する偏向角度(例えば、10度)ずれている場合のみに存在する。
【0038】
例えば、外観特徴は、対応の加工されたテンプレート画像D1’’に示される参照特徴部分それぞれの座標セットおよび/または方向付けであり、外観特徴は、撮影視点から見た参照物体が参照角度から偏向角度(例えば、10度)ずれている際の参照特徴部分の間の相対位置関係を示すことができるが、これに限定されない。
【0039】
さらに、本実施形態において、処理ユニット11は、加工されたテンプレート画像D1’’のそれぞれを予めトレーニングされた畳み込みニューラルネットワーク(CNN)に入力して、出力となる対応の参照特徴データセットD3を得る。すなわち、参照特徴データセットD3のそれぞれは、処理ユニット11が畳み込みニューラルネットワーク(CNN)を用いて取得した対応の加工されたテンプレート画像D1’’の分析結果である。
【0040】
処理ユニット11が加工されたテンプレート画像D1’’にそれぞれ対応する複数の参照姿勢データセットD2と加工されたテンプレート画像D1’’にそれぞれ対応する複数の参照特徴データセットD3とを得た後、フローはステップS5に進む。
【0041】
ステップS5において、処理ユニット11は、特定の種類に関連するデータベースDB1を確立して、データベースDB1を記憶ユニット12に記憶する。具体的には、データベースDB1は、異なる偏向角度にそれぞれ対応するテンプレート画像D1(すなわち、最初のテンプレート画像D1’および加工されたテンプレート画像D1’’)と、テンプレート画像D1にそれぞれ対応する参照姿勢データセットD2と、テンプレート画像D1にそれぞれ対応する参照特徴データセットD3と、を含む。
【0042】
処理ユニット11がデータベースDB1を記憶ユニット12に記憶した後、フローはステップS6に進む。
【0043】
ステップS6において、処理ユニット11は、特定の種類に属する目標物体を含む入力画像を得ると、入力画像における目標物体の外観に基づいて、データベースDB1のテンプレート画像D1から入力画像と最もマッチするマッチング画像D1*を選択する。具体的には、マッチング画像D1*は、テンプレート画像D1のうちの示される参照物体の表示角度が入力画像に示される目標物体の角度(以下、「目標角度」と称する)と最も近い1つである。
【0044】
より具体的に説明すると、入力画像は、例えば、リアルタイム動画のフレームであり、処理ユニット11は、例えば、処理ユニット11に電気的に接続する撮影装置2からリアルタイムで動画を受信することによって、入力画像を得てもよい。目標物体は、本発明に係る方法を用いて計算装置1によって認識される実際のターゲットであり、特定の種類に属して参照物体と実質的に同様の外観を有する物体である。目標物体は、参照物体自体であってもよい。
【0045】
本実施形態において、処理ユニット11は、以下の手段により、マッチング画像D1*を選択する。まず、処理ユニット11は、例えば、入力画像に対して画像認識を実行することによって、入力画像に示される目標物体の複数の特徴部分(以下、「目標特徴部分」と称する)を認識する。具体的には、処理ユニット11は、最初のテンプレート画像D1’における特徴マーカによって参照特徴部分に基づいて、入力画像に示される目標特徴部分を認識してもよい。したがって、テンプレート画像D1のそれぞれに対して、入力画像に示される目標特徴部分は、該テンプレート画像D1に示され、該テンプレート画像D1の特徴マーカによって定義される参照特徴部分にそれぞれ対応するべきである。
【0046】
入力画像に示される目標特徴部分を認識した後、処理ユニット11は、入力画像に示される目標特徴部分に基づいて、入力画像に対応する目標特徴データセットを生成する。参照特徴データセットD3と同様に、本実施形態の目標特徴データセットは、複数の成分(例えば、2304個の成分)を含むベクトルで表現され、成分を用いて入力画像に示される目標角度での目標物体の外観特徴を示す。外観特徴は、撮影視点から見て、目標物体が目標角度にある場合のみに存在する。
【0047】
目標特徴データセットが生成された後、処理ユニット11は、参照特徴データセットD3のそれぞれについて、目標特徴データセットと該参照特徴データセットD3との間のマッチング程度を計算する。具体的には、本実施形態の目標特徴データセットおよび参照特徴データセットD3がそれぞれベクトルで表現されるため、処理ユニット11は、参照特徴データセットD3のそれぞれについて、目標特徴データセットと該参照特徴データセットD3との間のミンコフスキー距離を計算し、計算されたミンコフスキー距離をマッチング程度とするが、本発明はこれに限定されない。なお、目標特徴データセットを表すベクトルと参照特徴データセットD3のいずれか1つを表すベクトルとの間のミンコフスキー距離が小さいほど、該2つのベクトルが互いに近く、入力画像に示される目標角度と対応のテンプレート画像D1に示される参照物体の表示角度とが近いことを意味する。すなわち、ミンコフスキー距離が小さいほど、マッチング程度が高いことを意味する。
【0048】
目標特徴データセットと各参照特徴データセットD3との間のマッチング程度を計算した後、処理ユニット11は、テンプレート画像D1のうちの目標特徴データセットとのマッチング程度が最も高い参照特徴データセットD3に対応する1つを、マッチング画像D1*として選択する。このように、入力画像に示される目標角度が参照角度から21.5度ずれていると仮定すると、処理ユニット11は、20度の偏向角度に対応する1つのテンプレート画像D1をマッチング画像D1*として選択する(すなわち、選択された該1つのテンプレート画像D1は、入力画像の目標角度と最も近い参照物体の表示角度を有する)。
【0049】
処理ユニット11がテンプレート画像D1からマッチング画像D1*を選択した後、フローはステップS7に進む。
【0050】
ステップS7において、処理ユニット11は、入力画像とマッチング画像D1*とに基づいて、キーポイントマッチング工程を実行することによって、入力画像に示されかつ目標物体の外観に関連する複数の第1の特徴点と、マッチング画像D1*に示されかつ第1の特徴点とそれぞれマッチする複数の第2の特徴点と、を認識する。具体的には、第1の特徴点のそれぞれは、第2の特徴点の1つとは一対一の関係で同質(homogeneous)である。すなわち、第1の特徴点のそれぞれは第2の特徴点の1つと同質であり、その逆も同様である。本実施形態において、処理ユニット11は、従来技術のSe2-LoFTRを用いてキーポイントマッチング工程を実行する。いくつかの実施形態において、処理ユニット11は、Coarse-LoFTR、LoFTR、SuperGlueなどの従来技術を用いて、キーポイントマッチング工程を実行してもよく、本実施形態に限定されない。
【0051】
処理ユニット11が第1の特徴点と第2の特徴点とを認識した後、フローはステップS8へ進む。
【0052】
ステップS8において、処理ユニット11は、第1の特徴点と第2の特徴点とに基づいて、校正データセットを生成する。校正データセットは、マトリックスで表現され、第1の特徴点と第2の特徴点との間の相対姿勢関係を示す。具体的には、校正データセットは、第1の特徴点のそれぞれについて、3次元空間における6自由度を用いて、該第1の特徴点と対応の第2の特徴点との間の相対姿勢関係を示すことによって、マッチング画像D1*に示される参照物体の姿勢に対する入力画像に示される目標物体の姿勢を6自由度(すなわち、位置および方向付けの違い)で示す。
【0053】
処理ユニット11が校正データセットを生成した後、フローはステップS9に進む。
【0054】
ステップS9において、マッチング画像D1*に対応する参照姿勢データセットD2と校正データセット(該第1の特徴点と対応の第2の特徴点との間の相対姿勢関係を示す)とに基づいて、目標物体の姿勢を示す姿勢認識結果を生成する。具体的には、姿勢認識結果は、6自由度を用いて、入力画像の目標物体の姿勢と参照姿勢との間の違いを示すことによって、最初のテンプレート画像D1’に示される参照物体の姿勢に対する入力画像に示される目標物体の姿勢を6自由度で示す。より具体的には、本実施形態のマッチング画像D1*に対応する参照姿勢データセットD2と校正データセットとは、それぞれマトリックスで表現される。マッチング画像D1*に対応する参照姿勢データセットD2が第1のマトリックス(Mで表記)であり、校正データセットが第2のマトリックス(Mで表記)であると仮定すると、本実施形態の姿勢認識結果は、第2のマトリックスに第1のマトリックスを乗算することによって生成される(すなわち、M)。以上、フローは完了する。
【0055】
本実施形態において、姿勢認識結果は、従来技術の座標系変換方法により、6自由度で他の座標系(例えば、ロボットアームの座標系)における位置および方向付けに変換されてもよい。さらに、姿勢認識結果が生成された後、処理ユニット11は、姿勢認識結果に基づいて目標物体に対して自動化操作をさらに実行してもよい。例えば、自動化操作は、ロボットアーム(図示せず)で目標物体を掴んで移動すること、または目標物体に対して加工する(例えば、溶接、接着、切削など)ことなどを含んでもよい。いくつかの実施形態において、姿勢認識結果が生成された後、処理ユニット11は、目標物体に対して自動化操作を実行する自動化システムに、姿勢認識結果を送信してもよく、これによって、自動化システムは、姿勢認識結果に基づいて、目標物体に対して動作する。なお、姿勢認識結果は様々な用途があるため、本実施形態は姿勢認識結果が生成された後の動作について制限しない。
【0056】
なお、ステップS1からステップS9および図2に示されるフローチャートは、本発明の一例を示すものに過ぎなく、本発明の方法と実質的に同じ方法で実質的に同じ機能を実現することができれば、ステップS1からステップS9を組み合わせたり、分割したり、順序を入れ替えたりしてもよい。例えば、処理ユニット11は、最初のテンプレート画像D1’を得た(すなわち、ステップS1)後、まず最初のテンプレート画像D1’に基づいて加工されたテンプレート画像D1’’を生成(すなわち、ステップS3)してから、テンプレート画像D1にそれぞれ対応する参照姿勢データセットD2およびテンプレート画像D1にそれぞれ対応する参照特徴データセットD3を生成し(すなわち、ステップS2およびステップS4)てもよい。したがって、本発明は、図2のフローチャートに限定されない。
【0057】
要約すると、目標物体の姿勢を認識する方法を実行することによって、計算装置1は、目標物体が属する特定の種類に属する参照物体を含む1つのテンプレート画像D1(すなわち、最初のテンプレート画像D1’)のみを用いて、最初のテンプレート画像D1’を回転することによって加工されたテンプレート画像D1’’を生成し、テンプレート画像D1に対応する参照姿勢データセットD2および参照特徴データセットD3を生成することによって、特定の種類に関連するデータベースDB1を確立する。さらに、データベースDB1が確立された後、計算装置1が目標物体を含む入力画像を得ると、計算装置1は、データベースDB1の参照特徴データセットD3に基づいて入力画像と最もマッチするマッチング画像D1*を選択し、そして入力画像とマッチング画像D1*とに基づいてキーポイントマッチング工程を実行して、校正データセットを生成し、最後に、校正データセットとマッチング画像D1*に対応する参照姿勢データセットD2とに基づいて、目標物体の姿勢を認識する。
【0058】
なお、人工ニューラルネットワークを用いても目標物体の姿勢を認識することができるが、人工ニューラルネットワークは、目標物体の外観について予め学習する必要があるため、人工ニューラルネットワークの学習に異なる角度から撮られた複数の目標物体の画像を必要とする。人工ニューラルネットワークを用いる場合と比較して、本発明の計算装置1は、異なる角度から撮られた目標物体の画像を必要することなく、目標物体が属する特定の種類に属する参照物体を示す1つのテンプレート画像D1(すなわち、最初のテンプレート画像D1’)のみで、特定の種類に関連するデータベースDB1を確立することができる。さらに、処理ユニット11が最初のテンプレート画像D1’に基づいてデータベースDB1の生成に要する時間は、人工ニューラルネットワークの学習に要する時間よりはるかに短い。したがって、人工ニューラルネットワークを使用する場合と比較して、本発明は、人力と時間とを節約することができ、特に、認識する対象が変更される(例えば、目標物体が他の特定の種類に属する物体に変更される)場合において、人力と時間の節約はより顕著になる。
【0059】
上記の説明では、説明の目的のために、実施形態の完全な理解を提供するために多数の特定の詳細が述べられた。しかしながら、当業者であれば、一又はそれ以上の他の実施形態が具体的な詳細を示さなくとも実施され得ることが明らかである。また、本明細書における「一実施形態」「一つの実施形態」を示す説明において、序数などの表示を伴う説明は全て、特定の態様、構造、特徴を有する本発明の具体的な実施に含まれ得るものであることと理解されたい。更に、本明細書において、時には複数の変化例が一つの実施形態、図面、又はこれらの説明に組み込まれているが、これは本明細書を合理化させるためのもので、本発明の多面性が理解されることを目的としたものであり、また、一実施形態における一又はそれ以上の特徴あるいは特定の具体例は、適切な場合には、本発明の実施において、他の実施形態における一またはそれ以上の特徴あるいは特定の具体例と共に実施され得る。
【0060】
以上、本発明の実施形態および変化例を説明したが、本発明はこれらに限定されるものではなく、最も広い解釈の精神および範囲内に含まれる様々な構成として、全ての修飾および均等な構成を包含するものとする。
【符号の説明】
【0061】
1 計算装置
11 処理ユニット
12 記憶ユニット
2 撮影装置
DB1 データベース
D1 テンプレート画像
D1’ 最初のテンプレート画像
D1’’ 加工されたテンプレート画像
D1* マッチング画像
D2 参照姿勢データセット
D3 参照特徴データセット
S1-S9 ステップ
図1
図2