IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三星電子株式会社の特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023073231
(43)【公開日】2023-05-25
(54)【発明の名称】イメージ処理方法及び装置
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230518BHJP
   G06V 10/82 20220101ALI20230518BHJP
【FI】
G06T7/00 300F
G06T7/00 350C
G06V10/82
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2022182118
(22)【出願日】2022-11-14
(31)【優先権主張番号】202111348242.6
(32)【優先日】2021-11-15
(33)【優先権主張国・地域又は機関】CN
(31)【優先権主張番号】10-2022-0111206
(32)【優先日】2022-09-02
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】390019839
【氏名又は名称】三星電子株式会社
【氏名又は名称原語表記】Samsung Electronics Co.,Ltd.
【住所又は居所原語表記】129,Samsung-ro,Yeongtong-gu,Suwon-si,Gyeonggi-do,Republic of Korea
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ハオ ワン
(72)【発明者】
【氏名】ウェイミン リ
(72)【発明者】
【氏名】チアン ワン
(72)【発明者】
【氏名】金 知▲よん▼
(72)【発明者】
【氏名】張 現盛
(72)【発明者】
【氏名】洪 性勳
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096AA09
5L096BA05
5L096BA08
5L096CA02
5L096DA01
5L096FA19
5L096FA32
5L096FA34
5L096FA66
5L096FA67
5L096FA69
5L096GA40
5L096HA11
5L096JA11
5L096KA04
(57)【要約】
【課題】 イメージ処理方法、イメージ処理装置、電子装置、及びコンピュータ可読記憶媒体が開示される。
【解決手段】 イメージ処理方法は、カラーイメージ及び深度イメージに基づいて3次元特徴情報及び2次元特徴情報を取得するステップと、アテンションメカニズムに基づいて前記3次元特徴情報と前記2次元特徴情報を融合し融合特徴情報を取得するステップと、前記融合特徴情報に基づいてイメージ処理を行うステップとを含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
イメージ処理方法であって、
カラーイメージ及び深度イメージに基づいて3次元特徴情報及び2次元特徴情報を取得するステップと、
アテンションメカニズムに基づいて前記3次元特徴情報と前記2次元特徴情報を融合して融合特徴情報を取得するステップと、
前記融合特徴情報に基づいてイメージ処理を行うステップと、
を含む、イメージ処理方法。
【請求項2】
前記融合特徴情報は、少なくとも1つ以上のスケールの前記3次元特徴情報と、少なくとも1つ以上のスケールの前記2次元特徴情報を融合して取得されたものである、請求項1に記載のイメージ処理方法。
【請求項3】
前記融合特徴情報を取得するステップは、
いずれか1つのスケールの前記3次元特徴情報及びいずれか1つのスケールの前記2次元特徴情報に対して、
前記アテンションメカニズムに基づいて現在スケールの3次元特徴情報と現在スケールの2次元特徴情報に対して特徴融合を行い、現在スケールの融合特徴情報を取得するステップを含み、前記現在スケールの3次元特徴情報は、以前スケールの融合特徴情報及び前記以前スケールの3次元特徴情報に応じて決定され、前記現在スケールの2次元特徴情報は以前スケールの2次元特徴情報に応じて決定される、請求項2に記載のイメージ処理方法。
【請求項4】
前記融合特徴情報を取得するステップは、
前記3次元特徴情報に応じてポイントクラウドボクセル特徴情報及び/又はボクセル位置特徴情報を取得するステップと、
前記2次元特徴情報に応じて第1イメージボクセル特徴情報を取得するステップと、
前記アテンションメカニズムに基づいて、前記ポイントクラウドボクセル特徴情報、ボクセル位置特徴情報及び/又は前記第1イメージボクセル特徴情報に応じて特徴を融合して融合特徴情報を取得するステップと、
を含む、請求項1に記載イメージ処理方法。
【請求項5】
前記アテンションメカニズムに基づいて、前記ポイントクラウドボクセル特徴情報、前記ボクセル位置特徴情報及び/又は前記第1イメージボクセル特徴情報に応じて前記特徴を融合して前記融合特徴情報を取得するステップは、
前記第1イメージボクセル特徴情報、及び前記アテンションメカニズムに基づいて前記ボクセル位置特徴情報、前記ポイントクラウドボクセル特徴情報及び前記第1イメージボクセル特徴情報を処理した後出力される特徴情報に対して、交差アテンションメカニズムを介して特徴を融合し前記融合特徴情報を取得するステップと、
前記第1イメージボクセル特徴情報及び前記アテンションメカニズムに基づいて、前記ポイントクラウドボクセル特徴情報を処理した後出力される前記特徴情報に対して、前記交差アテンションメカニズムを介して特徴を融合し前記融合特徴情報を取得するステップと、
前記第1イメージボクセル特徴情報及び前記交差アテンションメカニズムに基づいて、前記ポイントクラウドボクセル特徴情報を処理した後出力される前記特徴情報に対して、セルフアテンションメカニズムを介して特徴を融合し前記融合特徴情報を取得するステップと、
前記セルフアテンションメカニズムに基づいて前記第1イメージボクセル特徴情報を処理した後出力される特徴情報、及び前記交差アテンションメカニズムに基づいて前記ポイントクラウドボクセル特徴情報及び前記第1イメージボクセル特徴情報を処理した後出力される前記特徴情報に対して、特徴を融合して前記融合特徴情報を取得するステップと、
のいずれか1つを含む、請求項4に記載イメージ処理方法。
【請求項6】
前記融合特徴情報に基づいてイメージ処理を行うステップは、
前記融合特徴情報に基づいてポーズ推定及び/又はサイズ推定を行うステップと、
前記融合特徴情報に基づいて形状再構成及び/又は分割を行うステップと、
のうち少なくとも1つ以上を含む、請求項1に記載イメージ処理方法。
【請求項7】
前記融合特徴情報に基づいて前記形状再構成及び/又は分割を行うステップは、前記形状再構成及び/又は分割を行って形状情報及び/又は分割情報を取得するステップを含む、請求項6に記載イメージ処理方法。
【請求項8】
コンピュータで実行されるコンピュータプログラムを格納する非一時的コンピュータ可読記憶媒体であって、
前記コンピュータで前記コンピュータプログラムが実行される場合、請求項1に記載の方法が行われる、コンピュータ可読記憶媒体。
【請求項9】
電子装置であって、
命令語を実行するように構成された1つ以上のプロセッサと、
前記命令語を格納するメモリと、
前記命令語が実行される場合、前記1つ以上のプロセッサは、
カラーイメージ及び深度イメージに基づいて3次元特徴情報及び2次元特徴情報を取得する動作と、
アテンションメカニズムに基づいて前記3次元特徴情報及び2次元特徴情報を融合して融合特徴情報を取得する動作と、
前記融合特徴情報に基づいてイメージ処理を行う動作と、
を実行するように構成された、電子装置。
【請求項10】
前記3次元特徴情報及び前記2次元特徴情報を融合するために、前記プロセッサは、少なくとも1一つのスケールの前記3次元特徴情報及び少なくとも1つのスケールの前記2次元特徴情報を融合するように構成される、請求項9に記載の電子装置。
【請求項11】
前記イメージ処理を行うために、前記プロセッサは、
前記3次元特徴情報に基づいてポイントクラウドボクセル特徴情報及び/又はボクセル位置特徴情報を取得する動作と、
前記2次元特徴情報に基づいて第1イメージボクセル特徴情報を取得する動作と、
前記アテンションメカニズムに基づいて、前記ポイントクラウドボクセル特徴情報、前記ボクセル位置特徴情報、及び前記第1イメージボクセル特徴情報に応じて前記融合特徴情報を取得する動作と、
を行うように更に構成される、請求項9に記載の電子装置。
【請求項12】
電子装置であって、
命令語を行うように構成された1つ以上のプロセッサと、
前記命令語を格納するメモリと、
前記命令語が行われる場合、前記1つ以上のプロセッサは、
第1モダリティを介して取得した第1情報に対して、マルチスケールエンコーディングを介して第1特徴情報を抽出する動作と、
前記第1モダリティとは異なる第2モダリティを介して取得した第2情報に対して、マルチスケールエンコーディングを介して第2特徴情報を抽出する動作と、
単一モダリティアテンションメカニズム及びマルチモダリティアテンションメカニズムを含む融合変換モデルのマルチスケールアテンションメカニズムを用いて融合特徴を取得する動作と、
を行うように構成される、電子装置。
【請求項13】
前記第1特徴情報の抽出は、3次元ポイントクラウドに対するマルチスケールエンコーディングを介する3次元特徴情報抽出を含み、
前記第2特徴情報の抽出は、2次元ポイントクラウドに対するマルチスケールエンコーディングを介する2次元特徴情報抽出を含む、請求項12に記載の電子装置。
【請求項14】
前記融合特徴の取得は、現在スケールの現在融合特徴で以前スケールの融合特徴をスライシング(slicing)する動作をさらに含む、請求項12に記載の電子装置。
【請求項15】
前記第1モダリティとしての深度イメージ及び前記第2モダリティとしてのカラーイメージをそれぞれキャプチャーするディスプレイ及び/又はカメラと、
予測された画像情報に基づいてイメージ情報を表示する1つ以上のディスプレイと、
をさらに含み、
前記プロセッサは、前記融合特徴に基づいた予測イメージ情報を取得するように更に構成される、請求項12に記載の電子装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示はイメージ処理及び人工知能技術分野に関し、具体的に、イメージ処理方法、装置、電子装置、コンピュータ可読記憶媒体及びコンピュータプログラム製品が開示される。
【背景技術】
【0002】
イメージ処理技術において、ポーズ(pose)推定、イメージ分割、オブジェクト認識などは相対的に重要な研究方向である。一般に、単一モダリティ(modality)の情報のみがイメージ処理に使用されている。単一モダリティの情報を使用する場合、イメージ処理結果の正確度が低下する恐れがある。
【発明の概要】
【発明が解決しようとする課題】
【0003】
実施形態は、関連技術のイメージ処理結果の正確度を向上することのできるイメージ処理方法、装置、電子装置、コンピュータ可読記憶媒体及びコンピュータプログラム製品を提供する。
【課題を解決するための手段】
【0004】
一実施形態に係るイメージ処理方法は、カラーイメージ及び深度イメージに基づいて3次元特徴情報及び2次元特徴情報を取得するステップと、アテンション(Attention)メカニズムに基づいて前記3次元特徴情報と前記2次元特徴情報を融合して融合特徴情報を取得するステップと、前記融合特徴情報に基づいてイメージ処理を行うステップとを含む。
【0005】
選択的に、前記融合特徴情報は、少なくとも1つ以上のスケールの前記3次元特徴情報と、少なくとも1つ以上のスケールの前記2次元特徴情報を融合して取得されたものである。
【0006】
選択的に、前記融合特徴情報を取得するステップは、いずれか1つのスケールの前記3次元特徴情報及びいずれか1つのスケールの前記2次元特徴情報に対して、前記アテンションメカニズムに基づいて現在スケールの3次元特徴情報と現在スケールの2次元特徴情報に対して特徴融合を行い、現在スケールの融合特徴情報を取得するステップを含むことができ、前記現在スケールの3次元特徴情報は、以前スケールの融合特徴情報及び前記以前スケールの3次元特徴情報に応じて決定され、前記現在スケールの2次元特徴情報は以前スケールの2次元特徴情報に応じて決定される。
【0007】
選択的に、前記融合特徴情報を取得するステップは、前記3次元特徴情報に応じてポイントクラウドボクセル特徴情報及び/又はボクセル位置特徴情報を取得するステップと、前記2次元特徴情報に応じて第1イメージボクセル特徴情報を取得するステップと、前記アテンションメカニズムに基づいて、前記ポイントクラウドボクセル特徴情報、ボクセル位置特徴情報及び/又は前記第1イメージボクセル特徴情報に応じて特徴を融合して融合特徴情報を取得するステップとを含むことができる。
【0008】
選択的に、前記アテンションメカニズムに基づいて、前記ポイントクラウドボクセル特徴情報、前記ボクセル位置特徴情報及び/又は前記第1イメージボクセル特徴情報に応じて前記特徴を融合して前記融合特徴情報を取得するステップは、前記第1イメージボクセル特徴情報、及び前記アテンションメカニズムに基づいて前記ボクセル位置特徴情報、前記ポイントクラウドボクセル特徴情報及び前記第1イメージボクセル特徴情報を処理した後出力される特徴情報に対して、交差アテンションメカニズムを介して特徴を融合し前記融合特徴情報を取得するステップと、前記第1イメージボクセル特徴情報及び前記アテンションメカニズムに基づいて、前記ポイントクラウドボクセル特徴情報を処理した後出力される前記特徴情報に対して、前記交差アテンションメカニズムを介して特徴を融合し前記融合特徴情報を取得するステップと、前記第1イメージボクセル特徴情報及び前記交差アテンションメカニズムに基づいて、前記ポイントクラウドボクセル特徴情報を処理した後出力される前記特徴情報に対して、セルフアテンションメカニズムを介して特徴を融合し前記融合特徴情報を取得するステップと、又は、前記セルフアテンションメカニズムに基づいて前記第1イメージボクセル特徴情報を処理した後出力される特徴情報、及び前記交差アテンションメカニズムに基づいて前記ポイントクラウドボクセル特徴情報及び前記第1イメージボクセル特徴情報を処理した後出力される前記特徴情報に対して、特徴を融合して前記融合特徴情報を取得するステップとのいずれか1つを含むことができる。
【0009】
選択的に、前記融合特徴情報に基づいてイメージ処理を行うステップは、前記融合特徴情報に基づいてポーズ推定及び/又はサイズ推定を行うステップと、又は、前記融合特徴情報に基づいて形状再構成及び/又は分割を行うステップのうち少なくとも1つ以上を含むことができる。
【0010】
選択的に、前記融合特徴情報に基づいて前記形状再構成及び/又は分割を行うステップは、前記形状再構成及び/又は分割を行って形状情報及び/又は分割情報を取得するステップを含むことができる。
【0011】
一実施形態に係るイメージ処理装置は、カラーイメージ及び深度イメージに基づいて3次元特徴情報及び2次元特徴情報を取得するように構成された取得モジュールと、アテンションメカニズムに基づいて、前記3次元特徴情報と前記2次元特徴情報を融合して融合特徴情報を取得するように構成された融合モジュールと、前記融合特徴情報に基づいてイメージ処理を行うように構成された処理モジュールとを含む。
【0012】
一実施形態に係る電子装置は、1つ以上のプロセッサと、前記1つ以上のプロセッサによって実行されるように構成され、前述した方法のいずれか1つの方法を実行するように構成される1つ以上のコンピュータプログラムを格納するメモリとを含む。
【0013】
一実施形態によると、コンピュータ上で実行されるとき、コンピュータが前述した方法のいずれか1つの方法を実行させるコンピュータ命令を格納するコンピュータ可読記憶媒体が提供される。
【発明の効果】
【0014】
本開示は、入力イメージに対して、まず、入力イメージのカラーイメージ及び深度イメージに基づいて3次元特徴情報及び2次元特徴情報を取得し、3次元特徴情報及び2次元特徴情報を特徴融合した後に融合特徴情報を取得することができ、ここで、特徴融合は、アテンションメカニズムによって実現される。また、融合特徴情報に基づいてイメージを処理する。本開示は、特徴融合を介してマルチモダリティの融合特徴情報を取得し、これによってマルチモダリティ情報に基づいたイメージ処理を実現し、単一モダリティ情報に基づいたイメージ処理と比較するとき、イメージ処理の正確度を向上することができる。また、拡張現実(Augmented Realtity)などの用途(applications)において、3次元情報を認識する能力が向上するため、システムの処理効率性及び堅固性が向上される。
【図面の簡単な説明】
【0015】
図1】一実施形態に係るイメージ処理方法における例示的なフロー図である。
図2】一実施形態に係るイメージ処理方法におけるフローブロック図である。
図3A】一実施形態に係るカラーイメージ及び深度イメージのカテゴリーレベルに基づいたオブジェクト6Dポーズ及びサイズ推定方法におけるフローブロック図である。
図3B】一実施形態に係るカラーイメージ及び深度イメージに基づいたイメージ処理方法のフローブロック図である。
図3C】一実施形態に係るARF-Netのブロック図である。
図3D】一実施形態に係るさらに他のARF-Netのブロック図である。
図4】一実施形態に係るアテンションメカニズムのマルチスケール融合に基づいたオブジェクトポーズ推定方法におけるフローブロック図である。
図5】一実施形態に係るアテンションメカニズムに基づいた深度特徴融合方法におけるフローブロック図である。
図6】一実施形態に係るアテンションメカニズムの設計ブロック図である。
図7】一実施形態に係るアテンションメカニズムの設計ブロック図である。
図8】一実施形態に係るアテンションメカニズムの設計ブロック図である。
図9】一実施形態に係るマルチモダリティ(modality)融合を結合した終端間(between ends)オブジェクトポーズ推定方法におけるフローブロック図である。
図10】一実施形態に係る連合オブジェクト形状再構成及び分割作業のためのポーズ推定方法におけるフローブロック図である。
図11A】一実施形態に係る動作環境の概略図である。
図11B】一実施形態に係る入力イメージの概略図である。
図11C】一実施形態に係るイメージ処理結果の概略図である。
図12】一実施形態に係るイメージ処理装置の構造概略図である。
図13】一実施形態に係る電子装置の構造概略図である。
【発明を実施するための形態】
【0016】
実施形態に対する特定な構造的又は機能的な説明は単なる例示のための目的として開示されたものであって、様々な形態に変更されることができる。したがって、実施形態は特定の開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物ないし代替物を含む。
【0017】
第1又は第2などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は1つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、「第1構成要素」は「第2構成要素」に命名することができ、同様に、「第2構成要素」は「第1構成要素」にも命名することができる。
【0018】
いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。
【0019】
単数の表現は文脈上、明白に異なる意味を有しない限り複数の表現を含む。本開示において、「含む」又は「有する」などの用語は、説明された特徴、数字、段階、動作、構成要素、部分又はこれを組み合わせたものが存在するものと指定しようとするものであり、1つまたはそれ以上の他の特徴や数字、段階、動作、構成要素、部分又はこれを組み合わせたものの存在又は付加可能性を予め排除しないものと理解されなければならない。
【0020】
本明細書において使用される単数形「一」、「1つ」、「前記」及び「該当」は、特に言及されない限り複数型も含むことは当業者にとって自明である。本出願の実施形態で使用されている「含む」及び「含有する」という用語は、対応する特徴が提示された特徴、情報、データ、ステップ、動作、要素及び/又は構成要素として実現され得ることを意味し、本技術分野で支援する他の特徴、情報、データ、ステップ、動作、要素、構成要素及び/又はこれの組み合せなどを排除しない。いずれかの要素が他の要素に「接続」されたり「結合」されたとき、該当1つの要素は、他の要素に直接接続されたり結合され、該当1つの要素及び他の要素が中間要素を介して接続関係が構成されてもよい。また、本明細書において、「接続」又は「結合」は、無線接続又は無線結合を含んでもよい。本明細書において、「及び/又は」の用語は、該当用語が定義している項目のうち少なくとも1つを示し、例えば、「A及び/又はB」は「A」に実現、又は「A及びB」に実現されることを示す。
【0021】
異なるように定義さがれない限り、技術的又は科学的な用語を含み、ここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈されなければならず、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
【0022】
人工知能(AI)は、デジタルコンピュータ又はデジタルコンピュータで制御される機械を用いてヒト知能をシミュレーション、延長及び拡張し、環境を認識し、知識を取得し、知識を用いて最上の結果を取得する理論、方法、技術、及び応用システムである。即ち、人工知能は、知能の本質を理解してヒトの知能と同様に反応できる新しい知能機械を生産しようとするコンピュータ科学の総合技術である。人工知能は、様々な知能型機械の設計原理及び実現方法を研究して機械が認識、推論、及び意思決定の機能を有するようにすることである。
【0023】
人工知能技術は、ハードウェアの側面の技術とソフトウェアの側面の技術の全てを含む広範囲な分野を含む包括的な分野である。人工知能の基本技術には、一般に、センサ、特殊の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理技術、運営/相互作用システム、電子機械統合などのような技術が含まれる。人工知能ソフトウェア技術は、主にコンピュータビジョン技術、音声処理技術、自然語処理技術、及び機械学習/ディープラーニングなどを含む。本開示は、コンピュータビジョン技術に関するものである。
【0024】
コンピュータビジョン(CV)は、機械が「見る」方法を研究する科学であって、より具体的に、人の目の代わりに、カメラとコンピュータを用いて対象(object:オブジェクト)を認識、追跡、及び測定し、追加グラフィック処理を介してコンピュータ処理が人の目が観察したり検出用機器に送信するのに更に適したイメージにすることである。コンピュータビジョンは、科学分野として関連理論及び技術を研究してイメージや多次元データで情報を取得できる人工知能システムを構築しようとする。コンピュータビジョン技術には、一般にイメージ処理、イメージ認識、イメージ意味論的理解、イメージ検索、OCR、ビデオ処理、ビデオ意味論的理解、ビデオコンテンツ/行動認識、3Dオブジェクト再構成、3D技術、仮想現実、拡張現実、同時ポジショニング(Simultaneous positioning)及び地図構築、自律走行、スマート交通などという技術を含み、顔認識及び指紋認識のような一般的な生体認識技術も含むことができる。
【0025】
具体的に、実施形態で提供するイメージ処理方法及び装置は、拡張現実(AR)、イメージ処理、イメージ認識、オブジェクト認識、イメージ分割、及び6Dポーズ推定などのような例示的なシナリオに適用される。一例として、拡張現実シナリオにおいて、一般に、ユーザの前の実際のシナリオに仮想コンテンツを追加してユーザに実際のシナリオ経験を提供する。3次元空間で拡張現実技術を基盤とするシステム処理を実現するために、ユーザの前で高品質のバーチャルリアリティ融合効果を見せるために、周辺事物の3次元状態に対する高精密リアルタイム処理及び理解が要求される。
【0026】
通常、単一モダリティのイメージデータのみをイメージ処理に使用している。例えば、深度イメージのみが6Dポーズ推定に使用されている一方、RGBイメージはオブジェクト検出にのみ使用されている。このような方法は、センサノイズ、物体が遮られるなどのようなイメージ処理に一定の制限が伴い、これによって予測されたポーズ(pose:姿勢)がぼやけることがある。また、イメージ処理でクラス内の形状変更は、しばしばオブジェクトの不正確な予測及びポジショニング(位置付け)につながる。
【0027】
本開示は、イメージ処理方法、装置、電子装置、及びコンピュータ可読記憶媒体を提供し、具体的に、イメージ処理のためのカラー及び深度情報を含むイメージを入力することによって、拡張現実などの用途でシステムの効率性及び堅固性を向上することができる。また、カラー特徴及び深度特徴を同時に融合すれば、3次元情報に対するモデルの認識能力を向上させることができ、クラスレベルオブジェクトの形状及びサイズ変更をより円満に処理することができる。
【0028】
図1及び図2は、イメージ処理方法の一例を示す。図1は、一実施形態に係るイメージ処理方法における例示的なフロー図であり、図2は、一実施形態に係るイメージ処理方法におけるフローブロック図である。一実施形態に係る方法は、任意の電子装置で実行することができる。図11Aに示すように、任意の電子装置は、ユーザ端末100又はサーバ200である。ユーザ端末100は、スマートフォン、タブレットコンピュータ、ノート型パソコン、デスクトップコンピュータ、スマートスピーカ、スマートウォッチ、自動車搭載装置、AR装置などを含んでもよい。サーバ200は、独立的な物理的サーバや様々な物理的サーバから構成されたサーバクラスタ又は分散システムであってもよく、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド機能、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメインネームサービス、セキュリティーサービス、CDN(Content Deliver Network)及びビッグデータと人工知能プラットフォームなどのような基本クラウドコンピューティングサービスを提供するクラウドサーバであってもよく、これに制限されることはない。ユーザ端末100とサーバ200は互いに通信することができる。
【0029】
具体的に、図1に示すように、一実施形態に係るイメージ処理方法は、ステップS101~S103を含むことができる。
【0030】
ステップS101:カラーイメージ及び深度イメージに基づいて3次元特徴情報及び2次元特徴情報を取得する。
【0031】
具体的に、カラーイメージ及び深度イメージは、入力された1つのイメージに含まれている深度情報及びカラー情報にそれぞれ対応するイメージであってもよい。入力されたイメージは、カラーイメージ(RGBイメージ)と深度(depth)イメージが重複(RGB-Dイメージ)されたようなカラーのある深度イメージであり、グレースケールイメージと深度イメージが重なったものであってもよい。ここで、入力イメージは、図11Bのように示すことができる。
【0032】
3次元特徴情報は、図3Bに示すように、RGB-Dイメージから抽出されたり、深度イメージに基づいて抽出され、2次元特徴情報は、図3Bに示すように、RGB-Dイメージから抽出されたり、カラーイメージ又はグレースケールイメージに基づいて抽出されることができる。例えば、図3Aに示すように、入力されたイメージは、オブジェクト検出器によってオブジェクト検出されてオブジェクト領域を取得し、オブジェクトを含むカラーイメージ及び深度イメージは、該当オブジェクト領域に対する深度及びカラーイメージをクリッピング(clipping)して取得することができ、例えば、図3Aのポイントクラウドデータ及びRGB-Dを引き起こす。一例として、図3Bに示すように、このようなオブジェクト検出に基づいたポイントクラウドデータ及び向上されたRGB-Dは、提供されたRGB-Dイメージから抽出されることができる。
イメージ特徴を抽出するために、特徴抽出プロセッサは、特徴抽出モデル/ネットワークの下位レイヤから特徴抽出モデル/ネットワークの上位レイヤに特徴を抽出する。一例として、このような下位レイヤ及び上位レイヤの抽出特徴は、ここで説明されるマルチスケールアテンション基盤の融合ネットワーク/モデルによって同時に使用され得る。
【0033】
図11Bに示すように、特徴抽出ネットワークの下位レイヤから抽出された特徴は、図示されたテーブルの輪郭(contour)特徴、例えば、エッジ(edge)であってもよい。特徴抽出ネットワークが次第に深くなることによって抽出された特徴はテーブルの脚及びテーブルの引き出しのような、さらに高レベルの特徴情報であってもよい。他のスケールの特徴は、ネットワークの他のスケールから抽出された特徴を指す。一例として、このような他のスケールは、それぞれ個別的な互いに異なる受信(receptive)フィールドサイズの各フィルタリング結果に対応する。例えば、それぞれのフィルタリング結果は、対応する最初の畳み込みレイヤから対応する最終の畳み込みレイヤまでのような、対応する最終の特徴フィルタリングレイヤに対する特徴抽出ネットワーク/モデルの初期の特徴フィルタリングにより、大型又は全体イメージの受信サイズから小型又は単一ピクセルの受信サイズまでである。様々な例において、イメージ特徴が抽出されれば、1つのスケールの3次元特徴情報及び2次元特徴情報が処理されたり、マルチスケールの3次元特徴情報及び2次元特徴情報が処理されてもよい。
【0034】
ステップS102:アテンションメカニズムに基づいて前記3次元特徴情報と前記2次元特徴情報を融合して融合特徴情報を取得する。
【0035】
特徴情報融合処理は、イメージから抽出した単一モダリティ特徴を入力特徴よりも弁別力の高い(discriminative)マルチモダリティ特徴で合併するものである。一実施形態において、アテンションメカニズムを採択して3次元特徴情報と2次元特徴情報の融合を実現する。3次元特徴情報と2次元特徴情報を融合した後に取得される融合特徴情報において、特徴間の相補性は、単一モダリティ特徴の固有な欠陥(defects)の影響を減らし得る。
【0036】
選択的に、マルチスケールの3次元特徴情報及び2次元特徴情報が抽出されるとき、融合によって取得された融合特徴情報は、マルチスケール融合の特徴情報であってもよい。
【0037】
ステップS103:前記融合特徴情報に基づいてイメージ処理を行う。
【0038】
具体的に、融合特徴情報を基盤とするイメージ処理は、正確な3次元モデルがない場合、イメージ処理を行うことが困難であるため、実際に複雑な応用シナリオ(一側において、実際のシナリオで正確なAR相互作用を行うために知られたオブジェクトが必要でないモデルのRGB-Dデータを使用できる)に円満に対処することができる。図11Cに示すように、一実施形態に係るイメージ処理方法によってイメージ処理後取得された結果イメージは、該当の結果イメージに基づいて拡張現実システムでレンダリングされた仮想オブジェクトを制御することができるため、実際のオブジェクトと仮想オブジェクトが実際的でナチュラルな相互作用を行うことができる。
【0039】
本開示によれば、3次元特徴と2次元特徴の融合を最大に活用してコンピューティングストレージリソースとエネルギー消費の制限されたモバイルプラットフォームにおいて効率的な処理能力を有し、3Dオブジェクト処理及び理解の側面においても、正確性及び堅固性に対する要求事項を充足することができる。
【0040】
一実施形態に係るイメージ処理方法に適応するために、トランスフォーマー(transformer)メカニズムを用いてマルチモダリティ情報を融合できるARF-Net(Attention-guided RGB-D Fusion Net)が提案される。具体的に、ARF-Netは、アテンションメカニズムを介して2次元特徴(RGBイメージから抽出した外見特徴(apparent features))と3次元特徴(深度イメージ又はポイントクラウドから抽出した3次元特徴)を適応的に融合でき構造的な特徴を探索し、互いに異なるインスタンスの形状を区別することができる。一実施形態に係るARFネットワークは、RGB特徴とポイントクラウド特徴を融合し、様々な特徴抽出器の性能を向上させることができる。
【0041】
以下、入力イメージに基づいて3次元特徴情報及び2次元特徴情報を取得する過程について説明する。
【0042】
一実施形態において、ステップS101のうち、入力イメージの少なくとも1つのスケールの3次元特徴情報及び2次元特徴情報を取得するステップは、次のステップA1及びA2を含むことができる。
【0043】
ステップA1:入力された深度イメージを3次元空間のポイントクラウド特徴情報に変換し、ポイントクラウド特徴情報に基づいてエンコーディングして少なくとも1つのスケールの3次元特徴情報を取得する。
【0044】
具体的に、図3Aに示すように、カメラ内部パラメータと結合された(又は、これに依存する)深度イメージは、3次元空間のポイントクラウド特徴情報(「ポイントクラウドデータ」ともいう)に変換され、さらに、ポイントクラウド特徴情報を3次元特徴エンコーダの入力として使用し、3次元特徴エンコーダの処理を介して3次元特徴情報を取得することができる。
【0045】
そのうち、3次元特徴情報は、MLP(Multi-layer Perceptual Network)エンコーダ、3Dボクセルネットワークのような3次元特徴抽出ネットワーク(3D特徴エンコーダ)を用いて取得することができ、各点に該当する3次元特徴ベクトルを抽出することができる。3次元特徴抽出ネットワークは、3次元空間で深度イメージの3次元構造的な特徴を抽出する。一例では、MLPネットワークエンコーダは、完全接続フィードフォワード(feedforward)ネットワークを含んでもよい。
【0046】
ステップA2:入力されたカラーイメージ又はカラー深度イメージに基づいてエンコーディングし、少なくとも1つのスケールの2次元特徴情報を取得する。
【0047】
具体的に、図3Aに示すように、カラーイメージ、グレースケールイメージ、カラー深度イメージ、グレースケール深度イメージトンのうちの1つを2次元コード特徴エンコーダの入力として使用し、2次元コード特徴エンコーダの処理を介して2次元特徴情報を取得することができる。2次元コード特徴エンコーダは、深度畳み込み神経網において実現され、入力イメージの2次元外見特徴は2次元コード特徴エンコーダに抽出することができる。
【0048】
一実施形態において、整列されたRGB-Dシナリオである場合、RGB-Dイメージは取得されたり、演算装置に付着されたり、一部のカメラによって生成されて提供されてもよい。インスタンス分割方法を用いてオブジェクトインスタンスを検出し分割することができる。オブジェクト境界ボックスによって切られたインスタンスのRGBイメージにより、マスクされた深度情報及びカメラ内部パラメータで算出されたインスタンスのポイントクラウドデータのデータの対は、ARFネットワークの入力として使用される。図3C及び図3Dに示すように、ARF-Netは、まず、畳み込み神経網(RGBネットワーク)を用いてRGB特徴を抽出し、ポイントクラウド特徴ネットワーク(point cloud featurenetwork)を用いてポイントクラウド特徴を抽出する。この2種類のモダリティの特徴をARF(Attention-guided RGB-D fusion module)を介して融合し、オブジェクトの標準形状に対するネットワークの学習能力をより向上させる。融合モジュールに基づいてオブジェクトの外観特徴をオブジェクトの幾何学的な特徴に適応的に融合することができる。形状デコーディングステップにおいて、MLP基盤のデコーダを用いて融合特徴を入力として使用するNOCS(Normalized Object Coordinate Space)を再構成できる。Umeyamaアルゴリズムのような類似性変換を用いて予測されたNOCS座標を観測点と一致させることで、オブジェクトの6Dポーズとサイズを取得することができる。
【0049】
以下、特徴融合の処理過程について詳細に説明する。
【0050】
図3Aに示すように、一実施形態は、3次元特徴エンコーダによって抽出された3次元特徴情報と2次元特徴エンコーダによって抽出された2次元特徴情報をアテンションメカニズム基盤のマルチスケール融合モデルに入力して特徴融合を実現することができ、融合特徴情報を出力することができる。一実施形態において、アテンションメカニズムに基づいて、少なくとも1つのスケールの3次元特徴情報と少なくとも1つのスケールの2次元特徴情報を融合して融合特徴情報を取得することができる。
【0051】
一実施形態において、図4に示すように、ステップS102におけるアテンションメカニズムに基づいて前記3次元特徴情報及び2次元特徴情報を融合し融合特徴情報を取得するステップは、ステップB1を含む。
【0052】
ステップB1:任意のスケールの3次元特徴情報及び2次元特徴情報に対して次の作業を行う。アテンションメカニズムに基づいて現在(current)スケールの3次元特徴情報と現在スケールの2次元特徴情報を特徴融合し、融合特徴情報を取得する。
【0053】
現在スケールの3次元特徴情報は、以前(previous)スケールの融合特徴情報と以前スケールの3次元特徴情報に応じて決定され、現在スケールの2次元特徴情報は、以前スケールの2次元特徴情報に応じて決定される。
【0054】
具体的に、マルチスケールの特徴融合は、それぞれ互いに異なるスケールで抽出された3次元特徴情報と2次元特徴情報の融合である。アテンションメカニズムに基づいた融合方式を採択し、マルチスケールの融合は、カスケード方式、例えば、互いに異なるスケールアテンションメカニズム基盤の融合モデルに実現することができる。選択的に、各スケールの融合後の特徴は、以前スケールの3次元特徴情報とスプライシングされた後、次のスケールの3次元特徴エンコーダの入力として使用でき、以前スケールの2次元特徴情報は、次のスケールの2次元特徴エンコーダの入力として使用されることができる。
【0055】
図4に示された3つのスケールの融合方式を例に挙げて説明する。
【0056】
スケール1の場合、ポイントクラウドデータに基づいて該当スケールにおける第1の3次元特徴情報を抽出し、カラーイメージに基づいて該当スケールにおける第1の2次元特徴情報を抽出し、アテンションメカニズム基盤の融合モデル1を用いて第1の3次元特徴情報及び第1の2次元特徴情報を融合することで第1融合特徴情報を取得することができる。
【0057】
スケール2の場合、第1の3次元特徴情報及び第1融合特徴情報に基づいて、該当スケールにおける第2の3次元特徴情報を取得し、第1の2次元特徴情報に基づいて該当スケールにおける第2の2次元特徴情報を取得し、アテンションメカニズム基盤の融合モデル2を用いて第2の3次元特徴情報及び第2の2次元特徴情報を融合することで、第2融合特徴情報を取得することができる。
【0058】
スケール3の場合、第2の3次元特徴情報及び第2融合情報に基づいて取得した該当スケールにおける第2の3次元特徴情報を抽出し、第2の2次元特徴情報に基づいて取得した該当スケールにおける第3の2次元特徴情報を抽出し、第2の2次元特徴情報に基づいて取得した該当スケールにおける第3の2次元特徴情報を抽出し、アテンションメカニズム基盤の融合モデル3を用いて第3の3次元特徴情報及び第3の2次元特徴情報を融合することで、第3融合特徴情報(すなわち、最終取得した融合特徴)を取得することができる。
【0059】
一実施形態において、ステップS102のうち、アテンションメカニズムに基づいて3次元特徴情報と2次元特徴情報を融合して融合特徴情報を取得するステップは、次のステップB2~B4を含む。
【0060】
ステップB2:前記3次元特徴情報に応じてポイントクラウドボクセル特徴情報及び/又はボクセル位置特徴情報を取得する。
【0061】
具体的に、3次元特徴情報を直接ボクセル化してポイントクラウドボクセル特徴情報に変換することができる。
【0062】
図5に示すように、3次元特徴情報がボクセル特徴であるか否かを先に判断する。3次元特徴情報がボクセル特徴である場合、ボクセル化の後、ボクセル特徴コーディングを介してボクセル位置特徴情報及びポイントクラウドボクセル特徴情報を取得する。3次元特徴情報がボクセル特徴でない場合、3次元特徴情報に基づいて、ボクセル位置特徴情報及びポイントクラウドボクセル特徴情報に直接変換する。ここで、ボクセル(voxel)は、ボリュームピクセル(volume pixel)の略字である。ボクセル化(Voxelization)は、オブジェクトの幾何学的な表現を該当オブジェクトに最も近いボクセル表現に変換することを意味する。
【0063】
ステップB3:前記2次元特徴情報に応じて第1イメージのボクセル特徴情報を取得する。
【0064】
具体的に、RGB-Dイメージは整列されているため、イメージピクセルとポイントクラウドの3次元ポイントは1対1の位置関係を有する。これに基づいて、知られている2D-3Dの位置関係を介してポイントクラウドと一致するボクセル空間に2次元特徴情報(イメージ特徴)を投影することで、イメージボクセル特徴情報を取得することができる。
【0065】
ステップB4:アテンションメカニズムに基づいて前記ポイントクラウドボクセル特徴情報、ボクセル位置特徴情報、及び/又は第1イメージボクセル特徴情報に応じて特徴を融合して融合特徴情報を取得する。
【0066】
具体的に、ポイントクラウドボクセル特徴情報、第1イメージボクセル特徴情報、及びボクセル位置特徴情報をアテンションモジュールの入力として用いて、アテンションメカニズムを介して特徴情報の融合処理を実現することができる。
【0067】
一実施形態において、RGBの外観特徴とポイントクラウドの幾何学的な特徴を考慮し、一実施形態に係るARF-Netは、交差アテンションモジュールを用いてRGB特徴とポイントクラウド特徴との間の相関関係を設定する。例えば、交差アテンションモデルは、交差モダリティの関係算出を介して代表的な外見特徴を適応的に選択し、該当ポイントクラウド特徴を向上させることができる。ARF-Netは、セルフアテンションモデルを用いてオブジェクトポイントクラウド間の内部空間関係を抽出してローカルオブジェクト間の全域空間構造関係を説明する。
【0068】
具体的に、融合モジュールにおいて、セルフアテンションを有する構造的知覚幾何学的な特徴を取得した後、交差アテンションを有する関係型融合RGB特徴を取得することができる。該当融合モジュールは、単独又は数個を重なって使用してもよい。
【0069】
構造認知のポイントクラウド特徴の場合、セルフアテンションモデルを用いてポイントクラウド間の従属性(dependency)を設定する。マルチスケールのポイントクラウド特徴を収集するために、下位レベルのマルチスケールポイントクラウド特徴を同じ解像度でアップサンプリングし、特徴スプライシングを行う。図3C及び図3Dに示されたように、マルチスケールの特徴がスプライシングされた後、マルチレイヤーパーセプトロン(perceptron)を用いて特徴次元を固定された特徴次元に圧縮する。MLPは、図5に順方向特徴抽出ネットワーク/モデルとして図示されている。一例として、MLPは、完全接続フィードフォワードネットワークを含んでもよい。
【0070】
ここで、セルフアテンションモデルは、ポイントクラウド特徴を入力として用いて線型作業を介して突出部を実行し、クエリ、キー、及び値を生成することができる。例えば、セルフアテンションモデルは、クエリキーバリュー(Qeury-Key-Value;QKV)アテンションモデルであってもよく、これは、下記の数式(1)~(4)のように表現される。
【数1】
【数2】
【数3】
【数4】
ここで、mはアテンションヘッドの数量であり、マルチヘッドセルフアテンションモデルの例として融合モデルにおいて、並列算出アテンション作業を行う。各ヘッドにおいて、アテンションマップAは、投影された埋め込み空間の各ローカル特徴間に算出され、アテンションマップにV(値)を乗算して対応するインスタンスの向上したポイントクラウド特徴、例えば、それぞれのヘッドポイントクラウドFp(1-m)を取得する。各ヘッドポイントクラウドFp(1-m)で各ヘッドの特徴を連結し、オブジェクト構造Fを包括的にモデリングする。
【0071】
softmax()は活性化関数、Qはクエリベクトルであり、
【数5】
はキーベクトル、Vは値ベクトル、WQm、WKm及びWVmはそれぞれクエリベクトル、キーベクトル及び値ベクトルの加重値係数である。T及びdはアテンション算出に関する決定された又は予め決定されたパラメータである。一例として、softmax()は、セルフアテンションモデルの活性化関数として具現化されることができる。例えば、対応するsoftmax()関数は、交差アテンションモデルの活性化関数として具現化されてもよい。一例において、オブジェクト構造Fが与えられれば、マルチヘッドセルフアテンションモデルは、例えば、図3Dに示す加算及び標準レイターネットワークに表示され、セルフアテンションモデル/ネットワークに後続する平均化(normalization)レイヤを含むことができる。
【0072】
関係認識のRGB特徴に対して3次元表現を向上させるために、該当ポイントクラウドの相対RGB特徴を適応的に選択することを考慮する。RGB-Dイメージが整列されるため、各ポイントに該当するRGB特徴は、オブジェクトのポイント位置を観察して取得することができる。RGB特徴とポイントクラウド特徴との間の相関性モデルを設定するとき、同様にマルチヘッドアテンション方式を採択して実現する。例えば、3Dポイントクラウドを用いて低レベルのマルチスケールのピクセルレベルのRGB特徴をポイントレベルでサンプリングすることができ、その後、マルチスケール特徴をスプライシングしてから共有されたマルチレイヤパーセプトロンを適用して前記ポイントクラウド特徴と同じ特徴次元に圧縮する。ポイントが希薄であるため、隣接ピクセルでコンテキストキューを採択するとき、各ピクセルのRGB特徴マップに最大プーリング演算を用いて、aggregation作業前にコンテキスト特徴をaggregationする。例えば、交差アテンションモデルはFを生成し、下記の数式(5)のように表現される。
【数6】
【0073】
そのうち、マルチヘッド交差アテンション作業は、前記で説明したセルフアテンション算出に類似しているが、ポイントレベルのRGB特徴Fをキー(key)と値(value)として使用し、交差アテンションモデルに対するポイントクラウド特徴Fをクエリ(query)として用いて入力が若干異なる。
【0074】
交差アテンション作業で学習されたアテンションの各要素は、i番目のポイントの外観特徴とj番目のポイントの幾何学的な特徴の間の関係点数を示す。相関関係が高いほど、特定ポイントに該当する外観特徴の寄与度が大きくなることを意味する。従って、学習された相関性は、重要な外観特徴を強調して表示する指示子(indication)として使用される。改善されたF及びFをスプライシングした後、線型変換レイヤから構成されたフィードフォワードネットワーク(FFN)に供給することで、オブジェクトインスタンスの完全なマルチモダリティ特徴を取得する。一例として、フィードフォワードネットワークは完全接続レイヤであってもよい。一例として、オブジェクト構造の予測ポイントクラウドは、下記の数式(6)から取得できる。
【数7】
一例において、
【数8】
は、フィードフォワードネットワークの結果の平均化、すなわち、交差アテンションモデルに後続するフィードフォワードネットワークの結果が与えられれば、図3Dに示す加算及び標準レイヤから取得されることができる。
【0075】
一実施形態において、2つのマルチアテンションモデルを用いてポイント及びRGB特徴から3D特徴を抽出する。RGB-D融合モジュールによる特徴融合の処理は、豊か(リッチ)な意味論的な外観特徴を有する幾何学的な特徴を向上させるだけでなく、全域(grobal)構造情報も探索する。このような方式で、ネットワークは、ローカル及びグローバルマルチモダリティ情報を活用して幾何学的表現の学習を改善し、正確なポーズ推定を実現することができる。
【0076】
具体的に、ステップB4において、アテンションメカニズムに基づいて、前記ポイントクラウドボクセル特徴情報、ボクセル位置特徴情報、及び/又は第1イメージボクセル特徴情報に応じて特徴を融合して融合特徴情報を取得するが、このとき、下記のステップB41~B44のうち1つを含むことができる。
【0077】
ステップB41:前記第1イメージボクセル特徴情報及びアテンションメカニズムに基づいて前記ボクセル位置特徴情報、ポイントクラウドボクセル特徴情報、及び第1イメージボクセル特徴情報を処理した後出力される特徴情報に対して、交差アテンションメカニズムを介して特徴を融合し融合特徴情報を取得する。
【0078】
具体的に、図5に示すように、セルフアテンションモデルは、ポイントクラウドボクセル特徴情報と第1イメージボクセル特徴情報をスプライシングした後の特徴情報とボクセル位置特徴情報を入力として受け取り、処理された特徴情報を交差アテンションモデルに出力する。交差アテンションモデルは、アテンションモデルから出力された特徴情報と第1イメージボクセル特徴を入力として受け取る。
【0079】
選択的に、交差アテンションモデルが入力を融合した後、融合した特徴は、処理のために順方向特徴抽出ネットワークに入力され、融合特徴情報が出力される。
【0080】
ステップB42:前記第1イメージボクセル特徴情報及びアテンションメカニズムに基づいて前記ポイントクラウドボクセル特徴情報を処理した後出力される特徴情報に対して、交差アテンションメカニズムを介して特徴を融合し融合特徴情報を取得する。
【0081】
具体的に、図6に示すように、セルフアテンションモデルは、ポイントクラウドボクセル特徴を入力として受け取り、処理された特徴情報を交差アテンションモデルに出力する。交差アテンションモデルは、アテンションモデルに出力された特徴情報と第1イメージボクセル特徴を入力として受け取る。
【0082】
選択的に、交差アテンションモデルの出力は、順方向(forward)特徴抽出ネットワークに入力され、最終的に融合特徴情報を出力する。
【0083】
ステップB43:前記第1イメージボクセル特徴情報及び交差アテンションメカニズムに基づいて前記ポイントクラウドボクセル特徴情報を処理した後出力される特徴情報に対して、セルフアテンションメカニズムを介して特徴を融合することで融合特徴情報を取得する。
【0084】
具体的に、図7に示すように、交差アテンションモデルは、ポイントクラウドボクセル特徴を入力として受け取り、処理された特徴情報をセルフアテンションモデル/ネットワークに出力する。セルフアテンションモデルは、交差アテンションモデルに出力された特徴情報と第1イメージボクセル特徴を入力として受け取る。
【0085】
選択的に、アテンションモデルの出力は、順方向特徴抽出モデル/ネットワークに入力される。一例において、順方向特徴抽出モデル/ネットワークは、完全接続フィードフォワードモデルを含み、最終的に融合特徴情報が出力される。
【0086】
ステップB44:セルフアテンションメカニズムに基づいて前記第1イメージボクセル特徴情報を処理した後出力される特徴情報、及び交差アテンションメカニズムに基づいて前記ポイントクラウドボクセル特徴情報及び第1イメージボクセル特徴情報を処理した後出力される特徴情報に対して、特徴を融合することで融合特徴情報を取得する。
【0087】
具体的に、図8に示すように、交差アテンションモデルは、ポイントクラウドボクセル特徴と第1イメージボクセル特徴を入力として受け取り、セルフアテンションモデルは、第1イメージボクセル特徴を入力として受け取る。
【0088】
選択的に、交差アテンションモデルに出力された特徴情報とアテンションモデルに出力された特徴情報は、特徴スプライシングされた後順方向特徴抽出ネットワークに入力され、最終的に融合特徴情報を出力する。
【0089】
交差アテンションモデルは、それぞれキー(key)又はクエリ(query)で処理できる2種類の入力特徴がある。選択的に、2つのアテンションモデルの特徴マッピング方法はMLP方法を採択し、ボクセル間の構造的情報をモデリングするためにグラフ畳み込み基盤方法を採択してもよい。一例として、MLP方法は、完全接続フィードフォワードレイヤを含んでもよい。N個のアテンションモデル(すなわち、交差アテンション及びセルフアテンションモデルそれぞれ)が処理され、融合した3次元特徴(融合特徴情報)は順方向特徴抽出モデル/ネットワークを介して出力され、イメージ処理モジュール(予測(prediction)モジュールともいう)の特徴入力として使用することができる。
【0090】
以下、一実施形態に係るイメージ処理方法を詳細に説明する。
【0091】
一実施形態において、ステップS103で、前記融合特徴情報に基づいてイメージ処理を行うステップは、以下のステップC1~C2のうち少なくとも1つを含むことができる。
【0092】
ステップC1:前記融合特徴情報に基づいてポーズ推定及び/又はサイズ推定を行う。
【0093】
具体的に、ポーズ推定のために3次元対象オブジェクトの方向を決定する。一実施形態において、融合特徴情報に基づいてオブジェクトの構造及び形状を特徴化し、オブジェクト特徴を抽出してモデルとイメージ間の対応関係を設定し、オブジェクトの空間的ポーズ推定を実現する。ポーズ推定の後、3次元回転及び3次元並進のような6自由度ポーズを出力することができる。
【0094】
具体的に、サイズ推定は、オブジェクトの実際のサイズを推定するために使用される。サイズ推定後に物体の3次元サイズを出力する。
【0095】
図11Cに示すように、ポーズ推定及びサイズ推定後の効果表示図である。
【0096】
選択的に、ポーズ推定及び/又はサイズ推定を行うとき、融合特徴情報に基づいた処理の他に、3次元空間を円満に認知するために3次元特徴情報と結合して処理してもよい。
【0097】
ステップC2:前記融合特徴情報に基づいて形状再構成及び/又は分割を行う。
【0098】
具体的に、形状再構成及び分割は、形状デコーダによって実行される。本出願の実施形態において、形状デコーダの処理の流れは、補助タスクの分岐に使用されてもよく、融合特徴情報に基づいた処理の後に形状再構成結果及びオブジェクト分割結果を出力することができる。
【0099】
一実施形態において、ステップC1で、前記融合特徴情報に基づいてポーズ推定及び/又はサイズ推定を行うステップは、ステップC11~C13を含む。
【0100】
ステップC11:融合特徴情報に基づいて3次元オブジェクト検出を行って各オブジェクトの検出情報を決定する。
【0101】
具体的に、図9に示すように、オブジェクトポーズ推定を行うことにおいて、全体イメージのRGB-Dイメージを2次元特徴エンコーダに対する入力として使用することができる。
【0102】
ここで、ポイントクラウドデータを抽出するとき、オブジェクト領域を取得するために、オブジェクト検出器を用いて入力イメージを検出する必要がなく、単一オブジェクトの空間的関係のみを処理する代わりに、終端間モデルを用いて全域空間シナリオコンテキスト及びオブジェクト間の関係をキャプチャーすることができる。
【0103】
具体的に、アテンションメカニズム基盤のマルチスケール融合によって取得された融合特徴情報は、先ず3Dオブジェクト検出器を介してシナリオ内の3Dオブジェクトを検出する。3次元オブジェクト検出器は、3次元オブジェクトをポジショニングしてオブジェクト範疇を識別する。選択的に、3次元オブジェクト検出器は、シナリオのオブジェクトの空間的関係を学習するために、マルチ変換モジュールを含んでもよい。
【0104】
ステップC12:前記検出情報に基づいて前記融合特徴情報をクリッピング及びサンプリングして3次元オブジェクト特徴を取得する。
【0105】
具体的に、検出された3次元オブジェクトに基づいて融合特徴情報をクリッピングし、一般3次元オブジェクト特徴にサンプリングすることができる。
【0106】
ステップC13:前記3次元オブジェクト特徴に基づいてポーズ推定及び/又はサイズ推定を行う。
【0107】
前記検出情報は、位置情報及びカテゴリー情報を含んでもよい。
【0108】
一実施形態において、ステップC13で、前記3次元オブジェクト特徴に基づいてポーズ推定及び/又はサイズ推定を行うステップは、ステップC131~C132を含む。
【0109】
ステップC131:前記2次元特徴情報を投影、クリッピング、及びサンプリングした後、前記融合特徴情報に対応する空間一致の第2イメージボクセル特徴情報に変換する。
【0110】
具体的に、図9において点線で示すように、2次元特徴情報を3次元空間に投影し、融合特徴情報が位置している空間と一致するイメージボクセル特徴をクリッピング及びサンプリングして処理する。
【0111】
ステップC132:前記3次元オブジェクト特徴と第2イメージボクセル特徴情報をスプライシングして取得した特徴に基づいてポーズ推定及び/又はサイズ推定を行う。
【0112】
具体的に、ステップC131で取得された第2イメージのボクセル特徴情報は、クリッピング及びサンプリング後の融合特徴情報と結合してオブジェクトポーズ推定及びサイズ推定を行うことができる。
【0113】
クリッピング及びサンプリング後の特徴情報は、オブジェクトポーズ特徴抽出器の入力として使用されてもよい。抽出された特徴は、ポーズ推定器及びサイズ推定器に入力され、オブジェクトの6Dポーズ及び3次元サイズが出力される。選択的に、オブジェクトポーズ特徴抽出器は、オブジェクト間の部分的関係をさらに学習するために、複数の変換モジュールを含んでもよい。
【0114】
一実施形態において、ステップC2で、前記融合特徴情報に基づいて形状再構成及び/又は分割を行うステップは、次のステップC21を含む。
【0115】
ステップC21:融合特徴情報に基づいて形状再構成及び/又は分割を行って再構成された形状情報及び/又は分割情報を取得する。
【0116】
具体的に、マルチスケールの特徴提案において、階段式形デコーダを用いて形状再構成及び分割を実現する。図10に示すように、3つのスケールが含まれた場合について説明する。3つのスケールの融合特徴情報は、3つの形状デコーダの入力として使用され、ここで、形状デコーダ1は、スケール1の融合特徴情報のみを入力し、形状デコーダ2の入力は、形状デコーダ1の出力とスケール2の融合特徴情報を含み、形状デコーダ3の入力は、形状デコーダ2の出力及びスケール3の融合特徴情報を含み、その次に、形状デコーダ3は最後の形状デコーダとして、出力された形状と分割結果は最終ネットワーク出力結果として受け取られる。
【0117】
選択的に、図3bに示すように、一実施形態は、領域間の空間依存性及び構造的細部事項のための構造認識アテンション融合ネットワークを提案する。ここで、対象形状再構成及び分割は、補助タスクの1つの分岐として、ネットワーク学習対象の内部構造をガイドするために使用されてもよい。図3Bに示すように、イメージ処理で主なポーズ推定を作業するとき、融合特徴情報と2次元特徴情報に基づいてポーズ推定及びサイズ推定を行うことができる。
【0118】
一実施形態において、図3C及び図3Dに示すように、融合の結果に基づいて行われる補助タスクの設計を考慮すると、形状再構成の信頼度が次第に増加し、形状偏差は減少する。分岐を追加することによって、バックボーンポーズ推定ネットワークにより学習されたマルチモダリティ特徴は、クラス内のオブジェクト形状の理解にさらに剛健(robust)になり、オブジェクトポーズとサイズのより弁別力のある特徴を学習することができる。選択的に、形状エンコーダに対応する分岐は、一実施形態の補助タスクとして選択的に使用され、例えば、一部のシナリオでオブジェクト形状及び分割結果を出力する必要がない場合、ネットワーク推論中に該当の分岐算出を無視してシステム処理の効率性を保障することができる。
【0119】
図3C及び図3Dに示すように、Nは使用されたARFモデルの数量を示し、一実施形態において、Nは3であってもよい。インスタンス分割(Instance segmentation)は、MaskRCNNを介して実現されることができる。
一実施形態に係るARF-Netは、RGB-D基盤のクラスレベル6Dポーズ推定に使用されてもよい。特に、空間依存性及び構造的細部事項をキャプチャーするために使用される構造認識アテンションを基盤とする融合モデルを含む。ネットワーク学習対象の内部構造を円満に案内してネットワーク処理の正確度と効率性を向上させるために、形状再構成及びイメージ分割のための補助タスク分岐をさらに含んでもよい。ARF-Netは、クラスレベル6Dポーズ及びサイズ推定のために終端間アテンション融合ネットワークに適用されてもよい。
【0120】
一実施形態において、イメージ処理装置が提供される。図12に示すように、イメージ処理装置1200は、取得モジュール1201、融合モジュール1202及び処理モジュール1203を含む。
【0121】
取得モジュール1201は、カラーイメージ及び深度イメージに基づいて3次元特徴情報及び2次元特徴情報を取得し、アテンションメカニズムに基づいて前記3次元特徴情報と2次元特徴情報を融合して融合特徴情報を取得し、前記融合特徴情報に基づいてイメージ処理を行うように構成される。
【0122】
一実施形態において、融合モジュール1202は、アテンションメカニズムに基づいて前記3次元特徴情報と2次元特徴情報を融合して融合特徴情報を取得するとき、具体的に次の動作を行うように構成される。
‐アテンションメカニズムに基づいて、少なくとも1つのスケールの3次元特徴情報と少なくとも1つのスケールの2次元特徴情報を融合して融合特徴情報を取得する動作
【0123】
一実施形態において、融合モジュール1202は、アテンションメカニズムに基づいて前記3次元特徴情報と2次元特徴情報を融合して融合特徴情報を取得するとき、いずれか1つのスケールの3次元特徴情報及び2次元特徴情報に対して次の動作を行うように構成される。
‐アテンションメカニズムに基づいて現在スケールの3次元特徴情報と現在スケールの2次元特徴情報に対して特徴融合を行い、現在スケールの融合特徴情報を取得する動作(現在スケールの3次元特徴情報は、以前スケールの融合特徴情報及び以前スケールの3次元特徴情報に応じて決定される)、現在スケールの2次元特徴情報は、以前スケールの2次元特徴情報に応じて決定される動作
【0124】
一実施形態において、融合モジュール1202は、アテンションメカニズムに基づいて前記3次元特徴情報と2次元特徴情報を融合して融合特徴情報を取得するとき、具体的に次の動作を行うように構成される。
‐前記3次元特徴情報に応じてポイントクラウドボクセル(voxel)特徴情報及び/又はボクセル位置特徴情報を取得する動作
‐前記2次元特徴情報に応じて第1イメージボクセル特徴情報を取得する動作、及び
‐アテンションメカニズムに基づいて、前記ポイントクラウドボクセル特徴情報、ボクセル位置特徴情報及び/又は第1イメージボクセル特徴情報に応じて特徴を融合して融合特徴情報を取得する動作
【0125】
一実施形態において、融合モジュール1202は、アテンションメカニズムに基づいて、前記ポイントクラウドボクセル特徴情報、ボクセル位置特徴情報及び/又は第1イメージボクセル特徴情報に応じて特徴を融合して融合特徴情報を取得するように構成されるとき、具体的に次の動作のうちの1つを実行するように構成される。
‐第1イメージボクセル特徴情報、及びアテンションメカニズムに基づいて前記ボクセル位置特徴情報、ポイントクラウドボクセル特徴情報及び第1イメージボクセル特徴情報を処理した後出力される特徴情報に対して、交差アテンションメカニズムを介して特徴を融合して融合特徴情報を取得する動作
‐第1イメージボクセル特徴情報、及びアテンションメカニズムに基づいて前記ポイントクラウドボクセル特徴情報を処理した後出力される特徴情報に対して、交差アテンションメカニズムを介して特徴を融合して融合特徴情報を取得する動作
‐第1イメージボクセル特徴情報、及び交差アテンションメカニズムに基づいて前記ポイントクラウドボクセル特徴情報を処理した後出力される特徴情報に対して、セルフアテンションメカニズムを介して特徴を融合して融合特徴情報を取得する動作
‐セルフアテンションメカニズムに基づいて第1イメージボクセル特徴情報を処理した後出力される特徴情報、及び交差アテンションメカニズムに基づいて前記ポイントクラウドボクセル特徴情報及び第1イメージボクセル特徴情報を処理した後出力される特徴情報に対して、特徴を融合して融合特徴情報を取得する動作
【0126】
一実施形態において、処理モジュール1203は、前記融合特徴情報に基づいてイメージ処理を行うとき、具体的に次の動作のうち少なくとも1つを行うように構成される。
‐前記融合特徴情報に基づいてポーズ推定及び/又はサイズ推定を行う動作、又は、
‐前記融合特徴情報に基づいて形状再構成及び/又は分割を行う動作
【0127】
一実施形態において、処理モジュール1203は、前記融合特徴情報に基づいて形状再構成及び/又は分割を行うように構成され、具体的に、融合特徴情報に基づいて形状再構成及び/又は分割を行って再構成された形状情報及び/又は分割情報を取得するように構成される。
【0128】
一実施形態に係る装置は本開示に係る方法を行うことができ、その実現原理は類似している。様々な実施形態に係る装置の各モジュールによって実行される動作は、本開示に係る方法のステップに対応する。装置の各モジュールに対する詳しい機能説明は、先に説明した該当方法の説明を参照できるため、これ以上繰り返さない。
【0129】
一実施形態によれば、プロセッサ及びプロセッサによって実行されるコンピュータプログラムを格納するメモリを含む電子装置が提供される。プロセッサは、イメージ処理方法のステップを実現するために前記コンピュータプログラムを実行する。一実施形態において、入力イメージに対して、先ず入力イメージのカラーイメージ及び深度イメージに基づいて少なくとも1つのスケールの3次元特徴情報及び2次元特徴情報を取得し、3次元特徴情報及び2次元特徴情報を特徴融合した後融合特徴情報を取得し、特徴融合は、アテンションメカニズムによって実現される。また、融合特徴情報に基づいてイメージを処理する。該当方案の実現は、特徴融合を介してマルチモダリティの融合特徴情報を取得し、これによってマルチモダリティ情報に基づいたイメージ処理を実現する。単一モダリティ情報に基づいたイメージ処理と比較するとき、一実施形態に係る電子装置は、イメージ処理の正確度を向上させることができる。また、拡張現実の応用シナリオなどで、一実施形態に係る電子装置は、3次元情報を認識する能力を向上させてシステムの処理効率性と堅固性を向上させ得る。
【0130】
選択可能な実施形態において、電子装置が提供される。図13に示すように、図13に示された電子装置1300は、プロセッサ1301及びメモリ1303を含む。プロセッサ1301は、例えばバス1302を介してメモリ1303に接続されている。選択的に、電子装置1300は、トランシーバー1304をさらに含んでもよく、トランシーバー1304は、データ送信及び/又はデータ受信のような電子装置とは異なる電子装置間のデータ相互作用のために使用され得る。実際の用途において、トランシーバー1304は1つに制限されず、該当電子装置1300の構造は、本開示に対する制限ではないことに留意しなければならない。追加的に、上記で説明したモダリティは、3次元深度情報及び2次元深度情報のように説明されたが、これに制限されることはない。
【0131】
プロセッサ1301は、CPU、汎用プロセッサ、DSP、オンデマンド集積回路(ASIC)、フィールドプログラム可能ゲート配列(FPGA)又はその他のプログラム可能論理装置、トランジスタ論理装置、ハードウェア構成要素、又はこの任意の組み合せであってもよい。これは、本開示で説明された様々な例示的な論理ブロック、モジュール及び回路を実現したり実行することができる。また、プロセッサ1301は、例えば、1つ以上のマイクロプロセッサの組み合わせ、DSPとマイクロプロセッサの組み合せなどを含むコンピューティング機能を実現する組み合せであってもよい。
【0132】
バス1302は、前記構成要素の間で情報を伝達するための経路を含む。バス1302は、PCI(Peripheral Component Interconnect)バス又はEISA(Extended Industry Standard Architecture)バスであってもよい。バス1302は、アドレスバス、データバス、制御バスなどに区分される。例示の便宜のために、図13には、太線1つのみを示しているが、バスが1つ又は一種類のみではない。
【0133】
メモリ1303は、読み出し専用メモリ(ROM)又は静的情報及び命令を格納できる他の類型の静的格納装置、ランダムアクセスメモリ(RAM)又は情報及び命令を格納できる他の類型の動的格納装置であってもよく、EEPROM、CD-ROM又はその他の光ディスクストレージ、光ディスクストレージ(圧縮光ディスク、レーザディスク、光ディスク、デジタル多目的ディスク、ブルーレイディスクなど含む)、ディスク格納媒体、その他の磁気記憶装置又はコンピュータプログラムを運搬したり格納するために使用され、コンピュータで読出し可能なその他の全ての媒体であってもよく、これに対して制限されることはない。
【0134】
メモリ1303は、一実施形態を実行するためのコンピュータプログラムを格納し、プロセッサ1301によって制御される。プロセッサ1301は、メモリ1303に格納されたコンピュータプログラムを実行し、前述した方法実施形態に示されたステップを実現できるように構成される。
【0135】
電子装置は、スマートフォン、タブレットコンピュータ、ノート型パソコン、スマートスピーカ、スマートウォッチ、車両搭載装置などを含むが、これに限定されることはない。
【0136】
本明細書に開示されている一実施形態は、コンピュータプログラムが格納されたコンピュータ可読記憶媒体を提供する。コンピュータプログラムは、プロセッサによって実行されるとき、前述した方法の実施形態及び対応する内容を行うことができる。
【0137】
一実施形態によれば、コンピュータプログラムを含むコンピュータプログラム製品がさらに提供されてもよい。コンピュータプログラムは、プロセッサによって実行されるとき、前述した方法実施形態のステップ及び対応する内容を行ってもよい。
【0138】
一実施形態において、電子装置により実行される前記装置のポーズ推定方法は、人工知能モデルを用いて実行されてもよい。
【0139】
一実施形態によれば、電子装置で実行される該当方法は、イメージデータ又はビデオデータを人工知能モデルの入力データで用いてイメージ又はイメージ内のイメージ特徴を識別する出力データを取得する。人工知能モデルは、訓練(training)を介して取得することができる。ここで、「訓練を通した取得」は、訓練アルゴリズムを介して複数の訓練データで基本人工知能モデルを訓練し、所望する特徴(又は、目的)を行うように構成された所定の動作規則又は人工知能モデルを取得することを意味する。人工知能モデルは、マルチ神経網(neural network)レイヤを含んでもよい。複数の神経網レイヤの各レイヤは複数の加重値を含み、神経網算出は以前のレイヤの算出結果と複数の加重値の間の算出によって実行される。
【0140】
視覚的理解は、ヒトの視覚のように事物を認識して処理する技術として、例えば、オブジェクト認識、オブジェクト追跡、イメージ検索、ヒト認識、シナリオ認識、3D再構成/ポジショニング又はイメージ向上を含む。
【0141】
一実施形態に係るイメージ処理装置は、AIモデルを介して複数のモジュールのうち少なくとも1つのモジュールを実現する。AIに関する機能は、不揮発性メモリ、揮発性メモリ、及びプロセッサによって実行されてもよい。
【0142】
プロセッサは、1つ以上のプロセッサを含んでもよい。1つ以上のプロセッサは、汎用プロセッサ(例、中央処理装置(CPU)、アプリケーションプロセッサ(AP)など)又は純粋なグラフィック処理装置(例、グラフィック処理装置(GPU)、視覚処理装置(VPU))、及び/又はAI専用プロセッサ(例えば、神経処理装置(NPU))であってもよい。
【0143】
1つ以上のプロセッサは、不揮発性メモリ及び揮発性メモリに格納された所定の動作規則又は人工知能(AI)モデルにより入力データの処理を制御する。訓練又は学習を介して所定の動作規則又は人工知能モデルを提供する。
【0144】
ここで、学習による提供は、複数の学習データに学習アルゴリズムを適用して所定の動作規則又は所望する特性を有するAIモデルを取得することを意味する。このような学習は、実施形態に係るAIが実行される装置そのもので実行されることができ、及び/又は別途のサーバ/システムによって実現されてもよい。
【0145】
AIモデルは、複数の神経網レイヤから構成されてもよい。各レイヤーは、複数の加重値を有し、1つのレイヤの算出は、以前レイヤの算出結果と現在レイヤの複数の加重値によって行われる。神経網の例として、コンボリューション神経網(CNN)、深層神経網(DN)、循環神経網(RN)、制限されたボルツマンマシン(RBM)、深層信頼網(DBN)、両方向循環深層神経網(BRDN)、生成対応ネットワーク(GAN)、及び深層Qネットワークを含むが、これに制限されない。
【0146】
学習アルゴリズムは、複数の学習データを用いて所定のターゲット装置(例えば、ロボット)を訓練させてターゲット装置を決定又は予測するように誘導、許容、又は制御する方法である。学習アルゴリズムの例示は、教師あり学習(supervised learning)、教師なし学習、半教師あり学習、又は強化学習を含むが、これに限定されることはしない。
【0147】
一実施形態に係るフローチャートにおいて、それぞれの動作ステップが矢印のように表示されるが、このステップの実行順序は矢印に表示された順に制限されない点を理解しなければならない。本文に明らかに言及されない限り、一実施形態の一部の実現シナリオで、各フローチャートの実現ステップは、要求事項により他の順に実行されてもよい。また、各フローチャートの一部又は全てのステップは、実際の実現シナリオにより様々な下位ステップ又は様々なステップが含まれてもよい。このような下位ステップ又はステップの一部又は全ては同時に実行されてもよく、このような下位ステップ又はステップの各下位ステップ又はステップはそれぞれ互いに異なる時間に実行されてもよい。実行時間が互いに異なるシナリオで、このような下位ステップ又はステップの実行順序は要求事項により柔軟に構成され、本出願の実施形態はこれに対して制限しない。
【0148】
上記の説明は、一部の実現シナリオに対する選択可能な実施形態であって、本技術分野の通常の知識を有する者が本開示に係る一実施形態に記載された技術的な思想に基づいて他の類似した実現手段を採択することも本開示の保護範囲に属する。
図1
図2
図3A
図3B
図3C
図3D
図4
図5
図6
図7
図8
図9
図10
図11A
図11B
図11C
図12
図13