(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024102011
(43)【公開日】2024-07-30
(54)【発明の名称】画像処理装置、画像処理方法及びコンピュータプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240723BHJP
G06V 10/82 20220101ALI20240723BHJP
G06T 7/70 20170101ALI20240723BHJP
G06N 3/08 20230101ALI20240723BHJP
【FI】
G06T7/00 350C
G06V10/82
G06T7/00 660Z
G06T7/70 B
G06N3/08
【審査請求】未請求
【請求項の数】10
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024004724
(22)【出願日】2024-01-16
(31)【優先権主張番号】202310047274.5
(32)【優先日】2023-01-18
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ジャン・シュエ
(72)【発明者】
【氏名】李 斐
(72)【発明者】
【氏名】リィウ・ルゥジエ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA18
5L096CA04
5L096DA02
5L096EA03
5L096EA14
5L096EA15
5L096EA16
5L096FA09
5L096FA67
5L096FA69
5L096FA76
5L096HA02
5L096HA11
5L096KA04
(57)【要約】
【課題】本発明は、画像処理装置、画像処理方法及びコンピュータプログラムを提供する。
【解決手段】画像処理装置は、それぞれ、画像内の対象の複数のキーポイントのうちの各キーポイントに関する第一情報を取得し、かつ2D検出ネットワークである第一検出ネットワーク;前記対象の複数のキーポイントの間の3D構造関係を指示する第二情報を取得する第一情報取得ユニット;及び、前記第一情報及び前記第二情報を使用して前記第一検出ネットワークの損失関数を構築する構築ユニットを含み、前記画像処理装置は前記損失関数を用いて前記第一検出ネットワークを訓練する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
画像を処理する装置であって、
それぞれ、画像内の対象の複数のキーポイントのうちの各キーポイントに関する第一情報を取得し、かつ2D検出ネットワークである第一検出ネットワーク;
前記対象の複数のキーポイントの間の3D構造関係を指示する第二情報を取得する第一情報取得ユニット;及び
前記第一情報及び前記第二情報を使用して前記第一検出ネットワークの損失関数を構築する構築ユニットを含み、
前記装置は前記損失関数を用いて前記第一検出ネットワークを訓練する、装置。
【請求項2】
請求項1に記載の装置であって、
前記第一情報及び前記第二情報は前記複数のキーポイントのヒートマップ又は座標である、装置。
【請求項3】
請求項1に記載の装置であって、
前記構築ユニットは、前記第一検出ネットワークの損失関数に、前記第一情報と前記第二情報との間の差を表す損失関数を追加したものを、前記第一検出ネットワークの総損失関数とする、装置。
【請求項4】
請求項3に記載の装置であって、
前記第一情報取得ユニットは、第二検出ネットワークにより、前記画像内の前記対象の複数のキーポイントについて前記第二情報を取得し、前記第二検出ネットワークは3D検出ネットワークであり、
前記第一情報取得ユニットは、前記複数のキーポイントに対する前記第二検出ネットワークの3D予測結果を2D平面に投影することで、2D予測結果を前記第二情報として取得する、装置。
【請求項5】
請求項4に記載の装置であって、
前記第一検出ネットワークが予測した前記複数のキーポイントのうちの各キーポイントのヒートマップを前記第二検出ネットワークに提供する第二情報取得ユニットをさらに含み、
前記第二検出ネットワークは、前記ヒートマップ及び前記画像を入力として用いることで前記第二情報を取得する、装置。
【請求項6】
請求項4に記載の装置であって、
前記3D予測結果におけるカメラパラメータを校正することで、前記2D予測結果が真の値にアラインするようにさせる校正ユニットをさらに含む、装置。
【請求項7】
請求項6に記載の装置であって、
前記校正ユニットは、平行移動変換、回転変換及び尺度変換により、前記2D予測結果が前記真の値にアラインするようにさせ、
前記第一情報取得ユニットは、アライン後の2D予測結果を前記第二情報として使用する、装置。
【請求項8】
請求項7に記載の装置であって、
前記対象は前記画像内の手であり、
前記平行移動変換は、前記2D予測結果の平行移動を行うことで、前記2D予測結果中の手首に対応するキーポイントが真の値のうち手首に対応するキーポイントと重なり合うようにさせることを含み、
前記回転変換は、前記2D予測結果中の手首のキーポイントから中指の根元のキーポイントまでの手の方向を回転することで、前記2D予測結果における前記手の方向が真の値のうち前記手の方向にアラインするようにさせることを含み、
前記尺度変換は、前記2D予測結果の尺度を、真の値と同じサイズに変換することを含む、装置。
【請求項9】
コンピュータが実行する、画像を処理する方法であって、
第一検出ネットワークにより、それぞれ、画像内の対象の複数のキーポイントのうちの各キーポイントに関する第一情報を取得し、前記第一検出ネットワークは2D検出ネットワークであり;
前記対象の複数のキーポイントの間の3D構造関係を指示する第二情報を取得し;
前記第一情報及び前記第二情報を使用して前記第一検出ネットワークの損失関数を構築し;及び
前記損失関数を用いて前記第一検出ネットワークを訓練することを含む、方法。
【請求項10】
コンピュータに、請求項9に記載の方法を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理の技術分野に関し、特に、手(ハンド)の動作を分析するための画像処理装置、画像処理方法及びコンピュータプログラムに関する。
【背景技術】
【0002】
社会の発展に伴い、工場では規範化(標準化)管理が重要視されている。プロセス全体の規範化から個人の操作ステップの規範化に至るまで、一連の標準が存在する。標準的なプロセスに従って管理すると、不良品の発生を減らすとともに、事故の発生を減少させることもできる。操作フローが規範に一致しているかを判断する根拠として、最も重要なのは手の動作を分析することである。手の動作を分析するには、手の姿勢及び各指(フィンガー)の状態を把握し、このような情報をもとに、手の動作が標準を満たしているかを分析する必要がある。これらは基本的に手のキーポイントの検出に依存している。
【0003】
手のキーポイントの検出は通常、2次元(2D)キーポイント検出と3次元(3D)キーポイント検出に分けられる。3Dキーポイント検出、特に、MANO(hand Model with Articulated and Non-rigid defOrmations)に基づく3D検出方法は近年、広く開発されている。例えば、MANOに基づく検出技術は1つの標準的な手をベースに学習を行うことで、様々な手の姿勢を予測し得る。よって、3Dキーポイント検出ネットワーク、例えば、MANOに基づく検出ネットワークには手の構造情報が含まれている。しかし、3Dキーポイント検出ネットワークは一般に計算が複雑で非常に時間がかかり、大量のハードウェアデバイスによるサポートが必要であるため、一部の分野でのみ使用されている。
【0004】
2Dキーポイント検出ネットワークは比較的簡単であり、長年の開発を経て精度が大幅に向上しているため、広く利用されている。しかし、その固有の訓練ストラテジーにも特定の問題が存在する。
図1は2Dキーポイント検出の標準的なプロセスを示している。
図1に示すように、2Dキーポイント検出ネットワークは通常、先に各キーポイントのヒートマップを出力し、次にヒートマップから最大の索引(インデックス)をキーポイントの座標として見つける。各キーポイントの座標の計算は互いに独立しており、それらの間の構造関係を学習しないので、学習プロセス全体には手全体の構造情報が欠ける。そのため、検出結果に偏差(偏り)があると、非常に不合理な手の構造が生じる恐れがある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述の問題に鑑み、本発明の目的は、2Dキーポイント検出ネットワークに手の3D構造関係を導入することで2Dキーポイント検出の精度を向上させるための画像処理装置、画像処理方法及びコンピュータプログラムを提供することにある。
【課題を解決するための手段】
【0006】
本発明の一側面によれば、画像処理装置が提供され、それは、
それぞれ、画像内の対象(object)の複数のキーポイントのうちの各キーポイントに関する第一情報を取得する第一検出ネットワークであって、第一検出ネットワークは2D検出ネットワークである、第一検出ネットワーク;
対象の複数のキーポイントの間の3D構造関係を指示する第二情報を取得する第一情報取得ユニット;及び
第一情報及び第二情報を用いて第一検出ネットワークの損失関数を構築する構築ユニットを含み、
そのうち、画像処理装置は損失関数を使用して第一検出ネットワークを訓練する。
【0007】
本発明のもう1つの側面によれば、画像処理方法が提供され、それは、
第一検出ネットワークにより、それぞれ、画像内の対象の複数のキーポイントのうちの各キーポイントに関する第一情報を取得し、そのうち、第一検出ネットワークは2D検出ネットワークであり;
対象の複数のキーポイントの間の3D構造関係を指示する第二情報を取得し;
第一情報及び第二情報を用いて第一検出ネットワークの損失関数を構築し;及び
損失関数を使用して第一検出ネットワークを訓練することを含む。
【0008】
本発明のもう1つの側面によれば、マシン(コンピュータ)可読記憶媒体が提供され、その中にはマシン(コンピュータ)可読命令コードを含むプログラムプロダクトが含まれており、そのうち、前記命令コードはコンピュータにより読み取って実行されるときに、前記コンピュータに、本発明による画像処理方法を実現させる。
【0009】
本発明の他の側面によれば、コンピュータプログラムが提供され、前記コンピュータプログラムは前記コンピュータに、本発明による画像処理方法を実行させるためのものである。
【発明の効果】
【0010】
本発明による画像処理装置、画像処理方法及びコンピュータプログラムを使用することで、2D検出ネットワークの訓練にキーポイントの間の3D構造関係を導入して2D検出ネットワークの検出精度を向上させることができる。
【図面の簡単な説明】
【0011】
【
図1】2Dキーポイント検出ネットワークの標準的な検出フローを示す図である。
【
図2】本発明の実施例による画像処理装置の構成図である。
【
図3】本発明のもう1つの実施例における画像処理装置の構成図である。
【
図4】本発明による画像処理装置における校正ユニットが実行するハンドキーポイント平行移動変換を示す図である。
【
図5】本発明による画像処理装置における校正ユニットが実行するハンドキーポイント回転変換を示す図である。
【
図6】本発明の実施例における画像処理方法のフローチャートである。
【
図7】本発明の実施例における画像処理装置及び方法を実現し得る汎用パソコンの例示的な構成図である。
【発明を実施するための形態】
【0012】
以下、図面と併せて本発明の実施例を具体的に説明する。なお、以下に説明される実施例は例示に過ぎず、本発明を限定しない。
【0013】
図2は本発明の実施例における画像処理装置の構成図である。
図2に示すように、本発明の実施例による画像処理装置100は第一検出ネットワーク110、第一情報取得ユニット120及び構築ユニット130を含み得る。
【0014】
第一検出ネットワーク110はそれぞれ画像内の対象の複数のキーポイントのうちの各キーポイントに関する第一情報を取得することができる。第一検出ネットワーク110は2D検出ネットワークであり、例えば、
図1に示すような手の2Dキーポイント検出ネットワーク、例えば、HR-Netであり、また、対象は画像内の人の手であっても良い。手の複数のキーポイントは手の複数の関節部位(例えば、掌指関節、指間関節、腕橈関節など)に対応する。また、第一情報は複数のキーポイントのヒートマップ又は座標であり、例えば、
図1に示すような各キーポイントのヒートマップ又はキーポイント座標である。なお、第一検出ネットワーク110が2D検出ネットワークであるので、第一情報は2Dキーポイントのヒートマップ又は座標である。
【0015】
また、第一情報取得ユニット120は対象の複数のキーポイントの間の3D構造関係を指示する第二情報を取得することができる。3D構造関係とは、キーポイントの間の相対位置を指す。例えば、3D空間では、手首の位置及び5つの指の根元の位置が比較的に固定されている。また、手のひら又は手の甲に対する各々の指の弯曲度も限られており、これは、フィンガーキーポイントについて、順序あり配列が要されるとともに、それらの間の相対位置が所定の角度以内に制限されることも要されることを意味する。これらの情報はすべて、3D構造関係を指示する第二情報により体現され得る。よって、分かるように、第二情報は手全体の構造に対しての制約を表すことができる。2D検出ネットワークの訓練プロセスにキーポイントの3D構造関係を導入することで、より豊富な制約情報を2D検出ネットワークの学習プロセスに増加させることができるため、より合理的な検出結果を得ることができる。また、第二情報は複数のキーポイントのヒートマップ又は座標であっても良い。
【0016】
また、構築ユニット130は第一検出ネットワーク110が提供した第一情報及び第一情報取得ユニット120が提供した第二情報を使用して、第一検出ネットワーク110の損失関数を構築することができる。例えば、第一情報及び第二情報がキーポイントのヒートマップである場合に、両者のヒートマップを使って第一検出ネットワーク110の損失関数を構築する。また、第一情報及び第二情報がキーポイント座標である場合に、両者のキーポイント座標を用いて第一検出ネットワーク110の損失関数を構築する。
【0017】
また、画像処理装置100は構築ユニット130が構築した損失関数を使用して第一検出ネットワーク110を訓練する。
【0018】
これにより、本発明の実施例による画像処理装置100は2D検出ネットワークの訓練プロセスにキーポイントの3D構造関係を導入することで2D検出ネットワークの検出精度を向上させることができる。
【0019】
以下、
図3乃至
図5を参照しながら、本発明のもう1つの実施例における画像処理装置の原理について詳細に説明する。
【0020】
図3は本発明のもう1つの実施例に係る画像処理装置の構成図であり、
図4及び
図5は本発明による画像処理装置における校正(correction)ユニットが実行するハンドキーポイント平行移動変換及び回転変換を示す図である。また、
図3はさらに、画像処理装置200の訓練段階及び推論段階のプロセスを示している。
図3における大きな点線枠に示されているのは訓練段階に関わる画像処理装置の部品であり、
図3における小さな点線枠に示されているのは推論段階に関わる画像処理装置の部品である。
【0021】
<訓練(トレーニング)段階>
訓練段階では、本発明のもう1つの実施例における画像処理装置200は第一検出ネットワーク210、第一情報取得ユニット220、構築ユニット230及び選択可能な第二情報取得ユニット240を含んでも良い。また、第一情報取得ユニット220は深層学習モデル2201、MANOモデル2202、投影ユニット2203及び選択可能な校正ユニット2204を含んでも良い。なお、
図3における第一検出ネットワーク210、第一情報取得ユニット220及び構築ユニット230は
図2に示す第一検出ネットワーク110、第一情報取得ユニット120及び構築ユニット130に対応するので、ここではその詳しい説明を省略する。
【0022】
図3に示すように、まず、対象(例えば、人の手)を含む画像を第一検出ネットワーク210(2Dキーポイント検出ネットワーク)に入力し、第一検出ネットワーク210はそれぞれ、画像内の対象の複数のキーポイントのうちの各キーポイントに関する第一情報を取得することができる。具体的には、第一検出ネットワーク210は2Dキーポイントのヒートマップ及びキーポイント座標を出力することができる。また、第一検出ネットワーク210は第一情報を構築ユニット230に提供する。
【0023】
また、対象を含む画像がさらに第一情報取得ユニット220に入力され、第一情報取得ユニット220は入力された画像に基づいて、対象の複数のキーポイントの間の3D構造関係を指示する第二情報を取得することができる。3Dキーポイント検出ネットワーク(例えば、MANOに基づく検出ネットワーク)が手の構造情報を有するので、3Dキーポイント検出ネットワークによって、複数のキーポイントの間の3D構造関係を指示する第二情報を得ることが考えられる。本実施例では、MANOに基づく検出ネットワークを3Dキーポイント検出ネットワークとして採用することが例示的に示されている。しかし、当業者が理解できるように、MANOに基づく検出ネットワークを用いて第二情報を得る他に、他の3Dキーポイント検出ネットワークを使って第二情報を取得しても良い。
【0024】
よって、第一情報取得ユニット220は3D検出ネットワークとしての第二検出ネットワーク(例えば、MANOに基づく検出ネットワークであり、深層学習モデル2201及びMANOモデル2202を含む)を使用して、画像内の対象の複数のキーポイントについて第二情報を得ることができる。
【0025】
前述の例では、第一情報取得ユニット220は入力画像のみに基づいて第二情報を取得する。
図3に示すように、好ましくは、画像処理装置200はさらに、第二情報取得ユニット240を含み、それは、第一検出ネットワーク210が予測した複数のキーポイントのうちの各キーポイントのヒートマップを第二検出ネットワークにおける深層学習モデル2201に提供することで、第二検出ネットワーク(例えば、MANOに基づく3Dキーポイント検出ネットワーク)が2Dキーポイントのヒートマップ及び画像を入力として第二情報を得るようにさせることができる。このような場合に、3D検出ネットワークが2D検出ネットワークの出力を一部の入力として使用しているので、3D検出ネットワークの出力は2D検出ネットワークとより良く融合することができるため、2D検出ネットワークの検出精度をさらに向上させることができる。
【0026】
具体的には、第二検出ネットワークがMANOに基づく3Dキーポイント検出ネットワークを採用する場合に、対象を含む画像は(好ましくは、2Dキーポイントのヒートマップとともに)事前訓練済みのMANOに基づく3Dキーポイント検出ネットワークに入力される。MANOに基づく3Dキーポイント検出ネットワークは深層学習モデル2201を、形状パラメータ、姿勢パラメータ及びカメラパラメータを出力するために含み、また、これらのパラメータはMANOモデル2202に入力されることで手の3Dキーポイントのヒートマップ及びキーポイント座標を取得する。深層学習モデル2201が学習したカメラパラメータに基づいて、投影ユニット2203はMANOモデル2202が予測した3Dキーポイントを2D空間に投影することができ、これは「3Dから2Dへの投影によるキーポイント」と称されても良い。よって、第一情報取得ユニット220は、複数のキーポイントに対する第二検出ネットワークの3D予測結果(3Dキーポイント)を2D平面に投影することで2D予測結果(「3Dから2Dへの投影によるキーポイント」)を取得し、そして、2D予測結果を第二情報提として構築ユニット230に提供することができる。
【0027】
また、好ましくは、第一情報取得ユニット220はさらに、校正ユニット2204を含んでも良く、それは3D予測結果におけるカメラパラメータを校正することで、2D予測結果が第一検出ネットワークの訓練プロセスにおける真の値(マーク(注釈)されている真のキーポイント(ラベルありのキーポイント))とアラインするようにさせる。例えば、校正ユニット2204は平行移動(translation)変換、回転変換及び尺度変換により、2D予測結果が真の値とアラインするようにさせることができる。
【0028】
本発明が好ましくは校正ユニットを含む理由は次のとおりであり、即ち、MANOに基づく検出ネットワークが予測した3Dキーポイントは、2次元空間に投影されるときに、深層学習モデル2201が出力したカメラパラメータに依存しており、また、カメラパラメータは非常に敏感であり、かつ訓練データに依存している。データにおけるシーン又は角度の変化が発生したときに、予測されたカメラパラメータは往々にして大きな偏差があるため、投影された2Dキーポイントと真のキーポイントとの差が比較的大きくなるようにさせることがある。よって、カメラパラメータを修正する必要がある。しかし、実際のデータに往々にして3Dキーポイント情報の注釈が欠けるので、2Dキーポイントを出発点として、投影された2Dキーポイントが真の2Dキーポイントとアラインするようにさせることで、カメラパラメータに対しての修正を実現し、より正確に投影された2Dキーポイントを得ることができる。以下、校正ユニット2204の操作について詳しく説明する。校正ユニット2204の操作、即ち、アラインする方式は平行移動変換、回転変換及び尺度変換を含む。
【0029】
平行移動変換:手のキーポイントを全体として見なし、そして、
図4に示すように、手首キーポイントを基準として、予測された手首キーポイントを真の手首キーポイントの位置に平行移動させる。
【0030】
回転変換:予測されたハンドキーポイントと真のハンドキーポイントとの間に角度の偏差が存在し得るので、
図5に示すように、手首(キーポイント)から中指の根元(キーポイント)までの方向を基準方向として、手のキーポイントを回転することで、基準方向が真のキーポイントの基準方向と重なり合うようにさせる。
【0031】
尺度変換:予測された手を、真の2Dキーポイントに係る真の手と同じサイズに拡大(又は縮小)する。
【0032】
分かるように、校正ユニット2204が実行するアライン変換は2D予測結果における各キーポイントの間の相対構造関係を変えることがなく、2D予測結果(「3Dから2Dへの投影によるキーポイント」)が真の値とより良くアラインするようにさせるだけであるので、校正ユニット2204のアライン後の2D予測結果は依然としてキーポイントの間の3D構造関係を反映することができる。
【0033】
画像処理装置200が校正ユニット2204を有しない場合に、第一情報取得ユニット220は投影ユニット2203が投影した2D予測結果を第二情報として直接構築ユニット230に提供して良い。好ましくは、画像処理装置200が校正ユニット2204を有する場合に、第一情報取得ユニット220は校正ユニット2204が処理(校正)したアライン後の2D予測結果を第二情報として使用して、構築ユニット230に提供することができる。
【0034】
また、構築ユニット230は第一検出ネットワーク210が提供した第一情報及び第一情報取得ユニット220が提供した第二情報を用いて、第一検出ネットワーク210の損失関数を構築することができる。例えば、構築ユニット230は第一検出ネットワーク210の損失関数に、第一情報と第二情報との間の差を表す損失関数を追加したものを、第一検出ネットワーク210の総損失関数とすることができる。以下、より具体的に説明する。
【0035】
上述のように、一例として、本発明では、2Dキーポイント検出ネットワークにMANO損失関数を増加させる方式で手の構造に対しての制約を増加させる。2D検出ネットワークは教師ありの学習の方式でアライン後のMANO出力結果を学習することで手の構造を学習する。そのため、構築ユニット230はそれぞれ、2Dキーポイントと「3Dから2Dへの投影によるキーポイント」との間の損失、及び2Dキーポイントと注釈された真のキーポイント(真の値)との間の損失を計算することができる。そして、この2つの損失の和で2D検出ネットワークを共同訓練する。訓練後に、2D検出ネットワークは手の3D構造情報を学習することができる。
【0036】
ここで、キーポイント座標を用いて損失関数を構築することを例にして構築ユニット230の操作を詳細に説明する。まず、ヒートマップ回帰を座標回帰に変換する。ヒートマップ回帰はキーポイントを生成する追加のステップを要する。座標回帰を直接採用すると、検出ネットワークの訓練プロセスでピクチャから座標までエンドツーエンドの学習を実現するようにさせることができる。また、検出ネットワークの学習は2つの部分の損失関数の共同作用が必要である。2D予測キーポイントと、真の値との間の差は第一部分の損失関数とし、2D予測キーポイントと、MANOモデルが予測した3Dキーポイントの2次元空間における投影キーポイントとの差は第二部分の損失関数とする。この2つの損失関数の共同作用により、2D検出ネットワークが学習キーポイントの位置座標だけでなく、手の構造情報をも学習するように促進することができる。構築された損失関数は以下のとおりである。
【0037】
【数1】
式(1)では、lossは構築ユニット230が構築した第一検出ネットワーク210(2D検出ネットワーク)の総損失関数を表し、L
2Dは2D検出ネットワークのオリジナル損失関数項を表し、L
MANOは第二検出ネットワーク(3D検出ネットワーク)により導入された損失関数項を表す。式(2)では、
【0038】
【数2】
は第一検出ネットワークが予測したキーポイント座標を表し、y
GTは注釈された真のキーポイント座標(真の値)を表す。式(3)では、y
MANOは第二検出ネットワークが予測した3Dキーポイントの2次元空間における投影座標を表す。
【0039】
なお、上記の例では、第一情報及び第二情報がキーポイント座標である場合に総損失関数を構築することを示しているが、もちろん、本発明はこれに限られず、ヒートマップを採用して総損失関数を構築しても良い。
【0040】
さらに、画像処理装置200は構築ユニット230が構築した総損失関数を使用して第一検出ネットワーク210を訓練する。これにより、訓練後の第一検出ネットワーク210、即ち、2Dキーポイント検出ネットワークは手の3D構造情報を学習することができる。
【0041】
<推論段階>
推論段階では、2D検出ネットワークが既に手の3D構造情報を学習しているので、2D検出ネットワークの標準的な処理フローに従って結果を直接出力するだけで良い。
【0042】
これにより、本発明の実施例は3D検出ネットワークにおける手の構造情報を2D検出ネットワークの訓練プロセスに適用することで、2D検出ネットワークの検出精度を向上させることができる。
【0043】
以下、
図6と併せて本発明の実施例による画像処理方法について説明する。
【0044】
図6に示すように、本発明の実施例による画像処理方法はステップS110からスタートする。ステップS110では、第一検出ネットワークはそれぞれ画像内の対象の複数のキーポイントのうちの各キーポイントに関する第一情報を取得し、そのうち、第一検出ネットワークは2D検出ネットワーク、例えば、HR-Netである。第一情報は複数のキーポイントのヒートマップ又は座標である。
【0045】
続いて、ステップS120では、対象の複数のキーポイントの間の3D構造関係を指示する第二情報を取得する。第二情報は複数のキーポイントのヒートマップ又は座標である。
【0046】
続いて、ステップS130では、第一情報及び第二情報を用いて第一検出ネットワークの損失関数を構築する。
【0047】
続いて、ステップS140では、損失関数を使用して第一検出ネットワークを訓練する。その後に、プロセスを終了する。
【0048】
本発明の実施例によれば、第一情報及び第二情報を用いて第一検出ネットワークの損失関数を構築することは、第一検出ネットワークの損失関数に、第一情報と第二情報との間の差を表す損失関数を追加したものを、第一検出ネットワークの総損失関数とすることを含む。
【0049】
本発明の実施例によれば、第二検出ネットワークは画像内の対象の複数のキーポイントについて第二情報を取得し、そのうち、第二検出ネットワークは3D検出ネットワーク、例えば、MANOに基づく検出ネットワークであり、そのうち、第二情報の取得は、複数のキーポイントに対しての第二検出ネットワークの3D予測結果を2D平面に投影することで2D予測結果を取得し、第二情報とすることを含む。
【0050】
本発明の実施例によれば、上記の方法はさらに、第一検出ネットワークが予測した複数のキーポイントのうちの各キーポイントのヒートマップを第二検出ネットワークに提供し、第二検出ネットワークがヒートマップ及び画像を入力として使用して第二情報を得ることを含む。
【0051】
本発明の実施例によれば、上記の方法はさらに、3D予測結果におけるカメラパラメータを校正することで、2D予測結果が2D検出ネットワークにおける真の値とアラインするようにさせることを含む。
【0052】
本発明の実施例によれば、カメラパラメータの校正は、平行移動変換、回転変換及び尺度変換により、前記2D予測結果が真の値にアラインするようにさせることを含み、また、上記の方法はさらに、アライン後の2D予測結果を前記第二情報として使用することをも含む。
【0053】
本発明の実施例によれば、上述の画像内の対象は画像内の手であり、また、平行移動変換は、
図4に示すように、2D予測結果の平行移動を行うことで、2D予測結果において手首に対応するキーポイントが真の値のうち手首に対応するキーポイントと重なり合うようにさせることを含む。回転変換は、
図5に示すように、2D予測結果における、手首のキーポイントから中指の根元のキーポイントまでの手の方向を回転することで、2D予測結果の手の方向が真の値(真の手の方向)とアラインするようにさせることを含む。尺度変換は、2D予測結果の尺度を、真の値と同じサイズに変換することを含む。
【0054】
これにより、本発明の実施例による画像処理方法は、3D検出ネットワークにおける手の構造情報を2D検出ネットワークの訓練プロセスに適用することで、2D検出ネットワークの検出精度を向上させることができる。
【0055】
なお、本発明の実施例による画像処理方法の上述のステップの各種の具体的な実施方式については既に詳細に説明しているので、ここではその詳しい説明を省略する。
【0056】
また、明らかのように、本発明による画像処理方法の各操作フローは様々なマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現することができる。
【0057】
さらに、本発明の目的は次のような方式で達成されても良く、即ち、上述の実行可能なプログラムコードを記憶している記憶媒体を直接又は間接的にシステム又は装置に提供し、該システム又は装置におけるコンピュータ又は中央処理ユニット(CPU)に上述のプログラムコードを読み取って実行してもらう。このときに、該システム又は装置がプログラムを実行し得る機能を有すれば、本発明の実施方式はプログラムに限定されず、また、該プログラムは任意の形式、例えば、オブジェクト指向プログラム、インタプリタ実行可能なプログラ、オペレーティングシステムに提供するスクリプトプログラムなどであっても良い。
【0058】
上述のこれらのマシン可読記憶媒体は様々な記憶器、記憶ユニット、半導体デバイス及び磁気ユニット、例えば、光ディスク、磁気ディスク、情報の記憶に適した他の媒体などを含んでも良いが、これらに限られない。
【0059】
また、コンピュータはインターネット上の対応するウェッブサイトから、本発明によるコンピュータプログラムコードをダウンロードしてコンピュータにインストールし、その後に、該プログラムを実行することで、本発明の技術案を実現することもできる。
【0060】
図7は本発明の実施例による画像処理装置及び方法を実現し得る汎用パソコンの例示的な構成図である。
【0061】
図7に示すコンピュータ1300は、例えば、コンピュータシステムであっても良い。なお、コンピュータ1300は例示に過ぎず、本発明による方法及び装置の適用範囲又は機能について限定しない。また、コンピュータ1300は、上述の方法及び装置における任意のモジュールやアセンブリなど又はその組み合わせにも依存しない。
【0062】
図7では、中央処理装置(CPU)1301は、ROM1302に記憶されているプログラム又は記憶部1308からRAM1303にロッドされているプログラムに基づいて各種の処理を行う。RAM1303では、ニーズに応じて、CPU1301が各種の処理を行うときに必要なデータなどを記憶することもできる。CPU1301、ROM1302及びRAM1303は、バス1304を経由して互いに接続される。入力/出力インターフェース1305もバス1304に接続される。
【0063】
また、入力/出力インターフェース1305には、さらに、次のような部品が接続され、即ち、キーボードなどを含む入力部1306、液晶表示器(LCD)などのような表示器及びスピーカーなどを含む出力部1307、ハードディスクなどを含む記憶部1308、ネットワーク・インターフェース・カード、例えば、LANカード、モデムなどを含む通信部1309である。通信部1309は、例えば、インターネット、LANなどのネットワークを経由して通信処理を行う。ドライブ1310は、ニーズに応じて、入力/出力インターフェース1305に接続されても良い。取り外し可能な媒体1311、例えば、半導体メモリなどは、必要に応じて、ドライブ1310にセットされることにより、その中から読み取られたコンピュータプログラムを記憶部1308にインストールすることができる。
【0064】
また、本発明は、さらに、マシン可読命令コードを含むプログラムプロダクトを提供する。このような命令コードは、マシンにより読み取られて実行されるときに、上述の本発明の実施形態における方法を実行することができる。それ相応に、このようなプログラムプロダクトをキャリー(carry)する、例えば、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(CD-ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体記憶器などの各種記憶媒体も、本発明に含まれる。
【0065】
上述の記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などを含んでも良いが、これらに限定されない。
【0066】
また、上述の方法における各操作(処理)は、各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現することもできる。
【0067】
また、以上の実施例などに関し、さらに以下のように付記として開示する。
【0068】
(付記1)
画像処理装置であって、
それぞれ、画像内の対象の複数のキーポイントのうちの各キーポイントに関する第一情報を取得する第一検出ネットワークであって、前記第一検出ネットワークは2D検出ネットワークである、第一検出ネットワーク;
前記対象の複数のキーポイントの間の3D構造関係を指示する第二情報を取得する第一情報取得ユニット;及び
前記第一情報及び前記第二情報を使用して前記第一検出ネットワークの損失関数を構築する構築ユニットを含み、
前記画像処理装置は前記損失関数を用いて前記第一検出ネットワークを訓練する、装置。
【0069】
(付記2)
付記1に記載の画像処理装置であって、
前記第一情報及び前記第二情報は前記複数のキーポイントのヒートマップ又は座標である、装置。
【0070】
(付記3)
付記1又は2に記載の画像処理装置であって、
前記構築ユニットは前記第一検出ネットワークの損失関数に、前記第一情報と前記第二情報との間の差を表す損失関数を追加したものを、前記第一検出ネットワークの総損失関数とする、装置。
【0071】
(付記4)
付記3に記載の画像処理装置であって、
前記第一情報取得ユニットは第二検出ネットワークにより、前記画像内の前記対象の複数のキーポイントについて前記第二情報を取得し、そのうち、前記第二検出ネットワークは3D検出ネットワークであり、
前記第一情報取得ユニットは前記第二検出ネットワークの前記複数のキーポイントに対する3D予測結果を2D平面に投影することで、2D予測結果を前記第二情報として取得する、装置。
【0072】
(付記5)
付記4に記載の画像処理装置であって、さらに、
前記第一検出ネットワークが予測した前記複数のキーポイントのうちの各キーポイントのヒートマップを前記第二検出ネットワークに提供する第二情報取得ユニットを含み、
前記第二検出ネットワークは前記ヒートマップ及び前記画像を入力として用いることで前記第二情報を取得する、装置。
【0073】
(付記6)
付記4又は5に記載の画像処理装置であって、さらに、
前記3D予測結果におけるカメラパラメータを校正することで、前記2D予測結果が真の値にアラインするようにさせる校正ユニットを含む、装置。
【0074】
(付記7)
付記6に記載の画像処理装置であって、
前記校正ユニットは平行移動変換、回転変換及び尺度変換により、前記2D予測結果が前記真の値にアラインするようにさせ、
前記第一情報取得ユニットはアライン後の2D予測結果を前記第二情報として使用する、装置。
【0075】
(付記8)
付記7に記載の画像処理装置であって、
前記対象は前記画像内の手であり、
平行移動変換は、前記2D予測結果の平行移動を行うことで、前記2D予測結果中の手首に対応するキーポイントが真の値のうち手首に対応するキーポイントと重なり合うようにさせることを含み、
回転変換は、前記2D予測結果中の手首のキーポイントから中指の根元のキーポイントまでの手の方向の回転を行うことで、前記2D予測結果における前記手の方向が真の手の方向にアラインするようにさせることを含み、
尺度変換は前記2D予測結果の尺度を、真の値と同じサイズに変換することを含む、装置。
【0076】
(付記9)
付記4に記載の画像処理装置であって、
前記第二検出ネットワークはMANOに基づく検出ネットワークである、装置。
【0077】
(付記10)
画像処理方法であって、
第一検出ネットワークにより、それぞれ、画像内の対象の複数のキーポイントのうちの各キーポイントに関する第一情報を取得し、前記第一検出ネットワークは2D検出ネットワークであり;
前記対象の複数のキーポイントの間の3D構造関係を指示する第二情報を取得し;
前記第一情報及び前記第二情報を使用して前記第一検出ネットワークの損失関数を構築し;及び
前記損失関数を用いて前記第一検出ネットワークを訓練することを含む、方法。
【0078】
(付記11)
付記10に記載の方法であって、
前記第一情報及び前記第二情報は前記複数のキーポイントのヒートマップ又は座標である、方法。
【0079】
(付記12)
付記10又は11に記載の方法であって、
前記第一情報及び前記第二情報を用いて前記第一検出ネットワークの損失関数を構築することは、
前記第一検出ネットワークの損失関数に、前記第一情報と前記第二情報との間の差を表す損失関数を追加したものを、前記第一検出ネットワークの総損失関数とすることを含む、方法。
【0080】
(付記13)
付記12に記載の方法であって、
第二検出ネットワークにより、前記画像内の前記対象の複数のキーポイントについて前記第二情報を取得し、前記第二検出ネットワークは3D検出ネットワークであり、
前記第二情報の取得は、前記第二検出ネットワークの前記複数のキーポイントに対する3D予測結果を2D平面に投影することで、2D予測結果を前記第二情報として取得することを含む、方法。
【0081】
(付記14)
付記13に記載の方法であって、さらに、
前記第一検出ネットワークが予測した前記複数のキーポイントのうちの各キーポイントのヒートマップを前記第二検出ネットワークに提供し、前記第二検出ネットワークにより、前記ヒートマップ及び前記画像を入力として使用することで前記第二情報を得ることを含む、方法。
【0082】
(付記15)
付記13又は14に記載の方法であって、さらに、
前記3D予測結果中のカメラパラメータを校正することで、前記2D予測結果が真の値にアラインするようにさせることを含む、方法。
【0083】
(付記16)
付記15に記載の方法であって、
前記カメラパラメータの校正は平行移動変換、回転変換及び尺度変換により、前記2D予測結果が前記真の値にアラインするようにさせることを含み、
前記方法はさらに、アライン後の2D予測結果を前記第二情報として使用することを含む、方法。
【0084】
(付記17)
付記16に記載の方法であって、
前記対象は前記画像内の手であり、
平行移動変換は、前記2D予測結果の平行移動を行うことで、前記2D予測結果中の手首に対応するキーポイントが真の値のうち手首に対応するキーポイントと重なり合うようにさせることを含み、
回転変換は、前記2D予測結果中の手首のキーポイントから中指の根元のキーポイントまでの手の方向の回転を行うことで、前記2D予測結果における前記手の方向が真の手の方向にアラインするようにさせることを含み、
尺度変換は前記2D予測結果の尺度を、真の値と同じサイズに変換することを含む、方法。
【0085】
(付記18)
付記13に記載の方法であって、
前記第二検出ネットワークはMANOに基づく検出ネットワークである、方法。
【0086】
(付記19)
付記10に記載の方法であって、
前記第一検出ネットワークはHR-Netである、方法。
【0087】
(付記20)
マシン可読記憶媒体であって、
その中にはマシン可読命令コードを含むプログラムプロダクトが含まれており、そのうち、前記命令コードはコンピュータにより読み取って実行されるときに、前記コンピュータに、付記10-19に記載の画像処理方法を実行させることができる、マシン可読記憶媒体。
【0088】
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は、本発明の技術的範囲に属する。
【外国語明細書】