(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023169875
(43)【公開日】2023-11-30
(54)【発明の名称】画像処理装置、画像処理方法及びコンピュータプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20231122BHJP
G06V 10/82 20220101ALI20231122BHJP
【FI】
G06T7/00 350C
G06V10/82
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023077452
(22)【出願日】2023-05-09
(31)【優先権主張番号】202210534473.4
(32)【優先日】2022-05-17
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ニン・ジィアチィ
(72)【発明者】
【氏名】李 斐
(72)【発明者】
【氏名】リィウ・ルゥジエ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA02
5L096CA04
5L096FA09
5L096HA11
(57)【要約】
【課題】本発明は、画像処理装置と方法及びプログラムを提供する。
【解決手段】画像処理装置は画像のグローバル特徴を抽出する第一抽出ユニット;画像における特定の対象に関するキーポイントを検出し、画像のキーポイントに対応するローカル特徴を抽出する第二抽出ユニット;グラフ畳み込みネットワークのための情報転送度量を計算する第一計算ユニットであって、情報転送度量のノードはグローバル特徴及びキーポイントに対応するローカル特徴を含む、第一計算ユニット;及び、情報転送度量を用いてグラフ畳み込みネットワークにより画像のローカル特徴を最適化する第二計算ユニットを含み、第一計算ユニットは、マスク行列を定義し、マスク行列は情報が異なるノードの間で転送されるかを定義し;及び、隣接行列を計算し、隣接行列は異なるノードの間で転送される情報の量を定義することにより情報転送度量を計算する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
画像を処理する装置であって、
前記画像のグローバル特徴を抽出する第一抽出ユニット;
前記画像における特定の対象に関するキーポイントを検出し、前記画像の前記キーポイントに対応するローカル特徴を抽出する第二抽出ユニット;
グラフ畳み込みネットワークのための情報転送度量を計算する第一計算ユニットであって、前記情報転送度量のノードは前記グローバル特徴、及び前記キーポイントに対応するローカル特徴を含む、第一計算ユニット;及び
前記情報転送度量を用いてグラフ畳み込みネットワークにより前記画像のローカル特徴を最適化する第二計算ユニットを含み、
前記第一計算ユニットは、
マスク行列を定義し、前記マスク行列は情報が異なるノードの間で転送されるかを定義し;及び
隣接行列を計算し、前記隣接行列は異なるノードの間で転送される情報の量を定義する
ことにより、前記情報転送度量を計算する、装置。
【請求項2】
請求項1に記載の装置であって、
前記第一計算ユニットは前記ローカル特徴及び前記グローバル特徴に基づいて前記隣接行列の要素を計算する、装置。
【請求項3】
請求項2に記載の装置であって、
前記第一計算ユニットは、
各キーポイントについて、前記ローカル特徴及び前記グローバル特徴に基づいてキーポイントに対応する中間特徴を計算し;
全結合ネットワークにより各キーポイントの中間特徴をそれぞれ中間値としてマッピングし;及び
各キーポイントに対応する中間値に基づいて前記隣接行列を計算する
ことにより、前記隣接行列を計算する、装置。
【請求項4】
請求項3に記載の装置であって、
各キーポイントの中間特徴は各キーポイントのローカル特徴と、対応するグローバル特徴との差の絶対値である、装置。
【請求項5】
請求項3に記載の装置であって、
前記第一計算ユニットは前記隣接行列において、グローバル特徴から異なるキーポイントに対応するローカル特徴への情報転送の量を、キーポイントに対応する中間値の2倍として定義する、装置。
【請求項6】
請求項3に記載の画像処理装置であって、
前記ローカル特徴及び前記グローバル特徴を含む特徴行列を構築する構築ユニットをさらに含み、
前記第一計算ユニットは前記特徴行列及び前記マスク行列に基づいて前記隣接行列を計算し、計算した隣接行列に対して正規化を行い、
前記第二計算ユニットは前記隣接行列と前記特徴行列との乗法演算を行い、演算結果を全結合ネットワークに入力して最適化の特徴行列を得ることで、最適化されるローカル特徴及びグローバル特徴を取得する、装置。
【請求項7】
請求項1乃至6のうちの何れか1項に記載の装置であって、
前記画像はシングル画像であり、
前記マスク行列は情報が前記画像のグローバル特徴とすべてのローカル特徴との間、及び隣接キーポイントに対応するローカル特徴の間で転送されると定義する、装置。
【請求項8】
請求項1乃至6のうちの何れか1項に記載の装置であって、
前記画像は第一撮像ソースからの第一ビデオの連続した複数のフレームの複数の画像であり、
前記情報転送度量のノードは前記複数の画像のうちの各画像のグローバル特徴及び前記複数の画像のうちの各画像のキーポイントに対応するローカル特徴を含む、装置。
【請求項9】
画像を処理する方法であって、
画像のグローバル特徴を抽出し;
前記画像における特定の対象に関するキーポイントを計算し、前記画像の前記キーポイントに対応するローカル特徴を抽出し;
グラフ畳み込みネットワークのための情報転送度量を計算し、前記情報転送度量のノードは前記グローバル特徴、及び前記キーポイントに対応するローカル特徴を含み;及び
前記情報転送度量を用いてグラフ畳み込みネットワークにより前記画像のローカル特徴を最適化することを含み、
前記情報転送度量を計算することは、
マスク行列を定義し、前記マスク行列は情報が異なるノードの間で転送されるかを定義し;及び
隣接行列を計算し、前記隣接行列は異なるノードの間で転送される情報の量を定義する
ことを含む、方法。
【請求項10】
コンピュータに、請求項9に記載の方法を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理の技術分野に関し、特に、再識別(Re-Identification)のための画像処理装置、画像処理方法及びコンピュータプログラムに関する。
【背景技術】
【0002】
再識別はコンピュータビジョンにおける非常に実用的な手法である。それはコンピュータビジョン技術を用いて、画像又はビデオシーケンスに特定の対象(オブジェクト)が存在するかを判断し、インテリジェントビデオ監視、インテリジェントセキュリティなどの分野で広く適用できる。
【0003】
具体的に実施するときに、既存の特徴抽出ネットワークにより画像のグローバル特徴を抽出できる。グローバル特徴を用いて類似度を計算し、類似度を並べ替えることで、再識別の結果を得ることができる。近年の研究では、画像のローカル特徴を合理的に利用することで再識別結果の正確さを向上できることが示されている。キーポイント近傍の特徴を画像のローカル特徴として抽出することは有効なローカル特徴取得方法である。これと同時に、グローバル特徴にはより豊富で全面的な特徴情報が含まれている。よって、グローバル特徴とローカル特徴とを如何に効果的に組み合わせるかは再識別結果の正確さを向上させるための重要な技術である。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の目的は、再識別において特徴を最適化するための画像処理装置、画像処理方法及びコンピュータプログラムを提供することにある。
【課題を解決するための手段】
【0005】
本発明の一側面によれば、画像処理装置が提供され、それは、
画像のグローバル特徴を抽出する第一抽出ユニット;
画像内の特定の対象に関するキーポイントを検出し、かつ画像のキーポイントに対応するローカル特徴を抽出する第二抽出ユニット;
グラフ畳み込みネットワークのための情報転送度量(metric)を計算する第一計算ユニットであって、情報転送度量のノードはグローバル特徴、及びキーポイントに対応するローカル特徴を含む、第一計算ユニット;及び
情報転送度量を用いてグラフ畳み込みネットワークにより前記画像のローカル特徴を最適化する第二計算ユニットを含み、
第一計算ユニットは次の操作(ステップ)により情報転送度量を計算し、即ち、マスク行列(マトリックス)を定義し、マスク行列は情報が異なるノードの間で転送されるかを定義し;及び、隣接行列を計算し、隣接行列は異なるノードの間で転送される情報の量を定義する操作である。
【0006】
本発明のもう1つの側面によれば、画像処理方法が提供され、それは、
画像のグローバル特徴を抽出し;
画像内の特定の対象に関するキーポイントを検出し、かつ画像のキーポイントに対応するローカル特徴を抽出し;
グラフ畳み込みネットワークのための情報転送度量を計算し、情報転送度量のノードはグローバル特徴、及びキーポイントに対応するローカル特徴を含み;及び
情報転送度量を用いてグラフ畳み込みネットワークにより画像のローカル特徴を最適化することを含み、
情報転送度量を計算することは、マスク行列を定義し、マスク行列は情報が異なるノードの間で転送されるかを定義し;及び、隣接行列を計算し、隣接行列は異なるノードの間で転送される情報の量を定義することを含む。
【0007】
本発明のもう1つの側面によれば、マシン可読記憶媒体が提供され、その中にはマシン可読命令コードを含むプログラムが記憶されており、前記命令コードはコンピュータにより読み取られ実行されるときに、前記コンピュータに、本発明による画像処理方法を実行させることができる。
【0008】
本発明のまたもう1つの側面によれば、コンピュータプログラムが提供され、該コンピュータプログラムは、コンピュータに、本発明による画像処理方法を実行させるためのものである。
【発明の効果】
【0009】
本発明による画像処理装置、画像処理方法及びコンピュータプログラムを使用することで、グローバル特徴及びローカル特徴をグラフ畳み込みネットワークのノードとし、かつ隣接行列を合理的に設計してグラフ畳み込みネットワークによりローカル特徴を最適化することで、再識別のためにより良い比較特徴を提供し、再識別結果の正確さをさらに向上させることができる。
【図面の簡単な説明】
【0010】
【
図1】本発明の実施例における画像処理装置の構成図である。
【
図2】本発明のもう1つの実施例における画像処理装置の構成図である。
【
図3】本発明の実施例における画像処理装置の原理図である。
【
図4】本発明の実施例における画像処理装置の原理図である。
【
図5】本発明の実施例における画像処理装置の原理図である。
【
図6】本発明の実施例におけるマスク行列を示す図である。
【
図7】本発明の実施例における画像処理方法のフローチャートである。
【
図8】本発明のもう1つの実施例における画像処理方法のフローチャートである。
【
図9】本発明の実施例における画像処理装置及び方法を実現し得る汎用パソコンの構成図である。
【発明を実施するための形態】
【0011】
以下、添付した図面を参照しながら、本発明を実施するための好適な実施例を詳細に説明する。なお、以下の実施例は例示に過ぎず、本発明を限定するものではない。
【0012】
上述のように本発明は画像のグローバル特徴及びキーポイント近傍のローカル特徴を効果的に利用して対象の再識別、例えば、歩行者の再識別を行うことを目的とする。既存の人体キーポイント予測は高い精度を達成できるが、画像における識別待ちの対象がオクルージョンされることが原因で特徴抽出のパフォーマンスが良くないときに、グラフ畳み込みネットワーク(Graph Convolutional Network、GCN)により特徴を最適化できる。具体的には、キーポイント近傍のローカル特徴をグラフ畳み込みネットワークのノードと見なし、ノードの間で情報を転送することでローカル特徴を最適化できる。しかし、グローバル特徴にはより豊富で全面的な特徴情報が含まれているので、本発明ではグローバル特徴をもグラフ畳み込みネットワークの入力ノードとする。以下、
図1と併せて本発明の実施例における画像処理装置を説明する。
【0013】
図1は本発明の実施例における画像処理装置の構成図である。
図1に示すように、本発明の実施例における画像処理装置100は第一抽出ユニット110、第二抽出ユニット120、第一計算ユニット130及び第二計算ユニット140を含み得る。
【0014】
まず、第一抽出ユニット110は画像のグローバル特徴を抽出できる。ここでは、画像はシングル画像(例えば、1つのフレームの画像)を表しても良く、複数のフレームの画像を表しても良い。
【0015】
また、第二抽出ユニット120は画像内の特定の対象に関するキーポイントを検出し、かつ画像のキーポイントに対応するローカル特徴を抽出できる。例えば、歩行者の再識別では特定の対象は特定の人間である。
【0016】
また、第一計算ユニット130はグラフ畳み込みネットワークに用いる情報転送度量を計算できる。ここでは、情報転送度量のノードはグローバル特徴及びキーポイントに対応するローカル特徴を含む。
【0017】
具体的には、第一計算ユニット130は次の操作(ステップ)により情報転送度量を計算でき、即ち、マスク行列を定義し、マスク行列は情報が異なるノードの間で転送されるかを定義し;及び、隣接行列を計算し、隣接行列は異なるノードの間で転送される情報の量を定義するステップである。また、第一計算ユニット130はローカル特徴及びグローバル特徴に基づいて隣接行列の要素を計算できる。なお、ここでの異なるノードはグローバル特徴及びキーポイントに対応するローカル特徴を含む。詳細な内容については後述する。
【0018】
さらに、第二計算ユニット140は第一計算ユニット130が計算した情報転送度量を用いてグラフ畳み込みネットワークにより画像のローカル特徴を最適化できる。
【0019】
これにより、本発明の実施例における画像処理装置100はグローバル特徴及びローカル特徴の両方をグラフ畳み込みネットワークのノードとし、かつ隣接行列を合理的に設計することで、グラフ畳み込みネットワークを用いてローカル特徴を最適化できる。
【0020】
以下、
図2乃至
図6と併せて画像処理装置の構成をより詳しく説明する。
【0021】
図2は本発明のもう1つの実施例における画像処理装置の構成図である。
図2に示すように、本発明のもう1つの実施例における画像処理装置200は第一抽出ユニット210、キーポイント検出ユニット2201、ローカル特徴抽出ユニット2202、構築ユニット250、第一計算ユニット230、第二計算ユニット240及びマッチング・ソーティング・ユニット260を含み得る。
図2に示す第一抽出ユニット210は
図1における第一抽出ユニット110に対応し、キーポイント検出ユニット2201及びローカル特徴抽出ユニット2202は
図1における第二抽出ユニット120に対応し、第一計算ユニット230は
図1における第一計算ユニット130に対応し、また、第二計算ユニット240は
図1における第二計算ユニット140に対応する。
【0022】
まず、第一抽出ユニット210は画像のグローバル特徴を抽出できる。
【0023】
また、キーポイント検出ユニット2201は画像における特定の対象、例えば、歩行者に関するキーポイントを検出でき、かつローカル特徴抽出ユニット2202は画像のキーポイントに対応するローカル特徴を抽出できる。
【0024】
また、構築ユニット250はローカル特徴及びグローバル特徴を含む特徴行列を構築できる。
【0025】
また、第一計算ユニット130は構築ユニット250が構築した特徴行列に基づいてグラフ畳み込みネットワーク用の情報転送度量を計算できる。具体的には、第一計算ユニット130は次の操作により情報転送度量を計算し、即ち、マスク行列を定義し、マスク行列は情報が異なるノードの間で転送されるかを定義し;及び、特徴行列に基づいて隣接行列を計算し、隣接行列は異なるノードの間で転送される情報の量を定義する操作である。
【0026】
具体的には、第一計算ユニット130はローカル特徴及びグローバル特徴に基づいて隣接行列の要素を計算できる。例えば、第一計算ユニット130は次の方式で隣接行列の要素を計算し、即ち、各キーポイントについて、ローカル特徴及びグローバル特徴に基づいてキーポイントに対応する中間特徴を計算し;全結合ネットワークにより各キーポイントの中間特徴を中間値としてそれぞれマッピングし;及び、各キーポイントに対応する中間値に基づいて隣接行列を計算する。上述の各キーポイントの中間特徴は各キーポイントのローカル特徴と、対応するグローバル特徴との差の絶対値である。
【0027】
また、第一計算ユニット130は計算した隣接行列に対して正規化を行う。
【0028】
さらに、第二計算ユニット140は隣接行列及び特徴行列に対して行列の乗法演算を行い、演算結果を全結合ネットワークに入力して最適化される特徴行列を得ることで、最適化されるローカル特徴及びグローバル特徴を取得できる。
【0029】
これにより、本発明はグラフ畳み込みネットワークを設計している。該ネットワークでは、グローバル特徴及びローカル特徴は何れもグラフ畳み込みネットワークの入力ノードとされる。また、ノード間の転送度量(ローカル特徴とローカル特徴との間の転送度量及びローカル特徴とグローバル特徴との間の転送度量を含む)は各特徴間の関係に基づいてネットワーク学習により得られる。
【0030】
以下、上述の画像がシングル画像、及びビデオ内の連続した複数のフレームの画像であるケースについてそれぞれ
図2における各ユニットの操作を詳細に説明する。
【0031】
<画像がシングル画像であるケース>
画像がシングル画像である場合、マスク行列は、情報が画像のグローバル特徴とすべてのローカル特徴との間、及び隣接キーポイントに対応するローカル特徴の間で転送されると定義する。以下、
図3と併せてシングル画像のケースについて説明する。
図3は本発明の実施例における画像処理装置の原理図である。
【0032】
図3に示すように、本発明ではグローバル特徴をグラフ畳み込みネットワークの入力ノードの1つとして用いる。
図3の下部には人体の例が示されており、このような場合、キーポイント検出ユニット2201は人体に対応する、番号が0、1、…、12である13個のキーポイント(図中の小さい円点)を検出でき、また、ローカル特徴抽出ユニット2202はそれぞれこの13個のキーポイントに対応するローカル特徴を抽出できる。グローバル特徴(図中の大きい円形)は第一抽出ユニット210により算出される。よって、分かるように、該画像について、13個のローカル特徴及び1つのグローバル特徴を得ることができる。
【0033】
各特徴の次元数が2048であるとする場合、構築ユニット250は、すべての特徴を、サイズが14×2048である特徴行列Xとして構成できる。そのうち、行列の第1行乃至第13行は画像のローカル特徴であり、行列の第14行は画像のグローバル特徴である。特徴行列Xの各々の行はグラフ畳み込みネットワークにおける1つのノードであり、第i行は第i個目のノードであり、トータルで14個のノードがある。なお、2048は次元数の一例に過ぎず、本発明はこれに限定されず、他の次元数であっても良く、また、特定の対象が人間である場合、13個のキーポイントを検出できるが、他の対象の場合、対象点の数は対応して変わり得る。
【0034】
また、第一計算ユニット230はサイズが14×14であるマスク行列Mを生成できる。本発明の例示的な定義では、ノードjからノードiへの情報転送が存在する場合、M(i,j)=1であり、そうでない場合、M(i,j)=0である。
【0035】
図3の下部に示す例における矢印は情報転送の方向を示す。なお、図面が不明瞭になるのを避けるために、すべての情報転送が示されているわけではない。ローカル特徴間の転送方式は人体骨骼構造により決定される。よって、隣接位置のキーポイントのローカル特徴の間は情報転送を行うことができ、キーポイントが人体骨骼構造において遠く離れる場合、情報転送は行われない。
図3に示す例では、グローバル特徴とすべてのローカル特徴との間、及び、隣接するキーポイントに対応するローカル特徴の間には情報転送が存在する。また、
図3では最適化されるローカル特徴のみが示されているが、上述のように、グローバル特徴も同時に最適化され得る。
【0036】
また、第一計算ユニット230は隣接行列Aを計算できる。fi(i=0,1,2,…,13)が特徴行列Xの中の第i行の特徴ベクトルであるとする。以下の式(1)のように、各ローカル特徴とグローバル特徴との距離diを計算する。
【0037】
di=abs(fi-f13),i=0,1,2,…,13 (1)
式(1)に示すように、各キーポイントのdiは各キーポイントのローカル特徴と、対応グローバル特徴との差の絶対値である。
【0038】
第一計算ユニット230はdiを全結合ネットワークによってDiとしてマッピングする。ここでのdiは本発明における中間特徴の一例であり、Diは本発明における中間値の一例である。diはサイズが1×2048であり、Diは実数であり、かつすべてのDi(0≦i≦12)の和はハイパーパラメータである。
【0039】
理解できるように、各ローカル特徴はその信頼性を表すスコアにマッピングできる。Diが大きいほど、ノードiのスコアが低くなり、即ち、信頼性が低くなり、Diが小さいほど、ノードiのスコアが高くなり、即ち、信頼性が高くなる。該スコアに基づいて、高信頼性を有するノードは低信頼性を有するノードへより多くの情報を転送する。逆に、低信頼性を有するノードは高信頼性を有するノードへより少ない情報を転送する。よって、グラフ畳み込みネットワークにより情報をより効果的に転送できる。
【0040】
M(i,j)=0の場合、A(i,j)=0であり、これはノードjからノードiへの情報転送がないことを表す。
【0041】
M(i,j)=1、0≦i、かつj≦12である場合、以下の式(2)によりA(i,j)を計算する。
【0042】
A(i,j)=ReLU(1+Di-Dj)×(Di+Dj) (2)
式(2)では、ReLUは、その後の値がゼロ(0)よりも大きいときに、演算値がその後の値であり、その後の値がゼロ以下のときに、演算値がゼロであることを表す。式(2)はローカル特徴とローカル特徴との間の情報転送度量を表す。なお、A(i,j)はノードjからノードiへ転送される情報の量を表す。これは上述の信頼性に関する説明とも一致している。言い換えると、式(2)では、Di>Djのときに、A(i,j)>A(j,i)である。
【0043】
グローバル特徴はすべてのローカル特徴へ情報を転送するので、M(i,13)=1(0≦i≦12)である。この場合、以下の式(3)により情報転送の量を定義する。
【0044】
A(i,13)=2Di (3)
式(3)はグローバル特徴からローカル特徴への情報転送度量を表す。式(3)に示すように、グローバル特徴から、異なるキーポイントに対応するローカル特徴への情報転送の量を、キーポイントに対応する中間値Diの2倍として定義する。
【0045】
また、ローカル特徴がグローバル特徴に情報を転送しないと定義できるので、M(13,j)=0(0≦j≦12)である。この場合、A(13,j)=0(0≦j≦12)である。
【0046】
また、シングル画像の場合、1つのみのグローバル特徴が存在し、グローバル特徴を同時に最適化するために、M(13,13)=1及びA(13,13)=1を定義する。
【0047】
これにより、第一計算ユニット230は隣接行列Aを得ることができる。最後に、第一計算ユニット230は隣接行列Aに対して正規化を行うことで、各行の要素の和が1になるようにさせる。
【0048】
さらに、第二計算ユニット240は特徴行列Xをグラフ畳み込みネットワークに入力し、以下の式(4)により、改良後のローカル特徴及びグローバル特徴を得ることができる。
【0049】
X_improved=ReLU(fc(AX))+X (4)
ここで、fc(・)は全結合ネットワークである。
【0050】
<画像が連続した複数のフレームの画像であるケース>
画像が撮像ソースからのビデオの連続した複数のフレームの複数の画像である場合、情報転送度量のノードは複数の画像のうちの各画像のグローバル特徴、及び複数の画像のうちの各画像のキーポイントに対応するローカル特徴を含む。以下、
図4及び
図5と併せて複数の画像のケースについて説明する。
図4及び
図5は本発明の実施例における画像処理装置の原理図である。
図4及び
図5では3つの画像の場合が示されているが、本発明の方法はより多くの画像の場合にも適用てきる。以下、識別待ち人間のサンプルを取得し、かつ3フレーム毎に1つのサンプルを構成する場合に基づいて、
図2における各ユニットの操作原理を詳細に説明する。
【0051】
全体として、
図4に示すように、サンプルが3フレームの画像frame_1、frame_2及びframe_3を含むとする。上述の
図3の中の人体の例におけるキーポイント、ローカル特徴及びグローバル特徴についての説明と併せて、人体の例では、キーポイントの数Kは13である。よって、第一フレーム画像frame_1についてK個のローカル特徴local 1_1、…、local 1_K及び1つのグローバル特徴global_1を得ることができ、第二フレーム画像frame_2についてK個のローカル特徴local 2_1、…、local 2_K及び1つのグローバル特徴global_2を得ることができ、かつ第三フレーム画像frame_3についてK個のローカル特徴local 3_1、…、local 3_K及び1つのグローバル特徴global_3を得ることができる。
【0052】
図4に示すように、3フレームの画像のノード間での情報転送により、各フレームの画像について、最適化されるグローバル特徴及びローカル特徴を得ることができる。例えば、第一フレーム画像について、global_1’、local 1_1’、…、local 1_K’を得ることができ、第二フレーム画像について、global_2’、local 2_1’、…、local 2_K’を得ることができ、第三フレーム画像について、global_3’、local 3_1’、…、local 3_K’を得ることができる。
【0053】
具体的には、まず、第一抽出ユニット210はサンプルにおける各フレームの画像についてグローバル特徴を抽出し、キーポイント検出ユニット2201は各フレームの画像における人間のキーポイントを検出し、かつローカル特徴抽出ユニット2202は各フレームの画像におけるキーポイント近傍のローカル特徴を抽出する。上述のように、各フレームの画像について13個のローカル特徴及び1つのグローバル特徴を得ることができる。よって、1つのサンプルについて39個のローカル特徴及び3個のグローバル特徴を得ることができる。
【0054】
各特徴の次元数が2048であるとする場合、構築ユニット250はすべての特徴を、サイズが42×2048である特徴行列Xとして構成できる。そのうち、行列の第1行乃至第13行、第14行乃至第26行、第27乃至第39行はそれぞれ第一、第二、第三フレーム画像のローカル特徴であり、行列の第40行、第41行、第42行はそれぞれ、第一、二、三フレーム画像のグローバル特徴である。特徴行列Xの各行はグラフ畳み込みネットワークにおける1つのノードであり、第i行は第i個目のノードであり、トータルで42個のノードがある。
【0055】
また、第一計算ユニット230はサイズが42×42であるマスク行列Mを生成できる。本発明の例示的な定義では、ノードjからノードiへの情報転送が存在する場合、M(i,j)=1であり、そうでない場合、M(i,j)=0である。同じフレームの画像では、ローカル特徴間の転送方式は人体骨骼構造によって決定される。隣接位置のキーポイントのローカル特徴の間は情報転送を行うことができ、キーポイントが人体骨骼構造において遠く離れる場合、情報転送は行われない。また、同一のフレームのグローバル特徴とローカル特徴との間、異なるフレームのグローバル特徴の間、及び異なるフレームのローカル特徴の間も情報転送を行う必要がある。
【0056】
図5は3フレームの画像のノードの間での情報転送方式を示す図である。
図5に示すように、3フレームの場合、シングル画像では、情報転送の方式は上述の
図3と併せて説明された場合と同じである。異なる画像の間では、3フレームのグローバル特徴の間で互いに情報が転送され、例えば、情報はglobal_1、global_2及びglobal_3の間で互いに転送され得る。また、情報は異なる画像の対応キーポイントのローカル特徴の間で転送され、例えば、local 1_1、local 2_1及びlocal 3_1の間で互いに転送され得る。また、情報は異なる画像の隣接キーポイントに対応するローカル特徴の間で転送でき、例えば、local 1_iとlocal 2_k(i及びkはすべて1乃至Kの間の自然数を表す)との間で転送でき、local 1_iとlocal 3_kとの間で転送できる。なお、図面が不明瞭になるのを避けるため、必ずしもすべての情報伝達が示されているわけではない。
【0057】
これにより、各画像について、マスク行列Mは情報が画像のグローバル特徴とすべてのローカル特徴との間、及び隣接キーポイントに対応するローカル特徴の間で転送されると定義でき、かつ異なる画像について、マスク行列Mは情報が異なる画像の対応キーポイントに対応するローカル特徴の間、異なる画像のグローバル特徴の間、及び異なる画像の隣接キーポイントに対応するローカル特徴の間で転送されると定義できる。
【0058】
図6は本発明の実施例におけるマスク行列Mを示す図である。
図6では、垂直方向の数字及び水平方向の数字はそれぞれノード番号0、1、…、41を表す。
図6における黒い色の部分は行列M(i,j)の対応要素の数値が0であることを表し、白い色の部分は行列M(i,j)の対応要素の数値が1であることを表す。マスク行列M(i,j)はノードjからノードiへの情報転送が存在するかを表す。
【0059】
図6に示すように、0≦i≦38かつ0≦j≦38のときに(
図6における枠Aの中)、M(i,j)=M(j,i)であり、言い換えれば、2つのローカル特徴の間の情報転送は双方向である。枠Aにおいて点線で示されている対角線上では3フレームの画像のそれぞれのローカル特徴のその内部での情報転送であり、即ち、0≦i≦12かつ0≦j≦12の領域は第一フレームの画像のローカル特徴の内部の情報転送に対応し、13≦i≦25かつ13≦j≦25の領域は第二フレームの画像のローカル特徴の内部の情報転送に対応し、26≦i≦38かつ26≦j≦38の領域は第3フレームの画像のローカル特徴の内部の情報転送に対応する。また、0≦i≦12かつ13≦j≦25の領域は第二フレームの画像のローカル特徴から第一フレームの画像のローカル特徴への情報転送に対応する。同様に、枠A内の他の領域で表される情報転送の意味をも理解できる。
【0060】
図6における枠Bの領域はグローバル特徴の間で情報が転送されるかを定義する。
図6に示すように、3つのグローバル特徴の互いの間に情報転送が存在する。枠Bの垂直方向の上側及び水平方向の左側の領域はグローバル特徴とローカル特徴との間に情報転送が存在するかを表す。
図6に示すように、枠Bの垂直方向の上側の領域は各フレームの画像のグローバル特徴がそのすべてのローカル特徴へ情報を転送することを指示し、枠Bの水平方向の左側の領域はすべてゼロであり、これはローカル特徴がグローバル特徴へ情報を転送しないことを指示する。
【0061】
以上、本発明におけるマスク行列Mの詳細な内容を説明したが、これはマスク行列の1つの例に過ぎず、マスク行列の具体的な形式は
図6に示すものに限定されない。
【0062】
また、第一計算ユニット230はマスク行列M及び特徴行列Xに基づいて隣接行列Aを計算できる。fi(i=0,1,2,…,41)が特徴行列Xにおける第i行の特徴ベクトルであるとする。次の式(5)乃至(7)のように各ローカル特徴と該ローカル特徴の所在するフレームのグローバル特徴との距離diを計算する。各キーポイントのdiは各キーポイントのローカル特と、対応グローバル特徴との差の絶対値である。
【0063】
di=abs(fi-f39),i=0,1,2,…,12 (5)
di=abs(fi-f40),i=13,14,15,…,25 (6)
di=abs(fi-f41),i=26,28,29,…,38 (7)
第一計算ユニット230はdiを全結合ネットワークによりDiとしてマッピングする。ここでのdiは本発明における中間特徴の一例であり、Diは本発明における中間値の一例である。diのサイズは1×2048であり、Diは実数であり、かつすべてのDi(0≦i≦38)の和はハイパーパラメータである。
【0064】
M(i,j)=0の場合、A(i,j)=0であり、これはノードjからノードiへの情報転送がないことを表す。
【0065】
M(i,j)=1、0≦i、かつj≦38の場合、以下の式(8)によりA(i,j)を計算する。
【0066】
A(i,j)=ReLU(1+Di-Dj)×(Di+Dj) (8)
式(8)はローカル特徴とローカル特徴との間の情報転送度量を表す。
【0067】
M(i,j)=1、0≦i≦38、かつ39≦j≦41の場合、
A(i,j)=2Di (9)
を定義する。式(9)はグローバル特徴とローカル特徴との間の転送度量を表す。よって、分かるように、隣接行列では、グローバル特徴から、異なるキーポイントに対応するローカル特徴への情報転送の量を、キーポイントに対応する中間値Diの2倍として定義する。
【0068】
M(i,j)=1、39≦i、かつj≦41の場合、
A(i,j)=0.5 (10)
を定義する。式(10)はグローバル特徴の間の転送度量を表す。なお、
図6における枠Bに示すように、グローバル特徴は自分へ情報を転送しない。
【0069】
これにより、第一計算ユニット230は隣接行列Aを得ることができる。最後に、第一計算ユニット230は隣接行列Aに対して正規化を行うことで、各行の要素の和が1になるようにさせることができる。
【0070】
さらに、第二計算ユニット240は特徴行列Xをグラフ畳み込みネットワークに入力し、以下の式(11)により、改良後のローカル特徴及びグローバル特徴を得ることができる。
【0071】
X_improved=ReLU(fc(AX))+X (11)
ここで、fc(・)は全結合ネットワークである。
【0072】
上述の例では、サンプルは3フレームの画像を含むが、サンプルはより多くのフレームの画像(仮に画像数をNとする)を含む場合、構築ユニット250はN個の画像のグローバル特徴及びローカル特徴を含む特徴行列を構築できる。画像における特定の対象が人体である場合、特徴行列はサイズが(14*N)×特徴の長さ(例えば2048)である。
【0073】
同様に、第一計算ユニット230はサイズが(14*N)×(14*N)のマスク行列を定義し、かつ対応する隣接行列Aを計算できる。異なる点は、グローバル特徴の間の情報転送度量を計算するときに、異なる画像のグローバル特徴の間の情報転送の量を1/(N-1)として定義することにある。他の計算は3フレームの場合と同様である。
【0074】
複数のフレームの画像の場合に得られた特徴の平均をとるなどの方式により、複数のフレームの画像のローカル特徴及びグローバル特徴を表す対応特徴を得ることができる。
【0075】
よって、本発明では単一のフレームの画像の処理から複数のフレームの画像の処理に拡張でき、また、情報空間次元の有効転送及び情報時間次元の有効転送を同時に行うことができるグラフ畳み込みネットワークをも設計している。そのうち、ノード間の転送方式は同一のフレームの画像のローカル特徴の間、同一のフレームの画像のローカル特徴とグローバル特徴との間、異なるフレームの画像の同じキーポイントのローカル特徴の間、異なるフレームの画像の異なるキーポイントのローカル特徴の間、異なるフレームの画像のグローバル特徴の間などの転送を含む。ノード間の転送度量は各特徴の間の関係に基づいてネットワーク学習により得られ得る。
【0076】
複数のフレームの画像に異なるオクルージョンモード及びより豊富な情報量が存在する可能性があるので、再識別結果の正確さをより効果的に向上させることができる。
【0077】
<マッチング・ソーティング>
上述の方法により、シングル画像(単一の画像)又は複数のフレームの画像について、最適化されるローカル特徴及びグローバル特徴を得ることができる。
【0078】
上述の方法は識別待ちのサンプルだけでなく、サーチ待ちのサンプルについても行うことができる。ここでは、サーチ待ちのサンプルとは、再識別において識別される必要のある特定の対象が存在することが既知であるサンプルを指し、識別待ちのサンプルとは、識別される必要のある、複数の対象を含むサンプルを指す。サーチ待ちのサンプル及び識別待ちのサンプルはすべて、シングル画像又は複数のフレームの画像であっても良い。サーチ待ちのサンプルについて上述の処理を行うことで、サーチ待ちのサンプルの、サーチ待ちの特定の対象についての改良後のローカル特徴及びグローバル特徴を得ることができる。識別待ちのサンプルについて上述の処理を行うことで、識別待ちのサンプルの、その中に含まれる複数の対象のうちの各対象についての改良後のローカル特徴及びグローバル特徴を得ることができる。改良後の特徴を用いて、識別待ちとサーチ待ちのサンプルの間の類似度のマッチング及び並べ替えを行い、再識別結果を取得することで、識別待ちのサンプルの中のどの対象がサーチ待ちの特定の対象であるかを見つけることができる。
【0079】
これは
図2におけるマッチング・ソーティング・ユニット260により実現され得る。つまり、マッチング・ソーティング・ユニット260は識別待ちのサンプルとサーチ待ちのサンプルの最適化後のローカル特徴又は最適化後のローカル特徴及びグローバル特徴を比較し、かつ比較結果に対して並べ替えを行うことで、識別待ちのサンプルにおけるどの対象がサーチ待ちのサンプルにおいてサーチされる必要のある特定の対象であるかを決定できる。
【0080】
例えば、シングル画像に対してサーチを行う場合、画像は異なる撮像ソースからの第一画像及び第二画像であると見なすことができる。例えば、第一画像はサーチ待ちの特定の対象が指定されたサーチ待ちの画像であり、第二画像は複数の対象を含む識別待ちの画像である。上述の方法を用いて第一画像における特定の対象及び第二画像における複数の対象のうちの各対象についてそれぞれ最適化される特徴行列を得ることで、最適化されるローカル特徴及びグローバル特徴を得ることができる。マッチング・ソーティング・ユニット260は第一画像と第二画像の最適化後のローカル特徴又は最適化後のローカル特徴及びグローバル特徴を比較することで、第二画像の中のどの対象が第一画像における特定の対象であるかを確定できる。
【0081】
そのうち、第二画像から、複数の対象のうちの各対象に関する画像(それぞれ、異なる対象がマークされている複数の第二画像)を取得し、その後、各第二画像においてマークされている対象について特徴を最適化することで、各対象の最適化後の特徴を得ることができる。
【0082】
例えば、複数のフレームの画像を含むサンプルに対してサーチを行う場合、画像は第一撮像ソースからの第一ビデオの連続した複数のフレームの複数の画像(第一サンプル)及び第二撮像ソースからの第二ビデオの連続した複数のフレームの複数の画像(第二サンプル)を含むと見なすことができる。例えば、第一サンプルはサーチ待ちの特定の対象が指定されたサーチ待ちのサンプルであり、第二サンプルは複数の対象を含む識別待ちのサンプルである。上述の方法を用いて、第一サンプルにおける特定の対象及び第二サンプルにおける複数の対象のうちの各対象についてそれぞれ最適化される特徴行列を得ることができる。マッチング・ソーティング・ユニット260は第一サンプルと第二サンプルの最適化後のローカル特徴又は最適化後のローカル特徴及びグローバル特徴を比較することで、第二サンプルにおけるどの対象が第一サンプルにおける特定の対象であるかを確定できる。
【0083】
そのうち、対象追跡方法により、第二サンプルから複数の対象のうちの各対象に関するサンプル(それぞれ、異なる対象がマークされている複数の第二サンプル)を取得し、その後、各第二サンプルにおいてマークされている対象について特徴を最適化することで、各対象の最適化後の特徴を得ることができる。
【0084】
なお、サーチ待ちのサンプルにおけるサーチ待ちの特定の対象は複数の対象であっても良い。このような場合、サーチ待ちのサンプルにおける特定の対象のうちの各々に対して上述の処理を行うだけで、識別待ちのサンプルにおけるどの対象がサーチ待ちの該特定の対象であるかを確定できる。また、上述の例では、サーチ待ちのサンプル及び識別待ちのサンプルがそれぞれシングル画像又は複数のフレームの画像である場合について説明したが、理解できるように、本発明はシングル画像又は複数のフレームの画像についてローカル特徴及びグローバル特徴を最適化することを目的とするので、適用例は上述の場合に限定されず、例えば、サーチ待ちのサンプルがシングル画像であり、かつ識別待ちのサンプルが複数のフレームの画像である場合にも適用できる。
【0085】
また、サーチ待ちのサンプルにおける特定の対象が指定されない場合、サーチ待ちのサンプル及び識別待ちのサンプルにおける複数の対象についてそれぞれ特徴を最適化し、その後、マッチング及びソーティングを行うことで、両者には同様の対象が含まれるかを決めることもできる。
【0086】
以下、
図7と併せて本発明の実施例における画像処理方法について説明する。
【0087】
図7に示すように、本発明の実施例における画像処理方法はステップS110でスタートする。ステップS110では画像のグローバル特徴を抽出する。
【0088】
続いて、ステップS120では画像内の特定の対象に関するキーポイントを検出し、かつ画像のキーポイントに対応するローカル特徴を抽出する。
【0089】
続いて、ステップS130ではグラフ畳み込みネットワークのための情報転送度量を計算し、情報転送度量のノードはグローバル特徴及びキーポイントに対応するローカル特徴を含む。情報転送度量を計算することは、マスク行列を定義し、マスク行列は情報が異なるノードの間で転送されるかを定義し;及び、隣接行列を計算し、隣接行列は異なるノードの間で転送される情報の量を定義することを含む。ローカル特徴及びグローバル特徴に基づいて隣接行列の要素を計算できる。
【0090】
続いて、ステップS140では情報転送度量を用いてグラフ畳み込みネットワークにより画像のローカル特徴を最適化する。その後、プロセスは終了する。
【0091】
本発明の実施例によれば、隣接行列の計算は各キーポイントについて、ローカル特徴及びグローバル特徴に基づいてキーポイントに対応する中間特徴を計算し;全結合ネットワークにより各キーポイントの中間特徴をそれぞれ中間値としてマッピングし;及び、各キーポイントに対応する中間値に基づいて隣接行列を計算することを含む。具体的には、各キーポイントの中間特徴は各キーポイントのローカル特徴と、対応グローバル特徴との差の絶対値である。隣接行列では、グローバル特徴から異なるキーポイントに対応するローカル特徴への情報転送の量を、キーポイントに対応する中間値の2倍として定義する。
【0092】
本発明の実施例によれば、該方法はさらに、ローカル特徴及びグローバル特徴を含む特徴行列を構築し;隣接行列に対して正規化を行い;及び、隣接行列と特徴行列との行列の乗法演算を行い、演算結果を全結合ネットワークに入力して最適化される特徴行列を得ることで、最適化されるローカル特徴及びグローバル特徴を得ることを含む。
【0093】
本発明の実施例によれば、画像がシングル画像である場合、マスク行列は情報が画像のグローバル特徴とすべてのローカル特徴の間、及び隣接キーポイントに対応するローカル特徴の間で転送されると定義する。
【0094】
本発明の実施例によれば、画像が第一撮像ソースからの第一ビデオの連続した複数のフレームの複数の画像である場合、情報転送度量のノードは複数の画像のうちの各画像のグローバル特徴及び複数の画像のうちの各画像のキーポイントに対応するローカル特徴を含む。
【0095】
具体的には、各画像について、マスク行列は情報が画像のグローバル特徴とすべてのローカル特徴の間、及び隣接キーポイントに対応するローカル特徴の間で転送されると定義し、かつ異なる画像について、マスク行列は情報が異なる画像の対応キーポイントに対応するローカル特徴の間、異なる画像のグローバル特徴の間、及び異なる画像の隣接キーポイントに対応するローカル特徴の間で転送されると定義する。
【0096】
これにより、本発明の実施例における画像処理方法によれば、グローバル特徴及びローカル特徴をグラフ畳み込みネットワークのノードとし、かつ隣接行列を合理的に設計することで、グラフ畳み込みネットワークによりローカル特徴及びグローバル特徴を最適化できる。
【0097】
以下、
図8と併せて本発明のもう1つの実施例における画像処理方法について説明する。
【0098】
図8に示すように、本発明の実施例における画像処理方法はステップS210でスタートする。ステップS210では識別待ちの対象のサンプルを得る。
【0099】
続いて、ステップS220ではサンプルにおける各フレームの画像のグローバル特徴を抽出する。
【0100】
続いて、ステップS230ではサンプルにおける各フレームの画像のキーポイント近傍のローカル特徴を抽出する。
【0101】
続いて、ステップS240ではサンプルの全部のローカル特徴及びグローバル特徴を特徴行列Xとして構成し、そして、特徴行列Xをグラフ畳み込みネットワークに入力することで、改良後のグローバル特徴及びローカル特徴を取得する。
【0102】
続いて、ステップS250ではサーチ待ちの対象のサンプルについて、識別待ちの対象のサンプルと同じ処理方法により、改良後のグローバル特徴及びローカル特徴を得る。
【0103】
続いて、ステップS260では改良後の特徴を用いて、識別待ちとサーチ待ちのサンプルの間の類似度のマッチング及びソーティングを行い、再識別結果を取得する。この後、プロセスは終了する。
【0104】
これにより、本発明の実施例における画像処理方法によれば、グローバル特徴及びローカル特徴をグラフ畳み込みネットワークのノードとし、かつ隣接行列を合理的に設計してグラフ畳み込みネットワークを用いてローカル特徴及びグローバル特徴を最適化することで、再識別のためにより良い比較特徴を提供し、再識別結果の正確さをさらに向上させることができる。
【0105】
なお、本発明の実施例における画像処理方法の上述のステップの様々な具体的な実施方式については前に既に詳細に説明されているから、ここではその詳しい説明を省略する。
【0106】
また、上述の方法及び装置における各ユニットはソフトウェア、ファームウェア、ハードウェア又はその組み合わせの方式で構成され得る。なお、構成時に使用できる具体的な手段や方法は当業者に周知であるため、ここではその詳しい説明を省略する。ソフトウェア又はファームウェアにより実現される場合、記憶媒体やネットワークから専用ハードウェア構造を有するコンピュータ(例えば、
図9に示す汎用コンピュータ1300)に該ソフトウェアを構成するプログラムをインストールし、該コンピュータは各種のプログラムがインストールされているときに、各種の機能などを実行できる。
【0107】
また、明らかのように、本発明による方法の各操作(ステップ)のプロセスは各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現され得る。
【0108】
さらに、本発明の目的は次のような方式で実現されても良く、即ち、実行可能なプログラムコードを記憶している記憶媒体をシステム又は装置に直接又は間接的に提供し、該システム又は装置におけるコンピュータ又は中央処理ユニット(CPU)により上述のプログラムコードを読み取って実行する。このときに、該システム又は装置がプログラム実行可能な機能を有すれば、本発明の実施例はプログラムに限定されず、また、該プログラムは任意の形式のもの、例えば、オブジェクト指向型プログラム、インタープリター実行可能なプログラム、OSに提供するスクリプトプログラムなどであっても良い。
【0109】
上述のようなマシン可読記憶媒体は、各種の記憶器及び記憶ユニット、半導体デバイス、磁気、光磁気ディスクなどの磁気ディスク装置、及び情報を格納するのに適した他の媒体が含まれるが、これらに限定されない。
【0110】
また、コンピュータはインターネット上の対応するウェブサイトに接続し、本発明によるコンピュータプログラムコードをダウンロードしてコンピュータにインストールした後に該プログラムを実行することで、本発明の技術案を実現することもできる。
【0111】
図9は本発明の実施例における方法及び/又は装置を実現し得る汎用パソコンの例示的な構成を示す図である。
【0112】
図9に示すように、コンピュータ1300は、例えば、コンピュータシステムであっても良い。なお、コンピュータ1300は例示に過ぎず、本発明による方法及び装置の適用範囲又は機能について限定しない。また、コンピュータ1300は、上述の方法及び装置における任意のモジュールやアセンブリなど又はその組み合わせにも依存しない。
【0113】
図9では、中央処理装置(CPU)1301は、ROM1302に記憶されているプログラム又は記憶部1308からRAM1303にロッドされているプログラムに基づいて各種の処理を行う。RAM1303では、ニーズに応じて、CPU1301が各種の処理を行うときに必要なデータなどを記憶することもできる。CPU1301、ROM1302及びRAM1303は、バス1304を経由して互いに接続される。入力/出力インターフェース1305もバス1304に接続される。
【0114】
また、入力/出力インターフェース1305には、さらに、次のような部品が接続され、即ち、キーボードなどを含む入力部1306、液晶表示器(LCD)などのような表示器及びスピーカーなどを含む出力部1307、ハードディスクなどを含む記憶部1308、ネットワーク・インターフェース・カード、例えば、LANカード、モデムなどを含む通信部1309である。通信部1309は、例えば、インターネット、LANなどのネットワークを経由して通信処理を行う。ドライブ1310は、ニーズに応じて、入力/出力インターフェース1305に接続されても良い。取り外し可能な媒体1311、例えば、半導体メモリなどは、必要に応じて、ドライブ1310にセットされることにより、その中から読み取られたコンピュータプログラムを記憶部1308にインストールすることができる。
【0115】
また、本発明は、さらに、マシン可読命令コードを含むプログラムプロダクトを提供する。このような命令コードは、マシンにより読み取られて実行されるときに、上述の本発明の実施形態における方法を実行することができる。それ相応に、このようなプログラムプロダクトをキャリー(carry)する、例えば、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(CD-ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体記憶器などの各種記憶媒体も、本発明に含まれる。
【0116】
上述の記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などを含んでも良いが、これらに限定されない。
【0117】
また、上述の方法における各操作(処理)は、各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現することもできる。
【0118】
また、以上の実施例などに関し、さらに以下のように付記として開示する。
【0119】
(付記1)
画像処理装置であって、
画像のグローバル特徴を抽出する第一抽出ユニット;
前記画像における特定の対象に関するキーポイントを検出し、かつ前記画像の前記キーポイントに対応のローカル特徴を抽出する第二抽出ユニット;
グラフ畳み込みネットワークのための情報転送度量を計算する第一計算ユニットであって、前記情報転送度量のノードは前記グローバル特徴、及び前記キーポイントに対応するローカル特徴を含む、第一計算ユニット;及び
前記情報転送度量を用いてグラフ畳み込みネットワークにより前記画像のローカル特徴を最適化する第二計算ユニットを含み、
前記第一計算ユニットは以下の操作により前記情報転送度量を計算し、即ち、
マスク行列を定義し、前記マスク行列は情報が異なるノードの間で転送されるかを定義し;及び
隣接行列を計算し、前記隣接行列は異なるノードの間で転送される情報の量を定義する操作である、装置。
【0120】
(付記2)
付記1に記載の画像処理装置であって、
前記第一計算ユニットは前記ローカル特徴及び前記グローバル特徴に基づいて前記隣接行列の要素を計算する、装置。
【0121】
(付記3)
付記2に記載の画像処理装置であって、
前記第一計算ユニットは以下の操作により前記隣接行列を計算し、即ち、
各キーポイントについて、前記ローカル特徴及び前記グローバル特徴に基づいてキーポイントに対応する中間特徴を計算し;及び
全結合ネットワークにより各キーポイントの中間特徴をそれぞれ中間値としてマッピングし;及び
各キーポイントに対応する中間値に基づいて前記隣接行列を計算する操作である、装置。
【0122】
(付記4)
付記3に記載の画像処理装置であって、
各キーポイントの中間特徴は各キーポイントのローカル特徴と、対応グローバル特徴との差の絶対値である、装置。
【0123】
(付記5)
付記3に記載の画像処理装置であって、
前記第一計算ユニットは前記隣接行列において、グローバル特徴から異なるキーポイントに対応するローカル特徴への情報転送の量を、キーポイントに対応する中間値の2倍として定義する、装置。
【0124】
(付記6)
付記3に記載の画像処理装置であって、
前記ローカル特徴及び前記グローバル特徴を含む特徴行列を構築する構築ユニットをさらに含み、
前記第一計算ユニットは前記特徴行列及び前記マスク行列に基づいて前記隣接行列を計算し、かつ計算した隣接行列に対して正規化を行い、
前記第二計算ユニットは前記隣接行列と前記特徴行列との行列の乗法演算を行い、演算結果を全結合ネットワークに入力して最適化の特徴行列を得ることで、最適化されるローカル特徴及びグローバル特徴を取得する、装置。
【0125】
(付記7)
付記1乃至6のうちの任意の1項に記載の画像処理装置であって、
前記画像はシングル画像であり、かつ前記マスク行列は情報が前記画像のグローバル特徴とすべてのローカル特徴の間、及び隣接キーポイントに対応するローカル特徴の間で転送されると定義する、装置。
【0126】
(付記8)
付記1乃至6のうちの任意の1項に記載の画像処理装置であって、
前記画像は第一撮像ソースからの第一ビデオの連続した複数のフレームの複数の画像であり、かつ前記情報転送度量のノードは前記複数の画像のうちの各画像のグローバル特徴及び前記複数の画像のうちの各画像のキーポイントに対応するローカル特徴を含む、装置。
【0127】
(付記9)
画像処理方法であって、
画像のグローバル特徴を抽出し;
前記画像における特定の対象に関するキーポイントを検出し、かつ前記画像の前記キーポイントに対応するローカル特徴を抽出し;
グラフ畳み込みネットワークのための情報転送度量を計算し、前記情報転送度量のノードは前記グローバル特徴及び前記キーポイントに対応するローカル特徴を含み;及び
前記情報転送度量を用いてグラフ畳み込みネットワークにより前記画像のローカル特徴を最適化することを含み、
前記情報転送度量の計算は、
マスク行列を定義し、前記マスク行列は情報が異なるノードの間で転送されるかを定義し;及び
隣接行列を計算し、前記隣接行列は異なるノードの間で転送される情報の量を定義することを含む、方法。
【0128】
(付記10)
付記9に記載の方法であって、
前記ローカル特徴及び前記グローバル特徴に基づいて前記隣接行列の要素を計算する、方法。
【0129】
(付記11)
付記10に記載の方法であって、
前記隣接行列の計算は、
各キーポイントについて、前記ローカル特徴及び前記グローバル特徴に基づいてキーポイントに対応する中間特徴を計算し;
全結合ネットワークにより各キーポイントの中間特徴を中間値としてそれぞれマッピングし;及び
各キーポイントに対応する中間値に基づいて前記隣接行列を計算することを含む、方法。
【0130】
(付記12)
付記11に記載の方法であって、
各キーポイントの中間特徴は各キーポイントのローカル特徴と、対応グローバル特徴との差の絶対値である、方法。
【0131】
(付記13)
付記11に記載の方法であって、
前記隣接行列では、グローバル特徴から異なるキーポイントに対応するローカル特徴への情報転送の量を、キーポイントに対応する中間値の2倍として定義する、方法。
【0132】
(付記14)
付記11に記載の方法であって、さらに、
前記ローカル特徴及び前記グローバル特徴を含む特徴行列を構築し;
前記特徴行列及び前記マスク行列に基づいて前記隣接行列を計算し、かつ前記隣接行列に対して正規化を行い;及び
前記隣接行列と前記特徴行列との行列の乗法演算を行い、演算結果を結合ネットワークに入力して最適化される特徴行列を得ることで、最適化されるローカル特徴及びグローバル特徴を得ることを含む、方法。
【0133】
(付記15)
付記9乃至14のうちの任意の1項に記載の方法であって、
前記画像はシングル画像であり、かつ前記マスク行列は情報が前記画像のグローバル特徴とすべてのローカル特徴の間、及び隣接キーポイントに対応するローカル特徴の間で転送されると定義する、方法。
【0134】
(付記16)
付記9乃至14のうちの任意の1項に記載の方法であって、
前記画像は第一撮像ソースからの第一ビデオの連続した複数のフレームの複数の画像であり、かつ前記情報転送度量のノードは前記複数の画像のうちの各画像のグローバル特徴及び前記複数の画像のうちの各画像のキーポイントに対応するローカル特徴を含む、方法。
【0135】
(付記17)
付記16に記載の方法であって、
各画像について、前記マスク行列は情報が画像のグローバル特徴とすべてのローカル特徴の間、及び隣接キーポイントに対応するローカル特徴の間で転送されると定義し、
異なる画像について、前記マスク行列は情報が異なる画像の対応キーポイントに対応するローカル特徴の間、異なる画像のグローバル特徴の間、及び異なる画像の隣接キーポイントに対応するローカル特徴の間で転送されると定義する、方法。
【0136】
(付記18)
付記16に記載の方法であって、
前記複数の画像の数はNであり、前記隣接行列では、異なる画像のグローバル特徴の間の情報転送の量を1/(N-1)として定義する、方法。
【0137】
(付記19)
付記9に記載の方法であって、
前記特定の対象は前記画像において部分的にブロックされる、方法。
【0138】
(付記20)
マシン可読記憶媒体であって、
マシン可読命令コードを含むプログラムを記憶しており、
前記命令コードはコンピュータにより実行されるときに、前記コンピュータに、付記9乃至19に記載の画像処理方法を実行させる、マシン可読記憶媒体。
【0139】
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は、本発明の技術的範囲に属する。