IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 上▲海▼商▲湯▼智能科技有限公司の特許一覧

特表2022-552761目標再認識方法、装置、機器、記憶媒体及びプログラム製品
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-12-20
(54)【発明の名称】目標再認識方法、装置、機器、記憶媒体及びプログラム製品
(51)【国際特許分類】
   G06V 10/75 20220101AFI20221213BHJP
   G06V 20/52 20220101ALI20221213BHJP
   G06F 16/532 20190101ALI20221213BHJP
【FI】
G06V10/75
G06V20/52
G06F16/532
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021574956
(86)(22)【出願日】2020-12-28
(85)【翻訳文提出日】2021-12-16
(86)【国際出願番号】 CN2020140303
(87)【国際公開番号】W WO2022062243
(87)【国際公開日】2022-03-31
(31)【優先権主張番号】202011022834.4
(32)【優先日】2020-09-25
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.SMALLTALK
(71)【出願人】
【識別番号】520180323
【氏名又は名称】上▲海▼商▲湯▼智能科技有限公司
【氏名又は名称原語表記】SHANGHAI SENSETIME INTELLIGENT TECHNOLOGY CO., LTD.
【住所又は居所原語表記】Room 1605A, Building 3, 391 Guiping Road, Xuhui District, Shanghai 200233 China
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】▲紀▼▲悳▼益
(72)【発明者】
【氏名】甘▲偉▼豪
【テーマコード(参考)】
5B175
5L096
【Fターム(参考)】
5B175DA02
5B175HB03
5L096AA06
5L096BA02
5L096CA05
5L096DA02
5L096GA51
5L096HA08
5L096HA11
5L096JA03
5L096JA11
5L096JA18
5L096KA04
5L096KA15
(57)【要約】
本開示の実施例は目標再認識方法、装置、機器、記憶媒体及びプログラム製品に関し、該方法は、目標対象画像の第1特徴値及び処理される画像集合に対応する第2特徴値集合について処理される画像集合から候補画像集合を予備的に決定することであって、候補画像集合内のいずれか2枚の画像間の類似値は予め設定された類似値以上であること、及び訓練されておいたグラフ関連認識ネットワークに基づいて第1特徴値及び第2特徴値集合を認識し、候補画像集合から目標対象画像中の目標対象に比較的類似した目標画像集合を決定することという、2回の画像絞り込みを含む。
【特許請求の範囲】
【請求項1】
目標対象画像及び処理される画像集合を取得することであって、前記目標対象画像には目標対象が含まれることと、
前記目標対象画像の第1特徴値及び前記処理される画像集合に対応する第2特徴値集合に基づき、前記処理される画像集合から候補画像集合を決定することであって、前記候補画像集合内のいずれか2枚の画像間の類似値は予め設定された類似値以上であることと、
訓練されておいたグラフ関連認識ネットワークに基づき、前記第1特徴値及び前記第2特徴値集合を認識し、前記候補画像集合から目標画像集合を決定することであって、前記目標画像集合内の画像に含まれる対象と前記目標対象との第1類似度値は、非目標画像に含まれる対象と前記目標対象との第1類似度値以上であり、前記候補画像集合は前記目標画像集合及び前記非目標画像を含むことと、を含む、目標再認識方法。
【請求項2】
前記グラフ関連認識ネットワークは第1グラフ構造構築サブネットワーク、グラフ関連更新サブネットワーク及び分類器を含み、前記第1グラフ構造構築サブネットワークと、前記グラフ関連更新サブネットワークと、前記分類器とはシリアル接続され、
訓練されておいたグラフ関連認識ネットワークに基づき、前記第1特徴値及び前記第2特徴値集合を認識し、前記候補画像集合から目標画像集合を決定することは、
前記第1特徴値及び前記第2特徴値集合を前記第1グラフ構造構築サブネットワークに入力して、第1グラフ構造を得ることであって、前記第1グラフ構造はノード及び2つのノードを結ぶためのリンクを含み、前記ノードの数は前記候補画像集合内の画像の数と同じであり、2つのノードを結ぶ前記リンクは結ばれる前記2つのノード間の類似度及び予め設定された類似度に基づいて決定されることと、
前記第1グラフ構造を前記グラフ関連更新サブネットワークに入力して、更新して最適化された後の第2グラフ構造を得ることと、
前記分類器によって前記第2グラフ構造に基づき、前記候補画像集合内の各候補画像に対応する第1類似度値を決定することと、
前記各候補画像に対応する第1類似度値及び類似度閾値に基づき、前記目標画像集合を決定することと、を含む
請求項1に記載の方法。
【請求項3】
前記分類器によって前記第2グラフ構造に基づいて前記候補画像集合内の各候補画像に対応する第1類似度値を決定することは、
前記第1グラフ構造と前記第2グラフ構造を加算して融合して、第3グラフ構造を得ることと、
前記分類器によって前記第3グラフ構造に基づいて前記候補画像集合内の各候補画像に対応する第1類似度値を決定することと、を含む
請求項2に記載の方法。
【請求項4】
前記グラフ関連更新サブネットワークはアテンションメカニズム層、複数のグラフ畳み込み層、複数の活性化層及び複数の完全接続層を含み、
前記アテンションメカニズム層と、前記複数のグラフ畳み込み層と、前記複数の活性化層と、前記複数の完全接続層とはシリアル接続され、
前記第1グラフ構造を前記グラフ関連更新サブネットワークに入力して、更新して最適化された後の第2グラフ構造を得ることは、
前記第1グラフ構造を前記アテンションメカニズム層に入力して、前記第1グラフ構造における各ノードの重みベクトルを得ることと、
前記各ノードの重みベクトル及び前記第1グラフ構造を前記アテンションメカニズム層の次の層の入力として決定することと、
前記複数のグラフ畳み込み層、前記複数の活性化層及び前記複数の完全接続層のうちの現在処理しているいずれかの層を現在層として決定することと、
前記現在層の前の層の出力を前記現在層の入力とし、計算処理を経てから現在層の出力を得ることと、
いずれかの前記現在層の対応する出力が存在する場合、前記グラフ関連更新サブネットワークにおける最終層の出力に基づき、更新して最適化された後の第2グラフ構造を得ることと、を含む
請求項2に記載の方法。
【請求項5】
前記目標対象画像の第1特徴値及び前記処理される画像集合に対応する第2特徴値集合に基づき、前記処理される画像集合から候補画像集合を決定することは、
特徴コード抽出ネットワークに基づいて前記目標対象画像に含まれる前記目標対象の第1特徴値を決定することと、
前記特徴コード抽出ネットワークに基づいて前記処理される画像集合内の各処理される画像に含まれる対象の第2特徴値を決定することと、
前記第2特徴値及び前記第1特徴値に基づき、各前記処理される画像に対応する第2類似度値を決定することと、
前記第2類似度値に基づき、前記処理される画像集合から候補画像集合を決定することと、を含む
請求項1から4のいずれか1項に記載の方法。
【請求項6】
前記第2類似度値に基づき、前記処理される画像集合から候補画像集合を決定することは、
各前記処理される画像に対応する第2類似度値を値の大きい順に並べ替えることと、
上位N位の第2類似度値に対応する処理される画像に基づいて前記候補画像集合を得ることと、を含む
請求項5に記載の方法。
【請求項7】
前記第2類似度値に基づき、前記処理される画像集合から候補画像集合を決定することは、
各前記処理される画像に対応する第2類似度値を値の大きい順に並べ替えることと、
上位N1位の第2類似度値に対応する処理される画像に基づいて前記処理される画像集合を第1候補画像集合と非第1候補画像集合に分けることであって、ここで、前記第1候補画像集合は前記上位N1位の第2類似度値に対応する処理される画像を含むことと、
前記第1候補画像集合内の画像の第2特徴値及び前記非第1候補画像集合内の画像の第2特徴値に基づき、前記非第1候補画像集合からN2枚の画像を決定して、第2候補画像集合を形成することと、
前記第1候補画像集合及び前記第2候補画像集合に基づき、前記候補画像集合を決定することと、を含む
請求項5に記載の方法。
【請求項8】
前記第1候補画像集合内の画像の第2特徴値及び前記非第1候補画像集合内の画像の第2特徴値に基づき、前記非第1候補画像集合からN2枚の画像を決定して、第2候補画像集合を形成することは、
前記第1候補画像集合内の現在使用されているいずれかの画像を現在画像として確認することと、
前記現在画像の第2特徴値及び前記非第1候補画像集合内の画像の第2特徴値に基づき、前記非第1候補画像集合内の各画像に対応する第3類似度値を決定することと、
各前記画像に対応する第3類似度値に基づき、前記非第1候補画像集合から前記現在画像に対応する第3候補画像集合を決定することと、
各前記現在画像いずれも対応する第3候補画像集合が存在する場合、各前記現在画像に対応する第3候補画像集合に基づいてN2枚の画像を決定し、第2候補画像集合を形成することと、を含む
請求項7に記載の方法。
【請求項9】
前記候補画像集合から目標画像集合を決定した後に、さらに、
前記目標画像集合内の画像の属性情報を決定することと、
前記属性情報に基づき、前記目標画像集合内の画像に含まれる対象に対して軌跡行為解析を行うことと、を含む
請求項1に記載の方法。
【請求項10】
前記属性情報は画像取得位置及び画像取得時間を含み、
前記属性情報に基づき、前記目標画像集合内の画像に含まれる対象に対して軌跡行為解析を行うことは、
前記画像取得時間に基づいて前記目標画像集合内の画像を並べ替えることと、
前記画像取得位置及び並べ替えられた後の画像に基づき、前記目標画像集合内の画像に含まれる対象に対して運動軌跡決定及び行為推定を行うことと、を含む
請求項9に記載の方法。
【請求項11】
目標対象画像及び処理される画像集合を取得するように構成される画像取得モジュールであって、前記目標対象画像には目標対象が含まれる画像取得モジュールと、
前記目標対象画像の第1特徴値及び前記処理される画像集合に対応する第2特徴値集合に基づき、前記処理される画像集合から候補画像集合を決定するように構成される候補画像決定モジュールであって、前記候補画像集合内のいずれか2枚の画像間の類似値は予め設定された類似値以上である候補画像決定モジュールと、
訓練されておいたグラフ関連認識ネットワークに基づき、前記第1特徴値及び前記第2特徴値集合を認識して、前記候補画像集合から目標画像集合を決定するように構成される目標画像決定モジュールであって、前記目標画像集合内の画像に含まれる対象と前記目標対象との第1類似度値は、非目標画像に含まれる対象と前記目標対象との第1類似度値以上であり、前記候補画像集合は前記目標画像集合及び前記非目標画像を含む目標画像決定モジュールと、を含む、目標再認識装置。
【請求項12】
プロセッサによりロードされ且つ請求項1から10のいずれか1項に記載の目標再認識方法を実現するように実行される少なくとも1つの命令又は少なくとも1つのプログラムが記憶されている、コンピュータ読み取り可能な記憶媒体。
【請求項13】
少なくとも1つのプロセッサ、及び前記少なくとも1つのプロセッサと通信接続されるメモリを含む電子機器であって、前記メモリには前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記少なくとも1つのプロセッサは前記メモリに記憶された命令を実行することで、請求項1から10のいずれか1項に記載の目標再認識方法を実現する、前記電子機器。
【請求項14】
機器において実行される時、機器内のプロセッサが請求項1から10のいずれか1項に記載の目標再認識方法を実現するように実行するコンピュータ読み取り可能なコードを含む、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本開示は出願番号が202011022834.4であり、出願日が2020年09月25日である中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照によって本開示に組み込まれる。
【0002】
本開示はコンピュータ技術分野に関し、特に目標再認識方法、装置、機器、記憶媒体及びプログラム製品に関する。
【背景技術】
【0003】
目標再認識はコンピュータビジョン及び知的映像監視分野の重要な課題であり、その目的は同一目標が同じ又は異なるカメラに出現した位置を決定することである。都市化プロセスの推進及び市街地カメラの絶え間ない増加に伴い、目標再認識は、例えば歩行者の歩行行為解析、カメラ間の歩行者及び車両追跡、及び歩行者や車両の異常行為の検出等、多数の分野において重要な実際の応用があるようになっている。しかし、実際の応用において、シーンにおける他の目標に妨害され得、及び目標同士間に極めて類似する外観的特徴が存在し得る等の要因は、いずれも目標再認識のプロセスに悪影響を与える。
【発明の概要】
【課題を解決するための手段】
【0004】
本開示の実施例は目標再認識に係る技術的解決手段を提供する。
【0005】
本開示の実施例の一態様によれば、目標再認識方法を提供し、目標対象画像及び処理される画像集合を取得することであって、目標対象画像には目標対象が含まれることと、目標対象画像の第1特徴値及び処理される画像集合に対応する第2特徴値集合に基づいて処理される画像集合から候補画像集合を決定することであって、候補画像集合内のいずれか2枚の画像間の類似値は予め設定された類似値以上であることと、訓練されておいたグラフ関連認識ネットワークに基づき、第1特徴値及び第2特徴値集合を認識し、候補画像集合から目標画像集合を決定することであって、目標画像集合内の画像に含まれる対象と目標対象との第1類似度値は、非目標画像に含まれる対象と目標対象との第1類似度値以上であり、候補画像集合は目標画像集合及び非目標画像を含むことと、を含む。このように、処理される画像集合からより正確なポジティブサンプルを決定し、ネガティブサンプルからの妨害を低減し、目標画像集合を得ることで、後続で目標画像集合内の画像の属性情報に基づいてそれに含まれる対象に対して軌跡行為解析を行った結果の正確性を向上させることができる。
【0006】
一部の可能な実施形態において、上記グラフ関連認識ネットワークは第1グラフ構造構築サブネットワーク、グラフ関連更新サブネットワーク及び分類器を含み、第1グラフ構造構築サブネットワークと、グラフ関連更新サブネットワークと、分類器とはシリアル接続され、訓練されておいたグラフ関連認識ネットワークに基づき、第1特徴値及び第2特徴値集合を認識し、候補画像集合から目標画像集合を決定することは、第1特徴値及び第2特徴値集合を第1グラフ構造構築サブネットワークに入力して、第1グラフ構造を得ることであって、第1グラフ構造はノード及び2つのノードを結ぶためのリンクを含み、ノードの数は候補画像集合内の画像の数と同じであり、2つのノードを結ぶリンクは結ばれる2つのノード間の類似度及び予め設定された類似度に基づいて決定されることと、第1グラフ構造をグラフ関連更新サブネットワークに入力して、更新して最適化された後の第2グラフ構造を得ることと、分類器によって第2グラフ構造に基づいて候補画像集合内の各候補画像に対応する第1類似度値を決定することと、各候補画像に対応する第1類似度値及び類似度閾値に基づいて目標画像集合を決定することと、を含む。常套の畳み込みニューラルネットワークに比べ、グラフ畳み込みニューラルネットワークにより不規則なグラフデータに対してより効果的に特有のノード分類、リンク予測を行うことができ、用途がより広い。
【0007】
一部の可能な実施形態において、分類器によって第2グラフ構造に基づいて候補画像集合内の各候補画像に対応する第1類似度値を決定することは、第1グラフ構造と第2グラフ構造を加算して融合して、第3グラフ構造を得ることと、分類器によって第3グラフ構造に基づいて候補画像集合内の各候補画像に対応する第1類似度値を決定することと、を含む。原始の第1グラフ構造と第2グラフ構造を加算して融合することで、最適化プロセスにおいて制御不能で不安定なパラメータにより生じる不利な要因が全体のグラフ構造に与える影響を軽減することができる。
【0008】
一部の可能な実施形態において、上記グラフ関連更新サブネットワークはアテンションメカニズム層、複数のグラフ畳み込み層、複数の活性化層及び複数の完全接続層を含み、アテンションメカニズム層と、複数のグラフ畳み込み層と、複数の活性化層と、複数の完全接続層とはシリアル接続され、第1グラフ構造をグラフ関連更新サブネットワークに入力して、更新して最適化された後の第2グラフ構造を得ることは、第1グラフ構造をアテンションメカニズム層に入力して、第1グラフ構造における各ノードの重みベクトルを得ることと、各ノードの重みベクトル及び第1グラフ構造をアテンションメカニズム層の次の層の入力として決定することと、複数のグラフ畳み込み層、複数の活性化層及び複数の完全接続層のうちの現在処理しているいずれかの層を現在層として決定することと、現在層の前の層の出力を現在層の入力とし、計算処理を経て現在層の出力を得ることと、いずれかの現在層の対応する出力が存在する場合、グラフ関連更新サブネットワークにおける最終層の出力に基づき、更新して最適化された後の第2グラフ構造を得ることと、を含む。グラフ関連更新サブネットワークの各層の数及び位置関係を調整することで、様々な応用シーンについてネットワークアーキテクチャを柔軟に構築することを実現し、要求により適合する第2グラフ構造を得ることができる。
【0009】
一部の可能な実施形態において、目標対象画像の第1特徴値及び処理される画像集合に対応する第2特徴値集合に基づいて処理される画像集合から候補画像集合を決定することは、特徴コード抽出ネットワークに基づいて目標対象画像に含まれる目標対象の第1特徴値を決定することと、特徴コード抽出ネットワークに基づいて処理される画像集合内の各画像に含まれる対象の第2特徴値を決定することと、第2特徴値及び第1特徴値に基づいて各画像に対応する第2類似度値を決定することと、第2類似度値に基づいて処理される画像集合から候補画像集合を決定することと、を含む。特徴値間の類似度によって、候補画像集合から正確に候補画像集合を予備的に決定し、後続の画像処理ための基盤を築くことができる。
【0010】
一部の可能な実施形態において、第2類似度値に基づいて処理される画像集合から候補画像集合を決定することは、各処理される画像に対応する第2類似度値を値の大きい順に並べ替えることと、上位N位の第2類似度値に対応する処理される画像に基づいて候補画像集合を得ることと、を含む。第2類似度値の並べ替えによって、予め設定されたN枚の画像を選び出すステップに対応して、解決手段の多様性を高めることができる。
【0011】
一部の可能な実施形態において、第2類似度値に基づいて処理される画像集合から候補画像集合を決定することは、各処理される画像に対応する第2類似度値を値の大きい順に並べ替えることと、上位N1位の第2類似度値に対応する処理される画像に基づいて処理される画像集合を第1候補画像集合と非第1候補画像集合に分けることであって、ここで、第1候補画像集合は上位N1位の第2類似度値に対応する画像を含むことと、第1候補画像集合内の画像の第2特徴値及び非第1候補画像集合内の画像の第2特徴値に基づいて非第1候補画像集合からN2枚の画像を決定し、第2候補画像集合を形成することと、第1候補画像集合及び第2候補画像集合に基づいて候補画像集合を決定することと、を含む。1回の選択によって候補画像集合を決定することに比べ、本実施形態は2回の検索によって候補画像集合を段階的に決定することで、より多くの難しいポジティブサンプル画像を候補画像集合に進入させ、後続の画像認識の正確性の向上の基盤を築くとともに、解決手段の多様性を高めることができる。
【0012】
一部の可能な実施形態において、第1候補画像集合内の画像の第2特徴値及び非第1候補画像集合内の画像の第2特徴値に基づいて非第1候補画像集合からN2枚の画像を決定し、第2候補画像集合を形成することは、第1候補画像集合内の現在使用しているいずれかの画像を現在画像として確認することと、現在画像の第2特徴値及び非第1候補画像集合内の画像の第2特徴値に基づいて非第1候補画像集合内の各画像に対応する第3類似度値を決定することと、各画像に対応する第3類似度値に基づいて非第1候補画像集合から現在画像に対応する第3候補画像集合を決定することと、各現在画像いずれも対応する第3候補画像集合が存在する場合、各現在画像に対応する第3候補画像集合に基づいてN2枚の画像を決定し、第2候補画像集合を形成することと、を含む。第1候補画像集合内の画像を基にして2回の検索を行うことで、第1候補画像集合内の画像を遷移画像とし、さらに、候補画像集合を決定するためのより多くのポジティブサンプル画像を得て、後続の画像認識の正確性の向上の基盤を築くことができる。
【0013】
一部の可能な実施形態において、候補画像集合から目標画像集合を決定した後に、さらに、目標画像集合内の画像の属性情報を決定することと、属性情報に基づいて目標画像集合内の画像に含まれる対象に対して軌跡行為解析を行うことと、を含む。属性情報によって、目標画像集合内の画像を実際のシーンに応用することができる。
【0014】
一部の可能な実施形態において、属性情報は画像取得位置及び画像取得時間を含み、属性情報に基づいて目標画像集合内の画像に含まれる対象に対して軌跡行為解析を行うことは、画像取得時間に基づいて目標画像集合内の画像を並べ替えることと、画像取得位置及び並べ替えられた後の画像に基づいて画像に含まれる対象に対して運動軌跡決定及び行為推定を行うことと、を含む。どのように、含まれる属性情報によって対象に対して軌跡行為解析を行うかを限定することで、得られた目標画像集合を特定のシーンに応用可能にし、生活中の実際の問題を解決する。
【0015】
本開示の実施例の第2態様によれば、目標再認識装置を提供し、目標対象画像及び処理される画像集合を取得するように構成される画像取得モジュールであって、目標対象画像には目標対象が含まれる画像取得モジュールと、目標対象画像の第1特徴値及び処理される画像集合に対応する第2特徴値集合に基づいて処理される画像集合から候補画像集合を決定するように構成される候補画像決定モジュールであって、候補画像集合内のいずれか2枚の画像間の類似値は予め設定された類似値以上である候補画像決定モジュールと、訓練されておいたグラフ関連認識ネットワークに基づき、第1特徴値及び第2特徴値集合を認識し、候補画像集合から目標画像集合を決定するように構成される目標画像決定モジュールであって、目標画像集合内の画像に含まれる対象と目標対象との第1類似度値は、非目標画像に含まれる対象と目標対象との第1類似度値以上であり、候補画像集合は目標画像集合及び非目標画像を含む目標画像決定モジュールと、を含む。
【0016】
本開示の実施例の第3態様によれば、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサと通信接続されるメモリを含む電子機器を提供し、メモリには少なくとも1つのプロセッサにより実行可能な命令が記憶されており、少なくとも1つのプロセッサはメモリに記憶された命令を実行することで第1態様のいずれか1項に記載の目標再認識方法を実現する。
【0017】
本開示の実施例の第4態様によれば、プロセッサによりロードされ且つ第1態様のいずれか1項に記載の目標再認識方法を実現するように実行される少なくとも1つの命令又は少なくとも1つのプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供する。
【0018】
本開示の実施例の第5態様によれば、命令を含むコンピュータプログラム製品を提供し、それはコンピュータにおいて実行されるとき、コンピュータに本開示の実施例の第1態様のいずれかの目標再認識方法を実行させる。
【0019】
本開示の実施例において、目標対象画像の第1特徴値及び処理される画像集合に対応する第2特徴値集合について処理される画像集合から候補画像集合を予備的に決定することであって、候補画像集合内のいずれか2枚の画像間の類似値は予め設定された類似値以上であることと、訓練されておいたグラフ関連認識ネットワークに基づき、第1特徴値及び第2特徴値集合を認識し、候補画像集合から目標対象画像中の目標対象に比較的類似した目標画像集合を決定することと、を含む2回の画像絞り込みによって、処理される画像集合からより正確なポジティブサンプルを決定し、ネガティブサンプルからの妨害を低減し、目標画像集合を得て、それにより、後続で目標画像集合内の画像の属性情報に基づいてそれに含まれる対象に対して軌跡行為解析を行った結果の正確性を向上させることができる。
【0020】
以上の一般的な説明と以下の詳細な説明は例示的及び解釈的なものに過ぎず、本開示の実施例を制限しないことを理解すべきである。
【0021】
以下において、図面を参照しながら例示的な実施例について詳細に説明することにより、本開示の実施例の他の特徴及び態様は明瞭になる。
【図面の簡単な説明】
【0022】
図1】本開示の実施例に係る目標再認識方法を示すフローチャートである。
図2】本開示の実施例に係る候補画像集合の取得方法を示すフローチャートである。
図3】本開示の実施例に係る候補画像集合の取得方法を示すフローチャートである。
図4】本開示の実施例に係る第2候補画像集合の取得方法を示すフローチャートである。
図5】本開示の実施例に係る候補画像集合を取得する模式図である。
図6】本開示の実施例に係るグラフ関連認識ネットワークを示す構造的模式図である。
図7】本開示の実施例に係るグラフ関連認識ネットワークに基づいて目標画像集合を決定する方法を示すフローチャートである。
図8】本開示の実施例に係る第1グラフ構造を示す模式図である。
図9】本開示の実施例に係る残差構造を示す模式図である。
図10】本開示の実施例に係るグラフ関連認識ネットワークの訓練方法を示すフローチャートである。
図11A】本開示の実施例に係る目標再認識方法を示す応用フローチャートである。
図11B】本開示の実施例に係る歩行者再認識方法を示す論理フローチャートである。
図11C】本開示の実施例により提供される関連特徴学習フレームワークである。
図11D】本開示の実施例により提供されるベースライブラリから難しいサンプルを選択する模式図である。
図12】本開示の実施例に係る目標再認識装置を示すブロック図である。
図13】本開示の実施例に係る電子機器を示すブロック図である。
図14】本開示の実施例に係る別の電子機器を示すブロック図である。
【発明を実施するための形態】
【0023】
本明細書の実施例又は従来技術における技術的解決手段及び利点をより明確に説明するために、以下において、実施例又は従来技術の記述に必要とされる図面について簡単に紹介するが、当然ながら、以下に説明される図面は本明細書の実施例の一部に過ぎず、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面を得ることができる。
以下において、本明細書の実施例における図面を参照しながら本明細書の実施例における技術的解決手段を明確且つ完全に説明し、当然ながら、説明される実施例は本明細書の一部の実施例に過ぎず、全ての実施例ではない。本明細書における実施例に基づき、当業者が創造的な労力を要することなく得られた他の全ての実施例は、いずれも本発明の保護範囲に属する。
【0024】
なお、本発明の明細書及び特許請求の範囲並びに上記図面における「第1」、「第2」等の用語は必ず特定の順序又は先後順序を記述するためのものではなく、類似する対象を区別するためのものである。このように使用されるデータは、ここで説明される本発明の実施例がここで図示又は説明される以外の順序で実施できるように、適当な場合に交換されてもよいことを理解すべきである。また、「含む」及び「備える」という用語及びそれらのいかなる変形も、非排他的に含むことを意図し、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又はサーバは、必ず明確に挙げられたステップ又はユニットに限定されるものではなく、さらに挙げられていない又はこれらのプロセス、方法、製品又は機器に固有の他のステップ又はユニットを含んでもよい。
【0025】
以下に図面を参照しながら本開示の実施例の様々な例示的実施例、特徴及び態様を詳細に説明する。図面における同じ符号は同じ又は類似する機能の要素を表す。図面において実施例の様々な態様を示したが、特に説明しない限り、比例に従って図面を作る必要がない。
【0026】
ここの用語「例示的」とは、「例、実施例として用いられること又は説明的なもの」を意味する。ここで「例示的」に説明されたいかなる実施例も他の実施例より好ましい又は有利であると解釈される必要はない。
【0027】
本明細書の用語の「及び/又は」は、関連対象の関連関係を記述するためのものに過ぎず、3種の関係が存在可能であることを示し、例えば、A及び/又はBは、Aが単独して存在し、AとBが同時に存在し、Bが単独して存在するという3種の場合を示してもよい。また、本明細書の用語の「少なくとも1種」は多種のうちのいずれか1種又は多種のうちの少なくとも2種の任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1種を含むということは、A、B及びCから構成される集合から選択されるいずれか1つ又は複数の要素を含むことを示してもよい。
【0028】
また、本開示の実施例をより効果的に説明するために、以下の具体的な実施形態において様々な実施詳細を示す。当業者であれば、何らかの実施詳細がなくても、本開示の実施例が同様に実施できるということを理解すべきである。一部の実施例では、本開示の実施例の趣旨を明らかにするように、当業者が既知の方法、手段、要素及び回路に対する詳細な説明を省略する。
【0029】
本開示の実施例により提供される目標再認識の解決手段によれば、目標対象画像及び処理される画像集合を取得し、上記目標対象画像には目標対象が含まれ、目標対象画像の第1特徴値及び処理される画像集合に対応する第2特徴値集合に基づいて処理される画像集合から候補画像集合を決定し、候補画像集合内のいずれか2枚の画像間の類似値は予め設定された類似値以上であり、そして訓練されておいたグラフ関連認識ネットワークに基づいて第1特徴値及び第2特徴値集合を認識して、候補画像集合から目標画像集合を決定し、目標画像集合内の画像に含まれる対象と目標対象との第1類似度値は非目標画像に含まれる対象と目標対象との第1類似度値以上であり、候補画像集合は目標画像集合及び非目標画像を含む。このように、上記2回の画像絞り込みによって、光の照明、複雑な背景等の種々の要因の影響を軽減し、処理される画像集合からより正確なポジティブサンプルを決定し、ネガティブサンプルからの妨害を低減し、目標画像集合を得て、それにより、目標画像集合の画像の属性情報に基づいてそれに含まれる対象に対して軌跡行為解析を行った正確性を向上させることができる。
関連技術の実際の応用において、処理される画像集合内の画像は、光の照明の強度、乱雑な背景又は画像取得機器の画角変化の影響を受けるため、従来のモデリングプロセスにおいて、妨害を生じるネガティブサンプルが比較的多く使用され、又は比較的認識しにくいポジティブサンプルが無視され、それによって、モデリングによって得られたネットワークの精度が低下することにより、応用プロセスにおいて、画像選択の正確度が低下し、さらに、対象軌跡行為解析の正確性に影響が及ぼされる。本開示の実施例により提供される目標再認識方法は、目標対象画像と初期画像の特徴値を比較して、候補画像集合を得て、グラフ関連認識ネットワークに基づいて候補画像集合から目標対象画像の目標対象との類似度がより高い目標画像集合を認識することで、解析される画像の正確度を向上させ、それにより、選び出された目標画像集合において対象に対して十分な軌跡行為解析を行うことができる。
【0030】
本開示の実施例により提供される技術的解決手段は、画像又はビデオにおける目標再認識、目標認識等の応用シーンの拡張に用いられてもよく、本開示の実施例はこれを限定しない。
本開示の実施例により提供される目標再認識方法は端末機器、サーバ又は他のタイプの電子機器により実行されることができ、ここで、端末機器はユーザ側装置(User Equipment:UEと略称)、モバイルデバイス、ユーザ端末、端末、セルラー電話、コードレス電話機、パーソナルデジタアシスタント(Personal Digital Assistant:PDAと略称)、携帯型デバイス、計算装置、車載装置、ウェアラブル装置等であってもよい。一部の可能な実施形態において、該目標再認識方法はプロセッサによりメモリに記憶されたコンピュータ読み取り可能な命令を呼び出すことで実現されることができる。以下において、電子機器を実行主体としたことを例にし、本開示の実施例の目標再認識方法を説明する。例えば、目標再認識方法はプロセッサによりメモリに記憶されたコンピュータ読み取り可能な命令を呼び出すことで実現されてもよい。
【0031】
図1は本開示の実施例に係る目標再認識方法を示しフローチャートであり、図1に示すように、該方法は以下のステップを含む。
【0032】
S10において、目標対象画像及び処理される画像集合を取得し、目標対象画像には目標対象が含まれ。
【0033】
一部の実施形態において、上記の目標対象は乗り物、歩行者又は乗り物と歩行者の組み合わせを含んでもよいが、これらに限定されず、乗り物は自動車、トラック、オートバイ、自転車等であってもよい。
【0034】
一部の実施形態において、電子機器によって目標対象画像を取得してもよく、又は、電子機器は他の機器から目標対象画像を取得してもよく、例えば、電子機器は撮像機器、監視機器等の機器から目標対象画像を取得してもよい。一部の実施形態において、上記目標対象画像はビデオにおける1つのフレームであってもよい。同様に、処理される画像集合は電子機器によって取得されてもよいし、他の機器によって取得されて電子機器に統合されてもよい。
【0035】
本開示の実施例は目標対象画像に基づいて処理される画像集合から目標画像を決定し、さらに目標画像に基づいてそれに含まれる対象に対して軌跡行為解析を行うことを可能にすることを旨とするため、電子機器は一部の画像を意図的及び選択的に取得して、処理される画像集合を形成してもよい。一部の実施形態において、目標対象画像がAカメラによって取得されると仮定すると、電子機器もAカメラによって画像を取得し、及び/又はAカメラの近くに設けられた少なくとも1つのカメラによって一部の画像を取得し、処理される画像集合を形成するようにしてもよい。一部の実施形態において、目標対象画像がAカメラによってある時刻で撮影して得られると仮定すると、電子機器はAカメラが該時刻前後に撮影して得た画像を取得し、及び/又は他のカメラが該時刻前後に撮影して得た画像を取得し、処理される画像集合を形成するようにしてもよい。一部の実施形態において、目標対象画像がAカメラによってある時刻で撮影して得られると仮定すると、電子機器はAカメラが該時刻前後に撮影して得た画像、及び/又はAカメラの近くに設けられた他のカメラによって該時刻前後に撮影して得られた画像を取得し、処理される画像集合を形成するようにしてもよい。このように、前期で多数の妨害画像を排除したため、電子機器が処理される画像集合に対して操作を行う過程で、計算能力が大量節約され、機器コストが削減される。
【0036】
S20においで、目標対象画像の第1特徴値及び処理される画像集合に対応する第2特徴値集合に基づいて処理される画像集合から候補画像集合を決定し、候補画像集合内のいずれか2枚の画像間の類似値は予め設定された類似値以上である。
【0037】
一部の実施形態において、目標対象画像の第1特徴値及び処理される画像集合に対応する第2特徴値集合に基づいて処理される画像集合から候補画像集合を決定する前に、本開示の実施例は処理される画像集合内の画像に対して予備絞り込みを行ってもよい。以下において、目標対象が歩行者であるとして説明し、処理される画像集合を取得する過程で、取得経路の問題又は他の問題により、取得された画像に人という対象が含まれていない場合があり、処理される画像集合内の画像に対して直接第2特徴値の抽出を行えば、機器のコストが大幅に増加するため、電子機器内に設けられた対象認識モジュールによって処理される画像集合内の画像に対して予備絞り込みを行い、人を含まない画像を削除し、よりクリーンな画像データを得るようにしてもよい。
【0038】
本開示の実施例では、処理される画像集合から候補画像集合を決定する方法が様々あり、一部の実施形態において、目標対象画像中の目標対象の性別に基づいて候補画像集合から画像を選び出し、候補画像集合を形成してもよい。ここで、候補画像集合内の画像に含まれる対象の性別は目標対象の性別に一致する。一部の実施形態において、目標対象画像中の目標対象の性別及び体型に基づき、候補画像集合から画像を選び出し、候補画像集合を形成してもよい。ここで、候補画像集合内の画像に含まれる対象の性別及び体型は目標対象の性別及び体型にそれぞれ一致する。
【0039】
一部の実施形態において、本開示の実施例は画像の特徴値を抽出することで候補画像集合を取得し、目標対象画像に含まれる目標対象の第1特徴値を決定し、処理される画像集合内の画像に含まれる対象の第2特徴値を決定し、第2特徴値及び第1特徴値に基づき、各画像に対応する第2類似度値を決定し、第2類似度値に基づいて処理される画像集合から候補画像集合を決定するようにしてもよい。ただし、このような方法では、候補画像集合内のいずれか2枚の画像間の類似値に対して何らの要求もしておらず、つまり、該方法では、候補画像集合内の各画像は目標対象画像のみと関連してもよい。
【0040】
上記2つの方法ではいずれも処理される画像集合内の画像と目標対象画像に対して特徴値を直接比較し、第2類似度値を得る。しかし、画像又はビデオ撮影プロセスにおいて、光の照明、撮影背景及び画角変化等の様々な原因により、処理される画像集合に一定数の難しいポジティブサンプル画像及び難しいネガティブサンプル画像が存在し得ることを考慮すると、前期で候補画像集合を決定するプロセスにおいて、これらの難しいサンプル画像を考慮に入れなければ、後続の画像認識プロセスに悪影響が及ぼされる蓋然性が極めて高い。
【0041】
本開示の実施例において、サンプル画像とは処理される画像集合内の各画像のことであり、ポジティブサンプル画像とは画像に含まれる対象と目標対象が同一対象であるサンプル画像のことであり、ネガティブサンプル画像とは画像に含まれる対象と目標対象が異なる対象であるサンプル画像のことであり。難しいポジティブサンプル画像とは該画像に含まれる対象が目標対象と同一の対象であるが、撮影の光線、対象の姿勢又は他の原因により電子機器がそれを容易に判別できないもののことである。難しいネガティブサンプル画像とは該画像に含まれる対象が目標対象と異なる対象であるが、撮影の光線、対象の姿勢又は他の原因により目標対象と同一の対象であると誤認識されやすいもののことである。
【0042】
上記難しいポジティブサンプル画像及び難しいネガティブサンプル画像の存在を考慮すると、後続の画像認識の正確度を向上させるために、図2は本開示の実施例に係る候補画像集合の取得方法のフローチャートを示し、図2に示すように、該方法は以下のステップを含む。
S201において、特徴コード抽出ネットワークに基づいて目標対象画像に含まれる目標対象の第1特徴値を決定する。
【0043】
一部の実施形態において、目標対象画像を上記特徴コード抽出ネットワークに入力し、特徴コード抽出ネットワークは訓練されておいたものであり、まず目標対象画像上の目標対象に枠を付け、次に枠を付けた目標対象に対して特徴抽出を行い、第1特徴値を得るようにしてもよい。
S202において、特徴コード抽出ネットワークに基づいて処理される画像集合内の画像に含まれる対象の第2特徴値を決定する。
【0044】
一部の実施形態において、電子機器は処理される画像集合内の画像を該特徴コード抽出ネットワークに一括入力し、それによって、該特徴コード抽出ネットワークが画像中の対象に対して特徴抽出を行い、各画像の第2特徴値を得ることを可能にするようにしてもよい。
【0045】
別の一部の実施形態において、処理される画像集合内の画像の数が非常に多い可能性があることを考慮するため、複数の電子機器に特徴コード抽出ネットワークを内蔵し、処理される画像集合を複数のサブ集合に分割し、各サブ集合内の画像に対して1つの電子機器で特徴を抽出し、その後最初の電子機器に集約するようにしてもよい。
【0046】
上記の特徴コード抽出ネットワークは教師なし、教師あり又は半教師あり学習方法で訓練して得られてもよい。一部の実施形態では、特徴コード抽出ネットワークの訓練プロセスにおいて、対象を含む各訓練画像をそれぞれ1つのカテゴリとし、多分類学習を行ってもよい。訓練が完了してから、該ネットワークの最終の分類層を除去し、ネットワークの出力を特徴コードとする。実施において、特徴抽出方法は目標対象画像中の目標対象に対する上記特徴抽出方法を参照すればよい。
【0047】
一部の実施形態において、第1特徴値及び第2特徴値は第1特徴コード及び第2特徴コードと呼ばれてもよく、該第1特徴値及び第2特徴値は様々な形式で出力可能であり、例えばベクトルの形式で出力するか、又は複数桁の2進数の形式で出力してもよく、どの形式で出力するかは実際の要求に応じて決定されてもよく、ここでは説明を省略する。
【0048】
S203において、第2特徴値及び第1特徴値に基づいて各処理される画像に対応する第2類似度値を決定する。
【0049】
一部の実施形態において、電子機器は各第2特徴値及び第1特徴値に基づいて目標対象画像に対する各処理される画像の第2類似度値を算出してもよい。例を挙げれば、処理される画像集合に10000枚の画像があると仮定し、特徴コード抽出ネットワークを通過した後、10000枚の画像に対応する10000個の第2特徴値及び目標対象画像に対応する第1特徴値を得ることができる。各第2特徴値及び第1特徴値を予め設定されたルールに従って計算し、10000個の第2類似度値を得る。
【0050】
S204において、第2類似度値に基づいて処理される画像集合から候補画像集合を決定する。
【0051】
一部の実施形態において、電子機器は予め設定された第2類似度閾値を取得し、得られた第2類似度値と第2類似度閾値とを比較し、第2類似度閾値より大きい第2類似度値に対応する、いずれか2枚の画像間の類似値が予め設定された類似値以上である画像を決定し、該候補画像集合を形成する。
【0052】
別の一部の実施形態において、電子機器は各処理される画像に対応する第2類似度値を値の大きい順に並べ替え、上位N位の第2類似度値に対応する、いずれか2枚の画像間の類似値が予め設定された類似値以上である画像を候補画像集合内の画像として決定するようにしてもよい。例えば、Nが100である場合、処理される画像集合から100枚の画像を決定して候補画像集合を形成する。
【0053】
上記方法において、該候補画像集合内のいずれか2枚の画像間の類似値は予め設定された類似値以上であり、一部の実施形態において、いずれか2枚の画像間の類似値はこの2つの画像の第2特徴値によって計算して得られることができる。つまり、該実施形態は第1特徴値及び第2特徴値の計算によって、候補画像集合内の各候補画像と目標対象画像との関連を決定する必要があるだけでなく、候補画像集合内のいずれか2枚の画像の類似値によって、候補画像集合内の画像の関連を確立する必要もあり、このように、候補画像集合内の難しいポジティブサンプル画像の数をできるだけ増加するとともに、難しいネガティブサンプル画像の数を低下させることができる。一部の実施形態において、上記予め設定された類似値は実際の状況に応じて設定されてもよい。
【0054】
別の一部の実施形態において、電子機器はまず処理される画像集合から第1候補画像集合を決定し、第1候補画像集合のもとに第2候補画像集合を決定し、上記2つの候補画像集合で候補画像集合を形成するようにしてもよい。図3は本開示の実施例に係る候補画像集合の取得方法を示すフローチャートであり、図3に示すように、該方法は以下のステップを含む。
【0055】
S301において、各処理される画像に対応する第2類似度値を値の大きい順に並べ替える。
【0056】
S302において、上位N1位の第2類似度値に対応する処理される画像に基づき、処理される画像集合を第1候補画像集合と非第1候補画像集合に分け、ここで、第1候補画像集合は上位N1位の第2類似度値に対応する画像を含む。
【0057】
代替的に、予め設定された第2類似度閾値を取得し、得られた第2類似度値と第2類似度閾値とを比較して、第2類似度閾値より大きい第2類似度値に対応する処理される画像を決定し、上記の第1候補画像集合を形成し、処理される画像集合内の他の画像は非第1候補画像集合を形成するようにしてもよい。一部の実施形態において、第1候補画像集合と非第1候補画像集合は共通部分を有さない。
S303において、第1候補画像集合内の画像の第2特徴値及び非第1候補画像集合内の画像の第2特徴値に基づき、非第1候補画像集合からN2枚の画像を決定して、第2候補画像集合を形成する。
【0058】
図4は本開示の実施例に係る第2候補画像集合の取得方法を示すフローチャートであり、図4に示すように、該方法は以下のステップを含む。
【0059】
S401において、第1候補画像集合内の現在使用しているいずれかの画像を現在画像とする。
【0060】
N1が10であると仮定すると、1回目の選択プロセスにおいて決定された第1候補画像集合には10枚の画像がある。この10枚の画像の各画像はいずれもステップS401-S403の処理を経る。
【0061】
S402において、現在画像の第2特徴値及び非第1候補画像集合内の画像の第2特徴値に基づき、非第1候補画像集合内の各画像に対応する第3類似度値を決定する。
【0062】
仮定される処理される画像集合に合計10000枚の画像があることに基づいて引き続き説明し、上記例において第1候補画像集合に10枚の画像が含まれることが説明されたため、非第1候補画像集合はさらに9990枚の画像を含み、このステップで、電子機器は現在画像の第2特徴値及び9990枚の画像の第2特徴値に基づいて現在画像に対する9990枚の画像の第3類似度値を得る。
【0063】
S403において、各画像に対応する第3類似度値に基づき、非第1候補画像集合から現在画像に対応する第3候補画像集合を決定する。
【0064】
一部の実施形態において、電子機器は第3類似度閾値を予め設定し、第3類似度閾値より大きい第3類似度値に対応する画像を現在画像に対応する第3候補画像集合内へ決定するようにしてもよい。
【0065】
一部の実施形態において、電子機器は9990個の第3類似度値を並べ替え、上位数位の第3類似度値に対応する画像を現在画像に対応する第3候補画像集合内へ決定する。
【0066】
S404おいて、各現在画像いずれも対応する第3候補画像集合が存在する場合、各現在画像に対応する第3候補画像集合に基づいてN2枚の画像を決定し、第2候補画像集合を形成する。
【0067】
このように、各現在画像いずれも対応する第3候補画像集合が存在する場合、つまり、第1候補画像集合内の10枚の画像がそれらとの類似度を満たす画像が存在する場合、各現在画像に対応する第3候補画像集合に基づいてN2枚の画像を決定し、第2候補画像集合を形成する。
【0068】
一部の実施形態において、第1候補画像集合内の異なる画像に対応する第3候補画像集合内に重複する画像が存在する場合がある。このような重複画像が存在する場合について、候補画像集合を形成してから、それを再検出し、重複画像を削除する。一部の実施形態において、候補画像集合を形成してから、それを再検出し、重複画像を削除し、さらに、要件を満たすN2枚の画像が決定されるまで、第3類似度値に基づいて第2候補画像集合に対して画像を補充してもよい。一部の実施形態において、N1とN2の和はNであってもよい。
【0069】
S304において、第1候補画像集合及び第2候補画像集合に基づいて候補画像集合を決定する。
【0070】
本開示の実施例において、第1候補画像集合と第2候補画像集合を合併し、候補画像集合を得るようにしてもよく、候補画像集合内のいずれか2枚の画像間の類似値は予め設定された類似値以上である。
【0071】
図5は本開示の実施例に係る候補画像集合を取得する模式図を示し、図5に示すように、目標対象画像に基づき、初期画像集合51に対して選別し、第1候補集合の画像及び第2候補集合の画像を得て、この2つの部分の画像で候補画像集合52を形成する。上記の実施例において、第1候補画像集合内の画像は遷移画像と見なされてもよく、例えば、目標対象画像は歩行者の正面画像であり、第1候補画像集合内の画像は該歩行者の側面画像であってもよく、第2候補画像集合内の画像は該歩行者の背面画像であってもよく、正面画像に比べ、背面画像と側面画像中の歩行者の類似点がより多い可能性があるため、側面画像から背面画像が決定される可能性がより高い。従って、このような実施形態において、電子機器は2回の検索によって最大検索数を限定し、画像と目標対象画像との間の関係だけでなく、処理される画像集合内の画像間の類似性関係も利用して、難しいポジティブサンプル画像をできるだけ発掘し、候補画像集合内のポジティブサンプルの確率を向上させ、後続の画像処理の基盤を築く。
【0072】
S30において、訓練されておいたグラフ関連認識ネットワークに基づき、第1特徴値及び第2特徴値集合を認識し、候補画像集合から目標画像集合を決定し、目標画像集合内の画像に含まれる対象と目標対象との第1類似度値は、非目標画像に含まれる対象と目標対象との第1類似度値以上であり、候補画像集合は目標画像集合及び非目標画像を含む。
【0073】
一部の実施形態において、グラフ関連認識ネットワークは畳み込みニューラルネットワーク、リカレントニューラルネットワーク又は再帰ニューラルネットワーク等の深層学習ネットワークを含むことができるが、これらに限定されない。畳み込みニューラルネットワークを例にし、大量の訓練データセットを取得し、各訓練データセットに目標対象画像の第1特徴値及び候補画像の第2特徴値、並びにラベル付けされた目標画像が含まれ、そして、大量の訓練データセットに基づいて畳み込みニューラルネットワークに対して目標画像認識訓練を行い、訓練中に該畳み込みニューラルネットワークのパラメータを、畳み込みニューラルネットワークから出力される目標画像とラベル付けされた目標画像がマッチするまで調整し、グラフ関連認識ネットワークを得るようにしてもよい。
【0074】
一部の実施形態において、グラフ関連認識ネットワークはグラフ畳み込みニューラルネットワークを含んでもよいが、これに限定されない。その理由は以下のとおりである。現実生活において、実際に不規則なデータ構造が多くあり、典型的なものは第1グラフ構造であり、それはトポロジ構造とも呼ばれ、例えばソーシャルネットワーク、化学分子構造、知識グラフ等であり、たとえ言語でも、実際に内部が複雑なツリー構造であり、第1グラフ構造の1つでもあるが、画像のようなものについて、目標認識を行う際に、実際に二次元画像上の一部のキーポイントのみが着目されており、これらのキーポイントからなるものもグラフ構造の1つである。グラフの構造は一般的に非常に不規則であり、無限次元のデータと認められてもよいので、並進不変性を有さない。各ノードの周囲構造は唯一無二のものであり得、このような構造のデータでは、従来の畳み込みニューラルネットワークの応用効果が低いのに対し、グラフ畳み込みニューラルネットワークではグラフデータから特徴を抽出する方法が巧妙に設計され、それにより、これらの特徴を使用してグラフデータに対してノード分類(node classification)、グラフ分類(graph classification)、リンク予測(link prediction)を行うことが可能になり、ついでにグラフ埋め込み(graph embedding)を得ることもでき、その用途が広く且つ適切である。
【0075】
図6は本開示の実施例に係るグラフ関連認識ネットワークを示す構造的模式図であり、図6に示すように、上記グラフ関連認識ネットワークは第1グラフ構造構築サブネットワーク61、グラフ関連更新サブネットワーク62及び分類器63を含んでもよく、ここで、第1グラフ構造構築サブネットワーク61と、グラフ関連更新サブネットワーク62と、分類器63とはシリアル接続される。まず、第1特徴値及び第2特徴値集合601を第1グラフ構造構築サブネットワーク61に入力して第1グラフ構造602を得て、次に第1グラフ構造602をグラフ関連更新サブネットワーク62に入力して第2グラフ構造603を得て、最後に第2グラフ構造602を分類器63に入力して目標画像集合を得る。
【0076】
図7は本開示の実施例に係るグラフ関連認識ネットワークに基づいて目標画像集合を決定する方法を示す模式図であり、図7に示すように、以下のステップを含む。
S701において、上記第1特徴値及び上記第2特徴値集合を上記第1グラフ構造構築サブネットワークに入力して、第1グラフ構造を得て、上記第1グラフ構造はノード及び2つのノードを結ぶためのリンクを含み、上記ノードの数は上記候補画像集合内の画像の数と同じであり、上記2つのノードを結ぶリンクは結ばれる上記2つのノード間の類似度及び予め設定された類似度に基づいて決定される。
【0077】
一部の実施形態において、上記の候補画像集合内の画像が100枚である例により引き続き説明し、電子機器は第1特徴値及び第2特徴値集合を第1グラフ構造構築サブネットワークに入力し、第1グラフ構造構築サブネットワークは各第2特徴値と第1特徴値の差を求め、各第2特徴値に対応する関連特徴値を得て、各関連特徴値とはその対応する画像と目標対象画像との関連関係をいう。各関連特徴値は1つのノードとして定義されるため、100個のノードが決定できる。任意の2つのノードに対応する関連特徴値に基づいてこの2つのノード間の類似度を決定し、順列と組み合わせの公式によれば、2つのノード間の類似度を、100*99/2=4950回求める必要があり、予め設定された類似度より大きい類似度が存在する場合、その対応する2つのノード間でリンクを作ることができる。このように、図8に示す第1グラフ構造を得ることができ、図8に示す第1グラフ構造は一部のノード81及びノード間のリンク82を例示するものに過ぎない。
S702において、上記第1グラフ構造を上記グラフ関連更新サブネットワークに入力して、更新して最適化された後の第2グラフ構造を得る。
【0078】
一部の実施形態において、上記グラフ関連更新サブネットワークは複数のグラフ畳み込み層、複数の活性化層及び複数の完全接続層を含んでもよく、複数のグラフ畳み込み層と、複数の活性化層と、複数の完全接続層とはシリアル接続される。
【0079】
一部の実施形態において、同じ数のグラフ畳み込み層及び完全接続層が存在してもよく、ここで、各グラフ畳み込み層の後に1つの活性化層が存在する。例えば、グラフ畳み込み層-活性化層-完全接続層-グラフ畳み込み層-活性化層-完全接続層-グラフ畳み込み層-活性化層-完全接続層……完全接続層のような形式を表現してもよい。
【0080】
一部の実施形態において、異なる数のグラフ畳み込み層及び完全接続層が存在してもよく、各グラフ畳み込み層及び各完全接続層の後に1つの活性化層が存在する。例えば、グラフ畳み込み層-活性化層-グラフ畳み込み層-活性化層-グラフ畳み込み層-活性化層-……完全接続層-活性化層-完全接続層-活性化層……完全接続層-活性化層のような形式を表現してもよい。
【0081】
関連更新サブネットワークにおけるグラフ畳み込み層、完全接続層及び活性化層の数及び前後位置関係は実際の要求に応じて設定されてもよく、例えば、9層のグラフ畳み込み層を設けてもよい。
【0082】
一部の実施形態において、グラフ畳み込み層推論の有効性を強化することで、畳み込みプロセスにおいて、2つのポジティブサンプルに対応するノード間の関連を強化し、ポジティブサンプルとネガティブサンプルに対応するノード間の関連を減少させるために、グラフ畳み込み層にアテンションメカニズムを追加してもよい。従って、該グラフ関連更新サブネットワークはアテンションメカニズム層、複数のグラフ畳み込み層、複数の活性化層及び複数の完全接続層を含み、ここで、アテンションメカニズム層と、複数のグラフ畳み込み層と、複数の活性化層と、複数の完全接続層とはシリアル接続される。該アテンションメカニズム層の数は実際の状況に応じて設定されてもよい。一部の実施形態において、アテンションメカニズム層が1つのみ存在してもよく、該アテンションメカニズム層は1番目のグラフ畳み込み層の前に設けられてもよい。数の実施形態において、各グラフ畳み込み層の前に1つのアテンションメカニズム層を設けてもよい。
【0083】
一部の実施形態において、1番目のグラフ畳み込み層の前にのみアテンションメカニズム層を設けると仮定すると、第1グラフ構造をグラフ関連更新サブネットワークに入力して、更新して最適化された後の第2グラフ構造を得ることは以下のように示してもよい。各ノードの重みベクトル及び第1グラフ構造をアテンションメカニズム層の次の層の入力として決定し、複数のグラフ畳み込み層、複数の活性化層及び複数の完全接続層のうちの現在処理しているいずれかの層を現在層として決定し、現在層の前の層の出力を現在層の入力とし、計算処理を経てから現在層の出力を得て、そしていずれかの現在層の対応する出力が存在する場合、グラフ関連更新サブネットワークにおける最後の層の出力に基づき、更新して最適化された後の第2グラフ構造を得る。各グラフ畳み込み層の前にアテンションメカニズム層を設ける計算プロセスは上記の計算プロセスを参照すればよく、ここでは繰り返し説明しない。
【0084】
一部の実施形態において、該深層学習ネットワークのネットワーク深度による勾配消失及び勾配爆発という問題が存在する可能性があり、データの初期化(normlized initializatiton)及び正則化(batch normlization)を使用して該勾配の問題を解決できるが、深度の増加により、他の問題が生じ、つまり、ネットワーク性能の劣化問題が生じ、つまり、ネットワーク深度が増加したが、誤り率が上昇するため、残差構造により劣化の問題を解決してもよく、それに伴い、勾配の問題も解決され、ネットワークの性能も向上する。図9に示すように、残差構造はグラフ畳み込み層91、正則化メカニズム92及び活性化層93を含んでもよく、入力された生データが順にグラフ畳み込み層91及び正則化メカニズム92を通過して得られた結果を生データと加算してから活性化層内に送り、最終の目標データを得る。
【0085】
S703において、分類器によって第2グラフ構造に基づいて上記候補画像集合内の各候補画像に対応する第1類似度値を決定する。
【0086】
一部の実施形態において、第1グラフ構造と第2グラフ構造を加算して融合し、第3グラフ構造を得て、そして分類器によって第3グラフ構造に基づいて候補画像集合内の各候補画像に対応する第1類似度値を決定するようにしてもよい。第1グラフ構造上の第iノードに対応する数値と第2グラフ構造上の第iノードに対応する数値を加算し、第3グラフ構造の第iノードに対応する数値を得て、構造が不変のままで、第3グラフ構造を得るようにしてもよく、又は、第1グラフ構造上の第iノードに対応する数値と第2グラフ構造上の第iノードに対応する数値を加算して平均値を求め、第3グラフ構造の第iノードに対応する数値を得て、構造が不変のままで、第3グラフ構造を得るようにしてもよく、又は、第1グラフ構造上の第iノードに対応する数値と第2グラフ構造上の第iノードに対応する数値を重み付け加算し、第3グラフ構造の第iノードに対応する数値を得て、構造が不変のままで、第3グラフ構造を得るようにしてもよい。上記第1グラフ構造上の第iノード、第2グラフ構造上の第iノード及び第3グラフ構造上の第iノードはいずれも同一の画像に対応するノードである。
【0087】
S704において、上記各候補画像に対応する第1類似度値及び類似度閾値に基づいて上記目標画像集合を決定する。
【0088】
該目標画像集合内の画像に含まれる対象と目標対象との第1類似度値は、非目標画像に含まれる対象と目標対象との第1類似度値以上である。
【0089】
本願の実施例はグラフ関連認識ネットワークの訓練方法をさらに提供し、図10に示すように、以下のステップを含む。
【0090】
S1001において、電子機器は訓練サンプルデータセットを取得し、訓練サンプルデータセットは複数の参照画像に対応する第1特徴値、及び各第1特徴値に対応する第2特徴値集合及び第2特徴値集合に対応する第1類似度値集合を含む。
【0091】
S1002において、電子機器は予め設定された機械学習ネットワークを構築し、予め設定された機械学習ネットワークを現在機械学習ネットワークとして決定する。
【0092】
S1003において、電子機器は現在機械学習ネットワークに基づき、第1特徴値、及び各第1特徴値に対応する第2特徴値集合に対して関連認識を行い、予測された第1類似度集合を決定する。
【0093】
S1004において、電子機器は第2特徴値集合に対応する第1類似度値集合及び予測された第1類似度集合に基づき、損失値を決定する。
【0094】
S1005において、電子機器は損失値が予め設定された閾値より大きくなるか否かを判断し、そして
損失値が予め設定された閾値より大きいと決定した場合、ステップS1006に進み、損失値が予め設定された閾値以下であると決定した場合、ステップS1007に進む。
【0095】
S1006において、電子機器は損失値に基づいて逆伝播を行い、現在機械学習ネットワークを更新して更新後の機械学習ネットワークを得て、更新後の機械学習ネットワークを現在機械学習ネットワークとして再度決定し、そしてステップS1003に進む。
【0096】
S1007において、電子機器は現在機械学習ネットワークをグラフ関連認識ネットワークとして決定する。
【0097】
図11Aは本開示の実施例に係る目標再認識方法の応用フローチャートを示し、図11Aに示すように、上記S10からS30を含む以外に、該方法はさらに以下のステップを含む。
【0098】
S40において、目標画像集合内の画像の属性情報を決定する。
【0099】
電子機器は画像に基づいて該画像の属性情報を決定でき、属性情報は画像取得位置及び画像取得時間を含んでもよく、該取得位置は該画像を撮影する機器の位置情報を含んでもよいがこれに限定されず、画像において表示されるシーンの位置情報を含んでもよい。画像取得時間は画像撮影時間を含むがこれに限定されない。
【0100】
S50において、属性情報に基づいて目標画像集合内の画像に含まれる対象に対して軌跡行為解析を行う。
【0101】
決定された目標画像集合内の画像中の対象は基本的に目標対象と同一の対象であると認定されるため、画像取得時間に基づいて目標画像集合内の画像を時間的に並べ替え、画像取得位置及び並べ替えられた後の画像に基づいて画像に含まれる対象に対して運動軌跡決定及び行為推定を行う。例えば、どの時間段内に、対象がどの場所を通過して、順に何をしたのか、画像の決定された事に基づいて対象が次にする可能性のある事について推定解析し、解析結果を得る。
【0102】
当業者であれば、発明を実施するための形態の上記方法において、各ステップの記述順序は厳しい実行順序を意味して実施プロセスのいかなる限定を構成せず、各ステップの実際の実行順序はその機能及び可能な内部論理によって決定されるべきであることを理解できる。
【0103】
歩行者再認識の課題では目標(probe)データセット及びベースライブラリ(gallery)データセットがあり、その目的は各目標画像について、全てのベースライブラリから同一歩行者に属する画像を探し出すことである。しかし、実際の応用において、高照射、乱雑な背景及び画角変化等の要因の影響により、目標再認識の課題におけるモデリングが複雑である。従来の多くの方法では、主に目標の外観的特徴情報の学習に限られるが、目標の外観はシーンにおける他の目標及び環境の背景に妨げられる可能性がある。
【0104】
歩行者再認識の課題におけるモデリングは非常に複雑であり、多くの要因からの影響を受ける可能性がある。歩行者の再認識はシーンにおける他の歩行者に妨害され得、歩行者間には極めて類似する外観的特徴が存在し得るが、従来のモデリングでは2人の歩行者間の類似度関係のみを考慮しており、潜在的な難しいポジティブサンプル及び難しいネガティブサンプルと目標歩行者の関係が無視される。本開示の実施例ではグラフ畳み込みニューラルネットワークを用いてこのような関係をモデリングしようとしており、ベースライブラリ内の全ての歩行者間の類似度情報を十分に考慮することができ、また、高効率なシングルトリガーの再並べ替えアルゴリズムを提案し、単一の目標画像だけで再並べ替えを実現できる。
【0105】
本開示の実施例は歩行者の再認識予測を例にして説明する。以下の3つのステップに分けて行うことができる。まず、全ての目標及びベースライブラリ画像に対して特徴符号化を行うための特徴ネットワークを訓練する。次に、各目標画像について類似度に従ってベースライブラリから候補目標特徴を探し出し、関連特徴を計算し、グラフ構造を構築する。最後に、グラフ畳み込みニューラルネットワークを使用して関連特徴を最適化し、最適化後の関連特徴に基づき、最終の候補目標順序を予測する。本開示の実施例は候補目標間の類似度情報を十分に利用し、候補目標間の関連特徴をグラフ畳み込みニューラルネットワークによってさらに最適化し、続いて最適化後の特徴に基づいて再並べ替え、より良好な予測シーケンスを得ることができる。より広い意味では、本開示の実施例により提供される解決手段は普遍的な検索タスクに適する。該解決手段を利用すればより良好な検索シーケンスを得ることができ、従来の再並べ替え(reranking)アルゴリズムに比べ、実際の応用での効率がより高い。また、このアルゴリズムは拡張可能性を有し、従来の再並べ替えアルゴリズムと組み合わせて使用し、より高い検索精度を得ることができる。
【0106】
本開示の実施例はグラフ畳み込みニューラルネットワークのフレームワークにより目標歩行者の再位置決めの予測課題を解決する。歩行者再認識に影響する多数の要因はグラフ畳み込みニューラルネットワークの強い記述能力でモデリングすることが可能である。グラフ畳み込みの特性により、目標歩行者に類似する候補歩行者の関連特徴を深層学習ネットワークの入力とし、グラフ畳み込み演算を経て関連特徴に対して最適化学習を行う。本開示の実施例により提案される関連特徴のグラフ畳み込み学習モジュールは検索された候補歩行者特徴を再並べ替えし、検索精度の向上という目的を達成することができる。また、グラフ畳み込み学習のフレームワークは前置の特徴ネットワークとデカップリングするか又は協力して学習することができ、実際の応用では迅速に展開可能である。
【0107】
図11Bは本開示の実施例により提供される歩行者再認識方法の論理フローチャートであり、図11Bに示すように、該フローは以下のステップを含む。
【0108】
S1101において、目標画像を深層ニューラルネットワークに入力し、特徴コードを得る。
【0109】
該プロセスでは、シーンにおける全ての歩行者の視覚画像を目標画像の入力とし、全ての歩行者の視覚を記述するための特徴コードを得て、この特徴コードは、関連特徴を計算し、深層ニューラルネットワークの入力とするために用いられる。
【0110】
実施において以下のステップで実現してもよい。まず、全シーンにおいて目標検出等の手段を使用して各目標歩行者の目標サムネイルを抽出する。次に、各目標サムネイルについて、特徴抽出ネットワークを訓練し、特徴コードを抽出する。この特徴抽出ネットワークは訓練時、各目標歩行者をそれぞれ1つのカテゴリとし、多クラス分類学習を行う。訓練が完了してから、後の分類層を除去し、ネットワークの出力を特徴コードとする。
【0111】
S1102において、特徴コードに基づいて目標画像とベースライブラリ画像との間の関連特徴を計算し、グラフ構造を構築する。
【0112】
上記で得られた特徴コード行列によって、各目標歩行者画像の視覚特徴を特徴付ける。ベースライブラリから探し出された候補特徴について、関連特徴に基づいてグラフ構造を構築し、それによって候補歩行者間の豊富な類似度関係情報を記述する。
【0113】
まず難しいベースライブラリサンプルのサンプリングを行い、その目的は難しいポジティブサンプルをできるだけ発掘することであり、具体的には2回の検索によって最大検索数を限定する方式を採用し及びベースライブラリ間の類似度関係を利用する。次にグラフ構造を構築し、それで目標画像と候補ベースライブラリとの全体的な類似度関係情報を表す。目標画像と候補ベースライブラリとの関連特徴をグラフ構造のノードとし、候補ベースライブラリ間の類似度情報はリンクの結び状態を決定する。計算を簡略化するために、関連特徴の表現形式は目標画像と候補ベースライブラリ特徴コードの補間とする。
【0114】
図11Cは本開示の実施例により提供される関連特徴学習フレームワークであり、図11Cに示すように、目標画像111a及びベースライブラリ画像111bを特徴抽出ネットワーク112に入力し、目標画像の目標特徴及びベースライブラリの画像特徴を得て、さらに目標画像からベースライブラリ画像へ(Probe to Gallery:P2Gと略称)の検索プロセスによって、目標画像に類似する関連ベースライブラリ画像113を得て、その後関連ベースライブラリ画像113をHGSサンプラによってベースライブラリ候補画像114を得て、ベースライブラリ候補画像114及び目標画像111aを処理してグラフ構造を形成する候補画像115を得て、グラフ構造の候補画像115から目標特徴グラフ111を除去してグラフノード116aを得て、また、ベースライブラリ画像からベースライブラリ画像へ(Gallery to Gallery:G2Gと略称)の検索プロセスによって、関連ベースライブラリ画像113中の異なるベースライブラリ画像間の特徴行列116bを得て、その後グラフ推論段階で、特徴行列116bにより画像エッジを決定し、グラフノード126aと組み合わせてグラフ構造117を生成し、その後GCN(Graph Convolution Network:グラフ畳み込みネットワーク)118を通過して最適化されたグラフ構造119を得て、最後にグラフ構造117及び最適化されたグラフ構造119を共に回帰予測ネットワーク120に送り込んで予測を行い、各グラフノードの予測確率を得る。
【0115】
図11Dは本開示の実施例により提供されるベースライブラリから難しいサンプルを選択する模式図であり、図11Dに示すように、目標画像111について、関連ベースライブラリ画像113中の目標画像と関連する上位4枚のベースライブラリ画像を選別し、次にベースライブラリ画像間の類似度に基づき、上位4枚のベースライブラリ画像に最も類似する上位2枚のベースライブラリ画像を選別し、この6枚のベースライブラリ画像でベースライブラリ候補画像114を形成し、ここでベースライブラリ候補画像114は目標画像の難しいポジティブサンプルAを含む。
【0116】
S1103において、グラフ畳み込みネットワークにより関連特徴に対して推論最適化を行い、最適化後の予測シーケンスを出力する。
【0117】
グラフ畳み込み推論は深層グラフ畳み込みニューラルネットワークに基づいて行われ、従来の畳み込みネットワークとは異なり、グラフ畳み込み構造はセマンティックな隣接ノードのトポロジ関係をより具現化可能である。本開示の実施例は9層グラフ畳み込みを使用しており、推論の有効性をさらに強化するために、アテンションメカニズムを使用して各関連特徴を最適化し、最適化後の結果によってより優れた検索シーケンスを取得し得る。特に、ネットワークが深くなりすぎて訓練が困難になるという問題を抑制するために、残差に基づく構造を使用する。最適化後の関連特徴については、更なる分類によって最終の検索シーケンスを決定してもよい。
【0118】
関連技術では、主に何らかの従来の畳み込みニューラルネットワーク又は浅層グラフネットワークに基づいており、主にベースライブラリ内の単一サンプルの類似度情報を考慮する。また、従来の再並べ替えアルゴリズムは大量の目標画像を同時に再並べ替える必要があることが多く、実行効率が低く、実用的価値が低い。それに対して、本開示の実施例は深層グラフ畳み込みニューラルネットワークにより目標の再認識を行い、サンプル間の類似度情報をより十分に利用しており、より効果的に様々な影響要因を総合的に解析できる。本願の実施例はgallery(ベースライブラリ)内の全ての歩行者間の類似度情報を十分に考慮し、関連特徴及び2回の検索に基づく難しいサンプル発掘技術により、サンプル間の関連情報の学習を高次元の特徴空間においてより十分にするような学習が得られる。本願の実施例は高効率のシングルトリガの再並べ替えアルゴリズムを提案し、単一の目標画像だけで再並べ替えを実現でき、従来の再認識アルゴリズムに柔軟に適用でき、安定した性能向上をもたらす。
【0119】
本開示の実施例は映像監視下のシーンに適用され、全ての歩行者の同一又は異なるカメラでの位置を予測することができる。また、予測結果に基づき、目標歩行者の一定時間内のクロスカメラの運動軌跡を解析し、クロスカメラの目標追跡を可能にし、また、シーンに発生する何らかの異常行為を検出することもできる。
【0120】
本開示の実施例は深層グラフ畳み込みネットワークを使用し、サンプル間の類似度情報をより十分に利用しており、より効果的に様々な影響要因を総合的に解析できる。本開示の実施例は関連特徴及び2回の検索に基づく難しいサンプル発掘技術により、サンプル間の関連情報の学習を高次元の特徴空間においてより十分にするような学習が得られる。本開示の実施例により提案されるアルゴリズムモジュールは従来の再認識アルゴリズムに柔軟に適用でき、安定した性能向上をもたらす。
【0121】
本開示の実施例で言及した上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて、組み合わせ後の実施例を形成することができることが理解され、紙数に限りがあるので、本開示の実施例では詳細な説明を省略する。
【0122】
また、本開示の実施例は目標再認識装置、電子機器、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供し、上記はいずれも本開示の実施例により提供されるいずれか一つの目標再認識方法を実現するために用いられることができ、対応する技術的解決手段及び説明は方法部分の対応する記載を参照すればよく、ここでは説明を省略する。
【0123】
図12は本開示の実施例に係る目標再認識装置のブロック図を示し、図12に示すように、前記目標再認識装置は、
目標対象画像及び処理される画像集合を取得するように構成される画像取得モジュール1201であって、目標対象画像には目標対象が含まれる画像取得モジュールと、
目標対象画像の第1特徴値及び処理される画像集合に対応する第2特徴値集合に基づいて処理される画像集合から候補画像集合を決定するように構成される候補画像決定モジュール1202であって、候補画像集合内のいずれか2枚の画像間の類似値は予め設定された類似値以上である候補画像決定モジュールと、
訓練されておいたグラフ関連認識ネットワークに基づき、第1特徴値及び第2特徴値集合を認識し、候補画像集合から目標画像集合を決定するように構成される目標画像決定モジュール1203であって、目標画像集合内の画像に含まれる対象と目標対象との第1類似度値は非目標画像に含まれる対象と目標対象との第1類似度値以上であり、候補画像集合は目標画像集合及び非目標画像を含む目標画像決定モジュールと、を含む。
【0124】
一部の可能な実施形態において、上記グラフ関連認識ネットワークは第1グラフ構造構築サブネットワーク、グラフ関連更新サブネットワーク及び分類器を含み、第1グラフ構造構築サブネットワークと、グラフ関連更新サブネットワークと、分類器とはシリアル接続され、目標画像決定モジュールは、第1特徴値及び第2特徴値集合を第1グラフ構造構築サブネットワークに入力し、第1グラフ構造を得て、第1グラフ構造はノード及び2つのノードを結ぶように構成されるリンクを含み、ノードの数は候補画像集合内の画像の数と同じであり、2つのノードを結ぶリンクは結ばれる2つのノード間の類似度及び予め設定された類似度に基づいて決定され、第1グラフ構造をグラフ関連更新サブネットワークに入力し、更新して最適化された後の第2グラフ構造を得て、分類器によって第2グラフ構造に基づいて候補画像集合内の各候補画像に対応する第1類似度値を決定し、そして各候補画像に対応する第1類似度値及び類似度閾値に基づいて目標画像集合を決定するように構成される。
【0125】
一部の可能な実施形態において、目標画像決定モジュールは、第1グラフ構造と第2グラフ構造を加算して融合し、第3グラフ構造を得て、そして分類器によって第3グラフ構造に基づいて候補画像集合内の各候補画像に対応する第1類似度値を決定するように構成される。
【0126】
一部の可能な実施形態において、上記グラフ関連更新サブネットワークはアテンションメカニズム層、複数のグラフ畳み込み層、複数の活性化層及び複数の完全接続層を含み、アテンションメカニズム層と、複数のグラフ畳み込み層と、複数の活性化層と、複数の完全接続層とはシリアル接続され、目標画像決定モジュールは、第1グラフ構造をアテンションメカニズム層に入力し、第1グラフ構造における各ノードの重みベクトルを得て、各ノードの重みベクトル及び第1グラフ構造をアテンションメカニズム層の次の層の入力として決定し、複数のグラフ畳み込み層、複数の活性化層及び複数の完全接続層のうちの現在処理しているいずれかの層を現在層として決定し、現在層の前の層の出力を現在層の入力とし、計算処理を経てから現在層の出力を得て、そしていずれかの現在層の対応する出力が存在する場合、グラフ関連更新サブネットワークにおける最終層の出力に基づいて更新して最適化された後の第2グラフ構造を得るように構成される。
【0127】
一部の可能な実施形態において、候補画像決定モジュールは、特徴コード抽出ネットワークに基づいて目標対象画像に含まれる目標対象の第1特徴値を決定し、特徴コード抽出ネットワークに基づいて処理される画像集合内の各画像に含まれる対象の第2特徴値を決定し、第2特徴値及び第1特徴値に基づいて各画像に対応する第2類似度値を決定し、そして第2類似度値に基づいて処理される画像集合から候補画像集合を決定するように構成される。
【0128】
一部の可能な実施形態において、上記候補画像決定モジュールは、各処理される画像に対応する第2類似度値を値の大きい順に並べ替え、そして上位N位の第2類似度値に対応する処理される画像に基づいて候補画像集合を得るように構成される。
【0129】
一部の可能な実施形態において、上記候補画像決定モジュールは、各処理される画像に対応する第2類似度値を値の大きい順に並べ替え、上位N1位の第2類似度値に対応する処理される画像に基づいて処理される画像集合を第1候補画像集合と非第1候補画像集合に分け、ここで第1候補画像集合は上位N1位の第2類似度値に対応する画像を含み、第1候補画像集合内の画像の第2特徴値及び非第1候補画像集合内の画像の第2特徴値に基づいて非第1候補画像集合からN2枚の画像を決定し、第2候補画像集合を形成し、そして第1候補画像集合及び第2候補画像集合に基づいて候補画像集合を決定するように構成される。
【0130】
一部の可能な実施形態において、上記候補画像決定モジュールは、第1候補画像集合内の現在使用しているいずれかの画像を現在画像として決定し、現在画像の第2特徴値及び非第1候補画像集合内の画像の第2特徴値に基づいて非第1候補画像集合内の各画像に対応する第3類似度値を決定し、各画像に対応する第3類似度値に基づいて非第1候補画像集合から現在画像に対応する第3候補画像集合を決定し、そして各現在画像いずれも対応する第3候補画像集合が存在する場合、各現在画像に対応する第3候補画像集合に基づいてN2枚の画像を決定し、第2候補画像集合を形成するように構成される。
【0131】
一部の可能な実施形態において、さらに解析モジュールを含み、該解析モジュールは、目標画像集合内の画像の属性情報を決定し、そして属性情報に基づいて目標画像集合内の画像に含まれる対象に対して軌跡行為解析を行うように構成される。
【0132】
一部の可能な実施形態において、上記属性情報は画像取得位置及び画像取得時間を含み、解析モジュールは、画像取得時間に基づいて目標画像集合内の画像を並べ替え、そして画像取得位置及び並べ替えられた後の画像に基づいて画像に含まれる対象に対して運動軌跡決定及び行為推定を行うように構成される。
【0133】
一部の実施例において、本開示の実施例により提供される装置が有する機能又は含むモジュールは、上記の方法の実施例に記載の方法を実行するように構成されてもよく、その実際の実施は上記の方法の実施例の記載を参照すればよく、簡潔にするために、ここでは繰り返し説明しない。
【0134】
本開示の実施例は、プロセッサによりロードされ且つ実行される時、上記方法を実現する少なくとも1つの命令又は少なくとも1つのプログラムが記憶されているコンピュータ読み取り可能な記憶媒体をさらに提供する。コンピュータ読み取り可能な記憶媒体は不揮発性コンピュータ読み取り可能な記憶媒体であってもよい。
本開示の実施例は電子機器をさらに提供し、プロセッサ、及びプロセッサにより実行可能な命令を記憶するように構成されるメモリを含み、前記プロセッサは上記方法を実現するように構成される。電子機器は端末、サーバ又は他の形態の機器として提供されてもよい。
【0135】
本開示の実施例は命令を含むコンピュータプログラム製品を提供し、それはコンピュータにおいて実行されると、コンピュータに本開示の実施例の目標再認識方法を実行させる。
【0136】
図13は本開示の実施例に係る電子機器のブロック図を示す。例えば、電子機器1300は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレット装置、医療機器、フィットネス器具、パーソナルディジタルアシスタント等であってもよい。
【0137】
図13を参照すると、電子機器1300は、処理ユニット1302、メモリ1304、電源ユニット1306、マルチメディアユニット1308、オーディオユニット1310、入力/出力(I/O:Input/Output)インタフェース1312、センサユニット1314、及び通信ユニット1316の1つ又は複数を含んでもよい。
【0138】
処理ユニット1302は通常、電子機器1300の全体的な操作、例えば表示、電話の呼び出し、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理ユニット1302は、上記方法の全て又は一部のステップを完了するために、1つ又は複数の命令を実行するためのプロセッサ1320を含むことができる。また、処理ユニット1302は、他のユニットとのインタラクションを容易にするために、1つ又は複数のモジュールを含むことができる。例えば、処理ユニット1302は、マルチメディアユニット1308とのインタラクションを容易にするために、マルチメディアモジュールを含むことができる。
【0139】
メモリ1304は電子機器1300での動作をサポートするために様々なタイプのデータを記憶するように構成される。これらのデータの例は電子機器1300において操作されるあらゆるアプリケーションプログラム又は方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオ等を含む。メモリ1304は、例えば静的ランダムアクセスメモリ(SRAM:Static Random-Access Memory)、電気的消去可能なプログラマブル読み取り専用メモリ(EEPROM:Electrically Erasable Programmable Read-Only Memory)、消去可能なプログラマブル読み取り専用メモリ(EPROM:Erasable Programmable Read-Only Memory)、プログラマブル読み取り専用メモリ(PROM:Programmable Read-Only Memory)、読み取り専用メモリ(ROM:Read Only Memory)、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスク等の任意のタイプの揮発性又は不揮発性記憶機器又はそれらの組み合わせによって実現されてもよい。
【0140】
電源ユニット1306は電子機器1300の各ユニットに電力を供給する。電源ユニット1306は電源管理システム、1つ又は複数の電源、及び電子機器1300のための電力生成、管理及び配分に関連する他のユニットを含むことができる。
【0141】
マルチメディアユニット1308は前記電子機器1300とユーザとの間で出力インタフェースを提供するスクリーンを含む。一部の実施例では、スクリーンは液晶ディスプレイ(LCD:Liquid Crystal Display)及びタッチパネル(TP:TouchPanel)を含むことができる。スクリーンは、タッチパネルを含む場合、ユーザからの入力信号を受信するために、タッチスクリーンとして実現されてもよい。タッチパネルは、タッチ、スライド及びタッチパネルでのジェスチャをセンシングするために、1つ又は複数のタッチセンサを含む。前記タッチセンサはタッチ又はスライド動きの境界をセンシングするのみならず、前記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。一部の実施例では、マルチメディアユニット1308は1つのフロントカメラ及び/又はリアカメラを含む。電子機器1300が動作モード、例えば撮影モード又はビデオモードにある場合、フロントカメラ及び/又はリアカメラは外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは1つの固定された光学レンズシステムであってもよく、又は焦点距離及び光学ズーム能力を有するものであってもよい。
【0142】
オーディオユニット1310はオーディオ信号を出力及び/又は入力するように構成される。例えば、オーディオユニット1310は、電子機器1300が動作モード、例えば呼び出しモード、記録モード及び音声認識モードにある場合、外部のオーディオ信号を受信するように構成されたマイク(MIC:Microphone)を含む。受信されたオーディオ信号はメモリ1304に記憶されるか、又は通信ユニット1316によって送信されてもよい。一部の実施例では、オーディオユニット1310はさらに、オーディオ信号を出力するためのスピーカーを含む。
【0143】
I/Oインタフェース1312は処理ユニット1302と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタン等であってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタン及びロックボタンを含むことができるが、これらに限定されない。
【0144】
センサユニット1314は電子機器1300に各態様での状態評価を提供するための1つ又は複数のセンサを含む。例えば、センサユニット1314は電子機器1300のオン/オフ状態、及び、例えば電子機器1300の表示装置やキーパッドであるユニットの相対的な位置決めを検出でき、センサユニット1314はさらに、電子機器1300又は電子機器1300の一つのユニットの位置の変化、ユーザと電子機器1300との接触の有無、電子機器1300の方位又は加減速及び電子機器1300の温度変化を検出できる。センサユニット1314は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成された近接センサを含むことができる。センサユニット1314はさらに、相補型金属酸化物半導体(CMOS:Complementary Metal-Oxide-Semiconductor)又は電荷結合素子(CCD:Charge Coupled Device)イメージセンサのような、イメージングアプリケーションにおいて使用されるための光センサを含むことができる。一部の実施例では、該センサユニット1314はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ又は温度センサを含むことができる。
【0145】
通信ユニット1316は電子機器1300と他の機器との間の有線又は無線の通信を容易にするように構成される。電子機器1300は通信規格に基づく無線ネットワーク、例えばワイヤレスフィデリティ(Wi-Fi:Wireless Fidelity)、第2世代移動通信技術(2G:The 2nd Generation)又は第3世代移動通信技術(3G:The 3nd Generation)又はそれらの組み合わせにアクセスできる。一例示的実施例では、通信ユニット1316は放送チャネルによって外部の放送管理システムからの放送信号又は放送関連情報を受信する。一例示的実施例では、前記通信ユニット1316はさらに、近距離通信を促進するために、近距離通信(NFC:Near Field Communication)モジュールを含む。例えば、NFCモジュールでは無線周波数識別(RFID:Radio Frequency Identification)技術、赤外線データ協会(IrDA:Infrared Data Association)技術、超広帯域(UWB:Ultra Wide Band)技術、ブルートゥース(登録商標)(BT:Blue Tooth)技術及び他の技術によって実現されてもよい。
【0146】
例示的な実施例では、電子機器1300は、上記方法を実行するために1つ又は複数の特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、デジタル信号プロセッサ(DSP:Digital Signal Processor)、デジタル信号処理装置(DSPD:Digital Signal Processing Device)、プログラマブルロジックデバイス(PLD:Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA:Field Programmable Gate Array)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子によって実現されることができる。
【0147】
例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能な記憶媒体、例えばコンピュータプログラム命令を含むメモリ1304が提供され、上記コンピュータプログラム命令は、上記方法を完了するように、電子機器1300のプロセッサ1320によって実行されることができる。
【0148】
図14は本開示の実施例に係る別の電子機器のブロック図を示す。例えば、電子機器1400はサーバとして提供されてもよい。図14を参照すると、電子機器1400は、一部の実施形態において1つ又は複数のプロセッサを含む処理ユニット1422、及び、処理ユニット1422によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ1432によって代表されるメモリ資源を含む。メモリ1432に記憶されたアプリケーションプログラムはそれぞれが1グループの命令に対応する1つ又は複数のモジュールを含むことができる。また、処理ユニット1422は、上記方法を実行するように、命令を実行するように構成される。
【0149】
電子機器1400はさらに、電子機器1400の電源管理を実行するように構成された電源ユニット1426、電子機器1400をネットワークにアクセスするように構成された有線又は無線ネットワークインタフェース1450、及びI/Oインタフェース1458を含むことができる。電子機器1400はメモリ1432に記憶されたオペレーティングシステム、例えばWindows(登録商標) ServerTM、Mac OS XTM、Unix(登録商標)、Linux(登録商標)、FreeBSDTM又は類似するシステムに基づいて動作できる。
【0150】
例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能な記憶媒体、例えばコンピュータプログラム命令を含むメモリ1432が提供され、上記コンピュータプログラム命令は、上記方法を完了するように、電子機器1400の処理ユニット1422によって実行されてもよい。
【0151】
本開示の実施例はシステム、方法及び/又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本開示の実施例の各態様を実現させるためのコンピュータ読み取り可能なプログラム命令がロードされているコンピュータ読み取り可能な記憶媒体を含むことができる。
【0152】
コンピュータ読み取り可能な記憶媒体は命令実行機器により使用される命令を保存及び記憶可能な有形機器であってもよい。コンピュータ読み取り可能な記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体は、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM:Random Access Memory)、読み取り専用メモリ、消去可能なプログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、静的ランダムアクセスメモリ、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM:Compact Disc Read-Only Memory)、デジタル多用途ディスク(DVD:Digital Video Disc)、メモリスティック、フロッピー(登録商標)ディスク、及び機械的符号化装置、例えば命令が記憶されているせん孔カード又はスロット内突起構造、並びに上記の任意の適当な組み合わせを含むことができる。ここで使用されるコンピュータ読み取り可能な記憶媒体は瞬時信号自体、例えば無線電波又は他の自由に伝播する電磁波、導波路又は他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過する光パルス)、又は電線を経由して伝送される電気信号と解釈されるものではない。
【0153】
ここで記述されたコンピュータ読み取り可能なプログラム命令はコンピュータ読み取り可能な記憶媒体から各計算/処理機器にダウンロードされてもよいし、又はネットワーク、例えばインタネット、ローカルエリアネットワーク、広域ネットワーク及び/又は無線ネットワークによって外部のコンピュータ又は外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータ及び/又はエッジサーバを含むことができる。各計算/処理機器内のネットワークアダプタカード又はネットワークインタフェースはネットワークからコンピュータ読み取り可能なプログラム命令を受信し、各計算/処理機器内のコンピュータ読み取り可能な記憶媒体に記憶するために、該コンピュータ読み取り可能なプログラム命令を転送する。本開示の実施例の操作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ(ISA:Industry Standard Architecture)命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、又はSmalltalk、C++等のオブジェクト向けプログラミング言語、及びC言語又は類似するプログラミング言語等の一般的な手続き型プログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせで書かれたソースコード又は目標コードであってもよい。コンピュータ読み取り可能なプログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、1つの独立したソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいて且つ部分的にリモートコンピュータにおいて実行されてもよく、又は完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN:Local Area Network)又は広域ネットワーク(WAN:Wide Area Network)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、又は、外部コンピュータに接続されてもよい(例えばインタネットサービスプロバイダを用いてインタネットを経由して接続される)。一部の実施例では、コンピュータ読み取り可能なプログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ又はプログラマブル論理アレイ等の電子回路をパーソナライズすることで、該電子回路はコンピュータ読み取り可能なプログラム命令を実行し、それにより本開示の実施例の各態様を実現できるようになる。
【0154】
なお、ここで本開示の実施例に係る方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照しながら本開示の実施例の各態様を説明しが、フローチャート及び/又はブロック図の各ブロック及びフローチャート及び/又はブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能なプログラム命令によって実現されることができることを理解すべきである。
【0155】
これらのコンピュータ読み取り可能なプログラム命令は、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータ又は他のプログラマブルデータ処理装置のプロセッサによって実行される場合、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて規定された機能/動作を実現する装置を生じるように、マシンが生じる。また、これらのコンピュータ読み取り可能なプログラム命令は、コンピュータ読み取り可能な記憶媒体に記憶されてもよく、これらの命令により、コンピュータ、プログラマブルデータ処理装置及び/又は他の機器が決定の方式で動作し、それにより、命令を記憶するコンピュータ読み取り可能な記憶媒体は、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて規定された機能/動作の各態様を実現する命令を含む製品を備える。コンピュータ読み取り可能なプログラムをコンピュータ、他のプログラマブルデータ処理装置、又は他の機器にロードすることにより、コンピュータ実現のプロセスを生成するように、コンピュータ、他のプログラマブルデータ処理装置又は他の機器において一連の操作ステップを実行させるようにしてもよく、それにより、コンピュータ、他のプログラマブルデータ処理装置、又は他の機器において実行される命令によりフローチャート及び/又はブロック図の1つ又は複数のブロックにおいて規定された機能/動作を実現する。
【0156】
図面におけるフローチャート及びブロック図は本開示の実施例に係る複数の実施形態のシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び操作を示す。この点では、フローチャート又はブロック図における各ブロックは一つのモジュール、プログラムセグメント又は命令の一部分を代表することができ、前記モジュール、プログラムセグメント又は命令の一部分は規定された論理機能を実現するための1つ又は複数の実行可能命令を含む。一部の置換としての実現形態では、ブロックに表記される機能は図面に表記されものと異なる順序で発生してもよい。例えば、2つの連続的なブロックは、実際には基本的に並行して実行されてもよく、また、係る機能によって、それらは逆な順序で実行されてもよい場合がある。なお、ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、規定される機能又は動作を実行するハードウェアに基づく専用システムによって実現されてもよいし、又は専用ハードウェアとコンピュータ命令との組み合わせによって実現されてもよいことに注意すべきである。
【0157】
以上、本開示の実施例の各実施形態を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、且つ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲及び精神から逸脱することなく、多くの修正及び変更が自明である。本明細書に用いられる用語の選択は、各実施形態の原理、実際の応用又は市場における技術に対する改善を好適に解釈すること、又は他の当業者に本明細書に披露された各実施例を理解させることを目的とする。
【産業上の利用可能性】
【0158】
本開示の実施例は、目標対象画像及び処理される画像集合を取得し、前記目標対象画像には目標対象が含まれ、前記目標対象画像の第1特徴値及び前記処理される画像集合に対応する第2特徴値集合に基づき、前記処理される画像集合から候補画像集合を決定し、前記候補画像集合内のいずれか2枚の画像間の類似値は予め設定された類似値以上であり、そして訓練されておいたグラフ関連認識ネットワークに基づき、前記第1特徴値及び前記第2特徴値集合を認識し、前記候補画像集合から目標画像集合を決定し、前記目標画像集合内の画像に含まれる対象と前記目標対象との第1類似度値は、非目標画像に含まれる対象と前記目標対象との第1類似度値以上であり、前記候補画像集合は前記目標画像集合及び前記非目標画像を含む。このように、処理される画像集合からより正確なポジティブサンプルを決定し、ネガティブサンプルからの妨害を低減し、目標画像集合を得て、それにより、後続で目標画像集合内の画像の属性情報に基づいてそれに含まれる対象に対して軌跡行為解析を行った結果の正確性を向上させることができる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11A
図11B
図11C
図11D
図12
図13
図14
【国際調査報告】