(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-11-28
(54)【発明の名称】画像処理方法、装置、機器、記憶媒体およびコンピュータプログラム
(51)【国際特許分類】
G06V 10/40 20220101AFI20221118BHJP
G06T 7/00 20170101ALI20221118BHJP
【FI】
G06V10/40
G06T7/00 300F
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022518939
(86)(22)【出願日】2020-07-01
(85)【翻訳文提出日】2022-03-24
(86)【国際出願番号】 CN2020099786
(87)【国際公開番号】W WO2021082505
(87)【国際公開日】2021-05-06
(31)【優先権主張番号】201911035791.0
(32)【優先日】2019-10-28
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】518209698
【氏名又は名称】シェンチェン センスタイム テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】SHENZHEN SENSETIME TECHNOLOGY CO.,LTD
(74)【代理人】
【識別番号】110001427
【氏名又は名称】弁理士法人前田特許事務所
(72)【発明者】
【氏名】ユー シージエ
(72)【発明者】
【氏名】チェン ダーポン
(72)【発明者】
【氏名】ジャオ ルイ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096GA51
5L096HA05
5L096HA11
5L096JA03
5L096JA11
5L096KA04
(57)【要約】
本願は、画像処理方法、装置、機器、記憶媒体およびコンピュータプログラムを提供し、ここで、当該方法は、第1対象を含む第1画像および第1衣服を含む第2画像を取得することと、前記第1画像および前記第2画像を第1モデルに入力して、第1融合特徴ベクトルを取得することであって、前記第1融合特徴ベクトルは、前記第1画像と前記第2画像の融合特徴を示すために使用されることと、第2融合特徴ベクトルを取得することであって、ここで、前記第2融合特徴ベクトルは、第3画像と第4画像の融合特徴を示すために使用され、前記第3画像は、第2対象を含み、前記第4画像は、前記第3画像から切り取った、第2衣服を含む画像であることと、前記第1融合特徴ベクトルと前記第2融合特徴ベクトルとのターゲット類似度に従って、前記第1対象と前記第2対象が同じ対象であるか否かを決定することと、を含む。
【選択図】
図1a
【特許請求の範囲】
【請求項1】
画像処理方法であって、
第1対象を含む第1画像および第1衣服を含む第2画像を取得することと、
前記第1画像および前記第2画像を第1モデルに入力して、第1融合特徴ベクトルを取得することであって、前記第1融合特徴ベクトルは、前記第1画像と前記第2画像の融合特徴を示すために使用されることと、
第2融合特徴ベクトルを取得することであって、前記第2融合特徴ベクトルは、第3画像と第4画像の融合特徴を示すために使用され、前記第3画像は、第2対象を含み、前記第4画像は、前記第3画像から切り取った、第2衣服を含む画像であることと、
前記第1融合特徴ベクトルと前記第2融合特徴ベクトルとのターゲット類似度に従って、前記第1対象と前記第2対象が同じ対象であるか否かを決定することと、を含む、前記画像処理方法。
【請求項2】
前記第1融合特徴ベクトルと前記第2融合特徴ベクトルとのターゲット類似度に従って、前記第1対象と前記第2対象が同じ対象であるか否かを決定することは、
前記第1融合特徴ベクトルと前記第2融合特徴ベクトルとのターゲット類似度が第1閾値より大きい場合に応答して、前記第1対象と前記第2対象が同じ対象であると決定することを含む、
請求項1に記載の画像処理方法。
【請求項3】
前記第2融合特徴ベクトルを取得することは、
前記第3画像および前記第4画像を前記第1モデルに入力して、前記第2融合特徴ベクトルを取得することを含む、
請求項1または2に記載の画像処理方法。
【請求項4】
前記画像処理方法は、
前記第1対象と前記第2対象が同じ対象である場合に応答して、前記第3画像を撮影する端末機器の識別子を取得することと、
前記端末機器の識別子に従って、前記端末機器によって設定されるターゲット地理位置を決定し、前記ターゲット地理位置と前記第1対象との関連付け関係を確立することと、をさらに含む、
請求項1ないし3のいずれか一項に記載の画像処理方法。
【請求項5】
前記第1対象を含む第1画像および第1衣服を含む第2画像を取得する前に、
第1サンプル画像および第2サンプル画像を取得することであって、前記第1サンプル画像および前記第2サンプル画像は、すべて第1サンプル対象を含み、前記第1サンプル画像で前記第1サンプル対象に関連付けられる衣服は、前記第2サンプル画像で前記第1サンプル対象に関連付けられる衣服と異なることと、
前記第1サンプル画像から第1サンプル衣服を含む第3サンプル画像を切り取ることであって、前記第1サンプル衣服は、前記第1サンプル画像で前記第1サンプル対象に関連付けられる衣服であることと、
第2サンプル衣服を含む第4サンプル画像を取得することであって、前記第2サンプル衣服と前記第1サンプル衣服との類似度は、第2閾値より大きいことと、
前記第1サンプル画像、前記第2サンプル画像、前記第3サンプル画像および前記第4サンプル画像に従って、第2モデルおよび第3モデルをトレーニングすることと、を含み、前記第3モデルと前記第2モデルのネットワーク構造は、同じであり、前記第1モデルは、前記第2モデルまたは前記第3モデルである、
請求項1ないし4のいずれか一項に記載の画像処理方法。
【請求項6】
前記第1サンプル画像、前記第2サンプル画像、前記第3サンプル画像および前記第4サンプル画像に従って、第2モデルおよび第3モデルをトレーニングすることは、
前記第1サンプル画像および前記第3サンプル画像を第2モデルに入力して、第1サンプル特徴ベクトルを取得することであって、前記第1サンプル特徴ベクトルは、前記第1サンプル画像と前記第3サンプル画像の融合特徴を示すために使用されることと、
前記第2サンプル画像および前記第4サンプル画像を第3モデルに入力して、第2サンプル特徴ベクトルを取得することであって、前記第2サンプル特徴ベクトルは、前記第2サンプル画像と前記第4サンプル画像の融合特徴を示すために使用されることと、
前記第1サンプル特徴ベクトルおよび前記第2サンプル特徴ベクトルに従って、モデル総損失を決定し、前記モデル総損失に従って、前記第2モデルおよび前記第3モデルをトレーニングすることと、を含む、
請求項5に記載の画像処理方法。
【請求項7】
前記第1サンプル画像および前記第2サンプル画像は、サンプルギャラリ内の画像であり、前記サンプルギャラリは、M個のサンプル画像を含み、前記M個のサンプル画像は、N個のサンプル対象に関連付けられ、前記Mは、2Nより大きいか等しく、前記M、Nは、1より大きいか等しい整数であり、
前記第1サンプル特徴ベクトルおよび前記第2サンプル特徴ベクトルに従って、モデル総損失を決定することは、
前記第1サンプル特徴ベクトルに従って、第1確率ベクトルを決定することであって、前記第1確率ベクトルは、前記第1サンプル画像の前記第1サンプル対象が、前記N個のサンプル対象の各サンプル対象である確率を示すために使用されることと、
前記第2サンプル特徴ベクトルに従って、第2確率ベクトルを決定することであって、前記第2確率ベクトルは、前記第2サンプル画像の前記第1サンプル対象が、前記N個のサンプル対象の各サンプル対象である確率を示すために使用されることと、
前記第1確率ベクトルおよび前記第2確率ベクトルに従って、モデル総損失を決定することと、を含む、
請求項6に記載の画像処理方法。
【請求項8】
前記第1確率ベクトルおよび前記第2確率ベクトルに従って、モデル総損失を決定することは、
前記第1確率ベクトルに従って、前記第2モデルのモデル損失を決定することと、
前記第2確率ベクトルに従って、前記第3モデルのモデル損失を決定することと、
前記第2モデルのモデル損失および前記第3モデルのモデル損失に従って、モデル総損失を決定することと、を含む、
請求項7に記載の画像処理方法。
【請求項9】
画像処理装置であって、
第1対象を含む第1画像および第1衣服を含む第2画像を取得するように構成される、第1取得モジュールと、
前記第1画像および前記第2画像を第1モデルに入力して、第1融合特徴ベクトルを取得するように構成される、第1融合モジュールであって、前記第1融合特徴ベクトルは、前記第1画像と前記第2画像の融合特徴を示すために使用される、第1融合モジュールと、
第2融合特徴ベクトルを取得するように構成される、第2取得モジュールであって、前記第2融合特徴ベクトルは、第3画像と第4画像の融合特徴を示すために使用され、前記第3画像は、第2対象を含み、前記第4画像は、前記第3画像から切り取った、第2衣服を含む画像である、第2取得モジュールと、
前記第1融合特徴ベクトルと前記第2融合特徴ベクトルとのターゲット類似度に従って、前記第1対象と前記第2対象が同じ対象であるか否かを決定するように構成される、対象決定モジュールと、を備える、前記画像処理装置。
【請求項10】
前記対象決定モジュールは、前記第1融合特徴ベクトルと前記第2融合特徴ベクトルとのターゲット類似度が第1閾値より大きい場合に応答して、前記第1対象と前記第2対象が同じ対象であると決定するように構成される、
請求項9に記載の画像処理装置。
【請求項11】
前記第2取得モジュールは、前記第3画像および前記第4画像を前記第1モデルに入力して、前記第2融合特徴ベクトルを取得するように構成される、
請求項9または10に記載の画像処理装置。
【請求項12】
前記画像処理装置は、さらに、前記第1対象と前記第2対象が同じ対象である場合に応答して、前記第3画像を撮影する端末機器の識別子を取得し、前記端末機器の識別子に従って、前記端末機器によって設定されるターゲット地理位置を決定し、前記ターゲット地理位置と前記第1対象との関連付け関係を確立するように構成される、位置決定モジュールを備える、
請求項9ないし11のいずれか一項に記載の画像処理装置。
【請求項13】
前記画像処理装置は、さらに、第1サンプル画像および第2サンプル画像を取得し、前記第1サンプル画像から第1サンプル衣服を含む第3サンプル画像を切り取り、第2サンプル衣服を含む第4サンプル画像を取得し、前記第1サンプル画像、前記第2サンプル画像、前記第3サンプル画像および前記第4サンプル画像に従って、第2モデルおよび第3モデルをトレーニングするように構成される、トレーニングモジュールをさらに備え、前記第1サンプル画像および前記第2サンプル画像は、すべて第1サンプル対象を含み、前記第1サンプル画像で前記第1サンプル対象に関連付けられる衣服は、前記第2サンプル画像で前記第1サンプル対象に関連付けられる衣服と異なり、前記第1サンプル衣服は、前記第1サンプル画像で前記第1サンプル対象に関連付けられる衣服であり、前記第2サンプル衣服と前記第1サンプル衣服との類似度は、第2閾値より大きく、前記第3モデルと前記第2モデルのネットワーク構造は、同じであり、前記第1モデルは、前記第2モデルまたは前記第3モデルである、
請求項9ないし12のいずれか一項に記載の画像処理装置。
【請求項14】
前記トレーニングモジュールは、さらに、前記第1サンプル画像および前記第3サンプル画像を第2モデルに入力して、第1サンプル特徴ベクトルを取得し、前記第2サンプル画像および前記第4サンプル画像を第3モデルに入力して、第2サンプル特徴ベクトルを取得し、前記第1サンプル特徴ベクトルおよび前記第2サンプル特徴ベクトルに従って、モデル総損失を決定し、前記モデル総損失に従って、前記第2モデルおよび前記第3モデルをトレーニングするように構成され、前記第1サンプル特徴ベクトルは、前記第1サンプル画像と前記第3サンプル画像の融合特徴を示すために使用され、前記第2サンプル特徴ベクトルは、前記第2サンプル画像と前記第4サンプル画像の融合特徴を示すために使用される、
請求項13に記載の画像処理装置。
【請求項15】
前記第1サンプル画像および前記第2サンプル画像は、サンプルギャラリ内の画像であり、前記サンプルギャラリは、M個のサンプル画像を含み、前記M個のサンプル画像は、N個のサンプル対象に関連付けられ、前記Mは、2Nより大きいか等しく、前記M、Nは、1より大きいか等しい整数であり、
前記トレーニングモジュールは、さらに、前記第1サンプル特徴ベクトルに従って、第1確率ベクトルを決定し、前記第2サンプル特徴ベクトルに従って、第2確率ベクトルを決定し、前記第1確率ベクトルおよび前記第2確率ベクトルに従って、モデル総損失を決定するように構成され、前記第1確率ベクトルは、前記第1サンプル画像の前記第1サンプル対象が、前記N個のサンプル対象の各サンプル対象である確率を示すために使用され、前記第2確率ベクトルは、前記第2サンプル画像の前記第1サンプル対象が、前記N個のサンプル対象の各サンプル対象である確率を示すために使用される、
請求項14に記載の画像処理装置。
【請求項16】
前記トレーニングモジュールは、さらに、前記第1確率ベクトルに従って、前記第2モデルのモデル損失を決定し、前記第2確率ベクトルに従って、前記第3モデルのモデル損失を決定し、前記第2モデルのモデル損失および前記第3モデルのモデル損失に従って、モデル総損失を決定するように構成される、
請求項15に記載の画像処理装置。
【請求項17】
プロセッサ、メモリおよび入力/出力インターフェースを備える、画像処理機器であって、前記プロセッサ、メモリおよび入力/出力インターフェースは、互いに接続され、前記入力/出力インターフェースは、データを入力または出力するように構成され、前記メモリは、プログラムコードを記憶するように構成され、前記プロセッサは、前記プログラムコードを呼び出して、請求項1ないし8のいずれか一項に記載の方法を実行するように構成される、前記画像処理機器。
【請求項18】
コンピュータプログラムを記憶する、コンピュータ記憶媒体であって、前記コンピュータプログラムは、プログラム命令を含み、前記プログラム命令は、プロセッサによって実行されるとき、前記プロセッサに請求項1ないし8のいずれか一項に記載の方法を実行させる、前記コンピュータ記憶媒体。
【請求項19】
コンピュータ可読コードを含む、コンピュータプログラムであって、前記コンピュータ可読コードが画像処理機器で実行されるとき、前記画像処理機器内のプロセッサは、請求項1ないし8のいずれか一項に記載の方法を実行する、前記コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2019年10月28日に中国特許局に提出された、出願番号が201911035791.0である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。
【0002】
本願実施例は、画像処理分野に関し、画像処理方法、装置、機器、コンピュータ記憶媒体およびコンピュータプログラムに関するがこれに限定されない。
【背景技術】
【0003】
歩行者再識別は、歩行者再識別とも称し、コンピュータビジョン技術を使用して画像またはビデオシーケンスに特定の歩行者がいるか否かを判断する技術であり、容疑者追跡、行方不明者の探しなど、スマートビデオモニタリング、スマートセキュリティなどの分野に適用される。
【0004】
現在の歩行者再識別方法は、特徴抽出を実行するとき、主に、衣服の色、スタイルなど、歩行者の摩耗を当該歩行者と他人を区別するための特徴とする。そのため、歩行者が着替えると、現在のアルゴリズムが正確に識別することは困難になる。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願実施例は、画像処理方法、装置、機器、コンピュータ記憶媒体およびコンピュータプログラムを提供する。
【課題を解決するための手段】
【0006】
本願実施例は、画像処理方法を提供し、前記方法は、
第1対象を含む第1画像および第1衣服を含む第2画像を取得することと、
前記第1画像および前記第2画像を第1モデルに入力して、第1融合特徴ベクトルを取得することであって、前記第1融合特徴ベクトルは、前記第1画像と前記第2画像の融合特徴を示すために使用されることと、
第2融合特徴ベクトルを取得することであって、ここで、前記第2融合特徴ベクトルは、第3画像と第4画像の融合特徴を示すために使用され、前記第3画像は、第2対象を含み、前記第4画像は、前記第3画像から切り取った、第2衣服を含む画像であることと、
前記第1融合特徴ベクトルと前記第2融合特徴ベクトルとのターゲット類似度に従って、前記第1対象と前記第2対象が同じ対象であるか否かを決定することと、を含む。
【0007】
本願実施例は、第1対象を含む第1画像および第1衣服を含む第2画像を取得することにより、第1画像および第2画像を第1モデルに入力して、第1融合特徴ベクトルを取得し、第2対象を含む第3画像と第3画像から切り取った第2衣服を含む第4画像の第2融合特徴ベクトルを取得し、第1融合特徴ベクトルと第2融合特徴ベクトルとのターゲット類似度に従って、第1対象と第2対象が同じ対象であるか否かを決定し、照会される対象(第1対象)に対して特徴抽出を実行するとき、照会される対象の衣服を、照会される対象が着用した可能性がある第1衣服に置き換えるため、即ち、照会される対象の特徴を抽出するとき、衣服の特徴を弱くして、識別性をもっと有する他の特徴を抽出することに焦点を合わせるため、照会される対象が着替えた後、依然として、高い識別正確度に達することができる。
【0008】
本願のいくつかの実施例において、前記第1融合特徴ベクトルと前記第2融合特徴ベクトルとのターゲット類似度に従って、前記第1対象および前記第2対象が同じ対象であるか否かを決定することは、前記第1融合特徴ベクトルと前記第2融合特徴ベクトルとのターゲット類似度が第1閾値より大きい場合に応答して、前記第1対象と前記第2対象が同じ対象であると決定することを含む。
【0009】
第1融合特徴ベクトルと前記第2融合特徴ベクトルとのターゲット類似度を比較することにより、第1対象と第2対象が同じ対象であるか否かを決定して、対象識別の正確度を向上させる。
【0010】
本願のいくつかの実施例において、前記第2融合特徴ベクトルを取得することは、前記第3画像および前記第4画像を前記第1モデルに入力して、前記第2融合特徴ベクトルを取得することを含む。
【0011】
事前に、第3画像および第4画像を第1モデルに入力して、第2融合特徴ベクトルを取得することにより、第2融合特徴ベクトルを取得する効率を向上させることができる。
【0012】
本願のいくつかの実施例において、前記方法は、前記第1対象および前記第2対象が同じ対象である場合に応答して、前記第3画像を撮影する端末機器の識別子を取得することと、前記端末機器の識別子に従って、前記端末機器によって設定されるターゲット地理位置を決定し、前記ターゲット地理位置と前記第1対象との関連付け関係を確立することと、をさらに含む。
【0013】
第3画像を撮影する端末機器の識別子を取得することにより、第3画像を撮影する端末機器によって設定されるターゲット地理位置を決定し、ターゲット地理位置と第1対象との関連付け関係に従って、第1対象の可能な位置領域を決定して、第1対象を探す効率を向上させることができる。
【0014】
本願のいくつかの実施例において、前記ターゲット対象を含む第1画像および照会される対象の第2画像を取得する前に、第1サンプル画像および第2サンプル画像を取得することであって、前記第1サンプル画像および前記第2サンプル画像は、すべて第1サンプル対象を含み、前記第1サンプル画像で前記第1サンプル対象に関連付けられる衣服は、前記第2サンプル画像で前記第1サンプル対象に関連付けられる衣服と異なることと、前記第1サンプル画像から第1サンプル衣服を含む第3サンプル画像を切り取ることであって、前記第1サンプル衣服は、前記第1サンプル画像で前記第1サンプル対象に関連付けられる衣服であることと、第2サンプル衣服を含む第4サンプル画像を取得することであって、前記第2サンプル衣服と前記第1サンプル衣服との類似度は、第2閾値より大きいことと、前記第1サンプル画像、前記第2サンプル画像、前記第3サンプル画像および前記第4サンプル画像に従って、第2モデルおよび第3モデルをトレーニングすることと、をさらに含み、前記第3モデルと前記第2モデルのネットワーク構造は、同じであり、前記第1モデルは、前記第2モデルまたは前記第3モデルである。
【0015】
後続で、第2モデルおよび第3モデルを介して、画像内の識別性をもっと有する特徴を正しく抽出することを容易にするために、サンプル画像を介して第2モデルおよび第3モデルをトレーニングして、第2モデルおよび第3モデルをより正確にする。
【0016】
本願のいくつかの実施例において、前記第1サンプル画像、前記第2サンプル画像、前記第3サンプル画像および前記第4サンプル画像に従って、第2モデルおよび第3モデルをトレーニングすることは、前記第1サンプル画像および前記第3サンプル画像を第2モデルに入力して、第1サンプル特徴ベクトルを取得することであって、前記第1サンプル特徴ベクトルは、前記第1サンプル画像と前記第3サンプル画像の融合特徴を示すために使用されることと、前記第2サンプル画像および前記第4サンプル画像を第3モデルに入力して、第2サンプル特徴ベクトルを取得することであって、前記第2サンプル特徴ベクトルは、前記第2サンプル画像と前記第4サンプル画像の融合特徴を示すために使用されることと、前記第1サンプル特徴ベクトルおよび前記第2サンプル特徴ベクトルに従って、モデル総損失を決定し、前記モデル総損失に従って、前記第2モデルおよび前記第3モデルをトレーニングすることと、を含む。
【0017】
後続で、第2モデルおよび第3モデルを介して画像内の識別性をもっと有する特徴を正しく抽出するために、サンプル画像の特徴ベクトルを介して、第2モデルと第3モデルの総損失を決定し、モデル総損失に従って、第2モデルおよび第3モデルをトレーニングする。
【0018】
本願のいくつかの実施例において、前記第1サンプル画像および前記第2サンプル画像は、サンプルギャラリ内の画像であり、前記サンプルギャラリは、M個のサンプル画像を含み、前記M個のサンプル画像は、N個のサンプル対象に関連付けられ、前記Mは、2Nより大きいか等しく、前記M、Nは、1より大きいか等しい整数であり、前記第1サンプル特徴ベクトルおよび前記第2サンプル特徴ベクトルに従って、モデル総損失を決定することは、前記第1サンプル特徴ベクトルに従って、第1確率ベクトルを決定することであって、前記第1確率ベクトルは、前記第1サンプル画像の前記第1サンプル対象が、前記N個のサンプル対象の各サンプル対象である確率を示すために使用されることと、前記第2サンプル特徴ベクトルに従って、第2確率ベクトルを決定することであって、前記第2確率ベクトルは、前記第2サンプル画像の前記第1サンプル対象が、前記N個のサンプル対象の各サンプル対象である確率を示すために使用されることと、前記第1確率ベクトルおよび前記第2確率ベクトルに従って、モデル総損失を決定することと、を含む。
【0019】
第1サンプル特徴とN個のサンプル対象の各サンプル対象の確率をそれぞれ決定して、第1確率ベクトルを取得し、第2サンプル特徴とN個のサンプル対象の各サンプル対象の確率を決定して、第2確率ベクトルを取得して、第1確率ベクトルおよび第2確率ベクトルを介してモデル総損失をより正確に決定して、現在のモデルが、トレーニングされたか否かを決定することができる。
【0020】
本願のいくつかの実施例において、前記第1確率ベクトルおよび前記第2確率ベクトルに従って、モデル総損失を決定することは、前記第1確率ベクトルに従って、前記第2モデルのモデル損失を決定することと、前記第2確率ベクトルに従って、前記第3モデルのモデル損失を決定することと、前記第2モデルのモデル損失および前記第3モデルのモデル損失に従って、モデル総損失を決定することと、を含む。
【0021】
第2モデルのモデル損失および第3モデルのモデル損失をそれぞれ決定し、第2モデルのモデル損失および第3モデルのモデル損失に従って、モデル総損失を決定することにより、モデル総損失をより正確に決定して、現在のモデルが抽出した画像内の特徴が識別性を有するか否かを決定して、現在のモデルが、トレーニングされたか否かを決定することができる。
【0022】
本願実施例は、さらに、画像処理装置を提供し、前記装置は、
第1対象を含む第1画像および第1衣服を含む第2画像を取得するように構成される、第1取得モジュールと、
前記第1画像および前記第2画像を第1モデルに入力して、第1融合特徴ベクトルを取得するように構成される、第1融合モジュールであって、前記第1融合特徴ベクトルは、前記第1画像と前記第2画像の融合特徴を示すために使用される、第1融合モジュールと、
第2融合特徴ベクトルを取得するように構成される、第2取得モジュールであって、ここで、前記第2融合特徴ベクトルは、第3画像と第4画像の融合特徴を示すために使用され、前記第3画像は、第2対象を含み、前記第4画像は、前記第3画像から切り取った、第2衣服を含む画像である、第2取得モジュールと、
前記第1融合特徴ベクトルと前記第2融合特徴ベクトルとのターゲット類似度に従って、前記第1対象と前記第2対象が同じ対象であるか否かを決定するように構成される、対象決定モジュールと、を備える。
【0023】
本願のいくつかの実施例において、前記対象決定モジュールは、前記第1融合特徴ベクトルと前記第2融合特徴ベクトルとのターゲット類似度が第1閾値より大きい場合に応答して、前記第1対象と前記第2対象が同じ対象であると決定するように構成される。
【0024】
本願のいくつかの実施例において、前記第2取得モジュールは、前記第3画像および前記第4画像を前記第1モデルに入力して、前記第2融合特徴ベクトルを取得するように構成される。
【0025】
本願のいくつかの実施例において、前記装置は、さらに、前記第1対象と前記第2対象が同じ対象である場合に応答して、前記第3画像を撮影する端末機器の識別子を取得し、前記端末機器の識別子に従って、前記端末機器によって設定されるターゲット地理位置を決定し、前記ターゲット地理位置と前記第1対象との関連付け関係を確立するように構成される、位置決定モジュールを備える。
【0026】
本願のいくつかの実施例において、前記装置は、さらに、第1サンプル画像および第2サンプル画像を取得し、前記第1サンプル画像および前記第2サンプル画像は、すべて第1サンプル対象を含み、前記第1サンプル画像で前記第1サンプル対象に関連付けられる衣服は、前記第2サンプル画像で前記第1サンプル対象に関連付けられる衣服と異なり、前記第1サンプル画像から第1サンプル衣服を含む第3サンプル画像を切り取り、前記第1サンプル衣服は、前記第1サンプル画像で前記第1サンプル対象に関連付けられる衣服であり、第2サンプル衣服を含む第4サンプル画像を取得し、前記第2サンプル衣服と前記第1サンプル衣服との類似度は、第2閾値より大きく、前記第1サンプル画像、前記第2サンプル画像、前記第3サンプル画像および前記第4サンプル画像に従って、第2モデルおよび第3モデルをトレーニングするように構成される、トレーニングモジュールを備え、前記第3モデルと前記第2モデルのネットワーク構造は、同じであり、前記第1モデルは、前記第2モデルまたは前記第3モデルである。
【0027】
本願のいくつかの実施例において、前記トレーニングモジュールは、前記第1サンプル画像および前記第3サンプル画像を第2モデルに入力して、第1サンプル特徴ベクトルを取得し、前記第1サンプル特徴ベクトルは、前記第1サンプル画像と前記第3サンプル画像の融合特徴を示すために使用され、前記第2サンプル画像および前記第4サンプル画像を第3モデルに入力して、第2サンプル特徴ベクトルを取得し、前記第2サンプル特徴ベクトルは、前記第2サンプル画像と前記第4サンプル画像の融合特徴を示すために使用され、前記第1サンプル特徴ベクトルおよび前記第2サンプル特徴ベクトルに従って、モデル総損失を決定し、前記モデル総損失に従って、前記第2モデルおよび前記第3モデルをトレーニングするように構成される。
【0028】
本願のいくつかの実施例において、前記第1サンプル画像および前記第2サンプル画像は、サンプルギャラリ内の画像であり、前記サンプルギャラリは、M個のサンプル画像を含み、前記M個のサンプル画像は、N個のサンプル対象に関連付けられ、前記Mは、2Nより大きいか等しく、前記M、Nは、1より大きいか等しい整数であり、前記トレーニングモジュールは、さらに、前記第1サンプル特徴ベクトルに従って、第1確率ベクトルを決定し、前記第1確率ベクトルは、前記第1サンプル画像の前記第1サンプル対象が、前記N個のサンプル対象の各サンプル対象である確率を示すために使用され、前記第2サンプル特徴ベクトルに従って、第2確率ベクトルを決定し、前記第2確率ベクトルは、前記第2サンプル画像の前記第1サンプル対象が、前記N個のサンプル対象の各サンプル対象である確率を示すために使用され、前記第1確率ベクトルおよび前記第2確率ベクトルに従って、モデル総損失を決定するように構成される。
【0029】
本願のいくつかの実施例において、前記トレーニングモジュールは、さらに、前記第1確率ベクトルに従って、前記第2モデルのモデル損失を決定し、前記第2確率ベクトルに従って、前記第3モデルのモデル損失を決定し、前記第2モデルのモデル損失および前記第3モデルのモデル損失に従って、モデル総損失を決定するように構成される。
【0030】
本願実施例は、さらに、プロセッサ、メモリおよび入力出力インターフェースを備える、画像処理機器を提供し、前記プロセッサ、メモリおよび入力出力インターフェースは、互いに接続され、ここで、前記入力出力インターフェースは、データを入力または出力するように構成され、前記メモリは、画像処理機器が上記の方法を実行するアプリケーションプログラムコードを記憶するように構成され、前記プロセッサは、上記の任意の1つの画像処理方法を実行するように構成される。
【0031】
本願実施例は、さらに、コンピュータプログラムを記憶する、コンピュータ記憶媒体を提供し、前記コンピュータプログラムは、プログラム命令を含み、前記プログラム命令は、プロセッサによって実行されるとき、前記プロセッサに上記の任意の1つの画像処理方法を実行させる。
【0032】
本願実施例は、さらに、コンピュータ可読コードを含む、コンピュータプログラムを提供し、前記コンピュータ可読コードが画像処理機器で実行されるとき、前記画像処理機器内のプロセッサは、上記の任意の1つの画像処理方法を実行する。
【発明の効果】
【0033】
本願実施例において、第1対象を含む第1画像および第1衣服を含む第2画像を取得することにより、第1画像および第2画像を第1モデルに入力して、第1融合特徴ベクトルを取得し、第2対象を含む第3画像と第3画像から切り取った第2衣服を含む第4画像の第2融合特徴ベクトルを取得し、第1融合特徴ベクトルと第2融合特徴ベクトルとのターゲット類似度に従って、第1対象と第2対象が同じ対象であるか否かを決定し、照会される対象(第1対象)に対して特徴抽出を実行するとき、照会される対象の衣服を、照会される対象が着用した可能性がある第1衣服に置き換えるため、即ち、照会される対象の特徴を抽出するとき、衣服の特徴を弱くして、識別性をもっと有する他の特徴を抽出することに焦点を合わせるため、照会される対象が着替えた後、依然として、高い識別正確度に達することができる。
【0034】
上記の一般的な説明および後述する詳細な説明は、単なる例示および説明に過ぎず、本願を限定するものではないことを理解されたい。以下、図面を参照した例示的な実施例に対する詳細な説明によれば、本願の他の特徴および態様は明らかになる。
【図面の簡単な説明】
【0035】
本願実施例の技術的解決策をより明確に説明するために、以下は、実施例で使用される図面について簡単に紹介する。以下に説明される図面は、本願のいくつかの実施例に過ぎず、当業者にとっては、創造的な作業なしに、これらの図面に従って他の図面を得ることもできることは自明である。
【
図1a】本願実施例による画像処理方法の例示的なフローチャートである。
【
図1b】本願実施例の1つの適用シナリオの概略図である。
【
図2】本願実施例による画像処理方法の別の例示的なフローチャートである。
【
図3a】本願実施例による第1サンプル画像の概略図である。
【
図3b】本願実施例による第3サンプル画像の概略図である。
【
図3c】本願実施例による第4サンプル画像の概略図である。
【
図4】本願実施例によるモデルをトレーニングする概略図である。
【
図5】本願実施例による画像処理装置の構成の例示的な構造図である。
【
図6】本願実施例による画像処理機器の構成の例示的な構造図である。
【発明を実施するための形態】
【0036】
以下、本願実施例の図面を参照して、本願実施例の技術的解決策を明確且つ完全に説明し、明らかに、説明される実施例は、単に本願実施例の一部であり、実施例の全てではない。本願実施例に基づいて、創造的な努力なしに当業者によって取得される他のすべての実施例は、本願の保護範囲に含まれるものとする。
【0037】
本願実施例の技術案は、異なる画像内の対象が同じ対象であるか否かを決定するシナリオに適用され、第1対象を含む第1画像(照会される画像)および第1衣服を含む第2画像を取得することにより、第1画像および第2画像を第1モデルに入力して、第1融合特徴ベクトルを取得し、第2対象を含む第3画像と第3画像から切り取った第2衣服を含む第4画像の第2融合特徴ベクトルを取得し、第1融合特徴ベクトルと第2融合特徴ベクトルとのターゲット類似度に従って、第1対象と第2対象が同じ対象であるか否かを決定する。
【0038】
本願実施例は、画像処理方法を提供し、当該画像処理方法は、画像処理装置50によって実行でき、画像処理装置は、ユーザ機器(UE:User Equipment)、モバイル機器、ユーザ端末、端末、セルラ電話、コードレス電話、携帯情報端末(PDA:Personal Digital Assistant)、ハンドヘルド機器、コンピューティング機器、車載機器ウェアラブル機器などであり得、前記方法は、プロセッサがメモリに記憶されるコンピュータ可読命令を呼び出す方式を介して実現できる。または、サーバを介して当該方法を実行することができる。
【0039】
図1aは、本願実施例による画像処理方法の例示的なフローチャートであり、
図1aに示されたように、当該方法は、以下のステップを含む。
【0040】
S101において、第1対象を含む第1画像および第1衣服を含む第2画像を取得する。
【0041】
ここで、第1画像は、第1対象の顔と第1対象の衣服を含み得、第1対象の全身画像または半身画像などであってもよい。一可能なシナリオにおいて、例えば、第1画像は、警察が提供するある犯罪容疑者の画像であると、第1対象は、当該犯罪容疑者であり、第1画像は、当該犯罪容疑者が顔と衣服を遮蔽していない全身を含む画像であり得、または、当該犯罪容疑者が、顔および衣服を遮蔽していない半身を含む画像などであり得る。または、第1対象が、行方不明の対象の親戚が提供する行方不明の対象(行方不明の子供、行方不明の高齢者など)の画像であると、第1画像は、行方不明の対象の顔および衣服を遮蔽していない全身を含む画像であり得、または、行方不明の対象の顔および衣服を遮蔽していない半身を含む画像であり得る。
【0042】
第2画像は、第1対象が着用した可能性がある衣服の画像、または当該第1対象が着用すると予測される衣服の画像を含み得、第2画像には、衣服のみが含まれ、他の対象(例えば歩行者)は含まれなく、第2画像内の衣服と第1画像内の衣服は異なってもよい。例えば、第1画像内の第1対象が着用する衣服は、スタイル1の青い衣服であると、第2画像内の衣服は、スタイル1の青い衣服以外の衣服であり、例えば、スタイル1の赤い衣服、スタイル2の青い衣服などであり得、第2画像内の衣服と第1画像内の衣服は、同じであってもよく、即ち、当該第1対象が、依然として当該第1画像内の衣服を着用していると予測することを理解されたい。
【0043】
S102において、第1画像および第2画像を第1モデルに入力して、第1融合特徴ベクトルを取得し、第1融合特徴ベクトルは、第1画像と第2画像の融合特徴を示すために使用される。
【0044】
ここで、第1画像および第2画像を第1モデルに入力し、第1モデルを介して第1画像および第2画像に対して特徴抽出を実行して、第1画像と第2画像の融合特徴を含む第1融合特徴ベクトルを取得し、当該第1融合特徴ベクトルは、次元削減処理された低次元特徴ベクトルであり得る。
【0045】
ここで、第1モデルは、
図4内の第2モデル41または第3モデル42であり得、第2モデルと第3モデルのネットワーク構造は、同じである。本願のいくつかの実施例において、第1モデル41を介して第1画像および第2画像に対して特徴抽出を実行するプロセスは、
図4に対応する実施例の第2モデル41、第3モデル42が、融合特徴を抽出するプロセスを参照できる。例えば、第1モデルが、第2モデル41であると、第1特徴抽出モジュールを介して第1画像に対して特徴抽出を実行し、第2特徴抽出モジュールを介して第2画像に対して特徴抽出を実行し、その後、第1特徴抽出モジュールによって抽出される特徴と第2特徴抽出モジュールによって抽出される特徴を、第1融合モジュールを介して融合特徴ベクトルを取得でき、本願のいくつかの実施例において、第1次元削減モジュールを介して当該融合特徴ベクトルに対して次元削減処理を実行して、第1融合特徴ベクトルを取得する。
【0046】
第2モデル41および第3モデル42を事前にトレーニングして、トレーニングされた第2モデル41または第3モデル42を使用して抽出される第1融合特徴ベクトルをより正確にし、第2モデル41および第3モデル42をトレーニングする具体的なプロセスは、
図4に対応する実施例における説明を参照でき、ここでは再び説明しないことに留意されたい。
【0047】
S103において、第2融合特徴ベクトルを取得し、ここで、第2融合特徴ベクトルは、第3画像と第4画像の融合特徴を示すために使用され、第3画像は、第2対象を含み、第4画像は、第3画像から切り取った第2衣服を含む画像である。
【0048】
ここで、第3画像は、各ショッピングモール、スーパーマーケット、交差点、銀行または他の位置に設置されるカメラ機器によって撮影された歩行者を含む画像であり得、または、各ショッピングモール、スーパーマーケット、交差点、銀行または他の位置に設置されるモニタリング機器によって撮影されたモニタリングビデオから切り取った歩行者を含む画像であり得る。データベースに複数の第3画像を記憶することができると、対応する第2融合特徴ベクトルの数も複数であり得る。
【0049】
本願のいくつかの実施例において、第3画像を取得した場合に、各枚の第3画像および当該枚も第3画像から切り取った第2衣服を含む第4画像を第1モデルに入力し、第1モデルを介して第3画像および第4画像に対して特徴抽出を実行して、第2融合特徴ベクトルを取得し、第3画像および第4画像に対応する第2融合特徴ベクトルをデータベースに対応して記憶して、データベースから第2融合特徴ベクトルを取得し、それにより、第2融合特徴ベクトルに対応する第3画像内の第2対象を決定することができる。第1モデルを介して第3画像および第4画像に対して特徴抽出を実行する具体的なプロセスは、上述した第1モデルを介して第1画像および第2画像に対して特徴抽出を実行するプロセスを参照でき、ここでは繰り返して説明しない。1つの第3画像は、1つの第2融合特徴ベクトルに対応し、データベースには、複数の第3画像を記憶でき、各第3画像は、第2融合特徴ベクトルに対応する。
【0050】
第2融合特徴ベクトルを取得するとき、データベース内の各第2融合特徴ベクトルを取得する。本願のいくつかの実施例において、第1モデルを事前にトレーニングして、トレーニングされた第1モデルを使用して抽出される第2融合特徴ベクトルをより正確にし、第1モデルをトレーニングする具体的なプロセスは、
図4に対応する実施例の説明を参照でき、ここでは再び説明しない。
【0051】
S104において、第1融合特徴ベクトルと第2融合特徴ベクトルとのターゲット類似度に従って、第1対象と第2対象が同じ対象であるか否かを決定する。
【0052】
ここで、第1融合特徴ベクトルと第2融合特徴ベクトルとのターゲット類似度と第1閾値の関係に従って、第1対象と第2対象が同じ対象であるか否かを決定できる。第1閾値は、60%、70%、80%などの任意の数値であり得、ここでは、第1閾値に対して限定しない。本願のいくつかの実施例において、シャム(Siamese)ネットワークのアーキテクチャを使用して、第1融合特徴ベクトルと第2融合特徴ベクトルとのターゲット類似度を計算することができる。
【0053】
本願のいくつかの実施例において、データベースに複数の第2融合特徴ベクトルを含むため、第1融合特徴ベクトルおよびデータベースに含まれる複数の第2融合特徴ベクトルのうちの各第2融合特徴ベクトル間のターゲット類似度を計算する必要があり、それにより、ターゲット類似度が第1閾値より大きいか否かに従って、第1対象およびデータベース内の各第2融合特徴ベクトルに対応する第2対象が同じ対象であるか否かを決定する。第1融合特徴ベクトルと第2融合特徴ベクトルとのターゲット類似度が第1閾値より大きい場合に応答して、第1対象と第2対象が同じ対象であると決定し、第1融合特徴ベクトルと第2融合特徴ベクトルとのターゲット類似度が、第1閾値より小さいか等しい場合に応答して、第1対象と第2対象が、同じ対象ではないと決定する。上記の方式を介して、データベース内の複数枚の第3画像に、第1対象が第1衣服または第1衣服と類似する衣服を着用した画像があるか否かを決定できる。
【0054】
本願のいくつかの実施例において、第1融合特徴ベクトルと第2融合特徴ベクトルとのターゲット類似度を計算することができ、例えば、ユークリッド距離、コサイン距離、マンハッタン距離などに従って、第1融合特徴ベクトルと第2融合特徴ベクトルとのターゲット類似度を計算する。第1閾値が80%であり、且つ、計算して得たターゲット類似度が60%であると、第1対象と第2対象は、同じ対象ではないと決定し、ターゲット類似度が85%であると、第1対象と第2対象は、同じ対象であると決定する。
【0055】
本願実施例の画像処理方法は、容疑者の追跡、行方不明者の検索などのシナリオに適用できる。
図1bは、本願実施例の適用シナリオの概略図であり、
図1bに示されたように、警察が、犯罪容疑者を探すシナリオでは、犯罪容疑者の画像11が、前記第1画像であり、犯罪容疑者が着用する衣服(または犯罪容疑者が着用すると予測される衣服)の画像12が、前記第2画像であり、事前に撮影された画像13が、前記第3画像であり、事前に撮影された画像13を介して、事前に撮影された画像13から切り取った衣服を含む画像14が、前記第4画像であり、例えば、事前に撮影された画像は、各ショッピングモール、スーパーマーケット、交差点、銀行などの位置で撮影された歩行者の画像およびモニタリングビデオから切り取った歩行者の画像であり得る。本願実施例において、第1画像、第2画像、第3画像および第4画像を画像処理装置50に入力することができ、画像処理装置50では、上記の実施例に記載の画像処理方法に基づいて処理して、第3画像内の第2対象が、第1画像内の第1対象であるか否かを決定でき、即ち、第2対象が、犯罪容疑者であるか否かを決定できる。
【0056】
本願のいくつかの実施例において、第1対象と第2対象が同じ対象である場合に応答して、第3画像を撮影する端末機器の識別子を取得し、端末機器の識別子に従って、端末機器によって設定されるターゲット地理位置を決定し、ターゲット地理位置と前記第1対象との関連付け関係を確立する。
【0057】
ここで、第3画像の端末機器の識別子は、第3画像を撮影する端末機器を唯一に識別するために使用され、例えば、第3画像を撮影する端末機器の機器工場番号、端末機器の位置番号、端末機器のコード番号などの当該端末機器を唯一に指示する識別子を含み得、端末機器によって設定されるターゲット地理位置は、第3画像を撮影する端末機器の地理位置または第3画像をアップロードする端末機器の地理位置を含み得、地理位置は、具体的には、「A省B市C区D路EユニットF層」であり得、ここで、第3画像をアップロードする端末機器の地理位置は、端末機器が、第3画像をアップロードするときに対応するサーバインターネットプロトコル(IP:Internet Protocol)アドレスであり得、ここで、第3画像を撮影する端末機器の地理位置と第3画像をアップロードする端末機器の地理位置が、一致していない場合、第3画像を撮影する端末機器の地理位置をターゲット地理位置として決定することができる。ターゲット地理位置と第1対象との関連付け関係は、第1対象がターゲット地理位置の領域内にいることを表示し、例えば、ターゲット地理位置が、A省B市C区D路EユニットF層であると、第1対象の位置が、A省B市C区D路EユニットF層であること、または、第1対象の位置が、ターゲット地理位置の特定の範囲内であることを示す。
【0058】
本願のいくつかの実施例において、第1対象と第2対象が同じ対象であると決定した場合、当該第2対象を含む第3画像を決定し、当該第3画像を撮影する端末機器の識別子を取得し、それにより、当該端末機器の識別子に対応する端末機器を決定し、さらに、当該端末機器によって設定されるターゲット地理位置を決定し、ターゲット地理位置と第1対象との関連付け関係に従って、第1対象の位置を決定して、第1対象を追跡する。
【0059】
例えば、
図1bに示されたシナリオに対して、第1対象と第2対象が同じ対象であると決定した場合、即ち、第2対象が、犯罪容疑者であると決定した場合、第3画像をアップロードするカメラ機器の地理位置を取得して、犯罪容疑者の運動トラックを決定し、それにより、警察は、犯罪容疑者を追跡および逮捕する。
【0060】
本願のいくつかの実施例において、端末機器が第3画像を撮影する瞬間を決定することもでき、第3画像を撮影する瞬間は、当該瞬間で第1対象は、当該端末機器が配置されるターゲット地理位置に位置することを表し、これから、時間間隔に従って第1対象の現在の可能な位置範囲を推測でき、それにより、第1対象の現在の可能な位置範囲内の端末機器を探して、第1対象の位置を探す効率を向上させることができる。
【0061】
本願実施例において、第1対象を含む第1画像および第1衣服を含む第2画像を取得することにより、第1画像および第2画像を第1モデルに入力して、第1融合特徴ベクトルを取得し、第2対象を含む第3画像と第3画像から切り取った第2衣服を含む第4画像の第2融合特徴ベクトルを取得し、第1融合特徴ベクトルと第2融合特徴ベクトルとのターゲット類似度に従って、第1対象と第2対象が同じ対象であるか否かを決定し、照会される第1対象に対して特徴抽出を実行するとき、第1対象の衣服を第1対象が着用する可能性がある第1衣服に置き換え、即ち、第1対象の特徴を抽出するとき衣服の特徴を弱くして、識別性をもっと有する他の特徴を抽出することに焦点を合わせるため、ターゲット対象が着替えた後、依然として、高い識別正確度に達することができ、第1対象と第2対象が同じ対象であると決定した場合、第2対象を含む第3画像を撮影する端末機器の識別子を取得して、第3画像を撮影する端末機器の地理位置を決定し、さらに、第1対象の可能な位置領域を決定して、第1対象を探す効率を向上させることができる。
【0062】
本願のいくつかの実施例において、モデルが抽出された画像の特徴をより正確にするために、第1画像および第2画像をモデルに入力して、第1融合特徴ベクトル(モデルを使用)を取得する前に、さらに、大量のサンプル画像を使用してモデルをトレーニングし、トレーニングされた損失値に従ってモデルを調整して、トレーニングされたモデルが抽出して得た画像の特徴をより正確にし、モデルをトレーニングする具体的なステップは、
図2に示された通りであり、
図2は、本願実施例による画像処理方法の別の例示的なフローチャートであり、
図2に示されたように、当該方法は、以下のステップを含む。
【0063】
S201において、第1サンプル画像および第2サンプル画像を取得し、第1サンプル画像および第2サンプル画像は、すべて第1サンプル対象を含み、第1サンプル対象が第1サンプル画像に関連付けられる衣服は、第1サンプル対象が第2サンプル画像に関連付けられる衣服と異なる。
【0064】
ここで、第1サンプル対象が第1サンプル画像に関連付けられる衣服は、即ち、第1サンプル画像内の第1サンプル対象が着用する衣服であり、ここで、第1サンプル対象の手に持っている衣服、または隣に横たわっている着用していない衣服などの、第1サンプル画像内の第1サンプル対象が着用していない衣服を含まない。第1サンプル画像内の第1サンプル対象の衣服と第2サンプル画像内の第1サンプル対象の衣服は異なる。衣服が異なることは、衣服の色が異なること、衣服のスタイルが異なること、衣服の色およびスタイルすべて異なることを含み得る。
【0065】
本願のいくつかの実施例において、1つのサンプルギャラリを事前に設定できると、第1サンプル画像および第2サンプル画像は、サンプルギャラリ内の画像であり、ここで、サンプルギャラリは、M個のサンプル画像を含み、M個のサンプル画像は、N個のサンプル対象に関連付けられ、Mは、2Nより大きいか等しく、M、Nは、1より大きいか等しい整数である。本願のいくつかの実施例において、サンプルギャラリ内の各サンプル対象は、1つの番号に対応し、例えば、サンプル対象の身分識別番号(ID:Identity Document)、または、当該サンプル対象を唯一に識別する数字番号などであり得る。例えば、サンプルギャラリに5000のサンプル対象があると、5000のサンプル対象の番号は、1-5000であり得、1つの番号は、複数のサンプル画像に対応でき、即ち、サンプルギャラリに番号1のサンプル対象の複数のサンプル画像(即ち、番号1のサンプル対象が異なる衣服を着用した画像)、番号2のサンプル対象の複数のサンプル画像、番号3のサンプル対象の複数のサンプル画像などを含み得る。同じ番号の複数のサンプル画像で、当該サンプル対象が着用する衣服は異なり、即ち、同じサンプル対象に対応する複数の画像の各画像内のサンプル対象が着用する衣服は異なる。第1サンプル対象は、当該N個のサンプル対象のうちの任意の1つのサンプル対象であり得る。第1サンプル画像は、当該第1サンプル画像の複数のサンプル画像のうちの任意の1つのサンプル画像であり得る。
【0066】
S202において、第1サンプル画像から第1サンプル衣服を含む第3サンプル画像を切り取り、第1サンプル衣服は、第1サンプル対象が第1サンプル画像に関連付けられる衣服である。
【0067】
ここで、第1サンプル衣服は、第1サンプル画像内の第1サンプル対象が着用する衣服であり、第1サンプル衣服は、衣服、パンツ、スカート、衣服とパンツなどを含み得る。第3サンプル画像は、第1サンプル画像から切り取った第1サンプル衣服を含む画像であり得、
図3aは、本願実施例による第1サンプル画像の概略図であり、
図3bは、本願実施例による第3サンプル画像の概略図であり、
図3aおよび
図3bに示されたように、第3サンプル画像N3は、第1サンプル画像N1からスクリーンショットして得た画像である。第1サンプル画像内の第1サンプル対象が、複数の衣服を着用した場合、第1サンプル衣服は、第1サンプル画像で最も比率が高い衣服であり得、例えば、第1サンプル画像における第1サンプル対象のコートの比率が30%であり、第1サンプル画像における第1サンプル対象のシャツの比率が10%であると、第1サンプル衣服は、第1サンプル対象のコートであり、第3サンプル画像は、第1サンプル対象のコートを含む画像である。
【0068】
S203において、第2サンプル衣服を含む第4サンプル画像を取得し、第2サンプル衣服と第1サンプル衣服との類似度は、第2閾値より大きい。
【0069】
ここで、第4サンプル画像は、第2サンプル衣服を含む画像であり、第4サンプル画像には、第2サンプル衣服のみを含み、サンプル対象は、含まないことを理解されたい。
図3cは、本願実施例による第4サンプル画像の概略図であり、
図3cでは、第4サンプル画像N4は、第2サンプル衣服を含む画像を表す。
【0070】
本願のいくつかの実施例において、第3サンプル画像をインターネットに入力して第4サンプル画像を探すことができ、例えば,第3サンプル画像を画像識別機能を有するアプリケーションプログラムに入力して、第3サンプル画像内の第1サンプル衣服との類似度が第2閾値より大きい第2サンプル衣服がいる画像を探し、例えば、第3サンプル画像をアプリケーションプログラム(APP:Application)に入力して、複数の画像を探して、複数の画像から第1サンプル衣服と最も類似し、且つ、画像に第2サンプル衣服のみを含む一枚の画像、即ち、第4サンプル画像を探すことができる。
【0071】
S204において、第1サンプル画像、第2サンプル画像、第3サンプル画像および第4サンプル画像に従って、第2モデルおよび第3モデルをトレーニングし、第3モデルと第2モデルのネットワーク構造は、同じであり、第1モデルは、第2モデルまたは第3モデルである。
【0072】
本願のいくつかの実施例において、第1サンプル画像、第2サンプル画像、第3サンプル画像および第4サンプル画像に従って、第2モデルおよび第3モデルをトレーニングすることは、以下のステップを含み得る。
【0073】
ステップ1において、第1サンプル画像および第3サンプル画像を第2モデルに入力して、第1サンプル特徴ベクトルを取得し、第1サンプル特徴ベクトルは、第1サンプル画像と第3サンプル画像の融合特徴を示すために使用される。
【0074】
以下は、第1サンプル画像および第3サンプル画像を第2モデルに入力して、第1サンプル特徴ベクトルを取得するプロセスを紹介する。本願実施例によるモデルをトレーニングする概略図である、
図4を参照でき、
図4に示されたように、
まず、第1サンプル画像N1および第3サンプル画像N3を第2モデル41に入力し、第2モデル41内の第1特徴抽出モジュール411を介して第1サンプル画像N1に対して特徴抽出を実行して、第1特徴行列を取得し、第2モデル41内の第2特徴抽出モジュール412を介して第3サンプル画像N3に対して特徴抽出を実行して、第2特徴行列を取得し、その後、第2モデル41内の第1融合モジュール413を介して第1特徴行列と第2特徴行列に対して融合処理を実行して第1融合行列を取得し、その後、第2モデル41内の第1次元削減モジュール414を介して第1融合行列に対して次元削減処理を実行して、第1サンプル特徴ベクトルを取得し、最後に、第1分類モジュール43を介して第1サンプル特徴ベクトルを分類して、第1確率ベクトルを取得する。
【0075】
本願のいくつかの実施例において、第1特徴抽出モジュール411および第2特徴抽出モジュール412は、画像に対して特徴抽出を実行するための、複数の残余ネットワークを含み得、残余ネットワークには、複数の残余ブロックを含み得、残余ブロックは、畳み込み層によって構成され、残余ネットワーク内の残余ブロックを介して画像に対して特徴抽出を実行して、毎回残余ネットワーク内の畳み込み層を介して画像を畳み込んで取得される画像に対応する特徴を圧縮し、モデル内のパラメータ量および計算量を減少でき、第1特徴抽出モジュール411と第2特徴抽出モジュール412内のパラメータは、異なる。第1融合モジュール413は、第1特徴抽出モジュール411によって抽出される第1サンプル画像N1の特徴と、第2特徴抽出モジュール412によって抽出される第3サンプル画像N3の特徴を融合するように構成され、例えば、第1特徴抽出モジュール411によって抽出される第1サンプル画像N1の特徴は、512次元の特徴行列であり、第2特徴抽出モジュール412によって抽出される第3サンプル画像N3の特徴が、512次元の特徴行列であり、第1融合モジュール413が第1サンプル画像N1の特徴と第3サンプル画像N3の特徴を融合して1024次元の特徴行列を取得することができる。第1次元削減モジュール414は、トレーニング中のモデルの計算量を減少するために使用される、全結合層であり得、例えば、第1サンプル画像N1の特徴と第3サンプル画像N3の特徴を融合した後の行列が、高次元特徴行列であると、第1次元削減モジュール414を介して高次元特徴行列に対して次元削減を実行して、低次元特徴行列を取得でき、高次元特徴行列が、1024次元であると、第1次元削減モジュールを介して次元削減を実行して、256次元の低次元特徴行列を取得でき、次元削減処理を介して、トレーニング中のモデルの計算量を減少できる。第1分類モジュール43は、第1サンプル特徴ベクトルを分類して、第1サンプル特徴ベクトルに対応する第1サンプル画像N1内のサンプル対象が、サンプルギャラリ内のN個のサンプル対象の各サンプル対象である確率を取得するように構成される。
【0076】
ステップ2において、第2サンプル画像N2および第4サンプル画像N4を第3モデル42に入力して、第2サンプル特徴ベクトルを取得し、第2サンプル特徴ベクトルは、第2サンプル画像N2と第4サンプル画像N4の融合特徴示すために使用される。
【0077】
以下は、第2サンプル画像N2および第4サンプル画像N4を第3モデル42に入力して、第2サンプル特徴ベクトルを取得するプロセスを具体的に説明する。本願実施例によるモデルをトレーニングする概略図である、
図4を参照できる。
【0078】
まず、第2サンプル画像N2および第4サンプル画像N4を第3モデル42に入力し、第3モデル42内の第3特徴抽出モジュール421を介して第2サンプル画像N2に対して特徴抽出を実行して、第3特徴行列を取得し、第4特徴抽出モジュール422を介して第4サンプル画像N4に対して特徴抽出を実行して、第4特徴行列を取得し、その後、第3モデル42内の第2融合モジュール423を介して第3特徴行列と第4特徴行列に対して融合処理を実行して第2融合行列を取得し、最後に、第3モデル42内の第2次元削減モジュール424を介して第2融合行列に対して次元削減処理を実行して、第2サンプル特徴ベクトルを取得し、最後に、第2分類モジュール44を介して第2サンプル特徴ベクトルを分類して、第2確率ベクトルを取得する。
【0079】
本願のいくつかの実施例において、第3特徴抽出モジュール421および第4特徴抽出モジュール422は、画像に対して特徴抽出するための、複数の残余ネットワークを含み得、残余ネットワークには、複数の残余ブロックを含み得、残余ブロックは、畳み込み層によって構成され、残余ネットワーク内の残余ブロックを介して画像に対して特徴抽出を実行して、毎回残余ネットワーク内の畳み込み層を介して画像を畳み込んで取得される画像に対応する特徴を圧縮し、モデル内のパラメータ量および計算量を減少することができ、ここで、第3特徴抽出モジュール421と第4特徴抽出モジュール422内のパラメータは、異なり、第3特徴抽出モジュール421と第1特徴抽出モジュール411内のパラメータは、同じであってもよく、第4特徴抽出モジュール422と第2特徴抽出モジュール412内のパラメータは、同じであってもよい。第2融合モジュール423は、第3特徴抽出モジュール411によって抽出される第2サンプル画像N2の特徴と、第4特徴抽出モジュール412によって抽出される第4サンプル画像N4の特徴を融合するように構成され、例えば、第3特徴抽出モジュール421によって抽出される第2サンプル画像N2の特徴は、512次元の特徴行列であり、第4特徴抽出モジュール422によって抽出される第4サンプル画像N4の特徴が、512次元の特徴行列であり、第2融合モジュール423が第2サンプル画像N2の特徴と第4サンプル画像N4の特徴を融合して1024次元の特徴行列を取得することができる。第2次元削減モジュール424は、トレーニング中のモデルの計算量を減少するために使用される、全結合層であり得、例えば、第2サンプル画像N2の特徴と第4サンプル画像N4の特徴を融合した後の行列が、高次元特徴行列であると、第2次元削減モジュール424を介して高次元特徴行列に対して次元削減を実行して、低次元特徴行列を取得でき、高次元特徴行列が、1024次元であると、第2次元削減モジュール424を介して次元削減を実行して、256次元の低次元特徴行列を取得でき、次元削減処理を介して、トレーニング中のモデルの計算量を減少できる。第2分類モジュール44は、第2サンプル特徴ベクトルを分類して、第2サンプル特徴ベクトルに対応する第2サンプル画像N2内のサンプル対象が、サンプルギャラリ内のN個のサンプル対象の各サンプル対象である確率を取得するように構成される。
【0080】
図4では、第3サンプル画像N3は、第1サンプル画像N1から切り取ったサンプル対象の衣服aの画像であり、第2サンプル画像N2内の衣服は、衣服bであり、衣服aと衣服bは、異なる衣服であり、第4サンプル画像N4内の衣服は、衣服aであり、第1サンプル画像N1内のサンプル対象と第2サンプル画像N2内のサンプル対象は、同じサンプル対象であり、例えば、両方とも番号1のサンプル対象であり、
図4内の第2サンプル画像N2は、サンプル対象衣服を含む半身画像であってもよいし、サンプル対象衣服を含む全身画像であってもよい。
【0081】
ステップ1~ステップ2において、第2モデル41と第3モデル42は、2つの同じパラメータのモデルであり得、第2モデル41と第3モデル42が、2つの同じパラメータのモデルである場合、第2モデル41を介して第1サンプル画像N1および第3サンプル画像N3に対して特徴抽出を実行することは、第3モデル42を介して第2サンプル画像N2および第4サンプル画像N4に対して特徴抽出を実行することと同時に実行できる。
【0082】
ステップ3において、第1サンプル特徴ベクトルおよび第2サンプル特徴ベクトルに従って、モデル総損失45を決定し、モデル総損失45に従って、第2モデル41および第3モデル42をトレーニングする。
【0083】
第1サンプル特徴ベクトルおよび第2サンプル特徴ベクトルに従って、モデル総損失を決定する具体的な方法は、以下方式を含み得る。
【0084】
まず、第1サンプル特徴ベクトルに従って、第1確率ベクトルを決定し、第1確率ベクトルは、第1サンプル画像内の第1サンプル対象が、N個のサンプル対象内の各サンプル対象である確率を示す。
【0085】
ここで、第1サンプル特徴ベクトルに従って第1確率ベクトルを決定し、当該第1確率ベクトルは、Nの値を含み、各値は、当該第1サンプル画像内の第1サンプル対象が、N個のサンプル対象内の各サンプル対象である確率を示すために使用される。本願のいくつかの実施例において、Nが、3000であり、第1サンプル特徴ベクトルが、低次元の256次元ベクトルであると、当該第1サンプル特徴ベクトルと1つの256*3000のベクトルと乗算して、1つの1*3000のベクトルを取得し、ここで、256*3000のベクトルは、サンプルギャラリ内の3000のサンプル対象の特徴を含む。さらに、前記1*3000のベクトルに対して正規化処理を実行して、第1確率ベクトルを取得し、当該第1確率ベクトルは、3000の確率を含み、当該3000の確率は、当該第1サンプル対象が3000のサンプル対象内の各サンプル対象である確率を示すために使用される。
【0086】
次に、第2サンプル特徴ベクトルに従って、第2確率ベクトルを決定し、第2確率ベクトルは、第2サンプル画像内の第1サンプル対象が、N個のサンプル対象内の各サンプル対象である確率を示すために使用される。
【0087】
ここで、第2サンプル特徴ベクトルに従って第2確率ベクトルを決定し、当該第2確率ベクトルは、Nの値を含み、各値は、当該第2サンプル画像内の第2サンプル対象が、N個のサンプル対象内の各サンプル対象である確率を示すために使用される。本願のいくつかの実施例において、Nが、3000であり、第2サンプル特徴ベクトルが、低次元の256次元ベクトルであると、当該第2サンプル特徴ベクトルと1つの256*3000のベクトルと乗算して、1つの1*3000のベクトルを取得し、ここで、256*3000のベクトルは、サンプルギャラリ内の3000のサンプル対象の特徴を含む。さらに、前記1*3000のベクトルに対して正規化処理を実行して、第2確率ベクトルを取得し、当該第2確率ベクトルは、3000の確率を含み、当該3000の確率は、当該第2サンプル対象が3000のサンプル対象内の各サンプル対象である確率を示すために使用される。
【0088】
最後に、第1確率ベクトルおよび第2確率ベクトルに従って、モデル総損失を決定する。
【0089】
本願のいくつかの実施例において、まず、第1確率ベクトルに従って、第2モデルのモデル損失を決定し、その後、第2確率ベクトルに従って、第3モデルのモデル損失を決定し、最後に、第2モデルのモデル損失および第3モデルのモデル損失に従って、モデル総損失を決定することができる。
図4に示されたように、取得されるモデル総損失45を介して第2モデル41および第3モデル42を調整し、即ち、第2モデル41内の第1特徴抽出モジュール411、第1融合モジュール413、第1次元削減モジュール414および第1分類モジュール43、および第3モデル42内の第3特徴抽出モジュール421、第2融合モジュール423、第2次元削減モジュール424および第2分類モジュール44を調整する。
【0090】
第1確率ベクトルから最大確率を取得し、当該最大確率に対応するサンプル対象の番号、および当該第1サンプル画像の番号に従って、第2モデルのモデル損失を計算し、当該第2モデルのモデル損失は、当該最大確率に対応するサンプル対象の番号と、当該第1サンプル画像の番号との差を示すために使用される。計算して得た第2モデルのモデル損失が小さいほど、第2モデルがより正確であり、抽出される特徴がもっと識別性を有することを示す。
【0091】
第2確率ベクトルから最大確率を取得し、当該最大確率に対応するサンプル対象の番号、および当該第2サンプル画像の番号に従って、第3モデルのモデル損失を計算し、当該第3モデルのモデル損失は、当該最大確率に対応するサンプル対象の番号と、当該第2サンプル画像の番号との差を示すために使用される。計算して得た第3モデルのモデル損失が小さいほど、第3モデルがより正確であり、抽出される特徴がもっと識別性を有することを示す。
【0092】
ここで、モデル総損失は、第2モデルのモデル損失と第3モデルのモデル損失の合計である。第2モデルのモデル損失および第3モデルのモデル損失が大きい場合、モデル総損失も大きく、即ち、モデルによって抽出される対象の特徴ベクトルの正確度も低く、勾配降下法を採用して第2モデル41内の各モジュール(第1特徴抽出モジュール411、第2特徴抽出モジュール412、第1融合モジュール413、第1次元削減モジュール414)および第3モデル42内の各モジュール(第3特徴抽出モジュール421、第4特徴抽出モジュール422、第2融合モジュール423、第2次元削減モジュール424)を調整して、モデルトレーニングのパラメータをより正確にし、それにより、第2モデル41、第3モデル42を介して抽出された画像内の対象の特徴をより正確にし、即ち、画像内の衣服特徴を弱くして、抽出される画像内の特徴の大部分を画像内の対象の特徴であるようにし、即ち、抽出される特徴が識別性をもっと有するようにし、それにより、第2モデル41、第3モデル42を介して抽出される画像内の対象の特徴をより正確にする。
【0093】
本願実施例では、サンプルギャラリ内の任意の1つのサンプル対象(例えば番号が1であるサンプル対象)をモデルに入力してトレーニングするプロセスであり、番号が2~Nである任意のサンプル対象をモデルに入力してトレーニングすることにより、モデルが画像内の対象を抽出する正確性を向上させることができ、サンプルギャラリ内の番号が2~Nであるサンプル対象をモデルに入力してトレーニングする具体的なプロセスは、番号が1であるサンプル対象をモデルに入力してトレーニングするプロセスを参照でき、ここでは詳細に説明しない。
【0094】
本願実施例において、複数のサンプルギャラリ内のサンプル画像を使用してモデルをトレーニングし、且つ、サンプルギャラリ内の各サンプル画像は、1つの番号に対応するため、当該番号に対応するある1つのサンプル画像および当該サンプル画像内の衣服画像に対して特徴抽出を実行して融合特徴ベクトルを取得し、抽出される融合特徴ベクトルと当該番号に対応するサンプル画像のターゲットサンプル特徴ベクトルとの類似度を計算して、計算して得た結果に従ってモデルが正確であるか否かを決定でき、モデルの損失が大きい(即ち、モデルが不正確である)場合、サンプルギャラリ内の残りのサンプル画像を介してモデルをトレーニングし続けることができ、大量のサンプル画像を使用してモデルをトレーニングしたため、トレーニングされたモデルは、より正確であり、それにより、モデルを介して抽出された画像内の対象の特徴は、より正確である。
【0095】
以上は、本願実施例の方法を紹介しており、以下は、本願実施例の装置を紹介する。
【0096】
本願実施例による画像処理装置の構成の例示的な構造図である、
図5を参照すると、当該装置50は、第1取得モジュール501、第1融合モジュール502、第2取得モジュール503、対象決定モジュール504および第2融合モジュール505を備える。
【0097】
第1取得モジュール501は、第1対象を含む第1画像および第1衣服を含む第2画像を取得するように構成される。
【0098】
ここで、第1画像は、第1対象の顔と第1対象の衣服を含み得、第1対象の全身画像または半身画像などであってもよい。一可能なシナリオにおいて、例えば、第1画像は、警察が提供するある犯罪容疑者の画像であると、第1対象は、当該犯罪容疑者であり、第1画像は、当該犯罪容疑者が顔と衣服を遮蔽していない全身を含む画像であり得、または、当該犯罪容疑者が、顔および衣服を遮蔽していない半身を含む画像などであり得る。または、第1対象が、行方不明の対象の親戚が提供する行方不明の対象(行方不明の子供、行方不明の高齢者など)の画像であると、第1画像は、行方不明の対象の顔および衣服を遮蔽していない全身を含む画像であり得、または、行方不明の対象の顔および衣服を遮蔽していない半身を含む画像であり得る。第2画像は、第1対象が着用した可能性がある衣服の画像、または当該第1対象が着用すると予測される衣服の画像を含み得、第2画像には、衣服のみが含まれ、他の対象(例えば歩行者)は含まれなく、第2画像内の衣服と第1画像内の衣服は異なってもよい。例えば、第1画像内の第1対象が着用する衣服は、スタイル1の青い衣服であると、第2画像内の衣服は、スタイル1の青い衣服以外の衣服であり、例えば、スタイル1の赤い衣服、スタイル2の青い衣服などであり得、第2画像内の衣服と第1画像内の衣服は、同じであってもよく、即ち、当該第1対象が、依然として当該第1画像内の衣服を着用していると予測することを理解されたい。
【0099】
第1融合モジュール502は、前記第1画像および前記第2画像を第1モデルに入力して、第1融合特徴ベクトルを取得するように構成される、第1融合モジュールであって、前記第1融合特徴ベクトルは、前記第1画像と前記第2画像の融合特徴を示すために使用される。
【0100】
ここで、第1融合モジュール502は、第1画像および第2画像を第1モデルに入力し、第1モデルを介して第1画像および第2画像に対して特徴抽出を実行して、第1画像と第2画像の融合特徴を含む第1融合特徴ベクトルを取得し、当該第1融合特徴ベクトルは、次元削減処理された低次元特徴ベクトルであり得る。
【0101】
ここで、第1モデルは、
図4内の第2モデル41または第3モデル42であり得、第2モデル41と第3モデル42のネットワーク構造は、同じである。具体的な実現において、第1モデルを介して第1画像および第2画像に対して特徴抽出を実行するプロセスは、
図4に対応する実施例の第2モデル41、第3モデル42の融合特徴を抽出するプロセスを参照できる。例えば、第1モデルが、第2モデル42であると、第1融合モジュール502は、第1特徴抽出モジュール411を介して第1画像に対して特徴抽出を実行し、第2特徴抽出モジュール412を介して第2画像に対して特徴抽出を実行し、その後、第1特徴抽出モジュール411によって抽出される特徴と第2特徴抽出モジュール412によって抽出される特徴を、第1融合モジュール413を介して融合特徴ベクトルを取得でき、本願のいくつかの実施例において、第1次元削減モジュール414を介して当該融合特徴ベクトルに対して次元削減処理を実行して、第1融合特徴ベクトルを取得する。
【0102】
第1融合モジュール502は、第2モデル41および第3モデル42を事前にトレーニングして、トレーニングされた第2モデル41または第3モデル42を使用して抽出される第1融合特徴ベクトルをより正確にし、第1融合モジュール502が、第2モデル41および第3モデル42をトレーニングする具体的なプロセスは、
図4に対応する実施例における説明を参照でき、ここでは再び説明しないことに留意されたい。
【0103】
第2取得モジュール503は、第2融合特徴ベクトルを取得するように構成され、ここで、前記第2融合特徴ベクトルは、第3画像と第4画像の融合特徴を示すために使用され、前記第3画像は、第2対象を含み、前記第4画像は、前記第3画像から切り取った、第2衣服を含む画像である。
【0104】
ここで、第3画像は、各ショッピングモール、スーパーマーケット、交差点、銀行または他の位置に設置されるカメラ機器によって撮影された歩行者を含む画像であり得、または、各ショッピングモール、スーパーマーケット、交差点、銀行または他の位置に設置されるモニタリング機器によって撮影されたモニタリングビデオから切り取った歩行者を含む画像であり得る。データベースに複数の第3画像を記憶することができると、対応する第2融合特徴ベクトルの数も複数であり得る。
【0105】
第2取得モジュール503が、第2融合特徴ベクトルを取得するとき、データベース内の各第2融合特徴ベクトルを取得する。具体的な実現において、第2取得モジュール503は、第1モデルを事前にトレーニングして、トレーニングされた第1モデルを使用して抽出される第2融合特徴ベクトルをより正確にし、第1モデルをトレーニングする具体的なプロセスは、
図4に対応する実施例の説明を参照でき、ここでは再び説明しない。
【0106】
対象決定モジュール504は、前記第1融合特徴ベクトルと前記第2融合特徴ベクトルとのターゲット類似度に従って、前記第1対象と前記第2対象が同じ対象であるか否かを決定するように構成される。
【0107】
ここで、対象決定モジュール504は、第1融合特徴ベクトルと第2融合特徴ベクトルとのターゲット類似度と第1閾値の関係に従って、第1対象と第2対象が同じ対象であるか否かを決定できる。第1閾値は、60%、70%、80%などの任意の数値であり得、ここでは、第1閾値に対して限定しない。本願のいくつかの実施例において、対象決定モジュール504は、Siameseネットワークのアーキテクチャを使用して、第1融合特徴ベクトルと第2融合特徴ベクトルとのターゲット類似度を計算することができる。
【0108】
本願のいくつかの実施例において、データベースに複数の第2融合特徴ベクトルを含むため、対象決定モジュール504は、第1融合特徴ベクトルおよびデータベースに含まれる複数の第2融合特徴ベクトルのうちの各第2融合特徴ベクトル間のターゲット類似度を計算する必要があり、それにより、ターゲット類似度が第1閾値より大きいか否かに従って、第1対象およびデータベース内の各第2融合特徴ベクトルに対応する第2対象が同じ対象であるか否かを決定する。第1融合特徴ベクトルと第2融合特徴ベクトルとのターゲット類似度が第1閾値より大きい場合、対象決定モジュール504は、第1対象と第2対象が同じ対象であると決定し、第1融合特徴ベクトルと第2融合特徴ベクトルとのターゲット類似度が、第1閾値より小さいか等しい場合、対象決定モジュール504は、第1対象と第2対象は、同じ対象ではないと決定する。上記の方式を介して、対象決定モジュール504は、データベース内の複数枚の第3画像に、第1対象が第1衣服または第1衣服と類似する衣服を着用した画像があるか否かを決定できる。
【0109】
本願のいくつかの実施例において、対象決定モジュール504は、前記第1融合特徴ベクトルと前記第2融合特徴ベクトルとのターゲット類似度が第1閾値より大きい場合に応答して、前記第1対象と前記第2対象が同じ対象であると決定するように構成される。
【0110】
本願のいくつかの実施例において、対象決定モジュール504は、第1融合特徴ベクトルと第2融合特徴ベクトルとのターゲット類似度を計算することができ、例えば、ユークリッド距離、コサイン距離、マンハッタン距離などに従って、第1融合特徴ベクトルと第2融合特徴ベクトルとのターゲット類似度を計算する。例えば、第1閾値が80%であり、且つ、計算して得たターゲット類似度が60%であると、第1対象と第2対象は、同じ対象ではないと決定し、ターゲット類似度が85%であると、第1対象と第2対象は、同じ対象であると決定する。
【0111】
本願のいくつかの実施例において、前記第2取得モジュール503は、前記第3画像および前記第4画像を前記第1モデルに入力して、前記第2融合特徴ベクトルを取得するように構成される。
【0112】
第2取得モジュール503が、第3画像を取得した場合に、各枚の第3画像および当該枚も第3画像から切り取った第2衣服を含む第4画像を第1モデルに入力し、第1モデルを介して第3画像および第4画像に対して特徴抽出を実行して、第2融合特徴ベクトルを取得し、第3画像および第4画像に対応する第2融合特徴ベクトルをデータベースに対応して記憶して、データベースから第2融合特徴ベクトルを取得し、それにより、第2融合特徴ベクトルに対応する第3画像内の第2対象を決定することができる。第2融合モジュール505が、第1モデルを介して第3画像および第4画像に対して特徴抽出を実行する具体的なプロセスは、上述した第1モデルを介して第1画像および第2画像に対して特徴抽出を実行するプロセスを参照でき、ここでは繰り返して説明しない。1つの第3画像は、1つの第2融合特徴ベクトルに対応し、データベースには、複数の第3画像を記憶でき、各第3画像は、第2融合特徴ベクトルに対応する。
【0113】
第2融合モジュール505が、第2融合特徴ベクトルを取得するとき、データベース内の各第2融合特徴ベクトルを取得する。本願のいくつかの実施例において、第2融合モジュール505は、第1モデルを事前にトレーニングして、トレーニングされた第1モデルを使用して抽出される第2融合特徴ベクトルをより正確にし、第1モデルをトレーニングする具体的なプロセスは、
図4に対応する実施例の説明を参照でき、ここでは再び説明しない。
【0114】
本願のいくつかの実施例において、前記装置50は、さらに、
前記第1対象と前記第2対象が同じ対象である場合に応答して、前記第3画像を撮影する端末機器の識別子を取得するように構成される、位置決定モジュール506を備える。
【0115】
ここで、第3画像の端末機器の識別子は、第3画像を撮影する端末機器を唯一に識別するために使用され、例えば、第3画像を撮影する端末機器の機器工場番号、端末機器の位置番号、端末機器のコード番号などの当該端末機器を唯一に指示する識別子を含み得、端末機器によって設定されるターゲット地理位置は、第3画像を撮影する端末機器の地理位置または第3画像をアップロードする端末機器の地理位置を含み得、地理位置は、具体的には、「A省B市C区D路EユニットF層」であり得、ここで、第3画像をアップロードする端末機器の地理位置は、端末機器が、第3画像をアップロードするときに対応するサーバIPアドレスであり得、ここで、第3画像を撮影する端末機器の地理位置と第3画像をアップロードする端末機器の地理位置が、一致していない場合、位置決定モジュール506は、第3画像を撮影する端末機器の地理位置をターゲット地理位置として決定することができる。ターゲット地理位置と第1対象との関連付け関係は、第1対象がターゲット地理位置の領域内にいることを表示し、例えば、ターゲット地理位置が、A省B市C区D路EユニットF層であると、第1対象の位置が、A省B市C区D路EユニットF層であることを示す。
【0116】
前記位置決定モジュール506は、前記端末機器の識別子に従って、前記端末機器によって設定されるターゲット地理位置を決定し、前記ターゲット地理位置と前記第1対象との関連付け関係を確立するように構成される。
【0117】
本願のいくつかの実施例において、前記位置決定モジュール506は、第1対象と第2対象が同じ対象であると決定した場合、当該第2対象を含む第3画像を決定し、第3画像を撮影する端末機器の識別子を取得し、それにより、当該端末機器の識別子に対応する端末機器を決定し、さらに、当該端末機器によって設定されるターゲット地理位置を決定し、ターゲット地理位置と第1対象との関連付け関係に従って、第1対象の位置を決定して、第1対象を追跡する。
【0118】
本願のいくつかの実施例において、位置決定モジュール506は、端末機器が第3画像を撮影する瞬間を決定することもでき、第3画像を撮影する瞬間は、当該瞬間で第1対象は、当該端末機器が配置されるターゲット地理位置に位置することを表し、これから、時間間隔に従って第1対象の現在の可能な位置範囲を推測でき、それにより、第1対象の現在の可能な位置範囲内の端末機器を探して、第1対象の位置を探す効率を向上させることができる。
【0119】
本願のいくつかの実施例において、前記装置50は、さらに、
第1サンプル画像および第2サンプル画像を取得するように構成される、トレーニングモジュール507を備え、前記第1サンプル画像および前記第2サンプル画像は、すべて第1サンプル対象を含み、前記第1サンプル画像で前記第1サンプル対象に関連付けられる衣服は、前記第2サンプル画像で前記第1サンプル対象に関連付けられる衣服と異なり、
ここで、第1サンプル対象が第1サンプル画像に関連付けられる衣服は、即ち、第1サンプル画像内の第1サンプル対象が着用する衣服であり、ここで、第1サンプル対象の手に持っている衣服、または隣に横たわっている着用していない衣服などの、第1サンプル画像内の第1サンプル対象が着用していない衣服を含まない。第1サンプル画像内の第1サンプル対象の衣服と第2サンプル画像内の第1サンプル対象の衣服は異なる。衣服が異なることは、衣服の色が異なること、衣服のスタイルが異なること、衣服の色およびスタイルすべて異なることを含み得る。
【0120】
前記トレーニングモジュール507は、前記第1サンプル画像から第1サンプル衣服を含む第3サンプル画像を切り取るように構成され、前記第1サンプル衣服は、前記第1サンプル画像で前記第1サンプル対象に関連付けられる衣服であり、
ここで、第1サンプル衣服は、第1サンプル画像内の第1サンプル対象が着用する衣服であり、第1サンプル衣服は、衣服、パンツ、スカート、衣服とパンツなどを含み得る。第3サンプル画像は、第1サンプル画像から切り取った第1サンプル衣服を含む画像であり得、
図3aおよび
図3bに示されたように、第3サンプル画像N3は、第1サンプル画像N1からスクリーンショットして得た画像である。第1サンプル画像内の第1サンプル対象が、複数の衣服を着用した場合、第1サンプル衣服は、第1サンプル画像で最も比率が高い衣服であり得、例えば、第1サンプル画像における第1サンプル対象のコートの比率が30%であり、第1サンプル画像における第1サンプル対象のシャツの比率が10%であると、第1サンプル衣服は、第1サンプル対象のコートであり、第3サンプル画像は、第1サンプル対象のコートを含む画像である。
【0121】
前記トレーニングモジュール507は、第2サンプル衣服を含む第4サンプル画像を取得するように構成され、前記第2サンプル衣服と前記第1サンプル衣服との類似度は、第2閾値より大きく、
ここで、第4サンプル画像は、第2サンプル衣服を含む画像であり、第4サンプル画像には、第2サンプル衣服のみを含み、サンプル対象は、含まないことを理解されたい。
【0122】
本願のいくつかの実施例において、トレーニングモジュール507は、第3サンプル画像をインターネットに入力して第4サンプル画像を探すことができ、例えば、第3サンプル画像を画像識別機能を有するアプリケーションプログラムに入力して、第3サンプル画像内の第1サンプル衣服との類似度が第2閾値より大きい第2サンプル衣服がいる画像を探し、例えば、トレーニングモジュール507は、第3サンプル画像をAPPに入力して、複数の画像を探して、複数の画像から第1サンプル衣服と最も類似し、且つ、画像に第2サンプル衣服のみを含む一枚の画像、即ち、第4サンプル画像を探すことができる。
【0123】
前記トレーニングモジュール507は、前記第1サンプル画像、前記第2サンプル画像、前記第3サンプル画像および前記第4サンプル画像に従って、第2モデルおよび第3モデルをトレーニングするように構成され、前記第3モデルと前記第2モデルのネットワーク構造は、同じであり、前記第1モデルは、前記第2モデルまたは前記第3モデルである。
【0124】
本願のいくつかの実施例において、前記トレーニングモジュール507は、前記第1サンプル画像および前記第3サンプル画像を第2モデルに入力して、第1サンプル特徴ベクトルを取得するように構成され、前記第1サンプル特徴ベクトルは、前記第1サンプル画像と前記第3サンプル画像の融合特徴を示すために使用され、
以下は、第1サンプル画像および第3サンプル画像を第2モデルに入力して、第1サンプル特徴ベクトルを取得するプロセスを紹介する。本願実施例によるモデルをトレーニングする概略図である、
図4を参照でき、図面に示されたように、
まず、トレーニングモジュール507は、第1サンプル画像N1および第3サンプル画像N3を第2モデル41に入力し、第2モデル41内の第1特徴抽出モジュール411を介して第1サンプル画像N1に対して特徴抽出を実行して、第1特徴行列を取得し、第2モデル41内の第2特徴抽出モジュール412を介して第3サンプル画像N3に対して特徴抽出を実行して、第2特徴行列を取得し、その後、トレーニングモジュール507は、第2モデル41内の第1融合モジュール413を介して第1特徴行列と第2特徴行列に対して融合処理を実行して第1融合行列を取得し、その後、第2モデル41内の第1次元削減モジュール414を介して第1融合行列に対して次元削減処理を実行して、第1サンプル特徴ベクトルを取得し、最後に、トレーニングモジュール507は、第1分類モジュール43を介して第1サンプル特徴ベクトルを分類して、第1確率ベクトルを取得する。
【0125】
前記トレーニングモジュール507は、前記第2サンプル画像N2および前記第4サンプル画像N4を第3モデル42に入力して、第2サンプル特徴ベクトルを取得するように構成され、前記第2サンプル特徴ベクトルは、前記第2サンプル画像N2と前記第4サンプル画像N4の融合特徴を示すために使用され、
以下は、第2サンプル画像N2および第4サンプル画像N4を第3モデル42に入力して、第2サンプル特徴ベクトルを取得するプロセスを具体的に説明する。本願実施例によるモデルをトレーニングする概略図である、
図4を参照できる。
【0126】
まず、トレーニングモジュール507は、第2サンプル画像N2および第4サンプル画像N4を第3モデル42に入力し、第3モデル42内の第3特徴抽出モジュール421を介して第2サンプル画像N2に対して特徴抽出を実行して、第3特徴行列を取得し、第4特徴抽出モジュール422を介して第4サンプル画像N4に対して特徴抽出を実行して、第4特徴行列を取得し、その後、トレーニングモジュール507は、第3モデル42内の第2融合モジュール423を介して第3特徴行列と第4特徴行列に対して融合処理を実行して第2融合行列を取得し、最後に、トレーニングモジュール507は、第3モデル42内の第2次元削減モジュール424を介して第2融合行列に対して次元削減処理を実行して、第2サンプル特徴ベクトルを取得し、最後に、トレーニングモジュール507は、第2分類モジュール44を介して第2サンプル特徴ベクトルを分類して、第2確率ベクトルを取得する。
【0127】
第2モデル41と第3モデル42は、2つの同じパラメータのモデルであり得、第2モデル41と第3モデル42が、2つの同じパラメータのモデルである場合、第2モデル41を介して第1サンプル画像N1および第3サンプル画像N3に対して特徴抽出を実行することは、第3モデル42を介して第2サンプル画像N2および第4サンプル画像N4に対して特徴抽出を実行することと同時に実行できる。
【0128】
前記トレーニングモジュール507は、前記第1サンプル特徴ベクトルおよび前記第2サンプル特徴ベクトルに従って、モデル総損失を決定し、前記モデル総損失45に従って、前記第2モデル41および前記第3モデル42をトレーニングするように構成される。
【0129】
本願のいくつかの実施例において、前記第1サンプル画像および前記第2サンプル画像は、サンプルギャラリ内の画像であり、前記サンプルギャラリは、M個のサンプル画像を含み、前記M個のサンプル画像は、N個のサンプル対象に関連付けられ、前記Mは、2Nより大きいか等しく、前記M、Nは、1より大きいか等しい整数であり、
前記トレーニングモジュール507は、前記第1サンプル特徴ベクトルに従って、第1確率ベクトルを決定するように構成され、前記第1確率ベクトルは、前記第1サンプル画像の前記第1サンプル対象が、前記N個のサンプル対象の各サンプル対象である確率を示すために使用される。
【0130】
本願のいくつかの実施例において、トレーニングモジュール507は、1つのサンプルギャラリを事前に設定できると、第1サンプル画像および第2サンプル画像は、サンプルギャラリ内の画像であり、ここで、サンプルギャラリは、M個のサンプル画像を含み、M個のサンプル画像は、N個のサンプル対象に関連付けられ、Mは、2Nより大きいか等しく、M、Nは、1より大きいか等しい整数である。例示的に、サンプルギャラリ内の各サンプル対象は、1つの番号に対応し、例えば、サンプル対象のID番号、または、当該サンプル対象を唯一に識別する数字番号などであり得る。例えば、サンプルギャラリに5000のサンプル対象があると、5000のサンプル対象の番号は、1-5000であり得、1つの番号は、複数のサンプル画像に対応でき、即ち、サンプルギャラリに番号1のサンプル対象の複数のサンプル画像(即ち、番号1のサンプル対象が異なる衣服を着用した画像)、番号2のサンプル対象の複数のサンプル画像、番号3のサンプル対象の複数のサンプル画像、などを含み得る。同じ番号の複数のサンプル画像で、当該サンプル対象が着用する衣服は異なり、即ち、同じサンプル対象に対応する複数の画像の各画像内のサンプル対象が着用する衣服は異なる。第1サンプル対象は、当該N個のサンプル対象のうちの任意の1つのサンプル対象であり得る。第1サンプル画像は、当該第1サンプル画像の複数のサンプル画像のうちの任意の1つのサンプル画像であり得る。
【0131】
ここで、トレーニングモジュール507は、第1サンプル特徴ベクトルに従って第1確率ベクトルを決定し、当該第1確率ベクトルは、Nの値を含み、各値は、当該第1サンプル画像内の第1サンプル対象が、N個のサンプル対象内の各サンプル対象である確率を示すために使用される。具体的には、例示的に、Nが、3000であり、第1サンプル特徴ベクトルが、低次元の256次元ベクトルであると、トレーニングモジュール507は、当該第1サンプル特徴ベクトルと1つの256*3000のベクトルと乗算して、1つの1*3000のベクトルを取得し、ここで、256*3000のベクトルは、サンプルギャラリ内の3000のサンプル対象の特徴を含む。さらに、前記1*3000のベクトルに対して正規化処理を実行して、第1確率ベクトルを取得し、当該第1確率ベクトルは、3000の確率を含み、当該3000の確率は、当該第1サンプル対象が3000のサンプル対象内の各サンプル対象である確率を示すために使用される。
【0132】
前記トレーニングモジュール507は、前記第2サンプル特徴ベクトルに従って、第2確率ベクトルを決定するように構成され、前記第2確率ベクトルは、前記第2サンプル画像の前記第1サンプル対象が、前記N個のサンプル対象の各サンプル対象である確率を示すために使用される。
【0133】
ここで、トレーニングモジュール507は、第2サンプル特徴ベクトルに従って第2確率ベクトルを決定し、当該第2確率ベクトルは、Nの値を含み、各値は、当該第2サンプル画像内の第2サンプル対象が、N個のサンプル対象内の各サンプル対象である確率を示すために使用される。具体的には、例示的に、Nが、3000であり、第2サンプル特徴ベクトルが、低次元の256次元ベクトルであると、トレーニングモジュール507は、当該第2サンプル特徴ベクトルと1つの256*3000のベクトルと乗算して、1つの1*3000のベクトルを取得し、ここで、256*3000のベクトルは、サンプルギャラリ内の3000のサンプル対象の特徴を含む。さらに、前記1*3000のベクトルに対して正規化処理を実行して、第2確率ベクトルを取得し、当該第2確率ベクトルは、3000の確率を含み、当該3000の確率は、当該第2サンプル対象が3000のサンプル対象内の各サンプル対象である確率を示すために使用される。
【0134】
前記トレーニングモジュール507は、前記第1確率ベクトルおよび前記第2確率ベクトルに従って、モデル総損失45を決定するように構成される。
【0135】
トレーニングモジュール507は、取得されるモデル総損失45を介して第2モデル41および第3モデル42を調整し、即ち、第2モデル41内の第1特徴抽出モジュール411、第1融合モジュール413、第1次元削減モジュール414および第1分類モジュール43、および第3モデル42内の第2特徴抽出モジュール421、第2融合モジュール423、第2次元削減モジュール424および第2分類モジュール44を調整する。
【0136】
本願のいくつかの実施例において、前記トレーニングモジュール507は、前記第1確率ベクトルに従って、前記第2モデル41のモデル損失を決定するように構成される。
【0137】
トレーニングモジュール507は、第1確率ベクトルから最大確率を取得し、当該最大確率に対応するサンプル対象の番号、および当該第1サンプル画像の番号に従って、第2モデル41のモデル損失を計算し、当該第2モデル41のモデル損失は、当該最大確率に対応するサンプル対象の番号と、当該第1サンプル画像の番号との差を示すために使用される。トレーニングモジュール507は、計算して得た第2モデル41のモデル損失が小さいほど、第2モデル41がより正確であり、抽出される特徴がもっと識別性を有することを示す。
【0138】
前記トレーニングモジュール507は、前記第2確率ベクトルに従って、前記第3モデル42のモデル損失を決定するように構成される。
【0139】
トレーニングモジュール507は、第2確率ベクトルから最大確率を取得し、当該最大確率に対応するサンプル対象の番号、および当該第2サンプル画像の番号に従って、第3モデル42のモデル損失を計算し、当該第3モデル42のモデル損失は、当該最大確率に対応するサンプル対象の番号と、当該第2サンプル画像の番号との差を示すために使用される。トレーニングモジュール507は、計算して得た第3モデル42のモデル損失が小さいほど、第3モデル42がより正確であり、抽出される特徴がもっと識別性を有することを示す。
【0140】
前記トレーニングモジュール507は、前記第2モデル41のモデル損失および前記第3モデル42のモデル損失に従って、モデル総損失を決定するように構成される。
【0141】
ここで、モデル総損失は、第2モデル41のモデル損失と第3モデルのモデル損失の合計である。第2モデルのモデル損失および第3モデルのモデル損失が大きい場合、モデル総損失も大きく、即ち、モデルによって抽出される対象の特徴ベクトルの正確度も低く、勾配降下法を採用して第2モデル内の各モジュール(第1特徴抽出モジュール、第2特徴抽出モジュール、第1融合モジュール、第1次元削減モジュール)および第3モデル内の各モジュール(第3特徴抽出モジュール、第4特徴抽出モジュール、第2融合モジュール、第2次元削減モジュール)を調整して、モデルトレーニングのパラメータをより正確にし、それにより、第2、第3モデルを介して抽出された画像内の対象の特徴をより正確にし、即ち、画像内の衣服特徴を弱くして、抽出される画像内の特徴の大部分を画像内の対象の特徴であるようにし、即ち、抽出される特徴が識別性をもっと有するようにし、それにより、第2、第3モデルを介して抽出される画像内の対象の特徴をより正確にする。
【0142】
図5に対応する実施例に言及されていないコンテンツは、方法実施例の説明を参照でき、ここでは再び説明しないことに留意されたい。
【0143】
本願実施例において、第1対象を含む第1画像および第1衣服を含む第2画像を取得することにより、第1画像および第2画像を第1モデルに入力して、第1融合特徴ベクトルを取得し、第2対象を含む第3画像と第3画像から切り取った第2衣服を含む第4画像の第2融合特徴ベクトルを取得し、第1融合特徴ベクトルと第2融合特徴ベクトルとのターゲット類似度に従って、第1対象と第2対象が同じ対象であるか否かを決定し、照会される第1対象に対して特徴抽出を実行するとき、第1対象の衣服を第1対象が着用する可能性がある第1衣服に置き換え、即ち、第1対象の特徴を抽出するとき衣服の特徴を弱くして、識別性をもっと有する他の特徴を抽出することに焦点を合わせるため、ターゲット対象が着替えた後、依然として、高い識別正確度に達することができ、第1対象と第2対象が同じ対象であると決定した場合、第2対象を含む第3画像を撮影する端末機器の識別子を取得して、第3画像を撮影する端末機器の地理位置を決定し、さらに、第1対象の可能な位置領域を決定して、第1対象を探す効率を向上させることができる。複数のサンプルギャラリ内の複数のサンプル画像を使用してモデルをトレーニングし、且つ、サンプルギャラリ内の各サンプル画像は、1つの番号に対応するため、当該番号に対応するある1つのサンプル画像および当該サンプル画像内の衣服画像に対して特徴抽出を実行して融合特徴ベクトルを取得し、抽出される融合特徴ベクトルと当該番号に対応するサンプル画像のターゲットサンプル特徴ベクトルとの類似度を計算して、計算して得た結果に従ってモデルが正確であるか否かを決定でき、モデルの損失が大きい(即ち、モデルが不正確である)場合、サンプルギャラリ内の残りのサンプル画像を介してモデルをトレーニングし続けることができ、大量のサンプル画像を使用してモデルをトレーニングしたため、トレーニングされたモデルは、より正確であり、それにより、モデルを介して抽出された画像内の対象の特徴は、より正確である。
【0144】
本願実施例による画像処理機器の構成の例示的な構造図である、
図6を参照すると、当該機器60は、プロセッサ601、メモリ602および入力出力インターフェース603を備える。プロセッサ601は、メモリ602および入力出力インターフェース603に接続され、例えば、プロセッサ601は、バスを介してメモリ602および入力出力インターフェース603に接続できる。
【0145】
プロセッサ601は、前記画像処理機器が、上記の任意の1つの画像処理方法に対応する機能を実行するようにサポートするように構成される。当該プロセッサ601は、中央プロセッサ(CPU:central processing unit)、ネットワークプロセッサ(NP:network processor)、ハードウェアチップまたはその任意の組み合わせであり得る。前記ハードウェアチップは、特定用途向け集積回路(ASIC:application specific integrated circuit)、プログラマブルロジックデバイス(PLD:programmable logic device)またはその組み合わせであり得る。前記PLDは、複雑なプログラマブルロジックデバイス(CPLD:complex programmable logic device)、フィールドプログラマブルゲートアレイ(FPGA:field-programmable gate array)、汎用アレイロジック(GAL:generic array logic)またはその任意の組み合わせであり得る。
【0146】
メモリ602は、プログラムコードなどを記憶するように構成される。メモリ602は、ランダムアクセスメモリ(RAM:random access memory)などの揮発性メモリ(VM:volatile memory)を含み得、メモリ602は、読み取り専用メモリ(ROM:read-only memory)、フラッシュメモリ(flash memory)、ハードディスク(HDD:hard disk driveソリッドステートハードディスク(SSD:solid-state drive)などの不揮発性メモリ(NVM:non-volatile memory)も含み得、メモリ602は、さらに、上記のメモリの組み合わせを含み得る。
【0147】
前記入力出力インターフェース603は、データを入力または出力するように構成される。
【0148】
プロセッサ601は、前記プログラムコードを呼び出して、
第1対象を含む第1画像および第1衣服を含む第2画像を取得し、
前記第1画像および前記第2画像を第1モデルに入力して、第1融合特徴ベクトルを取得し、前記第1融合特徴ベクトルは、前記第1画像と前記第2画像の融合特徴を示すために使用され、
第2融合特徴ベクトルを取得し、ここで、前記第2融合特徴ベクトルは、第3画像と第4画像の融合特徴を示すために使用され、前記第3画像は、第2対象を含み、前記第4画像は、前記第3画像から切り取った、第2衣服を含む画像であり、
前記第1融合特徴ベクトルと前記第2融合特徴ベクトルとのターゲット類似度に従って、前記第1対象と前記第2対象が同じ対象であるか否かを決定する動作を実行することができる。
【0149】
各動作の実現は、上記の方法実施例を参照する関連する説明みに対応することもでき、前記プロセッサ601は、さらに、入力出力インターフェース603と合わせて上記の方法実施例における他の動作を実行できることに留意されたい。
【0150】
本願実施例は、さらに、コンピュータプログラムを記憶する、コンピュータ記憶媒体を提供し、前記コンピュータプログラムは、プログラム命令を含み、前記プログラム命令は、コンピュータによって実行されるとき、前記コンピュータに上記の実施例に記載の画像処理方法を実行させ、前記コンピュータは、上記に言及された画像処理機器の一部であり得る。例えば、前記プロセッサ601であり得る。
【0151】
本願実施例は、さらに、コンピュータ可読コードを含む、コンピュータプログラムを提供し、前記コンピュータ可読コードが画像処理機器で実行されるとき、前記画像処理機器内のプロセッサは、上記の任意の1つの画像処理方法を実行する。
【0152】
当業者なら自明であるか、前記実施例の方法の全部または一部のプロセスを実現することは、コンピュータプログラムによって関連するハードウェアを命令することを介して完了でき、上述したプログラムは、コンピュータ可読取記憶媒体に記憶でき、当該プログラムが実行されるとき、上記の各方法の実施例のプロセスを含み得る。ここで、前記記憶媒体は、磁気ディスク、光ディスク、ROMまたはRAMなどであり得る。
【0153】
以上で開示されたのは、本願の好ましい実施例に過ぎず、これによって本願の請求範囲を限定できないため、本願請求項に従って行う同じ変化は、依然として本願の範囲に含まれる。
【産業上の利用可能性】
【0154】
本願は、画像処理方法、装置、機器、記憶媒体およびコンピュータプログラムを提供し、ここで、当該方法は、第1対象を含む第1画像および第1衣服を含む第2画像を取得することと、前記第1画像および前記第2画像を第1モデルに入力して、第1融合特徴ベクトルを取得することであって、前記第1融合特徴ベクトルは、前記第1画像と前記第2画像の融合特徴を示すために使用されることと、第2融合特徴ベクトルを取得することであって、ここで、前記第2融合特徴ベクトルは、第3画像と第4画像の融合特徴を示すために使用され、前記第3画像は、第2対象を含み、前記第4画像は、前記第3画像から切り取った、第2衣服を含む画像であることと、前記第1融合特徴ベクトルと前記第2融合特徴ベクトルとのターゲット類似度に従って、前記第1対象と前記第2対象が同じ対象であるか否かを決定することと、を含む。当該技術的解決策は、画像内の対象の特徴を正確に抽出して、画像内の対象の識別正確度を向上させることができる。
【手続補正書】
【提出日】2022-03-24
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像処理方法であって、
第1対象を含む第1画像および第1衣服を含む第2画像を取得することと、
前記第1画像および前記第2画像を第1モデルに入力して、第1融合特徴ベクトルを取得することであって、前記第1融合特徴ベクトルは、前記第1画像と前記第2画像の融合特徴を示すために使用されることと、
第2融合特徴ベクトルを取得することであって、前記第2融合特徴ベクトルは、第3画像と第4画像の融合特徴を示すために使用され、前記第3画像は、第2対象を含み、前記第4画像は、前記第3画像から切り取った、第2衣服を含む画像であることと、
前記第1融合特徴ベクトルと前記第2融合特徴ベクトルとのターゲット類似度に従って、前記第1対象と前記第2対象が同じ対象であるか否かを決定することと、を含む、前記画像処理方法。
【請求項2】
前記第1融合特徴ベクトルと前記第2融合特徴ベクトルとのターゲット類似度に従って、前記第1対象と前記第2対象が同じ対象であるか否かを決定することは、
前記第1融合特徴ベクトルと前記第2融合特徴ベクトルとのターゲット類似度が第1閾値より大きい場合に応答して、前記第1対象と前記第2対象が同じ対象であると決定することを含む、
請求項1に記載の画像処理方法。
【請求項3】
前記第2融合特徴ベクトルを取得することは、
前記第3画像および前記第4画像を前記第1モデルに入力して、前記第2融合特徴ベクトルを取得することを含む、
請求項1または2に記載の画像処理方法。
【請求項4】
前記画像処理方法は、
前記第1対象と前記第2対象が同じ対象である場合に応答して、前記第3画像を撮影する端末機器の識別子を取得することと、
前記端末機器の識別子に従って、前記端末機器によって設定されるターゲット地理位置を決定し、前記ターゲット地理位置と前記第1対象との関連付け関係を確立することと、をさらに含む、
請求項1ないし3のいずれか一項に記載の画像処理方法。
【請求項5】
前記第1対象を含む第1画像および第1衣服を含む第2画像を取得する前に、
第1サンプル画像および第2サンプル画像を取得することであって、前記第1サンプル画像および前記第2サンプル画像は、すべて第1サンプル対象を含み、前記第1サンプル画像で前記第1サンプル対象に関連付けられる衣服は、前記第2サンプル画像で前記第1サンプル対象に関連付けられる衣服と異なることと、
前記第1サンプル画像から第1サンプル衣服を含む第3サンプル画像を切り取ることであって、前記第1サンプル衣服は、前記第1サンプル画像で前記第1サンプル対象に関連付けられる衣服であることと、
第2サンプル衣服を含む第4サンプル画像を取得することであって、前記第2サンプル衣服と前記第1サンプル衣服との類似度は、第2閾値より大きいことと、
前記第1サンプル画像、前記第2サンプル画像、前記第3サンプル画像および前記第4サンプル画像に従って、第2モデルおよび第3モデルをトレーニングすることと、を含み、前記第3モデルと前記第2モデルのネットワーク構造は、同じであり、前記第1モデルは、前記第2モデルまたは前記第3モデルである、
請求項1ないし4のいずれか一項に記載の画像処理方法。
【請求項6】
前記第1サンプル画像、前記第2サンプル画像、前記第3サンプル画像および前記第4サンプル画像に従って、第2モデルおよび第3モデルをトレーニングすることは、
前記第1サンプル画像および前記第3サンプル画像を第2モデルに入力して、第1サンプル特徴ベクトルを取得することであって、前記第1サンプル特徴ベクトルは、前記第1サンプル画像と前記第3サンプル画像の融合特徴を示すために使用されることと、
前記第2サンプル画像および前記第4サンプル画像を第3モデルに入力して、第2サンプル特徴ベクトルを取得することであって、前記第2サンプル特徴ベクトルは、前記第2サンプル画像と前記第4サンプル画像の融合特徴を示すために使用されることと、
前記第1サンプル特徴ベクトルおよび前記第2サンプル特徴ベクトルに従って、モデル総損失を決定し、前記モデル総損失に従って、前記第2モデルおよび前記第3モデルをトレーニングすることと、を含む、
請求項5に記載の画像処理方法。
【請求項7】
前記第1サンプル画像および前記第2サンプル画像は、サンプルギャラリ内の画像であり、前記サンプルギャラリは、M個のサンプル画像を含み、前記M個のサンプル画像は、N個のサンプル対象に関連付けられ、前記Mは、2Nより大きいか等しく、前記M、Nは、1より大きいか等しい整数であり、
前記第1サンプル特徴ベクトルおよび前記第2サンプル特徴ベクトルに従って、モデル総損失を決定することは、
前記第1サンプル特徴ベクトルに従って、第1確率ベクトルを決定することであって、前記第1確率ベクトルは、前記第1サンプル画像の前記第1サンプル対象が、前記N個のサンプル対象の各サンプル対象である確率を示すために使用されることと、
前記第2サンプル特徴ベクトルに従って、第2確率ベクトルを決定することであって、前記第2確率ベクトルは、前記第2サンプル画像の前記第1サンプル対象が、前記N個のサンプル対象の各サンプル対象である確率を示すために使用されることと、
前記第1確率ベクトルおよび前記第2確率ベクトルに従って、モデル総損失を決定することと、を含む、
請求項6に記載の画像処理方法。
【請求項8】
前記第1確率ベクトルおよび前記第2確率ベクトルに従って、モデル総損失を決定することは、
前記第1確率ベクトルに従って、前記第2モデルのモデル損失を決定することと、
前記第2確率ベクトルに従って、前記第3モデルのモデル損失を決定することと、
前記第2モデルのモデル損失および前記第3モデルのモデル損失に従って、モデル総損失を決定することと、を含む、
請求項7に記載の画像処理方法。
【請求項9】
画像処理装置であって、
第1対象を含む第1画像および第1衣服を含む第2画像を取得するように構成される、第1取得モジュールと、
前記第1画像および前記第2画像を第1モデルに入力して、第1融合特徴ベクトルを取得するように構成される、第1融合モジュールであって、前記第1融合特徴ベクトルは、前記第1画像と前記第2画像の融合特徴を示すために使用される、第1融合モジュールと、
第2融合特徴ベクトルを取得するように構成される、第2取得モジュールであって、前記第2融合特徴ベクトルは、第3画像と第4画像の融合特徴を示すために使用され、前記第3画像は、第2対象を含み、前記第4画像は、前記第3画像から切り取った、第2衣服を含む画像である、第2取得モジュールと、
前記第1融合特徴ベクトルと前記第2融合特徴ベクトルとのターゲット類似度に従って、前記第1対象と前記第2対象が同じ対象であるか否かを決定するように構成される、対象決定モジュールと、を備える、前記画像処理装置。
【請求項10】
プロセッサ、メモリおよび入力/出力インターフェースを備える、画像処理機器であって、前記プロセッサ、メモリおよび入力/出力インターフェースは、互いに接続され、前記入力/出力インターフェースは、データを入力または出力するように構成され、前記メモリは、プログラムコードを記憶するように構成され、前記プロセッサは、前記プログラムコードを呼び出して、請求項1ないし8のいずれか一項に記載の
画像処理方法を実行するように構成される、前記画像処理機器。
【請求項11】
コンピュータプログラムを記憶する、コンピュータ記憶媒体であって、前記コンピュータプログラムは、プログラム命令を含み、前記プログラム命令は、プロセッサによって実行されるとき、前記プロセッサに請求項1ないし8のいずれか一項に記載の
画像処理方法を実行させる、前記コンピュータ記憶媒体。
【請求項12】
コンピュータ可読コードを含む、コンピュータプログラムであって、前記コンピュータ可読コードが画像処理機器で実行されるとき、前記画像処理機器内のプロセッサは、請求項1ないし8のいずれか一項に記載の
画像処理方法を実行する、前記コンピュータプログラム。
【国際調査報告】