IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

<>
  • 特許-ターゲット検索装置及び方法、電子機器 図1
  • 特許-ターゲット検索装置及び方法、電子機器 図2
  • 特許-ターゲット検索装置及び方法、電子機器 図3
  • 特許-ターゲット検索装置及び方法、電子機器 図4
  • 特許-ターゲット検索装置及び方法、電子機器 図5
  • 特許-ターゲット検索装置及び方法、電子機器 図6
  • 特許-ターゲット検索装置及び方法、電子機器 図7
  • 特許-ターゲット検索装置及び方法、電子機器 図8
  • 特許-ターゲット検索装置及び方法、電子機器 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-20
(45)【発行日】2024-05-28
(54)【発明の名称】ターゲット検索装置及び方法、電子機器
(51)【国際特許分類】
   G06T 7/20 20170101AFI20240521BHJP
【FI】
G06T7/20 300Z
【請求項の数】 10
(21)【出願番号】P 2020092444
(22)【出願日】2020-05-27
(65)【公開番号】P2021034015
(43)【公開日】2021-03-01
【審査請求日】2023-02-09
(31)【優先権主張番号】201910767234.1
(32)【優先日】2019-08-20
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】イヌ・ルォイ
(72)【発明者】
【氏名】タヌ・ジミン
(72)【発明者】
【氏名】ディン・ラヌ
【審査官】藤原 敬利
(56)【参考文献】
【文献】中国特許出願公開第109803067(CN,A)
【文献】特開2018-120644(JP,A)
【文献】特開2018-042270(JP,A)
【文献】特開2000-293685(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00- 7/90
G06V 10/00-20/90
H04N 7/18
(57)【特許請求の範囲】
【請求項1】
ターゲット検索装置であって、
複数の入力画像に対してそれぞれ対象検出を行い、前記複数の入力画像の対象検出結果を取得する第一検出ユニット;
前記複数の入力画像の対象検出結果に基づいてヒトの属性検出を行い、属性検出結果を取得する第二検出ユニット;
前記対象検出結果及び前記属性検出結果に基づいてヒトの行為検出を行い、行為検出結果を取得する第三検出ユニット;及び
前記対象検出結果、前記属性検出結果及び前記行為検出結果に基づいてターゲット検索を行い、ターゲット検索結果を取得する検索ユニットを含む、装置。
【請求項2】
請求項1に記載の装置であって、
前記複数の入力画像に対して追跡検出を行い、前記複数の入力画像におけるヒトの標識(ID)を確定する第四検出ユニットをさらに含む、装置。
【請求項3】
請求項2に記載の装置であって、
前記第四検出ユニットは、前記複数の入力画像におけるヒトの移動軌跡、及び、前記複数の入力画像の特徴のうちの少なくとも1つに基づいて、前記複数の入力画像におけるヒトの標識を確定する、装置。
【請求項4】
請求項2に記載の装置であって、
入力画像ごとに、ヒトの標識に対応する対象検出結果、属性検出結果及び行為検出結果を記憶する記憶ユニットをさらに含み、
前記検索ユニットは、前記記憶ユニットに記憶されている内容に対して検索を行い、前記ターゲット検索結果を取得する、装置。
【請求項5】
請求項1に記載の装置であって、
前記複数の入力画像のうちの少なくとも1つ入力画像において前記ターゲット検索結果を表示する表示ユニットをさらに含む、装置。
【請求項6】
請求項1に記載の装置であって、
前記第二検出ユニットは、前記対象検出結果におけるヒトの境界枠に基づいて、ヒトの属性検出を行う、装置。
【請求項7】
請求項1に記載の装置であって、
前記第三検出ユニットは、
前記対象検出結果と前記属性検出結果とに対して融合を行う融合ユニット;及び
融合後の検出結果及び所定のルールに基づいてヒトの行為を確定し、前記行為検出結果を取得する確定ユニットを含む、装置。
【請求項8】
請求項1に記載の装置であって、
前記ヒトの属性検出は、
ヒトの動作検出;
ヒトの所持品検出;
ヒトの年齢検出;
ヒトの性別検出;及び
ヒトの表情検出
のうちの少なくとも1つを含む、装置。
【請求項9】
請求項1‐8のうちの任意の1項に記載の装置を含む電子機器。
【請求項10】
コンピュータが実行するターゲット検索方法であって、
複数の入力画像に対してそれぞれ対象検出を行い、前記複数の入力画像の対象検出結果を取得し;
前記複数の入力画像の対象検出結果に基づいてヒトの属性検出を行い、属性検出結果を取得し;
前記対象検出結果及び前記属性検出結果に基づいてヒトの行為検出を行い、行為検出結果を取得し;及び
前記対象検出結果、前記属性検出結果及び前記行為検出結果に基づいてターゲット検索を行い、ターゲット検索結果を取得することを含む、ターゲット検索方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報技術分野に関する。
【背景技術】
【0002】
ターゲット検索がビデオ監視における重要な応用の1つである。このような技術を用いることにより、特定の特徴又は機能を有するターゲットを迅速に見つけることができる。例えば、このような技術は、犯罪者、行方不明になる子供や老人などを探すために用いられても良い。
【0003】
従来のターゲット検索方法では、一般的に、画像におけるヒト(human beings)の所持品又はヒトの動作特徴を抽出し、そして、これらの特徴に基づいてターゲット検索を行う。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述のような従来のターゲット検索方法では、ターゲット検索を行うための特徴が単一であるため、検索の效率及び検索の正確率が低く、また、ターゲット検索を行うための特徴の類型が固定したものであるから、異なる検索ニーズに柔軟に対応することができない。
【0005】
本発明の実施例は、ターゲット検索装置及び方法、電子機器を提供する。まず、対象検出を行い、そして、対象検出結果に基づいてヒトの属性検出を行い、それから、属性検出結果に基づいてヒトの行為(Behavior)検出を行い、最後に、これらの検出結果に基づいてターゲット検索を行い、このように、ターゲット検索を行うときに、対象検出結果、属性検出結果及び行為検出結果を総合的に考慮し、即ち、豊富なマルチ次元の特徴をターゲット検索のために用いるため、迅速且つ正確なターゲット検索を実現することができ、また、ヒトの属性検出を行うときに、実際のニーズに応じて、検出する属性の類型を確定することができるため、良好な拡張性を有し、且つカスタマイズ化することができる。
【課題を解決するための手段】
【0006】
本発明の実施例の第一側面によれば、ターゲット検索装置が提供され、前記装置は、
複数の入力画像に対してそれぞれ対象検出を行い、前記複数の入力画像の対象検出結果を取得する第一検出ユニット;
前記複数の入力画像の対象検出結果に基づいてヒトの属性検出を行い、属性検出結果を取得する第二検出ユニット;
前記対象検出結果及び前記属性検出結果に基づいてヒトの行為検出を行い、行為検出結果を取得する第三検出ユニット;及び
前記対象検出結果、前記属性検出結果及び前記行為検出結果に基づいてターゲット検索を行い、ターゲット検索結果を取得する検索ユニットを含む。
【0007】
本発明の実施例の第二側面によれば、電子機器が提供され、前記電子機器は、本発明の実施例の第一側面に記載の装置を含む。
【0008】
本発明の実施例の第三側面によれば、ターゲット検索方法が提供され、前記方法は、
複数の入力画像に対してそれぞれ対象検出を行い、前記複数の入力画像の対象検出結果を取得し;
前記複数の入力画像の対象検出結果に基づいてヒトの属性検出を行い、属性検出結果を取得し;
前記対象検出結果及び前記属性検出結果に基づいてヒトの行為検出を行い、行為検出結果を取得し;及び
前記対象検出結果、前記属性検出結果及び前記行為検出結果に基づいてターゲット検索を行い、ターゲット検索結果を取得することを含む。
【0009】
本発明の有益な效果は次の通りであり、即ち、まず、対象検出を行い、そして、対象検出結果ヒトの属性検出を行い、それから、属性検出結果に基づいてヒトの行為検出を行い、最後に、各種の検出結果に基づいてターゲット検索を行い、このように、ターゲット検索を行うときに、対象検出結果、属性検出結果及び行為検出結果を総合的に考慮し、即ち、豊富なマルチ次元の特徴をターゲット検索のために用いるため、迅速且つ正確なターゲット検索を行うことができ、また、ヒトの属性検出を行うときに、実際のニーズに応じて、検出する属性の類型を確定することができるから、良好な拡張性を有し、且つカスタマイズ化することができる。
【図面の簡単な説明】
【0010】
図1】本発明の実施例1におけるターゲット検索装置を示す図である。
図2】本発明の実施例1における1つの入力画像の対象検出結果を示す図である。
図3】本発明の実施例1におけるヒトの動作の検出方法を示す図である。
図4】本発明の実施例1における人体のキーポイントの検出結果を示す図である。
図5】本発明の実施例1における第三検出ユニット103を示す図である。
図6】本発明の実施例1におけるターゲット検索結果の表示を示す図である。
図7】本発明の実施例2における電子機器を示す図である。
図8】本発明の実施例2における電子機器のシステム構成を示すブロック図である。
図9】本発明の実施例3におけるターゲット検索方法を示す図である。
【発明を実施するための形態】
【0011】
以下、添付した図面を参照しながら、本発明を実施するための好ましい実施例について詳細に説明する。
【実施例1】
【0012】
本発明の実施例1は、ターゲット検索装置を提供する。図1は、本発明の実施例1におけるターゲット検索装置を示す図である。
【0013】
図1に示すように、ターゲット検索装置100は、以下のものを含む。
【0014】
第一検出ユニット101:複数の入力画像に対してそれぞれ対象検出を行い、複数の入力画像の対象検出結果を取得し;
第二検出ユニット102:複数の入力画像の対象検出結果に基づいてヒトの属性検出を行い、属性検出結果を取得し;
第三検出ユニット103:対象検出結果及び属性検出結果に基づいてヒトの行為検出を行い、行為検出結果を取得し;及び
検索ユニット104:対象検出結果、属性検出結果及び行為検出結果に基づいてターゲット検索を行い、ターゲット検索結果を取得する。
【0015】
上述の実施例から分かるように、まず、対象検出を行い、そして、対象検出結果に基づいてヒトの属性検出を行い、それから、属性検出結果に基づいてヒトの行為検出を行い、最後に、各種の検出結果に基づいてターゲット検索を行い、このように、ターゲット検索を行うときに、対象検出結果、属性検出結果及び行為検出結果を総合的に考慮し、即ち、豊富なマルチ次元の特徴をターゲット検索のために用いるから、迅速且つ正確なターゲット検索を行うことができ、また、ヒトの属性検出を行うときに、実際のニーズに応じて、検出する属性の類型を確定することができるので、良好な拡張性を有し、且つカスタマイズ化することができる。
【0016】
本実施例では、該入力画像は、リアルタイム又は事前に取得された画像であっても良い。例えば、該入力画像は、監視装置が撮ったビデオ画像の複数のフレームに対応する複数の入力画像であっても良く、また、該複数の入力画像は、連続した複数のフレームであっても良い。
【0017】
本実施例では、第一検出ユニット101は、複数の入力画像に対してそれぞれ対象の検出を行い、複数の入力画像の対象検出結果を取得する。
【0018】
本実施例では、該対象は、例えば、ヒト、軽自動車、バス、トラック、自転車、バイク、各種の動物などであっても良い。
【0019】
本実施例では、第一検出ユニット101は、各種のターゲット検出方法、例えば、Faster R-CNN、FPN(Feature Pyramid Network)、Yoloネットワークなどを用いて検出を行っても良い。
【0020】
本実施例では、異なるニーズに応じて、異なるネットワークを用いて検出を行うことができる。例えば、処理速度への要求が高いときに、Yoloネットワークを採用しても良く、認識正確度への要求が高いときに、Faster R-CNNネットワークを採用しても良い。
【0021】
第一検出ユニット101は、それぞれ、複数の入力画像に対して検出を行い、複数の入力画像の対象検出結果を取得し、即ち、各入力画像において、境界枠(border)によりマークされる各対象を使用する。
【0022】
図2は、本発明の実施例1における1つの入力画像の対象検出結果を示す図である。図2に示すように、該入力画像には、検出対象としてのヒトの境界枠が示されている。
【0023】
本実施例では、図1に示すように、装置100は、さらに、以下のものを含んでも良い。
【0024】
第四検出ユニット105:複数の入力画像に対してヒトの追跡検出を行い、複数の入力画像におけるヒトの標識(ID、Identification)を確定する。
【0025】
例えば、第四検出ユニット105は、複数の入力画像におけるヒトの移動軌跡及び複数の入力画像の特徴のうちの少なくとも1つに基づいて、複数の入力画像におけるヒトの標識(ID)を確定する。
【0026】
例えば、Deep Sort方法を用いてヒトの追跡検出を行い、複数の入力画像におけるヒトの移動軌跡及び複数の入力画像の特徴に基づいて、時間上(移動軌跡)及び空間上(畳み込み抽出特徴)でヒトの移動を記述し、これにより、遮蔽(Shielding)、人体特徴の変化などのファクターによる検出結果への影響を有效に削減することができる。
【0027】
本実施例では、第二検出ユニット102は、複数の入力画像の対象検出結果に基づいてヒトの属性検出を行い、属性検出結果を取得する。例えば、第二検出ユニットは、対象検出結果におけるヒトの境界枠に基づいて、ヒトの属性検出を行う。
【0028】
検出を行うときに、第二検出ユニット102は、複数の入力画像のそれぞれの対象検出結果、即ち、各入力画像におけるヒトの境界枠に基づいて、それぞれ、ヒトの属性検出を行う。
【0029】
本実施例では、第二検出ユニット102が検出するヒトの属性の類型は、実際のニーズに応じて確定されても良く、即ち、第二検出ユニット102の機能は、拡張及びカスタマイズ化することができる。
【0030】
例えば、ヒトの属性検出は、次のような検出のうちの少なくとも1つを含んでも良く、即ち、ヒトの動作検出;ヒトの所持品検出;ヒトの年齢検出;ヒトの性別検出;及び、ヒトの表情検出である。
【0031】
本実施例では、キーポイントに基づいてヒトの動作検出を行うことができる。
【0032】
図3は、本発明の実施例1におけるヒトの動作の検出方法を示す図である。図3に示すように、該方法は、以下のステップを含む。
【0033】
ステップ301:検出されたヒトの境界枠内で、ヒトのキーポイントを検出し;
ステップ302:検出されたヒトのキーポイントに基づいて、ヒトの特徴を計算し;及び
ステップ303:ヒトの特徴に基づいて、分類器を用いて、ヒトの胴体動作、上肢動作及び頭部動作を検出する。
【0034】
ステップ301では、各種の方法により、人体のキーポイント(key-points)、例えば、CPN(Cascaded Pyramid Network)を用いて人体のキーポイントを検出することができ、又は、Open-pose、Alpha-poseなどの方法を採用して検出を行っても良い。
【0035】
本実施例では、人体のキーポイントは、人体の複数の部位の所在する位置をそれぞれ示す複数のポイントを含んでも良く、例えば、人体の2つの耳、2つの目、鼻子、2つの肩、2つの肘、2つの手首、2つの骨盤部、2つの膝及び2つの足首をそれぞれ示すポイントである。
【0036】
図4は、本発明の実施例1における人体のキーポイントの検出結果を示す図である。図4に示すように、1つの人体の境界枠内で、CPNにより、人体の各部位を示すキーポイントを検出し、そして、これらのキーポイントの位置情報を出力することができる。
【0037】
ステップ302では、検出されたヒトのキーポイントに基づいてヒトの特徴を計算し、例えば、人体の特徴は、人体の複数の部位の所在する位置をそれぞれ示す複数のポイントの2次元座標;及び、複数のポイントを結ぶライン(接続線)の間の少なくとも1つの角度を含んでも良い。
【0038】
本実施例では、計算する必要のある人体の特徴が実際のニーズに応じて確定されても良い。
【0039】
ステップ303では、ヒトの特徴に基づいて、分類器を用いて、ヒトの胴体動作、上肢動作及び頭部動作を検出する。
【0040】
本実施例では、各種の分類器により人体の胴体動作を検出することができ、例えば、MLP(Multi-Layer Perceptron)分類器を用いて検出を行っても良い。計算された特徴に基づいて、MLP分類器を用いて検出を行うことにより、良好なパフォーマンスを有する。
【0041】
本実施例では、所定のルールを用いて人体の頭部動作及び上肢動作、例えば、「上を見る」、「下を見る」、「手を上げる」などの動作を検出することができる。実際のニーズに応じて、異なる動作について所定のルールを設定しても良く、例えば、2つの耳の高さが2つの目の高さよりも高いときに、「下を見る」と判断し、手首の高さが肘の高さより高いときに、「手を挙げる」と判断するなどである。このように、予め、所定のルールを設定することができる。
【0042】
本実施例では、ヒトの所持品を検出するときに、検出対象としてのヒトの境界枠内で、所持品の類型及び/又は属性を検出することができる。例えば、Yoloネットワークを用いて所持品の検出を行っても良い。
【0043】
本実施例では、所持品は、各種の衣服、鞄、アクセサリーなどの物品を含んでも良い。所持品の属性は、このような物品の各種の属性、例えば、衣服の色であっても良い。
【0044】
本実施例では、ヒトの年齢検出、ヒトの性別検出及びヒトの表情検出は、すべて、従来の検出方法を採用することができるため、ここでは、その詳しい説明を省略する。
【0045】
第二検出ユニット102が属性検出結果を検出した後に、第三検出ユニット103は、対象検出結果及び属性検出結果に基づいてヒトの行為検出を行い、行為検出結果を取得する。
【0046】
図5は、本発明の実施例1における第三検出ユニット103を示す図である。図5に示すように、第三検出ユニット103は、以下のものを含む。
【0047】
融合ユニット501:対象検出結果及び属性検出結果に対して融合を行い;及び
確定ユニット502:融合後の検出結果及び所定のルールに基づいてヒトの行為を確定し、行為検出結果を取得する。
【0048】
本実施例では、融合ユニット501は、対象検出結果及び属性検出結果に対した融合を行い、例えば、属性検出結果にヒトの動作検出結果が含まれており、融合ユニット501は、ヒトの動作検出結果及び対象検出結果に対して時間上の融合を行う。確定ユニット502は、融合後の検出結果及び所定のルールに基づいてヒトの行為を確定し、行為検出結果を取得する。
【0049】
例えば、ヒトの動作検出結果には、ヒトが持続的に座る動作が含まれ、対象検出結果には、該ヒトの脚部領域で自転車が検出されていることが含まれるとする。この場合、融合ユニット501がこれらの検出結果に対しいて融合を行うことで得た特徴は、ヒトが持続的に自転車の近傍で座る動作であっても良い。このときに、確定ユニット502は、該融合の結果に基づいて、該ヒトの行為が「自転車に乗る」であると確定することができる。
【0050】
また、例えば、ヒトの動作検出結果には、ヒトが持続的に歩く動作が含まれ、対象検出結果には、該ヒトの付近で犬が検出されていることが含まれるとする。この場合、融合ユニット501がこれらの検出結果に対して融合を行うことで得た特徴は、ヒトが持続的に犬の付近で歩く動作であっても良い。このときに、確定ユニット502は、該融合の結果に基づいて、該ヒトの行為が「犬の散歩をする」であると確定することができる。
【0051】
本実施例では、図1に示すように、装置100は、さらに、以下のものを含んでも良い。
【0052】
記憶ユニット106:入力画像ごとにヒトの標識(ID)に対応する対象検出結果、属性検出結果及び行為検出結果を記憶する
例えば、各入力画像がビデオの各フレームである場合、フレームごとに各種の検出結果を記憶する。
【0053】
1つの入力画像に対応する記憶内容には、ヒトの標識に対応して対象検出結果、属性検出結果及び行為検出結果を記憶する。例えば、第一フレーム(frame 1)に対応する記憶内容には、IDが0であるヒトの境界枠に対応する位置、動作、所持品、行為など、IDが1であるヒトの境界枠に対応する位置、動作、所持品、行為などが含まれる。
【0054】
本実施例では、検索ユニット105は、検索ターゲットに基づいて、記憶ユニット106に記憶されている内容に対して検索を行い、ターゲット検索結果を取得する。
【0055】
例えば、検索ターゲットが、IDが1のヒトである場合、記憶されている内容から検索によりIDが1のヒトのすべての検索結果を迅速に得ることができる。
【0056】
例えば、検索ターゲットが赤い服を着て走るヒトである場合、記憶されている内容において、該特徴に基づいて、記憶されている検出結果に対して検索を行うことで、該特徴と一致したすべての検索結果を迅速に取得することができる。
【0057】
本実施例では、図1に示すように、装置100は、さらに、以下のものを含んでも良い。
【0058】
表示ユニット107:複数の入力画像のうちの少なくとも1つの入力画像においてターゲット検索結果を表示する。
【0059】
図6は、本発明の実施例1におけるターゲット検索結果の表示を示す図である。図6に示ように、検索ターゲットがピンク色の半袖を着て立つヒトである場合、入力画像において該検索ターゲットと一致したヒトを枠でマークする。
【0060】
また、複数の入力画像がビデオの複数の連続したフレームであるときに、該ビデオを再生し、又は、画像の下方のプログレスバーをドラッグすることで、各フレームにおいて、マークされた検索ターゲットを連続して表示することができる。さらに、例えば、表示された画像の右側において検索ターゲットを配置して表示し、そして、クリックして選択することで検索ターゲットを確定することができる。
【0061】
上述の実施例から分かるように、まず、対象検出を行い、そして、対象検出結果に基づいてヒトの属性検出を行い、それから、属性検出結果に基づいてヒトの行為検出を行い、最後に、これらの検出結果に基づいてターゲット検索を行い、このように、ターゲット検索を行うときに、対象検出結果、属性検出結果及び行為検出結果を総合的に考慮し、即ち、豊富なマルチ次元の特徴をターゲット検索のために用いることで、迅速且つ正確なターゲット検索を実現することができ、また、ヒトの属性検出を行うときに、実際のニーズに応じて、検出する属性の類型を確定することで、良好な拡張性を有し、且つカスタマイズ化することもできる。
【実施例2】
【0062】
本発明の実施例2は、さらに、電子機器を提供する。図7は、本発明の実施例2における電子機器を示す図である。図7に示すように、電子機器700は、ターゲット検索装置701を含み、ターゲット検索装置701の構造及び機能については、実施例1における記載と同じであるから、ここでは、その詳しい説明を省略する。
【0063】
図8は、本発明の実施例2における電子機器のシステム構成を示すブロック図である。図8に示すように、電子機器800は、中央処理器801及び記憶器802を含んでも良く、該記憶器802は、該中央処理器801に接続される。なお、該図は、例示に過ぎず、さらに、該構造に対して他の類型の構成結構を用いて補充又は代替を行い、電気通信機能又は他の機能を実現しても良い。
【0064】
図8に示すように、電子機器800は、さらに、入力ユニット803、表示器804及び電源805を含んでも良い。
【0065】
1つ実施方式において、実施例1に記載のターゲット検索装置の機能が中央処理器801に統合されても良い。中央処理器801は、次のように構成されても良く、即ち、複数の入力画像に対してそれぞれ対象検出を行い、前記複数の入力画像の対象検出結果を取得し;前記複数の入力画像の対象検出結果に基づいてヒトの属性検出を行い、属性検出結果を取得し;前記対象検出結果及び前記属性検出結果に基づいてヒトの行為検出を行い、行為検出結果を取得し;及び、前記対象検出結果、前記属性検出結果及び前記行為検出結果に基づいてターゲット検索を行い、ターゲット検索結果を取得する。
【0066】
例えば、中央処理器801は、さらに、次のように構成されても良く、前記複数の入力画像に対してヒトの追跡検出を行い、前記複数の入力画像におけるヒトの標識(ID)を確定する。
【0067】
例えば、前記複数の入力画像に対してヒトの追跡検出を行うことは、前記複数の入力画像におけるヒトの移動軌跡及び前記複数の入力画像の特徴のうちの少なくとも1つに基づいて、前記複数の入力画像におけるヒトの標識を確定することを含む。
【0068】
例えば、中央処理器801は、さらに、次のように構成されても良く、入力画像ごとにヒトの標識に対応する対象検出結果、属性検出結果及び行為検出結果を記憶する。前記対象検出結果、前記属性検出結果及び前記行為検出結果に基づいてターゲット検索を行い、ターゲット検索結果を取得することは、記憶されている内容に対して検索を行い、前記ターゲット検索結果を取得することを含む。
【0069】
例えば、中央処理器801は、さらに、次のように構成されても良く、即ち、前記複数の入力画像のうちの少なくとも1つ入力画像において、前記ターゲット検索結果を表示することを含む。
【0070】
例えば、前記複数の入力画像の対象検出結果に基づいてヒトの属性検出を行うことは、前記対象検出結果におけるヒトの境界枠内で、ヒトの属性検出を行うことを含む。
【0071】
例えば、前記対象検出結果及び前記属性検出結果に基づいてヒトの行為検出を行い、行為検出結果を取得することは、前記対象検出結果及び前記属性検出結果に対して融合を行い;及び、融合後の検出結果及び所定のルールを用いてヒトの行為を確定し、前記行為検出結果を取得することを含む。
【0072】
例えば、前記ヒトの属性検出は、次のような検出のうちの少なくとも1つを含み、即ち、ヒトの動作検出;ヒトの所持品検出;ヒトの年齢検出;ヒトの性別検出;及びヒトの表情検出である。
【0073】
もう1つの実施方式において、実施例1に記載のターゲット検索装置が該中央処理器801と別々で配置されても良く、例えば、該ターゲット検索装置を、中央処理器801と接続されるチップとして構成し、中央処理器801の制御により該ターゲット検索装置の機能を実現しても良い。
【0074】
本実施例では、電子機器800は、図8に示す全部の部品を含む必要がない。図8に示すようの、中央処理器801は、制御器又は操作コントローラと称される場合があり、マイクロプロセッサ又は他の処理器装置及び/又は論理装置を含んでも良く、中央処理器801は、入力を受信して電子機器800の各部件の操作を制御することができる。
【0075】
該記憶器802は、例えば、バッファ、フレッシュメモリ、HDD、移動可能な媒体、揮発性記憶器、不揮発性記憶器又は他の適切な装置のうちの1つ又は複数であっても良い。また、該中央処理器801は、該記憶器802に記憶のプログラムを実行することで、情報の記憶や処理などを実現することもできる。他の部品の機能が従来技術と同様であるため、ここでは、その詳しい説明を省略する。また、電子機器800の各部品は、専用ハードウェア、ファームウェア、ソフトウェア又はその組み合わせにより実現されても良いが、これらは、すべて、本発明の技術的範囲に属する。
【0076】
上述の実施例から分かるように、まず、対象検出を行い、そして、対象検出結果に基づいてヒトの属性検出を行い、それから、属性検出結果に基づいてヒトの行為検出を行い、最後に、これらの検出結果に基づいてターゲット検索を行い、このように、ターゲット検索を行うときに、対象検出結果、属性検出結果及び行為検出結果を総合的に考慮し、即ち、豊富なマルチ次元の特徴をターゲット検索のために用いることで、迅速且つ正確なターゲット検索を実現することができ、また、ヒトの属性検出を行うときに、実際のニーズに応じて、検出する属性の類型を確定することで、良好な拡張性を有し、且つカスタマイズ化することもできる。
【実施例3】
【0077】
本発明の実施例3は、さらに、ターゲット検索方法を提供し、該方法は、実施例1におけるターゲット検索装置に対応する。
【0078】
図9は、本発明の実施例3におけるターゲット検索方法を示す図である。図9に示すように、該方法は、以下のステップを含む。
【0079】
ステップ901:複数の入力画像に対してそれぞれ対象検出を行い、複数の入力画像の対象検出結果を取得し;
ステップ902:複数の入力画像の対象検出結果に基づいてヒトの属性検出を行い、属性検出結果を取得し;
ステップ903:対象検出結果及び属性検出結果に基づいてヒトの行為検出を行い、行為検出結果を取得し;及び
ステップ904:対象検出結果、属性検出結果及び行為検出結果に基づいてターゲット検索を行い、ターゲット検索結果を取得する。
【0080】
本実施例では、上述の各ステップの具体的な実現方法については、実施例1における記載と同じであるから、ここでは、その詳しい説明を省略する。
【0081】
上述の実施例から分かるように、まず、対象検出を行い、そして、対象検出結果に基づいてヒトの属性検出を行い、それから、属性検出結果に基づいてヒトの行為検出を行い、最後に、これらの検出結果に基づいてターゲット検索を行い、このように、ターゲット検索を行うときに、対象検出結果、属性検出結果及び行為検出結果を総合的に考慮し、即ち、豊富なマルチ次元の特徴をターゲット検索のために用いることで、迅速且つ正確なターゲット検索を実現することができ、また、ヒトの属性検出を行うときに、実際のニーズに応じて、検出する属性の類型を確定することで、良好な拡張性を有し、且つカスタマイズ化することもできる。
【0082】
本発明の実施例は、さらに、コンピュータ可読プログラムを提供し、ターゲット検索装置又は電子機器中で前記プログラムを実行するときに、前記プログラムは、コンピュータに、前記ターゲット検索装置又は電子機器中で実施例3に記載のターゲット検索方法を実行させる。
【0083】
本発明の実施例は、さらに、コンピュータ可読プログラムを記憶した記憶媒体を提供する。前記コンピュータ可読プログラムは、コンピュータに、ターゲット検索装置又は電子機器中で実施例3に記載のターゲット検索方法を実行させる。
【0084】
また、本発明の実施例で説明した前記方法、装置などは、ハードウェア、処理器により実行されるソフトウェアモジュール、又は両者の組み合わせにより実現することができる。例えば、図1に示す機能ブロック図における1つ又は複数の機能及び/又は機能ブロック図における1つ又は複数の機能の組み合わせは、コンピュータプログラムにおける各ソフトウェアモジュールに対応しても良く、各ハードウェアモジュールに対応しても良い。また、これらのソフトウェアモジュールは、それぞれ、図9に示す各ステップに対応することができる。これらのハードウェアモジュールは、例えば、FPGA(field-programmable gate array)を用いてこれらのソフトウェアモジュールを固化して実現することができる。
【0085】
また、本発明の実施例による装置、方法などは、ソフトウェアにより実現されても良く、ハードェアにより実現されてもよく、ハードェア及びソフトウェアの組み合わせにより実現されても良い。本発明は、このようなコンピュータ可読プログラムにも関し、即ち、前記プログラムは、ロジック部品により実行される時に、前記ロジック部品に、上述の装置又は構成要素を実現させることができ、又は、前記ロジック部品に、上述の方法又はそのステップを実現させることができる。さらに、本発明は、上述のプログラムを記憶した記憶媒体、例えば、ハードディスク、磁気ディスク、光ディスク、DVD、フレッシュメモリなどにも関する。
【0086】
また、上述の実施例などに関し、さらに以下のように付記を開示する。
【0087】
(付記1)
ターゲット検索方法であって、
複数の入力画像それぞれ対象検出を行い、前記複数の入力画像の対象検出結果を取得し;
前記複数の入力画像の対象検出結果に基づいてヒトの属性検出を行い、属性検出結果を取得し;
前記対象検出結果及び前記属性検出結果に基づいてヒトの行為検出を行い、行為検出結果を取得し;及び
前記対象検出結果、前記属性検出結果及び前記行為検出結果に基づいてターゲット検索を行い、ターゲット検索結果を取得することを含む、方法。
【0088】
(付記2)
付記1に記載の方法であって、さらに、
前記複数の入力画像に対してヒトの追跡検出を行い、前記複数の入力画像におけるヒトの標識を確定することを含む、方法。
【0089】
(付記3)
付記2に記載の方法であって、
前記複数の入力画像に対してヒトの追跡検出を行うことは、
前記複数の入力画像におけるヒトの移動軌跡、及び、前記複数の入力画像の特徴のうちの少なくとも1つに基づいて、前記複数の入力画像におけるヒトの標識(ID)を確定することを含む、方法。
【0090】
(付記4)
付記2に記載の方法であって、さらに、
入力画像ごとにヒトの標識に対応する対象検出結果、属性検出結果及び行為検出結果を記憶することを含み、
前記対象検出結果、前記属性検出結果及び前記行為検出結果に基づいてターゲット検索を行い、ターゲット検索結果を取得することは、
記憶されている内容に対して検索を行い、前記ターゲット検索結果を取得することを含む、方法。
【0091】
(付記5)
付記1に記載の方法であって、さらに、
前記複数の入力画像のうちの少なくとも1つ入力画像において前記ターゲット検索結果を表示することを含む、方法。
【0092】
(付記6)
付記1に記載の方法であって、
前記複数の入力画像の対象検出結果に基づいてヒトの属性検出を行うことは、
前記対象検出結果におけるヒトの境界枠に基づいて、ヒトの属性検出を行うことを含む、方法。
【0093】
(付記7)
付記1に記載の方法であって、
前記対象検出結果及び前記属性検出結果に基づいてヒトの行為検出を行い、行為検出結果を取得することは、
前記対象検出結果及び前記属性検出結果に対して融合を行い;及び
融合後の検出結果及び所定のルールを用いてヒトの行為を確定し、前記行為検出結果を取得することを含む、方法。
【0094】
(付記8)
付記1-7のうちの任意の1項に記載の方法であって、
前記ヒトの属性検出は、以下の検出、即ち、
ヒトの動作検出;
ヒトの所持品検出;
ヒトの年齢検出;
ヒトの性別検出;及び
ヒトの表情検出
のうちの少なくとも1つを含む、方法。
【0095】
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。
図1
図2
図3
図4
図5
図6
図7
図8
図9