(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-07-06
(54)【発明の名称】画像認識方法、装置及び記憶媒体
(51)【国際特許分類】
G06T 7/00 20170101AFI20220629BHJP
【FI】
G06T7/00 660Z
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2020567592
(86)(22)【出願日】2020-09-09
(85)【翻訳文提出日】2020-12-02
(86)【国際出願番号】 IB2020058350
(87)【国際公開番号】W WO2021198753
(87)【国際公開日】2021-10-07
(31)【優先権主張番号】10202003027Q
(32)【優先日】2020-04-01
(33)【優先権主張国・地域又は機関】SG
(81)【指定国・地域】
(71)【出願人】
【識別番号】520176212
【氏名又は名称】センスタイム インターナショナル ピーティーイー.リミテッド
【氏名又は名称原語表記】SenseTime International PTE.LTD.
(74)【代理人】
【識別番号】110001427
【氏名又は名称】特許業務法人前田特許事務所
(72)【発明者】
【氏名】ジャン ミンユエン
(72)【発明者】
【氏名】ウー ジンイー
(72)【発明者】
【氏名】ジャオ ハイユー
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA08
5L096BA18
5L096CA01
5L096FA16
5L096HA02
5L096JA11
(57)【要約】
本願の実施例は、顔と動作部位との関連付けの正確度を向上させることができる画像認識方法、装置及び記憶媒体を提供する。該方法は、認識されるべき画像に対して画像検出を行い、少なくとも1つの顔検出結果、少なくとも1つの動作部位検出結果及び少なくとも1つの胴体検出結果を得ることであって、1つの顔検出結果に、1つの顔検出用検出枠が含まれ、1つの動作部位検出結果に、1つの動作部位検出枠が含まれ、1つの胴体検出結果に、1つの胴体検出枠が含まれる、ことと、前記少なくとも1つの胴体検出結果のうちの各胴体検出結果をそれぞれ、各顔検出結果と組み合わせ、少なくとも1つの第1結果組み合わせを得ることと、各胴体検出結果をそれぞれ、各動作部位検出結果と組み合わせ、少なくとも1つの第2結果組み合わせを得ることと、少なくとも1つの第1結果組み合わせと前記少なくとも1つの第2結果組み合わせを関連付け、関連付け結果を得ることと、を含む。
【特許請求の範囲】
【請求項1】
認識されるべき画像に対して画像検出を行い、少なくとも1つの顔検出結果、少なくとも1つの動作部位検出結果及び少なくとも1つの胴体検出結果を得ることであって、1つの顔検出結果に、1つの顔検出用検出枠が含まれ、1つの動作部位検出結果に、1つの動作部位検出枠が含まれ、1つの胴体検出結果に、1つの胴体検出枠が含まれる、ことと、
前記少なくとも1つの胴体検出結果のうちの各胴体検出結果をそれぞれ、各顔検出結果と組み合わせ、少なくとも1つの第1結果組み合わせを得ることと、
前記各胴体検出結果をそれぞれ、各動作部位検出結果と組み合わせ、少なくとも1つの第2結果組み合わせを得ることと、
前記少なくとも1つの第1結果組み合わせと前記少なくとも1つの第2結果組み合わせを関連付け、関連付け結果を得ることと、を含む、画像認識方法。
【請求項2】
前記少なくとも1つの第1結果組み合わせと前記少なくとも1つの第2結果組み合わせを関連付け、関連付け結果を得ることは、
各胴体検出結果、各顔検出結果及び各動作部位検出結果に対してそれぞれ特徴抽出を行い、各胴体検出結果に対応する胴体特徴に対応する胴体特徴シーケンス、各顔検出結果に対応する顔特徴シーケンス及び各動作部位検出結果に対応する動作部位特徴シーケンスを得ることと、
前記胴体特徴シーケンス及び前記顔特徴シーケンスに基づいて、各第1結果組み合わせの胴体検出結果と顔検出結果を関連付け、各第1結果組み合わせに対応する第1サブ関連付け結果を得ることと、
前記胴体特徴シーケンス及び前記動作部位特徴シーケンスに基づいて、各第2結果組み合わせの胴体検出結果と動作部位検出結果を関連付け、各第2結果組み合わせに対応する第2サブ関連付け結果を得ることと、
各第1サブ関連付け結果及び各第2サブ関連付け結果に基づいて、前記関連付け結果を決定することと、を含む
請求項1に記載の方法。
【請求項3】
各第1サブ関連付け結果及び各第2サブ関連付け結果に基づいて前記関連付け結果を決定することは、
各第1サブ関連付け結果に基づいて、少なくとも1つの第1結果組み合わせにおける胴体検出結果と顔検出結果が関連付けられている関連付け第1結果組み合わせを決定することと、
各第2サブ関連付け結果に基づいて、少なくとも1つの第2結果組み合わせにおける胴体検出結果と動作部位検出結果が関連付けられている関連付け第2結果組み合わせを決定することと、
同一の胴体検出結果を有する関連付け第1結果組み合わせと関連付け第2結果組み合わせが関連づけられていると決定することであって、1つの関連付け第1結果組み合わせにおける顔検出結果で表される顔は、それに関連付けられている関連付け第2結果組み合わせにおける動作部位検出結果で表される動作部位に互いに関連付けられている、ことと、を含む
請求項2に記載の方法。
【請求項4】
前記胴体特徴シーケンス及び前記顔特徴シーケンスに基づいて、各第1結果組み合わせの胴体検出結果と顔検出結果を関連付け、各第1結果組み合わせに対応する第1サブ関連付け結果を得ることは、
1つの第1結果組み合わせにおける顔検出結果に対応する顔特徴シーケンス及び該第1結果組み合わせにおける胴体検出結果に対応する胴体特徴シーケンスに基づいて、スプライシングを行い、該第1結果組み合わせに対応する第1組み合わせ特徴を得ることと、
各第1結果組み合わせに対応する第1組み合わせ特徴を利用して各个第1結果組み合わせに対して分類を行い、各第1結果組み合わせに対応する第1サブ関連付け結果を得ることと、を含む
請求項2又は3に記載の方法。
【請求項5】
前記胴体特徴シーケンス及び前記動作部位特徴シーケンスに基づいて、各第2結果組み合わせの胴体検出結果と動作部位検出結果を関連付け、各第2結果組み合わせに対応する第2サブ関連付け結果を得ることは、
1つの第2結果組み合わせにおける胴体検出結果に対応する胴体特徴シーケンス及び該第2結果組み合わせにおける動作部位検出結果に対応する動作部位特徴シーケンスに基づいて、スプライシングを行い、該第2結果組み合わせに対応する第2組み合わせ特徴を得ることと、
各第2結果組み合わせに対応する第2組み合わせ特徴を利用して各第2結果組み合わせを分類し、各第2結果組み合わせの第2サブ関連付け結果を得ることと、を含む
請求項2又は3に記載の方法。
【請求項6】
各胴体検出結果、各顔検出結果及び各動作部位検出結果に対してそれぞれ特徴抽出を行い、各胴体検出結果に対応する胴体特徴シーケンス、各顔検出結果に対応する顔特徴シーケンス及び各動作部位検出結果に対応する動作部位特徴シーケンスを得ることは、
前記各胴体検出結果における胴体画像、前記各顔検出結果における顔画像及び前記各動作部位検出結果における動作部位画像に対してそれぞれ特徴抽出を行い、各胴体検出結果の胴体外観特徴、各顔検出結果の顔外観特徴及び各動作部位検出結果の動作部位外観特徴を得ることと、
各胴体検出結果における胴体検出枠の座標情報に基づいて、各胴体検出結果の胴体位置特徴を決定し、各顔検出結果における顔検出枠の座標情報に基づいて、各顔検出結果の顔位置特徴を決定し、各動作部位検出結果における動作部位検出枠の座標情報に基づいて、各動作部位検出結果の動作部位位置特徴を決定することと、
各胴体検出結果の胴体外観特徴と胴体位置特徴をスプライシングし、各胴体検出結果の胴体特徴シーケンスを得、各顔検出結果の顔外観特徴と顔位置特徴をスプライシングし、各顔検出結果の顔特徴シーケンスを得、各動作部位検出結果の動作部位外観特徴と動作部位位置特徴をスプライシングし、各動作部位検出結果の動作部位特徴シーケンスを得ることと、を含む
請求項2に記載の方法。
【請求項7】
各胴体検出結果における胴体検出枠の座標情報に基づいて、各胴体検出結果の胴体位置特徴を決定し、各顔検出結果における顔検出枠の座標情報に基づいて、各顔検出結果の顔位置特徴を決定し、各動作部位検出結果における動作部位検出枠の座標情報に基づいて、各動作部位検出結果の動作部位位置特徴を決定することは、
各胴体検出枠の座標情報に基づいて、各胴体検出結果の胴体領域位置パラメータを生成し、各顔検出枠の座標情報に基づいて、各顔検出結果の顔領域位置パラメータを生成し、各動作部位検出枠の座標情報に基づいて、各動作部位検出結果の動作部位領域位置パラメータを生成することと、
所定の胴体シーケンスビット数、所定の胴体特徴構築モデル及び胴体特徴構築パラメータに基づいて、各胴体検出結果の胴体領域位置パラメータに応じて、各胴体検出結果の胴体位置シーケンスを構築し、各胴体検出結果の胴体位置シーケンスに応じて、各胴体検出結果の胴体位置特徴を生成することであって、前記胴体特徴構築パラメータは、所定の胴体シーケンスビット数に応じて生成される、ことと、
所定の顔シーケンスビット数、所定の顔特徴構築モデル及び顔特徴構築パラメータに基づいて、各顔検出結果の顔領域位置パラメータに応じて、各顔検出結果の顔位置シーケンスを構築し、各顔検出結果の顔位置シーケンスに応じて、各顔検出結果の顔位置特徴を生成することであって、前記顔特徴構築パラメータは、所定の顔シーケンスビット数に応じて生成される、ことと、
所定の動作部位シーケンスビット数、所定の動作部位特徴構築モデル及び動作部位特徴構築パラメータに基づいて、各動作部位検出結果の動作部位領域位置パラメータに応じて、各動作部位検出結果の動作部位位置シーケンスを構築し、各動作部位検出結果の動作部位位置シーケンスに応じて、各動作部位検出結果の動作部位位置特徴を生成することであって、前記動作部位特徴構築パラメータは、所定の動作部位シーケンスビット数に応じて生成される、ことと、を含む
請求項6に記載の方法。
【請求項8】
所定のシーケンスビット数が偶数ビットであり、所定の特徴構築モデルがサイン構築モデルである場合、前記位置シーケンスを決定することは、
各検出結果の領域位置パラメータを特徴構築パラメータと比較し、各検出結果の第1パラメータ比を得ることと、
前記サイン構築モデルを利用して各検出結果の第1パラメータ比に対して正弦値演算を行い、各検出結果の第1位置要素を得ることと、
各検出結果の第1位置要素に基づいて、各検出結果の位置シーケンスを決定することと、を含み、
所定のシーケンスビット数が所定の胴体シーケンスビット数である時、所定の特徴構築モデルは、所定の胴体特徴構築モデルであり、特徴構築パラメータは、胴体特徴構築パラメータであり、検出結果は、胴体検出結果であり、領域位置パラメータが胴体領域位置パラメータであり、位置シーケンスは、胴体位置シーケンスであり、
所定のシーケンスビット数が所定の顔シーケンスビット数である時、所定の特徴構築モデルは、所定の顔特徴構築モデルであり、特徴構築パラメータは、顔特徴構築パラメータであり、検出結果は、顔検出結果であり、領域位置パラメータは、顔領域位置パラメータであり、位置シーケンスは、顔位置シーケンスであり、
所定のシーケンスビット数が所定の動作部位シーケンスビット数である時、所定の特徴構築モデルは、所定の動作部位特徴構築モデルであり、特徴構築パラメータは、動作部位特徴構築パラメータであり、検出結果は、動作部位検出結果であり、領域位置パラメータは、動作部位領域位置パラメータであり、位置シーケンスは、動作部位位置シーケンスである
請求項7に記載の方法。
【請求項9】
所定のシーケンスビット数が奇数ビットであり、所定の特徴構築モデルがコサイン構築モデルである場合、前記位置シーケンスを決定することは、
各検出結果の領域位置パラメータを特徴構築パラメータと比較し、各検出結果の第2パラメータ比を得ることと、
前記コサイン構築モデルを利用して各検出結果の第2パラメータ比に対して余弦値演算を行い、各検出結果の第2位置要素を得ることと、
各検出結果の第2位置要素に基づいて、各検出結果の位置シーケンスを決定することと、を含み、
所定のシーケンスビット数が所定の胴体シーケンスビット数である時、所定の特徴構築モデルは、所定の胴体特徴構築モデルであり、特徴構築パラメータは、所定の胴体特徴構築パラメータであり、検出結果は、胴体検出結果であり、領域位置パラメータは、胴体領域位置パラメータであり、位置シーケンスは、胴体位置シーケンスであり、
所定のシーケンスビット数が所定の顔シーケンスビット数である時、所定の特徴構築モデルは、所定の顔特徴構築モデルであり、特徴構築パラメータは、所定の顔特徴構築パラメータであり、検出結果は、顔検出結果であり、領域位置パラメータは、顔領域位置パラメータであり、位置シーケンスは、顔位置シーケンスであり、
所定のシーケンスビット数が所定の動作部位シーケンスビット数である時、所定の特徴構築モデルは、所定の動作部位特徴構築モデルであり、特徴構築パラメータは、所定の動作部位特徴構築パラメータであり、検出結果は、動作部位検出結果であり、領域位置パラメータは、動作部位領域位置パラメータであり、位置シーケンスは、動作部位位置シーケンスである
請求項7に記載の方法。
【請求項10】
前記各胴体検出結果における胴体画像、前記各顔検出結果における顔画像及び前記各動作部位検出結果における動作部位画像に対してそれぞれ外観特徴抽出を行い、各胴体検出結果の胴体外観特徴、各顔検出結果の顔外観特徴及び各動作部位検出結果の動作部位外観特徴を得ることは、
前記認識されるべき画像に対応する少なくとも1つの特徴マップを得ることと、
前記少なくとも1つの特徴マップのうちの各特徴マップから、前記各胴体検出結果の胴体特徴マップを取得し、各胴体検出結果の胴体特徴マップに対して領域分割を行い、少なくとも1つの胴体特徴サブ領域を得て、各胴体特徴サブ領域に対して最大値特徴抽出を行い、各胴体検出結果に対応する少なくとも1つの胴体外観サブ特徴を得て、各胴体検出結果に対応する少なくとも1つの胴体外観サブ特徴を利用して、各胴体検出結果の胴体外観特徴を構築することと、
前記少なくとも1つの特徴マップのうちの各特徴マップから、前記各顔検出結果の顔特徴マップを取得し、各顔検出結果の顔特徴マップに対して領域分割を行い、少なくとも1つの顔特徴サブ領域を得て、各顔特徴サブ領域に対して最大値特徴抽出を行い、各顔検出結果に対応する少なくとも1つの顔外観サブ特徴を得て、各顔検出結果に対応する少なくとも1つの顔外観サブ特徴を利用して各顔検出結果の顔外観特徴を構築することと、
前記少なくとも1つの特徴マップのうちの各特徴マップから、前記各動作部位検出結果の動作部位特徴マップを取得し、各動作部位検出結果の動作部位特徴マップに対して領域分割を行い、少なくとも1つの動作部位特徴サブ領域を得て、各動作部位特徴サブ領域に対して最大値特徴抽出を行い、各動作部位検出結果に対応する少なくとも1つの動作部位外観サブ特徴を得て、各動作部位検出結果に対応する少なくとも1つの動作部位外観サブ特徴を利用して各動作部位検出結果の動作部位外観特徴を構築することと、を含む
請求項6に記載の方法。
【請求項11】
認識されるべき画像に対して画像検出を行い、少なくとも1つの顔検出結果、少なくとも1つの動作部位検出結果及び少なくとも1つの胴体検出結果を得るように構成される検出モジュールであって、1つの顔検出結果に、1つの顔検出用検出枠が含まれ、1つの動作部位検出結果に、1つの動作部位検出枠が含まれ、1つの胴体検出結果に、1つの胴体検出枠が含まれる、検出モジュールと、
前記少なくとも1つの胴体検出結果のうちの各胴体検出結果をそれぞれ、各顔検出結果と組み合わせ、少なくとも1つの第1結果組み合わせを得て、前記各胴体検出結果をそれぞれ、各動作部位検出結果と組み合わせ、少なくとも1つの第2結果組み合わせを得るように構成される組み合わせモジュールと、
前記少なくとも1つの第1結果組み合わせと前記少なくとも1つの第2結果組み合わせを関連付け、関連付け結果を得るように構成される関連付けモジュールと、を備える、画像認識装置。
【請求項12】
電子機器であって、
コンピュータ実行可能な命令を記憶するように構成されるメモリと、
前記メモリに記憶されたコンピュータ実行可能な命令を実行させて、請求項1から10のうちいずれか一項に記載の方法を実行するように構成されるプロセッサと、を備える、前記電子機器。
【請求項13】
コンピュータに、請求項1から10のうちいずれか一項に記載の方法を実行させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
【請求項14】
コンピュータに、請求項1から10のうちいずれか一項に記載の画像認識方法を実行させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、2020年04月01日に提出された出願番号10202003027Q、名称「IMAGE RECOGNITION METHOD, APPARATUS, AND STORAGE MEDIUM(画像認識方法、装置及び記憶媒体)」のシンガポール特許出願に基づく優先権を主張し、該特許出願の全内容が参照として本願に組み込まれる。
【0002】
本願の実施例は、画像処理技術に関するが、これに限定されず、特に、画像認識方法、装置及び記憶媒体に関する。
【背景技術】
【0003】
画像認識技術の成長に伴い、画像認識装置は、画像画面における顔と、人物の手部などのような動作部位と、に対して連想マッチングを行い、顔と動作部位が同一の人物に属するかどうかを認識する。現在、一般的な、顔と動作部位との関連付け方法は、2つである。1つは、まず、画像から複数の顔及び複数の動作部位をそれぞれ認識し、続いて、深層学習モデルを利用して顔と動作部位との関係を推定することである。もう1つは、人体キーポイント関連付けアルゴリズムに基づいて、顔と動作部位とを関連付けることである。
【0004】
しかしながら、深層学習モデルを利用して、顔と動作部位との関係を推定する時、各顔、動作部位の組み合わせに対して、深層学習モデルを呼び出す必要がある。顔と動作部位との距離が大きい時、深層学習モデルにより、顔と動作部位との関係を直接的に判定することは、非常に困難である。これにより、顔と動作部位との関連付けの正確度が低い。人体キーポイント関連付けアルゴリズムを利用する場合、画像に複数の人体が存在すると、キーポイントにおける一部の人体情報が失われて、顔と動作部位との関連付けの正確度が低くなる。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願の実施例は、顔と動作部位との関連付けの正確度を向上させることができる画像認識方法、装置及び記憶媒体を提供する。
【課題を解決するための手段】
【0006】
本願の技術的解決手段は、以下のように実現する。
【0007】
本願の実施例は、画像認識方法を提供する。前記方法は、
認識されるべき画像に対して画像検出を行い、少なくとも1つの顔検出結果、少なくとも1つの動作部位検出結果及び少なくとも1つの胴体検出結果を得ることであって、1つの顔検出結果に、1つの顔検出用検出枠が含まれ、1つの動作部位検出結果に、1つの動作部位検出枠が含まれ、1つの胴体検出結果に、1つの胴体検出枠が含まれる、ことと、
前記少なくとも1つの胴体検出結果のうちの各胴体検出結果をそれぞれ、各顔検出結果と組み合わせ、少なくとも1つの第1結果組み合わせを得ることと、
前記各胴体検出結果をそれぞれ、各動作部位検出結果と組み合わせ、少なくとも1つの第2結果組み合わせを得ることと、
前記少なくとも1つの第1結果組み合わせと前記少なくとも1つの第2結果組み合わせを関連付け、関連付け結果を得ることと、を含む。
【0008】
本願の実施例は、画像認識装置を提供する。前記装置は、
認識されるべき画像に対して画像検出を行い、少なくとも1つの顔検出結果、少なくとも1つの動作部位検出結果及び少なくとも1つの胴体検出結果を得るように構成される検出モジュールであって、1つの顔検出結果に、1つの顔検出用検出枠が含まれ、1つの動作部位検出結果に、1つの動作部位検出枠が含まれ、1つの胴体検出結果に、1つの胴体検出枠が含まれる、検出モジュールと、
前記少なくとも1つの胴体検出結果のうちの各胴体検出結果をそれぞれ、各顔検出結果と組み合わせ、少なくとも1つの第1結果組み合わせを得て、前記各胴体検出結果をそれぞれ、各動作部位検出結果と組み合わせ、少なくとも1つの第2結果組み合わせを得るように構成される組み合わせモジュールと、
前記少なくとも1つの第1結果組み合わせと前記少なくとも1つの第2結果組み合わせを関連付け、関連付け結果を得るように構成される関連付けモジュールと、を備える。
【0009】
本願の実施例は、電子機器を提供する。前記電子機器は、
コンピュータ実行可能な命令を記憶するように構成されるメモリと、
前記メモリに記憶されたコンピュータ実行可能な命令を実行させて、本願の実施例で提供される画像認識方法を実行するように構成されるプロセッサと、を備える。
【0010】
本願の実施例は、コンピュータに、本願の実施例で提供される画像認識方法を実行させるためのコンピュータプログラムを記憶したコンピュータ読み取り可能な記憶媒体を提供する。
【0011】
本願の実施例は、コンピュータに、本願の実施例で提供される画像認識方法を実行させるためのコンピュータプログラムを提供する。
【発明の効果】
【0012】
本願の実施例は、下記有益な効果を有する。
【0013】
本願の実施例において、認識されるべき画像に対して検出を行う時、少なくとも1つの顔検出結果、少なくとも1つの動作部位検出結果及び少なくとも1つの胴体検出結果を得る。続いて、少なくとも1つの胴体検出結果のうちの各胴体検出結果をそれぞれ、各顔検出結果と組み合わせ、少なくとも1つの第1結果組み合わせを得ると共に、各胴体検出結果をそれぞれ、各動作部位検出結果と組み合わせ、少なくとも1つの第2結果組み合わせを得る。最後に、少なくとも1つの第1結果組み合わせと少なくとも1つの第2結果組み合わせを関連付け、関連付け結果を得る。上記方式により、胴体検出結果と顔検出結果との関係、及び胴体検出結果と動作部位検出結果との関係を判定する。これにより、胴体検出結果を利用して、顔検出結果と動作部位検出結果とを関連付けることで、顔及び動作部位の判定難度を低下させると共に、画像における人体のキーポイント情報を失うことがなく、顔と動作部位との関連付けの正確度を向上させる。
【図面の簡単な説明】
【0014】
【
図1】本願の実施例による画像認識シーン100を示す概略図である。
【
図2】本願の実施例による画像認識方法を示す1つの任意選択的な第1フローチャートである。
【
図3】本願の実施例による画像認識方法を示す1つの任意選択的な第2フローチャートである。
【
図4】本願の実施例による画像認識方法を示す1つの任意選択的な第3フローチャートである。
【
図5】本願の実施例による画像認識方法を示す1つの任意選択的な第4フローチャートである。
【
図6】本願の実施例による胴体検出領域の幅、高さ及び面積を示す概略図である。
【
図7】本願の実施例による画像認識方法を示す1つの任意選択的な第5フローチャートである。
【
図8】本願の実施例による画像認識装置の構造を示す第1概略図である。
【
図9】本願の実施例による電子機器の構造を示す第2概略図である。
【発明を実施するための形態】
【0015】
以下、本願の実施例における図面を参照しながら、本願の実施例における技術的解決手段を明瞭かつ完全に説明する。
【0016】
本願の実施例は、画像認識シーンを提供する。本願の実施例による画像認識シーン100を示す概略図である
図1に示すように、画像認識シーン100に、認識されるべき領域200に対して画像認識を行うための画像認識装置300が含まれる。認識されるべき領域200に、少なくとも1つの人物対象(例示的に、人物対象400-1、人物対象400-2及び人物対象400-3が示される)が含まれる。ここで、各人物対象400を顔により区別することができる。画像認識装置300は、認識されるべき領域200の正面又は側面に設けられて、平行角度で認識されるべき領域200に対して画像認識を行うためのものであってもよい。具体的には、画像認識装置300は、まず、認識されるべき領域200に対して画像収集を行い、続いて、収集された画像から、胴体検出結果500(例示的に、胴体検出結果500-1、胴体検出結果500-2及び胴体検出結果500-3が示される)、顔検出結果600(例示的に、顔検出結果600-1、顔検出結果600-2及び顔検出結果600-3が示される)、及び動作部位検出結果700(例示的に、動作部位検出結果700-1、動作部位検出結果700-2及び動作部位検出結果700-3が示される)を検出する。続いて、これらの検出結果に対して関連付け分析を行い、更に、画像画面における顔と動作部位との関係を決定する。つまり、動作部位検出結果700が人物対象400のうちのどの人物対象に属するかを決定する。これにより、動作部位検出結果700のうちのいずれか1つの動作部位検出結果が活動した時、画像認識装置は、人物対象400のうちのどの人物対象が該動作部位により活動したかを判定することもできる。
【0017】
本願の幾つかの実施例において、動作部位は、人物対象400の手部を指してもよく、他の部位を指してもよいことが理解されるべきである。
【0018】
本願の実施例による画像認識方法を示す1つの任意選択的な第1フローチャートである
図2に示すように、本願の実施例で提供される画像認識方法は、以下を含む。
【0019】
S101において、認識されるべき画像に対して画像検出を行い、少なくとも1つの顔検出結果、少なくとも1つの動作部位検出結果及び少なくとも1つの胴体検出結果を得、1つの顔検出結果に、1つの顔検出枠が含まれ、1つの動作部位検出結果に、1つの動作部位検出枠が含まれ、1つの胴体検出結果に、1つの胴体検出枠が含まれる。
【0020】
本願の実施例は、画像画面を認識し、更に画像画面における顔と動作部位を関連付けるシーンで実現される。例えば、教室における各生徒の顔と動作部位とを関連付け、教室における様々な生徒の行為を区別するためのシーンで実現される。また例えば、バスにおける各乗客の顔と動作部位とを関連付け、バスにおける様々な乗客の行為を区別するためのシーンなどで実現される。画像認識を行う場合、まず、設けられた画像収集装置により、検出領域の画像画面をリアルタイムに収集し、リアルタイムに収集された画像画面を認識されるべき画像とする。リアルタイムに収集された画像において、多くの人物の影像が含まれる。しかしながら、人物間の遮蔽により、顔と動作部位との対応関係を確認できない。つまり、どの動作部位がその顔に属するかを見分けることができない。認識されるべき画像を得た後、事前記憶された検出モデルを利用して、認識されるべき画像における全ての顔、全ての動作部位及び全ての胴体を検出し、顔検出枠により、顔画像を囲み、動作部位検出枠により、動作部位画像を囲み、胴体検出枠により、胴体画像を囲む。これにより、少なくとも1つの顔検出結果、少なくとも1つの動作部位検出結果及び少なくとも1つの胴体検出結果を得る。
【0021】
検出領域は、画像認識シーンにおけるいずれか1つの画像認識されるべき領域を指し、検出領域は、手動で設定されたものであってもよく、画像処理技術により自動的に分析したものであってもよいことに留意されたい。実際に、複数の画像収集装置により、各検出領域の画像を収集することができる。
【0022】
上記画像収集装置は、ハイビジョンカメラ等であってもよく、この場合、取得された認識されるべき画像は、単一枚の検出領域の写真であり、画像収集装置は、ビデオカメラであってもよく、取得された認識されるべき画像は、検出領域のビデオシーケンスであることが理解されるべきである。
【0023】
本願の幾つかの実施例において、画像収集装置は、カラー画像を収集するための収集装置であってもよく、収集された認識されるべき画像は、カラー画像である。グレースケール画像を収集するための収集装置であってもよく、収集された認識されるべき画像は、グレースケール画像である。
【0024】
上記検出モデルは、訓練された検出モデルであり、該モデルは、例えば、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)のような画像を処理する深層学習モデルであってもよく、他のネットワークモデルであってもよく、本願の実施例は、これを限定するものではないことが理解されるべきである。
【0025】
本願の実施例における検出モデルは、顔訓練画像、動作部位訓練画像及び胴体訓練画像を利用して訓練されたモデルであってもよいことに留意されたい。この場合、1つの検出モデルを利用して、認識されるべき画像における顔検出結果、動作部位検出結果及び胴体検出結果を全て検出する必要がある。勿論、本願の実施例における検出モデルは、3つの異なるモデルであってもよい。該3つのモデルは、それぞれ顔訓練画像、動作部位訓練画像及び胴体訓練画像により訓練されたものである。この場合、認識されるべき画像をそれぞれ該3つの検出モデルに入力し、顔検出結果、動作部位検出結果及び胴体検出結果をそれぞれ得ることができる。
【0026】
本願の実施例において、動作部位は、例えば、人物の手、足などのような、人物の影像における種々の動作を行う部位を指す。胴体部位は、人物の影像における動作部位及び顔以外の部分を指す。
【0027】
S102において、少なくとも1つの胴体検出結果のうちの各胴体検出結果をそれぞれ、各顔検出結果と組み合わせ、少なくとも1つの第1結果組み合わせを得る。
【0028】
少なくとも1つの顔検出結果、少なくとも1つの動作部位検出結果及び少なくとも1つの胴体検出結果を得た後、少なくとも1つの胴体検出結果のうちの各胴体検出結果を少なくとも1つの顔検出結果のうちの各顔検出結果と組み合わせ、胴体検出結果と顔検出結果との組み合わせを得て、該組み合わせを第1結果組み合わせとする。少なくとも1つの胴体検出結果に、1つ又は複数の胴体検出結果が含まれ、少なくとも1つの顔検出結果にも1つ又は複数の顔検出結果が含まれるため、少なくとも1つの第1結果組み合わせを得ることができる。
【0029】
更に、得られた第1結果組み合わせの数は、胴体検出結果の数と顔検出結果の数との積に等しい。1つの胴体検出結果を各顔検出結果と組み合わせる時、数が顔検出結果の数に等しい第1結果組み合わせを得ることができる。胴体検出結果の数が少なくとも1つであるため、数が胴体検出結果の数と顔検出結果の数との積に等しい第1結果組み合わせを得る。
【0030】
例示的に、検出領域から、2個の胴体検出結果、3個の顔検出結果(遮蔽により、1つの人物の胴体部位が検出されなかった)が検出された。ここで、2個の胴体検出結果はそれぞれ胴体結果-1、胴体結果-2であり、3個の顔検出結果はそれぞれ顔結果-1、顔結果-2及び顔結果-3である。この場合、胴体結果-1をそれぞれ、顔結果-1、顔結果-2及び顔結果-3と組み合わせ、3個の第1結果組み合わせを得る。即ち、<胴体結果-1,顔結果-1>、<胴体結果-1,顔結果-2>及び<胴体結果-1,顔結果-3>を得る。続いて、胴体結果-2をそれぞれ、顔結果-1、顔結果-2及び顔結果-3と組み合わせ、3個の第1結果組み合わせを更に得る。即ち、<胴体結果-2,顔結果-1>、<胴体結果-2,顔結果-2>及び<胴体結果-2,顔結果-3>を得る。従って、計6個の第1結果組み合わせを得る。
【0031】
S103において、各胴体検出結果をそれぞれ、各動作部位検出結果と組み合わせ、少なくとも1つの第2結果組み合わせを得る。
【0032】
各胴体検出結果を少なくとも1つの動作部位検出結果のうちの各動作部位検出結果と組み合わせ、胴体検出結果と動作部位検出結果との組み合わせを得て、該組み合わせを第2結果組み合わせとする。また、第1組み合わせ結果と同様に、少なくとも1つの胴体検出結果に1つ又は複数の胴体検出結果が含まれ、少なくとも1つの動作部位検出結果にも1つ又は複数の動作部位検出結果が含まれるため、少なくとも1つの第2結果組み合わせを得ることができる。
【0033】
第1組み合わせ結果と同様に、画像認識装置により得られた第2結果組み合わせの数は、胴体検出結果の数と動作部位検出結果の数との積に等しい。
【0034】
例示的に、画像認識装置により、検出領域から、2個の胴体検出結果、4個の動作部位検出結果が検出された。ここで、胴体検出結果はそれぞれ胴体結果-1、胴体結果-2であり、動作部位検出結果はそれぞれ動作部位結果-1、動作部位結果-2、動作部位結果-3及び動作部位結果-4である。この場合、胴体結果-1をそれぞれ動作部位結果-1、動作部位結果-2、動作部位結果-3及び動作部位結果-4と組み合わせ、4個の第2結果組み合わせを得る。即ち、<胴体結果-1,動作部位結果-1>、<胴体結果-1,動作部位結果-2>、<胴体結果-1,動作部位結果-3>及び<胴体結果-1,動作部位結果-4>を得る。続いて、胴体結果-2をそれぞれ、動作部位結果-1、動作部位結果-2、動作部位結果-3及び動作部位結果-4と組み合わせ、4個の第2結果組み合わせを更に得る。即ち、<胴体結果-2,動作部位結果-1>、<胴体結果-2,動作部位結果-2>、<胴体結果-2,動作部位結果-3>及び<胴体結果-2,動作部位結果-4>を得る。これにより、計8個の第2結果組み合わせを得る。
【0035】
S104において、少なくとも1つの第1結果組み合わせと少なくとも1つの第2結果組み合わせを関連付け、関連付け結果を得る。
【0036】
少なくとも1つの第1結果組み合わせ及び少なくとも1つの第2結果組み合わせを得た後、少なくとも1つの結果組み合わせのうちの各第1結果組み合わせを少なくとも1つの第2結果組み合わせのうちの各第2結果組み合わせと関連付けることができる。つまり、顔検出結果と動作部位検出結果が同一の人物に属するかどうかを判定し、判定結果を関連付け結果とする。これにより、検出領域に対する画像認識を完了し、更に、検出領域における各顔と各動作部位との関係を判定する。ここで、関連付け結果は、同一の胴体にそれぞれ対応する1つの顔及び1つの手を指す。つまり、同一の人物に属する胴体、顔及び手を得る。
【0037】
本願の実施例において、第1結果組み合わせと第2結果組み合わせを関連付ける時、まず、各第1結果組み合わせにおける胴体検出結果と顔検出結果が同一の人物に属するかどうかを判定し、続いて、各第2結果組み合わせにおける胴体検出結果と動作部位検出結果が同一の人物に属するかどうかを判定することに留意されたい。1つの第1結果組み合わせにおける胴体検出結果と顔検出結果が同一の人物に属し、且つ、該第1結果組み合わせにおける胴体検出結果を含む第2結果組み合わせにおける胴体検出結果と動作部位検出結果が同一の人物に属する場合、該第1結果組み合わせは、該第2結果組み合わせに関連する。つまり、該第1結果組み合わせにおける顔検出結果と該第2結果組み合わせにおける動作部位検出結果も同一の人物に属する。胴体検出結果を利用して、顔検出結果と動作部位検出結果を関連付けることができる。
【0038】
本願の実施例において、認識されるべき画像に対して検出を行い、少なくとも1つの顔検出結果、少なくとも1つの動作部位検出結果及び少なくとも1つの胴体検出結果を得る。続いて、少なくとも1つの胴体検出結果のうちの各胴体検出結果をそれぞれ、各顔検出結果と組み合わせ、少なくとも1つの第1結果組み合わせを得ると共に、各胴体検出結果をそれぞれ、各動作部位検出結果と組み合わせ、少なくとも1つの第2結果組み合わせを得る。最後に、少なくとも1つの第1結果組み合わせと少なくとも1つの第2結果組み合わせを関連付け、関連付け結果を得て、検出領域に対する画像認識を完了する。上記方式により、胴体検出結果と顔検出結果との関係、及び胴体検出結果と動作部位検出結果との関係を判定する。これにより、胴体検出結果を利用して、顔検出結果と動作部位検出結果とを関連付けることで、顔及び動作部位の判定難度を低下させると共に、画像における人体のキーポイント情報を失うことがなく、顔と動作部位との関連付けの正確度を向上させる。
【0039】
本願の実施例による画像認識方法を示す1つの任意選択的な第2フローチャートである
図3に示すように、本願の幾つかの実施例において、少なくとも1つの第1結果組み合わせと少なくとも1つの第2結果組み合わせを関連付け、関連付け結果を得るステップS104の具体的な実現プロセスは、S1041-S1044を含んでもよい。
【0040】
S1041において、各胴体検出結果、各顔検出結果及び各動作部位検出結果に対してそれぞれ特徴抽出を行い、各胴体検出結果に対応する胴体特徴に対応する胴体特徴シーケンス、各顔検出結果に対応する顔特徴シーケンス及び各動作部位検出結果に対応する動作部位特徴シーケンスを得る。
【0041】
少なくとも1つの第1結果組み合わせと少なくとも1つの第2結果組み合わせを関連付ける時、まず、第1結果組み合わせにおける胴体検出結果に対応する特徴シーケンス及び顔検出結果に対応する特徴シーケンスを知る必要がある。同様に、第2結果組み合わせにおける動作部位検出結果に対応する特徴シーケンスを知る必要がある。これにより、これらの特徴シーケンスに基づいて、胴体検出結果と顔検出結果が関連付けられているかどうか、胴体検出結果と動作部位検出結果が関連付けられているかどうかをそれぞれ判定する。従って、まず、各胴体検出結果、各顔検出結果及び各動作部位検出結果に対して特徴抽出を行い、各胴体検出結果に対応する胴体特徴シーケンス、各顔検出結果に対応する顔特徴シーケンス及び各動作部位検出結果に対応する動作部位特徴シーケンスを得る。
【0042】
本願の幾つかの実施例において、特徴シーケンスは、位置特徴及び外観特徴からなるものであり、つまり、胴体特徴シーケンスは、胴体位置特徴及び胴体外観特徴からなるものであり、顔特徴シーケンスは、顔位置特徴及び顔外観特徴からなるものであり、同様に、動作部位特徴シーケンスは、動作部位位置特徴及び動作部位外観特徴からなるものであることに留意されたい。
【0043】
S1042において、胴体特徴シーケンス及び顔特徴シーケンスに基づいて、各第1結果組み合わせの胴体検出結果と顔検出結果を関連付け、各第1結果組み合わせに対応する第1サブ関連付け結果を得る。
【0044】
得られた胴体特徴シーケンス及び顔特徴シーケンスを利用して、各第1結果組み合わせにおける胴体検出結果と顔検出結果が同一の人物に属するかどうかを判定し、判定結果を第1サブ関連付け結果とする。これにより、各第1結果組み合わせに対応する第1サブ関連付け結果を得る。つまり、少なくとも1つの第1サブ関連付け結果を得る。
【0045】
同一の人物の胴体検出結果及び顔検出結果について、位置関係で、一定の規律が存在する。例えば、人物の顔部と人物の胴体との距離は、所定の範囲内にある。該距離は、大きすぎることがなく、小さすぎることもない。また、同一の人物の胴体検出結果及び顔検出結果について言えば、外観の点においても、類似性を有する。例えば、顔部の肌色は、胴体の頸部の肌色と類似する。胴体特徴シーケンスは、胴体位置特徴及び胴体外観特徴からなるものであり、顔特徴シーケンスが顔位置特徴及び顔外観特徴からなるものであるため、胴体特徴シーケンス及び顔特徴シーケンスを利用して、胴体検出結果と顔検出結果が同一の人物に属するかどうかを判定し、第1サブ関連付け結果を更に得ることができる。
【0046】
S1043において、胴体特徴シーケンス及び動作部位特徴シーケンスに基づいて、各第2結果組み合わせの胴体検出結果と動作部位検出結果を関連付け、各第2結果組み合わせに対応する第2サブ関連付け結果を得る。
【0047】
更に、胴体特徴シーケンス及び動作部位特徴シーケンスを利用して、胴体検出結果と動作部位検出結果が同一の人物に属するかどうかを判定し、判定結果を第2サブ関連付け結果とする。これにより、各第2結果組み合わせに一対一に対応する少なくとも1つの第2サブ関連付け結果を得ることができる。
【0048】
S1042と同様に、同一の人物の胴体検出結果及び動作部位検出結果について、位置関係で、一定の規律が存在する。例えば、手部のような人物の動作部位と人物の胴体との距離は、所定の範囲内にある。同様に、同一の人物の胴体検出結果及び動作部位検出結果について言えば、外観の点においても、類似性を有する。例えば、手首、腕のような動作部位と胴体の一部の肌色は、類似する。同様に、動作部位特徴シーケンスは、動作部位位置特徴及び動作部位外観特徴からなるものであるため、胴体特徴シーケンス及び動作部位特徴シーケンスを利用して、胴体検出結果と動作部位検出結果が同一の人物に属するかどうかを判定し、第2サブ関連付け結果を更に得ることができる。
【0049】
S1044において、各第1サブ関連付け結果及び各第2サブ関連付け結果に基づいて、関連付け結果を決定する。
【0050】
第1サブ関連付け結果及び第2サブ関連付け結果を得た後、第1サブ関連付け結果及び第2サブ関連付け結果に対して分析を行い、最終的な分析結果を関連付け結果とする。これにより、顔検出結果と動作部位検出結果が同一の人物に属するかどうかを判定し、検出領域に対する画像認識プロセスを完了することができる。
【0051】
本願の実施例において、まず、各胴体検出結果に対応する胴体特徴シーケンス、各顔検出結果に対応する顔特徴シーケンス及び各動作部位検出結果に対応する動作部位特徴シーケンスをそれぞれ抽出し、続いて、胴体特徴シーケンス及び顔特徴シーケンスに基づいて、各第1結果組み合わせにおける胴体検出結果と顔検出結果を関連付け、各第1結果組み合わせに対応する第1サブ関連付け結果を得て、胴体特徴シーケンス及び動作部位特徴シーケンスに基づいて、各第2結果組み合わせにおける胴体検出結果と動作部位検出結果を関連付け、各第2結果組み合わせに対応する第2サブ関連付け結果を得る。最後に、各第1サブ関連付け結果及び各第2サブ関連付け結果に基づいて、最終的な関連付け結果を決定する。これにより、少なくとも1つの第1結果組み合わせと少なくとも1つの第2結果組み合わせとの関連付けを完了すし、認識されるべき画像における胴体検出結果、顔検出結果及び動作部位検出結果間の関係を判定し、検出領域に対する画像認識プロセスを完了する。
【0052】
本発明の幾つかの実施例において、各第1サブ関連付け結果及び各第2サブ関連付け結果に基づいて関連付け結果を決定するステップS1044の具体的な実現プロセスは、S1044a-S1044cを含んでもよい。
【0053】
S1044aにおいて、各第1サブ関連付け結果に基づいて、少なくとも1つの第1結果組み合わせにおける胴体検出結果と顔検出結果が関連付けられている関連付け第1結果組み合わせを決定する。
【0054】
各第1サブ関連付け結果を得た後、各第1サブ関連付け結果に基づいて、各第1結果組み合わせにおける胴体検出結果と顔検出結果が関連付けられているかどうかを判定することができる。つまり、各第1結果組み合わせにおける胴体検出結果と顔検出結果が同一の人物に属するかどうかを判定する。続いて、各第1結果組み合わせから、胴体検出結果と顔検出結果が関連付けられている第1結果組み合わせを選択して、関連付け第1結果組み合わせとする。
【0055】
S1044bにおいて、各第2サブ関連付け結果に基づいて、少なくとも1つの第2結果組み合わせにおける胴体検出結果と動作部位検出結果が関連付けられている関連付け第2結果組み合わせを決定する。
【0056】
同様に、各第2サブ関連付け結果を得た後、各第2サブ関連付け結果に基づいて、各第2結果組み合わせにおける胴体検出結果と動作部位検出結果が関連付けられているかどうかを判定することができる。つまり、各第2結果組み合わせにおける胴体検出結果と動作部位検出結果が同一の人物に属するかどうかを判定する。続いて、各第2結果組み合わせから、胴体検出結果と動作部位検出結果が関連づけられている第2結果組み合わせを選択し、関連付け第2結果組み合わせとすることができる。
【0057】
S1044cにおいて、同一の胴体検出結果を有する関連付け第1結果組み合わせと関連付け第2結果組み合わせが関連づけられていると決定し、前記関連付け結果を得て、1つの関連付け第1結果組み合わせにおける顔検出結果で表される顔は、それに関連付けられている関連付け第2結果組み合わせにおける動作部位検出結果で表される動作部位に互いに関連付けられている。
【0058】
胴体検出結果に応じて、関連付け第1結果組み合わせ及び関連付け第2結果組み合わせに対して分類を行う。同一の胴体検出結果を有する関連付け第1結果組み合わせと関連付け第2結果組み合わせは、必然的に関連付けられている。この場合、関連付け結果は、同一の胴体検出結果を有する関連付け第1結果組み合わせにおける顔検出結果と、関連付け第2結果組み合わせにおける動作部位検出結果と、が関連づけられていることである。
【0059】
本願の実施例において、第1サブ関連付け結果及び第2サブ関連付け結果に基づいて、関連付け第1結果組み合わせ及び関連付け第2結果組み合わせを選択し、更に、同一の胴体検出結果を有する関連付け第1結果組み合わせと関連付け第2結果組み合わせを互いに関連付ける。これにより、顔検出結果と動作部位検出結果が同一の人物に属するかどうかを判定し、更に、関連付け結果を得る。
【0060】
本願の幾つかの実施例において、胴体特徴シーケンス及び顔特徴シーケンスに基づいて、各第1結果組み合わせの胴体検出結果と顔検出結果を関連付け、各第1結果組み合わせに対応する第1サブ関連付け結果を得るステップS1042の具体的な実現プロセスは、S1042a-S1042bを含んでもよい。
【0061】
S1042aにおいて、1つの第1結果組み合わせにおける顔検出結果に対応する顔特徴シーケンス及び該第1結果組み合わせにおける胴体検出結果に対応する胴体特徴シーケンスに基づいて、スプライシングを行い、該第1結果組み合わせに対応する第1組み合わせ特徴を得る。
【0062】
1つの第1結果組み合わせにおける胴体検出結果と顔検出結果を関連付ける場合、まず、該第1結果組み合わせにおける胴体検出結果に対応する胴体特徴シーケンスと顔検出結果に対応する顔特徴シーケンスをスプライシングし、得られたスプライシング結果を第1組み合わせ特徴とする。従って、第1組み合わせ特徴と第1結果組み合わせは、一対一に対応する。
【0063】
勿論、胴体特徴シーケンスと顔特徴シーケンスを首尾で接続することでスプライシングしてもよい。これにより得られた第1組み合わせ特徴は、一次元特徴シーケンスである。又は、胴体特徴シーケンス及び顔特徴シーケンスをそれぞれ行列要素としてスプライシングを行い、特徴行列を得る。この場合、第1組み合わせ特徴は、生成された特徴行列である。勿論、他の方式により、胴体特徴シーケンスと顔特徴シーケンスをスプライシングし、第1組み合わせ特徴を得ることもできる。本願の実施例は、これを限定するものではない。
【0064】
S1042bにおいて、各第1結果組み合わせに対応する第1組み合わせ特徴を利用して各个第1結果組み合わせに対して分類を行い、各第1結果組み合わせに対応する第1サブ関連付け結果を得る。
【0065】
つまり、組み合わせ特徴を分類するための所定の分類モデルを利用して、各第1結果組み合わせに対応する第1組み合わせ特徴を所定の分類モデルに入力し、分類を行い、最後に、所定の分類モデルから出力された結果を第1サブ関連付け結果とする。
【0066】
所定の分類モデルから出力された結果は、2つのタイプのみであることに留意されたい。1つは、関連付けたことである。これは、第1結果組み合わせにおける胴体と顔が関連付けられていることを表す。もう1つは、関連付けられていないことである。これは、第1結果組み合わせにおける胴体と顔が関連付けられていないことを表す。
【0067】
本願の幾つかの実施例において、所定の分類モデルから出力された結果は、具体的な数値で表されてもよい。例えば、第1結果組み合わせにおける胴体と顔が関連づけられていることを1で表す。第1結果組み合わせにおける胴体と顔が関連付けられていないことを0で表す。
【0068】
所定の分類モデルは、大量の組み合わせ特徴シーケンスを訓練データとして、これらの組み合わせ特徴シーケンスの関連付け結果を監督要素とすることで訓練された二値分類モデルであることが理解されるべきである。所定の分類モデルは、多層パーセプトロンであってもよく、他のモデルであってもよく、本願の実施例は、これを限定するものではない。
【0069】
本願の実施例において、各第1結果組み合わせにおける胴体特徴シーケンスと顔特徴シーケンスをスプライシングし、各第1結果組み合わせに対応する第1組み合わせ特徴を得る。更に、所定の分類モデルを利用して、第1組み合わせ特徴に基づいて、第1結果組み合わせを分類し、各第1結果組み合わせに対応する第1サブ関連付け結果を得る。これにより、胴体検出結果と顔検出結果が関連付けられているかどうかを判定し、第1サブ関連付け結果を得ることができる。
【0070】
本願の幾つかの実施例において、胴体特徴シーケンス及び動作部位特徴シーケンスに基づいて、各第2結果組み合わせの胴体検出結果と動作部位検出結果を関連付け、各第2結果組み合わせに対応する第2サブ関連付け結果を得るステップS1043の具体的な実現プロセスは、S1043a-S1043bを含んでもよい。
【0071】
S1043aにおいて、1つの第2結果組み合わせにおける胴体検出結果に対応する胴体特徴シーケンス及び該第2結果組み合わせにおける動作部位検出結果に対応する動作部位特徴シーケンスに基づいて、スプライシングを行い、該第2結果組み合わせに対応する第2組み合わせ特徴を得る。
【0072】
実際の適用において、首尾スプライシング又はスプライシング行列の方式により、1つの第2結果組み合わせにおける胴体特徴シーケンスと動作部位特徴シーケンスをスプライシングし、得られたスプライシング結果を該第2結果組み合わせに対応する第2組み合わせ特徴とする。各第2結果組み合わせにおける胴体特徴シーケンス及び動作部位特徴シーケンスに対して上記操作を行い、各第2結果組み合わせに対応する第2組み合わせ特徴を得る。
【0073】
胴体特徴シーケンスと顔特徴シーケンスとのスプライシング方式と同様な方式で、胴体特徴シーケンスと動作部位特徴シーケンスをスプライシングしてもよく、胴体特徴シーケンスと顔特徴シーケンスとのスプライシング方式と異なる方式で、胴体特徴シーケンスと動作部位特徴シーケンスをスプライシングしてもよいことに留意されたい。
【0074】
S1043bにおいて、各第2結果組み合わせに対応する第2組み合わせ特徴を利用して各第2結果組み合わせを分類し、各第2結果組み合わせの第2サブ関連付け結果を得る。
【0075】
続いて、第2組み合わせ特徴を所定の分類モデルに入力して分類演算を行い、所定の分類モデルから出力された演算結果を第2結果組み合わせに対応する第2サブ関連付け結果とする。これにより、第2結果組み合わせにおける胴体検出結果と動作部位検出結果との関連付けプロセスを完了する。
【0076】
本願の実施例において、各第2結果組み合わせにおける胴体特徴シーケンスと動作部位特徴シーケンスをスプライシングして第2組み合わせ特徴を得て、所定の分類モデルを利用して第2組み合わせ特徴を分類し、各第2結果組み合わせに対応する第2サブ関連付け結果を得る。これにより、第2結果組み合わせにおける胴体検出結果と動作部位検出結果が関連付けられているかどうかを判定することができる。
【0077】
本願の実施例による画像認識方法を示す1つの任意選択的な第3フローチャートである
図4に示すように、本願の幾つかの実施例において、各胴体検出結果、各顔検出結果及び各動作部位検出結果に対してそれぞれ特徴抽出を行い、各胴体検出結果に対応する胴体特徴シーケンス、各顔検出結果に対応する顔特徴シーケンス及び各動作部位検出結果に対応する動作部位特徴シーケンスを得るステップS1041の具体的な実現プロセスは、S1041a-S1041cを含んでもよい。
【0078】
S1041aにおいて、各胴体検出結果における胴体画像、各顔検出結果における顔画像及び各動作部位検出結果における動作部位画像に対してそれぞれ特徴抽出を行い、各胴体検出結果の胴体外観特徴、各顔検出結果の顔外観特徴及び各動作部位検出結果の動作部位外観特徴を得る。
【0079】
各胴体検出結果、各顔検出結果及び各動作部位検出結果に対して特徴抽出を行う場合、まず、各胴体検出結果における胴体画像を切り出し、各顔検出結果における顔画像を切り出し、各動作部位検出結果における動作部位画像を切り出し、続いて、これらの胴体画像、顔画像及び動作部位画像に対して特徴抽出を行い、胴体画像に対応する胴体外観特徴、顔画像に対応する顔外観特徴及び動作部位画像に対応する動作部位外観特徴をそれぞれ得る。
【0080】
本願の実施例において、認識されるべき画像の特徴マップから、胴体外観特徴、顔外観特徴及び動作部位外観特徴をそれぞれ得ることができ、他の外観特徴抽出アルゴリズムを利用して、胴体画像、顔画像及び動作部位画像から、胴体外観特徴、顔外観特徴及び動作部位外観特徴をそれぞれ得ることもできることが理解されるべきである。外観特徴を得るための具体的な方法は、実際の状況に応じて設定されてもよく、本願の実施例は、これを限定するものではない。
【0081】
本願の実施例において、各胴体検出結果における胴体画像、各顔検出結果における顔画像及び各動作部位検出結果における動作部位画像に対していずれも特徴抽出を行うため、得られた胴体外観特徴の数は、胴体検出結果の数と同じである。同様に、顔外観特徴の数は、顔検出結果の数と同じであり、動作部位外観特徴の数は、動作部位検出結果の数と同じである。
【0082】
本願の実施例において、得られた胴体外観特徴、顔外観特徴及び動作部位外観特徴は、一次元特徴ベクトルであってもよく、他の態様の特徴であってもよく、本願の実施例は、これを限定するものではない。
【0083】
S1041bにおいて、各胴体検出結果における胴体検出枠の座標情報に基づいて、各胴体検出結果の胴体位置特徴を決定し、各顔検出結果における顔検出枠の座標情報に基づいて、各顔検出結果の顔位置特徴を決定し、各動作部位検出結果における動作部位検出枠の座標情報に基づいて、各動作部位検出結果の動作部位位置特徴を決定する。
【0084】
認識されるべき画像から、各胴体検出結果における胴体検出枠の座標情報を取得し、続いて、胴体検出枠の座標情報に基づいて、各胴体検出結果に対応する胴体位置特徴を構築する。同様に、認識されるべき画像から、各顔検出結果における顔検出枠の座標情報、及び各動作部位検出結果における動作部位検出枠の座標情報を取得し、これらの座標情報に基づいて、各顔検出結果に対応する顔位置特徴及び各動作部位検出結果に対応する動作部位位置特徴を構築する。
【0085】
本願の実施例において、得られた胴体位置特徴の数は、胴体検出結果の数と同じであり、得られた顔位置特徴の数は、顔検出結果の数と同じであり、得られた動作部位位置特徴の数は、動作部位検出結果の数と同じであることが理解されるべきである。
【0086】
本願の幾つかの実施例において、直接的に座標情報を利用して位置特徴を構築することができる。更に、まず、座標情報を利用して、検出領域の高さ、幅、面積などのパラメータを算出し、これらのパラメータを利用して位置特徴を構築することもできる。本願の実施例は、これを限定するものではない。
【0087】
S1041cにおいて、各胴体検出結果の胴体外観特徴と胴体位置特徴をスプライシングし、各胴体検出結果の胴体特徴シーケンスを得、各顔検出結果の顔外観特徴と顔位置特徴をスプライシングし、各顔検出結果の顔特徴シーケンスを得、各動作部位検出結果の動作部位外観特徴と動作部位位置特徴をスプライシングし、各動作部位検出結果の動作部位特徴シーケンスを得る。
【0088】
胴体外観特徴の数及び胴体位置特徴の数は、いずれも胴体検出結果の数と同じであるため、得られた胴体特徴シーケンスの数は、必然的に胴体検出結果の数と同じである。同様に、顔特徴シーケンスの数は、顔検出結果の数と同じであり、動作部位特徴シーケンスの数は、動作部位検出結果の数と同じである。
【0089】
本願の実施例において、各胴体検出結果の胴体外観特徴、各顔検出結果の顔外観特徴及び各動作部位検出結果の動作部位外観特徴をそれぞれ抽出し、各胴体検出結果の胴体検出枠の座標情報、各顔検出結果の顔検出枠の座標情報、及び各動作部位検出結果の動作部位検出枠の座標情報に基づいて、胴体位置特徴、顔位置特徴及び動作部位位置特徴を生成する。最後に、これらの外観特徴と位置特徴をスプライシングし、各胴体検出結果の胴体特徴シーケンス、各顔検出結果の顔特徴シーケンス及び各動作部位検出結果の動作部位特徴シーケンスを得る。これにより、各胴体検出結果、各顔検出結果及び各動作部位検出結果に対する特徴抽出プロセスを完了する。
【0090】
本願の実施例による画像認識方法を示す1つの任意選択的な第4フローチャートである
図5に示すように、本願の幾つかの実施例において、各胴体検出結果における胴体検出枠の座標情報に基づいて、各胴体検出結果の胴体位置特徴を決定し、各顔検出結果における顔検出枠の座標情報に基づいて、各顔検出結果の顔位置特徴を決定し、各動作部位検出結果における動作部位検出枠の座標情報に基づいて、各動作部位検出結果の動作部位位置特徴を決定するステップS1041bの具体的な実現プロセスは、S201-S204を含んでもよい。
【0091】
S201において、各胴体検出枠の座標情報に基づいて、各胴体検出結果の胴体領域位置パラメータを生成し、各顔検出枠の座標情報に基づいて、各顔検出結果の顔領域位置パラメータを生成し、各動作部位検出枠の座標情報に基づいて、各動作部位検出結果の動作部位領域位置パラメータを生成する。
【0092】
本発明の幾つかの実施例において、1つの胴体検出結果の胴体領域位置パラメータは、該胴体検出結果における胴体検出枠の座標情報、該胴体検出結果における胴体検出枠の幅、高さ及び面積のうちの少なくとも1つを含む。1つの顔検出結果における顔領域位置パラメータは、該顔検出結果における顔検出枠の座標情報、該顔検出結果における顔検出枠の幅、高さ及び面積のうちの少なくとも1つを含む。同様に、1つの動作部位検出結果における動作部位領域位置パラメータは、該動作部位検出結果における動作部位検出枠の座標情報、該動作部位検出結果における動作部位検出枠の幅、高さ及び面積のうちの少なくとも1つを含む。
【0093】
続いて、取得された胴体検出枠の4つの座標情報を利用して、胴体検出枠の長さ、幅及び面積を算出する。続いて、胴体検出枠の4つの座標情報、胴体検出枠の長さ、胴体検出枠の幅及び胴体検出枠の面積から、1つ又は複数のパラメータを選択して胴体検出枠の位置パラメータとする。同様に、胴体検出領域位置パラメータと同様な方式で、顔領域位置パラメータ及び動作部位検出領域位置パラメータを得ることができる。
【0094】
S202において、所定の胴体シーケンスビット数、所定の胴体特徴構築モデル及び胴体特徴構築パラメータに基づいて、各胴体検出結果の胴体領域位置パラメータに応じて、各胴体検出結果の胴体位置シーケンスを構築し、各胴体検出結果の胴体位置シーケンスに応じて、各胴体検出結果の胴体位置特徴を生成し、胴体特徴構築パラメータは、所定の胴体シーケンスビット数に応じて生成される。
【0095】
つまり、所定の胴体シーケンスビット数に応じて、構築されるべき胴体の位置シーケンスの長さを決定し、更に、胴体の位置シーケンスの長さに応じて、胴体サブ構築パラメータを決定し、続いて、例えば、全ての偶数ビット、全ての奇数ビットなどのような、所定の胴体シーケンスビット数における幾つかの添え字を選び出し、続いて、これらのビット数の添え字及びサブ構築パラメータに応じて、胴体特徴構築パラメータを生成する。続いて、胴体特徴構築パラメータ及び胴体特徴構築モデルを利用して各胴体検出結果の胴体位置特徴を構築する。更に、胴体位置特徴を利用してスプライシングを行い、各胴体検出結果の胴体位置特徴を生成する。ここで、所定の胴体シーケンスビット数は、設定された胴体シーケンス添え字のビット数を指す。
【0096】
本願の実施例において、選び出された添え字を胴体サブ構築パラメータと比較することで、添え字の比を得て、続いて、添え字の比を指数として、胴体サブ構築パラメータの倍数を基数として、指数演算を行い、指数演算の結果を胴体特徴構築パラメータとすることができることに留意されたい。
【0097】
例示的に、本願の実施例は、胴体特徴構築パラメータの構築式を提供する。式(1)に示すとおりである。
(1)
ここで、
は、倍数であり、実際の状況に応じて設定してもよい。
は、胴体サブ構築パラメータであり、
は、所定の胴体シーケンスビット数における偶数ビットであり、
は、胴体特徴構築パラメータである。画像認識装置が所定の胴体シーケンスビット数を取得し、胴体の位置シーケンスの長さを決定した後、胴体の位置シーケンスの長さに応じて、胴体サブ構築パラメータ
を決定し、所定の胴体シーケンスビット数における全ての偶数ビット添え字を取得することができる。続いて、これらのパラメータを式(1)に代入し、胴体特徴構築パラメータを得る。
【0098】
本願の実施例において、所定の胴体シーケンスビット数は、実際の状況に応じて決定されたものであってもよく、本願の実施例は、これを限定するものではないことが理解されるべきである。例示的に、所定の胴体シーケンスビット数は、0,1,2,……,255であってもよく、この場合、計256個の添え字がある。所定の胴体シーケンスビット数は、1,2,……128であってもよく、この場合、計128個の添え字がある。
【0099】
画像認識装置が所定の胴体シーケンスビット数を取得した時、構築されるべき胴体の位置シーケンスは、実際に決まったものであることに留意されたい。構築される位置シーケンスの長さは、所定の胴体シーケンスビット数の最後の添え字に関わる。本願の実施例において、シーケンス添え字のビット数が0から始まる時、胴体の位置シーケンスの長さは、所定のシーケンスビット数の最後の添え字-1である。シーケンス添え字のビット数が1から始まる時、胴体の位置シーケンスの長さは、所定のシーケンスビット数の最後の添え字と同じである。更に、胴体の位置シーケンスの長さが決まった後、胴体特徴構築パラメータにおける胴体サブ構築パラメータも決まったものである。
【0100】
本願の幾つかの実施例において、胴体特徴構築パラメータにおける胴体サブ構築パラメータは、胴体の位置シーケンスと同じである。例えば、胴体の位置シーケンスの長さが256である場合、胴体のサブ構築パラメータも256である。胴体特徴構築パラメータにおける胴体サブ構築パラメータは、胴体の位置シーケンスの長さの半分であってもよい。例えば、胴体の位置シーケンスの長さが256である場合、胴体サブ構築パラメータは、128である。本願の実施例は、これを限定するものではない。
【0101】
胴体領域位置パラメータは、胴体検出枠の座標、長さ、幅及び面積のうちの少なくとも1つを含み、各胴体領域位置パラメータに対して位置シーケンスを構築するため、位置シーケンスの数は、領域位置パラメータの数と同じである。
【0102】
例示的に、胴体検出領域の4つの座標(胴体検出枠の4つの隅部の座標であってもよい)のみを胴体領域位置パラメータとした時、1つの胴体検出領域について、4つの位置シーケンスを得ることができる。また、該4つの位置シーケンスは、該4つの座標に一対一に対応する。4つの座標、高さ、幅及び面積を胴体領域位置パラメータとした時、1つの胴体検出領域について、7個の胴体位置シーケンスを得ることができる。また、該7個の位置シーケンスは、それぞれ4つの座標、高さ、幅及び面積に対応する。
【0103】
所定の胴体特徴構築モデルは、所定の胴体シーケンスビット数における各添え字ビット数に対して位置要素を構築するためのものである。所定の胴体特徴構築モデルは、コサイン構築モデルであってもよく、サイン構築モデルであってもよく、他の構築モデルであってもよく、本願の実施例は、これを限定するものではない。
【0104】
胴体位置シーケンスの数が胴体領域位置パラメータの数と同じであるため、胴体領域位置パラメータが1つだけである場合、胴体位置シーケンスも1つだけである。この場合、胴体位置シーケンスを直接的に胴体位置特徴とすることができる。胴体領域位置パラメータに複数のパラメータが含まれる場合、胴体位置シーケンスも複数である。この場合、複数の胴体位置シーケンスを首尾で接続することでスプライシングし、胴体位置特徴を得る。
【0105】
1つ又は複数の胴体位置シーケンスが得られたため、胴体位置特徴の長さは、胴体位置シーケンスの長さと位置シーケンスの数との積であることが理解されるべきである。
【0106】
S203において、所定の顔シーケンスビット数、所定の顔特徴構築モデル及び顔特徴構築パラメータに基づいて、各顔検出結果の顔領域位置パラメータに応じて、各顔検出結果の顔位置シーケンスを構築し、各顔検出結果の顔位置シーケンスに応じて、各顔検出結果の顔位置特徴を生成し、顔特徴構築パラメータは、所定の顔シーケンスビット数に応じて生成される。
【0107】
S204において、所定の動作部位シーケンスビット数、所定の動作部位特徴構築モデル及び動作部位特徴構築パラメータに基づいて、各動作部位検出結果の動作部位領域位置パラメータに応じて、各動作部位検出結果の動作部位位置シーケンスを構築し、各動作部位検出結果の動作部位位置シーケンスに応じて、各動作部位検出結果の動作部位位置特徴を生成し、動作部位特徴構築パラメータは、所定の動作部位シーケンスビット数に応じて生成される。
【0108】
S201と同様な方式で、各顔検出結果の顔位置特徴及び各動作部位検出結果の動作部位位置特徴を得ることができる。所定の胴体シーケンスビット数、所定の顔シーケンスビット数及び所定の動作部位シーケンスビット数は、同じであって異なってもよく、本発明の実施例はこれを限定するものではないことに留意されたい。
【0109】
本願の実施例において、胴体検出枠の座標情報、顔検出枠の座標情報及び動作部位検出枠の座標情報に基づいて、胴体領域位置パラメータ、顔領域位置パラメータ及び動作部位領域位置パラメータをそれぞれ生成し、これらの位置パラメータ、所定のシーケンスビット数、所定の特徴構築モデル及び生成された特徴構築パラメータに基づいて、胴体位置シーケンス、顔位置シーケンス及び動作部位位置シーケンスを得て、更に、胴体位置特徴、顔位置特徴及び動作部位位置特徴を得ることができる。これにより、胴体位置特徴、顔位置特徴及び動作部位位置特徴の生成を完了することができる。
【0110】
本願の幾つかの実施例において、所定のシーケンスビット数が偶数ビットである時、所定の特徴構築モデルは、サイン構築モデルであってもよい。前記位置シーケンスは、ステップS205-S208により決定される。具体的には以下のとおりである。
【0111】
S205において、各検出結果の領域位置パラメータを特徴構築パラメータと比較し、各検出結果の第1パラメータ比を得る。
【0112】
例示的に、本願の実施例は、第1パラメータ比の生成プロセスを提供する。式(2)に示すとおりである。
(2)
ここで、
は、領域位置パラメータであり、
は、算出された特徴構築パラメータであり、
は、第1パラメータ比である。各検出結果の領域位置パラメータを得て特徴構築パラメータを算出した後、これらのパラメータを式(2)に代入し、各検出結果の第1パラメータ比をそれぞれ得ることができる。
【0113】
1つの検出結果の領域位置パラメータに検出領域の座標、長さ、幅及び面積のうちの少なくとも1つが含まれるため、該検出結果の1つ又は複数の第1パラメータ比をそれぞれ決定することができ、またこれらの第1パラメータ比は、いずれも領域位置パラメータに対応することに留意されたい。
【0114】
S206において、サイン構築モデルを利用して各検出結果の第1パラメータ比に対して正弦値演算を行い、第1位置要素を得る。
【0115】
第1パラメータ比を得た後、所定のシーケンスビット数における各添え字に対して位置要素構築を行う。本願の実施例において、位置添え字が偶数である場合、即ち、所定のシーケンスビット数が偶数ビットである場合、第1パラメータ比をサイン構築モデルに代入し、正弦値演算を行い、得られた正弦値を第1位置要素とマークする。これにより、所定のシーケンスビット数における全ての偶数ビットの第1位置要素の演算を完了する。
【0116】
例示的に、本願の実施例は、偶数ビットでの第1位置要素の演算プロセスを提供する。式(3)に示すとおりである。
(3)
ここで、
は、第1パラメータ比であり、
は、所定のシーケンスビット数における偶数ビットであり、
は、算出された第1位置要素である。第1パラメータ比を得た後、第1パラメータ比を式(3)に代入し、第1位置要素を算出することができる。
【0117】
第1位置要素は、偶数ビットでの位置要素を指し、所定のシーケンスビット数において複数の偶数ビットが存在することがあるため、第1位置要素は、1つの要素を特に指すものではなく、全ての偶数ビットでの第1位置要素を広範に指すことに留意されたい。
【0118】
S207において、各検出結果の第1位置要素に基づいて、各検出結果の位置シーケンスを決定する。
【0119】
1つの検出結果に対して、該検出結果の第1位置要素を得た後、添え字の順番に応じて、該検出結果の全ての第1位置要素を配列して整合し、整合結果を該検出結果の位置シーケンスとする。
【0120】
S208において、所定のシーケンスビット数が所定の胴体シーケンスビット数である時、所定の特徴構築モデルは、所定の胴体特徴構築モデルであり、特徴構築パラメータは、胴体特徴構築パラメータであり、検出結果は、胴体検出結果であり、領域位置パラメータが胴体領域位置パラメータであり、位置シーケンスは、胴体位置シーケンスである。所定のシーケンスビット数が所定の顔シーケンスビット数である時、所定の特徴構築モデルは、所定の顔特徴構築モデルであり、特徴構築パラメータは、顔特徴構築パラメータであり、検出結果は、顔検出結果であり、領域位置パラメータは、顔領域位置パラメータであり、位置シーケンスは、顔位置シーケンスである。所定のシーケンスビット数が所定の動作部位シーケンスビット数である時、所定の特徴構築モデルは、所定の動作部位特徴構築モデルであり、特徴構築パラメータは、動作部位特徴構築パラメータであり、検出結果は、動作部位検出結果であり、領域位置パラメータは、動作部位領域位置パラメータであり、位置シーケンスは、動作部位位置シーケンスである。
【0121】
本願の実施例において、サイン構築モデルを利用して、所定のシーケンスビット数における偶数ビットに対して第1位置要素を生成し、第1位置要素を利用して位置シーケンスを得て、更に、位置特徴を得る。これにより、位置シーケンスを得るための方式で、胴体位置特徴、顔位置特徴及び動作部位位置特徴を構築することができる。
【0122】
本願の幾つかの実施例において、所定のシーケンスビット数が奇数ビットである場合、所定の特徴構築モデルは、コサイン構築モデルであってもよく、前記位置シーケンスは、ステップS209-S212により決定される。具体的には、以下のとおりである。
【0123】
S209において、各検出結果の領域位置パラメータを特徴構築パラメータと比較し、各検出結果の第2パラメータ比を得る。
【0124】
S210において、コサイン構築モデルを利用して各検出結果の第2パラメータ比に対して余弦値演算を行い、第2位置要素を得る。
【0125】
添え字が奇数である場合、即ち、所定のシーケンスビット数が奇数ビットである場合、第2パラメータ比をコサイン構築モデルに代入して演算を行い、得られた余弦値を第2位置要素とマークする。
【0126】
例示的に、本願の実施例は、奇数ビットでの第2位置要素の演算プロセスを提供する。式(4)に示すとおりである。
(4)
ここで、
は、第1パラメータ比であり、
は、所定のシーケンスビット数における奇数ビットを指す。
は、算出された第2位置要素である。第2パラメータ比を式(4)に代入し、第2位置要素を算出する。
【0127】
第1位置要素と同様に、第2位置要素は、1つの胴体位置要素を特に指すものではなく、全ての奇数ビットでの位置要素を広範に指すことが理解されるべきである。
【0128】
S211において、各検出結果の第2位置要素に基づいて、各検出結果の位置シーケンスを決定する。
【0129】
S212において、所定のシーケンスビット数が所定の胴体シーケンスビット数である時、所定の特徴構築モデルは、所定の胴体特徴構築モデルであり、特徴構築パラメータは、所定の胴体特徴構築パラメータであり、検出結果は、胴体検出結果であり、領域位置パラメータは、胴体領域位置パラメータであり、位置シーケンスは、胴体位置シーケンスである。
【0130】
所定のシーケンスビット数が所定の顔シーケンスビット数である時、所定の特徴構築モデルは、所定の顔特徴構築モデルであり、特徴構築パラメータは、所定の顔特徴構築パラメータであり、検出結果は、顔検出結果であり、領域位置パラメータは、顔領域位置パラメータであり、位置シーケンスは、顔位置シーケンスである。所定のシーケンスビット数が所定の動作部位シーケンスビット数である時、所定の特徴構築モデルは、所定の動作部位特徴構築モデルであり、特徴構築パラメータは、所定の動作部位特徴構築パラメータであり、検出結果は、動作部位検出結果であり、領域位置パラメータは、動作部位領域位置パラメータであり、位置シーケンスは、動作部位位置シーケンスである。
【0131】
本願の実施例において、コサイン構築モデルを利用して、所定のシーケンスビット数における奇数ビットに対して第2位置要素を生成し、第2位置要素を利用して位置シーケンスを得ることができる。これにより、画像認識装置は、位置シーケンスを得る方式で、胴体位置特徴、顔位置特徴及び動作部位位置特徴を構築する。
【0132】
本願の幾つかの実施例において、各胴体検出枠の座標情報に基づいて、各胴体検出結果の胴体領域位置パラメータを生成し、各顔検出枠の座標情報に基づいて、各顔検出結果の顔領域位置パラメータを生成し、各動作部位検出枠の座標情報に基づいて、各動作部位検出結果の動作部位領域位置パラメータを生成するステップS201の具体的な実現プロセスは、S2011-S2014を含んでもよい。
【0133】
S2011において、各胴体検出結果における胴体検出枠の座標情報に基づいて、各胴体検出結果における胴体検出枠の幅、高さ及び面積を算出し、各顔検出結果における顔検出枠の座標情報に基づいて、各顔検出結果における顔検出枠の幅、高さ及び面積を算出し、各動作部位検出結果における動作部位検出枠の座標情報に基づいて、各動作部位検出結果における動作部位検出枠の幅、高さ及び面積を算出する。
【0134】
胴体検出枠の左上隅の横軸座標と胴体検出枠の右上隅の横軸座標との差分値を求め、得られた差分値を胴体検出枠の幅とし、胴体検出枠の左下隅の縦軸座標と胴体検出枠の左上隅の縦軸座標との差分値を求め、得られた差分値を胴体検出枠の高さとする。最後に、幅と高さを乗算することで、胴体検出枠の面積を得る。また、胴体検出枠の幅を求めるための方法と同様な方法で、顔検出枠の幅及び動作部位検出枠の幅をそれぞれ求める。胴体検出枠の高さを求めるための方法と同様な方法で、顔検出枠の高さ及び動作部位検出枠の高さをそれぞれ求める。胴体検出枠の面積を求めるための方法と同様な方法で、顔検出枠の面積及び動作部位検出枠の面積をそれぞれ求める。
【0135】
例示的に、本願は、胴体検出枠の幅、高さ及び面積を示す概略図を提供する。
図6に示すように、
は、胴体検出枠の左上隅の座標であり、
は、胴体検出枠の右上隅の座標であり、
は、胴体検出枠の左下隅の座標であり、
は、胴体検出枠の右下隅の座標である。この場合、胴体検出枠の幅は、
であり、胴体検出枠の高さは、
である。従って、胴体検出枠の面積は、
である。
【0136】
S2012において、各胴体検出結果における胴体検出枠の座標情報、幅、高さ及び面積のうちの少なくとも1つを利用して、各胴体検出結果の胴体領域位置パラメータを構築する。
【0137】
各胴体検出結果における胴体検出枠の4つの座標、胴体検出枠の幅、胴体検出枠の高さ及び胴体検出枠の面積を得た後、これらのパラメータから、1つ又は複数のパラメータを選択して胴体領域位置パラメータとする。これにより、画像認識装置は、各胴体検出結果の胴体領域位置パラメータを得る。
【0138】
S2013において、各顔検出結果における顔検出領域の座標情報、幅、高さ及び面積のうちの少なくとも1つを利用して、各顔検出結果の顔領域位置パラメータを構築する。
【0139】
同様に、各顔検出結果の顔検出枠の4つの座標、顔検出枠の幅、顔検出枠の高さ及び顔検出枠の面積を得た後、これらのパラメータから1つ又は複数のパラメータを選択して各顔検出結果の顔領域位置パラメータとすることができる。
【0140】
S2014において、各動作部位検出結果における動作部位検出枠の座標情報、幅、高さ及び面積のうちの少なくとも1つを利用して、各動作部位検出結果の動作部位領域位置パラメータを構築する。
【0141】
同様に、各動作部位検出結果の動作部位検出枠の4つの座標、動作部位検出枠の幅、動作部位検出枠の高さ及び動作部位検出枠の面積のうちの1つ又は複数のパラメータを用いて各動作部位検出結果の動作部位領域位置パラメータとする。
【0142】
本願の実施例において、胴体検出枠の座標情報、顔検出枠の座標情報及び動作部位検出枠の座標情報を利用して、胴体検出領域位置パラメータ、顔検出領域位置パラメータ及び動作部位検出領域位置パラメータをそれぞれ得る。これにより、後続で、これらの位置パラメータを利用して位置シーケンスを得ることができる。
【0143】
本願の実施例による画像認識方法を示す1つの任意選択的な第5フローチャートである
図7に示すように、本願の幾つかの実施例において、各胴体検出結果における胴体画像、各顔検出結果における顔画像及び各動作部位検出結果における動作部位画像に対してそれぞれ外観特徴抽出を行い、各胴体検出結果の胴体外観特徴、各顔検出結果の顔外観特徴及び各動作部位検出結果の動作部位外観特徴を得るステップS1041aの具体的な実現プロセスは、S301-S304を含んでもよい。
【0144】
S301において、認識されるべき画像に対応する少なくとも1つの特徴マップを得る。
【0145】
特徴抽出を行う場合、まず、認識されるべき画像に対して領域検出を行う時に生成された特徴マップを抽出する必要がある。これにより、後続で、特徴マップから外観特徴を直接的に抽出することができる。画像認識装置は、領域検出を行う場合、認識されるべき画像を複数の異なるチャネルに入力して畳み込み演算を行う。ここで、1つのチャネルは、1つの畳み込みカーネルに対応する。1つの畳み込みカーネルは、1つの特徴マップを得ることができる。従って、画像認識装置は、少なくとも1つの特徴マップを得ることができる。特徴マップの数は、チャネルの数と同じである。
【0146】
例示的に、画像認識装置は、認識されるべき画像をそれぞれ64個のチャネルに入力して畳み込み演算を行う場合、64個の特徴マップを得ることができる。
【0147】
S302において、少なくとも1つの特徴マップのうちの各特徴マップから、各胴体検出結果の胴体特徴マップを取得し、各胴体検出結果の胴体特徴マップに対して領域分割を行い、少なくとも1つの胴体特徴サブ領域を得て、各胴体特徴サブ領域に対して最大値特徴抽出を行い、各胴体検出結果に対応する少なくとも1つの胴体外観サブ特徴を得て、各胴体検出結果に対応する少なくとも1つの胴体外観サブ特徴を利用して、各胴体検出結果の胴体外観特徴を構築する。
【0148】
つまり、各特徴マップから、各胴体検出結果の胴体画像に対応する画像コンテンツをそれぞれ取得し、各胴体検出結果の胴体特徴マップを得る。所定のサブ領域分割ルールに応じて、胴体特徴マップをそれぞれ複数の胴体特徴サブ領域に分割する。胴体特徴サブ領域に1つ又は複数の特徴画素が存在する可能性があるため、これらの特徴画素から最大の特徴画素を取り出して該胴体サブ領域に対応する胴体外観サブ特徴として、更に各胴体検出結果に対応する少なくとも1つの胴体外観サブ特徴を得る。1つの胴体外観サブ特徴を得た時、該胴体外観サブ特徴を直接的に胴体外観特徴とすることができる。複数の胴体外観サブ特徴をそれぞれ得た時、複数の胴体外観サブ特徴のうちの各胴体外観サブ特徴を首尾で接続することでスプライシングし、胴体外観特徴を得ることができる。
【0149】
特徴マップは、認識されるべき画像に対して畳み込みを行うことで得られたものであるため、特徴マップの寸法は、認識されるべき画像の寸法と異なることが理解されるべきである。従って、胴体検出枠の座標情報に対して寸法変換を行い、胴体マッピング枠の座標情報を得て、更に、胴体マッピング枠の座標情報に基づいて、胴体マッピング枠により囲まれた画像コンテンツを得て、該コンテンツを胴体特徴マップとする。
【0150】
胴体検出枠の座標情報に対して寸法変換を行った後、得られた胴体マッピング枠の座標情報は、浮動小数点数である可能性があることに留意されたい。この場合、直接的に、浮動小数点数の座標情報を利用して胴体特徴マップを取得することができる。浮動小数点数の座標情報を整数の座標情報に変換して胴体特徴マップを得ることもできる。
【0151】
本願の幾つかの実施例において、胴体サブ領域に対して引き続き分割を行い、胴体サブ領域の分割結果を得て、分割結果の中間位置の特徴画素を取得し、更に、これらの中間位置の特徴画素を比較し、最大の中間位置の特徴画素を胴体サブ領域に対応する胴体外観サブ特徴とすることもできることに留意されたい。ここで、胴体サブ領域の座標情報は、浮動小数点数であってもよいため、分割結果の中間位置は、浮動小数点数であってもよい。つまり、特徴マップにおいて、分割結果の中間位置に対応する特徴画素を直接的に見付けることができない。この場合、画像認識装置は、双線形差分法を利用して、分割結果の中間位置に近い特徴画素に基づいて、分割結果の中間位置の特徴画素を算出し、更に、胴体外観サブ特徴を得ることができる。
【0152】
S303において、少なくとも1つの特徴マップのうちの各特徴マップから、各顔検出結果の顔特徴マップを取得し、各顔検出結果の顔特徴マップに対して領域分割を行い、少なくとも1つの顔特徴サブ領域を得て、各顔特徴サブ領域に対して最大値特徴抽出を行い、各顔検出結果に対応する少なくとも1つの顔外観サブ特徴を得て、各顔検出結果に対応する少なくとも1つの顔外観サブ特徴を利用して各顔検出結果の顔外観特徴を構築する。
【0153】
S304において、少なくとも1つの特徴マップのうちの各特徴マップから、各動作部位検出結果の動作部位特徴マップを取得し、各動作部位検出結果の動作部位特徴マップに対して領域分割を行い、少なくとも1つの動作部位特徴サブ領域を得て、各動作部位特徴サブ領域に対して最大値特徴抽出を行い、各動作部位検出結果に対応する少なくとも1つの動作部位外観サブ特徴を得て、各動作部位検出結果に対応する少なくとも1つの動作部位外観サブ特徴を利用して各動作部位検出結果の動作部位外観特徴を構築する。
【0154】
S303及びS304の実現プロセスは、S302と類似し、本願の実施例は、ここで、詳細な説明を省略することに留意されたい。
【0155】
本願の実施例において、特徴マップから、各胴体検出結果の胴体画像に対応する胴体外観特徴、各顔検出結果における顔画像に対応する顔外観特徴、及び各動作部位検出結果における動作部位画像に対応する動作部位外観特徴を得る。これにより、後続で、これらの外観特徴に基づいて、胴体特徴シーケンス、顔特徴シーケンス及び動作部位特徴シーケンスをそれぞれ得る。
【0156】
本願の幾つかの実施例において、認識されるべき画像に対して検出を行い、少なくとも1つの胴体検出結果、少なくとも1つの顔検出結果及び少なくとも1つの動作部位検出結果を得るステップS101の具体的な実現プロセスは、S1011-S1014を含んでもよい。
【0157】
S1011において、所定の検出領域生成ルールに応じて、認識されるべき画像に対して少なくとも1つの候補検出枠を生成する。
【0158】
認識されるべき画像に対して検出を行う場合、まず、事前記憶された所定の検出領域生成ルールに応じて、認識されるべき画像に対して複数の候補検出枠を生成する。これにより、画像認識装置が認識されるべき画像を複数のサイズの異なる画像ブロックに分割すると認められる。
【0159】
所定の検出領域生成ルールは、1つの初期検出枠に対してスケール変換を行い、複数の検出枠を得るためのルールであってもよく、例えば、スライドウィンドウ生成などのような他の検出枠生成ルールであってもよく、本願の実施例は、これを具体的に限定するものではないことが理解されるべきである。
【0160】
S1012において、少なくとも1つの候補検出枠のうちの各候補検出枠により囲まれた画像に対して、胴体確率を算出し、胴体確率及び所定の重なり度合い閾値に基づいて、少なくとも1つの候補検出枠から、少なくとも1つの胴体検出枠を選択し、更に、少なくとも1つの胴体検出結果を得る。
【0161】
各候補検出枠における画像コンテンツを抽出し、続いて、事前記憶された検出モデルを利用して、各画像コンテンツに対して認識を行い、各画像コンテンツがそれぞれ胴体画像である確率を得る。つまり、胴体確率を得る。各画像コンテンツの胴体確率及び所定の重なり度合い閾値に基づいて、全ての候補検出枠から、胴体検出枠を見出し、胴体検出枠における胴体画像と組み合わせて、胴体検出結果を得ることで、少なくとも1つの胴体検出結果を得る。
【0162】
S1013において、少なくとも1つの候補検出枠のうちの各候補検出枠により囲まれた画像に対して、顔確率を算出し、顔確率及び所定の重なり度合い閾値に基づいて、少なくとも1つの候補検出枠から、少なくとも1つの顔検出枠を選択し、更に、少なくとも1つの顔検出結果を得る。
【0163】
S1014において、少なくとも1つの候補検出枠のうちの各候補検出枠により囲まれた画像に対して、動作部位確率を算出し、動作部位確率及び所定の重なり度合い閾値に基づいて、少なくとも1つの候補検出枠から、少なくとも1つの動作部位検出枠を選択し、更に、少なくとも1つの動作部位検出結果を得る。
【0164】
所定の重なり度合い閾値は、距離が近い複数の検出枠から、1つの検出枠を選択するためのものである。つまり、得られた少なくとも1つの胴体検出枠は、検出枠選別操作を行うことで得られたものである。従って、候補検出枠の数は、胴体検出結果の数、顔検出結果の数及び動作部位検出結果の数の和以上である。
【0165】
本願の実施例において、認識されるべき画像における全ての候補検出枠により囲まれた画像コンテンツに対して認識を行い、胴体確率、顔確率及び動作部位確率を得る。更にこれらの確率に基づいて、少なくとも1つの胴体検出結果、少なくとも1つの顔検出結果及び少なくとも1つの動作部位検出結果を得る。これにより、後続で、少なくとも1つの胴体検出結果、少なくとも1つの顔検出結果及び少なくとも1つの動作部位検出結果を組み合わせることができる。
【0166】
本願の幾つかの実施例において、S1011における所定の検出領域生成ルールは、S1011a-S1011bを含んでもよい。
【0167】
S1011aにおいて、所定の初期寸法に応じて、初期検出枠を生成する。
【0168】
S1011bにおいて、初期検出枠に対してスケール変換及び伸張変換を行い、少なくとも1つの候補検出枠を得る。
【0169】
つまり、まず、所定の初期寸法の検出枠を生成し、該検出枠を初期検出枠とする。続いて、初期検出枠のスケールを変換し、複数の候補検出枠を得る。それと同時に、初期検出枠の面積を不変のまま確保する上で、初期検出枠の幅及び高さに対して伸張を行い、引き続き、候補検出枠を得る。これにより、所定の検出枠生成ルールに応じて、更に少なくとも1つの候補検出枠を得ることができる。
【0170】
本願の実施例において、所定の初期寸法に応じて初期検出枠を生成する。続いて、初期検出枠に対して変換を行い、少なくとも1つの候補検出枠を得る。これにより、画像認識装置は、少なくとも1つの候補検出枠により画像コンテンツを囲み、これらの画像コンテンツの胴体確率、顔確率及び動作部位確率を算出し、更に、少なくとも1つの胴体検出結果、少なくとも1つの顔検出結果及び少なくとも1つの動作部位検出結果を得ることができる。
【0171】
本願の幾つかの実施例において、胴体確率、顔確率、動作部位確率及び所定の重なり度合い閾値に基づいて、少なくとも1つの候補検出枠から、少なくとも1つの胴体検出枠、少なくとも1つの顔検出枠及び少なくとも1つの動作部位検出枠を選択し、更に、少なくとも1つの胴体検出結果、少なくとも1つの顔検出結果及び少なくとも1つの動作部位検出結果を得るステップS1013の具体的な実現プロセスは、S1013a-S1013gを含んでもよい。
【0172】
S1013aにおいて、胴体確率、顔確率及び動作部位確率に基づいて、少なくとも1つの候補検出枠から少なくとも1つの一時的胴体検出領域、少なくとも1つの一時的顔検出領域及び少なくとも1つの一時的動作部位検出領域をそれぞれ選択する。
【0173】
各候補検出枠はいずれも胴体確率、顔確率及び動作部位確率という3つの確率に対応する。この場合、各候補検出枠の胴体確率、顔確率及び動作部位確率を比較する。胴体確率が最も大きいと、該候補検出枠は、一時的胴体検出枠である。顔確率が最も大きいと、該候補検出枠は、一時的顔検出枠である。動作部位確率が最も大きいと、該候補検出枠は、一時的動作部位検出枠である。これにより、各候補検出枠胴体確率、顔確率及び動作部位確率を比較した後、少なくとも1つの一時的胴体検出枠、少なくとも1つの一時的顔検出枠及び少なくとも1つの一時的動作部位検出枠を得ることができる。
【0174】
S1013bにおいて、胴体確率が最も大きい一時的胴体検出枠を第1胴体検出枠とし、第1胴体検出枠及び第1胴体検出枠により囲まれた胴体画像を利用して、第1胴体検出結果を構成し、少なくとも1つの一時的胴体検出枠から、第1胴体検出枠との重なり度合いが所定の重なり度合い閾値より大きい一時的胴体検出枠を削除し、少なくとも1つの中間胴体検出枠を得て、少なくとも1つの中間胴体検出枠を少なくとも1つの一時的胴体検出枠とし、上記プロセスを引き続き実行し、少なくとも1つの胴体検出結果を得るまで継続する。
【0175】
つまり、全ての一時的胴体検出枠の胴体確率を比較し、胴体確率が最も大きい一時的胴体検出枠を選択して第1胴体検出枠とする。それと同時に、第1胴体検出枠及び第1胴体検出枠により囲まれた胴体画像を利用して、第1胴体検出結果を構成する。この場合、画像認識装置は、1つの胴体検出結果を得る。画像認識装置は、第1胴体検出枠と少なくとも1つの一時的胴体検出枠のうちの他の一時的検出枠との重なり度合いを算出し、重なり度合いが所定の重なり度合い閾値より大きいと、画像認識装置は、一時的検出枠が第一胴体検出枠に近く、それにより囲まれた胴体画像と第1胴体検出枠により囲まれた胴体画像との重なり度合いが高い可能性があると認める。この場合、該一時的検出枠を削除することができる。重なり度合いが所定の重なり度合い閾値より大きい全ての一時的胴体検出枠を削除した後、少なくとも1つの中間胴体検出枠を得ることができる。
【0176】
上記プロセスを実行した後、1つの胴体検出結果が得られ、該胴体検出枠に近い検出枠が削除された。この場合、引き続き少なくとも1つの中間胴体検出枠を少なくとも1つの一時的胴体検出枠として、上記プロセスを継続し、このように繰り返して実行すると、少なくとも1つの胴体検出結果を得ることができる。
【0177】
S1013cにおいて、顔確率が最も大きい一時的胴体検出枠を第1顔検出枠とし、第1顔検出枠及び第1顔検出枠により囲まれた顔画像を利用して、第1顔検出結果を構成し、少なくとも1つの一時的顔検出枠から、第1顔検出枠との重なり度合いが所定の重なり度合い閾値より大きい一時的顔検出枠を削除し、少なくとも1つの中間顔検出枠を得て、少なくとも1つの中間顔検出枠を少なくとも1つの一時的顔検出枠とし、上記プロセスを引き続き実行し、少なくとも1つの顔検出結果を得るまで継続する。
【0178】
S1013dにおいて、動作部位確率が最も大きい一時的動作部位検出枠を第1動作部位検出枠とし、第1動作部位検出枠及び第1動作部位検出枠により囲まれた動作部位画像を利用して、第1動作部位検出結果を構成し、少なくとも1つの一時的動作部位検出枠から、第1動作部位検出枠との重なり度合いが所定の重なり度合い閾値より大きい一時的動作部位検出枠を削除し、少なくとも1つの中間動作部位検出枠を得て、少なくとも1つの中間動作部位検出枠を少なくとも1つの一時的動作部位検出枠とし、上記プロセスを引き続き実行し、少なくとも1つの動作部位検出結果を得るまで継続する。
【0179】
S1013c及びS1013dの実現プロセスは、S1013bと類似し、本願の実施例は、ここで、詳細な説明を省略することに留意されたい。
【0180】
本願の実施例において、まず、少なくとも1つの一時的胴体検出枠から第1胴体検出枠を選択し、第1胴体検出結果を得、少なくとも1つの一時的顔検出枠から第1顔検出枠を選択し、第1顔検出結果を得て、少なくとも1つの一時的動作部位検出枠から第1動作部位検出枠を選択し、第1動作部位検出結果を得て、第1胴体検出枠、第1顔検出枠及び第1動作部位検出枠に近い検出枠をそれぞれ削除し、このように繰り返して実行することで、少なくとも1つの胴体検出結果、少なくとも1つの顔検出結果及び少なくとも1つの動作部位検出結果を得ることができる。
【0181】
以下、実際の適用シーンにおける画像認識プロセスを例として、本願の実施例で提供される画像認識方法を説明する。本願の実施例は、
図1で提供される実際の適用シーンを例として、画像認識方法に含まれるプロセスを説明する。
【0182】
S401において、畳み込みニューラルネットワークモデルを利用して実際の適用シーンの画像における胴体検出結果、顔検出結果及び動作部位検出結果を検出する。
【0183】
この場合、これらの胴体、顔及び動作部位間の関係が知られていないことに留意されたい。
【0184】
S402において、実際の適用シーンの画像の64個の特徴マップを取得する。
【0185】
S403において、S401で得られた胴体画像、顔画像及び動作部位画像を64個の特徴マップにマッピングし、胴体画像に対応する64個の胴体特徴マップ、顔画像に対応する64個の顔特徴マップ及び動作部位画像に対応する64個の動作部位特徴マップを得る。
【0186】
S404において、各胴体特徴マップを49個の胴体特徴サブ領域に分割し、各顔特徴マップを49個の顔特徴サブ領域に分割し、各動作部位特徴マップを49個の動作部位特徴サブ領域に分割する。
【0187】
画像認識装置は、計64×49=3136個の胴体特徴サブ領域、64×49=3136個の顔特徴サブ領域及び64×49=3136個の動作部位特徴サブ領域を得ることができる。
【0188】
S405において、各胴体特徴サブ領域の胴体外観サブ特徴、各顔特徴サブ領域の顔外観サブ特徴、動作部位特徴サブ領域の動作部位外観サブ特徴をそれぞれ抽出する。
【0189】
画像認識装置は、1つの特徴サブ領域に対して1つの外観サブ特徴を抽出する。これにより、3136個の胴体外観サブ特徴、3136個の顔外観サブ特徴及び3136個の動作部位外観サブ特徴を得ることができる。
【0190】
S405において、胴体外観サブ特徴、顔外観サブ特徴及び動作部位外観サブ特徴に基づいて、胴体外観特徴、顔外観特徴及び動作部位外観特徴をそれぞれ得る。
【0191】
実際の適用において、各外観サブ特徴を0~9の間に量子化することができる。これにより、得られた胴体外観特徴、顔外観特徴及び動作部位外観特徴は、いずれも、長さが3136である一次元特徴ベクトルである。
【0192】
S406において、胴体検出領域、顔検出領域及び動作部位検出領域の座標を利用して、胴体検出領域の幅、高さ及び面積、顔検出領域の幅、高さ及び面積、動作部位検出領域の幅、高さ及び面積をそれぞれ求める。
【0193】
1つの検出領域の座標を(x1,y1,x2,y2)とする。ここで、x1は、検出領域の左上隅の横軸座標であり、y1は、検出領域の左上隅の縦軸座標であり、x2は、検出領域の右下隅の横軸座標であり、y2は、検出領域の右下隅の縦軸座標である。続いて、該4つの座標に基づいて、検出領域の寛度x2-x1を求め、検出領域の高度y2-y1を求め、検出領域の面積(x2-x2)×(y2-y1)を求める。画像認識装置は、幅、高さを求めた後、幅を利用してx1及びx2に対して正規化を行い、高さを利用してy1及びy2に対して正規化を行うことで、正規化された座標を得る。続いて、正規化された座標を利用して、検出領域に対応する正規化幅、正規化高さ及び正規化面積を求める。
【0194】
S407において、胴体検出領域の座標、幅、高さ及び面積を胴体領域位置パラメータとし、顔検出領域の座標、幅、高さ及び面積を顔領域位置パラメータとし、動作部位検出領域の座標、幅、高さ及び面積を動作部位領域位置パラメータとする。
【0195】
S408において、胴体領域位置パラメータにおける各パラメータ、顔領域位置パラメータにおける各パラメータ、動作部位領域位置パラメータにおける各パラメータに対して、長さが256である位置シーケンスを構築する。
【0196】
0,1,2,……,255を選択して所定のシーケンスビット数とし、長さが256であるシーケンスを構築する。ここで、所定の特徴構築モデルは、それぞれ式(5)及び式(6)に示すとおりである。
(5)
(6)
ここで、
は、位置パラメータであり、
は、偶数ビットであり、
は、偶数ビットでの位置要素であり、
は奇数ビットでの位置要素である。
【0197】
S409において、胴体領域位置パラメータにおける各パラメータの長さ256の位置シーケンスをスプライシングし、長さ1792の胴体位置特徴を得て、顔領域位置パラメータにおける各パラメータの長さ256の位置シーケンスをスプライシングし、長さ1792の顔位置特徴を得て、動作部位領域位置パラメータにおける各パラメータの長さ256の位置シーケンスをスプライシングし、長さ1792の動作部位位置特徴を得る。
【0198】
S410において、長さ1792の胴体位置特徴と長さ3136の胴体外観特徴をスプライシングし、長さ4928の胴体特徴シーケンスを得、長さ1792の顔位置特徴と長さ3136の顔外観特徴をスプライシングし、長さ4928の顔特徴シーケンスを得、長さ1792の動作部位位置特徴と長さ3136の動作部位外観特徴をスプライシングし、長さ4928の動作部位特徴シーケンスを得る。
【0199】
S411において、少なくとも1つの胴体検出結果と少なくとも1つの顔検出結果を2つずつ組み合わせ、少なくとも1つの第1結果組み合わせを得て、少なくとも1つの胴体検出結果と少なくとも1つの動作部位検出結果を2つずつ組み合わせ、少なくとも1つの第2結果組み合わせを得る。
【0200】
S412において、各第1結果組み合わせにおける長さ4928の胴体特徴シーケンスと長さ4928の顔特徴シーケンスをスプライシングし、長さ9856の第1組み合わせ特徴を得て、多層パーセプトロンにより、第1組み合わせ特徴に対して二値分類を行い、各第1結果組み合わせに対応する第1サブ関連付け結果を得る。
【0201】
つまり、各第1結果組み合わせにおける胴体検出結果と顔検出結果が同一の人物に属するかどうかを判定する。
【0202】
S413において、各第2結果組み合わせにおける長さ4928の胴体特徴シーケンスと長さ4928の動作部位特徴シーケンスをスプライシングし、長さ9856の第2組み合わせ特徴を得て、多層パーセプトロンにより、第2組み合わせ特徴に対して二値分類を行い、各第2結果組み合わせに対応する第2サブ関連付け結果を得る。
【0203】
つまり、各第2結果組み合わせにおける胴体検出結果と動作部位検出結果が同一の人物に属するかどうかを判定する。
【0204】
S414において、第1サブ関連付け結果及び第2サブ関連付け結果を利用して、顔検出結果と動作部位検出結果が同一の人物に属するかどうかを判定し、画像認識プロセスを完了する。
【0205】
第1サブ関連付け結果が、胴体検出結果と顔検出結果が同一の人物に属することであり、且つ第2サブ関連付け結果が、胴体検出結果と動作部位検出結果が同一の人物に属することである場合、顔検出結果と動作部位検出結果が関連付けられている。そうでなければ、顔検出結果と動作部位検出結果は、関連付けられていない。
【0206】
上記方式により、胴体検出結果と顔検出結果との関係、及び胴体検出結果と動作部位検出結果との関係を判定することができる。これにより、胴体検出結果を利用して、顔検出結果と動作部位検出結果とを関連付けることで、顔及び動作部位の判定難度を低下させると共に、画像における人体のキーポイント情報を失うことがなく、顔と動作部位との関連付けの正確度を向上させる。
【0207】
本願の実施例は、画像認識装置を提供する。該装置は、画像認識方法に対応する。本願の実施例による画像認識装置の構造を示す第1概略図である
図8に示すように、本願の実施例で提供される画像認識装置300は、
認識されるべき画像に対して画像検出を行い、少なくとも1つの顔検出結果、少なくとも1つの動作部位検出結果及び少なくとも1つの胴体検出結果を得るように構成される検出モジュールであって、1つの顔検出結果に、1つの顔検出用検出枠が含まれ、1つの動作部位検出結果に、1つの動作部位検出枠が含まれ、1つの胴体検出結果に、1つの胴体検出枠が含まれる、検出モジュール310と、
前記少なくとも1つの胴体検出結果のうちの各胴体検出結果をそれぞれ、各顔検出結果と組み合わせ、少なくとも1つの第1結果組み合わせを得て、前記各胴体検出結果をそれぞれ、各動作部位検出結果と組み合わせ、少なくとも1つの第2結果組み合わせを得るように構成される組み合わせモジュール320と、
前記少なくとも1つの第1結果組み合わせと前記少なくとも1つの第2結果組み合わせを関連付け、関連付け結果を得るように構成される関連付けモジュール330と、を備える。
【0208】
本願の幾つかの実施例において、前記関連付けモジュール330は具体的には、前記各胴体検出結果、各顔検出結果及び各動作部位検出結果に対してそれぞれ特徴抽出を行い、各胴体検出結果に対応する胴体特徴に対応する胴体特徴シーケンス、各顔検出結果に対応する顔特徴シーケンス及び各動作部位検出結果に対応する動作部位特徴シーケンスを得、前記胴体特徴シーケンス及び前記顔特徴シーケンスに基づいて、各第1結果組み合わせの胴体検出結果と顔検出結果を関連付け、各第1結果組み合わせに対応する第1サブ関連付け結果を得て、前記胴体特徴シーケンス及び前記動作部位特徴シーケンスに基づいて、各第2結果組み合わせの胴体検出結果と動作部位検出結果を関連付け、各第2結果組み合わせに対応する少なくとも1つの第2サブ関連付け結果を得て、各第1サブ関連付け結果及び各第2サブ関連付け結果に基づいて、前記関連付け結果を決定するように構成される。
【0209】
本願の幾つかの実施例において、前記関連付けモジュール330は具体的には、各第1サブ関連付け結果に基づいて、少なくとも1つの第1結果組み合わせにおける胴体検出結果と顔検出結果が関連付けられている関連付け第1結果組み合わせを決定し、各第2サブ関連付け結果に基づいて、前記少なくとも1つの第2結果組み合わせにおける胴体検出結果と動作部位検出結果が関連付けられている関連付け第2結果組み合わせを決定し、同一の胴体検出結果を有する関連付け第1結果組み合わせと関連付け第2結果組み合わせが関連づけられていると決定するように構成され、1つの関連付け第1結果組み合わせにおける顔検出結果で表される顔は、それに関連付けられている関連付け第2結果組み合わせにおける動作部位検出結果で表される動作部位に互いに関連付けられている。
【0210】
本願の幾つかの実施例において、前記関連付けモジュール330は具体的には、1つの第1結果組み合わせにおける顔検出結果に対応する顔特徴シーケンス及び該第1結果組み合わせにおける胴体検出結果に対応する胴体特徴シーケンスに基づいて、スプライシングを行い、該第1結果組み合わせに対応する第1組み合わせ特徴を得て、各第1結果組み合わせに対応する第1組み合わせ特徴を利用して各个第1結果組み合わせに対して分類を行い、各第1結果組み合わせに対応する第1サブ関連付け結果を得るように構成される。
【0211】
本願の幾つかの実施例において、前記関連付けモジュール330は具体的には、1つの第2結果組み合わせにおける胴体検出結果に対応する胴体特徴シーケンス及び該第2結果組み合わせにおける動作部位検出結果に対応する動作部位特徴シーケンスに基づいて、スプライシングを行い、該第2結果組み合わせに対応する第2組み合わせ特徴を得て、各第2結果組み合わせに対応する第2組み合わせ特徴を利用して各第2結果組み合わせを分類し、各第2結果組み合わせの第2サブ関連付け結果を得るように構成される。
【0212】
本願の幾つかの実施例において、前記関連付けモジュール330は具体的には、前記各胴体検出結果における胴体画像、前記各顔検出結果における顔画像及び前記各動作部位検出結果における動作部位画像に対してそれぞれ特徴抽出を行い、各胴体検出結果の胴体外観特徴、各顔検出結果の顔外観特徴及び各動作部位検出結果の動作部位外観特徴を得て、各胴体検出結果における胴体検出枠の座標情報に基づいて、各胴体検出結果の胴体位置特徴を決定し、各顔検出結果における顔検出枠の座標情報に基づいて、各顔検出結果の顔位置特徴を決定し、各動作部位検出結果における動作部位検出枠の座標情報に基づいて、各動作部位検出結果の動作部位位置特徴を決定し、各胴体検出結果の胴体外観特徴と胴体位置特徴をスプライシングし、各胴体検出結果の胴体特徴シーケンスを得、各顔検出結果の顔外観特徴と顔位置特徴をスプライシングし、各顔検出結果の顔特徴シーケンスを得、各動作部位検出結果の動作部位外観特徴と動作部位位置特徴をスプライシングし、各動作部位検出結果の動作部位特徴シーケンスを得るように構成される。
【0213】
本願の幾つかの実施例において、前記関連付けモジュール330は具体的には、各胴体検出枠の座標情報に基づいて、各胴体検出結果の胴体領域位置パラメータを生成し、各顔検出枠の座標情報に基づいて、各顔検出結果の顔領域位置パラメータを生成し、各動作部位検出枠の座標情報に基づいて、各動作部位検出結果の動作部位領域位置パラメータを生成し、所定の胴体シーケンスビット数、所定の胴体特徴構築モデル及び胴体特徴構築パラメータに基づいて、各胴体検出結果の胴体領域位置パラメータに応じて、各胴体検出結果の胴体位置シーケンスを構築し、各胴体検出結果の胴体位置シーケンスに応じて、各胴体検出結果の胴体位置特徴を生成するように構成され、前記胴体特徴構築パラメータは、所定の胴体シーケンスビット数に応じて生成され、前記関連付けモジュール330は具体的には、所定の顔シーケンスビット数、所定の顔特徴構築モデル及び顔特徴構築パラメータに基づいて、各顔検出結果の顔領域位置パラメータに応じて、各顔検出結果の顔位置シーケンスを構築し、各顔検出結果の顔位置シーケンスに応じて、各顔検出結果の顔位置特徴を生成するように構成され、前記顔特徴構築パラメータは、所定の顔シーケンスビット数に応じて生成され、前記関連付けモジュール330は具体的には、所定の動作部位シーケンスビット数、所定の動作部位特徴構築モデル及び動作部位特徴構築パラメータに基づいて、各動作部位検出結果の動作部位領域位置パラメータに応じて、各動作部位検出結果の動作部位位置シーケンスを構築し、各動作部位検出結果の動作部位位置シーケンスに応じて、各動作部位検出結果の動作部位位置特徴を生成するように構成され、動作部位特徴構築パラメータは、所定の動作部位シーケンスビット数に応じて生成される。
【0214】
本願の幾つかの実施例において、前記関連付けモジュール330は具体的には、前記所定のシーケンスビット数が偶数ビットであり、所定の特徴構築モデルがサイン構築モデルである場合、各検出結果の領域位置パラメータを特徴構築パラメータと比較し、各検出結果の第1パラメータ比を得て、前記サイン構築モデルを利用して各検出結果の第1パラメータ比に対して正弦値演算を行い、各検出結果の第1位置要素を得て、各検出結果の第1位置要素に基づいて、各検出結果の第1位置シーケンスを決定するように構成され、所定のシーケンスビット数が所定の胴体シーケンスビット数である時、所定の特徴構築モデルは、所定の胴体特徴構築モデルであり、特徴構築パラメータは、胴体特徴構築パラメータであり、検出結果は、胴体検出結果であり、領域位置パラメータが胴体領域位置パラメータであり、第1位置シーケンスは、胴体位置シーケンスであり、所定のシーケンスビット数が所定の顔シーケンスビット数である時、所定の特徴構築モデルは、所定の顔特徴構築モデルであり、特徴構築パラメータは、顔特徴構築パラメータであり、検出結果は、顔検出結果であり、領域位置パラメータは、顔領域位置パラメータであり、位置シーケンスは、顔位置シーケンスであり、所定のシーケンスビット数が所定の動作部位シーケンスビット数である時、所定の特徴構築モデルは、所定の動作部位特徴構築モデルであり、特徴構築パラメータは、動作部位特徴構築パラメータであり、検出結果は、動作部位検出結果であり、領域位置パラメータは、動作部位領域位置パラメータであり、位置シーケンスは、動作部位位置シーケンスである。
【0215】
本願の幾つかの実施例において、前記関連付けモジュール330は具体的には、前記所定のシーケンスビット数が奇数ビットであり、所定の特徴構築モデルがコサイン構築モデルである場合、
各検出結果の領域位置パラメータを特徴構築パラメータと比較し、各検出結果の第2パラメータ比を得て、
前記コサイン構築モデルを利用して各検出結果の第2パラメータ比に対して余弦値演算を行い、各検出結果の第2位置要素を得て、
各検出結果の第2位置要素に基づいて、各検出結果の位置シーケンスを決定するように構成され、
所定のシーケンスビット数が所定の胴体シーケンスビット数である時、所定の特徴構築モデルは、所定の胴体特徴構築モデルであり、特徴構築パラメータは、所定の胴体特徴構築パラメータであり、検出結果は、胴体検出結果であり、領域位置パラメータは、胴体領域位置パラメータであり、位置シーケンスは、胴体位置シーケンスであり、
所定のシーケンスビット数が所定の顔シーケンスビット数である時、所定の特徴構築モデルは、所定の顔特徴構築モデルであり、特徴構築パラメータは、所定の顔特徴構築パラメータであり、検出結果は、顔検出結果であり、領域位置パラメータは、顔領域位置パラメータであり、位置シーケンスは、顔位置シーケンスであり、
所定のシーケンスビット数が所定の動作部位シーケンスビット数である時、所定の特徴構築モデルは、所定の動作部位特徴構築モデルであり、特徴構築パラメータは、所定の動作部位特徴構築パラメータであり、検出結果は、動作部位検出結果であり、領域位置パラメータは、動作部位領域位置パラメータであり、位置シーケンスは、動作部位位置シーケンスである。
【0216】
本願の幾つかの実施例において、前記関連付けモジュール330は具体的には、各胴体検出結果における胴体検出枠の座標情報に基づいて、各胴体検出結果における胴体検出枠の幅、高さ及び面積を算出し、各顔検出結果における顔検出枠の座標情報に基づいて、各顔検出結果における顔検出枠の幅、高さ及び面積を算出し、各動作部位検出結果における動作部位検出枠の座標情報に基づいて、各動作部位検出結果における動作部位検出枠の幅、高さ及び面積を算出し、各胴体検出結果における胴体検出枠の座標情報、幅、高さ及び面積のうちの少なくとも1つを利用して、各胴体検出結果の胴体領域位置パラメータを構築し、各顔検出結果における顔検出領域の座標情報、幅、高さ及び面積のうちの少なくとも1つを利用して、各顔検出結果の顔領域位置パラメータを構築し、各動作部位検出結果における動作部位検出枠の座標情報、幅、高さ及び面積のうちの少なくとも1つを利用して、各動作部位検出結果の動作部位領域位置パラメータを構築するように構成される。
【0217】
本願の幾つかの実施例において、前記関連付けモジュール330は具体的には、前記認識されるべき画像に対応する少なくとも1つの特徴マップを得て、前記少なくとも1つの特徴マップのうちの各特徴マップから、前記各胴体検出結果の胴体特徴マップを取得し、各胴体検出結果の胴体特徴マップに対して領域分割を行い、少なくとも1つの胴体特徴サブ領域を得て、各胴体特徴サブ領域に対して最大値特徴抽出を行い、各胴体検出結果に対応する少なくとも1つの胴体外観サブ特徴を得て、各胴体検出結果に対応する少なくとも1つの胴体外観サブ特徴を利用して、各胴体検出結果の胴体外観特徴を構築し、前記少なくとも1つの特徴マップのうちの各特徴マップから、前記各顔検出結果の顔特徴マップを取得し、各顔検出結果の顔特徴マップに対して領域分割を行い、少なくとも1つの顔特徴サブ領域を得て、各顔特徴サブ領域に対して最大値特徴抽出を行い、各顔検出結果に対応する少なくとも1つの顔外観サブ特徴を得て、各顔検出結果に対応する少なくとも1つの顔外観サブ特徴を利用して各顔検出結果の顔外観特徴を構築し、前記少なくとも1つの特徴マップのうちの各特徴マップから、前記各動作部位検出結果の動作部位特徴マップを取得し、各動作部位検出結果の動作部位特徴マップに対して領域分割を行い、少なくとも1つの動作部位特徴サブ領域を得て、各動作部位特徴サブ領域に対して最大値特徴抽出を行い、各動作部位検出結果に対応する少なくとも1つの動作部位外観サブ特徴を得て、各動作部位検出結果に対応する少なくとも1つの動作部位外観サブ特徴を利用して各動作部位検出結果の動作部位外観特徴を構築するように構成される。
【0218】
本願の幾つかの実施例において、前記検出モジュール310は具体的には、所定の検出領域生成ルールに応じて、前記認識されるべき画像に対して少なくとも1つの候補検出枠を生成し、少なくとも1つの候補検出枠のうちの各候補検出枠により囲まれた画像に対して、胴体確率を算出し、胴体確率及び所定の重なり度合い閾値に基づいて、少なくとも1つの候補検出枠から、少なくとも1つの胴体検出枠を選択し、更に、少なくとも1つの胴体検出結果を得、少なくとも1つの候補検出枠のうちの各候補検出枠により囲まれた画像に対して、顔確率を算出し、顔確率及び所定の重なり度合い閾値に基づいて、少なくとも1つの候補検出枠から、少なくとも1つの顔検出枠を選択し、更に、少なくとも1つの顔検出結果を得て、少なくとも1つの候補検出枠のうちの各候補検出枠により囲まれた画像に対して、動作部位確率を算出し、動作部位確率及び所定の重なり度合い閾値に基づいて、少なくとも1つの候補検出枠から、少なくとも1つの動作部位検出枠を選択し、更に、少なくとも1つの動作部位検出結果を得るように構成される。
【0219】
本願の幾つかの実施例において、前記検出モジュール310は具体的には、所定の初期寸法に応じて、初期検出枠を生成し、初期検出枠に対してスケール変換及び伸張変換を行い、少なくとも1つの候補検出枠を得るように構成される。
【0220】
本願の幾つかの実施例において、前記検出モジュール310は具体的には、前記胴体確率、前記顔確率及び前記動作部位確率に基づいて、前記少なくとも1つの候補検出枠から少なくとも1つの一時的胴体検出領域、少なくとも1つの一時的顔検出領域及び少なくとも1つの一時的動作部位検出領域をそれぞれ選択し、胴体確率が最も大きい一時的胴体検出枠を第1胴体検出枠とし、第1胴体検出枠及び第1胴体検出枠により囲まれた胴体画像を利用して、第1胴体検出結果を構成し、少なくとも1つの一時的胴体検出枠から、第1胴体検出枠との重なり度合いが所定の重なり度合い閾値より大きい一時的胴体検出枠を削除し、少なくとも1つの中間胴体検出枠を得て、少なくとも1つの中間胴体検出枠を少なくとも1つの一時的胴体検出枠とし、上記プロセスを引き続き実行し、少なくとも1つの胴体検出結果を得るまで継続し、顔確率が最も大きい一時的胴体検出枠を第1顔検出枠とし、第1顔検出枠及び第1顔検出枠により囲まれた顔画像を利用して、第1顔検出結果を構成し、少なくとも1つの一時的顔検出枠から、第1顔検出枠との重なり度合いが所定の重なり度合い閾値より大きい一時的顔検出枠を削除し、少なくとも1つの中間顔検出枠を得て、少なくとも1つの中間顔検出枠を少なくとも1つの一時的顔検出枠とし、上記プロセスを引き続き実行し、少なくとも1つの顔検出結果を得るまで継続し、動作部位確率が最も大きい一時的動作部位検出枠を第1動作部位検出枠とし、第1動作部位検出枠及び第1動作部位検出枠により囲まれた動作部位画像を利用して、第1動作部位検出結果を構成し、少なくとも1つの一時的動作部位検出枠から、第1動作部位検出枠との重なり度合いが所定の重なり度合い閾値より大きい一時的動作部位検出枠を削除し、少なくとも1つの中間動作部位検出枠を得て、少なくとも1つの中間動作部位検出枠を少なくとも1つの一時的動作部位検出枠とし、上記プロセスを引き続き実行し、少なくとも1つの動作部位検出結果を得るまで継続するように構成される。
【0221】
実際の適用において、上記検出モジュール310、組み合わせモジュール320及び関連付けモジュール330は、電子機器800に位置するプロセッサ810により実現することができる。具体的には、中央演算処理装置(Central Processing Unit:CPU)、マイクロプロセッサ(Microprocessor Unit:MPU)、デジタル信号プロセッサ(Digital Signal Processing:DSP)又はフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA)等により実現することができる。
【0222】
本願の実施例は、本願の実施例で提供される画像認識方法を実行するように構成される電子機器を提供する。
図9は、本願の実施例による電子機器の構造を示す第2概略図である。
図9示すように、該画像認識装置800は、プロセッサ810と、メモリ820と、通信バス830と、を備え、メモリ820は、通信バス830を経由してプロセッサ810と通信し、メモリ820は、プロセッサ810による実行可能な1つ又は複数のプログラムを記憶するように構成され、1つ又は複数のプログラムが実行される時、プロセッサ810は、上記実施例におけるいずれか1つの画像認識方法を実行する。
【0223】
本願の実施例は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体に1つ又は複数のプログラムが記憶されており、前記1つ又は複数のプログラムが1つ又は複数のプロセッサ810により実行される。プログラムがプロセッサ810により実行される時、本願の実施例に記載の画像認識方法を実現させる。
【0224】
本願の実施例は、方法、システム又はコンピュータプログラム製品として提供されてもよい。従って、本願は、ハードウェア実施例、ソフトウェア実施例又は、ソフトウェアとハードウェアを組み合わせる実施例の形態を用いてもよいことが当業者であれ理解すべきである。また、本願は、コンピュータによる利用可能なコンピュータコードを含む1つ又は複数のコンピュータによる利用可能な記憶媒体(磁気ディスクメモリ及び光学メモリなどを含むが、これらに限定されない)で実行されるコンピュータプログラム製品の形態を利用することができる。
【0225】
本願は、本願の実施例の方法、機器(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照しながら、説明される。コンピュータプログラム命令により、フローチャート及び/又はブロック図における各フロー及び/又はブロック、及びフローチャート及び/又はブロック図におけるフロー及び/又はブロックの組み合わせを実現することができることが理解されるべきである。これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたはその他プログラマブルデータ処理装置のプロセッサに提供でき、それによって機器を生み出し、これら命令はコンピュータまたはその他プログラマブルデータ処理装置のプロセッサにより実行される時、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能/操作を実現する装置を生み出した。
【0226】
これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよい。これらの命令によれば、コンピュータ又は他のプログラマブルデータ処理装置は特定の方式で動作する。従って、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能を実現する各態様の命令を含む製品を備える。
【0227】
これらのコンピュータプログラム命令をコンピュータ又は他のプログラマブルデータ処理装置にロードしてもよい。これにより、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で一連の操作の工程を実行して、コンピュータで実施されるプロセスを生成する。従って、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で実行される命令により、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能を実現させる。
【0228】
上記は、本願の好ましい実施例に過ぎず、本願の保護範囲を限定するものではない。
【国際調査報告】