(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-24
(45)【発行日】2024-10-02
(54)【発明の名称】骨格情報を画像にマッピングする人物識別方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20240925BHJP
G06V 40/10 20220101ALI20240925BHJP
G06N 3/0464 20230101ALI20240925BHJP
【FI】
G06T7/00 660B
G06T7/00 350C
G06T7/00 510B
G06V40/10
G06N3/0464
(21)【出願番号】P 2023034593
(22)【出願日】2023-03-07
【審査請求日】2023-03-07
(31)【優先権主張番号】202210301230.6
(32)【優先日】2022-03-25
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】520208111
【氏名又は名称】広西大学
【氏名又は名称原語表記】GUANGXI UNIVERSITY
【住所又は居所原語表記】No. 100, Daxuedong Road, Nanning, Guangxi, China
(74)【代理人】
【識別番号】100146374
【氏名又は名称】有馬 百子
(72)【発明者】
【氏名】張 学軍
(72)【発明者】
【氏名】孔 徳宇
(72)【発明者】
【氏名】卜 朝暉
【審査官】伊知地 和之
(56)【参考文献】
【文献】国際公開第2015/186436(WO,A1)
【文献】中国特許出願公開第104899561(CN,A)
【文献】中国特許出願公開第111339888(CN,A)
【文献】中国特許出願公開第113255514(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 18/00 - 18/40
G06N 3/00 - 99/00
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/418
G06V 40/16
G06V 40/20
CSDB(日本国特許庁)
(57)【特許請求の範囲】
【請求項1】
骨格情報を画像にマッピングする人物識別方法であって、
データ前処理を行うステップ1であって、
カメラが追跡した
歩行者の20個の3D骨格関節点
のXYZ座標
データを得、前記XYZ座標データを正規化するため、RGBのそれぞれの値範囲が0-255
の標準色空間であるRGB空間において、前記XYZ座標データのX値をRチャンネル画素値に、Y値をGチャンネル画素値に、Z値をBチャンネル画素値に変換することにより、XYZ座標データをカラー画素に変換するステップ1と、
関節点座標画像を生成するステップ2であって、
ステップ1で得られた20個の関節点
ごとの座標
を表す前記カラー画素
を、予め設計しておいた、人体の骨組み接続構造を模倣した「大字形」
構造の画素配置構造
に従って配置し、これにより9*9大きさのカラー画像を生成
し、該画像は、関節点座標画像と定義され、該画像における20個の関節
点の前記カラー画素を除いて、他の画素は、いずれも白色画素充填
により塗りつぶされており、
生成した前記関節点座標画像に
は、前記歩行者の関節点
の空間座標情報と関節点
の接続関係が記憶
されるステップ2と、
畳み込みニューラルネットワークに基づく特徴抽出及び分類を行うステップ3であって、
生成した
前記関節点座標画像に対して、特徴抽出段階では、畳み込みニューラルネットワークを特徴抽出ネットワークとして使用し、最後に2層の全結合層を分類ネットワークとして接合し、逆方向伝播アルゴリズムを使用してネットワークトレーニングを行い、骨格生体識別を指向とする骨格の静的特徴の自動抽出と分類を実現し、
前記畳み込みニューラルネットワークは、3つの畳み込み層と2つのダウンサンプリング層を有し、最後に2層の全結合ニューラルネットワークを利用して分類を行い、ここで、前の2層の畳み込み層は、4×4大きさの適応フィルタを採用し、ステップサイズが1の畳み込みを行い、このような畳み込み方式は、関節点座標画像における隣接する8つの画素点間の関係を効果的に抽出することで、隣接関節点の座標関係を間接的に抽出することができ、
前の2つの畳み込み層の後にいずれも最大プーリング原理に基づく1つのプーリング層が配置され、該層は、抽出した特徴マトリクスを元の1/2に縮小し、特徴抽出ネットワークにおける重要な関節点特徴の重み値がより大きいことを確保することができ、3回目の畳み込みの後、120個の骨格の静的特徴を得、Softmax関数を使用して、骨格の生体特徴のトレーニングと分類を実現する、
ことを特徴とする骨格情報を画像にマッピングする人物識別方法。
【請求項2】
ステップ2において、
前記「大字型」構造
の画素配置構造では、「Head」関節点
の画素は、「ShoulderCenter」関節点
の画素のみに隣接
している、ことを特徴とする請求項1に記載の骨格情報を画像にマッピングする人物識別方法。
【請求項3】
ステップ
1において、
前記カメラが
前記歩行者の関節点
のXYZ座標
データを得る際、
前記歩行者がカメラから1
乃至4メートルの範囲内に立
ち、
前記関節点のZ座標数値がX、Y座標の数値より
大きく、RGB値に変換した後、Z座標数値に対応する青色チャンネルの数値が他の2つの色チャンネルの数値より
大きくなり、生成される9*9大きさの前記カラー画像
の全体の色調は、青色に偏る、ことを特徴とする請求項1に記載の骨格情報を画像にマッピングする人物識別方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報技術分野に属し、特に骨格情報を画像にマッピングする人物識別方法に関する。
【背景技術】
【0002】
身分認証技術は、現在の科学技術社会に不可欠な重要な技術であり、生体特徴(Biometrics)に基づく身分認証技術は、身分認証技術の重要な分野として、公共安全、金融、情報安全、電子情報の分野で広く応用されている。生体特徴の中で、人体骨組みは、独特な生体特徴であり、該特徴は、人体のすべての関節点及び関節点間の骨格接続線から構成され、歩行識別学から分かるように、人体における24個の重要な関節点を抽出することによって、理論的には大量の骨格データベースに基づいて数億人の身分を認証することができ、該理論は、骨組みに基づく身分認証技術に一定の理論的基礎を提供する。骨組みの生体特徴は、人体と共存する生体特徴として、人が静止して動かなくても、歩行や走行などの姿勢であっても、人体の運動状態の影響を受けず、また、外力の影響を受けず、ほとんどの人の成年後の骨組み構造は、基本的に安定している。これは、骨組みの生体特徴が長時間にわたって外乱に抵抗する能力を持っていることを示している。骨組みは、現在よく使われている身分認証技術と比較すると、本体に隠されにくく、他人に模倣されたり盗まれたりしにくいという利点があり、人の顔、指紋などの生体特徴に比べて、一定の耐偽装性があり、特定のカメラを利用して遠隔で収集することができ、収集された対象の協力を必要としないため、骨組みの生体特徴に基づく身分認証技術――骨格生体識別技術は、徐々に盛んになる。
【0003】
Kinectは、マイクロソフトが近年発売した3D体感カメラであり、該カメラは、人体骨格関節点の空間測位と追跡機能を実現し、視野内の歩行者の3D関節点の座標情報XYZをリアルタイムに追跡することができる。
図1に示すように、現在、第1世代のKinect(KinectV1)は、歩行者の20個の関節点の3D座標情報をリアルタイムに追跡することができ、該20個の関節点を接続すると、完全な骨組みを得ることができ、これにより、研究者は、Kinectが追跡した3D関節点の座標情報を使用して骨格の生体識別研究を徐々に行っている。
【0004】
一般的には、研究者は、骨組みの静的特徴から着手し、骨組みの静的特徴とは、骨格が示す人体測定学の特徴、例えば骨格サイズ、骨格比率、骨格間の自然接続関係であり、該特徴は、人体骨組みの固有属性であり、歩行者の歩行時の姿勢の変化に従って変化することはなく、非常に強い安定性と個体差異性を持っている。しかしながら、現在、わずか20個のKinect 3D関節点座標を利用して、大規模な身分認証を実現するのは非常に困難である。これは、現在の研究方法が20個のKinect 3D関節点座標から少量の骨格の静的特徴しか抽出できず、身分認証の人数が上昇すると、識別の正確率が急激に低下するためであり、従って、該技術のボトルネックを突破するには、より効果的な骨組みの静的特徴の抽出方法を探究し、骨格の生体特徴の識別正確率を高め、身分認証の規模を拡大しなければならない。
【0005】
従来技術1の技術案
技術1:Kinectセンサに基づく骨格生体識別技術
該技術は、Kinect 3D関節点座標データに対して、骨格に基づく人物識別の研究に用いるために、骨格データの距離特徴の抽出に力を入れ、具体的な方案は、データ導入、特徴抽出と分類の3つの段階に分けることができる。
【0006】
図2(a)のように、(1)データ導入:導入された骨格データは、KinectV1が収集した3D骨格シーケンスであり、該シーケンスの各フレームは、1つの完全な骨格であり、各フレーム骨格は、
図2(b)に示す20個の関節点の空間座標XYZを含む。
(2)特徴抽出:式(1)を利用して左右前腕(left and right fore arm)、左右腕(left and right arm)、左右大腿(left and right leg)、左右下腿(left and right thigh)、頸椎(cervical spine)、胸椎(thoracic spine)などの10部分の骨格の距離特徴を計算する。頸椎、胸椎、左右大腿の長さの平均値と左右下腿の長さの平均値を加算して身長特徴を得、以上の11個の特徴を接続して、人物を特徴づける骨格の静的特徴ベクトルを得る。
【0007】
*****21
【0008】
Kinectは、関節点空間座標を収集する時に一定のノイズを導入するため、関節点測位が不正確になってしまう。ノイズ骨格を除去するために、該技術は、それぞれ左右前腕、左右腕、左右大腿などの11個の距離特徴の平均値と分散を計算し、あるフレームの骨格のいずれか2つの静的特徴量の変動が分散を超える場合、該骨格フレームをノイズ骨格とし、直接廃棄し、そうではない場合、該骨格フレーム及びその骨格の静的特徴を残す。
【0009】
(3)K-近接アルゴリズムに基づく人物識別:K-近接アルゴリズムは、機械学習の常用アルゴリズムであり、該方法では、分類決定を行うのは、隣接するいくつかの特徴に基づいて分類し、識別速度が速い利点があり、離散的な特徴量の分類に適している。該技術は、K-近接アルゴリズムを選択して、取得した11個の骨格の静的特徴に対して人物識別研究を行う。
【0010】
従来技術1の欠点
1.静的特徴を手動で選択する:研究者の主観的な特徴選択と判断に頼りすぎ、人物識別を指向とする特徴の自動及び適応抽出を実現できないとともに、抽出した特徴は、数が少なく、代表性を持たない。
【0011】
2.3D骨格データの透視問題を処理していない:Kinectが人物骨組みを収集する時、透視作用(近いものが大きく、遠いものが小さい)による、視野内の骨組みの大きさが一致しない問題が存在し、即ち人がKinectから遠い場合、人の骨組み全体が小さく、関節点の距離が小さく、人がKinectに近い場合、人の骨組み全体が大きく、関節点の距離が大きい。そのため、関節点距離を人物の静的特徴とすることは、信頼できない。
【0012】
3.データ正規化を行っていない:Kinectが追跡した3D骨格データは、通常、倍精度浮動小数点型で記憶され、記憶されたデータは、同時に正数と負数を含み、関節点間のユークリッド距離を計算することで、データを正数範囲に正規化できるが、データ間の数値差が非常に小さく、識別する人数が増えると、識別する特徴量も多くなり、この場合、K-近接アルゴリズムを利用して識別すると、アルゴリズムに非常に時間がかかる。
【0013】
4.識別精度が低い:技術1で抽出された特徴データは、小さく、11個の特徴量しかなく、識別する人数が上がると、識別精度が急激に低下する。
【発明の概要】
【発明が解決しようとする課題】
【0014】
本発明の目的は、上記従来技術に存在する欠点を解決するために、骨格情報を画像にマッピングする人物識別方法を提供し、データ透視現象を解消することで、3D関節点座標データが環境共変数に耐える能力を高め、骨格フレームの利用可能率を高める、骨格生体識別を目標指向とする骨格の静的特徴の自動抽出方案を提供することである。
【課題を解決するための手段】
【0015】
本発明は、下記技術案を採用する。
【0016】
骨格情報を画像にマッピングする人物識別方法であって、該方法は、主に、
データ前処理、特徴抽出と分類の3つのプロセスに関する。データ前処理段階では、Kinect 3D関節点座標XYZを数学演算によりRGB画素に変換し、変換後のRGB画素を関節点座標画素と定義し、その値範囲が0-255であり、該操作は、3D関節点座標の透視問題を解消するだけではなく、さらに3D関節点座標データの正規化を実現し、そして、関節点座標画素の配置用の「大字型」構造を設計し、これにより関節点座標画像を生成し、該操作は、人体の完全な骨格構造を保存するだけではなく、さらに関節点間の相対位置を残す。特徴抽出段階では、畳み込みニューラルネットワークを利用して、生成した関節点座標画像に対して特徴抽出を行い、該ネットワークは、畳み込み時に4*4大きさの畳み込みコアを統一的に採用し、テップサイズが1の畳み込みを行い、このような畳み込み方式は、関節点座標画像における隣接する8つの画素点間の関係を効果的に抽出することで、隣接関節点の座標関係を間接的に抽出することができる。分類と識別段階では、2層の全結合層を分類器として採用し、Softmax関数と組み合わせて分類器のトレーニングと検証を実現する。
【発明の効果】
【0017】
本発明の有益な効果は、以下のとおりである。
【0018】
1.現在、骨格生体識別が骨格の静的特徴に対する手動選択に頼りすぎる現状を解決し、本発明は、畳み込みニューラルネットワークを利用して、骨格生体識別を目標指向とする特徴の適応抽出と分類を実現する。
【0019】
2.元のKinect 3D骨格データに存在するカメラ透視の影響とデータ正規化の問題を解決し、Kinect3D関節点座標XYZを式(2)によりRGB画素に変換し、該操作は、3D関節点座標の透視問題を解消し、骨格フレームの利用可能率を高めるだけではなく、さらに3D関節点座標データの正規化を実現する。
【0020】
3.本発明は、関節点座標画素の配置用の「大字型」構造を設計し、これにより関節点座標画像を生成し、該操作は、人体の完全な骨格構造を保存するだけではなく、さらに関節点間の相対位置を維持し、畳み込みニューラルネットワークと組み合わせて特徴抽出を行い、120個の骨格の静的特徴を抽出、大幅に特徴数を高め、骨格生体識別の正確率を高めるのに有利である。
【図面の簡単な説明】
【0021】
【
図2(a)】背景技術1の実現フローチャートである。
【
図4】KinectV1が追跡した20個の3D骨格関節点の概略図である。
【
図6】本発明で用いられる畳み込みニューラルネットワークである。
【
図8(a)】Kinectv1が人物「Casey」を収集する時の実験環境図である。
【
図8(b)】人物「Casey」の20個の3D骨格データである。
【
図9(a)】Kinectv1が人物「Bob」を収集する時の実験環境図である。
【
図9(b)】人物「Bob」の20個の3D骨格データである。
【
図10】「Casey」の20個の関節点座標画素である。
【
図11】「Bob」の20個の関節点座標画素である。
【発明を実施するための形態】
【0022】
本発明の目的、技術案と利点をより明確にするために、以下、本発明における技術案を明確且つ完全に説明する。明らかに、記述された実施例は、本発明の一部の実施例であり、全部の実施例ではない。本発明における実施例に基づき、当業者が創造的な労力を払わない前提で得られたすべての他の実施例は、いずれも本発明の保護範囲に属する。
【0023】
図7に示すように、本発明の骨格情報を画像にマッピングする人物識別方法であり、該方法は、主に
データ前処理、特徴抽出と分類の3つのプロセスに関する。
図3に示すように、データ前処理段階では、Kinect 3D関節点座標XYZを数学演算によりRGB画素に変換し、変換後のRGB画素を関節点座標画素と定義し、その値範囲が0-255であり、該操作は、3D関節点座標の透視問題を解消するだけでなく、さらに3D関節点座標データの正規化を実現し、そして、関節点座標画素の配置用の「大字型」構造を設計し、これにより関節点座標画像を生成し、該操作は、人体の完全な骨格構造を保存するだけではなく、さらに関節点間の相対位置を残す。特徴抽出段階では、畳み込みニューラルネットワークを利用して、生成した関節点座標画像に対して特徴抽出を行い、該ネットワークは、畳み込み時に4*4大きさの畳み込みコアを統一的に採用し、テップサイズが1の畳み込みを行い、このような畳み込み形態は、関節点座標画像における隣接する8つの画素点間の関係を効果的に抽出することで、隣接関節点の座標関係を間接的に抽出することができる。分類と識別段階では、2層の全結合層を分類器として採用し、Softmax関数と組み合わせて分類器のトレーニングと検証を実現する。
【0024】
(1)データ前処理
式(2)を利用して、Kinectが追跡した20個の3D骨格関節点座標を0-255範囲内のRGB空間にマッピングし、関節点座標画素を得、3D関節点座標の透視問題を解消し、さらに3D関節点座標データの正規化を実現する。
【0025】
図4に示すように、Kinectが追跡した1フレームの骨格のデータに合計20個の関節点が含まれ、これにより20個のKinect3D関節点座標
***22
を得、ここで、iは、20個の関節点の番号を表し、表1に示すように、20個の関節点及びそれらに対応する番号であり、ここで、各関節点は、XYZの3つの座標値を含む。
【0026】
表1
****23
【0027】
3D関節点座標の正規化を実現するために、3D関節点座標を標準色空間に変換する。カラー画像が一般的にRGBの3チャンネルから構成されることが知られており、これにより、関節点座標のXYZデータを式(2)により値範囲0-255のカラー画素に変換することができ、変換後のX値は、カラー画素のRチャンネルに対応し、変換後のY値は、カラー画素のGチャンネルに対応し、変換後のZ値は、カラー画素のZチャンネルに対応する。変換後のカラー画素を
****24
XYZの変換後の数値であり、各点の画素は、1つの関節点の空間座標を特徴付けている。3D関節点座標からカラー画素への変換を実現することができ、各点のカラー画素は、1つの関節点の相対空間座標を特徴付けている。
****25
【0028】
ここで、piは、変換後の画素値を表し、該画素は、関節点の座標情報を含み、関節点座標画素とも呼ばれる。cmaxは、1フレームの骨格関節点における最も大きい座標値を表し、即ち
****26
cminは、1フレームの骨格データにおける最も小さい座標の数値を表し、即ち
****27
floorは、切り捨て関数を表す。
【0029】
元の3D関節点座標データに透視現象があるが、該透視比率は、線形比率であり、線形マッピングによって簡単に解消することができる。式(2)は、各フレームの3D関節点座標データの最大差分(cmax - cmin)を単独に計算することを選択し、そして各フレームの3D関節点座標に対していずれも該差分を基準として各関節点の標準画素値を計算し、データ透視の問題を解消する。
【0030】
(2)関節点座標画像の生成
上記の変換で得られた関節点座標画素を利用し、本発明は、完全な骨格情報を記憶する方案――関節点座標画像を設計する。本発明では、「大字形」の画素配置構造を設計し、関節点画素を「大字形」構造に従って配置し、該「大字形」構造は、人体の骨組み自然接続構造を模倣し、例えば頭部関節点が肩中心関節点のみに接続される場合、頭部関節点座標画素は、肩中心関節点画素にのみ隣接し、これにより9*9大きさのカラー画像を生成して得、該画像は、関節点座標画像と定義され、
図5に示すように、該画像における20個の関節点画素を除いて、他の画素は、いずれも白色画素(画素値255)で塗りつぶされている。
【0031】
取得した関節点座標画像に歩行者の関節点空間座標情報と関節点自然接続関係が記憶され、骨格の完全な骨組み構造が保存される。例えば関節点「Head」の画素値と関節点「Neck」の画素値は、人類の骨組みの相対位置を維持し、歩行者の骨格の生体特徴を効果的に特徴づけることができる。以上の図から分かるように、関節点座標画像全体の色調は、青色に偏っており、原因としては、Kinectがシナリオにおける人体骨組みを取得する時、人物がカメラから1-4メートルの範囲内に立たなければならないことを要求するため、関節点のZ座標数値がX、Y座標の数値よりもずっと大きく、RGB値に変換した後、Z座標数値に対応する青色チャンネルの数値が他の2つの色チャンネルの数値よりもずっと大きくなり、従って、関節点座標画像全体の色調は、青色に偏っている。
【0032】
(3)畳み込みニューラルネットワークに基づく特徴抽出及び分類
図6に示すように、本発明は、生成した関節点座標画像に対して、特徴抽出段階では、畳み込みニューラルネットワークを特徴抽出ネットワークとして使用し、最後に2層の全結合層を分類ネットワークとして接合し、方向伝播アルゴリズムを使用してネットワークトレーニングを行い、骨格生体識別を指向とする骨格の静的特徴の自動抽出と分類を実現する。
【0033】
図5に示すように、畳み込みニューラルネットワークは、3つの畳み込み層と2つのダウンサンプリング層を有し、最後に2層の全結合ニューラルネットワークを利用して分類を行う。ここで、前の2層の畳み込み層は、4×4大きさの適応フィルタを採用し、テップサイズが1の畳み込みを行い、このような畳み込み方式は、関節点座標画像における隣接する8つの画素点間の関係を効果的に抽出することで、隣接関節点の座標関係を間接的に抽出することができる。これからわかるように、前の2つの畳み込み層の後にいずれも最大プーリング原理に基づく1つのプーリング層が配置され、該層は、抽出した特徴マトリクスを元の1/2に縮小し、特徴抽出ネットワークにおける重要な関節点特徴の重み値がより大きいことを確保することができる。3回目の畳み込みの後、120個の骨格の静的特徴を得ることができる。最後にSoftmax関数を使用して、骨格の生体特徴のトレーニングと分類を実現し、最後層のニューロンの数は、ちょうど身分認証の人数Human numbersに等しい。改良後のモデルにおける活性化関数は、すべてReLU関数を使用するため、本実験の損失関数は、以下である。
****28
【0034】
上式では、Mは、関節点座標画像トレーニングセットにおける総画像数を表し、mは、トレーニングセットにおける画像の番号を表し、
****29
【0035】
実施例
本発明は、骨格情報を画像にマッピングする人物識別方法を提案し、骨組みの生体特徴に基づく自動人物識別を実現し、本発明では、具体的な人物を例にして実施プロセスについて説明する。
【0036】
第1のステップ:具体的な人物のKinect 3D骨格情報を入力する
G3Dデータセットは、Microsoft KinectV1を使用してキャプチャしたゲーム動作のデータセットであり、該データセットは、本物の人物の投球動作の3D骨格データを収集し、
図8(a)-
図9(b)に示すように、本発明は、それから人物「Casey」と「Bob」の3D骨格データを本発明の具体的な入力として選択する。
【0037】
上記
図8(b)と
図9(b)における20個の3D骨格データは、本発明の入力である。説明すべきこととして、本実例は、KinectV1が追跡した骨格情報を例にするが、本発明の入力は、KinectV1 3D骨格座標データに限定されず、さらにKinectV2 3D骨格座標データであってもよい。
【0038】
第2のステップ:元の関節点座標データを0~255範囲のRGB数値にマッピングする
KinectV1が追跡した1フレームの骨格のデータに合計20個の関節点が含まれ、
図8(b)に示すように、「Casey」の20個の関節点座標であり、
図9(b)に示すように、「Bob」の20個の関節点座標であり、20個のKinect
****30
ここで、iは、20個の関節点の番号を表し、
図8(b)の「Casey」と
図9(b)の「Bob」の関節点座標をいずれも式(2)により0~255範囲のRGB数値にマッピングする。
****31
【0039】
マッピング後に得られた数値は、関節点座標画素であり、「Casey」の20個の関節点座標画素は、
図10に示し、「Bob」の20個の関節点座標画素は、以下の
図11に示す。
【0040】
第3のステップ:「大字型」構造の関節点座標画像を生成する
「大字型」構造を利用して20個の関節点座標画素を配置して9*9大きさの関節点座標画像を生成する。関節点座標画像では、20個の関節点座標画素を除いて、他の画素は、いずれも白色画素であり、RGB値は、いずれも255である。
【0041】
上記方法を利用して「Casey」の20個の関節点座標画素を処理して、以下の
図12に示す「Casey」の関節点座標画像を取得することができる。
【0042】
上記方法を利用して「Bob」の20個の関節点座標画素を処理して、以下の
図13に示す「Casey」の関節点座標画像を取得することができる。
【0043】
図12と
図13とを比較してわかるように、関節点座標画像全体の色調は、青色に偏っている。これは、関節点座標画素におけるBチャンネルの数値がR、Gチャンネルの数値よりもずっと大きいためである。また、「Casey」と「Bob」の関節点座標画像のいくつかの関節点画素の明るさが異なることがわかり、これは、2人の骨格データに差があるためである。
【0044】
第4のステップ:畳み込みニューラルネットワーク分類器に基づく人物特徴抽出、分類と識別を行う
まず、特徴抽出と分類ネットワークを構築する必要があり、
図6に示すように、本発明では、畳み込みニューラルネットワークを特徴抽出ネットワークとして使用し、そして2層の全結合層を分類ネットワークとして接合する。
【0045】
第3のステップで取得した「Casey」と「Bob」の関節点座標画像を利用して畳み込みニューラルネットワークのトレーニング画像セットとテスト画像セットを区分し、トレーニング画像セットにおける関節点座標画像を構築された畳み込みニューラルネットワークに入力して逆方向伝播アルゴリズムを使用してトレーニングを行い、トレーニングされた分類ネットワークを取得して保存する。
【0046】
最後にトレーニングされた分類ネットワークを呼び出してテスト画像セットにおける関節点座標画像に対して人物識別を行い、分類ネットワークは、関節点座標画像が人物「Casey」と人物「Bob」に属する2つの確率を与え、確率が大きいものは、最終的な識別結果である。
【0047】
上記
図12の「Casey」の関節点座標画像をテスト画像として分類ネットワークに入力し、該画像が人物「Casey」に属する確率96.32%、人物「Bob」に属する確率17.13%を得ることができるため、分類ネットワークの与えた該関節点座標画像は、人物「Casey」の骨組みを特徴づけ、これにより、人物骨格情報により人物身分を識別する目的を実現する。
【0048】
従来技術と比較して、本発明の際立っている点は、以下のとおりである。
【0049】
式(2)を利用して3D骨格関節点座標からRGB空間画素値への一対一のマッピングを実現し、元のデータの透視解消とデータ正規化を実現する。
【0050】
「大字形」画素配置方案を設計し、生成した関節点座標画像は、3D関節点座標データの画像による特徴づけを実現し、該画像による特徴づけ方式は、人体の完全な骨格構造を保存するだけではなく、さらに関節点間の相対位置を維持し、分類能力が強い畳み込みニューラルネットワークと組み合わせると、画像の隣接画素の関係を効果的に抽出することができる。
【0051】
骨格生体識別を目標指向とする特徴の適応抽出と分類を実現する。本発明で紹介された畳み込みニューラルネットワークモデルは、画像識別分野で識別能力が非常に強いLenet-5ネットワークを参照し、該ネットワークは、画像識別分野ですでに巨大な成果を収め、本発明は、該ネットワークの強い特徴抽出と分類能力により、関節点座標画像の特徴に基づいて、畳み込みに4*4の畳み込みコアを選択して使用して、テップサイズが1の畳み込みを行い、関節点座標画素の8方向の特徴抽出を実現する。抽出する特徴数が多く、骨格生体識別の正確率を高めるのに有利である。
【0052】
最後に、以上の実施例は、本発明の技術案を説明するためにのみ使用され、それを制限するのではなく、前述の実施形態を参照して本発明を詳細に説明したが、当業者は、前述の各実施形態に記載された技術案を修正したり、その一部の技術的特徴を同等に置き換えたりすることができ、これらの変更または置換は、それぞれの技術案の本質を本発明の各実施形態の技術案の精神および範囲から逸脱させるものではない。