IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ジェイテクトの特許一覧

<>
  • 特開-人物画像データ解析システム 図1
  • 特開-人物画像データ解析システム 図2
  • 特開-人物画像データ解析システム 図3
  • 特開-人物画像データ解析システム 図4
  • 特開-人物画像データ解析システム 図5
  • 特開-人物画像データ解析システム 図6
  • 特開-人物画像データ解析システム 図7
  • 特開-人物画像データ解析システム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022178935
(43)【公開日】2022-12-02
(54)【発明の名称】人物画像データ解析システム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20221125BHJP
【FI】
G06T7/00 660B
G06T7/00 350B
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2021086077
(22)【出願日】2021-05-21
(71)【出願人】
【識別番号】000001247
【氏名又は名称】株式会社ジェイテクト
(74)【代理人】
【識別番号】110000648
【氏名又は名称】弁理士法人あいち国際特許事務所
(72)【発明者】
【氏名】渡邉 浩平
(72)【発明者】
【氏名】中瀬 晶詳
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA02
5L096CA02
5L096DA02
5L096FA67
5L096FA69
5L096HA09
5L096JA03
5L096JA11
5L096KA04
(57)【要約】
【課題】人物画像データに写る人物の姿勢を高精度に判別することができる人物画像データ解析システムを提供する。
【解決手段】人物画像データ解析システム1は、特徴量抽出に関する学習済みモデルBを用いて、人物画像データD2を入力することにより、人物画像データD2における特徴量を抽出する特徴量抽出部12と、行動解析に関する学習済みモデルCを用いて、特徴量抽出部12により抽出された特徴量を入力することにより、時系列の複数枚の人物画像データD2における人物の行動種類を出力する行動種類出力部13と、キーポイント抽出に関する学習済みモデルDを用いて、特徴量抽出部12により抽出された特徴量および行動種類出力部13により出力された行動種類を入力することにより、人物画像データD2における人物のキーポイントを出力するキーポイント出力部14とを備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
演算処理装置および記憶装置を備えるコンピュータ装置により構成された人物画像データ解析システムであって、
前記記憶装置は、
人物が含まれる人物画像データを説明変数とし、前記人物画像データにおける特徴量を目的変数として、機械学習を行うことにより生成された特徴量抽出に関する学習済みモデルを記憶し、
前記人物画像データに基づいて抽出された前記特徴量を説明変数とし、時系列の複数枚の前記人物画像データにおける前記人物の行動種類を目的変数として、機械学習を行うことにより生成された行動解析に関する学習済みモデルを記憶し、
前記特徴量および前記行動種類を説明変数とし、前記人物画像データにおける前記人物の姿勢を表現したキーポイントを目的変数として、機械学習を行うことにより生成されたキーポイント抽出に関する学習済みモデルを記憶し、
前記演算処理装置は、
前記記憶装置に記憶された前記特徴量抽出に関する学習済みモデルを用いて、前記人物画像データを入力することにより、前記人物画像データにおける前記特徴量を抽出する特徴量抽出部と、
前記記憶装置に記憶された前記行動解析に関する学習済みモデルを用いて、前記特徴量抽出部により抽出された前記特徴量を入力することにより、時系列の複数枚の前記人物画像データにおける前記人物の前記行動種類を出力する行動種類出力部と、
前記記憶装置に記憶された前記キーポイント抽出に関する学習済みモデルを用いて、前記特徴量抽出部により抽出された前記特徴量および前記行動種類出力部により出力された前記行動種類を入力することにより、前記人物画像データにおける前記人物の前記キーポイントを出力するキーポイント出力部と、
を備える、人物画像データ解析システム。
【請求項2】
前記特徴量抽出に関する学習済みモデル、前記行動解析に関する学習済みモデル、および、前記キーポイント抽出に関する学習済みモデルは、学習フェーズにおいて、前記キーポイントの要素および前記行動種類の要素を含む損失関数により学習される、請求項1に記載の人物画像データ解析システム。
【請求項3】
前記特徴量抽出部は、前記特徴量抽出に関する学習済みモデルを用いて、時系列の複数枚の前記人物画像データを入力することにより、複数枚の前記人物画像データのそれぞれにおける前記特徴量を抽出し、
前記行動種類出力部は、前記行動解析に関する学習済みモデルを用いて、時系列の複数枚の前記人物画像データのそれぞれに基づいて抽出された複数枚分の前記特徴量を入力することにより、前記行動種類を出力し、
前記キーポイント出力部は、前記キーポイント抽出に関する学習済みモデルを用いて、時系列の複数枚の前記人物画像データのうち選択された1枚の前記人物画像データに基づいて抽出された1枚分の前記特徴量、および、前記行動種類を入力することにより、前記選択された1枚の前記人物画像データにおける前記人物の前記キーポイントを出力する、請求項1または2に記載の人物画像データ解析システム。
【請求項4】
前記特徴量抽出部は、前記特徴量抽出に関する学習済みモデルを用いて、時系列の複数枚の前記人物画像データを順次入力することにより、複数枚の前記人物画像データのそれぞれにおける前記特徴量を順次抽出し、
前記行動種類出力部は、前記行動解析に関する学習済みモデルを用いて、抽出された1枚分の前記特徴量を順次入力し、かつ、前回演算処理を行った結果を用いた再帰型演算を行うことにより、今回演算処理の対象である1枚の前記人物画像データにおける前記人物の前記行動種類を出力し、
前記キーポイント出力部は、前記キーポイント抽出に関する学習済みモデルを用いて、1枚分の前記特徴量および前記行動種類を入力することにより、今回演算処理の対象である1枚の前記人物画像データにおける前記人物の前記キーポイントを出力する、請求項1または2に記載の人物画像データ解析システム。
【請求項5】
前記人物画像データは、前記人物の少なくとも胴体が横向きとなる姿勢の画像データを含む、請求項1~4のいずれか1項に記載の人物画像データ解析システム。
【請求項6】
前記演算処理装置は、さらに、人物領域および周辺領域を含む元画像データを入力し、前記元画像データの中から前記人物領域が抽出された前記人物画像データを生成する人物画像データ生成部を備える、請求項1~5のいずれか1項に記載の人物画像データ解析システム。
【請求項7】
前記キーポイントは、前記人物の関節位置と、隣り合う前記関節位置同士を接続する接続関係とを含む、請求項1~6のいずれか1項に記載の人物画像データ解析システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人物画像データ解析システムに関する。
【背景技術】
【0002】
近年、人物画像データを取得して、人物の姿勢を評価することが行われている。例えば、特許文献1には、製造現場における作業者の作業時間を計測するために、作業者の姿勢を判別することが記載されている。作業状況をカメラで取得し、取得した画像データに写る作業者の関節位置を示す特徴点データを含む骨格データを取得する。予め、骨格データ毎に姿勢ラベルが対応づけられている姿勢モデルを記憶しておく。そして、取得した骨格データをもとに、姿勢モデルに予め決められた姿勢ラベルから、画像データに写る人物の姿勢を判別する。
【0003】
また、作業者の作業時間を計測するために人物の姿勢を判別することの他に、人物の姿勢そのものを評価することも重要である。例えば、人物が正しい姿勢で歩行していることの評価を行うこともある。また、歩行器などの介護機器を用いている人物が、正しい姿勢で歩行器を利用しているか否かの評価を行うことも考えられる。また、歩行をアシストしたり、自立歩行を推進するように動作したりする種々の歩行支援機器が知られている。歩行支援機器を用いている人物が、どのような姿勢であるかを評価することも重要である。
【0004】
また、工場などにおける作業者が作業負荷を軽減するためのアクティブパワーアシストスーツを装着する場合に、当該作業者の姿勢を評価することも重要である。作業者の姿勢を評価することにより、作業者がアシストスーツを適切に利用できているか、アシストスーツが適切に機能しているかなどを評価することができる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2020-201772号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
上記のように、人物の姿勢を評価することは非常に重要である。そして、特許文献1に記載の方法においては、人物の骨格データから姿勢を判別している。画像データにおいて人物が全身正面を向いている姿勢の場合や、後方を向いている姿勢の場合などには、人物の骨格データから容易に人物の姿勢を判別することができる。
【0007】
しかしながら、例えば、胴体が横向き姿勢である場合などには、骨格データのみからでは、人物の姿勢を判別できない場合がある。例えば、胴体が横向き姿勢の場合に、右足が前方に位置するのか、左足が前方に位置するのかを判別することは容易ではない。同様に、胴体が横向き姿勢の場合には、右腕と左腕のどちらが前方に位置するのかを判別することも容易ではない。また、人物が上半身と下半身とをねじれさせた姿勢である場合にも、人物の各部位がどのように位置しているかを判別することは容易ではない。
【0008】
本発明は、かかる背景に鑑みてなされたものであり、人物画像データに写る人物の姿勢を高精度に判別することができる人物画像データ解析システムを提供しようとするものである。
【課題を解決するための手段】
【0009】
本発明の一態様は、
演算処理装置および記憶装置を備えるコンピュータ装置により構成された人物画像データ解析システムであって、
前記記憶装置は、
人物が含まれる人物画像データを説明変数とし、前記人物画像データにおける特徴量を目的変数として、機械学習を行うことにより生成された特徴量抽出に関する学習済みモデルを記憶し、
前記人物画像データに基づいて抽出された前記特徴量を説明変数とし、時系列の複数枚の前記人物画像データにおける前記人物の行動種類を目的変数として、機械学習を行うことにより生成された行動解析に関する学習済みモデルを記憶し、
前記特徴量および前記行動種類を説明変数とし、前記人物画像データにおける前記人物の姿勢を表現したキーポイントを目的変数として、機械学習を行うことにより生成されたキーポイント抽出に関する学習済みモデルを記憶し、
前記演算処理装置は、
前記記憶装置に記憶された前記特徴量抽出に関する学習済みモデルを用いて、前記人物画像データを入力することにより、前記人物画像データにおける前記特徴量を抽出する特徴量抽出部と、
前記記憶装置に記憶された前記行動解析に関する学習済みモデルを用いて、前記特徴量抽出部により抽出された前記特徴量を入力することにより、時系列の複数枚の前記人物画像データにおける前記人物の前記行動種類を出力する行動種類出力部と、
前記記憶装置に記憶された前記キーポイント抽出に関する学習済みモデルを用いて、前記特徴量抽出部により抽出された前記特徴量および前記行動種類出力部により出力された前記行動種類を入力することにより、前記人物画像データにおける前記人物の前記キーポイントを出力するキーポイント出力部と、
を備える、人物画像データ解析システムにある。
【発明の効果】
【0010】
キーポイント出力部は、人物画像データにおける特徴量のみを用いて、当該人物のキーポイントを出力しているのではない。キーポイント出力部は、人物画像データにおける特徴量に加えて、当該人物の行動種類を入力して、人物のキーポイントを出力している。
【0011】
このように、キーポイント出力部は、人物の行動種類を把握した上で人物のキーポイントを出力することで、人物のキーポイントを高精度に出力することができる。例えば、人物が上半身と下半身とをねじれさせた姿勢である場合には、キーポイントの1つとしての、隣り合う関節位置同士を接続する接続関係が誤って出力される可能性がある。しかし、人物の行動種類を把握することにより、ねじれ姿勢であっても、高精度にキーポイントの1つとしての接続関係を出力することができる。従って、人物の姿勢を高精度に解析することができる。
【図面の簡単な説明】
【0012】
図1】人物画像データ解析システムの構成を示す図である。
図2】第一実施形態の人物画像データ解析システムにおいて、推論フェーズにおける学習済みモデルAに関する入出力を示す図である。
図3】第一実施形態の人物画像データ解析システムにおいて、推論フェーズにおける学習済みモデルB,C,Dの関係、および、学習済みモデルB,C,Dの入出力を示す図である。
図4】学習済みモデルCの出力情報であって、行動種類毎のスコアを表すグラフである。
図5】学習済みモデルDの出力情報を説明する図であって、人物のキーポイントを示す図である。
図6】第一実施形態の人物画像データ解析システムにおいて、学習フェーズにおけるモデルB,C,Dの入出力を示す図である。
図7】比較例としての人物のキーポイントを示す図である。
図8】第二実施形態の人物画像データ解析システムにおいて、推論フェーズにおける学習済みモデルB,C,Dの関係、および、学習済みモデルB,C,Dの入出力を示す図である。
【発明を実施するための形態】
【0013】
(1.人物画像データ解析システムの概要)
人物画像データ解析システムは、人物画像データを取得し、取得した人物画像データに含まれる人物の姿勢を解析する。人物の姿勢は、例えば、立位、座位、臥位、膝立ち位などに分類され、それぞれにおいてさらに詳細に分類される。さらに、人物の姿勢は、静止状態であるか、動作状態であるかによっても異なる。つまり、人物画像データ解析システムは、人物画像データに写っている人物がどのような姿勢であるかを解析する。
【0014】
人物画像データ解析システムにより解析された人物の姿勢情報は、例えば、以下のように利用される。人物が静止状態において、当該人物の姿勢を評価する。例えば、人物が立位姿勢である場合に、適正な立位姿勢であるかの評価を行い、当該人物に対して、適正な立位姿勢となるよう改善させることができる。また、人物が座位姿勢や臥位姿勢である場合において、適正な座位姿勢や臥位姿勢であるかの評価を行い、適正な座具や寝具の選択に用いたり、座具や寝具の開発に用いたりすることができる。
【0015】
動作時における人物の姿勢を評価するために用いることもできる。立位姿勢から座位姿勢への動作、その逆の動作、座位姿勢から臥位姿勢への動作、その逆の動作などにおける姿勢を評価することができる。また、歩行時、走行時、跳躍時などの姿勢を評価することができ、さらに、スポーツを行っている時の人物の各種姿勢を評価することもできる。
【0016】
さらに、歩行器などの介護機器を用いている人物が、正しい姿勢で歩行器を利用しているかの評価を行うこともできる。また、歩行をアシストしたり、自立歩行を推進したりするように駆動する歩行支援機器において、歩行支援機器を用いている人物の姿勢を評価することもできる。人物の姿勢の評価結果を用いて、歩行支援機器が適切に機能しているかの評価を行うことができる。さらに、当該歩行支援機器を用いている人物の姿勢を解析し、解析結果を用いて、歩行支援機器の制御を行うこともできる。
【0017】
また、被介護者や工場などの作業者が動作負荷を軽減するためにアクティブパワーアシストスーツを装着している場合に、当該装着者の姿勢を評価することもできる。装着者の姿勢の評価結果を用いて、アシストスーツが適切に機能しているかの評価を行うことができる。さらに、装着者の姿勢を解析し、解析結果を用いて、アシストスーツの制御を行うこともできる。また、工場などの作業者の姿勢を解析することにより、当該作業者の作業時間の評価を行うこともできる。さらに、作業者による作業種類毎の作業時間を評価することもできる。
【0018】
(2.第一実施形態)
(2-1.人物画像データ解析システム1の推論フェーズにおける構成)
人物画像データ解析システム1の構成について図1図6を参照して説明する。特に、以下においては、人物画像データ解析システム1の推論フェーズにおける構成について説明する。図1に示すように、人物画像データ解析システム1は、撮像機器2と、解析に用いるコンピュータ装置により構成される。コンピュータ装置は、記憶装置3と、演算処理装置4とを備える。
【0019】
撮像機器2は、例えば、時系列に連続した動画像を撮像可能な動画像撮像機器や、時系列に静止画像を撮像可能が静止画像撮像機器などである。撮像機器2は、姿勢解析を行う対象である人物を含むように撮像するために用いられる。記憶装置3は、機械学習により生成された学習済みモデルA,B,C,Dを記憶する。演算処理装置4は、人物画像データ生成部11、特徴量抽出部12、行動種類出力部13、および、キーポイント出力部14を備える。
【0020】
図2に示すように、学習済みモデルAは、機械学習を行うことにより生成された人物画像データ抽出に関する機械学習モデルである。学習済みモデルAは、撮像機器2により撮像された画像データD1(以下、「元画像データ」と称する)を入力した場合に、元画像データD1の中から人物領域D1aを抽出する。元画像データD1は、人物領域D1a、および、人物領域D1aの周辺に位置する周辺領域D1bを含む。人物領域D1aには、人物に加えて、人物が保持している物体も含まれるようにしても良い。
【0021】
そして、学習済みモデルAは、元画像データD1が入力されると、抽出された人物領域D1aの画像データである人物画像データD2を出力する。学習済みモデルAは、例えば、R-CNN(Regions with Convolutional Neural Networks)などを適用する。学習済みモデルAは、例えば、四角形の領域(バウンディングボックス)などにより、人物領域D1aを抽出する。
【0022】
図3に示すように、学習済みモデルBは、機械学習を行うことにより生成された特徴量抽出に関する機械学習モデルである。学習済みモデルBは、例えば、ニューラルネットワークを含む機械学習アルゴリズム(ディープラーニングを含む)が好適であるが、他の機械学習アルゴリズムを適用しても良い。学習済みモデルBは、学習済みモデルAにより出力された人物が含まれる人物画像データD2を説明変数とし、人物画像データD2における特徴量を目的変数として、機械学習を行うことにより生成された機械学習モデルである。つまり、学習済みモデルBは、人物画像データD2が入力されることにより、人物画像データD2における特徴量を出力する。
【0023】
なお、学習済みモデルBが抽出する特徴量の種類は、予め設定しても良いし、機械学習により自動的に抽出されるようにしても良い。もちろん、特徴量の種類は、機械学習による自動的な抽出と設定者による設定とを併用しても良い。例えば、特徴量の種類は、機械学習により自動的に抽出された後に、設定者による修正設定を行うようにしても良い。
【0024】
学習済みモデルCは、機械学習を行うことにより生成された行動解析に関する機械学習モデルである。学習済みモデルCは、例えば、ニューラルネットワークを含む機械学習アルゴリズム(ディープラーニングを含む)が好適であるが、他の機械学習アルゴリズムを適用しても良い。学習済みモデルCは、時系列の複数枚の人物画像データD2のそれぞれに基づいて学習済みモデルBにより抽出された複数枚分の特徴量を説明変数とし、時系列の複数枚の人物画像データD2における人物の行動種類を目的変数として、機械学習を行うことにより生成された機械学習モデルである。ここで、説明変数としての複数枚分の特徴量についての枚数や時系列の時間などは、任意に設定できる。
【0025】
人物の行動種類は、例えば、静止状態における立位姿勢、座位姿勢、臥位姿勢、膝立ち位姿勢、動作状態における歩行姿勢、走行姿勢、跳躍姿勢、各種スポーツを行っている時の姿勢などを大分類とすることができる。人物の行動種類は、当該大分類をさらに細かく分類されている。例えば、座位姿勢は、胡座、安座、正座、長座位、端座位、半座位などに分類される。また、臥位姿勢は、仰臥位、側臥位、腹臥位などに分類される。他の姿勢についても細かく分類される。
【0026】
学習済みモデルCは、時系列の複数枚の人物画像データD2のそれぞれに基づいて学習済みモデルBにより抽出された複数枚分の特徴量が入力されると、図4に示すような、当該人物の行動種類のスコアを生成する。そして、学習済みモデルCは、スコア値が最も高い行動種類を当該人物の行動種類と認定して、当該行動種類を出力する。
【0027】
学習済みモデルDは、機械学習を行うことにより生成されたキーポイント抽出に関する機械学習モデルである。学習済みモデルDは、例えば、ニューラルネットワークを含む機械学習アルゴリズム(ディープラーニングを含む)が好適であるが、他の機械学習アルゴリズムを適用しても良い。学習済みモデルDは、特徴量および行動種類を説明変数とし、人物画像データD2における人物の姿勢を表現したキーポイントを目的変数として、機械学習を行うことにより生成された機械学習モデルである。特徴量は、学習済みモデルBにより出力される情報である。行動種類は、学習済みモデルCにより出力される情報である。
【0028】
キーポイントについて、図5を参照して説明する。キーポイントは、図5の黒丸の一部にて示す人物の関節位置を含む。本形態においては、キーポイントは、図5の黒丸の一部にて示すように、人物の目の位置を含むようにしている。さらに、キーポイントは、図5の黒丸同士を接続する線により示す接続関係を含む。例えば、キーポイントは、隣り合う関節位置同士を接続する接続関係、隣り合う目の位置同士を接続する接続関係、目の位置と目の位置に近接する関節位置とを接続する接続関係を含む。つまり、キーポイントは、人物の姿勢を表現するための部位と、各部位の接続関係と、を含む特徴データである。そして、学習済みモデルDは、特徴量および行動種類が入力されると、図5に示すキーポイントを出力する。
【0029】
人物画像データ生成部11は、図1および図2に示すように、撮像機器2から元画像データD1を取得する。人物画像データ生成部11は、記憶装置3に記憶された学習済みモデルAを用いて、元画像データD1を入力することにより、元画像データD1の中から人物領域D1aが抽出された人物画像データD2を生成する。
【0030】
元画像データD1が動画像データである場合には、人物画像データ生成部11は、取得した動画像データから、時系列からなる複数枚の静止画像データを生成する。そして、人物画像データ生成部11は、生成した時系列(例えば、時刻T1~T10)からなる複数枚の静止画像データのそれぞれを学習済みモデルAに入力し、複数枚の静止画像データのそれぞれにおける人物画像データD2を生成する。つまり、人物画像データ生成部11は、例えば時刻T1~T10における複数枚の人物画像データD2を生成する。
【0031】
元画像データD1が静止画像データである場合には、人物画像データ生成部11は、取得した時系列(例えばT1~T10)からなる複数枚の静止画像データのそれぞれを学習済みモデルAに入力し、複数枚の静止画像データのそれぞれにおける人物画像データD2を生成する。つまり、この場合も、人物画像データ生成部11は、例えば時刻T1~T10における複数枚の人物画像データD2を生成する。
【0032】
人物画像データD2には、人物の少なくとも胴体が撮像機器2に正対する姿勢の画像データ、人物の少なくとも胴体が背向する姿勢の画像データ、人物の少なくとも胴体が横向きとなる姿勢の画像データなど、種々の画像データが含まれる。ここで言う横向きとは、撮像機器2に対して90°の向きである場合に限られず、撮像機器2に対して完全に正対する場合および完全に背向する場合を除く意味であって、斜め方向を向いている場合を含む。
【0033】
また、人物画像データD2には、人物が上半身と下半身とがねじれていない姿勢の画像データや、ねじれた姿勢の画像データなども含まれる。人物が歩行中においては、左手および右足が前方に位置し、右手および左足が後方に位置する状態となることがある。このような場合には、人物の上半身と下半身とがねじれた姿勢となっている。
【0034】
特徴量抽出部12は、図1および図3に示すように、人物画像データ生成部11により生成された時系列(T1~T10)からなる複数枚の人物画像データD2を取得する。特徴量抽出部12は、記憶装置3に記憶された学習済みモデルBを用いて、時系列(T1~T10)からなる複数枚の人物画像データD2を入力する。そうすると、特徴量抽出部12は、学習済みモデルBの出力として、複数枚の人物画像データD2のそれぞれにおける特徴量、すなわち複数枚分の特徴量を抽出する。
【0035】
行動種類出力部13は、図1および図3に示すように、特徴量抽出部12により抽出された複数枚分の特徴量を取得する。行動種類出力部13は、記憶装置3に記憶された学習済みモデルCを用いて、特徴量抽出部12により時系列(T1~T10)からなる複数枚の人物画像データD2に基づいて抽出された複数枚分の特徴量を学習済みモデルBに入力する処理を行う。
【0036】
そうすると、行動種類出力部13は、時系列(T1~T10)からなる複数枚分の特徴量を用いて、時系列の複数枚の人物画像データD2における人物の行動種類を出力する。具体的には、行動種類出力部13は、図4に示すように、行動種類ごとのスコアを生成し、スコア値が最も高い行動種類を、当該人物の行動種類として出力する。
【0037】
本形態においては、行動種類出力部13は、1枚の人物画像データD2における特徴量ではなく、複数枚の人物画像データD2における特徴量、すなわち複数枚分の特徴量を入力している。つまり、時系列の複数枚の人物画像データD2における人物の位置の変化を判定することにより、行動種類を特定している。
【0038】
キーポイント出力部14は、図1および図3に示すように、特徴量抽出部12により抽出された特徴量を取得する。特徴量抽出部12は、上述したように、時系列(T1~T10)からなる複数枚の人物画像データD2のそれぞれにおける特徴量、すなわち複数枚分の特徴量を抽出している。
【0039】
ただし、キーポイント出力部14は、時系列(T1~T10)からなる複数枚分の特徴量を用いる必要はない。本形態においては、キーポイント出力部14は、時系列(T1~T10)からなる複数枚の人物画像データD2のうち選択された1枚の人物画像データD2に基づいて抽出された1枚分の特徴量を取得する。例えば、キーポイント出力部14は、時刻T1~T10の中間時刻T5における人物画像データD2に基づいて抽出された特徴量を取得する。なお、キーポイント出力部14が選択する時刻は、任意に決定できる。
【0040】
さらに、キーポイント出力部14は、行動種類出力部13により出力された行動種類を取得する。キーポイント出力部14は、記憶装置3に記憶された学習済みモデルCを用いて、取得した特徴量および行動種類を学習済みモデルCに入力する処理を行うことにより、時刻T5の人物画像データD2における人物のキーポイントを出力する。
【0041】
図5に示すように、キーポイント出力部14は、時刻T5の人物画像データD2における人物のキーポイントとして、関節位置、目の位置、各位置を接続する接続関係を出力する。
【0042】
(2-2.人物画像データ解析システム1の学習フェーズにおける構成)
人物画像データ解析システム1の学習フェーズにおける構成について、図6を参照して説明する。特に、モデルB,C,Dに関する学習フェーズについて説明する。
【0043】
まず、学習に使用する訓練データセットを準備する。訓練データセットとして、時系列の複数枚の人物画像データD2からなるユニットを多数準備する。例えば、複数の動画像データは、時系列の複数枚の人物画像データD2からなるユニットを多数含むものであるため、訓練データセットとして好適である。さらに、訓練データセットは、当該人物画像データD2における人物のキーポイント、人物の行動種類についてのラベル情報を含む。
【0044】
学習に用いる損失関数F(x,y)は、キーポイントの要素x、および、行動種類の要素yを含む。モデルB,C,Dは、訓練データセットを入力して、損失関数F(x,y)を小さくするように学習を行う。損失関数F(x,y)がキーポイントの要素および行動種類の要素を有することにより、モデルB,C,Dは、キーポイントおよび行動種類の正解を出力するように学習される。このようにして学習された学習済みモデルB,C,Dは、記憶装置3に記憶される。
【0045】
上記のような損失関数F(x,y)を用いた学習は、モデルB,C,Dをそれぞれ独立に学習するのではなく、モデルB,C,Dを一体的なモデルのように扱って学習している。従って、モデルB,C,Dは、それぞれ、損失関数(x、y)に影響を受ける部分が効果的に学習されていく。
【0046】
(2-3.効果)
人物画像データ解析システム1において、キーポイント出力部14は、人物画像データD2における特徴量のみを用いて、当該人物のキーポイントを出力しているのではない。キーポイント出力部14は、人物画像データD2における特徴量に加えて、当該人物の行動種類を入力して、人物のキーポイントを出力している。
【0047】
このように、キーポイント出力部14は、人物の行動種類を把握した上で人物のキーポイントを出力することで、人物のキーポイントを高精度に出力することができる。このことについて、本形態におけるキーポイントの出力結果である図5と、比較例としてのキーポイントの出力結果である図7とを比較して説明する。
【0048】
図5は、本形態におけるキーポイント出力部14が出力したキーポイントを示す。一方、図7は、行動種類を考慮せずに、人物画像データD2における特徴量のみに基づいて出力されたキーポイントを示す。図5および図7に示すキーポイントに用いた人物画像データD2は、人物が上半身と下半身とをねじれさせた姿勢である。さらに、人物画像データD2は、人物の少なくとも胴体が横向きとなる姿勢の画像データである。
【0049】
図5に示す人物の下半身において、右股関節と右膝関節とが接続され、左股関節と左膝関節とが接続されている。このように、図5においては、関節同士が正しく接続されている。一方、図7に示す人物の下半身において、右股関節と左膝関節とが接続され、左股関節と右膝関節とが接続されている。つまり、図7においては、関節同士が誤って接続されている。
【0050】
図5および図7に示す人物の下半身において、右股関節は、右膝関節よりも、左膝関節の方が近い位置に位置し、左股関節は、左膝関節よりも、右膝関節の方が近い位置に位置する。そして、人物画像データが人物の胴体が横向きの姿勢であるため、左右股関節と左右膝関節とが、左右の前後位置が反対になっている。図7においては、近い位置に位置する関節同士を接続したものと思われる。
【0051】
図7に示すように、人物が上半身と下半身とをねじれさせた姿勢である場合には、キーポイントの1つとしての、隣り合う関節位置同士を接続する接続関係が誤って出力される可能性がある。関節位置の接続を正しく認識しないと、人物の姿勢を正しく認識できない。しかし、本形態においては、図5に示すように、人物の行動種類を把握することにより、ねじれ姿勢かつ横向き姿勢であっても、高精度にキーポイントの1つとしての接続関係を出力することができる。従って、人物の姿勢を高精度に解析することができる。
【0052】
行動種類出力部13は、時系列の複数枚分の特徴量を入力することにより、人物の行動種類を出力している。従って、行動種類出力部13は、時系列の複数枚の人物画像データD2を用いることで、高精度に人物の行動種類を特定することができる。その結果、人物のキーポイントを高精度に出力できる。
【0053】
また、学習済みモデルB,C,Dは、学習フェーズにおいて、キーポイントの要素および行動種類の要素を含む損失関数F(x,y)により学習されている。つまり、キーポイント出力部14が行動種類を考慮したキーポイントを高精度に出力できるように、学習済みモデルB,C,Dが学習される。このようにして学習された学習済みモデルB,C,Dを用いて、人物のキーポイントを出力することから、高精度なキーポイントを出力できる。
【0054】
また、人物画像データ解析システム1は、撮像機器2により撮像された元画像データD1そのものを特徴量抽出部12に入力するのではなく、元画像データD1から人物領域D1aが抽出された人物画像データD2を特徴量抽出部12に入力している。このように、人物領域D1aを抽出した人物画像データD2を生成することにより、人物画像データD2における人物のキーポイントを高精度に出力することにつながる。
【0055】
(3.第二実施形態)
第二実施形態の人物画像データ解析システム1の推論フェーズの構成について、図1および図8を参照して説明する。
【0056】
図1に示すように、人物画像データ解析システム1は、学習済みモデルA,B,C,Dを記憶する記憶装置3、および、演算処理装置4を備える。演算処理装置4は、人物画像データ生成部11、特徴量抽出部12、行動種類出力部13、および、キーポイント出力部14を備える。
【0057】
学習済みモデルA,B,Dは、第一実施形態における学習済みモデルA,B,Dと同一である。学習済みモデルCは、再帰型アルゴリズムを適用する。例えば、学習済みモデルCは、RNN(Recurrent Neural Network)、LSTM(Long Short Term Memory)などを適用する。
【0058】
つまり、学習済みモデルCは、特徴量抽出部12により1枚の人物画像データD2に基づいて抽出された1枚分の特徴量を順次入力した場合に、前回演算処理を行った結果を用いた再帰型演算を行うことにより、今回演算処理の対象である1枚の人物画像データD2における人物の行動種類を出力する機械学習モデルである。
【0059】
本形態において、演算処理装置4を構成する各部の処理は、以下のようになる。特徴量抽出部12は、学習済みモデルAを用いて、時系列の複数枚の人物画像データD2を順次入力することにより、複数枚の人物画像データD2のそれぞれにおける特徴量を順次抽出する。つまり、特徴量抽出部12は、順次、演算処理の対象となる1枚の人物画像データD2の特徴量を抽出する。
【0060】
行動種類出力部13は、学習済みモデルCを用いて、特徴量抽出部12により1枚の人物画像データD2に基づいて抽出された1枚分の特徴量を順次入力し、かつ、前回演算処理を行った結果を用いた再帰型演算を行うことにより、今回演算処理の対象である1枚の人物画像データD2における人物の行動種類を出力する。
【0061】
キーポイント出力部14は、学習済みモデルDを用いて、今回演算処理の対象である1枚分の特徴量、および、今回演算処理の対象を含む人物画像データD2における人物の行動種類を入力することにより、今回演算処理の対象である1枚の人物画像データD2における人物のキーポイントを出力する。
【0062】
行動種類出力部13が、再帰型演算を行うことにより、今回演算処理の対象である1枚分の特徴量を用いて、人物の行動種類を出力できる。従って、特徴量抽出部12、行動種類出力部13、および、キーポイント出力部14における処理が、今回演算処理の対象としての1枚の人物画像データD2の入力により実行される。従って、時系列の人物画像データを順次入力する度に、当該人物画像データにおける人物のキーポイントを出力することができる。つまり、リアルタイムに人物のキーポイントを出力できる。その結果、リアルタイムに、人物の姿勢を解析することができる。
【符号の説明】
【0063】
1 人物画像データ解析システム
3 記憶装置
4 演算処理装置
11 人物画像データ生成部
12 特徴量抽出部
13 行動種類出力部
14 キーポイント出力部
D1 元画像データ
D2 人物画像データ
図1
図2
図3
図4
図5
図6
図7
図8