IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-78348情報処理プログラム、情報処理方法、および情報処理装置
<>
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図1
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図2
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図3
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図4
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図5
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図6
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図7
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図8
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図9
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図10
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図11
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図12
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図13
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図14
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図15
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図16
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図17
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図18
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図19
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図20
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図21
  • 特開-情報処理プログラム、情報処理方法、および情報処理装置 図22
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024078348
(43)【公開日】2024-06-10
(54)【発明の名称】情報処理プログラム、情報処理方法、および情報処理装置
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240603BHJP
   G06F 16/73 20190101ALI20240603BHJP
【FI】
G06T7/00 660B
G06F16/73
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022190856
(22)【出願日】2022-11-29
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100104190
【弁理士】
【氏名又は名称】酒井 昭徳
(72)【発明者】
【氏名】▲高▼橋 悟
(72)【発明者】
【氏名】伊海 佳昭
【テーマコード(参考)】
5B175
5L096
【Fターム(参考)】
5B175DA04
5L096AA06
5L096BA02
5L096CA02
5L096DA02
5L096FA69
5L096HA09
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
【課題】特定の行動を精度よく認識するモデルを学習し易くすること。
【解決手段】情報処理装置100は、第1人物が映った映像における、第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を特定する。情報処理装置100は、特定した左右対となる2つの身体部位のそれぞれの身体部位の位置情報の和を示す第1成分110を生成する。情報処理装置100は、特定した左右対となる2つの身体部位のそれぞれの身体部位の位置情報の差を示す第2成分120の絶対値を示す第3成分130を生成する。情報処理装置100は、生成した第1成分110と、生成した第3成分130とに基づいて、モデルを学習する。
【選択図】図1
【特許請求の範囲】
【請求項1】
第1人物が映った映像を取得し、
取得した前記映像を分析することにより、前記映像における、前記第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を特定し、
特定した前記それぞれの身体部位の位置情報の和を示す第1成分を生成し、
特定した前記それぞれの身体部位の位置情報の差を示す第2成分の絶対値を示す第3成分を生成し、
生成した前記第1成分と、生成した前記第3成分とに基づいて、第2人物が映った映像から前記第2人物の姿勢情報を出力するモデルを学習する、
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
【請求項2】
前記学習する処理は、
生成した前記第1成分と、前記第2成分と、生成した前記第3成分とに基づいて、前記モデルを学習する、ことを特徴とする請求項1に記載の情報処理プログラム。
【請求項3】
前記特定する処理は、
取得した前記映像を分析することにより、前記映像における、前記それぞれの身体部位の多次元空間上の位置を表す、それぞれ異なる軸方向の複数の成分値を示す位置情報を特定する、ことを特徴とする請求項1または2に記載の情報処理プログラム。
【請求項4】
前記第1成分を生成する処理は、
前記軸方向ごとに、前記それぞれの身体部位の位置情報が示す前記軸方向の成分値の和を用いた指標値を算出し、算出した当該指標値を組み合わせた前記第1成分を生成し、
前記第3成分を生成する処理は、
前記軸方向ごとに、前記それぞれの身体部位の位置情報が示す前記軸方向の成分値の差を用いた指標値を算出し、算出した当該指標値の絶対値を組み合わせた前記第3成分を生成する、ことを特徴とする請求項3に記載の情報処理プログラム。
【請求項5】
前記2つの身体部位は、左右対となる異なる身体部位の組み合わせである、ことを特徴とする請求項1または2に記載の情報処理プログラム。
【請求項6】
第1人物が映った映像を取得し、
取得した前記映像を分析することにより、前記映像における、前記第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を特定し、
特定した前記それぞれの身体部位の位置情報の和を示す第1成分を生成し、
特定した前記それぞれの身体部位の位置情報の差を示す第2成分の絶対値を示す第3成分を生成し、
生成した前記第1成分と、生成した前記第3成分とに基づいて、第2人物が映った映像から前記第2人物の姿勢情報を出力するモデルを学習する、
処理をコンピュータが実行することを特徴とする情報処理方法。
【請求項7】
第1人物が映った映像を取得し、
取得した前記映像を分析することにより、前記映像における、前記第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を特定し、
特定した前記それぞれの身体部位の位置情報の和を示す第1成分を生成し、
特定した前記それぞれの身体部位の位置情報の差を示す第2成分の絶対値を示す第3成分を生成し、
生成した前記第1成分と、生成した前記第3成分とに基づいて、第2人物が映った映像から前記第2人物の姿勢情報を出力するモデルを学習する、
制御部を有することを特徴とする情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理プログラム、情報処理方法、および情報処理装置に関する。
【背景技術】
【0002】
従来、人物が映った映像を解析することにより、映像の各フレームにおける人物の骨格情報を検出する技術がある。また、入力された人物の骨格情報に応じて、人物の行動を認識する機械学習モデルを学習および利用する技術がある。
【0003】
先行技術としては、例えば、複数の身体部位それぞれに対応する座標のうち、予め定められた複数の基準部位に対応する座標を結ぶことにより形成される基準軸を対象として、複数の身体部位それぞれに対応する座標を線対称となる座標に変換するものがある。また、例えば、入力画像における、一対の垂直線および斜線の周囲に対応する領域内の画素と周囲外の領域内の画素とに基づいて、対称線分図形の存在の有無を判定する技術がある。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2022-6919号公報
【特許文献2】特開2011-65434号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来技術では、機械学習モデルを用いて、人物の特定の行動を精度よく認識することが難しい場合がある。例えば、「右手で物体を掴む」という行動と、「左手で物体を掴む」という行動とを、「片手で物体を掴む」という同一の行動として精度よく認識する機械学習モデルを学習することが難しい。
【0006】
1つの側面では、本発明は、特定の行動を精度よく認識するモデルを学習し易くすることを目的とする。
【課題を解決するための手段】
【0007】
1つの実施態様によれば、第1人物が映った映像を取得し、取得した前記映像を分析することにより、前記映像における、前記第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を特定し、特定した前記それぞれの身体部位の位置情報の和を示す第1成分を生成し、特定した前記それぞれの身体部位の位置情報の差を示す第2成分の絶対値を示す第3成分を生成し、生成した前記第1成分と、生成した前記第3成分とに基づいて、第2人物が映った映像から前記第2人物の姿勢情報を出力するモデルを学習する情報処理プログラム、情報処理方法、および情報処理装置が提案される。
【発明の効果】
【0008】
一態様によれば、特定の行動を精度よく認識するモデルを学習し易くすることが可能になる。
【図面の簡単な説明】
【0009】
図1図1は、実施の形態にかかる情報処理方法の一実施例を示す説明図である。
図2図2は、情報処理システム200の一例を示す説明図である。
図3図3は、情報処理装置100のハードウェア構成例を示すブロック図である。
図4図4は、映像撮影装置201のハードウェア構成例を示すブロック図である。
図5図5は、情報処理装置100の機能的構成例を示すブロック図である。
図6図6は、情報処理装置100の動作の流れを示す説明図である。
図7図7は、ペア管理テーブル700の記憶内容の一例を示す説明図である。
図8図8は、それぞれの骨格の座標情報を取得する一例を示す説明図である。
図9図9は、座標情報を変換する一例を示す説明図(その1)である。
図10図10は、座標情報を変換する一例を示す説明図(その2)である。
図11図11は、情報処理装置100の効果を表す数値例を示す説明図(その1)である。
図12図12は、情報処理装置100の効果を表す数値例を示す説明図(その2)である。
図13図13は、情報処理装置100の効果を表す数値例を示す説明図(その3)である。
図14図14は、情報処理装置100の効果を表す数値例を示す説明図(その4)である。
図15図15は、情報処理装置100の効果を表す数値例を示す説明図(その5)である。
図16図16は、情報処理装置100の効果を表す数値例を示す説明図(その6)である。
図17図17は、情報処理装置100の効果を表す数値例を示す説明図(その7)である。
図18図18は、情報処理装置100の効果を表す数値例を示す説明図(その8)である。
図19図19は、情報処理装置100の効果を表す数値例を示す説明図(その9)である。
図20図20は、情報処理装置100の効果を表す数値例を示す説明図(その10)である。
図21図21は、学習処理手順の一例を示すフローチャートである。
図22図22は、認識処理手順の一例を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下に、図面を参照して、本発明にかかる情報処理プログラム、情報処理方法、および情報処理装置の実施の形態を詳細に説明する。
【0011】
(実施の形態にかかる情報処理方法の一実施例)
図1は、実施の形態にかかる情報処理方法の一実施例を示す説明図である。情報処理装置100は、モデルを学習するためのコンピュータである。情報処理装置100は、例えば、サーバ、または、PC(Personal Computer)などである。
【0012】
モデルは、例えば、入力された人物の骨格情報に応じて、人物の行動を認識する機会学習モデルである。骨格情報は、例えば、人物が有する複数の骨格のそれぞれの骨格の位置を表す座標値を含む。骨格の位置は、例えば、首、頭、右肩、左肩、右肘、左肘、右手、左手、右膝、左膝、右足、または、左足などの位置である。
【0013】
モデルは、例えば、顧客である人物の行動を認識し、マーケティングを実施すること、介護対象である人物の行動を認識し、当該人物の転倒などを検出すること、または、監視カメラに映った人物の行動を認識し、不審者を発見することに利用することが考えられる。従って、入力された人物の骨格情報に応じて、人物の行動を精度よく認識可能なモデルを学習することが望まれる。
【0014】
しかしながら、従来では、入力された人物の骨格情報に応じて、人物の行動を精度よく認識可能なモデルを学習することが難しい場合がある。このため、学習したモデルを用いても、人物の特定の行動を精度よく認識することが難しいことがある。
【0015】
例えば、人物の行動を認識するにあたって、左右対となる2つの身体部位のそれぞれの身体部位に関する同種の行動を、同一の行動として認識することが好ましい場合がある。具体的には、「右手で物体を掴む」という行動と、「左手で物体を掴む」という行動とを、「片手で物体を掴む」という同一の行動として認識することが好ましい場合がある。
【0016】
従来では、左右対となる2つの身体部位のそれぞれの身体部位に関する同種の行動を、同一の行動として精度よく認識可能なモデルを学習することが難しい。具体的には、「右手で物体を掴む」という行動と、「左手で物体を掴む」という行動とを、「片手で物体を掴む」という同一の行動として精度よく認識可能なモデルを学習することが難しい。
【0017】
これに対し、例えば、左右対となる2つの身体部位のうち、それぞれ異なる身体部位で同種の行動を行った場合に対応する2つの骨格情報に、同一の行動を示すラベルを対応付けた学習データに基づいて、モデルを学習する手法が考えられる。具体的には、「右手で物体を掴む」という第1行動を行った際の第1骨格情報に、「片手で物体を掴む」という行動を示すラベルを対応付けた第1学習データを用意することが考えられる。具体的には、「左手で物体を掴む」という第2行動を行った際の第2骨格情報に、「片手で物体を掴む」という行動を示すラベルを対応付けた第2学習データを用意することが考えられる。具体的には、用意した第1学習データと、第2学習データとに基づいて、モデルを学習することが考えられる。
【0018】
この手法では、2つの学習データを、それぞれの学習データに含まれる骨格情報が有する特徴が異なるにも拘らず、同一の行動を示すラベルを含む学習データとして扱うことになる。このため、学習データの揺らぎが大きくなり易く、左右対となる2つの身体部位のそれぞれの身体部位に関する同種の行動を、同一の行動として精度よく認識可能なモデルを学習することが難しいという問題がある。
【0019】
また、例えば、左右対となる2つの身体部位のうち、それぞれ異なる身体部位で同種の行動を行った場合に対応する2つのモデルを学習する手法が考えられる。具体的には、「右手で物体を掴む」という第1行動を認識可能な第1モデルと、「左手で物体を掴む」という第2行動を認識可能な第2モデルとを学習することが考えられる。具体的には、第1行動および第2行動のいずれを認識した場合も、「片手で物体を掴む」という同一の行動を認識したと扱うことが考えられる。
【0020】
この手法では、「片手で物体を掴む」という行動を精度よく認識するために、2つのモデルを学習することになるため、用意する学習データの量の増大化を招き、学習時の処理負担および処理時間の増大化を招くという問題がある。また、学習した2つのモデルの精度検証またはメンテナンスの処理負担および処理時間の増大化を招くことになる。このため、「片手で物体を掴む」という行動を認識可能にする際の開発コストおよび運用コストの増大化を招くことになる。
【0021】
また、例えば、左右対となる2つの身体部位のうち、それぞれ異なる身体部位で同種の行動を行った場合に対応する2つの骨格情報のそれぞれの骨格情報を加工し、同一の骨格情報として扱った上で、モデルを学習する手法が考えられる。
【0022】
具体的には、右手の位置を示す座標値と、左手の位置を示す座標値とのうち、絶対値が大きい方の座標値を、手の位置を示す座標値として設定することが考えられる。具体的には、右手の位置を示す座標値と、左手の位置を示す座標値との組み合わせを、手の位置を示す座標値に置き換えるよう、2つの骨格情報のそれぞれの骨格情報を加工した上で、モデルを学習することが考えられる。
【0023】
この手法では、右手の位置を示す座標値と、左手の位置を示す座標値とのうち、絶対値が小さい方の座標値が、モデルに反映されない。このため、左右対となる2つの身体部位のそれぞれの身体部位に関する同種の行動を、同一の行動として精度よく認識可能なモデルを学習することが難しいという問題がある。
【0024】
具体的には、右手の位置を示す座標値と、左手の位置を示す座標値とのうち、身体の中心からの距離が遠い方の座標値を、第1手の位置を示す座標値に設定し、身体の中心からの距離が近い方の座標値を、第2手の位置を示す座標値に設定することが考えられる。具体的には、右手の位置を示す座標値と、左手の位置を示す座標値とを、身体の中心からの距離が遠い第1手の位置を示す座標値と、身体の中心からの距離が近い第2手の位置を示す座標値とに置き換えるよう、骨格情報を加工することが考えられる。具体的には、加工したそれぞれの骨格情報に基づいて、モデルを学習することが考えられる。
【0025】
この手法では、時系列に沿った複数の骨格情報を加工した上で、加工した複数の骨格情報に基づいて、モデルを学習しようとする場合、モデルを適切に学習することができないことがある。具体的には、身体の中心から右手の位置を示す座標値までの距離と、身体の中心から左手の位置を示す座標値までの距離との大小関係が、時系列の途中で入れ替わることがある。このため、右手と、左手とのうち、第1手として扱われる手と、第2手として扱われる手とが、時系列の途中で入れ替わることがある。そして、加工した複数の骨格情報は、人物の片手が連続的に移動せずに瞬間的に別の場所に現れるといった、人物の動作として、物理的に不自然な挙動を表すようになることがある。従って、左右対となる2つの身体部位のそれぞれの身体部位に関する同種の行動を、同一の行動として精度よく認識可能なモデルを学習することが難しいという問題がある。
【0026】
そこで、本実施の形態では、特定の行動を精度よく認識する機械学習モデルを学習し易くすることができる情報処理方法について説明する。
【0027】
図1において、情報処理装置100は、第1人物が映った映像における、第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を特定する。映像は、例えば、1以上のフレームを含む。身体部位は、例えば、首、頭、右肩、左肩、右肘、左肘、右手、左手、右膝、左膝、右足、または、左足などである。
【0028】
対となる2つの身体部位は、例えば、右手と、左手との組み合わせである。位置情報は、例えば、身体部位の3次元空間上の位置を表す、それぞれ異なる軸方向の複数の成分値の組み合わせを示す。軸は、例えば、X軸、Y軸、および、Z軸と呼ばれる。身体部位の3次元空間上の位置は、例えば、身体部位を示す骨格の3次元空間上の位置である。位置情報は、例えば、ベクトルであってもよい。
【0029】
位置情報は、例えば、身体部位の2次元空間上の位置を表す、それぞれ異なる軸方向の複数の成分値の組み合わせを示していてもよい。軸は、例えば、X軸、および、Y軸と呼ばれる。2次元空間は、例えば、フレームまたはフレーム内の人物が映った規定の大きさの領域などに対応していてもよい。身体部位の2次元空間上の位置は、例えば、身体部位を示す骨格の2次元空間上の位置である。位置情報は、例えば、ベクトルであってもよい。位置情報は、例えば、極座標であってもよい。
【0030】
情報処理装置100は、例えば、第1人物が映った映像の各フレームにおける、第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を特定する。情報処理装置100は、具体的には、第1人物が映った映像を取得する。そして、情報処理装置100は、具体的には、取得した映像を分析することにより、当該映像の各フレームにおける、第1人物が有する身体部位のうち、左右対となる2つの身体部位のそれぞれの身体部位の位置情報を生成することにより、当該位置情報を特定する。
【0031】
(1-1)情報処理装置100は、特定した左右対となる2つの身体部位のそれぞれの身体部位の位置情報の和を示す第1成分110を生成する。情報処理装置100は、例えば、右手の身体部位の位置情報が示すベクトル101と、左手の身体部位の位置情報が示すベクトル102の和を示す第1成分110を生成する。第1成分110は、例えば、ベクトルである。
【0032】
情報処理装置100は、具体的には、第1人物が映った映像の各フレームにおける、右手の身体部位の位置情報が示すベクトル101と、左手の身体部位の位置情報が示すベクトル102の和を示す第1成分110を生成する。これにより、情報処理装置100は、左右対となる2つの身体部位のそれぞれの身体部位の位置情報の共通性に関する特徴を表し、モデルを学習する際の指針となり得る第1成分110を得ることができる。
【0033】
(1-2)情報処理装置100は、特定した左右対となる2つの身体部位のそれぞれの身体部位の位置情報の差を示す第2成分120の絶対値を示す第3成分130を生成する。情報処理装置100は、例えば、右手の身体部位の位置情報が示すベクトル101と、左手の身体部位の位置情報が示すベクトル102の差を示す第2成分120の絶対値を示す第3成分130を生成する。第2成分120は、例えば、ベクトルである。
【0034】
第3成分130は、例えば、第2成分120の絶対値を大きさとして有する規定の向きのベクトルである。規定の向きは、例えば、所定の規則に従って、第2成分120の向きに応じて決定される。所定の規則は、第3成分の向きを、第2成分の向きと同一の向き、および、第2成分の向きの逆の向きのうち、いずれかの向きに決定する規則である。所定の規則は、第3成分の向きを、第2成分の向きと同一の向き、および、第2成分の向きの逆の向きのうち、いずれかの軸方向の向き成分が正となるいずれかの向きに決定する規則である。
【0035】
情報処理装置100は、具体的には、第1人物が映った映像の各フレームにおける、右手の身体部位の位置情報が示すベクトル101と、左手の身体部位の位置情報が示すベクトル102の差を示す第2成分120の絶対値を示す第3成分130を生成する。これにより、情報処理装置100は、それぞれの身体部位の位置情報の相違性に関する特徴を表し、モデルを学習する際の指針となり得る第3成分130を得ることができる。また、情報処理装置100は、左右対となる2つの身体部位のそれぞれの身体部位の動きが逆転したとしても、生成する第3成分130が一致するよう、向きを調整した第3成分130を生成することができる。
【0036】
(1-3)情報処理装置100は、生成した第1成分110と、生成した第3成分130とに基づいて、モデルを学習する。第2人物は、例えば、第1人物と同一の人物であってもよい。第2人物は、例えば、第1人物とは異なる人物であってもよい。
【0037】
モデルは、第2人物が映った映像から第2人物の姿勢情報を出力する機能を有する。モデルは、例えば、第2人物が映った映像における、第2人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を含む説明変数の入力に応じて、第2人物の姿勢情報を出力する機能を有する。
【0038】
モデルは、例えば、ニューラルネットワークである。モデルは、例えば、数式であってもよい。モデルは、例えば、木構造であってもよい。姿勢情報は、例えば、第2人物が特定の姿勢であるか否かを示す情報である。姿勢情報は、例えば、第2人物が特定の行動に対応する姿勢であるか否かを示す情報であってもよい。姿勢情報は、例えば、第2人物が特定の行動を行ったか否かを示す情報であってもよい。
【0039】
情報処理装置100は、例えば、第1人物が映った映像の各フレームにおける、生成した第1成分110と、生成した第3成分130とに基づいて、モデルを学習する。情報処理装置100は、具体的には、第1人物が映った映像の各フレームにおける、第1人物の行動の正解を示すラベルを取得する。情報処理装置100は、具体的には、第1人物が映った映像の各フレームについて、当該フレームにおける、第1成分110と、第3成分130とを含む入力サンプルと、第1人物の行動の正解を示すラベルとを対応付けた学習データを生成する。
【0040】
情報処理装置100は、具体的には、ロジスティック回帰を用いて、生成した学習データに基づいて、モデルを学習する。情報処理装置100は、具体的には、ロジスティック回帰以外の手法を用いて、生成した学習データに基づいて、モデルを学習してもよい。情報処理装置100は、具体的には、誤差逆伝搬を用いて、生成した学習データに基づいて、モデルを学習してもよい。
【0041】
これにより、情報処理装置100は、第2人物が映った映像から第2人物の姿勢情報を出力する機能を有するモデルを学習することができる。情報処理装置100は、例えば、左右対となる2つの身体部位のそれぞれの身体部位の位置情報を、所定の性質を有する、第1成分110と、第3成分130との組み合わせに変換することができる。
【0042】
所定の性質は、例えば、左右対となる2つの身体部位のそれぞれの身体部位の動きが逆転したとしても、第1成分110と、第3成分130との組み合わせが同一になるという性質を含む。所定の性質は、例えば、左右対となる2つの身体部位のそれぞれの身体部位の動きの特徴が、第1成分110と、第3成分130との組み合わせに現れるという性質を含む。所定の性質は、例えば、時系列に沿って、第1成分110が連続的に変化し、かつ、第3成分130が連続的に変化するという性質を有する。
【0043】
このため、情報処理装置100は、第1成分110と、第3成分130との組み合わせを利用して、第2人物が映った映像から第2人物の姿勢情報を精度よく推定可能なモデルを学習することができる。情報処理装置100は、学習したモデルを用いて、左右対となる2つの身体部位のそれぞれの身体部位に関する同種の行動を、同一の行動として認識可能にすることができる。
【0044】
情報処理装置100は、単一のモデルを学習すればよいため、用意する学習データの量の増大化を抑制することができ、学習時の処理負担および処理時間の増大化を抑制することができる。情報処理装置100は、学習したモデルの精度検証またはメンテナンスの処理負担および処理時間の増大化を抑制することができる。情報処理装置100は、特定の行動を認識可能にする際の開発コストおよび運用コストの増大化を抑制することができる。
【0045】
(1-4)情報処理装置100は、第2人物が映った映像を取得し、学習したモデルを用いて、第2人物の姿勢情報を取得してもよい。情報処理装置100は、例えば、取得した第2人物が映った映像を解析することにより、第2人物が映った映像の各フレームにおける、第2人物が有する身体部位のうち、左右対となる2つの身体部位のそれぞれの身体部位の位置情報を特定する。
【0046】
情報処理装置100は、例えば、第2人物が映った映像の各フレームにおける、特定した左右対となる2つの身体部位のそれぞれの身体部位の位置情報の和を示す第4成分を生成する。情報処理装置100は、例えば、第2人物が映った映像の各フレームにおける、特定した左右対となる2つの身体部位のそれぞれの身体部位の位置情報の差を示す第5成分の絶対値を示す第6成分を生成する。
【0047】
情報処理装置100は、例えば、生成した第4成分と、生成した第6成分とに基づいて、学習したモデルを用いて、第2人物が特定の行動に対応する姿勢であるか否かを示す姿勢情報を取得する。これにより、情報処理装置100は、姿勢情報を精度よく生成することができる。情報処理装置100は、姿勢情報を利用可能にすることができる。
【0048】
ここでは、情報処理装置100が、単独で動作する場合について説明したが、これに限らない。例えば、情報処理装置100が、他のコンピュータと協働する場合があってもよい。例えば、複数のコンピュータが協働して、情報処理装置100としての機能を実現する場合があってもよい。具体的には、クラウド上に、情報処理装置100としての機能が実現される場合があってもよい。
【0049】
ここでは、情報処理装置100が、第1人物が映った映像を分析する場合について説明したが、これに限らない。例えば、情報処理装置100が、第1人物が映った映像を分析する他のコンピュータと通信可能である場合があってもよい。この場合、情報処理装置100は、他のコンピュータから、第1人物が映った映像における、第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を受信することにより、当該位置情報を特定する。
【0050】
ここでは、情報処理装置100が、生成した第1成分と、生成した第3成分とに基づいて、モデルを学習する場合について説明したが、これに限らない。例えば、情報処理装置100が、生成した第1成分と、生成した第3成分とを、他のコンピュータに送信する場合があってもよい。この場合、他のコンピュータは、受信した第1成分と、受信した第3成分とに基づいて、モデルを学習する。
【0051】
ここでは、情報処理装置100が、学習したモデルを用いて、第2人物の姿勢情報を取得する場合について説明したが、これに限らない。例えば、情報処理装置100が、学習したモデルを、他のコンピュータに送信する場合があってもよい。この場合、他のコンピュータは、第2人物が映った映像を取得し、受信したモデルを用いて、第2人物の姿勢情報を取得する。
【0052】
(情報処理システム200の一例)
次に、図2を用いて、図1に示した情報処理装置100を適用した、情報処理システム200の一例について説明する。
【0053】
図2は、情報処理システム200の一例を示す説明図である。図2において、情報処理システム200は、情報処理装置100と、1以上の映像撮影装置201と、1以上のクライアント装置202とを含む。
【0054】
情報処理システム200において、情報処理装置100と映像撮影装置201とは、有線または無線のネットワーク210を介して接続される。ネットワーク210は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどである。また、情報処理システム200において、情報処理装置100とクライアント装置202とは、有線または無線のネットワーク210を介して接続される。
【0055】
情報処理装置100は、モデルを学習するためのコンピュータである。情報処理装置100は、例えば、第1機械学習モデルを記憶する。第1機械学習モデルは、例えば、映像の入力に応じて、当該映像に映った人物が有する身体部位の位置情報を出力する機能を有する。身体部位は、例えば、首、頭、右肩、左肩、右肘、左肘、右手、左手、右膝、左膝、右足、または、左足などである。位置情報は、身体部位の3次元空間上の位置を示す。位置情報は、例えば、身体部位の3次元空間上の位置を表す、それぞれ異なる軸方向の複数の成分値の組み合わせを示す。位置は、例えば、身体部位を示す骨格の3次元空間上の位置である。
【0056】
位置情報は、例えば、身体部位の2次元空間上の位置を示していてもよい。位置情報は、例えば、身体部位の2次元空間上の位置を表す、それぞれ異なる軸方向の複数の成分値の組み合わせを示していてもよい。位置は、例えば、身体部位を示す骨格の2次元空間上の位置である。位置情報は、例えば、ベクトルであってもよい。位置情報は、例えば、極座標であってもよい。
【0057】
第1機械学習モデルは、具体的には、映像の各フレームの入力に応じて、当該フレームにおける人物が有する身体部位の位置情報を出力する機能を有する。第1機械学習モデルは、例えば、AI(Artificial Intelligence)モデルなどである。第1機械学習モデルは、例えば、ニューラルネットワーク、数式、または、木構造などによって実現されることが考えられる。
【0058】
情報処理装置100は、例えば、第1人物が映った映像を取得する。第1人物となり得る人物は、複数存在してもよい。情報処理装置100は、例えば、第1人物となり得る複数の人物のそれぞれの人物が映った映像を取得してもよい。情報処理装置100は、具体的には、第1人物が映った映像を、映像撮影装置201から受信することにより取得する。
【0059】
情報処理装置100は、例えば、取得した第1人物が映った映像を解析することにより、第1人物が映った映像の各フレームにおける、第1人物が有する身体部位のうち、左右対となる2つの身体部位のそれぞれの身体部位の位置情報を特定する。情報処理装置100は、具体的には、第1機械学習モデルを用いて、取得した第1人物が映った映像に基づいて、当該映像の各フレームにおける、第1人物が有する身体部位のうち、左右対となる2つの身体部位のそれぞれの身体部位の位置情報を特定する。
【0060】
情報処理装置100は、例えば、第1人物が映った映像の各フレームにおける、特定した左右対となる2つの身体部位のそれぞれの身体部位の位置情報の和を示す第1成分を生成する。情報処理装置100は、例えば、第1人物が映った映像の各フレームにおける、特定した左右対となる2つの身体部位のそれぞれの身体部位の位置情報の差を示す第2成分の絶対値を示す第3成分を生成する。情報処理装置100は、例えば、第1人物が映った映像の各フレームにおける、生成した第1成分と、生成した第3成分とに基づいて、モデルを学習する。
【0061】
情報処理装置100は、例えば、第2人物が映った映像を取得する。第2人物は、例えば、特定の行動を行ったか否かを判定する対象の人物である。情報処理装置100は、具体的には、第2人物が映った映像を、映像撮影装置201から受信することにより取得する。
【0062】
情報処理装置100は、例えば、取得した第2人物が映った映像を解析することにより、第2人物が映った映像の各フレームにおける、第2人物が有する身体部位のうち、左右対となる2つの身体部位のそれぞれの身体部位の位置情報を特定する。情報処理装置100は、具体的には、第1機械学習モデルを用いて、取得した第2人物が映った映像に基づいて、当該映像の各フレームにおける、第2人物が有する身体部位のうち、左右対となる2つの身体部位のそれぞれの身体部位の位置情報を特定する。
【0063】
情報処理装置100は、例えば、第2人物が映った映像の各フレームにおける、特定した左右対となる2つの身体部位のそれぞれの身体部位の位置情報の和を示す第4成分を生成する。情報処理装置100は、例えば、第2人物が映った映像の各フレームにおける、特定した左右対となる2つの身体部位のそれぞれの身体部位の位置情報の差を示す第5成分の絶対値を示す第6成分を生成する。情報処理装置100は、例えば、第2人物が映った映像の各フレームにおける、生成した第4成分と、生成した第6成分とに基づいて、学習したモデルを用いて、第2人物が特定の行動に対応する姿勢であるか否かを示す姿勢情報を取得する。
【0064】
情報処理装置100は、例えば、取得した姿勢情報を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、他のコンピュータへの送信、または、記憶領域への記憶などである。情報処理装置100は、具体的には、取得した姿勢情報を、クライアント装置202に送信する。情報処理装置100は、例えば、情報処理システム200を管理する管理者によって管理される。情報処理装置100は、例えば、サーバ、または、PC(Personal Computer)などである。
【0065】
映像撮影装置201は、特定の領域を撮影し、人物が映った映像を生成するためのコンピュータである。映像撮影装置201は、例えば、複数の撮像素子を有するカメラを含み、カメラによって人物が存在し得る特定の領域を撮影する。映像撮影装置201は、例えば、特定の人物が映った映像を生成し、情報処理装置100に送信する。
【0066】
映像撮影装置201は、具体的には、第1人物が映った映像を生成し、情報処理装置100に送信する。映像撮影装置201は、具体的には、第2人物が映った映像を生成し、情報処理装置100に送信する。映像撮影装置201は、例えば、スマートフォンなどである。映像撮影装置201は、例えば、定点カメラなどであってもよい。映像撮影装置201は、例えば、ドローンなどであってもよい。
【0067】
クライアント装置202は、第2人物の姿勢情報を参照しようとする作業者によって用いられるコンピュータである。クライアント装置202は、例えば、第2人物の姿勢情報を、情報処理装置100から受信する。クライアント装置202は、受信した第2人物の姿勢情報を、作業者が参照可能に出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、他のコンピュータへの送信、または、記憶領域への記憶などである。クライアント装置202は、例えば、PC、タブレット端末、または、スマートフォンなどである。
【0068】
ここでは、情報処理装置100が、映像撮影装置201とは異なる装置である場合について説明したが、これに限らない。例えば、情報処理装置100が、映像撮影装置201としての機能を有し、映像撮影装置201としても動作する場合があってもよい。ここでは、情報処理装置100が、クライアント装置202とは異なる装置である場合について説明したが、これに限らない。例えば、情報処理装置100が、クライアント装置202としての機能を有し、クライアント装置202としても動作する場合があってもよい。
【0069】
(情報処理システム200の適用例)
次に、情報処理システム200の適用例について説明する。情報処理システム200は、例えば、監視カメラが撮影した映像に映った対象の人物が、不審な行為、禁止行為、または、犯罪行為などに相当する特定の行動を行ったか否かを判定する場合に対して適用されることが考えられる。特定の行動は、例えば、片手で人を殴るといった暴力行為、または、片手で展示物に触れるといった禁止行為などが考えられる。展示物は、例えば、動植物、または、美術品などである。この場合、映像撮影装置201は、例えば、監視カメラである。作業者は、例えば、警備員、または、警察官などである。この場合、情報処理システム200は、対象の人物が、不審な行為、禁止行為、または、犯罪行為などに相当する特定の行動を行ったか否かを精度よく判定することができる。このため、情報処理システム200は、不審な行為、禁止行為、または、犯罪行為などに相当する特定の行動を抑止し易くすることができる。
【0070】
また、情報処理システム200は、例えば、介護施設などに設けられた定点カメラが撮影した映像に映った対象の人物が、特定の行動を行ったか否かを判定し、介護施設に勤める介護者の業務を支援する場合に対して適用されることが考えられる。特定の行動は、例えば、片脚を引き摺りつつ歩く、または、転倒して片手を床につくなどの行動が考えられる。この場合、対象の人物は、例えば、介護施設などに滞在する、介護を要する人物である。映像撮影装置201は、例えば、定点カメラである。作業者は、例えば、介護者である。この場合、情報処理システム200は、対象の人物が、特定の行動を行ったか否かを精度よく判定することができ、作業者が、対象の人物の安全を確保し易くすることができる。
【0071】
また、情報処理システム200は、例えば、食料品などの販売店に設けられた定点カメラが撮影した映像に映った対象の人物が、特定の行動を行ったか否かを判定し、マーケティングを実施する場合に対して適用されることが考えられる。特定の行動は、例えば、片手で商品を取るなどの行動が考えられる。この場合、対象の人物は、例えば、販売店を訪れた顧客である。映像撮影装置201は、例えば、定点カメラである。作業者は、例えば、マーケティングを実施する専門家である。この場合、情報処理システム200は、対象の人物が、特定の行動を行ったか否かを精度よく判定することができ、作業者が、マーケティングを精度よく実施可能にすることができる。
【0072】
また、情報処理システム200は、例えば、娯楽施設などに設けられた定点カメラが撮影した映像に映った、娯楽施設を訪れた対象の人物が、特定の行動を行ったかことに応じて、対象の人物に、コンテンツを提供する場合に対して適用されることが考えられる。特定の行動は、例えば、片手を特定のパターンで動かすという行動が考えられる。コンテンツは、例えば、娯楽用の映像、施設内の機械設備、または、音楽などが考えられる。この場合、対象の人物は、例えば、子供である。映像撮影装置201は、例えば、定点カメラである。この場合、情報処理システム200は、対象の人物が、特定の行動を行ったか否かを精度よく判定することができ、コンテンツを適切に提供し易くすることができる。
【0073】
(情報処理装置100のハードウェア構成例)
次に、図3を用いて、情報処理装置100のハードウェア構成例について説明する。
【0074】
図3は、情報処理装置100のハードウェア構成例を示すブロック図である。図3において、情報処理装置100は、CPU(Central Processing Unit)301と、メモリ302と、ネットワークI/F(Interface)303とを有する。また、情報処理装置100は、記録媒体I/F304と、記録媒体305と、ディスプレイ306と、入力装置307とを有する。また、各構成部は、バス300によってそれぞれ接続される。
【0075】
ここで、CPU301は、情報処理装置100の全体の制御を司る。メモリ302は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)およびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMやROMが各種プログラムを記憶し、RAMがCPU301のワークエリアとして使用される。メモリ302に記憶されるプログラムは、CPU301にロードされることにより、コーディングされている処理をCPU301に実行させる。
【0076】
ネットワークI/F303は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して他のコンピュータに接続される。そして、ネットワークI/F303は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークI/F303は、例えば、モデムやLANアダプタなどである。
【0077】
記録媒体I/F304は、CPU301の制御に従って記録媒体305に対するデータのリード/ライトを制御する。記録媒体I/F304は、例えば、ディスクドライブ、SSD(Solid State Drive)、USB(Universal Serial Bus)ポートなどである。記録媒体305は、記録媒体I/F304の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体305は、例えば、ディスク、半導体メモリ、USBメモリなどである。記録媒体305は、情報処理装置100から着脱可能であってもよい。
【0078】
ディスプレイ306は、カーソル、アイコン、ツールボックス、文書、画像、または、機能情報などのデータを表示する。ディスプレイ306は、例えば、CRT(Cathode Ray Tube)、液晶ディスプレイ、または、有機EL(Electroluminescence)ディスプレイなどである。入力装置307は、文字、数字、または、各種指示などの入力のためのキーを有し、データの入力を行う。入力装置307は、例えば、キーボード、または、マウスなどである。入力装置307は、例えば、タッチパネル式の入力パッド、または、テンキーなどであってもよい。
【0079】
情報処理装置100は、上述した構成部の他、例えば、カメラなどを有してもよい。また、情報処理装置100は、上述した構成部の他、例えば、プリンタ、スキャナ、マイク、または、スピーカーなどを有してもよい。また、情報処理装置100は、例えば、記録媒体I/F304および記録媒体305を複数有していてもよい。また、情報処理装置100は、例えば、ディスプレイ306、または、入力装置307などを有していなくてもよい。また、情報処理装置100は、例えば、記録媒体I/F304および記録媒体305を有していなくてもよい。
【0080】
(映像撮影装置201のハードウェア構成例)
次に、図4を用いて、映像撮影装置201のハードウェア構成例について説明する。
【0081】
図4は、映像撮影装置201のハードウェア構成例を示すブロック図である。図5において、映像撮影装置201は、CPU401と、メモリ402と、ネットワークI/F403と、記録媒体I/F404と、記録媒体405と、カメラ406とを有する。また、各構成部は、バス400によってそれぞれ接続される。
【0082】
ここで、CPU401は、映像撮影装置201の全体の制御を司る。メモリ402は、例えば、ROM、RAMおよびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMやROMが各種プログラムを記憶し、RAMがCPU401のワークエリアとして使用される。メモリ402に記憶されるプログラムは、CPU401にロードされることにより、コーディングされている処理をCPU401に実行させる。
【0083】
ネットワークI/F403は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して他のコンピュータに接続される。そして、ネットワークI/F403は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークI/F403は、例えば、モデムやLANアダプタなどである。
【0084】
記録媒体I/F404は、CPU401の制御に従って記録媒体405に対するデータのリード/ライトを制御する。記録媒体I/F404は、例えば、ディスクドライブ、SSD、USBポートなどである。記録媒体405は、記録媒体I/F404の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体405は、例えば、ディスク、半導体メモリ、USBメモリなどである。記録媒体405は、映像撮影装置201から着脱可能であってもよい。
【0085】
カメラ406は、複数の撮像素子を有し、複数の撮像素子によって特定の領域を撮影した映像を生成する。カメラ406は、例えば、特定の領域に人物が存在すれば、当該人物が映った映像を生成することになる。カメラ406は、例えば、デジタルカメラである。カメラ406は、例えば、定点カメラである。カメラ406は、例えば、移動可能であってもよい。カメラ406は、例えば、監視カメラである。
【0086】
映像撮影装置201は、上述した構成部の他、例えば、キーボード、マウス、ディスプレイ、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、映像撮影装置201は、記録媒体I/F404や記録媒体405を複数有していてもよい。また、映像撮影装置201は、記録媒体I/F404や記録媒体405を有していなくてもよい。
【0087】
(クライアント装置202のハードウェア構成例)
クライアント装置202のハードウェア構成例は、具体的には、図3に示した情報処理装置100のハードウェア構成例と同様であるため、説明を省略する。
【0088】
(情報処理装置100の機能的構成例)
次に、図5を用いて、情報処理装置100の機能的構成例について説明する。
【0089】
図5は、情報処理装置100の機能的構成例を示すブロック図である。情報処理装置100は、記憶部500と、取得部501と、特定部502と、生成部503と、学習部504と、認識部505と、出力部506とを含む。
【0090】
記憶部500は、例えば、図3に示したメモリ302や記録媒体305などの記憶領域によって実現される。以下では、記憶部500が、情報処理装置100に含まれる場合について説明するが、これに限らない。例えば、記憶部500が、情報処理装置100とは異なる装置に含まれ、記憶部500の記憶内容が情報処理装置100から参照可能である場合があってもよい。
【0091】
取得部501~出力部506は、制御部の一例として機能する。取得部501~出力部506は、具体的には、例えば、図3に示したメモリ302や記録媒体305などの記憶領域に記憶されたプログラムをCPU301に実行させることにより、または、ネットワークI/F303により、その機能を実現する。各機能部の処理結果は、例えば、図3に示したメモリ302や記録媒体305などの記憶領域に記憶される。
【0092】
記憶部500は、各機能部の処理において参照され、または更新される各種情報を記憶する。記憶部500は、例えば、人物が映った映像を記憶する。記憶部500は、具体的には、第1人物が映った第1映像を記憶する。第1人物は、例えば、姿勢情報が既知の人物である。姿勢情報は、例えば、第1人物の姿勢が、特定の姿勢であるか否かを示す。姿勢情報は、例えば、第1人物の姿勢が、特定の行動に対応する姿勢であるか否かを示していてもよい。姿勢情報は、例えば、第1人物が、特定の行動を行ったか否かを示していてもよい。第1人物は、具体的には、特定の行動を行ったか否かが既知の人物である。第1人物が映った第1映像は、例えば、1以上のフレームを含む。第1人物が映った第1映像は、例えば、取得部501によって取得される。
【0093】
記憶部500は、具体的には、第1人物が映った第1映像に対応付けて、第1人物が特定の行動を行ったか否かを示す正解ラベルを記憶する。記憶部500は、具体的には、第1人物が映った第1映像の各フレームに対応付けて、当該フレームにおいて、第1人物が特定の行動を行ったか否かを示す正解ラベルを記憶する。正解ラベルは、例えば、取得部501によって取得される。記憶部500は、具体的には、第1人物が映った第1映像全体に対応付けて、第1人物が特定の行動を行ったか否かを示す正解ラベルを記憶していてもよい。
【0094】
記憶部500は、具体的には、第2人物が映った第2映像を記憶する。第2人物は、例えば、姿勢情報を推定する対象の人物である。姿勢情報は、例えば、第2人物の姿勢が、特定の姿勢であるか否かを示す。姿勢情報は、例えば、第2人物の姿勢が、特定の行動に対応する姿勢であるか否かを示していてもよい。姿勢情報は、例えば、第2人物が、特定の行動を行ったか否かを示していてもよい。第2人物は、具体的には、特定の行動を行ったか否かを判定する対象の人物である。第2人物が映った第2映像は、例えば、1以上のフレームを含む。第2人物が映った第2映像は、例えば、取得部501によって取得される。
【0095】
記憶部500は、例えば、第1人物が映った第1映像における、第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を記憶する。身体部位は、例えば、首、頭、右肩、左肩、右肘、左肘、右手、左手、右膝、左膝、右足、または、左足などである。2つの身体部位は、例えば、左右対となる異なる身体部位の組み合わせである。左右は、例えば、映像上の左右ではなく、身体上の正面を前方向かつ身体上の頭頂側を上方向とした場合の身体上の側面側に関する左右である。2つの身体部位は、具体的には、右手と、左手との組み合わせである。
【0096】
位置情報は、例えば、身体部位の3次元空間上の位置を表す、それぞれ異なる軸方向の複数の成分値の組み合わせを示す。軸は、例えば、X軸、Y軸、および、Z軸と呼ばれる。身体部位の3次元空間上の位置は、例えば、身体部位を示す骨格の3次元空間上の位置である。位置情報は、例えば、ベクトルであってもよい。
【0097】
位置情報は、例えば、身体部位の2次元空間上の位置を表す、それぞれ異なる軸方向の複数の成分値の組み合わせを示していてもよい。軸は、例えば、X軸、および、Y軸と呼ばれる。2次元空間は、例えば、フレームまたはフレーム内の人物が映った規定の大きさの領域などに対応していてもよい。身体部位の2次元空間上の位置は、例えば、身体部位を示す骨格の2次元空間上の位置である。位置情報は、例えば、ベクトルであってもよい。位置情報は、例えば、極座標であってもよい。
【0098】
記憶部500は、具体的には、第1人物が映った第1映像の各フレームにおける、第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を記憶する。位置情報は、例えば、特定部502によって特定される。位置情報は、例えば、取得部501によって取得されてもよい。
【0099】
記憶部500は、例えば、第2人物が映った第2映像における、第2人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を記憶する。身体部位は、例えば、首、頭、右肩、左肩、右肘、左肘、右手、左手、右膝、左膝、右足、または、左足などである。2つの身体部位は、例えば、左右対となる異なる身体部位の組み合わせである。2つの身体部位は、具体的には、右手と、左手との組み合わせである。
【0100】
位置情報は、例えば、身体部位の3次元空間上の位置を表す、それぞれ異なる軸方向の複数の成分値の組み合わせを示す。軸は、例えば、X軸、Y軸、および、Z軸と呼ばれる。身体部位の3次元空間上の位置は、例えば、身体部位を示す骨格の3次元空間上の位置である。位置情報は、例えば、ベクトルであってもよい。
【0101】
位置情報は、例えば、身体部位の2次元空間上の位置を表す、それぞれ異なる軸方向の複数の成分値の組み合わせを示していてもよい。軸は、例えば、X軸、および、Y軸と呼ばれる。2次元空間は、例えば、フレームまたはフレーム内の人物が映った規定の大きさの領域などに対応していてもよい。身体部位の2次元空間上の位置は、例えば、身体部位を示す骨格の2次元空間上の位置である。位置情報は、例えば、ベクトルであってもよい。位置情報は、例えば、極座標であってもよい。
【0102】
記憶部500は、具体的には、第2人物が映った第2映像の各フレームにおける、第2人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を記憶する。位置情報は、例えば、特定部502によって特定される。位置情報は、例えば、取得部501によって取得されてもよい。
【0103】
記憶部500は、例えば、人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報の和を示す成分を記憶する。記憶部500は、例えば、人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報の差を示す成分を記憶する。記憶部500は、例えば、人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報の差を示す成分の絶対値を示す成分を記憶する。
【0104】
記憶部500は、具体的には、第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報の和を示す第1成分を記憶する。第1成分は、例えば、生成部503によって生成される。記憶部500は、具体的には、第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報の差を示す第2成分を記憶する。第2成分は、例えば、生成部503によって生成される。記憶部500は、例えば、第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報の差を示す第2成分の絶対値を示す第3成分を記憶する。第3成分は、例えば、生成部503によって生成される。第1成分と、第2成分と、第3成分とは、対となる2つの身体部位のそれぞれの身体部位の位置情報の組み合わせが有する特徴を表す情報の成分である。
【0105】
記憶部500は、具体的には、第2人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報の和を示す第4成分を記憶する。第4成分は、例えば、生成部503によって生成される。記憶部500は、具体的には、第2人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報の差を示す第5成分を記憶する。第5成分は、例えば、生成部503によって生成される。記憶部500は、例えば、第2人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報の差を示す第5成分の絶対値を示す第6成分を記憶する。第6成分は、例えば、生成部503によって生成される。第4成分と、第5成分と、第6成分とは、対となる2つの身体部位のそれぞれの身体部位の位置情報の組み合わせが有する特徴を表す情報の成分である。
【0106】
記憶部500は、例えば、モデルを記憶する。モデルは、例えば、人物が映った映像から当該人物の姿勢情報を出力する機能を有する。姿勢情報は、例えば、人物の姿勢が、特定の姿勢であるか否かを示す。姿勢情報は、例えば、人物の姿勢が、特定の行動に対応する姿勢であるか否かを示していてもよい。姿勢情報は、例えば、人物が、特定の行動を行ったか否かを示していてもよい。
【0107】
モデルは、具体的には、第4成分と、第6成分との入力に応じて、第2人物の姿勢情報を出力する機能を有する。モデルは、具体的には、第4成分と、第5成分と、第6成分との入力に応じて、第2人物の姿勢情報を出力する機能を有していてもよい。モデルは、例えば、AIモデルなどである。モデルは、例えば、ニューラルネットワーク、数式、または、木構造などによって実現されることが考えられる。モデルは、例えば、学習部504によって学習される。
【0108】
取得部501は、各機能部の処理に用いられる各種情報を取得する。取得部501は、取得した各種情報を、記憶部500に記憶し、または、各機能部に出力する。また、取得部501は、記憶部500に記憶しておいた各種情報を、各機能部に出力してもよい。取得部501は、例えば、利用者の操作入力に基づき、各種情報を取得する。取得部501は、例えば、情報処理装置100とは異なる装置から、各種情報を受信してもよい。
【0109】
取得部501は、例えば、人物が映った映像を取得する。取得部501は、具体的には、第1人物が映った第1映像を取得する。取得部501は、より具体的には、第1人物が映った第1映像を、他のコンピュータから受信することにより取得する。他のコンピュータは、例えば、映像撮影装置201である。取得部501は、より具体的には、利用者の操作入力に基づき、第1人物が映った第1映像の入力を受け付けることにより、第1人物が映った第1映像を取得してもよい。
【0110】
取得部501は、具体的には、第1人物が映った第1映像に対応付けて、第1人物が特定の行動を行ったか否かを示す正解ラベルを取得する。取得部501は、具体的には、第1人物が映った第1映像の各フレームに対応付けて、当該フレームにおいて、第1人物が特定の行動を行ったか否かを示す正解ラベルを取得してもよい。
【0111】
取得部501は、具体的には、第2人物が映った第2映像を取得する。取得部501は、より具体的には、第2人物が映った第2映像を、他のコンピュータから受信することにより取得する。他のコンピュータは、例えば、映像撮影装置201である。取得部501は、より具体的には、利用者の操作入力に基づき、第2人物が映った第2映像の入力を受け付けることにより、第2人物が映った第2映像を取得してもよい。
【0112】
取得部501は、例えば、第1人物が映った第1映像における、第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を取得してもよい。取得部501は、具体的には、第1人物が映った第1映像の各フレームにおける、第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を取得する。取得部501は、より具体的には、特定部502でそれぞれの身体部位の位置情報を特定しない場合に、第1人物が映った第1映像の各フレームにおける、第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を取得する。
【0113】
取得部501は、例えば、第2人物が映った第2映像における、第2人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を取得する。取得部501は、具体的には、第2人物が映った第2映像の各フレームにおける、第2人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を記憶する。取得部501は、より具体的には、特定部502でそれぞれの身体部位の位置情報を特定しない場合に、第2人物が映った第2映像の各フレームにおける、第2人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を記憶する。
【0114】
取得部501は、いずれかの機能部の処理を開始する開始トリガーを受け付けてもよい。開始トリガーは、例えば、利用者による所定の操作入力があったことである。開始トリガーは、例えば、他のコンピュータから、所定の情報を受信したことであってもよい。開始トリガーは、例えば、いずれかの機能部が所定の情報を出力したことであってもよい。
【0115】
取得部501は、例えば、第1人物が映った第1映像を取得したことを、特定部502と、生成部503と、学習部504との処理を開始する開始トリガーとして受け付けてもよい。取得部501は、例えば、第2人物が映った第2映像を取得したことを、特定部502と、生成部503と、認識部505との処理を開始する開始トリガーとして受け付けてもよい。
【0116】
取得部501は、例えば、第1人物が映った第1映像における、第1人物が有する、対となる2つの身体部位のそれぞれの身体部位の位置情報を取得したことを、生成部503と、学習部504との処理を開始する開始トリガーとして受け付けてもよい。取得部501は、例えば、第2人物が映った第2映像における、第2人物が有する、対となる2つの身体部位のそれぞれの身体部位の位置情報を取得したことを、生成部503と、認識部505との処理を開始する開始トリガーとして受け付けてもよい。
【0117】
特定部502は、取得部501で取得した映像を分析することにより、当該映像における、人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を特定する。特定部502は、例えば、取得部501で取得した第1人物が映った第1映像を分析することにより、第1映像における、第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を特定する。
【0118】
特定部502は、具体的には、取得部501で取得した第1人物が映った第1映像を分析することにより、第1映像における、それぞれの身体部位の多次元空間上の位置を表す、それぞれ異なる軸方向の複数の成分値を示す位置情報を特定する。特定部502は、より具体的には、取得部501で取得した第1人物が映った第1映像を分析することにより、第1映像の各フレームにおける、それぞれの身体部位の多次元空間上の位置を表す、それぞれ異なる軸方向の複数の成分値を示す位置情報を特定する。これにより、特定部502は、第1人物の姿勢に関する特徴を表し、第1人物の姿勢情報を推定するためのモデルを学習する指針となり得る情報を得ることができる。
【0119】
特定部502は、具体的には、取得部501で取得した第1人物が映った第1映像を分析することにより、第1映像における、第1人物の骨格の位置を特定し、特定した第1人物の骨格の位置に基づいて、それぞれの身体部位の位置情報を特定してもよい。これにより、特定部502は、骨格の位置を特定する手法を活用して、第1人物の姿勢に関する特徴を表し、第1人物の姿勢情報を推定するためのモデルを学習する指針となり得る情報を得ることができる。
【0120】
特定部502は、例えば、取得部501で取得した第2人物が映った第2映像を分析することにより、第2映像における、第2人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を特定する。
【0121】
特定部502は、具体的には、取得部501で取得した第2人物が映った第2映像を分析することにより、第2映像における、それぞれの身体部位の多次元空間上の位置を表す、それぞれ異なる軸方向の複数の成分値を示す位置情報を特定する。特定部502は、より具体的には、取得部501で取得した第2人物が映った第2映像を分析することにより、第2映像の各フレームにおける、それぞれの身体部位の多次元空間上の位置を表す、それぞれ異なる軸方向の複数の成分値を示す位置情報を特定する。これにより、特定部502は、第2人物の姿勢に関する特徴を表し、モデルを用いて、第2人物の姿勢情報を推定する際に用いる情報を得ることができる。
【0122】
特定部502は、具体的には、取得部501で取得した第2人物が映った第2映像を分析することにより、第2映像における、第2人物の骨格の位置を特定し、特定した第2人物の骨格の位置に基づいて、それぞれの身体部位の位置情報を特定してもよい。これにより、特定部502は、骨格の位置を特定する手法を活用して、第2人物の姿勢に関する特徴を表し、モデルを用いて、第2人物の姿勢情報を推定する際に用いる情報を得ることができる。
【0123】
生成部503は、特定部502で特定した、第1人物が有する身体部位のうち対となる2つの身体部位のそれぞれの身体部位の位置情報に基づいて、それぞれの身体部位の位置情報の和を示す第1成分を生成する。生成部503は、例えば、軸方向ごとに、それぞれの身体部位の位置情報が示す当該軸方向の成分値の和を用いた指標値を算出し、算出した当該指標値を組み合わせた第1成分を生成する。指標値は、例えば、軸方向の成分値の和を規定値で除算した値である。規定値は、例えば、√2である。生成部503は、具体的には、第1人物が映った第1映像の各フレームについて、軸方向ごとに、それぞれの身体部位の位置情報が示す当該軸方向の成分値の和を用いた指標値を算出し、算出した当該指標値を組み合わせた第1成分を生成する。
【0124】
生成部503は、例えば、それぞれの身体部位の位置情報がベクトルであれば、それぞれの身体部位の位置情報が示すベクトルの和を、第1成分として生成してもよい。この場合、第1成分は、ベクトルである。生成部503は、具体的には、第1人物が映った第1映像の各フレームについて、それぞれの身体部位の位置情報が示すベクトルの和を、第1成分として生成する。これにより、生成部503は、左右対となる2つの身体部位のそれぞれの身体部位の位置情報の共通性に関する特徴を表し、モデルを学習する際の指針となり得る第1成分を得ることができる。
【0125】
生成部503は、特定部502で特定した、第1人物が有する身体部位のうち対となる2つの身体部位のそれぞれの身体部位の位置情報に基づいて、それぞれの身体部位の位置情報の差を示す第2成分を生成する。生成部503は、例えば、軸方向ごとに、それぞれの身体部位の位置情報が示す当該軸方向の成分値の差を用いた指標値を算出し、算出した当該指標値を組み合わせた第2成分を生成する。指標値は、例えば、軸方向の成分値の差を規定値で除算した値である。規定値は、例えば、√2である。生成部503は、具体的には、第1人物が映った第1映像の各フレームについて、軸方向ごとに、それぞれの身体部位の位置情報が示す当該軸方向の成分値の差を用いた指標値を算出し、算出した当該指標値を組み合わせた第2成分を生成する。
【0126】
生成部503は、例えば、第1人物が有する身体部位のうち対となる2つの身体部位のそれぞれの身体部位の位置情報がベクトルであれば、それぞれの身体部位の位置情報が示すベクトルの差を、第2成分として生成してもよい。生成部503は、具体的には、第1人物が映った第1映像の各フレームについて、それぞれの身体部位の位置情報が示すベクトルの差を、第2成分として生成する。この場合、第2成分は、ベクトルである。これにより、生成部503は、左右対となる2つの身体部位のそれぞれの身体部位の位置情報の相違性に関する特徴を表し、モデルを学習する際の指針となり得る第2成分を得ることができる。
【0127】
生成部503は、特定部502で特定した、第1人物が有する身体部位のうち対となる2つの身体部位のそれぞれの身体部位の位置情報に基づいて、それぞれの身体部位の位置情報の差を示す第2成分の絶対値を示す第3成分を生成する。生成部503は、例えば、軸方向ごとに、それぞれの身体部位の位置情報が示す当該軸方向の成分値の差の絶対値を用いた指標値を算出し、算出した当該指標値を組み合わせた第3成分を生成する。指標値は、例えば、軸方向の成分値の差の絶対値を規定値で除算した値である。規定値は、例えば、√2である。生成部503は、具体的には、第1人物が映った第1映像の各フレームについて、軸方向ごとに、それぞれの身体部位の位置情報が示す当該軸方向の成分値の差の絶対値を用いた指標値を算出し、算出した当該指標値を組み合わせた第3成分を生成する。
【0128】
生成部503は、例えば、第1人物が有する身体部位のうち対となる2つの身体部位のそれぞれの身体部位の位置情報がベクトルであれば、第2成分のベクトルの絶対値を大きさとして有する、規定の向きのベクトルを、第3成分として生成する。この場合、第3成分は、ベクトルである。第2成分のベクトルの絶対値は、第2成分のベクトルの長さを示す。規定の向きは、例えば、所定の規則に従って、第2成分のベクトルの差の向きに応じて決定される。
【0129】
所定の規則は、第3成分のベクトルの向きを、第2成分のベクトルの向きと同一の向き、および、第2成分のベクトルの向きとは逆の向きのうち、いずれかの向きに決定する規則である。所定の規則は、第3成分のベクトルの向きを、第2成分のベクトルの向きと同一の向き、および、第2成分のベクトルの向きとは逆の向きのうち、いずれかの軸方向の向き成分が正となるいずれかの向きに統一するよう決定する規則である。
【0130】
生成部503は、具体的には、第1人物が映った第1映像の各フレームについて、第2成分のベクトルの絶対値を大きさとして有する、規定の向きのベクトルを、第3成分として生成する。これにより、生成部503は、左右対となる2つの身体部位のそれぞれの身体部位の位置情報の相違性に関する特徴を表しつつ、対となる左右対となる2つの身体部位のそれぞれの身体部位の動きの逆転に依存しない第3成分を得ることができる。生成部503は、モデルを学習する際の指針となり得る第3成分を得ることができる。
【0131】
生成部503は、特定部502で特定した、第2人物が有する身体部位のうち対となる2つの身体部位のそれぞれの身体部位の位置情報に基づいて、それぞれの身体部位の位置情報の和を示す第4成分を生成する。生成部503は、例えば、軸方向ごとに、それぞれの身体部位の位置情報が示す当該軸方向の成分値の和を用いた指標値を算出し、算出した当該指標値を組み合わせた第4成分を生成する。指標値は、例えば、軸方向の成分値の和を規定値で除算した値である。規定値は、例えば、√2である。生成部503は、具体的には、第2人物が映った第2映像の各フレームについて、軸方向ごとに、それぞれの身体部位の位置情報が示す当該軸方向の成分値の和を用いた指標値を算出し、算出した当該指標値を組み合わせた第4成分を生成する。
【0132】
生成部503は、例えば、それぞれの身体部位の位置情報がベクトルであれば、それぞれの身体部位の位置情報が示すベクトルの和を、第4成分として生成してもよい。この場合、第4成分は、ベクトルである。生成部503は、具体的には、第2人物が映った第2映像の各フレームについて、それぞれの身体部位の位置情報が示すベクトルの和を、第4成分として生成する。これにより、生成部503は、左右対となる2つの身体部位のそれぞれの身体部位の位置情報の共通性に関する特徴を表し、モデルを用いて、第2人物の姿勢情報を推定する際の指針となり得る第4成分を得ることができる。
【0133】
生成部503は、特定部502で特定した、第2人物が有する身体部位のうち対となる2つの身体部位のそれぞれの身体部位の位置情報に基づいて、それぞれの身体部位の位置情報の差を示す第5成分を生成する。生成部503は、例えば、軸方向ごとに、それぞれの身体部位の位置情報が示す当該軸方向の成分値の差を用いた指標値を算出し、算出した当該指標値を組み合わせた第5成分を生成する。指標値は、例えば、軸方向の成分値の差を規定値で除算した値である。規定値は、例えば、√2である。生成部503は、具体的には、第2人物が映った第2映像の各フレームについて、軸方向ごとに、それぞれの身体部位の位置情報が示す当該軸方向の成分値の差を用いた指標値を算出し、算出した当該指標値を組み合わせた第5成分を生成する。
【0134】
生成部503は、例えば、第2人物が有する身体部位のうち対となる2つの身体部位のそれぞれの身体部位の位置情報がベクトルであれば、それぞれの身体部位の位置情報が示すベクトルの差を、第5成分として生成してもよい。この場合、第5成分は、ベクトルである。生成部503は、具体的には、第2人物が映った第2映像の各フレームについて、それぞれの身体部位の位置情報が示すベクトルの差を、第5成分として生成する。これにより、生成部503は、左右対となる2つの身体部位のそれぞれの身体部位の位置情報の相違性に関する特徴を表し、モデルを用いて、第2人物の姿勢情報を推定する際の指針となり得る第5成分を得ることができる。
【0135】
生成部503は、特定部502で特定した、第2人物が有する身体部位のうち対となる2つの身体部位のそれぞれの身体部位の位置情報に基づいて、それぞれの身体部位の位置情報の差を示す第5成分の絶対値を示す第6成分を生成する。生成部503は、例えば、軸方向ごとに、それぞれの身体部位の位置情報が示す当該軸方向の成分値の差の絶対値を用いた指標値を算出し、算出した当該指標値を組み合わせた第6成分を生成する。指標値は、例えば、軸方向の成分値の差の絶対値を規定値で除算した値である。規定値は、例えば、√2である。生成部503は、具体的には、第2人物が映った第2映像の各フレームについて、軸方向ごとに、それぞれの身体部位の位置情報が示す当該軸方向の成分値の差の絶対値を用いた指標値を算出し、算出した当該指標値を組み合わせた第6成分を生成する。
【0136】
生成部503は、例えば、第2人物が有する身体部位のうち対となる2つの身体部位のそれぞれの身体部位の位置情報がベクトルであれば、第5成分のベクトルの絶対値を大きさとして有する、規定の向きのベクトルを、第6成分として生成する。この場合、第6成分は、ベクトルである。第5成分のベクトルの絶対値は、第5成分のベクトルの長さを示す。規定の向きは、例えば、所定の規則に従って、第5成分のベクトルの差の向きに応じて決定される。
【0137】
所定の規則は、第6成分のベクトルの向きを、第5成分のベクトルの向きと同一の向き、および、第5成分のベクトルの向きとは逆の向きのうち、いずれかの向きに決定する規則である。所定の規則は、第6成分のベクトルの向きを、第5成分のベクトルの向きと同一の向き、および、第5成分のベクトルの向きとは逆の向きのうち、いずれかの軸方向の向き成分が正となるいずれかの向きに統一するよう決定する規則である。
【0138】
生成部503は、具体的には、第2人物が映った第2映像の各フレームについて、第5成分のベクトルの絶対値を大きさとして有する、規定の向きのベクトルを、第6成分として生成する。これにより、生成部503は、左右対となる2つの身体部位のそれぞれの身体部位の位置情報の相違性に関する特徴を表しつつ、対となる左右対となる2つの身体部位のそれぞれの身体部位の動きの逆転に依存しない第6成分を得ることができる。生成部503は、モデルを用いて、第2人物の姿勢情報を推定する際の指針となり得る第6成分を得ることができる。
【0139】
学習部504は、生成した第1成分と、生成した第3成分とに基づいて、第2人物が映った第2映像から第2人物の姿勢情報を出力するモデルを学習する。学習部504は、例えば、生成した第1成分と、生成した第3成分との組み合わせと、取得部501で取得した正解ラベルとを対応付けた学習データを生成する。
【0140】
学習部504は、具体的には、第1人物が映った第1映像の各フレームについて、生成した第1成分と、生成した第3成分との組み合わせと、取得部501で取得した正解ラベルとを対応付けた学習データを生成する。学習部504は、具体的には、第1人物が映った第1映像における、生成した第1成分の時系列と、生成した第3成分の時系列との組み合わせと、取得部501で取得した第1映像全体に対応する正解ラベルとを対応付けた学習データを生成してもよい。
【0141】
学習部504は、例えば、生成した学習データに基づいて、モデルを学習する。学習部504は、具体的には、ロジスティック回帰を用いて、生成した学習データに基づいて、モデルを学習する。情報処理装置100は、具体的には、誤差逆伝搬を用いて、生成した学習データに基づいて、モデルを学習してもよい。
【0142】
これにより、学習部504は、モデルを学習することができる。学習部504は、例えば、第2人物が映った映像から第2人物の姿勢情報を精度よく推定可能なモデルを学習することができる。学習部504は、学習したモデルを用いて、対となる2つの身体部位のそれぞれの身体部位に関する同種の行動を、同一の行動として認識可能にすることができる。
【0143】
学習部504は、生成した第1成分と、生成した第2成分と、生成した第3成分とに基づいて、第2人物が映った第2映像から第2人物の姿勢情報を出力するモデルを学習してもよい。学習部504は、例えば、生成した第1成分と、生成した第2成分と、生成した第3成分との組み合わせと、取得部501で取得した正解ラベルとを対応付けた学習データを生成する。
【0144】
学習部504は、具体的には、第1人物が映った第1映像の各フレームについて、生成した第1成分と、生成した第2成分と、生成した第3成分との組み合わせと、取得部501で取得した正解ラベルとを対応付けた学習データを生成する。学習部504は、具体的には、第1人物が映った第1映像における、生成した第1成分の時系列と、生成した第2成分の時系列と、生成した第3成分の時系列との組み合わせと、第1映像全体に対応する正解ラベルとを対応付けた学習データを生成してもよい。
【0145】
学習部504は、例えば、生成した学習データに基づいて、モデルを学習する。学習部504は、具体的には、ロジスティック回帰を用いて、生成した学習データに基づいて、モデルを学習する。情報処理装置100は、具体的には、誤差逆伝搬を用いて、生成した学習データに基づいて、モデルを学習してもよい。
【0146】
これにより、学習部504は、モデルを学習することができる。学習部504は、例えば、第2人物が映った映像から第2人物の姿勢情報を精度よく推定可能なモデルを学習することができる。学習部504は、学習したモデルを用いて、対となる2つの身体部位のそれぞれの身体部位に関する同種の行動を、同一の行動として認識可能にすることができる。
【0147】
認識部505は、生成した第4成分と、生成した第6成分とに基づいて、学習したモデルを用いて、第2人物の姿勢情報を取得する。認識部505は、例えば、生成した第4成分と、生成した第6成分との組み合わせを説明変数として含む入力データを生成する。入力データは、例えば、第2人物が有する身体部位のうち、対とならない身体部位の位置情報を、さらに説明変数として含んでいてもよい。
【0148】
認識部505は、具体的には、第2人物が映った第2映像の各フレームについて、生成した第4成分と、生成した第6成分との組み合わせを説明変数として含む入力データを生成する。認識部505は、具体的には、第2人物が映った第2映像における、生成した第4成分の時系列と、生成した第6成分の時系列との組み合わせを説明変数として含む入力データを生成してもよい。
【0149】
認識部505は、例えば、生成した入力データを、学習したモデルに入力することにより、学習したモデルを用いて、第2人物の姿勢情報を推定し、学習したモデルから出力される第2人物の姿勢情報を取得する。これにより、認識部505は、第2人物の姿勢情報を精度よく求めることができる。
【0150】
認識部505は、生成した第4成分と、生成した第5成分と、生成した第6成分とに基づいて、学習したモデルを用いて、第2人物の姿勢情報を取得してもよい。認識部505は、例えば、生成した第4成分と、生成した第5成分と、生成した第6成分との組み合わせを説明変数として含む入力データを生成する。
【0151】
認識部505は、具体的には、第2人物が映った第2映像の各フレームについて、生成した第4成分と、生成した第5成分と、生成した第6成分との組み合わせを説明変数として含む入力データを生成する。認識部505は、具体的には、第2人物が映った第2映像における、生成した第4成分の時系列と、生成した第5成分の時系列と、生成した第6成分の時系列との組み合わせを説明変数として含む入力データを生成してもよい。
【0152】
認識部505は、例えば、生成した入力データを、学習したモデルに入力することにより、学習したモデルを用いて、第2人物の姿勢情報を推定し、学習したモデルから出力される第2人物の姿勢情報を取得する。これにより、認識部505は、第2人物の姿勢情報を精度よく求めることができる。
【0153】
出力部506は、少なくともいずれかの機能部の処理結果を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークI/F303による外部装置への送信、または、メモリ302や記録媒体305などの記憶領域への記憶である。これにより、出力部506は、少なくともいずれかの機能部の処理結果を利用者に通知可能にし、情報処理装置100の利便性の向上を図ることができる。
【0154】
出力部506は、例えば、学習部504で学習したモデルを出力する。出力部506は、具体的には、学習部504で学習したモデルを、他のコンピュータに送信する。他のコンピュータは、例えば、クライアント装置202などである。これにより、出力部506は、有用なモデルを、他のコンピュータで利用可能にすることができる。
【0155】
出力部506は、例えば、認識部505で取得した第2人物の姿勢情報を出力する。出力部506は、具体的には、第2人物の姿勢情報を、利用者が参照可能に出力する。出力部506は、具体的には、第2人物の姿勢情報を、他のコンピュータに送信してもよい。他のコンピュータは、例えば、クライアント装置202などである。これにより、出力部506は、第2人物の姿勢情報を利用可能にすることができる。
【0156】
ここでは、情報処理装置100が、取得部501と、特定部502と、生成部503と、学習部504と、認識部505と、出力部506とを含む場合について説明したが、これに限らない。例えば、情報処理装置100が、いずれかの機能部を含まず、当該機能部を含む他のコンピュータと通信可能である場合があってもよい。具体的には、情報処理装置100が、認識部505を含まない場合があってもよい。
【0157】
(情報処理装置100の動作の流れ)
次に、図6を用いて、情報処理装置100の動作の流れについて説明する。
【0158】
図6は、情報処理装置100の動作の流れを示す説明図である。図6において、(6-1)情報処理装置100は、人物が映った複数のフレームを含む学習映像データ601を、映像撮影装置201から受信する。情報処理装置100は、利用者の操作入力に基づき、学習映像データ601の各フレームに対応する人物の行動を示す正解ラベルを含むアノテーションデータ600を取得する。正解ラベルは、例えば、人物が特定の行動を行っているか否かを示す。
【0159】
(6-2)情報処理装置100は、DL(Deep Learning)モデル610を記憶する。DLモデル610は、映像データのフレームから、当該フレームに映った人物の複数の骨格のそれぞれの骨格の座標情報を推定する機能を有する。骨格は、身体部位に相当する。身体部位は、例えば、首、頭、右肩、左肩、右肘、左肘、右手、左手、右膝、左膝、右足、または、左足などである。
【0160】
座標情報は、例えば、それぞれの骨格の3次元空間上の位置を表す、それぞれ異なる軸方向の複数の成分値の組み合わせを含む。座標情報は、具体的には、X軸方向の成分値、Y軸方向の成分値、および、Z軸方向の成分値の組み合わせを含む。DLモデル610は、例えば、映像データのフレームの入力に応じて、当該フレームに映った人物の複数の骨格のそれぞれの骨格の座標情報を出力する機能を有する。
【0161】
(6-3)情報処理装置100は、人物認識611の処理を実施することにより、受信した学習映像データ601に基づいて、学習映像データ601の各フレームに映った人物を認識する。情報処理装置100は、骨格推定612の処理を実施することにより、DLモデル610を用いて、学習映像データ601の各フレームにおける、認識した人物の複数の骨格のそれぞれの骨格の座標情報を取得する。
【0162】
(6-4)情報処理装置100は、人物が有する骨格のうち、左右対となる2つの骨格のペアを特定する。ペアは、例えば、右手に相当する右手骨格と、左手に相当する左手骨格との組み合わせである。ペアは、例えば、右肘に相当する右肘骨格と、左肘に相当する左肘骨格との組み合わせであってもよい。情報処理装置100は、学習映像データ601の各フレームにおける、取得した複数の骨格のそれぞれの骨格の座標情報のうち、特定したペアとなる2つの骨格のそれぞれの骨格の座標情報を抽出する。
【0163】
(6-5)情報処理装置100は、座標変換613の処理を実施することにより、学習映像データ601の各フレームにおける、抽出した2つの骨格のそれぞれの骨格の座標情報の組み合わせを、特殊な直交座標系における2つの座標情報の組み合わせに変換する。特殊な直交座標系は、左右対となる2つの骨格のそれぞれの骨格の対称的な動きを統一的に扱うための直交座標系である。
【0164】
具体的には、2つの骨格のうち、一方の骨格に関するX軸と、他方の骨格に関するX軸とを直交させた直交座標系を想定し、当該直交座標系における45度線を軸の一つとする別の直交座標系を、特殊な直交座標系の一つとして採用することが考えられる。45度線は、例えば、「一方の骨格に関するX軸の成分値=他方の骨格に関するX軸の成分値」の数式によって定義される直線に相当する。
【0165】
同様に、具体的には、2つの骨格のうち、一方の骨格に関するY軸と、他方の骨格に関するY軸とを直交させた直交座標系を想定し、当該直交座標系における45度線を軸の一つとする別の直交座標系を、特殊な直交座標系の一つとして採用することが考えられる。45度線は、例えば、「一方の骨格に関するY軸の成分値=他方の骨格に関するY軸の成分値」の数式によって定義される直線に相当する。
【0166】
同様に、具体的には、2つの骨格のうち、一方の骨格に関するZ軸と、他方の骨格に関するZ軸とを直交させた直交座標系を想定し、当該直交座標系における45度線を軸の一つとする別の直交座標系を、特殊な直交座標系の一つとして採用することが考えられる。45度線は、例えば、「一方の骨格に関するZ軸の成分値=他方の骨格に関するZ軸の成分値」の数式によって定義される直線に相当する。特殊な直交座標系の具体的な一例については、図9および図10を用いて後述する。変換の具体的な一例については、図9および図10を用いて後述する。
【0167】
(6-6)情報処理装置100は、学習映像データ601の各フレームにおける、変換した特殊な直交座標系における2つの座標情報の組み合わせに、正解ラベルを対応付けたモデル学習データを生成する。情報処理装置100は、機械学習614の処理を実施することにより、生成したモデル学習データに基づいて、行動認識モデル620を学習する。
【0168】
行動認識モデル620は、例えば、人物が映った映像データのフレームにおける当該人物の姿勢に関する特徴の入力に応じて、当該フレームにおいて当該人物が特定の行動を行っているか否かを示すラベルを出力する機能を有する。人物の姿勢に関する特徴は、例えば、特殊な直交座標系における2つの座標情報の組み合わせである。これにより、情報処理装置100は、人物が映った映像のフレームにおいて当該人物が特定の行動を行っているか否かを示すラベルを精度よく推定可能な行動認識モデル620を得ることができる。
【0169】
(6-7)情報処理装置100は、人物が映った複数のフレームを含む評価映像データ602を、映像撮影装置201から受信する。
【0170】
(6-8)情報処理装置100は、人物認識615の処理を実施することにより、受信した評価映像データ602に基づいて、評価映像データ602の各フレームに映った人物を認識する。情報処理装置100は、骨格推定616の処理を実施することにより、DLモデル610を用いて、評価映像データ602の各フレームにおける、認識した人物の複数の骨格のそれぞれの骨格の座標情報を取得する。
【0171】
(6-9)情報処理装置100は、人物が有する骨格のうち、左右対となる2つの骨格のペアを特定する。ペアは、例えば、右手に相当する右手骨格と、左手に相当する左手骨格との組み合わせである。ペアは、例えば、右肘に相当する右肘骨格と、左肘に相当する左肘骨格との組み合わせであってもよい。情報処理装置100は、評価映像データ602の各フレームにおける、取得した複数の骨格のそれぞれの骨格の座標情報のうち、特定したペアとなる2つの骨格のそれぞれの骨格の座標情報を抽出する。
【0172】
(6-10)情報処理装置100は、座標変換617の処理を実施することにより、評価映像データ602の各フレームにおける、抽出した2つの骨格のそれぞれの骨格の座標情報の組み合わせを、特殊な直交座標系における2つの座標情報の組み合わせに変換する。特殊な直交座標系は、左右対となる2つの骨格のそれぞれの骨格の対称的な動きを統一的に扱うための直交座標系である。
【0173】
(6-11)情報処理装置100は、評価映像データ602の各フレームにおける、変換した特殊な直交座標系における2つの座標情報の組み合わせを説明変数として含むモデル入力データを生成する。情報処理装置100は、行動認識618の処理を実施することにより、行動認識モデル620を用いて、評価映像データ602の各フレームにおけるモデル入力データに基づいて、当該フレームにおいて人物が特定の行動を行っているか否かを示すラベルを取得する。これにより、情報処理装置100は、人物が映った映像のフレームにおいて当該人物が特定の行動を行っているか否かを示すラベルを精度よく推定することができる。
【0174】
(情報処理装置100の動作の一例)
次に、図7図20を用いて、情報処理装置100の動作の一例について説明する。まず、図7を用いて、人物が有する複数の骨格のうち、左右対となる2つの骨格のペアを特定可能にするために、情報処理装置100が記憶するペア管理テーブル700の記憶内容の一例について説明する。ペア管理テーブル700は、例えば、図3に示した情報処理装置100のメモリ302や記録媒体305などの記憶領域により実現される。
【0175】
図7は、ペア管理テーブル700の記憶内容の一例を示す説明図である。図7に示すように、ペア管理テーブル700は、骨格1と、骨格2とのフィールドを有する。ペア管理テーブル700は、2つの骨格を組み合わせたペアごとに各フィールドに情報を設定することにより、ペア情報がレコード700-aとして記憶される。aは、任意の整数である。
【0176】
骨格1のフィールドには、人物が有する複数の骨格のうち、いずれかの骨格の種類が設定される。種類は、例えば、身体部位の名称によって示される。骨格2のフィールドには、上記いずれかの骨格と組み合わせることにより2つの骨格のペアを形成する、人物が有する複数の骨格のうち、上記いずれかの骨格とは異なる他の骨格の種類が設定される。これにより、情報処理装置100は、ペア管理テーブル700を参照して、人物が有する複数の骨格のうち、左右対となる2つの骨格のペアを特定可能にすることができる。
【0177】
以下、情報処理装置100が、人物が映った複数のフレームを含む学習映像データ601を取得し、学習映像データ601に基づいて、複数の学習データを生成し、生成した複数の学習データに基づいて、行動認識モデル620を学習する一例について説明する。情報処理装置100は、DLモデル610を記憶する。
【0178】
情報処理装置100は、学習映像データ601を、映像撮影装置201から受信する。情報処理装置100は、利用者の操作入力に基づき、学習映像データ601の各フレームに対応する人物の行動を示す正解ラベルを含むアノテーションデータ600を取得する。情報処理装置100は、人物認識611の処理を実施することにより、受信した学習映像データ601に基づいて、学習映像データ601の各フレームに映った人物を認識する。
【0179】
次に、図8を用いて、情報処理装置100が、骨格推定612の処理を実施することにより、DLモデル610を用いて、学習映像データ601の各フレームにおける、認識した人物の複数の骨格のそれぞれの骨格の座標情報を取得する一例について説明する。
【0180】
図8は、それぞれの骨格の座標情報を取得する一例を示す説明図である。図8の符号800に示すように、情報処理装置100は、人物の正面方向をX軸とし、人物の側面方向をY軸とし、人物の上下方向をZ軸とする3次元直交座標系における、それぞれの骨格の座標情報を取得する。
【0181】
以下の説明では、図8の符号810に示すように、左半身に属する骨格に関するX軸を、Xl軸と表記し、図8の符号820に示すように、右半身に属する骨格に関するX軸を、Xr軸と表記し、それぞれの骨格に関するX軸を区別する。
【0182】
同様に、図8の符号810に示すように、左半身に属する骨格に関するY軸を、Yl軸と表記し、図8の符号820に示すように、右半身に属する骨格に関するY軸を、Yr軸と表記し、それぞれの骨格に関するY軸を区別する。
【0183】
同様に、図8の符号810に示すように、左半身に属する骨格に関するZ軸を、Zl軸と表記し、図8の符号820に示すように、右半身に属する骨格に関するZ軸を、Zr軸と表記し、それぞれの骨格に関するZ軸を区別する。
【0184】
以下の説明では、左半身に属する骨格の座標情報は、例えば、Xl軸の座標値xlと、Yl軸の座標値ylと、Zl軸の座標値zlとの組み合わせであるとする。同様に、以下の説明では、右半身に属する骨格の座標情報は、例えば、Xr軸の座標値xrと、Yr軸の座標値yrと、Zr軸の座標値zrとの組み合わせであるとする。
【0185】
情報処理装置100は、具体的には、学習映像データ601の各フレームにおける、人物の複数の骨格のうち、少なくとも、左手に相当する左手骨格の座標情報(xl,yl,zl)を取得する。情報処理装置100は、具体的には、学習映像データ601の各フレームにおける、人物の複数の骨格のうち、少なくとも、右手に相当する右手骨格の座標情報(xr,yr,zr)を取得する。
【0186】
情報処理装置100は、ペア管理テーブル700を参照して、人物が有する骨格のうち、左右対となる、右手に相当する右手骨格と、左手に相当する左手骨格とのペアを特定する。情報処理装置100は、学習映像データ601の各フレームにおける、取得した複数の骨格のそれぞれの骨格の座標情報のうち、左手骨格の座標情報(xl,yl,zl)と、右手骨格の座標情報(xr,yr,zr)とを抽出する。
【0187】
次に、図9および図10を用いて、情報処理装置100が、抽出した座標情報を変換する一例について説明する。具体的には、情報処理装置100が、左手骨格の座標情報(xl,yl,zl)と、右手骨格の座標情報(xr,yr,zr)との組み合わせを、特殊な直交座標系における2つの座標情報の組み合わせに変換する一例について説明する。
【0188】
図9および図10は、座標情報を変換する一例を示す説明図である。図9において、情報処理装置100は、学習映像データ601の各フレームにおける、左手骨格の座標情報(xl,yl,zl)と、右手骨格の座標情報(xr,yr,zr)とのうち、互いに対応する座標値同士の組み合わせを特定する。
【0189】
情報処理装置100は、具体的には、学習映像データ601の各フレームにおける、左手骨格の座標値xlと、右手骨格の座標値xrとの組み合わせ(xl,xr)を特定する。同様に、情報処理装置100は、具体的には、学習映像データ601の各フレームにおける、左手骨格の座標値ylと、右手骨格の座標値yrとの組み合わせ(yl,yr)を特定する。同様に、情報処理装置100は、具体的には、学習映像データ601の各フレームにおける、左手骨格の座標値zlと、右手骨格の座標値zrとの組み合わせ(zl,zr)を特定する。
【0190】
ここで、Xl軸とXr軸との直交座標系900において、xr=xlの数式が示す45度線910に対して、組み合わせ(xl,xr)の点901と線対称に存在する、組み合わせ(xl’,xr’)の点902が存在する場合が考えられる。組み合わせ(xl,xr)の点901に対応する人物の姿勢と、組み合わせ(xl’,xr’)の点902に対応する人物の姿勢とは、互いに左右逆転した姿勢である。
【0191】
ここで、左右対となる2つの骨格のそれぞれの骨格を用いた同種の行動を、同一の行動として扱うために、人物の左右対称の姿勢または動きを同一視して扱うことが望まれる。そこで、組み合わせ(xl,xr)と、組み合わせ(xl’,xr’)とを、それぞれ同一の指標値に変換するよう、新たな直交座標系を設定することが考えられる。ここで、図10の説明に移行し、新たな直交座標系1000について説明する。
【0192】
図10に示すように、新たな直交座標系1000は、Xa軸と、Xb軸との直交座標系である。Xa軸は、直交座標系900の45度線910に対応する。Xb軸は、直交座標系900の原点を通過し、直交座標系900の45度線910に直交する直線に対応する。組み合わせ(xl,xr)と、直交座標系1000のXa軸の成分値xaとの関係は、xa=(xl+xr)/√2で表される。組み合わせ(xl,xr)と、直交座標系1000のXb軸の成分値xbとの関係は、xb=|xl-xr|/√2で表される。
【0193】
ここで、(xl+xr)/√2=(xl’+xr’)/√2である。また、|xl-xr|/√2=|xl’-xr’|/√2である。従って、直交座標系1000において、組み合わせ(xl,xr)と、組み合わせ(xl’,xr’)とを、それぞれ同一の指標値に変換可能であると考えられる。
【0194】
また、座標値xa=(xl+xr)/√2は、組み合わせ(xl,xr)の共通性に関する特徴を表現可能であると考えられる。一方で、|xl-xr|/√2=|xl’-xr’|/√2であるため、xb=|xl’-xr’|/√2は、人物の左右対称の姿勢または動きを同一視して扱いつつも、組み合わせ(xl,xr)の相違性に関する特徴を表現可能であると考えられる。
【0195】
情報処理装置100は、学習映像データ601の各フレームにおける、組み合わせ(xl,xr)を、組み合わせ(xa,xb)に変換する。これにより、情報処理装置100は、人物の左右対称の姿勢または動きを同一視して扱いつつ、人物の姿勢または動きの特徴を精度よく表す特徴量を得ることができる。情報処理装置100は、具体的には、左右の区別以外の情報量を残しつつ、組み合わせ(xl,xr)を、組み合わせ(xa,xb)に変換することができる。
【0196】
また、情報処理装置100は、時系列に沿って、組み合わせ(xa,xb)が連続的に変化する性質を有するよう、組み合わせ(xa,xb)を得ることができる。組み合わせ(xa,xb)は、点1001に対応する。このように、情報処理装置100は、左右対となる2つの骨格のそれぞれの骨格に関する同種の行動を、同一の行動として認識可能な行動認識モデル620の学習に適した特徴量となる組み合わせ(xa,xb)を得ることができる。
【0197】
同様に、情報処理装置100は、学習映像データ601の各フレームにおける、組み合わせ(yl,yr)を、組み合わせ(ya,yb)に変換する。同様に、情報処理装置100は、学習映像データ601の各フレームにおける、組み合わせ(zl,zr)を、組み合わせ(za,zb)に変換する。これにより、情報処理装置100は、X軸、Y軸、および、Z軸のそれぞれの軸について、行動認識モデル620の学習に適した特徴量を得ることができる。
【0198】
情報処理装置100は、学習映像データ601の各フレームにおける、変換した組み合わせを結合し、全体の組み合わせ(xa,ya,za,xb,yb,zb)を特定し、当該フレームに対応する正解ラベルを対応付けてモデル学習データを生成する。情報処理装置100は、機械学習614の処理を実施することにより、生成したモデル学習データに基づいて、行動認識モデル620を学習する。これにより、情報処理装置100は、左右対となる2つの骨格のそれぞれの骨格に関する同種の行動を、同一の行動として精度よく認識可能な行動認識モデル620を学習することができる。
【0199】
次に、図11図20を用いて、情報処理装置100の効果を表す数値例について説明する。
【0200】
図11図20は、情報処理装置100の効果を表す数値例を示す説明図である。図11において、人物が屈んで「左手」で物体を拾った場面を映した左向き映像データに基づく、当該左向き映像データの秒ごとのフレームにおける、左手骨格の座標情報(xl,yl,zl)と、右手骨格の座標情報(xr,yr,zr)とを、表1100に示す。
【0201】
表1100は、秒と、左手xlと、左手ylと、左手zlと、右手xrと、右手yrと、右手zrとのフィールドを有する。秒のフィールドには、左向き映像データのフレームが何秒目かを示す秒数が設定される。
【0202】
左手xlのフィールドには、上記秒数のフレームにおける、Xl軸に関する、左手骨格の座標値xlが設定される。座標値xlの単位は、例えば、ピクセルである。左手ylのフィールドには、上記秒数のフレームにおける、Yl軸に関する、左手骨格の座標値ylが設定される。座標値ylの単位は、例えば、ピクセルである。左手zlのフィールドには、上記秒数のフレームにおける、Zl軸に関する、左手骨格の座標値zlが設定される。座標値zlの単位は、例えば、ピクセルである。
【0203】
右手xrのフィールドには、上記秒数のフレームにおける、Xr軸に関する、右手骨格の座標値xrが設定される。座標値xrの単位は、例えば、ピクセルである。右手yrのフィールドには、上記秒数のフレームにおける、Yr軸に関する、右手骨格の座標値yrが設定される。座標値yrの単位は、例えば、ピクセルである。右手zrのフィールドには、上記秒数のフレームにおける、Zr軸に関する、右手骨格の座標値zrが設定される。座標値zrの単位は、例えば、ピクセルである。次に、図12の説明に移行する。
【0204】
図12において、図11に示した左手骨格の座標情報(xl,yl,zl)の時系列と、図11に示した右手骨格の座標情報(xr,yr,zr)の時系列とを、グラフ1200に示す。グラフ1200の縦軸は、ピクセルである。グラフ1200の横軸は、秒数である。次に、図13の説明に移行する。
【0205】
図13において、人物が屈んで「左手」で物体を拾った左向き映像データを左右反転し、左右反転した反転映像データを、人物が屈んで「右手」で物体を拾った場面を映した右向き映像データとして扱う。人物が屈んで「右手」で物体を拾った右向き映像データに基づく、当該右向き映像データの秒ごとのフレームにおける、左手骨格の座標情報(xl,yl,zl)と、右手骨格の座標情報(xr,yr,zr)とを、表1300に示す。
【0206】
表1300は、秒と、左手xlと、左手ylと、左手zlと、右手xrと、右手yrと、右手zrとのフィールドを有する。表1300が有する各フィールドの内容は、表1100が有する各フィールドの内容と同様であるため、説明を省略する。次に、図14の説明に移行する。
【0207】
図14において、図13に示した左手骨格の座標情報(xl,yl,zl)の時系列と、図13に示した右手骨格の座標情報(xr,yr,zr)の時系列とを、グラフ1400に示す。グラフ1400の縦軸は、ピクセルである。グラフ1400の横軸は、秒数である。次に、図15の説明に移行する。
【0208】
図15において、左向き映像データの秒ごとのフレームにおける、左手骨格の座標情報(xl,yl,zl)と、右手骨格の座標情報(xr,yr,zr)とを変換した、座標情報(xa,ya,za,xb,yb,zb)を、表1500に示す。
【0209】
表1500は、秒と、xaと、yaと、zaと、xbと、ybと、zbとのフィールドを有する。秒のフィールドには、左向き映像データのフレームが何秒目かを示す秒数が設定される。
【0210】
xaのフィールドには、上記秒数のフレームにおける、Xa軸に関する座標値xaが設定される。座標値xaの単位は、例えば、ピクセルである。yaのフィールドには、上記秒数のフレームにおける、Ya軸に関する座標値yaが設定される。座標値yaの単位は、例えば、ピクセルである。zaのフィールドには、上記秒数のフレームにおける、Za軸に関する座標値zaが設定される。座標値zaの単位は、例えば、ピクセルである。
【0211】
xbのフィールドには、上記秒数のフレームにおける、Xb軸に関する座標値xbが設定される。座標値xbの単位は、例えば、ピクセルである。ybのフィールドには、上記秒数のフレームにおける、Yb軸に関する座標値ybが設定される。座標値ybの単位は、例えば、ピクセルである。zbのフィールドには、上記秒数のフレームにおける、Zb軸に関する座標値zbが設定される。座標値zbの単位は、例えば、ピクセルである。
【0212】
ここで、右向き映像データの秒ごとのフレームにおける、左手骨格の座標情報(xl,yl,zl)と、右手骨格の座標情報(xr,yr,zr)とを変換した、座標情報(xa,ya,za,xb,yb,zb)は、表1500に示す値と同一になる。次に、図16の説明に移行する。
【0213】
図16において、左向き映像データにおける座標情報(xa,ya,za,xb,yb,zb)の時系列を、グラフ1600に示す。グラフ1600の縦軸は、ピクセルである。グラフ1600の横軸は、秒数である。また、右向き映像データにおける座標情報(xa,ya,za,xb,yb,zb)の時系列を、グラフ1610に示す。グラフ1610の縦軸は、ピクセルである。グラフ1610の横軸は、秒数である。
【0214】
図15および図16に示したように、左向き映像データにおける座標情報(xa,ya,za,xb,yb,zb)の時系列と、右向き映像データにおける座標情報(xa,ya,za,xb,yb,zb)の時系列とは、同一になる。
【0215】
これにより、情報処理装置100は、座標情報(xa,ya,za,xb,yb,zb)により、人物の左右対称の姿勢または動きを同一視して扱いつつ、人物の姿勢または動きの特徴を精度よく表すことができる。情報処理装置100は、座標情報(xa,ya,za,xb,yb,zb)に、左右の区別以外の情報量を残すことができる。従って、情報処理装置100は、座標情報(xa,ya,za,xb,yb,zb)に基づいて、左右対となる2つの骨格のそれぞれの骨格に関する同種の行動を、同一の行動として精度よく認識可能な行動認識モデル620を学習することができる。
【0216】
次に、図17および図18の説明に移行し、情報処理装置100の手法と、従来の手法とを比較した場合について説明する。従来の手法は、例えば、右手の位置を示す座標値と、左手の位置を示す座標値とのうち、絶対値が大きい方の座標値を、手の位置を示す座標値として採用する手法であるとする。
【0217】
図17において、左向き映像データの秒ごとのフレームにおける、左手骨格の座標情報(xl,yl,zl)と、右手骨格の座標情報(xr,yr,zr)とを、従来の手法により変換した、座標情報(xi,yi,zi)を、表1700に示す。xiは、xlと、xrとのうち、絶対値が大きい方の値である。yiは、ylと、yrとのうち、絶対値が大きい方の値である。ziは、zlと、zrとのうち、絶対値が大きい方の値である。
【0218】
表1700は、秒と、xiと、yiと、ziとのフィールドを有する。秒のフィールドには、左向き映像データのフレームが何秒目かを示す秒数が設定される。
【0219】
xiのフィールドには、上記秒数のフレームにおける座標値xiが設定される。座標値xiの単位は、例えば、ピクセルである。yiのフィールドには、上記秒数のフレームにおける座標値yiが設定される。座標値yiの単位は、例えば、ピクセルである。ziのフィールドには、上記秒数のフレームにおける座標値ziが設定される。座標値ziの単位は、例えば、ピクセルである。
【0220】
ここで、右向き映像データの秒ごとのフレームにおける、左手骨格の座標情報(xl,yl,zl)と、右手骨格の座標情報(xr,yr,zr)とを、従来の手法により変換した、座標情報(xi,yi,zi)は、表1700に示す値と同一になる。次に、図18の説明に移行する。
【0221】
図18において、左向き映像データにおける座標情報(xi,yi,zi)の時系列を、グラフ1800に示す。グラフ1800の縦軸は、ピクセルである。グラフ1800の横軸は、秒数である。また、右向き映像データにおける座標情報(xi,yi,zi)の時系列を、グラフ1810に示す。グラフ1810の縦軸は、ピクセルである。グラフ1810の横軸は、秒数である。
【0222】
図17および図18に示したように、左向き映像データにおける座標情報(xi,yi,zi)の時系列と、右向き映像データにおける座標情報(xi,yi,zi)の時系列とは、同一になる。しかしながら、従来の手法では、座標情報(xi,yi,zi)は、左手骨格の座標情報(xl,yl,zl)と、右手骨格の座標情報(xr,yr,zr)とに関し、左右の区別以外の情報量が欠落することがある。
【0223】
具体的には、図12および図14に示すように、秒数7付近では、一方の手のz座標値が小さくなるものの、当該一方の手のz座標値に比べて他方の手のz表値が小さくならないという特徴が、グラフ1200およびグラフ1400に現れる。これに対し、図18に示すように、従来の手法では、座標情報(xi,yi,zi)の時系列に、秒数7付近で、座標値ziに、一方の手のz座標値が小さくなったという特徴は残るものの、他方の手のz表値が小さくならないという特徴が欠落することになる。
【0224】
一方で、図16に示すように、情報処理装置100は、座標値zaと、座標値zbとにより、座標値zlと、座標値zrとの共通性および相違性を表すことができる。このため、情報処理装置100は、座標情報(za,zb)に、秒数7付近で、一方の手のz座標値が小さくなるものの、当該一方の手のz座標値に比べて他方の手のz表値が小さくならないという特徴を残すことができる。
【0225】
従って、情報処理装置100は、従来の手法に比べて、左右対となる2つの骨格のそれぞれの骨格に関する同種の行動を、同一の行動として精度よく認識可能な行動認識モデル620を学習し易くすることができる。次に、図19および図20の説明に移行し、情報処理装置100が、左向き映像データに対応する正解ラベルと、右向き映像データとに対応する正解ラベルとに基づいて、行動認識モデル620を学習および検査する場合について説明する。
【0226】
図19において、左向き映像データに対応する正解ラベルを、表1900に示す。表1900は、時間と、動作有無とのフィールドを有する。時間のフィールドには、左向き映像データのフレームが何秒目かを示す秒数が設定される。動作有無のフィールドには、上記フレームにおいて、人物が特定の動作を行ったか否かを示す正解ラベルが設定される。特定の動作は、人物が屈んで片手で物体を拾うという動作である。正解ラベルは、値が0であれば、特定の動作が行われないことを示す。正解ラベルは、値が1であれば、特定の動作が行われたことを示す。
【0227】
また、右向き映像データに対応する正解ラベルを、表1910に示す。表1910は、時間と、動作有無とのフィールドを有する。時間のフィールドには、右向き映像データのフレームが何秒目かを示す秒数が設定される。動作有無のフィールドには、上記フレームにおいて、人物が特定の動作を行ったか否かを示す正解ラベルが設定される。特定の動作は、人物が屈んで片手で物体を拾うという動作である。正解ラベルは、値が0であれば、特定の動作が行われないことを示す。正解ラベルは、値が1であれば、特定の動作が行われたことを示す。
【0228】
ここで、秒数mod3=1ではないフレームを学習対象とし、秒数mod3=1であるフレームを検査対象とする。秒数mod3=1は、具体的には、秒数=1,4,7,10.13,16である。情報処理装置100は、学習対象の各フレームにおける座標情報(xa,ya,za,xb,yb,zb)と、正解ラベルとを組み合わせたモデル学習データに基づいて、行動認識モデル620を学習したとする。
【0229】
また、行動認識モデル620の比較対象として、学習対象の各フレームにおける、従来の手法で得た座標情報(xi,yi,zi)と、正解ラベルとを組み合わせた従来学習データに基づいて、従来のモデルを学習したとする。ここで、図20の説明に移行する。
【0230】
図20において、情報処理装置100は、行動認識モデル620を用いて、検査対象の各フレームにおける動作有無を推定する。情報処理装置100は、具体的には、行動認識モデル620に、検査対象の各フレームにおける座標情報(xa,ya,za,xb,yb,zb)を入力することにより、動作有無の推定結果を取得する。行動認識モデル620を用いた、動作有無の推定結果を、表2000に示す。
【0231】
表2000は、時間と、正解と、推定結果とのフィールドを有する。時間のフィールドには、秒数mod3=1である当該秒数が設定される。正解のフィールドには、上記秒数のフレームにおける正解ラベルが設定される。推定結果のフィールドには、上記秒数のフレームにおける、行動認識モデル620を用いた、動作有無の推定結果が設定される。推定結果は、値が0であれば、特定の動作が行われないことを示す。推定結果は、値が1であれば、特定の動作が行われたことを示す。
【0232】
また、行動認識モデル620を用いた、動作有無の推定結果の比較対象として、従来のモデルを用いた、動作有無の推定結果を、表2010に示す。表2010は、時間と、正解と、推定結果とのフィールドを有する。時間のフィールドには、秒数mod3=1である当該秒数が設定される。正解のフィールドには、上記秒数のフレームにおける正解ラベルが設定される。推定結果のフィールドには、上記秒数のフレームにおける、従来のモデルを用いた、動作有無の推定結果が設定される。推定結果は、値が0であれば、特定の動作が行われないことを示す。推定結果は、値が1であれば、特定の動作が行われたことを示す。
【0233】
このように、従来の手法は、誤推定が発生し、Recall=1.0かつPrecision=0.5(F値0.667)になってしまう。具体的には、従来の手法では、上述したように、秒数7付近で、座標値ziに、一方の手のz座標値が小さくなり、他方の手のz表値が小さくならないという特徴が欠落したため、誤推定が発生したと考えられる。
【0234】
これに対し、情報処理装置100は、行動認識モデル620を用いた、動作有無の推定結果を、正解ラベルと一致する値にすることができる。情報処理装置100は、Recall=Precision=1.0(F値1.0)にすることができる。このように、情報処理装置100は、従来の手法に比べて、人物の行動を精度よく認識可能な行動認識モデル620を学習することができ、人物の行動を精度よく認識することができる。
【0235】
(学習処理手順)
次に、図21を用いて、情報処理装置100が実行する、学習処理手順の一例について説明する。学習処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
【0236】
図21は、学習処理手順の一例を示すフローチャートである。図21において、情報処理装置100は、学習映像データ601を取得する(ステップS2101)。
【0237】
次に、情報処理装置100は、学習映像データ601に基づいて、DLモデルを用いて、学習映像データ601の各フレームに映った人物を認識し、各フレームにおける当該人物の複数の骨格のそれぞれの骨格の座標情報を算出する(ステップS2102)。
【0238】
次に、情報処理装置100は、各フレームにおける人物の複数の骨格のそれぞれの骨格の座標情報のうち、左右対となる2つの骨格のペアごとに、当該ペアとなる2つの骨格のそれぞれの骨格の座標情報を抽出する(ステップS2103)。
【0239】
次に、情報処理装置100は、左右対となるいずれかの2つの骨格のペアを処理対象として選択する(ステップS2104)。次に、情報処理装置100は、選択したペアの2つの骨格の座標情報のうち、x座標の組み合わせ、y座標の組み合わせ、および、z座標の組み合わせを、左右に依存しない特殊な直交座標系における座標の組み合わせに変換する(ステップS2105)。
【0240】
次に、情報処理装置100は、まだ選択していない左右対となる2つの骨格のペアが残っているか否かを判定する(ステップS2106)。ここで、左右対となる2つの骨格のペアが残っている場合(ステップS2106:Yes)、情報処理装置は、ステップS2104の処理に戻る。一方で、左右対となる2つの骨格のペアが残っていない場合(ステップS2106:No)、情報処理装置は、ステップS2107の処理に移行する。
【0241】
ステップS2107では、情報処理装置100は、変換した座標の組み合わせを説明変数として含む入力サンプルと、正解データとなるアノテーションデータとの組み合わせに基づいて、機械学習モデルを学習する(ステップS2107)。
【0242】
次に、情報処理装置100は、学習した機械学習モデルを保存する(ステップS2108)。そして、情報処理装置100は、学習処理を終了する。
【0243】
(認識処理手順)
次に、図22を用いて、情報処理装置100が実行する、認識処理手順の一例について説明する。認識処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
【0244】
図22は、認識処理手順の一例を示すフローチャートである。図22において、情報処理装置100は、評価映像データ602を取得する(ステップS2201)。
【0245】
次に、情報処理装置100は、評価映像データ602に基づいて、DLモデルを用いて、評価映像データ602の各フレームに映った人物を認識し、各フレームにおける当該人物の複数の骨格のそれぞれの骨格の座標情報を算出する(ステップS2202)。
【0246】
次に、情報処理装置100は、各フレームにおける人物の複数の骨格のそれぞれの骨格の座標情報のうち、左右対となる2つの骨格のペアごとに、当該ペアとなる2つの骨格のそれぞれの骨格の座標情報を抽出する(ステップS2203)。
【0247】
次に、情報処理装置100は、左右対となるいずれかの2つの骨格のペアを処理対象として選択する(ステップS2204)。次に、情報処理装置100は、選択したペアの2つの骨格の座標情報のうち、x座標の組み合わせ、y座標の組み合わせ、および、z座標の組み合わせを、左右に依存しない特殊な直交座標系における座標の組み合わせに変換する(ステップS2205)。
【0248】
次に、情報処理装置100は、まだ選択していない左右対となる2つの骨格のペアが残っているか否かを判定する(ステップS2206)。ここで、左右対となる2つの骨格のペアが残っている場合(ステップS2206:Yes)、情報処理装置は、ステップS2204の処理に戻る。一方で、左右対となる2つの骨格のペアが残っていない場合(ステップS2206:No)、情報処理装置は、ステップS2207の処理に移行する。
【0249】
ステップS2207では、情報処理装置100は、学習した機械学習モデルを用いて、変換した座標の組み合わせを説明変数として含む入力データに基づいて、行動認識を実施する(ステップS2207)。
【0250】
次に、情報処理装置100は、行動認識の実施結果を出力する(ステップS2208)。そして、情報処理装置100は、認識処理を終了する。
【0251】
ここで、情報処理装置100は、図21および図22の各フローチャートの一部ステップの処理の順序を入れ替えて実行してもよい。また、情報処理装置100は、図21および図22の各フローチャートの一部ステップの処理を省略してもよい。
【0252】
以上説明したように、情報処理装置100によれば、第1人物が映った映像を取得することができる。情報処理装置100によれば、取得した映像を分析することにより、映像における、第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を特定することができる。情報処理装置100によれば、特定したそれぞれの身体部位の位置情報の和を示す第1成分を生成することができる。情報処理装置100によれば、特定したそれぞれの身体部位の位置情報の差を示す第2成分の絶対値を示す第3成分を生成することができる。情報処理装置100によれば、生成した第1成分と、生成した第3成分とに基づいて、第2人物が映った映像から第2人物の姿勢情報を出力するモデルを学習することができる。これにより、情報処理装置100は、第2人物が映った映像から第2人物の姿勢情報を精度よく推定するモデルを学習し易くすることができる。
【0253】
情報処理装置100によれば、生成した第1成分と、第2成分と、生成した第3成分とに基づいて、モデルを学習することができる。これにより、情報処理装置100は、第2成分も考慮して、第2人物が映った映像から第2人物の姿勢情報を精度よく推定するモデルを学習し易くすることができる。
【0254】
情報処理装置100によれば、取得した映像を分析することにより、映像における、それぞれの身体部位の多次元空間上の位置を表す、それぞれ異なる軸方向の複数の成分値を示す位置情報を特定することができる。これにより、情報処理装置100は、位置情報が、多次元空間上の位置を表す、それぞれ異なる軸方向の複数の成分値を示す場合に対応することができる。情報処理装置100は、多次元空間上の位置を表す、それぞれ異なる軸方向の複数の成分値を示す位置情報を利用するモデルを学習することができる。
【0255】
情報処理装置100によれば、軸方向ごとに、それぞれの身体部位の位置情報が示す軸方向の成分値の和を用いた指標値を算出し、算出した当該指標値を組み合わせた第1成分を生成することができる。情報処理装置100によれば、軸方向ごとに、それぞれの身体部位の位置情報が示す軸方向の成分値の差を用いた指標値を算出し、算出した当該指標値の絶対値を組み合わせた第3成分を生成することができる。これにより、情報処理装置100は、位置情報が、多次元空間上の位置を表す、それぞれ異なる軸方向の複数の成分値を示す場合に、第1成分と、第3成分とを精度よく生成することができる。
【0256】
情報処理装置100によれば、軸方向ごとに、それぞれの身体部位の位置情報が示す軸方向の成分値の差を用いた指標値を算出し、算出した当該指標値を組み合わせた第2成分を生成することができる。情報処理装置100によれば、生成した第1成分と、生成した第2成分と、生成した第3成分とに基づいて、モデルを学習することができる。これにより、情報処理装置100は、位置情報が、多次元空間上の位置を表す、それぞれ異なる軸方向の複数の成分値を示す場合に、第2成分を精度よく生成することができる。
【0257】
情報処理装置100によれば、2つの身体部位に、左右対となる異なる身体部位の組み合わせを採用することができる。これにより、情報処理装置100は、左右対となる異なる身体部位を用いた第2人物の同種の行動を、同一の行動として認識可能なモデルを学習することができる。
【0258】
情報処理装置100によれば、第2人物が映った映像を分析することにより、当該映像における、第2人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を特定することができる。情報処理装置100によれば、対となる2つの身体部位のそれぞれの身体部位の位置情報の和を示す第4成分と、対となる2つの身体部位のそれぞれの身体部位の位置情報の差を示す第5成分の絶対値を示す第6成分とを生成することができる。情報処理装置100によれば、生成した第4成分と、生成した第6成分とに基づいて、学習したモデルを用いて、第2人物の姿勢情報を取得することができる。これにより、情報処理装置100は、第2人物の姿勢情報を精度よく推定することができる。
【0259】
情報処理装置100によれば、取得した映像を分析することにより、映像における、第1人物の骨格の位置を特定し、特定した骨格の位置に基づいて、それぞれの身体部位の位置情報を特定することができる。これにより、情報処理装置100は、骨格の位置を特定する手法を活用して、第1人物の姿勢に関する、それぞれの身体部位の位置情報を特定することができる。
【0260】
情報処理装置100によれば、姿勢情報に、第2人物が特定の行動に対応する姿勢であるか否かを示す情報を採用することができる。これにより、情報処理装置100は、第2人物が特定の行動に対応する姿勢であるか否かを判定可能にすることができ、第2人物が特定の行動を行ったか否かを判定可能にすることができる。
【0261】
なお、本実施の形態で説明した情報処理方法は、予め用意されたプログラムをPCやワークステーションなどのコンピュータで実行することにより実現することができる。本実施の形態で説明した情報処理プログラムは、コンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。記録媒体は、ハードディスク、フレキシブルディスク、CD(Compact Disc)-ROM、MO(Magneto Optical disc)、DVD(Digital Versatile Disc)などである。また、本実施の形態で説明した情報処理プログラムは、インターネットなどのネットワークを介して配布してもよい。
【0262】
上述した実施の形態に関し、さらに以下の付記を開示する。
【0263】
(付記1)第1人物が映った映像を取得し、
取得した前記映像を分析することにより、前記映像における、前記第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を特定し、
特定した前記それぞれの身体部位の位置情報の和を示す第1成分を生成し、
特定した前記それぞれの身体部位の位置情報の差を示す第2成分の絶対値を示す第3成分を生成し、
生成した前記第1成分と、生成した前記第3成分とに基づいて、第2人物が映った映像から前記第2人物の姿勢情報を出力するモデルを学習する、
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
【0264】
(付記2)前記学習する処理は、
生成した前記第1成分と、前記第2成分と、生成した前記第3成分とに基づいて、前記モデルを学習する、ことを特徴とする付記1に記載の情報処理プログラム。
【0265】
(付記3)前記特定する処理は、
取得した前記映像を分析することにより、前記映像における、前記それぞれの身体部位の多次元空間上の位置を表す、それぞれ異なる軸方向の複数の成分値を示す位置情報を特定する、ことを特徴とする付記1または2に記載の情報処理プログラム。
【0266】
(付記4)前記第1成分を生成する処理は、
前記軸方向ごとに、前記それぞれの身体部位の位置情報が示す前記軸方向の成分値の和を用いた指標値を算出し、算出した当該指標値を組み合わせた前記第1成分を生成し、
前記第3成分を生成する処理は、
前記軸方向ごとに、前記それぞれの身体部位の位置情報が示す前記軸方向の成分値の差を用いた指標値を算出し、算出した当該指標値の絶対値を組み合わせた前記第3成分を生成する、ことを特徴とする付記3に記載の情報処理プログラム。
【0267】
(付記5)前記軸方向ごとに、前記それぞれの身体部位の位置情報が示す前記軸方向の成分値の差を用いた指標値を算出し、算出した当該指標値を組み合わせた前記第2成分を生成する、
処理を前記コンピュータに実行させ、
前記学習する処理は、
生成した前記第1成分と、生成した前記第2成分と、生成した前記第3成分とに基づいて、前記モデルを学習する、ことを特徴とする付記4に記載の情報処理プログラム。
【0268】
(付記6)前記2つの身体部位は、左右対となる異なる身体部位の組み合わせである、ことを特徴とする付記1または2に記載の情報処理プログラム。
【0269】
(付記7)前記モデルは、前記第2人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報の和を示す第4成分と、対となる2つの身体部位のそれぞれの身体部位の位置情報の差を示す第5成分の絶対値を示す第6成分との入力に応じて、前記第2人物の姿勢情報を出力する機能を有し、
前記第2人物が映った映像を分析することにより、当該映像における、前記第2人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報の和を示す第4成分と、対となる2つの身体部位のそれぞれの身体部位の位置情報の差を示す第5成分の絶対値を示す第6成分とを生成し、
生成した前記第4成分と、生成した前記第6成分とに基づいて、学習した前記モデルを用いて、前記第2人物の姿勢情報を取得する、
処理を前記コンピュータに実行させることを特徴とする付記1または2に記載の情報処理プログラム。
【0270】
(付記8)前記特定する処理は、
取得した前記映像を分析することにより、前記映像における、前記第1人物の骨格の位置を特定し、特定した前記骨格の位置に基づいて、前記それぞれの身体部位の位置情報を特定する、ことを特徴とする付記1または2に記載の情報処理プログラム。
【0271】
(付記9)前記姿勢情報は、前記第2人物が特定の行動に対応する姿勢であるか否かを示す、ことを特徴とする付記1または2に記載の情報処理プログラム。
【0272】
(付記10)第1人物が映った映像を取得し、
取得した前記映像を分析することにより、前記映像における、前記第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を特定し、
特定した前記それぞれの身体部位の位置情報の和を示す第1成分を生成し、
特定した前記それぞれの身体部位の位置情報の差を示す第2成分の絶対値を示す第3成分を生成し、
生成した前記第1成分と、生成した前記第3成分とに基づいて、第2人物が映った映像から前記第2人物の姿勢情報を出力するモデルを学習する、
処理をコンピュータが実行することを特徴とする情報処理方法。
【0273】
(付記11)第1人物が映った映像を取得し、
取得した前記映像を分析することにより、前記映像における、前記第1人物が有する身体部位のうち、対となる2つの身体部位のそれぞれの身体部位の位置情報を特定し、
特定した前記それぞれの身体部位の位置情報の和を示す第1成分を生成し、
特定した前記それぞれの身体部位の位置情報の差を示す第2成分の絶対値を示す第3成分を生成し、
生成した前記第1成分と、生成した前記第3成分とに基づいて、第2人物が映った映像から前記第2人物の姿勢情報を出力するモデルを学習する、
制御部を有することを特徴とする情報処理装置。
【符号の説明】
【0274】
100 情報処理装置
101,102 ベクトル
110 第1成分
120 第2成分
130 第3成分
200 情報処理システム
201 映像撮影装置
202 クライアント装置
210 ネットワーク
300,400 バス
301,401 CPU
302,402 メモリ
303,403 ネットワークI/F
304,404 記録媒体I/F
305,405 記録媒体
306 ディスプレイ
307 入力装置
406 カメラ
500 記憶部
501 取得部
502 特定部
503 生成部
504 学習部
505 認識部
506 出力部
600 アノテーションデータ
601 学習映像データ
602 評価映像データ
610 DLモデル
611,615 人物認識
612,616 骨格推定
613,617 座標変換
614 機械学習
618 行動認識
620 行動認識モデル
700 ペア管理テーブル
800,810,820 符号
900,1000 直交座標系
901,902,1001 点
910 45度線
1100,1300,1500,1700,1900,1910,2000,2010 表
1200,1400,1600,1610,1800,1810 グラフ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22