特開2024-63331 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 住友ゴム工業株式会社の特許一覧 ▶ 学校法人立命館の特許一覧

特開2024-63331動作解析装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024063331

(43)【公開日】2024-05-13

(54)【発明の名称】動作解析装置

(51)【国際特許分類】

G06V 10/82 20220101AFI20240502BHJP

G06T 7/00 20170101ALI20240502BHJP

A63B 69/36 20060101ALI20240502BHJP

【ＦＩ】

G06V10/82

G06T7/00 350C

A63B69/36 541W

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2022171176

(22)【出願日】2022-10-26

(71)【出願人】

【識別番号】000183233

【氏名又は名称】住友ゴム工業株式会社

(71)【出願人】

【識別番号】593006630

【氏名又は名称】学校法人立命館

(74)【代理人】

【識別番号】100104134

【弁理士】

【氏名又は名称】住友慎太郎

(74)【代理人】

【識別番号】100156225

【弁理士】

【氏名又は名称】浦重剛

(74)【代理人】

【識別番号】100168549

【弁理士】

【氏名又は名称】苗村潤

(74)【代理人】

【識別番号】100200403

【弁理士】

【氏名又は名称】石原幸信

(74)【代理人】

【識別番号】100206586

【弁理士】

【氏名又は名称】市田哲

(72)【発明者】

【氏名】永野祐樹

(72)【発明者】

【氏名】植田勝彦

(72)【発明者】

【氏名】島田伸敬

(72)【発明者】

【氏名】白井良明

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA09

5L096CA04

5L096FA66

5L096FA69

5L096HA02

5L096HA11

5L096KA04

5L096KA15

(57)【要約】

【課題】物体の動作を定量的に表す動作値を、高い精度で導出することが可能な動作解析装置などを提供する。
【解決手段】物体の動作を解析するための動作解析装置などである。この動作解析装置は、物体の動作が距離画像センサによって撮影された複数の深度画像２１を取得する取得部と、物体の動作を定量的に表す動作値を出力可能なニューラルネットワーク３１に、複数の深度画像２１を入力して、動作値を導出する導出部とを備える。
【選択図】図７

【特許請求の範囲】

【請求項1】

物体の動作を解析するための動作解析装置であって、
前記物体の動作が距離画像センサによって撮影された複数の深度画像を取得する取得部と、
前記物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、前記複数の深度画像を入力して、前記動作値を導出する導出部とを備える、
動作解析装置。

【請求項2】

前記物体は、ゴルフクラブを把持したゴルファである、請求項１に記載の動作解析装置。

【請求項3】

前記動作は、ゴルフスイングである、請求項２に記載の動作解析装置。

【請求項4】

前記取得部は、前記物体の動作が時系列で連続的に撮影された前記深度画像を取得する、請求項１又は２に記載の動作解析装置。

【請求項5】

前記導出部は、前記時系列で連続的に撮影された少なくとも３枚の深度画像のセットを入力する、請求項４に記載の動作解析装置。

【請求項6】

前記導出部は、前記セットのうち、前記時系列の両端に位置する深度画像を除いた１枚の深度画像の前記動作値を導出する、請求項５に記載の動作解析装置。

【請求項7】

前記物体は、人体であり、
前記動作値は、前記人体の関節の位置データを含む、請求項１又は２に記載の動作解析装置。

【請求項8】

前記ニューラルネットワークを学習させる学習部をさらに備え、
前記学習部は、前記物体の動作をコンピュータグラフィックスで再現した複数の第１画像と、前記複数の第１画像のそれぞれの動作値とを含む教師データに基づいて、前記ニューラルネットワークを学習させる、請求項１又は２に記載の動作解析装置。

【請求項9】

前記複数の第１画像は、前記物体の動作を時系列で連続的に再現したものであり、
前記教師データは、前記複数の第１画像について、時間軸の前後で隣接する第１画像の時間間隔を互いに異ならせた複数の第１画像のセットを含む、請求項８に記載の動作解析装置。

【請求項10】

物体の動作を解析するための学習モデルの生成方法であって、
前記物体の動作をコンピュータグラフィックスで再現した複数の第１画像と、前記複数の第１画像のそれぞれの動作値とを含む教師データに基づいて、ニューラルネットワークを学習させる、
学習モデルの生成方法。

【請求項11】

物体の動作を解析するための方法であって、
前記物体の動作が距離画像センサによって撮影された複数の深度画像を取得する工程と、
前記物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、前記複数の深度画像を入力して、前記動作値を導出する工程とを含む、
動作解析方法。

【請求項12】

物体の動作を解析するためのコンピュータプログラムであって、
コンピュータを、
前記物体の動作が距離画像センサによって撮影された複数の深度画像を取得する手段と、
前記物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、前記複数の深度画像を入力して、前記動作値を導出する手段として機能させる、
コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、動作解析装置などに関する。

【背景技術】

【0002】

下記特許文献１には、動作解析装置が記載されている。この装置は、物体の動作を距離画像センサにより撮影した深度画像を取得する取得部と、物体の動作を定量的に表す動作値を出力とするニューラルネットワークに、取得部により取得された深度画像を入力することにより、動作値を導出する導出部とを備えている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１８－０２６１３１号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

近年、物体の動作を撮影した深度画像から、その物体の動作値を導出するにあたり、導出精度のさらなる向上が求められている。

【0005】

本発明は、以上のような実状に鑑み案出されたもので、物体の動作を定量的に表す動作値を、高い精度で導出することが可能な動作解析装置を提供することを主たる目的としている。

【課題を解決するための手段】

【0006】

本発明は、物体の動作を解析するための動作解析装置であって、前記物体の動作が距離画像センサによって撮影された複数の深度画像を取得する取得部と、前記物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、前記複数の深度画像を入力して、前記動作値を導出する導出部とを備える、動作解析装置である。

【発明の効果】

【0007】

本発明の動作解析装置は、上記の構成を採用することにより、物体の動作を定量的に表す動作値を、高い精度で導出することが可能となる。

【図面の簡単な説明】

【0008】

【図1】本実施形態の動作解析装置を含む動作解析システムを概念的に示す構成図である。

【図2】本実施形態の動作解析装置を示すブロック図である。

【図3】本実施形態の動作解析方法の処理手順を示すフローチャートである。

【図4】複数の深度画像を含む深度画像群を示す図である。

【図5】（ａ）は正規化される前の深度画像を示す図、（ｂ）は正規化された深度画像を示す図である。

【図6】人体の関節の位置データを説明する図である。

【図7】学習モデル（ニューラルネットワーク）を示す図である。

【図8】導出された動作値を示す図である。

【図9】左手の位置データと時間との関係を示すグラフである。（ａ）は、奥行方向（Ｘ軸方向）の位置データ、（ｂ）は、飛球線方向（Ｙ軸方向）の位置データ、及び、（ｃ）は、高さ方向（Ｚ軸方向）の位置データを示している。

【図10】物体の動作が時系列で連続的に再現された複数の第１画像を含むセットを示す図である。

【図11】本実施形態の学習モデルの生成方法の処理手順の一例を示すフローチャートである。

【図12】１つの位置データ群（ボーンデータ群）を示す図である。

【図13】物体モデルを示す図である。

【図14】複数の第１画像４１が第２時間間隔で取得された第１画像群を示す図である。

【発明を実施するための形態】

【0009】

以下、本発明の実施形態が図面に基づき説明される。図面は、発明の内容の理解を助けるために、誇張表現や、実際の構造の寸法比とは異なる表現が含まれることが理解されなければならない。また、各実施形態を通して、同一又は共通する要素については同一の符号が付されており、重複する説明が省略される。さらに、実施形態及び図面に表された具体的な構成は、本発明の内容理解のためのものであって、本発明は、図示されている具体的な構成に限定されるものではない。

【0010】

［動作解析システム］
本実施形態の動作解析装置（動作解析システム）は、物体の動作の解析に用いられる。図１は、本実施形態の動作解析装置２を含む動作解析システム１を概念的に示す構成図である。

【0011】

物体３は、動作するものであれば、特に限定されない。本実施形態の物体３は、人体である場合が例示されるが、例えば、生体（人体を除く）、及び、機械等であってもよい。

【0012】

動作は、物体３の動きであれば、特に限定されない。動作の一例には、スポーツ等をしている人体の動き等が挙げられる。スポーツの一例には、ゴルフ、テニス、バドミントン、卓球、野球、バレーボール及び剣道等が挙げられる。

【0013】

本実施形態では、人体（物体３）がゴルフクラブを把持したゴルファ５であり、動作がゴルフスイング（例えば、ゴルフクラブを用いたボールの打撃等）である場合が例示される。したがって、本実施形態の動作解析装置２は、ゴルファ５によるゴルフスイングの解析に好適に用いられ得る。解析結果は、例えば、ゴルフクラブのフィッティング、ゴルフスイングの改善、及び、ゴルフ用品の開発等に利用され得る。

【0014】

本実施形態の動作解析システム１は、動作解析装置２と、距離画像センサ６とを含んで構成される。動作解析システム１（動作解析装置２）は、後述の動作解析方法や、学習モデルの生成方法を実行するのに用いられる。

【0015】

［距離画像センサ］
距離画像センサ６は、物体３（本例では、ゴルファ５）の動作を撮影するためのものである。本実施形態の距離画像センサ６は、物体３（ゴルファ５）の前方に設置されている。これにより、距離画像センサ６は、物体３の動作（ゴルファ５によるゴルフスイング）を正面側から撮影することができる。

【0016】

本実施形態の距離画像センサ６は、三次元計測カメラである。このような距離画像センサ６は、物体３が動作する様子を二次元画像として撮影し、物体３を含む被写体までの距離を測定する測距機能を有している。したがって、本実施形態の距離画像センサ６は、二次元画像と、深度画像とを出力することができる。

【0017】

二次元画像とは、撮影空間の像をカメラの光軸に直交する平面内へ投影した画像である。深度画像とは、二次元画像と略同じ撮像範囲内の画素に、カメラの光軸方向の被写体の奥行きのデータ（深度データ）を割り当てた画像である。

【0018】

本実施形態の距離画像センサ６では、二次元画像が、赤外線画像として撮影される。深度画像は、赤外線を用いたタイムオブフライト方式やドットパターン投影方式等により取得される。このような距離画像センサ６には、例えば、特許文献１の距離画像センサと同一のものが用いられうる。本実施形態の距離画像センサ６には、例えば、マイクロソフト社製のＫｉｎｅｃｔ（登録商標）が用いられうる。

【0019】

本実施形態の距離画像センサ６は、通信線（有線又は無線）７を介して、動作解析装置２と通信可能に接続されている。これにより、距離画像センサ６で撮影された深度画像が、動作解析装置２に送信されうる。なお、画像の送信は、このような通信線７に限定されるわけではなく、例えば、通信ネットワーク（ＷＡＮ（Wide Area Network）やＬＡＮ（Local Area Network）等）を介して、距離画像センサ６と、動作解析装置２とが接続されてもよい。また、距離画像センサ６と動作解析装置２とが接続されない場合には、例えば、フラッシュメモリ等の記憶メディア（図示省略）等を介して、距離画像センサ６で撮影された深度画像が、動作解析装置２に入力されてもよい。

【0020】

［動作解析装置］
動作解析装置２は、例えば、コンピュータ８によって構成される。コンピュータ８の一例には、デスクトップ型コンピュータ、ノート型コンピュータ、タブレットコンピュータ、スマートフォン、及び、クラウドサーバ等が挙げられる。本実施形態のコンピュータ８には、デスクトップ型コンピュータが採用される。図２は、本実施形態の動作解析装置２を示すブロック図である。

【0021】

本実施形態の動作解析装置２は、例えば、入力装置１１と、出力装置１２と、通信装置１３と、演算処理装置１４とを含んで構成されている。

【0022】

［入力装置・出力装置］
入力装置１１には、例えば、図１に示したキーボード１１ａやマウス１１ｂ等が用いられる。出力装置１２には、例えば、図１に示したディスプレイ１２ａやプリンタ（図示省略）等が用いられる。

【0023】

［通信装置］
本実施形態の通信装置１３には、通信線７（図１に示す）が接続される。これにより、通信装置１３（動作解析装置２）は、距離画像センサ６（図１に示す）によって撮影された深度画像を、通信線７を介して取得（受信）することが可能となる。また、本実施形態の通信装置１３（動作解析装置２）は、例えば、距離画像センサ６を制御するための信号を、通信線７を介して距離画像センサ６に送信しうる。

【0024】

［演算処理装置］
本実施形態の演算処理装置１４は、例えば、各種の演算を行う演算部（ＣＰＵ）１５、データやプログラム等が記憶される記憶部１６、及び、作業用メモリ１７を含んで構成されている。

【0025】

［記憶部］
記憶部１６は、例えば、磁気ディスク、光ディスク又はＳＳＤ等からなる不揮発性の情報記憶装置である。本実施形態の記憶部１６には、データ部１８及びプログラム部１９が含まれる。

【0026】

［データ部］
データ部１８は、物体の動作の解析に必要なデータ（情報）や、解析結果等を記憶するためのものである。本実施形態のデータ部１８には、深度画像入力部１８ａ、動作値入力部１８ｂ、教師データ入力部１８ｃ及びニューラルネットワーク入力部１８ｄが含まれる。なお、データ部１８は、このような態様に限定されるわけではなく、これらの一部が省略されてもよいし、その他のデータが記憶されるデータ部が含まれてもよい。これらのデータ部１８に入力されるデータの詳細は、後述される。

【0027】

［プログラム部］
プログラム部１９は、物体の動作の解析に必要なプログラム（コンピュータプログラム）である。プログラム部（プログラム）１９は、演算部１５によって実行されることにより、コンピュータ８を、特定の手段として機能させることができる。

【0028】

本実施形態のプログラム部１９には、取得部１９ａ、導出部１９ｂ、出力部１９ｃ及び学習部１９ｄが含まれる。なお、プログラム部１９は、このような態様に限定されるわけではなく、これらの一部が省略されてもよいし、その他の機能を有するプログラム部が含まれてもよい。例えば、ニューラルネットワーク入力部１８ｄに、既に学習済みのニューラルネットワークが入力されている場合には、学習部１９ｄが省略されてもよい。これらのプログラム部１９の機能の詳細は、後述される。

【0029】

［動作解析方法］
次に、本実施形態の動作解析方法が説明される。本実施形態の動作解析方法では、図１に示した物体３の動作（本例では、ゴルファ５によるゴルフスイング）が解析される。図３は、本実施形態の動作解析方法の処理手順を示すフローチャートである。本実施形態の動作解析方法の各工程は、図１及び図２に示した動作解析装置２（コンピュータ８）によって実行される。

【0030】

［複数の深度画像を取得］
本実施形態の動作解析方法では、先ず、複数の深度画像が取得される（工程Ｓ１）。複数の深度画像は、図１に示した物体３の動作（ゴルファ５によるゴルフスイング）が、距離画像センサ６によって撮影される。

【0031】

本実施形態の工程Ｓ１では、先ず、図２に示したプログラム部１９に含まれる取得部１９ａが、作業用メモリ１７に読み込まれる。取得部１９ａは、物体３の動作が距離画像センサによって撮影された複数の深度画像を取得するためのプログラムである。この取得部１９ａが、演算部１５によって実行されることで、コンピュータ８を、複数の深度画像を取得する手段として機能させることができる。

【0032】

本実施形態の工程Ｓ１では、先ず、図１に示されるように、物体３に動作（ゴルファ５にゴルフスイング）させて、その物体３の動作が、距離画像センサ６によって撮影される。撮影は、オペレータ等が行ってもよいし、動作解析装置２（コンピュータ８）が行ってもよい。

【0033】

本実施形態では、物体３の動作が、動画として撮影される。これにより、物体３の動作が、時系列で連続的に撮影された複数の深度画像を含む深度画像群として取得されうる。図４は、複数の深度画像２１を含む深度画像群２２を示す図である。図４では、深度画像群２２に含まれる複数の深度画像２１のうち、一部の深度画像２１のみが示されており、他の深度画像が省略（「…」で表示）されている。

【0034】

本実施形態の深度画像群２２には、物体３の動作の開始から終了までを、時系列で連続的に撮影された複数の深度画像２１が含まれる。より具体的には、本実施形態の深度画像群２２は、ゴルファ５のアドレスからインパクトを経てフィニッシュまでの動作が記録された複数の深度画像２１を含む。これらの深度画像２１は、予め定められた第１時間間隔Ｔ１で撮影される。第１時間間隔Ｔ１は、特に限定されるわけではなく、例えば、距離画像センサ６の仕様等に基づいて設定される。本実施形態の第１時間間隔Ｔ１は、３３msである。

【0035】

距離画像センサ６では、一般的なカメラとは異なり、物体３の動作が左右反転した状態で撮影（ミラー処理）される場合がある。この場合、複数の深度画像２１に、左右を反転（再反転）させる画像処理がそれぞれ行われるのが好ましい。

【0036】

複数の深度画像２１は、それぞれ正規化されるのが好ましい。ここで、正規化とは、物体３（ゴルファ５）を含む被写体の深度に合わせて、深度フレームの階調のスケール変換を行う処理である。このような正規化は、上記特許文献１の段落「００５３」～「００５５」に記載の手順に基づいて行われる。正規化の一例として、図５（ａ）は、正規化される前の深度画像２１を示し、図５（ｂ）は、図５（ａ）の深度画像２１を正規化した深度画像２１を示す。

【0037】

本実施形態では、図５（ａ）に示した深度画像２１が正規化されることで、図５（ｂ）に示されるように、主として物体３（ゴルファ５）以外を捉えた領域（背景領域）に、画素値「０」（黒色）が与えられる。これにより、解析対象の物体３が鮮明化され、物体３を容易に特定（抽出）することが可能となる。

【0038】

正規化された複数の深度画像２１において、物体３（ゴルファ５）の近傍が、それぞれトリミング（切り抜き）されるのが好ましい。本実施形態では、正規化された各深度画像２１について、例えば、物体３が全て含まれるようにトリミングされる。より具体的には、物体３の代表点（例えば、物体３の重心）を中心として、飛球線方向、及び、高さ方向に予め定められた大きさの領域が切り取られる。これにより、物体３の近傍がトリミングされた深度画像２１が取得される。図４には、トリミングされた複数の深度画像２１が示されている。

【0039】

本実施形態では、正規化された深度画像２１がトリミングされることにより、深度画像２１中の物体３が占める領域（割合）を大きくなる。このような深度画像２１は、後述のニューラルネットワークに入力されることで、物体３の動作を定量的に表す動作値を、高い精度で導出するのに役立つ。なお、トリミングされる領域の大きさは、例えば、ニューラルネットワークの学習に用いられる教師データ（教師データに用いられる画像の大きさ）に基づいて設定されうる。本実施形態の領域の大きさは、例えば、３００pixel×３００pixelに設定される。図４に示した複数の深度画像２１（深度画像群２２）は、深度画像入力部１８ａ（図２に示す）に記憶される。

【0040】

［物体の動作を表す動作値の導出］
次に、本実施形態の動作解析方法は、物体３（図１に示す）の動作を定量的に表す動作値を出力可能なニューラルネットワークに、複数の深度画像２１を入力して、動作値を導出する（工程Ｓ２）。

【0041】

本実施形態の工程Ｓ２では、先ず、図２に示されるように、深度画像入力部１８ａに入力された複数の深度画像２１（図４に示した深度画像群２２）が、作業用メモリ１７に読み込まれる。さらに、工程Ｓ２では、ニューラルネットワーク入力部１８ｄに入力されているニューラルネットワーク、及び、プログラム部１９に含まれる導出部１９ｂが、作業用メモリ１７に読み込まれる。導出部１９ｂは、ニューラルネットワークに、複数の深度画像２１を入力して、動作値を導出するためのプログラムである。この導出部１９ｂが、演算部１５によって実行されることで、コンピュータ８を、ニューラルネットワークに複数の深度画像２１を入力して動作値を導出する手段として機能させることができる。

【0042】

ニューラルネットワークに入力される複数の深度画像２１は、図４に示した深度画像群２２から、適宜設定されうる。本実施形態では、導出部１９ｂに、深度画像群２２のうち、時系列で連続的に撮影された複数の深度画像２１のセット２３が入力される。複数の深度画像２１のセットは、２枚以上の深度画像２１を含んでいれば良いが、好ましくは、少なくとも３枚（本例では、３枚）の深度画像２１を含むセット２３とされる。

【0043】

本実施形態のセット２３は、１枚の深度画像２１ａと、深度画像２１ａと時間軸の前後で隣接する２枚の深度画像２１ｂ、２１ｃとを含む。このようなセット２３は、例えば、深度画像群２２の最初から１ないし３番目の深度画像２１のセット、２ないし４番目の深度画像２１のセット２３というように複数のセットとして設定される。なお、深度画像群２２には、１番目の深度画像２４と時間軸の前で隣接する深度画像や、最後の深度画像（図示省略）と時間軸の後で隣接する深度画像が存在しない。したがって、最初の深度画像２４及び最後の深度画像（図示省略）を深度画像２１ａとするセット２３は設定されなくても良い。

【0044】

動作値は、物体３（図１に示す）の動作を定量的に表すことができれば、特に限定されない。本実施形態の動作値には、人体（本例では、ゴルファ５）の任意に位置とされる。本実施形態では、好ましい動作値として、人体の動きをより詳細に把握するために、人体の少なくとも１つの関節の位置データが採用される。動作値として、関節の位置に代えて、又は、関節の位置とともに、人体の特定の部位の位置データが採用されてもよいし、さらに、関節の姿勢であってもよい。

【0045】

図６は、人体の関節２５の位置データを説明する図である。この図６では、複数の関節（ジョイント）２５と、これらの関節を連結するボーン（骨）２６とを含むボーンデータ２７が示されている。本実施形態の関節２５の位置データは、人体の関節２５の位置を、三次元座標で表したものである。本実施形態の位置データは、図１に示した物体３の正面視において、奥行方向（Ｘ軸方向）、飛球線方向（Ｙ軸方向）及び高さ方向（Ｚ軸方向）の座標値で示される。本実施形態において、各方向（奥行方向、飛球線方向、及び、高さ方向）のゼロの位置（基準位置）には、例えば、図１に示したゴルフボール２８の位置が設定される。

【0046】

関節２５及び部位等は、物体３（図１に示す）の動作に応じて、適宜設定される。本実施形態の関節２５又は人体の位置は、頭２５ａ、喉２５ｂ、腹２５ｃ、右腰２５ｄ、左腰２５ｅ、右膝２５ｆ、左膝２５ｇ、右足首２５ｈ、左足首２５ｉ、右足先２５ｊ、左足先２５ｋ、右踵２５ｌ、左踵２５ｍ、右肩２５ｎ及び左肩２５ｏが含まれる。さらに、関節２５は、右肘外側２５ｐ、左肘外側２５ｑ、右肘内側２５ｒ、左肘内側２５ｓ、右手首外側２５ｔ、左手首外側２５ｕ、右手首内側２５ｖ、左手首内側２５ｗ、右手２５ｘ、及び、左手２５ｙが含まれる。なお、関節２５は、このような態様に限定されるわけではなく、例えば、解析の目的に応じて、これらの一部が省略されてもよいし、他の関節がさらに含まれてもよい。

【0047】

プログラム部１９の導出部１９ｂは、予め機械学習させた学習モデル３０を含む。図７は、学習モデル３０を説明するための概念図である。本実施形態の学習モデル３０は、ニューラルネットワーク３１を含む。ニューラルネットワーク３１は、脳の神経回路網を模した数理モデルである。このようなニューラルネットワーク３１に、人工知能（ＡＩ：Artificial Intelligence）を用いたディープラーニング（深層学習）をさせることで、学習モデル３０が生成される。本実施形態のニューラルネットワーク３１には、特許文献（特開２０２１－０９９６６６号公報）に記載のニューラルネットワークと同様に、畳み込みニューラルネットワークであるＲｅｓＮｅｔ５０が採用される。なお、ニューラルネットワーク３１は、このような態様に限定されるわけではなく、他のモデルが採用されても良い。

【0048】

本実施形態の学習モデル３０は、動作解析方法の実施に先立って生成される。本実施形態では、図４に示した複数の深度画像２１（本例では、セット２３）から、物体３の動作を定量的に表す動作値（図６に示した人体の関節等の位置データ）が導出可能なように生成される。本実施形態の学習モデル３０は、後述の学習モデルの生成方法に基づいて、ニューラルネットワーク３１（学習モデル３０）が生成される。

【0049】

本実施形態のニューラルネットワーク３１は、畳み込み層３２、バッチノーマライゼーション層３３、及び、プーリング層３４を経た後、３つの畳み込み層のセット３５を１６回繰り返す、計５０層（バッチノーマライゼーション層を除く）の層構成を有している。図７において、各畳み込み層（セット３５）に記載の「数値×数値」は、カーネルのサイズである。複数のユニットからなる結合層３６は、出力層３７（本例では、関節の個数（２５個）と座標軸の個数（３個）とを乗じた７５個）に結合され、最終的に、動作値として、図６に示した人体の関節等の位置データが出力される。

【0050】

本実施形態の工程Ｓ２では、ニューラルネットワーク３１に、複数の深度画像２１のセット（本例では、図４に示した深度画像群２２から特定された複数のセット２３）がそれぞれ入力される。これにより、工程Ｓ２では、物体３の動作を定量的に表す動作値（本例では、各セット２３の深度画像２１ａの動作値）がそれぞれ導出される。

【0051】

本実施形態の動作値は、ニューラルネットワーク３１に入力されたセット２３について、時系列の両端（すなわち、前端及び後端）に位置する深度画像２１ｂ、２１ｃを除いた１枚の深度画像２１ａの動作値が出力されうる。図８は、導出された動作値を示す図である。図８には、図７に示した深度画像２１のセット２３に含まれる時系列的に真ん中に位置する深度画像２１ａの動作値が示されている。本実施形態の動作値には、人体の関節２５等の位置データが含まれる。

【0052】

このように、本実施形態の動作解析装置２及び動作解析方法では、動作値の特定に、複数の深度画像２１（深度画像２１ａ～２１ｃのセット２３）からなる多くの入力変数が、図７に示したニューラルネットワーク３１に入力される。これにより、本実施形態の動作解析装置２及び動作解析方法は、動作値を高い精度で導出することが可能となる。

【0053】

さらに、本実施形態では、図４に示したセット２３を構成する３枚の深度画像２１ａ～２１ｃのうち、時系列の両端に位置する深度画像２１ｂ、２１ｃを除いた１枚の深度画像２１ａの動作値が導出される。これにより、動作値が導出される深度画像２１ａと、その深度画像２１ａの動作と関連性の高い前後の深度画像２１ｂ、２１ｃとが、ニューラルネットワーク３１への入力変数に用いられるため、高い精度で動作値を導出することができる。

【0054】

本実施形態では、図４に示した深度画像群２２から特定された全てのセット２３について、時系列の両端に位置する深度画像２１ｂ、２１ｃを除いた１枚の深度画像２１ａの動作値がそれぞれ導出される。これにより、本実施形態では、深度画像群２２に含まれる複数の深度画像２１のうち、最初の深度画像２４及び最後の深度画像（図示省略）を除く全ての深度画像２１の動作値を、時系列で取得することができる。そして、これらの導出された動作値は、動作値入力部１８ｂ（図２に示す）に記憶される。

【0055】

なお、本実施形態の動作値として取得される人体の関節２５等の位置データは、例えば、距離画像センサ（例えば、Ｋｉｎｅｃｔ（登録商標））によって、簡易的に取得ないし推定することができる。しかしながら、例えば、ゴルフスイング中において、例えば、手首など体の一部が隠れた状態で撮影されると、その隠れた部分の関節２５等の位置データが取得されないことがある。本実施形態では、このような課題に対処すべく、ニューラルネットワーク３１として、図８に示した全ての動作値を含む教師データを用いて機械学習させたモデルを用いている。これにより、図４に示した複数の深度画像２１の撮影時に隠れた部分が含まれていたとしても、全ての関節２５の位置データを推論することができる。

【0056】

［動作値の出力］
次に、本実施形態の動作解析方法では、ニューラルネットワーク３１から導出された動作値が出力される（工程Ｓ３）。

【0057】

本実施形態の工程Ｓ３では、先ず、図２に示した動作値入力部１８ｂに入力された複数の動作値、及び、プログラム部１９に含まれる出力部１９ｃが、作業用メモリ１７に読み込まれる。出力部１９ｃは、学習モデル３０（ニューラルネットワーク３１）から導出された動作値を出力するためのプログラムである。この出力部１９ｃが、演算部１５によって実行されることで、コンピュータ８を、動作値を出力するための手段として機能させることができる。

【0058】

本実施形態の工程Ｓ３では、工程Ｓ２で導出された人体の関節２５及び各部位の三次元座標値からなる位置データが、出力装置１２に出力される。出力値は、数値データである。数値データは、図８に示されるようなボーンモデルとして加工されても良い。以上により、図１に示したゴルファ５によるゴルフスイングの動作が詳細に把握されうる。このような動作値は、例えば、ゴルフクラブのフィッティング、ゴルフスイングの改善、及び、ゴルフ用品の開発等に利用されうる。

【0059】

動作値としての図８に示した関節２５等の位置データは、時系列に出力されてもよい。これにより、動作中の関節２５の位置の変化が、動画として出力されうる。

【0060】

工程Ｓ３では、関節２５等の位置データと、時間との関係を示すグラフが出力されてもよい。図９は、左手２５ｙ（図６に示す）の位置データと、時間との関係を示すグラフである。図９（ａ）は、奥行方向（Ｘ軸方向）の位置データを示している。図９（ｂ）は、飛球線方向（Ｙ軸方向）の位置データを示している。図９（ｃ）は、高さ方向（Ｚ軸方向）の位置データを示している。

【0061】

関節２５等の位置データは、例えば、移動平均等によって平滑化され、スプライン補間が行われるのが好ましい。本実施形態のスプライン補間では、図４に示した第１時間間隔Ｔ１（３３ms）の位置データが、第１時間間隔Ｔ１よりも小さい時間間隔（例えば１ms）の位置データに変換されている。これにより、図９（ａ）～（ｃ）に示されるように、平滑化及び補間された滑らかな時系列の位置データが取得されうる。このようなグラフは、全ての関節２５等の位置データについて出力されてもよい。

【0062】

［学習モデルの生成方法］
次に、本実施形態の学習モデルの生成方法（以下、単に「生成方法」ということがある。）が説明される。ここでも、図１に示したように、物体がゴルファ５であり、物体の動作がゴルフスイングである場合を例にとり説明する。すなわち、本実施形態の生成方法では、ゴルファ５のゴルフスイングを解析するための学習モデルが生成される。

【0063】

本実施形態の生成方法では、図２に示されるように、先ず、プログラム部１９に含まれる学習部１９ｄが、作業用メモリ１７に読み込まれる。学習部１９ｄは、後述の教師データに基づいて、ニューラルネットワーク３１（図７に示す）を学習させるためのプログラムである。この学習部１９ｄが、演算部１５によって実行されることで、コンピュータ８を、ニューラルネットワーク３１を学習させるための手段として機能させることができる。

【0064】

ニューラルネットワーク３１の生成には、図１に示したゴルフスイングをしている複数のゴルファ５の画像を含む教師データが用いられる。このような画像は、複数のゴルファ５のゴルフスイングをそれぞれ撮影した深度画像であってもよい。代替的に、前記複数の画像は、深度画像に代えて、又は、深度画像とともに、ゴルファ５の動作を擬似的に再現したコンピュータグラフィックス（ＣＧ）の画像が用いられてもよい。この場合、動作値をより精度よく導出するために、コンピュータグラフィックスは、図４及び図５（ｂ）に示した複数の深度画像２１と近似させるのが好ましい。

【0065】

図１０は、教師データの一例として、複数の第１画像４１を示す。個々の第１画像４１は、ゴルファのスイングの瞬間を模擬した画像データであり、例えば、コンピュータグラフィックス（ＣＧ）の画像である。

【0066】

本実施形態の教師データには、時系列で連続的に再現された複数の第１画像４１のセット４３が用いられる。本実施形態のセット４３は、後述の第１画像群４２（図１４に示す）から選択された３枚の第１画像４１からなる。第１画像群４２は、時系列かつ連続的に再現された複数の第１画像４１からなり、例えば、ゴルフスイングのアドレスからインパクトを経てフィニッシュまでを、時系列で再現した複数の第１画像４１を含む。

【0067】

本実施形態のセット４３は、ゴルファのスイングのある瞬間の第１画像４１ａと、この第１画像４１ａとは時間軸の前後において、第１時間間隔Ｔ１（３３ms）で離れた２枚の第１画像４１ｂ及び４１ｃとを含む。本実施形態では、教師データとして、複数のセット４３が用いられる。

【0068】

ニューラルネットワーク３１を生成するための教師データは、さらに、ゴルファのゴルフスイングを定量的に表す動作値を含む。本実施形態の動作値は、図１０に示した各セット４３について、時系列の両端（前端及び後端）に位置する第１画像４１ｂ、４１ｃを除いた１枚の第１画像４１ａの動作値である。この動作値は、図８に示したように、ゴルファの関節２５等の位置データである。

【0069】

このように、本実施形態の生成方法では、複数の第１画像４１（図１０に示す）と、複数の第１画像４１のそれぞれの動作値（図８に示す）とを含む教師データに基づいて、ニューラルネットワーク３１（図７に示す）を学習させる。図１１は、本実施形態の学習モデル３０の生成方法の処理手順の一例を示すフローチャートである。

【0070】

［複数の第１画像を取得］
本実施形態の生成方法では、先ず、図１に示したゴルファ５の動作をコンピュータグラフィックスで再現した複数の第１画像４１（図１０に示す）が取得される（工程Ｓ４）。

【0071】

本実施形態の工程Ｓ４では、先ず、様々なゴルファ５のゴルフスイングが、モーションキャプチャシステム（図示省略）で撮影される。モーションキャプチャシステムには、例えば、特許文献（特開２０２１－０９９６６６号公報）に記載のものが用いられる。

【0072】

本実施形態のように、物体３の動作が、ゴルファ５によるゴルフスイングである場合には、例えば、ハンディキャップ、年齢、性別及び／又は体型等が異なる複数のゴルファ５のゴルフスイングが撮影されるのが好ましい。また、各ゴルファ５について、ティーショットや、アプローチショットなどの様々なゴルフスイングが撮影されるのが好ましい。これにより、様々なゴルファ５や様々なゴルフスイングを再現した教師データが取得され、動作値を高い精度で導出可能な学習モデル３０（ニューラルネットワーク３１）の生成が可能となる。

【0073】

ゴルファ５の人体には、特許文献（特開２０２１－０９９６６６号公報）と同様に、光反射性の球体のマーカー（図示省略）が、複数取り付けられるのが好ましい。複数のマーカーは、ゴルファ５の各関節等（例えば、図６に示した頭２５ａ～左手２５ｙに対応する関節等）にそれぞれ取り付けられる。マーカーが取り付けられたゴルファ５の動作がモーションキャプチャシステムで撮影されることにより、ゴルファ５の各関節２５等の位置データ（三次元座標値）が、時系列で連続的に取得されうる。

【0074】

本実施形態では、図１に示したように、ゴルファ５の動作として、アドレスからインパクトを経てフィニッシュまでの関節２５等の時系列の位置データがそれぞれ取得される。これにより、ゴルファ５のゴルフスイングについて、関節２５等の時系列の位置データを含む位置データ群４６がそれぞれ取得される。図１２には、位置データ群４６がボーンデータ群４７として示されている。図１２では、第１時間間隔Ｔ１（例えば、３３ms）で取得された一部の位置データ（ボーンデータ２７）が代表して示されており、第１時間間隔Ｔ１内に取得された複数の位置データが省略（「…」で表示）されている。

【0075】

本実施形態において、位置データ群４６に含まれる複数の位置データは、図４に示した複数の深度画像２１が取得された第１時間間隔Ｔ１（例えば、３３ms）よりも小さい第２時間間隔（例えば、２ms）で、時系列に取得される。これにより、位置データ群４６は、第１時間間隔Ｔ１内に、関節２５等の位置データを複数含むことから、各関節２５等の位置（動き）がより詳細に把握されうる。

【0076】

次に、本実施形態の工程Ｓ４では、各物体３の動作について、位置データ群４６に含まれる各関節２５等の位置データから、ボーンデータ２７がそれぞれ取得される。ボーンデータ２７は、複数の関節（ジョイント）２５と、これらの関節を連結するボーン（骨）２６とを含んで構成される。これにより、複数のゴルファ５のゴルフスイングについて、時系列に取得された複数のボーンデータ２７を含むボーンデータ群４７がそれぞれ取得されうる。

【0077】

次に、本実施形態の工程Ｓ４では、ゴルファ５のゴルフスイングについて、ボーンデータ群４７に含まれる各ボーンデータ２７から、図１０に示した複数の第１画像４１（すなわち、ゴルファ５のゴルフスイングをコンピュータグラフィックスで再現したもの）を含む第１画像群４２（図１４に示す）をそれぞれ取得する。複数の第１画像４１は、物体３としてゴルファ５をモデリングした物体モデル４８を含む。図１３は、物体モデル４８を示す図である。

【0078】

本実施形態では、図１３に示されるように、予め定められた体型を規定する体型データに基づいて、各ボーンデータ２７が肉付けされる。肉付けは、特許文献（特開２０２１－０９９６６６号公報）と同様の手順によって行われる。これにより、ゴルファ５が再現された物体モデル４８がそれぞれ作成される。これらの物体モデル４８により、複数のゴルファ５のゴルフスイングを、時系列で連続的に再現した複数の第１画像４１を含む第１画像群４２（図１４に示す）が、それぞれ取得されうる。

【0079】

図１４は、複数の第１画像４１が第２時間間隔で取得された第１画像群４２を示す図である。図１４では、第１時間間隔Ｔ１（例えば、３３ms）で一部の第１画像４１が代表して示されており、それらの間の第１画像４１が省略（「…」で表示）されている。

【0080】

本実施形態では、一人のゴルファ５から取得されたボーンデータ２７に対して、体型が異なる複数の物体モデル４８が作成されるのが好ましい。体型としては、例えば、「普通体型」、「痩身体型」及び「肥満体型」などが挙げられる。図１３及び図１４には、普通体型の物体モデル４８が示されている。これにより、一人のゴルファ５から、体型が異なる複数のゴルファ５を模擬した物体モデル４８が作成される。これにより、第１画像群４２（図１４に示す）の種類数が増加する。これにより、少ない労力でより多くの教師データを用意することができる。これは、物体３の動作値を高い精度で導出しうる学習モデル３０（図７に示す）の生成に役立つ。

【0081】

本実施形態では、一人のゴルファ５から取得された物体モデル４８について、奥行方向（Ｘ軸方向）の立ち位置が異なる複数の物体モデル４８が作成されるのが好ましい。立ち位置は、例えば、基準位置を０cmとしたときに、そこから前後に＋３cmや－３cmで変化させることができる。さらに、本実施形態では、飛球線方向（Ｙ軸方向）の立ち位置（例えば、０cm、＋１０cm、－１０cm）が異なる複数の物体モデル４８が作成されるのが好ましい。これにより、１つの物体３（ゴルファ５）から、立ち位置が異なる複数の物体（仮想した物体）をモデリングした物体モデル４８が作成されるため、第１画像群４２の種類数がさらに増加する。これは、物体３の動作値を高い精度で導出しうる学習モデル３０の生成に役立つ。

【0082】

ところで、図１４に示された本実施形態の第１画像群４２は、図１２に示したボーンデータ群４７（位置データ群４６）から取得されるため、時間軸の前後で隣接する第１画像４１の時間間隔が、上述の第２時間間隔（例えば、２ms）に設定されている。一方、図４に示されるように、ニューラルネットワーク３１に入力される複数の深度画像２１は、第１時間間隔Ｔ１（例えば、３３ms）で撮影されており、第２時間間隔と相違する。このような深度画像２１に基づいて、動作値を高い精度で導出可能なニューラルネットワーク３１（図７に示す）を生成するには、教師データとして、図１４に示した第１画像群４２から、第１時間間隔Ｔ１で抽出した第１画像４１を用いるのが好ましい。

【0083】

本実施形態では、図１４に示した第１画像群４２において、ゴルファのスイングのある瞬間の第１画像４１ａと、この第１画像４１ａとは時間軸の前後において、第１時間間隔Ｔ１（３３ms）で離れた２枚の第１画像４１ｂ及び４１ｃが抽出される。これにより、第１時間間隔Ｔ１で時系列に並んだ３枚の第１画像４１を含むセット４３（図１０に示す）が設定される。さらに、先ほど抽出した第１画像４１ａの時間を、第１画像群４２の時間軸の始端（すなわち、「０」）及び終端に向かって、第２時間間隔（例えば、２ms）でスライドさせたときの時間に位置する複数の第１画像（図示省略）をそれぞれ抽出し、これらの第１画像と第１時間間隔Ｔ１（例えば、３３ms）で離れた２枚の第１画像がそれぞれ抽出される。これにより、複数のセット４３（図示省略）が設定されうる。なお、複数種類の第１画像群（例えば、体型や立ち位置が異なる第１画像群）４２が設定された場合には、これらの第１画像群４２ごとに、複数のセット４３がそれぞれ設定される。

【0084】

工程Ｓ４では、第１画像群４２から、第１画像４１ａと、この第１画像４１ａとは時間軸の前後において、第１時間間隔Ｔ１（例えば、３３ms）とは異なる時間間隔で離れた２枚の第１画像（図示省略）とを含むセット４３（図示省略）が設定されてもよい。

【0085】

例えば、第３時間間隔（例えば、３０ms）で第１画像４１が抽出されたセット４３（図示省略）や、第４時間間隔（例えば、３６ms）で第１画像４１が抽出されたセット４３が含まれても良い。そして、これらのセット４３は、時間軸の前後で隣接する第１画像４１、４１の時間間隔が、図１０に示した第１時間間隔Ｔ１（例えば、３３ms）であるものとして利用される。これにより、これらのセット４３は、図１４に示した第１画像群４２と共通のリソースを利用しつつ、図１０に示したセット４３とは異なる速度でゴルフスイングしているとみなしうるセット（図示省略）を設定することができる。

【0086】

第３時間間隔で抽出されたセット４３（図示省略）では、第３時間間隔（例えば、３０ms）が第１時間間隔（例えば、３３ms）に引き伸ばされる。このようなセット４３は、図１０に示したセット４３よりも遅いスイング速度を再現した複数の第１画像４１を設定できる。第４時間間隔で抽出されたセット４３（図示省略）では、第４時間間隔（例えば、３６ms）が第１時間間隔（例えば、３３ms）に縮められる。このようなセットでは、図１０に示したセット４３よりも速いスイング速度を再現した複数の第１画像４１が設定される。

【0087】

なお、これらの時間間隔（例えば、３０ms、３３ms、３６ms）で第１画像４１が抽出されたセット４３（図示省略）に限定されるわけではなく、他の時間間隔で、第１画像４１が抽出されたセット４３が含まれてもよい。これらのセット４３は、図７に示したニューラルネットワーク３１の教師データとして利用される。

【0088】

以上のような実施形態では、１つの物体３（ゴルファ５）の動作から、速度が異なる動作を再現した３枚の第１画像４１を含むセット４３が作成されるため、少ない労力で教師データを効果的に増やすことができる。これにより、より多くの教師データを用いて、図７に示したニューラルネットワーク３１を学習させることができる。これは、図１に示した物体３の動作の速度に依存することなく、動作値（図８に示す）を高い精度で導出しうる学習モデル３０の生成が可能となる。また、各セット４３は、３枚の第１画像４１が、第１時間間隔Ｔ１（例えば、３３ms）であるものとして利用されるため、学習モデル３０（ニューラルネットワーク３１）に入力が予定されているセット２３（図４に示す）の第１時間間隔Ｔ１に対応させることができる。複数の第１画像４１（セット４３）は、教師データ入力部１８ｃ（図２に示す）に記憶される。

【0089】

［複数の第１画像の動作値の取得］
次に、本実施形態の生成方法では、複数の第１画像４１のそれぞれの動作値が取得される（工程Ｓ５）。本実施形態では、各セット４３（図１０に示す）について、時系列の両端に位置する第１画像４１ｂ、４１ｃを除いた１枚の第１画像４１ａの動作値がそれぞれ取得される。

【0090】

動作値は、図１３に示した物体モデル４８の作成に用いられたボーンデータ２７に含まれる複数の関節（ジョイント）２５の位置データに基づいて、容易に取得されうる。動作値は、教師データ入力部１８ｃ（図２に示す）に記憶される。

【0091】

［ニューラルネットワークの学習］
次に、本実施形態の生成方法は、複数の第１画像４１（図１０に示す）と、複数の第１画像４１のそれぞれの動作値（図８及び図１３に示す）とを含む教師データに基づいて、ニューラルネットワーク３１（図７に示す）を学習させる（工程Ｓ６）。

【0092】

本実施形態の工程Ｓ６では、教師データとして設定された複数の第１画像４１のセット４３（一例として、図１０に示す）がニューラルネットワーク３１（図７に示す）に入力され、それぞれ動作値が出力される。そして、各セット４３から出力された動作値（導出値）と、教師データとして設定された各セット４３の動作値（真値）との誤差を最小化するように、ニューラルネットワーク３１のパラメータが更新される。これにより、ニューラルネットワーク３１の学習（誤差逆伝搬法（ Backpropagation ））が行われ、学習モデル３０が生成される。ニューラルネットワーク３１（学習モデル３０）は、ニューラルネットワーク入力部１８ｄ（図２に示す）に記憶される。

【0093】

本実施形態では、ニューラルネットワーク３１（図７に示す）の学習に、第１画像４１のセット４３（第１画像４１ａ～４１ｃ）を含む多くの入力変数が用いられるため、動作値の導出精度を向上させることができる。さらに、セット４３には、出力層３７の動作値が出力される第１画像４１ａと、その第１画像４１ａの動作と関連性の高い前後の第１画像４１ｂ、４１ｃとが含まれるため、動作値を高い精度で導出可能な学習モデル３０が生成されうる。

【0094】

本実施形態の教師データには、図１０に示した複数の第１画像４１について、時間軸の前後で隣接する第１画像４１の時間間隔を互いに異ならせた複数の第１画像４１のセット４３が含まれる。これにより、学習モデル３０（ニューラルネットワーク３１）は、物体３の動作の速度に依存することなく、様々な動作（ゴルフスイング）の動作値を、高い精度で導出することができる。

【0095】

教師データには、複数の第１画像４１（図１０及び図１４に示す）のそれぞれに対応する撮影された深度画像（図示省略）がさらに含まれてもよい。このような深度画像は、モーションキャプチャシステム（図示省略）を用いて各関節２５の位置データ（図１２に示す）を取得する際に、距離画像センサ６（図１に示す）を用いて、複数の物体３（ゴルファ５）の動作を撮影することで取得されうる。本実施形態では、複数のセット４３（図１０に示す）とともに、これらのセット４３に含まれる複数の第１画像４１に対応する深度画像（図示省略）が、教師データとして入力される。これにより、第１画像４１に比べて、工程Ｓ２で入力される複数の深度画像２１（図４に示した複数のセット２３）に近似する教師データに基づいて、ニューラルネットワーク３１の学習が行われるため、動作値をより高い精度で導出することが可能となる。

【0096】

［学習モデルの精度の評価］
次に、本実施形態の生成方法では、図７に示した学習モデル３０（ニューラルネットワーク３１）から導出される動作値（図８及び図１３に示す）の導出精度が評価される（工程Ｓ７）。導出精度の評価は、適宜実施することができ、例えば、公知のブラインドテストが実施されうる。この場合、例えば、深度画像２１のセット２３（図４に示す）や第１画像４１のセット４３（図１０に示す）の教師データを含むテストデータに基づいて、学習モデル３０から、テストデータの動作値が導出される。そして、導出されたテストデータの動作値と、実際の動作値（図示省略）との相関係数が許容範囲内である場合、導出精度が良好であると評価される。

【0097】

工程Ｓ７において、学習モデル３０の導出精度が良好であると判断された場合（工程Ｓ７で「Ｙｅｓ」）、生成方法の一連の処理が終了する。一方、学習モデル３０の導出精度が良好ではないと判断された場合（工程Ｓ７で「Ｎｏ」）、新たな教師データが追加され（工程Ｓ８）、工程Ｓ６及び工程Ｓ７が再度実施される。

【0098】

本実施形態の生成方法では、学習モデル３０の導出精度が良好となるまで、ニューラルネットワークを繰り返し学習させるため、動作値を高い精度で導出可能な学習モデル３０（ニューラルネットワーク３１）を確実に生成することができる。

【0099】

以上、本発明の特に好ましい実施形態について詳述したが、本発明は図示の実施形態に限定されることなく、種々の態様に変形して実施しうる。

【実施例0100】

図１及び図２動作解析装置を用いて、物体の動作（ゴルファによるゴルフスイング）が解析された（実施例）。実施例では、先ず、図３に示した処理手順に基づいて、物体の動作が距離画像センサによって撮影され、複数の深度画像が取得された。そして、物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、複数の深度画像が入力され、動作値が導出された。

【0101】

実施例では、複数の深度画像のうち、時系列で連続的に撮影された３枚の深度画像のセットが入力された。そして、セットのうち、時系列の両端に位置する深度画像を除いた１つの深度画像の動作値（２５箇所の関節等の座標値）が導出された。

【0102】

実施例で用いられたニューラルネットワークは、図１１に示した処理手順に基づき、物体の動作をコンピュータグラフィックスで再現した複数の第１画像と、複数の第１画像のそれぞれの動作値とを含む教師データを用いて学習された。

【0103】

複数の第１画像には、複数のゴルファの動作を撮影して得られた物体モデルに基づいて、奥行方向の立ち位置、飛球線方向の立ち位置、及び、体型の種類を異ならせた複数の物体モデルからなる複数の第１画像（第１画像群）が設定された。そして、第１画像群から時系列で連続する３枚の第１画像が選択されたセットと、そのセットのうち時系列の両端に位置する第１画像を除いた１枚の画像の動作値とを含む教師データが複数設定され、ニューラルネットワークの学習に用いられた。

【0104】

比較のために、物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、１枚の深度画像が入力され、その深度画像の動作値（２５箇所の関節の座標値）が導出された（比較例）。比較例では、実施例の第１画像群から選択された１枚の第１画像と、その第１画像の動作値とを含む教師データが複数設定された。そして、複数の教師データに基づいて、ニューラルネットワークが学習された。

【0105】

そして、実施例及び比較例について、２５箇所の関節の座標値の二乗平均平方根誤差（導出値と真値との差を二乗して、それらの総和を関節合計数で除した値について、平方根をとった値）が求められた。共通仕様は、次のとおりである。
第１画像群の個数：８１０個
動作が撮影されたゴルファ：３０人
奥行方向の立ち位置の種類：３種類（０cm、＋３cm、－３cm）
飛球線方向の立ち位置の種類：３種類（０cm、＋１０cm、－１０cm）
体型の種類：３種類（普通体型、痩身体型及び肥満体型）
第１時間間隔：３３ms

【0106】

テストの結果、比較例の二乗平均平方根誤差が４．６cmであったのに対し、実施例の二乗平均平方根誤差が４．２cmであった。したがって、実施例は、比較例に比べて誤差を小さくでき、物体の動作を定量的に表す動作値を、高い精度で導出することができた。

【0107】

［付記］
本発明は以下の態様を含む。

【0108】

［本発明１］
物体の動作を解析するための動作解析装置であって、
前記物体の動作が距離画像センサによって撮影された複数の深度画像を取得する取得部と、
前記物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、前記複数の深度画像を入力して、前記動作値を導出する導出部とを備える、
動作解析装置。
［本発明２］
前記物体は、ゴルフクラブを把持したゴルファである、本発明１に記載の動作解析装置。
［本発明３］
前記動作は、ゴルフスイングである、本発明２に記載の動作解析装置。
［本発明４］
前記取得部は、前記物体の動作が時系列で連続的に撮影された前記深度画像を取得する、本発明１ないし３のいずれかに記載の動作解析装置。
［本発明５］
前記導出部は、前記時系列で連続的に撮影された少なくとも３枚の深度画像のセットを入力する、本発明４に記載の動作解析装置。
［本発明６］
前記導出部は、前記セットのうち、前記時系列の両端に位置する深度画像を除いた１枚の深度画像の前記動作値を導出する、本発明５に記載の動作解析装置。
［本発明７］
前記物体は、人体であり、
前記動作値は、前記人体の関節の位置データを含む、本発明１ないし６のいずれかに記載の動作解析装置。
［本発明８］
前記ニューラルネットワークを学習させる学習部をさらに備え、
前記学習部は、前記物体の動作をコンピュータグラフィックスで再現した複数の第１画像と、前記複数の第１画像のそれぞれの動作値とを含む教師データに基づいて、前記ニューラルネットワークを学習させる、本発明１ないし７のいずれかに記載の動作解析装置。
［本発明９］
前記複数の第１画像は、前記物体の動作を時系列で連続的に再現したものであり、
前記教師データは、前記複数の第１画像について、時間軸の前後で隣接する第１画像の時間間隔を互いに異ならせた複数の第１画像のセットを含む、本発明８に記載の動作解析装置。
［本発明１０］
物体の動作を解析するための学習モデルの生成方法であって、
前記物体の動作をコンピュータグラフィックスで再現した複数の第１画像と、前記複数の第１画像のそれぞれの動作値とを含む教師データに基づいて、ニューラルネットワークを学習させる、
学習モデルの生成方法。
［本発明１１］
物体の動作を解析するための方法であって、
前記物体の動作が距離画像センサによって撮影された複数の深度画像を取得する工程と、
前記物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、前記複数の深度画像を入力して、前記動作値を導出する工程とを含む、
動作解析方法。
［本発明１２］
物体の動作を解析するためのコンピュータプログラムであって、
コンピュータを、
前記物体の動作が距離画像センサによって撮影された複数の深度画像を取得する手段と、
前記物体の動作を定量的に表す動作値を出力可能なニューラルネットワークに、前記複数の深度画像を入力して、前記動作値を導出する手段として機能させる、
コンピュータプログラム。

【符号の説明】

【0109】

２１深度画像
３１ニューラルネットワーク

【図1】