特開2024-117861 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特開2024-117861動作データ生成装置、動作データ生成方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024117861

(43)【公開日】2024-08-30

(54)【発明の名称】動作データ生成装置、動作データ生成方法、およびプログラム

(51)【国際特許分類】

G06T 7/20 20170101AFI20240823BHJP

G06N 3/04 20230101ALI20240823BHJP

G06N 3/0464 20230101ALI20240823BHJP

G06T 7/00 20170101ALI20240823BHJP

G06F 16/906 20190101ALI20240823BHJP

【ＦＩ】

G06T7/20 300A

G06N3/04 100

G06N3/0464

G06T7/00 350C

G06F16/906

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2023023919

(22)【出願日】2023-02-20

(71)【出願人】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100109313

【弁理士】

【氏名又は名称】机昌彦

(74)【代理人】

【識別番号】100149618

【弁理士】

【氏名又は名称】北嶋啓至

(72)【発明者】

【氏名】野崎善喬

(72)【発明者】

【氏名】福司謙一郎

(72)【発明者】

【氏名】西原康介

(72)【発明者】

【氏名】中原謙太郎

【テーマコード（参考）】

5B175

5L096

【Ｆターム（参考）】

5B175FA03

5B175HB03

5L096FA10

5L096FA12

5L096FA13

5L096FA67

5L096FA69

5L096HA02

5L096HA07

5L096HA11

5L096JA03

5L096JA11

5L096KA04

5L096KA15

5L096MA07

(57)【要約】

【課題】時間軸方向にデータ拡張された動作データを生成できる動作データ生成装置等を提供する。
【解決手段】データ変換対象である複数の動作データを取得する取得部と、データ拡張の対象動作である動作クラスごとに、複数の動作データをグループ化する変換データ選定部と、動作クラスごとにグループ化された動作データのうち少なくとも１つを基準データに設定し、グループ化された動作データのうち基準データとは異なる少なくとも１つの動作データを変換対象データに設定し、基準データの動作タイミングを基準として変換対象データを同期させた拡張動作データを生成するデータ変換部と、生成された拡張動作データを出力する出力部と、を備える動作データ生成装置とする。
【選択図】図１

【特許請求の範囲】

【請求項1】

データ変換対象である複数の動作データを取得する取得部と、
データ拡張の対象動作である動作クラスごとに、複数の前記動作データをグループ化する変換データ選定部と、
前記動作クラスごとにグループ化された前記動作データのうち少なくとも１つを基準データに設定し、グループ化された前記動作データのうち前記基準データとは異なる少なくとも１つの前記動作データを変換対象データに設定し、前記基準データの動作タイミングを基準として前記変換対象データを同期させた拡張動作データを生成するデータ変換部と、
生成された前記拡張動作データを出力する出力部と、を備える動作データ生成装置。

【請求項2】

前記データ変換部は、
前記動作クラスごとにグループ化された前記動作データの全てを前記基準データに設定し、
グループ化された前記動作データのうち前記基準データとは異なる全ての前記動作データを前記変換対象データに設定し、
全ての前記基準データの動作タイミングを基準として、前記基準データに対して設定された全ての前記変換対象データを同期させた前記拡張動作データを生成する請求項１に記載の動作データ生成装置。

【請求項3】

予め設定された数のサンプルを複数の前記動作データから抽出し、抽出された前記サンプルに関してサンプル間の関係を表す指標値を計算する指標値計算部を備え、
前記変換データ選定部は、
前記指標値計算部によって算出された前記指標値に応じて、変換対象の前記動作データをペアリングし、
前記データ変換部は、
ペアリングされた前記動作データを互いに同期させた前記拡張動作データを生成する請求項１に記載の動作データ生成装置。

【請求項4】

前記指標値計算部は、
前記指標値として、サンプル間の類似度を計算し、
前記変換データ選定部は、
予め設定された類似度閾値よりも類似度が小さい２つの前記動作データをペアリングする請求項３に記載の動作データ生成装置。

【請求項5】

前記指標値計算部は、
前記指標値として、サンプル間の距離を計算し、
前記変換データ選定部は、
予め設定された距離閾値よりも距離が大きい２つの前記動作データをペアリングする請求項３に記載の動作データ生成装置。

【請求項6】

所定のクラスタリング法よって、複数の前記動作データを複数のクラスタにグループ分けするクラスタリング部と、
前記クラスタに含まれる前記動作データの数に応じて、グループ分けされた複数の前記クラスタに含まれる２つの前記クラスタをペアリングするペア選択部と、を備え、
前記変換データ選定部は、
ペアリングされた２つの前記クラスタからの各々から少なくとも１つずつの前記動作データをランダムに抽出し、
２つの前記クラスタからの各々から抽出された前記動作データをペアリングし、
前記データ変換部は、
ペアリングされた前記動作データを互いに同期させた前記拡張動作データを生成する請求項１に記載の動作データ生成装置。

【請求項7】

前記ペア選択部は、
複数の前記クラスタに含まれる前記動作データの数の割合から逆比を計算し、
算出された逆比の値が最大である前記クラスタと、逆比の値が最大ではないいずれかの前記クラスタとをペアリングする請求項６に記載の動作データ生成装置。

【請求項8】

前記データ変換部は、
グラフ畳み込みネットワークを含むエンコーダを有し、対象動作を含む動作データを構成するフレームごとに推定された姿勢データを角度表現に正規化し、角度表現に正規化された前記姿勢データを前記エンコーダに入力して埋め込み空間における特徴量を計算する特徴量計算部と、
前記基準データを構成するフレームごとに算出された特徴量と、同期対象データを構成するフレームごとに算出された特徴量との距離を計算する距離計算部と、
算出された距離に基づいてフレームごとの最適経路を計算し、前記最適経路で結ばれたフレームのタイミングを揃えることによって、前記同期対象データを前記基準データに同期させる同期処理部と、を有し、
前記エンコーダは、
角度表現に正規化された前記姿勢データをグラフ畳み込みによって畳み込み、
埋め込み空間における埋め込みを特徴量として出力し、
前記距離計算部は、
前記基準データを構成するフレームに関する特徴量と、前記同期対象データを構成するフレームに関する特徴量との間の距離を総当たりで計算する請求項１乃至７のいずれか一項に記載の動作データ生成装置。

【請求項9】

コンピュータが、
データ変換対象である複数の動作データを取得し、
データ拡張の対象動作である動作クラスごとに、複数の前記動作データをグループ化し、
前記動作クラスごとにグループ化された前記動作データのうち少なくとも１つを基準データに設定し、
グループ化された前記動作データのうち前記基準データとは異なる少なくとも１つの前記動作データを変換対象データに設定し、
前記基準データの動作タイミングを基準として前記変換対象データを同期させた拡張動作データを生成し、
生成された前記拡張動作データを出力する動作データ生成方法。

【請求項10】

データ変換対象である複数の動作データを取得する処理と、
データ拡張の対象動作である動作クラスごとに、複数の前記動作データをグループ化する処理と、
前記動作クラスごとにグループ化された前記動作データのうち少なくとも１つを基準データに設定する処理と、
グループ化された前記動作データのうち前記基準データとは異なる少なくとも１つの前記動作データを変換対象データに設定する処理と、
前記基準データの動作タイミングを基準として前記変換対象データを同期させた拡張動作データを生成する処理と、
生成された前記拡張動作データを出力する処理と、をコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、動作データを生成する動作データ生成装置等に関する。

【背景技術】

【0002】

人間の動作に関するデジタルツインの技術を用いて動作データを拡張すれば、一般的な学習よりも少量の実測データで、大量のデータを用いた場合と同等以上の精度の動作認識モデルを構築できる。データ拡張で用いられる敵対的生成モデル（ＧＡＮ：Generative Adversarial Network）の学習を安定させるためには、データを効果的に正規化することが重要である。例えば、動作データに含まれる共通の動作を、異なる動作データとの間で正規化できれば、敵対的生成モデルの学習を安定化できる。すなわち、異なる動作データの間で、動作データに含まれる共通の動作を同期できれば、敵対的生成モデルの学習を安定化できる。

【0003】

非特許文献１には、映像間の時間的整合のタスクに基づく自己教師あり表現学習手法について開示されている。非特許文献１の手法では、時間的サイクル整合性（ＴＣＣ：Temporal Cycle-Consistency）を用いて、ネットワークを訓練する。非特許文献１の手法では、学習された埋め込み空間における最近傍のフレームを対応付けることによって、異なる動画に含まれる共通の動作を同期させる。

【0004】

非特許文献２には、スケルトンベースのアクション認識問題に対する画像分類ベースのアプローチが開示されている。非特許文献２は、データセットに依存しない変換スケールの不変画像マッピング法を開示している。非特許文献２の不変画像マッピング法では、スケルトン画像と呼ばれるスケルトンビデオをカラー画像に変換する。また、非特許文献２は、マルチスケールの深層畳み込みニューラルネットワークＣＮＮ（Convolutional Neural Network）アーキテクチャを開示している。非特許文献２の手法では、データ拡張において、以下の３つを活用している。１つ目は、３次元座標のランダムな回転である。２つ目は、ガウシアンノイズの付加である。３つ目は、一連の動作シーケンスのランダムな位置でのクロップである。

【0005】

特許文献１には、利用者が使用する利用者端末と、この利用者端末に対し通信ネットワークを介して接続可能な運動支援装置と、を具備する運動支援システムについて開示されている。特許文献１には、利用者の運動画像データと、指導者の運動画像データとを時間的に同期させて、ディスプレイに表示させる例が開示されている。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２００６－３０２１２２号公報

【非特許文献】

【0007】

【非特許文献1】D. Dwibedi, et al., “Temporal Cycle-Consistency Learning”, IEEE Conf. on Computer Vision and Pattern Recognition (2019).

【非特許文献2】Bo Li, Mingyi He, Xuelian Cheng, Yucheng Chen, Yuchao Dai, “Skeleton Based Action Recognition Using Translation-Scale Invariant Image Mapping And Multi-Scale Deep CNN”, 2017 IEEE International Conference on Multimedia & Expo Workshops (ICMEW), 2017, pp.601-604.

【発明の概要】

【発明が解決しようとする課題】

【0008】

非特許文献１の手法では、動画データに対してエンコーダモデルを学習し、埋め込み空間における最近傍のフレームを対応付けることによって、２つの動画データを同期する。非特許文献１の手法では、２つの動画データを同期する際に、動画に含まれる背景の影響が及ぶ。そのため、非特許文献１の手法では、異なる動画において背景が大きく異なる場合、同期の精度が低下することがあった。また、非特許文献１の手法は、動画形式ではないデータに対しては、適用できなかった。

【0009】

非特許文献２の手法では、座標回転やガウシアンノイズ付与、ランダムクロップなどの空間的なアプローチによって、データを拡張する。このようなアプローチによれば、ノイズやデータ取得環境に左右されにくいモデルの学習を実現できる。しかし、非特許文献２の手法は、時間的なアプローチを含まないため、動作のタイミングや速度が異なるデータの拡張には適用できなかった。特に、非特許文献２の手法は、学習データが数１０個程度と少ない場合、多様なテストデータに対応するためのデータ拡張にはなりえなかった。

【0010】

特許文献１の手法では、利用者の運動画像データと、指導者の運動画像データとを時間的に同期させる。特許文献１の手法は、運動画像データの同期には適用できるが、運動画像データの拡張には適用できなかった。

【0011】

本開示の目的は、時間軸方向にデータ拡張された動作データを生成できる動作データ生成装置等を提供することにある。

【課題を解決するための手段】

【0012】

本開示の一態様の動作データ生成装置は、データ変換対象である複数の動作データを取得する取得部と、データ拡張の対象動作である動作クラスごとに、複数の動作データをグループ化する変換データ選定部と、動作クラスごとにグループ化された動作データのうち少なくとも１つを基準データに設定し、グループ化された動作データのうち基準データとは異なる少なくとも１つの動作データを変換対象データに設定し、基準データの動作タイミングを基準として変換対象データを同期させた拡張動作データを生成するデータ変換部と、生成された拡張動作データを出力する出力部と、を備える。

【0013】

本開示の一態様の動作データ生成方法においては、データ変換対象である複数の動作データを取得し、データ拡張の対象動作である動作クラスごとに、複数の動作データをグループ化し、動作クラスごとにグループ化された動作データのうち少なくとも１つを基準データに設定し、グループ化された動作データのうち基準データとは異なる少なくとも１つの動作データを変換対象データに設定し、基準データの動作タイミングを基準として変換対象データを同期させた拡張動作データを生成し、生成された拡張動作データを出力する。

【0014】

本開示の一態様のプログラムは、データ変換対象である複数の動作データを取得する処理と、データ拡張の対象動作である動作クラスごとに、複数の動作データをグループ化する処理と、動作クラスごとにグループ化された動作データのうち少なくとも１つを基準データに設定する処理と、グループ化された動作データのうち基準データとは異なる少なくとも１つの動作データを変換対象データに設定する処理と、基準データの動作タイミングを基準として変換対象データを同期させた拡張動作データを生成する処理と、生成された拡張動作データを出力する処理と、をコンピュータに実行させる。

【発明の効果】

【0015】

本開示によれば、時間軸方向にデータ拡張された動作データを生成できる動作データ生成装置等を提供できる。

【図面の簡単な説明】

【0016】

【図1】第１の実施形態に係る動作データ生成装置の構成の一例を示すブロック図である。

【図2】第１の実施形態に係る動作データ生成装置による同期対象データの選定方法について説明するための概念図である。

【図3】第１の実施形態に係る動作データ生成装置が備えるデータ変換部の構成の一例を示すブロック図である。

【図4】第１の実施形態に係る動作データ生成装置による変換対象である動作データについて説明するための概念図である。

【図5】第１の実施形態に係る動作データ生成装置によって変換された姿勢データについて説明するための概念図である。

【図6】第１の実施形態に係る動作データ生成装置による姿勢データの角度表現への正規化の一例について説明するための概念図である。

【図7】第１の実施形態に係る動作データ生成装置によって算出された基準データおよび同期対象データの各々を構成するフレームごとの特徴量の最適経路を対応付けたマップの一例を示す概念図である。

【図8】第１の実施形態に係る動作データ生成装置によって算出された基準データおよび同期対象データの各々を構成するフレームの最適経路が対応付けられた状態を示すグラフである。

【図9】第１の実施形態に係る動作データ生成装置によって算出された基準データおよび同期対象データの各々を構成するフレームの最適経路のタイミングが揃えられた状態を示すグラフである。

【図10】第１の実施形態に係る動作データ生成装置によって同期されていない動作データについて説明するための概念図である。

【図11】第１の実施形態に係る動作データ生成装置によって同期された動作データについて説明するための概念図である。

【図12】第１の実施形態に係る動作データ生成装置の動作の一例について説明するためのフローチャートである。

【図13】第１の実施形態に係る動作データ生成装置によるデータ変換処理の一例について説明するためのフローチャートである。

【図14】第１の実施形態に係る動作データ生成装置による同期処理の一例について説明するためのフローチャートである。

【図15】第２の実施形態に係る動作データ生成装置の構成の一例を示すブロック図である。

【図16】第２の実施形態に係る動作データ生成装置によるデータ選定方法について説明するための概念図である。

【図17】第２の実施形態に係る動作データ生成装置の動作の一例について説明するためのフローチャートである。

【図18】第２の実施形態に係る動作データ生成装置によるデータ変換処理の一例について説明するためのフローチャートである。

【図19】第３の実施形態に係る動作データ生成装置の構成の一例を示すブロック図である。

【図20】第３の実施形態に係る動作データ生成装置によるデータ選定方法について説明するための概念図である。

【図21】第３の実施形態に係る動作データ生成装置の動作の一例について説明するためのフローチャートである。

【図22】第３の実施形態に係る動作データ生成装置によるデータ変換処理の一例について説明するためのフローチャートである。

【図23】第４の実施形態に係る学習装置の構成の一例を示すブロック図である。

【図24】第４の実施形態に係る学習装置の動作の一例について説明するためのフローチャートである。

【図25】第５の実施形態に係る動作データ生成装置の構成の一例を示すブロック図である。

【図26】各実施形態に係る処理や制御を実行するハードウェア構成の一例を示すブロック図である。

【発明を実施するための形態】

【0017】

以下に、本発明を実施するための形態について図面を用いて説明する。ただし、以下に述べる実施形態には、本発明を実施するために技術的に好ましい限定がされているが、発明の範囲を以下に限定するものではない。なお、以下の実施形態の説明に用いる全図においては、特に理由がない限り、同様箇所には同一符号を付す。また、以下の実施形態において、同様の構成・動作に関しては繰り返しの説明を省略する場合がある。

【0018】

（第１の実施形態）
まず、第１の実施形態に係る動作データ生成装置について図面を参照しながら説明する。本実施形態の動作データ生成装置は、後述する第４の実施形態の手法によって訓練されたエンコーダを用いて、動作データを同期させる。

【0019】

本実施形態は、非特許文献１に開示された手法に基づいて説明する箇所を含む（非特許文献１：D. Dwibedi, et al., “Temporal Cycle-Consistency Learning”, IEEE Conf. on Computer Vision and Pattern Recognition (2019).）。

【0020】

（構成）
図１は、本実施形態に係る動作データ生成装置１０の構成の一例を示すブロック図である。動作データ生成装置１０は、取得部１１、変換データ選定部１５、データ変換部１６、および出力部１７を備える。動作データ生成装置１０は、複数の動作データ１１０を取得する。動作データ生成装置１０は、複数の動作データを用いて動作データを拡張する。動作データ生成装置１０は、拡張された動作データ（拡張動作データ１７０）を出力する。

【0021】

取得部１１（取得手段）は、データ変換対象である動作データ１１０を取得する。動作データ１１０は、データ拡張の対象動作を行う人物の動作を示すデータである。動作データ１１０は、データ拡張の対象動作を行う人物の像を含む動画データを構成するフレームから抽出される。例えば、データ拡張の対象動作には、背伸びや跳躍、歩行、走行、ストレッチなどの動作が含まれる。背伸びや跳躍、歩行、走行、ストレッチなどの対象動作のグループを動作クラスと呼ぶ。対象動作の動作クラスについては、特に限定を加えない。例えば、個々の動作データ１１０には、動作クラスを示すフラグが付されてもよい。動作クラスを示すフラグが付されていれば、そのフラグを用いて、動作クラスごとに動作データを分類できる。

【0022】

例えば、取得部１１は、動画データから抽出された人物の姿勢データを取得してもよい。姿勢データは、人物の代表的な部位の位置に関する位置座標のデータセットである。言い換えると、姿勢データは、動作データ１１０から抽出された人物の姿勢に関するデータである。例えば、人物の代表的な部位は、関節や末端などである。例えば、取得部１１は、モーションキャプチャを用いて計測された姿勢データを取得してもよい。取得部１１が姿勢データを直接取得する場合、データ変換部１６に含まれる姿勢推定部（後述）を省略できる。

【0023】

例えば、取得部１１（取得手段）は、データ拡張の対象動作を行う人物の像を含む動画データを取得してもよい。その場合、動画データを構成するフレームから人物を抽出し、抽出された人物の姿勢データを推定するように、データ変換部１６に含まれる姿勢推定部（後述）が構成されればよい。

【0024】

変換データ選定部１５（変換データ選定手段）は、取得部１１によって取得された複数の動作データ１１０を、データ拡張の対象動作である動作クラスごとにグループ化する。変換データ選定部１５は、動作クラスごとにグループ化された動作データ１１０をデータ変換部１６に出力する。

【0025】

データ変換部１６（データ変換手段）は、動作クラスごとにグループ化された動作データ１１０を、変換データ選定部１５から取得する。データ変換部１６は、グループ化された動作データ１１０のうち１つを基準データに設定する。また、データ変換部１６は、グループ化された動作データ１１０のうち、基準データとは異なる全ての動作データ１１０を変換対象データに設定する。データ変換部１６は、基準データの動作タイミングを基準として、全ての変換対象データを同期させる。動作タイミングは、動作クラスに対応した動作に含まれる特徴的な姿勢が表れるタイミングである。動作タイミングは、動作の基準となる姿勢が表れるタイミングであれば、特に限定しない。

【0026】

データ変換部１６は、全ての変換対象データを基準データに対して同期させると、その基準データとは異なる動作データ１１０を、新たな基準データとして選択する。データ変換部１６は、グループ化された動作データ１１０のうち、新たな基準データとは異なる全ての動作データ１１０を変換対象データに設定する。データ変換部１６は、新たな基準データの動作タイミングを基準として、全ての変換対象データを同期させる。

【0027】

このようにして、データ変換部１６は、グループ化された動作データ１１０の全てを基準データに設定する。データ変換部１６は、グループ化された動作データ１１０のうち、基準データとは異なる全ての動作データ１１０を変換対象データに設定する。データ変換部１６は、基準データの動作タイミングを基準として、全ての変換対象データを同期させる。

【0028】

図２は、データ変換部１６によるデータ変換処理によって同期される動作データ１１０の組み合わせについて説明するための概念図である。図の１マスは、１つの動作データ１１０を示す。図２は、データＩＤ（Identifier）が付されたＮ個の動作データが総当たりで組み合わせられた様子を示す（Ｎは自然数）。データＩＤが同じ組み合わせのマスは、実測された動作データ１１０を示す。データＩＤが異なる動作データは、拡張動作データ１７０を示す。データ変換部１６は、Ｎ個の全ての動作データ１１０を基準データとして、基準データとは異なるＮ－１個の動作データ１１０の動作タイミングを同期させる。その結果、データ変換部１６は、実測された動作データ１１０を含めて、Ｎ²個の拡張動作データ１７０を生成する。

【0029】

データ変換部１６は、複数の動作データ１１０を基準データに設定せずに、一部の動作データ１１０を基準データに設定してもよい。例えば、予め設定された所定数の動作データ１１０を基準データに設定するように、データ変換部１６が構成されてもよい。例えば、予め設定された所定数の基準データを設定するように、データ変換部１６が構成されてもよい。データ変換部１６によって基準データに設定される動作データ１１０の数については、特に限定されない。

【0030】

出力部１７（出力手段）は、データ変換部１６によって同期された動作データ（拡張動作データ１７０）を出力する。拡張動作データ１７０は、対象動作の学習に用いられる。拡張動作データ１７０は、動作データ１１０の数に応じて生成される。すなわち、動作データ生成装置１０は、動作データ１１０を用いて拡張動作データ１７０を生成することによって、対象動作に関する動作データを拡張する。

【0031】

出力部１７から出力された拡張動作データ１７０の用途は、学習対象動作の拡張に限定されない。拡張動作データ１７０は、同期対象動作を検証するユーザによって閲覧可能な端末装置の画面に表示されてもよい。例えば、拡張動作データ１７０は、同じ動作クラスに属する動作データ１１０や拡張動作データ１７０を並べて、端末装置の画面に表示させる。例えば、拡張動作データ１７０は、同一人物に関する異なる動作クラスに属する動作データ１１０や拡張動作データ１７０を並べて、端末装置の画面に表示させる。

【0032】

〔データ変換部〕
次に、データ変換部１６の詳細構成について図面を参照しながら説明する。図３は、データ変換部１６の構成の一例を示すブロック図である。データ変換部１６は、姿勢推定部１６１、特徴量計算部１６２、距離計算部１６５、および同期処理部１６６を備える。特徴量計算部１６２は、正規化部１６３およびエンコーダ１６４を含む。

【0033】

姿勢推定部１６１（姿勢推定手段）は、動作データ１１０から姿勢データを抽出する。姿勢データは、動作データ１１０から抽出された人物の姿勢を示すデータである。例えば、姿勢推定部１６１は、人物の代表的な部位（関節）の位置を示すデータセットを、姿勢データとして抽出する。例えば、姿勢推定部１６１は、深層学習モデルを用いて、動作データ１１０から姿勢データを推定する。

【0034】

図４は、データ変換部１６が取得する動作データの一例（動作データ１１０Ａ）を示す概念図である。図４は、データ変換の対象動作を行う人物を含む動作データ１１０Ａの一例を示す。図４は、動作データ１１０Ａを構成するフレームの一部を示す。

【0035】

図５は、動作データ１１０Ａから抽出された姿勢データの一例（姿勢データ１２０Ａ）を示す概念図である。姿勢推定部１６１は、動作データ１１０Ａを構成するフレームから、人物の代表的な部位（関節）の位置を、姿勢データ１２０Ａとして推定する。各フレームにおいては、人物の代表的な部位（関節）の位置を示す円が、接続線で連結されている。例えば、姿勢推定部１６１は、肩や肘、手首、首、胸、腰、股、膝、足首などの関節の位置座標を、姿勢データとして推定する。例えば、姿勢推定部１６１は、頭や指先、足先などの末端の位置座標を、姿勢データとして推定する。例えば、姿勢推定部１６１は、関節や末端の間に相当する部位の位置座標を、姿勢データとして推定する。以下においては、人物の代表的な部位の位置を関節と表現する。

【0036】

姿勢推定部１６１は、動画データから姿勢データを抽出するように、構成されてもよい。その場合、姿勢推定部１６１は、動画データに含まれるフレームから、人物を抽出する。姿勢推定部１６１は、抽出された人物の姿勢データを推定する。例えば、姿勢推定部１６１は、深層学習モデルを用いて、動画データから抽出された人物の姿勢データを推定する。姿勢推定部１６１は、動画データから抽出された人物に関して、代表的な部位の空間的な位置を姿勢データとして推定する。

【0037】

特徴量計算部１６２（特徴量計算手段）は、正規化部１６３およびエンコーダ１６４を含む。特徴量計算部１６２は、正規化部１６３を用いて、姿勢データを角度表現に正規化する。特徴量計算部１６２は、エンコーダ１６４を用いて、角度表現に正規化された姿勢データから、データ変換の対象動作に関する特徴量を抽出する。

【0038】

正規化部１６３（正規化手段）は、姿勢データを角度表現に正規化する。姿勢データには、その姿勢データの取得元である人物の腕や脚の長さなどの体格に関する属性が含まれる。それに対し、角度表現に正規化された姿勢データには、その姿勢データの取得元である人物の体格に関する属性が含まれない。正規化部１６３は、人物の関節を接続する接続線の成す角を、関節ごとに計算することによって、姿勢データを角度表現に正規化する。

【0039】

図６は、角度表現に正規化された姿勢データの一例について説明するための概念図である。正規化部１６３は、フレームごとに推定された姿勢データから、人物の姿勢を検証するための関節Ｊ_mを抽出する（ｍは自然数）。正規化部１６３は、複数の関節Ｊ_mに関して、それらの関節Ｊ_mによって連結された２つの接続線の成す３次元的関節角度（オイラー角θ_m）を計算する。すなわち、正規化部１６３は、各フレームから抽出された人物に関して、関節ごとのオイラー角のデータセット（関節角データセット）を計算する。

【0040】

エンコーダ１６４は、グラフ畳み込みネットワークＧＣＮ（Graph Convolutional Network）を含む。エンコーダ１６４は、動作データ１１０に含まれるフレームに対して、一意の埋め込み表現を学習する。例えば、エンコーダ１６４は、非特許文献１に開示された時間的サイクル整合性（ＴＣＣ：Temporal Cycle-Consistency）の手法を用いた学習によって、特徴抽出を行う。ＴＣＣ学習は、自己教師あり学習である。ＴＣＣ学習によれば、同じ動作を含む動作データ１１０が複数あれば、それらの対応関係を探す損失関数（Cycle-back Loss）を計算することによって、ラベル無しで特徴抽出器を訓練できる。

【0041】

エンコーダ１６４には、正規化部１６３によって算出された関節角データセットが入力される。エンコーダ１６４は、入力された関節角データセットに関して、グラフ畳み込みネットワークによって特徴量を計算する。エンコーダ１６４は、３次元空間の座標系で表現された関節角データセットを、埋め込み表現に変換する。このように、エンコーダ１６４は、スケルトン形式で表現された隣接する関節を、グラフ構造と見なしてグラフ畳み込みを実行する。エンコーダ１６４は、動作データ１１０の背景が含まれないスケルトン形式の関節角データセットに対して、グラフ畳み込みネットワークを用いる。そのため、エンコーダ１６４を用いて抽出された特徴量には、動作データ１１０の背景の影響が含まれない。

【0042】

例えば、エンコーダ１６４は、隣接した複数のフレームを結合させたコンテクストの入力に応じて、特徴量を出力するように構成されてもよい。その場合、エンコーダ１６４には、ＳＴ（Spatio-Temporal）－ＧＣＮが用いられる。例えば、フレーム番号が１～５の連続した５つのフレームに関して、フレーム番号１～３のフレーム、フレーム番号２～４のフレーム、フレーム番号３～５のフレームの各々が結合されて、コンテクストとして選択される。このように、互いに連続するコンテクストは、同じフレーム番号のフレームを共有することが好ましい。

【0043】

距離計算部１６５（距離計算手段）は、基準データに関する第１特徴量と、同期対象データに関する第２特徴量との距離を計算する。すなわち、距離計算部１６５は、基準データを構成するフレームごとに算出された特徴量と、同期対象データを構成するフレームごとに算出された特徴量との距離を計算する。距離計算部１６５は、埋め込み空間における距離を計算する。距離計算部１６５は、基準データに関する第１特徴量と、同期対象データに関する第２特徴量との距離（誤差の絶対値）を総当たりで計算する。例えば、距離計算部１６５は、Ｌ２ノルムなどの手法を用いて、特徴量間の距離を算出する。この手法によれば、時系列データの長さや周期が違っても、距離（類似度）を導出できる。

【0044】

例えば、距離計算部１６５は、ＤＴＷ（Dynamic Time Warping）などの手法を用いて、最適経路を計算してもよい。ＤＴＷでは、２つの時系列データを構成する各点の距離（誤差の絶対値）が総当たりで計算される。各特徴量に関して算出された全ての距離のうち、最も短い経路が最適経路に相当する。ＤＴＷによれば、基準データと同期対象データのフレーム長や周期が異なっても、それらを構成するフレームの類似度を計算できる。

【0045】

同期処理部１６６（同期処理手段）は、距離計算部１６５により算出された距離に基づいてフレームごとの最適経路を計算する。同期処理部１６６は、最適経路で結ばれたフレームのタイミングを揃えることによって、同期対象データを基準データに同期させる。同期処理部１６６は、基準データに含まれる対象動作を基準として、同期対象データを基準データに同期させる。その結果、基準データおよび同期対象データに含まれる最も類似した動作が対応付けられる。そして、同期処理部１６６は、対応付けられた動作を含むフレームのタイミングを揃えて、基準データおよび同期対象データに含まれる動作を同期させる。

【0046】

図７は、基準データおよび同期対象データを構成するフレームの最適経路を対応付けたマップの一例を示す概念図である。基準データを構成するフレームごとの特徴量の時系列データ（実線）をＦ１と表記する。同期対象データを構成するフレームごとの特徴量の時系列データ（破線）をＦ２と表記する。図７は、アレイ状に配列されたマス目に最適経路がドットで示される。基準データを構成するフレームと、同期対象データを構成するフレームとは、最適経路（ドット）のタイミングで対応付けられる。

【0047】

図８は、基準データおよび同期対象データを構成するフレームの最適経路を対応付けたグラフである。図８は、フレームごとの最適経路が線分で対応付けられた様子を示す。例えば、基準データに関する時系列データＳ₁（実線）の時刻ｉ＋２と、同期対象データに関する時系列データＳ₂（破線）における時刻ｉとが、最適経路で結ばれる。

【0048】

図９は、基準データに関する時系列データＳ₁（実線）と、基準データを基準として同期された拡張動作データ１７０を構成するフレームごとの特徴量の時系列データＳＳ₂（破線）とを対応付けたグラフである。図９のように、最適経路として対応付けられたフレームのタイミングを揃えることによって、同期対象データが基準データに同期される。

【0049】

図１０は、複数の被験者が行った特定の動作に関する動作データを比較した概念図である。図１０の動作データは、時間軸方向に正規化されていない。図１０には、３つの動作データ（動作データｓ₁、動作データｓ₂、動作データｓ₃）を示す。図１０には、３つの動作データを構成する複数のフレームのうち５つ（フレームＦ₁、フレームＦ₂、フレームＦ₃、フレームＦ₄、フレームＦ₅）を示す。図１０の動作では、手を下ろした状態（フレームＦ₁）から頭上に向けて手をあげて、頭上の位置から手を下ろして、肩の側方の位置で手を止めた状態（フレームＦ₅）に至る動作である。図１０の場合、フレームＦ₂やフレームＦ₅などで動作がずれている。

【0050】

図１１は、複数の被験者が行った特定の動作に関して、動作データｓ₁を基準データとして正規化された動作データ（動作データＳ₂、動作データＳ₃）を比較した概念図である。図１１には、３つの動作データを構成する複数のフレームから５つの動作タイミング（動作タイミングＴ₁、動作タイミングＴ₂、動作タイミングＴ₃、動作タイミングＴ₄、動作タイミングＴ₅）を示す。５つの動作タイミングＴ₁～Ｔ₅は、基準データの動作データｓ₁に関するフレームＦ₁～Ｆ₅に対応する。図１１の場合、個人差があるものの、図１０と比べると動作が揃っている。データ変換部１６は、動作データｓ₁のみならず、動作データＳ₂および動作データＳ₃を基準データとして、他の動作データを正規化する。

【0051】

図１１のように、動作データ生成装置１０は、全ての動作データを基準データとして、時間軸方向に正規化された拡張動作データを生成する。そのため、動作データ生成装置１０は、元の動作データの数が少なくても、時間軸方向に正規化された拡張動作データを大量に生成できる。すなわち、動作データ生成装置１０は、少量の動作データを用いて、時間軸方向にデータ拡張された動作データを大量に生成できる。

【0052】

（動作）
次に、動作データ生成装置１０の動作について図面を参照しながら説明する。図１２は、動作データ生成装置１０の動作の一例について説明するためのフローチャートである。図１２のフローチャートに沿った説明においては、動作データ生成装置１０を動作主体として説明する。

【0053】

図１２において、まず、動作データ生成装置１０は、変換対象の動作データを取得する（ステップＳ１１）。

【0054】

次に、動作データ生成装置１０は、動作クラスごとに動作データをグループ化する（ステップＳ１２）。

【0055】

次に、動作データ生成装置１０は、変換対象の動作データ群に含まれる全ての動作データを選定する（ステップＳ１３）。

【0056】

次に、動作データ生成装置１０は、データ変換処理を実行する（ステップＳ１４）。ステップＳ１４のデータ変換処理において、動作データ生成装置１０は、角度表現に正規化された姿勢データを用いて、同期対象データを基準データに同期させる。動作データ生成装置１０は、全ての動作データを基準データに設定して、同期対象データを基準データに同期させる。ステップＳ１４のデータ変換処理の詳細については、後述する。

【0057】

次に、動作データ生成装置１０は、同期処理によって同期された拡張動作データ１７０を出力する（ステップＳ１５）。例えば、出力された拡張動作データ１７０は、対象動作の学習に用いられる。例えば、動作データ生成装置１０は、拡張動作データ１７０を画面に表示させてもよい。

【0058】

全ての動作クラスに関してデータ変換が完了していない場合（ステップＳ１６でＮｏ）、ステップＳ１３に戻る。動作データ生成装置１０は、データ変換が完了していない動作クラスに関して、データ変換処理を継続する。全ての動作クラスに関してデータ変換が完了した場合（ステップＳ１６でＹｅｓ）、図１２のフローチャートに沿った処理は終了である。動作データ生成装置１０は、全ての動作クラスに関するデータ変換が完了してから、拡張動作データ１７０を出力するように、構成されてもよい。

【0059】

〔データ変換処理〕
次に、動作データ生成装置１０によるデータ変換処理（図１２のフローチャートのステップＳ１４）について図面を参照しながら説明する。図１３は、動作データ生成装置１０によるデータ変換処理の一例について説明するためのフローチャートである。図１３のフローチャートの例では、動作データ１１０の総数がＮ個の場合を例示する。図１３のフローチャートに沿った説明においては、動作データ生成装置１０に含まれるデータ変換部１６を動作主体として説明する。

【0060】

図１３において、まず、データ変換部１６は、基準データとして選定される動作データ番号ｉに１を設定する（ステップＳ１４１）。動作データ番号は、複数の動作データの各々に関して固有の番号である。図１３の例では、Ｎ個の動作データの各々に対して、１～Ｎの動作データ番号が付される。

【0061】

次に、データ変換部１６は、基準データとして、動作データ番号ｉの動作データを選定する（ステップＳ１４２）。選定された動作データ番号ｉの動作データは、基準データＲ_iとして用いられる（１≦ｉ≦Ｎ）。

【0062】

次に、データ変換部１６は、同期対象データとして選定される動作データ番号ｋに１を設定する（ステップＳ１４３）。

【0063】

次に、データ変換部１６は、同期対象データとして、動作データ番号ｋの動作データを選定する（ステップＳ１４４）。選定された動作データ番号ｋの動作データは、同期対象データＴ_kとして用いられる（１≦ｋ≦Ｎ）。

【0064】

次に、データ変換部１６は、同期処理を実行する（ステップＳ１４５）。同期処理において、データ変換部１６は、基準データＲ_iに同期対象データＴ_kを同期させる。同期処理の詳細については後述する。

【0065】

次に、データ変換部１６は、同期対象データＴ_kの選定に用いられる動作データ番号ｋをインクリメントする（ステップＳ１４６）。

【0066】

動作データ番号ｋが動作データの総数Ｎを越えていない場合（ステップＳ１４７でＮｏ）、ステップＳ１４４に戻る。動作データ番号ｋが動作データの総数Ｎを越えた場合（ステップＳ１４７でＹｅｓ）、データ変換部１６は、基準データとして選定される動作データ番号ｉをインクリメントする（ステップＳ１４８）。

【0067】

動作データ番号ｉが動作データの総数Ｎを越えていない場合（ステップＳ１４９でＮｏ）、ステップＳ１４２に戻る。動作データ番号ｉが動作データの総数Ｎを越えた場合（ステップＳ１４９でＹｅｓ）、図１２のフローチャートのステップＳ１５に進む。この段階で、Ｎ個の動作データを含めて、Ｎ²通りの拡張動作データが生成される。

【0068】

〔同期処理〕
次に、動作データ生成装置１０による同期処理（図１３のステップＳ１４５）の一例について図面を参照しながら説明する。図１４は、同期処理について説明するためのフローチャートである。図１４のフローチャートに沿った説明においては、動作データ生成装置１０に含まれるデータ変換部１６を動作主体として説明する。

【0069】

図１４において、まず、データ変換部１６は、基準データおよび同期対象データを構成するフレームごとに姿勢データを推定する（ステップＳ１５１）。

【0070】

次に、データ変換部１６は、基準データおよび同期対象データを構成するフレームごとに、姿勢データを角度表現に正規化する（ステップＳ１５２）。

【0071】

次に、データ変換部１６は、同期対象データおよび基準データを構成するフレームごとの角度表現を用いて、グラフ畳み込みネットワークにより特徴量を計算する（ステップＳ１５３）。

【0072】

次に、データ変換部１６は、同期対象データおよび基準データに関して、特徴量の距離を計算する（ステップＳ１５４）。

【0073】

次に、データ変換部１６は、算出された距離を用いて、フレーム間の最適経路を計算する（ステップＳ１５５）。

【0074】

次に、データ変換部１６は、算出された最適経路のタイミングを揃えて、同期対象データを基準データに同期させる（ステップＳ１５６）。ステップＳ１５６の次は、図１３のステップＳ１４６に進む。

【0075】

以上のように、本実施形態の動作データ生成装置は、取得部、変換データ選定部、データ変換部、および出力部を備える。取得部は、データ変換対象である複数の動作データを取得する。変換データ選定部は、データ拡張の対象動作である動作クラスごとに、複数の動作データをグループ化する。データ変換部は、動作クラスごとにグループ化された動作データのうち少なくとも１つを基準データに設定する。データ変換部は、グループ化された動作データのうち基準データとは異なる少なくとも１つの動作データを変換対象データに設定する。データ変換部は、基準データの動作タイミングを基準として変換対象データを同期させた拡張動作データを生成する。出力部は、生成された拡張動作データを出力する。

【0076】

本実施形態の動作データ生成装置は、動作クラスごとにグループ化された動作データのうち少なくとも１つを基準データとして、その基準データとは異なる少なくとも１つの動作データを変換対象データに設定する。本実施形態の動作データ生成装置は、基準データの動作タイミングを基準として、変換対象データを同期させた拡張動作データを生成する。本実施形態の動作データ生成装置は、そのため、本実施形態によれば、時間軸方向にデータ拡張された動作データを生成できる。

【0077】

本実施形態の一態様において、データ変換部は、動作クラスごとにグループ化された動作データの全てを基準データに設定する。データ変換部は、グループ化された動作データのうち基準データとは異なる全ての動作データを変換対象データに設定する。データ変換部は、全ての基準データの動作タイミングを基準として、基準データに対して設定された全ての変換対象データを同期させた拡張動作データを生成する。本態様においては、動作データの全てを基準データに設定して、他の動作データを変換対象データとして総当たりで同期させる。そのため、本態様によれば、少量の動作データであっても、時間軸方向にデータ拡張された動作データを大量に生成できる。

【0078】

本実施形態の一態様において、データ変換部は、特徴量計算部、距離計算部、および同期処理部を有する。特徴量計算部は、グラフ畳み込みネットワークを含むエンコーダを有する。特徴量計算部は、対象動作を含む動作データを構成するフレームごとに推定された姿勢データを角度表現に正規化する。特徴量計算部は、角度表現に正規化された姿勢データをエンコーダに入力して埋め込み空間における特徴量を計算する。エンコーダは、角度表現に正規化された姿勢データをグラフ畳み込みによって畳み込み、埋め込み空間における埋め込みを特徴量として出力する。距離計算部は、基準データを構成するフレームごとに算出された特徴量と、同期対象データを構成するフレームごとに算出された特徴量との距離を計算する。距離計算部は、基準データを構成するフレームに関する特徴量と、同期対象データを構成するフレームに関する特徴量との間の距離を総当たりで計算する。同期処理部は、算出された距離に基づいてフレームごとの最適経路を計算し、最適経路で結ばれたフレームのタイミングを揃えることによって、同期対象データを基準データに同期させる。

【0079】

本態様のデータ変換部は、動作データを構成するフレームごとに推定された姿勢データの特徴に基づいて、同期対象データを基準データに同期させる。そのため、同期対象データは、背景の影響を受けずに、基準データに含まれる対象動作を基準として同期される。また、本態様のデータ変換部は、角度表現に正規化された姿勢データの特徴に基づいて、同期対象データを基準データに同期させる。そのため、同期対象データは、基準データに含まれる対象動作を基準として高精度に同期される。すなわち、本実施形態によれば、背景の影響を受けずに、複数の動作データの各々に含まれる同期対象動作を高精度で同期できる。

【0080】

一般に、動作データを構成するフレームに含まれる画像に基づいて、２つの動作データの各々に含まれる対象動作を同期させることは難しい。本態様では、動作データを構成するフレームを、埋め込みされた埋め込み空間に落とし込む。埋め込み空間では、特徴量の間の距離を計算できる。本態様では、埋め込み空間における距離を用いて、同じ動作を関連付ける。本態様では、フレーム単位で抽出された特徴量に基づき、ＤＴＷの手法を用いて同期を取る。そのため、本態様によれば、角度表現に変換された姿勢データを直接用いて同期を取るよりも、２つの動作データに含まれる対象動作を高精度に同期させることができる。

【0081】

本態様の手法では、基準データに含まれる対象動作のタイミングに、同期対象データに含まれる対象動作のタイミングを合わせて、時間軸方向に同期させる。そのため、基準データに含まれる対象動作と、同期対象データに含まれる対象動作とは、時間軸方向において正規化される。そのため、本態様によれば、タグやメタデータなどのアノテーションがなくても、動作データを拡張できる。本態様によれば、多様な人間の動作データの動作タイミングや速さが揃った動作を含む動作データを拡張できる。

【0082】

（第２の実施形態）
次に、第２の実施形態に係る動作データ生成装置について図面を参照しながら説明する。本実施形態の動作データ生成装置は、動作データの関係を表す指標値に応じて選定された動作データを用いて、拡張動作データを生成する。

【0083】

（構成）
図１５は、本実施形態に係る動作データ生成装置２０の構成の一例を示すブロック図である。動作データ生成装置２０は、取得部２１、指標値計算部２２、変換データ選定部２５、データ変換部２６、および出力部２７を備える。

【0084】

取得部２１（取得手段）は、第１の実施形態の取得部１１と同様の構成である。取得部２１は、データ変換対象である複数の動作データ２１０を取得する。動作データ２１０は、第１の実施形態の動作データ１１０と同様のデータである。動作データ２１０は、データ拡張の対象動作を行う人物の動作を示すデータである。動作データ２１０は、データ拡張の対象動作を行う人物の像を含む動画データを構成するフレームから抽出される。

【0085】

指標値計算部２２（指標値計算手段）は、複数の動作データ２１０から予め設定された数のサンプルを抽出する。例えば、指標値計算部２２は、複数の動作データ２１０から予め設定された数のサンプルをランダムに抽出する。指標値計算部２２は、予め設定された規則に基づいて、複数の動作データ２１０からサンプルを抽出してもよい。

【0086】

指標値計算部２２は、抽出された動作データ２１０に関して、サンプル間の関係を表す指標値を計算する。例えば、指標値計算部２２は、サンプル間の関係を表す指標値として、サンプル間における類似度を計算する。例えば、指標値計算部２２は、コサイン類似度などの類似度を計算する。

【0087】

例えば、指標値計算部２２は、以下の式１を用いて、類似度Ｄ_sを計算する。

【0088】

【数1】

上記の式１は、動作データＡと動作データＢとのコサイン類似度を算出する数式の一例である。指標値計算部２２は、上記の式１とは異なる算出方法で、動作データＡと動作データＢとの類似度を算出してもよい。

【0089】

例えば、指標値計算部２２は、サンプル間の関係を表す指標値として、サンプル間の距離を計算してもよい。例えば、指標値計算部２２は、ユークリッド距離を計算する。

【0090】

変換データ選定部２５（変換データ選定手段）は、算出された指標値に応じて、変換対象の動作データ２１０をペアリングする。例えば、変換データ選定部２５は、サンプル間の類似度に応じて、変換対象の動作データ２１０をペアリングする。サンプル間の類似度が小さいほど、２つの動作データ２１０の動作タイミングがずれている。そのため、サンプル間の類似度が小さい動作データ２１０のペアを同期させた方が、時間軸方向において動作タイミングが揃った同期データを生成できる。例えば、変換データ選定部２５は、類似度が小さい順に、所定数の動作データ２１０の組み合わせを選定する。例えば、変換データ選定部２５は、予め設定された類似度閾値を下回った類似度の動作データ２１０の組み合わせを選定する。

【0091】

変換データ選定部２５は、サンプル間の距離に応じて、変換対象の動作データ２１０をペアリングしてもよい。サンプル間の距離が大きいほど、２つの動作データ２１０の動作タイミングがずれている。そのため、サンプル間の距離が大きい動作データ２１０のペアを同期させた方が、時間軸方向において動作タイミングが揃った同期データを生成できる。例えば、変換データ選定部２５は、距離が大きい順に、所定数の動作データ２１０の組み合わせを選定する。例えば、変換データ選定部２５は、予め設定された距離閾値を上回った距離の動作データ２１０の組み合わせを選定する。

【0092】

図１６は、変換データ選定部２５による動作データ２１０のペアリングについて説明するための概念図である。図の１マスは、１つの動作データ２１０を示す。図１６の例においては、データＩＤが１～３の動作データ２１０が抽出されている。図１６には、データＩＤ（Identifier）が付された動作データ２１０のうち、一部のペア間における類似度を示す。データＩＤが同じ組み合わせのマスの数字は、実測された同じ動作データ２１０の類似度（１．０）である。図１６においては、類似度の最大値が１．０である。図１６の例の場合、所定の類似度の閾値（類似度閾値）が０．８に設定されているものとする。図１６の例の場合、変換データ選定部２５は、閾値（０．８）を下回る類似度のペアを選定する。具体的には、変換データ選定部２５は、データＩＤが１と３である動作データのペアと、データＩＤが２と３である動作データのペアとを選定する。

【0093】

データ変換部２６（データ変換手段）は、第１の実施形態のデータ変換部１６と同様の構成である。データ変換部２６は、サンプル間の関係を表す指標値に応じてペアリングされた動作データ２１０を変換データ選定部２５から取得する。データ変換部２６は、ペアリングされた動作データ２１０のうち１つを基準データに設定する。また、データ変換部２６は、ペアリングされた動作データ２１０のうち、基準データとは異なる方の動作データ２１０を変換対象データに設定する。データ変換部２６は、基準データの動作タイミングを基準として、変換対象データを同期させる。

【0094】

データ変換部２６は、変換対象データを基準データに対して同期させると、その基準データとは異なる動作データ２１０を、新たな基準データとして設定する。データ変換部２６は、ペアリングされた動作データ２１０のうち、初めに基準データに設定された動作データ２１０を変換対象データに設定する。データ変換部２６は、新たな基準データの動作タイミングを基準として、変換対象データを同期させる。

【0095】

データ変換部２６は、サンプル間の関係を表す指標値に応じてペアリングされた全ての動作データ２１０のペアを同期させる。

【0096】

出力部２７（出力手段）は、第１の実施形態の出力部１７と同様の構成である。出力部２７は、データ変換部２６によって同期された動作データ（拡張動作データ２７０）を出力する。拡張動作データ２７０は、対象動作の学習に用いられる。拡張動作データ２７０は、サンプル間の関係を表す指標値に応じて選定された動作データ２１０のペアの数に応じて生成される。すなわち、動作データ生成装置２０は、サンプル間の関係を表す指標値に応じて選定された動作データ２１０のペアを用いて拡張動作データ２７０を生成することによって、対象動作に関する動作データを効率的に拡張する。

【0097】

（動作）
次に、動作データ生成装置２０の動作について図面を参照しながら説明する。図１７は、動作データ生成装置２０の動作の一例について説明するためのフローチャートである。図１７のフローチャートに沿った説明においては、動作データ生成装置２０を動作主体として説明する。

【0098】

図１７において、まず、動作データ生成装置２０は、変換対象の動作データ２１０を取得する（ステップＳ２１）。

【0099】

次に、動作データ生成装置２０は、動作クラスごとに動作データ２１０をグループ化する（ステップＳ２２）。

【0100】

次に、動作データ生成装置２０は、変換対象の動作データ群から、所定数のサンプルをランダムに抽出する（ステップＳ２３）。動作データ生成装置２０は、変換対象の動作データ群から、予め設定された基準に基づいて、所定数のサンプルを抽出してもよい。

【0101】

次に、動作データ生成装置２０は、抽出されたサンプルから、サンプル間の関係を表す指標値に応じて、動作データ２１０のペアを選定する（ステップＳ２４）。例えば、動作データ生成装置２０は、サンプル間の関係を表す指標値として、類似度や距離を用いる。

【0102】

次に、動作データ生成装置２０は、データ変換処理を実行する（ステップＳ２５）。ステップＳ２５のデータ変換処理において、動作データ生成装置２０は、角度表現に正規化された姿勢データを用いて、同期対象データを基準データに同期させる。動作データ生成装置２０は、抽出された全ての動作データのペアを同期させる。ステップＳ２５のデータ変換処理の詳細については、後述する。

【0103】

次に、動作データ生成装置２０は、同期処理によって同期された拡張動作データ２７０を出力する（ステップＳ２６）。例えば、出力された拡張動作データ２７０は、対象動作の学習に用いられる。例えば、動作データ生成装置２０は、拡張動作データ２７０を画面に表示させてもよい。

【0104】

全ての動作クラスに関してデータ変換が完了していない場合（ステップＳ２７でＮｏ）、ステップＳ２３に戻る。動作データ生成装置２０は、データ変換が完了していない動作クラスに関して、データ変換処理を継続する。全ての動作クラスに関してデータ変換が完了した場合（ステップＳ２７でＹｅｓ）、図１７のフローチャートに沿った処理は終了である。動作データ生成装置２０は、全ての動作クラスに関するデータ変換が完了してから、拡張動作データ２７０を出力するように、構成されてもよい。

【0105】

〔データ変換処理〕
次に、動作データ生成装置２０によるデータ変換処理（図１７のフローチャートのステップＳ２５）について図面を参照しながら説明する。図１８は、動作データ生成装置２０によるデータ変換処理の一例について説明するためのフローチャートである。図１８のフローチャートの例では、サンプル間の関係を表す指標値に応じて選定された動作データ２１０のペアを同期させる。図１８のフローチャートに沿った説明においては、動作データ生成装置２０に含まれるデータ変換部２６を動作主体として説明する。

【0106】

図１８において、まず、データ変換部２６は、同期されていない１組の動作データ２１０のペアを選択する（ステップＳ２５１）。

【0107】

次に、データ変換部２６は、選択された動作データ２１０のペアのうち、一方を基準データに設定し、他方を同期対象データに設定する（ステップＳ２５２）。

【0108】

次に、データ変換部２６は、第１同期処理を実行する（ステップＳ２５３）。第１同期処理は、第１の実施形態における同期処理（図１４）と同様である。第１同期処理において、データ変換部２６は、動作データ２１０のペアのうち、一方の動作データ２１０である基準データに、他方の動作データ２１０である同期対象データを同期させる。ステップＳ２５３において、動作データ２１０の他方が一方に同期された１つの拡張動作データ２７０が生成される。

【0109】

次に、データ変換部２６は、選択された動作データ２１０のペアのうち、他方を基準データに設定し、一方を同期対象データに設定する（ステップＳ２５４）。ステップＳ２５４は、動作データ２１０のペアの基準データと同期対象データとを入れ替える処理である。

【0110】

次に、データ変換部２６は、第２同期処理を実行する（ステップＳ２５５）。第２同期処理は、第１の実施形態における同期処理（図１４）と同様である。第２同期処理において、データ変換部２６は、動作データ２１０のペアのうち、他方の動作データ２１０である基準データに、一方の動作データ２１０である同期対象データを同期させる。ステップＳ２５３において、動作データ２１０の一方が他方に同期された１つの拡張動作データ２７０が生成される。すなわち、ステップＳ２５５の段階において、動作データ２１０のペアが互いに同期された２つの拡張動作データ２７０が生成される。

【0111】

全ての動作データ２１０のペアについて同期が完了していない場合（ステップＳ２５６でＮｏ）、ステップＳ２５１に戻る。全ての動作データ２１０のペアについて同期が完了した場合（ステップＳ２５６でＹｅｓ）、図１７のフローチャートのステップＳ２６に進む。この段階で、選定された動作データのペアの全てに関して、互いに同期された拡張動作データが生成される。

【0112】

以上のように、本実施形態の動作データ生成装置は、取得部、指標値計算部、変換データ選定部、データ変換部、および出力部を備える。取得部は、データ変換対象である複数の動作データを取得する。指標値計算部は、予め設定された数のサンプルを、複数の動作データから抽出する。指標値計算部は、抽出されたサンプルに関してサンプル間の関係を表す指標値を計算する。変換データ選定部は、データ拡張の対象動作である動作クラスごとに、複数の動作データをグループ化する。変換データ選定部は、指標値計算部によって算出された指標値に応じて、変換対象の動作データをペアリングする。データ変換部は、ペアリングされた動作データを互いに同期させた拡張動作データを生成する。出力部は、生成された拡張動作データを出力する。

【0113】

本実施形態の動作データ生成装置は、予め設定された数のサンプルを複数の動作データから抽出する。また、本実施形態の動作データ生成装置は、指標値に応じてペアリングされた動作データに関して、互いに同期させた拡張動作データを生成する。そのため、本実施形態によれば、予め設定された数の動作データを用いて、時間軸方向にデータ拡張された動作データを必要な数だけ効率的に生成できる。

【0114】

本実施形態の一態様において、指標値計算部は、指標値として、サンプル間の類似度を計算する。変換データ選定部は、予め設定された類似度閾値よりも類似度が小さい２つの動作データをペアリングする。本態様によれば、類似度が小さく、動作タイミングのずれが大きな２つの動作データを互いに同期させることによって、動作タイミングが揃った拡張動作データを生成できる。

【0115】

本実施形態の一態様において、指標値計算部は、指標値として、サンプル間の距離を計算する。変換データ選定部は、予め設定された距離閾値よりも距離が大きい２つの動作データをペアリングする。本態様によれば、距離が大きく、動作タイミングのずれが大きな２つの動作データを互いに同期させることによって、動作タイミングが揃った拡張動作データを生成できる。

【0116】

（第３の実施形態）
次に、第３の実施形態に係る動作データ生成装置について図面を参照しながら説明する。本実施形態の動作データ生成装置は、クラスタリングによって分類されたクラスタのうち選択されたクラスタ間で動作データを同期させて、拡張動作データを生成する。

【0117】

（構成）
図１９は、本実施形態に係る動作データ生成装置３０の構成の一例を示すブロック図である。動作データ生成装置３０は、取得部３１、クラスタリング部３２、ペア選択部３３、変換データ選定部３５、データ変換部３６、および出力部３７を備える。

【0118】

取得部３１（取得手段）は、第１の実施形態の取得部１１と同様の構成である。取得部３１は、データ変換対象である複数の動作データ３１０を取得する。動作データ３１０は、第１の実施形態の動作データ１１０と同様のデータである。動作データ３１０は、データ拡張の対象動作を行う人物の動作を示すデータである。動作データ３１０は、データ拡張の対象動作を行う人物の像を含む動画データを構成するフレームから抽出される。

【0119】

クラスタリング部３２（クラスタリング手段）は、所定のクラスタリング法によって、複数の動作データ３１０を複数の集合（クラスタ）にグループ分けする。例えば、クラスタリング部３２は、ｋ－ｍｅａｎｓ法などの非階層クラスタリングの手法によって、複数の動作データ３１０をｋ個のクラスタに分類する（ｋは自然数）。クラスタリング部３２は、ｋ－ｍｅａｎｓ法ではない手法を用いて、複数の動作データ３１０をグループ分けするように構成されてもよい。例えば、クラスタリング部３２は、群平均法やウォード法、最短距離法、最長距離法などの階層クラスタリングの手法を用いて、複数の動作データ３１０をグループ分けするように構成されてもよい。

【0120】

図２０は、クラスタリング部３２によってｋ個のクラスタにグループ分けされた動作データ３１０（黒丸）について説明するための概念図である。図２０には、横軸（ｘ₁）と縦軸（ｘ₂）によって規定された２次元直交座標系に、動作データ（黒丸）マッピングされた例を示す。図２０には、ｋ個のクラスタのうち、クラスタＣ_i（破線の範囲内）、クラスタＣ_j（一点鎖線の範囲内）、およびクラスタＣ_k（点線の範囲内）を示す（i、j、kは自然数）。

【0121】

ペア選択部３３（ペア選択手段）は、クラスタに含まれる動作データ３１０の数に応じて、グループ分けされた複数のクラスタに含まれる２つのクラスタをペアリングする。ペア選択部３３は、動作データ３１０の数が少ないクラスタと、他のクラスタとをペアリングする。例えば、ペア選択部３３は、動作データ３１０の数が最小のクラスタと、他のクラスタとをペアリングする。動作データ３１０の数が少ないクラスタに含まれる動作データ３１０は、他のクラスタに含まれる動作データ３１０に対して、動作タイミングのずれが大きい傾向がある。そのため、ペア選択部３３は、サンプル数の少ないクラスタに含まれる動作データ３１０を重点的に選択して、同期タイミングのずれの小さい拡張動作データが生成されやすい状態にする。

【0122】

例えば、ペア選択部３３は、確率的な手法によって、２つのクラスタをペアリングする。例えば、ペア選択部３３は、クラスタに含まれる動作データ３１０の数の割合から、その逆比を計算する。サンプル数が少ないクラスタに含まれる動作データ３１０は、他のクラスタに含まれる動作データ３１０とのずれが大きい。そのため、ペア選択部３３は、サンプル数が少ないクラスタが選択されやすいように、逆比を計算して、そのクラスタが選択されやすい状態にする。

【0123】

図２０の例の場合、クラスタＣ_i、クラスタＣ_j、およびクラスタＣ_kに含まれる動作データ３１０のサンプル数の割合は５：２：３である。この場合、クラスタＣ_i、クラスタＣ_j、およびクラスタＣ_kに含まれる動作データ３１０のサンプル数の割合に関する逆比は６：１５：１０である。ペア選択部３３は、逆比の大きなクラスタＣ_jを選択する。クラスタＣ_jは、他のクラスタと比べて動作データ３１０の数が少ない。また、ペア選択部３３は、クラスタＣ_jとは異なるクラスタを選択する。図２０の例の場合、クラスタＣ_iが選択されている。ペア選択部３３は、選択されたクラスタＣ_jおよびクラスタＣ_iに含まれる動作データ３１０を変換対象に設定する。

【0124】

変換データ選定部３５（変換データ選定手段）は、ペアリングされた２つのクラスタの各々から、サンプルとなる動作データ３１０をランダムに抽出する。変換データ選定部３５は、抽出された動作データ３１０をペアリングする。変換データ選定部３５は、拡張動作データ３７０の目標値が満たされるまで、動作データ３１０をペアリングする。拡張動作データ３７０の目標値は、任意に設定される。変換データ選定部３５は、ペアリングされた動作データ３１０をデータ変換部３６に出力する。

【0125】

データ変換部３６（データ変換手段）は、第１の実施形態のデータ変換部１６と同様の構成である。データ変換部３６は、変換データ選定部３５によってペアリングされた動作データ３１０を変換データ選定部３５から取得する。データ変換部３６は、ペアリングされた動作データ３１０のうち１つを基準データに設定する。また、データ変換部３６は、ペアリングされた動作データ３１０のうち、基準データとは異なる方の動作データ３１０を変換対象データに設定する。データ変換部３６は、基準データの動作タイミングを基準として、変換対象データを同期させる。

【0126】

データ変換部３６は、変換対象データを基準データに対して同期させると、その基準データとは異なる動作データ３１０を、新たな基準データとして設定する。データ変換部３６は、ペアリングされた動作データ３１０のうち、初めに基準データに設定された動作データ３１０を変換対象データに設定する。データ変換部３６は、新たな基準データの動作タイミングを基準として、変換対象データを同期させる。

【0127】

データ変換部３６は、変換データ選定部３５によってペアリングされた全ての動作データ３１０のペアを同期させる。

【0128】

出力部３７（出力手段）は、第１の実施形態の出力部１７と同様の構成である。出力部３７は、データ変換部３６によって同期された動作データ（拡張動作データ３７０）を出力する。拡張動作データ３７０は、対象動作の学習に用いられる。拡張動作データ３７０は、変換データ選定部３５によって選定された動作データ３１０のペアの数に応じて生成される。すなわち、動作データ生成装置３０は、変換データ選定部３５によって選定された動作データ３１０のペアを用いて拡張動作データ３７０を生成することによって、対象動作に関する動作データを効率的に拡張する。

【0129】

（動作）
次に、動作データ生成装置３０の動作について図面を参照しながら説明する。図２１は、動作データ生成装置３０の動作の一例について説明するためのフローチャートである。図２１のフローチャートに沿った説明においては、動作データ生成装置３０を動作主体として説明する。

【0130】

図２１において、まず、動作データ生成装置３０は、変換対象の動作データ３１０を取得する（ステップＳ３１）。

【0131】

次に、動作データ生成装置３０は、動作クラスごとに動作データ３１０をグループ化する（ステップＳ３２）。

【0132】

次に、動作データ生成装置３０は、クラスタリングによって、変換対象の動作データ群を複数のクラスタにグループ分けする（ステップＳ３３）。例えば、動作データ生成装置３０は、ｋ－ｍｅａｎｓ法などの手法によって、変換対象の動作データ群を複数のクラスタにグループ分けする。

【0133】

次に、動作データ生成装置３０は、クラスタに含まれる動作データ３１０の数に応じて、２つのクラスタをペアリング（ステップＳ３４）。例えば、動作データ生成装置３０は、確率的な手法を用いて、動作データ３１０の数が少ないクラスタを選択する。動作データ生成装置３０は、選択されたクラスタを、他のクラスタとペアリングする。

【0134】

次に、動作データ生成装置３０は、ペアリングされた２つのクラスタに含まれる動作データ３１０をペアリングする（ステップＳ３５）。例えば、動作データ生成装置２０は、ペアリングされた２つのクラスタの各々から動作データ３１０をランダムに抽出し、抽出された２つの動作データ３１０をペアリングする。

【0135】

次に、動作データ生成装置３０は、データ変換処理を実行する（ステップＳ３６）。ステップＳ３６のデータ変換処理において、動作データ生成装置３０は、角度表現に正規化された姿勢データを用いて、同期対象データを基準データに同期させる。動作データ生成装置３０は、抽出された全ての動作データのペアを同期させる。ステップＳ３６のデータ変換処理の詳細については、後述する。

【0136】

次に、動作データ生成装置３０は、同期処理によって同期された拡張動作データ３７０を出力する（ステップＳ３７）。例えば、出力された拡張動作データ３７０は、対象動作の学習に用いられる。例えば、動作データ生成装置３０は、拡張動作データ３７０を画面に表示させてもよい。

【0137】

全ての動作クラスに関してデータ変換が完了していない場合（ステップＳ３８でＮｏ）、ステップＳ３３に戻る。動作データ生成装置３０は、データ変換が完了していない動作クラスに関して、データ変換処理を継続する。全ての動作クラスに関してデータ変換が完了した場合（ステップＳ３８でＹｅｓ）、図２１のフローチャートに沿った処理は終了である。動作データ生成装置３０は、全ての動作クラスに関するデータ変換が完了してから、拡張動作データ３７０を出力するように、構成されてもよい。

【0138】

〔データ変換処理〕
次に、動作データ生成装置３０によるデータ変換処理（図２１のフローチャートのステップＳ３６）について図面を参照しながら説明する。図２２は、動作データ生成装置３０によるデータ変換処理の一例について説明するためのフローチャートである。図２２のフローチャートの例では、動作データ３１０の数に応じてペアリングされた２つのクラスタの各々から選定された動作データ３１０のペアを同期させる。図２２のフローチャートに沿った説明においては、動作データ生成装置３０に含まれるデータ変換部３６を動作主体として説明する。

【0139】

図２２において、まず、データ変換部３６は、同期されていない１組の動作データ３１０のペアを選択する（ステップＳ３６１）。

【0140】

次に、データ変換部３６は、選択された動作データ３１０のペアのうち、一方を基準データに設定し、他方を同期対象データに設定する（ステップＳ３６２）。

【0141】

次に、データ変換部３６は、第１同期処理を実行する（ステップＳ３６３）。第１同期処理は、第１の実施形態における同期処理（図１４）と同様である。第１同期処理において、データ変換部３６は、動作データ３１０のペアのうち、一方の動作データ３１０である基準データに、他方の動作データ３１０である同期対象データを同期させる。ステップＳ３６３において、動作データ３１０の他方が一方に同期された１つの拡張動作データ３７０が生成される。

【0142】

次に、データ変換部３６は、選択された動作データ３１０のペアのうち、他方を基準データに設定し、一方を同期対象データに設定する（ステップＳ３６４）。ステップＳ３６４は、動作データ３１０のペアの基準データと同期対象データとを入れ替える処理である。

【0143】

次に、データ変換部３６は、第２同期処理を実行する（ステップＳ３６５）。第２同期処理は、第１の実施形態における同期処理（図１４）と同様である。第２同期処理において、データ変換部３６は、動作データ３１０のペアのうち、他方の動作データ３１０である基準データに、一方の動作データ３１０である同期対象データを同期させる。ステップＳ３６３において、動作データ３１０の一方が他方に同期された１つの拡張動作データ３７０が生成される。すなわち、ステップＳ３６５の段階において、動作データ３１０のペアが互いに同期された２つの拡張動作データ３７０が生成される。

【0144】

全ての動作データ３１０のペアについて同期が完了していない場合（ステップＳ３６６でＮｏ）、ステップＳ３６１に戻る。全ての動作データ３１０のペアについて同期が完了した場合（ステップＳ３６６でＹｅｓ）、図２２のフローチャートのステップＳ３６に進む。この段階で、選定された動作データのペアの全てに関して、互いに同期された拡張動作データが生成される。

【0145】

以上のように、本実施形態の動作データ生成装置は、取得部、クラスタリング部、ペア選択部、変換データ選定部、データ変換部、および出力部を備える。取得部は、データ変換対象である複数の動作データを取得する。クラスタリング部は、所定のクラスタリング法よって、複数の動作データを複数のクラスタにグループ分けする。ペア選択部は、クラスタに含まれる動作データの数に応じて、グループ分けされた複数のクラスタに含まれる２つのクラスタをペアリングする。変換データ選定部は、ペアリングされた２つのクラスタからの各々から少なくとも１つずつの動作データをランダムに抽出する。変換データ選定部は、２つのクラスタからの各々から抽出された動作データをペアリングする。データ変換部は、ペアリングされた動作データを互いに同期させた拡張動作データを生成する。出力部は、生成された拡張動作データを出力する。

【0146】

本実施形態の動作データ生成装置は、クラスタに含まれる動作データの数に応じて、グループ分けされた複数のクラスタに含まれる２つのクラスタをペアリングする。本実施形態の動作データ生成装置は、ペアリングされた２つのクラスタからの各々から少なくとも１つずつの動作データをランダムに抽出し、抽出された動作データをペアリングする。本実施形態の動作データ生成装置は、ペアリングされた動作データに関して、互いに同期させた拡張動作データを生成する。そのため、本実施形態によれば、サンプルの数の少ないクラスタを重点的に同期対象として選定することによって、時間軸方向にデータ拡張された動作データを効率的に生成できる。

【0147】

本実施形態の一態様において、ペア選択部は、複数のクラスタに含まれる動作データの数の割合から逆比を計算する。ペア選択部は、算出された逆比の値が最大であるクラスタと、逆比の値が最大ではないいずれかのクラスタとをペアリングする。本態様によれば、算出された逆比の値に応じて、サンプルの数の少ないクラスタを確率的に選択する。そのため、本態様によれば、サンプルの数の少ないクラスタを確率的に選定することによって、時間軸方向にデータ拡張された動作データを効率的に生成できる。

【0148】

（第４の実施形態）
次に、第４の実施形態に係る学習装置について図面を参照しながら説明する。本実施形態の学習装置は、異なる動画データ（動作データ）から抽出される動作データを同期させるエンコーダを学習させる。動画データは、複数のフレームによって構成される。個々のフレームから抽出される人物の姿勢に関するデータを、姿勢データと呼ぶ。複数の姿勢データが時系列で連結されたデータを、動作データと呼ぶ。以下においては、異なる動画データに含まれる同じ動作を同期させることを、異なる動画データを同期させると表現することがある。本実施形態の学習装置が学習させたエンコーダは、第１～第３の実施形態に係る動作データ生成装置によって用いられる。

【0149】

【0150】

（構成）
図２３は、本実施形態に係る学習装置４０の構成の一例を示すブロック図である。学習装置４０は、取得部４１、姿勢推定部４２、特徴量計算部４３、損失計算部４５、および学習処理部４６を備える。

【0151】

取得部４１（取得手段）は、動作データ４１０を取得する。動作データ４１０は、学習対象動作を行う人物の像を含むデータである。例えば、学習対象動作には、背伸びや跳躍、歩行、走行、ストレッチなどの動作が含まれる。動画データを構成するフレームから抽出できれば、学習対象動作の種類については特に限定を加えない。

【0152】

例えば、取得部４１は、動画データから抽出された人物の姿勢データを取得してもよい。姿勢データは、人物の代表的な部位の位置に関する位置座標のデータセットである。例えば、人物の代表的な部位は、関節や末端などである。例えば、取得部４１は、モーションキャプチャを用いて計測された姿勢データを取得してもよい。取得部４１が姿勢データを直接取得する場合、姿勢推定部４２を省略できる。

【0153】

姿勢推定部４２（推定手段）は、動作データ４１０に含まれるフレームから、人物を抽出する。姿勢推定部４２は、抽出された人物の姿勢データを推定する。例えば、姿勢推定部４２は、深層学習モデルを用いて、動作データ４１０から抽出された人物の姿勢データを推定する。姿勢推定部４２は、動作データ４１０から抽出された人物に関して、代表的な部位の空間的な位置を姿勢データとして推定する。言い換えると、姿勢データは、動作データ４１０から抽出された人物の姿勢に関するデータである。

【0154】

特徴量計算部４３（特徴量計算手段）は、正規化部４３１およびエンコーダ４３３を含む。特徴量計算部４３は、正規化部４３１を用いて、姿勢データを角度表現に正規化する。特徴量計算部４３は、エンコーダ４３３を用いて、角度表現に正規化された姿勢データから、学習対象動作に関する特徴量を抽出する。

【0155】

正規化部４３１（正規化手段）は、姿勢データを角度表現に正規化する。姿勢データには、その姿勢データの取得元である人物の腕や脚の長さなどの体格に関する属性が含まれる。それに対し、角度表現に正規化された姿勢データには、その姿勢データの取得元である人物の体格に関する属性が含まれない。正規化部４３１は、人物の関節を接続する接続線の成す角を、関節ごとに計算することによって、姿勢データを角度表現に正規化する。

【0156】

エンコーダ４３３は、グラフ畳み込みネットワークＧＣＮ（Graph Convolutional Network）を含む。エンコーダ４３３は、動作データ４１０に含まれるフレームに対して、一意の埋め込み表現を学習する。例えば、エンコーダ４３３は、非特許文献１に開示された時間的サイクル整合性（ＴＣＣ：Temporal Cycle-Consistency）の手法を用いた学習によって、特徴抽出を行う。ＴＣＣ学習は、自己教師あり学習である。ＴＣＣ学習によれば、同じ動作を含む動作データ４１０が複数あれば、それらの対応関係を探す損失関数（Cycle-back Loss）を計算することによって、ラベル無しで特徴抽出器を訓練できる。

【0157】

エンコーダ４３３には、正規化部４３１によって算出された関節角データセットが入力される。エンコーダ４３３は、入力された関節角データセットに関して、グラフ畳み込みネットワークによって特徴量を計算する。エンコーダ４３３は、３次元空間の座標系で表現された関節角データセットを、埋め込み表現に変換する。このように、エンコーダ４３３は、スケルトン形式で表現された隣接する関節を、グラフ構造と見なしてグラフ畳み込みを実行する。エンコーダ４３３は、動作データ４１０の背景が含まれないスケルトン形式の関節角データセットに対して、グラフ畳み込みネットワークを用いる。そのため、エンコーダ４３３を用いて抽出された特徴量には、動作データ４１０の背景の影響が含まれない。

【0158】

例えば、エンコーダ４３３には、隣接した複数のフレームを結合させたコンテクストの入力に応じて、特徴量を出力するように構成されてもよい。その場合、エンコーダ４３３には、ＳＴ（Spatio-Temporal）－ＧＣＮが用いられる。例えば、フレーム番号が１～５の連続した５つのフレームに関して、フレーム番号１～３のフレーム、フレーム番号２～４のフレーム、フレーム番号３～５のフレームの各々が結合されて、コンテクストとして選択される。このように、互いに連続するコンテクストは、同じフレーム番号のフレームを共有することが好ましい。

【0159】

損失計算部４５（損失計算手段）は、エンコーダ４３３によって算出された特徴量を用いて、損失を計算する。例えば、損失計算部４５は、非特許文献１に開示されたCycle-back Loss法を用いて、損失を計算する。損失計算部４５による損出の計算方法については、限定を加えない。

【0160】

非特許文献１の手法を用いる場合、損失計算部４５は、同じ動作を含む２つの動作データ４１０（画像列）に対して、ＲｅｓＮｅｔ（Residual Network）をベースとしたエンコーダモデルを適用する。その結果、埋め込み表現のデータ列（埋め込みデータ列）が得られる。例えば、損失計算部４５は、５０層のConvolutional Neural Network（ＣＮＮ）を含むＲｅｓＮｅｔ５０をベースとしたエンコーダモデルを用いて、埋め込みデータ列を得る。例えば、損失計算部４５は、２つの動作データ４１０（基準データおよび同期対象データ）に対してＲｅｓＮｅｔ５０をベースとしたエンコーダモデルを適用して、埋め込みデータ列を得る。損失計算部４５は、基準データの埋め込みデータ列Ｕのｉフレーム目における埋め込みｕ_iに対して、同期対象データの埋め込みデータ列Ｖに含まれる埋め込みのうち最近傍の埋め込みｖを探索する（ｉは自然数）。損失計算部４５は、探索された埋め込みｖに対して、基準データの埋め込みデータ列Ｕの中で最近傍になる埋め込みｕ_kを探索する（ｋは自然数）。損失計算部４５は、埋め込みｕ_iおよび埋め込みｕ_kを用いて、損失を計算する。例えば、損失計算部４５は、ｉとｋの一致に関する交差エントロピー損失を、損失として計算する。例えば、損失計算部４５は、ｉとｋとの差に関する回帰ロスを、損失として計算する。

【0161】

学習処理部４６（学習処理手段）は、算出された損失の変化量（勾配）を計算する。例えば、学習処理部４６は、勾配降下法を用いて勾配を計算する。学習処理部４６は、算出された勾配に応じて、機械学習によってエンコーダ４３３を訓練する。学習処理部４６は、予め設定された基準よりも勾配が小さくなるまで、エンコーダ４３３を訓練する。例えば、学習処理部４６は、確率的勾配降下法ＳＧＤ（Stochastic Gradient Descent）を用いて、エンコーダ４３３を訓練する。学習処理部４６は、確率的勾配降下法ＳＧＤではない手法を用いて、エンコーダ４３３を訓練してもよい。

【0162】

（動作）
次に、学習装置４０の動作について図面を参照しながら説明する。図２４は、学習装置４０の動作の一例について説明するためのフローチャートである。図２４のフローチャートに沿った説明においては、学習装置４０を動作主体として説明する。

【0163】

図２４において、まず、学習装置４０は、学習対象動作に関する動作データ４１０を取得する（ステップＳ４１）。

【0164】

次に、学習装置４０は、動作データ４１０を構成するフレームごとに姿勢データを推定する（ステップＳ４２）。

【0165】

次に、学習装置４０は、動作データ４１０に含まれるフレームごとに推定された姿勢データを角度表現に正規化する（ステップＳ４３）。

【0166】

次に、学習装置４０は、グラフ畳み込みネットワークによって、角度表現に正規化された姿勢データ（関節角データセット）から、学習対象動作に関する特徴量を計算する（ステップＳ４４）。

【0167】

次に、学習装置４０は、算出された特徴量を用いて、損失を計算する（ステップＳ４５）。

【0168】

次に、学習装置４０は、算出された損失を用いて勾配を計算して、機械学習によってエンコーダ４３３を訓練する（ステップＳ４６）。全ての動画データの訓練が完了していない場合（ステップＳ４７でＮｏ）、ステップＳ４１に戻る。全ての動画データの訓練が完了すると（ステップＳ４７でＹｅｓ）、図２４のフローチャートに沿った処理は終了である。

【0169】

以上のように、本実施形態の学習装置は、取得部、推定部、特徴量計算部、損失計算部、および学習処理部を備える。取得部は、学習対象動作データを取得する。推定部は、学習対象動作データから姿勢データを推定する。特徴量計算部は、グラフ畳み込みネットワークを含むエンコーダを有する。特徴量計算部は、学習対象動作を含む動画データを構成するフレームごとに推定された姿勢データを角度表現に正規化する。特徴量計算部は、角度表現に正規化された姿勢データをエンコーダに入力して埋め込み空間における特徴量を計算する。損失計算部は、エンコーダによって算出された特徴量に応じた損失を計算する。学習処理部は、算出された損失の勾配に基づいてエンコーダを訓練する。

【0170】

本実施形態の学習装置は、学習対象動作データを構成するフレームごとに推定された姿勢データに関する特徴量に応じた損失に基づいて、エンコーダを訓練する。姿勢データは、角度表現に正規化されている。また、特徴量は、埋め込み空間において計算される。そのため、本実施形態によれば、背景の影響を受けずに、学習対象動作データに含まれる動作を高精度で同期できるようにエンコーダを訓練できる。本実施形態の学習装置によって訓練されたエンコーダを用いれば、タグやメタデータなどのアノテーションがなくても、動作データを拡張できる。このエンコーダを用いれば、多様な人間の動作タイミングや速さが揃った動作データを拡張できる。本実施形態の学習装置によって訓練されたエンコーダは、対象動作を含む複数の動作データを同期させるデータ変換に使用できる。

【0171】

（第５の実施形態）
次に、第５の実施形態に係る動作データ生成装置について図面を参照しながら説明する。本実施形態の動作データ生成装置は、第１～第３の実施形態に係る動作データ生成装置を簡略化した構成である。図２５は、本実施形態に係る動作データ生成装置５０の構成の一例を示すブロック図である。動作データ生成装置５０は、取得部５１、変換データ選定部５５、データ変換部５６、および出力部５７を備える。

【0172】

取得部５１は、データ変換対象である複数の動作データ５１０を取得する。変換データ選定部５５は、データ拡張の対象動作である動作クラスごとに、複数の動作データ５１０をグループ化する。データ変換部５６は、動作クラスごとにグループ化された動作データ５１０のうち少なくとも１つを基準データに設定する。データ変換部５６は、グループ化された動作データ５１０のうち基準データとは異なる少なくとも１つの動作データ５１０を変換対象データに設定する。データ変換部５６は、基準データの動作タイミングを基準として変換対象データを同期させた拡張動作データ５７０を生成する。出力部５７は、生成された拡張動作データ５７０を出力する。

【0173】

【0174】

（ハードウェア）
次に、本開示の各実施形態に係る制御や処理を実行するハードウェア構成について、図面を参照しながら説明する。ここでは、そのようなハードウェア構成の一例として、図２６の情報処理装置９０（コンピュータ）をあげる。図２６の情報処理装置９０は、各実施形態の制御や処理を実行するための構成例であって、本開示の範囲を限定するものではない。

【0175】

図２６のように、情報処理装置９０は、プロセッサ９１、主記憶装置９２、補助記憶装置９３、入出力インターフェース９５、および通信インターフェース９６を備える。図２６においては、インターフェースをＩ／Ｆ（Interface）と略記する。プロセッサ９１、主記憶装置９２、補助記憶装置９３、入出力インターフェース９５、および通信インターフェース９６は、バス９８を介して、互いにデータ通信可能に接続される。また、プロセッサ９１、主記憶装置９２、補助記憶装置９３、および入出力インターフェース９５は、通信インターフェース９６を介して、インターネットやイントラネットなどのネットワークに接続される。

【0176】

プロセッサ９１は、補助記憶装置９３等に格納されたプログラム（命令）を、主記憶装置９２に展開する。例えば、プログラムは、各実施形態の制御や処理を実行するためのソフトウェアプログラムである。プロセッサ９１は、主記憶装置９２に展開されたプログラムを実行する。プロセッサ９１は、プログラムを実行することによって、各実施形態に係る制御や処理を実行する。

【0177】

主記憶装置９２は、プログラムが展開される領域を有する。主記憶装置９２には、プロセッサ９１によって、補助記憶装置９３等に格納されたプログラムが展開される。主記憶装置９２は、例えばＤＲＡＭ（Dynamic Random Access Memory）などの揮発性メモリによって実現される。また、主記憶装置９２として、ＭＲＡＭ（Magneto resistive Random Access Memory）などの不揮発性メモリが構成／追加されてもよい。

【0178】

補助記憶装置９３は、プログラムなどの種々のデータを記憶する。補助記憶装置９３は、ハードディスクやフラッシュメモリなどのローカルディスクによって実現される。なお、種々のデータを主記憶装置９２に記憶させる構成とし、補助記憶装置９３を省略することも可能である。

【0179】

入出力インターフェース９５は、規格や仕様に基づいて、情報処理装置９０と周辺機器とを接続するためのインターフェースである。通信インターフェース９６は、規格や仕様に基づいて、インターネットやイントラネットなどのネットワークを通じて、外部のシステムや装置に接続するためのインターフェースである。外部機器と接続されるインターフェースとして、入出力インターフェース９５と通信インターフェース９６とが共通化されてもよい。

【0180】

情報処理装置９０には、必要に応じて、キーボードやマウス、タッチパネルなどの入力機器が接続されてもよい。それらの入力機器は、情報や設定の入力に使用される。入力機器としてタッチパネルが用いられる場合、タッチパネルの機能を有する画面がインターフェースになる。プロセッサ９１と入力機器とは、入出力インターフェース９５を介して接続される。

【0181】

情報処理装置９０には、情報を表示するための表示機器が備え付けられてもよい。表示機器が備え付けられる場合、情報処理装置９０には、表示機器の表示を制御するための表示制御装置（図示しない）が備えられる。情報処理装置９０と表示機器は、入出力インターフェース９５を介して接続される。

【0182】

情報処理装置９０には、ドライブ装置が備え付けられてもよい。ドライブ装置は、プロセッサ９１と記録媒体（プログラム記録媒体）との間で、記録媒体に格納されたデータやプログラムの読み込みや、情報処理装置９０の処理結果の記録媒体への書き込みを仲介する。情報処理装置９０とドライブ装置は、入出力インターフェース９５を介して接続される。

【0183】

以上が、本開示の各実施形態に係る制御や処理を可能とするためのハードウェア構成の一例である。図２６のハードウェア構成は、各実施形態に係る制御や処理を実行するためのハードウェア構成の一例であって、本開示の範囲を限定するものではない。各実施形態に係る制御や処理をコンピュータに実行させるプログラムも、本開示の範囲に含まれる。

【0184】

各実施形態に係るプログラムを記録したプログラム記録媒体も、本開示の範囲に含まれる。記録媒体は、例えば、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）などの光学記録媒体で実現できる。記録媒体は、ＵＳＢ（Universal Serial Bus）メモリやＳＤ（Secure Digital）カードなどの半導体記録媒体によって実現されてもよい。また、記録媒体は、フレキシブルディスクなどの磁気記録媒体、その他の記録媒体によって実現されてもよい。プロセッサが実行するプログラムが記録媒体に記録されている場合、その記録媒体はプログラム記録媒体に相当する。

【0185】

各実施形態の構成要素は、任意に組み合わせられてもよい。各実施形態の構成要素は、ソフトウェアによって実現されてもよい。各実施形態の構成要素は、回路によって実現されてもよい。

【0186】

以上、実施形態を参照して本発明を説明してきたが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

【符号の説明】

【0187】

１０、２０、３０、５０動作データ生成装置
１１、２１、３１、５１取得部
１５、２５、３５、５５変換データ選定部
１６、２６、３６、５６データ変換部
１７、２７、３７、５７出力部
２２指標値計算部
３２クラスタリング部
３３ペア選択部
４０学習装置
４１取得部
４２姿勢推定部
４３特徴量計算部
４５損失計算部
４６学習処理部
１６１姿勢推定部
１６２特徴量計算部
１６３正規化部
１６４エンコーダ
１６５距離計算部
１６６同期処理部
４３１正規化部
４３３エンコーダ

【図1】