特開2023-183624 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソフトバンクモバイル株式会社の特許一覧 ▶ 国立大学法人神戸大学の特許一覧

特開2023-183624情報処理装置、情報処理方法及び情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023183624

(43)【公開日】2023-12-28

(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム

(51)【国際特許分類】

G06V 10/70 20220101AFI20231221BHJP

G06T 7/00 20170101ALI20231221BHJP

【ＦＩ】

G06V10/70

G06T7/00 350B

【審査請求】有

【請求項の数】16

【出願形態】ＯＬ

(21)【出願番号】P 2022097228

(22)【出願日】2022-06-16

(71)【出願人】

【識別番号】501440684

【氏名又は名称】ソフトバンク株式会社

(71)【出願人】

【識別番号】504150450

【氏名又は名称】国立大学法人神戸大学

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】岡本秀明

(72)【発明者】

【氏名】鈴木裕真

(72)【発明者】

【氏名】堀隆之

(72)【発明者】

【氏名】金田麟太郎

(72)【発明者】

【氏名】寺田努

(72)【発明者】

【氏名】土田修平

(72)【発明者】

【氏名】モウコウミン

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096BA18

5L096CA01

5L096FA67

5L096HA02

5L096KA04

5L096KA15

(57)【要約】

【課題】利用者の身体の動きを含む運動映像から任意の運動映像を生成可能とする。
【解決手段】本願に係る情報処理装置は、関節角度の変化に関する時系列データに基づいて時系列データの特徴を示す特徴情報を生成するエンコーダと、特徴情報に基づいて時系列データを生成するデコーダと、を含む機械学習モデルを取得する取得部と、機械学習モデルの潜在空間を用いて、利用者の関節角度の変化に関する第１の時系列データから、利用者の関節角度の変化に関する第２の時系列データを生成する生成部と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

関節角度の変化に関する時系列データに基づいて前記時系列データの特徴を示す特徴情報を生成するエンコーダと、前記特徴情報に基づいて前記時系列データを生成するデコーダと、を含む機械学習モデルを取得する取得部と、
前記機械学習モデルの潜在空間を用いて、利用者の関節角度の変化に関する第１の時系列データから、前記利用者の関節角度の変化に関する第２の時系列データを生成する生成部と、
を備える情報処理装置。

【請求項2】

前記取得部は、
前記特徴情報の確率分布が正規分布に従うように学習された前記機械学習モデルを取得し、
前記生成部は、
前記第１の時系列データを前記潜在空間に写像し、前記潜在空間における潜在変数を前記潜在空間に写像された前記第１の時系列データに対応する第１の特徴情報を持つ値から第２の特徴情報を持つ値に変化させ、変化させた後の前記潜在変数の値に対応する前記第２の特徴情報に基づいて、前記第２の時系列データを生成する、
請求項１に記載の情報処理装置。

【請求項3】

前記時系列データは、前記時系列データに対応する属性情報を含み、
前記取得部は、
前記属性情報を含む前記時系列データの特徴を示す前記特徴情報の確率分布が正規分布に従うように学習された前記機械学習モデルを取得し、
前記生成部は、
前記潜在空間における潜在変数を第１の属性情報に対応する前記第１の特徴情報を持つ値から第２の属性情報に対応する前記第２の特徴情報を持つ値に変化させ、変化させた後の前記潜在変数の値に対応する前記第２の特徴情報に基づいて、前記第２の時系列データを生成する、
請求項２に記載の情報処理装置。

【請求項4】

前記機械学習モデルは、対象物を含む画像から前記対象物の姿勢を推定するよう学習された姿勢推定モデルをさらに含み、
前記生成部は、
前記姿勢推定モデルを用いて、前記利用者の身体の動きを含む第１の運動映像から前記利用者の関節点の座標を推定し、推定した関節点の座標に基づいて、前記第１の時系列データを生成する、
請求項１に記載の情報処理装置。

【請求項5】

前記生成部は、
生成した前記第２の時系列データに基づいて、前記第２の時系列データに対応する前記利用者の身体の動きを含む第２の運動映像を生成する、
請求項１に記載の情報処理装置。

【請求項6】

前記機械学習モデルは、対象者の関節点を含む関節画像から前記関節点に対応する前記対象者の人物画像を生成するよう学習された画像変換モデルをさらに含み、
前記生成部は、
前記画像変換モデルを用いて、前記第２の時系列データから前記第２の運動映像を生成する、
請求項５に記載の情報処理装置。

【請求項7】

関節角度の変化に関する時系列データを取得する取得部と、
前記時系列データに基づいて前記時系列データの特徴を示す特徴情報を生成するエンコーダと、前記特徴情報に基づいて前記時系列データを生成するデコーダと、を含む機械学習モデルを生成するモデル生成部と、
を備える情報処理装置。

【請求項8】

前記モデル生成部は、
前記エンコーダに入力される前記時系列データと、前記デコーダから出力される前記時系列データとの類似度が所定の閾値を超えるように前記機械学習モデルを学習させる、
請求項７に記載の情報処理装置。

【請求項9】

前記モデル生成部は、
前記特徴情報の確率分布が正規分布に従うように前記機械学習モデルを学習させる、
請求項７に記載の情報処理装置。

【請求項10】

前記取得部は、
前記時系列データに対応する属性情報を含む前記時系列データを取得し、
前記モデル生成部は、
前記属性情報を含む前記時系列データの特徴を示す前記特徴情報の確率分布が正規分布に従うように前記機械学習モデルを学習させる、
請求項９に記載の情報処理装置。

【請求項11】

前記モデル生成部は、
前記特徴情報を前記属性情報に応じたクラスタに分類する、
請求項１０に記載の情報処理装置。

【請求項12】

前記属性情報は、前記時系列データに対応する運動映像に含まれる対象者の身体の動きの種類、前記対象者の身体の動きの習熟度、前記対象者の身体の動きの特徴、または、前記対象者の生体情報を示す情報である、
請求項３または１０に記載の情報処理装置。

【請求項13】

情報処理装置が実行するプログラムにより実現される情報処理方法であって、
関節角度の変化に関する時系列データに基づいて前記時系列データの特徴を示す特徴情報を生成するエンコーダと、前記特徴情報に基づいて前記時系列データを生成するデコーダと、を含む機械学習モデルを取得する取得工程と、
前記機械学習モデルの潜在空間を用いて、利用者の関節角度の変化に関する第１の時系列データから、前記利用者の関節角度の変化に関する第２の時系列データを生成する生成工程と、
を含む情報処理方法。

【請求項14】

情報処理装置が実行するプログラムにより実現される情報処理方法であって、
関節角度の変化に関する時系列データを取得する取得工程と、
前記時系列データに基づいて前記時系列データの特徴を示す特徴情報を生成するエンコーダと、前記特徴情報に基づいて前記時系列データを生成するデコーダと、を含む機械学習モデルを生成するモデル生成工程と、
を含む情報処理方法。

【請求項15】

関節角度の変化に関する時系列データに基づいて前記時系列データの特徴を示す特徴情報を生成するエンコーダと、前記特徴情報に基づいて前記時系列データを生成するデコーダと、を含む機械学習モデルを取得する取得手順と、
前記機械学習モデルの潜在空間を用いて、利用者の関節角度の変化に関する第１の時系列データから、前記利用者の関節角度の変化に関する第２の時系列データを生成する生成手順と、
をコンピュータに実行させる情報処理プログラム。

【請求項16】

関節角度の変化に関する時系列データを取得する取得手順と、
前記時系列データに基づいて前記時系列データの特徴を示す特徴情報を生成するエンコーダと、前記特徴情報に基づいて前記時系列データを生成するデコーダと、を含む機械学習モデルを生成するモデル生成手順と、
をコンピュータに実行させる情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

【背景技術】

【0002】

従来、機械学習の分野では、オートエンコーダ（AutoEncoder）に関する技術が知られている。オートエンコーダは、対象となる情報を潜在表現（特徴表現ともいう）に変換するニューラルネットワークであるエンコーダと、潜在表現から再び対象となる情報を復元するニューラルネットワークであるデコーダによって構成される。また、オートエンコーダから派生したＶＡＥ（Variational Autoencoder）に関する技術が知られている。ＶＡＥは、潜在表現の確率分布が正規分布に従うようにニューラルネットワークを学習させる。例えば、ＶＡＥを用いて、手書きで書かれた「０」～「９」の数字に対応する画像データ（以下、手書き数字画像ともいう）と、画像に書かれた数字の正解となるラベルデータとの組のデータセットを潜在表現に変換して、潜在表現を潜在空間にマッピングする。そして、ＶＡＥの潜在空間上で潜在変数を連続的に変化させながら画像を生成する。これにより、画像に描かれた数字を連続的に変化させた手書き数字画像を生成する技術が知られている。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Diederik P. Kingma、他３名、“Semi-Supervised Learning with Deep Generative Models”、［online］、June 2014、［令和４年５月３１日検索］、インターネット＜URL：https://arxiv.org/abs/1406.5298v1＞

【発明の概要】

【発明が解決しようとする課題】

【0004】

また、近年、ストレスの発散や心の癒し等の精神的な豊かさを実現するための情報通信技術であるエンタテインメント・コンピューティング（entertainment computing）に関する研究が盛んに行われている。例えば、利用者の身体の動きを含む運動映像から任意の運動映像を生成可能とする技術が求められている。

【0005】

本願は、利用者の身体の動きを含む運動映像から任意の運動映像を生成可能とすることができる情報処理装置、情報処理方法及び情報処理プログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

本願に係る情報処理装置は、関節角度の変化に関する時系列データに基づいて前記時系列データの特徴を示す特徴情報を生成するエンコーダと、前記特徴情報に基づいて前記時系列データを生成するデコーダと、を含む機械学習モデルを取得する取得部と、前記機械学習モデルの潜在空間を用いて、利用者の関節角度の変化に関する第１の時系列データから、前記利用者の関節角度の変化に関する第２の時系列データを生成する生成部と、を備える。

【0007】

前記取得部は、前記特徴情報の確率分布が正規分布に従うように学習された前記機械学習モデルを取得し、前記生成部は、前記第１の時系列データを前記潜在空間に写像し、前記潜在空間における潜在変数を前記潜在空間に写像された前記第１の時系列データに対応する第１の特徴情報を持つ値から第２の特徴情報を持つ値に変化させ、変化させた後の前記潜在変数の値に対応する前記第２の特徴情報に基づいて、前記第２の時系列データを生成する。

【0008】

前記時系列データは、前記時系列データに対応する属性情報を含み、前記取得部は、前記属性情報を含む前記時系列データの特徴を示す前記特徴情報の確率分布が正規分布に従うように学習された前記機械学習モデルを取得し、前記生成部は、前記潜在空間における潜在変数を第１の属性情報に対応する前記第１の特徴情報を持つ値から第２の属性情報に対応する前記第２の特徴情報を持つ値に変化させ、変化させた後の前記潜在変数の値に対応する前記第２の特徴情報に基づいて、前記第２の時系列データを生成する。

【0009】

前記機械学習モデルは、対象物を含む画像から前記対象物の姿勢を推定するよう学習された姿勢推定モデルをさらに含み、前記生成部は、前記姿勢推定モデルを用いて、前記利用者の身体の動きを含む第１の運動映像から前記利用者の関節点の座標を推定し、推定した関節点の座標に基づいて、前記第１の時系列データを生成する。

【0010】

前記生成部は、生成した前記第２の時系列データに基づいて、前記第２の時系列データに対応する前記利用者の身体の動きを含む第２の運動映像を生成する。

【0011】

前記機械学習モデルは、対象者の関節点を含む関節画像から前記関節点に対応する前記対象者の人物画像を生成するよう学習された画像変換モデルをさらに含み、前記生成部は、前記画像変換モデルを用いて、前記第２の時系列データから前記第２の運動映像を生成する。

【0012】

本願に係る情報処理装置は、関節角度の変化に関する時系列データを取得する取得部と、前記時系列データに基づいて前記時系列データの特徴を示す特徴情報を生成するエンコーダと、前記特徴情報に基づいて前記時系列データを生成するデコーダと、を含む機械学習モデルを生成するモデル生成部と、を備える。

【0013】

前記モデル生成部は、前記エンコーダに入力される前記時系列データと、前記デコーダから出力される前記時系列データとの類似度が所定の閾値を超えるように前記機械学習モデルを学習させる。

【0014】

前記モデル生成部は、前記特徴情報の確率分布が正規分布に従うように前記機械学習モデルを学習させる。

【0015】

前記取得部は、前記時系列データに対応する属性情報を含む前記時系列データを取得し、前記モデル生成部は、前記属性情報を含む前記時系列データの特徴を示す前記特徴情報の確率分布が正規分布に従うように前記機械学習モデルを学習させる。

【0016】

前記モデル生成部は、前記特徴情報を前記属性情報に応じたクラスタに分類する。

【0017】

前記属性情報は、前記時系列データに対応する運動映像に含まれる対象者の身体の動きの種類、前記対象者の身体の動きの習熟度、前記対象者の身体の動きの特徴、または、前記対象者の生体情報を示す情報である。

【0018】

本願に係る情報処理方法は、情報処理装置が実行するプログラムにより実現される情報処理方法であって、関節角度の変化に関する時系列データに基づいて前記時系列データの特徴を示す特徴情報を生成するエンコーダと、前記特徴情報に基づいて前記時系列データを生成するデコーダと、を含む機械学習モデルを取得する取得工程と、前記機械学習モデルの潜在空間を用いて、利用者の関節角度の変化に関する第１の時系列データから、前記利用者の関節角度の変化に関する第２の時系列データを生成する生成工程と、を含む。

【0019】

本願に係る情報処理方法は、情報処理装置が実行するプログラムにより実現される情報処理方法であって、関節角度の変化に関する時系列データを取得する取得工程と、前記時系列データに基づいて前記時系列データの特徴を示す特徴情報を生成するエンコーダと、前記特徴情報に基づいて前記時系列データを生成するデコーダと、を含む機械学習モデルを生成するモデル生成工程と、を含む。

【0020】

本願に係る情報処理プログラムは、関節角度の変化に関する時系列データに基づいて前記時系列データの特徴を示す特徴情報を生成するエンコーダと、前記特徴情報に基づいて前記時系列データを生成するデコーダと、を含む機械学習モデルを取得する取得手順と、前記機械学習モデルの潜在空間を用いて、利用者の関節角度の変化に関する第１の時系列データから、前記利用者の関節角度の変化に関する第２の時系列データを生成する生成手順と、をコンピュータに実行させる。

【0021】

本願に係る情報処理プログラムは、関節角度の変化に関する時系列データを取得する取得手順と、前記時系列データに基づいて前記時系列データの特徴を示す特徴情報を生成するエンコーダと、前記特徴情報に基づいて前記時系列データを生成するデコーダと、を含む機械学習モデルを生成するモデル生成手順と、をコンピュータに実行させる。

【発明の効果】

【0022】

実施形態の一態様によれば、利用者の身体の動きを含む運動映像から任意の運動映像を生成可能とすることができる。

【図面の簡単な説明】

【0023】

【図1】図１は、実施形態に係る情報処理の概要について説明するための図である。

【図2】図２は、実施形態に係る情報処理システムの構成例を示す図である。

【図3】図３は、実施形態に係る生成装置の構成例を示す図である。

【図4】図４は、実施形態に係る生成装置による情報処理手順を示すフローチャートである。

【図5】図５は、実施形態に係る情報処理装置の構成例を示す図である。

【図6】図６は、実施形態に係る潜在空間の一例について説明するための図である。

【図7】図７は、実施形態に係る情報処理装置による情報処理手順を示すフローチャートである。

【図8】図８は、変形例に係る潜在空間の一例について説明するための図である。

【図9】図９は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

【発明を実施するための形態】

【0024】

以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

【0025】

（実施形態）
〔１．情報処理の概要〕
図１は、実施形態に係る情報処理の概要について説明するための図である。図１では、実施形態に係る情報処理装置１００によって、実施形態に係る情報処理などが実現されるものとする。図１では、情報処理装置１００が、学習済みの機械学習モデルＭ１の潜在空間を用いて、ジャズダンスを踊っている利用者を撮像したダンス映像Ｇ１に基づいて、利用者が踊っているダンスのジャンルをジャズダンスからヒップホップダンスに変化させたダンス映像Ｇ２を生成する場合について説明する。

【0026】

具体的には、情報処理装置１００は、姿勢推定モデルを用いて、ダンス映像Ｇ１に撮像された利用者の関節点の座標をフレームごとに推定する。続いて、情報処理装置１００は、推定された各関節点の座標から各関節の関節角度のフレームごとの変化量（以下、関節角度の変化量の第１の時系列データともいう）を算出する。ここで、姿勢推定モデルとは、対象物を含む画像から対象物の姿勢を推定するよう学習された機械学習モデルである。続いて、情報処理装置１００は、各関節の関節角度の初期角度と各関節の関節角度の変化量の第１の時系列データを入力情報として機械学習モデルＭ１に入力し、第１の特徴情報を生成する。情報処理装置１００は、生成した第１の特徴情報を機械学習モデルＭ１の潜在空間にマッピングする。

【0027】

本実施形態における機械学習モデルＭ１は、時系列データに対応する特徴情報を潜在空間にマッピングするように事前に学習された機械学習モデルである。具体的には、機械学習モデルＭ１は、時系列データに対応する特徴情報の確率分布が正規分布に従うように事前に学習されたニューラルネットワークであってよい。例えば、機械学習モデルＭ１は、ＶＡＥ（Variational Autoencoder）にＲＮＮ（Recurrent Neural Network）を適用した機械学習モデルであるＶＲＡＥ（Variational Recurrent Autoencoders）であってよい（参考文献；Otto Fabius、他１名、“VARIATIONAL RECURRENT AUTO-ENCODERS”、［online］、December 2014、［令和４年５月３１日検索］、インターネット＜URL：https://arxiv.org/abs/1412.6581v1＞）。図１では、機械学習モデルＭ１がＶＲＡＥである場合について説明する。

【0028】

ここで、ＶＲＡＥの基礎となっているＶＡＥ（Variational Autoencoder）について詳しく説明する。ＶＡＥは、画像を生成する生成モデルの一種として知られる。例えば、手書きで書かれた「０」～「９」の数字に対応する画像データ（以下、手書き数字画像ともいう）と、画像に書かれた数字の正解となるラベルデータとの組のデータセットを学習データ（訓練データともいう）としてＶＡＥを学習させる。具体的には、データセットを潜在表現に変換して、潜在表現を潜在空間にマッピングするようＶＡＥを学習させる。ここで、ＶＡＥは、潜在表現の確率分布が正規分布に従うようにニューラルネットワークを学習する点に特徴がある。そのため、ＶＡＥの潜在空間では、類似する画像、つまり、手書き数字画像の場合、同じ数字が描かれた手書き数字画像に対応する潜在表現同士が潜在空間上の近い位置にマッピングされる傾向がある。また、同じ数字が描かれた手書き数字画像の潜在表現同士が潜在空間上の近い位置にマッピングされることは、各数字が描かれた手書き数字画像に対応する潜在表現のクラスタが生成されることに対応する。例えば、「１」という数字が描かれた手書き数字画像に対応する潜在表現のクラスタ（以下、「１」のクラスタ）、「２」という数字が描かれた手書き数字画像に対応する潜在表現のクラスタ（以下、「２」のクラスタ）、および、「３」という数字が描かれた手書き数字画像に対応する潜在表現のクラスタ（以下、「３」のクラスタ）、…のように各数字に対応する潜在表現のクラスタがそれぞれ生成される。例えば、潜在空間上の「１」のクラスタから最も近い距離に「２」のクラスタがマッピングされたとする。また、「２」のクラスタの次に「１」のクラスタから近い距離に「３」のクラスタがマッピングされたとする。このとき、ＶＡＥの潜在空間における潜在変数を、例えば、「１」のクラスタの平均値から「３」のクラスタの平均値まで「１」→「２」→「３」のように連続的に変化させながら画像を生成する。これにより、画像に描かれた数字を「１」→「２」→「３」のように「１」から「３」まで連続的に変化させた手書き数字画像を生成することができる。

【0029】

図１の説明に戻る。図１に示す例では、あらかじめ、ダンス映像とダンス映像に含まれるダンスの種類（例えば、ジャズダンス、バレエダンス、ヒップホップダンス等のジャンル）を示すラベルデータとの組のデータセットを学習データとして機械学習モデルＭ１を学習させる。具体的には、データセットを特徴情報（上記の潜在表現に対応）に変換して、特徴情報を潜在空間にマッピングするように機械学習モデルＭ１を学習させる。ここで、ＶＲＡＥである機械学習モデルＭ１は、ＶＡＥと同様に、特徴情報の確率分布が正規分布に従うようにニューラルネットワークを学習する。そのため、機械学習モデルＭ１の潜在空間では、類似するダンス映像、つまり、同じ種類のダンスを含むダンス映像に対応する特徴情報同士が潜在空間上の近い位置にマッピングされる傾向がある。また、同じ種類のダンスを含むダンス映像の特徴情報同士が潜在空間上の近い位置にマッピングされることは、各種類のダンス映像に対応する潜在表現のクラスタが生成されることに対応する。図１では、ジャズダンスのダンス映像に対応する特徴情報のクラスタ（以下、ジャズダンスのクラスタ）、バレエダンスのダンス映像に対応する特徴情報のクラスタ（以下、バレエダンスのクラスタ）、および、ヒップホップダンスのダンス映像に対応する特徴情報のクラスタ（以下、ヒップホップダンスのクラスタ）、…のように各種類のダンス映像に対応する特徴情報のクラスタがそれぞれ生成される。そして、各種類のダンス映像に対応する特徴情報のクラスタが潜在空間上にマッピングされる様子を示す。また、情報処理装置１００は、公知のクラスタリング技術を用いて、図１に示す潜在空間にマッピングされた特徴情報を、ダンス映像に含まれるダンスの種類（例えば、ジャズダンス、バレエダンス、ヒップホップダンス等）に応じたクラスタに分類してよい。その上で、例えば、情報処理装置１００は、ダンス映像Ｇ１がジャズダンスの映像である場合、潜在空間におけるジャズダンスのクラスタの位置に第１の特徴情報をマッピングする。図１に示す点Ｐ１は、潜在空間にマッピングされた第１の特徴情報の位置を示す。

【0030】

続いて、情報処理装置１００は、潜在空間における潜在変数を第１の特徴情報を持つ値から第２の特徴情報を持つ値に変化させる。例えば、情報処理装置１００は、潜在変数をジャズダンスのクラスタに属する第１の特徴情報を持つ値からヒップホップのクラスタに属する第２の特徴情報を持つ値まで変化させる。図１に示す点Ｐ２は、潜在空間にマッピングされた第２の特徴情報の位置を示す。例えば、潜在空間上のジャズダンスのクラスタから最も近い距離にバレエダンスのクラスタがマッピングされる。また、バレエダンスのクラスタの次にジャズダンスのクラスタから近い距離にヒップホップダンスのクラスタがマッピングされる。このとき、情報処理装置１００は、潜在変数を、ジャズダンスのクラスタに属する第１の特徴情報を持つ値からヒップホップダンスのクラスタの平均値から所定範囲内に位置する第２の特徴情報を持つ値に連続的に変化させてよい。例えば、情報処理装置１００は、ジャズダンスのクラスタに属する第１の特徴情報を持つ値→バレエダンスのクラスタの平均値を持つ値→ヒップホップダンスのクラスタの平均値から所定範囲内に位置する第２の特徴情報を持つ値のように潜在変数を連続的に変化させてよい。これにより、情報処理装置１００は、利用者が踊っているダンスのジャンルを、例えば、ジャズダンス→バレエダンス→ヒップホップダンスのようにジャズダンスからヒップホップダンスまで連続的に変化させたダンス映像を生成することができる。

【0031】

続いて、情報処理装置１００は、変化させた後の潜在変数の値に対応する第２の特徴情報に基づいて、各関節の関節角度のフレームごとの変化量（以下、関節角度の変化量の第２の時系列データともいう）を生成する。例えば、情報処理装置１００は、機械学習モデルＭ１の出力情報として、各関節の関節角度の変化量の第２の時系列データを出力し、各関節の関節角度の変化量の第２の時系列データを生成する。続いて、情報処理装置１００は、機械学習モデルＭ１から出力された各関節の関節角度の変化量の第２の時系列データと各関節の関節角度の初期角度に基づいて、フレームごとの各関節の関節角度を算出する。続いて、情報処理装置１００は、フレームごとの各関節の関節角度から、フレームごとの各関節点の座標を算出する。

【0032】

続いて、情報処理装置１００は、画像変換モデルを用いて、算出された各関節点の座標に対応する関節点を含む各フレームをダンス中の利用者を含むダンス映像Ｇ２に変換する。ここで、画像変換モデルとは、対象者の関節点を含む関節画像から関節点に対応する対象者の人物画像を生成するよう学習された機械学習モデルである。ここで、第２の特徴情報は、潜在空間におけるヒップホップダンスのクラスタの位置にマッピングされているので、第２の特徴情報に対応するダンス映像Ｇ２は、利用者がヒップホップダンスを踊っている映像に対応する。

【0033】

上述したように、情報処理装置１００は、学習済みの機械学習モデルＭ１を用いて、ダンス映像Ｇ１から第１の特徴情報を生成し、第１の特徴情報を潜在空間にマッピングする。続いて、情報処理装置１００は、潜在空間における潜在変数を第１の特徴情報を持つ値から第２の特徴情報を持つ値に変化させる。続いて、情報処理装置１００は、変化させた後の潜在変数の値に対応する第２の特徴情報に基づいて、ダンス映像Ｇ２を生成する。このように、情報処理装置１００は、機械学習モデルＭ１の潜在空間を用いることにより、利用者のダンス映像Ｇ１を潜在空間上の任意の値に対応したダンス映像Ｇ２へと変化させることができる。すなわち、情報処理装置１００は、機械学習モデルＭ１の潜在空間を用いることにより、利用者のダンス映像Ｇ１からダンス映像Ｇ１を加工したダンス映像Ｇ２へのモーフィングを実現可能にする。例えば、情報処理装置１００は、ダンス映像の種類に応じて分類された潜在空間を用いることにより、ジャズダンスのダンス映像Ｇ１からヒップホップダンスのダンス映像Ｇ２へのモーフィングを実現可能にする。すなわち、情報処理装置１００は、利用者のダンス映像に基づいて、利用者が所望するダンス映像の属性（例えば、ダンスの種類）に応じた新たなダンス映像を生成することができる。したがって、情報処理装置１００は、利用者のダンス映像から任意のダンス映像を生成可能とすることができる。また、情報処理装置１００は、利用者が所望するダンス映像の属性（例えば、ダンスの種類）に応じた新たなダンス映像を利用者に対して提供可能とすることができる。すなわち、情報処理装置１００は、利用者に対して新しいエンタテインメントを提供可能とすることができる。したがって、情報処理装置１００は、利用者に対して精神的な豊かさを提供可能とすることができる。

【0034】

〔２．情報処理システムの構成〕
図２は、実施形態に係る情報処理システム１の構成例を示す図である。図２に示すように、実施形態に係る情報処理システム１には、生成装置２０と情報処理装置１００とが含まれる。生成装置２０と情報処理装置１００とは、各種の通信ネットワークを介して、有線または無線で互いに通信可能に接続される。なお、図２に示した情報処理システム１には、任意の数の生成装置２０と、任意の数の情報処理装置１００とが含まれていてもよい。

【0035】

生成装置２０は、図１で説明した機械学習モデルＭ１を生成するサーバ装置である。生成装置２０は、機械学習モデルＭ１を生成した場合、生成した機械学習モデルＭ１に関する情報を各利用者の情報処理装置１００に配信する。

【0036】

情報処理装置１００は、図１で説明した情報処理を実現する情報処理装置である。具体的には、情報処理装置１００は、利用者によって使用されるスマートフォン等の端末装置であってよい。情報処理装置１００は、生成装置２０から機械学習モデルＭ１を取得し、図１で説明した情報処理を実現する。

【0037】

〔３．生成装置の構成〕
図３は、実施形態に係る生成装置２０の構成例を示す図である。生成装置２０は、通信部２１と、記憶部２２と、制御部２３とを有する。

【0038】

（通信部２１）
通信部２１は、ＮＩＣ（Network Interface Card）やアンテナ等によって実現される。通信部２１は、各種ネットワークと有線または無線で接続され、例えば、情報処理装置１００との間で情報の送受信を行う。

【0039】

（記憶部２２）
記憶部２２は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。具体的には、記憶部２２は、各種プログラム（情報処理プログラムの一例）を記憶する。また、記憶部２２は、モデル生成部２３２によって生成された機械学習モデルＭ１に関する情報を記憶する。

【0040】

（制御部２３）
制御部２３は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、生成装置２０内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部２３は、コントローラであり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

【0041】

制御部２３は、取得部２３１と、モデル生成部２３２と、配信部２３３を機能部として有し、以下に説明する情報処理の作用を実現または実行してよい。なお、制御部２３の内部構成は、図３に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、各機能部は、制御部２３の機能を示したものであり、必ずしも物理的に区別されるものでなくともよい。

【0042】

（取得部２３１）
取得部２３１は、モデル生成部２３２による機械学習モデルＭ１の学習に用いられる学習データを取得する。具体的には、取得部２３１は、学習データとして、あらかじめ人手によってダンス映像の属性を示す属性情報とダンス映像とが紐づけられた情報を取得してよい。属性情報は、例えば、ダンス映像に含まれる人物（以下、対象者ともいう）が踊るダンスの種類であってよい。より具体的には、取得部２３１は、学習データとして、ダンス映像に含まれるダンスの種類を示すラベル（例えば、ジャズダンス、バレエダンス、ヒップホップダンス等のダンスのジャンルを示すラベル）とダンス映像との組み合わせからなるデータセットを取得してよい。例えば、取得部２３１は、学習データを作成した作成者によって使用される端末装置から学習データを取得してよい。

【0043】

また、取得部２３１は、関節角度の変化量の時系列データを取得する。具体的には、取得部２３１は、姿勢推定モデルを用いて、学習データのダンス映像に含まれる対象者の関節点の座標をフレームごとに推定してよい。続いて、取得部２３１は、推定された各関節点の座標から各関節の関節角度のフレームごとの変化量を算出してよい。例えば、取得部２３１は、推定された各関節点の座標から９つの関節点（首、両肩、両肘、両腰および両膝）の関節角度のフレームごとの変化量を算出してよい。

【0044】

例えば、取得部２３１は、第２余弦定理および逆三角定理を用いて、３つの関節点の座標から、フレームごとの各関節の関節角度を算出してよい。例として、取得部２３１が、右膝の関節角度を算出する場合について説明する。取得部２３１は、対象者の骨格モデルにおける右腰の関節点（以下、点Ｂと記載する）の座標（r_hip（x）、r_hip（y））、右膝の関節点（以下、点Ｃと記載する）の座標（r_knee（x）、r_knee（y））、および、右足首の関節点（以下、点Ａと記載する）の座標（r_ankle（x）、r_ankle（y））から、フレームごとの右膝の関節角度を算出してよい。例えば、取得部２３１は、三角形ＡＢＣの各辺の長さの二乗を、それぞれ、（ＢＣ）^２＝（r_knee（x）－r_hip（x））^２＋（r_knee（y）－r_hip（y））^２、（ＣＡ）^２＝（r_knee（x）－r_ankle（x））^２＋（r_knee（y）－r_ankle（y））^２、（ＡＢ）^２＝（r_ankle（x）－r_hip（x））^２＋（r_ankle（y）－r_hip（y））^２によって算出する。続いて、取得部２３１は、三角形ＡＢＣの頂点Ｃの角度（すなわち、右膝の関節角度）をθで表すと、第２余弦定理より、（ＡＢ）^２＝（ＢＣ）^２＋（ＣＡ）^２－２（ＢＣ）*（ＣＡ）cosθが成り立つので、逆三角定理を用いて、θ＝cos^（－１）（（ＢＣ）^２＋（ＣＡ）^２－（ＡＢ）^２）/２（ＢＣ）*（ＣＡ）により算出する。取得部２３１は、右膝の関節角度を算出する場合と同様にして、３つの関節点の座標から、フレームごとの各関節の関節角度を算出してよい。続いて、取得部２３１は、所定のフレームにおける各関節の関節角度と、所定のフレームの次のフレームにおける各関節の関節角度との差分を算出することにより、各関節の関節角度のフレームごとの変化量（以下、関節角度の変化量の時系列データともいう）を算出してよい。なお、上記の例では、取得部２３１が、３つの関節点として、右腰、右膝、右足首のように骨格モデルにおいて連続する３部位の関節点を選択し、これらからなる角度を関節角度として算出する場合について説明したが、本実施形態はこれに限定されない。すなわち、一実施形態において取得部２３１は、骨格モデルにおける任意の３部位からなる角度を関節角度として算出してもよい。

【0045】

(モデル生成部２３２)
モデル生成部２３２は、取得部２３１によって取得された各関節の関節角度の変化量の時系列データ（以下、時系列データともいう）に基づいて時系列データの特徴を示す特徴情報を生成するエンコーダと、特徴情報に基づいて時系列データを生成するデコーダと、を含む機械学習モデルＭ１を生成する。具体的には、機械学習モデルＭ１は、ＶＡＥにＲＮＮを適用した機械学習モデルであるＶＲＡＥであってよい。

【0046】

より具体的には、モデル生成部２３２は、機械学習モデルＭ１のエンコーダを用いて、時系列データから特徴情報を生成してよい。ここで、特徴情報は、時系列データよりも低次元のベクトルであってよい。モデル生成部２３２は、機械学習モデルＭ１のエンコーダを用いて、時系列データを特徴情報に次元圧縮する。続いて、モデル生成部２３２は、機械学習モデルＭ１のデコーダを用いて、特徴情報から時系列データを生成してよい。続いて、モデル生成部２３２は、エンコーダに入力される時系列データと、デコーダから出力される時系列データとの類似度が所定の閾値を超えるように機械学習モデルＭ１を学習させてよい。例えば、モデル生成部２３２は、バックプロパゲーション等を用いて、エンコーダに入力される時系列データと、デコーダから出力される時系列データとの類似度が所定の閾値を超えるまで、機械学習モデルＭ１のエンコーダとデコーダをそれぞれ学習させてよい。また、モデル生成部２３２は、特徴情報の確率分布が正規分布に従うように機械学習モデルＭ１を学習させてよい。例えば、モデル生成部２３２は、特徴情報の確率分布が正規分布に従うと仮定して、正規分布の平均μおよび分散σを出力するようエンコーダを学習させてよい。また、モデル生成部２３２は、エンコーダから出力された平均μおよび分散σに基づいて、正規分布Ｎ（μ、σ）に従う特徴情報をサンプリングし、サンプリングされた特徴情報から時系列データを復元するようデコーダを学習させてよい。このようにして、モデル生成部２３２は、学習済みの機械学習モデルＭ１を生成してよい。

【0047】

また、取得部２３１は、時系列データに対応する属性情報を含む時系列データを取得してよい。例えば、取得部２３１は、時系列データに対応する属性情報を含む時系列データとして、ダンス映像に対応するダンスの種類を示すラベルとダンス映像との組のデータセットを取得してよい。また、モデル生成部２３２は、属性情報を含む時系列データの特徴を示す特徴情報を潜在空間にマッピングするよう機械学習モデルＭ１を学習させてよい。例えば、モデル生成部２３２は、取得部２３１によって取得されたデータセットの特徴を示す特徴情報を潜在空間にマッピングするよう機械学習モデルＭ１を学習させてよい。また、モデル生成部２３２は、属性情報を含む時系列データの特徴を示す特徴情報の確率分布が正規分布に従うように機械学習モデルＭ１を学習させてよい。例えば、モデル生成部２３２は、取得部２３１によって取得されたデータセットの特徴を示す特徴情報の確率分布が正規分布に従うように機械学習モデルＭ１を学習させてよい。続いて、モデル生成部２３２は、学習済みの機械学習モデルＭ１の潜在空間にマッピングされた特徴情報を属性情報に応じたクラスタに分類してよい。例えば、モデル生成部２３２は、k-means法を用いて潜在空間にマッピングされた特徴情報同士の距離を算出することで、クラスタリングを行ってよい。なお、モデル生成部２３２は、k-means法の他にも、公知のクラスタリング技術を用いて、潜在空間にマッピングされた特徴情報を属性に応じたクラスタに分類してよい。例えば、モデル生成部２３２は、潜在空間にマッピングされた特徴情報を、属性情報が示すダンスの種類（例えば、ジャズダンス、バレエダンス、ヒップホップダンス等の種類）に応じたクラスタに分類してよい。

【0048】

また、機械学習モデルＭ１は、対象物を含む画像から対象物の姿勢を推定するよう学習された姿勢推定モデルを含んでよい。例えば、モデル生成部２３２は、公知の姿勢推定技術を用いて、ダンス映像からダンス映像に含まれる対象者の姿勢を推定するよう学習された姿勢推定モデルを生成してよい。

【0049】

また、機械学習モデルＭ１は、対象者の関節点を含む関節画像から関節点に対応する対象者の人物画像を生成するよう学習された画像変換モデルを含んでよい。例えば、モデル生成部２３２は、Pix2Pix、CYcleGAN、DiscoGAN、UNIT等の公知の画像変換モデルを用いて、対象者の関節点を含む関節画像から関節点に対応する対象者の人物画像を生成するよう画像変換モデルを学習させてよい。

【0050】

(配信部２３３)
配信部２３３は、モデル生成部２３２によって生成された機械学習モデルＭ１に関する情報を各利用者の情報処理装置１００に配信する。

【0051】

〔４．生成装置による情報処理の手順〕
図４は、実施形態に係る生成装置２０による情報処理手順を示すフローチャートである。図４に示すように、取得部２３１は、姿勢推定モデルを用いて、ダンス映像に含まれる対象者の関節点の座標を推定する（ステップＳ１１）。続いて、取得部２３１は、各関節点の座標に基づいて、関節角度の変化量の時系列データを生成する（ステップＳ１２）。続いて、モデル生成部２３２は、機械学習モデルＭ１のエンコーダを用いて、時系列データから特徴情報を生成する（ステップＳ１３）。続いて、モデル生成部２３２は、機械学習モデルＭ１のデコーダを用いて、特徴情報から時系列データを生成する（ステップＳ１４）。続いて、モデル生成部２３２は、エンコーダに入力される時系列データと、デコーダから出力される時系列データとの類似度が所定の閾値を超えるように機械学習モデルＭ１を学習させる（ステップＳ１５）。

【0052】

〔５．情報処理装置の構成〕
図５は、実施形態に係る情報処理装置１００の構成例を示す図である。情報処理装置１００は、通信部１１０と、記憶部１２０と、入力部１３０と、出力部１４０と、制御部１５０とを有する。

【0053】

（通信部１１０）
通信部１１０は、ＮＩＣやアンテナ等によって実現される。通信部１１０は、各種ネットワークと有線または無線で接続され、例えば、生成装置２０との間で情報の送受信を行う。

【0054】

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。具体的には、記憶部１２０は、各種プログラム（情報処理プログラムの一例）を記憶する。また、記憶部１２０は、機械学習モデルＭ１に関する情報を記憶する。

【0055】

（入力部１３０）
入力部１３０は、利用者から各種操作が入力される。例えば、入力部１３０は、タッチパネル機能により表示面（例えば出力部１４０）を介して利用者からの各種操作を受け付けてもよい。また、入力部１３０は、情報処理装置１００に設けられたボタンや、情報処理装置１００に接続されたキーボードやマウスからの各種操作を受け付けてもよい。例えば、入力部１３０は、利用者から画面に表示された利用者の特徴情報を加工する操作を受け付けてよい。

【0056】

（出力部１４０）
出力部１４０は、例えば、液晶ディスプレイや有機ＥＬ（Electro-Luminescence）ディスプレイ等によって実現される表示画面であり、各種情報を表示するための表示装置である。出力部１４０は、制御部１５０の制御に従って、各種情報を表示する。例えば、出力部１４０は、提供部１５３の制御に従って、潜在空間にマッピングされた特徴情報の画像を表示してよい。なお、情報処理装置１００にタッチパネルが採用される場合には、入力部１３０と出力部１４０とは一体化される。また、以下の説明では、出力部１４０を画面と記載する場合がある。

【0057】

（制御部１５０）
制御部１５０は、コントローラであり、例えば、ＣＰＵやＭＰＵ等によって、情報処理装置１００内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１５０は、コントローラであり、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現される。

【0058】

制御部１５０は、取得部１５１と、生成部１５２と、提供部１５３と、受付部１５４を機能部として有し、以下に説明する情報処理の作用を実現または実行してよい。なお、制御部１５０の内部構成は、図５に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、各機能部は、制御部１５０の機能を示したものであり、必ずしも物理的に区別されるものでなくともよい。

【0059】

（取得部１５１）
取得部１５１は、関節角度の変化量の時系列データに基づいて時系列データの特徴を示す特徴情報を生成するエンコーダと、特徴情報に基づいて時系列データを生成するデコーダと、を含む機械学習モデルＭ１を取得する。また、取得部１５１は、特徴情報の確率分布が正規分布に従うように学習された機械学習モデルＭ１を取得する。例えば、取得部１５１は、属性情報を含む時系列データの特徴を示す特徴情報の確率分布が正規分布に従うように学習された機械学習モデルＭ１を取得してよい。具体的には、取得部１５１は、生成装置２０から学習済みの機械学習モデルＭ１に関する情報を取得してよい。

【0060】

(生成部１５２)
生成部１５２は、利用者からダンス映像を受け付ける。具体的には、生成部１５２は、利用者自身のダンス映像（以下、利用者のダンス映像ともいう）を受け付けてよい。例えば、生成部１５２は、入力部１３０を介して、利用者から利用者のダンス映像（以下、第１のダンス映像ともいう）を受け付けてよい。例えば、生成部１５２は、第１のダンス映像として、利用者がジャズダンスを踊っている様子を撮影した映像を受け付けてよい。

【0061】

続いて、生成部１５２は、第１のダンス映像を受け付けた場合、姿勢推定モデルを用いて、第１のダンス映像に撮像された利用者の各関節点の座標をフレームごとに推定してよい。続いて、生成部１５２は、推定された各関節点の座標から各関節の関節角度のフレームごとの変化量（以下、第１の時系列データともいう）を算出してよい。このようにして、生成部１５２は、姿勢推定モデルを用いて、第１のダンス映像から利用者の各関節点の座標を推定し、推定した関節点の座標に基づいて、第１の時系列データを生成してよい。

【0062】

続いて、生成部１５２は、第１の時系列データを生成した場合、機械学習モデルＭ１のエンコーダを用いて、第１の時系列データを機械学習モデルの潜在空間に写像してよい。例えば、生成部１５２は、各関節の関節角度の初期角度と各関節の関節角度の変化量の第１の時系列データを入力情報として機械学習モデルＭ１のエンコーダに入力し、第１の特徴情報を生成してよい。続いて、生成部１５２は、生成した第１の特徴情報を機械学習モデルＭ１の潜在空間にマッピングしてよい。図６は、実施形態に係る潜在空間の一例について説明するための図である。図６の左側の図における点Ｐ１は、生成部１５２によって潜在空間にマッピングされた第１の特徴情報の位置を示す。図６の左側の図では、利用者から受け付けた第１のダンス映像がジャズダンスの映像なので、生成部１５２によって第１の特徴情報がジャズダンスのクラスタの位置にマッピングされる様子を示す。

【0063】

(提供部１５３)
提供部１５３は、機械学習モデルＭ１の潜在空間に関する情報を利用者に対して提供する。例えば、提供部１５３は、学習済みの特徴情報がマッピングされた潜在空間に関する情報を表示するよう出力部１４０を制御してよい。図６の左側の図に示す例では、提供部１５３は、学習済みの特徴情報とともに、生成部１５２によって生成された第１の特徴情報が点Ｐ１の位置にマッピングされた様子を示す潜在空間の画像Ｇ３を表示するよう出力部１４０を制御してよい。

【0064】

(受付部１５４)
受付部１５４は、利用者から潜在空間に対する操作を受け付ける。具体的には、受付部１５４は、利用者から潜在空間における潜在変数を変化させる操作を受け付けてよい。図６の右側の図に示す例では、受付部１５４は、潜在空間における潜在変数を第１の特徴情報を持つ値を示す点Ｐ１の位置から第２の特徴情報を持つ値を示す点Ｐ２の位置に変化させる操作を利用者から受け付けてよい。例えば、受付部１５４は、入力部１３０を介して、提供部１５３によって表示された潜在空間の画像Ｇ３に対する操作を受け付けてよい。受付部１５４は、潜在変数をジャズダンスのクラスタに属する第１の特徴情報を持つ値を示す点Ｐ１の位置からヒップホップダンスのクラスタに属する第２の特徴情報を持つ値を示す点Ｐ２の位置に変化させる操作を利用者から受け付けてよい。また、受付部１５４は、利用者によって変化させられた後の潜在変数の値に対応する第２の特徴情報を受け付けてよい。

【0065】

また、生成部１５２は、受付部１５４によって受け付けられた第２の特徴情報に基づいて、各関節の関節角度の変化量の第２の時系列データを生成してよい。例えば、生成部１５２は、受付部１５４によって受け付けられた第２の特徴情報に基づいて、潜在空間における潜在変数を第１の特徴情報を持つ値から第２の特徴情報を持つ値に変化させる。例えば、生成部１５２は、潜在空間における潜在変数を第１の属性情報に対応する第１の特徴情報を持つ値から第２の属性情報に対応する第２の特徴情報を持つ値に変化させてよい。具体的には、例えば、生成部１５２は、潜在変数をダンスの種類がジャズダンスであることを示すラベルに対応する特徴情報を持つ値から、ダンスの種類がヒップホップダンスであることを示すラベルに対応する特徴情報を持つ値まで変化させてよい。続いて、生成部１５２は、変化させた後の潜在変数の値に対応する第２の特徴情報に基づいて、機械学習モデルＭ１デコーダを用いて、第２の時系列データを生成してよい。

【0066】

続いて、生成部１５２は、機械学習モデルＭ１から出力された第２の時系列データと各関節の関節角度の初期角度に基づいて、フレームごとの各関節の関節角度を算出してよい。続いて、生成部１５２は、フレームごとの各関節の関節角度から、フレームごとの各関節点の座標を算出してよい。このようにして、生成部１５２は、利用者の各関節の関節角度の変化量の第２の時系列データに対応する関節の動きを含む映像（以下、関節映像）を生成してよい。

【0067】

続いて、生成部１５２は、生成した第２の時系列データに基づいて、第２の時系列データに対応する第２のダンス映像を生成してよい。具体的には、生成部１５２は、画像変換モデルを用いて、第２の時系列データから第２のダンス映像を生成してよい。例えば、生成部１５２は、画像変換モデルを用いて、第２の時系列データに対応する関節映像の各フレームをダンス中の人物を含む第２のダンス映像に変換してよい。図６に示すように、第２の特徴情報を示す点Ｐ２は、潜在空間におけるヒップホップダンスのクラスタの位置にマッピングされているので、第２の特徴情報に対応する第２のダンス映像は、ヒップホップダンスの映像である。このようにして、生成部１５２は、利用者によるジャズダンスのダンス映像（第１のダンス映像）から、利用者によるヒップホップダンスのダンス映像（第２のダンス映像）を生成してよい。

【0068】

〔６．情報処理装置による情報処理の手順〕
図７は、実施形態に係る情報処理装置１００による情報処理手順を示すフローチャートである。図７に示すように、取得部１５１は、事前学習済みの機械学習モデルＭ１を取得する（ステップＳ１０１）。生成部１５２は、取得部１５１によって取得された機械学習モデルＭ１を用いて、利用者のダンス映像に対応する第１の特徴情報を潜在空間にマッピングする（ステップＳ１０２）。提供部１５３は、第１の特徴情報をマッピングした潜在空間の情報を利用者に対して提供する（ステップＳ１０３）。受付部１５４は、潜在空間における潜在変数を変化させる操作を利用者から受け付ける（ステップＳ１０４）。生成部１５２は、受付部１５４によって受け付けられた変化後の潜在変数の値に対応する第２の特徴情報に基づいて、新たなダンス映像を生成する（ステップＳ１０５）。提供部１５３は、生成部１５２によって生成された新たなダンス映像を利用者に対して提供する（ステップＳ１０６）。

【0069】

〔７．変形例〕
上述した実施形態に係る処理は、上記実施形態以外にも種々の異なる形態にて実施されてよい。

【0070】

〔７－１．潜在空間について〕
上述した実施形態では、属性情報が、ダンス映像に含まれる人物が踊るダンスの種類である場合について説明したが、属性情報は、ダンスの種類に限られない。例えば、属性情報は、時系列データに対応するダンス映像に含まれる人物のダンスの習熟度、ダンスの特徴、または、ダンスを踊っている人物の生体情報を示す情報であってよい。例えば、属性情報は、ダンスの習熟度を示すスコアであってよい。例えば、ダンスの習熟度を示すスコアは、プロのダンサーがダンス映像に含まれるダンスの上手さを「１」～「５」までの５段階で評価し、ダンス映像に対して「１」～「５」までの数値を付与（例えば、ダンスが上手いほど大きい数値を付与）したものであってよい。また、属性情報は、ダンスの特徴を示すスコアであってよい。例えば、ダンスの特徴を示すスコアは、ダンスの習熟度を示すスコアと同様に、プロのダンサーがダンス映像に含まれるダンスの特徴（例えば、ダンスにおけるキレの有無）を数値によって評価し、ダンス映像に対して評価に相当する数値を付与したものであってよい。また、属性情報は、ダンスを踊っている人物の生体情報を示す数値であってよい。例えば、ダンス映像の撮影前（または、撮影中であってもよい）に生体センサを用いてダンスを踊る人物の生体情報（例えば、筋肉量）を取得する。そして、生体センサから取得した生体情報の数値をダンス映像に付与したものであってよい。

【0071】

図８は、変形例に係る潜在空間の一例について説明するための図である。図８の左側の図は、特徴情報と紐づいた属性情報が、ダンスの習熟度である場合を示す。例えば、生成部１５２は、潜在空間における潜在変数を第１の属性情報（例えば、ダンスが下手なことを示すラベル）に対応する第１の特徴情報を持つ値から第２の属性情報（例えば、ダンスが上手いことを示すラベル）に対応する第２の特徴情報を持つ値に変化させてよい。これにより、情報処理装置１００は、元のダンス映像に含まれる利用者のダンスよりも、利用者のダンスがより上手くなったダンス映像を生成することができる。また、情報処理装置１００は、利用者のダンスがより上手くなったダンス映像を利用者に対して提供することができる。

【0072】

また、図８の中央の図は、特徴情報と紐づいた属性情報が、ダンスのキレの有無である場合を示す。例えば、生成部１５２は、潜在空間における潜在変数を第１の属性情報（例えば、ダンスのキレがないことを示すラベル）に対応する第１の特徴情報を持つ値から第２の属性情報（例えば、ダンスのキレがあることを示すラベル）に対応する第２の特徴情報を持つ値に変化させてよい。これにより、情報処理装置１００は、元のダンス映像に含まれる利用者のダンスよりも、利用者のダンスがよりキレのあるダンスになったダンス映像を生成することができる。また、情報処理装置１００は、利用者のダンスがよりキレのあるダンスになったダンス映像を利用者に対して提供することができる。

【0073】

また、図８の右側の図は、特徴情報と紐づいた属性情報が、ダンスを踊っている人物の筋肉量である場合を示す。例えば、生成部１５２は、潜在空間における潜在変数を第１の属性情報（例えば、筋肉量が少ないことを示すラベル）に対応する第１の特徴情報を持つ値から第２の属性情報（例えば、筋肉量が多いことを示すラベル）に対応する第２の特徴情報を持つ値に変化させてよい。これにより、情報処理装置１００は、元のダンス映像に含まれる利用者の筋肉量よりも、利用者の筋肉量がより多くなったダンス映像を生成することができる。また、情報処理装置１００は、利用者の筋肉量がより多くなったダンス映像を利用者に対して提供することができる。

【0074】

〔７－２．利用者の身体の動きについて〕
上述した実施形態では、利用者の身体の動きを含む運動映像がダンス映像である場合について説明したが、運動映像はダンス映像に限られない。例えば、運動映像に含まれる利用者の身体の動きは、ダンス以外にも、リハビリテーション、スポーツ（例えば、フィギュアスケートなど）、または演技における動作であってよい。

【0075】

〔８．効果〕
上述したように、実施形態に係る情報処理装置（実施形態では情報処理装置１００）は、取得部（実施形態では取得部１５１）と生成部（実施形態では生成部１５２）を備える。取得部は、関節角度の変化に関する時系列データに基づいて時系列データの特徴を示す特徴情報を生成するエンコーダと、特徴情報に基づいて時系列データを生成するデコーダと、を含む機械学習モデルを取得する。生成部は、機械学習モデルの潜在空間を用いて、利用者の関節角度の変化に関する第１の時系列データから、利用者の関節角度の変化に関する第２の時系列データを生成する。

【0076】

これにより、情報処理装置は、機械学習モデルの潜在空間を用いることにより、利用者の第１の身体の動き（第１の運動ともいう）に対応する第１の時系列データから、潜在空間上の任意の値に対応した第２の時系列データへと変化させることができる。ここで、第２の時系列データは、第１の身体の動きとは異なる利用者の第２の身体の動き（以下、第２の運動）に対応する。すなわち、情報処理装置は、機械学習モデルの潜在空間を用いることにより、利用者の第１の運動に対応する第１の時系列データから、利用者の第１の運動を加工した利用者の第２の運動に対応する第２の時系列データへのモーフィングを実現可能にする。例えば、情報処理装置は、運動の種類に応じて分類された潜在空間を用いることにより、第１の運動に対応する第１の時系列データから第２の運動に対応する第２の時系列データへのモーフィングを実現可能にする。また、情報処理装置は、利用者の第１の運動を含む第１の運動映像から、第１の時系列データを生成することができる。また、情報処理装置は、第２の時系列データから、利用者の第２の運動を含む第２の運動映像を生成することができる。すなわち、情報処理装置は、利用者の第１の運動映像に基づいて、利用者が所望する運動映像の属性（例えば、運動の種類）に応じた新たな運動映像（例えば、第２の運動映像）を生成することができる。したがって、情報処理装置は、利用者の身体の動きを含む運動映像から任意の運動映像を生成可能とすることができる。また、情報処理装置は、利用者の身体の動きを含む運動映像から任意の運動映像を生成可能とすることができるため、持続可能な開発目標（ＳＤＧｓ）の目標９「産業と技術革新の基盤をつくろう」の達成に貢献できる。また、情報処理装置は、利用者が所望する運動映像の属性に応じた新たな運動映像を利用者に対して提供可能とすることができる。すなわち、情報処理装置は、利用者に対して新しいエンタテインメントを提供可能とすることができる。したがって、情報処理装置は、利用者に対して精神的な豊かさを提供可能とすることができる。

【0077】

また、取得部は、特徴情報の確率分布が正規分布に従うように学習された機械学習モデルを取得する。生成部は、第１の時系列データを潜在空間に写像し、潜在空間における潜在変数を潜在空間に写像された第１の時系列データに対応する第１の特徴情報を持つ値から第２の特徴情報を持つ値に変化させ、変化させた後の潜在変数の値に対応する第２の特徴情報に基づいて、第２の時系列データを生成する。

【0078】

これにより、情報処理装置は、潜在空間上に、運動映像の属性に応じた特徴情報のクラスタを生成することができる。また、情報処理装置は、利用者の第１の運動映像を第１の運動映像の第１の属性に応じた特徴情報のクラスタ（以下、第１の属性のクラスタともいう）の位置にマッピングすることができる。また、情報処理装置は、潜在変数を、第１の属性のクラスタに属する第１の特徴情報を持つ値から第２の属性のクラスタに属する第２の特徴情報を持つ値に変化させることができる。また、情報処理装置は、第２の属性のクラスタに属する第２の特徴情報に基づいて、第２の運動映像を生成することができる。

【0079】

また、時系列データは、時系列データに対応する属性情報を含む。取得部は、属性情報を含む時系列データの特徴を示す特徴情報の確率分布が正規分布に従うように学習された機械学習モデルを取得する。生成部は、潜在空間における潜在変数を第１の属性情報に対応する第１の特徴情報を持つ値から第２の属性情報に対応する第２の特徴情報を持つ値に変化させ、変化させた後の潜在変数の値に対応する第２の特徴情報に基づいて、第２の時系列データを生成する。

【0080】

これにより、情報処理装置は、潜在変数を、第１の属性のクラスタに属する第１の特徴情報を持つ値から第２の属性のクラスタに属する第２の特徴情報を持つ値に変化させることができる。また、情報処理装置は、第２の属性のクラスタに属する第２の特徴情報に基づいて、第２の運動映像を生成することができる。

【0081】

また、機械学習モデルは、対象物を含む画像から対象物の姿勢を推定するよう学習された姿勢推定モデルをさらに含む。生成部は、姿勢推定モデルを用いて、利用者の身体の動きを含む第１の運動映像から利用者の関節点の座標を推定し、推定した関節点の座標に基づいて、第１の時系列データを生成する。

【0082】

これにより、情報処理装置は、第１の運動映像に含まれる利用者の姿勢を適切に推定することができるので、利用者の身体の動きを示す情報を適切に生成することができる。

【0083】

また、生成部は、生成した第２の時系列データに基づいて、第２の時系列データに対応する利用者の身体の動きを含む第２の運動映像を生成する。

【0084】

これにより、情報処理装置は、利用者の身体の動きを含む第１の運動映像を加工した任意の身体の動きを含む第２の運動映像を生成可能とすることができる。

【0085】

また、機械学習モデルは、対象者の関節点を含む関節画像から関節点に対応する対象者の人物画像を生成するよう学習された画像変換モデルをさらに含む。生成部は、画像変換モデルを用いて、第２の時系列データから第２の運動映像を生成する。

【0086】

これにより、情報処理装置は、利用者の骨格モデルを肉付けした利用者の身体の動きを含む第２の運動映像を生成可能とすることができる。

【0087】

上述したように、実施形態に係る情報処理装置（実施形態では生成装置２０）は、取得部（実施形態では取得部２３１）とモデル生成部（実施形態ではモデル生成部２３２）を備える。取得部は、関節角度の変化に関する時系列データを取得する。モデル生成部は、時系列データに基づいて時系列データの特徴を示す特徴情報を生成するエンコーダと、特徴情報に基づいて時系列データを生成するデコーダと、を含む機械学習モデルを生成する。

【0088】

これにより、情報処理装置は、機械学習モデルの潜在空間を用いることにより、利用者の第１の身体の動き（第１の運動ともいう）に対応する第１の時系列データから、潜在空間上の任意の値に対応した第２の時系列データへと変化させることを可能とすることができる。すなわち、情報処理装置は、機械学習モデルの潜在空間を用いることにより、利用者の第１の運動に対応する第１の時系列データから、利用者の第１の運動を加工した利用者の第２の身体の動き（第２の運動ともいう）を示す第２の時系列データへのモーフィングを実現可能にする。例えば、情報処理装置は、運動の種類に応じて分類された潜在空間を用いることにより、第１の運動に対応する第１の時系列データから第２の運動に対応する第２の時系列データへのモーフィングを実現可能にする。また、情報処理装置は、利用者の第１の運動を含む第１の運動映像から、第１の時系列データを生成可能とすることができる。また、情報処理装置は、第２の時系列データから、利用者の第２の運動を含む第２の運動映像を生成可能とすることができる。すなわち、情報処理装置は、利用者の第１の運動映像に基づいて、利用者が所望する運動映像の属性（例えば、運動の種類）に応じた新たな運動映像（例えば、第２の運動映像）を生成可能とすることができる。したがって、情報処理装置は、利用者の身体の動きを含む運動映像から任意の運動映像を生成可能とすることができる。また、情報処理装置は、利用者の身体の動きを含む運動映像から任意の運動映像を生成可能とすることができるため、持続可能な開発目標（ＳＤＧｓ）の目標９「産業と技術革新の基盤をつくろう」の達成に貢献できる。また、情報処理装置は、利用者が所望する運動映像の属性に応じた新たな運動映像を利用者に対して提供可能とすることができる。すなわち、情報処理装置は、利用者に対して新しいエンタテインメントを提供可能とすることができる。したがって、情報処理装置は、利用者に対して精神的な豊かさを提供可能とすることができる。

【0089】

また、モデル生成部は、エンコーダに入力される時系列データと、デコーダから出力される時系列データとの類似度が所定の閾値を超えるように機械学習モデルを学習させる。

【0090】

これにより、情報処理装置は、機械学習モデルの精度を向上させることができる。

【0091】

また、モデル生成部は、特徴情報の確率分布が正規分布に従うように機械学習モデルを学習させる。

【0092】

これにより、情報処理装置は、潜在空間上に、運動映像の属性に応じた特徴情報のクラスタを生成可能とすることができる。

【0093】

また、取得部は、時系列データに対応する属性情報を含む時系列データを取得する。モデル生成部は、属性情報を含む時系列データの特徴を示す特徴情報の確率分布が正規分布に従うように機械学習モデルを学習させる。

【0094】

これにより、情報処理装置は、潜在空間上に、運動映像の属性に応じた特徴情報のクラスタを生成可能とすることができる。

【0095】

また、モデル生成部は、特徴情報を属性情報に応じたクラスタに分類する。

【0096】

これにより、情報処理装置は、利用者が所望する運動映像の属性（例えば、運動の種類）に関する情報を利用者に対して提供する際のユーザビリティを向上させることができる。

【0097】

また、属性情報は、時系列データに対応する運動映像に含まれる対象者の身体の動きの種類、対象者の身体の動きの習熟度、対象者の身体の動きの特徴、または、対象者の生体情報を示す情報である。

【0098】

これにより、情報処理装置は、利用者が所望する身体の動きの種類、身体の動きの習熟度、身体の動きの特徴、または、生体情報に応じた新たな運動映像を生成可能とすることができる。

【0099】

〔９．ハードウェア構成〕
また、上述してきた実施形態に係る生成装置２０や情報処理装置１００等の情報機器は、例えば図９に示すような構成のコンピュータ１０００によって実現される。以下、情報処理装置１００を例に挙げて説明する。図９は、情報処理装置１００の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を備える。

【0100】

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

【0101】

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、所定の通信網を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを所定の通信網を介して他の機器へ送信する。

【0102】

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを入出力インターフェイス１６００を介して出力装置へ出力する。

【0103】

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

【0104】

例えば、コンピュータ１０００が実施形態に係る情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１５０の機能を実現する。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。

【0105】

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

【0106】

〔１０．その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

【0107】

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、上述した実施形態では、生成装置２０と情報処理装置１００とが別々の装置である場合について説明したが、生成装置２０と情報処理装置１００とは、一体の装置であってもよい。生成装置２０と情報処理装置１００が一体の装置である場合、情報処理装置１００は、生成装置２０の機能を備えてよい。

【0108】

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

【符号の説明】

【0109】