特開2024-71015 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特開2024-71015情報処理装置、情報処理方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024071015

(43)【公開日】2024-05-24

(54)【発明の名称】情報処理装置、情報処理方法およびプログラム

(51)【国際特許分類】

G06T 7/73 20170101AFI20240517BHJP

G06T 7/00 20170101ALI20240517BHJP

【ＦＩ】

G06T7/73

G06T7/00 660Z

【審査請求】未請求

【請求項の数】20

【出願形態】ＯＬ

(21)【出願番号】P 2022181705

(22)【出願日】2022-11-14

(71)【出願人】

【識別番号】000002185

【氏名又は名称】ソニーグループ株式会社

(74)【代理人】

【識別番号】100140958

【弁理士】

【氏名又は名称】伊藤学

(74)【代理人】

【識別番号】100137888

【弁理士】

【氏名又は名称】大山夏子

(74)【代理人】

【識別番号】100154036

【弁理士】

【氏名又は名称】久保貴弘

(72)【発明者】

【氏名】西村悠

(72)【発明者】

【氏名】河野塁

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA02

5L096AA06

5L096CA02

5L096DA04

5L096EA39

5L096EA43

5L096FA09

5L096FA59

5L096FA60

5L096FA64

5L096FA67

5L096FA69

5L096JA03

(57)【要約】

【課題】ポーズ類似度の算出に係る演算負荷を低減する。
【解決手段】ユーザの各部位の位置情報を含むスケルトンデータを推定する推定部と、前記スケルトンデータに含まれる２以上のボーンの長さに基づき、少なくともスケール不変性および並進不変性を有するモーメント特徴量を算出する算出部と、を備える、情報処理装置。
【選択図】図２

【特許請求の範囲】

【請求項1】

ユーザの各部位の位置情報を含むスケルトンデータを推定する推定部と、
前記スケルトンデータに含まれる２以上のボーンの長さに基づき、少なくともスケール不変性および並進不変性を有するモーメント特徴量を算出する算出部と、
を備える、情報処理装置。

【請求項2】

前記算出部は、
複数のユーザの各々のスケルトンデータから算出された複数のモーメント特徴量に基づき、前記複数のユーザのポーズの類似度を算出する、
請求項１に記載の情報処理装置。

【請求項3】

前記算出部は、
複数のユーザの各々のスケルトンデータに含まれる各ボーンの長さに基づき、複数のモーメント特徴量を算出する、
請求項２に記載の情報処理装置。

【請求項4】

前記算出部は、
複数の動画において、対応フレーム毎に算出された複数のモーメント特徴量に基づき、前記対応フレーム毎の前記複数のユーザのポーズの類似度を算出する、
請求項３に記載の情報処理装置。

【請求項5】

前記算出部は、
複数の対応フレームにおいて算出された複数の類似度に基づき、合算類似度スコアを算出する、
請求項４に記載の情報処理装置。

【請求項6】

モーメント特徴量は、回転不変性を有する７または８の特徴量を含む、
請求項４に記載の情報処理装置。

【請求項7】

前記複数のユーザのポーズの類似度に基づくフィードバック情報を生成する生成部、
を更に備える、
請求項４に記載の情報処理装置。

【請求項8】

前記生成部は、
前記動画に含まれるユーザの各部位に対し、前記ユーザの各部位の長さに応じて変換された参照ボーンを含む他のユーザの参照スケルトンデータを重ね合わせた重畳画面を生成する、
請求項７に記載の情報処理装置。

【請求項9】

前記算出部は、
前記ボーンの両端の関節点ごとに推定された信頼性スコアに基づき、前記モーメント特徴量を算出する、
請求項２に記載の情報処理装置。

【請求項10】

前記算出部は、
前記信頼性スコアが所定値以上で推定された関節点から成るボーンの長さに基づき、前記モーメント特徴量を算出する、
請求項９に記載の情報処理装置。

【請求項11】

前記算出部は、
前記複数のモーメント特徴量の各々に、前記各々のモーメント特徴量の算出に用いたボーンの両端の関節点の前記信頼性スコアに基づく重み付け処理を実行し、重み付け処理が実行された複数のモーメント特徴量に基づき、前記複数のユーザのポーズの類似度を算出する、
請求項９に記載の情報処理装置。

【請求項12】

前記算出部は、
対象フレームから所定の期間にある各フレームの前記スケルトンデータに含まれる２以上のボーンの長さの平均値に基づき、前記対象フレームのモーメント特徴量を算出する、
請求項１１に記載の情報処理装置。

【請求項13】

前記算出部は、
前記複数のユーザのボーンの長さを補正するキャリブレーション処理により得られた補正ボーンの長さに基づき、前記モーメント特徴量を算出する、
請求項１２に記載の情報処理装置。

【請求項14】

前記生成部は、
前記複数のユーザのポーズの類似度に基づき、色情報を前記フィードバック情報として生成する、
請求項７に記載の情報処理装置。

【請求項15】

前記生成部は、
前記複数のユーザのボーン毎の類似度の大きさに基づき、各ボーンの類似度合いを示す色情報を生成する、
請求項１４に記載の情報処理装置。

【請求項16】

前記生成部は、
前記複数のユーザのポーズの類似度に基づき、文字情報を前記フィードバック情報として生成する、
請求項７に記載の情報処理装置。

【請求項17】

前記生成部は、
前記複数のユーザのポーズの類似度に基づき、音声情報を前記フィードバック情報として生成する、
請求項７に記載の情報処理装置。

【請求項18】

前記生成部に生成されたフィードバック情報および重畳画面情報を出力する出力部、
を更に備える、
請求項７に記載の情報処理装置。

【請求項19】

ユーザの各部位の位置情報を含むスケルトンデータを推定することと、
前記スケルトンデータに含まれる２以上のボーンの長さに基づき、少なくともスケール不変性および並進不変性を有するモーメント特徴量を算出することと、
を含む、コンピュータにより実行される情報処理方法。

【請求項20】

コンピュータに、
ユーザの各部位の位置情報を含むスケルトンデータを推定する推定機能と、
前記スケルトンデータに含まれる２以上のボーンの長さに基づき、少なくともスケール不変性および並進不変性を有するモーメント特徴量を算出する算出機能と、
を実現させる、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、情報処理装置、情報処理方法およびプログラムに関する。

【背景技術】

【0002】

近年、ユーザのポーズと、他のユーザ（例えば、お手本となるユーザ）のポーズと、の類似度を算出し、ユーザにフィードバックを行う技術が開発されている。例えば、特許文献１では、機械学習により得られたポーズの類似度を判別する判別モデルを用いて、映像に含まれる各ユーザのポーズの類似度を算出する技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特表２０２２－５３２７７２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし、特許文献１に記載の技術では、事前にデータの学習が必要となり、任意の動画への適用は困難である。更にニューラルネットワークによる判別モデルを用いるため、演算負荷が大きく、リアルタイムによる処理が困難になり得る。

【0005】

そこで、本開示では、ポーズ類似度の算出に係る演算負荷を低減することが可能な、新規かつ改良された情報処理装置、情報処理方法およびプログラムを提案する。

【課題を解決するための手段】

【0006】

本開示によれば、ユーザの各部位の位置情報を含むスケルトンデータを推定する推定部と、前記スケルトンデータに含まれる２以上のボーンの長さに基づき、少なくともスケール不変性および並進不変性を有するモーメント特徴量を算出する算出部と、を備える、情報処理装置が提供される。

【0007】

また、本開示によれば、ユーザの各部位の位置情報を含むスケルトンデータを推定することと、前記スケルトンデータに含まれる２以上のボーンの長さに基づき、少なくともスケール不変性および並進不変性を有するモーメント特徴量を算出することと、を含む、コンピュータにより実行される情報処理方法が提供される。

【0008】

また、本開示によれば、コンピュータに、ユーザの各部位の位置情報を含むスケルトンデータを推定する推定機能と、前記スケルトンデータに含まれる２以上のボーンの長さに基づき、少なくともスケール不変性および並進不変性を有するモーメント特徴量を算出する算出機能と、を実現させる、プログラムが提供される。

【図面の簡単な説明】

【0009】

【図1】本開示の一実施形態による情報処理システムを示す説明図である。

【図2】本開示に係る情報処理装置１０の機能構成の一例を説明するための説明図である。

【図3】スケルトンデータの推定に係る具体例を説明するための説明図である。

【図4A】本開示に係るモーメント特徴量の具体例を説明するための説明図である。

【図4B】本開示に係るモーメント特徴量の具体例を説明するための説明図である。

【図5】スケルトンデータの推定精度を低下させ得る要因の一例を説明するための説明図である。

【図6】信頼性スコアに基づくモーメント特徴量の算出に係る具体例を説明するための説明図である。

【図7】キャリブレーション処理の一例を説明するための説明図である。

【図8】本開示に係る第１のフィードバック例を説明するための説明図である。

【図9】本開示に係る第２のフィードバック例を説明するための説明図である。

【図10】本開示に係る第３のフィードバック例を説明するための説明図である。

【図11】本開示に係る情報処理装置１０の全体動作を示すフローチャートである。

【図12】本開示に係る情報処理装置１０の類似度算出処理を示すフローチャートである。

【図13】本開示の一実施形態に係る情報処理装置９０のハードウェア構成例を示すブロック図である。

【発明を実施するための形態】

【0010】

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

【0011】

また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
１．情報処理システムの概要
２．情報処理装置１０の機能構成例
３．詳細
３．１．全体概要
３．２．モーメント特徴量の算出
３．３．ポーズ類似度の算出
３．４．フィードバック例
４．動作処理例
５．作用効果例
６．ハードウェア構成例
７．補足

【0012】

＜＜１．情報処理システムの概要＞＞
ユーザの姿勢情報には、人間や動物等の動体の動きの情報を可視化するため、例えば身体の構造を示すスケルトン構造により表現されるスケルトンデータが用いられる。スケルトンデータは、部位の情報を含む。なお、スケルトン構造における部位は、例えば身体の末端部位や関節部位等に対応する。また、スケルトンデータは、部位間を結ぶ線分であるボーンを含んでもよい。スケルトン構造におけるボーンは、例えば人間の骨に相当し得るが、ボーンの位置や数は、必ずしも実際の人間の骨格と整合していなくてもよい。

【0013】

スケルトンデータにおける各部位の位置および姿勢は、ユーザの動きを検出するセンサにより取得可能である。例えば、撮像センサが取得した画像データの時系列データに基づいて、身体の各部位の位置および姿勢を検出する技術や、身体の部位にモーションセンサを装着し、モーションセンサにより取得された時系列データに基づいて各部位の位置および姿勢（モーションセンサの位置情報）を取得する技術が存在する。

【0014】

また、スケルトンデータの用途は多様である。例えば、スケルトンデータの時系列データは、スポーツにおいてフォーム改善に用いられたり、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）またはＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）等のアプリケーションに用いられたりしている。また、スケルトンデータの時系列データを用いて、ユーザの動きを模したアバター映像を生成し、当該アバター映像を配信することも行われている。

【0015】

本開示に係る一実施形態では、複数のユーザのポーズの類似度を算出する処理に際して、スケルトンデータが用いられる。具体的には、本開示に係る情報処理システムは、複数のユーザのポーズの類似度を算出する処理に際して、スケルトンデータを構成するボーンの長さに関する情報を用いる。これにより、類似度判定に係る演算負荷をより低減することを可能にする。

【0016】

まず、本開示の一実施形態として、ユーザの各部位の位置情報を含むスケルトンデータを推定し、当該スケルトンデータに含まれる２以上のボーンの長さに基づき、少なくともスケール不変性および並進不変性を有するモーメント特徴量を算出する情報処理システムの構成例を説明する。なお、以下では動体の一例として主に人間を説明するが、本開示の実施形態は、動物およびロボットなどの他の動体にも同様に適用可能である。

【0017】

図１は、本開示の一実施形態による情報処理システムを示す説明図である。図１に示すように、本開示の一実施形態による情報処理システムは、カメラ５と、情報処理装置１０と、を有する。

【0018】

（カメラ５）
本開示に係るカメラ５は、ユーザＵ１を撮影することで画像データを取得する。また、カメラ５は、撮影により得られた画像データを情報処理装置１０に出力する。ここでの、画像データとは、主に複数のフレームからなる動画像のデータが想定されるが、１フレームからなる静止画像のデータであってもよい。

【0019】

（情報処理装置１０）
本開示に係る情報処理装置１０は、ユーザＵ１の各部位の位置情報を含むスケルトンデータを推定する。また、情報処理装置１０は、推定したスケルトンデータに含まれる２以上のボーンの長さに基づき、少なくともスケール不変性および並進不変性を有するモーメント特徴量を算出する。スケルトンデータの推定およびモーメント特徴量の算出に関する詳細は後述する。

【0020】

また、情報処理装置１０は、ユーザＵ１と、他のユーザと、のポーズの類似度を算出し、当該算出結果に応じたフィードバック情報を生成する。

【0021】

また、情報処理装置１０は、図１に示すように、ユーザＵ１を含む映像Ｃ１を表示する。また、情報処理装置１０は、図１に示すように、他のユーザを含む映像Ｃ２を併せて表示してもよい。更に、情報処理装置１０は、フィードバック情報を映像または音声として出力してもよい。

【0022】

ユーザＵ１は、情報処理装置１０により表示される自らの映像Ｃ１と、他のユーザ（例えば、お手本となるユーザ）の映像Ｃ２を確認しつつ、多種多様な動作を行う。例えば、あるユーザＵ１がダンスの練習を行う場合、ユーザＵ１は、他のユーザの一例としてダンス講師を含む映像Ｃ２と、自らの映像Ｃ１を確認しつつ、ダンスを練習することが可能である。このように、ユーザがダンス講師の動きを再現しつつ動作の練習をすることで、ユーザのダンスの上達速度が上昇され得る。

【0023】

なお、図１では、情報処理装置１０として設置型の装置を示しているが、本開示に係る情報処理装置１０は係る例に限定されない。情報処理装置１０は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、スマートフォン、タブレット端末またはサーバ等の他の装置であってもよい。

【0024】

以上、本開示に係る情報処理システムの概要を説明した。続いて、図２を参照し、情報処理装置１０の機能構成の具体例を順次説明する。

【0025】

＜＜２．情報処理装置１０の機能構成例＞＞
図２は、本開示に係る情報処理装置１０の機能構成の一例を説明するための説明図である。本開示に係る情報処理装置１０は、図２に示すように、操作表示部１１０と、音声出力部１２０と、通信部１３０と、記憶部１４０と、制御部１５０と、を備える。

【0026】

＜操作表示部１１０＞
本開示に係る操作表示部１１０は、ユーザの操作を受け付ける操作部としての機能と、後述する生成部１５５により生成されたフィードバック情報および重畳画面を表示する表示部としての機能を包含する。フィードバック情報および重畳画面の具体例については後述する。また、操作表示部１１０は、カメラ５の撮影により得られた画像データに含まれる図１に示したユーザの映像Ｃ１と、後述する通信部１３０により得られた画像データに含まれる他のユーザの映像Ｃ２と、を表示してもよい。なお、操作表示部１１０は、出力部の一例である。

【0027】

操作部としての機能は、例えば、タッチパネル、キーボードまたはマウスにより実現され得る。

【0028】

また、表示部としての機能は、例えば、タッチパネル、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置により実現され得る。

【0029】

なお、情報処理装置１０は、操作部および表示部の機能を一体化した構成としているが、操作部および表示部の機能を分離した構成としてもよい。また、情報処理装置１０は、必ずしも操作部の機能を包含する構成を有していなくてもよい。

【0030】

＜音声出力部１２０＞
本開示に係る音声出力部１２０は、後述する生成部１５５により生成されたフィードバック情報を出力する音声出力機能を包含する。また、音声出力部１２０は、後述する通信部１３０が他の装置から受信した音声データを出力してもよい。なお、音声出力部１２０は、出力部の一例である。

【0031】

音声出力部１２０としての機能は、例えば、スピーカ、ヘッドホン、イヤフォン等の各種装置により実現され得る。

【0032】

なお、本明細書では、操作表示部１１０および音声出力部１２０が出力部である一例を主に説明するが、情報処理装置１０は、操作表示部１１０または音声出力部１２０のいずれか一方のみを出力部として備えていてもよい。

【0033】

＜通信部１３０＞
本開示に係る通信部１３０は、ネットワークを介して、他の装置と各種情報を含む信号を送信または受信する。例えば、通信部１３０は、カメラ５によりユーザＵ１を撮影して取得された画像データを、他の装置に送信してもよい。また、通信部１３０は、他の装置が有するカメラにより他のユーザを撮影して取得された画像データを、当該他の装置から受信してもよい。ここでの、他の装置とは、例えば情報処理装置１０と同一の機能構成を有する装置であってもよい。

【0034】

また、通信部１３０は、情報処理装置１０が備える図示しないマイクにより得られた音声データを他の装置に送信してもよい。また、通信部１３０は、他の装置が有するマイクにより得られた音声データを受信してもよい。

【0035】

また、通信部１３０は、後述する類似度、類似度スコアまたは合算類似度スコア等の各種ポーズ類似度に関する情報を、他のユーザが利用する他の装置に送信してもよい。他のユーザがダンス講師であり、ユーザが生徒である場合、他の装置の操作表示部がポーズ類似度に関する情報をダンス講師にフィードバックすることで、当該ダンス講師は、生徒のダンスの出来具合を確認しつつ、ダンスの授業を進められ得る。

【0036】

＜記憶部１４０＞
本開示に係る記憶部１４０は、ソフトウェアおよび各種データを保持する。例えば、記憶部１４０は、画像データに含まれる複数のフレームの各々から得られた類似度スコアを保持する。

【0037】

＜制御部１５０＞
本開示に係る制御部１５０は、情報処理装置１０の動作全般を制御する。本開示に係る制御部１５０は、図２に示すように、推定部１５１と、算出部１５３と、生成部１５５と、を備える。

【0038】

（推定部１５１）
本開示に係る推定部１５１は、ユーザの各部位の位置情報を含むスケルトンデータを推定する。スケルトンデータには、ユーザの各部位の姿勢情報が更に含まれ得る。ここで、図３を参照し、スケルトンデータの推定に係る具体例を説明する。

【0039】

図３は、スケルトンデータの推定に係る具体例を説明するための説明図である。推定部１５１は、例えば、カメラ５により取得された画像データに基づき、スケルトン構造における各部位の位置情報および姿勢情報を含むスケルトンデータＵＳを取得する。

【0040】

例えば、推定部１５１は、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）等の機械学習を用いて、ユーザＵ１のスケルトンデータＵＳを生成してもよい。より具体的には、推定部１５１は、例えば、人物を撮影して取得された画像データと、スケルトンデータの組を教師データとする機械学習により得られた推定器を用いて、ユーザＵ１のスケルトンデータＵＳを生成してもよい。但し、推定部１５１によるスケルトンデータＵＳの推定方法は係る例に限定されない。

【0041】

なお、スケルトンデータＵＳには、部位の情報に加え、ボーンの情報（位置情報、姿勢情報、骨格特徴情報等）も含まれる。例えば、スケルトンデータＵＳには、左手Ｋ１および左肘Ｋ２を繋ぐボーンＢ１と、左肘Ｋ２および左肩Ｋ３を繋ぐボーンＢ２と、が含まれ得る。このように、スケルトンデータＵＳは、複数の部位Ｋと、当該複数の部位Ｋを繋ぐ複数のボーンＢとで構成される。

【0042】

なお、以下の説明では、部位を関節点と称する場合があるが、ここでの、関節点とは、人間が有する実際の関節に対応していなくてもよい。例えば、関節点には、実際の関節とは異なる頭ＫＡが含まれてもよい。また、関節点は、頭ＫＡに含まれる目の位置に設けられてもよいし、左手Ｋ１および左肘Ｋ２の間に更に複数の関節点が設けられてもよい。このように、スケルトンデータＵＳがユーザＵ１の形状を保持可能であれば、任意の位置に関節点およびボーンが設けられてもよい。

【0043】

なお、図３では、ユーザＵ１の全身のスケルトンデータＵＳを示しているが、推定部１５１は、必ずしも全身のスケルトンデータＵＳを推定する必要はなく、ユースケースによって必要に応じた部位のみ（例えば、上半身または手のみ等）のスケルトンデータＵＳを推定してもよい。

【0044】

（算出部１５３）
本開示に係る算出部１５３は、推定部１５１により推定されたスケルトンデータに含まれる２以上のボーンの長さに基づき、少なくともスケール不変性および並進不変性を有するモーメント特徴量を算出する。

【0045】

また、算出部１５３は、スケール不変性および並進不変性に加え、更に回転不変性を有するモーメント特徴量を算出してもよい。各モーメント特徴量の詳細については後述する。

【0046】

また、算出部１５３は、複数のユーザの各々のスケルトンデータから算出された複数のモーメント特徴量に基づき、ポーズの類似度を算出してもよい。例えば、算出部１５３は、あるポーズを行うユーザのスケルトンデータから算出されたモーメント特徴量と、ユーザと同じポーズを行う他のユーザのスケルトンデータから算出されたモーメント特徴量と、に基づき、ユーザと他のユーザが行うポーズの類似度を算出する。

【0047】

（生成部１５５）
本開示に係る生成部１５５は、複数のユーザのポーズの類似度に基づくフィードバック情報を生成する。詳細は後述するが、フィードバック情報には、例えば色情報、文字情報または音情報が含まれる。

【0048】

また、生成部１５５は、動画に含まれるユーザの各部位に対し、当該ユーザの各部位の長さに応じて変換された参照ボーンを含む他のユーザの参照スケルトンデータを重ね合わせた重畳画面を生成してもよい。

【0049】

以上、本開示に係る情報処理装置１０の機能構成の一例を説明した。続いて、図４～図１０を参照し、本開示に係る情報処理システムの詳細について順次説明する。

【0050】

＜＜３．詳細＞＞
＜３．１．全体概要＞
あるユーザは、ダンス、ヨガ、フィットネス、スポーツおよびリハビリ等の動作を練習する際に、お手本となる他のユーザのポーズ（例えば、動きおよび体勢）を参考にし、当該他のユーザのポーズに自らのポーズが近づくように練習することで上達を図る場合がある。

【0051】

このような場合、お手本となる他のユーザのポーズに対するユーザのポーズの類似度（以下では、ポーズ類似度と表現する場合がある。）を当該ユーザにフィードバックすることで、ユーザは、目標とするポーズ（即ち、他のユーザのポーズ）にどの程度近づいているかを定量的に把握することが可能になり、動作の習得に係る上達速度が早められ得る。

【0052】

ここで、ユーザによっては、練習および習得したい動作が異なり得る。そのため、任意の動作（を含む動画）に対応するポーズ類似度の算出方法が望ましい。

【0053】

また、ユーザを撮影するカメラの位置および姿勢と、お手本となる他のユーザを撮影するカメラの位置および姿勢と、を完全に一致させることは困難になり得る。そのため、カメラの位置および姿勢のズレに影響を受けないポーズ類似度の算出方法が望ましい。

【0054】

また、リアルタイムでポーズ類似度をユーザにフィードバックすることが可能であれば、ユーザの動作習得に係る上達速度が早められ得る。

【0055】

そこで、本開示に係る情報処理装置１０による類似度算出処理は、任意の動作（を含む動画）に対応し、且つ、カメラの位置および姿勢にも依存せず、更に、リアルタイムでポーズ類似度のフィードバックを可能とする。以下では、その各要件を満たすことを可能にする処理の詳細について、順次説明する。

【0056】

＜３．２．モーメント特徴量の算出＞
本開示に係る情報処理装置１０は、ポーズ類似度の算出に際して、少なくともスケール不変性および並進不変性を有するモーメント特徴量を用いることを特徴とする。本開示に係るモーメント特徴量は、更に、回転不変性を有していてもよい。

【0057】

図４Ａおよび図４Ｂは、本開示に係るモーメント特徴量の具体例を説明するための説明図である。スケール不変性、並進不変性および回転不変性を有するモーメント特徴量の一例としてＨｕモーメントが存在する。

【0058】

Ｈｕモーメントは、画像に含まれる形状の類似度判定に活用できる特徴量である。例えば、ある形状の平行移動、スケールおよび回転に対して不変な量をＨｕモーメントとして抽出することが可能である。

【0059】

例えば、図４Ａに示す画像と、図４Ｂに示す画像と、はそれぞれ同じ三角形の形状を有している。ここで、図４Ａに示す三角形と、図４Ｂに示す三角形と、はそれぞれ画像内の位置、スケールおよび回転方向が異なるが、三角形の形状が同一であることから当該画像から算出されるＨｕモーメントは、同一の量となる。

【0060】

そこで、本開示に係る情報処理装置１０は、Ｈｕモーメントをポーズ情報に適用することで、平行移動、スケールおよび回転に対して不変なポーズの特徴量を算出する。これにより、ユーザを撮影するカメラの位置および姿勢の影響を受けずに、ポーズ類似度を算出することが可能になる。

【0061】

また、機械学習等と比較して計算負荷が小さくなるため、デバイスに対する制限を減らすことが可能になり、計算負荷の低減から更に、リアルタイムでポーズ類似度を算出することが可能になり得る。以下では、Ｈｕモーメントの算出に係る具体的な方法について順次説明する。まずは、ポーズ情報に適用するモーメント特徴量の算出方法の説明に先立ち、一般的なモーメント特徴量の算出に係る詳細を説明する。

【0062】

・一般的なモーメント特徴量
（素モーメント）
まず、素モーメントＭ_ｉｊは、下記数式（１）により算出される。ここで、ｘは二次元画像のｘ座標であり、ｙは二次元画像のｙ座標である。Σには、二次元画像の全てのピクセルが順に代入される。また、Ｉは、二値画像の正規数値（１ｏｒ０）であり、形状のあるピクセルを１とし、形状のないピクセルを０とする。例えば、画像から特徴点を抽出し、抽出された特徴点を２値画像変換することで、形状のあるピクセルと形状のないピクセルが判別され得る。

【0063】

【数1】

【0064】

ここで、形状のあるピクセルのｘ軸の重心ｘ_ｃおよびｙ軸の重心ｙ_ｃは、それぞれ下記数式（２）により算出される。

【0065】

【数2】

【0066】

（中心モーメント）
中心モーメントＣ_ｉｊは、並進不変性を有するモーメント特徴量である。中心モーメントＣ_ｉｊは、下記数式（３）により算出される。ここで、Ｃ_００は、形状のあるピクセルの合計値であり、換言すると形状のあるピクセルの面積に相当する。

【0067】

【数3】

【0068】

（正規中心モーメント）
正規中心モーメントＲ_ｉｊは、スケール不変性および並進不変性を有するモーメント特徴量である。正規中心モーメントＲ_ｉｊは、下記数式（４）により算出される。

【0069】

【数4】

【0070】

（Ｈｕモーメント）
ＨｕモーメントＩ_１～Ｉ_７は、回転不変性、スケール不変性および並進不変性を有するモーメント特徴量である。ＨｕモーメントＩ_１～Ｉ_７は、下記数式（５）～（１１）により算出される。また、ＨｕモーメントＩ_１～Ｉ_７を補足する補足式Ｉ_８は、下記数式（１２）により算出される。

【0071】

【数5】

【0072】

【数6】

【0073】

【数7】

【0074】

【数8】

【0075】

【数9】

【0076】

【数10】

【0077】

【数11】

【0078】

【数12】

【0079】

以上、一般的なモーメント特徴量の算出方法について説明した。上述した一般的なモーメント特徴量の算出方法では、二次元画像内の全てのピクセルの数値を用いて、素モーメント、中心モーメント、正規中心モーメントおよびＨｕモーメント等の各種モーメント特徴量が算出される。

【0080】

このような一般的なモーメント特徴量をポーズ情報に適用すると、例えば、各ユーザの形状（例えば、体格）が異なっている場合に、両ユーザが同じポーズをしていても同一の量ではないＨｕモーメントが算出され得る。そのため、このようなユーザ間で形状が異なることが原因で、ポーズ類似度も低く算出され得る。また、上述した例では、全てのピクセルの数値を用いてモーメント特徴量が算出されるため、情報処理装置１０の計算負荷が大きくなり得る。

【0081】

そこで、本開示に係るモーメント特徴量は、ポーズ類似度の算出に係るユーザの体格依存性を減らし、更に、計算負荷を減少させることを特徴とする。より具体的には、本開示に係る情報処理装置１０は、モーメント特徴量の算出に際して、全てのピクセルではなく、ユーザのスケルトンデータを構成する各ボーン（各関節点）が位置するピクセルの数値のみを用いる。

【0082】

・ポーズ情報に適用するモーメント特徴量
ポーズ情報に適用するモーメント特徴量の算出式は、正規中心モーメントを算出する数式（４）を除いて、上述した数式（１）～（１２）と同じであるため、重複する詳細な説明は省略する。但し、数式（１）～（３）のｘは二次元画像に含まれるボーンの各関節点のｘ座標に変更され、ｙは二次元画像に含まれるボーンの各関節点のｙ座標に変更される。また、Σには、二次元画像に含まれるボーンの全ての関節点が順に代入される。

【0083】

正規中心モーメントを算出する数式（４）は、下記数式（１３）に置き換えられる。数式（１３）は、数式（４）の形状のあるピクセルの面積の長さ成分（即ち、面積Ｃ_００の平方根）を、ボーンの長さＬに置き換えた式である。また、数式（１）～（３）と同様に、数式（１３）におけるｘは二次元画像に含まれるボーンの各関節点のｘ座標であり、ｙは二次元画像に含まれるボーンの各関節点のｙ座標である。また、Σには、二次元画像に含まれるボーンの全ての関節点が順に代入される。

【0084】

【数13】

【0085】

ここで、ボーンの長さＬは、下記数式（１４）により算出される。数式（１４）における、ｐ、ｑは、ボーンの関節点同士を結ぶ組合せであり、必要な関節点が任意に選択されてもよい。なお、図３に示すスケルトンデータＵＳの一例では、ボーンの関節点同士を結ぶ組合せは、人間の形を構成する１４本からなる。

【0086】

【数14】

【0087】

以上で説明した、本開示に係るポーズ情報に適用するモーメント特徴量によれば、骨格の情報を用いるため、ユーザ間の形状（体格）の違いによる影響を抑制することが可能になり、更に、モーメント特徴量の算出に用いるピクセル数を減らすことで情報処理装置１０の計算負荷が減らされ得る。

【0088】

以上、本開示に係る算出部１５３のモーメント特徴量の算出に係る詳細を説明した。続いて、上述したモーメント特徴量を用いた類似度算出に係る詳細を説明する。

【0089】

＜３．３．ポーズ類似度の算出＞
算出部１５３は、あるポーズを行うユーザのスケルトンデータ、および当該ポーズと同じポーズを行う他のユーザのスケルトンデータに基づき、各モーメント特徴量を算出し、当該算出した各モーメント特徴量からポーズ類似度を算出する。以下の説明では、ユーザのスケルトンデータから算出されたモーメント特徴量をユーザ特徴量と表現し、他のユーザのスケルトンデータから算出されたモーメント特徴量をお手本特徴量と表現する場合がある。

【0090】

例えば、算出部１５３は、複数の動画において、対応フレーム毎に算出された複数のモーメント特徴量に基づき、前記対応フレームごとの複数のユーザのポーズの類似度を算出する。ここでの対応フレームとは、ある同一の動作を行うフレームであり、例えばユーザの画像データおよび他のユーザの画像データを時刻同期させた後に時刻が対応しているフレームのペアを示す。

【0091】

モーメント特徴量がＨｕモーメントＩ（補足式を含む。）である場合、ユーザ特徴量Ｉ^ａは、Ｉ_１ ^ａ～Ｉ_８ ^ａからなり、お手本特徴量Ｉ^ｂは、Ｉ_１ ^ｂ～Ｉ_８ ^ｂからなる。

【0092】

算出部１５３は、下記数式（１５）～（１７）のいずれかにより、類似度Ｄを算出してもよい。

【0093】

【数15】

【0094】

【数16】

【0095】

【数17】

【0096】

ここで、Ｈｎは、対数スケールの値であり、下記数式（１８）により算出される。

【0097】

【数18】

【0098】

但し、類似度Ｄは上述した例に限定されず、例えばｃｏｓ類似度など、用途に合わせて変更されてもよい。また、回転に対して不変性を無くしたい場合等においては、数式（１８）におけるＨｕモーメントＩの代わりに、正規中心モーメントＲが代入されてもよい。

【0099】

また、上述した数式（１５）～（１７）では、必ずしも数式（１２）に示したＨｕモーメントの補足式Ｉ_８を用いなくてもよい。この場合、数式（１５）～（１７）は、ｎ＝１～７の数列式で表せられる。

【0100】

また、算出部１５３は、算出した類似度Ｄを、０～１までの範囲に変換した類似度スコアｓに変換してもよい。ここでの類似度スコアｓとは、最も類似度が高い場合を１とし、下記数式（１９）および（２０）により算出される。

【0101】

【数19】

【0102】

【数20】

【0103】

ここで、数式（１９）におけるｋと、数式（２０）におけるｗ_１、ｗ_２と、はそれぞれ任意設定パラメータであり、適宜設定されてもよい。また、類似度スコアｓの算出式は、数式（１９）または（２０）に限定されない。

【0104】

算出部１５３は、上述したようなスケルトンデータの推定から類似度スコアｓの算出に係る各処理を、画像データの各フレームで行い、各フレームの類似度スコアｓを記憶部１４０に保存してもよい。そして、算出部１５３は、画像データの全てのフレーム（或いは類似度評価の対象となる複数のフレーム）で算出された類似度スコアｓに基づき、合算類似度スコアを算出してもよい。

【0105】

例えば、算出部１５３は、複数のフレームで算出された類似度スコアｓの平均値を、合算類似度スコアとして算出してもよい。これにより、動画に含まれる一連の動作の総合評価を、合算類似度スコアとしてユーザにフィードバックすることが可能になり得る。

【0106】

以上、モーメント特徴量の算出およびポーズ類似度の算出等の各種処理について説明した。但し、モーメント特徴量の算出方法およびポーズ類似度の算出方法は上述した例に限定されない。各種算出処理の内容は、ユースケースに応じて適宜変形されてもよい。

【0107】

例えば、モーメント特徴量の算出には、必ずしも全てのボーンを用いなくてもよく、少なくとも２以上のボーンが用いられればよい。例えば、上半身のポーズ類似度を算出する場合、上半身のみのボーンと、当該上半身のボーンを構成する関節点の情報を用いてモーメント特徴量が算出されてもよい。

【0108】

また、算出部１５３は、ユーザの全身のポーズ類似度を算出するのではなく、手指のような一部位の詳細なボーン（例えば、実際の指の関節から成るボーン）の長さからモーメント特徴量を算出し、当該一部位のポーズ類似度を算出してもよい。

【0109】

また、算出部１５３は、Ｈｕモーメント等のモーメント特徴量を、３次元へ拡張することで、３次元ポーズの類似度を算出してもよい。

【0110】

また、算出部１５３は、ユーザと、他のユーザの二人のポーズ類似度ではなく、３以上のユーザのポーズ類似度を算出してもよい。この場合、算出部１５３は、ある基準となるユーザに対する他の複数ユーザの各ポーズの類似度をポーズ類似度として算出してもよいし、各ユーザに対するポーズの類似度の平均値をポーズ類似度として算出してもよい。

【0111】

また、複数のユーザは、それぞれ別々のカメラ５により撮影されてもよいし、同一のカメラ５により撮影されてもよい。同一のカメラ５により複数のユーザが撮影された場合、推定部２５１は、同一の画像データから、複数のユーザの各々のスケルトンデータを推定してもよい。そして、算出部２５３は、複数のユーザのスケルトンデータに基づき、当該複数のユーザのポーズのリンク具合をポーズ類似度として算出してもよい。

【0112】

また、ユーザの使用環境によっては、カメラ５の撮影により得られた画像データから推定されるユーザのスケルトンデータの推定精度が低下する場合等も想定され得る。

【0113】

図５は、スケルトンデータの推定精度を低下させ得る要因の一例を説明するための説明図である。例えば、図５に示すようにカメラ５の画角Ｖ内にユーザの脚部ＤＡが収まっていないと、ユーザの脚部ＤＡのボーンおよび関節点の推定精度が低下され得る。また、ユーザが背景と同化してしまうことで、ユーザのボーンおよび関節点の推定精度が低下され得る。

【0114】

そこで、推定部２５１は、カメラ５により取得された画像データに基づき、関節点の信頼性スコアを更に推定してもよい。ここでの信頼性スコアとは、関節点の推定値の信頼性を示す指標であり、推定値の信頼性が高いほど、信頼性スコアも高く推定される。例えば、推定部２５１は、図５に示すようにカメラ５の画角Ｖ内にユーザの脚部ＤＡが収まっていない場合、他の関節点と比較して脚部ＤＡの関節点の信頼性スコアを低く推定する。

【0115】

そして、算出部２５３は、ボーンの両端の関節点ごとに推定された信頼性スコアに基づき、モーメント特徴量を算出してもよい。

【0116】

図６は、信頼性スコアに基づくモーメント特徴量の算出に係る具体例を説明するための説明図である。算出部１５３は、例えば、信頼性スコアが所定値以上で推定された関節点から成るボーンの長さに基づき、モーメント特徴量を算出してもよい。

【0117】

例えば、図６に示すユーザのスケルトンデータにおいて、右足の関節点ＣＫ１の信頼性スコアが所定値未満で推定された場合、算出部１５３は、右足の関節点ＣＫ１から成るボーンＣＢ１を除外した各ボーンの長さに基づき、モーメント特徴量を算出してもよい。

【0118】

更に、ポーズ類似度を算出する対象である他のユーザのスケルトンデータにおいて、左手の関節点ＣＫ２の信頼性スコアが所定値未満で推定された場合、算出部１５３は、右足の関節点ＣＫ１から成るボーンＣＢ１と、左手の関節点ＣＫ２から成るボーンＣＢ２と、を除外した各ボーンの長さに基づき、モーメント特徴量を算出してもよい。

【0119】

また、算出部１５３は、ユーザのスケルトンデータの各関節点と、他のユーザのスケルトンデータの各関節点と、で信頼性スコアの小さい方を採用し、採用した信頼性スコアに基づく重み付け処理を実行してもよい。そして、算出部１５３は、重み付け処理が実行された複数のモーメント特徴量に基づき、ユーザおよび他のユーザのポーズ類似度を算出してもよい。

【0120】

より具体的には、算出部１５３は、下記数式（２１）または（２２）により、重み付け処理を実行してもよい。ここで、ｃは信頼性スコアであり、ｃ^ａは、ユーザ側の信頼性スコアを示し、ｃ^ｂは他のユーザ側の信頼性スコアを示す。数式（２１）、（２２）に示す算出例では、ユーザ側の信頼性スコアｃ^ａおよび他のユーザ側の信頼性スコアｃ^ｂから、より小さい信頼性スコアを採用して重み付けが行われる。

【0121】

【数21】

【0122】

【数22】

【0123】

また、本開示に係るＨｕモーメントは、並進、スケールおよび回転に対する不変性を有するがユーザ間の骨格の差異に影響を受ける。例えば、ユーザと、他のユーザと、では、骨格の違いから各ボーンの長さが異なり得る。このように、ユーザ間でボーンの長さが異なると、両ユーザが同じポーズをしていた場合であっても、モーメント特徴量が同一の量にならない場合がある。

【0124】

そこで、本開示に係る算出部１５３は、複数のユーザのボーンの長さを補正するキャリブレーション処理により得られた補正ボーンの長さに基づき、モーメント特徴量を算出してもよい。

【0125】

図７は、キャリブレーション処理の一例を説明するための説明図である。例えば、キャリブレーション処理の事前準備として、複数のユーザは、図７に示すように大の字で立つ。この際に、推定部１５１は、複数のユーザの各関節点と、当該関節点を繋ぐボーンを含むスケルトンデータをそれぞれ推定する。なお、複数のユーザの正確なスケルトンデータが推定可能であれば、事前準備で複数のユーザは必ずしも大の字に立つ必要はない。また、ここでの複数のユーザとは、左側のユーザと、右側の他のユーザと、が含まれる。

【0126】

例えば、算出部１５３は、ユーザのスケルトンデータの全ボーンの長さに対して、各ボーンの割合を算出する。更に、算出部１５３は、他のユーザのスケルトンデータの全ボーンの長さに対して、各ボーンの割合を算出する。

【0127】

そして、算出部１５３は、他のユーザのスケルトンデータのボーンの長さに合わせて、ユーザのスケルトンデータのボーンの長さを調整してもよい。または、算出部１５３は、ユーザのスケルトンデータのボーンの長さに合わせて、他のユーザのスケルトンデータのボーンの長さを調整してもよい。

【0128】

より具体的な例を挙げると、図７に示すユーザのスケルトンデータの右肩から右肘までのボーンの長さＬ_１ ^ａを、他のユーザのスケルトンデータの右肩から右肘までのボーンの長さＬ_１ ^ｂに合わせて調整する場合、算出部１５３は、下記数式（２３）により、ボーンの長さＬ_１ ^ａを調整してもよい。

【0129】

【数23】

【0130】

ここで、Ｌ_１ ^ａ´は、他のユーザのボーンの長さに合わせてキャリブレーション処理が実行された後のユーザのスケルトンデータの右肩から右肘までのボーンの長さであり、Ｌ^ａは、ユーザのスケルトンデータの全ボーンの長さであり、Ｌ^ｂは、他のユーザのスケルトンデータの全ボーンの長さである。

【0131】

このようなキャリブレーション処理を各ボーンで実行することで、算出部１５３は、ユーザ間の骨格の違いに依存しないモーメント特徴量を算出し得る。

【0132】

また、推定部１５１が推定するボーンの位置の推定精度が低下する場合があり、この場合、ある期間のフレーム間でボーンの位置にバラつきが生じ得る。そこで、本開示に係る算出部１５３は、時間方向で関節点の位置を平均化する処理を実行してもよい。

【0133】

例えば、算出部１５３は、ある期間に含まれる複数のフレームで位置を平均化させた関節点から成るボーンの長さに基づき、モーメント特徴量を算出してもよい。具体的には、算出部１５３は、対象フレームから所定の期間にある各フレームのスケルトンデータに含まれる２以上のボーンの長さの各平均値に基づき、当該対象フレームのモーメント特徴量を算出してもよい。

【0134】

より具体的には、モーメント特徴量の算出に係る数式（１）～（３）、（１３）および（１４）において、関節点の位置ｘ、ｙに下記数式（２４）、（２５）の関節点の平均位置ｘ_ａｖｅ、ｙ_ａｖｅが置き換えられてもよい。ここで、ｘ_ｔ、ｙ_ｔは、時刻ｔにおける関節点の位置ｘ、ｙである。また、τは、期間内の総フレーム数（時間平均の期間）であり、任意の値が設定されてもよい。

【0135】

【数24】

【0136】

【数25】

【0137】

これにより、あるフレームでボーンの位置推定精度が低下した場合においても、当該フレームのポーズ類似度の算出精度の低下が抑制され得る。

【0138】

また、算出部１５３は、ある対象フレームにおけるユーザのスケルトンデータのモーメント特徴量に対して、当該対象フレームに対応するフレームから前後所定数のフレームにおける他のユーザのスケルトンデータの各モーメント特徴量の類似度を暫定的に算出してもよい。

【0139】

そして、算出部１５３は、算出した複数の類似度の暫定値のうち、最も高い暫定値を対象フレームにおける類似度の確定値として算出してもよい。これにより、ユーザを含む画像と、お手本（他のユーザ）を含む画像と、の時間ズレ（同期ズレ）による影響が軽減され得る。

【0140】

続いて、図８～図１０を参照し、フィードバックの具体例を説明する。

【0141】

＜３．４．フィードバック例＞
本開示に係る情報処理装置１０は、以上説明したモーメント特徴量またはポーズ類似度（類似度Ｄ、類似度スコアｓまたは合算類似度スコア）に基づくフィードバック情報をユーザに提示する。なお、以下の説明では、フィードバック画面ＦＳ１～ＦＳ３として、三種類の例を説明するが、本開示に係るフィードバック画面は係る例に限定されない。また、情報処理装置１０は、下記フィードバック画面ＦＳ１～ＦＳ３に含まれる各種情報を組み合わせてユーザにフィードバック情報を提示してもよい。

【0142】

図８は、本開示に係る第１のフィードバック例を説明するための説明図である。生成部１５５は、動画に含まれるユーザの各部位に対し、ユーザの各部位の長さに応じて変換された参照ボーンを含む他のユーザの参照スケルトンデータを重ね合わせた重畳画面ＳＰを生成してもよい。

【0143】

そして、操作表示部１１０は、重畳画面ＳＰを含むフィードバック画面ＦＳ１を表示してもよい。例えば、生成部１５５は、モーメント特徴量を用いることで、任意の位置にあるボーンへ、お手本のボーンを重ね合わせた重畳画面ＳＰを生成してもよい。

【0144】

具体的には、他のユーザのボーンは、平行位置を重心（ｘ_ｃ、ｙ_ｃ）に合わせ、スケールをボーンの長さＬに合わせることで、ユーザのボーンに合わせることが可能である。例えば、生成部１５５は、下記数式（２６）、（２７）により、ユーザのボーン（ｘ^ａ、ｙ^ａ）に、他のユーザのボーン（ｘ^ｂ、ｙ^ｂ）を重ね合わせた参照ボーン（ｘ^ｂ´、ｙ^ｂ´）を生成してもよい。

【0145】

【数26】

【0146】

【数27】

【0147】

また、生成部１５５は、上述した並進およびスケールに対するボーンの位置変換に加え、回転に対する変換を行ってもよい。例えば、回転量は、背景の床の線などの位置が不変な基準線を基に、当該基準線からの角度θに基づいて算出され得る。

【0148】

より具体的には、生成部１５５は、下記数式（２８）、（２９）により、ユーザのボーンの位置ｘ^ａ、ｙ^ａに、他のユーザのボーンをｘ^ｂ、ｙ^ｂを重ね合わせた参照ボーンｘ^ｂ´、ｙ^ｂ´を生成してもよい。

【0149】

【数28】

【0150】

【数29】

【0151】

上述した方法により、生成部１５５は、他のユーザの各ボーンを参照ボーンに変換して、参照スケルトンデータを生成してもよい。そして、操作表示部１１０は、生成部１５５により生成された参照スケルトンデータを、ユーザの映像に重畳した重畳画面ＳＰを含むフィードバック画面ＦＳ１を表示してもよい。

【0152】

なお、フィードバック画面ＦＳ１には、算出部１５３により算出された類似度スコアｓに基づく情報ＳＣが含まれてもよい。類似度スコアｓに基づく情報ＳＣは、例えば、図８に示すような類似度スコアｓが１００倍されたスコア値（０～１００点）であってもよい。

【0153】

また、フィードバック画面ＦＳ１には、お手本となる他のユーザの撮影により得られたお手本画面ＴＰが含まれてもよい。ここで、お手本画面ＴＰは、他のユーザをリアルタイムの映像であってもよいし、予め他のユーザを撮影して得られた画像データに基づく映像であってもよい。

【0154】

また、図８に示すフィードバック画面ＦＳ１では、お手本画面ＴＰと比較して、ユーザの映像を含む重畳画面ＳＰの方が大きく表示されているが、本開示に係る表示画面は係る例に限定されない。例えば、図８に示す。「表示切り替えボタン」を選択するなどの操作により、重畳画面ＳＰとお手本画面ＴＰの位置が切り替えられてもよいし、重畳画面ＳＰまたはお手本画面ＴＰのいずれか一方の画面のみが表示されてもよい。

【0155】

また、重畳画面ＳＰにおいて、ユーザの映像に重畳させるスケルトンデータは、他のユーザのスケルトンデータではなく、ユーザのスケルトンデータであってもよい。このような、重畳画面において重畳させるスケルトンデータを切り替え可能であってもよい。

【0156】

また、フィードバック画面ＦＳ１は、必ずしも重畳画面ＳＰを含んでいなくてもよく、重畳画面ＳＰの代わりにユーザの映像を含んでもよい。

【0157】

また、フィードバック画面ＦＳ１には、ポーズの画像を保存する保存ボタンが含まれてもよいし、再生時間を変更可能なシークバーが含まれてもよい。

【0158】

図９は、本開示に係る第２のフィードバック例を説明するための説明図である。図９に示すフィードバック画面ＦＳ２では、お手本画面ＴＰが右側に、重畳画面ＳＰが左側に配置される。また、図９に示す重畳画面ＳＰは、ユーザの映像に対し、当該ユーザのスケルトンデータが重畳された画面である。

【0159】

生成部１５５は、複数のユーザのポーズの類似度に基づき、色情報ＬＦをフィードバック情報として生成してもよい。そして、操作表示部１１０は、重畳画面ＳＰと、お手本画面ＴＰに併せて生成部１５５により生成した色情報ＬＦを含むフィードバック画面ＦＳ２を表示してもよい。

【0160】

例えば、生成部１５５は、類似度スコアｓが所定値以上になったフレームでは、光るような色情報を生成してもよい。これにより、ユーザは、フィードバック画面ＦＳ２において、画面が光った際に、お手本と自らのポーズが一致したことを知覚することができ得る。

【0161】

但し、必ずしも光るような色情報でなくてもよく、生成部１５５は、例えば、類似度スコアｓに応じた色情報を生成してもよい。具体的には、生成部１５５は、類似度スコアｓが第１の所定値以上になったフレームでは青色の色情報を生成し、類似度スコアが第２の所定値未満になったフレームでは赤色の色情報を生成してもよい。ここで、第１の所定値と、第２の所定値は同一の値であってもよいし、第２の所定値は、第１の所定値より小さい値であってもよい。これにより、ユーザは、お手本と自らのポーズが一致しているフレームと、一致していないフレームと、を逐一判断することが可能になり、より練習すべきポーズを直感的に把握し得る。

【0162】

また、生成部１５５は、複数のユーザのボーン毎の類似度Ｄ（または類似度スコアｓ）の大きさに基づき、各ボーンの類似度合いを示す色情報を生成してもよい。より具体的には、上半身の類似度が高く、下半身の類似度が低く算出された場合、生成部１５５は、スケルトンデータの上半身のボーンに青色の色情報を生成し、下半身のボーンに赤色の色情報を生成してもよい。そして、操作表示部１１０は、ポーズにズレが生じている部位（ボーン）の色を変化させることで、ユーザに部位ごとのポーズの類似度をフィードバックしてもよい。このように、スケルトンデータに含まれるボーンを、ヒートマップのように表現することで、ユーザは、どの部位が特にズレが生じているのか、また、どのポーズを直せば良いのか、を直感的に理解し得る。

【0163】

図１０は、本開示に係る第３のフィードバック例を説明するための説明図である。生成部１５５は、複数のユーザのポーズの類似度に基づき、文字情報ＷＦをフィードバック情報として生成してもよい。

【0164】

例えば、生成部１５５は、類似度スコアｓが第１の所定値以上になったフレームでは、図１０に示すような「Ｅｘｃｅｌｌｅｎｔ！」のようなポーズが一致していることをユーザに知らせる文字情報ＷＦを生成してもよい。一方、生成部１５５は、類似度スコアが第２の所定値未満になったフレームでは、「Ｂａｄ」のようなポーズが一致していないことをユーザに知らせる文字情報ＷＦを生成してもよい。そして、操作表示部１１０は、生成部１５５により生成された文字情報ＷＦを表示することで、ユーザにポーズの一致度合をフィードバックしてもよい。

【0165】

また、生成部１５５は、複数のユーザのポーズの類似度に基づき、音声情報ＳＦをフィードバック情報として生成してもよい。

【0166】

例えば、生成部１５５は、類似度スコアが第１の所定値以上になったフレームでは、ポーズが一致している音声情報ＳＦを生成してもよい。そして、音声出力部１２０は、生成部１５５により生成された音声情報ＳＦを出力することで、ユーザにポーズの一致度合をフィードバックしてもよい。

【0167】

なお、図９および図１０に示したフィードバックの提示方法では、必ずしも重畳画面ＳＰがフィードバック画面ＦＳ２、ＦＳ３に含まれていなくてもよく、重畳画面ＳＰの代わりにユーザの映像（即ち、参照スケルトンデータを含まない映像）を表示してもよい。

【0168】

以上、本開示に係るフィードバックの具体例を説明した。

【0169】

＜＜４．動作処理例＞＞
本開示に係る情報処理システムには、様々な適用先が挙げられる。例えば、情報処理システムは、動きを真似することで点数が表示されるゲームに適用され得る。このようなゲームを想定すると、例えば、ユーザは、フィットネス、ボクササイズ、ヨガ、ダンス、またはリハビリなどの各種動作を画面上の他のユーザ（キャラクター）の動きを真似して遊ぶことが可能になる。また、情報処理システムは、ダンスなどの動きの上達を支援する練習ツールにも適用され得る。このような練習ツールを想定すると、ユーザは、ダンス、バレエ、ゴルフ、テニス、または野球などの各種動作を練習し得る。また、情報処理システムは、オンラインレッスンの支援ツールにも適用され得る。このような支援ツールを想定すると、ユーザは、ヨガ、ダンスまたはリハビリなどの各種動作をオンラインで講師から指導され得る。

【0170】

以下では、このような様々な適用先を想定し、本開示に係る情報処理装置１０の動作処理の具体例を説明する。

【0171】

図１１は、本開示に係る情報処理装置１０の全体動作を示すフローチャートである。まず、情報処理装置１０では、ユーザによりお手本となる動画が選択またはアップロードされる（ステップＳ１０１）。

【0172】

また、お手本となる動画は、事前にモーメント特徴量が算出されていてもよいし、リアルタイムでモーメント特徴量が算出されてもよい。事前にモーメント特徴量が算出される場合、情報処理装置１０は、ユーザの映像と、お手本動画と、の間で時刻同期を行い、各時刻におけるお手本動画のモーメント特徴量を読み込んでもよい。

【0173】

続いて、操作表示部１１０は、ユーザにより動画開始に係る操作を受け付けると（ステップＳ１０５）、動画の表示を開始する（ステップＳ１０９）。ここで、ユーザは、動画のポーズに合わせて動作（例えば、ダンス等）を開始する。

【0174】

次いで、算出部１５３は、ユーザを撮影して得られた画像データと、お手本となる他のユーザの画像データと、に基づいて類似度を算出する各種処理である類似度算出処理を実行する（ステップＳ１１３）。類似度算出処理については後述する。

【0175】

そして、動画が終了すると（ステップＳ１１７）、操作表示部１１０は、算出部１５３により算出された点数（例えば、合算類似度スコア）を表示し（ステップＳ１２１）、本開示に係る情報処理装置１０は、動作処理を終了する。

【0176】

続いて、図１２を参照して、ステップＳ１１３における類似度算出処理の詳細を説明する。

【0177】

図１２は、本開示に係る情報処理装置１０の類似度算出処理を示すフローチャートである。まず、推定部１５１は、ユーザを映した画像データ（以下、ユーザ動画と称する。）と、他のユーザを映した画像データ（以下、お手本動画と称する）と、をそれぞれ取得する（ステップＳ２０１）。

【0178】

続いて、推定部１５１は、ユーザ動画からユーザのポーズ（スケルトンデータ）を推定し、お手本動画から他のユーザのポーズ（スケルトンデータ）を推定する（ステップＳ２０５）。

【0179】

そして、算出部１５３は、ユーザのスケルトンデータと、他のユーザのスケルトンデータと、の各々から、各モーメント特徴量を算出する（ステップＳ２０９）。

【0180】

次いで、算出部１５３は、各モーメント特徴量に基づき、類似度スコアを算出する（ステップＳ２１３）。この際に、算出部１５３は、各フレームで算出した類似度スコアを、順次記憶部１４０に出力する。また、操作表示部１１０または音声出力部１２０は、各フレームで算出した類似度スコアに基づくフィードバック情報を逐一出力してもよい。但し、操作表示部１１０または音声出力部１２０は、各フレームで類似度スコアのフィードバック情報を出力してもよいし、数フレームの間隔を空けて類似度スコアのフィードバック情報を出力してもよい。

【0181】

上述したステップＳ２０１～ステップＳ２１３の処理が、ユーザ動画およびお手本動画が終了するまで、または、ユーザにより終了に係る操作が実行されるまで繰り返し行われ、算出部１５３は、複数フレームの類似度スコアの平均値である合算類似度スコアを最終スコアとして算出し（ステップＳ２１７）、本開示に係る情報処理装置１０は動作処理を終了する。

【0182】

なお、上述した動作処理は一例であり、本開示に係る情報処理装置１０の動作処理は係る例に限定されない。

【0183】

例えば、本開示に係る情報処理システムを、ダンスなどの動きの上達を支援する練習ツールに適用する場合、ステップＳ１０１およびステップＳ１０５の間に、ユーザが確認するためにお手本動画が再生される処理や、再生範囲や再生速度を設定する処理が追加されてもよいし、ステップＳ１１７またはステップＳ１２１の後に振り返り画面の表示に係る処理が追加されてもよい。振り返り画面には、ユーザの映像、過去のユーザの映像およびお手本動画の比較確認画面（再生、巻き戻しなどの基本再生機能を含む）や、類似度が低いフレームのハイライト表示や、当該フレームにおいてどの部位に特にズレが生じているかを確認できる表示等の各種表示が含まれてもよい。また、このような振り返りのために、記憶部１４０は、ユーザ映像、スケルトンデータ、および類似度等の各種処理の結果を記録しておいてもよい。

【0184】

また、情報処理システムを、オンラインレッスンの支援ツールに適用する場合、ステップＳ１０１において、ユーザによる動画の選択やアップロードは不要になる。この場合、ユーザの情報処理装置１０と、他のユーザ（お手本）の情報処理装置１０は相互に接続されてもよく、カメラの位置等の調整を済ませた後にセッション（レッスン）を開始してもよい。お互いの情報処理装置１０の操作表示部１１０は、ユーザの映像と他のユーザの映像をそれぞれ表示し、音声出力部１２０は、ユーザ側のマイクが取得した音声と、他のユーザ側のマイクが取得した音声と、をそれぞれ出力してもよい。また、情報処理装置１０は、セッション（レッスン）中にリアルタイムで類似度算出処理を実行してもよい。この際に、ユーザの情報処理装置１０にのみ、類似度に基づくフィードバックが行われてもよいし、ユーザの情報処理装置１０および他のユーザの情報処理装置１０の各々に類似度に基づくフィードバックが行われてもよい。また、セッション中にリアルタイムでフィードバックが行われてもよいし、セッション後にフィードバックが行われてもよい。

【0185】

＜＜５．作用効果例＞＞
以上説明した本開示によれば、多様な作用効果が得られる。例えば、本開示に係る推定部は、ユーザの各部位の位置情報を含むスケルトンデータを推定し、算出部１５３は、スケルトンデータに含まれる２以上のボーンの長さに基づき、正規中心モーメントを算出する。これにより、カメラ５が設置された位置および姿勢に応じたスケールの違いや、並進方向のズレに影響せずにポーズ類似度が算出され得る。また、機械学習と比較して演算負担が小さくなるため、デバイスの制限も減り、更に、リアルタイムでポーズ類似度の算出が可能になり得る。リアルタイムでユーザ間の類似度をフィードバックすることで、ユーザの動きの上達を支援することが可能になり得る。

【0186】

また、算出部１５３は、算出した正規中心モーメントからＨｕモーメントをモーメント特徴量として算出する。これにより、ユーザを撮影したカメラの設置される回転方向の位置ズレに更に影響せずにポーズ類似度の算出が可能になり得る。

【0187】

＜＜６．ハードウェア構成例＞＞
次に、本開示の一実施形態に係る情報処理装置１０のハードウェア構成例について説明する。図１３は、本開示の一実施形態に係る情報処理装置９０のハードウェア構成例を示すブロック図である。情報処理装置９０は、情報処理装置１０と同等のハードウェア構成を有する装置であってよい。

【0188】

図１３に示すように、情報処理装置９０は、例えば、プロセッサ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

【0189】

（プロセッサ８７１）
プロセッサ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記憶媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

【0190】

（ＲＯＭ８７２、ＲＡＭ８７３）
ＲＯＭ８７２は、プロセッサ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、プロセッサ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

【0191】

（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
プロセッサ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

【0192】

（入力装置８７８）
入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

【0193】

（出力装置８７９）
出力装置８７９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

【0194】

（ストレージ８８０）
ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

【0195】

（ドライブ８８１）
ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記憶媒体９０１に記録された情報を読み出し、又はリムーバブル記憶媒体９０１に情報を書き込む装置である。

【0196】

（リムーバブル記憶媒体９０１）
リムーバブル記憶媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記憶媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

【0197】

（接続ポート８８２）
接続ポート８８２は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のようなストレージ装置９０２を接続するためのポートである。

【0198】

（ストレージ装置９０２）
ストレージ装置９０２は、外部接続機器であり、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

【0199】

（通信装置８８３）
通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、又は各種通信用のモデム等である。

【0200】

＜＜７．補足＞＞
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

【0201】

例えば、図１１に示したステップＳ１０１において、複数の動画が選択またはアップロードされてもよい。例えば、ダンサーによっては同じダンスでも部位の位置または姿勢が異なる場合がある。そこで、複数の動画が選択またはアップロードされた場合、ユーザのダンスがどのダンサーのダンスに類似するかをユーザにフィードバックしてもよい。

【0202】

また、情報処理装置１０の操作表示部１１０、音声出力部１２０、記憶部１４０および制御部１５０は、それぞれ別の装置に分けて備えられてもよい。また、制御部１５０に含まれる推定部１５１、算出部１５３および生成部１５５は、複数の装置に分けて備えられてもよい。

【0203】

また、カメラ５により得られた画像データからスケルトンデータが推定される例を主に説明したが、例えば、推定部１５１は、慣性センサや加速度センサ等の装着型のモーションセンサにより得られたセンシング情報に基づき、ユーザのスケルトンデータを推定してもよい。

【0204】

また、本明細書の情報処理装置１０の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、情報処理装置１０の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されてもよい。

【0205】

また、情報処理装置１０に内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアに、上述した情報処理装置１０の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させた記憶媒体も提供される。

【0206】

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

【0207】

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
ユーザの各部位の位置情報を含むスケルトンデータを推定する推定部と、
前記スケルトンデータに含まれる２以上のボーンの長さに基づき、少なくともスケール不変性および並進不変性を有するモーメント特徴量を算出する算出部と、
を備える、情報処理装置。
（２）
前記算出部は、
複数のユーザの各々のスケルトンデータから算出された複数のモーメント特徴量に基づき、前記複数のユーザのポーズの類似度を算出する、
前記（１）に記載の情報処理装置。
（３）
前記算出部は、
複数のユーザの各々のスケルトンデータに含まれる各ボーンの長さに基づき、複数のモーメント特徴量を算出する、
前記（２）に記載の情報処理装置。
（４）
前記算出部は、
複数の動画において、対応フレーム毎に算出された複数のモーメント特徴量に基づき、前記対応フレーム毎の前記複数のユーザのポーズの類似度を算出する、
前記（３）に記載の情報処理装置。
（５）
前記算出部は、
複数の対応フレームにおいて算出された複数の類似度に基づき、合算類似度スコアを算出する、
前記（４）に記載の情報処理装置。
（６）
モーメント特徴量は、回転不変性を有する７または８の特徴量を含む、
前記（４）または前記（５）に記載の情報処理装置。
（７）
前記複数のユーザのポーズの類似度に基づくフィードバック情報を生成する生成部、
を更に備える、
前記（４）から前記（６）までのうちいずれか一項に記載の情報処理装置。
（８）
前記生成部は、
前記動画に含まれるユーザの各部位に対し、前記ユーザの各部位の長さに応じて変換された参照ボーンを含む他のユーザの参照スケルトンデータを重ね合わせた重畳画面を生成する、
前記（７）に記載の情報処理装置。
（９）
前記算出部は、
前記ボーンの両端の関節点ごとに推定された信頼性スコアに基づき、前記モーメント特徴量を算出する、
前記（２）から前記（８）までのうちいずれか一項に記載の情報処理装置。
（１０）
前記算出部は、
前記信頼性スコアが所定値以上で推定された関節点から成るボーンの長さに基づき、前記モーメント特徴量を算出する、
前記（９）に記載の情報処理装置。
（１１）
前記算出部は、
前記複数のモーメント特徴量の各々に、前記各々のモーメント特徴量の算出に用いたボーンの両端の関節点の前記信頼性スコアに基づく重み付け処理を実行し、重み付け処理が実行された複数のモーメント特徴量に基づき、前記複数のユーザのポーズの類似度を算出する、
前記（９）に記載の情報処理装置。
（１２）
前記算出部は、
対象フレームから所定の期間にある各フレームの前記スケルトンデータに含まれる２以上のボーンの長さの平均値に基づき、前記対象フレームのモーメント特徴量を算出する、
前記（１１）に記載の情報処理装置。
（１３）
前記算出部は、
前記複数のユーザのボーンの長さを補正するキャリブレーション処理により得られた補正ボーンの長さに基づき、前記モーメント特徴量を算出する、
前記（１２）に記載の情報処理装置。
（１４）
前記生成部は、
前記複数のユーザのポーズの類似度に基づき、色情報を前記フィードバック情報として生成する、
前記（７）に記載の情報処理装置。
（１５）
前記生成部は、
前記複数のユーザのボーン毎の類似度の大きさに基づき、各ボーンの類似度合いを示す色情報を生成する、
前記（１４）に記載の情報処理装置。
（１６）
前記生成部は、
前記複数のユーザのポーズの類似度に基づき、文字情報を前記フィードバック情報として生成する、
前記（７）に記載の情報処理装置。
（１７）
前記生成部は、
前記複数のユーザのポーズの類似度に基づき、音声情報を前記フィードバック情報として生成する、
前記（７）に記載の情報処理装置。
（１８）
前記生成部に生成されたフィードバック情報および重畳画面情報を出力する出力部、
を更に備える、
前記（７）または前記（８）に記載の情報処理装置。
（１９）
ユーザの各部位の位置情報を含むスケルトンデータを推定することと、
前記スケルトンデータに含まれる２以上のボーンの長さに基づき、少なくともスケール不変性および並進不変性を有するモーメント特徴量を算出することと、
を含む、コンピュータにより実行される情報処理方法。
（２０）
コンピュータに、
ユーザの各部位の位置情報を含むスケルトンデータを推定する推定機能と、
前記スケルトンデータに含まれる２以上のボーンの長さに基づき、少なくともスケール不変性および並進不変性を有するモーメント特徴量を算出する算出機能と、
を実現させる、プログラム。

【符号の説明】

【0208】

５カメラ
１０情報処理装置
１１０操作表示部
１２０音声出力部
１３０通信部
１４０記憶部
１５０制御部
１５１推定部
１５３算出部
１５５生成部

【図1】