特開2024-118627 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特開2024-118627情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024118627

(43)【公開日】2024-09-02

(54)【発明の名称】情報処理方法

(51)【国際特許分類】

G10H 1/00 20060101AFI20240826BHJP

G09B 15/00 20060101ALI20240826BHJP

【ＦＩ】

G10H1/00 Z

G09B15/00 Z

【審査請求】未請求

【請求項の数】1

【出願形態】ＯＬ

(21)【出願番号】P 2023025012

(22)【出願日】2023-02-21

(71)【出願人】

【識別番号】000004075

【氏名又は名称】ヤマハ株式会社

(74)【代理人】

【識別番号】110003177

【氏名又は名称】弁理士法人旺知国際特許事務所

(72)【発明者】

【氏名】山本和彦

【テーマコード（参考）】

5D478

【Ｆターム（参考）】

5D478CC22

(57)【要約】

【課題】楽器の演奏中における利用者の手の形状を高精度に推定する。
【解決手段】情報処理システムは、入力データ取得部４１と指位置データ生成部４２とを具備する。入力データ取得部４１は、楽器を演奏している利用者の手の画像を表す画像データＧと、手における複数の解析点の各々の位置を表す指位置データＹと、楽器の演奏を表す演奏データＥと、を含む入力データＣ1を取得する。指位置データ生成部４２は、入力データＣ1を生成モデルＭにより処理することで、画像データＧが表す手の位置と演奏データＥが表す演奏とに応じて指位置データＹにおける複数の解析点の各々の位置が補正された指位置データＺを生成する。
【選択図】図５

【特許請求の範囲】

【請求項1】

楽器を演奏している利用者の手の画像を表す画像データと、前記手における複数の解析点の各々の位置を表す第１指位置データと、前記楽器の演奏を表す演奏データと、を含む入力データを取得し、
訓練済の生成モデルにより前記入力データを処理することで、前記画像データが表す手の位置と前記演奏データが表す演奏とに応じて前記第１指位置データにおける前記複数の解析点の各々の位置が補正された第２指位置データを生成する
コンピュータシステムにより実現される情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、楽器の演奏を解析する技術に関する。

【背景技術】

【0002】

利用者による楽器の演奏を解析する各種の技術が従来から提案されている。例えば特許文献１には、鍵盤楽器の鍵盤と利用者の手とを含む画像を解析することで、利用者の手の形状を推定する技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】国際公開第２０２１／１５７６９１号明細書

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし、鍵盤楽器の鍵盤と利用者の手とを含む画像の解析だけでは、手の形状を高精度に推定することは現実的には困難である。例えば、鍵盤を操作する指が指くぐり等の奏法により他の指の背後に隠れた状態、または、高速に移動する指が画像においてぶれた状態では、画像の解析により利用者の手の形状を高精度に推定することはできない。以上の事情を考慮して、本開示のひとつの態様は、楽器の演奏中における利用者の手の形状を高精度に推定することを目的とする。

【課題を解決するための手段】

【0005】

以上の課題を解決するために、本開示のひとつの態様に係る情報処理方法は、楽器を演奏している利用者の手の画像を表す画像データと、前記手における複数の解析点の各々の位置を表す第１指位置データと、前記楽器の演奏を表す演奏データと、を含む入力データを取得し、訓練済の生成モデルにより前記入力データを処理することで、前記画像データが表す手の位置と前記演奏データが表す演奏とに応じて前記第１指位置データにおける前記複数の解析点の各々の位置が補正された第２指位置データを生成する。

【図面の簡単な説明】

【0006】

【図1】第１実施形態における情報処理システムのブロック図である。

【図2】画像データおよび領域データの説明図である。

【図3】情報処理システムの機能的な構成を例示するブロック図である。

【図4】解析データの説明図である。

【図5】解析処理部の構成を例示するブロック図である。

【図6】指位置データの模式図である。

【図7】入力データ取得部のブロック図である。

【図8】補充処理のフローチャートである。

【図9】解析処理のフローチャートである。

【図10】訓練処理部の説明図である。

【図11】訓練処理のフローチャートである。

【図12】第４実施形態における電子鍵盤楽器のブロック図である。

【発明を実施するための形態】

【0007】

Ａ：第１実施形態
図１は、第１実施形態に係る情報処理システム１０の構成を例示するブロック図である。情報処理システム１０は、利用者（すなわち演奏者）による電子楽器２０の演奏を解析するためのコンピュータシステムである。情報処理システム１０には、電子楽器２０および撮像装置３０が有線または無線により接続される。

【0008】

電子楽器２０は、鍵盤２１を含む電子鍵盤楽器である。鍵盤２１は、相異なる音高に対応する複数の鍵２２で構成される。利用者は、各鍵２２を順次に操作することで所望の楽曲を演奏する。

【0009】

電子楽器２０は、利用者による演奏を表す演奏データＥを情報処理システム１０に送信する。演奏データＥは、利用者が演奏した音高を表すデータである。利用者による各鍵２２の操作毎に、電子楽器２０から演奏データＥが順次に送信される。例えば、演奏データＥは、利用者が操作した鍵２２に対応する音高と押鍵の強度とを指定する。演奏データＥは、例えばＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠したイベントデータである。

【0010】

撮像装置３０は、利用者による電子楽器２０の演奏を撮像する画像入力機器である。具体的には、撮像装置３０は、時間軸上の単位期間（フレーム）毎に画像データＧを生成する。単位期間は、所定の時間長の期間である。画像データＧの時系列は動画データを構成する。撮像装置３０は、例えば、撮影レンズ等の光学系と、光学系からの入射光を受光する撮像素子と、撮像素子による受光量に応じた画像データＧを生成する処理回路とを具備する。なお、第１実施形態においては情報処理システム１０に別体の撮像装置３０が接続された形態を例示するが、撮像装置３０は情報処理システム１０に搭載されてもよい。

【0011】

第１実施形態の撮像装置３０は、電子楽器２０の上方に設置され、電子楽器２０の鍵盤２１と利用者の右手ＨRおよび左手ＨLとを撮像する。したがって、図２に例示される通り、電子楽器２０の鍵盤２１と利用者の右手ＨRおよび左手ＨLとを含む画像（以下「撮影画像」という）の画像データＧが、撮像装置３０により時系列に生成される。すなわち、画像データＧは、電子楽器２０を演奏している利用者の右手ＨRおよび左手ＨLの画像（撮影画像）を表すデータである。利用者が電子楽器２０を演奏する動画を表す動画データが、利用者による演奏に並行して生成される。

【0012】

図１の情報処理システム１０は、利用者による電子楽器２０の演奏を解析するコンピュータシステムである。情報処理システム１０は、例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報装置で実現される。情報処理システム１０は、制御装置１１と記憶装置１２と表示装置１３と操作装置１４と音源装置１５と放音装置１６とを具備する。なお、情報処理システム１０は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。

【0013】

制御装置１１は、情報処理システム１０の各要素を制御する単数または複数のプロセッサである。具体的には、例えばＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＳＰＵ（Sound Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサにより、制御装置１１が構成される。

【0014】

記憶装置１２は、制御装置１１が実行するプログラムと、制御装置１１が使用する各種のデータとを記憶する単数または複数のメモリである。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置１２として利用される。なお、例えば、情報処理システム１０に対して着脱される可搬型の記録媒体、または、制御装置１１が通信網を介してアクセス可能な記録媒体（例えばクラウドストレージ）が、記憶装置１２として利用されてもよい。

【0015】

表示装置１３は、制御装置１１による制御のもとで画像を表示する。例えば、液晶表示パネルまたは有機ＥＬ（Electroluminescence）パネル等の各種の表示パネルが、表示装置１３として利用される。操作装置１４は、利用者からの指示を受付ける指示入力機器である。例えば、利用者が操作する操作子、または、表示装置１３と一体に構成されたタッチパネルが、操作装置１４として利用される。なお、情報処理システム１０とは別体の表示装置１３または操作装置１４が、情報処理システム１０に対して有線または無線により接続されてもよい。

【0016】

音源装置１５は、演奏データＥに対応する音響信号を生成する。具体的には、音源装置１５は、演奏データＥが表す楽音の波形を表す音響信号を生成する。なお、制御装置１１がプログラムを実行することで音源装置１５の機能が実現されてもよい。放音装置１６は、音響信号が表す楽音を放射する。例えばスピーカ又はヘッドホンが放音装置１６として利用される。なお、情報処理システム１０とは別体の放音装置１６が、情報処理システム１０に対して有線または無線により接続されてもよい。

【0017】

図３は、情報処理システム１０の機能的な構成を例示するブロック図である。制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、利用者による電子楽器２０の演奏を解析するための複数の機能（解析処理部４０および訓練処理部５０）を実現する。

【0018】

［解析処理部４０］
解析処理部４０は、撮像装置３０から供給される画像データＧと電子楽器２０から供給される演奏データＥとを処理することで解析データＦを生成する。解析データＦは、利用者による電子楽器２０の演奏を解析した結果を表すデータである。具体的には、解析データＦは、演奏中における利用者の右手ＨRおよび左手ＨLの状態を表すデータである。利用者による演奏に並行して解析データＦが順次に生成される。具体的には、解析処理部４０は、単位期間毎に解析データＦを生成する。

【0019】

図４は、解析データＦの説明図である。解析データＦは、解析データＦRと解析データＦLとを含む。解析データＦRは、利用者の右手ＨRに対応する複数の解析点Ｐの各々の座標を表すデータである。解析データＦLは、利用者の左手ＨLに対応する複数の解析点Ｐの各々の座標を表すデータである。

【0020】

解析点Ｐは、利用者の右手ＨRおよび左手ＨLにおいて解析対象となる地点である。具体的には、利用者の各指の先端および関節の各地点と、手首に対応する地点とが解析点Ｐとして例示される。各解析点Ｐは空間αに設定される。空間αは、右手ＨRおよび左手ＨLの各々について設定される３次元空間である。例えば利用者の手首に対応する解析点Ｐを基準（例えば原点）として空間αが設定される。以上の説明から理解される通り、解析データＦは、演奏中における利用者の手の姿勢を表すデータである。

【0021】

図５は、解析処理部４０の構成を例示するブロック図である。解析処理部４０は、入力データ取得部４１と指位置データ生成部４２と解析データ生成部４３とを含む。入力データ取得部４１は、単位期間毎に入力データＣ1を取得する。各単位期間の入力データＣ1は、画像データＧと演奏データＥと指位置データＹとを含む。指位置データＹは、利用者の右手ＨRおよび左手ＨLにおける複数の解析点Ｐの各々の位置を表すデータである。

【0022】

図６は、指位置データＹの模式図である。指位置データＹは、利用者の右手ＨRに対応する指位置データＹRと利用者の左手ＨLに対応する指位置データＹLとを含む。指位置データＹRは、利用者の右手ＨRの相異なる解析点Ｐ（ＰR1，ＰR2，…）に対応する複数の単位データＵを含む。指位置データＹLは、利用者の左手ＨLの相異なる解析点Ｐ（ＰL1，ＰL2，…）に対応する複数の単位データＵを含む。

【0023】

１個の解析点Ｐに対応する単位データＵは、空間α内における解析点Ｐの確率分布を表すデータである。図６に例示される通り、空間αには複数の格子点Ｋが設定される。各格子点Ｋは、空間α内において相互に直交する３軸の各方向に等間隔に設定された地点（グリッド）である。単位データＵは、空間α内の複数の格子点Ｋの各々について確率Ｑを表す。各格子点Ｋの確率Ｑは、当該格子点Ｋが解析点Ｐに該当する確度である。例えば、空間α内の１個の格子点Ｋの確率Ｑが大きいほど、当該格子点Ｋが解析点Ｐに該当する確度が高い。したがって、単位データＵが表す複数の確率Ｑの分布は、空間α内における解析点Ｐの確率分布に相当する。すなわち、指位置データＹRは、利用者の右手ＨRに対応する複数の解析点Ｐの各々について空間α内における確率分布を表す。同様に、指位置データＹLは、利用者の左手ＨLに対応する複数の解析点Ｐの各々について空間α内における確率分布を表す。

【0024】

図５の指位置データ生成部４２は、入力データＣ1を処理することで出力データＣ2を生成する。利用者による演奏に並行して単位期間毎に出力データＣ2が生成される。出力データＣ2は、領域データＤと指位置データＺとを含む。

【0025】

図２に例示される通り、領域データＤは、画像データＧが表す撮影画像のうち右手領域ＡRと左手領域ＡLとを表すデータである。右手領域ＡRは、撮影画像のうち利用者の右手ＨRが存在する領域である。左手領域ＡLは、撮影画像のうち利用者の左手ＨLが存在する領域である。領域データＤは、後述の通り、入力データ取得部４１による指位置データＹの生成に利用される。

【0026】

指位置データＺは、指位置データＹと同様に、利用者の右手ＨRおよび左手ＨLにおける複数の解析点Ｐの各々の位置を表すデータである。具体的には、指位置データＺは、画像データＧが表す右手ＨRおよび左手ＨLの位置と演奏データＥが表す演奏とに応じて、指位置データＹにおける各解析点Ｐの位置を補正したデータである。

【0027】

図６に例示される通り、指位置データＺの形式は指位置データＹと同様である。具体的には、指位置データＺは、利用者の右手ＨRに対応する指位置データＺRと、利用者の左手ＨLに対応する指位置データＺLとを含む。指位置データＺRは、利用者の右手ＨRの相異なる解析点Ｐ（ＰR1，ＰR2，…）に対応する複数の単位データＵを含む。指位置データＺLは、利用者の左手ＨLの相異なる解析点Ｐ（ＰL1，ＰL2，…）に対応する複数の単位データＵを含む。各解析点Ｐの単位データＵは、空間αにおける当該解析点Ｐの確率分布を表す。なお、指位置データＹは「第１指位置データ」の一例であり、指位置データＺは「第２指位置データ」の一例である。

【0028】

図５に例示される通り、指位置データ生成部４２による出力データＣ2の生成には生成モデルＭが利用される。生成モデルＭは、入力データＣ1と出力データＣ2との関係を機械学習により習得した訓練済モデルである。生成モデルＭは、入力データＣ1と出力データＣ2との関係を訓練（機械学習）により獲得した訓練済モデルとも表現される。指位置データ生成部４２は、各単位期間の入力データＣ1を生成モデルＭにより処理することで出力データＣ2を生成する。すなわち、指位置データ生成部４２は、入力データＣ1を生成モデルＭに入力することで出力データＣ2を生成する。

【0029】

生成モデルＭは、例えば深層ニューラルネットワーク（DNN：Deep Neural Network）で構成される。例えば、再帰型ニューラルネットワーク（RNN：Recurrent Neural Network）、または畳込ニューラルネットワーク（CNN：Convolutional Neural Network）等の任意の形式の深層ニューラルネットワークが、生成モデルＭとして利用される。複数種の深層ニューラルネットワークの組合せにより生成モデルＭが構成されてもよい。また、長短期記憶（LSTM：Long Short-Term Memory）またはAttention等の付加的な要素が生成モデルＭに搭載されてもよい。

【0030】

指位置データ生成部４２は、領域検出部４２１と補正処理部４２２とを含む。生成モデルＭは、検出モデルＭaと補正モデルＭbとを含む。検出モデルＭaおよび補正モデルＭbの各々は、制御装置１１に所定の演算を実行させるプログラムと、当該演算に適用される複数の変数（具体的には加重値およびバイアス）との組合せで実現される。検出モデルＭaおよび補正モデルＭbを実現するプログラムおよび複数の変数は、記憶装置１２に記憶される。複数の変数は、機械学習により事前に設定される。

【0031】

検出モデルＭaは、画像データＧの入力に対して領域データＤを出力する。すなわち、検出モデルＭaは、画像データＧが表す撮影画像から右手領域ＡRと左手領域ＡLとを抽出する物体検出（Semantic Segmentation）用の訓練済モデルである。検出モデルＭaは、画像データＧと領域データＤとの関係を学習した訓練済モデルとも表現される。例えば、エンコーダとデコーダとで構成されるＵ-Ｎｅｔ型のモデルが検出モデルＭaとして例示される。領域検出部４２１は、画像データＧを検出モデルＭaにより処理することで領域データＤを生成する。

【0032】

補正モデルＭbは、指位置データＹおよび演奏データＥの入力に対して指位置データＺを出力する。すなわち、補正モデルＭbは、指位置データＹおよび演奏データＥの組と指位置データＺとの関係を学習した訓練済モデルである。例えば、エンコーダとデコーダとで構成されるオートエンコーダが補正モデルＭbとして例示される。補正処理部４２２は、指位置データＹと演奏データＥとを補正モデルＭbにより処理することで指位置データＺを生成する。なお、領域データＤの生成の過程で検出モデルＭaが生成する中間データが、指位置データＹおよび演奏データＥとともに補正モデルＭbに入力されてもよい。補正モデルＭbに入力される中間データは、例えば検出モデルＭaのうち前半部分のエンコーダが出力するデータである。

【0033】

図５の解析データ生成部４３は、指位置データ生成部４２（補正処理部４２２）が生成した指位置データＺから解析データＦを生成する。具体的には、解析データ生成部４３は、指位置データＺのうち右手ＨRの指位置データＺRから解析データＦRを生成し、指位置データＺのうち左手ＨLの指位置データＺRから解析データＦLを生成する。

【0034】

例えば、解析データ生成部４３は、指位置データＺRの各単位データＵが表す確率分布において確率Ｑが最大となる地点（例えば格子点Ｋ）を右手ＨRの解析点Ｐとして確定する。解析データ生成部４３は、指位置データＺRの各単位データＵについて以上の処理を実行することで、右手ＨRの各解析点Ｐの座標を表す解析データＦRを生成する。同様に、解析データ生成部４３は、指位置データＺLの各単位データＵが表す確率分布において確率Ｑが最大となる地点（例えば格子点Ｋ）を左手ＨLの解析点Ｐとして確定する。解析データ生成部４３は、指位置データＺLの各単位データＵについて以上の処理を実行することで、左手ＨLの各解析点Ｐの座標を表す解析データＦLを生成する。解析データＦが表す右手ＨRおよび左手ＨLの各解析点Ｐは、解析結果として表示装置１３に表示される。

【0035】

なお、解析データ生成部４３が指位置データＺから解析データＦを生成する処理は、以上の例示に限定されない。例えば、解析データ生成部４３は、各解析点Ｐの位置関係に関する制約条件、または、各解析点Ｐの移動速度に関する制約条件のもとで、各解析点Ｐを確定してもよい。位置関係に関する制約条件は、例えば１本の指において隣合う２個の解析点Ｐの距離は変化しないという条件である。また、移動速度に関する制約条件は、各解析点Ｐの移動速度が所定値を下回るという条件である。

【0036】

図７は、入力データ取得部４１の構成を例示するブロック図である。入力データ取得部４１は、情報取得部４１１と位置推定部４１２と成分付加部４１３とを含む。情報取得部４１１は、撮像装置３０から順次に供給される画像データＧと、電子楽器２０から順次に供給される演奏データＥとを受信する。位置推定部４１２および成分付加部４１３は、前述の指位置データＹを単位期間毎に生成する。以上の説明から理解される通り、入力データ取得部４１によるデータの「取得」は、「受信」と「生成」とを包含する。

【0037】

図７の位置推定部４１２は、画像データＧから指位置データＸを生成する。指位置データＸは、指位置データＹと同様に、利用者の右手ＨRおよび左手ＨLにおける複数の解析点Ｐの各々の位置を表すデータである。なお、指位置データＸは「初期データ」の一例である。

【0038】

指位置データＸの形式は指位置データＹと同様である。具体的には、指位置データＸは、利用者の右手ＨRに対応する指位置データＸRと、利用者の左手ＨLに対応する指位置データＸLとを含む。指位置データＸRは、利用者の右手ＨRの相異なる解析点Ｐに対応する複数の単位データＵを含む。指位置データＸLは、利用者の左手ＨLの相異なる解析点Ｐに対応する複数の単位データＵを含む。各解析点Ｐの単位データＵは、空間αにおける当該解析点Ｐの確率分布を表す。指位置データＹの生成には、公知の技術が任意に採用される。

【0039】

ところで、画像データＧが表す撮影画像においては、利用者の手が部分的に不鮮明である場合がある。例えば、利用者の手のうち速く移動する部分はブレにより不鮮明な画像となる場合がある。また、利用者の手のうち他の指の背後に隠れる部分は不鮮明な画像となる場合がある。以上のように撮影画像において不鮮明な部分に対応する解析点Ｐについては空間α内の確率分布が特定されない。したがって、指位置データＸの単位データＵが空値（null）となる場合がある。単位データＵについて「空値」とは、空間α内の複数の格子点Ｋの何れについても単位データＵが有意な数値を含まない状態である。例えば、単位データＵにおいて全部の格子点Ｋの確率Ｑがゼロである状態が「空値」である。

【0040】

図７の成分付加部４１３は、指位置データＸから指位置データＹを生成する。具体的には、成分付加部４１３は、指位置データＸの複数の単位データＵのうち空値の各単位データＵ（以下「空値データＵ0」という）について補充処理を実行することで指位置データＹを生成する。補充処理は、指位置データＸの各空値データＵ0に補助的な成分（以下「補助成分Ｒ」という）を付加する処理である。補充処理には、領域データＤおよび演奏データＥが利用される。

【0041】

図８は、補充処理のフローチャートである。単位期間毎に補充処理が実行される。制御装置１１が図８の補充処理を実行することで、成分付加部４１３が実現される。

【0042】

補充処理が開始されると、制御装置１１は、指位置データＸRの複数の単位データＵから１以上の空値データＵ0を抽出する（Ｓa41）。制御装置１１は、各空値データＵ0が指定する複数の確率Ｑのうち右手領域ＡR内の各格子点Ｋに対応する確率Ｑ（＝０）に補助成分Ｒを加算する（Ｓa42）。補助成分Ｒは、１未満の所定の正数である。右手領域ＡRには利用者の右手ＨRが存在するから、本来的には確率分布が存在すべきである。以上の事情にも関わらず単位データＵが空値であるということは、撮影画像が不鮮明であるために確率分布が適切に推定されなかった可能性が高い。補助成分Ｒの加算は、以上に説明した確率分布の欠落を補足する処理である。右手領域ＡRが検出されない単位期間においては、補助成分Ｒの付加（Ｓa41，Ｓa42）は実行されない。

【0043】

左手ＨLに対応する指位置データＸLについても同様の処理が実行される。すなわち、制御装置１１は、指位置データＸLの複数の単位データＵから１以上の空値データＵ0を抽出する（Ｓa43）。制御装置１１は、各空値データＵ0が指定する複数の確率Ｑのうち左手領域ＡL内の各格子点Ｋに対応する確率Ｑ（＝０）に補助成分Ｒを加算する（Ｓa44）。なお、左手領域ＡLが検出されない単位期間においては、補助成分Ｒの付加（Ｓa43，Ｓa44）は実行されない。

【0044】

以上の処理を実行すると、制御装置１１は、演奏データＥが押鍵を表すか否かを判定する（Ｓa45）。演奏データＥが押鍵を表す場合（Ｓa45：YES）、制御装置１１は、指位置データＸ（ＸR，ＸL）に含まれる複数の単位データＵから１以上の空値データＵ0を抽出する（Ｓa46）。制御装置１１は、各空値データＵ0が指定する複数の確率Ｑのうち、押鍵中の鍵２２の近傍の各格子点Ｋに対応する確率Ｑに補助成分Ｒを加算する（Ｓa47）。例えば、空間αのうち押鍵中の鍵２２に対応する地点を中心とする正規分布が補助成分Ｒとして付加される。

【0045】

以上の説明から理解される通り、成分付加部４１３は、演奏データＥが押鍵を表す場合、または、領域データＤにおいて利用者の手が検出された場合に、指位置データＸに補助成分Ｒを付加することで指位置データＹを生成する。演奏データＥが押鍵を表さず、かつ、領域データＤにおいて利用者の手が検出されない場合には、指位置データＸがそのまま指位置データＹとして確定される。

【0046】

補充処理の具体的な手順は以上の通りである。指位置データ生成部４２の補正処理部４２２は、補充処理により生成された指位置データＹと情報取得部４１１が取得した演奏データＥとを補正モデルＭbにより処理することで、指位置データＺを生成する。生成モデルＭ（補正モデルＭb）は、画像データＧが表す手の位置と演奏データＥが表す演奏とに応じて指位置データＹにおける各解析点Ｐの位置が補正された指位置データＺが出力されるように、事前の機械学習により構築される。例えば、各解析点Ｐの位置が補正される結果、指位置データＹにおいて空値であった単位データＵ（空値データＵ0）が、指位置データＺにおいては有意な数値を含む単位データＵに変更される。すなわち、指位置データＺにおける空値データＵ0の個数（例えばゼロ）は、指位置データＹにおける空値データＵ0の個数を下回る。

【0047】

図９は、制御装置１１が解析データＦを生成する処理（以下「解析処理」という）のフローチャートである。単位期間毎に図９の解析処理が実行される。解析処理が開始されると、制御装置１１（情報取得部４１１）は、画像データＧおよび演奏データＥを取得する（Ｓa1）。制御装置１１（領域検出部４２１）は、画像データＧを検出モデルＭaにより処理することで領域データＤを生成する（Ｓa2）。

【0048】

制御装置１１（位置推定部４１２）は、画像データＧの解析により指位置データＸを生成する（Ｓa3）。制御装置１１（成分付加部４１３）は、領域データＤおよび演奏データＥを利用した前述の補充処理を指位置データＸに対して実行することで、指位置データＹを生成する（Ｓa4）。

【0049】

制御装置１１（補正処理部４２２）は、指位置データＹと演奏データＥとを補正モデルＭbにより処理することで指位置データＺを生成する（Ｓa5）。制御装置１１（解析データ生成部４３）は、指位置データＺから解析データＦを生成する（Ｓa6）。

【0050】

以上に説明した通り、第１実施形態においては、画像データＧが表す手の位置と演奏データＥが表す演奏とに応じて指位置データＹにおける各解析点Ｐの位置が補正されることで指位置データＺが生成される。すなわち、撮影画像において不鮮明なため解析点Ｐが指位置データＸにおいて欠損している場合でも、画像データＧおよび演奏データＥの利用により当該解析点Ｐが補完される。具体的には、撮影画像において不鮮明な部分の解析点Ｐについても正確に表現された指位置データＺ（さらには解析データＦ）を生成できる。したがって、撮影画像において不鮮明な部分の解析点Ｐについても正確に表現された指位置データＺ（さらには解析データＦ）を生成できる。すなわち、電子楽器２０の演奏中における利用者の手の形状を高精度に推定できる。

【0051】

以上の通り、第１実施形態によれば、電子楽器２０の演奏中における利用者の手の形状が高精度に推定される。したがって、利用者は、推定結果を利用した製品またはサービス等の多様な顧客体験を享受できる。

【0052】

第１実施形態においては特に、指位置データＹおよび指位置データＺが、各解析点Ｐの確率分布を表す単位データＵを含む。したがって、生成モデルＭを確立する訓練段階において、生成モデルＭが生成する指位置データＺに補助成分Ｒを付加することで、機械学習に利用される訓練データＴを簡便に生成できるという利点がある。

【0053】

［訓練処理部５０］
図３の訓練処理部５０は、機械学習により補正モデルＭbを構築する。なお、補正モデルＭbの構築前に検出モデルＭaは訓練済である。

【0054】

図１０は、訓練処理部５０の説明図である。補正モデルＭbの機械学習には複数の基礎データＢが利用される。複数の基礎データＢは、事前に用意されて記憶装置１２に記憶される。各基礎データＢは、訓練用の画像データＧtと訓練用の演奏データＥtとを含む。特定の演奏者による電子楽器２０の演奏を収録することで、画像データＧtと演奏データＥtとが事前に準備される。すなわち、画像データＧtが表す演奏と演奏データＥtが表す演奏とは共通する。

【0055】

補正モデルＭbの機械学習において、入力データ取得部４１は、画像データＧtと演奏データＥtと指位置データＹtとを含む訓練データＴを生成する。訓練データＴは、前述の入力データＣ1に相当する。具体的には、訓練データＴの指位置データＹtは、画像データＧtから生成される指位置データＸtに対して前述の補充処理を実行することで生成される。

【0056】

指位置データ生成部４２は、訓練データＴを処理することで領域データＤtおよび指位置データＺtを生成する。具体的には、領域検出部４２１は、画像データＧtを検出モデルＭaにより処理することで領域データＤtを生成する。補正処理部４２２は、指位置データＹtと演奏データＥtとを初期的または暫定的な補正モデルＭb（以下「暫定モデルＭ0」という）により処理することで、指位置データＺtを生成する。

【0057】

図１０に例示される通り、訓練処理部５０は、成分付加部５１と更新処理部５２とを含む。成分付加部５１は、指位置データＺtに対して前述の補充処理を実行することで参照データＬを生成する。具体的には、成分付加部５１は、演奏データＥtが押鍵を表す場合、または、領域データＤtにおいて利用者の手が検出された場合に、指位置データＺtに補助成分Ｒを付加することで参照データＬを生成する。

【0058】

更新処理部５２は、指位置データＹtと参照データＬとの差異が低減されるように暫定モデルＭ0を更新する。具体的には、更新処理部５２は、指位置データＹtと参照データＬとの差異を表す誤差関数を算定し、誤差関数が低減されるように暫定モデルＭ0の複数の変数を更新する。

【0059】

図１１は、制御装置１１が暫定モデルＭ0を更新する処理（以下「訓練処理」という）のフローチャートである。例えば操作装置１４に対する操作を契機として訓練処理が開始される。

【0060】

訓練処理が開始されると、制御装置１１（訓練処理部５０）は、複数の基礎データＢの何れか（以下「選択基礎データＢ」という）を選択する（Ｓb1）。制御装置１１（領域検出部４２１）は、選択基礎データＢの画像データＧtを検出モデルＭaにより処理することで領域データＤtを生成する（Ｓb2）。

【0061】

制御装置１１（位置推定部４１２）は、選択基礎データＢの画像データＧtの解析により指位置データＸtを生成する（Ｓb3）。制御装置１１（成分付加部４１３）は、領域データＤtおよび演奏データＥtを利用した前述の補充処理を指位置データＸtに対して実行することで、指位置データＹtを生成する（Ｓb4）。すなわち、画像データＧtと演奏データＥtと指位置データＹtとを含む訓練データＴが生成される。制御装置１１（補正処理部４２２）は、指位置データＹtと演奏データＥtとを暫定モデルＭ0により処理することで指位置データＺtを生成する（Ｓb5）。

【0062】

制御装置１１（成分付加部５１）は、領域データＤtおよび演奏データＥtを利用した前述の補充処理を指位置データＺtに対して実行することで、参照データＬを生成する（Ｓb6）。制御装置１１（更新処理部５２）は、指位置データＹtと参照データＬとの誤差を表す損失関数を算定する（Ｓb7）。制御装置１１（更新処理部５２）は、損失関数が低減（理想的には最小化）されるように、暫定モデルＭ0の複数の変数を更新する（Ｓb8）。損失関数に応じた各変数の更新には、例えば誤差逆伝播法が利用される。

【0063】

制御装置１１は、所定の終了条件が成立したか否かを判定する（Ｓb9）。終了条件は、損失関数が所定の閾値を下回ること、または、損失関数の変化量が所定の閾値を下回ることである。終了条件が成立しない場合（Ｓb9：NO）、制御装置１１は、未選択の基礎データＢを新たな選択基礎データＢとして選択する（Ｓb1）。すなわち、終了条件の成立（Ｓb9：YES）まで、暫定モデルＭ0の複数の変数を更新する処理（Ｓb2～Ｓb8）が反復される。終了条件が成立した場合（Ｓb9：YES）、制御装置１１は、訓練処理を終了する。終了条件が成立した時点における暫定モデルＭ0が、訓練済の補正モデルＭbとして確定される。

【0064】

以上の訓練処理により構築された補正モデルＭbによれば、指位置データＹにおける各解析点Ｐの位置が画像データＧおよび演奏データＥに応じて補正された指位置データＺを生成できる。具体的には、撮影画像において不鮮明なため解析点Ｐが指位置データＸにおいて欠損している場合でも、画像データＧおよび演奏データＥの利用により当該解析点Ｐが補完される。すなわち、解析点Ｐを適切に補完可能な補正モデルＭbが、訓練処理により構築される。したがって、撮影画像において不鮮明な部分の解析点Ｐについても正確に表現された指位置データＺ（さらには解析データＦ）を生成できる。

【0065】

Ｂ：第２実施形態
第２実施形態を説明する。なお、以下に例示する各態様において機能が第１実施形態と同様である要素については、第１実施形態の説明と同様の符号を流用して各々の詳細な説明を適宜に省略する。

【0066】

第１実施形態の領域データＤは、撮影画像のうち右手領域ＡRと左手領域ＡLとを表すデータである。第２実施形態の領域データＤは、撮影画像における利用者の手（右手ＨRおよび左手ＨL）の表面の深度を表す深度データである。深度データが表す深度が閾値を上回る領域が、右手領域ＡRまたは左手領域ＡLとして特定される。すなわち、第２実施形態の領域データＤは、第１実施形態と同様に、右手領域ＡRおよび左手領域ＡLを表すデータである。訓練処理に利用される領域データＤtも同様に深度データである。

【0067】

成分付加部４１３は、第１実施形態と同様に、領域データＤにおいて利用者の手が検出された場合に、指位置データＸに補助成分Ｒを付加することで指位置データＹを生成する。成分付加部５１も第１実施形態と同様に、領域データＤtにおいて利用者の手が検出された場合に、指位置データＺtに補助成分Ｒを付加することで参照データＬを生成する。

【0068】

領域データＤおよび領域データＤtが深度データである点以外は、第１実施形態と同様である。したがって、第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態においては、画像データＧが表す手の表面の深度を表す深度データが領域データＤとして生成される。したがって、例えば画像データＧが表す撮影画像において利用者の手が不鮮明な場合でも、電子楽器２０の演奏中における利用者の手の形状を高精度に推定できる。

【0069】

Ｃ：第３実施形態
第１実施形態においては、領域データＤにおいて利用者の手が検出された場合に補助成分Ｒを指位置データＸに付加した。第３実施形態においては、領域データＤにおいて検出された手が鍵盤２１に重なる場合に、補助成分Ｒが指位置データＸに付加される。

【0070】

領域検出部４２１は、右手領域ＡRおよび左手領域ＡLに加えて鍵盤２１の領域（以下「鍵盤領域」という）を表す領域データＤを生成する。鍵盤領域の検出には、例えば検出モデルＭaが利用される。なお、領域検出部４２１は、利用者による鍵盤２１の操作に応じて鍵盤領域を検出してもよい。例えば、利用者は、鍵盤２１のうち左端（低音側の端部）の近傍に位置する第１鍵２２と、右端（高音側の端部）の近傍に位置する第２鍵２２とを操作する。領域検出部４２１は、画像データＧから第１鍵２２と第２鍵２２とを特定し、第１鍵２２と第２鍵２２との間の領域を鍵盤領域として特定する。

【0071】

成分付加部４１３は、領域データＤにおいて右手領域ＡRまたは左手領域ＡLが鍵盤領域に重なる場合に、指位置データＸに補助成分Ｒを付加することで指位置データＹを生成する。成分付加部５１も同様に、領域データＤにおいて右手領域ＡRまたは左手領域ＡLが鍵盤領域に重なる場合に、指位置データＺtに補助成分Ｒを付加することで参照データＬを生成する。

【0072】

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態においては、利用者の手が鍵盤２１に重なる場合に、補助成分Ｒの付加が実行される。すなわち、利用者の手が検出されたか否かだけでなく鍵盤２１と手との関係も補助成分Ｒの付加に加味される。したがって、電子楽器２０の演奏中における利用者の手の形状を高精度に推定できる。

【0073】

Ｄ：第４実施形態
図１２は、第４実施形態に係る電子鍵盤楽器６０の構成を例示するブロック図である。第１実施形態においては、情報処理システム１０と電子楽器２０と撮像装置３０とが別体で構成された形態を例示した。第４実施形態の電子鍵盤楽器６０は、情報処理システム１０と電子楽器２０と撮像装置３０とが単体の筐体（図示略）に設置された電子楽器である。なお、電子鍵盤楽器６０とは別体の撮像装置３０が、電子鍵盤楽器６０に対して有線または無線により接続されてもよい。

【0074】

情報処理システム１０の構成および機能は第１実施形態と同様である。したがって、第４実施形態においても第１実施形態と同様の効果が実現される。なお、第２実施形態および第３実施形態に係る構成は、第４実施形態の電子鍵盤楽器６０に採用されてもよい。

【0075】

Ｅ：変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

【0076】

（１）前述の各形態においては、入力データ取得部４１の位置推定部４１２が、画像データＧから指位置データＸを生成したが、指位置データＸが外部装置から供給される形態においては、指位置データＸの生成は省略されてよい。すなわち、位置推定部４１２は入力データ取得部４１から省略されてよい。

【0077】

（２）前述の各形態においては、情報処理システム１０が解析処理部４０および訓練処理部５０の双方を具備する形態を便宜的に例示したが、解析処理部４０と訓練処理部５０とは別個のシステムに搭載されてもよい。解析処理部４０が搭載された情報処理システム１０（演奏解析システム）は、利用者による電子楽器２０の演奏を解析する。訓練処理部５０が搭載された情報処理システム１０（機械学習システム）は、生成モデルＭ（補正モデルＭb）を機械学習により構築する。演奏解析システムは、例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報装置で実現される。機械学習システムは、例えばウェブサーバ等のサーバ装置により実現される。機械学習システムにより構築された生成モデルＭが演奏解析システムに送信される。

【0078】

（３）前述の各形態においては、情報処理システム１０（解析処理部４０）が入力データ取得部４１と指位置データ生成部４２と解析データ生成部４３とを具備する構成を例示したが、以上の要素のうち少なくともひとつは省略されてよい。

【0079】

例えば、入力データＣ1を取得する入力データ取得部４１（入力データ生成部）は、指位置データ生成部４２および解析データ生成部４３を要件とせずに独立に成立し得る。すなわち、指位置データ生成部４２および解析データ生成部４３は解析処理部４０から省略されてもよい。さらに、入力データ取得部４１のうち指位置データＹを生成する要素（例えば成分付加部４１３）も単独で成立し得る。

【0080】

同様に、指位置データ生成部４２は、入力データ取得部４１および解析データ生成部４３を要件とせずに単独で成立し得る。すなわち、入力データ取得部４１および解析データ生成部４３は解析処理部４０から省略されてもよい。さらに、指位置データ生成部４２のうち指位置データＺを生成する要素（例えば補正処理部４２２）も単独で成立し得る。

【0081】

（４）前述の各形態においては、利用者による鍵盤楽器（電子楽器２０）の演奏を解析する形態を例示したが、解析対象となる楽器は鍵盤楽器に限定されない。例えば、弦楽器または管楽器等の各種の楽器の演奏が、前述の各形態と同様の構成および処理により解析される。解析対象の楽器は、自然楽器および電子楽器（または電気楽器）の何れでもよい。電子楽器は、前述の第４実施形態に例示した電子鍵盤楽器６０のほか、電子弦楽器（電気弦楽器）または電子管楽器（電気管楽器）等を包含する。

【0082】

（５）前述の各形態においては、深層ニューラルネットワークを生成モデルＭとして例示したが、生成モデルＭの構成は以上の例示に限定されない。例えば、隠れマルコフモデル（HMM：Hidden Markov Model）またはサポートベクタマシン（SVM：Support Vector Machine）等の統計モデルも、生成モデルＭとして利用される。

【0083】

（６）例えばスマートフォンまたはタブレット端末等の情報装置との間で通信するサーバ装置により情報処理システム１０が実現されてもよい。例えば、情報処理システム１０は、情報装置から受信した画像データＧおよび演奏データＥを利用して解析データＦを生成し、解析データＦを情報装置に送信する。

【0084】

（７）以上に例示した情報処理システム１０の機能は、前述の通り、制御装置１１を構成する単数または複数のプロセッサと、記憶装置１２に記憶されたプログラムとの協働により実現される。本開示に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶媒体が、前述の非一過性の記録媒体に相当する。

【0085】

Ｆ：付記
以上に例示した形態から、例えば以下の構成が把握される。

【0086】

本開示のひとつの態様（態様１）に係る情報処理方法は、楽器を演奏している利用者の手の画像を表す画像データと、前記手における複数の解析点の各々の位置を表す第１指位置データと、前記楽器の演奏を表す演奏データと、を含む入力データを取得し、訓練済の生成モデルにより前記入力データを処理することで、前記画像データが表す手の位置と前記演奏データが表す演奏とに応じて前記第１指位置データにおける前記複数の解析点の各々の位置が補正された第２指位置データを生成する。

【0087】

以上の態様においては、画像データが表す手の位置と演奏データが表す演奏とに応じて第１指位置データにおける各解析点の位置が補正されることで第２指位置データが生成される。したがって、第１指位置データと比較して高精度に利用者の各解析点の位置を表す第２指位置データが生成される。すなわち、楽器の演奏中における利用者の手の形状を高精度に推定できる。

【0088】

「楽器」は、利用者が自身の手を利用して演奏する任意の種類の楽器である。楽器の典型例は鍵盤楽器であるが、例えば弦楽器または管楽器等の楽器も含まれる。

【0089】

「画像データ」は、楽器を演奏している利用者の撮像により生成される任意の形式のデータである。例えば、画像データは、鍵盤楽器における鍵盤と利用者の両手（左手および右手）とを表す画像である。

【0090】

「解析点」は、利用者の手において位置の解析対象となる地点である。例えば、利用者の各指の先端および関節が、解析点の典型例である。

【0091】

「（第１／第２）指位置データ」は、各解析点の位置を表すデータである。例えば、指位置データは、複数の解析点の各々について単位データを含む。各解析点の単位データは、当該解析点の位置を表すデータである。具体的には、空間内における解析点の確率分布を表すデータである。例えば、単位データは、空間内の複数の地点（例えば格子点）の各々について、当該地点が解析点に該当する確率を表すデータである。

【0092】

「演奏データ」は、利用者による演奏の内容を表す任意の形式のデータである。演奏データの典型例は、利用者が演奏した音高を指定するＭＩＤＩデータである。なお、演奏により楽器から発音される演奏音の解析により演奏データが生成されてもよい。

【0093】

生成モデルは、事前の機械学習により構築された訓練済モデルである。生成モデルは、画像データが表す手の位置と演奏データが表す演奏とに応じて第１指位置データにおける複数の解析点の各々の位置が補正されるように構築される。具体的には、画像データにおいて不鮮明な解析点が画像データおよび演奏データの利用により補完されるように、生成モデル（補正モデル）が構築される。

【0094】

態様１の具体例（態様２）において、前記第１指位置データは、前記複数の解析点にそれぞれ対応する複数の単位データを含み、前記複数の解析点の各々に対応する単位データは、３次元空間内における当該解析点の確率分布を表す。また、態様１または態様２の具体例（態様３）において、前記第２指位置データは、前記複数の解析点にそれぞれ対応する複数の単位データを含み、前記複数の解析点の各々に対応する単位データは、３次元空間内における当該解析点の確率分布を表す。以上の態様においては、第１指位置データまたは第２指位置データが、各解析点の確率分布を表す単位データを含む。したがって、生成モデルを確立する訓練段階において、生成モデルの指位置データに所定の確率分布を付加することで、機械学習に利用される訓練データを簡便に生成できるという利点がある。

【0095】

態様２または態様３の具体例（態様４）において、前記複数の解析点の各々の位置が補正される結果、前記第１指位置データにおいて空値であった単位データは、前記第２指位置データにおいては有意な数値を含む単位データに変更される。以上の態様によれば、撮影画像において不鮮明なため解析点が第１指位置データにおいて欠損している場合でも、画像データおよび演奏データの利用により当該解析点が補完される。

【0096】

態様１から態様４の何れかの具体例（態様５）において、前記演奏データは、ＭＩＤＩ規格に準拠したイベントデータである。以上の態様によれば、ＭＩＤＩ規格に準拠した各種の機器により生成されるイベントデータを演奏データとして利用できる。

【0097】

態様１から態様５の何れかの具体例（態様６）において、前記入力データの取得は、前記画像データおよび前記演奏データを取得することと、前記手における前記複数の解析点の各々の確率分布を表す初期データを前記画像データから生成することと、前記初期データから前記第１指位置データを生成することとを含む。また、態様６の具体例において、前記生成モデルは、検出モデルと補正モデルとを含み、前記第２指位置データの生成においては、前記画像データを前記検出モデルにより処理することで、前記画像データが表す画像のうち前記手の領域を表す領域データを生成し、前記第１指位置データの生成においては、前記演奏データが当該楽器の操作を表す場合、または、前記領域データにおいて前記手が検出された場合に、前記初期データに補助成分を付加することで前記第１指位置データを生成し、前記第２指位置データの生成においては、前記第１指位置データと前記演奏データとを前記補正モデルにより処理することで、前記第２指位置データを生成する。

【0098】

態様７の具体例（態様８）において、前記楽器は、鍵盤を含む鍵盤楽器であり、前記領域データにおいて前記手が検出された場合は、前記領域データにおいて検出された前記手が前記鍵盤に重なる場合である。以上の態様においては、利用者の手が鍵盤に重なる場合に、初期データに対する補助成分の付加が実行される。すなわち、利用者の手が検出されたか否かだけでなく鍵盤と手との関係も補助成分の付加に加味される。したがって、鍵盤楽器の演奏中における利用者の手の形状を高精度に推定できる。

【0099】

態様７または態様８の具体例（態様９）において、前記領域データは、前記画像データが表す前記手の表面の深度を表す深度データである。以上の態様においては、画像データが表す手の表面の深度を表す深度データが領域データとして生成される。したがって、例えば画像データが表す画像において利用者の手が不鮮明な場合でも、鍵盤楽器の演奏中における利用者の手の形状を高精度に推定できる。

【0100】

本開示のひとつの態様（態様１０）に係る情報処理方法は、楽器を演奏している利用者の手の画像を表す画像データと、前記手における複数の解析点の各々の位置を表す第１指位置データと、前記楽器の演奏を表す演奏データとを取得し、前記画像データが表す画像のうち前記手の領域を表す領域データを生成し、前記第１指位置データと前記演奏データとを補正モデルにより処理することで第２指位置データを生成し、前記補正モデルを構築する方法であって、前記画像データと前記第１指位置データと前記演奏データとの取得においては、前記画像データおよび前記演奏データを取得し、前記手における前記複数の解析点の各々の確率分布を表す初期データを前記画像データから生成し、前記演奏データが当該楽器の操作を表す場合、または、前記領域データにおいて前記手が検出された場合に、前記初期データに補助成分を付加することで前記第１指位置データを生成し、前記補正モデルの構築においては、前記演奏データが当該楽器の操作を表す場合、または、前記領域データにおいて前記手が検出された場合に、前記第２指位置データに補助成分を付加することで参照データを生成し、前記第１指位置データと前記参照データとの差異が低減されるように前記補正モデルを更新する。

【0101】

以上の態様においては、演奏データが楽器の操作を表す場合、または、領域データにおいて利用者の手が検出された場合に、初期データに対する補助成分の付加と、補正モデルにより生成された第２指位置データに対する補助成分の付加とが実行され、第１指位置データと参照データとの差異が低減されるように暫定的な補正モデルが更新される。したがって、第１指位置データにおける各解析点の位置が画像データおよび演奏データに応じて補正された第２指位置データを生成できる。具体的には、画像データが表す画像において不鮮明なため解析点が欠損している場合でも、画像データおよび演奏データの利用により当該解析点が補完される。すなわち、解析点を適切に補完可能な補正モデルが、訓練処理により構築される。したがって、画像において不鮮明な部分の解析点についても正確に表現された第２指位置データを生成できる。なお、本開示は、態様１０の情報処理方法を実行する情報処理システム、または、態様１０の情報処理方法をコンピュータシステムに実行させるプログラムとしても特定される。

【0102】

態様１０の具体例（態様１１）において、前記楽器は、鍵盤を含む鍵盤楽器であり、前記領域データにおいて前記手が検出された場合は、前記領域データにおいて検出された前記手が前記鍵盤に重なる場合である。以上の態様においては、利用者の手が鍵盤に重なる場合に、初期データに対する補助成分の付加と、第２指位置データに対する補助成分の付加とが実行される。すなわち、利用者の手が検出されたか否かだけでなく鍵盤と手との関係も補助成分の付加に加味される。したがって、鍵盤楽器の演奏中における利用者の手の形状を高精度に推定できる。

【0103】

態様１０または態様１１の具体例（態様１２）において、前記領域データは、前記画像データが表す前記手の表面の深度を表す深度データである。以上の態様においては、画像データが表す手の表面の深度を表す深度データが領域データとして生成される。したがって、例えば画像データが表す画像において利用者の手が不鮮明な場合でも、鍵盤楽器の演奏中における利用者の手の形状を高精度に推定できる。

【0104】

本開示のひとつの態様（態様１３）に係る情報処理システムは、楽器を演奏している利用者の手の画像を表す画像データと、前記手における複数の解析点の各々の位置を表す第１指位置データと、前記楽器の演奏を表す演奏データと、を含む入力データを取得する入力データ取得部と、訓練済の生成モデルにより前記入力データを処理することで、前記画像データが表す手の位置と前記演奏データが表す演奏とに応じて前記第１指位置データにおける前記複数の解析点の各々の位置が補正された第２指位置データを生成する指位置データ生成部とを具備する。態様１に係る情報処理方法について前述した各形態は、態様１３の情報処理システムにも同様に適用される。

【0105】

本開示のひとつの態様（態様１４）に係るプログラムは、楽器を演奏している利用者の手の画像を表す画像データと、前記手における複数の解析点の各々の位置を表す第１指位置データと、前記楽器の演奏を表す演奏データと、を含む入力データを取得する入力データ取得部、および、訓練済の生成モデルにより前記入力データを処理することで、前記画像データが表す手の位置と前記演奏データが表す演奏とに応じて前記第１指位置データにおける前記複数の解析点の各々の位置が補正された第２指位置データを生成する指位置データ生成部、としてコンピュータシステムを機能させる。態様１に係る情報処理方法について前述した各形態は、態様１４のプログラムにも同様に適用される。

【0106】

本開示のひとつの態様（態様１５）に係る電子鍵盤楽器は、複数の鍵を含む鍵盤と、前記鍵盤を演奏している利用者の手の画像を表す画像データと、前記手における複数の解析点の各々の位置を表す第１指位置データと、前記鍵盤の演奏を表す演奏データと、を含む入力データを取得する入力データ取得部と、訓練済の生成モデルにより前記入力データを処理することで、前記画像データが表す手の位置と前記演奏データが表す演奏とに応じて前記第１指位置データにおける前記複数の解析点の各々の位置が補正された第２指位置データを生成する指位置データ生成部とを具備する。態様１に係る情報処理方法について前述した各形態は、態様１５の電子鍵盤楽器にも同様に適用される。

【符号の説明】

【0107】

１０…情報処理システム、１１…制御装置、１２…記憶装置、１３…表示装置、１４…操作装置、１５…音源装置、１６…放音装置、２０…電子楽器、２１…鍵盤、２２…鍵、３０…撮像装置、４０…解析処理部、４１…入力データ取得部、４１１…情報取得部、４１２…位置推定部、４１３…成分付加部、４２…指位置データ生成部、４２１…領域検出部、４２２…補正処理部、４３…解析データ生成部、５０…訓練処理部、５１…成分付加部、５２…更新処理部、６０…電子鍵盤楽器。

【図1】