(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024118627
(43)【公開日】2024-09-02
(54)【発明の名称】情報処理方法
(51)【国際特許分類】
G10H 1/00 20060101AFI20240826BHJP
G09B 15/00 20060101ALI20240826BHJP
【FI】
G10H1/00 Z
G09B15/00 Z
【審査請求】未請求
【請求項の数】1
【出願形態】OL
(21)【出願番号】P 2023025012
(22)【出願日】2023-02-21
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110003177
【氏名又は名称】弁理士法人旺知国際特許事務所
(72)【発明者】
【氏名】山本 和彦
【テーマコード(参考)】
5D478
【Fターム(参考)】
5D478CC22
(57)【要約】
【課題】楽器の演奏中における利用者の手の形状を高精度に推定する。
【解決手段】情報処理システムは、入力データ取得部41と指位置データ生成部42とを具備する。入力データ取得部41は、楽器を演奏している利用者の手の画像を表す画像データGと、手における複数の解析点の各々の位置を表す指位置データYと、楽器の演奏を表す演奏データEと、を含む入力データC1を取得する。指位置データ生成部42は、入力データC1を生成モデルMにより処理することで、画像データGが表す手の位置と演奏データEが表す演奏とに応じて指位置データYにおける複数の解析点の各々の位置が補正された指位置データZを生成する。
【選択図】
図5
【特許請求の範囲】
【請求項1】
楽器を演奏している利用者の手の画像を表す画像データと、前記手における複数の解析点の各々の位置を表す第1指位置データと、前記楽器の演奏を表す演奏データと、を含む入力データを取得し、
訓練済の生成モデルにより前記入力データを処理することで、前記画像データが表す手の位置と前記演奏データが表す演奏とに応じて前記第1指位置データにおける前記複数の解析点の各々の位置が補正された第2指位置データを生成する
コンピュータシステムにより実現される情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、楽器の演奏を解析する技術に関する。
【背景技術】
【0002】
利用者による楽器の演奏を解析する各種の技術が従来から提案されている。例えば特許文献1には、鍵盤楽器の鍵盤と利用者の手とを含む画像を解析することで、利用者の手の形状を推定する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】国際公開第2021/157691号明細書
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、鍵盤楽器の鍵盤と利用者の手とを含む画像の解析だけでは、手の形状を高精度に推定することは現実的には困難である。例えば、鍵盤を操作する指が指くぐり等の奏法により他の指の背後に隠れた状態、または、高速に移動する指が画像においてぶれた状態では、画像の解析により利用者の手の形状を高精度に推定することはできない。以上の事情を考慮して、本開示のひとつの態様は、楽器の演奏中における利用者の手の形状を高精度に推定することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために、本開示のひとつの態様に係る情報処理方法は、楽器を演奏している利用者の手の画像を表す画像データと、前記手における複数の解析点の各々の位置を表す第1指位置データと、前記楽器の演奏を表す演奏データと、を含む入力データを取得し、訓練済の生成モデルにより前記入力データを処理することで、前記画像データが表す手の位置と前記演奏データが表す演奏とに応じて前記第1指位置データにおける前記複数の解析点の各々の位置が補正された第2指位置データを生成する。
【図面の簡単な説明】
【0006】
【
図1】第1実施形態における情報処理システムのブロック図である。
【
図2】画像データおよび領域データの説明図である。
【
図3】情報処理システムの機能的な構成を例示するブロック図である。
【
図5】解析処理部の構成を例示するブロック図である。
【
図12】第4実施形態における電子鍵盤楽器のブロック図である。
【発明を実施するための形態】
【0007】
A:第1実施形態
図1は、第1実施形態に係る情報処理システム10の構成を例示するブロック図である。情報処理システム10は、利用者(すなわち演奏者)による電子楽器20の演奏を解析するためのコンピュータシステムである。情報処理システム10には、電子楽器20および撮像装置30が有線または無線により接続される。
【0008】
電子楽器20は、鍵盤21を含む電子鍵盤楽器である。鍵盤21は、相異なる音高に対応する複数の鍵22で構成される。利用者は、各鍵22を順次に操作することで所望の楽曲を演奏する。
【0009】
電子楽器20は、利用者による演奏を表す演奏データEを情報処理システム10に送信する。演奏データEは、利用者が演奏した音高を表すデータである。利用者による各鍵22の操作毎に、電子楽器20から演奏データEが順次に送信される。例えば、演奏データEは、利用者が操作した鍵22に対応する音高と押鍵の強度とを指定する。演奏データEは、例えばMIDI(Musical Instrument Digital Interface)規格に準拠したイベントデータである。
【0010】
撮像装置30は、利用者による電子楽器20の演奏を撮像する画像入力機器である。具体的には、撮像装置30は、時間軸上の単位期間(フレーム)毎に画像データGを生成する。単位期間は、所定の時間長の期間である。画像データGの時系列は動画データを構成する。撮像装置30は、例えば、撮影レンズ等の光学系と、光学系からの入射光を受光する撮像素子と、撮像素子による受光量に応じた画像データGを生成する処理回路とを具備する。なお、第1実施形態においては情報処理システム10に別体の撮像装置30が接続された形態を例示するが、撮像装置30は情報処理システム10に搭載されてもよい。
【0011】
第1実施形態の撮像装置30は、電子楽器20の上方に設置され、電子楽器20の鍵盤21と利用者の右手HRおよび左手HLとを撮像する。したがって、
図2に例示される通り、電子楽器20の鍵盤21と利用者の右手HRおよび左手HLとを含む画像(以下「撮影画像」という)の画像データGが、撮像装置30により時系列に生成される。すなわち、画像データGは、電子楽器20を演奏している利用者の右手HRおよび左手HLの画像(撮影画像)を表すデータである。利用者が電子楽器20を演奏する動画を表す動画データが、利用者による演奏に並行して生成される。
【0012】
図1の情報処理システム10は、利用者による電子楽器20の演奏を解析するコンピュータシステムである。情報処理システム10は、例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報装置で実現される。情報処理システム10は、制御装置11と記憶装置12と表示装置13と操作装置14と音源装置15と放音装置16とを具備する。なお、情報処理システム10は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。
【0013】
制御装置11は、情報処理システム10の各要素を制御する単数または複数のプロセッサである。具体的には、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより、制御装置11が構成される。
【0014】
記憶装置12は、制御装置11が実行するプログラムと、制御装置11が使用する各種のデータとを記憶する単数または複数のメモリである。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置12として利用される。なお、例えば、情報処理システム10に対して着脱される可搬型の記録媒体、または、制御装置11が通信網を介してアクセス可能な記録媒体(例えばクラウドストレージ)が、記憶装置12として利用されてもよい。
【0015】
表示装置13は、制御装置11による制御のもとで画像を表示する。例えば、液晶表示パネルまたは有機EL(Electroluminescence)パネル等の各種の表示パネルが、表示装置13として利用される。操作装置14は、利用者からの指示を受付ける指示入力機器である。例えば、利用者が操作する操作子、または、表示装置13と一体に構成されたタッチパネルが、操作装置14として利用される。なお、情報処理システム10とは別体の表示装置13または操作装置14が、情報処理システム10に対して有線または無線により接続されてもよい。
【0016】
音源装置15は、演奏データEに対応する音響信号を生成する。具体的には、音源装置15は、演奏データEが表す楽音の波形を表す音響信号を生成する。なお、制御装置11がプログラムを実行することで音源装置15の機能が実現されてもよい。放音装置16は、音響信号が表す楽音を放射する。例えばスピーカ又はヘッドホンが放音装置16として利用される。なお、情報処理システム10とは別体の放音装置16が、情報処理システム10に対して有線または無線により接続されてもよい。
【0017】
図3は、情報処理システム10の機能的な構成を例示するブロック図である。制御装置11は、記憶装置12に記憶されたプログラムを実行することで、利用者による電子楽器20の演奏を解析するための複数の機能(解析処理部40および訓練処理部50)を実現する。
【0018】
[解析処理部40]
解析処理部40は、撮像装置30から供給される画像データGと電子楽器20から供給される演奏データEとを処理することで解析データFを生成する。解析データFは、利用者による電子楽器20の演奏を解析した結果を表すデータである。具体的には、解析データFは、演奏中における利用者の右手HRおよび左手HLの状態を表すデータである。利用者による演奏に並行して解析データFが順次に生成される。具体的には、解析処理部40は、単位期間毎に解析データFを生成する。
【0019】
図4は、解析データFの説明図である。解析データFは、解析データFRと解析データFLとを含む。解析データFRは、利用者の右手HRに対応する複数の解析点Pの各々の座標を表すデータである。解析データFLは、利用者の左手HLに対応する複数の解析点Pの各々の座標を表すデータである。
【0020】
解析点Pは、利用者の右手HRおよび左手HLにおいて解析対象となる地点である。具体的には、利用者の各指の先端および関節の各地点と、手首に対応する地点とが解析点Pとして例示される。各解析点Pは空間αに設定される。空間αは、右手HRおよび左手HLの各々について設定される3次元空間である。例えば利用者の手首に対応する解析点Pを基準(例えば原点)として空間αが設定される。以上の説明から理解される通り、解析データFは、演奏中における利用者の手の姿勢を表すデータである。
【0021】
図5は、解析処理部40の構成を例示するブロック図である。解析処理部40は、入力データ取得部41と指位置データ生成部42と解析データ生成部43とを含む。入力データ取得部41は、単位期間毎に入力データC1を取得する。各単位期間の入力データC1は、画像データGと演奏データEと指位置データYとを含む。指位置データYは、利用者の右手HRおよび左手HLにおける複数の解析点Pの各々の位置を表すデータである。
【0022】
図6は、指位置データYの模式図である。指位置データYは、利用者の右手HRに対応する指位置データYRと利用者の左手HLに対応する指位置データYLとを含む。指位置データYRは、利用者の右手HRの相異なる解析点P(PR1,PR2,…)に対応する複数の単位データUを含む。指位置データYLは、利用者の左手HLの相異なる解析点P(PL1,PL2,…)に対応する複数の単位データUを含む。
【0023】
1個の解析点Pに対応する単位データUは、空間α内における解析点Pの確率分布を表すデータである。
図6に例示される通り、空間αには複数の格子点Kが設定される。各格子点Kは、空間α内において相互に直交する3軸の各方向に等間隔に設定された地点(グリッド)である。単位データUは、空間α内の複数の格子点Kの各々について確率Qを表す。各格子点Kの確率Qは、当該格子点Kが解析点Pに該当する確度である。例えば、空間α内の1個の格子点Kの確率Qが大きいほど、当該格子点Kが解析点Pに該当する確度が高い。したがって、単位データUが表す複数の確率Qの分布は、空間α内における解析点Pの確率分布に相当する。すなわち、指位置データYRは、利用者の右手HRに対応する複数の解析点Pの各々について空間α内における確率分布を表す。同様に、指位置データYLは、利用者の左手HLに対応する複数の解析点Pの各々について空間α内における確率分布を表す。
【0024】
図5の指位置データ生成部42は、入力データC1を処理することで出力データC2を生成する。利用者による演奏に並行して単位期間毎に出力データC2が生成される。出力データC2は、領域データDと指位置データZとを含む。
【0025】
図2に例示される通り、領域データDは、画像データGが表す撮影画像のうち右手領域ARと左手領域ALとを表すデータである。右手領域ARは、撮影画像のうち利用者の右手HRが存在する領域である。左手領域ALは、撮影画像のうち利用者の左手HLが存在する領域である。領域データDは、後述の通り、入力データ取得部41による指位置データYの生成に利用される。
【0026】
指位置データZは、指位置データYと同様に、利用者の右手HRおよび左手HLにおける複数の解析点Pの各々の位置を表すデータである。具体的には、指位置データZは、画像データGが表す右手HRおよび左手HLの位置と演奏データEが表す演奏とに応じて、指位置データYにおける各解析点Pの位置を補正したデータである。
【0027】
図6に例示される通り、指位置データZの形式は指位置データYと同様である。具体的には、指位置データZは、利用者の右手HRに対応する指位置データZRと、利用者の左手HLに対応する指位置データZLとを含む。指位置データZRは、利用者の右手HRの相異なる解析点P(PR1,PR2,…)に対応する複数の単位データUを含む。指位置データZLは、利用者の左手HLの相異なる解析点P(PL1,PL2,…)に対応する複数の単位データUを含む。各解析点Pの単位データUは、空間αにおける当該解析点Pの確率分布を表す。なお、指位置データYは「第1指位置データ」の一例であり、指位置データZは「第2指位置データ」の一例である。
【0028】
図5に例示される通り、指位置データ生成部42による出力データC2の生成には生成モデルMが利用される。生成モデルMは、入力データC1と出力データC2との関係を機械学習により習得した訓練済モデルである。生成モデルMは、入力データC1と出力データC2との関係を訓練(機械学習)により獲得した訓練済モデルとも表現される。指位置データ生成部42は、各単位期間の入力データC1を生成モデルMにより処理することで出力データC2を生成する。すなわち、指位置データ生成部42は、入力データC1を生成モデルMに入力することで出力データC2を生成する。
【0029】
生成モデルMは、例えば深層ニューラルネットワーク(DNN:Deep Neural Network)で構成される。例えば、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)、または畳込ニューラルネットワーク(CNN:Convolutional Neural Network)等の任意の形式の深層ニューラルネットワークが、生成モデルMとして利用される。複数種の深層ニューラルネットワークの組合せにより生成モデルMが構成されてもよい。また、長短期記憶(LSTM:Long Short-Term Memory)またはAttention等の付加的な要素が生成モデルMに搭載されてもよい。
【0030】
指位置データ生成部42は、領域検出部421と補正処理部422とを含む。生成モデルMは、検出モデルMaと補正モデルMbとを含む。検出モデルMaおよび補正モデルMbの各々は、制御装置11に所定の演算を実行させるプログラムと、当該演算に適用される複数の変数(具体的には加重値およびバイアス)との組合せで実現される。検出モデルMaおよび補正モデルMbを実現するプログラムおよび複数の変数は、記憶装置12に記憶される。複数の変数は、機械学習により事前に設定される。
【0031】
検出モデルMaは、画像データGの入力に対して領域データDを出力する。すなわち、検出モデルMaは、画像データGが表す撮影画像から右手領域ARと左手領域ALとを抽出する物体検出(Semantic Segmentation)用の訓練済モデルである。検出モデルMaは、画像データGと領域データDとの関係を学習した訓練済モデルとも表現される。例えば、エンコーダとデコーダとで構成されるU-Net型のモデルが検出モデルMaとして例示される。領域検出部421は、画像データGを検出モデルMaにより処理することで領域データDを生成する。
【0032】
補正モデルMbは、指位置データYおよび演奏データEの入力に対して指位置データZを出力する。すなわち、補正モデルMbは、指位置データYおよび演奏データEの組と指位置データZとの関係を学習した訓練済モデルである。例えば、エンコーダとデコーダとで構成されるオートエンコーダが補正モデルMbとして例示される。補正処理部422は、指位置データYと演奏データEとを補正モデルMbにより処理することで指位置データZを生成する。なお、領域データDの生成の過程で検出モデルMaが生成する中間データが、指位置データYおよび演奏データEとともに補正モデルMbに入力されてもよい。補正モデルMbに入力される中間データは、例えば検出モデルMaのうち前半部分のエンコーダが出力するデータである。
【0033】
図5の解析データ生成部43は、指位置データ生成部42(補正処理部422)が生成した指位置データZから解析データFを生成する。具体的には、解析データ生成部43は、指位置データZのうち右手HRの指位置データZRから解析データFRを生成し、指位置データZのうち左手HLの指位置データZRから解析データFLを生成する。
【0034】
例えば、解析データ生成部43は、指位置データZRの各単位データUが表す確率分布において確率Qが最大となる地点(例えば格子点K)を右手HRの解析点Pとして確定する。解析データ生成部43は、指位置データZRの各単位データUについて以上の処理を実行することで、右手HRの各解析点Pの座標を表す解析データFRを生成する。同様に、解析データ生成部43は、指位置データZLの各単位データUが表す確率分布において確率Qが最大となる地点(例えば格子点K)を左手HLの解析点Pとして確定する。解析データ生成部43は、指位置データZLの各単位データUについて以上の処理を実行することで、左手HLの各解析点Pの座標を表す解析データFLを生成する。解析データFが表す右手HRおよび左手HLの各解析点Pは、解析結果として表示装置13に表示される。
【0035】
なお、解析データ生成部43が指位置データZから解析データFを生成する処理は、以上の例示に限定されない。例えば、解析データ生成部43は、各解析点Pの位置関係に関する制約条件、または、各解析点Pの移動速度に関する制約条件のもとで、各解析点Pを確定してもよい。位置関係に関する制約条件は、例えば1本の指において隣合う2個の解析点Pの距離は変化しないという条件である。また、移動速度に関する制約条件は、各解析点Pの移動速度が所定値を下回るという条件である。
【0036】
図7は、入力データ取得部41の構成を例示するブロック図である。入力データ取得部41は、情報取得部411と位置推定部412と成分付加部413とを含む。情報取得部411は、撮像装置30から順次に供給される画像データGと、電子楽器20から順次に供給される演奏データEとを受信する。位置推定部412および成分付加部413は、前述の指位置データYを単位期間毎に生成する。以上の説明から理解される通り、入力データ取得部41によるデータの「取得」は、「受信」と「生成」とを包含する。
【0037】
図7の位置推定部412は、画像データGから指位置データXを生成する。指位置データXは、指位置データYと同様に、利用者の右手HRおよび左手HLにおける複数の解析点Pの各々の位置を表すデータである。なお、指位置データXは「初期データ」の一例である。
【0038】
指位置データXの形式は指位置データYと同様である。具体的には、指位置データXは、利用者の右手HRに対応する指位置データXRと、利用者の左手HLに対応する指位置データXLとを含む。指位置データXRは、利用者の右手HRの相異なる解析点Pに対応する複数の単位データUを含む。指位置データXLは、利用者の左手HLの相異なる解析点Pに対応する複数の単位データUを含む。各解析点Pの単位データUは、空間αにおける当該解析点Pの確率分布を表す。指位置データYの生成には、公知の技術が任意に採用される。
【0039】
ところで、画像データGが表す撮影画像においては、利用者の手が部分的に不鮮明である場合がある。例えば、利用者の手のうち速く移動する部分はブレにより不鮮明な画像となる場合がある。また、利用者の手のうち他の指の背後に隠れる部分は不鮮明な画像となる場合がある。以上のように撮影画像において不鮮明な部分に対応する解析点Pについては空間α内の確率分布が特定されない。したがって、指位置データXの単位データUが空値(null)となる場合がある。単位データUについて「空値」とは、空間α内の複数の格子点Kの何れについても単位データUが有意な数値を含まない状態である。例えば、単位データUにおいて全部の格子点Kの確率Qがゼロである状態が「空値」である。
【0040】
図7の成分付加部413は、指位置データXから指位置データYを生成する。具体的には、成分付加部413は、指位置データXの複数の単位データUのうち空値の各単位データU(以下「空値データU0」という)について補充処理を実行することで指位置データYを生成する。補充処理は、指位置データXの各空値データU0に補助的な成分(以下「補助成分R」という)を付加する処理である。補充処理には、領域データDおよび演奏データEが利用される。
【0041】
図8は、補充処理のフローチャートである。単位期間毎に補充処理が実行される。制御装置11が
図8の補充処理を実行することで、成分付加部413が実現される。
【0042】
補充処理が開始されると、制御装置11は、指位置データXRの複数の単位データUから1以上の空値データU0を抽出する(Sa41)。制御装置11は、各空値データU0が指定する複数の確率Qのうち右手領域AR内の各格子点Kに対応する確率Q(=0)に補助成分Rを加算する(Sa42)。補助成分Rは、1未満の所定の正数である。右手領域ARには利用者の右手HRが存在するから、本来的には確率分布が存在すべきである。以上の事情にも関わらず単位データUが空値であるということは、撮影画像が不鮮明であるために確率分布が適切に推定されなかった可能性が高い。補助成分Rの加算は、以上に説明した確率分布の欠落を補足する処理である。右手領域ARが検出されない単位期間においては、補助成分Rの付加(Sa41,Sa42)は実行されない。
【0043】
左手HLに対応する指位置データXLについても同様の処理が実行される。すなわち、制御装置11は、指位置データXLの複数の単位データUから1以上の空値データU0を抽出する(Sa43)。制御装置11は、各空値データU0が指定する複数の確率Qのうち左手領域AL内の各格子点Kに対応する確率Q(=0)に補助成分Rを加算する(Sa44)。なお、左手領域ALが検出されない単位期間においては、補助成分Rの付加(Sa43,Sa44)は実行されない。
【0044】
以上の処理を実行すると、制御装置11は、演奏データEが押鍵を表すか否かを判定する(Sa45)。演奏データEが押鍵を表す場合(Sa45:YES)、制御装置11は、指位置データX(XR,XL)に含まれる複数の単位データUから1以上の空値データU0を抽出する(Sa46)。制御装置11は、各空値データU0が指定する複数の確率Qのうち、押鍵中の鍵22の近傍の各格子点Kに対応する確率Qに補助成分Rを加算する(Sa47)。例えば、空間αのうち押鍵中の鍵22に対応する地点を中心とする正規分布が補助成分Rとして付加される。
【0045】
以上の説明から理解される通り、成分付加部413は、演奏データEが押鍵を表す場合、または、領域データDにおいて利用者の手が検出された場合に、指位置データXに補助成分Rを付加することで指位置データYを生成する。演奏データEが押鍵を表さず、かつ、領域データDにおいて利用者の手が検出されない場合には、指位置データXがそのまま指位置データYとして確定される。
【0046】
補充処理の具体的な手順は以上の通りである。指位置データ生成部42の補正処理部422は、補充処理により生成された指位置データYと情報取得部411が取得した演奏データEとを補正モデルMbにより処理することで、指位置データZを生成する。生成モデルM(補正モデルMb)は、画像データGが表す手の位置と演奏データEが表す演奏とに応じて指位置データYにおける各解析点Pの位置が補正された指位置データZが出力されるように、事前の機械学習により構築される。例えば、各解析点Pの位置が補正される結果、指位置データYにおいて空値であった単位データU(空値データU0)が、指位置データZにおいては有意な数値を含む単位データUに変更される。すなわち、指位置データZにおける空値データU0の個数(例えばゼロ)は、指位置データYにおける空値データU0の個数を下回る。
【0047】
図9は、制御装置11が解析データFを生成する処理(以下「解析処理」という)のフローチャートである。単位期間毎に
図9の解析処理が実行される。解析処理が開始されると、制御装置11(情報取得部411)は、画像データGおよび演奏データEを取得する(Sa1)。制御装置11(領域検出部421)は、画像データGを検出モデルMaにより処理することで領域データDを生成する(Sa2)。
【0048】
制御装置11(位置推定部412)は、画像データGの解析により指位置データXを生成する(Sa3)。制御装置11(成分付加部413)は、領域データDおよび演奏データEを利用した前述の補充処理を指位置データXに対して実行することで、指位置データYを生成する(Sa4)。
【0049】
制御装置11(補正処理部422)は、指位置データYと演奏データEとを補正モデルMbにより処理することで指位置データZを生成する(Sa5)。制御装置11(解析データ生成部43)は、指位置データZから解析データFを生成する(Sa6)。
【0050】
以上に説明した通り、第1実施形態においては、画像データGが表す手の位置と演奏データEが表す演奏とに応じて指位置データYにおける各解析点Pの位置が補正されることで指位置データZが生成される。すなわち、撮影画像において不鮮明なため解析点Pが指位置データXにおいて欠損している場合でも、画像データGおよび演奏データEの利用により当該解析点Pが補完される。具体的には、撮影画像において不鮮明な部分の解析点Pについても正確に表現された指位置データZ(さらには解析データF)を生成できる。したがって、撮影画像において不鮮明な部分の解析点Pについても正確に表現された指位置データZ(さらには解析データF)を生成できる。すなわち、電子楽器20の演奏中における利用者の手の形状を高精度に推定できる。
【0051】
以上の通り、第1実施形態によれば、電子楽器20の演奏中における利用者の手の形状が高精度に推定される。したがって、利用者は、推定結果を利用した製品またはサービス等の多様な顧客体験を享受できる。
【0052】
第1実施形態においては特に、指位置データYおよび指位置データZが、各解析点Pの確率分布を表す単位データUを含む。したがって、生成モデルMを確立する訓練段階において、生成モデルMが生成する指位置データZに補助成分Rを付加することで、機械学習に利用される訓練データTを簡便に生成できるという利点がある。
【0053】
[訓練処理部50]
図3の訓練処理部50は、機械学習により補正モデルMbを構築する。なお、補正モデルMbの構築前に検出モデルMaは訓練済である。
【0054】
図10は、訓練処理部50の説明図である。補正モデルMbの機械学習には複数の基礎データBが利用される。複数の基礎データBは、事前に用意されて記憶装置12に記憶される。各基礎データBは、訓練用の画像データGtと訓練用の演奏データEtとを含む。特定の演奏者による電子楽器20の演奏を収録することで、画像データGtと演奏データEtとが事前に準備される。すなわち、画像データGtが表す演奏と演奏データEtが表す演奏とは共通する。
【0055】
補正モデルMbの機械学習において、入力データ取得部41は、画像データGtと演奏データEtと指位置データYtとを含む訓練データTを生成する。訓練データTは、前述の入力データC1に相当する。具体的には、訓練データTの指位置データYtは、画像データGtから生成される指位置データXtに対して前述の補充処理を実行することで生成される。
【0056】
指位置データ生成部42は、訓練データTを処理することで領域データDtおよび指位置データZtを生成する。具体的には、領域検出部421は、画像データGtを検出モデルMaにより処理することで領域データDtを生成する。補正処理部422は、指位置データYtと演奏データEtとを初期的または暫定的な補正モデルMb(以下「暫定モデルM0」という)により処理することで、指位置データZtを生成する。
【0057】
図10に例示される通り、訓練処理部50は、成分付加部51と更新処理部52とを含む。成分付加部51は、指位置データZtに対して前述の補充処理を実行することで参照データLを生成する。具体的には、成分付加部51は、演奏データEtが押鍵を表す場合、または、領域データDtにおいて利用者の手が検出された場合に、指位置データZtに補助成分Rを付加することで参照データLを生成する。
【0058】
更新処理部52は、指位置データYtと参照データLとの差異が低減されるように暫定モデルM0を更新する。具体的には、更新処理部52は、指位置データYtと参照データLとの差異を表す誤差関数を算定し、誤差関数が低減されるように暫定モデルM0の複数の変数を更新する。
【0059】
図11は、制御装置11が暫定モデルM0を更新する処理(以下「訓練処理」という)のフローチャートである。例えば操作装置14に対する操作を契機として訓練処理が開始される。
【0060】
訓練処理が開始されると、制御装置11(訓練処理部50)は、複数の基礎データBの何れか(以下「選択基礎データB」という)を選択する(Sb1)。制御装置11(領域検出部421)は、選択基礎データBの画像データGtを検出モデルMaにより処理することで領域データDtを生成する(Sb2)。
【0061】
制御装置11(位置推定部412)は、選択基礎データBの画像データGtの解析により指位置データXtを生成する(Sb3)。制御装置11(成分付加部413)は、領域データDtおよび演奏データEtを利用した前述の補充処理を指位置データXtに対して実行することで、指位置データYtを生成する(Sb4)。すなわち、画像データGtと演奏データEtと指位置データYtとを含む訓練データTが生成される。制御装置11(補正処理部422)は、指位置データYtと演奏データEtとを暫定モデルM0により処理することで指位置データZtを生成する(Sb5)。
【0062】
制御装置11(成分付加部51)は、領域データDtおよび演奏データEtを利用した前述の補充処理を指位置データZtに対して実行することで、参照データLを生成する(Sb6)。制御装置11(更新処理部52)は、指位置データYtと参照データLとの誤差を表す損失関数を算定する(Sb7)。制御装置11(更新処理部52)は、損失関数が低減(理想的には最小化)されるように、暫定モデルM0の複数の変数を更新する(Sb8)。損失関数に応じた各変数の更新には、例えば誤差逆伝播法が利用される。
【0063】
制御装置11は、所定の終了条件が成立したか否かを判定する(Sb9)。終了条件は、損失関数が所定の閾値を下回ること、または、損失関数の変化量が所定の閾値を下回ることである。終了条件が成立しない場合(Sb9:NO)、制御装置11は、未選択の基礎データBを新たな選択基礎データBとして選択する(Sb1)。すなわち、終了条件の成立(Sb9:YES)まで、暫定モデルM0の複数の変数を更新する処理(Sb2~Sb8)が反復される。終了条件が成立した場合(Sb9:YES)、制御装置11は、訓練処理を終了する。終了条件が成立した時点における暫定モデルM0が、訓練済の補正モデルMbとして確定される。
【0064】
以上の訓練処理により構築された補正モデルMbによれば、指位置データYにおける各解析点Pの位置が画像データGおよび演奏データEに応じて補正された指位置データZを生成できる。具体的には、撮影画像において不鮮明なため解析点Pが指位置データXにおいて欠損している場合でも、画像データGおよび演奏データEの利用により当該解析点Pが補完される。すなわち、解析点Pを適切に補完可能な補正モデルMbが、訓練処理により構築される。したがって、撮影画像において不鮮明な部分の解析点Pについても正確に表現された指位置データZ(さらには解析データF)を生成できる。
【0065】
B:第2実施形態
第2実施形態を説明する。なお、以下に例示する各態様において機能が第1実施形態と同様である要素については、第1実施形態の説明と同様の符号を流用して各々の詳細な説明を適宜に省略する。
【0066】
第1実施形態の領域データDは、撮影画像のうち右手領域ARと左手領域ALとを表すデータである。第2実施形態の領域データDは、撮影画像における利用者の手(右手HRおよび左手HL)の表面の深度を表す深度データである。深度データが表す深度が閾値を上回る領域が、右手領域ARまたは左手領域ALとして特定される。すなわち、第2実施形態の領域データDは、第1実施形態と同様に、右手領域ARおよび左手領域ALを表すデータである。訓練処理に利用される領域データDtも同様に深度データである。
【0067】
成分付加部413は、第1実施形態と同様に、領域データDにおいて利用者の手が検出された場合に、指位置データXに補助成分Rを付加することで指位置データYを生成する。成分付加部51も第1実施形態と同様に、領域データDtにおいて利用者の手が検出された場合に、指位置データZtに補助成分Rを付加することで参照データLを生成する。
【0068】
領域データDおよび領域データDtが深度データである点以外は、第1実施形態と同様である。したがって、第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態においては、画像データGが表す手の表面の深度を表す深度データが領域データDとして生成される。したがって、例えば画像データGが表す撮影画像において利用者の手が不鮮明な場合でも、電子楽器20の演奏中における利用者の手の形状を高精度に推定できる。
【0069】
C:第3実施形態
第1実施形態においては、領域データDにおいて利用者の手が検出された場合に補助成分Rを指位置データXに付加した。第3実施形態においては、領域データDにおいて検出された手が鍵盤21に重なる場合に、補助成分Rが指位置データXに付加される。
【0070】
領域検出部421は、右手領域ARおよび左手領域ALに加えて鍵盤21の領域(以下「鍵盤領域」という)を表す領域データDを生成する。鍵盤領域の検出には、例えば検出モデルMaが利用される。なお、領域検出部421は、利用者による鍵盤21の操作に応じて鍵盤領域を検出してもよい。例えば、利用者は、鍵盤21のうち左端(低音側の端部)の近傍に位置する第1鍵22と、右端(高音側の端部)の近傍に位置する第2鍵22とを操作する。領域検出部421は、画像データGから第1鍵22と第2鍵22とを特定し、第1鍵22と第2鍵22との間の領域を鍵盤領域として特定する。
【0071】
成分付加部413は、領域データDにおいて右手領域ARまたは左手領域ALが鍵盤領域に重なる場合に、指位置データXに補助成分Rを付加することで指位置データYを生成する。成分付加部51も同様に、領域データDにおいて右手領域ARまたは左手領域ALが鍵盤領域に重なる場合に、指位置データZtに補助成分Rを付加することで参照データLを生成する。
【0072】
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態においては、利用者の手が鍵盤21に重なる場合に、補助成分Rの付加が実行される。すなわち、利用者の手が検出されたか否かだけでなく鍵盤21と手との関係も補助成分Rの付加に加味される。したがって、電子楽器20の演奏中における利用者の手の形状を高精度に推定できる。
【0073】
D:第4実施形態
図12は、第4実施形態に係る電子鍵盤楽器60の構成を例示するブロック図である。第1実施形態においては、情報処理システム10と電子楽器20と撮像装置30とが別体で構成された形態を例示した。第4実施形態の電子鍵盤楽器60は、情報処理システム10と電子楽器20と撮像装置30とが単体の筐体(図示略)に設置された電子楽器である。なお、電子鍵盤楽器60とは別体の撮像装置30が、電子鍵盤楽器60に対して有線または無線により接続されてもよい。
【0074】
情報処理システム10の構成および機能は第1実施形態と同様である。したがって、第4実施形態においても第1実施形態と同様の効果が実現される。なお、第2実施形態および第3実施形態に係る構成は、第4実施形態の電子鍵盤楽器60に採用されてもよい。
【0075】
E:変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
【0076】
(1)前述の各形態においては、入力データ取得部41の位置推定部412が、画像データGから指位置データXを生成したが、指位置データXが外部装置から供給される形態においては、指位置データXの生成は省略されてよい。すなわち、位置推定部412は入力データ取得部41から省略されてよい。
【0077】
(2)前述の各形態においては、情報処理システム10が解析処理部40および訓練処理部50の双方を具備する形態を便宜的に例示したが、解析処理部40と訓練処理部50とは別個のシステムに搭載されてもよい。解析処理部40が搭載された情報処理システム10(演奏解析システム)は、利用者による電子楽器20の演奏を解析する。訓練処理部50が搭載された情報処理システム10(機械学習システム)は、生成モデルM(補正モデルMb)を機械学習により構築する。演奏解析システムは、例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報装置で実現される。機械学習システムは、例えばウェブサーバ等のサーバ装置により実現される。機械学習システムにより構築された生成モデルMが演奏解析システムに送信される。
【0078】
(3)前述の各形態においては、情報処理システム10(解析処理部40)が入力データ取得部41と指位置データ生成部42と解析データ生成部43とを具備する構成を例示したが、以上の要素のうち少なくともひとつは省略されてよい。
【0079】
例えば、入力データC1を取得する入力データ取得部41(入力データ生成部)は、指位置データ生成部42および解析データ生成部43を要件とせずに独立に成立し得る。すなわち、指位置データ生成部42および解析データ生成部43は解析処理部40から省略されてもよい。さらに、入力データ取得部41のうち指位置データYを生成する要素(例えば成分付加部413)も単独で成立し得る。
【0080】
同様に、指位置データ生成部42は、入力データ取得部41および解析データ生成部43を要件とせずに単独で成立し得る。すなわち、入力データ取得部41および解析データ生成部43は解析処理部40から省略されてもよい。さらに、指位置データ生成部42のうち指位置データZを生成する要素(例えば補正処理部422)も単独で成立し得る。
【0081】
(4)前述の各形態においては、利用者による鍵盤楽器(電子楽器20)の演奏を解析する形態を例示したが、解析対象となる楽器は鍵盤楽器に限定されない。例えば、弦楽器または管楽器等の各種の楽器の演奏が、前述の各形態と同様の構成および処理により解析される。解析対象の楽器は、自然楽器および電子楽器(または電気楽器)の何れでもよい。電子楽器は、前述の第4実施形態に例示した電子鍵盤楽器60のほか、電子弦楽器(電気弦楽器)または電子管楽器(電気管楽器)等を包含する。
【0082】
(5)前述の各形態においては、深層ニューラルネットワークを生成モデルMとして例示したが、生成モデルMの構成は以上の例示に限定されない。例えば、隠れマルコフモデル(HMM:Hidden Markov Model)またはサポートベクタマシン(SVM:Support Vector Machine)等の統計モデルも、生成モデルMとして利用される。
【0083】
(6)例えばスマートフォンまたはタブレット端末等の情報装置との間で通信するサーバ装置により情報処理システム10が実現されてもよい。例えば、情報処理システム10は、情報装置から受信した画像データGおよび演奏データEを利用して解析データFを生成し、解析データFを情報装置に送信する。
【0084】
(7)以上に例示した情報処理システム10の機能は、前述の通り、制御装置11を構成する単数または複数のプロセッサと、記憶装置12に記憶されたプログラムとの協働により実現される。本開示に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶媒体が、前述の非一過性の記録媒体に相当する。
【0085】
F:付記
以上に例示した形態から、例えば以下の構成が把握される。
【0086】
本開示のひとつの態様(態様1)に係る情報処理方法は、楽器を演奏している利用者の手の画像を表す画像データと、前記手における複数の解析点の各々の位置を表す第1指位置データと、前記楽器の演奏を表す演奏データと、を含む入力データを取得し、訓練済の生成モデルにより前記入力データを処理することで、前記画像データが表す手の位置と前記演奏データが表す演奏とに応じて前記第1指位置データにおける前記複数の解析点の各々の位置が補正された第2指位置データを生成する。
【0087】
以上の態様においては、画像データが表す手の位置と演奏データが表す演奏とに応じて第1指位置データにおける各解析点の位置が補正されることで第2指位置データが生成される。したがって、第1指位置データと比較して高精度に利用者の各解析点の位置を表す第2指位置データが生成される。すなわち、楽器の演奏中における利用者の手の形状を高精度に推定できる。
【0088】
「楽器」は、利用者が自身の手を利用して演奏する任意の種類の楽器である。楽器の典型例は鍵盤楽器であるが、例えば弦楽器または管楽器等の楽器も含まれる。
【0089】
「画像データ」は、楽器を演奏している利用者の撮像により生成される任意の形式のデータである。例えば、画像データは、鍵盤楽器における鍵盤と利用者の両手(左手および右手)とを表す画像である。
【0090】
「解析点」は、利用者の手において位置の解析対象となる地点である。例えば、利用者の各指の先端および関節が、解析点の典型例である。
【0091】
「(第1/第2)指位置データ」は、各解析点の位置を表すデータである。例えば、指位置データは、複数の解析点の各々について単位データを含む。各解析点の単位データは、当該解析点の位置を表すデータである。具体的には、空間内における解析点の確率分布を表すデータである。例えば、単位データは、空間内の複数の地点(例えば格子点)の各々について、当該地点が解析点に該当する確率を表すデータである。
【0092】
「演奏データ」は、利用者による演奏の内容を表す任意の形式のデータである。演奏データの典型例は、利用者が演奏した音高を指定するMIDIデータである。なお、演奏により楽器から発音される演奏音の解析により演奏データが生成されてもよい。
【0093】
生成モデルは、事前の機械学習により構築された訓練済モデルである。生成モデルは、画像データが表す手の位置と演奏データが表す演奏とに応じて第1指位置データにおける複数の解析点の各々の位置が補正されるように構築される。具体的には、画像データにおいて不鮮明な解析点が画像データおよび演奏データの利用により補完されるように、生成モデル(補正モデル)が構築される。
【0094】
態様1の具体例(態様2)において、前記第1指位置データは、前記複数の解析点にそれぞれ対応する複数の単位データを含み、前記複数の解析点の各々に対応する単位データは、3次元空間内における当該解析点の確率分布を表す。また、態様1または態様2の具体例(態様3)において、前記第2指位置データは、前記複数の解析点にそれぞれ対応する複数の単位データを含み、前記複数の解析点の各々に対応する単位データは、3次元空間内における当該解析点の確率分布を表す。以上の態様においては、第1指位置データまたは第2指位置データが、各解析点の確率分布を表す単位データを含む。したがって、生成モデルを確立する訓練段階において、生成モデルの指位置データに所定の確率分布を付加することで、機械学習に利用される訓練データを簡便に生成できるという利点がある。
【0095】
態様2または態様3の具体例(態様4)において、前記複数の解析点の各々の位置が補正される結果、前記第1指位置データにおいて空値であった単位データは、前記第2指位置データにおいては有意な数値を含む単位データに変更される。以上の態様によれば、撮影画像において不鮮明なため解析点が第1指位置データにおいて欠損している場合でも、画像データおよび演奏データの利用により当該解析点が補完される。
【0096】
態様1から態様4の何れかの具体例(態様5)において、前記演奏データは、MIDI規格に準拠したイベントデータである。以上の態様によれば、MIDI規格に準拠した各種の機器により生成されるイベントデータを演奏データとして利用できる。
【0097】
態様1から態様5の何れかの具体例(態様6)において、前記入力データの取得は、前記画像データおよび前記演奏データを取得することと、前記手における前記複数の解析点の各々の確率分布を表す初期データを前記画像データから生成することと、前記初期データから前記第1指位置データを生成することとを含む。また、態様6の具体例において、前記生成モデルは、検出モデルと補正モデルとを含み、前記第2指位置データの生成においては、前記画像データを前記検出モデルにより処理することで、前記画像データが表す画像のうち前記手の領域を表す領域データを生成し、前記第1指位置データの生成においては、前記演奏データが当該楽器の操作を表す場合、または、前記領域データにおいて前記手が検出された場合に、前記初期データに補助成分を付加することで前記第1指位置データを生成し、前記第2指位置データの生成においては、前記第1指位置データと前記演奏データとを前記補正モデルにより処理することで、前記第2指位置データを生成する。
【0098】
態様7の具体例(態様8)において、前記楽器は、鍵盤を含む鍵盤楽器であり、前記領域データにおいて前記手が検出された場合は、前記領域データにおいて検出された前記手が前記鍵盤に重なる場合である。以上の態様においては、利用者の手が鍵盤に重なる場合に、初期データに対する補助成分の付加が実行される。すなわち、利用者の手が検出されたか否かだけでなく鍵盤と手との関係も補助成分の付加に加味される。したがって、鍵盤楽器の演奏中における利用者の手の形状を高精度に推定できる。
【0099】
態様7または態様8の具体例(態様9)において、前記領域データは、前記画像データが表す前記手の表面の深度を表す深度データである。以上の態様においては、画像データが表す手の表面の深度を表す深度データが領域データとして生成される。したがって、例えば画像データが表す画像において利用者の手が不鮮明な場合でも、鍵盤楽器の演奏中における利用者の手の形状を高精度に推定できる。
【0100】
本開示のひとつの態様(態様10)に係る情報処理方法は、楽器を演奏している利用者の手の画像を表す画像データと、前記手における複数の解析点の各々の位置を表す第1指位置データと、前記楽器の演奏を表す演奏データとを取得し、前記画像データが表す画像のうち前記手の領域を表す領域データを生成し、前記第1指位置データと前記演奏データとを補正モデルにより処理することで第2指位置データを生成し、前記補正モデルを構築する方法であって、前記画像データと前記第1指位置データと前記演奏データとの取得においては、前記画像データおよび前記演奏データを取得し、前記手における前記複数の解析点の各々の確率分布を表す初期データを前記画像データから生成し、前記演奏データが当該楽器の操作を表す場合、または、前記領域データにおいて前記手が検出された場合に、前記初期データに補助成分を付加することで前記第1指位置データを生成し、前記補正モデルの構築においては、前記演奏データが当該楽器の操作を表す場合、または、前記領域データにおいて前記手が検出された場合に、前記第2指位置データに補助成分を付加することで参照データを生成し、前記第1指位置データと前記参照データとの差異が低減されるように前記補正モデルを更新する。
【0101】
以上の態様においては、演奏データが楽器の操作を表す場合、または、領域データにおいて利用者の手が検出された場合に、初期データに対する補助成分の付加と、補正モデルにより生成された第2指位置データに対する補助成分の付加とが実行され、第1指位置データと参照データとの差異が低減されるように暫定的な補正モデルが更新される。したがって、第1指位置データにおける各解析点の位置が画像データおよび演奏データに応じて補正された第2指位置データを生成できる。具体的には、画像データが表す画像において不鮮明なため解析点が欠損している場合でも、画像データおよび演奏データの利用により当該解析点が補完される。すなわち、解析点を適切に補完可能な補正モデルが、訓練処理により構築される。したがって、画像において不鮮明な部分の解析点についても正確に表現された第2指位置データを生成できる。なお、本開示は、態様10の情報処理方法を実行する情報処理システム、または、態様10の情報処理方法をコンピュータシステムに実行させるプログラムとしても特定される。
【0102】
態様10の具体例(態様11)において、前記楽器は、鍵盤を含む鍵盤楽器であり、前記領域データにおいて前記手が検出された場合は、前記領域データにおいて検出された前記手が前記鍵盤に重なる場合である。以上の態様においては、利用者の手が鍵盤に重なる場合に、初期データに対する補助成分の付加と、第2指位置データに対する補助成分の付加とが実行される。すなわち、利用者の手が検出されたか否かだけでなく鍵盤と手との関係も補助成分の付加に加味される。したがって、鍵盤楽器の演奏中における利用者の手の形状を高精度に推定できる。
【0103】
態様10または態様11の具体例(態様12)において、前記領域データは、前記画像データが表す前記手の表面の深度を表す深度データである。以上の態様においては、画像データが表す手の表面の深度を表す深度データが領域データとして生成される。したがって、例えば画像データが表す画像において利用者の手が不鮮明な場合でも、鍵盤楽器の演奏中における利用者の手の形状を高精度に推定できる。
【0104】
本開示のひとつの態様(態様13)に係る情報処理システムは、楽器を演奏している利用者の手の画像を表す画像データと、前記手における複数の解析点の各々の位置を表す第1指位置データと、前記楽器の演奏を表す演奏データと、を含む入力データを取得する入力データ取得部と、訓練済の生成モデルにより前記入力データを処理することで、前記画像データが表す手の位置と前記演奏データが表す演奏とに応じて前記第1指位置データにおける前記複数の解析点の各々の位置が補正された第2指位置データを生成する指位置データ生成部とを具備する。態様1に係る情報処理方法について前述した各形態は、態様13の情報処理システムにも同様に適用される。
【0105】
本開示のひとつの態様(態様14)に係るプログラムは、楽器を演奏している利用者の手の画像を表す画像データと、前記手における複数の解析点の各々の位置を表す第1指位置データと、前記楽器の演奏を表す演奏データと、を含む入力データを取得する入力データ取得部、および、訓練済の生成モデルにより前記入力データを処理することで、前記画像データが表す手の位置と前記演奏データが表す演奏とに応じて前記第1指位置データにおける前記複数の解析点の各々の位置が補正された第2指位置データを生成する指位置データ生成部、としてコンピュータシステムを機能させる。態様1に係る情報処理方法について前述した各形態は、態様14のプログラムにも同様に適用される。
【0106】
本開示のひとつの態様(態様15)に係る電子鍵盤楽器は、複数の鍵を含む鍵盤と、前記鍵盤を演奏している利用者の手の画像を表す画像データと、前記手における複数の解析点の各々の位置を表す第1指位置データと、前記鍵盤の演奏を表す演奏データと、を含む入力データを取得する入力データ取得部と、訓練済の生成モデルにより前記入力データを処理することで、前記画像データが表す手の位置と前記演奏データが表す演奏とに応じて前記第1指位置データにおける前記複数の解析点の各々の位置が補正された第2指位置データを生成する指位置データ生成部とを具備する。態様1に係る情報処理方法について前述した各形態は、態様15の電子鍵盤楽器にも同様に適用される。
【符号の説明】
【0107】
10…情報処理システム、11…制御装置、12…記憶装置、13…表示装置、14…操作装置、15…音源装置、16…放音装置、20…電子楽器、21…鍵盤、22…鍵、30…撮像装置、40…解析処理部、41…入力データ取得部、411…情報取得部、412…位置推定部、413…成分付加部、42…指位置データ生成部、421…領域検出部、422…補正処理部、43…解析データ生成部、50…訓練処理部、51…成分付加部、52…更新処理部、60…電子鍵盤楽器。