(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-07
(45)【発行日】2024-02-16
(54)【発明の名称】情報処理方法、情報処理システムおよびプログラム
(51)【国際特許分類】
G09B 15/00 20060101AFI20240208BHJP
G10G 1/00 20060101ALI20240208BHJP
G10H 1/00 20060101ALI20240208BHJP
【FI】
G09B15/00 Z
G10G1/00
G10H1/00 Z
(21)【出願番号】P 2022553716
(86)(22)【出願日】2021-09-03
(86)【国際出願番号】 JP2021032463
(87)【国際公開番号】W WO2022070771
(87)【国際公開日】2022-04-07
【審査請求日】2023-03-02
(31)【優先権主張番号】P 2020164979
(32)【優先日】2020-09-30
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110003177
【氏名又は名称】弁理士法人旺知国際特許事務所
(72)【発明者】
【氏名】伊藤 理恵
(72)【発明者】
【氏名】日置 友佳子
(72)【発明者】
【氏名】有井 佳祐
(72)【発明者】
【氏名】井上 潤
(72)【発明者】
【氏名】大島 治
【審査官】宮本 昭彦
(56)【参考文献】
【文献】国際公開第2019/130755(WO,A1)
【文献】米国特許出願公開第2021/0104169(US,A1)
【文献】特開2013-148773(JP,A)
【文献】米国特許出願公開第2020/0074876(US,A1)
【文献】平野 光正,ドラム練習者のための自主練習システムにおける判定結果の表示方法に関する検討と実装,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2014年11月07日,Vol.114 No.305,第19~24頁
(58)【調査した分野】(Int.Cl.,DB名)
G09B 15/00
G10G 1/00
G10H 1/00
(57)【特許請求の範囲】
【請求項1】
コンピュータによって実行される情報処理方法であって、
楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定
し、
前記コメント情報を決定することは、
前記画像情報から、前記楽器と前記演奏者との相対的な位置関係を示す特徴情報を抽出することと、
前記抽出した特徴情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定することと、を含み、
前記特徴情報に基づいて前記コメント情報を決定することは、
前記楽器と前記演奏者との相対的な位置関係を示す学習用特徴情報と、前記学習用特徴情報が示す前記相対的な位置関係についてのコメントを示す学習用コメント情報と、の関係を学習した第1学習済みモデルへ前記特徴情報を入力することと、
前記特徴情報に応じて前記第1学習済みモデルが出力する情報を、前記コメント情報として決定することと、を含み、
第1コメントを示す第1コメント情報を、前記楽器の演奏手法を教える先生によって使用される端末装置に送信し、
前記端末装置が前記先生からの入力に基づいて前記第1コメント情報を修正することによって生成した第2コメントを受信することを、さらに含み、
前記学習用コメント情報は、前記第2コメントを含む、
情報処理方法。
【請求項2】
前記第1学習済みモデルは、複数の楽器に対応する複数の第1学習済みモデルを含み、
さらに、
前記複数の楽器の中の前記楽器を示す楽器情報を取得し、
前記複数の第1学習済みモデルから、前記楽器情報が示す前記楽器に対応する第1学習済みモデルを特定し、
前記特徴情報に基づいて前記コメント情報を決定することは、前記特定した第1学習済みモデルへ入力された前記特徴情報に応じて当該第1学習済みモデルが出力する情報を、前記コメント情報として決定することを含む、
請求項
1に記載の情報処理方法。
【請求項3】
さらに、前記楽器に関する関連情報を用いて、前記楽器情報を特定し、
前記第1学習済みモデルを特定することは、前記複数の第1学習済みモデルから、前記特定した楽器情報が示す前記楽器に対応する第1学習済みモデルを特定することを含む、
請求項
2に記載の情報処理方法。
【請求項4】
コンピュータによって実行される情報処理方法であって、
楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定し、
前記コメント情報を決定することは、
前記画像情報から、前記楽器と前記演奏者との相対的な位置関係を示す特徴情報を抽出することと、
前記抽出した特徴情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定することと、を含み、
前記特徴情報に基づいて前記コメント情報を決定することは、
前記楽器と前記演奏者との相対的な位置関係を示す学習用特徴情報と、前記学習用特徴情報が示す前記相対的な位置関係についてのコメントを示す学習用コメント情報と、の関係を学習した第1学習済みモデルへ前記特徴情報を入力することと、
前記特徴情報に応じて前記第1学習済みモデルが出力する情報を、前記コメント情報として決定することと、を含み、
前記第1学習済みモデルは、複数の楽器に対応する複数の第1学習済みモデルを含み、
さらに、
前記複数の楽器の中の前記楽器を示す楽器情報を取得し、
前記複数の第1学習済みモデルから、前記楽器情報が示す前記楽器に対応する第1学習済みモデルを特定し、
前記特徴情報に基づいて前記コメント情報を決定することは、前記特定した第1学習済みモデルへ入力された前記特徴情報に応じて当該第1学習済みモデルが出力する情報を、前記コメント情報として決定することを含み、
さらに、前記楽器に関する関連情報を用いて、前記楽器情報を特定し、
前記第1学習済みモデルを特定することは、前記複数の第1学習済みモデルから、前記特定した楽器情報が示す前記楽器に対応する第1学習済みモデルを特定することを含む、
情報処理方法。
【請求項5】
前記関連情報は、
前記楽器が出力する音を示す情報、
前記楽器を表す画像を示す情報、
前記楽器に応じた楽譜を示す情報、または、
前記楽器と当該楽器の教習スケジュールとの組合せを示す情報である、
請求項
3または4に記載の情報処理方法。
【請求項6】
前記楽器情報を特定することは、
前記楽器に関する学習用関連情報と、前記学習用関連情報から特定される前記楽器を示す学習用楽器情報と、の関係を学習した第2学習済みモデルへ前記関連情報を入力することと、
前記関連情報に応じて前記第2学習済みモデルが出力する情報を、前記楽器情報として特定することと、を含む、
請求項
3または4に記載の情報処理方法。
【請求項7】
前記楽器情報を特定することは、
前記楽器に関する参照用関連情報と、前記楽器を示す参照用楽器情報との対応関係を示すテーブルを参照することにより、前記関連情報に対応する参照用楽器情報を、前記楽器情報として特定することを含む、
請求項
3または4に記載の情報処理方法。
【請求項8】
前記コメント情報は、前記楽器に対する前記演奏者の身体の使い方に関するアドバイスを示す、
請求項1から
7のいずれか1項に記載の情報処理方法。
【請求項9】
前記特徴情報は、前記相対的な位置関係として、前記楽器に対する前記演奏者の身体の使い方を示す、
請求項
1から8のいずれか1項に記載の情報処理方法。
【請求項10】
楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定す
る情報処理システム
であって、
前記画像情報から、前記楽器と前記演奏者との相対的な位置関係を示す特徴情報を抽出する抽出部と、
前記抽出した特徴情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する決定部と、を含み、
前記決定部は、前記楽器と前記演奏者との相対的な位置関係を示す学習用特徴情報と、前記学習用特徴情報が示す前記相対的な位置関係についてのコメントを示す学習用コメント情報と、の関係を学習した第1学習済みモデルへ前記特徴情報を入力することと、前記特徴情報に応じて前記第1学習済みモデルが出力する情報を、前記コメント情報として決定することと、を実行し、
第1コメントを示す第1コメント情報を、前記楽器の演奏手法を教える先生によって使用される端末装置に送信し、前記端末装置が前記先生からの入力に基づいて前記第1コメント情報を修正することによって生成した第2コメントを受信するデータ取得部を、さらに含み、
前記学習用コメント情報は、前記第2コメントを含む、
情報処理システム。
【請求項11】
楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する情報処理システムであって、
前記画像情報から、前記楽器と前記演奏者との相対的な位置関係を示す特徴情報を抽出する抽出部と、
前記抽出した特徴情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する決定部と、を含み、
前記決定部は、前記楽器と前記演奏者との相対的な位置関係を示す学習用特徴情報と、前記学習用特徴情報が示す前記相対的な位置関係についてのコメントを示す学習用コメント情報と、の関係を学習した第1学習済みモデルへ前記特徴情報を入力することと、前記特徴情報に応じて前記第1学習済みモデルが出力する情報を、前記コメント情報として決定することと、を実行し、
前記第1学習済みモデルは、複数の楽器に対応する複数の第1学習済みモデルを含み、
前記決定部は、さらに、前記複数の楽器の中の前記楽器を示す楽器情報を取得し、前記複数の第1学習済みモデルから、前記楽器情報が示す前記楽器に対応する第1学習済みモデルを特定し、前記特定した第1学習済みモデルへ入力された前記特徴情報に応じて当該第1学習済みモデルが出力する情報を、前記コメント情報として決定し、
さらに、前記楽器に関する関連情報を用いて、前記楽器情報を特定する特定部を含み、
前記決定部は、前記複数の第1学習済みモデルから、前記特定した楽器情報が示す前記楽器に対応する第1学習済みモデルを特定する、
情報処理システム。
【請求項12】
コンピュータに、
楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する、
処理を実行させるプログラム
であって、
前記コメント情報を決定することは、
前記画像情報から、前記楽器と前記演奏者との相対的な位置関係を示す特徴情報を抽出することと、
前記抽出した特徴情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定することと、を含み、
前記特徴情報に基づいて前記コメント情報を決定することは、
前記楽器と前記演奏者との相対的な位置関係を示す学習用特徴情報と、前記学習用特徴情報が示す前記相対的な位置関係についてのコメントを示す学習用コメント情報と、の関係を学習した第1学習済みモデルへ前記特徴情報を入力することと、
前記特徴情報に応じて前記第1学習済みモデルが出力する情報を、前記コメント情報として決定することと、を含み、
第1コメントを示す第1コメント情報を、前記楽器の演奏手法を教える先生によって使用される端末装置に送信し、
前記端末装置が前記先生からの入力に基づいて前記第1コメント情報を修正することによって生成した第2コメントを受信することを、さらに含み、
前記学習用コメント情報は、前記第2コメントを含む、
プログラム。
【請求項13】
コンピュータに、
楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する、
処理を実行させるプログラムであって、
前記コメント情報を決定することは、
前記画像情報から、前記楽器と前記演奏者との相対的な位置関係を示す特徴情報を抽出することと、
前記抽出した特徴情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定することと、を含み、
前記特徴情報に基づいて前記コメント情報を決定することは、
前記楽器と前記演奏者との相対的な位置関係を示す学習用特徴情報と、前記学習用特徴情報が示す前記相対的な位置関係についてのコメントを示す学習用コメント情報と、の関係を学習した第1学習済みモデルへ前記特徴情報を入力することと、
前記特徴情報に応じて前記第1学習済みモデルが出力する情報を、前記コメント情報として決定することと、を含み、
前記第1学習済みモデルは、複数の楽器に対応する複数の第1学習済みモデルを含み、
さらに、
前記複数の楽器の中の前記楽器を示す楽器情報を取得し、
前記複数の第1学習済みモデルから、前記楽器情報が示す前記楽器に対応する第1学習済みモデルを特定し、
前記特徴情報に基づいて前記コメント情報を決定することは、前記特定した第1学習済みモデルへ入力された前記特徴情報に応じて当該第1学習済みモデルが出力する情報を、前記コメント情報として決定することを含み、
さらに、前記楽器に関する関連情報を用いて、前記楽器情報を特定し、
前記第1学習済みモデルを特定することは、前記複数の第1学習済みモデルから、前記特定した楽器情報が示す前記楽器に対応する第1学習済みモデルを特定することを含む、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理方法、情報処理システムおよびプログラムに関する。
【背景技術】
【0002】
特許文献1は、演奏を自動的に評価する演奏評価装置を開示する。演奏評価装置は、演奏者によって操作される演奏装置から、演奏音を示す音信号を受信する。演奏評価装置は、演奏音を示す音信号と、楽譜を示す楽譜信号と、の差に基づく評価信号を、演奏装置に送信する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
演奏者に対して演奏に関する情報を提供する手法として、演奏に関するコメントを示すコメント情報を演奏者に提供する手法が考えられる。この手法では、コメント情報が適切なコメントを示すことが重要である。
本開示は、適切なコメントを示すコメント情報を決定できる技術の提供を目的とする。
【課題を解決するための手段】
【0005】
本開示の一態様に係る情報処理方法は、コンピュータによって実行される情報処理方法であって、楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する。
【0006】
本開示の他の態様に係る情報処理システムは、楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する決定部を含む。
【0007】
本開示のさらに他の態様に係るプログラムは、コンピュータに、楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する、処理を実行させる。
【図面の簡単な説明】
【0008】
【
図2】演奏教習システム100の一例を示す図である。
【
図4】演奏教習システム100の動作を説明するための図である。
【
図5】情報処理装置200の動作を説明するための図である。
【
図13】複数音の同時発音を示す音符の一例を表す図である。
【
図14】スケジュール情報が示すスケジュールの一例を示す図である。
【
図15】スケジュール情報が示すスケジュールの他の例を示す図である。
【
図16】ユーザインターフェイスの一例を示す図である。
【
図17】情報処理装置204の一例を示す図である。
【発明を実施するための形態】
【0009】
A:第1実施形態
A1:情報処理システム1
図1は、本開示の情報処理システム1の一例を示す図である。情報処理システム1は、楽器100Aを用いて楽曲Nの演奏を学習するユーザ100Bによって利用される。楽器100Aは、ピアノである。ピアノは、楽器の種類の一例、および、楽器の一例である。以下、「楽器の種類」という文言は、「楽器」という文言に置き換えることができる。ユーザ100Bは、オンラインで楽器100Aの演奏を教えるオンライン音楽教室の生徒である。ユーザ100Bは、オンライン音楽教室の生徒に限らず、楽器100Aを用いる演奏の上達を望む者(オンライン音楽教室の生徒以外)でもよい。ユーザ100Bは、演奏者の一例である。
【0010】
情報処理システム1は、ユーザ100Bに、コメント情報bを提供する。コメント情報bは、ユーザ100Bによる楽器100Aの演奏に関するコメントを示す。情報処理システム1は、演奏教習システム100と、情報処理装置200と、を含む。演奏教習システム100と情報処理装置200は、ネットワークNWを介して相互に通信可能である。
【0011】
演奏教習システム100は、オンライン音楽教室を運営する事業者によって管理される部屋に配置される。演奏教習システム100は、当該事業者が管理する部屋とは異なる場所、例えば、ユーザ100Bの家に配置されてもよい。
【0012】
ユーザ100Bが楽器100Aを演奏する場所は、演奏教習システム100が配置される部屋において予め定められている。このため、演奏中のユーザ100B、演奏直前のユーザ100B、および、演奏直後のユーザ100Bは、固定のカメラによって撮像可能である。
【0013】
演奏教習システム100は、ユーザ画像情報a1を情報処理装置200に送信する。ユーザ画像情報a1は、ユーザ100Bが楽器100Aを用いて楽曲Nを演奏する状況を表す画像(以下「ユーザ画像」と称する)を示す。ユーザ画像情報a1は、楽器を用いる演奏者の画像を示す画像情報の一例である。
【0014】
情報処理装置200は、例えば、サーバである。情報処理装置200は、サーバに限らず、例えば、パーソナルコンピュータまたはワークステーションでもよい。情報処理装置200は、演奏教習システム100からユーザ画像情報a1を受信する。情報処理装置200は、ユーザ画像情報a1に応じたコメント情報bを演奏教習システム100に送信する。
【0015】
コメント情報bは、演奏者へのコメントである演奏コメントを示す。演奏コメントは、ユーザ画像情報a1が示すユーザ画像に応じたコメントである。演奏コメントは、例えば、「離鍵を早く。」、「和音の間違いに気をつけて。」および「もう少し指を伸ばしてみましょう。」のうち少なくとも1つを含む。演奏コメントは、上述のコメントに限らず適宜変更可能である。演奏コメントは、楽器に対する演奏者の身体の使い方に関するアドバイスの一例である。
【0016】
コメント情報bは、コメント画像情報b1と、コメント音情報b2と、を含む。コメント情報bは、コメント画像情報b1と、コメント音情報b2と、の少なくとも一方を含めばよい。コメント画像情報b1は、演奏コメントを画像で示す。コメント画像情報b1は、例えば、演奏コメントを文字で表す画像、または、演奏コメントが記された楽譜を表す画像を示す。コメント音情報b2は、演奏コメントを音(例えば、音声)で示す。
【0017】
演奏教習システム100は、情報処理装置200からコメント情報bを受信する。演奏教習システム100は、コメント情報bに含まれるコメント画像情報b1に基づいて、演奏コメントを表示する。演奏教習システム100は、コメント情報bに含まれるコメント音情報b2に基づいて、演奏コメントを示す音を出力する。
【0018】
A2:演奏教習システム100
図2は、演奏教習システム100の一例を示す図である。演奏教習システム100は、カメラ110と、表示部130と、スピーカ140と、操作部150と、通信部160と、記憶装置170と、処理装置180と、を含む。
【0019】
カメラ110は、光を電気信号に変換するイメージセンサを含む。イメージセンサは、例えば、CCD(Charge Coupled Device)イメージセンサまたはCMOS(Complementary Metal Oxide Semiconductor)イメージセンサである。
【0020】
カメラ110は、楽器100A(ピアノ)で楽曲Nを演奏するユーザ100Bの手の各指を撮像することによって、ユーザ画像情報a1を生成する。この場合、ユーザ画像情報a1は、楽器100Aで楽曲Nを演奏するユーザ100Bの手の各指と、楽器100Aと、を画像で表す。ユーザ画像情報a1は、ユーザ100Bの手の各指と、楽器100Aと、のいずれとも異なる物体、例えば楽譜を表すこともある。カメラ110の向きおよび姿勢は、調整可能である。カメラ110は、撮像部とも称される。
【0021】
表示部130は、液晶ディスプレイである。表示部130は、液晶ディスプレイに限らず、例えば、OLED(Organic Light Emitting diode)ディスプレイでもよい。表示部130は、タッチパネルでもよい。表示部130は、種々の情報を表示する。表示部130は、例えば、コメント画像情報b1に基づくコメント画像を表示する。コメント画像は、演奏コメントを示す画像である。
【0022】
スピーカ140は、種々の音を出力する。スピーカ140は、例えば、コメント音情報b2に基づくコメント音を出力する。コメント音は、演奏コメントを示す音である。
【0023】
操作部150は、タッチパネルである。操作部150は、タッチパネルに限らず、例えば、種々の操作ボタンでもよい。操作部150は、ユーザ100Bから種々の情報を受け取る。
【0024】
通信部160は、ネットワークNWを介して有線または無線で情報処理装置200と通信する。通信部160は、ネットワークNWを介さずに有線または無線で情報処理装置200と通信してもよい。通信部160は、ユーザ画像情報a1を情報処理装置200に送信する。通信部160は、コメント情報bを情報処理装置200から受信する。
【0025】
記憶装置170は、コンピュータによって読み取り可能な記録媒体(例えば、コンピュータによって読み取り可能なnon transitoryな記録媒体)である。記憶装置170は、1または2以上のメモリーを含む。記憶装置170は、例えば、不揮発性メモリーと、揮発性メモリーと、を含む。不揮発性メモリーは、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable Read Only Memory)およびEEPROM(Electrically Erasable Programmable Read Only Memory)である。揮発性メモリーは、例えば、RAM(Random Access Memory)である。
【0026】
記憶装置170は、プログラムと、種々のデータと、を記憶する。記憶装置170は、不図示のサーバにおける記憶装置から読み取られたプログラムを記憶してもよい。この場合、サーバにおける記憶装置は、コンピュータによって読み取り可能な記録媒体(例えば、コンピュータによって読み取り可能なnon transitoryな記録媒体)の一例である。
【0027】
処理装置180は、1または2以上のCPU(Central Processing Unit)を含む。1または2以上のCPUは、1または2以上のプロセッサの一例である。処理装置、プロセッサおよびCPUの各々は、コンピュータの一例である。処理装置180が有する機能の一部又は全部は、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)等の回路で実現されてもよい。
【0028】
処理装置180は、記憶装置170からプログラムを読み取る。処理装置180は、当該プログラムを実行することによって、送信制御部181および出力制御部182として機能する。
【0029】
送信制御部181は、通信部160を制御する。例えば、送信制御部181は、通信部160を制御することによってユーザ画像情報a1を情報処理装置200へ送信する。
【0030】
出力制御部182は、表示部130およびスピーカ140を制御する。例えば、出力制御部182は、コメント画像情報b1に基づいて、コメント画像を表示部130に表示させる。出力制御部182は、コメント音情報b2に基づいて、コメント音をスピーカ140に出力させる。
【0031】
A3:情報処理装置200
図3は、情報処理装置200の一例を示す図である。情報処理装置200は、通信部210と、記憶装置220と、処理装置230と、を含む。
【0032】
通信部210は、ネットワークNWを介して有線または無線で演奏教習システム100と通信する。通信部210は、ネットワークNWを介さずに有線または無線で演奏教習システム100と通信してもよい。通信部210は、ユーザ画像情報a1を演奏教習システム100から受信する。通信部210は、コメント情報bを演奏教習システム100に送信する。
【0033】
記憶装置220は、コンピュータによって読み取り可能な記録媒体(例えば、コンピュータによって読み取り可能なnon transitoryな記録媒体)である。記憶装置220は、1または2以上のメモリーを含む。記憶装置220は、例えば、不揮発性メモリーと、揮発性メモリーと、を含む。
【0034】
記憶装置220は、処理プログラムと、演算プログラムと、種々のデータと、を記憶する。処理プログラムは、情報処理装置200の動作を規定する。演算プログラムは、入力X1から出力Y1を特定する演算を規定する。
【0035】
記憶装置220は、不図示のサーバにおける記憶装置から読み取られた処理プログラムおよび演算プログラムを記憶してもよい。この場合、サーバにおける記憶装置は、コンピュータによって読み取り可能な記録媒体(例えば、コンピュータによって読み取り可能なnon transitoryな記録媒体)の一例である。種々のデータは、後述の複数の変数K1を含む。
【0036】
処理装置230は、1または2以上のCPUを含む。処理装置230が有する機能の一部又は全部は、DSP、ASIC、PLD、FPGA等の回路で実現されてもよい。
【0037】
処理装置230は、記憶装置220から処理プログラムと演算プログラムとを読み取る。処理装置230は、処理プログラムを実行することによって、抽出部231、決定部232および送信部234として機能する。処理装置230は、演算プログラムを実行しつつ複数の変数K1を用いることによって、学習済みモデル233として機能する。
【0038】
抽出部231は、ユーザ画像情報a1から、指画像情報d1を抽出する。指画像情報d1は、楽器100Aであるピアノの鍵盤に対するユーザ100Bにおける手の各指の使い方を画像で示す。例えば、指画像情報d1は、ピアノの鍵盤に対するユーザ100Bにおける手の各指の動きを画像で示す。指画像情報d1は、楽器に対する演奏者の身体の使い方(動き)を示す特徴情報の一例である。楽器に対する演奏者の身体の使い方(動き)は、楽器と演奏者との相対関係の一例である。相対関係は、当然のことながら、相対的な位置関係を意味する。
【0039】
抽出部231は、例えば、ピアノの鍵盤を操作する人間の手の指の画像を認識する画像認識技術を用いて、ユーザ画像情報a1から指画像情報d1を特定する。ピアノの鍵盤を操作する人間の手の指の画像を認識する画像認識技術では、例えば、ピアノの鍵盤を操作する人間の手の指を示す画像情報と、当該画像情報によって示される物体がピアノの鍵盤を操作する人間の手の指であることを示す情報と、の関係を学習した学習済みモデルが用いられる。抽出部231は、特定した指画像情報d1をユーザ画像情報a1から抽出する。
【0040】
抽出部231は、指画像情報d1として、ピアノの鍵盤に対するユーザ100Bにおける手の指の骨格の動きを画像で示す骨格情報を用いてもよい。この場合、抽出部231は、まず、ピアノの鍵盤を操作する人間の手の指の画像を認識する画像認識技術を用いて、ユーザ画像情報a1から、ピアノの鍵盤を操作する人間の手の指を画像で示す指情報を特定する。続いて、抽出部231は、特定した指情報をユーザ画像情報a1から抽出する。続いて、抽出部231は、指情報から骨格情報を特定する。例えば、抽出部231は、ピアノの鍵盤を操作する人間の手の指を画像で示す情報と、当該情報によって示される指の骨格を画像で示す情報と、の関係を学習した学習済みモデルへの指情報の入力に応じて当該学習済みモデルが出力する情報を、骨格情報として特定する。
【0041】
決定部232は、指画像情報d1に基づいて、コメント情報bを決定する。決定部232は、例えば、学習済みモデル233を使用することによって、コメント情報bを決定する。
【0042】
学習済みモデル233は、ニューラルネットワーク(Neural Network)で構成される。例えば、学習済みモデル233は、深層ニューラルネットワーク(DNN:Deep Neural Network)で構成される。学習済みモデル233は、例えば、畳込ニューラルネットワーク(CNN:Convolutional Neural Network)で構成されてもよい。深層ニューラルネットワークと、畳込ニューラルネットワークとの各々は、ニューラルネットワークの一例である。学習済みモデル233は、複数種のニューラルネットワークの組合せで構成されてもよい。学習済みモデル233は、Self-Attention等の付加的な要素を有してもよい。学習済みモデル233は、ニューラルネットワークで構成されずに、隠れマルコフモデル(HMM:Hidden Markov Model)、またはサポートベクターマシーン(SVM:support vector machine)で構成されてもよい。
【0043】
学習済みモデル233は、楽器と演奏者との相対的な位置関係を示す第1情報と、第1情報が示す相対的な位置関係についてのコメントを示す第2情報と、の関係を学習した学習済みモデルである。第1情報は、学習用特徴情報の一例である。第2情報は、学習用コメント情報の一例である。学習済みモデル233は、第1学習済みモデルの一例である。
【0044】
学習済みモデル233は、第1情報として、楽曲Nの演奏時におけるピアノの鍵盤に対する手の各指の使い方を画像で示す情報を用いる。楽曲Nの演奏時におけるピアノの鍵盤に対する手の各指の使い方を画像で示す情報は、楽器に対する演奏者の身体の使い方を示す情報の一例である。
指画像情報d1が、ピアノの鍵盤に対する手の指の動きを画像で示す場合、第1情報(楽曲Nの演奏時におけるピアノの鍵盤に対する手の各指の使い方を画像で示す情報)は、楽曲Nの演奏時におけるピアノの鍵盤に対する手の指の動きを画像で示す情報である。
指画像情報d1が、ピアノの鍵盤に対する手の指の骨格の動きを画像で示す場合、第1情報は、楽曲Nの演奏時におけるピアノの鍵盤に対する手の指の骨格の動きを画像で示す情報である。
【0045】
学習済みモデル233は、第2情報として、第1画像情報と第1音情報との組を用いる。第1画像情報は、楽曲Nの演奏時におけるピアノの鍵盤に対する手の各指の使い方に関するお手本と、第1情報が示す画像についてのピアノ教師の適切なコメントと、を画像で示す。第1音情報は、第1情報が示す画像についてのピアノ教師の適切なコメントを音声で示す。ピアノ教師の適切なコメントは、例えば、「離鍵を早く。」、「和音の間違いに気をつけて。」および「もう少し指を伸ばしてみましょう。」の少なくとも1つを含む。ピアノ教師の適切なコメントは、上述のコメントに限らず適宜変更可能である。
【0046】
学習済みモデル233を実現するために用いられる複数の変数K1は、複数の訓練データT1を利用した機械学習によって特定される。訓練データT1は、訓練用の入力データと、訓練用の出力データと、の組合せを含む。訓練データT1は、訓練用の入力データとして第1情報を含む。訓練データT1は、訓練用の出力データとして第2情報を含む。
学習済みモデル233は、入力X1に応じた出力Y1を生成する。学習済みモデル233は、入力X1として「楽器と演奏者との相対的な位置関係を示す情報(例えば、指画像情報d1)」を用い、出力Y1として「コメントを示す情報」を用いる。
【0047】
なお、複数の訓練データT1は、訓練用の出力データ(第2情報)を有さずに訓練用の入力データ(第1情報)のみを有してもよい。この場合、複数の訓練データT1が複数の訓練データT1の類似度に基づいて複数のクラスタに分けられるように、機械学習によって複数の変数K1が特定される。そして、学習済みモデル233において、クラスタごとに、当該クラスタに適した第2情報が人によって対応づけられる。学習済みモデル233は、入力X1に応じたクラスタを特定し、特定したクラスタに対応する第2情報を、出力Y1として生成する。
【0048】
送信部234は、コメント情報bを、通信部210から演奏教習システム100に送信する。演奏教習システム100は、送信先の一例である。
【0049】
A4:演奏教習システム100の動作
図4は、演奏教習システム100の動作を説明するための図である。以下では、ユーザ100Bがピアノを用いて楽曲Nを演奏することを想定する。
【0050】
ユーザ100Bは、操作部150を操作することによって、演奏教習システム100を起動する。続いて、ユーザ100Bは、楽器100A(ピアノ)で楽曲Nの演奏を開始する。演奏教習システム100の起動に応じて、ステップS101においてカメラ110は、ユーザ画像情報a1を生成する。
【0051】
続いて、ステップS102において送信制御部181は、ユーザ画像情報a1を通信部160から情報処理装置200に送信する。
【0052】
続いて、ステップS103において通信部160は、ユーザ画像情報a1に応じたコメント情報bを情報処理装置200から受信する。
【0053】
続いて、ステップS104において出力制御部182は、表示部130およびスピーカ140の各々から、コメント情報bが示す演奏コメントを出力する。
【0054】
A5:情報処理装置200の動作
図5は、情報処理装置200の動作を説明するための図である。
【0055】
ステップS201において通信部210は、ユーザ画像情報a1を演奏教習システム100から受信する。
【0056】
続いて、ステップS202において抽出部231は、ユーザ画像情報a1から指画像情報d1を抽出する。例えば、ユーザ画像情報a1が、ユーザ100Bの手の各指と楽器100Aに加えて楽譜を表す場合、ステップS202において抽出部231は、ユーザ画像情報a1から、楽譜を表す情報を除いた部分を、指画像情報d1として抽出する。
【0057】
続いて、ステップS203において決定部232は、指画像情報d1に基づいて、コメント情報bを決定する。ステップS203では、決定部232は、まず、指画像情報d1を学習済みモデル233に入力する。続いて、決定部232は、指画像情報d1の入力に応じて学習済みモデル233が出力する情報を、コメント情報bとして決定する。学習済みモデル233は、ピアノ教師の適切なコメントを示す訓練データT1を学習済みである。このため、コメント情報bは、ユーザ100Bが行う演奏について適切なコメントを示す可能性が高い。
【0058】
続いて、ステップS204において送信部234は、コメント情報bを通信部210から演奏教習システム100に送信する。
【0059】
本実施形態によれば、ユーザ画像情報a1から抽出された指画像情報d1に基づいて、コメント情報bが決定される。このため、コメント情報bの決定に関して不要な情報を含むユーザ画像情報a1を学習済みモデル233に入力することによってコメント情報bを決定する構成に比べて、適切なコメント情報bを特定できる。なお、ユーザ画像情報a1から抽出された指画像情報d1に基づいてコメント情報bを決定することは、ユーザ画像情報a1に基づいてコメント情報bを決定することに包含される。このため、本実施形態は、決定部232がユーザ画像情報a1に基づいてコメント情報bを決定する構成を包含する。また、ユーザ画像情報a1は指画像情報d1を含むため、決定部232は、指画像情報d1の代わりにユーザ画像情報a1を用いてもよい。例えば、決定部232は、まず、ユーザ画像情報a1を学習済みモデル233に入力する。続いて、決定部232は、ユーザ画像情報a1に応じて学習済みモデル233が出力する情報を、コメント情報bとして決定する。この場合、抽出部231を省略できる。この場合も、決定部232は、ユーザ画像情報a1に基づいてコメント情報bを決定する。コメント情報bの決定に、指画像情報d1の代わりにユーザ画像情報a1を用いる構成は、以下の変形例においても、相互に矛盾しない範囲において適用可能である。
【0060】
B:変形例
上述の実施形態における変形の態様を以下に示す。以下の態様から任意に選択された2個以上の態様が、相互に矛盾しない範囲において適宜に併合されてもよい。
【0061】
B1:第1変形例
上述の実施形態において、抽出部231は、情報処理装置200ではなく、演奏教習システム100における処理装置180によって実現されてもよい。この場合、演奏教習システム100は、ユーザ画像情報a1の代わりに指画像情報d1を情報処理装置200に送信する。情報処理装置200の決定部232は、演奏教習システム100から受信した指画像情報d1に基づいて、コメント情報bを決定する。第1変形例によれば、情報処理装置200における処理の負荷を低減できる。
【0062】
B2:第2変形例
上述の実施形態および第1変形例において、訓練データT1の第1情報(訓練用の入力データ)は、楽曲N全体の演奏においてピアノの鍵盤に対する手の指の使い方を画像で示す情報でもよい。
例えば、指画像情報d1が、ピアノの鍵盤に対する手の指の動きを画像で示す場合、楽曲N全体の演奏においてピアノの鍵盤に対する手の指の使い方を画像で示す情報は、楽曲N全体の演奏においてピアノの鍵盤に対する手の指の動きを画像で示す情報である。指画像情報d1が、ピアノの鍵盤に対する手の指の骨格の動きを画像で示す場合、楽曲N全体の演奏においてピアノの鍵盤に対する手の指の使い方を画像で示す情報は、楽曲N全体の演奏においてピアノの鍵盤に対する手の指の骨格の動きを画像で示す情報である。
当該第1情報は、楽曲Nの一部分の演奏においてピアノの鍵盤に対する手の指の使い方を画像で示す情報でもよい。
指画像情報d1が、ピアノの鍵盤に対する手の指の動きを画像で示す場合、楽曲Nの一部分の演奏においてピアノの鍵盤に対する手の指の使い方を画像で示す情報は、楽曲Nの一部分の演奏においてピアノの鍵盤に対する手の指の動きを画像で示す情報である。指画像情報d1がピアノの鍵盤に対する手の指の骨格の動きを画像で示す場合、楽曲Nの一部分の演奏においてピアノの鍵盤に対する手の指の使い方を画像で示す情報は、楽曲Nの一部分の演奏においてピアノの鍵盤に対する手の指の骨格の動きを画像で示す情報である。
楽曲Nの一部分は、例えば、楽曲Nを4小節ごとに区切った部分である。楽曲Nの一部分は、楽曲Nを4小節ごとに区切った部分に限らず適宜変更可能である。
【0063】
学習済みモデル233が、楽曲Nの部分ごとに設けられてもよい。例えば、処理装置230は、楽曲Nの部分ごとに、学習済みモデル233を実現する。この場合、楽曲Nの部分ごとに、ユーザ100Bによるピアノの演奏に関するコメント情報を決定できる。学習済みモデル233が、相互に異なる楽曲ごとに設けられてもよい。例えば、処理装置230は、相互に異なる楽曲ごとに、学習済みモデル233を実現する。この場合、楽曲ごとに、コメント情報を決定できる。第2変形例によれば、コメント対象の演奏部分を多様にできる。
【0064】
B3:第3変形例
上述の実施形態および第1~第2変形例において、楽器と演奏者との相対的な位置関係を示す特徴情報、および、楽器に対する演奏者の身体の使い方を示す特徴情報は、指画像情報d1に限らない。
【0065】
例えば、当該特徴情報は、ピアノのペダルに対する演奏者における両足の使い方を画像で表す両足画像情報でもよい。両足画像情報は、例えば、ピアノのペダルに対する演奏者における両足の動きを画像で表す情報である。両足画像情報は、ピアノのペダルに対する演奏者における両足の骨格の動きを画像で表す情報でもよい。
この場合、ユーザ画像情報a1は、楽器100Aで楽曲Nを演奏するユーザ100Bの両足と、楽器100Aと、を画像で表す。例えば、カメラ110の撮像範囲が、楽器100A(ピアノ)を操作するユーザ100Bの両足と、楽器100Aと、を含む範囲に設定される。カメラ110は、楽器100A(ピアノ)を操作するユーザ100Bの両足を撮像することによって、ユーザ画像情報a1を生成する。ユーザ画像情報a1から両足画像情報を抽出する手法は、ユーザ画像情報a1から指画像情報d1を抽出する手法において「ピアノの鍵盤を操作する人間の手の指」の代わりに「ピアノのペダルを操作する人間の両足」を用いることによって実現される。
この場合、訓練データT1の第1情報が示す画像は、ピアノのペダルに対する演奏者における両足の使い方を表す。両足画像情報が、ピアノのペダルに対する演奏者における両足の動きを画像で表す情報である場合、訓練データT1の第1情報が示す画像は、ピアノのペダルに対する演奏者における両足の動きを表す。両足画像情報が、ピアノのペダルに対する演奏者における両足の骨格の動きを画像で表す情報である場合、訓練データT1の第1情報が示す画像は、ピアノのペダルに対する演奏者における両足の骨格の動きを表す。
訓練データT1の第2情報が示すピアノ教師の適切なコメントは、例えば、「ダンパーペダルを踏みこんで。」、「つま先に力が入りすぎです。」および「つま先に力を入れましょう。」の少なくとも1つを含む。ピアノ教師の適切なコメントは、上述のコメントに限らず適宜変更可能である。
【0066】
当該特徴情報は、ピアノに対する演奏者の全身の使い方を画像で表す全身画像情報でもよい。全身画像情報は、例えば、ピアノに対する演奏者の全身の動きを画像で表す情報である。全身画像情報は、ピアノに対する演奏者の全身の骨格の動きを画像で表す情報でもよい。
この場合、ユーザ画像情報a1は、楽器100Aで楽曲Nを演奏するユーザ100Bの全身と、楽器100Aと、を画像で表す。例えば、カメラ110は、楽器100A(ピアノ)を操作するユーザ100Bの全身と、楽器100Aと、を撮像することによって、ユーザ画像情報a1を生成する。ユーザ画像情報a1から全身画像情報を抽出する手法は、ユーザ画像情報a1から指画像情報d1を抽出する手法において「ピアノの鍵盤を操作する人間の手の指」の代わりに「ピアノを操作する人間の全身」を用いることによって実現される。
この場合、訓練データT1の第1情報が示す画像は、ピアノに対する演奏者の全身の使い方を表す。全身画像情報が、ピアノに対する演奏者の全身の動きを画像で表す情報である場合、訓練データT1の第1情報が示す画像は、ピアノに対する演奏者の全身の動きを表す。全身画像情報が、ピアノに対する演奏者の全身の骨格の動きを画像で表す情報である場合、訓練データT1の第1情報が示す画像は、ピアノに対する演奏者の全身の動きを表す。
訓練データT1の第2情報が示すピアノ教師の適切なコメントは、例えば、「背筋を伸ばしてね。」および「腕が身体に近すぎますよ。」のいずれかである。ピアノ教師の適切なコメントは、上述のコメントに限らず適宜変更可能である。
【0067】
第3変形例によれば、楽器と演奏者との種々の相対的な位置関係に基づいて、多様なコメント情報を決定できる。
【0068】
B4:第4変形例
上述の実施形態および第1~第3変形例において、決定部232は、学習済みモデル233を用いることなく、コメント情報bを決定してもよい。例えば、決定部232は、指の動きとコメント候補情報との対応関係を示すコメントテーブルを用いて、コメント情報bを決定する。コメントテーブルが、「指の動きの速度が参照速度以上」という指の動きと、「離鍵を早く。」というコメント候補情報と、の対応関係を示す例を説明する。決定部232は、指画像情報d1(またはユーザ画像情報a1)に基づいて、ユーザ100Bにおける手の指における動きの速度を算出する。決定部232は、算出した速度が参照速度以上である場合、コメントテーブルにおいて「指の動きの速度が参照速度以上」という指の動きに対応する「離鍵を早く。」というコメント候補情報を、コメント情報bとして決定する。指の動きの例とコメント候補情報の例は適宜変更可能である。例えば、コメントテーブルが、「正しい指の移動方向」という指の動きと、「上手です。」というコメント候補情報と、の対応関係を示してもよい。この場合、決定部232は、指画像情報d1(またはユーザ画像情報a1)に基づいて、ユーザ100Bにおける手の指の移動方向を特定する。決定部232は、特定した指の移動方向がコメントテーブルに示される「正しい指の移動方向」と一致する場合、コメントテーブルにおいて「正しい指の移動方向」という指の動きに対応する「上手です。」というコメント候補情報をコメント情報bとして決定する。
【0069】
第4変形例によれば、学習済みモデル233を用いることなく、コメント情報bを決定できる。
【0070】
B5:第5変形例
上述の実施形態および第1~第4変形例において、楽器100Aの種類が変更可能である場合、学習済みモデル233が、楽器の種類ごと(楽器ごと)に設けられてもよい。例えば、処理装置230は、楽器の種類ごとに、楽曲Nについての学習済みモデル233を実現する。以下、楽器100Aの種類として、ピアノとバイオリンが存在する例を説明する。ピアノとバイオリンは、それぞれ、楽器の一例である。ピアノとバイオリンは、複数の楽器の一例である。楽器100Aの種類(複数の楽器)は、ピアノとバイオリンに限らず適宜変更可能である。
【0071】
図6は、第5変形例に係る情報処理装置201を示す図である。情報処理装置201は、学習済みモデル233に加えて学習済みモデル235を有する。学習済みモデル233は、上述のピアノ用の学習済みモデルである。学習済みモデル235は、バイオリン用の学習済みモデルである。すなわち、学習済みモデル235は、バイオリンに対応する学習済みモデル233の一例である。学習済みモデル233と学習済みモデル235は、複数の楽器に対応する複数の第1学習済みモデルの一例である。複数の楽器に対応する複数の第1学習済みモデルを含むモデルは、第1学習済みモデルの一例である。複数の楽器に対応することは、例えば、複数の楽器に1対1で対応することを意味する。
【0072】
学習済みモデル235は、ニューラルネットワークで構成される。例えば、学習済みモデル235は、深層ニューラルネットワークで構成される。学習済みモデル235は、例えば、畳込ニューラルネットワークで構成されてもよい。学習済みモデル235は、複数種のニューラルネットワークの組合せで構成されてもよい。学習済みモデル235は、Self-Attention等の付加的な要素を有してもよい。学習済みモデル235は、ニューラルネットワークで構成されずに、隠れマルコフモデル、またはサポートベクターマシーンで構成されてもよい。
【0073】
学習済みモデル235は、楽器と演奏者との相対的な位置関係を示す第1情報と、第1情報が示す相対的な位置関係についてのコメントを示す第2情報と、の関係を学習した学習済みモデルである。学習済みモデル235は、第1学習済みモデルの一例である。
【0074】
学習済みモデル235は、第1情報として、楽曲Nの演奏時におけるバイオリンに対する左手の各指の使い方を画像で示す情報を用いる。楽曲Nの演奏時におけるバイオリンに対する左手の各指の使い方を画像で示す情報は、楽器に対する演奏者の身体の使い方を示す情報の一例である。
楽曲Nの演奏時におけるバイオリンに対する左手の各指の使い方を画像で示す情報は、例えば、楽曲Nの演奏時におけるバイオリンの絃に対する左手の各指の動きを画像で示す情報である。楽曲Nの演奏時におけるバイオリンに対する左手の各指の使い方を画像で示す情報は、楽曲Nの演奏時におけるバイオリンの絃に対する左手の各指の骨格の動きを画像で示す情報でもよい。
【0075】
学習済みモデル235は、第2情報として、第2画像情報と第2音情報との組を用いる。第2画像情報は、楽曲Nの演奏時におけるバイオリンに対する左手の各指の使い方に関するお手本と、学習済みモデル235における第1情報が示す画像についてのバイオリン教師の適切なコメントと、を画像で示す。第2音情報は、学習済みモデル235における第1情報が示す画像についてのバイオリン教師の適切なコメントを音声で示す。バイオリン教師の適切なコメントは、例えば、「指の間をひろげましょう。」である。バイオリン教師の適切なコメントは、上述のコメントに限らず適宜変更可能である。
【0076】
処理装置230は、入力X1から出力Y1を特定する演算を規定する演算プログラムと、複数の変数K2と、の組合せに基づいて、学習済みモデル235として機能する。複数の変数K2は、複数の訓練データT2を利用した機械学習によって特定される。訓練データT2は、学習済みモデル235における第1情報(訓練用の入力データ)と、学習済みモデル235における第2情報(訓練用の出力データ)と、の組合せを含む。複数の訓練データT2は、訓練用の出力データ(第2情報)を有さずに訓練用の入力データ(第1情報)のみを有してもよい。この場合、複数の訓練データT2が複数の訓練データT2の類似度に基づいて複数のクラスタに分けられるように、機械学習によって複数の変数K2が特定される。そして、学習済みモデル235において、クラスタごとに、当該クラスタに適した第2情報が人によって対応づけられる。学習済みモデル235は、入力X1に応じたクラスタを特定し、特定したクラスタに対応する第2情報を、出力Y1として生成する。
【0077】
第5変形例では、ユーザ100Bは、操作部150を操作することによって、楽器100Aの種類(ピアノまたはバイオリン)を示す楽器情報c1を演奏教習システム100に入力する。楽器情報c1は、複数の楽器の中の楽器を示す楽器情報の一例である。演奏教習システム100の送信制御部181は、楽器情報c1を通信部160から情報処理装置201に送信する。
【0078】
情報処理装置201の決定部232は、楽器情報c1を取得し、学習済みモデル233および235の中から、楽器情報c1が示す種類(楽器)に対応する学習済みモデルを特定する。例えば、楽器情報c1がピアノを示す場合、決定部232は、楽器情報c1が示す種類(楽器)に対応する学習済みモデルとして、学習済みモデル233を特定する。一方、楽器情報c1がバイオリンを示す場合、決定部232は、楽器情報c1が示す種類(楽器)に対応する学習済みモデルとして、学習済みモデル235を特定する。
【0079】
ユーザ100Bは、楽器100Aの種類としてピアノを示す楽器情報c1を入力すると、カメラ110の撮像範囲を、楽器100A(ピアノ)で楽曲Nを演奏するユーザ100Bの手の各指と、楽器100Aと、を含む第1範囲に設定する。
【0080】
ユーザ100Bは、楽器100Aの種類としてバイオリンを示す楽器情報c1を入力すると、カメラ110の撮像範囲を、楽器100A(バイオリン)で楽曲Nを演奏するユーザ100Bの手の各指と、楽器100Aと、を含む第2範囲に設定する。
【0081】
ユーザ100Bは、第1範囲または第2範囲の設定を、楽器情報c1の入力前に行ってもよい。
【0082】
第1範囲および第2範囲には、ユーザの手の各指と楽器100Aとのいずれとも異なる物体(例えば、楽譜)が存在することがある。
【0083】
送信制御部181は、カメラ110が生成したユーザ画像情報a1を通信部160から情報処理装置201に送信する。
【0084】
情報処理装置201の抽出部231は、楽器情報c1がピアノを示す場合、第1実施形態で示したように動作する。
【0085】
楽器情報c1がバイオリンを示す場合、抽出部231は、ユーザ画像情報a1から、指画像情報d2を抽出する。指画像情報d2は、バイオリンの絃に対するユーザ100Bにおける左手の各指の使い方を画像で示す。指画像情報d2は、楽器に対する演奏者の身体の使い方を示す特徴情報の一例である。ユーザ画像情報a1から指画像情報d2を抽出する手法は、ユーザ画像情報a1から指画像情報d1を抽出する手法において「ピアノの鍵盤を操作する人間の手の指」の代わりに「バイオリンの絃を操作する人間の左手の各指」を用いることによって実現される。
【0086】
学習済みモデル235が、第1情報として、楽曲Nの演奏時におけるバイオリンに対する左手の各指の動きを画像で示す情報を用いる場合、指画像情報d2は、バイオリンの絃に対するユーザ100Bにおける左手の各指の動きを画像で示す。
学習済みモデル235が、第1情報として、楽曲Nの演奏時におけるバイオリンに対する左手の各指の骨格の動きを画像で示す情報を用いている場合、指画像情報d2は、バイオリンの絃に対するユーザ100Bにおける左手の各指の骨格の動きを画像で示す。
決定部232は、指画像情報d2を学習済みモデル235に入力する。続いて、決定部232は、指画像情報d2の入力に応じて学習済みモデル235が出力する情報を、コメント情報bとして決定する。
【0087】
第5変形例によれば、決定部232は、楽器100Aに種類に応じて適切なコメント情報bを決定できる。
【0088】
第5変形例において、訓練データT2の第1情報(訓練用の入力データ)は、楽曲N全体の演奏時においてバイオリンに対する左手の各指の使い方を画像で示す情報でもよい。当該第1情報は、楽曲Nの一部分(例えば、楽曲Nを4小節ごとに区切った部分)の演奏時においてバイオリンに対する左手の各指の使い方を画像で示す情報でもよい。学習済みモデル235が、楽曲Nの部分ごとに設けられてもよい。例えば、処理装置230は、楽曲Nの部分ごとに、学習済みモデル235を実現する。この場合、楽曲Nの部分ごとに、バイオリンの演奏に関するコメント情報bを決定できる。学習済みモデル235が、相互に異なる楽曲ごとに設けられてもよい。例えば、処理装置230は、相互に異なる楽曲ごとに、学習済みモデル235を実現する。この場合、楽曲ごとに、バイオリンの演奏に関するコメント情報bを決定できる。
【0089】
第5変形例において、バイオリンと演奏者との相対的な位置関係を示す特徴情報、および、バイオリンに対する演奏者の身体の使い方を示す特徴情報は、指画像情報d2に限らない。例えば、当該特徴情報は、バイオリンに対する演奏者の上半身の姿勢を画像で表す上半身画像情報でもよい。上半身画像情報は、例えば、バイオリンに対する演奏者の上半身の動きを画像で表す情報である。上半身画像情報は、バイオリンに対する演奏者の上半身の骨格の動きを画像で表す情報でもよい。
この場合、ユーザ画像情報a1は、楽器100Aで楽曲Nを演奏するユーザ100Bの上半身と、楽器100Aと、を画像で表す。例えば、カメラ110の撮像範囲が、楽器100A(バイオリン)を操作するユーザ100Bの上半身と、楽器100Aと、を含む範囲に設定される。カメラ110は、楽器100A(バイオリン)を操作するユーザ100Bの上半身と楽器100Aとを撮像することによって、ユーザ画像情報a1を生成する。ユーザ画像情報a1から上半身画像情報を抽出する手法は、ユーザ画像情報a1から指画像情報d1を抽出する手法において「ピアノの鍵盤を操作する人間の手の指」の代わりに「バイオリンを操作する演奏者の上半身」を用いることによって実現される。
この場合、訓練データT2の第1情報が示す画像は、バイオリンに対する演奏者の上半身の使い方を表す。上半身画像情報が、バイオリンに対する演奏者の上半身の動きを画像で表す情報である場合、訓練データT2の第1情報が示す画像は、バイオリンに対する演奏者の上半身の動きを表す。上半身画像情報が、バイオリンに対する演奏者の上半身の骨格の動きを画像で表す情報である場合、訓練データT2の第1情報が示す画像は、バイオリンに対する演奏者の上半身の骨格の動きを表す。
訓練データT2の第2情報が示すバイオリン教師の適切なコメントは、例えば、「姿勢が良いですね。その調子。」、「弓の角度をもっとあげて。」および「人差し指だけでなく、中指・薬指を使って弓に圧力をかけましょう。」のいずれかである。バイオリン教師の適切なコメントは、上述のコメントに限らず適宜変更可能である。
【0090】
第5変形例において、コメント学習済みモデルが対応する楽器の種類は、ピアノとバイオリンに限らず適宜変更可能である。例えば、学習済みモデル235が対応する楽器の種類は、ギター、サクソフォンまたはフルートでもよい。
【0091】
学習済みモデル235が対応する楽器の種類が、ギターである場合、学習済みモデル235は、第1情報として、楽曲Nの演奏時におけるギターに対する両手の各指の使い方を画像で示す情報を用いる。楽曲Nの演奏時におけるギターに対する両手の各指の使い方を画像で示す情報は、楽器に対する演奏者の身体の使い方を示す情報の一例である。
楽曲Nの演奏時におけるギターに対する両手の各指の使い方を画像で示す情報は、例えば、楽曲Nの演奏時におけるギターに対する両手の各指の動きを画像で示す情報である。楽曲Nの演奏時におけるギターに対する両手の各指の使い方を画像で示す情報は、楽曲Nの演奏時におけるギターに対する両手の各指の骨格の動きを画像で示す情報でもよい。
【0092】
この場合、学習済みモデル235は、第2情報として、第3画像情報と第3音情報との組を用いる。第3画像情報は、楽曲Nの演奏時におけるギターに対する両手の各指の使い方に関するお手本と、学習済みモデル235における第1情報が示す画像についてのギター教師の適切なコメントと、を画像で示す。第3音情報は、学習済みモデル235における第1情報が示す画像についてのギター教師の適切なコメントを音声で示す。ギター教師の適切なコメントは、例えば、「左手のローポジションからハイポジションへの移動が遅れがち。」および「よい感じです。」の少なくとも1つを含む。ギター教師の適切なコメントは、上述のコメントに限らず適宜変更可能である。
【0093】
楽器100Aとしてギターが用いられる場合、カメラ110の撮像範囲が、ユーザ100Bの両手と楽器100A(ギター)とを含む範囲に設定される。ユーザ100bは、楽器100Aの種類としてギターを示す楽器情報c1を、操作部150から演奏教習システム100に入力する。楽器情報c1は、情報処理装置200に送信される。情報処理装置201の抽出部231は、楽器情報c1がギターを示す場合、ユーザ画像情報a1から、両手画像情報d3を抽出する。両手画像情報d3は、ギターに対するユーザ100Bにおける両手(左手および右手)の各指の使い方を画像で示す。両手画像情報d3は、楽器に対する演奏者の身体の使い方を示す特徴情報の一例である。ユーザ画像情報a1から両手画像情報d3を抽出する手法は、ユーザ画像情報a1から指画像情報d1を抽出する手法において「ピアノの鍵盤を操作する人間の手の指」の代わりに「ギターを操作する人間の両手の各指」を用いることによって実現される。
学習済みモデル235が、第1情報として、楽曲Nの演奏時におけるギターに対する両手の各指の動きを画像で示す情報を用いる場合、両手画像情報d3は、ギターに対するユーザ100Bにおける両手の各指の動きを画像で示す。
学習済みモデル235が、第1情報として、楽曲Nの演奏時におけるギターに対する両手の各指の骨格の動きを画像で示す情報を用いる場合、両手画像情報d3は、ギターに対するユーザ100Bにおける両手の各指の骨格の動きを画像で示す。
決定部232は、両手画像情報d3を学習済みモデル235に入力する。続いて、決定部232は、両手画像情報d3の入力に応じて学習済みモデル235が出力する情報を、コメント情報bとして決定する。
【0094】
学習済みモデル235が対応する楽器の種類が、サクソフォンである場合、学習済みモデル235は、第1情報として、楽曲Nの演奏時におけるサクソフォンに対する口および頬の筋肉の使い方を画像で示す情報を用いる。楽曲Nの演奏時におけるサクソフォンに対する口および頬の筋肉の使い方を画像で示す情報は、楽器に対する演奏者の身体の使い方を示す情報の一例である。
楽曲Nの演奏時におけるサクソフォンに対する口および頬の筋肉の使い方を画像で示す情報は、例えば、楽曲Nの演奏時におけるサクソフォンに対する口および頬の筋肉の動きを画像で示す情報である。楽曲Nの演奏時におけるサクソフォンに対する口および頬の筋肉の使い方を画像で示す情報は、例えば、楽曲Nの演奏時におけるサクソフォンに対する口および頬の骨格の動きを画像で示す情報でもよい。
【0095】
この場合、学習済みモデル235は、第2情報として、第4画像情報と第4音情報との組を用いる。第4画像情報は、楽曲Nの演奏時におけるサクソフォンに対する口および頬の筋肉の使い方に関するお手本と、学習済みモデル235における第1情報が示す画像についてのサクソフォン教師の適切なコメントと、を画像で示す。第4音情報は、学習済みモデル235における第1情報が示す画像についてのサクソフォン教師の適切なコメントを音声で示す。サクソフォン教師の適切なコメントは、例えば、「口の両端はしっかり締めましょう。」および「少し、力が入りすぎです。少し、リラックスして吹きましょう。」の少なくとも1つを含む。サクソフォン教師の適切なコメントは、上述のコメントに限らず適宜変更可能である。
【0096】
楽器100Aとしてサクソフォンが用いられる場合、カメラ110の撮像範囲が、ユーザ100Bの顔と楽器100A(サクソフォン)とを含む範囲に設定される。ユーザ100bは、楽器100Aの種類としてサクソフォンを示す楽器情報c1を、操作部150から演奏教習システム100に入力する。楽器情報c1は、情報処理装置200に送信される。情報処理装置201の抽出部231は、楽器情報c1がサクソフォンを示す場合、ユーザ画像情報a1から、顔画像情報d4を抽出する。顔画像情報d4は、楽器100Aであるサクソフォンに対するユーザ100Bにおける口および頬の筋肉の使い方を画像で示す。顔画像情報d4は、楽器に対する演奏者の身体の使い方を示す特徴情報の一例である。ユーザ画像情報a1から顔画像情報d4を抽出する手法は、ユーザ画像情報a1から指画像情報d1を抽出する手法において「ピアノの鍵盤を操作する人間の手の指」の代わりに「サクソフォンを操作する人間の口および頬」を用いることによって実現される。
学習済みモデル235が、第1情報として、楽曲Nの演奏時におけるサクソフォンに対する口および頬の筋肉の動きを画像で示す情報を用いる場合、顔画像情報d4は、サクソフォンに対する口および頬の筋肉の動きを画像で示す。
学習済みモデル235が、第1情報として、楽曲Nの演奏時におけるサクソフォンに対する口および頬の骨格の動きを画像で示す情報を用いる場合、顔画像情報d4は、サクソフォンに対する口および頬の骨格の動きを画像で示す。
決定部232は、顔画像情報d4を学習済みモデル235に入力する。続いて、決定部232は、顔画像情報d4の入力に応じて学習済みモデル235が出力する情報を、コメント情報bとして決定する。
【0097】
学習済みモデル235が対応する楽器の種類が、フルートである場合、学習済みモデル235は、第1情報として、楽曲Nの演奏時におけるフルートに対する頬の筋肉の使い方および呼吸のタイミングを画像で示す情報を用いる。楽曲Nの演奏時におけるフルートに対する頬の筋肉の使い方および呼吸のタイミングを画像で示す情報は、楽器に対する演奏者の身体の使い方を示す情報の一例であり、例えば楽曲Nの演奏時における演奏者の上半身とフルートを表す画像情報である。
楽曲Nの演奏時におけるフルートに対する頬の筋肉の使い方および呼吸のタイミングを画像で示す情報は、例えば、楽曲Nの演奏時におけるフルートに対する上半身の動きを画像で示す情報である。楽曲Nの演奏時におけるフルートに対する頬の筋肉の使い方および呼吸のタイミングを画像で示す情報は、楽曲Nの演奏時におけるフルートに対する上半身の骨格の動きを画像で示す情報でもよい。
【0098】
この場合、学習済みモデル235は、第2情報として、第5画像情報と第5音情報との組を用いる。第5画像情報は、楽曲Nの演奏時におけるフルートに対する頬の筋肉の使い方および呼吸のタイミングに関するお手本と、学習済みモデル235における第1情報が示す画像についてのフルート教師の適切なコメントと、を画像で示す。第5音情報は、学習済みモデル235における第1情報が示す画像についてのフルート教師の適切なコメントを音声で示す。フルート教師の適切なコメントは、例えば、「ろうそくの火を消すようなイメージで、力を入れず、ボーと太めの息を入れてみましょう。」および「ゆっくり練習してから、早いパッセージに挑戦しましょう。」の少なくとも1つを含む。フルート教師の適切なコメントは、上述のコメントに限らず適宜変更可能である。
【0099】
楽器100Aとしてフルートが用いられる場合、カメラ110の撮像範囲が、ユーザ100Bの上半身と楽器100A(フルート)とを含む範囲に設定される。ユーザ100bは、楽器100Aの種類としてフルートを示す楽器情報c1を、操作部150から演奏教習システム100に入力する。楽器情報c1は、情報処理装置200に送信される。情報処理装置202の抽出部231は、楽器情報c1がフルートを示す場合、ユーザ画像情報a1から、上半身画像情報d5を抽出する。上半身画像情報d5は、フルートに対するユーザ100Bにおける頬の筋肉の使い方および呼吸のタイミングを画像で示す。上半身画像情報d5は、楽器に対する演奏者の身体の使い方を示す特徴情報の一例である。ユーザ画像情報a1から上半身画像情報d5を抽出する手法は、ユーザ画像情報a1から指画像情報d1を抽出する手法において「ピアノの鍵盤を操作する人間の手の指」の代わりに「フルートを操作する人間の上半身」を用いることによって実現される。
学習済みモデル235が、第1情報として、楽曲Nの演奏時におけるフルートに対する上半身の動きを画像で示す情報を用いる場合、上半身画像情報d5は、フルートに対するユーザ100Bにおける上半身の動きを画像で示す。
学習済みモデル235が、第1情報として、楽曲Nの演奏時におけるフルートに対する上半身の骨格の動きを画像で示す情報を用いる場合、上半身画像情報d5は、フルートに対するユーザ100Bにおける上半身の骨格の動きを画像で示す。
決定部232は、上半身画像情報d5を学習済みモデル235に入力する。続いて、決定部232は、上半身画像情報d5の入力に応じて学習済みモデル235が出力する情報を、コメント情報bとして決定する。
【0100】
第5変形例において、学習済みモデルの数は2つに限らず3つ以上でもよい。3つ以上の学習済みモデルの各々は、相互に異なる種類の楽器に対応する。
【0101】
B6:第6変形例
第5変形例において、ユーザ画像情報a1に基づいて、楽器情報c1が特定されてもよい。
【0102】
図7は、楽器情報c1を特定する特定部236と、学習済みモデル237と、を含む情報処理装置202を示す図である。特定部236は、プログラムを実行する処理装置230によって実現される。特定部236は、ユーザ画像情報a1が示す楽器100Aの画像に基づいて、楽器情報c1を特定する。特定部236は、例えば、学習済みモデル237を用いて、楽器情報c1を特定する。ユーザ画像情報a1は、楽器の種類に関連する関連情報の一例である。楽器の種類(例えば、ピアノ)に関連する関連情報は、楽器(例えば、ピアノ)に関する関連情報の一例である。
【0103】
学習済みモデル237は、ニューラルネットワークで構成される。例えば、学習済みモデル237は、深層ニューラルネットワークで構成される。学習済みモデル237は、例えば、畳込ニューラルネットワークで構成されてもよい。学習済みモデル237は、複数種のニューラルネットワークの組合せで構成されてもよい。学習済みモデル237は、Self-Attention等の付加的な要素を有してもよい。学習済みモデル237は、ニューラルネットワークで構成されずに、隠れマルコフモデル、またはサポートベクターマシーンで構成されてもよい。
【0104】
学習済みモデル237は、楽器の種類に関連する第3情報と、第3情報に対応する楽器の種類を示す第4情報と、の関係を学習した学習済みモデルである。学習済みモデル237は、第2学習済みモデルの一例である。学習済みモデル237は、第3情報として、楽器を画像で示す情報を用いる。
【0105】
処理装置230は、入力X1から出力Y1を特定する演算を規定する演算プログラムと、複数の変数K3と、の組合せに基づいて、学習済みモデル237として機能する。複数の変数K3は、記憶装置220に記憶される。複数の変数K3は、複数の訓練データT3を利用した機械学習によって特定される。訓練データT3は、楽器を画像で示す情報(訓練用の入力データ)と、楽器の種類を示す情報(訓練用の出力データ)と、の組合せを含む。複数の訓練データT3は、訓練用の出力データ(楽器の種類を示す情報)を有さずに訓練用の入力データ(楽器を画像で示す情報)のみを有してもよい。この場合、複数の訓練データT3が複数の訓練データT3の類似度に基づいて複数のクラスタに分けられるように、機械学習によって複数の変数K3が特定される。そして、学習済みモデル237において、クラスタごとに、当該クラスタに適した第4情報(楽器の種類を示す情報)が人によって対応づけられる。学習済みモデル237は、入力X1に応じたクラスタを特定し、特定したクラスタに対応する第4情報を、出力Y1として生成する。
【0106】
特定部236は、ユーザ画像情報a1を学習済みモデル237に入力する。続いて、特定部236は、ユーザ画像情報a1の入力に応じて学習済みモデル237が出力する情報を、楽器情報c1として特定する。
【0107】
第6変形例によれば、楽器100Aを画像で示す情報に基づいて、楽器100Aの種類を特定できる。また、ユーザ画像情報a1を、楽器100Aの種類を特定するための情報として兼用できる。楽器100Aを画像で示す情報は、ユーザ画像情報a1に限らない。例えば、楽器100Aを画像で示す情報は、ユーザ100Bを示さずに楽器100Aを示す画像情報でもよい。
【0108】
B7:第7変形例
第6変形例において、楽器の種類に関連する関連情報(楽器に関する関連情報)は、楽器100Aを表す画像を情報に限らない。関連情報は、ユーザ100Bが楽器100Aを演奏する状況において楽器100Aが出力する音を示す楽器音情報でもよい。楽器音情報は、演奏者が楽器を演奏する状況において楽器が出力する音を示す情報の一例である。以下では、楽器音情報は、楽曲Nについてユーザ100Bが楽器100Aを演奏する状況において楽器100Aが出力する音を示す。
【0109】
図8は、第7変形例に係る情報処理装置203を示す図である。情報処理装置203は、学習済みモデル238を有する点において、
図7に示される情報処理装置202と異なる。
【0110】
演奏教習システム100がマイクを有する場合、楽器音情報は、例えば、演奏教習システム100のマイクによって生成される。楽器音情報は、通信部160から情報処理装置203に送信される。情報処理装置203の特定部236は、楽器音情報に基づいて、楽器情報c1を特定する。特定部236は、学習済みモデル238を用いることによって、楽器情報c1を特定する。
【0111】
学習済みモデル238は、ニューラルネットワークで構成される。例えば、学習済みモデル238は、深層ニューラルネットワークで構成される。学習済みモデル238は、例えば、畳込ニューラルネットワークで構成されてもよい。学習済みモデル238は、複数種のニューラルネットワークの組合せで構成されてもよい。学習済みモデル238は、Self-Attention等の付加的な要素を有してもよい。学習済みモデル238は、ニューラルネットワークで構成されずに、隠れマルコフモデル、またはサポートベクターマシーンで構成されてもよい。
【0112】
学習済みモデル238は、楽器の種類に関連する第3情報と、第3情報に対応する楽器の種類を示す第4情報と、の関係を学習した学習済みモデルである。第3情報は、楽器に関する学習用関連情報の一例である。第4情報は、学習用関連情報から特定される楽器を示す学習用楽器情報の一例である。学習済みモデル238は、第3情報として、楽器が出力する音を示す情報を用いる。学習済みモデル238は、第2学習済みモデルの一例である。
【0113】
処理装置230は、入力X1から出力Y1を特定する演算を規定する演算プログラムと、複数の変数K4と、の組合せに基づいて、学習済みモデル238として機能する。複数の変数K4は、記憶装置220に記憶される。複数の変数K4は、複数の訓練データT4を利用した機械学習によって特定される。訓練データT4は、楽器が出力する音を示す情報(訓練用の入力データ)と、楽器の種類を示す情報(訓練用の出力データ)と、の組合せを含む。複数の訓練データT4は、訓練用の出力データ(楽器の種類を示す情報)を有さずに訓練用の入力データ(楽器が出力する音を示す情報)のみを有してもよい。この場合、複数の訓練データT4が複数の訓練データT4の類似度に基づいて複数のクラスタに分けられるように、機械学習によって複数の変数K4が特定される。そして、学習済みモデル238において、クラスタごとに、当該クラスタに適した楽器の種類を示す情報が人によって対応づけられる。学習済みモデル238は、入力X1に応じたクラスタを特定し、特定したクラスタに対応する楽器の種類を示す情報を、出力Y1として生成する。
【0114】
特定部236は、楽器音情報を学習済みモデル238に入力する。続いて、特定部236は、楽器音情報の入力に応じて学習済みモデル238が出力する情報を、楽器情報c1として特定する。なお、特定部236によって使用される楽器音情報は、楽器100Aが出力する音を示す情報であればよく、ユーザ100Bが楽器100Aを演奏する状況において楽器100Aが出力する音を示す情報に限定されない。
【0115】
第7変形例によれば、楽器100Aが出力する音を示す情報に基づいて、楽器100Aの種類を特定できる。
【0116】
第7変形例において、決定部232は、ユーザ100Bが楽器100Aを演奏する状況において楽器100Aが出力する音を示す楽器音情報と、指画像情報d1(特徴情報)と、に基づいて、コメント情報bを決定してもよい。
【0117】
例えば、決定部232は、以下の訓練データT1で訓練された学習済みモデル233と、楽器音情報と、指画像情報d1と、を用いることによって、コメント情報bを決定してもよい。
【0118】
訓練データT1の訓練用の入力データは、楽曲Nについて演奏者がピアノを演奏する状況においてピアノが出力する音を示す情報と、楽曲Nの演奏時におけるピアノの鍵盤に対する手の各指の使い方を画像で示す情報と、の組である。
【0119】
訓練データT1の訓練用の出力データは、訓練用の入力データによって示される音と画像との組についてのピアノ教師の適切なコメントを示す。
【0120】
ピアノ教師の適切なコメントは、例えば、「指の使い方もピアノの音も大変上手です。」、「離鍵を早く。」、「和音の間違いに気をつけて。」および「もう少し指を伸ばしてみましょう。」の少なくとも1つを含む。
【0121】
決定部232は、まず、ユーザ100Bが楽器100Aを演奏する状況において楽器100Aが出力する音を示す楽器音情報と、指画像情報d1と、を学習済みモデル233に入力する。続いて、決定部232は、楽器音情報と指画像情報d1との入力に応じて学習済みモデル233が出力する情報を、コメント情報bとして決定する。この場合、決定部232は、楽器音情報と指画像情報d1(特徴情報)とに基づいて、コメント情報bを決定するため、より適切なコメントを示すコメント情報bを決定できる。なお、特徴情報は、指画像情報d1に限らず適宜変更可能である。
【0122】
B8:第8変形例
第6~第7変形例において、楽器の種類に関連する関連情報(楽器に関する関連情報)は、楽器の種類に応じた楽譜を示す楽譜情報でもよい。楽器の種類に応じた楽譜は、楽器に応じた楽譜の一例である。楽譜は、譜面とも称される。楽譜情報は、例えば、楽譜を撮像するカメラによって生成される。例えば、カメラ110が、楽譜情報を生成する機器として兼用される。楽譜情報は、演奏教習システム100から情報処理装置202または203に送信される。
【0123】
特定部236は、楽譜情報が示す楽譜に基づいて、楽器情報c1を特定する。例えば、特定部236は、楽譜の種類に基づいて、楽器情報c1を特定する。
【0124】
楽譜情報によって示される楽譜が、タブ譜である場合、特定部236は、楽器の種類としてギターを示す楽器情報c1を特定する。タブ譜は、
図9に示すように、互いに平行な6本の線でギターの絃を示す。このため、楽譜情報によって示される楽譜が、互いに平行な6本の線で構成される場合、特定部236は、楽譜情報によって示される楽譜が、タブ譜であると判定する。
【0125】
楽譜情報によって示される楽譜が、ギターコード譜である場合、特定部236は、楽器の種類としてギターを示す楽器情報c1を特定する。ギターコード譜は、
図10に示すように、歌詞の並びに沿うギターコードを表す。このため、楽譜情報によって示される楽譜が、ギターコードを表す場合、特定部236は、楽譜情報によって示される楽譜が、ギターコード譜であると判定する。
【0126】
楽譜情報によって示される楽譜が、ドラム譜である場合、特定部236は、楽器の種類としてドラムを示す楽器情報c1を特定する。ドラム譜は、
図11に示すように、ドラムセットに含まれる各楽器に対応する記号を表す。このため、楽譜情報によって示される楽譜が、ドラムセットの各楽器に対応する記号を表す場合、特定部236は、楽譜情報によって示される楽譜が、ドラム譜であると判定する。
【0127】
楽譜情報によって示される楽譜が、連弾譜である場合、特定部236は、楽器の種類としてピアノを示す楽器情報c1を特定する。連弾譜は、
図12に示すように、連弾を示す記号12aを表す。このため、楽譜情報によって示される楽譜が、連弾を示す記号12aを表す場合、特定部236は、楽譜情報によって示される楽譜が、連弾譜であると判定する。
【0128】
特定部236は、楽譜情報が示す楽譜における音符の並びに基づいて、楽器情報c1を特定してもよい。
図13に示すように、楽譜情報によって示される楽譜が、複数音の同時発音を示す音符13aを表す場合、特定部236は、楽譜情報によって示される楽譜が、鍵盤楽器(例えば、ピアノまたはエレクトーン(登録商標))用の楽譜であると特定する。この場合、特定部236は、楽器の種類としてピアノまたはエレクトーンを示す楽器情報c1を特定する。
【0129】
楽譜情報によって示される楽譜が、楽器の種類を特定する記号(例えば、楽器名を表す文字列、または、楽器の種類に関する符号)を示す場合、特定部236は、当該記号によって特定される楽器の種類を示す情報を、楽器情報c1として特定してもよい。例えば、記憶装置220が、楽器の種類を示す情報と、楽器の種類に関する符号と、の対応関係を示す楽器テーブルを記憶する場合、特定部236は、楽器テーブルを参照することにより、楽譜に示された符号に対応する情報(楽器の種類を示す情報)を、楽器情報c1として特定する。この場合、楽器の種類に関する符号は、関連情報の一例である。楽器テーブルは、楽器の種類に関連する情報と楽器の種類を示す情報との対応関係を示すテーブルの一例である。楽器の種類に関連する情報は、楽器に関する参照用関連情報の一例である。楽器の種類を示す情報は、楽器を示す参照用楽器情報の一例である。
【0130】
楽譜情報は、楽譜を撮像するカメラによって生成される情報に限らず、いわゆる電子楽譜でもよい。電子楽譜が、楽器の種類を示す種類データを有する場合、特定部236は、種類データを、楽器情報c1として特定してもよい。
【0131】
第8変形例によれば、楽譜情報を、楽器の種類に関連する関連情報として用いることができる。
【0132】
B9:第9変形例
第6~第8変形例において、ユーザ100Bのスケジュールを示すスケジュール情報が、楽器の種類を示す場合、楽器の種類に関連する関連情報としてスケジュール情報が用いられてもよい。スケジュール情報は、楽器の種類と、当該種類の楽器の教習スケジュールと、の組合せを示していれば、演奏教習システム100が配置される生徒用の部屋のスケジュールを示してもよい。楽器の種類(例えば、ピアノ)と、当該種類の楽器(例えば、ピアノ)の教習スケジュールと、の組合せは、楽器(例えば、ピアノ)と、当該楽器(例えば、ピアノ)の教習スケジュールと、の組合せの一例である。
【0133】
図14は、スケジュール情報が示すスケジュールの一例を示す図である。
図14では、教習(レッスン)の時間帯ごとに、教習対象の楽器の種類(ピアノ、フルートまたはバイオリン)が示される。特定部236は、まず、スケジュール情報を用いて、現在の時刻が含まれる教習の時間帯を特定する。続いて、特定部236は、特定した時間帯に対応する教習対象の楽器の種類を特定する。続いて、特定部236は、特定した教習対象の楽器の種類を示す情報を、楽器情報c1として特定する。
【0134】
図15は、スケジュール情報が示すスケジュールの他の例を示す図である。
図15では、教習の日付ごとに、教習対象の楽器の種類が示される。特定部236は、まず、スケジュール情報を用いて、現在の日付に対応する教習対象の楽器の種類を特定する。続いて、特定部236は、特定した教習対象の楽器の種類を示す情報を、楽器情報c1として特定する。
【0135】
第9変形例によれば、スケジュール情報を、楽器の種類に関連する関連情報として兼用できる。
【0136】
B10:第10変形例
上述の実施形態および第1~第9変形例において、タッチパネルである操作部150は、楽器情報c1を受け付けるユーザインターフェイスとして、
図16に示すようなユーザインターフェイスを有してもよい。ピアノボタン151へのタッチは、楽器の種類としてピアノを示す楽器情報c1の入力を意味する。フルートボタン152へのタッチは、楽器の種類としてフルートを示す楽器情報c1の入力を意味する。楽器情報c1を受け付けるユーザインターフェイスは、
図16に示されるユーザインターフェイスに限らない。第10変形例によれば、ユーザは直感的に楽器情報c1を入力できる。
【0137】
B11:第11変形例
上述の実施形態および第1~第10変形例において、コメント情報bの送信先は、演奏教習システム100に限らず、例えば、ユーザ100Bの保護者(例えば、ユーザ100Bの親)が使用する電子機器でもよい。電子機器は、例えば、スマートフォン、タブレットまたはノート型パーソナルコンピュータである。コメント情報bの送信先は、演奏教習システム100と、ユーザ100Bの保護者が使用する電子機器と、の両方でもよい。
【0138】
第11変形例によれば、ユーザ100Bの保護者が、コメント情報を参考してユーザ100Bを指導できる。
【0139】
B12:第12変形例
演奏教習システム100の処理装置180が、情報処理装置200~203の処理装置230が有する機能を、さらに有してもよい。この場合、演奏教習システム100は、情報処理装置200~203のいずれとも通信することなく、コメント情報bを得ることができる。
【0140】
B13:第13変形例
上述の実施形態および第1~第12変形例において、処理装置230は、学習済みモデル233を生成してもよい。
【0141】
図17は、第13変形例に係る情報処理装置204を示す図である。情報処理装置204は、学習処理部241を有する点において、
図8に示される情報処理装置204と異なる。学習処理部241は、機械学習プログラムを実行する処理装置230によって実現される。機械学習プログラムは、記憶装置220に記憶されている。
【0142】
図18は、学習処理部241の一例を示す図である。学習処理部241は、データ取得部242と訓練部243とを含む。データ取得部242は、複数の訓練データT1を取得する。記憶装置220が複数の訓練データT1を記憶している場合、データ取得部242は、記憶装置220から複数の訓練データT1を取得する。
【0143】
訓練部243は、複数の訓練データT1を利用した処理(以下「学習処理」と称する)を実行することによって学習済みモデル233を生成する。学習処理は、複数の訓練データT1を利用した教師あり機械学習である。訓練部243は、複数の訓練データT1を用いて学習対象モデル233aを訓練することによって、学習対象モデル233aを学習済みモデル233に変更する。
【0144】
学習対象モデル233aは、暫定的な複数の変数K1と、演算プログラムと、を用いる処理装置230によって生成される。暫定的な複数の変数K1は、記憶装置220に記憶されている。学習対象モデル233aは、暫定的な複数の変数K1を用いる点において、学習済みモデル233と異なる。学習対象モデル233aは、入力される情報(入力データ)に応じた情報(出力データ)を生成する。
【0145】
訓練部243は、訓練データT1における入力データを学習対象モデル233aに入力した場合に学習対象モデル233aが生成する出力データと、当該訓練データT1における出力データと、の誤差を表す損失関数Lの値を特定する。訓練部243は、損失関数Lの値が低減するように、暫定的な複数の変数K1を更新する。訓練部243は、暫定的な複数の変数K1を更新する処理を、複数の訓練データT1ごとに実行する。訓練部243による訓練の完了に伴い、複数の変数K1が確定する。訓練部243による訓練後の学習対象モデル233a、すなわち、学習済みモデル233は、未知の入力データに対して統計的に妥当な出力データを出力する。
【0146】
図19は、学習処理の一例を示す図である。例えばユーザからの指示を契機として学習処理が開始される。
【0147】
ステップS301においてデータ取得部242は、複数の訓練データT1の中から未取得の訓練データT1を取得する。続いて、ステップS302において訓練部243は、当該訓練データT1用いて学習対象モデル233aを訓練する。ステップS302では、訓練部243は、当該訓練データT1を用いて特定される損失関数Lの値が低減されるように、暫定的な複数の変数K1を更新する。暫定的な複数の変数K1を損失関数Lの値に応じて更新する処理には、例えば、誤差逆伝播法が利用される。
【0148】
続いて、ステップS303において訓練部243は、学習処理に関する終了条件が成立したか否かを判定する。終了条件は、例えば、損失関数Lの値が所定の閾値を下回ること、または、損失関数Lの値の変化量が所定の閾値を下回ることである。終了条件が成立しない場合、処理がステップS301に戻る。このため、終了条件の成立まで、訓練データT1の取得と、当該訓練データT1を利用した暫定的な複数の変数K1の更新とが、反復される。終了条件が成立した場合、学習処理が終了する。
【0149】
学習処理部241は、処理装置230とは異なる処理装置において実現されてもよい。処理装置230とは異なる処理装置は、少なくとも1つのコンピュータを含む。
【0150】
データ取得部242は、複数の訓練データT1とは異なる複数の訓練データ、例えば、複数の訓練データT2、T3、T4、およびT5の4種類の複数の訓練データのうち、1種類以上の複数の訓練データを取得してもよい。訓練部243は、データ取得部242が取得した複数の訓練データの種類に応じた学習対象モデルを訓練する。複数の訓練データT2に応じた学習対象モデルは、暫定的な複数の変数K2と、演算プログラムと、を用いる処理装置230によって生成される学習対象モデルである。複数の訓練データT3に応じた学習対象モデルは、暫定的な複数の変数K3と、演算プログラムと、を用いる処理装置230によって生成される学習対象モデルである。複数の訓練データT4に応じた学習対象モデルは、暫定的な複数の変数K4と、演算プログラムと、を用いる処理装置230によって生成される学習対象モデルである。複数の訓練データT5に応じた学習対象モデルは、暫定的な複数の変数K5と、演算プログラムと、を用いる処理装置230によって生成される学習対象モデルである。
【0151】
データ取得部242は、複数の訓練データの種類ごとに設けられてもよい。この場合、各データ取得部242は、対応する複数の訓練データを取得する。
【0152】
訓練部243は、複数の訓練データの種類ごとに設けられてもよい。この場合、各訓練部243は、対応する複数の訓練データを用いて、当該対応する複数の訓練データに応じた学習対象モデルを訓練する。
【0153】
第13変形例によれば、学習処理部241は、少なくとも1つの学習済みモデルを生成できる。
【0154】
第13変形例において、データ取得部242は、複数の訓練データのうち少なくとも1つを生成してもよい。
【0155】
例えば、データ取得部242は、
図20に示される端末装置300に、第1コメントを示す第1コメント情報を送信する。端末装置300は、例えば、スマートフォン、タブレットまたはノート型パーソナルコンピュータである。端末装置300は、楽器の演奏を教える先生によって使用される電子機器である。先生は、例えば、遠隔地にいる。第1コメントは、未確定の1つの訓練データにおける訓練用の出力データ(第2情報)が示すコメントである。第1コメントは、例えば、「和音が間違っています。」というコメントである。第1コメントは、例えば、情報処理システム1の開発者によって生成される。
【0156】
先生は、「和音が間違っています。」という第1コメントを「和音の間違いに気をつけて。」という第2コメントに修正するための入力を、端末装置300に対して実行する。第2コメントは、先生が実際に使用している適切なコメントである。端末装置300は、先生からの入力に基づいて第1コメント情報を修正することによって、第2コメントを示す第2コメント情報を生成する。端末装置300は、第2コメント情報の生成後に、第2コメント情報(第2コメント)を情報処理装置204に送信する。
【0157】
データ取得部242は、第2コメント情報(第2コメント)を端末装置300から受信する。データ取得部242は、未確定の1つの訓練データにおける訓練用の出力データ(第2情報)を第1コメント情報から第2コメントを示す第2コメント情報に変更することによって、未確定の1つの訓練データを確定にする。
【0158】
この場合、遠隔地にいる先生のコメントを示すコメント情報を用いることが可能である。なお、先生は遠隔地にいなくてもよい。
【0159】
C:上述の形態から把握される態様
上述の形態の少なくとも1つから以下の態様が把握される。
【0160】
C1:第1態様
本開示の態様(第1態様)に係る情報処理方法は、コンピュータによって実行される情報処理方法であって、楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する。この態様によれば、画像情報から抽出された特徴情報に基づいて、コメント情報が決定される。このため、楽器を用いる演奏者の画像に応じた適切なコメントを示すコメント情報を決定できる。
【0161】
C2:第2態様
第1態様の例(第2態様)において、前記コメント情報を決定することは、前記画像情報から、前記楽器と前記演奏者との相対的な位置関係を示す特徴情報を抽出することと、前記抽出した特徴情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定することと、を含む。この態様によれば、画像情報から抽出された特徴情報に基づいて、コメント情報が決定される。このため、楽器と演奏者との相対的な位置関係に応じた適切なコメントを示すコメント情報を決定できる。
【0162】
C3:第3態様
第2態様の例(第3態様)において、前記特徴情報は、前記相対的な位置関係として、前記楽器に対する前記演奏者の身体の使い方を示す。この態様によれば、楽器に対する演奏者の身体の使い方に応じた適切なコメントを示すコメント情報を決定できる。
【0163】
C4:第4態様
第2態様または第3態様の例(第4態様)において、前記特徴情報に基づいてコメント情報を決定することは、前記楽器と前記演奏者との相対的な位置関係を示す学習用特徴情報と、前記学習用特徴情報が示す前記相対的な位置関係についてのコメントを示す学習用コメント情報と、の関係を学習した第1学習済みモデルへ前記特徴情報を入力することと、前記特徴情報に応じて前記第1学習済みモデルが出力する情報を、前記コメント情報として決定することと、を含む。この態様によれば、学習済みモデルを用いてコメント情報を決定するため、コメント情報は、高い確率で適切なコメントを示すことができる。
【0164】
C5:第5態様
第4態様の例(第5態様)において、第1コメントを示す第1コメント情報を、前記楽器の演奏手法を教える先生によって使用される端末装置に送信し、前記端末装置が前記先生からの入力に基づいて前記第1コメント情報を修正することによって生成した第2コメントを受信することを、さらに含み、前記学習用コメントは、前記第2コメントを含む。この態様によれば、先生が遠隔地にいたとしても、先生のコメントを用いることが可能である。
【0165】
C6:第6態様
第4態様または第5態様の例(第6態様)において、前記第1学習済みモデルは、複数の楽器に個別に対応する複数の第1学習済みモデルを含み、さらに、前記複数の楽器の中の前記楽器を示す楽器情報を取得し、前記複数の第1学習済みモデルから、前記楽器情報が示す前記楽器に対応する第1学習済みモデルを特定し、前記コメント情報を決定することは、前記特定した第1学習済みモデルへ入力された前記特徴情報に応じて当該第1学習済みモデルが出力する情報を、前記コメント情報として決定することを含む。この態様によれば、楽器ごとに、適切なコメント情報を決定できる。
【0166】
C7:第7態様
第6態様の例(第7態様)において、さらに、前記楽器に関する関連情報を用いて、前記楽器情報を特定し、前記第1学習済みモデルを特定することは、前記複数の第1学習済みモデルから、前記特定した楽器情報が示す前記楽器に対応する第1学習済みモデルを特定することを含む。この態様によれば、楽器に関する関連情報に基づいて、適切なコメント情報を決定できる。
【0167】
C8:第8態様
第7態様の例(第8態様)において、前記関連情報は、前記楽器が出力する音を示す情報、前記楽器を表す画像を示す情報、前記楽器に応じた楽譜を示す情報、または、前記楽器と当該楽器の教習スケジュールとの組合せを示す情報である。この態様によれば、種々の情報を関連情報として用いることが可能である。
【0168】
C9:第9態様
第7態様の例(第9態様)において、前記楽器情報を特定することは、前記楽器に関する学習用関連情報と、前記学習用関連情報から特定される前記楽器を示す学習用楽器情報と、の関係を学習した第2学習済みモデルへ前記関連情報を入力することと、前記関連情報に応じて前記第2学習済みモデルが出力する情報を、前記楽器情報として特定することと、を含む。この態様によれば、学習済みモデルを用いて楽器情報を特定するため、楽器情報は、演奏者が演奏する楽器を高い精度で示すことができる。
【0169】
C10:第10態様
第7態様の例(第10態様)において、前記楽器情報を特定することは、前記楽器に関する参照用関連情報と、前記楽器を示す参照用楽器情報との対応関係を示すテーブルを参照することにより、前記関連情報に対応する参照用楽器情報を、前記楽器情報として特定することを含む。この態様によれば、学習済みモデル用いることなく、楽器情報を特定できる。
【0170】
C11:第11態様
第1態様から第10態様のいずれかの例(第11態様)において、前記コメント情報は、前記楽器に対する前記演奏者の身体の使い方に関するアドバイスを示す。この態様によれば、楽器に対する演奏者の身体の使い方に関するアドバイスを決定できる。
【0171】
C12:第12態様
第2態様の例(第12態様)において、前記コメント情報を決定することは、前記演奏者が前記楽器を演奏する状況において前記楽器が出力する音を示す情報と、前記特徴情報と、に基づいて、前記コメント情報を決定することを含む。この態様によれば、楽器が出力する音を示す情報と特徴情報とに基づいて、コメント情報を決定するため、より適切なコメントを示すコメント情報を決定できる。
【0172】
C13:第13態様
本開示の態様(第13態様)に係る情報処理システムは、楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する決定部を含む。この態様によれば、画像情報に基づいて、コメント情報が決定される。このため、適切なコメントを示すコメント情報を決定できる。
【0173】
C14:第14態様
本開示の態様(第14態様)に係るプログラムは、コンピュータに、楽器を用いる演奏者の画像を示す画像情報に基づいて、前記演奏者へのコメントを示すコメント情報を決定する、処理を実行させる。この態様によれば、画像情報に基づいて、コメント情報が決定される。このため、適切なコメントを示すコメント情報を決定できる。
【符号の説明】
【0174】
1…情報処理システム、100…演奏教習システム、100A…楽器、100B…ユーザ、110…カメラ、130…表示部、140…スピーカ、150…操作部、160…通信部、170…記憶装置、180…処理装置、181…送信制御部、182…出力制御部、200~204…情報処理装置、210…通信部、220…記憶装置、230…処理装置、231…抽出部、232…決定部、233…学習済みモデル、233a…学習対象モデル、234…送信部、235…学習済みモデル、236…特定部、237~238…学習済みモデル、241…学習処理部、242…データ取得部、243…訓練部。