(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-05
(45)【発行日】2024-08-14
(54)【発明の名称】演奏データに対する観衆の評価を推論する方法、情報処理システム、及びプログラム
(51)【国際特許分類】
G10G 1/00 20060101AFI20240806BHJP
【FI】
G10G1/00
(21)【出願番号】P 2022505049
(86)(22)【出願日】2021-02-02
(86)【国際出願番号】 JP2021003783
(87)【国際公開番号】W WO2021176925
(87)【国際公開日】2021-09-10
【審査請求日】2022-08-30
(31)【優先権主張番号】P 2020036990
(32)【優先日】2020-03-04
(33)【優先権主張国・地域又は機関】JP
【前置審査】
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】100125254
【氏名又は名称】別役 重尚
(72)【発明者】
【氏名】前澤 陽
【審査官】菊池 智紀
(56)【参考文献】
【文献】中国特許出願公開第110675879(CN,A)
【文献】中国特許出願公開第108711336(CN,A)
【文献】小西夕貴 他,"練習支援を目的としたドラム基礎演奏における熟達度の自動評価手法",電子情報通信学会論文誌D,2011年03月01日,Vol.J94-D, No.3,pp.549-559
【文献】當間椋 他,"バイオリン演奏時の姿勢による技量評価方法の検討",第74回(平成24年)全国大会講演論文集(2),2012年03月06日,pp.2-349‐2-350
【文献】米津幸絵,”ピアノ演奏における手首の回転運動と動作評価-ゴニオメータによるピアノの演奏動作と演奏評価の身体知抽,情報処理学会研究報告,2001年12月22日,Vol.2001, No.125,pp.27-32
(58)【調査した分野】(Int.Cl.,DB名)
G10G 1/00-7/02
G10H 1/00-7/12
A63F 13/814
(57)【特許請求の範囲】
【請求項1】
演者による演奏を示す所定の形式からなる第1演奏データと、前記演奏を受け取った観衆による評価を示す第1評価データとの関係を学習した学習モデルを取得し、
前記所定の形式からなる第2演奏データを取得し、
前記学習モデルを用いて、前記第2演奏データを処理して、当該第2演奏データで示される演奏を受け取った観衆による評価(前記演奏の正確さの評価を除く)を示す第2評価データを推論し、
前記第2評価データを出力し、
前記第1演奏データは、一連の演奏片に分割されており、
前記第1評価データは、前記一連の演奏片の何れかと対応付けられた複数の評価片を含み、
前記第1演奏データは、演奏された音を示す音データ及び演奏における奏者の映像を示す映像データを含む、コンピュータによって実現される方法。
【請求項2】
前記第1演奏データから前記一連の演奏片への分割は、フレーズごとに行われることを特徴とする請求項
1に記載の方法。
【請求項3】
前記第1演奏データから前記一連の演奏片への分割は、モチーフに基づいて行われることを特徴とする請求項
1に記載の方法。
【請求項4】
前記第1演奏データから前記一連の演奏片への分割は、コードパターンに基づいて行われることを特徴とする請求項
1に記載の方法。
【請求項5】
前記第1演奏データは、演奏における奏者の演奏操作を示す操作データを更に含む、請求項1から請求項
4のいずれか1項に記載の方法。
【請求項6】
前記映像データは、前記演奏における前記演者の動きの特徴を示す動きデータである、請求項1から請求項
5のいずれか1項に記載の方法。
【請求項7】
前記第1評価データは、前記演奏に対して観衆により付与される評価を示す主観データ、前記演奏における観衆のリアクションを示すリアクションデータ、及び前記演奏に対する投稿の量に関する投稿データの少なくともいずれかを含む、請求項1から請求項
6のいずれか1項に記載の方法。
【請求項8】
前記リアクションデータは、観衆の各々の骨格を時系列的に取得したデータ、観衆全体の動きの大きさを示すデータ、個々の観衆の顔の表情を示すデータ、赤外線カメラで取得した観衆の体温を示すデータの少なくとも1つであることを特徴とする請求項
7に記載の方法。
【請求項9】
前記第2評価データが示す評価を向上させるように、前記第2演奏データに含まれる映像データに対する映像エフェクトの候補としてその種類や入れるタイミングをユーザインタフェースにおいて提示する、請求項1から請求項
8のいずれか1項に記載の方法。
【請求項10】
前記第1演奏データ及び前記第1評価データを外部から配信データとして受信することを特徴とする請求項1から請求項
9のいずれか1項に記載の方法。
【請求項11】
前記第2評価データに基づき、ユーザインタフェースに仮想的な観客が示す反応をシミュレートして表示することを特徴とする請求項1から請求項
10のいずれか1項に記載の方法。
【請求項12】
演者による演奏を示す所定の形式からなる第1演奏データと、前記演奏を受け取った観衆による評価を示す第1評価データとの関係を学習した学習モデルを取得し、
前記所定の形式からなる第2演奏データを取得し、
前記学習モデルを用いて、前記第2演奏データを処理して、当該第2演奏データで示される演奏を受け取った観衆による評価(前記演奏の正確さの評価を除く)を示す第2評価データを推論し、
前記第2評価データを出力する、
制御部を備え、
前記第1演奏データは、一連の演奏片に分割されており、
前記第1評価データは、前記一連の演奏片の何れかと対応付けられた複数の評価片を含み、
前記第1演奏データは、演奏された音を示す音データ及び演奏における奏者の映像を示す映像データを含む情報処理システム。
【請求項13】
前記第1演奏データから前記一連の演奏片への分割は、フレーズごとに行われることを特徴とする請求項
12に記載の情報処理システム。
【請求項14】
前記第1演奏データから前記一連の演奏片への分割は、モチーフに基づいて行われることを特徴とする請求項
12に記載の情報処理システム。
【請求項15】
前記第1演奏データから前記一連の演奏片への分割は、コードパターンに基づいて行われることを特徴とする請求項
12に記載の情報処理システム。
【請求項16】
前記映像データは、前記演奏における前記演者の動きの特徴を示す動きデータである、請求項
12に記載の情報処理システム。
【請求項17】
前記第1評価データは、前記演奏に対して観衆により付与される評価を示す主観データ、前記演奏における観衆のリアクションを示すリアクションデータ、及び前記演奏に対する投稿の量に関する投稿データの少なくともいずれかを含む、請求項
12から請求項
16のいずれか1項に記載の情報処理システム。
【請求項18】
前記第1演奏データ及び前記第1評価データを外部から配信データとして受信することを特徴とする請求項
12から請求項
17のいずれか1項に記載の情報処理システム。
【請求項19】
コンピュータに、
演者による演奏を示す所定の形式からなる第1演奏データと、前記演奏を受け取った観衆による評価を示す第1評価データとの関係を学習した学習モデルを取得し、
前記所定の形式からなる第2演奏データを取得し、
前記学習モデルを用いて、前記第2演奏データを処理して、当該第2演奏データで示される演奏を受け取った観衆による評価(前記演奏の正確さの評価を除く)を示す第2評価データを推論し、
前記第2評価データを出力し、
前記第1演奏データは、一連の演奏片に分割されており、
前記第1評価データは、前記一連の演奏片の何れかと対応付けられた複数の評価片を含み、
前記第1演奏データは、演奏された音を示す音データ及び演奏における奏者の映像を示す映像データを含む、処理を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、演奏データに対する観衆の評価を推論する方法、情報処理システム、及びプログラムに関する。
【背景技術】
【0002】
従来より、ユーザが行う演奏操作を評価する演奏評価装置が使用されている。例えば、特許文献1には、演奏された楽曲全体のうちから一部を選択的に対象として演奏操作を評価する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1が開示するのは、ユーザによる演奏の正確さを評価する技術であって、演奏がどの程度観衆に評価されるか(観衆に受けるか)を推論する技術ではない。ユーザが自分の演奏を適切に改善するには、演奏に対する評価を事前に推論することが求められる。
【0005】
本発明は、演奏データに対する評価を適切に推論する方法、情報処理システム、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明の一態様に係る方法は、演者による演奏を示す所定の形式からなる第1演奏データと、前記演奏を受け取った観衆による評価を示す第1評価データとの関係を学習した学習モデルを取得し、前記所定の形式からなる第2演奏データを取得し、前記学習モデルを用いて、前記第2演奏データを処理して、当該第2演奏データで示される演奏を受け取った観衆による評価(前記演奏の正確さの評価を除く)を示す第2評価データを推論し、前記第2評価データを出力し、前記第1演奏データは、一連の演奏片に分割されており、前記第1評価データは、前記一連の演奏片の何れかと対応付けられた複数の評価片を含み、前記第1演奏データは、演奏された音を示す音データ及び演奏における奏者の映像を示す映像データを含む。
上記目的を達成するために、本発明の一態様に係る情報処理システムは、演者による演奏を示す所定の形式からなる第1演奏データと、前記演奏を受け取った観衆による評価を示す第1評価データとの関係を学習した学習モデルを取得し、前記所定の形式からなる第2演奏データを取得し、前記学習モデルを用いて、前記第2演奏データを処理して、当該第2演奏データで示される演奏を受け取った観衆による評価(前記演奏の正確さの評価を除く)を示す第2評価データを推論し、前記第2評価データを出力する、制御部を備え、前記第1演奏データは、一連の演奏片に分割されており、前記第1評価データは、前記一連の演奏片の何れかと対応付けられた複数の評価片を含み、前記第1演奏データは、演奏された音を示す音データ及び演奏における奏者の映像を示す映像データを含む。
【発明の効果】
【0007】
本発明によれば、演奏データに対する評価が適切に推論される。
【図面の簡単な説明】
【0008】
【
図1】本発明の実施形態に係る情報処理システムを示す全体構成図である。
【
図2】本発明の実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。
【
図3】本発明の実施形態に係る学習サーバのハードウェア構成を示すブロック図である。
【
図4】本発明の実施形態における情報処理システムの機能的構成を示すブロック図である。
【
図5】本発明の実施形態における機械学習処理を示すシーケンス図である。
【
図6】本発明の実施形態における推論提示処理を示すシーケンス図である。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態について添付図面を参照しながら詳細に説明する。以下に説明される各実施形態は、本発明を実現可能な構成の一例に過ぎない。以下の各実施形態は、本発明が適用される装置の構成や各種の条件に応じて適宜に修正又は変更することが可能である。また、以下の各実施形態に含まれる要素の組合せの全てが本発明を実現するに必須であるとは限られず、要素の一部を適宜に省略することが可能である。したがって、本発明の範囲は、以下の各実施形態に記載される構成によって限定されるものではない。また、相互に矛盾のない限りにおいて実施形態内に記載された複数の構成を組み合わせた構成も採用可能である。
【0010】
図1は、本発明の実施形態に係る情報処理システムSを示す全体構成図である。
図1に示すように、本実施形態の情報処理システムSは、情報処理装置100及び学習サーバ200を有する。情報処理装置100及び学習サーバ200は、ネットワークNWを介して相互に通信することができる。ネットワークNWには、後述される配信サーバDSが接続されていてよい。
【0011】
情報処理装置100は、ユーザが使用する情報端末であって、例えば、タブレット端末やスマートフォン、パーソナルコンピュータ(PC)等の個人デバイスである。また、情報処理装置100は、後述される電子楽器EMに無線又は有線で接続されてよい。
【0012】
学習サーバ200は、ネットワークNWに接続されたクラウドサーバであって、後述される学習モデルMを訓練して、訓練された学習モデルMを情報処理装置100等の他の装置に供給することができる。サーバ300は、クラウドサーバには限らず、ローカルネットワークのサーバであってもよい。また、本実施形態のサーバ300の機能は、クラウドサーバとローカルネットワークのサーバとの協働動作により実現されてもよい。
【0013】
本実施形態の情報処理システムSにおいて、演者による演奏を示す演奏データAと、演奏に対する評価を示す評価データBとの関係を機械学習した学習モデルMに対して、推論対象の演奏データAを入力することによって、入力された演奏データAに対する評価が推論される。
【0014】
図2は、情報処理装置100のハードウェア構成を示すブロック図である。
図2に示すように、情報処理装置100は、CPU(Central Processing Unit)101、RAM(Random Access Memory)102、ストレージ103、入出力部104、集音部105、撮像部106、送受信部107、及びバス108を有する。
【0015】
CPU101は、情報処理装置100における種々の演算を実行する処理回路である。RAM102は、揮発性の記憶媒体であって、CPU101が使用する設定値を記憶すると共に種々のプログラムが展開されるワーキングメモリとして機能する。ストレージ103は、不揮発性の記憶媒体であって、CPU101によって用いられる種々のプログラム及びデータを記憶する。
【0016】
入出力部104は、情報処理装置100に対するユーザの操作を受け付けると共に種々の情報を表示する要素(ユーザインタフェース)であって、例えば、タッチパネルによって構成される。
【0017】
集音部105は、集音した音を電気信号に変換してCPU101に供給する要素であって、例えばマイクロフォンである。集音部105は、情報処理装置100に内蔵されていてもよいし、不図示のインタフェースを介して情報処理装置100に接続されていてもよい。
【0018】
撮像部106は、撮影した映像を電気信号に変換してCPU101に供給する要素であって、例えばデジタルカメラである。撮像部106は、情報処理装置100に内蔵されていてもよいし、不図示のインタフェースを介して情報処理装置100に接続されていてもよい。
【0019】
送受信部107は、学習サーバ200等の他の装置とデータを送受信する要素である。送受信部107は、ユーザが楽曲を演奏する際に用いる電子楽器EMと接続してデータを送受信できる。送受信部107は、複数のモジュール(例えば、近距離無線通信に用いられるBluetooth(登録商標)モジュール及びWi-Fi(登録商標)モジュール)を含み得る。
【0020】
バス108は、上記した情報処理装置100のハードウェア要素を相互に接続する信号伝送路である。
【0021】
図3は、学習サーバ200のハードウェア構成を示すブロック図である。
図3に示すように、学習サーバ200は、CPU201、RAM202、ストレージ203、入力部204、出力部205、送受信部206、及びバス207を有する。
【0022】
CPU201は、学習サーバ200における種々の演算を実行する処理回路である。RAM202は、揮発性の記憶媒体であって、CPU201が使用する設定値を記憶すると共に種々のプログラムが展開されるワーキングメモリとして機能する。ストレージ203は、不揮発性の記憶媒体であって、CPU201によって用いられる種々のプログラム及びデータを記憶する。
【0023】
入力部204は、学習サーバ200に対する操作を受け付ける要素であって、例えば、学習サーバ200に接続されたキーボード及びマウスからの入力信号を受け付ける。
【0024】
出力部205は、種々の情報を表示する要素であって、例えば、学習サーバ200に接続された液晶ディスプレイに対して映像信号を出力する。
【0025】
送受信部206は、情報処理装置100等の他の装置とデータを送受信する要素であって、例えば、ネットワークカード(NIC)である。
【0026】
バス207は、上記した学習サーバ200のハードウェア要素を相互に接続する信号伝送路である。
【0027】
上記した各装置100,200のCPU101,201が、ストレージ103,203に格納されているプログラムをRAM102,202に読み出して実行することによって、以下の機能ブロック(制御部150,250等)及び本実施形態に係る種々の処理が実現される。各CPUは、通常のCPUに限らず、DSPや推論プロセッサであってもよく、或いは、それらの2以上の任意の組み合わせであっても良い。また、本実施形態に係る種々の処理は、CPUやDSP、推論プロセッサ、GPU等の1以上のプロセッサがプログラムを実行することにより実現されてもよい。
【0028】
図4は、本発明の実施形態に係る情報処理システムSの機能的構成を示すブロック図である。
【0029】
学習サーバ200は、制御部250及び記憶部260を有する。制御部250は、学習サーバ200の動作を統合的に制御する機能ブロックである。記憶部260は、RAM202及びストレージ203によって構成され、制御部250によって用いられる種々のデータ(特に、演奏データA及び評価データB)を記憶する。制御部250は、サブ機能ブロックとして、サーバ認証部251、データ取得部252、データ前処理部253、学習処理部254、及びモデル配布部255を有する。
【0030】
サーバ認証部251は、情報処理装置100(認証部151)と協働してユーザを認証する機能ブロックである。サーバ認証部251は、情報処理装置100から供給された認証データが記憶部260に格納されている認証データと一致するか否かを判定し、認証結果(許可又は拒否)を情報処理装置100に送信する。
【0031】
データ取得部252は、ネットワークNWを介して外部の配信サーバDSから配信データを受信して、演奏データA及び評価データBを取得する機能ブロックである。配信サーバDSは、例えば、ライブ動画等の映像及び音を含む動画を配信データとして配信するサーバである。配信データには、演者の演奏を示す映像データ(例えば、動画データ)、音データ(例えば、オーディオデータ)、及び操作データ(例えば、MIDIデータ)が含まれる。また、配信データには、演奏に対する主観データが含まれる。主観データは、演者の演奏に対して視聴者によって付された評価値であって、動画と時系列的に関連付けられている。例えば、評価データの評価値に、対応する動画における時刻が付されていてもよいし、動画の通し番号(フレーム番号)が付されていてもよい。また、動画と主観データとが一体的に構成されていてもよい。なお、演奏中の演者による演奏操作を示すMIDIデータ等の操作データが、配信データに含まれると好適である。操作データには、電子ピアノのペダル操作やエレキギターのエフェクタ操作が含まれてよい。
【0032】
データ取得部252は、受信した配信データに含まれる映像データ及び音データを複数の演奏片に時系列的に分割することによって演奏データAを取得して、記憶部260に記憶する。データ取得部252は、映像データ及び音データを、演奏の切れ目で示されるフレーズごとに演奏片に分割してもよいし、演奏のモチーフに基づいて演奏片に分割してもよいし、コードパターンに基づいて演奏片に分割してもよい。
【0033】
なお、演奏データAは、時系列的に分割された音データに代えて又は加えて、時系列的に分割された操作データを含んでもよい。すなわち、演奏データAは、演奏によって生じる音を示す音データ及び電子楽器EMの演奏に基づいて生成される操作データのいずれか一方又は双方を含む。
【0034】
また、データ取得部252は、受信した配信データに含まれる主観データ及び評価時刻に基づいて、分割された演奏片ごとの評価を示す評価片を含む評価データBを取得して、記憶部260に記憶する。評価データBは、時系列的に構成された演奏データAに対する時系列的な評価の推移を示すデータである。評価データBに含まれる評価片に対応する演奏片の時刻が含まれてもよいし、演奏片と評価片とに対応する通し番号が付されてもよいし、評価片が対応する演奏片に埋め込まれてもよい。データ取得部252は、取得した演奏データA及び評価データBを記憶部260に記憶する。
【0035】
データ前処理部253は、記憶部260に記憶されている演奏データA及び評価データBに対して、学習モデルMの訓練(機械学習)に適した形式となるようにスケーリング等のデータ前処理を実行する機能ブロックである。
【0036】
学習処理部254は、データ前処理後の演奏データAを入力データとし、データ前処理後の評価データBを教師データとして用いて、学習モデルMを訓練する機能ブロックである。本実施形態の学習モデルMには、任意の機械学習モデルが採用され得る。好適には、時系列データに適合した回帰型ニューラルネットワーク(RNN)及びその派生物(長・短期記憶(LSTM)、ゲート付き回帰型ユニット(GRU)等)が学習モデルMに採用される。注意(Attention)ベースのアルゴリズムに従って学習モデルMが構成されてもよい。
【0037】
モデル配布部255は、学習処理部254が訓練した学習モデルMを情報処理装置100に供給する機能ブロックである。
【0038】
情報処理装置100は、制御部150及び記憶部160を有する。制御部150は情報処理装置100の動作を統合的に制御する機能ブロックである。記憶部160は、RAM102及びストレージ103によって構成され、制御部150によって用いられる種々のデータを記憶する。制御部150は、サブ機能ブロックとして、認証部151、演奏取得部152、動画取得部153、データ前処理部154、推論処理部155、及び評価提示部156を有する。
【0039】
認証部151は、学習サーバ200(サーバ認証部251)と協働してユーザを認証する機能ブロックである。認証部151は、ユーザが入出力部104を用いて入力したユーザ識別子及びパスワード等の認証データを学習サーバ200に送信し、学習サーバ200から受信した認証結果に基づいてユーザのアクセスを許可又は拒否する。認証部151は、認証された(アクセスが許可された)ユーザのユーザ識別子を他の機能ブロックに供給することができる。
【0040】
演奏取得部152は、ユーザの演奏を示す音データ及び操作データのいずれか一方又は双方を取得する機能ブロックである。音データ及び操作データは、いずれも、演奏に係る楽曲に含まれる複数の音の特性(例えば、発音時刻及び音高)を示すデータ(音特性データ)であって、ユーザによる演奏を表現する高次元の時系列データの一種である。演奏取得部152は、集音部105がユーザの演奏による音を集音して生成した電気信号に基づいて音データを取得してよい。また、演奏取得部152は、ユーザによる電子楽器EMの演奏に基づいて生成された操作データを、送受信部107を介して電子楽器EMから取得してよい。電子楽器EMは、例えば、電子ピアノ等の電子鍵盤楽器であってもよく、エレキギター等の電子弦楽器であってもよく、ウィンドシンセサイザ等の電子管楽器であってもよい。演奏取得部152は、取得した音特性データをデータ前処理部154に供給する。なお、演奏取得部152は、認証部151から供給されたユーザ識別子を音特性データに付与して学習サーバ200に送信することもできる。
【0041】
動画取得部153は、ユーザの演奏を示す映像データを取得する機能ブロックである。映像データは、演奏におけるユーザ(演者)の動きの特徴を示す動きデータであって、ユーザによる演奏を表現する高次元の時系列データの一種である。動画取得部153は、撮像部106が演奏中のユーザを撮影して生成した電気信号に基づいて動きデータを取得してよい。動きデータは、例えば、ユーザの骨格(スケルトン)を時系列的に取得したデータである。動画取得部153は、取得した映像データをデータ前処理部154に供給する。なお、動画取得部153は、認証部151から供給されたユーザ識別子を映像データに付与して学習サーバ200に送信することもできる。
【0042】
データ前処理部154は、演奏取得部152から供給された音特性データ及び動画取得部153から供給された映像データを含む演奏データAに対して、学習モデルMによる推論に適した形式となるようにスケーリング等のデータ前処理を実行する機能ブロックである。
【0043】
推論処理部155は、前述した学習処理部254によって訓練された学習モデルMに対して、前処理された演奏データAを入力データとして入力することによって、演奏データAに対する評価を示す評価データBを推論する機能ブロックである。なお、評価データBは、前述したように、演奏データAに含まれる複数の演奏片ごとの評価を示す評価片を含む。
【0044】
評価提示部156は、推論処理部155によって推論された評価データBをユーザに提示する機能ブロックである。評価提示部156は、例えば、演奏データAに含まれる複数の演奏片ごとの評価を、時系列的に入出力部104に表示させる。なお、評価提示部156は、評価データBを視覚的に提示することに代えて又は加えて、評価データBを聴覚的又は触覚的にユーザに提示してもよい。また、評価提示部156は、他の装置、例えば電子楽器EMが有する表示部に上記評価を表示させてもよい。
【0045】
図5は、本発明の実施形態に係る情報処理システムSにおける機械学習処理を示すシーケンス図である。本実施形態の機械学習処理は学習サーバ200において実行される。なお、本実施形態の機械学習処理は、定期的に実行されてもよいし、ユーザ指示に基づく情報処理装置100からの要求に応じて実行されてもよい。
【0046】
ステップS510において、データ取得部252は、配信サーバDSから受信した配信データに基づいて演奏データA及び評価データBを取得して、記憶部260に格納する。なお、配信データは、データ取得部252が予め取得して記憶部260に格納していてもよいし、本ステップにおいてデータ取得部252が取得してもよい。
【0047】
ステップS520において、データ前処理部253は、記憶部260に格納されている演奏データA及び評価データBを含むデータセットを読み出して、データ前処理を実行する。
【0048】
ステップS530において、学習処理部254は、ステップS520にて前処理されたデータセットに基づいて、演奏データAを入力データとし評価データBを教師データとして用いて学習モデルMを訓練し、訓練された学習モデルMを記憶部260に格納する。例えば、学習モデルMがニューラルネットワークシステムである場合、学習処理部254は、誤差逆伝搬法等を用いて、学習モデルMの機械学習を行ってもよい。
【0049】
ステップS540において、モデル配布部255は、ステップS530にて訓練された学習モデルMを、ネットワークNWを介して情報処理装置100に供給する。情報処理装置100の制御部150は、受信した学習モデルMを記憶部160に格納する。
【0050】
図6は、本発明の実施形態に係る情報処理システムSにおける推論提示処理を示すシーケンス図である。本実施形態では、情報処理装置100が演奏片ごとの評価を推論し、推論した評価をユーザに視覚的に提示する。
【0051】
ステップS610において、演奏取得部152は、前述したように電子楽器EM等から音データ及び操作データのいずれか一方又は双方(音特性データ)を取得して、データ前処理部154に供給する。
【0052】
ステップS620において、動画取得部153は、前述したように映像データを取得して、データ前処理部154に供給する。
【0053】
ステップS630において、データ前処理部154は、ステップS610にて演奏取得部152から供給された音特性データ及びステップS620にて動画取得部153から供給された映像データを含む演奏データAに対してデータ前処理を実行して、前処理後の演奏データAを推論処理部155に供給する。
【0054】
ステップS640において、推論処理部155は、記憶部160に格納されている訓練済みの学習モデルMに対して、データ前処理部154から供給された演奏データAを入力データとして入力する。学習モデルMは、入力された演奏データAを処理して、その演奏データAに含まれる各演奏片に対する聴衆の評価を推論する。評価を示す推論値は、離散値であっても連続値であってもよい。推論された演奏片ごとの評価(評価データB)は、推論処理部155から評価提示部156に供給される。
【0055】
ステップS650において、評価提示部156は、ステップS640にて推論処理部155が推論した評価データBをユーザに提示する。ユーザに対する評価データBの提示については種々の態様が想定され得る。
【0056】
例えば、ユーザの演奏に対して仮想的な観客(例えば、VR(Virtual Reality)空間上のアバター)が示す反応をシミュレートして表示するアプリケーションを想定する。以上のアプリケーションにおいて、評価提示部156は、演奏データAの再生に同期して、仮想的な観客が示す反応を評価データBに基づいて入出力部104に表示させる。評価提示部156は、推論された評価が閾値より高い時刻においては立ち上がりや歓声等の盛り上がりを示す反応を表示する一方、推論された評価が閾値より低い時刻においては座り込みや静寂、ブーイング等の盛り下がりを示す反応を表示する。
【0057】
また、例えば、ユーザの演奏を数値化・グラフ化して客観的に表示するアプリケーションを想定する。以上のアプリケーションにおいて、評価提示部156は、演奏データAを示す波形と共に、上記演奏データAに対応する評価データBの推移をグラフとして入出力部104に表示させる。
【0058】
なお、上記したステップS610乃至ステップS650の推論表示処理は、演奏データAが情報処理装置100に入力されるのと並行してリアルタイムに実行されてもよいし、情報処理装置100に記憶された演奏データAに対して事後的に実行されてもよい。
【0059】
以上のように、本実施形態の情報処理システムSでは、訓練済みの学習モデルMによって、演奏データAに含まれる複数の演奏片にそれぞれ対応する評価が適切に推論される。情報処理装置100は、推論された演奏片ごとの評価をユーザに提示する。結果として、ユーザは、自分の行った演奏が観客にどのように評価されるかを予測することが可能である。
【0060】
<変形例>
以上の実施形態は多様に変形される。具体的な変形の態様を以下に例示する。以上の実施形態及び以下の例示から任意に選択された2以上の態様は、相互に矛盾しない限り適宜に併合され得る。
【0061】
上記した実施形態では、演奏データAが複数の演奏片に時系列的に分割され、学習処理及び推論処理に用いられている。しかしながら、演奏データAが分割されず1つの楽曲に対応していてもよい。
【0062】
上記した実施形態に関して、種々の手法が演奏データAの分割に用いられてよい。例えば、複数の演奏片は、楽曲を所定時間おきに区分した複数のパフォーマンス区間であってもよいし、演奏データAに基づいて特定された複数のフレーズであってもよい。
【0063】
上記した実施形態の評価データBは、配信データに示される演者のパフォーマンスに対して視聴者によって付された評価値を示す主観データであるが、他の情報が評価データBとして用いられてよい。
【0064】
例えば、演者のパフォーマンスに関連して視聴者が投稿した投稿の量に関する投稿データが、評価データBとして用いられてもよい。投稿データは、例えば、動画に含まれる動画片に関連付けられたテキスト情報であって、配信データに含まれており、演奏片ごとに投稿数が集計される。
【0065】
他に、例えば、パフォーマンスにおける観衆の行為を示すリアクションデータが、評価データBとして用いられてもよい。リアクションデータは、パフォーマンスにおける観衆の動きに関する特徴を示す情報である。データ取得部252は、配信データに含まれる音楽パフォーマンス動画のうち観衆が表示されている期間の映像(観衆の映像)を解析してリアクションデータを取得できる。リアクションデータは、例えば、観衆の各々の骨格(スケルトン)を時系列的に取得したデータであってもよく、観衆全体の動きの大きさを示すデータであってもよく、個々の観衆の顔の表情を示すデータであってもよく、赤外線カメラ等で取得した観衆の体温を示すデータであってもよい。
【0066】
上記した実施形態では、評価提示部156が評価データBを視覚的にユーザに提示している。評価データBの提示に代えて又は加えて、制御部150が、推論された評価を向上させるように、演奏データAに示される動画に対する映像エフェクトの候補を提示してよい。動画に対する映像エフェクトは、例えば、複数のカメラで動画を撮っている場合のカメラアングルの切替えタイミングや、フェードアウトの開始・終了タイミングを示す情報である。
【0067】
上記した実施形態では、学習サーバ200から供給された学習モデルMを用いて情報処理装置100が評価を推論する。しかしながら、評価の推論に係る各処理は、情報処理システムSを構成する何れの装置にて実行されてもよい。例えば、学習サーバ200が、情報処理装置100から供給された演奏データAを前処理し、記憶部260に格納された学習モデルMに前処理された演奏データAを入力データとして入力することによって、演奏データAに対する評価を推論してもよい。本変形例の構成によれば、学習サーバ200が、演奏データAを入力データとした学習モデルMによる推論処理を実行することができる。結果として、情報処理装置100における処理負荷が軽減される。
【0068】
また、上述した実施形態の電子楽器100が制御装置200の機能を有していてもよいし、制御装置200が電子楽器100の機能を有していてもよい。
【0069】
なお、本発明を達成するためのソフトウェアによって表される各制御プログラムを記憶した記憶媒体を、各装置に読み出すことによって同様の効果を奏するようにしてもよく、その場合、記憶媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した、非一過性のコンピュータ読み取り可能な記録媒体は本発明を構成することになる。また、プログラムコードを伝送媒体等を介して供給してもよく、その場合は、プログラムコード自体が本発明を構成することになる。なお、これらの場合の記憶媒体としては、ROMのほか、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、磁気テープ、不揮発性のメモリカード等を用いることができる。「非一過性のコンピュータ読み取り可能な記録媒体」は、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含む。
【0070】
以上、本発明をその好適な実施形態に基づいて詳述してきたが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。上述の実施形態の一部を適宜組み合わせてもよい。
【符号の説明】
【0071】
100 情報処理装置、150 制御部、160 記憶部、200 学習サーバ、250 制御部、260 記憶部、A 演奏データ、B 評価データ、DS 配信サーバ、EM 電子楽器、M 学習モデル、S 情報処理システム