特許7533568 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特許7533568演奏データに対する観衆の評価を推論する方法、情報処理システム、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-08-05

(45)【発行日】2024-08-14

(54)【発明の名称】演奏データに対する観衆の評価を推論する方法、情報処理システム、及びプログラム

(51)【国際特許分類】

G10G 1/00 20060101AFI20240806BHJP

【ＦＩ】

G10G1/00

【請求項の数】 19

(21)【出願番号】P 2022505049

(86)(22)【出願日】2021-02-02

(86)【国際出願番号】 JP2021003783

(87)【国際公開番号】W WO2021176925

(87)【国際公開日】2021-09-10

【審査請求日】2022-08-30

(31)【優先権主張番号】P 2020036990

(32)【優先日】2020-03-04

(33)【優先権主張国・地域又は機関】JP

【前置審査】

(73)【特許権者】

【識別番号】000004075

【氏名又は名称】ヤマハ株式会社

(74)【代理人】

【識別番号】100125254

【弁理士】

【氏名又は名称】別役重尚

(72)【発明者】

【氏名】前澤陽

【審査官】菊池智紀

(56)【参考文献】

【文献】中国特許出願公開第１１０６７５８７９（ＣＮ，Ａ）

【文献】中国特許出願公開第１０８７１１３３６（ＣＮ，Ａ）

【文献】小西夕貴他，"練習支援を目的としたドラム基礎演奏における熟達度の自動評価手法"，電子情報通信学会論文誌D，2011年03月01日，Vol.J94-D, No.3，pp.549-559

【文献】當間椋他，"バイオリン演奏時の姿勢による技量評価方法の検討"，第74回（平成24年）全国大会講演論文集（2），2012年03月06日，pp.2-349‐2-350

【文献】米津幸絵，”ピアノ演奏における手首の回転運動と動作評価－ゴニオメータによるピアノの演奏動作と演奏評価の身体知抽，情報処理学会研究報告，2001年12月22日，Vol.2001, No.125，pp.27-32

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｇ１／００－７／０２

Ｇ１０Ｈ１／００－７／１２

Ａ６３Ｆ１３／８１４

(57)【特許請求の範囲】

【請求項1】

演者による演奏を示す所定の形式からなる第１演奏データと、前記演奏を受け取った観衆による評価を示す第１評価データとの関係を学習した学習モデルを取得し、
前記所定の形式からなる第２演奏データを取得し、
前記学習モデルを用いて、前記第２演奏データを処理して、当該第２演奏データで示される演奏を受け取った観衆による評価（前記演奏の正確さの評価を除く）を示す第２評価データを推論し、
前記第２評価データを出力し、
前記第１演奏データは、一連の演奏片に分割されており、
前記第１評価データは、前記一連の演奏片の何れかと対応付けられた複数の評価片を含み、
前記第１演奏データは、演奏された音を示す音データ及び演奏における奏者の映像を示す映像データを含む、コンピュータによって実現される方法。

【請求項2】

前記第１演奏データから前記一連の演奏片への分割は、フレーズごとに行われることを特徴とする請求項１に記載の方法。

【請求項3】

前記第１演奏データから前記一連の演奏片への分割は、モチーフに基づいて行われることを特徴とする請求項１に記載の方法。

【請求項4】

前記第１演奏データから前記一連の演奏片への分割は、コードパターンに基づいて行われることを特徴とする請求項１に記載の方法。

【請求項5】

前記第１演奏データは、演奏における奏者の演奏操作を示す操作データを更に含む、請求項１から請求項４のいずれか１項に記載の方法。

【請求項6】

前記映像データは、前記演奏における前記演者の動きの特徴を示す動きデータである、請求項１から請求項５のいずれか１項に記載の方法。

【請求項7】

前記第１評価データは、前記演奏に対して観衆により付与される評価を示す主観データ、前記演奏における観衆のリアクションを示すリアクションデータ、及び前記演奏に対する投稿の量に関する投稿データの少なくともいずれかを含む、請求項１から請求項６のいずれか１項に記載の方法。

【請求項8】

前記リアクションデータは、観衆の各々の骨格を時系列的に取得したデータ、観衆全体の動きの大きさを示すデータ、個々の観衆の顔の表情を示すデータ、赤外線カメラで取得した観衆の体温を示すデータの少なくとも１つであることを特徴とする請求項７に記載の方法。

【請求項9】

前記第２評価データが示す評価を向上させるように、前記第２演奏データに含まれる映像データに対する映像エフェクトの候補としてその種類や入れるタイミングをユーザインタフェースにおいて提示する、請求項１から請求項８のいずれか１項に記載の方法。

【請求項10】

前記第１演奏データ及び前記第１評価データを外部から配信データとして受信することを特徴とする請求項１から請求項９のいずれか１項に記載の方法。

【請求項11】

前記第２評価データに基づき、ユーザインタフェースに仮想的な観客が示す反応をシミュレートして表示することを特徴とする請求項１から請求項１０のいずれか１項に記載の方法。

【請求項12】

演者による演奏を示す所定の形式からなる第１演奏データと、前記演奏を受け取った観衆による評価を示す第１評価データとの関係を学習した学習モデルを取得し、
前記所定の形式からなる第２演奏データを取得し、
前記学習モデルを用いて、前記第２演奏データを処理して、当該第２演奏データで示される演奏を受け取った観衆による評価（前記演奏の正確さの評価を除く）を示す第２評価データを推論し、
前記第２評価データを出力する、
制御部を備え、
前記第１演奏データは、一連の演奏片に分割されており、
前記第１評価データは、前記一連の演奏片の何れかと対応付けられた複数の評価片を含み、
前記第１演奏データは、演奏された音を示す音データ及び演奏における奏者の映像を示す映像データを含む情報処理システム。

【請求項13】

前記第１演奏データから前記一連の演奏片への分割は、フレーズごとに行われることを特徴とする請求項１２に記載の情報処理システム。

【請求項14】

前記第１演奏データから前記一連の演奏片への分割は、モチーフに基づいて行われることを特徴とする請求項１２に記載の情報処理システム。

【請求項15】

前記第１演奏データから前記一連の演奏片への分割は、コードパターンに基づいて行われることを特徴とする請求項１２に記載の情報処理システム。

【請求項16】

前記映像データは、前記演奏における前記演者の動きの特徴を示す動きデータである、請求項１２に記載の情報処理システム。

【請求項17】

前記第１評価データは、前記演奏に対して観衆により付与される評価を示す主観データ、前記演奏における観衆のリアクションを示すリアクションデータ、及び前記演奏に対する投稿の量に関する投稿データの少なくともいずれかを含む、請求項１２から請求項１６のいずれか１項に記載の情報処理システム。

【請求項18】

前記第１演奏データ及び前記第１評価データを外部から配信データとして受信することを特徴とする請求項１２から請求項１７のいずれか１項に記載の情報処理システム。

【請求項19】

コンピュータに、
演者による演奏を示す所定の形式からなる第１演奏データと、前記演奏を受け取った観衆による評価を示す第１評価データとの関係を学習した学習モデルを取得し、
前記所定の形式からなる第２演奏データを取得し、
前記学習モデルを用いて、前記第２演奏データを処理して、当該第２演奏データで示される演奏を受け取った観衆による評価（前記演奏の正確さの評価を除く）を示す第２評価データを推論し、
前記第２評価データを出力し、
前記第１演奏データは、一連の演奏片に分割されており、
前記第１評価データは、前記一連の演奏片の何れかと対応付けられた複数の評価片を含み、
前記第１演奏データは、演奏された音を示す音データ及び演奏における奏者の映像を示す映像データを含む、処理を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、演奏データに対する観衆の評価を推論する方法、情報処理システム、及びプログラムに関する。

【背景技術】

【0002】

従来より、ユーザが行う演奏操作を評価する演奏評価装置が使用されている。例えば、特許文献１には、演奏された楽曲全体のうちから一部を選択的に対象として演奏操作を評価する技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特許第３６７８１３５号

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１が開示するのは、ユーザによる演奏の正確さを評価する技術であって、演奏がどの程度観衆に評価されるか（観衆に受けるか）を推論する技術ではない。ユーザが自分の演奏を適切に改善するには、演奏に対する評価を事前に推論することが求められる。

【0005】

本発明は、演奏データに対する評価を適切に推論する方法、情報処理システム、及びプログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

上記目的を達成するために、本発明の一態様に係る方法は、演者による演奏を示す所定の形式からなる第１演奏データと、前記演奏を受け取った観衆による評価を示す第１評価データとの関係を学習した学習モデルを取得し、前記所定の形式からなる第２演奏データを取得し、前記学習モデルを用いて、前記第２演奏データを処理して、当該第２演奏データで示される演奏を受け取った観衆による評価（前記演奏の正確さの評価を除く）を示す第２評価データを推論し、前記第２評価データを出力し、前記第１演奏データは、一連の演奏片に分割されており、前記第１評価データは、前記一連の演奏片の何れかと対応付けられた複数の評価片を含み、前記第１演奏データは、演奏された音を示す音データ及び演奏における奏者の映像を示す映像データを含む。
上記目的を達成するために、本発明の一態様に係る情報処理システムは、演者による演奏を示す所定の形式からなる第１演奏データと、前記演奏を受け取った観衆による評価を示す第１評価データとの関係を学習した学習モデルを取得し、前記所定の形式からなる第２演奏データを取得し、前記学習モデルを用いて、前記第２演奏データを処理して、当該第２演奏データで示される演奏を受け取った観衆による評価（前記演奏の正確さの評価を除く）を示す第２評価データを推論し、前記第２評価データを出力する、制御部を備え、前記第１演奏データは、一連の演奏片に分割されており、前記第１評価データは、前記一連の演奏片の何れかと対応付けられた複数の評価片を含み、前記第１演奏データは、演奏された音を示す音データ及び演奏における奏者の映像を示す映像データを含む。

【発明の効果】

【0007】

本発明によれば、演奏データに対する評価が適切に推論される。

【図面の簡単な説明】

【0008】

【図1】本発明の実施形態に係る情報処理システムを示す全体構成図である。

【図2】本発明の実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。

【図3】本発明の実施形態に係る学習サーバのハードウェア構成を示すブロック図である。

【図4】本発明の実施形態における情報処理システムの機能的構成を示すブロック図である。

【図5】本発明の実施形態における機械学習処理を示すシーケンス図である。

【図6】本発明の実施形態における推論提示処理を示すシーケンス図である。

【発明を実施するための形態】

【0009】

以下、本発明の実施形態について添付図面を参照しながら詳細に説明する。以下に説明される各実施形態は、本発明を実現可能な構成の一例に過ぎない。以下の各実施形態は、本発明が適用される装置の構成や各種の条件に応じて適宜に修正又は変更することが可能である。また、以下の各実施形態に含まれる要素の組合せの全てが本発明を実現するに必須であるとは限られず、要素の一部を適宜に省略することが可能である。したがって、本発明の範囲は、以下の各実施形態に記載される構成によって限定されるものではない。また、相互に矛盾のない限りにおいて実施形態内に記載された複数の構成を組み合わせた構成も採用可能である。

【0010】

図１は、本発明の実施形態に係る情報処理システムＳを示す全体構成図である。図１に示すように、本実施形態の情報処理システムＳは、情報処理装置１００及び学習サーバ２００を有する。情報処理装置１００及び学習サーバ２００は、ネットワークＮＷを介して相互に通信することができる。ネットワークＮＷには、後述される配信サーバＤＳが接続されていてよい。

【0011】

情報処理装置１００は、ユーザが使用する情報端末であって、例えば、タブレット端末やスマートフォン、パーソナルコンピュータ（ＰＣ）等の個人デバイスである。また、情報処理装置１００は、後述される電子楽器ＥＭに無線又は有線で接続されてよい。

【0012】

学習サーバ２００は、ネットワークＮＷに接続されたクラウドサーバであって、後述される学習モデルＭを訓練して、訓練された学習モデルＭを情報処理装置１００等の他の装置に供給することができる。サーバ３００は、クラウドサーバには限らず、ローカルネットワークのサーバであってもよい。また、本実施形態のサーバ３００の機能は、クラウドサーバとローカルネットワークのサーバとの協働動作により実現されてもよい。

【0013】

本実施形態の情報処理システムＳにおいて、演者による演奏を示す演奏データＡと、演奏に対する評価を示す評価データＢとの関係を機械学習した学習モデルＭに対して、推論対象の演奏データＡを入力することによって、入力された演奏データＡに対する評価が推論される。

【0014】

図２は、情報処理装置１００のハードウェア構成を示すブロック図である。図２に示すように、情報処理装置１００は、ＣＰＵ（Central Processing Unit）１０１、ＲＡＭ（Random Access Memory）１０２、ストレージ１０３、入出力部１０４、集音部１０５、撮像部１０６、送受信部１０７、及びバス１０８を有する。

【0015】

ＣＰＵ１０１は、情報処理装置１００における種々の演算を実行する処理回路である。ＲＡＭ１０２は、揮発性の記憶媒体であって、ＣＰＵ１０１が使用する設定値を記憶すると共に種々のプログラムが展開されるワーキングメモリとして機能する。ストレージ１０３は、不揮発性の記憶媒体であって、ＣＰＵ１０１によって用いられる種々のプログラム及びデータを記憶する。

【0016】

入出力部１０４は、情報処理装置１００に対するユーザの操作を受け付けると共に種々の情報を表示する要素（ユーザインタフェース）であって、例えば、タッチパネルによって構成される。

【0017】

集音部１０５は、集音した音を電気信号に変換してＣＰＵ１０１に供給する要素であって、例えばマイクロフォンである。集音部１０５は、情報処理装置１００に内蔵されていてもよいし、不図示のインタフェースを介して情報処理装置１００に接続されていてもよい。

【0018】

撮像部１０６は、撮影した映像を電気信号に変換してＣＰＵ１０１に供給する要素であって、例えばデジタルカメラである。撮像部１０６は、情報処理装置１００に内蔵されていてもよいし、不図示のインタフェースを介して情報処理装置１００に接続されていてもよい。

【0019】

送受信部１０７は、学習サーバ２００等の他の装置とデータを送受信する要素である。送受信部１０７は、ユーザが楽曲を演奏する際に用いる電子楽器ＥＭと接続してデータを送受信できる。送受信部１０７は、複数のモジュール（例えば、近距離無線通信に用いられるBluetooth（登録商標）モジュール及びWi-Fi（登録商標）モジュール）を含み得る。

【0020】

バス１０８は、上記した情報処理装置１００のハードウェア要素を相互に接続する信号伝送路である。

【0021】

図３は、学習サーバ２００のハードウェア構成を示すブロック図である。図３に示すように、学習サーバ２００は、ＣＰＵ２０１、ＲＡＭ２０２、ストレージ２０３、入力部２０４、出力部２０５、送受信部２０６、及びバス２０７を有する。

【0022】

ＣＰＵ２０１は、学習サーバ２００における種々の演算を実行する処理回路である。ＲＡＭ２０２は、揮発性の記憶媒体であって、ＣＰＵ２０１が使用する設定値を記憶すると共に種々のプログラムが展開されるワーキングメモリとして機能する。ストレージ２０３は、不揮発性の記憶媒体であって、ＣＰＵ２０１によって用いられる種々のプログラム及びデータを記憶する。

【0023】

入力部２０４は、学習サーバ２００に対する操作を受け付ける要素であって、例えば、学習サーバ２００に接続されたキーボード及びマウスからの入力信号を受け付ける。

【0024】

出力部２０５は、種々の情報を表示する要素であって、例えば、学習サーバ２００に接続された液晶ディスプレイに対して映像信号を出力する。

【0025】

送受信部２０６は、情報処理装置１００等の他の装置とデータを送受信する要素であって、例えば、ネットワークカード（ＮＩＣ）である。

【0026】

バス２０７は、上記した学習サーバ２００のハードウェア要素を相互に接続する信号伝送路である。

【0027】

上記した各装置１００，２００のＣＰＵ１０１，２０１が、ストレージ１０３，２０３に格納されているプログラムをＲＡＭ１０２，２０２に読み出して実行することによって、以下の機能ブロック（制御部１５０，２５０等）及び本実施形態に係る種々の処理が実現される。各ＣＰＵは、通常のＣＰＵに限らず、ＤＳＰや推論プロセッサであってもよく、或いは、それらの２以上の任意の組み合わせであっても良い。また、本実施形態に係る種々の処理は、ＣＰＵやＤＳＰ、推論プロセッサ、ＧＰＵ等の１以上のプロセッサがプログラムを実行することにより実現されてもよい。

【0028】

図４は、本発明の実施形態に係る情報処理システムＳの機能的構成を示すブロック図である。

【0029】

学習サーバ２００は、制御部２５０及び記憶部２６０を有する。制御部２５０は、学習サーバ２００の動作を統合的に制御する機能ブロックである。記憶部２６０は、ＲＡＭ２０２及びストレージ２０３によって構成され、制御部２５０によって用いられる種々のデータ（特に、演奏データＡ及び評価データＢ）を記憶する。制御部２５０は、サブ機能ブロックとして、サーバ認証部２５１、データ取得部２５２、データ前処理部２５３、学習処理部２５４、及びモデル配布部２５５を有する。

【0030】

サーバ認証部２５１は、情報処理装置１００（認証部１５１）と協働してユーザを認証する機能ブロックである。サーバ認証部２５１は、情報処理装置１００から供給された認証データが記憶部２６０に格納されている認証データと一致するか否かを判定し、認証結果（許可又は拒否）を情報処理装置１００に送信する。

【0031】

データ取得部２５２は、ネットワークＮＷを介して外部の配信サーバＤＳから配信データを受信して、演奏データＡ及び評価データＢを取得する機能ブロックである。配信サーバＤＳは、例えば、ライブ動画等の映像及び音を含む動画を配信データとして配信するサーバである。配信データには、演者の演奏を示す映像データ（例えば、動画データ）、音データ（例えば、オーディオデータ）、及び操作データ（例えば、ＭＩＤＩデータ）が含まれる。また、配信データには、演奏に対する主観データが含まれる。主観データは、演者の演奏に対して視聴者によって付された評価値であって、動画と時系列的に関連付けられている。例えば、評価データの評価値に、対応する動画における時刻が付されていてもよいし、動画の通し番号（フレーム番号）が付されていてもよい。また、動画と主観データとが一体的に構成されていてもよい。なお、演奏中の演者による演奏操作を示すＭＩＤＩデータ等の操作データが、配信データに含まれると好適である。操作データには、電子ピアノのペダル操作やエレキギターのエフェクタ操作が含まれてよい。

【0032】

データ取得部２５２は、受信した配信データに含まれる映像データ及び音データを複数の演奏片に時系列的に分割することによって演奏データＡを取得して、記憶部２６０に記憶する。データ取得部２５２は、映像データ及び音データを、演奏の切れ目で示されるフレーズごとに演奏片に分割してもよいし、演奏のモチーフに基づいて演奏片に分割してもよいし、コードパターンに基づいて演奏片に分割してもよい。

【0033】

なお、演奏データＡは、時系列的に分割された音データに代えて又は加えて、時系列的に分割された操作データを含んでもよい。すなわち、演奏データＡは、演奏によって生じる音を示す音データ及び電子楽器ＥＭの演奏に基づいて生成される操作データのいずれか一方又は双方を含む。

【0034】

また、データ取得部２５２は、受信した配信データに含まれる主観データ及び評価時刻に基づいて、分割された演奏片ごとの評価を示す評価片を含む評価データＢを取得して、記憶部２６０に記憶する。評価データＢは、時系列的に構成された演奏データＡに対する時系列的な評価の推移を示すデータである。評価データＢに含まれる評価片に対応する演奏片の時刻が含まれてもよいし、演奏片と評価片とに対応する通し番号が付されてもよいし、評価片が対応する演奏片に埋め込まれてもよい。データ取得部２５２は、取得した演奏データＡ及び評価データＢを記憶部２６０に記憶する。

【0035】

データ前処理部２５３は、記憶部２６０に記憶されている演奏データＡ及び評価データＢに対して、学習モデルＭの訓練（機械学習）に適した形式となるようにスケーリング等のデータ前処理を実行する機能ブロックである。

【0036】

学習処理部２５４は、データ前処理後の演奏データＡを入力データとし、データ前処理後の評価データＢを教師データとして用いて、学習モデルＭを訓練する機能ブロックである。本実施形態の学習モデルＭには、任意の機械学習モデルが採用され得る。好適には、時系列データに適合した回帰型ニューラルネットワーク（ＲＮＮ）及びその派生物（長・短期記憶（ＬＳＴＭ）、ゲート付き回帰型ユニット（ＧＲＵ）等）が学習モデルＭに採用される。注意（Attention）ベースのアルゴリズムに従って学習モデルＭが構成されてもよい。

【0037】

モデル配布部２５５は、学習処理部２５４が訓練した学習モデルＭを情報処理装置１００に供給する機能ブロックである。

【0038】

情報処理装置１００は、制御部１５０及び記憶部１６０を有する。制御部１５０は情報処理装置１００の動作を統合的に制御する機能ブロックである。記憶部１６０は、ＲＡＭ１０２及びストレージ１０３によって構成され、制御部１５０によって用いられる種々のデータを記憶する。制御部１５０は、サブ機能ブロックとして、認証部１５１、演奏取得部１５２、動画取得部１５３、データ前処理部１５４、推論処理部１５５、及び評価提示部１５６を有する。

【0039】

認証部１５１は、学習サーバ２００（サーバ認証部２５１）と協働してユーザを認証する機能ブロックである。認証部１５１は、ユーザが入出力部１０４を用いて入力したユーザ識別子及びパスワード等の認証データを学習サーバ２００に送信し、学習サーバ２００から受信した認証結果に基づいてユーザのアクセスを許可又は拒否する。認証部１５１は、認証された（アクセスが許可された）ユーザのユーザ識別子を他の機能ブロックに供給することができる。

【0040】

演奏取得部１５２は、ユーザの演奏を示す音データ及び操作データのいずれか一方又は双方を取得する機能ブロックである。音データ及び操作データは、いずれも、演奏に係る楽曲に含まれる複数の音の特性（例えば、発音時刻及び音高）を示すデータ（音特性データ）であって、ユーザによる演奏を表現する高次元の時系列データの一種である。演奏取得部１５２は、集音部１０５がユーザの演奏による音を集音して生成した電気信号に基づいて音データを取得してよい。また、演奏取得部１５２は、ユーザによる電子楽器ＥＭの演奏に基づいて生成された操作データを、送受信部１０７を介して電子楽器ＥＭから取得してよい。電子楽器ＥＭは、例えば、電子ピアノ等の電子鍵盤楽器であってもよく、エレキギター等の電子弦楽器であってもよく、ウィンドシンセサイザ等の電子管楽器であってもよい。演奏取得部１５２は、取得した音特性データをデータ前処理部１５４に供給する。なお、演奏取得部１５２は、認証部１５１から供給されたユーザ識別子を音特性データに付与して学習サーバ２００に送信することもできる。

【0041】

動画取得部１５３は、ユーザの演奏を示す映像データを取得する機能ブロックである。映像データは、演奏におけるユーザ（演者）の動きの特徴を示す動きデータであって、ユーザによる演奏を表現する高次元の時系列データの一種である。動画取得部１５３は、撮像部１０６が演奏中のユーザを撮影して生成した電気信号に基づいて動きデータを取得してよい。動きデータは、例えば、ユーザの骨格（スケルトン）を時系列的に取得したデータである。動画取得部１５３は、取得した映像データをデータ前処理部１５４に供給する。なお、動画取得部１５３は、認証部１５１から供給されたユーザ識別子を映像データに付与して学習サーバ２００に送信することもできる。

【0042】

データ前処理部１５４は、演奏取得部１５２から供給された音特性データ及び動画取得部１５３から供給された映像データを含む演奏データＡに対して、学習モデルＭによる推論に適した形式となるようにスケーリング等のデータ前処理を実行する機能ブロックである。

【0043】

推論処理部１５５は、前述した学習処理部２５４によって訓練された学習モデルＭに対して、前処理された演奏データＡを入力データとして入力することによって、演奏データＡに対する評価を示す評価データＢを推論する機能ブロックである。なお、評価データＢは、前述したように、演奏データＡに含まれる複数の演奏片ごとの評価を示す評価片を含む。

【0044】

評価提示部１５６は、推論処理部１５５によって推論された評価データＢをユーザに提示する機能ブロックである。評価提示部１５６は、例えば、演奏データＡに含まれる複数の演奏片ごとの評価を、時系列的に入出力部１０４に表示させる。なお、評価提示部１５６は、評価データＢを視覚的に提示することに代えて又は加えて、評価データＢを聴覚的又は触覚的にユーザに提示してもよい。また、評価提示部１５６は、他の装置、例えば電子楽器ＥＭが有する表示部に上記評価を表示させてもよい。

【0045】

図５は、本発明の実施形態に係る情報処理システムＳにおける機械学習処理を示すシーケンス図である。本実施形態の機械学習処理は学習サーバ２００において実行される。なお、本実施形態の機械学習処理は、定期的に実行されてもよいし、ユーザ指示に基づく情報処理装置１００からの要求に応じて実行されてもよい。

【0046】

ステップＳ５１０において、データ取得部２５２は、配信サーバＤＳから受信した配信データに基づいて演奏データＡ及び評価データＢを取得して、記憶部２６０に格納する。なお、配信データは、データ取得部２５２が予め取得して記憶部２６０に格納していてもよいし、本ステップにおいてデータ取得部２５２が取得してもよい。

【0047】

ステップＳ５２０において、データ前処理部２５３は、記憶部２６０に格納されている演奏データＡ及び評価データＢを含むデータセットを読み出して、データ前処理を実行する。

【0048】

ステップＳ５３０において、学習処理部２５４は、ステップＳ５２０にて前処理されたデータセットに基づいて、演奏データＡを入力データとし評価データＢを教師データとして用いて学習モデルＭを訓練し、訓練された学習モデルＭを記憶部２６０に格納する。例えば、学習モデルＭがニューラルネットワークシステムである場合、学習処理部２５４は、誤差逆伝搬法等を用いて、学習モデルＭの機械学習を行ってもよい。

【0049】

ステップＳ５４０において、モデル配布部２５５は、ステップＳ５３０にて訓練された学習モデルＭを、ネットワークＮＷを介して情報処理装置１００に供給する。情報処理装置１００の制御部１５０は、受信した学習モデルＭを記憶部１６０に格納する。

【0050】

図６は、本発明の実施形態に係る情報処理システムＳにおける推論提示処理を示すシーケンス図である。本実施形態では、情報処理装置１００が演奏片ごとの評価を推論し、推論した評価をユーザに視覚的に提示する。

【0051】

ステップＳ６１０において、演奏取得部１５２は、前述したように電子楽器ＥＭ等から音データ及び操作データのいずれか一方又は双方（音特性データ）を取得して、データ前処理部１５４に供給する。

【0052】

ステップＳ６２０において、動画取得部１５３は、前述したように映像データを取得して、データ前処理部１５４に供給する。

【0053】

ステップＳ６３０において、データ前処理部１５４は、ステップＳ６１０にて演奏取得部１５２から供給された音特性データ及びステップＳ６２０にて動画取得部１５３から供給された映像データを含む演奏データＡに対してデータ前処理を実行して、前処理後の演奏データＡを推論処理部１５５に供給する。

【0054】

ステップＳ６４０において、推論処理部１５５は、記憶部１６０に格納されている訓練済みの学習モデルＭに対して、データ前処理部１５４から供給された演奏データＡを入力データとして入力する。学習モデルＭは、入力された演奏データＡを処理して、その演奏データＡに含まれる各演奏片に対する聴衆の評価を推論する。評価を示す推論値は、離散値であっても連続値であってもよい。推論された演奏片ごとの評価（評価データＢ）は、推論処理部１５５から評価提示部１５６に供給される。

【0055】

ステップＳ６５０において、評価提示部１５６は、ステップＳ６４０にて推論処理部１５５が推論した評価データＢをユーザに提示する。ユーザに対する評価データＢの提示については種々の態様が想定され得る。

【0056】

例えば、ユーザの演奏に対して仮想的な観客（例えば、ＶＲ（Virtual Reality）空間上のアバター）が示す反応をシミュレートして表示するアプリケーションを想定する。以上のアプリケーションにおいて、評価提示部１５６は、演奏データＡの再生に同期して、仮想的な観客が示す反応を評価データＢに基づいて入出力部１０４に表示させる。評価提示部１５６は、推論された評価が閾値より高い時刻においては立ち上がりや歓声等の盛り上がりを示す反応を表示する一方、推論された評価が閾値より低い時刻においては座り込みや静寂、ブーイング等の盛り下がりを示す反応を表示する。

【0057】

また、例えば、ユーザの演奏を数値化・グラフ化して客観的に表示するアプリケーションを想定する。以上のアプリケーションにおいて、評価提示部１５６は、演奏データＡを示す波形と共に、上記演奏データＡに対応する評価データＢの推移をグラフとして入出力部１０４に表示させる。

【0058】

なお、上記したステップＳ６１０乃至ステップＳ６５０の推論表示処理は、演奏データＡが情報処理装置１００に入力されるのと並行してリアルタイムに実行されてもよいし、情報処理装置１００に記憶された演奏データＡに対して事後的に実行されてもよい。

【0059】

以上のように、本実施形態の情報処理システムＳでは、訓練済みの学習モデルＭによって、演奏データＡに含まれる複数の演奏片にそれぞれ対応する評価が適切に推論される。情報処理装置１００は、推論された演奏片ごとの評価をユーザに提示する。結果として、ユーザは、自分の行った演奏が観客にどのように評価されるかを予測することが可能である。

【0060】

＜変形例＞
以上の実施形態は多様に変形される。具体的な変形の態様を以下に例示する。以上の実施形態及び以下の例示から任意に選択された２以上の態様は、相互に矛盾しない限り適宜に併合され得る。

【0061】

上記した実施形態では、演奏データＡが複数の演奏片に時系列的に分割され、学習処理及び推論処理に用いられている。しかしながら、演奏データＡが分割されず１つの楽曲に対応していてもよい。

【0062】

上記した実施形態に関して、種々の手法が演奏データＡの分割に用いられてよい。例えば、複数の演奏片は、楽曲を所定時間おきに区分した複数のパフォーマンス区間であってもよいし、演奏データＡに基づいて特定された複数のフレーズであってもよい。

【0063】

上記した実施形態の評価データＢは、配信データに示される演者のパフォーマンスに対して視聴者によって付された評価値を示す主観データであるが、他の情報が評価データＢとして用いられてよい。

【0064】

例えば、演者のパフォーマンスに関連して視聴者が投稿した投稿の量に関する投稿データが、評価データＢとして用いられてもよい。投稿データは、例えば、動画に含まれる動画片に関連付けられたテキスト情報であって、配信データに含まれており、演奏片ごとに投稿数が集計される。

【0065】

他に、例えば、パフォーマンスにおける観衆の行為を示すリアクションデータが、評価データＢとして用いられてもよい。リアクションデータは、パフォーマンスにおける観衆の動きに関する特徴を示す情報である。データ取得部２５２は、配信データに含まれる音楽パフォーマンス動画のうち観衆が表示されている期間の映像（観衆の映像）を解析してリアクションデータを取得できる。リアクションデータは、例えば、観衆の各々の骨格（スケルトン）を時系列的に取得したデータであってもよく、観衆全体の動きの大きさを示すデータであってもよく、個々の観衆の顔の表情を示すデータであってもよく、赤外線カメラ等で取得した観衆の体温を示すデータであってもよい。

【0066】

上記した実施形態では、評価提示部１５６が評価データＢを視覚的にユーザに提示している。評価データＢの提示に代えて又は加えて、制御部１５０が、推論された評価を向上させるように、演奏データＡに示される動画に対する映像エフェクトの候補を提示してよい。動画に対する映像エフェクトは、例えば、複数のカメラで動画を撮っている場合のカメラアングルの切替えタイミングや、フェードアウトの開始・終了タイミングを示す情報である。

【0067】

上記した実施形態では、学習サーバ２００から供給された学習モデルＭを用いて情報処理装置１００が評価を推論する。しかしながら、評価の推論に係る各処理は、情報処理システムＳを構成する何れの装置にて実行されてもよい。例えば、学習サーバ２００が、情報処理装置１００から供給された演奏データＡを前処理し、記憶部２６０に格納された学習モデルＭに前処理された演奏データＡを入力データとして入力することによって、演奏データＡに対する評価を推論してもよい。本変形例の構成によれば、学習サーバ２００が、演奏データＡを入力データとした学習モデルＭによる推論処理を実行することができる。結果として、情報処理装置１００における処理負荷が軽減される。

【0068】

また、上述した実施形態の電子楽器１００が制御装置２００の機能を有していてもよいし、制御装置２００が電子楽器１００の機能を有していてもよい。

【0069】

なお、本発明を達成するためのソフトウェアによって表される各制御プログラムを記憶した記憶媒体を、各装置に読み出すことによって同様の効果を奏するようにしてもよく、その場合、記憶媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した、非一過性のコンピュータ読み取り可能な記録媒体は本発明を構成することになる。また、プログラムコードを伝送媒体等を介して供給してもよく、その場合は、プログラムコード自体が本発明を構成することになる。なお、これらの場合の記憶媒体としては、ＲＯＭのほか、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード等を用いることができる。「非一過性のコンピュータ読み取り可能な記録媒体」は、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random Access Memory））のように、一定時間プログラムを保持しているものも含む。

【0070】

以上、本発明をその好適な実施形態に基づいて詳述してきたが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。上述の実施形態の一部を適宜組み合わせてもよい。

【符号の説明】

【0071】

１００情報処理装置、１５０制御部、１６０記憶部、２００学習サーバ、２５０制御部、２６０記憶部、Ａ演奏データ、Ｂ評価データ、ＤＳ配信サーバ、ＥＭ電子楽器、Ｍ学習モデル、Ｓ情報処理システム

【図1】