(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-13
(45)【発行日】2023-03-22
(54)【発明の名称】演奏解析方法、演奏解析装置およびプログラム
(51)【国際特許分類】
G10H 1/00 20060101AFI20230314BHJP
G10G 1/00 20060101ALI20230314BHJP
【FI】
G10H1/00 Z
G10G1/00
(21)【出願番号】P 2018056601
(22)【出願日】2018-03-23
【審査請求日】2021-01-21
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】100125689
【氏名又は名称】大林 章
(74)【代理人】
【識別番号】100128598
【氏名又は名称】高田 聖一
(74)【代理人】
【識別番号】100121108
【氏名又は名称】高橋 太朗
(72)【発明者】
【氏名】前澤 陽
(72)【発明者】
【氏名】リー ボチェン
【審査官】山下 剛史
(56)【参考文献】
【文献】国際公開第2018/016582(WO,A1)
【文献】国際公開第2018/016637(WO,A1)
【文献】特開2007-241181(JP,A)
【文献】特開2017-207615(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10H 1/00-7/12
G10G 1/00
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
時間軸上の複数の解析時点の各々について、当該解析時点を含む参照期間内における演奏者による演奏の動作を表す動作データを学習済モデルに入力することで、前記参照期間の後方に位置する推定時点が当該
参照期間内の動作に続く演奏による発音の発音時点に該当する確率を、当該学習済モデルから出力
する
コンピュータにより実現される演奏解析方法。
【請求項2】
演奏者を撮像した画像データから、当該演奏者の身体における特定の部位を代表する特徴点により当該演奏者の姿勢または骨格を表す特徴点データを順次に生成し、
時間軸上の複数の解析時点の各々について、当該解析時点を含む参照期間内における前記特徴点データの時系列を前記演奏者による演奏の動作を表す動作データとして学習済モデルに入力することで、
前記参照期間の後方に位置する推定時点が当該動作に続く演奏による発音の発音時点に該当する確率を、当該学習済モデルから出力する
コンピュータにより実現される演奏解析方法。
【請求項3】
さらに、前記学習済モデルから出力された確率の時系列から、当該演奏による発音時点を推定する
請求項1または請求項2の演奏解析方法。
【請求項4】
時間軸上の複数の解析時点の各々について、当該参照期間内における演奏者による演奏の動作を表す動作データを学習済モデルに入力することで、前記参照期間の後方に位置する推定時点が当該
参照期間内の動作に続く演奏による発音の発音時点に該当する確率を、当該学習済モデルから出力
する演奏解析部
を具備する演奏解析装置。
【請求項5】
演奏者を撮像した画像データから、当該演奏者の身体における特定の部位を代表する特徴点により当該演奏者の姿勢または骨格を表す特徴点データを順次に生成する画像解析部と、
時間軸上の複数の解析時点の各々について、当該解析時点を含む参照期間内における前記特徴点データの時系列を前記演奏者による演奏の動作を表す動作データとして学習済モデルに入力することで、
前記参照期間の後方に位置する推定時点が当該動作に続く演奏による発音の発音時点に該当する確率を、当該学習済モデルから出力する演奏解析部と
を具備する演奏解析装置。
【請求項6】
前記演奏解析部は、前記学習済モデルから出力された確率の時系列から、当該演奏による発音時点を推定する
請求項4または請求項5の演奏解析装置。
【請求項7】
時間軸上の複数の解析時点の各々について、当該参照期間内における演奏者による演奏の動作を表す動作データを学習済モデルに入力することで、前記参照期間の後方に位置する推定時点が当該参照期間内の動作に続く演奏による発音の発音時点に該当する確率を、当該学習済モデルから出力する演奏解析部
としてコンピュータシステムを機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、演奏者による演奏を解析するための技術に関する。
【背景技術】
【0002】
演奏者の動作を解析する技術が従来から提案されている。例えば特許文献1には、演奏者が実行する特定の合図動作を検出し、当該合図動作に同期するように楽曲の自動演奏を制御する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の技術では、演奏者による合図動作の検出から所定の時間が経過した時点が、当該演奏者による演奏が開始される時点として特定される。しかし、演奏者による演奏が開始される時点を高精度に推定するという観点から改善の余地がある。
【課題を解決するための手段】
【0005】
以上の課題を解決するために、本発明の好適な態様に係る情報処理方法は、演奏者による演奏の動作を表す動作データを学習済モデルに入力することで、当該演奏による発音時点を推定する。また、本発明の他の態様に係る演奏解析装置は、演奏者による演奏の動作を表す動作データを学習済モデルに入力することで、当該演奏による発音時点を推定する演奏解析部を具備する。
【図面の簡単な説明】
【0006】
【
図1】本発明の実施形態に係る演奏システムの構成を例示するブロック図である。
【
図2】演奏解析装置の機能的な構成を例示するブロック図である。
【
図5】確率分布と発音時点との関係の説明図である。
【
図6】演奏解析処理の具体的な手順を例示するフローチャートである。
【発明を実施するための形態】
【0007】
図1は、本発明の好適な形態に係る演奏システム100の構成を例示するブロック図である。演奏システム100は、演奏者Uが所在する音響ホール等の空間に設置されたシステムである。演奏者Uは、鍵盤楽器等の楽器200を利用して楽曲を演奏する。演奏システム100は、演奏者Uによる楽曲の演奏に並行して当該楽曲の自動演奏を実行する。具体的には、演奏システム100は、演奏者Uによる演奏を解析し、解析結果に応じて当該楽曲の自動演奏を実行する。
【0008】
図1に例示される通り、演奏システム100は、演奏解析装置11と演奏装置12と撮像装置13とを具備する。演奏解析装置11は、演奏システム100の各要素を制御するコンピュータシステムである。例えば携帯電話機、スマートフォンまたはパーソナルコンピュータ等の各種の情報端末が、演奏解析装置11として好適に利用される。
【0009】
撮像装置13は、演奏者Uを撮像することで画像データVを生成する。画像データVは、演奏者Uの画像の時系列(すなわち動画像)を表すデータである。画像データVの形式は任意である。撮像装置13が生成した画像データVは、有線または無線により演奏解析装置11に供給される。なお、演奏解析装置11に撮像装置13を搭載してもよい。また、例えば演奏者Uの身体の各部位までの距離を示す深度情報を生成可能な深度カメラまたはステレオカメラを、撮像装置13として利用してもよい。すなわち、撮像装置13は、演奏者Uの画像と深度情報とを表す画像データVを生成する。
【0010】
演奏装置12は、演奏解析装置11による制御のもとで楽曲の自動演奏を実行する。具体的には、演奏装置12は、駆動機構121と発音機構122とを具備する自動演奏楽器(例えば自動演奏ピアノ)である。発音機構122は、自然楽器の鍵盤楽器と同様に、鍵盤の各鍵の変位に連動して弦(発音体)を発音させる打弦機構を鍵毎に具備する。駆動機構121は、発音機構122を駆動することで対象楽曲の自動演奏を実行する。演奏解析装置11からの指示に応じて駆動機構121が発音機構122を駆動することで自動演奏が実現される。なお、演奏解析装置11を演奏装置12に搭載してもよい。
【0011】
図1に例示される通り、演奏解析装置11は、制御装置111と記憶装置112とを具備するコンピュータシステムで実現される。制御装置111は、例えばCPU(Central Processing Unit)等の処理回路であり、演奏システム100を構成する各要素(演奏装置12および撮像装置13)を統括的に制御する。制御装置111は、1個以上の処理回路を含んで構成される。
【0012】
記憶装置112は、制御装置111が実行するプログラムと制御装置111が使用する各種のデータとを記憶するメモリである。例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置112として好適である。本実施形態の記憶装置112は、楽曲を表す楽曲データZを記憶する。具体的には、楽曲データZは、楽曲を構成する音符の時系列を指定する。例えば、MIDI(Musical Instrument Digital Interface)規格に準拠した形式のファイル(SMF:Standard MIDI File)が楽曲データZとして好適である。なお、演奏システム100とは別体の記憶装置112(例えばクラウドストレージ)を用意し、制御装置111が通信網を介して記憶装置112に対する書込および読出を実行してもよい。すなわち、記憶装置112を演奏解析装置11から省略してもよい。
【0013】
図2は、演奏解析装置11の機能的な構成を例示するブロック図である。制御装置111は、記憶装置112に記憶されたプログラムを実行することで複数の機能(画像解析部31、演奏解析部32および演奏制御部33)を実現する。なお、相互に別体で構成された複数の装置の集合(すなわちシステム)で制御装置111の機能を実現してもよいし、制御装置111の機能の一部または全部を専用の電子回路で実現してもよい。また、演奏装置12と撮像装置13とが設置された音響ホール等の空間から離間した位置にあるサーバ装置が、制御装置111の一部または全部の機能を実現してもよい。
【0014】
画像解析部31は、演奏者Uの撮像により撮像装置13が生成した画像データVから特徴点データFの時系列を生成する。特徴点データFは所定の間隔で順次に生成される。
図3は、特徴点データFの説明図である。各特徴点データFは、演奏者Uの身体における特徴点Bの位置を表すデータである。各特徴点Bは、演奏者Uの身体の特定の部位を代表する仮想的な地点である。例えば演奏者Uの関節または頭部等の各部位について特徴点Bが設定される。各特徴点Bは、相互に直交するX軸とY軸を含む座標平面内に設定される。特徴点データFは、複数の特徴点Bの各々についてX座標とY座標とを指定する。以上の説明から理解される通り、任意の1個の特徴点データFは、演奏者Uの姿勢または骨格を表すデータである。特徴点データFの時系列は、演奏者Uの一連の動作(すなわち各特徴点Bの経時的な移動)を表現する。なお、3次元空間内における各特徴点Bの座標を表す特徴点データFを画像解析部31が生成してもよい。
【0015】
図2の演奏解析部32は、演奏者Uが楽曲を演奏する動作(以下「演奏動作」という)を解析する。具体的には、演奏解析部32は、演奏者Uの演奏動作を表す特徴点データFの時系列から、当該演奏により楽音が発音される時点(以下「発音時点」という)を推定する。すなわち、実際に楽音が発音される直前における演奏者Uの演奏動作から発音時点が予測される。例えば、演奏者Uが腕を鍵盤に対して上昇させる動作、または演奏者Uが頭部や上半身を上昇させる動作等、楽器200を実際に操作する直前の準備的な動作(以下「準備動作」という)に応じて、発音時点が予測される。
【0016】
図4および
図5は、演奏解析部32が演奏者Uの演奏動作を解析する処理(以下「演奏解析処理」という)の説明図である。
図4に例示される通り、演奏解析部32は、時間軸上の相異なる複数の時点(以下「解析時点」という)Qaの各々について確率Pを算定する。任意の1個の解析時点Qaについて算定される確率Pは、当該解析時点Qaの後方の時点(以下「推定時点」という)Qbが発音時点に該当する確度の指標(0≦P≦1)である。推定時点Qbは、解析時点Qaから所定の時間τ(例えば100ミリ秒)だけ後方の時点である。
【0017】
時間軸上の解析時点Qa毎に確率Pが算定されるから、
図5に例示される通り、時間軸上における確率Pの分布(以下「確率分布」という)Dが特定される。演奏解析部32は、確率分布Dから発音時点Oを推定する。具体的には、演奏解析部32は、確率分布Dのうち確率Pが所定の閾値P0を上回る範囲内で確率Pが極大値となる時点を発音時点Oとして特定する。
【0018】
図4に例示される通り、演奏解析部32は、各解析時点Qaに対応する動作データMから推定時点Qbの確率Pを算定する。時間軸上の任意の1個の解析時点Qaに対応する動作データMは、当該解析時点Qaを含む期間(以下「参照期間」という)R内における複数の特徴点データFの時系列で構成される。参照期間Rは、例えば解析時点Qaを終点とする所定長(例えば1秒)の期間である。以上の説明から理解される通り、動作データMは、参照期間R内における演奏者Uの一連の演奏動作を表す時系列データである。相前後する解析時点Qaの間隔は参照期間Rの時間長を下回る。したがって、相前後する参照期間Rは時間軸上で相互に重複する。以上に説明した通り、本実施形態では、参照期間R内における特徴点データFの時系列で構成される動作データMが発音時点Oの推定に利用されるから、参照期間R内における演奏者Uの一連の演奏動作を考慮して発音時点Oを高精度に推定できる。
【0019】
図2および
図4に例示される通り、演奏解析部32による演奏動作の解析には学習済モデルLが利用される。具体的には、演奏解析部32は、学習済モデルLに動作データMを入力することで確率Pを特定する。学習済モデルLは、機械学習により生成された統計的推定モデルである。例えばニューラルネットワーク等の各種の数学モデルが学習済モデルLとして任意に採用される。例えば畳込みニューラルネットワーク(CNN:Convolutional Neural Network)が学習済モデルLとして好適である。
【0020】
学習済モデルLは、動作データMから確率Pを出力する演算を制御装置111に実行させるプログラム(例えば人工知能ソフトウェアを構成するプログラムモジュール)と、当該演算に適用される複数の係数との組合せで実現される。複数の係数は、多数の教師データを利用した機械学習(特に深層学習)により設定されて記憶装置112に保持される。
【0021】
具体的には、学習済モデルLを規定する複数の係数は、動作データMと確率Pとを対応させた複数の教師データを利用した機械学習により設定される。具体的には、教師データに含まれる動作データMを暫定的なモデルに入力したときに出力される確率Pと、当該教師データが指定する確率Pとの差異(すなわち損失関数)が、複数の教師データについて低減(理想的には最小化)されるように、学習済モデルLの複数の係数が設定される。損失関数としては、例えば相互エントロピー(cross-entropy)が好適である。以上の説明から理解される通り、学習済モデルLは、複数の教師データにおける動作データMと確率Pとの間に潜在する関係のもとで、未知の動作データMに対して統計的に妥当な確率Pを出力する。
【0022】
なお、教師データに含められる動作データMとしては、楽曲のうち発音の直前の準備動作が顕著となり易い期間(以下「準備期間」という)内の動作データMが好適である。準備期間としては、例えば、楽曲の演奏が開始される時点の直前の期間、または、楽曲内で長時間にわたる休止から演奏が再開される時点の直前の期間が例示される。楽曲の一連の演奏動作から生成された複数の動作データMのうち、教師データの作成者が手動で指定した準備期間内の動作データMが教師データとして利用される。
【0023】
以上に説明した教師データを利用して生成される学習済モデルLは、演奏者Uによる準備動作が顕著となる参照期間Rについて算定される確率Pが特に大きい数値となる傾向がある。すなわち、演奏者Uによる顕著な準備動作の直後に楽音が発音される時点が発音時点として推定され易い。他方、楽曲内の一連の演奏動作の途中において個々の楽音(顕著な準備動作を伴わずに発音される楽音)が発音される時点は、発音時点として推定されない可能性が高い。
【0024】
図2の演奏制御部33は、楽曲データZが時系列に指定する音符の演奏を演奏装置12に対して順次に指示するシーケンサである。具体的には、演奏制御部33は、演奏解析部32が特定した発音時点Oにおいて演奏装置12が楽曲内の特定の音符を演奏するように演奏装置12を制御する。例えば、楽曲演奏の開始の直後においては、楽曲の最初の音符が発音時点Oにおいて演奏されるように演奏装置12が制御される。また、楽曲のうち長時間にわたる休止の直後においては、楽曲のうち当該休止後の最初の音符が発音時点Oにおいて演奏されるように演奏装置12が制御される。以上の説明から理解される通り、演奏者Uによる演奏の開始と同時に演奏装置12による自動演奏が開始される。
【0025】
図6は、演奏解析処理の具体的な手順を例示するフローチャートである。例えば所定の間隔で
図6の演奏解析処理が反復される。演奏解析処理を開始すると、画像解析部31は、撮像装置13が生成した画像データVから特徴点データFを生成する(S1)。特徴点データFは演奏解析処理毎に記憶装置112に記憶される。すなわち、特徴点データFの時系列が記憶装置112に記憶される。
【0026】
演奏解析部32は、現時点を解析時点Qaとして、解析時点Qaを含む参照期間R内の特徴点データFの時系列を動作データMとして生成する(S2)。すなわち、直近に生成した特徴点データFを基点として前方の所定個にわたる特徴点データFの集合が動作データMとして選択される。
【0027】
演奏解析部32は、動作データMを学習済モデルLに入力することで、解析時点Qa(現時点)の後方に位置する推定時点Qbが発音時点Oに該当する確率Pを算定する(S3)。そして、演奏解析部32は、現時点までの確率Pの確率分布Dについて、確率Pが閾値P0を上回る範囲内の極大点が観測された場合には、当該極大点を発音時点Oとして特定する(S4)。確率Pが閾値P0を下回る場合、または確率Pの極大点が観測されない場合には、発音時点Oを特定することなく演奏解析処理を終了する。
【0028】
以上の説明から理解される通り、本実施形態によれば、演奏者Uの演奏の動作を表す動作データMを学習済モデルLに入力することで発音時点Oが推定される。したがって、演奏者Uによる特定の動作が検出されてから所定の時間が経過した時点を発音時点Oとして特定する構成と比較して、演奏者Uの未知の演奏動作による発音時点Oを高精度に推定することが可能である。本実施形態では特に、参照期間R内における演奏動作を表す動作データMを学習済モデルLに入力することで、当該参照期間Rの後方に位置する推定時点Qbが発音時点Oである確率Pが算定される。したがって、演奏による実際の発音前に発音時点Oを予測できる。また、各推定時点Qbが発音時点Oである確率Pの時系列が算定されるから、発音時点Oを高精度に推定できるという前述の効果は格別に顕著である。
【0029】
<変形例>
以上に例示した態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
【0030】
(1)前述の形態では、演奏解析部32が推定した発音時点Oにおいて自動演奏を開始したが、演奏解析部32による推定結果の用途は以上の例示に限定されない。例えば、楽曲内で演奏者Uが現に演奏している位置(以下「演奏位置」という)を推定する処理に、演奏解析部32による推定結果を利用してもよい。例えば、演奏解析部32は、演奏者Uによる楽器200の演奏音を表す音響信号を解析することで演奏位置を推定する。演奏位置の推定には、例えば特開2015-79183号公報等に開示された公知の解析技術(スコアアライメント)が採用される。演奏解析部32が推定した発音時点Oが楽曲内の特定の音符の始点である確率が高いという条件を加味することで、演奏者Uによる演奏位置を高精度に推定することが可能である。以上の方法により推定された演奏位置の進行に追従するように、演奏制御部33が演奏装置12による自動演奏を制御してもよい。
【0031】
(2)前述の形態では、演奏者Uが演奏する楽器200として鍵盤楽器を例示したが、楽器200の種類は以上の例示に限定されない。例えば、演奏者Uが管楽器または弦楽器等の楽器200を演奏する動作を解析することで発音時点Oを推定することも可能である。
【0032】
(3)学習済モデルLが算定した確率Pから発音時点Oを特定する方法は、前述の形態の例示に限定されない。例えば、確率分布Dのうち確率Pが閾値P0を上回る時間的な範囲の始点、または、確率Pの増加率が所定値を上回る時点を、発音時点Oとして特定してもよい。
【0033】
(4)前述の形態では、自動演奏ピアノ等の自動演奏楽器を演奏装置12として例示したが、演奏装置12は、自然楽器と同様の機構(駆動機構121および発音機構122)を具備する装置に限定されない。例えば、演奏制御部33から指示された音響を放音する電子楽器を演奏装置12として利用してもよい。電子楽器は、例えば、演奏制御部33からの指示に応じた音響信号を生成する音源回路(例えばMIDI音源)と、音源回路が生成した音響信号に応じた音響を放音する放音装置(例えばスピーカまたはヘッドホン)とを具備する。
【0034】
(5)前述の形態では、MIDI規格に準拠した形式の楽曲データZを例示したが、楽曲データZの形式は以上の例示に限定されない。例えば、楽曲の演奏音を表す音響信号(すなわち、音響の波形を表すサンプル系列)を楽曲データZとして利用してもよい。例えば、演奏者Uによる楽器200の演奏音を表す音響信号を解析することで演奏位置を推定し、楽曲データZ(音響信号)のうち当該演奏位置に対応するサンプルの時系列を放音装置に供給することで、楽曲データZが表す音響を放音してもよい。なお、音響信号同士の時間的な対応の解析には、例えば特開2015-45731号公報に開示された技術が好適に利用される。
【0035】
(6)携帯電話機またはスマートフォン等の端末装置との間で通信するサーバ装置により演奏解析装置11の機能を実現してもよい。演奏解析装置11は、端末装置から受信した画像データVに応じて発音時点Oを推定し、推定結果に応じた自動演奏の指示を端末装置に送信する。なお、端末装置から特徴点データFが送信される構成では、演奏解析装置11から画像解析部31が省略され、端末装置が演奏制御部33を具備する構成では、演奏解析装置11から演奏制御部33が省略される。
【0036】
(7)前述の形態に係る演奏解析装置11の機能は、コンピュータ(例えば制御装置111)とプログラムとの協働により実現される。前述の形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。
【0037】
(8)学習済モデルLを実現するための人工知能ソフトウェアの実行主体はCPUに限定されない。例えば、Tensor Processing UnitおよびNeural Engine等のニューラルネットワーク用の処理回路、または、人工知能に専用されるDSP(Digital Signal Processor)が、人工知能ソフトウェアを実行してもよい。また、以上の例示から選択された複数種の処理回路が協働して人工知能ソフトウェアを実行してもよい。
【符号の説明】
【0038】
100…演奏システム、11…演奏解析装置、111…制御装置、112…記憶装置、12…演奏装置、121…駆動機構、122…発音機構、13…撮像装置、31…画像解析部、32…演奏解析部、33…演奏制御部、200…楽器。