(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-09
(45)【発行日】2024-09-18
(54)【発明の名称】音響解析システム、電子楽器および音響解析方法
(51)【国際特許分類】
G10G 1/00 20060101AFI20240910BHJP
G10H 1/36 20060101ALI20240910BHJP
【FI】
G10G1/00
G10H1/36
(21)【出願番号】P 2022579439
(86)(22)【出願日】2022-01-21
(86)【国際出願番号】 JP2022002232
(87)【国際公開番号】W WO2022168638
(87)【国際公開日】2022-08-11
【審査請求日】2023-07-24
(31)【優先権主張番号】P 2021017465
(32)【優先日】2021-02-05
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110003177
【氏名又は名称】弁理士法人旺知国際特許事務所
(72)【発明者】
【氏名】傍嶋 將文
(72)【発明者】
【氏名】篠井 暖
【審査官】浜岸 広明
(56)【参考文献】
【文献】特開2015-079110(JP,A)
【文献】特開2010-054802(JP,A)
【文献】特開2013-250357(JP,A)
【文献】特開2003-255930(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10G 1/00-7/02
G10H 1/00-7/12
(57)【特許請求の範囲】
【請求項1】
目標音色の指示を受付ける指示受付部と、
相異なる音色に対応する複数の音響成分を含む第1音響信号を取得する取得部と、
相異なる音色に対応する複数の音響成分を含む第1訓練用音響信号と音色を示す訓練用指示データとの組合せと、前記第1訓練用音響信号の前記複数の音響成分のうち前記訓練用指示データが示す音色に対応する音響成分を表す第2訓練用音響信号との関係を学習した第1学習済モデルに、前記第1音響信号と前記目標音色を示す指示データとを入力することで、前記目標音色に対応する音響成分を表す第2音響信号を生成する分離部と、
前記第2音響信号において前記目標音色に対応する音響成分の強度の時間的な変動を表す解析リズムパターンを算定する解析部と、
相異なる演奏音を表す複数の参照信号
の各々における信号強度の時間的な変動を表す参照リズムパターンと前記解析リズムパターンとを対比し、当該対比の結果に基づいて、前記複数の参照信号のうち1以上の参照信号を選択する
選択部と
を具備
する音響解析システム。
【請求項2】
前記解析部は、相異なる音色に対応する複数の周波数特性を表す基底行列を利用した非負値行列因子分解により、前記第2音響信号から係数行列を前記解析リズムパターンとして算定する
請求項
1の音響解析システム。
【請求項3】
前記選択部は、
前記複数の参照信号の各々について、前記参照リズムパターンと前記解析リズムパターンとの類似度を算定し、
前記類似度に基づいて、
前記複数の参照信号から前記1以上の参照信号を選択する
請求項
1の音響解析システム。
【請求項4】
前記選択部は、訓練用参照リズムパターンと訓練用解析リズムパターンとを含む訓練
用入力データと、前記訓練用参照リズムパターンと前記訓練用解析リズムパターンとの訓練用類似度との関係を学習した
第2学習済モデルに、前記参照リズムパターンと前記解析リズムパターンとを含む入力データを入力することで、前記類似度を出力する
請求項
3の音響解析システム。
【請求項5】
前記選択部は、相異なる音楽ジャンルに対応する複数の
第2学習済モデルのうち特定の音楽ジャンルに対応する
第2学習済モデルに、前記入力データを入力することで、前記類似度を出力する
請求項
4の音響解析システム。
【請求項6】
前記複数の
第2学習済モデルのうち一の音楽ジャンルに対応する
第2学習済モデルは、当該音楽ジャンルに対応する複数の訓練データを利用した機械学習により確立される
請求項
5の音響解析システム。
【請求項7】
前記
第2学習済モデルは、
畳込ニューラルネットワークにより構成され、前記入力データから特徴データを生成する第1モデルと、
再帰型ニューラルネットワークにより構成され、前記特徴データから類似度を生成する第2モデルとを含む
請求項
4から請求項
6の何れかの音響解析システム。
【請求項8】
前記参照リズムパターンは、相異なる音色に対応する複数の係数列を含み、
前記解析リズムパターンは、相異なる音色に対応する複数の係数列を含み、
前記選択部は、
前記参照リズムパターンにおける前記複数の係数列の各々について当該係数列の複数の要素を平均または総和することで圧縮参照リズムパターンを生成し、
前記解析リズムパターンにおける前記複数の係数列の各々について当該係数列の複数の要素を平均または総和することで圧縮解析リズムパターンを生成し、
前記圧縮参照リズムパターンと前記圧縮解析リズムパターンとの類似度を算定し、
前記複数の参照信号から、前記類似度に基づいて、前記1以上の参照信号を選択する
請求項
1の音響解析システム。
【請求項9】
前記1以上の参照信号は、2以上の参照信号であり、
前記2以上の参照信号に関する情報を前記類似度に応じた順番で表示装置に表示させる提示部をさらに具備する
請求項
3から請求項
8の何れかの音響解析システム。
【請求項10】
前記第2音響信号を時間軸上で区分した複数の単位期間の各々について、
前記解析部は、前記解析リズムパターンを算定し、
前記選択部は、前記1以上の参照信号を選択する
請求項
1から請求項
9の何れかの音響解析システム。
【請求項11】
前記
選択部が選択した前記1以上の参照信号を利用者に提示する提示部をさらに具備する
請求項1から請求項
8の何れかの音響解析システム。
【請求項12】
目標音色の指示を受付ける指示受付部と、
相異なる音色に対応する複数の音響成分を含む第1音響信号を取得する取得部と、
相異なる音色に対応する複数の音響成分を含む第1訓練用音響信号と音色を示す訓練用指示データとの組合せと、前記第1訓練用音響信号の前記複数の音響成分のうち前記訓練用指示データが示す音色に対応する音響成分を表す第2訓練用音響信号との関係を学習した第1学習済モデルに、前記第1音響信号と前記目標音色を示す指示データとを入力することで、前記目標音色に対応する音響成分を表す第2音響信号を生成する分離部と、
前記第2音響信号において前記目標音色に対応する音響成分の強度の時間的な変動を表す解析リズムパターンを算定する解析部と、
相異なる演奏音を表す複数の参照信号
の各々における信号強度の時間的な変動を表す参照リズムパターンと前記解析リズムパターンとを対比し、当該対比の結果に基づいて、前記複数の参照信号のうち1以上の参照信号を選択する
選択部と、
利用者による演奏を受付ける演奏装置と、
前記選択された1以上の参照信号が表す演奏音と、前記演奏装置が受付けた演奏に対応する楽音とを再生システムに再生させる再生制御部と
を具備
する電子楽器。
【請求項13】
目標音色の指示を受付け、
相異なる音色に対応する複数の音響成分を含む第1音響信号を取得し、
相異なる音色に対応する複数の音響成分を含む第1訓練用音響信号と音色を示す訓練用指示データとの組合せと、前記第1訓練用音響信号の前記複数の音響成分のうち前記訓練用指示データが示す音色に対応する音響成分を表す第2訓練用音響信号との関係を学習した第1学習済モデルに、前記第1音響信号と前記目標音色を示す指示データとを入力することで、前記目標音色に対応する音響成分を表す第2音響信号を生成し、
前記第2音響信号において前記目標音色に対応する音響成分の強度の時間的な変動を表す解析リズムパターンを算定し、
相異なる演奏音を表す複数の参照信号
の各々における信号強度の時間的な変動を表す参照リズムパターンと前記解析リズムパターンとを対比し、当該対比の結果に基づいて、前記複数の参照信号のうち1以上の参照信号を選択する
コンピュータシステムにより実現される音響解析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音響信号を解析する技術に関する。
【背景技術】
【0002】
楽曲の演奏音を表す音響信号の特徴を解析する技術が従来から提案されている。例えば、特許文献1には、機械学習技術を利用して、楽曲を自動的に作成する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えば、楽曲の作成または楽器の演奏の練習等の場面においては、特定の楽曲において特定の音色で反復されるパターンに類似するパターンを、利用者が所望する場合がある。しかし、利用者が適切なパターンを探すには手間がかかり、音楽的な専門知識も必要となるため、実際には困難である。以上の事情を考慮して、本開示のひとつの態様は、特定の音色で演奏されたパターンを探す利用者の労力を軽減することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために、本開示のひとつの態様に係る音響解析システムは、目標音色の指示を受付ける指示受付部と、相異なる音色に対応する複数の音響成分を含む第1音響信号を取得する取得部と、相異なる演奏音を表す複数の参照信号のうち1以上の参照信号を選択する音響解析部と、を具備し、前記1以上の参照信号における信号強度の時間的な変動を表す参照リズムパターンは、前記複数の音響成分のうち前記目標音色に対応する音響成分の強度の時間的な変動を表す解析リズムパターンに類似する。
【0006】
以上の課題を解決するために、本開示のひとつの態様に係る電子楽器は、目標音色の指示を受付ける指示受付部と、相異なる音色に対応する複数の音響成分を含む第1音響信号を取得する取得部と、相異なる演奏音を表す複数の参照信号のうち1以上の参照信号を選択する音響解析部と、利用者による演奏を受付ける演奏装置と、前記選択された1以上の参照信号が表す演奏音と、前記演奏装置が受付けた演奏に対応する楽音とを再生システムに再生させる再生制御部と、を具備し、前記1以上の参照信号における信号強度の時間的な変動を表す参照リズムパターンは、前記複数の音響成分のうち前記目標音色に対応する音響成分の強度の時間的な変動を表す解析リズムパターンに類似する。
【0007】
以上の課題を解決するために、本開示のひとつの態様に係る音響解析方法は、目標音色の指示を受付け、相異なる音色に対応する複数の音響成分を含む第1音響信号を取得し、相異なる演奏音を表す複数の参照信号のうち1以上の参照信号を選択し、前記1以上の参照信号における信号強度の時間的な変動を表す参照リズムパターンは、前記複数の音響成分のうち前記目標音色に対応する音響成分の強度の時間的な変動を表す解析リズムパターンに類似する。
【図面の簡単な説明】
【0008】
【
図1】実施形態に係る電子楽器の構成を例示するブロック図である。
【
図2】電子楽器の機能的な構成を例示するブロック図である。
【
図3】音響解析部の具体的な構成を例示するブロック図である。
【
図5】解析リズムパターンの解析に関する説明図である。
【
図6】解析リズムパターンを生成する処理の具体的な手順を例示するフローチャートである。
【
図10】音響解析処理の具体的な手順を例示するフローチャートである。
【
図11】情報処理システムの構成を例示するブロック図である。
【
図12】情報処理システムの機能的な構成を例示するブロック図である。
【
図13】情報処理システムの制御装置が機械学習により学習済モデルを確立する処理の手順を説明するフローチャートである。
【
図14】情報処理システムによる基底行列の生成の説明図である。
【
図15】情報処理システムによる参照リズムパターンの生成の説明図である。
【
図16】第2実施形態に係る音響解析部の具体的な構成を例示するブロック図である。
【
図17】第2実施形態における音響解析処理の具体的な手順を例示するフローチャートである。
【
図19】第4実施形態における演奏システムの構成を例示するブロック図である。
【
図21】学習済モデルの具体的な構成を例示するブロック図である。
【
図22】第5実施形態における音響解析処理の具体的な手順を例示するフローチャートである。
【
図23】第5実施形態における情報処理システムの機能的な構成を例示するブロック図である。
【
図24】第6実施形態に係る演奏システムの構成を例示するブロック図である。
【発明を実施するための形態】
【0009】
A:第1実施形態
図1は、本開示の実施形態に係る電子楽器10の構成を例示するブロック図である。電子楽器10は、利用者による演奏に応じた楽音を再生する機能と、特定の楽曲の演奏音を表す音響信号S1を解析する機能とを実現する音響解析システムである。
【0010】
電子楽器10は、制御装置11と記憶装置12と通信装置13と操作装置14と演奏装置15と音源装置16と放音装置17と表示装置19とを具備する。なお、電子楽器10は、単体の装置として実現されるほか、相互に別体で構成された複数の装置としても実現される。
【0011】
制御装置11は、電子楽器10の各要素を制御する単数または複数のプロセッサで構成される。制御装置11は、例えば、CPU(Central Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより構成される。
【0012】
記憶装置12は、制御装置11が実行するプログラムと、制御装置11が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置12は、例えば、磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。なお、電子楽器10に対して着脱される可搬型の記録媒体、または、例えばインターネット等の通信網90を介して制御装置11が書込または読出を実行可能な記録媒体(例えばクラウドストレージ)を、記憶装置12として利用してもよい。
【0013】
記憶装置12は、電子楽器10による解析対象である音響信号S1を記憶する。音響信号S1は、相異なる楽器が発音する楽音の複数の音響成分を含む信号である。なお、音響信号S1は、歌唱者が歌唱により発音する音声の音響成分を含んでもよい。音響信号S1は、例えば、音楽配信装置(図示略)から電子楽器10に配信された音楽ファイルとして記憶装置12に記憶される。音響信号S1は、「第1音響信号」の一例である。また、例えば光ディスク等の記録媒体から音響信号S1を読出す再生装置が電子楽器10に音響信号S1を供給してもよい。
【0014】
通信装置13は、通信網90を介して他の装置と通信する。例えば、通信装置13は、後述する情報処理システム40と通信する。なお、通信装置13と通信網90との間の通信回線における無線区間の有無は不問である。また、電子楽器10とは別体の通信装置13としては、例えば、スマートフォンまたはタブレット端末等の情報端末が例示される。
【0015】
操作装置14は、利用者からの指示を受付ける入力機器である。操作装置14は、例えば、利用者が操作する複数の操作子、または、利用者による接触を検知するタッチパネルである。利用者は、操作装置14を操作することで、複数種の楽器のうち所望の楽器(以下、「目標楽器」という)を電子楽器10に指示することが可能である。楽音の音色は楽器の種類毎に相違するから、利用者による楽器の指示は「音色の指示」の一例である。また、目標楽器は、「目標音色」の一例である。
【0016】
演奏装置15は、利用者による演奏を受付ける入力機器である。具体的には、演奏装置15は、相異なる音高に対応する複数の鍵151が配列された鍵盤である。利用者は、所望の鍵151を順次に操作することで楽曲を演奏する。すなわち、電子楽器10は、電子鍵盤楽器である。
【0017】
音源装置16は、演奏装置15に対する演奏に応じた音響信号を生成する。具体的には、音源装置16は、演奏装置15の複数の鍵151のうち利用者が押鍵した鍵151に対応する音色を表す音響信号を生成する。なお、記憶装置12に記憶されたプログラムを実行することで、制御装置11が音源装置16の機能を実現してもよい。すなわち、音源装置16は、省略されてもよい。
【0018】
放音装置17は、音源装置16により生成される音響信号が表す楽音を放音する。放音装置17は、例えばスピーカまたはヘッドホンである。本実施形態における音源装置16および放音装置17は、利用者による演奏に応じた楽音を再生する再生システム18として機能する。表示装置19は、制御装置11による制御のもとで画像を表示する。表示装置19は、例えば液晶表示パネルである。
【0019】
図2は、電子楽器10の機能的な構成を例示するブロック図である。電子楽器10の制御装置11は、記憶装置12に記憶されたプログラムを実行することで、複数の機能(取得部111、指示受付部112、音響解析部113、提示部114および再生制御部115)を実現する。なお、相互に別体で構成された複数の装置により制御装置11の機能を実現してもよいし、制御装置11の機能の一部または全部を専用の電子回路により実現してもよい。
【0020】
取得部111は、音響信号S1を取得する。具体的には、取得部111は、記憶装置12から音響信号S1の各サンプルを順次に読み出す。なお、取得部111は、電子楽器10が通信可能な外部装置から音響信号S1を取得してもよい。
【0021】
指示受付部112は、操作装置14に対する利用者からの指示を受付ける。具体的には、指示受付部112は、目標楽器の指示を利用者から受付け、当該目標楽器を示す指示データDを生成する。
【0022】
図3は、音響解析部113の機能的な構成を例示するブロック図である。音響解析部113は、分離部1131と解析部1132と選択部1133とを具備する。
【0023】
図4は、分離部1131の説明図である。分離部1131は、音響信号S1に対する音源分離により音響信号S2を生成する。具体的には、分離部1131は、音響信号S1の相異なる楽器に対応する複数の音響成分から、利用者により指示された目標楽器に対応する音響成分を表す音響信号S2を分離する。すなわち、音響信号S2は、音響信号S1の複数の音響成分のうち目標楽器の音響成分を目標楽器以外の音響成分に対して相対的に強調した信号である。音響信号S2は、「第2音響信号」の一例である。
【0024】
分離部1131による音響信号S2の生成には、学習済モデルMが利用される。具体的には、分離部1131は、音響信号S1と指示データDとの組合せである入力データXを学習済モデルMに入力することで、当該学習済モデルMから音響信号S2を出力する。学習済モデルMは、音響信号S1と指示データDとの組合せと、音響信号S2との関係を機械学習により学習したモデルである。
【0025】
学習済モデルMは、例えば深層ニューラルネットワーク(DNN:Deep Neural Network)で構成される。学習済モデルMとしては、例えば、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)、または、畳込ニューラルネットワーク(CNN:Convolutional Neural Network)等の任意の形式のニューラルネットワークが利用される。また、学習済モデルMは、複数種の深層ニューラルネットワークの組合せで学習済モデルMが構成されてもよい。さらに、学習済モデルMには、長短期記憶(LSTM:Long Short-Term Memory)等の付加的な要素が搭載されてもよい。
【0026】
学習済モデルMは、音響信号S1と指示データDとの組合せである入力データXから音響信号S2を生成する演算を制御装置11に実行させるプログラムと、当該演算に適用される複数の変数(例えば加重値およびバイアス)との組合せで実現される。学習済モデルMを実現するプログラムおよび複数の変数は、記憶装置12に記憶される。学習済モデルMを規定する複数の変数の各々の数値は、機械学習により予め設定される。
【0027】
図3の解析部1132は、音響信号S2の解析により解析リズムパターンYを生成する。
図5は、解析リズムパターンYの解析に関する説明図である。
図5における記号fは周波数を意味し、記号tは時間を意味する。解析部1132は、音響信号S2を時間軸上で区分した複数の期間(以下、単位期間という)Tの各々について解析リズムパターンYを生成する。単位期間Tは、例えば楽曲内の小節の所定個に相当する時間長(例えば1小節、4小節または8小節)の期間である。
【0028】
解析リズムパターンYは、相異なる音色に対応するM個の係数列y1~yMで構成される。M種類の音色のうち第m番目(m=1~M)の音色に対応する係数列ymは、音響信号S2における当該音色の音響成分に関する信号強度(例えば振幅またはパワー)の時間的な変動を表す非負の数値列である。なお、例えば楽器の種類毎および楽音の音高毎に音色は相違する。したがって、係数列ymは、楽器と音高との組合せに対応する音響成分に関する強度の時間的な変動とも換言される。
【0029】
解析部1132は、既知の基底行列Bを利用した非負値行列因子分解(NMF:Non-negative Matrix Factorization)により音響信号S2から解析リズムパターンYを生成する。基底行列Bは、相異なる楽器が発音する楽音の音色に対応するM個の周波数特性b1~bMを含む非負値行列である。第m番目の楽器の音響成分に対応する周波数特性bmは、周波数軸上における当該音響成分の強度の系列(基底ベクトル)である。具体的には、周波数特性bmは、例えば振幅スペクトルまたはパワースペクトルである。機械学習により事前に生成された基底行列Bが記憶装置12に記憶される。
【0030】
以上の説明から理解される通り、解析リズムパターンYは、基底行列Bに対応する非負値の係数行列(アクティベーション行列)である。すなわち、解析リズムパターンYにおける各係数列ymは、基底行列B内の周波数特性bmに対する加重値(活性度)の時間変動である。各係数列ymは、音響信号S2における第m番目の音色に関するリズムパターンとも換言される。
【0031】
図6は、解析部1132が解析リズムパターンYを生成する処理の具体的な手順を例示するフローチャートである。音響信号S2の単位期間T毎に
図6の処理が実行される。
【0032】
解析部1132は、音響信号S2の単位期間Tについて観測行列Oを生成する(Sa1)。観測行列Oは、
図5に示すように、音響信号S2の周波数特性の時系列を表す非負値行列である。具体的には、単位期間T内における振幅スペクトルまたはパワースペクトルの時系列(スペクトログラム)が観測行列Oとして生成される。
【0033】
解析部1132は、記憶装置12に記憶された基底行列Bを利用した非負値行列因子分解により観測行列Oから解析リズムパターンYを算定する(Sa2)。具体的には、解析部1132は、基底行列Bと解析リズムパターンYとの積BYが観測行列Oに近似(理想的には一致)するように解析リズムパターンYを算定する。
【0034】
図7は、
図3に例示された選択部1133の動作の説明図である。記憶装置12には、相異なる演奏音を表すN個の参照信号R1~RNと、相異なる参照信号Rn(n=1~N)に対応するN個の参照リズムパターンZ1~ZNとが記憶される。各参照リズムパターンZnは、特定の楽器が発音する楽音の相異なる音色に対応するM個の係数列z1~zMで構成される。例えば、参照リズムパターンZnの係数列zmは、第n番目の楽器における第m番目のリズムパターンである。
【0035】
N個の参照信号R1~RNの各々は、相異なる楽曲の一部の演奏音を表す。具体的には、各参照信号Rnは、楽曲のうち反復的な演奏に好適な部分(すなわちループ素材)を表す。本実施形態では、N個の参照信号R1~RNの各々から参照リズムパターンZnが生成される。
【0036】
選択部1133は、N個の参照リズムパターンZ1~ZNの各々と解析リズムパターンYとを対比する。具体的には、選択部1133は、各参照リズムパターンZnと解析リズムパターンYとを対比することで、類似度Qnを算定する。以下の説明では、参照リズムパターンZnと解析リズムパターンYとの相関の指標である相関係数を類似度Qnとして例示する。したがって、参照リズムパターンZnと解析リズムパターンYとが相互に類似するほど、類似度Qnは大きい数値となる。すなわち、類似度Qnは、参照リズムパターンZnと解析リズムパターンYとが類似する度合いの指標である。
【0037】
選択部1133は、算定した類似度Qnに基づいて、N個の参照信号R1~RNのうち1個以上の参照信号Rnを選択し、選択した参照信号Rnを提示部114および再生制御部115に出力する。具体的には、選択部1133は、類似度Qnが所定の閾値を上回る複数の参照信号Rn、または、類似度Qnの降順で上位に位置する所定個の参照信号Rnを選択する。
【0038】
以上の説明から理解される通り、音響解析部113(選択部1133)は、N個の参照信号R1~RNのうち、参照リズムパターンZnが解析リズムパターンYに類似する複数の参照信号Rnを選択する。なお、選択部1133は、音響信号S1の単位期間T毎に所定個の参照信号Rnを選択してもよいし、音響信号S1の全部の単位期間Tにわたる類似度の平均値の降順で所定個の参照信号Rnを選択してもよい。
【0039】
図2の提示部114は、音響解析部113による解析の結果を表示装置19に表示させる。具体的には、提示部114は、選択部1133が選択した複数の参照信号Rnを利用者に提示する。第1実施形態の提示部114は、
図8または
図9の解析画像を表示装置19に表示させる。解析画像は、参照信号Rnをランキング形式で表示する画像である。
【0040】
図8の解析画像は、目標楽器である「Drum」の解析リズムパターンYに類似する参照リズムパターンZnに対応する各参照信号Rnを表す画像である。同様に、
図9の解析画像は、目標楽器である「Guitar」の解析リズムパターンYに類似する参照リズムパターンZnに対応する各参照信号Rnを表す画像である。
【0041】
利用者は、
図8または
図9の解析画像を参照することで、複数の参照信号Rnのうち目標楽器の解析リズムパターンYに類似する参照リズムパターンZnに対応する参照信号Rnを視覚的に把握することができる。例えば、
図8の解析画像を参照することで、利用者は、目標楽器「Drum」の解析リズムパターンYに最も類似する参照リズムパターンZnに対応する参照信号Rnを確認することができる。なお、
図8および
図9の「DrumPattern01」等の文字列は参照信号Rnのラベル名であり、当該文字列の左側に付された「1」等の数字は類似度Qnに応じた順位を表す。したがって、
図8および
図9では、「DrumPattern01」および「GuitarRiff01」が最も類似度Qnの大きい参照信号Rnである。
【0042】
図2の再生制御部115は、再生システム18による楽音の再生を制御する。具体的には、再生制御部115は、演奏装置15に対する操作に応じて再生システム18(具体的には音源装置16)に発音を指示する。また、再生制御部115は、選択部1133が選択した複数の参照信号Rnのうち利用者が解析画像から選択した1個の参照信号Rnが表す演奏音を、再生システム18に再生させる。
【0043】
図10は、制御装置11が実行する処理(音響解析処理)の具体的な手順を例示するフローチャートである。例えば電子楽器10に対する利用者からの指示を契機として音響解析処理が実行される。
【0044】
音響解析処理を開始すると、取得部111は、音響信号S1を取得する(Sb1)。指示受付部112は、利用者による目標楽器の指定を待機する(Sb2:NO)。指示受付部112が目標楽器の指定を受付けると(Sb2:YES)、分離部1131は、音響信号S1から音響信号S2を分離する(Sb3)。
【0045】
解析部1132は、音響信号S2を時間軸上で区分した複数の単位期間Tの各々について観測行列O(
図5参照)を生成する(Sb4)。解析部1132は、記憶装置12に記憶された基底行列Bを利用した非負値行列因子分解により、各観測行列Oから解析リズムパターンYを算定する(Sb5)。
【0046】
選択部1133は、N個の参照信号R1~RNの各々に関する参照リズムパターンZnと解析リズムパターンYとの類似度Qnを算定する(Sb6)。選択部1133は、N個の参照信号R1~RNのうち参照リズムパターンZnが解析リズムパターンYと類似する複数の参照信号Rnを選択する(Sb7)。
【0047】
提示部114は、選択部1133が選択した各参照信号Rnを識別するラベル名を、類似度Qnの降順で表示装置19に表示させる(Sb8)。再生制御部115は、利用者による参照信号Rnの選択を待機する(Sb9:NO)。表示装置19に表示された複数の参照信号Rnの何れかを利用者が選択すると(Sb9:YES)、再生制御部115は、当該参照信号Rnを再生システム18に供給することで、参照信号Rnが表す演奏音を再生させる(Sb10)。
【0048】
図1の情報処理システム40は、分離部1131が音響信号S2の生成に利用する学習済モデルMを生成する。
図11は、情報処理システム40の構成を例示するブロック図である。情報処理システム40は、制御装置41と記憶装置42と通信装置43とを具備する。なお、情報処理システム40は、単体の装置として実現されるほか、相互に別体で構成された複数の装置として実現される。
【0049】
制御装置41は、情報処理システム40の各要素を制御する単数または複数のプロセッサで構成される。制御装置41は、CPU、SPU、DSP、FPGAまたはASIC等の1種類以上のプロセッサにより構成される。通信装置43は、通信網90を介して電子楽器10と通信する。
【0050】
記憶装置42は、制御装置41が実行するプログラムと制御装置41が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置42は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。また、情報処理システム40に対して着脱される可搬型の記録媒体または通信網90を介して制御装置41が書込または読出を実行可能な記録媒体(例えばクラウドストレージ)を、記憶装置42として利用してもよい。
【0051】
図12は、情報処理システム40の機能的な構成を例示するブロック図である。制御装置41は、記憶装置42に記憶されたプログラムを実行することで、学習済モデルMを機械学習により確立するための複数の要素(訓練データ取得部51および学習処理部52)として機能する。
【0052】
学習処理部52は、複数の訓練データTDを利用した教師あり機械学習により学習済モデルMを確立する。訓練データ取得部51は、複数の訓練データTDを取得する。具体的には、訓練データ取得部51は、記憶装置42に保存された複数の訓練データTDを記憶装置42から取得する。
【0053】
複数の訓練データTDの各々は、
図12に示すように、訓練用の入力データXtと訓練用の音響信号S2tとの組合せで構成される。訓練用の入力データXtは、訓練用の音響信号S1tと訓練用の指示データDtとが組み合わされたデータである。訓練用の音響信号S1tは、相異なる楽器に対応する複数の音響成分を含む既知の信号である。訓練用の音響信号S1tは、「第1訓練用音響信号」の一例である。
【0054】
訓練用の指示データDtは、複数種の楽器の何れかを指定するデータである。訓練用の指示データDtは、「訓練用指示データ」の一例である。訓練用の音響信号S2tは、訓練用の音響信号S1tの複数の音響成分のうち訓練用の指示データDtが示す楽器に対応する音響成分を表す既知の信号である。訓練用の音響信号S2tは、「第2訓練用音響信号」の一例である。
【0055】
図13は、制御装置41が機械学習により学習済モデルMを確立する処理(以下、学習処理という)Scの具体的な手順を説明するフローチャートである。学習処理Scは、学習済モデルMを生成する方法とも表現される。
【0056】
学習処理Scが開始されると、訓練データ取得部51は、記憶装置42に記憶された複数の訓練データTDの何れか(以下、「選択訓練データTD」という)を取得する(Sc1)。学習処理部52は、
図12に示すように、選択訓練データTDの入力データXtを初期的または暫定的なモデル(以下、「暫定モデル」という)M0に入力し(Sc2)、当該入力に対して暫定モデルM0が出力する音響信号S2を取得する(Sc3)。
【0057】
学習処理部52は、暫定モデルM0が生成する音響信号S2と選択訓練データTDの音響信号S2tとの誤差を表す損失関数を算定する(Sc4)。学習処理部52は、損失関数が低減(理想的には最小化)されるように、暫定モデルM0の複数の変数を更新する(Sc5)。損失関数に応じた複数の変数の更新には、例えば誤差逆伝播法が利用される。
【0058】
学習処理部52は、所定の終了条件が成立したか否かを判定する(Sc6)。終了条件とは、例えば、損失関数が所定の閾値を下回ること、または、損失関数の変化量が所定の閾値を下回ることである。終了条件が成立しない場合(Sc6:NO)、訓練データ取得部51は、未選択の選択訓練データTDを新たな選択訓練データTDとして選択する(Sc1)。すなわち、学習処理部52は、終了条件の成立まで、暫定モデルM0の複数の変数を更新する処理を反復する(Sc1~Sc5)。終了条件が成立した場合(Sc6:YES)、学習処理部52は、暫定モデルM0を規定する複数の変数の更新(Sc1~Sc5)を終了する。終了条件が成立した時点における暫定モデルM0が、学習済モデルMとして確定される。すなわち、学習済モデルMの複数の変数は、学習処理Scの終了の時点における数値に確定される。
【0059】
以上の説明から理解される通り、学習済モデルMは、複数の選択訓練データTDにおける入力データXtと音響信号S2tとの間に潜在する関係のもとで、未知の入力データXに対して統計的に妥当な音響信号S2を出力する。すなわち、学習済モデルMは、前述の通り、訓練用の入力データXtと訓練用の音響信号S2tとの関係を、機械学習により学習したモデルである。
【0060】
情報処理システム40は、以上の手順で確立された学習済モデルMを通信装置43から電子楽器10に送信する(Sc7)。具体的には、学習処理部52は、学習済モデルMの複数の変数を通信装置43から電子楽器10に送信する。電子楽器10の制御装置11は、情報処理システム40から受信した学習済モデルMを記憶装置12に保存する。具体的には、学習済モデルMを規定する複数の変数が記憶装置12に記憶される。
【0061】
また、
図1の情報処理システム40は、解析部1132および選択部1133により使用される基底行列Bと参照リズムパターンZnとを生成する。
図14は、情報処理システム40による基底行列Bの生成の説明図である。
図15は、情報処理システム40による参照リズムパターンZnの生成の説明図である。基底行列Bおよび参照リズムパターンZnは、例えば、以下の手順で生成される。
【0062】
制御装置41は、
図14に示すように、記憶装置42に記憶されているN個の参照信号R1~RNを読み出す。制御装置41は、各参照信号Rnから観測行列Onを生成する。観測行列Onは、前述の観測行列Oと同様に、参照信号Rnの周波数特性の時系列(スペクトログラム)を表す非負値行列である。
【0063】
次に、制御装置41は、N個の観測行列O1~ONを時間軸上で連結することで観測行列OTを生成する。制御装置41は、観測行列OTに対する非負値行列因子分解により観測行列OTから基底行列Bを生成する。以上の説明から理解される通り、基底行列Bは、N個の参照信号R1~RNに含まれる全種類の音色に対応する周波数特性bmを含む。
【0064】
続いて、制御装置41は、
図15に示すように、生成済の基底行列Bを利用した非負値行列因子分解により各観測行列Onから参照リズムパターンZnを算定する。具体的には、制御装置41は、基底行列Bと参照リズムパターンZnとの積BZnが観測行列Onに近似(理想的には一致)するように参照リズムパターンZnを算定する。情報処理システム40は、以上の手順で生成された基底行列BおよびN個の参照リズムパターンZ1~ZNを通信装置43から電子楽器10に送信する。電子楽器10の制御装置11は、情報処理システム40から受信した基底行列BおよびN個の参照リズムパターンZ1~ZNを記憶装置12に記憶する。
【0065】
以上に説明した通り、第1実施形態においては、複数の参照信号Rnのうち、利用者から指示された楽器(目標楽器)の解析リズムパターンYに対して参照リズムパターンZnが類似する参照信号Rnが選択される。これにより、利用者は、自身が指定した楽器の望むリズムパターンを探す手間が軽減し、例えば、楽曲作成または演奏練習の効率性が向上する。
【0066】
また、第1実施形態においては、N個の参照信号R1~RNの各々の参照リズムパターンZnと利用者から指示された楽器の解析リズムパターンYとの類似度Qnに応じて複数の参照信号Rnが適切に選択される。
【0067】
さらに、第1実施形態においては、複数の参照信号Rnについて参照リズムパターンZnが目標楽器の解析リズムパターンYに類似する順序を把握することができる。これにより、利用者は、例えば、当該順序に応じて楽曲作成または演奏練習をすることができる。
【0068】
加えて、第1実施形態においては、利用者が、
図8または
図9の解析画像を参照することで、複数の参照信号Rnのうち目標楽器の解析リズムパターンYに類似する参照リズムパターンZnに対応する参照信号Rnを視覚的に把握することができる。
【0069】
B:第2実施形態
次に、第2実施形態について説明する。なお、以下に例示する各形態において機能および構成が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
【0070】
図16は、第2実施形態に係る音響解析部113の具体的な構成を例示するブロック図である。第2実施形態の音響解析部113は、第1実施形態と同様の要素(分離部1131、解析部1132および選択部1133)から分離部1131が除かれた構成である。具体的には、第1実施形態においては、解析部1132とは別個の分離部1131により目標楽器の音響成分が強調された音響信号S2が生成されるのに対し、第2実施形態においては、解析部1132が解析リズムパターンYを生成する過程において目標楽器の音響成分が強調される。
【0071】
図17は、第2実施形態の制御装置11が実行する処理(音響解析処理)の具体的な手順を例示するフローチャートである。
【0072】
音響解析処理を開始すると、取得部111は、音響信号S1を取得する(Sd1)。解析部1132は、音響信号S1を時間軸上で区分した複数の単位期間Tの各々について観測行列Oを生成する(Sd2)。第1実施形態の観測行列Oが音源分離後の音響信号S2に対応する非負値行列であるのに対し、第2実施形態の観測行列Oは、音響信号S1の周波数特性の時系列を表す非負値行列である。具体的には、単位期間Tにおける振幅スペクトルまたはパワースペクトルの時系列(スペクトログラム)が当該観測行列Oとして生成される。
【0073】
次に、解析部1132は、基底行列Bを利用した非負値行列因子分解により観測行列Oから解析リズムパターンYを算定する(Sd3)。基底行列Bには、楽器名のラベルが付与されている。具体的には、基底行列Bを構成するM個の周波数特性b1~bMの各々について楽器名のラベルが対応づけられている。すなわち、M個の周波数特性b1~bMのうち第m番目の周波数特性がどの楽器の音響成分の強度の系列なのかは既知である。
【0074】
指示受付部112は、利用者による目標楽器の指定を待機する(Sd4:NO)。指示受付部112が目標楽器の指定を受付けると(Sd4:YES)、解析部1132は、解析リズムパターンYを構成するM個の係数列y1~yMのうち目標楽器以外の楽器に対応する1個以上の係数列ymの各要素を0に設定する(Sd5)。これにより、当該解析リズムパターンYは、目標楽器以外の楽器に対応する係数列ymの各要素が0である非負値の係数行列となる。
【0075】
以上の処理を実行すると、制御装置11は、第1実施形態と同様に、ステップSb6からステップSb10の処理を実行する。したがって、第2実施形態においても第1実施形態と同様の効果が実現される。
【0076】
C:第3実施形態
図18は、第3実施形態の選択部1133の説明図である。選択部1133は、解析リズムパターンYを時間軸上で圧縮することで圧縮解析リズムパターンY'を生成する。具体的には、選択部1133は、解析リズムパターンYを構成するM個の係数列y1~yMの各々について、係数列ymの複数の要素の平均または総和を算出することにより圧縮解析リズムパターンY'を生成する。したがって、圧縮解析リズムパターンY'は、相異なる音色に対応するM個の係数y'1~y'Mで構成される。すなわち、係数y'mは、係数列ymの複数の要素の平均または総和である。M種類の音色のうち第m番目の音色に対応する係数y'mは、当該音色の音響成分に関する強度を表す非負の数値である。
【0077】
同様に、選択部1133は、N個の参照リズムパターンZ1~ZNの各々から圧縮参照リズムパターンZ'nを生成する。N個の圧縮参照リズムパターンZ'1~Z'Nは、記憶装置12に記憶される。圧縮参照リズムパターンZ'nは、参照リズムパターンZnが時間軸上で圧縮されることにより生成される。具体的には、選択部1133は、参照リズムパターンZnを構成するM個の係数列z1~zMの各々について、係数列zmの各要素の平均または総和を算出することにより圧縮参照リズムパターンZ'nを生成する。したがって、圧縮参照リズムパターンZ'nは、特定の楽器が発音する楽音の相異なる音色に対応するM個の係数z'1~z'Mで構成される。すなわち、係数z'mは、係数列zmの複数の要素の平均または総和である。M種類の音色のうち第m番目の音色に対応する係数z'mは、当該音色の音響成分に関する強度を表す非負の数値である。
【0078】
選択部1133は、N個の圧縮参照リズムパターンZ'1~Z'Nの各々と圧縮解析リズムパターンY'とを対比することで、類似度Qnを算定する。以上の説明から理解される通り、前述の形態における選択部1133は、参照リズムパターンZnと解析リズムパターンYとを対比することで類似度Qnを算出するのに対し、第3実施形態の選択部1133は、参照リズムパターンZnを時間軸の方向に圧縮した圧縮参照リズムパターンZ'nと、解析リズムパターンYを時間軸の方向に圧縮した圧縮解析リズムパターンY'とを対比することで類似度Qnを算出する。
【0079】
以上に説明した第3実施形態においても第1実施形態と同様の効果が実現される。なお、第1実施形態および第2実施形態の構成は、第3実施形態にも同様に適用される。
【0080】
D:第4実施形態
図19は、第4実施形態に係る演奏システム100の構成を例示するブロック図である。演奏システム100は、電子楽器10と情報装置80とを具備する。情報装置80は、例えばスマートフォンまたはタブレット端末等の装置である。情報装置80は、例えば有線または無線により電子楽器10に接続される。
【0081】
情報装置80は、制御装置81と記憶装置82と表示装置83と操作装置84とを具備するコンピュータシステムで実現される。制御装置81は、情報装置80の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置81は、CPU、SPU、DSP、FPGA、またはASIC等の1種類以上のプロセッサにより構成される。
【0082】
記憶装置82は、制御装置81が実行するプログラムと制御装置81が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置82は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。なお、情報装置80に対して着脱される可搬型の記録媒体、または例えば通信網90を介して制御装置81が書込または読出を実行可能な記録媒体(例えばクラウドストレージ)を、記憶装置82として利用してもよい。
【0083】
表示装置83は、制御装置81による制御のもとで画像を表示する。操作装置84は、利用者からの指示を受付ける入力機器である。具体的には、操作装置84は、目標楽器の指示を利用者から受付ける。
【0084】
制御装置81は、記憶装置82に記憶されたプログラムを実行することで、第1実施形態における電子楽器10の制御装置11と同様の機能(取得部111,指示受付部112,音響解析部113,提示部114および再生制御部115)を実現する。音響解析部113が使用する、参照信号Rnと基底行列Bと学習済モデルMとは、記憶装置82に記憶される。また、記憶装置82には音響信号S1も記憶される。他方、第4実施形態の電子楽器10においては、第1実施形態で例示した機能(取得部111,指示受付部112,音響解析部113,提示部114および再生制御部115)は省略されてもよい。なお、電子楽器10と情報装置80との間における機能の分担は以上の例示から適宜に変更される。例えば、取得部111,指示受付部112,音響解析部113,提示部114および再生制御部115のうちの一部の機能が情報装置80に搭載され、他の機能が電子楽器10に搭載されてもよい。すなわち、演奏システム100の全体として、以上に例示した複数の機能が実現されればよい。
【0085】
取得部111は、記憶装置82に記憶された音響信号S1を取得する。指示受付部112は、操作装置84に対する利用者からの指示を受付ける。音響解析部113は、第1実施形態と同様に、音響信号S1と指示データDとから複数の参照信号Rnを特定する。提示部114は、音響解析部113が選択した複数の参照信号Rnを表示装置83に表示させる。再生制御部115は、複数の参照信号Rnのうち利用者が選択した1個の参照信号Rnを電子楽器10に供給することで、再生システム18に演奏音を再生させる。なお、提示部114および再生制御部115は電子楽器10に搭載されてもよい。例えば、提示部114は、第1実施形態と同様に表示装置19に解析画像を表示させてもよい。
【0086】
以上の説明から理解される通り、第4実施形態においても第1実施形態と同様の効果が実現される。なお、第2実施形態または第3実施形態の構成は、第4実施形態にも同様に適用される。
【0087】
第4実施形態においては、例えば、情報処理システム40により構築された学習済モデルMが情報装置80に転送され、当該学習済モデルMが記憶装置82に記憶される。以上の構成において、情報装置80の利用者の正当性(事前に登録された正規の利用者であること)を認証する認証処理部(図示略)が情報処理システム40に搭載されてもよい。利用者の正当性が認証処理部により認証された場合に、学習済モデルMが情報装置80に自動的に(すなわち利用者からの指示を必要とせずに)転送される。
【0088】
E:第5実施形態
図20は、選択部1133の説明図である。第5実施形態の選択部1133は、解析リズムパターンYと参照リズムパターンZnとの組合せである入力データXaが入力される。選択部1133は、当該入力データXaに対応する類似度Qnを出力する。
【0089】
第5実施形態の選択部1133による類似度Qnの生成には、学習済モデルMaが利用される。具体的には、選択部1133は、入力データXaを学習済モデルMaに入力することで、当該学習済モデルMaから類似度Qnを出力する。学習済モデルMaは、解析リズムパターンYと参照リズムパターンZnとの組合せと、類似度Qnとの関係を機械学習により学習したモデルである。
【0090】
学習済モデルMaは、例えば、再帰型ニューラルネットワークまたは畳込ニューラルネットワーク等の任意の形式の深層ニューラルネットワークで構成される。例えば、学習済モデルMaは、再帰型ニューラルネットワークと畳込ニューラルネットワークとの組合せで構成される。
【0091】
学習済モデルMaは、入力データXaから類似度Qnを生成する演算を制御装置11に実行させるプログラムと、当該演算に適用される複数の変数(例えば加重値およびバイアス)との組合せで実現される。学習済モデルMaを実現するプログラムおよび複数の変数は、記憶装置12に記憶される。学習済モデルMaを規定する複数の変数の各々の数値は、機械学習により予め設定される。
【0092】
図21は、学習済モデルMaの具体的な構成を例示するブロック図である。学習済モデルMaは、第1モデルMa1と第2モデルMa2とを含む。入力データXaは、第1モデルMa1に入力される。
【0093】
第1モデルMa1は、特徴データXafを入力データXaから生成する。第1モデルMa1は、入力データXaと特徴データXafとの関係を学習した学習済モデルである。特徴データXafは、解析リズムパターンYと参照リズムパターンZnとの相違に応じた特徴を表すデータである。第1モデルMa1は、例えば、畳込ニューラルネットワークで構成される。
【0094】
第2モデルMa2は、類似度Qnを特徴データXafから生成する。第2モデルMa2は、特徴データXafと類似度Qnとの関係を学習した学習済モデルである。第2モデルMa2は、例えば、再帰型ニューラルネットワークで構成される。なお、第2モデルMa2には、長短期記憶(LSTM:Long Short-Term Memory)またはゲート付き回帰型ユニット(GRU:Gated Recurrent Unit)等の付加的な要素が搭載されてもよい。
【0095】
図22は、第5実施形態の制御装置11が実行する処理(音響解析処理)の具体的な手順を例示するフローチャートである。第5実施形態においては、
図10に例示した第1実施形態の処理のうちステップSb6がステップSe1およびステップSe2に置換される。ステップSb1からステップSb5までの処理の内容と、ステップSb7からステップSb10までの処理の内容とは、第1実施形態と同様である。
【0096】
選択部1133は、N個の参照信号R1~RNの各々に関する参照リズムパターンZnと解析リズムパターンYとを組み合わせて入力データXa1~XaNを生成する。選択部1133は、各入力データXan(n=1~N)を学習済モデルMaに入力し(Se1)、当該入力データXa1~XaNの各々に対応する類似度Qnを出力する(Se2)。第5実施形態においても第1実施形態と同様の効果が実現される。
【0097】
以上に例示した学習済モデルMaは、情報処理システム40により生成される。
図23は、情報処理システム40のうち学習済モデルMaの生成に関する機能的な構成を例示するブロック図である。制御装置41は、記憶装置42に記憶されたプログラムを実行することで、学習済モデルMaを機械学習により確立するための複数の要素(訓練データ取得部51aおよび学習処理部52a)として機能する。
【0098】
学習処理部52aは、複数の訓練データTDaを利用した教師あり機械学習により学習済モデルMaを確立する。訓練データ取得部51aは、複数の訓練データTDaを取得する。具体的には、訓練データ取得部51aは、記憶装置42に保存された複数の訓練データTDaを記憶装置42から取得する。
【0099】
複数の訓練データTDaの各々は、
図23に示すように、訓練用の入力データXatと訓練用の類似度Qntとの組合せで構成される。訓練用の入力データXatは、訓練用の解析リズムパターンYtと訓練用の参照リズムパターンZntとが組み合わされたデータである。訓練用の解析リズムパターンYtは、相異なる音色に対応する複数の係数列で構成される既知の係数行列である。参照リズムパターンZntは「訓練用参照リズムパターン」の一例であり、解析リズムパターンYtは「訓練用解析リズムパターン」の一例である。
【0100】
訓練用の参照リズムパターンZntは、特定の楽器が発音する楽音の相異なる音色に対応する複数の係数列で構成される既知の係数行列である。訓練用の類似度Qntは、訓練用の入力データXatに予め対応づけられている数値である。具体的には、訓練用の入力データXatには、当該入力データXatにおける解析リズムパターンYtと訓練用の参照リズムパターンZntとの類似度Qntが対応付けられる。類似度Qntは「訓練用類似度」の一例である。
【0101】
学習処理部52aは、複数の訓練データTDaの各々における入力データXatを暫定的なモデルに入力し、当該モデルが出力する類似度Qと当該訓練データTDaの類似度Qntとの損失関数が低減(理想的には最小化)されるように、暫定的なモデルの複数の変数を更新する。すなわち、学習済モデルMaは、入力データXatと類似度Qntとの関係を学習する。したがって、学習済モデルMaは、訓練用の複数の入力データXatにおける入力データXatと類似度Qとの間に潜在する関係のもとで、未知の入力データXanに対して統計的に妥当な類似度Qnを出力する。
【0102】
F:第6実施形態
図24は、第6実施形態に係る演奏システム100の構成を例示するブロック図である。演奏システム100は、第4実施形態と同様に、電子楽器10と情報装置80とを具備する。電子楽器10および情報装置80の構成は、第4実施形態と同様である。
【0103】
情報処理システム40は、相異なる音楽ジャンルに対応する複数の学習済モデルMaを記憶する。各音楽ジャンルに対応する学習済モデルMaを確立するための学習処理において、特定の音楽ジャンルの入力データXatを含む訓練データTDaが利用される。すなわち、複数の訓練データTDaのセットが音楽ジャンル毎に個別に用意され、音楽ジャンル毎の個別の学習処理により学習済モデルMaが確立される。「音楽ジャンル」とは、楽曲を音楽的な観点で分類した区分(種別)を意味する。例えば、ロック、ポップス、ジャズ、トランスまたはヒップホップ等の音楽的な区分が音楽ジャンルの典型例である。
【0104】
情報装置80は、情報処理システム40が保持する複数の学習済モデルMaの何れかを選択的に通信網200を介して取得する。具体的には、情報装置80は、複数の学習済モデル60のうち、特定の音楽ジャンルに対応する1個の学習済モデルMaを情報処理システム40から取得する。例えば、情報装置80は、音響信号S1(音楽ファイル)に含まれるジャンルタグを参照して、当該タグにより示される音楽ジャンルに対応する学習済モデルMaを情報処理システム40から取得する。ジャンルタグとは、MP3ファイルまたはAAC(Advanced Audio Coding)ファイル等の音楽ファイルに付与された、特定の音楽ジャンルを示すタグ情報である。あるいは、情報装置80は、音響信号S1を解析することで楽曲の音楽ジャンルを推定する。音楽ジャンルの推定には、公知の任意の技術が利用される。情報装置80は、当該音楽ジャンルに対応する学習済モデルMaを情報処理システム40から取得する。情報処理システム40から取得した学習済モデルMaは記憶装置82に記憶され、選択部1133が類似度Qnを出力する処理に利用される。
【0105】
以上の説明から理解される通り、本変形例においても第1実施形態から第5実施形態と同様の効果が実現される。また、第6実施形態においては、音楽ジャンル毎に学習済モデルMaが確立されるから、音楽ジャンルに関わらず共通の学習済モデルMaが利用される構成と比較して、精度の高い類似度Qnが得られるという利点もある。
【0106】
なお、以上の説明においては、相異なる音楽ジャンルに対応する複数の学習済モデルMaを情報処理システム40が保持する構成を例示したが、複数の学習済モデルMaを情報装置80が情報処理システム40から取得および保持してもよい。すなわち、情報装置80の記憶装置82に複数の学習済モデルMaが記憶される。音響解析部113は、複数の学習済モデルMaの何れかを選択的に利用して類似度Qnを算定する。
【0107】
G:変形例
以上、本開示の実施形態について説明したが、本開示は上述の実施形態に限定されるものではなく種々の変更を加え得る。前述の態様に付与され得る具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
【0108】
(1)前述の各形態においては、音響信号S1の相異なる楽器に対応する複数の音響成分から、利用者に指示された楽器に対応する音響信号S2を分離したが、当該複数の音響成分のうち歌唱音声の音響成分が分離されてもよい。
【0109】
(2)前述の各形態においては、参照リズムパターンZnと解析リズムパターンYとの相関を類似度Qnとして例示したが、参照リズムパターンZnと解析リズムパターンYとの距離を類似度Qnとして選択部1133が算定してもよい。以上の構成においては、参照リズムパターンZnと解析リズムパターンYとが相互に類似するほど、類似度Qnは小さい値となる。なお、参照リズムパターンZnと解析リズムパターンYとの距離としては、例えば、コサイン距離またはKLダイバージェンス等の距離指標が任意に採用される。
【0110】
(3)前述の各形態においては、選択部1133は、N個の参照信号R1~RNのうち、参照リズムパターンZnが解析リズムパターンYに類似する複数の参照信号Rnを選択したが、選択部1133が1個の参照信号Rnを選択してもよい。
【0111】
(4)前述の各形態においては、参照信号Rnは、典型的には単一の楽器の演奏音を含む部分であるが、相異なる2種類以上の楽器の演奏音を含む部分であってもよい。
【0112】
(5)第2実施形態においては、解析リズムパターンYを構成するM個の係数列y1~yMのうち目標楽器以外の楽器に対応する1個以上の係数列ymの各要素を0に設定したが、当該各要素を0に設定しなくてもよい。
【0113】
(6)前述の各形態においては、情報処理システム40が学習済モデルMを確立したが、情報処理システム40の機能(訓練データ取得部51および学習処理部52)は、第4実施形態の情報装置80に搭載されてもよい。また、前述の形態においては、情報処理システム40が基底行列Bおよび参照リズムパターンZnを生成するが、基底行列Bおよび参照リズムパターンZnを生成する情報処理システム40の機能は、第4実施形態の情報装置80に搭載されてもよい。
【0114】
(7)前述の各形態においては、深層ニューラルネットワークを学習済モデルMとして例示したが、学習済モデルMは深層ニューラルネットワークに限定されない。例えば、HMM(Hidden Markov Model)またはSVM(Support Vector Machine)等の統計的推定モデルを、学習済モデルMとして利用してもよい。また、前述の各形態においては、複数の訓練データTDを利用した教師あり機械学習を学習処理Scとして例示したが、訓練データTDを必要としない教師なし機械学習、または報酬を最大化させる強化学習により、学習済モデルMを確立してもよい。教師なし機械学習としては、例えば公知のクラスタリングを利用した機械学習が例示される。
【0115】
(8)前述の各形態に例示した機能(取得部111,指示受付部112,音響解析部113,提示部114,再生制御部115)は、前述の通り、制御装置(11,81)を構成する単数または複数のプロセッサと、記憶装置(12,82)に記憶されたプログラムとの協働により実現される。以上のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記録媒体が、前述の非一過性の記録媒体に相当する。
【0116】
(9)前述の各形態においては、解析リズムパターンYと参照リズムパターンZnとを対比することで類似度Qnが算定されるが、類似度Qnを算定する方法は、当該例示に限定されない。例えば、選択部1133は、音響信号S2から抽出した特徴量と参照信号Rnから抽出した特徴量との組合せ(以下、「特徴量データ」という)に対応する類似度Qnをテーブルから検索することで、類似度Qnを決定してもよい。当該テーブルには、複数の特徴量データの各々について類似度Qnが登録される。なお、音響信号S2および参照信号Rnの特徴量とは、例えば、演奏音の周波数特性の時系列を表すデータである。例えば、MFCC(Mel-Frequency Cepstrum Coefficient),MSLS(Mel-Scale Log Spectrum)、または定Q変換(CQT:Constant-Q Transform)等の周波数特性の時系列を表すデータが、当該特徴量として例示される。
【0117】
(10)前述の第5実施形態においては、入力データXaから類似度Qnを生成するための学習済モデルMaが深層ニューラルネットワークで構成される形態を例示したが、学習済モデルMaの種類は以上の例示に限定されない。例えば、HMM(Hidden Markov Model)またはSVM(Support Vector Machine)等の統計的推定モデルを、学習済モデルMaとして利用してもよい。学習済モデルMaの具体例は以下の通りである。
【0118】
(10-1)HMM
HMMは、類似度Qnの相異なる数値に対応する複数の潜在状態を相互に連結した統計的推定モデルである。HMMには、音響信号S2から抽出した特徴量と参照信号Rnから抽出した特徴量との組合せである特徴量データが時系列に入力される。特徴量データは、例えば楽曲の1小節に相当する区間内のデータである。
【0119】
選択部1133は、以上に例示したHMMで構成される学習済モデルMaに特徴量データの時系列を入力する。選択部1133は、複数の特徴量データが観測されたという条件のもとで最尤の類似度Qnの時系列を、HMMを利用して推定する。類似度Qnの推定には、例えばビタビアルゴリズム等の動的計画アルゴリズムが利用される。
【0120】
HMMは、類似度Qnを含む複数の訓練データを利用した教師あり機械学習により確立される。機械学習においては、複数の特徴量データの時系列に対して最尤の類似度Qnの時系列が出力されるように、各潜在状態における遷移確率および出力確率が反復的に更新される。
【0121】
(10-2)SVM
類似度Qnが取り得る複数の数値から2個の数値を選択する全通りの組合せの各々についてSVMが用意される。2個の数値の組合せに対応するSVMについては、多次元空間内の超平面が機械学習により確立される。超平面は、2個の数値のうち一方の数値に対応する特徴量データが分布する空間と、他方の数値に対応する特徴量データが分布する空間とを分離する境界面である。本変形例に係る学習済モデルは、相異なる数値の組合せに対応する複数のSVMで構成される(multi-class SVM)。
【0122】
選択部1133は、特徴量データを複数のSVMの各々に入力する。各組合せに対応するSVMは、超平面で分離される2個の空間の何れに特徴量データが存在するかに応じて、当該組合せに係る2種類の数値の何れかを選択する。相異なる組合せに対応する複数のSVMの各々において同様に数値の選択が実行される。選択部1133は、複数のSVMによる選択の回数が最大となる数値を選択し、当該数値を類似度Qnと決定する。
【0123】
以上の例示から理解される通り、本変形例に係る選択部1133は、特徴量データを学習済モデルに入力することで、音響信号S2から抽出された特徴量と参照信号Rnから抽出された特徴量とが類似する度合いの指標である類似度Qnを当該学習済モデルから出力する要素、として機能する。
【0124】
(11)前述の第5実施形態においては、複数の訓練データTDaを利用した教師あり機械学習を学習処理として例示したが、報酬を最大化させる強化学習により、学習済モデルMaを確立してもよい。例えば、学習処理部52aは、各訓練データTDaの入力データXatに対して暫定モデルMa0が出力する類似度Qと当該訓練データTDaの類似度Qntとが一致する場合に報酬関数を「+1」に設定し、両者が一致しない場合に報酬関数を「-1」に設定する。学習処理部52aは、複数の訓練データTDaについて設定された報酬関数の総和が最大化されるように、暫定モデルMa0の複数の変数を反復的に更新することで、学習済モデルMaを確立する。
【0125】
(12)第1実施形態においては、音響信号S1および指示データDを含む入力データXと、音響信号S2との関係を学習した学習済モデルMを利用して、入力データXに応じた音響信号S2を生成したが、入力データXから音響信号S2を生成するための構成および方法は、以上の例示に限定されない。例えば、相異なる複数の入力データXの各々に音響信号S2が対応付けられた参照テーブルが、分離部1131による音響信号S2の生成に利用されてもよい。参照テーブルは、入力データXと音響信号S2との対応が登録されたデータテーブルであり、例えば記憶装置12に記憶される。分離部1131は、音響信号S1と指示データDとの組合せに対応する入力データXを参照テーブルから検索し、複数の音響信号S2のうち当該入力データXに対応付けられた音響信号S2を、参照テーブルから取得する。
【0126】
(13)第5実施形態および第6実施形態においては、解析リズムパターンYおよび参照リズムパターンZnとを含む入力データXaと、類似度Qnとの関係を学習した学習済モデルMaを利用して、入力データXaに応じた類似度Qnを生成したが、入力データXaから類似度Qnを生成するための構成および方法は、以上の例示に限定されない。例えば、相異なる複数の入力データXaの各々に類似度Qnが対応付けられた参照テーブルが、選択部1133による類似度Qnの生成に利用されてもよい。参照テーブルは、入力データXaと類似度Qnとの対応が登録されたデータテーブルであり、例えば記憶装置12に記憶される。選択部1133は、解析リズムパターンYおよび参照リズムパターンZnとの組合せに対応する入力データXaを参照テーブルから検索し、複数の類似度Qnのうち当該入力データXaに対応付けられた類似度Qnを、参照テーブルから取得する。
【0127】
(14)前述の各形態においては、指示受付部112が目標楽器の指示を利用者から受付ける形態を例示したが、指示受付部112が目標楽器の指示を利用者以外から受付けてもよい。例えば、指示受付部112が外部装置から目標楽器の指示を受付ける形態、または、電子楽器10の内部的な処理により発生する指示を指示受付部112が受付ける形態も想定される。
【0128】
(15)前述の各形態においては、電子楽器10として電子鍵盤楽器を例示したが、電子楽器の形態は以上の例示に限定されない。例えば、電子弦楽器(例えば電子ギターまたは電子バイオリン)、電子ドラム、電子管楽器(例えば電子サックス、電子クラリネットまたは電子フルート)等の電子楽器にも、本開示は同様に適用される。
【0129】
F:付記
以上に例示した形態から、例えば以下の構成が把握される。
【0130】
本開示のひとつの態様(態様1)に係る音響解析システムは、目標音色の指示を受付ける指示受付部と、相異なる音色に対応する複数の音響成分を含む第1音響信号を取得する取得部と、相異なる演奏音を表す複数の参照信号のうち1以上の参照信号を選択する音響解析部とを具備し、前記1以上の参照信号における信号強度の時間的な変動を表す参照リズムパターンは、前記複数の音響成分のうち前記目標音色に対応する音響成分の強度の時間的な変動を表す解析リズムパターンに類似する。以上の構成によれば、複数の参照信号のうち、目標音色の解析リズムパターンに対して参照リズムパターンが類似する1以上の参照信号が選択される。これにより、利用者は、自身が指定した音色の望むリズムパターンを探す手間が軽減し、例えば楽曲作成または演奏練習の効率性が向上する。
【0131】
態様1の具体例(態様2)において、前記音響解析部は、前記目標音色に対応する前記音響成分を表す第2音響信号を前記第1音響信号から分離する分離部と、前記第2音響信号の前記解析リズムパターンを算定する解析部と、前記複数の参照信号から、前記参照リズムパターンが、前記解析部が算定した前記解析リズムパターンに類似する1以上の参照信号を選択する選択部と、を有する。
【0132】
態様2の具体例(態様3)において、前記分離部は、相異なる音色に対応する複数の音響成分を含む第1訓練用音響信号と音色を示す訓練用指示データとの組合せと、前記第1訓練用音響信号の前記複数の音響成分のうち前記訓練用指示データが示す音色に対応する音響成分を表す第2訓練用音響信号との関係を学習した学習済モデルに、前記第1音響信号と前記目標音色を示す指示データとを入力することで、前記第2音響信号を出力する。
【0133】
態様2または態様3の具体例(態様4)によれば、前記解析部は、相異なる音色に対応する複数の周波数特性を表す基底行列を利用した非負値行列因子分解により、前記第2音響信号から係数行列を前記解析リズムパターンとして算定する。
【0134】
態様2の具体例(態様5)において、前記解析部は、相異なる音色に対応する音の周波数特性を表す基底行列を利用した非負値行列因子分解により、前記第2音響信号から係数行列を算定し、前記算定した係数行列に含まれる複数の係数列のうち、前記目標音色以外の音色に対応する係数列の各要素を0に設定することで、前記解析リズムパターンを生成する。
【0135】
態様2から態様5の何れかの具体例(態様6)によれば、前記選択部は、前記複数の参照信号の各々について、前記参照リズムパターンと前記解析リズムパターンとの類似度を算定し、前記複数の参照信号から、前記類似度に基づいて、前記1以上の参照信号を選択する。以上の態様においては、複数の参照信号の各々の参照リズムパターンと、目標音色の解析リズムパターンとの類似度に応じて、1以上の参照信号が適切に選択される。
【0136】
態様6の具体例(態様7)において、前記選択部は、訓練用参照リズムパターンと訓練用解析リズムパターンとを含む訓練用の入力データと、前記訓練用参照リズムパターンと前記訓練用解析リズムパターンとの訓練用類似度との関係を学習した学習済モデルに、前記参照リズムパターンと前記解析リズムパターンとを含む入力データを入力することで、前記類似度を出力する。
【0137】
態様7の具体例(態様8)において、前記選択部は、相異なる音楽ジャンルに対応する複数の学習済モデルのうち特定の音楽ジャンルに対応する前記学習済モデルに、前記入力データを入力することで、前記類似度を出力する。
【0138】
態様8の具体例(態様9)において、前記複数の学習済モデルのうち一の音楽ジャンルに対応する学習済モデルは、当該音楽ジャンルに対応する複数の訓練データを利用した機械学習により確立される。
【0139】
態様7から態様9の何れかの具体例(態様10)において、前記学習済モデルは、畳込ニューラルネットワークにより構成され、前記入力データから特徴データを生成する第1モデルと、再帰型ニューラルネットワークにより構成され、前記特徴データから類似度を生成する第2モデルとを含む。
【0140】
態様2から態様5の何れかの具体例(態様11)において、前記参照リズムパターンは、相異なる音色に対応する複数の係数列を含み、前記解析リズムパターンは、相異なる音色に対応する複数の係数列を含み、前記選択部は、前記参照リズムパターンにおける前記複数の係数列の各々について当該係数列の複数の要素を平均または総和することで圧縮参照リズムパターンを生成し、前記解析リズムパターンにおける前記複数の係数列の各々について当該係数列の複数の要素を平均または総和することで圧縮解析リズムパターンを生成し、前記圧縮参照リズムパターンと前記圧縮解析リズムパターンとの類似度を算定し、前記複数の参照信号から、前記類似度に基づいて、前記1以上の参照信号を選択する。
【0141】
態様6から態様11の何れかの具体例(態様12)において、前記1以上の参照信号は、2以上の参照信号であり、前記2以上の参照信号に関する情報を前記類似度に応じた順番で表示装置に表示させる提示部をさらに具備する。以上の態様においては、利用者は、複数の参照信号のうち、参照リズムパターンが目標音色の解析リズムパターンに類似する順序を把握することができる。これにより、利用者は、例えば、当該順序に応じて楽曲作成または演奏練習をすることができる。
【0142】
態様2から態様12の何れかの具体例(態様13)において、前記第2音響信号を時間軸上で区分した複数の単位期間の各々について、前記解析部は、前記解析リズムパターンを算定し、前記選択部は、前記1以上の参照信号を選択する。
【0143】
態様1から態様11の何れかの具体例(態様14)において、前記音響解析部が選択した前記1以上の参照信号を利用者に提示する提示部をさらに具備する。以上の態様によれば、利用者は、音響解析部により選択された1以上の参照信号を視覚的に把握することができる。
【0144】
本開示のひとつの態様(態様15)に係る電子楽器は、目標音色の指示を受付ける指示受付部と、相異なる音色に対応する複数の音響成分を含む第1音響信号を取得する取得部と、相異なる演奏音を表す複数の参照信号のうち1以上の参照信号を選択する音響解析部と、利用者による演奏を受付ける演奏装置と、前記選択された1以上の参照信号が表す演奏音と、前記演奏装置が受付けた演奏に対する楽音とを再生システムに再生させる再生制御部と、を具備し、前記1以上の参照信号における信号強度の時間的な変動を表す参照リズムパターンは、前記複数の音響成分のうち前記目標音色に対応する音響成分の強度の時間的な変動を表す解析リズムパターンに類似する。
【0145】
本開示のひとつの態様(態様16)に係る音響解析方法は、目標音色の指示を受付け、相異なる音色に対応する複数の音響成分を含む第1音響信号を取得し、相異なる演奏音を表す複数の参照信号のうち1以上の参照信号を選択し、前記1以上の参照信号における信号強度の時間的な変動を表す参照リズムパターンは、前記複数の音響成分のうち前記目標音色に対応する音響成分の強度の時間的な変動を表す解析リズムパターンに類似する。
【0146】
本開示のひとつの態様(態様17)に係るプログラムは、目標音色の指示を受付ける指示受付部と、相異なる音色に対応する複数の音響成分を含む第1音響信号を取得する取得部と、相異なる演奏音を表す複数の参照信号のうち1以上の参照信号を選択する音響解析部としてコンピュータを機能させ、前記1以上の参照信号における信号強度の時間的な変動を表す参照リズムパターンは、前記複数の音響成分のうち前記目標音色に対応する音響成分の強度の時間的な変動を表す解析リズムパターンに類似する。
【符号の説明】
【0147】
10…電子楽器、11,81…制御装置、12,82…記憶装置、13…通信装置、14,84…操作装置、15…演奏装置、16…音源装置、17…放音装置、18…再生システム、19,83…表示装置、40…情報処理システム、90…通信網、100…演奏システム、111…取得部、112…指示受付部、113…音響解析部、114…提示部、115…再生制御部、1131…分離部、1132…解析部、1133…選択部、D…指示データ、Dt…訓練用の指示データ、M…学習済モデル、O…観測行列、類似度…Qn(Q1~QN)、Rn(R1~RN)…参照信号、S1,S2…音響信号、S1t,S2t…訓練用の音響信号、T…単位期間、Y…解析リズムパターン、Zn(Z1~ZN)…参照リズムパターン。