IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特許7544154情報処理システム、電子楽器、情報処理方法およびプログラム
<>
  • 特許-情報処理システム、電子楽器、情報処理方法およびプログラム 図1
  • 特許-情報処理システム、電子楽器、情報処理方法およびプログラム 図2
  • 特許-情報処理システム、電子楽器、情報処理方法およびプログラム 図3
  • 特許-情報処理システム、電子楽器、情報処理方法およびプログラム 図4
  • 特許-情報処理システム、電子楽器、情報処理方法およびプログラム 図5
  • 特許-情報処理システム、電子楽器、情報処理方法およびプログラム 図6
  • 特許-情報処理システム、電子楽器、情報処理方法およびプログラム 図7
  • 特許-情報処理システム、電子楽器、情報処理方法およびプログラム 図8
  • 特許-情報処理システム、電子楽器、情報処理方法およびプログラム 図9
  • 特許-情報処理システム、電子楽器、情報処理方法およびプログラム 図10
  • 特許-情報処理システム、電子楽器、情報処理方法およびプログラム 図11
  • 特許-情報処理システム、電子楽器、情報処理方法およびプログラム 図12
  • 特許-情報処理システム、電子楽器、情報処理方法およびプログラム 図13
  • 特許-情報処理システム、電子楽器、情報処理方法およびプログラム 図14
  • 特許-情報処理システム、電子楽器、情報処理方法およびプログラム 図15
  • 特許-情報処理システム、電子楽器、情報処理方法およびプログラム 図16
  • 特許-情報処理システム、電子楽器、情報処理方法およびプログラム 図17
  • 特許-情報処理システム、電子楽器、情報処理方法およびプログラム 図18
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-26
(45)【発行日】2024-09-03
(54)【発明の名称】情報処理システム、電子楽器、情報処理方法およびプログラム
(51)【国際特許分類】
   G10H 1/24 20060101AFI20240827BHJP
   G06N 20/00 20190101ALI20240827BHJP
   G10G 3/04 20060101ALI20240827BHJP
【FI】
G10H1/24
G06N20/00
G10G3/04
【請求項の数】 19
(21)【出願番号】P 2022575523
(86)(22)【出願日】2021-12-28
(86)【国際出願番号】 JP2021048897
(87)【国際公開番号】W WO2022153875
(87)【国際公開日】2022-07-21
【審査請求日】2023-07-03
(31)【優先権主張番号】P 2021003525
(32)【優先日】2021-01-13
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110003177
【氏名又は名称】弁理士法人旺知国際特許事務所
(72)【発明者】
【氏名】傍嶋 將文
(72)【発明者】
【氏名】篠井 暖
【審査官】大野 弘
(56)【参考文献】
【文献】特許第5283289(JP,B1)
【文献】特開2018-109690(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10H 1/24
G10G 3/04
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
目的楽曲の音響を表す音響データを取得する第1取得部と、
参照楽曲の音響と当該参照楽曲に使用される音色との関係を学習した学習済モデルに、前記取得した音響データを含む入力データを入力することで、前記目的楽曲に適応した音色を示す音色データを前記学習済モデルから出力する生成部と
を具備する情報処理システム。
【請求項2】
前記目的楽曲に対応する伴奏パターンを示す伴奏データを取得する第2取得部
をさらに具備し、
前記学習済モデルは、前記参照楽曲の音響および当該参照楽曲の伴奏パターンと、当該参照楽曲に使用される音色との関係を学習したモデルであり、
前記入力データは、前記取得した音響データと前記取得した伴奏データとを含む
請求項1の情報処理システム。
【請求項3】
前記学習済モデルは、
前記目的楽曲の音響に関する特徴を表す第1データを前記音響データから生成する第1モデルと、
前記伴奏パターンの特徴を表す第2データを前記伴奏データから生成する第2モデルと、
前記第1データと前記第2データとを含む中間データから前記音色データを生成する第3モデルとを含む
請求項2の情報処理システム。
【請求項4】
複数の楽曲の各々について当該楽曲に適応する音色が登録された参照データに、前記目的楽曲に適応する音色が登録されている場合に、当該音色を示す音色データを前記参照データから特定する音色特定部
をさらに具備し、
前記生成部は、前記目的楽曲について音色が前記参照データに登録されていない場合に、前記学習済モデルを利用して前記音色データを生成する
請求項1から請求項3の何れかの情報処理システム。
【請求項5】
利用者が演奏した楽曲に対応する複数の候補楽曲を、前記参照データに登録された前記複数の楽曲から推定する楽曲推定部
をさらに具備し、
前記音色特定部は、前記利用者が前記複数の候補楽曲の何れかを前記目的楽曲として選択した場合に、当該目的楽曲に対応する前記音色データを前記参照データから特定する
請求項4の情報処理システム。
【請求項6】
前記生成部は、前記利用者が前記複数の候補楽曲以外の楽曲を前記目的楽曲として選択した場合に、前記学習済モデルを利用して前記音色データを生成する
請求項5の情報処理システム。
【請求項7】
前記参照データには、前記複数の楽曲の各々について、当該楽曲の内容を表す比較データが登録され、
前記楽曲推定部は、前記複数の楽曲の各々について登録された前記比較データと、前記利用者による演奏を表すデータとを比較することで、前記複数の候補楽曲を推定する
請求項5または請求項6の情報処理システム。
【請求項8】
前記音響データは、前記目的楽曲の音響に関する周波数特性の時系列を表すデータである
請求項1から請求項7の何れかの情報処理システム。
【請求項9】
利用者による演奏を受付ける演奏受付部と、
目的楽曲の音響を表す音響データを取得する第1取得部と、
参照楽曲の音響と当該参照楽曲に使用される音色との関係を学習した学習済モデルに、前記取得した音響データを含む入力データを入力することで、前記目的楽曲に適応した音色を示す音色データを前記学習済モデルから出力する生成部と、
前記演奏受付部が受付ける演奏に応じて、前記音色データに応じた音色の音響を再生する再生部と
を具備する電子楽器。
【請求項10】
前記演奏受付部は、相異なる音高に対応する複数の鍵が配列された鍵盤を含み、
前記再生部は、前記複数の鍵のうち前記利用者が演奏した鍵に対応する音高と、前記音色データに応じた音色とを有する音響を再生する
請求項9の電子楽器。
【請求項11】
目的楽曲の音響を表す音響データを取得し、
参照楽曲の音響と当該参照楽曲に使用される音色との関係を学習した学習済モデルに、前記取得した音響データを含む入力データを入力することで、前記目的楽曲に適応した音色を示す音色データを前記学習済モデルから出力する
コンピュータシステムにより実現される情報処理方法。
【請求項12】
さらに、前記目的楽曲に対応する伴奏パターンを示す伴奏データを取得し、
前記学習済モデルは、前記参照楽曲の音響および当該参照楽曲の伴奏パターンと、当該参照楽曲に使用される音色との関係を学習したモデルであり、
前記入力データは、前記音響データと前記伴奏データとを含む
請求項11の情報処理方法。
【請求項13】
前記学習済モデルは、
前記目的楽曲の音響に関する特徴を表す第1データを前記音響データから生成する第1モデルと、
前記伴奏パターンの特徴を表す第2データを前記伴奏データから生成する第2モデルと、
前記第1データと前記第2データとを含む中間データから前記音色データを生成する第3モデルとを含む
請求項12の情報処理方法。
【請求項14】
さらに、
複数の楽曲の各々について当該楽曲に適応する音色が登録された参照データに、前記目的楽曲に適応する音色が登録されている場合に、当該音色を示す音色データを前記参照データから特定し、
前記目的楽曲について音色が前記参照データに登録されていない場合に、前記学習済モデルを利用して前記音色データを生成する
請求項11から請求項13の何れかの情報処理方法。
【請求項15】
さらに、
利用者が演奏した楽曲に対応する複数の候補楽曲を、前記参照データに登録された前記複数の楽曲から推定し、
前記音色データの特定においては、前記利用者が前記複数の候補楽曲の何れかを前記目的楽曲として選択した場合に、当該目的楽曲に対応する前記音色データを前記参照データから特定する
請求項14の情報処理方法。
【請求項16】
前記利用者が前記複数の候補楽曲以外の楽曲を前記目的楽曲として選択した場合に、前記学習済モデルを利用して前記音色データを生成する
請求項15の情報処理方法。
【請求項17】
前記参照データには、前記複数の楽曲の各々について、当該楽曲の内容を表す比較データが登録され、
前記複数の候補楽曲の推定においては、前記複数の楽曲の各々について登録された前記比較データと、前記利用者による演奏を表すデータとを比較することで、前記複数の候補楽曲を推定する
請求項15または請求項16の情報処理方法。
【請求項18】
前記音響データは、前記目的楽曲の音響に関する周波数特性の時系列を表すデータである
請求項11から請求項17の何れかの情報処理方法。
【請求項19】
目的楽曲の音響を表す音響データを取得する第1取得部、および、
参照楽曲の音響と当該参照楽曲に使用される音色との関係を学習した学習済モデルに、前記取得した音響データを含む入力データを入力することで、前記目的楽曲に適応した音色を示す音色データを前記学習済モデルから出力する生成部
としてコンピュータシステムを機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、楽曲に関する情報を処理する技術に関する。
【背景技術】
【0002】
利用者が演奏した楽曲を複数種の音色の何れかで再生可能な電子楽器が従来から提案されている。例えば特許文献1には、利用者が演奏する楽曲に好適な音色を設定できる技術が開示されている。楽曲に好適な音色は、楽曲毎に事前に登録される。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2007-140308号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、特許文献1の技術においては、楽曲毎に音色を事前に登録する必要がある。したがって、例えば利用者が作成した楽曲等、未登録の新規な楽曲について好適な音色を設定することはできない。以上の事情を考慮して、本開示のひとつの態様は、新規な楽曲について音色を特定することをひとつの目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために、本開示のひとつの態様に係る情報処理システムは、目的楽曲の音響を表す音響データを取得する第1取得部と、参照楽曲の音響と当該参照楽曲に使用される音色との関係を学習した学習済モデルに、前記取得した音響データを含む入力データを入力することで、前記目的楽曲に適応した音色を示す音色データを前記学習済モデルから出力する生成部とを具備する。
【0006】
本開示のひとつの態様に係る電子楽器は、利用者による演奏を受付ける演奏受付部と、目的楽曲の音響を表す音響データを取得する第1取得部と、参照楽曲の音響と当該参照楽曲に使用される音色との関係を学習した学習済モデルに、前記取得した音響データを含む入力データを入力することで、前記目的楽曲に適応した音色を示す音色データを前記学習済モデルから出力する生成部と、前記演奏受付部が受付ける演奏に応じて、前記音色データに応じた音色の音響を再生する再生部とを具備する。
【0007】
本開示のひとつの態様に係る情報処理方法は、目的楽曲の音響を表す音響データを取得し、参照楽曲の音響と当該参照楽曲に使用される音色との関係を学習した学習済モデルに、前記取得した音響データを含む入力データを入力することで、前記目的楽曲に適応した音色を示す音色データを前記学習済モデルから出力する。
【0008】
本開示のひとつの態様に係るプログラムは、目的楽曲の音響を表す音響データを取得する第1取得部、および、参照楽曲の音響と当該参照楽曲に使用される音色との関係を学習した学習済モデルに、前記取得した音響データを含む入力データを入力することで、前記目的楽曲に適応した音色を示す音色データを前記学習済モデルから出力する生成部、としてコンピュータシステムを機能させる。
【図面の簡単な説明】
【0009】
図1】第1実施形態における演奏システムの構成を例示するブロック図である。
図2】電子楽器の構成を例示するブロック図である。
図3】情報処理システムの構成を例示するブロック図である。
図4】情報処理システムの機能的な構成を例示するブロック図である。
図5】学習済モデルの構成を例示するブロック図である。
図6】解析処理の具体的な手順を例示するフローチャートである。
図7】演奏処理の具体的な手順を例示するフローチャートである。
図8】機械学習システムの構成を例示するブロック図である。
図9】機械学習システムの機能的な構成を例示するブロック図である。
図10】学習処理の具体的な手順を例示するフローチャートである。
図11】第2実施形態における情報処理システムの機能的な構成を例示するブロック図である。
図12】参照データの模式図である。
図13】推定処理の具体的な手順を例示するフローチャートである。
図14】選択画面の模式図である。
図15】制御処理の具体的な手順を例示するフローチャートである。
図16】第3実施形態における電子楽器の機能的な構成を例示するブロック図である。
図17】第4実施形態における演奏システムの構成を例示するブロック図である。
図18】第5実施形態における演奏システムの構成を例示するブロック図である。
【発明を実施するための形態】
【0010】
A:第1実施形態
図1は、第1実施形態に係る演奏システム100の構成を例示するブロック図である。演奏システム100は、利用者Uが所望の楽曲(以下「目的楽曲」という)を演奏するためのコンピュータシステムであり、信号供給装置10と電子楽器20と情報処理システム30と機械学習システム40とを具備する。信号供給装置10は電子楽器20に有線または無線で接続される。電子楽器20と情報処理システム30とは、例えばインターネット等の通信網200を介して相互に通信する。
【0011】
信号供給装置10は、音響信号Vを電子楽器20に供給する。音響信号Vは、目的楽曲の演奏音の波形を表すサンプル系列である。例えばCD等の記録媒体に記録された音響信号Vを電子楽器20に供給する再生装置、または、配信装置(図示略)から通信網200を介して受信した音響信号Vを電子楽器20に供給する通信機器が、信号供給装置10として例示される。例えばスマートフォンまたはタブレット端末等の情報端末も信号供給装置10として利用される。また、周囲の音を収音することで音響信号Vを生成する収音装置も、信号供給装置10として利用される。収音装置は、例えば、利用者Uによる演奏で楽器が発音する楽音、または、利用者Uが歌唱により発音する音声を収音する。なお、信号供給装置10は、電子楽器20に搭載されてもよい。
【0012】
電子楽器20は、利用者Uが目的楽曲を演奏するために使用する演奏機器である。信号供給装置10から供給される音響信号Vは、電子楽器20から情報処理システム30に送信される。情報処理システム30は、音響信号Vを解析することで伴奏データCと音色データZとを生成する。伴奏データCは、目的楽曲に好適な伴奏パターンPを示すデータである。例えば、相異なる複数の伴奏パターンPの何れかを識別するための識別情報が、伴奏データCとして生成される。各伴奏パターンPは、伴奏音を表す信号である。例えばドラム等の打楽器の楽音で構成されるリズムパターンが、伴奏パターンPの一例である。
【0013】
音色データZは、目的楽曲に好適な音色を示すデータである。例えば、相異なる複数種の音色の何れかを識別するための識別情報が、音色データZとして生成される。例えば、相異なる種類の楽器(例えばピアノ,バイオリン,ギター等)に対応する複数種の音色の何れかが音色データZにより指示される。また、1種類の楽器に対する相異なる奏法で発音される複数種の音色の何れかが、音色データZにより指示されてもよい。例えば、弦楽器については、撥弦奏法および擦弦奏法等の相異なる奏法に対応する複数種の音色の何れかが、音色データZにより指示される。
【0014】
情報処理システム30が生成した伴奏データCおよび音色データZは、音響信号Vの送信元の電子楽器20に送信される。電子楽器20は、伴奏データCが示す伴奏パターンPの伴奏音を再生する処理と、音色データZが示す音色の演奏音を利用者Uによる演奏に応じて再生する処理とを並行に実行する。以上の説明から理解される通り、利用者Uは、所望の目的楽曲に好適な伴奏パターンPの再生に並行して、目的楽曲に好適な音色により当該目的楽曲を演奏できる。
【0015】
図2は、電子楽器20の構成を例示するブロック図である。電子楽器20は、制御装置21と記憶装置22と通信装置23と演奏装置24と操作装置25と表示装置26と音源装置27と放音装置28とを具備するコンピュータシステムで実現される。なお、電子楽器20は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。
【0016】
制御装置21は、電子楽器20の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置21は、CPU(Central Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより構成される。
【0017】
記憶装置22は、制御装置21が実行するプログラムと制御装置21が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置22は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。なお、電子楽器20に対して着脱される可搬型の記録媒体、または例えば通信網200を介して制御装置21が書込または読出を実行可能な記録媒体(例えばクラウドストレージ)を、記憶装置22として利用してもよい。なお、音響信号Vは、記憶装置22に記憶されてもよい。
【0018】
第1実施形態の記憶装置22は、相異なる複数の伴奏パターンPを記憶する。例えば、拍子(例えば4分の4拍子,4分の3拍子),楽器の種類,リズム等の音楽的な要素は、伴奏パターンP毎に相違する。記憶装置22に記憶された複数の伴奏パターンPのうち、情報処理システム30から受信した伴奏データCが示す伴奏パターンPが、選択的に再生される。すなわち、目的楽曲に好適な伴奏パターンPが再生される。
【0019】
通信装置23は、通信網200を介して情報処理システム30と通信する。具体的には、通信装置23は、目的楽曲の音響信号Vを情報処理システム30に送信する。また、通信装置23は、情報処理システム30から送信される伴奏データCおよび音色データZを受信する。なお、電子楽器20と情報処理システム30との間の通信回線における無線区間の有無は不問である。また、電子楽器20とは別体の通信装置23を有線または無線により電子楽器20に接続してもよい。電子楽器20と別体の通信装置23としては、例えばスマートフォンまたはタブレット端末等の情報端末が利用される。
【0020】
演奏装置24は、利用者Uによる演奏を受付ける入力機器である。例えば、演奏装置24は、相異なる音高に対応する複数の鍵が配列された鍵盤を具備する。利用者Uは、演奏装置24の所望の鍵を順次に操作することで目的楽曲を演奏する。なお、演奏装置24の具体的な形態は任意であり、鍵盤には限定されない。演奏装置24は、「演奏受付部」の一例である。
【0021】
操作装置25は、利用者Uからの指示を受付ける入力機器である。操作装置25は、例えば、利用者Uが操作する複数の操作子、または、利用者Uによる接触を検知するタッチパネルである。表示装置26は、制御装置21による制御のもとで画像を表示する。例えば液晶表示パネルまたは有機EL(Electroluminescence)パネル等の各種の表示パネルが表示装置26として利用される。
【0022】
音源装置27は、演奏装置24に対する演奏に応じた演奏信号Aを生成する。演奏信号Aは、演奏装置24に対する演奏で指示された演奏音の波形を表す音響信号である。具体的には、音源装置27は、演奏装置24の複数の鍵のうち利用者Uが押鍵した鍵に対応する音高の楽音を表す演奏信号Aを生成する。演奏信号Aが表す演奏音の音色は、複数種の音色の何れかに可変に設定される。例えば、音源装置27は、情報処理システム30から受信した音色データZが示す音色の演奏信号Aを生成する。
【0023】
また、音源装置27は、演奏装置24に対する演奏に応じた楽音と、伴奏パターンPが表す伴奏音との混合音の演奏信号Aを生成可能である。なお、記憶装置22に記憶されたプログラムを実行することで、制御装置21が音源装置27の機能を実現してもよい。すなわち、演奏信号Aの生成に専用される音源装置27は省略される。また、音源装置27が生成する演奏信号Aを音響信号Vとして情報処理システム30に送信してもよい。
【0024】
放音装置28は、演奏信号Aが表す演奏音を放音する。例えばスピーカまたはヘッドホンが放音装置28として利用される。以上の説明から理解される通り、電子楽器20が情報処理システム30から伴奏データCと音色データZとを受信した状態では、利用者Uは、伴奏データCが示す伴奏パターンPの再生に並行して、音色データZが示す音色により目的楽曲を演奏できる。以上の説明から理解される通り、第1実施形態における音源装置27および放音装置28は、音色データZが示す音色の音響を利用者Uによる演奏に応じて再生する再生部29として機能する。
【0025】
図3は、情報処理システム30の構成を例示するブロック図である。情報処理システム30は、制御装置31と記憶装置32と通信装置33とを具備するコンピュータシステムで実現される。なお、情報処理システム30は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。
【0026】
制御装置31は、情報処理システム30の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置31は、CPU、SPU、DSP、FPGA、またはASIC等の1種類以上のプロセッサにより構成される。
【0027】
記憶装置32は、制御装置31が実行するプログラムと制御装置31が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置32は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。なお、情報処理システム30に対して着脱される可搬型の記録媒体、または例えば通信網200を介して制御装置31が書込または読出を実行可能な記録媒体(例えばクラウドストレージ)を、記憶装置32として利用してもよい。
【0028】
通信装置33は、通信網200を介して電子楽器20と通信する。具体的には、通信装置33は、電子楽器20から送信される音響信号Vを受信する。また、通信装置33は、伴奏データCおよび音色データZを電子楽器20に送信する。
【0029】
図4は、情報処理システム30の機能的な構成を例示するブロック図である。情報処理システム30の制御装置31は、記憶装置32に記憶されたプログラムを実行することで解析処理部50として機能する。解析処理部50は、音響信号Vの解析により伴奏データCおよび音色データZを生成する。解析処理部50は、第1取得部51と第2取得部52と生成部53とを具備する。
【0030】
第1取得部51は、目的楽曲の演奏音を表す音響データFを取得する。具体的には、第1取得部51は、音響信号Vを解析することで音響データFを生成する。例えば、音響信号Vの一部または全部から音響データFが生成される。音響データFは、目的楽曲の演奏音に関する時間的な変化を表す任意の形式のデータである。具体的には、音響データFは、例えば、演奏音の周波数特性の時系列を表すデータである。例えばMFCC(Mel-Frequency Cepstrum Coefficient),MSLS(Mel-Scale Log Spectrum)、または定Q変換(CQT:Constant-Q Transform)等の周波数特性の時系列を表すデータが、音響データFとして例示される。音響データFは、音響信号Vが表す演奏音の音色に関する特徴(音色特徴量)を表すデータとも表現される。音響データFの生成には、例えば短時間フーリエ変換等の公知の周波数解析が任意に採用される。なお、音響信号Vを構成するサンプル系列を音響データFとして利用してもよい。
【0031】
第2取得部52は、目的楽曲に好適な伴奏パターンPを示す伴奏データCを取得する。具体的には、第2取得部52は、音響信号Vを解析することで伴奏データCを生成する。音響信号Vの一部または全部から伴奏データCが生成される。具体的には、音響信号Vの一部を利用して、第1取得部51による音響データFの生成と第2取得部52による伴奏データCの生成とが実行される。例えば、第2取得部52は、まず、音響信号Vの解析により目的楽曲の音楽ジャンルを推定する。音楽ジャンルの推定には、例えば特開2015-79110号等の公知の技術が任意に採用される。そして、第2取得部52は、相異なる音楽ジャンルに対応する複数の伴奏データCのうち、目的楽曲について推定された音楽ジャンルに対応する伴奏データCを特定する。なお、第2取得部52は、音響データFの解析により伴奏データCを特定してもよい。第2取得部52による取得の候補となる複数の伴奏データCは、例えば記憶装置32に記憶される。
【0032】
生成部53は、第1取得部51が取得した音響データFと第2取得部52が取得した伴奏データCとを含む入力データXに応じて音色データZを生成する。具体的には、生成部53は、音響信号Vが表す演奏音と伴奏データCが指定する伴奏パターンPとの組合せに対して好適な音色を示す音色データZを生成する。生成部53による音色データZの生成には、学習済モデル60が利用される。音響信号Vが表す演奏音の音色と音色データZが示す音色との異同は不問である。
【0033】
楽曲の演奏音に関する時間的な変化(音響データF)と当該楽曲の演奏に多用される音色との間には相関がある。また、楽曲に好適な伴奏パターンPと当該楽曲の演奏に多用される音色との間にも相関がある。学習済モデル60は、以上の傾向を学習した統計的推定モデルである。すなわち、学習済モデル60は、複数の既知の楽曲(以下「参照楽曲」という)の各々における演奏音および伴奏パターンPの組合せと、当該参照楽曲に多用される音色との関係を機械学習により学習した統計的推定モデルである。具体的には、学習済モデルは、参照楽曲の入力データX(音響データFと伴奏データCとの組合せ)と当該参照楽曲の音色データZとの関係を学習した統計的推定モデルである。生成部53は、音響データFと伴奏データCとを含む入力データXを学習済モデル60に入力することで、学習済モデル60から音色データZを出力する。参照楽曲に多用される音色とは、参照楽曲に適応した音色(参照楽曲の演奏に好適な音色)とも換言される。
【0034】
学習済モデル60は、例えば深層ニューラルネットワーク(DNN:Deep Neural Network)で構成される。例えば、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)、または畳込ニューラルネットワーク(CNN:Convolutional Neural Network)等の任意の形式のニューラルネットワークが学習済モデル60として利用される。複数種の深層ニューラルネットワークの組合せで学習済モデル60が構成されてもよい。また、長短期記憶(LSTM:Long Short-Term Memory)等の付加的な要素が学習済モデル60に搭載されてもよい。
【0035】
学習済モデル60は、入力データXから音色データZを生成する演算を制御装置31に実行させるプログラムと、当該演算に適用される複数の変数との組合せで実現される。学習済モデル60に関する複数の変数は、例えば加重値およびバイアスを含む。学習済モデル60を実現するプログラムおよび複数の変数は、記憶装置32に記憶される。学習済モデル60を規定する複数の変数の各々の数値は、機械学習により事前に設定される。
【0036】
図5は、学習済モデル60の具体的な構成を例示するブロック図である。学習済モデル60は、第1モデル61と第2モデル62と第3モデル63とを含む。入力データXの音響データFは第1モデル61に入力され、当該入力データXの伴奏データCは第2モデル62に入力される。
【0037】
第1モデル61は、目的楽曲の演奏音の特徴を表す第1データy1を音響データFから生成する。第1モデル61は、音響データFと第1データy1との関係を学習した学習済モデル60である。すなわち、第1モデル61は、音響データFの特徴を抽出するモデルである。第1データy1は、目的楽曲に好適な音色データZを学習済モデル60が入力データXから生成するために寄与する音響データFの特徴を表すデータである。
【0038】
例えば、第1モデル61が畳込ニューラルネットワークで構成された形態では、音響データFが表す周波数特性の時系列(すなわち、時間-周波数領域に分布する数値群)が2次元画像として第1モデル61に入力される。第1モデル61が再帰型ニューラルネットワークで構成された形態では、音響データFにおいて時間軸上の各時点に対応する部分が第1モデル61に順次に入力される。また、第1モデル61が畳込ニューラルネットワークと再帰型ニューラルネットワークとの組合せで構成された形態では、音響データFにおいて時間軸上の各時点に対応する部分が畳込ニューラルネットワークに順次に入力され、当該畳込ニューラルネットワークの時刻毎の出力データが、後段の再帰型ニューラルネットワークに順次に入力される。
【0039】
第2モデル62は、伴奏パターンPの特徴を表す第2データy2を伴奏データCから生成する。第2モデル62は、伴奏データCと第2データy2との関係を学習した学習済モデル60である。すなわち、第2モデル62は、伴奏データCが示す伴奏パターンPの識別情報を第2データy2に変換するモデルであり、例えば畳込ニューラルネットワークで構成される。
【0040】
第2データy2は、例えば多次元の仮想空間内に設定される埋込ベクトル(embedding vector)である。仮想空間は、伴奏パターンPの音響的な特徴に応じて各伴奏パターンPの位置(すなわち第2データy2が指定する座標)が決定される連続空間である。複数の伴奏パターンPの間で音響的な特徴が類似するほど、各伴奏パターンPの第2データy2が仮想空間内に指定する座標間の距離は小さい数値となる。すなわち、仮想空間は、複数の伴奏パターンPの相互間の関係を表す空間と表現される。
【0041】
第1モデル61が生成する第1データy1と第2モデル62が生成する第2データy2とを含む中間データYが、第3モデル63に入力される。第3モデル63は、中間データYと音色データZとの関係を学習した学習済モデル60であり、中間データYから音色データZを生成する。第3モデル63は、例えば再帰型ニューラルネットワークまたは畳込ニューラルネットワークで構成される。
【0042】
図6は、制御装置31が音色データZを生成する処理(以下「解析処理」という)Saの具体的な手順を例示するフローチャートである。例えば、電子楽器20から送信された音響信号Vの受信を契機として解析処理Saが開始される。
【0043】
解析処理Saが開始されると、第1取得部51は、目的楽曲の音響信号Vを解析することで音響データFを生成する(Sa1)。第2取得部52は、音響信号Vの解析により伴奏データCを生成する(Sa2)。第2取得部52は、伴奏データCを通信装置33から電子楽器20に送信する(Sa3)。なお、第1取得部51による音響データFの生成(Sa1)と第2取得部52による伴奏データCの生成(Sa2)および送信(Sa3)との順序は逆転されてもよい。
【0044】
生成部53は、音響データFと伴奏データCとを含む入力データXを学習済モデル60に入力することで、音色データZを学習済モデル60から出力する(Sa4)。生成部53は、音色データZを通信装置33から電子楽器20に送信する(Sa5)。なお、伴奏データCを音色データZとともに電子楽器20に送信してもよい。
【0045】
図7は、伴奏データCおよび音色データZを受信した電子楽器20の制御装置21が実行する処理(以下「演奏処理」という)Sbの具体的な手順を例示するフローチャートである。伴奏データCおよび音色データZの受信を契機として演奏処理Sbが開始される。
【0046】
演奏処理Sbが開始されると、制御装置21は、音色データZが示す音色を音源装置27に指示する(Sb1)。したがって、音源装置27は、演奏装置24に対する利用者Uの操作に応じて、音色データZが示す音色の楽音を表す演奏信号Aを生成可能な状態となる。
【0047】
利用者Uは、操作装置25を操作することで伴奏パターンPの再生を指示することが可能である。制御装置21は、伴奏パターンPの再生が利用者Uから指示されるまで待機する(Sb2:NO)。伴奏パターンPの再生が指示された場合(Sb2:YES)、制御装置21は、情報処理システム30から受信した伴奏データCが示す伴奏パターンPの再生を、音源装置27に指示する(Sb3)。
【0048】
制御装置21は、利用者Uが演奏装置24を操作したか否かを判定する(Sb4)。演奏装置24が操作された場合(Sb4:YES)、制御装置21は、利用者Uが操作した鍵に対応する音高の発音を音源装置27に指示する(Sb5)。音源装置27は、音色データZが示す音色の演奏音を表す演奏信号Aを生成する。したがって、利用者Uによる演奏音と伴奏パターンPの伴奏音とが放音装置28から再生される。演奏装置24が操作されない場合(Sb4:NO)、演奏音の再生(Sb5)は実行されない。
【0049】
制御装置21は、利用者Uが演奏の終了を指示するまで、音源装置27に対する演奏音の再生の指示(Sb4,Sb5)を反復する(Sb6:NO)。演奏の終了が利用者Uから指示された場合(Sb6:YES)、制御装置21は演奏処理Sbを終了する。
【0050】
以上に例示した第1実施形態によれば、目的楽曲の音響を表す音響データFを含む入力データXを学習済モデル60に入力することで、目的楽曲に適応した音色を示す音色データZが生成される。したがって、例えば新規な楽曲に対して好適な音色を特定できる。第1実施形態においては特に、目的楽曲の演奏音を表す音響データFと、目的楽曲に対応する伴奏パターンPを示す伴奏データCとを含む入力データXが学習済モデル60に入力される。したがって、目的楽曲の音響と当該目的楽曲の伴奏パターンPとの組合せに対して好適な音色を特定できる。
【0051】
また、第1実施形態によれば、目的楽曲に適応する伴奏パターンPまたは音色を選択するための音楽的な知識が利用者Uにない場合でも、適切な伴奏パターンPおよび音色を選択できるという利点がある。また、適切な伴奏パターンPおよび音色を利用者Uが選択するための手間を軽減できるという利点もある。
【0052】
図1の機械学習システム40は、以上に例示した学習済モデル60を生成する。図8は、機械学習システム40の構成を例示するブロック図である。機械学習システム40は、制御装置41と記憶装置42と通信装置43とを具備する。なお、機械学習システム40は、単体の装置として実現されるほか、相互に別体で構成された複数の装置としても実現される。
【0053】
制御装置41は、機械学習システム40の各要素を制御する単数または複数のプロセッサで構成される。制御装置41は、CPU、SPU、DSP、FPGA、またはASIC等の1種類以上のプロセッサにより構成される。通信装置43は、情報処理システム30と通信する。
【0054】
記憶装置42は、制御装置41が実行するプログラムと制御装置41が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置42は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。また、機械学習システム40に対して着脱される可搬型の記録媒体、または通信網200を介して制御装置41が書込または読出を実行可能な記録媒体(例えばクラウドストレージ)を、記憶装置42として利用してもよい。
【0055】
図9は、機械学習システム40の機能的な構成を例示するブロック図である。制御装置41は、記憶装置42に記憶されたプログラムを実行することで、学習済モデル60を機械学習により確立するための複数の要素(訓練データ取得部71および学習処理部72)として機能する。
【0056】
学習処理部72は、複数の訓練データTを利用した教師あり機械学習(後述の学習処理Sc)により学習済モデル60を確立する。訓練データ取得部71は、複数の訓練データTを取得する。具体的には、訓練データ取得部71は、記憶装置42に保存された複数の訓練データTを記憶装置42から取得する。
【0057】
複数の訓練データTの各々は、訓練用の入力データXtと訓練用の音色データZtとの組合せで構成される。入力データXtは、既知の参照楽曲の音響データFtと、当該参照楽曲に好適な伴奏パターンPの伴奏データCtとを含む。音響データFtは、参照楽曲の演奏を収録した結果から生成される。伴奏データCtが示す伴奏パターンPは、例えば、訓練データTの作成者が、参照楽曲の音楽的な特徴(例えば曲調または拍子等)を考慮して選定する。
【0058】
各訓練データTの音色データZtは、当該訓練データTに対応する参照楽曲に好適な音色を示すデータである。すなわち、各訓練データTの音色データZtは、当該訓練データTの入力データXtに対する正解値(ラベル)に相当する。音色データZtは、例えば、訓練データTの作成者が、参照楽曲および伴奏パターンPの組合せの音楽的な特徴を考慮して選定する。
【0059】
図10は、制御装置41が学習済モデル60を確立する学習処理Scの具体的な手順を例示するフローチャートである。学習処理Scは、機械学習により学習済モデル60を生成する方法(学習済モデル生成方法)とも表現される。
【0060】
学習処理Scが開始されると、訓練データ取得部71は、記憶装置42に記憶された複数の訓練データTの何れか(以下「選択訓練データT」という)を取得する(Sc1)。学習処理部72は、図9に例示される通り、選択訓練データTの入力データXtを初期的または暫定的なモデル(以下「暫定モデル65」という)に入力し(Sc2)、当該入力に対して暫定モデル65が出力する音色データZを取得する(Sc3)。
【0061】
学習処理部72は、暫定モデル65が生成する音色データZと選択訓練データTの音色データZtとの誤差を表す損失関数を算定する(Sc4)。学習処理部72は、損失関数が低減(理想的には最小化)されるように、暫定モデル65の複数の変数を更新する(Sc5)。損失関数に応じた複数の変数の更新には、例えば誤差逆伝播法が利用される。
【0062】
学習処理部72は、所定の終了条件が成立したか否かを判定する(Sc6)。終了条件は、例えば、損失関数が所定の閾値を下回ること、または、損失関数の変化量が所定の閾値を下回ることである。終了条件が成立しない場合(Sc6:NO)、訓練データ取得部71は、未選択の訓練データTを新たな選択訓練データTとして選択する(Sc1)。すなわち、終了条件の成立(Sc6:YES)まで、学習済モデル60の複数の変数を更新する処理(Sc2-Sc5)が反復される。終了条件が成立した場合(Sc6:YES)、学習処理部72は、暫定モデル65を規定する複数の変数の更新(Sc2-Sc5)を終了する。終了条件が成立した時点における暫定モデル65が、学習済モデル60として確定される。すなわち、学習済モデル60の複数の変数は、学習処理Scの終了の時点における数値に確定される。
【0063】
以上の説明から理解される通り、学習済モデル60は、複数の訓練データTにおける入力データXtと音色データZtとの間に潜在する関係のもとで、未知の入力データXに対して統計的に妥当な音色データZを出力する。すなわち、学習済モデル60は、前述の通り、参照楽曲の演奏音および伴奏パターンPと、当該参照楽曲に多用される音色との関係を、機械学習により学習したモデルである。学習済モデル60は、参照楽曲の入力データXtと当該参照楽曲の音色データZtとの関係を学習したモデルとも表現される。
【0064】
学習処理部72は、以上の手順で確立された学習済モデル60を通信装置43から情報処理システム30に送信する(Sc7)。具体的には、学習処理部72は、学習済モデル60の複数の変数を通信装置43から情報処理システム30に送信する。情報処理システム30の制御装置31は、機械学習システム40から受信した学習済モデル60を記憶装置32に保存する。具体的には、学習済モデル60を規定する複数の変数が記憶装置32に記憶される。
【0065】
B:第2実施形態
第2実施形態を説明する。なお、以下に例示する各態様において機能が第1実施形態と同様である要素については、第1実施形態の説明と同様の符号を流用して各々の詳細な説明を適宜に省略する。
【0066】
図11は、第2実施形態における情報処理システム30の機能的な構成を例示するブロック図である。第1実施形態においては情報処理システム30が音響信号Vを電子楽器20から受信する構成を例示した。第2実施形態における情報処理システム30の通信装置33は、音響信号Vまたは演奏データDを電子楽器20から受信する。
【0067】
音響信号Vは、第1実施形態と同様に、目的楽曲の演奏音の波形を表すサンプル系列である。他方、演奏データDは、演奏装置24に対する利用者Uの演奏の内容を表す時系列データである。具体的には、演奏データDは、例えばMIDI(Musical Instrument Digital Interface)規格に準拠した形式のデータであり、楽曲を構成する複数の音符の各々について音高と発音期間とを指定する。
【0068】
第2実施形態の制御装置31は、記憶装置32に記憶されたプログラムを実行することで、第1実施形態と同様の解析処理部50のほか、楽曲推定部56および音色特定部57として機能する。
【0069】
楽曲推定部56は、通信装置33が電子楽器20から受信した音響信号Vまたは演奏データDを解析することで、利用者Uが演奏した目的楽曲を推定する。具体的には、楽曲推定部56は、目的楽曲に該当する可能性が高い複数の楽曲(以下「候補楽曲」という)を特定する。楽曲推定部56による候補楽曲の推定には、記憶装置32に記憶された参照データRが利用される。なお、候補楽曲の特定に利用される音響信号Vおよび演奏データDは、利用者Uによる演奏を表すデータとして包括的に表現される。
【0070】
図12は、参照データRの模式図である。図12に例示される通り、参照データRは、既存の複数の楽曲の各々について、楽曲情報Ra(Ra1,Ra2,…)と比較データRb(Rb1,Rb2,…)と伴奏データC(C1,C2,…)と音色データZ(Z1,Z2,…)とが登録されたデータベースである。各楽曲の楽曲情報Raは、当該楽曲の識別情報および楽曲名等の情報を含む。各楽曲の比較データRbは、当該楽曲の内容を表す時系列データである。具体的には、比較データRbは、演奏データDと同様に、例えばMIDI規格に準拠した形式のデータであり、楽曲を構成する複数の音符の各々について音高と発音期間とを指定する。各楽曲の伴奏データCは、当該楽曲に好適な伴奏パターンPを示すデータである。また、各楽曲の音色データZは、当該楽曲に好適な音色を示すデータである。
【0071】
図13は、楽曲推定部56が実行する処理(以下「推定処理」という)Sdの具体的な手順を例示するフローチャートである。例えば電子楽器20から送信された音響信号Vまたは演奏データDの受信を契機として推定処理Sdが開始される。
【0072】
推定処理Sdが開始されると、楽曲推定部56は、通信装置33が電子楽器20から受信したのが音響信号Vであるか否かを判定する(Sd1)。通信装置33が音響信号Vを受信した場合(Sd1:YES)、楽曲推定部56は、音響信号Vから演奏データDを生成する(Sd2)。演奏データDは、利用者Uによる演奏の内容を表す時系列データである。音響信号Vから演奏データDを生成する処理には、公知の採譜技術が任意に採用される。通信装置33が演奏データDを受信した場合(Sd1:NO)、演奏データDの生成(Sd2)は実行されない。以上の通り、楽曲推定部56は、利用者Uによる演奏を表す演奏データDを取得する。演奏データDは、通信装置33が受信した音響信号Vから生成されたデータ、または、通信装置33が電子楽器20から受信したデータである。
【0073】
楽曲推定部56は、参照データRに楽曲毎に登録された比較データRbと演奏データDとを相互に比較することで、所定個の候補楽曲を特定する(Sd3)。具体的には、楽曲推定部56は、参照データRに登録された複数の楽曲の各々について、当該楽曲の比較データRbと演奏データDとの類似度を算定し、複数の楽曲のうち類似度の降順で上位に位置する所定個の楽曲を候補楽曲として選択する。すなわち、楽曲推定部56は、比較データRbが演奏データDに類似する所定個の候補楽曲を特定する。したがって、候補楽曲は、利用者Uが演奏した楽曲に対応する楽曲である。楽曲推定部56は、以上の処理で特定した各候補楽曲について参照データRに登録された楽曲情報Raを、通信装置33から電子楽器20に送信する(Sd4)。すなわち、複数の候補楽曲の楽曲情報Raが電子楽器20に送信される。
【0074】
電子楽器20の制御装置21は、情報処理システム30から受信した各候補楽曲の楽曲情報Raを表示装置26に表示させる。図14は、表示装置26に表示される画面(以下「選択画面」という)Gの模式図である。表示装置26には、複数の候補楽曲の各々について楽曲情報Ra(具体的には楽曲名)が表示されるほか、参照データRに登録されていない楽曲であることを意味する「未登録曲」の文字列が表示される。未登録曲は、例えば利用者Uが独自に作成した楽曲である。利用者Uは、操作装置25を操作することで選択画面Gから目的楽曲を選択する。制御装置21は、利用者Uが選択した目的楽曲を示す選択指示Eを、通信装置23から情報処理システム30に送信する。
【0075】
例えば、目的楽曲が既存の候補楽曲である場合、利用者Uは、選択画面Gから当該候補楽曲を選択する。利用者Uが候補楽曲を選択した場合、制御装置21は、当該候補楽曲を示す選択指示Eを通信装置33から情報処理システム30に送信する。例えば候補楽曲の楽曲情報Raを含む選択指示Eが情報処理システム30に送信される。他方、目的楽曲が候補楽曲以外の楽曲(例えば自作曲)である場合、利用者Uは選択画面Gから未登録曲を選択する。利用者Uが未登録曲を選択した場合、制御装置21は、目的楽曲が未登録曲であることを示す選択指示Eを、通信装置33から情報処理システム30に送信する。
【0076】
既存の候補楽曲については伴奏データCおよび音色データZが参照データRに登録されている一方、利用者Uの自作曲等の未登録曲については伴奏データCおよび音色データZが参照データRに登録されていない。図11の音色特定部57は、目的楽曲が参照データRに登録済の候補楽曲である場合に、当該候補楽曲の伴奏データCおよび音色データZを参照データRから特定する。具体的には、音色特定部57は、目的楽曲について登録された伴奏データCおよび音色データZを記憶装置32から取得する。他方、第2実施形態の解析処理部50は、目的楽曲が未登録曲である場合に、音響信号Vの解析により目的楽曲の伴奏データCおよび音色データZを生成する。解析処理部50の構成および動作は第1実施形態と同様である。
【0077】
図15は、第2実施形態における情報処理システム30の制御装置31が実行する処理(以下「制御処理」という)Seの具体的な手順を例示するフローチャートである。例えば音響信号Vまたは演奏データDの受信を契機として制御処理Seが開始される。
【0078】
制御処理Seが開始されると、楽曲推定部56は、図13に例示した推定処理Sdを実行する。すなわち、楽曲推定部56は、比較データRbが演奏データDに類似する所定個の候補楽曲を電子楽器20に通知する。推定処理Sdを実行すると、制御装置31は、通信装置33が電子楽器20から選択指示Eを受信するまで待機する(Se1:NO)。
【0079】
通信装置33が選択指示Eを受信した場合(Se1:YES)、制御装置31は、選択指示Eが候補楽曲を示すか否かを判定する(Se2)。以上の判定は、目的楽曲が参照データRに登録されているか否かを判定する処理である。すなわち、選択指示Eが候補楽曲を示す場合(Se2:YES)、目的楽曲が参照データRに登録されていることを意味し、選択指示Eが未登録曲を示す場合(Se2:NO)、目的楽曲が参照データRに登録されていないことを意味する。目的楽曲が参照データRに登録されていない場合、伴奏データCおよび音色データZは参照データRから特定されない。
【0080】
選択指示Eが候補楽曲を示す場合(Se2:YES)、音色特定部57は、当該候補楽曲の伴奏データCおよび音色データZを参照データRから特定する(Se3)。音色特定部57は、候補楽曲の伴奏データCおよび音色データZを通信装置33から電子楽器20に送信する(Se4)。電子楽器20は、情報処理システム30から受信した伴奏データCおよび音色データZを利用して図7の演奏処理Sbを実行する。
【0081】
他方、選択指示Eが未登録曲を示す場合(Se2:NO)、解析処理部50は、学習済モデル60を利用した図6の解析処理Saを実行する。すなわち、解析処理部50は、電子楽器20から受信した音響信号Vの解析により伴奏データCと音色データZとを生成し、伴奏データCおよび音色データZを通信装置33から電子楽器20に送信する(Sa3,Sa5)。電子楽器20は、情報処理システム30から受信した伴奏データCおよび音色データZを利用して図7の演奏処理Sbを実行する。
【0082】
以上に説明した通り、第2実施形態においては、目的楽曲の音色(音色データZ)が参照データRに登録されている場合に、音色特定部57が参照データRから音色データZを特定し、目的楽曲の音色が参照データRに登録されていない場合には、解析処理部50が学習済モデル60を利用して音色データZを生成する。すなわち、目的楽曲について適切な音色が参照データRに登録されている場合には、登録済の音色を示す音色データZが生成される。したがって、登録済の楽曲について適切な音色を特定しながら、未登録の楽曲(例えば利用者Uが作成した新規な楽曲)についても適切な音色を特定できる。また、登録済の目的楽曲については参照データRから伴奏データCおよび音色データZが特定されるから、解析処理Saは不要である。したがって、解析処理Saに必要な負荷が軽減されるという利点もある。
【0083】
C:第3実施形態
図16は、第3実施形態に係る電子楽器20の機能的な構成を例示するブロック図である。第2実施形態においては、情報処理システム30が解析処理部50と楽曲推定部56と音色特定部57とを具備する構成を例示した。第3実施形態においては、電子楽器20が解析処理部50と楽曲推定部56と音色特定部57とを具備する。以上の要素は、記憶装置22に記憶されたプログラムを制御装置21が実行することで実現される。
【0084】
図16に例示された各要素(楽曲推定部56,音色特定部57および解析処理部50)の具体的な構成および動作は、第1実施形態および第2実施形態と同様である。例えば、楽曲推定部56は、信号供給装置10から供給される音響信号V、または演奏装置24に対する演奏に応じた演奏データDを解析することで、利用者Uが演奏した目的楽曲に該当する可能性が高い複数の候補楽曲を特定する。楽曲推定部56は、各候補楽曲の楽曲情報Raを含む選択画面Gを表示装置26に表示させ、選択画面Gに対する利用者Uからの操作を受付ける。
【0085】
音色特定部57は、目的楽曲が参照データRに登録済の候補楽曲である場合に、当該候補楽曲の伴奏データCおよび音色データZを参照データRから特定する。楽曲推定部56による候補楽曲の推定と音色特定部57による処理とに適用される参照データRは、記憶装置22に記憶される。
【0086】
目的楽曲が未登録曲である場合、解析処理部50は、音響信号Vの解析により目的楽曲の伴奏データCおよび音色データZを生成する。解析処理部50による解析処理Saに適用される学習済モデル60は、記憶装置22に記憶される。すなわち、機械学習システム40が生成した学習済モデル60が電子楽器20に転送される。学習済モデル60の構成は第1実施形態と同様である。
【0087】
音源装置27は、第1実施形態と同様に、伴奏データCが示す伴奏パターンPの伴奏音と、音色データZが示す音色の演奏音との混合音を表す演奏信号Aを生成する。演奏信号Aは放音装置28に供給される。したがって、音源装置27および放音装置28は、音色データZが示す音色の音響を利用者Uによる演奏に応じて再生し、伴奏データCが示す伴奏パターンPの伴奏音を再生する再生部29として機能する。
【0088】
以上の説明から理解される通り、第3実施形態においても第1実施形態および第2実施形態と同様の効果が実現される。なお、図16においては解析処理部50と楽曲推定部56と音色特定部57とを具備する電子楽器20を例示したが、楽曲推定部56および音色特定部57は電子楽器20から省略されてもよい。
【0089】
D:第4実施形態
図17は、第4実施形態に係る演奏システム100の構成を例示するブロック図である。演奏システム100は、電子楽器20と情報装置80とを具備する。情報装置80は、例えばスマートフォンまたはタブレット端末等の装置である。情報装置80は、例えば有線または無線により電子楽器20に接続される。
【0090】
情報装置80は、制御装置81と記憶装置82とを具備するコンピュータシステムで実現される。制御装置81は、情報装置80の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置81は、CPU、SPU、DSP、FPGA、またはASIC等の1種類以上のプロセッサにより構成される。記憶装置82は、制御装置81が実行するプログラムと制御装置81が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置82は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。なお、情報装置80に対して着脱される可搬型の記録媒体、または例えば通信網200を介して制御装置81が書込または読出を実行可能な記録媒体(例えばクラウドストレージ)を、記憶装置82として利用してもよい。
【0091】
制御装置81は、記憶装置82に記憶されたプログラムを実行することで解析処理部50と楽曲推定部56と音色特定部57とを実現する。解析処理部50と楽曲推定部56と音色特定部57との各々の構成および動作は、第1実施形態から第3実施形態の例示と同様である。楽曲推定部56および音色特定部57が使用する参照データRと、解析処理部50が使用する学習済モデル60とは、記憶装置82に記憶される。
【0092】
解析処理部50または楽曲推定部56が特定した伴奏データCおよび音色データZが電子楽器20に送信される。電子楽器20の音源装置27は、第1実施形態と同様に、伴奏データCが示す伴奏パターンPの伴奏音と、音色データZが示す音色の演奏音との混合音を表す演奏信号Aを生成する。演奏信号Aは放音装置28に供給される。
【0093】
以上の説明から理解される通り、第4実施形態においても第1実施形態から第3実施形態と同様の効果が実現される。なお、図17においては解析処理部50と楽曲推定部56と音色特定部57とを具備する情報装置80を例示したが、楽曲推定部56および音色特定部57は情報装置80から省略されてもよい。
【0094】
第4実施形態においては、例えば、機械学習システム40により構築された学習済モデル60が情報装置80に転送され、当該学習済モデル60が記憶装置82に記憶される。以上の構成において、情報装置80の利用者の正当性(事前に登録された正規の利用者であること)を認証する認証処理部が機械学習システム40に搭載されてもよい。利用者の正当性が認証処理部により認証された場合に、学習済モデル60が情報装置80に自動的に(すなわち利用者からの指示を必要とせずに)転送される。
【0095】
E:第5実施形態
図18は、第5実施形態に係る演奏システム100の構成を例示するブロック図である。演奏システム100は、第4実施形態と同様に、電子楽器20と情報装置80とを具備する。電子楽器20および情報装置80の構成は、第4実施形態と同様である。
【0096】
機械学習システム40は、電子楽器20の相異なる機種に対応する複数の学習済モデル60を記憶する。電子楽器20(具体的には音源装置27)が発音可能な音色の種類および総数は、電子楽器20の機種毎に相違する。各機種に対応する学習済モデル60は、当該機種の電子楽器20が発音可能な音色の音色データZを出力し、当該電子楽器20が発音できない音色の音色データZは出力しない。具体的には、各機種の学習済モデル60を確立するための学習処理Scにおいて、当該機種の電子楽器20が発音可能な音色の音色データZtを含む訓練データTが利用される。すなわち、複数の訓練データTのセットが電子楽器20の機種毎(すなわち発音可能な音色の組合せ毎)に個別に用意され、機種毎の個別の学習処理Scにより学習済モデル60が確立される。
【0097】
情報装置80は、機械学習システム40が保持する複数の学習済モデル60の何れかを選択的に通信網200を介して取得する。具体的には、情報装置80は、複数の学習済モデル60のうち、当該情報装置80に接続された電子楽器20の機種に対応する1個の学習済モデル60を機械学習システム40から取得する。機械学習システム40から取得した学習済モデル60が記憶装置82に記憶され、解析処理部50による解析処理Saに利用される。解析処理Saの具体的な手順は前述の各形態と同様である。
【0098】
以上の説明から理解される通り、第5実施形態においても第1実施形態から第3実施形態と同様の効果が実現される。また、第5実施形態においては、電子楽器20の機種毎に学習済モデル60が確立されるから、電子楽器20の機種に関わらず共通の学習済モデル60が利用される構成と比較して、各機種の電子楽器20にとって適切な音色データZを高精度に推定できるという利点もある。なお、第1実施形態または第2実施形態の情報処理システム30と、第3実施形態の電子楽器20と、第4実施形態または第5実施形態の情報装置80とは、「情報処理システム」の一例である。
【0099】
F:変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
【0100】
(1)時間軸上の所定長の期間(以下「単位期間」という)毎に解析処理部50が音色データZを生成してもよい。具体的に、第1取得部51は、音響信号Vの単位期間毎に音響データFを生成する。生成部53は、複数の単位期間の各々において、当該単位期間の音響データFと第2取得部52が特定した伴奏データCとを含む入力データXから音色データZを生成する。
【0101】
相異なる単位期間に対応する複数の音色データZから、制御装置21または制御装置31が、音源装置27に設定される1種類の音色を特定してもよい。例えば、複数の音色データZにおいて最頻の音色を選択してもよい。また、生成部53が特定した回数の降順で所定個の音色を利用者Uに提示し、所定個の音色のうち音源装置27に設定される1種類の音色を利用者Uが選択してもよい。
【0102】
(2)第1実施形態の第1取得部51は音響データFを生成したが、電子楽器20において音響信号Vから生成された音響データFを、第1取得部51が電子楽器20から受信してもよい。すなわち、第1取得部51による音響データFの取得は、音響データFの生成と音響データFの受信との双方を包含する。また、第1実施形態の第2取得部52は伴奏データCを生成したが、電子楽器20において音響信号Vから生成された伴奏データCを、第2取得部52が電子楽器20から受信してもよい。すなわち、第2取得部52による伴奏データCの取得は、伴奏データCの生成と伴奏データCの受信との双方を包含する。なお、第1取得部51または第2取得部52は、電子楽器20に搭載されてもよい。
【0103】
(3)前述の各形態においては、音色データZが1種類の音色を示す形態を例示したが、音色データZの形式は以上の例示に限定されない。例えば、音色データZは、複数種の音色の各々について確率分布を示すデータでもよい。具体的には、音色データZは、例えば正規分布で表現される確率分布の平均および分散を音色毎に指定する。制御装置21または制御装置31は、音色データZが相異なる音色について指定する複数の確率分布から、最尤の1種類の音色を特定する。音色毎の確率分布を示す音色データZも、音色を示すデータに該当する。
【0104】
(4)前述の各形態においては、生成部53が音響データFと伴奏データCとから音色データZを生成したが、生成部53が音響データFのみから音色データZを生成してもよい。すなわち、伴奏データCは省略されてもよい。以上の説明から理解される通り、学習済モデル60は、参照楽曲の音響(音響データFt)と当該参照楽曲に使用される音色(音色データZt)との関係を学習したモデルとして包括的に表現される。
【0105】
(5)前述の各形態においては、深層ニューラルネットワークを学習済モデル60として例示したが、学習済モデル60は深層ニューラルネットワークに限定されない。例えば、HMM(Hidden Markov Model)またはSVM(Support Vector Machine)等の統計的推定モデルを、学習済モデル60として利用してもよい。具体的には以下の通りである。
【0106】
(5-1)HMM
HMMは、複数の潜在状態を相互に連結した統計的推定モデルである。HMMの複数の潜在状態の各々は、相異なる複数種の音色の何れか(すなわち音色データZ)を表す。各潜在状態においては、当該潜在状態が表す音色に関する特徴を表す音響データFが生成される。音響データFは、前述の各形態と同様に、例えばMFCC,MSLS、または定Q変換等の周波数特性の時系列を表すデータである。また、HMMを構成する複数の潜在状態は、音響信号Vを時間軸上で区分した複数の期間(以下「処理期間」という)にそれぞれ対応する。各処理期間は、例えば、所定個(単数または複数)の小節を単位として目的楽曲を区分した期間である。
【0107】
第1取得部51は、音響信号Vの各処理期間について音響データFを生成する。生成部53は、音響信号Vの相異なる処理期間について生成された複数の音響データFの時系列を、HMMで構成される学習済モデル60に入力する。生成部53は、複数の音響データFの時系列が観測されたという条件のもとで最尤の音色データZの時系列を、HMMを利用して推定する。すなわち、音響信号Vの処理期間毎に音色データZがHMMから出力される。音色データZの時系列の推定には、例えばビタビアルゴリズム等の動的計画アルゴリズムが利用される。
【0108】
HMMは、音色データZを含む複数の訓練データTを利用した教師あり機械学習(学習処理Sc)により確立される。学習処理Scにおいては、複数の音響データFの時系列に対して最尤の音色データZの時系列が出力されるように、各潜在状態における遷移確率および出力確率が反復的に更新される。
【0109】
(5-2)SVM
複数種の音色から2種類の音色を選択する全通りの組合せの各々についてSVMが用意される。2種類の音色の組合せに対応するSVMについては、多次元空間内の超平面が機械学習(学習処理Sc)により確立される。超平面は、2種類の音色のうち一方の音色に対応する入力データXが分布する空間と、他方の音色に対応する入力データXが分布する空間とを分離する境界面である。学習済モデル60は、相異なる音色の組合せに対応する複数のSVMで構成される(multi-class SVM)。
【0110】
生成部53は、音響データFと伴奏データCとを含む入力データXを複数のSVMの各々に入力する。各組合せに対応するSVMは、超平面で分離される2個の空間の何れに入力データXが存在するかに応じて、当該組合せに係る2種類の音色の何れかを選択する。相異なる組合せに対応する複数のSVMの各々において同様に音色の選択が実行される。生成部53は、複数種の音色のうち複数のSVMによる選択の回数が最大となる音色を表す音色データZを生成する。
【0111】
以上の例示から理解される通り、学習済モデル60の種類に関わらず、生成部53は、入力データXを学習済モデル60に入力することで、目的楽曲に適応した音色を示す音色データZを当該学習済モデル60から出力する要素、として機能する。
【0112】
(6)前述の各形態においては、複数の訓練データTを利用した教師あり機械学習を学習処理Scとして例示したが、訓練データTを必要としない教師なし機械学習、または報酬を最大化させる強化学習により、学習済モデル60を確立してもよい。例えば、学習処理部72は、各訓練データTの入力データXtに対して暫定モデル65が出力する音色データZtと当該訓練データTの音色データZとが一致する場合に報酬関数を「+1」に設定し、両者が一致しない場合に報酬関数を「-1」に設定する。学習処理部72は、複数の訓練データTについて設定された報酬関数の総和が最大化されるように、暫定モデル65の複数の変数を反復的に更新することで、学習済モデル60を確立する。また、教師なし機械学習としては、公知のクラスタリングを利用した機械学習が例示される。
【0113】
(7)前述の各形態においては、機械学習システム40が学習済モデル60を確立したが、機械学習システム40の機能(訓練データ取得部71および学習処理部72)は、情報処理システム30に搭載されてもよい。また、機械学習システム40の機能(訓練データ取得部71および学習処理部72)は、第3実施形態における電子楽器20、または第4実施形態における情報装置80に搭載されてもよい。
【0114】
(8)前述の各形態においては、参照楽曲の入力データXと当該参照楽曲の音色データZとの関係を学習した学習済モデル60を利用して、音響信号Vに応じた入力データXから音色データZを生成したが、入力データXから音色データZを生成するための構成および方法は、以上の例示に限定されない。例えば、相異なる複数の入力データXの各々に音色データZが対応付けられた参照テーブルが、生成部53による音色データZの生成に利用されてもよい。参照テーブルは、入力データXと音色データZとの対応が登録されたデータテーブルであり、例えば記憶装置32に記憶される。解析処理部50の生成部53は、音響信号Vから生成された入力データXに一致または近似する入力データXを参照テーブルから検索し、複数の音色データZのうち当該入力データXに対応付けられた音色データZを参照テーブルから取得する。以上の構成によっても、前述の各形態と同様に、例えば新規な楽曲に適応した音色を特定できる。
【0115】
(9)前述の各形態に例示した機能(解析処理部50,楽曲推定部56、音色特定部57)は、前述の通り、制御装置(21,31,71)を構成する単数または複数のプロセッサと、記憶装置(22,32,72)に記憶されたプログラムとの協働により実現される。以上のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記録媒体が、前述の非一過性の記録媒体に相当する。
【0116】
G:付記
以上に例示した形態から、例えば以下の構成が把握される。
【0117】
ひとつの態様(態様1)に係る情報処理システムは、目的楽曲の音響を表す音響データを取得する第1取得部と、参照楽曲の音響と当該参照楽曲に使用される音色との関係を学習した学習済モデルに、前記取得した音響データを含む入力データを入力することで、前記目的楽曲に適応した音色を示す音色データを前記学習済モデルから出力する生成部とを具備する。以上の態様によれば、目的楽曲の音響を表す音響データを含む入力データを学習済モデルに入力することで、当該目的楽曲に適応した音色を示す音色データが生成される。したがって、例えば新規な楽曲に適応した音色を特定できる。
【0118】
音響データが表す音響は、例えば楽曲の演奏により楽器等の発音源から発音される楽音である。「演奏」には、各種の楽器の操作のほか、歌唱者による歌唱も包含される。また、「音色データ」は、目的楽曲に適応した音色を示す任意の形式のデータである。例えば、1種類の音色を識別するための識別情報が音色データとして想定される。ただし、音色データは、1種類の音色を明示的に指定するデータには限定されない。例えば、複数種の音色の各々について確率(尤度)を示すデータ、または、複数の音色の各々について確率分布(例えば平均および分散)を示すデータも、「音色データ」の概念には包含される。
【0119】
目的楽曲に「適応した」音色とは、目的楽曲に対して音楽的に対応する音色を意味する。例えば、目的楽曲の曲調に対応する音色、目的楽曲の音楽的な表情に調和する音色等、目的楽曲に相応しい音色が「目的楽曲に適応した音色」と解釈される。
【0120】
「学習済モデル」は、例えば複数の訓練データを利用した教師あり機械学習により確立された統計的推定モデルである。複数の訓練データの各々は、例えば、訓練用の入力データと訓練用の音色データ(正解値)との組合せである。
【0121】
態様1の具体例(態様2)に係る情報処理システムは、前記目的楽曲に対応する伴奏パターンを示す伴奏データを取得する第2取得部を具備し、前記学習済モデルは、前記参照楽曲の音響および当該参照楽曲の伴奏パターンと、当該参照楽曲に使用される音色との関係を学習したモデルであり、前記入力データは、前記音響データと前記伴奏データとを含む。以上の態様においては、目的楽曲の音響を表す音響データと、目的楽曲に対応する伴奏パターンを示す伴奏データとを含む入力データが、学習済モデルに入力される。したがって、目的楽曲の音響と当該目的楽曲の伴奏パターンとの組合せに適応した音色を特定できる。
【0122】
「伴奏パターン」は、楽曲の伴奏音を表す音響信号である。例えば、複数種の伴奏パターンの何れかを識別するための識別情報が「伴奏データ」として例示される。伴奏データは、例えば、目的楽曲の音響を解析することで自動的に推定された伴奏パターン、または、利用者が指定した伴奏パターンを指定する。
【0123】
態様2の具体例(態様3)において、前記学習済モデルは、前記目的楽曲の音響に関する特徴を表す第1データを前記音響データから生成する第1モデルと、前記伴奏パターンの特徴を表す第2データを前記伴奏データから生成する第2モデルと、前記第1データと前記第2データとを含む中間データから前記音色データを生成する第3モデルとを含む。
【0124】
態様1から態様3の具体例(態様4)に係る情報処理システムは、複数の楽曲の各々について当該楽曲に適応する音色が登録された参照データに、前記目的楽曲に適応する音色が登録されている場合に、当該音色を示す音色データを前記参照データから特定する音色特定部をさらに具備し、前記生成部は、前記目的楽曲について音色が前記参照データに登録されていない場合に、前記学習済モデルを利用して前記音色データを生成する。以上の態様においては、目的楽曲について適切な音色が参照データに登録されている場合には、登録済の音色を示す音色データが生成される。したがって、登録済の楽曲について適切な音色を示す音色データを生成しながら、未登録の楽曲(例えば利用者が作成した新規な楽曲)についても適切な音色を特定できる。
【0125】
態様4の具体例(態様5)に係る情報処理システムは、利用者が演奏した楽曲に対応する複数の候補楽曲を、前記参照データに登録された前記複数の楽曲から推定する楽曲推定部をさらに具備し、前記音色特定部は、前記利用者が前記複数の候補楽曲の何れかを前記目的楽曲として選択した場合に、当該目的楽曲に対応する前記音色データを前記参照データから特定する。以上の態様においては、複数の候補楽曲の何れかを利用者が目的楽曲として選択した場合には、当該目的楽曲に対応する音色データが参照データから特定される。したがって、利用者が演奏した楽曲について適切な音色データを特定できる。
【0126】
態様5の具体例(態様6)において、前記生成部は、前記利用者が前記複数の候補楽曲以外の楽曲を前記目的楽曲として選択した場合に、前記学習済モデルを利用して前記音色データを生成する。以上の態様によれば、複数の候補楽曲以外の未登録曲について適切な音色データを生成できる。
【0127】
態様5または態様6の具体例(態様7)において、前記参照データには、前記複数の楽曲の各々について、当該楽曲の内容を表す比較データが登録され、前記楽曲推定部は、前記複数の楽曲の各々について登録された前記比較データと、前記利用者による演奏を表すデータとを比較することで、前記複数の候補楽曲を推定する。以上の態様によれば、音色データとともに参照データに登録された比較データを利用して候補楽曲を推定できる。
【0128】
態様1から態様7の何れかの具体例(態様8)において、前記音響データは、前記目的楽曲の音響に関する周波数特性の時系列を表すデータである。目的楽曲の音響に関する周波数特性としては、例えば振幅スペクトルまたはパワースペクトル等の強度スペクトルのほか、MFCC(Mel-Frequency Cepstrum Coefficient),MSLS(Mel-Scale Log Spectrum)、または定Q変換(CQT:Constant-Q Transform)等が例示される。
【0129】
本開示のひとつの態様(態様9)に係る電子楽器は、利用者による演奏を受付ける演奏受付部と、目的楽曲の音響を表す音響データを取得する第1取得部と、参照楽曲の音響と当該参照楽曲に使用される音色との関係を学習した学習済モデルに、前記取得した音響データを含む入力データを入力することで、前記目的楽曲に適応した音色を示す音色データを前記学習済モデルから出力する生成部と、前記演奏受付部が受付ける演奏に応じて、前記音色データに応じた音色の音響を再生する再生部とを具備する。「演奏受付部が受付ける演奏」は、例えば複数の鍵に対する演奏である。
【0130】
態様9の具体例(態様10)において、前記演奏受付部は、相異なる音高に対応する複数の鍵が配列された鍵盤を含み、前記再生部は、前記複数の鍵のうち前記利用者が演奏した鍵に対応する音高と、前記音色データに応じた音色とを有する音響を再生する。すなわち、電子楽器は、鍵盤を具備する鍵盤楽器である。以上の態様によれば、利用者が鍵盤により演奏した音高と音色データに応じた音色とを有する音響を再生できる。
【0131】
本開示のひとつの態様(態様11)に係る情報処理方法は、目的楽曲の音響を表す音響データを取得し、参照楽曲の音響と当該参照楽曲に使用される音色との関係を学習した学習済モデルに、前記取得した音響データを含む入力データを入力することで、前記目的楽曲に適応した音色を示す音色データを前記学習済モデルから出力する。情報処理システムについて採用され得る前述の各態様(態様2から態様8)は、態様11に係る情報処理方法についても同様に採用される。
【0132】
本開示のひとつの態様に係るプログラムは、目的楽曲の音響を表す音響データを取得する第1取得部、および、参照楽曲の音響と当該参照楽曲に使用される音色との関係を学習した学習済モデルに、前記取得した音響データを含む入力データを入力することで、前記目的楽曲に適応した音色を示す音色データを前記学習済モデルから出力する生成部、としてコンピュータシステムを機能させる。
【符号の説明】
【0133】
100…演奏システム、10…信号供給装置、20…電子楽器、21,31,41,81…制御装置、22,32,42,82…記憶装置、23,33,43…通信装置、24…演奏装置、25…操作装置、26…表示装置、27…音源装置、28…放音装置、29…再生部、30…情報処理システム、40…機械学習システム、50…解析処理部、51…第1取得部、52…第2取得部、53…生成部、56…楽曲推定部、57…音色特定部、60…学習済モデル、61…第1モデル、62…第2モデル、63…第3モデル、65…暫定モデル、71…訓練データ取得部、72…学習処理部、80…情報装置。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18