(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-20
(45)【発行日】2023-03-01
(54)【発明の名称】音響解析方法、音響解析装置、プログラムおよび機械学習方法
(51)【国際特許分類】
G10H 1/38 20060101AFI20230221BHJP
G10L 25/51 20130101ALI20230221BHJP
G10L 25/90 20130101ALI20230221BHJP
G10H 1/00 20060101ALI20230221BHJP
G10G 3/04 20060101ALI20230221BHJP
【FI】
G10H1/38 Z
G10L25/51 300
G10L25/90
G10H1/00 B
G10G3/04
(21)【出願番号】P 2018223863
(22)【出願日】2018-11-29
【審査請求日】2021-09-21
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】100125689
【氏名又は名称】大林 章
(74)【代理人】
【識別番号】100128598
【氏名又は名称】高田 聖一
(74)【代理人】
【識別番号】100121108
【氏名又は名称】高橋 太朗
(72)【発明者】
【氏名】須見 康平
【審査官】佐久 聖子
(56)【参考文献】
【文献】特開2019-139209(JP,A)
【文献】特開2017-090848(JP,A)
【文献】丸尾 智志,音楽音響信号に対する歌声・伴奏音・打楽器音分離に基づくコード認識,情報処理学会 研究報告 音楽情報科学(MUS) 2015-MUS-108 [online] ,日本,情報処理学会,2015年08月31日,pp.1-6
(58)【調査した分野】(Int.Cl.,DB名)
G10H 1/00- 7/12
G10L 25/51
G10L 25/90
G10G 3/04
(57)【特許請求の範囲】
【請求項1】
特徴量の時系列とコードが継続する連続区間の境界を表す境界データとの関係を学習した境界推定モデルに音響信号の特徴量の時系列を入力することにより境界データを生成する
コンピュータにより実現される
音響解析方法であって、
前記境界データは、時間軸上の複数の時点の各々が前記連続区間の境界であるか否かを2値的に表す
音響解析方法。
【請求項2】
特徴量の時系列とコードが継続する連続区間の境界を表す境界データとの関係を学習した境界推定モデルに音響信号の特徴量の時系列を入力することにより境界データを生成する
コンピュータにより実現される
音響解析方法であって、
前記境界データは、時間軸上の複数の時点の各々が前記連続区間の境界である尤度を表す
音響解析方法。
【請求項3】
特徴量の時系列とコードが継続する連続区間の境界を表す境界データとの関係を学習した境界推定モデルに音響信号の特徴量の時系列を入力することにより境界データを生成
し、
前記音響信号から推定されるコード系列を、前記生成された境界データに応じて修正する
コンピュータにより実現される音響解析方法。
【請求項4】
前記音響信号の特徴量は、当該音響信号のうち音階音に対応する音響成分の強度に応じた成分強度を音階音毎に含む
請求項1
から請求項3の何れかの音響解析方法。
【請求項5】
前記生成された境界データに応じて処理装置を制御する
請求項1から請求項4の何れかの音響解析方法。
【請求項6】
特徴量の時系列とコードが継続する連続区間の境界を表す境界データとの関係を学習した学習済モデルであって、音響信号の特徴量の時系列の入力に対して境界データを生成する境界推定モデル
を具備
し、
前記境界データは、時間軸上の複数の時点の各々が前記連続区間の境界であるか否かを2値的に表す
音響解析装置。
【請求項7】
特徴量の時系列とコードが継続する連続区間の境界を表す境界データとの関係を学習した学習済モデルであって、音響信号の特徴量の時系列の入力に対して境界データを生成する境界推定モデル
を具備
し、
前記境界データは、時間軸上の複数の時点の各々が前記連続区間の境界である尤度を表す
音響解析装置。
【請求項8】
特徴量の時系列とコードが継続する連続区間の境界を表す境界データとの関係を学習した学習済モデルであって、音響信号の特徴量の時系列の入力に対して境界データを生成する境界推定モデルを具備
し、
前記音響信号から推定されるコード系列を、前記生成された境界データに応じて修正する
音響解析装置。
【請求項9】
前記音響信号の特徴量は、当該音響信号のうち音階音に対応する音響成分の強度に応じた成分強度を音階音毎に含む
請求項6から請求項8の何れかの音響解析装置。
【請求項10】
前記生成された境界データに応じて処理装置を制御する
請求項6から請求項9の何れかの音響解析装置。
【請求項11】
特徴量の時系列とコードが継続する連続区間の境界を表す境界データとの関係を学習した学習済モデルであって、音響信号の特徴量の時系列の入力に対して境界データを生成する境界推定モデル
としてコンピュータを機能させるプログラムであって、
前記境界データは、時間軸上の複数の時点の各々が前記連続区間の境界であるか否かを2値的に表す
プログラム。
【請求項12】
特徴量の時系列とコードが継続する連続区間の境界を表す境界データとの関係を学習した学習済モデルであって、音響信号の特徴量の時系列の入力に対して境界データを生成する境界推定モデル
としてコンピュータを機能させるプログラムであって、
前記境界データは、時間軸上の複数の時点の各々が前記連続区間の境界である尤度を表す
プログラム。
【請求項13】
特徴量の時系列とコードが継続する連続区間の境界を表す境界データとの関係を学習した学習済モデルであって、音響信号の特徴量の時系列の入力に対して境界データを生成する境界推定モデル、および、
前記音響信号から推定されるコード系列を、前記生成された境界データに応じて修正する要素、
としてコンピュータを機能させるプログラム。
【請求項14】
特徴量の時系列とコードが継続する連続区間の境界を表す境界データとを含む複数の教師データを取得し、
前記複数の教師データを利用した機械学習により、特徴量の時系列とコードが継続する連続区間の境界を表す境界データとの関係を学習した境界推定モデルを構築する
コンピュータにより実現される機械学習方法であって、
前記境界データは、時間軸上の複数の時点の各々が前記連続区間の境界であるか否かを2値的に表す
機械学習方法。
【請求項15】
特徴量の時系列とコードが継続する連続区間の境界を表す境界データとを含む複数の教師データを取得し、
前記複数の教師データを利用した機械学習により、特徴量の時系列とコードが継続する連続区間の境界を表す境界データとの関係を学習した境界推定モデルを構築する
コンピュータにより実現される機械学習方法であって、
前記境界データは、時間軸上の複数の時点の各々が前記連続区間の境界である尤度を表す
機械学習方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響信号を解析する技術に関する。
【背景技術】
【0002】
楽曲の歌唱音または演奏音等の音響を表す音響信号からコードを推定する技術が従来から提案されている。例えば特許文献1には、入力楽音の波形データから解析した周波数スペクトルに基づいてコードを判定する技術が開示されている。特許文献2には、入力音の基本周波数の確率密度関数にピークが観測される基本周波数の構成音を含むコードを同定する技術が開示されている。特許文献3には、機械学習済のニューラルネットワークを利用してコードを推定する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2000-298475号公報
【文献】特開2008-209550号公報
【文献】特開2017-215520号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
楽曲内において同じコードが継続する区間(以下「連続区間」という)の推定が要求される場面が想定される。特許文献1から特許文献3の技術により推定されたコードの時系列から各連続区間を推定することも可能である。しかし、特許文献1から特許文献3の技術のもとでコードが誤推定された場合には、連続区間も誤推定されるという問題がある。本発明は、音響信号の解析により連続区間を高精度に推定することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために、本発明の好適な態様に係る音響解析方法は、特徴量の時系列とコードが継続する連続区間の境界を表す境界データとの関係を学習した境界推定モデルに音響信号の特徴量の時系列を入力することにより境界データを生成する。
【0006】
本発明の好適な態様に係る音響解析装置は、特徴量の時系列とコードが継続する連続区間の境界を表す境界データとの関係を学習した学習済モデルであって、音響信号の特徴量の時系列の入力に対して境界データを生成する境界推定モデルを具備する。
【図面の簡単な説明】
【0007】
【
図1】第1実施形態に係る音響解析装置の構成を例示するブロック図である。
【
図2】音響解析装置の機能的な構成を例示するブロック図である。
【
図5】境界推定処理の具体的な手順を例示するフローチャートである。
【発明を実施するための形態】
【0008】
<第1実施形態>
図1は、本発明の第1実施形態に係る音響解析装置100の構成を例示するブロック図である。音響解析装置100は、楽曲の歌唱音または演奏音等の音響を表す音響信号Vを解析することで、当該楽曲における各連続区間を推定する情報処理装置である。連続区間は、1個のコードが継続する一連の区間を意味する。楽曲内に複数の連続区間が推定される。
【0009】
音響解析装置100は、制御装置11と記憶装置12と処理装置13とを具備するコンピュータシステムで実現される。例えば携帯電話機、スマートフォンまたはパーソナルコンピュータ等の情報端末が、音響解析装置100として好適に利用される。処理装置13は、音響信号Vを解析した結果に応じた処理を実行する電子機器である。音響信号Vから推定された各連続区間を表示する表示装置が処理装置13として好適である。
【0010】
制御装置11は、例えばCPU(Central Processing Unit)等の単数または複数の処理回路で構成され、音響解析装置100の各要素を統括的に制御する。記憶装置12は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成された単数または複数のメモリであり、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する。例えば記憶装置12は音響信号Vを記憶する。なお、複数種の記録媒体の組合せにより記憶装置12を構成してもよい。また、音響解析装置100に対して着脱可能な可搬型の記録媒体、または音響解析装置100が通信網を介して通信可能な外部記録媒体(例えばオンラインストレージ)を、記憶装置12として利用してもよい。
【0011】
図2は、記憶装置12に記憶されたプログラムを制御装置11が実行することで実現される機能を例示するブロック図である。制御装置11は、特徴抽出部21と境界推定モデル22と学習処理部23とを実現する。なお、相互に別体で構成された複数の装置により制御装置11の機能を実現してもよい。制御装置11の機能の一部または全部を専用の電子回路により実現してもよい。
【0012】
特徴抽出部21は、記憶装置12に記憶された音響信号Vから特徴量Yを抽出する。
図3に例示される通り、特徴量Yは単位期間T(T1,T2,T3,…)毎に抽出される。すなわち、音響信号Vから特徴量Yの時系列が生成される。単位期間Tは、例えば楽曲の1拍分に相当する期間である。ただし、楽曲の拍点とは無関係に、固定長または可変長の単位期間Tを画定してもよい。
【0013】
各単位期間Tの特徴量Yは、音響信号Vのうち当該単位期間T内の部分に関する音響的な特徴を表す指標である。
図4に例示される通り、第1実施形態の特徴量Yは、クロマベクトルQと強度Pとを含む。クロマベクトルQは、相異なる音階音(具体的には平均律の12半音)に対応する12個の成分強度q1~q12を含む12次元ベクトルである。音階音は、オクターブの相違を無視した音名(ピッチクラス)である。クロマベクトルQを構成する任意の1個の成分強度qn(n=1~12)は、音響信号Vにおいて第n番目の音階音に対応する音響成分の強度を複数のオクターブにわたり加算した数値である。特徴量Yに含まれる強度Pは、音響信号Vの音量またはパワーである。
【0014】
図2に例示される通り、特徴抽出部21が生成した特徴量Yの時系列が境界推定モデル22に入力される。境界推定モデル22は、特徴量Yの時系列と境界データBとの関係を学習した学習済モデルである。すなわち、境界推定モデル22は、特徴量Yの時系列の入力により境界データBを出力する。境界データBは、時間軸上における各連続区間の境界を表す時系列データである。
【0015】
図3に例示される通り、境界データBは、時間軸上の各単位期間T(T1,T2,T3,…)に対応する単位データbの時系列で構成される。各単位期間Tの特徴量Y毎に境界推定モデル22から1個の単位データbが出力される。各単位期間Tに対応する単位データbは、当該単位期間Tに対応する時点が連続区間の境界に該当するか否かを2値的に表すデータである。例えば任意の1個の単位期間Tに対応する単位データbは、当該単位期間Tの始点が連続区間の境界である場合に数値1に設定され、当該単位期間Tの始点が連続区間の境界に該当しない場合に数値0に設定される。すなわち、単位データbの数値1は、当該単位データbに対応する単位期間Tが連続区間の先頭であることを意味する。以上の説明から理解される通り、境界推定モデル22は、特徴量Yの時系列から各連続区間の境界を推定する統計的推定モデルである。また、第1実施形態の境界データBは、時間軸上の複数の時点の各々が連続区間の境界に該当するか否かを2値的に表す時系列データである。
【0016】
境界推定モデル22は、特徴量Yの時系列から境界データBを生成する演算を制御装置11に実行させるプログラム(例えば人工知能ソフトウェアを構成するプログラムモジュール)と、当該演算に適用される複数の係数Kとの組合せで実現される。複数の係数Kは、複数の教師データを利用した機械学習(特に深層学習)により設定されて記憶装置12に記憶される。例えば時系列データの処理に好適な長短期記憶(LSTM:Long Short Term Memory)等の再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)が境界推定モデル22として好適に利用される。
【0017】
図5は、音響信号Vから各連続区間の境界を推定する処理(以下「境界推定処理」という)の具体的な手順を例示するフローチャートである。例えば利用者からの指示を契機として境界推定処理が開始される。境界推定処理を開始すると、特徴抽出部21は、記憶装置12に記憶された音響信号Vから特徴量Yを単位期間T毎に抽出する(Sa1)。境界推定モデル22は、特徴抽出部21が抽出した特徴量Yの時系列から境界データBを生成する(Sa2)。制御装置11は、境界推定モデル22から出力される境界データBが表す各連続区間を処理装置13に表示させる(Sa3)。なお、境界推定モデル22による推定の結果を表す表示画面の内容は任意である。例えば、音響信号Vが表す楽曲の楽譜が、当該楽曲内の連続区間毎に相異なる態様(例えば色彩)で表示される。
【0018】
図2の学習処理部23は、境界推定モデル22の複数の係数Kを機械学習(特に深層学習)により設定する。学習処理部23は、複数の教師データLを利用した機械学習により複数の係数Kを設定する。
図6に例示される通り、複数の教師データLの各々は、特徴量Yの時系列と境界データBxとの組合せで構成される。各教師データLの境界データBxは、当該教師データLにおける特徴量Yの時系列に対する正解値に相当し、特徴量Yの時系列に対応する既知の単位データbの時系列で構成される。すなわち、境界データBxの複数の単位データbのうち、各連続区間の先頭の単位期間Tに対応する単位データbは数値1に設定され、各連続区間の先頭以外の単位期間Tに対応する単位データbは数値0に設定される。
【0019】
図2の学習処理部23は、教師データLの特徴量Yの時系列を入力することにより暫定的な境界推定モデル22から出力される境界データBと、当該教師データLの境界データBxとの相違が低減されるように、境界推定モデル22の複数の係数Kを更新する。具体的には、学習処理部23は、境界データBと境界データBxとの相違を表す評価関数が最小化されるように、例えば誤差逆伝播法により複数の係数Kを反復的に更新する。以上の手順で学習処理部23が設定した複数の係数Kが記憶装置12に記憶される。したがって、境界推定モデル22は、複数の教師データLにおける特徴量Yの時系列と境界データBxとの間に潜在する傾向のもとで、未知の特徴量Yの時系列に対して統計的に妥当な境界データBを出力する。
【0020】
以上に説明した通り、第1実施形態によれば、特徴量Yの時系列と境界データBとの関係を学習した境界推定モデル22に音響信号Vの特徴量Yを入力することで境界データBが生成される。すなわち、境界データBの生成は、コードの推定を必要としない独立した処理である。したがって、音響信号Vの解析により推定されたコードの時系列から各連続区間を特定する構成と比較して、コードの推定結果に影響されることなく音響信号Vの解析により各連続区間を高精度に推定することが可能である。
【0021】
また、第1実施形態では、音響信号Vのうち音階音に対応する音響成分の強度に応じた成分強度qnを音階音毎に含む特徴量Yが、境界データBの生成に利用される。以上の構成によれば、音響信号Vが表す楽曲のコードが適切に反映された特徴量Yを利用して、各連続区間の境界を高精度に推定できるという利点がある。
【0022】
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下の各例示において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
【0023】
第1実施形態では、各単位期間Tが連続区間の境界に該当するか否かを2値的に表す境界データBを例示した。第2実施形態の境界データBは、各単位期間Tが連続区間の境界である尤度を表す。具体的には、境界データBを構成する複数の単位データbの各々は、0以上かつ1以下の範囲内の数値に設定され、複数の単位データbが表す数値の合計は所定値(例えば1)となる。境界データBを構成する複数の単位データbのうち、数値が大きい単位データbに対応する単位期間Tが、連続区間の境界に位置すると判定される。第2実施形態においても第1実施形態と同様の効果が実現される。
【0024】
<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
【0025】
(1)前述の各形態では、境界推定モデル22と学習処理部23とを具備する音響解析装置100を例示したが、音響解析装置100とは別体の情報処理装置(以下「機械学習装置」という)に学習処理部23を搭載してもよい。機械学習装置の学習処理部23が設定した複数の係数Kを適用した境界推定モデル22が、音響解析装置100に転送されて連続区間の境界の推定に利用される。以上の説明から理解される通り、音響解析装置100から学習処理部23は省略される。
【0026】
(2)携帯電話機またはスマートフォン等の情報端末との間で通信するサーバ装置により音響解析装置100を実現してもよい。例えば、音響解析装置100は、情報端末から受信した音響信号Vの解析により境界データBを生成して情報端末に送信する。なお、音響信号Vから特徴量Yを抽出する特徴抽出部21が情報端末に搭載された構成では、音響解析装置100は、情報端末から受信した特徴量Yの時系列を境界推定モデル22に入力することで境界データBを生成し、当該境界データBを情報端末に送信する。以上の説明から理解される通り、音響解析装置100から特徴抽出部21を省略してもよい。
【0027】
(3)前述の各形態では、クロマベクトルQと強度Pとを含む特徴量Yを例示したが、特徴量Yの内容は以上の例示に限定されない。例えば、クロマベクトルQを単独で特徴量Yとして利用してもよい。また、例えば音響信号Vの複数の周波数帯域の各々についてクロマベクトルQと強度Pとを含む特徴量Yを生成してもよい。例えば、音響信号Vのうち所定の周波数に対して低域側の帯域成分と高域側の帯域成分との各々についてクロマベクトルQと強度Pとを含む特徴量Yを生成してもよい。
【0028】
(4)前述の各形態では境界データBを表示したが、境界推定モデル22が生成する境界データBの用途は以上の例示に限定されない。具体的には、公知の解析技術により音響信号Vからコードの時系列(以下「コード系列」という)を推定し、境界推定モデル22が生成した境界データBを利用してコード系列を修正してもよい。例えば、境界データBが表す各連続区間内では同じコードが継続するように、音響信号Vから推定されたコード系列が修正される。
【0029】
また、各種の処理装置13の制御に境界データBを利用してもよい。例えば、楽曲の自動演奏を実行する自動演奏装置(例えば自動演奏ピアノ)を処理装置13として想定する。自動演奏装置は、自動演奏時の演奏スタイルを変更可能である。自動演奏装置は、音響信号Vが表す楽曲の自動演奏時に、境界データBが表す連続区間毎に演奏スタイルを変更する。以上の構成によれば、楽曲内の連続区間毎に自動演奏の音楽的な表情を多様に変化させることが可能である。なお、演奏スタイルは、例えば自動演奏のパターンまたは音楽的な表情付けを含む。音楽的な表情付けは、例えば音色、エフェクト、音量、強弱または奏法である。
【0030】
例えばカラオケボックス等の音響空間に設置された照明装置を処理装置13として想定する。照明装置は、境界データBが表す連続区間毎に照明装置による照明条件を変更する。照明条件は、例えば発光量、発光色または発光パターン等の各種の特性である。以上の構成によれば、楽曲内の連続区間毎に照明装置による照明を多様に変化させることが可能である。
【0031】
(5)前述の各形態に係る音響解析装置100は、各形態での例示の通り、コンピュータ(具体的には制御装置11)とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含み得る。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供することも可能である。
【0032】
なお、境界推定モデル22を実現するプログラムの実行主体はCPU等の汎用の処理回路に限定されない。例えば、Tensor Processing UnitまたはNeural Engine等の人工知能に特化した処理回路、または信号処理用の電子回路(DSP:Digital Signal Processor)がプログラムを実行してもよい。また、以上の例示から選択された複数種の主体が協働してプログラムを実行してもよい。
【0033】
(6)以上に例示した形態から、例えば以下の構成が把握される。
【0034】
本発明の好適な態様(第1態様)に係る音響解析方法は、特徴量の時系列とコードが継続する連続区間の境界を表す境界データとの関係を学習した境界推定モデルに音響信号の特徴量の時系列を入力することにより境界データを生成する。以上の態様によれば、特徴量の時系列と連続区間の境界を表す境界データとの関係を学習した境界推定モデルに音響信号の特徴量を入力することで、音響信号に関する境界データが生成される。すなわち、境界データの生成にコードの推定は必要ない。したがって、音響信号の解析によりコードを解析した結果から各連続区間を特定する構成と比較して、コードの推定結果に影響されることなく音響信号の解析により各連続区間を高精度に推定できるという利点がある。
【0035】
第1態様の好適例(第2態様)において、前記音響信号の特徴量は、当該音響信号のうち音階音に対応する音響成分の強度に応じた成分強度を音階音毎に含む。以上の態様によれば、音響信号が表す楽曲のコードが適切に反映された特徴量を利用して、各連続区間の境界を高精度に推定できるという利点がある。
【0036】
以上に例示した各態様の音響解析方法を実行する音響解析装置、または、以上に例示した各態様の音響解析方法をコンピュータに実行させるプログラムとしても、本発明の好適な態様は実現される。例えば、本発明の好適な態様に係る音響解析装置は、特徴量の時系列とコードが継続する連続区間の境界を表す境界データとの関係を学習した学習済モデルであって、音響信号の特徴量の時系列の入力に対して境界データを生成する境界推定モデルを具備する。
【符号の説明】
【0037】
100…音響解析装置、11…制御装置、12…記憶装置、13…処理装置、21…特徴抽出部、22…境界推定モデル、23…学習処理部。