(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024033382
(43)【公開日】2024-03-13
(54)【発明の名称】楽器識別方法、楽器識別装置、および、楽器識別プログラム
(51)【国際特許分類】
G10L 25/51 20130101AFI20240306BHJP
G10G 3/04 20060101ALI20240306BHJP
G10L 25/30 20130101ALI20240306BHJP
【FI】
G10L25/51 300
G10G3/04
G10L25/30
【審査請求】未請求
【請求項の数】17
【出願形態】OL
(21)【出願番号】P 2022136925
(22)【出願日】2022-08-30
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(71)【出願人】
【識別番号】305027401
【氏名又は名称】東京都公立大学法人
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】水野 賀文
(72)【発明者】
【氏名】近藤 多伸
(72)【発明者】
【氏名】高橋 祐
(72)【発明者】
【氏名】塩田 さやか
(72)【発明者】
【氏名】城間 佑樹
【テーマコード(参考)】
5D182
【Fターム(参考)】
5D182AC03
5D182AD10
(57)【要約】
【課題】入力音の音源の楽器を特定する情報を自動で識別する。
【解決手段】楽器識別方法は、音信号に基づいて音響特徴量を算出し、前記音響特徴量に基づいて画像認識技術で用いられる画像特徴量を算出し、前記音信号と楽器を特定する情報とが対応しており、前記画像特徴量を入力とし、前記楽器を特定する情報を出力として訓練させた学習済モデルを用いて、前記音信号から前記楽器を特定する情報を出力する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
音信号に基づいて音響特徴量を算出し、
前記音響特徴量に基づいて、画像認識技術で用いられる画像特徴量を算出し、
前記音信号と楽器を特定する情報とが対応しており、前記画像特徴量を入力とし、前記楽器を特定する情報を出力として訓練させた学習済モデルを用いて、前記音信号から前記楽器を特定する情報を出力する、
楽器識別方法。
【請求項2】
前記学習済モデルは、前記音響特徴量を入力としてさらに加えて訓練させたモデルである、
請求項1に記載の楽器識別方法。
【請求項3】
前記音響特徴量に対して、複数種類の前記画像特徴量を算出し、
前記学習済モデルは、前記複数種類の画像特徴量を入力として訓練させたモデルである、
請求項1または請求項2に記載の楽器識別方法。
【請求項4】
前記音信号に基づいて、複数種類の前記音響特徴量を算出し、
前記学習済モデルは、前記複数種類の音響特徴量に基づく複数の前記画像特徴量を入力として訓練させたモデルである、
請求項1または請求項2に記載の楽器識別方法。
【請求項5】
前記音信号に基づいて、複数種類の前記音響特徴量を算出し、
前記学習済モデルは、前記複数種類の音響特徴量に基づく複数種類の前記画像特徴量を入力として訓練させたモデルである、
請求項1または請求項2に記載の楽器識別方法。
【請求項6】
前記音信号における1回の発音から前記音響特徴量を算出する、
請求項1または請求項2に記載の楽器識別方法。
【請求項7】
前記音信号として、単楽器の出力音を入力する、
請求項1または請求項2に記載の楽器識別方法。
【請求項8】
前記学習済モデルは、CNNである、
請求項1または請求項2に記載の楽器識別方法。
【請求項9】
音信号に基づいて音響特徴量を算出する音響特徴量算出部と、
前記音響特徴量に基づいて、画像認識技術で用いられる画像特徴量を算出する画像特徴量算出部と、
前記音信号と楽器を特定する情報とが対応しており、前記画像特徴量を入力とし、前記楽器を特定する情報を出力として訓練させた学習済モデルを用いて、前記音信号から前記楽器を特定する情報を出力する識別部と、
を備える、
楽器識別装置。
【請求項10】
前記学習済モデルは、前記音響特徴量を入力としてさらに加えて訓練させたモデルである、
請求項9に記載の楽器識別装置。
【請求項11】
前記画像特徴量算出部は、前記音響特徴量に対して、複数種類の前記画像特徴量を算出し、
前記学習済モデルは、前記複数種類の画像特徴量を入力として訓練させたモデルである、
請求項9または請求項10に記載の楽器識別装置。
【請求項12】
前記音響特徴量算出部は、前記音信号に基づいて、複数種類の前記音響特徴量を算出し、
前記画像特徴量算出部は、前記複数種類の音響特徴量に基づく複数の前記画像特徴量を算出し、
前記学習済モデルは、前記複数種類の音響特徴量に基づく複数の前記画像特徴量を入力として訓練させたモデルである、
請求項9または請求項10に記載の楽器識別装置。
【請求項13】
前記音響特徴量算出部は、前記音信号に基づいて、複数種類の前記音響特徴量を算出し、
前記画像特徴量算出部は、前記複数種類の音響特徴量に基づく複数種類の前記画像特徴量を算出し、
前記学習済モデルは、前記複数種類の音響特徴量に基づく複数種類の前記画像特徴量を入力として訓練させたモデルである、
請求項9または請求項10に記載の楽器識別装置。
【請求項14】
前記音響特徴量算出部は、前記音信号における1回の発音から前記音響特徴量を算出する、
請求項9または請求項10に記載の楽器識別装置。
【請求項15】
前記音響特徴量算出部は、前記音信号として、単楽器の出力音を入力する、
請求項9または請求項10に記載の楽器識別装置。
【請求項16】
前記学習済モデルは、CNNである、
請求項9または請求項10に記載の楽器識別装置。
【請求項17】
音信号に基づいて音響特徴量を算出し、
前記音響特徴量に基づいて、画像認識技術で用いられる画像特徴量を算出し、
前記音信号と楽器を特定する情報とが対応しており、前記画像特徴量を入力とし、前記楽器を特定する情報を出力として訓練させた学習済モデルを用いて、前記音信号から前記楽器を特定する情報を出力する、
処理をコンピュータで実行させる楽器識別プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明の一実施形態は、楽器識別方法、楽器識別装置、および、楽器識別プログラムに関する。
【背景技術】
【0002】
非特許文献1には、音響特徴量から得られた画像特徴量を用いて、音楽のジャンルを推定する方法が開示されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Combining visual and acoustic features for music genreclassification, Expert Systems With Applications 45(2016)108-117, An Internationaljournal
【発明の概要】
【発明が解決しようとする課題】
【0004】
ミキサの操作等において、入力音の音源の楽器名等の楽器を特定する情報を知りたいことがある。しかしながら、非特許文献1の方法では、入力音の音源の楽器名を自動で識別できない。
【0005】
以上の事情を考慮して、本開示のひとつの態様は、入力音の音源の楽器を特定する情報を自動で識別することを目的とする。
【課題を解決するための手段】
【0006】
楽器識別方法は、音信号に基づいて音響特徴量を算出し、前記音響特徴量に基づいて画像認識技術で用いられる画像特徴量を算出し、前記音信号と楽器を特定する情報とが対応しており、前記画像特徴量を入力とし、前記楽器を特定する情報を出力として訓練させた学習済モデルを用いて、前記音信号から前記楽器を特定する情報を出力する。
【発明の効果】
【0007】
楽器識別装置は、入力音の音源の楽器を特定する情報を自動で識別できる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、楽器識別装置10の構成を示すブロック図である。
【
図2】
図2は、楽器識別装置10の概略処理を示すフローチャートである。
【
図3】
図3(A)、
図3(B)、
図3(C)は、音響特徴量を算出するための前処理を説明するための波形図の一例を示す。
【
図4】
図4は、音響特徴量の算出から画像特徴量の算出にかけての処理の流れを示すブロック図である。
【
図6】
図6(A)、
図6(B)は、画像特徴量の一例を示す図である。
【
図7】
図7は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。
【
図8】
図8は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。
【
図9】
図9は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。
【
図10】
図10は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。
【
図11】
図11は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。
【
図12】
図12は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。
【
図13】
図13は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。
【
図14】
図14は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。
【
図15】
図15(A)、
図15(B)は、上述の各種手法を用いたときの識別結果(正答率)を示す表であり、
図15(C)は、従来の識別方法を用いたときの識別結果(正答率)を示す表である。
【発明を実施するための形態】
【0009】
図1は、楽器識別装置10の構成を示すブロック図である。
図2は、楽器識別装置10の概略処理を示すフローチャートである。
【0010】
楽器識別装置10は、前処理部20、音響特徴量算出部30、画像特徴量算出部40、および、識別部50を備える。識別部50は、学習済モデル500を記憶している。
【0011】
楽器識別装置10は、例えば、プロセッサ、コンピュータ等、これらによって実行される後述の処理を行うためのプログラム、および、該プログラムを記憶する記憶媒体で実現される。なお、プログラムの記憶箇所は、クラウド上にあってもよい。また、学習済モデル500の記憶箇所も、クラウド上にあってもよい。
【0012】
(概略的な構成および処理の説明)
推定対象の楽器の演奏音(出力音)の音信号は、前処理部20に入力される。前処理部20は、入力された音信号に、正規化や無音除去等の前処理を行う。前処理部20は、前処理後の音信号を、音響特徴量算出部30に出力する。
【0013】
音響特徴量算出部30は、音信号に基づいて音響特徴量を算出する(
図2、S11)。音響特徴量算出部30は、音響特徴量を画像特徴量算出部40に出力する。
【0014】
画像特徴量算出部40は、音響特徴量に基づいて画像特徴量を算出する(
図2、S12)。より具体的には、画像特徴量算出部40は、音響特徴量に基づいて二次元画像を形成し、二次元画像から画像特徴量を算出する。
【0015】
画像特徴量は、画像認識技術において高い認識精度が得られる特徴量である。例えば、画像特徴量は、画像の輝度勾配や各色のエッジ、コーナー、ブロブ、鮮やかさ、明るさ、色合い等に基づいた、画像の局所的な特徴量である。
【0016】
画像特徴量算出部40は、画像特徴量を識別部50に出力する。この際、画像特徴量算出部40は、画像特徴量とともに音響特徴量を、識別部50に出力してもよい。
【0017】
識別部50は、少なくとも画像特徴量を入力とし、学習済モデル500を用いて、楽器名を識別して、出力する(
図2、S13)。学習済モデル500は、楽器の演奏音と楽器名とが対応しており、画像特徴量を入力とし、楽器名を出力として訓練させた機械学習モデルである。楽器名が、本発明の「楽器を特定する情報」の一例である。すなわち、本実施形態では、楽器名を識別する態様を示すが、音源の楽器を特定する別の情報であっても、本実施形態の態様を適用でき、識別できる。
【0018】
このように、楽器識別装置10は、音響特徴量に基づく画像特徴量を用いて、楽器(楽器名)を識別する。楽器識別装置10は、画像特徴量を用いることで、音響特徴量に基づく認識精度の高い画像認識を用いて楽器を識別できる。これにより、楽器識別装置10は、楽器の識別精度を向上できる。
【0019】
以下、楽器識別装置10が行う具体的な処理の例について説明する。
【0020】
(楽器識別の流れ)
(前処理)
図3(A)、
図3(B)、
図3(C)は、音響特徴量を算出するための前処理を説明するための波形図の一例を示す。
図3(A)、
図3(B)、
図3(C)に示す波形は、それぞれに異なる楽器の演奏音(出力音)を示す。
【0021】
前処理部20には、
図3(A)、
図3(B)、
図3(C)に示すような波形の音信号が入力される。音信号の波形とは、音信号の振幅の時間遷移を示すものである。
【0022】
前処理部20は、正規化を行うことで、楽器の識別のための基準音量(振幅)に波形を調整する。これにより、楽器識別装置10は、楽器の音の大きさが識別結果に与える影響を、抑制できる。すなわち、楽器識別装置10は、楽器を大音量で演奏したか、小音量で演奏したかの差が識別結果に与える影響を抑制できる。
【0023】
前処理部20は、音信号の無音部を除去することで、音響特徴量を算出するためのサンプリング期間Tsの音信号(波形)を出力する。これにより、前処理部20は、音響特徴量を算出するための前処理を行った演奏音を出力する。
【0024】
音響特徴量を算出するための前処理を行った演奏音とは、旋律やリズムに影響されない音であることが好ましい。例えば、非調和楽器である打楽器であれば、打楽器を1回(またはリズムに関係無く複数回)たたく(演奏する)ことで発生する音である。また、調和楽器である弦楽器であれば、弦楽器の弦を1回(または旋律やリズムに関係無く複数回)ひくまたははじくことで発生する音である。
【0025】
このような演奏音を用いることで、楽器識別装置10は、音響特徴量が旋律やリズムの影響を受けることを抑制し、楽器の識別精度を向上できる。
【0026】
なお、これらの前処理部20で行う処理は、音響特徴量算出部30で行ってもよい。
【0027】
(特徴量の抽出(音響特徴量の算出および画像特徴量の算出))
図4は、音響特徴量の算出から画像特徴量の算出にかけての処理の流れを示すブロック図である。なお、
図4では、音信号から複数種類の音響特徴量を算出し、複数種類の音響特徴量から複数種類の画像特徴量を算出する場合を示す。
図5(A)、
図5(B)、
図5(C)は、音響特徴量の一例を示す図である。
図5(A)は、対数スペクトログラムを示し、
図5(B)は、対数メルスペクトログラムを示し、
図5(C)は、CQTスペクトログラムを示し、これらは、1つの音信号に基づいて算出されている。
【0028】
音響特徴量算出部30は、入力された音信号に対して、短時間フーリエ変換(STFT)を行うことで、時間周波数領域への変換を行う。音響特徴量算出部30は、音信号の短時間フーリエ変換結果に基づいて、対数スペクトログラム、対数メルスペクトログラムを算出する。
【0029】
音響特徴量算出部30は、入力された音信号に対して、定Q変換(CQT)を行うことで、時間周波数領域への変換を行う。音響特徴量算出部30は、音信号の定Q変換結果に基づいて、CQTスペクトログラムを算出する。
【0030】
図5(A)
図5(B)、
図5(C)に示すように、対数スペクトログラム、対数メルスペクトログラム、CQTスペクトログラムは、時間と周波数と二軸を用いたスペクトログラムである。すなわち、音響特徴量は、時間と周波数の二軸のスペクトログラムによって表される。そして、これら複数種類の音響特徴量のスペクトログラムは、
図5(A)、
図5(B)、
図5(C)に示すように、それぞれに異なる特徴量を有する。したがって、音響特徴量算出部30は、それぞれの異なる音響特徴量を取得できる。
【0031】
なお、楽器識別装置10は、これらの音響特徴量の少なくとも1種類を算出し、この音響特徴量に基づいて画像特徴量を算出すれば、楽器を識別できる。また、音響特徴量は、音信号を時間周波数領域に変換したものであれば、他の手法を用いたものであってもよい。
【0032】
画像特徴量算出部40は、音響特徴量、すなわち、対数スペクトログラム、対数メルスペクトログラム、CQTスペクトログラムに基づいて、LBP(Local Binary Pattern)およびHOG(Histograms of Oriented Gradients)の少なくとも1つの画像特徴抽出法を用いて、画像特徴量を算出する。
【0033】
図6(A)、
図6(B)は、画像特徴量の一例を示す図である。
図6(A)は、LBPムを示し、
図5(B)は、HOCを示し、これらは、1つの音響特徴量(
図5(B)の対数メルスペクトログラム)に基づいて算出されている。
【0034】
図6(A)、
図6(B)に示すように、LBP、HOGは、周波数と時間の二次元の画像で構成される。LBPは、音響特徴量に基づく画像の局所的な特徴(パターンやエッジ)が抽出されたものであり、HOGは、音響特徴量に基づく画像の輝度の勾配が抽出されたものである。すなわち、画像特徴量は、音響特徴量に基づく画像の特徴が周波数と時間の二次元画像で表される。そして、これら複数種類の画像特徴量は、
図6(A)、
図6(B)に示すように、それぞれに異なる特徴量を有する。したがって、画像特徴量算出部40は、それぞれの異なる画像特徴量を取得できる。
【0035】
なお、楽器識別装置10は、これらの画像特徴量の少なくとも1種類を算出すれば、楽器を識別できる。また、画像特徴量は、音響特徴量を画像化し、この画像における画像認識技術を用いて高精度な画像認識が可能な特徴が得られるものであれば、他の手法(例えば、HSV等)を用いたものであってもよい。
【0036】
(学習および推定)
識別部50は、例えば、CNN(畳み込みニューラルネットワーク)を用いて学習済モデル500を訓練する。この学習済モデル500は、音信号と楽器名とが対応しているデータセットによって、画像特徴量を入力とし、楽器名を出力として訓練されている。
【0037】
識別部50は、この学習済モデル500を用いて画像特徴量を入力として楽器(楽器名)を識別し、出力する。
【0038】
この際、識別部50は、例えば、ConvMixerを分類器として用いる。ConvMixerは、画像特徴量である二次元データをパッチに分割した後、畳み込み層に通過させるものである。ConvMixerは、パッチに分割するため局所的な特徴を捉えやすく、時間周波数表現において局所的に楽器の特徴が現れる楽器識別に適する。また、ConvMixerは、ネットワークがパッチ分割と畳み込みのみで構成されているので、学習が容易で、事前学習モデルや転移学習などを用いなくても、高精度な識別を可能とする学習済モデル500を実現できる。
【0039】
このように、楽器識別装置10は、楽器の識別に適するように音響特徴量を算出し、この音響特徴量から、画像認識技術において画像認識精度が高い画像特徴量をする。そして、楽器識別装置10は、このような画像特徴量を用いることで、楽器の識別精度を向上できる。
【0040】
また、楽器識別装置10は、特徴量の組み合わせを調整して楽器の識別を行うこともできる。これにより、楽器識別装置10は、楽器の分類(例えば、調和楽器か非調和楽器かなど)等に応じて特徴量の組合せを設定でき、楽器の識別精度をさらに向上できる。
【0041】
このような楽器識別装置10は、例えば、ミキサの入力段に適用できる。利用方法としては、楽器識別装置10は、ミキサの入力段に接続された音楽ソース(楽器)を自動で識別する。ミキサは、表示等を用いて識別結果をユーザに通知する。これにより、ユーザは、音楽ソースを容易に且つより正確に把握でき、ミキサの設定等の操作を容易にできる。
【0042】
(音響特徴量の算出、画像特徴量の算出、識別手法の各種具体例)
図7から
図14の各図は、音響特徴量の算出、画像特徴量の算出、および、識別手法の処理例を示すフローチャートである。
図7から
図14は、それぞれに異なる処理を行っている。
【0043】
(画像特徴量のみを用いる処理)
画像特徴量を用い、音響特徴量を用いない処理を、
図7から
図10を参照して、以下の(A)から(D)に示す。
【0044】
(A) 1種類の画像特徴量の学習済モデルを用いる処理(
図7参照)
音響特徴量算出部30は、音信号に基づいて1種類の音響特徴量を算出する(S11A)。例えば、音響特徴量算出部30は、対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのいずれか1種類を算出する。
【0045】
画像特徴量算出部40は、1種類の音響特徴量に基づいて1種類の画像特徴量を算出する(S12A)。例えば、画像特徴量算出部40は、音響特徴量が対数メルスペクトログラムであれば、対数メルスペクトログラムのLBPまたはHOGを算出する。
【0046】
識別部50は、1種類の画像特徴量を入力とした学習済モデル500を用いて、楽器名を識別する(S13A)。例えば、識別部50は、画像特徴量が対数メルスペクトログラムのLBPであれば、対数メルスペクトログラムのLBPを入力とした学習済モデル500を用いて、楽器名を識別する。
【0047】
(B) 1種類の音響特徴量に基づく複数種類の画像特徴量のアンサンブル学習済モデルを用いる処理(
図8参照)
音響特徴量算出部30は、音信号に基づいて1種類の音響特徴量を算出する(S11B)。
【0048】
画像特徴量算出部40は、1種類の音響特徴量に基づいて複数種類の画像特徴量を算出する(S12B)。例えば、画像特徴量算出部40は、音響特徴量が対数メルスペクトログラムであれば、対数メルスペクトログラムのLBPおよびHOGを算出する。
【0049】
識別部50は、複数種類の画像特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13B)。例えば、識別部50は、画像特徴量が対数メルスペクトログラムのLBPおよびHOGであれば、対数メルスペクトログラムのLBPおよびHOGを入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する。
【0050】
(C) 複数種類の音響特徴量に基づく1種類で複数の画像特徴量のアンサンブル学習済モデルを用いる処理(
図9参照)
音響特徴量算出部30は、音信号に基づいて複数種類の音響特徴量を算出する(S11C)。例えば、音響特徴量算出部30は、対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのうち複数種類を算出する。
【0051】
画像特徴量算出部40は、複数種類の音響特徴量に基づいて1種類で複数(同種で複数)の画像特徴量を算出する(S12C)。例えば、画像特徴量算出部40は、音響特徴量が対数メルスペクトログラムとCQTスペクトログラムであれば、対数メルスペクトログラムのLBPおよびCQTスペクトログラムのLBPを算出する。
【0052】
識別部50は、1種類で複数の画像特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13C)。例えば、識別部50は、画像特徴量が対数メルスペクトログラムのLBPおよびCQTスペクトログラムのLBPであれば、対数メルスペクトログラムのLBPおよびCQTスペクトログラムのLBPを入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する。
【0053】
(D) 複数種類の音響特徴量に基づく複数種類の画像特徴量のアンサンブル学習済モデルを用いる処理(
図10参照)
音響特徴量算出部30は、音信号に基づいて複数種類の音響特徴量を算出する(S11D)。例えば、音響特徴量算出部30は、対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのうち複数種類を算出する。
【0054】
画像特徴量算出部40は、複数種類の音響特徴量に基づいて複数種類の画像特徴量を算出する(S12D)。例えば、画像特徴量算出部40は、音響特徴量が対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムであれば、対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのそれぞれについてLBPとHOGを算出する。
【0055】
識別部50は、複数種類で複数の画像特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13D)。例えば、識別部50は、画像特徴量が対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのそれぞれのLBPとHOGであれば、対数スペクトログラム、対数メルスペクトログラム、および、CQTスペクトログラムのそれぞれのLBPとHOGを入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する。
【0056】
(画像特徴量と音響特徴量とを用いる場合)
画像特徴量と音響特徴量とを用いる処理を、
図11から
図14を参照して、以下の(E)から(H)に示す。なお、以下の(E)から(H)では、基本的な処理を説明し、(A)から(D)に示したような具体例は省略する。
【0057】
(E) 1種類の画像特徴量と1種類の音響特徴量のアンサンブル学習済モデルを用いる処理(
図11参照)
音響特徴量算出部30は、音信号に基づいて1種類の音響特徴量を算出する(S11E)。画像特徴量算出部40は、1種類の音響特徴量に基づいて1種類の画像特徴量を算出する(S12E)。識別部50は、1種類の画像特徴量と1種類の音響特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13E)。
【0058】
(F) 複数種類の画像特徴量と1種類の音響特徴量のアンサンブル学習済モデルを用いる処理(
図12参照)
音響特徴量算出部30は、音信号に基づいて1種類の音響特徴量を算出する(S11F)。画像特徴量算出部40は、1種類の音響特徴量に基づいて複数種類の画像特徴量を算出する(S12F)。識別部50は、複数種類の画像特徴量と1種類の音響特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13F)。
【0059】
(G)1種類で複数の画像特徴量と複数種類の音響特徴量のアンサンブル学習済モデルを用いる処理(
図13参照)
音響特徴量算出部30は、音信号に基づいて複数種類の音響特徴量を算出する(S11G)。画像特徴量算出部40は、複数種類の音響特徴量に基づいて1種類で複数の画像特徴量を算出する(S12G)。識別部50は、1種類で複数の画像特徴量と複数種類の音響特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13G)。
【0060】
(H)複数種類の画像特徴量と複数種類の音響特徴量のアンサンブル学習済モデルを用いる処理(
図13参照)
音響特徴量算出部30は、音信号に基づいて複数種類の音響特徴量を算出する(S11H)。画像特徴量算出部40は、複数種類の音響特徴量に基づいて複数種類の画像特徴量を算出する(S12H)。識別部50は、複数種類で画像特徴量と複数種類の音響特徴量を入力とするアンサンブル学習された学習済モデル500を用いて、楽器名を識別する(S13H)。
【0061】
このように、楽器識別装置10は、少なくとも画像特徴量を用いて楽器を識別する場合を含み、特徴量の各種の組合せで楽器を識別できる。
【0062】
特に、楽器識別装置10が画像特徴量と音響特徴量とを用いて楽器を識別する場合、以下の作用効果を奏する。
【0063】
音響特徴量から画像特徴量に変換する際、欠損してしまった特徴が存在する場合がある。すなわち、音響特徴量には存在するが画像特徴量には存在しない特徴が存在する場合がある。しかしながら、楽器識別装置10は、画像特徴量と音響特徴量とを用いて識別を行うことで、この欠損してしまった特徴も含んで、楽器を識別できる。
【0064】
(実験結果)
図15(A)、
図15(B)は、上述の各種手法を用いたときの識別結果(正答率)を示す表である。
図15(C)は、従来の識別方法を用いたときの識別結果(正答率)を示す表である。
図15(A)は、1種類の音響特徴量、または、1種類の画像特徴量をもちいたときの識別結果であり、
図15(B)は、アンサンブル手法を用いたときの識別結果である。
【0065】
図15(A)、
図15(B)、
図15(C)に示すように、楽器識別装置10は、画像特徴量を用いることで、少なくとも従来の識別方法と同程度以上で楽器を識別でき、採用する画像特徴量を適宜選択することで、よりも高い精度で楽器を識別できる。また、楽器識別装置10は、画像特徴量と音響特徴量とのアンサンブル手法を用いることで、さらに高い精度で楽器を識別できる。また、楽器識別装置10は、アンサンブルする特徴量の数を増やすことによって、より一層高い精度で楽器を識別できる。
【0066】
なお、上述の説明では、単楽器の出力音が単音であり、単音から楽器を識別する態様を示した。しかしながら、単楽器の複数音、和音、複数楽器の音等から楽器や複数楽器のアンサンブル等を識別することも可能であり、この際、上述の技術を適用することができる。
【0067】
本実施形態の説明は、すべての点で例示であって、制限的なものではない。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【符号の説明】
【0068】
10:楽器識別装置
20:前処理部
30:音響特徴量算出部
40:画像特徴量算出部
50:識別部
500:学習済モデル