(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-08
(45)【発行日】2024-07-17
(54)【発明の名称】基音抽出装置、基音抽出方法、およびプログラム
(51)【国際特許分類】
G10L 25/90 20130101AFI20240709BHJP
【FI】
G10L25/90
(21)【出願番号】P 2019202906
(22)【出願日】2019-11-08
【審査請求日】2022-10-26
(73)【特許権者】
【識別番号】000003193
【氏名又は名称】TOPPANホールディングス株式会社
(74)【代理人】
【識別番号】100149548
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100139686
【氏名又は名称】鈴木 史朗
(74)【代理人】
【識別番号】100169764
【氏名又は名称】清水 雄一郎
(74)【代理人】
【識別番号】100147267
【氏名又は名称】大槻 真紀子
(72)【発明者】
【氏名】小黒 久史
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2001-265330(JP,A)
【文献】特開2011-022489(JP,A)
【文献】特表2004-538525(JP,A)
【文献】半田伊吹 他,"音響信号からのメロディ検索と採譜",情報処理学会研究報告,2000年08月06日,Vol.2000, No.76,pp.7-12
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/00-25/93
G10H 1/00- 7/12
G10G 1/00- 7/02
(57)【特許請求の範囲】
【請求項1】
基音の抽出対象の周波数スペクトルにおいて、前記周波数スペクトルが示す信号強度のピーク周波数を少なくとも1つ検出する検出部と、
前記検出部により検出された前記ピーク周波数に基づき、基音周波数の候補の周波数である候補周波数と前記候補周波数の倍音周波数とを算出し、前記候補周波数の前記信号強度と前記倍音周波数の前記信号強度との総量により前記候補周波数の妥当性を評価する評価部と、
前記評価部による評価結果に基づき、前記候補周波数から前記抽出対象の前記基音周波数を抽出する抽出部と、
を備え、
前記評価部は、前記ピーク周波数を1/N(Nは自然数)倍して
複数の前記候補周波数を算出し、前記候補周波数をM(Mは自然数)倍して
複数の前記倍音周波数を前記候補周波数ごとに算出し、前記候補周波数ごとに前記倍音周波数との前記信号強度の総量を算出して前記妥当性を評価する、基音抽出装置。
【請求項2】
前記評価部は、所定の範囲における複数の自然数Nの各々において、前記候補周波数の前記妥当性を評価するための妥当性指標を算出し、算出した前記妥当性指標の中で最大値を示す前記妥当性指標と対応する前記候補周波数を、前記抽出対象の前記基音周波数と決定する、請求項1に記載の基音抽出装置。
【請求項3】
最大値を示す前記妥当性指標が複数存在する場合、
前記評価部は、複数の前記妥当性指標の各々と対応する前記候補周波数の内、前記候補周波数の各々の算出に用いられた前記自然数Nが最も小さい前記候補周波数を、前記抽出対象の前記基音周波数と決定する、請求項2に記載の基音抽出装置。
【請求項4】
前記評価部は、前記自然数Nが大きくなるに従い、前記総量を小さくする補正を前記妥当性指標に対して行う、請求項2又は請求項3に記載の基音抽出装置。
【請求項5】
前記評価部は、補正係数を指数とする前記自然数Nのべき乗を補正値として算出し、算出した前記補正値を前記妥当性指標に乗じて前記妥当性指標を補正する、請求項4に記載の基音抽出装置。
【請求項6】
第1のピーク周波数と対応する第1の基音周波数及び倍音周波数以外の周波数において、第2のピーク周波数が検出された場合、
前記抽出部は、検出された前記第2のピーク周波数と対応する第2の基音周波数を抽出する、請求項1から請求項5のいずれか1項に記載の基音抽出装置。
【請求項7】
前記検出部は、前記周波数スペクトルにおいて、前記信号強度が最大値である周波数を前記ピーク周波数として検出する、請求項1から請求項6のいずれか1項に記載の基音抽出装置。
【請求項8】
前記評価部は、所定の閾値以上の前記信号強度の前記総量により前記妥当性を評価する、請求項1から請求項7のいずれか1項に記載の基音抽出装置。
【請求項9】
検出部が、基音の抽出対象の周波数スペクトルにおいて、前記周波数スペクトルが示す信号強度のピーク周波数を少なくとも1つ検出することと、
評価部が、前記検出部により検出された前記ピーク周波数に基づき、基音周波数の候補の周波数である候補周波数と前記候補周波数の倍音周波数とを算出し、前記候補周波数の前記信号強度と前記倍音周波数の前記信号強度との総量により前記候補周波数の妥当性を評価することと、
抽出部が、前記評価部による評価結果に基づき、前記候補周波数から前記抽出対象の前記基音周波数を抽出することと、
を含み、
前記評価部は、前記ピーク周波数を1/N(Nは自然数)倍して
複数の前記候補周波数を算出し、前記候補周波数をM(Mは自然数)倍して
複数の前記倍音周波数を前記候補周波数ごとに算出し、前記候補周波数ごとに前記倍音周波数との前記信号強度の総量を算出して前記妥当性を評価する、基音抽出方法。
【請求項10】
コンピュータを、
基音の抽出対象の周波数スペクトルにおいて、前記周波数スペクトルが示す信号強度のピーク周波数を少なくとも1つ検出する検出部と、
前記検出部により検出された前記ピーク周波数に基づき、基音周波数の候補の周波数である候補周波数と前記候補周波数の倍音周波数とを算出し、前記候補周波数の前記信号強度と前記倍音周波数の前記信号強度との総量により前記候補周波数の妥当性を評価する評価部と、
前記評価部による評価結果に基づき、前記候補周波数から前記抽出対象の前記基音周波数を抽出する抽出部と、
として機能させ、
前記評価部は、前記ピーク周波数を1/N(Nは自然数)倍して
複数の前記候補周波数を算出し、前記候補周波数をM(Mは自然数)倍して
複数の前記倍音周波数を前記候補周波数ごとに算出し、前記候補周波数ごとに前記倍音周波数との前記信号強度の総量を算出して前記妥当性を評価する、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、基音抽出装置、基音抽出方法、およびプログラムに関する。
【背景技術】
【0002】
従来、基音と倍音で構成される人の声や楽器音等の音から、基音を抽出する技術が各種提案されている。
【0003】
例えば、下記特許文献1には、複数の倍音周波数を検出し、検出した複数の倍音周波数の最大公約数に基づき、基音周波数を算出して基音を抽出する技術が開示されている。当該技術は、複数の倍音周波数に基づき、基音を直接検出できないような音からも基音を抽出することができる。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1の技術では、倍音周波数を2つ以上検出する必要がある。そのため、倍音周波数が1つしか検出されない場合、当該技術では、基音を抽出できない。あるいは、当該技術では、検出した1つの倍音周波数を基音周波数として基音を抽出せざるを得ない。また、2つ以上の倍音周波数が検出されても、最大ピーク周波数以外の倍音周波数は、ノイズ等の影響により、検出の精度が安定しない場合がある。そのため、2つ以上の倍音周波数には、検出の精度が低い倍音周波数が含まれる可能性がある。よって、当該技術では、検出される倍音周波数の数に関わらず、基音抽出の精度が低下し得る。
【0006】
上述の課題を鑑み、本発明の目的は、基音抽出の精度を向上することが可能な基音抽出装置、基音抽出方法、およびプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上述の課題を解決するために、本発明の一態様に係る基音抽出装置は、基音の抽出対象の周波数スペクトルにおいて、前記周波数スペクトルが示す信号強度のピーク周波数を少なくとも1つ検出する検出部と、前記検出部により検出された前記ピーク周波数に基づき、基音周波数の候補の周波数である候補周波数と前記候補周波数の倍音周波数とを算出し、前記候補周波数の前記信号強度と前記倍音周波数の前記信号強度との総量により前記候補周波数の妥当性を評価する評価部と、前記評価部による評価結果に基づき、前記候補周波数から前記抽出対象の前記基音周波数を抽出する抽出部と、を備え、前記評価部は、前記ピーク周波数を1/N(Nは自然数)倍して複数の前記候補周波数を算出し、前記候補周波数をM(Mは自然数)倍して複数の前記倍音周波数を前記候補周波数ごとに算出し、前記候補周波数ごとに前記倍音周波数との前記信号強度の総量を算出して前記妥当性を評価する。
【0008】
本発明の一態様に係る基音抽出方法は、検出部が、基音の抽出対象の周波数スペクトルにおいて、前記周波数スペクトルが示す信号強度のピーク周波数を少なくとも1つ検出することと、評価部が、前記検出部により検出された前記ピーク周波数に基づき、基音周波数の候補の周波数である候補周波数と前記候補周波数の倍音周波数とを算出し、前記候補周波数の前記信号強度と前記倍音周波数の前記信号強度との総量により前記候補周波数の妥当性を評価することと、抽出部が、前記評価部による評価結果に基づき、前記候補周波数から前記抽出対象の前記基音周波数を抽出することと、を含み、前記評価部は、前記ピーク周波数を1/N(Nは自然数)倍して複数の前記候補周波数を算出し、前記候補周波数をM(Mは自然数)倍して複数の前記倍音周波数を前記候補周波数ごとに算出し、前記候補周波数ごとに前記倍音周波数との前記信号強度の総量を算出して前記妥当性を評価する。
【0009】
本発明の一態様に係るプログラムは、コンピュータを、基音の抽出対象の周波数スペクトルにおいて、前記周波数スペクトルが示す信号強度のピーク周波数を少なくとも1つ検出する検出部と、前記検出部により検出された前記ピーク周波数に基づき、基音周波数の候補の周波数である候補周波数と前記候補周波数の倍音周波数とを算出し、前記候補周波数の前記信号強度と前記倍音周波数の前記信号強度との総量により前記候補周波数の妥当性を評価する評価部と、前記評価部による評価結果に基づき、前記候補周波数から前記抽出対象の前記基音周波数を抽出する抽出部と、として機能させ、前記評価部は、前記ピーク周波数を1/N(Nは自然数)倍して複数の前記候補周波数を算出し、前記候補周波数をM(Mは自然数)倍して複数の前記倍音周波数を前記候補周波数ごとに算出し、前記候補周波数ごとに前記倍音周波数との前記信号強度の総量を算出して前記妥当性を評価する。
【発明の効果】
【0010】
本発明によれば、基音抽出の精度を向上することができる。
【図面の簡単な説明】
【0011】
【
図1】本発明の一実施形態に係る基音抽出装置の機能構成の一例を示すブロック図である。
【
図2】同実施形態に係る自然数N=1の場合の候補周波数と倍音周波数の算出の一例を示す図である。
【
図3】同実施形態に係る自然数N=2の場合の候補周波数と倍音周波数の算出の一例を示す図である。
【
図4】同実施形態に係る自然数N=3の場合の候補周波数と倍音周波数の算出の一例を示す図である。
【
図5】同実施形態に係る自然数N=4の場合の候補周波数と倍音周波数の算出の一例を示す図である。
【
図6】同実施形態に係る和音の抽出の一例を示す図である。
【
図7】同実施形態に係る基音抽出装置における処理の流れの一例を示すフローチャートである。
【発明を実施するための形態】
【0012】
以下、図面を参照しながら本発明の一実施形態について詳しく説明する。
【0013】
<1.概要>
本発明は、抽出対象から基音を抽出する基音抽出装置に関する。抽出対象は、例えば、人の声や楽器音等である。なお、抽出対象は、かかる例に限定されない。
【0014】
楽器音に関して、例えば、楽器の演奏では正しい音階の音を出すことが望まれる。しかしながら、奏者の技量によっては、奏者が目的とする音階の音を出せない場合がある。特に、管弦楽器においてこれらの状況が起こり得る。管弦楽器では、例えば、1つの音を出すために複数の動作を要する。管楽器では、例えば、指の使い方や息の吹き方によって音が変化する。弦楽器では、例えば、弦の抑え方や弦の弾き方によって音が変化する。
【0015】
管楽器は、大きく木管楽器と金管楽器に分類される。木管楽器の一例として、フルート、リコーダー、サックス等が挙げられる。金管楽器の一例として、トランペット、チューバ、トロンボーン等が挙げられる。弦楽器の一例として、ヴァイオリン、チェロ、ギター等が挙げられる。なお、楽器の種類は、かかる例に限定されず、例えば、打楽器であってもよい。
【0016】
奏者は、ある音階の音を出す際に、常に同じ動作を行うことができれば、常に安定した音を出すことができる。しかしながら、奏者が常に同じ動作を安定して行えるようになるには、相当量の練習を要する。そのため、奏者の練習の効率化が望まれる。例えば、奏者の練習において、楽器音の特徴を可視化して奏者に分かりやすく伝えることができれば、奏者は、自身の演奏の問題点を容易に把握することができ、効率的に練習を行うことができる。楽器音の特徴とは、例えば、楽器音の基音である。基音を可視化するためには、楽器音から基音を抽出する必要がある。また、奏者の練習の効率をより向上させるためには、より精度高く、楽器音から基音が抽出されることが望ましい。
【0017】
そこで、以下では、基音抽出の精度を向上することが可能な基音抽出装置について詳細に説明する。また、以下では、抽出対象が楽器音である例について説明する。
【0018】
<2.基音抽出装置の機能構成>
まず、
図1を参照して、本実施形態に基音抽出装置の機能構成の一例について説明する。
図1は、本発明の実施形態に係る基音抽出装置の機能構成の一例を示すブロック図である。
図1に示すように、基音抽出装置10は、入力部110、制御部120、及び出力部130を備える。
【0019】
(1)入力部110
入力部110は、抽出対象の音を取得する機能を有する。入力部110は、例えば、マイクロフォン(以下、「マイク」とも称される)により実現される。具体的に、入力部110は、マイクに入力された楽器音を抽出対象として取得する。取得後、入力部110は、取得した楽器音に応じたアナログ信号を制御部120へ出力する。
【0020】
(2)制御部120
制御部120は、基音抽出装置10の動作全般を制御する機能を有する。制御部120は、例えば、基音抽出装置10がハードウェアとして備えるCPU(Central Processing Unit)にプログラムを実行させることによって実現される。当該機能を実現するために、制御部120は、変換部1202、検出部1204、評価部1206、抽出部1208、及び後処理部1210を備える。
【0021】
(2-1)変換部1202
変換部1202は、抽出対象に関する変換処理を行う機能を有する。例えば、変換部1202は、入力部110から入力される楽器音のアナログ信号に対して変換処理を行う。変換処理後、変換部1202は、変換処理による出力を検出部1204へ出力する。変換部1202が行う変換処理は、例えば、A/D変換、及びFFT(Fast Fourier Transform)である。
【0022】
(A/D変換)
A/D変換は、アナログ信号をデジタル信号に変換する処理である。例えば、変換部1202は、入力部110から入力される楽器音のアナログ信号をデジタル信号に変換する。A/D変換時のサンプリング周波数は、44.1kHzとする。サンプリング周波数が44.1kHzの場合、1秒間にサンプリングされる点数は、44100点である。なお、サンプリング周波数は、かかる例に限定されない。
【0023】
(FFT)
FFTは、時間軸波形を周波数スペクトルに変換する処理である。例えば、変換部1202は、A/D変換で出力されるデジタル信号に対してFFTを行う。これにより、変換部1202は、楽器音の時間軸波形を周波数スペクトルに変換することができる。FFT後、変換部1202は、FFTにより得られた楽器音の周波数スペクトルを検出部1204へ出力する。
【0024】
通常のFFT処理では、変換部1202は、例えば、サンプリング周波数が44.1kHzの場合、1秒間にサンプリングされた44100点の内、8192点を対象にFFTを行う。FFTの対象となる点は、以下では、「対象点」とも称される。また、対象点の数は、以下では、「対象点数」とも称される。なお、対象点数は、かかる例に限定されない。例えば、解析時間の短縮が求められる場合、対象点数は、通常時より少ない2048点であってもよい。また、より高精度な解析処理結果が求められる場合、対象点数は、通常時より多い16384点であってもよい。
【0025】
(2-2)検出部1204
検出部1204は、抽出対象のピーク周波数を検出する機能を有する。例えば、検出部1204は、変換部1202から入力される楽器音の周波数スペクトルに基づき、楽器音のピーク周波数を検出する。検出後、検出部1204は、検出したピーク周波数を評価部1206へ出力する。
【0026】
検出部1204は、楽器音の周波数スペクトルにおいて、ピークを示している信号強度の周波数を、ピーク周波数として少なくとも1つ検出する。本実施形態に係る検出部1204は、1つのピーク周波数を検出する。当該1つのピーク周波数は、例えば、ピークの信号強度が最大値である周波数である。以下では、信号強度が最大値であるピーク周波数は、「最大ピーク周波数」とも称される。ピーク周波数はfp、ピーク周波数におけるパワーはPpと示される。
【0027】
検出部1204は、第1の範囲内の周波数からピーク周波数を検出する。本実施形態では、第1の範囲は、検出処理の処理時間を考慮して40Hz~5000Hzの範囲に設定される。なお、第1の範囲は、かかる例に限定されない。
【0028】
また、検出部1204は、所定の条件を満たす周波数をピーク周波数とする。所定の条件は、例えば、第1の範囲において、第1の閾値以上のパワーの周波数であることである。第1の閾値は、例えば、第1の範囲における平均パワーの10倍の値である。
【0029】
また、所定の条件には、第2の範囲において、第2の閾値以上のパワーの周波数であることが含まれてもよい。例えば、サンプリング周波数が44.1kHzでFFTの対象点数が8192点である場合、FFTのバンド幅は約5.4Hzである。この場合、第2の範囲は、例えば、ある周波数の両側の2バンド、約±10.8Hzである。第2の閾値は、例えば、ある周波数の約±10.8Hz内の周波数の平均パワーの4倍の値である。なお、所定の条件、第1の範囲、第2の範囲、第1の閾値、及び第2の閾値は、かかる例に限定されない。
【0030】
また、検出部1204は、ピーク周波数の検出時に、補間を行ってもよい。例えば、検出部1204は、隣り合う2バンドに対して2バンドの振幅を用いた線形補間を行う。これにより、周波数分解能が向上し、ピーク周波数の検出の精度を向上することができる。具体例として、対象点数が8192点であり、バンド幅が5Hz、ピーク周波数が442Hzである場合の例について説明する。この場合、バンド幅が5Hzであるため、ピーク周波数の442Hz付近では、440Hzと445Hzが対象バンドとなる。そのため、いずれかの対象バンドにおける周波数をピーク周波数として検出する場合、440Hzがピーク周波数として検出される。よって、実際のピーク周波数である442Hzは、ピーク周波数として検出されない。そこで、検出部1204は、440Hzと445Hz間で線形補間を行う。線形補間により、検出部1204は、440Hzと445Hzの間の周波数をピーク周波数として検出する。これにより、検出部1204は、実際のピーク周波数により近い周波数をピーク周波数として検出することができる。よって、検出部1204は、線形補間により、ピーク周波数の検出の精度を向上することができる。
【0031】
(2-3)評価部1206
評価部1206は、基音周波数を決定する機能を有する。評価部1206は、検出部1204により検出されたピーク周波数に基づき、抽出対象の基音周波数の候補となる周波数である候補周波数と、候補周波数の倍音周波数を算出する。評価部1206は、算出した候補周波数と倍音周波数に基づき、候補周波数の妥当性を評価し、基音周波数を決定する。
【0032】
(候補周波数の算出)
以下、候補周波数は、fkとも示される。また、基音周波数は、ffとも示される。評価部1206は、検出部1204から入力されるピーク周波数に基づき、候補周波数を算出する。一般に、ピーク周波数は、基音周波数のN(Nは自然数)倍の倍音周波数である。そこで、評価部1206は、例えば、ピーク周波数の1/N(Nは自然数)倍の周波数を候補周波数として算出する。即ち、候補周波数fk=fp/Nである。
【0033】
なお、候補周波数として算出した周波数のパワーが第3の閾値よりも小さい場合、評価部1206は、当該周波数を候補周波数から除外してもよい。第3の閾値は、例えば、ピーク周波数のパワーPpに基音閾値係数を乗じた値である。
【0034】
(倍音周波数の算出)
評価部1206は、算出した候補周波数の倍音周波数を算出する。以下、倍音周波数は、fhとも示される。例えば、評価部1206は、候補周波数のM(Mは自然数)倍の周波数を倍音周波数として算出する。即ち、倍音周波数fh=Mfkである。
【0035】
ここで、
図2~
図5を参照して、候補周波数と倍音周波数の算出の一例について説明する。
図2~
図5は、本実施形態に係る候補周波数と倍音周波数の算出の一例を示す図である。
図2~
図5に示す周波数スペクトルの横軸は周波数f(Hz)、縦軸はパワーP(dB)を示している。以下、
図2~
図5の例では、自然数N=2が真値(ピーク周波数が2倍音)である場合であって、自然数N=1~4のそれぞれの場合における基音周波数、倍音周波数の候補について説明する。
図2~
図5の例では、ピーク周波数f
p、候補周波数f
k、又は倍音周波数f
hとなり得る周波数として、周波数f
1~f
12を用いる。周波数f
1~f
12には、周波数の値が小さい方から順に番号1~12が付与されている。即ち、
図2~
図5の例において、検出又は算出される周波数は、最小値がf
1、最大値がf
12である。また、
図2~
図5の例では、検出部1204は、パワーが最大である周波数(最大ピーク周波数)をピーク周波数f
pとして検出するものとする。そのため、この例では、検出部1204が検出するピーク周波数f
pは、f
6である。
【0036】
図2は、自然数N=1の場合の算出例を示している。なお、周波数f
12は、周波数f
6の2倍である。候補周波数に関して、自然数N=1の時の候補周波数f
kは、f
6と算出される。倍音周波数に関して、M=1の時の倍音周波数f
hは、f
6と算出される。M=2の時の倍音周波数f
hは、f
12と算出される。
【0037】
図3は、自然数N=2の場合の算出例を示している。なお、周波数f
6は、周波数f
3の2倍である。周波数f
9は、周波数f
3の3倍である。周波数f
12は、周波数f
3の4倍である。候補周波数に関して、自然数N=2の時の候補周波数f
kは、f
3と算出される。倍音周波数に関して、M=1の時の倍音周波数f
hは、f
3と算出される。M=2の時の倍音周波数f
hは、f
6と算出される。M=3の時の倍音周波数f
hは、f
9と算出される。M=4の時の倍音周波数f
hは、f
12と算出される。
【0038】
図4は、自然数N=3の場合の算出例を示している。なお、周波数f
4は、周波数f
2の2倍である。周波数f
6は、周波数f
2の3倍である。周波数f
8は、周波数f
2の4倍である。周波数f
10は、周波数f
2の5倍である。周波数f
12は、周波数f
2の6倍である。候補周波数に関して、自然数N=3の時の候補周波数f
kは、f
2と算出される。倍音周波数に関して、M=1の時の倍音周波数f
hは、f
2と算出される。M=2の時の倍音周波数f
hは、f
4と算出される。M=3の時の倍音周波数f
hは、f
6と算出される。M=4の時の倍音周波数f
hは、f
8と算出される。M=5の時の倍音周波数f
hは、f
10と算出される。M=6の時の倍音周波数f
hは、f
12と算出される。
【0039】
図5は、自然数N=4の場合の算出例を示している。なお、周波数f
3は、周波数f
1の2倍である。周波数f
5は、周波数f
1の3倍である。周波数f
6は、周波数f
1の4倍である。周波数f
7は、周波数f
1の5倍である。周波数f
9は、周波数f
1の6倍である。周波数f
11は、周波数f
1の7倍である。周波数f
12は、周波数f
1の8倍である。候補周波数に関して、自然数N=4の時の候補周波数f
kは、f
1と算出される。倍音周波数に関して、M=1の時の倍音周波数f
hは、f
1と算出される。M=2の時の倍音周波数f
hは、f
3と算出される。M=3の時の倍音周波数f
hは、f
5と算出される。M=4の時の倍音周波数f
hは、f
6と算出される。M=5の時の倍音周波数f
hは、f
7と算出される。M=6の時の倍音周波数f
hは、f
9と算出される。M=7の時の倍音周波数f
hは、f
11と算出される。M=8の時の倍音周波数f
hは、f
12と算出される。
【0040】
(妥当性の評価)
評価部1206は、算出した候補周波数と倍音周波数に基づき、候補周波数の妥当性を評価する。例えば、評価部1206は、候補周波数及び倍音周波数の各々における信号強度の総量により候補周波数の妥当性を評価する。具体的に、評価部1206は、妥当性を評価するための妥当性指標を算出する。妥当性指標は、候補周波数が抽出対象の基音周波数であることの妥当性を示す指標である。妥当性指標は、基音と倍音の信号強度の総量で、評価部1206は、候補周波数と倍音周波数のパワーに基づき、妥当性指標を算出する。例えば、評価部1206は、算出した候補周波数及び倍音周波数の各々におけるパワーの総和を候補周波数の妥当性指標として算出する。算出後、評価部1206は、算出した妥当性指標に基づき、候補周波数の妥当性を評価する。評価後、評価部1206は、評価結果を抽出部1208へ出力する。
【0041】
評価部1206は、第3の範囲(所定の範囲)における複数の自然数Nの各々において、候補周波数の妥当性指標を算出する。例えば、評価部1206は、
図2~
図5に示した自然数N=1~4の各々において、妥当性指標を算出する。第3の範囲は、例えば、1≦N≦10である。なお、第3の範囲は、かかる例に限定されない。
【0042】
ここで、
図2~
図5を参照して、妥当性指標の算出の一例について説明する。以下では、周波数f
1~f
12におけるパワーは、それぞれP
1~P
12であるものとする。P
1~P
12は、f
1~f
12の近傍周波数(例えば、f
1~f
12の±2%以内の周波数)に存在するピーク周波数のパワーや近傍周波数のパワーの和として求められる。
【0043】
図2の場合、候補周波数はf
6、倍音周波数はf
12である。よって、パワーの総和は、P
6とP
12の和である。
【0044】
図3の場合、候補周波数はf
3、倍音周波数はf
6、f
9、及びf
12である。よって、パワーの総和は、P
3と、P
6と、P
9と、P
12との和である。
【0045】
図4の場合、候補周波数はf
2、倍音周波数はf
4、f
6、f
8、f
10、及びf
12である。よって、パワーの総和は、P
2と、P
4と、P
6と、P
8と、P
10と、P
12との和である。
【0046】
図5の場合、候補周波数はf
1、倍音周波数はf
3、f
5、f
6、f
7、f
9、f
11、及びf
12である。よって、パワーの総和は、P
1と、P
3と、P
5と、P
6と、P
7と、P
9と、P
11と、P
12との和である。
【0047】
信号強度の総量は、パワーの単純和に限るものではない。評価部1206は、例えば、各パワーの対数の和を総量としてもよい。例えば、
図3の例の場合、評価部1206は、P
3、P
6、P
9、及びP
12の各々の対数の和を信号強度の総量とする。対数を用いることで、単純にパワーの和を総量とする場合と比較し、信号強度の総量における各パワーの重みの偏りを軽減することができる。また、評価部1206は、各パワーの積の対数を信号強度の総量としてもよい。例えば、
図3の例の場合、評価部1206は、P
3、P
6、P
9、及びP
12の各々の積の対数を信号強度の総量とする。また、評価部1206は、各パワーの平方根の和を信号強度の総量としてもよい。評価部1206は、基音と倍音、あるいは、倍音の次数によって重み付けを変えた加重和、非線形関数などを用いてもよい。
【0048】
なお、評価部1206は、第4の閾値(所定の閾値)以上のパワーの信号強度の総量により妥当性を評価してもよい。第4の閾値は、例えば、ノイズのパワーを除去できる程度の閾値である。
図5の例の場合、ノイズのパワーは、周波数f
1、f
5、f
7、及びf
11におけるパワーP
1、P
5、P
7、及びP
11である。この場合、各パワーよりも大きい値を第4の閾値とすることで、パワーP
1、P
5、P
7、及びP
11のすべてのパワーを除去できる。これにより、評価部1206は、第4の閾値以下のパワーをノイズのパワーとして除去することができる。よって、評価部1206は、信号強度の総量の算出の精度を向上することができる。
【0049】
妥当性指標の算出後、評価部1206は、算出した妥当性指標に基づき、候補周波数から抽出対象の基音周波数を決定する。具体的に、評価部1206は、算出された妥当性指標の中で最大値を示す妥当性指標と対応する候補周波数を、抽出対象の基音周波数と決定する。例えば、
図2~
図5に示した例において、
図3に示した自然数N=2の場合の妥当性指標が最大値を示す場合、評価部1206は、候補周波数f
k=f
3を抽出対象の基音周波数と決定する。基音周波数の決定後、評価部1206は、決定した基音周波数を示す情報を含む評価結果を抽出部1208へ出力する。
【0050】
算出した妥当性指標の中に最大値を示す妥当性指標が複数存在する場合、評価部1206は、複数の妥当性指標の各々と対応する候補周波数の内、候補周波数の各々の算出に用いられた自然数Nが最も小さい候補周波数を、抽出対象の基音周波数と決定する。例えば、
図5の自然数N=4である例にて、ノイズのパワーが除去された場合、信号強度の総量は、P
3、P
6、P
9、及びP
12に基づき算出される。これにより、自然数N=4における信号強度の総量は、
図3の自然数N=2である例の信号強度の総量と同一となる。ここで、自然数N=2とN=4の各々の信号強度の総量が最大値である場合、評価部1206は、自然数N=2における候補周波数を基音周波数と決定する。これにより、評価部1206は、最大値を示す妥当性指標が複数存在しても抽出対象の基音周波数を決定することができる。
【0051】
なお、評価部1206は、信号強度の総量を妥当性指標として算出することなく、候補周波数の妥当性を評価してもよい。例えば、評価部1206は、SVM(Support Vector Machine)を用いて、候補周波数の妥当性を評価する。具体的に、評価部1206は、自然数Nの各々における候補周波数と倍音周波数の信号強度を、基音の周波数が既知の音を教師データとして事前に学習されたSVMへ入力する。SVMの識別関数は、入力された信号強度より、各々の自然数Nにおける候補周波数が基音である場合は1を、基音でない場合は0を出力するように学習されるが、実際の出力は0から1を含む連続量である。評価部1206は、識別関数の出力を妥当性指標とし、妥当性指標が最大の候補周波数を抽出対象の基音周波数と決定する。
【0052】
(妥当性指標の補正)
妥当性指標の算出時、自然数Nが大きくなるにつれて、各ピーク周波数の中間の周波数におけるパワー(即ちノイズのパワー)も信号強度の総量に含まれ得る。そこで、妥当性指標の算出時、評価部1206は、自然数Nに応じて信号強度の総量にペナルティを与える。例えば、評価部1206は、自然数Nが大きくなるに従い、総量を小さくする補正を妥当性指標に対して行う。一例として、評価部1206は、補正係数を指数とする自然数Nのべき乗を補正値として算出し、算出した補正値を妥当性指標に乗じて妥当性指標を補正する。補正係数をxとすると、補正値は、Nxと算出される。なお、補正係数xの値は、特に限定されない。例えば、補正係数xは、ノイズを考慮して決定される。
【0053】
妥当性指標の補正により、評価部1206は、ノイズを考慮した妥当性指標を算出することができる。よって、評価部1206は、妥当性指標の算出の精度を向上することができる。
【0054】
(2-4)抽出部1208
抽出部1208は、抽出対象から基音を抽出する機能を有する。基音を抽出するにあたり、抽出部1208は、評価部1206から入力される評価結果が示す基音周波数を抽出対象から抽出する。基音の抽出後、抽出部1208は、抽出した基音を後処理部1210へ出力する。
【0055】
(和音における基音周波数の抽出)
抽出部1208は、基音周波数の抽出を繰り返してもよい。これにより、抽出対象の楽器音が複数の楽器音で構成される和音である場合、抽出部1208は、各々の楽器音の基音周波数を抽出することができる。
【0056】
例えば、検出部1204が検出した第1のピーク周波数と対応する第1の基音周波数及び倍音周波数以外の周波数において、第2のピーク周波数が検出されたとする。この場合、抽出部1208は、検出された第2のピーク周波数と対応する第2の基音周波数を抽出する。なお、第1の基音周波数の抽出後、抽出部1208は、例えば、第1の基音周波数、及び第1の基音周波数の倍音周波数を周波数スペクトルから除外しておく。これにより、検出部1204は、第1のピーク周波数と対応する第1の基音周波数及び倍音周波数以外の周波数から第2のピーク周波数を検出することができる。
【0057】
ここで、
図6を参照して、和音の抽出の一例について説明する。
図6は、本実施形態に係る和音の抽出の一例を示す図である。
図6の左図は、自然数N=2の場合の第1の基音周波数の抽出の例を示す図である。
図6の右図は、自然数N=2の場合の第2の基音周波数の抽出の例を示す図である。なお、
図6の左図と右図では、自然数N=2の時の候補周波数f
kが基音周波数f
fであるとする。
【0058】
図6の左図では、第1のピーク周波数f
p1は、f
6として検出されている。第1の候補周波数f
k1は、f
3と算出されている。第1のピーク周波数f
p1と対応する第1の基音周波数f
f1は、f
3と算出されている。第1のピーク周波数f
p1と対応する第1の倍音周波数f
h1は、f
6、f
9、及びf
12と算出されている。抽出部1208は、
図6の左図の周波数スペクトルから、第1の基音周波数f
f1であるf
3と、第1の倍音周波数f
h1であるf
6、f
9、及びf
12を除外する。そして、抽出部1208は、検出部1204に第2のピーク周波数f
p2の検出を行わせる。第2のピーク周波数f
p2が検出された場合、抽出部1208は、検出された第2のピーク周波数f
p2と対応する第2の基音周波数f
f2を抽出する。
【0059】
図6の右図では、第2のピーク周波数f
p2は、f
14として検出されている。第2の候補周波数f
k2は、f
13と算出されている。第2のピーク周波数f
p2と対応する第2の基音周波数f
f2は、f
13と算出されている。第2のピーク周波数f
p2と対応する第2の倍音周波数f
h2は、f
14、f
15、及びf
16と算出されている。
図6の右図では、自然数N=2の時の候補周波数f
kが基音周波数f
fである。よって、抽出部1208は、第2の候補周波数f
k2=f
13を、第2の基音周波数f
f2として抽出する。
【0060】
なお、第2のピーク周波数fp2が検出されなかった場合、基音抽出装置10は、基音の抽出処理を終了する。この場合、抽出対象の楽器音が単音であったことが分かる。また、基音抽出装置10は、ピーク周波数が検出されなくなるまで、基音の抽出処理を繰り返す。これにより、基音抽出装置10は、和音を構成する楽器音の数に関わらず、各楽器音の基音を抽出することができる。
【0061】
(2-5)後処理部1210
後処理部1210は、抽出された基音に基づく後処理を実行する機能を有する。後処理部1210は、抽出部1208から入力される基音に関する情報を出力部130に出力させる。例えば、後処理部1210は、抽出された基音に関する情報を示す画像情報又は音声情報の少なくとも一方を生成し、出力部130へ出力する。
【0062】
また、後処理部1210は、抽出された基音の音名やオクターブ等の推定を行ってもよい。具体的に、後処理部1210は、抽出された基音の周波数と平均律の音の周波数とを比較し、抽出された基音の音名やオクターブ等の推定を行う。平均律の音の周波数feは、例えば、以下の式(1)により算出される。
【0063】
【0064】
式(1)のfrefは、基準ピッチの周波数である。一般に、基準ピッチの周波数には、440Hzや442Hzが用いられる。後処理部1210は、式(1)を用いて、抽出された基音の基音周波数に最も近い平均律の音の周波数を算出する。そして、後処理部1210は、算出結果に基づき、基音の音名とオクターブを推定する。また、後処理部1210は、基音と平均律の音との周波数誤差をピッチズレとして算出してもよい。なお、後処理部1210は、基音の音名とオクターブの推定結果やピッチズレの算出結果を画像情報や音声情報に含めて出力部130へ出力してもよい。
【0065】
(3)出力部130
出力部130は、制御部120から入力される出力情報を出力する機能を有する。出力部130は、例えば、ディスプレイ等の表示装置やスピーカ等の音声出力装置により実現される。表示装置により実現される場合、出力部130は、例えば、出力情報を画像情報として表示装置に表示する。音声出力装置により実現される場合、出力部130は、例えば、出力情報を音声情報として音声出力装置から出力する。
【0066】
<3.基音抽出装置における処理の流れ>
以上、本実施形態に係る基音抽出装置10の機能構成の一例について説明した。続いて、
図7を参照して、本実施形態に基音抽出装置10における処理の流れの一例について説明する。
図7は、本実施形態に係る基音抽出装置10における処理の流れの一例を示すフローチャートである。
【0067】
図7に示すように、まず、基音抽出装置10の入力部110は、抽出対象を取得する(S102)。取得後、入力部110は、取得した抽出対象を制御部120へ出力する。
【0068】
次いで、制御部120の変換部1202は、入力された抽出対象に対して、FFT処理を実行する(S104)。実行後、変換部1202は、FFT処理により取得した周波数スペクトルを検出部1204へ出力する。
【0069】
次いで、検出部1204は、入力された周波数スペクトルからピーク周波数を検出する(S106)。検出後、検出部1204は、検出したピーク周波数を評価部1206へ出力する。
【0070】
次いで、評価部1206は、入力されたピーク周波数を1/N倍して候補周波数を算出する(S108)。次いで、評価部1206は、算出した候補周波数をM倍して倍音周波数を算出する(S110)。そして、評価部1206は、算出した候補周波数と倍音周波数のパワーに基づき、妥当性を評価する(S112)。評価後、評価部1206は、評価結果を抽出部1208へ出力する。
【0071】
次いで、抽出部1208は、入力された評価結果に基づき基音周波数を抽出する(S114)。抽出後、検出部1204は、抽出した基音周波数とその倍音周波数以外の周波数において、ピーク周波数を検出できるか否かを判定する(S116)。
【0072】
ピーク周波数を検出できた場合(S116/YES)、制御部120は、S108からS114の処理を繰り返す。一方、ピーク周波数を検出できなかった場合、制御部120は、後処理を実行する(S118)。後処理の実行後、基音抽出装置10は、処理を終了する。
【0073】
ここで、
図2~
図5に示した例を用いて、S106~S114の処理の流れについてより具体的に説明する。S106~S112の処理は、自然数Nごとに行われる処理である。自然数Nの値は、その初期値を1とし、S112の処理が終わるごとに1ずつインクリメントされる。自然数Nのインクリメントは、例えば、自然数Nの値が最大値となるまで繰り返される。そして、自然数Nの値が最大値におけるS112の処理が終了した時、処理は、S114の処理へ進む。
【0074】
なお、自然数Nの最大値は任意に決められる値であり、例えば、N=10となるまでインクリメントは繰り返すようにしてもよい。自然数Nの最大値は、例えば、入力される音の種類に応じて決めるようにしてもよい。入力される音の種類(人の声、楽器音等)に応じて、自然数Nの最大値を種々変更しながら、既知の基音を抽出できたか否かを実験することで、自然数Nの最大値を決めるようにしてもよい。例えば、楽器の場合は、N=10(最大値)にすると、基音を抽出できるケースがほとんどである。ただし、
図2~
図5の例では、自然数N=4となるまでインクリメントを繰り返す例について説明する。
【0075】
S110の処理では、自然数Mが用いられる。自然数Mの値は、候補周波数f
kの倍数である。例えば、候補周波数f
kの1倍、即ち、候補周波数f
kにおける自然数Mは、M=1である。候補周波数f
kを2倍した時の倍音周波数f
hにおける自然数Mは、M=2である。また、候補周波数f
kを3倍した時の倍音周波数f
hにおける自然数Mは、M=3である。S110の処理において、倍音周波数f
hは、自然数Mの最大値の値が示す数だけ算出される。例えば、自然数Mの最大値がM=3である場合、倍音周波数は3つ算出される。なお、自然数Mの最大値は、第1の範囲内に存在する倍音周波数f
hの数である。
図2~
図5の例では、自然数Mの最大値がそれぞれM=2、4、6、8である例について説明する。
【0076】
まず、
図2に示す自然数N=1の時、検出部1204は、最大ピーク周波数であるf
6をピーク周波数f
pとして検出する(S106)。次いで、評価部1206は、候補周波数f
k=f
p/N=f
6と算出する(S108)。次いで、評価部1206は、候補周波数f
k=f
6における自然数MをM=1として、倍音周波数f
hを算出する(S110)。例えば、M=2では、倍音周波数f
h=Mf
k=f
12と算出される。なお、今回の例では、算出される周波数の最大値がf
12であるため、自然数N=1における倍音周波数f
hの算出は、M=2で終了する。
【0077】
なお、
図2の例では、f
6とf
12は、それぞれ周波数スペクトルのピークに対応しているが、f
6及びf
12以外にもピークを示している周波数は存在する。特に、f
3及びf
9の周波数のように、ピークが鋭い周波数も存在する。しかしながら、f
3及びf
9の周波数は、自然数M=1又はM=2のいずれにも該当しないため、候補周波数f
k及び倍音周波数f
hのいずれにも該当しない(抽出されていない)。そのため、f
6及びf
12以外の周波数(f
3、f
9)は、自然数N=1における以降の処理では用いられない。倍音周波数f
hの算出後、評価部1206は、算出した候補周波数f
kと倍音周波数f
hの各々におけるパワーに基づき、妥当性指標を算出する。例えば、評価部1206は、候補周波数f
6におけるパワーP
6、及び倍音周波数f
12におけるパワーP
12の各々の対数の和を妥当性指標として算出する。妥当性指標の算出後、自然数Nは、評価部1206によってN=1からN=2へインクリメントされる。
【0078】
続いて、
図3に示す自然数N=2の時、検出部1204は、最大ピーク周波数であるf
6をピーク周波数f
pとして検出する(S106)。次いで、評価部1206は、候補周波数f
k=f
p/N=f
3と算出する(S108)。次いで、評価部1206は、候補周波数f
k=f
3における自然数MをM=1として、倍音周波数f
hを算出する(S110)。例えば、M=2では、倍音周波数f
h=Mf
k=f
6と算出される。また、M=3では、倍音周波数f
h=Mf
k=f
9と算出される。また、M=4では、倍音周波数f
h=Mf
k=f
12と算出される。なお、今回の例では、算出される周波数の最大値がf
12であるため、自然数N=2における倍音周波数f
hの算出は、M=4で終了する。
【0079】
なお、
図3の例では、f
3、f
6、f
9、及びf
12は、それぞれ周波数スペクトルのピークに対応している。そのため、f
3、f
6、f
9、及びf
12の周波数については、自然数N=2における以降の処理では用いられる。倍音周波数f
hの算出後、評価部1206は、算出した候補周波数f
kと倍音周波数f
hの各々におけるパワーに基づき、妥当性指標を算出する。例えば、評価部1206は、候補周波数f
3におけるパワーP
3の対数を算出する。また、評価部1206は、倍音周波数f
6、f
9、及びf
12の各々におけるパワーP
6、P
9、及びP
12の対数を算出する。そして、評価部1206は、算出した対数の和を妥当性指標として算出する。妥当性指標の算出後、自然数Nは、評価部1206によってN=2からN=3へインクリメントされる。
【0080】
続いて、
図4に示す自然数N=3の時、検出部1204は、最大ピーク周波数であるf
6をピーク周波数f
pとして検出する(S106)。次いで、評価部1206は、候補周波数f
k=f
p/N=f
2と算出する(S108)。次いで、評価部1206は、候補周波数f
k=f
2における自然数MをM=1として、倍音周波数f
hを算出する(S110)。例えば、M=2では、倍音周波数f
h=Mf
k=f
4と算出される。また、M=3では、倍音周波数f
h=Mf
k=f
6と算出される。また、M=4では、倍音周波数f
h=Mf
k=f
8と算出される。また、M=5では、倍音周波数f
h=Mf
k=f
10と算出される。また、M=6では、倍音周波数f
h=Mf
k=f
12と算出される。なお、今回の例では、算出される周波数の最大値がf
12であるため、自然数N=3における倍音周波数f
hの算出は、M=6で終了する。
【0081】
なお、
図4の例では、f
2、f
4、f
6、f
8、f
10、及びf
12は、それぞれ候補周波数f
k又は倍音周波数f
hとして得られるものの、f
6とf
12はピークに対応しているが、f
2、f
4、f
8、及びf
10はピークに対応していない。また、f
3及びf
9の周波数のように、ピークが鋭い周波数も存在する。しかしながら、f
3及びf
9の周波数は、自然数M=1~6のいずれにも該当しないため、候補周波数f
k及び倍音周波数f
hのいずれにも該当しない(抽出されていない)。f
2、f
4、f
6、f
8、f
10、及びf
12以外の周波数は、自然数N=3における以降の処理では用いられない。倍音周波数f
hの算出後、評価部1206は、算出した候補周波数f
kと倍音周波数f
hの各々におけるパワーに基づき、妥当性指標を算出する。例えば、評価部1206は、候補周波数f
2におけるパワーP
2の対数を算出する。また、評価部1206は、倍音周波数f
4、f
6、f
8、f
10、及びf
12の各々におけるパワーP
4、P
6、P
8、P
10、及びP
12の対数を算出する。そして、評価部1206は、算出した対数の和を妥当性指標として算出する。妥当性指標の算出後、自然数Nは、評価部1206によってN=3からN=4へインクリメントされる。
【0082】
続いて、
図5に示す自然数N=4の時、検出部1204は、最大ピーク周波数であるf
6をピーク周波数f
pとして検出する(S106)。次いで、評価部1206は、候補周波数f
k=f
p/N=f
1と算出する(S108)。次いで、評価部1206は、候補周波数f
k=f
1における自然数MをM=1として、倍音周波数f
hを算出する(S110)。例えば、M=2では、倍音周波数f
h=Mf
k=f
3と算出される。また、M=3では、倍音周波数f
h=Mf
k=f
5と算出される。また、M=4では、倍音周波数f
h=Mf
k=f
6と算出される。また、M=5では、倍音周波数f
h=Mf
k=f
7と算出される。また、M=6では、倍音周波数f
h=Mf
k=f
9と算出される。また、M=7では、倍音周波数f
h=Mf
k=f
11と算出される。また、M=8では、倍音周波数f
h=Mf
k=f
12と算出される。なお、今回の例では、算出される周波数の最大値がf
12であるため、自然数N=4における倍音周波数f
hの算出は、M=8で終了する。
【0083】
なお、
図5の例では、f
1、f
3、f
5、f
6、f
7、f
9、f
11、及びf
12は、それぞれ候補周波数f
k又は倍音周波数f
hとして得られるものの、f
3、f
6、f
9、及びf
12はピークに対応しているが、f
1、f
5、f
7、及びf
11はピークに対応していない。f
1、f
3、f
5、f
6、f
7、f
9、f
11、及びf
12以外の周波数は、自然数N=4における以降の処理では用いられない。倍音周波数f
hの算出後、評価部1206は、算出した候補周波数f
kと倍音周波数f
hの各々におけるパワーに基づき、妥当性指標を算出する。例えば、評価部1206は、候補周波数f
1におけるパワーP
1の対数を算出する。また、評価部1206は、倍音周波数f
3、f
5、f
6、f
7、f
9、f
11、及びf
12の各々におけるパワーP
3、P
5、P
6、P
7、P
9、P
11、及びP
12の対数を算出する。そして、評価部1206は、算出した対数の和を妥当性指標として算出する。自然数Nの値が最大値(N=4)であるため、妥当性指標の算出後、処理はS114の処理へ進む。
【0084】
各々の自然数Nにおける妥当性指標の算出後、評価部1206は、算出した妥当性指標に基づき、候補周波数の妥当性を評価する(S112)。抽出部1208は、評価部1206による評価結果に基づき、基音周波数を抽出する(S114)。例えば、抽出部1208は、自然数N=1~4の各々で算出された妥当性周波数を比較する。なお、
図3の自然数N=2の場合の妥当性指標は、妥当性指標の補正処理により
図5の自然数N=4の場合の妥当性指標よりも大きくなる。
【0085】
妥当性指標の補正処理を行なわない場合、第3の閾値としてノイズのパワーよりも大きい値を設定することにより、パワーの総和からノイズのパワーが除外される。例えば、
図4の例の場合、パワーP
2、P
4、P
8、及びP
10がパワーの総和から除外される。
図5の例の場合、パワーP
1、P
5、P
7、及びP
11がパワーの総和から除外される。結果として、
図3の自然数N=2における妥当性指標と
図5の自然数N=4における妥当性指標が最大値となる。本実施形態では、最大値を示す妥当性指標が複数存在する場合、抽出部1208は、自然数Nが最も小さい候補周波数f
kを抽出対象の基音周波数f
fと決定する。
【0086】
よって、
図2~
図5に示す例では、抽出部1208は、自然数N=2(2倍音)における候補周波数f
k=f
6を抽出対象の基音周波数f
fとして抽出する。
【0087】
以上説明したように、本実施形態に係る基音抽出装置10は、基音の抽出対象の周波数スペクトルにおいて、ピーク周波数を少なくとも1つ検出する。また、基音抽出装置10は、検出したピーク周波数に基づき、基音周波数の候補周波数とその倍音周波数とを算出し、算出した候補周波数の妥当性指標を算出する。そして、基音抽出装置10は、算出した妥当性指標に基づき、候補周波数から抽出対象の基音周波数を決定する。
【0088】
これにより、基音抽出装置10は、1つのピーク周波数しか検出されなかった場合でも、検出した1つのピーク周波数に基づき、基音を抽出することができる。また、基音抽出装置10は、周波数スペクトルから基音を直接検出することが困難な場合でも、1つのピーク周波数に基づき、基音を抽出することができる。また、基音抽出装置10は、周波数スペクトルに基音が存在しない場合でも、1つのピーク周波数に基づき、基音を抽出することができる。また、基音抽出装置10は、1つのピーク周波数に基づき、ノイズ等の影響を受けずに基音を抽出することができる。よって、基音抽出装置10は、基音抽出の精度を向上することができる。
【0089】
以上、本発明の実施形態について説明した。なお、上述した実施形態における基音抽出装置10をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
【0090】
以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0091】
10 基音抽出装置
110 入力部
120 制御部
130 出力部
1202 変換部
1204 検出部
1206 評価部
1208 抽出部
1210 後処理部