(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-15
(45)【発行日】2024-08-23
(54)【発明の名称】特徴抽出装置、特徴抽出方法及びプログラム
(51)【国際特許分類】
G10L 25/27 20130101AFI20240816BHJP
【FI】
G10L25/27
(21)【出願番号】P 2021134047
(22)【出願日】2021-08-19
【審査請求日】2023-09-26
【新規性喪失の例外の表示】特許法第30条第2項適用 ▲1▼ 開催日 2020年9月9日~2020年9月11日 集会名 日本音響学会2020年秋季研究発表会(オンライン開催) https://acoustics.jp/annualmeeting/past-meetings/ 掲載日 2020年9月11日 ▲2▼ 開催日 2020年10月25日~2020年10月29日 集会名 Interspeech2020(国際会議)WEB開催 http://interspeech2020.org/ 掲載日 2020年10月26日 ▲3▼ 開催日 2021年3月10日~2021年3月12日 集会名 日本音響学会2021年春季研究発表会(オンライン開催) https://acoustics.jp/annualmeeting/online_2021s/ https://acoustics.jp/annualmeeting/past-meetings/ 掲載日 2021年3月11日
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】柏野 邦夫
(72)【発明者】
【氏名】大石 康智
(72)【発明者】
【氏名】竹内 博俊
(72)【発明者】
【氏名】猿渡 洋
【審査官】土井 悠生
(56)【参考文献】
【文献】特表2021-502588(JP,A)
【文献】特表2022-541707(JP,A)
【文献】特表2022-529553(JP,A)
【文献】特表2003-507764(JP,A)
【文献】Z. Zhang, 外6名,“Deep audio priors emerge from harmonic convolutional networks”,Proc. ICLR, 2020,2020年,p. 1-12
【文献】高島田 良介, 外2名,“対数周波数領域における高調波成分抑圧処理に基づく多重音の基本周波数推定手法の評価”,日本音響学会 2015年 秋季研究発表会,2015年09月18日,p. 361-362
【文献】Wootaek Lim, 外1名,“Harmonic and percussive source separation using a convolutional auto encoder”,2017 25th European Signal Processing Conference (EUSIPCO),2017年08月28日,p. 1804-1808,https://ieeexplore.ieee.org/document/8081520,IEEE Xplore
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
G10L 19/00-99/00
H03M 1/00-9/00
(57)【特許請求の範囲】
【請求項1】
一次元波形の時間周波数表現を取得する時間周波数表現取得部と、
前記時間周波数表現の周波数スケールをk/n倍(k及びnは予め定められた自然数)にした時間周波数表現である再配置時間周波数表現を取得する時間周波数表現再配置部と、
前記再配置時間周波数表現を用いて畳み込みを行う畳み込み演算部と、
を備える特徴抽出装置。
【請求項2】
前記時間周波数表現再配置部は、前記時間周波数表現の周波数スケールをk倍(kは予め定められた自然数)に縮小した時間周波数表現である再配置時間周波数表現を取得する、
請求項1に記載の特徴抽出装置。
【請求項3】
前記時間周波数表現再配置部は、前記時間周波数表現の周波数スケールをn倍(nは予め定められた自然数)に拡大した時間周波数表現である再配置時間周波数表現を取得する、
請求項1又は2に記載の特徴抽出装置。
【請求項4】
前記時間周波数表現再配置部は、前記時間周波数表現の周波数スケールをk倍(kは予め定められた自然数)に縮小した時間周波数表現である第1の再配置時間周波数表現と、
前記時間周波数表現の周波数スケールをn倍(nは予め定められた自然数)に拡大した時間周波数表現である第2の再配置時間周波数表現と、を取得する、
請求項1から3のいずれか一項に記載の特徴抽出装置。
【請求項5】
前記畳み込みにおいて、時間周波数表現は4次元のテンソルで表現され、前記テンソルは、バッチサイズをN、チャンネル数をC、前記時間周波数表現の周波数軸方向のサイズをF、前記時間周波数表現の時間軸方向の大きさをTとして、NCFT配列の形式のテンソルである、
請求項1から4のいずれか一項に記載の特徴抽出装置。
【請求項6】
前記時間周波数表現取得部は、周波数軸が対数周波数軸である時間周波数表現を取得する、
請求項1から5のいずれか一項に記載の特徴抽出装置。
【請求項7】
前記時間周波数表現再配置部は、時間周波数表現の周波数軸方向の補間を行う、
請求項1から6のいずれか一項に記載の特徴抽出装置。
【請求項8】
一次元波形の時間周波数表現を取得する時間周波数表現取得ステップと、
前記時間周波数表現の周波数スケールをk/n倍(k及びnは予め定められた自然数)にした時間周波数表現である再配置時間周波数表現を取得する時間周波数表現再配置ステップと、
前記再配置時間周波数表現を用いて畳み込みを行う畳み込み演算ステップと、
を有する特徴抽出方法。
【請求項9】
前記時間周波数表現取得ステップは、周波数軸が対数である時間周波数表現を取得する、
請求項8に記載の特徴抽出方法。
【請求項10】
請求項1から7のいずれか一項に記載の特徴抽出装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特徴抽出装置、特徴抽出方法及びプログラムに関する。
【背景技術】
【0002】
音源分離や、音声認識や、雑音抑圧等の音響信号を用いるさまざまな技術に用いられる技術として音響信号の特徴を抽出する特徴抽出の技術がある。特徴抽出の技術としては、例えば非特許文献1に記載の調波畳み込みの技術がある。
【先行技術文献】
【非特許文献】
【0003】
【文献】Z.Zhang, Y.Wang, C.Gan, J.Wu, J.B.Tenenbaum, A.Torralba, and W. T. Freeman, “Deep audio priors emerge from harmonic convolutional networks,” in Proc. ICLR , 2020.
【発明の概要】
【発明が解決しようとする課題】
【0004】
音響信号をはじめとする一次元波形の中には、基本波と、基本波の概ね整数倍の周波数をもつ波(これを高調波という)とをその成分として含むものがある。例えば、人の話し声における有声音などのように、人が聴いて音の高さを感じるような音は、このような成分から構成されていることが知られている。このような音においては、音波が有する基本波と高調波とは、その周波数はもとより、振幅やその変化の仕方など、その性質に関して特有の関係を有する場合がある。このような関係は、高調波関係と総称される。高調波関係を陽に用いて特徴抽出を行う技術のうちの一つは、調波畳み込み(harmonic convolution)と呼ばれる。調波畳み込みの技術は、より具体的には、高調波成分を一度に畳み込みの対象とすることが可能な畳み込みカーネルを用いて一次元波形の特徴抽出を行う技術である。
【0005】
しかしながら非特許文献1に記載の技術では、高調波成分を畳み込むために、入力波形の時間周波数表現において、周波数軸を離散化した周波数インデックスが変わるごとにカーネルが参照するデータの間隔(dilation)が変化する畳み込みが行われている。そのため、畳み込みの際のデータの参照に時間を要する場合があった。その結果、音響信号の特徴の取得に要する時間が増大する場合があった。
【0006】
上記事情に鑑み、本発明は、一次元波形の特徴抽出に要する時間の増大を抑制する技術を提供することを目的としている。
【課題を解決するための手段】
【0007】
本発明の一態様は、一次元波形の時間周波数表現を取得する時間周波数表現取得部と、前記時間周波数表現の周波数スケールをk/n倍(k及びnは予め定められた自然数)にした時間周波数表現である再配置時間周波数表現を取得する時間周波数表現再配置部と、前記再配置時間周波数表現を用いて畳み込みを行う畳み込み演算部と、を備える特徴抽出装置である。
【0008】
本発明の一態様は、一次元波形の時間周波数表現を取得する時間周波数表現取得ステップと、前記時間周波数表現の周波数スケールをk/n倍(k及びnは予め定められた自然数)にした時間周波数表現である再配置時間周波数表現を取得する時間周波数表現再配置ステップと、前記再配置時間周波数表現を用いて畳み込みを行う畳み込み演算ステップと、を有する特徴抽出方法である。
【0009】
本発明の一態様は、上記の特徴抽出装置としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0010】
本発明により、一次元波形の特徴の取得に要する時間の増大を抑制する技術を提供することが可能となる。
【図面の簡単な説明】
【0011】
【
図1】第1実施形態の特徴抽出装置を説明する説明図。
【
図2】第1実施形態における時間周波数表現の再配置を説明する説明図。
【
図3】第1実施形態における特徴抽出装置のハードウェア構成の一例を示す図。
【
図4】第1実施形態における制御部の構成の一例を示す図。
【
図5】第1実施形態における制御部が実行する処理の流れの一例を示すフローチャート。
【
図6】第1実施形態における線形補間のプログラムの一例を示す図。
【
図7】第1実施形態における第1時間周波数表現再配置処理及び畳み込み演算処理のアルゴリズムの一例を示す図。
【
図8】第2実施形態の特徴抽出装置を説明する説明図。
【
図9】第2実施形態における時間周波数表現の再配置を説明する説明図。
【
図10】第2実施形態における特徴抽出装置のハードウェア構成の一例を示す図。
【
図11】第2実施形態における制御部の構成の一例を示す図。
【
図12】第2実施形態の特徴抽出装置が実行する処理の流れの一例を示すフローチャート。
【
図16】変形例における対称調波畳み込みを説明する第1の説明図。
【
図17】変形例における対称調波畳み込みを説明する第2の説明図。
【
図18】変形例の第3実験の実験結果の一例を示す図。
【
図19】変形例の第4実験の実験結果の一例を示す図。
【
図20】変形例の第5実験の実験結果の一例を示す図。
【発明を実施するための形態】
【0012】
(第1実施形態)
図1は、第1実施形態の特徴抽出装置1を説明する説明図である。特徴抽出装置1は、第1時間周波数表現取得処理と、第1時間周波数表現再配置処理と、畳み込み演算処理とを実行する。第1時間周波数表現取得処理は、入力された一次元波形の信号の時間周波数表現を取得する処理である。ここで、時間周波数表現とは、時間と周波数の2軸に対して前記信号の有する性質を表現したものをいう。例えば、短時間フーリエ変換によって計算した振幅スペクトルを時間に沿って並べたもの(振幅スペクトログラム)はその一例である。
【0013】
以下説明の簡単のため、時間周波数表現が短時間フーリエ変換に基づく振幅スペクトログラムである場合を例に特徴抽出装置1を説明する。しかしながら、時間周波数表現はこれに限定されるものではなく、時間周波数表現は、パワースペクトログラムはもとより、線形の周波数軸を有する時間周波数表現であればどのようなものであってもよい。
【0014】
第1時間周波数表現再配置処理は、第1時間周波数表現取得処理によって得られた時間周波数表現の周波数軸を変化させて再配置する処理である。なお、本明細書において再配置とは、元となる時間周波数表現の周波数軸を変化させた時間周波数表現(以下「再配置スペクトログラム」という。)を生成することを意味する。この処理について、
図2を用いてより詳細に説明する。
図2は、第1実施形態における時間周波数表現の再配置を説明する説明図である。すなわち、
図2は、第1実施形態における第1時間周波数表現再配置処理を説明する説明図である。
【0015】
第1実施形態においては、時間周波数表現の再配置は、元の時間周波数表現の周波数スケールをk倍に縮小した時間周波数表現を生成することにより行われる。kは、1から予め定められた自然数であるK
fまでの整数である。
図2ではK
f=3の場合を示している。周波数スケールをk倍に縮小するとは、周波数軸が離散化された時間周波数表現において、同じ周波数インデックスに対応する周波数をk倍とすることを意味する。
【0016】
図2には、元の時間周波数表現と、周波数スケールが2倍に縮小された時間周波数表現と、3倍に縮小された時間周波数表現とが一例として示されている。第1時間周波数表現再配置処理においては、これらの周波数スケールがk倍された時間周波数表現が生成され、元の時間周波数表現を含めこれら時間周波数表現が記憶媒体上に配置される。なお、本明細書において、記憶媒体上に配置される、とは記憶媒体上に接触するように置かれることを意味するのではない。記憶媒体上に配置される、とは記憶媒体上に記録されることを意味する。
【0017】
畳み込み演算処理は、予め定めたカーネルと、時間周波数表現との間で積和計算を行う処理である。ここでカーネルとは、積和計算に用いる数値を組にしたものであり、フィルタ係数に相当する。具体的には、周波数と時間に関するフィルタ係数を格納した行列である。着目点にカーネルを設置し、着目点を変えながら積和計算を反復することで特徴抽出を行うという点においては、公知の画像処理で頻用されている畳み込みニューラルネットワークによる処理と同様である。なお特徴抽出とは、処理の対象の特徴を抽出する処理である。
【0018】
しかしながら、畳み込み演算処理における畳み込みと、公知の画像処理の技術とは相違点を有する。公知の画像処理の技術においては、カーネルは近傍の画素値に対して積和計算を行う係数であることが一般的である。一方、畳み込み演算処理における畳み込みにおいては、カーネルに対して積算される対象となるデータは、周波数軸方向には必ずしも近傍に隣接するデータではない。
【0019】
畳み込み演算処理における畳み込み(以下「調波畳み込み」という。)においてカーネルに対して積算される対象となるデータは、周波数軸方向の値が、着目点である時間周波数表現上の一点に対してそのk/n倍(k及びnは予め定められた自然数)倍の周波数値である、という条件を満たすデータである。特徴抽出装置1においてはn=1とするので、対象データ条件は、周波数軸方向の値が、着目点である時間周波数表現上の一点に対してその整数倍の周波数値である、という条件となる。公知の方法では、この相違点が、データ参照に時間を要する原因となっていた。なお、着目点とは、畳み込みの演算においてカーネルに対して積算される対象となるデータを示す時間周波数表現上の一点の候補のうち、予め定められた所定の条件を満たす時間周波数表現上の一点、を意味する。
【0020】
第1時間周波数表現再配置処理と畳み込み演算処理とを、数式を用いてさらに詳細に説明する。以下、A^{^}は、記号Aに曲折アクセントが付いた文字を示す。例えば、ω^{^}は、以下の式(1)を示す。
【0021】
【0022】
調波畳み込みは、例えば以下の式(2)で表現される。
【0023】
【0024】
ω^{^}は、着目点の周波数を示す。なお、周波数と各振動数とは1対1の関係にあるのでωが表す内容は角振動数であってもよい。τ^{^}は着目点の時間軸上の座標値(すなわち時刻)を示す。ここでは説明の簡単のため、時間周波数表現において時間も周波数も離散化されている場合を考え、ω^{^}及びτ^{^}が整数である場合について説明する。
【0025】
以下の式(3)で表される項は、時間周波数表現の抽出を表す関数であり、例えば短時間フーリエ変換による振幅スペクトログラムを表す項である。式(3)は、着目点となる時刻τ^{^}と周波数ω^{^}、即ち時間周波数表現上の一点に対して、周波数をk/n倍し、時間をτシフトさせた点における振幅スペクトログラムを参照することを表している。なお、第1実施形態では n=1 である。参照対象を参照するとは、参照対象を記憶する記憶装置からの参照対象の読み出しを意味する。
【0026】
【0027】
以下の式(4)で表される項は、事前に設定された前記カーネルを表す。カーネルは、Kf×Ktのサイズの行列で表される。ここでKf、Ktは事前に設定された整数であり、kは1からKfまで、τは1からKtまでの値をとる整数である。なお、事前の設定とは、予め定められた、ことを意味する。
【0028】
【0029】
式(2)は、1からKfまでの各kおよび1からKtまでの各τについて積和計算を行うことを表している。即ち式(2)は、高調波関係を用いた畳み込みの一例である。
【0030】
式(2)の右辺は、以下の式(5)及び式(6)の置き換えにより、式(7)の右辺に変換される。
【0031】
【0032】
【0033】
【0034】
式(5)の左辺は、再配置されたk番目のスペクトログラムが示す周波数ω^{^}の基本波の時刻τ^{^}における振幅を示す。
【0035】
式(6)は、
図2に示すように、元のカーネルを、再配置後の時間周波数表現に対応するように分解することを意味する(
図2は、特徴抽出装置1における処理を説明する図であるため、n=1の場合を図示している)。対応するように分解する、とは、カーネルを表す行列の行をkの値ごとに取り出し、K
f個の1行K
t列行列にすることを意味する。
【0036】
即ち、K´は、Kf個の再配置スペクトログラムに対して作用するカーネルの要素(k、τ)の値を示す。式(6)は、カーネルK´は、カーネルKを分解することで導かれることを示す。
【0037】
畳み込み演算処理で実行される畳み込みは、式(2)の畳み込みではなく、式(7)の畳み込みである。
【0038】
式(2)の畳み込みの場合、ω^{^}が変化するたびに、カーネルの参照するデータ間隔(dilation)の変更が必要である。一方、式(7)の畳み込みの場合、式(2)の畳み込みと異なり、ω^{^}が変化しても、カーネルの参照するデータ間隔の変更は必要ない。そのため、式(7)の畳み込みを用いる場合、式(2)の畳み込みを用いるよりも、畳み込みの際のデータの参照に要する時間の増大が抑制される。
【0039】
図3は、第1実施形態における特徴抽出装置1のハードウェア構成の一例を示す図である。特徴抽出装置1は、バスで接続されたCPU(Central Processing Unit)等のプロセッサ91とメモリ92とを備える制御部11を備え、プログラムを実行する。特徴抽出装置1は、プログラムの実行によって制御部11、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。
【0040】
より具体的には、プロセッサ91が記憶部14に記憶されているプログラムを読み出し、読み出したプログラムをメモリ92に記憶させる。プロセッサ91が、メモリ92に記憶させたプログラムを実行することによって、特徴抽出装置1は、制御部11、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。
【0041】
制御部11は、特徴抽出装置1が備える各種機能部の動作を制御する。制御部11は、例えば第1時間周波数表現取得処理と、第1時間周波数表現再配置処理と、畳み込み演算処理とを実行する。制御部11は、例えば出力部15の動作を制御する。制御部11は、例えば畳み込み演算の実行により生じた各種情報を記憶部14に記録する。
【0042】
入力部12は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部12は、これらの入力装置を特徴抽出装置1に接続するインタフェースとして構成されてもよい。入力部12は、特徴抽出装置1に対する各種情報の入力を受け付ける。
【0043】
通信部13は、特徴抽出装置1を外部装置に接続するための通信インタフェースを含んで構成される。通信部13は、有線又は無線を介して外部装置と通信する。外部装置は、例えば一次元波形の信号の送信元の装置である。
【0044】
記憶部14は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部14は第1時間周波数表現取得処理の実行に関する各種情報を記憶する。記憶部14は、例えば入力部12又は通信部13を介して入力された情報を記憶する。記憶部14は、例えば畳み込み演算処理の実行により生じた各種情報を記憶する。記憶部14は、例えば予めカーネルを記憶する。
【0045】
出力部15は、各種情報を出力する。出力部15は、例えばCRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置を含んで構成される。出力部15は、これらの表示装置を特徴抽出装置1に接続するインタフェースとして構成されてもよい。出力部15は、例えば入力部12に入力された情報を出力する。出力部15は、例えば畳み込み演算の実行結果を表示してもよい。
【0046】
図4は、第1実施形態における制御部11の構成の一例を示す図である。制御部11は、信号取得部110、スペクトログラム取得部120、スペクトログラム再配置部121,畳み込み演算部130、記憶制御部140、通信制御部150及び出力制御部160を備える。信号取得部110は、通信部13に入力された一次元波形の信号を取得する。スペクトログラム取得部120は、信号取得部110の取得した一次元波形の信号に対して例えば短時間フーリエ解析を行うことで、信号のスペクトログラムを取得する。すなわちスペクトログラム取得部120は、信号取得部110の取得した信号に対して第1時間周波数表現取得処理を実行する。
【0047】
スペクトログラム再配置部121は、スペクトログラム取得部120の取得したスペクトログラムに対し、第1時間周波数表現再配置処理の実行により得られるスペクトログラムであって周波数軸のスケールが変更されたスペクトログラムである再配置スペクトログラムを作成し、記憶部14に配置する。すなわち、スペクトログラム再配置部121は、スペクトログラム取得部120の取得したスペクトログラムに対して第1時間周波数表現再配置処理を実行する。
【0048】
畳み込み演算部130は、スペクトログラム再配置部121によって得られた再配置スペクトログラムを参照し、予め定めたカーネルを用いて畳み込み演算を行う。すなわち畳み込み演算部130は、スペクトログラム再配置部121によって得られた再配置スペクトログラムに対して畳み込み演算処理を実行する。
【0049】
記憶制御部140は、記憶部14に各種情報を記録する。通信制御部150は通信部13の動作を制御する。出力制御部160は、出力部15の動作を制御する。
【0050】
図5は、第1実施形態における、スペクトログラム取得部120、スペクトログラム再配置部121及び畳み込み演算部130が実行する処理の流れの一例を示すフローチャートである。すなわち
図5は制御部11が実行する処理の流れの一例を示すフローチャートである。まず、信号取得部110が取得した一次元波形の信号に対し、スペクトログラム取得部120が第1時間周波数表現取得処理を実行し、スペクトログラムを取得する(ステップS101)。次に、スペクトログラム再配置部121が、ステップS101で取得されたスペクトログラムに対して第1時間周波数表現再配置処理を実行する(ステップS102)。第1時間周波数表現再配置処理の実行により再配置スペクトログラムが得られる。次に、畳み込み演算部130が、再配置スペクトログラムと予め定められたカーネルとを参照し、畳み込み演算を行う(ステップS103)。
【0051】
<時間周波数表現の補間について>
第1時間周波数表現再配置処理における、時間周波数表現の周波数軸方向のスケールをk/n倍する処理では、補間が実行されることが好ましい結果をもたらす場合がある。補間の方法はどのような方法であっても適用可能であり、例えば線形補間、有理補間(Rational Interpolation)であってもよい。k/nは有理数であるが、このような場合には、例えば以下の
図6に示すアルゴリズムの実行による線形補間が行われてもよい。なぜなら、一般のα倍の線形補間においては逐一補間係数と補間点を求めるのに対し、有理数倍の線形補間においては補間係数と補間点が周期的であり計算を削減できるからである。
【0052】
図6は、第1実施形態における線形補間のプログラムの一例を示す図である。
図6におけるXはC
iチャンネルを持つ周波数のサイズと時間のサイズとがF、Tのスペクトログラムである。
図6のアルゴリズムの8行目~21行目のforループ内において16行目以外での乗除算は整数についてのみ実行される。そのため、
図6のアルゴリズムは計算量を減らすことができる。また、
図6のアルゴリズムは、F,Tについての並列計算が可能である。そのため、
図6のアルゴリズムは、演算に要する時間を軽減することができる。
【0053】
図7は、第1実施形態における第1時間周波数表現再配置処理及び畳み込み演算処理のアルゴリズムの一例を示す図である。
図7は、記載の手順により式(7)の左辺の値が得られることを示す。
【0054】
このように構成された第1実施形態の特徴抽出装置1は、第1時間周波数表現再配置処理と、式(7)の畳み込みとを実行するため、畳み込みの際のデータの参照に要する時間の増大を抑制することができる。そのため、特徴抽出装置1は、一次元波形の信号の特徴の取得に要する時間の増大を抑制することができる。
【0055】
(第2実施形態)
図8は、第2実施形態の特徴抽出装置1aを説明する説明図である。特徴抽出装置1aは、第2時間周波数表現取得処理と、第2時間周波数表現再配置処理と、畳み込み演算処理とを実行する。第2時間周波数表現取得処理は、入力された一次元波形の信号の時間周波数表現を取得した後、その周波数軸が対数周波数軸になるように時間周波数表現を変換する処理である。時間周波数表現は、例えば、短時間フーリエ変換によって取得される。
【0056】
以下説明の簡単のため、時間周波数表現が短時間フーリエ変換に基づく振幅スペクトログラムの周波数軸が対数周波数軸に変換されたスペクトログラムである場合を例に特徴抽出装置1aを説明する。しかしながら、時間周波数表現はこれに限定されるものではなく、時間周波数表現は、パワースペクトログラムはもとより、対数の周波数軸を有する時間周波数表現であればどのようなものであってもよい。
【0057】
第2時間周波数表現再配置処理は、第2時間周波数表現取得処理によって得られた時間周波数表現の周波数軸を変化させて再配置する処理である。この処理について、
図9を用いてより詳細に説明する。
図9は、第2実施形態における時間周波数表現の再配置を説明する説明図である。すなわち、
図9は、第2実施形態における第2時間周波数表現再配置処理を説明する説明図である。
【0058】
第2実施形態においては、時間周波数表現の再配置は、元の時間周波数表現の周波数スケールをk倍に縮小して再配置することにより行われる。kは、1から予め定められた自然数であるK
fまでの整数である。
図9はK
f=3の場合を示している。周波数スケールをk倍に縮小するとは、周波数軸が離散化された時間周波数表現において、同じ周波数インデックスに対応する周波数をk倍とすることを意味する。
【0059】
図9には、元の時間周波数表現と、周波数スケールが2倍に縮小された時間周波数表現と、3倍に縮小された時間周波数表現とが一例として示されている。
図9において、周波数軸は対数である。第2時間周波数表現再配置処理においては、これらの周波数スケールがk倍された時間周波数表現であって周波数軸が対数周波数軸である時間周波数表現が生成され、元の時間周波数表現を含めこれら時間周波数表現が記憶媒体上に配置される。周波数軸が対数周波数軸であるとは、周波数軸上に等間隔に配置される周波数値が等比数列になっている軸であることを意味する。この場合、第2時間周波数表現再配置処理における縮小とは、周波数軸に関する平行移動を意味する。
【0060】
図9に示すように、第2実施形態の特徴抽出装置1aは、第2時間周波数表現取得処理と、第2時間周波数表現再配置処理と、畳み込み演算処理とを実行する。第2時間周波数表現取得処理においては、対数周波数スペクトログラムが生成される。対数周波数スペクトログラムは、元のスペクトログラムの周波数軸に対して対数変換が行われた値を周波数軸とする、スペクトログラムである。
【0061】
一次元波形に対する対数周波数スペクトログラムの取得の処理の一例を、短時間フーリエ変換を用いて行う場合を例に、より具体的に説明する。
【0062】
第2実施形態における畳み込み処理は、第1実施形態における畳み込み処理と同様である。
【0063】
対数周波数スペクトログラムの生成の処理(すなわち第2時間周波数表現取得処理)の一例と畳み込み処理とを、数式を用いてさらに詳細に説明する。
【0064】
上述した式(3)が元のスペクトログラムの要素の値であるため、対数周波数スペクトログラムの要素の値は以下の式(8)で表される。
【0065】
【0066】
式(3)について成り立つ式(5)と同様に、式(8)について式(9)が成り立つ。
【0067】
【0068】
式(9)の右辺を展開すると、以下の式(10)が得られる。
【0069】
【0070】
式(2)から式(7)が得られたのと同様に、式(8)~式(10)を用いて式(2)から以下の式(11)が得られる。
【0071】
【0072】
第2時間周波数表現取得処理が実行する畳み込みは、式(2)の畳み込みではなく、式(11)の畳み込みである。
【0073】
式(2)の畳み込みの場合、ω^{^}が変化するたびに、カーネルの参照するデータ間隔の変更が必要である。一方、式(11)の畳み込みの場合、式(2)の畳み込みと異なり、ω^{^}が変化しても、カーネルの参照するデータ間隔の変更は必要ない。そのため、式(11)の畳み込みを用いる場合、式(2)の畳み込みを用いるよりも、畳み込みの際のデータの参照に要する時間の増大が抑制される。
【0074】
さらに式(10)の関係があるため、式(11)を用いる畳み込みの場合には式(7)と異なり、元の対数周波数スペクトログラムの周波数軸方向へのlog(k/n)のシフトだけで畳み込みの結果が得られる。したがって、式(11)を用いる畳み込みの場合、式(7)を用いる畳み込みよりもさらに少ない演算量で結果を得ることができる。
【0075】
図10は、第2実施形態における特徴抽出装置1aのハードウェア構成の一例を示す図である。特徴抽出装置1aは、バスで接続されたCPU等のプロセッサ91aとメモリ92aとを備える制御部11aを備え、プログラムを実行する。特徴抽出装置1aは、プログラムの実行によって制御部11a、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。
【0076】
より具体的には、プロセッサ91aが記憶部14に記憶されているプログラムを読み出し、読み出したプログラムをメモリ92aに記憶させる。プロセッサ91aが、メモリ92aに記憶させたプログラムを実行することによって、特徴抽出装置1aは、制御部11a、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。
【0077】
以下、説明の簡単のため、特徴抽出装置1aが備える機能部のうち、特徴抽出装置1が備える機能部と同様のものについては、
図3~
図4と同じ符号を付すことで説明を省略する。
【0078】
制御部11aは、特徴抽出装置1aが備える各種機能部の動作を制御する。制御部11aは、例えば第2時間周波数表現取得処理と、第2時間周波数表現再配置処理と、畳み込み演算処理とを実行する。制御部11aは、例えば出力部15の動作を制御する。制御部11aは、例えば畳み込み演算の実行により生じた各種情報を記憶部14に記録する。
【0079】
図11は、第2実施形態における制御部11aの構成の一例を示す図である。制御部11aは、スペクトログラム取得部120に代えてスペクトログラム取得部120aを備える点と、スペクトログラム再配置部121に代えてスペクトログラム再配置部121aを備える点とで制御部11と異なる。
【0080】
スペクトログラム取得部120aは、第1時間周波数表現取得処理に代えて第2時間周波数表現取得処理を実行する点でスペクトログラム取得部120と異なる。スペクトログラム再配置部121aは、スペクトログラム取得部120aの取得した周波数表現に対して第2時間周波数表現再配置処理を実行する。
【0081】
図12は、第2実施形態の特徴抽出装置1aが実行する処理の流れの一例を示すフローチャートである。以下説明の簡単のため特徴抽出装置1が実行する処理と同様の処理については、
図5と同じ符号を付すことで説明を省略する。
【0082】
ステップS101aでは、スペクトログラム取得部120aが対数周波数スペクトログラムを取得する(ステップS101a)。より具体的には、信号取得部110が取得した一次元波形の信号に対し第2時間周波数表現取得処理を実行することで、スペクトログラム取得部120aは対数周波数スペクトログラムを取得する。なお、第2時間周波数表現取得処理は、中心周波数が対数上で等間隔になるように設定した帯域フィルタバンクを用いることによって取得する処理であってもよい。次にスペクトログラム再配置部121aが第2時間周波数表現再配置処理を実行する(ステップS102a)
【0083】
上述したように、周波数軸を対数とする第2時間周波数表現再配置処理では、周波数軸が対数周波数軸である場合以外の場合と異なり、時間周波数表現の周波数軸方向のスケールの変更が、周波数方向のデータのシフトとして実現される。このため、シフトの処理における演算量は、有理補間に要する演算量以下である。即ち、第2時間周波数表現再配置処理の実行に要する演算量は、第1時間周波数表現再配置処理の実行に要する演算量以下である。
【0084】
このように構成された第2実施形態の特徴抽出装置1aは、第2時間周波数表現取得処理と、第2時間周波数表現再配置処理と、式(11)の畳み込みとを実行するため、畳み込みの際のデータの参照に要する時間の増大を抑制することができる。そのため、特徴抽出装置1aは、一次元波形の信号の特徴の取得に要する時間の増大を抑制することができる。
【0085】
(第1実施形態と第2実施形態とに共通する第1の実験結果)
ここで、第1実施形態の特徴抽出装置1と、第2実施形態の特徴抽出装置1aと、を用いた第1の実験(以下「第1実験」という。)の結果について説明する。以下説明の簡単のため、第1時間周波数表現取得処理と第2時間周波数表現取得処理とを区別しない場合、時間周波数表現取得処理という。また、以下説明の簡単のため、第1時間周波数表現再配置処理と、第2時間周波数表現再配置処理と、を区別しない場合、時間周波数表現再配置処理という。
【0086】
第1実験では、周波数軸が線形の場合と周波数軸が対数周波数軸の場合とについて、時間周波数表現再配置処理における特徴抽出に要する計算時間とメモリの最大使用量とが計測された。一般に、計算時間とメモリの使用量とはトレードオフの関係になり得るため、計算時間とメモリの最大使用量とが計測された。第1実験では、カーネルサイズ(Kf、Kt)とアンカーnとのさまざまな値について計算時間とメモリの最大使用量とが計測された。第1実験では、Deformable Convolution用いて音響特徴を取得する技術(以下「第1従来法」という。)を用いた実験も行われた。
【0087】
図13は、第1実験の設定の一例を示す図である。
図13に記載の”Setting1”、”Setting2”、”Setting3”、”Setting1a”、”Setting2a”及び”Setting3a”はそれぞれ第1実験で用いられた設定を識別する識別子である。
図13に記載のP
fは、周波数方向のパディングサイズである。
図13に記載のP
tは、時間方向のパディングサイズである。
【0088】
第1実験では、第1従来法と、特徴抽出装置1又は特徴抽出装置1aが実行する処理(時間周波数表現再配置処理における周波数軸が線形の場合と対数の場合)とのそれぞれについて、ランダムな入力と微分出力とを用いて100回計測が行われた。なお、第1実験におけるパラメータであって
図13に記載していない他のパラメータは、パッチサイズ、入力チャンネル数、出力チャンネル数、入力スペクトログラムのサイズ、dilation、stride、groupパラメータであった。パッチサイズ、入力チャンネル数、出力チャンネル数、入力スペクトログラムのサイズ、dilation、stride、groupパラメータの各値は、順に、16、16、32、256×256、1、1、1であった。また、第1実験において用いられた装置は第1従来法を実行する場合も、時間周波数表現再配置処理を実行する場合も同じであった。
【0089】
図14は、第1実験の結果の一例を示す図である。棒グラフは計測された平均時間を示す。下部が順方向で上部が逆方向の計測時間を表す。
図14には、計算時間の下限として参照するための通常の畳み込み計算時間も併記されている。第1実験における“通常”とは、調波畳み込みではなく、画像に対して一般的に行われる畳み込み演算と同様に、音響スペクトログラム上における近傍の値に対して畳み込み演算を行う場合を指す。
図14中の点は、第1実験で用いたGPU上で使用した最大メモリを示す。
【0090】
図14は、”Setting1”、”Setting2”、”Setting3”、”Setting1a”、”Setting2a”及び”Setting3a”のいずれの設定においても本発明による方法は第1従来法よりも少ないメモリ使用量で短い計算時間を達成していることを示す。
図14は、時間周波数表現再配置処理(周波数軸が線形の場合及び対数の場合)では、通常の畳み込みの計算時間と比較して、1.5~3倍の計算時間で計算が終了したことを示す。
図14は、第1従来法では、通常の畳み込みの計算時間と比較して、9~15倍の計算時間で計算が終了したことを示す。したがって
図14は、特徴抽出装置1又は特徴抽出装置1aが実行する処理は、第1従来法よりも少ないメモリ使用量と短い計算時間であったことを示す。
【0091】
なお、
図14において“Harmonic Convolution (Deformable)1”は、第1従来法による順方向の計算時間を示す。
図14において”Ours (Harmonic Lowering)1”は、特徴抽出装置1が実行する処理による順方向の計算時間を示す。
図14において”Ours (Logarithmic Harmonic Lowering)1”は、特徴抽出装置1aが実行する処理による順方向の計算時間を示す。
図14において”Normal Convolution (only for ref.)1”は、通常の畳み込みによる順方向の計算時間を示す。
【0092】
なお、
図14において“Harmonic Convolution (Deformable)2”は、第1従来法による逆方向の計算時間を示す。
図14において”Ours (Harmonic Lowering)2”は、特徴抽出装置1が実行する処理による逆方向の計算時間を示す。
図14において”Ours (Logarithmic Harmonic Lowering)2”は、特徴抽出装置1aが実行する処理による逆方向の計算時間を示す。
図14において”Normal Convolution (only for ref.)2”は、通常の畳み込みによる逆方向の計算時間を示す。
【0093】
(第1実施形態と第2実施形態とに共通する第2の実験結果)
第1実施形態の特徴抽出装置1と、第2実施形態の特徴抽出装置1aと、を用いた第2の実験(以下「第2実験」という。)の結果について説明する。データのメモリ配置によってキャッシュメモリのヒット率が変化することは広く知られている。これはGPU上の計算においても同様である。メモリ配置には、NHWC配列とNCHW配列とがある。Nはバッチサイズ、Cはチャネル数、Hは画像の縦の大きさ、Wは画像の横の大きさを示す。
【0094】
時間周波数表現再配置処理において、FT配列とTF配列とのどちらが音響特徴の取得に要する時間が短いかを実験した。この実験が第2実験である。Fはスペクトログラムの周波数軸方向の大きさを示す。Tは、スペクトログラムの時間軸方向の大きさを示す。
【0095】
アンカーn=1、Kf=Kt=7という条件の下で第2実験は行われた。第2実験の他の設定は第1実験と同様であった。
【0096】
図15は、第2実験の結果の一例を示す図である。
図15は、NCFT配列についてもNCTF配列についても、時間周波数表現再配置処理における時間軸が線形の場合よりも対数の場合の方が、平均計算時間が短いことを示す。また、
図15は、時間周波数表現再配置処理における時間軸が線形の場合と対数の場合のいずれにおいても、NCFT配列の方がNCTF配列に比べて時間が短いことを示す。
【0097】
このように
図15の結果は、時間周波数表現再配置処理では、時間軸が線形の場合も対数の場合も、計算対象となる時間周波数表現は、NCFT配列の形式の4次元のテンソルであることが望ましい、ことを示す。
【0098】
(変形例)
<対称調波畳み込み>
第1実施形態の特徴抽出装置1と第2実施形態の特徴抽出装置1aとは、対称調波畳み込みを実行してもよい。対称調波畳み込みの詳細は後述し対称調波畳み込みが奏する効果を先に説明すると、対称調波畳み込みは、畳み込み演算に要する時空間計算量が少なく,単純な定式化のために拡張性が高い処理である。
図16と
図17とを用いて、対称調波畳み込みを説明する。
【0099】
図16は、変形例における対称調波畳み込みを説明する第1の説明図である。より具体的には
図16は、対称調波畳み込みの理解の容易のために、まず混合調波畳み込み(Anchor Mixing)を説明する説明図である。混合調波畳み込みとは、式(2)において、n=1でない場合(分数倍の周波数について畳み込み演算の対象とする場合)を意味する。
図16において、縦軸は周波数を示す。丸O
1は原点を示す。foは着目点の周波数を表し、丸P1、P2及びP3は、それぞれn=1、2、及び3における畳み込みの処理の実行を意味する。混合P4は、前記畳み込みの混合の処理の実行を意味する。
【0100】
図17は、変形例における対称調波畳み込みを説明する第2の説明図である。より具体的には
図17は、対称調波畳み込み(Symmetric Mixing)を説明する説明図である。縦軸は、周波数を示す。丸O
2は原点を示す。丸P5は畳み込みの処理の実行を意味する。
【0101】
混合調波畳み込みは、調波畳み込みを複数混合した畳み込みの方法である。混合調波畳み込みは、以下の式(12)で表される。
【0102】
【0103】
Nは混合される調波畳み込みの数である。すなわちNは予め定められた自然数である。式(12)が示すように、混合調波畳み込みは基底周波数ω/nの調波畳み込みをN種混合する。そのため、n=1とした調波畳み込みよりも、雑音除去の性能や音源分離の性能を向上させることができることが期待される。
【0104】
一方、対称調波畳み込みは、以下の式(13)で表される。
【0105】
【0106】
なお、式(12)及び(13)においてKh=Kf=Nである。
【0107】
混合調波畳み込み及び対称調波畳み込みにおいて、nを1より大きく定めることの意味は、着目点が、対象とする波形に含まれる周波数成分の高調波成分であった場合を想定して、着目点よりも低い周波数の高調波成分や基本周波数成分を計算に含めることにある。この趣旨において、混合調波畳み込みと対称調波畳み込みはいずれも目的に適っていると考えられる。しかし
図16と
図17を比較すると、混合調波畳み込みにおいては加算される成分の関係が入り組んでおり、また着目点foの成分が多数回(
図16の例では3回)加算されている。これに対し対称調波畳み込みにおいては、スカラーkと逆元1/kとは、互いに逆数の関係にあることに着目すると、加算される成分の関係が簡明であり、複数回にわたって加算される成分も存在しない。これらのことから、対称調波畳み込みにおいては、前記の目的を保ちつつ、混合調波畳み込みに比較して計算量が削減されることがわかる。
【0108】
より数学的な説明をすると、集合{1、・・・、Kh}に要素を追加し、乗法に対して群を形成したものがKsである。Ksは、群であるため、全ての畳み込みパラメータに逆元が存在するという意味で対称である。したがって、Ksは、対数スケールにおいても対称である。
【0109】
式(13)を変形すると以下の式(14)が得られる。
【0110】
【0111】
式(13)と式(14)とは等価な式である。式(14)は、Σの範囲が2倍である点以外は式(2)と同様の形の数式である。そのため、式(14)には式(7)の時間周波数表現再配置処理を適用可能である。
【0112】
より具体的には、第1実施形態の特徴抽出装置1は、畳み込みの処理において式(7)に代えて式(14)を実行してもよい。式(14)を実行する場合、時間周波数表現再配置処理では、k及びnの組ごとに時間周波数表現が再配置される。
【0113】
このように式(14)を実行する場合、時間周波数表現再配置処理では、Kf個の再配置された時間周波数表現に加えてさらに第1番目から第Kf番目までのKf個の時間周波数表現が再配置される。後者は、k番目のスペクトログラムの周波数軸方向のスケールが元の時間周波数表現の周波数軸スケールの1/k倍であるスペクトログラムである。
【0114】
なお、式(14)において、時間周波数表現における周波数軸を、対数とすることも可能である。
【0115】
<対称調波畳み込みが奏する効果について>
混合調波畳み込みは、複数の調波畳み込みを混合するため、計算的又は意味的な無駄が多い。具体的には、調波畳み込みの計算で目的周波数(kω)/nにおける調波畳み込みが計算済みである場合にも、異なる基底周波数の調波畳み込みで再度、目的周波数(kω)/nにおける調波畳み込みを計算する点に、混合調波畳み込みの無駄がある。混合調波畳み込みでは式(12)が示すように和を取得する処理が三重である。一方、対称調波畳み込みは、式(13)が示すように和を取得する処理が二重である。この点においても、対称調波畳み込みは、混合調波畳み込みよりも演算量を軽減することができる。
【0116】
また、混合調波畳み込みは上述の式(12)が示すように目的周波数未満の情報を取り込むが、対称調波畳み込みは(1/n)倍の成分を畳み込むため、式(13)が示すように混合調波畳み込みよりも単純な数式で定式化される。そのため、対称畳み込みは、例えば時間周波数表現再配置等の調波畳み込みの高速化のスキームを用いた処理を可能とし、演算量を軽減することができる。
【0117】
<対称調波畳み込みを用いた実験>
対称調波畳み込みを用いた3つの実験の結果を説明する。以下、3つの実験の1つを第3実験といい、他の1つを第4実験といい、残りの1つを第5実験という。
【0118】
第3実験では、テンソルサイズが(16,16,256,256)から(16,32,256,256)へと変換されるような畳み込み処理を、対称調波畳み込みを含む3つの方法で実行した。なお、テンソルサイズの数字は左から順にバッチ,チャンネル,周波数,時間サイズを意味する。入力テンソルは正規分布からサンプリングされたものであった。
【0119】
図18は、変形例の第3実験の実験結果の一例を示す図である。
図18は、順方向又は逆方向計算を100回行わせた平均時間の計測結果を示す。
図18の時間の単位は全てmsであった。なお、混合調波畳み込みのカーネルサイズについてはN=K
fであった。
図18の“混合調波”は、混合調波畳み込みを意味する。
図18の“対称調波”は、対称調波畳み込みを意味する。
図18の“通常”は、通常の畳み込みを意味する。第3実験における通常の畳み込みとは、調波畳み込みではなく、一般的に画像処理において行われる畳み込みと同様に、時間周波数表現上において隣接するデータに帯する畳み込みを行った場合を意味する。
【0120】
図19は、変形例の第4実験の実験結果の一例を示す図である。
図19は、それぞれの方法が順方向又は逆方向計算に必要なメモリ占有量を比較した結果を示す。ただし、計算に必要ではないがまだ開放されていないメモリなどがあるため、メモリ使用量を観測したとしても、真に必要なメモリ量を観測することは難しい。そこで第4実験では、メモリ使用量を直接観測する代わりに、畳み込み処理を最大何層積むことができるかが計測された。
【0121】
最大層数は、順方向又は逆方向計算が正しく計算できなくなるまで畳み込み処理を1層ずつ増やした場合の最大値であった。なお、正しく計算できない場合は、使用した実験系において CUDA OUT OF MEMORY エラー等のメモリ不足により計算が継続できないという内容のエラーが発生することにより検知した。畳み込み処理に計算させるテンソルサイズは変換前が(32,16,256,256)であり変換後が(32,16,256,256)であった。その他の設定については第3実験と同じであった。
【0122】
第5実験では、混合調波畳み込みと、対称調波畳み込みと、通常の畳み込みとの3つを機械学習のモデルの1種であるUnetに組み込んだ数理モデルについて雑音除去タスクが行われた。なお、第5実験における通常の畳み込みとは、調波畳み込みではなく、一般的に画像処理において行われる畳み込みと同様に、時間周波数表現上において隣接するデータに帯する畳み込みを行った場合を意味する。以下、混合調波畳み込みが組み込まれたUnetであって雑音除去タスクを実行するUnetを第1ネットモデルという。
【0123】
以下、対称調波畳み込みが組み込まれたUnetであって雑音除去タスクを実行するUnetを第2ネットモデルという。以下、通常の畳み込みが組み込まれたUnetであって雑音除去タスクを実行するUnetを第3ネットモデルという。
【0124】
第5実験では、雑音除去タスクの結果に基づき、混合調波畳み込みと、対称調波畳み込みと、通常の畳み込みとの各畳み込みの性能が評価された。雑音除去タスクは、具体的には、以下の非特許文献1に記載のDeep Audio Priorであった。
【0125】
第5実験では、LJSpeechデータセットから取得された音声波形データsにSNRが0デシベルとなるようにガウシアンノイズnが付与された波形s´が生成された。第5実験では、波形s´に対して短時間フーリエ変換が実行され、複素スペクトログラムS´が生成された。
【0126】
第5実験では、複素スペクトログラムS´が第1ネットモデルに入力された。複素スペクトログラムS´が入力された第1ネットモデルは、複素スペクトログラムS´に対して雑音除去タスクを実行した。
【0127】
第5実験では、複素スペクトログラムS´が第2ネットモデルに入力された。複素スペクトログラムS´が入力された第2ネットモデルは、複素スペクトログラムS´に対して雑音除去タスクを実行した。
【0128】
第5実験では、複素スペクトログラムS´が第3ネットモデルに入力された。複素スペクトログラムS´が入力された第3ネットモデルは、複素スペクトログラムS´に対して雑音除去タスクを実行した。
【0129】
第5実験では、学習Epoch数は一律に4000であった。第5実験では、モデルのフィッティングの速度と、最大のSNRの高さと、最終のSNRの高さと、が評価された。モデルのフィッティングの速度と、最終のSNRの高さとは、適切な解探索範囲を深層学習モデル構造によって制限できているか度合を示す指標である。最大のSNRの高さは、適切な解探索範囲が深層学習モデル構造によって制限されすぎている度合を示す指標である。
【0130】
図20は、変形例の第5実験の実験結果の一例を示す図である。
図20の横軸はエポック数を示す。
図20の縦軸はSNRを示す。縦軸の単位はデシベルである。
図20の”Anchnor Mixing”は、第1ネットモデルを示す。
図20の”Symmetric”は、第2ネットモデルを示す。
図20の”Normal”は第3ネットモデルを示す。
図20の線L1は、第5実験で用いたノイズあり信号のSNRを示す。
【0131】
図20は、最終SNRは、第2ネットモデルが第1ネットモデルよりも5.9dB程度高いことを示す。また、学習時間は、第2ネットモデルが第1ネットモデルよりも4倍程度短かった。
【0132】
なお、特徴抽出装置1及び1aはそれぞれ、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、特徴抽出装置1及び1aそれぞれが備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
【0133】
なお、スペクトログラム取得部120及び120aは、時間周波数表現取得部の一例である。再配置スペクトログラムは、再配置時間周波数表現の一例である。なお、スペクトログラム再配置部121及び121aは、時間周波数表現再配置部の一例である。
【0134】
なお、再配置スペクトログラムの周波数軸方向のスケールは必ずしも元のスペクトログラムの周波数軸方向のスケールがk倍に縮小されたスケールである必要は無い。再配置スペクトログラムの周波数軸方向のスケールは、元のスペクトログラムの周波数軸方向のスケールがn倍(nは予め定められた自然数)に拡大されたスケールであってもよい。
【0135】
なお、時間周波数表現再配置部が取得する再配置時間周波数表現は、周波数軸方向のスケールがk倍に縮小されたものだけである必要は無い。時間周波数表現再配置部が取得する再配置スペクトログラムは、第1の再配置時間周波数表現と第2の再配置時間周波数表現とであってもよい。第1の再配置時間周波数表現は、元の時間周波数表現の周波数軸方向のスケールがk倍に縮小された時間周波数表現である。第2の再配置時間周波数表現は、元の時間周波数表現の周波数軸方向のスケールがn倍に拡大された時間周波数表現である。
【0136】
なお、特徴抽出装置1及び1aの各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。
【0137】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0138】
1、1a…特徴抽出装置、 11、11a…制御部、 12…入力部、 13…通信部、 14…記憶部、 15…出力部、 110…信号取得部、 120、120a…スペクトログラム取得部、 121、121a…スペクトログラム再配置部、 130…畳み込み演算部、 140…記憶制御部、 150…通信制御部、 160…出力制御部、 91、91a…プロセッサ、 92、92a…メモリ