IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 学校法人早稲田大学の特許一覧

特許7026358回帰関数学習装置、回帰関数学習方法、プログラム
<>
  • 特許-回帰関数学習装置、回帰関数学習方法、プログラム 図1
  • 特許-回帰関数学習装置、回帰関数学習方法、プログラム 図2
  • 特許-回帰関数学習装置、回帰関数学習方法、プログラム 図3
  • 特許-回帰関数学習装置、回帰関数学習方法、プログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-02-17
(45)【発行日】2022-02-28
(54)【発明の名称】回帰関数学習装置、回帰関数学習方法、プログラム
(51)【国際特許分類】
   G10L 21/0308 20130101AFI20220218BHJP
   G10L 21/0232 20130101ALI20220218BHJP
   G10L 25/30 20130101ALI20220218BHJP
【FI】
G10L21/0308 Z
G10L21/0232
G10L25/30
【請求項の数】 5
(21)【出願番号】P 2019015066
(22)【出願日】2019-01-31
(65)【公開番号】P2020122897
(43)【公開日】2020-08-13
【審査請求日】2021-04-08
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】899000068
【氏名又は名称】学校法人早稲田大学
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】小泉 悠馬
(72)【発明者】
【氏名】竹内 大起
(72)【発明者】
【氏名】矢田部 浩平
【審査官】大野 弘
(56)【参考文献】
【文献】特開2018-031967(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/0308
G10L 21/0272
G10L 25/30
(57)【特許請求の範囲】
【請求項1】
既知の目的音と既知の雑音とを重畳してなる既知の観測信号を用いて、任意の観測信号から目的音を推定するための回帰関数Mを学習する回帰関数学習装置であって、
既知の観測信号のSTFTスペクトルXと既知の目的音のSTFTスペクトルSに基づいて、時間周波数マスクGを計算するマスク計算部と、
既知の観測信号のSTFTスペクトルXに前記時間周波数マスクGを乗算した結果と、既知の目的音のSTFTスペクトルSの誤差の二乗の各周波数における平均値を要素に持つ行列σを計算する行列計算部と、
前記行列σの各要素に正則化パラメータλを加算した各要素の累積和cumsum(σ+λ)で表される関数を、周波数スケールを決定する関数Φとして計算する関数計算部と、
前記関数Φに基づいて周波数スケールを変換した既知の観測信号のSTFTスペクトルに前記回帰関数Mを乗算した結果と、前記関数Φに基づいて周波数スケールを変換した既知の目的音のSTFTスペクトルの誤差の二乗和が最小化するように、前記回帰関数MのパラメータθをDNNにより学習する学習部を含む
回帰関数学習装置。
【請求項2】
請求項1に記載の回帰関数学習装置であって、
前記正則化パラメータλを0.1以下の任意の値とする
回帰関数学習装置。
【請求項3】
既知の目的音と既知の雑音とを重畳してなる既知の観測信号を用いて、任意の観測信号から目的音を推定するための回帰関数Mを学習する回帰関数学習方法であって、
既知の観測信号のSTFTスペクトルXと既知の目的音のSTFTスペクトルSに基づいて、時間周波数マスクGを計算するステップと、
既知の観測信号のSTFTスペクトルXに前記時間周波数マスクGを乗算した結果と、既知の目的音のSTFTスペクトルSの誤差の二乗の各周波数における平均値を要素に持つ行列σを計算するステップと、
前記行列σの各要素に正則化パラメータλを加算した各要素の累積和cumsum(σ+λ)で表される関数を、周波数スケールを決定する関数Φとして計算するステップと、
前記関数Φに基づいて周波数スケールを変換した既知の観測信号のSTFTスペクトルに前記回帰関数Mを乗算した結果と、前記関数Φに基づいて周波数スケールを変換した既知の目的音のSTFTスペクトルの誤差の二乗和が最小化するように、前記回帰関数MのパラメータθをDNNにより学習するステップを含む
回帰関数学習方法。
【請求項4】
請求項3に記載の回帰関数学習方法であって、
前記正則化パラメータλを0.1以下の任意の値とする
回帰関数学習方法。
【請求項5】
コンピュータを請求項1または2に記載の回帰関数学習装置として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、深層学習を利用して回帰関数を学習する回帰関数学習装置、回帰関数学習方法、プログラムに関する。
【背景技術】
【0002】
<STFTを利用した信号解析と音源強調>
音響信号処理を行うためには、まず、マイクロホンを用いて、音を観測する必要がある。その観測音には、処理を行いたい目的音の他に雑音が含まれている。音源強調とは、雑音が含まれた観測信号から、目的音を抽出する信号処理のことを指す。
【0003】
今、目的音のSTFTスペクトルをS[ω,k]、雑音のSTFTスペクトルをN[ω,k]とすると、観測信号のSTFTスペクトルX[ω,k]は以下のように書ける。
X[ω,k] = S[ω,k] + N[ω,k]…(1)
ここでω=1,...,Ωとk=1,...,Kは時間と周波数のインデックスである。時間周波数マスク処理は、音源強調における代表的な手法の一つである。この処理では、STFT後の観測信号に対して、時間周波数マスクG[ω,k]を乗ずることで、STFT後の目的音の推定値を以下の様に得る。
【0004】
【数1】
【0005】
ここでG[ω,k]の設計法には様々なものがあるが、代表的なマスクとしてPSM(phase sensitive mask)を示す。
【0006】
【数2】
【0007】
ここで
【0008】
【数3】
【0009】
|S[ω,k]|と|X[ω,k]|はそれぞれS[ω,k]とX[ω,k]の振幅スペクトル、φS[ω,k]とφX[ω,k]はそれぞれS[ω,k]とX[ω,k]の位相スペクトルである。ここでS[ω,k]の振幅スペクトルと位相スペクトルは未知のため、何らかの方法でX[ω,k]からG[ω,k]を推定する必要がある。近年、深層学習を用いてG[ω,k]を推定する方法が提案されている(例えば非特許文献1)。
【0010】
【数4】
【0011】
ここで
【0012】
【数5】
【0013】
はDNNで実装された回帰関数、θはそのパラメータ、Ψは入力音響特徴量である。非特許文献1では、GPSM[ω,k]を推定するDNNのためのθの学習方法として、以下の二乗誤差最小化を提案している。
【0014】
【数6】
【先行技術文献】
【非特許文献】
【0015】
【文献】H. Erdogan, J. R. Hershey, S. Watanabe, and J. L. Roux, "Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks," in IEEE Int. Conf. Acoust., Speech Signal Process. (ICASSP), 2015, pp. 708-712.
【文献】N. Holighaus, C. Wiesmeyr, and Z. Prusa, "A class of warped filter bank frames tailored to non-linear frequency scales," arXiv preprint arXiv:1409. 7203, 2014.
【発明の概要】
【発明が解決しようとする課題】
【0016】
<STFTの問題点>
式(5)の最小化は、回帰関数と観測信号のSTFTスペクトルの積と、目的信号のSTFTスペクトルの間の誤差が全周波数ビンで一定である、という仮定を暗黙のうちに置いている。ところが音声は低域の方が強いため、誤差は低域の方が大きくなりやすい。ゆえに、式(5)を最急降下法などで学習をすると、低域の方が学習が速く進んでしまい、結果として高域の雑音が除去できない、などの問題が生じてしまう。
【0017】
そこで本発明では、回帰関数と観測信号のSTFTスペクトルの積と、目的信号のSTFTスペクトルの間の誤差が全周波数ビンで一定となるような周波数スケールに基づいて回帰関数を学習する回帰関数学習装置を提供することを目的とする。
【課題を解決するための手段】
【0018】
本発明の回帰関数学習装置は、既知の目的音と既知の雑音とを重畳してなる既知の観測信号を用いて、任意の観測信号から目的音を推定するための回帰関数Mを学習する回帰関数学習装置であって、マスク計算部と、行列計算部と、関数計算部と、学習部を含む。
【0019】
マスク計算部は、既知の観測信号のSTFTスペクトルXと既知の目的音のSTFTスペクトルSに基づいて、時間周波数マスクGを計算する。行列計算部は、既知の観測信号のSTFTスペクトルXに時間周波数マスクGを乗算した結果と、既知の目的音のSTFTスペクトルSの誤差の二乗の各周波数における平均値を要素に持つ行列σを計算する。関数計算部は、行列σの各要素に正則化パラメータλを加算した各要素の累積和cumsum(σ+λ)で表される関数を、周波数スケールを決定する関数Φとして計算する。学習部は、関数Φに基づいて周波数スケールを変換した既知の観測信号のSTFTスペクトルに回帰関数Mを乗算した結果と、関数Φに基づいて周波数スケールを変換した既知の目的音のSTFTスペクトルの誤差の二乗和が最小化するように、回帰関数MのパラメータθをDNNにより学習する。
【発明の効果】
【0020】
本発明の回帰関数学習装置によれば、回帰関数と観測信号のSTFTスペクトルの積と、目的信号のSTFTスペクトルの間の誤差が全周波数ビンで一定となるような周波数スケールに基づいて回帰関数を学習することができる。
【図面の簡単な説明】
【0021】
図1】各手法の周波数スケールを表すグラフであって、縦軸をマグニチュード、横軸を正規化周波数としたグラフ。
図2】STFTと実施形態に係る方法の誤差分布を比較するグラフであって、縦軸を正規化分散値、横軸を周波数としたグラフ。
図3】実施形態の回帰関数学習装置の構成を示すブロック図。
図4】実施形態の回帰関数学習装置の動作を示すフローチャート。
【発明を実施するための形態】
【0022】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【実施例1】
【0023】
実施例1では、式(5)の最小化の仮定を満たすような時間周波数解析を、学習データから設計する方法を開示する。これを実現するために、非特許文献2では、Warped filterbank frame (WFBF)という、完全再構成条件を満たしつつ任意の周波数スケールで設計可能なフィルタバンクを利用している。その変換式は以下である。
【0024】
【数7】
【0025】
ここでxは観測信号の時間領域信号、gは窓関数、Lは窓長である。ここで重要な変数がΦであり、Φは周波数スケールを決定づける関数である。Φを線形関数にすればSTFT、Φを対数関数にすればWavelet変換と等価になる。Φはそれぞれ以下である。
ΦSTFT(ω) = ω/b, Φwavelet(ω) = logc(ω)…(7)
【0026】
式(5)の最小化の仮定は、「回帰関数と観測信号の積と、目的信号の間の誤差が全周波数ビンで一定」である。ならば、この仮定を満たすように周波数スケールを設計すればよい。そのような仮定を満たすΦは以下である。
【0027】
【数8】
【0028】
ここでλ(≧0)は小さな非負値の正則化パラメータである。図1に、各手法の周波数スケールの違いを示す。また、図2に、STFTと提案法の誤差分布σの違いを示す。STFTでは誤差のパワーが低域に集中しているが、提案法ではそれが平滑化されていることがわかる。図2から、λは小さいほど低域の誤差を低減できることが明らかであるが、λを小さくしすぎると、低域における周波数スケールが、サンプリング間隔よりも細かくなり、不具合が生じる。そこで、λを適切な値に設定する必要がある。例えば、図2の右上のグラフのように、λ=0.1とすれば、低域の誤差はかなり低減される。また、同図の右下のグラフのようにλ=0.05とすれば、低域の誤差はさらに低減される。従って、λを0.1以下の、設定可能な任意の値とすれば、好適である。
【0029】
ひとたびこのように時間周波数解析関数が得られれば、以下の最小二乗法でDNNを学習することができる。
【0030】
【数9】
【0031】
<実施形態>
以下、具体的な実施形態として、回帰関数学習装置1について説明する。図3に示すように、回帰関数学習装置1は、マスク計算部11と、行列計算部12と、関数計算部13と、学習部14を含む構成であり、装置外部、あるいは装置内部に目的音DB91と、雑音DB92を含む構成である。
【0032】
以下、図4を参照して実施形態に係る回帰関数学習装置1の動作を説明する。なお、目的音と雑音の学習データは予め収集され、それぞれ目的音DB91、雑音DB92に記憶されているものとする。回帰関数学習装置1は、目的音DB91から目的音を、雑音DB92雑音をランダムサンプリングして重畳して既知の観測信号をシミュレーションする。
【0033】
図4に示すように、マスク計算部11は、既知の観測信号のSTFTスペクトルXと既知の目的音のSTFTスペクトルSに基づいて、式(3)により、時間周波数マスクGを計算する(S11)。行列計算部12は、既知の観測信号のSTFTスペクトルXに時間周波数マスクGを乗算した結果(式(10)の第1項)と、既知の目的音のSTFTスペクトルS(式(10)の第2項)の誤差の二乗(式(10))の各周波数における平均値(式(9)の各要素)を要素に持つ行列σを計算する(S12)。関数計算部13は、行列σの各要素に正則化パラメータλを加算した各要素の累積和cumsum(σ+λ)で表される関数(式(8))を、周波数スケールを決定する関数Φとして計算する(S13)。学習部14は、関数Φに基づいて周波数スケールを変換した既知の観測信号のSTFTスペクトル(式(11)のF(x)[ω,k])に回帰関数M(式(11)のMθ FF)[ω,k])を乗算した結果(式(11)のΣ内の第1項)と、関数Φに基づいて周波数スケールを変換した既知の目的音のSTFTスペクトル(式(11)のF(s)[ω,k])の誤差の二乗和が最小化するように、回帰関数MのパラメータθをDNNにより学習する(S14、式(11))。なお、時間周波数変換は通常のSTFTではなく、上述の設計した周波数スケールを利用する。
【0034】
<効果>
実施形態に係る回帰関数学習装置1によれば、回帰関数と観測信号の積と、目的信号の間の誤差が全周波数ビンで一定であるという仮定を満たすような時間周波数変換を、学習データから設計することができる。実施形態の回帰関数学習装置1は、非特許文献2で提案された、Warped filterbank frame (WFBF)という、完全再構成条件を満たしつつ任意の周波数スケールで設計可能なフィルタバンクを利用する。非特許文献2では、具体的な周波数スケールの設計方法は明示されていなかったが、実施形態に係る回帰関数学習装置1によれば、その周波数スケールを音響信号処理に適した方法で設計することができる。
【0035】
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0036】
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
【0037】
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
【0038】
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0039】
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0040】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0041】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0042】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0043】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
図1
図2
図3
図4