IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 独立行政法人国立高等専門学校機構の特許一覧

<>
  • 特許-学習方法、学習装置、およびプログラム 図1
  • 特許-学習方法、学習装置、およびプログラム 図2
  • 特許-学習方法、学習装置、およびプログラム 図3
  • 特許-学習方法、学習装置、およびプログラム 図4
  • 特許-学習方法、学習装置、およびプログラム 図5
  • 特許-学習方法、学習装置、およびプログラム 図6
  • 特許-学習方法、学習装置、およびプログラム 図7
  • 特許-学習方法、学習装置、およびプログラム 図8
  • 特許-学習方法、学習装置、およびプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-20
(45)【発行日】2024-08-28
(54)【発明の名称】学習方法、学習装置、およびプログラム
(51)【国際特許分類】
   G10L 21/0272 20130101AFI20240821BHJP
   G10L 21/0208 20130101ALI20240821BHJP
【FI】
G10L21/0272 100B
G10L21/0208 100B
【請求項の数】 5
(21)【出願番号】P 2020207496
(22)【出願日】2020-12-15
(65)【公開番号】P2022094546
(43)【公開日】2022-06-27
【審査請求日】2023-02-13
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504237050
【氏名又は名称】独立行政法人国立高等専門学校機構
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】小泉 悠馬
(72)【発明者】
【氏名】宮▲崎▼ 亮一
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2016-180839(JP,A)
【文献】ALAMDARI, N. et. al.,"Improving Deep Speech Denoising by Noisy2Noisy Signal Mapping",[online],2020年02月21日,[retrieved on 2023.12.22], Retrieved from the Internet:<URL: https://arxiv.org/ftp/arxiv/papers/1904/1904.12069.pdf>
【文献】木下慶介 他,"REVERB challenge(残響下音声強調・認識チャレンジ):企画内容と結果報告",日本音響学会2014年秋季研究発表会 講演論文集,2014年08月26日,pp.655-658
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/02-21/0364
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
目的音声sと雑音nを含む観測信号から目的音声sを推定する推定モデルの学習方法であって、
推定モデルを用いて、学習用の目的音声sLと第一の雑音nL,1からなる第一の音響信号に第二の雑音nL,2を付与した第二の音響信号から第一の音響信号を推定する推定ステップと、
前記第一の音響信号と前記第一の音響信号の推定値との誤差を算出する誤差算出ステップと、
前記誤差を最小化するように前記推定モデルのパラメータを更新する更新ステップとを含む、
学習方法。
【請求項2】
請求項1の学習方法であって、
前記第二の雑音nL,2は、前記第一の雑音nL,1と似た統計量を有する、若しくは、似た環境で取得されたものである、
学習方法。
【請求項3】
請求項1の学習方法であって、
前記第一の音響信号は、前記学習用の目的音声sLの成分が前記第一の雑音nL,1の成分よりも強く、
前記観測信号は、前記目的音声sの成分が雑音nの成分よりも強い、
学習方法。
【請求項4】
目的音声sと雑音nを含む観測信号から目的音声sを推定する推定モデルの学習装置であって、
推定モデルを用いて、学習用の目的音声sLと第一の雑音nL,1からなる第一の音響信号に第二の雑音nL,2を付与した第二の音響信号から第一の音響信号を推定する推定ステップと、
前記第一の音響信号と前記第一の音響信号の推定値との誤差を算出する誤差算出ステップと、
前記誤差を最小化するように前記推定モデルのパラメータを更新する更新ステップとを含む、
学習装置。
【請求項5】
請求項1,2,3の何れかの学習方法をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、観測信号から目的音声を推定する推定方法、推定する際に用いる推定モデルの学習方法、それらの装置、およびプログラムに関する。
【背景技術】
【0002】
時間領域のT点の観測信号をx∈RTとし、それを目的音声sと雑音n(obs)の混合信号x=s+n(obs)とする。音声強調の目的は観測信号xから目的音声sを復元することである。DNN(Deep Neural Network)を利用した音声強調(以降、DNN音声強調と呼ぶ)の一般的な方法は、DNNでshort - time Fourier transform(STFT)領域の時間周波数(time - frequency;T-F)マスクを推定することである。今、STFTをF:RT→CF×K、Rを実数全体の集合、Cを複素数全体の集合、FとKをそれぞれ周波数と時間のビン数とすると、DNN音声強調は以下となる。
【数1】

s^は目的音声sの推定値、F-1は逆STFT、MはDNN、θはDNNのパラメータである。
【0003】
DNN音声強調を実現するには、パラメータθを学習データから学習する必要がある。最も一般的な方法は、"Clean target Training"(CTT)である(非特許文献1参照)。この方法は、スタジオで録音した、雑音を含まない理想的な音声である"クリーン音声"を利用する。学習データにはクリーン音声と雑音を大量に用意し、その中からランダムに選択されたクリーン音声と雑音を重畳して観測信号をシミュレーションする。そして、以下のコスト関数LCTTを最小化するようにパラメータθを学習する。
【数2】

ここでMはミニバッチサイズ、Dはl2距離などの誤差関数である。
【0004】
図1の例では、クリーン音声データベース(以下「DB」ともいう)81および雑音DB82は、それぞれ学習用のクリーン音声sL,mおよび雑音nL,mを大量に記憶しておく。
【0005】
重畳部83は、クリーン音声sL,mに雑音nL,mを重畳して観測信号をシミュレーションし、得られた値xL,mを出力する。
【0006】
推定部84は、推定モデルを用いて、値xL,mから次式により目的音声(クリーン音声)sL,mを推定する。
【数3】

誤差算出部85は、次式により、推定値s^L,mと目的音声sL,mとの誤差(コスト関数LCTT)を算出する。
【数4】

更新部86は、コスト関数LCTTを最小化するようにパラメータθを更新し、更新後の値を推定部84に出力する。
【0007】
収束条件を満たすまで重畳部83、推定部84、誤差算出部85および更新部86における処理を繰り返す。収束条件を満たしたときの推定モデルを学習済みの推定モデルとして出力する。
【先行技術文献】
【非特許文献】
【0008】
【文献】D. L. Wang and J. Chen, "Supervised Speech Separation Based on Deep Learning: AnOverview", IEEE/ACM Trans. Audio Speech Lang. Process. 2018.
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、クリーン音声の収集には非常にコストがかかるため、現在、音声強調のための訓練データ量は、クリーンな信号を必要としない音声認識の1/1000以下程度しか利用されていない。例えば、音声認識システムの学習には3500万文の学習データが利用されているが(参考文献1参照)、音声強調の一般的なデータセットであるVoice Bank - DEMANDには1万2000文の学習データしか含まれていない(参考文献2参照)。
【0010】
(参考文献1)Y. He, T. N. Sainath, R. Prabhavalkar, I. McGraw, R. Alvarez, D. Zhao, D. Rybach, A. Kannan, Y. Wu, R. Pang, Q. Liang, D. Bhatia, Y. Shangguan, B. Li, G. Pundak, K. C. Sim, T. Bagby, S. Y. Chang, K. Rao and A. Gruenstein, "Streaming End-to-End Speech Recognition for Mobile Devices", Proc. Int. Conf. Acoust. Speech Signal Process. (ICASSP), 2019.
(参考文献2) C. Valentini-Botinho, X. Wang, S. Takaki, and J. Yamagishi, "Investigating RNN-based Speech Enhancement Methods for Noise-Robust Text-to-Speech", Proc. ISCA Speech Synth. Workshop (SSW), 2016.
DNNの学習には大量の学習データが必要なことが知られており、これがDNN音声強調の性能向上に向けた大きな課題である。
【0011】
この問題を解決するために、雑音が含まれた信号からDNN音声強調を学習する取り組みが行われている(参考文献3-5)。
【0012】
(参考文献3) T. Ochiai, S. Watanabe, T. Hori, and J. R. Hershey, "Multichannel End-to-End Speech Recognition", Proc. Int. Conf. Mach. Learn. (ICML), 2017.
(参考文献4) S. Wisdom, E. Tzinis, H. Erdogan, R. J. Weiss, K. Wilson, J. R. Hershey "Unsupervised Sound Separation using Mixtures of Mixtures", Proc. Int. Conf. Mach. Learn. (ICML), 2020.
(参考文献5) N. Alamdari, A. Azarang and N .Kehtarnavaz, "Improving Deep Speech Denoising by Noisy2Noisy Signal Mapping", arXiv:1904.12069, 2020.
その中で代表的な方法の一つが、画像処理の分野で発展してきたNoise2Noise(参考文献6)を応用した"Noise - target Training"(NeTT)(参考文献5)である。
【0013】
(参考文献6)J. Lehtinen, J. Munkberg, J. Hasselgren, S. Laine, T. Karras, M. Aittala and Timo Aila, "Noise2Noise: Learning Image Restoration without Clean Data", Proc. Int. Conf. Mach. Learn. (ICML), 2018.
この方法では、2つの異なる雑音n(1)とn(2)が1つのクリーン音声sに重畳された二つの信号x(1)=s+n(1)とx(2)=s+n(2)を考える。そして、x(1)をDNN音声強調に入力した際の出力s^(1)と、x(2)の誤差を最小化するように、DNN音声強調を学習する。
【数5】

n(2)のようなランダムノイズはDNNでは予測できないため、DNNは学習データに含まれるランダム成分をその期待値にマッピングするはずである。したがって、n(2)がゼロ平均ランダムノイズであるならば、s^(1)はsとなり、CTTとNeTTは同様な学習結果が得られる。
【0014】
図2は、雑音が含まれた信号から推定モデルを学習する例である。図1との違いを主に説明する。雑音DB92は、学習用の雑音nL,m (1)、nL,m (2)とを大量に記憶しておく。
【0015】
重畳部83は、クリーン音声sL,mに雑音nL,m (1)を重畳して観測信号をシミュレーションし、得られた値xL,m (1)を出力する。
【0016】
推定部84は、推定モデルを用いて、値xL,m (1)から次式により対象信号sL,mを推定する。
【数6】

重畳部97は、クリーン音声sL,mに雑音nL,m (2)を重畳し、得られた値xL,m (2)を出力する。
【0017】
誤差算出部85は、次式により、推定値s^L,m (1)と値xL,m (2)との誤差(コスト関数LNeTT)を算出する。
【数7】

更新部86は、コスト関数LNeTTを最小化するようにパラメータθを更新し、更新後の値を推定部84に出力する。
【0018】
収束条件を満たすまで重畳部83、推定部84、重畳部97、誤差算出部85および更新部86における処理を繰り返す。収束条件を満たしたときの推定モデルを学習済みの推定モデルとして出力する。
【0019】
上述のNeTTは、以下の理由により、画像処理には有用であるが、音声強調にはCTTの限界を継承しなければならない。画像処理でのノイズはショット雑音や熱雑音がほとんどであり、x(1)とx(2)のようなノイズ・ノイズペアは、短時間露光のカメラで容易に得ることができる。一方、音声信号は時間的・空間的に変化するため、全く同じ発話で複数のノイズのある信号である、x(1)とx(2)のようなノイズ・ノイズペアを観測することは不可能である。そのため、結局クリーン音声を使用して、ノイズ・ノイズペアをシミュレートしなければならず、CTTの問題解決には至っていない。
【0020】
本発明は、クリーン音声を利用せずに学習した推定モデルを用いて観測信号から目的音声を推定する推定方法、クリーン音声を利用せずに推定モデルを学習する学習方法、それらの装置、プログラムを提供することを目的とする。
【課題を解決するための手段】
【0021】
上記の課題を解決するために、本発明の一態様によれば、推定方法は、目的音声sと雑音nを含む観測信号から目的音声sを推定する。推定方法は、観測信号を取得する取得ステップと、学習用の目的音声sLと第一の雑音nL,1からなる第一の音響信号と、第一の音響信号に第二の雑音nL,2を付与した第二の音響信号と、を関連付けることで、観測信号から目的音声sを推定する推定ステップと、を有する。
【0022】
上記の課題を解決するために、本発明の他の態様によれば、学習方法は、目的音声sと雑音nを含む観測信号から目的音声sを推定する推定モデルの学習方法である。推定方法は、推定モデルを用いて、学習用の目的音声sLと第一の雑音nL,1からなる第一の音響信号に第二の雑音nL,2を付与した第二の音響信号から第一の音響信号を推定する推定ステップと、第一の音響信号と第一の音響信号の推定値との誤差を算出する誤差算出ステップと、誤差を最小化するように推定モデルのパラメータを更新する更新ステップとを含む。
【発明の効果】
【0023】
本発明によれば、クリーン音声を利用せずに推定モデルを学習することができるという効果を奏する。
【図面の簡単な説明】
【0024】
図1】従来技術を説明するための図。
図2】従来技術を説明するための図。
図3】第一実施形態に係る音声強調システムの機能ブロック図。
図4】第一実施形態に係る学習装置の機能ブロック図。
図5】第一実施形態に係る学習装置の処理フローの例を示す図。
図6】第一実施形態に係る推定装置の機能ブロック図。
図7】第一実施形態に係る推定装置の処理フローの例を示す図。
図8】実験結果を示す図。
図9】本手法を適用するコンピュータの構成例を示す図。
【発明を実施するための形態】
【0025】
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
【0026】
<第一実施形態のポイント>
本実施形態では、クリーン音声を利用せずにDNN音声強調を学習する"Noisy - target Training"(NyTT)を提案する。本実施形態では、まずクリーン音声の代わりに、オフィスや街頭などの任意の環境で、ノートPCや携帯電話に搭載されているMEMS(Micro Electronics Mechanical System)マイクなど任意のマイクロホンを利用して収録した、雑音を含んだ音声信号(以降「ノイジー音声」と呼ぶ)を収録する。そしてそのノイジー音声xに雑音nを重畳して、より雑音の多い信号(以降、「強ノイジー信号」とよぶ)yを合成する。
【0027】
y=x+n (4)
そして、強ノイジー信号yからノイジー音声xを予測する。
【数8】

最後に、x^とxの誤差を最小化するようにパラメータθを学習する。
【数9】

このように学習した推定モデルを用いて、観測信号から目的音声を推定する。
【0028】
まず、推定モデルを学習する学習装置について説明する。
【0029】
<第一実施形態に係る学習装置>
図3は第一実施形態に係る音声強調システムの機能ブロック図を示す。
【0030】
音声強調システムは、学習装置100と推定装置200とを含む。
【0031】
学習装置100は、学習用のノイジー音声xL,mと雑音nL,mを入力とし、推定モデルを学習して、学習済みの推定モデルを出力する。
【0032】
ノイジー音声DB101は、学習用のノイジー音声xL,mを大量に格納しておく。前述の通り、ノイジー音声xL,mは、オフィスや街頭などの任意の環境で、ノートPCや携帯電話に搭載されているMEMS(Micro Electronics Mechanical System)マイクなど任意のマイクロホンを利用して収録した、雑音と目的音声とを含んだ音声信号である。ただし、ノイジー音声の一部に、クリーン音声に雑音を重畳して生成した音声信号を含んでもよい。なお、ノイジー音声に含まれる目的音声の成分が、ノイジー音声に含まれる雑音の成分よりも強いほうが、推定モデルの推定精度が高まる。言い換えると、目的音声がある程度(15db程度)強い状況下のほうが、推定モデルの推定精度が高まる。
雑音DB102は、学習用の雑音nL,mを大量に格納しておく。既存の雑音DBを用いてもよいし、雑音nL,mをオフィスや街頭などの任意の環境で、任意のマイクロホンを利用して収録し、雑音DBを構築してもよい。
【0033】
ただし、雑音DB102に格納しておく学習用の雑音nL,mとして、ノイジー音声xL,mに含まれる雑音と似た統計量を有する、若しくは、似た環境で取得されたものを用いると、推定モデルの推定精度を高まる。
推定装置200は、推定処理に先立ち、学習済みの推定モデルを受け取る。推定装置200は、観測信号xを取得し、推定モデルを用いて、観測信号に含まれる目的音声sを推定し、推定結果s^を出力する。なお、推定結果s^は、観測信号に含まれる目的音声sを強調した音声信号であり、強調音声信号ともいう。
【0034】
学習装置100および推定装置200は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。学習装置100および推定装置200は、例えば、中央演算処理装置の制御のもとで各処理を実行する。学習装置100および推定装置200に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。学習装置100および推定装置200の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。学習装置100および推定装置200が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも学習装置100および推定装置200がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、学習装置100および推定装置200の外部に備える構成としてもよい。
【0035】
まず、学習装置100について説明する。
【0036】
<学習装置100>
図4は第一実施形態に係る学習装置100の機能ブロック図を、図5はその処理フローを示す。
【0037】
学習装置100は、重畳部103、推定部104、誤差算出部105および更新部106を含む。
【0038】
<重畳部103>
重畳部103は、学習用のノイジー音声xL,mと雑音nL,mを入力とし、ノイジー音声xL,mに雑音nL,mを重畳し(S103)、強ノイジー音声yL,m=xL,m+nL,mを合成し、出力する。
【0039】
<推定部104>
推定部104は、推定処理に先立ち、後述する更新部106で更新された推定モデルのパラメータθを受け取る。
【0040】
推定部104は、強ノイジー音声yL,mを入力とし、次式のように推定モデルを用いて、強ノイジー音声yL,mからノイジー音声xL,mを推定し(S104)、推定値x^L,mを出力する。
【数10】

なお、推定モデルは、観測信号を入力とし、観測信号から目的音声を推定し、推定値を出力するモデルである。なお、推定モデルは、強ノイジー音声を入力とし、強ノイジー音声からノイジー音声を推定し、推定値を出力するモデルとも言える。なお、推定モデルの構造として、公知のDNN音声強調の構造を利用することができる。例えば、非特許文献1を利用する。
【0041】
<誤差算出部105>
誤差算出部105は、学習用のノイジー音声xL,mと推定値x^L,mとを入力とし、ノイジー音声xL,mと推定値x^L,mとの誤差を算出し(S105)、出力する。例えば、次式で得られる誤差関数LNyTTを誤差として算出する。
【数11】

<更新部106>
更新部106は、誤差を入力とし、誤差を最小化するように推定モデルのパラメータを更新し(S106)、更新したパラメータを推定部104に出力する。パラメータの更新方法として、公知の更新方法を利用することができる。例えば、最急降下法を利用する。
【0042】
学習装置100は、収束条件を満たすまでS103~S106を繰り返し(S107のno)、収束条件を満たしたとき(S107のyes)の推定モデルを学習済みの推定モデルとして出力する。
【0043】
収束条件としては、繰り返し回数が所定の回数を超えたこと、更新量が所定の値以下となること等の条件を設けることができる。
【0044】
次に、推定装置200について説明する。
【0045】
<推定装置200>
図6は第一実施形態に係る推定装置200の機能ブロック図を、図7はその処理フローを示す。
【0046】
推定装置200は、取得部201と推定部204とを含む。
【0047】
<取得部201>
取得部201は、観測信号を取得し(S201)、出力する。取得部201は、例えば、マイクロホンやマイクロホンの出力を受け付ける入力端子等である。
【0048】
<推定部204>
推定部204は、推定処理に先立ち、学習済みの推定モデルを受け取る。推定装置200は、観測信号xを受け取り、推定モデルを用いて、観測信号xに含まれる目的音声sを推定し(S204)、推定結果s^を出力する。
【0049】
学習済みの推定モデルは、学習用のノイジー音声と強ノイジー音声とを用いて学習したものであり、推定部204は、学習用のノイジー音声と強ノイジー音声とを関連付けることで、観測信号xから目的音声sを推定していると言える。
なお、観測信号xに含まれる目的音声の成分が観測信号xに含まれる雑音の成分よりも強いほうが、推定精度が高まる。言い換えると、目的音声がある程度(15db程度)強い状況下のほうが、推定モデルの推定精度が高まる。
<効果>
以上の構成により、クリーン音声を利用せずに推定モデルを学習し、学習済みの推定モデルを用いて、目的音声を推定することができる。
【0050】
<実験結果>
本実施形態の効果を検証するために、NyTTと、CTTとNeTTを比較した。CTTとNeTTは、クリーン音声を学習データに含むVoiceBank-DEMAND(参考文献2参照)を利用して学習した。提案法であるNyTTは、クリーン音声を含まないデータも学習に利用できるため、VoiceBank-DEMANDに加え、LibriTTS(参考文献7参照)(音声)とTAU Urban Acoustic Scenes 2020 Mobile(参考文献8参照)(雑音)を重畳して作成したLibri-Task1データセットと、5th CHiME Speech Separation and Recognition Challenge(参考文献9参照)の学習データセットであるCHiME5を利用した。
【0051】
(参考文献7)H. Zen, V. Dang, R. Clark, Y. Zhang, R. J. Weiss, Y. Jia, Z. Chen, and Y. Wu, "LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech", arXiv:1904.02882, 2019.
(参考文献8)T. Heittola, A. Mesaros, and T. Virtanen, "Acoustic Scene Classification in DCASE 2020 Challenge: Generalization Across Devices and Low Complexity Solutions", Proc. Detect. Classif. Acoust. Scenes Events (DCASE) Workshop, 2020.
(参考文献9)J. Barker, S. Watanabe, E. Vincent, and J. Trmal, "The Fifth ‘CHiME’Speech Separation and Recognition Challenge: Dataset, Task and Baselines", Proc. Interspeech, 2018.
なお、雑音のデータ量を公平にするために、CTTとNeTTは、VoiceBank-DEMANDに加え、TAU Urban Acoustic Scenes 2020 Mobileと3th CHiME Speech Separation and Recognition Challenge(参考文献10参照)の雑音データセットも利用した。
【0052】
(参考文献10) J. Barker, R. Marxer, E. Vincent, and S. Watanabe, "The Third CHiME Speech Separation and Recognition Challenge: Dataset Task and Baselines", Proc. IEEE Autom. Speech Recognit. Underst. Workshop (ASRU), 2015.
テストには、TIMIT(参考文献11参照)(音声)とTAU Urban Acoustic Scenes 2019 Mobile(参考文献12参照)(雑音)を重畳して作成したTIMIT-MOBILEを利用した。
【0053】
(参考文献11) John S. Garofolo, Lori F. Lamel, William M. Fisher, Jonathan G. Fiscus, David S. Pallett, Nancy L. Dahlgren and Victor Zue, "TIMIT Acoustic-Phonetic Continuous Speech Corpus LDC93S1", Web Download. Philadelphia: Linguistic Data Consortium, 1993.
(参考文献12) A. Mesaros, T. Heittola, and T. Virtanen, "Acoustic Scene Classification in DCASE 2019 Challenge: Closed and Open Set Classification and Data Mismatch Setups", Proc. Detect. Classif. Acoust. Scenes Events (DCASE) Workshop, 2019.
評価指標には音声強調で利用される一般的な指標であるPESQ, CSIG, CBLK, COVL, signal - to - distortion ratio(SDR)を利用した。図8に実験結果を示す。どの手法も、元の雑音を含んだ観測信号(Input)の評価数値よりも高い評価数値を出しており、また3手法ともほぼ同等の評価結果となった。このことから、本実施形態で提案するNyTTを利用して学習を行なっても、DNN音声強調が学習できることがわかる。
【0054】
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【0055】
<プログラム及び記録媒体>
上述の各種の処理は、図9に示すコンピュータの記憶部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
【0056】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0057】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0058】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0059】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
図1
図2
図3
図4
図5
図6
図7
図8
図9