特許第6987378号(P6987378)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人情報通信研究機構の特許一覧

特許6987378ニューラルネットワークの学習方法及びコンピュータプログラム
<>
  • 特許6987378-ニューラルネットワークの学習方法及びコンピュータプログラム 図000004
  • 特許6987378-ニューラルネットワークの学習方法及びコンピュータプログラム 図000005
  • 特許6987378-ニューラルネットワークの学習方法及びコンピュータプログラム 図000006
  • 特許6987378-ニューラルネットワークの学習方法及びコンピュータプログラム 図000007
  • 特許6987378-ニューラルネットワークの学習方法及びコンピュータプログラム 図000008
  • 特許6987378-ニューラルネットワークの学習方法及びコンピュータプログラム 図000009
  • 特許6987378-ニューラルネットワークの学習方法及びコンピュータプログラム 図000010
  • 特許6987378-ニューラルネットワークの学習方法及びコンピュータプログラム 図000011
  • 特許6987378-ニューラルネットワークの学習方法及びコンピュータプログラム 図000012
  • 特許6987378-ニューラルネットワークの学習方法及びコンピュータプログラム 図000013
  • 特許6987378-ニューラルネットワークの学習方法及びコンピュータプログラム 図000014
  • 特許6987378-ニューラルネットワークの学習方法及びコンピュータプログラム 図000015
  • 特許6987378-ニューラルネットワークの学習方法及びコンピュータプログラム 図000016
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6987378
(24)【登録日】2021年12月3日
(45)【発行日】2021年12月22日
(54)【発明の名称】ニューラルネットワークの学習方法及びコンピュータプログラム
(51)【国際特許分類】
   G10L 15/16 20060101AFI20211213BHJP
【FI】
   G10L15/16
【請求項の数】5
【全頁数】14
(21)【出願番号】特願2017-139186(P2017-139186)
(22)【出願日】2017年7月18日
(65)【公開番号】特開2019-20598(P2019-20598A)
(43)【公開日】2019年2月7日
【審査請求日】2020年6月11日
(73)【特許権者】
【識別番号】301022471
【氏名又は名称】国立研究開発法人情報通信研究機構
(74)【代理人】
【識別番号】100099933
【弁理士】
【氏名又は名称】清水 敏
(72)【発明者】
【氏名】藤本 雅清
(72)【発明者】
【氏名】河井 恒
【審査官】 菊池 智紀
(56)【参考文献】
【文献】 米国特許出願公開第2016/0099010(US,A1)
【文献】 米国特許出願公開第2017/0125020(US,A1)
【文献】 Tara N., SAINATH et al.,"CONVOLUTIONAL, LONG SHORT-TERM MEMORY, FULLY CONNECTED DEEP NEURAL NETWORKS",Proc. of 2015 IEEE ICASSP,2015年04月19日,pp.4580-4584
【文献】 Che-Wei, HUANG et al.,"DEEP CONVOLUTIONAL RECURRENT NEURAL NETWORK WITH ATTENTION MECHANISM FOR ROBUST SPEECH EMOTION RECOGNITION",Proc. of 2017 IEEE ICME,2017年07月10日,pp.583-588
【文献】 和気雅弥 他,"ロボット対話における深層学習を用いたセミブラインド音声強調",第79回(平成29年)全国大会講演論文集 (2),2017年03月16日,pp.2-219‐2-220
【文献】 Tsubasa, OCHIAI et al.,"Multichannel End-to-end Speech Recognition",[online],2017年03月14日,[retrieved on 2021.04.16], Retrieved from the Internet: <URL:https://arxiv.org/pdf/1703.04783v1.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−25/93
G06N 3/02− 3/10
(57)【特許請求の範囲】
【請求項1】
互いにネットワーク構造が異なる第1、第2、及び第3のニューラルネットワークをこの順序で連結し連結後のニューラルネットワークを形成するステップと、
前記第1のニューラルネットワークの学習のための入力データと、前記第3のニューラルネットワークの学習のための、前記入力データと対応付けられる教師データとからなる第1の学習データを準備するステップと、
前記第1の学習データの入力データを前記第1のニューラルネットワークに入力として与え、前記第3のニューラルネットワークの出力に対する教師データとして、当該入力データに対応する教師データを与えることにより前記連結後のニューラルネットワークの学習を行うステップとを含む、ニューラルネットワークの学習方法であって、
前記第1のニューラルネットワークは、目的信号である音声信号に雑音信号が重畳した音響信号を受け、当該音響信号に含まれる上記雑音信号を低減させた強調音声信号を出力するための、音声強調のための畳み込みニューラルネットワークを含み、
前記第2のニューラルネットワークは、前記第1のニューラルネットワークから前記強調音声信号を受け、当該強調音声信号から、音声を認識するための所定の特徴量を抽出するための、特徴抽出のための畳み込みニューラルネットワークを含み、
前記第3のニューラルネットワークは、前記特徴量を受け、当該特徴量を入力として、前記音声信号の発話内容を音声認識するためにステート推定をするための音響モデルである畳み込みニューラルネットワークを含む、ニューラルネットワークの学習方法。
【請求項2】
前記音声強調のための畳み込みニューラルネットワーク、前記特徴抽出のための畳み込みニューラルネットワーク、及び前記音響モデルである畳み込みニューラルネットワークで使用する畳み込みフィルタは互いに異なっている、請求項1に記載のニューラルネットワークの学習方法。
【請求項3】
前記連結後のニューラルネットワークを形成するステップに先立って、
前記第1のニューラルネットワークの学習のための第2の学習データを準備するステップと、
前記第2の学習データを用いて前記第1のニューラルネットワークの事前学習を行うステップとをさらに含む、請求項1又は請求項に記載のニューラルネットワークの学習方法。
【請求項4】
コンピュータに、
互いにネットワーク構造が異なる第1、第2、及び第3のニューラルネットワークをこの順序で連結し連結後のニューラルネットワークを形成するステップと、
前記第1のニューラルネットワークの学習のための入力データと、前記第3のニューラルネットワークの学習のための、前記入力データと対応付けられる教師データとからなる第1の学習データを準備するステップと、
前記第1の学習データの入力データを前記第1のニューラルネットワークに入力として与え、前記第3のニューラルネットワークの出力に対する教師データとして、当該入力データに対応する教師データを与えることにより前記連結後のニューラルネットワークの学習を行うステップとを含む、ニューラルネットワークの学習方法を実行するように機能させるコンピュータプログラムであって、
前記第1のニューラルネットワークは、目的信号である音声信号に雑音信号が重畳した音響信号を受け、当該音響信号に含まれる上記雑音信号を低減させた強調音声信号を出力するための、音声強調のための畳み込みニューラルネットワークを含み、
前記第2のニューラルネットワークは、前記第1のニューラルネットワークから前記強調音声信号を受け、当該強調音声信号から、音声を認識するための所定の特徴量を抽出するための、特徴抽出のための畳み込みニューラルネットワークを含み、
前記第3のニューラルネットワークは、前記特徴量を受け、当該特徴量を入力として、前記音声信号の発話内容を音声認識するためにステート推定をするための音響モデルである畳み込みニューラルネットワークを含む、コンピュータプログラム。
【請求項5】
互いにネットワーク構造が異なる第1、第2、及び第3のニューラルネットワークをこの順序で連結し連結後のニューラルネットワークを形成するステップと、
前記第1のニューラルネットワークの学習のための入力データと、前記第3のニューラルネットワークの学習のための、前記入力データと対応付けられる教師データとからなる第1の学習データを準備するステップと、
前記第1の学習データの入力データを前記第1のニューラルネットワークに入力として与え、前記第3のニューラルネットワークの出力に対する教師データとして、当該入力データに対応する教師データを与えることにより前記連結後のニューラルネットワークの学習を行うステップとを含む、ニューラルネットワークの学習方法であって、
前記第1のニューラルネットワークは入力音声に対する雑音信号を低減させる音声強調のためのニューラルネットワークであり、
前記第2のニューラルネットワークは前記第1のニューラルネットワークの出力から音声を認識するための特徴抽出のためのニューラルネットワークであり、
前記第3のニューラルネットワークは前記第2のニューラルネットワークの出力に基づいて音声認識のためのステート推定のためのニューラルネットワークである、ニューラルネットワークの学習方法。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は音声認識装置に関し、特に、目的信号である音声信号に雑音信号が重畳した音響信号から発話をテキスト化する音声認識装置を、ディープ・ニューラル・ネットワーク(以下「DNN」と呼ぶ。)を用いて実現した場合のニューラルネットワークを学習する技術に関する。
【背景技術】
【0002】
機械学習の1手法としてDNNが注目されており、その精度の高さから、最近では音声認識の音響モデルとしてはDNNを使用するものが多くなっている。例えば後掲の特許文献1に、そのような音響モデルDNNの学習方法に関する開示がある。しかし、入力される音声に雑音が重畳している場合には、DNNといえども以下のような問題が生じる。
【0003】
音響モデルにDNNを用い、入力音声に雑音が重畳している場合の認識精度を高めるための方法として以下の2つが考えられる。第1は、入力音声から雑音を除去することにより音声を強調する処理を最初に行うシステムである。第2は、雑音が重畳した入力音声そのものから特徴抽出を行うシステムである。以下、順にこれらの構成について説明する。
【0004】
[従来技術1]
図1は後掲の非特許文献1において開示されたものであり、音声強調(雑音除去)を行う音声認識装置30の構成の概略を示す。図1を参照してこの音声認識装置30は、雑音が重畳した音声信号50に対して雑音除去処理を行うことにより音声強調を行って強調音声信号54を出力する音声強調部52と、強調音声信号54から音声認識に必要な特徴量である音響スペクトルパタンを抽出し、音響スペクトルパタン列58を出力するための特徴抽出部56とを含む。
【0005】
音声認識装置30はさらに、音響スペクトルパタン列58を受けて、DNNからなる音響モデル64と、発音辞書66と、言語モデル68とを用いて、認識単語列62(^W)を出力する、WFST(Weighted Finite State Transducer)からなる音声認識部60とを含む。なお、記号「^」は式及び図中ではその直後の文字の直上に記載されている。
【0006】
言語モデル68は、音声認識の対象となっている言語の単語又は単語列の出現確率を記憶したものである。発音辞書66は、単語からどのような発音系列が生じるのか、その確率を記憶したものである。音響モデル64は、ある発音系列からどのような音響特徴量が得られるかを記憶したものである。音声認識部60は、これらを用い、以下の式によって認識単語列62を推定する。
【0007】
【数1】
上の式において、P(V|W)は、Vという発音系列が、単語列Wから生じる確率を示し、P(O|V)は音素列候補Oが発音系列候補Vから生じる確率を示し、P(W)は単語列Wの言語モデル確率を示す。Σは、考えられる全ての発音系列VにわたってP(O|V)P(V|W)を合計することを示す。
【0008】
[従来技術2]
図2は、図1に示すものと同じく非特許文献1に開示された例で、雑音が重畳した音声信号50から直接特徴量を抽出する音声認識装置80の概略構成を示す。図2を参照して、音声認識装置80は、雑音が重畳した音声信号50から直接特徴量である音響スペクトルパタン列92を抽出する特徴抽出部90と、音響スペクトルパタン列92に対して音響モデル64、発音辞書66、及び言語モデル68を用いて音声認識を行い、認識単語列94(^W)を出力するための、図1に示すものと同じ音声認識部60とを含む。音声認識部60の構成は図1の音声認識部60と同じであるが、音響モデル64の学習時に雑音が重畳した音声信号50から直接抽出した音響スペクトルパタン列92を用いているため、音響モデル64内のパラメータの値が図1に示すものと異なる。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2015-102806号公報
【非特許文献】
【0010】
【非特許文献1】M. Fujimoto and T. Nakatani, “Multi-pass feature enhancement based on generative-discriminative hybrid approach for noise robust speech recognition,” in Proceedings of ICASSP '16, pp. 5750-5754, March 2016.
【非特許文献2】T. Yoshioka, N. Ito, M. Delcroix, A. Ogawa, K. Kinoshita, M. F. C. Yu, W. J. Fabian, M. Espi, T. Higuchi, S. Araki, and T. Nakatani, “The NTT CHiME-3 system: Advances in speech enhancement and recognition for mobile multi-microphone devices,” in Proc. IEEE ASRU, 2015.
【非特許文献3】W. Xiong, J. Droppo, X. Huang, F. Seide, M. L. Seltzer, A. Stol- cke, D. Yu, and G. Zweig, “The Microsoft 2016 conversational speech recognition system,” in Proc. of ICASSP ’17, March 2017, pp. 5255-5259.
【発明の概要】
【発明が解決しようとする課題】
【0011】
従来の技術のうち、従来技術1(図1)の音声認識装置30のように音声強調を行う場合、音声強調で生じた歪みにより認識精度が劣化するという問題がある。歪みなしで音声強調を行う場合には、リアルタイム性に欠け、適用範囲が著しく限定されるという問題がある。一方、従来技術2(図2)の音声認識装置80のように雑音が付加された音声から直接特徴量を抽出する場合、学習時の音声信号50のSN比が低いと、音声の特徴が雑音にマスクされてしまうため、高精度な音響モデルの学習が不可能となる。そのため、SN比の低い音声に対する認識性能が頭打ちになるという問題がある。こうした問題に対処するために、音声認識装置に耐雑音性のあるニューラルネットワークを用いることが望ましい。
【0012】
それ故に本発明の1つの目的は、リアルタイム性を維持しながら、雑音が重畳された音声信号に対する認識精度を高めることができる、音声認識装置に用いられるニューラルネットワークの学習方法を提供することである。
【課題を解決するための手段】
【0013】
本発明の第1の局面に係るニューラルネットワークの学習方法は、互いにネットワーク構造が異なる第1、第2、及び第3のニューラルネットワークをこの順序で連結し連結後のニューラルネットワークを形成するステップと、第1のニューラルネットワークの学習のための入力データと、第3のニューラルネットワークの学習のための、入力データと対応付けられる教師データとからなる第1の学習データを準備するステップと、第1の学習データの入力データを第1のニューラルネットワークに入力として与え、第3のニューラルネットワークの出力に対する教師データとして、当該入力データに対応する教師データを与えることにより連結後のニューラルネットワークの学習を行うステップとを含む。
【0014】
好ましくは、第1のニューラルネットワークは、目的信号である音声信号に雑音信号が重畳した音響信号を受け、当該音響信号に含まれる上記雑音信号を低減させた強調音声信号を出力するための、音声強調のための畳み込みニューラルネットワークを含む。
【0015】
より好ましくは、第2のニューラルネットワークは、第1のニューラルネットワークから強調音声信号を受け、当該強調音声信号から、音声を認識するための所定の特徴量を抽出するための、特徴抽出のための畳み込みニューラルネットワークを含む。
【0016】
さらに好ましくは、第3のニューラルネットワークは、特徴量を受け、当該特徴量を入力として、音声信号の発話内容をテキスト化するための音声認識のための畳み込みニューラルネットワークを含む。
【0017】
好ましくは、音声強調のための畳み込みニューラルネットワーク、特徴抽出のための畳み込みニューラルネットワーク、及び音声認識のための畳み込みニューラルネットワークで使用する畳み込みフィルタは互いに異なっている。
【0018】
より好ましくは、この学習方法は、連結後のニューラルネットワークを形成するステップに先立って、第1のニューラルネットワークの学習のための第2の学習データを準備するステップと、第2の学習データを用いて第1のニューラルネットワークの事前学習を行うステップとをさらに含む。
【図面の簡単な説明】
【0019】
図1】従来の音声認識システムの第1の例の構成を模式的に示す図である。
図2】従来の音声認識システムの第2の例の構成を模式的に示す図である。
図3】3つのニューラルネットワークを連結して得られるニューラルネットワークを用いた音声認識システムの構成例を模式的に示す図である。
図4】本発明の第1の実施の形態に係る、3つのニューラルネットワークを連結し一体化したニューラルネットワークの構成を模式的に示す図である。
図5図4に示すニューラルネットワークを用いる音声認識システムの概略の機能的構成を示すブロック図である。
図6図4に示す音声強調CNN170のフィルタ構成を説明するための図である。
図7図4に示す音声強調CNN170のフィルタを2段としたときのフィルタ構成を説明するための図である。
図8図4に示す特徴抽出CNN172のフィルタ構成を説明するための図である。
図9図8に示す特徴抽出CNN172により得られるフィルタ特性を示すグラフである。
図10図4に示すCNN音響モデル174のフィルタ構成を説明するための図である。
図11図4に示すニューラルネットワークの学習方法を実現するコンピュータプログラムの制御構造を示すフローチャートである。
図12】本発明の第1の実施の形態に係る音声認識システム、及び当該音声認識システムのニューラルネットワークの学習方法を実現するためのコンピュータシステムの外観図である。
図13図12に外観を示すコンピュータの内部構成を示すハードウェアブロック図である。
【発明を実施するための形態】
【0020】
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。
【0021】
図1に示すシステムで、音声強調部52及び特徴抽出部56をDNNで実現することが考えられる。実際、これらを個々に実現することは可能である。そこで、例えば図1に示す全ての機能ブロックをDNNの一種である畳み込みニューラルネットワーク(CNN)で記述することを考える。
【0022】
図3にそのようなシステムとして考えられる形態を示す。図3を参照して、この音声認識装置100は、雑音が重畳した音声信号50を受けて音声強調の処理を行い、強調音声信号122を出力するための、予め学習した音声強調CNN110を含む音声強調部120と、音声強調部120の出力する強調音声信号122を受けて特徴抽出の処理を行い、音響スペクトルパタン列126を出力するための、予め学習した特徴抽出CNN112を含む特徴抽出部124と、特徴抽出部124が出力する音響スペクトルパタン列126を受けて、音声認識のためのステート推定を行うよう予め学習したCNN音響モデル114、発音辞書66、及び言語モデル68を用いて音響スペクトルパタン列126に対する音声認識を行い、認識単語列62を出力する音声認識部128とを含む。音声認識部128は、図1に示す音声認識部60と同様、図示しないWFSTによる音声認識を行う。
【0023】
これら音声強調CNN110、特徴抽出CNN112、及びCNN音響モデル114は、それらの機能の違いを反映してそれぞれ異なったネットワーク構成となっている。そこで、これらCNNの学習は、個別の教師信号を用いて個別に行われ、最終的にそれらを結合して一体化学習を行う。
【0024】
しかしこのような学習方法では、各学習において使用された教師信号が、ネットワーク全体の学習に最適とは限らないという問題がある。そのため、最後に一体化学習を行ったとしても全体の整合性が取れず、十分な性能改善が得られない。
【0025】
そこで、本実施の形態では、以下に述べるような方法によりCNNの学習を行う。
【0026】
図4を参照して、この実施の形態に係る音声認識装置140は、雑音が重畳した音声信号50を受けて音声強調の処理を行うための、音声強調CNN170を含む音声強調部180と、音声強調CNN170の出力から音声認識に必要な特徴の抽出処理を行う、特徴抽出CNN172を含む特徴抽出部182と、特徴抽出部182の出力に対してWFSTによる音声認識を行って認識単語列162を出力するための音声認識部184とを含む。音声認識部184は、特徴抽出CNN172の出力を受けてWFSTのためのステート推定を行うCNN音響モデル174、発音辞書66、及び言語モデル68を用いて音声認識を行う。この実施の形態では、図3に示す音声認識装置100と異なり、音声強調CNN170、特徴抽出CNN172、及びCNN音響モデル174とをこの順で連結して1つのニューラルネットワーク160とする。本実施の形態では、この連結後のニューラルネットワーク160の学習を、音声強調CNN170、特徴抽出CNN172、及びCNN音響モデル174の一体学習186によって行う。こうすることによって連結後のニューラルネットワーク160の学習においてニューラルネットワーク160に情報が過度に与えられることが防止でき、全体としての性能を高めることができる。
【0027】
図5に、本実施の形態に係る音声認識装置140を組み込んだ音声認識システム200のハードウェア的構成を簡単なブロック図で示す。音声認識システム200は、それぞれ発話の音声信号を出力するマイクロフォンアレイ220と、マイクロフォンアレイ220の出力する音声信号の各々を所定の間隔でサンプリングし、デジタル化して複数チャネルの音声信号として出力するアナログ/デジタル(A/D)変換回路222と、この複数チャネルの音声信号に対して音声認識処理を実行し、認識単語列162を出力する、図4に示す連結後のニューラルネットワーク160を含む音声認識装置140とを含む。
【0028】
各機能ブロックを構成するCNNは、以下のように、それらの機能に適した、互いに異なる畳み込みフィルタを持つ。
【0029】
−音声強調:時間−周波数の2次元フィルタ
−特徴抽出:時間方向の1次元フィルタ(時間微分)
−音響モデル:周波数方向の1次元フィルタ+サブサンプリング(プーリング)
以下、これらのフィルタ構成について順に説明する。
【0030】
〈音声強調〉
図6を参照して、音声強調CNN170への入力は、チャネル数をIとして、複数チャネルの音声信号250−1、250−2、…、250−Iである。これら音声信号は、各時刻における周波数分布を示し、それが時系列として音声強調CNN170に入力される。音声強調CNN170のフィルタ252−1、252−2、…、252−I(この例では、これらフィルタはそれぞれJ種類使用するものとする。)は、フィルタリングの対象となる時刻を中心とする、時間−周波数の2次元のフィルタである。例えばフィルタ252−1によるフィルタリングは、各時刻において、フィルタ中心の周波数を変化させながら(フィルタを図6における上下方向に移動させながら)、フィルタ領域内の各周波数成分に所定の係数を乗じて加算することでフィルタリングを行う。各チャネルに対して同じフィルタを適用し、各チャネルのフィルタ出力を足し合わせることでフィルタリング後の信号260−1が得られる。別の種類のフィルタを同じように適用することで、J個のフィルタによるJ個の出力信号260−1、260−2、…、260−Jが得られる。これらが次の特徴抽出CNN172への入力となる。
【0031】
このように複数チャネルの音声信号を入力とし、各チャネルのフィルタ出力を足し合わせることで、Delay-and-Sumビームフォーマと同等の効果が得られる。
【0032】
ここでは、音声強調CNN170はフィルタ計算を1段のみ行った例を示したが、これを複数段に替えることもできる。その例を図7に示す。図7に示す音声強調CNN280は、各チャネルの音声信号に複数のフィルタを適用し、それらの出力をさらに2段目のフィルタで足し合わせている。 図7を参照して、この例では、第1段にJ個のフィルタを用い、第2段にK個のフィルタを用いる。チャネル1に対して、第1段では2次元フィルタ270−1を適用し、その結果、フィルタリング後信号272−1が得られる。同様にチャネル1に他のフィルタを適用することで、チャネル1の第1段ではJ個のフィルタリング後信号272−1、272−2、…、272−Jが得られる。他のチャネル2〜IからもそれぞれJ個のフィルタリング後信号274−1〜274−J、…、276−1〜276−Jが得られる。これらフィルタ出力に対してさらに第2段のフィルタ(図示せず。本例ではK個のフィルタを使用するものとする。)を適用することで、第2段の出力278−1、278−2、…、278−Kが得られる。これらが次段への入力となる。
【0033】
なお、音声強調については、単独で事前学習をすることも考えられる。実際、音声強調CNNについて事前学習をしてから全体を連結して一体学習を行った方が、いずれのCNNについても事前学習を行わず一体学習を行った場合よりも若干よい性能が得られる、という実験結果がある。しかし、音声強調以外のCNNについては、実際の推定時に入力される信号の値が予測できないため、事前学習をしても効果はないと考えられる。
【0034】
〈特徴抽出〉
図8を参照して、特徴抽出CNN172への入力が信号330−1、330−2、…、330−Jとする。特徴抽出CNN172のフィルタは、対象時刻を中心とし、その時間軸方向に幅を持つ1次元フィルタ332−1、332−2、…、332−Jである。これらフィルタを周波数軸方向に移動させながらフィルタ出力を計算する。この結果、フィルタ数をM個とすると、特徴抽出CNN172からM個のフィルタリング後の信号350−1、350−2、…、350−Mが得られる。これらが次段のCNN音響モデル174への入力となる。
【0035】
なお、この特徴抽出CNN172は、通常の時間微分フィルタと同等かつ様々な特性を持つフィルタを学習可能である。図9にその変調周波数特性の例を示す。図9において左上のグラフ(「Delta window」で示す。)が通常の時間微分フィルタの特性を示す。それ以外のグラフは、特徴抽出CNN172が各チャネルに対して学習した変調周波数特性の例を示す。
【0036】
〈音響モデル〉
図10を参照して、CNN音響モデル174への入力が信号370−1、370−2、…、370−Mとする。CNN音響モデル174で使用されるフィルタ372−1、372−2、…、372−Mは、対象となる時間において、周波数軸方向の幅を持つ1次元フィルタである。このフィルタを周波数軸方向に移動させながらフィルタ出力を計算する。この結果、フィルタ個数をN個として、CNN音響モデル174からはN個の出力信号380−1、380−2、…、380−Nが得られる。これがWFSTにおける音声認識に利用される。
【0037】
〈学習処理〉
図11に、この実施の形態に係る音声認識装置140の音声強調と特徴抽出と音響モデルとの一体学習186をコンピュータにより実現するためのプログラムの制御構造をフローチャート形式で示す。図11を参照して、このプログラムは、音声強調CNNの事前学習を行うステップ400と、音声強調CNN170、特徴抽出CNN172、及びCNN音響モデル174の全体を連結するステップ402と、この連結後のCNNに対し、終了条件が成立するまで以下の処理410を繰り返し実行するステップ404と、ステップ404が終了した後、確定したCNNのパラメータを記憶装置に保存して処理を終了するステップ406とを含む。なお、ステップ400を行わず、事前学習なしの音声強調CNN170を用いても良い。
【0038】
処理410は、学習データセットに含まれるデータの全体を用いて、教師あり学習により連結後のニューラルネットワーク160の学習を行うステップ420と、終了条件が成立したか否かを判定するステップ422とを含む。この教師あり学習では、学習データのうち、入力データを音声強調CNN170の入力に与え、CNN音響モデル174の教師データとしてその入力データに対応する教師データを与える。
【0039】
終了条件としては種々考えられる。よく使用されるのは、ステップ420の学習を所定回数終了したことにより学習を終了する、又は、ステップ420の学習が終了した後テストデータを用いて得たニューラルネットワーク160の出力信号と、テストデータの教師信号を照合し、その精度が改善しなくなったときに学習を終了する、というものである。あるいは、CNN全体のパラメータの変化を見て、学習によって生じた変動の総量が所定のしきい値以下になったときに学習を終了させるようにしてもよい。
【0040】
[実施の形態の効果]
実施の形態の効果を確認するために、以下のような評価実験を行った。実験には、雑音下音声認識用のデータベースCHiME3(http://spandh.dcs.shef.ac.uk/chime_challenge/chime2015/ より入手可能)を用いた。このデータには、実収録データ(real)と人工雑音付加データ(simu)とがあり、またパラメータ決定用の開発セット(dev)と評価セット(eval)がある。
【0041】
評価は、CNN-NIN(前掲の非特許文献2を参照)の音響モデルと、ResNet(前掲の非特許文献3を参照)の音響モデルとを用いて行った。これらは実施の形態でも用いたものである。各音響モデルの一般的な構造については各文献に説明がある。
【0042】
各音響モデルを用いて上記実施の形態に係る音声認識装置を実装し、開発セット(dev)で学習をおこない、それらの性能について評価(eval)セットを用いて評価した。評価基準は単語誤り率(WER: Word error rate)であり、値が低いほど音声認識装置の性能が高いことを示す。結果を以下のテーブル1に示す。なお、テーブル1には、比較対象の従来技術として、図1に示す雑音除去によるものと、図2に示す雑音付加学習によるものとを示してある。これらについてもCHiME3を用いて評価したものである。
【0043】
【表1】
【0044】
テーブル1から分かるように、いずれの音響モデル(CNN-NIN及びResNet)を用いた場合も、また対象音声が人工雑音付加(simu)の場合も、実収録(real)の場合も、従来技術1、2のいずれに対しても、本発明の実施の形態に係る音声認識装置の性能が非常に高いことが分かる。
【0045】
[コンピュータによる実現]
本発明の実施の形態に係るニューラルネットワーク160、ニューラルネットワーク160を含む音声認識装置140、及びニューラルネットワーク160の学習方法は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図12はこのコンピュータシステム630の外観を示し、図13はコンピュータシステム630の内部構成を示す。
【0046】
図12を参照して、このコンピュータシステム630は、メモリポート652及びDVD(Digital Versatile Disk)ドライブ650を有するコンピュータ640と、キーボード646と、マウス648と、モニタ642とを含む。
【0047】
図13を参照して、コンピュータ640は、メモリポート652及びDVDドライブ650に加えて、CPU(中央処理装置)656及びGPGPU(汎用画像処理装置)657と、CPU656、GPGPU657、メモリポート652及びDVDドライブ650に接続されたバス666と、ブートプログラム等を記憶する読出専用メモリ(ROM)658と、バス666に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ(RAM)660と、ハードディスク654を含む。コンピュータシステム630はさらに、他端末との通信を可能とするネットワーク668への接続を提供するネットワークインターフェイス(I/F)644と、マイクロフォンアレイからのアナログの音声信号672を受けデジタル化してRAM660の所定アドレスに書き込む機能を持つ音声I/F670とを含む。
【0048】
コンピュータシステム630を上記した実施の形態に係る音声認識装置140及び連結後のニューラルネットワーク160の学習を行う学習装置の各機能部として機能させるためのコンピュータプログラムは、DVDドライブ650又はメモリポート652に装着されるDVD662又はリムーバブルメモリ664に記憶され、さらにハードディスク654に転送される。又は、プログラムはネットワーク668を通じてコンピュータ640に送信されハードディスク654に記憶されてもよい。プログラムは実行の際にRAM660にロードされる。DVD662から、リムーバブルメモリ664から又はネットワーク668を介して、直接にRAM660にプログラムをロードしてもよい。
【0049】
このプログラムは、コンピュータ640を、上記実施の形態に係る音声認識装置140及び連結後のニューラルネットワーク160の学習を行う学習装置の各機能部として機能させるための複数の命令からなる命令列を含む。ニューラルネットワーク160の学習における数値演算処理は、CPU656及びGPGPU657を用いて行う(CPU656のみを用いてもよいがGPGPU657を用いる方が高速である。)。コンピュータ640にこの動作を行わせるのに必要な基本的機能のいくつかはコンピュータ640上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ640にインストールされる、ダイナミックリンク可能な各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム、装置及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット又はプログラムライブラリ内の適切なプログラムを実行時に動的に呼出すことにより、上記したシステム、装置又は方法としての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供してもよい。
【0050】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
【符号の説明】
【0051】
30、80、100、140 音声認識装置
50 雑音が重畳した音声信号
52、120、180 音声強調部
54、122 強調音声信号
56、90、124 特徴抽出部
58、92、126 音響スペクトルパタン列
60、128、184 音声認識部
62、94、162 認識単語列
64 音響モデル
66 発音辞書
68 言語モデル
110、170 音声強調CNN
112、172 特徴抽出CNN
114、174 CNN音響モデル
160 連結後のニューラルネットワーク
186 音声強調と特徴抽出と音響モデルの一体学習
200 音声認識システム
220 マイクロフォンアレイ
250−1、250−2、…、250−I 各チャネルの信号
252−1、252−2、…、252−I 音声強調CNNのフィルタ
260−1、260−2、…、260−J 音声強調CNNのフィルタリング後の出力信号
270−1、270−2、…、270−I 音声強調CNNのフィルタ
272−1〜J、274−1〜J、276−1〜J 2段音声強調CNNのフィルタリング後信号
278−1、278−2、…、278−K 2段音声強調CNNの出力
332−1、332−2、332−J 特徴抽出CNNのフィルタ
372−1、372−2、372−M CNN音響モデルのフィルタ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13