特許6987378 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人情報通信研究機構の特許一覧

特許6987378ニューラルネットワークの学習方法及びコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6987378

(24)【登録日】2021年12月3日

(45)【発行日】2021年12月22日

(54)【発明の名称】ニューラルネットワークの学習方法及びコンピュータプログラム

(51)【国際特許分類】

G10L 15/16 20060101AFI20211213BHJP

【ＦＩ】

G10L15/16

【請求項の数】5

【全頁数】14

(21)【出願番号】特願2017-139186(P2017-139186)

(22)【出願日】2017年7月18日

(65)【公開番号】特開2019-20598(P2019-20598A)

(43)【公開日】2019年2月7日

【審査請求日】2020年6月11日

(73)【特許権者】

【識別番号】301022471

【氏名又は名称】国立研究開発法人情報通信研究機構

(74)【代理人】

【識別番号】100099933

【弁理士】

【氏名又は名称】清水敏

(72)【発明者】

【氏名】藤本雅清

(72)【発明者】

【氏名】河井恒

【審査官】菊池智紀

(56)【参考文献】

【文献】米国特許出願公開第２０１６／００９９０１０（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１７／０１２５０２０（ＵＳ，Ａ１）

【文献】 Tara N., SAINATH et al.，"CONVOLUTIONAL, LONG SHORT-TERM MEMORY, FULLY CONNECTED DEEP NEURAL NETWORKS"，Proc. of 2015 IEEE ICASSP，2015年04月19日，pp.4580-4584

【文献】 Che-Wei, HUANG et al.，"DEEP CONVOLUTIONAL RECURRENT NEURAL NETWORK WITH ATTENTION MECHANISM FOR ROBUST SPEECH EMOTION RECOGNITION"，Proc. of 2017 IEEE ICME，2017年07月10日，pp.583-588

【文献】和気雅弥他，"ロボット対話における深層学習を用いたセミブラインド音声強調"，第79回（平成29年）全国大会講演論文集 (2)，2017年03月16日，pp.2-219‐2-220

【文献】 Tsubasa, OCHIAI et al.，"Multichannel End-to-end Speech Recognition"，[online]，2017年03月14日，[retrieved on 2021.04.16], Retrieved from the Internet: <URL:https://arxiv.org/pdf/1703.04783v1.pdf>

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１５／００−２５／９３

Ｇ０６Ｎ３／０２− ３／１０

(57)【特許請求の範囲】

【請求項1】

互いにネットワーク構造が異なる第１、第２、及び第３のニューラルネットワークをこの順序で連結し連結後のニューラルネットワークを形成するステップと、
前記第１のニューラルネットワークの学習のための入力データと、前記第３のニューラルネットワークの学習のための、前記入力データと対応付けられる教師データとからなる第１の学習データを準備するステップと、
前記第１の学習データの入力データを前記第１のニューラルネットワークに入力として与え、前記第３のニューラルネットワークの出力に対する教師データとして、当該入力データに対応する教師データを与えることにより前記連結後のニューラルネットワークの学習を行うステップとを含む、ニューラルネットワークの学習方法であって、
前記第１のニューラルネットワークは、目的信号である音声信号に雑音信号が重畳した音響信号を受け、当該音響信号に含まれる上記雑音信号を低減させた強調音声信号を出力するための、音声強調のための畳み込みニューラルネットワークを含み、
前記第２のニューラルネットワークは、前記第１のニューラルネットワークから前記強調音声信号を受け、当該強調音声信号から、音声を認識するための所定の特徴量を抽出するための、特徴抽出のための畳み込みニューラルネットワークを含み、
前記第３のニューラルネットワークは、前記特徴量を受け、当該特徴量を入力として、前記音声信号の発話内容を音声認識するためにステート推定をするための音響モデルである畳み込みニューラルネットワークを含む、ニューラルネットワークの学習方法。

【請求項2】

前記音声強調のための畳み込みニューラルネットワーク、前記特徴抽出のための畳み込みニューラルネットワーク、及び前記音響モデルである畳み込みニューラルネットワークで使用する畳み込みフィルタは互いに異なっている、請求項１に記載のニューラルネットワークの学習方法。

【請求項3】

前記連結後のニューラルネットワークを形成するステップに先立って、
前記第１のニューラルネットワークの学習のための第２の学習データを準備するステップと、
前記第２の学習データを用いて前記第１のニューラルネットワークの事前学習を行うステップとをさらに含む、請求項１又は請求項２に記載のニューラルネットワークの学習方法。

【請求項4】

コンピュータに、
互いにネットワーク構造が異なる第１、第２、及び第３のニューラルネットワークをこの順序で連結し連結後のニューラルネットワークを形成するステップと、
前記第１のニューラルネットワークの学習のための入力データと、前記第３のニューラルネットワークの学習のための、前記入力データと対応付けられる教師データとからなる第１の学習データを準備するステップと、
前記第１の学習データの入力データを前記第１のニューラルネットワークに入力として与え、前記第３のニューラルネットワークの出力に対する教師データとして、当該入力データに対応する教師データを与えることにより前記連結後のニューラルネットワークの学習を行うステップとを含む、ニューラルネットワークの学習方法を実行するように機能させるコンピュータプログラムであって、
前記第１のニューラルネットワークは、目的信号である音声信号に雑音信号が重畳した音響信号を受け、当該音響信号に含まれる上記雑音信号を低減させた強調音声信号を出力するための、音声強調のための畳み込みニューラルネットワークを含み、
前記第２のニューラルネットワークは、前記第１のニューラルネットワークから前記強調音声信号を受け、当該強調音声信号から、音声を認識するための所定の特徴量を抽出するための、特徴抽出のための畳み込みニューラルネットワークを含み、
前記第３のニューラルネットワークは、前記特徴量を受け、当該特徴量を入力として、前記音声信号の発話内容を音声認識するためにステート推定をするための音響モデルである畳み込みニューラルネットワークを含む、コンピュータプログラム。

【請求項5】

互いにネットワーク構造が異なる第１、第２、及び第３のニューラルネットワークをこの順序で連結し連結後のニューラルネットワークを形成するステップと、
前記第１のニューラルネットワークの学習のための入力データと、前記第３のニューラルネットワークの学習のための、前記入力データと対応付けられる教師データとからなる第１の学習データを準備するステップと、
前記第１の学習データの入力データを前記第１のニューラルネットワークに入力として与え、前記第３のニューラルネットワークの出力に対する教師データとして、当該入力データに対応する教師データを与えることにより前記連結後のニューラルネットワークの学習を行うステップとを含む、ニューラルネットワークの学習方法であって、
前記第１のニューラルネットワークは入力音声に対する雑音信号を低減させる音声強調のためのニューラルネットワークであり、
前記第２のニューラルネットワークは前記第１のニューラルネットワークの出力から音声を認識するための特徴抽出のためのニューラルネットワークであり、
前記第３のニューラルネットワークは前記第２のニューラルネットワークの出力に基づいて音声認識のためのステート推定のためのニューラルネットワークである、ニューラルネットワークの学習方法。

【発明の詳細な説明】

【技術分野】

【0001】

この発明は音声認識装置に関し、特に、目的信号である音声信号に雑音信号が重畳した音響信号から発話をテキスト化する音声認識装置を、ディープ・ニューラル・ネットワーク（以下「ＤＮＮ」と呼ぶ。）を用いて実現した場合のニューラルネットワークを学習する技術に関する。

【背景技術】

【0002】

機械学習の１手法としてＤＮＮが注目されており、その精度の高さから、最近では音声認識の音響モデルとしてはＤＮＮを使用するものが多くなっている。例えば後掲の特許文献１に、そのような音響モデルＤＮＮの学習方法に関する開示がある。しかし、入力される音声に雑音が重畳している場合には、ＤＮＮといえども以下のような問題が生じる。

【0003】

音響モデルにＤＮＮを用い、入力音声に雑音が重畳している場合の認識精度を高めるための方法として以下の２つが考えられる。第１は、入力音声から雑音を除去することにより音声を強調する処理を最初に行うシステムである。第２は、雑音が重畳した入力音声そのものから特徴抽出を行うシステムである。以下、順にこれらの構成について説明する。

【0004】

［従来技術１］
図１は後掲の非特許文献１において開示されたものであり、音声強調（雑音除去）を行う音声認識装置３０の構成の概略を示す。図１を参照してこの音声認識装置３０は、雑音が重畳した音声信号５０に対して雑音除去処理を行うことにより音声強調を行って強調音声信号５４を出力する音声強調部５２と、強調音声信号５４から音声認識に必要な特徴量である音響スペクトルパタンを抽出し、音響スペクトルパタン列５８を出力するための特徴抽出部５６とを含む。

【0005】

音声認識装置３０はさらに、音響スペクトルパタン列５８を受けて、ＤＮＮからなる音響モデル６４と、発音辞書６６と、言語モデル６８とを用いて、認識単語列６２（＾Ｗ）を出力する、ＷＦＳＴ（Weighted Finite State Transducer）からなる音声認識部６０とを含む。なお、記号「＾」は式及び図中ではその直後の文字の直上に記載されている。

【0006】

言語モデル６８は、音声認識の対象となっている言語の単語又は単語列の出現確率を記憶したものである。発音辞書６６は、単語からどのような発音系列が生じるのか、その確率を記憶したものである。音響モデル６４は、ある発音系列からどのような音響特徴量が得られるかを記憶したものである。音声認識部６０は、これらを用い、以下の式によって認識単語列６２を推定する。

【0007】

【数1】

上の式において、Ｐ（Ｖ｜Ｗ）は、Ｖという発音系列が、単語列Ｗから生じる確率を示し、Ｐ（Ｏ｜Ｖ）は音素列候補Ｏが発音系列候補Ｖから生じる確率を示し、Ｐ（Ｗ）は単語列Ｗの言語モデル確率を示す。Σは、考えられる全ての発音系列ＶにわたってＰ（Ｏ｜Ｖ）Ｐ（Ｖ｜Ｗ）を合計することを示す。

【0008】

［従来技術２］
図２は、図１に示すものと同じく非特許文献１に開示された例で、雑音が重畳した音声信号５０から直接特徴量を抽出する音声認識装置８０の概略構成を示す。図２を参照して、音声認識装置８０は、雑音が重畳した音声信号５０から直接特徴量である音響スペクトルパタン列９２を抽出する特徴抽出部９０と、音響スペクトルパタン列９２に対して音響モデル６４、発音辞書６６、及び言語モデル６８を用いて音声認識を行い、認識単語列９４（＾Ｗ）を出力するための、図１に示すものと同じ音声認識部６０とを含む。音声認識部６０の構成は図１の音声認識部６０と同じであるが、音響モデル６４の学習時に雑音が重畳した音声信号５０から直接抽出した音響スペクトルパタン列９２を用いているため、音響モデル６４内のパラメータの値が図１に示すものと異なる。

【先行技術文献】

【特許文献】

【0009】

【特許文献1】特開2015-102806号公報

【非特許文献】

【0010】

【非特許文献1】M. Fujimoto and T. Nakatani, “Multi-pass feature enhancement based on generative-discriminative hybrid approach for noise robust speech recognition,” in Proceedings of ICASSP '16, pp. 5750-5754, March 2016.

【非特許文献2】T. Yoshioka, N. Ito, M. Delcroix, A. Ogawa, K. Kinoshita, M. F. C. Yu, W. J. Fabian, M. Espi, T. Higuchi, S. Araki, and T. Nakatani, “The NTT CHiME-3 system: Advances in speech enhancement and recognition for mobile multi-microphone devices,” in Proc. IEEE ASRU, 2015.

【非特許文献3】W. Xiong, J. Droppo, X. Huang, F. Seide, M. L. Seltzer, A. Stol- cke, D. Yu, and G. Zweig, “The Microsoft 2016 conversational speech recognition system,” in Proc. of ICASSP ’17, March 2017, pp. 5255-5259.

【発明の概要】

【発明が解決しようとする課題】

【0011】

従来の技術のうち、従来技術１（図１）の音声認識装置３０のように音声強調を行う場合、音声強調で生じた歪みにより認識精度が劣化するという問題がある。歪みなしで音声強調を行う場合には、リアルタイム性に欠け、適用範囲が著しく限定されるという問題がある。一方、従来技術２（図２）の音声認識装置８０のように雑音が付加された音声から直接特徴量を抽出する場合、学習時の音声信号５０のＳＮ比が低いと、音声の特徴が雑音にマスクされてしまうため、高精度な音響モデルの学習が不可能となる。そのため、ＳＮ比の低い音声に対する認識性能が頭打ちになるという問題がある。こうした問題に対処するために、音声認識装置に耐雑音性のあるニューラルネットワークを用いることが望ましい。

【0012】

それ故に本発明の１つの目的は、リアルタイム性を維持しながら、雑音が重畳された音声信号に対する認識精度を高めることができる、音声認識装置に用いられるニューラルネットワークの学習方法を提供することである。

【課題を解決するための手段】

【0013】

本発明の第１の局面に係るニューラルネットワークの学習方法は、互いにネットワーク構造が異なる第１、第２、及び第３のニューラルネットワークをこの順序で連結し連結後のニューラルネットワークを形成するステップと、第１のニューラルネットワークの学習のための入力データと、第３のニューラルネットワークの学習のための、入力データと対応付けられる教師データとからなる第１の学習データを準備するステップと、第１の学習データの入力データを第１のニューラルネットワークに入力として与え、第３のニューラルネットワークの出力に対する教師データとして、当該入力データに対応する教師データを与えることにより連結後のニューラルネットワークの学習を行うステップとを含む。

【0014】

好ましくは、第１のニューラルネットワークは、目的信号である音声信号に雑音信号が重畳した音響信号を受け、当該音響信号に含まれる上記雑音信号を低減させた強調音声信号を出力するための、音声強調のための畳み込みニューラルネットワークを含む。

【0015】

より好ましくは、第２のニューラルネットワークは、第１のニューラルネットワークから強調音声信号を受け、当該強調音声信号から、音声を認識するための所定の特徴量を抽出するための、特徴抽出のための畳み込みニューラルネットワークを含む。

【0016】

さらに好ましくは、第３のニューラルネットワークは、特徴量を受け、当該特徴量を入力として、音声信号の発話内容をテキスト化するための音声認識のための畳み込みニューラルネットワークを含む。

【0017】

好ましくは、音声強調のための畳み込みニューラルネットワーク、特徴抽出のための畳み込みニューラルネットワーク、及び音声認識のための畳み込みニューラルネットワークで使用する畳み込みフィルタは互いに異なっている。

【0018】

より好ましくは、この学習方法は、連結後のニューラルネットワークを形成するステップに先立って、第１のニューラルネットワークの学習のための第２の学習データを準備するステップと、第２の学習データを用いて第１のニューラルネットワークの事前学習を行うステップとをさらに含む。

【図面の簡単な説明】

【0019】

【図1】従来の音声認識システムの第１の例の構成を模式的に示す図である。

【図2】従来の音声認識システムの第２の例の構成を模式的に示す図である。

【図3】３つのニューラルネットワークを連結して得られるニューラルネットワークを用いた音声認識システムの構成例を模式的に示す図である。

【図4】本発明の第１の実施の形態に係る、３つのニューラルネットワークを連結し一体化したニューラルネットワークの構成を模式的に示す図である。

【図5】図４に示すニューラルネットワークを用いる音声認識システムの概略の機能的構成を示すブロック図である。

【図6】図４に示す音声強調ＣＮＮ１７０のフィルタ構成を説明するための図である。

【図7】図４に示す音声強調ＣＮＮ１７０のフィルタを２段としたときのフィルタ構成を説明するための図である。

【図8】図４に示す特徴抽出ＣＮＮ１７２のフィルタ構成を説明するための図である。

【図9】図８に示す特徴抽出ＣＮＮ１７２により得られるフィルタ特性を示すグラフである。

【図10】図４に示すＣＮＮ音響モデル１７４のフィルタ構成を説明するための図である。

【図11】図４に示すニューラルネットワークの学習方法を実現するコンピュータプログラムの制御構造を示すフローチャートである。

【図12】本発明の第１の実施の形態に係る音声認識システム、及び当該音声認識システムのニューラルネットワークの学習方法を実現するためのコンピュータシステムの外観図である。

【図13】図１２に外観を示すコンピュータの内部構成を示すハードウェアブロック図である。

【発明を実施するための形態】

【0020】

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

【0021】

図１に示すシステムで、音声強調部５２及び特徴抽出部５６をＤＮＮで実現することが考えられる。実際、これらを個々に実現することは可能である。そこで、例えば図１に示す全ての機能ブロックをＤＮＮの一種である畳み込みニューラルネットワーク（ＣＮＮ）で記述することを考える。

【0022】

図３にそのようなシステムとして考えられる形態を示す。図３を参照して、この音声認識装置１００は、雑音が重畳した音声信号５０を受けて音声強調の処理を行い、強調音声信号１２２を出力するための、予め学習した音声強調ＣＮＮ１１０を含む音声強調部１２０と、音声強調部１２０の出力する強調音声信号１２２を受けて特徴抽出の処理を行い、音響スペクトルパタン列１２６を出力するための、予め学習した特徴抽出ＣＮＮ１１２を含む特徴抽出部１２４と、特徴抽出部１２４が出力する音響スペクトルパタン列１２６を受けて、音声認識のためのステート推定を行うよう予め学習したＣＮＮ音響モデル１１４、発音辞書６６、及び言語モデル６８を用いて音響スペクトルパタン列１２６に対する音声認識を行い、認識単語列６２を出力する音声認識部１２８とを含む。音声認識部１２８は、図１に示す音声認識部６０と同様、図示しないＷＦＳＴによる音声認識を行う。

【0023】

これら音声強調ＣＮＮ１１０、特徴抽出ＣＮＮ１１２、及びＣＮＮ音響モデル１１４は、それらの機能の違いを反映してそれぞれ異なったネットワーク構成となっている。そこで、これらＣＮＮの学習は、個別の教師信号を用いて個別に行われ、最終的にそれらを結合して一体化学習を行う。

【0024】

しかしこのような学習方法では、各学習において使用された教師信号が、ネットワーク全体の学習に最適とは限らないという問題がある。そのため、最後に一体化学習を行ったとしても全体の整合性が取れず、十分な性能改善が得られない。

【0025】

そこで、本実施の形態では、以下に述べるような方法によりＣＮＮの学習を行う。

【0026】

図４を参照して、この実施の形態に係る音声認識装置１４０は、雑音が重畳した音声信号５０を受けて音声強調の処理を行うための、音声強調ＣＮＮ１７０を含む音声強調部１８０と、音声強調ＣＮＮ１７０の出力から音声認識に必要な特徴の抽出処理を行う、特徴抽出ＣＮＮ１７２を含む特徴抽出部１８２と、特徴抽出部１８２の出力に対してＷＦＳＴによる音声認識を行って認識単語列１６２を出力するための音声認識部１８４とを含む。音声認識部１８４は、特徴抽出ＣＮＮ１７２の出力を受けてＷＦＳＴのためのステート推定を行うＣＮＮ音響モデル１７４、発音辞書６６、及び言語モデル６８を用いて音声認識を行う。この実施の形態では、図３に示す音声認識装置１００と異なり、音声強調ＣＮＮ１７０、特徴抽出ＣＮＮ１７２、及びＣＮＮ音響モデル１７４とをこの順で連結して１つのニューラルネットワーク１６０とする。本実施の形態では、この連結後のニューラルネットワーク１６０の学習を、音声強調ＣＮＮ１７０、特徴抽出ＣＮＮ１７２、及びＣＮＮ音響モデル１７４の一体学習１８６によって行う。こうすることによって連結後のニューラルネットワーク１６０の学習においてニューラルネットワーク１６０に情報が過度に与えられることが防止でき、全体としての性能を高めることができる。

【0027】

図５に、本実施の形態に係る音声認識装置１４０を組み込んだ音声認識システム２００のハードウェア的構成を簡単なブロック図で示す。音声認識システム２００は、それぞれ発話の音声信号を出力するマイクロフォンアレイ２２０と、マイクロフォンアレイ２２０の出力する音声信号の各々を所定の間隔でサンプリングし、デジタル化して複数チャネルの音声信号として出力するアナログ／デジタル（Ａ／Ｄ）変換回路２２２と、この複数チャネルの音声信号に対して音声認識処理を実行し、認識単語列１６２を出力する、図４に示す連結後のニューラルネットワーク１６０を含む音声認識装置１４０とを含む。

【0028】

各機能ブロックを構成するＣＮＮは、以下のように、それらの機能に適した、互いに異なる畳み込みフィルタを持つ。

【0029】

−音声強調：時間−周波数の２次元フィルタ
−特徴抽出：時間方向の１次元フィルタ（時間微分）
−音響モデル：周波数方向の１次元フィルタ＋サブサンプリング（プーリング）
以下、これらのフィルタ構成について順に説明する。

【0030】

〈音声強調〉
図６を参照して、音声強調ＣＮＮ１７０への入力は、チャネル数をＩとして、複数チャネルの音声信号２５０−１、２５０−２、…、２５０−Ｉである。これら音声信号は、各時刻における周波数分布を示し、それが時系列として音声強調ＣＮＮ１７０に入力される。音声強調ＣＮＮ１７０のフィルタ２５２−１、２５２−２、…、２５２−Ｉ（この例では、これらフィルタはそれぞれＪ種類使用するものとする。）は、フィルタリングの対象となる時刻を中心とする、時間−周波数の２次元のフィルタである。例えばフィルタ２５２−１によるフィルタリングは、各時刻において、フィルタ中心の周波数を変化させながら（フィルタを図６における上下方向に移動させながら）、フィルタ領域内の各周波数成分に所定の係数を乗じて加算することでフィルタリングを行う。各チャネルに対して同じフィルタを適用し、各チャネルのフィルタ出力を足し合わせることでフィルタリング後の信号２６０−１が得られる。別の種類のフィルタを同じように適用することで、Ｊ個のフィルタによるＪ個の出力信号２６０−１、２６０−２、…、２６０−Ｊが得られる。これらが次の特徴抽出ＣＮＮ１７２への入力となる。

【0031】

このように複数チャネルの音声信号を入力とし、各チャネルのフィルタ出力を足し合わせることで、Delay-and-Sumビームフォーマと同等の効果が得られる。

【0032】

ここでは、音声強調ＣＮＮ１７０はフィルタ計算を１段のみ行った例を示したが、これを複数段に替えることもできる。その例を図７に示す。図７に示す音声強調ＣＮＮ２８０は、各チャネルの音声信号に複数のフィルタを適用し、それらの出力をさらに２段目のフィルタで足し合わせている。図７を参照して、この例では、第１段にＪ個のフィルタを用い、第２段にＫ個のフィルタを用いる。チャネル１に対して、第１段では２次元フィルタ２７０−１を適用し、その結果、フィルタリング後信号２７２−１が得られる。同様にチャネル１に他のフィルタを適用することで、チャネル１の第１段ではＪ個のフィルタリング後信号２７２−１、２７２−２、…、２７２−Ｊが得られる。他のチャネル２〜ＩからもそれぞれＪ個のフィルタリング後信号２７４−１〜２７４−Ｊ、…、２７６−１〜２７６−Ｊが得られる。これらフィルタ出力に対してさらに第２段のフィルタ（図示せず。本例ではＫ個のフィルタを使用するものとする。）を適用することで、第２段の出力２７８−１、２７８−２、…、２７８−Ｋが得られる。これらが次段への入力となる。

【0033】

なお、音声強調については、単独で事前学習をすることも考えられる。実際、音声強調ＣＮＮについて事前学習をしてから全体を連結して一体学習を行った方が、いずれのＣＮＮについても事前学習を行わず一体学習を行った場合よりも若干よい性能が得られる、という実験結果がある。しかし、音声強調以外のＣＮＮについては、実際の推定時に入力される信号の値が予測できないため、事前学習をしても効果はないと考えられる。

【0034】

〈特徴抽出〉
図８を参照して、特徴抽出ＣＮＮ１７２への入力が信号３３０−１、３３０−２、…、３３０−Ｊとする。特徴抽出ＣＮＮ１７２のフィルタは、対象時刻を中心とし、その時間軸方向に幅を持つ１次元フィルタ３３２−１、３３２−２、…、３３２−Ｊである。これらフィルタを周波数軸方向に移動させながらフィルタ出力を計算する。この結果、フィルタ数をＭ個とすると、特徴抽出ＣＮＮ１７２からＭ個のフィルタリング後の信号３５０−１、３５０−２、…、３５０−Ｍが得られる。これらが次段のＣＮＮ音響モデル１７４への入力となる。

【0035】

なお、この特徴抽出ＣＮＮ１７２は、通常の時間微分フィルタと同等かつ様々な特性を持つフィルタを学習可能である。図９にその変調周波数特性の例を示す。図９において左上のグラフ（「Delta window」で示す。）が通常の時間微分フィルタの特性を示す。それ以外のグラフは、特徴抽出ＣＮＮ１７２が各チャネルに対して学習した変調周波数特性の例を示す。

【0036】

〈音響モデル〉
図１０を参照して、ＣＮＮ音響モデル１７４への入力が信号３７０−１、３７０−２、…、３７０−Ｍとする。ＣＮＮ音響モデル１７４で使用されるフィルタ３７２−１、３７２−２、…、３７２−Ｍは、対象となる時間において、周波数軸方向の幅を持つ１次元フィルタである。このフィルタを周波数軸方向に移動させながらフィルタ出力を計算する。この結果、フィルタ個数をＮ個として、ＣＮＮ音響モデル１７４からはＮ個の出力信号３８０−１、３８０−２、…、３８０−Ｎが得られる。これがＷＦＳＴにおける音声認識に利用される。

【0037】

〈学習処理〉
図１１に、この実施の形態に係る音声認識装置１４０の音声強調と特徴抽出と音響モデルとの一体学習１８６をコンピュータにより実現するためのプログラムの制御構造をフローチャート形式で示す。図１１を参照して、このプログラムは、音声強調ＣＮＮの事前学習を行うステップ４００と、音声強調ＣＮＮ１７０、特徴抽出ＣＮＮ１７２、及びＣＮＮ音響モデル１７４の全体を連結するステップ４０２と、この連結後のＣＮＮに対し、終了条件が成立するまで以下の処理４１０を繰り返し実行するステップ４０４と、ステップ４０４が終了した後、確定したＣＮＮのパラメータを記憶装置に保存して処理を終了するステップ４０６とを含む。なお、ステップ４００を行わず、事前学習なしの音声強調ＣＮＮ１７０を用いても良い。

【0038】

処理４１０は、学習データセットに含まれるデータの全体を用いて、教師あり学習により連結後のニューラルネットワーク１６０の学習を行うステップ４２０と、終了条件が成立したか否かを判定するステップ４２２とを含む。この教師あり学習では、学習データのうち、入力データを音声強調ＣＮＮ１７０の入力に与え、ＣＮＮ音響モデル１７４の教師データとしてその入力データに対応する教師データを与える。

【0039】

終了条件としては種々考えられる。よく使用されるのは、ステップ４２０の学習を所定回数終了したことにより学習を終了する、又は、ステップ４２０の学習が終了した後テストデータを用いて得たニューラルネットワーク１６０の出力信号と、テストデータの教師信号を照合し、その精度が改善しなくなったときに学習を終了する、というものである。あるいは、ＣＮＮ全体のパラメータの変化を見て、学習によって生じた変動の総量が所定のしきい値以下になったときに学習を終了させるようにしてもよい。

【0040】

［実施の形態の効果］
実施の形態の効果を確認するために、以下のような評価実験を行った。実験には、雑音下音声認識用のデータベースCHiME3（http://spandh.dcs.shef.ac.uk/chime_challenge/chime2015/ より入手可能）を用いた。このデータには、実収録データ（real）と人工雑音付加データ（simu）とがあり、またパラメータ決定用の開発セット（dev）と評価セット（eval）がある。

【0041】

評価は、CNN-NIN（前掲の非特許文献２を参照）の音響モデルと、ResNet（前掲の非特許文献３を参照）の音響モデルとを用いて行った。これらは実施の形態でも用いたものである。各音響モデルの一般的な構造については各文献に説明がある。

【0042】

各音響モデルを用いて上記実施の形態に係る音声認識装置を実装し、開発セット(dev)で学習をおこない、それらの性能について評価（eval）セットを用いて評価した。評価基準は単語誤り率（WER: Word error rate）であり、値が低いほど音声認識装置の性能が高いことを示す。結果を以下のテーブル１に示す。なお、テーブル１には、比較対象の従来技術として、図１に示す雑音除去によるものと、図２に示す雑音付加学習によるものとを示してある。これらについてもCHiME3を用いて評価したものである。

【0043】

【表1】

【0044】

テーブル１から分かるように、いずれの音響モデル（CNN-NIN及びResNet）を用いた場合も、また対象音声が人工雑音付加（simu）の場合も、実収録（real）の場合も、従来技術１、２のいずれに対しても、本発明の実施の形態に係る音声認識装置の性能が非常に高いことが分かる。

【0045】

［コンピュータによる実現］
本発明の実施の形態に係るニューラルネットワーク１６０、ニューラルネットワーク１６０を含む音声認識装置１４０、及びニューラルネットワーク１６０の学習方法は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図１２はこのコンピュータシステム６３０の外観を示し、図１３はコンピュータシステム６３０の内部構成を示す。

【0046】

図１２を参照して、このコンピュータシステム６３０は、メモリポート６５２及びＤＶＤ（Digital Versatile Disk）ドライブ６５０を有するコンピュータ６４０と、キーボード６４６と、マウス６４８と、モニタ６４２とを含む。

【0047】

図１３を参照して、コンピュータ６４０は、メモリポート６５２及びＤＶＤドライブ６５０に加えて、ＣＰＵ（中央処理装置）６５６及びＧＰＧＰＵ（汎用画像処理装置）６５７と、ＣＰＵ６５６、ＧＰＧＰＵ６５７、メモリポート６５２及びＤＶＤドライブ６５０に接続されたバス６６６と、ブートプログラム等を記憶する読出専用メモリ（ＲＯＭ）６５８と、バス６６６に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）６６０と、ハードディスク６５４を含む。コンピュータシステム６３０はさらに、他端末との通信を可能とするネットワーク６６８への接続を提供するネットワークインターフェイス（Ｉ／Ｆ）６４４と、マイクロフォンアレイからのアナログの音声信号６７２を受けデジタル化してＲＡＭ６６０の所定アドレスに書き込む機能を持つ音声Ｉ／Ｆ６７０とを含む。

【0048】

コンピュータシステム６３０を上記した実施の形態に係る音声認識装置１４０及び連結後のニューラルネットワーク１６０の学習を行う学習装置の各機能部として機能させるためのコンピュータプログラムは、ＤＶＤドライブ６５０又はメモリポート６５２に装着されるＤＶＤ６６２又はリムーバブルメモリ６６４に記憶され、さらにハードディスク６５４に転送される。又は、プログラムはネットワーク６６８を通じてコンピュータ６４０に送信されハードディスク６５４に記憶されてもよい。プログラムは実行の際にＲＡＭ６６０にロードされる。ＤＶＤ６６２から、リムーバブルメモリ６６４から又はネットワーク６６８を介して、直接にＲＡＭ６６０にプログラムをロードしてもよい。

【0049】

このプログラムは、コンピュータ６４０を、上記実施の形態に係る音声認識装置１４０及び連結後のニューラルネットワーク１６０の学習を行う学習装置の各機能部として機能させるための複数の命令からなる命令列を含む。ニューラルネットワーク１６０の学習における数値演算処理は、ＣＰＵ６５６及びＧＰＧＰＵ６５７を用いて行う（ＣＰＵ６５６のみを用いてもよいがＧＰＧＰＵ６５７を用いる方が高速である。）。コンピュータ６４０にこの動作を行わせるのに必要な基本的機能のいくつかはコンピュータ６４０上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ６４０にインストールされる、ダイナミックリンク可能な各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム、装置及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット又はプログラムライブラリ内の適切なプログラムを実行時に動的に呼出すことにより、上記したシステム、装置又は方法としての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供してもよい。

【0050】

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

【符号の説明】

【0051】

３０、８０、１００、１４０音声認識装置
５０雑音が重畳した音声信号
５２、１２０、１８０音声強調部
５４、１２２強調音声信号
５６、９０、１２４特徴抽出部
５８、９２、１２６音響スペクトルパタン列
６０、１２８、１８４音声認識部
６２、９４、１６２認識単語列
６４音響モデル
６６発音辞書
６８言語モデル
１１０、１７０音声強調ＣＮＮ
１１２、１７２特徴抽出ＣＮＮ
１１４、１７４ＣＮＮ音響モデル
１６０連結後のニューラルネットワーク
１８６音声強調と特徴抽出と音響モデルの一体学習
２００音声認識システム
２２０マイクロフォンアレイ
２５０−１、２５０−２、…、２５０−Ｉ各チャネルの信号
２５２−１、２５２−２、…、２５２−Ｉ音声強調ＣＮＮのフィルタ
２６０−１、２６０−２、…、２６０−Ｊ音声強調ＣＮＮのフィルタリング後の出力信号
２７０−１、２７０−２、…、２７０−Ｉ音声強調ＣＮＮのフィルタ
２７２−１〜Ｊ、２７４−１〜Ｊ、２７６−１〜Ｊ２段音声強調ＣＮＮのフィルタリング後信号
２７８−１、２７８−２、…、２７８−Ｋ２段音声強調ＣＮＮの出力
３３２−１、３３２−２、３３２−Ｊ特徴抽出ＣＮＮのフィルタ
３７２−１、３７２−２、３７２−ＭＣＮＮ音響モデルのフィルタ

【図1】