特許第6820764号(P6820764)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人NHKエンジニアリングシステムの特許一覧

特許6820764音響モデル学習装置および音響モデル学習プログラム
<>
  • 特許6820764-音響モデル学習装置および音響モデル学習プログラム 図000003
  • 特許6820764-音響モデル学習装置および音響モデル学習プログラム 図000004
  • 特許6820764-音響モデル学習装置および音響モデル学習プログラム 図000005
  • 特許6820764-音響モデル学習装置および音響モデル学習プログラム 図000006
  • 特許6820764-音響モデル学習装置および音響モデル学習プログラム 図000007
  • 特許6820764-音響モデル学習装置および音響モデル学習プログラム 図000008
  • 特許6820764-音響モデル学習装置および音響モデル学習プログラム 図000009
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6820764
(24)【登録日】2021年1月7日
(45)【発行日】2021年1月27日
(54)【発明の名称】音響モデル学習装置および音響モデル学習プログラム
(51)【国際特許分類】
   G10L 15/16 20060101AFI20210114BHJP
   G06N 3/02 20060101ALI20210114BHJP
【FI】
   G10L15/16
   G06N3/02
【請求項の数】3
【全頁数】14
(21)【出願番号】特願2017-37421(P2017-37421)
(22)【出願日】2017年2月28日
(65)【公開番号】特開2018-141925(P2018-141925A)
(43)【公開日】2018年9月13日
【審査請求日】2020年1月10日
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(73)【特許権者】
【識別番号】591053926
【氏名又は名称】一般財団法人NHKエンジニアリングシステム
(74)【代理人】
【識別番号】110001807
【氏名又は名称】特許業務法人磯野国際特許商標事務所
(72)【発明者】
【氏名】伊藤 均
(72)【発明者】
【氏名】佐藤 庄衛
(72)【発明者】
【氏名】小林 彰夫
【審査官】 岩田 淳
(56)【参考文献】
【文献】 国際公開第2016/118257(WO,A1)
【文献】 米国特許出願公開第2016/0140956(US,A1)
【文献】 特開2016−212273(JP,A)
【文献】 AMODEI, Dario et al.,Deep Speech 2 : End-to-End Speech Recognition in English and Mandarin,Proceedings of the 33rd International Conference on Machine Learning,2016年,pp. 173-182,[2020年9月10日検索], <URL: http://proceedings.mlr.press/v48/amodei16.pdf>
【文献】 SAINATH, Tara N. et al.,LOW-RANK MATRIX FACTORIZATION FOR DEEP NEURAL NETWORK TRAINING WITH HIGH-DIMENSIONAL OUTPUT TARGETS,2013 IEEE International Conference on Acoustics, Speech and Signal Processing,2013年,pp. 6655-6659,[2020年9月10日検索], <URL: https://ieeexplore.ieee.org/document/6638949>
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−17/26
G06N 3/00− 3/12
G06N 7/08−99/00
(57)【特許請求の範囲】
【請求項1】
入力された音声が音声認識されることにより出力される文字との対応付けを学習することにより、前記入力された音声をEnd−to−endの音声認識手法を用いて文字に変換し、当該文字を出力する音響モデルを学習する音響モデル学習装置であって、
3層以上の多層構造のニューラルネットワークを有し、音声の特徴量が連続して入力され、前記多層構造の各層において、前記特徴量についての時間方向の情報を記憶し、当該時間方向の情報を用いて、前記音声の特徴量から対象とする複数の文字のいずれであるのかを予測した確率を表す特徴ベクトルを出力する深層学習手段と、
前記深層学習手段の最終層の出力である特徴ベクトルに所定の変換行列を適用することにより、前記深層学習手段の出力する特徴ベクトルの次元を所定の演算により変換する線形写像手段と、を備え、
前記深層学習手段および前記線形写像手段による演算のうちの少なくとも1つの演算で取り扱う前記特徴ベクトルの次元を圧縮することにより前記音響モデルを学習し、
前記深層学習手段は、前記特徴ベクトルの次元の圧縮を行うために、
前記多層構造の第1層および最終層を除く所定の1層において時間方向の情報を記憶するベクトルの次元数が、前記第1層および前記最終層において時間方向の情報を記憶するベクトルの次元数よりも小さく設定された状態で、前記入力される音声の特徴量から文字を予測することを特徴とする音響モデル学習装置。
【請求項2】
請求項1に記載の音響モデル学習装置において、
前記線形写像手段は、
前記深層学習手段の最終層の出力する特徴ベクトルの次元数をDL、前記線形写像手段の出力するベクトルの次元数をDAとして、
前記深層学習手段の最終層の出力する特徴ベクトルに対して、前記変換行列を適用することに代えて、前記変換行列を次の式
L×DA > DL×r+r×DA … 式(1)
を満たすランクrで行列分解して得られる2つの行列を順次適用して前記特徴ベクトルの次元の圧縮を行うことを特徴とする音響モデル学習装置。
【請求項3】
コンピュータを、請求項1または請求項に記載の音響モデル学習装置として機能させるための音響モデル学習プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響モデル学習装置および音響モデル学習プログラムに関する。
【背景技術】
【0002】
近年、音声認識の分野ではDNN(Deep Neural Network)を用いたEnd−to−end音声認識の手法がいくつか提案されている(非特許文献1、非特許文献2)。そのための音響モデル学習装置は、音声と文字の対応付けを一つの音響モデルを使って直接学習することで、音素という中間状態を経ずに音声から文字へEnd−to−endの変換を行う。End−to−end音声認識の手法において、時間方向の情報を記憶するものとしては、RNN(Recurrent Neural Network)、LSTM(Long Short-Term Memory)、またはBLSTM(Bi-directional LSTM)を用いる場合もある。
【0003】
なお、DNNの中間層の特定の層のユニット数を削減したネットワーク構造はボトルネック構造と呼ばれており、ボトルネック構造が別のDNNの入力として用いられることもある(非特許文献3参照)。ここで、ユニット数を削減することは、学習により決定すべきパラメータの数(次元数)を削減することに対応する。
【0004】
また、非特許文献4には、DNNを用いるHMM(Hidden Markov Model)による音声認識方式(DNN−HMM)の分野では、Affine変換(線形変換)の変換行列として行列分解したものを用いると、WER(Word error rate:単語認識誤り率)を低下させることなく学習時間を短縮できることが記載されている。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Amodei, D., et al.,”Deep Speech 2: End-to-End Speech Recognition in English and Mandarin” the Computing Research Repository (CoRR), arXiv:1512.02595v1 [cs.CL] 8 Dec 2015
【非特許文献2】Miao, Y., et al., "ESSEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING" the Computing Research Repository (CoRR), arXiv:1507.08240v3 [cs.CL] 18 Oct 2015
【非特許文献3】Wollmer M., et al., "FEATURE ENHANCEMENT BY BIDIRECTIONAL LSTM NETWORKS FOR CONVERSATIONAL SPEECH RECOGNITION IN HIGHLY NON-STATIONARY NOISE", 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Pages 6822-6826 (2013)
【非特許文献4】Sainath T., et al., "LOW-RANK MATRIX FACTORIZATION FOR DEEP NEURAL NETWORK TRAINING WITH HIGH-DIMENSIONAL OUTPUT TARGETS", 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Pages 6655-6659 (2013)
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、従来技術には以下のような問題点が存在した。
従来の音声認識技術の多くは、変換候補が30文字程度の英語音声認識を対象としている。日本語の場合、ひらがな、カタカナ、漢字等を合わせると変換候補の数が2000以上と膨大であり、そのため学習により決定すべきパラメータの数(パラメータをベクトルとみた場合、ベクトルの次元数)が著しく増大する。
また、従来技術では、学習により決定すべきパラメータ数(次元数)が増大すると、学習時間が増大するという問題がある。またパラメータが多すぎると細かいところまで表現し過ぎてしまって、逆により一般的で本質的な特徴を表現しきれないという問題(汎化能力の問題)もある。一方、パラメータが少なすぎると、必要な個数の文字を表現できなくなる。
【0007】
したがって、前記したRNN、LSTMまたはBLSTMといった時間方向の情報を記憶することのできるニューラルネットワークを用いる音響モデル学習装置において、学習により決定すべきパラメータ数を適切に削減することができれば、日本語音声認識にも適用可能になることが期待される。
【0008】
また、非特許文献4に記載されている研究対象とする音声認識システムでは、音響モデルとして、音素列を経由するDNN−HMMが用いられており、End−to−endの音声認識手法で用いる音響モデルをその対象とするものではない。
【0009】
本発明は、以上のような問題点に鑑みてなされたものであり、日本語音響モデルに必要な表現力があり、かつ、学習時間が短くWERが改善された音響モデル学習装置および音響モデル学習プログラムを提供することを課題とする。
【課題を解決するための手段】
【0010】
本発明は、前記課題を解決するため、音響モデル学習装置として、入力された音声が音声認識されることにより出力される文字との対応付けを学習することにより、前記入力された音声をEnd−to−endの音声認識手法を用いて文字に変換し、当該文字を出力する音響モデルを学習する音響モデル学習装置であって、3層以上の多層構造のニューラルネットワークを有し、音声の特徴量が連続して入力され、前記多層構造の各層において、前記特徴量についての時間方向の情報を記憶し、当該時間方向の情報を用いて、前記音声の特徴量から対象とする複数の文字のいずれであるのかを予測した確率を表す特徴ベクトルを出力する深層学習手段と、前記深層学習手段の最終層の出力である特徴ベクトルに所定の変換行列を適用することにより、前記深層学習手段の出力する特徴ベクトルの次元を所定の演算により変換する線形写像手段と、を備え、前記深層学習手段および前記線形写像手段による演算のうちの少なくとも1つの演算で取り扱う前記特徴ベクトルの次元を圧縮することにより前記音響モデルを学習し、前記深層学習手段は、前記特徴ベクトルの次元の圧縮を行うために、前記多層構造の第1層および最終層を除く所定の1層において時間方向の情報を記憶するベクトルの次元数が、前記第1層および前記最終層において時間方向の情報を記憶するベクトルの次元数よりも小さく設定された状態で、前記入力される音声の特徴量から文字を予測することを特徴とする構成とした。
【発明の効果】
【0011】
本発明は、以下に示す優れた効果を奏するものである。
本発明に係る音響モデル学習装置によれば、演算で取り扱うベクトルの次元圧縮処理を行うことで、音響モデルをEnd−to−endの音声認識手法を用いて学習する際に決定すべきパラメータ数が削減される。
また、本発明に係る音響モデル学習装置によれば、日本語音響モデルに必要な表現力があり、かつ、単語認識誤り率(WER)が改善され、学習時間および学習回数が著しく短縮される。
【図面の簡単な説明】
【0012】
図1】本実施形態に係る日本語音響モデル学習装置を備える日本語音声認識装置の全体の構成を示すブロック図である。
図2】End−to−end音響モデルのうちBLSTM構造をもつ標準的なネットワーク構造の一例を示す図である。
図3】第1実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造を説明する模式図である。
図4】第1実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。
図5】第2実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造のうち線形変換部分を説明する模式図である。
図6】第2実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。
図7】第3実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。
【発明を実施するための形態】
【0013】
以下、本発明の実施形態に係る日本語音響モデル学習装置について、図面を参照しながら説明する。
[日本語音声認識装置の構成]
図1に示す日本語音声認識装置1は、日本語音響モデル学習装置10と、日本語言語モデル学習装置20と、を備えている。
【0014】
日本語音響モデル学習装置10は、入力された音声と出力される文字との対応付けを学習することにより、入力された音声をEnd−to−endで文字に変換して出力する音響モデルを学習する装置である。以下では、日本語の音響モデル作成用の学習データ2を、音声2aとテキスト2bとのペアとして説明する。音声2a及びテキスト2bは、日本語の大量の音声データ及び大量のテキストを表している。例えば、音声2aとして、事前学習用の放送番組の番組音声を用い、テキスト2bとして、その番組音声の内容の厳密な書き起こし、又は、それに準ずるものを用いることができる。
【0015】
ここでは、日本語音響モデル学習装置10は、音響モデル学習手段100と、音響モデル記憶手段101と、を備えている。
【0016】
音響モデル学習手段100は、日本語の音響モデル作成用の学習データ2における音声2aとテキスト2bとのペアおよび文字ラベル(以下、単にラベルという)を用いる学習により、音声がラベルのうちどれであるか(どの文字であるか)を出力するモデル(音響モデル)のパラメータ(重み係数等)を学習し、音響モデルを音響モデル記憶手段101に記憶する。日本語に対応したラベルは、平仮名やカタカナの表音文字と、漢字の表意文字と、句読点など記号を含んでいる。以下では、記号を含むラベルのことを単に文字と呼んだり、ラベル列を文字列と呼んだりする場合もある。音響モデル学習手段100は、非特許文献2に記載されたような文字のシーケンスを特定するEnd−to−endの音響モデルの全てに適用可能なものである。
【0017】
この音響モデルは、大量の音声データから予め抽出した音響特徴量(メル周波数ケプストラム係数、フィルタバンク出力等)を、設定したラベルごとにディープニューラルネットワーク(Deep Neural Network)とコネクショニスト時系列分類法(CTC:Connectionist Temporal Classification)等によってモデル化したものである。なお、音響モデルによる音響特徴量の尤度計算は、出力が漢字を含む書記素であれば再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)であっても、長・短期記憶(LSTM:Long Short Term Memory)であっても構わない。
音響モデル記憶手段101は、音響モデル学習手段100が学習により生成した音響モデルを記憶するもので、ハードディスク等の一般的な記憶媒体である。
【0018】
以上の説明は、音響モデルが適用される2つのフェーズ(事前学習フェーズ、評価フェーズ)のうち事前学習フェーズにおける処理の説明に対応している。
一方、学習が終了した後の評価フェーズにおいては、音響モデル記憶手段101(日本語音響モデル学習装置10)に対して、学習データ2の代わりに、評価用の音声3を入力する。このとき、音響モデル学習手段100は、音響モデル記憶手段101に記憶されているところの、事前学習により生成された音響モデルを用いて、評価用の音声3を認識し、対応する文字列を出力する。
【0019】
すなわち、評価フェーズにおいては、音響モデル学習手段100は、入力された評価用の音声3を特徴量(特徴ベクトル)に変換し、この特徴量を音響モデル記憶手段101に記憶されている音響モデルを用いて、順次、ラベル(文字)に変換することで文字列を生成する文字列生成手段として機能する。
【0020】
なお、評価フェーズにおいて、評価用の音声3の代わりにその特徴量(特徴ベクトル)が入力する場合には、音響モデル学習手段100は、前記の変換処理をすることなく、入力された特徴量を、音響モデルを用いて、順次、ラベルに変換すればよい。
また、評価フェーズに対応した処理を行う文字列生成手段を別に設けて、音響モデル学習手段100には事前学習フェーズに対応した処理だけを行わせるように構成しても構わない。
【0021】
日本語言語モデル学習装置20は、日本語の大量のテキストを用いてラベルから単語列を出力する言語モデルを学習する装置である。ここでは、日本語言語モデル学習装置20は、言語モデル学習手段200と、言語モデル記憶手段201と、を備えている。
【0022】
言語モデル学習手段200は、ラベルと言語モデル用コーパス4を用いてラベルから単語列を出力するモデル(言語モデル)のパラメータを学習し、言語モデルを言語モデル記憶手段201に記憶する。言語モデル用コーパス4は、自然言語の文章を大規模に集積したコーパスである。言語モデル用コーパス4は、音響モデル作成用の学習データ2のテキスト2bに比べて大量のデータからなる。
【0023】
言語モデル記憶手段201は、言語モデル学習手段200が学習により生成した言語モデルを記憶するものであって、ハードディスク等の一般的な記憶媒体である。
言語モデル記憶手段201に記憶されている言語モデルは、非特許文献2に記載されたモデルのように、音響モデル記憶手段101に対して評価用の音声3またはその特徴量を入力して得られた表意文字を含む文字列を入力として、前後の単語の関係から単語列を推定し、推定結果である単語列を出力するモデルの全てに適用可能なものである。言語モデルは、大量のテキストから予め学習した出力系列(単語等)の出現確率等をモデル化したものであり、例えば、一般的なNグラム言語モデルを用いることができる。
【0024】
評価フェーズにおいて、日本語音響モデル学習装置10に記憶されている学習済みのパラメータを有する音響モデルに音声3またはその特徴量が連続的に入力されると、それに対応する文字列が連続的に出力され、言語モデル記憶手段201(日本語言語モデル学習装置20)に入力する。このとき、言語モデル学習手段200は、言語モデル記憶手段201に記憶されている学習済みのパラメータを有する言語モデルを用いて、入力される文字列から自然な日本語の文章としての認識結果5(単語列)を出力する。
すなわち、評価フェーズにおいては、言語モデル学習手段200は、言語モデル記憶手段201に記憶されている言語モデルを用いて、入力された文字列を、順次、単語に変換することで単語列を生成する単語列生成手段として機能する。なお、評価フェーズに対応した処理を行う単語列生成手段を別に設けて、言語モデル学習手段200には事前学習フェーズに対応した処理だけを行わせるように構成しても構わない。
【0025】
[日本語音響モデル学習装置10の構成]
日本語音響モデル学習装置10の音響モデル学習手段100で用いる音響モデルのネットワーク構造を説明する前に、End−to−end音響モデルのネットワーク構造について図2を参照して説明する。図2にはBLSTM構造をもつ標準的なネットワーク構造の一例が示されているが、LSTMを用いて実現したものやLSTM構造を持たない一般的なRNNに対しても本発明が同様に適用可能である。
【0026】
図2に示すように、この標準的なネットワーク構造を用いて音響モデルを学習する音響モデル学習手段100Rは、深層学習手段111Rと、線形写像手段112と、正規化手段113とを備えている。
深層学習手段111Rは、第1層のBLSTM30aと、第2層のBLSTM30bと、第3層のBLSTM30cと、で構成されている。深層学習手段111Rは、音声を入力とし、音声がラベルのうちどれであるかを学習する手段である。ここでは3層構造としたが、深層学習手段111Rは、4層以上の多層構造のニューラルネットワークであっても構わない。深層学習手段111Rは、音声の特徴量が連続して入力され、多層構造の各層において、音声の特徴量についての時間方向の情報を記憶し、当該時間方向の情報を用いて、音声の特徴量から対象とする複数の文字のいずれであるのかを予測した確率を表す特徴ベクトルを出力する。深層学習手段111Rは、その内部構造をパラメータにより定義することができる。BLSTM構造の場合、パラメータは、層数とメモリセルである。メモリセルは、LSTM構造において、時間方向の情報を記憶するベクトルの次元数を決定するパラメータ、言い換えれば、時間軸上どこまで離れたデータを計算に取り込むかの長さを表している。なお、LSTM構造におけるメモリセルについては、非特許文献2に詳述されているので、ここでは説明を省略する。
【0027】
図2に示した音響モデル学習手段100Rの場合、深層学習手段111Rの各層のBLSTM30a,30b,30cはいずれも同一の規模である。具体的には、各層のBLSTMは、いずれも出力する特徴ベクトルの次元は640次元である。各BLSTM30a,30b,30cが有する前方の時間方向情報を記憶するメモリセルと、後方の時間方向情報を記憶するメモリセルも同一サイズであり(2つのメモリセルがそれぞれC=320)、いずれも320次元のベクトルを出力する。なお、メモリセルCの数値320は1つのメモリセルCのメモリ容量に対応している。この数値に依存して各層のメモリセルが出力する特徴ベクトルの次元数が変わる。
深層学習手段111Rは、120次元の音声の特徴量(特徴ベクトル)6を入力として、その最終層のBLSTM30cから640次元の特徴ベクトルを出力する。
【0028】
線形写像手段112は、深層学習手段111によって各パラメータ(BLSTM構造の場合、層数、メモリセル)により定義された次元数で表現される音響特徴量(特徴ベクトル)を入力とする。線形写像手段112は、この特徴ベクトルを入力として、所定の変換行列を適用することにより、深層学習手段111の出力する特徴ベクトルの次元を所定の演算により変換する。すなわち、線形写像手段112はBLSTM30cの出力する特徴ベクトルの次元を文字出力ベクトル7の次元に変換する。ここで、線形写像手段112は、BLSTM30cの出力ベクトルに対して単一のAffine変換行列を適用する。具体的には、線形写像手段112は、BLSTM30cから入力される640次元の特徴ベクトルに640行2934列の行列(以下、640*320の行列と表記する。以下同様)を乗算して、2934次元のベクトルを出力する。ここで、2934は、識別対象としている日本語のひらがな、カタカナ、漢字、記号の個数である。線形写像手段112の出力するベクトルは正規化手段113へ入力する。
【0029】
正規化手段113は、線形写像手段112によって調整された次元の目的関数の正規化を行うものである。正規化手段113は、Softmax関数を用いて、線形写像手段112によって調整された次元の目的関数の正規化を行って2934次元の文字出力ベクトル7として出力する。これにより、最終的に2934ラベルの識別を行うことができる。なお、この音声認識で識別しようとするアウトプットの個数(文字の個数=2934)を変えれば、それに依存して、学習により決定すべきパラメータ数(次元数)も変わる。
【0030】
(第1実施形態)
図3は第1実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造を説明する模式図である。ここでは、図2を参照して説明した、同一規模の3層の深層学習手段111RをN層に一般化して深層学習手段111と表記する。深層学習手段111は、層数がN(N≧3)であるものとしている。また、図2のBLSTMのことを、Fw−LSTMとBw−LSTMのペアで図示して説明する。なお、この深層学習手段111の次元数は、層数Nが一定値であれば、メモリセルCに依存する。
【0031】
第1実施形態に係る日本語音響モデル学習装置10の音響モデル学習手段100(図1)は、図3の深層学習手段111の第1層における前方(Fw)のLSTMには、メモリセルCが設定されており、後方(Bw)のLSTMにもメモリセルCが設定されている。
同様に、深層学習手段111の第N層における前方(Fw)のLSTMには、メモリセルCが設定されており、後方(Bw)のLSTMにもメモリセルCが設定されている。
一方、深層学習手段111の第1層と第N層を除く所定の第n層においては、前方(Fw)のLSTMには、メモリセルc(c<C)が設定されており、後方(Bw)のLSTMにもメモリセルc(c<C)が設定されている。
さらに、第1層、第n層、第N層以外のその他の層では、前方(Fw)のLSTMには、メモリセルCが設定されており、後方(Bw)のLSTMにもメモリセルCが設定されている。
【0032】
つまり、深層学習手段111を構成するN層のBLSTM(Fw−LSTMとBw−LSTMのペア)のうち、第1層と第N層を除く所定の第n層におけるメモリセルcは、符号301で示すように、他の層のメモリセルCよりも小さく設定されている。
したがって、第n層の出力する特徴ベクトルの次元は、他の層から出力する特徴ベクトルの次元よりも縮小され、音響モデルのネットワーク構造の次元圧縮(ボトルネック構造)が実現される。これにより、深層学習手段111による演算で取り扱う特徴ベクトルの次元を圧縮することができる。なお、図3では、Fw−LSTMおよびBw−LSTMをそれぞれ表すブロックの横幅でメモリセルの大小を表している。
【0033】
図4は第1実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。
図4に示すように、第1実施形態に係る音響モデル学習手段100Aは、一例として層数Nを3とした深層学習手段111Aと、線形写像手段112と、正規化手段113とを備えている。なお、図2に示した音響モデル学習手段100Rと同じ構成には同じ符号を付して説明を省略する。
深層学習手段111Aは、第1層のBLSTM30aと、第2層のBLSTM30dと、第3層のBLSTM30cと、で構成されている。
第1層のBLSTM30aおよび最終層(第3層)のBLSTM30cは、いずれも出力する特徴ベクトルの次元は640次元であり、それぞれの層において2つのメモリセルがそれぞれC=320である。
一方、第2層のBLSTM30dは、出力する特徴ベクトルの次元は320次元であり、2つのメモリセルがそれぞれc=160である。
【0034】
また、音響モデル学習手段100Aで用いる音響モデルのネットワーク構造は、BLSTM構造に限らず、LSTMを用いて実現したものや、LSTM構造を持たない、より一般的なRNNに対しても、時間軸上どこまで離れたデータを計算に取り込むかの長さを設定することができるものであれば同様に適用可能である。
第1実施形態に係る日本語音響モデル学習装置10によれば、深層学習手段111Aの演算で取り扱う特徴ベクトルの次元を圧縮することにより音響モデルのネットワーク構造の次元圧縮を実現し、これによって、音響モデルの学習により決定すべきパラメータ数が削減される。
【0035】
(第2実施形態)
図5は第2実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造のうち、線形変換部分を説明する模式図である。ここでは、図2の音響モデル学習手段100Rにおいて、線形写像手段112へ入力する特徴ベクトルが仮に4次元であり、出力される文字を表すベクトルが100次元であるものとして説明する。図2の音響モデル学習手段100Rによれば、線形写像手段112によって、図5(a)に示すように、入力される4次元ベクトル(1*4の行列)に対して、4*100の行列が乗算されて100次元のベクトル(1*100の行列)が出力される。この場合、入力される4次元ベクトルに対して乗算される行列の要素数は4×100=400である。この行列の要素数は、音響モデルの学習により決定すべきパラメータ数(次元数)の大小の目安となる。
【0036】
第2実施形態に係る日本語音響モデル学習装置10の音響モデル学習手段100(図1)は、図2に示した音響モデル学習手段100Rの線形写像手段112において演算で取り扱う特徴ベクトルの次元を圧縮することで、音響モデルのネットワーク構造の次元圧縮を実現するものである。具体例で説明すると、第2実施形態によれば、図5(a)に示した4*100の行列を乗算することに代えて、図5(b)に示すように、それをランクr=2で行列分解して得られる2つの行列、すなわち、4*2の行列および2*100の行列を順次乗算する。この場合、行列の要素数の合計は4×2+2×100=208となり、音響モデルの学習により決定すべきパラメータ数が、図5(a)の場合の要素数である400と比べて大幅に削減される。
【0037】
図2に示した音響モデル学習手段100Rを用いて、深層学習手段111Rの出力する特徴ベクトルの次元数、および、線形写像手段112の出力するベクトルの次元数について、より一般化して説明する。ここで、深層学習手段111Rの最終層であるBLSTM30cの出力する特徴ベクトルの次元数をDL、線形写像手段112の出力するベクトルの次元数をDAとすると、線形写像手段112でのパラメータ数PAは、次の式(a)で表される。なお、式(a)において、右辺第1項は線形変換部分(変換行列)を表し、右辺第2項は平行移動成分(バイアス)を表している。
【0038】
A=DL×DA+DA … 式(a)
【0039】
このような線形写像手段112の変換行列を低ランクrで行列分解すると、このときのパラメータ数Prは、次の式(b)で表される。
【0040】
r=DL×r+r×DA+DA … 式(b)
【0041】
ここで、低ランクrが、次の式(1)を満たすときPA>Prとなり、行列分解によりパラメータ数(次元数)を削減できる。
【0042】
L×DA > DL×r+r×DA … 式(1)
【0043】
図6は第2実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。
図6に示すように、第2実施形態に係る音響モデル学習手段100Bは、深層学習手段111Rと、線形写像手段112Bと、正規化手段113とを備えている。なお、図2に示した音響モデル学習手段100Rと同じ構成には同じ符号を付して説明を省略する。
線形写像手段112Bは、第1線形写像手段40と、第2線形写像手段42と、を備えている。
第1線形写像手段40は、深層学習手段111Rの最終層(第3層)であるBLSTM30cから入力される640次元の特徴ベクトルに対して、640*320の行列を乗算して320次元のベクトルを出力する。
第2線形写像手段42は、第1線形写像手段40から入力される320次元の特徴ベクトルに対して、320*2934の行列を乗算して2934次元のベクトルを出力する。第2線形写像手段42の出力するベクトルは、正規化手段113へ入力する。
【0044】
この具体例について図6図2とを対比して説明する。
図2に示した音響モデル学習手段100Rの場合、すなわち、線形写像手段112が行列分解を行わない場合、線形写像手段112が入力ベクトルに対して乗算する行列に着目すると、その行列の要素数は、
640×2934=1,877,760 である。
【0045】
一方、第2実施形態に係る音響モデル学習手段100Bの場合、すなわち、線形写像手段112Bが行列分解を行う場合、行列分解された各行列の要素数の合計は減少する。具体的には、第1線形写像手段40が入力ベクトルに対して乗算する行列の要素数と、第2線形写像手段42が入力ベクトルに対して乗算する行列の要素数との合計は、
640×320+320×2934=1,143,680 である。
【0046】
したがって、第2実施形態に係る日本語音響モデル学習装置10によれば、線形写像手段112Bが行列分解を行って線形写像手段112Bの演算で取り扱う特徴ベクトルの次元を圧縮することにより音響モデルのネットワーク構造の次元圧縮を実現し、これによって、音響モデルの学習により決定すべきパラメータ数が大幅に削減される。
また、線形写像手段112Bが備える第1線形写像手段40の出力するベクトルの次元が320次元まで圧縮されており、汎化能力が高まることが期待される。
【0047】
(第3実施形態)
第3実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造は、第1および第2実施形態を組み合わせたネットワーク構造である。すなわち、図2に示した深層学習手段111Rの第2層をBLSTM30dと置換することでボトルネック構造の深層学習手段111Aを備えると共に、図2に示した線形写像手段112を行列分解を行うことのできる線形写像手段112Bと置換することで、音響モデルのネットワーク構造の次元圧縮を実現するものである。図7は第3実施形態に係る音響モデル学習手段で用いる音響モデルのネットワーク構造の一例を示す図である。
【0048】
図7に示すように、第3実施形態に係る音響モデル学習手段100Cは、一例として層数Nを3とした深層学習手段111Aと、線形写像手段112Bと、正規化手段113とを備えている。図7において、図2図4および図6を参照して説明した構成要素と同じ構成要素には同じ符号を付し、これ以上の説明を省略する。
第3実施形態に係る日本語音響モデル学習装置10によれば、深層学習手段111Aおよび線形写像手段112Bの双方の演算で取り扱う特徴ベクトルの次元を圧縮することにより音響モデルのネットワーク構造の次元圧縮を実現し、これによって、音響モデルの学習により決定すべきパラメータ数が削減される。
【0049】
以上、本発明の各実施形態について説明したが、本発明はこれらに限定されるものではなく、その趣旨を変えない範囲で実施することができる。例えば、前記各実施形態では、日本語音響モデル学習装置として説明したが、各装置の構成の処理を可能にするように、汎用又は特殊なコンピュータ言語で記述した日本語音響モデル学習プログラムとみなすことも可能である。
【実施例】
【0050】
各実施形態に係る日本語音響モデル学習装置の性能を確かめるために、各実施形態にそれぞれ対応した複数のネットワーク構造について学習した各モデルの音声認識実験結果を比較した。評価音声には、総合テレビの情報番組『ひるまえほっと』2013年6月放送分の番組音声(32k単語=32,000単語)を用いた。各手法とも学習データは、放送音声と字幕のペア1023時間、入力特徴量はFilter bank40次元+delta+deltadeltaの計120次元を用いた。言語モデルにはNHK(登録商標)の原稿や過去番組の字幕等のべ6.2億単語から学習した語彙200kのモデルを利用した。学習に用いたネットワークは、図2の標準的な構造と、図4図6および図7の3つの構造であり、各学習結果を比較した。その結果を表1に示す。
【0051】
【表1】
【0052】
表1によれば、図2の標準的な構造と比較して、いずれの実施形態においても単語認識誤り率(WER)が改善され、学習時間および学習回数が著しく短縮された。
詳細には、Affine変換の行列分解を行う手法、すなわち、線形写像手段112Bにおいて次元を圧縮する第2実施形態および第3実施形態において、WERがより改善されており、汎化能力がより高められている。このうち、Affine変換の行列分解のみを適用したモデル、すなわち、第2実施形態では、WERが、図2の標準的な構造を用いる手法より20.2%改善した。これは、漢字の読み相当の次元数(=320)まで一度次元を圧縮したことで、モデルの汎化能力が向上したためと考えられる。
【0053】
また、BLSTM部分のパラメータを削減する手法、すなわち、深層学習手段111Aにおいて次元を圧縮する第1実施形態および第3実施形態において、学習時間の短縮効果がより大きくなった。このうち、ボトルネック構造と行列分解の両方を採用したモデル、すなわち、第3実施形態では、学習1回あたりの平均学習時間が、図2の標準的な構造を用いる手法より9.3%改善した。これは各実施形態で削減したBLSTMの次元は時間方向に影響するものであるため、Affine変換の行列分解に比べ更に学習時間の短縮効果が得られたと考えられる。
【符号の説明】
【0054】
1 日本語音声認識装置
10 日本語音響モデル学習装置
100,100A,100B,110C 音響モデル学習手段
101 音響モデル記憶手段
111,111A,111R 深層学習手段
112,112B 線形写像手段
113 正規化手段
30a,30b,30c,30d BLSTM
40 第1線形写像手段
42 第2線形写像手段
図1
図2
図3
図4
図5
図6
図7