(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6751322
(24)【登録日】2020年8月18日
(45)【発行日】2020年9月2日
(54)【発明の名称】音響モデル生成装置及び方法、音声認識装置及び方法
(51)【国際特許分類】
G10L 15/065 20130101AFI20200824BHJP
G10L 15/06 20130101ALI20200824BHJP
G10L 15/16 20060101ALI20200824BHJP
【FI】
G10L15/065 A
G10L15/06 500L
G10L15/16
【請求項の数】31
【全頁数】20
(21)【出願番号】特願2016-175350(P2016-175350)
(22)【出願日】2016年9月8日
(65)【公開番号】特開2017-54122(P2017-54122A)
(43)【公開日】2017年3月16日
【審査請求日】2018年10月31日
(31)【優先権主張番号】10-2015-0128456
(32)【優先日】2015年9月10日
(33)【優先権主張国】KR
(73)【特許権者】
【識別番号】390019839
【氏名又は名称】三星電子株式会社
【氏名又は名称原語表記】Samsung Electronics Co.,Ltd.
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】李 鎬 式
(72)【発明者】
【氏名】崔 喜 烈
【審査官】
上田 雄
(56)【参考文献】
【文献】
特開2004−206063(JP,A)
【文献】
特開2002−132289(JP,A)
【文献】
特開2014−157323(JP,A)
【文献】
国際公開第2011/010647(WO,A1)
【文献】
米国特許出願公開第2015/0046377(US,A1)
【文献】
SELTZER, M., et al.,An investigation of deep neural networks for noise robust speech recognition,2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),IEEE,2013年 5月26日,pp. 7398-7402
【文献】
GIRI, R., et al.,Improving speech recognition in reverberation using a room-aware deep neural network and multi-task learning,2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),IEEE,2015年 4月19日,pp. 5014-5018
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−15/34
(57)【特許請求の範囲】
【請求項1】
ノイズモデルを用いてノイズデータを代表するノイズ表現を算出し、かつ、音声データと前記ノイズデータとを含む訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて、学習を通じて、かつ、マルチタスクラーニング技法を用いて、音響モデルを生成する、プロセッサ、
を含む、音響モデル生成装置。
【請求項2】
命令を保存するメモリをさらに含み、
前記プロセッサは、
前記ノイズモデルを用いてノイズデータを代表するノイズ表現を算出し、かつ、前記音声データと前記ノイズデータとを含む前記訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて、学習を通じて音響モデルを生成する、ように構成された命令を実行する、
請求項1に記載の音響モデル生成装置。
【請求項3】
前記プロセッサは、
前記ノイズモデルを用いてノイズデータを代表するノイズ表現を算出するノイズ表現算出部と、
前記音声データと前記ノイズデータとを含む前記訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて、学習を通じて音響モデルを生成する音響モデル生成部と、
を含む、請求項1または2に記載の音響モデル生成装置。
【請求項4】
前記ノイズ表現算出部は、
前記ノイズデータの特徴を抽出する特徴抽出部と、
前記ノイズモデルを用いて、前記抽出された特徴から前記ノイズデータを代表するノイズ表現を算出するノイズモデリング部と、
を含む、請求項3に記載の音響モデル生成装置。
【請求項5】
前記ノイズモデルは、訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ生成される、
請求項1乃至4いずれか一項に記載の音響モデル生成装置。
【請求項6】
前記生成された音響モデルは、神経網基盤の音響モデルである、
請求項3に記載の音響モデル生成装置。
【請求項7】
前記プロセッサは、第1目的関数と第2目的関数との加重和から獲得される第3目的関数を用いて、前記音響モデルを生成し、
前記第1目的関数は、音素確率の推定に用いられ、
前記第2目的関数は、ノイズ表現の推定に用いられる、
請求項1に記載の音響モデル生成装置。
【請求項8】
前記音響モデル生成部は、
前記音声データと前記ノイズデータとを混合して訓練用ノイジー音声データを生成する混合部と、
前記生成された訓練用ノイジー音声データの特徴を抽出する特徴抽出部と、
前記抽出された特徴、前記音声データに対応する音素列、及び前記ノイズ表現に基づいて音響モデルを学習する音響モデル学習部と、
を含む、請求項3に記載の音響モデル生成装置。
【請求項9】
ノイズモデルを用いてノイズデータのノイズ表現を算出する段階と、
音声データと前記ノイズデータとを含む訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて、学習を通じて、かつ、マルチタスクラーニング技法を用いて、音響モデルを生成する段階と、
を含む、音響モデル生成方法。
【請求項10】
前記ノイズ表現を算出する段階は、
前記ノイズデータの特徴を抽出する段階と、
前記ノイズモデルを用いて、前記抽出されたノイズデータの特徴に基づいて前記ノイズ表現を算出する段階と、
を含む、請求項9に記載の音響モデル生成方法。
【請求項11】
前記ノイズモデルは、訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ生成される、
請求項9または10に記載の音響モデル生成方法。
【請求項12】
前記生成された音響モデルは、神経網基盤の音響モデルである、
請求項9に記載の音響モデル生成方法。
【請求項13】
前記音響モデルを生成する段階は、
第1目的関数と第2目的関数との加重和から獲得される第3目的関数を用いて、前記音響モデルを生成する段階を含み、
前記第1目的関数は、音素確率の推定に用いられ、
前記第2目的関数は、前記ノイズ表現の推定に用いられる、
請求項9に記載の音響モデル生成方法。
【請求項14】
前記音響モデルを生成する段階は、
前記音声データと前記ノイズデータとを混合して訓練用ノイジー音声データを生成する段階と、
前記生成された訓練用ノイジー音声データの特徴を抽出する段階と、
前記抽出された特徴、前記音声データに対応する音素列、及び前記ノイズ表現に基づいて音響モデルを学習する段階と、
を含む、請求項9に記載の音響モデル生成方法。
【請求項15】
音響モデルを保存する保存部と、
前記保存された音響モデルを用いて入力されたノイジー音声データの音素確率を算出する算出部と、を含み、
前記音響モデルは、音声データとノイズデータとが混合された訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズデータを代表するノイズ表現を用いて、学習を通じて、かつ、マルチタスクラーニング技法を用いて、生成される、音声認識装置。
【請求項16】
前記算出部は、
前記入力されたノイジー音声データの特徴を抽出する特徴抽出部と、
前記音響モデルを用いて、前記抽出された特徴に対応する音素の確率を算出する音素確率算出部と、
を含む、請求項15に記載の音声認識装置。
【請求項17】
前記ノイズ表現は、ノイズモデルを用いて算出される、
請求項15に記載の音声認識装置。
【請求項18】
前記ノイズモデルは、訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ生成される、
請求項17に記載の音声認識装置。
【請求項19】
前記音響モデルは、神経網基盤の音響モデルである、
請求項15に記載の音声認識装置。
【請求項20】
前記音響モデルは、第1目的関数と第2目的関数との加重和から獲得された第3目的関数を用いて生成され、
前記第1目的関数は、音素確率の推定に用いられ、
前記第2目的関数は、前記ノイズ表現の推定に用いられる、
請求項15に記載の音声認識装置。
【請求項21】
前記音響モデルは、前記訓練用ノイジー音声データを入力データとし、前記音声データに対応する音素列及び前記ノイズ表現を正答データとして、学習を通じて生成される、
請求項15に記載の音声認識装置。
【請求項22】
入力されたノイジー音声データの特徴を抽出する段階と、
音響モデルを用いて、前記抽出された特徴に対応する音素の確率を算出する段階と、を含み、
前記音響モデルは、音声データとノイズデータとが混合された訓練用ノイジー音声、前記音声データに対応する音素列、及び前記ノイズデータを代表するノイズ表現を用いて、学習を通じて、かつ、マルチタスクラーニング技法を用いて、生成される、音声認識方法。
【請求項23】
前記ノイズ表現は、ノイズモデルを用いて算出される、
請求項22に記載の音声認識方法。
【請求項24】
前記ノイズモデルは、訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ生成される、
請求項23に記載の音声認識方法。
【請求項25】
前記音響モデルは、神経網基盤の音響モデルである、
請求項22に記載の音声認識方法。
【請求項26】
前記音響モデルは、第1目的関数と第2目的関数との加重和から獲得された第3目的関数を用いて生成され、
前記第1目的関数は、音素確率の推定に用いられ、
前記第2目的関数は、前記ノイズ表現の推定に用いられる、
請求項22に記載の音声認識方法。
【請求項27】
前記音響モデルは、訓練用ノイジー音声データを入力データとし、前記音声データに対応する音素列及び前記ノイズ表現を正答データとして、学習を通じて生成される、
請求項22に記載の音声認識方法。
【請求項28】
音声データとノイズデータとを混合して訓練用ノイジー音声データを生成する混合部と、
他のノイズデータから音響モデル訓練用ノイジー音声データを区分して、前記ノイジー音声データから特徴を抽出する特徴抽出部と、
前記抽出された特徴、前記音声データに対応する音素列、及び前記ノイズデータを代表するノイズ表現に基づいて音響モデルを学習する音響モデル学習部と、を含み、
音素分類とノイズ表現の抽出が同時に行われるように音響モデルを学習し、かつ、マルチタスクラーニング技法を用いて、音響モデルを生成する、
音響モデル生成装置。
【請求項29】
特徴の入力を受信し、訓練用音声データの受信された入力に基づいて入力表現を算出し、入力表現に基づいて入力と最も類似した出力を再構成するオートエンコーダを、
さらに含む、請求項28に記載の音響モデル生成装置。
【請求項30】
前記オートエンコーダは、訓練用ノイズデータを用いてノイズモデルをあらかじめ生成する請求項29に記載の音響モデル生成装置。
【請求項31】
前記生成された音響モデルは、神経網基盤の音響モデルである、
請求項28に記載の音響モデル生成装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識技術に関し、特に、音響モデル生成装置及び方法、音声認識装置及び方法に関する。
【背景技術】
【0002】
最近の音声認識技術は、過去と比較して多くの注目を受けている状況である。その理由は、音声認識技術が具現される場合、インターネット情報利用や電子商取引、各種のユビキタス環境をより便利に音声を通じて操作し、かつ手を使いにくい車両運行のような場合にも、インターネットにアクセスするか、事務やその他のサービスを利用できて、ユーザの多様なニーズ(needs)を充足させるためである。
【0003】
音声認識技術で重要な問題の1つは、周辺環境によって発生するノイズを効率的に除去することである。このような周辺環境によって生成されたノイズによって発生する、訓練環境と実際の音声認識環境との間の不一致は、音声認識システムの音声認識性能を低下させる主要原因の1つである。
【0004】
したがって、多様なノイズを含む実際の音声認識環境で使われるノイズに頑健な(robust)音響モデル生成技術の必要性が台頭している。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明が解決しようとする課題は、音響モデル生成装置及び方法、音声認識装置及び方法を提供するところにある。
【課題を解決するための手段】
【0006】
ノイズに頑健な音響モデル生成装置及び方法と、ノイズに頑健な音響モデルを用いる音声認識装置及び方法と、を提供することを目的とする。
【0007】
一態様による音響モデル生成装置は、ノイズモデルを用いてノイズデータを代表するノイズ表現(noise representation)を算出し、音声(speech)データと前記ノイズデータとを含む訓練用ノイジー音声(training noisy speech)データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて、学習を通じて音響モデルを生成するプロセッサを含み得る。
【0008】
音響モデル生成装置は、命令(instructions)を保存するメモリをさらに含み、前記プロセッサは、前記ノイズモデルを用いてノイズデータを代表するノイズ表現を算出し、前記音声データと前記ノイズデータとを含む前記訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて、学習を通じて音響モデルを生成するように、前記プロセッサを構成する命令を実行することができる。
【0009】
前記プロセッサは、前記ノイズモデルを用いてノイズデータを代表するノイズ表現を算出するノイズ表現算出部と、前記音声データと前記ノイズデータとを含む前記訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて、学習を通じて音響モデルを生成する音響モデル生成部と、を含み得る。
【0010】
前記ノイズ表現算出部は、前記ノイズデータの特徴(feature)を抽出する特徴抽出部と、前記ノイズモデルを用いて、前記抽出された特徴から前記ノイズデータを代表するノイズ表現を算出するノイズモデリング部と、を含み得る。
【0011】
前記ノイズモデルは、訓練用ノイズ(training noise)データを用いてオートエンコーダ(Auto−encoder)を通じてあらかじめ生成され得る。
前記生成された音響モデルは、神経網基盤の音響モデルであり得る。
【0012】
前記プロセッサは、マルチタスクラーニング(Multi−Task Learning)技法を用いて前記音響モデルを生成することができる。
【0013】
前記プロセッサは、第1目的関数と第2目的関数との加重和から獲得される第3目的関数を用いて、前記音響モデルを生成し、前記第1目的関数は、音素確率の推定に用いられ、前記第2目的関数は、ノイズ表現の推定に用いられ得る。
【0014】
前記音響モデル生成部は、前記音声データと前記ノイズデータとを混合して訓練用ノイジー音声データを生成する混合部と、前記生成された訓練用ノイジー音声データの特徴を抽出する特徴抽出部と、前記抽出された特徴、前記音声データに対応する音素列、及び前記ノイズ表現に基づいて音響モデルを学習する音響モデル学習部と、を含み得る。
【0015】
他の態様による音響モデル生成方法は、ノイズモデルを用いてノイズデータのノイズ表現を算出する段階と、音声データと前記ノイズデータとを含む訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて音響モデルを生成する段階と、を含み得る。
【0016】
前記ノイズ表現を算出する段階は、前記ノイズデータの特徴を抽出する段階と、前記ノイズモデルを用いて、前記抽出されたノイズデータの特徴に基づいて前記ノイズ表現を算出する段階と、を含み得る。
【0017】
前記ノイズモデルは、訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ生成され得る。
【0018】
前記生成された音響モデルは、神経網基盤の音響モデルであり得る。
【0019】
前記音響モデルを生成する段階は、マルチタスクラーニング技法を用いて前記音響モデルを生成することができる。
【0020】
前記音響モデルを生成する段階は、第1目的関数と第2目的関数との加重和から獲得される第3目的関数を用いて、前記音響モデルを生成する段階を含み、前記第1目的関数は、音素確率の推定に用いられ、前記第2目的関数は、前記ノイズ表現の推定に用いられ得る。
【0021】
前記音響モデルを生成する段階は、前記音声データと前記ノイズデータとを混合して訓練用ノイジー音声データを生成する段階と、前記生成された訓練用ノイジー音声データの特徴を抽出する段階と、前記抽出された特徴、前記音声データに対応する音素列、及び前記ノイズ表現に基づいて音響モデルを学習する段階と、を含み得る。
【0022】
さらに他の態様による音声認識装置は、音響モデルを保存する保存部と、前記保存された音響モデルを用いて入力されたノイジー音声データの音素確率を算出する算出部と、を含み、前記音響モデルは、音声データとノイズデータとが混合された訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズデータを代表するノイズ表現を用いて、学習を通じて生成され得る。
【0023】
前記算出部は、前記入力されたノイジー音声データの特徴を抽出する特徴抽出部と、前記音響モデルを用いて、前記抽出された特徴に対応する音素の確率を算出する音素確率算出部と、を含み得る。
【0024】
前記ノイズ表現は、ノイズモデルを用いて算出される。
【0025】
前記ノイズモデルは、訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ生成され得る。
【0026】
前記音響モデルは、神経網基盤の音響モデルであり得る。
【0027】
前記音響モデルは、マルチタスクラーニング技法を用いて生成され得る。
前記音響モデルは、第1目的関数と第2目的関数との加重和から獲得された第3目的関数を用いて生成され、前記第1目的関数は、音素確率の推定に用いられ、前記第2目的関数は、前記ノイズ表現の推定に用いられ得る。
【0028】
前記音響モデルは、前記訓練用ノイジー音声データを入力データとし、前記音声データに対応する音素列及び前記ノイズ表現を正答(target)データとして、学習を通じて生成され得る。
【0029】
さらに他の態様による音声認識方法は、入力されたノイジー音声(noisy speech)データの特徴を抽出する段階と、音響モデルを用いて、前記抽出された特徴に対応する音素の確率を算出する段階と、を含み、前記音響モデルは、音声データとノイズデータとが混合された訓練用ノイジー音声、前記音声データに対応する音素列、及び前記ノイズデータを代表するノイズ表現を用いて、学習を通じて生成され得る。
【0030】
前記ノイズ表現は、ノイズモデルを用いて算出される。
【0031】
前記ノイズモデルは、訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ生成され得る。
【0032】
前記音響モデルは、神経網基盤の音響モデルであり得る。
【0033】
前記音響モデルは、マルチタスクラーニング技法を用いて生成され得る。
前記音響モデルは、第1目的関数と第2目的関数との加重和から獲得された第3目的関数を用いて生成され、前記第1目的関数は、音素確率の推定に用いられ、前記第2目的関数は、前記ノイズ表現の推定に用いられ得る。
【0034】
前記音響モデルは、前記訓練用ノイジー音声データを入力データとし、前記音声データに対応する音素列及び前記ノイズ表現を正答データとして、学習を通じて生成され得る。
【0035】
さらに他の態様による音響モデル生成装置は、音声データとノイズデータとを混合して訓練用ノイジー音声データを生成する混合部と、他のノイズデータから音響モデル訓練用ノイジー音声データを区分して、前記ノイジー音声データから特徴を抽出する特徴抽出部と、前記抽出された特徴、前記音声データに対応する音素列、及び前記ノイズ表現に基づいて音響モデルを学習する音響モデル学習部と、を含み、音素分類(phoneme classification)とノイズ表現の抽出が同時に行われる。
【0036】
音響モデル生成装置は、特徴の入力を受信し、訓練用音声データの受信された入力に基づいて入力表現を算出し、入力表現に基づいて入力と最も類似した出力を再構成するオートエンコーダをさらに含み得る。
【0037】
前記オートエンコーダは、訓練用ノイズデータを用いて前記ノイズモデルをあらかじめ生成することができる。
【0038】
前記生成された音響モデルは、神経網基盤の音響モデルであり得る。
【図面の簡単な説明】
【0039】
【
図1】音響モデル生成装置の一実施形態を示すブロック図である。
【
図2】ノイズモデルの生成を説明する例示図である。
【
図4】音声認識装置の一実施形態を示すブロック図である。
【
図5】音響モデル生成方法の一実施形態を示すフローチャートである。
【
図6】
図5のノイズ表現を算出する方法の例を示すフローチャートである。
【
図7】
図5の音響モデルを生成する方法の例を示すフローチャートである。
【
図8】音声認識方法の一実施形態を示すフローチャートである。
【
図9】ノイズモデル生成装置の一実施形態を示す図面である。
【
図10】ノイズモデル生成方法の一実施形態を示すフローチャートである。
【発明を実施するための形態】
【0040】
以下、添付図面を参照して、本発明の一実施形態を詳細に説明する。本発明を説明するにあたり、関連した公知機能または構成についての具体的な説明が、本発明の要旨を不明にするおそれがあると判断される場合には、その詳細な説明を省略する。また、後述される用語は、本発明での機能を考慮して定義された用語であって、これは、ユーザ、運用者の意図または慣例などによって変わり得る。したがって、その定義は、本明細書の全般に亘った内容に基づいて下されなければならない。
【0041】
図1は、音響モデル生成装置の一実施形態を示すブロック図である。
【0042】
図1を参照すれば、音響モデル生成装置100は、入力部110、ノイズ表現算出部120、及び音響モデル生成部130を含み得る。
【0043】
入力部110は、音響モデル生成のための訓練用音声データ(training speech data)(以下、音響モデル訓練用音声データ)及び訓練用ノイズデータ(training noise data)(以下、音響モデル訓練用ノイズデータ)を入力され得る。
【0044】
ノイズ表現算出部120は、あらかじめ生成されたノイズモデルを用いて、音響モデル訓練用ノイズデータを代表するノイズ表現を算出することができる。このために、ノイズ表現算出部120は、特徴抽出部121、ノイズモデル保存部122、及びノイズモデリング部123を含み得る。
【0045】
特徴抽出部121は、抽出アルゴリズムを実行して音響モデル訓練用ノイズデータの特徴を抽出することができる。この際、抽出アルゴリズムは、音響モデル訓練用ノイズデータを他のノイズデータから区別する特徴を抽出することができるものであれば、その種類と機能に制限はない。
【0046】
ノイズモデル保存部122は、ノイズモデルを保存することができる。一実施形態によれば、ノイズモデルは、多様な訓練用ノイズデータ(以下、ノイズモデル訓練用ノイズデータ)を用いてオートエンコーダを通じてあらかじめ学習及び生成され得る。この際、ノイズモデル訓練用ノイズデータは、音響モデル生成に使われる音響モデル訓練用ノイズデータを含むあらゆるノイズデータを含み得る。
【0047】
ノイズモデル保存部122は、フラッシュメモリタイプ(flash memory type)、ハードディスクタイプ(hard disk type)、マルチメディアカードマイクロタイプ(multimedia card micro type)、カードタイプのメモリ(例えば、SDまたはXDメモリなど)、RAM(Random Access Memory)、SRAM(Static Random Access Memory)、ROM(Read−Only Memory)、EEPROM(Electrically Erasable Programmable Read−Only Memory)、PROM(Programmable Read−Only Memory)、磁気メモリ、磁気ディスク、光ディスクのうち、少なくとも1つのタイプの記録媒体を含み得る。
【0048】
一方、
図1は、ノイズモデル保存部122が、ノイズ表現算出部120の内部に含まれていると示されているが、これに限定されるものではない。言い換えれば、ノイズモデル保存部122は、ノイズ表現算出部120の内部に具現されてもよく、ノイズ表現算出部120の外部の別個の構成要素として具現されてもよい。
【0049】
ノイズモデリング部123は、ノイズモデル保存部122に保存されたノイズモデルを用いて、特徴抽出部121から抽出された音響モデル訓練用ノイズデータの特徴に基づいて音響モデル訓練用ノイズデータを代表するノイズ表現を算出することができる。
【0050】
ノイズモデルの生成及び利用に関する説明は、
図2を参照して後述する。
【0051】
音響モデル生成部130は、音響モデル訓練用音声データ、音響モデル訓練用ノイズデータ、音響モデル訓練用音声データに対応する音素列、及び音響モデル訓練用ノイズデータのノイズ表現に基づいて学習を通じて音響モデルを生成することができる。一実施形態によれば、音響モデル生成部130は、マルチタスクラーニング技法を用いて音響モデルを生成することができる。このために、音響モデル生成部130は、混合部131、特徴抽出部132、及び音響モデル学習部133を含み得る。
【0052】
混合部131は、音響モデル訓練用音声データ及び音響モデル訓練用ノイズデータを混合して訓練用ノイジー音声データ(training noisy speech data)(以下、音響モデル訓練用ノイジー音声データ)を生成することができる。
【0053】
特徴抽出部132は、他のノイズデータから音響モデル訓練用ノイジー音声データを区別するために、アルゴリズムを用いて音響モデル訓練用ノイジー音声データから特徴を抽出することができる。前述したように、アルゴリズムは、音響モデル訓練用ノイジー音声データを他のノイズデータから区別する特徴を抽出することができるものであれば、その種類と機能に制限はない。
【0054】
音響モデル学習部133は、特徴抽出部132から抽出された音響モデル訓練用ノイジー音声データの特徴、音響モデル訓練用音声データに対応する音素列、及びノイズモデリング部123から算出された音響モデル訓練用ノイズデータのノイズ表現に基づいて音響モデルを学習することができる。言い換えれば、音響モデル学習部133は、マルチタスクラーニング技法を用いて音響モデルが音素分類とノイズ表現の抽出を同時に行うように音響モデルを学習することができる。
【0055】
この際、音響モデルは、神経網(Neural Network)基盤の音響モデルであり得るが、これに限定されるものではない。
【0056】
一方、神経網基盤の音響モデルの場合、複数の隠れ層を含み、典型的な誤謬逆伝播技法を用いて学習され得る。
【0057】
一実施形態によれば、音響モデル学習部133は、数式(1)の目的関数(objective function)を用いて音響モデルを学習することができる。
【0058】
【数1】
ここで、L
Aは、音素確率を推定するために、音響モデルの学習に使われる目的関数(以下、第1目的関数)であり、L
Nは、ノイズ表現を推定するために、音響モデルの学習に使われる目的関数(以下、第2目的関数)である。
【0059】
数式(1)から分かるように、音響モデル学習に用いられる目的関数は、第1目的関数と第2目的関数との加重和(weighted sum)から獲得される。
【0060】
一実施形態によれば、第1目的関数L
Aは、マルチクラス分類(multi−class classification)に主に使われるクロスエントロピー(cross−entropy)を利用できる。それを数式で表現すれば、数式(2)のようである。
【0061】
【数2】
ここで、Kは、出力クラス(output class)の個数(例えば、音素の個数)を示す。t
kは、正答クラスである場合、1を、正答クラスではない場合、0の値を有する。
【0062】
一実施形態によれば、第2目的関数L
Nは、回帰(regression)に主に使われるユークリッド距離(Euclidian distance)を利用できる。それを数式で表現すれば、数式(3)のようである。
【0063】
【数3】
ここで、Pは、入力(出力)特徴の次元(the dimension of input(output)feature)を示し、f
pは、p番目の入力ノードの活性化値(activation value of p
th input nodes)を示し、g
pは、p番目の出力ノードの活性化値(activation value of p
th output nodes)を示す。
【0064】
一方、
図1は、音響モデル生成装置100が、入力部110及びノイズモデル保存部122を含むものと示されているが、入力部110及びノイズモデル保存部122は、必須構成ではなく、システムの性能及び用途によって省略可能である。
【0065】
図2は、ノイズモデルの生成を説明する例示図である。示された例のノイズモデルは、オートエンコーダ基盤のノイズモデルを示す。
【0066】
一実施形態によれば、ノイズモデルは、オートエンコーダを通じて学習され得る。オートエンコーダは、複数個の隠れ層(hidden layer)を含み、フィルターバンク(filterbank)のような特徴を入力として受けて、入力から入力の表現(representation)210を算出し、表現210から入力と最も類似した出力を再構成するように学習される。
【0067】
一実施形態によれば、オートエンコーダ基盤のノイズモデルは、数式(4)のような目的関数を用いて学習され得る。
【0068】
【数4】
ここで、x
kは、入力を示し、z
kは、出力を示す。Kは、音響モデル訓練用ノイズデータサンプルインデックスを示す。すなわち、オートエンコーダ基盤のノイズモデルは、出力が入力を再構成するように訓練される。
【0069】
一実施形態によれば、オートエンコーダは、中間の隠れ層のノードの個数が入力/出力の次元(dimension)よりも小さいか、またはL1ノルム(L1 norm)のように希少性(sparseness)を与える制約(constraint)が必要である。例えば、123個のフィルターバンク(41 dim static filterbank+delta+delta−delta)が入力される場合、オートエンコーダの中間の隠れ層(特に、ノイズ表現部分のレイヤ)のノードの個数は、これよりも小さな40個とすることができる。このようなオートエンコーダを通じて、次元縮小(dimension reduction)と同じ効果が得られ、入力から入力を代表する表現を算出できるように学習する。
【0070】
オートエンコーダは、入力を表現に変えるエンコーダ部分220と表現を再び出力に変えるデコーダ部分230とを含む。エンコーダ部分220及びデコーダ部分230は、それぞれプロセッサ、コントローラまたは回路などを含む構造的装置であり得るが、これに限定されるものではない。ノイズモデルは、学習されたオートエンコーダでデコーダ部分230を除去することで生成され得る。すなわち、ノイズモデルは、学習されたオートエンコーダのエンコーダ部分220のみで構成することができる。
【0071】
図3は、音響モデルの生成を説明する例示図である。
【0072】
図1及び
図3を参照すれば、特徴抽出部121は、音響モデル訓練用ノイズデータ310を受信して音響モデル訓練用ノイズデータ310の特徴(fbank_noise)を抽出する。
【0073】
ノイズモデリング部123は、あらかじめ生成されたノイズモデル340を用いて特徴(fbank_noise)から音響モデル訓練用ノイズデータ310に対応するノイズ表現350を算出する。
【0074】
混合部131は、音響モデル訓練用音声データ320と音響モデル訓練用ノイズデータ310とを混合して音響モデル訓練用ノイジー音声データ330を生成する。
【0075】
特徴抽出部132は、音響モデル訓練用ノイジー音声データ330を受信して音響モデル訓練用ノイジー音声データ330の特徴(fbank_noisy_speech)を抽出する。
【0076】
音響モデル学習部133は、特徴(fbank_noisy_speech)を入力データとし、音響モデル訓練用音声データに対応する音素列及び音響モデル訓練用ノイズデータのノイズ表現350を正答データとして、音響モデル370を学習する。言い換えれば、音響モデル学習部133は、マルチタスクラーニング技法を用いて音響モデル370が音素分類360とノイズ表現350の抽出を同時に行うように音響モデル370を学習する。
【0077】
図4は、音声認識装置の一実施形態を示すブロック図である。
図4を参照すれば、一実施形態による音声認識装置400は、入力部410、音響モデル保存部420、及び算出部430を含み得る。
【0078】
入力部410は、音声認識の対象となる音声データとノイズデータとが混合されたノイジー音声データを入力され得る。
【0079】
音響モデル保存部420は、あらかじめ学習されて生成された音響モデルを保存することができる。この際、音響モデルは、
図1の音響モデル生成装置100から生成された音響モデルであり得る。
【0080】
例えば、音響モデルは、音響モデル訓練用音声データ、音響モデル訓練用ノイズデータ、音響モデル訓練用音声データに対応する音素列、及び音響モデル訓練用ノイズデータのノイズ表現に基づいて学習を通じて生成された音響モデルであり得る。この際、ノイズ表現は、ノイズモデルを用いて算出され、ノイズモデルは、多様なタイプのノイズモデル訓練用ノイズデータに基づいてオートエンコーダを通じて生成され得る。
【0081】
音響モデルは、神経網基盤の音響モデルであって、マルチタスクラーニング技法を用いて生成された音響モデルであり得る。言い換えれば、音響モデルは、音響モデル訓練用音声データと音響モデル訓練用ノイズデータとが混合された音響モデル訓練用ノイジー音声データの特徴を入力データとし、音響モデル訓練用音声データに対応する音素列及び音響モデル訓練用ノイズデータのノイズ表現を正答データとして、学習を通じて生成された音響モデルであり得る。この際、音響モデルは、数式(1)ないし数式(3)の目的関数を用いて学習され得る。
【0082】
音響モデル保存部420は、フラッシュメモリタイプ、ハードディスクタイプ、マルチメディアカードマイクロタイプ、カードタイプのメモリ(例えば、SDまたはXDメモリなど)、RAM、SRAM、ROM、EEPROM、PROM、磁気メモリ、磁気ディスク、光ディスクのうち、少なくとも1つのタイプの記録媒体を含み得る。
【0083】
算出部430は、音響モデル保存部420に保存された音響モデルを用いて入力されたノイジー音声データの音素確率を算出することができる。このために、算出部430は、特徴抽出部431及び音素確率算出部432を含み得る。
【0084】
特徴抽出部431は、アルゴリズムを用いて入力されたノイジー音声データの特徴を抽出することができる。前述したように、アルゴリズムは、ノイジー音声データを他のノイジー音声データから区別する特徴を抽出することができるものであれば、その種類と機能に制限はない。
【0085】
音素確率算出部432は、音響モデル保存部420に保存された音響モデルを用いて特徴抽出部431から抽出されたノイジー音声データの特徴に対応する音素の確率を算出することができる。
【0086】
一方、
図4は、音声認識装置400が、入力部410及び音響モデル保存部420を含むものと示されているが、入力部410及び音響モデル保存部420は、必須構成ではなくて、システムの性能及び用途によって省略可能である。
【0087】
図5は、音響モデル生成方法の一実施形態を示すフローチャートである。
【0088】
図1及び
図5を参照すれば、音響モデル生成装置100は、あらかじめ生成されたノイズモデルを用いて、音響モデル訓練用ノイズデータを代表するノイズ表現を算出する(510)。
【0089】
ここで、ノイズモデルは、多様なノイズモデル訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ学習及び生成され得る。この際、ノイズモデル訓練用ノイズデータは、音響モデル生成に使われる音響モデル訓練用ノイズデータを含むあらゆるタイプのノイズデータを含み得る。
【0090】
ノイズモデルの生成に関する具体的な内容は、
図2を参照して前述したので、その詳細な説明は省略する。
【0091】
音響モデル生成装置100は、音響モデル訓練用音声データ、音響モデル訓練用ノイズデータ、音響モデル訓練用音声データに対応する音素列、及び音響モデル訓練用ノイズデータのノイズ表現に基づいて学習を通じて音響モデルを生成する(520)。
【0092】
図6は、
図5のノイズ表現を算出する段階(510)の詳細フローチャートである。
【0093】
図1及び
図6を参照すれば、音響モデル生成装置100は、アルゴリズムを用いて音響モデル訓練用ノイズデータの特徴を抽出する(610)。この際、アルゴリズムは、音響モデル訓練用ノイズデータを他のノイズデータから区別する特徴を抽出することができるものであれば、その種類と機能に制限はない。
【0094】
音響モデル生成装置100は、抽出された音響モデル訓練用ノイズデータの特徴に基づいて音響モデル訓練用ノイズデータを代表するノイズ表現を算出する(620)。
【0095】
図7は、
図5の音響モデルを生成する段階(520)の詳細フローチャートである。
【0096】
図1及び
図7を参照すれば、音響モデル生成装置100は、音響モデル訓練用音声データ及び音響モデル訓練用ノイズデータを混合して音響モデル訓練用ノイジー音声データを生成する(710)。
【0097】
音響モデル生成装置100は、アルゴリズムを用いて音響モデル訓練用ノイジー音声データの特徴を抽出する(720)。前述したように、所定のアルゴリズムは、音響モデル訓練用ノイジー音声データを他のノイジー音声データから区別する特徴を抽出することができるものであれば、その種類と機能に制限はない。
【0098】
音響モデル生成装置100は、音響モデル訓練用ノイジー音声データの特徴を入力データとし、音響モデル訓練用音声データに対応する音素列及び音響モデル訓練用ノイズデータのノイズ表現を正答データとして、音響モデルを学習する(730)。言い換えれば、音響モデル生成装置100は、マルチタスクラーニング技法を用いて音響モデルが音素分類とノイズ表現の抽出を同時に行うように音響モデルを学習することができる。
【0099】
この際、音響モデルは、神経網基盤の音響モデルであり得るが、これに限定されるものではない。
【0100】
一方、神経網基盤の音響モデルの場合、複数の隠れ層を含み、典型的な誤謬逆伝播技法を用いて学習され得る。
【0101】
一実施形態によれば、音響モデル生成装置100は、数式(1)ないし数式(3)の目的関数を用いて音響モデルを学習することができる。
【0102】
図8は、音声認識方法の一実施形態を示すフローチャートである。
【0103】
図4及び
図8を参照すれば、音声認識装置400は、アルゴリズムを用いて入力されたノイジー音声データから特徴を抽出する(810)。前述したように、アルゴリズムは、ノイジー音声データを他のノイジー音声データから区別する特徴を抽出することができるものであれば、その種類と機能に制限はない。
【0104】
音声認識装置400は、音響モデルを用いて抽出されたノイジー音声データの特徴に対応する音素の確率を算出する(820)。
【0105】
ここで、音響モデルは、音響モデル訓練用音声データ、音響モデル訓練用ノイズデータ、音響モデル訓練用音声データに対応する音素列、及び音響モデル訓練用ノイズデータのノイズ表現に基づいて学習を通じて生成された音響モデルであり得る。この際、ノイズ表現は、ノイズモデルを用いて算出され、ノイズモデルは、多数のノイズモデル訓練用ノイズデータに基づいてオートエンコーダを通じて生成され得る。
【0106】
音響モデルは、神経網基盤の音響モデルであって、マルチタスクラーニング技法を用いて生成された音響モデルであり得る。言い換えれば、音響モデルは、音響モデル訓練用音声データと音響モデル訓練用ノイズデータとが混合された音響モデル訓練用ノイジー音声データの特徴を入力データとし、音響モデル訓練用音声データに対応する音素列及び音響モデル訓練用ノイズデータのノイズ表現を正答データとして、学習を通じて生成された音響モデルであり得る。この際、音響モデルは、数式(1)ないし数式(3)の目的関数を用いて学習され得る。
【0107】
図9は、ノイズモデル生成装置の一実施形態を示す図面である。
図9を参照すれば、ノイズモデル生成装置900は、学習部910及び生成部920を含み得る。
【0108】
学習部910は、多数の訓練用ノイズデータを用いてオートエンコーダを学習することができる。この際、オートエンコーダは、入力を表現に変えるエンコーダ部分と表現を再び出力に変えるデコーダ部分とを含む。
【0109】
一実施形態によれば、学習部910は、数式(4)の目的関数を用いてオートエンコーダを学習することができる。
【0110】
生成部920は、学習されたオートエンコーダのデコーダ部分を除去してノイズモデルを生成することができる。
【0111】
図10は、ノイズモデル生成方法の一実施形態を示すフローチャートである。
【0112】
図9及び
図10を参照すれば、ノイズモデル生成装置900は、多様な訓練用ノイズデータを用いてオートエンコーダを学習する(1010)。この際、オートエンコーダは、入力を表現に変えるエンコーダ部分と表現を再び出力に変えるデコーダ部分とを含む。
【0113】
一実施形態によれば、ノイズモデル生成装置900は、数式(4)の目的関数を用いてオートエンコーダを学習することができる。
【0114】
ノイズモデル生成装置900は、学習されたオートエンコーダのデコーダ部分を除去してノイズモデルを生成する(1020)。
【0115】
図1、
図4及び
図9の入力部110、ノイズ表現算出部120、特徴抽出部121、ノイズモデリング部123、ノイズモデル保存部122、音響モデル生成部130、混合部131、特徴抽出部132、音響モデル学習部133、入力部410、特徴抽出部431、音響モデル保存部420、音素確率算出部432、学習部910、生成部920は、ハードウェアコンポーネントとして具現可能である。例えば、ハードウェアコンポーネントは、コントローラ、センサー、生成器、ドライバ、メモリ、比較器、算術論理ユニット、加算器、減算器、乗算器、除算器、積分器、及び多様な電子部品を含み得る。他の例を挙げれば、ハードウェアコンポーネントは、コンピューティングハードウェア、例えば、1つ以上のプロセッサまたはコンピュータとして具現可能である。プロセッサまたはコンピュータは、マイクロコンピュータ、プログラマブルロジックコントローラ、フィールドプログラマブルゲートアレイ、プログラマブルロジックアレイ、マイクロプロセッサ、または他のデバイスまたはデバイスの結合のような1つ以上のプロセッシングエレメントとして具現可能である。例えば、プロセッサまたはコンピュータは、プロセッサまたはコンピュータによって実行されるインストラクションまたはソフトウェアを保存する1つ以上のメモリを含むか、1つ以上のメモリに連結され得る。プロセッサまたはコンピュータとして具現されるハードウェアコンポーネントは、運用体制(OS)及び運用体制上で動作する1つ以上のソフトウェアアプリケーションのようなインストラクションまたはソフトウェアを実行することができる。ハードウェアコンポーネントは、また、インストラクションまたはソフトウェアの実行に応答して、データに接近、操作、処理、生成及び保存することができる。本明細書では、便宜上、単数用語“プロセッサ”または“コンピュータ”を使っているが、複数のプロセッサまたはコンピュータを使い、プロセッサまたはコンピュータが、多数のプロセッシングエレメントまたは多数タイプのプロセッシングエレメントなどを含み得る。例えば、1つのハードウェアコンポーネントまたは2つ以上のハードウェアコンポーネントは、1つのプロセッサ、2つ以上のプロセッサ、または1つのプロセッサ及び1つのコントローラとして具現可能である。1つ以上のハードウェアコンポーネントは、1つ以上のプロセッサ、1つのプロセッサ及び1つのコントローラとして具現可能であり、1つ以上の他のプロセッサは、1つ以上の他のプロセッサ、1つの他のプロセッサ及び1つの他のコントローラとして具現可能である。1つ以上のプロセッサ、または1つのプロセッサ及び1つのコントローラは、1つのハードウェアコンポーネントまたは2つ以上のハードウェアコンポーネントを具現することができる。ハードウェアコンポーネントは、1つのプロセッサ、独立したプロセッサ、並列プロセッサ、シングルインストラクションシングルデータ(SISD)マルチプロセッシング、シングルインストラクションマルチプルデータ(SIMD)マルチプロセッシング、マルチプルインストラクションシングルデータ(MISD)マルチプロセッシング、及びマルチプルインストラクションマルチプルデータ(MIMD)マルチプロセッシングなどを含む1つ以上の互いに異なるプロセッシング構成を有し得る。
【0116】
本明細書に開示された動作を行い、
図5ないし
図8及び
図10に開示された方法は、動作を行う命令またはソフトウェアを実行する前述されたように具現されたコンピューティングハードウェア、例えば、1つ以上のプロセッサまたはコンピュータによって行われる。例えば、1つの動作または2つ以上の動作は、1つのプロセッサ、2つ以上のプロセッサ、または1つのプロセッサ及び1つのコントローラによって行われる。1つ以上の動作は、1つ以上のプロセッサ、または1つのプロセッサ及び1つのコントローラによって行われ、1つ以上の他の動作は、1つ以上の他のプロセッサ、または1つの他のプロセッサ及び1つの他のコントローラによって行われる。1つ以上のプロセッサ、または1つのプロセッサ及び1つのコントローラは、1つの動作、または2つ以上の動作を行うことができる。
【0117】
ハードウェアコンポーネントとして具現され、前述した方法を行うコンピューティングハードウェア、例えば、1つ以上のプロセッサまたはコンピュータを制御するための命令またはソフトウェアは、コンピュータプログラム、コードセグメント、命令またはこれらの結合であり得る。例えば、命令またはソフトウェアは、コンパイラによって生成されたマシンコードのような、1つ以上のプロセッサまたはコンピュータによって直接実行されるマシンコードを含む。他の例を挙げれば、命令またはソフトウェアは、インタプリタを用いて1つ以上のプロセッサまたはコンピュータによって実行されるハイレベル(higher−level)コードを含む。命令またはソフトウェアは、前述したハードウェアコンポーネント及び方法によって行われる動作を行うアルゴリズムを開示したブロック図及びフローチャートに基づいてプログラミング言語を用いて記述され得る。
【0118】
命令またはソフトウェア、関連データ、データファイル、及びデータ構造は、1つ以上の非一時的コンピュータ可読記録媒体に記録または保存することができる。例えば、非一時的コンピュータ可読記録媒体は、Read−Only Memory(ROM)、Random−Access Memory(RAM)、Flash Memory、CD−ROMs、CD−Rs、CD+Rs、CD−RWs、CD+RWs、DVD−ROMs、DVD−Rs、DVD+Rs、DVD−RWs、DVD+RWs、DVD−RAMs、BD−ROMs、BD−Rs、BD−R LTHs、BD−REs、magnetic tapes、floppy disks、magneto−optical data storage devices、optical data storage devices、hard disks、solid−state disks、及び非一時的方式で命令またはソフトウェア、関連データ、データファイル及びデータ構造を保存して、1つ以上のプロセッサまたはコンピュータに提供する他のデバイスを含み得る。例えば、命令またはソフトウェア、関連データ、データファイル、及びデータ構造は、ネットワーク連結コンピュータシステムに分散されて、1つ以上のプロセッサまたはコンピュータによって分散方式で実行可能である。
【0119】
以上、本発明について、その望ましい実施形態を中心に説明した。当業者ならば、本発明が、本発明の本質的な特性から外れない範囲で変形された形態として具現可能であるということを理解できるであろう。したがって、本発明の範囲は、前述した実施形態に限定されず、特許請求の範囲に記載の内容と同等な範囲内にある多様な実施形態が含まれるように解釈されねばならない。
【産業上の利用可能性】
【0120】
本発明は、音響モデル生成装置及び方法、音声認識装置及び方法関連の技術分野に適用可能である。