(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-25
(45)【発行日】2024-02-02
(54)【発明の名称】音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法
(51)【国際特許分類】
G10L 15/01 20130101AFI20240126BHJP
【FI】
G10L15/01 200
(21)【出願番号】P 2019114876
(22)【出願日】2019-06-20
【審査請求日】2022-06-02
【新規性喪失の例外の表示】特許法第30条第2項適用 公開の事実1:2019年3月6日の「日本音響学会2019年春季研究発表会」にて発表 公開の事実2:2019年2月19日の「日本音響学会2019年春季研究発表会論文集」日本音響学会に掲載 公開の事実3:2018年9月12日の「日本音響学会2018年秋季研究発表会」にて発表 公開の事実4:2018年8月29日の「日本音響学会2018年秋季研究発表会論文集」日本音響学会に掲載
(73)【特許権者】
【識別番号】593006630
【氏名又は名称】学校法人立命館
(74)【代理人】
【識別番号】100111567
【氏名又は名称】坂本 寛
(72)【発明者】
【氏名】福森 隆寛
(72)【発明者】
【氏名】西浦 敬信
【審査官】菊池 智紀
(56)【参考文献】
【文献】郭 他,"ノンリファレンス特徴量を用いた自然発話音声認識の性能推定の検討",日本音響学会2016年秋季研究発表会講演論文集CD-ROM,2016年08月31日,pp.121-124
【文献】福森隆寛 他,"PESQと室内音響指標を用いた雑音・残響指標NRSR-PAに基づく雑音・残響下音声認識性能の予測",電子情報通信学会論文誌D,2015年03月01日,Vol.J98-D, No.3,pp.343-352
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
(57)【特許請求の範囲】
【請求項1】
残響音声
の複数の音響特徴フレームを、学習モデルに入力して、前記残響音声の得られた空間における音声認識性能の予測値を前記学習モデルから出力する音声認識性能予測処理を実行するよう構成され、
前記学習モデルは、
残響音声の複数の音響特徴フレーム及び前記残響音声の得られた空間における音声認識性能の値を用いた機械学習により、残響音声の
複数の音響特徴フレームが入力されると、前記残響音声の得られた空間における音声認識性能の予測値を出力するよう構成さ
れ、
各音響特徴フレームは、スペクトル解析を含む音声解析によって残響音声から抽出された音声特徴量を含む
音声認識性能の予測システム。
【請求項2】
各音響特徴フレームは、区間ごとの前記残響音声の複数の音声特徴量を含
み、
前記残響音声の
複数の前記音響特徴フレームを前記学習モデルに入力することは、予測対象の区間に対応した対象フレームを含む複数フレームからなる対象フレーム群を入力することを含む
請求項1に記載の音声認識性能の予測システム。
【請求項3】
前記残響音声の
複数の前記音響特徴フレームを前記学習モデルに入力することは、前記対象フレーム群と、前記予測対象の区間に近接した他の区間に対する他のフレーム群と、を入力することを含む
請求項2に記載の音声認識性能の予測システム。
【請求項4】
前記音声認識性能の予測値を出力することは、前記対象フレーム群と前記他のフレーム群とのそれぞれについて得られた、複数の音声認識性能の予測値から、前記予測対象の区間についての1つの前記音声認識性能の予測値を算出すること、を含む
請求項3に記載の音声認識性能の予測システム。
【請求項5】
残響音声
の複数の音響特徴フレームが入力されると、前記残響音声の得られた空間における音声認識性能の予測値を出力するよう機械学習された学習モデルの構築方法であって、
残響音声の
複数の音響特徴フレーム、及び、前記残響音声の得られた空間における音声認識性能の値の組である教師データのうち、
複数の前記音響特徴フレームを学習モデルの入力層へ入力し、前記音声認識性能の値を学習モデルの出力層へ入力することで、前記教師データによる機械学習を行って、前記学習モデルを構築する
ことを含み、
各音響特徴フレームは、スペクトル解析を含む音声解析によって残響音声から抽出された音声特徴量を含む
学習モデルの構築方法。
【請求項6】
前記残響音声を、クリーン音声とインパルス応答とから生成することをさらに備える
請求項5に記載の学習モデルの構築方法。
【請求項7】
前記残響音声を、クリーン音声とインパルス応答とノイズとから生成することをさらに備える
請求項5に記載の学習モデルの構築方法。
【請求項8】
コンピュータが、残響音声
の複数の音響特徴フレームを、学習モデルに入力して、前記残響音声の得られた空間における音声認識性能の予測値を前記学習モデルから出力する、ことを実行することを含む方法であって、
前記学習モデルは、
残響音声の複数の音響特徴フレーム及び前記残響音声の得られた空間における音声認識性能の値を用いた機械学習により、残響音声の
複数の音響特徴フレームが入力されると、前記残響音声の得られた空間における音声認識性能の予測値を出力するよう構成さ
れ、
各音響特徴フレームは、スペクトル解析を含む音声解析によって残響音声から抽出された音声特徴量を含む
音声認識性能の予測方法。
【請求項9】
各音響特徴フレームは、区間ごとの前記残響音声の複数の音声特徴量を含
み、
前記残響音声の
複数の前記音響特徴フレームを前記学習モデルに入力することは、予測対象の区間に対応した対象フレームを含む複数フレームからなる対象フレーム群を入力することを含む
請求項8に記載の音声認識性能の予測方法。
【請求項10】
前記残響音声の
複数の前記音響特徴フレームを前記学習モデルに入力することは、前記対象フレーム群と、前記予測対象の区間に近接した他の区間に対する他のフレーム群と、を入力することを含む
請求項9に記載の音声認識性能の予測方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法に関する。
【背景技術】
【0002】
マイクで入力された音声を認識して各種処理に用いるためには、音声認識性能が高い方がよい。音声認識性能には、マイクによる音声入力の際の環境が大きく影響する。残響が大きい環境や騒音がある環境ではマイクの入力音声の音質が低下し、音声認識性能の低下につながるためである。そのため、音声入力する環境に応じて音声認識性能を予測することが重要である。
【0003】
この点、以下の特許文献1(特開2018-84594号公報)は、ユーザ環境でインパルス応答を測定し、測定されたインパルス応答から得られた特徴量を用いるものである。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【0005】
しかしながら、ユーザ環境のインパルス応答を測定するためには、測定のためにスピーカ及びマイクを含む録音再生機器が必要となり、計測の手間や計測コストが必要となる。そのため、計測の手間や計測コストを抑えて、精度よく音声認識性を予測することが望まれる。
【0006】
ある実施の形態に従うと、音声認識性能の予測システムは、残響音声に基づく値が入力されると、残響音声の得られた空間における音声認識性能の予測値を出力するよう機械学習された学習モデルを備える。
【0007】
他の実施の形態に従うと、学習モデルの構築方法は、残響音声に基づく値が入力されると、残響音声の得られた空間における音声認識性能の予測値を出力するよう機械学習された学習モデルの構築方法であって、残響音声に基づく値を入力層へ入力し、残響音声に基づく値から得られる、残響音声下での音声認識性能を表す値を出力層へ入力する、ことを備える。
【0008】
他の実施の形態に従うと、音声認識性能の予測方法は、残響音声に基づく値が入力されると、残響音声の得られた空間における音声認識性能の予測値を出力するよう機械学習された学習モデルに対して、残響を含むノイズのない環境における音声とインパルス応答とから生成された残響音声に基づく値を入力し、残響音声に基づく値が入力された学習モデルから、残響音声の得られた空間における音声認識性能の予測値を得る、ことを備える。
【0009】
更なる詳細は、後述の実施形態として説明される。
【図面の簡単な説明】
【0010】
【
図1】
図1は、本実施の形態に係る音声認識性能の予測システムの構成の一例を示した図である。
【
図2】
図2は、予測システムでの予測方法を説明する図である。
【
図3】
図3は、予測システムに搭載される学習モデルの構築方法を表したフローチャートである。
【
図4】
図4は、
図3の学習モデルの構築方法を説明するための図である。
【
図5】
図5は、
図3の学習モデルの構築方法を説明するための図である。
【
図6】
図6は、
図3の学習モデルの構築方法を説明するための図である。
【
図7】
図7は、
図3の学習モデルの構築方法の他の例を説明するための図である。
【
図8】
図8は、発明者らによる予測実験の結果を示した図である。
【発明を実施するための形態】
【0011】
<1.音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法の概要>
【0012】
(1)本実施の形態に含まれる音声認識性能の予測システムは、残響音声に基づく値が入力されると、残響音声の得られた空間における音声認識性能の予測値を出力するよう機械学習された学習モデルを備える。残響音声とは、残響のみからなる音声であってもよいし、残響に雑音が混入した音声であってもよい。学習モデルを用いることによって、残響音声に基づく値を入力することで音声認識性能の予測値が得られ、利用環境のインパルス応答を測定する必要がなくなる。そのため、計測の手間や計測コストを抑えて、精度よく音声認識性を予測することができる。
【0013】
(2)好ましくは、残響音声に基づく値は、残響音声の音声特徴量を含む。これにより、残響音声を示す音声波形から容易に算出することができる。
【0014】
(3)好ましくは、残響音声に基づく値は、区間ごとの残響音声の複数の音声特徴量を含む音響特徴フレームから構成され、残響音声に基づく値を入力することは、予測対象の区間に対応した対象フレームを含む複数フレームからなる対象フレーム群を入力することを含む。音声認識性能の予測に複数フレームを用いることで、高精度で予測できる。
【0015】
(4)好ましくは、残響音声に基づく値を入力することは、対象フレーム群と、予測対象の区間に近接した他の区間に対する他のフレーム群と、を入力することを含む。これにより、フレームの近傍へ影響する要因も考慮して、高精度で音声認識性能を予測できる。
【0016】
(5)好ましくは、音声認識性能の予測値を出力することは、対象フレーム群と他のフレーム群とのそれぞれについて得られた、複数の音声認識性能の予測値から、予測対象の区間についての1つの音声認識性能の予測値を算出すること、を含む。これにより、高精度で音声認識性能を予測することができる。
【0017】
(6)本実施の形態に含まれる学習モデルの構築方法は、残響音声に基づく値が入力されると、残響音声の得られた空間における音声認識性能の予測値を出力するよう機械学習された学習モデルの構築方法であって、残響音声に基づく値を入力層へ入力し、残響音声に基づく値から得られる、残響音声下での音声認識性能を表す値を出力層へ入力する、ことを備える。この機械学習が行われることで、学習モデルは、残響音声に基づく値が入力されると、残響音声の得られた空間における音声認識性能の予測値を出力するようになる。その結果、(1)~(5)の予測システムを構築することができる。
【0018】
(7)好ましくは、学習モデルの構築方法は、残響音声を、クリーン音声とインパルス応答とから生成することをさらに備える。これにより、予測のたびに利用環境におけるインパルス応答の測定を行う必要がなくなる。
【0019】
(8)好ましくは、学習モデルの構築方法は、残響音声を、クリーン音声とインパルス応答とノイズとから生成することをさらに備える。これにより、さらに、ノイズも考慮して音声認識性能の予測値を出力するように機械学習させることができる。
【0020】
(9)好ましくは、残響音声に基づく値は、残響音声の音声特徴量を含む。これにより、残響音声を示す音声波形から容易に算出することができる。
【0021】
(10)本実施の形態に含まれる音声認識性能の予測方法は、残響音声に基づく値が入力されると、残響音声の得られた空間における音声認識性能の予測値を出力するよう機械学習された学習モデルに対して、クリーン音声とインパルス応答とから生成された残響音声に基づく値を入力し、残響音声に基づく値が入力された学習モデルから、残響音声の得られた空間における音声認識性能の予測値を得る、ことを備える。
【0022】
(11)好ましくは、残響音声に基づく値は、区間ごとの残響音声の複数の音声特徴量を含む音響特徴フレームから構成され、残響音声に基づく値を入力することは、予測対象の区間に対応した対象フレームを含む複数フレームからなる対象フレーム群を入力することを含む。音声認識性能の予測に複数フレームを用いることで、高精度で予測できる。
【0023】
(12)好ましくは、残響音声に基づく値を入力することは、対象フレーム群と、予測対象の区間に近接した他の区間に対する他のフレーム群と、を入力することを含む。これにより、フレームの近傍へ影響する要因も考慮して、高精度で音声認識性能を予測できる。
【0024】
<2.音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法の例>
【0025】
図1を参照して、音声認識性能の予測システム(以下、システムと略する)100は、演算装置1を含む。演算装置1は、CPU(Central Processing Unit)などのプロセッサ10と、メモリ20を含む一般的なコンピュータから構成される。演算装置1は、後述する残響音声に基づく値が入力されると、その残響音声の得られた空間における音声認識性能の予測値を出力するよう機械学習された学習モデル11を搭載している。
【0026】
システム100は、さらに、メモリ装置3を含む。また、システム100は、さらに、出力装置5を含む。演算装置1は、メモリ装置3と通信可能である。また、演算装置1は、出力装置5と通信可能である。
【0027】
メモリ20は、プロセッサ10で実行されるプログラムを記憶している。プロセッサ10は、メモリ20からプログラムを読み出して実行することで、音声認識性能を予測する処理を実行する。
【0028】
図1及び
図2を参照して、プロセッサ10によって実行される音声認識性能を予測する処理は、音声入力処理(ステップS111)を含む。音声入力処理S111は、音声認識性能を予測する対象の環境(以下、利用環境と称する)で計測された音声を表す信号の入力を受け付ける処理である。利用環境で計測された音声は残響を含んだものであるため、残響等を含まない音声(以下、クリーン音声とも称する)と区別するために残響音声とも称する。ここでの残響音声は、残響のみからなる音声であってもよいし、残響に雑音が混入した音声であってもよい。以降の説明において、ノイズが0であるときには、残響音声は残響のみからなる音声となる。音声を表す信号は、例えば、振幅の時間変化を表した音声波形Wである。
【0029】
利用環境でマイクロホンを用いて録音された残響音声を示す音声波形Wはメモリ装置3に記憶されており、音声入力処理S111は、メモリ装置3から指定された利用環境における音声波形Wを読み込む処理であってもよい。又は、音声入力処理S111は、利用環境において図示しないマイクロホンで音声を録音し、マイクロホンからの音声波形Wの入力を受け付ける処理であってもよい。
【0030】
音声認識性能を予測する処理は、特徴量抽出処理(ステップS112)を含む。特徴量抽出処理S112は、音声入力処理S111によって入力された音声波形Wから残響音声に基づく値を抽出する処理である。残響音声に基づく値は、一例として音声特徴量である。
【0031】
音声特徴量とは音声の特徴を表す値であって、音声解析を行うなどによって得られる値である。音声解析は、例えば、MFCC(メル周波数ケプストラム係数)などのスペクトル解析などである。すなわち、特徴量抽出処理S112は、一般的な音声の特徴量を抽出する処理でよく、例えば、所定期間の音声区間に対して行う、メルケプストラム分析などの一般的な周波数分析であってよい。この場合、分析条件は16kHzサンプリング、分析フレーム長25msec、及び、フレーム周期10msecとする。なお、音声特徴量は、パワーなどの音源情報を含んでもよい。
【0032】
図2に示されるように、音声波形Wから得られる音声の特徴は、音声波形Wが測定された期間分の、特徴量抽出区間ごとの音声特徴量FVが連続して表される。特徴量抽出区間は、音声波形Wが測定された期間内の極めて短い区間である。
【0033】
音声波形Wのうちの1つの特徴量抽出区間からは、複数種類の音声特徴量が得られる。複数種類の音声特徴量は、例えば、MFCC(メル周波数ケプストラム係数)、ΔMFCC(MFCCの一次の回帰係数)、及び、パワー、などである。一例として、1つの特徴量抽出区間から、MFCCが12次元、ΔMFCCが12次元、及び、パワーが1次元、が得られる。
図2に示されるように、1つの特徴量抽出区間についてのこれら25次元の音声特徴量FVの組を、その特徴量抽出区間の音声特徴量を表すフレームFとする。音声波形Wから得られる音声の特徴は、
図2に示されるように、音声波形Wが測定された期間内の特徴量抽出区間ごとに時系列に並んだ複数のフレームFによって表すことができる。
【0034】
音声認識性能を予測する処理は、音声認識性能予測処理(ステップS113)を含む。音声認識性能予測処理S113は、学習モデル11に特徴量抽出処理S112で抽出された音声特徴量FVを入力する処理(ステップS113A)と、学習モデル11から出力される、残響音声の得られた空間における音声認識性能の予測値PVを得る処理(ステップS113B)と、を含む。学習モデル11は、後述する構築方法によって、予測対象とする特徴量抽出区間である予測区間tに関連した残響音声に基づく値が入力されると、その残響音声の得られた空間における予測区間tにおける音声認識性能の予測値を出力するよう機械学習されている。
【0035】
音声特徴量を学習モデル11に入力する処理S113Aは、予測区間tの音声特徴量FVを学習モデル11の入力層に入力することを含む。好ましくは、予測区間tのフレームFtを学習モデル11の入力層に入力する。
【0036】
より好ましくは、予測区間t近傍の他の特徴量抽出区間のフレームFも入力層に入力することを含む。フレームFtを、対象フレームFtとも称する。すなわち、より好ましくは、対象フレームFtを含むNフレーム(Nは2以上)を入力層に入力する。より好ましくは、Nフレームは、対象フレームFtと、対象フレームFtの時系列に前後それぞれに配置されたnフレーム(nは1以上の規定数)と、を含む。Nフレームは、例えば、24フレームである。対象フレームFtに対するNフレームを、入力フレーム群とも称する。
【0037】
学習モデル11から予測値PVを得る処理S113Bは、学習モデル11の出力層から出力される予測値PVを得ることであって、学習モデル11の出力層からは、予測区間tについての予測値が出力される。これにより、予測区間tで利用環境において得られた音声に基づいて、その利用環境における音声認識性能の予測値を得ることができる。
【0038】
好ましくは、音声特徴量を学習モデル11に入力する処理S113Aでは、対象フレームFtと、その近傍の複数のフレームFとのそれぞれについての入力フレーム群を学習モデル11の入力層に入力する。これにより、予測値PVを得る処理S113Bでは、予測区間tと、その近傍の特徴量抽出区間とのそれぞれについての複数の予測値が得られる。この場合、音声認識性能予測処理S113は、さらに、複数の予測値から、予測区間tについての1つの予測値PVを算出する処理S113Cを含む。1つの予測値PVを算出する処理S113Cは、複数の予測値の代表値を算出することを含み、代表値は、例えば、平均値、メジアン、モードなどである。
【0039】
対象フレームFtと、その近傍の複数のフレームFとのそれぞれから得られた複数の予測値を用いて予測区間tについての予測値PVを算出することによって、予測値の精度を向上させることができる。特に、残響は、予測対象とする予測区間tから遅れた時刻にマイクロホンに入力される音声に影響を及ぼす。そのため、対象フレームFt前後の複数フレームを用いることで、残響の影響も考慮した高精度の予測値が得られる。
【0040】
予測結果出力処理S114は、音声認識性能予測処理S113で得られた予測値に基づく情報を出力装置5に出力する処理である。出力装置5は、例えば、ディスプレイなどの結果を提示する装置である。この場合、予測結果出力処理S114は、例えば、予測値そのものを出力装置5に渡して、表示等の出力を指示する処理である。また、例えば、予測値に対応したメッセージ等の情報を予め記憶しておき、予測値に対応する情報を抽出して出力装置5に渡して、表示等の出力を指示する処理であってもよい。メッセージは、例えば、「もう少しマイクに近づいてください」などである。
【0041】
出力装置5は、他の例として、利用環境に設置されている、残響を変化させる物の設置、解除を行う装置であってもよい。残響を変化させる物は、例えば、カーテンや窓などであって、設置、解除を行う装置は、その開閉やオンオフを行う装置である。この場合、予測結果出力処理S114は、音声認識性能予測処理S113で得られた予測値に基づく状態とするように制御信号を出力装置5に出力する。例えば、予測値が低い場合には、カーテンの開閉装置である出力装置5に対して、カーテンを開けるよう指示する制御信号を出力することが挙げられる。
【0042】
[学習モデルの構築方法]
【0043】
学習モデル11は、
図3~
図6に示される方法によって構築される。すなわち、
図3を参照して、初めに、残響音声を生成し(ステップS101)、生成された残響音声の特徴量を抽出する(ステップS103)。
【0044】
図4を参照して、ステップS101で残響音声は、クリーン音声とインパルス応答とから生成される。クリーン音声は、ノイズのない環境においてマイクロホンによって測定された音声である。ここでのノイズは、利用環境における残響を含まず、利用環境内に設置された空調の機械音や利用環境外の車両の音などの雑音を指す。クリーン音声は、例えば単語ごとなどの音声ごとに測定される。
図4の例では、音声1と音声2とを含む複数種類のクリーン音声が測定され、音声波形W1で示されている。
【0045】
インパルス応答は、音源から測定するマイクロホンの設置位置までの音の伝わり方を示す値であって、マイクロホンに直接到達する音と、壁や床などに反射してマイクロホンに到達する音とから算出される。インパルス応答は、利用環境ごとに測定される。
図4の例では、環境Aと環境Bとを含む複数種類の環境のインパルス応答が測定され、音声波形W2で示されている。
【0046】
ステップS101では、クリーン音声を表す音声波形W1と、インパルス応答を表す音声波形W2とが合成されることによって、残響音声を表す音声波形W3,W4を含む複数の音声波形が生成される。音声波形W3は、複数種類のクリーン音声それぞれを表す音声波形に対して環境Aのインパルス応答を示す音声波形が合成された、環境Aにおける各音声波形である。音声波形W4は、複数種類のクリーン音声それぞれを表す音声波形に対して環境Bのインパルス応答を示す音声波形が合成された、環境Bにおける各音声波形である。
【0047】
図5を参照して、ステップS103では、音声波形W3,W4を含む複数の音声波形それぞれから特徴量が抽出される。すなわち、環境Aにおける複数音声波形それぞれの特徴量FV1と、環境Bにおける複数音声波形それぞれの特徴量FV2と、を含む複数の特徴量が抽出される。
【0048】
ステップS103で生成された特徴量は、学習モデル11の入力層に入力される(ステップS105)。
図6の例では、環境Aにおける各音声波形から抽出された特徴量と、環境Bにおける各音声波形から抽出された特徴量と、を含む複数の特徴量が学習モデル11の入力層に渡される。
【0049】
一方、学習モデル11の出力層には、ステップS101の残響音声生成に用いられたインパルス応答を示す利用環境に対応した音声認識性能値が入力される(ステップS107)。すなわち、教師データとして、入力値が利用環境下における音声の音声波形、及び、出力値がその利用環境に対応した音声認識性能値、の組が用いられる。
図6の例では、環境Aの音声認識性能値70%、及び、環境Bの音声認識性能値65%、を含む各環境の音声認識性能値が、学習モデル11の出力層に渡される。これにより、学習モデル11は、残響音声の特徴量が入力されると、その残響音声の得られた利用空間における音声認識性能値を音声認識性能の予測値として出力するように機械学習される。
【0050】
なお、学習の際も、予測と同様に、特徴量を学習モデル11の入力層に入力するときに、複数フレーム分の特徴量を入力する。そして、学習モデル11の出力層に音声認識性能値を入力する際に、フレームごとの音声認識性能値を入力する。これにより、精度を向上させることができる。
【0051】
学習モデル11の入力層に入力する音声を、残響以外の影響を考慮したものとしてもよい。残響以外の影響は、例えば、ノイズである。残響以外の影響の他の例は、例えば、方言や、発話者の年齢、性別、などである。
【0052】
残響以外の影響としてのノイズを考慮する場合、
図7に示されたように、利用環境下での残響音声は、
図6と同様にクリーン音声を示す音声波形W1にその利用環境で測定されたインパルス応答を示す音声波形W2を合成して得られる。さらに、その利用環境下でのノイズは、ノイズを示す音声波形W5に、同一のインパルス応答を示す音声波形W2を合成して得られる。そして、残響音声を示す音声波形とノイズにインパルス応答を合成して得られた音声波形と、を合成することによって、利用環境においてさらにノイズの影響も加えた音声の音声波形W7,W8,…が得られる。このように、学習モデル11の入力層に入力する音声に様々な要素を示す音声波形を加えることで、学習モデル11を利用環境に応じた学習モデルに機械学習できる。
【0053】
なお、プロセッサ10の実行する各処理は、複数の演算装置で分担して行われてもよい。その場合、その複数の演算装置が協働してシステム100を構成する。
【0054】
[予測実験]
【0055】
発明者らは、実施の形態に係るシステム100の予測精度を確認する実験を行った。実験で用いた学習モデルの構築条件は以下である。
構築:全結合の多層パーセプロトン
各層の素子数:
素子数入力層:600素子(残響音声の音声特徴量入力用)
隠れ層:100素子×1~3層
出力層:1素子(音声認識性能値出力用)
入力する音声特徴量(600次元):
MFCC(メル周波数ケプストラム係数)の次元数:12次元
ΔMFCC(MFCCの一次の回帰係数)の次元数:12次元
ΔPower(パワーの一次の回帰係数)の次元数:1次元
合計フレーム数:24フレーム(対象フレーム+前後23フレーム)
活性化関数:ReLU(Rectified Linear Unit, Rectifier:正規化線形関数)
評価関数:音声認識性能の真値と推定値との二乗誤差
パラメータ学習法:誤差逆伝搬法(学習率の調整にはAdamを採用)
評価音声と音声認識性能
クリーン音声:ATR音素バランス文(1話者50文×10話者)
残響:距離や発話方位が異なる120カ所のインパルス応答
音声認識性能の数:1200個(10話者×120カ所)(なお、1000個は学習用、200個を試験に用いた)
【0056】
また、音声を認識するために用いた音響モデル及び言語モデルの構築条件は以下である。
音声認識器:Julius(ver.4.4.2)、ディクテーションキット(ver.4.4)
言語モデル:語彙サイズ59084の単語Trigramモデル(現代日本語書き言葉均衡コーパスの約1億語を用いて学習)
音響モデル:性別非依存のDNN-HMM(JNASコーパス、CSJの計378時間の音声データで学習)
入力層:1320素子(11フレームの音響特徴量を連結)
隠れ層:2048素子×7層
出力層:2004素子
音響特徴量:フィルタバンク+1次差分+2次差分(40次元×3=120次元)
【0057】
実験では、上記音響モデル及び言語モデルを用いた音声の認識結果を上記のように構築された学習モデル11を搭載したシステム100に入力することによって、真の音声認識性能を算出した。なお、上記の音響モデルの挙動として、以下の条件で、学習モデル11の入力層に音声波形から抽出される音声特徴量を入力した。音声特徴量は隠れ層を通過し、最終的に出力層から各音素の生起確率が出力される。
音声特徴量:フィルタバンク+1次差分+2次差分(40次元×3=120次元)
入力層:1320素子(11フレームの音声特徴量を連結)
【0058】
また、システム100での音声認識性能予測は、平均性能予測誤差を評価指標とした。平均性能予測誤差は、音声認識性能の真値と予測値との絶対誤差である。また、1回の予測に用いる文章数は、1文、5文、10文、30文、及び、50文とした。
【0059】
学習モデル11の各隠れ層数での、1回の予測に用いた文章数ごとの平均性能予測誤差は
図8のように得られた。なお、
図8の括弧内の数は標準偏差を表している。
【0060】
図8に示された結果より、本システム100では、少ない文章数であっても予測に有効な特徴量が抽出されていることがわかる。このとき、学習モデル11の隠れ層数が多くなるほど平均性能予測誤差が小さくなっているため、隠れ層数が多い方がよいことが確認された。
【0061】
一方、文章数が多くなっても平均性能予測誤差は微減にすぎない。そのため、本システム100では、数文程度の発話でも音声認識性能が予測可能であることが確認された。
【0062】
<3.付記>
本発明は、上記実施形態に限定されるものではなく、様々な変形が可能である。
【符号の説明】
【0063】
1 :演算装置
3 :メモリ装置
5 :出力装置
10 :プロセッサ
11 :学習モデル
20 :メモリ
100 :システム
F :フレーム
FV :特徴量
FV1 :特徴量
FV2 :特徴量
Ft :対象フレーム
PV :予測値
S111 :音声入力処理
S112 :特徴量抽出処理
S113 :音声認識性能予測処理
S113A :特徴量FVを入力する処理
S113B :学習モデルから予測値を得る処理
S113C :1つの予測値を算出する処理
S114 :予測結果出力処理
W :音声波形
W1 :音声波形
W2 :音声波形
W3 :音声波形
W4 :音声波形
W5 :音声波形
W7 :音声波形
W8 :音声波形