(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022037413
(43)【公開日】2022-03-09
(54)【発明の名称】音声認識モデル学習装置、音声認識装置、およびプログラム
(51)【国際特許分類】
G10L 15/06 20130101AFI20220302BHJP
【FI】
G10L15/06 300C
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2020141537
(22)【出願日】2020-08-25
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(71)【出願人】
【識別番号】591053926
【氏名又は名称】一般財団法人NHKエンジニアリングシステム
(74)【代理人】
【識別番号】100141139
【弁理士】
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【弁理士】
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【弁理士】
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【弁理士】
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】佐藤 裕明
(72)【発明者】
【氏名】所澤 愛子
(72)【発明者】
【氏名】伊藤 均
(72)【発明者】
【氏名】三島 剛
(72)【発明者】
【氏名】河合 吉彦
(72)【発明者】
【氏名】小森 智康
(72)【発明者】
【氏名】小川 哲司
(72)【発明者】
【氏名】佐藤 庄衛
(57)【要約】
【課題】遠方発話等の音声をも高い精度で認識することができるようにする音声認識モデル学習装置および音声認識装置を提供する。
【解決手段】音声認識処理部は、音声に基づいて、音声認識結果に関する認識結果情報を求める、機械学習可能な音声認識モデルを備える。学習処理部は、音声認識モデルを学習するための学習用音声と、学習用音声に対応する正解の認識結果情報である正解情報とを供給する。音声加工処理部は、学習用音声の、所定周波数より高い周波数の領域を、所定減衰率以下に減衰させる加工を行って、音声認識処理部の入力側に供給する。学習処理部は、ロス算出部が算出するロスに基づいて、音声認識モデルが内部パラメーターを調整するよう制御する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
入力される音声に基づいて、音声認識結果に関する認識結果情報を求める、機械学習可能な音声認識モデルを備えた音声認識処理部と、
前記音声認識モデルを学習するための学習用音声と、前記学習用音声に対応する正解の認識結果情報である正解情報とを供給する学習処理部と、
前記学習用音声の、所定周波数より高い周波数の領域を、所定減衰率以下に減衰させる加工を行って、前記音声認識処理部の入力側に供給する音声加工処理部と、
前記音声加工処理部による加工後の前記学習用音声に基づいて前記音声認識処理部が求めた認識結果情報と、前記学習処理部から供給される前記正解情報と、のロスを算出するロス算出部と、
を備え、
前記学習処理部は、前記ロス算出部が算出する前記ロスに基づいて、前記音声認識モデルが内部パラメーターを調整するよう制御する、
音声認識モデル学習装置。
【請求項2】
前記所定周波数は1500ヘルツであり、前記所定減衰率は0.65である、
請求項1に記載の音声認識モデル学習装置。
【請求項3】
前記音声加工処理部は、前記所定周波数以上の周波数の領域において周波数に対して単調減少する減衰率にしたがって、前記学習用音声を減衰させる、
請求項1または請求項2に記載の音声認識モデル学習装置。
【請求項4】
前記音声加工処理部は、所定の室内を表すパラメーターの値に基づいて、前記学習用音声に室内インパルスレスポンスを付加する処理も行う、
請求項1から3までのいずれか一項に記載の音声認識モデル学習装置。
【請求項5】
前記音声加工処理部は、所定の信号対雑音比のパラメーターの値に基づいて、前記学習用音声に雑音を付加する処理をさらに行う、
請求項1から4までのいずれか一項に記載の音声認識モデル学習装置。
【請求項6】
前記音声加工処理部は、前記学習用音声に対して、所定の時間帯の時間マスキングまたは所定の周波数帯の周波数マスキングの少なくともいずれかの処理をさらに行う、
請求項1から5までのいずれか一項に記載の音声認識モデル学習装置。
【請求項7】
音声を入力する入力部と、
入力される音声に基づいて、音声認識結果に関する認識結果情報を求める、機械学習可能な音声認識モデルを備えた音声認識処理部と、
前記音声認識処理部が求めた前記認識結果情報を外部に出力する出力部と、
前記音声認識モデルを学習するための学習用音声と、前記学習用音声に対応する正解の認識結果情報である正解情報とを供給する学習処理部と、
前記学習用音声の、所定周波数より高い周波数の領域を、所定減衰率以下に減衰させる加工を行って、前記音声認識処理部の入力側に供給する音声加工処理部と、
前記音声加工処理部による加工後の前記学習用音声に基づいて前記音声認識処理部が求めた認識結果情報と、前記学習処理部から供給される前記正解情報と、のロスを算出するロス算出部と、
を備え、
前記学習処理部は、前記ロス算出部が算出する前記ロスに基づいて、前記音声認識モデルが内部パラメーターを調整するよう制御する、
音声認識装置。
【請求項8】
入力される音声に基づいて、音声認識結果に関する認識結果情報を求める、機械学習可能な音声認識モデルを備えた音声認識処理部と、
前記音声認識モデルを学習するための学習用音声と、前記学習用音声に対応する正解の認識結果情報である正解情報とを供給する学習処理部と、
前記学習用音声の、所定周波数より高い周波数の領域を、所定減衰率以下に減衰させる加工を行って、前記音声認識処理部の入力側に供給する音声加工処理部と、
前記音声加工処理部による加工後の前記学習用音声に基づいて前記音声認識処理部が求めた認識結果情報と、前記学習処理部から供給される前記正解情報と、のロスを算出するロス算出部と、
を備え、
前記学習処理部は、前記ロス算出部が算出する前記ロスに基づいて、前記音声認識モデルが内部パラメーターを調整するよう制御する、
音声認識モデル学習装置、としてコンピューターを機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識モデル学習装置、音声認識装置、およびプログラムに関する。
【背景技術】
【0002】
機械学習を用いて音声認識処理の性能改善を行うためには、認識対象となる音声データの音響的特徴を有する学習用データを用いて、モデル(ニューラルネットワーク等)の学習を行う。認識対象となる音響的特徴を有した学習用データ(音声データ)を(量等において)十分に用意できない場合、音声認識精度を向上させるための一手法として、学習用の音声データが所望の特徴を持つように、人為的に音声データを加工する方法がある。
【0003】
非特許文献1には、SpecAugmentと呼ばれる手法が記載されている。SpecAugmentは、音響特徴量を時間方向あるいは周波数方向にマスクすることによって音声データを拡張する手法である。この手法を用いることにより、学習過程における学習用データへの過適応を防ぐことができる。つまり、音声認識モデルの汎化性能を向上させることができる。
【0004】
非特許文献2には、ルームシミュレーターによるRIR(Room Impulse Response、室内インパルス応答)を音声データに付加し、学習用データとして使用することが記載されている。RIRを付加することは、遠方発話の音響的特徴を得ることができる。
【0005】
非特許文献3には、音声データにノイズを付加して学習用データとして使用することが記載されている。このような学習用データを用いることにより、背景雑音に対して頑強な音声認識モデルを作成できる。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】Daniel S. Park,外6名,“SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition” ,In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH) ,pp. 2613-2617,2019年,https://arxiv.org/pdf/1904.08779.pdf
【非特許文献2】Ivan Medennikov,外10名,“The STC ASR System for the VOiCES from a Distance Challenge 2019”,In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH) ,pp. 2453-2457,2019年.
【非特許文献3】Shi Yin,外7名,“Noisy Training for Deep Neural Networks in Speech Recognition” ,In Proc. EURASIP Journal on Audio, Speech, and Music,pp. 16-20, 2015年.
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、音声認識技術を実業務で利用するためには、さらに音声認識精度を高めることが求められる。例えば放送局では、番組を制作する際の情報源として、取材で得られた映像素材や、放送局内外から送られてくる伝送素材などが活用されている。これらの素材を活用するためには、映像内の発話内容を文字にした書き起こしが必要であるが、書き起こしを制作するためには多くの労力を必要とし、書き起こしの作業の効率化が求められている。音声認識技術を使用して作業の効率化を図るためには、さらに様々な環境における発話音声を良好に認識できるようにすることが望ましい。特に、映像素材などに含まれる、遠方発話の音声(マイクロフォンを向けられていない発話者による発話音声等)も高い精度で認識できるようにすることが求められる。
【0008】
本発明は、上記のような課題認識に基づいて行なわれたものであり、遠方発話等の音声をも高い精度で認識することができるようにする音声認識モデル学習装置、音声認識装置、およびプログラムを提供しようとするものである。
【課題を解決するための手段】
【0009】
[1]上記の課題を解決するため、本発明の一態様による音声認識モデル学習装置は、入力される音声に基づいて、音声認識結果に関する認識結果情報を求める、機械学習可能な音声認識モデルを備えた音声認識処理部と、前記音声認識モデルを学習するための学習用音声と、前記学習用音声に対応する正解の認識結果情報である正解情報とを供給する学習処理部と、前記学習用音声の、所定周波数より高い周波数の領域を、所定減衰率以下に減衰させる加工を行って、前記音声認識処理部の入力側に供給する音声加工処理部と、前記音声加工処理部による加工後の前記学習用音声に基づいて前記音声認識処理部が求めた認識結果情報と、前記学習処理部から供給される前記正解情報と、のロスを算出するロス算出部と、を備え、前記学習処理部は、前記ロス算出部が算出する前記ロスに基づいて、前記音声認識モデルが内部パラメーターを調整するよう制御する。
【0010】
[2]また、本発明の一態様は、上記の音声認識モデル学習装置において、前記所定周波数は1500ヘルツであり、前記所定減衰率は0.65である、というものである。
【0011】
[3]また、本発明の一態様は、上記の音声認識モデル学習装置において、前記音声加工処理部は、前記所定周波数以上の周波数の領域において周波数に対して単調減少する減衰率にしたがって、前記学習用音声を減衰させる。
【0012】
[4]また、本発明の一態様は、上記の音声認識モデル学習装置において、前記音声加工処理部は、所定の室内を表すパラメーターの値に基づいて、前記学習用音声に室内インパルスレスポンスを付加する処理も行う。
【0013】
[5]また、本発明の一態様は、上記の音声認識モデル学習装置において、前記音声加工処理部は、所定の信号対雑音比のパラメーターの値に基づいて、前記学習用音声に雑音を付加する処理をさらに行う。
【0014】
[6]また、本発明の一態様は、上記の音声認識モデル学習装置において、前記音声加工処理部は、前記学習用音声に対して、所定の時間帯の時間マスキングまたは所定の周波数帯の周波数マスキングの少なくともいずれかの処理をさらに行う。
【0015】
[7]また、本発明の一態様による音声認識装置は、音声を入力する入力部と、入力される音声に基づいて、音声認識結果に関する認識結果情報を求める、機械学習可能な音声認識モデルを備えた音声認識処理部と、前記音声認識処理部が求めた前記認識結果情報を外部に出力する出力部と、前記音声認識モデルを学習するための学習用音声と、前記学習用音声に対応する正解の認識結果情報である正解情報とを供給する学習処理部と、前記学習用音声の、所定周波数より高い周波数の領域を、所定減衰率以下に減衰させる加工を行って、前記音声認識処理部の入力側に供給する音声加工処理部と、前記音声加工処理部による加工後の前記学習用音声に基づいて前記音声認識処理部が求めた認識結果情報と、前記学習処理部から供給される前記正解情報と、のロスを算出するロス算出部と、を備え、前記学習処理部は、前記ロス算出部が算出する前記ロスに基づいて、前記音声認識モデルが内部パラメーターを調整するよう制御するものである。
【0016】
[8]また、本発明の一態様は、入力される音声に基づいて、音声認識結果に関する認識結果情報を求める、機械学習可能な音声認識モデルを備えた音声認識処理部と、前記音声認識モデルを学習するための学習用音声と、前記学習用音声に対応する正解の認識結果情報である正解情報とを供給する学習処理部と、前記学習用音声の、所定周波数より高い周波数の領域を、所定減衰率以下に減衰させる加工を行って、前記音声認識処理部の入力側に供給する音声加工処理部と、前記音声加工処理部による加工後の前記学習用音声に基づいて前記音声認識処理部が求めた認識結果情報と、前記学習処理部から供給される前記正解情報と、のロスを算出するロス算出部と、を備え、前記学習処理部は、前記ロス算出部が算出する前記ロスに基づいて、前記音声認識モデルが内部パラメーターを調整するよう制御する、音声認識モデル学習装置、としてコンピューターを機能させるプログラムである。
【発明の効果】
【0017】
本発明によれば、遠方発話等の音声を模した擬似的な学習用データを生成し、音声認識モデルの学習を行えるようになる。これにより、様々な状況で収録された音声に基づいて、高い精度で音声認識処理を行うことが可能となる。
【図面の簡単な説明】
【0018】
【
図1】本発明の実施形態による音声認識装置(音声認識モデル学習装置)の概略機能構成を示すブロック図である。
【
図2】同実施形態による高域減衰処理部が音声の減衰処理を行う際の、周波数と減衰率との関係を表すグラフの第1例である。
【
図3】同実施形態による高域減衰処理部が音声の減衰処理を行う際の、周波数と減衰率との関係を表すグラフの第2例である。
【
図4】同実施形態による高域減衰処理部が音声の減衰処理を行う際の、周波数と減衰率との関係を表すグラフの第3例である。
【
図5】同実施形態による音声認識装置の内部構成の例を示すブロック図である。
【発明を実施するための形態】
【0019】
次に、本発明の一実施形態について、図面を参照しながら説明する。
【0020】
図1は、本実施形態による音声認識装置の概略機能構成を示すブロック図である。音声認識装置1は、入力される音声を認識して、認識結果を出力する。認識結果はテキストデータ等として表現される。音声認識装置1は、内部に音声認識モデルを備えている。音声認識モデルは、機械学習可能なモデルである。音声認識装置1は、「音声認識モデル学習装置」とも呼ばれる。
【0021】
図示するように、音声認識装置1は、入力部11と、音声認識処理部12と、出力部13と、学習処理部21と、音声加工処理部22と、ロス算出部23とを含んで構成される。音声加工処理部22は、さらに、高域減衰処理部221と、RIR付加処理部222と、雑音付加処理部223と、SpecAugment処理部224とを含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。各部の機能を次に説明する。
【0022】
入力部11は、認識処理の対象の音声を外部から取得(入力)する。入力される音声は、例えば、振幅波形に対応する音声データである。入力される音声は、振幅波形から抽出される音響特徴量の音声データであってもよい。
【0023】
音声認識処理部12は、入力される音声に基づいて、音声認識結果に関する認識結果情報を求める。音声認識処理部12は、機械学習可能な音声認識モデルを備えている。音声認識処理部12は、認識結果を出力する。認識結果情報は、例えば、テキストデータである。認識結果情報は、例えば、認識結果である形態素列の仮説であってもよい。形態素列の仮説は、半順序の列であってもよい。音声認識処理部12は、内部にモデルを備える。このモデルを音声認識モデルと呼ぶ。モデルは、内部パラメーターを持っており、機械学習によってこの内部パラメーターの値を調整(更新)することができる。音声認識モデルは、例えば、音響モデルと言語モデルとで構成される。音響モデルは、音響特徴量と音素とを対応付けるための情報を、内部パラメーターの値の集合として持つ。言語モデルは、音素の列の言語らしさに基づいて、音素列あるいは形態素列を出力するものである。
【0024】
出力部13は、音声認識処理部12が求めた認識結果情報を外部に出力する。出力部13は、例えば、認識結果を、テキストデータとして出力する。
【0025】
学習処理部21は、音声認識処理部12が持つ音声認識モデルを学習するための、学習用音声と、前記学習用音声に対応する正解の認識結果情報である正解情報との対を供給する。学習処理部21は、学習用音声を、音声加工処理部22に渡す。学習処理部21は、正解情報をロス算出部23に渡す。学習処理部21は、ロス算出部23が算出するロスに基づいて、前記音声認識モデルが内部パラメーターを調整(更新)するよう制御する。この処理は、学習処理部21は、音声認識モデルが、上記のロスに基づいて誤差逆伝播法によって内部パラメーターを更新するようにするものである。
【0026】
音声加工処理部22は、学習処理部21が供給する学習用音声を加工し、加工後の学習用音声を、音声認識処理部12の入力側に供給する。音声加工処理部22は、前述の通り、高域減衰処理部221と、RIR付加処理部222と、雑音付加処理部223と、SpecAugment処理部224とを備える。これにより、音声加工処理部22は、これら4つの処理部の少なくともいずれかの処理を行うことによって、学習用音声を加工する。音声加工処理部22は、これら4つのうちの、高域減衰処理部221による処理を必須としてもよい。
【0027】
高域減衰処理部221は、学習用音声の、所定周波数より高い周波数の領域を、所定減衰率以下に減衰させる加工を行って、音声認識処理部12の入力側に供給する。なお、例えば、所定周波数は1500ヘルツであり、前記所定減衰率は0.65である。また、高域減衰処理部221は、前記所定周波数以上の周波数の領域において周波数に対して単調減少する減衰率にしたがって、前記学習用音声を減衰させるようにしてよい。RIR付加処理部222は、所定の室内を表すパラメーターの値に基づいて、学習用音声に室内インパルスレスポンスを付加する処理を行う。雑音付加処理部223は、所定の信号対雑音比のパラメーターの値に基づいて、学習用音声に雑音を付加する処理を行う。SpecAugment処理部224は、学習用音声に対して、所定の時間帯の時間マスキングまたは所定の周波数帯の周波数マスキングの少なくともいずれかの処理を行う。なお、これら4つの各部の処理の詳細については後述する。
【0028】
ロス算出部23は、音声認識処理部12が持つ音声認識モデルの学習を行う際に、学習処理のためのロス(損失、差)を算出する。具体的には、ロス算出部23は、音声加工処理部22による加工後の学習用音声に基づいて音声認識処理部12その時点での内部パラメーターの値に基づいて求めた認識結果情報と、学習処理部21から供給される正解情報(認識結果の正解)とのロスを算出する。
【0029】
音声加工処理部22における音声加工処理の詳細は、次の通りである。
【0030】
高域減衰処理部221は、入力される音声の高域を減衰させる処理を行う。高域減衰処理部221は、一例として、音声を離散フーリエ変換した振幅スペクトルを、下の式(1)にしたがって指数減衰させる。
【0031】
【0032】
ただし、式(1)において、fは周波数、X[f]は減衰させる前の振幅スペクトル、Y[f]は減衰させた後の振幅スペクトル、βは設定可能なパラメーターである。βの具体的な値は、例えば、後で示す条件を満たす範囲内でランダムに選択してよい。また、パラメーターの値を、その他の値として適宜設定してもよい。なお、ランダムに選択した結果がβ=1となってもよいし、β<1に限定してもよい。
【0033】
なお、高域減衰処理部221による振幅の減衰の比を、減衰率と呼ぶ。ここでは、減衰率は、Y[f]/X[f]と表される。本実施形態においては、高域を十分に減衰させることが望ましい。具体的な例として、周波数1500Hz以上の領域において、減衰率が常に0.65以下であることが望ましい。式(1)で表わすような周波数に応じた指数減衰とする場合には、パラメーターβが1以下であり、且つ周波数1500Hzにおける減衰率が0.65であれば、周波数1500Hz以上の領域において、減衰率は常に0.65以下である。そのような減衰率の分布とすることにより、入力されるデータの高域の成分が十分に減衰する。これにより、高域成分が減衰した音声データを用いて、音声認識モデルの学習を行えるようになる。これにより、音声認識装置の認識精度の向上を図ることができる。なお、音声の減衰のさせ方は、式(1)に示したような指数減衰でなくてもよい。音声の減衰のさせ方の他の例については、後で別の図を参照しながら説明する。
【0034】
RIR付加処理部222は、音声に、RIR(室内インパルス応答)を付加する処理を行う。具体的には、RIR付加処理部222は、ルームシミュレーターを用いて、所定の条件下でのRIRを音声に付加する。RIR付加処理部222は、ルームシミュレーターによって、例えば直方体の部屋空間を生成し、その部屋内に一対の音源とマイクロフォンを設置し,鏡像法によってRIRを生成し、音声に付加する。部屋の内側の6面は壁である。パラメーターRx、Ry、Rzは、それぞれ、部屋の内側壁面(天井面と床面とを含む)間のサイズ(単位は、メートル)である。Rxは幅方向、Ryは奥行き方向、Rzは高さ方向のサイズである。幅方向と奥行き方向と高さ方向とは、互いに直交する。パラメーターαは、壁における音声の反射率である。パラメーターSx、Sy、Szは、発話者(音源)の位置の座標(単位は、メートル)である。パラメーターMx、My、Mzは、マイクロフォン(音声取得場所)の位置の座標(単位は、メートル)である。発話者とマイクロフォンとがともに部屋内に存在するとき、0≦Sx,Mx≦Rx、0≦Sy,My≦Ry、0≦Sz,Mz≦Rzとする。なお、パラメーターの具体的な値は、例えば、後で示す条件を満たす範囲内でランダムに選択してよい。また、パラメーターの値を、その他の値としてもよい。
【0035】
雑音付加処理部223は、入力される音声データに、白色雑音を付加する。雑音付加処理部223が、白色雑音以外の雑音を音声データに付加するようにしてもよい。雑音付加処理部223は、例えば、入力される音声データの信号の強さに応じて、所定のSNR(信号対雑音比,signal-to-noise ratio)の雑音を付加してよい。SNRの値をパラメーターとしてよい。SNRの具体的な値は、例えば、後で示す条件を満たす範囲内でランダムに選択してよい。また、SNRの値を、他の値としてもよい。
【0036】
SpecAugment処理部224は、入力される音声に対して、時間マスキングまたは周波数マスキング、あるいはそれらの両方のマスキングの処理を行う。SpecAugment処理部224は、例えば同一の音声データに対して、様々に変えたマスキングパターンでの処理を行ってもよい。具体的には、SpecAugment処理部224は、入力されるデータに基づいて、音声スペクトログラムを求める。音声スペクトログラムは、周波数成分の経時的変化を表す。音声スペクトログラムは、時間と周波数とが直交する2次元空間上での信号成分の強さとして表現される。上記の時間マスキングは、所定の長さの時間的に連続するブロックの情報をマスキングするものである。上記の周波数マスキングは、所定の幅の連続する周波数のブロックの情報をマスキングするものである。つまり、SpecAugmentの処理は、所定の時間帯または所定の周波数帯の情報をマスキングこすことによるデータ拡張手法である。SpecAugment処理部224は、マスキング処理の対象とする時間帯や周波数帯を、例えばランダムに選んでもよい。
【0037】
下の表1は、パラメーター設定条件の例を示している。ただし、ここに挙げる条件は一例であり、他の条件のパラメーター設定としてもよい。なお、この表内において、min()は、引数の中の最小値を出力する関数である。
【0038】
【0039】
音声加工処理部22は、例えば設定情報等に基づき、上で列挙した4種類の音声加工の処理のうちの任意の処理を選択して、選択された処理を任意の順序で実行するようにできる。各処理を選択するか否かに応じて、下の15通りのバリエーションのどれを実行するようにしてもよい。
【0040】
(1)本バリエーションでは、RIR付加(RIR付加処理部222)の処理を行わない。また、高域減衰(高域減衰処理部221)の処理を行わない。また、雑音付加(雑音付加処理部223)の処理を行わない。また、SpecAugment(SpecAugment処理部224)の処理を行う。
【0041】
(2)本バリエーションでは、RIR付加の処理を行わない。また、高域減衰の処理を行わない。また、雑音付加の処理を行う。また、SpecAugmentの処理を行わない。
【0042】
(3)本バリエーションでは、RIR付加の処理を行わない。また、高域減衰の処理を行わない。また、雑音付加の処理を行う。また、SpecAugmentの処理を行う。順序は、例えばただし、処理の順序として、例えば、第1に雑音付加の処理を行い、第2にSpecAugmentの処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。
【0043】
(4)本バリエーションでは、RIR付加の処理を行わない。また、高域減衰の処理を行う。また、雑音付加の処理を行わない。また、SpecAugmentの処理を行わない。
【0044】
(5)本バリエーションでは、RIR付加の処理を行わない。また、高域減衰の処理を行う。また、雑音付加の処理を行わない。また、SpecAugmentの処理を行う。ただし、処理の順序として、例えば、第1に高域減衰の処理を行い、第2にSpecAugmentの処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。
【0045】
(6)本バリエーションでは、RIR付加の処理を行わない。また、高域減衰の処理を行う。また、雑音付加の処理を行う。また、SpecAugmentの処理を行わない。ただし、処理の順序として、例えば、第1に高域減衰の処理を行い、第2に雑音付加の処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。
【0046】
(7)本バリエーションでは、RIR付加の処理を行わない。また、高域減衰の処理を行う。また、雑音付加の処理を行う。また、SpecAugmentの処理を行う。ただし、処理の順序として、例えば、第1に高域減衰の処理を行い、第2に雑音付加の処理を行い、第3にSpecAugmentの処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。
【0047】
(8)本バリエーションでは、RIR付加の処理を行う。また、高域減衰の処理を行わない。また、雑音付加の処理を行わない。また、SpecAugmentの処理を行わない。
【0048】
(9)本バリエーションでは、RIR付加の処理を行う。また、高域減衰の処理を行わない。また、雑音付加の処理を行わない。また、SpecAugmentの処理を行う。ただし、処理の順序として、例えば、第1にRIR付加の処理を行い、第2にSpecAugmentの処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。
【0049】
(10)本バリエーションでは、RIR付加の処理を行う。また、高域減衰の処理を行わない。また、雑音付加の処理を行う。また、SpecAugmentの処理を行わない。ただし、処理の順序として、例えば、第1にRIR付加の処理を行い、第2に雑音付加の処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。
【0050】
(11)本バリエーションでは、RIR付加の処理を行う。また、高域減衰の処理を行わない。また、雑音付加の処理を行う。また、SpecAugmentの処理を行う。ただし、処理の順序として、例えば、第1にRIR付加の処理を行い、第2に雑音付加の処理を行い、第3にSpecAugmentの処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。
【0051】
(12)本バリエーションでは、RIR付加の処理を行う。また、高域減衰の処理を行う。また、雑音付加の処理を行わない。また、SpecAugmentの処理を行わない。ただし、処理の順序として、例えば、第1にRIR付加の処理を行い、第2に高域減衰の処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。
【0052】
(13)本バリエーションでは、RIR付加の処理を行う。また、高域減衰の処理を行う。また、雑音付加の処理を行わない。また、SpecAugmentの処理を行う。ただし、処理の順序として、例えば、第1にRIR付加の処理を行い、第2に高域減衰の処理を行い、第3にSpecAugmentの処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。
【0053】
(14)本バリエーションでは、RIR付加の処理を行う。また、高域減衰の処理を行う。また、雑音付加の処理を行う。また、SpecAugmentの処理を行わない。ただし、処理の順序として、例えば、第1にRIR付加の処理を行い、第2に高域減衰の処理を行い、第3に雑音付加の処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。
【0054】
(15)本バリエーションでは、RIR付加の処理を行う。また、高域減衰の処理を行う。また、雑音付加の処理を行う。また、SpecAugmentの処理を行う。ただし、処理の順序として、例えば、第1にRIR付加の処理を行い、第2に高域減衰の処理を行い、第3に雑音付加の処理を行い、第4にSpecAugmentの処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。
【0055】
ここで、
図2、
図3、
図4を参照しながら、高域減衰処理部221の別態様について説明する。既に音声の周波数に応じた指数減衰をする例については説明したが、高域減衰処理部221の処理が式(1)で表わしたような指数減衰であることは必ずしも必要ない。
【0056】
図2は、高域減衰処理部221が入力される音声の減衰処理を行う際の、周波数と減衰率との関係を表すグラフの例である。このグラフの横軸は周波数であり、縦軸は減衰率である。このグラフは、可聴周波数領域における減衰率を示す。減衰率の定義は既に説明した通りである。図示するように、このグラフの例においては、全周波数の領域(ただし、可聴領域)において、減衰率は単調に減少している。また、グラフの形状は、上に凸である。つまり、減衰率を周波数で微分したとき、1次微分値は負で、2次微分値も負である。図中に示すように、周波数1500ヘルツにおいて、減衰率は0.65以下である。また、周波数1500ヘルツ以上の領域において、減衰率は0.65以下であり、且つ減衰率は単調に減少している。
【0057】
図3は、高域減衰処理部221が入力される音声の減衰処理を行う際の、周波数と減衰率との関係を表すグラフの別の例である。このグラフの横軸および縦軸は
図2と同様である。図示するように、このグラフの例においては、中程の周波数において減衰率の極大点が存在する。その極大点よりも周波数の高い領域においては、減衰率は単調に減少している。図中に示すように、周波数1500ヘルツにおいて、減衰率は0.65以下である。また、周波数1500ヘルツ以上の領域において、減衰率は0.65以下であり、且つ減衰率は単調に減少している。
【0058】
図4は、高域減衰処理部221が入力される音声の減衰処理を行う際の、周波数と減衰率との関係を表すグラフのさらに別の例である。このグラフの横軸および縦軸は
図2と同様である。図示するように、このグラフの例においては、全周波数の領域(ただし、可聴領域)において、減衰率は単調に減少している。また、グラフの形状は、下に凸である。つまり、減衰率を周波数で微分したとき、1次微分値は負で、2次微分値は正である。図中に示すように、周波数1500ヘルツにおいて、減衰率は0.65以下である。また、周波数1500ヘルツ以上の領域において、減衰率は0.65以下であり、且つ減衰率は単調に減少している。
【0059】
なお、
図2、
図3、
図4の例においては周波数1500ヘルツ以上の領域で減衰率が単調に減少していたが、実際には、必ずしも減衰率が単調減少ではなくてもよい。ただし、周波数1500ヘルツ以上の領域(ただし、可聴領域)において、常に減衰率が0.65以下であることが望ましい。
【0060】
以上、様々な例を示した通り、高域減衰処理部221は、高域の音声を減衰させる。例えば、高域減衰処理部221は、1500ヘルツ以上の音声を特に減衰させる。また、高域減衰処理部221は、高域(一例として、上記の通り1500ヘルツ以上)の音声の減衰率が0.65以下になるように、音声を減衰させる。これらのそれぞれにより、学習用データは、高域が減衰した音声を持つこととなる。つまり、その音声の高域におけるエネルギーは、相対的に低い。このような音声を持つ学習用データで、モデルの学習を行うことにより、良好とはいえない状況で録音された音声(遠方発話等の音声)からもよい精度で認識結果が得られるように、モデルが構築される。また、特に、1500ヘルツにおける減衰率から、周波数方向に単調減少するような減衰率で、高域減衰処理部221が音声を減衰させるようにしてもよい。これにより、周波数が高い領域ほど、強く減衰した音声データを用いて、モデルの学習が行えるようになる。そのため、良好とはいえない状況で録音された音声からも、さらによい精度で認識結果が得られるようになる。なお、上記の1500ヘルツという周波数や、0.65という減衰率は、発明者らが高域減衰処理部221を検討する過程で、よい効果を得るために特に必要と認めた条件に基づく数値である。
【0061】
図5は、音声認識装置1の内部構成の例を示すブロック図である。音声認識装置1は、コンピューターを用いて実現され得る。図示するように、そのコンピューターは、中央処理装置901と、RAM902と、入出力ポート903と、入出力デバイス904や905等と、バス906と、を含んで構成される。コンピューター自体は、既存技術を用いて実現可能である。中央処理装置901は、RAM902等から読み込んだプログラムに含まれる命令を実行する。中央処理装置901は、各命令にしたがって、RAM902にデータを書き込んだり、RAM902からデータを読み出したり、算術演算や論理演算を行ったりする。RAM902は、データやプログラムを記憶する。RAM902に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、RAMは、「ランダムアクセスメモリー」の略である。入出力ポート903は、中央処理装置901が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス904や905は、入出力デバイスである。入出力デバイス904や905は、入出力ポート903を介して中央処理装置901との間でデータをやりとりする。バス906は、コンピューター内部で使用される共通の通信路である。例えば、中央処理装置901は、バス906を介してRAM902のデータを読んだり書いたりする。また、例えば、中央処理装置901は、バス906を介して入出力ポートにアクセスする。
【0062】
音声認識装置1の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0063】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【0064】
[実験と評価]
記者会見において録音した音声を対象として、本実施形態で説明した音声認識装置1が実際に音声認識処理を行うことによって、性能を評価した。評価対象として選定した音声は、合計8時間分の記者会見の音声であり、84,808単語の発話を含む。そのうち、記者による質問などの遠方発話10,381単語分の音声認識処理を行った。音声認識処理のためのモデルの学習用のデータの生成においては、本実施形態で説明した手法(RIR付加、高域減衰、雑音付加、SpecAugment)のそれぞれを、単独で、あるいは組み合わせて適用した。そして、各手法を適用したそれぞれの場合を、単語誤り率(WER,Word Error Rate)で比較した。単語誤り率は、音声認識処理の分野でも使用される評価指標である。音声認識用モデル(音響モデル)の学習用データは、日本放送協会ああ放送した番組音声500時間分である。学習用データには、評価対象データとは異なり、遠方発話の音声はほとんど含まれていない。この学習用データを用いて、DNN-HMMハイブリッド方式にて音響モデルを学習した。使用したモデルは、TDNN(時間遅延ニューラルネットワーク,Time Delay Neural Network)である。音声を加工する手法の適用順序は、RIR付加、周波数の高域減衰、雑音付加、SpecAugmentの順とした。雑音付加においては、15≦SNR≦30(単位は、デシベル)の範囲で、学習データごとにランダムにSNRを設定し、白色雑音を付加した。
【0065】
下の表2に示すA~Kの各手法の組合せパターンにより、上記学習用データの加工を行い、TDNNを学習させた。この表において、付いているチェックマークは、各パターンが採用した音声加工の手法である。また「-」の印は、採用しなかった音声加工の手法を表している。例えば、Fのパターンは、RIR付加と高域減衰とを採用し、雑音付加とSpecAugmentとを採用していないことを表している。パターンAは、音声加工の手法をどれも採用しなかったパターンであり、比較対象である。なお、表2は、A~Kのそれぞれのパターンを用いた場合の単語誤り率(WER)も示している。
【0066】
【0067】
対策をしないベースライン(パターンA)のWERは98.6%であり、ほとんど音声認識できていない。
4つ手法それぞれを単独で適用した場合(パターンB、C、D、E)、WERはそれぞれ、88.8%、98.1%、98.3%、98.4%である。つまり、4つの手法のそれぞれが、音声認識精度の向上に寄与することを表している。中でも、RIR付加の手法は、WERの大幅な改善を示している。
最も改善効果があったRIR付加(パターンB)に加え、その他の3手法をそれぞれ組み合わせて適用する(パターンF、G、H)と、それぞれにおいてWERの改善が見られた。中でも、RIR付加と高域減衰とを組み合わせた場合(パターンF)は、上記のパターンBと比べて、2.4%の改善(88.8%から86.4%へ)を見せた。
RIR付加と高域減衰と雑音付加とを組み合わせた場合(パターンJ)には、WERは84.6%に改善された。AからKまでの中で最も改善効果が大きかったのは、RIR付加と高域減衰と雑音付加とSpecAugmentとの4手法を組み合わせた場合(パターンK)であり、そのWERは84.0%であった。
【0068】
高域減衰の手法に特に着目すると、次の通りである。
パターンA(いずれの音声加工の手法をも採用しない場合)のWERが98.6%であるのに対して、高域減衰のみを単独で採用したパターンCのWERは98.1%であった。つまり、高域減衰を適用することによる効果を確認できた。
パターンB(RIR付加のみを採用した場合)のWERが88.8%であるのに対し、RIR付加と高域減衰とを組み合わせたパターンFのWERは86.4%であった。つまり、RIR付加と、さらに高域減衰を適用することによる効果を確認できた。
パターンG(RIR付加と雑音付加とを採用した場合)のWERが88.5%であるのに対し、さらに高域負荷を組み合わせて採用したパターンJのWERが84.6%と大きく改善した。つまり、RIR付加と雑音付加とに加えて、さらに高域減衰を適用することによる効果を確認できた。
また、高域減衰を含む4つのすべての手法を組み合わせたパターンKでは、前述の通り、WERが84.0%であった。つまり、ここでも高域減衰が認識精度の改善に寄与していることを示唆している。
【0069】
以上のように、実験により、高域減衰の手法の有効性が確認された。また、高域減衰の手法を他の手法と組み合わせた場合にさらに認識精度が改善されることが確認された。
【産業上の利用可能性】
【0070】
本発明は、例えば、音声認識処理や、音響データに関する機械学習処理に利用することができる。一例としては、映像コンテンツの制作等において、必ずしも良好に録音されたわけではない発話音声を含んだ素材映像から、低コストで文字の書き起こしを作成するために利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。
【符号の説明】
【0071】
1 音声認識装置(音声認識モデル学習装置)
11 入力部
12 音声認識処理部
13 出力部
21 学習処理部
22 音声加工処理部
23 ロス算出部
221 高域減衰処理部
222 RIR付加処理部
223 雑音付加処理部
224 SpecAugment処理部
901 中央処理装置
902 RAM
903 入出力ポート
904,905 入出力デバイス
906 バス