特開2022-37413 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人ＮＨＫエンジニアリングシステムの特許一覧

特開2022-37413音声認識モデル学習装置、音声認識装置、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022037413

(43)【公開日】2022-03-09

(54)【発明の名称】音声認識モデル学習装置、音声認識装置、およびプログラム

(51)【国際特許分類】

G10L 15/06 20130101AFI20220302BHJP

【ＦＩ】

G10L15/06 300C

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2020141537

(22)【出願日】2020-08-25

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(71)【出願人】

【識別番号】591053926

【氏名又は名称】一般財団法人ＮＨＫエンジニアリングシステム

(74)【代理人】

【識別番号】100141139

【弁理士】

【氏名又は名称】及川周

(74)【代理人】

【識別番号】100171446

【弁理士】

【氏名又は名称】高田尚幸

(74)【代理人】

【識別番号】100114937

【弁理士】

【氏名又は名称】松本裕幸

(74)【代理人】

【識別番号】100171930

【弁理士】

【氏名又は名称】木下郁一郎

(72)【発明者】

【氏名】佐藤裕明

(72)【発明者】

【氏名】所澤愛子

(72)【発明者】

【氏名】伊藤均

(72)【発明者】

【氏名】三島剛

(72)【発明者】

【氏名】河合吉彦

(72)【発明者】

【氏名】小森智康

(72)【発明者】

【氏名】小川哲司

(72)【発明者】

【氏名】佐藤庄衛

(57)【要約】

【課題】遠方発話等の音声をも高い精度で認識することができるようにする音声認識モデル学習装置および音声認識装置を提供する。
【解決手段】音声認識処理部は、音声に基づいて、音声認識結果に関する認識結果情報を求める、機械学習可能な音声認識モデルを備える。学習処理部は、音声認識モデルを学習するための学習用音声と、学習用音声に対応する正解の認識結果情報である正解情報とを供給する。音声加工処理部は、学習用音声の、所定周波数より高い周波数の領域を、所定減衰率以下に減衰させる加工を行って、音声認識処理部の入力側に供給する。学習処理部は、ロス算出部が算出するロスに基づいて、音声認識モデルが内部パラメーターを調整するよう制御する。
【選択図】図１

【特許請求の範囲】

【請求項1】

入力される音声に基づいて、音声認識結果に関する認識結果情報を求める、機械学習可能な音声認識モデルを備えた音声認識処理部と、
前記音声認識モデルを学習するための学習用音声と、前記学習用音声に対応する正解の認識結果情報である正解情報とを供給する学習処理部と、
前記学習用音声の、所定周波数より高い周波数の領域を、所定減衰率以下に減衰させる加工を行って、前記音声認識処理部の入力側に供給する音声加工処理部と、
前記音声加工処理部による加工後の前記学習用音声に基づいて前記音声認識処理部が求めた認識結果情報と、前記学習処理部から供給される前記正解情報と、のロスを算出するロス算出部と、
を備え、
前記学習処理部は、前記ロス算出部が算出する前記ロスに基づいて、前記音声認識モデルが内部パラメーターを調整するよう制御する、
音声認識モデル学習装置。

【請求項2】

前記所定周波数は１５００ヘルツであり、前記所定減衰率は０．６５である、
請求項１に記載の音声認識モデル学習装置。

【請求項3】

前記音声加工処理部は、前記所定周波数以上の周波数の領域において周波数に対して単調減少する減衰率にしたがって、前記学習用音声を減衰させる、
請求項１または請求項２に記載の音声認識モデル学習装置。

【請求項4】

前記音声加工処理部は、所定の室内を表すパラメーターの値に基づいて、前記学習用音声に室内インパルスレスポンスを付加する処理も行う、
請求項１から３までのいずれか一項に記載の音声認識モデル学習装置。

【請求項5】

前記音声加工処理部は、所定の信号対雑音比のパラメーターの値に基づいて、前記学習用音声に雑音を付加する処理をさらに行う、
請求項１から４までのいずれか一項に記載の音声認識モデル学習装置。

【請求項6】

前記音声加工処理部は、前記学習用音声に対して、所定の時間帯の時間マスキングまたは所定の周波数帯の周波数マスキングの少なくともいずれかの処理をさらに行う、
請求項１から５までのいずれか一項に記載の音声認識モデル学習装置。

【請求項7】

音声を入力する入力部と、
入力される音声に基づいて、音声認識結果に関する認識結果情報を求める、機械学習可能な音声認識モデルを備えた音声認識処理部と、
前記音声認識処理部が求めた前記認識結果情報を外部に出力する出力部と、
前記音声認識モデルを学習するための学習用音声と、前記学習用音声に対応する正解の認識結果情報である正解情報とを供給する学習処理部と、
前記学習用音声の、所定周波数より高い周波数の領域を、所定減衰率以下に減衰させる加工を行って、前記音声認識処理部の入力側に供給する音声加工処理部と、
前記音声加工処理部による加工後の前記学習用音声に基づいて前記音声認識処理部が求めた認識結果情報と、前記学習処理部から供給される前記正解情報と、のロスを算出するロス算出部と、
を備え、
前記学習処理部は、前記ロス算出部が算出する前記ロスに基づいて、前記音声認識モデルが内部パラメーターを調整するよう制御する、
音声認識装置。

【請求項8】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声認識モデル学習装置、音声認識装置、およびプログラムに関する。

【背景技術】

【0002】

機械学習を用いて音声認識処理の性能改善を行うためには、認識対象となる音声データの音響的特徴を有する学習用データを用いて、モデル（ニューラルネットワーク等）の学習を行う。認識対象となる音響的特徴を有した学習用データ（音声データ）を（量等において）十分に用意できない場合、音声認識精度を向上させるための一手法として、学習用の音声データが所望の特徴を持つように、人為的に音声データを加工する方法がある。

【0003】

非特許文献１には、SpecAugmentと呼ばれる手法が記載されている。SpecAugmentは、音響特徴量を時間方向あるいは周波数方向にマスクすることによって音声データを拡張する手法である。この手法を用いることにより、学習過程における学習用データへの過適応を防ぐことができる。つまり、音声認識モデルの汎化性能を向上させることができる。

【0004】

非特許文献２には、ルームシミュレーターによるＲＩＲ（Room Impulse Response、室内インパルス応答）を音声データに付加し、学習用データとして使用することが記載されている。ＲＩＲを付加することは、遠方発話の音響的特徴を得ることができる。

【0005】

非特許文献３には、音声データにノイズを付加して学習用データとして使用することが記載されている。このような学習用データを用いることにより、背景雑音に対して頑強な音声認識モデルを作成できる。

【先行技術文献】

【非特許文献】

【0006】

【非特許文献1】Daniel S. Park，外６名，“SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition” ，In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH) ，pp. 2613-2617，2019年，https://arxiv.org/pdf/1904.08779.pdf

【非特許文献2】Ivan Medennikov，外１０名，“The STC ASR System for the VOiCES from a Distance Challenge 2019”，In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH) ，pp. 2453-2457，2019年．

【非特許文献3】Shi Yin，外７名，“Noisy Training for Deep Neural Networks in Speech Recognition” ，In Proc. EURASIP Journal on Audio, Speech, and Music，pp. 16-20, 2015年．

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかしながら、音声認識技術を実業務で利用するためには、さらに音声認識精度を高めることが求められる。例えば放送局では、番組を制作する際の情報源として、取材で得られた映像素材や、放送局内外から送られてくる伝送素材などが活用されている。これらの素材を活用するためには、映像内の発話内容を文字にした書き起こしが必要であるが、書き起こしを制作するためには多くの労力を必要とし、書き起こしの作業の効率化が求められている。音声認識技術を使用して作業の効率化を図るためには、さらに様々な環境における発話音声を良好に認識できるようにすることが望ましい。特に、映像素材などに含まれる、遠方発話の音声（マイクロフォンを向けられていない発話者による発話音声等）も高い精度で認識できるようにすることが求められる。

【0008】

本発明は、上記のような課題認識に基づいて行なわれたものであり、遠方発話等の音声をも高い精度で認識することができるようにする音声認識モデル学習装置、音声認識装置、およびプログラムを提供しようとするものである。

【課題を解決するための手段】

【0009】

［１］上記の課題を解決するため、本発明の一態様による音声認識モデル学習装置は、入力される音声に基づいて、音声認識結果に関する認識結果情報を求める、機械学習可能な音声認識モデルを備えた音声認識処理部と、前記音声認識モデルを学習するための学習用音声と、前記学習用音声に対応する正解の認識結果情報である正解情報とを供給する学習処理部と、前記学習用音声の、所定周波数より高い周波数の領域を、所定減衰率以下に減衰させる加工を行って、前記音声認識処理部の入力側に供給する音声加工処理部と、前記音声加工処理部による加工後の前記学習用音声に基づいて前記音声認識処理部が求めた認識結果情報と、前記学習処理部から供給される前記正解情報と、のロスを算出するロス算出部と、を備え、前記学習処理部は、前記ロス算出部が算出する前記ロスに基づいて、前記音声認識モデルが内部パラメーターを調整するよう制御する。

【0010】

［２］また、本発明の一態様は、上記の音声認識モデル学習装置において、前記所定周波数は１５００ヘルツであり、前記所定減衰率は０．６５である、というものである。

【0011】

［３］また、本発明の一態様は、上記の音声認識モデル学習装置において、前記音声加工処理部は、前記所定周波数以上の周波数の領域において周波数に対して単調減少する減衰率にしたがって、前記学習用音声を減衰させる。

【0012】

［４］また、本発明の一態様は、上記の音声認識モデル学習装置において、前記音声加工処理部は、所定の室内を表すパラメーターの値に基づいて、前記学習用音声に室内インパルスレスポンスを付加する処理も行う。

【0013】

［５］また、本発明の一態様は、上記の音声認識モデル学習装置において、前記音声加工処理部は、所定の信号対雑音比のパラメーターの値に基づいて、前記学習用音声に雑音を付加する処理をさらに行う。

【0014】

［６］また、本発明の一態様は、上記の音声認識モデル学習装置において、前記音声加工処理部は、前記学習用音声に対して、所定の時間帯の時間マスキングまたは所定の周波数帯の周波数マスキングの少なくともいずれかの処理をさらに行う。

【0015】

［７］また、本発明の一態様による音声認識装置は、音声を入力する入力部と、入力される音声に基づいて、音声認識結果に関する認識結果情報を求める、機械学習可能な音声認識モデルを備えた音声認識処理部と、前記音声認識処理部が求めた前記認識結果情報を外部に出力する出力部と、前記音声認識モデルを学習するための学習用音声と、前記学習用音声に対応する正解の認識結果情報である正解情報とを供給する学習処理部と、前記学習用音声の、所定周波数より高い周波数の領域を、所定減衰率以下に減衰させる加工を行って、前記音声認識処理部の入力側に供給する音声加工処理部と、前記音声加工処理部による加工後の前記学習用音声に基づいて前記音声認識処理部が求めた認識結果情報と、前記学習処理部から供給される前記正解情報と、のロスを算出するロス算出部と、を備え、前記学習処理部は、前記ロス算出部が算出する前記ロスに基づいて、前記音声認識モデルが内部パラメーターを調整するよう制御するものである。

【0016】

［８］また、本発明の一態様は、入力される音声に基づいて、音声認識結果に関する認識結果情報を求める、機械学習可能な音声認識モデルを備えた音声認識処理部と、前記音声認識モデルを学習するための学習用音声と、前記学習用音声に対応する正解の認識結果情報である正解情報とを供給する学習処理部と、前記学習用音声の、所定周波数より高い周波数の領域を、所定減衰率以下に減衰させる加工を行って、前記音声認識処理部の入力側に供給する音声加工処理部と、前記音声加工処理部による加工後の前記学習用音声に基づいて前記音声認識処理部が求めた認識結果情報と、前記学習処理部から供給される前記正解情報と、のロスを算出するロス算出部と、を備え、前記学習処理部は、前記ロス算出部が算出する前記ロスに基づいて、前記音声認識モデルが内部パラメーターを調整するよう制御する、音声認識モデル学習装置、としてコンピューターを機能させるプログラムである。

【発明の効果】

【0017】

本発明によれば、遠方発話等の音声を模した擬似的な学習用データを生成し、音声認識モデルの学習を行えるようになる。これにより、様々な状況で収録された音声に基づいて、高い精度で音声認識処理を行うことが可能となる。

【図面の簡単な説明】

【0018】

【図1】本発明の実施形態による音声認識装置（音声認識モデル学習装置）の概略機能構成を示すブロック図である。

【図2】同実施形態による高域減衰処理部が音声の減衰処理を行う際の、周波数と減衰率との関係を表すグラフの第１例である。

【図3】同実施形態による高域減衰処理部が音声の減衰処理を行う際の、周波数と減衰率との関係を表すグラフの第２例である。

【図4】同実施形態による高域減衰処理部が音声の減衰処理を行う際の、周波数と減衰率との関係を表すグラフの第３例である。

【図5】同実施形態による音声認識装置の内部構成の例を示すブロック図である。

【発明を実施するための形態】

【0019】

次に、本発明の一実施形態について、図面を参照しながら説明する。

【0020】

図１は、本実施形態による音声認識装置の概略機能構成を示すブロック図である。音声認識装置１は、入力される音声を認識して、認識結果を出力する。認識結果はテキストデータ等として表現される。音声認識装置１は、内部に音声認識モデルを備えている。音声認識モデルは、機械学習可能なモデルである。音声認識装置１は、「音声認識モデル学習装置」とも呼ばれる。

【0021】

図示するように、音声認識装置１は、入力部１１と、音声認識処理部１２と、出力部１３と、学習処理部２１と、音声加工処理部２２と、ロス算出部２３とを含んで構成される。音声加工処理部２２は、さらに、高域減衰処理部２２１と、ＲＩＲ付加処理部２２２と、雑音付加処理部２２３と、SpecAugment処理部２２４とを含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ（ＳＳＤ）といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。各部の機能を次に説明する。

【0022】

入力部１１は、認識処理の対象の音声を外部から取得（入力）する。入力される音声は、例えば、振幅波形に対応する音声データである。入力される音声は、振幅波形から抽出される音響特徴量の音声データであってもよい。

【0023】

音声認識処理部１２は、入力される音声に基づいて、音声認識結果に関する認識結果情報を求める。音声認識処理部１２は、機械学習可能な音声認識モデルを備えている。音声認識処理部１２は、認識結果を出力する。認識結果情報は、例えば、テキストデータである。認識結果情報は、例えば、認識結果である形態素列の仮説であってもよい。形態素列の仮説は、半順序の列であってもよい。音声認識処理部１２は、内部にモデルを備える。このモデルを音声認識モデルと呼ぶ。モデルは、内部パラメーターを持っており、機械学習によってこの内部パラメーターの値を調整（更新）することができる。音声認識モデルは、例えば、音響モデルと言語モデルとで構成される。音響モデルは、音響特徴量と音素とを対応付けるための情報を、内部パラメーターの値の集合として持つ。言語モデルは、音素の列の言語らしさに基づいて、音素列あるいは形態素列を出力するものである。

【0024】

出力部１３は、音声認識処理部１２が求めた認識結果情報を外部に出力する。出力部１３は、例えば、認識結果を、テキストデータとして出力する。

【0025】

学習処理部２１は、音声認識処理部１２が持つ音声認識モデルを学習するための、学習用音声と、前記学習用音声に対応する正解の認識結果情報である正解情報との対を供給する。学習処理部２１は、学習用音声を、音声加工処理部２２に渡す。学習処理部２１は、正解情報をロス算出部２３に渡す。学習処理部２１は、ロス算出部２３が算出するロスに基づいて、前記音声認識モデルが内部パラメーターを調整（更新）するよう制御する。この処理は、学習処理部２１は、音声認識モデルが、上記のロスに基づいて誤差逆伝播法によって内部パラメーターを更新するようにするものである。

【0026】

音声加工処理部２２は、学習処理部２１が供給する学習用音声を加工し、加工後の学習用音声を、音声認識処理部１２の入力側に供給する。音声加工処理部２２は、前述の通り、高域減衰処理部２２１と、ＲＩＲ付加処理部２２２と、雑音付加処理部２２３と、SpecAugment処理部２２４とを備える。これにより、音声加工処理部２２は、これら４つの処理部の少なくともいずれかの処理を行うことによって、学習用音声を加工する。音声加工処理部２２は、これら４つのうちの、高域減衰処理部２２１による処理を必須としてもよい。

【0027】

高域減衰処理部２２１は、学習用音声の、所定周波数より高い周波数の領域を、所定減衰率以下に減衰させる加工を行って、音声認識処理部１２の入力側に供給する。なお、例えば、所定周波数は１５００ヘルツであり、前記所定減衰率は０．６５である。また、高域減衰処理部２２１は、前記所定周波数以上の周波数の領域において周波数に対して単調減少する減衰率にしたがって、前記学習用音声を減衰させるようにしてよい。ＲＩＲ付加処理部２２２は、所定の室内を表すパラメーターの値に基づいて、学習用音声に室内インパルスレスポンスを付加する処理を行う。雑音付加処理部２２３は、所定の信号対雑音比のパラメーターの値に基づいて、学習用音声に雑音を付加する処理を行う。SpecAugment処理部２２４は、学習用音声に対して、所定の時間帯の時間マスキングまたは所定の周波数帯の周波数マスキングの少なくともいずれかの処理を行う。なお、これら４つの各部の処理の詳細については後述する。

【0028】

ロス算出部２３は、音声認識処理部１２が持つ音声認識モデルの学習を行う際に、学習処理のためのロス（損失、差）を算出する。具体的には、ロス算出部２３は、音声加工処理部２２による加工後の学習用音声に基づいて音声認識処理部１２その時点での内部パラメーターの値に基づいて求めた認識結果情報と、学習処理部２１から供給される正解情報（認識結果の正解）とのロスを算出する。

【0029】

音声加工処理部２２における音声加工処理の詳細は、次の通りである。

【0030】

高域減衰処理部２２１は、入力される音声の高域を減衰させる処理を行う。高域減衰処理部２２１は、一例として、音声を離散フーリエ変換した振幅スペクトルを、下の式（１）にしたがって指数減衰させる。

【0031】

【数1】

【0032】

ただし、式（１）において、ｆは周波数、Ｘ［ｆ］は減衰させる前の振幅スペクトル、Ｙ［ｆ］は減衰させた後の振幅スペクトル、βは設定可能なパラメーターである。βの具体的な値は、例えば、後で示す条件を満たす範囲内でランダムに選択してよい。また、パラメーターの値を、その他の値として適宜設定してもよい。なお、ランダムに選択した結果がβ＝１となってもよいし、β＜１に限定してもよい。

【0033】

なお、高域減衰処理部２２１による振幅の減衰の比を、減衰率と呼ぶ。ここでは、減衰率は、Ｙ［ｆ］／Ｘ［ｆ］と表される。本実施形態においては、高域を十分に減衰させることが望ましい。具体的な例として、周波数１５００Ｈｚ以上の領域において、減衰率が常に０．６５以下であることが望ましい。式（１）で表わすような周波数に応じた指数減衰とする場合には、パラメーターβが１以下であり、且つ周波数１５００Ｈｚにおける減衰率が０．６５であれば、周波数１５００Ｈｚ以上の領域において、減衰率は常に０．６５以下である。そのような減衰率の分布とすることにより、入力されるデータの高域の成分が十分に減衰する。これにより、高域成分が減衰した音声データを用いて、音声認識モデルの学習を行えるようになる。これにより、音声認識装置の認識精度の向上を図ることができる。なお、音声の減衰のさせ方は、式（１）に示したような指数減衰でなくてもよい。音声の減衰のさせ方の他の例については、後で別の図を参照しながら説明する。

【0034】

ＲＩＲ付加処理部２２２は、音声に、ＲＩＲ（室内インパルス応答）を付加する処理を行う。具体的には、ＲＩＲ付加処理部２２２は、ルームシミュレーターを用いて、所定の条件下でのＲＩＲを音声に付加する。ＲＩＲ付加処理部２２２は、ルームシミュレーターによって、例えば直方体の部屋空間を生成し、その部屋内に一対の音源とマイクロフォンを設置し，鏡像法によってＲＩＲを生成し、音声に付加する。部屋の内側の６面は壁である。パラメーターＲｘ、Ｒｙ、Ｒｚは、それぞれ、部屋の内側壁面（天井面と床面とを含む）間のサイズ（単位は、メートル）である。Ｒｘは幅方向、Ｒｙは奥行き方向、Ｒｚは高さ方向のサイズである。幅方向と奥行き方向と高さ方向とは、互いに直交する。パラメーターαは、壁における音声の反射率である。パラメーターＳｘ、Ｓｙ、Ｓｚは、発話者（音源）の位置の座標（単位は、メートル）である。パラメーターＭｘ、Ｍｙ、Ｍｚは、マイクロフォン（音声取得場所）の位置の座標（単位は、メートル）である。発話者とマイクロフォンとがともに部屋内に存在するとき、０≦Ｓｘ，Ｍｘ≦Ｒｘ、０≦Ｓｙ，Ｍｙ≦Ｒｙ、０≦Ｓｚ，Ｍｚ≦Ｒｚとする。なお、パラメーターの具体的な値は、例えば、後で示す条件を満たす範囲内でランダムに選択してよい。また、パラメーターの値を、その他の値としてもよい。

【0035】

雑音付加処理部２２３は、入力される音声データに、白色雑音を付加する。雑音付加処理部２２３が、白色雑音以外の雑音を音声データに付加するようにしてもよい。雑音付加処理部２２３は、例えば、入力される音声データの信号の強さに応じて、所定のＳＮＲ（信号対雑音比，signal-to-noise ratio）の雑音を付加してよい。ＳＮＲの値をパラメーターとしてよい。ＳＮＲの具体的な値は、例えば、後で示す条件を満たす範囲内でランダムに選択してよい。また、ＳＮＲの値を、他の値としてもよい。

【0036】

SpecAugment処理部２２４は、入力される音声に対して、時間マスキングまたは周波数マスキング、あるいはそれらの両方のマスキングの処理を行う。SpecAugment処理部２２４は、例えば同一の音声データに対して、様々に変えたマスキングパターンでの処理を行ってもよい。具体的には、SpecAugment処理部２２４は、入力されるデータに基づいて、音声スペクトログラムを求める。音声スペクトログラムは、周波数成分の経時的変化を表す。音声スペクトログラムは、時間と周波数とが直交する２次元空間上での信号成分の強さとして表現される。上記の時間マスキングは、所定の長さの時間的に連続するブロックの情報をマスキングするものである。上記の周波数マスキングは、所定の幅の連続する周波数のブロックの情報をマスキングするものである。つまり、SpecAugmentの処理は、所定の時間帯または所定の周波数帯の情報をマスキングこすことによるデータ拡張手法である。SpecAugment処理部２２４は、マスキング処理の対象とする時間帯や周波数帯を、例えばランダムに選んでもよい。

【0037】

下の表１は、パラメーター設定条件の例を示している。ただし、ここに挙げる条件は一例であり、他の条件のパラメーター設定としてもよい。なお、この表内において、ｍｉｎ（）は、引数の中の最小値を出力する関数である。

【0038】

【表1】

【0039】

音声加工処理部２２は、例えば設定情報等に基づき、上で列挙した４種類の音声加工の処理のうちの任意の処理を選択して、選択された処理を任意の順序で実行するようにできる。各処理を選択するか否かに応じて、下の１５通りのバリエーションのどれを実行するようにしてもよい。

【0040】

（１）本バリエーションでは、ＲＩＲ付加（ＲＩＲ付加処理部２２２）の処理を行わない。また、高域減衰（高域減衰処理部２２１）の処理を行わない。また、雑音付加（雑音付加処理部２２３）の処理を行わない。また、SpecAugment（SpecAugment処理部２２４）の処理を行う。

【0041】

（２）本バリエーションでは、ＲＩＲ付加の処理を行わない。また、高域減衰の処理を行わない。また、雑音付加の処理を行う。また、SpecAugmentの処理を行わない。

【0042】

（３）本バリエーションでは、ＲＩＲ付加の処理を行わない。また、高域減衰の処理を行わない。また、雑音付加の処理を行う。また、SpecAugmentの処理を行う。順序は、例えばただし、処理の順序として、例えば、第１に雑音付加の処理を行い、第２にSpecAugmentの処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。

【0043】

（４）本バリエーションでは、ＲＩＲ付加の処理を行わない。また、高域減衰の処理を行う。また、雑音付加の処理を行わない。また、SpecAugmentの処理を行わない。

【0044】

（５）本バリエーションでは、ＲＩＲ付加の処理を行わない。また、高域減衰の処理を行う。また、雑音付加の処理を行わない。また、SpecAugmentの処理を行う。ただし、処理の順序として、例えば、第１に高域減衰の処理を行い、第２にSpecAugmentの処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。

【0045】

（６）本バリエーションでは、ＲＩＲ付加の処理を行わない。また、高域減衰の処理を行う。また、雑音付加の処理を行う。また、SpecAugmentの処理を行わない。ただし、処理の順序として、例えば、第１に高域減衰の処理を行い、第２に雑音付加の処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。

【0046】

（７）本バリエーションでは、ＲＩＲ付加の処理を行わない。また、高域減衰の処理を行う。また、雑音付加の処理を行う。また、SpecAugmentの処理を行う。ただし、処理の順序として、例えば、第１に高域減衰の処理を行い、第２に雑音付加の処理を行い、第３にSpecAugmentの処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。

【0047】

（８）本バリエーションでは、ＲＩＲ付加の処理を行う。また、高域減衰の処理を行わない。また、雑音付加の処理を行わない。また、SpecAugmentの処理を行わない。

【0048】

（９）本バリエーションでは、ＲＩＲ付加の処理を行う。また、高域減衰の処理を行わない。また、雑音付加の処理を行わない。また、SpecAugmentの処理を行う。ただし、処理の順序として、例えば、第１にＲＩＲ付加の処理を行い、第２にSpecAugmentの処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。

【0049】

（１０）本バリエーションでは、ＲＩＲ付加の処理を行う。また、高域減衰の処理を行わない。また、雑音付加の処理を行う。また、SpecAugmentの処理を行わない。ただし、処理の順序として、例えば、第１にＲＩＲ付加の処理を行い、第２に雑音付加の処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。

【0050】

（１１）本バリエーションでは、ＲＩＲ付加の処理を行う。また、高域減衰の処理を行わない。また、雑音付加の処理を行う。また、SpecAugmentの処理を行う。ただし、処理の順序として、例えば、第１にＲＩＲ付加の処理を行い、第２に雑音付加の処理を行い、第３にSpecAugmentの処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。

【0051】

（１２）本バリエーションでは、ＲＩＲ付加の処理を行う。また、高域減衰の処理を行う。また、雑音付加の処理を行わない。また、SpecAugmentの処理を行わない。ただし、処理の順序として、例えば、第１にＲＩＲ付加の処理を行い、第２に高域減衰の処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。

【0052】

（１３）本バリエーションでは、ＲＩＲ付加の処理を行う。また、高域減衰の処理を行う。また、雑音付加の処理を行わない。また、SpecAugmentの処理を行う。ただし、処理の順序として、例えば、第１にＲＩＲ付加の処理を行い、第２に高域減衰の処理を行い、第３にSpecAugmentの処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。

【0053】

（１４）本バリエーションでは、ＲＩＲ付加の処理を行う。また、高域減衰の処理を行う。また、雑音付加の処理を行う。また、SpecAugmentの処理を行わない。ただし、処理の順序として、例えば、第１にＲＩＲ付加の処理を行い、第２に高域減衰の処理を行い、第３に雑音付加の処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。

【0054】

（１５）本バリエーションでは、ＲＩＲ付加の処理を行う。また、高域減衰の処理を行う。また、雑音付加の処理を行う。また、SpecAugmentの処理を行う。ただし、処理の順序として、例えば、第１にＲＩＲ付加の処理を行い、第２に高域減衰の処理を行い、第３に雑音付加の処理を行い、第４にSpecAugmentの処理を行う。但し、ここに示した順序は一例であり、他の任意の順序で処理を行ってもよい。

【0055】

ここで、図２、図３、図４を参照しながら、高域減衰処理部２２１の別態様について説明する。既に音声の周波数に応じた指数減衰をする例については説明したが、高域減衰処理部２２１の処理が式（１）で表わしたような指数減衰であることは必ずしも必要ない。

【0056】

図２は、高域減衰処理部２２１が入力される音声の減衰処理を行う際の、周波数と減衰率との関係を表すグラフの例である。このグラフの横軸は周波数であり、縦軸は減衰率である。このグラフは、可聴周波数領域における減衰率を示す。減衰率の定義は既に説明した通りである。図示するように、このグラフの例においては、全周波数の領域（ただし、可聴領域）において、減衰率は単調に減少している。また、グラフの形状は、上に凸である。つまり、減衰率を周波数で微分したとき、１次微分値は負で、２次微分値も負である。図中に示すように、周波数１５００ヘルツにおいて、減衰率は０．６５以下である。また、周波数１５００ヘルツ以上の領域において、減衰率は０．６５以下であり、且つ減衰率は単調に減少している。

【0057】

図３は、高域減衰処理部２２１が入力される音声の減衰処理を行う際の、周波数と減衰率との関係を表すグラフの別の例である。このグラフの横軸および縦軸は図２と同様である。図示するように、このグラフの例においては、中程の周波数において減衰率の極大点が存在する。その極大点よりも周波数の高い領域においては、減衰率は単調に減少している。図中に示すように、周波数１５００ヘルツにおいて、減衰率は０．６５以下である。また、周波数１５００ヘルツ以上の領域において、減衰率は０．６５以下であり、且つ減衰率は単調に減少している。

【0058】

図４は、高域減衰処理部２２１が入力される音声の減衰処理を行う際の、周波数と減衰率との関係を表すグラフのさらに別の例である。このグラフの横軸および縦軸は図２と同様である。図示するように、このグラフの例においては、全周波数の領域（ただし、可聴領域）において、減衰率は単調に減少している。また、グラフの形状は、下に凸である。つまり、減衰率を周波数で微分したとき、１次微分値は負で、２次微分値は正である。図中に示すように、周波数１５００ヘルツにおいて、減衰率は０．６５以下である。また、周波数１５００ヘルツ以上の領域において、減衰率は０．６５以下であり、且つ減衰率は単調に減少している。

【0059】

なお、図２、図３、図４の例においては周波数１５００ヘルツ以上の領域で減衰率が単調に減少していたが、実際には、必ずしも減衰率が単調減少ではなくてもよい。ただし、周波数１５００ヘルツ以上の領域（ただし、可聴領域）において、常に減衰率が０．６５以下であることが望ましい。

【0060】

以上、様々な例を示した通り、高域減衰処理部２２１は、高域の音声を減衰させる。例えば、高域減衰処理部２２１は、１５００ヘルツ以上の音声を特に減衰させる。また、高域減衰処理部２２１は、高域（一例として、上記の通り１５００ヘルツ以上）の音声の減衰率が０．６５以下になるように、音声を減衰させる。これらのそれぞれにより、学習用データは、高域が減衰した音声を持つこととなる。つまり、その音声の高域におけるエネルギーは、相対的に低い。このような音声を持つ学習用データで、モデルの学習を行うことにより、良好とはいえない状況で録音された音声（遠方発話等の音声）からもよい精度で認識結果が得られるように、モデルが構築される。また、特に、１５００ヘルツにおける減衰率から、周波数方向に単調減少するような減衰率で、高域減衰処理部２２１が音声を減衰させるようにしてもよい。これにより、周波数が高い領域ほど、強く減衰した音声データを用いて、モデルの学習が行えるようになる。そのため、良好とはいえない状況で録音された音声からも、さらによい精度で認識結果が得られるようになる。なお、上記の１５００ヘルツという周波数や、０．６５という減衰率は、発明者らが高域減衰処理部２２１を検討する過程で、よい効果を得るために特に必要と認めた条件に基づく数値である。

【0061】

図５は、音声認識装置１の内部構成の例を示すブロック図である。音声認識装置１は、コンピューターを用いて実現され得る。図示するように、そのコンピューターは、中央処理装置９０１と、ＲＡＭ９０２と、入出力ポート９０３と、入出力デバイス９０４や９０５等と、バス９０６と、を含んで構成される。コンピューター自体は、既存技術を用いて実現可能である。中央処理装置９０１は、ＲＡＭ９０２等から読み込んだプログラムに含まれる命令を実行する。中央処理装置９０１は、各命令にしたがって、ＲＡＭ９０２にデータを書き込んだり、ＲＡＭ９０２からデータを読み出したり、算術演算や論理演算を行ったりする。ＲＡＭ９０２は、データやプログラムを記憶する。ＲＡＭ９０２に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、ＲＡＭは、「ランダムアクセスメモリー」の略である。入出力ポート９０３は、中央処理装置９０１が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス９０４や９０５は、入出力デバイスである。入出力デバイス９０４や９０５は、入出力ポート９０３を介して中央処理装置９０１との間でデータをやりとりする。バス９０６は、コンピューター内部で使用される共通の通信路である。例えば、中央処理装置９０１は、バス９０６を介してＲＡＭ９０２のデータを読んだり書いたりする。また、例えば、中央処理装置９０１は、バス９０６を介して入出力ポートにアクセスする。

【0062】

音声認識装置１の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

【0063】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【0064】

［実験と評価］
記者会見において録音した音声を対象として、本実施形態で説明した音声認識装置１が実際に音声認識処理を行うことによって、性能を評価した。評価対象として選定した音声は、合計８時間分の記者会見の音声であり、８４，８０８単語の発話を含む。そのうち、記者による質問などの遠方発話１０，３８１単語分の音声認識処理を行った。音声認識処理のためのモデルの学習用のデータの生成においては、本実施形態で説明した手法（ＲＩＲ付加、高域減衰、雑音付加、SpecAugment）のそれぞれを、単独で、あるいは組み合わせて適用した。そして、各手法を適用したそれぞれの場合を、単語誤り率（ＷＥＲ，Word Error Rate）で比較した。単語誤り率は、音声認識処理の分野でも使用される評価指標である。音声認識用モデル（音響モデル）の学習用データは、日本放送協会ああ放送した番組音声５００時間分である。学習用データには、評価対象データとは異なり、遠方発話の音声はほとんど含まれていない。この学習用データを用いて、ＤＮＮ－ＨＭＭハイブリッド方式にて音響モデルを学習した。使用したモデルは、ＴＤＮＮ（時間遅延ニューラルネットワーク，Time Delay Neural Network）である。音声を加工する手法の適用順序は、ＲＩＲ付加、周波数の高域減衰、雑音付加、SpecAugmentの順とした。雑音付加においては、１５≦ＳＮＲ≦３０（単位は、デシベル）の範囲で、学習データごとにランダムにＳＮＲを設定し、白色雑音を付加した。

【0065】

下の表２に示すＡ～Ｋの各手法の組合せパターンにより、上記学習用データの加工を行い、ＴＤＮＮを学習させた。この表において、付いているチェックマークは、各パターンが採用した音声加工の手法である。また「－」の印は、採用しなかった音声加工の手法を表している。例えば、Ｆのパターンは、ＲＩＲ付加と高域減衰とを採用し、雑音付加とSpecAugmentとを採用していないことを表している。パターンＡは、音声加工の手法をどれも採用しなかったパターンであり、比較対象である。なお、表２は、Ａ～Ｋのそれぞれのパターンを用いた場合の単語誤り率（ＷＥＲ）も示している。

【0066】

【表2】

【0067】

対策をしないベースライン（パターンＡ）のＷＥＲは９８．６％であり、ほとんど音声認識できていない。
４つ手法それぞれを単独で適用した場合（パターンＢ、Ｃ、Ｄ、Ｅ）、ＷＥＲはそれぞれ、８８．８％、９８．１％、９８．３％、９８．４％である。つまり、４つの手法のそれぞれが、音声認識精度の向上に寄与することを表している。中でも、ＲＩＲ付加の手法は、ＷＥＲの大幅な改善を示している。
最も改善効果があったＲＩＲ付加（パターンＢ）に加え、その他の３手法をそれぞれ組み合わせて適用する（パターンＦ、Ｇ、Ｈ）と、それぞれにおいてＷＥＲの改善が見られた。中でも、ＲＩＲ付加と高域減衰とを組み合わせた場合（パターンＦ）は、上記のパターンＢと比べて、２．４％の改善（８８．８％から８６．４％へ）を見せた。
ＲＩＲ付加と高域減衰と雑音付加とを組み合わせた場合（パターンＪ）には、ＷＥＲは８４．６％に改善された。ＡからＫまでの中で最も改善効果が大きかったのは、ＲＩＲ付加と高域減衰と雑音付加とSpecAugmentとの４手法を組み合わせた場合（パターンＫ）であり、そのＷＥＲは８４．０％であった。

【0068】

高域減衰の手法に特に着目すると、次の通りである。
パターンＡ（いずれの音声加工の手法をも採用しない場合）のＷＥＲが９８．６％であるのに対して、高域減衰のみを単独で採用したパターンＣのＷＥＲは９８．１％であった。つまり、高域減衰を適用することによる効果を確認できた。
パターンＢ（ＲＩＲ付加のみを採用した場合）のＷＥＲが８８．８％であるのに対し、ＲＩＲ付加と高域減衰とを組み合わせたパターンＦのＷＥＲは８６．４％であった。つまり、ＲＩＲ付加と、さらに高域減衰を適用することによる効果を確認できた。
パターンＧ（ＲＩＲ付加と雑音付加とを採用した場合）のＷＥＲが８８．５％であるのに対し、さらに高域負荷を組み合わせて採用したパターンＪのＷＥＲが８４．６％と大きく改善した。つまり、ＲＩＲ付加と雑音付加とに加えて、さらに高域減衰を適用することによる効果を確認できた。
また、高域減衰を含む４つのすべての手法を組み合わせたパターンＫでは、前述の通り、ＷＥＲが８４．０％であった。つまり、ここでも高域減衰が認識精度の改善に寄与していることを示唆している。

【0069】

以上のように、実験により、高域減衰の手法の有効性が確認された。また、高域減衰の手法を他の手法と組み合わせた場合にさらに認識精度が改善されることが確認された。

【産業上の利用可能性】

【0070】

本発明は、例えば、音声認識処理や、音響データに関する機械学習処理に利用することができる。一例としては、映像コンテンツの制作等において、必ずしも良好に録音されたわけではない発話音声を含んだ素材映像から、低コストで文字の書き起こしを作成するために利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。

【符号の説明】

【0071】

１音声認識装置（音声認識モデル学習装置）
１１入力部
１２音声認識処理部
１３出力部
２１学習処理部
２２音声加工処理部
２３ロス算出部
２２１高域減衰処理部
２２２ＲＩＲ付加処理部
２２３雑音付加処理部
２２４ SpecAugment処理部
９０１中央処理装置
９０２ＲＡＭ
９０３入出力ポート
９０４，９０５入出力デバイス
９０６バス

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版