特開2024-27914 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人ＮＨＫエンジニアリングシステムの特許一覧

特開2024-27914音声認識装置およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024027914

(43)【公開日】2024-03-01

(54)【発明の名称】音声認識装置およびプログラム

(51)【国際特許分類】

G10L 15/16 20060101AFI20240222BHJP

【ＦＩ】

G10L15/16

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2022131105

(22)【出願日】2022-08-19

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(71)【出願人】

【識別番号】591053926

【氏名又は名称】一般財団法人ＮＨＫエンジニアリングシステム

(74)【代理人】

【識別番号】100141139

【弁理士】

【氏名又は名称】及川周

(74)【代理人】

【識別番号】100171446

【弁理士】

【氏名又は名称】高田尚幸

(74)【代理人】

【識別番号】100114937

【弁理士】

【氏名又は名称】松本裕幸

(74)【代理人】

【識別番号】100171930

【弁理士】

【氏名又は名称】木下郁一郎

(72)【発明者】

【氏名】佐藤裕明

(72)【発明者】

【氏名】河合吉彦

(72)【発明者】

【氏名】望月貴裕

(72)【発明者】

【氏名】三島剛

(57)【要約】

【課題】対象の話題（領域）のテキストのみを用いて音声認識モデルに学習させ、推論時に話題（領域）に適した記号列を出力させることのできる音声認識装置を提供する。
【解決手段】音声認識装置は、音響特徴量のフレームの列を入力し前記音響特徴量のフレームに対応する記号の列として成る出力記号列を出力するように、複数階層で成るモデルを有し、前記モデルのそれぞれの階層が学習可能となるように構成されたエンコーダー部と、記号列を入力し、前記エンコーダー部の前記モデルの最終層または中間層に入力するための潜在特徴量を出力する潜在特徴量生成部と、を備える。前記エンコーダー部は、目標領域の記号列に基づいて前記潜在特徴量生成部が出力する前記潜在特徴量を目標領域への適応化を行うことを可能として構成される。
【選択図】図１０

【特許請求の範囲】

【請求項1】

音響特徴量のフレームの列を入力し前記音響特徴量のフレームに対応する記号の列として成る出力記号列を出力するように、複数階層で成るモデルを有し、前記モデルのそれぞれの階層が学習可能となるように構成されたエンコーダー部と、
記号列を入力し、前記エンコーダー部の前記モデルの最終層または中間層に入力するための潜在特徴量を出力する潜在特徴量生成部と、
を備え、
前記エンコーダー部の前記複数階層のモデルにおけるある階層のモデルから次の階層のモデルへは中間特徴量が渡されるものであり、
前記エンコーダー部は、所定領域の前記音響特徴量のフレーム列と前記出力記号列との関係に基づく機械学習をした後に、前記所定領域とは異なる目標領域の記号列に基づいて前記潜在特徴量生成部が出力する前記潜在特徴量を前記エンコーダー部の前記モデルの最終層または中間層に入力して前記最終層のモデルから得られる出力記号列と、正解の当該目標領域の記号列と、の関係に基づく損失である第１損失を用いて前記潜在特徴量を入力した階層よりも後の階層の前記目標領域への適応化を行うことを可能として構成され、
前記潜在特徴量生成部は、
記号列に基づいて、前記記号列に含まれる各記号の時間方向の長さである発話長を予測する発話長予測部と、
前記発話長予測部によって予測された前記発話長に基づいて、前記記号に対応する前記潜在特徴量の時間方向の長さを調節する発話長調整部と、
を備えることによって、前記発話長調整部によって時間方向の長さが調節された前記潜在特徴量を出力する、
音声認識装置。

【請求項2】

前記潜在特徴量生成部は、所定の音響特徴量に基づいて前記エンコーダー部の中間層である第Ｋ１層から出力される第１潜在特徴量に基づいて前記潜在特徴量生成部が生成する潜在特徴量と、当該音響特徴量に基づく前記エンコーダー部の中間層である第Ｋ２層（ただし、第Ｋ２層は前記第Ｋ１層よりも後段）から出力される第２潜在特徴量と、の差である第２損失を用いて学習可能となるように構成された、
請求項１に記載の音声認識装置。

【請求項3】

前記潜在特徴量生成部が備える前記発話長予測部は、前記第１潜在特徴量に基づいて前記発話長予測部が予測した発話長と、前記第１潜在特徴量に対応する正解の発話長と、の差である第３損失に基づいて学習可能となるように構成された、
請求項２に記載の音声認識装置。

【請求項4】

前記潜在特徴量生成部は、前記潜在特徴量生成部の学習時、あるいは前記目標領域の記号列に基づいて前記エンコーダー部のモデルの前記目標領域への適応化を行う時、の少なくともいずれかにおいて、前記発話長予測部によって予測された前記発話長に複数の係数値をそれぞれ掛けることによって、前記目標領域に属する１つの前記記号列から、複数通りの時間方向の長さに基づく前記潜在特徴量を出力する、
請求項２または３に記載の音声認識装置。

【請求項5】

前記目標領域の記号列に基づいて前記エンコーダー部の前記目標領域への適応化を行う際に、前記第１損失とともに、前記所定領域の前記音響特徴量のフレーム列に基づいて前記エンコーダー部が出力する出力記号列と当該音響特徴量のフレーム列に対応する正解の記号列との差である第４損失にも基づいて前記エンコーダー部を最適化する、
請求項１に記載の音声認識装置。

【請求項6】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声認識装置およびプログラムに関する。

【背景技術】

【0002】

音声認識処理のために用いる手法の一つとして、ＣＴＣ音声認識モデルがある。ＣＴＣは、「Connectionist Temporal Classification」（コネクショニスト時間分類）の略である。ＣＴＣ音声認識モデルは、発音記号等を介さずに、音声と文字列との関係を直接学習するように構成したモデルである。つまり、ＣＴＣ音声認識モデルは、end-to-end音声認識モデルの手法の一つである。ＣＴＣ音声認識モデルは、出力記号列に空白文字列＜ｂｌａｎｋ＞を挿入することと、出力記号列に同一の記号が連続して出現することを許す。これにより、ＣＴＣ音声認識モデルは、特徴量フレームと出力記号列とを対応させる。

【0003】

非特許文献１には、Intermediate Loss Regularization（中間損失正則化）の手法が記載されている。Intermediate Loss Regularizationは、ＣＴＣ音声認識モデルの中間層にＣＴＣ損失関数を算出する手段を設け、複数の層のＣＴＣ損失関数の値を重み付けして加算することで学習する手法である。

【0004】

非特許文献２には、Shallow Fusion（シャローフュージョン）の手法が記載されている。Shallow Fusionは、テキストデータのみで学習した言語モデルを音声認識に活用する手法の一つである。Shallow Fusionの手法では、推論時に音声認識モデルと言語モデルの推論確率を対数領域で線形補間することによって、認識結果を出力する。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】Jaesong Lee, Shinji Watanabe, “Intermediate Loss Regularization for CTC-based Speech Recognition,” In Proc. 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6224-6228, 2021年．

【非特許文献2】Caglar Gulcehre, Orhan Firat, Kelvin Xu, Kyunghyun Cho, Loic Barrault, Huei-Chi Lin, Fethi Bougares, Holger Schwenk, Yoshua Bengio, “On Using Monolingual Corpora in Neural Machine Translation,” in arXiv:1503.03535v2, 2015年.

【発明の概要】

【発明が解決しようとする課題】

【0006】

例えば日本語では、「橋」（はし）と「端」（はし）のように、異なる記号列であるがその発音が同一または類似となる表現が存在する。ＣＴＣ音声認識モデルは、出力記号（文字)間の確率が独立であると仮定するモデルである。言い換えれば、出力記号の確率は、隣接する他の記号または近傍の他の記号の確率に依存しない。このため、ＣＴＣ音声認識モデルは、複数の出力記号列の候補が存在する発音に対して、学習結果として得られた発音と記号列との対応に従って、記号列を出力する。このようなＣＴＣ音声認識モデルに、学習時に使用したテキストの話題と異なる話題の音声を認識させると、学習時のテキストに基づいた記号列を出現してしまう傾向がある。例えば、ＣＴＣ音声認識モデルは、認識対象の音声が天気の話題に関するものであって認識結果として「最低気温」と出力すべき箇所において、「最適音」と出力してしまうことが起こり得る。つまり、ＣＴＣ音声認識モデルは、推論するテキストの話題に適さない記号列を出力し、認識誤りを引き起こすという問題がある。

【0007】

目的とする話題の音声とテキスト（音声認識結果の正解）との対のデータが入手できれば、そのデータを用いて事前にＣＴＣ音声認識モデルの学習を行うこともできるが、そのような音声のデータが事前に入手できるとは限らない。また、そのようなデータの入手が可能であっても、音声に対するアノテーションの作業にはコストがかかる。つまり、従来技術におけるＣＴＣ音声認識モデルの出力記号列を所望の話題に適応させることは、不可能または困難である。

【0008】

本発明は、上記の課題認識に基づいて行なわれたものであり、推論対象の話題（領域）について音声とテキストとの対のデータが入手できない場合であっても、テキストのみが入手できれば、そのテキストのデータのみを用いて音声認識モデルに学習させ、推論時に話題（領域）に適した記号列を出力させることのできる音声認識装置およびプログラムを提供しようとするものである。

【課題を解決するための手段】

【0009】

［１］上記の課題を解決するため、本発明の一態様による音声認識装置は、音響特徴量のフレームの列を入力し前記音響特徴量のフレームに対応する記号の列として成る出力記号列を出力するように、複数階層で成るモデルを有し、前記モデルのそれぞれの階層が学習可能となるように構成されたエンコーダー部と、記号列を入力し、前記エンコーダー部の前記モデルの最終層または中間層に入力するための潜在特徴量を出力する潜在特徴量生成部と、を備え、前記エンコーダー部の前記複数階層のモデルにおけるある階層のモデルから次の階層のモデルへは中間特徴量が渡されるものであり、前記エンコーダー部は、所定領域の前記音響特徴量のフレーム列と前記出力記号列との関係に基づく機械学習をした後に、前記所定領域とは異なる目標領域の記号列に基づいて前記潜在特徴量生成部が出力する前記潜在特徴量を前記エンコーダー部の前記モデルの最終層または中間層に入力して前記最終層のモデルから得られる出力記号列と、正解の当該目標領域の記号列と、の関係に基づく損失である第１損失を用いて前記潜在特徴量を入力した階層よりも後の階層の前記目標領域への適応化を行うことを可能として構成され、前記潜在特徴量生成部は、記号列に基づいて、前記記号列に含まれる各記号の時間方向の長さである発話長を予測する発話長予測部と、前記発話長予測部によって予測された前記発話長に基づいて、前記記号に対応する前記潜在特徴量の時間方向の長さを調節する発話長調整部と、を備えることによって、前記発話長調整部によって時間方向の長さが調節された前記潜在特徴量を出力する、というものである。

【0010】

なお、上記の「第１損失」の例は、第２実施形態におけるＣＴＣ損失計算部１０６０が式（６６）によって算出するＬ_ｈ，ｉや、式（６９）によって算出するＬ_ｔ，ｉである。

【0011】

なお、「学習可能となるように構成された」という構成は、例えば、機械学習の手法を適用することによって実現される。つまり、演算を行うためのモデルが複数（例えば、多数）の内部パラメーターを持ち、所望の結果が得られるようにその内部パラメーターの値を調整することができるようにする。内部パラメーターの調整は、学習用データ等を用いた機械学習過程において行われる。内部パラメーターの調整の手法としては、既存技術を用いることができる。機械学習可能なモデルの一形態として、ニューラルネットワークを用いてよい。ニューラルネットワークの内部パラメーターを調整するためには、例えば、誤差逆伝播法を用いることができる。なお、以下に記す構成においても同様である。

【0012】

［２］本発明の一態様は、上記［１］の音声認識装置において、前記潜在特徴量生成部は、所定の音響特徴量に基づいて前記エンコーダー部の中間層である第Ｋ１層から出力される第１潜在特徴量に基づいて前記潜在特徴量生成部が生成する潜在特徴量と、当該音響特徴量に基づく前記エンコーダー部の中間層である第Ｋ２層（ただし、第Ｋ２層は前記第Ｋ１層よりも後段）から出力される第２潜在特徴量と、の差である第２損失を用いて学習可能となるように構成されたものである。

【0013】

なお、上記の「第２損失」の例は、第２実施形態における損失計算部１２６０が式（５８）によって算出するＬ_{ｌａｔｅｎｔ}である。

【0014】

［３］本発明の一態様は、上記［２］の音声認識装置において、前記潜在特徴量生成部が備える前記発話長予測部は、前記第１潜在特徴量に基づいて前記発話長予測部が予測した発話長と、前記第１潜在特徴量に対応する正解の発話長と、の差である第３損失に基づいて学習可能となるように構成されたものである。

【0015】

なお、上記の「第３損失」の例は、第２実施形態における損失計算部１３６０が式（５９）によって算出するＬ_{ｄｕｒａｔｉｏｎ}である。

【0016】

［４］本発明の一態様は、上記［２］または［３］の音声認識装置において、前記潜在特徴量生成部は、前記潜在特徴量生成部の学習時、あるいは前記目標領域の記号列に基づいて前記エンコーダー部のモデルの前記目標領域への適応化を行う時、の少なくともいずれかにおいて、前記発話長予測部によって予測された前記発話長に複数の係数値をそれぞれ掛けることによって、前記目標領域に属する１つの前記記号列から、複数通りの時間方向の長さに基づく前記潜在特徴量を出力するものである。

【0017】

［５］本発明の一態様は、上記［１］から［４］までのいずれかの音声認識装置において、前記目標領域の記号列に基づいて前記エンコーダー部の前記目標領域への適応化を行う際に、前記第１損失とともに、前記所定領域の前記音響特徴量のフレーム列に基づいて前記エンコーダー部が出力する出力記号列と当該音響特徴量のフレーム列に対応する正解の記号列との差である第４損失にも基づいて前記エンコーダー部を最適化するものである。

【0018】

なお、上記の「第４損失」の例は、第２実施形態におけるＣＴＣ損失計算部１０６０が式（７３）によって算出するＬ_ｓ，ｊである。

【0019】

［６］本発明の一態様は、上記の音声認識装置において、音響特徴量のフレームの列を入力し前記音響特徴量のフレームに対応する記号の列として成る出力記号列を出力するように、複数階層で成るモデルを有し、前記モデルのそれぞれの階層が学習可能となるように構成されたエンコーダー部と、記号列を入力し、前記エンコーダー部の前記モデルの最終層または中間層に入力するための潜在特徴量を出力する潜在特徴量生成部と、を備え、前記エンコーダー部の前記複数階層のモデルにおけるある階層のモデルから次の階層のモデルへは中間特徴量が渡されるものであり、前記エンコーダー部は、所定領域の前記音響特徴量のフレーム列と前記出力記号列との関係に基づく機械学習をした後に、前記所定領域とは異なる目標領域の記号列に基づいて前記潜在特徴量生成部が出力する前記潜在特徴量を前記エンコーダー部の前記モデルの最終層または中間層に入力して前記最終層のモデルから得られる出力記号列と、正解の当該目標領域の記号列と、の関係に基づく損失である第１損失を用いて前記潜在特徴量を入力した階層よりも後の階層の前記目標領域への適応化を行うことを可能として構成され、前記潜在特徴量生成部は、記号列に基づいて、前記記号列に含まれる各記号の時間方向の長さである発話長を予測する発話長予測部と、前記発話長予測部によって予測された前記発話長に基づいて、前記記号に対応する前記潜在特徴量の時間方向の長さを調節する発話長調整部と、を備えることによって、前記発話長調整部によって時間方向の長さが調節された前記潜在特徴量を出力する、音声認識装置、としてコンピューターを機能させるためのプログラムである。

【0020】

［参考態様１］参考態様による音声認識装置は、音響特徴量のフレームの列を入力し前記音響特徴量のフレームに対応する記号の列として成る出力記号列を出力するように、複数階層で成るモデルを有し、前記複数階層のモデルのそれぞれが機械学習可能に構成されたエンコーダー部と、目的とする領域に属する記号列を入力し、前記エンコーダー部の最終層のモデルに入力するための特徴量を出力するアダプター部と、を備え、前記エンコーダー部の前記複数階層のモデルにおけるある階層のモデルから次の階層のモデルへは中間特徴量が渡されるものであり、前記エンコーダー部は、前記音響特徴量のフレーム列と前記出力記号列との関係に基づく機械学習をした後に、前記アダプター部が出力する前記特徴量を前記エンコーダー部の前記最終層のモデルに入力して前記最終層のモデルからの出力に基づく損失である第１損失を用いて前記最終層のモデルの前記目的とする領域への適応化を行うことを可能として構成された、ものである。

【0021】

［参考態様２］また、参考態様の一つは、上記の参考態様のいずれかの音声認識装置において、前記目的とする領域に属するテキストを基に、前記テキスト内の文字の繰り返し、または前記テキスト内の文字と文字との間への０個以上のブランク記号の挿入、の少なくともいずれかを行うことによって、前記アダプター部に入力するための前記記号列を生成する擬似記号列生成部、をさらに備える。

【0022】

［参考態様３］また、参考態様の一つは、上記の参考態様のいずれかの音声認識装置において、所定の統計データを基に得られた出力文字確率分布にしたがって、前記目的とする領域に属するテキストに含まれる文字を別の文字で置換する処理を行う置換処理部、をさらに備え、前記擬似記号列生成部は、前記置換処理部が出力する置換処理後の前記目的とする領域に属するテキストを基に、前記記号列を生成する、ものである。

【0023】

［参考態様４］また、参考態様の一つは、上記の参考態様のいずれかの音声認識装置において、前記擬似記号列生成部は、前記テキスト内の文字を繰り返す際の同一文字の繰り返し回数を、前記音響特徴量のフレーム列と前記出力記号列との関係に基づいて学習済みの前記エンコーダー部における所定の階層の前記モデルから出力される特徴量に基づいて算出される記号列である中間記号列における同一文字の繰り返し回数に関する統計に基づいて決定し、前記テキスト内の文字と文字との間に挿入するブランク記号の連続する個数を、前記中間記号列における前記ブランク記号の連続する個数に関する統計に基づいて決定する、ものである。

【0024】

［参考態様５］また、参考態様の一つは、上記の参考態様のいずれかの音声認識装置において、前記アダプター部を学習するために前記アダプター部への入力となる記号列を、前記音響特徴量に基づいて前記エンコーダー部の所定の層のモデルから出力された前記中間特徴量に基づいて生成する記号列生成部と、前記記号列生成部によって生成された前記記号列に基づいて前記アダプター部が出力する特徴量についての損失である第２損失を算出するアダプター部用損失計算部と、をさらに備え、前記アダプター部用損失計算部が算出した前記第２損失を用いて前記アダプター部の機械学習を行えるように構成した、ものである。

【0025】

［参考態様６］また、参考態様の一つは、上記の参考態様のいずれかの音声認識装置において、前記アダプター部用損失計算部は、前記アダプター部から出力される特徴量を前提としたときの正解の出力記号列の尤度に基づく損失と、前記アダプター部から出力される特徴量と前記エンコーダー部において対応する階層のモデルからの出力である特徴量との差を表す損失と、に基づく前記第２損失を算出する、ものである。

【0026】

［参考態様７］また、参考態様の一つは、上記の参考態様のいずれかの音声認識装置において、前記出力記号列の中で繰り返されている文字を集約するとともに、前記出力記号列に含まれる前記ブランク記号を削除することによって得られる文字列を音声認識結果として出力する、ものである。

【0027】

［参考態様８］また、参考態様の一つは、上記の参考態様のいずれかの音声認識装置において、前記エンコーダー部は、前記第１損失を用いて前記最終層のモデルの前記目的とする領域への適応化を行う際に、前記音響特徴量のフレーム列に基づいて前記エンコーダー部が有する前記複数階層で成るモデルが出力した記号列と、前記音響特徴量のフレーム列に対応する正解の前記出力記号列と、から得られる第３損失にも基づいた適応化を行う、というものである。なお、本態様は、後述する第２再学習手法を用いるものである。本態様によると、前記目的とする領域（ターゲットドメインと呼ぶ）への適応化を行いながら、エンコーダー部の元の学習を行った領域（ソースドメインと呼ぶ）での認識性能の劣化を防ぐ、あるいは少なくとも抑制することが可能である。

【0028】

［参考態様９］また、参考態様の一つは、音響特徴量のフレームの列を入力し前記音響特徴量のフレームに対応する記号の列として成る出力記号列を出力するように、複数階層で成るモデルを有し、前記複数階層のモデルのそれぞれが機械学習可能に構成されたエンコーダー部と、目的とする領域に属する記号列を入力し、前記エンコーダー部の最終層のモデルに入力するための特徴量を出力するアダプター部と、を備え、前記エンコーダー部の前記複数階層のモデルにおけるある階層のモデルから次の階層のモデルへは中間特徴量が渡されるものであり、前記エンコーダー部は、前記音響特徴量のフレーム列と前記出力記号列との関係に基づく機械学習をした後に、前記アダプター部が出力する前記特徴量を前記エンコーダー部の前記最終層のモデルに入力して前記最終層のモデルからの出力に基づく損失である第１損失を用いて前記最終層のモデルの前記目的とする領域への適応化を行うことを可能として構成された、音声認識装置、としてコンピューターを機能させるためのプログラムである。

【発明の効果】

【0029】

本発明によれば、目的領域のテキストデータのみを用いて、音声認識モデルのドメイン適応を行うことが可能となる。

【図面の簡単な説明】

【0030】

【図1】本発明の第１実施形態による音声認識装置の概略機能構成を示したブロック図である。

【図2】第１実施形態による音声認識装置が持つ音声認識機能の主要部の機能構成を示すブロック図である。

【図3】第１実施形態による音声認識装置が持つ、アダプター部の学習を行うための機能構成を示すブロック図である。

【図4】第１実施形態による音声認識装置が、第１再学習手法を用いてＥｎｃｏｄｅｒ_ｈ（第３層エンコーダー部）の再学習を行うための機能の構成を示すブロック図である。

【図5】第１実施形態による音声認識装置が、第２再学習手法を用いてＥｎｃｏｄｅｒ_ｈ（第３層エンコーダー部）の再学習を行うための機能の構成を示すブロック図である。

【図6】第１実施形態における、文字列を基にして擬似的なＣＴＣ記号列への変換の処理の手順を示すフローチャート（１／２）である。

【図7】第１実施形態における、文字列を基にして擬似的なＣＴＣ記号列への変換の処理の手順を示すフローチャート（２／２）である。

【図8】第１実施形態による音声認識装置の内部構成の例を示すブロック図である。

【図9】第１実施形態の音声認識装置における、変形例５による置換処理のための部分の機能構成を示すブロック図である。

【図10】第２実施形態による音声認識装置の概略機能構成を示すブロック図である。

【図11】第２実施形態における潜在ベクトル生成部の内部のさらに詳細な機能構成を示すブロック図である。

【図12】第２実施形態における潜在ベクトル生成部で用いる手法の基礎となっているFastspeechの機能構成を説明するための概略図である。

【発明を実施するための形態】

【0031】

次に、本発明の複数の実施形態について、図面を参照しながら説明する。

【0032】

［第１実施形態］
以下では、本実施形態が前提とする技術事項を最初に説明した後で、本実施形態に特有の構成を順次説明する。

【0033】

発音記号等を介さずに音声と文字列との関係を直接学習させるEnd-to-end音声認識モデルは、長さＴのログメルペクトログラムのような入力音響特徴量系列を、長さＬの出力記号列（文字列）に変換するモデルである。この入力音響特徴量系列ｘは、下の式（１）で表わされる。また、出力記号列ｙは、下の式（２）で表わされる。

【0034】

【数1】

【0035】

【数2】

【0036】

上の式（１）におけるＤは、１フレーム分の音響特徴量ｘ［ｔ］の次元数である。上の式（２）におけるＶは、出力記号の集合（ボキャブラリー）である。

【0037】

従来技術に属する手法であるShallow Fusion（非特許文献２）は、推論時に、音声認識モデルの推論確率と言語モデルの推論確率とを対数領域で線形補間する。Shallow Fusionの手法による認識結果ｙ（ハット）は、下の式（３）で表わされる。

【0038】

【数3】

【0039】

式（３）におけるＰ_ＡＭ（ｙ｜ｘ）は、音声認識モデルの出力記号列の推論確率（入力音響特徴量系列ｘを前提としたときの出力記号列ｙの確率）である。また、Ｐ_ＬＭ（ｙ）は、言語モデルの出力記号列の推論確率（出力記号列ｙの確率）である。この言語モデルＰ_ＬＭ（ｙ）は、テキストデータのみを用いて学習し得るものである。一方、音声認識モデルＰ_ＡＭ（ｙ｜ｘ）は、音声とテキストとの対のデータを用いて学習するものである。

【0040】

本実施形態の特徴は、テキストデータのみを用いて、言語モデルＰ_ＬＭ（ｙ）ではなく、音声認識モデルＰ_ＡＭ（ｙ｜ｘ）を学習するための構成を有することである。つまり、本実施形態の音声認識装置は、学習用のテキストデータが持つ話題に音声認識モデルを適応化するものである。

【0041】

次に、ＣＴＣ音声認識モデルの概要を説明する。ＣＴＣ音声認識モデル自体は、既存技術に属する手法である。ＣＴＣ音声認識モデルは、入力される特徴量１フレームごとに１記号を出力する。特徴量のフレーム長と出力記号間の系列長との差は、ブランク記号＜ｂｌａｎｋ＞を挿入し得ることと、出力記号（文字）を連続させ得ることとで吸収される。一例として、４フレームの音響特徴に対して「天気」という記号列を対応させる場合のアラインメントは、以下の１７通りである。なお、ここでは、ブランク記号＜ｂｌａｎｋ＞を「＿」に置き換えて表記している。また、記号と記号との間の区切りを、スラッシュで表わしている。
０１：＿／＿／天／気
０２：＿／天／＿／気
０３：＿／天／気／＿
０４：天／＿／＿／気
０５：天／＿／気／＿
０６：天／気／＿／＿
０７：＿／天／天／気
０８：天／＿／天／気
０９：天／天／＿／気
１０：天／天／気／＿
１１：＿／天／気／気
１２：天／＿／気／気
１３：天／気／＿／気
１４：天／気／気／＿
１５：天／気／気／気
１６：天／天／気／気
１７：天／天／天／気

【0042】

ＣＴＣ音声認識モデルが推論結果として出力した記号列は、ブランク記号＜ｂｌａｎｋ＞を消去するとともに、連続した同一の記号を１文字に圧縮することによって、認識結果に変換され得る。つまり、上記の１７通りのアラインメントのそれぞれは、「天気」という認識結果に変換される。ただし、正解とする文字が例えば「いい天気」における「いい」のように、正解の認識結果において同一の文字が連続する場合のアラインメントは、これらの「い」と「い」の間に必ずブランク記号＜ｂｌａｎｋ＞が挿入されなければならない。

【0043】

ＣＴＣ音声認識モデルの学習については、次の通りである。ＣＴＣ音声認識モデルを用いた認識処理では、ニューラルネットワークから抽出された特徴量フレーム列ｈに対して、出力記号列のアラインメントａの確率を計算する。ここで、特徴量フレーム列ｈは、下の式（４）で表わされる。また、アラインメントａは、下の式（５）で表わされる。なお、式（４）および式（５）におけるＴ_ｈは、系列の長さである。

【0044】

【数4】

【0045】

【数5】

【0046】

入力される特徴量フレーム列ｈを前提とした出力記号列のアラインメントａは、下の式（６）で表わされる。

【0047】

【数6】

【0048】

出力記号列ｙの、あり得るすべてのアライメントにおける確率の総和は、下の式（７）で求められる。

【0049】

【数7】

【0050】

式（７）におけるβ^－１（ｙ）は、出力記号列ｙと特徴量列ｈに対してとり得るすべてのアラインメントの集合である。ＣＴＣ損失関数Ｌは、上記のＰ（ｙ｜ｈ）の対数をとり、下の式（８）で計算される。

【0051】

【数8】

【0052】

ＣＴＣ音声認識モデルの学習は、上記の損失関数値Ｌを最小化するようにニューラルネットワークの内部パラメーターの値を更新することによって行われる。

【0053】

本実施形態の音声認識装置が持つ機能のそれぞれは、例えば、コンピューターと、プログラムとで実現することが可能である。また、それらの機能の各々は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ（ＳＳＤ）といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。

【0054】

本実施形態の音声認識装置１は、Intermediate CTC（非特許文献１）を前提として構成される。本実施形態での音声認識モデルの概要は、次の通りである。本実施形態の音声認識モデルは、Githubで提供されるオープンソースEspnet（https://github.com/espnet/espnet）をベースとして改良を加えたものである。Intermediate CTCでは、ニューラルネットワークの中間の層でもＣＴＣ損失関数の値を計算し、層ごとの重み付けを行った和を最終的な損失関数として、モデルの学習を行う。

【0055】

図１は、本実施形態による音声認識装置１の概略機能構成を示すブロック図である。図示するように、音声認識装置１は、音声供給部１０と、畳み込みニューラルネットワーク部２０と、第１層エンコーダー部３０（Ｅｎｃｏｄｅｒ_ｌ・３０）と、第２層エンコーダー部４０（Ｅｎｃｏｄｅｒ_ｍ・４０）と、第３層エンコーダー部５０（Ｅｎｃｏｄｅｒ_ｈ・５０）と、目的領域テキスト供給部１１０と、擬似ＣＴＣ記号列生成部１２０と、アダプター部１３０と、ＣＴＣ記号列生成部２１０と、平均二乗誤差損失計算部２２０と、ＣＴＣ損失計算部２３０とを含んで構成される。

【0056】

音声供給部１０は、音声認識装置１による認識処理の対象となる音声のデータを供給する。音声供給部１０は、音声のデータを、畳み込みニューラルネットワーク部２０に渡す。音声供給部１０は、音声のデータとして、例えばベクトルで表わされる音響特徴量の列を供給する。

【0057】

畳み込みニューラルネットワーク部２０は、音声供給部１０から渡される音声データの畳み込み処理を行う。畳み込みニューラルネットワーク部２０は、畳み込み処理の結果として得られる特徴量（後述するｈ_０）を、第１層エンコーダー部３０に渡す。

【0058】

第１層エンコーダー部３０と、第２層エンコーダー部４０と、第３層エンコーダー部５０とは、３層構成のエンコーダーである。第１層エンコーダー部３０と、第２層エンコーダー部４０と、第３層エンコーダー部５０とのそれぞれは、セルフアテンションニューラルネットワークを用いて実現される。音声認識装置１は、第１層エンコーダー部３０と、第２層エンコーダー部４０と、第３層エンコーダー部５０とのそれぞれの出力について、損失を計算する機能（ＣＴＣ損失計算部）を有するが、本図ではその機能を省略している。損失を計算する機能については、図２で説明する。

【0059】

複数の階層のモデルで構成される第１層エンコーダー部３０と、第２層エンコーダー部４０と、第３層エンコーダー部５０とを、あわせて「エンコーダー部」と呼んでもよい。エンコーダー部は、音響特徴量のフレームの列を入力し前記音響特徴量のフレームに対応する記号の列として成る出力記号列を出力するように、複数階層で成るモデルを有し、前記複数階層のモデルのそれぞれが機械学習可能に構成されたものである。エンコーダー部の複数階層のモデルにおけるある階層のモデルから次の階層のモデルへは中間特徴量（後述するｈ_ｌやｈ_ｍ）が渡される。なお、このエンコーダー部は、前記音響特徴量のフレーム列と前記出力記号列との関係に基づく機械学習をした後に、前記アダプター部が出力する前記特徴量を前記エンコーダー部の前記最終層のモデル（第３層エンコーダー部５０）に入力して前記最終層のモデル（第３層エンコーダー部５０）からの出力に基づく損失である第１損失を用いて前記最終層のモデル（第３層エンコーダー部５０）の前記目的とする領域への適応化を行うことを可能として構成されている。

【0060】

第１層エンコーダー部３０は、Ｅｎｃｏｄｅｒ_ｌ・３０とも呼ばれ、畳み込みニューラルネットワーク部２０から受け取る特徴量ｈ_０を基に、特徴量ｈ_ｌを算出し、第２層エンコーダー部４０に渡す。第２層エンコーダー部４０は、Ｅｎｃｏｄｅｒ_ｍ・４０とも呼ばれ、第１層エンコーダー部３０から受け取る特徴量ｈ_ｌを基に、特徴量ｈ_ｍを算出し、第３層エンコーダー部５０に渡す。第３層エンコーダー部５０は、Ｅｎｃｏｄｅｒ_ｈ・５０とも呼ばれ、第２層エンコーダー部４０から受け取る特徴量ｈ_ｍを基に、特徴量ｈ_ｈを算出し、出力する。

【0061】

なお、特徴量ｈ_０、ｈ_ｌ、ｈ_ｍ、ｈ_ｈのそれぞれは、ベクトルの系列である。

【0062】

目的領域テキスト供給部１１０は、Ｅｎｃｏｄｅｒ_ｈ・５０の適応化を行うためのテキストデータを供給する。「目的領域」は、「目標領域」あるいは「ターゲットドメイン」等とも呼ばれる。目的領域テキスト供給部１１０は、推論時にＥｎｃｏｄｅｒ_ｈ・５０が目的とする領域（ドメイン）に合ったテキストを出力するように、当該領域のテキストを供給する。目的領域テキスト供給部１１０は、目的領域のテキストを擬似ＣＴＣ記号列生成部１２０に渡す。

【0063】

擬似ＣＴＣ記号列生成部１２０は、目的領域テキスト供給部１１０から渡されるテキスト文字列を基に、擬似的なＣＴＣ記号列を生成する。擬似ＣＴＣ記号列生成部１２０は、単に「擬似記号列生成部」とも呼ばれる。擬似的なＣＴＣ記号列の生成の方法については、後でフローチャート等を参照しながら詳細に説明する。１つのテキスト文字列に対して、複数のＣＴＣ記号列が対応し得る。つまり、擬似ＣＴＣ記号列生成部１２０は、１つのテキスト文字列に対応して、複数の擬似的なＣＴＣ記号列を出力する。言い換えれば、擬似ＣＴＣ記号列生成部１２０は、１つのテキスト文字列を、複数通りの擬似的ＣＴＣ記号列に変換する。なお、擬似ＣＴＣ記号列生成部１２０は、目的領域テキスト供給部１１０が供給するテキストデータに含まれるそれぞれのテキスト文字列に対応して、複数の擬似的ＣＴＣ記号列を生成することができる。

【0064】

擬似ＣＴＣ記号列生成部１２０は、目的とするドメインに属するテキストを基に、前記テキスト内の文字の繰り返し、または前記テキスト内の文字と文字との間への０個以上のブランク記号の挿入、の少なくともいずれかを行うことによって、アダプター部１３０に入力するための記号列を生成するものである。擬似ＣＴＣ記号列生成部１２０は、前記テキスト内の文字を繰り返す際の同一文字の繰り返し回数を、前記音響特徴量のフレーム列と前記出力記号列との関係に基づいて学習済みの前記エンコーダー部における所定の階層の前記モデルから出力される特徴量に基づいて算出される記号列である中間記号列における同一文字の繰り返し回数に関する統計に基づいて決定してよい。また、擬似ＣＴＣ記号列生成部１２０は、前記テキスト内の文字と文字との間に挿入するブランク記号の連続する個数を、前記中間記号列における前記ブランク記号の連続する個数に関する統計に基づいて決定してよい。

【0065】

アダプター部１３０は、Ｅｎｃｏｄｅｒ_ｈ・５０の適応化を行う場合に、擬似ＣＴＣ記号列生成部１２０から渡される擬似ＣＴＣ記号列のそれぞれを、Ｅｎｃｏｄｅｒ_ｈ・５０に入力するための特徴量に変換する。つまり、アダプター部１３０は、ターゲットとする領域に属する記号列（擬似ＣＴＣ記号列）を入力し、その記号列に基づいて、前記エンコーダー部の最終層のモデル（Ｅｎｃｏｄｅｒ_ｈ・５０）に入力するための特徴量を出力するものである。

【0066】

なお、アダプター部１３０は、セルフアテンションニューラルネットワークを用いて実現され、学習可能となるように構成されている。つまり、アダプター部１３０は、学習する。アダプター部１３０の学習を行う場合には、アダプター部１３０は、後述するＣＴＣ記号列生成部２１０から渡される記号列を基に、Ｅｎｃｏｄｅｒ_ｍ・４０が出力する特徴量に近い特徴量を生成する。アダプター部１３０の学習により、アダプター部１３０が出力する特徴量は、Ｅｎｃｏｄｅｒ_ｍ・４０が出力する特徴量に近づくことが期待される。アダプター部１３０の学習の際には、後述する平均二乗誤差損失計算部２２０とＣＴＣ損失計算部２３０とが計算する損失に基づいて、アダプター部１３０の内部のニューラルネットワークのパラメーターの調整が行われる。つまり、アダプター部１３０は、後述する「第２損失」を用いて機械学習を行えるように構成されている。

【0067】

ＣＴＣ記号列生成部２１０は、アダプター部１３０の学習を行う際に、Ｅｎｃｏｄｅｒ_ｌ・３０から出力される特徴量ｈ_ｌを基に、アラインメントａ_ｌ（ハット）を求める。ＣＴＣ記号列生成部２１０は、求めたａ_ｌ（ハット）をアダプター部１３０に渡す。つまり、ＣＴＣ記号列生成部２１０は、アダプター部１３０を学習するためにアダプター部１３０への入力となる記号列を、音響特徴量に基づいてエンコーダー部の所定の層（Ｅｎｃｏｄｅｒ_ｌ・３０）のモデルから出力された中間特徴量に基づいて生成する。ＣＴＣ記号列生成部２１０は、単に「記号列生成部」とも呼ばれる。

【0068】

平均二乗誤差損失計算部２２０とＣＴＣ損失計算部２３０とは、アダプター部１３０の学習を行う際に、それぞれ、アダプター部１３０から出力される特徴量ｈ_ｍ（ハット）に関する損失を計算する。つまり、平均二乗誤差損失計算部２２０とＣＴＣ損失計算部２３０とのそれぞれは、アダプター部１３０の学習のための損失を計算するアダプター部用損失計算部の機能の一部である。平均二乗誤差損失計算部２２０およびＣＴＣ損失計算部２３０が算出する損失の詳細については、後で説明する。平均二乗誤差損失計算部２２０とＣＴＣ損失計算部２３０とが算出する損失は、アダプター部１３０の内部のニューラルネットワークのパラメーターの更新のために用いられる。

【0069】

［音声認識機能］
図２は、本実施形態による音声認識装置１が持つ音声認識機能の主要部の機能構成を示すブロック図である。図示するように、音声認識装置１は、畳み込みニューラルネットワーク部２０と、Ｅｎｃｏｄｅｒ_ｌ・３０と、ＣＴＣ損失計算部３２と、Ｅｎｃｏｄｅｒ_ｍ・４０と、ＣＴＣ損失計算部４２と、Ｅｎｃｏｄｅｒ_ｈ・５０と、ＣＴＣ損失計算部５２とを含んで構成される。

【0070】

図示する通り、音声認識モデルは、Ｃｏｎｖｏｌｕｔｉｏｎ（畳み込みニューラルネットワーク部２０）、Ｅｎｃｏｄｅｒ_ｌ・３０（低レベルエンコーダー）、Ｅｎｃｏｄｅｒ_ｍ・４０（中間レベルエンコーダー）、Ｅｎｃｏｄｅｒ_ｈ・５０（高レベルエンコーダー）の４つのニューラルネットワークを持つように構成される。これら４つのニューラルネットワークのそれぞれは、複数の層で構成される。なお、Ｅｎｃｏｄｅｒ_ｌ・３０と、Ｅｎｃｏｄｅｒ_ｍ・４０と、Ｅｎｃｏｄｅｒ_ｈ・５０とは、それぞれセルフアテンションネットワークである。この音声認識モデルは、Ｅｎｃｏｄｅｒ_ｌ・３０、Ｅｎｃｏｄｅｒ_ｍ・４０、Ｅｎｃｏｄｅｒ_ｈ・５０の出力から、それぞれ、ＣＴＣ損失関数値Ｌ_ｌ、Ｌ_ｍ、Ｌ_ｈを算出する。なお、Ｃｏｎｖｏｌｕｔｉｏｎの出力である特徴量ｈ_０は、下の式（９）および式（１０）の通りである。

【0071】

【数9】

【0072】

【数10】

【0073】

なお、式（９）において、Ｔ_ｈは、特徴量の系列長である。また、Ｄ_ｈは、ｈ_０に含まれる個々のベクトルの次元数である。また、式（１０）に示すように、ｈ_０は、音響特徴量ｘを入力したときのＣｏｎｖｏｌｕｔｉｏｎの出力である。

【0074】

Ｅｎｃｏｄｅｒ_ｌ・３０からの出力ｈ_ｌ、Ｅｎｃｏｄｅｒ_ｍ・４０からの出力ｈ_ｍ、およびＥｎｃｏｄｅｒ_ｈ・５０からの出力ｈ_ｈは、下の式（１１）の通りであり、それぞれ、式（１２）、式（１３）、および式（１４）で算出される。

【0075】

【数11】

【0076】

【数12】

【0077】

【数13】

【0078】

【数14】

【0079】

即ち、特徴量ｈ_ｌは、特徴量ｈ_０を入力としてＥｎｃｏｄｅｒ_ｌ・３０が出力する量である。また、特徴量ｈ_ｍは、特徴量ｈ_ｌを入力としてＥｎｃｏｄｅｒ_ｍ・４０が出力する量である。また、特徴量ｈ_ｈは、特徴量ｈ_ｍを入力としてＥｎｃｏｄｅｒ_ｈ・５０が出力する量である。

【0080】

Ｅｎｃｏｄｅｒ_ｌ・３０、Ｅｎｃｏｄｅｒ_ｍ・４０、およびＥｎｃｏｄｅｒ_ｈ・５０が出からの出力に対するそれぞれの損失関数値Ｌ_ｌ、Ｌ_ｍ、およびＬ_ｈは、それぞれ下の式（１５）、式（１６）、および式（１７）によって算出される。ＣＴＣ損失計算部３２は、Ｅｎｃｏｄｅｒ_ｌ・３０から出力される特徴量ｈ_ｌを基に、損失Ｌ_ｌを算出する。ＣＴＣ損失計算部４２は、Ｅｎｃｏｄｅｒ_ｍ・４０から出力される特徴量ｈ_ｍを基に、損失Ｌ_ｍを算出する。ＣＴＣ損失計算部５２は、Ｅｎｃｏｄｅｒ_ｈ・５０から出力される特徴量ｈ_ｈを基に、損失Ｌ_ｈを算出する。

【0081】

【数15】

【0082】

【数16】

【0083】

【数17】

【0084】

ベースモデルにおける目的関数は、例えば上記の損失関数値Ｌ_ｌとＬ_ｍとＬ_ｈとの平均として、下の式（１８）で計算される。

【0085】

【数18】

【0086】

つまり、本実施形態が前提とするIntermediate CTCでは、式（１８）によって算出されるＬｏｓｓ_１を最小化するように、ニューラルネットワークの内部パラメーターを更新することによって学習を行う。

【0087】

次に、本実施形態の音声認識装置１において、目的とする話題のテキストデータを用いて、音声認識モデルを再学習するための構成について説明する。本実施形態では、テキスト文字列を疑似的にＣＴＣ記号列に変換し、その変換結果であるＣＴＣ記号列を、後述するニューラルネットワークＡｄａｐｔｅｒで特徴量フレームに変換する。本実施形態では、この特徴量フレームを用いて前述のIntermediate CTC音声認識モデル（本実施形態が前提とするモデル）のＥｎｄｏｃｅｒ_ｈを再学習することによって、目的とする話題にニューラルネットワークを適応させる。

【0088】

［Ａｄａｐｔｅｒの学習］
図３は、本実施形態による音声認識装置１が持つ、アダプター部１３０（単に「Ａｄａｐｔｅｒ」とも呼ぶ）の学習を行うための構成を示すブロック図である。Ａｄａｐｔｅｒは、後述する音声認識モデルの再学習において、擬似ＣＴＣ記号列を、Ｅｎｃｏｄｅｒ_ｈ・５０に入力するための特徴量に変換する役割を果たす。図示するように、音声認識装置１は、畳み込みニューラルネットワーク部２０と、Ｅｎｃｏｄｅｒ_ｌ・３０と、Ｅｎｃｏｄｅｒ_ｍ・４０と、Ｅｎｃｏｄｅｒ_ｈ・５０と、アダプター部１３０と、ＣＴＣ記号列生成部２１０と、平均二乗誤差損失計算部２２０と、ＣＴＣ損失計算部２３０とを含んで構成される。

【0089】

図３に示す各部の機能については、既に説明した通りである。つまり、ＣＴＣ記号列生成部２１０は、Ｅｎｃｏｄｅｒ_ｌ・３０から出力される特徴量ｈ_ｌに基づいて、アラインメントａ_ｌ（ハット）を生成する。アダプターは、アラインメントａ_ｌ（ハット）を入力し、特徴量の推定値ｈ_ｍ（ハット）を出力する。平均二乗誤差損失計算部２２０およびＣＴＣ損失計算部２３０がそれぞれ算出する損失に基づいて、アダプター部１３０の学習が行われる。学習により、アダプター部１３０は、Ｅｎｃｏｄｅｒ_ｍ・４０が出力する特徴量ｈ_ｍに近い特徴量を出力するようになることが期待される。

【0090】

ここで、ニューラルネットワークＡｄａｐｔｅｒの学習の詳細について説明する。音声認識装置１は、学習済みのIntermediate CTC音声認識モデル（図３）に音響特徴量ｘを入力し、下の式（１９）および式（２０）によって特徴量ｈ_ｍを算出する。

【0091】

【数19】

【0092】

【数20】

【0093】

このｈ_ｍの算出の過程は、既に式（１０）、式（１２）、および式（１３）で説明した計算と同様である。また、特徴量ｈ_ｌに対して最も尤度の高いアラインメントａ_ｌ（ハット）は、次の式（２１）で算出される。

【0094】

【数21】

【0095】

音声認識装置１は、ＣＴＣアラインメント系列がＥｎｃｏｄｅｒ_ｍの出力特徴量フレームｈ_ｍに近づくように、Ａｄａｐｔｅｒの学習を行う。つまり、音声認識装置１は、Ａｄａｐｔｅｒが持つニューラルネットワークの内部パラメーターを更新する。アラインメントａ_ｌ（ハット）をＡｄａｐｔｅｒに入力したときの出力であるｈ_ｍ（ハット）は、下の式（２２）で求められる。

【0096】

【数22】

【0097】

音声認識装置１は、式（２２）のｈ_ｍ（ハット）をｈ_ｍに近づけるように、Ａｄａｐｔｅｒの学習を行う。具体的には、音声認識装置１は、下の式（２３）で算出される損失関数値Ｌ_ｍと、式（２４）によって算出される損失関数値Ｌ_ｍｓｅに基づいて、Ａｄａｐｔｅｒが持つニューラルネットワークの内部パラメーターを更新する。なお、ＣＴＣ損失計算部２３０が、式（２３）に基づいて、Ａｄａｐｔｅｒからの出力であるｈ_ｍ（ハット）を前提としたときの正解の出力記号列であるｙの尤度に基づく損失Ｌ_ｍを算出する。また、平均二乗誤差損失計算部２２０が、式（２４）に基づいて、Ａｄａｐｔｅｒからの出力であるｈ_ｍ（ハット）とＥｎｃｏｄｅｒ_ｍ・４０（Ａｄａｐｔｅｒに対応する階層のモデル）からの出力である特徴量との差を表す損失Ｌ_ｍｓｅを算出する。

【0098】

【数23】

【0099】

【数24】

【0100】

式（２４）に示す損失関数値Ｌ_ｍｓｅは、平均二乗誤差損失である。音声認識装置１が、Ａｄａｐｔｅｒを学習する際の目的関数の一例は、下の式（２５）によって計算されるものである。

【0101】

【数25】

【0102】

なお、式（２５）において、αはハイパーパラメーターである。音声認識装置１は、式（２５）で表わされる損失Ｌｏｓｓ_２を最小化するように、Ａｄａｐｔｅｒが持つニューラルネットワークの内部パラメーターを更新する。この損失Ｌｏｓｓ_２を便宜的に「第２損失」と呼ぶ場合がある。なお、音声認識装置１は、Ａｄａｐｔｅｒ内の複数層のニューラルネットワークの最終層以外の層についてのパラメーターを更新するように、Ａｄａｐｔｅｒの学習を行う。なお、音声認識装置１は、Ａｄａｐｔｅｒの学習時には、学習済みのＥｎｃｏｄｅｒ_ｍ・４０の最終層のパラメーターの値をそのままＡｄａｐｔｅｒの最終層のパラメーターに流用する。このようにすることで、Ｅｎｃｏｄｅｒ_ｍ・４０の出力が模擬できるように、Ａｄａｐｔｅｒの最終層以外の層のパラメーターが調整（更新）される。このようなＡｄａｐｔｅｒの学習を行うことによって、Ａｄａｐｔｅｒは、ＣＴＣ記号列をＥｎｃｏｄｅｒ_ｍの出力特徴量フレームｈ_ｍに変換するモデルになることが期待される。

【0103】

［Ｅｎｃｏｄｅｒ_ｈ・５０の再学習］
次に、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習について説明する。Ｅｎｃｏｄｅｒ_ｈ・５０の再学習では、推論対象の音声の話題が含まれるテキスト文字列を学習データとして用いて、推論対象の話題の認識精度を向上させる。以下において、前述のIntermediate CTC音声認識モデルおよびＡｄａｐｔｅｒを学習した音声の話題が属するドメインをソースドメインと呼び、推論対象の音声の話題が属するドメインをターゲットドメインと呼ぶ。Ｅｎｃｏｄｅｒ_ｈ・５０の再学習を行うための手法として、以下に説明する、第１再学習手法および第２再学習手法のいずれかを用いるようにしてよい。本実施形態では、用途等に応じて、第１再学習手法あるいは第２再学習手法のいずれかを任意に選択することができる。

【0104】

［Ｅｎｃｏｄｅｒ_ｈ・５０の再学習：第１再学習手法］
図４は、本実施形態による音声認識装置１が、第１再学習手法を用いてＥｎｃｏｄｅｒ_ｈ・５０の再学習を行うための機能の構成を示すブロック図である。第１再学習手法では、ターゲットドメインのテキストのみを用いたドメイン適応を行う。Ｅｎｃｏｄｅｒ_ｈ・５０の再学習を行うのは、上述したＡｄａｐｔｅｒの学習が完了していることが前提である。図示するように、音声認識装置１は、Ｅｎｃｏｄｅｒ_ｈ・５０と、ＣＴＣ損失計算部５２と、擬似ＣＴＣ記号列生成部１２０と、アダプター部１３０とを含んで構成される。なお、図４には、畳み込みニューラルネットワーク部２０と、Ｅｎｃｏｄｅｒ_ｌ・３０と、Ｅｎｃｏｄｅｒ_ｍ・４０も記載している。

【0105】

なお、図示する通り、擬似ＣＴＣ記号列生成部１２０と、アダプター部１３０と、Ｅｎｃｏｄｅｒ_ｈ・５０と、ＣＴＣ損失計算部５２とを含む構成を、モデル適応化装置２と呼んでもよい。モデル適応化装置２は、畳み込みニューラルネットワーク部２０と、Ｅｎｃｏｄｅｒ_ｌ・３０と、Ｅｎｃｏｄｅｒ_ｍ・４０と、Ｅｎｃｏｄｅｒ_ｈ・５０とを含んで成る音声認識モデルの、少なくとも認識結果出力側の層のエンコーダー（本実施形態ではＥｎｃｏｄｅｒ_ｈ・５０のみ）の目的領域への適応化を行う。本実施形態の特徴は、このモデル適応化装置２が、目的とする領域の音声データを必要とせず、その領域のテキストデータのみに基づいて動作する点である。

【0106】

なお、図４に示す各部の機能の概略については、既に説明した通りである。つまり、学習済みのアダプター部１３０は、擬似ＣＴＣ記号列生成部１２０が出力する擬似ＣＴＣ記号列に基づいて、Ｅｎｃｏｄｅｒ_ｍ・４０が出力するであろう特徴量ｈ_ｍに近い特徴量を出力する。Ｅｎｃｏｄｅｒ_ｈ・５０は、そのアダプター部１３０からの出力に基づいて、特徴量ｈ_ｈ，ｉ（ハット）を出力する。Ｅｎｃｏｄｅｒ_ｈ・５０は、ＣＴＣ損失計算部５２が算出する損失に基づいて、内部のニューラルネットワークのパラメーターを調整する。なお、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習のためにＣＴＣ損失計算部５２が算出する損失を便宜的に「第１損失」と呼ぶ場合がある。つまり、第１損失は、Ａｄａｐｔｅｒが出力する特徴量をＥｎｃｏｄｅｒ_ｈ・５０のモデルに入力して得られるＥｎｃｏｄｅｒ_ｈ・５０からの出力に基づく損失である。

【0107】

図４を参照しながら、第１再学習手法によるＥｎｃｏｄｅｒ_ｈ・５０の再学習の詳細について説明する。上でＡｄａｐｔｅｒの学習方法について説明したが、ここでは、学習済みのＡｄａｐｔｅｒを用いて、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習を行う。Ｅｎｃｏｄｅｒ_ｈ・５０の再学習では、認識対象とする音声の話題が含まれるテキスト文字列のみを学習データとして用いる。言い換えれば、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習では、目的とする話題（領域）のテキスト文字列の学習データを用いる。

【0108】

第１再学習手法によるＥｎｃｏｄｅｒ_ｈ・５０の再学習においては、音声認識装置１は、まず、学習データであるターゲットドメインのテキスト文字列を基に、後述する擬似ＣＴＣ記号列変換手法を用いて、Ｎ個の擬似的なＣＴＣ記号列を生成する。このＮ個の擬似的なＣＴＣ記号列は、下の式（２６）で表わされるａ_ｉ（ハット）である。

【0109】

【数26】

【0110】

音声認識装置１のＣＴＣ損失計算部５２は、上記のａ_ｉ（ハット）に対して、下の式（２７）および式（２８）によって、損失関数値Ｌ_ｈ，ｉを計算する。

【0111】

【数27】

【0112】

【数28】

【0113】

つまり、ｉ番目の損失関数値（ｉ＝１，・・・，Ｎ）であるＬ_ｈ，ｉは、ｉ番目のＣＴＣ記号列であるａ_ｉ（ハット）を入力することによってＡｄａｐｔｅｒが出力する特徴量を、Ｅｎｃｏｄｅｒ_ｈ・５０に入力することによって得られるｈ_ｈ，ｉ（ハット）を基に算出される。第１再学習手法によってＥｎｃｏｄｅｒ_ｈ・５０の適応化学習を行う際の目的関数は、Ｎ個の損失関数値の平均として下の式（２９）によって計算される。

【0114】

【数29】

【0115】

Ｅｎｃｏｄｅｒ_ｈの再学習の過程では、音声認識装置１は、式（２９）で表わされるＬｏｓｓ_３の値を最小化するように、ニューラルネットワークの内部パラメーターを更新する。ただし、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習の際には、音声認識装置１は、学習済みのＡｄａｐｔｅｒのパラメーターを固定とする。即ち、音声認識装置１は、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習の段階では、Ａｄａｐｔｅｒの内部パラメーターを更新せず、Ｅｎｃｏｄｅｒ_ｈ・５０の内部パラメーターの更新を行う。

【0116】

上記のような再学習を完了したときには、Ｅｎｃｏｄｅｒ_ｈ・５０のニューラルネットワークは、再学習に用いたテキスト文字列の話題に適応していることが期待される。

【0117】

［Ｅｎｃｏｄｅｒ_ｈ・５０の再学習：第２再学習手法］
図５は、本実施形態による音声認識装置１が、第１再学習手法を用いてＥｎｃｏｄｅｒ_ｈ・５０の再学習を行うための機能の構成を示すブロック図である。図示するように、音声認識装置１は、Ｅｎｃｏｄｅｒ_ｈ・５０と、ＣＴＣ損失計算部５２と、擬似ＣＴＣ記号列生成部１２０と、アダプター部１３０と、畳み込みニューラルネットワーク部２０と、Ｅｎｃｏｄｅｒ_ｌ・３０と、Ｅｎｃｏｄｅｒ_ｍ・４０とを含んで構成される。また、ここでは、Ｅｎｃｏｄｅｒ_ｈ・５０と、ＣＴＣ損失計算部５２と、擬似ＣＴＣ記号列生成部１２０と、アダプター部１３０と、畳み込みニューラルネットワーク部２０と、Ｅｎｃｏｄｅｒ_ｌ・３０と、Ｅｎｃｏｄｅｒ_ｍ・４０とを含む構成は、第２再学習手法による処理を実行するモデル適応化装置２として機能する。第２再学習手法では、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習に、ターゲットドメインのテキストだけではなく、ソースドメインの音声テキスト対も用いたドメイン適応を行う。第２再学習手法を用いる場合には、ソースドメインの音声認識精度劣化を軽減する効果が期待される。

【0118】

第２再学習手法によるＥｎｃｏｄｅｒ_ｈ・５０の再学習においては、音声認識装置１は、学習データであるターゲットドメインのテキスト文字列を基に、後述する擬似ＣＴＣ記号列変換手法を用いて、Ｎ_ｔ個の擬似的なＣＴＣ記号列を生成する。このＮ_ｔ個の擬似的なＣＴＣ記号列は、下の式（３０）で表わされるａ_ｔ，ｉ（ハット）である。

【0119】

【数30】

【0120】

音声認識装置１のＣＴＣ損失計算部５２は、上記のａ_ｔ，ｉ（ハット）に対して、下の式（３１）および式（３２）によって、損失関数値Ｌ_ｔ，ｉを計算する。

【0121】

【数31】

【0122】

【数32】

【0123】

また、学習済みのIntermediate CTC音声認識モデルにＮ_ｓ個の音響特徴量の列を入力することによって、損失関数値Ｌ_ｓ，ｊを計算する。この音響特徴量の列は、下の式（３３）によって表される。また、損失関数値Ｌ_ｓ，ｊは、式（３４）、式（３５）、式（３６）、および式（３７）によって計算される。

【0124】

【数33】

【0125】

【数34】

【0126】

【数35】

【0127】

【数36】

【0128】

【数37】

【0129】

つまり、畳み込みニューラルネットワーク部２０は、音響特徴量の列ｘ_ｊの畳み込みを行い、Ｃｏｎｖｏｌｕｔｉｏｎ（ｘ_ｊ）を出力する。Ｅｎｃｏｄｅｒ_ｌ・３０は、Ｃｏｎｖｏｌｕｔｉｏｎ（ｘ_ｊ）を基に、ｈ_ｓｌ，ｊを出力する。Ｅｎｃｏｄｅｒ_ｍ・４０は、ｈ_ｓｌ，ｊを基に、ｈ_ｓｍ，ｊを出力する。Ｅｎｃｏｄｅｒ_ｈ・５０は、ｈ_ｓｍ，ｊを基に、ｈ_ｓｈ，ｊを出力する。

【0130】

第２再学習手法における目的関数は、下の式（３８）に表わされるＬｏｓｓ_ｓｔである。

【0131】

【数38】

【0132】

つまり、Ｌｏｓｓ_ｓｔは、Ｎ_ｔ個の損失関数値Ｌ_ｔ，ｉの平均に対して、Ｎ_ｓ個の損失関数値Ｌ_ｓ，ｊの平均を、ソースドメインの認識精度劣化を抑制する正則化項として加えたものである。モデル適応化装置２は、Ｌｏｓｓ_ｓｔを最小化するようにモデルのパラメーターを更新することにより、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習を行う。ただし、このとき、Ａｄａｐｔｅｒのパラメーターについては学習せず、固定とする。再学習の完了したＥｎｃｏｄｅｒ_ｈ・５０は、ソースドメインの音声に対する処理能力を落とさずに、テキスト文字列の話題に適応したニューラルネットワークとなる。

【0133】

上記の式（３７）によって算出される損失を便宜的に「第３損失」と呼ぶ。つまり、第３損失は、音響特徴量のフレーム列に基づいてエンコーダー部が有する複数階層（本実施形態では、第１層エンコーダー部３０、第２層エンコーダー部４０、および第３層エンコーダー部５０）で成るモデルが出力した記号列と、音響特徴量のフレーム列に対応する正解の出力記号列と、から得られる（算出される）損失である。つまり、ここで説明する第２再学習手法では、エンコーダー部は、第１損失を用いて最終層のモデルの目的とする領域（ターゲットドメイン）への適応化を行う際に、上記の第３損失にも基づいた適応化を行う。即ち、式（３８）で表わされる損失Ｌｏｓｓ_ｓｔに基づく再学習を行う。第２再学習手法によると、目的とする領域（ターゲットドメイン）への適応化を行いながら、エンコーダー部の元の学習を行った領域（ソースドメイン）での認識性能の劣化を防ぐ、あるいは少なくとも抑制することが可能である。

【0134】

以上において説明した第１再学習手法と第２再学習手法とを比較したとき、第１再学習手法を用いる場合の方が、第２再学習手法を用いる場合よりも、ターゲットドメインでの音声認識精度の向上が期待できる。なお、第１再学習手法を用いた場合には、ソースドメインでの音声認識精度は劣化する。第２再学習手法を用いる場合には、ターゲットドメインの音声認識精度の改善効果は小さくなるが、ソースドメインの音声認識精度劣化を軽減する効果が期待できる。

【0135】

［擬似ＣＴＣ記号列の生成］
次に、テキスト文字列を、疑似的なＣＴＣ記号列に変換する方法について説明する。擬似ＣＴＣ記号列は、上述したＥｎｃｏｄｅｒ_ｈ・５０の再学習のために用いたものである。音声認識装置１は、学習用のテキストデータに含まれる文字列を基に、擬似的なＣＴＣ記号列の集合を生成する。

【0136】

あるテキスト文字列を疑似的なＣＴＣ記号列に変換する場合を考える。例えば、ＣＴＣ記号列の長さを６に限定した場合、「いい天気」という文字列に対応するＣＴＣ記号列は以下の９通りである。
１：＿／い／＿／い／天／気
２：い／＿／＿／い／天／気
３：い／＿／い／＿／天／気
４：い／＿／い／天／＿／気
５：い／＿／い／天／気／＿
６：い／い／＿／い／天／気
７：い／＿／い／い／天／気
８：い／＿／い／天／天／気
９：い／＿／い／天／気／気

【0137】

上記の擬似的なＣＴＣ記号列において、「＿」は、ブランク記号＜ｂｌａｎｋ＞を簡略化した表現である。ＣＴＣ記号列では、「いい」のように同じ記号が連続する箇所には必ずブランク記号＜ｂｌａｎｋ＞がその間に挿入される。なお、記号と記号との間の区切りを、スラッシュで表わしている。

【0138】

ブランク記号＜ｂｌａｎｋ＞の位置は、特徴量フレームのうちの発音が存在しない位置（時間帯）であると捉えることができる。上で例示したように、ある文字列（ここでは「いい天気」）に対応するＣＴＣ記号列は数多く存在する。つまり、ある文字列に対応するすべてのＣＴＣ記号列のパターンを用いてニューラルネットワークの学習を行うと、その学習処理に膨大な時間を必要とする場合もある。一方で、ＣＴＣ記号列においては、存在し得る記号列であるが現実的には生じにくい記号列も存在する。例えば、「いい天気」という文字列に対して、長さ１０のＣＴＣ記号列が生成されることを仮定した場合に、「い／＿／＿／＿／＿／＿／＿／い／天／気」といった、「い」と「い」の間に長時間発音が存在しない区間がある場合や、「い／＿／い／天／気／気／気／気／気／気」のように特定の記号の繰り返し（発音区間）が所定の長さ以上に長くなるような特徴量フレームは、現実的には生じにくい。したがって、あるテキスト文字列をＣＴＣ記号列に変換するときに、現実的に生じ得ると考えられるパターンの記号列のみに限定することもできる。

【0139】

そこで、本実施形態の音声認識装置１は、学習済みのIntermediate CTCのＥｎｃｏｄｅｒ_ｌから出力される特徴量フレームｈ_ｌに基づいて算出されるＣＴＣ記号列であるａ_ｉ（ハット）において、統計に基づいて、生じやすい擬似的なＣＴＣ記号列への変換を行う。具体的には、音声認識装置１は、同一記号の連続数およびブランク記号＜ｂｌａｎｋ＞の連続数の統計から生成する確率密度関数に則って、疑似的なＣＴＣ記号列への変換を行う。

【0140】

擬似的なＣＴＣ記号列を生成するための統計をとるために、例えば、Intermediate CTCの学習に使用した音声データを使用する。音声データを、学習済みのIntermediate CTCに入力し、Ｅｎｃｏｄｅｒ_ｌから出力されるａ_ｌ（ハット）を基に統計をとる。具体的には、ａ_ｌ（ハット）において、同一の記号（ただしブランク記号を除く）が連続してｎ回出現した回数をＮ_ｃ（ｎ）とし、ブランク記号＜ｂｌａｎｋ＞が連続してｎ回出現した回数をＮ_ｂ（ｎ）とする。これらの回数のデータを基に、同一の記号（ただしブランク記号を除く）の連続数の確率密度関数Ｐ_ｃ（ｎ）、およびブランク記号＜ｂｌａｎｋ＞の連続数の確率密度関数Ｐ_ｂ（ｎ）を、それぞれ、下の式（３９）および式（４０）で求める。つまり、本実施形態では、音声に基づいてエンコーダーから実際に出力される記号列に関する統計に基づいて、確率密度関数を生成する。

【0141】

【数39】

【0142】

【数40】

【0143】

確率密度関数を求めるための計算の例は、次の通りである。音声データの中に、「いい天気」および「明日」という２つの言語表現が含まれる場合を想定する。「いい天気」および「明日」という音声に対してＥｎｃｏｄｅｒ_ｌが出力するＣＴＣ記号列が、それぞれ、「＿／＿／い／＿／い／い／い／＿／天／気／＿／＿／＿」および「＿／明／明／＿／＿／＿／日／日／＿」である場合に、記号の連続数は次の通りである。なお、ブランク記号＜ｂｌａｎｋ＞を「＿」と表している。

【0144】

ブランク記号以外の記号（文字）の連続数ごとの出現回数は、以下の通りである。
Ｎ_ｃ（０）＝０
Ｎ_ｃ（１）＝３：（「い」、「天」、「気」が該当）
Ｎ_ｃ（２）＝２：（「明／明」、「日／日」が該当）
Ｎ_ｃ（３）＝１：（「い／い／い」が該当する）

【0145】

よって、確率Ｐ_ｃ（ｎ）は、次の通りである。
Ｐ_ｃ（０）＝０／６＝０
Ｐ_ｃ（１）＝３／６＝１／２
Ｐ_ｃ（２）＝２／６＝１／３
Ｐ_ｃ（３）＝１／６

【0146】

一方、ブランク記号＜ｂｌａｎｋ＞の連続数ごとの出現回数は、以下の通りである。
Ｎ_ｂ（０）＝１：（「天」と「気」の間に「＿」が存在しないため、Ｎ_ｂ（０）をカウントする）
Ｎ_ｂ（１）＝４：（「い」と「い」の間、「い」と「天」の間、「明」の前、「日」の後が該当）
Ｎ_ｂ（２）＝１：（「い」の前が該当）
Ｎ_ｂ（３）＝２：（「気」の後、「明」と「日」の間が該当）

【0147】

よって、確率Ｐ_ｂ（ｎ）は、次の通りである。
Ｐ_ｂ（０）＝１／８
Ｐ_ｂ（１）＝４／８＝１／２
Ｐ_ｂ（２）＝１／８
Ｐ_ｂ（３）＝２／８＝１／４

【0148】

上記の例は、「いい天気」および「明日」という２つの音声データに基づいて算出した確率値であるが、実際にとる統計はIntermediate CTCの学習に用いたすべての音声データに基づいて作成するものである。これにより、学習に用いた音声データに対応するＣＴＣ記号列において、連続して出現する記号（ブランク記号以外、あるいはブランク記号＜ｂｌａｎｋ＞）の連続数に関する確率（傾向）が把握される。

【0149】

図６および図７は、擬似的なＣＴＣ記号列への変換の処理の手順を示すフローチャートである。図６と図７とは結合子で結合されており、これら両図で１つのフローチャートである。このフローチャートの処理を実行するのは、擬似ＣＴＣ記号列生成部１２０である。以下では、このフローチャートを参照しながら、ＣＴＣ記号列を生成するための処理の手順を説明する。

【0150】

このフローチャートの処理では、テキスト文字列ｃを、ＣＴＣ記号列ａ_ｉ（ハット）に変換する。このフローチャートの処理を繰り返すことにより、複数の（Ｎ個の）ＣＴＣ記号列ａ_ｉ（ハット）（ただし、ｉ＝１，・・・，Ｎ）を作り出すことができる。なお、テキスト文字列ｃは、下の式（４１）で表わされる通りである。なお、式（４１）において、Ｖはブランク記号を含まない出力記号（つまり、文字）の集合であり、Ｊは文字列ｃの長さ（文字数）である。

【0151】

【数41】

【0152】

まず図６のステップＳ１において、擬似ＣＴＣ記号列生成部１２０は、ａ_ｉ（ハット）をヌル記号列に設定（初期化）する。

【0153】

次のステップＳ２は、ループ１の始点である。ここで擬似ＣＴＣ記号列生成部１２０は、ループ１に関する条件の制御を行う。このフローチャートにおいて、ｊは、ループ１における繰り返しの指標となる変数である。そして、ループ１の初期条件はｊ＝１である。ループ１の繰り返し時の条件は「＋１」（即ち、ｊ＝ｊ＋１）である。ループ１の終了判定条件は「Ｊ」（ｊ≦Ｊの条件を満たさなくなるようなｊの場合にはループを抜ける）である。つまり、ループ１の処理は、ｊ＝１のときから、ｊ＝Ｊのときまで、ｊを１ずつ増分させながら繰り返される。なお、ループ１の終点は、ステップＳ１０である。

【0154】

次にステップＳ３において、擬似ＣＴＣ記号列生成部１２０は、Ｐ_ｂ（ｎ）に従い、確率的にブランク記号＜ｂｌａｎｋ＞の連続数Ｎ_ｂを選択する。つまり、擬似ＣＴＣ記号列生成部１２０は、予め得られた統計に基づいて且つランダムな要素にしたがって連続数Ｎ_ｂを選択する。ステップＳ３の処理では、確率がゼロでない限りは、Ｎ_ｂ＝０，１，２，・・・のいずれかであり得る。

【0155】

次にステップＳ４において、擬似ＣＴＣ記号列生成部１２０は、その時点での文字の位置ｊに関して、（ｊ≠１）且つ（ｃ［ｊ－１］＝＝ｃ［ｊ］）という条件の真偽を判定する。なお、ｊ＝１の場合には条件が偽であることが確定するためｃ［ｊ－１］を参照しないようにしてもよい。あるいはｃ［０］が任意の何らかの記号であるという前提を置いてもよい。上記の条件が真の場合（ステップＳ４：ＹＥＳ）には次のステップＳ５に進む。上記の条件が偽の場合（ステップＳ４：ＮＯ）には図７のステップＳ８に飛ぶ。このステップＳ４における条件判定に基づく分岐は、入力文字列内において同一文字が連続する箇所についてのみ、ステップＳ５からＳ７までの処理を実行させるためのものである。

【0156】

次にステップＳ５に進んだ場合、次の通りである。即ち、ステップＳ５は、ループ２の始点である。ここで擬似ＣＴＣ記号列生成部１２０は、ループ２に関する条件の制御を行う。ループ２の内部の処理が実行される条件は、（Ｎ_ｂ＝０）である。Ｎ_ｂの初期値（ステップＳ３において決定されたＮ_ｂ）が０ではない場合には、ループ２の内部の処理は一度も実行されない。Ｎ_ｂの初期値が０である場合は、Ｎ_ｂの値が０である間、ループ２の処理を繰り返す。Ｎ_ｂの値が０ではなくなったときに、ループ２を抜け出す。なお、ループ２の終点は、ステップＳ７である。

【0157】

ステップＳ６は、ループ２の内部における唯一のステップである。ステップＳ６において、擬似ＣＴＣ記号列生成部１２０は、Ｐ_ｂ（ｎ）に従い、確率的にブランク記号＜ｂｌａｎｋ＞の連続数Ｎ_ｂを選択する。なお、Ｎ_ｂの選択を行う都度、異なる確率的要素に基づいた選択を行うこととする。つまり、Ｎ_ｂの選択を繰り返すうちに、Ｎ_ｂとして０以外の値が選択されることが期待できる。

【0158】

ステップＳ７は、ループ２の終点である。前記の（Ｎ_ｂ＝０）の条件が真である場合には、ループ２の処理を繰り返す。（Ｎ_ｂ＝０）の条件が偽である場合には、ループ２を抜け出して次の図７のステップＳ８に進む。つまり、ループ２を抜け出した時点で、Ｎ_ｂとして０以外の値が選択されている。

【0159】

図７のステップＳ８において、擬似ＣＴＣ記号列生成部１２０は、既に決定されているＮ_ｂの値に基づいて、Ｎ_ｂ個のブランク記号＜ｂｌａｎｋ＞を、その時点での記号列ａ_ｉ（ハット）の後側（通常は、右側）に連結する。

【0160】

次にステップＳ９において、擬似ＣＴＣ記号列生成部１２０は、予め求められているＰ_ｃ（ｎ）に従い、確率的に文字（ブランク記号以外の記号）の連続数Ｎ_ｃを選択する。つまり、擬似ＣＴＣ記号列生成部１２０は、予め得られた統計に基づいて且つランダムな要素にしたがって連続数Ｎ_ｃを選択する。つまり、確率がゼロでない限りは、Ｎ_ｃ＝０，１，２，・・・のいずれかであり得る。次に、擬似ＣＴＣ記号列生成部１２０は、連続するＮ_ｃ個（Ｎ_ｃは、本ステップにおいて選択された値）の文字ｃ［ｊ］を、その時点での記号列ａ_ｉ（ハット）の後側（通常は、右側）に連結する。

【0161】

ステップＳ１０は、ループ１の終点である。前記の条件の通り、ｊの値を＋１（増分１）して、その結果としてｊの値が１，２，・・・，Ｊのいずれかである限りは、ループ１の処理を繰り返す。繰り返しの条件が満たされなくなるとき、即ち、Ｊを増分することによってｊの値がＪ＋１に達する場合には、ループ１を抜け出して次のＳ１１に進む。つまり、ループ１を抜け出した時点で、変換元の文字列における文字ｃ［１］からｃ［Ｊ］までの処理が完了している。

【0162】

次にステップＳ１１において、擬似ＣＴＣ記号列生成部１２０は、予め求められているＰ_ｂ（ｎ）に従い、確率的にブランク記号＜ｂｌａｎｋ＞の連続数Ｎ_ｂを選択する。つまり、擬似ＣＴＣ記号列生成部１２０は、予め得られた統計に基づいて且つランダムな要素にしたがって連続数Ｎ_ｂを選択する。つまり、確率がゼロでない限りは、Ｎ_ｂ＝０，１，２，・・・のいずれかであり得る。次に、擬似ＣＴＣ記号列生成部１２０は、連続するＮ_ｂ個（Ｎ_ｂは、本ステップにおいて選択された値）のブランク記号＜ｂｌａｎｋ＞を、その時点での記号列ａ_ｉ（ハット）の最後に連結する。

【0163】

このフローチャートで示す処理のうち、ステップＳ１の処理を初期化処理と捉えることができる。また、ステップＳ３からＳ８までの処理を第１フェーズの処理と捉えることができる。第１フェーズの処理は、連続するブランク記号＜ｂｌａｎｋ＞の連続数を決めてその数のブランク記号＜ｂｌａｎｋ＞を生成すべき文字列の一部として連結する処理である。また、ステップＳ９の処理を第２フェーズの処理と捉えることができる。第２フェーズの処理は、連続する文字（ブランク記号以外）の連続数を決めてその数の文字生成すべき文字列の一部として連結する処理である。第１フェーズの処理と第２フェーズの処理とは、変換元のテキスト文字列に含まれる各文字（先頭から順に）について繰り返される（ステップＳ２とステップＳ１０とで制御されるループ１の処理）。そして、ステップＳ１１の処理を第３フェーズの処理と捉えることができる。第３フェーズの処理は、上記のループ１の処理の後に、即ち入力文字列の最後の文字の後に続くブランク記号＜ｂｌａｎｋ＞の連続数を決めてその数のブランク記号＜ｂｌａｎｋ＞を生成すべき文字列の一部として連結する処理である。

【0164】

ここで、実例を用いて、上記のフローチャートの処理を説明する。例として、変換元のテキスト文字列が「明日はいい天気」である場合を想定する。

【0165】

＜第１フェーズの処理＞
前述のフローチャートのステップＳ３における処理として、算出済みのＰ_ｂ（ｎ）にしたがって、確率的にブランク記号＜ｂｌａｎｋ＞の連続数であるＮ_ｂを選択する。ここでは選択されたＮ_ｂが３である場合を想定する。Ｎ_ｂ＝３が選択される確率は、前記の例ではＰ_ｂ（３）＝１／４である。前述のフローチャートのステップＳ８における処理として、ａ_ｉ（ハット）に３個のブランク記号＜ｂｌａｎｋ＞を連結すると、ａ_ｉ（ハット）＝「＿／＿／＿」となる。ただし、スラッシュは、便宜的に挿入している記号間の区切りである。

【0166】

＜第２フェーズの処理＞
前述のフローチャートのステップＳ９における処理として、算出済みのＰ_ｃ（ｎ）にしたがって、確率的にブランク以外の記号（つまり、文字）の連続数であるＮ_ｃを選択する。選択されたＮ_ｃが２である場合を想定する。ここではＮ_ｃ＝２が選択される確率は、前記の例ではＰ_ｃ（２）＝１／３である。そして、Ｎ_ｃ個（即ちここでは２個）の文字「明」の連続を、ａ_ｉ（ハット）に連結する。すると、ａ_ｉ（ハット）＝「＿／＿／＿／明／明」となる。スラッシュは、便宜的に挿入している記号間の区切りである。

【0167】

＜第１フェーズと第２フェーズの繰り返し＞
入力文字列に含まれる残りの文字である「日」、「は」、「い」、「い」、「天」、「気」のそれぞれについても、上記の第１フェーズおよび第２フェーズの処理が繰り返される。

【0168】

＜第３フェーズの処理＞
上記の繰り返し処理が終了した後に、第３フェーズの処理を行うことにより、ＣＴＣ記号列に、最後に連続するブランク記号＜ｂｌａｎｋ＞が付加される。

【0169】

なお、入力文字列内において同一の文字が連続する場合（「明日はいい天気」における「いい」が該当）には、その連続する文字（「い」と「い」）の間のブランク記号＜ｂｌａｎｋ＞の数Ｎ_ｂは０にはならない。このことは、フローチャート内のステップＳ５からＳ７までの処理によって保証される。

【0170】

以上のようにして、「明日はいい天気」という文字列を基に、例えば、「＿／＿／＿／明／明／＿／日／日／＿／＿／は／い／＿／い／＿／天／天／気／＿／＿」などといったＣＴＣ記号列が出力される。なお、Ｎ個のＣＴＣ記号列ａ_ｉ（ハット）のそれぞれは、確率的要素（文字の連続数またはブランク記号＜ｂｌａｎｋ＞の連続数）に基づいて生成されるため、偶然に一致する場合の組を除いて互いに異なる記号列となることが充分に期待される。

【0171】

［推論時の処理］
次に、モデルの学習が完了した状態における音声認識装置１の推論時の処理について説明する。なお、推論を実行する前提として、目的とする領域のテキストデータを用いたＥｎｃｏｄｅｒ_ｈの再学習も完了している。

【0172】

入力される認識対象の音声ｘに対して、音声認識装置１は、下の式（４２）によって、出力特徴量ｈ_ｈを算出する。また、音声認識装置１は、下の式（４３）によって、特徴量ｈ_ｈを基に、ＣＴＣ記号列ａ（ハット）を求める。

【0173】

【数42】

【0174】

【数43】

【0175】

そして、音声認識装置１は、従来技術におけるＣＴＣ音声認識の手法と同様に、求められたＣＴＣ記号列ａ（ハット）に含まれる同一文字の連続を１文字にまとめるとともに、ブランク記号＜ｂｌａｎｋ＞を削除することにより、音声認識結果のテキストを得る。つまり、音声認識装置１は、出力記号列（ａ（ハット））の中で繰り返されている文字を集約するとともに、当該出力記号列に含まれるブランク記号を削除することによって得られる文字列を音声認識結果として出力する。

【0176】

図８は、本実施形態の音声認識装置１の内部構成の例を示すブロック図である。音声認識装置１は、コンピューターを用いて実現され得る。図示するように、そのコンピューターは、中央処理装置９０１と、ＲＡＭ９０２と、入出力ポート９０３と、入出力デバイス９０４や９０５等と、バス９０６と、を含んで構成される。コンピューター自体は、既存技術を用いて実現可能である。中央処理装置９０１は、ＲＡＭ９０２等から読み込んだプログラムに含まれる命令を実行する。中央処理装置９０１は、各命令にしたがって、ＲＡＭ９０２にデータを書き込んだり、ＲＡＭ９０２からデータを読み出したり、算術演算や論理演算を行ったりする。ＲＡＭ９０２は、データやプログラムを記憶する。ＲＡＭ９０２に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、ＲＡＭは、「ランダムアクセスメモリー」の略である。入出力ポート９０３は、中央処理装置９０１が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス９０４や９０５は、入出力デバイスである。入出力デバイス９０４や９０５は、入出力ポート９０３を介して中央処理装置９０１との間でデータをやりとりする。バス９０６は、コンピューター内部で使用される共通の通信路である。例えば、中央処理装置９０１は、バス９０６を介してＲＡＭ９０２のデータを読んだり書いたりする。また、例えば、中央処理装置９０１は、バス９０６を介して入出力ポートにアクセスする。

【0177】

なお、上述した実施形態における音声認識装置１の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。つまり、「コンピューター読み取り可能な記録媒体」とは、非一過性の（non-transitory）コンピューター読み取り可能な記録媒体であってよい。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

【0178】

なお、ニューラルネットワークの学習（パラメーターの更新）においては、算出された損失に基づく誤差逆伝播法を用いることができる。

【0179】

以上、実施形態を説明したが、さらに下記のような変形例でも実施することが可能である。なお、複数の実施形態および変形例を、組み合わせることが可能な限りにおいて、組み合わせて実施してもよい。

【0180】

［第１実施形態の変形例１］
上記実施形態では、エンコーダーを３階層（第１層エンコーダー部３０（Ｅｎｃｏｄｅｒ_ｌ・３０）と、第２層エンコーダー部４０（Ｅｎｃｏｄｅｒ_ｍ・４０）と、第３層エンコーダー部５０（Ｅｎｃｏｄｅｒ_ｈ・５０））で実現した。エンコーダーの階層数を他の数としてもよい。例えば、エンコーダーの階層数を４以上としてもよい。そのような場合にも、少なくともエンコーダーの最終層（高レベル側）を含む層について、目的領域のテキストに基づく適応化を行えるようにする。

【0181】

［第１実施形態の変形例２］
図１に示した音声認識装置１の全体を実施する代わりに、図４に示したモデル適応化装置２のみを実施してもよい。その場合にも、モデル適応化装置２は、音声認識モデルの適応化を行うことができる。つまり、モデル適応化装置２は、目的領域のテキストに基づいて、音声認識モデルが目的領域に合った音声認識結果の文字列を出力するように、適応化を行うことができる。

【0182】

［第１実施形態の変形例３］
話題（分野、領域）ごとに異なるＥｎｃｏｄｅｒ_ｈ・５０の再学習を予め行っておいてもよい。その場合には、音声認識対象の話題に合ったＥｎｃｏｄｅｒ_ｈ・５０をその都度選択することにより、話題に合った音声認識結果の文字列が出力されることとなる。また、逆に、その都度、目的とする話題のテキストを用いて、Ｅｎｃｏｄｅｒ_ｈの学習を行ってもよい。

【0183】

［第１実施形態の変形例４］
上記実施形態では、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習のために、擬似ＣＴＣ記号列生成部１２０が擬似的なＣＴＣ記号列を生成した。変形例として、擬似ＣＴＣ記号列生成部１２０を設ける代わりに、目的とする領域に属する記号列（擬似ＣＴＣ記号列に相当するもの）を外部から与えるようにしてもよい。この場合にも、Ａｄａｐｔｅｒは、その記号列に基づいて、Ｅｎｃｏｄｅｒ_ｈ・５０に入力するための特徴量を算出して、出力する。

【0184】

［第１実施形態の変形例５］
変形例５として、テキスト文字列を疑似的なＣＴＣ記号列に変換する前に、テキスト文字列における文字の置換処理を行ってもよい。このような置換処理を行うことにより、テキスト文字列は、Ｅｎｃｏｄｅｒ_ｌ・３０が出力する文字列の誤りのパターンに似るという効果がある。そして、そのような置換処理後のテキスト文字列を基に、擬似的なＣＴＣ記号列を生成するようにする。つまり、このような誤りを含み得る文字列に対応するＣＴＣ記号列を基に、Ａｄａｐｔｅｒを介して、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習を行うことができる。これにより、認識性能のさらなる向上を期待することができる。

【0185】

図９は、音声認識装置１内における、この変形例５による置換処理のための部分の機能構成を示すブロック図である。図示するように、変形例５による音声認識装置１（モデル適応化装置２）は、置換処理部１１５を備える。置換処理部１１５は、目標領域テキスト供給部１１０が供給するテキストデータ（文字列）における文字の置換の処理を行う。置換処理部１１５は、置換後のテキストデータ（文字列）を、擬似ＣＴＣ記号列生成部１２０に渡す。変形例５においては、擬似ＣＴＣ記号列生成部１２０は、目的領域テキスト供給部１１０から渡されるテキスト文字列を基に、置換処理部１１５が文字の置換を行った後の文字列を用いて、擬似的なＣＴＣ記号列を生成する。

【0186】

変形例５で用いる出力文字確率分布の算出方法は、次の通りである。学習済みのIntermediate CTCに、Intermediate CTCの学習に使用した音声データを入力する。各音声データに対してＥｎｃｏｄｅｒ_ｌ・３０が出力した最も高い確率であるアライメントａ_ｌ（ハット）は下の式（４４）で表わされる。

【0187】

【数44】

【0188】

このａ_ｌ（ハット）の位置ｔ＝ｔ´において、下の式（４５）である場合を考える。

【0189】

【数45】

【0190】

上記の式（４５）の場合に、ｔ＝ｔ´の位置において、Ｅｎｃｏｄｅｒ_ｌ・３０が各記号ｖ（ｖはＶの要素）を出力する確率を、下の式（４６）の通りとする。つまり、式（４６）が表す確率は、記号ｓが記号ｖによって置換される確率であり、ｔに依存しない。

【0191】

【数46】

【0192】

各学習データの各ｔにおいて、その位置の記号がｓ（ｓは、上記の通りＶの要素）であった場合に、上記の式（４６）の確率を計算し、計算された確率を平均したものを、出力文字確率分布Ｐ_ｓ（ｖ）と定義する。この出力文字確率分布が求まると、下の式（４７）で表わされる値は、ある文字ｓが正解の文字である場合に、Ｅｎｃｏｄｅｒ_ｌ・３０が誤って他の文字ｓ´を出力する確率であるとみなせる。

【0193】

【数47】

【0194】

すべてのｓ（ｓはＶの要素）に対し、出力文字確率分布Ｐ_ｓ（ｖ）を算出し、テキスト文字列の置換処理に利用することができる。

【0195】

この変形例５におけるテキスト文字列の置換処理は、次のように行われる。つまり、テキスト文字列ｃに含まれる各文字ｃ［ｊ］に対して、下の式（４８）で表わされる出力文字確率分布（上で獲得済み）にしたがって、文字の置換を行う。

【0196】

【数48】

【0197】

例えばテキスト文字列ｃが「天気予報です」である場合、ｃ［１］＝天である。また、文字の置換に関して、下の式（４９）および式（５０）の通りであるとする。

【0198】

【数49】

【数50】

【0199】

この例の場合には、０．８の確率で天から天への置換処理を行う。即ち、天の文字は変化せず、このような置換によって元の文字列ｃは変化しない。一方、０．１の確率で天から点への置換処理を行う。即ち、天が点に置換されるため、元の文字列ｃは「点気予報です」に変化する。上記の置換処理を、文字列ｃに含まれるすべてのｃ［ｊ］について行うことによって、Ｅｎｃｏｄｅｒ_ｌ・３０が出力する文字列の誤りに類似することを意図した文字列を得ることができる。そして、このような置換処理に基づいて得られるＣＴＣ記号列を用いて、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習を行うことができる。

【0200】

つまり、変形例５において、置換処理部１１５は、所定の統計データを基に得られた出力文字確率分布にしたがって、目的とする領域に属するテキスト（目標領域テキスト供給部１１０から供給されるテキスト）に含まれる文字を別の文字で置換する処理を行う。また、擬似ＣＴＣ記号列生成部１２０は、この置換処理部１１５が出力する置換処理後の目的とする領域に属するテキストを基に、ＣＴＣ記号列を生成する処理を行う。

【0201】

以上、この発明の実施形態（変形例を含む）について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【0202】

以上説明したように、本実施形態（変形例を含む）では、テキストデータのみによってend-to-end音声認識モデルを適応化することができる。つまり、テキストデータのみで（音声データなしで）、音声認識モデルをドメイン適応させ、対象ドメインの認識精度を向上させることが可能である。

【0203】

［第１実施形態の構成の効果の検証］
上で説明した第１実施形態による音声認識装置１の効果を検証するための実証実験を行った。実証実験に用いた第１の音声は、音声学に関する学会発表音声等を収録するＣＳＪコーパスである。このＣＳＪコーパスを用いて、Intermediate CTCの学習、およびＡｄａｐｔｅｒの学習を行った。その後、上で学習済みのIntermediate CTCのうちのＥｎｃｏｄｅｒ_ｈについて、天気予報のテキストデータを用いて、第１再学習手法および第２再学習手法のそれぞれでの再学習を行った。天気予報のテキストデータによる再学習の前後のそれぞれのＥｎｃｏｄｅｒ_ｈを用いて、第２の音声である天気予報評価セットとＣＳＪコーパス評価セットにおける文字誤り率（ＣＥＲ、Character Error Rate）を算出した。また、テキスト文字列の置換処理（変形例５で説明した処理）がある場合とない場合との文字誤り率を算出した。

【0204】

第１再学習手法および第２再学習手法の両方に共通する実験の諸元は、次の通りである。
特徴量：ログメルスペクトログラム８０次元＋ピッチ３次元+Δ+ΔΔの合計２４９次元
文字種：３２６０種類

【0205】

使用したモデルは、次の通りである。
Ｃｏｎｖｏｌｕｔｉｏｎ：畳み込みニューラルネットワーク２層
Ｅｎｃｏｄｅｒ_ｌ： Conformer ６層
Ｅｎｃｏｄｅｒ_ｍ： Conformer ３層
Ｅｎｃｏｄｅｒ_ｈ： Conformer ３層
Ａｄａｐｔｅｒ： Conformer ６層
生成する疑似ＣＴＣ記号列数Ｎ：６４

【0206】

以下は、Ｅｎｃｏｄｅｒ_ｈ・５０の再学習を行うための、第１再学習手法と第２再学習手法のそれぞれの個別の実験諸元と実験結果である。

【0207】

第１再学習手法（ターゲットドメインのテキストのみを用いたドメイン適応）に関する学習用データは、次の通りである。
１）Intermediate CTCの学習：ＣＳＪコーパス
２）Ａｄａｐｔｅｒの学習：ＣＳＪコーパス
３）Ｅｎｃｏｄｅｒ_ｈの再学習：天気予報テキスト１０００文

【0208】

第１再学習手法に関する評価データは、次の通りである。
１）ＣＳＪ評価セットの、eval1、eval2、およびeval3
２）天気予報評価音声２時間分ただし、Ｅｎｃｏｄｅｒ_ｈの再学習に使用した天気予報テキスト１０００文の音声は含まれていない。

【0209】

第１再学習手法に関する学習諸元は、次の通りである。
１）Intermediate CTCの学習：１００エポック（epoch）中の、validation loss（検証損失）が最も低かったときのエポックを学習したモデルを使用
２）Ａｄａｐｔｅｒの学習：５０エポック中、validation loss が最も低かったときのエポックを学習したモデルを使用
３）Ｅｎｃｏｄｅｒ_ｈの再学習：２０エポック中、最もＣＥＲ（Character Error Rate，文字誤り率）の改善が見られたエポックを学習したモデルを使用
なお、疑似ＣＴＣ文字列数Ｎは、６４である。

【0210】

下の表１は、Ｅｎｃｏｄｅｒ_ｈの再学習（第１再学習手法の場合）の前後におけるＣＥＲ（文字誤り率）の比較結果を示す。

【0211】

【表1】

【0212】

上の表１の通り、天気予報評価音声については、テキスト文字列の置換処理がない場合には、ＣＥＲは、Ｅｎｃｏｄｅｒ_ｈの再学習前の１８．７％から１５．５％に、３．２％改善した。テキスト文字列の置換処理がある場合（変形例５の場合）には、ＣＥＲは、Ｅｎｃｏｄｅｒ_ｈの再学習前の１８．７％から１３．７％に、５．０％改善した。逆に、ＣＳＪコーパスのｅｖａｌ１、ｅｖａｌ２、ｅｖａｌ３のそれぞれの音声については、当然ながら、Ｅｎｃｏｄｅｒ_ｈの再学習を行ったことにより、ＣＥＲが悪化している。ＣＳＪコーパスの評価データで、Ｅｎｃｏｄｅｒ_ｈの再学習後において認識精度が劣化したのは、Ｅｎｃｏｄｅｒ_ｈが、元のＣＳＪコーパスの話題から天気予報の話題に適応し直したためである。

【0213】

天気予報評価音声についての改善の具体例（ただし、テキスト文字列の置換処理がある場合）は、下記の通りである。
評価音声の発話：「予想最低気温です」
Ｅｎｃｏｄｅｒ_ｈの再学習前の認識結果：「予想最適基音です」
Ｅｎｃｏｄｅｒ_ｈの再学習後の認識結果：「予想最低気温です」

【0214】

以上のように、ここに記した実証実験では、天気予報のテキストデータのみを用いてＥｎｃｏｄｅｒ_ｈの再学習を行い、推論時に天気予報の話題に適した記号列を出力させることが可能となったことを示せた。

【0215】

第２再学習手法（ターゲットドメインのテキストと、ソースドメインの音声テキスト対とを用いたドメイン適応）に関する学習用データは、次の通りである。
１）Intermediate CTCの学習：ＣＳＪコーパス
２）Ａｄａｐｔｅｒの学習：ＣＳＪコーパス
３）Ｅｎｃｏｄｅｒ_ｈの再学習：天気予報テキスト１０００文およびＣＳＪコーパス

【0216】

第２再学習手法に関する評価データは、次の通りである。
１）ＣＳＪ評価セットの、eval2
２）天気予報評価音声２時間分ただし、Ｅｎｃｏｄｅｒ_ｈの再学習に使用した天気予報テキスト１０００文の音声は含まれていない。

【0217】

第２再学習手法に関する学習諸元は、次の通りである。
１）Intermediate CTCの学習：１００エポック（epoch）中の、validation loss（検証損失）が最も低かったときのエポックを学習したモデルを使用
２）Ａｄａｐｔｅｒの学習：５０エポック中、validation loss が最も低かったときのエポックを学習したモデルを使用
３）Ｅｎｃｏｄｅｒ_ｈの再学習：２０エポック中、最もＣＥＲの改善が見られたエポックを学習したモデルを使用（下の表２における、第２再学習手法でのＥｎｃｏｄｅｒ_ｈの再学習後）
ただしエポックに関して、天気予報テキストの学習が一巡した際に１エポックとカウントした。
疑似ＣＴＣ文字列数Ｎ_ｔは、６４である。
疑似ＣＴＣ文字列と同時に学習するＣＳＪ音声数Ｎ_ｓは、６４である。

【0218】

下の表２は、Ｅｎｃｏｄｅｒ_ｈの再学習（第２再学習手法の場合）の前後におけるＣＥＲの比較結果を示す。ただし、表２に示す再学習後の結果は、テキスト文字列の置換処理を行った場合（変形利５）である。

【0219】

【表2】

【0220】

表２に示す結果において、Ｅｎｃｏｄｅｒ_ｈの再学習前と、第２再学習手法でのＥｎｃｏｄｅｒ_ｈの再学習後との両方において、ソースドメインであるＣＳＪ評価セット（CSJ eval2）のＣＥＲは、いずれも、５．２％である。つまり、ソースドメインにおける認識精度は、第２再学習手法での再学習によって劣化していない。一方で、ターゲットドメインである天気予報評価セット（天気予報）におけるＣＥＲは、再学習前の１８．７％から、第２再学習手法による再学習後の１５．３％へと改善されている。

【0221】

表２において、第１再学習手法でのＥｎｃｏｄｅｒ_ｈの再学習後（４エポックの場合および５エポックの場合）のＣＥＲは、比較対象である。これは、ソースドメインの音声認識精度を劣化させずにターゲットドメインの音声認識精度を改善する方法として、テキストデータのみを学習データとして用いた第１再学習手法による再学習を途中で停止させる方法が考えられるためである。つまり、第１再学習手法を用いた場合に、第２再学習手法を用いた場合の天気予報評価セットのＣＥＲ（１５．３％）と同等のＣＥＲが達成されるのが、４エポック（ＣＥＲは１５．５％）あるいは５エポック（ＣＥＲは１５．１％）である。第１再学習手法での再学習後４エポックの場合の、ＣＳＪ評価セット（CSJ eval2）のＣＥＲは５．８％である。また、第１再学習手法での再学習後５エポックの場合の、ＣＳＪ評価セット（CSJ eval2）のＣＥＲは６．１％である。つまり、４エポックの場合も５エポックの場合も、ＣＳＪ評価セット（CSJ eval2）でのＣＥＲは、再学習前の５．２％からは劣化している。つまり、ソースドメインの音声認識精度を劣化させないという目的においては、比較対象の第１再学習手法よりも第２再学習手法が有効であることを確認できた。

【0222】

以上のように、第１再学習手法と第２再学習手法とは、適宜、使い分けることができる。また、第１再学習手法と第２再学習手法のいずれを用いる場合にも、本実施形態による再学習を行う方法は有効であることを示せた。つまり、予め学習させた汎用音声認識モデルに対し、認識させたい話題の音声に対する認識精度を向上させたい場合を想定する。例えば、流行り始めのスポーツの話題について、音声とテキストとの対のペアが入手できず、テキストのみが入手できる状況であると仮定する。このような状況において、対象スポーツの話題のテキストを用いて、本実施形態の適応化学習（Ｅｎｃｏｄｅｒ_ｈの再学習）をすることにより、認識性能を改善することができる。

【0223】

［第２実施形態］
次に、本発明の第２実施形態について説明する。なお、前実施形態において既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。

【0224】

本実施形態の音声認識装置１００１においては、目標領域のテキストを用いてIntermediate CTC 音声認識モデルの再学習を行う際に、Duration Predictor（発話長予測部）が発話長を予測し、その予測値に基づいて潜在ベクトルを時間方向に伸縮可能とする。本実施形態の音声認識装置１００１は、そのように発話長が調整された潜在ベクトルを生成する機能を持ち、その潜在ベクトルを正解として用いてIntermediate CTC 音声認識モデルの再学習を行う。なお、Duration Predictor（発話長予測部）は、ニューラルネットワークを用いて実現され、発話長の正解値に基づいて予め機械学習を行っておく。また、Duration Predictor（発話長予測部）によって予測された発話長に適宜係数を乗じることによって、与えられる目標領域のテキストに対して発話長にバリエーションを持たせるようにしてもよい。そのような音声認識装置１００１の具体的な構成例を、次に図１０および図１１を参照しながら説明する。

【0225】

図１０は、本実施形態による音声認識装置１００１の概略機能構成を示すブロック図である。図示するように、音声認識装置１００１は、音声供給部１０１０と、畳み込みニューラルネットワーク部１０２０と、第１層エンコーダー部（Ｅｎｃｏｄｅｒ_ｌ）１０３０と、第２層エンコーダー部（Ｅｎｃｏｄｅｒ_ｍ）１０４０と、第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０と、ＣＴＣ損失計算部１０６０と、目標領域テキスト供給部１１００と、最尤アライメント出力部１１１０と、ブランク記号込み文字列生成部１１２０と、潜在ベクトル生成部１２００とを含んで構成される。なお、上記の構成のうち、畳み込みニューラルネットワーク部１０２０と、第１層エンコーダー部（Ｅｎｃｏｄｅｒ_ｌ）１０３０と、第２層エンコーダー部（Ｅｎｃｏｄｅｒ_ｍ）１０４０と、第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０とをまとめて「エンコーダー部」と呼ぶ場合がある。音声認識装置１００１を構成するそれぞれの機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ（ＳＳＤ）といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。各部の機能は、次の通りである。

【0226】

音声供給部１０１０は、音声認識装置１００１が認識処理の対象とする音声を供給する。音声供給部１０１０は、音声のデータを、畳み込みニューラルネットワーク部１０２０に渡す。音声供給部１０１０は、音声のデータとして、例えばベクトルで表わされる音響特徴量の列を供給する。

【0227】

畳み込みニューラルネットワーク部１０２０は、音声供給部１０１０から渡される音声データの畳み込み処理を行う。畳み込みニューラルネットワーク部１０２０は、畳み込み処理の結果として得られる特徴量（ｈ_０）を、第１層エンコーダー部（Ｅｎｃｏｄｅｒ_ｌ）１０３０に渡す。

【0228】

第１層エンコーダー部（Ｅｎｃｏｄｅｒ_ｌ）１０３０と、第２層エンコーダー部（Ｅｎｃｏｄｅｒ_ｍ）１０４０と、第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０とは、３層構成のエンコーダーである。第１層エンコーダー部（Ｅｎｃｏｄｅｒ_ｌ）１０３０と、第２層エンコーダー部（Ｅｎｃｏｄｅｒ_ｍ）１０４０と、第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０とのそれぞれは、例えば、セルフアテンションニューラルネットワークを用いて実現される。音声認識装置１００１は、第１層エンコーダー部（Ｅｎｃｏｄｅｒ_ｌ）１０３０と、第２層エンコーダー部（Ｅｎｃｏｄｅｒ_ｍ）１０４０と、第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０とのそれぞれの出力について、損失を計算する機能を有するが、本図ではその機能を省略している。

【0229】

畳み込みニューラルネットワーク部１０２０と、第１層エンコーダー部（Ｅｎｃｏｄｅｒ_ｌ）１０３０と、第２層エンコーダー部（Ｅｎｃｏｄｅｒ_ｍ）１０４０と、第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０とをまとめた構成であるエンコーダー部は、音響特徴量のフレームの列を入力し前記音響特徴量のフレームに対応する記号の列として成る出力記号列を出力するように、複数階層で成るモデルを有し、前記モデルのそれぞれの階層が学習可能となるように構成されたものである。このエンコーダー部の複数階層のモデルにおけるある階層のモデルから次の階層のモデルへは中間特徴量（潜在ベクトル、潜在特徴量）が渡される。即ち、第１層エンコーダー部（Ｅｎｃｏｄｅｒ_ｌ）１０３０は、畳み込みニューラルネットワーク部１０２０から受け取る特徴量ｈ_０を基に、特徴量ｈ_ｌを算出し、第２層エンコーダー部（Ｅｎｃｏｄｅｒ_ｍ）１０４０に渡す。第２層エンコーダー部（Ｅｎｃｏｄｅｒ_ｍ）１０４０は、第１層エンコーダー部（Ｅｎｃｏｄｅｒ_ｌ）１０３０から受け取る特徴量ｈ_ｌを基に、特徴量ｈ_ｍを算出し、第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０に渡す。第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０は、第２層エンコーダー部（Ｅｎｃｏｄｅｒ_ｍ）１０４０から受け取る特徴量ｈ_ｍを基に、特徴量ｈ_ｈを算出し、出力する。なお、特徴量ｈ_０、ｈ_ｌ、ｈ_ｍ、ｈ_ｈのそれぞれは、ベクトルの系列である。

【0230】

このエンコーダー部は、所定領域の音響特徴量のフレーム列とその音響特徴量のフレーム列に対応する出力記号列との関係に基づく機械学習を行うことができる。その機械学習の後に、エンコーダー部は、前記の所定領域とは異なる領域である目標領域の記号列に基づいて、再学習を行う。つまり、潜在ベクトル生成部１２００が出力する潜在ベクトルをエンコーダー部が持つモデルの最終層または中間層に入力して最終層のモデルから得られる出力記号列と、正解の当該目標領域の記号列と、の関係に基づく損失である第１損失を用いて潜在ベクトルを入力した階層よりも後の階層の、目標領域への適応化を行うことを可能としている。本実施形態においては、モデルは、第１層エンコーダー部（Ｅｎｃｏｄｅｒ_ｌ）１０３０と、第２層エンコーダー部（Ｅｎｃｏｄｅｒ_ｍ）１０４０と、第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０との３層の構成としている。潜在ベクトル生成部１２００が出力する潜在ベクトル（目標領域の特徴を有する潜在ベクトル）は、最終層である第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０に入力され、第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０の再学習に使用される。なお、上記の「第１損失」は、下のＣＴＣ損失計算部１０６０によって算出される。

【0231】

ＣＴＣ損失計算部１０６０は、上記のエンコーダー部の学習を行うための損失を算出する。

【0232】

目標領域テキスト供給部１１００は、エンコーダー部の再学習を行うために用いられる目標領域のテキスト（記号列）を供給する。

【0233】

最尤アライメント出力部１１１０は、第１層エンコーダー部（Ｅｎｃｏｄｅｒ_ｌ）１０３０から渡される潜在ベクトルｈ_ｌに対応する最尤アライメントを求める。最尤アライメント出力部１１１０は、その最尤アラインメントをブランク記号込み文字列生成部１１２０に渡す。

【0234】

ブランク記号込み文字列生成部１１２０は、最尤アライメント出力部１１１０が求めた最尤アライメントを基に、文字列を生成する。ブランク記号込み文字列生成部１１２０は、その最尤アライメントを基に一度音声認識結果を得てから、その認識結果の文頭と文字間と文末のそれぞれにブランク記号を挿入することによって、ブランク記号入り文字列を生成する。

【0235】

潜在ベクトル生成部１２００は、入力される記号列（テキスト等）に応じた潜在ベクトル（潜在特徴量）を生成する。潜在ベクトル生成部１２００は、「潜在特徴量生成部」とも呼ばれる。潜在ベクトル生成部１２００が入力される記号列に基づいて生成する潜在ベクトル（潜在特徴量）は、前記のエンコーダー部が持つモデルの最終層または中間層に入力するための潜在ベクトルである。潜在ベクトル生成部１２００のさらに詳細な機能構成については、後で、別の図を参照しながら説明する。

【0236】

図１１は、本実施形態による潜在ベクトル生成部１２００の内部のさらに詳細な機能構成を示すブロック図である。図示するように、潜在ベクトル生成部１２００は、線形変換ニューラルネットワーク１２１０と、セルフアテンションニューラルネットワーク（Ｇｅｎｅｒａｔｏｒ_ｌ）１２２０と、Length Regulator（発話長調整部，潜在ベクトル複製部）１２３０と、セルフアテンションニューラルネットワーク（Ｇｅｎｅｒａｔｏｒ_ｍ）１２４０と、損失計算部１２６０と、Duration Predictor（発話長予測部）１３１０と、発話長決定部１３２０と、係数決定部１３３０と、発話長正解生成部１３５０と、損失計算部１３６０と、を含んで構成される。潜在ベクトル生成部１２００の内部に設けられるそれぞれのニューラルネットワークの内部パラメーター値は、学習により、更新可能である。潜在ベクトル生成部１２００を構成する各部の機能は、次の通りである。

【0237】

線形変換ニューラルネットワーク１２１０は、前述のブランク記号込み文字列生成部１１２０が生成した文字列（記号列）を線形変換して、ベクトルに変換する。線形変換ニューラルネットワーク１２１０は、ブランク記号込み文字列生成部１１２０から渡される文字列（記号列）に含まれる１文字に対応して、１個のベクトルを出力する。線形変換ニューラルネットワーク１２１０は、学習可能なように構成される。

【0238】

セルフアテンションニューラルネットワーク（Ｇｅｎｅｒａｔｏｒ_ｌ）１２２０は、線形変換ニューラルネットワーク１２１０から渡されるベクトルに基づいて、潜在ベクトルを生成する。セルフアテンションニューラルネットワーク（Ｇｅｎｅｒａｔｏｒ_ｌ）１２２０は、線形変換ニューラルネットワーク１２１０から受け取るベクトル１個に対応して、１個のベクトルを出力する。つまり、セルフアテンションニューラルネットワーク（Ｇｅｎｅｒａｔｏｒ_ｌ）１２２０が出力するベクトル１個は、ブランク記号込み文字列生成部１１２０から渡される文字（記号）１個に対応する。セルフアテンションニューラルネットワーク（Ｇｅｎｅｒａｔｏｒ_ｌ）１２２０は、生成した潜在ベクトルを、Length Regulator（発話長調整部，潜在ベクトル複製部）１２３０と、Duration Predictor（発話長予測部）１３１０とに渡す。

【0239】

Length Regulator（発話長調整部，潜在ベクトル複製部）１２３０は、下のDuration Predictor（発話長予測部）１３１０によって予測された結果である発話長（予測値）に基づいて、潜在ベクトル生成部１２００への入力記号に対応する潜在ベクトルの時間方向の長さを調節する。具体的には、Length Regulator（発話長調整部，潜在ベクトル複製部）１２３０は、予測された発話長に基づいて、セルフアテンションニューラルネットワーク（Ｇｅｎｅｒａｔｏｒ_ｌ）１２２０が生成する潜在ベクトルを複製することによって、その時間方向の長さの調整を行う。言い換えれば、Length Regulator（発話長調整部，潜在ベクトル複製部）１２３０は、セルフアテンションニューラルネットワーク（Ｇｅｎｅｒａｔｏｒ_ｌ）１２２０から渡されるベクトル１個を複製することにより、そのベクトルが発話長決定部１３２０が決定した発話長（整数）分の繰り返しになるようにする。つまり、セルフアテンションニューラルネットワーク（Ｇｅｎｅｒａｔｏｒ_ｌ）１２２０が生成する潜在ベクトルの時間方向の長さは、Length Regulator（発話長調整部，潜在ベクトル複製部）１２３０によって伸縮可能である。Length Regulator（発話長調整部，潜在ベクトル複製部）１２３０は、時間方向の長さの調節を行った結果である潜在ベクトルを、次のセルフアテンションニューラルネットワーク（Ｇｅｎｅｒａｔｏｒ_ｍ）１２４０に渡す。

【0240】

セルフアテンションニューラルネットワーク（Ｇｅｎｅｒａｔｏｒ_ｍ）１２４０は、Length Regulator（発話長調整部，潜在ベクトル複製部）１２３０から渡される時間方向の長さを調整したベクトルに基づいて、出力用の潜在ベクトルを生成する。

【0241】

損失計算部１２６０は、セルフアテンションニューラルネットワーク（Ｇｅｎｅｒａｔｏｒ_ｍ）１２４０から渡される潜在ベクトルと、第２層エンコーダー部（Ｅｎｃｏｄｅｒ_ｍ）１０４０から渡される潜在ベクトルとの差である損失（後で説明するＬ_{ｌａｔｅｎｔ}）を算出する。

【0242】

Duration Predictor（発話長予測部）１３１０は、入力される特徴量に基づいて、その特徴量の元となった記号列に含まれる各記号の時間方向の長さである発話長を予測する。Duration Predictor（発話長予測部）１３１０は、例えばニューラルネットワークを用いて実現される。Duration Predictor（発話長予測部）１３１０は、精度よく発話長を予測することができるように、予め学習しておくことが可能である。

【0243】

具体的には、Duration Predictor（発話長予測部）１３１０は、セルフアテンションニューラルネットワーク（Ｇｅｎｅｒａｔｏｒ_ｌ）１２２０から渡されるベクトル（第１潜在特徴量）に基づいてDuration Predictor（発話長予測部）１３１０が予測した発話長と、そのベクトル（第１潜在特徴量）に対応する正解の発話長（発話長正解生成部１３５０から渡される）と、の差である第３損失に基づいて学習可能となるように構成されている。この「第３損失」は、損失計算部１３６０によって算出される損失（後で説明するＬ_{ｄｕｒａｔｉｏｎ}）である。

【0244】

発話長決定部１３２０は、Duration Predictor（発話長予測部）１３１０が予測した発話長に係数決定部１３３０から渡される係数γを乗算することによって、発話長を決定する。発話長決定部１３２０は、適宜四捨五入等の丸め処理を行うことによって、整数値としての発話長を決定する。係数決定部１３３０が複数通りの係数を決定する場合には、発話長決定部１３２０は、それらのそれぞれの係数値を用いて、発話長を決定する。

【0245】

係数決定部１３３０は、Duration Predictor（発話長予測部）１３１０が予測した発話長を変化させるための係数値を決定する。係数決定部１３３０は、複数通りの係数値を決定してもよい。係数決定部１３３０が決定する係数値は、例えば、所定の値の範囲内において一様分布またはそれに近い分布をするものであってよい。係数決定部１３３０は、例えば、予め定められた分布にしたがってランダムに係数値を決定してもよい。また、係数決定部１３３０は、所定の計算式等によって決定される係数値や、予め決定されて記憶されている係数値を決定してもよい。

【0246】

発話長正解生成部１３５０は、セルフアテンションニューラルネットワーク（Ｇｅｎｅｒａｔｏｒ_ｌ）１２２０からDuration Predictor（発話長予測部）１３１０に渡されるベクトルに対応する、発話長の正解を生成する。この正解は、損失計算部１３６０によって、損失を求めるために使用される。発話長正解生成部１３５０が正解を生成する方法については、後述する。

【0247】

損失計算部１３６０は、Duration Predictor（発話長予測部）１３１０が予測した発話長と、発話長正解生成部１３５０から供給される発話長の正解値と、の差である損失を求める。損失計算部１３６０が算出する損失は、後で説明するＬ_{ｄｕｒａｔｉｏｎ}（発話長についての損失）である。

【0248】

以上の構成により、潜在ベクトル生成部１２００は、Length Regulator（発話長調整部，潜在ベクトル複製部）１２３０によって時間方向の長さが調節された潜在ベクトルを出力することができる。

【0249】

なお、係数決定部１３３０が決定する係数に基づいて、Length Regulator（発話長調整部，潜在ベクトル複製部）１２３０が調節する発話長を可変とすることができる。つまり、潜在ベクトル生成部１２００は、潜在ベクトル生成部１２００自身の学習の時、あるいは目標領域の記号列に基づいてエンコーダー部のモデル（本実施形態においては、第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０）の目標領域への適応化（再学習）を行う時、の少なくともいずれかにおいて、複数通りの発話長の潜在ベクトルを生成して出力する。つまり、発話長決定部１３２０は、Duration Predictor（発話長予測部）１３１０によって予測された発話長（予測値）に、係数決定部１３３０から渡される複数の係数値をそれぞれ掛けること（乗算）によって、複数通りの発話長を決定する。つまり、潜在ベクトル生成部１２００は、目標領域に属する１つの記号列から、複数通りの時間方向の長さに基づく潜在ベクトルを生成して出力する。

【0250】

また、以上の構成により、潜在ベクトル生成部１２００は、所定の音響特徴量に基づいて前記のエンコーダー部の中間層である第Ｋ１層（本実施形態においては、第１層エンコーダー部（Ｅｎｃｏｄｅｒ_ｌ）１０３０）から出力される第１潜在特徴量に基づいて潜在ベクトル生成部１２００が生成する潜在特徴量（セルフアテンションニューラルネットワーク（Ｇｅｎｅｒａｔｏｒ_ｍ）１２４０からの出力）と、当該音響特徴量に基づくエンコーダー部の中間層である第Ｋ２層（ただし、第Ｋ２層は前記第Ｋ１層よりも後段。本実施形態においては、第２層エンコーダー部（Ｅｎｃｏｄｅｒ_ｍ）１０４０である。）から出力される第２潜在特徴量と、の差である第２損失を用いて学習可能となっている。なお、この第２損失は、損失計算部１２６０によって算出される損失（後で説明するＬ_{ｌａｔｅｎｔ}）である。

【0251】

［Fastspeechおよびその応用］
第２実施形態における潜在ベクトル生成部１２００は、例えば、Fastspeech（ファストスピーチ）の技術を利用して実現可能である。Fastspeechの技術は、非自己回帰的型（non-autoregressive）のニューラルネットワークをベースとした音声合成の手法である。Fastspeechは、入力される文字列を音響特徴の系列に変換する。Fastspeechの特徴の一つは、合成する音声の発話長が任意の比率で伸縮可能な点である。なお、Fastspeechの手法自体は、既存の技術であり、下記の参考文献などにも記載されている。
［参考文献］Yi Ren, Yangjun Ruan, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu，FastSpeech: Fast, Robust and Controllable Text to Speech，In Proc. NeurIPS2019，2019年，arXiv:1905.09263v5，https://doi.org/10.48550/arXiv.1905.09263

【0252】

図１２は、Fastspeechの機能構成を説明するための概略図である。図１２（Ａ）は、Fastspeechの構成を示す。図１２（Ａ）に示す通り、Fastspeechは、発話長を制御するためのLength Regulator（発話長調整部）と、Length Regulatorの前段および後段のそれぞれにおけるFeed-Forward Transformer (FFT) Block（フィードフォワードトランスフォーマーブロック）と、を含む構成をとる。Length RegulatorおよびFeed-Forward Transformer (FFT) Blockのそれぞれは、ニューラルネットワークを用いて実現される。Fastspeechは、音素（phoneme）を入力し、音響特徴量の系列を出力する。図１２（B）は、上記のForward Transformer (FFT) Blockの内部の構成を示す。Forward Transformer (FFT) Blockは、畳み込みニューラルネットワークやMulti-Head Attention（マルチヘッドアテンション）等を含んで構成される。図１２（Ｃ）は、上記のLength Regulatorの内部の構成を示す。Length Regulatorは、内部に、Duration Predictor（発話長予測部）を備える。Duration Predictorは、畳み込みニューラルネットワーク等で構成されるモジュールである。図１２（Ｄ）は、そのDuration Predictorの内部の構成を示す。Duration Predictorは、入力される各文字の発話長あるいは各単語の発話長を予測する。図１２（Ｃ）のLength Regulatorは、Duration Predictorによって予測された発話長にしたがって、潜在ベクトルを複製することにより、発話長を伸縮させることができる。

【0253】

図１２（Ａ）における前段側のFFT Blockは、1文字ずつ、あるいは1単語ずつの入力を取り込み、各文字あるいは各単語を潜在ベクトルに変換して出力する。前段側のFFT Blockから出力されたそれぞれの潜在ベクトルは、Length Regulator内のDuration Predictor（図１２（Ｃ）および（Ｄ））に入力される。Duration Predictorは、発話長をスカラー値の系列として出力する。この系列の要素は、各文字あるいは各単語についてDuration Predictorによって予測された発話長である。Length Regulator（図１２（Ｃ））は、Duration Predictorが出力した発話長予測値にしたがって、Length Regulatorに入力されたそれぞれの潜在ベクトルを複製することにより発話長の調整を行う。Length Regulatorから出力された発話長調整後の潜在ベクトルは、図１２（Ａ）における後段側のFFT Blockに入力される。後段側のFFT Blockは音響特徴系列を推定し、出力する。

【0254】

Fastspeechの学習は、複数の種類の損失を複合的に用いて行われる。第１に、学習用データに基づいて後段側のFFT Blockから出力された音響特徴系列と、予め学習用データ内の音声（入力される音素（テキスト）に対応する音声）から抽出された音響特徴系列との、Ｌ１損失あるいはＬ２損失が用いられる。また、第２に、学習用データに基づいてDuration Predictorから出力される潜在ベクトルに対応する長さと、予め学習用データに含まれるテキストの1文字あるいは1単語に対応する音響特徴系列の長さとの、Ｌ１損失あるいはＬ２損失が用いられる。例えばこれら２種類の損失の和を、Fastspeechの学習のために用いることができる（式（６０）も参照）。つまり、Fastspeechの学習のための学習用データとしては、テキスト文字列と、その文字列に対応する音響特徴系列と、各文字あるいは単語に対応する音響特徴系列の長さの情報を用いるようにする。

【0255】

学習済みのFastspeechによる推論時には、Fastspeechは学習時と同様の計算を行うことにより音響特徴系列を出力する。本実施形態では、Duration Predictorが予測した発話長に所定の係数αを乗算するようにする。係数αの値は、例えばユーザーが予め任意に設定することが可能である。また、係数αとして、様々な値をその都度決めて用いるようにしてもよい。また、係数αとして、ランダムに決定される値をその都度用いるようにしてもよい。係数αを乗算した発話長を用いて、Length Regulatorは潜在ベクトルの複製を行う。これにより、生成される音声特徴系列の長さ（発話長）を様々な比率（例えば、任意の比率）で伸縮させることができる。

【0256】

［発話長の予測］
音声合成モデルを用いて発話長の予測を行う方法について説明する。音声認識装置１００１は、上で説明したFastspeechのようなLength RegulatorおよびDuration Predictorを備えた非自己回帰的型の音声合成モデル（潜在ベクトル生成部１２００）を用いて、テキストから発話長を予測する。また、この音声合成モデル（潜在ベクトル生成部１２００）を用いて、テキストをIntermediate CTC 音声認識モデルの中間層の潜在ベクトル（例えば、第２層エンコーダー部１０４０（Ｅｎｃｏｄｅｒ_ｍ）からの出力に対応する潜在ベクトル）に変換する。これにより、本実施形態にけるIntermediate CTC音声認識モデル内の第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）の再学習を行うことで、目標領域の話題にニューラルネットワークを適応させる。

【0257】

本実施形態では、Fastspeechそのものとは異なり、潜在ベクトル生成部１２００に単にテキスト文字列を入力するのではなく、学習済みのIntermediate CTCの中間層から出力するＣＴＣ記号列から求められるブランク記号込みの文字列を入力する。このブランク記号込みの文字列をEnd-to-end音声認識モデルの中間層の潜在ベクトル（例えば、第２層エンコーダー部１０４０（Ｅｎｃｏｄｅｒ_ｍ）からの出力に対応する潜在ベクトル）に変換するように、潜在ベクトル生成部１２００の学習を行う。

【0258】

［潜在ベクトル生成部１２００の学習］
本実施形態では、ブランク記号込みの文字列を用いることにより、ブランクの長さもDuration Predictor１３１０が予測することが可能になる。ドメイン適応時には、目標領域のテキストの先頭と、末尾と、文字と文字の間とにブランク記号を挿入し、Duration Predictor１３１０によって各文字（ブランク記号を含む）発話長を予測する。Length Regulator（潜在ベクトル複製部）１２３０は、予測された発話長に基づいて、セルフアテンションニューラルネットワーク１２２０（Ｇｅｎｅｒａｔｏｒ_ｌ）が出力する潜在ベクトルを複製することにより、潜在ベクトルの時間方向の長さを調整する。潜在ベクトル生成部１２００は、このようにしてIntermediate CTC 音声認識モデルの中間層の潜在ベクトルを生成する。潜在ベクトル生成部１２００が生成した潜在ベクトルを第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）に入力することによって第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）の再学習を可能とする。つまり、第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）のドメイン適応を行う。以下ではその方法をさらに具体的に説明する。

【0259】

潜在ベクトル生成部１２００の学習の際には、学習済みのIntermediate CTC音声認識モデルに音響特徴量ｘを入力する。畳み込みニューラルネットワーク部１０２０は、この音響特徴量ｘに基づき、潜在ベクトルを出力する。この畳み込みニューラルネットワーク部１０２０からの出力に基づき、第１層エンコーダー部１０３０（Ｅｎｃｏｄｅｒ_ｌ）および第２層エンコーダー部１０４０（Ｅｎｃｏｄｅｒ_ｍ）は、順次、各層の計算を行い、潜在ベクトルを出力する。つまり、潜在ベクトル生成部１２００が目的とする潜在ベクトルは、ｈ_ｍであり、次の式（５１）および式（５２）により計算される。

【0260】

【数51】

【0261】

【数52】

【0262】

一方で、最尤アライメント出力部１１１０は、潜在ベクトルｈ_ｌに対応する最尤アライメントａ_ｌ（ハット）を、次の式（５３）により計算して出力する。

【0263】

【数53】

【0264】

ブランク記号込み文字列生成部１１２０は、上で最尤アライメント出力部１１１０が求めた最尤アライメントａ_ｌ（ハット）を基に、文字列を生成する。即ち、ブランク記号込み文字列生成部１１２０は、最尤アライメントａ_ｌ（ハット）を基に一度認識結果を得てから、その認識結果の文頭と文字間と文末のそれぞれにブランク記号を挿入することによって、次のブランク記号入り文字列を生成する。

【0265】

【数54】

【0266】

例えば、最尤アライメントａ_ｌ（ハット）が、「＜ｂ＞環環＜ｂ＞＜ｂ＞＜ｂ＞境音音」である場合、上記手順によってブランク記号込み文字列生成部１１２０が生成する文字列は、「＜ｂ＞環＜ｂ＞境＜ｂ＞音＜ｂ＞」となる。なお、＜ｂ＞はブランク記号である。

【0267】

なお、ブランク記号込み文字列生成部１１２０は、上記の代わりに、ｈ_ｍに対応する最尤アラインメントａ_ｍ（ハット）からブランク記号入り文字列を求めてもよい。また、ブランク記号込み文字列生成部１１２０は、代わりに、正解文字列を基にブランク記号入り文字列を求めてもよい。

【0268】

潜在ベクトル生成部１２００内の線形変換ニューラルネットワーク１２１０は、上のブランク記号込み文字列生成部１１２０が生成した文字列を線形変換してベクトルに変換する。

【0269】

さらに、セルフアテンションニューラルネットワーク１２２０は、線形変換ニューラルネットワーク１２１０から出力されるベクトルを基に、

【数55】

を生成する。ここで、セルフアテンションニューラルネットワーク１２２０は、Transformer（トランスフォーマー）あるいはConformer（コンフォーマー）で構成されたジェネレーター（Ｇｅｎｅｒａｔｏｒ_ｌ）である。

【0270】

Duration Predictor１３１０（発話長予測部）は、上記のセルフアテンションニューラルネットワーク１２２０（Ｇｅｎｅｒａｔｏｒ_ｌ）からの出力を基に、発話長ｄを予測する。

【0271】

つまり、発話長ｄは、下の式（５４）および式（５５）により求められる。ただし、これらの式において、Ｌｉｎｅａｒ（・）は、線形変換ニューラルネットワーク１２１０による作用を表す。また、Ｇｅｎｅｒａｔｏｒ_ｌ（・）は、セルフアテンションニューラルネットワーク１２２０による作用を表す。またＤＰ（・）は、Duration Predictor１３１０（発話長予測部）による作用を表す。

【0272】

【数56】

【0273】

【数57】

【0274】

Duration Predictor１３１０（発話長予測部）の学習は、上記の式（５５）によって求められる発話長ｄと、発話長の正解ｄ_{ｔａｒｇｅｔ}と、の間の誤差を逆伝播させることによって行われる。発話長の正解ｄ_{ｔａｒｇｅｔ}は、発話長正解生成部１３５０によって求められる。

【0275】

なお、発話長正解生成部１３５０は、発話長の正解ｄ_{ｔａｒｇｅｔ}を、上記のａ_ｌ（ハット）より求めるａ_ｌ（ハット）に含まれる記号（文字やブランク記号）の連続数を正解ｄ_{ｔａｒｇｅｔ}とすることができる。ｄ_{ｔａｒｇｅｔ}は、各記号の長さを表す整数の列として表わされる。

【0276】

例えば、最尤アライメントａ_ｌ（ハット）が、「＜ｂ＞環環＜ｂ＞＜ｂ＞＜ｂ＞境音音」である場合、ｄ_{ｔａｒｇｅｔ}＝［１，２，３，１，０，２，０］である。この正数の列は、最初のブランク記号の長さ（連続数）が１、次の「環」の長さが２、その次のブランク記号の長さが３、次の「境」の長さが１、その次のブランク記号の長さが０、次の「音」の長さが２、そして最後のブランク記号の長さが０であることを表す。ａ_ｌ（ハット）の中のブランク記号が出現し得る位置でブランク記号が出現しなかった場合に、そのブランク記号の連続数は０である。つまり、上記の最尤アライメントａ_ｌ（ハット）の例の場合には、「環」と「音」の間と、最後の「音」の後とにブランク記号が出現し得るが、実際にはブランク記号＜ｂ＞が出現していないため、当該箇所におけるブランク記号の長さ（連続数）は０となっている。

【0277】

そして、求められた発話長の正解ｄ_{ｔａｒｇｅｔ}に基づいて、Length Regulator１２３０（発話長調整部）が発話長の調整を行う。つまり、Length Regulator１２３０（発話長調整部）は、正解ｄ_{ｔａｒｇｅｔ}の値を用いて、セルフアテンションニューラルネットワーク１２２０（Ｇｅｎｅｒａｔｏｒ_ｌ）から出力されるベクトルを複製することによって発話長を調整する。

【0278】

セルフアテンションニューラルネットワーク１２２０（Ｇｅｎｅｒａｔｏｒ_ｌ）からの出力は、

【数58】

である。

【0279】

また、Length Regulator１２３０（発話長調整部）による発話長調整後の結果として生成されるベクトルは、

【数59】

である。

【0280】

セルフアテンションニューラルネットワーク１２４０（Ｇｅｎｅｒａｔｏｒ_ｍ）は、上記のLength Regulator１２３０（発話長調整部）からの出力を基に計算を行い、潜在ベクトルｈ_ｍ（ハット）を出力する。このセルフアテンションニューラルネットワーク１２４０（Ｇｅｎｅｒａｔｏｒ_ｍ）もまた、Transformer（トランスフォーマー）あるいはConformer（コンフォーマー）で構成されたジェネレーターである。

【0281】

つまり、潜在ベクトルｈ_ｍ（ハット）は、下の式（５６）および式（５７）によって算出される。これらの式において、ＬＲ（ａ，ｂ）は、発話長ｂに基づいてベクトルａにおける発話長の調整を行った結果を表す。また、Ｇｅｎｅｒａｔｏｒ_ｍ（・）は、セルフアテンションニューラルネットワーク１２４０（Ｇｅｎｅｒａｔｏｒ_ｍ）による作用を表す。

【0282】

【数60】

【0283】

【数61】

【0284】

潜在ベクトル生成部１２００の学習を行う際には、下記の損失Ｌ_{ｌａｔｅｎｔ}および損失Ｌ_{ｄｕｒａｔｉｏｎ}に基づいて行うようにする。損失Ｌ_{ｌａｔｅｎｔ}は、第２層エンコーダー部１０４０（Ｅｎｃｏｄｅｒ_ｍ）から出力されたIntermediate CTC 音声認識モデルの中間層の潜在ベクトルｈ_ｍと、セルフアテンションニューラルネットワーク１２４０（Ｇｅｎｅｒａｔｏｒ_ｍ）から出力された言語的な潜在ベクトルｈ_ｍ（ハット）とのＬ１損失として求められる。また、損失Ｌ_{ｄｕｒａｔｉｏｎ}は、Duration Predictor１３１０から出力された発話長ｄと発話長の正解ｄ_{ｔａｒｇｅｔ}とのＬ１損失として求められる。つまり、下の式（５８）および式（５９）の通りである。

【0285】

【数62】

【0286】

【数63】

【0287】

損失計算部１２６０が上記の損失Ｌ_{ｌａｔｅｎｔ}を算出する。また、損失計算部１３６０が上記の損失Ｌ_{ｄｕｒａｔｉｏｎ}を算出する。

【0288】

例えば上記の２つの損失の和であるＬｏｓｓ_４を、潜在ベクトル生成部１２００の学習のために用いるようにしてよい。つまりＬｏｓｓ_４は下の式（６０）で算出される。

【0289】

【数64】

【0290】

なお、上で説明したＬ１損失に代えて、Ｌ２損失を用いるようにしてもよい。

【0291】

上記の損失Ｌｏｓｓ_４に基づいて行う学習の対象は、潜在ベクトル生成部１２００の内部のニューラルネットワークのパラメーターのみとする。この学習においては、その他のニューラルネットワークのパラメーターについての更新は行わず、固定とする。

【0292】

以上、潜在ベクトル生成部１２００の学習について説明した。学習済みの潜在ベクトル生成部１２００は、例えば「＜ｂ＞環＜ｂ＞境＜ｂ＞音＜ｂ＞」などといったブランク記号込みの文字列を基に、式（５７）で示したベクトルｈ_ｍ（ハット）を生成するようになる。このベクトルｈ_ｍ（ハット）は、Intermediate CTC 音声認識モデルの中間層の潜在ベクトルｈ_ｍに近い値となることが期待される。

【0293】

［第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）の再学習］
次に、第２実施形態における第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）の再学習について説明する。第１実施形態においては擬似ＣＴＣ記号列を用いてＥｎｃｏｄｅｒ_ｈの学習を行った。第２実施形態では、学習済みの潜在ベクトル生成部１２００を用いて生成した潜在ベクトルに基づいて、第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）の再学習を行うようにする。ただし、ここでは、Duration Predictor１３１０（発話長予測部）が予測した発話長をそのまま用いるだけではなく、潜在ベクトル生成部１２００が生成する潜在ベクトルの発話長を様々に変更することによって第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）の再学習の効果を高めるようにする。具体的には、以下に説明する通りである。

【0294】

第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）の再学習のためには、目標領域に属するテキスト文字列を用いる。即ち、推論対象となる音声の話題を含む分野のテキスト文字列を学習のために用いる。この学習のために、目標領域テキスト供給部１１００は、目標領域のテキストを供給する本実施形態の再学習では、第１実施形態において用いたような擬似的なＣＴＣ記号列を生成するのではなく、Duration Predictor１３１０（発話長予測部）によって予測された発話長ｄに、Ｎ_ｔ個（Ｎ_ｔは２以上の整数）の様々な係数γを乗算することにより、Ｎ_ｔ種類の発話長を生成する。例えば、所定の条件の下でランダムにＮ_ｔ種類の係数γの値を決めてよい。このようにすることによって、様々なパターンの発話長に対応して第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）が頑強に再学習されることが期待される。

【0295】

例えば、係数γの値は、１．０－τ＜γ＜１．０＋τの範囲内での一様分布からランダムに選択される値であってもよい。ここで、τは適宜設定される正定数である。例えば、τの値は、０．２、０．３、あるいは０．４等の値であってよい。ただし、係数γの値は必ずしもランダムに選択されるものではなくてもよい。例えば、１．０－τ＜γ＜１．０＋τの範囲内において適度に分散しているγの値の集合を予め定めておいてそれらのγの値を係数として用いてもよい。

【0296】

第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）の再学習のためにＮ_ｔ種類の発話長を使用する場合には、上記の範囲内でＮ_ｔ通りのγの値をランダムにサンプリングするようにしてよい。なお、係数γの値が定められると、このγを乗算することにより発話長γｄを用いて潜在ベクトル生成部１２００は潜在ベクトルを生成するが、その際にはγｄの値の小数点第１位以下を四捨五入するようにしてよい。潜在ベクトル生成部１２００においては、そのようにして得られたＮ_ｔ種の発話長に基づいてLength Regulator１２３０が様々な発話長の潜在ベクトルを生成する。それらの潜在ベクトルを用いて、第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）の再学習を行うようにする。このように多様な発話長の潜在ベクトルを用いて第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）の再学習を行うことができるため、再学習後のIntermediate CTC音声認識モデルは、発話長の変化に対するも対応能力の高い対応可能な高精度の音声認識モデルとなる。

【0297】

以下では、第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）の再学習のための具体的な２種類の手法（手法１および手法２）を説明する。用途や目的等に応じて、この２種類の手法のうちのどちらかを選択して実施してよい。

【0298】

［再学習の手法１：ターゲットドメインのテキストのみを用いたドメイン適応］
手法１では、第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）の再学習に、目標領域（ターゲットドメイン）のテキストのみを用いる。このような再学習を行った場合には、ソースドメインに属する音声の認識精度は劣化するが、ターゲットドメインについての音声認識精度は、後述する手法２の場合よりも向上することが期待できる。

【0299】

具体的には、ブランク記号込み文字列生成部１１２０は、目標領域テキスト供給部１１００から供給されるターゲットドメインのテキスト文字列ｙの、文頭、文字間、および文末のそれぞれの位置に、ブランク記号を挿入する。これによりブランク記号込みの文字列が得られる。

【0300】

このブランク記号込みの文字列は、

【数65】

と表わされる。

【0301】

そして、下の式（６１）により、発話長を調整する前の潜在ベクトルが得られる。既に説明したように、この式におけるＬｉｎｅａｒ（・）は、線形変換ニューラルネットワーク１２１０による作用である。また、Ｇｅｎｅｒａｔｏｒ_ｌ（・）は、セルフアテンションニューラルネットワーク１２２０（Ｇｅｎｅｒａｔｏｒ_ｌ）による作用である。

【0302】

【数66】

【0303】

さらに、上の式（６１）の結果に基づいて、下の式（６２）により予測発話長ｄが得られる。式（６２）におけるＤＰ（・）は、Duration Predictor１３１０（発話長予測部）による作用を表す。

【0304】

【数67】

【0305】

次に、潜在ベクトル生成部１２００は，Ｎ_ｔ通りの係数γ_ｉ（ｉ＝１，２，・・・，Ｎ_ｔ）を用いて、下の式（６３）および式（６４）の計算を行う。ここでは一例として、係数γ_ｉは、１．０－τ＜γ_ｉ＜１＋τの範囲内での一様分布にしたがってランダムにサンプリングされた値である。ただし、係数γ_ｉは、１．０－τ＜γ_ｉ＜１＋τの範囲内で、ランダムサンプリング以外の方法で適宜定められたものであってもよい。τは、適宜定められる正定数であり、例えば、０．２、０．３、あるいは０．４などといった値であってよい。

【0306】

【数68】

【0307】

【数69】

【0308】

式（６３）におけるＬＲ（・）は、Length Regulator１２３０（発話長調整部）による作用を表す。式（６３）の左辺は、Length Regulator１２３０（発話長調整部）によって発話長が調整された後のｉ番目の潜在ベクトルを表す表現である。式（６４）におけるＧｅｎｅｒａｔｏｒ_ｍ（・）は、セルフアテンションニューラルネットワーク１２４０（Ｇｅｎｅｒａｔｏｒ_ｍ）による作用を表す。式（６４）によって算出されるｈ_ｍ，ｉ（ハット）は、潜在ベクトル生成部１２００が生成する第ｉ番目（１≦ｉ≦Ｎ_ｔ）の潜在ベクトルである。

【0309】

それぞれのｉ（１≦ｉ≦Ｎ_ｔ）に関して、式（６４）で生成されたｈ_ｍ，ｉ（ハット）を第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）に入力する。第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）は、その入力に対応して下の式（６５）により、ｈ_ｈ，ｉ（ハット）を算出する。

【0310】

【数70】

【0311】

そして、ＣＴＣ損失計算部１０６０は、ｈ_ｈ，ｉ（ハット）に基づいて、式（６６）によりＣＴＣ損失Ｌ_ｈ，ｉを算出する。

【0312】

【数71】

【0313】

つまり、損失Ｌ_ｈ，ｉは、第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）からの出力であるｈ_ｈ，ｉ（ハット）を前提としたときの正解テキストｙの確率の対数に－１を乗じた値である。

【0314】

ＣＴＣ損失計算部１０６０は、１≦ｉ≦Ｎ_ｔの範囲内のＮ_ｔ通りのｉのそれぞれについて、式（６６）によるＣＴＣ損失Ｌ_ｈ，ｉを計算する。ここでの第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）の最適化における目的関数は、それらのＮ_ｔ個のＣＴＣ損失の平均として計算される。即ち、ＣＴＣ損失計算部１０６０は、損失Ｌｏｓｓ_５を下の式（６７）によって求める。

【0315】

【数72】

【0316】

つまり、第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）の再学習においては、上記の損失Ｌｏｓｓ_５を最小化するように、誤差逆伝播法を用いてニューラルネットワークの内部パラメーターを更新する。なお、第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）の再学習を行う際には、潜在ベクトル生成部１２００の内部のパラメーターについては更新対象とせず、固定とする。所定の基準によって再学習が完了した第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）は、ターゲットドメインの話題に適応したニューラルネットワークとなっていることが期待される。

【0317】

［再学習の手法２：ターゲットドメインのテキストとソースドメインの音声テキストとの対を用いたドメイン適応］
手法２では、第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）の再学習に、ターゲットドメインのテキストとソースドメインの音声テキストとの対を用いる。このような再学習を行った場合には、前述の手法１の場合と比較して、ターゲットドメインにおける音声認識精度の改善効果は相対的に小さくなるが、ソースドメインの音声認識精度劣化を軽減する効果が得られる。

【0318】

手法２の場合に、潜在ベクトル生成部１２００は、ターゲットドメインのテキスト文字列を基に、Ｎ_ｔ通りの潜在ベクトルを生成する。ターゲットドメインのテキストに基づいて生成される第ｉ番目（１≦ｉ≦Ｎ_ｔ）の潜在ベクトルをｈ_ｔｍ，ｉ（ハット）と表す。この潜在ベクトルをｈ_ｔｍ，ｉ（ハット）を基に第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）の処理を下の式（６８）の通り行う。

【0319】

【数73】

【0320】

さらに、それぞれのｉについて、下の式（６９）にしたがって、ＣＴＣ損失計算部１０６０は、ＣＴＣ損失を算出する。つまり、ＣＴＣ損失計算部１０６０は、Ｎ_ｔ通りのＣＴＣ損失Ｌ_ｔ，ｉ（１≦ｉ≦Ｎ_ｔ）を算出する。

【0321】

【数74】

【0322】

一方で、学習済みのIntermediate CTC音声認識モデルは、入力されるＮ_ｓ個の音響特徴量ｘ_ｊ（ｊ＝１，２，・・・，Ｎ_ｓ）に基づく処理を行う。その処理は、下の式（７０）、式（７１）、式（７２）の通りである。なお、Ｎ_ｓは、適宜決定される正整数である。また、ｈ_ｓｌ，ｊ、ｈ_ｓｍ，ｊ、およびｈ_ｓｈ，ｊは、Intermediate CTC音声認識モデル内の各層において生成される潜在ベクトルである。

【0323】

【数75】

【0324】

【数76】

【0325】

【数77】

【0326】

また、ＣＴＣ損失計算部１０６０は、第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）からの出力ｈ_ｓｈ，ｊに基づいて、下の式（７３）により、損失を求める。これらの損失に基づいて、誤差逆伝播法により、第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）のパラメーターの調整を行うことができる。

【0327】

【数78】

【0328】

つまり、ＣＴＣ損失計算部１０６０は、Ｎ_ｓ通りの損失Ｌ_ｓ，ｊ（１≦ｊ≦Ｎ_ｓ）を算出する。

【0329】

この手法２を用いる場合の目的関数の例は、上記のＮ_ｔ個の損失Ｌ_ｔ，ｉとＮ_ｓ個の損失Ｌ_ｓ，ｊに基づくものであり、下の式（７４）で表わされるＬｏｓｓ_ｓｔである。即ち、損失Ｌｏｓｓ_ｓｔは、Ｎ_ｔ個の損失Ｌ_ｔ，ｉの平均値に、ソースドメインの認識精度劣化を抑制するための正則化項としてＮ_ｓ個の損失Ｌ_ｓ，ｊの平均値を加えたものである。

【0330】

【数79】

【0331】

第３層エンコーダー部１０５０（Ｅｎｃｏｄｅｒ_ｈ）の再学習においては、上記のＬｏｓｓ_ｓｔの値を最小化する方向に、ニューラルネットワークの内部パラメーターの調整を行う。ただし、この再学習の際には、潜在ベクトル生成部の内部のパラメーターの更新を行わず、これらについては固定とする。つまり、この再学習においては、第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０の内部のパラメーターのみを調整する。

【0332】

つまり、手法２においては、目標領域の記号列に基づいて前記のエンコーダー部の目標領域への適応化（本実施形態においては、第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０の再学習）を行う際に、前述の第１損失（具体的には、上記の損失Ｌ_ｔ，ｉ）とともに、第４損失（具体的には、上記のＬ_ｓ，ｊ）にも基づいてエンコーダー部を最適化する。第４損失は、所定領域（当初のエンコーダー部の学習を行った際の領域）の音響特徴量のフレーム列に基づいてエンコーダー部が出力する出力記号列と、当該音響特徴量のフレーム列に対応する正解の記号列と、の差である。

【0333】

以上の通り、手法２を用いて、即ちターゲットドメインおよびソースドメインの両方の入力を用いて第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０の再学習を行う。これにより、再学習後の第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０は、ソースドメインの音声に対する認識精度を落とさずに、ターゲットドメインのテキスト文字列の話題に適応したエンコーダーとなる。

【0334】

学習済みの音声認識装置１００１（目標領域に合わせたIntermediate CTC音声認識モデルの再学習も完了済み）は、学習結果として得られたニューラルネットワークのパラメーター値に基づいて認識処理を行う。即ち、音声認識装置１００１は、音声供給部１０１０から供給される音声についての認識処理を行う。

【0335】

第２実施形態の音声認識装置１００１もまた、第１実施形態（図８を参照）と同様に、コンピューターとプログラムとを用いて実現するようにしてもよい。コンピューターとプログラムとを用いた実施方法については、第１実施形態において説明したので、ここではその詳細な説明を省略する。

【0336】

［第２実施形態の変形例１］
第２実施形態の処理としては、Duration Predictor１３１０が出力する発話長の予測値に様々な係数γ_ｉ（ただし、１．０－τ＜γ_ｉ＜１＋τの範囲内）を乗算することによって、発話長決定部１３２０が決定する発話長が様々に変化するようにした。変形例としては、係数γ_ｉ（あるいはγ）の値を固定値としてもよい。例えば、γ＝１．０としてもよい。あるいは、γとしてその他の固定値を用いてもよい。

【0337】

［第２実施形態の変形例２］
上記実施形態では、エンコーダーを３階層（第１層エンコーダー部（Ｅｎｃｏｄｅｒ_ｌ）１０３０と、第２層エンコーダー部（Ｅｎｃｏｄｅｒ_ｍ）１０４０と、第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０）で実現した。エンコーダーの階層数を他の数としてもよい。例えば、エンコーダーの階層数を４以上としてもよい。そのような場合にも、少なくともエンコーダーの最終層（高レベル側）を含む層について、目標領域のテキストに基づく適応化を行えるようにする。いずれの場合にも、潜在ベクトル生成部１２００が生成した潜在ベクトルを、所定の中間層あるいは最終層に入力するようにして、当該階層およびその後段の階層の、目標領域のテキストに基づく適応化を行う。

【0338】

［第２実施形態の変形例３］
話題（分野、領域）ごとに異なるエンコーダー（第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０等）の再学習を予め行っておいてもよい。その場合には、音声認識対象の話題に合ったエンコーダーをその都度選択することにより、話題に合った音声認識結果の文字列が出力されることとなる。また、逆に、その都度、目的とする話題のテキストを用いて、エンコーダーの学習を行ってもよい。

【0339】

［第２実施形態の構成の効果の検証］
第２実施形態による音声認識装置１００１の効果を検証するための実証実験を行った。実証実験に用いた第１の音声は、音声学に関する学会発表音声等を収録するＣＳＪコーパスである。このＣＳＪコーパスを用いて、Intermediate CTC音声認識モデルの学習、および潜在ベクトル生成部１２００の学習を行った。その後、天気予報のテキストデータを用いて、上記の「手法２」による第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０の再学習を行った。この実験では、この第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０の再学習の前後において、天気予報評価セットおよびＣＳＪコーパス評価セットでの文字誤り率（ＣＥＲ）を算出した。また、テキスト文字列の置換処理がある場合とない場合とのそれぞれの文字誤り率（ＣＥＲ）を算出した。

【0340】

実験諸元は、以下の通りである。
特徴量：ログメルスペクトログラム８０次元＋ピッチ３次元+Δ+ΔΔの合計２４９次元
文字種：３２６０種類

【0341】

使用したIntermediate-CTC音声認識モデルは、次の通りである。
Ｃｏｎｖｏｌｕｔｉｏｎ：畳み込みニューラルネットワーク２層
Ｅｎｃｏｄｅｒ_ｌ： Conformer ４層
Ｅｎｃｏｄｅｒ_ｍ： Conformer ４層
Ｅｎｃｏｄｅｒ_ｈ： Conformer ４層

【0342】

潜在ベクトル生成部１２００に関しては、次の通りである。
Ｇｅｎｅｒａｔｏｒ_ｌ： Conformer ６層
Ｇｅｎｅｒａｔｏｒ_ｍ： Conformer ６層
Duration Predictor：畳み込みニューラルネットワーク２層

【0343】

使用した学習用データについては、次の通りである。
Intermediate CTC音声認識モデルの学習：ＣＳＪコーパス
潜在ベクトル生成部１２００の学習：ＣＳＪコーパス
第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０の再学習：天気予報テキスト１０００文

【0344】

評価用に用いたデータは、天気予報評価音声２時間分である。ただし、この評価用データ内には、第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０の再学習：天気予報テキスト１０００文のデータは含まれていない。

【0345】

学習諸元は、次の通りである。
Intermediate CTC音声認識モデルの学習：１００エポック（epoch）中、バリデーションロス（validation loss）が最も低かったときのエポックを学習したモデルを、評価のために使用
潜在ベクトル生成部１２００の学習：３０エポック中、バリデーションロスが最も低かったときのエポックを学習したモデルを、評価のために使用
第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０の再学習：５０エポック中、最もＣＥＲの改善が見られたエポックを学習したモデルを使用。ただし、再学習用のデータである天気予報セットの学習が一巡した際に１エポックとカウントした。
発話長のバリエーション数：Ｎ_ｓ＝４０、Ｎ_ｔ＝４０

【0346】

下の表３は、本実施形態での第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０の再学習の前後におけるＣＥＲ（文字誤り率）の比較結果を示す。この表において、τは、予測発話長に乗算するための係数γの決定要因となる値である。即ち、係数γの値は、１．０－τ＜γ_ｉ＜１＋τの範囲内での一様分布にしたがって例えばランダムにサンプリングされる。τが０．０の場合には、Duration Predictor１３１０（発話長予測部）が予測した発話長の小数点第１位をそのまま四捨五入することによって、生成されるベクトルの発話長が決まる。τの値が大きければ大きいほど、様々なバリエーションの発話長を用いて学習することになる。この実験においては、τの値として、０．０から０．５まで、０．１刻みで６通りの値を用いている。

【0347】

【表3】

【0348】

上の表３に示した通り、第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０の再学習前のＣＥＲが１９．２％であったのに対して、再学習後のＣＥＲは、τの値に依るが、１４．９％から１５．３％までの範囲内である。τ＝０．０のときにＣＥＲは１５．１％であり、最も改善した場合としてはτ＝０．２または０．３のときにＣＥＲは１４．９％である。つまり、ＣＥＲの４％以上の改善が可能であることがわかった。本実施形態で最も改善効果があったのは、誤変換等の置換誤りに関する改善であった。本実験では、例えば、音声認識モデルの再学習によって天気予報の話題に適応したことにより、「寒」（かん）等の同音異義語が多い文字に関する誤りの改善が大きかった。τの値の違いに関しては、τ＝０．０の場合のＣＥＲ１５．１％から、τ＝０．２または０．３の場合のＣＥＲ１４．９％への０．２％の改善に留まった。τ＝０．１の場合のＣＥＲ１５．３％と、τ＝０．２または０．３の場合のＣＥＲ１４．９％との差も、０．４％に留まった。

【0349】

なお、本実験では前記の通り４層のConformerで第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０を実現している。この層数を５層以上に増やす場合には、第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）１０５０が様々な発話長を処理する能力を向上させ、より一層のＣＥＲの改善が期待できる。

【産業上の利用可能性】

【0350】

本発明は、例えば、音声認識処理や、音声認識のためのモデルの適応化の処理のために利用することができる。このような発明を利用できる業種は、広範囲に渡る。なお、本発明の利用範囲はここに例示したものには限られない。

【符号の説明】

【0351】

１音声認識装置
２モデル適応化装置
１０音声供給部
２０畳み込みニューラルネットワーク部
３０第１層エンコーダー部（Ｅｎｃｏｄｅｒ_ｌ）
３２ＣＴＣ損失計算部
４０第２層エンコーダー部（Ｅｎｃｏｄｅｒ_ｍ）
４２ＣＴＣ損失計算部
５０第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）
５２ＣＴＣ損失計算部
１１０目的領域テキスト供給部
１１５置換処理部
１２０擬似ＣＴＣ記号列生成部（擬似記号列生成部）
１３０アダプター部
２１０ＣＴＣ記号列生成部（記号列生成部）
２２０平均二乗誤差損失計算部（アダプター部用損失計算部）
２３０ＣＴＣ損失計算部（アダプター部用損失計算部）
９０１中央処理装置
９０２ＲＡＭ
９０３入出力ポート
９０４，９０５入出力デバイス
９０６バス
１００１音声認識装置
１０１０音声供給部
１０２０畳み込みニューラルネットワーク部
１０３０第１層エンコーダー部（Ｅｎｃｏｄｅｒ_ｌ）
１０４０第２層エンコーダー部（Ｅｎｃｏｄｅｒ_ｍ）
１０５０第３層エンコーダー部（Ｅｎｃｏｄｅｒ_ｈ）
１０６０ＣＴＣ損失計算部
１１００目標領域テキスト供給部
１１１０最尤アライメント出力部
１１２０ブランク記号込み文字列生成部
１２００潜在ベクトル生成部
１２１０線形変換ニューラルネットワーク
１２２０セルフアテンションニューラルネットワーク（Ｇｅｎｅｒａｔｏｒ_ｌ）
１２３０ Length Regulator（発話長調整部，潜在ベクトル複製部）
１２４０セルフアテンションニューラルネットワーク（Ｇｅｎｅｒａｔｏｒ_ｍ）
１２６０損失計算部
１３１０ Duration Predictor（発話長予測部）
１３２０発話長決定部
１３３０係数決定部
１３５０発話長正解生成部
１３６０損失計算部

【図1】