(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-19
(45)【発行日】2024-01-29
(54)【発明の名称】推論器および推論器の学習方法
(51)【国際特許分類】
G10L 15/06 20130101AFI20240122BHJP
G10L 15/00 20130101ALI20240122BHJP
G10L 13/047 20130101ALI20240122BHJP
G10L 15/16 20060101ALI20240122BHJP
G10L 25/30 20130101ALN20240122BHJP
【FI】
G10L15/06 300Y
G10L15/00 200Z
G10L13/047 Z
G10L15/16
G10L25/30
(21)【出願番号】P 2020059962
(22)【出願日】2020-03-30
【審査請求日】2023-02-13
(73)【特許権者】
【識別番号】301022471
【氏名又は名称】国立研究開発法人情報通信研究機構
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】李 勝
(72)【発明者】
【氏名】ルー シュガン
(72)【発明者】
【氏名】河井 恒
【審査官】渡部 幸和
(56)【参考文献】
【文献】特開2020-027193(JP,A)
【文献】米国特許出願公開第2019/295530(US,A1)
【文献】齋藤佑樹 阿久澤圭 橘健太郎,音素事後確率を用いた多対一音声変換のための音声認識・生成モデルの同時敵対学習,日本音響学会 2019年 秋季研究発表会講演論文集CD-ROM,2019年09月06日,pp.963-966
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-15/00
G10L 25/00
(57)【特許請求の範囲】
【請求項1】
音声信号の入力に対して、当該音声信号に含まれる音要素を示す状態シーケンスを出力する学習済の音響モデルと、
入力された音声信号を変換して出力する学習済の音声変換モデルとを備え、
前記音響モデルは、音声信号と対応する状態シーケンスとの組を第1の教師データとして用いて学習されたものであり、
前記音声変換モデルは、前記音響モデルから目的の状態シーケンスが出力されるように、前記音響モデルに入力する音声信号を繰り返し更新することで決定された敵対的音声と、当該目的の状態シーケンスに対応する音声信号との組を第2の教師データとして用いて学習されたものである、推論器。
【請求項2】
前記敵対的音声は、前記目的の状態シーケンスと、前記音響モデルに入力された前記音声信号に対応して出力される状態シーケンスと、の誤差に応じた損失の勾配に基づいて、前記音声信号を更新することで決定される、請求項1に記載の推論器。
【請求項3】
前記決定された敵対的音声のうち、予め定められた評価基準を満たしている敵対的音声が前記第2の教師データに採用される、請求項1または2に記載の推論器。
【請求項4】
任意の音声信号が前記音響モデルに入力されることで出力される状態シーケンスを対応するテキストに復元する言語モデルをさらに備える、請求項1~3のいずれか1項に記載の推論器。
【請求項5】
任意のテキストに対して、当該テキストに対応する状態シーケンスを出力する状態シーケンス生成モジュールと、
前記状態シーケンス生成モジュールが出力した状態シーケンスと同じ状態シーケンスが前記音響モデルから出力されるように、前記音響モデルに入力する音声信号を繰り返し更新することで敵対的音声を決定する敵対的音声生成モジュールとをさらに備え、
前記音声変換モデルは、前記敵対的音声生成モジュールにより決定された敵対的音声が入力されることで、前記任意のテキストに対応する音声を出力する、請求項1~4のいずれか1項に記載の推論器。
【請求項6】
推論器の学習方法であって、前記推論器は、音声信号の入力に対して、当該音声信号に含まれる音要素を示す状態シーケンスを出力する音響モデルと、入力された音声信号を変換して出力する音声変換モデルとを備え、前記学習方法は、
音声信号と対応する状態シーケンスとの組からなる第1の教師データを用意するステップと、
前記第1の教師データを用いて、前記音響モデルを学習するステップと、
前記音響モデルから目的の状態シーケンスが出力されるように、前記音響モデルに入力する音声信号を繰り返し更新することで敵対的音声を決定するステップと、
前記決定された敵対的音声と対応する音声信号との組からなる第2の教師データを用意するステップと、
前記第2の教師データを用いて、前記音声変換モデルを学習するステップとを備える、推論器の学習方法。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、音声認識および音声合成が可能な推論器、ならびに、その学習方法に関する。
【背景技術】
【0002】
音声認識(ASR:automatic speech recognition;以下「ASR」と略称することもある。)および音声合成(TTS:text-to-speech;以下「TTS」と略称することもある。)は、いずれもヒューマンマシンインターフェイスのコア技術である。これらの技術は、パーソナルコンピュータやスマートフォンに実装される音声アシスタント機能や、スマートスピーカなどのように、音声による情報検索サービスなどに利用されている。また、これらの技術は、音声翻訳機などにも利用されている。
【0003】
概略すると、ASRは、発話された音声シーケンスをワードシーケンスにマッピングするものであり、TTSは、ASRとは逆方向に、ワードシーケンスを音声シーケンスにマッピングするものである。
【0004】
機械学習で用いられる統計的フレームワークにおいて、ASRおよびTTSは、隠れマルコフモデル(HMM:hidden Markov model)にガウス混合分布(GMM:Gaussian Mixture Model)を結合したGMM-HMMや、深層ニューラルネットワーク(DNN:deep neural network)にガウス混合分布(GMM)を結合したDNN-HMMなどのように、ハイブリッドモデルが用いられてきた。これらのハイブリッドモデルは、独立して最適化された他のコンポーネントとパイプラインされて、システムを構成することになる。
【0005】
ASRには、音響モデルおよび言語モデルが必要となる。TTSには、合成波形を生成するためのソースフィルタモデルのボコーダが必要となる。パイプラインを簡素化するために、ASRについては、音響モデルと言語モデルとを統合したE2E(end-to-end)モデルが提案されており、TTSについては、WaveNetを用いたE2Eモデルが提案されている。
【0006】
上述したように、ASRとTTSとは、技術的に異なったものであるが、これを統合しようとする研究がなされている。
【0007】
例えば、サイクル一貫性学習(cycle-consistency training)やオートエンコーダを用いて、ASRおよびTTSを一緒に学習させることで、ASRの性能を向上できることが報告されている(例えば、非特許文献1および2など参照)。また、ASR用のデータ拡張(data augmentation)学習方法がTTSの性能向上には有効であると報告されている(非特許文献3など参照)。また、ASRとTTSとを結合したモデルによりマシン音声チェーンを半教師あり学習できること、および、互いにペアとはならないデータのみを用いて学習することで、ASRとTTSとを結合したモデルの性能を向上できることが報告されている(非特許文献4および5など参照)。さらに、構造化カリキュラム学習によって、音声から音声に直接翻訳するシステムも提案されている(非特許文献6など参照)。
【先行技術文献】
【非特許文献】
【0008】
【文献】T. Hori and et al., "Cycle-consistency training for end-to-end speech recognition," in Proc. IEEE-ICASSP, 2019.
【文献】S. Karita and et al., "Semi-supervised end-to-end speech recognition using text-to-speech and autoencoders," in Proc. IEEE-ICASSP, 2019.
【文献】S.Ueno and et al., "Multi-speaker sequence-to-sequence speech synthesis for data augmentation in acoustic-to-word speech recognition," in Proc. IEEE-ICASSP, 2019.
【文献】A. Tjandra and et al., "Listening while speaking: Speech chain by deep learning," in Proc. ASRU, 2017.
【文献】A. Tjandra and et al., "Machine speech chain with one-shot speaker adaptation," in Proc. INTERSPEECH, 2018.
【文献】T. Kano, S. Sakti, and S. Nakamura, "Structure based curriculum learning for end-to-end English-Japanese speech translation," in Proc. INTERSPEECH, 2017.
【文献】M. Alzantot and et al., "Did you hear that? adversarial examples against automatic speech recognition," NIPS 2017 Machine Deception workshop, 2017.
【文献】M. Cisse and et al., "Houdini: Fooling deep structured visual and speech recognition models with adversarial examples," in Proc. NIPS, pp. 6977-6987. 2017.
【文献】G. Zhang and et al., "Dolphinattack: Inaudible voice commands," in ACM Conference on Computer and Communications Security (CCS). ACM, 2017, pp. 103-117.
【文献】N. Carlini and et al., "Hidden voice commands," in Proc. USENIX, 2016, pp. 513-530.
【文献】H. Abdullah and et al., "Practical hidden voice attacks against speech and speaker recognition systems," NDSS, 2019.
【文献】Steve Young, Gunnar Evermann, Mark Gales, Thomas Hain, Dan Kershaw, Xunying (Andrew) Liu, Gareth Moore, Julian Odell, Dave Ollason, Dan Povey, Valtcho Valtchev, and Phil Woodland, "The HTK book" version 3.4.1., In Tutorial Books, 2009.
【文献】Vijayaditya Peddinti, Daniel Povey, and Sanjeev Khudanpur, "A time delay neural network architecture for efficient modeling of long temporal contexts," In Proc. INTERSPEECH, 2015.
【発明の概要】
【発明が解決しようとする課題】
【0009】
上述した先行技術においては、ASRとTTSとを完全に統合するところまでは至っていない。本発明者らは、新たなアイデアに基づいて鋭意研究の結果、先行技術には何ら開示されていない、ASRとTTSとを統合可能な新たなフレームワークに想到した。
【課題を解決するための手段】
【0010】
ある実施の形態に従う推論器は、音声信号の入力に対して、当該音声信号に含まれる音要素を示す状態シーケンスを出力する学習済の音響モデルと、入力された音声信号を変換して出力する学習済の音声変換モデルとを含む。音響モデルは、音声信号と対応する状態シーケンスとの組を第1の教師データとして用いて学習されたものである。音声変換モデルは、音響モデルから目的の状態シーケンスが出力されるように、音響モデルに入力する音声信号を繰り返し更新することで決定された敵対的音声と、当該目的の状態シーケンスに対応する音声信号との組を第2の教師データとして用いて学習されたものである。
【0011】
敵対的音声は、目的の状態シーケンスと、音響モデルに入力された音声信号に対応して出力される状態シーケンスと、の誤差に応じた損失の勾配に基づいて、音声信号を更新することで決定されてもよい。
【0012】
決定された敵対的音声のうち、予め定められた評価基準を満たしている敵対的音声が第2の教師データに採用されてもよい。
【0013】
敵対的音声は、音声信号を予め定められた回数に亘って更新することで決定されてもよい。
【0014】
推論器は、任意の音声信号が音響モデルに入力されることで出力される状態シーケンスを対応するテキストに復元する言語モデルをさらに含んでいてもよい。
【0015】
推論器は、任意のテキストに対して、当該テキストに対応する状態シーケンスを出力する状態シーケンス生成モジュールと、状態シーケンス生成モジュールが出力した状態シーケンスと同じ状態シーケンスが音響モデルから出力されるように、音響モデルに入力する音声信号を繰り返し更新することで敵対的音声を決定する敵対的音声生成モジュールとをさらに含んでいてもよい。音声変換モデルは、敵対的音声生成モジュールにより決定された敵対的音声が入力されることで、任意のテキストに対応する音声を出力するようにしてもよい。
【0016】
別の実施の形態に従えば、推論器の学習方法が提供される。推論器は、音声信号の入力に対して、当該音声信号に含まれる音要素を示す状態シーケンスを出力する音響モデルと、入力された音声信号を変換して出力する音声変換モデルとを含む。学習方法は、音声信号と対応する状態シーケンスとの組からなる第1の教師データを用意するステップと、第1の教師データを用いて、音響モデルを学習するステップと、音響モデルから目的の状態シーケンスが出力されるように、音響モデルに入力する音声信号を繰り返し更新することで敵対的音声を決定するステップと、決定された敵対的音声と対応する音声信号との組からなる第2の教師データを用意するステップと、第2の教師データを用いて、音声変換モデルを学習するステップとを含む。
【0017】
さらに別の実施の形態に従えば、コンピュータに上記の学習方法を実行させるための学習プログラムが提供される。
【発明の効果】
【0018】
本技術によれば、ASRとTTSとを統合可能な新たなフレームワークを提供できる。
【図面の簡単な説明】
【0019】
【
図1】ASRおよびTTSを含む応用例である音声翻訳機を説明するための図である。
【
図2】一般的な音声翻訳機の実装例を示す模式図である。
【
図3】本技術を応用した音声翻訳機の実装例を示す模式図である。
【
図4】一般的な音声認識(ASR)モデルの学習方法を示す模式図である。
【
図5】本実施の形態に従うASR/TTSシステムのTTSタスクの処理方法を示す模式図である。
【
図6】本実施の形態に従うASR/TTSシステムにおける学習フェーズおよびテストフェーズの処理概要を示す模式図である。
【
図7】本実施の形態に従うASR/TTSシステムに用いられる音響モデルのネットワーク構造の一例を示す模式図である。
【
図8】本実施の形態に従うASR/TTSシステムの評価に用いた信号のスペクトルの一例を示す図である。
【
図9】本実施の形態に従うASR/TTSシステムの運用フェーズにおける実装例を示す模式図である。
【
図10】本実施の形態に従うASR/TTSシステムを実現するハードウェア構成の一例を示す模式図である。
【
図11】本実施の形態に従うASR/TTSシステムの学習フェーズの手順を示すフローチャートである。
【
図12】本実施の形態に従うASR/TTSシステムの運用フェーズの手順を示すフローチャートである。
【発明を実施するための形態】
【0020】
本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。
【0021】
[A.基本的なアイデア]
DNNを用いた画像識別などの画像分野において、敵対的サンプル(adversarial example)についての研究が進んでいる。対象モデルのパラメータが既知である場合、対象モデルの識別誤差を最大化する敵対的勾配(adversarial gradient)に従って、入力画像に対する摂動(perturbation)を適用することで、敵対的サンプルを生成できる。例えば、信号識別器を誤認識させる敵対的ステッカーや、顔認識器を誤認識させる敵対的メガネフレームなどが知られている。
【0022】
音声タスクにおいても、遺伝的アルゴリズムまたは確率的損失関数の最適化によって、ASRシステムに対する音声の敵対的サンプルを生成できることが報告されている(非特許文献7および8など参照)。但し、これらの試みは、モデルが敵対的音声を何らかのテキスト列に誤って翻訳することのみを狙った特定の目的を有さない攻撃である。
【0023】
一方、非特許文献9に開示されるようなDolphinAttackは、モデルが攻撃者の意図に合致した特定のテキスト列を誤って出力するような敵対的超音波信号を生成する、特定の目的を有している攻撃である。さらに、音声による命令を人間にとっては意味のない音にしか聞こえないノイズの形に偽装することもできることが報告されている(非特許文献10および11など参照)。また、パラメータが既知の環境において、音声波形を直接摂動することで、特定の目的を有さない攻撃を、E2Eの深層音声モデルに対する特定の目的を有している攻撃にまで拡張できることも示唆されている。このように、攻撃者が意図した任意のテキスト列をDNNモデル(パラメータは既知)に誤出力させるような敵対的音声を生成できる。
【0024】
パラメータが既知のDNNモデルから任意のテキスト列を出力するための敵対的音声を生成できるということは、既知のDNNモデルの双方向において、入力と出力との関係を学習できることを意味する。すなわち、既知のDNNモデルを双方向に利用し得ることを意味する。本願発明者らは、このような敵対的サンプルのアイデアを応用して、ASRとTTSとを統合可能な新たなフレームワークに想到した。
【0025】
[B.応用例]
先に、ASRとTTSとを統合可能な新たなフレームワークを提供可能なASRおよびTTSを含む応用例について説明する。
【0026】
図1は、ASRおよびTTSを含む応用例である音声翻訳機を説明するための図である。
図1(A)を参照して、例えば、ユーザUSRは、携帯端末10に対して、「どこに駅がありますか?」という日本語で発話すると、携帯端末10は、マイクロフォンなどによりその発話に対応する音声信号を取得する。
【0027】
図1(B)に示すように、携帯端末10では音声翻訳アプリケーションによるアプリケーション画面12が提供されている。取得された音声信号に対するASRの認識結果(テキスト)は、アプリケーション画面12の認識結果欄14に表示される。そして、認識結果欄14に表示される日本語のテキストから指定された言語のテキストに翻訳される。翻訳結果(この例では、英語のテキスト)は、アプリケーション画面12の翻訳結果欄16に表示される。なお、アプリケーション画面12においては、翻訳結果欄16に表示された翻訳結果を逆翻訳した結果が逆翻訳結果欄18に表示されてもよい。
【0028】
最終的に、認識結果欄14に表示されたテキストをTTSに入力し、TTSで生成される音声信号が携帯端末10から出力される。すなわち、携帯端末10は、「どこに駅がありますか?」という日本語に対応する、「Where is the station ?」という英語の音声を出力する。
【0029】
なお、ASRおよびTTSは、携帯端末10に実装されてもよいし、サーバ上に実装されてもよい。また、一部が携帯端末10に実装され、残りがサーバ上に実装されてもよい。
【0030】
図2は、一般的な音声翻訳機の実装例を示す模式図である。
図2を参照して、音声翻訳機は、パイプラインされた、ASRモジュール22と、機械翻訳モジュール24と、TTSモジュール26とを含む。発話された入力音声20がASRモジュール22に入力されてテキストが出力される。機械翻訳モジュール24は、出力されたテキストを指定された言語のテキストに翻訳する。TTSモジュール26は、翻訳されたテキストから合成音声28を出力する。
【0031】
図3は、本技術を応用した音声翻訳機の実装例を示す模式図である。
図3に示す実装例においては、ASRモジュール22およびTTSモジュール26の機能を有する統合モジュール30が採用されている。すなわち、統合モジュール30は、入力音声20の入力に対してテキストを出力可能であるとともに、テキストの入力に対して合成音声28を出力可能である。本技術は、このようなテキストと音声信号との双方向の変換が可能となる統合モジュール30を提供することを目的とする。
【0032】
[C.ASR/TTSシステムの主要処理]
次に、本実施の形態に従うASRとTTSとを統合可能な新たなフレームワーク(以下、「ASR/TTSシステム」とも称す。)を実現するための主要処理について説明する。ASR/TTSシステムは、後述するような学習済モデルを含む推論器の一例である。
【0033】
図4は、一般的な音声認識(ASR)モデルの学習方法を示す模式図である。
図4を参照して、一般的なASRモデルにおいては、教師データセットとして、音声54と対応するテキスト56との組が予め用意されている。音声54とテキスト56との組を用いて、ASRモデル40のパラメータが最適化される。
【0034】
このように、一般的には、ASRモデル40が最適化の対象となる。これに対して、本実施の形態に従うASR/TTSシステムでは、ASRモデル40がASRタスクにおいて、最適化されることに変わりはないが、TTSタスクの処理においては、入力される音声信号が最適化の対象となる。すなわち、上述したような敵対的サンプルのアイデアと同様に、学習済の推論モデルであるASRモデル40から目的のテキストが出力されるように、ASRモデル40に入力される音声信号を繰り返し更新処理により、最適化する。このとき、入力される音声信号がもつ時間波形そのものが特徴として用いられることになる。
【0035】
図5は、本実施の形態に従うASR/TTSシステムのTTSタスクの処理方法を示す模式図である。
図5を参照して、予めパラメータが最適化されたASRモデル40から目的のテキスト56が出力されるように、ASRモデル40に入力される音声信号が最適化される。典型的には、ランダムノイズ62と波形誤差とを合成した音声信号がASRモデル40に入力される。ASRモデル40から目的のテキスト56が出力されるように、波形誤差が最適化される。波形誤差の最適化には、ASRモデル40を逆伝播して得られる入力側の誤差が用いられる。
【0036】
このような波形誤差の最適化が繰り返されることによって、ランダムノイズ62と最適化された波形誤差とが合成された敵対的音声64が得られる。敵対的音声64は、ASRモデル40から目的のテキスト56を出力させるための「敵対的サンプル」に相当する。敵対的音声64の時間波形は、合成された機械発話を意味する。敵対的音声64をフレームレベルで変換することで、変換後の人間の発話に相当する合成音声66を得ることができる。このフレームレベルの変換は、音声変換モデル60(後述する)により行われる。
【0037】
音声変換モデル60は、通常の機械学習の方法により学習が行われる。教師データとしては、多数のテキスト56に基づき作成された敵対的音声64とそのテキストに対応する音声信号が用いられる。この教師データを用いて、敵対的音声64を合成音声66に変換するための音声変換モデル60を学習できる。このような手法により学習された学習済モデルを用いることで、ASRおよびTTSのいずれとしても機能できるシステムを実現できる。以下、より具体的には、実装例について説明する。
【0038】
図6は、本実施の形態に従うASR/TTSシステムにおける学習フェーズおよびテストフェーズの処理概要を示す模式図である。
図6を参照して、学習フェーズは、(a)状態シーケンス生成、(b)敵対的音声生成、(c1)音声変換モデルの学習の3つの基本処理を含む。テストフェーズは、(a)状態シーケンス生成、(b)敵対的音声生成、(c2)音声合成の3つの基本処理を含む。
【0039】
次に、
図6に示す推論モデルにおける学習フェーズおよびテストフェーズに含まれる基本処理の詳細について説明する。
【0040】
(a)状態シーケンス生成
フレームレベルでの合成音声と人間の自然発話との類似性を最大化するために、人間の自然発話の状態を示す状態シーケンスを定義する。状態シーケンスは、入力された音声信号に含まれる音要素(例えば、音素など)を示すことになる。
【0041】
本実施の形態においては、フレームレベルの状態シーケンスを正解ラベルy’=[s1,s2,s3,・・・,sm](但し、mはシーケンス内のフレーム番号)として用いる。典型的には、状態シーケンスとして、状態共有トライフォンが用いられてもよい。この場合、正解ラベルy’の各要素si(1≦i≦m)は、各時点の発話がいずれの状態値であるかを示す状態IDとなる。フレームの時間間隔は、例えば、10msecとしてもよい。
【0042】
図6に示される音響モデル50は、音声信号の入力に対して、当該音声信号に含まれる状態シーケンスを出力する学習済モデルである。また、音声54とテキスト56とを対応付けた教師データセット58も用意されているとする。音響モデル50は、音声信号と対応する状態シーケンスとの組を教師データとして用いて予め学習されている。
【0043】
学習フェーズにおいては、教師データセット58(音声54およびテキスト56)から状態レベルのForced alignment(非特許文献12など参照)を状態シーケンスとして取得する。また、教師データセット58に含まれるそれぞれの音声54の長さを取得し、同じ長さのランダムノイズを入力するシード音声xとして利用する。
【0044】
テストフェーズにおいては、教師データセット58に含まれる任意の状態シーケンスを予測ラベルy’として利用する。シード音声x(ランダムノイズ)の長さは、予測ラベルy’の長さと同じである。
【0045】
(b)敵対的音声生成
敵対的音声生成においては、各フレームの状態シーケンスを正解ラベルとして、繰り返し演算処理することで、敵対的サンプルを決定する。
図4および
図5を参照して説明したように、本実施の形態においては、音響モデル50のパラメータは変更されず、音響モデル50に入力される音声信号(時間波形)の更新が繰り返される。音響モデル50に入力される音声信号xiと、音声信号xiに対応して音響モデル50から出力される推論結果yiとの関係は、以下の(1)式のように示すことができる。
【0046】
【0047】
損失関数l(yi,y’)を用いて、音響モデル50から出力される推論結果yiと正解ラベルy’との誤差が算出される。ここで、iは、現在の繰り返し回数を示す。損失関数l(yi,y’)としては、以下の(2)式に示すようなクロスエントロピーを用いることができる。
【0048】
【0049】
損失の勾配∇xiは、以下の(3)式に示すように、音響モデル50に入力された音声信号xiを逆伝播させることで算出できる。
【0050】
【0051】
音響モデル50に入力される音声信号xiは、勾配∇xiおよび学習レートαに従って、以下の(4)式に示すように更新される。
【0052】
【0053】
このように、敵対的音声xn(n≧100)は、目的の状態シーケンスと、音響モデル50に入力された音声信号に対応して出力される状態シーケンスと、の誤差に応じた損失の勾配に基づいて、音声信号を更新することで決定される。
【0054】
音声信号xiを更新する処理は、予め定められた回数(例えば、100回以上)繰り返される。予め定められた回数(n回)の更新がなされた後の音声信号xnが敵対的音声となる。すなわち、敵対的音声は、音響モデル50に入力される音声信号を予め定められた回数に亘って更新することで決定される。
【0055】
但し、敵対的音声を決定するまでの更新の繰り返し回数については、固定値ではなく、状況に応じて動的に決定するようにしてもよい。
【0056】
(c)音声変換モデルの学習/音声合成
音声変換モデル60は、入力された音声信号を変換して出力する学習済モデルである。音声変換モデル60としては、RNN(recurrent neural network)ベースの変換モデルを採用してもよい。RNNベースの変換モデルを用いることで、入力される音声信号をフレーム毎の周波数マッピングにより人間の自然発話に相当する音声に変換できる。
【0057】
図5を参照して説明したように、上述したn回の更新処理により得られた敵対的音声xn(n≧100)は、人間の発話する音声とは異なったものとなっている。そのため、敵対的音声xnを人間の自然発話に相当する音声に変換するための音声変換モデル60を学習により構築する。
【0058】
敵対的音声xnは、教師データセット58に基づき生成される。そのため、教師データセット58に含まれるテキスト56の各々について、生成された敵対的音声xnと対応する音声54(正解音声x’)との組を用意できる。より具体的には、音声変換モデル60は、音響モデル50から目的の状態シーケンスが出力されるように、音響モデル50に入力する音声信号を繰り返し更新することで決定された敵対的音声xnと、当該目的の状態シーケンスに対応する音声信号(正解音声x’)との組を教師データとして用いて学習される。
【0059】
両者の誤差を反映した損失関数を用いて、音声変換モデル60のパラメータを最適化する。このような損失関数として、正解と推論結果との誤差の絶対値の総和である、平均絶対誤差(MAE:mean absolute error)を用いてもよい。
【0060】
対数ドメインにおけるMAE判定基準は、人間の聴覚機能とより整合するものとなる。最急降下法(gradient descendent)アルゴリズムは、以下の(5)式に示すように、複数のエポックによるミニバッチで実行されることで、学習の収束を改善できる。
【0061】
【0062】
ここで、LEは、平均絶対誤差(MAE)を示し、YndおよびXndは、サンプルインデックスnにおける対数スペクトル特徴のd次元目の拡張化およびクリーン化された周波数ビンを示す。また、Nは、ミニバッチサイズを示し、Dは、対数スペクトル特徴ベクトルのサイズを示す。
【0063】
[D.実装例および実験例]
次に、上述したASR/TTSシステムの具体的な実装例について説明する。
【0064】
(d1:音響モデル50を含むASRシステムの構築)
音響モデル50としては、例えば、フレームレベルの状態共有トライフォンを出力する時間遅延ニューラルネットワーク(TDNN:time delay neural network)を用いることができる(非特許文献13など参照)(以下、「TDNNモデル」とも称す。)。
【0065】
TDNNは、再帰構造を有していないので順伝播および逆伝播の処理を高速に実行でき、処理遅延の発生が少ない。また、TDNNモデルは、タイムスタンプの再現性をより高めた敵対的音声を生成できる。
【0066】
図7は、本実施の形態に従うASR/TTSシステムに用いられる音響モデル50のネットワーク構造の一例を示す模式図である。
図7を参照して、音響モデル50は、TDNNネットワーク構造を有する上位層510と、入力信号から特徴を抽出するための下位層520とを有する。
【0067】
下位層520は、入力信号から対数スペクトル特徴を抽出する。より具体的には、下位層520は、前処理層522と、FFT層524と、絶対値化層526と、対数化層528とを含む。
【0068】
前処理層522は、入力信号に対して強調などの信号処理を行うとともに、予め定められた時間幅のウィンドウを設定し、設定したウィンドウに含まれる時間波形を抽出する。FFT層524は、前処理層522により抽出された時間波形を周波数スペクトルに変換する。絶対値化層526は、FFT層524により変換された周波数スペクトルを絶対値化する。対数化層528は、絶対値化された周波数スペクトルの対数を算出する。
【0069】
上位層510は、異なるタイムスタンプに対応する成分を合成して、状態シーケンスを推定する。上位層510は、例えば、pノルム非線形をもつ4層のTDNNネットワーク構造を採用してもよい。
【0070】
音響モデル50を直接学習するのではなく、先に、GMM-HMMモデルを学習により構築した上で、この構築されたGMM-HMMモデルを用いて、音響モデル50(TDNNモデル)を学習する。音響モデル50の学習には、ASRコーパスの1つである「LibriSpeech」を所定時間分用いることができる。
【0071】
まず、GMM-HMMモデルの学習には、線形判別分析(LDA:linear discriminant analysis)、最尤線形変換(MLLT:maximum likelihood linear transform)、および話者適応学習(SAT:speaker adaptive training)に基づく最尤線形回帰(fMLLLR:feature space maximum likelihood linear regression)とともに、MFCC(メル周波数ケプストラム係数)特徴を用いることができる。
【0072】
続いて、音響モデル50の学習には、一例として、各層が2048個の隠れノード数をそれぞれ有している4つの隠れ層を用いた。音響モデル50の出力層は、学習済のGMM-HMMモデルから出力される状態共有トライフォンに対応させたノード数(例えば、3456ノード)を有するように構成される。
【0073】
音響モデル50を学習するための正解ラベルとして、学習済のGMM-HMMモデルから出力される状態アライメントを用いる。音響モデル50の学習においては、MFCCではなく、音声信号(例えば、256次元の信号波形(16000kHz,16ビット,モノラル))が用いられる。学習に用いられる音声信号は、話者毎にケプストラム平均値正規化(CMN:cepstral mean normalization)されていてもよい。
【0074】
音響モデル50の学習には、クロスエントロピー損失の判定基準に基づく自然確率的勾配降下法(NSGD:natural stochastic gradient descent)を用いることができる。
【0075】
なお、上述した各アルゴリズムは、Kaldiツールキットを利用して実装できる。
(d2:音声変換モデル60)
音声変換モデル60の学習に用いる敵対的音声は、上述した手順によって構築される学習済の音響モデル50を用いて生成される。より具体的には、ASRコーパスである「LibriSpeech」の状態レベルのForced alignment(非特許文献12など参照)を用いる。
【0076】
更新処理を予め定められた回数(例えば、100回)だけ繰り返して得られた敵対的音声の各々を音響モデル50に入力して出力される推論結果を、対応するテキスト56に対するWER(Word Error Rate)に基づいて評価する。生成された敵対的音声のうち、WERが予め定められた基準(例えば、50%)を満たしているものが音声変換モデル60の教師データ(生成された敵対的音声と対応するオリジナル音声(人間の発話))として採用される。このように、決定された敵対的音声のうち、予め定められた評価基準を満たしている敵対的音声が教師データに採用されるようにしてもよい。
【0077】
なお、生成された敵対的音声および対応するオリジナル音声は、例えば、16kHzにダウンサンプリングした上で、32msecのフレーム(512サンプル)に分割される。この場合、フレームに対しては、16msec(256サンプル)のシフト量を与えてもよい。そして、129次元の対数パワースペクトル特徴が抽出される。フレーム列から7フレーム分のコンテキストウィンドウ(左側3フレーム、中央1フレーム、右側3フレーム)を設定してもよい。音声変換モデル60の損失関数には、平均絶対誤差(MAE)が用いられる。
【0078】
(d3:実験例)
実験例においては、まず男性および女性のそれぞれについて性別依存の復元モデルを構築するとともに、既知のForced alignmentの状態シーケンスを用いて、敵対的音声および人間の音声を生成した。テストデータには、ASRコーパスである「LibriSpeech」のうち「LibriSpeech-Dev」を用いた。
【0079】
図8は、本実施の形態に従うASR/TTSシステムの評価に用いた信号のスペクトルの一例を示す図である。
図8に示すように、音声変換モデル60から出力される(C)合成音声は、(A)オリジナル音声(人間の発話)と類似したスペクトルを示しており、オリジナル音声を精度よく復元できることが分かる。
【0080】
また、(B)敵対的音声と(C)合成音声とのスペクトルは大きく異なっており、このことは、音声変換モデル60が(B)敵対的音声に含まれる発話の特徴を抽出して、(C)合成音声に変換していると言える。
【0081】
[E.運用フェーズ]
次に、本実施の形態に従うASR/TTSシステム1の運用フェーズにおける実装例について説明する。
【0082】
図9は、本実施の形態に従うASR/TTSシステム1の運用フェーズにおける実装例を示す模式図である。
図9(A)は、ASRとして利用する場合の動作を示し、
図9(B)は、TTSとして利用する場合の動作を示す。
【0083】
図9を参照して、ASR/TTSシステム1は、上述の音響モデル50および音声変換モデル60に加えて、敵対的音声生成モジュール70と、言語モデル72と、状態シーケンス生成モジュール74とを含む。
【0084】
図9(A)を参照して、ASRとして動作する場合には、任意の音声が入力されて、対応するテキストが出力される。具体的には、音響モデル50に音声信号が入力されて、対応する状態シーケンスが推定結果として出力される。出力された状態シーケンスは、言語モデル72に入力されて、対応するテキストに復元される。
【0085】
言語モデル72は、状態シーケンス(上述の例では、状態共有トライフォン)とテキストとの対応関係を保持している。このように、言語モデル72は、任意の音声信号が音響モデル50に入力されることで出力される状態シーケンスを対応するテキストに復元する。状態シーケンスとテキストとの対応関係は、静的なデータベースまたは機械学習により実現されてもよい。なお、状態シーケンス生成モジュール74および敵対的音声生成モジュール70は、ASRとして動作する場合には利用されない。
【0086】
図9(B)を参照して、TTSとして動作する場合には、任意のテキストが入力されて、対応する音声が出力される。具体的には、状態シーケンス生成モジュール74にテキストが入力されて、対応する状態シーケンスが出力される。すなわち、状態シーケンス生成モジュール74は、任意のテキストに対して、当該テキストに対応する状態シーケンスを出力する。
【0087】
一方で、敵対的音声生成モジュール70は、音響モデル50への音声信号(初期値は、ランダムノイズ62)の入力、および、音響モデル50から出力される状態シーケンス(推論結果)と状態シーケンス生成モジュール74から出力される状態シーケンスとの誤差に基づく音声信号の更新を予め定められた回数だけ繰り返すことで、敵対的音声を決定する。このように、敵対的音声生成モジュール70は、状態シーケンス生成モジュール74が出力した状態シーケンスと同じ状態シーケンスが音響モデル50から出力されるように、音響モデル50に入力する音声信号を繰り返し更新することで敵対的音声を決定する。
【0088】
最終的に、決定された敵対的音声は、音声変換モデル60に入力されて合成音声が出力される。すなわち、音声変換モデル60は、敵対的音声生成モジュール70により決定された敵対的音声が入力されることで、任意のテキストに対応する音声を出力する。
【0089】
このように、同一の音響モデル50および音声変換モデル60を用いて、ASRとしても利用でき、TTSとしても利用できるシステムを実現できる。
【0090】
[F.ハードウェア構成]
次に、本実施の形態に従うASR/TTSシステムを実現するためのハードウェア構成の一例について説明する。
【0091】
図10は、本実施の形態に従うASR/TTSシステムを実現するハードウェア構成の一例を示す模式図である。本実施の形態に従うASR/TTSシステムは、典型的には、コンピュータの一例である情報処理装置300を用いて実現される。
【0092】
図10を参照して、情報処理装置300は、主要なハードウェアコンポーネントとして、CPU(central processing unit)302と、GPU(graphics processing unit)304と、主メモリ306と、ディスプレイ308と、ネットワークインターフェイス(I/F:interface)310と、二次記憶装置312と、入力デバイス322と、光学ドライブ324とを含む。これらのコンポーネントは、内部バス328を介して互いに接続される。
【0093】
CPU302および/またはGPU304は、本実施の形態に従うASR/TTSシステムの実現に必要な処理を実行するプロセッサである。CPU302およびGPU304は、複数個配置されてもよいし、複数のコアを有していてもよい。
【0094】
主メモリ306は、プロセッサ(CPU302および/またはGPU304)が処理を実行するにあたって、プログラムコードやワークデータなどを一時的に格納(あるいは、キャッシュ)する記憶領域であり、例えば、DRAM(dynamic random access memory)やSRAM(static random access memory)などの揮発性メモリデバイスなどで構成される。
【0095】
ディスプレイ308は、処理に係るユーザインターフェイスや処理結果などを出力する表示部であり、例えば、LCD(liquid crystal display)や有機EL(electroluminescence)ディスプレイなどで構成される。
【0096】
ネットワークインターフェイス310は、インターネット上またはイントラネット上の任意の情報処理装置などとの間でデータを遣り取りする。ネットワークインターフェイス310としては、例えば、イーサネット(登録商標)、無線LAN(local area network)、Bluetooth(登録商標)などの任意の通信方式を採用できる。
【0097】
入力デバイス322は、ユーザからの指示や操作などを受け付けるデバイスであり、例えば、キーボード、マウス、タッチパネル、ペンなどで構成される。また、入力デバイス322は、学習およびデコーディングに必要な音声信号を収集するための集音デバイスを含んでいてもよいし、集音デバイスにより収集された音声信号の入力を受け付けるためのインターフェイスを含んでいてもよい。
【0098】
光学ドライブ324は、CD-ROM(compact disc read only memory)、DVD(digital versatile disc)などの光学ディスク326に格納されている情報を読出して、内部バス328を介して他のコンポーネントへ出力する。光学ディスク326は、非一過的(non-transitory)な記録媒体の一例であり、任意のプログラムを不揮発的に格納した状態で流通する。光学ドライブ324が光学ディスク326からプログラムを読み出して、二次記憶装置312などにインストールすることで、コンピュータが情報処理装置300として機能するようになる。したがって、本発明の主題は、二次記憶装置312などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した光学ディスク326などの記録媒体でもあり得る。
【0099】
図10には、非一過的な記録媒体の一例として、光学ディスク326などの光学記録媒体を示すが、これに限らず、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、MO(magneto-optical disk)などの光磁気記録媒体を用いてもよい。
【0100】
二次記憶装置312は、コンピュータを情報処理装置300として機能させるために必要なプログラムおよびデータを格納する。例えば、ハードディスク、SSD(solid state drive)などの不揮発性記憶装置で構成される。
【0101】
より具体的には、二次記憶装置312は、図示しないOS(operating system)の他、学習フェーズにおける処理を実現する学習プログラム314と、モデルの構造を定義するネットワーク定義316と、モデルを規定するパラメータセット318と、運用フェーズにおける処理を実現する推論プログラム320と、教師データセット58とを格納している。
【0102】
学習プログラム314は、プロセッサ(CPU302および/またはGPU304)により実行されることで、パラメータセット318を決定するための学習処理を実現する。パラメータセット318に含まれる各パラメータは、学習プログラム314の実行により最適化される。推論プログラム320は、プロセッサ(CPU302および/またはGPU304)により実行されることで、決定されたパラメータセット318を反映したモデルを用いた推論処理を実現する。なお、学習プログラム314および推論プログラム320を一体化したプログラムを採用してもよいし、さらに細分化してもよい。
【0103】
プロセッサ(CPU302および/またはGPU304)がプログラムを実行する際に必要となるライブラリや機能モジュールの一部を、OSが標準で提供するライブラリまたは機能モジュールにより代替してもよい。この場合には、プログラム単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、OSの実行環境下にインストールされることで、目的の処理を実現できる。このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれ得る。
【0104】
また、これらのプログラムは、上述したようないずれかの記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバ装置などからダウンロードすることで配布されてもよい。
【0105】
図10には、単一のコンピュータを用いて情報処理装置300を構成する例を示すが、これに限らず、コンピュータネットワークを介して接続された複数のコンピュータが明示的または黙示的に連携して、本実施の形態に従うASR/TTSシステムを実現するようにしてもよい。
【0106】
プロセッサ(CPU302および/またはGPU304)がプログラムを実行することで実現される機能の全部または一部を、ASIC(application specific integrated circuit)やFPGA(field-programmable gate array)などのハードワイヤード論理回路(hard-wired logic circuit)を用いて実現してもよい。
【0107】
当業者であれば、本発明が実施される時代に応じた技術を適宜用いて、本実施の形態に従う情報処理装置300を実現できるであろう。
【0108】
説明の便宜上、同一の情報処理装置300を用いて、学習処理および推論処理を実行する例を示すが、学習処理および推論処理を異なるハードウェアを用いて実現してもよい。
【0109】
[G.処理手順]
次に、本実施の形態に従うASR/TTSシステムにおける処理手順について説明する。
【0110】
(g1:学習フェーズ)
図11は、本実施の形態に従うASR/TTSシステムの学習フェーズの手順を示すフローチャートである。
図11に示す主要なステップは、典型的には、情報処理装置300のプロセッサ(CPU302および/またはGPU304)が学習プログラム314を実行することで実現される。
【0111】
図11を参照して、音声54と対応するテキスト56との組からなる教師データセット58が用意される(ステップS100)。
【0112】
まず、GMM-HMMモデルを構築する処理が実行される。具体的には、情報処理装置300は、予め定められたネットワーク構造を有するGMM-HMMモデルを構成し(ステップS102)、構成したGMM-HMMモデルのパラメータを初期化する(ステップS104)。情報処理装置300は、教師データセット58を用いて、GMM-HMMモデルのパラメータを最適化する(ステップS106)。
【0113】
続いて、音響モデル50を構築する処理が実行される。具体的には、情報処理装置300は、先に構築したGMM-HMMモデルに教師データセット58に含まれるテキスト56を入力して、対応する状態シーケンスを算出することで、音響モデル50用の教師データセットを生成する(ステップS108)。すなわち、音声信号と対応する状態シーケンスとの組からなる、音響モデル50用の教師データが用意される。
【0114】
情報処理装置300は、予め定められたネットワーク構造を有する音響モデル50を構成し(ステップS110)、構成した音響モデル50のパラメータを初期化する(ステップS112)。そして、情報処理装置300は、ステップS108において生成した音響モデル50用の教師データセットを用いて、音響モデル50のパラメータを最適化する(ステップS114)。このように、音響モデル50用の教師データを用いて音響モデル50を学習する処理が実行される。
【0115】
続いて、教師データセット58に対応する敵対的音声を生成する処理が実行される。具体的には、情報処理装置300は、教師データセット58に含まれる音声54とテキスト56との組のうち1つを選択する(ステップS116)。情報処理装置300は、選択した教師データセット58に含まれる音声54とテキスト56との組に対応する状態シーケンス(正解ラベル)を取得し(ステップS118)、当該選択した組の音声54の長さと同じ長さのランダムノイズを初期値の音声信号として定義する(ステップS120)。
【0116】
情報処理装置300は、現在の音声信号を音響モデル50に入力して出力される状態シーケンス(推定結果)を算出し(ステップS122)、ステップS118において取得した状態シーケンス(正解ラベル)と、ステップS122において算出した状態シーケンス(推定結果)との誤差に基づいて、音声信号を更新する(ステップS124)。
【0117】
情報処理装置300は、ステップS124の音声信号の更新が予め定められた回数だけ実行されたか否かを判断する(ステップS126)。ステップS124の音声信号の更新が予め定められた回数だけ実行されていなければ(ステップS126においてNO)、情報処理装置300は、ステップS122以下の処理を繰り返す。
【0118】
ステップS124の音声信号の更新が予め定められた回数だけ実行されていれば(ステップS126においてYES)、情報処理装置300は、現在の音声信号を敵対的音声として決定する(ステップS128)。
【0119】
このように、音響モデル50から目的の状態シーケンスが出力されるように、音響モデル50に入力する音声信号を繰り返し更新することで敵対的音声を決定する処理が実行される。
【0120】
情報処理装置300は、教師データセット58に含まれる音声54とテキスト56との組を予め定められた数だけ処理したか否かを判断する(ステップS130)。教師データセット58に含まれる音声54とテキスト56との組を予め定められた数だけ処理していなければ(ステップS130においてNO)、情報処理装置300は、ステップS116以下の処理を繰り返す。
【0121】
教師データセット58に含まれる音声54とテキスト56との組を予め定められた数だけ処理していれば(ステップS130においてYES)、音声変換モデル60を構築する処理が実行される。
【0122】
具体的には、情報処理装置300は、ステップS128において決定した敵対的音声のうち、予め定められた評価基準(例えば、WERに基づく評価)を満たしているものを抽出し(ステップS132)、抽出した敵対的音声と対応する教師データセット58に含まれる音声54との組を音声変換モデル60用の教師データセットとして生成する(ステップS134)。すなわち、決定された敵対的音声と対応する音声信号との組からなる音声変換モデル60用の教師データが用意される。
【0123】
情報処理装置300は、予め定められたネットワーク構造を有する音声変換モデル60を構成し(ステップS136)、構成した音声変換モデル60のパラメータを初期化する(ステップS138)。そして、情報処理装置300は、ステップS134において生成した音声変換モデル60用の教師データセットを用いて、音声変換モデル60のパラメータを最適化する(ステップS140)。このように、音声変換モデル60用の教師データを用いて音声変換モデル60を学習する処理が実行される。
【0124】
以上の手順により、音響モデル50および音声変換モデル60を構築できる。
(g2:運用フェーズ)
図12は、本実施の形態に従うASR/TTSシステムの運用フェーズの手順を示すフローチャートである。
図12に示す主要なステップは、典型的には、情報処理装置300のプロセッサ(CPU302および/またはGPU304)が推論プログラム320を実行することで実現される。
【0125】
図12を参照して、情報処理装置300は、入力された情報に応じて、音声認識(ASR)および音声合成(TTS)のいずれで動作すべきかを判断する(ステップS200)。音声認識(ASR)で動作すべきと判断された場合(ステップS200において「ASR」)、情報処理装置300は、入力された音声信号を音響モデル50に入力して、状態シーケンス(推論結果)を算出する(ステップS210)。情報処理装置300は、算出した状態シーケンス(推論結果)を言語モデル72に入力して、テキストを取得する(ステップS212)。そして、情報処理装置300は、取得したテキストを認識結果として出力する(ステップS214)。
【0126】
一方、音声合成(TTS)で動作すべきと判断された場合(ステップS200において「TTS」)、情報処理装置300は、入力されたテキストに対応する状態シーケンスを算出する(ステップS220)。
【0127】
情報処理装置300は、所定長さのランダムノイズを初期値の音声信号として定義する(ステップS222)。
【0128】
情報処理装置300は、現在の音声信号を音響モデル50に入力して出力される状態シーケンス(推定結果)を算出し(ステップS224)、ステップS120において算出した状態シーケンス(正解ラベル)と、ステップS224において算出した状態シーケンス(推定結果)との誤差に基づいて、音声信号を更新する(ステップS226)。
【0129】
情報処理装置300は、ステップS226の音声信号の更新が予め定められた回数だけ実行されたか否かを判断する(ステップS228)。ステップS226の音声信号の更新が予め定められた回数だけ実行されていなければ(ステップS228においてNO)、情報処理装置300は、ステップS226以下の処理を繰り返す。
【0130】
ステップS226の音声信号の更新が予め定められた回数だけ実行されていれば(ステップS228においてYES)、情報処理装置300は、現在の音声信号を敵対的音声として決定する(ステップS230)。
【0131】
そして、情報処理装置300は、ステップS230において決定した敵対的音声を音声変換モデル60に入力して、合成音声(推論結果)を算出する(ステップS232)。情報処理装置300は、算出した合成音声(推論結果)を出力する(ステップS234)。
【0132】
以上の手順により、ASRおよびTTSの両方の動作を実現できる。
[H.変形例]
上述した敵対的サンプルのアイデアを用いた音声認識(ASR)および音声合成(TTS)のモデルの構築および相互利用を用いることで、例えば、音声とテキストとを対応付けたコーパスを増大させることもできる。
【0133】
また、敵対的サンプルのアイデアを用いることで、劣化した音声信号を復元するようなこともできる。
【0134】
[I.まとめ]
本実施の形態に従うASR/TTSシステムによれば、一連の学習処理により、音声認識(ASR)および音声合成(TTS)のいずれにも用いることができる推論器(学習済モデル)を構成できるので、学習処理に要する時間を短縮化でき、また、ネットワークサイズの増大も抑制できる。
【0135】
また、同じモデルを両方向に利用できるため、音声認識および音声合成を含む、様々な音声関連アプリケーションに応用できる。
【0136】
今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【符号の説明】
【0137】
1 ASR/TTSシステム、10 携帯端末、12 アプリケーション画面、14 認識結果欄、16 翻訳結果欄、18 逆翻訳結果欄、20 入力音声、22 ASRモジュール、24 機械翻訳モジュール、26 TTSモジュール、28,66 合成音声、30 統合モジュール、40 ASRモデル、50 音響モデル、54 音声、56 テキスト、58 教師データセット、60 音声変換モデル、62 ランダムノイズ、64 敵対的音声、70 敵対的音声生成モジュール、72 言語モデル、74 状態シーケンス生成モジュール、300 情報処理装置、302 CPU、304 GPU、306 主メモリ、308 ディスプレイ、310 ネットワークインターフェイス、312 二次記憶装置、314 学習プログラム、316 ネットワーク定義、318 パラメータセット、320 推論プログラム、322 入力デバイス、324 光学ドライブ、326 光学ディスク、328 内部バス、510 上位層、520 下位層、522 前処理層、524 FFT層、526 絶対値化層、528 対数化層、USR ユーザ。