(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024031314
(43)【公開日】2024-03-07
(54)【発明の名称】音声認識装置、音声認識方法、および、プログラム
(51)【国際特許分類】
G10L 15/20 20060101AFI20240229BHJP
G10L 15/16 20060101ALI20240229BHJP
【FI】
G10L15/20 380
G10L15/16
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022134800
(22)【出願日】2022-08-26
(71)【出願人】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(71)【出願人】
【識別番号】504176911
【氏名又は名称】国立大学法人大阪大学
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100126664
【弁理士】
【氏名又は名称】鈴木 慎吾
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100194087
【弁理士】
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】周藤 唯
(72)【発明者】
【氏名】中臺 一博
(72)【発明者】
【氏名】武田 龍
(57)【要約】
【課題】音声強調処理による音声認識率の低下を抑える。
【解決手段】発話区間処理部は入力音声信号の音響特性に基づいて発話区間を定め、音声強調部は第1モデルを用いて前記入力音声信号の音響特徴量について音声成分が強調された強調特徴量をフレームごとに定め、隠れ状態処理部は第2モデルを用いて目標特徴量の系列である目標特徴量系列に基づいて隠れ状態特徴量の系列である隠れ状態特徴量系列を定め、サンプリング処理部は発話区間内の前記強調特徴量の系列である強調特徴量系列と前記音響特徴量の系列である音響特徴量系列に対応する目標特徴量系列の確率分布を示す第3モデルを用いて当該目標特徴量系列のサンプル値を複数回サンプリングし、前記隠れ状態特徴量系列のサンプル値から前記隠れ状態特徴量系列の期待値を定め、発話処理部は第4モデルを用いて前記隠れ状態特徴量系列の期待値に基づいて前記発話区間の発話内容を定める。
【選択図】
図3
【特許請求の範囲】
【請求項1】
入力音声信号の音響特性に基づいて発話区間を定める発話区間処理部と、
第1モデルを用いて前記入力音声信号の音響特徴量について音声成分が強調された強調特徴量をフレームごとに定める音声強調部と、
第2モデルを用いて目標特徴量の系列である目標特徴量系列に基づいて隠れ状態特徴量の系列である隠れ状態特徴量系列を定める隠れ状態処理部と、
発話区間内の前記強調特徴量の系列である強調特徴量系列と前記音響特徴量の系列である音響特徴量系列に対応する目標特徴量系列の確率分布を示す第3モデルを用いて当該目標特徴量系列のサンプル値を複数回サンプリングし、
前記隠れ状態特徴量系列のサンプル値から前記隠れ状態特徴量系列の期待値を定めるサンプリング処理部と、
第4モデルを用いて前記隠れ状態特徴量系列の期待値に基づいて前記発話区間の発話内容を定める発話処理部と、を備える
音声認識装置。
【請求項2】
前記目標特徴量系列は、前記強調特徴量系列と前記音響特徴量系列との加重和であり、
前記確率分布は、前記強調特徴量系列と前記音響特徴量系列との比率の確率分布であり、
前記サンプリング処理部は、前記第3モデルを用いて前記比率のサンプル値をサンプリングし、
前記比率のサンプル値に基づいて前記強調特徴量系列と前記音響特徴量系列を合成して前記目標特徴量のサンプル値を算出する
請求項1に記載の音声認識装置。
【請求項3】
前記確率分布は、前記目標特徴量系列が前記強調特徴量系列と等しくなる可能性を示す第1確率分布と、前記目標特徴量系列が前記強調特徴量系列から分散する確率分布である第2確率分布とを有する
請求項1に記載の音声認識装置。
【請求項4】
前記サンプリング処理部は、
前記発話区間におけるフレームごとの前記強調特徴量の事後確率分布に基づいて前記第1確率分布を定める
請求項3に記載の音声認識装置。
【請求項5】
前記サンプリング処理部は、
前記第1確率分布を用いて一部の前記目標特徴量系列のサンプル値を第1種目標特徴量系列のサンプル値としてサンプリングし、
前記第2確率分布を用いて他の前記目標特徴量系列のサンプル値を第2種目標特徴量系列のサンプル値としてサンプリングし、
前記第1種目標特徴量系列のサンプル値に対する隠れ状態特徴量系列のサンプル値と前記第2種目標特徴量系列のサンプル値に対する隠れ状態特徴量系列のサンプル値との平均値を前記隠れ状態特徴量系列の期待値として定める
請求項3または請求項4に記載の音声認識装置。
【請求項6】
前記第4モデルは、
アテンションデコーダとコネクショニスト時系列分類(CTC)デコーダを備え、
前記アテンションデコーダは、前記隠れ状態特徴量系列の期待値に対する発話内容の候補ごとに第1事後確率を算出し、
前記CTCデコーダは、前記隠れ状態特徴量系列のサンプル値に対する発話内容の候補ごとに第2事後確率のサンプル値を算出し、
発話内容の候補ごとに前記第2事後確率のサンプル値の期待値を前記第2事後確率として算出し、
前記第1事後確率と前記第2事後確率を合成したスコアに基づいて前記発話内容を定める
請求項1に記載の音声認識装置。
【請求項7】
コンピュータに
請求項1に記載の音声認識装置として機能させるためのプログラム。
【請求項8】
音声認識装置における音声認識方法であって、
前記音声認識装置が、
入力音声信号の音響特性に基づいて発話区間を定める発話区間処理ステップと、
第1モデルを用いて前記入力音声信号の音響特徴量について音声成分が強調された強調特徴量をフレームごとに定める音声強調ステップと、
第2モデルを用いて目標特徴量の系列である目標特徴量系列に基づいて隠れ状態特徴量の系列である隠れ状態特徴量系列を定める隠れ状態処理ステップと、
発話区間内の前記強調特徴量の系列である強調特徴量系列と前記音響特徴量の系列である音響特徴量系列に対応する目標特徴量系列の確率分布を示す第3モデルを用いて当該目標特徴量系列のサンプル値を複数回サンプリングし、
前記隠れ状態特徴量系列のサンプル値から前記隠れ状態特徴量系列の期待値を定めるサンプリング処理ステップと、
第4モデルを用いて前記隠れ状態特徴量系列の期待値に基づいて前記発話区間の発話内容を定める発話処理ステップと、を実行する
音声認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識装置、音声認識方法、および、プログラムに関する。
【背景技術】
【0002】
音声認識は、多様な用途を有し、さまざまな環境で用いられる。雑音が混入した音声を音声認識に用いると、雑音が混入されていないクリーン音声よりも認識率が低下することが知られている。雑音下で認識率を向上させるため、音声認識システムに対して音声強調が適用されることがある。音声強調によれば、収録された入力音声成分の音声成分が強調され、相対的に雑音成分が低減する。雑音抑圧は、音声強調の一形態として捉えることができる。
【0003】
音声強調を音声認識に適用した手法として、ミッシングデータ音声認識処理が提案されていた。例えば、非特許文献1、2に記載の手法では、エビデンスモデル(evidence model)が適用される。エビデンスモデルは、音声強調から音声認識に統計的情報を与えるデコード処理のモデルである。エビデンスモデルは、認識結果を与える分類スコアの期待値を評価するための数理モデルとみなすことができ、誤分類を低減させるように学習された確率密度関数を用いて表わされる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】A. C. Morris, J. Baker, and H. Bourlard, “FROM MISSING DATA TO MAYBE USEFUL DATA: SOFT DATA MODELLING FOR NOISE ROBUST ASR”, Proceedings of Workshop Innovation Speech Process, 2001
【非特許文献2】M. Kuhne, R. Togneri, and S. Nordholm, “Recognition with Applications in Reverberant Multi-Source Environments”, IEEE Transactions on Audio, Speech and Language Processing, vol. 19, No. 2, pp. 372-384, 2011
【発明の概要】
【発明が解決しようとする課題】
【0005】
提案されたエビデンスモデルは、フレームごとに適用され、フレーム間で独立な処理をもたらす。そのため、処理後の音響特性を表す音響特徴量がフレーム間で不連続となり非線形歪を生じることがある。予期しない非線形歪は、認識率を低下させる原因となりうる。他方、音声認識では、一回の発話から複数の文字列からなる認識結果をもたらすエンド・ツー・エンド(E2E:End-to-End)モデルを用いることが提案されている。E2Eモデルに対応できるように、エビデンスモデルを複数フレームに拡張することも考えられる。エビデンスモデルは、高次元の統計モデルであり、単純にモデルを拡張するだけでは演算量が非常に多くなる。エビデンスモデルに対して音響特徴量のサンプリングを行って演算量を低減することも考えられる。認識率の低下を抑えるためには、モデルの規模に相応した十分なサンプリング数を要することが想定される。
【課題を解決するための手段】
【0006】
(1)本実施形態の一態様は、入力音声信号の音響特性に基づいて発話区間を定める発話区間処理部と、第1モデルを用いて前記入力音声信号の音響特徴量について音声成分が強調された強調特徴量をフレームごとに定める音声強調部と、第2モデルを用いて目標特徴量の系列である目標特徴量系列に基づいて隠れ状態特徴量の系列である隠れ状態特徴量系列を定める隠れ状態処理部と、発話区間内の前記強調特徴量の系列である強調特徴量系列と前記音響特徴量の系列である音響特徴量系列に対応する目標特徴量系列の確率分布を示す第3モデルを用いて当該目標特徴量系列のサンプル値を複数回サンプリングし、前記隠れ状態特徴量系列のサンプル値から前記隠れ状態特徴量系列の期待値を定めるサンプリング処理部と、第4モデルを用いて前記隠れ状態特徴量系列の期待値に基づいて前記発話区間の発話内容を定める発話処理部と、を備える音声認識装置である。
【0007】
(2)本実施形態の一態様は、(1)の音声認識装置であって、前記目標特徴量系列は、前記強調特徴量系列と前記音響特徴量系列との加重和であり、前記確率分布は、前記強調特徴量系列と前記音響特徴量系列との比率の確率分布であり、前記サンプリング処理部は、前記第3モデルを用いて前記比率のサンプル値をサンプリングし、前記比率のサンプル値に基づいて前記強調特徴量系列と前記音響特徴量系列を合成して前記目標特徴量のサンプル値を算出してもよい。
【0008】
(3)本実施形態の一態様は、(1)の音声認識装置であって、前記確率分布は、前記目標特徴量系列が前記強調特徴量系列と等しくなる可能性を示す第1確率分布と、前記目標特徴量系列が前記強調特徴量系列から分散する確率分布である第2確率分布とを有してもよい。
【0009】
(4)本実施形態の一態様は、(3)の音声識装置であって、前記サンプリング処理部は、前記発話区間におけるフレームごとの前記強調特徴量の事後確率分布に基づいて前記第1確率分布を定めてもよい。
【0010】
(5)本実施形態の一態様は、(3)または(4)の音声認識装置であって、前記サンプリング処理部は、前記第1確率分布を用いて一部の前記目標特徴量系列のサンプル値を第1種目標特徴量系列のサンプル値としてサンプリングし、前記第2確率分布を用いて他の前記目標特徴量系列のサンプル値を第2種目標特徴量系列のサンプル値としてサンプリングし、前記第1種目標特徴量系列のサンプル値に対する隠れ状態特徴量系列のサンプル値と前記第2種目標特徴量系列のサンプル値に対する隠れ状態特徴量系列のサンプル値との平均値を前記隠れ状態特徴量系列の期待値として定めてもよい。
【0011】
(6)本実施形態の一態様は、(1)の音声認識装置であって、前記第4モデルは、アテンションデコーダとコネクショニスト時系列分類(CTC)デコーダを備え、前記アテンションデコーダは、前記隠れ状態特徴量系列の期待値に対する発話内容の候補ごとに第1事後確率を算出し、前記CTCデコーダは、前記隠れ状態特徴量系列のサンプル値に対する発話内容の候補ごとに第2事後確率のサンプル値を算出し、発話内容の候補ごとに前記第2事後確率のサンプル値の期待値を前記第2事後確率として算出し、前記第1事後確率と前記第2事後確率を合成したスコアに基づいて前記発話内容を定めてもよい。
【0012】
(7)本実施形態の一態様は、コンピュータに(1)の音声認識装置として機能させるためのプログラムであってもよい。
【0013】
(8)本実施形態の一態様は、音声認識方法であって、音声認識装置が、入力音声信号の音響特性に基づいて発話区間を定める発話区間処理ステップと、第1モデルを用いて前記入力音声信号の音響特徴量について音声成分が強調された強調特徴量をフレームごとに定める音声強調ステップと、第2モデルを用いて目標特徴量の系列である目標特徴量系列に基づいて隠れ状態特徴量の系列である隠れ状態特徴量系列を定める隠れ状態処理ステップと、発話区間内の前記強調特徴量の系列である強調特徴量系列と前記音響特徴量の系列である音響特徴量系列に対応する目標特徴量系列の確率分布を示す第3モデルを用いて当該目標特徴量系列のサンプル値を複数回サンプリングし、前記隠れ状態特徴量系列のサンプル値から前記隠れ状態特徴量系列の期待値を定めるサンプリング処理ステップと、第4モデルを用いて前記隠れ状態特徴量系列の期待値に基づいて前記発話区間の発話内容を定める発話処理ステップと、を実行する。
【発明の効果】
【0014】
本実施形態の一態様によれば、音声強調処理による音声認識率の低下を抑制することができる。
例えば、(1)、(7)または(8)によれば、発話区間内の強調特徴量系列と音響特徴量系列に対応する複数の目標特徴量系列のサンプル値が得られ、複数の目標特徴量系列のサンプル値から目標特徴量系列の期待値が得られる。発話内容は、目標特徴量系列の期待値から得られる隠れ状態特徴量系列の期待値に基づいて定まる。目標特徴量系列により発話区間内の変化傾向として音響特性の連続性を表現できるため、ランダムなサンプリングによるフレーム間の音響特性の不連続性を回避できる。そのため、音響特性の不連続性による音声認識率の低下を回避することができる。また、発話区間内の目標特徴量系列のサンプリングにより、高次元化による処理量の増加を抑制することができる。
(2)によれば、目標特徴量系列の確率分布が強調特徴量系列と音響特徴量系列との比率で表現できる。そのため、音声認識精度を維持しながらサンプリングに係る処理量を低減することができる。
(3)によれば、第1確率分布により音声成分の強調による強調特徴量系列を目標特徴量系列として採用する度合いと、第2確率分布により強調特徴量系列が目標特徴量系列から逸脱する度合いを定量化できる。使用環境による強調特徴量系列の信頼性の差異を考慮したサンプリングにより、音声認識精度を維持することができる。
(4)によれば、発話区間における目標特徴量の連続性と併せて、フレームごとの強調特徴量の誤差を考慮した目標特徴量系列のサンプリングにより、音声認識精度を維持することができる。
(5)によれば、目標特徴量系列のサンプル値のサンプリングにおいてサンプルごとに第1確率分布と第2確率分布が使い分けられる。サンプルごとの第1確率分布と第2確率分布との加算を回避することで処理量を低減できる。また、サンプル間で処理を並行することで演算資源を有効に活用することができる。
(6)によれば、CTCデコーダには隠れ状態特徴系列のサンプルが入力され、第2事後確率のサンプル値が出力される。サンプルごとの処理にアテンションデコーダとは独立になされるCTCデコーダの処理を含めることで、演算資源の活用をさらに図ることができる。
【図面の簡単な説明】
【0015】
【
図1】本実施形態に係る音声認識装置の機能構成例を示す概略ブロック図である。
【
図2】本実施形態に係る音声認識装置のハードウェア構成例を示す概略ブロック図である。
【
図3】本実施形態に係るサンプリング処理部、隠れ状態処理部および発話処理部の機能構成の第1例を示す概略ブロック図である。
【
図4】本実施形態に係る第3モデルの第1例を示すグラフである。
【
図5】本実施形態に係るサンプリング処理部、隠れ状態処理部および発話処理部の機能構成の第2例を示す概略ブロック図である。
【
図6】本実施形態に係る音声認識処理の第1例を示すフローチャートである。
【
図7】本実施形態に係る音声認識処理の第2例を示すフローチャートである。
【
図8】CER(Character Error Rate)を例示する一覧表である。
【
図9】比較例の機能構成を示す概略ブロック図である。
【発明を実施するための形態】
【0016】
以下、図面を参照しながら本開示の実施形態について説明する。まず、本実施形態に係る音声認識装置10の機能構成例について説明する。
図1は、本実施形態に係る音声認識装置10の機能構成例を示す概略ブロック図である。
音声認識装置10には、マイクロホン20から音声信号が入力音声信号として入力される。マイクロホン20は、自部に到来する音を収音し、音圧の振幅を電圧に変換する電気音響変換器を備える。マイクロホン20は、変換した電圧を示す信号値として有する電気信号を音声認識装置10に出力する。
【0017】
音声認識装置10は、入力音声信号に対して音声認識処理を実行し、発話内容を推定する。音声認識装置10は、入力音声信号の音響特性に基づいて発話区間を推定する。
音声認識装置10は、第1モデルを用い、入力音声信号の音響特徴量について音声成分を強調した強調特徴量をフレームごとに定める。音声認識装置10は、第2モデルを用いて目標特徴量の系列(本願では、「目標特徴量系列」と呼ぶことがある)に基づいて隠れ状態特徴量の系列(本願では、「隠れ状態特徴量系列」と呼ぶことがある)を定める。音声認識装置10は、強調特徴量の系列(本願では、「強調特徴量系列」と呼ぶことがある)と音響特徴量の系列(本願では、「音響特徴量系列」と呼ぶことがある)に対応する目標特徴量系列の確率分布を示す第3モデルを用いて目標特徴量系列のサンプル値を複数回サンプリングし、隠れ状態特徴量系列のサンプル値から隠れ状態特徴量系列の期待値を定める。音声認識装置10は、第4モデルを用いて隠れ状態特徴量系列の期待値に基づいて発話区間ごとに発話内容を定める。
【0018】
音声認識装置10は、定めた発話内容を各種の処理に応用してもよいし、他の機能を主機能として有する電子機器の一部となしてもよい。各種の処理には、例えば、音声コマンドの同定と同定された音声コマンドで指示される処理の実行、文書作成、編集、などのいずれであってもよい。本願では、「モデル」とは、主に数理モデルを指す。発話区間は、1回の発話に係る音声が含まれる区間、つまり、中断せずに連続して音声が発された区間である。発話音声は、人の声を意味し、必ずしも、その時点において発話されたものでなくてもよい。入力音声信号は、予め録音により得られたものでも、合成されたものでもよい。また、入力音声信号は、マイクロホン20以外の他の機器から有線または無線で入力されてもよい。
【0019】
音声認識装置10は、制御部110を備える。制御部110は、特徴分析部112、音声強調部114、発話区間処理部116、サンプリング処理部118、隠れ状態処理部120、発話処理部122、および、モデル学習部130を含んで構成される。
図1に例示される音声認識装置10は、ミッシングデータ自動音声認識処理(MD-ASR:Missing Data-Automatic Speech Recognition)を実行する。MD-ASRにおいて、音声強調(SE:Speech Enhancement)の不確実性(uncertainty)が利用される。音声強調の不確実性が確率的エビデンスモデルにより表される。
【0020】
特徴分析部112は、マイクロホン20から入力される入力音声信号を取得する。入力音声信号は、所定のサンプリング周波数でサンプリングされた信号値の時系列を示すディジタル信号である。サンプリング周波数は、例えば、16kHzである。特徴分析部112は、予め定めた窓長(window length)を有する分析窓(analysis window)ごとに音響特徴量(acoustic feature)を算出する。分析窓は、音声信号の音響的特性を一度に分析対象とする区間である。分析窓として、例えば、ハニング窓(Hanning window)を用いることができる。窓長は、分析対象とする期間、即ち、フレームに相当する。窓長は、例えば、512サンプルである。特徴分析部112は、一定の時間間隔ごとに分析窓の区間を所定のホップ長ごとに移動させる。ホップ長は、一度に分析窓を移動させる期間に相当する。ホップ長は、窓長以下となる正の実数であればよい。ホップ長は、例えば、128サンプルである。特徴分析部112は、音響特徴量として、例えば、短時間フーリエ変換係数(STFT:Short Time Fourier Transform parameters)、メルフィルタバンク(Mel filter bank)など周波数特性を表す特徴量が適用可能である。
特徴分析部112は、フレームごとに算出した音響特徴量を音声強調部114、発話区間処理部116およびサンプリング処理部118に出力する。
【0021】
音声強調部114には、特徴分析部112から入力される音響特徴量に対して第1モデルを用いて音声強調処理(SE:Speech Enhancement)を行い、音声成分が強調された音響特徴量を強調特徴量として算出する。音声成分の強調とは、音声成分をその他の成分よりも相対的に強調することを指す。音声強調処理として、雑音抑圧処理が適用されてもよい。第1モデルとして、例えば、深層ニューラルネットワーク(DNN:Deep Neural Network)が適用可能である。音声強調部114は、算出した強調特徴量をサンプリング処理部118に出力する。音声強調部114の具体例については、後述する。
【0022】
発話区間処理部116は、特徴分析部112から取得されるフレームごとの音響特徴量に基づいて発話区間を定める。発話区間処理部116は、発話区間の検出において公知の音声検出法(VAD:Voice Activity Detection)を用いることができる。発話区間処理部116は、フレームごとに当該フレームが音声区間であるか否かを判定する。発話区間処理部116は、例えば、予め設定した音声区間判定モデルを用い、音響特徴量に基づいて算出される音声区間確率が所定の音声区間確率の閾値以上となるフレームを音声区間と判定し、その閾値未満となるフレームを非音声区間と判定する。
【0023】
発話区間処理部116は、予め設定された連続フレーム数の下限以上連続する一連の非音声区間のフレームを非発話区間と判定することができる。発話区間処理部116は、その前後に非発話区間で挟まれる1以上のフレームからなる区間を発話区間として判定することができる。これにより、一時的な無音区間を含む発話区間に対しても無音区間により分断されずに一連の発話区間として検出される。
発話区間処理部116は、判定した発話区間をサンプリング処理部118に出力する。なお、音声区間判定モデルは、第1モデルまたは第3モデルの一部として実装されてもよい。
【0024】
発話区間処理部116は、特徴分析部112から音響特徴量を取得せずに、入力音声信号から独自にフレームごとに音響特性を分析してもよい。発話区間処理部116は、音響特性として、例えば、パワーと零交差数(number of zero-crossing)を分析してもよい。零交差数とは、時間領域におけるフレーム内の信号値が正値から負値に、または、負値から正値に変化する回数である。発話区間処理部116は、分析したパワーが所定のパワーの閾値よりも大きく、かつ、零交差数が所定の範囲内(例えば、1秒当たり300~1000回)であるフレームを音声区間と判定し、それ以外のフレームを非音声区間と判定してもよい。
【0025】
サンプリング処理部118には、特徴分析部112からフレームごとの音声特徴量が入力され、音声強調部114からフレームごとの強調特徴量が入力される。
サンプリング処理部118には、発話区間処理部116から発話区間が入力される。サンプリング処理部118は、発話区間におけるフレームごとの強調特徴量をその順序で配列し強調特徴量系列を構成する。サンプリング処理部118は、発話区間におけるフレームごとの音声特徴量をその順序で配列し音声特徴量系列を構成する。
【0026】
サンプリング処理部118は、第3モデルに従って、発話区間内の強調特徴量系列と音響特徴量系列に対する目標特徴量系列の確率分布を定め、その確率分布に従い疑似乱数を用いて目標特徴量系列のサンプル値をN回サンプリングする。目標特徴量は、音響特徴量に対して音声強調処理を行って得られる強調特徴量の現実の値(realization)として推定される値である。音声強調処理では、非音声成分の抑圧の過不足により、音声成分だけが強調されるとは限らないためである。
【0027】
そこで、本実施形態に係るモデル学習部130は、第3モデルに係る確率分布として、既知の強調特徴量系列と音響特徴量系列のセットに対する目標特徴量系列との関係を示す確率分布を用い、N個の目標特徴量系列のサンプル値を得る。このサンプル値に基づく期待値は、目標特徴量に係る期待値として統計的に現実の値となる可能性が高くなる。Nは、2以上の予め定めた整数である。Nは、例えば、10~200である。第3モデルは、後述の発話区間別エビデンスモデルに相当し、確率的エビデンスモデルの一種とみなすことができる。
なお、強調特徴量、音響特徴量が、それぞれ短時間フーリエ変換係数である場合、目標特徴量系列をなす各フレームの目標特徴量は、サンプリング処理部118または隠れ状態処理部120においてメルフィルタバンクに変換されてもよい。
【0028】
サンプリング処理部118は、目標特徴量系列のサンプル値を隠れ状態処理部120に出力する。
サンプリング処理部118には、目標特徴量系列のサンプル値に対する応答として隠れ状態特徴量系列のサンプル値が隠れ状態処理部120から入力される。サンプリング処理部118は、隠れ状態特徴量系列のサンプル値をサンプル間で平均して得られる期待値をその発話区間における隠れ状態特徴量系列として定める。サンプリング処理部118は、定めた隠れ状態特徴量系列を発話処理部122に出力する。サンプリング処理部118の具体例については、後述する。
【0029】
隠れ状態処理部120には、各サンプルについてサンプリング処理部118から目標特徴量系列のサンプル値が入力される。隠れ状態処理部120は、第2モデルを用い、目標特徴量系列のサンプル値に対する隠れ状態特徴量系列のサンプル値を算出する。第2モデルは、例えば、公知のCTC(connectionist temporal classification)/アテンションアーキテクチャ(attention architecture)の一部をなす共有エンコーダ(shared encoder)ネットワークに相当するモデルであってもよい。第2モデルには、既知のクリーン音声の音声特徴量系列に対して隠れ状態特徴量系列を与えるように学習されたパラメータセットが適用されてもよい。隠れ状態処理部120の具体例については、後述する。
【0030】
発話処理部122には、サンプリング処理部118から隠れ状態特徴量系列が入力される。発話処理部122は、第4モデルを用い、隠れ状態特徴量系列に対し、その発話区間における発話内容の候補(仮説)ごとに、その候補が発話された可能性を示す事後確率(posterior probability)を算出する。発話処理部122は、算出した事後確率が最大となる発話内容の候補を、その発話区間における認識結果として探索する。
【0031】
第4モデルは、例えば、CTC/アテンションアーキテクチャを有してもよい。CTC/アーキテクチャは、CTCデコーダネットワークとアテンションデコーダネットワークを含む。発話内容、または、その候補は、1以上のラベルを含むラベル列を用いて構成される。ラベルは、文字、音節、単語、その他、発話内容の表記に係る任意の単位となりうる。ラベル列は、テキストを用いて表現されることがある。発話情報の候補の集合から認識結果を探索する際、例えば、公知のビームサーチ法(beam search technique)を用いることができる。発話処理部122の具体例については、後述する。
なお、制御部110は、発話処理部122が定めた認識結果である発話情報を保存してもよいし、他の処理に用いてもよいし、他の機器に出力してもよい。
【0032】
モデル学習部130は、予め構成された訓練データを用いて第2モデルおよび第4モデルを学習する。本開示では、「モデル学習」または「モデルを学習する」とは、モデルに基づく演算において用いられるパラメータセットを定めることを意味する。訓練データは、複数の異なるデータセットを含み、個々のデータセットは、既知の入力データと出力データを含み、それらを対応付けて構成される。モデル学習部130は、あるモデルの学習において、入力データをなす入力値に対する演算により得られる演算値が、その入力データに対応する出力データをなす出力値との差が訓練データ全体として減少(最小化)するようにパラメータセットを再帰的(recurrently)に更新する。差が所定の判定閾値以下になったとき、または、更新回数が所定の回数に達したとき、モデル学習部130は、その時点でモデル学習を停止し、得られたパラメータセットを、それぞれのモデルに係る機能部に設定する。
【0033】
モデル学習部130は、第2モデルと第4モデルを同時に学習する。学習に用いられる訓練データをなす個々のデータセットは、入力データとして、ある発話区間における音声信号から導出される音声特徴量を含み、出力データとして、その音声区間における既知の発話内容を示す発話情報を含む。第2モデルと第4モデルの学習では、クリーン音声を示す音声信号から導出される入力データが用いられてもよい。この出力データは、正解を与える発話情報の候補に対する事後確率を1、その他の発話情報に対する事後確率を0とするベクトル値で表されうる。
【0034】
演算値と出力値との差の大きさを示す損失関数(loss function)として、例えば、二元交差エントロピー(binary cross entropy)を用いることができる。パラメータセットの更新において、例えば、再急勾配法(steepest gradient)もしくは確率的勾配降下法(stochastic gradient descent)に基づく誤差逆伝搬法(backpropagation)、または、その変形(例えば、アダム最適化(Adam Optimizer))を用いることができる。
【0035】
なお、音声強調処理に用いられる第1モデルは、音声認識処理に用いられる第2モデルと第4モデルとは独立に学習することができる。第1モデルの学習については、音声強調部114との具体例とともに後述する。後述の第3モデルの構成によっては、必ずしも学習を要しない。第3モデルの一部または全部のパラメータは、第1モデルの学習過程で得られる演算値から導出されてもよい。
【0036】
(ハードウェア構成例)
次に、本実施形態に係る音声認識装置10のハードウェア構成例について説明する。
図2は、本実施形態に係る音声認識装置10のハードウェア構成例を示す概略ブロック図である。音声認識装置10は、
図1に例示される各1個または複数個の機能部の組をなす専用の部材(例えば、集積回路)を含む音声認識システムとして構成されてもよい。音声認識装置10は、音声認識システムとして汎用のコンピュータシステムの一部または全部として構成されてもよい。
【0037】
音声認識装置10は、例えば、プロセッサ152、ドライブ部156、入力部158、出力部160、ROM(Read Only Memory)162、RAM(Random Access Memory)164、補助記憶部166、および、インタフェース部168を含んで構成される。プロセッサ152、ドライブ部156、入力部158、出力部160、ROM162、RAM164、補助記憶部166、および、インタフェース部168は、バスBS(基線)を用いて相互に接続される。
【0038】
プロセッサ152は、例えば、ROM162に記憶されたプログラムや各種のデータを読み出し、当該プログラムを実行して、音声認識装置10の動作を制御する。音声認識装置10におけるプロセッサ152の個数は1個に限らず、複数となってもよい。プロセッサ152は、例えば、CPU(Central Processing Unit)である。プロセッサ152の個数が複数となる場合、本実施形態に係る処理が複数のプロセッサ152間で分担されてもよい。また、複数のプロセッサ152の種類は、必ずしも全て同一でなくてもよく、一部が異なっていてもよい。複数のプロセッサ152には、CPUの他、少なくとも1個のGPU(Graphic Processing Unit)が含まれてもよい。なお、本実施形態では「プログラムを実行する」とは、プログラムに記述された各種の指令(コマンド)で指示された処理を実行するとの意味を含む。
【0039】
プロセッサ152は、所定のプログラムを実行して、上記の制御部110の全部または一部の機能部、例えば、特徴分析部112、音声強調部114、発話区間処理部116、サンプリング処理部118、隠れ状態処理部120、発話処理部122、および、モデル学習部130の一部または全部の機能を実現する。
【0040】
記憶媒体154は、各種のデータを記憶する。記憶媒体154は、例えば、光磁気ディスク、フレキシブルディスク、フラッシュメモリなどの可搬記憶媒体である。
ドライブ部156は、例えば、記憶媒体154からの各種データの読み出しと、記憶媒体154への各種データの書き込みの一方または両方を行う機器である。
【0041】
入力部158は、入力元となる各種の機器から入力データが入力され、入力データをプロセッサ152に出力する。
出力部160は、プロセッサ152から入力される出力データを、出力先となる各種の機器に出力する。
【0042】
ROM162は、例えば、プロセッサ152が実行するためのプログラムを記憶する。
RAM164は、例えば、プロセッサ152で用いられる各種データ、プログラムを一時的に保存する作業領域として機能する主記憶媒体として用いられる。
補助記憶部166は、HDD(Hard Disk Drive)、フラッシュメモリなどの記憶媒体である。
【0043】
インタフェース部168は、他の機器と接続し各種のデータを入力および出力可能とする。インタフェース部168は、例えば、有線または無線でネットワークに接続する通信モジュールを備える。
【0044】
(音声強調部の具体例)
次に、本実施形態に係る音声認識装置10の音声強調部114の具体例について説明する。
音声強調部114は、予め設定された第1モデルを用い、フレームtごとに音響特徴量(noisy observed spectrum)xtに対し、強調特徴量(feature vector)stを算出する。ここで、音声強調部114は、音響特徴量xtとそのソフトマスクm(x~
t)を要素ごとに乗じて得られる乗算値に対する対数値を雑音除去音響特徴量(denoised spectrum)y~
tとして算出する。式(1)をはじめとする数式を構成する文字の上部に付された~、^などの記号は、本文中では、x~
t、y~
tなどと文字に隣接して表記する。
【0045】
式(1)に例示されるように、雑音除去音響特徴量y~
tには、その対数値に対して、さらに予測誤差(prediction error)nt
yが加算されてもよい。式(1)において、右辺第2項の小さい○は、要素ごとの乗算を示す。log(…)は、…の対数値を示す。|…|は、…の絶対値を示す。x~
tは、フレームt-kの音響特徴量xt-kからフレームt+kの音響特徴量xt-kまでの2k+1フレームにわたり結合されてなる結合ベクトル(concatenated vector)を示す。ソフトマスクm(x~
t)は、x~
tを入力値として各要素が0から1の間の自然数を出力値として与える関数によりモデル化される。予測誤差nt
yは、確率密度として多次元ガウス関数N(0,Λyt
-1)に従い、疑似乱数を用いてサンプリングして得られる。Λyt
-1は、精度行列(precision matrix)Λytの逆行列を示す。精度行列Λytは、D個の分散λy,t,1
2,…,λy,t,D
2を対角成分として有するD行D列の対角行列である。Dは、強調特徴量stの次元数を示す整数値である。音声強調部114は、分散λy,t,1
2,…,λy,t,D
2もDNNの他の一部の出力値として算出してもよい。なお、音響特徴量xt、雑音除去音響特徴量y~
tの次元数Fは、それぞれフレーム長に相当する。
【0046】
【0047】
次に、音声強調部114は、雑音除去音響特徴量y~
tに対する特徴抽出関数(feature extraction function)f(y~
t)の関数値を強調特徴量stとして算出する。式(2)に例示されるように、強調特徴量stは、その関数値に対して、さらに予測誤差nt
sが加算されてもよい。予測誤差nt
sは、確率密度として多次元ガウス関数N(0,Λs,t
-1)に従い、疑似乱数を用いてサンプリングして得られる。Λst
-1は、精度行列Λs,tの逆行列を示す。精度行列Λs,tは、D個の分散λs,t,1
2,…,λs,t,D
2を対角成分として有するD行D列の対角行列である。本実施形態では、ソフトマスクm(x~
t)、特徴抽出関数f(y~
t)が、それぞれ第1モデルをなすDNNの一部(サブセット)として実現される。また、分散λy,t,1
2,…,λy,t,D
2、λs,t,1
2,…,λs,t,D
2もDNNからの出力値として算出されてもよい。
【0048】
【0049】
次に、第1モデルの学習について説明する。モデル学習部130は、音響特徴量xtの結合ベクトルx~
tに対する強調特徴量stの確率密度関数p(st|x~
t)の対数尤度(log-likelihood)log p(st|x~
t)が増加(最大化)するように第1モデルを学習する。確率密度p(st|x~
t)は、式(3)に示すように結合ベクトルx~
tを条件とする雑音除去音響特徴量y~
tの条件付き確率p(y~
t|x~
t)と、結合ベクトルx~
tと雑音除去音響特徴量y~
tのセットに対する強調特徴量stの条件付き確率(st|y~
t,x~
t)との畳み込み積分値となる。そのため、対数尤度log p(st|x~
t)を解析的に導出することは一般的に困難である。
【0050】
【0051】
本実施形態では、式(4)に示すように、対数尤度log p(st|x~
t)の下限が、雑音除去音響特徴量y^tが結合ベクトルx~
tを条件とする雑音除去音響特徴量y^tの条件付き変分事後確率q(y^t|x~
t)に近似され、条件付き対数尤度条件付き確率p(y^t|x~
t)と条件付き確率(st|y^t,x~
t)との積の対数値の期待値となることを利用する。式(4)において、E(…)は、…の期待値を示す。但し、式(4)では、簡単のため式(3)の雑音除去音響特徴量y~
tに代えて、予測誤差nt
yが加算されていない雑音除去音響特徴量y^tが適用されている。学習段階では、音声成分以外の雑音成分も既知であるためである。
【0052】
【0053】
従って、モデル学習部130は、式(4)の右辺で定義される数値が最大化させるように第1モデルを学習できればよい。より具体的には、モデル学習部130は、式(5)に例示されるコスト関数(cost function)Jseを最小化するように第1モデルを学習することができる。コスト関数Jseは、条件付き確率p(st|y^t,x~
t)の対数値log p(st|y^t,x~
t)と結合ベクトルx~
tを条件とする対数特徴量y-
tの条件付き確率対数値log p(st|y-
t|x~
t)との和に対し正負の符号を反転させた値に相当する。式(5)は、式(4)の右辺において、条件付き変分事後確率q(y^t|x~
t)がデルタ関数であることを仮定して導出される。対数特徴量y-
tは、雑音除去音響特徴量y^tの絶対値に対する対数値に相当する。条件付き確率対数値log p(st|y-
t|x~
t)は、ソフトマスクの学習を促進する。ここで、条件付き確率p(st|y^t,x~
t)、p(st|y-
t|x~
t)は多次元ガウス関数と仮定されてもよい。その場合、モデル学習部130は、学習済みの条件付き確率p(st|y^t,x~
t)の平均値を関数値f(y^t)と定め、その分散を定めることで、多次元ガウス関数N(f(y^t),Λs,t
-1(y^t,z~
t))を定義することができる。Λs,t
-1(y^t,z~
t)は、精度行列の逆行列Λs,t
-1(y^t,z~
t)を示す。この関数値f(y^t)は、第1モデルに基づく演算過程において得られる。モデル学習部130は、第1モデルからの出力である強調特徴量の相関行列に対してLU分解を行って精度行列Λs,tを算出することができる。
【0054】
【0055】
(サンプリング処理部の具体例)
次に、本実施形態に係るサンプリング処理部118の具体例について、第2モデルと第4モデルとの関係を含めて説明する。
サンプリング処理部118は、第3モデルとして、発話別エビデンスモデル(utterance-wise evidence model)に基づいて隠れ状態特徴量系列h1:T’を定め、発話処理部122に対し隠れ状態特徴量系列h1:T’に基づいて発話内容の候補の事後確率を算出させることができる。隠れ状態特徴量系列h1:T’は、式(6)に示すように、エンコーダネットワークをなす第2モデルを用いることで、発話区間における強調特徴量系列z1:Tから推定することができる。T’は、発話区間内における隠れ状態特徴量のフレーム数を示す。フレーム数T’は、第3モデルをなすエンコーダネットワークの構成に依存し、その発話区間における隠れ状態特徴量系列z1:Tのフレーム数Tと等しくなることも、より少なくなることもある。
【0056】
【0057】
発話別エビデンスモデルによる隠れ状態特徴量系列h1:T’の推定は、式(7)のように定式化される。式(7)によれば、発話区間における強調特徴量系列s1:Tに対する隠れ状態特徴量の系列h1:T’(s1:T)の期待値が、目標特徴量系列z1:Tに対する隠れ状態特徴量の系列h1:T’(z1:T)と目標特徴量系列z1:Tに対する発話別エビデンスモデルによる確率分布(以下、「モデル確率分布」と呼ぶことがある)ε(z1:T;Θ)との畳み込み積分値で表される。Θは、モデル確率分布のパラメータセットを示す。
【0058】
【0059】
発話区間における目標特徴量系列にわたる積分演算は極めて演算量が多くなるため一般に困難である。モデル確率分布は、目標特徴量系列を表す高次元空間(D×T次元)で定義されるためである。本実施形態に係るサンプリング処理部118は、準モンテカルロ近似(Monte-Carlo-like approximation)を適用し、モデル確率分布ε(z1:T;Θ)に従って目標特徴量系列z1:Tのサンプル値{z1:T
(n)}nを、疑似乱数を用い複数回ランダムに抽出する。
【0060】
図3の例では、サンプリング処理部118は、抽出した強調特徴量系列z
1:Tのサンプル値に対する隠れ状態特徴量系列のサンプル値{h
1:T’
(n)}
nを隠れ状態処理部120に推定させる。サンプリング処理部118は、隠れ状態特徴量系列のサンプル値{h
1:T’
(n)}
nの平均値を隠れ状態特徴量系列の期待値E〔h
1:T‘〕として算出する。サンプリング処理部118は、算出した隠れ状態特徴量系列の期待値E〔h
1:T‘〕を発話処理部122に出力し、第4モデルを用いて発話内容を推定させる。
【0061】
図3に例示されるように、第4モデルがアテンションデコーダネットワーク122aとCTCデコーダネットワーク122cを含んで構成される場合、両者において隠れ状態特徴量系列の期待値E〔h
1:T‘〕が用いられる。アテンションデコーダネットワーク122aとCTCデコーダネットワーク122cは、それぞれ発話内容の候補ごとに事後確率p
att(c
1:L|E〔h
1:T‘〕)、p
ctc(c
1:L|E〔h
1:T‘〕)を算出する。そして、発話処理部122の発話内容推定部122dは、式(8)に例示される事後確率p
att(c
1:L|E〔h
1:T‘〕)の対数値と事後確率p
ctc(c
1:L|E〔h
1:T‘〕)の対数値の加重和を発話内容の候補ごとに音声認識スコアJ
asrとして算出する。発話内容推定部122dは、音声認識スコアJ
asrが最大となる発話内容の候補を発話内容として推定することができる。式(8)において、w
1、w
2は、それぞれ0以上1以下の予め定めた実数値であり、それらの和が1となるように正規化される。
【0062】
【0063】
上記の例では、アテンションデコーダネットワーク122aとCTCデコーダネットワーク122cのいずれにも隠れ状態特徴量系列の期待値E〔h
1:T‘〕が入力される場合を仮定したが、これには限られない。
図5に例示されるように、アテンションデコーダネットワーク122aに隠れ状態特徴量系列の期待値E〔h
1:T‘〕が入力され、CTCデコーダネットワーク122cに隠れ状態特徴量系列のサンプル値{h
1:T’
(n)}
nが入力されてもよい。その場合、CTCデコーダネットワーク122cから事後確率のサンプル値p
ctc(c
1:L|{h
1:T’
(n)}
n)がサンプルおよび発話内容の候補ごとに出力される。発話内容推定部122dは、事後確率のサンプル値p
ctc(c
1:L|{h
1:T’
(n)}
n)のサンプル間の平均値を事後確率の期待値E〔p
ctc(c
1:L|h
1:T’)〕として算出することができる。発話内容推定部122dは、事後確率の期待値E〔p
ctc(c
1:L|h
1:T’)〕を式(8)の事後確率p
ctc(c
1:L|E〔h
1:T‘〕)に代入し、音声認識スコアJ
asrを算出することができる。よって、発話内容推定部122dは、音声認識スコアJ
asrが最大となる発話内容の候補を発話内容として推定することができる。
【0064】
図5の例は、発話別エビデンスモデルによるCTCデコーダネットワークによる事後確率p
ctcの推定は、式(9)に例示される関係に基づく。式(9)は、発話区間における隠れ状態特徴量系列h
1:T’の発話内容の候補をなすラベル列c
1:LのCTCデコーダネットワークによる事後確率p
ctc(c
1:L|h
1:T’)の期待値が、目標特徴量の系列z
1:Tに対する隠れ状態特徴量系列h
1:T’(z
1:T)を条件とするラベル列c
1:LのCTCデコーダネットワークによる事後確率p
ctc(c
1:L|h
1:T’(z
1:T))とモデル確率密度分布ε(z
1:T;Θ)との畳み込み積分値に相当することを示す。
【0065】
【0066】
次に、本実施形態に係る第3モデルの例について説明する。
第3モデルの第1例では、第3モデルに係るモデル確率分布が、音声特徴量系列と強調特徴量系列のセットと目標特徴量系列との対応関係を示す潜在変数(latent variable)を用いて表される。この潜在変数を用いて、モデル確率分布がより低い次元で表現される
より具体的には、目標特徴量系列を強調特徴量系列と音響特徴量系列との加重和とする仮定のもとで、モデル確率分布が強調特徴量系列と音響特徴量系列との比率を潜在変数とする確率分布として表現される。その場合、サンプリング処理部118は、サンプリングにおいてモデル確率分布から比率のサンプル値を抽出する。サンプリング処理部118は、抽出した比率のサンプル値に従って強調特徴量系列と音響特徴量系列の加重和を目標特徴量系列のサンプル値として算出することができる。
【0067】
図4は、本例における強調特徴量系列、音響特徴量系列、目標特徴量系列および比率αとの対応関係を表すグラフである。
図4において、s
t,d、u
t,d、z
t,dは、それぞれフレームt、次元dに係る強調特徴量、音響特徴量および目標特徴量の要素を示す。T、Dは、それぞれ発話区間におけるフレーム数、個々の特徴量の次元数を示す。αは、比率を示す。個々の矢印は、その起点に示される情報と終点に示される情報とのその順序での関連性を示す。即ち、
図4は、強調特徴量系列の全体、音響特徴量系列の全体および比率αから目標特徴量系列が与えられることを示す。
モデル確率分布ε(z
1:T|α)は、式(10)に例示されるように、比率αの確率分布p(α)と比率αを条件とする目標特徴量系列z
1:Tの条件付き確率分布ε
U(z
1:T|α)として表される。
【0068】
【0069】
強調特徴量系列と音響特徴量系列のそれぞれの比率は、非負の実数値であり、それぞれの和は、1に正規化されてもよい。その場合、上記の加重和は加重平均に相当し、潜在変数をなす比率は、1個の変数で表現することができる。1個の変数αが音響特徴量系列に対する比率を示す場合、強調特徴量系列に対する比率は、1-αと定まる。比率αの値域をなす最小値、最大値は、それぞれ0、1とし、確率分布p(α)を、比率αに対する確率密度を1とし、それ以外の比率αに対する確率密度を0とする一様分布(uniform distribution)と仮定されてもよい。その場合、条件付き確率分布εU(z1:T|α)は、目標特徴量系列から強調特徴量系列と音響特徴量系列との加重和の差分値に対するディラックのデルタ関数(Dirac’s Delta、本願では「デルタ関数」と呼ぶことがある)として表される。これらの仮定のもとでは、式(10)は式(11)のように変形することができる。式(11)において、εUは、値域[0,1]に対する一様分布を示す。εδは、デルタ関数を示し、フレームおよび次元ごとのスカラー値に対して定義されている。式(11)に示すフレームtおよび次元dを跨ぐ乗算は、発話区間内の目標特徴量全体に対するデルタ関数を与えるためになされる。
【0070】
【0071】
次に、本実施形態に係る第3モデルの第2例について説明する。第2例に係るモデル確率分布は、目標特徴量系列が強調特徴量系列と等しくなる可能性を示す第1確率分布と、目標特徴量系列が強調特徴量系列から分散する確率分布である第2確率分布とを有する。第1確率分布は、音声強調部114により得られた強調特徴量が音声認識処理にそのままされる度合いを示す。第2確率分布は、強調特徴量が音声強調部114により得られた強調特徴量から逸脱する度合いを示す。これにより、音声強調部114により得られた強調特徴量を真の強調特徴量として信頼できる度合いが考慮される。
【0072】
モデル確率分布は、第1確率分布と第2確率分布との加重平均で表されてもよい。式(12)に例示されるモデル確率分布εp-,U-(z1:T;Θ)では、第1確率分布は、フレームtごとの目標特徴量の事後分布pse(zt)のフレーム間の積となり、目標特徴量の事後確率pse(zt)が強調特徴量の事後確率pse(st)に相当するとの仮定に基づく。事後確率pse(st)として、第1モデルの学習により得られる条件付き確率p(st|y^t,x~
t)を利用することができる。
【0073】
式(12)において、πは、第1確率分布に対する重み係数(mixture weight)である。1-πは、第2確率分布に対する重み係数である。この例では、第1確率分布と第2確率分布のそれぞれに対する重み係数の和が1となるように正規化されている。重み係数πは、0より大きく1より小さい実数値である。重み係数πは、予め定められていてもよい。第2確率分布εU(z1:T)として、一様分布が適用されてもよい。一様分布を与える個々の目標特徴量の値域は、その要素値ごとに予め定められてもよい。
【0074】
【0075】
なお、モデル学習部130は、第3モデルを構成する各種のパラメータの一部または全部を、モデル学習を行って定めてもよい。その際、音声認識装置10への入力データとして、ある発話区間における混合信号を入力し、音声強調部114から得られる出力データとしてから導出される強調特徴量の確率分布を目標特徴量の確率分布として導出することができる。混合信号として、既知の音声信号と非音声信号とを混合して制作しておく。目標特徴量の確率分布は、第1モデルの学習の過程において取得することができる。混合前の音声信号に対する音響特徴量が、理想的な強調特徴量となり、音声強調により現実に得られる強調特徴量は誤差を伴うため、統計的な分布を有する。
そして、モデル学習部130は、第3モデルの各例に係る確率分布と導出した確率分布との差分の大きさが少なくなるように再帰的に各種のパラメータを定めることができる。差分の大きさを示す損失関数として、例えば、ワッサースタイン計量(Wasserstein metric)、を用いることができる。
【0076】
次に、本実施形態に係る第3モデルの第3例について説明する。式(13)に例示されるモデル確率分布も、第1確率分布と第2確率分布との加重平均で表される。第1確率分布は、第1確率分布が目標特徴量系列から強調特徴量系列の差分に対するデルタ関数である。即ち、第1確率分布が、目標特徴量系列が強調特徴量系列となる度合いを示す。εδは、式(11)の例と同様にフレームおよび次元ごとのスカラー値に対して定義されている。式(13)に示すフレームtおよび次元dを跨ぐ乗算は、デルタ関数が発話区間内の各フレームの目標特徴量をなす個々の要素に対して定義されていることによる。なお、式(13)に示す第2確率分布は、式(12)に示すものと同様である。
【0077】
【0078】
次に、本実施形態に係る音声認識処理の第1例について説明する。
図6は、本実施形態に係る音声認識処理の第1例を示すフローチャートである。
図6の例では、発話処理部122が
図3に例示される構成を有する場合を前提とする。
(ステップS102)特徴分析部112は、入力音声信号の音響特性を示す音響特徴量をフレームごとに分析する。
(ステップS104)音声強調部114は、第1モデルを用いてフレームごとに取得される音響特徴量に対して音声強調処理を行い、音声成分が強調された強調特徴量を定める。
(ステップS106)発話区間処理部116は、フレームごとの音響特性に基づいて公知の音声検出法を用い、複数のフレームからなる発話区間を判定する。
【0079】
サンプリング処理部118は、判定された発話区間内の強調特徴量からなる強調特徴量系列を構成し、音声特徴量からなる音声特徴量系列を構成する。サンプリング処理部118は、第3モデルに従って、構成した強調特徴量系列と音声特徴量系列に対応する目標特徴量系列の確率分布を定める。サンプリング処理部118は、ステップS108とステップS110の処理がN回繰り返し、N回の繰り返しが終了した後、ステップS112の処理に進む。Nは、2以上の予め定めた整数値である。本願では、Nを「サンプル数」と呼ぶことがある。
【0080】
(ステップS108)サンプリング処理部118は、定めた確率分布を用いて目標特徴量系列のサンプル値をサンプリングする。
(ステップS110)サンプリング処理部118は、隠れ状態処理部120に対し、第2モデルを用いてサンプリングされた目標特徴量系列のサンプル値に対する隠れ状態特徴量系列のサンプル値を算出させる。
【0081】
(ステップS112)サンプリング処理部118は、N個の隠れ状態特徴量系列のサンプル値の平均値を隠れ状態特徴量系列の期待値として算出する。
(ステップS114)発話処理部122は、第4モデルを用いて、発話内容の候補ごとに、隠れ状態特徴量系列の期待値に対する事後確率を算出する。発話処理部122は、算出した事後確率が最大となる発話内容の候補を発話区間における発話内容として推定する。その後、
図6の処理を終了する。
【0082】
次に、本実施形態に係る音声認識処理の第2例について、第1例との差異点を主として説明する。第1例との共通点については、特に言及しない限り、その説明を援用する。
図7は、本実施形態に係る音声認識処理の第2例を示すフローチャートである。
図7の例では、発話処理部122が
図5に例示される構成を有する場合を前提とする。
図7の処理は、ステップS102~S112の処理と、ステップS122~S128の処理を有する。
【0083】
ステップS102~S106の処理が終了した後、サンプリング処理部118は、上記のように第3モデルに従って確率分布を定める。サンプリング処理部118は、ステップS108、S110およびS122の処理をN回繰り返し、N回の繰り返しが終了した後、ステップS112の処理に進む。
(ステップS122)サンプリング処理部118は、隠れ状態特徴系列のサンプル値を発話処理部122のCTCデコーダネットワーク122cに出力し、発話内容の候補ごとに事後確率のサンプル値をCTC事後確率サンプル値として算出させる。
【0084】
ステップS112の処理が終了した後、ステップS124の処理に進む。
(ステップS124)発話処理部122のアテンションデコーダネットワーク122aは、発話内容の候補ごとに隠れ状態特徴量系列の期待値に対する事後確率の期待値をアテンション事後確率期待値として算出する。
(ステップS126)発話処理部122の発話内容推定部122dは、発話内容の候補ごとにCTC事後確率サンプル値の平均値をCTC事後確率期待値として算出する。
(ステップS128)発話処理部122は、発話内容の候補ごとに、アテンション事後確率期待値とCTC事後確率期待値との加重平均値を音声認識スコアとして算出する。発話処理部122は、算出した音声認識スコアが最大となる発話内容の候補を発話区間における発話内容として推定する。その後、
図7の処理を終了する。
【0085】
上記の説明では、サンプリング処理部118が、モデル確率分布からN回のサンプリングにより得られるN個の目標特徴量系列のサンプル値を取得する場合を主とした。モデル確率分布が第1確率分布と第2確率分布との加重平均で表される場合、サンプリング処理部118は、モデル確率分布に代え第1確率分布からπN回目標特徴量系列のサンプル値を第1種目標特徴量系列としてサンプリングし、第2確率分布から(1-π)N回目標特徴量系列のサンプル値を第2種目標特徴量系列としてサンプリングしてもよい。
【0086】
サンプリング処理部118は、πN個の第1種目標特徴量系列のサンプル値と(1-π)N個の第2種目標特徴量系列のサンプル値のそれぞれに対する計N個の隠れ状態特徴量系列のサンプル値を隠れ状態処理部120に取得させる。サンプリング処理部118は、取得したN個の隠れ状態特徴量系列のサンプル値の平均値を隠れ状態特徴量系列の期待値として算出することができる。Nが十分に大きい場合には、得られる期待値は、モデル確率分布からサンプリングされた目標特徴量系列のサンプル値に基づく隠れ状態特徴量系列のサンプル値の平均値に近似する。算出した隠れ状態特徴量系列の期待値は、上記のように発話処理部122における発話内容の推定に用いられる。
【0087】
また、発話処理部122が
図5に例示される構成を有する場合、N個の隠れ状態特徴量系列のサンプル値は、個々の発話内容の候補について、CTCデコーダネットワーク122cによりN個の事後確率のサンプル値の算出に用いられてもよい。得られたN個の事後確率のサンプル値の平均値は、事後確率の期待値として用いられる。
【0088】
図6に例示されるステップS108、S110の処理、または、
図7に例示されるステップS108、S110およびS122の処理は、上記のようにサンプルごとに繰り返されてもよいし、サンプル間で並列に実行されてもよい。並列の処理は、プロセッサ152により提供される複数の演算資源を用いて分担されてもよい。演算資源の単位は、ソフトウェア的に定義されたものでもよいし、ハードウェア的に定義されたものでもよい。例えば、繰り返し処理または並列処理は、GPUにより実行され、その他の処理はCPUにより実行されてもよい。並列処理がGPUにより実行される場合には、1個以上の予め定めた個数のサンプルの処理に係るデータが、GPUミニバッチを用いて区分されてもよい。これにより、コンピュータシステムにおける演算資源の能力が発揮され、処理を高速化することができる。
【0089】
(実験例)
次に、本実施形態に係る音声認識装置10に対して実施した実験例について説明する。本実施形態の有効性を評価するため、本実施形態による音声認識率と他の手法による音声認識率とを比較した。
【0090】
実験では、日本語話し言葉コーパス(CSJ:Corpus of Spontaneous Japanese)から抽出した音声データとPSE(ProSoundEffects)効果音コーパスから抽出した非音声データを用いた。訓練データとして、約230時間の学術講演発表の音声データを用いた。テストセットとして、CSJの3個の公式評価セットeval1、eval2、eval3を用いた。訓練データの全長は、5時間となる。個々の音声データを、発話ごとに区分した。テストセットは、一連の音声認識処理に用いた。音声認識処理は、音声強調あり、なしのいずれについても実行した。PSE効果音コーパスには、環境音、動物の鳴き声、楽音、などの非音声データが含まれる。音声強調処理に係る第1モデルに対する訓練データ、第2モデルならびに第4モデルに対する訓練データ、および、テストセットには、いずれも雑音を適用した。その他、テストセットと訓練データとは別個の評価セットを準備した。なお、音声データのサンプリング周波数をいずれも16kHzとした。
【0091】
音声認識処理に係る第2モデルおよび第4モデルに対する訓練データとして、クリーン音声と残響音声を用いた。残響音声は、実験室内で測定したインパルス応答を用いてクリーン音声に対して畳み込み演算を行って生成した。第2モデルおよび第4モデルは、残響音声を訓練データとして用いることで、残響および雑音に対して頑健に学習され、評価に用いた。
【0092】
音声強調に係る第1モデルに対する訓練データとして、クリーン音声と非音声の混合データを用いた。混合データを、CSJからの個々の音声データには、PSE効果音コーパスからランダムに選択した非音声データを加算して生成した。音声データと非音声データとの混合に係る信号雑音比(SNR:Signal-to-Noise)を、-5、0、5、10、15の5通りのいずれかとなるように個々の音声データごとにランダムに選択した。テストセットも、第1モデルに対する訓練データと同様にクリーン音声と非音声を混合して生成した。但し、第1モデルに対する訓練データの生成に用いられなかった非音声データを音声データと混合した。また、SNRを、-5、0、5、10の4通りのいずれかとなるように個々の音声データごとにランダムに選択した。
【0093】
音声認識に係る第2モデルおよび第4モデルとして、ESPnet(End-to-End Speech Processing Toolkit)を用いた。ESPnetは、オープンソースのトランスフォーマエンコーダ・デコーダ型の音声認識モデルの一例である。ESPnetでは、フレーム長は512点、シフト長は128である。第2モデルに加える音声特徴量として80次元のメルフィルタバンクが適用される。
【0094】
音声強調に係る第1モデルを、PyTorchライブラリを用いて制作した。PyTorchは、オープンソースの機械学習ライブラリの一例である。ソフトマスクmと精度行列Λy,t、Λs,tの推論のために、同一の構成を有するニューラルネットワークを用いた。個々のニューラルネットワークは、80次元のフィルタバンクネットワーク(filterbank)、検出力活性化関数(power activation function)、絶対活性化関数(absolute activation function)、中心フレームの前後32フレームの結合(concatenation)、層別正規化(layer-wise normalization)、シグモイド関数を伴う三層全結合ネットワーク(three-layer fully-connected networks with sigmoid function)およびドロップアウト層(dropout layer)を備える。中間層の次元数を2048とした。マスク用のニューラルネットワークの最後の層にはシグモイド関数を適用した。但し、その他のニューラルネットワークの最後の層には、何も適用せずに直前の層からの出力値を出力させた。
【0095】
第1モデルの学習では、確率的勾配降下法(stochastic gradient descent)の一種であるアダム最適化を用い、勾配クリッピング(gradient clipping)を適用した。第1モデルをなすパラメータセットは、発話ごとに更新した。学習率(learning rate)を1.0×10-4とした。パラメータセットの更新回数を50エポックとした。この更新回数のもとで評価セットに対する性能が最良となった。
【0096】
なお、第4モデルに対するパラメータの設定値として、発話内容の推定に係るサンプリングパラメータを除き公知のESPnet CSJレシピー(recipe)に記載のものを用いた。具体的には、ビームサイズを20とし、CTCデコーダネットワーク、アテンションデコーダネットワーク、言語モデルそれぞれに対する重み係数を0.3、0.7、0.3とした。また、サンプル数Nを、16、32、64、128の4通りとし、第1確率分布に対する重み係数πを0.25とした。
【0097】
実験結果として、音声強調に関する手法およびテストセットとSNRの組ごとに文字誤り率(CER:character error rate)を集計した。CERは、正解語数に対する挿入語数と置換語数と削除語数の総和の比に相当する。CERが小さいほど音声認識の性能が良好であることを示す。実験結果の集計において、発話ごとの認識結果となる文字列(character sequence)に対して文字列からなる既存のテキストと照合し、挿入語、置換語句、および、削除語の有無を検出した。テストセットeval1、eval2、eval3における全語数は115,745語である。
【0098】
図8は、実験結果を例示する一覧表である。各行において、手法を示す。「処理なし」とは、音声強調処理を行わなかったことを示す。「クリーンモデル」とは、クリーン音声を用いた場合、「クリーンモデル」と表記されていない行は残響音声を用いた場合を示す。「音声強調のみ」とは、音声強調による強調特徴量をそのまま音声認識処理に用いた場合を示す。「フレーム別モデル」とは、
図9に示す比較例のようにフレームごとに構成された確率的エビデンスモデルを用いて得られた目標特徴量を音声認識処理に用いた場合を示す。ここでは、式(14)に示されるモデル確率分布を用いてフレームごとに目標特徴量をサンプリングした。式(14)のモデル確率分布は、フレームごとの目標特徴量の事後確率p
se(z
t)の積で与えられる。このモデル確率分布は、式(12)の右辺の第1項に示される第1確率分布に相当する。前述のように事後確率p
se(z
t)は多次元ガウス関数を用いて表される。
【0099】
【0100】
なお、
図9の比較例でも、エンコーダからの出力となる隠れ状態特徴量のサンプル値を平均化して期待値を算出してもよいし、デコーダからの出力となる事後確率もしくは音声認識スコアのサンプル値を平均化して期待値を算出してもよい。実験では、隠れ状態特徴量のサンプル値を平均化し、その期待値を算出した。算出した隠れ状態の特徴量がデコーダへの入力となる。
【0101】
図8に戻り、本実施形態の「一様」とは、上記の第3モデルの第1例、つまり、式(11)のモデル確率分布を用いた場合に相当する。「デルタ+一様」とは、上記の第3モデルの第3例、つまり、式(13)のモデル確率分布を用いた場合に相当する。「ガウス+一様」とは、上記の第3モデルの第2例、つまり、式(12)のモデル確率分布を用いた場合に相当する。
【0102】
フレーム別モデル、本実施形態に対しては、実験条件としてのサンプル数Nと期待値の種別が示されている。「CTC」の列の「enc」とは、エンコーダ側で取得される期待値が用いられる場合、即ち、隠れ状態特徴量系列の期待値がCTCデコーダネットワークに入力される場合を示す。「prob」とは、デコーダ側で取得される期待値が用いられる場合、即ち、CTCデコーダネットワークからの事後確率のサンプル値に基づいてCTC事後確率の期待値を用いて音声認識スコアが算出される場合を示す。「Atten」とは、アテンションデコーダネットワークを示す。実験では、いずれの場合も「enc」、即ち、隠れ状態特徴量系列の期待値をアテンションデコーダネットワークに入力した。
【0103】
図8の各列のeval1、eval2、eval3は、テストセットを示す。各テストセットについて、4通りのSNRに対するCERが示されている。平均の列は、テストセットおよびSNR間のCERの平均値を示す。
【0104】
図8に例示される実験結果によれば、本実施形態によるCERが他の手法によるCERよりも有意に小さくなった。CERは、本実施形態、音声強調のみ、フレーム別モデル、処理なしの順で増加する。本実施形態のうちガウス+一様、サンプル数Nが128であり、CTC、Attenをいずれもencとした場合についてCERが全体として最も低くなった。但し、テストセットeval1であってSNRが10dBの場合には、ガウス+一様、サンプル数Nが128であり、CTC、Attenをそれぞれprob、encとした場合、CERが最も低くなった。テストセットeval3であってSNRが-5dBの場合には、一様、サンプル数Nが16であり、CTC、Attenをいずれもencとした場合、CTC、Attenをいずれもencとした場合と同率でCERが最も低くなった。テストセットeval3であってSNRが10dBの場合には、一様、サンプル数Nが128であり、CTC、Attenをそれぞれprob、encとした場合、CERが最も低くなった。
【0105】
本実施形態によるCERでは、モデル確率分布(第1例~第3例)、サンプル数Nおよび期待値のパターンの間で有意差は認められなかった。これらの間の差分は、音声強調のみに対して得られるCERとの差分よりも十分に小さい。サンプル数による有意差が認められないことは、サンプル数が比較的少ない場合でも十分な性能が得られること、第2モデルをより拡張しても極端な演算量の増加を招かないことを示す。モデル確率分布に一様関数が用いられる点で共通することを考慮すると、一様関数を用いることで音声特徴量により目標特徴量の分布を説明することができ、強調特徴量を効果的に補正できることを示す。
【0106】
また、フレーム別モデルに係るCERが音声強調のみに係るCERよりも増加する事象は、フレーム別の処理が、むしろ、音声認識に悪影響を与えることを示す。このことは、フレーム間で独立に目標特徴量がサンプリングされるため、目標特徴量系列の連続性が維持されないことが一因となりうることが裏付けられる。
【0107】
なお、本実施形態に係る音声認識装置10は、次のように変形して実現されてもよい。
図1に例示される音声認識装置10は、マイクロホン20と別体であるが、マイクロホン20を含んで構成されてもよい。
第1モデルは、上記の実験で用いられたニューラルネットワークに限られず、回帰型ニューラルネットワーク(RNN:Recurrent Neural Network)など、他の形態の学習モデルを用いて構成されてもよい。
エンコーダとなる第2モデルおよびデコーダとなる第4モデルは、トランスフォーマに限られず、RNN、コンフォーマなど、他の形態の学習モデルを用いて構成されてもよい。
【0108】
第1~第4モデルの学習は、音声認識装置10とは別個の機器により実行され、学習により得られた各モデルのパラメータセットが音声認識装置10に設定されてもよい。パラメータセットは、音声認識装置10の機能を実現するためのプログラムと対応付けて提供されてもよい。また、音声認識装置10において、モデル学習部130が省略されてもよい。
【0109】
本実施形態では、音声強調部114による音声強調処理に代え、音源分離処理が適用されてもよい。音源分離処理は、入力音声信号から複数の音源からの音源別成分を抽出する処理である。音源分離処理による、ある話者の音声成分を音源別成分として抽出する処理は、他の成分に対して相対的にその音声成分を強調する音声強調処理の一態様としてみなすこともできる。発話区間処理部116は、音源別成分ごとに発話区間検出を行い、同時に発話区間が検出された音源数を話者数として計数することができる。計数された話者数が2以上となる場合でも、検出された発話区間ごとの音源別成分に対してサンプリング処理部118、隠れ状態処理部120、および、発話処理部122が機能すればよい。
【0110】
以上に説明したように、本実施形態に係る音声認識装置10は、入力音声信号の音響特性に基づいて発話区間を定める発話区間処理部116と、第1モデルを用いて入力音声信号の音響特徴量について音声成分が強調された強調特徴量をフレームごとに定める音声強調部114と、第2モデルを用いて目標特徴量の系列である目標特徴量系列に基づいて隠れ状態特徴量の系列である隠れ状態特徴量系列を定める隠れ状態処理部120を備える。音声認識装置10は、発話区間内の強調特徴量の系列である強調特徴量系列と前記音響特徴量の系列である音響特徴量系列に対応する目標特徴量系列の確率分布を示す第3モデルを用いて当該目標特徴量系列のサンプル値を複数回(例えば、N回)サンプリングし、隠れ状態特徴量系列のサンプル値から前記隠れ状態特徴量系列の期待値を定めるサンプリング処理部118と、第4モデルを用いて隠れ状態特徴量系列の期待値に基づいて発話区間の発話内容を定める発話処理部122を備える。
この構成によれば、発話区間内の強調特徴量系列と音響特徴量系列に対応する複数の目標特徴量系列のサンプル値が得られ、複数の目標特徴量系列のサンプル値から目標特徴量系列の期待値が得られる。発話内容は、目標特徴量系列の期待値から得られる隠れ状態特徴量系列の期待値に基づいて定まる。目標特徴量系列により発話区間内の変化傾向として音響特性の連続性を表現できるため、ランダムなサンプリングによるフレーム間の音響特性の不連続性を回避できる。そのため、音響特性の不連続性による音声認識率の低下を回避することができる。また、発話区間内の目標特徴量系列のサンプリングにより、高次元化による処理量の増加を抑制することができる。
【0111】
また、目標特徴量系列を強調特徴量系列と音響特徴量系列との加重和とし、目標特徴量系列の確率分布を、強調特徴量系列と音響特徴量系列との比率の確率分布としてもよい。サンプリング処理部118は、第3モデルを用いて当該比率のサンプル値をサンプリングし、比率のサンプル値に基づいて強調特徴量系列と音響特徴量系列を合成して目標特徴量のサンプル値を算出してもよい。
この構成によれば、目標特徴量系列の確率分布が強調特徴量系列と音響特徴量系列との比率で表現できる。そのため、音声認識精度を維持しながらサンプリングに係る処理量を低減することができる。
【0112】
また、目標特徴量系列の確率分布は、目標特徴量系列が強調特徴量系列と等しくなる可能性を示す第1確率分布(例えば、デルタ関数)と、目標特徴量系列が強調特徴量系列から分散する確率分布である第2確率分布(例えば、一様関数)とを有してもよい。
この構成によれば、第1確率分布により音声成分の強調による強調特徴量系列を目標特徴量系列として採用する度合いと、第2確率分布により強調特徴量系列が目標特徴量系列から逸脱する度合いを定量化できる。使用環境による強調特徴量系列の信頼性の差異を考慮したサンプリングにより、音声認識精度を維持することができる。
【0113】
また、サンプリング処理部118は、発話区間におけるフレームごとの強調特徴量の事後確率分布(例えば、多次元ガウス関数)に基づいて第1確率分布を定めてもよい。
この構成によれば、発話区間における目標特徴量の連続性と併せて、フレームごとの強調特徴量の誤差を考慮した目標特徴量系列のサンプリングにより、音声認識精度を維持することができる。
【0114】
また、サンプリング処理部118は、第1確率分布を用いて一部の(例えば、πN個)目標特徴量系列のサンプル値を第1種目標特徴量系列のサンプル値としてサンプリングし、第2確率分布を用いて他の(例えば、(1-π)N回)目標特徴量系列のサンプル値を第2種目標特徴量系列のサンプル値としてサンプリングし、第1種目標特徴量系列のサンプル値に対する隠れ状態特徴量系列のサンプル値と第2種目標特徴量系列のサンプル値に対する隠れ状態特徴量系列のサンプル値との平均値を前記隠れ状態特徴量系列の期待値として定めてもよい。
この構成によれば、目標特徴量系列のサンプル値のサンプリングにおいてサンプルごとに第1確率分布と第2確率分布が使い分けられる。サンプルごとの第1確率分布と第2確率分布との加算を回避することで処理量を低減できる。また、サンプル間で処理を並行することで演算資源を有効に活用することができる。
【0115】
第4モデルは、アテンションデコーダ(例えば、アテンションデコーダネットワーク122a)とCTCデコーダ(例えば、CTCデコーダネットワーク122c)を備えてもよい。アテンションデコーダは、隠れ状態特徴量系列の期待値に対する発話内容の候補ごとに第1事後確率(例えば、アテンション事後確率期待値)を算出し、CTCデコーダは、隠れ状態特徴量系列のサンプル値に対する発話内容の候補ごとに第2事後確率のサンプル値(例えば、CTC事後確率サンプル値)を算出し、発話内容の候補ごとに第2事後確率のサンプル値の期待値を第2事後確率(例えば、CTC事後確率期待値)として算出し、第1事後確率と第2事後確率を合成したスコア(例えば、音声認識スコア)に基づいて発話内容を定めてもよい。
この構成によれば、CTCデコーダには隠れ状態特徴系列のサンプルが入力され、第2事後確率のサンプル値が出力される。サンプルごとの処理にアテンションデコーダとは独立になされるCTCデコーダの処理を含めることで、演算資源の活用をさらに図ることができる。
【0116】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。即ち、上記の開示は特定の例を含むものであり、本明細書、図面、請求の範囲から種々の変形が明らかであり、開示の範囲に限定されるべきではない。
【符号の説明】
【0117】
10…音声認識装置、20…マイクロホン、110…制御部、112…特徴分析部、114…音声強調部、116…発話区間処理部、118…サンプリング処理部、120…隠れ状態処理部、122…発話処理部、130…モデル学習部、152…プロセッサ、156…ドライブ部、158…入力部、160…出力部、162…ROM、164…RAM、166…補助記憶部、168…インタフェース部