(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-07-07
(54)【発明の名称】音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
(51)【国際特許分類】
G10L 15/16 20060101AFI20220630BHJP
G06N 20/00 20190101ALI20220630BHJP
G06N 3/08 20060101ALI20220630BHJP
G10L 15/20 20060101ALI20220630BHJP
G10L 21/0272 20130101ALI20220630BHJP
G10L 25/18 20130101ALI20220630BHJP
【FI】
G10L15/16
G06N20/00
G06N3/08
G10L15/20 370Z
G10L21/0272 100Z
G10L25/18
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021564425
(86)(22)【出願日】2020-08-24
(85)【翻訳文提出日】2021-11-02
(86)【国際出願番号】 CN2020110742
(87)【国際公開番号】W WO2021043015
(87)【国際公開日】2021-03-11
(31)【優先権主張番号】201910838469.5
(32)【優先日】2019-09-05
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】514187420
【氏名又は名称】テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ワン,ジュン
(72)【発明者】
【氏名】ラム,ウィン イップ
(72)【発明者】
【氏名】スゥ,ダン
(72)【発明者】
【氏名】ユィ,ドン
(57)【要約】
本開示は、音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置を提供し、人工知能の技術分野に関する。当該ニューラルネットワークの訓練方法は、電子機器により実行されるものであり、混合音声スペクトル及びそのラベル付けされた音素を含むサンプルデータを取得することと、第1のサブネットワークによって、混合音声スペクトルから目的音声スペクトルを抽出することと、第2のサブネットワークによって、前記目的音声スペクトルを適応変換し、中間遷移表現を得ることと、第3のサブネットワークによって、前記中間遷移表現に基づいて音素認識を行うことと、前記音素認識の結果及び前記ラベル付けされた音素により、前記第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークのパラメータを更新することと、を含む。
【特許請求の範囲】
【請求項1】
電子機器により実行される、音声認識を実現するニューラルネットワークの訓練方法であって、前記ニューラルネットワークは、第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークを含み、前記方法は、
混合音声スペクトル及びそのラベル付けされた音素を含むサンプルデータを取得するステップと、
前記第1のサブネットワークによって、混合音声スペクトルから目的音声スペクトルを抽出するステップと、
前記第2のサブネットワークによって、前記目的音声スペクトルを適応変換し、中間遷移表現を得るステップと、
前記第3のサブネットワークによって、前記中間遷移表現に基づいて音素認識を行うステップと、
前記音素認識の結果及び前記ラベル付けされた音素により、前記第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークのパラメータを更新するステップと、
を含むニューラルネットワークの訓練方法。
【請求項2】
第1のサブネットワークによって、混合音声スペクトルから目的音声スペクトルを抽出するステップは、
前記混合音声スペクトルを多次元ベクトル空間に埋め込み、前記混合音声スペクトルの各時間周波数の窓に対応する埋め込みベクトルを得るステップと、
理想比マスクにより、前記混合音声スペクトルの各埋め込みベクトルに重み付き正規化を行い、前記目的音声スペクトルに対応するアトラクターを得るステップと、
前記混合音声スペクトルの各埋め込みベクトルとアトラクターの間の類似度を計算することによって、前記目的音声スペクトルに対応する目的マスキング行列を得るステップと、
前記目的マスキング行列に基づいて、前記混合音声スペクトルから前記目的音声スペクトルを抽出するステップと、
を含む請求項1に記載のニューラルネットワークの訓練方法。
【請求項3】
各前記サンプルデータに対応する前記アトラクターを取得し、各前記アトラクターの平均値を計算し、大域的アトラクターを得るステップ、
をさらに含む請求項2に記載のニューラルネットワークの訓練方法。
【請求項4】
前記第2のサブネットワークによって、前記目的音声スペクトルを適応変換するステップは、
前記目的音声スペクトルの時間周波数の窓シーケンスに応じて、各時間周波数の窓の目的音声スペクトルを順次に適応変換するステップを含み、
一つの前記時間周波数の窓に対する変換プロセスは、
現在変換プロセスの対象となる時間周波数の窓の目的音声スペクトル及び1つ前の変換プロセスの隠れ状態情報により、現在変換プロセスの隠れ状態情報を生成するステップと、
各前記隠れ状態情報に基づいて、現在変換プロセスの対象となる時間周波数の窓の前記中間遷移表現を得るステップと、
を含む請求項1~3のいずれか1項に記載のニューラルネットワークの訓練方法。
【請求項5】
現在変換プロセスの隠れ状態情報を生成するステップは、
現在時間周波数の窓の目的音声スペクトル及び1つ前の変換プロセスの隠れ状態情報により、候補状態情報、前記候補状態情報の入力重み、1つ前の変換プロセスの目的状態情報の忘却重み、及び現在変換プロセスの目的状態情報の出力重みを計算するステップと、
前記忘却重みにより、前記1つ前の変換プロセスの目的状態情報を保留し、第1の中間状態情報を得るステップと、
前記候補状態情報の入力重みにより、前記候補状態情報を保留し、第2の中間状態情報を得るステップと、
前記第1の中間状態情報及び第2の中間状態情報により、前記現在変換プロセスの目的状態情報を得るステップと、
前記現在変換プロセスの目的状態情報の出力重みにより、前記現在変換プロセスの目的状態情報を保留し、現在変換プロセスの隠れ状態情報を得るステップと、
を含む請求項4に記載のニューラルネットワークの訓練方法。
【請求項6】
各前記隠れ状態情報に基づいて、現在変換プロセスの対象となる時間周波数の窓の前記中間遷移表現を得るステップは、
各前記隠れ状態情報に、
非負写像と、要素ごとに対数の演算と、1階差分の計算と、2階差分の計算と、グローバル平均分散正規化の実行と、前後の時間周波数の窓の特徴の追加とのうちの1つ又は複数の処理を行い、現在変換プロセスの対象となる時間周波数の窓の前記中間遷移表現を得るステップ、
を含む請求項4に記載のニューラルネットワークの訓練方法。
【請求項7】
第3のサブネットワークによって、前記中間遷移表現に基づいて音素認識を行うステップは、
少なくとも1つの畳み込み層により多次元フィルターを前記中間遷移表現に応用し、畳み込み層の出力を生成するステップと、
少なくとも1つのリカレント層に、前記畳み込み層の出力を用い、リカレント層の出力を生成するステップと、
前記リカレント層の出力を少なくとも1つの全結合層に与え、前記全結合層の出力に非線形関数を応用し、前記中間遷移表現に含まれる音素の事後確率を得るステップと、
を含む請求項1~6のいずれか1項に記載のニューラルネットワークの訓練方法。
【請求項8】
前記リカレント層は長短期記憶ネットワークを含む、請求項7に記載のニューラルネットワークの訓練方法。
【請求項9】
前記第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークのパラメータを更新するステップは、
前記第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークのジョイント損失関数を決定するステップと、
前記音素認識の結果、前記ラベル付けされた音素及び前記ジョイント損失関数により、ジョイント損失関数の値を計算するステップと、
前記ジョイント損失関数の値に応じて、前記第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークのパラメータを更新するステップと、
を含む請求項1~7のいずれか1項に記載のニューラルネットワークの訓練方法。
【請求項10】
前記第1のサブネットワークは、覗き穴結合を持つ多層の長短期記憶ネットワークを含み、前記第2のサブネットワークは、覗き穴結合を持つ多層の長短期記憶ネットワークを含む請求項1~9のいずれか一項に記載のニューラルネットワークの訓練方法。
【請求項11】
電子機器により実行されるニューラルネットワークに基づく音声認識方法であって、前記ニューラルネットワークは、第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークを含み、前記方法は、
認識される混合音声スペクトルを取得するステップと、
前記第1のサブネットワークによって、混合音声スペクトルから目的音声スペクトルを抽出するステップと、
前記第2のサブネットワークによって、前記目的音声スペクトルを適応変換し、中間遷移表現を得るステップと、
前記第3のサブネットワークによって、前記中間遷移表現に基づいて音素認識を行うステップと、
を含む音声認識方法。
【請求項12】
請求項1~10のいずれか一項に記載のニューラルネットワークの訓練方法を実行するニューラルネットワークの訓練装置。
【請求項13】
請求項11に記載の音声認識方法を実行する音声認識装置。
【請求項14】
コンピュータに実行されると請求項1~10のいずれか一項に記載の方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、2019年9月5日に中国特許局に提出され、出願番号が201910838469.5であり、発明の名称が「音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置」である中国特許出願の優先権を求めており、その内容全体が引用により本明細書に組み込まれている。
本開示は、人工知能の技術分野に関し、具体的には、音声認識を実現するニューラルネットワークの訓練方法、音声認識を実現するニューラルネットワークの訓練装置、音声認識方法、音声認識装置、電子機器及びコンピュータ読取可能な記憶媒体に関する。
【背景技術】
【0002】
科学技術の発展とハードウェアの計算能力の著しい向上に伴い、現在、深層学習技術に基づいた音声認識が益々多くなっている。
【0003】
しかし、音響学のシーンでは、音声認識の実現は、通常、音響学のシーンの変化性によって制限される。例えば、実際の応用シーンでは、通常、モノラル音声信号が、例えば背景音楽又は複数の話者等の、非定常雑音により干渉される場合がある。
【0004】
深層学習技術の導入によって、音声認識技術は、大幅に性能が改善されたが、従来の音声認識技術は、これらの複雑な環境における性能の改善の余地がある。
【0005】
説明すべきなのは、前記背景技術に公開された情報は、本開示の背景に対する理解を深めるためのものに過ぎないので、当業者にとって既知の従来技術を構成しない情報を含んでもよい。
【発明の概要】
【0006】
本開示の実施例の目的は、音声認識を実現するニューラルネットワークの訓練方法、音声認識を実現するニューラルネットワークの訓練装置、音声認識方法、音声認識装置、電子機器及びコンピュータ読取可能な記憶媒体を提供し、さらに複雑な干渉音条件での音声認識の性能を向上可能にすることにある。
【0007】
本開示の一側面によれば、電子機器により実行される音声認識を実現するニューラルネットワークの訓練方法であって、前記ニューラルネットワークは、第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークを含み、前記方法は、
混合音声スペクトル及びそのラベル付けされた音素を含むサンプルデータを取得することと、
第1のサブネットワークによって、混合音声スペクトルから目的音声スペクトルを抽出することと、
第2のサブネットワークによって、前記目的音声スペクトルを適応変換し、中間遷移表現を得ることと、
第3のサブネットワークによって、前記中間遷移表現に基づいて音素認識を行うことと、
前記音素認識の結果及び前記ラベル付けされた音素により、前記第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークのパラメータを更新することと、
を含む音声認識を実現するニューラルネットワークの訓練方法を提供する。
【0008】
本開示の一側面によれば、電子機器により実行されるニューラルネットワークに基づく音声認識方法であって、前記ニューラルネットワークは、第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークを含み、前記方法は、
認識される混合音声スペクトルを取得することと、
第1のサブネットワークによって、混合音声スペクトルから目的音声スペクトルを抽出することと、
第2のサブネットワークによって、前記目的音声スペクトルを適応変換し、中間遷移表現を得ることと、
第3のサブネットワークによって、前記中間遷移表現に基づいて音素認識を行うことと、
を含むニューラルネットワークに基づく音声認識方法を提供する。
【0009】
本開示の一側面によれば、音声認識を実現するニューラルネットワークの訓練装置であって、前記ニューラルネットワークは、第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークを含み、前記装置は、
混合音声スペクトル及びそのラベル付けされた音素を含むサンプルデータを取得するためのデータ取得モジュールと、
第1のサブネットワークによって、混合音声スペクトルから目的音声スペクトルを抽出するための目的音声抽出モジュールと、
第2のサブネットワークによって、前記目的音声スペクトルを適応変換し、中間遷移表現を得るための適応変換モジュールと、
第3のサブネットワークによって、前記中間遷移表現に基づいて音素認識を行うための音声認識モジュールと、
前記音素認識の結果及び前記ラベル付けされた音素により、前記第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークのパラメータを更新するためのパラメータ更新モジュールと、
を含むニューラルネットワークの訓練装置を提供する。
【0010】
本開示の一側面によれば、ニューラルネットワークに基づく音声認識装置であって、前記ニューラルネットワークは、第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークを含み、前記装置は、
認識される混合音声スペクトルを取得するためのデータ取得モジュールと、
第1のサブネットワークによって、混合音声スペクトルから目的音声スペクトルを抽出するための目的音声抽出モジュールと、
第2のサブネットワークによって、前記目的音声スペクトルを適応変換し、中間遷移表現を得るための適応変換モジュールと、
第3のサブネットワークによって、前記中間遷移表現に基づいて音素認識を行うための音声認識モジュールと、
を含むニューラルネットワークの訓練装置を提供する。
【0011】
本開示の一側面によれば、プロセッサと、前記プロセッサが実行可能なコマンドを記憶するためのメモリと、を含む電子機器であって、前記プロセッサは、前記実行可能なコマンドを実行することによって、前記ニューラルネットワークの訓練方法又は音声認識方法を実行するように配置される電子機器を提供する。
【0012】
本開示の一側面によれば、プロセッサにより実行される時に前記ニューラルネットワークの訓練方法又は音声認識方法を実現するコンピュータプログラムが記憶されている、コンピュータ読取可能な記憶媒体を提供する。
【0013】
以上の一般的な説明と下記の詳細な説明は、例示的かつ解釈的なものに過ぎず、本開示を制限すべきでないことを理解すべきである。
【図面の簡単な説明】
【0014】
ここでの図面は、明細書に組み込まれ本明細書の一部を構成し、本開示に該当する実施例を示し、明細書とともに本開示の原理を解釈するために用いられる。以下に説明する図面は、本開示のいくつの実施例に過ぎず、当業者にとって、進歩性のある労働を費やすことなく、これらの図面により他の図面を得ることもできることが明らかである。
【
図1】本開示の実施例を応用可能なニューラルネットワークの訓練方法及び装置の例示的なシステム構成の模式図を示している。
【
図2】本開示の実施例の実現に適する電子機器のコンピュータシステムの構成模式図を示している。
【
図3】本開示の一実施例によるニューラルネットワークの訓練方法のフローチャートを模式的に示している。
【
図4】本開示の一実施例における目的音声スペクトルを抽出するプロセスのフローチャートを模式的に示している。
【
図5】本開示の一実施例におけるLSTMユニットの信号の流れ図を模式的に示している。
【
図6】本開示の一実施例における現在変換プロセスの隠れ状態情報を生成するフローチャートを模式的に示している。
【
図7】本開示の一実施例における音素認識のプロセスのフローチャートを模式的に示している。
【
図8】本開示の一実施例による音声認識方法のフローチャートを模式的に示している。
【
図9】本開示の一実施例による自動音声認識システムの構成図を模式的に示している。
【
図10A】本開示の一実施例における自動音声認識システムの認識効果の参照図を模式的に示している。
【
図10B】本開示の一実施例における自動音声認識システムの認識効果の参照図を模式的に示している。
【
図11】本開示の一実施例によるニューラルネットワークの訓練装置のブロック図を模式的に示している。
【
図12】本開示の一実施例による音声認識装置のブロック図を模式的に示している。
【発明を実施するための形態】
【0015】
以下、図面により例示的な実施形態をより全面的に説明する。但し、例示的な実施形態は、様々な形態で実施可能であり、ここで述べられる例に限られるものではないと理解すべきである。逆に、これらの実施形態は、本開示をより全面的かつ完全にさせ、例示的な実施形態の構想を当業者に全面的に伝えるためのものである。説明される特徴、構成又は特性は、任意適切な方式で1つ又は複数の実施形態に組み込まれることができる。以下の説明において、多くの具体的な細部を提供することにより、本開示の実施形態を十分に理解させる。しかし、当業者であれば、本開示の技術手段を実現するには、前記特定の細部のうちの1つ又は複数を省略してもよく、又は、他の方法、要素、装置、ステップ等を採用してもよいことを理解すべきである。重点を間違えて本開示の各態様を不明確にしないように、公知の技術手段を詳細に示し又は説明しない場合もある。
【0016】
また、図面は、本開示の模式的図示に過ぎず、必ずしも縮尺通りに描かれていない。図面における同一の符号は、同一の又は類似する部分を示すので、それらの重複する説明を省略する。図面に示されるいくつかのブロック図は、機能的な実体であり、必ずしも物理的又は論理的に独立する実体に対応する必要はない。これらの機能的な実体は、ソフトウェア形式で実現されてもよいし、1つ又は複数のハードウェアモジュール又は集積回路で実現されてもよいし、異なるネットワーク及び/又はプロセッサ装置及び/又はマイクロコントローラ装置で実現されてもよい。
【0017】
図1には、本開示の実施例を応用可能な音声認識を実現するニューラルネットワークの訓練方法及び装置、音声認識方法及び装置の例示的な応用環境のシステム構成の模式図が示されている。
【0018】
図1に示すように、システム構成100は、端末機器101、102、103のうちの1つ又は複数、ネットワーク104及びサーバ105を含むことができる。ネットワーク104は、端末機器101、102、103とサーバ105の間に通信リンクの媒体を提供する。ネットワーク104は、種々の接続タイプ、例えば有線、無線通信リンク又は光ケーブル等を含むことができる。端末機器101、102、103は、スマートスピーカー、スマートテレビ、スマートテレビボックス、卓上型コンピュータ、携帯型コンピュータ、スマートホーン及びタブレットパソコン等を含むことができるが、これらに限られない。
図1における端末機器、ネットワーク及びサーバの数は、あくまで例示的なものに過ぎないことを理解すべきである。実際の需要に応じて、任意の数の端末機器、ネットワーク及びサーバを有してもよい。例えば、サーバ105は、複数のサーバからなるサーバ群等であってもよい。
【0019】
本開示の実施例によるニューラルネットワークの訓練方法又は音声認識方法は、サーバ105により実行されてもよく、それに応じて、ニューラルネットワークの訓練方法又は音声認識装置は、サーバ105に設けられてもよい。本開示の実施例によるニューラルネットワークの訓練方法又は音声認識方法は、端末機器101、102、103により実行されてもよく、それに応じて、ニューラルネットワークの訓練方法又は音声認識装置は、端末機器101、102、103に設けられてもよい。本開示の実施例によるニューラルネットワークの訓練方法又は音声認識方法を、端末機器101、102、103とサーバ105がともに実行してもよく、それに応じて、ニューラルネットワークの訓練方法又は音声認識装置は、端末機器101、102、103とサーバ105に設けられてもよいが、本例示的な実施例では、これを特に限定しない。
【0020】
例えば、一例示的な実施例では、端末機器101、102、103によって、認識される混合音声データを取得した後、エンコードしサーバ105に送信し、サーバ105によって、受信された混合音声データをデコードし、そのスペクトル特徴を抽出し、混合音声スペクトルを取得し、次に、第1のサブネットワークによって、混合音声スペクトルから目的音声スペクトルを抽出し、第2のサブネットワークによって、目的音声スペクトルを適応変換し、中間遷移表現を得、第3のサブネットワークによって、中間遷移表現に基づいて音素認識を行うことができる。認識を完成した後、サーバ105は、認識結果を端末機器101、102、103に返送することができる。
【0021】
図2には、本開示の実施例の実現に適する電子機器のコンピュータシステムの構成模式図が示されている。説明すべきなのは、
図2に示されている電子機器のコンピュータシステム200は、単なる例に過ぎず、本開示の実施例の機能と使用範囲を何ら制限するものではない。
【0022】
図2に示すように、コンピュータシステム200は、リードオンリーメモリ(ROM)202に記憶されているプログラム、又は記憶部208からランダムアクセスメモリ(RAM)203にロードされるプログラムにより、種々の適切な動作と処理、例えば、以下に述べる
図3、
図4、
図6、
図7及び
図8に示されている方法を実行することができる中央処理ユニット(CPU)201を備える。RAM 203には、システムの操作に必要な各種のプログラムとデータがさらに記憶されている。CPU 201、ROM 202及びRAM 203は、バス204により互いに接続されている。バス204には、入力/出力(I/O)インターフェース205も接続されている。
【0023】
I/Oインターフェース205には、キーボード、マウス等を含む入力部206と、例えばブラウン管(CRT)や液晶ディスプレー(LCD)等及びスピーカー等を含む出力部207と、ハードディスク等を含む記憶部208と、LANカード、モデム等のネットワークインターフェースカードを含む通信部209といった部材が接続されている。通信部209は、インターネットのようなネットワークを介して通信処理を行う。ドライバ210も、必要に応じてI/Oインターフェース205に接続される。例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等のリムーバブル媒体211は、それから読み出されるコンピュータプログラムが必要に応じて記憶部208にインストールされるように、必要に応じてドライバ210に装着される。
【0024】
特に、本開示の実施例によれば、以下にフローチャートを参照して記述されるプロセスは、コンピュータソフトウェアプログラムとして実現することができる。例えば、本開示の実施例は、コンピュータ読取可能な媒体にロードされるコンピュータプログラムを含むコンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例では、当該コンピュータプログラムは、通信部209を介してネットワークからダウンロードされインストールされてもよいし、及び/又は、リムーバブル媒体211からインストールされてもよい。中央処理ユニット(CPU)201により当該コンピュータプログラムが実行されると、本開示に係る方法及び装置に限定されている種々の機能が実行される。いくつかの実施例では、コンピュータシステム200は、AI(Artificial Intelligence、人工知能)プロセッサを含んでもよく、当該AIプロセッサは、機械学習に関連する計算操作を処理するために用いられる。
【0025】
人工知能(Artificial Intelligence、AI)は、デジタルコンピュータ又はデジタルコンピュータに制御されるマシンによって人間の知能をシミュレート、延伸及び拡張し、環境をセンシングし、知識を取得し、知識により最適な結果を得る理論、方法、技術及び応用システムである。換言すると、人工知能は、知能の実質を理解し、人間の知能と同様に応答できるインテリジェントマシンを生み出そうとするコンピュータサイエンスの総合的な技術である。人工知能は、マシンがセンシング、推理及びポリシー決定という機能を持つように、種々のインテリジェントマシンの設計原理及び実現方法を研究するものである。
【0026】
人工知能技術は、総合的な学科であり、関連分野が多く、ハードウェア面での技術もあるし、ソフトウェア面での技術もある。人工知能の基礎技術は、一般的に、センサー、人工知能専用チップ、クラウド計算、分散ストレージ、ビッグデータ処理技術、オペレーティング/インタラクションシステム、メカトロニクス等の技術を含む。人工知能のソフトウェア技術は、主に、コンピュータ視覚技術、音声処理技術、自然言語処理技術及び機械学習/深層学習等のいくつかの方向を含む。
【0027】
そのうち、音声処理技術(Speech Technology)における肝心な技術としては、自動音声認識技術(ASR)、音声合成技術(TTS)及び音声指紋認識技術がある。コンピュータを、聞く、見る、話す、感じることができるようにすることは、将来のマンマシンインタラクションの発展のトレンドとなっており、そのうち音声は、最も将来性があるマンマシンインタラクションの方式の一つとして注目されている。
【0028】
本開示における技術手段は、前記音声処理技術に関する。以下、本開示の実施例の技術手段について詳細に説明する。
【0029】
混合音声の認識は、通常、音声分離段階及び音素認識段階を含む。ある関連技術では、音声分離モデルと音素認識モデルを含むカスケードフレームワークを提供し、2つの段階に対してそれぞれ個別にモジュール化した研究を行うことができるようになった。このようなモジュール化した方法では、訓練段階において音声分離モデルと音素認識モデルをそれぞれに訓練する。しかし、音声分離モデルは、処理中に信号誤差及び信号歪みの取り込みが不可避であるにもかかわらず、音素認識モデルの訓練中に、これらの信号誤差及び信号歪みを考えたことがないので、このようなカスケードフレームワークの音声認識の性能が急激に劣化してしまう。
【0030】
前記問題に基づき、発明者による解决対策としては、音声分離モデルと音素認識モデルを共同訓練し、雑音ロバスト音声認識及び複数話者音声認識タスクにおいて認識エラー率を顕著に低下させることができる。例えば、
発明者による技術手段は、音声分離段階を直接メルフィルター処理領域で操作させ、特徴領域において音素認識段階と一致させるスタンドアロンフレームワークを提供した。しかし、音声分離段階は通常、メルフィルター処理領域で実現されないので、当該技術手段によって、好適な音声分離の結果を得ることができない恐れがある。なお、音声分離のアルゴリズムの進化しつつあり、このようなスタンドアロンフレームワークでは、サードパーティのアルゴリズムを迅速かつ柔軟に統合することが難しい。発明者による別の技術手段は、深層ニューラルネットワークを用いてメルフィルターフレームバイフレームアフィン変換関数を学習する共同フレームワークを提供した。しかし、当該方法では、複雑な動的問題を効果的にモデル化することが難しく、さらに、複雑な干渉音条件での音声認識タスクを扱うことが困難である。
【0031】
前記1つ又は複数の問題に基づき、本例示的な実施形態では、音声認識を実現するニューラルネットワークの訓練方法を提供する。当該ニューラルネットワークの訓練方法は、前記サーバ105に応用することができ、前記端末機器101、102、103のうちの1つ又は複数に応用することもできる。
図3に示すように、当該音声認識を実現するニューラルネットワークの訓練方法は、
混合音声スペクトル及びそのラベル付けされた音素を含むサンプルデータを取得するステップS310と、
第1のサブネットワークによって、混合音声スペクトルから目的音声スペクトルを抽出するステップS320と、
第2のサブネットワークによって、前記目的音声スペクトルを適応変換し、中間遷移表現を得るステップS330と、
第3のサブネットワークによって、前記中間遷移表現に基づいて音素認識を行うステップS340と、
前記音素認識の結果及び前記ラベル付けされた音素により、前記第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークのパラメータを更新するステップS350と、
を含むことができる。
【0032】
本例示的な実施形態による方法では、第2のサブネットワークによって、第1のサブネットワークにより抽出された目的音声スペクトルを適応変換し、音素認識が行われるように第3のサブネットワークに入力することができる中間遷移表現を得ることができ、音声分離段階と音素認識段階のブリッジ接続がなされ、エンドツーエンドの音声認識システムを実現することができる。これに基づいて、第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークを共同訓練することによって、音声分離段階に取り込まれる信号誤差と信号歪みが音素認識段階に与える性能影響を低くする。したがって、本例示的な実施形態による方法によれば、複雑な干渉音条件での音声認識の性能を向上させ、ユーザーエクスペリエンスを改善することができる。なお、本例示的な実施形態における第1のサブネットワークと第3のサブネットワークは、サードパーティのアルゴリズムを容易に統合することができ、より高い柔軟性を有する。
【0033】
以下、別の実施例では、前記ステップをより詳細に説明する。
【0034】
ステップS310において、混合音声スペクトル及びそのラベル付けされた音素を含むサンプルデータを取得する。
【0035】
本例示的な実施形態では、先ず、それぞれが混合音声及び混合音声にラベル付けされた音素を含むサンプルデータ組を複数取得することができる。混合音声とは、非定常雑音により干渉される音声信号であり、例えば背景音楽又は複数話者により干渉される等の原因で、異なる音源の音声が混ざり、受信された音声が混合音声となることがある。混合音声のラベル付けされた音素は、当該混合音声が含む具体的な音素を表すものである。音素ラベリング手段は、手動によるラベリングであってもよいし、過去の認識結果をラベル付けされた音素とするものであってもよい。本例示的な実施例では、これを特に限定しない。また、各サンプルデータ組は、当該混合音声に対応する基準音声をさらに含んでもよい。ここで、前記基準音声は、例えば話者が静かな環境又は定常雑音による干渉環境で話す時に受信されるモノラル音声信号であってもよい。勿論、例えばクラスタリング等の他の方法によって、予め混合音声から基準音声を抽出しておくこともできる。
【0036】
混合音声及び基準音声を取得した後、一定のフレーム長及びフレームシフトに従って混合音声及び基準音声をフレーミング処理し、混合音声の各フレームにおける音声データ及び基準音声の各フレームにおける音声データを得ることができる。次に、混合音声データ及び基準音声のスペクトル特徴を抽出することができる。例えば、本例示的な実施形態では、短時間フーリエ変換(Short Time Fourier Transform,STFT)又は他の方式に基づいて、混合音声データのスペクトル特徴及び基準音声データのスペクトル特徴を抽出することができる。
【0037】
例えば、本例示的な実施形態では、nフレーム目の混合音声データをx(n)とする。混合音声データx(n)は、目的音声データS^
S(n)と干渉音声データSI(n)の線形重畳であり、即ちx(n)=S^
S(n)+SI(n)であると言える。基準音声データを、SS(n)とする。混合音声データx(n)及び基準音声データSS(n)に対して短時間フーリエ変換を行った後、短時間フーリエ変換の結果に対数をとるだけで、混合音声データ及び基準音声データのスペクトル特徴を得ることができる。例えば、混合音声データに対応する混合音声スペクトルをT×F次元ベクトルxとし、基準音声データに対応する基準音声スペクトルをT×F次元ベクトルSSとする。但し、Tは総フレーム数、Fは1フレームあたりのバンド数である。
【0038】
ステップS320において、第1のサブネットワークによって、混合音声スペクトルから目的音声スペクトルを抽出する。
【0039】
本例示的な実施形態では、理想比マスク(Ideal Ratio Mask、IRM)に基づく方法により目的音声スペクトルを抽出することを例として説明するが、本例示的な実施例では、これに限定されない。本開示の他の例示的な実施例では、他の方法により目的音声スペクトルを抽出してもよい。
図4に示すように、本例示的な実施形態では、下記ステップS410~ステップS440により、目的音声スペクトルを抽出することができる。そのうち、
ステップS410において、前記混合音声スペクトルを多次元ベクトル空間に埋め込み、前記混合音声スペクトルの各時間周波数の窓に対応する埋め込みベクトルを得る。
【0040】
例えば、本例示的な実施形態では、深層ニューラルネットワークモデルにより、前記混合音声スペクトルをK次元ベクトル空間に埋め込むことができる。例えば、前記深層ニューラルネットワークは、多層の双方向長短期記憶ネットワーク(BiLSTM、Bi-Long Short-Term Memory)から構成され、例えば、覗き穴結合(peephole connection)を持つ4層の双方向長短期記憶ネットワークを含むことができ、双方向長短期記憶ネットワークの各層に、隠れノード等を600個有することができる。勿論、前記深層ニューラルネットワークでは、これに代えて、他の各種の有効なネットワークモデル、例えば、畳み込みニューラルネットワーク(CNN、Convolutional Neural Network)と他のネットワーク構成を組み合わせたモデル、又は時間遅延ネットワーク、ゲート付き畳み込みニューラルネットワーク等の他のモデルを用いてもよい。本開示では、深層ニューラルネットワークのモデルタイプとトポロジ構成を限定しない。
【0041】
混合音声スペクトルをベクトル空間
【数1】
からより高次元のベクトル空間
【数2】
に写像可能な双方向長短期記憶ネットワークを例とする。具体的には、得られた混合音声スペクトルの埋め込みマトリックスVは、
【数3】
【0042】
ステップS420において、理想比マスクにより、前記混合音声の各埋め込みベクトルに重み付き正規化を行い、前記目的音声スペクトルに対応するアトラクターを得る。
【0043】
例えば、本例示的な実施形態では、|Ss|/|x|により、理想比マスクm
Sを計算することができる。そして、理想比マスクm
Sにより、前記混合音声の各埋め込みベクトルに重み付き正規化を行い、前記目的音声スペクトルに対応するアトラクターa
Sを得ることができる。但し、アトラクターは
【数4】
である。また、低エネルギースペクトルウィンドウノイズを除去し有効フレームを得るために、本例示的な実施形態では、教師ありラベルwがさらに設けられてもよく、但し、教師ありラベルが
【数5】
である。教師ありラベルwにより、音声スペクトルの各フレームのスペクトルをそれぞれスペクトルの閾値と比較することができ、音声スペクトルのあるフレームのスペクトル幅がスペクトルの閾値よりも小さい場合、当該フレームスペクトルの教師ありラベルを0とし、さもなければ、1とする。スペクトルの閾値がmax(x)/100であることを例として、教師ありラベルwは、以下のように示すことができる。
【数6】
それに対応して、前記目的音声スペクトルに対応するアトラクターa
Sは、以下のように示すことができる。
【数7】
【0044】
ステップS430において、前記混合音声の各埋め込みベクトルとアトラクターの間の類似度を計算することによって、前記目的音声スペクトルに対応する目的マスキング行列を得る。
【0045】
例えば、本例示的な実施形態では、前記混合音声の各埋め込みベクトルとアトラクターの間の距離を計算し、各距離の取った値を範囲[0、1]に写像し、各埋め込みベクトルとアトラクターの間の類似度を表現することができる。例えば、以下の式により、前記混合音声の各埋め込みベクトルV
f,tとアトラクターa
Sの間の類似度を計算し、前記目的音声スペクトルに対応する目的マスキング行列m
^
Sを得ることができる。
【数8】
Sigmoidは、S型関数であり、変量を範囲[0、1]に写像し、後の目的音声スペクトルの抽出を容易にすることができる。また、本開示の他の例示的な実施例では、例えばtanh関数又は他の方式に基づいて、前記混合音声の各埋め込みベクトルとアトラクターの間の類似度を計算し、前記目的音声スペクトルに対応する目的マスキング行列を得ることもでき、これは、同様に本開示の保護範囲に属する。
【0046】
ステップS440において、前記目的マスキング行列に基づいて、前記混合音声スペクトルから前記目的音声スペクトルを抽出する。
【0047】
本例示的な実施形態では、目的マスキング行列m
^
Sにより、前記混合音声スペクトルxに重み付けを行うだけで、時間周波数の窓ごとに前記混合音声スペクトルにおける目的音声スペクトルを抽出することができる。時間周波数の窓の混合音声スペクトルx
f,tについて、目的マスキング行列が大きくなるほど、抽出される当該時間周波数の窓のスペクトル情報も多くなる。例えば、以下の式により、前記目的音声スペクトルS
^
Sを抽出して得ることができる。
【数9】
また、本例示的な実施形態では、各前記サンプルデータ組を訓練する時に算出した前記アトラクターを取得し、各前記アトラクターの平均値を計算して大域的アトラクターを得ることで、テスト段階における目的音声スペクトルの抽出を容易にすることもできる。
【0048】
ステップS330において、第2のサブネットワークによって、前記目的音声スペクトルを適応変換し、中間遷移表現を得る。
【0049】
本例示的な実施形態では、第2のサブネットワークは、前記第1のサブネットワークと下記第3のサブネットワークをブリッジ接続するために用いられる。第2のサブネットワークに、第1のサブネットワークにより抽出された目的音声スペクトル(以下、Sとし、S={S1,S2,…,ST})が入力され、第2のサブネットワークから出力される中間遷移表現の最終的な訓練目的は、第3のサブネットワークの認識損失を最小に抑えることである。これに基づいて、本例示的な実施形態では、前記目的音声スペクトルの時間周波数の窓シーケンスに応じて、各時間周波数の窓の目的音声スペクトルを順次に適応変換することができる。ここで、一つの前記時間周波数の窓に対する変換プロセスは、現在変換プロセスの対象となる時間周波数の窓の目的音声スペクトル及び1つ前の変換プロセスの隠れ状態情報により、現在変換プロセスの隠れ状態情報を生成することと、各前記隠れ状態情報に基づいて、現在変換プロセスの対象となる時間周波数の窓の前記中間遷移表現を得ることと、を含むことができる。以下、LSTM(Long Short-Term Memory、長短期記憶)ネットワークを例として、前記変換プロセスを詳細に説明する。
【0050】
図5を参照し、LSTMネットワークは、処理ユニット(以下、単にLSTMユニットという)であり、LSTMユニットは、通常、忘却ゲート、入力ゲート及び出力ゲートを含む。本例示的な実施形態では、1つのLSTMユニットにより1つの前記変換プロセスを実行することができる。
図6に示すように、
図6は、1つのLSTMユニットにより現在変換プロセスの隠れ状態情報を生成するプロセスであり、下記ステップS610~ステップS650を含むことができる。ここで、
ステップS610において、現在時間周波数の窓の目的音声スペクトル及び1つ前の変換プロセスの隠れ状態情報により、候補状態情報、前記候補状態情報の入力重み、1つ前の変換プロセスの目的状態情報の忘却重み、及び現在変換プロセスの目的状態情報の出力重みを計算する。具体的には、
忘却ゲートは、1つ前の変換プロセスの目的状態情報から破棄される情報の量を決定するためのものであるので、忘却重みは、1つ前の変換プロセスの目的状態情報の忘却されない(即ち、保留可能な)重みを表すために用いられる。忘却重みは、実質的に重み行列であってもよい。例示的に、忘却ゲートを表現するための活性化関数により、現在時間周波数の窓の目的音声スペクトル及び1つ前の変換プロセスの隠れ状態情報をエンコードし、0~1の間の数値に写像し、1つ前の変換プロセスの目的状態情報の忘却重みを得ることができる。但し、0は、全部破棄することを示し、1は、全部保留することを示す。例えば、以下の公式により、1つ前の変換プロセスの目的状態情報の忘却重み
を計算して得ることができる。
【数10】
但し、h
t-1は、1つ前の変換プロセスの隠れ状態情報を表し、S
tは、現在時間周波数の窓の目的音声スペクトルを表し、σは、活性化関数であるSigmod関数を表し、W
f及びb
fは、忘却ゲートにおけるSigmod関数のパラメータを表し、[h
t-1,S
t]は、h
t-1とS
tを組み合わせることを表す。
【0051】
入力ゲートは、現在入力される目的音声スペクトルのうち、重要な保留すべき情報の量を決定するためのものである。例示的に、入力ゲートを表現するための活性化関数により、現在時間周波数の窓の目的音声スペクトル及び1つ前の変換プロセスの隠れ状態情報をエンコードし、候補状態情報及び前記候補状態情報の入力重みを得ることができる。ここで、前記候補状態情報の入力重みは、候補状態情報のうち、目的状態情報に追加できる新しい情報の量を決定するためのものである。
【0052】
例えば、以下の公式により、候補状態情報C
~tを計算して得ることができる。
【数11】
但し、tanhは、活性化関数が双曲線正接関数であることを表し、W
c及びb
cは、入力ゲートにおけるtanh関数のパラメータを表す。
【0053】
且つ、以下の公式により、候補状態情報の入力重み
を計算して得ることができる。
【数12】
但し、σは、活性化関数であるSigmod関数を表し、W
i及びb
iは、入力ゲートにおけるSigmod関数のパラメータを表す。
【0054】
出力ゲートは、次のLSTMユニットに出力される隠れ状態情報に含むべき情報を決定するためのものである。例示的に、出力ゲートを表現するための活性化関数により、現在時間周波数の窓の目的音声スペクトル及び1つ前の変換プロセスの隠れ状態情報をエンコードし、現在変換プロセスの目的状態情報の出力重みを得ることができる。例えば、以下の公式により、候補状態情報
を計算して得ることができる。
【数13】
但し、σは、活性化関数であるSigmod関数を表し、W
o及びb
oは、出力ゲートにおけるSigmod関数のパラメータを表す。
【0055】
ステップS620において、前記忘却重みにより、前記1つ前の変換プロセスの目的状態情報を保留し、第1の中間状態情報を得る。例えば、得られる第1の中間状態情報は
【数14】
であってもよい。但し、C
t-1は、1つ前の変換プロセスの目的状態情報を表す。
【0056】
ステップS630において、前記候補状態情報の入力重みにより、前記候補状態情報を保留し、第2の中間状態情報を得る。例えば、得られる第2の中間状態情報は
【数15】
であってもよい。
【0057】
ステップS640において、前記第1の中間状態情報及び第2の中間状態情報により、前記現在変換プロセスの目的状態情報を得る。例えば、現在変換プロセスの目的状態情報は
【数16】
である。
【0058】
ステップS650において、前記現在変換プロセスの目的状態情報の出力重みにより、前記現在変換プロセスの目的状態情報を保留し、現在変換プロセスの隠れ状態情報を得る。例えば、現在変換プロセスの隠れ状態情報は
【数17】
である。
【0059】
さらには、前記適応変換は、各時間周波数の窓の目的音声スペクトルの順番を適応変換して、隠れ状態情報htを得るもの、即ち、前向きLSTMによる適応変換である。本例示的な実施形態では、双方向長短期記憶(BiLSTM)ネットワークによって適応変換を行ってもよい。さらには、他の例示的な実施例では、覗き穴結合を持つ多層の双方向長短期記憶ネットワークによって適応変換を行い、適応変換の正確性をより一層向上させてもよい。例えば、前記適応変換プロセスに加え、各時間周波数の窓の目的音声スペクトルを逆方向に適応変換して、隠れ状態情報h~
tを得た後、隠れ状態情報htと隠れ状態情報h~
tを継ぎ合わせて(スプライスして)BiLSTMネットワークの出力、即ち隠れ状態情報Htを得てもよく、それによって、隠れ状態情報Htにより双方向時間依存的特徴をより好適に表現することができる。
【0060】
隠れ状態情報H
tが後の第3のサブネットワークにより好適に適合するように、本例示的な実施形態では、前記各隠れ状態情報に以下の1つ又は複数の処理を行い、現在変換プロセスの対象となる時間周波数の窓の前記中間遷移表現を得ることもできる。例えば、
fbank特徴の標準計算プロセスでは、入力されたスペクトルを二乗演算するため、得られるfbank特徴は必然的に非負である。fbank特徴の非負性に合わせるために、本例示的な実施形態では、BiLSTMネットワークの出力に対して二乗処理を行い、非負写像を実現してもよい。また、本開示の他の例示的な実施例では、ReLU(Rectified Linear Unit、正規化線形ユニット)等の他の方式により非負写像を実現してもよいが、本例示的な実施例では、これを特に限定しない。例えば、非負写像の結果は、以下の式のように示すことができる。
【数18】
【0061】
非負写像処理を行った後、f
^に一連の微分可能演算、例えば要素ごとに対数の演算、1階差分の計算、2階差分の計算等を行ってもよい。また、グローバル平均分散正規化の実行及び前後の時間周波数の窓の特徴の追加を行ってもよい。例えば、現在時間周波数の窓に対して、現在時間周波数の窓の特徴、現在時間周波数の窓の前のW個の時間周波数の窓の特徴及び現在時間周波数の窓の後のW個の時間周波数の窓の特徴の計2W+1個の時間周波数の窓の特徴をスプライスして、現在時間周波数の窓の中間遷移表現を得ることができる。前記処理を行うことにより、中間遷移表現
【数19】
を得る。説明すべきなのは、本開示の他の例示的な実施例では、前記処理プロセスから一部の処理プロセスを選択し実行してもよく、他の方式によって処理を行ってもよいが、これらは、同様に本開示の保護範囲に属する。
【0062】
ステップS340において、第3のサブネットワークによって、前記中間遷移表現に基づいて音素認識を行う。
【0063】
本例示的な実施形態では、前記第2のサブネットワークから出力された中間遷移表現fを第3のサブネットワークに入力し、前記中間遷移表現に含まれる音素の事後確率
を得ることができる。例えば、前記第3のサブネットワークは、最適中心損失(Center-Loss-optimal)に基づく畳み込み長短期記憶深層ニューラルネットワーク(Convolutional Long-Short-Term-Memory Deep-Neural-Network、CLDNN)であってもよく、以下、CL_CLDNNネットワークという。中間遷移表現fがCL_CLDNNネットワークに入力された後、以下の式に示すような演算を行うことができる。
【数20】
但し、u
tは、CL_CLDNNネットワークの最後から2番目の層(例えば、下述する複数の全結合層における最後から2番目の層等)のtフレーム目の出力である。
【数21】
は、音素の事後確率を計算するために用いられることができる。
【数22】
は、CL_CLDNNネットワークのパラメータを表す。
【0064】
以下、CL_CLDNNネットワークの具体的な処理プロセスを説明する。
図7に示すように、第3のサブネットワークは、下記ステップS710~ステップS730により前記中間遷移表現に基づいて音素認識を行うことができる。ここで、
ステップS710において、少なくとも1つの畳み込み層により多次元フィルターを前記中間遷移表現に応用し、畳み込み層の出力を生成し、スペクトルの差異性を低減することができる。例えば、本例示的な実施形態では、畳み込み層を2つ含むことができ、各畳み込み層は、256個の特徴マップを含むことができる。畳み込み層の第1層は、9×9時間領域-周波数領域フィルターを採用でき、第2層は、4×3時間領域-周波数領域フィルターを採用できる。また、最後の一つの畳み込み層の出力次元が非常に大きくなる可能性があるので、本例示的な実施形態では、最後の一つの畳み込み層の後に一つの線性層を追加して次元削減してもよい。
【0065】
ステップS720において、少なくとも1つのリカレント層に、前記畳み込み層の出力を用い、リカレント層の出力を生成し、タイミング特徴のモデル化を実現する。例えば、本例示的な実施形態では、前記リカレント層は、長短期記憶ネットワークを複数層含んでもよい。例えば、前記線性層の後に2層の長短期記憶ネットワークを追加してもよく、各長短期記憶ネットワークは、832個の処理ユニット、512次元の写像層によって次元削減することができる。本開示の他の例示的な実施例では、前記リカレント層は、例えばGRU( Gated Recurrent Unit、ゲート付き回帰型ユニット)ネットワーク又は他のRNN(Recurrent Neural Networks、回帰型ニューラルネットワーク)構成を含んでもよいが、本例示的な実施例では、これを特に限定しない。
【0066】
ステップS730において、前記リカレント層の出力を少なくとも1つの全結合層に与え、前記全結合層の出力に非線形関数を応用し、前記中間遷移表現に含まれる音素の事後確率を得る。本例示的な実施形態では、前記全結合層は、例えば2層のDNN(Deep Neural Network、深層ニューラルネットワーク)構成であってもよい。各層のDNN構成は、1024個のニューロンを含むことができ、DNN構成により特徴空間を分類がより簡単な出力層に写像することができる。出力層は、前記Softmax関数又はtanh関数等のような非線形関数により分類され、前記中間遷移表現に含まれる音素の事後確率を得ることができる。
【0067】
ステップS350において、前記音素認識の結果及び前記ラベル付けされた音素により、前記第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークのパラメータを更新する。
【0068】
例えば、本例示的な実施形態では、先ず、前記第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークのジョイント損失関数を決定することができる。例えば、本例示的な実施形態では、前記中心損失(Center-Loss-optimal)及び交差エントロピー損失をジョイント損失関数とすることができる。勿論、本開示の他の例示的な実施例では、他の損失をジョイント損失関数としてもよいが、本例示的な実施例では、これに限定されない。
【0069】
ジョイント損失関数を決定した後、前記音素認識の結果及び前記ラベル付けされた音素を前記ジョイント損失関数に入力し、ジョイント損失関数の値を算出することができる。ジョイント損失関数の値を得ると、前記ジョイント損失関数の値に応じて、前記第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークのパラメータを更新することができる。例えば、ジョイント損失関数の値の最小化を訓練目的として、確率的勾配降下法(Stochastic Gradient Descent、SGD)やバックプロパゲーション(Back Propagation、BP)等の方法により、例えば、訓練エポック数が最大値になる又はジョイント損失関数の値がこれ以上低下しなくなるように、第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークのパラメータを、収束するまで更新する。
【0070】
本例示的な実施形態は、ニューラルネットワークに基づく音声認識方法をさらに提供し、当該ニューラルネットワークは、前記例示的な実施例における訓練方法により訓練して得られるものである。当該音声認識方法は、前記端末機器101、102、103のうちの1つ又は複数に応用してもよいし、前記サーバ105に応用してもよい。
図8に示すように、当該音声認識方法は、下記ステップS810~ステップS840を含むことができる。ここで、
ステップS810において、認識される混合音声スペクトルを取得する。
【0071】
本例示的な実施形態では、混合音声とは、非定常雑音により干渉される音声信号であり、例えば背景音楽又は複数話者により干渉される等の原因で、異なる音源の音声が混ざり、受信された音声が混合音声となることがある。混合音声を取得した後、一定のフレーム長及びフレームシフトに従って混合音声をフレーミング処理し、混合音声の各フレームにおける音声データを得ることができる。次に、混合音声データのスペクトル特徴を抽出することができる。例えば、本例示的な実施形態では、短時間フーリエ変換(Short Time Fourier Transform,STFT)又は他の方式に基づいて、混合音声データのスペクトル特徴を抽出することができる。
【0072】
例えば、本例示的な実施形態では、nフレーム目の混合音声データをx(n)とする。混合音声データx(n)は、目的音声データS^
S(n)と干渉音声データSI(n)の線形重畳であり、即ちx(n)=S^
S(n)+SI(n)であると言える。混合音声データx(n)に対して短時間フーリエ変換を行った後、短時間フーリエ変換の結果に対数をとるだけで、混合音声データスペクトル特徴を得ることができる。例えば、混合音声データに対応する混合音声スペクトルをT×F次元ベクトルxとする。但し、Tは総フレーム数、Fは1フレームあたりのバンド数である。
【0073】
ステップS820において、第1のサブネットワークによって、混合音声スペクトルから目的音声スペクトルを抽出する。
【0074】
本例示的な実施形態では、理想比マスク(Ideal Ratio Mask、IRM)に基づく方法により目的音声スペクトルを抽出することを例として説明するが、本例示的な実施例では、これに限定されない。本開示の他の例示的な実施例では、他の方法により目的音声スペクトルを抽出してもよい。例えば、
先ず、前記混合音声スペクトルを多次元ベクトル空間に埋め込み、前記混合音声スペクトルの各時間周波数の窓に対応する埋め込みベクトルを得る。混合音声スペクトルをベクトル空間
【数23】
からより高次元のベクトル空間
【数24】
に写像可能な双方向長短期記憶ネットワークを例とする。具体的には、得られた混合音声スペクトルの埋め込みマトリックスVは、
【数25】
【0075】
次に、前記訓練プロセスにおいてステップS320で得られた大域的アトラクターa
-
Sを取得し、前記混合音声の各埋め込みベクトルと大域的アトラクターの間の類似度を計算することによって、前記目的音声スペクトルに対応する目的マスキング行列を得る。例えば、以下の式により、前記混合音声の各埋め込みベクトルV
f,tと大域的アトラクターa
-
Sの間の類似度を計算し、前記目的音声スペクトルに対応する目的マスキング行列m
^
Sを得ることができる。
【数26】
そして、前記目的マスキング行列に基づいて、前記混合音声スペクトルから前記目的音声スペクトルを抽出する。例えば、以下の式により、前記目的音声スペクトルS
^
Sを抽出して得ることができる。
【数27】
ステップS830において、第2のサブネットワークによって、前記目的音声スペクトルを適応変換し、中間遷移表現を得る。
【0076】
本例示的な実施形態では、前記目的音声スペクトルの時間周波数の窓シーケンスに応じて、各時間周波数の窓の目的音声スペクトルを順次に適応変換することができ、また、一つの前記時間周波数の窓に対する変換プロセスは、現在変換プロセスの対象となる時間周波数の窓の目的音声スペクトル及び前の変換プロセスの隠れ状態情報により、現在変換プロセスの隠れ状態情報を生成することと、各前記隠れ状態情報に基づいて、現在変換プロセスの対象となる時間周波数の窓の前記中間遷移表現を得ることと、を含むことができる。例えば、本例示的な実施形態では、双方向長短期記憶(BiLSTM)ネットワークの各LSTMユニットにより前記各変換プロセスを実行することができる。
【0077】
fbank特徴の非負性に合わせるために、本例示的な実施形態では、BiLSTMネットワークの出力に対して二乗処理を行い、非負写像を実現してもよい。例えば、非負写像の結果は以下の式のように示すことができる。
【数28】
【0078】
非負写像処理を行った後、f
^に一連の微分可能演算、例えば要素ごとに対数の演算、1階差分の計算、2階差分の計算等を行ってもよい。また、グローバル平均分散正規化の実行及び前後の時間周波数の窓の特徴の追加を行ってもよい。例えば、現在時間周波数の窓に対して、現在時間周波数の窓の特徴、現在時間周波数の窓の前のW個の時間周波数の窓の特徴及び現在時間周波数の窓の後のW個の時間周波数の窓の特徴の合2W+1個の時間周波数の窓の特徴をスプライスして、現在時間周波数の窓の中間遷移表現を得ることができる。前記処理を行った後、中間遷移表現
【数29】
を得る。
【0079】
ステップS840において、第3のサブネットワークによって、前記中間遷移表現に基づいて音素認識を行う。
【0080】
本例示的な実施形態では、前記第2のサブネットワークから出力された中間遷移表現fを第3のサブネットワークに入力し、前記中間遷移表現に含まれる音素の事後確率
を得ることができる。例えば、前記第3のサブネットワークはCL_CLDNNネットワークであってもよい。中間遷移表現fがCL_CLDNNネットワークに入力されると、以下の式に示す演算を行うことができる。
【数30】
但し、u
tは、CL_CLDNNネットワークの最後から2番目の層(例えば、下述する複数の全結合層における最後から2番目の層等)のtフレーム目の出力である。
【数31】
は、音素の事後確率を計算するために用いられることができる。
【数32】
は、CL_CLDNNネットワークのパラメータを表す。
【0081】
以下、自動音声認識システムの実現を例として、前記方法を参照して説明する。
図9に示すように、自動音声認識システムは、第1のサブネットワーク910、第2のサブネットワーク920及び第3のサブネットワーク930を含むことができる。そのうち、
第1のサブネットワーク910は、混合音声スペクトルから目的音声スペクトルを抽出することができる。
図9に示すように、第1のサブネットワークは、覗き穴結合を持つ多層(例えば、4層)のBiLSTMネットワークを含むことができ、各層のBiLSTMネットワークに、隠れノードを600個有することができる。なお、600次元の隠れ状態情報を24000次元の埋め込みベクトルに写像するために、最後の一層のBiLSTMネットワークの後に一つの全結合層を追加することができる。混合音声スペクトルは、例えばサンプリング周波数が16000Hz、チャンクサイズが25ms、フレームシフトが10msである512次元の短時間フーリエ変換スペクトルの特徴であってもよい。混合音声スペクトルを第1のサブネットワーク910に入力すると、BiLSTMネットワークにより、それを埋め込みベクトルに写像することができる。そして、埋め込みベクトルとアトラクターの間の類似度を計算し、目的マスキング行列を得ることができる。さらに、目的マスキング行列に基づいて、混合音声スペクトルから目的音声スペクトルSを抽出することができる。訓練段階において、第1のサブネットワーク910に基準音声スペクトルを入力してもよく、基準音声スペクトルにより理想比マスクを計算することができ、さらに、理想比マスクにより、混合音声の各埋め込みベクトルに重み付き正規化を行い、前記アトラクターを得ることができる。
【0082】
第2のサブネットワーク920は、前記目的音声スペクトルを適応変換し、中間遷移表現を得るために用いられることができる。
図9に示すように、第2のサブネットワーク920は、覗き穴結合を持つ多層(例えば、2層)のBiLSTMネットワークを含むことができ、各層のBiLSTMネットワークに、隠れノードを600個有することができる。第1のサブネットワークから出力された目的音声スペクトルSをBiLSTMネットワークに入力すると、BiLSTMネットワークにより出力される隠れ状態情報Hを得ることができ、H={H
1,H
2,…,H
T}である。次に、隠れ状態情報Hに、非負写像、要素ごとに対数の演算、1階差分の計算、2階差分の計算、グローバル平均分散正規化の実行及び前後の時間周波数の窓の特徴の追加等のプリセット処理を行い、中間遷移表現fを得ることができる。本例示的な実施形態では、中間遷移表現fは、例えば40次元のfbank特徴ベクトルであってもよい。
【0083】
第3のサブネットワーク930は、前記中間遷移表現に基づいて音素認識を行うために用いられることができる。
図9に示すように、第3のサブネットワーク920はCL_CLDNNネットワークを含んでもよい。中間遷移表現fを第3のサブネットワークに入力すると、中間遷移表現に含まれる音素の事後確率y
tを得ることができる。標準中国語を例として、約1.2万個の分類の音素における事後確率を出力することができる。
【0084】
具体的に、訓練時に、サンプルデータのバッチサイズを24とし、最初の学習レートαを10-4とし、学習レートの減衰係数を0.8とし、収束判断条件を総合損失関数の値が連続3エポック(epoch)で全く改善されていないこととし、埋め込みベクトルの次元Kを40とし、メルフィルターのバンド数Dを40とし、前後の時間周波数の窓の特徴の追加時における時間周波数の窓の数Wを5とし、中心損失の重みλを0.01とすることができる。また、CL_CLDNNネットワークにおける畳み込み層とLSTMネットワークの出力は、より速い収束及びより良好な汎化を実現するために、いずれもバッチ正規化されることができる。
【0085】
図10Aと
図10Bは、前記自動音声認識システムの音声認識効果の参照図である。
図10Aは、背景音楽により干渉される音声認識タスクであり、
図10Bは、他の話者により干渉される音声認識タスクである。
図10A及び
図10Bにおいて、縦軸は、相対的な単語誤り率の削減率(Relative Word Error Rate Reduction、WERR)によって認識効果を表現し、横軸は、0dB、5dB、10dB、15dB及び20dBの5つの異なるデシベルdB(デシベル)のシグナルノイズ比干渉テスト条件を表す。
【0086】
図10A及び
図10Bにおいて、ラインP1とラインP4は、本例示的な実施形態における自動音声認識システムとベースラインシステムを比較して得たWERRを表し、ラインP2とラインP5は、従来の先進的な自動音声認識システム(例えば、DNNによりメルフィルターフレームバイフレームアフィン変換関数を学習するロバスト音声認識の共同訓練構成)とベースラインシステムを比較して得たWERRを表し、ラインP3は、本例示的な実施形態における自動音声認識システムと目的話者トラッキング処理を組み合わせたものと、ベースラインシステムを比較して得たWERRを表す。
【0087】
ここで、前記従来の先進的な自動音声認識システムと本例示的な実施形態における自動音声認識システムとは、パラメータの複雑度が同程度である。しかし、
図10Aと
図10Bから、本例示的な実施形態における自動音声認識システムのWERRは、2つの認識タスクのいずれにおいても、従来の先進的な自動音声認識システムよりも格段に優れていることが分かる。これは、本例示的な実施形態における自動音声認識システムは、テンス複雑性のある問題を効果的にモデル化でき、さらに複雑な干渉音条件での音声認識の性能を向上させることができることを示している。
【0088】
また、認識性能を著しく向上させた以外、本例示的な実施形態における自動音声認識システムは、高い柔軟性を有し、例えば、各種の音声分離モジュールと音素認識モジュールを第1のサブネットワーク及び第3のサブネットワークに柔軟に集積することができるようになり、本例示的な実施形態における自動音声認識システムは、いずれのモジュール単体の性能を犠牲にしない。
【0089】
したがって、本例示的な実施形態における自動音声認識システムを、スマートスピーカー、スマートテレビ、オンライン音声認識システム、スマート音声アシスタント、同時通訳及びバーチャルヒューマン等の複数の項目と製品用途に応用し、自動音声認識の正確率、特に複雑な干渉環境における認識性能を著しく向上させることができ、さらに、ユーザーエクスペリエンスを向上させることができる。
【0090】
図面において特定の順番に従って本開示における方法の各ステップを説明したが、所望の結果を得るために、当該特定の順番に従ってこれらのステップを実行し、又は、示されたステップを全て実行しなければならないことを要求又は示唆していないことに注意すべきである。それに加え又は代えて、一部のステップを省略し、複数のステップを一つのステップとしてまとめて実行する、及び/又は、一つのステップを複数のステップに分けて実行する等のようにしてもよい。
【0091】
さらには、本例示的な実施形態では、音声認識を実現するニューラルネットワークの訓練装置をさらに提供する。当該ニューラルネットワークの訓練装置は、サーバに応用してもよいし、端末機器に応用してもよい。前記ニューラルネットワークは、第1乃至第3のサブネットワークを含み、
図11に示すように、当該ニューラルネットワークの訓練装置1100は、データ取得モジュール1110、目的音声抽出モジュール1120、適応変換モジュール1130、音声認識モジュール1140及びパラメータ更新モジュール1150を含むことができる。ここで、
データ取得モジュール1110は、混合音声スペクトル及びそのラベル付けされた音素を含むサンプルデータを取得するために用いられることができる。
【0092】
目的音声抽出モジュール1120は、第1のサブネットワークによって、混合音声スペクトルから目的音声スペクトルを抽出するために用いられることができる。
【0093】
適応変換モジュール1130は、第2のサブネットワークによって、前記目的音声スペクトルを適応変換し、中間遷移表現を得るために用いられることができる。
【0094】
音声認識モジュール1140は、第3のサブネットワークによって、前記中間遷移表現に基づいて音素認識を行うために用いられることができる。
【0095】
パラメータ更新モジュール1150は、前記音素認識の結果及び前記ラベル付けされた音素により、前記第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークのパラメータを更新するために用いられることができる。
【0096】
本開示の一例示的な実施例では、前記目的音声抽出モジュール1120は、前記混合音声スペクトルを多次元ベクトル空間に埋め込み、前記混合音声スペクトルの各時間周波数の窓に対応する埋め込みベクトルを得るステップと、理想比マスクにより、前記混合音声スペクトルの各埋め込みベクトルに重み付き正規化を行い、前記目的音声スペクトルに対応するアトラクターを得るステップと、前記混合音声スペクトルの各埋め込みベクトルとアトラクターの間の類似度を計算することによって、前記目的音声スペクトルに対応する目的マスキング行列を得るステップと、前記目的マスキング行列に基づいて、前記混合音声スペクトルから前記目的音声スペクトルを抽出するステップと、によって混合音声スペクトルから目的音声スペクトルを抽出する。
【0097】
本開示の一例示的な実施例では、前記装置は、
各前記サンプルデータに対応する前記アトラクターを取得し、各前記アトラクターの平均値を計算し、大域的アトラクターを得るために用いられることができる大域的アトラクター計算モジュールをさらに含む。
【0098】
本開示の一例示的な実施例では、前記適応変換モジュール1130は、前記目的音声スペクトルの時間周波数の窓シーケンスに応じて、各時間周波数の窓の目的音声スペクトルを順次に適応変換するステップによって、前記目的音声スペクトルを適応変換し、一つの前記時間周波数の窓に対する変換プロセスは、
現在変換プロセスの対象となる時間周波数の窓の目的音声スペクトル及び1つ前の変換プロセスの隠れ状態情報により、現在変換プロセスの隠れ状態情報を生成することと、各前記隠れ状態情報に基づいて、現在変換プロセスの対象となる時間周波数の窓の前記中間遷移表現を得ることと、を含む。
【0099】
本開示の一例示的な実施例では、前記適応変換モジュール1130は、現在時間周波数の窓の目的音声スペクトル及び1つ前の変換プロセスの隠れ状態情報により、候補状態情報、前記候補状態情報の入力重み、1つ前の変換プロセスの目的状態情報の忘却重み、及び現在変換プロセスの目的状態情報の出力重みを計算するステップと、前記忘却重みにより、前記1つ前の変換プロセスの目的状態情報を保留し、第1の中間状態情報を得るステップと、前記候補状態情報の入力重みにより、前記候補状態情報を保留し、第2の中間状態情報を得るステップと、前記第1の中間状態情報及び第2の中間状態情報により、前記現在変換プロセスの目的状態情報を得るステップと、前記現在変換プロセスの目的状態情報の出力重みにより、前記現在変換プロセスの目的状態情報を保留し、現在変換プロセスの隠れ状態情報を得るステップと、によって現在変換プロセスの隠れ状態情報を生成する。
【0100】
本開示の一例示的な実施例では、前記適応変換モジュール1130は、各前記隠れ状態情報に、
非負写像と、要素ごとに対数の演算と、1階差分の計算と、2階差分の計算と、グローバル平均分散正規化の実行と、前後の時間周波数の窓の特徴の追加と
のうちの1つ又は複数の処理を行い、現在変換プロセスの対象となる時間周波数の窓の前記中間遷移表現を得るステップによって、各前記隠れ状態情報に基づいて、現在変換プロセスの対象となる時間周波数の窓の前記中間遷移表現を得る。
【0101】
本開示の一例示的な実施例では、前記音声認識モジュール1140は、少なくとも1つの畳み込み層により多次元フィルターを前記中間遷移表現に応用し、畳み込み層の出力を生成するステップと、少なくとも1つのリカレント層に、前記畳み込み層の出力を用い、リカレント層の出力を生成するステップと、前記リカレント層の出力を少なくとも1つの全結合層に与え、前記全結合層の出力に非線形関数を応用し、前記中間遷移表現に含まれる音素の事後確率を得るステップと、によって前記中間遷移表現に基づいて音素認識を行う。
【0102】
本開示の一例示的な実施例では、前記リカレント層は長短期記憶ネットワークを含む。
【0103】
本開示の一例示的な実施例では、前記パラメータ更新モジュール1150は、前記第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークのジョイント損失関数を決定するステップと、前記音素認識の結果、前記ラベル付けされた音素及び前記ジョイント損失関数により、ジョイント損失関数の値を計算するステップと、前記ジョイント損失関数の値に応じて、前記第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークのパラメータを更新するステップと、によって前記第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークのパラメータを更新する。
【0104】
本開示の一例示的な実施例では、前記第1のサブネットワークは、覗き穴結合を持つ多層の長短期記憶ネットワークを含み、前記第2のサブネットワークは、覗き穴結合を持つ多層の長短期記憶ネットワークを含む。
【0105】
さらには、本例示的な実施形態では、ニューラルネットワークに基づく音声認識装置をさらに提供する。音声認識装置は、サーバに応用してもよいし、端末機器に応用してもよい。前記ニューラルネットワークは、第1乃至第3のサブネットワークを含み、
図12に示すように、当該ニューラルネットワークの訓練装置1200は、データ取得モジュール1210、目的音声抽出モジュール1220、適応変換モジュール1230及び音声認識モジュール1240を含むことができる。ここで、
データ取得モジュール1210は、認識される混合音声スペクトルを取得するために用いられることができる。
【0106】
目的音声抽出モジュール1220は、第1のサブネットワークによって、混合音声スペクトルから目的音声スペクトルを抽出するために用いられることができる。
【0107】
適応変換モジュール1230は、第2のサブネットワークによって、前記目的音声スペクトルを適応変換し、中間遷移表現を得るために用いられることができる。
【0108】
音声認識モジュール1240は、第3のサブネットワークによって、前記中間遷移表現に基づいて音素認識を行うために用いられることができる。
【0109】
本開示の例示的な実施形態による方法では、第2のサブネットワークによって、第1のサブネットワークにより抽出された目的音声スペクトルを適応変換し、音素認識が行われるように第3のサブネットワークに入力することができる中間遷移表現を得ることができ、音声分離段階と音素認識段階のブリッジ接続がなされ、エンドツーエンドの音声認識システムを実現することができる。これに基づいて、第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークを共同訓練することによって、音声分離段階に取り込まれる信号誤差と信号歪みが音素認識段階に与える性能影響を低くする。したがって、本開示の例示的な実施形態による方法によれば、複雑な干渉音条件での音声認識の性能を向上させ、ユーザーエクスペリエンスを改善することができる。なお、本開示の例示的な実施形態における第1のサブネットワークと第3のサブネットワークは、サードパーティのアルゴリズムを容易に統合することができ、より高い柔軟性を有する。
【0110】
前記装置における各モジュール又はユニットの具体的な細部は、対応する方法の例示的な実施例において詳しく説明されたので、ここで繰り返して説明しない。
【0111】
注意すべきなのは、以上の詳しい説明において、動作実行のための機器の幾つかのモジュール又はユニットを言及したが、必ずしもこのように分ける必要があるとは限らない。実際に、本開示の実施形態によれば、以上に説明された2つ又はそれ以上のモジュール又はユニットの特徴と機能は、1つのモジュール又はユニットにおいて具現化されてもよい。逆に、以上に説明された1つのモジュール又はユニットの特徴と機能は、さらに複数のモジュール又はユニットに分けられて具現化されてもよい。
【0112】
他の側面として、本開示は、コンピュータ読取可能な媒体をさらに提供し、当該コンピュータ読取可能な媒体は、前記実施例に説明された電子機器に含まれてもよいし、当該電子機器に組み込まれておらず、単体として存在してもよい。前記コンピュータ読取可能な媒体に、1つ又は複数のプログラムがロードされており、前記1つ又は複数のプログラムが当該電子機器に実行されると、当該電子機器は、前記実施例に述べたような方法を実現するようになる。例えば、上述した電子機器は、前記例示的な実施例における各ステップ等を実現することができる。
【0113】
説明すべきなのは、本開示に示すコンピュータ読取可能な媒体は、コンピュータ読取可能な信号媒体又はコンピュータ読取可能な記憶媒体、あるいは前記両者の任意の組合せであってもよい。コンピュータ読取可能な記憶媒体は、例えば電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、あるいは以上の任意の組合せであってもよいが、これらに限られない。コンピュータ読取可能な記憶媒体のより具体的な例としては、1つ又は複数のワイヤを有する電気接続、携帯型コンピュータの磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスクリードオンリーメモリ(CD-ROM)、光学的記憶装置、磁気記憶装置、又はこれらの任意の適切な組合せを含んでもよいが、これらに限られない。本開示において、コンピュータ読取可能な記憶媒体は、プログラムを含む又は記憶するいずれの有形媒体であってもよく、当該プログラムは、コマンド実行システム、装置又はデバイスに用いられてもよいし、又はこれらと組み合わせて用いられてもよい。本開示において、コンピュータ読取可能な信号媒体は、コンピュータ読取可能なプログラムコードがロードされ、ベースバンドで、又は搬送波の一部分として伝達されるデータ信号を含むことができる。このような伝達されるデータ信号は、多数の種類の形式を採用でき、電磁気信号、光信号又はこれらの任意の適切な組合せを含むが、これらに限られない。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記憶媒体以外の任意のコンピュータ読取可能な媒体であってもよく、当該コンピュータ読取可能な媒体は、コマンド実行システム、装置又はデバイスに用いられ又はこれらと組み合わせて用いられるためのプログラムを送信、伝搬又は伝送することができる。コンピュータ読取可能な媒体に含まれるプログラムコードは、任意の適切な媒体により伝送されることができ、無線、電線、光ケーブル、RF等、又はこれらの任意の適切な組合せを含むが、これらに限られない。
【0114】
図面におけるフローチャート及びブロック図は、本開示の各実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び操作を図示している。この点で、フローチャート又はブロック図における各ブロックは、それぞれ1つのモジュール、プログラムセグメント、又はコードの一部を表すことができ、前記モジュール、プログラムセグメント、又はコードの一部は、所定の論理機能を実現するための実行可能なコマンドを1つ又は複数含む。ある代替的な実現形態では、ブロックに付けた機能は、図面に付けた順番と異なる順番で発生してもよいことにも注意すべきである。例えば、引き続き示される2つのブロックは、実際に、基本的に並行して実行できるが、場合によっては、逆の順序で実行されてもよく、関連する機能によって決定される。ブロック図又はフローチャートにおける各ブロック、及びブロック図又はフローチャートにおけるブロックの組合せは、所定の機能又は操作を実行する専用のハードウェアによるシステムにより実現されてもよいし、専用のハードウェアとコンピュータコマンドの組合せによって実現されてもよいことにも注意すべきである。
【0115】
本開示は、以上で説明され、図面に示された正確な構成に限定されないとともに、その範囲から逸脱することなく種々の修正と変形を行ってもよいことを理解すべきである。本開示の範囲は、添付される特許請求の範囲のみにより制限される。
【国際調査報告】