(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-06
(45)【発行日】2023-04-14
(54)【発明の名称】音声処理方法、装置、電子機器及びコンピュータプログラム
(51)【国際特許分類】
G10L 21/0208 20130101AFI20230407BHJP
G10L 15/16 20060101ALI20230407BHJP
G10L 25/30 20130101ALI20230407BHJP
【FI】
G10L21/0208 100Z
G10L15/16
G10L25/30
(21)【出願番号】P 2021560990
(86)(22)【出願日】2020-07-13
(86)【国際出願番号】 CN2020101602
(87)【国際公開番号】W WO2021042870
(87)【国際公開日】2021-03-11
【審査請求日】2021-10-14
(31)【優先権主張番号】201910838192.6
(32)【優先日】2019-09-05
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】王 燕南
(72)【発明者】
【氏名】黄 俊
【審査官】菊地 陽一
(56)【参考文献】
【文献】特表2019-522810(JP,A)
【文献】中国特許出願公開第109065067(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/0208
G10L 15/16
G10L 25/30
(57)【特許請求の範囲】
【請求項1】
電子機器が実行する、音声処理方法であって、
処理対象である音声情報を取得するステップと、
前記処理対象である音声情報に基づき、第1音声特徴及び第1テキストボトルネック特徴を決定するステップと、
前記第1音声特徴及び前記第1テキストボトルネック特徴に基づき、第1組み合わせ特徴ベクトルを決定するステップと、
前記第1組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶(LSTM)モデルに入力し、前記第1組み合わせ特徴ベクトルに対して音声処理を行うことで、雑音低減後の音声情報を得て、雑音低減後の前記音声情報を他の電子機器に送信して再生させるステップと、を含
み、
前記処理対象である音声情報に基づき、第1テキストボトルネック特徴を決定するステップは、
前記処理対象である音声情報から、N次元のフィルタバンク(filter-bank)特徴及びM次元のピッチ(pitch)特徴を抽出するステップであって、N及びMは共に正の整数である、ステップと、
前記N次元のfilter-bank特徴と前記M次元のpitch特徴を結合し、第2音声特徴を得るステップと、
前記第2音声特徴をトレーニング済みの自動音声認識(ASR)ネットワークに入力し、前記トレーニング済みのASRネットワークのボトルネックの線形層から前記第1テキストボトルネック特徴を抽出するステップと、を含み、
前記ASRネットワークをトレーニングする方法は、
トレーニングステップであって、
ガウス混合モデル(GMM)によって、コーパスに含まれるテキストアノテーションと前記テキストアノテーションに対応するオーディオファイルとをアライメントし、第1テキスト特徴を得るステップであって、前記コーパスは前記ASRネットワークをトレーニングするために用いられる、ステップと、
前記オーディオファイルから、N次元のフィルタバンク(filter-bank)特徴及びM次元のピッチ(pitch)特徴を抽出するステップと、
前記M次元のfilter-bank特徴と前記M次元のpitch特徴を結合し、第3音声特徴を得るステップと、
前記第3音声特徴を前記ASRネットワークに入力し、前記ASRネットワークをトレーニングし、前記ASRネットワークの出力層から出力される第2テキスト特徴を得るステップと、
前記第1テキスト特徴の値及び前記第2テキスト特徴の値に基づき、前記ASRネットワークのクロスエントロピー(CE)の値を決定するステップと、を含むトレーニングステップと、
前記トレーニングステップを繰り返して実行し、前記ASRネットワークをトレーニングして得られたASRネットワークのクロスエントロピー(CE)の値と、前回の前記ASRネットワークをトレーニングして得られたASRネットワークのクロスエントロピー(CE)の値との差が第1閾値範囲内に収まる場合、前記トレーニング済みのASRネットワークを得るステップと、を含む、ことを特徴とする方法。
【請求項2】
前記処理対象である音声情報に基づき、第1音声特徴を決定するステップは、
前記処理対象である音声情報に対してフレーム分割処理及び窓掛け処理を行うステップと、
フレーム分割処理及び窓掛け処理を行った後の前記処理対象である音声情報から、前記第1音声特徴を抽出するステップであって、前記第1音声特徴は、対数パワースペクトル特徴、メル周波数ケプストラム係数(MFCC)特徴の少なくとも一つを含む、ステップと、を含むことを特徴とする
請求項1に記載の方法。
【請求項3】
前記ASRネットワークは、入力層としての4層の隠れ層のディープニューラルネットワーク(DNN)、1層のボトルネックの線形層、及び出力層としての確率分布層(softmax層)を含むことを特徴とする
請求項
1に記載の方法。
【請求項4】
前記第1組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶(LSTM)モデルに入力し、前記第1組み合わせ特徴ベクトルに対して音声処理を行うことで、雑音低減後の音声情報を得るステップは、
前記トレーニング済みの単一方向LSTMモデルによって前記第1組み合わせ特徴ベクトルに対して音声強調処理を行うステップと、
処理結果に対して特徴逆変換を行い、音声情報を周波数領域から時間領域に変換し、前記雑音低減後の音声情報を得るステップと、を含むことを特徴とする
請求項1に記載の方法。
【請求項5】
前記単一方向LSTMモデルをトレーニングする方法は、
雑音低減トレーニング用コーパスに含まれる雑音付き音声及び雑音を含まない音声を収集するステップと、
前記雑音付き音声から第4音声特徴及び第2テキストボトルネック特徴を抽出し、前記雑音を含まない音声から第5音声特徴を抽出するステップと、
前記第4音声特徴と前記第2テキストボトルネック特徴を組み合わせて、第2組み合わせ特徴ベクトルを得るステップと、
前記第2組み合わせ特徴ベクトルを前記単一方向LSTMモデルに入力し、前記単一方向LSTMモデルをトレーニングし、前記単一方向LSTMモデルから出力される参考値と前記第5音声特徴の値との間の最小平均二乗誤差が第2閾値以下になる場合、前記トレーニング済みの単一方向LSTMモデルを得るステップと、を含むことを特徴とする
請求項1に記載の方法。
【請求項6】
音声処理装置であって、
処理対象である音声情報を取得するように構成される第1処理モジュールと、
前記処理対象である音声情報に基づき、第1音声特徴及び第1テキストボトルネック特徴を決定するように構成される第2処理モジュールと、
前記第1音声特徴及び前記第1テキストボトルネック特徴に基づき、第1組み合わせ特徴ベクトルを決定するように構成される第3処理モジュールと、
前記第1組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶(LSTM)モデルに入力し、前記第1組み合わせ特徴ベクトルに対して音声処理を行うことで、雑音低減後の音声情報を得て、雑音低減後の前記音声情報を他の電子機器に送信して再生させるように構成される第4処理モジュールと、を含
み、
前記第2処理モジュールは、
前記処理対象である音声情報から、N次元のフィルタバンク(filter-bank)特徴及びM次元のピッチ(pitch)特徴を抽出ステップであって、N及びMは共に正の整数である、ステップと、
前記N次元のfilter-bank特徴と前記M次元のpitch特徴を結合し、第2音声特徴を得るステップと、
前記第2音声特徴をトレーニング済みの自動音声認識(ASR)ネットワークに入力し、前記トレーニング済みのASRネットワークのボトルネックの線形層から前記第1テキストボトルネック特徴を抽出するステップと、を実行するようにも構成され、
前記第2処理モジュールは、前記ASRネットワークをトレーニングするようにも構成され、前記ASRネットワークをトレーニングする方法は、
トレーニングステップであって、
ガウス混合モデル(GMM)によって、コーパスに含まれるテキストアノテーションと前記テキストアノテーションに対応するオーディオファイルとをアライメントし、第1テキスト特徴を得るステップであって、前記コーパスは前記ASRネットワークをトレーニングするために用いられる、ステップと、
前記オーディオファイルから、N次元のフィルタバンク(filter-bank)特徴及びM次元のピッチ(pitch)特徴を抽出するステップと、
前記N次元のfilter-bank特徴と前記M次元のpitch特徴を結合し、第3音声特徴を得るステップと、
前記第3音声特徴を前記ASRネットワークに入力し、前記ASRネットワークをトレーニングし、前記ASRネットワークの出力層から出力される第2テキスト特徴を得るステップと、
前記第1テキスト特徴の値及び前記第2テキスト特徴の値に基づき、前記ASRネットワークのクロスエントロピー(CE)の値を決定するステップと、を含むトレーニングステップと、
前記トレーニングステップを繰り返して実行し、前記ASRネットワークをトレーニングして得られたASRネットワークのクロスエントロピー(CE)の値と、前回の前記ASRネットワークをトレーニングして得られたASRネットワークのクロスエントロピー(CE)の値との差が第1閾値範囲内に収まる場合、前記トレーニング済みのASRネットワークを得るステップと、を含む、ことを特徴とする装置。
【請求項7】
前記第2処理モジュールは、
前記処理対象である音声情報に対してフレーム分割処理及び窓掛け処理を行うステップと、
フレーム分割処理及び窓掛け処理を行った後の前記処理対象である音声情報から、前記第1音声特徴を抽出するステップであって、前記第1音声特徴は対数パワースペクトル特徴、メル周波数ケプストラム係数(MFCC)特徴の少なくとも一つを含む、ステップと、を実行するようにも構成される
請求項
6に記載の装置。
【請求項8】
前記第4処理モジュールは、
前記トレーニング済みの単一方向LSTMモデルによって前記第1組み合わせ特徴ベクトルの音声強調処理を行うステップと、
処理結果に対して特徴逆変換を行い、音声情報を周波数領域から時間領域に変換し、処理後の音声情報を得るステップと、を実行するようにも構成される
請求項
6に記載の装置。
【請求項9】
前記第4処理モジュールは、前記単一方向LSTMモデルをトレーニングするようにも構成され、前記単一方向LSTMモデルをトレーニングする方法は、
雑音低減トレーニング用コーパスに含まれる雑音付き音声及び雑音を含まない音声を収集するステップと、
前記雑音付き音声から第4音声特徴及び第2テキストボトルネック特徴を抽出し、前記雑音を含まない音声から第5音声特徴を抽出するステップと、
前記第4音声特徴と前記第2テキストボトルネック特徴を組み合わせて、第2組み合わせ特徴ベクトルを得るステップと、
前記第2組み合わせ特徴ベクトルを前記単一方向LSTMモデルに入力し、前記単一方向LSTMモデルをトレーニングし、前記単一方向LSTMモデルから出力される参考値と前記第5音声特徴の値との間の最小平均二乗誤差が第2閾値以下になる場合、前記トレーニング済みの単一方向LSTMモデルを得るステップと、を含む
請求項
6に記載の装置。
【請求項10】
プロセッサ及びメモリを含み、
前記メモリは、コンピュータプログラムを記憶するために用いられ、
前記プロセッサは、前記コンピュータプログラムを呼び出して、請求項1から
5のいずれか一項に記載の方法を実行するために用いられる、電子機器。
【請求項11】
コンピュータに、請求項1から
5のいずれか一項に記載の方法を実行させるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2019年9月5日に中国特許局に提出された、出願番号が第201910838192.6号であり、名称が「音声処理方法、装置、電子機器及びコンピュータ可読記憶媒体」である中国特許出願の優先権を主張し、その全ての内容が参照によって本願に組み込まれる。
【0002】
本願はコンピュータ技術分野に関し、具体的には、本願は、音声処理方法、装置、電子機器及びコンピュータ可読記憶媒体に関する。
【背景技術】
【0003】
雑音付き音声情報から雑音を除去するプロセスにおいて、通常、テキストツースピーチ(Text To Speech:TTSと略称)におけるテキスト情報の抽出方法を用いて、対応するテキスト情報を抽出して雑音付き音声の特徴に結合し、雑音低減ネットワークモデルに送ってトレーニングを行う。
【発明の概要】
【課題を解決するための手段】
【0004】
本願の実施例は、電子機器によって実行される音声処理方法を提供し、音声処理方法は、
処理対象である音声情報を収集するステップと、
処理対象である音声情報に基づき、第1音声特徴及び第1テキストボトルネック特徴を決定するステップと、
第1音声特徴及び第1テキストボトルネック特徴に基づき、第1組み合わせ特徴ベクトルを決定するステップと、
第1組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶(LSTM)モデルに入力し、第1組み合わせ特徴ベクトルに対して音声処理を行うことで、雑音低減後の音声情報を得て、雑音低減後の前記音声情報を他の電子機器に送信して再生させるステップと、を含む。
【0005】
いくつかの実施例において、処理対象である音声情報に基づき、第1音声特徴を決定するステップは、
処理対象である音声情報に対してフレーム分割処理及び窓掛け処理を行うステップと、
フレーム分割処理及び窓掛け処理を行った後の前記処理対象である音声情報から、前記第1音声特徴を抽出するステップであって、第1音声特徴は、対数パワースペクトル特徴、メル周波数ケプストラム係数(MFCC)特徴の少なくとも一つを含む、ステップと、を含む。
【0006】
いくつかの実施例において、処理対象である音声情報に基づき、第1テキストボトルネック特徴を決定するステップは、
処理対象である音声情報から、N次元のフィルタバンク(filter-bank)特徴及びM次元のピッチ(pitch)特徴を抽出するステップであって、N及びMは共に正の整数である、ステップと、
N次元のfilter-bank特徴とM次元のpitch特徴を結合し、第2音声特徴を得るステップと、
第2音声特徴をトレーニング済みの自動音声認識(ASR)ネットワークに入力し、トレーニング済みのASRネットワークのボトルネックの線形層から、第1テキストボトルネック特徴を抽出するステップと、を含む。
【0007】
いくつかの実施例において、第1組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶(LSTM)モデルに入力し、第1組み合わせ特徴ベクトルの音声処理を行うことで、処理後の音声情報を得るステップは、
トレーニング済みの単一方向LSTMモデルによって、第1組み合わせ特徴ベクトルに対して音声強調処理を行うステップと、
処理結果に対して特徴逆変換を行い、音声情報を周波数領域から時間領域に変換し、前記雑音低減後の音声情報を得るステップと、を含む。
【0008】
いくつかの実施例において、ASRネットワークをトレーニングする方法は、
トレーニングステップであって、
ガウス混合モデル(GMM)によって、コーパスに含まれるテキストアノテーションとテキストアノテーションに対応するオーディオファイルをアライメントし、第1テキスト特徴を得て、前記コーパスはASRネットワークをトレーニングするために用いられ、
オーディオファイルから、N次元のフィルタバンク(filter-bank)特徴及びM次元のピッチ(pitch)特徴を抽出し、
N次元のfilter-bank特徴とM次元のpitch特徴を結合し、第3音声特徴を得て、
第3音声特徴をASRネットワークに入力してASRネットワークをトレーニングし、ASRネットワークの出力層から出力される第2テキスト特徴を得て、
第1テキスト特徴の値及び第2テキスト特徴の値に基づき、ASRネットワークのクロスエントロピー(CE)の値を決定する、トレーニングステップと、
トレーニングステップを繰り返して実行し、ASRネットワークをトレーニングして得られたASRネットワークのクロスエントロピー(CE)の値と前回のASRネットワークをトレーニングして得られたASRネットワークのクロスエントロピー(CE)の値との差が第1閾値範囲内に収まる場合、トレーニング済みのASRネットワークを得るステップと、を含む。
【0009】
いくつかの実施例において、単一方向LSTMモデルをトレーニングする方法は、
雑音低減トレーニング用コーパスに含まれる雑音付き音声及び雑音を含まない音声を収集するステップと、
雑音付き音声から第4音声特徴及び第2テキストボトルネック特徴を抽出し、雑音を含まない音声から第5音声特徴を抽出するステップと、
第4音声特徴と第2テキストボトルネック特徴を組み合わせて、第2組み合わせ特徴ベクトルを得るステップと、
第2組み合わせ特徴ベクトルを単一方向LSTMモデルに入力し、単一方向LSTMモデルをトレーニングし、単一方向LSTMモデルから出力される参考値と第5音声特徴値との間の最小平均二乗誤差が第2閾値以下になる場合、トレーニング済みの単一方向LSTMモデルを得るステップと、を含む。
【0010】
いくつかの実施例において、ASRネットワークは、入力層としての4層の隠れ層のディープニューラルネットワーク(DNN)、1つのbottleneckの線形層、及び出力層としての確率分布層(softmax層)を含む。
【0011】
本願の実施例は、音声処理装置をさらに提供し、音声処理装置は、
処理対象である音声情報を収集するように構成される第1処理モジュールと、
処理対象である音声情報に基づき、第1音声特徴及び第1テキストボトルネック特徴を決定するように構成される第2処理モジュールと、
第1音声特徴及び第1テキストボトルネック特徴に基づき、第1組み合わせ特徴ベクトルを決定するように構成される第3処理モジュールと、
第1組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶(LSTM)モデルに入力し、第1組み合わせ特徴ベクトルに対して音声処理を行うことで、雑音低減後の音声情報を得て、雑音低減後の前記音声情報を他の電子機器に送信して再生させるように構成される第4処理モジュールと、を含む。
【0012】
本願の実施例は、電子機器をさらに提供し、電子機器は、プロセッサ、メモリ及びバスを含み、
バスはプロセッサとメモリを接続するために用いられ、
メモリは動作命令を記憶するために用いられ、
プロセッサは、動作命令を呼び出すことで、本願の実施例に記載の音声処理方法を実行するために用いられる。
【0013】
本願の実施例は、本願の実施例に記載の音声処理方法を実行するためのコンピュータプログラムが記憶されているコンピュータ可読記憶媒体をさらに提供する。
【図面の簡単な説明】
【0014】
【
図1A】本願の実施例により提供される音声処理方法が適用されるシステムの構成図である。
【
図1B】本願の実施例により提供される音声処理方法のフローチャートである。
【
図2】本願の実施例により提供されるASRネットワークの模式図である。
【
図3】本願の実施例により提供される別の音声処理方法のフローチャートである。
【
図4】本願の実施例により提供される音声特徴抽出の模式図である。
【
図5】本願の実施例により提供される組み合わせ特徴ベクトルの模式図である。
【
図6】本願の実施例により提供される会議システムの模式図である。
【
図7】本願の実施例により提供される音声処理装置の構成図である。
【
図8】本願の実施例により提供される電子機器の構成図である。
【発明を実施するための形態】
【0015】
本願の実施例における技術的解決手段をより明確に説明するために、上記において、本願の実施例の記載のための図面について簡単に説明した。
【0016】
本願の発明の目的、特徴及び利点をより明確且つ分かりやすくするために、以下において、本願の実施例における図面を参照し、本願の実施例の技術的解決手段を明確に、完全に説明するが、当然ながら、説明される実施例は本願の実施例の一部に過ぎず、全ての実施例ではない。本願における実施例に基づき、当業者が創造的労力を要することなく得られる他の全ての実施例は、いずれも本願の保護範囲に属する。
【0017】
以下において、本願の実施例を詳しく説明するが、該実施例の例が図面に示されており、図面全体にわたって同じ又は類似の符号は同じ又は類似の要素、或いは、同じ又は類似の機能を有する要素を表す。以下に図面を参照して説明する実施例は例示的なものであり、単に本願を解釈するためのものであり、本願に対する制限と解釈すべきものではない。
【0018】
当業者であれば理解できるように、特別な説明がない限り、ここで使用される単数形「一」、「一つ」、及び「該」は複数形を含んでもよい。なお、本願の明細書に記載される「含む」という語句とは、特徴、整数、ステップ、動作、要素及び/又はコンポーネントを有することを指しているが、一つ又は複数の他の特徴、整数、ステップ、動作、要素、コンポーネント及び/又はそれらの群の存在又は追加を除外することを意味しないとさらに理解すべきである。そして、要素が別の要素に「接続」又は「カップリング」されることが記載されている場合、それは他の要素に直接接続又はカップリングされてもよく、又は中間素子が存在してもよいと理解すべきである。また、ここで使用される「接続」又は「カップリング」は無線接続又は無線カップリングを含んでもよい。ここで使用される「及び/又は」という語句は、一つ又は複数の関連する列記項目の全てもしくは任意のユニット及びあらゆる組み合わせを含む。
【0019】
人工知能(Artificial Intelligence:AIと略称)は、デジタルコンピュータ又はデジタルコンピュータに制御される機械を用いて人間の知能をシミュレーション、延長及び拡張し、環境を知覚し、知識を取得して使用することで最善の結果を得る理論、方法、技術及び応用システムである。言い換えれば、人工知能はコンピュータ科学の総合技術であり、知能の本質を理解し、人間知能と同様な方式で反応できる新たな知能機械を創出することを意図するものである。つまり、人工知能は様々な知能機械の設計原理と実現方法を研究し、機械に知覚、推論及び意思決定の機能を備えるものである。
【0020】
人工知能技術は総合学科であり、広範な技術が関連し、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工知能の基本的技術は一般的にセンサ、人工知能専用チップ、クラウドコンピューティング、分散記憶、ビッグデータの処理技術、操作/インタラクションシステム、電気機械一体化等の技術を含む。人工知能ソフトウェア技術は主にコンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習/深層学習等の研究方向がある。
【0021】
音声技術(Speech Technology)には自動音声認識技術(ASR)、音声合成技術(TTS)及び声紋認識技術という重要な技術がある。コンピュータが聞く、見る、話す、感じることを可能にすることは、将来ヒューマンマシンインタラクションの発展方向であり、そのうち、音声は将来性が最も高いヒューマンマシンインタラクションの一つと見られている。
【0022】
本願の実施例の解決手段をより良く理解及び説明するために、以下に本願の実施例に係るいくつかの技術用語を簡単に説明する。
【0023】
ニューラルネットワーク
動物ニューラルネットワーク行動特徴を擬似し、分散型並列情報処理を行うアルゴリズム数学モデルである。このようなネットワークは、システムの複雑さに依存して内部の多くのノード間の相互接続関係を調整することにより、情報を処理する目的を達成する。
【0024】
ディープニューラルネットワーク
DNN(Deep Neural Networks:ディープニューラルネットワーク)とは、少なくとも一つの隠れ層を有し、活性化関数で非線形化を行い、クロスエントロピーを損失関数として使用し、逆伝播最適化アルゴリズム(例えば、確率的勾配降下法、バッチ勾配降下法)を用いて学習やトレーニングを行う(ニューロン間の重みを調整して更新する)フィードフォワードニューラルネットワークである。
【0025】
自動音声認識
ASR(Automatic Speech Recognition:自動音声認識)技術は、コンピュータが様々な人から話した連続的な音声をディクテーションできるようにすること、つまり、一般的に知られているディクテーションマシンを実現することを目標としており、音声からテキストへの変換を可能にするための技術である。自動音声認識は、音声認識(Speech Recognition)又はコンピュータ音声認識(Computer Speech Recognition)とも呼ばれる。
【0026】
メル周波数ケプストラム係数
MFCC(Mel Frequency Cepstrum Coefficient:メル周波数ケプストラム係数)は、人間の聴覚特徴を考慮し、線性スペクトルを聴覚感知に基づくメルMel非線形スペクトルにマッピングしてからケプストラム上に変換したものである。メル周波数は、耳の聴覚特性に基づいて提案されたものであり、Hz周波数と非線形対応関係を呈しており、メル周波数ケプストラム係数は、それらの間のこのような関係を利用して算出したHzスペクトル特徴であり、主に音声データ特徴の抽出及び計算次元の削減に用いられる。
【0027】
確率分布softmax層
softmax層の出力は、合計が1になる一連の正数であり、つまり、softmax層から得られる出力は確率分布と見なすことができる。softmax層はニューラルネットワークの出力を確率分布に変換する。
【0028】
音声強調
音声信号が様々な雑音により干渉され、ひいては埋もれた場合、雑音背景から有用な音声信号を抽出し、雑音干渉を抑制し、低減する技術であり、雑音付き音声から可能な限りクリーンなオリジナル音声を抽出するものである。
【0029】
クロスエントロピー
CE(Cross Entropy:クロスエントロピー)は、確率分布q(x)によって確率分布p(x)を表す難易度と見なすことができる。クロスエントロピーは二つの確率分布q(x)とp(x)の距離を表し、つまり、クロスエントロピーの値が小さいほど(相対エントロピーの値が小さいほど)、二つの確率分布q(x)とp(x)が近い。クロスエントロピー損失関数は、分類課題、特にニューラルネットワークの分類課題によく用いられ、クロスエントロピーは、各カテゴリの確率の計算に関するため、ニューラルネットワークにおいて、softmax関数と密に関連している。
【0030】
長短期記憶(LSTM)
LSTM(Long Short-Term Memory)長短期記憶ネットワークは、時系列における間隔と遅延が相対的に長い重要なイベントの処理や予測に適する時間回帰ニューラルネットワークであり、LSTMは、回帰型ニューラルネットワークRNNの構造に存在する勾配減少の問題を解決するために提案される特別な回帰型ニューラルネットワークである。LSTMはLSTMブロック(blocks)を含有する人工ニューラルネットワークであり、LSTMブロックは、インテリジェントネットワークユニットであってよく、非固定時間長の値を記憶することができるものであり、且つ、入力inputが記憶できるほど重要であるか否か、及び出力outputできるか否かを決定可能なゲートgateが存在しているものである。
【0031】
ガウス混合モデル
ガウスモデルとは、ガウス確率密度関数(正規分布曲線)で事物を正確に定量化し、一つの事物をガウス確率密度関数(正規分布曲線)に基づいて形成される複数のモデルに分解するものである。画像背景に対してガウスモデルを確立する原理及びプロセスにおいて、画像階調ヒストグラムは画像に特定の階調値が現れる頻度を表すものであり、画像階調確率密度に対する推定と考えられてもよい。GMM(Gaussian mixture model:ガウス混合モデル)はK個のガウスモデルを使用して画像内の各画素点の特徴を表し、Kは正の整数であり、新たな1フレームの画像を取得すると、ガウス混合モデルを更新し、現在の画像内の各画素点をガウス混合モデルとマッチングさせ、成功すれば、この点を背景点として判定し、そうでなければ前景点と判定する。ガウスモデル全体から見れば、それは主に分散と平均値の二つのパラメータによって決められ、平均値と分散への学習に採用する学習メカニズムにより、モデルの安定性、精度及び収束性に直接影響が及ぼされる。
【0032】
テキストツースピーチ(Text To Speech:TTSと略称)におけるテキスト情報抽出方法を利用してテキスト情報を抽出するプロセスにおいて、テキスト情報を抽出する雑音低減ネットワークモデルには、テスト時、テキスト情報を必要とするため、実際に応用しにくく、そして、テキスト情報と雑音付き音声特徴をアライメントする必要があるため、リアルタイムに動作しにくく、且つアライメント精度が雑音低減結果に影響を与えることがあり、また、相応するテキストアノテーションを有するトレーニング用雑音低減音声が求められるため、実際にトレーニング用コーパスを多く得ることは困難であるという欠点が存在している。
【0033】
これに鑑み、本願の実施例は音声処理方法を提供する。本願の実施例により提供される技術的解決手段は人工知能の音声技術に関し、以下において図面を参照し、具体例によって本願の技術的解決手段及び本願の技術的解決手段が上記技術的課題をどのように解決するかについて詳しく説明する。
【0034】
図1Aは本願の実施例により提供される音声処理方法が適用されるシステムの構成図である。
図1Aを参照し、該システムの構成図はサーバ11、ネットワーク12及びユーザ端末13を含み、サーバ11はネットワーク12を介してユーザ端末13に接続される。
【0035】
本願のいくつかの実例では、サーバ11は処理対象である音声情報を処理するためのバックグラウンドサーバである。サーバ11はユーザ端末13とともにユーザにサービスを提供し、例えば、サーバ11は処理対象である音声情報を処理した後、処理後の音声情報を、ユーザが使用できるように、ユーザ端末13に送信し、ここで、サーバ11は独立のサーバであっても複数のサーバからなるクラスタサーバであってもよい。
【0036】
ネットワーク12は有線ネットワークと無線ネットワークを含むことができる。
図1Aに示すように、アクセスインターネット側において、ユーザ端末13は無線の形態又は有線の形態でネットワーク12にアクセスすることができるが、コアネットワーク側において、サーバ11は、一般的に、有線の形態でネットワーク12に接続される。当然ながら、上記サーバ11は無線の形態でネットワーク12に接続してもよい。
【0037】
上記ユーザ端末13は、データ算出処理機能を有するスマートデバイスであってよく、例えば、サーバから提供される処理後の音声情報を再生するか、或いは、処理対象である音声情報を処理した後、処理後の音声情報を直接再生したり、他のユーザ端末に送信して再生させたりすることができるものである。ユーザ端末13は(通信モジュールが装着された)スマートフォン、パーソナルデジタルアシスタント、タブレットコンピュータ等を含むが、それらに限定されない。ユーザ端末13には、オペレーティングシステムがインストールされており、オペレーティングシステムは、Android(登録商標)オペレーティングシステム、Symbian(登録商標)オペレーティングシステム、Windows(登録商標) mobileオペレーティングシステム、及びアップルiPhone(登録商標) OSオペレーティングシステム等を含むが、それらに限定されない。
【0038】
図1Aに示すシステムの構成図に基づき、本願の実施例は音声処理方法を提供し、
図1A中のサーバ11であっても、
図1A中のユーザ端末13であってもよい。電子機器によって実行され、該方法のフローチャートは
図1Bに示すとおりであり、該方法は以下のステップを含む。
【0039】
S101では、処理対象である音声情報を取得する。
【0040】
いくつかの実施例では、処理対象である音声情報は会議システムの通話音声である。
【0041】
S102では、処理対象である音声情報に基づき、第1音声特徴及び第1テキストボトルネック(bottleneck)特徴を決定する。
【0042】
いくつかの実施例では、第1音声特徴は、対数パワースペクトル又はMFCC(Mel-Frequency Cepstral Coefficients:メル周波数ケプストラム係数)特徴であってよい。
【0043】
いくつかの実施例では、ボトルネック(bottleneck)の線形層から第1テキストbottleneck特徴を抽出する。該ボトルネック(bottleneck)の線形層はボトルネック層であり、ボトルネック層は多層パーセプトロン(multiplayer perceptron)の真ん中にある層にあり、そのニューロンの個数が他の層のニューロンの個数に対して大幅に少なく、このため、ニューラルネットワーク全体はボトルネックのようなものであり、ボトルネック層から抽出された特徴は、ボトルネック特徴である。
【0044】
S103では、第1音声特徴及び第1テキストbottleneck特徴に基づき、第1組み合わせ特徴ベクトルを決定する。
【0045】
いくつかの実施例では、第1音声特徴と第1テキストbottleneck特徴を結合して第1組み合わせ特徴ベクトルを得て、第1組み合わせ特徴ベクトルの次元は、第1音声特徴の1フレームあたりの次元と第1テキストbottleneck特徴の次元との和である。
【0046】
S104では、第1組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶(LSTM)モデルに入力し、第1組み合わせ特徴ベクトルの音声処理を行うことで、雑音低減後の音声情報を得て、雑音低減後の前記音声情報を他の電子機器に送信して再生させる。
【0047】
いくつかの実施例では、音声処理は音声強調(Speech Enhancement)であり、音声強調は実質的には音声の雑音を低減することであり、マイクが収集した音声は通常、様々な雑音付き音声であり、音声強調は雑音付き音声から雑音を含まない音声を回復することを主な目的としている。音声強調により、様々な干渉信号を効果的に抑制し、目標音声信号を強調することができ、音声の明確度と品質が高まるだけでなく、音声認識精度の向上にもつながる。
【0048】
本願の実施例では、処理対象である音声情報を収集し、処理対象である音声情報に基づき、第1音声特徴及び第1テキストボトルネック(bottleneck)特徴を決定し、第1音声特徴及び第1テキストbottleneck特徴に基づき、第1組み合わせ特徴ベクトルを決定し、そして第1組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶(LSTM)モデルに入力し、第1組み合わせ特徴ベクトルの音声処理を行うことで、処理後の音声情報を得る。本願の実施例の解決手段は、第1テキストボトルネック(bottleneck)特徴に基づく音声処理を可能にし、音声雑音低減の効率と音声の品質を高める。
【0049】
いくつかの実施例では、処理対象である音声情報に基つき、第1音声特徴を決定するステップは、
処理対象である音声情報のフレーム分割処理及び窓掛け処理を行うステップと、フレーム分割処理及び窓掛け処理を行った後の前記処理対象である音声情報から、第1音声特徴を抽出するステップであって、第1音声特徴は、対数パワースペクトル特徴、メル周波数ケプストラム係数(MFCC)特徴の少なくとも一つを含むステップと、を含む。
【0050】
いくつかの実施例では、フレーム分割処理は、処理対象である音声情報に含まれる不定長のオーディオを固定長の区切りに切り分けるものであり、それは、後続のフーリエ変換が安定信号の解析に適するためであり、それに対して、オーディオ信号が急速に変化するものであり、窓境界による信号欠落を回避するために、フレームをオフセットする時、フレーム間で重畳する必要があり、フレームとフレームの間で一部重ねる必要がある。一般的には、フレーム長は25msとし、フレームオフセットは10msとし、フレーム間の時間差は10msとし、この場合、フレーム間に重なりが生じる。
【0051】
いくつかの実施例では、フーリエ変換に安定の入力信号が求められているが、オーディオ信号は、全体的に言えば、安定的なものではなく、窓掛け処理では、一般的に、各フレームの信号を一つの平滑化の窓関数と乗算し、フレームの両端を滑らかにゼロに減衰させ、このようにして、フーリエ変換を行った後のサイドローブの強度を低減し、より高い品質のスペクトルを得ることができる。時間領域で、メインローブ以外に、現れるべきではないサイドローブが現れてしまい、即ちスペクトル漏れが発生し、それの切り捨ては窓関数によって実施され、実際に、窓関数は、いずれも、ある程度の振幅のサイドローブが生じ得るため、畳み込み時、離散点の周波数上に振幅成分が存在する以外、隣接する二つの周波数点間にも異なる程度の振幅が存在する。
【0052】
いくつかの実施例では、処理対象である音声情報に基づき、第1テキストbottleneck特徴を決定するステップは、
処理対象である音声情報から、N次元のフィルタバンク(filter-bank)特徴及びM次元のピッチ(pitch)特徴を抽出するステップであって、N及びMは共に正の整数であるステップと、
N次元のfilter-bank特徴とM次元のpitch特徴を結合し、第2音声特徴を得るステップと、
第2音声特徴をトレーニング済みの自動音声認識(ASR)ネットワークに入力し、トレーニング済みのASRネットワークのボトルネック(bottleneck)の線形層から、第1テキストbottleneck特徴を抽出するステップと、を含む。
【0053】
いくつかの実施例では、処理対象である音声情報から、40次元のフィルタバンク(filter-bank)特徴及び3次元のピッチ(pitch)特徴を抽出し、ここで、Nは40であり、Mは3であり、pitchは音声の基本周波数(fundamental frequency(F0))と関連性があり、音高に関する情報、即ちトーンを表す。フィルタバンクは1組のフィルタであり、1組のフィルタはF個のフィルタを含み、Fは正の整数であり、同一の信号をフィルタリングして、F個の同期信号を出力するものであり、各フィルタに異なる応答関数、中心周波数、ゲイン、帯域幅を指定することができ、一つのフィルタバンクでは、各フィルタの周波数が昇順に並べられ、それぞれ異なる周波数に集中し、且つフィルタの数が十分に多く、異なる時刻での各出力信号の短期間エネルギーを決定し、サウンドスペクトログラムSpectrogramを得ることができる。
【0054】
いくつかの実施例では、第1組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶(LSTM)モデルに入力し、第1組み合わせ特徴ベクトルの音声処理を行うことで、処理後の音声情報を得るステップは、
トレーニング済みの単一方向LSTMモデルによって、第1組み合わせ特徴ベクトルに対して音声強調処理を行うステップと、
処理結果に対して特徴逆変換を行い、音声情報を周波数領域から時間領域に変換し、処理後の音声情報を得るステップと、を含む。
【0055】
本願の実施例では、テキストと関連するLSTMモデルを使用して第1組み合わせ特徴ベクトルの音声処理を実現し、音声雑音低減性能を向上させる。
【0056】
いくつかの実施例では、ASRネットワークをトレーニングする方法は、
トレーニングステップであって、
ガウス混合モデル(GMM)によって、ASRネットワークをトレーニングするためのコーパスに含まれるテキストアノテーションとテキストアノテーションに対応するオーディオファイルとをアライメントし、第1テキスト特徴を得て、
オーディオファイルから、N次元のフィルタバンク(filter-bank)特徴及びM次元のピッチ(pitch)特徴を抽出し、
N次元のfilter-bank特徴とM次元のpitch特徴を結合し、第3音声特徴を得て、
第3音声特徴をASRネットワークに入力してASRネットワークをトレーニングし、ASRネットワークの出力層から出力される第2テキスト特徴を得て、
第1テキスト特徴値及び第2テキスト特徴の値に基づき、ASRネットワークのクロスエントロピー(CE)の値を決定する、トレーニングステップと、
トレーニングステップを繰り返して実行し、ASRネットワークをトレーニングして得られたASRネットワークのクロスエントロピー(CE)の値と前回のASRネットワークをトレーニングして得られたASRネットワークのクロスエントロピー(CE)の値との差が第1閾値範囲内に収まる場合、トレーニング済みのASRネットワークを得るステップと、を含む。
【0057】
いくつかの実施例では、ASRネットワークの出力層はsoftmax層であり、softmax層は一つの確率分布を出力して損失関数を実現し、該損失関数はクロスエントロピーであり、現在出力された各値の正規化値を算出し、最大の値を1とし、他の値を0とする。損失関数は前方伝播出力と所望値のフィッティング程度を表すために用いられ、典型的な分類損失関数はクロスエントロピーであり、ネットワーク出力確率分布と所望の出力確率分布の間の距離(類似度)を表すために用いられ、分類課題に使用される損失関数の一つである。
【0058】
本願の実施例では、ASRをトレーニングするためのコーパスと雑音低減トレーニング用コーパスは別々のものであり、雑音低減音声は相応するテキストアノテーションを必要とせず、一方で、ASRをトレーニングするためのコーパスが容易に入手でき、ASRネットワークをトレーニングする時、後向き情報が利用されないため、リアルタイムな処理を実現することができる。
【0059】
いくつかの実施例では、単一方向LSTMモデルをトレーニングする方法は、
雑音低減トレーニング用コーパスに含まれる雑音付き音声及び雑音を含まない音声を収集するステップと、
雑音付き音声から、第4音声特徴及び第2テキストbottleneck特徴を抽出し、雑音を含まない音声から第5音声特徴を抽出するステップと、
第4音声特徴と第2テキストbottleneck特徴を組み合わせて、第2組み合わせ特徴ベクトルを得るステップと、
第2組み合わせ特徴ベクトルを単一方向LSTMモデルに入力し、単一方向LSTMモデルをトレーニングし、単一方向LSTMモデルから出力される参考値と第5音声特徴値との間の最小平均二乗誤差が第2閾値以下になる場合、トレーニング済みの単一方向LSTMモデルを得るステップと、を含む。
【0060】
いくつかの実施例では、
図2に示すように、ASRネットワークは、入力層としての4層の隠れ層のディープニューラルネットワーク(DNN)、1つのbottleneckの線形層、及び出力層としての確率分布層(softmax層)を含む。x
tはASRネットワークの入力であり、y
tはASRネットワークの出力であり、ここで、x
tはASRネットワークの第1隠れ層の入力であり、ASRネットワークの第1隠れ層の出力はASRネットワークの第2隠れ層の入力であり、ASRネットワークの第2隠れ層の出力はASRネットワークの第3隠れ層の入力であり、ASRネットワークの第3隠れ層の出力はASRネットワークのbottleneckの線形層の入力であり、ASRネットワークのbottleneckの線形層の出力はASRネットワークの第4隠れ層の入力であり、ASRネットワークの第4隠れ層の出力はASRネットワークのsoftmax層の入力であり、softmax層の出力はy
tである。
【0061】
本願の実施例は別の音声処理方法を提供し、
図1A中のサーバ11であっても
図1A中のユーザ端末13であってもよい電子機器によって実行され、該方法のフローチャートは
図3に示すとおりであり、該方法は以下のステップを含む。
【0062】
S201では、雑音付き音声を取得し、収集された音声に対してフレーム分割処理及び窓掛け処理を行い、音声特徴を抽出する。
【0063】
説明すべきこととして、雑音付き音声は処理対象である音声情報であり、音声特徴は第1音声特徴である。
【0064】
いくつかの実施例では、抽出された音声特徴は、対数パワースペクトル又はMFCC(Mel-Frequency Cepstral Coefficients:メル周波数ケプストラム係数)特徴であってよい。
【0065】
いくつかの実施例では、
図4に示すように、音声に対してフレーム分割処理及び窓掛け処理を行ってから、フレームごとにFFT(Fast Fourier Transformation:高速フーリエ変換)をそれぞれ行い、FFTを行った後の離散パワースペクトルを決定し、得られた離散パワースペクトルに対して対数を求め、対数パワースペクトルを得ると、音声特徴が得られる。
【0066】
S202では、収集された雑音付き音声からテキストbottleneck特徴を抽出する。
【0067】
説明すべきこととして、テキストbottleneck特徴は第1テキストbottleneck特徴である。
【0068】
いくつかの実施例では、収集された雑音付き音声から、40次元のフィルタバンク(filter-bank)特徴及び3次元のピッチ(pitch)特徴を抽出し、40次元のfilter-bank特徴と3次元のpitch特徴を結合し、第2音声特徴を得て、そして第2音声特徴をトレーニング済みの自動音声認識(ASR)ネットワークに入力し、トレーニング済みのASRネットワークのボトルネック(bottleneck)の線形層からテキストbottleneck特徴を抽出する。
【0069】
S203では、抽出された音声特徴とテキストbottleneck特徴を組み合わせて、組み合わせ特徴ベクトルを得る。
【0070】
説明すべきこととしては、組み合わせ特徴ベクトルは第1組み合わせ特徴ベクトルである。
【0071】
いくつかの実施例では、音声特徴とテキストbottleneck特徴を結合し、組み合わせ特徴ベクトルを得て、組み合わせ特徴ベクトルの次元は、音声特徴の1フレームあたりの次元とテキストbottleneck特徴の次元の和である。
図5に示すように、音声特徴の1フレームあたりの次元は257であり、テキストbottleneck特徴の次元は100であり、組み合わせ特徴ベクトルの次元は、音声特徴の1フレームあたりの次元とテキストbottleneck特徴の次元の和であり、即ち、組み合わせ特徴ベクトルの次元は357である。
【0072】
S204では、組み合わせ特徴ベクトルをトレーニング済みの単一方向LSTMモデルに入力して音声強調を行う。
【0073】
S205では、トレーニング済みの単一方向LSTMモデルを経由してから、雑音を含まない音声信号を得る。
【0074】
いくつかの実施例では、トレーニング済みの単一方向LSTMモデルによって、入力された組み合わせた特徴ベクトルに対して音声強調処理を行い、続いて単一方向LSTMモデルの出力結果に対して特徴逆変換を行い、それによって、単一方向LSTMモデルの出力結果の周波数領域から時間領域への変換を実現し、強調後の時間領域音声を得る。
【0075】
いくつかの実施例では、ASRをトレーニングするためのコーパスは音声(雑音付き音声及び/又はクリーン音声)及びテキストを含み、雑音低減トレーニング用コーパスは雑音付き音声及びクリーン音声(雑音を含まない音声)を含む。
【0076】
本願の実施例では、雑音付き音声のテキスト情報を必要とせずに、リアルタイムな雑音低減を実現し、ASRをトレーニングするためのコーパスと雑音低減トレーニング用コーパスは別々のものであり、雑音低減音声は相応するテキストアノテーションを必要とせず、一方で、ASRをトレーニングするためのコーパスが容易に入手でき、ASRネットワークをトレーニングする時、後向き情報を利用していないため、リアルタイムな処理を実現することができる。単一方向LSTMモデルをトレーニングする時、テキスト特徴を入力として追加するため、トレーニングして得られた単一方向LSTMモデルは、実験結果的に、無音である区切りの雑音を基本的に完全に除去でき、音声を有する区切りの雑音成分を抑制するという有益な結果が得られ、雑音低減性能を効果的に向上させる。
【0077】
本願の実施例により提供される方法をより明確に理解するために、以下に具体的な応用シーンの例により本願の実施例の解決手段をさらに詳しく説明する。
【0078】
図6に示すように、会議システムの音声通話シーンにおいて、会議に参加する両方は端末の会議ソフトウェアによって音声通話に参加し、例えば、
図1Aに示すユーザ端末によって音声通話に参加し、会議に参加する両方は会議ソフトウェアによって音声通話を可能にする。音声通話プロセスにおいて、音声処理は、自動ゲイン制御モジュール、オーディオ符号化モジュール、オーディオ復号化モジュール、エコー除去モジュール、音声雑音低減モジュール、及びハウリング抑圧モジュール等のモジュールによって実現され、そのうち、音声雑音低減モジュールは通話品質を左右する重要なモジュールである。音声雑音低減モジュールは、まず、bottleneckの線形層を有する共通の自動音声認識ASRネットワークをトレーニングし、次に、話者の雑音付き音声をトレーニング済みのASRネットワークのbottleneckの線形層に入力し、ASRネットワークのbottleneckの線形層によってテキストbottleneck特徴を抽出する。音声雑音低減モジュールは、話者の雑音付き音声に対してフレーム分割処理及び窓掛け処理を行い、続いて、フレームごとに高速フーリエ変換FFTをそれぞれ行い、FFTを行った離散パワースペクトルを決定し、得られた離散パワースペクトルに対して対数を求め、音声特徴である対数パワースペクトルを得る。音声雑音低減モジュールは、抽出されたテキストbottleneck特徴を音声特徴とともに組み合わせ、組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶(LSTM)モデルに入力し、トレーニング済みの単一方向LSTMモデルによって音声強調処理を行い、トレーニング済みの単一方向LSTMモデルの出力に対して特徴逆変換を行い、時間領域の雑音を含まない話者の音声を出力する。
【0079】
音声雑音低減モジュールは、話者の通話音声のテキストbottleneck特徴を導入することにより、雑音低減性能を最適化し、テキストbottleneck特徴に基づき、どの音声フレームが有効なものであるか、どの音声フレームに雑音を除去する必要があるかを効果的に判定することができ、それによって、より多くの音声を残させ、雑音低減効果をさらに高め、通話をより明確にし、且つ音声を誤って削除した従来の問題を軽減する。例えば、会議を行う場合、話者が「これで会議を開始する」との言葉を話すと、音声認識ネットワークASRはこの音声のテキスト内容を得て、この音声が人の話しであり、削除してはならないと確認することができる。トレーニング済みのASRネットワークによって雑音低減を補助するための通話音声のテキストbottleneck特徴を得ることで、雑音低減性能がさらに向上し、全体的な体験がより高くなり、また、雑音低減により一部の有効音声が誤って削除されるという問題が大幅に改善され、通話が滑らかになり、通話の品質が高められる。
【0080】
同様の発明構想に基づき、本願の実施例は音声処理装置をさらに提供し、該装置の構成図は
図7に示すとおりであり、音声処理装置60は、第1処理モジュール601、第2処理モジュール602、第3処理モジュール603及び第4処理モジュール604を含む。
【0081】
第1処理モジュール601は、処理対象である音声情報を取得するように構成され、
第2処理モジュール602は、処理対象である音声情報に基づき、第1音声特徴及び第1テキストボトルネック(bottleneck)特徴を決定するように構成され、
第3処理モジュール603は、第1音声特徴及び第1テキストbottleneck特徴に基づき、第1組み合わせ特徴ベクトルを決定するように構成され、
第4処理モジュール604は、第1組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶(LSTM)モデルに入力し、第1組み合わせ特徴ベクトルの音声処理を行うことで、雑音低減後の音声情報を得て、雑音低減後の前記音声情報を他の電子機器に送信して再生させるように構成される。
【0082】
いくつかの実施例では、第2処理モジュール602は、具体的に、処理対象である音声情報に対してフレーム分割処理及び窓掛け処理を行うステップと、フレーム分割処理及び窓掛け処理を行った後の前記処理対象である音声情報から、第1音声特徴を抽出するステップであって、第1音声特徴は、対数パワースペクトル特徴、メル周波数ケプストラム係数(MFCC)特徴の少なくとも一つを含むステップと、を実行するように構成される。
【0083】
いくつかの実施例では、第2処理モジュール602は、具体的に、処理対象である音声情報から、N次元のフィルタバンク(filter-bank)特徴及びM次元のピッチ(pitch)特徴を抽出するステップであって、N及びMは共に正の整数であるステップと、N次元のfilter-bank特徴とM次元のpitch特徴を結合し、第2音声特徴を得るステップと、第2音声特徴をトレーニング済みの自動音声認識(ASR)ネットワークに入力し、トレーニング済みのASRネットワークのボトルネック(bottleneck)の線形層から第1テキストbottleneck特徴を抽出するステップと、を実行するように構成される。
【0084】
いくつかの実施例では、第4処理モジュール604は、具体的に、トレーニング済みの単一方向LSTMモデルによって第1組み合わせ特徴ベクトルに対して音声処理を行うステップと、処理結果に対して特徴逆変換を行い、音声情報を周波数領域から時間領域に変換し、処理後の音声情報を得るステップと、を実行するように構成される。
【0085】
いくつかの実施例では、ASRネットワークをトレーニングする方法は、
トレーニングステップであって、
ガウス混合モデル(GMM)によって、ASRネットワークをトレーニングするためのコーパスに含まれるテキストアノテーションとテキストアノテーションに対応するオーディオファイルをアライメントし、第1テキスト特徴を得て、
オーディオファイルから、N次元のフィルタバンク(filter-bank)特徴及びM次元のピッチ(pitch)特徴を抽出し、
N次元のfilter-bank特徴とM次元のpitch特徴を結合し、第3音声特徴を得て、
第3音声特徴をASRネットワークに入力してASRネットワークをトレーニングし、ASRネットワークの出力層から出力される第2テキスト特徴を得て、
第1テキスト特徴値及び第2テキスト特徴の値に基づき、ASRネットワークのクロスエントロピー(CE)の値を決定する、トレーニングステップと、
トレーニングステップを繰り返して実行し、ASRネットワークをトレーニングして得られたASRネットワークのクロスエントロピー(CE)の値と前回のASRネットワークをトレーニングして得られたASRネットワークのクロスエントロピー(CE)の値との差が第1閾値範囲内に収まる場合、トレーニング済みのASRネットワークを得るステップと、を含む。
【0086】
いくつかの実施例では、単一方向LSTMモデルをトレーニングする方法は、
雑音低減トレーニング用コーパスに含まれる雑音付き音声及び雑音を含まない音声を収集するステップと、
雑音付き音声から、第4音声特徴及び第2テキストbottleneck特徴を抽出し、雑音を含まない音声から第5音声特徴を抽出するステップと、
第4音声特徴と第2テキストbottleneck特徴を組み合わせて、第2組み合わせ特徴ベクトルを得るステップと、
第2組み合わせ特徴ベクトルを単一方向LSTMモデルに入力し、単一方向LSTMモデルをトレーニングし、単一方向LSTMモデルから出力される参考値と第5音声特徴値との間の最小平均二乗誤差が第2閾値以下になる場合、トレーニング済みの単一方向LSTMモデルを得るステップと、を含む。
【0087】
いくつかの実施例では、ASRネットワークは、入力層としての4層の隠れ層のディープニューラルネットワーク(DNN)、1つのbottleneckの線形層、及び出力層としての確率分布層(softmax層)を含む。
【0088】
本願の実施例により提供される音声処理装置において詳しく説明していない内容については、上記実施例1により提供される音声処理方法を参照すればよく、本願の実施例により提供される音声処理装置が達成可能な有益な効果は、上記実施例1により提供される音声処理方法と同じであり、ここで詳細な説明を省略する。
【0089】
本願の実施例を適用すると、少なくとも下記の有益な効果が得られる。
【0090】
処理対象である音声情報を収集し、処理対象である音声情報に基つき、第1音声特徴及び第1テキストボトルネック(bottleneck)特徴を決定し、第1音声特徴及び第1テキストbottleneck特徴に基づき、第1組み合わせ特徴ベクトルを決定し、そして第1組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶(LSTM)モデルに入力し、第1組み合わせ特徴ベクトルの音声処理を行うことで、処理後の音声情報を得る。本願の実施例の解決手段は、第1テキストボトルネック(bottleneck)特徴に基づく音声処理を可能にし、音声雑音低減の効率と音声の品質を高める。
【0091】
同様の発明構想に基づき、本願の実施例は電子機器をさらに提供し、該電子機器の構成図は
図8に示すとおりであり、該電子機器6000は、少なくとも一つのプロセッサ6001、メモリ6002、及びバス6003を含み、少なくとも一つのプロセッサ6001はいずれもメモリ6002に電気的に接続され、メモリ6002は少なくとも一つのコンピュータ実行可能命令を記憶するように構成され、プロセッサ6001は、該少なくとも一つのコンピュータ実行可能命令を実行し、それによって、本願の実施例1における任意の実施例又は選択的実施形態により提供される任意の音声処理方法のステップを実行するように構成される。
【0092】
さらに、プロセッサ6001は、FPGA(Field-Programmable Gate Array:フィールドプログラマブルゲートアレイ)、又は、例えばMCU(Microcontroller Unit:マイクロコントローラユニット)、CPU(Central Process Unit:中央処理装置)のような論理処理性能を有する他のデバイスであってよい。
【0093】
本願の実施例を適用すると、少なくとも下記の有益な効果が得られる。
【0094】
処理対象である音声情報を収集し、処理対象である音声情報に基づき、第1音声特徴及び第1テキストボトルネック(bottleneck)特徴を決定し、第1音声特徴及び第1テキストbottleneck特徴に基づき、第1組み合わせ特徴ベクトルを決定し、そして第1組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶(LSTM)モデルに入力し、第1組み合わせ特徴ベクトルの音声処理を行うことで、処理後の音声情報を得る。本願の実施例の解決手段は、第1テキストボトルネック(bottleneck)特徴に基づく音声処理を可能にし、音声雑音低減の効率と音声の品質を高める。
【0095】
同様の発明構想に基づき、本願の実施例は、プロセッサにより実行されると、本願の実施例1における任意の実施例又は選択的実施形態により提供される任意のデータ音声処理のステップを実現するためのコンピュータプログラムが記憶されている別のコンピュータ可読記憶媒体をさらに提供する。
【0096】
本願の実施例により提供されるコンピュータ可読記憶媒体は、あらゆるタイプのディスク(フロッピー(登録商標)ディスク、ハードディスク、光ディスク、CD-ROMや磁気光ディスクを含む)、ROM(Read-Only Memory:読み取り専用メモリ)、RAM(Random Access Memory:ランダムアクセスメモリ)、EPROM(Erasable Programmable Read-Only Memory:消去可能プログラマブル読み取り専用メモリ)、EEPROM(Electrically Erasable Programmable Read-Only Memory:電気的消去可能なプログラマブル読み取り専用メモリ)、フラッシュメモリ、磁気カード又は光線カードを含むが、それらに限定されない。つまり、可読記憶媒体は、機器(例えば、コンピュータ)が読み取り可能な形態で情報を記憶又は伝送するための任意の媒体を含む。
【0097】
本願の実施例を適用すると、少なくとも下記の有益な効果が得られる。
【0098】
処理対象である音声情報を収集し、処理対象である音声情報に基づき、第1音声特徴及び第1テキストボトルネック(bottleneck)特徴を決定し、第1音声特徴及び第1テキストbottleneck特徴に基づき、第1組み合わせ特徴ベクトルを決定し、そして第1組み合わせ特徴ベクトルをトレーニング済みの単一方向長短期記憶(LSTM)モデルに入力し、第1組み合わせ特徴ベクトルの音声処理を行うことで、処理後の音声情報を得る。本願の実施例の解決手段は、第1テキストボトルネック(bottleneck)特徴に基づく音声処理を可能にし、音声雑音低減の効率と音声の品質を高める。
【0099】
当業者であれば、これらの構成図及び/又はブロック図及び/又はフローチャートにおけるそれぞれのブロック、並びにこれらの構成図及び/又はブロック図及び/又はフローチャートにおけるブロックの組み合わせは、コンピュータプログラム命令によって実現可能であることを理解することができる。また、当業者であれば理解できるように、これらのコンピュータプログラム命令を共通コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理方法用のプロセッサへ提供することで、コンピュータ又は他のプログラマブルデータ処理方法用のプロセッサによって、本願に開示される構成図及び/又はブロック図及び/又はフローチャートにおける一つのブロック又は複数のブロックに指定される解決手段を実行することができる。
【0100】
本願に検討した様々な操作、方法、フローにおけるステップ、措置、解決手段が切り替え、変更、組み合わせ又は削除可能なものであることは当業者であれば理解することができる。さらに、本願で検討した様々な操作、方法、フローにおける他のステップ、措置、解決手段を有するものも、切り替え、変更、並べ替え、分解、組み合わせ又は削除可能なものである。さらに、関連技術における本願に開示される様々な操作、方法、フローにおけるステップ、措置、解決手段を有するものも切り替え、変更、並べ替え、分解、組み合わせ又は削除可能なものである。
【0101】
以上は本願の一部の実施形態に過ぎず、なお、当業者にとって、本願の原理から逸脱することなく、さらにいくつかの改良や修飾を行うことができ、これらの改良や修飾は本願の保護範囲に含まれるものと見なすべきであることに注意されたい。
【符号の説明】
【0102】
11 サーバ
12 ネットワーク
13 ユーザ端末
60 音声処理装置
601 第1処理モジュール
602 第2処理モジュール
603 第3処理モジュール
604 第4処理モジュール
6000 電子機器
6001 プロセッサ
6002 メモリ
6003 バス