(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-09-21
(54)【発明の名称】家庭内会話環境に向けたニューラルネットワーク音声認識方法およびシステム
(51)【国際特許分類】
G10L 15/16 20060101AFI20220913BHJP
G10L 15/10 20060101ALI20220913BHJP
【FI】
G10L15/16
G10L15/10 500Z
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021551834
(86)(22)【出願日】2020-12-03
(85)【翻訳文提出日】2022-03-03
(86)【国際出願番号】 CN2020133554
(87)【国際公開番号】W WO2021208455
(87)【国際公開日】2021-10-21
(31)【優先権主張番号】202010295068.2
(32)【優先日】2020-04-15
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】518371489
【氏名又は名称】南京郵電大学
【氏名又は名称原語表記】NANJING UNIVERSITY OF POSTS AND TELECOMMUNICATIONS
【住所又は居所原語表記】No.66 Xin Mofan Road, Gulou Nanjing, Jiangsu 210003 China
(74)【代理人】
【識別番号】110000291
【氏名又は名称】弁理士法人コスモス国際特許商標事務所
(74)【代理人】
【識別番号】100205936
【氏名又は名称】崔 海龍
(74)【代理人】
【識別番号】100132805
【氏名又は名称】河合 貴之
(72)【発明者】
【氏名】張 暉
(72)【発明者】
【氏名】程 銘
(72)【発明者】
【氏名】趙 海涛
(72)【発明者】
【氏名】孫 雁飛
(72)【発明者】
【氏名】倪 芸洋
(72)【発明者】
【氏名】朱 洪波
(57)【要約】
本発明に係る家庭内会話環境向けたニューラルネットワーク音声認識方法は、ディープニューラルネットワークに長短期記憶ネットワークを加え、組み合わせニューラルネットワークDNN-LSTMモデルを構築するモデル構築ステップと、収集した音声データセットについて前処理し、特徴ベクトルセットを得て、さらに、特徴ベクトルセットをDNN-LSTMモデルの入力として反復訓練を行い、最適な音響モデルになるまで訓練するステップと、一つの未知の言語の入力音声信号を、訓練後のDNN-LSTMモデルを経て、それぞれ中国語出力確率ベクトルセットと英語出力確率ベクトルセットを得るステップと、中国語出力確率ベクトルセットと英語出力確率ベクトルセットに基づいて言語マッチングを行い、判定結果を出力するステップと、を含む。本発明によれば、家庭内において話し手の内容を素早く正確に認識でき、実際の家庭内のシーンにおいて幅広く活用できる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ディープニューラルネットワークに長短期記憶ネットワークを加え、組み合わせニューラルネットワークDNN-LSTMモデルを構築するモデル構築ステップと、
収集した中国語音声データセットについて前処理し、中国語特徴ベクトルセットを得て、さらに、前記中国語特徴ベクトルセットを前記DNN-LSTMモデルの入力として反復訓練を行い、最適な中国語音響モデルになるまで訓練する中国語音声データを訓練するステップと、収集した英語音声データセットについて前処理し、英語特徴ベクトルセットを得て、さらに、前記英語特徴ベクトルセットを前記DNN-LSTMモデルの入力として反復訓練を行い、最適な英語音響モデルになるまで訓練する英語音声データを訓練するステップと、を含むモデル訓練ステップと、
一つの未知の言語の入力音声信号voice0を、それぞれ前記中国語音響モデルと前記英語音響モデルを経て、それぞれ中国語出力確率ベクトルセットと英語出力確率ベクトルセットを得るステップと、前記中国語出力確率ベクトルセットと前記英語出力確率ベクトルセットに基づいて言語マッチングを行い、判定結果を出力するステップと、を含むモデルテストステップと、
を含む、家庭内会話環境に向けたニューラルネットワーク音声認識方法。
【請求項2】
前記組み合わせニューラルネットワークDNN-LSTMモデルは、入力層、長短期記憶ネットワーク、第二隠蔽層、第三隠蔽層、第四隠蔽層および出力層を含み、前記長短期記憶ネットワークは第一隠蔽層である、ことを特徴とする、請求項1に記載の家庭内会話環境に向けたニューラルネットワーク音声認識方法。
【請求項3】
前記第一隠蔽層のノード数は512個であり、その活性化関数はsigmoid関数とtanh関数を選択し、前記第二隠蔽層、前記第三隠蔽層および前記第四隠蔽層のノード数はいずれも1024個であり、活性化関数はsigmoid関数である、ことを特徴とする、請求項2に記載の家庭内会話環境に向けたニューラルネットワーク音声認識方法。
【請求項4】
前記中国語特徴ベクトルセットを前記DNN-LSTMモデルの入力として反復訓練を行い、訓練のステップは、
モデル構造における重み行列Wおよびバイアスベクトルbをランダムな値に初期化するステップ(1)と、
第1回目から最大回数までの反復を開始し、各反復において、いずれも最初の音声データ訓練サンプルから最後の訓練サンプルまでトラバースするステップ(2)と、
各訓練サンプルの訓練では、対応する特徴ベクトルを入力層に入力させ、続いて、第一隠蔽層から出力層までトラバースを開始し、順方向伝搬アルゴリズムで現在トラバースされている対応する入力層を表し、続いて、損失関数に基づいて出力層を表し、続いて、順方向伝搬アルゴリズムを完了した後、第四隠蔽層から第一隠蔽層までトラバースし、逆方向伝搬アルゴリズムで対応する第一隠蔽層を表すステップ(3)と、
逆方向伝搬アルゴリズムを完了した後、第一隠蔽層から出力層まで順番にトラバースを開始し、対応する層の重み行列W
nおよびバイアスベクトルb
nを更新し、nは現在トラバースされている層であって、n=1,2,3,4,5であり、このようにして、一回の反復プロセスにおけるある1つのサンプルについての訓練が終了し、この際、サンプルのトラバースが終わっていない場合には、サンプルのトラバースを続け、サンプルがトラバースされた場合には、次の反復を行うステップ(4)と、
全てのW、bの変更値が反復閾値を超えない場合、反復ループを停止するステップ(5)と、
各層の最適重み行列Wとバイアスベクトルbを保持するステップ(6)と、
含むことを特徴とする、請求項3に記載の家庭内会話環境に向けたニューラルネットワーク音声認識方法。
【請求項5】
前記中国語出力確率ベクトルセットと前記英語出力確率ベクトルセットに基づいて言語マッチングを行うことは、
情報エントロピーの公式を利用して、中国語出力確率ベクトルセットPと英語出力確率ベクトルセットP’に対応する情報エントロピーをそれぞれ計算し、それぞれ対応してHとH’と記録し、ここで、P={p
1,p
2,・・・,p
q},P’={p’
1,p’
2,・・・,p’
t}、qは中国語音響モデルの出力分類の総数であり、tは英語音響モデルの出力分類の総数であることと、
中国語音響モデルから出力された確率ベクトルセットにおいて、他よりも著しく大きい確率値p
iが存在する場合、英語音響モデルから出力された確率ベクトルセットにおける各々の確率値の差は大きくなく、ここで、1≦i≦qであることと、
中国語音響モデルに入力された対応する情報エントロピーHが、英語音響モデルに入力された対応する情報エントロピーH’よりも小さい場合、対応する未知の言語の入力音声信号voice0は中国語であり、中国語音響モデルの出力確率を最終出力結果とすることと、
英語音響モデルから出力された確率ベクトルセットにおいて、他よりも著しく大きい確率値p
jが存在する場合、中国語音響モデルから出力された確率ベクトルセットにおける各々の確率値の差は大きくなく、ここで、1≦j≦tであることと、
英語音響モデルに入力された対応する情報エントロピーH’が、中国語音響モデルに入力された対応する情報エントロピーよりも小さい場合、対応する未知の言語の入力音声信号voice0は英語であり、英語音響モデルの出力確率を最終出力結果とすることと、
を含むことを特徴とする、請求項1に記載の家庭内会話環境に向けたニューラルネットワーク音声認識方法。
【請求項6】
請求項1~5のいずれか一項に記載の家庭内会話環境に向けたニューラルネットワーク音声認識方法を実行するシステムであって、
ディープニューラルネットワークに長短期記憶ネットワークを加え、組み合わせニューラルネットワークDNN-LSTMモデルを構築するモデル構築モジュールと、
収集した中国語音声データセットについて前処理し、中国語特徴ベクトルセットを得て、さらに、中国語特徴ベクトルセットをDNN-LSTMモデルの入力として反復訓練を行い、最適な中国語音響モデルになるまで訓練する中国語モデル訓練ユニットと、収集した英語音声データセットについて前処理し、英語特徴ベクトルセットを得て、さらに、英語特徴ベクトルセットをDNN-LSTMモデルの入力として反復訓練を行い、最適な英語音響モデルになるまで訓練する英語モデル訓練ユニットと、を含むモデル訓練モジュールと、
一つの未知の言語の入力音声信号voice0を、それぞれ中国語音響モデルと英語音響モデルを経て、それぞれ中国語の出力確率ベクトルセットと英語の出力確率ベクトルセットを得る音声入力ユニットと、中国語出力確率ベクトルセットと英語出力確率ベクトルセットに基づいて言語マッチングを行い、判定結果を出力する音声類型判断ユニットと、を含むモデルテストモジュールと、
を含む、家庭内会話環境に向けたニューラルネットワーク音声認識システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、知能認識技術分野に属し、具体的には家庭内会話環境に向けたニューラルネットワーク音声認識方法及びシステムに関する。
【背景技術】
【0002】
音声認識研究の重点対象は音声であり、音声信号をコンピュータが認識できる情報に変換することにより、話し手の音声コマンドや文字内容を認識する。音声認識の方法は基本的に、言語学および音響学、モデルマッチングならびにニューラルネットワークに基づく三つの方法に分けられる。第一の方法は比較的早く現れたが、そのモデル復雑さの制限のため、未だに比較的実用的な段階に達していない。第二の方法において比較的多く応用されるのは隠れマルコフモデルで、問題の確率モデルを表記でき、該モデルは観測シーケンスをランダムに生成でき、音声認識技術を大幅に向上させた。第三の方法は浅いニューラルネットワークを学習訓練に用いるため、勾配が不安定になりやすく、人間によってサンプルの特徴を抽出するのに手間がかかるため、識別効果はあまり良くない。従来の音声認識システムでは、GMM-HMMの音響モデル化方法が実際に最も広く応用されるが、家庭環境下で一部の復雑な音声信号の問題を処理する場合、従来のモデルの応用シーンは比較的に単一にみえる。
【発明の概要】
【0003】
本発明は、上記既存技術における問題点に鑑みてなされたものであり、家庭内会話環境向けたニューラルネットワーク音声認識方法を提供することにより、音声認識率が低く、認識の効率が悪い問題を解決することを目的とする。また、本発明は、家庭内会話環境向けたニューラルネットワーク音声認識システムを提供する。
【0004】
上記目的を達成するための本発明に係る家庭内会話環境向けたニューラルネットワーク音声認識方法は、
ディープニューラルネットワークに長短期記憶ネットワークを加え、組み合わせニューラルネットワークDNN-LSTMモデルを構築するモデル構築ステップと、
収集した中国語音声データセットについて前処理し、中国語特徴ベクトルセットを得て、さらに、前記中国語特徴ベクトルセットを前記DNN-LSTMモデルの入力として反復訓練を行い、最適な中国語音響モデルになるまで訓練する中国語音声データを訓練するステップと、収集した英語音声データセットについて前処理し、英語特徴ベクトルセットを得て、さらに、前記英語特徴ベクトルセットを前記DNN-LSTMモデルの入力として反復訓練を行い、最適な英語音響モデルになるまで訓練する英語音声データを訓練するステップと、を含むモデル訓練ステップと、
一つの未知の言語の入力音声信号voice0を、それぞれ前記中国語音響モデルと前記英語音響モデルを経て、それぞれ中国語出力確率ベクトルセットと英語出力確率ベクトルセットを得るステップと、前記中国語出力確率ベクトルセットと前記英語出力確率ベクトルセットに基づいて言語マッチングを行い、判定結果を出力するステップと、を含むモデルテストステップと、
を含む。
【0005】
さらに、前記組み合わせニューラルネットワークDNN-LSTMモデルは、入力層、長短期記憶ネットワーク、第二隠蔽層、第三隠蔽層、第四隠蔽層および出力層を含み、前記長短期記憶ネットワークは第一隠蔽層である。
【0006】
さらに、前記第一隠蔽層のノード数は512個であり、その活性化関数はsigmoid関数とtanh関数を選択し、前記第二隠蔽層、前記第三隠蔽層および前記第四隠蔽層のノード数はいずれも1024個であり、活性化関数はsigmoid関数である。
【0007】
さらに、前記中国語特徴ベクトルセットを前記DNN-LSTMモデルの入力として反復訓練を行い、訓練のステップは、
モデル構造における重み行列Wおよびバイアスベクトルbをランダムな値に初期化するステップ(1)と、
第1回目から最大回数までの反復を開始し、各反復において、いずれも最初の音声データ訓練サンプルから最後の訓練サンプルまでトラバースするステップ(2)と、
各訓練サンプルの訓練では、対応する特徴ベクトルを入力層に入力させ、続いて、第一隠蔽層から出力層までトラバースを開始し、順方向伝搬アルゴリズムで現在トラバースされている対応する入力層を表し、続いて、損失関数に基づいて出力層を表し、続いて、順方向伝搬アルゴリズムを完了した後、第四隠蔽層から第一隠蔽層までトラバースし、逆方向伝搬アルゴリズムで対応する第一隠蔽層を表すステップ(3)と、
逆方向伝搬アルゴリズムを完了した後、第一隠蔽層から出力層まで順番にトラバースを開始し、対応する層の重み行列Wnおよびバイアスベクトルbnを更新し、nは現在トラバースされている層であって、n=1,2,3,4,5であり、このようにして、一回の反復プロセスにおけるある1つのサンプルについての訓練が終了し、この際、サンプルのトラバースが終わっていない場合には、サンプルのトラバースを続け、サンプルがトラバースされた場合には、次の反復を行うステップ(4)と、
全てのW、bの変更値が反復閾値を超えない場合、反復ループを停止するステップ(5)と、
各層の最適重み行列Wとバイアスベクトルbを保持するステップ(6)と、
含む。
【0008】
さらに、前記中国語出力確率ベクトルセットと前記英語出力確率ベクトルセットに基づいて言語マッチングを行うことは、
情報エントロピーの公式を利用して、中国語出力確率ベクトルセットPと英語出力確率ベクトルセットP’に対応する情報エントロピーをそれぞれ計算し、それぞれ対応してHとH’と記録し、ここで、P={p1,p2,・・・,pq},P’={p’1,p’2,・・・,p’t}、qは中国語音響モデルの出力分類の総数であり、tは英語音響モデルの出力分類の総数であることと、
中国語音響モデルから出力された確率ベクトルセットにおいて、他よりも著しく大きい確率値piが存在する場合、英語音響モデルから出力された確率ベクトルセットにおける各々の確率値の差は大きくなく、ここで、1≦i≦qであることと、
中国語音響モデルに入力された対応する情報エントロピーHが、英語音響モデルに入力された対応する情報エントロピーH’よりも小さい場合、対応する未知の言語の入力音声信号voice0は中国語であり、中国語音響モデルの出力確率を最終出力結果とすることと、
英語音響モデルから出力された確率ベクトルセットにおいて、他よりも著しく大きい確率値pjが存在する場合、中国語音響モデルから出力された確率ベクトルセットにおける各々の確率値の差は大きくなく、ここで、1≦j≦tであることと、
英語音響モデルに入力された対応する情報エントロピーH’が、中国語音響モデルに入力された対応する情報エントロピーよりも小さい場合、対応する未知の言語の入力音声信号voice0は英語であり、英語音響モデルの出力確率を最終出力結果とすることと、
を含む。
【0009】
本発明に係る家庭内会話環境向けたニューラルネットワーク音声認識方法を実行するシステムは、
ディープニューラルネットワークに長短期記憶ネットワークを加え、組み合わせニューラルネットワークDNN-LSTMモデルを構築するモデル構築モジュールと、
収集した中国語音声データセットについて前処理し、中国語特徴ベクトルセットを得て、さらに、中国語特徴ベクトルセットをDNN-LSTMモデルの入力として反復訓練を行い、最適な中国語音響モデルになるまで訓練する中国語モデル訓練ユニットと、収集した英語音声データセットについて前処理し、英語特徴ベクトルセットを得て、さらに、英語特徴ベクトルセットをDNN-LSTMモデルの入力として反復訓練を行い、最適な英語音響モデルになるまで訓練する英語モデル訓練ユニットと、を含むモデル訓練モジュールと、
一つの未知の言語の入力音声信号voice0を、それぞれ中国語音響モデルと英語音響モデルを経て、それぞれ中国語の出力確率ベクトルセットと英語の出力確率ベクトルセットを得る音声入力ユニットと、中国語出力確率ベクトルセットと英語出力確率ベクトルセットに基づいて言語マッチングを行い、判定結果を出力する音声類型判断ユニットと、を含むモデルテストモジュールと、
を含む。
【発明の効果】
【0010】
既存技術と比較すれば、本発明は、以下の有益な効果を奏する。
本発明は、記憶ユニットが非常に長い履歴情報を記録できるLSTMの特徴と、DNNがデータ中の高次情報を効率的に抽出できる特徴とを組み合わせて、DNN隠蔽層の第一層にLSTMを加えるというアイデアを提案し、DNNとLSTMを組み合わせた組み合わせニューラルネットワークを構築して音響モデリングを行う。また、中国語データセットと英語データセットについて訓練およびテストを行い、中国語音響モデルおよび英語音響モデルを得て、エントロピーの概念を引用することで音声信号の中国語音響モデルおよび英語音響モデルにおける出力結果を比較し、エントロピー値が比較的に小さい結果を音響モデルの出力結果とすることにより、言語認識を簡単にするとともに、全体的な音声認識率を向上させ、家庭内において話し手の内容を素早く正確に認識でき、実際の家庭内のシーンにおいて幅広く活用できる。
【図面の簡単な説明】
【0011】
【
図1】本発明に係る家庭内会話環境に向けた組み合わせニューラルネットワーク音声認識アルゴリズムの全体構造を示すブロック図である。
【
図2】本発明に係るDNN-LSTMモデルの構造を示す図である。
【発明を実施するための形態】
【0012】
以下、図面を参照しながら、本発明に係る家庭内会話環境に向けた組み合わせニューラルネットワーク音声認識アルゴリズムについて詳細に説明する。
図1は、家庭内会話環境に向けた組み合わせニューラルネットワーク音声認識アルゴリズムの全体構造を示すブロック図である。まず、DNNおよびLSTMの特徴を組み合わせて、DNN-LSTMモデルを構築する。続いて、DNN-LSTMモデルを用いて中国語のデータセットおよび英語のデータセットを訓練し、中国語の音響モデルと英語の音響モデルを保存する。最後に、言語をマッチングすることにより結果を出力することで、言語認識と音声認識の目的に達成する。
【0013】
DNNはディープニューラルネットワーク(Deep Neural Networks)であり、LSTMは長短期記憶ネットワーク(Long Short-Term Memory)である。
図3は、LSTM内部の3ゲート論理計算の構造を示す図であり、LSTMの中心要素は細胞状態であり、細胞状態の時間的な情報伝達を表す。チェーン全体に沿って直線的につながり、わずかな線形の相互作用しかないため、情報は大きく変化されずに流れやすい。伝達過程において、細胞状態中の情報は、現在時刻の入力、直前の時刻の隠蔽層状態、直前の時刻における細胞状態およびゲート構造によって追加または削除される。音声認識において、LSTMモデルのメモリユニットは主に音声特徴の記憶と処理のために使用され、忘却ゲート、入力ゲートおよび出力ゲートとの3つのゲート計算を実現し、三つのゲートにより現在時刻のニューロン状態c
tを保護し制御する。具体的には、以下のとおりである。
【0014】
(1)入力ゲート
該ゲートの役割は、入力x
tの中にどれくらいの情報がc
tに残っているかを決定することであり、以下の式により実現される。
【数1】
ここで、i
tはt時刻の入力ゲートにおける入力であり、入力ゲートを通じて、出力ゲートに対応する状態
【数2】
を残しておく。W
i、W
cは重み行列を表し、b
i、b
cはバイアス項を表し、x
t-1、x
t、x
t+1はそれぞれ直前の時刻、現在時刻および直後の時刻における入力を表す。h
t-1、h
t、h
t+1はそれぞれ直前の時刻、現在時刻および直後の時刻におけるニューロン状態を表し、σはsigmoid関数を表す。
【0015】
(2)忘却ゲート
該ゲートの役割は、t時刻に入力されたc
t-1にどれくらいがc
tに残っているかを決定することであり、以下の式により実現れる。
【数3】
ここで、W
fは重み行列を表し、b
fはバイアス項を表す。
【0016】
(3)出力ゲート
該ゲートの役割は、制御ユニットを利用してc
tからLSTMの現在の出力値h
tにどれくらい出力されているか確定することである。まず、入力ゲートと忘却ゲートを通過した後の状態であり、すなわちc
tは以下の式で実現される。
【数4】
ここで、前半は情報が忘却ゲートを経てc
tに残される成分であり、後半は情報が入力ゲートを経てc
tに残される成分である。続いて、c
tにおいてどれくらいの成分がh
tに残されているかを確定するため、以下の式により出力が実現される。
【数5】
ここで、o
tはt時刻における出力層の状態であり、W
oは重み行列を表し、b
oはバイアス項を表す。最後に、出力ゲートを経て、隠蔽層の最終出力結果は
【数6】
である。
【0017】
具体的に、家庭内会話環境に向けた組み合わせニューラルネットワーク音声認識方法は、以下のステップを含む。
【0018】
まず、モデルを構築する。ディープニューラルネットワークに長短期記憶ネットワークを加え、組み合わせニューラルネットワークDNN-LSTMモデルを構築する。
【0019】
図2は、DNN-LSTMモデルの構造を示す図である。第0層が入力層で、第1~4層が隠蔽層で、第5層が出力層であり、活性化関数はsoftmax関数である。隠蔽層において、第一層はLSTMネットワーク構造であり、ノード数は512個であり、活性化関数はsigmoid関数とtanh関数を選択し、ネットワーク内のデータの過剰な学習を防ぐために、ニューラルユニット内部にDropoutポリシーを組み込む。後の3層はすべてDNNネットワーク構造で、各層のノード数は1024個であり、活性化関数はsigmoid関数を選択する。すなわち、組み合わせニューラルネットワークDNN-LSTMモデルは、入力層、長短期記憶ネットワーク、第二隠蔽層、第三隠蔽層、第四隠蔽層および出力層を含み、長短期記憶ネットワークは第一隠蔽層として働く。
【0020】
該モデルは6層で、各層のニューロンの入力ベクトルはz
n、出力ベクトルはy
nであり、
【数7】
の関係が成り立つ。ここで、W
nは第n-1層から第n層の重み行列であり、b
nは第n層のバイアス項である。入力ベクトルから以下の式より出力が得られる。
【数8】
ここで、f
nは第n層の活性化関数である。
【0021】
続いて、モデルを訓練する。
中国語音声データを訓練する。収集した中国語音声データセットについて前処理し、中国語特徴ベクトルセットvector0を得て、さらに、中国語特徴ベクトルセットをDNN-LSTMモデルの入力として反復訓練を行い、最適な中国語音響モデルになるまで訓練する。
【0022】
ここで、前処理の動作には、サンプリング、プリエンファシス、窓関数処理やフレーミング、エンドポイント検出を含み、特徴ベクトルvector0をDNN-LSTMモデルの入力として反復訓練し、最適音響モデルChina_modelになるまで訓練する。
【0023】
訓練のステップは以下のとおりである。
(1)ネットワーク構造における重み行列Wおよびバイアスベクトルbをランダムな値に初期化する。
【0024】
(2)第1回目から最大回数までの反復を開始する。本実施形態では、最大回数を50に設定し、各反復において、最初の訓練サンプルから最後の訓練サンプルまでトラバースする。ここで、現在トラバースされている訓練サンプルはiで表される。
【0025】
(3)各サンプルの訓練では、入力ベクトルをDNNの第一層入力とし、a1で表す。続いて、隠蔽層の第一層から出力層までトラバースを開始し、現在トラバースされている層をnで表し、各層ともに順方向伝搬アルゴリズムでai,n=f(zi,n)=f(Wnai,n-1+bn)を計算し、現在トラバースされているのは該層の第i番目のサンプルに対応する入力層を表す。
【0026】
損失関数に基づいて出力層δi,Lを計算し、Lは出力層である。隠蔽層の最後の一層から隠蔽層の第一層までトラバースし、逆方向伝搬アルゴリズムでδi,n=(wn+1)Tδi,n+1Θf’(zi,n)を計算する。すなわち、現在トラバースされているのは該層の第i番目の訓練サンプルに対応する出力層を表し、Tは転置、f’は微分、Θは排他的論理和演算を表す。
【0027】
(4)逆方向伝搬アルゴリズムを完了した後、隠蔽層の第一層から出力層までトラバースを開始し、現在トラバースされている第n層のW
n、b
nを更新すると、
【数9】
であり、このようにして、一回の反復プロセスにおけるある1つのサンプルについての訓練が終了する。この際、サンプルのトラバースが終わっていない場合には、サンプルのトラバースを続け、サンプルがトラバースされた場合には、次の反復を行う。ここで、mは訓練サンプルの総数であり、αは反復のステップサイズである。
【0028】
(5)全てのW、bの変更値が反復閾値を超えない場合、反復ループを停止する。
【0029】
(6)各層の最適重み行列Wとバイアスベクトルbを保持する。
【0030】
英語音声データを訓練する。収集した英語音声データセットについて前処理し、英語特徴ベクトルセットvector1を得て、さらに、英語特徴ベクトルセットをDNN-LSTMモデルの入力として反復訓練を行い、最適な英語音響モデルになるまで訓練する。ここで、前処理の動作には、サンプリング、プリエンファシス、窓関数処理やフレーミング、エンドポイント検出を含み、特徴ベクトルvector1をDNN-LSTMモデルの入力として反復訓練し、最適音響モデルEnglish_modelになるまで訓練する。具体的なトラバースのステップは、中国語音声データ訓練のステップと同じであり、ここでは詳細な説明を省略する。
【0031】
最後に、モデルをテストする。具体的には、以下のとおりである。
一つの未知の言語の入力音声信号voice0を、それぞれ中国語音響モデルと英語音響モデルを経て、それぞれ中国語の出力確率ベクトルセットと英語の出力確率ベクトルセットを得る。
【0032】
中国語出力確率ベクトルセットと英語出力確率ベクトルセットに基づいて言語マッチングを行い、判定結果を出力する。
【0033】
情報エントロピーの公式を利用して、中国語出力確率ベクトルセットPと英語出力確率ベクトルセットP’に対応する情報エントロピーをそれぞれ計算し、それぞれ対応してHとH’と記録する。ここで、P={p1,p2,・・・,pq},P’={p’1,p’2,・・・,p’t}、qは中国語音響モデルの出力分類の総数であり、tは英語音響モデルの出力分類の総数である。
【0034】
情報エントロピーの公式は、以下のとおりである。
【数10】
【0035】
中国語音響モデルから出力された確率ベクトルセットにおいて、他よりも著しく大きい確率値piが存在する場合、英語音響モデルから出力された確率ベクトルセットにおける各々の確率値の差は大きくない。ここで、1≦i≦qである。
【0036】
本発明の実施形態において、確率値が明らかに異なる(差を有する)か否かは、softmax出力層の出力分類と関連し、出力分類が多いほど、対応する範囲は小さくなり、該範囲をβに設定すれば、確率値間の差分値がβ以上であれば明らかな差があり、もし各確率値間の差分値がβより小さければ明らかな差がない。テストにおいて、出力分類を5種類に分類した場合、該範囲βは約0.2で、出力分類が多いほどその範囲も小さくなる。
【0037】
また、中国語音響モデルに入力された対応する情報エントロピーHが、英語音響モデルに入力された対応する情報エントロピーH’よりも小さい場合、対応する未知の言語の入力音声信号voice0は中国語であり、中国語音響モデルの出力確率を最終出力結果とする。すなわち、情報エントロピーの性質によって、エントロピーが大きければ大きいほど、システムの情報量も大きく、不確実性が高い。p1=p2=,・・・,=pqの場合、最大値を有し、中国語出力確率の情報エントロピーは、英文出力確率の情報エントロピーより遥かに小さく、すなわち、中国語音声信号は中国語音響モデルにおける適合度がさらに高いため、中国語音響モデルの出力確率を最後の出力結果とする。
【0038】
英語音響モデルから出力された確率ベクトルセットにおいて、他よりも著しく大きい確率値pjが存在する場合、中国語音響モデルから出力された確率ベクトルセットにおける各々の確率値の差は大きくない。ここで、1≦j≦tである。
【0039】
また、英語音響モデルに入力された対応する情報エントロピーH’が、中国語音響モデルに入力された対応する情報エントロピーよりも小さい場合、対応する未知の言語の入力音声信号voice0は英語であり、英語音響モデルの出力確率を最終出力結果とする。
【0040】
さらに、本発明に係る家庭内会話環境に向けたニューラルネットワーク音声認識システムは、
ディープニューラルネットワークに長短期記憶ネットワークを加え、組み合わせニューラルネットワークDNN-LSTMモデルを構築するモデル構築モジュールと、
収集した中国語音声データセットについて前処理し、中国語特徴ベクトルセットを得て、さらに、中国語特徴ベクトルセットをDNN-LSTMモデルの入力として反復訓練を行い、最適な中国語音響モデルになるまで訓練する中国語モデル訓練ユニットと、収集した英語音声データセットについて前処理し、英語特徴ベクトルセットを得て、さらに、英語特徴ベクトルセットをDNN-LSTMモデルの入力として反復訓練を行い、最適な英語音響モデルになるまで訓練する英語モデル訓練ユニットと、を含むモデル訓練モジュールと、
一つの未知の言語の入力音声信号voice0を、それぞれ中国語音響モデルと英語音響モデルを経て、それぞれ中国語の出力確率ベクトルセットと英語の出力確率ベクトルセットを得る音声入力ユニットと、中国語出力確率ベクトルセットと英語出力確率ベクトルセットに基づいて言語マッチングを行い、判定結果を出力する音声類型判断ユニットと、を含むモデルテストモジュールと、
を含む。
【0041】
システム/装置の実施形態に関しては、その基本が方法の実施形態と相似であるため、比較的に簡単に説明し、関連するところは方法の実施形態の説明を参照すればよい。
【0042】
説明すべきこととして、本明細書において、第一および第二などの用語は、単に一つの実体または一つの動作を他の一つの実体または他の一つの動作と区別するためにのみ使用され、必ずしもこれらの実体または動作の間にそのような実際の関係または順序が存在することを要求または示唆するものではない。
【0043】
いわゆる当業者であれば、本明細書の実施形態は、方法、システム、またはコンピュータプログラム製品を提供できることを理解できる。したがって、本明細書は、完全にハードウェアを採用する実施形態、完全なアプリケーションの実施形態、またはアプリケーションおよびハードウェアの両方を組み合わせた実施形態を採用できる。さらに、本明細書は、一つまたは複数のコンピュータにより実行可能なプログラムを記録した記録媒体(ディスクメモリ、CD-ROM、光メモリなどを含むが、これらに限定されない)において実装されるコンピュータプログラム製品の形態をとることができる。
【0044】
本発明は、本発明の実施形態に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら説明されている。フローチャートおよび/またはブロック図における各フローおよび/またはブロック、ならびにフローチャートおよび/またはブロック図におけるフローおよび/またはブロックの組み合わせができる。コンピュータプログラム命令によって実装されうることも理解されたい。これらのコンピュータプログラムは、汎用コンピュータ、専用コンピュータ、組込み処理装置または他のプログラマブル可能なデータ処理装置のプロセッサに命令を提供し、一つのマシンを生成できる。コンピュータまたは他のプログラマブル可能なデータ処理装置のプロセッサによって実行される命令は、フローチャートの一つまたは複数の流れおよび/またはブロック図の一つまたは複数のブロックにおいて指定された機能を実現する装置を生成できる。
【0045】
これらのコンピュータプログラム命令は、また、コンピュータまたは他のプログラマブル可能なデータ処理装置を特定の方法で動作させることができるコンピュータ読み取り可能なメモリに格納されてもよく、該コンピュータ読み取り可能なメモリに格納された命令は、命令装置を含む製品を生成し、命令装置は、フローチャートの一つまたは複数の流れおよび/またはブロック図の一つまたは複数のブロックで指定される機能を実装する。
これらのコンピュータプログラム命令は、さらに、コンピュータ実装処理を生成するために一連の動作ステップをコンピュータまたは他のプログラマブル可能なデータ処理装置にロードすることができる。したがって、コンピュータまたは他のプログラマブル可能なデバイス上で実行される命令は、フローチャートの一つまたは複数の流れおよび/または、ブロック図の一つまたは複数のブロックにおいて指定された機能を実現するステップを提供する。
【0046】
以上、本発明の好ましい実施形態を説明したが、いわゆる当業者であれば、基本的な創造的概念を知れば、これらの実施形態に追加の変更および改良を加えることができる。したがって、本発明の特許請求の範囲は、上記の好ましい実施形態および本発明の保護範囲に含まれるすべての変更および改良を含む。
【0047】
いわゆる当業者は、本発明の技術的思想から逸脱しない範囲内において、本発明について様々な変更および改良行うことができるのは明らかである。したがって、本発明についてのこれらの変更および改良が、本発明の特許請求の範囲およびその均等な技術の範囲内に属する場合、これらの変更および改良も本発明の保護範囲に含まれる。
【手続補正書】
【提出日】2022-03-03
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ディープニューラルネットワークに長短期記憶ネットワークを加え、組み合わせニューラルネットワークDNN-LSTMモデルを構築するモデル構築ステップと、
収集した中国語音声データセットについて前処理し、中国語特徴ベクトルセットを得て、さらに、前記中国語特徴ベクトルセットを前記DNN-LSTMモデルの入力として反復訓練を行い、最適な中国語音響モデルになるまで訓練する中国語音声データを訓練するステップと、収集した英語音声データセットについて前処理し、英語特徴ベクトルセットを得て、さらに、前記英語特徴ベクトルセットを前記DNN-LSTMモデルの入力として反復訓練を行い、最適な英語音響モデルになるまで訓練する英語音声データを訓練するステップと、を含むモデル訓練ステップと、
一つの未知の言語の入力音声信号voice0を、それぞれ前記中国語音響モデルと前記英語音響モデルを経て、それぞれ中国語出力確率ベクトルセットと英語出力確率ベクトルセットを得るステップと、前記中国語出力確率ベクトルセットと前記英語出力確率ベクトルセットに基づいて言語マッチングを行い、判定結果を出力するステップと、を含むモデルテストステップと、
を含
み、
前記中国語出力確率ベクトルセットと前記英語出力確率ベクトルセットに基づいて言語マッチングを行うことは、
情報エントロピーの公式を利用して、中国語出力確率ベクトルセットPと英語出力確率ベクトルセットP’に対応する情報エントロピーをそれぞれ計算し、それぞれ対応してHとH’と記録し、ここで、P={p
1
,p
2
,・・・,p
q
},P’={p’
1
,p’
2
,・・・,p’
t
}、qは中国語音響モデルの出力分類の総数であり、tは英語音響モデルの出力分類の総数であることと、
中国語音響モデルから出力された確率ベクトルセットにおいて、他よりも著しく大きい確率値p
i
が存在する場合、英語音響モデルから出力された確率ベクトルセットにおける各々の確率値の差は大きくなく、ここで、1≦i≦qであることと、
中国語音響モデルに入力された対応する情報エントロピーHが、英語音響モデルに入力された対応する情報エントロピーH’よりも小さい場合、対応する未知の言語の入力音声信号voice0は中国語であり、中国語音響モデルの出力確率を最終出力結果とすることと、
英語音響モデルから出力された確率ベクトルセットにおいて、他よりも著しく大きい確率値p
j
が存在する場合、中国語音響モデルから出力された確率ベクトルセットにおける各々の確率値の差は大きくなく、ここで、1≦j≦tであることと、
英語音響モデルに入力された対応する情報エントロピーH’が、中国語音響モデルに入力された対応する情報エントロピーよりも小さい場合、対応する未知の言語の入力音声信号voice0は英語であり、英語音響モデルの出力確率を最終出力結果とすることと、
を含む、家庭内会話環境に向けたニューラルネットワーク音声認識方法。
【請求項2】
前記組み合わせニューラルネットワークDNN-LSTMモデルは、入力層、長短期記憶ネットワーク、第二隠蔽層、第三隠蔽層、第四隠蔽層および出力層を含み、前記長短期記憶ネットワークは第一隠蔽層である、ことを特徴とする、請求項1に記載の家庭内会話環境に向けたニューラルネットワーク音声認識方法。
【請求項3】
前記第一隠蔽層のノード数は512個であり、その活性化関数はsigmoid関数とtanh関数を選択し、前記第二隠蔽層、前記第三隠蔽層および前記第四隠蔽層のノード数はいずれも1024個であり、活性化関数はsigmoid関数である、ことを特徴とする、請求項2に記載の家庭内会話環境に向けたニューラルネットワーク音声認識方法。
【請求項4】
前記中国語特徴ベクトルセットを前記DNN-LSTMモデルの入力として反復訓練を行い、訓練のステップは、
モデル構造における重み行列Wおよびバイアスベクトルbをランダムな値に初期化するステップ(1)と、
第1回目から最大回数までの反復を開始し、各反復において、いずれも最初の音声データ訓練サンプルから最後の訓練サンプルまでトラバースするステップ(2)と、
各訓練サンプルの訓練では、対応する特徴ベクトルを入力層に入力させ、続いて、第一隠蔽層から出力層までトラバースを開始し、順方向伝搬アルゴリズムで現在トラバースされている対応する入力層を表し、続いて、損失関数に基づいて出力層を表し、続いて、順方向伝搬アルゴリズムを完了した後、第四隠蔽層から第一隠蔽層までトラバースし、逆方向伝搬アルゴリズムで対応する第一隠蔽層を表すステップ(3)と、
逆方向伝搬アルゴリズムを完了した後、第一隠蔽層から出力層まで順番にトラバースを開始し、対応する層の重み行列W
nおよびバイアスベクトルb
nを更新し、nは現在トラバースされている層であって、n=1,2,3,4,5であり、このようにして、一回の反復プロセスにおけるある1つのサンプルについての訓練が終了し、この際、サンプルのトラバースが終わっていない場合には、サンプルのトラバースを続け、サンプルがトラバースされた場合には、次の反復を行うステップ(4)と、
全てのW、bの変更値が反復閾値を超えない場合、反復ループを停止するステップ(5)と、
各層の最適重み行列Wとバイアスベクトルbを保持するステップ(6)と、
含むことを特徴とする、請求項3に記載の家庭内会話環境に向けたニューラルネットワーク音声認識方法。
【請求項5】
請求項1~
4のいずれか一項に記載の家庭内会話環境に向けたニューラルネットワーク音声認識方法を実行するシステムであって、
ディープニューラルネットワークに長短期記憶ネットワークを加え、組み合わせニューラルネットワークDNN-LSTMモデルを構築するモデル構築モジュールと、
収集した中国語音声データセットについて前処理し、中国語特徴ベクトルセットを得て、さらに、中国語特徴ベクトルセットをDNN-LSTMモデルの入力として反復訓練を行い、最適な中国語音響モデルになるまで訓練する中国語モデル訓練ユニットと、収集した英語音声データセットについて前処理し、英語特徴ベクトルセットを得て、さらに、英語特徴ベクトルセットをDNN-LSTMモデルの入力として反復訓練を行い、最適な英語音響モデルになるまで訓練する英語モデル訓練ユニットと、を含むモデル訓練モジュールと、
一つの未知の言語の入力音声信号voice0を、それぞれ中国語音響モデルと英語音響モデルを経て、それぞれ中国語の出力確率ベクトルセットと英語の出力確率ベクトルセットを得る音声入力ユニットと、中国語出力確率ベクトルセットと英語出力確率ベクトルセットに基づいて言語マッチングを行い、判定結果を出力する音声類型判断ユニットと、を含むモデルテストモジュールと、
を含む、家庭内会話環境に向けたニューラルネットワーク音声認識システム。
【国際調査報告】