特表2022-540968 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 南京郵電大学の特許一覧

特表2022-540968家庭内会話環境に向けたニューラルネットワーク音声認識方法およびシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-09-21

(54)【発明の名称】家庭内会話環境に向けたニューラルネットワーク音声認識方法およびシステム

(51)【国際特許分類】

G10L 15/16 20060101AFI20220913BHJP

G10L 15/10 20060101ALI20220913BHJP

【ＦＩ】

G10L15/16

G10L15/10 500Z

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2021551834

(86)(22)【出願日】2020-12-03

(85)【翻訳文提出日】2022-03-03

(86)【国際出願番号】 CN2020133554

(87)【国際公開番号】W WO2021208455

(87)【国際公開日】2021-10-21

(31)【優先権主張番号】202010295068.2

(32)【優先日】2020-04-15

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】518371489

【氏名又は名称】南京郵電大学

【氏名又は名称原語表記】ＮＡＮＪＩＮＧＵＮＩＶＥＲＳＩＴＹＯＦＰＯＳＴＳＡＮＤＴＥＬＥＣＯＭＭＵＮＩＣＡＴＩＯＮＳ

【住所又は居所原語表記】Ｎｏ．６６ＸｉｎＭｏｆａｎＲｏａｄ，ＧｕｌｏｕＮａｎｊｉｎｇ，Ｊｉａｎｇｓｕ２１０００３Ｃｈｉｎａ

(74)【代理人】

【識別番号】110000291

【氏名又は名称】弁理士法人コスモス国際特許商標事務所

(74)【代理人】

【識別番号】100205936

【弁理士】

【氏名又は名称】崔海龍

(74)【代理人】

【識別番号】100132805

【弁理士】

【氏名又は名称】河合貴之

(72)【発明者】

【氏名】張暉

(72)【発明者】

【氏名】程銘

(72)【発明者】

【氏名】趙海涛

(72)【発明者】

【氏名】孫雁飛

(72)【発明者】

【氏名】倪芸洋

(72)【発明者】

【氏名】朱洪波

(57)【要約】

本発明に係る家庭内会話環境向けたニューラルネットワーク音声認識方法は、ディープニューラルネットワークに長短期記憶ネットワークを加え、組み合わせニューラルネットワークＤＮＮ－ＬＳＴＭモデルを構築するモデル構築ステップと、収集した音声データセットについて前処理し、特徴ベクトルセットを得て、さらに、特徴ベクトルセットをＤＮＮ－ＬＳＴＭモデルの入力として反復訓練を行い、最適な音響モデルになるまで訓練するステップと、一つの未知の言語の入力音声信号を、訓練後のＤＮＮ－ＬＳＴＭモデルを経て、それぞれ中国語出力確率ベクトルセットと英語出力確率ベクトルセットを得るステップと、中国語出力確率ベクトルセットと英語出力確率ベクトルセットに基づいて言語マッチングを行い、判定結果を出力するステップと、を含む。本発明によれば、家庭内において話し手の内容を素早く正確に認識でき、実際の家庭内のシーンにおいて幅広く活用できる。
【選択図】図１

【特許請求の範囲】

【請求項1】

【請求項2】

前記組み合わせニューラルネットワークＤＮＮ－ＬＳＴＭモデルは、入力層、長短期記憶ネットワーク、第二隠蔽層、第三隠蔽層、第四隠蔽層および出力層を含み、前記長短期記憶ネットワークは第一隠蔽層である、ことを特徴とする、請求項１に記載の家庭内会話環境に向けたニューラルネットワーク音声認識方法。

【請求項3】

前記第一隠蔽層のノード数は５１２個であり、その活性化関数はｓｉｇｍｏｉｄ関数とｔａｎｈ関数を選択し、前記第二隠蔽層、前記第三隠蔽層および前記第四隠蔽層のノード数はいずれも１０２４個であり、活性化関数はｓｉｇｍｏｉｄ関数である、ことを特徴とする、請求項２に記載の家庭内会話環境に向けたニューラルネットワーク音声認識方法。

【請求項4】

前記中国語特徴ベクトルセットを前記ＤＮＮ－ＬＳＴＭモデルの入力として反復訓練を行い、訓練のステップは、
モデル構造における重み行列Ｗおよびバイアスベクトルｂをランダムな値に初期化するステップ（１）と、
第１回目から最大回数までの反復を開始し、各反復において、いずれも最初の音声データ訓練サンプルから最後の訓練サンプルまでトラバースするステップ（２）と、
各訓練サンプルの訓練では、対応する特徴ベクトルを入力層に入力させ、続いて、第一隠蔽層から出力層までトラバースを開始し、順方向伝搬アルゴリズムで現在トラバースされている対応する入力層を表し、続いて、損失関数に基づいて出力層を表し、続いて、順方向伝搬アルゴリズムを完了した後、第四隠蔽層から第一隠蔽層までトラバースし、逆方向伝搬アルゴリズムで対応する第一隠蔽層を表すステップ（３）と、
逆方向伝搬アルゴリズムを完了した後、第一隠蔽層から出力層まで順番にトラバースを開始し、対応する層の重み行列Ｗ^ｎおよびバイアスベクトルｂ^ｎを更新し、ｎは現在トラバースされている層であって、ｎ＝１，２，３，４，５であり、このようにして、一回の反復プロセスにおけるある1つのサンプルについての訓練が終了し、この際、サンプルのトラバースが終わっていない場合には、サンプルのトラバースを続け、サンプルがトラバースされた場合には、次の反復を行うステップ（４）と、
全てのＷ、ｂの変更値が反復閾値を超えない場合、反復ループを停止するステップ（５）と、
各層の最適重み行列Ｗとバイアスベクトルｂを保持するステップ（６）と、
含むことを特徴とする、請求項３に記載の家庭内会話環境に向けたニューラルネットワーク音声認識方法。

【請求項5】

前記中国語出力確率ベクトルセットと前記英語出力確率ベクトルセットに基づいて言語マッチングを行うことは、
情報エントロピーの公式を利用して、中国語出力確率ベクトルセットＰと英語出力確率ベクトルセットＰ’に対応する情報エントロピーをそれぞれ計算し、それぞれ対応してＨとＨ’と記録し、ここで、Ｐ＝｛ｐ_１，ｐ_２，・・・，ｐ_ｑ｝，Ｐ’＝｛ｐ’_１，ｐ’_２，・・・，ｐ’_ｔ｝、ｑは中国語音響モデルの出力分類の総数であり、ｔは英語音響モデルの出力分類の総数であることと、
中国語音響モデルから出力された確率ベクトルセットにおいて、他よりも著しく大きい確率値ｐ_iが存在する場合、英語音響モデルから出力された確率ベクトルセットにおける各々の確率値の差は大きくなく、ここで、１≦ｉ≦ｑであることと、
中国語音響モデルに入力された対応する情報エントロピーＨが、英語音響モデルに入力された対応する情報エントロピーＨ’よりも小さい場合、対応する未知の言語の入力音声信号ｖｏｉｃｅ０は中国語であり、中国語音響モデルの出力確率を最終出力結果とすることと、
英語音響モデルから出力された確率ベクトルセットにおいて、他よりも著しく大きい確率値ｐ_ｊが存在する場合、中国語音響モデルから出力された確率ベクトルセットにおける各々の確率値の差は大きくなく、ここで、１≦ｊ≦ｔであることと、
英語音響モデルに入力された対応する情報エントロピーＨ’が、中国語音響モデルに入力された対応する情報エントロピーよりも小さい場合、対応する未知の言語の入力音声信号ｖｏｉｃｅ０は英語であり、英語音響モデルの出力確率を最終出力結果とすることと、
を含むことを特徴とする、請求項１に記載の家庭内会話環境に向けたニューラルネットワーク音声認識方法。

【請求項6】

請求項１～５のいずれか一項に記載の家庭内会話環境に向けたニューラルネットワーク音声認識方法を実行するシステムであって、
ディープニューラルネットワークに長短期記憶ネットワークを加え、組み合わせニューラルネットワークＤＮＮ－ＬＳＴＭモデルを構築するモデル構築モジュールと、
収集した中国語音声データセットについて前処理し、中国語特徴ベクトルセットを得て、さらに、中国語特徴ベクトルセットをＤＮＮ－ＬＳＴＭモデルの入力として反復訓練を行い、最適な中国語音響モデルになるまで訓練する中国語モデル訓練ユニットと、収集した英語音声データセットについて前処理し、英語特徴ベクトルセットを得て、さらに、英語特徴ベクトルセットをＤＮＮ－ＬＳＴＭモデルの入力として反復訓練を行い、最適な英語音響モデルになるまで訓練する英語モデル訓練ユニットと、を含むモデル訓練モジュールと、
一つの未知の言語の入力音声信号ｖｏｉｃｅ０を、それぞれ中国語音響モデルと英語音響モデルを経て、それぞれ中国語の出力確率ベクトルセットと英語の出力確率ベクトルセットを得る音声入力ユニットと、中国語出力確率ベクトルセットと英語出力確率ベクトルセットに基づいて言語マッチングを行い、判定結果を出力する音声類型判断ユニットと、を含むモデルテストモジュールと、
を含む、家庭内会話環境に向けたニューラルネットワーク音声認識システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、知能認識技術分野に属し、具体的には家庭内会話環境に向けたニューラルネットワーク音声認識方法及びシステムに関する。

【背景技術】

【0002】

音声認識研究の重点対象は音声であり、音声信号をコンピュータが認識できる情報に変換することにより、話し手の音声コマンドや文字内容を認識する。音声認識の方法は基本的に、言語学および音響学、モデルマッチングならびにニューラルネットワークに基づく三つの方法に分けられる。第一の方法は比較的早く現れたが、そのモデル復雑さの制限のため、未だに比較的実用的な段階に達していない。第二の方法において比較的多く応用されるのは隠れマルコフモデルで、問題の確率モデルを表記でき、該モデルは観測シーケンスをランダムに生成でき、音声認識技術を大幅に向上させた。第三の方法は浅いニューラルネットワークを学習訓練に用いるため、勾配が不安定になりやすく、人間によってサンプルの特徴を抽出するのに手間がかかるため、識別効果はあまり良くない。従来の音声認識システムでは、ＧＭＭ－ＨＭＭの音響モデル化方法が実際に最も広く応用されるが、家庭環境下で一部の復雑な音声信号の問題を処理する場合、従来のモデルの応用シーンは比較的に単一にみえる。

【発明の概要】

【0003】

本発明は、上記既存技術における問題点に鑑みてなされたものであり、家庭内会話環境向けたニューラルネットワーク音声認識方法を提供することにより、音声認識率が低く、認識の効率が悪い問題を解決することを目的とする。また、本発明は、家庭内会話環境向けたニューラルネットワーク音声認識システムを提供する。

【0004】

上記目的を達成するための本発明に係る家庭内会話環境向けたニューラルネットワーク音声認識方法は、
ディープニューラルネットワークに長短期記憶ネットワークを加え、組み合わせニューラルネットワークＤＮＮ－ＬＳＴＭモデルを構築するモデル構築ステップと、
収集した中国語音声データセットについて前処理し、中国語特徴ベクトルセットを得て、さらに、前記中国語特徴ベクトルセットを前記ＤＮＮ－ＬＳＴＭモデルの入力として反復訓練を行い、最適な中国語音響モデルになるまで訓練する中国語音声データを訓練するステップと、収集した英語音声データセットについて前処理し、英語特徴ベクトルセットを得て、さらに、前記英語特徴ベクトルセットを前記ＤＮＮ－ＬＳＴＭモデルの入力として反復訓練を行い、最適な英語音響モデルになるまで訓練する英語音声データを訓練するステップと、を含むモデル訓練ステップと、
一つの未知の言語の入力音声信号ｖｏｉｃｅ０を、それぞれ前記中国語音響モデルと前記英語音響モデルを経て、それぞれ中国語出力確率ベクトルセットと英語出力確率ベクトルセットを得るステップと、前記中国語出力確率ベクトルセットと前記英語出力確率ベクトルセットに基づいて言語マッチングを行い、判定結果を出力するステップと、を含むモデルテストステップと、
を含む。

【0005】

さらに、前記組み合わせニューラルネットワークＤＮＮ－ＬＳＴＭモデルは、入力層、長短期記憶ネットワーク、第二隠蔽層、第三隠蔽層、第四隠蔽層および出力層を含み、前記長短期記憶ネットワークは第一隠蔽層である。

【0006】

さらに、前記第一隠蔽層のノード数は５１２個であり、その活性化関数はｓｉｇｍｏｉｄ関数とｔａｎｈ関数を選択し、前記第二隠蔽層、前記第三隠蔽層および前記第四隠蔽層のノード数はいずれも１０２４個であり、活性化関数はｓｉｇｍｏｉｄ関数である。

【0007】

さらに、前記中国語特徴ベクトルセットを前記ＤＮＮ－ＬＳＴＭモデルの入力として反復訓練を行い、訓練のステップは、
モデル構造における重み行列Ｗおよびバイアスベクトルｂをランダムな値に初期化するステップ（１）と、
第１回目から最大回数までの反復を開始し、各反復において、いずれも最初の音声データ訓練サンプルから最後の訓練サンプルまでトラバースするステップ（２）と、
各訓練サンプルの訓練では、対応する特徴ベクトルを入力層に入力させ、続いて、第一隠蔽層から出力層までトラバースを開始し、順方向伝搬アルゴリズムで現在トラバースされている対応する入力層を表し、続いて、損失関数に基づいて出力層を表し、続いて、順方向伝搬アルゴリズムを完了した後、第四隠蔽層から第一隠蔽層までトラバースし、逆方向伝搬アルゴリズムで対応する第一隠蔽層を表すステップ（３）と、
逆方向伝搬アルゴリズムを完了した後、第一隠蔽層から出力層まで順番にトラバースを開始し、対応する層の重み行列Ｗ^ｎおよびバイアスベクトルｂ^ｎを更新し、ｎは現在トラバースされている層であって、ｎ＝１，２，３，４，５であり、このようにして、一回の反復プロセスにおけるある1つのサンプルについての訓練が終了し、この際、サンプルのトラバースが終わっていない場合には、サンプルのトラバースを続け、サンプルがトラバースされた場合には、次の反復を行うステップ（４）と、
全てのＷ、ｂの変更値が反復閾値を超えない場合、反復ループを停止するステップ（５）と、
各層の最適重み行列Ｗとバイアスベクトルｂを保持するステップ（６）と、
含む。

【0008】

さらに、前記中国語出力確率ベクトルセットと前記英語出力確率ベクトルセットに基づいて言語マッチングを行うことは、
情報エントロピーの公式を利用して、中国語出力確率ベクトルセットＰと英語出力確率ベクトルセットＰ’に対応する情報エントロピーをそれぞれ計算し、それぞれ対応してＨとＨ’と記録し、ここで、Ｐ＝｛ｐ_１，ｐ_２，・・・，ｐ_ｑ｝，Ｐ’＝｛ｐ’_１，ｐ’_２，・・・，ｐ’_ｔ｝、ｑは中国語音響モデルの出力分類の総数であり、ｔは英語音響モデルの出力分類の総数であることと、
中国語音響モデルから出力された確率ベクトルセットにおいて、他よりも著しく大きい確率値ｐ_iが存在する場合、英語音響モデルから出力された確率ベクトルセットにおける各々の確率値の差は大きくなく、ここで、１≦ｉ≦ｑであることと、
中国語音響モデルに入力された対応する情報エントロピーＨが、英語音響モデルに入力された対応する情報エントロピーＨ’よりも小さい場合、対応する未知の言語の入力音声信号ｖｏｉｃｅ０は中国語であり、中国語音響モデルの出力確率を最終出力結果とすることと、
英語音響モデルから出力された確率ベクトルセットにおいて、他よりも著しく大きい確率値ｐ_ｊが存在する場合、中国語音響モデルから出力された確率ベクトルセットにおける各々の確率値の差は大きくなく、ここで、１≦ｊ≦ｔであることと、
英語音響モデルに入力された対応する情報エントロピーＨ’が、中国語音響モデルに入力された対応する情報エントロピーよりも小さい場合、対応する未知の言語の入力音声信号ｖｏｉｃｅ０は英語であり、英語音響モデルの出力確率を最終出力結果とすることと、
を含む。

【0009】

本発明に係る家庭内会話環境向けたニューラルネットワーク音声認識方法を実行するシステムは、
ディープニューラルネットワークに長短期記憶ネットワークを加え、組み合わせニューラルネットワークＤＮＮ－ＬＳＴＭモデルを構築するモデル構築モジュールと、
収集した中国語音声データセットについて前処理し、中国語特徴ベクトルセットを得て、さらに、中国語特徴ベクトルセットをＤＮＮ－ＬＳＴＭモデルの入力として反復訓練を行い、最適な中国語音響モデルになるまで訓練する中国語モデル訓練ユニットと、収集した英語音声データセットについて前処理し、英語特徴ベクトルセットを得て、さらに、英語特徴ベクトルセットをＤＮＮ－ＬＳＴＭモデルの入力として反復訓練を行い、最適な英語音響モデルになるまで訓練する英語モデル訓練ユニットと、を含むモデル訓練モジュールと、
一つの未知の言語の入力音声信号ｖｏｉｃｅ０を、それぞれ中国語音響モデルと英語音響モデルを経て、それぞれ中国語の出力確率ベクトルセットと英語の出力確率ベクトルセットを得る音声入力ユニットと、中国語出力確率ベクトルセットと英語出力確率ベクトルセットに基づいて言語マッチングを行い、判定結果を出力する音声類型判断ユニットと、を含むモデルテストモジュールと、
を含む。

【発明の効果】

【0010】

既存技術と比較すれば、本発明は、以下の有益な効果を奏する。
本発明は、記憶ユニットが非常に長い履歴情報を記録できるＬＳＴＭの特徴と、ＤＮＮがデータ中の高次情報を効率的に抽出できる特徴とを組み合わせて、ＤＮＮ隠蔽層の第一層にＬＳＴＭを加えるというアイデアを提案し、ＤＮＮとＬＳＴＭを組み合わせた組み合わせニューラルネットワークを構築して音響モデリングを行う。また、中国語データセットと英語データセットについて訓練およびテストを行い、中国語音響モデルおよび英語音響モデルを得て、エントロピーの概念を引用することで音声信号の中国語音響モデルおよび英語音響モデルにおける出力結果を比較し、エントロピー値が比較的に小さい結果を音響モデルの出力結果とすることにより、言語認識を簡単にするとともに、全体的な音声認識率を向上させ、家庭内において話し手の内容を素早く正確に認識でき、実際の家庭内のシーンにおいて幅広く活用できる。

【図面の簡単な説明】

【0011】

【図1】本発明に係る家庭内会話環境に向けた組み合わせニューラルネットワーク音声認識アルゴリズムの全体構造を示すブロック図である。

【図2】本発明に係るＤＮＮ－ＬＳＴＭモデルの構造を示す図である。

【図3】ＬＳＴＭの全体構造を示す図である。

【発明を実施するための形態】

【0012】

以下、図面を参照しながら、本発明に係る家庭内会話環境に向けた組み合わせニューラルネットワーク音声認識アルゴリズムについて詳細に説明する。
図１は、家庭内会話環境に向けた組み合わせニューラルネットワーク音声認識アルゴリズムの全体構造を示すブロック図である。まず、ＤＮＮおよびＬＳＴＭの特徴を組み合わせて、ＤＮＮ－ＬＳＴＭモデルを構築する。続いて、ＤＮＮ－ＬＳＴＭモデルを用いて中国語のデータセットおよび英語のデータセットを訓練し、中国語の音響モデルと英語の音響モデルを保存する。最後に、言語をマッチングすることにより結果を出力することで、言語認識と音声認識の目的に達成する。

【0013】

ＤＮＮはディープニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ）であり、ＬＳＴＭは長短期記憶ネットワーク（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）である。図３は、ＬＳＴＭ内部の３ゲート論理計算の構造を示す図であり、ＬＳＴＭの中心要素は細胞状態であり、細胞状態の時間的な情報伝達を表す。チェーン全体に沿って直線的につながり、わずかな線形の相互作用しかないため、情報は大きく変化されずに流れやすい。伝達過程において、細胞状態中の情報は、現在時刻の入力、直前の時刻の隠蔽層状態、直前の時刻における細胞状態およびゲート構造によって追加または削除される。音声認識において、ＬＳＴＭモデルのメモリユニットは主に音声特徴の記憶と処理のために使用され、忘却ゲート、入力ゲートおよび出力ゲートとの３つのゲート計算を実現し、三つのゲートにより現在時刻のニューロン状態ｃ_ｔを保護し制御する。具体的には、以下のとおりである。

【0014】

（１）入力ゲート
該ゲートの役割は、入力ｘ_ｔの中にどれくらいの情報がｃ_ｔに残っているかを決定することであり、以下の式により実現される。

【数1】

ここで、ｉ_ｔはｔ時刻の入力ゲートにおける入力であり、入力ゲートを通じて、出力ゲートに対応する状態

【数2】

を残しておく。Ｗ_ｉ、Ｗ_ｃは重み行列を表し、ｂ_ｉ、ｂ_ｃはバイアス項を表し、ｘ_ｔ－１、ｘ_ｔ、ｘ_ｔ＋１はそれぞれ直前の時刻、現在時刻および直後の時刻における入力を表す。ｈ_ｔ－１、ｈ_ｔ、ｈ_ｔ＋１はそれぞれ直前の時刻、現在時刻および直後の時刻におけるニューロン状態を表し、σはｓｉｇｍｏｉｄ関数を表す。

【0015】

（２）忘却ゲート
該ゲートの役割は、ｔ時刻に入力されたｃ_ｔ－１にどれくらいがｃ_ｔに残っているかを決定することであり、以下の式により実現れる。

【数3】

ここで、Ｗ_ｆは重み行列を表し、ｂ_ｆはバイアス項を表す。

【0016】

（３）出力ゲート
該ゲートの役割は、制御ユニットを利用してｃ_ｔからＬＳＴＭの現在の出力値ｈ_ｔにどれくらい出力されているか確定することである。まず、入力ゲートと忘却ゲートを通過した後の状態であり、すなわちｃ_ｔは以下の式で実現される。

【数4】

ここで、前半は情報が忘却ゲートを経てｃ_ｔに残される成分であり、後半は情報が入力ゲートを経てｃ_ｔに残される成分である。続いて、ｃ_ｔにおいてどれくらいの成分がｈ_ｔに残されているかを確定するため、以下の式により出力が実現される。

【数5】

ここで、ｏ_ｔはｔ時刻における出力層の状態であり、Ｗ_ｏは重み行列を表し、ｂ_ｏはバイアス項を表す。最後に、出力ゲートを経て、隠蔽層の最終出力結果は

【数6】

である。

【0017】

具体的に、家庭内会話環境に向けた組み合わせニューラルネットワーク音声認識方法は、以下のステップを含む。

【0018】

まず、モデルを構築する。ディープニューラルネットワークに長短期記憶ネットワークを加え、組み合わせニューラルネットワークＤＮＮ－ＬＳＴＭモデルを構築する。

【0019】

図２は、ＤＮＮ－ＬＳＴＭモデルの構造を示す図である。第０層が入力層で、第１～４層が隠蔽層で、第５層が出力層であり、活性化関数はｓｏｆｔｍａｘ関数である。隠蔽層において、第一層はＬＳＴＭネットワーク構造であり、ノード数は５１２個であり、活性化関数はｓｉｇｍｏｉｄ関数とｔａｎｈ関数を選択し、ネットワーク内のデータの過剰な学習を防ぐために、ニューラルユニット内部にＤｒｏｐｏｕｔポリシーを組み込む。後の３層はすべてＤＮＮネットワーク構造で、各層のノード数は１０２４個であり、活性化関数はｓｉｇｍｏｉｄ関数を選択する。すなわち、組み合わせニューラルネットワークＤＮＮ－ＬＳＴＭモデルは、入力層、長短期記憶ネットワーク、第二隠蔽層、第三隠蔽層、第四隠蔽層および出力層を含み、長短期記憶ネットワークは第一隠蔽層として働く。

【0020】

該モデルは６層で、各層のニューロンの入力ベクトルはｚ^ｎ、出力ベクトルはｙ^ｎであり、

【数7】

の関係が成り立つ。ここで、Ｗ^ｎは第ｎ－1層から第ｎ層の重み行列であり、ｂ^ｎは第ｎ層のバイアス項である。入力ベクトルから以下の式より出力が得られる。

【数8】

ここで、ｆ_ｎは第ｎ層の活性化関数である。

【0021】

続いて、モデルを訓練する。
中国語音声データを訓練する。収集した中国語音声データセットについて前処理し、中国語特徴ベクトルセットｖｅｃｔｏｒ０を得て、さらに、中国語特徴ベクトルセットをＤＮＮ－ＬＳＴＭモデルの入力として反復訓練を行い、最適な中国語音響モデルになるまで訓練する。

【0022】

ここで、前処理の動作には、サンプリング、プリエンファシス、窓関数処理やフレーミング、エンドポイント検出を含み、特徴ベクトルｖｅｃｔｏｒ０をＤＮＮ－ＬＳＴＭモデルの入力として反復訓練し、最適音響モデルＣｈｉｎａ＿ｍｏｄｅｌになるまで訓練する。

【0023】

訓練のステップは以下のとおりである。
（１）ネットワーク構造における重み行列Ｗおよびバイアスベクトルｂをランダムな値に初期化する。

【0024】

（２）第１回目から最大回数までの反復を開始する。本実施形態では、最大回数を５０に設定し、各反復において、最初の訓練サンプルから最後の訓練サンプルまでトラバースする。ここで、現在トラバースされている訓練サンプルはｉで表される。

【0025】

（３）各サンプルの訓練では、入力ベクトルをＤＮＮの第一層入力とし、ａ^１で表す。続いて、隠蔽層の第一層から出力層までトラバースを開始し、現在トラバースされている層をｎで表し、各層ともに順方向伝搬アルゴリズムでａ^ｉ，ｎ＝ｆ（ｚ^ｉ，ｎ）＝ｆ（Ｗ^ｎａ^{ｉ，ｎ－１}＋ｂ^ｎ）を計算し、現在トラバースされているのは該層の第ｉ番目のサンプルに対応する入力層を表す。

【0026】

損失関数に基づいて出力層δ^ｉ，Ｌを計算し、Ｌは出力層である。隠蔽層の最後の一層から隠蔽層の第一層までトラバースし、逆方向伝搬アルゴリズムでδ^ｉ，ｎ＝（ｗ^ｎ＋１）^Ｔδ^{ｉ，ｎ＋１}Θｆ’（ｚ^ｉ，ｎ）を計算する。すなわち、現在トラバースされているのは該層の第ｉ番目の訓練サンプルに対応する出力層を表し、Ｔは転置、ｆ’は微分、Θは排他的論理和演算を表す。

【0027】

（４）逆方向伝搬アルゴリズムを完了した後、隠蔽層の第一層から出力層までトラバースを開始し、現在トラバースされている第ｎ層のＷ^ｎ、ｂ^ｎを更新すると、

【数9】

であり、このようにして、一回の反復プロセスにおけるある1つのサンプルについての訓練が終了する。この際、サンプルのトラバースが終わっていない場合には、サンプルのトラバースを続け、サンプルがトラバースされた場合には、次の反復を行う。ここで、ｍは訓練サンプルの総数であり、αは反復のステップサイズである。

【0028】

（５）全てのＷ、ｂの変更値が反復閾値を超えない場合、反復ループを停止する。

【0029】

（６）各層の最適重み行列Ｗとバイアスベクトルｂを保持する。

【0030】

英語音声データを訓練する。収集した英語音声データセットについて前処理し、英語特徴ベクトルセットｖｅｃｔｏｒ１を得て、さらに、英語特徴ベクトルセットをＤＮＮ－ＬＳＴＭモデルの入力として反復訓練を行い、最適な英語音響モデルになるまで訓練する。ここで、前処理の動作には、サンプリング、プリエンファシス、窓関数処理やフレーミング、エンドポイント検出を含み、特徴ベクトルｖｅｃｔｏｒ１をＤＮＮ－ＬＳＴＭモデルの入力として反復訓練し、最適音響モデルＥｎｇｌｉｓｈ＿ｍｏｄｅｌになるまで訓練する。具体的なトラバースのステップは、中国語音声データ訓練のステップと同じであり、ここでは詳細な説明を省略する。

【0031】

最後に、モデルをテストする。具体的には、以下のとおりである。
一つの未知の言語の入力音声信号ｖｏｉｃｅ０を、それぞれ中国語音響モデルと英語音響モデルを経て、それぞれ中国語の出力確率ベクトルセットと英語の出力確率ベクトルセットを得る。

【0032】

中国語出力確率ベクトルセットと英語出力確率ベクトルセットに基づいて言語マッチングを行い、判定結果を出力する。

【0033】

情報エントロピーの公式を利用して、中国語出力確率ベクトルセットＰと英語出力確率ベクトルセットＰ’に対応する情報エントロピーをそれぞれ計算し、それぞれ対応してＨとＨ’と記録する。ここで、Ｐ＝｛ｐ_１，ｐ_２，・・・，ｐ_ｑ｝，Ｐ’＝｛ｐ’_１，ｐ’_２，・・・，ｐ’_ｔ｝、ｑは中国語音響モデルの出力分類の総数であり、ｔは英語音響モデルの出力分類の総数である。

【0034】

情報エントロピーの公式は、以下のとおりである。

【数10】

【0035】

中国語音響モデルから出力された確率ベクトルセットにおいて、他よりも著しく大きい確率値ｐ_iが存在する場合、英語音響モデルから出力された確率ベクトルセットにおける各々の確率値の差は大きくない。ここで、１≦ｉ≦ｑである。

【0036】

本発明の実施形態において、確率値が明らかに異なる（差を有する）か否かは、ｓｏｆｔｍａｘ出力層の出力分類と関連し、出力分類が多いほど、対応する範囲は小さくなり、該範囲をβに設定すれば、確率値間の差分値がβ以上であれば明らかな差があり、もし各確率値間の差分値がβより小さければ明らかな差がない。テストにおいて、出力分類を５種類に分類した場合、該範囲βは約０．２で、出力分類が多いほどその範囲も小さくなる。

【0037】

また、中国語音響モデルに入力された対応する情報エントロピーＨが、英語音響モデルに入力された対応する情報エントロピーＨ’よりも小さい場合、対応する未知の言語の入力音声信号ｖｏｉｃｅ０は中国語であり、中国語音響モデルの出力確率を最終出力結果とする。すなわち、情報エントロピーの性質によって、エントロピーが大きければ大きいほど、システムの情報量も大きく、不確実性が高い。ｐ_１＝ｐ_２＝，・・・，＝ｐ_ｑの場合、最大値を有し、中国語出力確率の情報エントロピーは、英文出力確率の情報エントロピーより遥かに小さく、すなわち、中国語音声信号は中国語音響モデルにおける適合度がさらに高いため、中国語音響モデルの出力確率を最後の出力結果とする。

【0038】

英語音響モデルから出力された確率ベクトルセットにおいて、他よりも著しく大きい確率値ｐ_ｊが存在する場合、中国語音響モデルから出力された確率ベクトルセットにおける各々の確率値の差は大きくない。ここで、１≦ｊ≦ｔである。

【0039】

また、英語音響モデルに入力された対応する情報エントロピーＨ’が、中国語音響モデルに入力された対応する情報エントロピーよりも小さい場合、対応する未知の言語の入力音声信号ｖｏｉｃｅ０は英語であり、英語音響モデルの出力確率を最終出力結果とする。

【0040】

さらに、本発明に係る家庭内会話環境に向けたニューラルネットワーク音声認識システムは、
ディープニューラルネットワークに長短期記憶ネットワークを加え、組み合わせニューラルネットワークＤＮＮ－ＬＳＴＭモデルを構築するモデル構築モジュールと、
収集した中国語音声データセットについて前処理し、中国語特徴ベクトルセットを得て、さらに、中国語特徴ベクトルセットをＤＮＮ－ＬＳＴＭモデルの入力として反復訓練を行い、最適な中国語音響モデルになるまで訓練する中国語モデル訓練ユニットと、収集した英語音声データセットについて前処理し、英語特徴ベクトルセットを得て、さらに、英語特徴ベクトルセットをＤＮＮ－ＬＳＴＭモデルの入力として反復訓練を行い、最適な英語音響モデルになるまで訓練する英語モデル訓練ユニットと、を含むモデル訓練モジュールと、
一つの未知の言語の入力音声信号ｖｏｉｃｅ０を、それぞれ中国語音響モデルと英語音響モデルを経て、それぞれ中国語の出力確率ベクトルセットと英語の出力確率ベクトルセットを得る音声入力ユニットと、中国語出力確率ベクトルセットと英語出力確率ベクトルセットに基づいて言語マッチングを行い、判定結果を出力する音声類型判断ユニットと、を含むモデルテストモジュールと、
を含む。

【0041】

システム／装置の実施形態に関しては、その基本が方法の実施形態と相似であるため、比較的に簡単に説明し、関連するところは方法の実施形態の説明を参照すればよい。

【0042】

説明すべきこととして、本明細書において、第一および第二などの用語は、単に一つの実体または一つの動作を他の一つの実体または他の一つの動作と区別するためにのみ使用され、必ずしもこれらの実体または動作の間にそのような実際の関係または順序が存在することを要求または示唆するものではない。

【0043】

いわゆる当業者であれば、本明細書の実施形態は、方法、システム、またはコンピュータプログラム製品を提供できることを理解できる。したがって、本明細書は、完全にハードウェアを採用する実施形態、完全なアプリケーションの実施形態、またはアプリケーションおよびハードウェアの両方を組み合わせた実施形態を採用できる。さらに、本明細書は、一つまたは複数のコンピュータにより実行可能なプログラムを記録した記録媒体（ディスクメモリ、ＣＤ－ＲＯＭ、光メモリなどを含むが、これらに限定されない）において実装されるコンピュータプログラム製品の形態をとることができる。

【0044】

本発明は、本発明の実施形態に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら説明されている。フローチャートおよび/またはブロック図における各フローおよび/またはブロック、ならびにフローチャートおよび/またはブロック図におけるフローおよび/またはブロックの組み合わせができる。コンピュータプログラム命令によって実装されうることも理解されたい。これらのコンピュータプログラムは、汎用コンピュータ、専用コンピュータ、組込み処理装置または他のプログラマブル可能なデータ処理装置のプロセッサに命令を提供し、一つのマシンを生成できる。コンピュータまたは他のプログラマブル可能なデータ処理装置のプロセッサによって実行される命令は、フローチャートの一つまたは複数の流れおよび/またはブロック図の一つまたは複数のブロックにおいて指定された機能を実現する装置を生成できる。

【0045】

これらのコンピュータプログラム命令は、また、コンピュータまたは他のプログラマブル可能なデータ処理装置を特定の方法で動作させることができるコンピュータ読み取り可能なメモリに格納されてもよく、該コンピュータ読み取り可能なメモリに格納された命令は、命令装置を含む製品を生成し、命令装置は、フローチャートの一つまたは複数の流れおよび/またはブロック図の一つまたは複数のブロックで指定される機能を実装する。
これらのコンピュータプログラム命令は、さらに、コンピュータ実装処理を生成するために一連の動作ステップをコンピュータまたは他のプログラマブル可能なデータ処理装置にロードすることができる。したがって、コンピュータまたは他のプログラマブル可能なデバイス上で実行される命令は、フローチャートの一つまたは複数の流れおよび/または、ブロック図の一つまたは複数のブロックにおいて指定された機能を実現するステップを提供する。

【0046】

以上、本発明の好ましい実施形態を説明したが、いわゆる当業者であれば、基本的な創造的概念を知れば、これらの実施形態に追加の変更および改良を加えることができる。したがって、本発明の特許請求の範囲は、上記の好ましい実施形態および本発明の保護範囲に含まれるすべての変更および改良を含む。

【0047】

いわゆる当業者は、本発明の技術的思想から逸脱しない範囲内において、本発明について様々な変更および改良行うことができるのは明らかである。したがって、本発明についてのこれらの変更および改良が、本発明の特許請求の範囲およびその均等な技術の範囲内に属する場合、これらの変更および改良も本発明の保護範囲に含まれる。

【図1】

【図2】

【図3】

【手続補正書】

【提出日】2022-03-03

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

ディープニューラルネットワークに長短期記憶ネットワークを加え、組み合わせニューラルネットワークＤＮＮ－ＬＳＴＭモデルを構築するモデル構築ステップと、
収集した中国語音声データセットについて前処理し、中国語特徴ベクトルセットを得て、さらに、前記中国語特徴ベクトルセットを前記ＤＮＮ－ＬＳＴＭモデルの入力として反復訓練を行い、最適な中国語音響モデルになるまで訓練する中国語音声データを訓練するステップと、収集した英語音声データセットについて前処理し、英語特徴ベクトルセットを得て、さらに、前記英語特徴ベクトルセットを前記ＤＮＮ－ＬＳＴＭモデルの入力として反復訓練を行い、最適な英語音響モデルになるまで訓練する英語音声データを訓練するステップと、を含むモデル訓練ステップと、
一つの未知の言語の入力音声信号ｖｏｉｃｅ０を、それぞれ前記中国語音響モデルと前記英語音響モデルを経て、それぞれ中国語出力確率ベクトルセットと英語出力確率ベクトルセットを得るステップと、前記中国語出力確率ベクトルセットと前記英語出力確率ベクトルセットに基づいて言語マッチングを行い、判定結果を出力するステップと、を含むモデルテストステップと、
を含み、
前記中国語出力確率ベクトルセットと前記英語出力確率ベクトルセットに基づいて言語マッチングを行うことは、
情報エントロピーの公式を利用して、中国語出力確率ベクトルセットＰと英語出力確率ベクトルセットＰ’に対応する情報エントロピーをそれぞれ計算し、それぞれ対応してＨとＨ’と記録し、ここで、Ｐ＝｛ｐ _１，ｐ _２，・・・，ｐ _ｑ｝，Ｐ’＝｛ｐ’ _１，ｐ’ _２，・・・，ｐ’ _ｔ｝、ｑは中国語音響モデルの出力分類の総数であり、ｔは英語音響モデルの出力分類の総数であることと、
中国語音響モデルから出力された確率ベクトルセットにおいて、他よりも著しく大きい確率値ｐ _i が存在する場合、英語音響モデルから出力された確率ベクトルセットにおける各々の確率値の差は大きくなく、ここで、１≦ｉ≦ｑであることと、
中国語音響モデルに入力された対応する情報エントロピーＨが、英語音響モデルに入力された対応する情報エントロピーＨ’よりも小さい場合、対応する未知の言語の入力音声信号ｖｏｉｃｅ０は中国語であり、中国語音響モデルの出力確率を最終出力結果とすることと、
英語音響モデルから出力された確率ベクトルセットにおいて、他よりも著しく大きい確率値ｐ _ｊが存在する場合、中国語音響モデルから出力された確率ベクトルセットにおける各々の確率値の差は大きくなく、ここで、１≦ｊ≦ｔであることと、
英語音響モデルに入力された対応する情報エントロピーＨ’が、中国語音響モデルに入力された対応する情報エントロピーよりも小さい場合、対応する未知の言語の入力音声信号ｖｏｉｃｅ０は英語であり、英語音響モデルの出力確率を最終出力結果とすることと、
を含む、家庭内会話環境に向けたニューラルネットワーク音声認識方法。

【請求項2】

【請求項3】

【請求項4】

【請求項5】

請求項１～４のいずれか一項に記載の家庭内会話環境に向けたニューラルネットワーク音声認識方法を実行するシステムであって、
ディープニューラルネットワークに長短期記憶ネットワークを加え、組み合わせニューラルネットワークＤＮＮ－ＬＳＴＭモデルを構築するモデル構築モジュールと、
収集した中国語音声データセットについて前処理し、中国語特徴ベクトルセットを得て、さらに、中国語特徴ベクトルセットをＤＮＮ－ＬＳＴＭモデルの入力として反復訓練を行い、最適な中国語音響モデルになるまで訓練する中国語モデル訓練ユニットと、収集した英語音声データセットについて前処理し、英語特徴ベクトルセットを得て、さらに、英語特徴ベクトルセットをＤＮＮ－ＬＳＴＭモデルの入力として反復訓練を行い、最適な英語音響モデルになるまで訓練する英語モデル訓練ユニットと、を含むモデル訓練モジュールと、
一つの未知の言語の入力音声信号ｖｏｉｃｅ０を、それぞれ中国語音響モデルと英語音響モデルを経て、それぞれ中国語の出力確率ベクトルセットと英語の出力確率ベクトルセットを得る音声入力ユニットと、中国語出力確率ベクトルセットと英語出力確率ベクトルセットに基づいて言語マッチングを行い、判定結果を出力する音声類型判断ユニットと、を含むモデルテストモジュールと、
を含む、家庭内会話環境に向けたニューラルネットワーク音声認識システム。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版