特許第6861500号(P6861500)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三星電子株式会社の特許一覧

特許6861500ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法
<>
  • 特許6861500-ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法 図000008
  • 特許6861500-ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法 図000009
  • 特許6861500-ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法 図000010
  • 特許6861500-ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法 図000011
  • 特許6861500-ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法 図000012
  • 特許6861500-ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法 図000013
  • 特許6861500-ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法 図000014
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6861500
(24)【登録日】2021年4月1日
(45)【発行日】2021年4月21日
(54)【発明の名称】ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法
(51)【国際特許分類】
   G10L 15/16 20060101AFI20210412BHJP
   G10L 15/065 20130101ALI20210412BHJP
   G10L 15/06 20130101ALI20210412BHJP
【FI】
   G10L15/16
   G10L15/065 A
   G10L15/06 500L
【請求項の数】27
【全頁数】19
(21)【出願番号】特願2016-216662(P2016-216662)
(22)【出願日】2016年11月4日
(65)【公開番号】特開2017-90912(P2017-90912A)
(43)【公開日】2017年5月25日
【審査請求日】2019年10月1日
(31)【優先権主張番号】10-2015-0156152
(32)【優先日】2015年11月6日
(33)【優先権主張国】KR
(73)【特許権者】
【識別番号】390019839
【氏名又は名称】三星電子株式会社
【氏名又は名称原語表記】Samsung Electronics Co.,Ltd.
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】李 鎬 式
(72)【発明者】
【氏名】崔 喜 烈
【審査官】 上田 雄
(56)【参考文献】
【文献】 特開2000−298663(JP,A)
【文献】 米国特許出願公開第2015/0019214(US,A1)
【文献】 米国特許出願公開第2013/0096915(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−15/34
(57)【特許請求の範囲】
【請求項1】
クリーントレーニングデータ及び前記クリーントレーニングデータに対応する正解データに基づいて、ニューラルネットワークモデルを1次トレーニングする一次トレーニング部と、
ノイジートレーニングデータ及び前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布に基づいて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする二次トレーニング部と、
を含むニューラルネットワークトレーニング装置。
【請求項2】
前記二次トレーニング部は、
前記ノイジートレーニングデータを入力とし、前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布を正解として、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする、請求項1に記載のニューラルネットワークトレーニング装置。
【請求項3】
前記ノイジートレーニングデータは、
前記クリーントレーニングデータが歪曲されたデータ、または前記クリーントレーニングデータとトレーニングノイズデータとが混合されたデータを含む、請求項1または2に記載のニューラルネットワークトレーニング装置。
【請求項4】
前記ニューラルネットワークモデルは、ニューラルネットワーク基盤の音響モデルである、請求項1ないし3いずれか一項に記載のニューラルネットワークトレーニング装置。
【請求項5】
前記一次トレーニング部は、
前記クリーントレーニングデータから前記正解データを獲得するようにニューラルネットワークモデルのトレーニングを行う第1目的関数を用いて、前記ニューラルネットワークモデルを1次トレーニングする、請求項1ないし4いずれか一項に記載のニューラルネットワークトレーニング装置。
【請求項6】
前記二次トレーニング部は、
前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布と、前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される第2目的関数を用いて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする、請求項1ないし5いずれか一項に記載のニューラルネットワークトレーニング装置。
【請求項7】
前記二次トレーニング部は、
前記クリーントレーニングデータから正解データを獲得できるようにニューラルネットワークモデルのトレーニングを行う目的関数と、前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布、及び前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される目的関数の加重和で構成される第2目的関数を用いて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする、請求項1に記載のニューラルネットワークトレーニング装置。
【請求項8】
クリーントレーニングデータ及び前記クリーントレーニングデータに対応する正解データに基づいて、ニューラルネットワークモデルを1次トレーニングする段階と、
ノイジートレーニングデータ及び前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布に基づいて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする段階と、
を含むニューラルネットワークトレーニング方法。
【請求項9】
前記2次トレーニングする段階は、
前記ノイジートレーニングデータを入力とし、前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布を正解として、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする、請求項8に記載のニューラルネットワークトレーニング方法。
【請求項10】
前記ノイジートレーニングデータは、
前記クリーントレーニングデータが歪曲されたデータ、または前記クリーントレーニングデータとトレーニングノイズデータとが混合されたデータを含む、請求項8または9に記載のニューラルネットワークトレーニング方法。
【請求項11】
前記ニューラルネットワークモデルは、ニューラルネットワーク基盤の音響モデルである、請求項8ないし10いずれか一項に記載のニューラルネットワークトレーニング方法。
【請求項12】
前記1次トレーニングする段階は、
前記クリーントレーニングデータから正解データを獲得できるようにニューラルネットワークモデルのトレーニングを行う第1目的関数を用いて、前記ニューラルネットワークモデルを1次トレーニングする、請求項8ないし11いずれか一項に記載のニューラルネットワークトレーニング方法。
【請求項13】
前記2次トレーニングする段階は、
前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布と、前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される第2目的関数を用いて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする、請求項8ないし12いずれか一項に記載のニューラルネットワークトレーニング方法。
【請求項14】
前記2次トレーニングする段階は、
前記クリーントレーニングデータから正解データを獲得できるようにニューラルネットワークモデルのトレーニングを行う目的関数と、前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布、及び前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される目的関数の加重和で構成される第2目的関数を用いて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする、請求項8に記載のニューラルネットワークトレーニング方法。
【請求項15】
コンピュータに、請求項8に記載の方法を実行させるコンピュータプログラム。
【請求項16】
ノイジー音声データの特徴を抽出する特徴抽出部と、
音響モデルを用いて、前記抽出された特徴に対応する音素の確率を算出する音素確率算出部と、を含み、
前記音響モデルは、
音声トレーニングデータ及び前記音声トレーニングデータに対応する音素列に基づいて1次トレーニングし、ノイジー音声トレーニングデータ及び前記音響モデルの1次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布に基づいて2次トレーニングされた音響モデルである音声認識装置。
【請求項17】
前記音響モデルは、
前記音声トレーニングデータを入力とし、前記音声トレーニングデータに対応する音素列を正解として、1次トレーニングされる、請求項16に記載の音声認識装置。
【請求項18】
前記音響モデルは、
前記ノイジー音声トレーニングデータを入力とし、前記音響モデルの1次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布を正解として、2次トレーニングされる、請求項16または17に記載の音声認識装置。
【請求項19】
前記ノイジー音声トレーニングデータは、
前記音声トレーニングデータが歪曲されたデータ、または前記音声トレーニングデータとトレーニングノイズデータとが混合されたデータを含む、請求項16ないし18いずれか一項に記載の音声認識装置。
【請求項20】
前記音響モデルは、ニューラルネットワーク基盤の音響モデルである、請求項16ないし19いずれか一項に記載の音声認識装置。
【請求項21】
前記音響モデルの1次トレーニングは、
前記音声トレーニングデータから音素を獲得できるように音響モデルのトレーニングを行う第1目的関数を用いて行われる、請求項16ないし20いずれか一項に記載の音声認識装置。
【請求項22】
前記音響モデルの2次トレーニングは、
前記音響モデルの1次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布と、前記音響モデルの出力レイヤの活性化関数の組み合わせで構成される第2目的関数を用いて行われる、請求項16ないし21いずれか一項に記載の音声認識装置。
【請求項23】
前記音響モデルの2次トレーニングは、
前記音声トレーニングデータから音素を獲得できるように音響モデルのトレーニングを行う目的関数と、前記音響モデルの1次トレーニング過程から算出される前記音声トレーニングデータに対する出力クラスの確率分布、及び前記音響モデルの出力レイヤの活性化関数の組み合わせで構成される目的関数の加重和で構成される第2目的関数を用いて行われる、請求項16に記載の音声認識装置。
【請求項24】
クリーントレーニングデータとハードターゲットデータとに基づいて、ニューラルネットワークモデルを1次トレーニングする一次トレーニング部と、
ノイジートレーニングデータ及び前記ニューラルネットワークモデルの1次トレーニング過程から獲得されるソフトターゲットデータに基づいて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする二次トレーニング部と、
を含むニューラルネットワークトレーニング装置。
【請求項25】
前記ノイジートレーニングデータは、クリーントレーニングデータを歪曲するか、クリーントレーニングデータをノイズと混合して獲得される、請求項24に記載のニューラルネットワークトレーニング装置。
【請求項26】
前記ソフトターゲットデータは、ニューラルネットワークモデルの1次トレーニング過程から算出されたクリーントレーニングデータに対する出力クラスの確率分布である、請求項24または25に記載のニューラルネットワークトレーニング装置。
【請求項27】
前記二次トレーニング部は、
前記ノイジートレーニングデータ、前記ソフトターゲットデータ、及び前記ニューラルネットワークモデルの出力レイヤの活性化関数に基づいて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする、請求項24ないし26いずれか一項に記載のニューラルネットワークトレーニング装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法と、に関する。
【背景技術】
【0002】
最近の音声認識技術は、過去と比較して多くの注目を受けている状況である。その理由は、音声認識技術が具現される場合、インターネット情報の利用や電子商取引、各種のユビキタス環境をより便利に音声を通じて操作し、かつ手を使いにくい車両運行のような場合にも、インターネットにアクセスでき、又は事務その他のサービスを利用でき、ユーザの多様なニーズ(needs)を充足できるからである。
【0003】
音声認識技術で重要な問題の1つは、周辺環境によって発生するノイズを効率的に除去することである。このような周辺環境によって生成されたノイズによって発生する、トレーニング環境と実際の音声認識環境との間の不一致は、音声認識システムの音声認識の性能を低下させる主要原因の1つである。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明が解決しようとする課題は、ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法と、を提供するところにある。
【課題を解決するための手段】
【0005】
一実施形態は、ノイズに頑健なニューラルネットワークトレーニング装置及び方法と、ノイズに頑健なニューラルネットワーク基盤の音響モデルを用いる音声認識装置及び方法と、を提供することを目的とする。
【0006】
一態様によるニューラルネットワークトレーニング装置は、クリーントレーニングデータ(clean training data)及び前記クリーントレーニングデータに対応する正解データに基づいて、ニューラルネットワークモデルを1次トレーニングする一次トレーニング部と、ノイジートレーニングデータ(noisy training data)及び前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布に基づいて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする二次トレーニング部と、を含みうる。
【0007】
前記二次トレーニング部は、前記ノイジートレーニングデータを入力とし、前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布を正解(target)として、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。
【0008】
前記ノイジートレーニングデータは、前記クリーントレーニングデータが歪曲されたデータ、または前記クリーントレーニングデータとトレーニングノイズデータとが混合されたデータを含みうる。
【0009】
前記ニューラルネットワークモデルは、ニューラルネットワーク基盤の音響モデルであり得る。
【0010】
前記一次トレーニング部は、前記クリーントレーニングデータから前記正解データを獲得するようにニューラルネットワークモデルのトレーニングを行う第1目的関数を用いて、前記ニューラルネットワークモデルを1次トレーニングすることができる。
【0011】
前記二次トレーニング部は、前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布と、前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される第2目的関数を用いて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。
【0012】
前記二次トレーニング部は、前記クリーントレーニングデータから正解データを獲得できるようにニューラルネットワークモデルのトレーニングを行う目的関数と、前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布、及び前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される目的関数の加重和で構成される第2目的関数を用いて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。
【0013】
他の態様によるニューラルネットワークトレーニング方法は、クリーントレーニングデータ及び前記クリーントレーニングデータに対応する正解データに基づいて、ニューラルネットワークモデルを1次トレーニングする段階と、ノイジートレーニングデータ及び前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布に基づいて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする段階と、を含みうる。
【0014】
前記2次トレーニングする段階は、前記ノイジートレーニングデータを入力とし、前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布を正解として、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。
【0015】
前記ノイジートレーニングデータは、前記クリーントレーニングデータが歪曲されたデータ、または前記クリーントレーニングデータとトレーニングノイズデータとが混合されたデータを含みうる。
【0016】
前記ニューラルネットワークモデルは、ニューラルネットワーク基盤の音響モデルであり得る。
【0017】
前記1次トレーニングする段階は、前記クリーントレーニングデータから正解データを獲得できるようにニューラルネットワークモデルのトレーニングを行う第1目的関数を用いて、前記ニューラルネットワークモデルを1次トレーニングすることができる。
【0018】
前記2次トレーニングする段階は、前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布と、前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される第2目的関数を用いて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。
【0019】
前記2次トレーニングする段階は、前記クリーントレーニングデータから正解データを獲得できるようにニューラルネットワークモデルのトレーニングを行う目的関数と、前記ニューラルネットワークモデルの1次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布、及び前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される目的関数の加重和で構成される第2目的関数を用いて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。
【0020】
さらに他の態様によるコンピュータ可読記録媒体は、請求項8に記載の方法を行うためのインストラクションを保存することができる。
【0021】
さらに他の態様による音声認識装置は、ノイジー音声データ(noisy speech data)の特徴を抽出する特徴抽出部と、音響モデルを用いて、前記抽出された特徴に対応する音素の確率を算出する音素確率算出部と、を含み、前記音響モデルは、音声トレーニングデータ(speech training data)及び前記音声トレーニングデータに対応する音素列に基づいて1次トレーニングし、ノイジー音声トレーニングデータ(noisy speech training data)及び前記音響モデルの1次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布に基づいて2次トレーニングされた音響モデルであり得る。
【0022】
前記音響モデルは、前記音声トレーニングデータを入力とし、前記音声トレーニングデータに対応する音素列を正解として、1次トレーニングされうる。
【0023】
前記音響モデルは、前記ノイジー音声トレーニングデータを入力とし、前記音響モデルの1次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布を正解として、2次トレーニングされうる。
【0024】
前記ノイジー音声トレーニングデータは、前記音声トレーニングデータが歪曲されたデータ、または前記音声トレーニングデータとトレーニングノイズデータとが混合されたデータを含みうる。
【0025】
前記音響モデルは、ニューラルネットワーク基盤の音響モデルであり得る。
【0026】
前記音響モデルの1次トレーニングは、前記音声トレーニングデータから音素を獲得できるように音響モデルのトレーニングを行う第1目的関数を用いて行われる。
【0027】
前記音響モデルの2次トレーニングは、前記音響モデルの1次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布と、前記音響モデルの出力レイヤの活性化関数の組み合わせで構成される第2目的関数を用いて行われる。
【0028】
前記音響モデルの2次トレーニングは、前記音声トレーニングデータから音素を獲得できるように音響モデルのトレーニングを行う目的関数と、前記音響モデルの1次トレーニング過程から算出される前記音声トレーニングデータに対する出力クラスの確率分布、及び前記音響モデルの出力レイヤの活性化関数の組み合わせで構成される目的関数の加重和で構成される第2目的関数を用いて行われる。
【0029】
さらに他の態様によるニューラルネットワークトレーニング装置は、クリーントレーニングデータとハードターゲットデータとに基づいて、ニューラルネットワークモデルを1次トレーニングする一次トレーニング部と、ノイジートレーニングデータ及び前記ニューラルネットワークモデルの1次トレーニング過程から獲得されるソフトターゲットデータに基づいて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングする二次トレーニング部と、を含みうる。
【0030】
前記ノイジートレーニングデータは、クリーントレーニングデータを歪曲するか、クリーントレーニングデータをノイズと混合して獲得される。
【0031】
前記ソフトターゲットデータは、ニューラルネットワークモデルの1次トレーニング過程から算出されたクリーントレーニングデータに対する出力クラスの確率分布であり得る。
【0032】
前記二次トレーニング部は、前記ノイジートレーニングデータ、前記ソフトターゲットデータ、及び前記ニューラルネットワークモデルの出力レイヤの活性化関数に基づいて、前記1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。
【図面の簡単な説明】
【0033】
図1】ニューラルネットワークトレーニング装置の一実施形態を示す図面である。
図2】ニューラルネットワークトレーニング装置の他の実施形態を示す図面である。
図3】音声認識装置の一実施形態を示すブロック図である。
図4】ニューラルネットワークトレーニング方法の一実施形態を示すフローチャートである。
図5】ニューラルネットワークトレーニング方法の他の実施形態を示すフローチャートである。
図6】音声認識方法の一実施形態を示すフローチャートである。
図7】ノイジー音声データの音素確率算出方法のフローチャートである。
【発明を実施するための形態】
【0034】
以下、添付図面を参照して、本発明の一実施形態を詳細に説明する。本発明を説明するに当って、関連した公知の機能または構成についての具体的な説明が、本発明の要旨を不明りょうにするおそれがあると判断される場合には、その詳細な説明を省略する。また、後述される用語は、本発明での機能を考慮して定義された用語であって、これは、ユーザ、運用者の意図または慣例などによって変わりうる。したがって、その定義は、本明細書の全般に亘った内容に基づいて下されなければならない。
【0035】
図1は、ニューラルネットワークトレーニング装置の一実施形態を示す図面である。
【0036】
ニューラルネットワークトレーニング装置100は、マルチコンディショントレーニング(Multi−condition Training:MCT)技法を用いてニューラルネットワークモデルをトレーニング(training)する装置である。一実施形態によれば、ニューラルネットワークモデルは、複数の隠れ層を含むニューラルネットワーク基盤の音響モデルである。しかし、これは、一実施形態であり、これに限定されるものではない。ニューラルネットワークモデルは、典型的な逆伝播(back propagation)技法(例えば、gradient descent algorithm、stochastic gradient descent algorithm、または他の逆伝播技法など)を用いてトレーニングされうる。
【0037】
図1を参照すれば、ニューラルネットワークトレーニング装置100は、一次トレーニング部110及び二次トレーニング部120を含みうる。
【0038】
一次トレーニング部110は、クリーントレーニングデータとクリーントレーニングデータに対応する正解データとに基づいて、ニューラルネットワークモデルを1次トレーニングすることができる。クリーントレーニングデータは、ノイズが含まれていないトレーニングデータを意味する。例えば、一次トレーニング部110は、クリーントレーニングデータを入力とし、クリーントレーニングデータに対応する正解データを正解として、ニューラルネットワークモデルを1次トレーニングすることができる。
【0039】
一実施形態によれば、一次トレーニング部110は、クリーントレーニングデータから対応する正解を獲得できるようにニューラルネットワークモデルのトレーニングを行う目的関数(以下、第1目的関数)を用いて、ニューラルネットワークモデルを1次トレーニングすることができる。例えば、第1目的関数は、マルチクラス分類(multi−class classification)に主に使われるクロスエントロピー(cross−entropy)を利用できる。それを数式で表現すれば、数式(1)のようである。
【0040】
【数1】
数式(1)において、nは、入力データ、すなわち、クリーントレーニングデータのサンプルのインデックスを示し、kは、出力クラス(output class)のインデックスを示し、Xは、クリーントレーニングデータのn番目のサンプルを示し、y(X)は、ニューラルネットワークモデルの出力レイヤの活性化関数(activation function)を示す。tnkは、Xに対するk番目の出力クラスが正解クラスである場合、1の値を、正解クラスではない場合、0の値を有する。
【0041】
二次トレーニング部120は、ノイジートレーニングデータと1次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布に基づいて、1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。例えば、二次トレーニング部120は、ノイジートレーニングデータを入力とし、1次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布を正解として、1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。ノイジートレーニングデータは、クリーントレーニングデータが歪曲されるか、クリーントレーニングデータとトレーニングノイズデータとが混合されたデータであり得る。例えば、ノイジートレーニングデータは、クリーントレーニングデータと多様なノイズデータとが混合されたデータでもあり、クリーントレーニングデータに多様な変形(例えば、映像データの場合、回転、一部遮蔽、色または照度などの変更など、音声データの場合、残響(reverberation)など)を加えて生成された歪曲されたデータであり得る。
【0042】
一実施形態によれば、二次トレーニング部120は、1次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布を獲得できるようにニューラルネットワークモデルのトレーニングを行う目的関数(以下、第2目的関数)を用いて、1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。第2目的関数は、ニューラルネットワークモデルの1次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布と、ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成することができる。
【0043】
例えば、第2目的関数は、マルチクラス分類に主に使われるクロスエントロピーを利用できる。それを数式で表現すれば、数式(2)のようである。
【0044】
【数2】
数式(2)において、nは、入力データ、すなわち、ノイジートレーニングデータのサンプルのインデックスを示し、kは、出力クラスのインデックスを示し、Xは、ノイジートレーニングデータのn番目のサンプルを示し、y(X)は、ニューラルネットワークモデルの出力レイヤの活性化関数を示す。snkは、ニューラルネットワークモデルの1次トレーニング過程から算出されるクリーントレーニングデータの出力クラスの確率分布であって、n番目のクリーントレーニングデータサンプルに対するk番目の出力クラスの確率分布を示す。
【0045】
他の例を挙げれば、第2目的関数は、回帰(regression)に主に使われるユークリッド距離(Euclidian distance)を利用できる。それを数式で表現すれば、数式(3)のようである。
【0046】
【数3】
数式(3)において、nは、入力データ、すなわち、ノイジートレーニングデータのサンプルインデックスを示し、kは、出力クラスのインデックスを示し、Xnは、ノイジートレーニングデータのn番目のサンプルを示し、yk(Xn)は、ニューラルネットワークモデルの出力レイヤの活性化関数を示す。snkは、ニューラルネットワークモデルの1次トレーニング過程から算出されるクリーントレーニングデータの出力クラスの確率分布であって、n番目のクリーントレーニングデータサンプルに対するk番目の出力クラスの確率分布を示す。
【0047】
さらに他の例を挙げれば、第2目的関数は、数式(1)の目的関数と数式(2)の目的関数との加重和、または数式(1)の目的関数と数式(3)の目的関数との加重和で構成することができる。それを数式で表現すれば、数式(4)及び数式(5)のようである。
【0048】
【数4】
数式(4)及び数式(5)において、λは、加重値であって、システムの性能及び用途によって多様に設定しうる。
【0049】
一方、今まで一次トレーニング部110及び二次トレーニング部120は、別個の目的関数を用いてニューラルネットワークモデルをトレーニングするものと説明したが、第1目的関数及び第2目的関数が、1つの統合目的関数として統合されうる。
【0050】
一実施形態によれば、統合目的関数は、数式(6)で表現される。
【0051】
【数5】
数式(6)において、dnは、入力がクリーントレーニングデータである場合、0の値を、入力がノイジートレーニングデータである場合、1の値を有する。λ(dn)は、加重値であって、dnが0である場合(例えば、入力がクリーントレーニングデータである場合)、0の値を有する。dnが1である場合(例えば、入力がノイジートレーニングデータである場合)、λ(dn)は、システムの性能及び用途によって多様に設定しうる。
【0052】
他の実施形態によれば、統合目的関数は、数式(7)で表現される。
【0053】
【数6】
数式(7)において、dnは、入力がクリーントレーニングデータである場合、0の値を、入力がノイジートレーニングデータである場合、1の値を有する。λ(dn)は、加重値であって、dnが0である場合(例えば、入力がクリーントレーニングデータである場合)、0の値を有する。dnが1である場合(例えば、入力がノイジートレーニングデータである場合)、λ(dn)は、システムの性能及び用途によって多様に設定しうる。
【0054】
図2は、ニューラルネットワークトレーニング装置の他の実施形態を示す図面である。図2を参照すれば、ニューラルネットワークトレーニング装置200は、図1のニューラルネットワークトレーニング装置100に比べて、データ獲得部210、混合部220、特徴抽出部230、及び保存部240をさらに含みうる。
【0055】
データ獲得部210は、ニューラルネットワークモデルのトレーニングのためのクリーントレーニングデータ及びトレーニングノイズデータを獲得することができる。一実施形態によれば、データ獲得部210は、所定のデータベースまたは外部装置からクリーントレーニングデータ及びトレーニングノイズデータを獲得することができる。
【0056】
混合部220は、クリーントレーニングデータ及びトレーニングノイズデータを混合してノイジートレーニングデータを生成することができる。また、混合部220は、クリーントレーニングデータに多様な変形(例えば、映像データの場合、回転、一部遮蔽、色または照度などの変更など、音声データの場合、残響など)を加えてノイジートレーニングデータを生成することができる。
【0057】
特徴抽出部230は、所定のアルゴリズムを用いてクリーントレーニングデータ及びノイジートレーニングデータの特徴(例えば、filterbank)を抽出することができる。この際、所定のアルゴリズムは、クリーントレーニングデータ及びノイジートレーニングデータからそれぞれを識別可能にする特徴を抽出することができるものであれば、その種類と機能とに制限はない。
【0058】
この場合、一次トレーニング部110は、特徴抽出部230から抽出されたクリーントレーニングデータの特徴データを入力としてニューラルネットワークモデルを1次トレーニングし、二次トレーニング部120は、特徴抽出部230から抽出されたノイジートレーニングデータの特徴データを入力として1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。
【0059】
保存部240は、一次トレーニング部110でのニューラルネットワークモデルの1次トレーニング結果、及びニューラルネットワークモデルの1次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布を保存することができる。
【0060】
保存部240は、フラッシュメモリ(Flash Memory)、ハードディスク(Hard Disk)、マルチメディアカード(MultiMediaCard、MMC)、マルチメディアカードマイクロ(MMCmicro)、メモリカード(例えば、SD memory cardまたはXD memory cardなど)、RAM(Random Access Memory)、SRAM(Static Random Access Memory)、ROM(Read−Only Memory)、EEPROM(Electrically Erasable Programmable Read−Only Memory)、PROM(Programmable Read−Only Memory)、磁気メモリ、磁気ディスク、光ディスクのうち、少なくとも1つの記録媒体を含みうる。
【0061】
一方、図2は、保存部240が、ニューラルネットワークトレーニング装置200の内部に含まれていると示されているが、これに限定されるものではない。言い換えれば、保存部240は、ニューラルネットワークトレーニング装置200の内部に具現されることも可能であり、ニューラルネットワークトレーニング装置200と連結された外部の別個の構成要素として具現されることも可能である。
【0062】
以下、図1のニューラルネットワークトレーニング装置100または図2のニューラルネットワークトレーニング装置200を通じて生成された音響モデルを用いる音声認識装置について詳細に説明する。
【0063】
図3は、音声認識装置の一実施形態を示すブロック図である。音声認識装置300は、ハードウェアチップの形態で製作されて電子装置に搭載されうる。電子装置は、TV、ナビゲーション、自動車電子装置、スマートフォン、タブレットPC、スマートウォッチ、デスクトップコンピュータ、ノート型パソコン、ウェアラブル機器などを含むが、これらに制限されるものではない。
【0064】
図3を参照すれば、音声認識装置300は、入力部310、音響モデル保存部320、及び算出部330を含みうる。
【0065】
入力部310は、音声認識の対象となるノイジー音声データを入力されうる。ここで、ノイジー音声データは、ノイズが混合された音声データを意味する。
【0066】
音響モデル保存部320は、あらかじめトレーニングされた音響モデルを保存することができる。この際、音響モデルは、ニューラルネットワークトレーニング装置100、200を通じてトレーニングされたニューラルネットワーク基盤の音響モデルであり得る。
【0067】
一実施形態によれば、音響モデルは、マルチコンディショントレーニング技法を用いてトレーニングされたニューラルネットワーク基盤の音響モデルであり得る。例えば、音響モデルは、音声トレーニングデータと音声トレーニングデータに対応する音素列に基づいて1次トレーニングされ、ノイジー音声トレーニングデータと1次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布に基づいて2次トレーニングされた音響モデルであり得る。この際、ノイジー音声トレーニングデータは、音声トレーニングデータとトレーニングノイズデータとが混合されたデータであり得る。
【0068】
この際、音響モデルは、数式(1)ないし数式(7)の目的関数のうち何れか1つを用いてトレーニングされうる。例えば、音響モデルは、数式(1)の目的関数を用いて1次トレーニングされた後、数式(2)ないし数式(5)のうち、1つの目的関数を用いて2次トレーニングされうる。他の例を挙げれば、音響モデルは、数式(6)及び数式(7)のうち、1つの統合目的関数を用いて1次トレーニング及び2次トレーニングされうる。
【0069】
音響モデル保存部320は、フラッシュメモリ、ハードディスク、マルチメディアカード(MMC)、マルチメディアカードマイクロ、メモリカード(例えば、SD memory cardまたはXD memory cardなど)、RAM、SRAM、ROM、EEPROM、PROM、磁気メモリ、磁気ディスク、光ディスクのうち、少なくとも1つの記録媒体を含みうる。
【0070】
一方、図3は、音響モデル保存部320が、音声認識装置300の内部に含まれていると示されているが、これに限定されるものではない。言い換えれば、音響モデル保存部320は、音声認識装置300の内部に具現されることも可能であり、音声認識装置300と連結された外部の別個の構成要素として具現されることも可能である。
【0071】
算出部330は、音響モデル保存部320に保存された音響モデルを用いて入力されたノイジー音声データの音素確率を算出することができる。このために、算出部330は、特徴抽出部331及び音素確率算出部332を含みうる。
【0072】
特徴抽出部331は、所定のアルゴリズムを用いて入力されたノイジー音声データの特徴を抽出することができる。所定のアルゴリズムは、ノイジー音声データを他のノイジー音声データから識別可能にする特徴を抽出することができるものであれば、その種類と機能とに制限はない。
【0073】
音素確率算出部332は、音響モデル保存部320に保存された音響モデルを用いて特徴抽出部331から抽出されたノイジー音声データの特徴に対応する音素の確率を算出することができる。
【0074】
一方、図3は、音声認識装置300が、入力部310及び音響モデル保存部320を含むものと示されているが、入力部310及び音響モデル保存部320は、システムの性能及び用途によって省略可能である。
【0075】
図4は、ニューラルネットワークトレーニング方法の一実施形態を示すフローチャートである。図4のニューラルネットワークトレーニング方法は、図1のニューラルネットワークトレーニング装置100によって行われる。
【0076】
図1及び図4を参照すれば、ニューラルネットワークトレーニング装置100は、クリーントレーニングデータとクリーントレーニングデータに対応する正解データとに基づいて、ニューラルネットワークモデルを1次トレーニングすることができる(410)。例えば、ニューラルネットワークトレーニング装置100は、クリーントレーニングデータを入力とし、クリーントレーニングデータに対応する正解データを正解として、ニューラルネットワークモデルを1次トレーニングすることができる。ここで、ニューラルネットワークモデルは、複数の隠れ層を含むニューラルネットワーク基盤の音響モデルであり得るが、これは、一実施形態であり、これに限定されるものではない。
【0077】
一実施形態によれば、ニューラルネットワークトレーニング装置100は、数式(1)の目的関数(第1目的関数)を用いてニューラルネットワークモデルを1次トレーニングすることができる。
【0078】
ニューラルネットワークトレーニング装置100は、ノイジートレーニングデータとニューラルネットワークモデルの1次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布に基づいて、1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる(420)。例えば、ニューラルネットワークトレーニング装置100は、ノイジートレーニングデータを入力とし、ニューラルネットワークモデルの1次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布を正解として、1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。ここで、ノイジートレーニングデータは、クリーントレーニングデータが歪曲されるか、クリーントレーニングデータとトレーニングノイズデータとが混合されたデータであり得る。例えば、ノイジートレーニングデータは、クリーントレーニングデータと多様なノイズデータとが混合されたデータでもあり、クリーントレーニングデータに多様な変形(例えば、映像データの場合、回転、一部遮蔽、色または照度などの変更など、音声データの場合、残響など)を加えて生成された歪曲されたデータであり得る。
【0079】
一実施形態によれば、ニューラルネットワークトレーニング装置100は、数式(2)ないし数式(5)のうち、1つの目的関数(第2目的関数)を用いて1次トレーニングされたニューラルネットワークモデルを2次トレーニングすることができる。
【0080】
一方、ニューラルネットワークトレーニング装置100が、1次トレーニング過程(410)と2次トレーニング過程(420)とで別個の目的関数(第1目的関数、第2目的関数)を用いてニュ−リョルネットワークモデルをトレーニングするものと説明したが、第1目的関数及び第2目的関数が、1つの統合目的関数として統合されうる。例えば、ニューラルネットワークトレーニング装置100は、数式(6)または数式(7)の統合目的関数を用いて1次トレーニング過程(410)及び2次トレーニング過程(420)を行うことができる。
【0081】
図5は、ニューラルネットワークトレーニング方法の他の実施形態を示すフローチャートである。図5のニューラルネットワークトレーニング方法は、図2のニューラルネットワークトレーニング装置200によって行われる。
【0082】
図5のニューラルネットワークトレーニング方法は、図4のニューラルネットワークトレーニング方法に比べて、段階510ないし段階540をさらに含みうる。図5の段階410及び段階420は、図4の段階410及び段階420と同一なので、その詳細な説明は省略する。
【0083】
図2及び図5を参照すれば、ニューラルネットワークトレーニング装置200は、ニューラルネットワークモデルのトレーニングのためのクリーントレーニングデータ及びトレーニングノイズデータを獲得することができる(510)。一実施形態によれば、ニューラルネットワークトレーニング装置200は、所定のデータベースまたは外部装置からクリーントレーニングデータ及びトレーニングノイズデータを獲得することができる。
【0084】
ニューラルネットワークトレーニング装置200は、クリーントレーニングデータ及びトレーニングノイズデータを混合してノイジートレーニングデータを生成することができる(520)。また、ニューラルネットワークトレーニング装置200は、クリーントレーニングデータに多様な変形(例えば、映像データの場合、回転、一部遮蔽、色または照度などの変更など、音声データの場合、残響など)を加えてノイジートレーニングデータを生成することができる。
【0085】
ニューラルネットワークトレーニング装置200は、所定のアルゴリズムを用いてクリーントレーニングデータ及びノイジートレーニングデータの特徴(例えば、filterbank)を抽出することができる(530)。この際、所定のアルゴリズムは、クリーントレーニングデータ及びノイジートレーニングデータからそれぞれを識別可能にする特徴を抽出することができるものであれば、その種類と機能とに制限はない。
【0086】
ニューラルネットワークトレーニング装置200は、ニューラルネットワークモデルの1次トレーニング結果、及びニューラルネットワークモデルの1次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布を保存することができる(540)。
【0087】
図6は、音声認識方法の一実施形態を示すフローチャートである。図6の音声認識方法は、図3の音声認識装置300によって行われる。
【0088】
図3及び図6を参照すれば、音声認識装置300は、音声認識の対象となるノイジー音声データを入力されうる(610)。ここで、ノイジー音声データは、ノイズが混合された音声データを意味する。
【0089】
音声認識装置300は、あらかじめトレーニングされた音響モデルを用いて入力されたノイジー音声データの音素確率を算出することができる(620)。
【0090】
ここで、音響モデルは、ニューラルネットワーク基盤の音響モデルであって、マルチコンディショントレーニング技法を用いてトレーニングされた音響モデルであり得る。例えば、音響モデルは、音声トレーニングデータと音声トレーニングデータに対応する音素列に基づいて1次トレーニングされ、ノイジー音声トレーニングデータと音響モデルの1次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布に基づいて2次トレーニングされた音響モデルであり得る。この際、ノイジー音声トレーニングデータは、音声トレーニングデータとトレーニングノイズデータとが混合されたデータであり得る。
【0091】
一実施形態によれば、音響モデルは、数式(1)ないし数式(7)の目的関数のうち何れか1つを用いてトレーニングされうる。例えば、音響モデルは、数式(1)の目的関数を用いて1次トレーニングされた後、数式(2)ないし数式(5)のうち、1つの目的関数を用いて2次トレーニングされうる。他の例を挙げれば、音響モデルは、数式(6)及び数式(7)のうち、1つの統合目的関数を用いて1次トレーニング及び2次トレーニングされうる。
【0092】
図7は、ノイジー音声データの音素確率算出方法のフローチャートである。図7のノイジー音声データの音素確率算出方法は、図6の段階620の一実施形態であり得る。
【0093】
図3及び図7を参照すれば、音声認識装置300は、所定のアルゴリズムを用いて入力されたノイジー音声データの特徴を抽出することができる(710)。この際、所定のアルゴリズムは、ノイジー音声データを他のノイジー音声データから識別可能にする特徴を抽出することができるものであれば、その種類と機能とに制限はない。
【0094】
音声認識装置300は、あらかじめトレーニングされた音響モデルを用いて抽出されたノイジー音声データの特徴に対応する音素の確率を算出することができる(720)。
【0095】
図1及び図2の一次トレーニング部110及び二次トレーニング部120、図2のデータ獲得部210、混合部220、特徴抽出部230及び保存部240、及び図3の入力部310、音響モデル保存部320、特徴抽出部331及び音素確率算出部332は、ハードウェアコンポーネントとして具現可能である。例えば、ハードウェアコンポーネントは、コントローラ、センサー、生成器、ドライバ、メモリ、比較器、算術論理ユニット、加算器、減算器、乗算器、除算器、積分器、及び多様な電子部品を含みうる。他の例を挙げれば、ハードウェアコンポーネントは、コンピューティングハードウェア、例えば、1つ以上のプロセッサまたはコンピュータとして具現可能である。プロセッサまたはコンピュータは、マイクロコンピュータ、プログラマブルロジックコントローラ、フィールドプログラマブルゲートアレイ、プログラマブルロジックアレイ、マイクロプロセッサ、または他のデバイスまたはデバイスの結合のような1つ以上のプロセッシングエレメントとして具現可能である。例えば、プロセッサまたはコンピュータは、プロセッサまたはコンピュータによって実行されるインストラクションまたはソフトウェアを保存する1つ以上のメモリを含むか、1つ以上のメモリに連結されうる。プロセッサまたはコンピュータとして具現されるハードウェアコンポーネントは、運用体制(OS)及び運用体制上で動作する1つ以上のソフトウェアアプリケーションのようなインストラクションまたはソフトウェアを実行することができる。ハードウェアコンポーネントは、また、インストラクションまたはソフトウェアの実行に応答して、データにアクセス、操作、処理、生成及び保存することができる。本明細書では、便宜上、単数用語“プロセッサ”または“コンピュータ”を使っているが、複数のプロセッサまたはコンピュータを使い、プロセッサまたはコンピュータが、多数のプロセッシングエレメントまたは多数タイプのプロセッシングエレメントなどを含みうる。例えば、1つのハードウェアコンポーネントまたは2つ以上のハードウェアコンポーネントは、1つのプロセッサ、2つ以上のプロセッサ、または1つのプロセッサ及び1つのコントローラとして具現可能である。1つ以上のハードウェアコンポーネントは、1つ以上のプロセッサ、1つのプロセッサ及び1つのコントローラとして具現可能であり、1つ以上の他のプロセッサは、1つ以上の他のプロセッサ、1つの他のプロセッサ及び1つの他のコントローラとして具現可能である。1つ以上のプロセッサ、または1つのプロセッサ及び1つのコントローラは、1つのハードウェアコンポーネントまたは2つ以上のハードウェアコンポーネントを具現することができる。ハードウェアコンポーネントは、1つのプロセッサ、独立したプロセッサ、並列プロセッサ、シングルインストラクションシングルデータ(SISD)マルチプロセッシング、シングルインストラクションマルチプルデータ(SIMD)マルチプロセッシング、マルチプルインストラクションシングルデータ(MISD)マルチプロセッシング、及びマルチプルインストラクションマルチプルデータ(MIMD)マルチプロセッシングなどを含む1つ以上の互いに異なるプロセッシング構成を有しうる。
【0096】
図4ないし図7に開示された方法は、動作を行う命令またはソフトウェアを実行する前述されたように具現されたコンピューティングハードウェア、例えば、1つ以上のプロセッサまたはコンピュータによって行われる。例えば、1つの動作または2つ以上の動作は、1つのプロセッサ、2つ以上のプロセッサ、または1つのプロセッサ及び1つのコントローラによって行われる。1つ以上の動作は、1つ以上のプロセッサ、または1つのプロセッサ及び1つのコントローラによって行われ、1つ以上の他の動作は、1つ以上の他のプロセッサ、または1つの他のプロセッサ及び1つの他のコントローラによって行われる。1つ以上のプロセッサ、または1つのプロセッサ及び1つのコントローラは、1つの動作、または2つ以上の動作を行うことができる。
【0097】
ハードウェアコンポーネントとして具現され、前述した方法を行うコンピューティングハードウェア、例えば、1つ以上のプロセッサまたはコンピュータを制御するための命令またはソフトウェアは、コンピュータプログラム、コードセグメント、命令またはこれらの結合であり得る。例えば、命令またはソフトウェアは、コンパイラによって生成されたマシンコードのような、1つ以上のプロセッサまたはコンピュータによって直接実行されるマシンコードを含む。他の例を挙げれば、命令またはソフトウェアは、インタプリタを用いて1つ以上のプロセッサまたはコンピュータによって実行されるハイレベル(higher−level)コードを含む。命令またはソフトウェアは、前述したハードウェアコンポーネント及び方法によって行われる動作を行うアルゴリズムを開示したブロック図及びフローチャートに基づいてプログラミング言語を用いて記述されうる。
【0098】
命令またはソフトウェア、関連データ、データファイル、及びデータ構造は、1つ以上の非一時的コンピュータ可読記録媒体に記録または保存することができる。例えば、非一時的コンピュータ可読記録媒体は、Read−Only Memory(ROM)、Random−Access Memory(RAM)、Flash Memory、CD−ROMs、CD−Rs、CD+Rs、CD−RWs、CD+RWs、DVD−ROMs、DVD−Rs、DVD+Rs、DVD−RWs、DVD+RWs、DVD−RAMs、BD−ROMs、BD−Rs、BD−R LTHs、BD−REs、magnetic tapes、floppy disks、magneto−optical data storage devices、optical data storage devices、hard disks、solid−state disks、及び非一時的方式で命令またはソフトウェア、関連データ、データファイル及びデータ構造を保存して、1つ以上のプロセッサまたはコンピュータに提供する他のデバイスを含みうる。例えば、命令またはソフトウェア、関連データ、データファイル、及びデータ構造は、ネットワーク連結コンピュータシステムに分散されて、1つ以上のプロセッサまたはコンピュータによって分散方式で実行可能である。
【0099】
以上、本発明について、その望ましい実施形態を中心に説明した。当業者ならば、本発明が、本発明の本質的な特性から外れない範囲で変形された形態として具現可能であるということを理解できるであろう。したがって、本発明の範囲は、前述した実施形態に限定されず、特許請求の範囲に記載の内容と同等な範囲内にある多様な実施形態が含まれるように解釈されねばならない。
【産業上の利用可能性】
【0100】
本発明は、ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法関連の技術分野に適用可能である。
図1
図2
図3
図4
図5
図6
図7