特許6861500 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 三星電子株式会社の特許一覧

特許6861500ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6861500

(24)【登録日】2021年4月1日

(45)【発行日】2021年4月21日

(54)【発明の名称】ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法

(51)【国際特許分類】

G10L 15/16 20060101AFI20210412BHJP

G10L 15/065 20130101ALI20210412BHJP

G10L 15/06 20130101ALI20210412BHJP

【ＦＩ】

G10L15/16

G10L15/065 A

G10L15/06 500L

【請求項の数】27

【全頁数】19

(21)【出願番号】特願2016-216662(P2016-216662)

(22)【出願日】2016年11月4日

(65)【公開番号】特開2017-90912(P2017-90912A)

(43)【公開日】2017年5月25日

【審査請求日】2019年10月1日

(31)【優先権主張番号】10-2015-0156152

(32)【優先日】2015年11月6日

(33)【優先権主張国】KR

(73)【特許権者】

【識別番号】390019839

【氏名又は名称】三星電子株式会社

【氏名又は名称原語表記】ＳａｍｓｕｎｇＥｌｅｃｔｒｏｎｉｃｓＣｏ．，Ｌｔｄ．

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100091214

【弁理士】

【氏名又は名称】大貫進介

(72)【発明者】

【氏名】李鎬式

(72)【発明者】

【氏名】崔喜烈

【審査官】上田雄

(56)【参考文献】

【文献】特開２０００−２９８６６３（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１５／００１９２１４（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１３／００９６９１５（ＵＳ，Ａ１）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１５／００−１５／３４

(57)【特許請求の範囲】

【請求項1】

クリーントレーニングデータ及び前記クリーントレーニングデータに対応する正解データに基づいて、ニューラルネットワークモデルを１次トレーニングする一次トレーニング部と、
ノイジートレーニングデータ及び前記ニューラルネットワークモデルの１次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布に基づいて、前記１次トレーニングされたニューラルネットワークモデルを２次トレーニングする二次トレーニング部と、
を含むニューラルネットワークトレーニング装置。

【請求項2】

前記二次トレーニング部は、
前記ノイジートレーニングデータを入力とし、前記ニューラルネットワークモデルの１次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布を正解として、前記１次トレーニングされたニューラルネットワークモデルを２次トレーニングする、請求項１に記載のニューラルネットワークトレーニング装置。

【請求項3】

前記ノイジートレーニングデータは、
前記クリーントレーニングデータが歪曲されたデータ、または前記クリーントレーニングデータとトレーニングノイズデータとが混合されたデータを含む、請求項１または２に記載のニューラルネットワークトレーニング装置。

【請求項4】

前記ニューラルネットワークモデルは、ニューラルネットワーク基盤の音響モデルである、請求項１ないし３いずれか一項に記載のニューラルネットワークトレーニング装置。

【請求項5】

前記一次トレーニング部は、
前記クリーントレーニングデータから前記正解データを獲得するようにニューラルネットワークモデルのトレーニングを行う第１目的関数を用いて、前記ニューラルネットワークモデルを１次トレーニングする、請求項１ないし４いずれか一項に記載のニューラルネットワークトレーニング装置。

【請求項6】

前記二次トレーニング部は、
前記ニューラルネットワークモデルの１次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布と、前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される第２目的関数を用いて、前記１次トレーニングされたニューラルネットワークモデルを２次トレーニングする、請求項１ないし５いずれか一項に記載のニューラルネットワークトレーニング装置。

【請求項7】

前記二次トレーニング部は、
前記クリーントレーニングデータから正解データを獲得できるようにニューラルネットワークモデルのトレーニングを行う目的関数と、前記ニューラルネットワークモデルの１次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布、及び前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される目的関数の加重和で構成される第２目的関数を用いて、前記１次トレーニングされたニューラルネットワークモデルを２次トレーニングする、請求項１に記載のニューラルネットワークトレーニング装置。

【請求項8】

クリーントレーニングデータ及び前記クリーントレーニングデータに対応する正解データに基づいて、ニューラルネットワークモデルを１次トレーニングする段階と、
ノイジートレーニングデータ及び前記ニューラルネットワークモデルの１次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布に基づいて、前記１次トレーニングされたニューラルネットワークモデルを２次トレーニングする段階と、
を含むニューラルネットワークトレーニング方法。

【請求項9】

前記２次トレーニングする段階は、
前記ノイジートレーニングデータを入力とし、前記ニューラルネットワークモデルの１次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布を正解として、前記１次トレーニングされたニューラルネットワークモデルを２次トレーニングする、請求項８に記載のニューラルネットワークトレーニング方法。

【請求項10】

前記ノイジートレーニングデータは、
前記クリーントレーニングデータが歪曲されたデータ、または前記クリーントレーニングデータとトレーニングノイズデータとが混合されたデータを含む、請求項８または９に記載のニューラルネットワークトレーニング方法。

【請求項11】

前記ニューラルネットワークモデルは、ニューラルネットワーク基盤の音響モデルである、請求項８ないし１０いずれか一項に記載のニューラルネットワークトレーニング方法。

【請求項12】

前記１次トレーニングする段階は、
前記クリーントレーニングデータから正解データを獲得できるようにニューラルネットワークモデルのトレーニングを行う第１目的関数を用いて、前記ニューラルネットワークモデルを１次トレーニングする、請求項８ないし１１いずれか一項に記載のニューラルネットワークトレーニング方法。

【請求項13】

前記２次トレーニングする段階は、
前記ニューラルネットワークモデルの１次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布と、前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される第２目的関数を用いて、前記１次トレーニングされたニューラルネットワークモデルを２次トレーニングする、請求項８ないし１２いずれか一項に記載のニューラルネットワークトレーニング方法。

【請求項14】

前記２次トレーニングする段階は、
前記クリーントレーニングデータから正解データを獲得できるようにニューラルネットワークモデルのトレーニングを行う目的関数と、前記ニューラルネットワークモデルの１次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布、及び前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される目的関数の加重和で構成される第２目的関数を用いて、前記１次トレーニングされたニューラルネットワークモデルを２次トレーニングする、請求項８に記載のニューラルネットワークトレーニング方法。

【請求項15】

コンピュータに、請求項８に記載の方法を実行させるコンピュータプログラム。

【請求項16】

ノイジー音声データの特徴を抽出する特徴抽出部と、
音響モデルを用いて、前記抽出された特徴に対応する音素の確率を算出する音素確率算出部と、を含み、
前記音響モデルは、
音声トレーニングデータ及び前記音声トレーニングデータに対応する音素列に基づいて１次トレーニングし、ノイジー音声トレーニングデータ及び前記音響モデルの１次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布に基づいて２次トレーニングされた音響モデルである音声認識装置。

【請求項17】

前記音響モデルは、
前記音声トレーニングデータを入力とし、前記音声トレーニングデータに対応する音素列を正解として、１次トレーニングされる、請求項１６に記載の音声認識装置。

【請求項18】

前記音響モデルは、
前記ノイジー音声トレーニングデータを入力とし、前記音響モデルの１次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布を正解として、２次トレーニングされる、請求項１６または１７に記載の音声認識装置。

【請求項19】

前記ノイジー音声トレーニングデータは、
前記音声トレーニングデータが歪曲されたデータ、または前記音声トレーニングデータとトレーニングノイズデータとが混合されたデータを含む、請求項１６ないし１８いずれか一項に記載の音声認識装置。

【請求項20】

前記音響モデルは、ニューラルネットワーク基盤の音響モデルである、請求項１６ないし１９いずれか一項に記載の音声認識装置。

【請求項21】

前記音響モデルの１次トレーニングは、
前記音声トレーニングデータから音素を獲得できるように音響モデルのトレーニングを行う第１目的関数を用いて行われる、請求項１６ないし２０いずれか一項に記載の音声認識装置。

【請求項22】

前記音響モデルの２次トレーニングは、
前記音響モデルの１次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布と、前記音響モデルの出力レイヤの活性化関数の組み合わせで構成される第２目的関数を用いて行われる、請求項１６ないし２１いずれか一項に記載の音声認識装置。

【請求項23】

前記音響モデルの２次トレーニングは、
前記音声トレーニングデータから音素を獲得できるように音響モデルのトレーニングを行う目的関数と、前記音響モデルの１次トレーニング過程から算出される前記音声トレーニングデータに対する出力クラスの確率分布、及び前記音響モデルの出力レイヤの活性化関数の組み合わせで構成される目的関数の加重和で構成される第２目的関数を用いて行われる、請求項１６に記載の音声認識装置。

【請求項24】

クリーントレーニングデータとハードターゲットデータとに基づいて、ニューラルネットワークモデルを１次トレーニングする一次トレーニング部と、
ノイジートレーニングデータ及び前記ニューラルネットワークモデルの１次トレーニング過程から獲得されるソフトターゲットデータに基づいて、前記１次トレーニングされたニューラルネットワークモデルを２次トレーニングする二次トレーニング部と、
を含むニューラルネットワークトレーニング装置。

【請求項25】

前記ノイジートレーニングデータは、クリーントレーニングデータを歪曲するか、クリーントレーニングデータをノイズと混合して獲得される、請求項２４に記載のニューラルネットワークトレーニング装置。

【請求項26】

前記ソフトターゲットデータは、ニューラルネットワークモデルの１次トレーニング過程から算出されたクリーントレーニングデータに対する出力クラスの確率分布である、請求項２４または２５に記載のニューラルネットワークトレーニング装置。

【請求項27】

前記二次トレーニング部は、
前記ノイジートレーニングデータ、前記ソフトターゲットデータ、及び前記ニューラルネットワークモデルの出力レイヤの活性化関数に基づいて、前記１次トレーニングされたニューラルネットワークモデルを２次トレーニングする、請求項２４ないし２６いずれか一項に記載のニューラルネットワークトレーニング装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法と、に関する。

【背景技術】

【0002】

最近の音声認識技術は、過去と比較して多くの注目を受けている状況である。その理由は、音声認識技術が具現される場合、インターネット情報の利用や電子商取引、各種のユビキタス環境をより便利に音声を通じて操作し、かつ手を使いにくい車両運行のような場合にも、インターネットにアクセスでき、又は事務その他のサービスを利用でき、ユーザの多様なニーズ（ｎｅｅｄｓ）を充足できるからである。

【0003】

音声認識技術で重要な問題の１つは、周辺環境によって発生するノイズを効率的に除去することである。このような周辺環境によって生成されたノイズによって発生する、トレーニング環境と実際の音声認識環境との間の不一致は、音声認識システムの音声認識の性能を低下させる主要原因の１つである。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本発明が解決しようとする課題は、ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法と、を提供するところにある。

【課題を解決するための手段】

【0005】

一実施形態は、ノイズに頑健なニューラルネットワークトレーニング装置及び方法と、ノイズに頑健なニューラルネットワーク基盤の音響モデルを用いる音声認識装置及び方法と、を提供することを目的とする。

【0006】

一態様によるニューラルネットワークトレーニング装置は、クリーントレーニングデータ（ｃｌｅａｎｔｒａｉｎｉｎｇｄａｔａ）及び前記クリーントレーニングデータに対応する正解データに基づいて、ニューラルネットワークモデルを１次トレーニングする一次トレーニング部と、ノイジートレーニングデータ（ｎｏｉｓｙｔｒａｉｎｉｎｇｄａｔａ）及び前記ニューラルネットワークモデルの１次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布に基づいて、前記１次トレーニングされたニューラルネットワークモデルを２次トレーニングする二次トレーニング部と、を含みうる。

【0007】

前記二次トレーニング部は、前記ノイジートレーニングデータを入力とし、前記ニューラルネットワークモデルの１次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布を正解（ｔａｒｇｅｔ）として、前記１次トレーニングされたニューラルネットワークモデルを２次トレーニングすることができる。

【0008】

前記ノイジートレーニングデータは、前記クリーントレーニングデータが歪曲されたデータ、または前記クリーントレーニングデータとトレーニングノイズデータとが混合されたデータを含みうる。

【0009】

前記ニューラルネットワークモデルは、ニューラルネットワーク基盤の音響モデルであり得る。

【0010】

前記一次トレーニング部は、前記クリーントレーニングデータから前記正解データを獲得するようにニューラルネットワークモデルのトレーニングを行う第１目的関数を用いて、前記ニューラルネットワークモデルを１次トレーニングすることができる。

【0011】

前記二次トレーニング部は、前記ニューラルネットワークモデルの１次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布と、前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される第２目的関数を用いて、前記１次トレーニングされたニューラルネットワークモデルを２次トレーニングすることができる。

【0012】

前記二次トレーニング部は、前記クリーントレーニングデータから正解データを獲得できるようにニューラルネットワークモデルのトレーニングを行う目的関数と、前記ニューラルネットワークモデルの１次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布、及び前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される目的関数の加重和で構成される第２目的関数を用いて、前記１次トレーニングされたニューラルネットワークモデルを２次トレーニングすることができる。

【0013】

他の態様によるニューラルネットワークトレーニング方法は、クリーントレーニングデータ及び前記クリーントレーニングデータに対応する正解データに基づいて、ニューラルネットワークモデルを１次トレーニングする段階と、ノイジートレーニングデータ及び前記ニューラルネットワークモデルの１次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布に基づいて、前記１次トレーニングされたニューラルネットワークモデルを２次トレーニングする段階と、を含みうる。

【0014】

前記２次トレーニングする段階は、前記ノイジートレーニングデータを入力とし、前記ニューラルネットワークモデルの１次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布を正解として、前記１次トレーニングされたニューラルネットワークモデルを２次トレーニングすることができる。

【0015】

【0016】

前記ニューラルネットワークモデルは、ニューラルネットワーク基盤の音響モデルであり得る。

【0017】

前記１次トレーニングする段階は、前記クリーントレーニングデータから正解データを獲得できるようにニューラルネットワークモデルのトレーニングを行う第１目的関数を用いて、前記ニューラルネットワークモデルを１次トレーニングすることができる。

【0018】

前記２次トレーニングする段階は、前記ニューラルネットワークモデルの１次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布と、前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される第２目的関数を用いて、前記１次トレーニングされたニューラルネットワークモデルを２次トレーニングすることができる。

【0019】

前記２次トレーニングする段階は、前記クリーントレーニングデータから正解データを獲得できるようにニューラルネットワークモデルのトレーニングを行う目的関数と、前記ニューラルネットワークモデルの１次トレーニング過程から算出される前記クリーントレーニングデータに対する出力クラスの確率分布、及び前記ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成される目的関数の加重和で構成される第２目的関数を用いて、前記１次トレーニングされたニューラルネットワークモデルを２次トレーニングすることができる。

【0020】

さらに他の態様によるコンピュータ可読記録媒体は、請求項８に記載の方法を行うためのインストラクションを保存することができる。

【0021】

さらに他の態様による音声認識装置は、ノイジー音声データ（ｎｏｉｓｙｓｐｅｅｃｈｄａｔａ）の特徴を抽出する特徴抽出部と、音響モデルを用いて、前記抽出された特徴に対応する音素の確率を算出する音素確率算出部と、を含み、前記音響モデルは、音声トレーニングデータ（ｓｐｅｅｃｈｔｒａｉｎｉｎｇｄａｔａ）及び前記音声トレーニングデータに対応する音素列に基づいて１次トレーニングし、ノイジー音声トレーニングデータ（ｎｏｉｓｙｓｐｅｅｃｈｔｒａｉｎｉｎｇｄａｔａ）及び前記音響モデルの１次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布に基づいて２次トレーニングされた音響モデルであり得る。

【0022】

前記音響モデルは、前記音声トレーニングデータを入力とし、前記音声トレーニングデータに対応する音素列を正解として、１次トレーニングされうる。

【0023】

前記音響モデルは、前記ノイジー音声トレーニングデータを入力とし、前記音響モデルの１次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布を正解として、２次トレーニングされうる。

【0024】

前記ノイジー音声トレーニングデータは、前記音声トレーニングデータが歪曲されたデータ、または前記音声トレーニングデータとトレーニングノイズデータとが混合されたデータを含みうる。

【0025】

前記音響モデルは、ニューラルネットワーク基盤の音響モデルであり得る。

【0026】

前記音響モデルの１次トレーニングは、前記音声トレーニングデータから音素を獲得できるように音響モデルのトレーニングを行う第１目的関数を用いて行われる。

【0027】

前記音響モデルの２次トレーニングは、前記音響モデルの１次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布と、前記音響モデルの出力レイヤの活性化関数の組み合わせで構成される第２目的関数を用いて行われる。

【0028】

前記音響モデルの２次トレーニングは、前記音声トレーニングデータから音素を獲得できるように音響モデルのトレーニングを行う目的関数と、前記音響モデルの１次トレーニング過程から算出される前記音声トレーニングデータに対する出力クラスの確率分布、及び前記音響モデルの出力レイヤの活性化関数の組み合わせで構成される目的関数の加重和で構成される第２目的関数を用いて行われる。

【0029】

さらに他の態様によるニューラルネットワークトレーニング装置は、クリーントレーニングデータとハードターゲットデータとに基づいて、ニューラルネットワークモデルを１次トレーニングする一次トレーニング部と、ノイジートレーニングデータ及び前記ニューラルネットワークモデルの１次トレーニング過程から獲得されるソフトターゲットデータに基づいて、前記１次トレーニングされたニューラルネットワークモデルを２次トレーニングする二次トレーニング部と、を含みうる。

【0030】

前記ノイジートレーニングデータは、クリーントレーニングデータを歪曲するか、クリーントレーニングデータをノイズと混合して獲得される。

【0031】

前記ソフトターゲットデータは、ニューラルネットワークモデルの１次トレーニング過程から算出されたクリーントレーニングデータに対する出力クラスの確率分布であり得る。

【0032】

前記二次トレーニング部は、前記ノイジートレーニングデータ、前記ソフトターゲットデータ、及び前記ニューラルネットワークモデルの出力レイヤの活性化関数に基づいて、前記１次トレーニングされたニューラルネットワークモデルを２次トレーニングすることができる。

【図面の簡単な説明】

【0033】

【図1】ニューラルネットワークトレーニング装置の一実施形態を示す図面である。

【図2】ニューラルネットワークトレーニング装置の他の実施形態を示す図面である。

【図3】音声認識装置の一実施形態を示すブロック図である。

【図4】ニューラルネットワークトレーニング方法の一実施形態を示すフローチャートである。

【図5】ニューラルネットワークトレーニング方法の他の実施形態を示すフローチャートである。

【図6】音声認識方法の一実施形態を示すフローチャートである。

【図7】ノイジー音声データの音素確率算出方法のフローチャートである。

【発明を実施するための形態】

【0034】

以下、添付図面を参照して、本発明の一実施形態を詳細に説明する。本発明を説明するに当って、関連した公知の機能または構成についての具体的な説明が、本発明の要旨を不明りょうにするおそれがあると判断される場合には、その詳細な説明を省略する。また、後述される用語は、本発明での機能を考慮して定義された用語であって、これは、ユーザ、運用者の意図または慣例などによって変わりうる。したがって、その定義は、本明細書の全般に亘った内容に基づいて下されなければならない。

【0035】

図１は、ニューラルネットワークトレーニング装置の一実施形態を示す図面である。

【0036】

ニューラルネットワークトレーニング装置１００は、マルチコンディショントレーニング（Ｍｕｌｔｉ−ｃｏｎｄｉｔｉｏｎＴｒａｉｎｉｎｇ：ＭＣＴ）技法を用いてニューラルネットワークモデルをトレーニング（ｔｒａｉｎｉｎｇ）する装置である。一実施形態によれば、ニューラルネットワークモデルは、複数の隠れ層を含むニューラルネットワーク基盤の音響モデルである。しかし、これは、一実施形態であり、これに限定されるものではない。ニューラルネットワークモデルは、典型的な逆伝播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）技法（例えば、ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔａｌｇｏｒｉｔｈｍ、ｓｔｏｃｈａｓｔｉｃｇｒａｄｉｅｎｔｄｅｓｃｅｎｔａｌｇｏｒｉｔｈｍ、または他の逆伝播技法など）を用いてトレーニングされうる。

【0037】

図１を参照すれば、ニューラルネットワークトレーニング装置１００は、一次トレーニング部１１０及び二次トレーニング部１２０を含みうる。

【0038】

一次トレーニング部１１０は、クリーントレーニングデータとクリーントレーニングデータに対応する正解データとに基づいて、ニューラルネットワークモデルを１次トレーニングすることができる。クリーントレーニングデータは、ノイズが含まれていないトレーニングデータを意味する。例えば、一次トレーニング部１１０は、クリーントレーニングデータを入力とし、クリーントレーニングデータに対応する正解データを正解として、ニューラルネットワークモデルを１次トレーニングすることができる。

【0039】

一実施形態によれば、一次トレーニング部１１０は、クリーントレーニングデータから対応する正解を獲得できるようにニューラルネットワークモデルのトレーニングを行う目的関数（以下、第１目的関数）を用いて、ニューラルネットワークモデルを１次トレーニングすることができる。例えば、第１目的関数は、マルチクラス分類（ｍｕｌｔｉ−ｃｌａｓｓｃｌａｓｓｉｆｉｃａｔｉｏｎ）に主に使われるクロスエントロピー（ｃｒｏｓｓ−ｅｎｔｒｏｐｙ）を利用できる。それを数式で表現すれば、数式（１）のようである。

【0040】

【数1】

数式（１）において、ｎは、入力データ、すなわち、クリーントレーニングデータのサンプルのインデックスを示し、ｋは、出力クラス（ｏｕｔｐｕｔｃｌａｓｓ）のインデックスを示し、Ｘ_ｎは、クリーントレーニングデータのｎ番目のサンプルを示し、ｙ_ｋ（Ｘ_ｎ）は、ニューラルネットワークモデルの出力レイヤの活性化関数（ａｃｔｉｖａｔｉｏｎｆｕｎｃｔｉｏｎ）を示す。ｔ_ｎｋは、Ｘ_ｎに対するｋ番目の出力クラスが正解クラスである場合、１の値を、正解クラスではない場合、０の値を有する。

【0041】

二次トレーニング部１２０は、ノイジートレーニングデータと１次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布に基づいて、１次トレーニングされたニューラルネットワークモデルを２次トレーニングすることができる。例えば、二次トレーニング部１２０は、ノイジートレーニングデータを入力とし、１次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布を正解として、１次トレーニングされたニューラルネットワークモデルを２次トレーニングすることができる。ノイジートレーニングデータは、クリーントレーニングデータが歪曲されるか、クリーントレーニングデータとトレーニングノイズデータとが混合されたデータであり得る。例えば、ノイジートレーニングデータは、クリーントレーニングデータと多様なノイズデータとが混合されたデータでもあり、クリーントレーニングデータに多様な変形（例えば、映像データの場合、回転、一部遮蔽、色または照度などの変更など、音声データの場合、残響（ｒｅｖｅｒｂｅｒａｔｉｏｎ）など）を加えて生成された歪曲されたデータであり得る。

【0042】

一実施形態によれば、二次トレーニング部１２０は、１次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布を獲得できるようにニューラルネットワークモデルのトレーニングを行う目的関数（以下、第２目的関数）を用いて、１次トレーニングされたニューラルネットワークモデルを２次トレーニングすることができる。第２目的関数は、ニューラルネットワークモデルの１次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布と、ニューラルネットワークモデルの出力レイヤの活性化関数の組み合わせで構成することができる。

【0043】

例えば、第２目的関数は、マルチクラス分類に主に使われるクロスエントロピーを利用できる。それを数式で表現すれば、数式（２）のようである。

【0044】

【数2】

数式（２）において、ｎは、入力データ、すなわち、ノイジートレーニングデータのサンプルのインデックスを示し、ｋは、出力クラスのインデックスを示し、Ｘ_ｎは、ノイジートレーニングデータのｎ番目のサンプルを示し、ｙ_ｋ（Ｘ_ｎ）は、ニューラルネットワークモデルの出力レイヤの活性化関数を示す。ｓ_ｎｋは、ニューラルネットワークモデルの１次トレーニング過程から算出されるクリーントレーニングデータの出力クラスの確率分布であって、ｎ番目のクリーントレーニングデータサンプルに対するｋ番目の出力クラスの確率分布を示す。

【0045】

他の例を挙げれば、第２目的関数は、回帰（ｒｅｇｒｅｓｓｉｏｎ）に主に使われるユークリッド距離（Ｅｕｃｌｉｄｉａｎｄｉｓｔａｎｃｅ）を利用できる。それを数式で表現すれば、数式（３）のようである。

【0046】

【数3】

数式（３）において、ｎは、入力データ、すなわち、ノイジートレーニングデータのサンプルインデックスを示し、ｋは、出力クラスのインデックスを示し、Ｘｎは、ノイジートレーニングデータのｎ番目のサンプルを示し、ｙｋ（Ｘｎ）は、ニューラルネットワークモデルの出力レイヤの活性化関数を示す。ｓ_ｎｋは、ニューラルネットワークモデルの１次トレーニング過程から算出されるクリーントレーニングデータの出力クラスの確率分布であって、ｎ番目のクリーントレーニングデータサンプルに対するｋ番目の出力クラスの確率分布を示す。

【0047】

さらに他の例を挙げれば、第２目的関数は、数式（１）の目的関数と数式（２）の目的関数との加重和、または数式（１）の目的関数と数式（３）の目的関数との加重和で構成することができる。それを数式で表現すれば、数式（４）及び数式（５）のようである。

【0048】

【数4】

数式（４）及び数式（５）において、λは、加重値であって、システムの性能及び用途によって多様に設定しうる。

【0049】

一方、今まで一次トレーニング部１１０及び二次トレーニング部１２０は、別個の目的関数を用いてニューラルネットワークモデルをトレーニングするものと説明したが、第１目的関数及び第２目的関数が、１つの統合目的関数として統合されうる。

【0050】

一実施形態によれば、統合目的関数は、数式（６）で表現される。

【0051】

【数5】

数式（６）において、ｄｎは、入力がクリーントレーニングデータである場合、０の値を、入力がノイジートレーニングデータである場合、１の値を有する。λ（ｄｎ）は、加重値であって、ｄｎが０である場合（例えば、入力がクリーントレーニングデータである場合）、０の値を有する。ｄｎが１である場合（例えば、入力がノイジートレーニングデータである場合）、λ（ｄｎ）は、システムの性能及び用途によって多様に設定しうる。

【0052】

他の実施形態によれば、統合目的関数は、数式（７）で表現される。

【0053】

【数6】

数式（７）において、ｄｎは、入力がクリーントレーニングデータである場合、０の値を、入力がノイジートレーニングデータである場合、１の値を有する。λ（ｄｎ）は、加重値であって、ｄｎが０である場合（例えば、入力がクリーントレーニングデータである場合）、０の値を有する。ｄｎが１である場合（例えば、入力がノイジートレーニングデータである場合）、λ（ｄｎ）は、システムの性能及び用途によって多様に設定しうる。

【0054】

図２は、ニューラルネットワークトレーニング装置の他の実施形態を示す図面である。図２を参照すれば、ニューラルネットワークトレーニング装置２００は、図１のニューラルネットワークトレーニング装置１００に比べて、データ獲得部２１０、混合部２２０、特徴抽出部２３０、及び保存部２４０をさらに含みうる。

【0055】

データ獲得部２１０は、ニューラルネットワークモデルのトレーニングのためのクリーントレーニングデータ及びトレーニングノイズデータを獲得することができる。一実施形態によれば、データ獲得部２１０は、所定のデータベースまたは外部装置からクリーントレーニングデータ及びトレーニングノイズデータを獲得することができる。

【0056】

混合部２２０は、クリーントレーニングデータ及びトレーニングノイズデータを混合してノイジートレーニングデータを生成することができる。また、混合部２２０は、クリーントレーニングデータに多様な変形（例えば、映像データの場合、回転、一部遮蔽、色または照度などの変更など、音声データの場合、残響など）を加えてノイジートレーニングデータを生成することができる。

【0057】

特徴抽出部２３０は、所定のアルゴリズムを用いてクリーントレーニングデータ及びノイジートレーニングデータの特徴（例えば、ｆｉｌｔｅｒｂａｎｋ）を抽出することができる。この際、所定のアルゴリズムは、クリーントレーニングデータ及びノイジートレーニングデータからそれぞれを識別可能にする特徴を抽出することができるものであれば、その種類と機能とに制限はない。

【0058】

この場合、一次トレーニング部１１０は、特徴抽出部２３０から抽出されたクリーントレーニングデータの特徴データを入力としてニューラルネットワークモデルを１次トレーニングし、二次トレーニング部１２０は、特徴抽出部２３０から抽出されたノイジートレーニングデータの特徴データを入力として１次トレーニングされたニューラルネットワークモデルを２次トレーニングすることができる。

【0059】

保存部２４０は、一次トレーニング部１１０でのニューラルネットワークモデルの１次トレーニング結果、及びニューラルネットワークモデルの１次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布を保存することができる。

【0060】

保存部２４０は、フラッシュメモリ（ＦｌａｓｈＭｅｍｏｒｙ）、ハードディスク（ＨａｒｄＤｉｓｋ）、マルチメディアカード（ＭｕｌｔｉＭｅｄｉａＣａｒｄ、ＭＭＣ）、マルチメディアカードマイクロ（ＭＭＣｍｉｃｒｏ）、メモリカード（例えば、ＳＤｍｅｍｏｒｙｃａｒｄまたはＸＤｍｅｍｏｒｙｃａｒｄなど）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、磁気メモリ、磁気ディスク、光ディスクのうち、少なくとも１つの記録媒体を含みうる。

【0061】

一方、図２は、保存部２４０が、ニューラルネットワークトレーニング装置２００の内部に含まれていると示されているが、これに限定されるものではない。言い換えれば、保存部２４０は、ニューラルネットワークトレーニング装置２００の内部に具現されることも可能であり、ニューラルネットワークトレーニング装置２００と連結された外部の別個の構成要素として具現されることも可能である。

【0062】

以下、図１のニューラルネットワークトレーニング装置１００または図２のニューラルネットワークトレーニング装置２００を通じて生成された音響モデルを用いる音声認識装置について詳細に説明する。

【0063】

図３は、音声認識装置の一実施形態を示すブロック図である。音声認識装置３００は、ハードウェアチップの形態で製作されて電子装置に搭載されうる。電子装置は、ＴＶ、ナビゲーション、自動車電子装置、スマートフォン、タブレットＰＣ、スマートウォッチ、デスクトップコンピュータ、ノート型パソコン、ウェアラブル機器などを含むが、これらに制限されるものではない。

【0064】

図３を参照すれば、音声認識装置３００は、入力部３１０、音響モデル保存部３２０、及び算出部３３０を含みうる。

【0065】

入力部３１０は、音声認識の対象となるノイジー音声データを入力されうる。ここで、ノイジー音声データは、ノイズが混合された音声データを意味する。

【0066】

音響モデル保存部３２０は、あらかじめトレーニングされた音響モデルを保存することができる。この際、音響モデルは、ニューラルネットワークトレーニング装置１００、２００を通じてトレーニングされたニューラルネットワーク基盤の音響モデルであり得る。

【0067】

一実施形態によれば、音響モデルは、マルチコンディショントレーニング技法を用いてトレーニングされたニューラルネットワーク基盤の音響モデルであり得る。例えば、音響モデルは、音声トレーニングデータと音声トレーニングデータに対応する音素列に基づいて１次トレーニングされ、ノイジー音声トレーニングデータと１次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布に基づいて２次トレーニングされた音響モデルであり得る。この際、ノイジー音声トレーニングデータは、音声トレーニングデータとトレーニングノイズデータとが混合されたデータであり得る。

【0068】

この際、音響モデルは、数式（１）ないし数式（７）の目的関数のうち何れか１つを用いてトレーニングされうる。例えば、音響モデルは、数式（１）の目的関数を用いて１次トレーニングされた後、数式（２）ないし数式（５）のうち、１つの目的関数を用いて２次トレーニングされうる。他の例を挙げれば、音響モデルは、数式（６）及び数式（７）のうち、１つの統合目的関数を用いて１次トレーニング及び２次トレーニングされうる。

【0069】

音響モデル保存部３２０は、フラッシュメモリ、ハードディスク、マルチメディアカード（ＭＭＣ）、マルチメディアカードマイクロ、メモリカード（例えば、ＳＤｍｅｍｏｒｙｃａｒｄまたはＸＤｍｅｍｏｒｙｃａｒｄなど）、ＲＡＭ、ＳＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＰＲＯＭ、磁気メモリ、磁気ディスク、光ディスクのうち、少なくとも１つの記録媒体を含みうる。

【0070】

一方、図３は、音響モデル保存部３２０が、音声認識装置３００の内部に含まれていると示されているが、これに限定されるものではない。言い換えれば、音響モデル保存部３２０は、音声認識装置３００の内部に具現されることも可能であり、音声認識装置３００と連結された外部の別個の構成要素として具現されることも可能である。

【0071】

算出部３３０は、音響モデル保存部３２０に保存された音響モデルを用いて入力されたノイジー音声データの音素確率を算出することができる。このために、算出部３３０は、特徴抽出部３３１及び音素確率算出部３３２を含みうる。

【0072】

特徴抽出部３３１は、所定のアルゴリズムを用いて入力されたノイジー音声データの特徴を抽出することができる。所定のアルゴリズムは、ノイジー音声データを他のノイジー音声データから識別可能にする特徴を抽出することができるものであれば、その種類と機能とに制限はない。

【0073】

音素確率算出部３３２は、音響モデル保存部３２０に保存された音響モデルを用いて特徴抽出部３３１から抽出されたノイジー音声データの特徴に対応する音素の確率を算出することができる。

【0074】

一方、図３は、音声認識装置３００が、入力部３１０及び音響モデル保存部３２０を含むものと示されているが、入力部３１０及び音響モデル保存部３２０は、システムの性能及び用途によって省略可能である。

【0075】

図４は、ニューラルネットワークトレーニング方法の一実施形態を示すフローチャートである。図４のニューラルネットワークトレーニング方法は、図１のニューラルネットワークトレーニング装置１００によって行われる。

【0076】

図１及び図４を参照すれば、ニューラルネットワークトレーニング装置１００は、クリーントレーニングデータとクリーントレーニングデータに対応する正解データとに基づいて、ニューラルネットワークモデルを１次トレーニングすることができる（４１０）。例えば、ニューラルネットワークトレーニング装置１００は、クリーントレーニングデータを入力とし、クリーントレーニングデータに対応する正解データを正解として、ニューラルネットワークモデルを１次トレーニングすることができる。ここで、ニューラルネットワークモデルは、複数の隠れ層を含むニューラルネットワーク基盤の音響モデルであり得るが、これは、一実施形態であり、これに限定されるものではない。

【0077】

一実施形態によれば、ニューラルネットワークトレーニング装置１００は、数式（１）の目的関数（第１目的関数）を用いてニューラルネットワークモデルを１次トレーニングすることができる。

【0078】

ニューラルネットワークトレーニング装置１００は、ノイジートレーニングデータとニューラルネットワークモデルの１次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布に基づいて、１次トレーニングされたニューラルネットワークモデルを２次トレーニングすることができる（４２０）。例えば、ニューラルネットワークトレーニング装置１００は、ノイジートレーニングデータを入力とし、ニューラルネットワークモデルの１次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布を正解として、１次トレーニングされたニューラルネットワークモデルを２次トレーニングすることができる。ここで、ノイジートレーニングデータは、クリーントレーニングデータが歪曲されるか、クリーントレーニングデータとトレーニングノイズデータとが混合されたデータであり得る。例えば、ノイジートレーニングデータは、クリーントレーニングデータと多様なノイズデータとが混合されたデータでもあり、クリーントレーニングデータに多様な変形（例えば、映像データの場合、回転、一部遮蔽、色または照度などの変更など、音声データの場合、残響など）を加えて生成された歪曲されたデータであり得る。

【0079】

一実施形態によれば、ニューラルネットワークトレーニング装置１００は、数式（２）ないし数式（５）のうち、１つの目的関数（第２目的関数）を用いて１次トレーニングされたニューラルネットワークモデルを２次トレーニングすることができる。

【0080】

一方、ニューラルネットワークトレーニング装置１００が、１次トレーニング過程（４１０）と２次トレーニング過程（４２０）とで別個の目的関数（第１目的関数、第２目的関数）を用いてニュ−リョルネットワークモデルをトレーニングするものと説明したが、第１目的関数及び第２目的関数が、１つの統合目的関数として統合されうる。例えば、ニューラルネットワークトレーニング装置１００は、数式（６）または数式（７）の統合目的関数を用いて１次トレーニング過程（４１０）及び２次トレーニング過程（４２０）を行うことができる。

【0081】

図５は、ニューラルネットワークトレーニング方法の他の実施形態を示すフローチャートである。図５のニューラルネットワークトレーニング方法は、図２のニューラルネットワークトレーニング装置２００によって行われる。

【0082】

図５のニューラルネットワークトレーニング方法は、図４のニューラルネットワークトレーニング方法に比べて、段階５１０ないし段階５４０をさらに含みうる。図５の段階４１０及び段階４２０は、図４の段階４１０及び段階４２０と同一なので、その詳細な説明は省略する。

【0083】

図２及び図５を参照すれば、ニューラルネットワークトレーニング装置２００は、ニューラルネットワークモデルのトレーニングのためのクリーントレーニングデータ及びトレーニングノイズデータを獲得することができる（５１０）。一実施形態によれば、ニューラルネットワークトレーニング装置２００は、所定のデータベースまたは外部装置からクリーントレーニングデータ及びトレーニングノイズデータを獲得することができる。

【0084】

ニューラルネットワークトレーニング装置２００は、クリーントレーニングデータ及びトレーニングノイズデータを混合してノイジートレーニングデータを生成することができる（５２０）。また、ニューラルネットワークトレーニング装置２００は、クリーントレーニングデータに多様な変形（例えば、映像データの場合、回転、一部遮蔽、色または照度などの変更など、音声データの場合、残響など）を加えてノイジートレーニングデータを生成することができる。

【0085】

ニューラルネットワークトレーニング装置２００は、所定のアルゴリズムを用いてクリーントレーニングデータ及びノイジートレーニングデータの特徴（例えば、ｆｉｌｔｅｒｂａｎｋ）を抽出することができる（５３０）。この際、所定のアルゴリズムは、クリーントレーニングデータ及びノイジートレーニングデータからそれぞれを識別可能にする特徴を抽出することができるものであれば、その種類と機能とに制限はない。

【0086】

ニューラルネットワークトレーニング装置２００は、ニューラルネットワークモデルの１次トレーニング結果、及びニューラルネットワークモデルの１次トレーニング過程から算出されるクリーントレーニングデータに対する出力クラスの確率分布を保存することができる（５４０）。

【0087】

図６は、音声認識方法の一実施形態を示すフローチャートである。図６の音声認識方法は、図３の音声認識装置３００によって行われる。

【0088】

図３及び図６を参照すれば、音声認識装置３００は、音声認識の対象となるノイジー音声データを入力されうる（６１０）。ここで、ノイジー音声データは、ノイズが混合された音声データを意味する。

【0089】

音声認識装置３００は、あらかじめトレーニングされた音響モデルを用いて入力されたノイジー音声データの音素確率を算出することができる（６２０）。

【0090】

ここで、音響モデルは、ニューラルネットワーク基盤の音響モデルであって、マルチコンディショントレーニング技法を用いてトレーニングされた音響モデルであり得る。例えば、音響モデルは、音声トレーニングデータと音声トレーニングデータに対応する音素列に基づいて１次トレーニングされ、ノイジー音声トレーニングデータと音響モデルの１次トレーニング過程から算出される音声トレーニングデータに対する出力クラスの確率分布に基づいて２次トレーニングされた音響モデルであり得る。この際、ノイジー音声トレーニングデータは、音声トレーニングデータとトレーニングノイズデータとが混合されたデータであり得る。

【0091】

一実施形態によれば、音響モデルは、数式（１）ないし数式（７）の目的関数のうち何れか１つを用いてトレーニングされうる。例えば、音響モデルは、数式（１）の目的関数を用いて１次トレーニングされた後、数式（２）ないし数式（５）のうち、１つの目的関数を用いて２次トレーニングされうる。他の例を挙げれば、音響モデルは、数式（６）及び数式（７）のうち、１つの統合目的関数を用いて１次トレーニング及び２次トレーニングされうる。

【0092】

図７は、ノイジー音声データの音素確率算出方法のフローチャートである。図７のノイジー音声データの音素確率算出方法は、図６の段階６２０の一実施形態であり得る。

【0093】

図３及び図７を参照すれば、音声認識装置３００は、所定のアルゴリズムを用いて入力されたノイジー音声データの特徴を抽出することができる（７１０）。この際、所定のアルゴリズムは、ノイジー音声データを他のノイジー音声データから識別可能にする特徴を抽出することができるものであれば、その種類と機能とに制限はない。

【0094】

音声認識装置３００は、あらかじめトレーニングされた音響モデルを用いて抽出されたノイジー音声データの特徴に対応する音素の確率を算出することができる（７２０）。

【0095】

図１及び図２の一次トレーニング部１１０及び二次トレーニング部１２０、図２のデータ獲得部２１０、混合部２２０、特徴抽出部２３０及び保存部２４０、及び図３の入力部３１０、音響モデル保存部３２０、特徴抽出部３３１及び音素確率算出部３３２は、ハードウェアコンポーネントとして具現可能である。例えば、ハードウェアコンポーネントは、コントローラ、センサー、生成器、ドライバ、メモリ、比較器、算術論理ユニット、加算器、減算器、乗算器、除算器、積分器、及び多様な電子部品を含みうる。他の例を挙げれば、ハードウェアコンポーネントは、コンピューティングハードウェア、例えば、１つ以上のプロセッサまたはコンピュータとして具現可能である。プロセッサまたはコンピュータは、マイクロコンピュータ、プログラマブルロジックコントローラ、フィールドプログラマブルゲートアレイ、プログラマブルロジックアレイ、マイクロプロセッサ、または他のデバイスまたはデバイスの結合のような１つ以上のプロセッシングエレメントとして具現可能である。例えば、プロセッサまたはコンピュータは、プロセッサまたはコンピュータによって実行されるインストラクションまたはソフトウェアを保存する１つ以上のメモリを含むか、１つ以上のメモリに連結されうる。プロセッサまたはコンピュータとして具現されるハードウェアコンポーネントは、運用体制（ＯＳ）及び運用体制上で動作する１つ以上のソフトウェアアプリケーションのようなインストラクションまたはソフトウェアを実行することができる。ハードウェアコンポーネントは、また、インストラクションまたはソフトウェアの実行に応答して、データにアクセス、操作、処理、生成及び保存することができる。本明細書では、便宜上、単数用語“プロセッサ”または“コンピュータ”を使っているが、複数のプロセッサまたはコンピュータを使い、プロセッサまたはコンピュータが、多数のプロセッシングエレメントまたは多数タイプのプロセッシングエレメントなどを含みうる。例えば、１つのハードウェアコンポーネントまたは２つ以上のハードウェアコンポーネントは、１つのプロセッサ、２つ以上のプロセッサ、または１つのプロセッサ及び１つのコントローラとして具現可能である。１つ以上のハードウェアコンポーネントは、１つ以上のプロセッサ、１つのプロセッサ及び１つのコントローラとして具現可能であり、１つ以上の他のプロセッサは、１つ以上の他のプロセッサ、１つの他のプロセッサ及び１つの他のコントローラとして具現可能である。１つ以上のプロセッサ、または１つのプロセッサ及び１つのコントローラは、１つのハードウェアコンポーネントまたは２つ以上のハードウェアコンポーネントを具現することができる。ハードウェアコンポーネントは、１つのプロセッサ、独立したプロセッサ、並列プロセッサ、シングルインストラクションシングルデータ（ＳＩＳＤ）マルチプロセッシング、シングルインストラクションマルチプルデータ（ＳＩＭＤ）マルチプロセッシング、マルチプルインストラクションシングルデータ（ＭＩＳＤ）マルチプロセッシング、及びマルチプルインストラクションマルチプルデータ（ＭＩＭＤ）マルチプロセッシングなどを含む１つ以上の互いに異なるプロセッシング構成を有しうる。

【0096】

図４ないし図７に開示された方法は、動作を行う命令またはソフトウェアを実行する前述されたように具現されたコンピューティングハードウェア、例えば、１つ以上のプロセッサまたはコンピュータによって行われる。例えば、１つの動作または２つ以上の動作は、１つのプロセッサ、２つ以上のプロセッサ、または１つのプロセッサ及び１つのコントローラによって行われる。１つ以上の動作は、１つ以上のプロセッサ、または１つのプロセッサ及び１つのコントローラによって行われ、１つ以上の他の動作は、１つ以上の他のプロセッサ、または１つの他のプロセッサ及び１つの他のコントローラによって行われる。１つ以上のプロセッサ、または１つのプロセッサ及び１つのコントローラは、１つの動作、または２つ以上の動作を行うことができる。

【0097】

ハードウェアコンポーネントとして具現され、前述した方法を行うコンピューティングハードウェア、例えば、１つ以上のプロセッサまたはコンピュータを制御するための命令またはソフトウェアは、コンピュータプログラム、コードセグメント、命令またはこれらの結合であり得る。例えば、命令またはソフトウェアは、コンパイラによって生成されたマシンコードのような、１つ以上のプロセッサまたはコンピュータによって直接実行されるマシンコードを含む。他の例を挙げれば、命令またはソフトウェアは、インタプリタを用いて１つ以上のプロセッサまたはコンピュータによって実行されるハイレベル（ｈｉｇｈｅｒ−ｌｅｖｅｌ）コードを含む。命令またはソフトウェアは、前述したハードウェアコンポーネント及び方法によって行われる動作を行うアルゴリズムを開示したブロック図及びフローチャートに基づいてプログラミング言語を用いて記述されうる。

【0098】

命令またはソフトウェア、関連データ、データファイル、及びデータ構造は、１つ以上の非一時的コンピュータ可読記録媒体に記録または保存することができる。例えば、非一時的コンピュータ可読記録媒体は、Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）、Ｒａｎｄｏｍ−ＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）、ＦｌａｓｈＭｅｍｏｒｙ、ＣＤ−ＲＯＭｓ、ＣＤ−Ｒｓ、ＣＤ＋Ｒｓ、ＣＤ−ＲＷｓ、ＣＤ＋ＲＷｓ、ＤＶＤ−ＲＯＭｓ、ＤＶＤ−Ｒｓ、ＤＶＤ＋Ｒｓ、ＤＶＤ−ＲＷｓ、ＤＶＤ＋ＲＷｓ、ＤＶＤ−ＲＡＭｓ、ＢＤ−ＲＯＭｓ、ＢＤ−Ｒｓ、ＢＤ−ＲＬＴＨｓ、ＢＤ−ＲＥｓ、ｍａｇｎｅｔｉｃｔａｐｅｓ、ｆｌｏｐｐｙｄｉｓｋｓ、ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｄａｔａｓｔｏｒａｇｅｄｅｖｉｃｅｓ、ｏｐｔｉｃａｌｄａｔａｓｔｏｒａｇｅｄｅｖｉｃｅｓ、ｈａｒｄｄｉｓｋｓ、ｓｏｌｉｄ−ｓｔａｔｅｄｉｓｋｓ、及び非一時的方式で命令またはソフトウェア、関連データ、データファイル及びデータ構造を保存して、１つ以上のプロセッサまたはコンピュータに提供する他のデバイスを含みうる。例えば、命令またはソフトウェア、関連データ、データファイル、及びデータ構造は、ネットワーク連結コンピュータシステムに分散されて、１つ以上のプロセッサまたはコンピュータによって分散方式で実行可能である。

【0099】

以上、本発明について、その望ましい実施形態を中心に説明した。当業者ならば、本発明が、本発明の本質的な特性から外れない範囲で変形された形態として具現可能であるということを理解できるであろう。したがって、本発明の範囲は、前述した実施形態に限定されず、特許請求の範囲に記載の内容と同等な範囲内にある多様な実施形態が含まれるように解釈されねばならない。

【産業上の利用可能性】

【0100】

本発明は、ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法関連の技術分野に適用可能である。

【図1】