(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6704585
(24)【登録日】2020年5月15日
(45)【発行日】2020年6月3日
(54)【発明の名称】情報処理装置
(51)【国際特許分類】
G06N 3/04 20060101AFI20200525BHJP
【FI】
G06N3/04
【請求項の数】9
【全頁数】16
(21)【出願番号】特願2018-206370(P2018-206370)
(22)【出願日】2018年11月1日
(65)【公開番号】特開2020-71755(P2020-71755A)
(43)【公開日】2020年5月7日
【審査請求日】2019年8月27日
【早期審査対象出願】
(73)【特許権者】
【識別番号】513190830
【氏名又は名称】Fairy Devices株式会社
(74)【代理人】
【識別番号】100110559
【弁理士】
【氏名又は名称】友野 英三
(72)【発明者】
【氏名】佐藤 可直
(72)【発明者】
【氏名】池田 成満
(72)【発明者】
【氏名】藤野 真人
【審査官】
塚田 肇
(56)【参考文献】
【文献】
特開平10−063634(JP,A)
【文献】
特表2004−511866(JP,A)
【文献】
米国特許出願公開第2004/0015459(US,A1)
【文献】
米国特許出願公開第2018/0253640(US,A1)
【文献】
本間 幸徳 ほか,自然言語を扱う時系列処理ニューラルネットワーク A Time-series Processing Neural Network for Natural Language,電子情報通信学会技術研究報告 Vol.113 No.500 IEICE Technical Report,日本,一般社団法人電子情報通信学会 The Institute of Electronics,Information and Communication Engineers,2014年 4月16日,第113巻,p.151-156
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/04
(57)【特許請求の範囲】
【請求項1】
情報入力部と、
前記情報入力部に入力された情報を空間パターンとして空間情報に埋め込む教師なし構造学習を行う特徴抽出部と、
教師なし学習で更に学習するネットワーク中に前記特徴抽出部で教師なし構造学習された空間パターンとしての情報を導入して前記構造学習された情報をさらに教師なし学習で学習しつつ蓄積するリザバー層と、
前記リザバー層で蓄積された情報から教師あり学習によって解答を抽出する情報読出部と
を備えるニューラルネットワーク系情報処理装置。
【請求項2】
前記情報入力部及び前記特徴抽出部はSOM(Self−Organizing Map)、ART(Adaptive Resonance Theory Model)、及び、LVQ(Learning Vector Quantization)のいずれかのアルゴリズムで実行され、
前記リザバー層及び前記情報読出部はESN(Echo State Network)又はLSM(Liquid State Machine)のアルゴリズムで実行される
ことを特徴とする請求項1に記載のニューラルネットワーク系情報処理装置。
【請求項3】
前記情報入力部及び前記特徴抽出部はSOM(Self−Organizing Map)、ART(Adaptive Resonance Theory Model)、及び、LVQ(Learning Vector Quantization)のいずれかのアルゴリズムで実行され、
前記リザバー層はESN(Echo State Network)又はLSM(Liquid State Machine)のアルゴリズムで実行され、
前記情報読出部はFORCE(First Order Reduced andControlled Error)又はBPDC(Backpropagation Decorrelation)のアルゴリズムで実行される
ことを特徴とする請求項1に記載のニューラルネットワーク系情報処理装置。
【請求項4】
前記特徴抽出部はPCA(Principal Component Analysis)、Auto−encorder、及び、GTM(Generative Topograhic Map)のいずれかのアルゴリズムで実行され、
前記リザバー層及び前記情報読出部はESN(Echo State Network)又はLSM(Liquid State Machine)のアルゴリズムで実行される
ことを特徴とする請求項1に記載のニューラルネットワーク系情報処理装置。
【請求項5】
前記特徴抽出部はPCA(Principal Component Analysis)、Auto−encorder、及び、GTM(Generative Topograhic Map)のいずれかのアルゴリズムで実行され、
前記リザバー層はESN(Echo State Network)又はLSM(Liquid State Machine)のアルゴリズムで実行され、
前記情報読出部はFORCE(First Order Reduced andControlled Error)又はBPDC(Backpropagation Decorrelation)のアルゴリズムで実行される
ことを特徴とする請求項1に記載のニューラルネットワーク系情報処理装置。
【請求項6】
前記情報が系列情報である請求項1〜5のいずれか一項に記載のニューラルネットワーク系情報処理装置。
【請求項7】
前記情報が時系列情報である請求項1〜5のいずれか一項に記載のニューラルネットワーク系情報処理装置。
【請求項8】
前記情報が時系列データである請求項1〜5のいずれか一項に記載のニューラルネットワーク系情報識別装置。
【請求項9】
前記情報が音声である請求項1〜5のいずれか一項に記載のニューラルネットワーク系音声識別装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、様々な情報、系列情報、時系列情報を処理し、予測、識別、実行が可能なニューラルネットワーク系情報処理装置に関する。特に、時系列データ、例えば、文章、音声、音楽、動画等の処理に適した情報処理装置に関する。
【背景技術】
【0002】
深層学習(Deep Learning)は、機械学習の一種であるニューラルネットワーク(Neural Network)の階層を深めた、生物の脳の神経細胞(ニューロン、Neuron)モデルとしたアルゴリズムで、1940年代から研究が行われてきた歴史のあるアルゴリズムである。ニューラルネットワークの基本的な構造は、入力層、複数の隠れ層、出力層を備え、各層に含まれる複数のノード(ユニット)をエッジで接続する構造となっており、隠れ層の層数が多いものを深層学習と呼んでいる。そして、各層は活性化関数を、エッジは結合荷重を有し、各ノードの値は、そのノードと接続する前の層のノードの値、エッジの結合荷重の値、及び、層が有する活性化関数から計算され、ノード接続方法、計算方法には様々なものが開発されており、近年急速な進化を遂げ、画像認識、音声認識等の様々な分野で実用化されている。
【0003】
このような深層学習で、画像処理の分野で実績があるのは、CNN(Convolution Neural Network)やGAN(Generative Adversarial Network)である(非特許文献1)。CNNでは、隠れ層において、入力画像の特徴を維持しながら画像を縮小処理して画像を抽象化し、この抽象画された画像を用いて、入力される画像の分類及び認識をするものである。現在では、更に、教師画像を学習して教師画像と近似した生成画像を生み出すネットワーク構造が開発され、この生成器(Generator)と教師画像と生成画像を識別するネットワーク構造である識別器(Discriminator)の二つのニューラルネットワークで構成されたネットワーク構造であるGANの有効性に注目が注がれている。
【0004】
画像処理は二次元の矩形データで固定長の系列データしか取り扱わない一方、音声データ等の可変長の時系列データを扱うことが可能なネットワーク構造として、RNN(Recurrent Neural Network)が開発された(非特許文献2)。これは、隠れ層の値を再び隠れ層に入力するネットワーク構造
としたことに特徴があるが、通常、誤差逆伝播法BPTT(Backproagation Through Time)という学習方法を適用するため、過去に遡った全ての時系列データが学習に必要で、長時間のデータを処理する場合、隠れ層が増加するにつれ、勾配損失及び過学習等が生じると共に、莫大な演算量となり、短時間のデータしか処理できないという問題があった。そのため、RPROP(Resilient Backpropagation)やRTRL(Real Time Recurrent Leaning)等の学習方法が検討されてきたが、上記課題の解決には至っていない。
【0005】
このようなRNNの課題を解決するネットワーク構造として、1997年に開発された、長時間前のデータが関連付けて記録されるデータ貯蔵部を有するLSTM(Long Short−Term Memory)が注目されているが、勾配損失を解消する技術であり、学習方法として基本的にはBPTTを適用しており、大量の教師あり学習が必要であるということに変わりはなく、演算に必要な多大な時間と労力を低減することは困難であり、極めてコストが高いという問題を内在している(非特許文献1)。
【0006】
近年、このような時系列データを扱うRNNやLSTMの課題を解決する新しいニューラルネットワーク構造として、リザバー計算(RC、Reservoir Computing)が提案されている(非特許文献3及び4)。RCは、入力層、リザバー層(隠れ層)、出力層の三層で構成されているRNNの一種であるが、入力層とリザバー層間、リサバー層内のエッジにおける結合荷重は初期値のまま変更することはなく、リザバー層と出力層と結合するエッジにおいてのみ結合荷重を調整して学習するという点に特徴がある。リザバー層は、ノードが規則性なくエッジで結合されており、入力されてきた情報を教師なし学習で学習しつつ、その学習された情報を蓄積していく機能を有していると考えられる。
【0007】
このようなRCの範疇に属するアルゴリズムには、ESN(Echo State Network)及びLSM(Liquid State Machine)等があり、いずれも、演算に掛かる負担が少なく、時系列データを扱うことができ、RNN等と遜色ない学習結果を得ることができる(非特許文献5及び6)。代表例として、ESNの構造を
図1に示す。また、RCのリザバー層と出力層との結合における特徴的な学習方法として、FORCE(First Order Reduced and Controlled Error)やBPDC(Backpropagation−Decorrelation)等が提案されている(非特許文献7及び8)。しかしながら、RCに高い性能を付与するためには、リザバー層にタスク実行に必要となる活性化関数群が存在しなければならないという問題がある。
【0008】
一方、教師なし学習の代表例で、RCと同様演算に掛かる負担が少ない深層学習として注目されているのが、1982年、Kohonenによって提案された、入力された情報が自己組織的に分類される自己組織化マップ(SOM、Self−Organizing Map)である(非特許文献9及び10)。これは、入力層と競合層があり、入力層のノードと入力層よりも多い競合層のノードとが全てエッジで結合されており、エッジの結合荷重は当初適当に与えられるが、Kohonennのアルゴリズムによって、学習するごとに結合の荷重が更新され、入力された情報が精度よく分類される。このようなSOMは、多次元データを扱うことができ、複雑な計算が必要なく、視覚的な結果
が得られることから、遺伝子解析、音声認識、画像解析、ロボット制御等への応用が期待されている。これとほとんど相違ないアルゴリズムとして、ART(Adaptive Resonance Theory Model)及びLVQ(Learning Vector Quantization)等がある。代表例として、SOMの構造を
図2に示す。
【0009】
しかしながら、このようなデータクラスタリング(Data Clustering)的なニューラルネットワーク構造では、繰り返し学習が必要であり、データ数が大きい場合、繰り返し学習の回数とデータ数に比例して演算量が膨大になるという問題がある。また、初期の結合荷重や繰り返し学習の回数が適切でない場合、安定した性能が得られないという問題もある。
【0010】
特に、時系列データが音声の場合、音声認識システムとして、機械学習(Machine Learning)が有効であることが認識されており、そのシステムは、主として、音声情報の特徴の抽出、抽出された特徴量のモデル化、モデル化されたパラメータを推定する評価基準、最適化アルゴリズムから構成される。特に、音声情報の特徴量をモデル化する方法が重要で、生成モデル、識別モデル、因子分析モデル等が提案されてきた。例えば、生成モデルとしては、GMM−UBM(Gaussian Mixture Mode−Universal Backroud)やGMM-SV(Super Vector)、識別モデルとしては、SVM(Super Vector Machine)、因子分析モデルとしては、i−vector等である(非特許文献11及び12)。その結果、現在の最高水準のモデルであるi−vector/PLDA(Probabilistic Linear Discriminant Analysis)に至っている。この最高水準のモデルを利用しても、学習、識別データが少ない場合、性能が著しく劣化するという問題がある。
【先行技術文献】
【特許文献】
【0011】
【特許文献1】特許第4093858号公報
【非特許文献】
【0012】
【非特許文献1】「やさしい機械学習」、http://gagbot.net/machine-learning.
【非特許文献2】「ニューラルネットワークで時系列データの予測を行う」, https://qiita.com/icoxfog417/items/2791ee878deee0d0fd9c.
【非特許文献3】「ちょっと変わったニューラルネットワークReservoir Computing」, https://qiita.com/kazoo04/items/71b659ced9dc0342a2b0.
【非特許文献4】B. Schrauwen,D. Verstraeten, and J. V. Campenhout,“An overview of reservoir computing: theory,applications and implementations”, ESANN'2007 proceedings - European Symposiumon Artificial Neural Networks Bruges (Belgium), 25-27 April 2007, d-sidepubli., ISBN 2-930307-07-2, pp.471-482.
【非特許文献5】H. Jaeger,“Echo state network”, Scholarpedia, 2(9):2330(2007), http://www. Scholar-pedia.org/article/Echo_state_network.
【非特許文献6】S. Kok,“Liquid State Machine Optimization”, https://pdfs.semanticscholar. org/379d/135c7ac1a5bded34100b98d04712e2473ec4.pdf.
【非特許文献7】D. Sussillo andL.F. Abbott, “GeneratingCoherent Patterns of Activity from Chaotic Neural Networks”, Neuron 63, 544-557,August 27, 2009.
【非特許文献8】J. J. Steil,“Backpropagation-Decorrelation:onlinerecurrent learning with 0(N)complexity”,http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.161.9279&rep=rep1& type=pdf.
【非特許文献9】T. Kohonen,“Self-OrganizedFormation of Topologically Correct Feature Maps”, Biol. Cybern., 43, 59-69(1982).
【非特許文献10】A. K. Jain, M. N. Murty, and P. J. Flynn,“Data Clustering : A Review”,ACM Computing Surveys, Vol. 31, No. 3, September 1999, pp.264-323.
【非特許文献11】越仲孝文, 篠田浩一, 「話者認識の国際動向」,日本音響学会誌, 69巻, 7号(2013), pp.342-348.
【非特許文献12】小川哲司, 松井知子, 「話者認識で用いる機械学習」, 日本音響学会誌, 69巻, 7号(2013),pp.349-356.
【発明の概要】
【発明が解決しようとする課題】
【0013】
ニューラルネットワーク系情報処理技術は、次のような課題がある。RNN等の教師あり学習は、大量の教師あり学習で、学習方法としてBPTTを使用するため、莫大な演算量が必要であると共に、勾配損失及び過学習の問題がある。ESN等のリザバー層から出力層の結合荷重をチューニングするRCは、演算量は抑制されるが、高い性能を要求する場合、リザバー層にタスク実行に必要となる関数群が存在しなければならない。また、SOM等のクラスタリング的な教師なし学習は、構造上スタティックな情報のみしか扱えないこと、繰り返し学習が必要な為、その回数とデータ数に比例して演算量が膨大になること、また、初期の結合荷重や繰り返し学習の回数が適切でない場合、安定した性能が得られないという問題がある。
【0014】
特に、音声処理技術においては、現在の最高水準であるi−vector/PLDAモデリングを用いた音声識別システムでも、学習、識別データが少ない場合、性能が著しく劣化するという課題がある。そのため、音声認識システムへのニューラルネットワーク系情報処理技術の適用が検討されているが、当然、音声認識システムにRNN、ESNやLSM等のRC、及び、SOM、ART、LVQ等のクラスタリング的な教師なし学習を適用する場合にも、上述したようなそれぞれ固有の課題が生起する。
【0015】
本発明は、上記課題を解決した単純なニューラルネットワーク構造であって、演算が容易で少ないにもかかわらず、性能に優れた情報処理装置及び情報識別装置、特に、時系列データにも対応可能な情報処理装置及び情報識別装置を提供することを目的とする。
【課題を解決するための手段】
【0016】
本発明者らは、ESN、LSM、及び、SOM等のニューラルネットワーク構造及びそれらを実行するアルゴリズムを詳細に検討した結果、RCにおいて、リザバー層に入力する情報の特徴を予め抽出し、事前学習することによって、上述した課題を解決できることを見出すと共に、リザバー層と出力層との結合における学習方法を最適化することによって更に性能が向上することを見出し、本発明の完成に至った。
【0017】
すなわち、本発明は、少なくとも、情報入力部と、前記情報入力部に入力した情報を空間情報に埋め込む教師なし構造学習を行う特徴抽出部と、この特徴抽出部で教師なし構造学習された情報を教師なし学習で更に学習を行うネットワーク中に導入してその構造学習された情報を学習しつつ蓄積する情報蓄積部と、この情報蓄積部で蓄積された情報から教師あり学習によって解答を抽出する情報読出部とを備えるニューラルネットワーク系情報処理装置を提供するものであって、この順に直接接続されることが効率的で好ましい。
【0018】
更に、情報の種類、質、及び、量等に応じて、本発明の情報処理装置の前に、情報収集部及び情報処理部を備えることが好ましい。一方、本発明の情報処理装置の後には、情報処理の結果の扱い方に応じて、様々な方法のマン・マシン・インターフェースとしての出力部を設けることが好ましい。
【0019】
本発明の情報処理装置を構成する情報入力部、特徴抽出部、情報蓄積部、及び、情報読出部は、特に限定されるものではない。ただし、特徴抽出部が、時系列データも扱うことができ、入力した情報を空間情報に埋め込む教師なし構造学習を行うことができるデータクラスタリング的なニューラルネットワーク構造であって、情報蓄積部も、時系列データも扱うことができ、入力した情報を教師なし学習で学習しつつ、その学習された情報を蓄積することができるRC的なニューラルネットワーク構造であることが求められる。
【0020】
具体的には、特徴抽出部として、SOM、ART、及び、LVQ等の情報入力部と特徴抽出部とが二層で接続され、その層間で教師なしの繰返し競合学習が行われる新しいニューラルネットワーク構造全体又はその一部を利用することができる。また、従来の教師なし学習で次元圧縮を主として行うPCA(Principal Component Analysis)、Auto−encorder、及び、GTM(Generative Topograhic Map)等の手法も利用できる。また、情報蓄積部は、既存のRCであるESN(Echo State Network)、LSM(Liquid State Machine)等の教師なし学習が行われる情報蓄積部と、その学習された情報を教師あり学習で読み出す情報読出部とが接続している新しいニューラルネットワーク構造全体又は一部を利用することができる。更に、情報読出部では、RCに適用可能な学習方法であるFORCE又はBPDCを適用することもできる。
【0021】
特に、情報入力部と特徴抽出部とが接続した、SOM、ART、及び、LVQのいずれかと、情報蓄積部と情報読出部とが接続したESN又はLSMのどちらかとを接続することが、従来にない新たなニューラルネットワーク構造を構築する必要がなく、簡便な方法でありながら、演算量が少なく、性能に優れた情報処理装置を低価格で提供することができ、特に、SOMとESNの組合せが最も好ましい。
【0022】
更に、情報入力部及び特徴抽出部は、SOM、ART、及び、LVQ(Learning Vector Quantization)のいずれかを適用するが、情報蓄積部は、ESN又はLSMのリザバー層を活用するが、情報読出部では、FORCE又はBPDCのESN又はLSMと異なる学習方法を適用することもできる。この場合、音声、動画、文章等情報の種類、質、及び、量等に応じて使い分けることが好ましい。
【0023】
特徴抽出部として、PCA、Auto−encorder、及び、GTMのいずれかのアルゴリズムで実行されるニューラルネットワーク構造を適用し、情報蓄積部及び情報読出部には、ESN又はLSMを適用することも可能である。更に、この場合、情報蓄積部として、ESN又はLSMのリザバー層を活用し、情報読出部として、FORCE又はBPDCを適用することもできる。
【0024】
このように、本発明の情報処理装置は、従来のニューラルネットワーク構造全体又は一部を多種多様な構造に組み換えて構築されることによって創造された、全く新しいニューラルネットワーク構造を応用した情報処理装置であるという大きな特徴がある。
【0025】
本発明の情報処理装置は、時系列データに対応可能なニューラルネットワーク構造で構成されているが、それに限定されることはなく、系列データの情報処理にも対応可能なニューラルネットワーク構造である。特に、本発明の情報処理装置は、莫大な情報から演算量を増やすことなく精度の高い情報処理が可能な為、動画、音声、文章、及び、言語等の抽出、認識、判断、及び、診断等の識別、並びに、自動車の自動運転等に代表される表現、行動、作業等の実行に適している。中でも、音声の情報処理に適しており、音声認識、話者識別、音声合成、感情把握、情報判断等に適している。
【発明の効果】
【0026】
本発明の情報処理装置は、情報入力部と、前記情報入力部に入力した情報を空間情報に埋め込む教師なし構造学習を行う特徴抽出部と、前記特徴抽出部で教師なし構造学習された情報を教師なし学習で更に学習を行うネットワーク中に導入して前記構造学習された情報を学習しつつ蓄積する情報蓄積部と、前記情報蓄積部で蓄積された情報から教師あり学習によって解答を抽出する情報読出部とを備えていることを特徴としている。より具体的には、本発明は、入力層、リザバー層、出力層から構成されるリザバー層における教師なし学習とリザバー層と出力層との接続における結合荷重のみ調整する教師あり学習とを実行して情報処理を行うことができるESNやLSM等のRCの入力層に入力する情報が、クラスタリング的なニューラルネットワーク構造で教師なし構造学習された情報とすることを特徴とする情報処理装置である。このことによって、莫大な情報量であっても、演算量の増加を招くことなく、従来技術以上の高い性能を発揮することができるようになり、演算コストを大きく削減することができる。更に、本発明の情報処理装置は、従来にない新たなニューラルネットワーク構造を構築する必要がなく、既存のニューラルネットワーク構造を情報の種類、質、及び、量等に応じて様々な構造に組換えることによって創造された、全く新しいニューラルネットワーク構造を応用したものであるため、簡便な構造で容易に製造可能であり、装置コストも大きく削減することができる。特に、音声識別システムにおいては、本発明の情報処理装置は、現在最高水準のモデルであるi−vector/PLDAを用いた音声識別システム以上に高い識別能力を有する。更に、本発明の情報処理装置は、時系列データに対して最小限の遅延のみで、リアルタイムに出力結果を得ることができる。
【図面の簡単な説明】
【0027】
【
図1】RCの代表例であるESNのニューラルネットワーク構造を示す模式図である。
【
図2】データクラスタリング的な深層学習の代表例であるSOMのニューラルネットワーク構造を示す模式図である。
【
図3】本発明のニューラルネットワーク構造を備えた情報処理装置の概念を示す模式図である。
【
図4】本発明の一実施形態に係るROM(Reservoir with self−organized Mapping)の構造を示す模式図である。
【発明を実施するための形態】
【0028】
本発明の情報処理装置について、音声認識装置に利用する場合を想定し、複数の固有の特性を有する音声が、複数の源から発せられる話者音声情報を用いた話者識別に関する実施形態を詳細に説明するが、本発明の情報処理装置が扱うことが可能な音声情報、また、本発明の情報処理装置が応用可能な音声認識装置はこれに限定されるものではない。更に、ここでは本技術の一実施例として、音声情報を扱うことを想定した一実施形態を取り上げたが、本発明の情報処理装置が扱うことができる情報は音声だけに限定されるものではなく、静止画、動画、文章等、系列データ及び時系列データを問わず幅広く取り扱うことができる上、本発明の情報処理装置の構成もこれに限定されるものではなく、本発明の主旨を逸脱しない範囲内で種々変更して実施することが可能であり、特許請求の範囲に記載した技術思想によってのみ限定されるものである。
【0029】
本発明の一実施形態である音声認識装置は、
図4に示すように、情報入力部4−1、特徴抽出部4−2、 情報蓄積部4−3、及び、情報読出部4−4から構成され、それぞれ、SOMの入力層、SOMの競合層、ESNのリザバー層、ESNの出力層を適用したもので、ESNにおける入力層(
図1における1−1)に、SOMの入力層4−1及び競合層4−2(4−12)(
図2における2−1及び2−2)が組み込まれ、新しいニューラルネットワーク構造が創出されており、ROM(Reservoir with self−organized Mapping)と命名し、話者識別装置に適用した。このように、本発明の技術思想を具体的に説明するため、本発明の一実施形態としてROMを取り上げ、音声を扱う情報処理装置に応用しているが、情報は、音声に限定されるものではなく、静止画、動画、音楽、文章等あらゆる情報の処理装置に応用可能である。
【0030】
この実施形態では、情報入力部4−1に音声情報を入力することになるが、情報入力部4−1には、話者識別に適した音声情報とする必要がある。そのため、(
図4には図示していない)
図3に示したような従来技術を用いた情報収集部や情報処理部を適宜設けた。具体的には、情報収集部にはマイクロフォン等の音声入力デバイスを、情報処理部には、マイクロフォンから入力された音声信号を話者識別に適した前処理を行う高速フーリエ変換(FFT、Fast Fourier Transform)アナライザーを設けた。ただし、情報処理方法は、音声信号から話者の特徴量を抽出する方法であれば、これに限定されることなく適用できる。例えば、あらかじめ決められた特徴量を数学的に計算して求める方法や、ルールベースによる処理で特徴量を抽出する方法、フォルマント等を適用してもよい。
【0031】
一方、情報読出部4−4には、識別結果が出力されるが、話者識別装置としても利用の仕方に応じて、(
図4には図示していない)
図3に示したような出力部
3−7として、スピーカーやディスプレイ等既存の出力装置を備えることが好ましい。
【0032】
このような本発明の一実施形態である話者識別装置は、情報収集部及び情報処理部から情報入力部4−1に音声情報を入力された後、特徴抽出部4−2、情報蓄積部4−3、情報読出部4−4を経由して、識別結果が出力され、その結果が出力部で公開される。例えば、話者が5人の場合(話者1、話者2、話者3、話者4、話者5)、話者2が発話していれば、識別結果として話者2が出力される。
【0033】
次いで、本発明の一実施形態である
図4に示す話者識別装置4の学習方法や動作を説明するが、上述したように、話者識別に適した音声情報を入力する必要があるため、情報収集部で集められた音声情報
に対して情報処理部でFFTを行ったので、簡単に説明する。
【0034】
音声信号は連続信号であり、発話が全て終わってからFFTを行うのでは実用性に欠けるため、音声信号を一定時間に区切る時間窓を設定し、時間窓内の音声波形に対してFFTを行った。通常、時間窓は、矩形波状やハミングウィンドウ等の窓関数を設定するが、両端の不連続性が問題になることを考慮してハミングウィンドウの窓関数を用いた。
【0035】
次いで、情報入力部4−1と特徴抽出部4−2において行われる教師なし学習について説明する。この情報入力部4−1と特徴抽出部4−2は、それぞれ、
図2の模式図に示したフィードフォワードニューラルネットワークであるSOM2の入力層2−1及び競合層2−2に対応している。ここでは、以下、
図4の新しく構築されたニューラルネットワーク構造の符号及びその説明を使用して説明する。
【0036】
特徴抽出部4−2は、一般的には、ノードが一次元に配置したアレイ又は二次元に配置したマップであるが、ここでは、二次元のマップとし、情報収集部及び情報処理部を経由して情報入力部4−1に入力された高次元の情報を二次元の空間パターンとして特徴抽出部4−2に出力する教師なし競合学習が行われた。この教師なし競合学習における結合荷重w
iは、次のようにして更新された。情報処理部でFFTが行われた情報入力部4−1への入力情報xに対し、最初は、初期化された結合荷重w
iを用いた式(1)により学習されたノードi
*を得るが、それ以後、情報入力部4−1への入力情報xに対して、結合荷重w
iに最も近い値で、ノードi
*の近傍のノードとなるように、式(1)及び(2)に従って次々と更新される。
【0038】
ここで、dは距離関数、γ(n)は学習回数nで減衰する学習率、N(i,j;n)は、ノードiとjの間の距離D(i,j)と共に減少する近接関数であり、本発明の一実施形態では、学習率及び近接関数は、式(5)、(6)、及び(7)によって求めた。γ
0及びλは、それぞれ、初期学習率及び学習減衰因子である。このようにして、全ての結合荷重が正規化され、似通った入力データが特徴抽出部4−2に密接したノードとして投影される。
【0040】
そして、この教師なし競合学習によって得られた、一種のクラスタリングされた情報が、情報蓄積部4−3の入力情報となり、更に情報蓄積層4−3において、教師なし学習が行われつつ情報が蓄積される。最後に、この蓄積された情報に基づき、情報蓄積部4−3と情報読出部4−4との間において教師あり学習が行われ、話者が識別された結果情報読出部に出力され、需要に応じた方法で出力部から公開される。
【0041】
これは、
図1に示したESN1の模式図では、特徴抽出部4−2の出力情報が、入力層1−1に与えられ、リザバー層1−2において、教師なし学習が行われつつ情報が蓄積され、リザバー層1−2と出力層1−3との間で教師あり学習が行われることと対応している。すなわち、
図4の新しく構築されたニューラルネットワーク構造は、情報入力部4−1と特徴抽出部4−2とをまとめて、情報蓄積部4−3及び情報読出部4−4の情報入力部4−12と考えれば、
図1の模式図に示したフィードバックニューラルネットワークで、RNNの一種であるESN1の入力層1−1、リザバー層1−2、出力層1−3と対応している。ここでは、以下、
図4の新しく構築されたニューラルネットワーク構造の符号及びその説明を使用して説明する。
【0042】
ESNは、RNNの一種であるが、前の時刻の隠れ層の出力を次の時刻の隠れ層の入力としてBPTT等の学習方法を用いるRNNと全く異なり、少量の教師あり学習で複雑な時系列のダイナミックスを学習できる。これは、
図4の情報蓄積部4−3が、RNNの結合Wを持った一つの隠れ層から構成されており、その一つの隠れ層の内部にRNNの隠れ層に相当するノードが不規則に結合されていると共に、各結合荷重が不規則で固定されていることに起因している。
【0043】
本発明の実施形態では、特徴抽出部4−2から情報蓄積部4−3への結合を書込みW
inと呼び、情報蓄積部4−3から情報読出部への結合を読出しW
outと呼び、出力y(t)は、式(7)のように計算される。このy(t)は、話者数の次元を持つベクトルであり、各次元が各話者に対応する。そして、話者の登録時には、y(t)が、フレームtにおける話者のワン・ホットベクトル(発話を行っている話者に対応する要素が1、その他の要素は0に設定されたベクトル)に設定され、W
outはこのような出力を与えるように学習される。一方、話者の認識時には、y(t)は、各話者のスコア(その話者が発話を行っている尤もらしさ)を与える。なお、時間ステップtにおける情報蓄積(リザバー)状態s(t)は式(6)で計算され、x(t)は入力ベクトル、ε(t)はノイズ、αは入力スケールファクターである。
【0045】
ここで、本発明の一実施形態における特徴抽出部4−2の一組のノードと情報蓄積部4−3の一組のノードとは同一であり、特徴抽出部4−2の一組のノードの二次元空間パターンというトポロジーは情報蓄積部4−3において無視される。
【0046】
さて、本発明の一実施形態においては、初期化において、RNN結合Wの各コンポーネントは、確率p
wを0とする、すなわち、スパース化するか、又は、[−1,1]の一様分布から選ばれ、RNN結合Wの全てのコンポーネントは、同じファクターを用いてそのスペクトル半径r
wが1より小さくなるように調整された。初期化後は、このニューラルネットワークの特徴であるように、Wの全てのコンポーネントが固定された。
【0047】
これは、初期化の設定の一例であり、次のように様々な選択肢がある。例えば、読出しW
outの学習(話者登録時)及び識別・分類(話者識別)時において、1)ゼロベクトルに設定する、2)SOMの学習に使用したデータ(音声)を、全て又は部分的に入力した後のリザバー状態に設定する、3)W
outの学習(話者登録)用の音声を、全て又は部分的に入力した後のリザバー状態に設定する、4)上記の音声を組み合わせて入力した後のリザバー状態に設定する等の方法がある。
【0048】
また、このニューラルネットワークは、情報蓄積部4−3から情報読出部への結合を読出しWoutにおいてのみ、教師あり学習が実行される。このステップは、本発明の一実施形態においては、エンロールメント(登録)といい、少量のデータの教師あり学習によって十分な精度の高い学習が
行われることができる。これは、情報蓄積部4−3が大容量で、入力データのダイナミクスをモデル化することができる能力があるためである。ただし、本発明の一実施形態のエンロールメントは、従来のi−vector系システムと異なり、話者のある1グループに対して行われ、個々の話者に対して行われるものではない。そのため、識別結果としては、各登録された話者の発話の可能性が情報読出部4−4から得られる。
【0049】
更に、本発明の一実施形態では、話者識別装置に応用しているため、読出しマトリックス(行列)が、情報蓄積(リザバー)状態空間における話者と想像されるベクトルの集合であると解釈される。本発明の一実施形態では、x(t)を無視し、W
outの列ベクトルを用いて、式(7)の右辺を簡略化し、式(8)に書き換えることにした。ここで、Pは,話者の個体数、ω
outはコサイン類似度を示している。この式は、話者pであることの可能性が、コサイン類似度ω
outと抽出される情報蓄積(リザバー)状態s(t)によって与えられ、発話から抽出されることを示している。従って、コサイン類似度ω
outが情報蓄積(リザバー)状態空間における話者ベクトルを表出していると見なすことができ、話者識別装置として機能することができる。
【0051】
以上、本発明の一実施形態である話者識別装置は、SOMとESNの構造及びアルゴリズムを詳細に検討した結果、
図4の模式図に示すように、ESNの入力層としてSOMを結合させ、情報入力部4−1から情報蓄積部4−3までの式(1)〜(7)に示した教師なし学習方法を用い、話者識別に適した式(8)の教師あり学習を工夫することによって実現することができた。
【0052】
そこで、本発明の一実施形態である話者識別装置の性能を明らかにするために、短い発話に関し、認識時の発声内容が登録時の発声内容によらないテキスト独立型話者識別に関する実験を行うと共に、現在の音声から抽出された特徴量のモデル化として最高水準のi−vector/PLDAを用いた話者識別装置の識別精度と比較した。この実験では、登録と識別に使った全ての発話は明瞭で短いものであり、話者の全てが既知であるクローズドセット話者識別に的を絞った。換言すれば、存在しない人の発話は用いられない。
【0053】
この実験では、日本語話し言葉コーパス(CSJ)と多数の話者のATR音声データベース、特に音素バランス文を読み上げ発生したもの(ATR/APP−BLA)の二つのコーパスを用いた。
【0054】
CSJは、日本語の自発音声データの収集であり、16kHzで、1,395名の話者の661時間の話し言葉が含まれており、その約90%はモノローグ音声で、残り約10%は対話、朗読、再朗読の音声である。このコーパスは、i−vector音声抽出器の学習のために用いられ、そのコーパスから無作為に選択された一部がROMの情報入力部4−1及び特徴抽出部4−2における事前学習、すなわち、情報蓄積部4−3への構造学習された入力情報を生成するために用いられた。
【0055】
ATR/APP−BLAは、CSJと同じ音声データの収集で、3,700名の話者によって読み上げられた音素バランス文の約100,000件の朗読であり、総朗読時間は128時間であるが、平均発話時間は4秒であり、話者は一度しか声に出して読み上げない。そして、このコーパスも、多数の話者による明瞭で短い朗読
である。このコーパスから、本発明の一実施形態の話者識別装置のエンロールメント(登録)と識別のための発話を以下に記載される方法で選択した。
【0056】
6人、50人、100人からなる話者群pの一つのグループ内における話者を識別するために、数多くの試験を行った。最初に、話者群pのある一つの話者グループGpが、ある一セットが50である単文を朗読した1596人の話者から無作為に選択された。それから、グループGp、0.5秒、1秒、2秒、及び、5秒からなる登録時間de、並びに、0.5秒、1秒、2秒、及び、5秒からなる識別時間drの各組合せを求めるための四つの単文が無作為に選択された。その後、単文と話者の各ペアに対し、必要に応じて、上記四つの単文以外の単文を切り取り、繋ぎ合わせることによって、登録時間de及び識別時間drの発話を抽出した。最後に、登録のために、グループGpの全ての話者のための一つの単文、すなわち、各話者のための一つの発話が選択され、識別のために残っている発話が選択された。登録のための単文の選択を変えながら、この手順が4回繰り返された。言い換えれば、四つの発話から登録のための一つの発話が提供されたのである。それゆえ、登録は、Gp、de、dr、及び、i(発話が提供される回数)の組合せに対して一回だけ必要とされる。発話グループGの無作為な選択は、p=6人、50人、100人それぞれに対して、N
Gp=150回、20回、10回繰り返される。従って、試験は、p、de、及び、drによって決定される条件の下で、p×N
Gp×3(発話内容)×4(四つの単文から一つの単文を提供)回行われる。
【0057】
上述したように、CSJによって学習されたi−vector/PLDAを用いたシステムを基準とした。音声認識でよく使用され音声の特徴表現の代表例である、デルタ及びデルタ−デルタ特徴量が追加された20次元のMFCCs(Mel−Frequency Cepstral Coefficients)を用いて、60次元の音響的特徴が形成された。FFTを実施する時間窓のフレーム幅及びフレームシフトは、それぞれ、20ms及び10msである。この音響的特徴から、事前に学習しておいた事前分布として256混合の完全共分散行列GMM−UBM(Gaussian Mixture Model−Universal Background Model)を用いて、一般的な話者の音響的特徴(UBM)からの差として話者の音響的特徴を表現する100次元のi−vectorを抽出する。更に、次のように話者内の変動要因を低減する。すなわち、このようにして抽出したi−vectorに対してホワイトニング及び長さの規格化を行った後、LDA(Linear Discriminant Analysis)により50次元に圧縮し、更に、WCCN(Within−Class Covariance Nomarization)を行い話者内の変動要因を低減する。そして、PLDAモデルにより話者のスコアを算出した。
【0058】
本発明の一実施形態である話者識別装置では、次のような条件で話者識別を行った。入力される音響的特徴は、1025次元の対数パワースペクトルである。FFTを実施する情報処理部3−6の時間窓のフレーム幅及びフレームシフトは、それぞれ、100ms及び25msとした。また、本発明の一実施形態の実験では、ROM4に表1に示すパラメータを設定した。これらのパラメータは、ATR/APP−BLAの選択されなかったデータを用いて決定され、評価には使用されていない。情報入力部4−1及び特徴抽出部4−2における事前学習には、CSJから10,000フレームの話し言葉が用いられた。
【0059】
このようにして得られた結果をi−vector/PLDAの結果と比較するために、次のような手順で音声全体に対する話者識別結果を定める。各フレームにおける話者のスコアを表す出力ベクトルy(t)にソフト・マックス関数を適用し、識別対象の音声全体で和
を取った結果が最大となる話者を識別結果として採用する。
【0061】
表2に、本発明の一実施形態であるROM4及びi−vector/PLDAを用いたシステムについて、結果として得られた話者識別の精度を示す。表から明らかなように、登録時間de及び識別時間drが十分に長く、話者群Gpの人数が少ない場合、両者に有意差が認められないが、登録時間de及び識別時間drが短くなるにつれ、また、話者群Gpの人数が多くなるにつれ、本発明の一実施形態であるROM4を用いたシステムの話者識別精度が、i−vector/PLDAを用いたシステムのそれよりも高いという結果が得られた。すなわち、本発明の実施形態であるROM4を用いたシステムは、世界最高水準の話者識別精度を有していることが明らかとなった。
【0063】
このような結果は、短い発話で登録及び識別が行え、話者の負担が極めて軽く、精度の高い音声認識装置を構築できる上、演算コストが低く、低価格の音声認識装置を提供できることを示している。更に、上記一実施形態の話者識別装置から分かるように、本発明の情報処理装置は、出力結果をフレームごとに与えることができる。これは、出力結果を時間ステップごとに与えることができることを意味しているので、本発明が、時系列データに対して最小限の遅延のみで、リアルタイムに出力結果を得ることができる情報処理装置であることを示している。
【産業上の利用可能性】
【0064】
本発明の情報処理装置は、莫大な情報から演算量を増やすことなく精度の高い情報処理が可能であり、実施例では、音声認識において優れた性能を発現することを示した。しかし、ニューラルネットワークの実用化が最も進んでいる、売上需要動向、商品トレンド・レコメンド等の予測の分野に適用できることはいうまでもなく、更に高度な情報処理が必要とされる識別及び実行の分野に適している。識別の分野では、言語、画像、音楽等の判断、仕分け、及び、検索等、並びに、音声、画像、及び、動画等の識別、認証、及び、感情把握等、並びに、故障、異常、及び、潜在顧客等の予知、検出、及び、発見等に適用することができ、また、実行の分野では、自動運転車、Q&A対応、及び、苦情処理対応等の作業の自動化、並びに、文章の要約、作成、及び、翻訳等の表現生成、並びに、ゲーム攻略、配送経路の最適化等の行動の最適化に適用することができ、幅広い産業分野に利用可能である。特に、時系列データに対して最小限の遅延のみで、リアルタイムに出力結果を得ることができる情報処理装置に適している。
【符号の説明】
【0065】
1 ESN
1−1 入力層
1−2 リザバー層
1−3 出力層
2 SOM
2−1 入力層
2−2 出力層(競合層)
3 情報処理装置
3−1 情報入力部
3−2 特徴抽出部
3−3 情報蓄積部
3−4 情報読出部
3−5 情報収集部
3−6 情報処理部
3−7 出力部
4 ROM(Reservoir with self−organized Mapping)
4−1 情報入力部/SOMの入力層
4−2 特徴抽出部/SOMの出力層(競合層)
4−12 SOM(ESNの入力層に相当)
4−3 情報蓄積部/ESNのリザバー層
4−4 情報読出部/ESNの出力層