(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-19
(45)【発行日】2024-09-30
(54)【発明の名称】フィードフォワードニューラルネットワークを複数段含む学習済みネットワーク、並びに当該学習済みネットワークの生成方法及び情報処理システム
(51)【国際特許分類】
G06N 3/045 20230101AFI20240920BHJP
G06N 3/0499 20230101ALI20240920BHJP
【FI】
G06N3/045
G06N3/0499
(21)【出願番号】P 2021016396
(22)【出願日】2021-02-04
【審査請求日】2023-11-15
(73)【特許権者】
【識別番号】301021533
【氏名又は名称】国立研究開発法人産業技術総合研究所
(72)【発明者】
【氏名】佐宗 晃
【審査官】真木 健彦
(56)【参考文献】
【文献】国際公開第2020/062894(WO,A1)
【文献】国際公開第2020/112808(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/045
G06N 3/02
(57)【特許請求の範囲】
【請求項1】
予め定められたタイミングパターンに基づき特定される時刻における観測特徴量を入力とする第1のフィードフォワードニューラルネットワークを含む第1のネットワークと、
前記予め定められたタイミングパターンに基づき特定される時刻における、1つ下段のネットワークの出力特徴量と観測特徴量との連結である連結特徴量を入力とする第2のフィードフォワードニューラルネットワークを含み、当該第2のフィードフォワードニューラルネットワークの出力と前記1つ下段のネットワークの出力特徴量との加算により出力特徴量を算出する加算部を各々含む(L-1)段(Lは2以上の整数)の第2のネットワークと
を含み、コンピュータによって実行可能な学習済みネットワークであって、
前記予め定められたタイミングパターンは、第1乃至第m(1以上mはL以下の整数)のタイミングパターンを含み、
前記第1及び第2のネットワークの各々に、当該ネットワークの、最下段からの段数x(1≦x≦L)に基づき、前記第1乃至第mのタイミングパターンのうち第(x mod m)のタイミングパターンを適用する
学習済みネットワーク。
【請求項2】
前記第1及び第2のネットワークの各々は、
当該ネットワークのためのタイミングパターンで特定される時刻における観測特徴量を保持するためのメモリ領域を用いる
請求項1記載の学習済みネットワーク。
【請求項3】
前記第1乃至第mのタイミングパターンのうちの第y(1≦y≦m)のタイミングパターンが、
観測特徴量を用いるべき最も新しい時刻と最も古い時刻との差が(b-1)×b
y-1であり、均等間隔でb個の時刻を含む
請求項1又は2記載の学習済みネットワーク。
【請求項4】
最上段のネットワークの出力特徴量と、前記第1のネットワーク及び前記最上段のネットワーク以外の前記第2のネットワークの出力特徴量のうち少なくとも1つの出力特徴量とを入力とする第3のネットワークをさらに含む請求項1乃至3のいずれか1つ記載の学習済みネットワーク。
【請求項5】
請求項1乃至3のいずれか1つ記載の学習済みネットワークを複数含み、
各学習済みネットワークにおける少なくとも最上段のネットワークの出力特徴量を入力とする第3のネットワークをさらに含み、コンピュータにより実行可能な学習済みネットワーク。
【請求項6】
予め定められたタイミングパターンに基づき特定される時刻における観測特徴量を入力とする第1のフィードフォワードニューラルネットワークを含む第1のネットワークと、前記予め定められたタイミングパターンに基づき特定される時刻における、1つ下段のネットワークの出力特徴量と観測特徴量との連結である連結特徴量を入力とする第2のフィードフォワードニューラルネットワークを含み、当該第2のフィードフォワードニューラルネットワークの出力と前記1つ下段のネットワークの出力特徴量との加算により出力特徴量を算出する加算部を各々含む(L-1)段(Lは2以上の整数)の第2のネットワークとを含む構築対象ネットワークであって、前記予め定められたタイミングパターンは、第1乃至第m(mは1以上L以下の整数)のタイミングパターンを含み、前記第1及び第2のネットワークの各々に、当該ネットワークの、最下段からの段数x(≦L)に基づき、前記第1乃至第mのタイミングパターンのうち第(x mod m)のタイミングパターンを適用する構築対象ネットワークについて、
前記観測特徴量の元となる観測イベントの継続時間と、当該構築対象ネットワーク全体において用いられる観測特徴量の最も古い時刻と最も新しい時刻との差である受容域サイズとに基づき、構築対象ネットワークの構成について複数の候補を特定するステップと、
前記複数の候補の各々について学習済みネットワークを生成するステップと、
生成された前記学習済みネットワークの推論精度に基づき、用いるべき学習済みネットワークを選択するステップと、
を含み、コンピュータが実行する、学習済みネットワークの生成方法。
【請求項7】
前記構築対象ネットワークの構成について複数の候補を特定するステップが、
前記継続時間を含む所定の時間幅に対応する所定幅に入る前記受容域サイズを有することになる構築対象ネットワークのm及びLの組み合わせを候補として特定するステップ
を含む請求項6の生成方法。
【請求項8】
前記受容域サイズが、最下段から最上段までの各ネットワークにおいて観測特徴量を用いるべき最も新しい時刻と最も古い時刻との差を構築対象ネットワークの全体について加算した結果と1との加算により算出される
請求項6又は7記載の生成方法。
【請求項9】
前記第1乃至第mのタイミングパターンのうちの第y(1≦y≦m)のタイミングパターンが、
観測特徴量を用いるべき最も新しい時刻と最も古い時刻との差が(b-1)×b
y-1であり、均等間隔でb個の時刻を含み、
前記受容域サイズが、1+Σ
L
i(b-1)×b
(i-1) mod mで算出される
請求項6又は7記載の生成方法。
【請求項10】
前記観測特徴量の元となる観測イベントに考慮すべき複数の継続時間が存在する場合、
当該複数の継続時間の各々について、前記複数の候補を特定するステップと、前記複数の候補の各々について学習済みネットワークを生成するステップと、前記学習済みネットワークを選択するステップとを実行し、
選択された前記学習済みネットワークの少なくとも出力特徴量を統合する第3のネットワークを学習するステップをさらに含む
請求項6乃至9のいずれか1つ記載の生成方法。
【請求項11】
選択された前記学習済みネットワークのうち、第1の学習済みネットワークが、第2の学習済みネットワークを包含する場合、
前記第3のネットワークが、前記第1の学習済みネットワークの出力特徴量と、前記第1の学習済みネットワークにおいて前記第2の学習済みネットワークに相当する段の出力特徴量とを少なくとも入力とするネットワークである
請求項10記載の生成方法。
【請求項12】
選択された前記学習済みネットワークのうち、第1の学習済みネットワークが、第2の学習済みネットワークを包含しない場合、
前記第3のネットワークが、前記第1の学習済みネットワークの出力特徴量と、前記第2の学習済みネットワークの出力特徴量とを少なくとも入力とするネットワークである
請求項10又は11記載の生成方法。
【請求項13】
請求項6乃至12のいずれか1つ記載の生成方法を、コンピュータに実行させるためのプログラム。
【請求項14】
予め定められたタイミングパターンに基づき特定される時刻における観測特徴量を入力とする第1のフィードフォワードニューラルネットワークを含む第1のネットワークと、前記予め定められたタイミングパターンに基づき特定される時刻における、1つ下段のネットワークの出力特徴量と観測特徴量との連結である連結特徴量を入力とする第2のフィードフォワードニューラルネットワークを含み、当該第2のフィードフォワードニューラルネットワークの出力と前記1つ下段のネットワークの出力特徴量との加算により出力特徴量を算出する加算部を各々含む(L-1)段(Lは2以上の整数)の第2のネットワークとを含む構築対象ネットワークであって、前記予め定められたタイミングパターンは、第1乃至第m(mは1以上L以下の整数)のタイミングパターンを含み、前記第1及び第2のネットワークの各々に、当該ネットワークの、最下段からの段数x(≦L)に基づき、前記第1乃至第mのタイミングパターンのうち第(x mod m)のタイミングパターンを適用する構築対象ネットワークについて、
前記観測特徴量の元となる観測イベントの継続時間と、当該構築対象ネットワーク全体において用いられる観測特徴量の最も古い時刻と最も新しい時刻との差である受容域サイズとに基づき、構築対象ネットワークの構成について複数の候補を特定する手段と、
前記複数の候補の各々について学習済みネットワークを生成する手段と、
生成された前記学習済みネットワークの推論精度に基づき、用いるべき学習済みネットワークを選択する手段と、
を有する情報処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、フィードフォワードニューラルネットワークを複数段含むネットワーク及び当該ネットワークの学習済みモデルの生成技術に関する。
【背景技術】
【0002】
隠れ層が1層となっているフィードフォワードニューラルネットワーク(FFNN:Feed-Forward Neural network)の入力層-隠れ層間の重みを学習データとは無関係に乱数で決定し、隠れ層-出力層間の重みだけを学習データから求めることで、全重みを学習する方法に比べ軽量な演算量で学習を実現する方法(例えば非特許文献5)がある。そしてこのような方法で学習したFFNNを複数段重ねてネットワークの推論精度改善を試みる様々な技術が存在している。例えば、観測特徴量のみを用いて推論を行う最下段のフィードフォワードニューラルネットワークへの入力だけに対応付けて残差特徴量を学習させる方法(例えば非特許文献1)、最下段のフィードフォワードニューラルネットワークからの出力だけに対応付けて残差特徴量を学習させる方法(例えば非特許文献2)があるが、これらの方法では下段のフィードフォワードニューラルネットワークの推論誤りの傾向を的確に学習できず、結果的に大幅な推論精度の改善が見込めないという問題がある。また、最下段のフィードフォワードニューラルネットワークの上に積み上げられた他の全てのフィードフォワードニューラルネットワークを、全く同じ入力で学習する技術も知られているが(例えば非特許文献3)、この技術では学習効率があまり良くないことが知られている。
【0003】
このように一部の重みを乱数で決定するFFNNを複数段重ねて用いるネットワークの構成には様々なバリエーションが存在しており、従来技術と比較してより高い推論精度や汎化性能を得るためにさらなる工夫の余地がある。
【先行技術文献】
【非特許文献】
【0004】
【文献】SEN ZHANG , ZHENG LIU, XUEJIAO HUANG, AND WENDONG XIAO, "A Modified Residual Extreme Learning Machine Algorithm and Its Application," DOI 10.1109/ACCESS.2018.2876360, IEEE Access, Vol.6, 2018.
【文献】Alexander Waibel, Tashiyuki Hanazawa, Geoffrey Hinton, Kiyohito Shikano, Kevin J. Lang, "Phoneme Recognition Using Time-Delay Neural Networks," IEEE Transactions on Acoustics, Speech, and Signal Processing, Volume 37, No.3, pp.328-339 March 1989.
【文献】Yinghao Chen Xiaoliang Xie Tianle Zhang Jiaxian Bai Muzhou Hou, "QA deep residual compensation extreme learning machine and applications,"<https://doi.org/10.1002/for.2663>, Journal of FORCASTING, vol.39, issue 6, pp.986-999, September, 2020.
【文献】Guang-Bin Huang, "Extreme Learning Machine for Regression and Multiclass Classification," IEEE Trans. SYSTEMS, MAN, AND CYBERNETICS-PART B: CYBERNETICS, VOL. 42, NO. 2, pp.513-529, APRIL 2012.
【文献】Pao Y-H, Park G-H, Sobajic D., "Learning and generalization characteristics of the random vector functional-link net," Neurocomputing 1994, 6:163-180.
【発明の概要】
【発明が解決しようとする課題】
【0005】
従って、本発明の目的は、一側面として、FFNNを複数段重ねることで構築されるネットワークでより高い推論精度を実現するための技術を提供することである。
【課題を解決するための手段】
【0006】
本発明に係る学習済みネットワークは、(A)予め定められたタイミングパターンに基づき特定される時刻における観測特徴量を入力とする第1のフィードフォワードニューラルネットワークを含む第1のネットワークと、(B)予め定められたタイミングパターンに基づき特定される時刻における、1つ下段のネットワークの出力特徴量と観測特徴量との連結である連結特徴量を入力とする第2のフィードフォワードニューラルネットワークを含み、当該第2のフィードフォワードニューラルネットワークの出力と上記1つ下段のネットワークの出力特徴量との加算により出力特徴量を算出する加算部を各々含む(L-1)段(Lは2以上の整数)の第2のネットワークとを含み、コンピュータによって実行可能な学習済みネットワークである。そして、予め定められたタイミングパターンは、第1乃至第m(1以上mはL以下の整数)のタイミングパターンを含み、第1及び第2のネットワークの各々に、当該ネットワークの、最下段からの段数x(1≦x≦L)に基づき、第1乃至第mのタイミングパターンのうち第(x mod m)のタイミングパターンを適用するものである。
【0007】
上記のような学習済みネットワークを生成する方法は、(A)観測特徴量の元となる観測イベントの継続時間と、当該構築対象ネットワーク全体において用いられる観測特徴量の最も古い時刻と最も新しい時刻との差である受容域サイズとに基づき、構築対象ネットワークの構成について複数の候補を特定するステップと、(B)複数の候補の各々について学習済みネットワークを生成するステップと、(C)生成された学習済みネットワークの推論精度に基づき、用いるべき学習済みネットワークを選択するステップとを含む。
【発明の効果】
【0008】
一側面として、FFNNを複数段重ねることで構築されるネットワークでより高い推論精度を実現できるようになる。
【図面の簡単な説明】
【0009】
【
図1】
図1は、本発明の実施の形態に係る基部ネットワークの構成例を示す図である。
【
図2】
図2は、本発明の実施の形態に係る残差ネットワークの構成例を示す図である。
【
図3】
図3は、第1の実施の形態に係るネットワークの全体構成例を示す図である。
【
図4】
図4は、本発明の実施の形態に係るスイッチにおけるオンオフパターンの一例を表す図である。
【
図5】
図5は、本発明の実施の形態に係る各段のネットワークの入力及び出力のタイミングを模式的に示す図である。
【
図6】
図6は、本発明の実施の形態に係るスイッチにおけるオンオフパターンの他の例を表す図である。
【
図7】
図7は、本発明の実施の形態において準最適な学習済みネットワークを生成する処理を実行する情報処理装置の機能ブロック図である。
【
図8】
図8は、第1の実施の形態に係る学習済みネットワークの生成処理の考え方を説明するための図である。
【
図9】
図9は、第1の実施の形態に係る学習済みネットワークの生成処理の考え方を説明するための図である。
【
図10】
図10は、第1の実施の形態に係る学習済みネットワークの生成処理の考え方を説明するための図である。
【
図11】
図11は、第1の実施の形態に係る学習済みネットワークの生成処理の処理フローを示す図である。
【
図12】
図12は、第1モデル構築評価処理の処理フローを示す図である。
【
図13】
図13は、第1モデル構築評価処理の処理フローを示す図である。
【
図14】
図14は、第2モデル構築評価処理の処理フローを示す図である。
【
図15】
図15は、第2モデル構築評価処理の処理フローを示す図である。
【
図16】
図16は、第2の実施の形態に係るネットワークの全体構成の一例を示す図である。
【
図17】
図17は、第2の実施の形態に係るネットワークの全体構成の他の例を示す図である。
【
図18】
図18は、第2の実施の形態に係る学習済みネットワークの生成処理の考え方を説明するための図である。
【
図19】
図19は、第2の実施の形態に係る学習済みネットワークの生成処理の処理フローを示す図である。
【
図20】
図20は、第2の実施の形態に係る学習済みネットワークの生成処理の処理フローを示す図である。
【
図21】
図21は、実施例におけるネットワークの段数と受容域サイズとの関係を表す図である。
【
図22】
図22は、学習により調整可能なモデルパラメータ数とF値との関係を表す図である。
【
図23】
図23は、残差ネットワークへの入力特徴量を直下のネットワークの入力特徴量のみとする場合におけるF値と、学習により調整可能なモデルパラメータ数との関係を表す図である。
【
図24】
図24は、現時刻tから時刻(t-102)までの連続する103個の特徴量を全てFFNNに入力するパターンを、全10段のネットワークに適用した場合におけるF値と、学習により調整可能なモデルパラメータ数との関係を表す図である。
【
図25】
図25は、畳み込みニューラルネットワークについてのF値と、学習により調整可能なパラメータ数との関係を表す図である。
【
図26】
図26は、隠れ層のノード数は全12段のネットワークで同一数とし、1000個から10000個まで1000個刻みの10種類とした場合における段数と、F値との関係を表す図である。
【発明を実施するための形態】
【0010】
[実施の形態1]
[本実施の形態に係るネットワークの構成例]
本実施の形態では、音響や振動など1次元の観測信号に対して、短時間フーリエ変換やウェーブレット変換などを行うことで得られ、且つ特徴抽出時刻近傍の周波数成分分布に関するパラメータである観測特徴量を入力として用いる。この観測特徴量は、具体的には、メルフィルタバンク特徴量、メルスペクトログラム特徴量、メルケプストラム特徴量などであるが、これに限定されるものではない。一方、ネットワークによる推論結果は、例えば、観測信号の元となる観測イベントの種別であるものとするが、これに限定されるものではない。
【0011】
本実施の形態では、
図1に示すような基部ネットワークの上に、
図2に示すような残差ネットワークを1又は複数段積み上げることで全体のネットワークを構築する。
図1に示すように、基部ネットワークは、隠れ層1層のFFNN100と、観測特徴量f
tが入力され且つ所定個数(図ではM
1個)の遅延素子Z
-1を直列に接続する記憶機構120と、記憶機構120に記憶されている観測特徴量f
t-M1乃至f
t-1及び観測特徴量f
tのうちFFNN100の入力層に入力すべき観測特徴量を選択するためのスイッチ群110とを有する。
【0012】
基部ネットワークには観測特徴量のみを入力し、観測特徴量の時系列から推論を行うため、記憶機構120で、遅延素子Z-1の個数分だけ過去の時刻の観測特徴量を記憶する。更に、その記憶機構120の各パスにはスイッチ群110に含まれるスイッチを接続し、このスイッチ群110の各スイッチをオンまたはオフすることで、任意の時刻(すなわち任意のタイミング)の観測特徴量を選択してFFNN100に入力するようになっている。FFNN100における演算については後に詳細に述べる。なお、FFNN100の出力特徴量y1,tが、学習データのターゲット特徴量となるように、FFNN100の内部パラメータを学習する。
【0013】
図2に示す残差ネットワークは、隠れ層一層のFFNN200と、観測特徴量f
tと前段(下段)のネットワークが出力した前段出力特徴量y
l-1,tとを連結して連結特徴量c
tを生成する連結部230と、連結特徴量c
tが入力され且つ所定個数(図ではM
l個)の遅延素子Z
-1を直列に接続した記憶機構220と、記憶機構220に格納されている連結特徴量c
t-Ml乃至c
t-1及び連結特徴量c
tのうちFFNN200の入力層に入力すべき連結特徴量を選択するためのスイッチ群210と、FFNN200の出力と前段出力特徴量y
l-1,tとを加算して出力特徴量y
l,tを生成する加算器240とを有する。lは、基部ネットワークを1段目とした場合における、本残差ネットワークの段数を表している。
【0014】
上でも述べたように、残差ネットワークのFFNN200への入力は、基部ネットワークの入力と同じ観測特徴量と、前段ネットワークの出力である前段出力特徴量(ターゲット特徴量を推論した結果)とを連結した連結特徴量である。このような連結特徴量をFFNN200の入力として用いて、FFNN200では、ターゲット特徴量から、基部ネットワークを含む前段までのネットワークがターゲットを推論した結果である前段出力特徴量を差し引いた残差特徴量を推論するようになっているので、主に前段ネットワークの推論誤りの特性や傾向を、残差ネットワークのFFNN200が的確に学習できるようにしている。これは、非特許文献1及び2とは異なっている。
【0015】
更に、残差ネットワークのFFNN200の学習は、基部ネットワークの学習とは以下の点で異なる。すなわち、残差ネットワークのFFNN200は、ターゲット特徴量を直接推論するように学習するのではなく、上で述べた残差特徴量を推論するように学習するもので、これも本実施の形態の特徴の一つである。そして、前段ネットワークがターゲットを推論した結果である出力特徴量に、残差ネットワークのFFNN200が残差特徴量を推論した結果を加算することで、残差ネットワークがターゲット特徴量を推論した結果である出力特徴量を生成するようになっている。もし基部ネットワーク又は基部ネットワークを含む前段までのネットワークがターゲット特徴量を推論した結果が、ターゲット特徴量と完全に一致している場合、残差ネットワークのFFNN200が学習する残差特徴量はゼロベクトルとなる。これは、残差ネットワークのFFNN200における隠れ層ー出力層間の全結合の重みが全て0と学習することで実現される。このため、基部ネットワーク又は基部ネットワークを含む前段までのネットワークの出力と比較して、本残差ネットワークの出力の推論精度が同等以上に改善されることが保証される。
【0016】
また、本実施の形態では、基部ネットワークでも残差ネットワークでも、所定個数の遅延素子を直列に接続した記憶機構とスイッチ群とを設け、その各パスに接続したスイッチをオンまたはオフすることでFFNNへ入力する特徴量を任意に選択可能としている。そして、そのオンオフパターン(すなわち、特徴量の採否を定めるタイミングパターン)が、基部ネットワーク及び1又は複数の残差ネットワークのそれぞれで異なるように設定可能である。これによって、基部ネットワークのFFNN100への入力、及び各残差ネットワークのFFNN200への入力に、
バリエーションを持たせられる。これにより、残差ネットワークを積み上げる度に、入力特徴量に変化を持たせることができ、非特許文献3と比較して学習効率が改善している。
【0017】
このような特徴を有するので、非特許文献1乃至3等の従来技術よりも、高い推論精度を実現できる。
【0018】
図3に、基部ネットワークと2段の残差ネットワークを積み上げた例を示す。なお、2段目の残差ネットワーク及び3段目の残差ネットワークにおいては、前段のネットワークからの出力である前段出力特徴量と、当該前段出力特徴量が出力されたタイミングにおける観測特徴量とが連結部で連結されるので、上の段ほど遅い時刻の観測特徴量が入力されるようになる。
【0019】
次に、
図4に、スイッチ群のオンオフパターンの例を模式的に示す。
図4は、2のべき乗パターンに属する4段分のオンオフパターン(すなわちタイミングパターン)を示している。各オンオフパターンで、右端のボックスが現時刻tにおける特徴量の出力可否を制御するスイッチのオンまたはオフ状態を示し、左端のボックスが時刻(t-55)について特徴量の出力可否を制御するスイッチのオンまたはオフ状態を示している。ハッチングが付されたボックスがオンの状態を表し、空白のボックスがオフの状態を表している。
【0020】
この例では、全てのオンオフパターンで2つの特徴量をFFNNへ入力することになる。その1つは現時刻tの特徴量で、もう1つは現時刻からΔ=2l-1時間分だけ過去の時刻(t-Δ)における特徴量である。上でも述べたように、lは、l=1が基部ネットワークである場合におけるネットワークの段数を表しており、l≧2は残差ネットワークを表す。
【0021】
このようなオンオフパターンでネットワークを4段積み上げた場合、第4段目の残差ネットワークがターゲット特徴量を推論することで得た出力特徴量は、現時刻tから時刻(t-15)までの16個の観測特徴量に基づいている。この様子を
図5に模式的に示す。
図5では、FFNNは、各段につき1つだが、時刻tから時刻(t-15)までの推論回数に応じたブロックを示している。基部ネットワークの入力は連続する2つの時刻(例えば(t-15)と(t-14))の観測特徴量であって、FFNN100の出力は後の時刻(例えば(t-14))で生成されることになる。2段目の残差ネットワークにおいては、基部ネットワークの出力特徴量(ターゲットを推論した特徴量)と観測特徴量を連結した連結特徴量を入力とするが、1フレーム時間空いた2つの時刻(例えば(t-14)と(t-12))における連結特徴量を用い、FFNN200の出力(残差特徴量を推論した特徴量)は後の時刻(例えば(t-12))で生成される。このFFNN200の出力は、残差であるから、基部ネットワークの出力特徴量と加算されて、3段目の入力(ターゲットを推論した特徴量)となる。3段目の残差ネットワークにおいては、2段目の残差ネットワークの出力特徴量と観測特徴量を連結した連結特徴量を入力とするが、3フレーム時間空いた2つの時刻(例えば(t-12)と(t-8))における連結特徴量を用い、FFNN200の出力(残差特徴量を推論した特徴量)は後の時刻(例えば(t-8))で生成される。このFFNN200の出力は、残差であるから、2段目の出力特徴量と加算されて、4段目の入力(ターゲットを推論した特徴量)となる。4段目の残差ネットワークにおいては、3段目の残差ネットワークの出力特徴量と観測特徴量を連結した連結特徴量を入力とするが、7フレーム時間空いた2つの時刻(例えば(t-8)とt)における連結特徴量を用い、FFNN200の出力(残差特徴量を推論した特徴量)は後の時刻(例えばt)で生成される。このFFNN200の出力は、残差であるから、3段目の出力特徴量と加算されて、最終的な出力となる。
【0022】
なお、
図5では、縦方向に並んだブロック(特徴量ブロック及びFFNNの推論ブロック)は同じ時刻の特徴量またはFFNNにおける推論を表している。
【0023】
このように、ある特定の段のネットワークにおける1つの出力特徴量を推論するのに用いた最も過去の時刻と最も現在に近い時刻間の時間差を、受容域サイズ(RF:Receptive Field Size)と呼ぶ。ここで第l段のためのオンオフパターン(すなわちタイミングパターン)をベクトルp
lで表すものとすると、このベクトルp
lにおいてオンとなる右端位置に相当する時刻から左端位置に相当する時刻までの時間は受容域サイズを表しており、このオンオフパターンで特定される時間差ΔをΔ(p
l)で表すものとする。例えば、
図4の2のべき乗パターンの場合、以下のようになる。
Δ
2(p
l)=2
l-1
【0024】
そして、2のべき乗パターンの場合、複数段のネットワークの受容域サイズは、ベクトルplの関数として、以下のように表される。
RF2(p1,・・・,pL)=1+Σl=1
LΔ2(pl)
但し、Lは積み上げるネットワークの段数を表している。
【0025】
図4の場合、L=2、Δ
2(p
l)=2
l-1であるから、以下のようになる。
RF
2(p
1,・・・,p
4)=1+Σ
l=1
42
l-1=16
このように上で述べた値と一致することになる。
【0026】
ネットワークを積み上げる度に時間差をΔ
2(p
l)=2
l-1のように単調にべき乗で広げる方法の他に、段数を一定数積み上げる毎に再度初期のパターンから繰り返す方法を採用しても良い。例えば、m段毎に初期パターンから繰り返す場合、2のべき乗パターンであれば、l段目の時間差はΔ
2
m=2
(l-1)mod mとなる。
図4のパターンを2回繰り返してL=8段積み上げる場合、受容域サイズは以下のようになる。
RF
2
4(p
1・・・p
8)=1+Σ
l=1
82
(l-1)mod m=31
一方、2のべき乗パターンで単調にL=8段積み上げる場合、受容域サイズは以下のようになる。
RF
2(p
1・・・p
8)=1+Σ
l=1
82
(l-1)=256
このように同じ段数でもオンオフパターンの設定を変えると、受容域サイズは大きく変化する。
【0027】
2のべき乗パターンだけではなく3のべき乗パターンを採用するようにしても良い。この場合を
図6に模式的に示す。
図6から分かるように、各段において3つの特徴量をFFNNに入力するようになっている。3つの特徴量の時刻の間隔は均等である。3のべき乗パターンにおけるl段目の時間差は、Δ
3(p
l)=2×3
l-1と表される。
【0028】
一般的に基数bのべき乗パターンにおけるl段目の時間差は、Δb(pl)=(b-1)×bl-1で、それをL段積み上げた場合における受容域サイズは以下のように表される。
RFb(p1,・・・,pL)=1+Σl=1
LΔb(pl)
【0029】
そして、m段毎に初期パターンから繰り返す場合、l段目の時間差は、Δb
m(pl)=(b-1)×b(l-1)mod mであり、L段積み上げたモデルの受容域サイズは以下のように表される。
RFb
m(p1,・・・,pL)=1+Σl=1
LΔb
m(pl)
【0030】
また、べき乗パターンでない場合でも、第l段のオンオフパターンにおけるオンとなる右端位置に相当する時刻から左端位置に相当する時刻までの時間差は、Δ(pl)と表し、それをL段積み上げたモデルの受容域サイズを以下のように表すことで、同様に扱うことができる。
RF(p1,・・・,pL)=1+Σl=1
LΔ(pl)
べき乗パターンでない場合でも、m段毎に初期パターンから繰り返してもよく、その場合L段積み上げたモデルの受容域は以下のように表される。
RFm(p1,・・・,pL)=1+Σl=1
LΔm(pl)
【0031】
次に基部ネットワークに入力した観測特徴量に対する出力特徴量の具体的な計算内容について説明する。基部ネットワークには、音響信号などの観測信号から抽出した現時刻tの観測特徴量を入力する。以後、観測特徴量の次元数をDとして、時刻tの観測特徴量をベクトルft=[f1,t,f2,t,..,fD,t]T∈RD×1で表す。ここでTは転置を表す。
【0032】
図1では、観測特徴量が2次元ベクトルの場合を表している。
図1では、z
-1で表される遅延素子は、f
tの入力に対してf
t-1を出力する。この遅延素子をM1個繋げることで、現時刻tから(t-M1)時刻までの(M1+1)個の観測特徴量が記憶可能となる。遅延素子に接続しているスイッチ群110は、FFNN100の入力層に、どの時刻の観測特徴量を入力するかを決める。例えば
図1の場合、f
t、f
t-2、及びf
(t-M1)の3つを結合したベクトルをFFNN100に入力する。
【0033】
FFNN100の入力層のノード数P1は、入力される観測特徴量x
1,t∈R
P1×1の要素数であり、P1=D×(オンとなるスイッチの数)で表される。
図1では、x
1,t=[f
t
T f
t-2
T f
tーM1
T]=[f
1,t,f
2,t,f
1,t-2,f
2,t-2,f
1,t-M1,f
2,t-M1]
Tとなり、入力層のノード数はP1=6となる。ここでM1、P1、x
1,tなどにある添え字の「1」は、
図3に示したように基部ネットワークおよび1又は複数の残差ネットワークを積み上げたネットワークで、基部ネットワークは第1段のネットワークであることを示している。
【0034】
また、隠れ層のノード数をQ1として、入力層から隠れ層への全結合の重み行列をW
1∈R
Q1×P1、隠れ層でのバイアスベクトルをb
1∈R
Q1×1、そしてベクトルの要素毎に演算を行う活性化関数をh(・)とすると、隠れ層の出力ベクトルz
1,t∈R
Q1×1は、以下のように表される。
z
1,t=h(W
1・x
1,t+b
1)
活性化関数にはReLU(Rectified Linear Unit)などを用いるが、これに限定されるものではない。
図1の例では、隠れ層のノード数はQ1=9としている。
【0035】
次に出力層のノード数をRとして、隠れ層から出力層への全結合の重み行列をβ
1∈R
Q1×Rとすると、出力層の出力ベクトルy
1,t∈R
R×1は、以下の式で得られる。
y
1,t
T=z
1,t
T・β
1
このy
1,tが基部ネットワークの出力特徴量となる。出力層のノード数Rは基部ネットワークおよび全ての残差ネットワークで同一の値を設定する。
図1の例ではR=3である。
【0036】
次に残差ネットワークへの入力特徴量に対する出力特徴量の計算内容について説明する。基部ネットワークを第1段ネットワークとして、その直上にある残差ネットワークを第2段残差ネットワークと呼ぶこととする。そして、基部ネットワークから数えてl段目の残差ネットワークを第l段残差ネットワークと呼ぶ(但し、l≧2)。第l段残差ネットワークには、時刻tの観測特徴量のベクトルft∈RD×1と、直下のネットワークの出力特徴量のベクトルyl-1,t∈RR×1を連結したベクトルct=[ft
T yl-1,t
T]T∈R(D+R)×1を入力する。なお、簡略化のためctの添え字lを省略している。
【0037】
この連結特徴量のベクトルの各要素をc
t=[c
1,t・・・c
D+R,t]と表す。
図2の例では、観測特徴量ベクトルの次元数がD=2、直下の出力特徴量のベクトルの次元数がR=3である。基部ネットワークと同様に、連結特徴量はMl個連結された遅延素子に入力される。遅延素子の個数は他のネットワークの個数とは独立に任意の個数を設定してもよい。遅延素子に接続しているスイッチ群210は、FFNN200の入力層にどの時刻の連結特徴量を入力するかを決める。このスイッチ群210のオンオフパターン(すなわちタイミングパターン)も、他のネットワークのオンオフパターンとは独立に任意に設定しても良い。
【0038】
図2の場合、c
t、c
t-2、c
t-Mlの3つを結合したベクトルをFFNN200に入力するようになっている。入力層のノード数Plは入力特徴量x
l,t∈R
Pl×1の要素数であり、Pl=(D+R)×(オンとなるスイッチの数)で表される。
図2では、x
l,t=[c
t
T c
t-2
T c
tーMl
T]
T=[c
1,t,・・c
5,t,c
1,t-2,・・c
5,t-2,c
1,t-Ml,・・c
5,t-Ml]
Tとなり、入力層のノード数はPl=15となる。
【0039】
第l段残差ネットワークの隠れ層のノード数をQlとして、入力層から隠れ層への全結合の重み行列をW
l∈R
Ql×Pl、隠れ層でのバイアスベクトルをb
l∈R
Ql×1、そしてベクトルの要素毎に演算を行う活性化関数をh(・)とすると、隠れ層の出力ベクトルz
l,t∈R
Ql×1は、以下のような式で算出される。
z
l,t=h(W
l・x
l,t+b
l)
図2の例では、隠れ層のノード数はQl=9としている。次に出力層のノード数はRであるから、隠れ層から出力層への全結合の重み行列をβ
l∈R
Ql×Rとすると、出力層の出力ベクトルp
l,t∈R
R×1は以下の式で求められる。
p
l,t
T=z
l,t
T・β
l
【0040】
第l段残差ネットワークの出力特徴量ベクトルyl,tは、yl,t=yl-1,t+pl,tで得られる。すなわち、出力層の出力ベクトルpl,tと直下のネットワークの出力ベクトルyl-1,tの和で算出される。
【0041】
次に、基部ネットワークの上に(L-1)段の残差ネットワークを積み重ねて構築したネットワークのパラメータ{Wl,bl,βl|l=1,...L}を求める計算手順について説明する。
【0042】
入力層ー隠れ層間のパラメータ{Wl,bl|l=1,...L}を以下のように設定する。ここで、入力層のノード数をPl、隠れ層のノード数をQlとして、入力層から隠れ層への全結合の重み行列をWl=[wl,1,...wl,Ql]T∈RQl×Plで表す。
【0043】
まず、行列W
lの各要素に、正規分布N(0,1)に従う乱数を代入する。Ql≦Plの場合、w
l,j
Tw
l,k=δ
j,k(1≦j,k≦Ql)となるようにグラムシュミット直交法などを用いて正規直交化する。ここでδ
j、kはクロネッカーのデルタを表し、j=kのとき1、その他は0の値をとる。Ql>Plの場合、行列W
lの行ベクトルw
l,jをPl毎のブロック{w
l,j|(m-1)Pl+1≦j≦mPl}に分割し、ブロック毎に上記と同様に正規直交化を実行する。ここでmは、以下のような値である。
【数1】
余りがある場合(Ql mod Pl≧1)は、以下のような余った行ベクトルを同様に正規直交化する。
【数2】
バイアスベクトルb
l∈R
Ql×1は、各要素に正規分布N(0,1)に従う乱数を代入し、b
l
Tb
l=1(1≦l≦L)となるようにノルムの正規化を行う。以上のように、入力層-隠れ層間のパラメータ{W
l,b
l|l=1,...L}は学習データとは全く無関係に設定される。
【0044】
隠れ層ー出力層間のパラメータ{βl|l=1,...L}は例えば非特許文献4の方法を用いて以下のように計算する。基部ネットワークの場合、隠れ層の入力ベクトルz1,t∈RQ1×1に対する出力層の出力ベクトルy1,t∈RR×1をy1,t
T=z1,t
T・β1で求める。
【0045】
残差ネットワークの場合、隠れ層の入力ベクトルzl,t∈RQl×1に対する出力層の出力ベクトルpl,t∈RR×1をpl,t
T=zl,t
T・βlで求める。基部ネットワークと残差ネットワークとで、出力ベクトルの変数名が異なるだけで、パラメータβlの求め方は全く同じになるため、以下では残差ネットワークを例にして説明する。また簡単化のために添え字lを省略する。
【0046】
出力ベクトルp
tに対するターゲット特徴量のベクトルであるターゲットベクトルをr
t∈R
R×1とする。残差ベクトルe
t∈R
R×1を、e
t
T=r
t
T-p
t
T=r
t
Tーz
t
T・βと定義する。学習用の入力ベクトルz
tとターゲットベクトルr
tは、1≦t≦Nの範囲でN個あるとする。R=[r
1,...r
N]
T,Z=[z
1,...z
N]
T,E=[e
1,...e
N]
Tとおくと、上記の式はE=RーZ・βと表される。この関係を満たす条件付きで、過学習を防ぐための正則化項と残差項の和で表される評価関数を最小化するパラメータβを最適解として求める。
【数3】
ここで定数Cは正則化項と残差項のバランスを決めるパラメータである。この最適解は、以下の式で得られる。
【数4】
【0047】
ディープラーニングでは、全モデルパラメータや機械学習アルゴリズムの挙動を制御するハイパーパラメータなど極めて多くのパラメータを学習と検証を繰り返しながら最適化するため、GPU(Graphics Processing Unit)など高価な計算リソースと膨大な学習時間と電力消費を要することになる。これに対し本実施の形態に係るネットワークは、入力層-隠れ層間のパラメータを学習データとは独立な乱数に基づいて設定することにより、隠れ層ー出力層間の最適なパラメータを線形方程式の解として簡単に求められるようになっているため、高速な学習が可能となる。これにより計算能力の低いエッジデバイスで、オンライン学習やリアルタイム学習が可能となる。
【0048】
[ネットワークの構成の準最適化]
本実施の形態に係るネットワークを観測イベントである音響イベントの検知又は認識に利用する場合、音響イベントの受容域サイズを、検知又は認識対象となる音響イベントの平均的な継続時間に合わせることが望ましい。これは、受容域サイズが、音響イベントの平均的な継続時間を大幅に上回る場合、背景雑音などの観測特徴量も学習することになり検知又は認識の精度が劣化してしまうためである。また逆の場合は、音響イベントの観測特徴量を十分に利用できないため検知又は認識の精度が劣化するためである。
【0049】
本実施の形態に係るネットワークの受容域サイズは、簡単な解析により算出することができる。このため本実施の形態では、スイッチのオンオフパターンや積み重ねるネットワークの段数などを、恣意的に試行錯誤を繰り返すのではなく、検知又は認識対象の観測イベントの平均的な継続時間に基づき決定することができる。特に、基数bのべき乗パターンだけでなく、べき乗則の制約を受けない一般的なオンオフパターンによるネットワーク構成も含めた中で、準最適なネットワーク構成を自動的に選択可能となる。以下、このための情報処理システムの構成などについて説明する。
【0050】
図7に、準最適なネットワーク構成を有する学習済みネットワークを生成するための情報処理装置の機能構成例を示す。本情報処理装置300は、候補抽出部310と、RFテーブル格納部320と、学習データ格納部330と、学習処理部340と、モデル構築部350と、認識精度算出部360とを有する。
【0051】
学習データ格納部330は、各時刻における観測特徴量とターゲット特徴量との対を格納している。なお、例えば、ターゲット特徴量が所定の条件を満たすような値となる時間を計測することで、観測イベントの継続時間を計測し、平均継続時間、標準偏差等を算出しておく。なお、継続時間のヒストグラムなど、分布を表すデータを生成しておき、その分布を表すデータから、平均継続時間の代わりに用いる継続時間、標準偏差の代わりに用いる時間幅を決定するようにしても良い。平均継続時間及び標準偏差などについては、本情報処理装置300で算出するようにしても良いし、別途算出された結果を入力するようにしても良い。
【0052】
RFテーブル格納部320は、ネットワーク構成と受容域サイズとの関係を保持するRFテーブルを格納する。例えば、2のべき乗パターンでm段毎にスイッチのオンオフパターンを初期パターンから繰り返す場合には、ネットワークの積み上げ段数Lに対応する受容域サイズ(RFサイズ)は、
図8に示すような関係を有する。
図8において、縦軸は受容域サイズを表し、横軸は、ネットワークの積み上げ段数Lを表している。上で述べたように、受容域サイズは、以下のように表される。
RF
2
m(p
1・・・p
L)=1+Σ
l=1
LΔ
2
m(p
l)
【0053】
L=1は基部ネットワークのみのネットワークであり、m=1となっている。
図8では、このネットワークは、点801に対応する。ここで、基部ネットワークにおけるスイッチと同じオンオフパターンを採用した残差ネットワークを1段積み上げることでL=2にすると、点801から右方向に伸びる曲線上でL=2の点になる。この曲線上では、Δ
2
1(p
l)=2
(l-1) mod 1が受容域サイズとなる。
【0054】
L=2は基部ネットワークと残差ネットワークからなるネットワークである。m=2であれば、
図8では、このネットワークは点802に対応する。ここで、さらにスイッチのオンオフパターンを初期パターンに戻して残差ネットワークを1段追加すると、点802から右方向に伸びる曲線上でL=3の点になる。この曲線上では、Δ
2
2(p
l)=2
(l-1) mod 2が受容域サイズとなる。なお、この曲線上では、2段毎にスイッチのオンオフパターンが繰り返される。
【0055】
このように、L=mとなっているニューラルネットワークに対応する点が直線800上に並び、直線800上の各点から、その点のLをmに設定してスイッチのオンオフパターンを初期パターンに戻して積み上げることでLを増加させるネットワーク構成に対応する曲線が伸びるようになる。この曲線上ではm段毎にスイッチのオンオフパターンを初期パターンに戻すようにして残差ネットワークを積み上げる。
【0056】
例えば、ある観測イベントの平均継続時間が100であり、上下に1標準偏差の分の時間幅をとると、
図8における灰色のバンドとなる。このバンドに入る点に対応するネットワーク構成は、この観測イベントに対して好ましいネットワーク構成と推定される。
【0057】
3のべき乗パターンでm段毎にスイッチのオンオフパターンを初期パターンから繰り返す場合、ネットワークの積み上げ段数Lに対応する受容域サイズ(RFサイズ)は、
図9に示すような関係を有する。上で述べたように、受容域サイズは、以下のように表される。
RF
3
m(p
1・・・p
L)=1+Σ
l=1
LΔ
3
m(p
l)
【0058】
3のべき乗パターンであっても、
図8と同様に、L=mの直線がLの増加と共に伸び、直線上の各点から、スイッチのオンオフパターンを初期パターンに戻して積み上げることでLを増加させるネットワーク構成に対応する曲線が伸びるようになる。この曲線上ではm段毎にスイッチのオンオフパターンを初期パターン戻すようにして残差ネットワークを積み上げる。
図9でも、例えば、ある観測イベントの平均継続時間が100であり、上下に1標準偏差の分の時間幅をとると、灰色のバンドとなる。このバンドに入る点に対応するネットワーク構成は、この観測イベントに対して好ましいネットワーク構成と推定される。
【0059】
4のべき乗パターンでm段毎にスイッチのオンオフパターンを初期パターンから繰り返す場合、ネットワークの積み上げ段数Lに対応する受容域サイズ(RFサイズ)は、
図10に示すような関係を有する。上で述べたように、受容域サイズは、以下のように表される。
RF
4
m(p
1・・・p
L)=1+Σ
l=1
LΔ
4
m(p
l)
【0060】
4のべき乗パターンであっても、
図8と同様に、L=mの直線がLの増加と共に伸び、直線上の各点から、スイッチのオンオフパターンを初期パターンに戻して積み上げることでLを増加させるネットワーク構成に対応する曲線が伸びるようになる。この曲線上ではm段毎にスイッチのオンオフパターンを初期パターン戻すようにして残差ネットワークを積み上げる。
図10でも、例えば、ある観測イベントの平均継続時間が100であり、上下に1標準偏差の分の時間幅をとると、灰色のバンドとなる。このバンドに入る点に対応するネットワーク構成は、この観測イベントに対して好ましいネットワーク構成と推定される。
【0061】
このように、L,m,bの組み合わせで受容域サイズが決まるので、受容域サイズとネットワーク構成との対応関係をテーブル化しておく。
【0062】
なお、基数bのべき乗パターンでない、スイッチのオンオフパターンを採用する場合においても、予めサイズサイズとネットワーク構成の対応関係をテーブル化しておけば良い。
【0063】
候補抽出部310は、観測イベントの平均継続時間等に基づき、RFテーブル格納部320に格納されているデータから、本観測イベントについて候補となるネットワーク構成を抽出する。モデル構築部350は、抽出された候補となるネットワーク構成の各々の学習済みネットワークを構築して、候補の中から最適な学習済みネットワークを選択する処理を行う。この処理の際に、モデル構築部350は、学習処理部340と認識精度算出部360と連携する。学習処理部340は、学習データ格納部330に格納された学習データを用いてネットワークの学習処理を実行する。認識精度算出部360は、例えば学習データ格納部330に格納されているデータを用いて、構築されたネットワーク(すなわち学習済みネットワーク)の認識精度を算出する処理を実行する。
【0064】
次に、準最適なネットワーク構成を有する学習済みネットワークを生成する処理について
図11乃至
図15を用いて説明する。まず、候補抽出部310は、学習データ格納部330に格納されているデータを用いて、観測イベントの継続時間に関する統計量(例えば、平均継続時間、標準偏差など)を算出する(
図11:ステップS1)。本ステップは、観測イベントの平均継続時間、標準偏差などが入力される場合には省略される。
【0065】
次に、候補抽出部310は、観測イベントの平均継続時間に基づき、RFテーブル格納部320に格納されたRFテーブルから、候補となるモデル(すなわちネットワーク構成)を抽出する(ステップS3)。上で述べたように、例えば、平均継続時間にプラスマイナス1標準偏差分の時間幅を設定して、その時間幅に相当する受容域サイズの範囲に包含される受容域サイズを有するネットワーク構成を抽出する。すなわち、
図8乃至
図10で説明したバンドに入るようなネットワーク構成を抽出する。
【0066】
次に、モデル構築部350は、未処理の候補モデルを1つ特定する(ステップS5)。そして、モデル構築部350は、特定した候補モデルが、べき乗の制約を有するモデル(すなわち、べき乗パターンのモデル)であるか否かを判断する(ステップS7)。べき乗の制約を有するモデルの場合には、モデル構築部350は、第1モデル構築評価処理を実行する(ステップS9)。そして処理はステップS13に移行する。一方、べき乗の制約を有するモデルではない場合、モデル構築部350は、第2モデル構築評価処理を実行する(ステップS11)。そして処理はステップS13に移行する。
【0067】
その後、モデル構築部350は、未処理の候補モデルが存在しているか否かを判断する(ステップS13)。未処理の候補モデルが存在している場合には、処理はステップS5に戻る。一方、未処理の候補モデルが存在していない場合には、モデル構築部350は、各候補モデルから構築された学習済みネットワークのうち、その認識精度に基づき、採用すべき学習済みネットワークを選択する(ステップS15)。例えば、最高認識精度の学習済みネットワークを選択する。
【0068】
このような処理を実行することで、観測イベントの継続時間に応じた準最適な学習済みニューラルネットワークを生成できるようになる。
【0069】
次に、
図12及び
図13を用いて、第1モデル構築評価処理について説明する。まず、モデル構築部350は、候補モデルのb、m及びLを特定する(ステップS21)。そして、モデル構築部350は、bに基づき基部ネットワークを構築する(ステップS23)。b=2であれば、
図4のようなスイッチのオンオフパターンを採用することになり、基部ネットワークなのでその初期パターンを採用する。b=3であれば、
図6のようなスイッチのオンオフパターンを採用することになり、基部ネットワークなのでその初期パターンを採用する。あとは、
図1に示すような基部ネットワークの基本構成を採用する。ノード数その他についても基本構成を設定しておき、そのまま採用する。
【0070】
さらに、モデル構築部350は、学習処理部340に、学習データ格納部330に格納されている学習データで基部ネットワークの学習をN通り行わせ、認識精度算出部360に、学習データ格納部330に格納されているデータを用いて、学習済みの基部ネットワークの各々の認識精度を算出させる(ステップS25)。学習において乱数でパラメータを設定する部分があるので、N通りの学習を行って、それぞれについて認識精度を算出するものである。そして、モデル構築部350は、N個の学習済み基部ネットワークのうち認識精度が最高のものを選択する(ステップS27)。その後処理は端子Aを介して
図13の処理に移行する。
【0071】
図13の処理の説明に移行して、モデル構築部350は、l=2を設定する(ステップS29)。そして、モデル構築部350は、b及びmに基づき、第l段の残差ネットワークを構築する(ステップS31)。基数bにおけるスイッチのオンオフパターンの(l mod m)番目のパターンを採用する。あとは、
図2に示すような残差ネットワークの基本構成を採用する。ノード数その他についても基本構成を設定しておき、そのまま採用する。
【0072】
そして、モデル構築部350は、学習処理部340に、学習データ格納部330に格納されている学習データで第l段残差ネットワークの学習をN通り行わせる(ステップS33)。このステップにおけるNは、ステップS25のNとは異なる値であっても良い。そして、モデル構築部350は、(l-1)段学習済みネットワークに、各第l段学習済みネットワークを積み上げてN個のl段学習済みネットワークを構築し、認識精度算出部360に、それぞれの認識精度を算出させる(ステップS35)。そして、モデル構築部350は、N個のl段学習済みネットワークのうち、認識精度が最高のものを選択する(ステップS37)。
【0073】
その後、モデル構築部350は、l=l+1と設定する(ステップS39)。そして、モデル構築部350は、l≦Lであるか否かを判断する(ステップS41)。l≦Lであれば、処理はステップS31に戻る。一方、l>Lとなった場合には、処理は呼び出し元の処理に戻る。
【0074】
このような処理を行えば、べき乗パターンで候補となった特定のネットワーク構成について適切に学習されたL段の学習済みネットワークが得られるようになる。
【0075】
次に、
図14及び
図15を用いて、第2モデル構築評価処理について説明する。第2モデル構築評価処理を実行する場合には、べき乗パターンに基づくスイッチのオンオフパターンではないので、予め各段についてスイッチのオンオフパターンが定義されているものとする。
【0076】
まず、モデル構築部350は、候補モデルにおける1段目のスイッチのオンオフパターンに基づき、基部ネットワークを構築する(ステップS51)。
図1に示すような基部ネットワークの基本構成に対して、1段目のスイッチのオンオフパターンを適用する。
【0077】
さらに、モデル構築部350は、学習処理部340に、学習データ格納部330に格納されている学習データで基部ネットワークの学習をN通り行わせ、認識精度算出部360に、学習データ格納部330に格納されているデータを用いて、学習済みの基部ネットワークの各々の認識精度を算出させる(ステップS53)。学習において乱数でパラメータを設定する部分があるので、N通りの学習を行って、それぞれについて認識精度を算出する。そして、モデル構築部350は、N個の学習済み基部ネットワークのうち認識精度が最高のものを選択する(ステップS55)。その後処理は端子Bを介して
図15の処理に移行する。
【0078】
図15の処理の説明に移行して、モデル構築部350は、l=2を設定する(ステップS57)。そして、モデル構築部350は、l段目のスイッチのオンオフパターンに基づき、第l段の残差ネットワークを構築する(ステップS59)。
図2に示すような残差ネットワークの基本構成に対して、l段目のスイッチのオンオフパターンを適用する。なお、べき乗パターンの場合と同じようにパターン繰り返しのためのmを設定する場合もある。この場合には、(l mod m)番目のオンオフパターンを採用する。
【0079】
そして、モデル構築部350は、学習処理部340に、学習データ格納部330に格納されている学習データで第l段残差ネットワークの学習をN通り行わせる(ステップS63)。このステップにおけるNも、ステップS53のNとは異なる値であっても良い。そして、モデル構築部350は、(l-1)段学習済みネットワークに、各第l段学習済みネットワークを積み上げてN個のl段学習済みネットワークを構築し、認識精度算出部360に、それぞれの認識精度を算出させる(ステップS63)。そして、モデル構築部350は、N個のl段学習済みネットワークのうち、認識精度が最高のものを選択する(ステップS65)。
【0080】
その後、モデル構築部350は、l=l+1と設定する(ステップS67)。そして、モデル構築部350は、l≦Lであるか否かを判断する(ステップS69)。l≦Lであれば、処理はステップS59に戻る。一方、l>Lとなった場合には、処理は呼び出し元の処理に戻る。
【0081】
このような処理を行えば、べき乗パターンではないネットワーク構成の候補となった特定のネットワーク構成について適切に学習されたL段の学習済みネットワークが得られるようになる。
【0082】
このような処理を実行することで、観測イベントの検知又は認識において準最適な学習済みのネットワークを自動的に生成することが出来るようになる。
【0083】
[実施の形態2]
[本実施の形態に係るネットワークの構成例]
第1の実施の形態では、ネットワークの受容域サイズを観測イベントの平均的な継続時間に合わせるようにしていた。しかし、検知又は認識対象の観測イベントの継続時間の分布が、正規分布のように平均的な継続時間を中心とした1ピークの分布であれば良いが、複数のピークを有するような分布を有する場合には、異なる受容域サイズを有する複数のネットワークを用い、且つ各ネットワークの出力を統合することが好ましい。
【0084】
本実施の形態では、例えば、複数の継続時間に対応する複数の受容域サイズの各々を実現するネットワークにおける基部ネットワーク及び残差ネットワークの全出力特徴量を重み付けして統合して最終的な出力特徴量を生成する全結合線形ネットワークを、出力段に設けることにする。一般的には乱数で重みを決定し非線形活性化関数を通した結果を全結合線形ネットワークに入力する隠れ層が1層のFFNNを、出力段に設けてもよい。更に、そのFFNNを複数段重ねたネットワークを出力段に設けてもよい。
【0085】
このようなネットワークの一例を
図16に示す。
図16の例では、例えば2のべき乗パターンで且つ分布のピークである第1の継続時間に対応する受容域サイズRF1のネットワーク1600と、例えば3のべき乗パターンで且つ分布のピークである第2の継続時間に対応する受容域サイズRF2のネットワーク1610と、ネットワーク1600の各段の出力特徴量とネットワーク1610の各段の出力特徴量とを入力とする全結合線形ネットワークである統合ネットワーク1620とを有する。このように各段の出力特徴量を用いることで、継続時間の分布に広がりがある場合でも対応可能となる。但し、計算量を削減するために、ネットワーク1600の出力特徴量とネットワーク1610の出力特徴量とを入力とする統合ネットワーク1620を追加するようにしても良い。
【0086】
また、継続時間の分布においてピークが複数ある場合であっても、選ばれた複数のネットワークに、ネットワーク構造上包含関係がある場合には、
図17のようなネットワーク構成を採用するようにしても良い。例えば、
図17のように、分布のピークである第1の継続時間に対応する受容域サイズRF1の第1ネットワーク1700が得られ、分布のピークである第2の継続時間に対応する受容域サイズRF2の第2ネットワークが得られたが、この第2ネットワークが第1ネットワーク1700の2段目までのネットワークと同一構造である場合、第1ネットワーク1700の各段の出力特徴量を入力とする全結合線形ネットワークである統合ネットワーク1720を連結することとする。この場合も、2段目の出力特徴量と最終段の出力特徴量とを入力とする統合ネットワーク1720を採用するようにしても良い。
【0087】
より具体的な例を
図18を用いて説明する。ここで、分布のピーク1に対応する継続時間1と分布のピーク2に対応する継続時間2の2つの継続時間を持つ観測イベントを考える。それぞれの継続時間について準最適なネットワークを、第1の実施の形態で説明した処理を実行して選択する。例えば、継続時間1に関して選択したネットワークを選択モデルA1、継続時間2に関して選択したネットワークを選択モデルA2とする。この選択モデルA1及びA2は、いずれも同じΔ
2
5(p
l)の曲線上において、それぞれ6段目と19段目のモデルとなる。このままでは、1つの音響イベントの検出又は認識結果が別々に、6段目と19段目の2つモデルから得られることになる。このような場合には、受容域サイズが大きい方を採用して統合ネットワーク1720を追加することで統合を行う。
【0088】
一方、継続時間1に関して選択したネットワークが選択モデルB1であり、継続時間2に関して選択したネットワークが選択モデルB2であるとする。この場合は、選択モデルB1は、Δ
2
5 (p
l)の曲線上の16段目のモデルで、選択モデルB2はΔ
2
3(p
l)の曲線上の13段目のモデルとなる。この場合、このように包含関係が無い場合には、
図16に示すように、2つのネットワークを採用してさらに統合ネットワークを追加することで統合する。
【0089】
なお、一般的にL段ネットワークを積み上げる場合、第l段ネットワークの出力特徴量のベクトルyl,t∈RR×1 (l=1,..L)、全結合線形ネットワークの出力特徴量ベクトルyF,t∈RR×1の次元数は共に出力層のノード数Rとなる。全結合線形ネットワークの結合入力特徴量ベクトルは、yC,t
T=[y1,t
T,y2,t
T,..yF,t
T]∈R1×RLで表される。
【0090】
学習データの結合入力特徴量ベクトルyC,tと全結合線形ネットワークの出力特徴量ベクトルyF,t、そしてターゲット特徴量のベクトルrtは、1≦t≦Nの範囲でN個あるとする。ここで、YC=[yC,1,..yC,N]T∈RN×RL、YF=[yF,1,..yF,N]T∈RN×R、そして全結合線形ネットワークのパラメータをγ∈RRL×Rとを行列で表すと、以下のようになる。
YF=YC・γ
【0091】
そして、ターゲットの行列R=[r1,..rN]T∈RN×Rで表し、ターゲット特徴量のベクトルと全結合線形ネットワークの出力ベクトルとの誤差を行列E=[e1,..eN]T∈RN×Rで表すと、以下のようになる。
E=R-YF=R-YC・γ
【0092】
この関係を満たす条件付きで、過学習を防ぐための正則化項と残差項の和で表される評価関数を最小化するパラメータγを最適解として求める。
【数5】
ここで定数Cは正則化項と残差項のバランスを決めるパラメータである。この最適解は、以下のように表される。
【数6】
【0093】
[ネットワークの構成の準最適化]
本実施の形態に係る処理を行う情報処理装置は
図7に示したものと同様である。そして、
図19及び
図20に示す処理を実行する。まず、候補抽出部310は、学習データ格納部330に格納されているデータを用いて、観測イベントの継続時間の分布データ(例えば、ピークの継続時間、標準偏差など)を算出する(
図19:ステップS101)。本ステップは、観測イベントの継続時間の分布におけるピークの継続時間、標準偏差などが入力される場合には省略される。
【0094】
次に、候補抽出部310は、継続時間の分布においてピークが1つか否かを判断する(ステップS103)。ピークが複数の場合には、処理は端子Cを介して
図20の処理に移行する。一方、ピークが単数である場合には、モデル構築部350は、第1の実施の形態で説明した準最適化処理を実行する(ステップS105)。より具体的には、
図11のステップS3乃至S15を実行する。
【0095】
そして、モデル構築部350は、継続時間の分布における標準偏差が閾値以上であるか否かを判断する(ステップS107)。継続時間の分布が、1つのピークで標準偏差が閾値未満であるような広がりのない分布である場合には、第1の実施の形態と実質同じであるので、処理は終了する。一方、継続時間の分布が、1つのピークであるが標準偏差が閾値以上であって広がりのある分布の場合には、モデル構築部350は、ステップS105で生成された学習済みネットワークに各段の出力特徴量を入力とする統合ネットワークを連結し、学習処理部340によって統合ネットワークを学習することで、最終的な学習済みネットワークを生成する(ステップS109)。このようにすれば、このような広がりのある分布であっても、認識精度の高い学習済みネットワークを生成できるようになる。なお、ステップS109では、統合ネットワークをN通り学習して認識精度が最高となる統合ネットワークを採用するようにしても良い。
【0096】
図20の処理の説明に移行して、継続時間の分布においてピークが複数ある場合には、モデル構築部350は、未処理のピークに係る継続時間を1つ特定する(ステップS111)。そして、モデル構築部350は、第1の実施の形態で説明した準最適化処理を実行する(ステップS105)。より具体的には、
図11のステップS3乃至S15を実行する。
【0097】
そして、モデル構築部350は、未処理のピークが存在するか否かを判断し(ステップS115)、未処理のピークが存在する場合には処理はステップS111に戻る。一方、未処理のピークが存在しない場合には、モデル構築部350は、生成された複数の学習済みネットワークにおいて、構造上の包含関係が存在するか否かを判断する(ステップS117)。
図17に示すような構造を採用すべきか否かを判断するものである。生成された複数の学習済みネットワークにおいて構造上の包含関係が存在しない場合には、全ての学習済みネットワークを採用して、処理はステップS121に移行する。
【0098】
一方、生成された複数の学習済みネットワークにおいて構造上の包含関係が一部にでもある場合には、モデル構築部350は、構造上包含関係にある学習済みネットワークのうち長い方を採用する(ステップS119)。構造上包含関係にない学習済みネットワークについてはそのまま採用する。そして、モデル構築部350は、採用された学習済みネットワークの各段の出力特徴量を入力とする統合ネットワークを連結し、学習処理部340によって統合ネットワークを学習することで、最終的な学習済みネットワークを生成する(ステップS121)。そして処理は端子Dを介して終了する。なお、ステップS121でも、統合ネットワークをN通り学習して認識精度が最高となる統合ネットワークを採用するようにしても良い。
【0099】
また、準最適な学習済みネットワークの各段の出力特徴量を統合ネットワークの入力とするか、準最適な学習済みネットワークの最終的な出力特徴量を統合ネットワークの入力とするかは、予め設定しておけば良い。また、構造上包含関係にある学習済みネットワークのうち採用されなかった方に相当する段の出力特徴量と、採用された方の学習済みネットワークの最終的な出力特徴量とを統合ネットワークの入力とするか、採用された方の学習済みネットワークの各段の出力特徴量を統合ネットワークの入力とするかも、予め設定しておけばよい。
【0100】
このような処理を実行することで、観測イベントの継続時間の分布に応じた適切な学習済みネットワークを生成できるようになる。
【0101】
[実施例]
作業音(すなわち気導音)に基づいた作業行動認識実験として、9種類の生活音に基づいた生活行動の認識実験を行った。生活行動は、電話、料理、皿洗い、食事、掃除、来訪者対応、テレビ視聴、仕事の9種類である。生活音は16kHzサンプリング、16ビット量子化のディジタル信号で、高域強調フィルタを通した後、窓幅30ms、窓移動幅15msでFFT(Fast Fourier Transformation)を計算し、40次元のメルフィルタバンク特徴量時系列を算出した。学習には4時間30分(各生活行動30分)の生活音を用い、テストには2時間15分(各生活行動15分)の生活音を用いた。
【0102】
基部ネットワークの上に残差ネットワークが11段積み上がるまで、各ネットワークの学習を繰り返した。記憶機構に接続したスイッチのオンオフパターンは、
図4に示した2のべき乗パターンを使用した。右端のオンスイッチの時刻と左端のオンスイッチの時刻間の時間差は、l=1,..,12のそれぞれに対して、Δ(p
l)=2
l-1と単調増加するパターンを使用した。10段まで残差ネットワークを積み上げたときの受容域サイズは1024で、これを時間に換算すると約15秒である。11段まで残差ネットワークを積み上げる場合の受容域サイズは2048(約30秒)、そして12段まで残差ネットワークを積み上げる場合は、4096(約1分)となる。各段数における受容域サイズを時間に換算した結果を
図21に示す。横軸はネットワークの積み上げ段数Lであり、縦軸は秒である。
【0103】
隠れ層のノード数は全12段のネットワークで同一数とし、本実験では1000個から10000個まで1000個刻みの10種類とした。それぞれのノード数について全12段のネットワークの学習とテストを行った。
図22に、F値で算出した認識結果を示す。
図22において横軸は、学習により調整可能なネットワークパラメータの個数を表しており、縦軸はF値を表す。本実施例の場合、入力層-隠れ層間の全結合重み行列{W
l|l=1,...,12}学習データに関係なく乱数から設定されるため、調整可能なネットワークパラメータの個数には含めていない。学習により調整されるのは、隠れ層ー出力層間の全結合重み行列{β
l|l=1,...,12}のみである。
【0104】
本実施の形態のネットワークは、残差ネットワークへの入力特徴量を、直下の基部ネットワーク又は残差ネットワークの入力特徴量(音響特徴量などの観測特徴量)と出力特徴量(ターゲットを推論した特徴量)を組み合わせていることが1つの特徴点となっている。この効果を確かめるために、オンオフパターンは上記実験と同じであるが、残差ネットワークへの入力特徴量を直下のネットワークの入力特徴量(音響特徴量などの観測特徴量)のみとする実験を行った。その結果を
図23に示す。比較しやすいように本実施の形態に係るネットワークの結果(
図22)も
図23に示している。このように、本実施の形態の方が、調整可能なネットワークパラメータが同レベルでも、F値が高くなっており、効果が認められる。
【0105】
本実施の形態に係るネットワークは、有限個の遅延素子を直列に接続した記憶機構を設置し、その各パスに接続したスイッチをオンオフすることで、FFNNへ入力する特徴量を記憶した範囲内で任意に選択可能としている。そして、そのオンオフパターンが基部ネットワークおよび各残差ネットワークで異なる設定を可能である。このような効果を確かめるために、残差ネットワークへの入力特徴量を、直下の基部ネットワーク又は残差ネットワークの入力特徴量(音響特徴量などの観測特徴量)と出力特徴量(ターゲットを推論した特徴量)を組み合わせている点は本実施の形態に係るネットワークの実験と同じであるが、オンオフパターンを全ネットワークで同一パターンとする実験を行った。
【0106】
本実験でのオンオフパターンは、現時刻tから時刻(t-102)までの連続する103個の特徴量を全てFFNNに入力するパターンを、全10段のネットワークに適用した。この時、受容域サイズは1021となる。その結果を
図24に示す。比較しやすいように本実施の形態に係るネットワークの結果(
図22)も
図24にも表している。これを見ても、本実施の形態の方に係るネットワークの方がF値が高くなっており、効果が認められる。
【0107】
以上の3つの実験で使用したネットワークは全て、残差ネットワークのFFNNが、ターゲット特徴量を直接推論するように学習するのではなく、ターゲット特徴量から1つ下段のネットワークがターゲット特徴量を推論した出力特徴量を差し引いた残差特徴量を推論するように学習するようになっている。そして、1つ下段のネットワークがターゲットを推論した出力特徴量に、残差ネットワークのFFNNが残差特徴量を推論した特徴量を加算することで、残差ネットワークがターゲットを推論した出力特徴量を求めるようになっている。そして、上記の実験結果から、3つの特徴点を全て備えている本実施の形態のネットワークの認識精度が最も良いことが確認できる。
【0108】
また、CNN(Convolutional Neural Network)との比較実験結果を
図25に示す。本実施の形態に係るネットワークの受容域サイズが1024という条件が合うように、(特徴量40次元)×(受容域サイズ1024)のメルフィルタバンク特徴量時系列を画像とみなし、CNNを学習した。
図25の例では、調整可能なパラメータ数が少ない場合にはCNNの方が良い場合があるが、調整可能なパラメータ数が多くなると、CNNは過学習を起こし認識精度が劣化する。これに対して本実施の形態のネットワークは、ネットワークの積み上げ段数を増やしてパラメータ数が多くなっても、F値は単調増加しており、本実施の形態の、認識精度および汎化性能に関する効果が認められる。
【0109】
さらに、体導音に基づいた手作業の認識実験として、11種類の手作業の認識実験を行った。実験に用いた手作業は、ボールペンでの円描画、ドリンクカップの蓋の開け閉め、キーボードタイピング、マウスクリック、マウス移動、マウスホイールの回転、紙の握りしめ、ハサミで紙切り、ホチキス止め、ビニールの握りしめ、安静状態の11種類である。体導音は8kHzサンプリング、16ビット量子化でA/D変換し、高域強調フィルタを通した後、窓幅30ms、窓移動幅15msでFFTを計算し、40次元のメルフィルタバンク特徴量時系列を算出した。モデル学習には22分(各手作業2分)の体導音を用い、テストには11分(各手作業1分)の体導音を用いた。基部ネットワークの上に残差ネットワークが11段積み上がるまで、各ネットワークの学習を繰り返した。記憶機構に接続したスイッチのオンオフパターンは、
図4に示した2のべき乗パターンを使用した。各積み上げ段数における受容域サイズを時間に換算した結果は先に示した
図21と同じである。
【0110】
隠れ層のノード数は全12段のネットワークで同一数とし、本実験では1000個から10000個まで1000個刻みの10種類とした。そして、それぞれのネットワークについて学習とテストを行った。F値で算出した認識結果を
図26に示す。
図26において横軸はネットワークの積み上げ段数Lを表し、縦軸はF値を表す。各積み上げ段数において、10本の棒グラフが1000個から10000個までの10種類の隠れ層のノード数に対する認識結果を示している。このように、ネットワーク段数が増加すると、F値が上昇するが、8段程度で飽和している。一方、隠れ層のノード数が増加すると効果があるのはネットワークの段数が少ない場合である。
【0111】
以上、本発明の実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、
図7に示した情報処理装置の機能構成例は一例であって、プログラムモジュール構成とは一致しない場合もある。また、複数の機能ブロックを1つの機能ブロックに統合したり、1つの機能ブロックを複数の機能ブロックに分けるようにしても良い。また、処理フローも一例であって、処理結果が変わらない限り、複数のステップを並列に実行したり、実行順番を入れ替えても良い。
さらに、情報処理装置300は、1台のコンピュータで実装される場合もあれば、複数台のコンピュータで実装される場合もある。
【0112】
なお、上で述べた情報処理装置300は、コンピュータ装置であって、
図27に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。なお、HDDはソリッドステート・ドライブ(SSD:Solid State Drive)などの記憶装置でもよい。オペレーティング・システム(OS:Operating System)及び本発明の実施の形態における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
【0113】
なお、上で述べたような処理を実行することで用いられるデータは、処理途中のものであるか、処理結果であるかを問わず、メモリ2501又はHDD2505等の記憶装置に格納される。
以上述べた実施の形態をまとめると以下のようになる。
【0114】
本実施の形態に係る学習済みネットワークは、(A)予め定められたタイミングパターンに基づき特定される時刻における観測特徴量を入力とする第1のフィードフォワードニューラルネットワークを含む第1のネットワーク(例えば基部ネットワーク)と、(B)予め定められたタイミングパターンに基づき特定される時刻における、1つ下段のネットワークの出力特徴量と観測特徴量との連結である連結特徴量を入力とする第2のフィードフォワードニューラルネットワークを含み、当該第2のフィードフォワードニューラルネットワークの出力と上記1つ下段のネットワークの出力特徴量との加算により出力特徴量を算出する加算部を各々含む(L-1)段(Lは2以上の整数)の第2のネットワーク(例えば残差ネットワーク)とを含み、コンピュータによって実行可能な学習済みネットワークである。そして、予め定められたタイミングパターンは、第1乃至第m(1以上mはL以下の整数)のタイミングパターンを含み、第1及び第2のネットワークの各々に、当該ネットワークの、最下段からの段数x(1≦x≦L)に基づき、第1乃至第mのタイミングパターンのうち第(x mod m)のタイミングパターンを適用するものである。
【0115】
このような構造を有するネットワークであれば、第2のネットワークで当該第2のネットワークより下段における推論結果の偏りや誤りを効果的に修正できるようになり、推論精度を高めることが出来るようになる。また、様々なタイミングパターンの特徴量を用いて推論を行うことが出来るようになっているので、学習効率も高くなる。なお、タイミングパターンのバリエーションに応じて、構築対象ネットワーク全体において用いられる観測特徴量の最も古い時刻と最も新しい時刻との差である受容域サイズが幅広く変化するので、観測イベントに応じてより好ましい構成のネットワークを決めやすくなっている。
【0116】
なお、第1及び第2のネットワークの各々は、当該ネットワークのためのタイミングパターンで特定される時刻における観測特徴量を保持するためのメモリ領域(例えば記憶機構)を用いるようにしても良い。このようにすれば、任意の時刻の観察特徴量を活用しやすくなる。
【0117】
また、上記第1乃至第mのタイミングパターンのうちの第y(1≦y≦m)のタイミングパターンが、観測特徴量を用いるべき最も新しい時刻と最も古い時刻との差が(b-1)×by-1であり、均等間隔でb個の時刻を含むようにしても良い。基数bのべき乗パターンに対応できるようになる。
【0118】
さらに、上記学習済みネットワークが、最上段のネットワークの出力特徴量と、第1のネットワーク及び最上段のネットワーク以外の第2のネットワークの出力特徴量のうち少なくとも1つの出力特徴量とを入力とする第3のネットワーク(例えば統合ネットワーク)をさらに含むようにしても良い。このような構成を含む方が推論精度が高い場合もあるためである。
【0119】
また、上記のような学習済みネットワークを複数含み、各学習済みネットワークにおける少なくとも最上段のネットワークの出力特徴量を入力とする第3のネットワーク(例えば統合ネットワーク)をさらに含み、コンピュータにより実行可能な学習済みネットワークであっても良い。このような構成の方が、単体の学習済みネットワークよりも推論精度が高い場合もあるためである。
【0120】
また、本実施の形態に係る生成方法では、予め定められたタイミングパターンに基づき特定される時刻における観測特徴量を入力とする第1のフィードフォワードニューラルネットワークを含む第1のネットワークと、予め定められたタイミングパターンに基づき特定される時刻における、1つ下段のネットワークの出力特徴量と観測特徴量との連結である連結特徴量を入力とする第2のフィードフォワードニューラルネットワークを含み、当該第2のフィードフォワードニューラルネットワークの出力と1つ下段のネットワークの出力特徴量との加算により出力特徴量を算出する加算部を各々含む(L-1)段(Lは2以上の整数)の第2のネットワークとを含むネットワークであって、予め定められたタイミングパターンは、第1乃至第m(mは1以上L以下の整数)のタイミングパターンを含み、第1及び第2のネットワークの各々に、当該ネットワークの、最下段からの段数x(≦L)に基づき、第1乃至第mのタイミングパターンのうち第(x mod m)のタイミングパターンを適用するネットワークを構築対象ネットワークとしている。そして、本生成方法は、このような構築対象ネットワークについて、(A)観測特徴量の元となる観測イベントの継続時間と、当該構築対象ネットワーク全体において用いられる観測特徴量の最も古い時刻と最も新しい時刻との差である受容域サイズとに基づき、構築対象ネットワークの構成について複数の候補を特定するステップと、(B)複数の候補の各々について学習済みネットワークを生成するステップと、(C)生成された学習済みネットワークの推論精度に基づき、用いるべき学習済みネットワークを選択するステップとを含む。
【0121】
観測イベントの継続時間に応じた受容域サイズを有するネットワークの方が、適切な推論を行うことができるため上記のような処理で学習済みネットワークを生成する。なお、上記のような特性を有するネットワークであればネットワーク構造と受容域サイズとの関係が明らかなので、容易に処理を行うことが出来る。
【0122】
また、上記構築対象ネットワークの構成について複数の候補を特定するステップが、継続時間を含む所定の時間幅に対応する所定幅に入る受容域サイズを有することになる構築対象ネットワークのm及びLの組み合わせを候補として特定するステップを含むようにしても良い。このようにすれば、適切に候補となるネットワークを選択できるようになる。
【0123】
さらに、上で述べた受容域サイズは、最下段から最上段までの各ネットワークにおいて観測特徴量を用いるべき最も新しい時刻と最も古い時刻との差を構築対象ネットワークの全体について加算した結果と1との加算により算出される場合もある。
【0124】
さらに、上で述べた第1乃至第mのタイミングパターンのうちの第y(1≦y≦m)のタイミングパターンが、観測特徴量を用いるべき最も新しい時刻と最も古い時刻との差が(b-1)×by-1であり、均等間隔でb個の時刻を含むようにしても良い。また、上で述べた受容域サイズが、1+ΣL
i(b-1)×b(i-1) mod mで算出される場合もある。
【0125】
さらに、上記生成方法は、観測特徴量の元となる観測イベントに考慮すべき複数の継続時間が存在する場合、(D)当該複数の継続時間の各々について、上記複数の候補を特定するステップと、上記複数の候補の各々について学習済みネットワークを生成するステップと、上記学習済みネットワークを選択するステップとを実行し、(E)選択された学習済みネットワークの少なくとも出力特徴量を統合する第3のネットワークを学習するステップをさらに含むようにしても良い。
【0126】
観測イベントによっては継続時間の分布においてピークが1つの場合もあれば複数の場合もある。複数の場合には、このような処理を実行することで、推論精度の高い学習済みネットワークを生成できるようになる。例えば、
図16で示したような学習済みネットワークを生成するものである。
【0127】
なお、選択された学習済みネットワークのうち、第1の学習済みネットワークが、第2の学習済みネットワークを包含する場合、第3のネットワークが、第1の学習済みネットワークの出力特徴量と、第1の学習済みネットワークにおいて第2の学習済みネットワークに相当する段の出力特徴量とを少なくとも入力とするネットワークであっても良い。
【0128】
継続時間の分布において複数のピークが存在する場合においても、特別な場合には、上記のような学習済みネットワークが適切であるためである。なお、例えば
図17で示したような学習済みネットワークを生成するものである。
【0129】
選択された前記学習済みネットワークのうち、第1の学習済みネットワークが、第2の学習済みネットワークを包含しない場合、第3のネットワークが、第1の学習済みネットワークの出力特徴量と、前記第2の学習済みネットワークの出力特徴量とを少なくとも入力とするネットワークであってもよい。
【0130】
以上述べた生成方法をコンピュータに実行させるためのプログラムを作成することができて、そのプログラムは、様々な記憶媒体に記憶される。
【0131】
また、上で述べたような生成方法を実行する情報処理装置は、1台のコンピュータで実現される場合もあれば、複数台のコンピュータで実現される場合もあり、それらを合わせて情報処理システム又は単にシステムと呼ぶものとする。
【符号の説明】
【0132】
300 情報処理装置
310 候補抽出部 320 RFテーブル格納部
330 学習データ格納部 340 学習処理部
350 モデル構築部 360 認識精度算出部