【新規性喪失の例外の表示】特許法第30条第2項適用 平成27年8月26日 Machine Learning Summer School 2015 Kyoto(MLSS 2015 Kyoto)(機械学習サマースクール2015京都)にて公開 平成27年8月29日発行 Volume 9284 of the series Lecture Notes in Computer Science「Machine Learning and Knowledge Discovery in Databases(European Conference,ECML PKDD 2015,Porto,Portugal,September 7−11,2015,Proceedings,Part I)」pp577−593 (コンピュータ科学における講義ノートシリーズ 第9284巻「データベースにおける機械学習及び知識探究(ポルトガル、ポルト、2015年9月7日〜11日開催、ECML PKDD 2015 欧州会議 論文集 第I部)」577−593頁 にて公開
【文献】
河原 吉伸ほか,構造正則化学習に基づく代表事例選択,人工知能基本問題研究会資料,2014年 7月24日,pp.11-14
(58)【調査した分野】(Int.Cl.,DB名)
前記高階結合正則化項パラメータ推定部は、前記正則化項パラメータ推定部によって推定された前記パラメータβと、前記高階結合正則化項に対応して予め定められたs/tグラフとに基づいて、パラメトリック最大流アルゴリズムに従って、パラメータβを推定する請求項3に記載の解析装置。
前記一般化高階結合正則化項パラメータ推定部は、前記正則化項パラメータ推定部によって推定された前記パラメータβと、前記一般化高階結合正則化項に対応して予め定められたs/tグラフとに基づいて、パラメトリック最大流アルゴリズムに従って、パラメータβを推定する請求項4に記載の解析装置。
観測データxからなるデータ点の集合である訓練データと、観測データxを解析するためのd次元のベクトルであるパラメータβの各次元の、各グループへの所属度を表すパラメータ構造データと、前記パラメータβを推定するための損失関数における前記訓練データの前記データ点の各々についての誤差項lの勾配∇lと、前記損失関数におけるR個の正則化項Ωrの各々を最小化する関数∇Ωrとを受け付けるデータ入力部と、
前記訓練データと、前記誤差項lの勾配∇lと、前記R個の正則化項Ωrの各々を最小化する関数∇Ωrとに基づいて、前記訓練データの前記データ点の各々についての前記誤差項lと、前記R個の正則化項Ωrと、各グループに対し、前記パラメータβにおける、前記グループに所属する次元間の要素の値の差を用いて表される高階結合正則化項とを含む前記損失関数を最小化するように、前記パラメータβを推定するパラメータ推定部と、
を含む解析装置。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】Tibshirani,R., Saunders,M., Rosset,S., Zhu,J., Knight, K.: Sparsity and smoothness via the fused lasso. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 67(1), 91−108 (2005)
【非特許文献2】Xin,B., Kawahara,Y., Wang,Y., Gao,W. :Efficient generalized fused lasso with its application to the diagnosis of Alzheimer’s disease. In: Proc. of AAAI. pp. 2163−2169 (2014)
【非特許文献3】Fujishige,S.:Submodularfunctionsandoptimization,vol.58.Elsevier(2005)
【非特許文献4】Gallo,G., Grigoriadis,M.D., Tarjan, R.E.: A fast parametric maximum flow algorithm and applications. SIAM Journal on Computing 18(1), 30−55 (1989)
【非特許文献5】Kohli,P., Ladicky,L., Torr,P.H.S. : Robust higher order potentials for enforcing label consistency. International Journal of Computer Vision 82(3), 302−324 (2009)
【非特許文献6】Combettes,P.L. ,Wajs,V.R.: Signal recovery by proximal forward−backward splitting. Multiscale Modeling & Simulation 4(4), 1168−1200 (2005)
【非特許文献7】Nagano,K., Kawahara,Y., Aihara,K.: Size−constrained submodular minimization through minimum norm base. In: Proc. of ICML. pp. 977−984 (2011)
【非特許文献8】Liu,J., Ji,S., Ye,J.: SLEP: Sparse Learning with Efficient Projections. Arizona State University (2009),
【発明の概要】
【発明が解決しようとする課題】
【0008】
パラメータに関する事前知識として、高階の構造、すなわち、あるパラメータの集合は同一のグループに所属する、といった情報を正則化に利用したい場合を想定する。しかし、一般化結合正則化が利用可能な事前知識は隣接関係のみに限定されているため、高階の構造を利用できない。そのためにパラメータがグループ構造を持つデータに対して、十分な性能を得られない場合がある。
【0009】
本発明は、上記問題点を解決するために成されたものであり、グループ構造を持つデータを精度よく解析することができる解析装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記目的を達成するために、第1の発明に係る解析装置は、観測データxに対する実数スカラー値yを予測する解析装置であって、観測データxと実数スカラー値yとの組み合わせからなるデータ点の集合である訓練データと、観測データxからなるテストデータと、観測データxに対する実数スカラー値yを予測するためのd次元のベクトルであるパラメータβの各次元の、各グループへの所属度を表すパラメータ構造データと、前記パラメータβを推定するための損失関数における前記訓練データの前記データ点の各々についての誤差項lの勾配∇lと、前記損失関数におけるR個の正則化項Ω
rの各々を最小化する関数∇Ω
rとを受け付けるデータ入力部と、前記訓練データと、前記誤差項lの勾配∇lと、前記R個の正則化項Ω
rの各々を最小化する関数∇Ω
rとに基づいて、前記訓練データの前記データ点の各々についての前記誤差項lと、前記R個の正則化項Ω
rと、各グループに対し、前記パラメータβにおける、前記グループに所属する次元間の要素の値の差を用いて表される高階結合正則化項とを含む前記損失関数を最小化するように、前記パラメータβを推定するパラメータ推定部と、前記パラメータ推定部によって推定された前記パラメータβに基づいて、前記テストデータに対する実数スカラー値yを予測する予測部と、を含んで構成されている。
【0011】
また、第1の発明に係る解析装置において、前記パラメータ構造データは、前記パラメータβの次元対の類似度を更に含み、前記パラメータ推定部は、前記訓練データと、前記誤差項lの勾配∇lと、前記R個の正則化項Ω
rの各々を最小化する関数∇Ω
rとに基づいて、前記訓練データの前記データ点の各々についての前記誤差項lと、前記R個の正則化項Ω
rと、前記高階結合正則化項、及び前記パラメータβの次元対の類似度を用いて表される一般化結合正則化項を含む一般化高階結合正則化項とを含む前記損失関数を最小化するように、前記パラメータβを推定するようにしてもよい。
【0012】
また、第1の発明に係る解析装置において、前記パラメータ推定部は、前記誤差項lの勾配∇lに基づいて、前記パラメータβを推定する誤差項パラメータ推定部と、前記誤差項パラメータ推定部によって推定された前記パラメータβと、前記R個の正則化項Ω
rの各々を最小化する関数∇Ω
rとに基づいて、前記パラメータβを推定する正則化項パラメータ推定部と、前記正則化項パラメータ推定部によって推定された前記パラメータβと、前記高階結合正則化項とに基づいて、前記パラメータβを推定する高階結合正則化項パラメータ推定部とを含み、前記誤差項パラメータ推定部による推定、前記正則化項パラメータ推定部による推定、及び前記高階結合正則化項パラメータ推定部による推定を、少なくとも1回ずつ行うようにしてもよい。
【0013】
また、第1の発明に係る解析装置において、前記パラメータ推定部は、前記誤差項lの勾配∇lに基づいて、前記パラメータβを推定する誤差項パラメータ推定部と、前記誤差項パラメータ推定部によって推定された前記パラメータβと、前記R個の正則化項Ω
rの各々を最小化する関数∇Ω
rとに基づいて、前記パラメータβを推定する正則化項パラメータ推定部と、前記正則化項パラメータ推定部によって推定された前記パラメータβと、前記一般化高階結合正則化項とに基づいて、前記パラメータβを推定する一般化高階結合正則化項パラメータ推定部とを含み、前記誤差項パラメータ推定部による推定、前記正則化項パラメータ推定部による推定、及び前記一般化高階結合正則化項パラメータ推定部による推定を、少なくとも1回ずつ行うようにしてもよい。
【0014】
また、第1の発明に係る解析装置において、前記高階結合パラメータ推定部は、前記正則化項パラメータ推定部によって推定された前記パラメータβと、前記高階結合正則化項に対応して予め定められたs/tグラフとに基づいて、パラメトリック最大流アルゴリズムに従って、パラメータβを推定するようにしてもよい。
【0015】
また、第1の発明に係る解析装置において、前記一般化高階結合正則化項パラメータ推定部は、前記正則化項パラメータ推定部によって推定された前記パラメータβと、前記一般化高階結合正則化項に対応して予め定められたs/tグラフとに基づいて、パラメトリック最大流アルゴリズムに従って、パラメータβを推定するようにしてもよい。
【0016】
また、第2の発明に係る解析装置は、観測データxからなるデータ点の集合である訓練データと、観測データxを解析するためのd次元のベクトルであるパラメータβの各次元の、各グループへの所属度を表すパラメータ構造データと、前記パラメータβを推定するための損失関数における前記訓練データの前記データ点の各々についての誤差項lの勾配∇lと、前記損失関数におけるR個の正則化項Ω
rの各々を最小化する関数∇Ω
rとを受け付けるデータ入力部と、前記訓練データと、前記誤差項lの勾配∇lと、前記R個の正則化項Ω
rの各々を最小化する関数∇Ω
rとに基づいて、前記訓練データの前記データ点の各々についての前記誤差項lと、前記R個の正則化項Ω
rと、各グループに対し、前記パラメータβにおける、前記グループに所属する次元間の要素の値の差を用いて表される高階結合正則化項とを含む前記損失関数を最小化するように、前記パラメータβを推定するパラメータ推定部と、を含んで構成されている。
【0017】
また、第2の発明に係る解析装置において、前記パラメータ構造データは、前記パラメータβの次元対の類似度を更に含み、前記パラメータ推定部は、前記訓練データと、前記誤差項lの勾配∇lと、前記R個の正則化項Ω
rの各々を最小化する関数∇Ω
rとに基づいて、前記訓練データの前記データ点の各々についての前記誤差項lと、前記R個の正則化項Ω
rと、前記高階結合正則化項、及び前記パラメータβの次元対の類似度を用いて表される一般化結合正則化項を含む一般化高階結合正則化項とを含む前記損失関数を最小化するように、前記パラメータβを推定するようにしてもよい。
【0018】
第3の発明に係る解析方法は、観測データxに対する実数スカラー値yを予測する解析装置における解析方法であって、データ入力部が、観測データxと実数スカラー値yとの組み合わせからなるデータ点の集合である訓練データと、観測データxからなるテストデータと、観測データxに対する実数スカラー値yを予測するためのd次元のベクトルであるパラメータβの各次元の、各グループへの所属度を表すパラメータ構造データと、前記パラメータβを推定するための損失関数における前記訓練データの前記データ点の各々についての誤差項lの勾配∇lと、前記損失関数におけるR個の正則化項Ω
rの各々を最小化する関数∇Ω
rとを受け付けるステップと、パラメータ推定部が、前記訓練データと、前記誤差項lの勾配∇lと、前記R個の正則化項Ω
rの各々を最小化する関数∇Ω
rとに基づいて、前記訓練データの前記データ点の各々についての前記誤差項lと、前記R個の正則化項Ω
rと、各グループに対し、前記パラメータβにおける、前記グループに所属する次元間の要素の値の差を用いて表される高階結合正則化項とを含む前記損失関数を最小化するように、前記パラメータβを推定するステップと、予測部が、前記パラメータ推定部によって推定された前記パラメータβに基づいて、前記テストデータに対する実数スカラー値yを予測するステップと、を含んで実行することを特徴とする。
【0019】
また、第3の発明に係る解析方法において、前記パラメータ構造データは、前記パラメータβの次元対の類似度を更に含み、前記パラメータ推定部が推定するステップは、前記訓練データと、前記誤差項lの勾配∇lと、前記R個の正則化項Ω
rの各々を最小化する関数∇Ω
rとに基づいて、前記訓練データの前記データ点の各々についての前記誤差項lと、前記R個の正則化項Ω
rと、前記高階結合正則化項、及び前記パラメータβの次元対の類似度を用いて表される一般化結合正則化項を含む一般化高階結合正則化項とを含む前記損失関数を最小化するように、前記パラメータβを推定するようにしてもよい。
【0020】
また、第3の発明に係る解析方法において、前記パラメータ推定部が推定するステップは、誤差項パラメータ推定部が、前記誤差項lの勾配∇lに基づいて、前記パラメータβを推定するステップと、正則化項パラメータ推定部が、前記誤差項パラメータ推定部によって推定された前記パラメータβと、前記R個の正則化項Ω
rの各々を最小化する関数∇Ω
rとに基づいて、前記パラメータβを推定するステップと、高階結合正則化項パラメータ推定部が、前記正則化項パラメータ推定部によって推定された前記パラメータβと、前記高階結合正則化項とに基づいて、前記パラメータβを推定するステップと、を含み、前記誤差項パラメータ推定部による推定、前記正則化項パラメータ推定部による推定、及び前記高階結合正則化項パラメータ推定部による推定を、少なくとも1回ずつ行うようにしてもよい。
【0021】
また、第3の発明に係る解析方法において、前記高階結合パラメータ推定部が推定するステップは、前記正則化項パラメータ推定部によって推定された前記パラメータβと、前記高階結合正則化項に対応して予め定められたs/tグラフとに基づいて、パラメトリック最大流アルゴリズムに従って、パラメータβを推定するようにしてもよい。
【0022】
第4の発明に係るプログラムは、コンピュータを、第1又は第2の発明に係る解析装置の各部として機能させるためのプログラムである。
【発明の効果】
【0023】
本発明の解析装置、方法、及びプログラムによれば、訓練データと、誤差項lの勾配∇lと、R個の正則化項Ω
rの各々を最小化する関数∇Ω
rとに基づいて、訓練データのデータ点の各々についての誤差項lと、R個の正則化項Ω
rと、各グループに対し、パラメータβにおける、グループに所属する次元間の要素の値の差を用いて表される高階結合正則化項とを含む損失関数を最小化するように、パラメータβを推定することにより、グループ構造を持つデータを精度よく解析することができる、という効果が得られる。
【発明を実施するための形態】
【0025】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0027】
まず、本発明の実施の形態における原理を説明する。
【0028】
本発明の実施の形態では、高階結合正則化項の提案および、その最小化法を適用した解析装置を提案する。高階結合正則化項は非特許文献5に記載のロバストP
nモデルのロバシュ拡張として提案する。さらにロバストP
nモデルが劣モジュラ関数であることを利用し高階結合正則化項の効率的な最小化法を示す。
【0029】
観測データをM次元の実数ベクトルx、教師データの実数スカラー値yとする。訓練データをN個のデータ点の集合{(x
n,y
n)}
n=1N、テストデータはN’個のデータ点からなる集合{(x
n’)}
n’=1N’とする。正則化付き教師あり学習の損失関数は、d次元の実数ベクトルβをパラメータとして用いて次の(1)式ように定式化される。
【0031】
このとき、l(x
n,y
n)はデータ点毎の誤差項、Ω(β)は正則化項である。また、正則化項Ω(β)は
【0033】
と表される。ただし、Ω
rは、R個の正則化項であり、λ
rは、正則化項Ω
rに対するハイパーパラメータであり、Ω
ho(β)は、後述する高階結合正則化項であり、λ
hoは、高階結合正則化項Ω
hoに対するハイパーパラメータである。
【0034】
正則化付き教師なし学習の損失関数は、y
nを用いずに次の(2)式ように定式化される。
【0036】
正則化付き教師あり学習、及び正則化付き教師なし学習は、次の(3)式に示す、損失関数を最小化するパラメータβ
*を求める問題である。
【0038】
パラメータβ
*の推定は、誤差項と正則化項の最小化を交互に行う(上記非特許文献6参照)。教師あり学習においては、予測関数f(β
*;x
n’)によって、テストデータの予測値{(y
n’)}
n’=1N’を計算する。
【0039】
本発明の実施の形態では、新たな構造正則化項として、Ω(β)の1つである、高階結合正則化項Ω
ho(β)の提案と高階結合正則化項を最小化するパラメータの推定を提案し、機械学習問題に適応する。
【0040】
<本発明の第1の実施の形態に係る解析装置の構成>
【0041】
次に、本発明の第1の実施の形態に係る解析装置の構成について説明する。
図1に示すように、本発明の第1の実施の形態に係る解析装置100は、CPUと、RAMと、後述する解析処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この解析装置100は、機能的には
図1に示すように入力部10と、演算部20と、出力部50とを備えている。
【0042】
入力部10は、訓練データ、テストデータ、パラメータ構造データ、誤差項l、パラメータβを推定するための損失関数における訓練データのデータ点の各々についての誤差項lの勾配∇l、誤差項のリプシッツ定数L、R個の正則化項Ω
r(r=1,…,R)、損失関数におけるR個の正則化項Ω
rの各々を最小化する関数∇Ω
r(r=1,…,R)、予測関数f、繰り返し演算数P、ハイパーパラメータα、及びハイパーパラメータγを読み込む。
【0043】
訓練データは、観測データxと実数スカラー値yとの組み合わせからなるN個のデータ点の集合{(x
n,y
n)}
n=1Nである。テストデータは、N’個の観測データxの集合{(x
n)}
n=1N’である。
【0044】
パラメータ構造データは、次の(4)式に示す、観測データxに対する実数スカラー値yを予測するためのd次元のベクトルであるパラメータβの各次元の、各グループkへの所属度を表すc
0k、及びc
1kである。
【0046】
パラメータ構造データは、K個のグループkにおけるc
0k、及びc
1kであり、kにおけるc
0k、及びc
1kは、グループkに属するパラメータβの各次元の要素の値が、と、グループkにおける真値と同じとなる度合いを表している。また、g
kはk番目のグループに属する、パラメータβの次元の集合である。また、パラメータ構造データは、グループkにおける真値と同じ値を持つ要素の数を制御するためのパラメータθ
0k、θ
1k、及びθ
maxkを更に含む。
【0047】
演算部20は、パラメータ推定部30と、予測部40とを含んで構成されている。
【0048】
パラメータ推定部30は、訓練データと、誤差項lの勾配∇lと、R個の正則化項Ω
rの各々を最小化する関数∇Ω
rと、誤差項のリプシッツ定数Lと、ハイパーパラメータα、γとに基づいて、訓練データのデータ点の各々についての誤差項lと、R個の正則化項Ω
rと、各グループkに対し、パラメータβにおける、グループkに所属する次元間の要素の値の差を用いて表される高階結合正則化項とを含む損失関数を最小化するように、パラメータβを推定する。
【0049】
パラメータ推定部30は、具体的には、以下に説明する初期化部32と、誤差項パラメータ推定部34と、正則化項パラメータ推定部36と、高階結合正則化項パラメータ推定部38と、を含んで構成されている。パラメータ推定部30では、誤差項パラメータ推定部34、正則化項パラメータ推定部36、及び高階結合正則化項パラメータ推定部38の推定を少なくとも1回ずつ行う。本実施の形態では、入力部10で受け付けた繰り返し演算数Pの回数分の推定を繰り返して得られたパラメータβ
*を予測部40に出力する。
【0050】
初期化部32は、パラメータβの初期値β
0を一様乱数によって生成する。
【0051】
誤差項パラメータ推定部34は、誤差項lの勾配∇lと、誤差項のリプシッツ定数Lと、パラメータβの初期値β
0又は高階結合正則化項パラメータ推定部38によって推定されたp−1回目のパラメータ推定値β
p−1に基づいて、パラメータβ
p^を推定する。ここでは、上記非特許文献6に記載の手法に従って、以下(5)式に示すように、初期値β
0、又はp−1回目のパラメータ推定値β
p−1を用いて、誤差項に関する推定値β
p^を得る。
【0053】
正則化項パラメータ推定部36は、誤差項パラメータ推定部34によって推定されたパラメータβ
p^と、R個の正則化項Ω
rの各々を最小化する関数∇Ω
rとに基づいて、パラメータβ
p〜を推定する。ここでは、誤差項パラメータ推定部34で得られたβ
p^と、1つ目の正則化項Ω
rの各々を最小化する関数∇Ω
rとを用いて、パラメータの推定値β
p(1)
〜を得て、パラメータの推定値β
p(1)
〜と、2つ目の正則化項Ω
rの各々を最小化する関数∇Ω
rとを用いて、パラメータの推定値β
p(2)
〜を得る。同様に、パラメータの推定値β
p(r−1)
〜と、2つ目の正則化項Ω
rの各々を最小化する関数∇Ω
rと用いて、パラメータの推定値β
p(2)
〜を得る。ここでは、β
p〜(0)=β
p^とし、以下の(6)式に示す操作をR回繰り返す。
【0055】
そして、正則化項パラメータ推定部36は、R回繰り返した結果を、β
p〜=β
p〜(R)とする。
【0056】
高階結合正則化項パラメータ推定部38は、正則化項パラメータ推定部36によって推定されたパラメータβ
p〜と、高階結合正則化項Ω
ho(β)とに基づいて、パラメータβ
pを推定する。
【0057】
具体的には、まず高階結合正則化項を次の(7)式のように定式化する。以下、簡単のためにβ=β
p〜とする。
【0062】
ここで、高階結合正則化項は、劣モジュラ関数である上記非特許文献5のロバストP
nモデルのロバシュ拡張に対応する。そこで高階結合正則化項に関するパラメータβの推定は上記非特許文献2と同様に、非特許文献4及び非特許文献7に記載の手法によって行う。
【0063】
次に、高階結合正則化項に関するパラメータβの推定のため、高階結合正則化項Ω
ho(β)に対応して定められたs/tグラフを
図2のように構築する。s/tグラフにおいて、sは始点ノード、tは終点ノード、{v
1,…,v
d}はパラメータβの各次元に対応するノード、U
s={u
s1,…,u
sK},U
t={u
t1,…,u
tK}はグループkに対応するハイパーノードである。
【0064】
高階結合正則化項パラメータ推定部38は、正則化項パラメータ推定部36によって推定されたパラメータβ
p〜と、s/tグラフとに基づいて、上記非特許文献4に記載のパラメトリック最大流アルゴリズムによって、ハイパーパラメータαの値を変化させながら、始点ノードから終点ノードまでのフローが最大となるパスを探索することにより、パラメータβ
pを推定する。
【0065】
パラメータ推定部30は、誤差項パラメータ推定部34、正則化項パラメータ推定部36、及び高階結合正則化項パラメータ推定部38による推定をP回繰り返して得られたパラメータの推定値β
pを、上記(3)式によって定式化されたパラメータβ
*として予測部40に出力する。
【0066】
予測部40は、パラメータ推定部30によって推定されたパラメータβ
*と、予測関数fとに基づいて、テストデータに対する実数スカラー値yを予測する。ここでは、以下(8)式のように、パラメータ推定部30によって推定されたパラメータβ
*と、予測関数fとを用いて、テストデータ{(x
n)}
n=1N’から予測値{(y
n^)}
n=1N’を計算し、計算結果を出力部50に出力する。
【0068】
<本発明の第1の実施の形態に係る解析装置の作用>
【0069】
次に、本発明の第1の実施の形態に係る解析装置100の作用について説明する。入力部10において訓練データ、テストデータ、パラメータ構造データ、誤差項l、誤差項lの勾配∇l、誤差項のリプシッツ定数L、R個の正則化項Ω
r、損失関数におけるR個の正則化項Ω
rの各々を最小化する関数∇Ω
r、予測関数f、繰り返し演算数P、ハイパーパラメータα、及びハイパーパラメータγを読み込むと、解析装置100は、
図3に示す解析処理ルーチンを実行する。
【0070】
まず、ステップS100では、p=1として、p=0のパラメータβの初期値β
0を一様乱数によって生成する。
【0071】
次に、ステップS102では、誤差項lの勾配∇lと、誤差項のリプシッツ定数Lと、パラメータβの初期値β
0又は後述するステップS106によって推定されたp−1回目のパラメータ推定値β
p−1に基づいて、上記(5)式に従って、パラメータβ
p^を推定する。
【0072】
ステップS104では、ステップS102で推定されたパラメータβ
p^と、R個の正則化項Ω
rの各々を最小化する関数∇Ω
rとに基づいて、上記(6)式に従って、パラメータβ
p〜を推定する。
【0073】
ステップS106では、ステップS104で推定されたパラメータβ
p〜と、上記(7)式で定式化された高階結合正則化項Ω
ho(β)に対応して定められたs/tグラフとに基づいて、上記非特許文献4に記載のパラメトリック最大流アルゴリズムによって、ハイパーパラメータαの値を変化させながら、始点ノードから終点ノードまでのフローが最大となるパスを探索することにより、パラメータβ
pを推定する。
【0074】
ステップS108では、ステップS102〜S106の処理をP回繰り返したかを判定し、P回繰り返していればステップS112へ移行し、P回繰り返していなければステップS110へ移行する。
【0075】
ステップS110では、p=p+1として、ステップS102へ戻ってステップS102〜S106の処理を繰り返す。
【0076】
ステップS112では、ステップS102〜S108の結果得られたパラメータの推定値β
pを、上記(3)式によって定式化されたパラメータβ
*として予測部40に出力する。
【0077】
ステップS114では、ステップS110で得られたパラメータβ
*と、予測関数fとに基づいて、テストデータに対する実数スカラー値yを予測し、予測結果を出力部50に出力して解析処理ルーチンを終了する。
【0078】
以上説明したように、第1の実施の形態に係る解析装置によれば、訓練データと、誤差項lの勾配∇lと、R個の正則化項Ω
rの各々を最小化する関数∇Ω
rとに基づいて、訓練データのデータ点の各々についての誤差項lと、R個の正則化項Ω
rと、各グループに対し、パラメータβにおける、グループに所属する次元間の要素の値の差を用いて表される高階結合正則化項とを含む損失関数を最小化するように、パラメータβを推定し、パラメータβに基づいて、テストデータに対する実数スカラー値yを予測することにより、グループ構造を持つデータを精度よく解析して、テストデータに対する実数スカラー値yを予測することができる。
【0079】
<本発明の第2の実施の形態に係る解析装置の構成>
【0080】
次に、本発明の第2の実施の形態に係る解析装置の構成について説明する。第2の実施の形態は、一般化高階結合正則化項を含む損失関数を用いる点が第1の実施の形態と異なっている。なお、第1の実施の形態と同様となる箇所については同一符号を付して説明を省略する。
【0081】
図4に示すように、本発明の第2の実施の形態に係る解析装置200は、入力部210と、演算部220と、出力部50とを備えている。
【0082】
入力部210は、訓練データ、パラメータ構造データ、誤差項l、パラメータβを推定するための損失関数における訓練データのデータ点の各々についての誤差項lの勾配∇l、誤差項のリプシッツ定数L、R個の正則化項Ω
r(r=1,…,R)、損失関数におけるR個の正則化項Ω
rの各々を最小化する関数∇Ω
r(r=1,…,R)、繰り返し演算数P、ハイパーパラメータα、及びハイパーパラメータγを読み込む。以下に、各データについて、第1の実施の形態と異なる点を説明する。
【0083】
パラメータ構造データは、上記(4)式に示す、観測データxを解析するためのd次元のベクトルであるパラメータβの各次元の、各グループkへの所属度を表すc
0k、及びc
1kである。パラメータ構造データは、更に、パラメータβの次元をノード、次元対に関する類似度をエッジに持つグラフ行列Wを含む。
【0085】
演算部220は、パラメータ推定部230と予測部40とを含んで構成されている。
【0086】
パラメータ推定部230は、訓練データと、誤差項lの勾配∇lと、R個の正則化項Ω
rの各々を最小化する関数∇Ω
rと、誤差項のリプシッツ定数Lと、ハイパーパラメータα、γとに基づいて、訓練データのデータ点の各々についての誤差項lと、R個の正則化項Ω
rと、高階結合正則化項及びパラメータβの次元対の類似度を用いて表される一般化結合正則化項を含む一般化高階結合正則化項とを含む損失関数を最小化するように、パラメータβを推定する。また、パラメータ推定部30は、初期化部32と、誤差項パラメータ推定部34と、正則化項パラメータ推定部36と、一般化高階結合正則化項パラメータ推定部238と、を含んで構成されている。本実施の形態では、パラメータ推定部30によって、訓練データに含まれる観測データxを解析するためのパラメータβを推定し、出力部50に出力する。
【0087】
一般化高階結合正則化項パラメータ推定部238は、正則化項パラメータ推定部36によって推定されたパラメータβ
p〜と、一般化高階結合正則化項Ω
GFL(β)とに基づいて、パラメータβ
pを推定する。
【0088】
具体的には、まず、一般化結合正則化項をΩ
GFL、高階結合正則化項をΩ
HOとし、一般化高階結合正則化項を次のように定式化する。以下、簡単のためにβ=β
p〜とする。
【0090】
非特許文献2より、一般化結合正則化は、劣モジュラ関数であるカット関数のロバシュ拡張に対応する。また、上記第1の実施の形態と同様に、高階結合正則化項は、劣モジュラ関数である非特許文献4のロバストP
nモデルのロバシュ拡張に対応する。したがって、一般化高階結合正則化はカット関数とロバストP
nモデルの和からなる劣モジュラ関数のロバシュ拡張と一致する。
【0091】
以上から、一般化高階結合正則化項に関するパラメータの推定値は非特許文献2と同様に、非特許文献4と非特許文献7によって行う。
【0092】
この際、s/tグラフを
図5のように構築する。グラフにおいて、sは始点ノード、tは終点ノード、{v
1,…,v
d}はパラメータの各次元に対応するノード、U
s={u
s1,…,u
sK},U
t={u
t1,…,u
tK}はグループに対応するハイパーノードである。
【0093】
一般化高階結合正則化項パラメータ推定部238は、正則化項パラメータ推定部36によって推定されたパラメータβ
p〜と、s/tグラフとに基づいて、上記非特許文献4に記載のパラメトリック最大流アルゴリズムによって、ハイパーパラメータαの値を変化させながら、始点ノードから終点ノードまでのフローが最大となるパスを探索することにより、パラメータβ
pを推定する。
【0094】
パラメータ推定部230は、誤差項パラメータ推定部34、正則化項パラメータ推定部36、及び一般化高階結合正則化項パラメータ推定部238による推定をP回繰り返して得られたパラメータの推定値β
pを、上記(3)式によって定式化されたパラメータβ
*として予測部40に出力する。
【0095】
なお、第2の実施の形態に係る解析装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
【0096】
以上説明したように、第2の実施の形態に係る解析装置によれば、訓練データと、誤差項lの勾配∇lと、R個の正則化項Ω
rの各々を最小化する関数∇Ω
rとに基づいて、訓練データのデータ点の各々についての誤差項lと、R個の正則化項Ω
rと、高階結合正則化項及びパラメータβの次元対の類似度を用いて表される一般化結合正則化項を含む一般化高階結合正則化項とを含む損失関数を最小化するように、パラメータβを推定し、パラメータβに基づいて、テストデータに対する実数スカラー値yを予測することにより、グループ構造を持つデータを精度よく解析して、テストデータに対する実数スカラー値yを予測することができる。
【0097】
また、パラメータに関する隣接、高階の事前情報を一般化高階結合正則化項として利用することにより、教師あり学習の定量的な性能向上が可能になる。
【0098】
また、パラメータに関する事前知識として、隣接構造と高階構造の2種類の事前情報を正則化に利用したい場合に、これらの事前知識を利用するための一般化高階結合正則化項を含む損失関数を最小化するように、パラメータβを推定し、パラメータβに基づいて、テストデータに対する実数スカラー値yを予測することができる。
【0099】
また、一般化高階結合正則化が劣モジュラ関数のロバシュ拡張であることを利用して、効率的な最小化法により、パラメータβを推定することができる。
【0100】
<本発明の第3の実施の形態に係る解析装置の構成>
【0101】
次に、本発明の第3の実施の形態に係る解析装置の構成について説明する。第3の実施の形態は教師データを用いない教師なし学習を行う点が第1の実施の形態と異なっている。なお、第1の実施の形態と同様となる箇所については同一符号を付して説明を省略する。
【0102】
図6に示すように、本発明の第3の実施の形態に係る解析装置300は、CPUと、RAMと、後述する解析処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この解析装置300は、機能的には
図6に示すように入力部310と、演算部320と、出力部50とを備えている。
【0103】
入力部310は、訓練データ、パラメータ構造データ、誤差項l、パラメータβを推定するための損失関数における訓練データのデータ点の各々についての誤差項lの勾配∇l、誤差項のリプシッツ定数L、R個の正則化項Ω
r(r=1,…,R)、損失関数におけるR個の正則化項Ω
rの各々を最小化する関数∇Ω
r(r=1,…,R)、繰り返し演算数P、ハイパーパラメータα、及びハイパーパラメータγを読み込む。以下に、各データについて、第1の実施の形態と異なる点を説明する。
【0104】
訓練データは、観測データxからなるN個のデータ点の集合{(x
n)}
n=1Nである。本実施の形態は、教師なし学習であるため、実数スカラー値{(y
n)}
n=1Nを読み込まない。
【0105】
パラメータ構造データは、上記(4)式に示す、観測データxを解析するためのd次元のベクトルであるパラメータβの各次元の、各グループkへの所属度を表すc
0k、及びc
1kである。
【0106】
また、本実施の形態では、上記(2)式に示すように、損失関数における誤差項lが、第1の実施の形態と異なっている。
【0107】
演算部320は、パラメータ推定部30を含んで構成されている。
【0108】
パラメータ推定部30は、第1の実施の形態と同様に、訓練データと、誤差項lの勾配∇lと、R個の正則化項Ω
rの各々を最小化する関数∇Ω
rと、誤差項のリプシッツ定数Lと、ハイパーパラメータα、γとに基づいて、訓練データのデータ点の各々についての誤差項lと、R個の正則化項Ω
rと、各グループkに対し、パラメータβにおける、グループkに所属する次元間の要素の値の差を用いて表される高階結合正則化項とを含む損失関数を最小化するように、パラメータβを推定する。また、パラメータ推定部30は、第1の実施の形態と同様に、初期化部32と、誤差項パラメータ推定部34と、正則化項パラメータ推定部36と、高階結合正則化項パラメータ推定部38と、を含んで構成されている。本実施の形態では、パラメータ推定部30によって、訓練データに含まれる観測データxを解析するためのパラメータβを推定し、出力部50に出力する。
【0109】
なお、第3の実施の形態の他の構成及び作用は第1の実施の形態と同様であるため、説明を省略する。
【0110】
<本発明の第4の実施の形態に係る解析装置の構成>
【0111】
次に、本発明の第4の実施の形態に係る解析装置の構成について説明する。第4の実施の形態は教師データを用いない教師なし学習を行う点が第2の実施の形態と異なっている。なお、第2の実施の形態と同様となる箇所については同一符号を付して説明を省略する。
【0112】
図7に示すように、本発明の第4の実施の形態に係る解析装置400は、CPUと、RAMと、後述する解析処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この解析装置400は、機能的には
図7に示すように入力部410と、演算部420と、出力部50とを備えている。
【0113】
入力部410は、訓練データ、パラメータ構造データ、誤差項l、パラメータβを推定するための損失関数における訓練データのデータ点の各々についての誤差項lの勾配∇l、誤差項のリプシッツ定数L、R個の正則化項Ω
r(r=1,…,R)、損失関数におけるR個の正則化項Ω
rの各々を最小化する関数∇Ω
r(r=1,…,R)、繰り返し演算数P、ハイパーパラメータα、及びハイパーパラメータγを読み込む。以下に、各データについて、第2の実施の形態と異なる点を説明する。
【0114】
訓練データは、観測データxからなるN個のデータ点の集合{(x
n)}
n=1Nである。本実施の形態は、教師なし学習であるため、実数スカラー値{(y
n)}
n=1Nを読み込まない。
【0115】
パラメータ構造データは、上記(4)式に示す、観測データxを解析するためのd次元のベクトルであるパラメータβの各次元の、各グループkへの所属度を表すc
0k、及びc
1kである。パラメータ構造データは、更に、更に、パラメータβの次元をノード、次元対に関する類似度をエッジに持つグラフ行列Wを含む。
【0116】
また、本実施の形態では、上記(2)式に示すように、損失関数における誤差項lが、第2の実施の形態と異なっている。
【0117】
演算部420は、パラメータ推定部230を含んで構成されている。
【0118】
パラメータ推定部230は、第2の実施の形態と同様に、訓練データと、誤差項lの勾配∇lと、R個の正則化項Ω
rの各々を最小化する関数∇Ω
rと、誤差項のリプシッツ定数Lと、ハイパーパラメータα、γとに基づいて、訓練データのデータ点の各々についての誤差項lと、R個の正則化項Ω
rと、一般化高階結合正則化項とを含む損失関数を最小化するように、パラメータβを推定する。また、パラメータ推定部230は、第2の実施の形態と同様に、初期化部32と、誤差項パラメータ推定部34と、正則化項パラメータ推定部36と、一般化高階結合正則化項パラメータ推定部238と、を含んで構成されている。本実施の形態では、パラメータ推定部30によって、訓練データに含まれる観測データxを解析するためのパラメータβを推定し、出力部50に出力する。
【0119】
なお、第4の実施の形態の他の構成及び作用は第2の実施の形態と同様であるため、説明を省略する。
【0120】
このように、パラメータに関する隣接、高階の事前情報を一般化高階結合正則化項として利用することにより、教師なし学習の定量的な性能向上が可能になる。
【0122】
本発明の第1の実施の形態に係る手法の効果を示すために、人工的に生成したデータセットと、インターネット上で公開されているデータセットに対して、教師あり学習の1つである線形回帰分析を行い、以下(9)式に示す平均二乗誤差という指標を用いて定量的な性能評価を行う。
【0124】
人工的に生成したデータでは、データとパラメータの次元はM=d=100とし、データを30,50,70,100,150点の条件で生成した。乱数によって生成したx
nとあらかじめ設計したパラメータの線形和を取り、そこにガウスノイズを加えてy
n用を人工的に生成した。10回の交差検定によってテストデータに対する平均二乗誤差を計測した。比較手法には、SGL(非特許文献8)、GFL(非特許文献2)、Lasso(非特許文献1)、及びOLS(非特許文献1)を用いた。
【0125】
パラメータの設計には2つの条件を用いた。1つ目の条件をnon-overlappingと呼ぶ。本条件では、パラメータは全体で5つのグループ構造をもち、あるパラメータは1つのグループのみに所属すると定め、グループがオーバラップを持たないようにした。同一グループに所属するパラメータは同一の真値を持つように設定した。2つ目の条件をoverlappingと呼ぶ。本条件では、1つ目の設定と異なり、パラメータのうち2つのグループに所属するものが存在するようにし、グループがオーバラップを持つようにした。2つのグループに所属するパラメータの値は2つのグループのいずれかと同一の真値をもつようにせて値した。他の設定は条件non-overlappingと同様にした。なお、c
0,ik,c
1,ikの値は1.0あるいは0.0とし、θ
0k, θ
1kは0.0、θ
maxkは1.0とした。
【0126】
Nを30から150までの条件で実験を行い、得られたテストデータに対する平均二乗誤差を以下の表1に示す。(a)はnon-overlapping、(b)はoverlappingの条件での結果である。太字は他の手法の平均二乗誤差と統計的に優位な差が有ることを示している。
【0128】
non−overlapping条件では本発明とGFLが良好な性能を示している。overlapping条件では、本発明によって、テストデータに対する平均二乗誤差の改善が確認された。本発明はNがdよりも小さく過学習が起こる場合(N=70,50,30)でも、良好な性能を示した。これは高階結合正則化項によって過学習を避けられたからである。
【0129】
次に実験から推定されたパラメータ(N=30)を
図8及び
図9に示す。図中の線はパラメータの真値、白抜き丸は各手法によるパラメータの推定値である。
図8のnon−overlapping条件では、本発明とGFLがパラメータの真値と近いパラメータを推定できた。
図9のoverlapping条件では、本発明の実施の形態に係る手法のみがパラメータの真値と近いパラメータを推定できた。
【0130】
以上の結果から、本発明の第1の実施の形態に係る手法の性能は、パラメータが単一のグループに所属する場合、及び複数のグループに所属するような場合のいずれにおいても有効であることが示された。
【0131】
次に、インターネット上で公開されているデータセットを用いて実験の結果を示す。本実験では、MovieLens100k、EachMovie、Book−Crossing(http://grouplens.org )のデータセットを利用し、データセットに含まれるユーザが視聴した映画と本の履歴データから、映画、及び本に与えた評価値を予測する実験を行った。 データセットの要約は次の表2のとおりである。
【0133】
表3に10回の交差検定によってテストデータに対する平均二乗誤差を計測した結果を示す。本発明の第1の実施の形態に係る手法は、すべての設定で既存の手法とほぼ同等、あるいは上回る性能を示している。
【0135】
また、本発明の第1の実施の形態に係る手法の性能は、実世界で記録されたデータに対しても有効であることが示された。
【0136】
次に、本発明の第2の実施の形態に係る手法の効果を示すために、人工的に生成したデータセットと、インターネット上で公開されているデータセットに対して、教師あり学習の1つである線形回帰分析を行い、上記(9)式に示す平均二乗誤差という指標を用いて定量的な性能評価を行う。
【0137】
人工的に生成したデータでは、
図10(a)に示す、行と列の次元が50の行列データを生成する。行列を12個(8つの長方形と星、丸、菱型の3図形を作成した)の領域に分割し、各領域内のすべての要素は1から12の整数値のいずれかを取る。この整数値をテストデータとする。次にこの整数値に平均0、分散1のガウス分布からサンプリングしたノイズを加算し、さらに要素の値を乱択により欠損させ、訓練データとする。行列補完では観測データから欠損した要素の真値を推定する問題となる。
【0138】
実験では、行列をベクトル化してあつかう。すなわちパラメータの次元はd=50
2=2500となる。欠損値の割合をp=0.9, 0.5, 0.7, 0.9の条件で生成した。10回の交差検定によってテストデータに対する平均二乗誤差を計測した。比較手法には、GFL(非特許文献2)、HOFL(第1の実施の形態)、平均値を用いた。
【0139】
なお、w
i,j, c
0,ik , c
1,ikの値は1.0あるいは0.0とし、θ
0k, θ
1kは0.0、θ
maxkは1.0とした。隣接構造には行列データで隣接するパラメータの情報、高階構造には8つの長方形と星形を与えた。つまり、丸と菱型は未知の構造として扱った。実験から得られた推定値と実際の観測値の平均二乗誤差を以下の表に示す。太字は平均二乗誤差が最も低いものを示している。
【0141】
p=0.1の条件では本発明の第2の実施の形態に係る手法(prop.)とGFLが良好な性能を示している。本発明の第2の実施の形態に係る手法は、その他の欠損値が多く、過学習が起こる場合(p=0.5, 0.7, 0.9)でも、良好な性能を示した。これは一般化高階結合正則化項によって過学習を避けられたからである。
【0142】
次に実験から推定されたパラメータを
図10に示す。
図10(a)は、真の行列、
図10(b)は、ランダム欠損してノイズが加えられた観測値、
図10(c)は、本発明の第2の実施の形態に係る手法の推定値、
図10(d)は、一般化結合正則化の推定値、
図10(e)は、高階結合正則化の推定値である。本発明の第2の実施の形態に係る手法が他の手法と比べて真値と近いパラメータを推定できたことが確認できる。
【0143】
以上から、本発明の第2の実施の形態に係る手法の有効性が示された。
【0144】
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。