(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022182628
(43)【公開日】2022-12-08
(54)【発明の名称】情報処理装置、情報処理方法、情報処理プログラム、及び学習モデル生成装置
(51)【国際特許分類】
G06N 3/02 20060101AFI20221201BHJP
G06N 3/08 20060101ALI20221201BHJP
【FI】
G06N3/02
G06N3/08 180
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021090287
(22)【出願日】2021-05-28
(71)【出願人】
【識別番号】000005278
【氏名又は名称】株式会社ブリヂストン
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】石塚 治也
(72)【発明者】
【氏名】持橋 大地
(57)【要約】
【課題】演算資源を抑制しつつ大量のデータに対する可視化精度を向上する。
【解決手段】情報処理装置(1)は、推定部(5)と、可視化部(7)とを備える。推定部(5)は、学習モデル(51)を用いて、高次元データ(4)から次元削減した可視化用の低次元データ(6)を推定する。学習モデル(51)は高次元データ(4)を入力とし次元削減した可視化用の低次元データ(6)を出力するように学習される。学習モデル(51)は、高次元データの特徴を反映しつつ高次元データの次元数より低次元の中間データに変換する非線形変換を行うように学習された第1モデルと、中間データの次元数からさらに低次元の低次元データに変換する多様体学習を行う第2モデルとを含む。可視化部(7)は、推定された低次元データ(6)を可視化する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
高次元データを入力とし、前記高次元データの次元数より低次元の次元数の可視化用の低次元データを出力するように学習された学習モデルであって、前記高次元データの特徴を反映しつつ前記高次元データの次元数より低次元でかつ前記低次元データの次元数より高次元の中間データに次元削減する第1次元削減処理を示す非線形変換を行うように学習された非線形変換部を示す第1モデルと、前記中間データの次元数を前記可視化用の低次元データの次元数に次元削減する第2次元削減処理を示す多様体学習を行うように学習された多様体学習部を示す第2モデルとを含む前記学習モデルを備え、推定対象の複数の高次元データに対応する複数の可視化用の低次元データを推定する推定部と、
前記推定部で推定された前記複数の低次元データの各々を前記推定対象の複数のデータの特徴を示すデータとして可視化する可視化部と、
を含む情報処理装置。
【請求項2】
前記第1モデルは、多層ニューラルネットワークを用いて学習されることで生成されたモデルであり、
前記第2モデルは、前記多様体学習部として主成分分析を行うように学習されることで生成されたモデルである
請求項1に記載の情報処理装置。
【請求項3】
前記多層ニューラルネットワークは、ガウス過程に従った教師なしニューラルネットワークである、
請求項2に記載の情報処理装置。
【請求項4】
コンピュータが
高次元データを入力とし、前記高次元データの次元数より低次元の次元数の可視化用の低次元データを出力するように学習された学習モデルであって、前記高次元データの特徴を反映しつつ前記高次元データの次元数より低次元でかつ前記低次元データの次元数より高次元の中間データに次元削減する第1次元削減処理を示す非線形変換を行うように学習された非線形変換部を示す第1モデルと、前記中間データの次元数を前記可視化用の低次元データの次元数に次元削減する第2次元削減処理を示す多様体学習を行うように学習された多様体学習部を示す第2モデルとを含む前記学習モデルを用いて、推定対象の複数の高次元データに対応する複数の可視化用の低次元データを推定し、
推定された前記複数の低次元データの各々を前記推定対象の複数のデータの特徴を示すデータとして可視化する制御を行う
情報処理方法。
【請求項5】
コンピュータに
高次元データを入力とし、前記高次元データの次元数より低次元の次元数の可視化用の低次元データを出力するように学習された学習モデルであって、前記高次元データの特徴を反映しつつ前記高次元データの次元数より低次元でかつ前記低次元データの次元数より高次元の中間データに次元削減する第1次元削減処理を示す非線形変換を行うように学習された非線形変換部を示す第1モデルと、前記中間データの次元数を前記可視化用の低次元データの次元数に次元削減する第2次元削減処理を示す多様体学習を行うように学習された多様体学習部を示す第2モデルとを含む前記学習モデルを用いて、推定対象の複数の高次元データに対応する複数の可視化用の低次元データを推定し、
推定された前記複数の低次元データの各々を前記推定対象の複数のデータの特徴を示すデータとして可視化する制御を行う
処理を実行させるための情報処理プログラム。
【請求項6】
高次元データを入力とし、前記高次元データの次元数より低次元の次元数の可視化用の低次元データを出力するように学習された学習モデルであって、前記高次元データの特徴を反映しつつ前記高次元データの次元数より低次元でかつ前記低次元データの次元数より高次元の中間データに次元削減する第1次元削減処理を示す非線形変換を行うように学習された非線形変換部を示す第1モデルと、前記中間データの次元数を前記可視化用の低次元データの次元数に次元削減する第2次元削減処理を示す多様体学習を行うように学習された多様体学習部を示す第2モデルとを含む前記学習モデルを生成する学習モデル生成部
を含む学習モデル生成装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、情報処理プログラム、及び学習モデル生成装置に関する。
【背景技術】
【0002】
従来より、大量のデータを分析する場合、大量のデータが表す特徴を可視化することが行われており、例えば、ユーザに直観的な示唆を与える散布図は、有効である。この散布図は、4次元以上の高次元データへの可視化の適用は困難であり、次元削減(次元圧縮)が要求される。この次元削減を行うために、ニューラルネットワークによる非線形変換処理を用いた技術が知られている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、非線形変換処理を可能とするニューラルネットワークでは、次元削減を行う場合、ニューラルネットワークの構築時にはユニット数を調整しながら行うために、膨大な演算資源が要求される。
【0005】
本開示は、演算資源を抑制しつつ大量のデータに対する可視化精度を向上することができる情報処理装置、情報処理方法、情報処理プログラム、及び学習モデル生成装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本開示の一態様は、
高次元データを取得する取得部と、
前記取得部で取得された高次元データを入力とし、前記高次元データの次元数より減少した次元数の可視化用の低次元データを出力するように学習された学習モデルであって、前記高次元データの特徴を反映しつつ前記高次元データの次元数より減少した第1次元数の中間データに次元削減する第1次元削減処理を示す非線形変換を行う非線形変換部を示す第1モデルと、前記中間データを前記第1次元数より減少した第2次元数の低次元データに次元削減する第2次元削減処理を示す多様体学習を行う多様体学習部を示す第2モデルとを含む前記学習モデルに対して、前記取得部で取得された推定対象の高次元データを入力し、前記推定対象の高次元データに対応する低次元データを推定する推定部と、
複数の前記高次元データについて、前記推定部で推定された低次元データの各々を前記推定対象の高次元データの特徴を示すデータとして可視化する可視化部と、
を含む情報処理装置である。
【0007】
第2態様は、第1態様の情報処理装置において、
前記第1モデルは、多層ニューラルネットワークを用いて学習されることで生成されたモデルであり、
前記第2モデルは、前記多様体学習部として主成分分析を行うように学習されることで生成されたモデルである。
【0008】
第3態様は、第2態様の情報処理装置において、
前記多層ニューラルネットワークは、ガウス過程に従った教師なしニューラルネットワークである。
【0009】
第4態様は、
コンピュータが
高次元データを入力とし、前記高次元データの次元数より低次元の次元数の可視化用の低次元データを出力するように学習された学習モデルであって、前記高次元データの特徴を反映しつつ前記高次元データの次元数より低次元でかつ前記低次元データの次元数より高次元の中間データに次元削減する第1次元削減処理を示す非線形変換を行うように学習された非線形変換部を示す第1モデルと、前記中間データの次元数を前記可視化用の低次元データの次元数に次元削減する第2次元削減処理を示す多様体学習を行うように学習された多様体学習部を示す第2モデルとを含む前記学習モデルを用いて、推定対象の複数の高次元データに対応する複数の可視化用の低次元データを推定し、
推定された前記複数の低次元データの各々を前記推定対象の複数のデータの特徴を示すデータとして可視化する制御を行う
情報処理方法である。
【0010】
第5態様は、
コンピュータに
高次元データを入力とし、前記高次元データの次元数より低次元の次元数の可視化用の低次元データを出力するように学習された学習モデルであって、前記高次元データの特徴を反映しつつ前記高次元データの次元数より低次元でかつ前記低次元データの次元数より高次元の中間データに次元削減する第1次元削減処理を示す非線形変換を行うように学習された非線形変換部を示す第1モデルと、前記中間データの次元数を前記可視化用の低次元データの次元数に次元削減する第2次元削減処理を示す多様体学習を行うように学習された多様体学習部を示す第2モデルとを含む前記学習モデルを用いて、推定対象の複数の高次元データに対応する複数の可視化用の低次元データを推定し、
推定された前記複数の低次元データの各々を前記推定対象の複数のデータの特徴を示すデータとして可視化する制御を行う
処理を実行させるための情報処理プログラムである。
【0011】
第6態様は、
高次元データを入力とし、前記高次元データの次元数より低次元の次元数の可視化用の低次元データを出力するように学習された学習モデルであって、前記高次元データの特徴を反映しつつ前記高次元データの次元数より低次元でかつ前記低次元データの次元数より高次元の中間データに次元削減する第1次元削減処理を示す非線形変換を行うように学習された非線形変換部を示す第1モデルと、前記中間データの次元数を前記可視化用の低次元データの次元数に次元削減する第2次元削減処理を示す多様体学習を行うように学習された多様体学習部を示す第2モデルとを含む前記学習モデルを生成する学習モデル生成部
を含む学習モデル生成装置である。
【発明の効果】
【0012】
本開示によれば、演算資源を抑制しつつ大量のデータに対する可視化精度を向上することができる、という効果を有する。
【図面の簡単な説明】
【0013】
【
図1】実施形態に係る情報処理装置の構成の一例を示す図である。
【
図3】実施形態に係る学習処理部における学習処理に関する図である。
【
図4】実施形態に係る学習処理部における学習処理に関する図である。
【
図5】実施形態に係る学習処理の流れの一例を示すフローチャートである。
【
図6】実施形態に係る情報処理装置の構成の一例を示す図である。
【
図7】実施形態に係る推定処理の流れの一例を示すフローチャートである。
【
図8】実施形態に係る情報処理装置で用いられるデータの一例を示す図である。
【
図9】実施形態に係る情報処理装置で用いられるデータの一例を示す図である。
【
図10】実施形態に係る情報処理装置で得られたデータを可視化した散布図の一例を示す図である。
【
図11A】次元削減に関する検証結果を示す図である。
【
図11B】次元削減に関する検証結果を示す図である。
【
図11C】実施形態に係る情報処理装置による次元削減に関する検証結果を示す図である。
【発明を実施するための形態】
【0014】
以下、図面を参照して本開示の技術を実現する実施形態を詳細に説明する。
なお、作用、機能が同じ働きを担う構成要素及び処理には、全図面を通して同じ符合を付与し、重複する説明を適宜省略する場合がある。また、本開示は、以下の実施形態に何ら限定されるものではなく、本開示の目的の範囲内において、適宜変更を加えて実施することができる。
【0015】
ところで、高次元データ(観測値)を散布図等で可視化するにあたり、次元削減(次元圧縮)に機械学習の技術が用いられており、可視化手法には、多様体学習を用いた次元削減の手法及び確率モデルを用いた次元削減の手法が知られている。
【0016】
多様体学習を用いた次元削減の手法は、高次元データ(観測値)の全てのペアと、データから推定される低次元データの全てのペアとでそれぞれ独立に類似度を定義し、観測値間の類似度と低次元データ間の類似度の差が小さくなる様に低次元データを推定するように学習する。例えば、高次元データを2次元や3次元等の低次元データに変換して可視化するための手法として、t-SNE(t-Distributed Stochastic Neighbor Embedding)が知られている(文献A参照)。また、多様体学習を用いた次元削減の手法の他例としては、周知の主成分分析の手法が挙げられる。ところが、多様体学習を用いた次元削減の手法では、観測値間の類似度を適切に表現することが可視化の条件のため、観測値のデータ表現が不適切な場合には類似度の評価が困難となり、可視化の精度が低下する。
文献A:「Visualizing Data using t-SNE」Journal of Machine Learning Research 9 (2008) 2579-2605
【0017】
また、確率モデルを用いた次元削減の手法は、観測値よりも低次元かつランダムに値が変動する潜在変数を仮定し、データからそれらを推定することで次元削減を行う。例えば、深層潜在変数モデル(Deep Latent Variable Model:以下、DLVMという。)と呼ばれる確率モデルでは、多層ニューラルネットワーク(Deep Neural Network : 以下、DNNという。)による非線形変換をモデル中に導入することで、データの特徴をよく反映する様にデータを圧縮可能である。DLVMは、クロスセクションデータや時系列といった構造化データに加え、画像やテキストなど非構造化データ解析においても、クラスタリングや次元削減などのタスクで多くの成果が報告されている。ところが、DLVMでは、モデルの性能を最大化する為にDNNのユニット数の調整が要求される。このタスクでは、ユニット数を数十から数千等の広範囲に変化させる等のようにユニット調整を行いながら演算精度を向上させるため、多くの計算時間を必要とする。
【0018】
本開示において「可視化」とは、ユーザが目視等により確認可能な空間上の低次元のデータを生成することを含む概念であり、生成されたデータをユーザが目視等により確認可能に表示等によって提供することを含む。可視化により提供されるデータの一例には、2次元空間及び3次元空間等の低次元空間上にデータを分布させる線図、及び散布図等のグラフとして提供するデータが挙げられる。
【0019】
そこで、本開示の情報処理装置は、推定部と、可視化部とを備える。推定部は、学習モデルを用いて、高次元データから次元削減した可視化用の低次元データを推定する。学習モデルは、高次元データを入力とし、次元削減した可視化用の低次元データを出力するように学習される。学習モデルは、高次元データの特徴を反映しつつ高次元データから次元削減した第1次元数の中間データに変換する非線形変換を行う第1モデルと、中間データからさらに次元削減した第2次元数の低次元データに変換する多様体学習を行う第2モデルとを含む。可視化部は、推定された低次元データを可視化する。
【0020】
図1に、本開示の情報処理装置としての情報処理装置1の構成の一例を示す。
【0021】
情報処理装置1における推定処理は、観測事象における観測値を示す物理量(すなわち、高次元データ)を入力として学習を行った学習済みの学習モデルを用いて、観測値に対応する未知の可視化用の物理量(すなわち、低次元データ)を推定し、出力する。
【0022】
図1に示すように、情報処理装置1は、推定部5及び可視化部7を備えている。推定部5には、観測事象3において観測された高次元の観測値(高次元データ)を表す入力データ4が入力される。また、推定部5は、推定結果として与えられた観測事象3における観測値の特徴を示す物理量(低次元データ)を表す出力データ6を出力する。推定部5は、学習済みの学習モデル51を含んでいる。
【0023】
学習モデル51は、観測事象3において観測された観測値(入力データ4)から、観測値の特徴を示すデータ(出力データ6)を導出する学習を済ませたモデルである。学習モデル51は、例えば、学習済みのニューラルネットワークを規定するモデルであり、ニューラルネットワークを構成するノード(ニューロン)同士の間の結合の重み(強度)の情報の集合として表現される。
【0024】
学習モデル51は、学習処理部52(
図2)の学習処理により生成される。学習処理部52は、観測事象3において観測された観測値(入力データ4)を複数用いて学習処理を行う。観測値は、観測事象3において観測された所定個数(例えばD(>2)個)の異なる性質を示す複数の個別データのペア、すなわち高次元(D次元)のデータである。観測値は、観測事象3において観測された状態の特徴を含んでいる。学習モデル51は、観測値(高次元の入力データ4)から、観測値の特徴を示すデータ(低次元の出力データ6)を導出するように学習される。例えば、観測値の特徴をラベルとして観測事象3において観測された高次元の観測値を大量に含むデータを学習データとする。学習データは、高次元の観測値(入力データ4)である個別データのペアを大量に含む。なお、観測値には、観測値が観測された観測事象3における観測状態(例えば、観測方法、観測値の性質や観測値、観測対象の種類や構造等)をラベルとして対応付けることが可能である。また、観測値は、観測事象3を時系列に観測した複数の観測値であってもよい。
【0025】
次に、
図3を参照して、学習処理部52について説明する。
学習処理部52は、生成器54と演算器56とを含む。生成器54は、入力データ4である高次元の観測値間の類似性等を考慮して、次元削減した低次元の出力データを生成する機能を有する。学習処理部52は、学習用データとして、観測事象3において観測された高次元の入力データ4(観測値)を多数保持している。
【0026】
図3に示す例では、生成器54は、入力層540、中間層542、および出力層544を含んで、公知のニューラルネットワーク(NN:Neural Network)を構成している。ニューラルネットワーク自体は公知の技術であるため詳細な説明は省略するが、中間層542は、ノード間結合およびフィードバック結合を有するノード群(ニューロン群)を多数含む。その中間層542には、入力層540からのデータが入力され、中間層542の演算結果のデータは、出力層544へ出力される。
【0027】
生成器54は、入力された高次元(D次元)の入力データ4(観測事象3において観測された観測値)から、可視化用に次元削減した低次元(R次元)の生成出力データ6Aを生成するニューラルネットワークである。生成出力データ6Aは、高次元の入力データ4(観測値)から、観測値の特徴を推定、すなわち観測値を可視化用に低次元に次元削減されたデータである。生成器54は、入力データ4(観測値)から、可視化用に次元削減した生成出力データを生成する。生成器54は、多数の入力データ4(観測値)を用いて学習することで、より観測値の特徴に近い可視化用の生成出力データ6Aを生成できるようになる。
【0028】
詳細には、生成器54は、可視化用の生成出力データ6Aを出力するために、隠れ層である中間層542として、第1中間層542A及び第2中間層542Bを含む。第1中間層542Aは、確率モデルを用いて次元削減を行う層であり、第2中間層542Bは、多様体学習を用いて次元削減を行う層である。
【0029】
第1中間層542A及び第2中間層542Bは、一部のユニットが共通とされる。
図3に示す例では、第1中間層542Aが第1層543A及び第2層543Bにより構成され、第2中間層542Bが第2層543B及び第3層543Cにより構成されて、第2層543Bが共通にされている。第2層543Bは、中間層542において高次元(D次元)の入力データ4(観測値)から次元削減した中間次元(Q次元:D>Q)の中間データを導出するユニットを含む層に対応する。
【0030】
具体的には、第1中間層542Aは、確率モデルを用い、高次元の入力データ4(観測値)の特徴を維持しつつ次元削減する機能を有する中間層である。第1中間層542Aは、確率モデルを用いた次元削減として、観測値よりも低次元かつランダムに値が変動する潜在変数を仮定し、複数の観測値が示すデータから潜在変数を推定することで次元削減を行う。本実施形態では、第1中間層542Aの一例として多層ニューラルネットワーク(DNN:Deep Neural Network)が適用される。第1中間層542Aは、高次元(D次元)の入力データ4(観測値)から可視化用に次元削減した中間次元(Q次元:D>Q)の中間データを出力するネットワークとして機能する。別の側面では、入力層540を第1の入力層、第1中間層542Aにおける第1層543Aを第1の中間層、及び第2層543Bを第1の出力層として捉えた構成を確率モデルの無限DNNと考えることが可能となる。
【0031】
また、第1中間層542Aには、所謂、教師なし無限ユニットDNN(以下、無限DNNという。)を適用する。無限DNNは、公知の技術であるため詳細な説明は省略するが、ノンパラメトリックベイズモデルの一例であるガウス過程(Gaussian process)と、DNNとの数学的同値性を適用したDNNである、教師データを要求せずに学習可能でかつ、中間層のユニット数を無限個数まで拡張可能な構成として考えられたものである。第1中間層542Aに無限DNNを用いることで、適切なラベルが対応付けられていない高次元の観測値について、複数の観測値の間の類似度や規則性に基づく分類を可能とし、複数の観測値について主要な構造や分布等の可視化のための特徴を示す特徴データとして、次元削減した中間次元(Q次元:D>Q)の中間データを推定可能になる。第1中間層542Aは、本開示の非線形変換部を示す第1モデルの一例であり、後述するように、高次元データの特徴を反映しつつ前記高次元データの次元数より低次元でかつ前記低次元データの次元数より高次元の中間データに次元削減する第1次元削減処理を示す非線形変換を行うように学習される。
【0032】
第2中間層542Bは、多様体学習を用い、高次元の入力データ4(観測値)から、可視化のための特徴が反映されるように次元削減された中間次元(Q次元:D>Q)の中間データから、さらに次元削減する機能を有する中間層である。多様体学習は、公知の技術であるため詳細な説明は省略するが、入力側の高い次元の空間について局所的に線形空間として見なすことで次元削減する手法である。具体的には、複数の観測値に対応する中間データの全てのペアと、推定される低次元データの全てのペアとの各々の類似度から低次元データを推定するモデルである。本実施形態では、第2中間層542Bの一例としてt-SNEが適用される。第2中間層542Bは、中間次元(Q次元)の中間データから、さらに次元削減した低次元(R次元:Q>R)の生成出力データを出力するネットワークとして機能する。別の側面では、第2中間層542Bにおける第2層543Bを第2の入力層、第3層543Cを第2の中間層、及び出力層544を第2の出力層として捉えた構成を多様体学習を用いた確率モデルのネットワークと考えることが可能となる。第2中間層542Bは、本開示の多様体学習部を示す第2モデルの一例であり、後述するように、中間データの次元数を可視化用の低次元データの次元数に次元削減する第2次元削減処理を示す多様体学習を行うように学習される。
【0033】
なお、本実施形態では、第2中間層542Bの一例としてt-SNEを適用する場合を説明するが、主成分分析手法によって多様体学習を行う構成としてもよい。
【0034】
上述した第1中間層542Aに無限DNNを用いることで、高次元の観測値から観測値が示す特徴を効果的に抽出することが可能となる。よって、観測値のデータ表現が不適切な場合に可視化精度が低下することはない。また、無限DNNは、ニューラルネットワークを構成するユニットに関する層構成や個数を考慮することが要求されないため、ユニット数等のネットワークのチューニングが不要になる。また、第2中間層542Bに多様体学習による次元削減を可能とする手法を用いることで、第1中間層542Aにおいて観測値が示す特徴を反映した中間データからさらに次元削減し、観測値が示す特徴を維持しつつ低次元データに次元削減された可視化用のデータを推定することが可能となる。
【0035】
演算器56は、生成出力データ6Aと、生成出力データ6Aを得るためのデータ4Aとを比較し、その比較結果の誤差を演算する演算器である。学習処理部52は、生成出力データ6A、およびデータ4Aを演算器56に入力する。演算器56は、生成出力データ6Aと、データ4Aとの誤差を演算し、その演算結果を示す信号を出力する。本実施形態では、教師データを用いないため、データ4Aは、観測値を示すデータ及び観測値から導出されるデータ(例えば、中間層542における中間データ)が適用される(詳細は後述)。
【0036】
学習処理部52は、演算器56で演算された誤差に基づいて、生成器54におけるノード間の結合の重みパラメータをチューニングすることで、生成器54の学習を行う。具体的には、生成器54における入力層540と中間層542とのノード間の結合の重みパラメータ、中間層542内のノード間の結合の重みパラメータ、および中間層542と出力層544とのノード間の結合の重みパラメータの各々を、例えば勾配降下法や誤差逆伝搬法等の手法を用いて、生成器54にフィードバックする。すなわち、データ4Aと、生成出力データ6Aとの誤差を最小化するように全てのノード間の結合を最適化する。
【0037】
次に、
図4を参照して、学習処理部52における学習処理について説明する。なお、
図4では、第1中間層542A、及び第2中間層542Bにおける第2層543Bを、第1中間層542Aにおける出力層543Baと、第2中間層542Bにおける入力層543Bbとして示す。
【0038】
学習処理部52における学習処理では、中間次元(Q次元:D>Q)の中間データを出力する第1中間層542Aと、低次元(R次元:Q>R)のデータを出力する第2中間層542Bとが連携して学習(訓練)される。
【0039】
例えば、第1中間層542Aでは、観測値よりも低次元である中間次元(Q次元:D>Q)の潜在変数を定め、複数の観測値が示すデータから潜在変数を推定することで、D次元からQ次元に次元削減する学習を行う。演算器56Aは、観測側の物理量と中間側の物理量とを導出し、観測側の物理量と中間側の物理量との対応関係を最適化する。
図4に示す例では、観測側の物理量は、高次元(D次元)である推定対象の第1の観測値と、他の観測値である第2の観測値との類似度や規則性を示すデータ(データ4Aa)を適用する。中間側の物理量は、中間次元(Q次元)である推定対象の第1の中間データと、他の中間データである第2の中間データとの類似度や規則性を示すデータ(データ6Aa)を適用する。最適化では、観測側の物理量と中間側の物理量とを用いた周知の損失関数や誤差関数を定め、損失関数や誤差関数によるデータ(損失値や誤差)が最小になるように学習(訓練)すればよい。損失関数や誤差関数の一例には、平均二乗誤差関数等が挙げられる。
【0040】
また、第2中間層542Bでは、多様体学習を用いて中間次元のQ次元からさらに次元削減されたR次元に次元削減する学習を行う。演算器56Bは、観測値に対応する中間側の物理量と出力側の物理量とを導出し、中間側の物理量と出力側の物理量との対応関係を最適化する。中間側の物理量は、上述した中間次元(Q次元)第1及び第2の中間データの類似度や規則性を示すデータ(データ6Aa)を適用する。出力側の物理量は、推定対象の観測値に対応する低次元(R次元)である第1の出力データと、他の観測値に対応する第2の出力データとの類似度や規則性を示すデータ(データ4Ab)を適用する。最適化では、中間側の物理量と出力側の物理量とを用いた周知の損失関数や誤差関数を定め、損失関数や誤差関数によるデータ(損失値や誤差)が最小になるように学習(訓練)すればよい。
【0041】
学習モデル51は、学習処理部52の学習処理により生成される。学習モデル51は、学習処理部52による学習結果のノード間の結合の重みパラメータ(重み又は強度)の情報の集合として表現される。
【0042】
上述した学習処理部52は、図示しないCPUを含むコンピュータを含んで構成し、学習処理を実行することが可能である。例えば、
図5に学習処理の一例を示すように、学習処理部52は、ステップS110で、入力データ4である高次元(D次元)の観測値を学習データとして取得する。学習処理部52は、ステップS112で、学習データを用いて学習モデル51を生成する。すなわち、上記のようにして多数の学習データを用いて学習した学習結果のノード間の結合の重みパラメータ(重み又は強度)の情報の集合を得る。そして、ステップS114で、学習結果のノード間の結合の重みパラメータ(重み又は強度)の情報の集合として表現されるデータを学習モデル51として記憶する。
【0043】
情報処理装置1では、以上に例示した手法により生成した学習済みの生成器54(すなわち、学習結果のノード間の結合の重みパラメータの情報の集合として表現されるデータ)を学習モデル51として用いる。十分に学習した学習モデル51を用いれば、高次元(D次元)の観測値から低次元データを推定することも不可能ではない。
【0044】
上述の情報処理装置1は、例えば、コンピュータに上述の各機能を表すプログラムを実行させることにより実現可能である。
【0045】
図6に、情報処理装置1の各種機能を実現する処理を実行する実行装置としてコンピュータを含んで構成した場合の一例を示す。
【0046】
情報処理装置1として機能するコンピュータは、
図6に示すコンピュータ本体100を備えている。コンピュータ本体100は、CPU102、揮発性メモリ等のRAM104、ROM106、ハードディスク装置(HDD)等の補助記憶装置108、及び入出力インターフェース(I/O)110を備えている。これらのCPU102、RAM104、ROM106、補助記憶装置108、及び入出力I/O110は、相互にデータ及びコマンドを授受可能にバス112を介して接続された構成である。また、入出力I/O110には、外部装置と通信するための通信インタフェース(I/F)114、マウスやキーボード等の操作部116、ディスプレイ等の表示部118が接続されている。通信I/F114は、外部装置との間で、例えば、入力データ4(観測値)を取得する機能する。操作部116は、コンピュータ本体100への操作を指示する機器である。表示部118は、高次元データ(D次元の観測値)から次元削減した低次元データを可視化してユーザに提示するための機器である。
【0047】
補助記憶装置108には、コンピュータ本体100を本開示の情報処理装置の一例として情報処理装置1として機能させるための制御プログラム108Pが記憶される。CPU102は、制御プログラム108Pを補助記憶装置108から読み出してRAM104に展開して処理を実行する。これにより、制御プログラム108Pを実行したコンピュータ本体100は、本開示の情報処理装置の一例として情報処理装置1として動作する。
【0048】
なお、補助記憶装置108には、学習モデル51を含む学習モデル108M、及び各種データを含むデータ108Dが記憶される。制御プログラム108Pは、CD-ROM等の記録媒体により提供するようにしても良い。
【0049】
次に、コンピュータにより実現された情報処理装置1における推定処理について説明する。
【0050】
図7に、コンピュータ本体100において、実行される制御プログラム108Pによる推定処理の流れの一例を示す。
図7に示す推定処理は、コンピュータ本体100に電源投入されると、CPU102により実行される。すなわち、CPU102は、制御プログラム108Pを補助記憶装置108から読み出し、RAM104に展開して処理を実行する。
【0051】
まず、CPU102は、ステップS200で、補助記憶装置108の学習モデル108Mから学習モデル51を読み出し、RAM104に展開することで、学習モデル51を取得する。具体的には、学習モデル51として表現された重みパラメータによるノード間の結合となるネットワークモデルを、RAM104に展開する。よって、重みパラメータによるノード間の結合が実現された学習モデル51が構築される。
【0052】
次に、CPU102は、ステップS202で、観測事象3において観測された観測値を示す高次元(D次元)の未知の入力データ4を、通信I/F114を介して取得する。
【0053】
次に、CPU102は、ステップS204で、ステップS200で取得した学習モデル51を用いて、ステップS202において取得した入力データ4(観測値)に対応するQ次元の中間データを推定する。
【0054】
次に、CPU102は、ステップS206で、ステップS200で取得した学習モデル51を用いて、ステップS204において推定した入力データ4(観測値)に対応するQ次元の中間データからR次元の出力データ6を推定する。
【0055】
そして、次のステップS208で、推定結果の出力データ6を、例えば散布図等の可視化可能なデータ表現形式に変換して表示部118へ出力することで、可視化して、本処理ルーチンを終了する。
【0056】
上述した推定処理では、
図8に示すように、D次元で表現された複数の観測値の各々が、中間次元(Q次元:D>Q)の中間データに変換され、さらに低次元(R次元:Q>R)のデータに変換されて出力される。
図8では、観測値は、識別子ID(id1~idn)により識別された複数(n個)の観測値の各々について、高次元データであるD次元のデータ(Y1~Yd)として示されている。例えば、第1の観測値は、識別子id1として、データy11~yd1として示されている。観測値の次元数から次元削減されたQ次元の中間データは、データ(K1~Kq)として示され、例えば、第1の観測値は、識別子id1として、データk11~kq1として示されている。Q次元の中間データから次元削減されたR次元の出力データは、2次元データとしてデータ(X1、X2)で示され、例えば、第1の観測値は、識別子id1として、データx11~x21として示されている。これらの各データは、高次元データから低次元データにデータの次元数を次元削減するための学習データとしても利用される。
【0057】
本実施形態に係る情報処理装置1では、D次元で表現された複数の観測値の各々が、中間次元(Q次元:D>Q)の中間データを介して、
図9に示すように、低次元(R次元:Q>R)のデータに変換されて出力される。
【0058】
なお、
図7に示す推定処理は、本開示の情報処理方法で実行される処理の一例である。
【0059】
以上説明したように、本開示によれば、上述した第1中間層542Aに無限DNNを用いることで、高次元の観測値から観測値が示す特徴を反映した中間データを導出することができる。よって、観測値のデータ表現が不適切な場合に可視化精度が低下することはない。また、無限DNNは、ニューラルネットワークを構成するユニットに関する層構成や個数を考慮することが要求されないため、ユニット数等のネットワークのチューニングが不要になり、演算資源の増加を抑制できる。
【0060】
また、第2中間層542Bに多様体学習による次元削減を可能とする手法を用いることで、第1中間層542Aにおいて観測値が示す特徴を反映した中間データからさらに次元削減し、観測値が示す特徴を維持しつつ低次元データに次元削減された可視化用のデータを推定することが可能となる。
【0061】
図10に、上述した情報処理装置1を用いて、高次元データから次元削減した低次元データを推定し、可視化した散布図の一例を示す。
図10では、高次元データに対して付与されたラベルとして、p0からp9の10種類のラベルに相違する形状で打点し、可視化した散布図が示されている。
図10に示すように、本開示の情報処理装置によれば、高次元データに対してラベルごとに適切なクラスタに分離可能であることが確認された。
【0062】
次に、上述した情報処理装置1を用いて、オイルフローデータの可視化に関して検証した検証結果を説明する。
【0063】
図11A、
図11B、及び
図11Cに、各種の手法によって、送油ポンプに対する観測データを観測値として入力した際の観測値を可視化した散布図を示す。観測データは、送油ポンプの油、水及びガスの各層の各位置における割合を示すデータ(oilflowデータ)であり、ガンマ線で測定された12個の変数と、油と水の含有率及び総配置を表す3種のラベルからなる。12個の変数は平均0,分散1に標準化した。また、12個の変数の各々はガンマ線で測定した経路長を含み、油と水の含有率及び総配置は油と水の割合及び油、水及びガスの各層の相構成(配置)を含む。
【0064】
図11Aには、多様体学習を用いた次元削減の手法例としてt-SNEのみの手法によって、高次元の観測値を可視化した散布図が示されている。
図11Bには、確率モデルを用いた次元削減の手法例のDLVMとして、VSB-DLVM(Variational Stick-Breaking DLVM)のみの手法によって、高次元の観測値を可視化した散布図が示されている。
図11Cには、上述した情報処理装置1を用いて、高次元の観測値を可視化した散布図が示されている。
【0065】
各散布図上の各点は各観測値を二次元に次元削減して得られた低次元データを示している。各散布図における各点はラベルの相違を打点の形状で示した。第1ラベルを四角形の打点とし、第2ラベルを三角形の打点とし、第3ラベルを星形の打点とした。
【0066】
VSB-DLVMによる可視化では(
図11B)、第2ラベルの点はある程度分離されていると確認可能であるものの、第1ラベルの打点と第3ラベルの打点が混在し、分類が困難である。これは、ラベルの違いを上手く反映した次元削減が困難であったことを示している。t-SNEによる可視化では(
図11A)、VSB-DLVMと比較して、赤、青が分離した低次元データを推定できているが、第1ラベルの打点と第3ラベルの打点の各々で分類されたクラスタが近接している。これに対して、本開示の情報処理装置1では、第1ラベル、第2ラベル、及び第3ラベルの各々の打点により分類されるクラスタが独立して分離可能である。すなわち、ラベルの違いを反映して可視化が行われたことを確認できる。
【0067】
上述したように、本開示では、中間層542の一例として、第1中間層542A及び第2中間層542Bを含む一体構成を適用した場合を説明したが、第1中間層542A及び第2中間層542Bを一体構成とした中間層542に限定されないことは勿論である。
【0068】
また、本開示の技術的範囲は上記実施形態に記載の範囲には限定されない。要旨を逸脱しない範囲で上記実施形態に多様な変更または改良を加えることができ、当該変更または改良を加えた形態も本開示の技術的範囲に含まれる。
【0069】
また、上記実施形態では、検査処理を、フローチャートを用いた処理によるソフトウエア構成によって実現した場合について説明したが、これに限定されるものではなく、例えば各処理をハードウェア構成により実現する形態としてもよい。
【0070】
また、情報処理装置の一部、例えば学習モデル等のニューラルネットワークを、ハードウェア回路として構成してもよい。
【0071】
(PCT/日外想定の記載用)
さらに、本明細書に記載された全ての文献、特許出願、及び技術規格は、個々の文献、特許出願、及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。
【符号の説明】
【0072】
1 情報処理装置
3 観測事象
4 入力データ
5 推定部
6 出力データ
6A 生成出力データ
7 可視化部
51 学習モデル
52 学習処理部
54 生成器
56 演算器
56A、56B演算器
100 コンピュータ本体
108 補助記憶装置
108D データ
108M 学習モデル
108P 制御プログラム
114 通信I/F
116 操作部
118 表示部
540 入力層
542 中間層
542A 第1中間層
542B 第2中間層
543A 第1層
543B 第2層
543Ba 出力層
543Bb 入力層
543C 第3層
544 出力層