(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-04
(45)【発行日】2023-12-12
(54)【発明の名称】解析装置、解析方法及びプログラム
(51)【国際特許分類】
G06N 7/01 20230101AFI20231205BHJP
【FI】
G06N7/01
(21)【出願番号】P 2022536433
(86)(22)【出願日】2021-07-14
(86)【国際出願番号】 JP2021026531
(87)【国際公開番号】W WO2022014657
(87)【国際公開日】2022-01-20
【審査請求日】2022-12-07
(31)【優先権主張番号】P 2020122352
(32)【優先日】2020-07-16
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】503359821
【氏名又は名称】国立研究開発法人理化学研究所
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100124844
【氏名又は名称】石原 隆治
(72)【発明者】
【氏名】橋本 悠香
(72)【発明者】
【氏名】石川 勲
(72)【発明者】
【氏名】池田 正弘
(72)【発明者】
【氏名】河原 吉伸
【審査官】武田 広太郎
(56)【参考文献】
【文献】HASHIMOTO, Yuka et al.,Analysis via Orthonormal Systems in Reproducing Kernel Hilbert C*-Modules and Applications,arXiv [online],2020年03月02日,[検索日 2023.11.02], インターネット:<URL:https://arxiv.org/pdf/2003.00738.pdf>
【文献】SRIPERUMBUDUR, Bharath K et al.,Injective Hilbert Space Embeddings of Probability Measures,Proceedings of the 21st Annual Conference on Learning Theory,2008年,111-122,[検索日 2023.11.02], インターネット:<URL:https://is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/Paper- 4_[0].pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 7/01
(57)【特許請求の範囲】
【請求項1】
ランダム性を持つ複数のデータのデータ集合を取得する取得部と、
前記データ集合上の確率測度μ及びνであって、フォン・ノイマン環に値を持つ確率測度μ及びνを、カーネル平均埋め込みを拡張した写像ΦによってRKHM上にそれぞれ写像したΦ(μ)及びΦ(ν)の内積又はノルムを、前記確率測度μ及びνの内積又はノルムとして計算する解析部と、
を有することを特徴とする解析装置。
【請求項2】
前記確率測度はランダム性を持つ複数のデータ間の共分散を表す測度を各成分とする行列、前記フォン・ノイマン環はm×mの複素数値行列全体の集合であり、
前記解析部は、
前記データ集合上に値を持つm個の確率変数をそれぞれX
1,・・・,X
m及びY
1,・・・,Y
m、X
iとX
jの共分散を表す測度を(i,j)成分とする確率測度をμ=μ
X、Y
iとY
jの共分散を表す測度を(i,j)成分とする確率測度をν=μ
Yとして、前記確率変数X
1,・・・,X
mから得られたデータと前記確率変数Y
1,・・・,Y
mから得られたデータとを用いて、Φ(μ
X)及びΦ(μ
Y)の内積を、m×mの複素数値行列を値に持つ正定値カーネルにより近似計算する、ことを特徴とする請求項1に記載の解析装置。
【請求項3】
前記確率測度は量子力学において量子の状態を表す測度、前記フォン・ノイマン環はm×mの複素数値行列全体の集合であり、
前記解析部は、
前記量子の観測を表す前記フォン・ノイマン環上の測度をμ'、前記量子の状態をρ
1及びρ
2、前記確率測度をμ=ρ
1μ'、ν=ρ
2μ'として、前記データ集合に含まれるデータを用いて、Φ(ρ
1μ')及びΦ(ρ
2μ')の内積を、m×mの複素数値行列を値に持つ正定値カーネルにより計算する、ことを特徴とする請求項1に記載の解析装置。
【請求項4】
前記解析部は、
前記内積又はノルムの計算結果を用いて、前記データ集合の次元削減、前記確率測度の可視化、又は前記確率測度に対する異常検知を行う、ことを特徴とする請求項1又は2に記載の解析装置。
【請求項5】
ランダム性を持つ複数のデータのデータ集合を取得する取得手順と、
前記データ集合上の確率測度μ及びνであって、フォン・ノイマン環に値を持つ確率測度μ及びνを、カーネル平均埋め込みを拡張した写像ΦによってRKHM上にそれぞれ写像したΦ(μ)及びΦ(ν)の内積又はノルムを、前記確率測度μ及びνの内積又はノルムとして計算する解析手順と、
をコンピュータが実行することを特徴とする解析方法。
【請求項6】
コンピュータを、請求項1乃至4の何れか一項に記載の解析装置として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、解析装置、解析方法及びプログラムに関する。
【背景技術】
【0002】
自然界に現れるデータは基本的にランダム性を含んでおり、ランダム性を考慮したデータ解析技術が従来から研究されている。このようなランダム性をデータ解析において扱う枠組みとして、カーネル平均埋め込み(kernel mean embedding)が知られている。ランダム性は、事象の起こりやすさを表す集合関数である確率測度によって定式化される。カーネル平均埋め込みでは、この確率測度に内積やノルムといった「近さ」の概念を与える手法であり、確率測度同士の近さはRKHS(reproducing kernel Hilbert space)と呼ばれる空間での内積により与えられる。多くのデータ解析手法は近さの概念により成り立っているため、これにより、ランダム性を含むデータ同士の近さを測ったり、或るランダム性のあるデータを生成する確率測度を推定したりする等の一般的なデータ解析を、ランダム性のあるデータに対して適用することが可能となる。
【0003】
一方で、ランダム性を含まないデータ解析技術で、複数のデータの相互作用を考慮する枠組みとして、RKHM(reproducing kernel Hilbert C*-module)を用いたものが知られている。RKHMはRKHSの拡張であり、通常複素数値である内積の代わりに、行列や線形作用素を一般化したC*-algebraと呼ばれる空間に値を持つ内積を定義することで、相互作用の情報を保存したまま解析を行うことができるようになる。これにより、相互作用のあるデータを精度良く解析したり、相互作用の情報を抽出したりすることが可能となる。
【0004】
ところで、データの中には、複数のランダムなデータが相互作用し合って生じるものも多い。また、量子計算等の量子を扱う分野においては、量子の状態が各観測の確率という複数の確率により表現される。ランダム性を定式化するためには確率測度が用いられるが、データ解析における既存の枠組みでは、確率測度は複素数値であり、複数のランダム性を同時に扱うことはできない。一方で、量子力学においては、複数の確率により表される量子の状態を定式化するために、Hilbert空間上の線形作用素に値を持つ確率測度が用いられている(例えば、非特許文献1)。また、純粋数学の分野では、これをより一般化したベクトル値測度という概念が理論的に研究されている(例えば、非特許文献2)。
【先行技術文献】
【非特許文献】
【0005】
【文献】H.E. Brandt, Quantum measurement with a positive operator-valued measure. Acta Phys. Hung. B 20, 95-99, 2004.
【文献】C. W. Swartz, Products of vector measures by means of Fubini's theorem, Mathematica Slovaca, 27(4):375-382, 1977.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記の非特許文献1や非特許文献2は理論的な研究に留まっており、実際のデータ解析において、線形作用素に値を持つ確率測度を利用する枠組みは未だない。最近では量子から現れるデータを、機械学習の手法を用いて解析する研究も注目を集めており、そのような観点からも、複数のランダム性を同時に扱えるような、線形作用素に値を持つ確率測度をデータ解析において利用する枠組みは重要であると考えられる。
【0007】
本発明の一実施形態は、上記の点に鑑みてなされたもので、複数のランダム性を持つデータ解析を実現することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するため、一実施形態に係る解析装置は、ランダム性を持つ複数のデータのデータ集合を取得する取得部と、前記データ集合上の確率測度μ及びνであって、フォン・ノイマン環に値を持つ確率測度μ及びνを、カーネル平均埋め込みを拡張した写像ΦによってRKHM上にそれぞれ写像したΦ(μ)及びΦ(ν)の内積又はノルムを、前記確率測度μ及びνの内積又はノルムとして計算する解析部と、を有することを特徴とする。
【発明の効果】
【0009】
複数のランダム性を持つデータ解析を実現することができる。
【図面の簡単な説明】
【0010】
【
図1】本実施形態に係る解析装置のハードウェア構成の一例を示す図である。
【
図2】本実施形態に係る解析装置の機能構成の一例を示す図である。
【
図3】本実施形態に係るデータ解析処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、本発明の一実施形態について説明する。本実施形態は、複数のランダム性を持つデータ解析を行うことができる解析装置10について説明する。本実施形態に係る解析装置10を用いることで、複数のランダム性を持つデータの解析、特に、例えば、複数のランダムなデータが相互作用し合っている場合のデータや量子状態を表すデータの可視化、異常検知等を行うことが可能となる。なお、本実施形態に係る解析装置10は、このような可視化や異常検知等の解析に加えて、例えば、その解析結果(特に、異常検知結果等)に基づいて、異常が検知されたデータが表す装置、機器、プログラム等の停止等の制御を行ってもよい。
【0012】
<理論的構成及びその応用例>
まず、本実施形態の理論的構成及びその応用例について説明する。本実施形態では、カーネル平均埋め込みを拡張し、線形作用素に値を持つ確率測度に内積・ノルム等の「近さ」の概念を与える。ただし、複数のランダム性の情報をできるだけ保った解析を行うために、内積の値は複素数値ではなく、線形作用素値とする。このために、RKHSを用いた既知のカーネル平均埋め込みの代わりに、RKHMを用いたカーネル平均埋め込みとする。
【0013】
1. RKHMを用いたカーネル平均埋め込み
Xをデータ(ランダム性を持つデータ)の属する空間、Aをフォン・ノイマン環(von Neumann-algebra)とし、A値positive definite kernel k:X×X→Aを考える。ただし、写像k:X×X→AがA値positive definite kernelであるとは、以下の条件1及び条件2を満たすことをいう。なお、フォン・ノイマン間の具体例としては、例えば、線形作用素全体の集合や行列全体の集合等が挙げられる。
【0014】
(条件1)任意のx,y∈Xに対して、k(x,y)=k(x,y)* (*は共役を表す)
(条件2)mを任意の自然数として、任意のx0,x1,・・・,xm-1∈Xと任意のc0,c1,・・・,cm-1∈Aに対して、
【0015】
【数1】
はpositive
ここで、positiveとはvon Neumann-algebraで正定値であることを意味し、全ての固有値が0以上であるエルミート行列(つまり、エルミート正定値)等の一般化である。
【0016】
A値positive definite kernel kが与えられたとき、XからA値関数への写像φを、φ(x)=k(・,x)により定義する。この写像φはfeature mapとも呼ばれる。
【0017】
自然数mと、x0,x1,・・・,xm-1∈Xと、c0,c1,・・・,cm-1∈Aに対して、
【0018】
【数2】
全体から、RKHMと呼ばれる空間を構成することができる。この空間をM
kと表す。M
kには、A値の内積〈・,・〉
kとA値の大きさ|・|
kを定めることができる。
【0019】
X上のA値測度とは、可測集合と呼ばれるXの部分集合からAへの関数μで、任意の2ペアの交わりがないような可算無限個の可測集合E1,E2,・・・に対して、
【0020】
【0021】
A値測度に対して、その測度に関する積分を考えることができる。A値関数fが、単関数と呼ばれる関数の列
【0022】
【数4】
の極限で表されるとき、fのμに関する積分は、s
iのμに関する積分の極限で定義される。ここで、単関数sとは、或る有限個の可測集合E
1,・・・,E
nで任意の2ペアの交わりがないようなものとc
1,・・・,c
n∈Aに対して、
【0023】
【0024】
【0025】
このとき、s(x)を左からμで積分した値を
【0026】
【0027】
【数8】
と表す。同様に、s(x)を右からμで積分した値を
【0028】
【0029】
【0030】
上記の設定の下、有限なA値測度をRKHMの元に移す写像Φを、
【0031】
【数11】
により定め、カーネル平均埋め込みと呼ぶ。RKHMの元同士のA値内積は定まっているため、Φが単射であれば、有限なA値測度μ、νのA値内積を、Φ(μ)とΦ(ν)のA値内積によって定めることができる。
【0032】
例えば、X=Rd、A=Cm×mに対して、k:X×X→Aを、
【0033】
【数12】
とする。ただし、||・||
EはR
d上のユークリッドノルム、c>0、Iはm次の単位行列である。また、Rは実数値全体、Cは複素数値全体を表す。このとき、このkから定まるΦは単射であることが示せる。
【0034】
2. RKHMを用いたカーネル平均埋め込みの応用
2.1 A値測度の間の距離
有限A値測度μ、νのA値距離を以下で定義する。
【0035】
γ(μ,ν)=|Φ(μ)-Φ(ν)|k
このとき、Φが単射であれば、例えば、||γ(μ,ν)||は距離の性質を完全に満たす。つまり、||γ(μ,ν)||=||γ(ν,μ)||、||γ(μ,ν)||=0ならばμ=ν、||γ(μ,ν)||≦||γ(μ,λ)||+||γ(λ,ν)||が任意の有限A値測度μ、ν、λに対して成立する。
【0036】
以下に有限A値測度の例を2つ挙げる。
【0037】
例1:ランダム性を持つ複数のデータ間の共分散を表す測度
A=Cm×mとする。Xに値を持つm個の確率変数X1,・・・,XmとY1,・・・,Ymを考える。PをX上の確率測度とし、μXを、(i,j)成分がXiとXjの共分散を表す測度(Xi,Xj)*PになるようなA値測度(又は、その測度を中心化したバージョン
【0038】
【数13】
になるようなA値測度)とする。このとき、γ(μ
X,μ
Y)=0と、任意の有界関数f、gにより変換された確率変数の共分散が等しいこととが同値になる。よって、このようなA値測度に対して、後述するKernel PCAを行うことで、データ間の共分散の情報を保つような低次元の空間を得ることができる。
【0039】
実際には、X1,・・・,Xmから得られたデータ{x1,1,x1,2,・・・,x1,N},・・・,{xm,1,xm,2,・・・,xm,N}と、Y1,・・・,Ymから得られたデータ{y1,1,y1,2,・・・,y1,N},・・・,{ym,1,ym,2,・・・,ym,N}とが与えられた際、Φ(μX)とΦ(μY)の内積〈Φ(μX),Φ(μY)〉kの(i,j)成分を以下の式(1)のように近似する。
【0040】
【数14】
ただし、k(x,y)は、全ての成分がX
2上の複素数値positive definite kernel
【0041】
【数15】
であるようなC
m×m値positive definite kernelである場合を考える。
【0042】
例2:量子の状態を表す測度
量子力学において、Aを有界線形作用素全体の集合とする。量子の状態は線形作用素ρにより表され、その観測はA値測度μにより表されるため、量子の状態を表す線形作用素ρ1、ρ2、観測を表すA値測度μ1、μ2に対し、各状態の観測μ1ρ1とμ2ρ2の近さはΦ(μ1ρ1)とΦ(μ2ρ2)の内積により表すことができる。
【0043】
例えば、A=Cm×m、X=Cmとし、i=1,・・・,sに対し、|ψi〉∈Xを正規化されたベクトルとする。これに対して、観測(つまり、X上のA値測度)
【0044】
【数16】
を考える。このとき、状態ρ
1、ρ
2∈C
m×mに対して、Φ(μρ
1)とΦ(μρ
2)の内積は以下の式(2)により計算できる。
【0045】
【数17】
2.2 Kernel PCA
A=C
m×mとする。複数のA値測度μ
1,・・・,μ
nに対して、〈Φ(μ
i),Φ(μ
j)〉
k∈Aを(i,j)ブロックに持つ行列をGとする。Gはエルミート正定値行列になるため、固有値λ
1≧・・・≧λ
mn≧0と、これらの固有値にそれぞれ対応する正規直交な固有ベクトルv
1,・・・,v
mnとが存在する。第i主軸を
【0046】
【数18】
により定義し、p
iと表すこととすると、任意のs=1,・・・,mnに対してp
1,・・・,p
sは以下の式(3)を満たす。
【0047】
【数19】
つまり、p
1,・・・,p
sは、Φ(μ
1),・・・,Φ(μ
n)を表現するs個(通常、s<<n)のベクトルのうち、誤差を最小にするものとみなせる。そこで、Φ(μ
i)を
【0048】
【数20】
で近似することでμ
1,・・・,μ
nを可視化したり、或るA値測度μ
0に対して
【0049】
【数21】
を、μ
0がμ
1,・・・,μ
nと比べてどの程度外れているかの値とみなして異常検知を行ったりすることができる。また、上述したように、データ間の共分散の情報を保つように次元削減を行うことができる。
【0050】
2.3 その他の応用例
機械学習や統計のRKHSにおけるカーネル平均埋め込みを用いる既存の方法は、RKHSにおける確率測度のカーネル平均埋め込みを、上記の例1で記載した共分散を表す測度のRKHMにおけるカーネル平均埋め込みに一般化することで、依存し合う複数の要素を持つデータに対して適用可能となる。例えば、以下のような例が挙げられる。
【0051】
・参考文献1「A. Gretton, K. M. Borgwardt, M. J. Rasch, B. Scholkopf, and A. Smola, A kernel two-sample test, Journal of Machine Learning Research, 13(1):723-773, 2012.」に記載されているtwo-sample testを一般化することで、依存し合う複数の要素を持つデータ同士の比較が可能となる。
【0052】
・参考文献2「W. Jitkrittum, P. Sangkloy, M. W. Gondal, A. Raj, J. Hays, and B. Scholkopf, Kernel mean matching for content addressability of GANs, In Proceedings of the 36th International Conference on Machine Learning, volume 97, pages 3140-3151, 2019.」に記載されている生成モデルに対するkernel mean matchingを一般化することで、依存し合う複数の要素の共分散の情報を保ったデータを生成できる。
【0053】
・参考文献3「H. Li, S. J. Pan, S. Wang, and A. C. Kot, Heterogeneous domain adaptation via nonlinear matrix factorization, IEEE Transactions on Neural Networks and Learning Systems, 31:984-996, 2019.」に記載されているMMDを用いたdomain adaptationを一般化することで、ソースドメインとターゲットドメインのデータが依存し合う複数の要素を持つ場合に、その共分散の情報を保って学習を行うことができる。
【0054】
また、上記の例2で記載した量子の状態を表す測度に対するカーネル平均埋め込みの内積を用いて、量子の状態に対する機械学習や統計の手法を用いた解析が可能となる。
【0055】
<解析装置10のハードウェア構成>
次に、本実施形態に係る解析装置10のハードウェア構成について、
図1を参照しながら説明する。
図1は、本実施形態に係る解析装置10のハードウェア構成の一例を示す図である。
【0056】
図1に示すように、本実施形態に係る解析装置10は一般的なコンピュータ又はコンピュータシステムで実現され、ハードウェアとして、入力装置11と、表示装置12と、外部I/F13と、通信I/F14と、プロセッサ15と、メモリ装置16とを有する。これらの各ハードウェアは、それぞれがバス17を介して通信可能に接続されている。
【0057】
入力装置11は、例えば、キーボードやマウス、タッチパネル等である。表示装置12は、例えば、ディスプレイ等である。なお、解析装置10は、入力装置11及び表示装置12のうちの少なくとも一方を有していなくてもよい。
【0058】
外部I/F13は、外部装置とのインタフェースである。外部装置には、記録媒体13a等がある。解析装置10は、外部I/F13を介して、記録媒体13aの読み取りや書き込み等を行うことができる。なお、記録媒体13aには、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等がある。
【0059】
通信I/F14は、解析装置10を通信ネットワークに接続するためのインタフェースである。プロセッサ15は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の各種演算装置である。メモリ装置16は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ等の各種記憶装置である。
【0060】
本実施形態に係る解析装置10は、
図1に示すハードウェア構成を有することにより、後述するデータ解析処理を実現することができる。なお、
図1に示すハードウェア構成は一例であって、解析装置10は、他のハードウェア構成を有していてもよい。例えば、解析装置10は、複数のプロセッサ15を有していてもよいし、複数のメモリ装置16を有していてもよい。
【0061】
<解析装置10の機能構成>
次に、本実施形態に係る解析装置10の機能構成について、
図2を参照しながら説明する。
図2は、本実施形態に係る解析装置10の機能構成の一例を示す図である。
【0062】
図2に示すように、本実施形態に係る解析装置10は、機能部として、取得部101と、解析部102と、記憶部103とを有する。取得部101及び解析部102は、例えば、解析装置10にインストールされた1以上のプログラムがプロセッサ15に実行させる処理により実現される。また、記憶部103は、例えば、メモリ装置16を用いて実現可能である。なお、記憶部103は、例えば、解析装置10と通信ネットワークを介して接続される記憶装置(例えば、データベースサーバ等)により実現されていてもよい。
【0063】
記憶部103には、解析対象のデータ(例えば、解析対象となるXの元及びそのA値測度、上記の例2に対して適用する場合は更に量子の状態を表す線形作用素ρ等)が記憶される。
【0064】
取得部101は、解析対象のデータを記憶部103から取得する。解析部102は、取得部101によって取得されたデータの解析(つまり、例えば、内積・ノルムの計算や、その計算結果を用いた可視化・異常検知等)を行う。
【0065】
<データ解析処理>
次に、本実施形態に係る解析装置10が実行するデータ解析処理の流れについて、
図3を参照しながら説明する。
図3は、本実施形態に係るデータ解析処理の一例を示すフローチャートである。
【0066】
まず、取得部101は、解析対象のデータ(つまり、解析対象となるXの元及びそのA値測度、上記の例2に対して適用する場合は更に量子の状態を表す線形作用素ρ等)を記憶部103から取得する(ステップS101)。
【0067】
そして、解析部102は、上記のステップS101で取得されたデータの解析を行う(ステップS102)。なお、データの解析としては、上記の「2. RKHMを用いたカーネル平均埋め込みの応用」に記載した内積・ノルムの計算やその計算結果を用いた可視化・異常検知、データ同士の比較、データの生成、学習等が挙げられる。なお、内積の計算方法の具体例は、ランダム性を持つ複数のデータ間の共分散を表す測度である場合は上記の式(1)、量子の状態を表す測度である場合は上記の式(2)に示す通りである。
【0068】
以上により、本実施形態に係る解析装置10は、複数のランダム性を持つデータ解析(特に、複数のランダムなデータが相互作用し合っている場合のデータや量子状態を表すデータの可視化、異常検知等)を行うことができる。
【0069】
<実験>
最後に、上記の「2.1 A値測度の間の距離」に記載した例1及び例2に対して、本実施形態に係る解析装置10を適用した場合の実験結果について説明する。
【0070】
1. ランダム性を持つ複数のデータ間の共分散を表す測度
X=R、Ω=R5とし、Ω上の、Xに値を持つ以下の式(4)~(6)のような確率変数からデータを作成した。
【0071】
【数22】
μ
Xを、(i,j)成分がX
iとX
jの共分散を表す測度
【0072】
【数23】
になるようなA値測度とする。このとき、Φ(μ
X)とΦ(μ
Y)の内積、Φ(μ
Y)とΦ(μ
Z)の内積、Φ(μ
X)とΦ(μ
Z)の内積を上記の式(1)によりそれぞれ計算し、Kernel PCAにより第1主軸及び第2主軸でμ
X、μ
Y、μ
Zを可視化した。その結果を
図4に示す。
図4に示すように、相互に関係しているμ
Yとμ
Z間の距離は近いのに対して、関係のないμ
Xとμ
Y間の距離及びμ
Xとμ
Z間の距離は遠くなっている。
【0073】
(既存手法との比較)
上記の式(4)で定義される[X1,X2,X3]に従う独立なデータと、上記の式(5)で定義される[Y1,Y2,Y3]に従う独立なデータとをそれぞれ用意し、上記の参考文献1に記載されているtwo-sample testを行った。なお、two-sample testは2種類のサンプルが同じ確率分布に従うかどうかを判定するテストである。
【0074】
本実施形態に係る解析装置10により各データ間の距離を測り(つまり、|Φ(μX)-Φ(μY)|kにより測り)、two-sample testを行ったもの(提案手法)と、既存の距離を測り、two-sample testを行ったもの(従来手法)とを比較した。従来手法としては、参考文献1に記載されているRKHSと、参考文献4「B. K. Sriperumbudur, K. Fukumizu, A. Gretton, B. Scholkopf, and G. R. G. Lanckriet, On the empirical estimation of integral probability metrics. Electronic Journal of Statistics, 6:1550-1599, 2012.」に記載されているKantrovich及びDadleyとを採用した。また、以下のCase1及びCase2のそれぞれの場合で、提案手法及び従来手法の各手法において異なるデータで50回テストを行い、2種類のサンプルが同じ分布に従うと判定された率を計算した。その結果を以下の表1に示す。
【0075】
・Case1:[X1,X2,X3]に従う独立なデータ10個と[X1,X2,X3]に従う独立なデータ10個
・Case2:[X1,X2,X3]に従う独立なデータ10個と[Y1,Y2,Y3]に従う独立なデータ10個
【0076】
【表1】
Case1では2種類のサンプルが同じ分布に従うと判定される率が高く、Case2では2種類のサンプルが同じ分布に従うと判定される率が低い方が、判定問題を正確に解けているといえる。提案手法ではCase1の率が高く、Case2の率が低いことを同時に達成しており、両方の場合で正確な判定ができているといえる。
【0077】
2. 量子の状態を表す測度
上記の例2において、m=2、s=4とする。また、
【0078】
【数24】
とする。このとき、a
1,i=0.25(ただし、i=1,2,3,4)に対して
【0079】
【数25】
とする。また、a
2,1=0.4、a
2,4=0.1、a
2,2=a
2,3=0.25に対して
【0080】
【数26】
とする。更に、上記の例2と同様にμを定義する。ρ
1及びρ
2についてはそれぞれに少量のノイズを加え、それぞれ50個のサンプルを用意した。
【0081】
このとき、ρ1に関する50個の各サンプルρ1,i(ただし、i=1,・・・,50)について上記の式(3)に示す誤差(再構成誤差)を最小にする第1主軸p1を求め、ρ1に関する50個の各サンプルとρ2に関する50個の各サンプルρj,i(ただし、j=1,2、i=1,・・・,50)それぞれに関してCm×m値の再構成誤差
【0082】
【数27】
を計算し、そのノルムの値をプロットした。このプロット結果を
図5に示す。つまり、
図5では、ρ
1に関するデータを正常状態と考え、それを用いて学習を行い、得られた近似p
1〈p
1,Φ(ρ
j,iμ)〉
kと真の状態Φ(ρ
j,iμ)とがどの程度離れているかの値を、正常状態からの乖離(異常度)と捉え、プロットしている。
【0083】
図5に示すように、ρ
1に関するサンプルに比べてρ
2に関するサンプルの異常度は高くなっていることから、正常状態であるρ
1に対してρ
2が乖離している(つまり、異常状態である)ということが精度良く表現できているといえる。
【0084】
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術等との組み合わせが可能である。
【0085】
本願は、日本国に2020年7月16日に出願された基礎出願2020-122352号に基づくものであり、その全内容はここに参照をもって援用される。
【符号の説明】
【0086】
10 解析装置
11 入力装置
12 表示装置
13 外部I/F
13a 記録媒体
14 通信I/F
15 プロセッサ
16 メモリ装置
17 バス
101 取得部
102 解析部
103 記憶部