IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人岩手大学の特許一覧

特許7485354統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム
<>
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図1
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図2
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図3
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図4
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図5
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図6
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図7
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図8
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図9
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図10
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図11
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図12
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図13
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図14
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図15
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図16
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図17
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図18
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図19
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図20
  • 特許-統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム 図21
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-08
(45)【発行日】2024-05-16
(54)【発明の名称】統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240509BHJP
【FI】
G06T7/00 300F
【請求項の数】 12
(21)【出願番号】P 2020158384
(22)【出願日】2020-09-23
(65)【公開番号】P2022052171
(43)【公開日】2022-04-04
【審査請求日】2023-05-31
【新規性喪失の例外の表示】特許法第30条第2項適用 1.令和2年6月7日に公開された米国コーネル大学図書館が運営する研究文献の電子アーカイブ「arXiv」上のウェブサイトアドレス https://arxiv.org/abs/2006.04017v1.pdf、 https://arxiv.org/abs/2006.04017v1、及び、 https://arxiv.org/abs/2006.04017を通じて、「arXiv:2006.04017v1」、「arXiv:2006.04017」で発表(表題:Information Mandala: Statistical Distance Matrix with Its Clustering) 2.令和2年6月22日に公開された米国コーネル大学図書館が運営する研究文献の電子アーカイブ「arXiv」上のウェブサイトアドレス https://arxiv.org/abs/2006.04017v2.pdf、 https://arxiv.org/abs/2006.04017v2、及び、 https://arxiv.org/abs/2006.04017を通じて、「arXiv:2006.04017v2」、「arXiv:2006.04017」で発表(表題:Information Mandala: Statistical Distance Matrix with Clustering)
(73)【特許権者】
【識別番号】504165591
【氏名又は名称】国立大学法人岩手大学
(74)【代理人】
【識別番号】100107010
【弁理士】
【氏名又は名称】橋爪 健
(72)【発明者】
【氏名】盧 忻
【審査官】久保 光宏
(56)【参考文献】
【文献】Xin Lu,"Information Mandala: Statistical Distance Matrix with Clustering",arXiv:2006.04017v2,version v2,[online], arXiv (Cornell University),2020年06月22日,Pages 1-16,[令和3年12月6日検索], インターネット, <URL: https://arxiv.org/abs/2006.04017v2>.
【文献】Lalitha Madhavi K.S., et al.,"Multivariate Deep Causal Network for Time series Forecasting in Interdependent Networks",Proceedings of 2018 IEEE Conference on Decision and Control (CDC),2018年12月19日,Pages 6476-6481,ISBN: 978-1-5386-1395-5, <DOI: 10.1109/CDC.2018.8619668>.
【文献】XIN LU,"Information Mandala: Statistical Distance Matrix With Clustering",IEEE Access,2021年04月09日,Vol.9,Pages 56563-56577,ISSN: 2169-3536, <DOI: 10.1109/ACCESS.2021.3072237>.
(58)【調査した分野】(Int.Cl.,DB名)
G06T7/00
G06V10/00-20/90
G06N3/00-99/00
CSDB(日本国特許庁)
学術文献等データベース(日本国特許庁)
IEEEXplore(IEEE)
(57)【特許請求の範囲】
【請求項1】
統計的距離行列の計算方法であって、
処理部は、入力部又は他の装置又は記憶部から、比較対象となる第1のベクトルデータaa及び第2のベクトルデータbbを入力し、又は、前記処理部は、入力部又は他の装置又は記憶部から、比較対象となる第1の行列又は画像又は集合データAA及び第2の行列又は画像又は集合データBBを入力して前記第1のベクトルデータaa及び前記第2のベクトルデータbbにベクトル化し、
前記処理部は、前記第1のベクトルデータaa及び前記第2のベクトルデータbbから、それぞれ、第1の平均ベクトルμμと第2の平均ベクトルμμ、及び、第1の共分散行列ΣΣと第2の共分散行列ΣΣを計算し、
前記処理部は、第1の平均ベクトルμμ、第2の平均ベクトルμμ、第1の共分散行列ΣΣ、第2の共分散行列ΣΣにより定義される統計的距離Dの脱トレースである統計的距離行列DD(ここで、D=tr DD)を求め、
前記処理部は、統計的距離行列DDを前記記憶部に記憶し又は表示部に表示させ又は出力部により出力させる、
統計的距離行列の計算方法。
【請求項2】
請求項1に記載の統計的距離行列の計算方法において、
統計的距離はバタチャリア距離D(=tr DD)であり、統計的距離行列はバタチャリア距離行列DDであること、
統計的距離はチャーノフ距離D(=tr DD)であり、統計的距離行列はチャーノフ距離行列DDであること、
統計的距離はカルバック・ライブラーダイバージェンス距離DKL(=tr DDKL)であり、統計的距離行列はカルバック・ライブラーダイバージェンス距離行列DDKLであること、
統計的距離はマハラノビス距離D(=tr DD)であり、統計的距離行列はマハラノビス距離行列DDであること、
統計的距離は、トレース形式で表現できる統計的距離D(=tr DD)であり、統計的距離行列はDDであること、
のいずれかひとつ又は複数であることを特徴とする統計的距離行列の計算方法。
【請求項3】
統計的距離行列の可視化方法であって、
処理部は、入力部又は他の装置又は記憶部から、比較対象となる第1のベクトルデータaa及び第2のベクトルデータbbを入力し、又は、前記処理部は、入力部又は他の装置又は記憶部から、比較対象となる第1の行列又は画像又は集合データAA及び第2の行列又は画像又は集合データBBを入力して前記第1のベクトルデータaa及び前記第2のベクトルデータbbにベクトル化し、
前記処理部は、前記第1のベクトルデータaa及び前記第2のベクトルデータbbから、それぞれ、第1の平均ベクトルμμと第2の平均ベクトルμμ、及び、第1の共分散行列ΣΣと第2の共分散行列ΣΣを計算し、
前記処理部は、第1の平均ベクトルμμ、第2の平均ベクトルμμ、第1の共分散行列ΣΣ、第2の共分散行列ΣΣにより定義される統計的距離Dの脱トレースである統計的距離行列DD(ここで、D=tr DD)を求め、
前記処理部は、統計的距離行列DDの各対角成分に対して対角成分を含む行及び列の距離成分を累積して距離累積ベクトルφφを求め、
前記処理部は、距離累積ベクトルφφを距離累積行列ΦΦに行列化し、
前記処理部は、距離累積行列ΦΦ又は距離累積行列ΦΦによる画像を前記記憶部に記憶し又は表示部に表示させ又は出力部により出力させる、
統計的距離行列の可視化方法。
【請求項4】
請求項3に記載の統計的距離行列の可視化方法において、
前記処理部は、前記統計的距離行列DDに対してクラスタリング処理を実行して、各行番号若しくは列番号に対するクラスタラベル、又は、各行番号若しくは列番号に対応する要素IDに対するクラスタラベルを要素とするクラスタラベルベクトル若しくは集合又は要素ラベル集合を求め、
前記処理部は、クラスタラベルベクトル若しくは集合又は要素ラベル集合を行列化したときの行及び列に対応する距離累積行列ΦΦの行および列の各成分に、さらにクラスタラベルを付ける、
ことを特徴とする統計的距離行列の可視化方法。
【請求項5】
請求項3又は4に記載の統計的距離行列の可視化方法において、
前記処理部は、距離累積行列ΦΦのパターンにより第1のベクトルデータaaと第2のベクトルデータbbとの類似性を判定し、
前記処理部は、類似性を表すデータを前記記憶部に記憶し又は前記表示部に表示させ又は前記出力部により出力させる、
ことを特徴とする統計的距離行列の可視化方法。
【請求項6】
統計的距離行列の可視化方法であって、
処理部は、入力部又は他の装置又は記憶部から、比較対象となる第1のベクトルデータaa及び第2のベクトルデータbbを入力し、又は、前記処理部は、入力部又は他の装置又は記憶部から、比較対象となる第1の行列又は画像又は集合データAA及び第2の行列又は画像又は集合データBBを入力して前記第1のベクトルデータaa及び前記第2のベクトルデータbbにベクトル化し、
前記処理部は、前記第1のベクトルデータaa及び前記第2のベクトルデータbbから、それぞれ、第1の平均ベクトルμμと第2の平均ベクトルμμ、及び、第1の共分散行列ΣΣと第2の共分散行列ΣΣを計算し、
前記処理部は、第1の平均ベクトルμμ、第2の平均ベクトルμμ、第1の共分散行列ΣΣ、第2の共分散行列ΣΣにより定義される統計的距離Dの脱トレースである統計的距離行列DD(ここで、D=tr DD)を求め、
前記処理部は、前記統計的距離行列DDに対してクラスタリング処理を実行して、各行に対応する番号若しくはID、又は、各列に対応する番号若しくはID、に対するクラスタラベルを要素とするクラスタラベルベクトル若しくは集合を求め、
前記処理部は、前記クラスタラベルベクトル若しくは集合をクラスタラベル行列に行列化し、
前記処理部は、前記クラスタラベル行列又はクラスタラベル行列による画像を前記記憶部に記憶し又は表示部に表示させ又は出力部により出力させる、
統計的距離行列の可視化方法。
【請求項7】
請求項6に記載の統計的距離行列の可視化方法において、
前記処理部は、クラスタ行列のパターンにより第1のベクトルデータaaと第2のベクトルデータbbとの類似性を判定し、
前記処理部は、類似性を表すデータを前記記憶部に記憶し又は前記表示部に表示させ又は前記出力部により出力させる、
ことを特徴とする統計的距離行列の可視化方法。
【請求項8】
請求項3乃至7のいずれかに記載の統計的距離行列の可視化方法において、
統計的距離はバタチャリア距離D(=tr DD)であり、統計的距離行列はバタチャリア距離行列DDであること、
統計的距離はチャーノフ距離D(=tr DD)であり、統計的距離行列はチャーノフ距離行列DDであること、
統計的距離はカルバック・ライブラーダイバージェンス距離DKL(=tr DDKL)であり、統計的距離行列はカルバック・ライブラーダイバージェンス距離行列DDKLであること、
統計的距離はマハラノビス距離D(=tr DD)であり、統計的距離行列はマハラノビス距離行列DDであること、
統計的距離は、トレース形式で表現できる統計的距離D(=tr DD)であり、統計的距離行列はDDであること、
のいずれかひとつ又は複数であることを特徴とする統計的距離行列の可視化方法。
【請求項9】
請求項5又は7に記載の統計的距離行列の可視化方法において、
前記処理部は、距離累積行列ΦΦの各要素に対して予め定められた複数の閾値でセグメンテーションを行い、複数種類の要素領域を切り出し、予め定められた各要素領域に基づく面積比ρにより類似性を判定することを特徴とする統計的距離行列の可視化方法。
【請求項10】
請求項5又は7に記載の統計的距離行列の可視化方法において、
前記処理部は、前記パターンが、円形、楕円形、正方形又は長方形の形状で中心から放射状に広がるマンダラ状の画像であるマンダラパターンにより類似性を判定することを特徴とする統計的距離行列の可視化方法。
【請求項11】
統計的距離行列の可視化装置であって、
処理部
を備え、
前記処理部は、入力部又は他の装置又は記憶部から、比較対象となる第1のベクトルデータaa及び第2のベクトルデータbbを入力し、又は、前記処理部は、入力部又は他の装置又は記憶部から、比較対象となる第1の行列又は画像又は集合データAA及び第2の行列又は画像又は集合データBBを入力して前記第1のベクトルデータaa及び前記第2のベクトルデータbbにベクトル化し、
前記処理部は、前記第1のベクトルデータaa及び前記第2のベクトルデータbbから、それぞれ、第1の平均ベクトルμμと第2の平均ベクトルμμ、及び、第1の共分散行列ΣΣと第2の共分散行列ΣΣを計算し、
前記処理部は、第1の平均ベクトルμμ、第2の平均ベクトルμμ、第1の共分散行列ΣΣ、第2の共分散行列ΣΣにより定義される統計的距離Dの脱トレースである統計的距離行列DD(ここで、D=tr DD)を求め、
前記処理部は、統計的距離行列DDの各対角成分に対して対角成分を含む行及び列の距離成分を累積して距離累積ベクトルφφを求め、
前記処理部は、距離累積ベクトルφφを距離累積行列ΦΦに行列化し、
前記処理部は、距離累積行列ΦΦ又は距離累積行列ΦΦによる画像を前記記憶部に記憶し又は表示部に表示させ又は出力部により出力させる、
統計的距離行列の可視化装置。
【請求項12】
統計的距離行列の可視化プログラムであって、
処理部が、入力部又は他の装置又は記憶部から、比較対象となる第1のベクトルデータaa及び第2のベクトルデータbbを入力し、又は、前記処理部は、入力部又は他の装置又は記憶部から、比較対象となる第1の行列又は画像又は集合データAA及び第2の行列又は画像又は集合データBBを入力して前記第1のベクトルデータaa及び前記第2のベクトルデータbbにベクトル化するステップと、
前記処理部が、前記第1のベクトルデータaa及び前記第2のベクトルデータbbから、それぞれ、第1の平均ベクトルμμと第2の平均ベクトルμμ、及び、第1の共分散行列ΣΣと第2の共分散行列ΣΣを計算するステップと、
前記処理部が、第1の平均ベクトルμμ、第2の平均ベクトルμμ、第1の共分散行列ΣΣ、第2の共分散行列ΣΣにより定義される統計的距離Dの脱トレースである統計的距離行列DD(ここで、D=tr DD)を求めるステップと、、
前記処理部が、統計的距離行列DDの各対角成分に対して対角成分を含む行及び列の距離成分を累積して距離累積ベクトルφφを求めるステップと、
前記処理部が、距離累積ベクトルφφを距離累積行列ΦΦに行列化するステップと、
前記処理部が、距離累積行列ΦΦ又は距離累積行列ΦΦによる画像を前記記憶部に記憶し又は表示部に表示させ又は出力部により出力させるステップ、
をコンピュータに実行させるための統計的距離行列の可視化プログラム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、統計的距離行列の計算方法、統計的距離行列の可視化方法及び装置及びプログラムに係り、特に、統計的距離行列の精密化・表現・クラスタリングを用いた統計的距離行列の計算方法及、統計的距離行列の可視化方法及び装置及びプログラムに関する。
【背景技術】
【0002】
機械学習は、教師あり学習、教師なし学習、および強化学習という三種類に分けられる。具体的な目的として、分類、回帰、クラスタリング、次元削減、異常検知などの事例があり、解を求める方法として、サポートベクターマシーン、K平均法、決定木など多くのアルゴリズムがある。しかし、どのアルゴリズムに対しても観測値の特徴に関する距離関数の設計および最適化をしなければならない。例えば、分類におけるサポートベクターマシンは、最も効率的なカーネル関数を使用し、二つの観測値カテゴリ間の特徴距離を測定する必要がある。クラスタリングにおけるK平均法は、ユークリッド空間またはマハラノビス空間において、観測値をクラスターに分割し、各観測値クラスター内の特徴の平方和距離を最小化することを目的としている。
統計的距離は、二つの確率分布に従って独立に生成された標本(観測値)集合を用いて、その二つの確率分布間の距離と定義される。一般的な距離が持つわけではない数学的特性を有するため、機械学習に対して、その測定がより効果的かつ適切になり、小さな外れ値に対して、よりロバストである(頑健性がある)。今まで使用されたマハラノビス距離(Mahalanobis Distance)[9]、バタチャリヤ距離(Mahalanobis Distance)[1]、ヘリンガー距離(Hellinger Distance)[4]、カルバック・ライブラーダイバージェンス(Kullback-Leibler Divergence)[7]、チャーノフ距離(Chernoff Distance)[2]などのいくつかの重要な統計的距離は、画像セグメンテーション、テクスチャのセグメンテーション、色とテクスチャのマッチング、特徴抽出、音声認識、動作認識などを含む人工知能の分野に広く適用されている。
【0003】
従来技術としては、例えば、以下の文献が挙げられる。
特許文献1には、「畳み込み処理を含む学習器の判定制度を向上できる機械学習プログラム、機械学習方法および機械学習装置」(要約)が開示されている。
特許文献2には、「3つ以上の画像間の関連性を利用することで画像検索の精を向上させることができる」(要約)ようにした判定装置および判定方法が開示されている。
特許文献3には、「マハラノビス距離測定部を使用して、データベース内の複数の画像の中から問合せ画像を識別する」(アブストラクト)ようにした距離測定法を用いる画像検索について開示されている。
特許文献4には、「特徴の教師なし学習または半教師あり学習を実現するために、量子プロセッサが1つ以上のデータセットに階層型深層学習(HDLと呼ばれる)を実現するようにプログラムされる」(アブストラクト)ようにしたデータの量子プロセシングのためのシステム及び方法が開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2019-185483号公報
【文献】特開2017-167987号公報
【文献】米国特許第6,681,060号公報
【文献】米国特許第10,318,881号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、今まで使用されたマハラノビス距離(Mahalanobis Distance)[9]、バタチャリヤ距離(Mahalanobis Distance)[1]、ヘリンガー距離(Hellinger Distance)[4]、カルバック・ライブラーダイバージェンス(Kullback-Leibler Divergence)[7]、チャーノフ距離(Chernoff Distance)[2]などの従来の統計的距離は、観測値の特徴要素のサイズに関係なく、二つの観測値集合間のグローバル距離を表す、スカラー値の出力しか提供しないため、観測値内においてすべての特徴要素間のローカル距離を詳しく表現できない場合が想定されるという明らかな課題がある。したがって、スカラー値の統計的距離を距離行列に変換し、距離の精密化を実現する方法が、非常に重要になる。
一方、距離行列の概念は既にグラフ理論[3]に導入されている。例えば、有向グラフの距離行列は、重み付き隣接行列によって定義されている。各辺に重みが割り当てられている場合、二つの頂点間の距離は、二つの頂点を接続する最短パスの重みの和として測定できる。パスが方向付けられているため、その距離行列は非対称であり、対称性を持つ数学的に厳密な意味での距離ではない。各頂点の標本が十分に多い場合、相関行列または相互相関行列を使用して、隣接行列の要素の重みを同定し、距離行列として定量化する。ただし、相関行列は、すべてのデータが確率空間に従うことを前提とすれば、情報が失われるため、機械学習のいくつかの高い要件を満たさない。
また、上述の特許文献1~4には、本件発明のような、統計的距離を行列に変換する工程及び/又はその要素クラスタリングに関する手法については開示も示唆もされていない。
【0006】
上述の課題を解決するために、本発明では、例えば、単純な脱トレース(de-trace)操作によって、従来の統計的距離を行列形式に変換し、今までにない高いパフォーマンスを持つ統計的距離行列を提案した。機械学習の分野に最も有名な画像データセットCIFAR-10 [6]に関する実験を行い、複雑な場合でも統計的距離行列の効果があることを確認した。
本発明は、以上の点に鑑み、スカラー値の統計的距離を統計的距離行列に変換することで距離の精密化を実現することを目的とする。
【課題を解決するための手段】
【0007】
本発明の第1の解決手段によると、
統計的距離行列の計算方法であって、
処理部は、入力部又は他の装置又は記憶部から、比較対象となる第1のベクトルデータaa及び第2のベクトルデータbbを入力し、又は、前記処理部は、入力部又は他の装置又は記憶部から、比較対象となる第1の行列又は画像又は集合データAA及び第2の行列又は画像又は集合データBBを入力して前記第1のベクトルデータaa及び前記第2のベクトルデータbbにベクトル化し、
前記処理部は、前記第1のベクトルデータaa及び前記第2のベクトルデータbbから、それぞれ、第1の平均ベクトルμμと第2の平均ベクトルμμ、及び、第1の共分散行列ΣΣと第2の共分散行列ΣΣを計算し、
前記処理部は、第1の平均ベクトルμμ、第2の平均ベクトルμμ、第1の共分散行列ΣΣ、第2の共分散行列ΣΣにより定義される統計的距離Dの脱トレースである統計的距離行列DD(ここで、D=tr DD)を求め、
前記処理部は、統計的距離行列DDを前記記憶部に記憶し又は表示部に表示させ又は出力部により出力させる、
統計的距離行列の計算方法が提供される。
【0008】
本発明の第2の解決手段によると、
統計的距離行列の可視化方法であって、
処理部は、入力部又は他の装置又は記憶部から、比較対象となる第1のベクトルデータaa及び第2のベクトルデータbbを入力し、又は、前記処理部は、入力部又は他の装置又は記憶部から、比較対象となる第1の行列又は画像又は集合データAA及び第2の行列又は画像又は集合データBBを入力して前記第1のベクトルデータaa及び前記第2のベクトルデータbbにベクトル化し、
前記処理部は、前記第1のベクトルデータaa及び前記第2のベクトルデータbbから、それぞれ、第1の平均ベクトルμμと第2の平均ベクトルμμ、及び、第1の共分散行列ΣΣと第2の共分散行列ΣΣを計算し、
前記処理部は、第1の平均ベクトルμμ、第2の平均ベクトルμμ、第1の共分散行列ΣΣ、第2の共分散行列ΣΣにより定義される統計的距離Dの脱トレースである統計的距離行列DD(ここで、D=tr DD)を求め、
前記処理部は、統計的距離行列DDの各対角成分に対して対角成分を含む行及び列の距離成分を累積して距離累積ベクトルφφを求め、
前記処理部は、距離累積ベクトルφφを距離累積行列ΦΦに行列化し、
前記処理部は、距離累積行列ΦΦ又は距離累積行列ΦΦによる画像を前記記憶部に記憶し又は表示部に表示させ又は出力部により出力させる、
統計的距離行列の可視化方法が提供される。
【0009】
本発明の第3の解決手段によると、
統計的距離行列の可視化方法であって、
処理部は、入力部又は他の装置又は記憶部から、比較対象となる第1のベクトルデータaa及び第2のベクトルデータbbを入力し、又は、前記処理部は、入力部又は他の装置又は記憶部から、比較対象となる第1の行列又は画像又は集合データAA及び第2の行列又は画像又は集合データBBを入力して前記第1のベクトルデータaa及び前記第2のベクトルデータbbにベクトル化し、
前記処理部は、前記第1のベクトルデータaa及び前記第2のベクトルデータbbから、それぞれ、第1の平均ベクトルμμと第2の平均ベクトルμμ、及び、第1の共分散行列ΣΣと第2の共分散行列ΣΣを計算し、
前記処理部は、第1の平均ベクトルμμ、第2の平均ベクトルμμ、第1の共分散行列ΣΣ、第2の共分散行列ΣΣにより定義される統計的距離Dの脱トレースである統計的距離行列DD(ここで、D=tr DD)を求め、
前記処理部は、前記統計的距離行列DDに対してクラスタリング処理を実行して、各行に対応する番号若しくはID、又は、各列に対応する番号若しくはID、に対するクラスタラベルを要素とするクラスタラベルベクトル若しくは集合を求め、
前記処理部は、前記クラスタラベルベクトル若しくは集合をクラスタラベル行列に行列化し、
前記処理部は、前記クラスタラベル行列又はクラスタラベル行列による画像を前記記憶部に記憶し又は表示部に表示させ又は出力部により出力させる、
統計的距離行列の可視化方法が提供される。
【0010】
本発明の第4の解決手段によると、
統計的距離行列の可視化装置であって、
処理部
を備え、
前記処理部は、入力部又は他の装置又は記憶部から、比較対象となる第1のベクトルデータaa及び第2のベクトルデータbbを入力し、又は、前記処理部は、入力部又は他の装置又は記憶部から、比較対象となる第1の行列又は画像又は集合データAA及び第2の行列又は画像又は集合データBBを入力して前記第1のベクトルデータaa及び前記第2のベクトルデータbbにベクトル化し、
前記処理部は、前記第1のベクトルデータaa及び前記第2のベクトルデータbbから、それぞれ、第1の平均ベクトルμμと第2の平均ベクトルμμ、及び、第1の共分散行列ΣΣと第2の共分散行列ΣΣを計算し、
前記処理部は、第1の平均ベクトルμμ、第2の平均ベクトルμμ、第1の共分散行列ΣΣ、第2の共分散行列ΣΣにより定義される統計的距離Dの脱トレースである統計的距離行列DD(ここで、D=tr DD)を求め、
前記処理部は、統計的距離行列DDの各対角成分に対して対角成分を含む行及び列の距離成分を累積して距離累積ベクトルφφを求め、
前記処理部は、距離累積ベクトルφφを距離累積行列ΦΦに行列化し、
前記処理部は、距離累積行列ΦΦ又は距離累積行列ΦΦによる画像を前記記憶部に記憶し又は表示部に表示させ又は出力部により出力させる、
統計的距離行列の可視化装置が提供される。
【0011】
本発明の第5の解決手段によると、
統計的距離行列の可視化プログラムであって、
処理部が、入力部又は他の装置又は記憶部から、比較対象となる第1のベクトルデータaa及び第2のベクトルデータbbを入力し、又は、前記処理部は、入力部又は他の装置又は記憶部から、比較対象となる第1の行列又は画像又は集合データAA及び第2の行列又は画像又は集合データBBを入力して前記第1のベクトルデータaa及び前記第2のベクトルデータbbにベクトル化するステップと、
前記処理部が、前記第1のベクトルデータaa及び前記第2のベクトルデータbbから、それぞれ、第1の平均ベクトルμμと第2の平均ベクトルμμ、及び、第1の共分散行列ΣΣと第2の共分散行列ΣΣを計算するステップと、
前記処理部が、第1の平均ベクトルμμ、第2の平均ベクトルμμ、第1の共分散行列ΣΣ、第2の共分散行列ΣΣにより定義される統計的距離Dの脱トレースである統計的距離行列DD(ここで、D=tr DD)を求めるステップと、、
前記処理部が、統計的距離行列DDの各対角成分に対して対角成分を含む行及び列の距離成分を累積して距離累積ベクトルφφを求めるステップと、
前記処理部が、距離累積ベクトルφφを距離累積行列ΦΦに行列化するステップと、
前記処理部が、距離累積行列ΦΦ又は距離累積行列ΦΦによる画像を前記記憶部に記憶し又は表示部に表示させ又は出力部により出力させるステップ、
をコンピュータに実行させるための統計的距離行列の可視化プログラムが提供される。
【発明の効果】
【0012】
本発明によると、スカラー値の統計的距離を統計的距離行列に変換することで距離の精密化を実現することができる。
【図面の簡単な説明】
【0013】
図1】「1.行列に関する記号」についての説明図。
図2】「2.確率論に関する記号」及び「3.階層的クラスタリングに関する記号」についての説明図。
図3】本実施の形態に関するハードウェアの構成図。
図4】第1の実施の形態の統計的距離行列の可視化方法に関する技術についての説明図。
図5】第1の実施の形態の統計的距離行列の可視化方法に関するフローチャート。
図6】CIFAR-10データセット[6]における飛行機、鳥、猫、および犬の画像の例を示す図。
図7】飛行機と犬、鳥と犬、および猫と犬のケースに対する統計距離行列DD、DDKL、DD、およびDDを示す図。
図8】飛行機と犬、鳥と犬、および猫と犬のケースに対する距離累積画像ΦΦ、ΦΦKL、ΦΦ、およびΦΦを示す図。
図9】階層的クラスタリングの処理についての説明図。
図10】飛行機と犬のケースに対して、統計的距離行列DDを使用した階層的クラスタリング結果を示す図。
図11】鳥と犬のケースに対して、統計的距離行列DDを使用した階層的クラスタリング結果を示す図。
図12】猫と犬のケースに対して、統計的距離行列DDを使用した階層的クラスタリング結果を示す図。
図13】飛行機と犬のケースに対して、距離累積画像ΦΦから値の低い、普通、高い、合計3種類の要素領域を切り出した結果を示す図。
図14】鳥と犬のケースに対して、距離累積画像ΦΦから値の低い、普通、高い、合計3種類の要素領域を切り出した結果を示す図。
図15】猫と犬のケースに対して、距離累積画像ΦΦから値の低い、普通、高い、合計3種類の要素領域を切り出した結果を示す図。
図16】ρの計算結果の例を示す図。
図17】統計的距離に関する関連技術1についての説明図。
図18】相互相関行列に関する関連技術2についての説明図。
図19】階層的クラスタリングのフローチャート。
図20】第2の実施の形態の統計的距離行列の可視化方法に関するフローチャート
図21】第3の実施の形態の統計的距離行列の可視化方法に関するフローチャート
【発明を実施するための形態】
【0014】
1.記号の説明

まず、本明細書中で使用される記号について説明する。
図1に、「1.行列に関する記号」についての説明図を示す。
図2に、「2.確率論に関する記号」及び「3.階層的クラスタリングに関する記号」についての説明図を示す。
なお、記号の上に付される”^”の記号は、電子出願ソフトで使用できる文字・記号の制約・都合上、文字の右上に記載するが、数式で示すように、文字の真上に記載されたものと同一である。また、数式等で示すように、太文字のa等はベクトル、太文字のA、D、μ、Σ等は行列であるが、同制約・都合上、それぞれ、aa等と記載してベクトルを表し、AA、DD、μμ、ΣΣ等と記載して行列を表す。また、数式等で示すように、黒板文字のR、E等は、同制約・都合上、R、E等と記載する。また、[1]、[2]、・・・等は、参考文献の番号を表し、後述する(「11.参考文献」参照)。
【0015】
2.統計的距離
定義1:
一般に、確率空間(Ω、F、P)が与えられた場合、可測空間(R、B(R))に分布Pを持つd-次元のランダムベクトルXに対して、その累積分布関数はF(xx):=P(X≦xx)=P((-∞、xx])、x∈Rとする(「:=」は、定義することを表す。)。F(xx)が変数xxに関して連続である場合、p(xx):=dF(xx)/dxxは、Xの確率密度関数と呼ばれる。同様に、別の確率空間(Ω、F、Q)が与えられた場合、可測空間(R、B(R))に分布Qを持つd-次元のランダムベクトルXに対して、その累積分布関数はF(xx):=Q(X≦xx)=Q((-∞、xx])とする。F(xx)が連続ならば、Xの確率密度関数q(xx):=dF(xx)/dxxが得られる。通常に、p(xx)およびq(xx)は、それぞれp(xx)およびq(xx)と省略される。
上述の定義に基づいて、2つの確率密度関数p(xx)とq(xx)の間の非類似度を表すために、いくつかの測度が統計学に導入された。
【0016】
バタチャリヤ距離Dは、非類似度を定量化するために最初の計量として[1]に提案された(式(1))。そして、Dを拡張したチャーノフ距離Dは、[2]で導入された。ここで、平方根演算子は指数係数sに置き換えられた(式(2))。次式(3)のように定式化されたカルバックライブラーダイバージェンスDKLは、[7]で提案された。計量の公理を満たしていないため、計量ではないことに注意を要する。また、[4]で紹介されているヘリンガー距離Dは、ヘリンガー積分によって次式(4)のように定義される、若しくは、次式(5)のように与えられる。
【数1】

これらの測度はすべて、対応するランダムベクトルの次元dに関係なく、2つの確率密度関数p(xx)とq(xx)の間にあるスカラーの非類似度のみを与える。
【0017】
3.統計的距離行列

最初に、従来の距離行列として広く使用されている、相互相関行列RRについて説明する。正規分布N(μμ,ΣΣ)とN(μμ,ΣΣ)にそれぞれ従い、d-次元のランダムベクトルXとXを持つ2つの母集団(ベクトルの集合){aa}と{bb}、k=1,…,Nが与えられると、XとXの平均ベクトルμμ,μμ∈R、および共分散行列ΣΣ,ΣΣ∈Rd×dは、式(19)と(37)により得られる。
【数2】
【0018】
上式に基づいて、相互相関行列RRは、式(38)で計算される。ここで、ΣΣ1、2はXとXの相互共分散行列、diag(ΣΣ)は行列ΣΣの対角行列とする。
【数3】

ここで、diag(ΣΣ)とdiag(ΣΣ)にΣΣとΣΣの対角成分しかないため、情報が失われることに注意すべきである。
【0019】
一方、本発明及び/又は本実施の形態は、脱トレース(de-trace)操作により、スカラー値の統計的距離を変換して得た、新たな統計的距離行列を提案する。脱トレース操作をわかりやすくするために、まず、バタチャリヤ距離Dの特定ケースと見なすマハラノビス距離D[9]を紹介する。相互相関行列と同様に、平均ベクトルμμ,μμ∈Rと共分散行列ΣΣ,ΣΣ∈Rd×dをそれぞれ持つ2つの母集団{aa}と{bb}があれば、母集団の間のマハラノビス距離Dを次の二次形式で表す。
【数4】
【0020】
ここで、ΣΣ=ΣΣ=ΣΣとする。この二次形式は、式(6)の2行目で述べたように、トレース形式に変換できる。行列のトレースを脱ぐこと(removing the trace)により、マハラノビス距離行列DDを式(14)で得られる。
【数5】
【0021】
対照的に、バタチャリヤ距離行列DDに対応するバタチャリヤ距離Dは、定義1に従って連続的な可測空間で定義される必要である。本発明及び/又は本実施の形態では、2つの母集団(ベクトルの集合){aa}と{bb}からのd-次元ランダムベクトルXとXは、それぞれ2つの正規分布N(μμ,ΣΣ)とN(μμ,ΣΣ)に従うと仮定し、XとXの間のDは次式のように定義される。なお、後述の「10.付録 バタチャリヤ距離Dの導出(式(7))」に詳細な証明を示した。
【数6】
【0022】
式(7)の第1項が式(6)に似ているので、式(6)と同様にトレース形式に変換できる。さらに、次式に基づいて、行列式の自然対数関数である式(7)の第2項もトレース形式に変更できる。
【数7】
【0023】
ここで、AAとBBがRd×dにおける2つの正定行列である場合、上記のすべての数式が成り立つ。次に、トレースを脱ぐこと(dissolving the trace)により、バタチャリヤ距離行列DDを式(15)で表す。
【数8】
【0024】
2つの正規分布N(μμ,ΣΣ)とN(μμ,ΣΣ)の間のチャーノフ距離Dは、次式として定義される。これを後述の「10.付録 バタチャリヤ距離Dの導出(式(7))」に示す方法で同様に導出できる。
【数9】
【0025】
トレース形式への変換後に、トレースを脱ぐことにより、対応する距離行列DDは式(16)として得られる。
【数10】

チャーノフ距離Dとその距離行列DDは、DとDDから拡張されたものと考え、計算要求に応じて指数係数sを調整できるため、複雑なデータに対して柔軟に適応する能力を持つと考えられる。
【0026】
2つの正規分布N(μμ,ΣΣ)とN(μμ,ΣΣ)の間のカルバック・ライブラーダイバージェンスDKLは次式のように定義される。
【数11】
【0027】
ここで、IIはd-次元の単位行列である。式(12)のようにトレース形式を記述した上で、式(17)のようにトレースを脱ぐことにより、対応する距離行列DDKLを得る。式(17)第2項に対数演算はないことに注意すべきである。
【数12】
【0028】
2つの正規分布N(μμ,ΣΣ)とN(μμ,ΣΣ)の間のヘリンジャー距離行列DDを次式のように求めてみる。
【数13】

しかし、式(13)は、DDに関する関数と見なすことができるが、完全なトレース形式に変換できないため、ヘリンジャー距離Dに対して距離行列DDがないことが分かった。ここで、各統計的距離行列は、DD:=[δuv]∈Ud×d,u,v=1,…,dで定義される。

【0029】
4.ハードウェア及びプログラム

図3は、本実施の形態に関するハードウェアの構成図である。
このハードウェアは、中央処理装置(CPU)である処理部11、入力部12、出力部13、表示部14、記憶部15、インタフェース部(I/F)16を有する。また、処理部11、入力部12、出力部13、表示部14、記憶部15、インタフェース部(I/F)16は、スター又はバス等の適宜の接続手段で接続されている。記憶部15は、入力データファイル151、統計的距離行列ファイル152、距離行列ファイル153、クラスタ行列ファイル154、出力ファイル155等の各種ファイルを含む。
記憶部15の各ファイルに、「1.記号の説明」で示したデータ及びその他の適宜のデータが必要に応じて記憶することができる。処理部11は、記憶部15に記憶されたデータを必要に応じて読み出し及び/又はそこに書き込むことができる。処理部11は、必要に応じて、入力部12、I/F16からデータを入力することができる。処理部101は、入出力データに基づいて、本実施の形態の各処理を実行し、例えば、各種の統計的距離行列の計算、階層的クラスタリング処理、類似性判定等を実行することができる。また、処理部11は、必要に応じて、出力部13に出力し、I/F16を介して他の装置・部等へデータを出力し、表示部14にデータを出力することができる。
【0030】
本発明及び/又は実施の形態の統計的距離行列の計算方法又は装置・システムは、その各手順をコンピュータに実行させるため統計的距離行列の計算プログラム、計算プログラムを記録したコンピュータ読み取り可能な記録媒体、統計的距離行列の計算プログラムを含みコンピュータの内部メモリにロード可能なプログラム製品、そのプログラムを含むサーバ等のコンピュータ、等により提供されることができる。
また、本発明及び/又は実施の形態の統計的距離行列の可視化方法又は装置・システムは、その各手順をコンピュータに実行させるため統計的距離行列の可視化プログラム、可視化プログラムを記録したコンピュータ読み取り可能な記録媒体、統計的距離行列の可視化プログラムを含みコンピュータの内部メモリにロード可能なプログラム製品、そのプログラムを含むサーバ等のコンピュータ、等により提供されることができる。
【0031】
5.統計的距離行列の計算・可視化及び応用例

5.1.第1の実施の形態
図4に、第1の実施の形態の統計的距離行列の計算・可視化方法に関する技術についての説明図を示す。
図5に、第1の実施の形態の統計的距離行列の計算・可視化方法に関するフローチャートを示す。
【0032】
以下に、処理部11が実行する各ステップでの処理について説明する。
(ステップS101)
処理部11は、入力部12、記憶部15(入力データファイル151)、又は、I/F16を介して他の装置から、比較対象となるデータを入力する。
入力0及び出力0は、d個の要素で構成された特徴の2つの母集団(データ)である。
ここで、入力された母集団(データ)の特徴の形は、特徴ベクトル、特徴行列、あるいは特徴集合のうちいずれであってもよい。

(ステップS102)
処理部11は、入力データの特徴がベクトルである場合(条件1)、ステップS105に移行する。
ここで、
入力1:特徴ベクトルの2つの母集団{aa}と{bb
出力1:特徴ベクトルの2つの母集団{aa}と{bb
となる。
ここで、
aa:={a’}, t=1,...,d
{aa}, k=1,...,N
bb:={b’}, t=1,...,d
{bb}, k=1,...,N

処理部11は、入力データの特徴が行列である場合(条件2)、ステップS103に移行する。
処理部11は、入力データの特徴が集合である場合(条件3)、ステップS104に移行する。
【0033】
(ステップS103)
処理部11は、入力データの特徴が行列である場合(条件2)、行列をvec(・)によりベクトル化する。
ここで、
入力2:特徴行列の2つの母集団{AA}と{BB
出力1:特徴ベクトルの2つの母集団{aa}と{bb
となる。
ここで、
AA:={aij}, i=1,...,m, j=1,...,n,
{AA}, k=1,...,N
BB:={bij}, i=1,...,m, j=1,...,n,
{BB}, k=1,...,N

処理部11は、関数vec(・)より、入力された特徴行列{AA}、{BB}をベクトル化して特徴ベクトル{aa}、{bb}とする。すなわち、m行n列の行列を順次並べて、d個(d=m×n)の要素のベクトルを形成する。例えば、1列目を1~m番目、2列目をm+1~2m番目、3列目を2m+1~3m番目、・・・・、というように並べて行列化する。なお、行ごとに順番に並べるようにしても良い。
【0034】
(ステップS104)
処理部11は、入力データの特徴が集合である場合(条件3)、集合の要素をベクトルで並べる。
ここで、
入力3:特徴集合の2つの母集団{AA’}と{BB’
出力1:特徴ベクトルの2つの母集団{aa}と{bb
となる。
ここで、{AA’}、{BB’}は集合を表す。
AA’:={a’}, t=1,...,d
{AA’}, k=1,...,N
BB’:={b’}, t=1,...,d
{BB’}, k=1,...,N

なお、例えば、後述の例のように、入力データが画像である場合、特徴行列が入力され、ステップS103が実行される。また、入力データの特徴を予め定めて限定することにより、定められた特徴によりステップS102,S103,S104のいずれかひとつ又は2つの処理を省略するようにしてもよい。
【0035】
一例として、CIFAR-10データセット[6]を使用し、統計的距離行列の効果テストを行った。このデータセットには、RGB画像サイズは32×32ピクセル;10クラスの画像がそれぞれ6、000枚、計60、000枚の画像が含まれている。この例では、処理部11は、ステップS101で画像AAとBBを入力し、ステップS102で特徴行列と判定し、ステップS103を実行する。

図6は、CIFAR-10データセット[6]における飛行機、鳥、猫、および犬の画像の例を示す図である。
図に示すように、計算を簡略化して区別可能な結果を得るために、2クラスの類似度は、弱いものから昇順で、飛行機と犬、鳥と犬、および猫と犬の間の距離行列を計算した。すべての画像AA:=[aij]∈Um×n,i=1,…,m,j=1,…,nに対して、画像ピクセルの値域がU=[0、1]に指定され、画像の形が、ベクトル化する関数vec(・)により、特徴要素のベクトルaa:=[a´]=vecAA∈Rd×1,t=1,…,dのように再構成される。ここで、d=m×n。そして、2クラスの再構成された画像セット{aa}と{bb},k=1,…,Nは、それぞれ正規分布N(μμ,ΣΣ)とN(μμ,ΣΣ)に従い、d-次元のランダムベクトルXとXを持つ2つの母集団と考えられる。ここで、XとXの平均ベクトルμμ,μμ∈R,および共分散行列ΣΣ,ΣΣ∈Rd×dは、式(19)と(37)により得られる。
この例では、画像セット{aa}と{bb}が、飛行機と犬、鳥と犬、および猫と犬の順に設定された。各クラスにおいて、トレーニング画像のみが使用されるため、Nは5000とした。
【0036】
(ステップS105)
処理部11は、式(19)、(37)より母集団の平均ベクトルと共分散行列を算出する。
ここで、
入力:ステップS102、S103、S104のいずれかの出力1
出力2:特徴ベクトルの2組の平均ベクトルと共分散行列μμ、ΣΣとμμ、ΣΣ
となる。

本発明及び/又は本実施の形態では、統計的距離行列の計算に、一例として、2組の平均ベクトルと共分散行列μμ、ΣΣとμμ、ΣΣを用いた。しかし、これらのパラメータは限定されるものではなく、データのサイズ等に合わせて適宜定めることができるものとする。
【0037】
(ステップS106)
処理部11は、:式(14)、(15)、(16)、(17)の予め定められたいずれかひとつ又は複数より統計的距離行列を算出する。
ここで、
入力:ステップS105の出力2
出力3:統計的距離行列DD
となる。
ここで、
DD:={δuv}, u,v=1,...,d

式(14)、(15)、(16)、(17)のうち統計的距離行列DDとしてどの式を使用するかは、適宜の段階で入力部12等から設定しても良いし、デフォルトで設定されていても良い。また、複数の式を設定した場合、以下の処理は各式に対応してそれぞれ実行する。
また、統計的距離については、上述の式(14)、(15)、(16)、(17)等の例の他にも、二次形式、行列式の自然対数関数などの項で構成された、周知、公知又は任意のトレース形式で表現できる統計的距離を用いることができ、その周知、公知又は任意の統計的距離を脱トレース操作により統計的距離行列を算出することができる。
【0038】
図7は、飛行機と犬、鳥と犬、および猫と犬のケースに対する統計距離行列DD、DDKL、DD、およびDDを示す図である。
各ケースについて、式(19)と(37)で計算された平均ベクトルμμとμμ、および共分散行列ΣΣとΣΣを、式(14)-(17)にそれぞれ代入し、3つのケースに対して、4つの統計距離行列DD、DDKL、DD、およびDDを計算した。
図に示すように、この例では、3つのケースに対して、すべてのDDとDDKLは無秩序かつ情報量が少ないように見えた。対照的に、DDと指数係数sが0.3に設定されたDDの中央にある、高い値を持つローカル距離δuvは、グリッドのようなパターンで表された。画像aaおよびbbのピクセルa´tおよびb´tが、それぞれ可測空間内のランダムベクトルXおよびXの対応する要素と見なされると、これらの高い値を持つローカル距離は、aaとbbの区別に、効果的に使用できる。DDは、sが1/2に設定されているDDの特定のケースだとしたら、DDのような統計的距離行列が有効であると考えられる。
【0039】
(ステップS107)
処理部11は、式(20)より距離累積ベクトルを算出する。
ここで、
入力:ステップS106の出力3
出力4:距離累積ベクトルφφ
となる。
【数14】

すなわち処理部11は、各画像ピクセルa´tとb´tに対して、式(20)のように、関連するすべての又は予め定められたローカル距離を累積し、得られた値を新たなピクセルに割り当てて、距離累積ベクトルφφ:=[φ´]∈Rd×1,t=1,…,dを作る。

(ステップS108)
処理部11は、:関数vec^(・)より距離累積ベクトルを順次並べて行列化して統計的距離行列とする。すなわち、d個の要素のベクトルを順次並べて、m×n=dを満たすm行n列の行列を形成する。
ここで、
入力:ステップS107の出力4
出力5:距離累積行列ΦΦ
となる。

ここで、距離累積行列(距離累積画像)ΦΦ:=[φij]=vec^(φφ),i=1,…,m,j=1,…,nは、距離累積ベクトルφφにより構成され、距離行列を表現する方法として使用する。ここで、vec^(・)は、vec(・)の逆のプロセスとした。
処理部11は、関数vec^(・)より、入力された距離累積ベクトルφφ:=[φ´],t=1,…,dのd個の要素のベクトルを順次並べて、m×n=dを満たすm行n列の行列を形成することで行列化を行い距離累積行列ΦΦとする。すなわち、φ´~φ´を1列目、φ´m+1~φ´2mを2列目、φ´2m+1~φ´3mを3列目、・・・・、というように並べて行列化する。なお、行ごとに順番に並べるようにしても良い。
【0040】
図8は、飛行機と犬、鳥と犬、および猫と犬のケースに対する距離累積画像ΦΦ、ΦΦKL、ΦΦ、およびΦΦを示す図である。
統計的距離行列の効果に対して、それ自体よりも、距離累積画像は、もっと明瞭に反映できる。図に示すように、DDとDDKLの距離累積画像ΦΦとΦΦKLは無秩序であり、DDとDDの距離累積画像ΦΦとΦΦは規則的なパターンを示した。主な表現は、高値のピクセルがすべて距離累積画像の中心に集中し、円または楕円に似た分布を示すことである。飛行機や犬などの類似性が低いクラスの場合、高値のピクセルの数が多くなり、それらの位置が画像の中心により集中している。対照的に、猫や犬などの類似性が高いクラス間では、高値のピクセルは少なく、中値のピクセルと一緒に画像の中心に広く集中している。したがって、距離行列イメージング法は、2クラスに対して画像ピクセル間の差異の大きさと位置を同時に定量化できる。
【0041】
(ステップS109)
ステップS106の後、一方で、処理部11は、統計的距離行列DDに対して階層的クラスタリングにより特徴要素のクラスタを算出し、クラスタラベル集合を求める。すなわち、処理部11は、d行×d列の統計的距離行列DDに基づいて、d個の要素IDに付けられたクラスタラベルの集合を求める。
ここで、
入力:ステップS106の出力3
出力6:j個の要素クラスタを表すクラスタラベル集合Sd-j
となる。
処理部11は、関数vec^(・)より、入力されたクラスタラベル集合にあるd個の要素のクラスタラベルを、ベクトルのように要素ID順に並べて、m×n=dを満たすm行n列の行列を形成することで行列化してクラスタ行列とする。すなわち、1番目~m番目の要素を1列目、m+1番目~2m番目の要素を2列目、2m+1番目~3m番目の要素を3列目、・・・・、というように並べて行列化する。なお、行ごとに順番に並べるようにしても良い。
【0042】
図9に、階層的クラスタリングの処理についての説明図を示す。
この例では、図9(A)のように、処理部11は、統計的距離行列DDは9行×9列であり、行番号又は列番号に対応する9個の要素ID(C1,C2,...,C9)に付けられたクラスタラベルの集合を求める。
ここでは一例として、図9(B)のように樹形図が求められ、さらに、図9(C)のように、各要素IDに対してクラスタラベルが付与されている。
C1:“1”、 C2:“3”、 C3:“1”、
C4:“3”、 C5:“2”、 C6:“3”、
C7:“1”、 C8:“3”、 C9:“1”,
【0043】
階層的クラスタリングの処理は、周知又は公知又は適宜の処理を用いることができる。
例えば、階層的クラスタリングについて、以下のサイトにわかりやすい例が示される。
http://www.snap-tck.com/room04/c01/stat/stat20/stat2002.html
以下に、これを参照して概要を説明する。
統計的距離行列DDに対して、行番号又は列番号に対応する要素IDを有する。最初に、各要素に違うクラスタラベルを付けるため、各クラスタは1つの要素のみを含む。処理部11は、入力した統計的距離行列DDにおいて距離δuvが最も近い2つのクラスタを融合する。融合された2つのクラスタと他のクラスタとの距離を比較し、長いものは、融合後に生成した新たなクラスタと他のクラスタとの距離として、統計的距離行列DDを更新する。さらに処理部11は、更新した統計的距離行列DDにさらに距離δuvが最も近い2つのクラスタを融合し、長い方の距離でクラスタを更新し統計的距離行列DDを更新するという処理を、1つのクラスタになるまで繰り返す。これにより、処理部11は、クラスタラベルの樹形図を形成し、樹形図に従い予め設定されクラスタ数に応じてグループ分けをして要素IDに対するクラスタラベルを付する。この結果をクラスタラベル集合として形成する。処理部11は、さらにクラスタラベル集合を最初の要素ID順に並べ、行列化してクラスタ行列を形成することができる。処理部11は、クラスタ行列を記憶部15(クラスタ行列ファイル154)に記憶することができる。

また、階層的クラスタリングに関する処理の一例として、後述の「9.距離行列のクラスタリング」で説明する。
さらに、階層的クラスタリングに限らず、周知又は公知又は適宜のクラスタリングの処理を用いてもよい。
【0044】
図10は、飛行機と犬のケースに対して、統計的距離行列DDを使用した階層的クラスタリング結果を示す図である(ラベル付き距離累積画像ΦΦ。(a):3つのクラスタ; (b):10つのクラスタ)。
図11は、鳥と犬のケースに対して、統計的距離行列DDを使用した階層的クラスタリング結果を示す図である(ラベル付き距離累積画像ΦΦ。(a):3つのクラスタ; (b):10つのクラスタ)。
図12は、猫と犬のケースに対して、統計的距離行列DDを使用した階層的クラスタリング結果を示す図である(ラベル付き距離累積画像ΦΦ。(a):3つのクラスタ; (b):10つのクラスタ)。
ここで、処理部11は、統計的距離行列DDに基づいて、「9.距離行列のクラスタリング」で後述するような階層的クラスタリングアルゴリズムを使用し、その距離累積画像ΦΦのピクセル(特徴要素)をクラスタリングした。これらの図に示すように、飛行機と犬、鳥と犬、および猫と犬の3つのケースに対して、それぞれのΦΦのピクセルを3つおよび10つのクラスタに分離し、ラベルを付けた。得られたクラスタパターンは、すべて円形または正方形(又は、楕円形、長方形等)で対称であり、中心点から放射状に広がる。このようなクラスタパターンはマンダラと見なすことができる。したがって、統計的距離行列のクラスタリング結果を直観的に説明するために、「情報マンダラ」という用語を確立した。(なお、マンダラという言葉は、「聖なる円」を意味するサンスクリット語の用語である。ヒンズー教、仏教、ジャイナ教、神道などのさまざまな宗教的伝統において、マンダラは、楽園、神々、または実際の神社を表すための図として使用されている。マンダラは円形または正方形であり、中心点から放射状に広がる色、形、およびパターンで設計されている。マンダラは正確に測定されると、幾何学的な対称性を持つ。)
【0045】
(ステップS110)
処理部11は、:行列要素にクラスタラベル(要素ラベル)を付ける。
ここで、
入力:ステップS109の出力6、S108の出力5
出力7:類似性によりマンダラパターン
となる。
処理部11は、このステップで、関数vec^(・)よりクラスタ集合を行列化してクラスタ行列としてもよい。すなわち、d個の要素のクラスタラベルを、ベクトルのように要素ID順に並べて、m×n=dを満たすm行n列の行列を形成することができる。あるいは、処理部11は、ステップS109又はS110で、実際にクラスタ行列を形成しなくても、クラスタ集合を距離累積行列ΦΦと対応付けるようにしてもよい。
例えば、図9の例では、処理部11は、図9(D)に示したように、クラスタラベル集合はベクトル化されると、9行であり、これをvec^(・)の処理により3行×3列のクラスタ行列として、統計的距離行列DDは3行×3列に対応したクラスタラベルを付ける。
【0046】
(ステップS111)
処理部11は、クラスタラベル付きの距離累積行列ΦΦを記憶部15(距離累積行列ファイル153)に記憶することができる。また処理部11は、距離累積行列ΦΦを、例えば画像として、表示部14に表示させ、及び/又は、出力部13若しくはI/F16により結果を出力することができる。
ここで、
入力:S110の出力7
出力:S110の出力7
となる。

(ステップS112)
処理部11は、距離累積行列ΦΦのパターンによりaaとbbとの類似性を判定する。処理部11は、判定結果を、出力ファイルに154記憶することができる。類似性の判定の具体的処理については、「6.距離累積画像におけるマンダラパターンの定量化」で後述する。

なお、処理部11は、各ステップS101~S112等で計算・求めた各データ・出力結果等のいずれか又は複数を、適宜記憶部15又は記憶部15内の各ファイル(入力データファイル151、統計的距離行列ファイル152、距離行列ファイル153、クラスタ行列ファイル154、出力ファイル155等)に記憶してもよく、そこから必要に応じて読み出すことができる。また、処理部11は、各ステップS101~S112等で計算・求めた各データ・出力結果等のいずれか又は複数を、表示部14に表示させ、及び/又は、出力部13若しくはI/F16により結果を出力してもよい。
【0047】
5.2.第2の実施の形態

図20に、第2の実施の形態の統計的距離行列の可視化方法に関するフローチャートを示す。
第2の実施の形態は、第1の実施の形態におけるステップS109及びS110を省略したものである。

(ステップS101)~(ステップS108)
処理部11は、第1の実施の形態と同様の処理を実行する。
(ステップS111)
処理部11は、距離累積行列ΦΦを、例えば画像として、表示部14に表示させ、及び/又は、出力部13若しくはI/F16により結果を出力することができる。(なお、クラスタラベルは付されていない。)
(ステップS112)
処理部11は、第1の実施の形態と同様の処理を実行する。

その他、処理の詳細は、第1の実施の形態と同様である。
【0048】
5.3.第3の実施の形態

図21に、第3の実施の形態の統計的距離行列の可視化方法に関するフローチャートを示す。
第3の実施の形態は、第1の実施の形態におけるステップS107及びS108を省略し、ステップS110をステップS110-2に置き換えたものである。

(ステップS101)~(ステップS106)、(ステップS109)
処理部11は、は第1の実施の形態と同様の処理を実行する。
(ステップS110-2)
処理部11は、関数vec^(・)よりクラスタラベル集合を行列化して統計的距離行列とする。すなわち、d個のクラスタラベル集合を順次並べて、m×n=dを満たすm行n列の行列を形成する。
ここで、
入力:ステップS109の出力4
出力5:クラスタ行列
となる。
(ステップS111)
処理部11は、クラスタラベル行列を出力する。
(ステップS112)
処理部11は、第1の実施の形態と同様の処理を実行する。

その他、処理の詳細は、第1の実施の形態と同様である。
【0049】
5.4.第3の実施の形態の効果補足

距離累積行列ΦΦにおける各要素の値は、距離行列にある、その要素とすべての要素のローカル距離を累積した値である。したがって、距離累積行列ΦΦは、距離行列を圧縮して得たものと考えられ、距離行列より情報量は少ない。距離累積行列ΦΦの中に、ローカル距離の形跡も存在していないので、距離累積行列ΦΦから、距離行列を復元できない。
一方、クラスタリング結果としての樹形図は、距離行列にあるローカル距離の大きさによって、要素同士を階層的に並べたものなので、各要素の間の相対的な距離関係をすべて含んでいる。したがって、樹形図から、元の絶対的な距離行列でなく、相対的な距離行列を復元することができる。樹形図は、距離累積行列ΦΦとの関係は薄い。また、樹形図の計算に生成されたd個の各j個の要素クラスタを表すクラスタラベル集合{Sd-j},j=d-i,i=1,…,d は、マンダラ模様を表すのに使用することができる。

距離累積行列ΦΦとクラスタリング結果は両方ともマンダラ模様を表しているが、それらの模様は異なる。例えば、図12の(b)に示すように、クラスタ2と8のラベルを付けたΦの要素は、近い値を持っているので、簡単な閾値の設定によっては、区別ができないかもしれないが、10個の要素クラスタを表す、クラスタラベル集合(要素ラベル集合)Sd-j(d=32x32,j=10)により区別することができる。
第1の実施の形態では、結果の見え方を一層わかりやすくするために、2種類のマンダラ模様を統合したが、第2の実施の形態又は第3の実施の形態のように、統合をしなくても構わない。
【0050】
6.距離累積画像におけるマンダラパターンの定量化
(距離累積画像のセグメンテーションによる非類似度(マンダラパターンの強さ)の測定)

処理部11は、以下の処理を実行することで距離累積行列(距離累積画像)におけるマンダラパターンの定量化(距離累積画像のセグメンテーションによる非類似度(マンダラパターンの強さ)の測定)を実現することができる。
距離累積行列(距離累積画像)ΦΦ:=[φij]=vec^(φφ),i=1,…,m,j=1,…,nのすべての要素に対しては、二つのしきい値で累積画像のセグメンテーションを行い、画像から値の低い、普通、および高い、合計3種類の要素領域を切り出す。値の高い要素領域と普通の要素領域を結合して得た領域は、多くの情報を持っているため、有効要素領域と呼ばれている。値の高い要素領域と有効要素領域の面積比(値の高い要素領域の要素数に対する有効要素領域の要素数の割合)を計算して求めた数値は、2クラスの非類似度、すなわち、マンダラパターンの強さと考えられる。
値の低い要素と普通の要素のしきい値θ、および普通の要素と高い要素のしきい値θは、それぞれ次式によって得られる。
θ:=(1/3)φmax ,θ:=(2/3)φmax (42)
ここで、φmaxは、距離累積画像ΦΦにおいて、要素の最大値とする。それらのしきい値に基づいて、値の低い、普通、および高い、合計3種類の要素領域Rlow、Rmedium、およびRighは、それぞれ次式で定義される。
low:={(i,j)|φ(i,j)≦θ
i=1,...,m,j=1,...,n} (43)
medium:={(i,j)|φ(i,j)≦θ
i=1,...,m,j=1,...,n} (44)
high:={(i,j)|θ≦φ(i,j),
i=1,...,m,j=1,...,n} (45)

そして、値の高い要素領域Rhighと有効要素領域Rmedium+Rhighの面積比ρは、RhighとRmedium+Rhighの要素数としたNhighとNmedium+Nhighの比率:
ρ:=Nhigh/(Nmedium+Nhigh) (46)
で表される。
【0051】
図13は、飛行機と犬のケースに対して、距離累積画像ΦΦから値の低い、普通、高い、合計3種類の要素領域を切り出した結果を示す図である(黒色:値の低い要素領域Rlow;灰色:値が普通の要素領域Rmedium;白色:値の高い要素領域Rhigh)。
図14は、鳥と犬のケースに対して、距離累積画像ΦΦから値の低い、普通、高い、合計3種類の要素領域を切り出した結果を示す図である(黒色:値の低い要素領域Rlow;灰色:値が普通の要素領域Rmedium;白色:値の高い要素領域Rhigh)。
図15は、猫と犬のケースに対して、距離累積画像ΦΦから値の低い、普通、高い、合計3種類の要素領域を切り出した結果を示す図である(。黒色:値の低い要素領域Rlow;灰色:値が普通の要素領域Rmedium;白色:値の高い要素領域Rhigh)。

これらの図に示すように、飛行機と犬、鳥と犬、および猫と犬のケースに対して、式(43)-(45)でそれぞれNlow、Nmedium、Nhigh、およびNmedium+Nhighを求めてから、式(46)で面積を算出する。その結果は、以下の図##の通りである。
【0052】
図16は、ρの計算結果の例を示す図である。
飛行機と犬、鳥と犬、および猫と犬のケースρは、値を高い方から低い順に並べており、人間の目と脳で2クラスの差異を認識する感覚と同じなので、2クラスの非類似度を表す尺度と考えられる。

(まとめ)
したがって、距離行列イメージング法で得られた距離累積画像ΦΦに対して、この「距離累積画像におけるマンダラパターンの定量化(距離累積画像のセグメンテーションによる非類似度(マンダラパターンの強さ)の測定)」の手法を使用すると、画像ピクセル間の差異の強さ(非類似度)や、位置、サイズおよび対称性(非類似性)等を同時に定量化することができた。その差異は、マンダラパターンのように、例えば、楕円形で対称であり、中心点から放射状に広がることが確認できた。
【0053】
7.関連技術との比較

図17に、統計的距離に関する関連技術1についての説明図を示す。
以下に、本発明の実施の形態と関連技術1とを比較する。この関連技術1では、処理部11は、入力された特徴ベクトルの2つの母集団{aa}と{bb}に対して、式(19)、(37)より、特徴ベクトルの2組の平均ベクトルと共分散行列μμ、ΣΣとμ、ΣΣとを求める。つぎに、処理部11は、2組の平均ベクトルと共分散行列μμ、ΣΣとμμ、ΣΣを用いて、式(6)、(7)、(11)又は(12)より統計的距離Dを計算する。
これに対して、例えば、本発明の実施の形態では、関連技術1のようなスカラー値である統計的距離Dではなく、画像等を表現可能な行列である統計的距離行列DDを計算する点で、両者は異なる。
【0054】
図18に、相互相関行列に関する関連技術2についての説明図を示す。
以下に、本発明の実施の形態と関連技術2とを比較する。この関連技術2では、処理部11は、入力された特徴ベクトルの2つの母集団{aa}と{bb}に対して、式(19)、(37)より、特徴ベクトルの2組の平均ベクトルと共分散行列μμ、ΣΣとμμ、ΣΣとを求める。つぎに、処理部11は、2組の平均ベクトルと共分散行列μμ、ΣΣとμμ、ΣΣを用いて、式(38)より相互相関行列RRを計算する。
これに対して、例えば、本発明の実施の形態では、関連技術2のような相互相関行列RRではなく、画像等を表現可能な行列である統計的距離行列DDを計算する点で、両者は異なる。
【0055】
8.検討

まず、統計的距離行列DDおよびDDが特徴距離測定に有効である理由について説明する。DDとDDには、平均ベクトルμμとμμ、および共分散行列ΣΣとΣΣに関する2次項がある。このような2次項は、DDおよびDDKLにも存在する。一方、DDとDDには、共分散比の対数のみを含み、平均ベクトルを含まない項もある。DDには、共分散行列を含む項がなく、DDKLには、共分散比を含む項があるが、対数的に計算されていない。2つの平均ベクトルが等しい、もしくは近似する場合、2次項の値はゼロになる傾向がある。つまり、2つの確率分布が大きく重なり合う場合、共分散比の項は2次項よりも重要な役割を果たす。これがDDとDDが有効な理由と考えられる。
次に、クラスタリングが必要な理由を説明する。クラスタリングの前に、統計的距離行列DDは、ランダムベクトルXの要素間のすべてのローカル距離を表している。多数のローカル距離がゼロに非常に近いため、DDはスパースになりやすい。一方、グラフ理論において、DDは、頂点がXの要素として定義され、辺がローカル距離δに割り当てられている、有向グラフに射影できる。ただし、このような疎グラフに対して、多くのアプリケーションでは、小さい値を持つ辺を処理すると、計算が複雑になることが想定される。したがって、例えば、グラフ内の重要でない辺の数を減らし、値を再割り当てした重要な辺に従って、頂点を階層的に再配置する必要がある。このような変形で得た木構造により、データのアクセス速度が大幅に向上し、コンピューターのメモリ領域を節約できるようになるだろう。
最後に、統計距離行列と、[5]で提案されたニューラルネットワークの新しい便利なモデルである、カプセルニューラルネットワーク(CapsNet)の重み行列との関係を検討する。本発明及び/又は本実施の形態で提案された統計距離行列は、視点不変性を持っている。したがって、ターゲットの傾きが画像内でどれだけ変化しても、ターゲットの区別に影響を与えないので、統計距離行列をそのままに使用できる。ただし、CapsNetの重み行列と比べると、統計的距離行列は、距離累積画像に基づいてより直感的であり、階層的クラスタリング手法を使用することでより解釈できるようになってきた。したがって、統計的距離行列と、「情報マンダラ」として表されるそのクラスタリング結果は、重み行列より優れていると考えられる。
【0056】
(まとめ)
以上のように、まず、画像の比較実験を通じて、DDのような統計的距離行列が、ピクセルの画素値が特徴要素として直接に計算され、他の距離と比べて、より効果的にターゲットを区別できることを明らかにした。次に、新たに提案された、統計的距離行列の表現方法としての距離蓄積画像は、価値の高いピクセルが画像の中央に集中していることを示した。さらに、統計的距離行列を階層的クラスタリングすると、すべて又はほとんどのピクセルクラスターは基本的に画像の中心を囲み、距離値に従って内側から外側に放射状のように配置されることを発見した。これらのパターンはマンダラに非常に似ているため、統計的距離行列とそのクラスタリング結果を「情報マンダラ」と呼ぶ。「情報マンダラ」は新たなエントロピーであり、畳み込みニューラルネットワークを理解するための重要な手段と考えられる。
【0057】
9.距離行列のクラスタリング

距離行列の処理を加速するために、通常の階層的クラスタリング[10]を導入し、統計的距離行列に基づいてランダムベクトルの要素をクラスタリングする。
階層的クラスタリングアルゴリズムへの入力は、統計的距離行列DD、すなわち、クラスタラベル集合SSおよび距離関数δと考えられる。クラスタラベル集合S:={1、…、d}は、ランダムベクトルX(特徴ベクトル)の次元数dによって与られる。さらに、Sに含まれるクラスタラベルを、特徴ベクトルの要素に順番に付ける.距離行列DDにおいて、要素δuvの位置を表す添字u,v∈Sを変数として扱い、δuvを関数化して得た距離関数δの写像は、δ:S×S→Rとする。δ(u,v)には、δuvの値が割り当てられる。ここで、δ(u,u)は0に設定される。集合Sにd個の要素があれば、組み合わせの数( )個の距離が存在する。
階層的クラスタリングアルゴリズムの出力は、樹形図Lとクラスタラベル集合(要素ラベル集合)によって定義される。樹形図は、データ構造と見なすことができ、数学的なグラフとして表現される。本発明及び/又は本実施の形態では、樹形図を使用している。基数d=|S|を持つクラスタラベル集合Sが与えられた場合、すなわち、S:={1,…,d}、樹形図Lは、クラスタラベルnに対応する順序組<u,v,δ(u,v)>,i=0,…,d-2のリストで構成される。ここで、u,v∈S。クラスタラベル集合Sは、初期クラスタラベル集合であり、ステップi+1におけるクラスタラベル集合Si+1は、(S\{u,v})∪nとして再帰的に定義される。各ステップで、nというラベルを付いた新しいクラスタは、距離δ(u,v)を持つ、uとvというラベルを付いたクラスタを結合することによって構成される。手順には、d-1ステップが含まれているため、最終状態では、d個のすべての初期クラスタが一つのクラスタに含まれる。なお、要素クラスタの数をj=d-i,i=0,…,d-1とすれば,クラスタラベル集合Sd-jに、j個の要素クラスタに関するクラスタリング結果が含まれている。
【0058】
図19に、階層的クラスタリングのフローチャートを示す。
以下に、提案されている階層的クラスタリングアルゴリズムが示されている。
処理部11は、以下のように、フローチャートの沿ったアルゴリズムの各ステップ処理を実行することで、階層的クラスタリングを実現することができる。

(ステップS201) 入力
処理部11は、統計的距離行列DDを入力する。
すなわち、
クラスタラベル集合:S
距離関数: δ
(ステップS202)
処理部11は、初期化をする。
クラスタラベルの数: d←|S
樹形図: L←(空きの樹形図)
【0059】
(ステップS203)
処理部11は、for i=0からd-2まで、以下のステップS203~S210までの処理を繰り返す。
(ステップS204)
処理部11は、(u,v)←argminSi×Si\Δiδ、 を実行する。
ΔはS×Sの対角成分
(ここで、「arg min」は,区間S×S\Δiにおいて,目的函数δを最小化する引数(u,v)の値を与えることを表す。また、区間S×S\Δiは、Δiを除くS×Sを表す。)
(ステップS205)
処理部11は、Lへトリプル(順序組)<u,v,δ(u,v)>を追加する。
(ステップS206)
処理部11は、S←S\{u,v} を実行する。
(この式は、{u,v}を除く集合SをSに代入することを表す。)
(ステップS207)
処理部11は、新しいクラスタラベルn(Sに属さない)を作成する。
(ステップS208)
処理部11は、次式を使ってすべてのx∈Sに対してδを更新する。
δ(n,x)=δ(x,n):=f(δ(u,x),δ(v,x))
(ステップS209)
処理部11は、 S←S∪{n} を実行する。
(ステップS210)
処理部11は、for i=0からd-2まで、以下のステップS203~S210までの処理を繰り返す(end for)。
【0060】
(ステップS211)
処理部11は、次の結果を、表示部14に表示させ、及び/又は、出力部13若しくはI/F16により結果を出力する。
樹形図: L
各ステップiにおけるクラスタラベル集合:S,i=0,…,d-1
すなわち、
各j個の要素クラスタを表すクラスタラベル集合:Sd-j,j=d-i,i=0,…,d-1


ここで、δを更新するための凝集公式は、次式のように定義される。
f(δ(u,x),δ(v,x)):=max(δ(u,x),δ(v,x)) (18)
適当なカットオフ閾値が指定されているとき、このアルゴリズムは、ランダムベクトル(特徴ベクトル)の要素に対して安定したクラスタリング結果を提供できる。
【0061】
10.付録 バタチャリヤ距離Dの導出(式(7))

d-次元のランダムベクトルXとXは、2つの正規分布N(μμ,ΣΣ)とN(μμ,ΣΣ)にそれぞれ従い、それらに対応する確率密度関数p(xx)およびq(xx)が、式(21)のように定義される。また、これらの平方根の積を式(22)で表す。
【数15】
【0062】
実数空間Rにおいて、d-次元の変数ベクトルxxに対して式(22)を積分すると、次式を得る。
【数16】
【0063】
この式に、因数式(23)、(24)、および(25)をまとめて簡略化するために、まず、式(26)を準備する。式(26)の導出に、式(27)と(28)を使用した。
【数17】
【0064】
また、式(27)は、式(29)より成り立つことに注意しておく。ここで、AA、BB、CCはすべて正定行列とする。また、ΣΣは式(30)より定義される。
【数18】
【0065】
次に、以下のように、式(25)を式(31)に変換する。ここで、d-次元の変数ベクトルyyは、式(32)より定義される。
【数19】
【0066】
そして、式(24)と式(31)の1番目の因数式を掛けて、式(33)を得る。
【数20】
【0067】
一方、変数変換法によって、式(31)の2番目の因数式を式(34)のように変換できる。さらに、式(23)に式(34)を掛けて、式(35)を得られる。
【数21】
【0068】
したがって、式(36)のように、式(33)と式(35)の掛け算に関する対数の負数は、バタチャリヤ距離Dとする。
【数22】
【0069】
11.参考文献
なお、ウムラウト等のドイツ語のアルファベットは、電子出願ソフトで使用できる文字・記号の制約・都合上、英語のアルファベットで記載する。
[1] A. Bhattacharyya. On a measure of divergence between two statistical populations defined by their probability distributions. Bulletin of the Calcutta Mathematical Society,35:99-109,1943.
[2] H. Chernoff. A measure of asymptotic efficiency for tests of a hypothesis based on the sums of observations. Annals of Mathematical Statistics,23:409-507,1952.
[3] Frank Harary,Robert Z. Norman,and Dorwin Cartwright. Structural models: an introduction to the theory of directed graphs. Wiley,New York,1965.
[4] E. Hellinger. Neue begrundung der theorie quadratischer formen von unendlichvielen veranderlichen. Journal fur die reine und angewandte Mathematik,1909(136):210{271,1909.
[5] G. E Hinton,S. Sabour,and N. Frosst. Matrix capsules with EM routing. In International Conference on Learning Representations,2018.
WO2019083553A1、US20200285934A1
[6] A. Krizhevsky,V. Nair,and G. E Hinton. CIFAR-10 (Canadian Institute for Advanced Research).
Alex Krizhevsky,Vinod Nair,and Geoffrey Hinton. 'Learning multiple layers of features from tiny images',Alex Krizhevsky,2009. “The CIFAR-10 dataset”,April 8,2009
URL: https://www.cs.toronto.edu/~kriz/cifar.html」
[7] S. Kullback and R. A. Leibler. On information and sufficiency. The Annals of Mathematical Statistics,22(1):79-86,1951.
[8] J. B. MacQueen. Some methods for classification and analysis of multivariate observations. In L. M. Le Cam and J. Neyman,editors,Proc. of the fifth Berkeley Symposium on Mathematical Statistics and Probability,volume 1,pages 281{297,1967.
[9] P. C. Mahalanobis. On the generalized distance in statistics. In Proceedings of the National Institute of Sciences (Calcutta),2:49-55,1936.
[10] D. Mullner. Modern hierarchical,agglomerative clustering algorithms. arXiv e-prints,page arXiv:1109.2378,September 2011.
【符号の説明】
【0070】
100 PC
11 処理部
12 入力部
13 出力部
14 表示部
15 記憶部
16 インタフェース部(I/F)
151 入力データファイル
152 統計悌距離行列ファイル
153 距離行列ファイル
154 クラスタ行列ファイル
155 出力ファイル
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21