特開2024-78181 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-78181機械学習プログラム，機械学習方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024078181

(43)【公開日】2024-06-10

(54)【発明の名称】機械学習プログラム，機械学習方法および情報処理装置

(51)【国際特許分類】

G06N 3/088 20230101AFI20240603BHJP

G06F 18/2321 20230101ALI20240603BHJP

【ＦＩ】

G06N3/088

G06F18/2321

【審査請求】未請求

【請求項の数】4

【出願形態】ＯＬ

(21)【出願番号】P 2022190578

(22)【出願日】2022-11-29

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110003649

【氏名又は名称】弁理士法人真田特許事務所

(74)【代理人】

【識別番号】100189201

【弁理士】

【氏名又は名称】横田功

(72)【発明者】

【氏名】和田裕一郎

(57)【要約】

【課題】機械学習に要する時間を短縮できるようにする。
【解決手段】データ群のクラスタリングを行なう機械学習モデルの訓練において、ＮＣｕｔ（Normalized Cut）を用いた第一の最適化関数を、ニューラルネットワークの導入とクラスタリングにおけるクラスタについての一様仮定とに基づいて変換して第二の最適化関数を生成し、第二の最適化関数を最適化する処理を実行することで機械学習モデルの訓練を実行する。
【選択図】図３

【特許請求の範囲】

【請求項1】

データ群のクラスタリングを行なう機械学習モデルの訓練において、
ＮＣｕｔ（Normalized Cut）を用いた第一の最適化関数を、ニューラルネットワークの導入とクラスタリングにおけるクラスタについての一様仮定とに基づいて変換して第二の最適化関数を生成し、
前記第二の最適化関数を最適化する処理を実行することで前記機械学習モデルの訓練を実行する
処理をコンピュータに実行させることを特徴とする機械学習プログラム。

【請求項2】

前記第二の最適化関数を生成する処理において、多様体制約に基づく制約関数を生成し、前記第二の最適化関数に含める
処理を前記コンピュータに実行させることを特徴とする請求項１に記載の機械学習プログラム。

【請求項3】

データ群のクラスタリングを行なう機械学習モデルの訓練において、
ＮＣｕｔを用いた第一の最適化関数を、ニューラルネットワークの導入とクラスタリングにおけるクラスタについての一様仮定とに基づいて変換して第二の最適化関数を生成し、
前記第二の最適化関数を最適化する処理を実行することで前記機械学習モデルの訓練を実行する
処理をコンピュータが実行することを特徴とする機械学習方法。

【請求項4】

データ群のクラスタリングを行なう機械学習モデルの訓練において、
ＮＣｕｔを用いた第一の最適化関数を、ニューラルネットワークの導入とクラスタリングにおけるクラスタについての一様仮定とに基づいて変換して第二の最適化関数を生成し、
前記第二の最適化関数を最適化する処理を実行することで前記機械学習モデルの訓練を実行する
処理を実行する制御部を備えることを特徴とする情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、機械学習プログラム，機械学習方法および情報処理装置に関する。

【背景技術】

【0002】

近年、ＡＩ（Artificial Intelligence）が様々な分野で活用されており、例えば、データ間の類似度に基づいてデータを分類（グループ分け）するクラスタリングに用いられる。

【0003】

クラスタリングは機械学習における教師なし学習の一種である。例えば、ラベル無しデータセット（ｎ個のデータ点もしくは特徴ベクトルで構成）とそのクラスタ数Ｃとが与えられた場合に、クラスタリングにおいては、そのデータセットをＣ個の部分集合に分割する。

【0004】

低次元の単純多様体構造を持つデータセットに対するクラスタリング手法として、例えば、Ｋ均等法，ガウス混合分布クラスタリング，スペクトラルクラスタリングが知られている。スペクトラルクラスタリングは、低次元の複雑多様体構造を持つデータセットに対するクラスタリング手法としても用いられる。

【0005】

ここで、単純多様体構造とは、ガウシアンミクスチャーモデルもしくはそれに近似できるデータセットにより形成される多様体の構造を指す。逆に、複雑多様体構造とは、単純な多様体以外の多様体の構造を指す。また低次元とは２～３次元程度の次元を表す。

【0006】

スペクトラルクラスタリングにおいては、以下の式（ａ）で定義されるＷ^－に関する固有値問題を解き、大きさに関して上位Ｃ個の固有値に対応する固有ベクトルを並べてｎ×Ｃの行列を定義する。

【0007】

Ｗ^－=Ｄ^－１／２ＷＤ^－１／２・・・（ａ）
定義された行列のｉ番目の行をｘ^－ _ｉとする。ｘ^－ _ｉは、データ点ｘ_ｉの低次元表現と解釈できる。低次元表現の集合{ ｘ^－ _ｉ}^ｎ _ｉ＝１を考える。これらに対してＫ均等法をＫ＝Ｃとして行ない、クラスタレベルを得る。

【先行技術文献】

【特許文献】

【0008】

【特許文献1】米国特許出願公開第２０１９／０３４７５６７号明細書

【特許文献2】米国特許出願公開第２０１７／０２０００９２号明細書

【特許文献3】特開２０２１－１９３５６４号公報

【特許文献4】国際公開第２０２２／００９２５４号

【発明の概要】

【発明が解決しようとする課題】

【0009】

上述の如く、スペクトラルクラスタリングにおいては、式（ａ）で定義されるＷ^－に関する固有値問題を解く。Ｗ^－をｎ×ｎの行列と表すと、計算時間にＯ（ｎ^３）を要する。従って、例えば、ｎ＝１０^７～１０^９のような大規模データセットに対するスペクトラルクラスタリングの実行には膨大な時間がかかり、実質的に実行不可能である。

【0010】

１つの側面では、本発明は、機械学習に要する時間を短縮できるようにすることを目的とする。

【課題を解決するための手段】

【0011】

このため、この機械学習プログラムは、データ群のクラスタリングを行なう機械学習モデルの訓練において、ＮＣｕｔ（Normalized Cut）を用いた第一の最適化関数を、ニューラルネットワークの導入とクラスタリングにおけるクラスタについての一様仮定とに基づいて変換して第二の最適化関数を生成し、前記第二の最適化関数を最適化する処理を実行することで前記機械学習モデルの訓練を実行する処理をコンピュータに実行させる。

【発明の効果】

【0012】

一実施形態によれば、機械学習に要する時間を短縮できる。

【図面の簡単な説明】

【0013】

【図1】実施形態の一例としての情報処理装置の機能構成を示す図である。

【図2】実施形態の一例としての情報処理装置の機能を実現するコンピュータのハードウェア構成を示すブロック図である。

【図3】実施形態の一例としての情報処理装置による学習処理の流れを説明するための図である。

【図4】実施形態の一例としての情報処理装置による統計モデルの学習処理を説明するためのフローチャートである。

【図5】複数の手法を用いた場合のそれぞれのクラスタリング結果を示す図である。

【発明を実施するための形態】

【0014】

以下、図面を参照して本機械学習プログラム，機械学習方法および情報処理装置にかかる実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。

【0015】

（Ａ）関連技術
前述の如く、大規模データセットに対するスペクトラルクラスタリングの実行には膨大な時間がかかり、実質的に実行不可能である。また、仮に、大規模データセットに対してスペクトラルクラスタリングを実行させるシステムが実装された場合であっても、高次元の単純多様構造を持つデータセットに対してスペクトラルクラスタリングで高精度のクラスタリングを行なうことはできない。高次元になるほどクラスタ構造を把握するために膨大なデータ点が必要となるからである。

【0016】

そこで、教師なし分類手法であるＩＭＳＡＴ（Information Maximizing Self Augmented Training）に、ｎ個の特徴ベクトルから構成されるデータセットＸ=｛ｘ_ｉ｝^ｎ _ｉ＝１が持つ多様体構造を統計モデルに学習させるための制約を組み合わせた手法が考えられる。当該手法を、便宜上、ＭＩＳＴ（Mutual Information maximization via local Smoothness and Topological invariant constraints）といってよい。

【0017】

ＭＩＳＴにおいては、先ず、実行するクラスタリングにおけるクラスタ数及び統計モデルを用いて次の数式（１）で示される相互情報量（ＭＩ：Mutual Information）の関数を生成する。ここで、相互情報量とは、あるデータ点とそのクラスラベルの相互依存の度合を表す量である。

【0018】

【数1】

ここで、Ｘはデータセットを表し、ＹはデータセットＸに含まれる各データ点ｘに与えられるクラスラベルｙの集合を表す。また、Ｈ（Ｙ）はデータセット全体における予測結果の分布のエントロピーを表す。また、Ｈ（Ｙ｜Ｘ）は、個別の予測における予測結果の分布のエントロピーを表す。また、ηは、調整用のハイパーパラメータである。式（１）は、データ点ｘとそのデータ点のクラスラベルｙとの相互情報量を表す。Ｈ（Ｙ）を最大化することで距離が近いデータ点に同じクラスラベルが与えられる。また、Ｈ（Ｙ｜Ｘ）を小さくすることで同じクラスラベルを有するデータ点が近い領域に集められる。

【0019】

また、ＭＩＳＴにおいては、実行するクラスタリングにおけるクラスタ数及び統計モデルを用いて、以下に示す式（２）で示されるＳＡＴ用の関数を生成する。θは、統計モデルが有するニューラルネットワークのパラメータである。ＳＡＴは、分布を平滑化する処理であり、ＶＡＴ（Virtual Adversarial Training）とも呼ばれる。

【0020】

【数2】

さらに、ＭＩＳＴにおいては、実行するクラスタリングにおけるクラスタ数及び統計モデルを用いて、以下の式（３）で示されるペアとした２つのデータ点の間の力を表すためのペア間力関数を生成する。

【0021】

【数3】

Ｉ_ｎｃｅは、ＩｎｆｏＮＣＥ（Noise Contrastive Estimation）と呼ばれる雑音対照推定に基づく損失であり、次の数式（４）で与えられる。

【0022】

【数4】

ここで、ｑは二つの確率ベクトルの類似度を定義する関数である。また、Ｉ′_ｎｃｅは、以下の式（５）で与えられる。

【0023】

【数5】

式（４）をｇ_θ（x）及びｇ_θ（t(x)）の関数としてＩｎｆｏＮＣＥ（ｇ_θ（x），ｇ_θ（t(x)））と表した場合、式（５）はＩｎｆｏＮＣＥ（ｇ_θ（t(ｘ)），ｇ_θ（x））と表される。ＩｎｆｏＮＣＥ（ｇ_θ（x），ｇ_θ（t(x)））は、ｇ_θ（x）とｇ_θ（t(x)）に関して対称性を有さない。そこで、Ｉ_ｎｃｅと、Ｉ_ｎｃｅにおけるパラメータを逆にしたＩ′_ｎｃｅとを足し合わせて２で除算することで、雑音対照推定に基づく損失に対称性を持たせた関数を生成される。

【0024】

そして、式（３）に式（４）および式（５）を代入し、その式を整理することで以下の式（６）が得られる。

【0025】

【数6】

なお、

【数7】

である。

【0026】

ただし、α∈Ｒ、τ≧０であり、且つ、
α≠１のとき、ｅｘｐ_α（ｓ）は［１＋（１－α）ｓ］^{１／（１－α）} _＋と定義され、
α＝１のとき、ｅｘｐ_α（ｓ）＝ｅｘｐ（ｓ）と定義される。
［・］_＋はｍａｘ｛・，０｝である。

【0027】

ＭＩＳＴは、式（１），（２），（３）に示す制約付き最適化問題で定式化される。ＭＩＳＴにおいては、式（２）及び（３）を満たしつつ、式（１）で示す相互情報量関数を最大化するように統計モデルの学習を行なう。すなわち、２つのユークリッド距離が近いデータ点のクラスラベルに関する分布間距離を最小化し、且つ、ペア間関数を最大化する条件を満たす上で、データ点とクラスラベルとの相互情報量を最大化する。ペア間関数の最大化により、同じ多様体に属するデータ点のペア間の引力を大きくし、異なる多様体に属するデータ点のペア間の斥力を小さくする。

【0028】

これにより、ＭＩＳＴにおいては、異なる多様体に属するデータ点のそれぞれを明確に異なるクラスタに分類することができる。

【0029】

しかしながら、このようなＭＩＳＴにおいては、ハイパーパラメータ（λ，η，μ，α，τ）の個数が５個と多く、これらのハイパーパラメータの調整にコストを要する。
なお、ハイパーパラメータλ，μは、以下に示す最適化問題に登場する。この最適化問題は、式（１），（２），（３）に示した制約付き最適化問題を罰則法（penalty method）を利用して制約無し最適化に変換することで得られる。

【数8】

なお、Ｌ_ｐｓ＋Ｌ_ｎｇの最小化は（Ｉ_ｎｃｅ＋Ｉ′_ｎｃｅ）／２の最大化と等価である。
本情報処理装置においては、ＭＩＳＴに比べてハイパーパラメータの調整を簡易にするクラスタリング手法を実現する。

【0030】

（Ｂ）構成
図１は実施形態の一例としての情報処理装置１の機能構成を示す図である。

【0031】

本情報処理装置１は、データ群のクラスタリングを行なう機械学習モデルの訓練を行なう。機械学習モデルはニューラルネットワーク（Neural Network：ＮＮ）であってよい。また、本情報処理装置１は、訓練済みの機械学習モデルを用いてデータのクラスタリング（予測）を行なってよい。機械学習モデルを統計モデルといってよい。

【0032】

（Ｂ－１）ハードウェア構成例
図２は実施形態の一例としての情報処理装置１の機能を実現するコンピュータ１０のハードウェア（ＨＷ）構成を示すブロック図である。情報処理装置１の機能を実現するＨＷリソースとして、複数のコンピュータが用いられる場合は、各コンピュータが図２に例示するＨＷ構成を備えてよい。

【0033】

図２に示すように、コンピュータ１０は、ＨＷ構成として、例示的に、プロセッサ１０ａ、グラフィック処理装置１０ｂ、メモリ１０ｃ、記憶部１０ｄ、ＩＦ（Interface）部１０ｅ、ＩＯ（Input / Output）部１０ｆ、および読取部１０ｇを備えてよい。

【0034】

プロセッサ１０ａは、種々の制御や演算を行なう演算処理装置の一例であり、種々の処理を実行する制御部である。プロセッサ１０ａは、コンピュータ１０内の各ブロックとバス１０ｊで相互に通信可能に接続されてよい。なお、プロセッサ１０ａは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。

【0035】

プロセッサ１０ａとしては、例えば、ＣＰＵ、ＭＰＵ、ＡＰＵ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡ等の集積回路（ＩＣ；integrated circuit）が挙げられる。なお、プロセッサ１０ａとして、これらの集積回路の２以上の組み合わせが用いられてもよい。ＣＰＵはCentral Processing Unitの略称であり、ＭＰＵはMicro Processing Unitの略称である。ＡＰＵはAccelerated Processing Unitの略称である。ＤＳＰはDigital Signal Processorの略称であり、ＡＳＩＣはApplication Specific ICの略称であり、ＦＰＧＡはField-Programmable Gate Arrayの略称である。

【0036】

グラフィック処理装置１０ｂは、ＩＯ部１０ｆのうちのモニタ等の出力装置に対する画面表示制御を行なう。また、グラフィック処理装置１０ｂは、機械学習モデルを利用した機械学習処理および推論処理を実行するアクセラレータとしての構成を有してよい。グラフィック処理装置１０ｂとしては、種々の演算処理装置、例えば、ＧＰＵ（Graphics Processing Unit）、ＡＰＵ、ＤＳＰ、ＡＳＩＣまたはＦＰＧＡ等の集積回路（ＩＣ）が挙げられる。

【0037】

メモリ１０ｃは、種々のデータやプログラム等の情報を格納するＨＷの一例である。メモリ１０ｃとしては、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性メモリ、および、ＰＭ（Persistent Memory）等の不揮発性メモリ、の一方または双方が挙げられる。

【0038】

記憶部１０ｄは、種々のデータやプログラム等の情報を格納するＨＷの一例である。記憶部１０ｄとしては、ＨＤＤ（Hard Disk Drive）等の磁気ディスク装置、ＳＳＤ（Solid State Drive）等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、ＳＣＭ（Storage Class Memory）、ＲＯＭ（Read Only Memory）等が挙げられる。

【0039】

記憶部１０ｄは、コンピュータ１０の各種機能の全部若しくは一部を実現するプログラム１０ｈ（機械学習プログラム，予測プログラム）を格納してよい。

【0040】

例えば、情報処理装置１のプロセッサ１０ａは、記憶部１０ｄに格納されたプログラム（機械学習プログラム）１０ｈをメモリ１０ｃに展開して実行することにより、機械学習モデルを訓練するモデル生成機能（後述する訓練フェーズ）を実現できる。また、情報処理装置１のプロセッサ１０ａは、記憶部１０ｄに格納されたプログラム（予測プログラム）１０ｈをメモリ１０ｃに展開して実行することにより、機械学習モデルを用いてデータに対する予測を行なう予測機能（後述する予測フェーズ）を実現できる。

【0041】

ＩＦ部１０ｅは、本コンピュータ１０と他のコンピュータとの間の接続および通信の制御等を行なう通信ＩＦの一例である。例えば、ＩＦ部１０ｅは、イーサネット（登録商標）等のＬＡＮ（Local Area Network）、或いは、ＦＣ（Fibre Channel）等の光通信等に準拠したアダプタを含んでよい。当該アダプタは、無線および有線の一方または双方の通信方式に対応してよい。

【0042】

例えば、情報処理装置１は、ＩＦ部１０ｅおよびネットワークを介して、図示しない他の情報処理装置と相互に通信可能に接続されてよい。なお、プログラム１０ｈは、当該通信ＩＦを介して、ネットワークからコンピュータ１０にダウンロードされ、記憶部１０ｄに格納されてもよい。

【0043】

ＩＯ部１０ｆは、入力装置、および、出力装置、の一方または双方を含んでよい。入力装置としては、例えば、キーボード、マウス、タッチパネル等が挙げられる。出力装置としては、例えば、モニタ、プロジェクタ、プリンタ等が挙げられる。また、ＩＯ部１０ｆは、入力装置および出力装置が一体となったタッチパネル等を含んでもよい。出力装置は、グラフィック処理装置１０ｂに接続されてよい。

【0044】

読取部１０ｇは、記録媒体１０ｉに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部１０ｇは、記録媒体１０ｉを接続可能または挿入可能な接続端子または装置を含んでよい。読取部１０ｇとしては、例えば、ＵＳＢ（Universal Serial Bus）等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、ＳＤカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体１０ｉにはプログラム１０ｈが格納されてもよく、読取部１０ｇが記録媒体１０ｉからプログラム１０ｈを読み出して記憶部１０ｄに格納してもよい。

【0045】

記録媒体１０ｉとしては、例示的に、磁気／光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気／光ディスクとしては、例示的に、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ブルーレイディスク、ＨＶＤ（Holographic Versatile Disc）等が挙げられる。フラッシュメモリとしては、例示的に、ＵＳＢメモリやＳＤカード等の半導体メモリが挙げられる。

【0046】

上述したコンピュータ１０のＨＷ構成は例示である。従って、コンピュータ１０内でのＨＷの増減（例えば任意のブロックの追加や削除）、分割、任意の組み合わせでの統合、または、バスの追加若しくは削除等は適宜行なわれてもよい。

【0047】

（Ｂ－２）機能構成例
図１に示すように、本情報処理装置１は、例示的に、データ取得部２，制約関数生成部３，最適化部４，予測実行部５および出力部６としての機能を備えてよい。これらの機能は、コンピュータ１０（図２参照）のハードウェアにより実現されてよい。

【0048】

情報処理装置１は、訓練（機械学習）フェーズ及び予測フェーズの２つの動作フェーズを有する。訓練フェーズでは、データ取得部２，制約関数生成部３，最適化部４が機械学習モデルの学習処理を行なう。予測フェーズでは、予測実行部５および出力部６が、訓練済みの機械学習モデルを用いて、入力されたデータに対するクラスラベルの予測を行なう。

【0049】

データ取得部２は、例えば、ｎ個の特徴ベクトルから構成されるデータセットＤ＝｛ｘ_ｉ｝^ｎ _ｉ＝１の入力を取得する。データ取得部２は、例えば、本情報処理装置１が実行する機械学習に用いられるデータ群であるデータセットを入力する図示しない入力装置からデータセットＤを取得してよい。データ取得部２が取得するデータセットは、正解データの存在しないラベルなしデータセットでよい。また、データ取得部２は、それぞれにクラスラベルが割り当てられるクラスタのクラスタ数の入力を取得する。そして、データ取得部２は、取得したクラスタ数を制約関数生成部３および最適化部４へ出力する。また、データ取得部２は、取得したデータセットを最適化部４へ出力する。

【0050】

制約関数生成部３は、実行するクラスタリングにおけるクラスタ数及び機械学習モデルを用いて、前述した式（２）で示されるＳＡＴ用の関数を生成する。

【0051】

以下にＳＡＴについて説明する。学習対象となるクラスタリングを行なうニューラルネットワークを以下の式（７）および（８）により定義する。Ｒ^ｄは、ｄ次元のユークリッド空間を表す。

【0052】

【数9】

【0053】

【数10】

式（８）において、Δ^Ｃは、Ｃ次元の確率ベクトル（各要素は０以上、且つ、全要素の和は１を満たすベクトル）の集合である。また、太字の１は、Ｃ次元且つ全要素が１のベクトルである。ここで、Ｃはクラスタ数を表す。ｚはＣ次元の確率密度を表す。また、θは、ニューラルネットワーク内部に存在するパラメータである。出力ｆ_θ（ｘ）は、範囲が１，・・・，Ｃの各クラスタにどの程度の確率でデータ点が所属するかを表す。

【0054】

ＳＡＴを実行することで、データ点ｘを中心とするε（＞０）の内部の任意点ｘ′で次の式（９）が満たされる。ここで、ｘ′は、データ点ｘに対してユークリッド距離が近い点といえる。

【0055】

【数11】

すなわち、ＳＡＴを実行することで、データ点ｘを中心とする近傍内部でニューラルネットワークの出力が平滑化される。

【0056】

ここで、ｔ回の確率的勾配降下法（ＳＧＤ：Stochastic Gradient Descent）を通して得られるパラメータの状態をθｔとすると、ＳＡＴは以下の手順で行なわれる。まず、Ｒ^ｄの要素であるデータ点ｘを中心とする半径εの内部でｇθｔ（ｘ）との値がＫＬ（Kullback Leibler）距離の意味で最も違う方向であるｒ^ａｄｖが特定される。次に、ｆ_θｔ（ｘ）とｆ_θ（ｘ＋ｒ^ａｄｖ）のＫＬ距離が近付くようにニューラルネットワークのパラメータであるθが調整される。すなわち、式（２）におけるＲ_ｖａｔは、データ点ｘを中心とする半径εの内部の分布を平滑化する関数である。言い換えれば、式（２）におけるＲ_ｖａｔは、近い２つのデータ点が同じクラスラベルをもつように強制する関数であり、２つのデータ点のＫＬ距離である分布距離を小さくする関数である。そして、式（２）は、ＳＡＴにおいて実行される処理を表す関数である。このＳＡＴ用の関数を満たす条件が、２つのユークリッド距離が近い各データ点の各々に割り当てられたクラスラベルに関する分布距離を小さくする制約条件の一例にあたる。

【0057】

制約関数生成部３は、以下の式（１０）に示す制約式を生成する。

【0058】

【数12】

ここで、Ｄ_ＫＬはカルバックライブラーダイバージェンスである。また、ｒ^ａｄｖ _ｉは以下の式（１１）で求められる。

【0059】

【数13】

また、θ_ｌはｌ回目のパラメータ更新で得られた値である。

【0060】

そして、上記の式（１１）の定義に必要なｒ^ａｄｖ _ｉは、以下の［処理a1］～［処理a3］で得られる。

【0061】

［処理a1］
ランダム谷ベクトルｕ∈Ｒ^ｄを発生させる。

【0062】

［処理a2］
以下に示すｕ_ｉを逆誤差伝搬法で計算する。

【0063】

【数14】

【0064】

［処理a3］
ｒ^ａｄｖ _ｉを以下の式を用いて計算する。

【0065】

【数15】

ξおよびε_ｉは正値をとるハイパーパラメータである。

【0066】

より数学的に正確な定義の下では、ミニバッチ集合Ｂ⊆Ｄを用いて、ニューラルネットワークを、確率的勾配法（ＳＧＤ）で上記の式（１０）に示す損失が最小化されるよう訓練する。

【0067】

以下、制約関数生成部３により実行される上記の処理をSelf-Augmentationとよんでよい。

【0068】

また、制約関数生成部３は、ＮＣｕｔ（Normalized Cut）問題をニューラルネットワークと一様仮定とを導入して再定義することで、一様制約と多様体制約とを得る。制約関数生成部３は、高次元で単純多様体構造を持つデータセットに対応すべく、ＮＣｕｔ問題から手法を構築する。

【0069】

事象ωを引数とする指示関数１［ω］を以下のように定義する。

【0070】

【数16】

また、行列Ａのトレースをｔｒ（Ａ）で表す。

【0071】

データセットＤ＝｛ｘ_ｉ｝^ｎ _ｉ＝１が与えられたとする。また、目標をｎ個のデータ点をＣ個のクラスタに分類することとする。さらに、Ｓｙ⊂Ｄ，ｙ∈［Ｃ］をｙ番目のクラスタとする。

【0072】

以下の重み付き有向グラフＧ（Ｖ，Ｅ，Ｗ）を考える。Ｖ，Ｅ，Ｗは、頂点集合、有向辺集合，ｎ×ｎの重み行列とする。また、Ｖ＝Ｄである。ｘ_ｉからｘ_ｊへの有向辺はｅ_ｉｊ∈Ｅで定義されるとする。

【0073】

（ｉ，ｊ）番目のＷの要素はｗ_ｉｊで表され、辺ｅ_ｉｊ上の重みとする。直観的に、重みｗ_ｉｊは頂点ｘ_ｉと頂点ｘ_ｊの類似度とみなすことができる。

【0074】

ここで、Ｗ＝Ｗ^Ｔを仮定する。この仮定の下では、グラフＧは無向グラフと考えることができる。

【0075】

いま、グラフＧ上でＳを引数とするＮＣｕｔ関数を、以下の式（１２）に示すように定義する。

【0076】

【数17】

ここで、Ｓ^－＝Ｖ＼Ｓであり、

【0077】

【数18】

とする。組み合わせ的ＮＣｕｔ問題は、以下の式（１３）で定義される。

【0078】

【数19】

Ｄを対角成分がｄ_ｉｉ＝Σ_ｊｗ_ｉｊである対角行列とする。Ｈを（ｉ，ｙ）番目の要素がｈ_ｉｙであるｎ×Ｃ行列とする。ただし、ｈ_ｉｙは以下の式（１４）で表される。

【0079】

【数20】

このとき、Σ^Ｃ _ｙ＝１Ｎｃｕｔ（Ｓ_ｙ）＝ｔｒ（Ｈ^Ｔ（Ｄ－Ｗ）Ｈ）が成立する。

【0080】

また、∀_ｙ∈［Ｃ］；｜Ｓ_ｙ｜＞０を仮定すると、Ｈ^ＴＤＨ＝Ｉが成立する。

【0081】

ここで、｜Ｓ_ｙ｜はＳ_ｙの濃度、ＩはＣ×Ｃの単位行列である。これらの事実より、式（１３）の代わりに以下の連続緩和版ＮＣｕｔ問題を考えると以下の式（１５）のように表すことができる。

【0082】

【数21】

式（１５）の大域的最適解は、Ｗ^－=Ｄ^－１／２ＷＤ^－１／２に関する固有値問題を解くことで得られることが知られている。この式（１５）は、ＮＣｕｔを用いた第一の最適化関数に相当する。

【0083】

全データ点の集合をＸで表す。Ｘ＝｛ｘ_ｉ｝^Ｎ _ｉ＝１と表すことができる。Ｘと観測データＤ集合との関係はＤ⊆Ｘとなる。

【0084】

ここで、グラフＧ_Ｘを定義する。Ｘ＝｛ｘ_ｉ｝^Ｎ _ｉ＝１が与えられたとする。また、Ｎ＜∞とする。このとき、Ｇ_Ｘ（Ｖ，Ｅ，Ｗ）は、Ｘ上に定義される無向重み付きグラフである。Ｖ，Ｅ，Ｗは、頂点集合，辺集合，Ｎ×Ｎ重み行列とする。また、Ｗは、以下の条件も満たすものとする。

【0085】

∀（ｉ，ｊ）∈［Ｎ］^２；ｗ_ｉｊ≧０＆Σ_ｉ，ｊｗ_ｉｊ＝１
直観的に、ｗ_ｉｊはデータ点ｘ_ｉとデータ点ｘ_ｊとの類似度という解釈に加えて、データ点ｘ_ｉとデータ点ｘ_ｊとの同時生起確率とも解釈できる。

【0086】

また、任意のＣ個のクラスタＳ_１，・・・，Ｓ_ＣをグラフＧ_Ｘ上で考える。このとき、以下の式（１６）が成立する。

【0087】

【数22】

この式（１６）より、一様仮定の導入が可能となる。

【0088】

一様仮定においては、任意のＣ個のクラスタ（Ｓ_１，・・・，Ｓ_Ｃ）を、グラフＧ_Ｘ上で考える場合に、クラスタが以下の条件を満たすと仮定する。

【0089】

∀_ｙ∈［Ｃ］；ＶｏｌＳ_ｙ＝１／Ｃ
次に、グラフＧ_Ｘ上でニューラルネットワークをＮＣｕｔ問題を示す。

【0090】

上述した式（１４）をニューラルネットワークｆ_θ：Ｒ^ｄ→Δ^Ｃと以下の［手順b1］，［手順b2］を用いて再定義する。

【0091】

［手順b1］
上述した式（１４）をｆ_θを用いて、以下の式（１７）に示すように再定義する。

【0092】

【数23】

【0093】

［手順b2］
上述した式（１５）に、上述した一様仮定を強制することで、以下の式（１８）に示すように書き換える。

【0094】

【数24】

この式（１８）を、観測データＤを用いて近似する。

【0095】

観測データＤ＝｛ｘ_ｉ｝^ｎ _ｉ＝１⊂Ｘが与えられたとする。また、Ａ＝（ａ_ｉｊ）_１≦ｉ，ｊ≦ｎ，ａ_ｉｊ∈｛０，１｝をｎ×ｎである部分対称隣接行列とする。ここで、もしペア：ｘ_ｉとｘ_ｊの同時生起確率ｗ_ｉｊが、ある定数δより大きいならばａ_ｉｊは１であり、定数δ以下ならばａ_ｉｊは０である。

【0096】

ＡはＫ－ＮＮ（Ｋ近傍法）グラフを用いて推定してよい。ここで、Ａ^＾を推定された隣接行列であるとする。この時、以下が推定例となる。

【0097】

すなわち、Ｄ＝｛ｘ_ｉ｝^ｎ _ｉ＝１上にＫ－ＮＮグラフをユークリッド距離を用いて定義する。ｎ×ｎの行列Ａ^＾＝（ａ^＾ _ｉｊ），１≦ｉ，ｊ≦ｎを用意する。もし、ｘ_ｊのＫ近傍の一つがｘ_ｉならば、ａ^＾ _ｉｊに１を代入し、そうでない場合にはａ^＾ _ｉｊに０を代入する。

【0098】

以下の式（１９）を用いてＡ^＾を再定義する。

【0099】

【数25】

【0100】

式（１９）に示す推定を経てＡを得たと仮定する。この時、式（１８）をミニバッチ集合Ｂ（∈Ｄ）と推定されたＡを用いて近似することを考える。次を満たすインデックスｉ_ι，ι∈［｜Ｂ｜］を考える。
ｘ_ｉι∈Ｂ＆∀_ι；ｉ_ι≦ｉ_ι＋１

【0101】

また、Ａ_Ｂ＝（ａ^～ _ιι′）_{１≦ι，ι′≦｜Ｂ｜}を｜Ｂ｜×｜Ｂ｜の行列とする。ただし、その（ι，ι′）番目の要素であるａ^～ _ιι′はａ_{ｉιｉι′}である。このとき、式（１８）は以下の式（２０）～（２２）で近似される。

【数26】

ここで、｜｜Ａ_Ｂ｜｜＝Σ_ι，ι′｜ａ^～ _ιι′｜であり、これはＡ_Ｂ内の非ゼロ要素の個数と等しい。

【0102】

Ｍ_θ＝｛θ｜式（２１）＆式（２２）｝とする。また、ミニバッチ集合Ｂ⊆Ｄに対して、ｐ_θ（ｙ），ｙ∈［Ｃ］を以下に示すように定義する。

【0103】

【数27】

ここで、以下の式（２３）および式（２４）のように定義する。

【0104】

【数28】

また、Ｍ′_θを以下の式（２５）に示すように定義する。

【0105】

【数29】

このとき、Ｍ_θ＝Ｍ′_θが成立する。式（２５）は式（２１）および式（２２）を同値変形したものといってよい。

【0106】

（ｌ＋１）回目のパラメータ更新をミニバッチ集合Ｂ⊆Ｄに対して考える。簡単のために以下の式（２６）に示す定義を導入する。

【0107】

【数30】

制約関数生成部３は、式（２０），式（２１）および式（２２）を用いて、以下の式（２７）を生成する。

【0108】

【数31】

ここで、｛λ，η，μ｝∈Ｒ^３ _＋はハイパーパラメータの集合である。Ｒ_ｖａｔ（Ｂ；θ），Ｈ_Ｂ（ｐ_θ（ｙ））およびＨ（ｆ_θ（ｘ_ｉ））の定義は、それぞれ、式（１０），式（２３），式（２４）で与えられる。

【0109】

この式（２７）において、Ｒ_ｖａｔ（Ｂ；θ）の項は、Self－Augmentationに基づく制約関数である。また、Ｑ（Ｂ；θ）の項は、多様体制約に基づく制約関数である。さらに、以下の項は、一様制約に基づく制約関数であり、これにより、ＮＣｕｔ問題をニューラルネットワークでインプリメントできるようにする。

【0110】

【数32】

制約関数生成部３は、Self-Augmentationに基づく制約関数と、多様体制約に基づく制約関数と、一様制約に基づく制約関数とに基づく最適化関数を生成するのである。

【0111】

制約関数生成部３は、生成した式（２７）を最適化部４に通知する。

【0112】

また、制約関数生成部３は、式（２７）を生成する代わりに、上記の式（２０）および式（２５）を用いて、以下に示す式（２８）を生成してよい。

【0113】

【数33】

この式（２８）においては、式（２７）と一様制約に基づく制約関数の項が異なり、その他の部分は式（２７）と同様である。なお、式（２８）において、Ｈ_Ｂ（ｐ_θ（ｙ））と、Ｈ（ｆ_θ（ｘ_ｉ））の定義は、それぞれ、式（２３）および式（２４）で与えられる。

【0114】

上記の式（２７）および式（２８）は、いずれも、ＮＣｕｔを用いた第一の最適化関数である式（１５）を、ニューラルネットワークの導入とクラスタリングにおけるクラスタについての一様仮定とに基づいて変換して生成される、第二の最適化関数に相当する。
制約関数生成部３は、生成した式（２８）を最適化部４に通知してよい。

【0115】

最適化部４は、式（２７）で示される関数、もしくは式（２８）で示される関数を制約関数生成部３から受ける。最適化部４は、式（２７）で示される関数、もしくは式（２８）で示される関数を最小にするように機械学習モデルの訓練（ニューラルネットワークの最適化）を行なう。

【0116】

そして、最適化部４は、学習結果に応じて機械学習モデルのパラメータを調整して最適化する。最適化部４は、学習処理が収束する又は所定回数の学習処理が完了するまで機械学習モデルの学習を繰り返す。その後、最適化部４は、学習処理が収束する又は所定回数の学習処理が完了すると、得られたパラメータを機械学習モデルに与えて学習済みの機械学習モデルを生成する。

【0117】

予測実行部５は、予測対象であるデータの入力を、例えば、図示しない外部装置から受ける。そして、予測実行部５は、学習済みの機械学習モデルのニューラルネットワークに予測対象であるデータを入力して、予測結果として出力される予測対象のデータに対応するクラスラベルの情報を取得する。そして、予測実行部５は、取得したクラスラベルを出力部６へ出力する。

【0118】

出力部６は、入力された予測対象であるデータに対応するクラスラベルの情報を予測実行部５から取得する。そして、出力部６は、予測対象であるデータに対応するクラスラベルの情報を出力する。

【0119】

（Ｃ）動作
図３は、実施形態の一例としての情報処理装置１による学習処理の流れを説明するための図である。ここで、図３を参照して、本実施例に係る情報処理装置１による学習処理の全体像を説明する。

【0120】

データ取得部２により取得されたデータセットに対して制約関数生成部３によるSelf-Augmentationが行なわれ、式（１０）に示す制約式を生成する（ステップＳ１０１）。

【0121】

また、制約関数生成部３は、一様制約に基づく制約関数と多様体制約に基づく制約関数とを生成する（ステップＳ１０２，Ｓ１０３）。そして、制約関数生成部３は、Self-Augmentationに基づく制約関数と、多様体制約に基づく制約関数と、一様制約に基づく制約関数とを含む式（２７）または、式（２８）を生成する。

【0122】

最適化部４は、式（２７）で示される関数、もしくは式（２８）で示される関数を最小にするようにパラメータ（λ，η，μ）を調整し、機械学習モデルの学習（ニューラルネットワークの最適化）を行なう（ステップＳ１０４）。

【0123】

次に、実施例に係る情報処理装置による統計モデルの学習処理を、図４に示すフローチャート（ステップＳ１～Ｓ５）に従って説明する。

【0124】

データ取得部２は、データセット及びクラスタ数を取得する（ステップＳ１）。データ取得部２は、クラスタ数を制約関数生成部３および最適化部４に通知する。また、データ取得部２は、データセットを最適化部４へ出力する。

【0125】

制約関数生成部３は、機械学習モデルを取得してクラスタ数を用いて、式（１０）で表されるＳＡＴ用の関数を生成する。また、制約関数生成部３は、多様体制約に基づく制約関数と一様制約に基づく制約関数とを生成する。そして、制約関数生成部３は、Self-Augmentationに基づく制約関数と、多様体制約に基づく制約関数と、一様制約に基づく制約関数とを含む式（２７）または、式（２８）を生成する（ステップＳ２）。

【0126】

最適化部４は、式（２７）で示される関数、もしくは式（２８）で示される関数を最小にするようにハイパーパラメータ（λ，η，μ）を調整し、機械学習モデルの学習（ニューラルネットワークの最適化）を行なう（ステップＳ３）。

【0127】

その後、最適化部４は、最適化により得られたパラメータで、機械学習モデルのパラメータを更新する（ステップＳ４）。

【0128】

次に、最適化部４は、学習が収束したか否かを判定する（ステップＳ５）。学習が収束していない場合（ステップＳ５のＮＯルート参照）、学習処理は、ステップＳ２へ戻る。これに対して、学習が収束した場合（ステップＳ５のＹＥＳルート参照）、最適化部４は、学習処理を終了する。

【0129】

（Ｄ）効果
このように、実施形態の一例としての情報処理装置１によれば、制約関数生成部３が、ＮＣｕｔに基づく式（１５）（第一の最適化関数）を、ニューラルネットワークの導入とクラスタリングにおけるクラスタについての一様仮定とに基づいて変換（再定義）して、第二の最適化関数である式（２７）もしくは式（２８）を生成する。すなわち、制約関数生成部３が、Self-Augmentationに基づく制約関数と、多様体制約に基づく制約関数と、一様制約に基づく制約関数とに基づく最適化関数（式（２７），式（２８）：第二の最適化関数）を生成する。

【0130】

そして、最適化部４が、これらの式（２７）で示される関数、もしくは式（２８）で示される関数を最小にするようにハイパーパラメータ（λ，η，μ）を調整することで、機械学習モデルの訓練を行なう。

【0131】

この際、最適化部４が調整するハイパーパラメータの数が３個と少ないので、訓練に要する時間を短縮し効率化することができる。また、計算コストを削減することができる。

【0132】

制約関数生成部３が、ＮＣｕｔ問題をニューラルネットワークと一様仮定を導入して再定義することで、一様制約と多様体制約とを得ることができ、また、ハイパーパラメータの個数を削減することができる。また、ＮＣｕｔ問題から手法を構築することで、低次元の複雑多様構造を持つデータセットに対して高精度のクラスタリングを実現することができる。

【0133】

そして、これにより、低次元の単純多様構造を持つデータセット，低次元の複雑多様構造を持つデータセットおよび高次元の単純多様構造を持つデータセットに対して、高精度のクラスタリングを実現することができる。

【0134】

また、特に、大規模データに対するクラスタリングを高速化することができる。これは、ＮＣｕｔ問題に一様仮定とニューラルネットワークとを導入し、再定義することによるものであり、この再定義された問題は、ニューラルネットワークの既存最適化手法で解けるためである。

【0135】

また、高次元の単純多様構造を持つデータセットに対して、より高精度のクラスタリングを実現できる。これらは、ニューラルネットワークを導入することで表現力が向上するからである。

【0136】

また、本情報処理装置１の手法においては、制約関数生成部３が定式化を行なうことで、ミニバッチ最適化を適用することができ、計算に必要とするメモリ容量を削減することができる。

【0137】

図５は、複数の手法を用いた場合のそれぞれのクラスタリング結果を示す図である。ここでは、低次元で且つ複雑な多様体構造のデータセットとして、Ｔｗｏ－Ｍｏｏｎｓ及びＴｗｏ－Ｒｉｎｇｓの２つのデータセットを使用した。また、高次元で且つ単純な多様体構造のデータセットとして、ＭＮＳＴ、ＳＶＨＮおよびＲｅｕｔｅｒｓ１０Ｋの３つのデータセットを使用した。

【0138】

比較するクラスタリング手法は、以下の手法を用いた。古典クラスタリング手法として、スペクトラルクラスタリング（Spectral Clustering：ＳＣ）を用いた。また、深層クラスタリングの手法として、ＭＩＳＴを用いた。図５では、本実施形態に係る情報処理装置１によるクラスタリング手法を「実施例手法」として表した。

【0139】

評価指数は、クラスタリング精度の最高値を１００％として、７回クラスタリングを実施してそれらの平均クラスタリング精度を表す。また、図５における括弧内の数字は標準偏差を表す。

【0140】

図５に示すように、本実施例に係る情報処理装置１によるクラスタリング手法は、ほぼすべてのデータセットにおいて、古典クラスタリング及び深層クラスタリングの各手法と同等以上のクラスタリング結果を達成した。

【0141】

（Ｅ）その他
本実施形態の各構成および各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。

【0142】

そして、開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。

【0143】

また、上述した開示により本実施形態を当業者によって実施・製造することが可能である。

【0144】

（Ｆ）付記
以上の実施形態に関し、さらに以下の付記を開示する。

【0145】

（付記１）
データ群のクラスタリングを行なう機械学習モデルの訓練において、
ＮＣｕｔ（Normalized Cut）を用いた第一の最適化関数を、ニューラルネットワークの導入とクラスタリングにおけるクラスタについての一様仮定とに基づいて変換して第二の最適化関数を生成し、
前記第二の最適化関数を最適化する処理を実行することで前記機械学習モデルの訓練を実行する
処理をコンピュータに実行させることを特徴とする機械学習プログラム。

【0146】

（付記２）
前記第二の最適化関数を生成する処理において、多様体制約に基づく制約関数を生成し、前記第二の最適化関数に含める
処理を前記コンピュータに実行させることを特徴とする付記１に記載の機械学習プログラム。

【0147】

（付記３）
データ群のクラスタリングを行なう機械学習モデルの訓練において、
ＮＣｕｔを用いた第一の最適化関数を、ニューラルネットワークの導入とクラスタリングにおけるクラスタについての一様仮定とに基づいて変換して第二の最適化関数を生成し、
前記第二の最適化関数を最適化する処理を実行することで前記機械学習モデルの訓練を実行する
処理をコンピュータが実行することを特徴とする機械学習方法。

【0148】

（付記４）
前記第二の最適化関数を生成する処理において、多様体制約に基づく制約関数を生成し、前記第二の最適化関数に含める
処理を前記コンピュータが実行することを特徴とする付記３に記載の機械学習方法。

【0149】

（付記５）
データ群のクラスタリングを行なう機械学習モデルの訓練において、
ＮＣｕｔを用いた第一の最適化関数を、ニューラルネットワークの導入とクラスタリングにおけるクラスタについての一様仮定とに基づいて変換して第二の最適化関数を生成し、
前記第二の最適化関数を最適化する処理を実行することで前記機械学習モデルの訓練を実行する
処理を実行する制御部を備えることを特徴とする情報処理装置。

【0150】

（付記６）
前記制御部が、
前記第二の最適化関数を生成する処理において、多様体制約に基づく制約関数を生成し、前記第二の最適化関数に含める
処理を実行することを特徴とする付記５に記載の情報処理装置。

【符号の説明】

【0151】

１情報処理装置
２データ取得部
３制約関数生成部
４最適化部
５予測実行部
６出力部
１０コンピュータ
１０ａプロセッサ
１０ｂグラフィック処理装置
１０ｃメモリ
１０ｄ記憶部
１０ｅＩＦ部
１０ｆＩＯ部
１０ｇ読取部
１０ｈプログラム
１０ｉ記録媒体
１０ｊバス

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版