(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-18
(45)【発行日】2023-12-26
(54)【発明の名称】オブジェクトのエントロピークラスタリング
(51)【国際特許分類】
G06F 16/906 20190101AFI20231219BHJP
G06F 16/28 20190101ALI20231219BHJP
G06N 20/00 20190101ALI20231219BHJP
【FI】
G06F16/906
G06F16/28
G06N20/00 160
【外国語出願】
(21)【出願番号】P 2019088504
(22)【出願日】2019-05-08
【審査請求日】2022-04-26
(32)【優先日】2018-06-26
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】591003943
【氏名又は名称】インテル・コーポレーション
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】ジョージ エー. ムノス
【審査官】三橋 竜太郎
(56)【参考文献】
【文献】特開2017-092953(JP,A)
【文献】特表2016-530591(JP,A)
【文献】国際公開第2017/171826(WO,A1)
【文献】Daniel J. Hepp,"Recognition of handprinted and cursive words by finding feature correspondences", [online],PROCEEDINGS OF SPIE,米国,1994年03月23日,[令和5年5月18日検索], インターネット<https://www.spiedigitallibrary.org/conference-proceedings-of-spie/2181/0000/Recognition-of-handprinted-and-cursive-words-by-finding-feature-correspondences/10.1117/12.171130.full>
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
プロセッサと、
前記プロセッサに通信可能に連結されたメモリと、
前記プロセッサに通信可能に連結されたロジックと、を備え、
前記ロジックは、
データの関係または特性の維持または強化のうちの一方を行う構成可能なルールセットに基づき、データコレクションからのそれぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現にマッピングし、
グラフ情報エントロピーおよび1または複数のパラメータに基づき、前記2または2より多いグラフ表現を、
複数のデータクラスタに編成
し、
前記複数のデータクラスタのうち、2または2より多いデータクラスタを選択し、ここで、前記2または2より多いデータクラスタは、ノードごとに第1グラフ情報エントロピーに関連付けられ、
前記2または2より多いデータクラスタをマージして、マージされたクラスタを生成し、ここで、前記マージされたクラスタは、ノードごとに第2グラフ情報エントロピーに関連付けられ、
ノードごとのマージングに関するグラフ情報エントロピーに基づいて決定される遷移確率に基づいて、前記マージされたクラスタを許容するか否かを判定し、
ここで、前記ノードごとのマージングに関する前記グラフ情報エントロピーは、ノードごとの前記第2グラフ情報エントロピーが、ノードごとの前記第1グラフ情報エントロピーより大きいか否かを示すものであり、
ノードごとのマージングに関する前記グラフ情報エントロピーが、ノードごとの前記第2グラフ情報エントロピーがノードごとの前記第1グラフ情報エントロピーより大きいことを示す場合に、前記遷移確率は、前記マージされたクラスタが許容される確率に対応し、
前記マージされたクラスタが許容されない場合、前記2またはより多くのクラスタを選択し、前記マージされたクラスタを破棄し、
前記マージされたクラスタが許容される場合、前記マージされたクラスタを選択し、前記2またはより多くのクラスタを破棄する、
電子処理システム。
【請求項2】
前記データコレクションは、特徴に対して不完全な属性を有する1または複数の第1のデータ、または、同一の特徴に関連付けられる第2のデータおよび第3のデータを含み、前記第2のデータは、前記同一の特徴について、第1の数の属性を含み、前記第3のデータは、前記同一の特徴について第2の数の属性を含み、前記第1の数は、前記第2の数と異なる、請求項1に記載の電子処理システム。
【請求項3】
前記遷移確率は、シグモイド関数に基づく、請求項1または2に記載の電子処理システム。
【請求項4】
前記ロジックは、さらに、
前記構成可能なルールセットに基づき、前記それぞれの属性セットの各データ属性のノード表現および同一の属性セットに属するノード間の接続表現を用いて、前記それぞれの属性セットを、前記2または2より多いグラフ表現に変換し、
2または2より多いグラフ表現を、新しいクラスタ候補としてランダムに選択し、
前記新しいクラスタ候補の各ノードに対するマージグラフ
の情報
エントロピーを判定し、
前記新しいクラスタ候補に対する遷移確率情報を判定し、
前記判定されたマージグラフ
の情報
エントロピーおよび前記判定された遷移確率情報に基づき、前記新しいクラスタ候補の保持または破棄のうち一方を行う、請求項1
から3のいずれか一項に記載の電子処理システム。
【請求項5】
プロセッサと、
前記プロセッサに通信可能に連結されたメモリと、
前記プロセッサに通信可能に連結されたロジックと、を備え、
前記ロジックは、
構成可能なルールセットに基づき、データコレクションからのそれぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現にマッピングし、
グラフ情報エントロピーに基づき、前記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成し、
前記ロジックは、さらに、
前記構成可能なルールセットに基づき、前記それぞれの属性セットの各データ属性のノード表現および同一の属性セットに属するノード間の接続表現を用いて、前記それぞれの属性セットを、前記2または2より多いグラフ表現に変換し、
2または2より多いグラフ表現を、新しいクラスタ候補としてランダムに選択し、
前記新しいクラスタ候補の各ノードに対するマージグラフの情報エントロピーを判定し、
前記新しいクラスタ候補に対する遷移確率情報を判定し、
前記判定されたマージグラフの情報エントロピーおよび前記判定された遷移確率情報に基づき、前記新しいクラスタ候補の保持または破棄のうち一方を行う、電子処理システム。
【請求項6】
前記ロジックは、さらに、
前記マージグラフ
の情報
エントロピーおよび前記新しいクラスタ候補のノードごとの平均グラ
フ情報
エントロピーに対応する差異情報を判定し、
前記判定されたマージグラフ
の情報
エントロピー、前記判定された遷移確率および前記差異情報に基づき、前記新しいクラスタ候補の保持または破棄のうち一方を行う、請求項
4または5に記載の電子処理システム。
【請求項7】
前記ロジックは、さらに、終了条件が満たされたかを判定し、前記終了条件が満たされない場合、
1または複数のパラメータを調整し、
2または2より多いグラフ表現の新しいグループを、前記新しいクラスタ候補としてランダムに選択し、
前記調整された1または複数のパラメータに基づき、前記新しいクラスタ候補の各ノードに対するマージグラフのエントロピーを判定し、
前記調整された1または複数のパラメータに基づき、前記新しいクラスタ候補の遷移確率を判定し、
前記判定されたマージグラフ
の情報
エントロピーおよび前記判定された遷移確率に基づき、前記新しいクラスタ候補の保持または破棄のうち一方を行う、請求項
4または5に記載の電子処理システム。
【請求項8】
前記ロジックは、さらに、
新しい構成可能なルールセットを、前記データコレクションに適用し、
前記データコレクションからの前記それぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現の新しいセットにマッピングし、
前記2または2より多いグラフ表現の新しいセットを、2または2より多いデータクラスタの新しいセットに編成し、
前記2または2より多いデータクラスタ、および前記2または2より多いデータクラスタの新しいセットからの結果を集約する、請求項1
から3のいずれか一項に記載の電子処理システム。
【請求項9】
プロセッサと、
前記プロセッサに通信可能に連結されたメモリと、
前記プロセッサに通信可能に連結されたロジックと、を備え、
前記ロジックは、
構成可能なルールセットに基づき、データコレクションからのそれぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現にマッピングし、
グラフ情報エントロピーに基づき、前記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成し、
前記ロジックは、さらに、
新しい構成可能なルールセットを、前記データコレクションに適用し、
前記データコレクションからの前記それぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現の新しいセットにマッピングし、
前記2または2より多いグラフ表現の新しいセットを、2または2より多いデータクラスタの新しいセットに編成し、
前記2または2より多いデータクラスタ、および前記2または2より多いデータクラスタの新しいセットからの結果を集約する、電子処理システム。
【請求項10】
前記ロジックは、さらに、
新しいデータコレクションと、前記2または2より多いデータクラスタの各々との間の、ノードごとのマージグラフのエントロピーを判定する、請求項
1から9のいずれか一項に記載の電子処理システム。
【請求項11】
プロセッサと、
前記プロセッサに通信可能に連結されたメモリと、
前記プロセッサに通信可能に連結されたロジックと、を備え、
前記ロジックは、
構成可能なルールセットに基づき、データコレクションからのそれぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現にマッピングし、
グラフ情報エントロピーに基づき、前記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成し、
前記ロジックは、さらに、
新しいデータコレクションと、前記2または2より多いデータクラスタの各々との間の、ノードごとのマージグラフのエントロピーを判定する、電子処理システム。
【請求項12】
1または複数の基板と、
前記1または複数の基板に連結されたロジックであって、前記ロジックは、構成可能なロジック
または固定機能ハードウェアロジックのうちの1または複数において少なくとも部分的に実装された、ロジックと、を備え、前記1または複数の基板に連結された前記ロジックは、
データの関係または特性の維持または強化のうちの一方を行う構成可能なルールセットに基づき、データコレクションからのそれぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現にマッピングし、
グラフ情報エントロピーおよび1または複数のパラメータに基づき、前記2または2より多いグラフ表現を、
複数のデータクラスタに編成
し、
前記複数のデータクラスタのうち、2または2より多いデータクラスタを選択し、ここで、前記2または2より多いデータクラスタは、ノードごとに第1グラフ情報エントロピーに関連付けられ、
前記2または2より多いデータクラスタをマージして、マージされたクラスタを生成し、ここで、前記マージされたクラスタは、ノードごとに第2グラフ情報エントロピーに関連付けられ、
ノードごとのマージングに関するグラフ情報エントロピーに基づいて決定される遷移確率に基づいて、前記マージされたクラスタを許容するか否かを判定し、
ここで、前記ノードごとのマージングに関する前記グラフ情報エントロピーは、ノードごとの前記第2グラフ情報エントロピーが、ノードごとの前記第1グラフ情報エントロピーより大きいか否かを示すものであり、
ノードごとのマージングに関する前記グラフ情報エントロピーが、ノードごとの前記第2グラフ情報エントロピーがノードごとの前記第1グラフ情報エントロピーより大きいことを示す場合に、前記遷移確率は、前記マージされたクラスタが許容される確率に対応し、
前記マージされたクラスタが許容されない場合、前記2またはより多くのクラスタを選択し、前記マージされたクラスタを破棄し、
前記マージされたクラスタが許容される場合、前記マージされたクラスタを選択し、前記2またはより多くのクラスタを破棄する、
半導体パッケージ装置。
【請求項13】
前記ロジックは、さらに、
前記構成可能なルールセットに基づき、前記それぞれの属性セットの各データ属性のノード表現および同一の属性セットに属するノード間の接続表現を用いて、前記それぞれの属性セットを、前記2または2より多いグラフ表現に変換し、
2または2より多いグラフ表現を、新しいクラスタ候補としてランダムに選択し、
前記新しいクラスタ候補の各ノードに対するマージグラフ
の情報
エントロピーを判定し、
前記新しいクラスタ候補に対する遷移確率情報を判定し、
前記判定されたマージグラフ
の情報
エントロピーおよび前記判定された遷移確率情報に基づき、前記新しいクラスタ候補の保持または破棄のうち一方を行う、請求項
12に記載の半導体パッケージ装置。
【請求項14】
1または複数の基板と、
前記1または複数の基板に連結されたロジックであって、前記ロジックは、構成可能なロジックまたは固定機能ハードウェアロジックのうちの1または複数において少なくとも部分的に実装された、ロジックと、を備え、前記1または複数の基板に連結された前記ロジックは、
構成可能なルールセットに基づき、データコレクションからのそれぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現にマッピングし、
グラフ情報エントロピーに基づき、前記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成し、
前記ロジックは、さらに、
前記構成可能なルールセットに基づき、前記それぞれの属性セットの各データ属性のノード表現および同一の属性セットに属するノード間の接続表現を用いて、前記それぞれの属性セットを、前記2または2より多いグラフ表現に変換し、
2または2より多いグラフ表現を、新しいクラスタ候補としてランダムに選択し、
前記新しいクラスタ候補の各ノードに対するマージグラフの情報エントロピーを判定し、
前記新しいクラスタ候補に対する遷移確率情報を判定し、
前記判定されたマージグラフの情報エントロピーおよび前記判定された遷移確率情報に基づき、前記新しいクラスタ候補の保持または破棄のうち一方を行う、半導体パッケージ装置。
【請求項15】
前記ロジックは、さらに、
前記マージグラフ
の情報
エントロピーおよび前記新しいクラスタ候補のノードごとの平均グラ
フ情報
エントロピーに対応する差異情報を判定し、
前記判定されたマージグラフ
の情報
エントロピー、前記判定された遷移確率および前記差異情報に基づき、前記新しいクラスタ候補の保持または破棄のうち一方を行う、請求項
13または14に記載の半導体パッケージ装置。
【請求項16】
前記ロジックは、さらに、終了条件が満たされたかを判定し、前記終了条件が満たされない場合、
1または複数のパラメータを調整し、
2または2より多いグラフ表現の新しいグループを、前記新しいクラスタ候補としてランダムに選択し、
前記調整された1または複数のパラメータに基づき、前記新しいクラスタ候補の各ノードに対するマージグラフのエントロピーを判定し、
前記調整された1または複数のパラメータに基づき、前記新しいクラスタ候補に対する遷移確率を判定し、
前記判定されたマージグラフ
の情報
エントロピーおよび前記判定された遷移確率に基づき、前記新しいクラスタ候補の保持または破棄のうち一方を行う、請求項
13または14に記載の半導体パッケージ装置。
【請求項17】
前記ロジックは、さらに、
新しい構成可能なルールセットを、前記データコレクションに適用し、
前記データコレクションからの前記それぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現の新しいセットにマッピングし、
前記2または2より多いグラフ表現の新しいセットを、2または2より多いデータクラスタの新しいセットに編成し、
前記2または2より多いデータクラスタおよび前記2または2より多いデータクラスタの新しいセットからの結果を集約する、請求項
12に記載の半導体パッケージ装置。
【請求項18】
1または複数の基板と、
前記1または複数の基板に連結されたロジックであって、前記ロジックは、構成可能なロジックまたは固定機能ハードウェアロジックのうちの1または複数において少なくとも部分的に実装された、ロジックと、を備え、前記1または複数の基板に連結された前記ロジックは、
構成可能なルールセットに基づき、データコレクションからのそれぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現にマッピングし、
グラフ情報エントロピーに基づき、前記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成し、
前記ロジックは、さらに、
新しい構成可能なルールセットを、前記データコレクションに適用し、
前記データコレクションからの前記それぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現の新しいセットにマッピングし、
前記2または2より多いグラフ表現の新しいセットを、2または2より多いデータクラスタの新しいセットに編成し、
前記2または2より多いデータクラスタおよび前記2または2より多いデータクラスタの新しいセットからの結果を集約する、半導体パッケージ装置。
【請求項19】
前記ロジックは、さらに、
新しいデータコレクションと、前記2または2より多いデータクラスタの各々との間のノードごとのマージグラフのエントロピーを判定する、請求項
12から
18のいずれか一項に記載の半導体パッケージ装置。
【請求項20】
1または複数の基板と、
前記1または複数の基板に連結されたロジックであって、前記ロジックは、構成可能なロジックまたは固定機能ハードウェアロジックのうちの1または複数において少なくとも部分的に実装された、ロジックと、を備え、前記1または複数の基板に連結された前記ロジックは、
構成可能なルールセットに基づき、データコレクションからのそれぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現にマッピングし、
グラフ情報エントロピーに基づき、前記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成し、
前記ロジックは、さらに、
新しいデータコレクションと、前記2または2より多いデータクラスタの各々との間のノードごとのマージグラフのエントロピーを判定する、半導体パッケージ装置。
【請求項21】
前記1または複数の基板に連結された前記ロジックは、前記1または複数の基板内に位置付けられたトランジスタチャネル領域を含む、請求項
12に記載の半導体パッケージ装置。
【請求項22】
1または複数の基板と、
前記1または複数の基板に連結されたロジックであって、前記ロジックは、構成可能なロジックまたは固定機能ハードウェアロジックのうちの1または複数において少なくとも部分的に実装された、ロジックと、を備え、前記1または複数の基板に連結された前記ロジックは、
構成可能なルールセットに基づき、データコレクションからのそれぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現にマッピングし、
グラフ情報エントロピーに基づき、前記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成し、
前記1または複数の基板に連結された前記ロジックは、前記1または複数の基板内に位置付けられたトランジスタチャネル領域を含む、半導体パッケージ装置。
【請求項23】
コンピュータが教師なし機械学習を実行する方法であって、前記コンピュータが、
データの関係または特性の維持または強化のうちの一方を行う構成可能なルールセットに基づき、データコレクションからのそれぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現にマッピングする段階と、
グラフ情報エントロピーおよび1または複数のパラメータに基づき、前記2または2より多いグラフ表現を、
複数のデータクラスタに編成する段階と、
前記複数のデータクラスタのうち、2または2より多いデータクラスタを選択する、ここで、前記2または2より多いデータクラスタは、ノードごとに第1グラフ情報エントロピーに関連付けられる、段階と、
前記2または2より多いデータクラスタをマージして、マージされたクラスタを生成する、ここで、前記マージされたクラスタは、ノードごとに第2グラフ情報エントロピーに関連付けられる、段階と、
ノードごとのマージングに関するグラフ情報エントロピーに基づいて決定される遷移確率に基づいて、前記マージされたクラスタを許容するか否かを判定する、
ここで、前記ノードごとのマージングに関する前記グラフ情報エントロピーは、ノードごとの前記第2グラフ情報エントロピーが、ノードごとの前記第1グラフ情報エントロピーより大きいか否かを示すものであり、
ノードごとのマージングに関する前記グラフ情報エントロピーが、ノードごとの前記第2グラフ情報エントロピーがノードごとの前記第1グラフ情報エントロピーより大きいことを示す場合に、前記遷移確率は、前記マージされたクラスタが許容される確率に対応する、段階と、
前記マージされたクラスタが許容されない場合、前記2またはより多くのクラスタを選択し、前記マージされたクラスタを破棄する段階と、
前記マージされたクラスタが許容される場合、前記マージされたクラスタを選択し、前記2またはより多くのクラスタを破棄する段階と、
を実行する、方法。
【請求項24】
前記コンピュータが、
前記構成可能なルールセットに基づき、前記それぞれの属性セットの各データ属性のノード表現および同一の属性セットに属するノード間の接続表現を用いて、前記それぞれの属性セットを、前記2または2より多いグラフ表現に変換する段階と、
2または2より多いグラフ表現を、新しいクラスタ候補としてランダムに選択する段階と、
前記新しいクラスタ候補の各ノードに対するマージグラフ
の情報
エントロピーを判定する段階と、
前記新しいクラスタ候補に対する遷移確率情報を判定する段階と、
前記判定されたマージグラフ
の情報
エントロピーおよび前記判定された遷移確率情報に基づき、前記新しいクラスタ候補の保持または破棄のうち一方を行う段階と、をさらに
実行する、請求項
23に記載
の方法。
【請求項25】
コンピュータが教師なし機械学習を実行する方法であって、前記コンピュータが、
構成可能なルールセットに基づき、データコレクションからのそれぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現にマッピングする段階と、
グラフ情報エントロピーに基づき、前記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成する段階と、
前記構成可能なルールセットに基づき、前記それぞれの属性セットの各データ属性のノード表現および同一の属性セットに属するノード間の接続表現を用いて、前記それぞれの属性セットを、前記2または2より多いグラフ表現に変換する段階と、
2または2より多いグラフ表現を、新しいクラスタ候補としてランダムに選択する段階と、
前記新しいクラスタ候補の各ノードに対するマージグラフの情報エントロピーを判定する段階と、
前記新しいクラスタ候補に対する遷移確率情報を判定する段階と、
前記判定されたマージグラフの情報エントロピーおよび前記判定された遷移確率情報に基づき、前記新しいクラスタ候補の保持または破棄のうち一方を行う段階と、
を実行する、方法。
【請求項26】
前記コンピュータが、
前記マージグラフ
の情報
エントロピーおよび前記新しいクラスタ候補のノードごとの平均グラ
フ情報
エントロピーに対応する差異情報を判定する段階と、
前記判定されたマージグラフ
の情報
エントロピー、前記判定された遷移確率および前記差異情報に基づき、前記新しいクラスタ候補の保持または破棄のうち一方を行う段階と、をさらに
実行する、請求項
24または25に記載
の方法。
【請求項27】
前記コンピュータが、
終了条件が満たされたかを判定する段階をさらに
実行し、前記終了条件が満たされない場合、
1または複数のパラメータを調整する段階と、
2または2より多いグラフ表現の新しいグループを、前記新しいクラスタ候補としてランダムに選択する段階と、
前記調整された1または複数のパラメータに基づき、前記新しいクラスタ候補の各ノードに対するマージグラフのエントロピーを判定する段階と、
前記調整された1または複数のパラメータに基づき、前記新しいクラスタ候補に対する遷移確率を判定する段階と、
前記判定されたマージグラフ
の情報
エントロピーおよび前記判定された遷移確率に基づき、前記新しいクラスタ候補の保持または破棄のうち一方を行う段階と、を
実行する、請求項
24または25に記載
の方法。
【請求項28】
前記コンピュータが、
新しい構成可能なルールセットを、前記データコレクションに適用する段階と、
前記データコレクションからの前記それぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現の新しいセットにマッピングする段階と、
前記2または2より多いグラフ表現の新しいセットを、2または2より多いデータクラスタの新しいセットに編成する段階と、
前記2または2より多いデータクラスタおよび前記2または2より多いデータクラスタの新しいセットからの結果を集約する段階と、をさらに
実行する、請求項
23に記載
の方法。
【請求項29】
コンピュータが教師なし機械学習を実行する方法であって、前記コンピュータが、
構成可能なルールセットに基づき、データコレクションからのそれぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現にマッピングする段階と、
グラフ情報エントロピーに基づき、前記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成する段階と、
新しい構成可能なルールセットを、前記データコレクションに適用する段階と、
前記データコレクションからの前記それぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現の新しいセットにマッピングする段階と、
前記2または2より多いグラフ表現の新しいセットを、2または2より多いデータクラスタの新しいセットに編成する段階と、
前記2または2より多いデータクラスタおよび前記2または2より多いデータクラスタの新しいセットからの結果を集約する段階と、を実行する、方法。
【請求項30】
前記コンピュータが、
新しいデータコレクションと、前記2または2より多いデータクラスタの各々との間のノードごとのマージグラフのエントロピーを判定する段階をさらに
実行する、請求項
23から
29のいずれか一項に記載
の方法。
【請求項31】
コンピュータが教師なし機械学習を実行する方法であって、前記コンピュータが、
構成可能なルールセットに基づき、データコレクションからのそれぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現にマッピングする段階と、
グラフ情報エントロピーに基づき、前記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成する段階と、
新しいデータコレクションと、前記2または2より多いデータクラスタの各々との間のノードごとのマージグラフのエントロピーを判定する段階を実行する、方法。
【請求項32】
コンピューティングデバイスに、
データの関係または特性の維持または強化のうちの一方を行う構成可能なルールセットに基づき、データコレクションからのそれぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現にマッピングする手順と、
グラ
フ情報
エントロピーおよび1または複数のパラメータに基づき、前記2または2より多いグラフ表現を、
複数のデータクラスタに編成する手順と、
前記複数のデータクラスタのうち、2または2より多いデータクラスタを選択する、ここで、前記2または2より多いデータクラスタは、ノードごとに第1グラフ情報エントロピーに関連付けられる、手順と、
前記2または2より多いデータクラスタをマージして、マージされたクラスタを生成する、ここで、前記マージされたクラスタは、ノードごとに第2グラフ情報エントロピーに関連付けられる、手順と、
ノードごとのマージングに関するグラフ情報エントロピーに基づいて決定される遷移確率に基づいて、前記マージされたクラスタを許容するか否かを判定する、
ここで、前記ノードごとのマージングに関する前記グラフ情報エントロピーは、ノードごとの前記第2グラフ情報エントロピーが、ノードごとの前記第1グラフ情報エントロピーより大きいか否かを示すものであり、
ノードごとのマージングに関する前記グラフ情報エントロピーが、ノードごとの前記第2グラフ情報エントロピーがノードごとの前記第1グラフ情報エントロピーより大きいことを示す場合に、前記遷移確率は、前記マージされたクラスタが許容される確率に対応する、手順と、
前記マージされたクラスタが許容されない場合、前記2またはより多くのクラスタを選択し、前記マージされたクラスタを破棄する手順と、
前記マージされたクラスタが許容される場合、前記マージされたクラスタを選択し、前記2またはより多くのクラスタを破棄する手順と、
を実行させるための、少なくとも1つのプログラム。
【請求項33】
前記コンピューティングデバイスに、
前記構成可能なルールセットに基づき、前記それぞれの属性セットの各データ属性のノード表現および同一の属性セットに属するノード間の接続表現を用いて、前記それぞれの属性セットを、前記2または2より多いグラフ表現に変換する手順と、
2または2より多いグラフ表現を、新しいクラスタ候補としてランダムに選択する手順と、
前記新しいクラスタ候補の各ノードに対するマージグラフ
の情報
エントロピーを判定する手順と、
前記新しいクラスタ候補に対する遷移確率情報を判定する手順と、
前記判定されたマージグラフ
の情報
エントロピーおよび前記判定された遷移確率情報に基づき、前記新しいクラスタ候補の保持または破棄のうち一方を行う手順と、をさらに実行させるための、請求項
32に記載の少なくとも1つのプログラム。
【請求項34】
コンピューティングデバイスに、
構成可能なルールセットに基づき、データコレクションからのそれぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現にマッピングする手順と、
グラフ情報エントロピーに基づき、前記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成する手順と、を実行させ、
前記コンピューティングデバイスに、
前記構成可能なルールセットに基づき、前記それぞれの属性セットの各データ属性のノード表現および同一の属性セットに属するノード間の接続表現を用いて、前記それぞれの属性セットを、前記2または2より多いグラフ表現に変換する手順と、
2または2より多いグラフ表現を、新しいクラスタ候補としてランダムに選択する手順と、
前記新しいクラスタ候補の各ノードに対するマージグラフの情報エントロピーを判定する手順と、
前記新しいクラスタ候補に対する遷移確率情報を判定する手順と、
前記判定されたマージグラフの情報エントロピーおよび前記判定された遷移確率情報に基づき、前記新しいクラスタ候補の保持または破棄のうち一方を行う手順と、をさらに実行させるための、少なくとも1つのプログラム。
【請求項35】
前記コンピューティングデバイスに、
前記マージグラフ
の情報
エントロピーおよび前記新しいクラスタ候補のノードごとの平均グラ
フ情報
エントロピーに対応する差異情報を判定する手順と、
前記判定されたマージグラフ
の情報
エントロピー、前記判定された遷移確率および前記差異情報に基づき、前記新しいクラスタ候補の保持または破棄のうち一方を行う手順と、をさらに実行させるための、請求項
33または34に記載の少なくとも1つのプログラム。
【請求項36】
前記コンピューティングデバイスに、終了条件が満たされたかを判定する手順をさらに実行させ、前記終了条件が満たされない場合、
1または複数のパラメータを調整する手順と、
2または2より多いグラフ表現の新しいグループを、前記新しいクラスタ候補としてランダムに選択する手順と、
前記調整された1または複数のパラメータに基づき、前記新しいクラスタ候補の各ノードに対するマージグラフのエントロピーを判定する手順と、
前記調整された1または複数のパラメータに基づき、前記新しいクラスタ候補に対する遷移確率を判定する手順と、
前記判定されたマージグラフ
の情報
エントロピーおよび前記判定された遷移確率に基づき、前記新しいクラスタ候補の保持または破棄のうち一方を行う手順と、を実行させるための、請求項
33または34に記載の少なくとも1つのプログラム。
【請求項37】
前記コンピューティングデバイスに、
新しい構成可能なルールセットを、前記データコレクションに適用する手順と、
前記データコレクションからの前記それぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現の新しいセットにマッピングする手順と、
前記2または2より多いグラフ表現の新しいセットを、2または2より多いデータクラスタの新しいセットに編成する手順と、
前記2または2より多いデータクラスタおよび前記2または2より多いデータクラスタの新しいセットからの結果を集約する手順と、をさらに実行させるための、請求項
32に記載の少なくとも1つのプログラム。
【請求項38】
コンピューティングデバイスに、
構成可能なルールセットに基づき、データコレクションからのそれぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現にマッピングする手順と、
グラフ情報エントロピーに基づき、前記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成する手順と、を実行させ、
前記コンピューティングデバイスに、
新しい構成可能なルールセットを、前記データコレクションに適用する手順と、
前記データコレクションからの前記それぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現の新しいセットにマッピングする手順と、
前記2または2より多いグラフ表現の新しいセットを、2または2より多いデータクラスタの新しいセットに編成する手順と、
前記2または2より多いデータクラスタおよび前記2または2より多いデータクラスタの新しいセットからの結果を集約する手順と、をさらに実行させるための、少なくとも1つのプログラム。
【請求項39】
前記コンピューティングデバイスに、
新しいデータコレクションと、前記2または2より多いデータクラスタの各々との間のノードごとのマージグラフのエントロピーを判定する手順をさらに実行させるための、請求項
32から
38のいずれか一項に記載の少なくとも1つのプログラム。
【請求項40】
コンピューティングデバイスに、
構成可能なルールセットに基づき、データコレクションからのそれぞれの属性セットを、対応する特性から成る2または2より多いグラフ表現にマッピングする手順と、
グラフ情報エントロピーに基づき、前記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成する手順と、を実行させ、
前記コンピューティングデバイスに、
新しいデータコレクションと、前記2または2より多いデータクラスタの各々との間のノードごとのマージグラフのエントロピーを判定する手順をさらに実行させるための、少なくとも1つのプログラム。
【請求項41】
請求項
32から
40のいずれか一項に記載のプログラムを格納した、少なくとも1つのコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
実施形態は、概して、教師なし機械学習に関する。より具体的には、実施形態は、オブジェクトのエントロピークラスタリングに関する。
【背景技術】
【0002】
教師なし機械学習とは、ラベルなしデータの構造を識別する機械学習タスクを指してよい。1つのタイプの教師なし学習には、クラスタ解析またはクラスタリングが含まれてよい。クラスタリングとは、1または複数のメトリックに少なくとも部分的に基づき、同一グループ/クラスタ内のオブジェクト同士が、他のグループ/クラスタにおけるオブジェクトと比べて、互いにより類似するように、オブジェクトのセットをグループ化するタスクを指してよい。データマイニングの分野では、k平均法とは、データをk個のクラスタにグループ化するための処理を指してよい。標準的なk平均法は、データポイント間のユークリッド距離に基づき、データをグループ化してよい。球面k平均法は、データポイント間のコサインの類似度に基づき、データをグループ化してよい。
【図面の簡単な説明】
【0003】
以下の明細書および添付の特許請求の範囲を読み、以下の添付図面を参照することで、当業者は、実施形態の様々な利点を理解するであろう。
【0004】
【
図1】一実施形態による電子処理システムの例のブロック図である。
【0005】
【
図2】一実施形態による半導体パッケージ装置の例のブロック図である。
【0006】
【
図3A】一実施形態による教師なし機械学習の方法の例のフローチャートである。
【
図3B】一実施形態による教師なし機械学習の方法の例のフローチャートである。
【0007】
【
図4】一実施形態によるデータコレクションの例に係る例示的な図である。
【0008】
【
図5A】一実施形態による、
図4中のデータコレクションに対応するそれぞれのデータクラスタの例のグラフ表現を示す。
【
図5B】一実施形態による、
図4中のデータコレクションに対応するそれぞれのデータクラスタの例のグラフ表現を示す。
【0009】
【
図6】一実施形態による、
図5Aおよび5B中のデータクラスタに対応するマージされたデータクラスタの例のグラフ表現を示す。
【0010】
【
図7】一実施形態による、フェルミ‐ディラック分布の例のグラフである。
【0011】
【
図8】一実施形態による、データオブジェクトのエントロピークラスタリングの方法の例のフローチャートである。
【0012】
【
図9A】実施形態による、エントロピークラスタリング装置の例のブロック図である。
【
図9B】実施形態による、エントロピークラスタリング装置の例のブロック図である。
【0013】
【
図10】一実施形態による、プロセッサの例のブロック図である。
【0014】
【
図11】一実施形態による、システムの例のブロック図である。
【発明を実施するための形態】
【0015】
ここで
図1を参照すると、電子処理システム10の一実施形態は、プロセッサ11、プロセッサ11に通信可能に連結されたメモリ12、およびプロセッサ11に通信可能に連結されたロジック13を含んでよく、ロジック13は、データの関係性または特性の保持または強化のうちの一方を行う構成可能なルールセットに基づき、データコレクションを、データの2または2より多い数学的グラフ表現にマッピングし、グラフ情報エントロピーおよび1または複数のパラメータに基づき、2または2より多いグラフ表現を、2または2より多いデータクラスタに編成する。例えば、ロジック13は、強化または保持する必要のあるデータの関係性または特性により判定された、各データ属性のためのノード表現並びにノード間の接続および重みを用いて、それぞれのデータ属性セットを、2または2より多いグラフ表現に変換する構成可能なルールセットを適用するように構成されてよい。いくつかの実施形態において、ロジック13は、さらに、2または2より多いグラフ表現を、新しいクラスタ候補として選択(例えば、ランダムに、または他の好適な方法で)し、構成グラフのノードごとのグラフ情報エントロピーを判定し、新しいクラスタ候補のノードごとのグラフ情報エントロピーを判定し、1または複数のパラメータ、および構成グラフのノードごとの平均グラフ情報エントロピーと、新しいクラスタ候補のノードごとのグラフ情報エントロピーとの間の差異に基づき、新しいクラスタ候補のための遷移確率を判定し、判定された遷移確率に基づき、新しいクラスタ候補の保持または破棄のうち一方を行う、ように構成されてよい。ロジック13は、また、新しいクラスタ候補が保持される場合、構成グラフを除去する、または、新しいクラスタ候補が破棄される場合、構成グラフをそのまま残す、のうち一方を行うように構成されてもよい。ロジック13は、また、終了条件が満たされたかを判定するように構成されてよく、終了条件が満たされない場合、1または複数のパラメータを調整し、2または2より多いグラフ表現の新しいグループを、新しいクラスタ候補として選択(例えば、ランダムに、または他の好適な方法で)し、調整された1または複数のパラメータに基づき、新しいクラスタ候補のノードごとのグラフ情報エントロピーを判定し、調整された1または複数のパラメータに基づき、構成グラフ表現のノードごとのグラフ情報エントロピーを判定し、調整された1または複数のパラメータ、クラスタ候補のノードごとのグラフ情報エントロピー、および構成グラフ表現のノードごとの平均グラフ情報エントロピーに基づき、新しいクラスタ候補に対する遷移確率を判定し、判定された遷移確率に基づき、新しいクラスタ候補の保持または破棄のうちの一方を行う、ように構成されてよい。いくつかの実施形態において、ロジック13は、プロセッサ11を含む様々なコンポーネント内に配置されてよい、またはそれらと同一場所(例えば、同一のダイ上)に配置されてよい。
【0016】
上記のプロセッサ11、メモリ12、ロジック13および他のシステムコンポーネントの各々の実施形態は、ハードウェア、ソフトウェア、またはこれらの任意の好適な組み合わせにおいて実装されてよい。例えば、ハードウェア実装には、例えば、プログラマブルロジックアレイ(PLA)、フィールドプログラマブルゲートアレイ(FPGA)、複合プログラマブルロジックデバイス(CPLD)等の構成可能なロジック、または、例えば特定用途向け集積回路(ASIC)、相補型金属酸化物半導体(CMOS)若しくはトランジスタ-トランジスタロジック(TTL)技術等の回路技術を用いた固定機能ロジックハードウェア、またはこれらの任意の組み合わせを含んでよい。
【0017】
代替的にまたは追加的に、これらのコンポーネントの全部または一部は、1または複数のモジュールにおいて、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、プログラマブルROM(PROM)、ファームウェア、フラッシュメモリ等の機械またはコンピュータ可読記憶媒体に格納された、プロセッサまたはコンピューティングデバイスによって実行されるべきロジック命令セットとして実装されてよい。例えば、コンポーネントの動作を実行するコンピュータプログラムコードは、オペレーティングシステム(OS)に適用可能な/適切な1または複数のプログラミング言語を任意に組み合わせて記述されてよく、当該言語としては、例えば、PYTHON、FiM++、PERL、JAVA(登録商標)、SMALLTALK、C++、C#等のオブジェクト指向プログラミング言語、および"C"プログラミング言語または同様のプログラミング言語等の従来の手続型プログラミング言語、および、LOLCODEおよびPIKACHU等の難解プログラミング言語といったものさえ含まれる。例えば、メモリ12、永続的ストレージ媒体、または他のシステムメモリは、プロセッサ11による実行時に、システム10に、システム10の1または複数のコンポーネント、機能、または態様(例えば、データの関係性または特性の保持または強化のうち一方を行う構成可能なルールセットに基づき、データコレクションを、データの2または2より多い数学的グラフ表現にマッピングし、グラフ情報エントロピーおよび1または複数のパラメータに基づき、2または2より多いグラフ表現を、2または2より多いデータクラスタに編成する、ロジック13等)を実装させる、命令セットを格納してよい。
【0018】
ここで
図2を参照すると、半導体パッケージ装置20の実施形態は、1または複数の基板21、当該1または複数の基板21に連結されたロジック22を含んでよく、ロジック22は、構成可能なロジックおよび固定機能ハードウェアロジックの1または複数において少なくとも部分的に実装されている。1または複数の基板21に連結されたロジック22は、データの関係性または特性の保持または強化のうちの一方を行う構成可能なルールセットに基づき、データコレクションを、データの2または2より多い数学的グラフ表現にマッピングし、グラフ情報エントロピーおよび1または複数のパラメータに基づき、2または2より多いグラフ表現を、2または2より多いデータクラスタに編成する、ように構成されてよい。例えば、ロジック22は、強化または保持される必要のあるデータの関係性または特性により判定された、各データ属性のためのノード表現並びにノード間の接続および重みを用いて、それぞれのデータ属性セットを、2または2より多いグラフ表現に変換する構成可能なルールセットを適用するように構成されてよい。いくつかの実施形態において、ロジック22は、さらに、2または2より多いグラフ表現を、新しいクラスタ候補として選択(例えば、ランダムに、または他の好適な方法で)し、構成グラフのノードごとのグラフ情報エントロピーを判定し、新しいクラスタ候補のノードごとのグラフ情報エントロピーを判定し、1または複数のパラメータ、および構成グラフのノードごとの平均グラフ情報エントロピーと、新しいクラスタ候補のノードごとのグラフ情報エントロピーとの間の差異に基づき、新しいクラスタ候補に対する遷移確率を判定し、判定された遷移確率に基づき、新しいクラスタ候補の保持または破棄のうち一方を行う、ように構成されてよい。ロジック22は、また、新しいクラスタ候補が保持される場合、構成グラフを除去する、または、新しいクラスタ候補が破棄される場合、構成グラフをそのまま残す、のうち一方を行うように構成されてもよい。ロジック22は、また、終了条件が満たされたかを判定し、終了条件が満たされない場合は、1または複数のパラメータを調整し、2または2より多いグラフ表現の新しいグループを、新しいクラスタ候補として選択(例えば、ランダムに、または他の好適な方法で)し、調整された1または複数のパラメータに基づき、新しいクラスタ候補のノードごとのグラフ情報エントロピーを判定し、調整された1または複数のパラメータに基づき、構成グラフ表現のノードごとのグラフ情報エントロピーを判定し、調整された1または複数のパラメータ、クラスタ候補のノードごとのグラフ情報エントロピー、および構成グラフ表現のノードごとの平均グラフ情報エントロピーに基づき、新しいクラスタ候補に対する遷移確率を判定し、判定された遷移確率に基づき、新しいクラスタ候補の保持または破棄のうち一方を行う、ように構成されてもよい。いくつかの実施形態において、1または複数の基板21に連結されたロジック22は、当該1または複数の基板21内に位置付けられたトランジスタチャネル領域を含んでよい。
【0019】
ロジック22および装置20の他のコンポーネントの実施形態は、ハードウェア、ソフトウェア、またはハードウェアでの少なくとも部分的な実装を含めた、これら任意の組み合わせにおいて実装されてよい。例えば、ハードウェア実装は、例えば、PLA、FPGA、CPLD等の構成可能なロジック、または、例えば、ASIC、CMOS若しくはTTL技術等の回路技術を用いる固定機能ロジックハードウェア、または、これらの任意の組み合わせを含んでよい。追加的に、これらのコンポーネントの一部は、1または複数のモジュールにおいて、RAM、ROM、PROM、ファームウェア、フラッシュメモリ等の機械またはコンピュータ可読記憶媒体に格納された、プロセッサまたはコンピューティングデバイスによって実行されるべきロジック命令セットとして実装されてよい。例えば、コンポーネントの動作を実行するコンピュータプログラムコードは、OSに適用可能な/適切な1または複数のプログラミング言語を任意に組み合わせて記述されてよく、当該言語としては、例えば、PYTHON、FiM++、PERL、JAVA(登録商標)、SMALLTALK、C++、C#等のオブジェクト指向プログラミング言語、および"C"プログラミング言語または同様のプログラミング言語等の従来の手続型プログラミング言語、および、LOLCODEおよびPIKACHU等の難解プログラミング言語といったものさえ含まれる。
【0020】
装置20は、方法30(
図3Aから3B)に係る1または複数の態様、または本明細書で説明する任意の実施形態を実装してよい。いくつかの実施形態において、示された装置20は、当該1または複数の基板21(例えば、シリコン、サファイア、ガリウムヒ素)、および当該基板21に連結されたロジック22(例えば、トランジスタアレイおよび他の集積回路/ICコンポーネント)を含んでよい。ロジック22は、構成可能なロジックまたは固定機能ロジックハードウェアに少なくとも部分的に実装されてよい。一例において、ロジック22は、基板21内に位置付けられた(例えば、埋め込まれた)トランジスタチャネル領域を含んでよい。従って、ロジック22および基板21間の界面は、階段接合ではなくてよい。ロジック22は、また、基板21の初期ウェハ上で成長させられたエピタキシャル層を含むものとしてみなされてもよい。
【0021】
ここで、
図3Aおよび3Bを参照すると、教師なし機械学習の方法30の実施形態は、ブロック31において、データの関係性または特性の保持または強化のうち一方を行う構成可能なルールセットに基づき、データコレクションを、データの2または2より多い数学的グラフ表現にマッピングする段階と、ブロック32において、グラフ情報エントロピーおよび1または複数のパラメータに基づき、2または2より多いグラフ表現を、2または2より多いデータクラスタに編成する段階と、を含んでよい。例えば、方法30は、ブロック33において、強化または保持される必要のあるデータの関係性または特性により判定された、各データ属性のためのノード表現並びにノード間の接続および重みを用いて、それぞれのデータ属性セットを、2または2より多いグラフ表現に変換する構成可能なルールセットを適用する段階を含んでよい。方法30のいくつかの実施形態は、さらに、ブロック34において、2または2より多いグラフ表現を、新しいクラスタ候補として選択(例えば、ランダムに、または他の好適な方法で)する段階と、ブロック35において、構成グラフのノードごとのグラフ情報エントロピーを判定する段階と、ブロック36において、新しいクラスタ候補のノードごとのグラフ情報エントロピーを判定する段階と、ブロック37において、1または複数のパラメータ、および構成グラフのノードごとの平均グラフ情報エントロピーと、新しいクラスタ候補のノードごとのグラフ情報エントロピーとの間の差異に基づき、新しいクラスタ候補に対する遷移確率を判定する段階と、ブロック38において、判定された遷移確率に基づき、新しいクラスタ候補の保持または破棄のうちの一方を行う段階と、を含んでよい。方法30は、また、ブロック39において、当該新しいクラスタ候補が保持される場合、構成グラフを除去する、または、当該新しいクラスタ候補が破棄される場合、構成グラフをそのまま残す、のうち一方を行う段階を含んでよい。方法30は、また、ブロック40において、終了条件が満たされたかを判定する段階と、終了条件が満たされない場合、ブロック41において、1または複数のパラメータを調整する段階と、ブロック42において、2または2より多いグラフ表現の新しいグループを、新しいクラスタ候補として選択(例えば、ランダムに、または他の好適な方法で)する段階と、ブロック43において、調整された1または複数のパラメータに基づき、新しいクラスタ候補のノードごとのグラフ情報エントロピーを判定する段階と、ブロック44において、調整された1または複数のパラメータに基づき、構成グラフ表現のノードごとのグラフ情報エントロピーを判定する段階と、ブロック45において、調整された1または複数のパラメータ、クラスタ候補のノードごとのグラフ情報エントロピーおよび構成グラフ表現のノードごとの平均グラフ情報エントロピーに基づき、新しいクラスタ候補に対する遷移確率を判定する段階と、ブロック46において、判定された遷移確率に基づき、新しいクラスタ候補の保持または破棄のうち一方を行う段階と、を含んでよい。
【0022】
方法30の実施形態は、例えば、本明細書に記載されたようなシステム、装置、コンピュータ、デバイス等といったものに実装されてよい。より具体的には、方法30のハードウェア実装は、例えば、PLA、FPGA、CPLD等の構成可能なロジック、または、例えば、ASIC、CMOS若しくはTTL技術等の回路技術を用いる固定機能ロジックハードウェア、または、これらの任意の組み合わせを含んでよい。代替的にまたは追加的に、方法30は、1または複数のモジュールにおいて、RAM、ROM、PROM、ファームウェア、フラッシュメモリ等の機械またはコンピュータ可読記憶媒体に格納された、プロセッサまたはコンピューティングデバイスによって実行されるべきロジック命令セットとして実装されてよい。例えば、コンポーネントの動作を実行するコンピュータプログラムコードは、OSに適用可能な/適切な1または複数のプログラミング言語を任意に組み合わせて記述されてよく、当該言語としては、例えば、PYTHON、PERL、JAVA(登録商標)、SMALLTALK、C++、C#等のオブジェクト指向プログラミング言語、および"C"プログラミング言語または同様のプログラミング言語等の従来の手続型プログラミング言語、および、LOLCODEおよびPIKACHU等の難解プログラミング言語といったものさえ含まれる。
【0023】
例えば、方法30は、以下の実施例17から21に関連し記載されたコンピュータ可読媒体に実装されてよい。方法30の実施形態またはその一部は、ファームウェア、アプリケーション(例えば、アプリケーションプログラミングインタフェース(API)を介して)、またはオペレーティングシステム(OS)上で実行されるドライバソフトウェアにおいて実装されてよい。
【0024】
有利には、いくつかの実施形態は、オブジェクトのエントロピークラスタリングを提供してよい。いくつかの実施形態は、学習アルゴリズムがラベル付きデータ(例えば、猫の写真と猫以外の写真)を用いてトレーニングされた後、推測を実行するために用いられ得る教師あり学習に対し、教師なし学習(例えば、ラベルなしデータにおける構造を描写する機械学習タスク)の実行のために有用であってよい。いくつかの他のクラスタリング技法は、欠損情報を有するデータまたは同一の属性に対し複数の値を有するデータを破棄する可能性があり、または、合成値を用いて、欠損データを埋め、その正確さを減じる可能性がある。有利には、エントロピークラスタリング技法のいくつかの実施形態は、本質的に、欠損情報を有する、または同一の属性に対する複数の値を有するデータを扱ってよい。
【0025】
エントロピークラスタリングのいくつかの実施形態は、教師なし学習の現実世界での広範な用途に適用されてよい。例えば、いくつかの実施形態は、ターゲット広告がその後に提示される同様のソーシャルメディアユーザ、または同様のアイテムの購入推奨が提示されるeコマース顧客のクラスタリングを含んでよい。いくつかの実施形態は、ネットワークへのログイン時の振る舞いに基づき、IPアドレスをクラスタリング(例えば、悪意のある振る舞いまたは悪質な振る舞いを示す複数のIPアドレスが識別されてよい)するために用いられてよい。いくつかの実施形態は、製品販売プロファイルに基づき、ハイパーマーケットをクラスタリングして、効果的なプロモーションを識別してよい。いくつかの実施形態は、著者および引用ネットワークに基づき、技術文献をクラスタリング(例えば、関心のある特許文献または学術論文が識別されてよい)してよい。当業者は、これらはいくつかの例に過ぎないこと、および、実施形態は汎用的であってよく、且つ多くの種類のデータをクラスタリングするために用いられてよいことを理解するであろう。
【0026】
いくつかの実施形態は、グラフベースの技術を用いてよい。例えば、いくつかの実施形態は、グラフ解析のためのソフトウェアおよび/またはハードウェアアーキテクチャを含む、米国防総省国防高等研究事業局(Defense Advanced Research Projects Agency:DARPA)のHIVE(Hierarchical Identify Verify and Exploit)技術を組み込む、または実装してよい。教師なし学習は、ソーシャルネットワークの「友人」の示唆、オンライン小売業者の製品推奨等といった大きな経済的影響を持つ適用を含んでよい。教師なし学習技術のメインクラスは、関連付けルール、クラスタ解析、自己組織化マップおよび潜在変数モデルを含んでよい。いくつかの実施形態は、まったく新しいクラス(例えば、上述のクラスのいずれかにおける厳密なものではなく、クラスタ解析および関連付けルールに幾分の類似性を持つ)の教師なし学習を提供してよい。
【0027】
いくつかの実施形態は、例えば、意図的であれ、意図的でないものであれ、でっちあげ、情報漏えいキャンペーン、虚報の報道を含む、様々なエンティティにより散布された偽の、または誤解を招く情報の教師なし分類といった、大きな軍事的重要性を持つ適用を含んでよい。グラフベースの技術と共に、拡散した偽りの情報の力学を調査するために用いられてよい。
【0028】
構成可能なルールセットは、1つのタイプのデータに限定されないので、効率的なグラフベースの技術と共に用いられるいくつかの実施形態は、巨大な混合型の非テキストデータベースのビッグデータ要約を行うことで、大きな軍事的および経済的影響を有してよい。
【0029】
技術文献のクラスタリングの例については、関連付けルールを用いる標準的な手順に、共引用ネットワーク(例えば、ある文書を共通に引用する対の文書)の解析が含まれてよい。ネットワークトラフィックの例については、異なる変数間を区別するためのメトリックを適用することによって、非類似度行列が構築されてよい(例えば、CNN.comは、ESPN.comよりもNBC.comに近いことはほぼ間違いがないと言われている)。従来の教師なし学習技術は、同一モデルにおける定量的およびカテゴリー的なばらつきを扱う際に、困難性を有する可能性があり、欠損する属性に対し脆弱である可能性(例えば、しばしば、単一の列が値を持たないことが原因で、データの行が破棄される必要がある)があり、同一の特徴に対する異なる数の属性を有するデータエンティティに対し脆弱である可能性(例えば、技術文献が、少なくとも一人の著者を有するが、もっと多くの著者を有する可能性がある)があり、および、数値以外の値を持つクラスタ要素間の類似度を定量的且つ整合的に計算することが簡単でない可能性がある。有利には、いくつかの実施形態は、上述の問題のうちの1または複数を、従来の教師なし学習技術を用いて克服してよい。
【0030】
ここで、
図4を参照すると、データコレクション52は、列および行で表されたテーブルを含んでよく、テーブルは、各IPアドレスの行エントリ、およびホストウェブアドレス、受信バイト数、送信バイト数、ファイル名拡張子および所要時間の列エントリで構成される。テーブルエントリの一部は、「なし」、つまり欠損であってよい。例えば、データコレクション52は、ネットワークプロキシログデータ内の接続イベント情報から導かれてよい。いくつかの実施形態は、ネットワークプロキシログデータに基づき、類似の振る舞いを行うIPアドレスをクラスタリングしてよい。
【0031】
ここで、
図5Aおよび5Bを参照すると、各グラフ表現54および56の実施形態は、
図4の行52aおよび52bに対応してよい。モーフィズムとは、ある数学的構造から、別の数学的構造への構造保持または構造強化マッピング(例えば、データを変換するが、データの特定の関係性または特性を保持または強化する構成可能なルール/操作セット)を指してよい。
図5Aおよび5Bについては、接続イベントのすべての属性(例えば、各行エントリにおける異なる列)が、数学的グラフにおけるノードとして表され得、同一の接続イベント(例えば、データコレクション52の同一の行)に属する各ノード間にエッジが表され得るように、ルールが適用されてよい。作成されるグラフ数は、ログ内の接続イベント数に等しくてよい(例えば、データコレクション52内の他のIPアドレスに対しても、グラフ表現が作成されてよい)。いくつかの実施形態において、異なる属性間のエッジに、重みが指定されてよく、異なるルールが指定されてよく、および/または、追加のルールが指定されてよい。
【0032】
いくつかの実施形態は、離散確率変数を用いてよく、その結果、連続変数が離散されてよい。例えば、離散化処理は、モーフィズムの一部であってよい。特定のデータセットに対する適切なモーフィズムを選択することは、特徴エンジニアリングとみなされてよい。いくつかの実施形態において、変数の数値は、テキストに変換されてよい(例えば、送信された89バイトが、「89_sent」と表されてよい)。別のモーフィズムは、同じ桁を有するバイト数は、同一ビンにグループ化され、同一ラベルが付与されるように、数値は、数値の底10の対数を取った結果に基づいて変換されること(例えば、送信された89バイトは、「1_sent」として表されてよい、送信された200バイトは、「2_sent」として表されてよい、受信された345バイトは、「2_rcv」等と表されてよい、等)を指示してよい。いくつかのデータセットに対しては、桁による分離を用いて、典型的なオフィス文書、ソフトウェア更新、映画等を、異なるビンに入れてよく、クラスタリングの品質を向上させてよい。他のモーフィズムは、他の用途(例えば、連続値を均一サイズのビンにビニングする、存在するすべての値と比較したパーセンテージ基づくビン等)に対して有用であってよい。
【0033】
ここで、
図6を参照すると、マージグラフ表現60の実施形態は、2つのグラフ表現54および56からマージされたデータに対応してよい。ノードの表現面積は、それらの占有確率にほぼ比例してよい。グラフ表現54および56におけるすべてのノードは、同一の占有確率(例えば、一様確率)を有してよく、同一サイズのノードで示されてよい。グラフ54、56がマージされた後、グラフ60におけるラベル「jpg_ext」および「89_sent」が付けられたノードは、それらがより多くのエッジを有する(例えば、グラフ54のエッジが、グラフ56のエッジと組み合わされた)ので、他のノードよりも、より大きな占有確率を有する。従って、ラベル「jpg_ext」および「89_sent」が付けられたノードは、他のノードよりも大きく示されてよい。
【0034】
いくつかの実施形態において、グラフ54、56が生成された後、グラフのグループ(例えば、ペア、トリプレット等)が、ランダムに、または他の好適な方法で選択されてよく、各グラフのノードごとのグラフ情報エントロピー(以降、「gエントロピー(gentropy)」という)に加え、マージグラフ(例えば、グラフ60)のノードごとのgエントロピーが計算されてよい。いくつかの実施形態において、グラフのgエントロピーは、以下のように判定されてよい。
【数1】
式中、Xは、離散確率変数であり、Ρ(x
i)は、有向または無向エッジ数、および隣接頂点の占有確率に基づく、ノードiの定常占有確率である。例えば、式1は、数学的グラフに適用されるシャノン情報エントロピーに対応してよく、当該情報エントロピーは、一様な確率分布の場合に最大値であり得る。
【0035】
従って、グラフ54、56(例えば、一様な占有確率を持つ)は、ノードごとのgエントロピーがグラフ60より大きくてよく、ノードごとのマージのgエントロピーは、負であってよい。概して、ノードごとのマージのgエントロピーεは、以下のように判定されてよい。
【数2】
式中、G
A+B+...は、マージグラフのノードごとのgエントロピーを表わしてよく、avg(G
A,B...)は、構成グラフのノードごとの平均gエントロピーに対応してよい。類似する要素をクラスタリングすべく、いくつかの実施形態は、単一のグラフになるより大きな確率を、大きな負の、ノードごとのマージのgエントロピーをもたらすトランザクションに割り当ててよい。
【0036】
任意の好適な技術を用いて、占有確率を判定してよい。いくつかの実施形態において、ノードの占有確率は、オープンソースプロジェクト(例えば、Apache Spark GraphX等)で実装された技法のようなPageRank技法を用いて、効率的に計算されてよい。他の好適な技術は、グラフを複数回横断すること、および中心極限定理を利用(システムのエルゴード性を利用)することを含んでよい。いくつかの実施形態は、グラフ解析に対し最適化されたアーキテクチャ上で、はるかにより高速に実行するために十分最適であってよい。εが計算されると、遷移確率nが、シグモイド関数に少なくとも部分的に基づき、計算されてよい。例えば、フェルミ‐ディラック分布が用いられてよい。いくつかの実施形態において、遷移確率nは、以下のように判定されてよい。
【数3】
式中、μおよびkは、判定の間中、変化しないままである調整可能なパラメータであってよく、Tは、各ステップで低減されてよい「温度」パラメータであってよい。いくつかの実施形態は、ボルツマン分布等の他の分布も用いてよい。
【0037】
ここで
図7を参照すると、n対ε/μのグラフの実施形態は、様々な温度Tにおけるフェルミ‐ディラック分布を示してよく、Tは、パラメータkおよびμの式で与えられ、ここで、kは、ボルツマン定数を表わしてよく、μは化学ポテンシャルを表わしてよい。
図7は、どのようにフェルミ‐ディラック分布が、非常に低いT値において、階段関数を提供し得るかを示しており、階段関数では、ノードごとのマージのgエントロピーが負であれば、実質的に100パーセントの遷移確率であり、そうでなければ実質的に0パーセントの遷移確率である。Tのより高い値においては、ノードごとのマージのgエントロピーが正であっても、マージが承諾される可能性があるが、判定は、やはり優先的に、より高い類似度状態に遷移してよい。いくつかの実施形態は、高い温度で解析を開始し、判定が極小値で終了することを阻止してよい。いくつかの実施形態は、複数の実行結果を集約して、より堅牢な結果を生成してよい。
【0038】
いくつかの実施形態は、より多くのデータ属性を用いて、複数の判定間のクラスタのばらつきを低減してよい。例えば、ファイル拡張子等の1つの属性のみを用いると、クラスタは再現不能または安定的でない可能性がある。しかしながら、
図5の5つの属性すべてを用いることで、整合性のあるクラスタリングをもたらしてよく、複数の実行結果は、集約されてよい。有利には、いくつかの実施形態は、教師なし学習の問題を、擬似アニーリング法により解決されるべき最適化の問題へと変換してよい。例えば、最小化されるべき汎関数は、システムのノードごとのgエントロピーに対応してよく、当該gエントロピー自体が、システムの構成(例えば、クラスタ)の関数であってよい。有利には、いくつかの実施形態は、gエントロピーを、クラスタリングの類似度尺度として判定することを含め、データのクラスタリングに対し、熱力学的概念を適用してよい。
【0039】
いくつかの実施形態において、データの行は、データ属性がノードになる数学的グラフ表現に変換されてよい。複数のノードが同一の行に属する場合、グラフの当該ノードは、エッジを通して接続されてよい(例えば、
図4、5Aおよび5Bを参照)。いくつかの実施形態において、異なるグラフが、ランダムにまたは他の好適な方法で、選択されてよく、ノードごとのマージのグラフのgエントロピー(例えば、式1および2)および遷移確率(例えば、式3)が計算されて、ノードが永続的にマージされるべきであるかが判定されてよい。所望のクラスタ数または他の終了条件に到達すまで、この解析が反復されてよい。有利には、いくつかの実施形態は、データが欠損する属性、異なる数の属性または異なるタイプの属性を有するデータセットに対して、堅牢であってよい。このようなデータ堅牢性が、教師なし機械学習に対する有用な適用数を増大させてよい。というのは、多くの潜在的な現実世界の使用ケースは、秩序だっていない、またはクリーンでないデータコレクションを含み得るからである。
【0040】
クラスタが定義されると、元のデータセットに存在しないデータ要素の特定のクラスタとの類似度が、これらのクラスタを持つ新しい要素のノードごとのマージのgエントロピーを計算することによって推測されてよい。次に、この量を用いて、新しい要素が特定のクラスタに属するか否かを、例えばカットオフを用いて決定してよい。例えば、未知のIPアドレスの、既知の悪意のIPアドレスのクラスタにおけるIPアドレスとの類似度の計算は、当該未知のIPアドレスが、潜在的なセキュリティ脅威であるかの判定に役立ってよい。
【0041】
別の例示的な適用において、データコレクションは、同一分野に広く属する数千の技術文献を含んでよく、それに対する分類コードが、専門家によって割り当てられている。分類コードは、人間が定義したデータ構造を表わす。一実施形態は、複数の文書を100個のクラスタに編成してよい。他の終了条件は、特定数の段階の後、新しいクラスタは形成されず、グローバルエントロピーが計算され、特定数の段階の後、それが変化しない、等といったものを含んでよい。
【0042】
この例示的な適用においては、個々の文書が、データ行に対応してよく、属性は、著者、他の文献に対する参照、参照数、およびテキスト解析から判定されたトピックを含んでよい。分類コードは、入力の一部ではないこと、およびまた、一部の属性は数値を有し、その他の属性は、公称値を有することに留意されたい。モーフィズムは、複数の属性をグラフノードに変換してよく、当該属性が同一文書の一部であれば、ノードはエッジによって接続されてよい。モーフィズムは、構造を生成する構成可能ルールを表わしたものであってよく、結果が有用なクラスタ(例えば、特徴エンジニアリング)を生成するまで、体系的に修正されてよい。概して、著者数および参照数は、異なる文書に対し異なるものとなろう。文書の中には、参照がゼロのものさえあるが、当該方法は、依然として、残りの属性に基づき、当該文書をクラスタリング可能である。いくつかの実施形態は、ベクトルを用いてデータを表わす技術に対し、重要な利点をもたらしてよい。というのは、場合によっては、ある属性の不存在により、データ要素全体がクラスタリングから除去される結果をもたらし得、または、データセットの統計的特性に基づき、欠損値が架空の値で置換され得るからである。いくつかの実施形態は、有利には、グラフを用いて(例えば、類似度を表わすべく、ユークリッド空間における距離メトリックを定義する代わりに)、類似度を整合的に表わしてよい。
【0043】
ヒートマップは、分類コードが、あるクラスタの複数の文書に現れる正規化頻度を表わしてよい。いくつかの例においては、特定の分類コードを持つすべてまたは殆どすべての文書は、結果的に同一クラスタに入った(よって、頻度はほぼ100%である)。共同特許分類(Cooperative Patent Classification)システム等、密接に関連付けられた分類コードが、互いに英数字が近接して現れるように設計された分類システムについては、強度の多くは、局所領域に現れてよい(例えば、より高強度の正方形が互いに近接してよい)。異なる文書/データコレクションについては、いくつかの実施形態は、有利には、適用されたルールセットに基づき、文書/データにおける構造を識別してよい。解析が、有用な構造を識別しない場合、構造が見つかる(例えば、ルールが適切であること、互いに整合的であること等を示してよい)まで、パラメータが調整されてよく、および/または、モーフィズム(ルール)が体系的に変更(例えば、属性間の接続の重み等)されてよい。
【0044】
ここで、
図8を参照すると、データオブジェクトのエントロピークラスタリングの方法80の実施形態は、ブロック81において、モーフィズムを適用し、パラメータを初期化する段階を含んでよい。例えば、いくつかの実施形態は、有利には、局所的にまたはクラウドで実行される技術を提供してよく、当該技術は、ユーザにより供給されたモーフィズムを、データコレクションに適用して、元のフォーマットからの属性を、特性グラフにマッピングしてよい。次に、方法80は、局所的にまたはクラウドで実行される技術を提供してよく、当該技術は、ブロック82において、コレクションから、クラスタのペア、トリプレット等をランダムに、または他の好適な方法で選択(例えば、初期条件は、各データエンティティはクラスタである)し、ブロック83において、ブロック82で選択された各クラスタのノードごとのgエントロピーおよびマージされる、選択されたクラスタのノードごとのgエントロピーを計算する段階(例えば、式1を用いて)と、ブロック84において、ノードごとのマージのgエントロピーを計算する段階(例えば、マージされた、選択されたクラスタのノードごとのgエントロピーと、選択されたクラスタのノードごとの平均gエントロピーとの間の差異、式2を用いて)と、ブロック85において、ノードごとのマージのgエントロピーの関数および温度パラメータに基づき(例えば、式3を用いて)、マージの確率(例えば、ある状態から次の状態への遷移確率)を計算(例えば、式3を用いて)する段階を含む。
【0045】
次に、方法80は、ブロック86において、マージを承諾するか否かを判定する段階を含んでよい。例えば、いくつかの実施形態は、新しいクラスタでコレクションを更新してよい、または、マージの確率に基づき、元のクラスタを優先して、新しいクラスタを破棄してよい。ブロック86において、マージが承諾されない場合、方法80は、コレクションから、別のデータグループを、ランダムにまたは他の好適な方法で選択するために、ブロック82に戻ってよい。ブロック86において、マージが承諾される場合、方法80は、ブロック87において、終了条件が満たされたかを判定する段階を含んでよい。はいの場合、方法80は、ブロック88において、シミュレーションを終了してよい。そうでない場合、方法80は、ブロック89において、アニーリングパラメータのうちの1または複数を調整(例えば、温度Tを低減する、しかしながら、いくつかの実施形態においては、またk、uを調整する等)する段階、および、コレクションから、別のデータグループを、ランダムにまたは他の好適な方法で選択するためにブロック82に戻る段階を含んでよい。いくつかの実施形態は、データセットにおいて構造を見つけるべく、方法80の複数のパスを含んでよく、当該複数のパスは、いくつかの実施形態において、方法80の複数のパスの結果を集約する段階を含んでよい。データセットが好適なクラスタに編成された後、いくつかの実施形態は、新しいデータエンティティと各クラスタとの間のノードごとのマージのgエントロピーを計算することにより、元のセットに存在しないデータが、得られたクラスタにどのくらい類似(例えば、または類似していない)しているかを判定する段階を含んでよい。次に、当該判定に基づき、さらなるアクションがとられてよい(例えば、あるIPアドレスを、潜在的に悪意のあるものとして識別する、文書の関連する技術分野を識別する、製品の推奨を提供する等)。
【0046】
他のクラスタリング技法においては、ベクトル空間の基底ベクトルに関する大きさおよび方向の両方を有する量を表わすベクトルが用いられてよい。例えば、3Dユークリッド空間において、以下のベクトル[1.5,5,1.2]は、[0,0,0]を原点とし、x方向において1.5単位、y方向において0.5単位、およびz方向において1.2単位の点で終了する「矢印」を表わしてよく、x、yおよびz方向は、互いに対して直交する基底(単位)ベクトルによって定義される。回転、平行移動等の操作がベクトルに適用されてよいが、合成ベクトルは、x、yおよびzによって作成される同一のベクトル空間にまだ存在する。多くのクラスタリング技法は、問題をユークリッド空間(例えば、通常、高次元)に変換するメトリックの定義に依存してよい。また、グラフがメトリックによって表されてよい。いくつかの実施形態は、2つのグラフを結合するバイナリグラフ操作を提供してよく、結合操作は、また行列表示も含んでよい。グラフ表現の実施形態(例えば、通常、隣接行列)は、ベクトル空間を表わさないが、いくつかの実施形態は、グラフにノードを自由に追加する(例えば、とりわけ、行および列を行列表示に追加することを含んでよい)。ユークリッド空間において、次元の暗黙的追加は、元のベクトルと相容れなくてよく、元のベクトルは、新しい次元で定義されないであろう。いくつかの実施形態は、各次元において定義されていないデータを破棄することなく、多くの次元で拡張可能な強力なクラスタリング技法を提供してよい。
【0047】
図9Aは、方法30(
図3Aから3B)および/または方法80(
図8)の1または複数の態様を実装してよい、エントロピークラスタリング装置132(132a~132b)を示す。ロジック命令、構成可能なロジック、固定機能ハードウェアロジックを含んでよいエントロピークラスタリング装置132は、既に説明したシステム10(
図1)に対し容易に代用されてよい。モーフィズム実行器132aは、構成可能なルールセットに基づき、データコレクションからのそれぞれの属性セットを、データの2または2より多いグラフ表現にマッピングしてよい。クラスタ弁別器132bは、gエントロピーに基づき、2または2より多いグラフ表現を、2または2より多いクラスタに編成してよい。いくつかの実施形態において、モーフィズム実行器132aは、強化または保持される必要のあるデータの関係性または特性により判定された、各データ属性のためのノード表現並びにノード間の接続および重みを用いて、構成可能なルールセットに基づき、それぞれのデータ属性セットを、2または2より多いグラフ表現に変換するように構成されてよい。クラスタ弁別器132bは、2または2より多いグラフ表現を、新しいクラスタ候補として、ランダムに、または他の好適な方法で選択し、構成グラフのノードごとのgエントロピーを判定し、新しいクラスタ候補のノードごとのgエントロピーを判定し、1または複数のパラメータ、および構成グラフのノードごとの平均gエントロピーと、新しいクラスタ候補のノードごとのgエントロピーとの間の差異に基づき、新しいクラスタ候補に対する遷移確率を判定し、判定された遷移確率に基づき、新しいクラスタ候補の保持または破棄のうち一方を行ってよい。
【0048】
例えば、クラスタ弁別器132bは、終了条件が満たされたかを判定し、終了条件が満たされない場合、1または複数のパラメータを調整し、クラスタ解析を反復するように構成されてもよい。特に、クラスタ弁別器132bのいくつかの実施形態は、2または2より多いグラフ表現の新しいグループを、新しいクラスタ候補として、ランダムにまたは他の好適な方法で選択し、構成グラフのノードごとのgエントロピーを判定し、新しいクラスタ候補のノードごとのgエントロピーを判定し、1または複数のパラメータ、および構成グラフのノードごとの平均gエントロピーと、新しいクラスタ候補のノードごとのgエントロピーとの間の差異に基づき、新しいクラスタ候補に対する遷移確率を判定し、判定された遷移確率に基づき、新しいクラスタ候補の保持または破棄のうち一方を行ってよい。いくつかの実施形態において、モーフィズム実行器132aは、さらに、強化または保持される必要のあるデータの関係性または特性により判定された、各データ属性のノード表現並びにノード間の接続および重みを用いて、それぞれのデータ属性セットを、2または2より多いグラフ表現に変換する新しい構成可能なルールセットを適用するように構成されてよく、クラスタ弁別器132bは、2または2より多いグラフ表現の新しいセットを、2または2より多いデータクラスタの新しいセットに編成してよく、エントロピークラスタリング装置132は、元の2または2より多いクラスタおよび2または2より多い新しいクラスタセットからの結果を集約してよい。本明細書に記載した任意の実施形態において、エントロピークラスタリング装置132は、新しいデータオブジェクトおよび/またはコレクションと、2または2より多いデータクラスタの各々との間のノードごとのマージのgエントロピーを判定するように構成されてもよい。
【0049】
ここで、
図9Bを参照すると、ロジック134b(例えば、トランジスタアレイおよび他の集積回路/ICコンポーネント)が、基板134a(例えば、シリコン、サファイア、ガリウムヒ素)に連結された、エントロピークラスタリング装置134(134a~134b)が示されている。ロジック134bは、概して、方法30(
図3Aから3B)および/または方法80(
図8)の1または複数の態様を実装してよい。従って、ロジック134bは、構成可能なルールセットに基づき、データコレクションからのそれぞれの属性セットを、データの2または2より多いグラフ表現にマッピングし、gエントロピーに基づき、2または2より多いグラフ表現を、2または2より多いデータクラスタに編成してよい。いくつかの実施形態において、ロジック134bは、強化または保持される必要のあるデータの関係性または特性により判定された各データ属性のノード表現並びにノード間の接続および重みを用いて、構成可能なルールセットに基づき、それぞれのデータ属性セットを、2または2より多いグラフ表現に変換し、2または2より多いグラフ表現を新しいクラスタ候補として、ランダムにまたは他の好適な方法で選択し、構成グラフのノードごとのgエントロピーを判定し、新しいクラスタ候補のノードごとのgエントロピーを判定し、1または複数のパラメータ、および構成グラフのノードごとの平均gエントロピーと新しいクラスタ候補のノードごとのgエントロピーとの間の差異に基づき、新しいクラスタ候補に対する遷移確率を判定し、判定された遷移確率に基づき、新しいクラスタ候補の保持または破棄のうち一方を行う、ように構成されてよい。
【0050】
例えば、ロジック134bは、終了条件が満たされたかを判定し、および、終了条件が満たされない場合、1または複数のパラメータを調整し、クラスタ解析を反復する、ように構成されてもよい。特に、ロジック134bのいくつかの実施形態は、2または2より多いグラフ表現の新しいグループを、新しいクラスタ候補として、ランダムにまたは他の好適な方法で選択し、調整された1または複数のパラメータに基づき、構成グラフのノードごとのgエントロピーを判定し、調整された1または複数のパラメータに基づき、新しいクラスタ候補のノードごとのgエントロピーを判定し、調整された1または複数のパラメータ、および調整された1または複数のパラメータに基づく、構成グラフのノードごとの平均gエントロピーと、調整された1または複数のパラメータに基づく、新しいクラスタ候補のノードごとのgエントロピーとの間の差異に基づき、新しいクラスタ候補に対する遷移確率を判定し、調整された1または複数のパラメータに基づき、判定された遷移確率に基づき、新しいクラスタ候補の保持または破棄のうち一方を行ってよい。いくつかの実施形態において、ロジック134bは、さらに、強化または保持される必要のあるデータの関係性または特性により判定された、各データ属性のためのノード表現並びにノード間の接続および重みを用いて、新しい構成可能なルールセットを適用し、2または2より多いグラフ表現の新しいセットを、2または2より多いデータクラスタの新しいセットに編成し、2または2より多い判定からの結果を集約する、ように構成されてよい。本明細書に記載された任意の実施形態において、ロジック134bは、新しいデータオブジェクトおよび/またはコレクションと、2または2より多いデータクラスタの各々との間のノードごとのマージのgエントロピーを判定するように構成されてもよい。一例において、装置134は、半導体ダイ、チップおよび/またはパッケージである。
【0051】
図10は、一実施形態によるプロセッサコア200を示す。プロセッサコア200は、マイクロプロセッサ、埋め込みプロセッサ、デジタル信号プロセッサ(DSP)、ネットワークプロセッサ等の任意のタイプのプロセッサのためのコア、またはコードを実行するための他のデバイスであってよい。
図10中には、1つのプロセッサコア200のみが示されているが、代替的に、処理要素は、
図10に示されたプロセッサコア200を2つ以上含んでよい。プロセッサコア200は、シングルスレッドコアであってよく、少なくとも1つの実施形態については、プロセッサコア200は、当該コアが、コアごとに2つ以上のハードウェアスレッドコンテキスト(例えば、「ロジカルプロセッサ」)を含んでよい点において、マルチスレッドであってよい。
【0052】
図10は、また、プロセッサコア200に連結されたメモリ270を示す。メモリ270は、当業者に周知または利用可能であるような広範なメモリのうち任意のもの(メモリ階層の様々な層を含む)であってよい。メモリ270は、プロセッサコア200によって実行されるべき1または複数のコード213命令を含んでよく、コード213は、既に説明した方法30(
図3Aから3B)および/または方法80(
図8)の1または複数の態様を実装してよい。プロセッサコア200は、コード213によって示される命令のプログラムシーケンスに従う。各命令は、フロントエンド部210に入り、1または複数のデコーダ220によって処理されてよい。デコーダ220は、その出力として、固定幅マイクロオペレーション等のマイクロオペレーションを予め定義されたフォーマットで生成してよく、または、他の命令、マイクロ命令若しくは元のコード命令を反映する制御信号を生成してよい。示されたフロントエンド部210は、また、レジスタリネーミングロジック225およびスケジューリングロジック230を含み、これらは、概して、リソースを割り当て、変換命令に対応する操作を実行のためにキューに入れる。
【0053】
プロセッサコア200は、255‐1から255‐Nまでの実行ユニットセットを有する実行ロジック250を含むように示されている。いくつかの実施形態は、特有の機能または機能セットに専用の複数の実行ユニットを含んでよい。他の実施形態は、特定の機能を実行し得る1つの実行ユニットのみ、または1つの実行ユニットを含んでよい。示された実行ロジック250は、コード命令によって指定される操作を実行する。
【0054】
コード命令によって指定された操作の実行を完了した後、バックエンドロジック260は、コード213の命令を退避させる。一実施形態において、プロセッサコア200は、命令のアウトオブオーダ実行を可能にしてよいが、命令のインオーダ退避を要求する。退避ロジック265は、当業者に周知のような様々な形態を取ってよい(例えば、リオーダバッファ等)。このようにして、プロセッサコア200は、コード213の実行中に、デコーダによって生成された出力、レジスタリネーミングロジック225によって用いられるハードウェアレジスタおよびテーブル、並びに実行ロジック250によって修正された任意のレジスタ(不図示)の少なくとも観点から、変換される。
【0055】
図10中には示されていないが、処理要素は、プロセッサコア200を備えたチップ上に他の要素を含んでよい。例えば、処理要素は、プロセッサコア200と共にメモリ制御ロジックを含んでよい。処理要素は、I/O制御ロジックを含んでよく、および/または、メモリ制御ロジックと統合されたI/O制御ロジックを含んでよい。処理要素は、また、1または複数のキャッシュを含んでもよい。
【0056】
図10中に示されていないが、プロセッサコア200およびメモリ270は、グラフ解析のために最適化されてよい。例えば、プロセッサコア200およびメモリ270は、積層可能なクロスグリッドデータアクセスアレイ等の不揮発性メモリを用いてよく、加速可能な線形代数構築ブロック(グラフプリミティブ)を用いてよく、グラフ行列を、メモリマッピングを好都合に可能にするサブアレイにマッピングするデータフォーマットモデルを用いてよく、または、メモリ270とプロセッサコア200との間でグラフプリミティブを効率的に移動させるデータフローモデルを使用してよい。
【0057】
ここで
図11を参照すると、一実施形態によるシステム1000の実施形態のブロック図が示されている。第1の処理要素1070および第2の処理要素1080を含むマルチプロセッサシステム1000が
図11中に示されている。2つの処理要素1070および1080が示されているが、システム1000の実施形態は、かかる処理要素を1つのみ含んでよいことも理解されたい。
【0058】
システム1000は、ポイントツーポイント相互接続システムとして示されており、第1の処理要素1070および第2の処理要素1080は、ポイントツーポイント相互接続1050を介して連結されている。
図11中に示される相互接続のうち任意のものまたはすべてが、ポイントツーポイント相互接続ではなく、マルチドロップバスとして実装されてよいことを理解されたい。
【0059】
図11に示すように、処理要素1070および1080の各々は、第1および第2のプロセッサコア(すなわち、プロセッサコア1074aおよび1074b並びにプロセッサコア1084aおよび1084b)を含むマルチコアプロセッサであってよい。このようなコア1074a、1074b、1084a、1084bは、
図10に関連して上記したものと同様の態様で、命令コードを実行するように構成されてよい。
【0060】
各処理要素1070、1080は、少なくとも、1つの共有キャッシュ1896a、1896b(例えば、スタティックランダムアクセスメモリ/SRAM)を含んでよい。共有キャッシュ1896a、1896bは、プロセッサの1または複数のコンポーネント、例えば、それぞれコア1074a、1074bおよび1084a、1084bによって用いられるデータ(例えば、オブジェクト、命令)を格納してよい。例えば、共有キャッシュ1896a、1896bは、プロセッサのコンポーネントによる、より高速なアクセスのために、メモリ1032、1034に格納されたデータをローカルにキャッシュしてよい。1または複数の実施形態において、共有キャッシュ1896a、1896bは、レベル2(L2)、レベル3(L3)、レベル4(L4)等の1または複数の中レベルキャッシュ、または他のレベルのキャッシュ、ラストレベルキャッシュ(LLC)および/またはこれらの組み合わせを含んでよい。
【0061】
2つの処理要素1070、1080のみが示されているが、実施形態の範囲は、このようには限定されないことを理解されたい。他の実施形態においては、1または複数の追加の処理要素が、特定のプロセッサに存在してよい。代替的に、処理要素1070、1080の1または複数は、アクセラレータまたはフィールドプログラマブルゲートアレイ等のプロセッサ以外の要素であってよい。例えば、追加の処理要素は、第1のプロセッサ1070と同一の追加のプロセッサ、第1のプロセッサ1070と異種であるか、または非対称的である追加のプロセッサ、アクセラレータ(例えば、グラフィックアクセラレータまたはデジタル信号処理(DSP)ユニット等といった)、フィールドプログラマブルゲートアレイ、または任意の他の処理要素を含んでよい。アーキテクチャの特性、マイクロアーキテクチャの特性、熱特性、電力消費特性等を含む広範な価値基準に照らし、処理要素1070と処理要素1080との間には、様々な差異が存在する可能性がある。これらの差異は、処理要素1070、1080間の非対称性および異質性として、差異自体を効果的に呈してよい。少なくとも1つの実施形態について、様々な処理要素1070、1080は、同一のダイパッケージに存在してよい。
【0062】
第1の処理要素1070は、さらに、メモリコントローラロジック(MC)1072並びにポイントツーポイント(P‐P)インタフェース1076および1078を含んでよい。同様に、第2の処理要素1080は、MC1082並びにP-Pインタフェース1086および1088を含んでよい。
図11に示す通り、MC1072および1082は、プロセッサを、各メモリ、すなわちメモリ1032およびメモリ1034に連結し、これらメモリは、各プロセッサに局所的に取り付けられたメインメモリの一部であってよい。MC1072および1082は、処理要素1070、1080に統合されたように示されているが、代替的な実施形態では、MCロジックは、そこに統合されず、処理要素1070、1080の外部のディスクリートロジックであってよい。
【0063】
第1の処理要素1070および第2の処理要素1080は、それぞれ、P‐P相互接続1076、1086を介して、I/Oサブシステム1090に連結されてよい。
図11に示す通り、I/Oサブシステム1090は、TEE1097(例えば、セキュリティコントローラ)並びにP-Pインタフェース1094および1098を含む。さらに、I/Oサブシステム1090は、I/Oサブシステム1090に高性能なグラフィックスエンジン1038を連結するためのインタフェース1092を含む。一実施形態において、バス1049は、グラフィックスエンジン1038を、I/Oサブシステム1090に連結するために用いられてよい。代替的に、ポイントツーポイント相互接続が、これらのコンポーネントを連結してよい。
【0064】
そして、I/Oサブシステム1090が、インタフェース1096を介して、第1のバス1016に連結されてよい。一実施形態において、第1のバス1016は、ペリフェラルコンポーネントインターコネクト(PCI)バス、PCIエクスプレスバス等のバス、または別の第3世代I/O相互接続バスであってよいが、実施形態の範囲は、このようには限定されない。
【0065】
図11に示される通り、様々なI/Oデバイス1014(例えば、カメラ、センサ)が、第1のバス1016を第2のバス1020に連結し得るバスブリッジ1018と共に、第1のバス1016に連結されてよい。一実施形態において、第2のバス1020は、低ピンカウント(LPC)バスであってよい。様々デバイスが、第2のバス1020に連結されてよく、このようなものとして、例えば、キーボード/マウス1012、ネットワークコントローラ/通信デバイス1026(コンピュータネットワークと通信してよい)、および、ディスクドライブ、または一実施形態において、コード1030を含んでよい他のマスストレージデバイス等のデータストレージユニット1019が含まれる。コード1030は、上記の方法の1または複数に係る実施形態を実行するための命令を含んでよい。従って、示されたコード1030は、既に説明した方法30(
図3Aから3B)および/または方法80(
図8)の1または複数の態様を実装してよく、既に説明したコード213(
図10)に類似してよい。さらに、オーディオI/O 1024が、第2のバス1020に連結されてよい。
【0066】
他の実施形態も想定されてよいことに留意されたい。例えば、
図11のポイントツーポイントアーキテクチャの代わりに、システムは、マルチドロップバスまたは別のこのような通信トポロジーを実装してよい。
【0067】
追加の留意事項および実施例
【0068】
例1は、プロセッサ、上記プロセッサに通信可能に連結されたメモリ、および上記プロセッサに通信可能に連結されたロジックを備えた、電子処理システムを含んでよく、上記ロジックは、データの関係性または特性の保持または強化のうちの一方を行う構成可能なルールセットに基づき、データコレクションを、データの2または2より多い数学的グラフ表現にマッピングし、グラフ情報エントロピーおよび1または複数のパラメータに基づき、2または2より多いグラフ表現を、2または2より多いデータクラスタに編成する。
【0069】
例2は、例1に係るシステムを含んでよく、上記ロジックは、さらに、強化または保持される必要のあるデータの関係性または特性により判定された各データ属性のノード表現並びにノード間の接続および重みを用いて、上記それぞれのデータ属性セットを、2または2より多いグラフ表現に変換する構成可能なルールセットを適用する。
【0070】
例3は、例2のシステムを含んでよく、上記ロジックは、さらに、2または2より多いグラフ表現を、新しいクラスタ候補としてランダムにまたは他の好適な方法で選択し、構成グラフのノードごとのグラフ情報エントロピーを判定し、上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーを判定し、上記1または複数のパラメータ、および上記構成グラフのノードごとの平均グラフ情報エントロピーと、上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーとの間の差異に基づき、上記新しいクラスタ候補に対する遷移確率を判定し、上記判定された遷移確率に基づき、上記新しいクラスタ候補の保持または破棄のうち一方を行う。
【0071】
例4は、例3のシステムを含んでよく、上記ロジックは、さらに、上記新しいクラスタ候補が保持される場合、上記構成グラフを除去する、または、上記新しいクラスタ候補が破棄される場合、上記構成グラフをそのまま残す、のうち一方を行う。
【0072】
例5は、例4のシステムを含んでよく、上記ロジックは、さらに、上記終了条件が満たされたかを判定し、上記終了条件が満たされない場合、1または複数のパラメータを調整し、2または2より多いグラフ表現の新しいグループを、上記新しいクラスタ候補としてランダムにまたは他の好適な方法で選択し、上記調整された1または複数のパラメータに基づき、上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーを判定し、上記調整された1または複数のパラメータに基づき、構成グラフ表現のノードごとの上記グラフ情報エントロピーを判定し、上記調整された1または複数のパラメータ、上記クラスタ候補のノードごとの上記グラフ情報エントロピー、および上記構成グラフ表現のノードごとの上記平均グラフ情報エントロピーに基づき、上記新しいクラスタ候補に対する遷移確率を判定し、上記判定された遷移確率に基づき、上記新しいクラスタ候補の保持または破棄のうち一方を行う。
【0073】
例6は、1または複数の基板と、上記1または複数の基板に連結されたロジックであって、上記ロジックは、構成可能なロジックおよび固定機能ハードウェアロジックのうちの1または複数において少なくとも部分的に実装されたロジックと、を備え、上記1または複数の基板に連結された上記ロジックは、データの関係性または特性の保持または強化のうち一方を行う構成可能なルールセットに基づき、データコレクションを、データの2または2より多い数学的グラフ表現にマッピングし、グラフ情報エントロピーおよび1または複数のパラメータに基づき、上記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成する、半導体パッケージ装置を含んでよい。
【0074】
例7は、例6に係る装置を含んでよく、上記ロジックは、さらに、強化または保持される必要のあるデータの関係性または特性により判定された、各データ属性のノード表現並びにノード間の接続および重みを用いて、上記それぞれのデータ属性セットを、2または2より多いグラフ表現に変換する構成可能なルールセットを適用する。
【0075】
例8は、例7の装置を含んでよく、上記ロジックは、さらに、2または2より多いグラフ表現を、新しいクラスタ候補としてランダムにまたは他の好適な方法で選択し、構成グラフのノードごとのグラフ情報エントロピーを判定し、上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーを判定し、上記1または複数のパラメータ、および上記構成グラフのノードごとの平均グラフ情報エントロピーと、上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーとの間の差異に基づき、上記新しいクラスタ候補に対する遷移確率を判定し、上記判定された遷移確率に基づき、上記新しいクラスタ候補の保持または破棄のうち一方を行う。
【0076】
例9は、例8の装置を含んでよく、上記ロジックは、さらに、上記新しいクラスタ候補が保持される場合、上記構成グラフを除去する、または、上記新しいクラスタ候補が破棄される場合、上記構成グラフをそのまま残す、のうち一方を行う。
【0077】
例10は、例9の装置を含んでよく、上記ロジックは、さらに、上記終了条件が満たされたかを判定し、上記終了条件が満たされない場合、1または複数のパラメータを調整し、2または2より多いグラフ表現の新しいグループを、上記新しいクラスタ候補としてランダムにまたは他の好適な方法で選択し、上記調整された1または複数のパラメータに基づき、上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーを判定し、上記調整された1または複数のパラメータに基づき、構成グラフ表現のノードごとの上記グラフ情報エントロピーを判定し、上記調整された1または複数のパラメータ、上記クラスタ候補のノードごとの上記グラフ情報エントロピー、および上記構成グラフ表現のノードごとの上記平均グラフ情報エントロピーに基づき、上記新しいクラスタ候補に対する遷移確率を判定し、上記判定された遷移確率に基づき、上記新しいクラスタ候補の保持または破棄のうち一方を行う。
【0078】
例11は、例7から10のいずれかに記載の装置を含んでよく、上記1または複数の基板に連結された上記ロジックは、上記1または複数の基板内に位置付けられたトランジスタチャネル領域を含む。
【0079】
例12は、データの関係性または特性の保持または強化のうち一方を行う構成可能なルールセットに基づき、データコレクションを、データの2または2より多い数学的グラフ表現にマッピングする段階と、グラフ情報エントロピーおよび1または複数のパラメータに基づき、上記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成する段階と、を備える、教師なし機械学習の方法を含んでよい。
【0080】
例13は、例12の方法を含んでよく、強化または保持される必要のあるデータの関係性または特性により判定された、各データ属性のノード表現並びにノード間の接続および重みを用いて、上記それぞれのデータ属性セットを、2または2より多いグラフ表現に変換する構成可能なルールセットを適用する段階をさらに備える。
【0081】
例14は、例13の方法を含んでよく、2または2より多いグラフ表現を、新しいクラスタ候補としてランダムに選択する段階と、構成グラフのノードごとのグラフ情報エントロピーを判定する段階と、上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーを判定する段階と、上記1または複数のパラメータ、および上記構成グラフのノードごとの平均グラフ情報エントロピーと、上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーとの間の差異に基づき、上記新しいクラスタ候補に対する遷移確率を判定する段階と、上記判定された遷移確率に基づき、上記新しいクラスタ候補の保持または破棄のうち一方を行う段階と、をさらに備える。
【0082】
例15は、例14の方法を含んでよく、上記新しいクラスタ候補が保持される場合、上記構成グラフを除去し、または、上記新しいクラスタ候補が破棄される場合、上記構成グラフをそのまま残す、のうち一方を行う段階をさらに備える。
【0083】
例16は、例15の方法を含んでよく、上記終了条件が満たされるかを判定する段階をさらに備え、上記終了条件が満たされない場合、1または複数のパラメータを調整する段階と、2または2より多いグラフ表現の新しいグループを、上記新しいクラスタ候補としてランダムにまたは他の好適な方法で選択する段階と、上記調整された1または複数のパラメータに基づき、上記新しいクラスタ候補の各ノードごとの上記グラフ情報エントロピーを判定する段階と、上記調整された1または複数のパラメータに基づき、上記構成グラフ表現のノードごとの上記グラフ情報エントロピーを判定する段階と、上記調整された1または複数のパラメータ、上記クラスタ候補のノードごとの上記グラフ情報エントロピー、および上記構成グラフ表現のノードごとの上記平均グラフ情報エントロピーに基づき、上記新しいクラスタ候補に対する遷移確率を判定する段階と、上記判定された遷移確率に基づき、上記新しいクラスタ候補の保持または破棄のうち一方を行う段階と、を備える。
【0084】
例17は、命令セットを備えた少なくとも1つのコンピュータ可読記憶媒体を含んでよく、上記命令セットは、コンピューティングデバイスによる実行時に、上記コンピューティングデバイスに、データの関係性または特性の保持または強化のうち一方を行う構成可能なルールセットに基づき、データコレクションを、データの2または2より多い数学的グラフ表現にマッピングさせ、グラフ情報エントロピーおよび1または複数のパラメータに基づき、上記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成させる。
【0085】
例18は、例17の少なくとも1つのコンピュータ可読記憶媒体を含んでよく、さらなる命令セットを備え、上記命令セットは、コンピューティングデバイスによる実行時に、上記コンピューティングデバイスに、強化または保持される必要のあるデータの関係性または特性により判定された、各データ属性のノード表現並びにノード間の接続および重みを用いて、上記それぞれのデータ属性セットを、2または2より多いグラフ表現に変換する構成可能なルールセットを適用させる。
【0086】
例19は、例18の少なくとも1つのコンピュータ可読記憶媒体を含んでよく、さらなる命令セットを備え、上記命令セットは、コンピューティングデバイスによる実行時に、上記コンピューティングデバイスに、2または2より多いグラフ表現を、新しいクラスタ候補としてランダムにまたは他の好適な方法で選択させ、構成グラフのノードごとのグラフ情報エントロピーを判定させ、上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーを判定させ、上記1または複数のパラメータ、および上記構成グラフのノードごとの平均グラフ情報エントロピーと、上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーとの間の差異に基づき、上記新しいクラスタ候補に対する遷移確率を判定させ、上記判定された遷移確率に基づき、上記新しいクラスタ候補の保持または破棄のうち一方を行わせる。
【0087】
例20は、例19の少なくとも1つのコンピュータ可読記憶媒体を含んでよく、上記媒体は、さらなる命令セットを備え、上記命令セットは、コンピューティングデバイスによる実行時に、上記コンピューティングデバイスに、上記新しいクラスタ候補が保持される場合、上記構成グラフを除去する、または、上記新しいクラスタ候補が破棄される場合、上記構成グラフをそのまま残す、のうち一方を行わせる。
【0088】
例21は、例20の少なくとも1つのコンピュータ可読記憶媒体を含んでよく、上記媒体は、さらなる命令セットを備え、上記命令セットは、コンピューティングデバイスによる実行時に、上記コンピューティングデバイスに、終了条件が満たされるかを判定させ、上記終了条件が満たされない場合、1または複数のパラメータを調整させ、2または2より多いグラフ表現の新しいグループを、上記新しいクラスタ候補としてランダムにまたは他の好適な方法で選択させ、上記調整された1または複数のパラメータに基づき、上記新しいクラスタ候補の各ノードごとの上記グラフ情報エントロピーを判定させ、上記調整された1または複数のパラメータに基づき、上記構成グラフ表現のノードごとの上記グラフ情報エントロピーを判定させ、上記調整された1または複数のパラメータに基づき、構成グラフ表現のノードごとの上記グラフ情報エントロピーを判定させ、
上記調整された1または複数のパラメータ、上記クラスタ候補のノードごとの上記グラフ情報エントロピーおよび上記構成グラフ表現のノードごとの上記平均グラフ情報エントロピーに基づき、上記新しいクラスタ候補に対する遷移確率を判定させ、上記判定された遷移確率に基づき、上記新しいクラスタ候補の保持または破棄のうち一方を行わせる。
【0089】
例22は、データの関係性または特性の保持または強化のうち一方を行う構成可能なルールセットに基づき、データコレクションを、データの2または2より多い数学的グラフ表現にマッピングするための手段と、グラフ情報エントロピーおよび1または複数のパラメータに基づき、上記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成するための手段と、を備える、教師なし機械学習装置を含んでよい。
【0090】
例23は、例22の装置を含んでよく、強化または保持される必要のあるデータの関係性または特性により判定された、各データ属性のノード表現並びにノード間の接続および重みを用いて、上記それぞれのデータ属性セットを、2または2より多いグラフ表現に変換する構成可能なルールセットを適用するための手段をさらに備える。
【0091】
例24は、例23の装置を含んでよく、上記装置は、さらに、2または2より多いグラフ表現を、新しいクラスタ候補としてランダムにまたは他の好適な方法で選択するための手段と、構成グラフのノードごとのグラフ情報エントロピーを判定するための手段と、上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーを判定するための手段と、上記1または複数のパラメータ、および上記構成グラフのノードごとの平均グラフ情報エントロピーと、上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーとの間の差異に基づき、上記新しいクラスタ候補に対する遷移確率を判定するための手段と、上記判定された遷移確率に基づき、上記新しいクラスタ候補の保持または破棄のうち一方を行うための手段と、を備える。
【0092】
例25は、例24の装置を含んでよく、上記装置は、さらに、上記新しいクラスタ候補が保持される場合、上記構成グラフを除去し、または、上記新しいクラスタ候補が破棄される場合、上記構成グラフをそのまま残す、のうち一方を行うための手段を備える。
【0093】
例26は、例25の装置を含んでよく、上記装置は、さらに、上記終了条件が満たされたかを判定するための手段をさらに備え、上記終了条件が満たされない場合、1または複数のパラメータを調整するための手段と、2または2より多いグラフ表現の新しいグループを、上記新しいクラスタ候補としてランダムにまたは他の好適な方法で選択するための手段と、上記調整された1または複数のパラメータに基づき、上記新しいクラスタ候補の各ノードごとの上記グラフ情報エントロピーを判定するための手段と、上記調整された1または複数のパラメータに基づき、上記構成グラフ表現のノードごとの上記グラフ情報エントロピーを判定するための手段と、上記調整された1または複数のパラメータ、上記クラスタ候補のノードごとの上記グラフ情報エントロピー、および上記構成グラフ表現のノードごとの上記平均グラフ情報エントロピーに基づき、上記新しいクラスタ候補に対する遷移確率を判定するための手段と、上記判定された遷移確率に基づき、上記新しいクラスタ候補の保持または破棄のうち一方を行うための手段と、を備える。
【0094】
実施形態は、すべてのタイプの半導体集積回路("IC")チップとの使用に適用可能である。これらICチップの例としては、限定ではないが、プロセッサ、コントローラ、チップセットコンポーネント、プログラマブルロジックアレイ(PLA)、メモリチップ、ネットワークチップ、システムオンチップ(SoC)、SSD/NANDコントローラASIC等が含まれる。また、いくつかの図面においては、信号線が線で表されている。線によっては、より多くの成分信号パスを示すべく異なっていてよく、複数の成分信号パスを示すべく番号ラベルを有していてよく、および/または、主要情報の流れ方向を示すべく1または複数の端部に矢印を有していてよい。しかしながら、このことは限定的に解釈されるべきではない。むしろ、かかる追加の詳細は、1または複数の例示的な実施形態に関連して使用され、回路の理解をより容易にしてよい。追加の情報を有するか否かにかかわらず、表されたあらゆる信号線は実際には、複数の方向に移動してよい1または複数の信号を含んでよく、例えば、差動ペアで実装されるデジタル線またはアナログ線、光ファイバ線、および/または、シングルエンド線といったあらゆる好適なタイプの信号方式で実装されてよい。
【0095】
例示的な大きさ/モデル/値/範囲が与えられている場合があるが、実施形態は同一内容に限定されるものではない。時間経過に伴い製造技術(例えば、フォトリソグラフィ)が成熟するにつれ、より小型のデバイスが製造され得ることが予期される。また、例示および説明を簡潔にするために、および、実施形態の特定の態様を不明瞭にしないように、ICチップおよび他のコンポーネントへの周知の電源/グラウンド接続は、図中に示されていても、示されていなくてもよい。さらに、実施形態を不明瞭にすることを回避すべく、構成は、ブロック図で示されてよく、また、かかるブロック図構成の実装に関する詳細は、実施形態が実装されるべきプラットフォームに大きく依存することに鑑みれば、すなわち、かかる詳細は、当業者の十分知見の範囲内である。例示的な実施形態を説明するために、具体的な詳細(例えば、回路)が記載される場合、これらの具体的な詳細なしで、またはこれらの具体的な詳細の変形例によって、実施形態が実施され得ることが、当業者には、自明である。従って、詳細な説明は、限定的ではなく、例示的なものとしてみなされるべきである。
【0096】
「連結」という用語は、対象のコンポーネント間の任意のタイプの直接的または間接的関係、を指すために本明細書において使用されてよく、電気的、機械的、流体的、光学的、電磁的、電子機械的、または他の接続に適用されてよい。また、「第1」、「第2」等の用語は、説明を容易にするためだけに本明細書において使用されてよく、反対の記載がない限り、何ら特定の一時的または経時的な意味を含まない。
【0097】
本願および特許請求の範囲において用いられる「のうちの1または複数」という用語によって結合される項目の列挙は、列挙された用語の任意の組み合わせを意味してよい。例えば、「A、BおよびCのうちの1または複数」という文言および「A、BまたはCのうちの1または複数」という文言は両方とも、A;B;C;AおよびB;AおよびC;BおよびC;またはA、BおよびCを意味してよい。
【0098】
当業者ならば、上述の説明から、実施形態の広範な技術が、様々な形態で実装され得ることを理解するであろう。従って、実施形態はこれらの特定の例に関し説明されてきたが、実施形態の真の範囲は、このように限定されるべきではない。なぜなら、図面、明細書、および以下の特許請求の範囲を精査すれば、当業者には他の修正形態が自明であるからである。
[他の可能性のある請求項]
(項目1)
プロセッサと、
上記プロセッサに通信可能に連結されたメモリと、
上記プロセッサに通信可能に連結されたロジックと、を備え、
上記ロジックは、
データの関係性または特性の保持または強化のうち一方を行う構成可能なルールセットに基づき、データコレクションを、上記データの2または2より多い数学的グラフ表現にマッピングし、
グラフ情報エントロピーおよび1または複数のパラメータに基づき、上記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成する、電子処理システム。
(項目2)
上記ロジックは、さらに、
強化または保持される必要のあるデータの関係性または特性により判定された各データ属性のノード表現並びにノード間の接続および重みを用いて、上記それぞれのデータ属性セットを、2または2より多いグラフ表現に変換する構成可能なルールセットを適用する、項目1に記載のシステム。
(項目3)
上記ロジックは、さらに、
2または2より多いグラフ表現を、新しいクラスタ候補として選択し、
構成グラフのノードごとのグラフ情報エントロピーを判定し、
上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーを判定し、
上記1または複数のパラメータ、および上記構成グラフのノードごとの平均グラフ情報エントロピーと、上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーとの間の差異に基づき、上記新しいクラスタ候補に対する遷移確率を判定し、
上記判定された遷移確率に基づき、上記新しいクラスタ候補の保持または破棄のうち一方を行う、項目2に記載のシステム。
(項目4)
上記ロジックは、さらに、
上記新しいクラスタ候補が保持される場合、上記構成グラフを除去し、または、上記新しいクラスタ候補が破棄される場合、上記構成グラフをそのまま残す、のうち一方を行う、項目3に記載のシステム。
(項目5)
上記ロジックは、さらに、
終了条件が満たされたかを判定し、上記終了条件が満たされない場合、
1または複数のパラメータを調整し、
2または2より多いグラフ表現の新しいグループを、上記新しいクラスタ候補として選択し、
上記調整された1または複数のパラメータに基づき、上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーを判定し、
上記調整された1または複数のパラメータに基づき、構成グラフ表現のノードごとの上記グラフ情報エントロピーを判定し、
上記調整された1または複数のパラメータ、上記クラスタ候補のノードごとの上記グラフ情報エントロピー、および上記構成グラフ表現のノードごとの上記平均グラフ情報エントロピーに基づき、上記新しいクラスタ候補に対する遷移確率を判定し、
上記判定された遷移確率に基づき、上記新しいクラスタ候補の保持または破棄のうち一方を行う、項目4に記載のシステム。
(項目6)
1または複数の基板と、
上記1または複数の基板に連結されたロジックであって、上記ロジックは、構成可能なロジックおよび固定機能ハードウェアロジックのうちの1または複数において少なくとも部分的に実装された、ロジックと、を備え、上記1または複数の基板に連結された上記ロジックは、
データの関係性または特性の保持または強化のうち一方を行う構成可能なルールセットに基づき、データコレクションを、上記データの2または2より多い数学的グラフ表現にマッピングし、
上記グラフ情報エントロピーおよび1または複数のパラメータに基づき、上記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成する、半導体パッケージ装置。
(項目7)
上記ロジックは、さらに、
強化または保持される必要のあるデータの関係性または特性により判定された各データ属性のノード表現並びにノード間の接続および重みを用いて、上記それぞれのデータ属性セットを、2または2より多いグラフ表現に変換する構成可能なルールセットを適用する、項目6に記載の装置。
(項目8)
上記ロジックは、さらに、
2または2より多いグラフ表現を、新しいクラスタ候補として選択し、
構成グラフのノードごとのグラフ情報エントロピーを判定し、
上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーを判定し、
上記1または複数のパラメータ、および上記構成グラフのノードごとの平均グラフ情報エントロピーと、上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーとの間の差異に基づき、上記新しいクラスタ候補に対する遷移確率を判定し、
上記判定された遷移確率に基づき、上記新しいクラスタ候補の保持または破棄のうち一方を行う、項目7に記載の装置。
(項目9)
上記ロジックは、さらに、
上記新しいクラスタ候補が保持される場合、上記構成グラフを除去する、または、上記新しいクラスタ候補が破棄される場合、上記構成グラフをそのまま残す、のうち一方を行う、項目8に記載の装置。
(項目10)
上記ロジックは、さらに、終了条件が満たされたかを判定し、上記終了条件が満たされない場合、
1または複数のパラメータを調整し、
2または2より多いグラフ表現の新しいグループを、上記新しいクラスタ候補として選択し、
上記調整された1または複数のパラメータに基づき、上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーを判定し、
上記調整された1または複数のパラメータに基づき、構成グラフ表現のノードごとの上記グラフ情報エントロピーを判定し、
上記調整された1または複数のパラメータ、上記クラスタ候補のノードごとの上記グラフ情報エントロピー、および上記構成グラフ表現のノードごとの上記平均グラフ情報エントロピーに基づき、上記新しいクラスタ候補に対する遷移確率を判定し、
上記判定された遷移確率に基づき、上記新しいクラスタ候補の保持または破棄のうち一方を行う、項目9に記載の装置。
(項目11)
上記1または複数の基板に連結された上記ロジックは、上記1または複数の基板内に位置付けられたトランジスタチャネル領域を含む、項目7に記載の装置。
(項目12)
データの関係性または特性の保持または強化のうち一方を行う構成可能なルールセットに基づき、データコレクションを、上記データの2または2より多い数学的グラフ表現にマッピングする段階と、
グラフ情報エントロピーおよび1または複数のパラメータに基づき、上記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成する段階と、を備える、教師なし機械学習の方法。
(項目13)
強化または保持される必要のあるデータの関係性または特性により判定された、各データ属性のノード表現並びにノード間の接続および重みを用いて、上記それぞれのデータ属性セットを、2または2より多いグラフ表現に変換する構成可能なルールセットを適用する段階をさらに備える、項目12に記載の方法。
(項目14)
2または2より多いグラフ表現を、新しいクラスタ候補として選択する段階と、
構成グラフのノードごとのグラフ情報エントロピーを判定する段階と、
上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーを判定する段階と、
上記1または複数のパラメータ、および上記構成グラフのノードごとの平均グラフ情報エントロピーと、上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーとの間の差異に基づき、上記新しいクラスタ候補に対する遷移確率を判定する段階と、
上記判定された遷移確率に基づき、上記新しいクラスタ候補の保持または破棄のうち一方を行う段階と、をさらに備える、項目13に記載の方法。
(項目15)
さらに、
上記新しいクラスタ候補が保持される場合、上記構成グラフを除去し、または、上記新しいクラスタ候補が破棄される場合、上記構成グラフをそのまま残す、のうち一方を行う段階を備える、項目14に記載の方法。
(項目16)
終了条件が満たされたかを判定する段階をさらに備え、上記終了条件が満たされない場合、
1または複数のパラメータを調整する段階と、
2または2より多いグラフ表現の新しいグループを、上記新しいクラスタ候補として選択する段階と、
上記調整された1または複数のパラメータに基づき、上記新しいクラスタ候補の各ノードごとの上記グラフ情報エントロピーを判定する段階と、
上記調整された1または複数のパラメータに基づき、構成グラフ表現のノードごとの上記グラフ情報エントロピーを判定する段階と、
上記調整された1または複数のパラメータ、上記クラスタ候補のノードごとの上記グラフ情報エントロピー、および上記構成グラフ表現のノードごとの上記平均グラフ情報エントロピーに基づき、上記新しいクラスタ候補に対する遷移確率を判定する段階と、
上記判定された遷移確率に基づき、上記新しいクラスタ候補の保持または破棄のうち一方を行う段階と、を備える、項目15に記載の方法。
(項目17)
命令セットを備えた少なくとも1つのコンピュータ可読記憶媒体であって、上記命令セットは、コンピューティングデバイスによる実行時に、上記コンピューティングデバイスに、
データの関係性または特性の保持または強化のうち一方を行う構成可能なルールセットに基づき、データコレクションを、上記データの2または2より多い数学的グラフ表現にマッピングさせ、
グラフ情報エントロピーおよび1または複数のパラメータに基づき、上記2または2より多いグラフ表現を、2または2より多いデータクラスタに編成させる、少なくとも1つのコンピュータ可読記憶媒体。
(項目18)
さらなる命令セットを備え、上記命令セットは、コンピューティングデバイスによる実行時に、上記コンピューティングデバイスに、
強化または保持される必要のあるデータの関係性または特性により判定された、各データ属性のノード表現並びにノード間の接続および重みを用いて、上記それぞれのデータ属性セットを、2または2より多いグラフ表現に変換する構成可能なルールセットを適用させる、項目17に記載の少なくとも1つのコンピュータ可読記憶媒体。
(項目19)
さらなる命令セットを備え、上記命令セットは、コンピューティングデバイスによる実行時に、上記コンピューティングデバイスに、
2または2より多いグラフ表現を、新しいクラスタ候補として選択させ、
構成グラフのノードごとのグラフ情報エントロピーを判定させ、
上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーを判定させ、
上記1または複数のパラメータ、および上記構成グラフのノードごとの平均グラフ情報エントロピーと、上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーとの間の差異に基づき、上記新しいクラスタ候補に対する遷移確率を判定させ、
上記判定された遷移確率に基づき、上記新しいクラスタ候補の保持または破棄のうち一方を行わせる、項目18に記載の少なくとも1つのコンピュータ可読記憶媒体。
(項目20)
さらなる命令セットを備え、上記命令セットは、コンピューティングデバイスによる実行時に、上記コンピューティングデバイスに、
上記新しいクラスタ候補が保持される場合、上記構成グラフを除去する、または、上記新しいクラスタ候補が破棄される場合、上記構成グラフをそのまま残す、のうち一方を行わせる、項目19に記載の少なくとも1つのコンピュータ可読記憶媒体。
(項目21)
さらなる命令セットを備え、上記命令セットは、コンピューティングデバイスによる実行時に、上記コンピューティングデバイスに、終了条件が満たされたかを判定させ、上記終了条件が満たされない場合、
1または複数のパラメータを調整させ、
2または2より多いグラフ表現の新しいグループを、上記新しいクラスタ候補として選択させ、
上記調整された1または複数のパラメータに基づき、上記新しいクラスタ候補のノードごとの上記グラフ情報エントロピーを判定させ、
上記調整された1または複数のパラメータに基づき、上記構成グラフ表現のノードごとの上記グラフ情報エントロピーを判定させ、
上記調整された1または複数のパラメータに基づき、構成グラフ表現のノードごとの上記グラフ情報エントロピーを判定させ、
上記調整された1または複数のパラメータ、上記クラスタ候補のノードごとの上記グラフ情報エントロピーおよび上記構成グラフ表現のノードごとの上記平均グラフ情報エントロピーに基づき、上記新しいクラスタ候補に対する遷移確率を判定させ、
上記判定された遷移確率に基づき、上記新しいクラスタ候補の保持または破棄のうち一方を行せる、項目20に記載の少なくとも1つのコンピュータ可読記憶媒体。