(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023172927
(43)【公開日】2023-12-06
(54)【発明の名称】クラスタ化されたデータの分析
(51)【国際特許分類】
G06N 99/00 20190101AFI20231129BHJP
G06F 18/2323 20230101ALI20231129BHJP
【FI】
G06N99/00 180
G06F18/2323
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023083172
(22)【出願日】2023-05-19
(31)【優先権主張番号】17/751436
(32)【優先日】2022-05-23
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ウシジマ-ムウェシグワ・ハヤト
(72)【発明者】
【氏名】リィウ・シアオユアヌ
(72)【発明者】
【氏名】マンダル・アブラディップ
(72)【発明者】
【氏名】ゴーシュ・インドラディープ
(57)【要約】
【課題】クラスタ化されたデータの分析を提供する。
【解決手段】方法は、タグのセット及びアイテムのセットを取得することを含んでもよく、各アイテムは、クラスタにプレソートされ、各アイテムは1つ以上のタグに対応する。本方法は、第1のノードのセットとしてのタグのセットと、第2のノードのセットとしてのアイテムのクラスタと、を含む2部グラフを生成することを含んでもよい。タグとアイテムとの間の関係は、第1のノードと第2のノードとの間のエッジとして表されてもよい。2部グラフは、二次計画法定式化としてモデル化されてもよく、各々が1つ以上のタグを含むクラスタ記述子セットは、2部グラフの二次計画法定式化を解くことによって決定されてもよく、クラスタ記述子セットの各々は、1つ以上のアイテムのクラスタがどのようにプレソートされたかの説明を提供する。本方法は、クラスタ記述子セットに基づいてアイテムを分析することを含んでもよい。
【選択図】
図1
【特許請求の範囲】
【請求項1】
方法であって、
タグのセット及びアイテムのセットを取得することであって、前記アイテムのセットの各アイテムは、クラスタにプリソートされ、各アイテムは、前記タグのセットに含まれる1つ以上のタグに対応する、ことと、
グラフの第1のノードのセットとしての前記タグのセット、及び第2のノードの第2のセットとしての前記アイテムのクラスタを含む前記グラフを生成することであって、タグとアイテムとの間の関係は、前記第1のノードのセットに関連付けられた第1のノードと前記第2のノードのセットに関連付けられた第2のノードとの間のエッジとして表される、ことと、
二次計画法定式化として前記グラフをモデル化することと、
前記グラフの前記二次計画法定式化を解くことに基づいて、各々が前記タグのうちの1つ以上を含む1つ以上のクラスタ記述子セットを決定することであって、前記クラスタ記述子セットの各々は、1つ以上のアイテムのクラスタがどのようにプレソートされたかの指標を提供する、ことと、
前記1つ以上のクラスタ記述子セットに基づいて前記アイテムのセットを分析することと、を含む、方法。
【請求項2】
前記グラフの前記二次計画法定式化は、タグ冗長性、ノードカバレッジ、タグバランス、及び前記1つ以上のアイテムのクラスタがどのようにプレソートされたかの指標を前記タグが提供する程度を示すタグ局所性のうちの少なくとも1つを含む1つ以上のメトリックに対応する1つ以上の重みを含む、請求項1に記載の方法。
【請求項3】
前記二次計画法定式化は、
【数16】
によって表される、請求項2に記載の方法。
【請求項4】
前記二次計画法定式化を解いて、前記1つ以上のクラスタ記述子セットを生成することは、デジタルアニーラを使用することを含む、請求項3に記載の方法。
【請求項5】
前記タグのセットは、複数のハッシュタグであり、前記アイテムのセットは、ソーシャルメディアプラットフォーム上の複数のユーザアカウントである、請求項1に記載の方法。
【請求項6】
前記タグのセットは、複数の画像ラベルであり、前記アイテムのセットは、複数の画像である、請求項1に記載の方法。
【請求項7】
前記タグのセットは、複数の遺伝子特徴であり、前記アイテムのセットは、複数の遺伝子配列である、請求項1に記載の方法。
【請求項8】
命令を記憶するように構成されている1つ以上の非一時的なコンピュータ可読記憶媒体であって、前記命令は、実行されることに応答して、システムに動作を実行させ、前記動作は、
タグのセット及びアイテムのセットを取得することであって、前記アイテムのセットの各アイテムは、クラスタにプリソートされ、各アイテムは、前記タグのセットに含まれる1つ以上のタグに対応する、ことと、
前記アイテムのセットに含まれる前記アイテムのプレソートに基づいて1つ以上のアイテムのクラスタを識別することと、
2部グラフの第1のノードのセットとしての前記タグのセット、及び第2のノードの第2のセットとしての前記アイテムのクラスタを含む前記2部グラフを生成することであって、タグとアイテムとの間の関係は、前記第1のノードのセットに関連付けられた第1のノードと前記第2のノードのセットに関連付けられた第2のノードとの間のエッジとして表される、ことと、
二次計画法定式化として前記2部グラフをモデル化することと、
前記2部グラフの前記二次計画法定式化を解くことに基づいて、各々が前記タグのうちの1つ以上を含む1つ以上のクラスタ記述子セットを決定することであって、前記クラスタ記述子セットの各々は、1つ以上のアイテムのクラスタがどのようにプレソートされたかの説明を提供する、ことと、
前記1つ以上のクラスタ記述子セットに基づいて前記アイテムのセットを分析することと、を含む、1つ以上の非一時的なコンピュータ可読記憶媒体。
【請求項9】
前記2部グラフの前記二次計画法定式化は、タグ冗長性、ノードカバレッジ、タグバランス、及び前記1つ以上のアイテムのクラスタがどのようにプレソートされたかの前記説明について前記タグがささいでない貢献を提供する程度を示すタグ局所性のうちの少なくとも1つを含む1つ以上のメトリックに対応する1つ以上の重みを含む、請求項8に記載の1つ以上の非一時的なコンピュータ可読記憶媒体。
【請求項10】
システムであって、
1つ以上のプロセッサと、
命令を記憶するように構成されている1つ以上の非一時的なコンピュータ可読記憶媒体と、を含み、前記命令は、実行されることに応答して、前記システムに動作を実行させ、前記動作は、
タグのセット及びアイテムのセットを取得することであって、前記アイテムのセットの各アイテムは、クラスタにプリソートされ、各アイテムは、前記タグのセットに含まれる1つ以上のタグに対応する、ことと、
前記アイテムのセットに含まれる前記アイテムのプレソートに基づいて1つ以上のアイテムのクラスタを識別することと、
2部グラフの第1のノードのセットとしての前記タグのセット、及び第2のノードの第2のセットとしての前記アイテムのクラスタを含む前記2部グラフを生成することであって、タグとアイテムとの間の関係は、前記第1のノードのセットに関連付けられた第1のノードと前記第2のノードのセットに関連付けられた第2のノードとの間のエッジとして表される、ことと、
二次計画法定式化として前記2部グラフをモデル化することと、
前記2部グラフの前記二次計画法定式化を解くことに基づいて、各々が前記タグのうちの1つ以上を含む1つ以上のクラスタ記述子セットを決定することであって、前記クラスタ記述子セットの各々は、1つ以上のアイテムのクラスタがどのようにプレソートされたかの説明を提供する、ことと、
前記1つ以上のクラスタ記述子セットに基づいて前記アイテムのセットを分析することと、を含む、システム。
【請求項11】
前記2部グラフの前記二次計画法定式化は、タグ冗長性、ノードカバレッジ、タグバランス、及び前記1つ以上のアイテムのクラスタがどのようにプレソートされたかの前記説明について前記タグがささいでない貢献を提供する程度を示すタグ局所性のうちの少なくとも1つを含む1つ以上のメトリックに対応する1つ以上の重みを含む、請求項10に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、クラスタ化されたデータの分析に関連する。
【背景技術】
【0002】
データ点は、グラフとして参照されるデータセットに含まれる複数のノードとして提示されることがある。特定のグラフに含まれるノードは、特定のグラフ内の各ノードの特徴を記述する様々な異なる固有の特性を含むことがある。追加的に、ノードのうちの1つ以上は、特定のグラフ内の1つ以上の他のノードに関連することがあり、このようなノード間の関係は、関連するノードを接続するエッジによって示され、提示されることがある。特定のグラフに含まれるノードは、ノードの固有の特性間の類似性及び差異又はノード間のエッジに従って、1つ以上のノードのクラスタにグループ化されることがある。
【0003】
本開示における特許請求の範囲の主題は、何らかの欠点を解決するか、又は上記のような環境においてのみ動作する実施形態に限定されない。むしろ、この背景技術は、本開示で記載されるいくつかの実施形態が実施され得る1つの例示的な技術を示すためにのみ提供されている。
【発明の概要】
【0004】
一実施形態の態様によれば、方法は、タグのセット及びアイテムのセットを取得することを含んでもよく、各アイテムは、クラスタにプレソートされ、各アイテムは1つ以上のタグに対応する。本方法は、第1のノードのセットとしてのタグのセットと、第2のノードのセットとしてのアイテムのクラスタと、を含む2部グラフを生成することを含んでもよい。タグとアイテムとの間の関係は、第1のノードと第2のノードとの間のエッジとして表されてもよい。2部グラフは、二次計画法定式化としてモデル化されてもよく、各々が1つ以上のタグを含む1つ以上のクラスタ記述子セットは、2部グラフの二次計画法定式化を解くことに基づいて決定されてもよく、クラスタ記述子セットの各々は、1つ以上のアイテムのクラスタがどのようにプレソートされたかの説明を提供する。本方法は、クラスタ記述子セットに基づいてアイテムを分析することを含んでもよい。
【0005】
本実施形態の目的及び利点は、少なくとも特許請求の範囲において特に指摘された要素、特徴、及び組み合わせによって実現され、達成される。上述の一般的説明及び下記の発明を実施するための形態は両方とも、説明的であり、特許請求の範囲の本発明を限定するものではないと理解されたい。
【図面の簡単な説明】
【0006】
例示的な実施形態は、添付の図面を介して追加の具体性及び詳細と共に記載及び説明される。
【0007】
【
図1】本開示による、クラスタ記述子を生成するように構成されたコンピュータシステムの例示的な実施形態の図である。
【0008】
【
図2】本開示による、2つのタググループが2つのノードのクラスタに適用される第1の例、及び2つのタググループに基づく2つのクラスタの説明を示す。
【0009】
【
図3】本開示による、2つのタググループが2つのノードのクラスタに適用される第2の例、及び2つのタググループに基づく2つのクラスタの説明を示す。
【0010】
【
図4】本開示による、クラスタ記述子を生成する方法のフローチャートである。
【0011】
【
図5】本開示による、例示的なコンピュータシステムである。
【発明を実施するための形態】
【0012】
各データ点間の様々な関係を有する複数のデータ点を含むデータセットは、各データ点がグラフに含まれるノードによって表され、かつ任意の2つの特定のノード間の各関係が2つの特定のノードを接続するエッジによって表されるグラフとして表されることがある。グラフの分析は、ユーザにとってグラフをより解釈可能にするために、データ点を1つ以上のノードのクラスタにグループ化することを伴うことがある。しかしながら、グラフは非常に複雑であり、多数のノード及び様々なノードを接続する多数のエッジさえ含むことがあるため、ユーザによって類似性を識別し、ノードのグループ化することは困難であることがある。
【0013】
機械学習方法及び人工知能システムを使用して、ノードを、ノード間の種々の特性及び複雑な関係に従って様々なクラスタにグループ化してもよい。しかし、教師なし機械学習プロセスは、どうして特定のノードが同じクラスタに含まれるのかに関する指標を、あったとして数個しか提供しないクラスタグループ化を生成することがあり、これは、ユーザにとってクラスタ化されたノードの解釈及び分析を困難にすることがある。
【0014】
クラスタ化されたノードの説明又は記述子を識別することは、グラフのクラスタ化後の分析を容易にし、改善し得る。本開示は、とりわけ、ノードクラスタの分析に関する。分析は、クラスタ記述子の各々が特定のグラフの1つ以上のノードに関連付けられた1つ以上のタグを含む特定のグラフのクラスタ化されたノードの各グループに対応するクラスタ記述子を生成することを含んでもよい。本開示によりクラスタ記述子を生成することは、閾値数のクラスタ化されたノードをカバーするタグを識別する一方で、クラスタ記述子で使用されるタグの数を可能な限り低減することを伴ってもよい。結果として、本開示に従って生成されたクラスタ記述子は、特定のグラフのノードがクラスタ記述子に含まれるより少ないタグでどのようにクラスタ化されるかについてのより適切かつ有用な説明を提供してもよい。生成されたクラスタ記述子は、素集合タグ記述子最小化問題又は最小制約クラスタ記述問題を解くなど、既存のクラスタ化説明プロセスに従って生成されたクラスタ記述子よりも改善され得る。
【0015】
本開示の実施形態は、添付の図面を参照して説明される。
【0016】
図1は、本開示による、クラスタ記述子セット135を生成するように構成されたコンピュータシステム100の例示的な実施形態の図である。コンピュータシステム100は、グラフ化モジュール120、二次コンピューティング130、及び任意の他のコンピューティングモジュールを含んでもよく、その結果、コンピュータシステム100は、アイテム110のプレソートされたアイテムのセット110及びタグのセット115を取得することに基づいて、クラスタ記述子セット135を生成するように構成されてもよい。例えば、グラフ化モジュール120及び/又は二次コンピューティングモジュール130(一般に「コンピューティングモジュール」と呼ばれる)を含む、システム100の要素は、コンピューティングシステムが1つ以上の動作を実行することを可能にするように構成されたコード及びルーチンを含んでもよい。追加的又は代替的に、コンピューティングモジュールは、プロセッサ、マイクロプロセッサ(例えば、1つ以上の動作を実行又はその実行を制御するため)、フィールドプログラマブルゲートアレイ(FPGA)、又は特定用途向け集積回路(ASIC)を含むハードウェアを使用して実装され得る。いくつかの他の例では、コンピューティングモジュールは、ハードウェア及びソフトウェアの組み合わせを使用して実装され得る。本開示では、コンピューティングモジュールによって実行されると記載の動作は、コンピューティングモジュールが対応するシステムに実行を指示し得る動作を含み得る。コンピューティングモジュールは、
図4の方法400に関連して以下でさらに詳細に説明されるように、プレソートされたアイテムのセット110、タグのセット115、2部グラフ125、及び/又はクラスタ記述子セット135に関して一連の動作を実行するように構成されてもよい。
【0017】
プレソートされたアイテムのセット110、タグのセット115、2部グラフ125、及び/又はクラスタ記述子セット135に関して一連の動作を実行するように構成されているコンピュータシステム100の一例は、Isingユニットを含むデジタルアニーラを含んでもよく、これは、2017年8月30日に出願され、かつその全体が本開示に組み込まれた米国特許出願公開第2018/0075342号に提供される。米国特許出願公開第2018/0075342号に記載されているように、Isingユニットは、エネルギー値計算回路及び状態遷移決定回路を含んでもよい。エネルギー値計算回路は、コンピュータシステム100の出力を生成するために使用され得る、少なくとも以下の式(4)に関連して記載される二次計画法定式化のような、二次計画法定式化の1つ以上の要素の値に基づいて、エネルギー値を計算するように構成され得る。出力は、二次計画法定式化の最適化(例えば、最小化又は最大化)によって表される問題に対する1つ以上のクラスタ記述子セット135を含んでもよい。状態遷移決定回路の追加の情報及び例は、2017年9月28日に出願され、かつその全体が本開示に組み込まれた米国特許公開第2018/0107172号に提供される。
【0018】
いくつかの実施形態において、グラフ化モジュール120が、プレソートされたアイテムのセット110及びタグのセット115に基づいて、2部グラフ125を生成するように構成されてもよい。プレソートされたアイテムのセット110からのアイテムは、データセットからの任意のアイテムであってもよい。いくつかの実施形態において、アイテムの各々が、グラフ内のノードによって表されてもよい。例えば、アイテムは、データセットからの任意の他のタイプのデータの中でも、ソーシャルネットワーク内のユーザ、遺伝子配列からの遺伝子、画像のデータセット内の画像、分子内の原子であってもよい。これら及び他の実施形態において、ノード、すなわちアイテムのクラスタが、グラフの分析に基づいて形成されてもよい。例えば、機械学習方法及び/又は人工知能システムを使用して、グラフを分析し、アイテムの各々の特徴に基づいて、ノード、すなわちアイテムをクラスタ化してもよい。いくつかのインスタンスにおいて、機械学習方法及び/又は人工知能システムは、クラスタ化されたアイテムを分析する人間のユーザによって理解できないか、又は認識できない方法でアイテムをクラスタ化してもよい。機械学習方法及び/又は人工知能システムは、1つ以上のトレーニンググラフデータセットに含まれるノードの特徴に従って、グラフデータセットのノードをソート及びクラスタ化するようにトレーニングされてもよい。しかし、機械学習方法及び/又は人工知能システムによってクラスタ化されたグラフデータセットを分析するユーザは、機械学習方法及び/又は人工知能システムをトレーニングしたか、又は機械学習方法及び/又は人工知能システムがどのようにトレーニングされたかに関する知識を有するユーザとは同じユーザではなくてもよい。例えば、特定のプレソートされたアイテムのセットは、各ユーザアカウントがクラスタのうちの1つに含まれる2つ以上の異なるクラスタに編成されるソーシャルメディアプラットフォーム(例えば、FACEBOOK(登録商標)又はTWITTER(登録商標))の様々なユーザアカウントを含んでもよい。この及び他の例において、ユーザアカウントの2つ以上の異なるクラスタが、ユーザの年齢、ユーザの性別、特定のトピックに関するユーザの所属性及び/又は好み、特定のグループ又は組織へのユーザの参加、ソーシャルメディアプラットフォームへのユーザのエンゲージメントの頻度、ソーシャルメディアプラットフォームに投稿されたユーザのコンテンツの分析、又は第1のユーザアカウントと第2のユーザアカウントとの間の類似性を識別及び/又は示し得る任意の他の特徴などの特徴に基づいてクラスタ化されてもよい。これら及び他の実施形態において、アイテムのセット110が、アイテムのクラスタ化に基づいてプレソートされてもよい。したがって、アイテム110のプレソートは、機械学習方法及び/又は人工知能システムによって実行されるクラスタ化アルゴリズムによって実行されてもよい。
【0019】
いくつかの実施形態において、機械学習方法及び/又は人工インテリジェンスシステムは、アイテムのどの特性がアイテムのクラスタ化をもたらしたかに関して説明を提供しないことがある。そのため、アイテムはクラスタ化され得るが、特定のアイテムがクラスタ内の他のアイテムとどうしてグループ化されるのかについての根拠が理解されないことがある。したがって、プレソートされたアイテム110は、プレソートに対する根拠についての理解があることを示さない。
【0020】
いくつかの実施形態において、プレソートされたアイテムのセット110は、グラフ化モジュール120への正解(ground truth)入力とみなされ得、これは、プレソートされたアイテムのセット110に含まれるアイテムの各々のクラスタ化が、静的であると仮定され、2部グラフ125又はクラスタ記述子セット135の生成中に変更され得ないことを示してもよい。
【0021】
タグのセット115は、アイテム110のプレソートされたセットに含まれるアイテムの各々に関連付けられた1つ以上のタグを含んでもよい。いくつかの実施形態において、タグのセット115、Tのサブセットti(すなわち、ti⊆T)は、プレソートされたアイテムのセット110、Sに含まれる各アイテムsi(すなわち、si∈S)に関連付けられてもよい。タグのセット115に含まれるタグの記述子セットTl(すなわち、Tl⊆T)は、タグの記述子セットが、アイテムsiに関連付けられた少なくとも1つのタグtiを含む場合、アイテムのセット110のプレソートに従って、アイテムのクラスタClに含まれる各アイテムsiをカバーしてもよい。したがって、タグの記述子セットTlは、アイテムのクラスタに含まれる各アイテムがタグの記述子セットTlに含まれるタグによってカバーされる場合、アイテムのクラスタClをカバーするとみなされる。
【0022】
いくつかの実施形態において、タグのセット115に含まれる各タグが、アイテムのセット110のプレソーティングが基礎とし得る特徴であってもよい。例えば、アイテムの特定のセットは、アイテムのセット内の各アイテムが特定の分子化合物を表す分子化合物に関連してもよい。アイテムの特定のセットに関連するタグの特定のセットは、アイテムの特定のセット(すなわち、分子官能基)によって表される分子化合物のうちの1つ以上に含まれる原子のパターンを含んでもよい。この及び他の例において、各タグ(分子官能基を表す)は、特定のアイテムのセットに含まれるアイテムによって表される1つ以上の分子化合物を記載する特徴であってもよい。
【0023】
タグのセット115に含まれる各タグは、プレソートされたアイテムのセット110に対応するクラスタ化されたノードを表すグラフに関連付けられたグラフ内のノードとして表されてもよい。追加的又は代替的に、タグのセット115に含まれる各タグは、プレソートされたアイテム110と同じグラフ内のノードとして表わされてもよい。グラフ化モジュール120は、2部グラフ125を生成してもよく、この2部グラフ125は、第1のノードタイプのノード(すなわち、アイテムノード)が1つ以上のクラスタにソートされるプレソートされたアイテムのセット110に基づいたアイテムノードに対応する第1のノードタイプと、タグのセット115からのタグに対応する第2のノードタイプを含む。追加的又は代替的に、2部グラフ125は、第2のノードタイプの各ノードと第1のノードタイプの1つ以上のノードとの間の関連付け及び/又は関係を含んでもよい。追加的又は代替的に、2部グラフ125は、第2のノードタイプのノード間及び第1のノードタイプのノード間の関連付け及び/又は関係を含み得ない。上述のように、アイテムノード及びタグノードを2部グラフ125として編成することは、アイテムノードがどうして特定のクラスタにソートされたのかを示すタグノードとアイテムノードとの間の関係の表現を容易にすることができる。2部グラフ125としてグラフを編成することは、アイテムノードのクラスタ化を説明し得るクラスタ化されたアイテムノードとタグノードとの間のより明確な区別、及びアイテムノードのクラスタ化を説明するタグノードの識別を容易にすることができる。
【0024】
例えば、
図2は、第1のタグ210及び第2のタグ220を含む2部グラフ200を示す。2部グラフ200は、さらに、第1のノードのクラスタ230、及び第2のノードのクラスタ240を含んでもよい。第1のノードのクラスタ230は、アイテム232、234、及び236を含み、第2のノードのクラスタ240は、アイテム242、244、及び246を含む。第1のタグ210は、エッジ214によってアイテム232、234及び236と、エッジ216によってアイテム242に関連付けられてもよく、一方、第2のタグ220は、エッジ224によってアイテム242、244及び246と、エッジ226によってアイテム236に関連付けられてもよい。2部グラフ200は、第1のタグ210及び第2のタグ220と、アイテム232、234、236、242、244、及び246を接続するエッジに基づいて、第1のタグ210及び第2のタグ220と、アイテム232、234、236、242、244、及び246との間の関連付けを示してもよい。これら及び他の実施形態において、タグ210及び220は、グラフノードの第1の素集合グループ202に分離され、アイテム232、234、236、242、244及び246は、グラフノードの第2の素集合グループ204に分離されるので、2部グラフ200は2部グラフとみなされてもよい。タグ210及び220、アイテム232、234、236、242、244及び246などのようなグラフノード間の関係を示すエッジが、第1の素集合グループ202に含まれるノードと第2の素集合グループ204に含まれるノードとの間にのみ存在し、同じ素集合グループに含まれるノードを接続するエッジがないため、グループ202及び204は素集合であってもよい。
【0025】
図1の説明に戻ると、グラフ化モジュール120によって生成された2部グラフ125は、二次コンピューティングモジュール130によって取得され得、プレソートされたアイテムのセット110に含まれるアイテムの各クラスタに対応するクラスタ記述子セット135が決定されてもよい。いくつかの実施形態において、二次コンピューティングモジュール130は、二次制約なし二値最適化(QUBO)問題として二部グラフ125をモデル化し、QUBO問題を解いてクラスタ記述子セット135を決定するように構成されてもよい。クラスタ記述子セット135は、アイテムのクラスタ化の説明を提供する二次コンピューティングモジュール130によって決定されるタグのグループであってもよい。言い換えれば、各クラスタ記述子セット135は、1つ以上のアイテムがアイテムのセット110のプレソート中にどうして同じクラスタに含まれたのかについての可能な説明を提供する1つ以上のタグを含んでもよい。これら及び他の実施形態において、クラスタ記述子セット135は、特定のクラスタ記述子セットに含まれるタグの各々が、対応する特定のアイテムクラスタに含まれる少なくとも1つのアイテムに関連するため、プレソートされたアイテムのセット110に含まれるクラスタの様々なグループ化の説明とみなされてもよい。その意味で、特定のクラスタ記述子セットのタグは、機械学習プロセス及び/又は人工知能システムが、ソート前プロセス中にどのようにアイテムをクラスタ化したかを知らずに、アイテムがどうして特定のアイテムクラスタにグループ化されたかを説明する。
【0026】
いくつかの実施形態において、2部グラフ125は、2部グラフ125を表す二次計画法定式化をQUBO問題に変換するために最適化され得る1つ以上のバイナリ変数を含むようにモデル化されてもよい。次いで、二次コンピューティングモジュール130は、QUBO問題の値を最適化する(すなわち、値を最小化する、又は値を最大化する)ことによって、1つ以上のクラスタ記述子セット135を決定してもよい。これら及び他の実施形態において、2部グラフ125を表すQUBO問題は、クラスタ記述子セット135に関連する望ましい特色及び/又は望ましくない特色を示す1つ以上の重み付けされたアイテムを含んでもよい。QUBO問題の最適化は、QUBO問題の最適化に寄与するとして望ましい特色を表現することにより、重み付け項を説明し、一方、最適化に関して望ましくない特色をペナルティにしてもよい。例えば、特定のクラスタ記述子セットがより少ないタグを含むこと(すなわち、1、2、3、又は4つのタグを含むクラスタ記述子セットのサイズ)、及び特定のクラスタ記述子セットがアイテムの大部分をカバーすること(すなわち、アイテムの70%、80%、90%、又は95%を含むタグカバレッジ)は、望ましい望ましいとみなされ得る一方、複数の異なるクラスタ内のアイテムノードに特定のタグを関連させるエッジを含む特定のタグを含む特定のクラスタ記述子セット(すなわち、低いタグモジュール性)は、望ましくない特色とみなされてもよい。この及び他の例では、クラスタ記述子セットのサイズは、QUBO問題における第1の変数によって表現されてもよく、第1の変数のより大きな値は、QUBO問題の最適化を損なうが、クラスタ記述子セットのタグカバレッジ及びタグモジュール性は、それぞれ、第2の変数及び第3の変数として表わされてもよく、第2の変数のより大きな値及び第3の変数のより大きな値は、QUBO問題の最適化に寄与する。
【0027】
これら及び他の実施形態では、タグのセット115に関連付けられた第1の二値関数x
l(j)は、以下のように表わされてもよい。
【数1】
プレソートされたアイテムのセット110に関連付けられた第2の二値関数z(i)は、以下のように表わされてもよい。
【数2】
【0028】
追加的又は代替的に、タグモジュール性メトリックは、モデル化されたQUBO問題に含まれてもよい。タグモジュール性は、特定のグラフのノードがクラスタに分割される度合いを定量化する測定値であってもよい。高いモジュール性を有する第1のノードクラスタ化は、第1のノードクラスタ化に含まれるノード間の内部エッジの数が、第1のノードクラスタ化に含まれるノードと第1のノードクラスタ化の外部のノードを接続する外部エッジの数よりも大きいことを示す。対照的に、低いモジュール性を有する第2のノードクラスタ化は、第2のノードクラスタ化のノードと外部ノードとの間の接続よりも、第2のノードクラスタ化内のより少ない接続を含んでもよい。プレソートされたアイテムのリスト110内のノードのクラスタ化は既知であり固定されており、グラフは2部グラフ125として編成されるため、タグモジュール性メトリックは、タグノードとアイテムノードとの間の接続性を測定してもよい。したがって、タグモジュール性、TMは、以下のように表わされてもよい。
【数3】
ここで、k
υは第1のタグノードの程度を表し、k
wは第2のタグノードの程度を表し、特定のタグノードの程度は、特定のタグノードがエッジによって接続されているノードの数を表す。本開示による2部グラフのコンテキストにおいて、特定のタグノードの程度は、特定のタグが表すアイテムの数を示してもよい。
|E|は、タグノードの総数を表し、δ(c
υ,c
w)は、同じクラスタ化内のタグノードυ及びwのメンバーシップに関連する変数c
υ及びc
wが等しい(すなわち、ノードυ及びwが同じクラスタ化内にある)場合、1の値を返し、そうでなければ、0の値を返すKroneckerデルタ関数を表す。
【0029】
二部グラフ125のタグモジュール性が与えられると、二次コンピューティングモジュール130は、以下の二次計画法定式化に従って1つ以上のクラスタ記述子セット135を決定するように構成されてもよい。
【数4】
ここで、関数x
l(j)は、タグt
jがクラスタC
iを説明するタグのセットT
lに含まれる場合、1の値をとる第1の二値関数であり、関数z(i)は、アイテムs
iがカバーされる場合、1の値を返す二値関数である。B
i,jは、2部グラフ125に対応するn×nのモジュラリティ行列を表し、モジュラリティ行列の各エントリは、グラフに含まれる2つのノード間の接続数のカウントである。P
1及びP
2は、重み付けパラメータを表し、P
1がタグ局所性を表し、P
2がアイテムノードのクラスタに含まれるカバーされていないアイテムを表す。
【0030】
いくつかの実施形態では、タグ局所性は、1つ以上のタグがアイテムノードのクラスタ化のささいでない説明を提供する程度を指してもよい。アイテムノードのクラスタ化のささいな説明を提供するタグノードは、アイテムノードの大多数のクラスタ又はアイテムノードのすべてのクラスタの説明を提供するタグに関連してもよい。例えば、特定のタグノードを複数の異なるクラスタに含まれるアイテムノードに接続するエッジを有する特定のタグノードは、この特定のタグノードでは、アイテムノードのクラスタ化の基礎とならないことがあるため、アイテムノードのクラスタ化のささいな説明と見なされてもよい。例えば、特定のデータセットは、様々な画像を含んでもよく、画像は、画像が猫を描くか犬を描くかに応じて、グループにクラスタ化されてもよい。画像のクラスタ化を説明するためのささいなタグは、「animal」、「pet」、「four-legged animal」などのテキスト記述を含み、画像のクラスタ化を説明するためのささいでないタグは、「feline」、「Siamese」、「Tabby」、「canine」、「Labrador」、又は「Terrier」などのテキスト記述を含んでもよい。これら及び他の実施形態において、特定のタグのタグ局所性は、式(3)などによるように、特定のタグのモジュール性に基づいて決定されてもよい。
【0031】
追加的又は代替的に、二次計画法定式化は、アイテムノードのうちの1つ以上をカバーしないタグを含むクラスタ記述子セットにペナルティを与えてもよい。これら及び他の実施形態では、特定のアイテムノードのカバレッジは、クラスタ記述子セットが、特定のアイテムノードに関連する少なくとも1つのタグを含むことを示してもよい。言い換えれば、カバーされていないアイテムノードは、特定の提案されたクラスタ記述子セットに含まれるタグのいずれとの関係を含まないことがある。
【0032】
式(4)における二次計画法定式化の表現によれば、二次計画法定式化は、P1重み付けパラメータが二次計画法定式化の値を減少させるので、アイテムノードのクラスタ化のよりささいでない説明を提供するタグを含むクラスタ記述子セットに優先的にバイアスされ得る。これら及び他の実施形態では、P1重み付け係数を増加させると、二次計画法定式化は、より大きなタグ局所性を有するタグを含むクラスタ記述子セットをより重く好むことになる一方で、P2重み付け係数を増加させると、二次計画法定式化は、カバーされていないアイテムノードを含むクラスタ記述子セットにより重くペナルティを与えることになり得る。追加的又は代替的に、P1重み付け係数を減少させると、二次計画法定式化は、より大きなタグ局所性を有するタグを含むクラスタ記述子セットを優先的とみなすのを軽くする一方で、P2重み付け係数を減少させると、二次計画法定式化は、カバーされていないアイテムノードを含むクラスタ記述子セットにより軽くペナルティを与えることになり得る。
【0033】
式(4)に記載される二次計画法定式化は、以下の条件に従ってもよい。
【数5】
【0034】
いくつかの実施形態において、式(4)によって表される二次計画法は、二次コンピューティングモジュール130によって、QUBO問題などの最適化問題として解かれてもよく、二次計画法の解の各々がそれぞれのクラスタ記述子セット135を含んでもよい。二次計画法定式化をQUBO問題に変換するために、式(5)~式(8)で記載される条件のうちの1つ以上が緩和されてもよい。例えば、式(5)によって表される条件は、
【数6】
のスラック二値変数
【数7】
を導入して、不等式制約を以下によって表される等式制約に変換してもよい。
【数8】
追加的又は代替的に、式(6)によって表される条件は、
【数9】
のスラック二値変数
【数10】
を導入して、不等式制約を以下によって表される等式制約に変換してもよい。
【数11】
追加的又は代替的に、式(7)によって表される条件は、スラック二値変数y
3,jを導入して、不等式制約を以下によって表される等式制約に変換してもよい。
【数12】
【0035】
これら及び他の実施形態では、二次計画法定式化を表すQUBO問題は、量子コンピューティングプロセス又はデジタルアニーラによって実行される計算などの、二値最適化問題に対する解を決定するように構成された二次コンピューティングモジュール130の計算プロセスによって解かれてもよい。
【0036】
本開示の範囲から逸脱することなく、システム100に修正、追加、又は省略が行われ得る。例えば、記載の方法における異なる要素の指定は、本明細書に記載の概念の説明を助けることを意図し、限定するものではない。例えば、いくつかの実施形態において、グラフ化モジュール120及び二次コンピューティングモジュール130は、本明細書に記載される概念を説明する手伝いをするように記載された特定の方式で描かれているが、そのように描くことは限定することを意味していない。さらに、システム100は、任意の数の他の要素を含んでもよいし、記載のもの以外の他のシステム又はコンテキスト内で実装されてもよい。
【0037】
図3は、特定のクラスタ記述セット300の一例を示し、これは、ノードの2つのクラスタ330及び340に適用される2つのタググループ310及び320を含み、式(4)及び式(9)~式(11)に関連付けられたQUBO問題を解決することによって決定される特定のクラスタ記述子セット135の一例であってもよい。クラスタ記述子セット300は、タググループ310及び320の各々が、それぞれのクラスタのクラスタ記述子又は説明を表すことを示してもよい。言い換えれば、第1のタググループ310は、第1のノードのクラスタ330をクラスタ化の説明であってもよく、第2のタググループ320は、第2のノードのクラスタ340のクラスタ化の説明であってもよい。
【0038】
クラスタ記述子セット300に示されるように、第1のタググループ310は、第1のタグ312及び第2のタグ314を含んでもよく、第1のタグ312は、第1のエッジ316によって表されるように、第1のノードのクラスタ330の第1のアイテムノード332及び第2のアイテムノード334に何らかの方法で関連し、第2のタグ314は、第2のエッジ318によって表されるように、第1のノードのクラスタ330の第3のアイテムノード336に何らかの方法で関連する。第2のタググループ320において、第3のタグ322は、第3のエッジ326によって表されるように、第2のノードのクラスタ340の第4のアイテムノード342及び第5のアイテムノード344に何らかの方法で関連し、第4のタグ324は、第4のエッジ328によって表されるように、第2のノードのクラスタ340の第6のアイテムノード346に何らかの方法で関連してもよい。クラスタ記述子セット300は、第1のノードのクラスタ330に含まれるノード332、334、及び336のグループ化が、第1のタググループ310に含まれるタグ312及び314によって説明されてもよく、第2のノードのクラスタ340に含まれるノード342、344、及び346のグループ化が、第2のタググループ320に含まれるタグ322及び324によって説明されてもよいことを示す。
【0039】
クラスタ記述子セット300は、様々なコンテキストにおけるデータのクラスタ化を説明する方法を表してもよい。例えば、特定のクラスタ記述子セットのノードのクラスタ330及び340は、ソーシャルメディアプラットフォームのユーザを表してもよく、タググループ310及び320は、ソーシャルメディアプラットフォームの1つ以上のユーザ間で類似し得るソーシャルメディア挙動及び特徴を表してもよい。より具体的には、ユーザはTWITTER(登録商標)ユーザであってもよく、ソーシャルメディアの挙動及び特徴は、ユーザによって使用されるハッシュタグを含んでもよい。TWITTER(商標登録)ユーザは、TWITTER(登録商標)を使用中のユーザの挙動に基づいて、2つ以上のクラスタにグループ化されてもよい。例えば、ユーザは、共和党支持ユーザを表す第1のグループ、又は民主党支持ユーザを表す第2のグループにソートされ、ハッシュタグは、政治に関連してTWITTER(登録商標)で使用される最も人気の高いハッシュタグ(例えば、大統領選挙のスローガン、政党候補者名、政党所属、又は関連する政治イベント)を含んでもよい。特定のクラスタ記述子セットは、ハッシュタグの各グループが、TWITTER(登録商標)ユーザ(すなわち、ノード330及び340のクラスタ)がどうして同じグループに含まれたのかについての説明を提供する、ハッシュタグの1つ以上のグループ(すなわち、タググループ310及び320)を示してもよい。この及び他の例において、共和党支持ユーザを表す第1のグループに含まれるTWITTER(登録商標)ユーザは「Trump」、「Trump2016」、「GOPdebate」などの語句を含むハッシュタグによって説明されてもよく、民主党支持ユーザを表す第2のグループに含まれるTWITTER(登録商標)ユーザは「Clinton」、「Clinton2016」、「ImWithHer」などの語句を含むハッシュタグによって説明されてもよい。
【0040】
別の例として、特定のクラスタ記述子セットは、各クラスタ化されたアイテムノードがジャーナル論文に含まれる生物医学引用に関して手動で精選されたMedical Subject Heading(「MeSH用語」)を表し、タグの各々が広く認識された感染症を表し、MeSH用語のグループ化が感染症のうちの1つ以上によって説明され得る、アイテムノードのクラスタを伴ってもよい。この及び他の例において、MeSH用語は、例えば、「SARS-CoV-2」、「Antiretroviral Therapy」、「Mumps」、「Bites and Stings」、「Pandemics」、「Infant」、「Animals」、「Sexual Behavior」、又はジャーナル論文に対応する生物医学引用に関連して使用される任意の他の用語を含んでもよく、感染症は、例えば、COVID-19、HIV、麻疹、及び狂犬病を含んでもよい。
【0041】
追加的又は代替的な例として、特定のクラスタ記述子セットは、遺伝子配列、異なる主題事項に関する画像セット、及びテキスト句に関するアイテムノードのクラスタを伴ってもよい。アイテムノードのクラスタに対応するそれぞれのタグは、遺伝的表現及び特徴、画像のラベル、及びテキスト句のカテゴリー記述を伴ってもよい。
【0042】
図4は、本開示による、クラスタ記述子を生成する方法のフローチャートである。方法300は、任意の好適なシステム、装置、又はデバイスによって実行されてもよい。例えば、グラフ化モジュール120及び二次コンピューティングモジュール130は、方法400に関連付けられた1つ以上の動作を実行してもよい。離散的なブロックで例示されているが、方法400のブロックの1つ以上に関連するステップ及び動作は、特定の実装に応じて、追加のブロックに分割されるか、より少ないブロックに組み合わせられるか、又は除去されてもよい。
【0043】
方法400は、ブロック402において開始し、タグのセット及びプレソートされたアイテムのセットが取得される。いくつかの実施形態において、タグのセット及びプレソートされたセットのアイテムが、各々、プレソートされたアイテムのうちのアイテム及びタグのセットのうちのタグを含むデータセットを表すグラフに関連付けられたノードに対応するノードを含んでもよい。プレソートされたアイテムのセットに含まれるノード(すなわち、アイテムノード)は、アイテムノード間の類似性に基づいて1つ以上のクラスタにソートされてもよい。アイテムノードの各々は、タグのセットに含まれる1つ以上のノード(すなわち、タグノード)に関連してもよく、アイテムノードとタグノードとの間の関係は、データセットを表すグラフ内のエッジによって表されてもよい。
【0044】
ブロック404では、タグのセット及びプレソートされたアイテムのセットに基づいて、2部グラフが生成されてもよい。
図1、
図2、及び
図3に関連して上述したように、2部グラフは、グラフノードの2つ以上の素集合グループを含んでもよい。例えば、グラフノードの第1の素集合グループは、タグのセットに含まれるタグに対応するノードを含んでもよく、グラフノードの第2の素集合グループは、プレソートされたアイテムのセットに含まれるアイテムに対応するノードを含んでもよい。
【0045】
ブロック406では、2部グラフは、二次計画法定式化としてモデル化されてもよい。いくつかの実施形態において、二部グラフの二次計画法定式化が、
図1に関連して記載されるように、式(4)~式(8)によって表されてもよい。
【0046】
ブロック408において、1つ以上のクラスタ記述子セットが決定され得、各クラスタ記述子セットは、タグのセットからの1つ以上のタグを含み、アイテムのクラスタのソートを説明する。いくつかの実施形態において、クラスタ記述子セットを生成することが、
図1に関連して記載されるように、式(9)~式(11)に従うなどして、2部グラフを表す二次二次計画法定式化をQUBO問題又は任意の他の最適化問題に変換することを伴ってもよい。これら及び他の実施形態において、QUBO問題を解くことが、アイテムのクラスタのソートを説明する1つ以上のクラスタ記述子セットの決定をもたらしてもよい。
【0047】
ブロック410において、プレソートされたアイテムのセットは、1つ以上の決定されたクラスタ記述子セットに基づいて分析されてもよい。いくつかの実施形態において、プレソートされたアイテムのセットを分析することが、アイテムのセットがどのようにソートされるのか関して、人間が解釈可能な説明を提供することを伴ってもよい。アイテムのセットのプレソートは、セットに含まれるアイテムがどのようにソートされるかに関する指標又はあいまいな指標を提供しなくてもよいため、クラスタ記述子セットは、アイテムのセットがどのようにしてプレソートされたかの決定及び/又はアイテムのセットのさらなる分析を容易にすることができる。例えば、特定のアイテムのセットはソーシャルメディアプラットフォームのユーザのグループであってもよく、ユーザのグループは人工知能システムによってプレソートされ、共和党員又は民主党員としてラベル付けされてもよい。しかしながら、人工知能システムによって、ユーザのグループにおける特定のユーザがどうして共和党のサブグループや民主党のサブグループに含まれるのかについての理由付け及び説明が提供されないことがある。この及び他の例では、クラスタ記述子セットは、共和党のサブグループ又は民主党のサブグループの事前ソートが、共和党のサブグループ又は民主党のサブグループに含まれるユーザによって使用される1つ以上のハッシュタグの普及に基づいていたという説明を与えることができる。
【0048】
本開示の範囲から逸脱することなく、方法400に修正、追加、又は省略が行われてもよい。例えば、記載の方法における異なる要素の指定は、本明細書に記載の概念の説明を助けることを意図し、限定するものではない。さらに、方法400は、任意の数の他の要素を含んでもよいし、記載のもの以外の他のシステム又はコンテキスト内で実装されてもよい。
【0049】
図5は、本開示の少なくとも1つの実施形態による、例示的なコンピューティングシステム500である。システム500は、プロセッサ510、メモリ520、データストレージ530、及び/又は通信ユニット540を含んでもよく、これらはすべて通信的に結合されてもよい。
図1のシステム100のいずれか及び全ては、コンピューティングシステム500と調和するコンピューティングシステムとして実装されてもよい。
【0050】
一般的に、プロセッサ510は、様々なコンピュータハードウェア又はソフトウェアモジュールを含む、任意の適切な特殊目的もしくは汎用コンピュータ、計算エンティティ、又は処理デバイスを含んでもよく、任意の適用可能なコンピュータ可読記憶媒体に記憶された命令を実行するように構成されてもよい。例えば、プロセッサ510は、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又はプログラム命令を解釈及び/又は実行する、及び/又はデータを処理するように構成されている任意の他のデジタルもしくはアナログ回路を含み得る。
【0051】
図5において単一のプロセッサとして例示されているが、プロセッサ510は、本開示に記載の任意の数の動作を個別に又は集合的に実行するように構成されている任意の数のネットワーク又は物理的場所にわたって分散された任意の数のプロセッサを含み得ることが理解される。いくつかの実施形態では、プロセッサ510は、メモリ520、データストレージ530、又はメモリ520及びデータストレージ530に記憶されたプログラム命令を解釈及び/又は実行する、及び/又はデータを処理してもよい。いくつかの実施形態では、プロセッサ510は、データストレージ530からプログラム命令をフェッチし、メモリ520にプログラム命令をロードしてもよい。
【0052】
プログラム命令がメモリ520にロードされた後に、プロセッサ510は、コンピューティングシステム500に
図4の方法400の動作を実行させる命令などのプログラム命令を実行してもよい。例えば、コンピューティングシステム500は、プログラム命令を実行して、タグのセット及びプレソートされたアイテムのセットを取得し、タグのセット及びアイテムのクラスタに基づいて2部グラフを生成し、二次計画法定式化として2部グラフをモデル化し、アイテムの各クラスタのソートを説明する1つ以上のクラスタ識別子セットを決定してもよい。
【0053】
メモリ530及びデータストレージ530は、コンピュータ実行可能な命令又はデータ構造が記憶されたコンピュータ可読記憶媒体、又は1つ以上のコンピュータ可読記憶媒体を含んでもよい。そのようなコンピュータ可読記憶媒体は、プロセッサ510のような汎用又は専用コンピュータによってアクセスされ得る任意の利用可能な媒体であってもよい。例えば、メモリ520及び/又はデータストレージ530は、
図1のプレソートされたアイテムのセット110、タグのセット115、2部グラフ125、又はクラスタ記述子セット135を含んでもよい。いくつかの実施形態では、コンピューティングシステム500は、メモリ520及びデータストレージ530のいずれかを含んでもよいし、含まなくてもよい。
【0054】
例として、限定するものではないが、そのようなコンピュータ可読記憶媒体は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、電気的消去可能なプログラマブル読み取り専用メモリ(EEPROM)、コンパクトディスク読み出し専用メモリ(CD-ROM)、もしくは他の光ディスクストレージ、磁気ディスクストレージ、もしくは他の磁気ストレージ、フラッシュメモリデバイス(例えば、ソリッドステートメモリデバイス)、又はコンピュータ実行可能な命令もしくはデータ構造の形態で所望のプログラムコードを記憶するために使用されてもよく、汎用もしくは特殊目的のコンピュータによってアクセスされ得る任意の他の記憶媒体を含む非一時的なコンピュータ可読記憶媒体を含んでもよい。上記の組み合わせもまた、コンピュータ可読記憶媒体の範囲内に含まれ得る。コンピュータ実行可能な命令は、例えば、プロセッサ510に特定の動作又は動作のグループを実行させるように構成されている命令及びデータを含んでもよい。
【0055】
通信ユニット540は、ネットワークを介して情報を送信又は受信するように構成された任意のコンポーネント、デバイス、システム、又はそれらの組み合わせを含んでもよい。いくつかの実施形態では、通信ユニット540は、他の場所、同じ場所での他のデバイス、又は同じシステム内の他のコンポーネントとでさえも通信してもよい。例えば、通信ユニット540は、モデム、ネットワークカード(無線又は有線)、光学通信デバイス、赤外線通信デバイス、無線通信デバイス(アンテナなど)、及び/又はチップセット(Bluetooth(登録商標)デバイス、802.6デバイス(例えば、メトロポリタンエリアネットワーク(MAN))、WiFi(登録商標)デバイス、WiMaxデバイス、セルラ通信設備など)、及び/又は同様のものを含んでもよい。通信ユニット540は、本開示に記載のネットワーク及び/又は任意の他のデバイス又はシステムとでデータが交換されることを許可してもよい。例えば、通信ユニット540は、システム500が、計算デバイス及び/又は他のネットワークなどの他のシステムと通信することを可能にしてもよい。
【0056】
当業者は、本開示を検討した後、本開示の範囲から逸脱することなく、システム500に修正、追加、又は省略が行われてもよいことを認識してもよい。例えば、システム500は、明示的に例示及び記載のものよりも多くの、又は少ない構成要素を含み得る。
【0057】
前述の開示は、開示された正確な形態又は特定の使用分野に本開示を限定することを意図していない。このように、本明細書に明示的に記載されているか暗示されているかにかかわらず、本開示に対する様々な代替的な実施形態及び/又は修正が、本開示に照らして可能であることが企図されている。このように本開示の実施形態を記載しているが、変更は、本開示の範囲から逸脱することなく、形態及び詳細に行われてもよいことが認識されよう。したがって、本開示は、特許請求の範囲によってのみ限定される。
【0058】
いくつかの実施形態では、本明細書に記載された異なるコンポーネント、モジュール、エンジン、及びサービスは、(例えば、別個のスレッドとして)コンピューティングシステムで実行されるオブジェクト又はプロセスとして実装されてもよい。本開示に記載のシステム及びプロセスのいくつかは、一般的に、(汎用ハードウェアに記憶される、及び/又はそれによって実行される)ソフトウェアで実装されるものとして記載されているが、特定のハードウェア実装又はソフトウェアと特定のハードウェア実装との組み合わせも可能であり、企図されている。
【0059】
本開示において、特に添付の特許請求の範囲(例えば、請求項の要部)において使用される用語は、一般に「オープン用語」として意図されている(例えば、「含む」という用語は、「含むが、これに限定されない」と解釈されるべきである)。
【0060】
追加的に、特定の数の導入された請求項の規定が意図されている場合、このような意図は請求項に明示的に規定され、このような規定がない場合、このような意図は存在しない。例えば、理解を助けるものとして、以下の添付の特許請求の範囲は、請求項の規定を導入するために、「少なくとも1つ」及び「1つ以上」の導入句の使用を含有することがある。しかし、このような句の使用は、不定冠詞「a」又は「an」による請求項の規定の導入が、このような導入された請求項の規定を含有する任意の特定の請求項を、ただ1つのこのような規定を含有する実施形態に限定することを示唆するように解釈されるべきではなく、これは、同じ請求項が、導入句「1つ以上」又は「少なくとも1つ」と「a」又は「an」(例えば、「a」及び/又は「an」は、「少なくとも1つ」又は「1つ以上」を意味すると解釈されるべきである)などの不定冠詞を含むときでも同様であり、同じことは、請求項の規定を導入するために使用される不定冠詞の使用の場合に当てはまる。
【0061】
追加的に、導入された請求項の規定の特定の数が明示的に規定されている場合であっても、当該技術分野の当業者であれば、このような規定は、少なくとも規定された数を意味すると解釈されるべきであることを認識するであろう(例えば、「2という規定」の単なる規定では、他の修飾語なしでは、少なくとも2つの規定、又は2つ以上の規定を意味する)。さらに、「A、B及びCのうちの少なくとも1つ」又は「A、B及びCなどのうちの1つ以上」に類似する慣習が使用されている場合には、一般的に、このような構造は、A単独、B単独、C単独、AとB、AとC、BとC、又はAとBとCなどを含むことが意図されている。
【0062】
さらに、明細書、特許請求の範囲、又は図面のいずれかにあるかを問わず、2つ以上の代替的な用語に先行する任意の言葉又は語句は、その用語のうちの1つ、用語のうちのいずれか、又はその用語の両方を企図するように理解されるべきである。例えば、句「A又はB」は、「A」若しくは「B」又は「A及びB」の可能性を含むように理解されるべきである。
【0063】
本開示に規定されたすべての例及び条件付き言語は、本開示及び発明者が当該技術分野を促進するために寄与した概念を理解する際に読者を助けるための教育的目的とすることが意図されており、このように具体的に規定された例及び条件に限定されるものではないと解釈されるべきである。本開示の実施形態が詳細に記載されているが、これに対して本開示の精神及び範囲から逸脱することなく、様々な変更、置換、及び交換が行われ得る。
【0064】
本開示は以下の発明を含む。
(付記1)
方法であって、
タグのセット及びアイテムのセットを取得することであって、前記アイテムのセットの各アイテムは、クラスタにプリソートされ、各アイテムは、前記タグのセットに含まれる1つ以上のタグに対応する、ことと、
グラフの第1のノードのセットとしての前記タグのセット、及び第2のノードの第2のセットとしての前記アイテムのクラスタを含む前記グラフを生成することであって、タグとアイテムとの間の関係は、前記第1のノードのセットに関連付けられた第1のノードと前記第2のノードのセットに関連付けられた第2のノードとの間のエッジとして表される、ことと、
二次計画法定式化として前記グラフをモデル化することと、
前記グラフの前記二次計画法定式化を解くことに基づいて、各々が前記タグのうちの1つ以上を含む1つ以上のクラスタ記述子セットを決定することであって、前記クラスタ記述子セットの各々は、1つ以上のアイテムのクラスタがどのようにプレソートされたかの指標を提供する、ことと、
前記1つ以上のクラスタ記述子セットに基づいて前記アイテムのセットを分析することと、を含む、方法。
(付記2)
前記グラフの前記二次計画法定式化は、タグ冗長性、ノードカバレッジ、タグバランス、及び前記1つ以上のアイテムのクラスタがどのようにプレソートされたかの指標を前記タグが提供する程度を示すタグ局所性のうちの少なくとも1つを含む1つ以上のメトリックに対応する1つ以上の重みを含む、付記1に記載の方法。
(付記3)
前記二次計画法定式化は、
【数13】
によって表される、付記2に記載の方法。
(付記4)
前記二次計画法定式化を解いて、前記1つ以上のクラスタ記述子セットを生成することは、デジタルアニーラを使用することを含む、付記3に記載の方法。
(付記5)
前記タグのセットは、複数のハッシュタグであり、前記アイテムのセットは、ソーシャルメディアプラットフォーム上の複数のユーザアカウントである、付記1に記載の方法。
(付記6)
前記タグのセットは、複数の画像ラベルであり、前記アイテムのセットは、複数の画像である、付記1に記載の方法。
(付記7)
前記タグのセットは、複数の遺伝子特徴であり、前記アイテムのセットは、複数の遺伝子配列である、付記1に記載の方法。
(付記8)
命令を記憶するように構成されている1つ以上の非一時的なコンピュータ可読記憶媒体であって、前記命令は、実行されることに応答して、システムに動作を実行させ、前記動作は、
タグのセット及びアイテムのセットを取得することであって、前記アイテムのセットの各アイテムは、クラスタにプリソートされ、各アイテムは、前記タグのセットに含まれる1つ以上のタグに対応する、ことと、
前記アイテムのセットに含まれる前記アイテムのプレソートに基づいて1つ以上のアイテムのクラスタを識別することと、
2部グラフの第1のノードのセットとしての前記タグのセット、及び第2のノードの第2のセットとしての前記アイテムのクラスタを含む前記2部グラフを生成することであって、タグとアイテムとの間の関係は、前記第1のノードのセットに関連付けられた第1のノードと前記第2のノードのセットに関連付けられた第2のノードとの間のエッジとして表される、ことと、
二次計画法定式化として前記2部グラフをモデル化することと、
前記2部グラフの前記二次計画法定式化を解くことに基づいて、各々が前記タグのうちの1つ以上を含む1つ以上のクラスタ記述子セットを決定することであって、前記クラスタ記述子セットの各々は、1つ以上のアイテムのクラスタがどのようにプレソートされたかの説明を提供する、ことと、
前記1つ以上のクラスタ記述子セットに基づいて前記アイテムのセットを分析することと、を含む、1つ以上の非一時的なコンピュータ可読記憶媒体。
(付記9)
前記2部グラフの前記二次計画法定式化は、タグ冗長性、ノードカバレッジ、タグバランス、及び前記1つ以上のアイテムのクラスタがどのようにプレソートされたかの前記説明について前記タグがささいでない貢献を提供する程度を示すタグ局所性のうちの少なくとも1つを含む1つ以上のメトリックに対応する1つ以上の重みを含む、付記8に記載の1つ以上の非一時的なコンピュータ可読記憶媒体。
(付記10)
前記二次計画法定式化は、
【数14】
によって表される、付記9に記載の1つ以上の非一時的なコンピュータ可読記憶媒体。
(付記11)
前記二次計画法定式化を解いて、前記1つ以上のクラスタ記述子セットを生成することは、デジタルアニーラを使用することを含む、付記10に記載の1つ以上の非一時的なコンピュータ可読記憶媒体。
(付記12)
前記タグのセットは、複数のハッシュタグであり、前記アイテムのセットは、ソーシャルメディアプラットフォーム上の複数のユーザアカウントである、付記8に記載の1つ以上の非一時的なコンピュータ可読記憶媒体。
(付記13)
前記タグのセットは、複数の画像ラベルであり、前記アイテムのセットは、複数の画像である、付記8に記載の1つ以上の非一時的なコンピュータ可読記憶媒体。
(付記14)
前記タグのセットは、複数の遺伝子特徴であり、前記アイテムのセットは、複数の遺伝子配列である、付記8に記載の1つ以上の非一時的なコンピュータ可読記憶媒体。
(付記15)
システムであって、
1つ以上のプロセッサと、
命令を記憶するように構成されている1つ以上の非一時的なコンピュータ可読記憶媒体と、を含み、前記命令は、実行されることに応答して、前記システムに動作を実行させ、前記動作は、
タグのセット及びアイテムのセットを取得することであって、前記アイテムのセットの各アイテムは、クラスタにプリソートされ、各アイテムは、前記タグのセットに含まれる1つ以上のタグに対応する、ことと、
前記アイテムのセットに含まれる前記アイテムのプレソートに基づいて1つ以上のアイテムのクラスタを識別することと、
2部グラフの第1のノードのセットとしての前記タグのセット、及び第2のノードの第2のセットとしての前記アイテムのクラスタを含む前記2部グラフを生成することであって、タグとアイテムとの間の関係は、前記第1のノードのセットに関連付けられた第1のノードと前記第2のノードのセットに関連付けられた第2のノードとの間のエッジとして表される、ことと、
二次計画法定式化として前記2部グラフをモデル化することと、
前記2部グラフの前記二次計画法定式化を解くことに基づいて、各々が前記タグのうちの1つ以上を含む1つ以上のクラスタ記述子セットを決定することであって、前記クラスタ記述子セットの各々は、1つ以上のアイテムのクラスタがどのようにプレソートされたかの説明を提供する、ことと、
前記1つ以上のクラスタ記述子セットに基づいて前記アイテムのセットを分析することと、を含む、システム。
(付記16)
前記2部グラフの前記二次計画法定式化は、タグ冗長性、ノードカバレッジ、タグバランス、及び前記1つ以上のアイテムのクラスタがどのようにプレソートされたかの前記説明について前記タグがささいでない貢献を提供する程度を示すタグ局所性のうちの少なくとも1つを含む1つ以上のメトリックに対応する1つ以上の重みを含む、付記15に記載のシステム。
(付記17)
前記二次計画法定式化は、
【数15】
によって表される、付記16に記載のシステム。
(付記18)
前記タグのセットは、複数のハッシュタグであり、前記アイテムのセットは、ソーシャルメディアプラットフォーム上の複数のユーザアカウントである、付記15に記載のシステム。
(付記19)
前記タグのセットは、複数の画像ラベルであり、前記アイテムのセットは、複数の画像である、付記15に記載のシステム。
(付記20)
前記タグのセットは、複数の遺伝子特徴であり、前記アイテムのセットは、複数の遺伝子配列である、付記15に記載のシステム。