特許第5965011号(P5965011)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌイーシー(チャイナ)カンパニー, リミテッドの特許一覧

特許5965011リレーショナルモデル決定用の方法と装置
この文献は図面が300枚以上あるため,図面を表示できません.
<>
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5965011
(24)【登録日】2016年7月8日
(45)【発行日】2016年8月3日
(54)【発明の名称】リレーショナルモデル決定用の方法と装置
(51)【国際特許分類】
   G06N 5/02 20060101AFI20160721BHJP
   G06F 17/18 20060101ALI20160721BHJP
【FI】
   G06N5/02 120
   G06F17/18 Z
【請求項の数】10
【外国語出願】
【全頁数】57
(21)【出願番号】特願2015-51733(P2015-51733)
(22)【出願日】2015年3月16日
(65)【公開番号】特開2015-191667(P2015-191667A)
(43)【公開日】2015年11月2日
【審査請求日】2015年5月27日
(31)【優先権主張番号】201410124577.3
(32)【優先日】2014年3月28日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】505418870
【氏名又は名称】エヌイーシー(チャイナ)カンパニー, リミテッド
【氏名又は名称原語表記】NEC(China)Co.,Ltd.
(74)【代理人】
【識別番号】100095407
【弁理士】
【氏名又は名称】木村 満
(72)【発明者】
【氏名】フン ロ
(72)【発明者】
【氏名】リュウ シュンチェン
(72)【発明者】
【氏名】藤巻 遼平
(72)【発明者】
【氏名】中台 慎二
【審査官】 多胡 滋
(56)【参考文献】
【文献】 国際公開第2013/179579(WO,A1)
【文献】 Kai Yu,外4名,Stochastic Relational Models for Discriminative Link Prediction,[online],2006年,[2016年6月9日検索],URL,https://papers.nips.cc/paper/3049-doubly-stochastic-normalization-for-spectral-clustering.pdf
(58)【調査した分野】(Int.Cl.,DB名)
G06N 5/02
G06F 17/18
(57)【特許請求の範囲】
【請求項1】
サンプルデータ、少なくとも2つのサンプル属性のグループ、少なくとも2つの潜在変数のグループ、及びモデルパラメータに応じて決定される対数尤度と、正規化項と、前記潜在変数の各々の変分分布の対数と、を取得するように構成された取得モジュールと、
前記対数尤度と、前記正規化項と、前記潜在変数の各々の前記変分分布の対数と、に応じて目的関数を決定するように構成された第1の決定モジュールと、
前記目的関数の収束を可能にする前記潜在変数の各々の変分分布及びモデルパラメータを決定するように構成された第2の決定モジュールと、
前記目的関数の収束を可能にする前記潜在変数の各々の前記変分分布及び前記モデルパラメータに応じてリレーショナルモデルを決定するように構成された第3の決定モジュールと、
を備えるリレーショナルモデル決定用の装置。
【請求項2】
前記取得モジュールによって取得される前記対数尤度は、
【数1】
[この文献は図面を表示できません]
であって、logp()は前記対数尤度を示し、pは同時確率密度関数を示し、
【数2】
[この文献は図面を表示できません]
は前記サンプルデータを示し、Nは行のサンプルの数を示し、Nは列のサンプルの数を示し、Aは行のサンプル属性のセットを示し、Aは列のサンプル属性のセットを示し、Zは行の潜在変数行列を示し、Zは列の潜在変数行列を示し、θはモデルパラメータのセットを示し、前記モデルパラメータはα、β、φ、η、ξを含み、α、βはそれぞれ行と列の混合比であり、φは各サンプルカテゴリにおけるサブモデルパラメータを示し、ηは各サンプルカテゴリにおける行のサンプル属性の前記モデルパラメータを示し、ξは各サンプルカテゴリにおける列のサンプル属性の前記モデルパラメータを示す、
請求項1に記載の装置。
【請求項3】
前記取得モジュールによって取得される前記正規化項は、
【数3】
[この文献は図面を表示できません]
であって、Nは行のサンプルの数を示し、Nは列のサンプルの数を示し、Kは行のサンプルカテゴリの数を示し、Kは列のサンプルカテゴリの数を示し、
【数4】
[この文献は図面を表示できません]
は前記潜在変数の前記変分分布の近似値を示し、
【数5】
[この文献は図面を表示できません]
は第p行のサンプルカテゴリに対する第i行のサンプルデータの会員を記述するための行の潜在変数を示し、
【数6】
[この文献は図面を表示できません]
は第q列のサンプルカテゴリに対する第j列のサンプルデータの会員を記述するための列の潜在変数を示し、αとβはそれぞれ行と列の混合比であり、Dαはαの次元を示し、Dβはβの次元を示し、Dpqは第p行第q列のサンプルカテゴリにおけるサブモデルパラメータの次元を示し、ηは第p行のサンプルカテゴリにおける行のサンプル属性の前記モデルパラメータを示し、
【数7】
[この文献は図面を表示できません]
はηの次元を示し、ξは第q列のサンプルカテゴリにおける列のサンプル属性の前記モデルパラメータを示し、
【数8】
[この文献は図面を表示できません]
はξの次元を示し、L(a,b)=logb+(a−b)/bであり、
【数9】
[この文献は図面を表示できません]
においてaは
【数10】
[この文献は図面を表示できません]
を示し、bは
【数11】
[この文献は図面を表示できません]
を示し、
【数12】
[この文献は図面を表示できません]
においてaは
【数13】
[この文献は図面を表示できません]
を示し、bは
【数14】
[この文献は図面を表示できません]
を示し、
【数15】
[この文献は図面を表示できません]
においてaは
【数16】
[この文献は図面を表示できません]
を示し、bは
【数17】
[この文献は図面を表示できません]
を示す、
請求項1に記載の装置。
【請求項4】
前記取得モジュールによって取得される前記潜在変数の各々の前記変分分布の対数はlogq(Z)及びlogq(Z)であり、q(Z)は行の潜在変数Zの前記変分分布を示し、q(Z)は列の潜在変数Zの前記変分分布を示す請求項1に記載の装置。
【請求項5】
前記第1の決定モジュールは、前記対数尤度の期待値、前記正規化項の期待値、及び前記潜在変数の各々の前記変分分布の対数の期待値に応じて目的関数を決定するように構成されている請求項1乃至4の何れか一項に記載の装置。
【請求項6】
前記第1の決定モジュールによって決定された前記目的関数
【数18】
[この文献は図面を表示できません]
は、
【数19】
[この文献は図面を表示できません]
である請求項5に記載の装置。
【請求項7】
前記第2の決定モジュールは、
前記潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを取得するように構成された取得ユニットと、
前記潜在変数の各々の前記更新された変分分布及び前記更新されたモデルパラメータに応じて前記目的関数が収束するか否かを判別するように構成された判別ユニットと、
を含み、
前記取得ユニットは、前記目的関数が収束しない場合には前記目的関数の収束を可能にする前記潜在変数の各々の変分分布及びモデルパラメータを取得するまで前記潜在変数の各々の前記変分分布及び前記更新されたモデルパラメータを再取得するように構成されている、
請求項6に記載の装置。
【請求項8】
前記取得ユニットは、
前記目的関数の収束を可能にする前記潜在変数の各々の更新された変分分布を取得するまで、下記の式
【数20】
[この文献は図面を表示できません]
を使用することによって前記潜在変数の各々の前記変分分布を交互に更新するように構成された第1の更新サブユニットと、
更新されたモデルパラメータを取得するために下記の式
【数21】
[この文献は図面を表示できません]
ここで、
【数22】
[この文献は図面を表示できません]
tは現在の更新を示し、t−1は前回の更新又は初期設定を示す、
を使用することによって前記目的関数の収束を可能にする前記潜在変数の各々の前記更新された変分分布に応じて前記モデルパラメータを更新するように構成された第2の更新サブユニットと、
を含む請求項7に記載の装置。
【請求項9】
前記取得ユニットは、
前記更新されたモデルパラメータを取得するために下記の式
【数23】
[この文献は図面を表示できません]
ここで、
【数24】
[この文献は図面を表示できません]
を使用することによって前記モデルパラメータを更新するように構成された第3の更新サブユニットと、
前記目的関数の収束を可能にする前記潜在変数の各々の更新された変分分布を取得するために下記の式
【数25】
[この文献は図面を表示できません]
ここで、tは現在の更新を示し、t−1は前回の更新又は初期設定を示す、
を使用することによって前記更新されたモデルパラメータに応じて前記潜在変数の各々の前記変分分布を交互に更新するように構成された第4の更新サブユニットと、
を含む請求項7に記載の装置。
【請求項10】
サンプルデータ、少なくとも2つのサンプル属性のグループ、少なくとも2つの潜在変数のグループ、及びモデルパラメータに応じて決定される対数尤度と、正規化項と、前記潜在変数の各々の変分分布の対数と、を取得することと、
前記対数尤度と、前記正規化項と、前記潜在変数の各々の前記変分分布の対数と、に応じて目的関数を決定することと、
前記目的関数の収束を可能にする前記潜在変数の各々の変分分布及びモデルパラメータを決定し、前記目的関数の収束を可能にする前記潜在変数の各々の前記変分分布及び前記モデルパラメータに応じてリレーショナルモデルを決定することと、
を備えるリレーショナルモデル決定用の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、統計の技術分野に関する。特に、リレーショナルモデルのモデル選択用の方法と装置に関する。
【背景技術】
【0002】
統計的手法の継続的な発展に伴い、オブジェクト間のリレーショナル情報をモデリングすることは注目の話題になっている。オブジェクト間には様々なリレーショナル情報が存在し、例えば、調査対象の母集団に含まれる人々の間の連絡先情報、インターネット上のページ間のリンクのリレーショナル情報が存在する。様々なリレーショナル情報は、1つのカテゴリにおけるオブジェクト間又は複数のカテゴリにおけるオブジェクト間の相関を表現する。また、リレーショナル情報についての分析により、より価値のある情報が取得されてよい。このため、リレーショナル情報に基づく適用がますます勧められており、その1つはリレーショナル情報に応じた異なるサンプルデータ用にリレーションクラスタリングを行っている。しかしながら、リレーションクラスタリング中、通常、リレーショナルモデルが使用される。例えば、映画会社が、顧客の応答情報に基づいて現在上映中の映画シリーズに総合的な評価を与えることを望む場合、現在上映中の映画シリーズについてユーザのグループにより与えられたスコアを収集し、リレーショナルモデルを使用することによってユーザと映画を異なるサンプルカテゴリにグループ化する。このようにして、ユーザ、映画及びスコアについて同時クラスタリングが実現される。また、クラスタリング結果解析によって、その視聴者の特徴といった映画についての有益な情報が取得される。実際のクラスタリング中、リレーショナル情報と共に、属性情報のような非リレーショナル情報が一般的に使用される。そのため、現在、クラスタリングにおいてリレーショナル情報を非リレーショナル情報に連携させること(例えばリレーショナル情報及び非リレーショナル情報に応じてリレーショナルモデルを決定すること)は、リレーションクラスタリングについて学習するための重要な課題になっている。
【0003】
実際には、リレーショナルモデルは、潜在変数及びモデルパラメータ、又は、潜在変数の変分分布及びモデルパラメータによって決定される。潜在変数は、直接観測できないがサンプルデータから導出できる変数のことである。潜在変数の変分分布は、対応するカテゴリにおけるクラスタリングサンプルデータの確率を記述するために使用される。一方、モデルパラメータは、各カテゴリ下のサブモデルのパラメータを記述するために使用される。現在、回帰に基づく潜在因子モデル(Regression-based latent factor models)[ディーパック アガーワル(Deepak Agarwal)他著、KDD’09会報、2009]という論文において、潜在変数及びモデルパラメータを決定する方法が提案されている。この方法において、第一に、サンプルデータ、2つのサンプル属性のグループ、2つの潜在変数のグループ、及びモデルパラメータに応じて対数尤度が取得される。第二に、目的関数が対数尤度に応じて与えられ、更に、目的関数の収束を可能にする潜在変数の各々及びモデルパラメータがサンプリング手段によって決定される。目的関数の収束を可能にする潜在変数及びモデルパラメータは、リレーショナルモデル決定用の潜在変数及びモデルパラメータとして機能してよい。
【0004】
本開示の実施例中、発明者は、先行技術が少なくとも下記のような課題を有することを確認している。
【0005】
目的関数が対数尤度のみに応じて決定されるため、この目的関数によって決定されるリレーショナルモデルは最適なモデル構造及びパラメータを自動的に獲得することができない。また、モデル選択は非常に複雑である。加えて、目的関数の収束を可能にする潜在変数及びモデルパラメータがサンプリング手段によって決定されるときの効率が悪い。また、決定されたリレーショナルモデルの精度が低い。
【発明の概要】
【課題を解決するための手段】
【0006】
先行技術における課題を解決するために、本開示の実施形態は、リレーショナルモデル決定用の方法及び装置を提供する。技術的解決方法は具体的には下記の通りである。
【0007】
第1の観点によると、提供されるリレーショナルモデル決定用の方法は、
サンプルデータ、少なくとも2つのサンプル属性のグループ、少なくとも2つの潜在変数のグループ、及びモデルパラメータに応じて決定される対数尤度と、正規化項と、前記潜在変数の各々の変分分布の対数と、を取得することと、
前記対数尤度と、前記正規化項と、前記潜在変数の各々の前記変分分布の対数と、に応じて目的関数を決定することと、
前記目的関数の収束を可能にする前記潜在変数の各々の変分分布及びモデルパラメータを決定し、前記目的関数の収束を可能にする前記潜在変数の各々の前記変分分布及び前記モデルパラメータに応じてリレーショナルモデルを決定することと、
を備える。
【0008】
第1の観点に関し、第1の観点の第1の可能な実施例において、前記サンプルデータ、前記少なくとも2つのサンプル属性のグループ、前記少なくとも2つの潜在変数のグループ、及び前記モデルパラメータに応じて決定される前記対数尤度は、
【数1】
[この文献は図面を表示できません]
であって、logp()は前記対数尤度を示し、pは同時確率密度関数を示し、
【数2】
[この文献は図面を表示できません]
は前記サンプルデータを示し、Nは行のサンプルの数を示し、Nは列のサンプルの数を示し、Aは行のサンプル属性のセットを示し、Aは列のサンプル属性のセットを示し、Zは行の潜在変数行列を示し、Zは列の潜在変数行列を示し、θはモデルパラメータのセットを示し、前記モデルパラメータはα、β、φ、η、ξを含み、α、βはそれぞれ行と列の混合比であり、φは各サンプルカテゴリにおけるサブモデルパラメータを示し、ηは各サンプルカテゴリにおける行のサンプル属性の前記モデルパラメータを示し、ξは各サンプルカテゴリにおける列のサンプル属性の前記モデルパラメータを示す。
【0009】
第1の観点に関し、第1の観点の第2の可能な実施例において、前記サンプルデータ、前記少なくとも2つのサンプル属性のグループ、前記少なくとも2つの潜在変数のグループ、及び前記モデルパラメータに応じて決定される前記正規化項は、
【数3】
[この文献は図面を表示できません]
であって、Nは行のサンプルの数を示し、Nは列のサンプルの数を示し、Kは行のサンプルカテゴリの数を示し、Kは列のサンプルカテゴリの数を示し、
【数4】
[この文献は図面を表示できません]
は前記潜在変数の前記変分分布の近似値を示し、
【数5】
[この文献は図面を表示できません]
は第p行のサンプルカテゴリに対する第i行のサンプルデータの会員を記述するための行の潜在変数を示し、
【数6】
[この文献は図面を表示できません]
は第q列のサンプルカテゴリに対する第j列のサンプルデータの会員を記述するための列の潜在変数を示し、αとβはそれぞれ行と列の混合比であり、Dαはαの次元を示し、Dβはβの次元を示し、Dpqは第p行第q列のサンプルカテゴリにおけるサブモデルパラメータの次元を示し、ηは第p行のサンプルカテゴリにおける行のサンプル属性の前記モデルパラメータを示し、
【数7】
[この文献は図面を表示できません]
はηの次元を示し、ξは第q列のサンプルカテゴリにおける列のサンプル属性の前記モデルパラメータを示し、
【数8】
[この文献は図面を表示できません]
はξの次元を示し、L(a,b)=logb+(a−b)/bであり、
【数9】
[この文献は図面を表示できません]
においてaは
【数10】
[この文献は図面を表示できません]
を示し、bは
【数11】
[この文献は図面を表示できません]
を示し、
【数12】
[この文献は図面を表示できません]
においてaは
【数13】
[この文献は図面を表示できません]
を示し、bは
【数14】
[この文献は図面を表示できません]
を示し、
【数15】
[この文献は図面を表示できません]
においてaは
【数16】
[この文献は図面を表示できません]
を示し、bは
【数17】
[この文献は図面を表示できません]
を示す。
【0010】
第1の観点に関し、第1の観点の第3の可能な実施例において、前記サンプルデータ、前記少なくとも2つのサンプル属性のグループ、前記少なくとも2つの潜在変数のグループ、及び前記モデルパラメータに応じて決定される前記潜在変数の各々の前記変分分布の対数はlogq(Z)及びlogq(Z)であり、q(Z)は行の潜在変数行列Zの前記変分分布を示し、q(Z)は列の潜在変数行列Zの前記変分分布を示す。
【0011】
第1の観点の第3の可能な実施例に対する第1の観点の何れかに関し、第1の観点の第4の実施例において、前記対数尤度と、前記正規化項と、前記潜在変数の各々の前記変分分布の対数と、に応じて目的関数を決定することは、前記対数尤度の期待値、前記正規化項の期待値、及び前記潜在変数の各々の前記変分分布の対数の期待値に応じて前記目的関数を決定することを含む。
【0012】
第1の観点の第4の可能な実施例に関し、第1の観点の第5の実施例において、前記対数尤度の期待値、前記正規化項の期待値、及び前記潜在変数の各々の前記変分分布の対数の期待値に応じて決定された前記目的関数
【数18】
[この文献は図面を表示できません]
は、
【数19】
[この文献は図面を表示できません]
である。
【0013】
第1の観点の第5の可能な実施例に関し、第1の観点の第6の実施例において、前記目的関数の収束を可能にする前記潜在変数の各々の変分分布及びモデルパラメータを決定することは、
前記潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを取得することと、
前記潜在変数の各々の前記更新された変分分布及び前記更新されたモデルパラメータに応じて前記目的関数が収束するか否かを判別し、前記目的関数が収束しない場合には前記目的関数の収束を可能にする前記潜在変数の各々の前記変分分布及び前記モデルパラメータを取得するまで前記潜在変数の各々の前記更新された変分分布及び前記更新されたモデルパラメータを再取得することと、
を含む。
【0014】
第1の観点の第6の可能な実施例に関し、第1の観点の第7の実施例において、前記潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを取得することは、
前記目的関数の収束を可能にする前記潜在変数の各々の更新された変分分布を取得するまで、下記の式
【数20】
[この文献は図面を表示できません]
を使用することによって前記潜在変数の各々の前記変分分布を交互に更新することと、
下記の式
【数21】
[この文献は図面を表示できません]
ここで、
【数22】
[この文献は図面を表示できません]
tは現在の更新を示し、t−1は前回の更新又は初期設定を示す、
を使用することによって前記目的関数の収束を可能にする前記潜在変数の各々の前記更新された変分分布に応じて前記モデルパラメータを更新することと、
を含む。
【0015】
第1の観点の第6の可能な実施例に関し、第1の観点の第8の実施例において、前記潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを取得することは、
前記更新されたモデルパラメータを取得するために下記の式
【数23】
[この文献は図面を表示できません]
ここで、
【数24】
[この文献は図面を表示できません]
を使用することによって前記モデルパラメータを更新することと、
前記目的関数の収束を可能にする前記潜在変数の各々の更新された変分分布を取得するために下記の式
【数25】
[この文献は図面を表示できません]
ここで、tは現在の更新を示し、t−1は前回の更新又は初期設定を示す、
を使用することによって前記更新されたモデルパラメータに応じて前記潜在変数の各々の前記変分分布を交互に更新することと、
を含む。
【0016】
第1の観点の第6から8の実施例の何れかに関し、第1の観点の第9の実施例において、前記潜在変数の各々の前記更新された変分分布及び前記更新されたモデルパラメータに応じて前記目的関数が収束するか否かを判別することは、
前記潜在変数の各々の前記更新された変分分布及び前記更新されたモデルパラメータに応じて決定された前記目的関数と、前記潜在変数の各々の前回更新された変分分布及び前回更新されたモデルパラメータに応じて決定された前回取得された目的関数と、の間の距離が閾値より短いか否かを比較することと、
前記潜在変数の各々の前記更新された変分分布及び前記更新されたモデルパラメータに応じて決定された前記目的関数と前記前回取得された目的関数との間の距離が前記閾値より短い場合には前記目的関数が収束すると判別することと、
を含む。
【0017】
第2の観点において、提供されるリレーショナルモデル決定用の装置は、
サンプルデータ、少なくとも2つのサンプル属性のグループ、少なくとも2つの潜在変数のグループ、及びモデルパラメータに応じて決定される対数尤度と、正規化項と、前記潜在変数の各々の変分分布の対数と、を取得するように構成された取得モジュールと、
前記対数尤度と、前記正規化項と、前記潜在変数の各々の前記変分分布の対数と、に応じて目的関数を決定するように構成された第1の決定モジュールと、
前記目的関数の収束を可能にする前記潜在変数の各々の変分分布及びモデルパラメータを決定するように構成された第2の決定モジュールと、
前記目的関数の収束を可能にする前記潜在変数の各々の前記変分分布及び前記モデルパラメータに応じてリレーショナルモデルを決定するように構成された第3の決定モジュールと、
を備える。
【0018】
第2の観点に関し、第2の観点の第1の可能な実施例において、前記取得モジュールによって取得される前記対数尤度は、
【数26】
[この文献は図面を表示できません]
であって、logp()は前記対数尤度を示し、pは同時確率密度関数を示し、
【数27】
[この文献は図面を表示できません]
は前記サンプルデータを示し、Nは行のサンプルの数を示し、Nは列のサンプルの数を示し、Aは行のサンプル属性のセットを示し、Aは列のサンプル属性のセットを示し、Zは行の潜在変数行列を示し、Zは列の潜在変数行列を示し、θはモデルパラメータのセットを示し、前記モデルパラメータはα、β、φ、η、ξを含み、α、βはそれぞれ行と列の混合比であり、φは各サンプルカテゴリにおけるサブモデルパラメータを示し、ηは各サンプルカテゴリにおける行のサンプル属性の前記モデルパラメータを示し、ξは各サンプルカテゴリにおける列のサンプル属性の前記モデルパラメータを示す。
【0019】
第2の観点に関し、第2の観点の第2の可能な実施例において、前記取得モジュールによって取得される前記正規化項は、
【数28】
[この文献は図面を表示できません]
であって、Nは行のサンプルの数を示し、Nは列のサンプルの数を示し、Kは行のサンプルカテゴリの数を示し、Kは列のサンプルカテゴリの数を示し、
【数29】
[この文献は図面を表示できません]
は前記潜在変数の前記変分分布の近似値を示し、
【数30】
[この文献は図面を表示できません]
は第p行のサンプルカテゴリに対する第i行のサンプルデータの会員を記述するための行の潜在変数を示し、
【数31】
[この文献は図面を表示できません]
は第q列のサンプルカテゴリに対する第j列のサンプルデータの会員を記述するための列の潜在変数を示し、αとβはそれぞれ行と列の混合比であり、Dαはαの次元を示し、Dβはβの次元を示し、Dpqは第p行第q列のサンプルカテゴリにおけるサブモデルパラメータの次元を示し、ηは第p行のサンプルカテゴリにおける行のサンプル属性の前記モデルパラメータを示し、
【数32】
[この文献は図面を表示できません]
はηの次元を示し、ξは第q列のサンプルカテゴリにおける列のサンプル属性の前記モデルパラメータを示し、
【数33】
[この文献は図面を表示できません]
はξの次元を示し、L(a,b)=logb+(a−b)/bであり、
【数34】
[この文献は図面を表示できません]
においてaは
【数35】
[この文献は図面を表示できません]
を示し、bは
【数36】
[この文献は図面を表示できません]
を示し、
【数37】
[この文献は図面を表示できません]
においてaは
【数38】
[この文献は図面を表示できません]
を示し、bは
【数39】
[この文献は図面を表示できません]
を示し、
【数40】
[この文献は図面を表示できません]
においてaは
【数41】
[この文献は図面を表示できません]
を示し、bは
【数42】
[この文献は図面を表示できません]
を示す。
【0020】
第2の観点に関し、第2の観点の第3の可能な実施例において、前記取得モジュールによって取得される前記潜在変数の各々の前記変分分布の対数はlogq(Z)及びlogq(Z)であり、q(Z)は行の潜在変数Zの前記変分分布を示し、q(Z)は列の潜在変数Zの前記変分分布を示す。
【0021】
第2の観点の第3の可能な実施例に対する第2の観点の何れかに関し、第2の観点の第4の可能な実施例において、前記第1の決定モジュールは、前記対数尤度の期待値、前記正規化項の期待値、及び前記潜在変数の各々の前記変分分布の対数の期待値に応じて目的関数を決定するように構成されている。
【0022】
第2の観点の第4の可能な実施例に関し、第2の観点の第5の可能な実施例において、前記第1の決定モジュールによって決定された前記目的関数
【数43】
[この文献は図面を表示できません]
は、
【数44】
[この文献は図面を表示できません]
である。
【0023】
第2の観点の第5の可能な実施例に関し、第2の観点の第6の可能な実施例において、前記第2の決定モジュールは、
前記潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを取得するように構成された取得ユニットと、
前記潜在変数の各々の前記更新された変分分布及び前記更新されたモデルパラメータに応じて前記目的関数が収束するか否かを判別するように構成された判別ユニットと、
を含み、
前記取得ユニットは、前記目的関数が収束しない場合には前記目的関数の収束を可能にする前記潜在変数の各々の変分分布及びモデルパラメータを取得するまで前記潜在変数の各々の前記変分分布及び前記更新されたモデルパラメータを再取得するように構成されている。
【0024】
第2の観点の第6の可能な実施例に関し、第2の観点の第7の可能な実施例において、前記取得ユニットは、
前記目的関数の収束を可能にする前記潜在変数の各々の更新された変分分布を取得するまで、下記の式
【数45】
[この文献は図面を表示できません]
を使用することによって前記潜在変数の各々の前記変分分布を交互に更新するように構成された第1の更新サブユニットと、
更新されたモデルパラメータを取得するために下記の式
【数46】
[この文献は図面を表示できません]
ここで、
【数47】
[この文献は図面を表示できません]
tは現在の更新を示し、t−1は前回の更新又は初期設定を示す、
を使用することによって前記目的関数の収束を可能にする前記潜在変数の各々の前記更新された変分分布に応じて前記モデルパラメータを更新するように構成された第2の更新サブユニットと、
を含む。
【0025】
第2の観点の第6の可能な実施例に関し、第2の観点の第8の可能な実施例において、前記取得ユニットは、
前記更新されたモデルパラメータを取得するために下記の式
【数48】
[この文献は図面を表示できません]
ここで、
【数49】
[この文献は図面を表示できません]
を使用することによって前記モデルパラメータを更新するように構成された第3の更新サブユニットと、
前記目的関数の収束を可能にする前記潜在変数の各々の更新された変分分布を取得するために下記の式
【数50】
[この文献は図面を表示できません]
ここで、tは現在の更新を示し、t−1は前回の更新又は初期設定を示す、
を使用することによって前記更新されたモデルパラメータに応じて前記潜在変数の各々の前記変分分布を交互に更新するように構成された第4の更新サブユニットと、
を含む。
【0026】
第2の観点の第6から8の実施例に関し、第2の観点の第9の可能な実施例において、前記判別ユニットは、
前記潜在変数の各々の前記更新された変分分布及び前記更新されたモデルパラメータに応じて決定された前記目的関数と、前記潜在変数の各々の前回更新された変分分布及び前回更新されたモデルパラメータに応じて決定された前回取得された目的関数と、の間の距離が閾値より短いか否かを比較するように構成された比較サブユニットと、
前記潜在変数の各々の前記更新された変分分布及び前記更新されたモデルパラメータに応じて決定された前記目的関数と前記前回取得された目的関数との間の距離が前記閾値より短い場合には前記目的関数が収束すると判別するように構成された判別サブユニットと、
を含む。
【0027】
本開示の実施形態によって提供される技術的解決方法は下記の利点を有する。
【0028】
目的関数は、サンプルデータ、少なくとも2つのサンプル属性のグループ、少なくとも2つの潜在変数のグループ、及びモデルパラメータに応じて決定される対数尤度と、正規化項と、潜在変数の各々の変分分布の対数と、に応じて決定される。また、リレーショナルモデルは、目的関数の収束を可能にする潜在変数の各々の変分分布及びモデルパラメータに応じて決定される。このようにして、リレーショナルモデル決定の効率及び精度が改善される。更に、正規化項を使用することによって、モデルの複雑性が自動的に制御されてよい。その結果、モデル決定の効率が改善される。
【0029】
本開示の実施形態における技術的解決法をより明確に説明するために、実施形態を記述するために使用される添付の図面は、下記のように簡単に紹介される。明らかに、以下に記載の添付図面は本開示のいくつかの実施形態だけを示し、当業者は創造的な努力なしでこれらの添付図面から更に他の添付図面を導き出してよい。
【図面の簡単な説明】
【0030】
図1】本開示の実施形態1に係るリレーショナルモデル決定用の方法のフローチャートである。
図2】本開示の実施形態2に係るリレーショナルモデル決定用の方法のフローチャートである。
図3】本開示の実施形態3に係るリレーショナルモデル決定用の装置の概略構成図である。
図4】本開示の実施形態3に係る第2の決定モジュールの概略構成図である。
図5】本開示の実施形態3に係る取得ユニットの概略構成図である。
図6】本開示の実施形態3に係る別の取得ユニットの概略構成図である。
図7】本開示の実施形態3に係る判別ユニットの概略構成図である。
【発明を実施するための形態】
【0031】
本開示の目的、技術的解決方法、及び利点をより明確にするために、本開示の実施形態では、添付図面を参照して以下に詳細に説明する。
【0032】
(実施形態1)
本開示の実施形態は、リレーショナルモデル決定用の方法を提供する。図1を参照すると、方法は下記のステップを備える。
【0033】
ステップ101:サンプルデータ、少なくとも2つのサンプル属性のグループ、少なくとも2つの潜在変数のグループ、及びモデルパラメータに応じて決定される対数尤度と、正規化項と、潜在変数の各々の変分分布の対数と、を取得すること。
【0034】
任意の実施形態のように、サンプルデータ、少なくとも2つのサンプル属性のグループ、少なくとも2つの潜在変数のグループ、及びモデルパラメータに応じて決定される対数尤度は、
【数51】
[この文献は図面を表示できません]
であって、logp()は対数尤度を示し、pは同時確率密度関数を示し、
【数52】
[この文献は図面を表示できません]
はサンプルデータを示し、Nは行のサンプルの数を示し、Nは列のサンプルの数を示し、Aは行のサンプル属性のセットを示し、Aは列のサンプル属性のセットを示し、Zは行の潜在変数行列を示し、Zは列の潜在変数行列を示し、θはモデルパラメータのセットを示し、モデルパラメータはα、β、φ、η、ξを含み、α、βはそれぞれ行と列の混合比であり、φは各サンプルカテゴリにおけるサブモデルパラメータを示し、ηは各サンプルカテゴリにおける行のサンプル属性のモデルパラメータを示し、ξは各サンプルカテゴリにおける列のサンプル属性のモデルパラメータを示す。
【0035】
任意の実施形態のように、サンプルデータ、少なくとも2つのサンプル属性のグループ、少なくとも2つの潜在変数のグループ、及びモデルパラメータに応じて決定される正規化項は、
【数53】
[この文献は図面を表示できません]
であって、Nは行のサンプルの数を示し、Nは列のサンプルの数を示し、Kは行のサンプルカテゴリの数を示し、Kは列のサンプルカテゴリの数を示し、
【数54】
[この文献は図面を表示できません]
は潜在変数の変分分布の近似値を示し、
【数55】
[この文献は図面を表示できません]
は第p行のサンプルカテゴリに対する第i行のサンプルデータの会員を記述するための行の潜在変数を示し、
【数56】
[この文献は図面を表示できません]
は第q列のサンプルカテゴリに対する第j列のサンプルデータの会員を記述するための列の潜在変数を示し、αとβはそれぞれ行と列の混合比であり、Dαはαの次元を示し、Dβはβの次元を示し、Dpqは第p行第q列のサンプルカテゴリにおけるサブモデルパラメータの次元を示し、ηは第p行のサンプルカテゴリにおける行のサンプル属性のモデルパラメータを示し、
【数57】
[この文献は図面を表示できません]
はηの次元を示し、ξは第q列のサンプルカテゴリにおける列のサンプル属性のモデルパラメータを示し、
【数58】
[この文献は図面を表示できません]
はξの次元を示し、L(a,b)=logb+(a−b)/bであり、
【数59】
[この文献は図面を表示できません]
においてaは
【数60】
[この文献は図面を表示できません]
を示し、bは
【数61】
[この文献は図面を表示できません]
を示し、
【数62】
[この文献は図面を表示できません]
においてaは
【数63】
[この文献は図面を表示できません]
を示し、bは
【数64】
[この文献は図面を表示できません]
を示し、
【数65】
[この文献は図面を表示できません]
においてaは
【数66】
[この文献は図面を表示できません]
を示し、bは
【数67】
[この文献は図面を表示できません]
を示す。
【0036】
任意の実施形態のように、サンプルデータ、少なくとも2つのサンプル属性のグループ、少なくとも2つの潜在変数のグループ、及びモデルパラメータに応じて決定される潜在変数の各々の変分分布の対数はlogq(Z)及びlogq(Z)であり、q(Z)は行の潜在変数Zの変分分布を示し、q(Z)は列の潜在変数Zの変分分布を示す。
【0037】
ステップ102:対数尤度と、正規化項と、潜在変数の各々の変分分布の対数と、に応じて目的関数を決定すること。
【0038】
任意の実施形態のように、対数尤度と、正規化項と、潜在変数の各々の変分分布の対数と、に応じて目的関数を決定することは、対数尤度の期待値、正規化項の期待値、及び潜在変数の各々の変分分布の対数の期待値に応じて目的関数を決定することを含む。
【0039】
任意の実施形態のように、対数尤度の期待値、正規化項の期待値、及び潜在変数の各々の変分分布の対数の期待値に応じて決定された目的関数
【数68】
[この文献は図面を表示できません]
は、
【数69】
[この文献は図面を表示できません]
である。
【0040】
ステップ103:目的関数の収束を可能にする潜在変数の各々の変分分布及びモデルパラメータを決定し、目的関数の収束を可能にする潜在変数の各々の変分分布及びモデルパラメータに応じてリレーショナルモデルを決定すること。
【0041】
任意の実施形態のように、目的関数の収束を可能にする潜在変数の各々の変分分布及びモデルパラメータを決定することは、
潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを取得することと、
潜在変数の各々の更新された変分分布及び更新されたモデルパラメータに応じて目的関数が収束するか否かを判別し、目的関数が収束しない場合には目的関数の収束を可能にする潜在変数の各々の変分分布及び更新されたモデルパラメータを取得するまで潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを再取得することと、
を含む。
【0042】
任意の実施形態のように、潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを取得することは、
目的関数の収束を可能にする潜在変数の各々の更新された変分分布を取得するまで、下記の式
【数70】
[この文献は図面を表示できません]
を使用することによって潜在変数の各々の変分分布を交互に更新することと、
更新されたモデルパラメータを取得するために下記の式
【数71】
[この文献は図面を表示できません]
ここで、
【数72】
[この文献は図面を表示できません]
tは現在の更新を示し、t−1は前回の更新又は初期設定を示す、
を使用することによって目的関数の収束を可能にする潜在変数の各々の更新された変分分布に応じてモデルパラメータを更新することと、
を含む。
【0043】
任意の実施形態のように、潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを取得することは、
更新されたモデルパラメータを取得するために下記の式
【数73】
[この文献は図面を表示できません]
ここで、
【数74】
[この文献は図面を表示できません]
を使用することによってモデルパラメータを更新することと、
目的関数の収束を可能にする潜在変数の各々の更新された変分分布を取得するために下記の式
【数75】
[この文献は図面を表示できません]
ここで、tは現在の更新を示し、t−1は前回の更新又は初期設定を示す、
を使用することによって更新されたモデルパラメータに応じて潜在変数の各々の変分分布を交互に更新することと、
を含む。
【0044】
任意の実施形態のように、潜在変数の各々の更新された変分分布及び更新されたモデルパラメータに応じて目的関数が収束するか否かを判別することは、
潜在変数の各々の更新された変分分布及び更新されたモデルパラメータに応じて決定された目的関数と、潜在変数の各々の前回更新された変分分布及び前回更新されたモデルパラメータに応じて決定された前回取得された目的関数と、の間の距離が閾値より短いか否かを比較することと、
潜在変数の各々の更新された変分分布及び更新されたモデルパラメータに応じて決定された目的関数と前回取得された目的関数との間の距離が閾値より短い場合には目的関数が収束すると判別することと、
を含む。
【0045】
本開示のこの実施形態に応じた方法において、サンプルデータ、少なくとも2つのサンプル属性のグループ、少なくとも2つの潜在変数のグループ、及びモデルパラメータに応じて決定される対数尤度と、正規化項と、潜在変数の各々の変分分布の対数と、に応じて目的関数を決定し、目的関数の収束を可能にする潜在変数の各々の変分分布及びモデルパラメータに応じてリレーショナルモデルを決定することによって、リレーショナルモデル決定の効率及び精度は改善される。更に、正規化項の使用によってモデルの複雑性は自動的に制御されてよいので、モデル決定の効率は改善される。
【0046】
(実施形態2)
本開示の実施形態は、リレーショナルモデル決定用の方法を提供する。上記方法の実施形態の内容に関し、本開示のこの実施形態に応じた方法は詳細に記述される。図2を参照すると、方法は下記のステップを備える。
【0047】
ステップ201:サンプルデータ、少なくとも2つのサンプル属性のグループ、少なくとも2つの潜在変数のグループ、及びモデルパラメータに応じて決定される対数尤度と、正規化項と、潜在変数の各々の変分分布の対数と、を取得すること。
【0048】
サンプルデータの内容及び次元は、この実施形態において限定されない。特定の実施例中、サンプルデータは複数の映画ついての複数のユーザによって与えられたスコアであってよい。この場合、サンプルデータの次元は2でよい。つまり、スコアの統計は2次元(例えばユーザと映画)から行われる。それにもかかわらず、上記内容及び次元に加えて、サンプルデータは他の内容及び次元を有していて構わない。
【0049】
理解を容易にするために、サンプルデータは例として下記に示すように記述される。サンプルデータは、5×5の行列として表される。行列の行はユーザ1からユーザ5までを示し、一方で行列の列は映画1から映画5を示す。行列の任意の要素Xijはユーザiにより与えられた映画jについてのスコアを示す。なお、1≦i≦5、1≦j≦5、iとjはいずれも整数である。
【数76】
[この文献は図面を表示できません]
【0050】
サンプル属性は、これに限定されないが、行のサンプル属性、列のサンプル属性等を含む。サンプル属性の具体的内容はこの実施形態において限定されない。特定の実施例中、サンプル属性はサンプルデータに対応するオブジェクトの属性であってよい。理解を容易にするために、サンプルデータはまだ例として上記に示すように記述される。行のサンプル属性は行のサンプルデータに対応するユーザの属性(例えば、年齢、性別)であってよい。一方、列のサンプル属性は列のサンプルデータに対応する映画の属性(例えば、映画の種類、開始時間)であってよい。サンプル属性に応じて対数尤度、正規化項、及び潜在変数の各々の変分分布の対数を決定することによって、リレーショナル情報をクラスタリング用の非リレーショナル情報に連携させることが達成される。つまり、リレーショナルモデルは、リレーショナル情報及び非リレーショナル情報に応じて決定される。
【0051】
潜在変数は、これに限定されないが、行の潜在変数、列の潜在変数等を含む。潜在変数の具体的内容はこの実施形態において限定されない。特定の実施例中、潜在変数は、潜在変数行列Zであってよい。なお、行列において任意の要素Zipは、第i行のサンプルデータが第p行のサンプルカテゴリに従属することを示す。
【0052】
モデルパラメータは、これに限定されないが、行の混合比、列の混合比、各サンプルカテゴリにおけるサブモデルパラメータ等を含む。モデルパラメータの具体的内容はこの実施形態において限定されない。行列形式のサンプルデータを例に取ると、行の混合比は、決定されたリレーショナルモデルにおける行列の行の総数に対する決定されたリレーショナルモデルの各サンプルカテゴリにおける行列の行の数の比である。列の混合比は、決定されたリレーショナルモデルにおける行列の列の総数に対する決定されたリレーショナルモデルの各サンプルカテゴリにおける行列の列の数の比である。また、各サンプルカテゴリにおけるサブモデルパラメータは、決定されたリレーショナルモデルの各サンプルカテゴリにおけるデータ分布のパラメータである。
【0053】
潜在変数は、モデルパラメータから独立又はモデルパラメータに依存していてよいことに留意すべきである。実際には潜在変数とモデルパラメータとの間に依存性が存在するので、決定されたリレーショナルモデルをより正確にするために、本開示の実施形態は、潜在変数とモデルパラメータとの間に依存性が存在するシナリオを例として取ることによって記述される。
【0054】
この実施形態に応じた方法において、サンプルデータ、少なくとも2つのサンプル属性のグループ、少なくとも2つの潜在変数のグループ、及びモデルパラメータに応じて決定される対数尤度と、正規化項と、潜在変数の各々の変分分布の対数と、を取得するために、最初に下記に示す同時確率密度関数(joint probability density distribution)が演繹される。
【数77】
[この文献は図面を表示できません]
ここで、pは同時確率密度関数を示し、
【数78】
[この文献は図面を表示できません]
はサンプルデータを示し、Nは行のサンプルの数を示し、Nは列のサンプルの数を示し、Aは行のサンプル属性のセットを示し、Aは列のサンプル属性のセットを示し、Zは行の潜在変数行列を示し、Zは列の潜在変数行列を示し、θはモデルパラメータのセットを示し、モデルパラメータはα、β、φ、η及びξを含み、α、βはそれぞれ行と列の混合比であり、φは各サンプルカテゴリにおけるサブモデルパラメータを示し、ηは各サンプルカテゴリにおける行のサンプル属性のモデルパラメータを示し、ξは各サンプルカテゴリにおける列のサンプル属性のモデルパラメータを示し、Kは行のサンプルカテゴリの数を示し、Kは列のサンプルカテゴリの数を示し、Xijは第i行第j列のサンプルデータを示し、φpqは第p行第q列のサンプルカテゴリにおけるサブモデルパラメータを示し、
【数79】
[この文献は図面を表示できません]
は第p行のサンプルカテゴリに対する第i行のサンプルデータの会員を記述するための行の潜在変数を示し、
【数80】
[この文献は図面を表示できません]
は第q列のサンプルカテゴリに対する第j列のサンプルデータの会員を記述するための列の潜在変数を示し、αは第p行のサンプルカテゴリの行の混合比を示し、βは第p列のサンプルカテゴリの列の混合比を示し、
【数81】
[この文献は図面を表示できません]
は第i行の行のサンプル属性を示し、
【数82】
[この文献は図面を表示できません]
は第j列の列のサンプル属性を示し、ηは第p行のサンプルカテゴリにおける行のサンプル属性のモデルパラメータを示し、ξは第q列のサンプルカテゴリにおける列のサンプル属性のモデルパラメータを示す。
【0055】
上記同時確率密度関数は、リレーショナルモデルの確率密度分布を決定する。リレーショナルモデルの確率密度分布は、同時確率密度関数における潜在変数Z及びZと同様にモデルパラメータα、β、φ、η及びξを決定することによって決定されてよい。また、リレーショナルモデルはこのように決定される。同時確率密度関数を解けるようにするにあたり、下記の確率密度分布の等式の両辺の対数は、対数尤度を取得するために計算される。
【数83】
[この文献は図面を表示できません]
【0056】
任意の実施形態のように、サンプルデータ、少なくとも2つのサンプル属性のグループ、少なくとも2つの潜在変数のグループ、及びモデルパラメータに応じて決定される対数尤度は、
【数84】
[この文献は図面を表示できません]
であって、logp()は対数尤度を示し、pは同時確率密度関数を示し、
【数85】
[この文献は図面を表示できません]
はサンプルデータを示し、Nは行のサンプルの数を示し、Nは列のサンプルの数を示し、Aは行のサンプル属性のセットを示し、Aは列のサンプル属性のセットを示し、Zは行の潜在変数行列を示し、Zは列の潜在変数行列を示し、θはモデルパラメータのセットを示し、モデルパラメータはα、β、φ、η、ξを含み、α、βはそれぞれ行と列の混合比であり、φは各サンプルカテゴリにおけるサブモデルパラメータを示し、ηは各サンプルカテゴリにおける行のサンプル属性のモデルパラメータを示し、ξは各サンプルカテゴリにおける列のサンプル属性のモデルパラメータを示す。
【0057】
特に、サンプルデータ
【数86】
[この文献は図面を表示できません]
が行列形式で表される場合には、Nは行のサンプルの数を示し、Nは列のサンプルの数を示し、uは行のサンプル属性の次元を示し、vは列のサンプル属性の次元を示し、AはN*uの行列を示し、AはN*vの行列を示し、Kは行のサンプルカテゴリの数を示し、Kは列のサンプルカテゴリの数を示す。ZはN*Kのブロック変数行列である。Zの各要素は
【数87】
[この文献は図面を表示できません]
である。
【数88】
[この文献は図面を表示できません]
の場合、それは第i行のサンプルデータが第p行のサンプルカテゴリに属することを示す。ZはN*Kのブロック変数行列である。Zの各要素は
【数89】
[この文献は図面を表示できません]
である。
【数90】
[この文献は図面を表示できません]
の場合、それは第j列のサンプルデータが第q列のサンプルカテゴリに属することを示す。行の混合比αは、サンプルデータ行列の行の総数に対するリレーショナルデータモデルの各サンプルカテゴリにおける行の数の比を示す。列の混合比βは、サンプルデータ行列の列の総数に対するリレーショナルデータモデルの各サンプルカテゴリにおける列の数の比を示す。各サブモデルにおけるモデルパラメータφは、リレーショナルモデルにおける各サンプルカテゴリのサンプルデータがサンプルカテゴリにおいて従う分布のパラメータを示す。例えば、各サンプルカテゴリにおけるサンプルデータがガウス分布に従う場合、φはガウス分布における期待値μ及び分散δを示す。他の例として、各サンプルカテゴリのサンプルデータがポアソン分布に従う場合、φは、ポアソン分布における期待値及び分散λを示す。ここで、各サンプルカテゴリにおけるサンプルデータは上記の分布以外の他の分布に従っていてよく、この実施形態において分布は限定されないことに留意すべきである。各サンプルカテゴリにおける行のサンプル属性のモデルパラメータηは各サンプルカテゴリにおけるサンプルに対応する行のオブジェクトの属性を示し、各サンプルカテゴリにおける列のサンプル属性のモデルパラメータξは各サンプルカテゴリにおけるサンプルに対応する列のオブジェクトの属性を示す。
【0058】
任意の実施形態のように、サンプルデータ、少なくとも2つのサンプル属性のグループ、少なくとも2つの潜在変数のグループ、及びモデルパラメータに応じて決定される正規化項は、
【数91】
[この文献は図面を表示できません]
であって、Nは行のサンプルの数を示し、Nは列のサンプルの数を示し、Kは行のサンプルカテゴリの数を示し、Kは列のサンプルカテゴリの数を示し、
【数92】
[この文献は図面を表示できません]
は潜在変数の変分分布の近似値を示し、
【数93】
[この文献は図面を表示できません]
は第p行のサンプルカテゴリに対する第i行のサンプルデータの会員を記述するための行の潜在変数を示し、
【数94】
[この文献は図面を表示できません]
は第q列のサンプルカテゴリに対する第j列のサンプルデータの会員を記述するための列の潜在変数を示し、αとβはそれぞれ行と列の混合比であり、Dαはαの次元を示し、Dβはβの次元を示し、Dpqは第p行第q列のサンプルカテゴリにおけるサブモデルパラメータの次元を示し、ηは第p行のサンプルカテゴリにおける行のサンプル属性のモデルパラメータを示し、
【数95】
[この文献は図面を表示できません]
はηの次元を示し、ξは第q列のサンプルカテゴリにおける列のサンプル属性のモデルパラメータを示し、
【数96】
[この文献は図面を表示できません]
はξの次元を示し、L(a,b)=logb+(a−b)/bであり、
【数97】
[この文献は図面を表示できません]
においてaは
【数98】
[この文献は図面を表示できません]
を示し、bは
【数99】
[この文献は図面を表示できません]
を示し、
【数100】
[この文献は図面を表示できません]
においてaは
【数101】
[この文献は図面を表示できません]
を示し、bは
【数102】
[この文献は図面を表示できません]
を示し、
【数103】
[この文献は図面を表示できません]
においてaは
【数104】
[この文献は図面を表示できません]
を示し、bは
【数105】
[この文献は図面を表示できません]
を示す。従って、正規化項は下記のように拡張されてよい。
【数106】
[この文献は図面を表示できません]
【0059】
特に、Kがブロック変数行列Zの行のサンプルカテゴリの数を示す場合には、Dα=D(α)=K−1である。Kがブロック変数行列Zの列のサンプルカテゴリの数を示す場合には、Dβ=D(β)=K−1である。各サンプルカテゴリにおけるサンプルデータがガウス分布に従い、ガウス分布の期待値と分散がそれぞれμとδ、即ち、ガウス分布が2つのパラメータを有する場合には、Dkl=D(φkl)=2である。各サンプルカテゴリにおけるサンプルデータがポアソン分布に従い、ポアソン分布の期待値と分散がいずれもλ、即ち、ポアソン分布が1つのパラメータλを有する場合には、Dkl=D(φkl)=1である。
【0060】
更に、潜在変数の変分分布の近似値
【数107】
[この文献は図面を表示できません]
は、この実施形態において具体的に限定されず、前回更新された潜在変数又は初期設定から取得された更新された潜在変数の変分分布の値を含むがこれに限定されない。理解を容易にするために、この実施形態では、例として、前回更新された潜在変数又は潜在変数の変分分布の近似値
【数108】
[この文献は図面を表示できません]
である初期設定から取得された更新された潜在変数、の変分分布の値を採用することによって説明する。正規化項を初めて決定する場合、潜在変数の変数分布の近似値は、初期設定から取得された更新された潜在変数の変数分布の値であってよい。正規化項を決定することが初めてではない場合、潜在変数の変数分布の近似値は、前回更新された潜在変数の変分分布の値であってよい。
【0061】
ここで、正規化項を決定することによって、決定されたリレーショナルモデルの複雑性が自動的に制御されてよいし、リレーショナルモデルを決定することの効率が改善されることに留意すべきである。
【0062】
任意の実施形態のように、サンプルデータ、少なくとも2つのサンプル属性のグループ、少なくとも2つの潜在変数のグループ、及びモデルパラメータに応じて決定される潜在変数の各々の変分分布の対数はlogq(Z)及びlogq(Z)であり、q(Z)は行の潜在変数Zの変分分布を示し、q(Z)は列の潜在変数Zの変分分布を示す。
【0063】
特に、Zの潜在変数の変分分布は下記のように表現されてよい。
【数109】
[この文献は図面を表示できません]
【0064】
の潜在変数の変分分布は下記のように表現されてよい。
【数110】
[この文献は図面を表示できません]
【0065】
ステップ202:対数尤度の期待値、正規化項の期待値、及び潜在変数の各々の変分分布の対数の期待値に応じて目的関数を決定すること。
【0066】
対数尤度は、ステップ201において因子化された表現として記載されている。対数尤度を解けるようにするにあたり、下記に示す因子化情報量基準(Factorized Information Criterion)(FIC)を一例とするタイトな下界(tight lower bound)を取得するために、各因子にラプラス近似が行われる。
【数111】
[この文献は図面を表示できません]
ここで、
【数112】
[この文献は図面を表示できません]
FICが最大の場合、
【数113】
[この文献は図面を表示できません]
はθの値を示す。
【0067】
更に、FICがサンプルデータ
【数114】
[この文献は図面を表示できません]
と潜在変数Z及びZとを含むため、解答は、通常、期待値最大化(EM)アルゴリズムを介して行われる。しかしながら、リレーショナルモデルは、従属潜在変数によって決定されるので、従来のEMアルゴリズムは、FICの解法に適用できない。FICを解けるようにするにあたり、この実施形態は、FICの漸近的に一様な下界を取得するために、下記に示すスケーリングFICの方法を採用する。
【数115】
[この文献は図面を表示できません]
ここで、
【数116】
[この文献は図面を表示できません]
関数はL(a,b)=logb+(a−b)/bである。
【0068】
任意の実施形態のように、対数尤度の期待値、正規化項の期待値、及び潜在変数の各々の変分分布の対数の期待値に応じて決定された目的関数
【数117】
[この文献は図面を表示できません]
は、
【数118】
[この文献は図面を表示できません]
である。
【0069】
更に、目的関数は、上記ステップによって決定される。目的関数を介してリレーショナル関数を決定するために、この実施形態に応じた方法は下記に示す後続のステップを更に含む。
【0070】
ステップ203:潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを取得すること。
【0071】
任意の実施形態のように、潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを取得することは、
目的関数の収束を可能にする潜在変数の各々の更新された変分分布を取得するまで、下記の式
【数119】
[この文献は図面を表示できません]
を使用することによって潜在変数の各々の変分分布を交互に更新することと、
更新されたモデルパラメータを取得するために下記の式
【数120】
[この文献は図面を表示できません]
tは現在の更新を示し、t−1は前回の更新又は初期設定を示す、
を使用することによって目的関数の収束を可能にする潜在変数の各々の更新された変分分布に応じてモデルパラメータを更新することと、
を含む。
【0072】
初期設定の方法は、この実施形態に限定されない。特定の実施例において、初期設定は、確率論的な方法によって行われてよい。即ち、α、β、φ、η及びξの値は、確率論的に初期設定される。しかし、上記の方法に加えて、他の方法も可能である。
【0073】
更に、現在の潜在変数Zの変分分布が計算されるときに前回の潜在変数Zの変分分布が使用されるように、目的関数の収束を可能にする潜在変数の各々の更新された変分分布が取得されるまで、潜在変数の各々の変分分布を交互に更新すること、即ち、潜在変数Zの変分分布と潜在変数Zの変分分布とを交互に更新することが必要とされる。潜在変数の各々の変分分布を収束する条件は、この実施形態において限定されない。特定の実施例において、行の潜在変数Zについて、行の潜在変数の現在の変分分布と行の潜在変数の前回の変分分布との間のユークリッド距離が計算されてもよい。計算されたユークリッド距離が距離の閾値より短い場合には、行の潜在変数の現在の変分分布が収束していると判別される。距離の閾値の値は、実際の状態に応じて設定されてよいが、この実施形態において限定されない。
【0074】
それにもかかわらず、潜在変数の各々の更新された変分分布が収束しているか否かを判別する方法に加え、更新回数を設定する方法において潜在変数の各々の収束された変分分布が取得されてもよい。この方法において、特定の実施例中、更新回数が更新回数の閾値に達した場合には、潜在変数の各々の変分分布が収束すると判別され、目的関数の収束を可能にする潜在変数の各々の更新された変分分布が取得される。更新回数の閾値の設定は、この実施形態において限定されない。
【0075】
任意の実施形態のように、潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを取得する上記方法に加え、この実施形態において提供される方法は(潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを取得する下記の方法に限定されないが)、
更新されたモデルパラメータを取得するために下記の式
【数121】
[この文献は図面を表示できません]
を使用することによってモデルパラメータを取得することと、
目的関数の収束を可能にする潜在変数の各々の更新された変分分布を取得するために下記の式
【数122】
[この文献は図面を表示できません]
ここで、tは現在の更新を示し、t−1は前回の更新又は初期設定を示す、
を使用することによって更新されたモデルパラメータに応じて潜在変数の各々の変分分布を交互に更新することと、
を更に含む。
【0076】
ステップ203において上記の式を使用することにより潜在変数の各々の更新された変分分布及び更新されたモデルパラメータが初めて取得された場合、t−1が初期設定を示すので、t−1に対応するパラメータは初期値である。例えば、ステップ203において潜在変数の各々の更新された変分分布及び更新されたモデルパラメータが初めて取得された場合、上記の式における
【数123】
[この文献は図面を表示できません]
はαの初期値を示し、
【数124】
[この文献は図面を表示できません]
はβの初期値を示す。なお、初期設定の方法はこの実施形態において限定されない。特定の実施例において、確率論的な初期設定の方法は、q(Z)及びq(Z)を初期化するために使用されてよい。それにもかかわらず、確率論的な初期設定の方法に加え、他の方法も可能であってよい。
【0077】
ステップ203において上記の式を使用することにより潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを取得することが初めてではない場合、t−1は前回の更新を示すので、t−1に対応するパラメータは前回更新された値である。例えば、ステップ203において潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを3回取得した場合、上記の式における
【数125】
[この文献は図面を表示できません]
は潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを2回取得した場合に取得されたαの値を示し、
【数126】
[この文献は図面を表示できません]
は潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを2回取得した場合に取得されたβの値を示す。
【0078】
更に、潜在変数の各々の変分分布が更新されたモデルパラメータに応じて更新された場合、目的関数の収束を可能にする潜在変数の各々の更新された変分分布が取得されるまで、潜在変数Zの変分分布と潜在変数Zの変分分布とを交互に更新することも必要とされる。
【0079】
加えて、特定の実施例において、行のサンプル成分の異なる数K及び列のサンプル成分の異なる数Kが設定されてよい。例えば、Kの最小値がKrminとして設定され、一方でKの最大値がKrmaxとして設定される。また、Kの最小値がKcminとして設定され、一方でKの最大値がKcmaxとして設定される。KとKの範囲内で、KとKの各値の組み合わせについて、潜在変数の各々の更新された変分分布及び更新されたモデルパラメータが取得される。
【0080】
潜在変数の各々の更新された変分分布及び更新されたモデルパラメータの取得時において、目的関数の収束を可能にする潜在変数の各々の更新された変分分布が取得されるまで、潜在変数の各々の変分分布が最初に交互に更新されてよいこと、及び、更新されたモデルパラメータを取得するために、モデルパラメータが潜在変数の各々の更新された変分分布に応じて更新されることに留意すべきである。又は、更新されたモデルパラメータを取得するためにモデルパラメータが最初に更新されてよいこと、及び、目的関数の収束を可能にする潜在変数の各々の更新された変分分布を取得するために、潜在変数の各々の変分分布が更新されたモデルパラメータに応じて交互に更新されることに留意すべきである。つまり、潜在変数の各々の変分分布とモデルパラメータの更新順序はこの実施形態において限定されない。
【0081】
ステップ204:潜在変数の各々の更新された変分分布及び更新されたモデルパラメータに応じて目的関数が収束するか否かを判別し、目的関数が収束しない場合には目的関数の収束を可能にする潜在変数の各々の変分分布及びモデルパラメータを取得するまで潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを再取得すること。
【0082】
特に、潜在変数の各々の更新された変分分布及び更新されたモデルパラメータに応じて目的関数が収束するか否かを判別することは、これに限定されないが、
潜在変数の各々の更新された変分分布及び更新されたモデルパラメータに応じて決定された目的関数と、潜在変数の各々の前回更新された変分分布及び前回更新されたモデルパラメータに応じて決定された前回取得された目的関数と、の間の距離が閾値より短いか否かを比較することと、
潜在変数の各々の更新された変分分布及び更新されたモデルパラメータに応じて決定された目的関数と前回取得された目的関数との間の距離が閾値より短い場合には目的関数が収束すると判別することと、
を含む。
【0083】
閾値の大きさはこの実施形態において限定されない。特定の実施例では、異なる閾値は、サンプルデータの容量に応じて設定されて構わない。目的関数は潜在変数の各々の更新された変分分布及び更新されたモデルパラメータによって決定されるので、目的関数は対数尤度に連続的に近似されてよい。目的関数が収束する場合、対数尤度の値は目的関数の値に近似されるので、解けない対数尤度は解ける対数尤度に変換されてよく、リレーショナルモデルの決定はこのように実現される。
【0084】
目的関数が収束しないと判別された場合、及び潜在変数の各々の更新された変分分布及び更新されたモデルパラメータが再取得される場合、処理はステップ203に戻り、ステップ203に記述された方法において潜在変数の各々の更新された変分分布及び更新されたモデルパラメータが再取得される。潜在変数の更新された変分分布及び更新されたモデルパラメータが初めて取得された場合、ステップ203の式においてt−1は初期値を示す。しかしながら、潜在変数の更新された変分分布及び更新されたモデルパラメータを再取得するためにステップ203に戻った場合、ステップ203の式においてt−1は前回の更新を示す。例えば、ステップ203の式を使用することにより潜在変数の更新された変分分布及び更新されたモデルパラメータが初めて取得された場合、上記の式におけるt−1に対応するパラメータは初期値であり、初めて取得された潜在変数の更新された変分分布及び更新されたモデルパラメータが取得される。初めて取得された潜在変数の更新された変分分布及び更新されたモデルパラメータが目的関数を収束させられない場合、初めて取得された潜在変数の更新された変分分布及び更新されたモデルパラメータは、ステップ203においてt−1に対応するパラメータの値として使用される。それから、潜在変数の更新された変分分布及び更新されたモデルパラメータが再取得され、再取得された潜在変数の更新された変分分布及び更新されたモデルパラメータが目的関数を収束させられるか否かが判断される。更新は、収束を可能にする潜在変数の各々の変分分布及びモデルパラメータが取得されるまでこのような方法で繰り返される。
【0085】
ステップ205:目的関数の収束を可能にする潜在変数の各々の変分分布及びモデルパラメータに応じてリレーショナルモデルを決定すること。
【0086】
このステップにおいて、収束時の目的関数の値が対数尤度に近似すると、目的関数の収束を可能にする潜在変数の各々の変分分布及びモデルパラメータに応じてリレーショナルモデルが決定されてよい。
【0087】
更に、行のサンプルカテゴリの異なる数K及び列のサンプルカテゴリの異なる数Kが設定されてよい。また、KとKの各値の組み合わせについて、潜在変数の各々の更新された変分分布及び更新されたモデルパラメータが取得されると、目的関数の最大値を可能にするKとKは、目的関数の収束を可能にすることに基づいて選択されてよい。更に、リレーショナルモデルは、KとKの使用により計算された潜在変数の各々の変分分布及びモデルパラメータに応じて決定される。
【0088】
行のサンプルカテゴリの値K及び列のサンプルカテゴリの値Kは、決定されたリレーショナルモデルにおける行のサンプルカテゴリの値及び列のサンプルカテゴリの値と同じであってもよいし、異なっていてもよいことに留意すべきである。つまり、リレーショナルモデルの構造は、リレーショナルモデルを決定する処理の間に自動的に調整されてよい。
【0089】
決定されたリレーショナルモデルは、データのクラスタリング及びデータのカテゴライゼーションに適用されてよい。決定されたリレーショナルモデルがデータのクラスタリングに適用された場合、リレーショナルモデルを決定する処理はクラスタリングデータの処理である。決定されたリレーショナルモデルがデータのカテゴライゼーションに適用された場合、リレーショナルモデルを決定するために更なる処理を行うことも必要とされる。データクラスタリング及びカテゴライゼーションの結果は顧客分析、生物分析、土地分析(geoanalysis)等に対して使用されてよいので、多くの社会的価値及び経済的価値が発生する。
【0090】
本開示のこの実施形態に応じた方法において、目的関数は、サンプルデータ、少なくとも2つのサンプル属性のグループ、少なくとも2つの潜在変数のグループ、及びモデルパラメータに応じて決定される対数尤度と、正規化項と、潜在変数の各々の変分分布の対数と、に応じて決定される。また、リレーショナルモデルは、目的関数の収束を可能にする潜在変数の各々の変分分布及びモデルパラメータに応じて決定される。この方法において、リレーショナルモデル決定の効率及び精度は改善される。更に、正規化項を使用することによってモデルの複雑性は自動的に制御されてよいので、モデル決定の効率は改善される。
【0091】
(実施形態3)
本開示の実施形態は、リレーショナルモデル決定用の装置を提供する。図3を参照すると、装置は、
サンプルデータ、少なくとも2つのサンプル属性のグループ、少なくとも2つの潜在変数のグループ、及びモデルパラメータに応じて決定される対数尤度と、正規化項と、潜在変数の各々の変分分布の対数と、を取得するように構成された取得モジュール301と、
対数尤度と、正規化項と、潜在変数の各々の変分分布の対数と、に応じて目的関数を決定するように構成された第1の決定モジュール302と、
目的関数の収束を可能にする潜在変数の各々の変分分布及びモデルパラメータを決定するように構成された第2の決定モジュール303と、
目的関数の収束を可能にする潜在変数の各々の変分分布及びモデルパラメータに応じてリレーショナルモデルを決定するように構成された第3の決定モジュール304と、
を備える。
【0092】
任意の実施形態のように、取得モジュール301によって取得される対数尤度は、
【数127】
[この文献は図面を表示できません]
であって、logp()は対数尤度を示し、pは同時確率密度関数を示し、
【数128】
[この文献は図面を表示できません]
はサンプルデータを示し、Nは行のサンプルの数を示し、Nは列のサンプルの数を示し、Aは行のサンプル属性のセットを示し、Aは列のサンプル属性のセットを示し、Zは行の潜在変数行列を示し、Zは列の潜在変数行列を示し、θはモデルパラメータのセットを示し、モデルパラメータはα、β、φ、η、ξを含み、α、βはそれぞれ行と列の混合比であり、φは各サンプルカテゴリにおけるサブモデルパラメータを示し、ηは各サンプルカテゴリにおける行のサンプル属性のモデルパラメータを示し、ξは各サンプルカテゴリにおける列のサンプル属性のモデルパラメータを示す。
【0093】
任意の実施形態のように、取得モジュール301によって取得される正規化項は、
【数129】
[この文献は図面を表示できません]
であって、Nは行のサンプルの数を示し、Nは列のサンプルの数を示し、Kは行のサンプルカテゴリの数を示し、Kは列のサンプルカテゴリの数を示し、
【数130】
[この文献は図面を表示できません]
は潜在変数の変分分布の近似値を示し、
【数131】
[この文献は図面を表示できません]
は第p行のサンプルカテゴリに対する第i行のサンプルデータの会員を記述するための行の潜在変数を示し、
【数132】
[この文献は図面を表示できません]
は第q列のサンプルカテゴリに対する第j列のサンプルデータの会員を記述するための列の潜在変数を示し、αとβはそれぞれ行と列の混合比であり、Dαはαの次元を示し、Dβはβの次元を示し、Dpqは第p行第q列のサンプルカテゴリにおけるサブモデルパラメータの次元を示し、ηは第p行のサンプルカテゴリにおける行のサンプル属性のモデルパラメータを示し、
【数133】
[この文献は図面を表示できません]
はηの次元を示し、ξは第q列のサンプルカテゴリにおける列のサンプル属性のモデルパラメータを示し、
【数134】
[この文献は図面を表示できません]
はξの次元を示し、L(a,b)=logb+(a−b)/bであり、
【数135】
[この文献は図面を表示できません]
においてaは
【数136】
[この文献は図面を表示できません]
を示し、bは
【数137】
[この文献は図面を表示できません]
を示し、
【数138】
[この文献は図面を表示できません]
においてaは
【数139】
[この文献は図面を表示できません]
を示し、bは
【数140】
[この文献は図面を表示できません]
を示し、
【数141】
[この文献は図面を表示できません]
においてaは
【数142】
[この文献は図面を表示できません]
を示し、bは
【数143】
[この文献は図面を表示できません]
を示す。
【0094】
任意の実施形態のように、取得モジュール301によって取得される潜在変数の各々の変分分布の対数はlogq(Z)及びlogq(Z)であり、q(Z)は行の潜在変数Zの変分分布を示し、q(Z)は列の潜在変数Zの変分分布を示す。
【0095】
任意の実施形態のように、第1の決定モジュール302によって決定された目的関数
【数144】
[この文献は図面を表示できません]
は、
【数145】
[この文献は図面を表示できません]
である。
【0096】
任意の実施形態のように、図4を参照すると、第2の決定モジュール303は、
潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを取得するように構成された取得ユニット3031と、
潜在変数の各々の更新された変分分布及び更新されたモデルパラメータに応じて目的関数が収束するか否かを判別するように構成された判別ユニット3032と、
を含み、
取得ユニット3031は、目的関数が収束しない場合には目的関数の収束を可能にする潜在変数の各々の変分分布及びモデルパラメータを取得するまで潜在変数の各々の変分分布及び更新されたモデルパラメータを再取得するように構成されている。
【0097】
任意の実施形態のように、図5を参照すると、取得ユニット3031は、
目的関数の収束を可能にする潜在変数の各々の更新された変分分布を取得するまで、下記の式
【数146】
[この文献は図面を表示できません]
を使用することによって潜在変数の各々の変分分布を交互に更新するように構成された第1の更新サブユニット30311と、
更新されたモデルパラメータを取得するために下記の式
【数147】
[この文献は図面を表示できません]
tは現在の更新を示し、t−1は前回の更新又は初期設定を示す、
を使用することによって目的関数の収束を可能にする潜在変数の各々の更新された変分分布に応じてモデルパラメータを更新するように構成された第2の更新サブユニット30312と、
を含む。
【0098】
任意の実施形態のように、図6を参照すると、取得ユニット3031は、
更新されたモデルパラメータを取得するために下記の式
【数148】
[この文献は図面を表示できません]
を使用することによってモデルパラメータを更新するように構成された第3の更新サブユニット30313と、
目的関数の収束を可能にする潜在変数の各々の更新された変分分布を取得するために下記の式
【数149】
[この文献は図面を表示できません]
ここで、tは現在の更新を示し、t−1は前回の更新又は初期設定を示す、
を使用することによって更新されたモデルパラメータに応じて潜在変数の各々の変分分布を交互に更新するように構成された第4の更新サブユニット30314と、
を含む。
【0099】
任意の実施形態のように、図7を参照すると、判別ユニット3032は、
潜在変数の各々の更新された変分分布及び更新されたモデルパラメータに応じて決定された目的関数と、潜在変数の各々の前回更新された変分分布及び前回更新されたモデルパラメータに応じて決定された前回取得された目的関数と、の間の距離が閾値より短いか否かを比較するように構成された比較サブユニット30321と、
潜在変数の各々の更新された変分分布及び更新されたモデルパラメータに応じて決定された目的関数と前回取得された目的関数との間の距離が閾値より短い場合には目的関数が収束すると判別するように構成された判別サブユニット30322と、
を含む。
【0100】
結論として、本開示の実施形態に応じた装置において、目的関数は、サンプルデータ、少なくとも2つのサンプル属性のグループ、少なくとも2つの潜在変数のグループ、及びモデルパラメータに応じて決定される対数尤度と、正規化項と、潜在変数の各々の変分分布の対数と、に応じて決定される。また、リレーショナルモデルは、目的関数の収束を可能にする潜在変数の各々の変分分布及びモデルパラメータに応じて決定される。この方法において、リレーショナルモデル決定の効率及び精度は改善される。更に、正規化項を使用することによってモデルの複雑性は自動的に制御されてよいので、モデル決定の効率は改善される。
【0101】
上記実施形態によって提供されるリレーショナルモデル決定用の装置がリレーショナルモデルを決定する場合における上記全ての機能モジュールの分割は例にすぎないことに留意すべきである。実際には、上記機能は必要に応じて異なる機能モジュールに分散されていてよい、即ち、装置の内部構造は上述の全て又は一部の機能を実施するために異なる機能モジュールに分割されていてよい。加えて、上記実施形態において提供されるリレーショナルモデル決定用の装置及びリレーショナルモデル決定用の方法は同一の思想であり、装置の具体的な実施処理は方法の実施形態を参照するが、ここでは繰り返さない。
【0102】
本開示の上記実施形態の連番は単に説明の目的で提供されたものにすぎず、実施形態の優先度を示すものではない。
【0103】
当業者は、前述の方法のステップの全部又は一部がハードウェア又は関連付けられたハードウェアに指示するプログラムによって実行されてよいことを理解すべきである。プログラムは、コンピュータ読み取り可能な記録媒体に格納されてよい。記録媒体は、読み出し専用メモリ、磁気ディスク、光ディスク等であってよい。
【0104】
上記は、単に本開示の好ましい実施形態であって、本発明を限定するものではない。本開示の精神及び原理から逸脱することなく行われる種々の修正、同等の置換、又は改良は、本発明の保護範囲内に含まれるべきである。
【0105】
(付記1)
サンプルデータ、少なくとも2つのサンプル属性のグループ、少なくとも2つの潜在変数のグループ、及びモデルパラメータに応じて決定される対数尤度と、正規化項と、前記潜在変数の各々の変分分布の対数と、を取得することと、
前記対数尤度と、前記正規化項と、前記潜在変数の各々の前記変分分布の対数と、に応じて目的関数を決定することと、
前記目的関数の収束を可能にする前記潜在変数の各々の変分分布及びモデルパラメータを決定し、前記目的関数の収束を可能にする前記潜在変数の各々の前記変分分布及び前記モデルパラメータに応じてリレーショナルモデルを決定することと、
を備えるリレーショナルモデル決定用の方法。
【0106】
(付記2)
前記サンプルデータ、前記少なくとも2つのサンプル属性のグループ、前記少なくとも2つの潜在変数のグループ、及び前記モデルパラメータに応じて決定される前記対数尤度は、
【数150】
[この文献は図面を表示できません]
であって、logp()は前記対数尤度を示し、pは同時確率密度関数を示し、
【数151】
[この文献は図面を表示できません]
は前記サンプルデータを示し、Nは行のサンプルの数を示し、Nは列のサンプルの数を示し、Aは行のサンプル属性のセットを示し、Aは列のサンプル属性のセットを示し、Zは行の潜在変数行列を示し、Zは列の潜在変数行列を示し、θはモデルパラメータのセットを示し、前記モデルパラメータはα、β、φ、η、ξを含み、α、βはそれぞれ行と列の混合比であり、φは各サンプルカテゴリにおけるサブモデルパラメータを示し、ηは各サンプルカテゴリにおける行のサンプル属性の前記モデルパラメータを示し、ξは各サンプルカテゴリにおける列のサンプル属性の前記モデルパラメータを示す、
付記1に記載の方法。
【0107】
(付記3)
前記サンプルデータ、前記少なくとも2つのサンプル属性のグループ、前記少なくとも2つの潜在変数のグループ、及び前記モデルパラメータに応じて決定される前記正規化項は、
【数152】
[この文献は図面を表示できません]
であって、Nは行のサンプルの数を示し、Nは列のサンプルの数を示し、Kは行のサンプルカテゴリの数を示し、Kは列のサンプルカテゴリの数を示し、
【数153】
[この文献は図面を表示できません]
は前記潜在変数の前記変分分布の近似値を示し、
【数154】
[この文献は図面を表示できません]
は第p行のサンプルカテゴリに対する第i行のサンプルデータの会員を記述するための行の潜在変数を示し、
【数155】
[この文献は図面を表示できません]
は第q列のサンプルカテゴリに対する第j列のサンプルデータの会員を記述するための列の潜在変数を示し、αとβはそれぞれ行と列の混合比であり、Dαはαの次元を示し、Dβはβの次元を示し、Dpqは第p行第q列のサンプルカテゴリにおけるサブモデルパラメータの次元を示し、ηは第p行のサンプルカテゴリにおける行のサンプル属性の前記モデルパラメータを示し、
【数156】
[この文献は図面を表示できません]
はηの次元を示し、ξは第q列のサンプルカテゴリにおける列のサンプル属性の前記モデルパラメータを示し、
【数157】
[この文献は図面を表示できません]
はξの次元を示し、L(a,b)=logb+(a−b)/bであり、
【数158】
[この文献は図面を表示できません]
においてaは
【数159】
[この文献は図面を表示できません]
を示し、bは
【数160】
[この文献は図面を表示できません]
を示し、
【数161】
[この文献は図面を表示できません]
においてaは
【数162】
[この文献は図面を表示できません]
を示し、bは
【数163】
[この文献は図面を表示できません]
を示し、
【数164】
[この文献は図面を表示できません]
においてaは
【数165】
[この文献は図面を表示できません]
を示し、bは
【数166】
[この文献は図面を表示できません]
を示す、
付記1に記載の方法。
【0108】
(付記4)
前記サンプルデータ、前記少なくとも2つのサンプル属性のグループ、前記少なくとも2つの潜在変数のグループ、及び前記モデルパラメータに応じて決定される前記潜在変数の各々の前記変分分布の対数はlogq(Z)及びlogq(Z)であり、q(Z)は行の潜在変数Zの前記変分分布を示し、q(Z)は列の潜在変数Zの前記変分分布を示す付記1に記載の方法。
【0109】
(付記5)
前記対数尤度と、前記正規化項と、前記潜在変数の各々の前記変分分布の対数と、に応じて目的関数を決定するステップは、前記対数尤度の期待値、前記正規化項の期待値及び前記潜在変数の各々の前記変分分布の対数の期待値に応じて前記目的関数を決定することを含む付記1乃至4の何れかに記載の方法。
【0110】
(付記6)
前記対数尤度の期待値、前記正規化項の期待値、及び前記潜在変数の各々の前記変分分布の対数の期待値に応じて決定された前記目的関数
【数167】
[この文献は図面を表示できません]
は、
【数168】
[この文献は図面を表示できません]
である付記5に記載の方法。
【0111】
(付記7)
前記目的関数の収束を可能にする前記潜在変数の各々の変分分布及びモデルパラメータを決定するステップは、
前記潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを取得することと、
前記潜在変数の各々の前記更新された変分分布及び前記更新されたモデルパラメータに応じて前記目的関数が収束するか否かを判別し、前記目的関数が収束しない場合には前記目的関数の収束を可能にする前記潜在変数の各々の前記変分分布及び前記更新されたモデルパラメータを取得するまで前記潜在変数の各々の前記更新された変分分布及び前記更新されたモデルパラメータを再取得することと、
を含む付記6に記載の方法。
【0112】
(付記8)
前記潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを取得するステップは、
前記目的関数の収束を可能にする前記潜在変数の各々の更新された変分分布を取得するまで、下記の式
【数169】
[この文献は図面を表示できません]
を使用することによって前記潜在変数の各々の前記変分分布を交互に更新することと、
更新されたモデルパラメータを取得するために下記の式
【数170】
[この文献は図面を表示できません]
ここで、
【数171】
[この文献は図面を表示できません]
tは現在の更新を示し、t−1は前回の更新又は初期設定を示す、
を使用することによって前記目的関数の収束を可能にする前記潜在変数の各々の前記更新された変分分布に応じて前記モデルパラメータを更新することと、
を含む付記7に記載の方法。
【0113】
(付記9)
前記潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを取得するステップは、
前記更新されたモデルパラメータを取得するために下記の式
【数172】
[この文献は図面を表示できません]
ここで、
【数173】
[この文献は図面を表示できません]
を使用することによって前記モデルパラメータを更新することと、
前記目的関数の収束を可能にする前記潜在変数の各々の更新された変分分布を取得するために下記の式
【数174】
[この文献は図面を表示できません]
ここで、tは現在の更新を示し、t−1は前回の更新又は初期設定を示す、
を使用することによって前記更新されたモデルパラメータに応じて前記潜在変数の各々の前記変分分布を交互に更新することと、
を含む付記7に記載の方法。
【0114】
(付記10)
前記潜在変数の各々の前記更新された変分分布及び前記更新されたモデルパラメータに応じて前記目的関数が収束するか否かを判別するステップは、
前記潜在変数の各々の前記更新された変分分布及び前記更新されたモデルパラメータに応じて決定された前記目的関数と、前記潜在変数の各々の前回更新された変分分布及び前回更新されたモデルパラメータに応じて決定された前回取得された目的関数と、の間の距離が閾値より短いか否かを比較することと、
前記潜在変数の各々の前記更新された変分分布及び前記更新されたモデルパラメータに応じて決定された前記目的関数と前記前回取得された目的関数との間の距離が前記閾値より短い場合には前記目的関数が収束すると判別することと、
を含む付記7乃至9の何れかに記載の方法。
【0115】
(付記11)
サンプルデータ、少なくとも2つのサンプル属性のグループ、少なくとも2つの潜在変数のグループ、及びモデルパラメータに応じて決定される対数尤度と、正規化項と、前記潜在変数の各々の変分分布の対数と、を取得するように構成された取得モジュールと、
前記対数尤度と、前記正規化項と、前記潜在変数の各々の前記変分分布の対数と、に応じて目的関数を決定するように構成された第1の決定モジュールと、
前記目的関数の収束を可能にする前記潜在変数の各々の変分分布及びモデルパラメータを決定するように構成された第2の決定モジュールと、
前記目的関数の収束を可能にする前記潜在変数の各々の前記変分分布及び前記モデルパラメータに応じてリレーショナルモデルを決定するように構成された第3の決定モジュールと、
を備えるリレーショナルモデル決定用の装置。
【0116】
(付記12)
前記取得モジュールによって取得される前記対数尤度は、
【数175】
[この文献は図面を表示できません]
であって、logp()は前記対数尤度を示し、pは同時確率密度関数を示し、
【数176】
[この文献は図面を表示できません]
は前記サンプルデータを示し、Nは行のサンプルの数を示し、Nは列のサンプルの数を示し、Aは行のサンプル属性のセットを示し、Aは列のサンプル属性のセットを示し、Zは行の潜在変数行列を示し、Zは列の潜在変数行列を示し、θはモデルパラメータのセットを示し、前記モデルパラメータはα、β、φ、η、ξを含み、α、βはそれぞれ行と列の混合比であり、φは各サンプルカテゴリにおけるサブモデルパラメータを示し、ηは各サンプルカテゴリにおける行のサンプル属性の前記モデルパラメータを示し、ξは各サンプルカテゴリにおける列のサンプル属性の前記モデルパラメータを示す、
付記11に記載の装置。
【0117】
(付記13)
前記取得モジュールによって取得される前記正規化項は、
【数177】
[この文献は図面を表示できません]
であって、Nは行のサンプルの数を示し、Nは列のサンプルの数を示し、Kは行のサンプルカテゴリの数を示し、Kは列のサンプルカテゴリの数を示し、
【数178】
[この文献は図面を表示できません]
は前記潜在変数の前記変分分布の近似値を示し、
【数179】
[この文献は図面を表示できません]
は第p行のサンプルカテゴリに対する第i行のサンプルデータの会員を記述するための行の潜在変数を示し、
【数180】
[この文献は図面を表示できません]
は第q列のサンプルカテゴリに対する第j列のサンプルデータの会員を記述するための列の潜在変数を示し、αとβはそれぞれ行と列の混合比であり、Dαはαの次元を示し、Dβはβの次元を示し、Dpqは第p行第q列のサンプルカテゴリにおけるサブモデルパラメータの次元を示し、ηは第p行のサンプルカテゴリにおける行のサンプル属性の前記モデルパラメータを示し、
【数181】
[この文献は図面を表示できません]
はηの次元を示し、ξは第q列のサンプルカテゴリにおける列のサンプル属性の前記モデルパラメータを示し、
【数182】
[この文献は図面を表示できません]
はξの次元を示し、L(a,b)=logb+(a−b)/bであり、
【数183】
[この文献は図面を表示できません]
においてaは
【数184】
[この文献は図面を表示できません]
を示し、bは
【数185】
[この文献は図面を表示できません]
を示し、
【数186】
[この文献は図面を表示できません]
においてaは
【数187】
[この文献は図面を表示できません]
を示し、bは
【数188】
[この文献は図面を表示できません]
を示し、
【数189】
[この文献は図面を表示できません]
においてaは
【数190】
[この文献は図面を表示できません]
を示し、bは
【数191】
[この文献は図面を表示できません]
を示す、
付記11に記載の装置。
【0118】
(付記14)
前記取得モジュールによって取得される前記潜在変数の各々の前記変分分布の対数はlogq(Z)及びlogq(Z)であり、q(Z)は行の潜在変数Zの前記変分分布を示し、q(Z)は列の潜在変数Zの前記変分分布を示す付記11に記載の装置。
【0119】
(付記15)
前記第1の決定モジュールは、前記対数尤度の期待値、前記正規化項の期待値、及び前記潜在変数の各々の前記変分分布の対数の期待値に応じて目的関数を決定するように構成されている付記11乃至14の何れかに記載の装置。
【0120】
(付記16)
前記第1の決定モジュールによって決定された前記目的関数
【数192】
[この文献は図面を表示できません]
は、
【数193】
[この文献は図面を表示できません]
である付記15に記載の装置。
【0121】
(付記17)
前記第2の決定モジュールは、
前記潜在変数の各々の更新された変分分布及び更新されたモデルパラメータを取得するように構成された取得ユニットと、
前記潜在変数の各々の前記更新された変分分布及び前記更新されたモデルパラメータに応じて前記目的関数が収束するか否かを判別するように構成された判別ユニットと、
を含み、
前記取得ユニットは、前記目的関数が収束しない場合には前記目的関数の収束を可能にする前記潜在変数の各々の変分分布及びモデルパラメータを取得するまで前記潜在変数の各々の前記変分分布及び前記更新されたモデルパラメータを再取得するように構成されている、
付記16に記載の装置。
【0122】
(付記18)
前記取得ユニットは、
前記目的関数の収束を可能にする前記潜在変数の各々の更新された変分分布を取得するまで、下記の式
【数194】
[この文献は図面を表示できません]
を使用することによって前記潜在変数の各々の前記変分分布を交互に更新するように構成された第1の更新サブユニットと、
更新されたモデルパラメータを取得するために下記の式
【数195】
[この文献は図面を表示できません]
ここで、
【数196】
[この文献は図面を表示できません]
tは現在の更新を示し、t−1は前回の更新又は初期設定を示す、
を使用することによって前記目的関数の収束を可能にする前記潜在変数の各々の前記更新された変分分布に応じて前記モデルパラメータを更新するように構成された第2の更新サブユニットと、
を含む付記17に記載の装置。
【0123】
(付記19)
前記取得ユニットは、
前記更新されたモデルパラメータを取得するために下記の式
【数197】
[この文献は図面を表示できません]
ここで、
【数198】
[この文献は図面を表示できません]
を使用することによって前記モデルパラメータを更新するように構成された第3の更新サブユニットと、
前記目的関数の収束を可能にする前記潜在変数の各々の更新された変分分布を取得するために下記の式
【数199】
[この文献は図面を表示できません]
ここで、tは現在の更新を示し、t−1は前回の更新又は初期設定を示す、
を使用することによって前記更新されたモデルパラメータに応じて前記潜在変数の各々の前記変分分布を交互に更新するように構成された第4の更新サブユニットと、
を含む付記17に記載の装置。
【0124】
(付記20)
前記判別ユニットは、
前記潜在変数の各々の前記更新された変分分布及び前記更新されたモデルパラメータに応じて決定された前記目的関数と、前記潜在変数の各々の前回更新された変分分布及び前回更新されたモデルパラメータに応じて決定された前回取得された目的関数と、の間の距離が閾値より短いか否かを比較するように構成された比較サブユニットと、
前記潜在変数の各々の前記更新された変分分布及び前記更新されたモデルパラメータに応じて決定された前記目的関数と前記前回取得された目的関数との間の距離が前記閾値より短い場合には前記目的関数が収束すると判別するように構成された判別サブユニットと、
を含む付記17乃至19の何れかに記載の装置。
図1
[この文献は図面を表示できません]
図2
[この文献は図面を表示できません]
図3
[この文献は図面を表示できません]
図4
[この文献は図面を表示できません]
図5
[この文献は図面を表示できません]
図6
[この文献は図面を表示できません]
図7
[この文献は図面を表示できません]