特開2023-169993 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2023-169993探索プログラム、情報処理装置および探索方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13A
13B
13C
14
15A
15B
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023169993

(43)【公開日】2023-12-01

(54)【発明の名称】探索プログラム、情報処理装置および探索方法

(51)【国際特許分類】

G06F 17/15 20060101AFI20231124BHJP

【ＦＩ】

G06F17/15

【審査請求】未請求

【請求項の数】4

【出願形態】ＯＬ

(21)【出願番号】P 2022081396

(22)【出願日】2022-05-18

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】栗原康志

(72)【発明者】

【氏名】川上健太郎

【テーマコード（参考）】

5B056

【Ｆターム（参考）】

5B056BB23

(57)【要約】

【課題】相関が現れる条件を採用する場合に用いられる相関係数を効率的に算出する。
【解決手段】情報処理装置１は、相関係数が閾値を超える属性ペアがｎ（ｎは自然数）個以上あるサンプルデータ群を抽出できる条件の組み合わせの探索において、条件の組み合わせの数が、並列化できる数以上であれば、並列化できる数分のプレディケートレジスタを用いたＳＩＭＤ化処理に加えて、並列化できる数分の前記条件の組み合わせの処理を並列化して、条件の組み合わせごとの複数の属性ペアの相関係数を算出する。そして、情報処理装置１は、条件の組み合わせごとの複数の属性ペアのそれぞれの相関係数を用いて、相関係数が閾値を超える属性ペアがｎ個以上ある条件の組み合わせを探索する。
【選択図】図１

【特許請求の範囲】

【請求項1】

相関係数が閾値を超える属性ペアがｎ（ｎは自然数）個以上あるサンプルデータ群を抽出できる条件の組み合わせの探索において、前記条件の組み合わせの数が、並列化できる数以上であれば、前記並列化できる数分のプレディケートレジスタを用いたＳＩＭＤ化処理に加えて、前記並列化できる数分の前記条件の組み合わせの処理を並列化して、前記条件の組み合わせごとの複数の属性ペアの相関係数を算出し、
前記条件の組み合わせごとの複数の属性ペアのそれぞれの相関係数を用いて、相関係数が閾値を超える属性ペアがｎ個以上ある条件の組み合わせを探索する
処理をコンピュータに実行させる探索プログラム。

【請求項2】

該算出する処理は、前記条件の組み合わせの数が、並列化できる数未満であれば、前記プレディケートレジスタを用いたＳＩＭＤ化処理に加えて、１つの前記条件の組み合わせの処理を複数単位に展開するアンローリング処理で、前記条件の組み合わせごとの複数の属性ペアの相関係数を算出する
ことを特徴とする請求項１に記載の探索プログラム。

【請求項3】

相関係数が閾値を超える属性ペアがｎ（ｎは自然数）個以上あるサンプルデータ群を抽出できる条件の組み合わせの探索において、前記条件の組み合わせの数が、並列化できる数以上であれば、前記並列化できる数分のプレディケートレジスタを用いたＳＩＭＤ化処理に加えて、前記並列化できる数分の前記条件の組み合わせの処理を並列化して、前記条件の組み合わせごとの複数の属性ペアの相関係数を算出する算出部と、
前記条件の組み合わせごとの複数の属性ペアのそれぞれの相関係数を用いて、相関係数が閾値を超える属性ペアがｎ個以上ある条件の組み合わせを探索する探索部と、
を有することを特徴とする情報処理装置。

【請求項4】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、探索プログラムなどに関する。

【背景技術】

【0002】

近年、相関関係を持つ条件の抽出により、因果探索すべき条件の数を効率的に絞り込む研究がなされている。図１７は、統計的因果探索のための条件抽出を示す参考図である。図１７に示すように、かかる技術では、ＡＩに学習させるための過去のデータから相関関係を持つデータの条件候補をすべて抽出する。そして、当該技術では、抽出したデータの条件候補から因果関係をもつデータの条件をすべて抽出する。ところが、当該技術では、すべてのデータの条件候補に対して因果関係を探索するが、計算量の観点から非現実的であるという問題がある。

【0003】

そこで、条件の探索対象を、因果関係から相関関係に緩和することで、因果探索すべき条件の数を効率的に絞り込む技術が開示されている（例えば、非特許文献）。図１８は、個々の特徴的な因果関係を発見する技術を示す参考図である。図１８に示すように、かかる技術では、まず、顕在パターン発見技術を用いて、過去のサンプル集合から、特定の条件下で目的変数と強い相関を持つ重要因子候補と、その時の条件との組を網羅的に求める。なお、過去のサンプル集合は、閾値に基づき２値化した後に使用される。

【0004】

その後、求めた条件それぞれに対して、因果探索技術を用いて、その条件下での重要因子候補が正しく重要因子であるかを判定する。例えば、「ｘ１∧ｘ３∧ｘ４→ｙ」（ｘ１＝ｘ３＝ｘ４＝１ならばｙ＝１）がある場合とする。かかる場合には、左辺から選んだ１変数を「重要因子の候補」、残りを「条件」とする。ここでは、ｘ４が「重要因子の候補」、残りの「ｘ１∧ｘ３」が「条件」を示すとする。かかる技術では、「条件」を満たす過去のサンプル集合の中で「重要因子の候補」と右辺のｙとに高い相関があれば、その「条件」を採用する。このように求めた条件と重要因子は、ＤＢ（DataBase）に保持される。そして、適用時には、因果関係を知りたいサンプルに対して、そのサンプルが満たす条件をＤＢから選択し、対応する重要因子を提示する。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特表２０１６－５３７７２３号公報

【非特許文献】

【0006】

【非特許文献1】小柳祐介，他４名，“個々の特徴的な因果関係を発見する技術の開発とマーケティングデータへの適用”，人工知能学会第１８回ビジネスインフォマティクス研究会，2021年3月，＜URL:http://sig-bi.jp/doc/18thSIG-BI2021/18thSIG-BI2021 paper13.pdf＞

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかしながら、過去のサンプル集合を抽出するための条件を採用する場合に、「重要因子の候補」と右辺のｙとの間で相関係数を算出するが、相関係数を効率的に算出することが求められている。

【0008】

本発明は、１つの側面では、相関が現れる条件を採用する場合に用いられる相関係数を効率的に算出することを目的とする。

【課題を解決するための手段】

【0009】

１つの態様では、探索プログラムが、相関係数が閾値を超える属性ペアがｎ（ｎは自然数）個以上あるサンプルデータ群を抽出できる条件の組み合わせの探索において、条件の組み合わせ数が、並列化できる数以上であれば、前記並列化できる数分のプレディケートレジスタを用いたＳＩＭＤ化処理に加えて、１条件の組み合わせの処理を１単位とした並列化処理で、条件の組み合わせごとの複数の属性ペアの相関係数を算出し、条件の組み合わせごとの複数の属性ペアのそれぞれの相関係数を用いて、相関係数が閾値を超える属性ペアがｎ個以上ある条件の組み合わせを探索する、処理をコンピュータに実行させる。

【発明の効果】

【0010】

１実施態様によれば、相関が現れる条件を採用する場合に用いられる相関係数を効率的に算出することができる。

【図面の簡単な説明】

【0011】

【図1】図１は、実施例に係る情報処理装置の構成を示す機能ブロック図である。

【図2】図２は、ＳＩＭＤ処理化を説明する図である。

【図3】図３は、ＳＩＭＤ化処理のｓｕｍ計算の疑似コードの一例を示す図である。

【図4】図４は、ＳＩＭＤ化処理を適用した場合の相関係数算出処理のフローチャートの一例を示す図である。

【図5】図５は、実施例に係るストリーム処理のイメージを説明する図である。

【図6】図６は、実施例に係るストリーム処理のｓｕｍ計算の疑似コードの一例を示す図である。

【図7】図７は、実施例に係るアンローリング処理のイメージを説明する図である。

【図8】図８は、実施例に係るアンローリング処理のｓｕｍ計算の疑似コードの一例を示す図である。

【図9】図９は、実施例に係る探索処理のフローチャートの一例を示す図である。

【図10】図１０は、実施例に係るストリーム処理を適用した場合の相関係数算出処理のフローチャートの一例を示す図である。

【図11】図１１は、実施例に係るアンローリング処理を適用した場合の相関係数算出処理のフローチャートの一例を示す図である。

【図12】図１２は、探索プログラムを実行するコンピュータの一例を示す図である。

【図13A】図１３Ａは、条件の組み合わせの探索方法を説明する参考図（１）である。

【図13B】図１３Ｂは、条件の組み合わせの探索方法を説明する参考図（２）である。

【図13C】図１３Ｃは、条件の組み合わせの探索方法を説明する参考図（３）である。

【図14】図１４は、相関係数算出処理の疑似コードを示す参考図である。

【図15A】図１５Ａは、相関係数算出処理の補足を示す参考図（１）である。

【図15B】図１５Ｂは、相関係数算出処理の補足を示す参考図（２）である。

【図16】図１６は、相関係数算出処理の処理フローを示す参考図である。

【図17】図１７は、統計的因果探索のための条件抽出を示す参考図である。

【図18】図１８は、個々の特徴的な因果関係を発見する技術を示す参考図である。

【発明を実施するための形態】

【0012】

以下に、本願の開示する探索プログラム、情報処理装置および探索方法の実施例を図面に基づいて詳細に説明する。なお、本発明は、実施例により限定されるものではない。

【実施例0013】

まず、個々のサンプルに関して観測した複数属性のサンプルデータ群が存在する場合に、相関係数が閾値を超える属性ペアがｎ個以上となるようなサンプル集合を抽出できる条件の項目の組み合わせを探索することを考える。図１３Ａ～図１３Ｃは、条件の組み合わせの探索方法を説明する参考図である。

【0014】

図１３Ａ左図には、観測値リストが表わされている。観測値リストは、サンプルｉｄに対して観測した複数の観測値（属性）の数値データ群を記憶したリストである。図１３Ａ右図には、条件リストが表わされている。条件リストは、「相関関係を持つ属性ペアを有する」サンプル集合を抽出するための条件のリストである。条件は、例えば、観測値（属性）から生成されるが、これに限定されるものではない。条件は、網羅的な探索を目的とするため、１つの条件に対し、ｎｏｔ条件が含まれる。ここでは、１つの条件が「年齢＜２０」である場合に、ｎｏｔ条件として「！（年齢＜２０）」が記憶される。

【0015】

図１３Ｂに示すように、条件の組み合わせは、条件リストの中の全条件からｋ個抜き出して作成される。ここでは、ｋが「２」の場合であり、条件の組み合わせは、「年齢＜２０」と「！（体重＜５０）」との論理積を示す「（年齢＜２０）ａｎｄ（！（体重＜５０））」である。探索処理は、組み合わせた条件が全て「１」であるサンプルデータ群を抽出する。すなわち、探索処理は、「（年齢＜２０）ａｎｄ（！（体重＜５０））」の条件を満たすサンプルデータ群を抽出する。

【0016】

図１３Ｃには、抽出されたサンプルデータ群が表わされている。探索処理は、抽出したサンプルデータ群から２つの属性を抜き出して、抜き出した属性ペアに対する相関係数を計算する。例えば、年齢属性と体重属性が抜き出され、年齢－体重間の相関係数が計算される。年齢属性と身長属性が抜き出され、年齢－身長間の相関係数が計算される。そして、探索処理は、相関係数が閾値を超える属性ペアがｎ個以上あるなどの判定を行い、判定を満たす場合に抽出に使用した条件の組み合わせを保存する。ここでは、判定を満たす１つの条件は、「（年齢＜２０）ａｎｄ（！（体重＜５０））」となる。

【0017】

条件の組み合わせの探索は、全条件の数をｄｘ、組み合わされる数をｋとすると、_ｄｘＣ_ｋパターンの回数分実施される。全条件の数ｄｘや組み合わされる数ｋが大きくなると、条件の組み合わせの探索は、爆発的に増加してしまう。すなわち、探索処理は、それぞれの条件の組み合わせについて、条件を満たすサンプルデータ群を抽出し、抽出したサンプルデータ群の属性ペア間の相関係数を算出する。そして、探索処理は、相関係数が閾値を超える属性ペアがｎ個以上ある条件の組み合わせを探索する。このため、大規模な全条件の数ｄｘに対応するために、探索処理の並列化や各演算の処理の高速化が不可欠である。

【0018】

探索処理において、抽出したサンプルデータ群の属性ペアの相関係数を算出する処理が非常に時間を要する。相関係数算出処理は、２つの属性Ｙ_１、Ｙ_２に関して相関係数を算出する場合、以下の式（１）～（４）を用いて相関係数Ｒ_ｙ１２を算出する。なお、Ｙ_１,ｉは、抽出されたサンプルデータ群の中のサンプルｉｄがｉである属性Ｙ_１のデータを意味する。Ｙ_2,ｉは、抽出されたサンプルデータ群の中のサンプルｉｄがｉである属性Ｙ_２のデータを意味する。Ｙ_１ａｖｅは、抽出されたサンプルデータ群の中の属性Ｙ_１に対応するデータの平均値である。Ｙ_２ａｖｅは、抽出されたサンプルデータ群の中の属性Ｙ_２に対応するデータの平均値である。

【数1】

【数2】

【数3】

【数4】

【0019】

１つの条件の組み合わせを探索する際に、属性の数をｄｙとすると、相関係数算出処理は、かかる式（１）～式（４）を_ｄｙＣ_２回実施することになる。

【0020】

ここで、相関係数算出処理の疑似コードを、図１４に示す。図１４は、相関係数算出処理の疑似コードを示す参考図である。図１４に示すｙ１＿ａｖｅがＹ_１ａｖｅに対応する。ｙ２＿ａｖｅがＹ_２ａｖｅに対応する。Ｓ＿ｘｙがＳ_ｙ１２に対応する。Ｓ＿ｘがＳ_ｙ１に対応する。Ｓ＿ｙがＳ_ｙ２に対応する。ｒがＲ_ｙ１２に対応する。また、ｔｈ＿ｃａｎｄは、観測値リストに含まれるｎ個の各サンプルデータに対して、選択した組み合わせの条件が「１」であるか否かを示す配列である。

【0021】

ｔｈ＿ｃａｎｄは、条件の組み合わせに対してビット単位のａｎｄを計算することにより求められる。図１５Ａ、図１５Ｂは、相関係数算出処理の補足を示す参考図である。図１５Ａ左図には、条件リストが表わされている。ここでは、条件が「年齢＜２０」を示すビット列がＸ_１、条件が「！（体重＜５０）」を示すビット列がＸ_２であるとする。すると、ｔｈ＿ｃａｎｄは、Ｘ_１とＸ_２とのａｎｄの論理演算をすることにより算出される。なお、ｔｈ＿ｃａｎｄ［ｉ］が「１」の場合、サンプルｉｄが「ｉ」を示すサンプルデータは、組み合わせの条件に合致するデータであることを意味する。

【0022】

図１５Ｂ左図には、組み合わせの条件に対し、抽出されたサンプルデータ群が表わされている。すなわち、抽出されたサンプルデータ群は、ｔｈ＿ｃａｎｄが「１」を示すサンプルｉｄのデータ群である。例えば、属性が「年齢」である場合の、抽出されたデータがＹ_ｍで表わされている。組み合わせの条件に対し、抽出されたサンプルデータ群を使って、属性ペアごとの相関係数が算出される。

【0023】

ここで、相関係数算出処理の処理フローを、図１６を参照して説明する。図１６は、相関係数算出処理の処理フローを示す参考図である。なお、全ての条件は、ｄｘ個であるとする。条件の組み合わせの数ｋは、２であるとする。サンプルｉｄの総数は、ｎ個であるとする。属性の列数は、ｄｙであるとする。

【0024】

図１６に示すように、相関係数算出処理は、全ての条件から２つの条件を抜き出して、_ｄｘＣ_２回、ステップＳ２０２～Ｓ２１７の処理を繰り返す（ステップＳ２０１）。

【0025】

相関係数算出処理は、ｔｈ＿ｃａｎｄ配列のインデックスｅが１～サンプルｉｄの総数ｎまで、ステップＳ２０３～Ｓ２０４を繰り返す（ステップＳ２０２）。相関係数算出処理は、ｔｈ＿ｃａｎｄ計算処理を行う（ステップＳ２０３）。例えば、相関係数算出処理は、ｔｈ＿ｃａｎｄ［ｅ］に「Ｘ_ｉ,ｅａｎｄＸ_ｊ,ｅ」を計算した結果を設定する。ここでいうＸ_ｉ,ｅ、Ｘ_j,ｅは、条件Ｘ_ｉ、条件Ｘ_ｊに対するインデックスｅのビットを示す。相関係数算出処理は、次のインデックスｅの処理をすべく、ステップＳ２０２に移行する（ステップＳ２０４）。

【0026】

続いて、相関係数算出処理は、属性を示すインデックスｍが１～属性の列数ｄ_ｙまで、ステップＳ２０６～Ｓ２１０を繰り返す（ステップＳ２０５）。そして、相関係数算出処理は、ｔｈ＿ｃａｎｄ配列のインデックスｅが１～サンプルｉｄの総数ｎまで、ステップＳ２０７～Ｓ２０８を繰り返す（ステップＳ２０６）。相関係数算出処理は、属性の列Ｙ_ｍのｓｕｍ計算を行う（ステップＳ２０７）。例えば、相関係数算出処理は、条件を満たす（ｔｈｅ＿ｃａｎｄ［ｅ］＝「１」）属性の列Ｙ_ｍのｅ番目の値を加算して合計（ｓｕｍ）を計算する。相関係数算出処理は、次のインデックスｅの処理をすべく、ステップＳ２０６に移行する（ステップＳ２０８）。

【0027】

続いて、相関係数算出処理は、属性の列Ｙ_ｍの平均値を計算する（ステップＳ２０９）。そして、相関係数算出処理は、次の属性の処理をすべく、ステップＳ２０５に移行する（ステップＳ２１０）。

【0028】

続いて、相関係数算出処理は、全ての属性の列から２つの属性の列を抜き出して、_ｄｙＣ_２回、ステップＳ２１２～Ｓ２１４の処理を繰り返す（ステップＳ２１１）。相関計算算出処理は、ｔｈ＿ｃａｎｄ配列のインデックスｅが１～サンプルｉｄの総数ｎまで、ステップＳ２１３～Ｓ２１４を繰り返す（ステップＳ２１２）。相関係数算出処理は、Ｓ＿ｘｙ、Ｓ＿ｘ、Ｓ＿ｙを計算する（ステップＳ２１３）。例えば、相関係数算出処理は、条件を満たす（ｔｈｅ＿ｃａｎｄ［ｅ］＝「１」）属性の列Ｙ_ｍのｅ番目の値を使って、Ｓ＿ｘｙ、Ｓ＿ｘ、Ｓ＿ｙを計算する。ここでいうＳ＿ｘｙは、式（１）に対応する。Ｓ＿ｘは、式（２）に対応する。Ｓ＿ｙは、式（３）に対応する。そして、相関係数算出処理は、次のインデックスｅの処理をすべく、ステップＳ２１２に移行する（ステップＳ２１４）。

【0029】

続いて、相関係数算出処理は、抜き出した２つの属性の列に対する相関係数Ｒ_ｙ１２を算出する（ステップＳ２１５）。ここでいうＲ_ｙ１２は、式（４）に対応する。そして、そして、相関係数算出処理は、次の２つの属性の列を抜き出すべく、ステップＳ２１１に移行する（ステップＳ２１６）。

【0030】

そして、相関係数算出処理は、次の２つの条件を抜き出すべく、ステップＳ２０１に移行する（ステップＳ２１７）。

【0031】

このように、条件の組み合わせの探索は、全条件の数をｄｘ、組み合わされる数をｋとすると、_ｄｘＣ_ｋパターンの回数分実施される（＜１＞）。全条件の数ｄｘや組み合わされる数ｋが大きくなると、条件の組み合わせの探索は、爆発的に増加してしまう。すなわち、探索処理は、_ｄｘＣ_ｋパターンの回数分、それぞれの条件の組み合わせについて、条件を満たすサンプルデータ群を抽出し、抽出したサンプルデータ群の属性ペア間の相関係数を算出する。そして、探索処理は、相関係数が閾値を超える属性ペアがｎ個以上ある条件の組み合わせを探索することになる。このため、大規模な全条件の数ｄｘに対応するために、条件を満たすサンプルデータ群の抽出処理や抽出したサンプルデータ群の属性ペアの相関係数を算出する処理の高速化を図ることが不可欠である。

【0032】

そこで、以降の実施例では、条件を満たすサンプルデータ群の抽出処理や抽出したサンプルデータ群の属性ペアの相関係数を算出する処理を高速化する情報処理装置について説明する。

【0033】

［情報処理装置の構成］
図１は、実施例に係る情報処理装置の構成を示す機能ブロック図である。情報処理装置１は、条件の組み合わせの探索において、サンプルデータ群の抽出処理や抽出したサンプルデータ群の属性ペアの相関係数を算出する処理に関して、処理をＳＩＭＤ（Single Instruction Multiple Data）化する。さらに、情報処理装置１は、条件の組み合わせの数に応じて、並列処理（ストリーム処理）やアンローリング処理を選択して利用することで、サンプルデータ群の抽出処理や抽出したサンプルデータ群の属性ペアの相関係数を算出する処理を高速化する。

【0034】

ここで、ＳＩＭＤ処理化について、図２を参照して説明する。図２は、ＳＩＭＤ処理化を説明する図である。なお、Ａ［０］、・・、Ｂ［０］、・・は、それぞれＳＩＭＤレジスタである。処理をＳＩＭＤ化するために、プレディケートレジスタが用いられる。情報処理装置１は、ｔｈ＿ｃａｎｄの値をプレディケートレジスタの値として利用することにより、ＳＩＭＤ幅分のデータの演算を、ＡＬＵ（Arithmetic and Logic Unit）（演算器）を使って同時に処理することが可能になる。図２では、２個のＳＩＭＤレジスタＡ，Ｂが搭載されているが、ＳＩＭＤレジスタＡ，Ｂの個数は、ＣＰＵによって決まる。なお、ここでいうｔｈ＿ｃａｎｄは、後述する観測値リスト２１に含まれるｎ個の各サンプルデータに対して、組み合わせの条件が満たされていれば「１」、満たされていなければ「０」が設定される配列を示す。

【0035】

例えば、図２では、組み合わせの条件が満たされるサンプルデータ群のある属性に対応するｓｕｍ計算が行われている。ｔｈ＿ｃａｎｄが「０１１０・・」である場合に、ｔｈ＿ｃａｎｄがプレディケートレジスタ（predicate register）に与えられる。ＳＩＭＤレジスタＢに属性に対応するサンプルデータの値が複数個（ここでは４個分）ずつ入力される。すると、情報処理装置１は、ｔｈ＿ｃａｎｄのビット列によって演算がマスクされるので、組み合わせの条件が満たされるサンプルデータの値の加算を同時に処理できる。

【0036】

ここで、ＳＩＭＤ化処理の疑似コードを、図３に示す。図３は、ＳＩＭＤ化処理のｓｕｍ計算の疑似コードの一例を示す図である。なお、疑似コードは、ＡＲＭ向けのＡＣＬＥによるＳＩＭＤ化のコードである。図３に示すｔｈ＿ｃａｎｄは、後述する観測値リスト２１に含まれるｎ個の各サンプルデータに対して、組み合わせの条件が満たされていれば「１」、満たされていなければ「０」が設定される配列である。ｙ１＿ｓｕｍが相関係数を求める属性ペアの一方の属性のｓｕｍ計算に用いられる変数である。ｙ２＿ｓｕｍが相関係数を求める属性ペアの他方の属性のｓｕｍ計算に用いられる変数である。

【0037】

ここでは、処理対象のサンプルデータがｆｌｏａｔ型（３２ビット）で、ＳＩＭＤ幅が５１２ビットの場合であるとする。すると、図２に示すＳＩＭＤレジスタＡ，Ｂは、それぞれ１６個搭載される。したがって、情報処理装置１は、属性ペアの属性ごとに、プレディケートレジスタを用いて、属性ペアの属性ごとに同時に１６個ずつ加算する。これにより、情報処理装置１は、属性ペアの属性ごとに、ループ回数を１／１６に削減することができる。この結果、情報処理装置１は、属性ペアの属性ごとに、逐次的に加算するより、高速化することができる。

【0038】

図３で示したＳＩＭＤ化は、ｓｕｍ計算の一例であったが、ｔｈ＿ｃａｎｄを生成するｔｈ＿ｃａｎｄ計算を含む相関係数算出処理にも適用できる。図４は、ＳＩＭＤ化処理を適用した場合の相関係数算出処理のフローチャートの一例を示す図である。なお、全ての条件は、ｄｘ個であるとする。条件の組み合わせの数ｋは、２であるとする。サンプルｉｄの総数は、ｎ個であるとする。属性の列数は、ｄｙであるとする。また、サンプルデータのデータ型がｆｌｏａｔ型（３２ビット）で、ＳＩＭＤ幅が５１２ビットの場合であるとする。

【0039】

図４に示すように、相関係数算出処理は、全ての条件から２つの条件を抜き出して、_ｄｘＣ_２回、ステップＳ８２～Ｓ９７の処理を繰り返す（ステップＳ８１）。

【0040】

相関係数算出処理は、ｔｈ＿ｃａｎｄ配列のインデックスｅが１～サンプルｉｄの総数ｎまで、増分値を１６として、ステップＳ８３～Ｓ８４を繰り返す（ステップＳ８２）。相関係数算出処理は、ｔｈ＿ｃａｎｄ計算（ｓｉｍｄ）処理を行う（ステップＳ８３）。例えば、相関係数算出処理は、インデックスｅ～ｅ＋１６の「Ｘ_ｉ,ｅａｎｄＸ_ｊ,ｅ」を計算し、計算した結果をｔｈ＿ｃａｎｄ［ｅ］に設定する。ここでいうＸ_ｉ,ｅ、Ｘ_j,ｅは、条件Ｘ_ｉ、条件Ｘ_ｊに対するインデックスｅのビットを示す。相関係数算出処理は、次のインデックスｅの処理をすべく、ステップＳ８２に移行する（ステップＳ８４）。

【0041】

続いて、相関係数算出処理は、属性を示すインデックスｍが１～属性の列数ｄ_ｙまで、ステップＳ８６～Ｓ９０を繰り返す（ステップＳ８５）。そして、相関係数算出処理は、ｔｈ＿ｃａｎｄ配列のインデックスｅが１～サンプルｉｄの総数ｎまで、増分値を１６として、ステップＳ８７～Ｓ８８を繰り返す（ステップＳ８６）。相関係数算出処理は、属性の列Ｙ_ｍのｓｕｍ計算（ｓｉｍｄ）を行う（ステップＳ８７）。例えば、相関係数算出処理は、条件を満たす（ｔｈｅ＿ｃａｎｄ［ｅ］＝「１」）属性の列Ｙ_ｍの加算を１６個ずつ行い、インデックスｅ～ｅ＋１６の各値を加算して合計（ｓｕｍ）を計算する。相関係数算出処理は、次のインデックスｅの処理をすべく、ステップＳ８６に移行する（ステップＳ８８）。

【0042】

続いて、相関係数算出処理は、属性の列Ｙ_ｍの平均値を計算する（ステップＳ８９）。そして、相関係数算出処理は、次の属性の処理をすべく、ステップＳ８５に移行する（ステップＳ９０）。

【0043】

続いて、相関係数算出処理は、全ての属性の列から２つの属性の列を抜き出して、_ｄｙＣ_２回、ステップＳ９２～Ｓ９６の処理を繰り返す（ステップＳ９１）。相関計算算出処理は、ｔｈ＿ｃａｎｄ配列のインデックスｅが１～サンプルｉｄの総数ｎまで、増分値を１６として、ステップＳ９３～Ｓ９４を繰り返す（ステップＳ９２）。相関係数算出処理は、Ｓ＿ｘｙ、Ｓ＿ｘ、Ｓ＿ｙを計算（ｓｉｍｄ）する（ステップＳ９３）。例えば、相関係数算出処理は、条件を満たす（ｔｈｅ＿ｃａｎｄ［ｅ］＝「１」）属性の列Ｙ_ｍのインデックスｅ～ｅ＋１６の値を使って、Ｓ＿ｘｙ、Ｓ＿ｘ、Ｓ＿ｙを計算する。ここでいうＳ＿ｘｙは、式（１）に対応する。Ｓ＿ｘは、式（２）に対応する。Ｓ＿ｙは、式（３）に対応する。そして、相関係数算出処理は、次のインデックスｅの処理をすべく、ステップＳ９２に移行する（ステップＳ９４）。

【0044】

続いて、相関係数算出処理は、抜き出した２つの属性の列に対する相関係数Ｒ_ｙ１２を算出する（ステップＳ９５）。ここでいうＲ_ｙ１２は、式（４）に対応する。そして、相関係数算出処理は、次の２つの属性の列を抜き出すべく、ステップＳ９１に移行する（ステップＳ９６）。

【0045】

そして、相関係数算出処理は、次の２つの条件を抜き出すべく、ステップＳ８１に移行する（ステップＳ９７）。

【0046】

これにより、情報処理装置１は、ＳＩＭＤ化を適用すると、ｔｈ＿ｃａｎｄ計算（＜２＞）、ｓｕｍ計算（＜４＞）および相関係数の計算（＜６＞）のループ内の処理が１度に１６要素ずつ行われるので、ループ回数を１／１６に削減することができる。この結果、情報処理装置１は、逐次的に処理するより、高速化することができる。

【0047】

図２～図４では、１つのプレディケートレジスタを利用して、１つの条件の組み合わせについての処理をＳＩＭＤ化した例である。プレディケートレジスタは、複数搭載されていても良く、余剰のプレディケートレジスタを利用して、複数の条件の組み合わせについての処理をＳＩＭＤ化して、高速化を図るようにしても良い。

【0048】

図１に戻って、情報処理装置１は、制御部１０と、記憶部２０とを有する。制御部１０は、判定部１１と、ストリーム処理部１２と、アンローリング処理部１３と、出力部１４とを有する。記憶部２０は、観測値リスト２１と、条件リスト２２と、パラメータ２３とを有する。なお、ストリーム処理部１２およびアンローリング処理部１３は、算出部および探索部の一例である。

【0049】

観測値リスト２１は、サンプルｉｄに対して観測した複数の観測値の数値データ群を記憶したリストである。言い換えれば、観測値リスト２１は、各サンプルｉｄが持つ複数の観測値（属性）の値を蓄積した表データである。ここでいうサンプルｉｄとは、個々の人などを一意に識別する識別子である。観測値リスト２１の各列は、各観測値（属性）に対応する。

【0050】

条件リスト２２は、「相関関係を持つ属性ペアを有する」サンプルｉｄのサンプル集合を抽出するための条件のリストである。言い換えれば、条件リスト２２は、観測値リスト２１から、各サンプルｉｄが持つ複数の観測値（属性）の値を条件に基づいて２値化した表データである。すなわち、条件リスト２２の列単位の配列は、条件に対するビット列となる。条件は、例えば、観測値から生成されるが、これに限定されるものではない。また、条件は、網羅的な探索を目的とするため、１つの条件に対し、ｎｏｔ条件が含まれる。

【0051】

パラメータ２３は、探索処理を実行する際に用いられるパラメータである。パラメータ２３は、例えば、条件を組み合わせる数や後述するプレディケートレジスタの数などを含む。

【0052】

判定部１１は、条件の組み合わせ数が並列処理（ストリーム処理）できる数以上であるか否かを判定する。ここでいう並列処理（ストリーム処理）できる数は、例えば、プレディケートレジスタの数を示す。判定部１１は、条件の組み合わせ数が並列処理（ストリーム処理）できる数以上である場合には、ストリーム処理部１２に移行する。判定部１１は、条件の組み合わせ数が並列処理（ストリーム処理）できる数未満である場合には、アンローリング処理部１３に移行する。なお、並列処理（ストリーム処理）できる数のことを、以降では、ストリーム数というものとする。

【0053】

ストリーム処理部１２は、並列処理（ストリーム処理）できる数分のプレディケートレジスタを用いたＳＩＭＤ化を行う。加えて、ストリーム処理部１２は、並列処理（ストリーム処理）できる数分の条件の組み合わせを並列処理（ストリーム処理）して、条件の組み合わせごとの複数の属性ペアの相関係数を算出する。そして、ストリーム処理部１２は、条件の組み合わせごとの複数の属性ペアのそれぞれの相関係数を用いて、相関係数が閾値を超える属性ペアがｎ個以上ある条件の組み合わせを探索する。そして、ストリーム処理部１２は、相関係数が閾値を超える属性ペアがｎ個以上ある条件の組み合わせを保存する。

【0054】

アンローリング処理部１３は、余剰のプレディケートレジスタを用いたＳＩＭＤ化を行う。加えて、アンローリング処理部１３は、１つの条件の組み合わせの処理を複数単位に展開するアンローリング処理で、条件の組み合わせごとの複数の属性ペアの相関係数を算出する。そして、アンローリング処理部１３は、条件の組み合わせごとの複数の属性ペアのそれぞれの相関係数を用いて、相関係数が閾値を超える属性ペアがｎ個以上ある条件の組み合わせを探索する。そして、アンローリング処理部１３は、相関係数が閾値を超える属性ペアがｎ個以上ある条件の組み合わせを保存する。

【0055】

出力部１４は、相関係数が閾値を超える属性ペアがｎ個以上ある条件の組み合わせを出力する。

【0056】

［ストリーム処理の説明］
ここで、ストリーム処理部１２によって行われるストリーム処理の説明を、図５を参照して説明する。図５は、実施例に係るストリーム処理のイメージを説明する図である。なお、図５では、ストリーム数が「２」であり、ＳＩＭＤの要素数（ＳＩＭＤレジスタＡ，Ｂ，Ｃの各個数）は、「２」であるとする。

【0057】

ストリームＩＤが「１」の場合には、条件の組み合わせは、「年齢＜２０」と「体重＜５０」との論理積を示す「（年齢＜２０）ａｎｄ（体重＜５０）」である。組み合わせの条件のビット列を示すｔｈ＿ｃａｎｄ１は、｛０，１，０，０，・・｝である。ストリームＩＤが「２」の場合には、条件の組み合わせは、「年齢＜２０」と「！（体重＜５０）」との論理積を示す「（年齢＜２０）ａｎｄ（！（体重＜５０））」である。組み合わせの条件のビット列を示すｔｈ＿ｃａｎｄ１は、｛１，０，０，１，・・｝である。

【0058】

このような状況の下、ストリーム処理部１２が、条件の組み合わせごとの、属性の列Ｙ_１のｓｕｍ計算を行う場合について説明する。ストリーム処理部１２は、ＳＩＭＤレジスタＢにＹ_１に配置される値をＳＩＭＤの要素数（ここでは２個）ずつ入力し、ストリームＩＤが「１」および「２」のｓｕｍ計算を並列して行う。

【0059】

例えば、ストリームＩＤが「１」の場合には、ストリーム処理部１２は、プレディケートレジスタ１にｔｈ＿ｃａｎｄ１に配置されるビットをＳＩＭＤの要素数（ここでは２個）ずつ入力する。そして、ストリーム処理部１２は、ｔｈ＿ｃａｎｄ１のビットが「０」を示す要素の演算をマスクして、ｔｈ＿ｃａｎｄ１のビットが「１」を示す要素の演算を行ってＳＩＭＤレジスタＡとＳＩＭＤレジスタＢとを加算する。ＳＩＭＤレジスタＡは、加算される側のレジスタである。ここでは、１回目には、プレディケートレジスタ１に「０，１」が入力されるので、ストリーム処理部１２は、Ａ［０］＝Ａ［０］（＝０）、Ａ［１］＝Ａ［１］＋Ｂ「１」（＝１３）と計算する。２回目には、プレディケートレジスタ１に「０，０」が入力されるので、ストリーム処理部１２は、Ａ［０］＝Ａ［０］（＝０）、Ａ［１］＝Ａ［１］（＝１３）と計算する。このようにして、ストリーム処理部１２は、プレディケートレジスタ１にｔｈ＿ｃａｎｄ１のビットを入力して、プレディケートレジスタ１で各要素の演算をマスクして、ＳＩＭＤレジスタＢに入力される値をＡ［０］，Ａ［１］に加算する。そして、ストリーム処理部１２は、最後に、Ａ［０］とＡ［１］とを加算して、属性の列Ｙ_１のｓｕｍ計算の計算結果を取得する。

【0060】

また、ストリームＩＤが「２」の場合には、ストリーム処理部１２は、プレディケートレジスタ２にｔｈ＿ｃａｎｄ２に配置されるビットをＳＩＭＤの要素数（ここでは２個）ずつ入力する。そして、ストリーム処理部１２は、ｔｈ＿ｃａｎｄ２のビットが「０」を示す要素の演算をマスクして、ｔｈ＿ｃａｎｄ２のビットが「１」の要素の演算を行ってＳＩＭＤレジスタＣとＳＩＭＤレジスタＢとを加算する。ＳＩＭＤレジスタＣは、加算される側のレジスタである。ここでは、１回目には、プレディケートレジスタ２に「１，０」が入力されるので、ストリーム処理部１２は、Ｃ［０］＝Ｃ［０］＋Ｂ［０］（＝１９）、Ｃ［１］＝Ｃ［１］（＝０）と計算する。２回目には、プレディケートレジスタ２に「０，１」が入力されるので、ストリーム処理部１２は、Ｃ［０］＝Ｃ［０］（＝１９）、Ｃ［１］＝Ｃ［１］＋Ｂ［１］（＝１５）と計算する。このようにして、ストリーム処理部１２は、プレディケートレジスタ２にｔｈ＿ｃａｎｄ２のビットを入力して、プレディケートレジスタ２でＡＬＵをマスクして、ＳＩＭＤレジスタＢに入力される値をＣ［０］，Ｃ［１］に加算する。そして、ストリーム処理部１２は、最後に、Ｃ［０］とＣ［１］とを加算して、属性の列Ｙ_１のｓｕｍ計算の計算結果を取得する。

【0061】

これにより、ストリーム処理部１２は、ＳＩＭＤレジスタＢにロードする属性の列Ｙ_ｍのロード回数を減らすことができる。また、ストリーム処理部１２は、複数の条件の組み合わせを同時にストリーム処理できるので、１回の属性の列Ｙ_ｍのロードで複数の条件の組み合わせにおけるｓｕｍ計算をすることができる。

【0062】

ここで、ストリーム処理の疑似コードを、図６に示す。図６は、実施例に係るストリーム処理のｓｕｍ計算の疑似コードの一例を示す図である。なお、疑似コードは、ＡＲＭ向けのＡＣＬＥによるＳＩＭＤ化のコードである。図６では、ストリーム数が「４」であるとする。また、処理対象のサンプルデータがｆｌｏａｔ型（３２ビット）で、ＳＩＭＤ幅が５１２ビットの場合であるとする。すなわち、ＳＩＭＤの要素数は「１６」である。ｔｈ＿ｃａｎｄ０～３は、４つの組み合わせの条件に対応するビット列であり、観測値リスト２１に含まれるｎ個の各サンプルデータに対して、それぞれの条件が満たされていれば「１」、満たされていなければ「０」が設定されるビット列を配置する配列である。ｙ＿ｖａｌは、属性の列Ｙｍの加算する値の配列である。ｙ＿ｓｕｍ０～３は、４つの組み合わせの条件に対応する加算される側の値の配列である。

【0063】

ストリーム処理部１２は、１つの属性Ｙｍに対して、ＳＩＭＤの要素数（ここでは「１６」）ずつ、以下の処理を行う。ストリーム処理部１２は、４つの組み合わせの条件のプレディケートレジスタｐｒｅｄ０～３に、ｔｈ＿ｃａｎｄ０～３のそれぞれの１６個のビット列を設定する（符号ａ１）。ストリーム処理部１２は、ｙ＿ｖａｌ（図５のＳＩＭＤレジスタＢ）に１６個分の属性Ｙ_ｍの属性値をロードする（符号ａ２）。そして、ストリーム処理部１２は、ロードした１つの属性Ｙ_ｍの属性値群に対して、４つのプレディケートレジスタｐｒｅｄ０～３を使用して、同時に４つの組み合わせの条件のｓｕｍ計算を行う（符号ａ３）。

【0064】

これにより、ストリーム処理部１２は、メモリへの１回の属性Ｙ_ｍに対応する属性値のロードで、ストリーム数個のｓｕｍ計算をストリーム処理できる。この結果、ストリーム処理部１２は、ＳＩＭＤ処理はあるがストリーム処理がない場合（図３参照）と比較して、ループ回数とメモリへのアクセス回数が１／ストリーム数に削減できる。なお、図６で示したストリーム処理は、ｓｕｍ計算の一例であったが、ｔｈ＿ｃａｎｄを生成するｔｈ＿ｃａｎｄ計算を含む相関係数算出処理にも適用できる。

【0065】

［アンローリング処理の説明］
ここで、アンローリング処理部１３によって行われるアンローリング処理の説明を、図７を参照して説明する。図７は、実施例に係るストリーム処理のイメージを説明する図である。なお、図７では、ストリーム数が「２」であり、アンローリング数が「２」であるとする。

【0066】

アンローリングＩＤが「１」の場合には、条件の組み合わせは、「年齢＜２０」と「体重＜５０」との論理積を示す「（年齢＜２０）ａｎｄ（体重＜５０）」である。組み合わせの条件のビット列を示すｔｈ＿ｃａｎｄは、｛０，１，０，０，０，１，・・｝である。アンローリングＩＤが「２」の場合には、条件の組み合わせは、アンローリングＩＤが「１」の場合と同じである。組み合わせの条件のビット列を示すｔｈ＿ｃａｎｄも、アンローリングＩＤが「１」の場合と同じである。

【0067】

このような状況の下、アンローリング処理部１３が、１つの条件の組み合わせについての、属性の列Ｙ_１のｓｕｍ計算を行う場合について説明する。アンローリング処理部１３は、２つのプレディケートレジスタを用いて、ＩＤが「１」および「２」のｓｕｍ計算を並列して行い、最後に合算して、属性の列Ｙ_１のｓｕｍ計算を行う。

【0068】

例えば、アンローリングＩＤが「１」の場合には、アンローリング処理部１３は、プレディケートレジスタ１にｔｈ＿ｃａｎｄに配置されるビットをＳＩＭＤの要素数（ここでは２個）ずつ入力する。また、アンローリング処理部１３は、ＳＩＭＤレジスタＢにＹ_１に配置される値をＳＩＭＤの要素数（ここでは２個）だけ入力する。そして、アンローリング処理部１３は、ｔｈ＿ｃａｎｄのビットが「０」を示す要素の演算をマスクして、ｔｈ＿ｃａｎｄのビットが「１」を示す要素の演算を行ってＳＩＭＤレジスタＡとＳＩＭＤレジスタＢとを加算する。ＳＩＭＤレジスタＡは、加算される側のレジスタである。ここでは、１回目には、プレディケートレジスタ１に「０，１」が入力されるので、アンローリング処理部１３は、Ａ［０］＝Ａ［０］（＝０）、Ａ［１］＝Ａ［１］＋Ｂ「１」（＝１３）と計算する。２回目には、プレディケートレジスタ１に「０，１」が入力されるので、アンローリング処理部１３は、Ａ［０］＝Ａ［０］（＝０）、Ａ［１］＝Ａ［１］＋Ｂ［１］（＝３１）と計算する。このようにして、アンローリング処理部１３は、プレディケートレジスタ１にｔｈ＿ｃａｎｄのビットを入力して、プレディケートレジスタ１で各要素の演算をマスクして、ＳＩＭＤレジスタＢに入力される値をＡ［０］，Ａ［１］に加算する。

【0069】

また、アンローリングＩＤが「２」の場合には、アンローリング処理部１３は、プレディケートレジスタ２にｔｈ＿ｃａｎｄに配置されるビットであってアンローリングＩＤ「１」で処理した次の配置からＳＩＭＤの要素数（ここでは２個）ずつ入力する。また、アンローリング処理部１３は、ＳＩＭＤレジスタＣにＹ_１に配置される値であってアンローリングＩＤ「１」で処理した次の配置からＳＩＭＤの要素数（ここでは２個）だけ入力する。そして、アンローリング処理部１３は、ｔｈ＿ｃａｎｄのビットが「０」を示す要素の演算をマスクして、ｔｈ＿ｃａｎｄのビットが「１」を示す要素の演算を行ってＳＩＭＤレジスタＡとＳＩＭＤレジスタＣとを加算する。ＳＩＭＤレジスタＡは、加算される側のレジスタである。ここでは、１回目には、プレディケートレジスタ１に「０，０」が入力されるので、アンローリング処理部１３は、Ａ［０］＝Ａ［０］（＝０）、Ａ［１］＝Ａ［１］（＝１３）と計算する。このようにして、アンローリング処理部１３は、プレディケートレジスタ２にｔｈ＿ｃａｎｄのビットを入力して、プレディケートレジスタ２で各要素の演算をマスクして、ＳＩＭＤレジスタＣに入力される値をＡ［０］，Ａ［１］に加算する。そして、アンローリング処理部１３は、最後に、Ａ［０］とＡ［１］とを加算して、属性の列Ｙ_１のｓｕｍ計算の計算結果を取得する。

【0070】

これにより、アンローリング処理部１３は、残りの条件の組み合わせ数がストリーム数より少なくなった場合には、余剰のプレディケートレジスタを利用して、アンローリングによりｓｕｍ計算を高速化することができる。

【0071】

ここで、アンローリング処理の疑似コードを、図８に示す。図８は、実施例に係るアンローリング処理のｓｕｍ計算の疑似コードの一例を示す図である。なお、疑似コードは、ＡＲＭ向けのＡＣＬＥによるＳＩＭＤ化のコードである。図８では、アンローリング数が「４」であるとする。また、処理対象のサンプルデータがｆｌｏａｔ型（３２ビット）で、ＳＩＭＤ幅が５１２ビットの場合であるとする。すなわち、ＳＩＭＤの要素数は「１６」である。ｔｈ＿ｃａｎｄは、１つの組み合わせの条件に対応するビット列であり、観測値リスト２１に含まれるｎ個の各サンプルデータに対して、組み合わせの条件が満たされていれば「１」、満たされていなければ「０」が設定されるビット列を配置する配列である。ｙ＿ｖａｌ０～３は、属性の列Ｙ_ｍの加算する値の配列である。ｙ＿ｓｕｍは、１つの組み合わせの条件に対応する加算される側の値の配列である。

【0072】

アンローリング処理部１３は、１つの属性Ｙ_ｍに対して、ＳＩＭＤの要素数（ここでは「１６」）ずつ、以下の処理を行う。アンローリング処理部１３は、１つの組み合わせの条件のプレディケートレジスタｐｒｅｄ０～３に、ｔｈ＿ｃａｎｄの１６個ずつのビット列を設定する（符号ｂ１）。アンローリング処理部１３は、ｙ＿ｖａｌ０～３（図７のＳＩＭＤレジスタＢ、Ｃ）に属性Ｙ_ｍの１６個ずつの属性値をロードする（符号ｂ２）。そして、アンローリング処理部１３は、ｙ＿ｖａｌ０に対して、プレディケートレジスタｐｒｅｄ０を使用して、同時に１つの組み合わせの条件に対するｓｕｍ計算を行う。アンローリング処理部１３は、ｙ＿ｖａｌ１に対して、プレディケートレジスタｐｒｅｄ１を使用して、同時に１つの組み合わせの条件に対するｓｕｍ計算を行う。アンローリング処理部１３は、ｙ＿ｖａｌ２に対して、プレディケートレジスタｐｒｅｄ２を使用して、同時に１つの組み合わせの条件に対するｓｕｍ計算を行う。アンローリング処理部１３は、ｙ＿ｖａｌ３に対して、プレディケートレジスタｐｒｅｄ３を使用して、同時に１つの組み合わせの条件に対するｓｕｍ計算を行う。（符号ａ４）。ｓｕｍ計算の結果は、ｙ＿ｓｕｍに設定される。

【0073】

これにより、アンローリング処理部１３は、余剰のプレディケートレジスタを利用して、１つの組み合わせの条件に対するｓｕｍ計算をアンローリングにより処理することで、ｓｕｍ計算を高速化することができる。また、アンローリング処理部１３は、ＳＩＭＤ処理はあるがストリーム処理がない場合（図３参照）と比較して、ループ回数が減少することで、ループカウントを計算する命令やループの都度実行されるジャンプ命令を削減できるため、ｓｕｍ計算を高速化することができる。なお、図８で示したアンローリング処理は、ｓｕｍ計算の一例であったが、ｔｈ＿ｃａｎｄを生成するｔｈ＿ｃａｎｄ計算を含む相関係数算出処理にも適用できる。

【0074】

［探索処理のフローチャート］
図９は、実施例に係る探索処理のフローチャートの一例を示す図である。

【0075】

判定部１１は、条件の組み合わせ数を変数Ｎに設定する（ステップＳ１１）。すなわち、全条件の数をｄｘとし、組み合わされる数をｋとした場合、変数Ｎに設定される値は、_ｄｘＣ_ｋである。

【0076】

判定部１１は、変数Ｎがストリーム数Ｓ以上であるか否かを判定する（ステップＳ１２）。変数Ｎがストリーム数Ｓ以上であると判定した場合には（ステップＳ１２；Ｙｅｓ）、ストリーム処理部１２は、ＳＩＭＤ＋ストリーム（ストリーム処理）で処理を行う（ステップＳ１３）。なお、ストリーム処理のフローチャートは、後述する。

【0077】

そして、ストリーム処理部１２は、Ｓ個の条件の組み合わせごとに、相関係数が一定値以上である属性ペアの数がｎ個以上か探索する（ステップＳ１４）。そして、ストリーム処理部１２は、相関係数が一定値以上である属性ペアの数がｎ個以上ある条件の組み合わせを記録する（ステップＳ１５）。

【0078】

そして、判定部１１は、変数Ｎからストリーム数Ｓを引いて得られる数を変数Ｎに設定する（ステップＳ１６）。そして、判定部１１は、ステップＳ２１に移行する。

【0079】

一方、変数Ｎがストリーム数Ｓ未満であると判定した場合には（ステップＳ１２；Ｎｏ）、アンローリング処理部１３は、ＳＩＭＤ＋アンローリング（アンローリング処理）で処理を行う（ステップＳ１７）。なお、アンローリング処理のフローチャートは、後述する。

【0080】

そして、アンローリング処理部１３は、１個の条件の組み合わせに対し、相関係数が一定値以上である属性ペアの数がｎ個以上か探索する（ステップＳ１８）。そして、アンローリング処理部１３は、相関係数が一定値以上である属性ペアの数がｎ個以上の条件の組み合わせを記録する（ステップＳ１９）。

【0081】

そして、判定部１１は、変数Ｎから「１」を引いて得られる数を変数Ｎに設定する（ステップＳ２０）。そして、判定部１１は、ステップＳ２１に移行する。

【0082】

ステップＳ２１において、判定部１１は、変数Ｎは０であるか否かを判定する（ステップＳ２１）。変数Ｎが０でないと判定した場合には（ステップＳ２１；Ｎｏ）、判定部１１は、ステップＳ１２に移行する。

【0083】

一方、変数Ｎが０であると判定した場合には（ステップＳ２１；Ｙｅｓ）、判定部１１は、探索処理を終了する。

【0084】

［ストリーム処理のフローチャート］
図１０は、実施例に係るストリーム処理を適用した場合の相関係数算出処理のフローチャートの一例を示す図である。なお、ストリーム数は、「４」であるとする。全ての条件は、ｄｘ個であるとする。条件の組み合わせの数ｋは、「２」であるとする。サンプルｉｄの総数は、ｎ個であるとする。属性の列数は、ｄｙであるとする。また、サンプルデータのデータ型がｆｌｏａｔ型（３２ビット）で、ＳＩＭＤ幅が５１２ビットの場合であるとする。

【0085】

図１０に示すように、ストリーム処理部１２は、_ｄｘＣ_２／４回、ステップＳ３２～Ｓ４７の処理を繰り返す（ステップＳ３１）。例えば、ストリーム処理部１２は、４個の条件の組み合わせを選択して、選択した４個の条件の組み合わせについて、ステップＳ３２～Ｓ４７の処理を実施する。

【0086】

ストリーム処理部１２は、ｔｈ＿ｃａｎｄ配列のインデックスｅが１～サンプルｉｄの総数ｎまで、増分値を１６として、ステップＳ３３～Ｓ３４を繰り返す（ステップＳ３２）。ストリーム処理部１２は、ｔｈ＿ｃａｎｄ計算（ｓｉｍｄ）処理を行う（ステップＳ３３）。例えば、ストリーム処理部１２は、選択した１個目の条件の組み合わせについて、それぞれインデックスｅ～ｅ＋１６の「Ｘ_ｉ0,ｅａｎｄＸ_ｊ0,ｅ」を計算し、計算した結果をｔｈ＿ｃａｎｄ０［ｅ］に設定する。ここでいうＸ_ｉ0,ｅ、Ｘ_j0,ｅは、条件Ｘ_ｉ0、条件Ｘ_ｊoに対するインデックスｅのビットを示す。ストリーム処理部１２は、選択した２～４個目の条件の組み合わせについても同様に計算し、計算した結果をｔｈ＿ｃａｎｄ１［ｅ］、ｔｈ＿ｃａｎｄ２［ｅ］、ｔｈ＿ｃａｎｄ３［ｅ］に設定する。相関係数算出処理は、次のインデックスｅの処理をすべく、ステップＳ３２に移行する（ステップＳ３４）。

【0087】

続いて、ストリーム処理部１２は、属性を示すインデックスｍが１～属性の列数ｄ_ｙまで、ステップＳ３６～Ｓ４０を繰り返す（ステップＳ３５）。そして、ストリーム処理部１２は、インデックスｅが１～サンプルｉｄの総数ｎまで、増分値を１６として、ステップＳ３７～Ｓ３８を繰り返す（ステップＳ３６）。ストリーム処理部１２は、属性の列Ｙ_ｍについて、ｓｕｍ計算（ｓｉｍｄ，ｔｈ＿ｃａｎｄ０）、ｓｕｍ計算（ｓｉｍｄ，ｔｈ＿ｃａｎｄ１）、ｓｕｍ計算（ｓｉｍｄ，ｔｈ＿ｃａｎｄ２）、ｓｕｍ計算（ｓｉｍｄ，ｔｈ＿ｃａｎｄ３）を行う（ステップＳ３７）。例えば、ストリーム処理部１２は、選択した１個目の条件の組み合わせについて、条件を満たす（ｔｈｅ＿ｃａｎｄ０［ｅ］＝「１」）属性の列Ｙ_ｍの加算を１６個ずつ行い、インデックスｅ～ｅ＋１６の各値を加算して合計（ｓｕｍ０）を計算する。ストリーム処理部１２は、選択した２～４個目の条件の組み合わせについても同様に加算して合計（ｓｕｍ１～３）を計算する。ストリーム処理部１２は、次のインデックスｅの処理をすべく、ステップＳ３６に移行する（ステップＳ３８）。

【0088】

続いて、ストリーム処理部１２は、選択した４個の条件の組み合わせについて、それぞれ属性の列Ｙ_ｍの平均値を計算する（ステップＳ３９）。そして、ストリーム処理部１２は、次の属性の処理をすべく、ステップＳ３５に移行する（ステップＳ４０）。

【0089】

続いて、ストリーム処理部１２は、全ての属性の列から２つの属性の列を抜き出して、_ｄｙＣ_２回、ステップＳ４２～Ｓ４６の処理を繰り返す（ステップＳ４１）。ストリーム処理部１２は、ｔｈ＿ｃａｎｄ配列のインデックスｅが１～サンプルｉｄの総数ｎまで、増分値を１６として、ステップＳ４３～Ｓ４４を繰り返す（ステップＳ４２）。ストリーム処理部１２は、Ｓ＿ｘｙ、Ｓ＿ｘ、Ｓ＿ｙの計算（ｓｉｍｄ、ｔｈ＿ｃａｎｄ０）、Ｓ＿ｘｙ、Ｓ＿ｘ、Ｓ＿ｙの計算（ｓｉｍｄ、ｔｈ＿ｃａｎｄ１）、Ｓ＿ｘｙ、Ｓ＿ｘ、Ｓ＿ｙの計算（ｓｉｍｄ、ｔｈ＿ｃａｎｄ２）、Ｓ＿ｘｙ、Ｓ＿ｘ、Ｓ＿ｙの計算（ｓｉｍｄ、ｔｈ＿ｃａｎｄ３）を行う（ステップＳ４３）。例えば、ストリーム処理部１２は、選択した１個目の条件の組み合わせについて、条件を満たす（ｔｈｅ＿ｃａｎｄ０［ｅ］＝「１」）属性の列Ｙ_ｍのインデックスｅ～ｅ＋１６の値を使って、Ｓ＿ｘｙ、Ｓ＿ｘ、Ｓ＿ｙを計算する。ここでいうＳ＿ｘｙは、式（１）に対応する。Ｓ＿ｘは、式（２）に対応する。Ｓ＿ｙは、式（３）に対応する。ストリーム処理部１２は、選択した２～４個目の条件の組み合わせについても同様に計算する。そして、ストリーム処理部１２は、次のインデックスｅの処理をすべく、ステップＳ４２に移行する（ステップＳ４４）。

【0090】

続いて、ストリーム処理部１２は、選択した４個の条件の組み合わせについて、それぞれ抜き出した２つの属性の列に対する相関係数Ｒ_ｙ１２を算出する（ステップＳ４５）。ここでいうＲ_ｙ１２は、式（４）に対応する。そして、相関係数算出処理は、次の２つの属性の列を抜き出すべく、ステップＳ４１に移行する（ステップＳ４６）。

【0091】

そして、ストリーム処理部１２は、４個の条件の組み合わせを選択すべく、ステップＳ３１に移行する（ステップＳ４７）。

【0092】

これにより、ストリーム処理部１２は、ストリーム数分の条件の組み合わせにおける相関係数算出処理を並列して行うことで、ＳＩＭＤ処理はあるがストリーム処理がない場合（図３参照）と比較して、ループ回数を１／ストリーム数（＜１＞）に削減できる。この結果、ストリーム処理部１２は、探索処理を高速化することができる。

【0093】

［アンローリング処理のフローチャート］
図１１は、実施例に係るアンローリング処理を適用した場合の相関係数算出処理のフローチャートの一例を示す図である。なお、アンローリング数は、「４」であるとする。条件の組み合わせの数ｋは、「２」であるとする。サンプルｉｄの総数は、ｎ個であるとする。属性の列数は、ｄｙであるとする。また、サンプルデータのデータ型がｆｌｏａｔ型（３２ビット）で、ＳＩＭＤ幅が５１２ビットの場合であるとする。

【0094】

図１１に示すように、アンローリング処理部１３は、１個の条件の組み合わせについて１回、ステップＳ５２～Ｓ６７の処理を繰り返す（ステップＳ５１）。

【0095】

アンローリング処理部１３は、ｔｈ＿ｃａｎｄ配列のインデックスｅが１～サンプルｉｄの総数ｎまで、増分値を６４として、ステップＳ５３～Ｓ５４を繰り返す（ステップＳ５２）。アンローリング処理部１３は、ｔｈ＿ｃａｎｄ計算を行う（ステップＳ５３）。例えば、アンローリング処理部１３は、条件の組み合わせについて、サンプルデータ１６個ずつ以下の計算を行う。アンローリング処理部１３は、最初のサンプルデータ１６個について、「Ｘ_i,e～ｅ+15 ａｎｄＸ_j,e～j+15」を計算し、計算した結果をｔｈ＿ｃａｎｄ（ｅ～ｅ＋１５）に設定する。ここでいうＸ_ｉ,ｅ、Ｘ_j,ｅは、条件Ｘ_ｉ、条件Ｘ_ｊに対するインデックスｅのビットを示す。アンローリング処理部１３は、次のサンプルデータ１６個について、同様に計算し、計算した結果をｔｈ＿ｃａｎｄ（ｅ＋１６～ｅ＋３１）に設定する。アンローリング処理部１３は、次のインデックスｅの処理をすべく、ステップＳ５２に移行する（ステップＳ５４）。

【0096】

続いて、アンローリング処理部１３は、属性を示すインデックスｍが１～属性の列数ｄ_ｙまで、ステップＳ５６～Ｓ６０を繰り返す（ステップＳ５５）。そして、アンローリング処理部１３は、インデックスｅが１～サンプルｉｄの総数ｎまで、増分値を６４として、ステップＳ５７～Ｓ５８を繰り返す（ステップＳ５６）。アンローリング処理部１３は、属性の列Ｙ_ｍについて、サンプルデータ１６個ずつ、ｓｕｍ計算（ｓｉｍｄ，ｔｈ＿ｃａｎｄ（ｅ～ｅ＋１５））、ｓｕｍ計算（ｓｉｍｄ，ｔｈ＿ｃａｎｄ（ｅ＋１６～ｅ＋３１））、ｓｕｍ計算（ｓｉｍｄ，ｔｈ＿ｃａｎｄ（ｅ＋３２～ｅ＋４７））、ｓｕｍ計算（ｓｉｍｄ，ｔｈ＿ｃａｎｄ（ｅ＋４８，ｅ＋６３））を行う（ステップＳ５７）。例えば、アンローリング処理部１３は、最初のサンプルデータ１６個について、条件を満たす（ｔｈｅ＿ｃａｎｄ［ｅ］＝「１」）属性の列Ｙ_ｍの加算を行い、インデックスｅ～ｅ＋１６の各値を加算して合計（ｓｕｍ）を計算する。アンローリング処理部１３は、次のサンプルデータ１６個についても同様に加算して合計（ｓｕｍ）を計算する。アンローリング処理部１３は、次のインデックスｅの処理をすべく、ステップＳ５６に移行する（ステップＳ５８）。

【0097】

続いて、アンローリング処理部１３は、合計（ｓｕｍ）を用いて、属性の列Ｙ_ｍの平均値を計算する（ステップＳ５９）。そして、アンローリング処理部１３は、次の属性の処理をすべく、ステップＳ５５に移行する（ステップＳ６０）。

【0098】

続いて、アンローリング処理部１３は、全ての属性の列から２つの属性の列を抜き出して、_ｄｙＣ_２回、ステップＳ６２～Ｓ６６の処理を繰り返す（ステップＳ６１）。アンローリング処理部１３は、ｔｈ＿ｃａｎｄ配列のインデックスｅが１～サンプルｉｄの総数ｎまで、増分値を６４として、ステップＳ６３～Ｓ６４を繰り返す（ステップＳ６２）。アンローリング処理部１３は、Ｓ＿ｘｙ、Ｓ＿ｘ、Ｓ＿ｙの計算（ｓｉｍｄ、ｔｈ＿ｃａｎｄ（ｅ～ｅ＋１５））、Ｓ＿ｘｙ、Ｓ＿ｘ、Ｓ＿ｙの計算（ｓｉｍｄ、ｔｈ＿ｃａｎｄ（ｅ＋１６～ｅ＋３１））、Ｓ＿ｘｙ、Ｓ＿ｘ、Ｓ＿ｙの計算（ｓｉｍｄ、ｔｈ＿ｃａｎｄ（ｅ＋３２～ｅ＋４７））、Ｓ＿ｘｙ、Ｓ＿ｘ、Ｓ＿ｙの計算（ｓｉｍｄ、ｔｈ＿ｃａｎｄ（ｅ＋４８～ｅ＋６３））を行う（ステップＳ６３）。例えば、アンローリング処理部１３は、最初のサンプルデータ１６個について、条件を満たす（ｔｈｅ＿ｃａｎｄ［ｅ］＝「１」）属性の列Ｙ_ｍのインデックスｅ～ｅ＋１６の値を使って、Ｓ＿ｘｙ、Ｓ＿ｘ、Ｓ＿ｙを計算する。ここでいうＳ＿ｘｙは、式（１）に対応する。Ｓ＿ｘは、式（２）に対応する。Ｓ＿ｙは、式（３）に対応する。アンローリング処理部１３は、次のサンプルデータ１６個についても同様に計算する。そして、アンローリング処理部１３は、次のインデックスｅの処理をすべく、ステップＳ６２に移行する（ステップＳ６４）。

【0099】

続いて、アンローリング処理部１３は、抜き出した２つの属性の列に対する相関係数Ｒ_ｙ１２を算出する（ステップＳ６５）。ここでいうＲ_ｙ１２は、式（４）に対応する。そして、アンローリング処理部１３は、次の２つの属性の列を抜き出すべく、ステップＳ６１に移行する（ステップＳ６６）。

【0100】

そして、アンローリング処理部１３は、次の条件の組み合わせを抜き出すべく、ステップＳ５１に移行する（ステップＳ６７）。

【0101】

これにより、アンローリング処理部１３は、ｔｈ＿ｃａｎｄ計算（＜２＞）、ｓｕｍ計算（＜４＞）および相関係数の計算（＜６＞）のループ内の処理が１度に１６個のサンプルデータ×アンローリング数ずつ行われるので、ＳＩＭＤ処理のみの場合（図３参照）と比較して、ループ回数を１／（１６×アンローリング数）に削減できる。つまり、アンローリング処理部１３は、ループ回数を削減することで、ループカウントを計算する命令やループの都度実行されるジャンプ命令を削減できるため、探索処理を高速化することができる。

【0102】

［実施例の効果］
上記実施例によれば、情報処理装置１は、相関係数が閾値を超える属性ペアがｎ（ｎは自然数）個以上あるサンプルデータ群を抽出できる条件の組み合わせの探索において、条件の組み合わせの数が、並列化できる数以上であれば、並列化できる数分のプレディケートレジスタを用いたＳＩＭＤ化処理に加えて、並列化できる数分の条件の組み合わせの処理を並列化して、条件の組み合わせごとの複数の属性ペアの相関係数を算出する。そして、情報処理装置１は、条件の組み合わせごとの複数の属性ペアのそれぞれの相関係数を用いて、相関係数が閾値を超える属性ペアがｎ個以上ある条件の組み合わせを探索する。かかる構成によれば、情報処理装置１は、ＳＩＭＤ化に加え、並列化を行うことで、属性ペアの相関係数を算出する処理を高速化できる。この結果、情報処理装置１は、相関係数が閾値を超える属性ペアがｎ個以上ある条件の組み合わせを探索する処理を高速化できる。

【0103】

また、上記実施例によれば、情報処理装置１は、条件の組み合わせの数が、並列化できる数未満であれば、プレディケートレジスタを用いたＳＩＭＤ化処理に加えて、１つの条件の組み合わせの処理を複数単位に展開するアンローリング処理で、条件の組み合わせごとの複数の属性ペアの相関係数を算出する。かかる構成によれば、情報処理装置１は、ＳＩＭＤ化に加え、アンローリング処理を行うことで、属性ペアの相関係数を算出する処理を高速化できる。この結果、情報処理装置１は、相関係数が閾値を超える属性ペアがｎ個以上ある条件の組み合わせを探索する処理を高速化できる。

【0104】

なお、図示した情報処理装置１の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、情報処理装置１の分散・統合の具体的態様は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、記憶部２０を情報処理装置１の外部装置としてネットワーク経由で接続するようにしても良い。

【0105】

また、上記実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１に示した情報処理装置１と同様の機能を実現する探索プログラムを実行するコンピュータの一例を説明する。図１２は、探索プログラムを実行するコンピュータの一例を示す図である。

【0106】

図１２に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０３と、ユーザからのデータの入力を受け付ける入力装置２１５と、表示装置２０９を制御する表示制御部２０７とを有する。また、コンピュータ２００は、記憶媒体からプログラムなどを読取るドライブ装置２１３と、ネットワークを介して他のコンピュータとの間でデータの授受を行う通信制御部２１７とを有する。また、コンピュータ２００は、各種情報を一時記憶するメモリ２０１と、ＨＤＤ（Hard Disk Drive）２０５を有する。そして、メモリ２０１、ＣＰＵ２０３、ＨＤＤ２０５、表示制御部２０７、ドライブ装置２１３、入力装置２１５、通信制御部２１７は、バス２１９で接続されている。

【0107】

ドライブ装置２１３は、例えばリムーバブルディスク２１０用の装置である。ＨＤＤ２０５は、探索プログラム２０５ａおよび探索処理関連情報２０５ｂを記憶する。

【0108】

ＣＰＵ２０３は、探索プログラム２０５ａを読み出して、メモリ２０１に展開し、プロセスとして実行する。かかるプロセスは、情報処理装置１の各機能部に対応する。探索処理関連情報２０５ｂは、観測値リスト２１および条件リスト２２に対応する。そして、例えばリムーバブルディスク２１０が、探索プログラム２０５ａなどの各情報を記憶する。

【0109】

なお、探索プログラム２０５ａについては、必ずしも最初からＨＤＤ２０５に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ（Digital Versatile Disk）、光磁気ディスク、ＩＣ（Integrated Circuit）カードなどの「可搬用の物理媒体」に当該プログラムを記憶させておく。そして、コンピュータ２００がこれらから探索プログラム２０５ａを読み出して実行するようにしても良い。

【符号の説明】

【0110】

１情報処理装置
１０制御部
１１判定部
１２ストリーム処理部
１３アンローリング処理部
１４出力部
２０記憶部
２１観測値リスト
２２条件リスト
２３パラメータ

【図1】