特許7285515 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 独立行政法人理化学研究所の特許一覧

特許7285515検定表作成装置、検定装置、検定表作成方法、検定方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-05-25

(45)【発行日】2023-06-02

(54)【発明の名称】検定表作成装置、検定装置、検定表作成方法、検定方法及びプログラム

(51)【国際特許分類】

G06F 17/18 20060101AFI20230526BHJP

G06F 18/2323 20230101ALI20230526BHJP

【ＦＩ】

G06F17/18 Z

G06F18/2323

【請求項の数】 7

(21)【出願番号】P 2019145703

(22)【出願日】2019-08-07

(65)【公開番号】P2021026628

(43)【公開日】2021-02-22

【審査請求日】2022-06-06

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成３０年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業（ＡＣＴ－Ｉ）「決定グラフを用いた組み合わせ最適化問題に対する統一的開放の研究」、産業技術力強化法第１７条の適用を受ける特許出願

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(73)【特許権者】

【識別番号】503359821

【氏名又は名称】国立研究開発法人理化学研究所

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】石畠正和

(72)【発明者】

【氏名】前原貴憲

【審査官】坂庭剛史

(56)【参考文献】

【文献】米国特許出願公開第２００９／００８２９９７（ＵＳ，Ａ１）

【文献】湊真一、川原純、水田正弘、石岡文生、栗原考次，スキャン統計量に基づく組合せホットスポット抽出を行う高速アルゴリズム，情報処理学会研究報告 [online]，日本，一般社団法人情報処理学会，2018年08月27日，Vol. 2018-AL-169, No.3，pp. 1-8，ISSN 2188-8566

【文献】川原純、堀田敬介、堀山貴史、湊真一，ｍ連結成分分割の高速列挙法と区割の比較，2015年秋季研究発表会アブストラクト集（第36回企業事例交流会），日本，公益社団法人日本オペレーションズ・リサーチ学会，2015年09月10日，pp.12-13（1-A-4），ISSN 1883-1893

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１７／１８

Ｇ０６Ｆ１８／２３

Ｇ０６Ｆ１８／２３２３

(57)【特許請求の範囲】

【請求項1】

複数のノードと各ノード間を接続するエッジとで構成されるグラフＧとして、前記グラフＧに含まれるノードのパターンのうちの所定の条件を満たすパターンの族ＦをＺＤＤで表現したデータを入力する入力手段と、
前記入力手段により入力されたデータに含まれるノードを、葉ノードから根ノードに向けて順に選択する選択手段と、
前記選択手段により選択されたノードを根ノードとする部分ＺＤＤに対応するＢＤＤＢ_ｍを、ＢＤＤの演算処理系を用いて統計量ｍ毎に再帰的に構築する構築手段と、
前記選択手段により選択されたノードが、前記入力手段により入力されたデータの根ノードである場合に、前記構築手段により構築された統計量ｍ毎のＢＤＤＢ_ｍを検定表として記憶部に記憶させる記憶手段と、
を有することを特徴とする検定表作成装置。

【請求項2】

前記構築手段は、
前記選択手段により選択されたノードをα、ノードαのラベルをα．ｌａｂｅｌとして、前記ノードαの０－枝に接続される子ノードを根ノードとする部分ＺＤＤに対応するＢＤＤＢ_ｍ（α．０）と、前記ノードαの１－枝に接続される子ノードを根ノードする部分ＺＤＤに対応するＢＤＤＢ_ｍ（α．１）と、前記演算処理系の１つであるｓｅｌｅｃｔにより算出されるＢ_ｍ－１（α．１）．ｓｅｌｅｃｔ（α．ｌａｂｅｌ）との和を、統計量ｍにおけるＢＤＤＢ_ｍとして構築する、ことを特徴とする請求項１に記載の検定表作成装置。

【請求項3】

２値のいずれかを取る観測データの集合を入力する入力手段と、
前記入力手段により入力された観測データの集合を用いて、スキャン統計量ｋを算出する統計量算出手段と、
前記統計量算出手段により算出されたスキャン統計量ｋと、予め作成された検定表とを用いて、ｐ値を算出する有意確率算出手段と、
前記有意確率算出手段により算出されたｐ値と、予め設定された有意水準とを比較することで、統計的仮説検定における帰無仮説Ｈ_０が棄却されるか否かを判定する判定手段と、
を有することを特徴とする検定装置。

【請求項4】

前記検定表には、統計量ｍ毎に、前記統計量ｍにおけるＢＤＤＢ_ｍが格納されており、
前記有意確率算出手段は、
前記統計量算出手段により算出されたスキャン統計量ｋに対応するＢＤＤＢ_ｋを前記検定表から検索し、検索されたＢＤＤＢ_ｋを用いて前記ｐ値を算出する、ことを特徴とする請求項３に記載の検定装置。

【請求項5】

複数のノードと各ノード間を接続するエッジとで構成されるグラフＧとして、前記グラフＧに含まれるノードのパターンのうちの所定の条件を満たすパターンの族ＦをＺＤＤで表現したデータを入力する入力手順と、
前記入力手順で入力されたデータに含まれるノードを、葉ノードから根ノードに向けて順に選択する選択手順と、
前記選択手順で選択されたノードを根ノードとする部分ＺＤＤに対応するＢＤＤＢ_ｍを、ＢＤＤの演算処理系を用いて統計量ｍ毎に再帰的に構築する構築手順と、
前記選択手順で選択されたノードが、前記入力手順で入力されたデータの根ノードである場合に、前記構築手順で構築された統計量ｍ毎のＢＤＤＢ_ｍを検定表として記憶部に記憶させる記憶手順と、
をコンピュータが実行することを特徴とする検定表作成方法。

【請求項6】

２値のいずれかを取る観測データの集合を入力する入力手順と、
前記入力手順で入力された観測データの集合を用いて、スキャン統計量ｋを算出する統計量算出手順と、
前記統計量算出手順で算出されたスキャン統計量ｋと、予め作成された検定表とを用いて、ｐ値を算出する有意確率算出手順と、
前記有意確率算出手順で算出されたｐ値と、予め設定された有意水準とを比較することで、統計的仮説検定における帰無仮説Ｈ_０が棄却されるか否かを判定する判定手順と、
をコンピュータが実行することを特徴とする検定方法。

【請求項7】

コンピュータを、請求項１若しくは２に記載の検定表作成装置における各手段、又は、請求項３若しくは４に記載の検定装置における各手段、として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、検定表作成装置、検定装置、検定表作成方法、検定方法及びプログラムに関する。

【背景技術】

【0002】

観測されたデータ間に構造的な関係が存在するか否かを判定する方法として統計的仮説検定が知られている。具体的には、データ間に構造的な関係が存在しないことを示す仮説を帰無仮説Ｈ_０、データ間に構造的な関係が存在することを示す仮説を対立仮説Ｈ_１として、検定に用いる所定の統計量に基づき有意水準を設定する。次に、観測データから統計量の実現値を求め、この実現値からｐ値（有意確率）を計算する。そして、ｐ値と有意水準とを比較することで、帰無仮説Ｈ_０が棄却されるか否かを判定する。帰無仮説Ｈ_０が棄却された場合は、データ間に構造的な関係が存在すると判断することができる。

【0003】

このときの統計的仮説検定に用いる統計量としてスキャン統計量（scan statistics）が知られている。スキャン統計量の実現値からｐ値を厳密計算により求める理論的な手法として、例えば非特許文献１に記載されている手法等が知られている。また、スキャン統計量の実現値からｐ値を近似計算により求める手法として、例えば非特許文献２に記載されている手法等が知られている。

【先行技術文献】

【非特許文献】

【0004】

【文献】Louigi Addario-Berry, Nicolas Broutin, Luc Devroye, G´abor Lugosi, et al. On combinatorial testing problems. The Annals of Statistics, 38(5):3063-3092, 2010.

【文献】Jing Qian, Venkatesh Saligrama, and Yuting Chen. Connected sub-graph detection. In Artificial Intelligence and Statistics, pages 796-804, 2014.

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、上記の非特許文献１に記載されている手法は理論的な議論にとどまっており、実用に耐え得る速度で実行することができないと考えられる。

【0006】

また、上記の非特許文献２に記載されている手法は現実的な時間で解を求めることができるが、悲観評価に基づいてｐ値を近似的に算出するため、厳密計算で得られるｐ値と比較して帰無仮説Ｈ_０が棄却されづらい値となってしまう場合がある。すなわち、データ間に構造的な関係が存在するか否かの判定精度が低下してしまう。

【0007】

データ間に構造的な関係が存在するか否かを高い精度で判定するためには、統計的仮説検定に用いられるｐ値の厳密解を実用的な速度で算出する手法が必要であるが、従来では、このような手法は知られていなかった。

【0008】

本発明の実施の形態は、上記の点に鑑みてなされたもので、ｐ値の厳密解を算出するための検定表を実用的な時間で作成することを目的とする。

【課題を解決するための手段】

【0009】

上記目的を達成するため、本発明の実施の形態における検定表作成装置は、複数のノードと各ノード間を接続するエッジとで構成されるグラフＧとして、前記グラフＧに含まれるノードのパターンのうちの所定の条件を満たすパターンの族ＦをＺＤＤで表現したデータを入力する入力手段と、前記入力手段により入力されたデータに含まれるノードを、葉ノードから根ノードに向けて順に選択する選択手段と、前記選択手段により選択されたノードを根ノードとする部分ＺＤＤに対応するＢＤＤＢ_ｍを、ＢＤＤの演算処理系を用いて統計量ｍ毎に再帰的に構築する構築手段と、前記選択手段により選択されたノードが、前記入力手段により入力されたデータの根ノードである場合に、前記構築手段により構築された統計量ｍ毎のＢＤＤＢ_ｍを検定表として記憶部に記憶させる記憶手段と、を有することを特徴とする。

【発明の効果】

【0010】

ｐ値の厳密解を算出するための検定表を実用的な時間で作成することを目的とする。

【図面の簡単な説明】

【0011】

【図1】実施例１における検定表作成装置の全体構成の一例を示す図である。

【図2】実施例１における検定表作成処理の一例を示すフローチャートである。

【図3】検定表の一例を示す図である。

【図4】実施例２における検定装置の全体構成の一例を示す図である。

【図5】実施例２における検定処理の一例を示すフローチャートである。

【図6】ＺＤＤ及びＢＤＤのサイズとＢＤＤの構築時間とを示す図である。

【図7】ｐ値の変化を示す図である。

【図8】最小のｐ値が算出された州又は都道府県を示す図である。

【図9】２０１６年の米国大統領選における各州の選挙結果を示す図である。

【図10】コンピュータのハードウェア構成の一例を示す図である。

【発明を実施するための形態】

【0012】

以下、本発明の実施の形態について説明する。本発明の実施の形態では、実施例１として、ｐ値の厳密解を算出するための検定表を実用的な時間で作成する場合について説明する。また、実施例２として、観測されたデータ間に構造的な関係が存在するか否かを統計的仮説検定により検定する際に、この検定表を用いてｐ値の厳密解を算出する場合について説明する。

【0013】

［記号及び用語の定義等］
まず、実施例１及び２で使用する記号や用語等を定義する。

【0014】

観測されたデータ（以降、「観測データ」とも表す。）間の構造的な関係はグラフＧで与えられるものとする。各観測データにはインデックスが付与されているものとして、インデックスがグラフＧのノードに対応し、観測データ間の構造的な関係はグラフＧの辺（エッジ）で表現されるものとする。つまり、辺で接続されたノードに対応する観測データ間には構造的な関係があるものとする。

【0015】

このとき、グラフＧのノードの集合をＶ、辺の集合をＥ、ノードの総数を｜Ｖ｜＝Ｎとして、Ｖ＝｛１，２，・・・，Ｎ｝とする。

【0016】

また、グラフＧのノードの組み合わせ（パターン）の全ての族を２^Ｖとして、所定の条件を満たすグラフＧのノードのパターンの族をＦ⊆２^Ｖとする。ＳをＦの要素Ｓ∈Ｆとすれば、Ｆは｜Ｓ｜＝ｎ（ただし、ｎはＮ以下の自然数）を満たすＳからなる族である。つまり、Ｆはｎ個のノードからなるパターンの族であり、
Ｆ⊆２^Ｖｓ．ｔ，｜Ｓ｜＝ｎ（∀Ｓ∈Ｆ）
と表される。

【0017】

また、観測データの集合をｘとして、ｘ＝｛ｘ_ｖ｜ｖ∈Ｖ｝とする。このとき、本発明の実施の形態では、各観測データｘ_ｖは２値のいずれかの値（例えば、０又は１）を取るものとする。つまり、ｘ_ｖ∈｛０，１｝であるものとする。

【0018】

例えば、「日本の各都道府県の人口増加率のデータが観測データとして与えられた場合に、人口が増加した都道府県間に地理的な関係性があると言えるか否か」を検定することを考えた場合、各都道府県をノードとし、互いに隣接する都道府県に対応するノード間を辺で接続したグラフをグラフＧとして与える。そして、人口増加率が所定の閾値以上となる都道府県を人口が増加した都道府県とし、人口が増加した都道府県に対応するノードｖの観測データをｘ_ｖ＝１、それ以外の都道府県に対応するノードｖの観測データをｘ_ｖ＝０とする。また、このとき、族２^Ｖは都道府県のパターンの全てからなる族である。一方で、Ｆは所定の性質を満たすｎ個の都道府県のパターンの全てからなる族である。例えば、ｎ＝５として、Ｆは、２^Ｖの中で隣接する５つの都道府県のパターンからなる族である。なお、隣接する都道府県とは、例えば、地理的に互いに隣接する都道府県のことを意味する。

【0019】

統計的仮説検定の帰無仮説Ｈ_０と対立仮説Ｈ_１とを以下のように定義する。

【0020】

Ｈ_０：ｘ_１，・・・，ｘ_Ｎは独立同分布（i.i.d.：independent and identically distributed）
Ｈ_１：∃Ｓ∈Ｆｓ．ｔ．ｐ（ｘ_ｖ｜ｖ∈Ｓ）≠ｐ（ｘ_ｕ｜ｕ∈Ｓ）
ここで、ｐは帰無仮説Ｈ_０が正しいとした下でのＸの確率分布である。また、ｘ_ｖ∈｛０，１｝であるため、本発明の実施の形態では、各ｘ_ｖはベルヌーイ分布に従うものとする。つまり、
ｘ_ｖ～Ｂｅｒｎｏｕｌｌｉ（ｘ_ｖ；θ）（∀ｖ∈Ｖ）
とする。ここで、

【0021】

【数1】

である。

【0022】

また、スキャン統計量Ｋは、以下の式（１）のように定義される。

【0023】

【数2】

ここで、Ｘ_ｖはｘ_ｖの確率変数である。

【0024】

また、ｐ値（有意確率）は、以下の式（２）のように定義される。

【0025】

【数3】

ここで、

【0026】

【数4】

である。

【0027】

上記の式（２）に示すように、ｐ値を計算するためにはＷ_ｋを求める必要がある。しかしながら、例えば上記の非特許文献１等に記載されているＷ_ｋの厳密計算の理論的方法は、計算量が非常に大きい（NP-hardである）ことが知られている。そこで、本発明の実施の形態では、パターンの族ＦがＺＤＤ（Zero-suppressed Binary Decision Diagram）で表現できることを利用して、ＢＤＤ（Binary Decision Diagram）の演算処理系によって検定表を高速に作成した上で、この検定表を用いることでｐ値を高速に計算する。

【0028】

なお、ＺＤＤとはラベル付きの階層的な有向非巡回グラフ（ＤＡＧ：Directed Acyclic Graph）である。ＺＤＤは、葉ノードとして、終端ノード

【0029】

【数5】

（以降、「第１終端ノード」とも表す。）と、終端ノード⊥（以降、「第２終端ノード」とも表す。）とを有する。また、葉ノード以外の各ノードからは「０－枝」と呼ばれるエッジと、「１－枝」と呼ばれるエッジとが出る。葉ノード以外の任意のノードに対して、このノードから出る０－枝が指す先のノードは「０－子ノード」、１－枝が指す先のノードは「１－子ノード」とも呼ばれる。なお、葉ノード以外のノードは、「分岐ノード」とも呼ばれる。

【0030】

また、各ノードにはラベルが付与されており、ＺＤＤでは、葉ノード以外の各ノードの０－枝と１－枝とが、必ずラベルが小さい方のノードから大きい方のノードに向かうように構成されている。つまり、葉ノード以外の任意のノードをｖとすれば、ＺＤＤでは、「ｖのラベル＜ｖの０－子ノードのラベル」、かつ、「ｖのラベル＜ｖの１－子ノードのラベル」が成立する。なお、葉ノードのラベルは、全ての分岐ノードのラベルよりも大きい値とする。

【0031】

［実施例１］
以降では、実施例１について説明する。実施例１では、Ｗ_ｋに対応するＢＤＤをＢ_ｋとして、各統計量ｍ（ｍ＝０，１，・・・，Ｎ）に対応するＢ_ｍを構築することで、ｋとＢ_ｋとを対応付けた検定表を作成する検定表作成装置１０について説明する。

【0032】

（検定表作成装置１０の全体構成）
実施例１における検定表作成装置１０の全体構成について、図１を参照しながら説明する。図１は、実施例１における検定表作成装置１０の全体構成の一例を示す図である。

【0033】

図１に示すように、実施例１における検定表作成装置１０は、検定表作成処理部１１０と、記憶部１２０とを有する。検定表作成処理部１１０は、上述した検定表を作成するための処理（検定表作成処理）を実行する。記憶部１２０には、検定表作成処理で入力されるデータ（例えば、パターンの族ＦのＺＤＤ表現）や検定表作成処理で作成された検定表等が記憶される。

【0034】

ここで、検定表作成処理部１１０には、入力部１１１と、ノード選択部１１２と、ＢＤＤ構築部１１３と、繰り返し制御部１１４とが含まれる。

【0035】

入力部１１１は、パターンの族ＦのＺＤＤ表現の入力を受け付ける。以降では、ＺＤＤ表現の族Ｆを「ＺＤＤＦ」とも表す。

【0036】

ノード選択部１１２は、入力部１１１が入力を受け付けたＺＤＤＦから１つのノードを選択する。このとき、ノード選択部１１２は、ＺＤＤＦの葉ノードから根ノードに向けて、未だ選択されていないノードを順に選択する。以降では、ノード選択部１１２により選択された１つのノードを「ノードα」とも表す。

【0037】

ＢＤＤ構築部１１３は、統計量ｍ（ｍ＝０，１，・・・，Ｎ）毎に、ノード選択部１１２により選択されたノードαを根ノードとする部分ＺＤＤに対応するＢＤＤＢ_ｍ（α）を構築する。そして、ＢＤＤ構築部１１３は、統計量ｍとＢＤＤＢ_ｍ（α）とを対応付けて記憶部１２０に保存する。

【0038】

繰り返し制御部１１４は、ノード選択部１１２により選択されたノードαが、ＺＤＤＦの根ノードであるか否かを判定する。ノードαがＺＤＤＦの根ノードでない場合は、ノード選択部１１２によって再度ノードαが選択される。一方で、ノードαがＺＤＤＦの根ノードである場合は、検定表作成処理が終了する。ＺＤＤＦの根ノードをα_ｒとすれば、検定表は、統計量ｍ（ｍ＝０，１，・・・，Ｎ）毎に、統計量ｍとＢＤＤＢ_ｍ（α_ｒ）とを対応付けた表（テーブル）で表される。

【0039】

（検定表作成処理）
次に、実施例１における検定表作成処理について、図２を参照しながら説明する。図２は、実施例１における検定表作成処理の一例を示すフローチャートである。

【0040】

まず、検定表作成処理部１１０の入力部１１１は、パターンの族ＦのＺＤＤ表現であるＺＤＤＦの入力を受け付ける（ステップＳ１０１）。入力部１１１は、例えば、記憶部１２０に記憶されているＺＤＤＦを読み込むことでＺＤＤＦの入力を受け付けてもよいし、通信ネットワークを介して接続される他の装置からＺＤＤＦを受信することでＺＤＤＦの入力を受け付けてもよい。なお、ＺＤＤＦのノードの総数はＮであるものとする。

【0041】

次に、検定表作成処理部１１０のノード選択部１１２は、上記のステップＳ１０１で入力を受け付けたＺＤＤＦのノードの中から１つのノードαを選択する（ステップＳ１０２）。このとき、ノード選択部１１２は、ステップＳ１０２～ステップＳ１０４の繰り返し毎に、ＺＤＤＦの葉ノードから根ノードに向けて、未だ選択されていないノードを順に選択する。

【0042】

例えば、同一ラベルが付与されているノードを１つの層として、ＺＤＤＦが第１層～第Ｊ層の複数の層で構成されており、第１層には根ノードのみが含まれ、第Ｊ層には葉ノードのみが含まれている場合、ノード選択部１１２は、まず、ステップＳ１０２～ステップＳ１０４の繰り返し毎に、第Ｊ層の中から未選択のノードを１つずつ選択する。第Ｊ層のノードが全て選択された場合、ノード選択部１１２は、ステップＳ１０２～ステップＳ１０４の繰り返し毎に、第Ｊ－１層の中から未選択のノードを１つずつ選択する。このように、第Ｊ層のノードが全て選択された場合、ノード選択部１１２は、第Ｊ－１層の中から未選択のノードを選択する。

【0043】

以降も同様に、第１層の根ノードが選択されるまで、ノード選択部１１２は、ステップＳ１０２～ステップＳ１０４の繰り返し毎に、第ｊ層の中から未選択のノードを１つずつ選択していき、第ｊ層の全てのノードが選択された場合にはｊを１つ減じた第ｊ－１層の中から未選択のノードを１つずつ選択していく。

【0044】

次に、検定表作成処理部１１０のＢＤＤ構築部１１３は、統計量ｍ（ｍ＝０，１，・・・，Ｎ）毎に、上記のステップＳ１０２で選択されたノードαを根ノードとする部分ＺＤＤＦ_αに対応するＢＤＤＢ_ｍ（α）を構築する（ステップＳ１０３）。すなわち、ＢＤＤ構築部１１３は、Ｂ_０（α），Ｂ_１（α），・・・，Ｂ_Ｎ（α）を構築する。このとき、ＢＤＤ構築部１１３は、以下の式（３）によりＢ_ｍ（α）を再帰的に計算することで、各Ｂ_ｍ（α）を構築する。

【0045】

【数6】

ここで、「α．０」はノードαの０－子ノード、「α．１」はノードαの１－子ノード、「α．ｌａｂｅｌ」はノードαに付与されたラベルを表す。また、

【0046】

【数7】

である。つまり、Ｂ_ｍ（α）は、部分ＺＤＤＦ_αに含まれるパターンＳの観測データｘ_ｖの和の最大値がｍ以上となるようなパターンＳのＢＤＤ表現のことである。

【0047】

また、ＢをＢＤＤとして、Ｂ．ｓｅｌｅｃｔ（ｉ）は、Ｂ．ｓｅｌｅｃｔ（ｉ）：＝｛Ｓ∈Ｂ：ｉ∈Ｓ｝で定義されるＢＤＤの演算処理系の１つである。したがって、Ｂ_ｍ－１（α．１）．ｓｅｌｅｃｔ（α．ｌａｂｅｌ）は、α．ｌａｂｅｌ∈ＳとなるパターンＳをＢ_ｍ－１（α．１）の中から選択（抽出）することを表す。

【0048】

更に、初期条件として、以下が予め設定されているものとする。

【0049】

【数8】

なお、Ｎ（Ｆ_α）は部分ＺＤＤＦ_αのノードの集合であり、Ａ（Ｆ_α）を部分ＺＤＤＦ_αの辺の集合とする。

【0050】

次に、検定表作成処理部１１０のＢＤＤ構築部１１３は、統計量ｍとＢ_ｍ（α）とを対応付けて記憶部１２０に保存する（ステップＳ１０４）。これにより、記憶部１２０には、（ｍ＝０，Ｂ_０（α）），（ｍ＝１，Ｂ_１（α）），・・・，（ｍ＝Ｎ，Ｂ_Ｎ（α））がそれぞれ格納された表（テーブル）が保存される。

【0051】

なお、ＢＤＤ構築部１１３は、統計量ｍとノードαとＢ_ｍ（α）とを対応付けて記憶部１２０に保存してもよい。この場合、記憶部１２０には、（ｍ＝０，α，Ｂ_０（α）），（ｍ＝１，α，Ｂ_１（α）），・・・，（ｍ＝Ｎ，α，Ｂ_Ｎ（α））がそれぞれ格納された表（テーブル）が保存される。

【0052】

続いて、検定表作成処理部１１０の繰り返し制御部１１４は、上記のステップＳ１０２で選択されたノードαが、ＺＤＤＦの根ノードであるか否かを判定する（ステップＳ１０５）。ノードαがＺＤＤＦの根ノードでないと判定された場合、検定表作成処理部１１０は、上記のステップＳ１０２に戻る。これにより、ノードαが根ノードと判定されるまで、上記のステップＳ１０２～ステップＳ１０４が繰り返し実行される。

【0053】

一方で、ノードαがＺＤＤＦの根ノードであると判定された場合、検定表作成処理部１１０は、検定表作成処理を終了する。これにより、根ノードをα_ｒとして、記憶部１２０には、（ｍ＝０，Ｂ_０（α_ｒ）），（ｍ＝１，Ｂ_１（α_ｒ）），・・・，（ｍ＝Ｎ，Ｂ_Ｎ（α_ｒ））がそれぞれ格納された表（テーブル）が保存される。この表（テーブル）が検定表である。検定表の一例を図３に示す。図３に示すように、検定表は、統計量ｍとＢＤＤＢ_ｍ（α_ｒ）とが対応付けられたレコードで構成されるテーブルで表現される。

【0054】

［実施例２］
以降では、実施例２について説明する。実施例２では、実施例１で作成された検定表を用いて、観測データについて統計的仮説検定を行う検定装置２０について説明する。

【0055】

（検定装置２０の全体構成）
実施例２における検定装置２０の全体構成について、図４を参照しながら説明する。図４は、実施例２における検定装置２０の全体構成の一例を示す図である。

【0056】

図４に示すように、実施例２における検定装置２０は、検定表作成処理部１１０と、検定処理部２１０と、記憶部２２０とを有する。検定表作成処理部１１０は、上述した検定表作成処理を実行する。検定処理部２１０は、検定表作成処理で作成された検定表を用いて、観測データについての統計的仮説検定を行うための処理（検定処理）を実行する。記憶部２２０には、検定表作成処理で作成された検定表や検定処理で入力されるデータ（例えば、観測データ）等が記憶される。

【0057】

なお、検定表が記憶部２２０に保存されている場合には、検定装置２０は、検定表作成処理部１１０を有していなくてもよい。すなわち、検定装置２０は、例えば、実施例１における検定表作成装置１０によって作成された検定表を予め取得し、記憶部２２０に保存する場合、検定表作成処理部１１０を有していなくてもよい。

【0058】

ここで、検定処理部２１０には、入力部２１１と、統計量計算部２１２と、有意確率計算部２１３と、判定部２１４とが含まれる。

【0059】

入力部２１１は、観測データの集合ｘ＝｛ｘ_ｖ｜ｖ∈Ｖ｝の入力を受け付ける。上述したように、各観測データｘ_ｖは、ｘ_ｖ∈｛０，１｝であるものとする。

【0060】

統計量計算部２１２は、各観測データｘ_ｖを用いて、以下の式（４）によりスキャン統計量ｋを計算する。

【0061】

【数9】

有意確率計算部２１３は、統計量計算部２１２により計算されたスキャン統計量ｋと、記憶部２２０に記憶されている検定表とを用いて、有意確率ｐ（つまり、ｐ値）を計算する。

【0062】

判定部２１４は、有意確率計算部２１３により計算されたｐ値と予め設定された有意水準とを比較し、帰無仮説Ｈ_０が棄却されるか否かを判定する。なお、この判定結果は、例えば、記憶部２２０に出力（記憶）されてもよいし、ディスプレイ等の表示装置に出力（表示）されてもよいし、通信ネットワークを介して接続される他の装置に出力（送信）されてもよい。

【0063】

（検定処理）
次に、実施例２における検定処理について、図５を参照しながら説明する。図５は、実施例２における検定処理の一例を示すフローチャートである。

【0064】

まず、検定処理部２１０の入力部２１１は、観測データの集合ｘ＝｛ｘ_ｖ｜ｖ∈Ｖ｝の入力を受け付ける（ステップＳ２０１）。入力部２１１は、例えば、記憶部２２０に記憶されている観測データの集合ｘを読み込むことでｘの入力を受け付けてもよいし、通信ネットワークを介して接続される他の装置からｘを受信することでｘの入力を受け付けてもよい。

【0065】

次に、検定処理部２１０の統計量計算部２１２は、上記のステップＳ２０１で入力を受け付けたｘに含まれる各観測データｘ_ｖを用いて、上記の式（４）によりスキャン統計量ｋを計算する（ステップＳ２０２）。

【0066】

次に、検定処理部２１０の有意確率計算部２１３は、上記のステップＳ２０２で計算されたスキャン統計量ｋと、記憶部２２０に記憶されている検定表とを用いて、ｐ値を計算する（ステップＳ２０３）。具体的には、有意確率計算部２１３は、まず、記憶部２２０に記憶されている検定表からスキャン統計量ｋに対応するＢＤＤＢ_ｋ（α_ｒ）を検索した上で、このＢ_ｋ（α_ｒ）を用いてｐ値を計算する。Ｂ_ｋ（α_ｒ）を用いてｐ値を計算する方法については、例えば以下の参考文献１に開示されている方法を用いればよい。

【0067】

［参考文献１］
Masakazu Ishihata, Yoshitaka Kameya, Taisuke Sato, and Shin-ichi Minato. An em algorithm on bdds with order encoding for logic-based probabilistic models. In Proceedings of 2nd Asian Conference on Machine Learning, pages 161-176, 2010.
このように、実施例２における検定装置２０は、スキャン統計量ｋを用いて検定表を検索することで、このスキャン統計量ｋに対応するＢＤＤＢ_ｋ（α_ｒ）を得ることができる。このため、実施例２における検定装置２０は、高速にｐ値を計算することができる。

【0068】

続いて、検定処理部２１０の判定部２１４は、上記のステップＳ２０３で計算されたｐ値と、予め設定された有意水準とを比較し、帰無仮説Ｈ_０が棄却されるか否かを判定する（ステップＳ２０４）。

【0069】

［実験結果］
以降では、実施例１における検定表作成装置１０によって検定表を作成した上で、この検定表を用いて、実施例２における検定装置２０によってｐ値を算出する実験の結果について説明する。

【0070】

この実験では、米国の地続きの４８州を各ノード、これらの各州の隣接関係を辺（エッジ）としたグラフをＧ^ＵＳとし、日本の４７都道府県を各ノード、これらの都道府県の連結関係（橋を考慮し、鹿児島と沖縄とは隣接しているものとした。）を辺としたグラフをＧ^ＪＰとした。また、観測データの集合としては、米国政府が公開している州毎の人口、収入、ＧＤＰの変化を示すデータの集合ｘ^ＵＳと、日本政府が公開している都道府県毎の人口、収入、ＧＤＰの変化を示すデータの集合をｘ^ＪＰとを用いた。

【0071】

更に、パターンの族Ｆ^ＵＳを、Ｌ個の連結な州のパターンからなる族とする。同様に、パターンの族Ｆ^ＪＰを、Ｌ個の連結な都道府県のパターンからなる族とする。なお、連結な州のパターンについても、連結な都道府県のパターンと同様に、例えば、２次元の地図上で、当該パターンを構成する州によって表される地理的領域が連結空間（連結領域）となっていることを意味する。

【0072】

（実験結果１）
実験結果１として、ＺＤＤ及びＢＤＤのサイズとＢＤＤの構築時間とを図６に示す。図６（ａ）は、Ｌ∈｛２，・・・，４８｝で変化させて、パターンの族Ｆ^ＵＳを用いた場合におけるＺＤＤ及びＢＤＤのサイズとＢＤＤの構築時間とを示している。一方で、図６（ｂ）は、Ｌ∈｛２，・・・，４７｝で変化させて、パターンの族Ｆ^ＪＰを用いた場合におけるＺＤＤ及びＢＤＤのサイズとＢＤＤの構築時間とを示している。

【0073】

図６（ａ）及び図６（ｂ）に示すように、Ｌ＝２０程度の場合がＺＤＤ及びＢＤＤのサイズとＢＤＤの構築時間とが最も大きいが、ＢＤＤのサイズは１０^８未満であり、その構築時間は１０［ｓｅｃ］未満である。

【0074】

したがって、実施例１における検定表作成装置１０は、実用的な時間で検定表を作成できていることがわかる。

【0075】

（実験結果２）
実験結果２として、Ｌとｐ値との関係を図７に示す。図７（ａ）は、Ｌ∈｛２，・・・，４８｝で変化させて、観測データの集合ｘ^ＵＳとパターンの族Ｆ^ＵＳとを用いた場合におけるｐ値の変化を示している。一方で、図７（ｂ）は、Ｌ∈｛２，・・・，４７｝で変化させて、観測データの集合ｘ^ＪＰとパターンの族Ｆ^ＪＰとを用いた場合におけるｐ値の変化を示している。

【0076】

図７（ａ）に示すように、Ｌ＝４～２０程度の場合には、ｐ値が、有意水準としてしばしば用いられる０．０５よりも小さくなっている。同様に、図７（ｂ）に示すように、Ｌ＝３～２８程度の場合には、ｐ値が、０．０５よりも小さくなっている。

【0077】

（実験結果３）
実験結果３として、ｐ値の分布について説明する。観測データの集合ｘ^ＵＳと観測データの集合ｘ^ＪＰとについては、以下の表１に示す観測データの集合を用いた。

【0078】

【表1】

ここで、#observationsは観測データの集合数を示す。つまり、３２個の観測データの集合ｘ^ＵＳと、６７個の観測データの集合ｘ^ＪＰとを用いた。

【0079】

また、Ｌについては、Ｌ∈｛５，１０，１５，２０，２５，３０，３５，４０，４５｝で変化させた。更に、各観測データの値は設定例１及び設定例２として以下のように設定した。

【0080】

（設定例１）人口、収入、ＧＤＰについて、増加した州又は都道府県に対応する観測データを１、減少した州又は都道府県に対応する観測データを０とする。

【0081】

（設定例２）人口、収入、ＧＤＰについて、減少した州又は都道府県に対応する観測データを１、増加した州又は都道府県に対応する観測データを１とする。

【0082】

以上の設定の下、観測データの集合と予め作成された検定表とを用いて、実施例２における検定装置２０でｐ値を計算した。計算されたｐ値の数は、ＵＳの場合は３２×２×９＝５７２であり、ＪＰの場合は６７×２×９＝１２０６である。

【0083】

このとき、ｐ値の分布を以下の表２に示す。

【0084】

【表2】

なお、表２では、全ての観測データが１となった場合や全ての観測データが０となった場合を省略している。また、表２では、ｐ値の割合は小数点以下３桁目で四捨五入した値を記載している。この実験例の場合、上記の表２に示すように、ＵＳでは約９５％のｐ値が０．５以上であり、ＪＰでは約８８％のｐ値が０．５以上となっている。

【0085】

（実験結果４）
実験結果４として、上記の表２で最小のｐ値が得られた場合の州又は都道府県を図８に示す。図８（ａ）は、ＵＳで最小のｐ値が算出された場合に、人口が減少した州を示している。一方で、図８（ｂ）は、ＪＰで最小のｐ値が算出された場合に、人口が増加した都道府県を示している。

【0086】

ここで、図８（ａ）に示す結果は、Ｌ＝５の場合であり、ｐ値は０．１０７であった。一方で、図８（ｂ）に示す結果は、Ｌ＝１５の場合であり、ｐ値は０．０３０であった。したがって、例えば、有意水準として０．０５が設定された場合、図８（ａ）に示す結果では帰無仮説Ｈ_０は棄却されない一方で、図８（ｂ）に示す結果では帰無仮説Ｈ_０が棄却される。

【0087】

（実験結果５）
上記の実験結果１～４のＵＳと同様の条件の下で、観測データの集合として、２０１６年の大統領選における各州の選挙結果を示すデータを用いた場合について説明する。このときの選挙結果を図９に示す。各観測データは、共和党が制した州（ＲｅｄＳｔａｔｅｓ）を１、民主党が制した州（ＢｌｕｅＳｔａｔｅｓ）を０とした。また、Ｌは、Ｌ∈｛５，１０，１５，２０，２５，３０｝で変化させた。

【0088】

実施例１における検定表作成装置１０で検定表を作成した上で、実施例２における検定装置２０でｐ値を算出した結果を以下の表３に示す。

【0089】

【表3】

なお、上記の表３中のＫはスキャン統計量である。

【0090】

この実験例の場合、ｐ値はいずれも大きいため、帰無仮説Ｈ_０は棄却されない（つまり、選挙結果に地域的な関連性があるとは言えない。）。

【0091】

＜ハードウェア構成＞
最後に、実施例１における検定表作成装置１０及び実施例２における検定装置２０のハードウェア構成について説明する。実施例１における検定表作成装置１０及び実施例２における検定装置２０は、例えば、図１０に示すコンピュータ３００のハードウェア構成により実現可能である。

【0092】

図１０に示すコンピュータ３００は、入力装置３０１と、表示装置３０２と、外部Ｉ／Ｆ３０３と、ＲＡＭ（Random Access Memory）３０４と、ＲＯＭ（Read Only Memory）３０５と、プロセッサ３０６と、通信Ｉ／Ｆ３０７と、補助記憶装置３０８とを有する。これらの各ハードウェアは、それぞれがバスＢを介して通信可能に接続されている。

【0093】

入力装置３０１は、例えばキーボードやマウス、タッチパネル等である。表示装置３０２は、例えばディスプレイ等である。なお、検定表作成装置１０は、入力装置３０１及び表示装置３０２の少なくとも一方を有していなくてもよい。同様に、検定装置２０は、入力装置３０１及び表示装置３０２の少なくとも一方を有していなくてもよい。

【0094】

外部Ｉ／Ｆ３０３は、外部装置とのインタフェースである。外部装置には、記録媒体３０３ａ等がある。コンピュータ３００は、外部Ｉ／Ｆ３０３を介して、記録媒体３０３ａ等の読み取りや書き込みを行うことができる。記録媒体３０３ａには、検定表作成処理部１１０を実現する１以上のプログラムや検定処理部２１０を実現する１以上のプログラム、検定表等が記録されていてもよい。

【0095】

ＲＡＭ３０４は、プログラムやデータを一時保持する揮発性の半導体メモリである。ＲＯＭ３０５は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。ＲＯＭ３０５には、例えば、ＯＳ（Operating System）に関する設定情報や通信ネットワークに関する設定情報等が格納されている。

【0096】

プロセッサ３０６は、例えばＣＰＵ（Central Processing Unit）等の演算装置である。検定表作成処理部１１０や検定処理部２１０は、例えば、補助記憶装置３０８等に格納された１以上のプログラムがプロセッサ３０６に実行させる処理により実現される。

【0097】

通信Ｉ／Ｆ３０７は、コンピュータ３００を通信ネットワークに接続するためのインタフェースである。検定表作成処理部１１０を実現する１以上のプログラムや検定処理部２１０を実現する１以上のプログラムは、通信Ｉ／Ｆ３０７を介して、所定のサーバ装置等から取得（ダウンロード）されてもよい。

【0098】

補助記憶装置３０８は、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等であり、プログラムやデータを格納している不揮発性の記憶装置である。補助記憶装置３０８に格納されるプログラムやデータには、例えば、ＯＳ、アプリケーションプログラム、検定表作成処理部１１０を実現する１以上のプログラム、検定処理部２１０を実現する１以上のプログラム等がある。

【0099】

実施例１における検定表作成装置１０や実施例２における検定装置２０は、図１０に示すコンピュータ３００のハードウェア構成を有することにより、上述した各種処理を実現することができる。なお、検定表作成装置１０や検定装置２０は、複数のコンピュータ３００のハードウェア構成で実現されていてもよい。また、コンピュータ３００は、複数のプロセッサ３０６や複数のメモリ（ＲＡＭ３０４、ＲＯＭ３０５及び補助記憶装置３０８等）を有していてもよい。

【0100】

本発明は、具体的に開示された上記の実施の形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更、組み合わせ等が可能である。

【符号の説明】

【0101】

１０検定表作成装置
２０検定装置
１１０検定表作成処理部
１１１入力部
１１２ノード選択部
１１３ＢＤＤ構築部
１１４繰り返し制御部
１２０記憶部
２１０検定処理部
２１１入力部
２１２統計量計算部
２１３有意確率計算部
２１４判定部
２２０記憶部

【図1】