(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-07-24
(45)【発行日】2024-08-01
(54)【発明の名称】データ間の依存性判定システム、データ間の依存性判定プログラム、及び、データ間の依存性判定方法
(51)【国際特許分類】
G06F 17/18 20060101AFI20240725BHJP
G06F 17/15 20060101ALI20240725BHJP
【FI】
G06F17/18 D
G06F17/15
(21)【出願番号】P 2023217006
(22)【出願日】2023-12-22
【審査請求日】2023-12-26
【早期審査対象出願】
(73)【特許権者】
【識別番号】523484013
【氏名又は名称】合同会社ふうたシステムサービス
(74)【代理人】
【識別番号】110002158
【氏名又は名称】弁理士法人上野特許事務所
(72)【発明者】
【氏名】岡田 年且
【審査官】漆原 孝治
(56)【参考文献】
【文献】池田 瑞穂,マウスカーソルの挙動データを用いた学習者の特徴分析のための可視化手法の検討 ,[online] ,情報処理学会 研究報告 教育学習支援情報システム(CLE),日本,情報処理学会,2018年03月13日,第2018-CLE-24巻,第26号,pp.1-5,[令和6年3月13日検索],インターネット<URL:https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=186874&file_id=1&file_no=1>
【文献】三浦 泰,公共施設数によるジニ係数モデルの研究,情報知識学会誌,日本,情報知識学会 ,2016年05月14日,第26巻,第2号,pp.174-179
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/18
G06F 17/15
(57)【特許請求の範囲】
【請求項1】
互いに紐付けられた2種類の数値データセットである第1データ及び第2データの入力手段と、
前記第1データの各データ値である第1データ値、及び、前記第2データの各データ値である第2データ値を、それぞれ複数の階級に分ける階級化手段と、
前記第1データのいずれかの階級において、その階級に含まれる前記第1データ値に紐付く前記第2データ値から、これら第2データ値が属する各階級の出現数を取得する分布取得手段と、
前記第2データの階級間における前記出現数の偏りを定量化する偏り評価手段と、
前記偏り又はその平均値が大きいほど、前記第2データの増減が前記第1データの増減に依存している可能性が高く、前記偏り又はその平均値が小さいほど、その可能性が低いと評価する、依存可能性評価手段と、を備える、
データ間の依存性判定システム。
【請求項2】
前記偏り評価手段は、前記第2データの各階級の前記出現数を昇順に累積したヒストグラムデータから算出したジニ係数(Gini Coefficient)で前記偏りを定量化する、
請求項1に記載のデータ間の依存性判定システム。
【請求項3】
互いに紐付けられた2種類の数値データセットである第1データ及び第2データの入力手段と、
前記第1データの各データ値である第1データ値、及び、前記第2データの各データ値である第2データ値を、それぞれ複数の階級に分ける階級化手段と、
前記第1データのいずれかの階級において、その階級に含まれる前記第1データ値に紐付く前記第2データ値から、これら第2データ値が属する各階級の出現数を取得する分布取得手段と、
前記第2データの階級間における前記出現数の偏りを定量化する偏り評価手段と、を備え、
前記第1データとなるデータセットには複数の候補があり、
前記複数の候補のうち、前記偏り評価手段により定量化された、前記第2データの階級間における前記出現数の偏り又はその平均値が、所定の大きさ以上となった候補を抽出する、第1フィルタ手段をさらに備える、
データ間の依存性判定システム。
【請求項4】
互いに紐付けられた2種類の数値データセットである第1データ及び第2データの入力手段と、
前記第1データの各データ値である第1データ値、及び、前記第2データの各データ値である第2データ値を、それぞれ複数の階級に分ける階級化手段と、
前記第1データのいずれかの階級において、その階級に含まれる前記第1データ値に紐付く前記第2データ値から、これら第2データ値が属する各階級の出現数を取得する分布取得手段と、
前記第2データの階級間における前記出現数の偏りを定量化する偏り評価手段と、を備え、
前記分布取得手段は、前記第1データの複数の階級について、階級ごとに、その階級に含まれる前記第1データ値に紐付く前記第2データ値の各階級の前記出現数を取得し、
前記偏り評価手段は、前記第1データの階級ごとに、前記第2データの階級間における前記出現数の偏りを定量化し、
前記第1データの階級ごとの、前記第2データの各階級の前記出現数の総数を重みとして、前記偏りの加重平均を求める平均化手段をさらに備える、
データ間の依存性判定システム。
【請求項5】
前記偏り評価手段は、前記第1データの階級ごとに、前記第2データの各階級の前記出現数を昇順に累積したヒストグラムデータから算出したジニ係数で前記偏りを定量化し、
前記平均化手段は、次式により前記加重平均を求める、
請求項
4に記載のデータ間の依存性判定システム。
【数1】
An:第1データの各階級
Gini
B|
An:第1データの階級ごとの第2データのジニ係数
numAn:第1データの階級ごとの前記出現数の総数
totalGini
A→B:第2データの前記偏りの加重平均
【請求項6】
互いに紐付けられた2種類の数値データセットである第1データ及び第2データの入力手段と、
前記第1データの各データ値である第1データ値、及び、前記第2データの各データ値である第2データ値を、それぞれ複数の階級に分ける階級化手段と、
前記第1データのいずれかの階級において、その階級に含まれる前記第1データ値に紐付く前記第2データ値から、これら第2データ値が属する各階級の出現数を取得する分布取得手段と、
前記第2データの階級間における前記出現数の偏りを定量化する偏り評価手段と、を備え、
前記分布取得手段はさらに、前記第2データのその全体におけるいずれかの階級について、その階級に含まれる前記第2データ値に紐付く前記第1データ値から、これら第1データ値が属する各階級の出現数を取得し、
前記偏り評価手段はさらに、前記第1データの階級間における前記出現数の偏りを定量化する、
データ間の依存性判定システム。
【請求項7】
前記偏り評価手段が定量化した、前記第2データの階級間における前記出現数の偏りと、前記第1データの階級間における前記出現数の偏りとから、これら第1データ及び第2データ間の依存の向き及び程度を評価する、非対称性判定手段をさらに備える、
請求項
6に記載のデータ間の依存性判定システム。
【請求項8】
前記第1データとなるデータセットには複数の候補があり、
前記複数の候補のうち、前記非対称性判定手段により、前記第2データが依存していること、又は、前記第2データの依存度が所定の程度以上であることが特定された候補を抽出する、第2フィルタ手段をさらに有する、
請求項
7に記載のデータ間の依存性判定システム。
【請求項9】
前記分布取得手段は、前記第1データのその全体における複数の階級について、階級ごとに、その階級に含まれる前記第1データ値に紐付く前記第2データ値の各階級の前記出現数を取得し、
前記偏り評価手段は、前記第1データの前記複数の階級のそれぞれについて、前記第2データの各階級の前記出現数を昇順に累積したヒストグラムデータから算出したジニ係数で、前記第2データの階級間における前記出現数の偏りを定量化し、
前記第1データの前記複数の階級における階級ごとの、前記第2データの各階級の前記
出現数の総数を重みとして、前記第2データの前記偏りの加重平均を求める平均化手段をさらに備え、
前記分布取得手段はさらに、前記第2データのその全体における複数の階級について、階級ごとに、その階級に含まれる前記第2データ値に紐付く前記第1データ値の各階級の前記出現数を取得し、
前記偏り評価手段はさらに、前記第2データの前記複数の階級のそれぞれについて、前記第1データの各階級の前記出現数を昇順に累積したヒストグラムデータから算出したジニ係数で、前記第1データの階級間における前記出現数の偏りを定量化し、
前記平均化手段はさらに、前記第2データの前記複数の階級における階級ごとの、前記第1データの各階級の前記出現数の総数を重みとして、前記第1データの前記偏りの加重平均を求め、
前記非対称性判定手段は、次式により、前記第1データ及び前記第2データ間の依存の向き及び程度を求める、
請求項
7に記載のデータ間の依存性判定システム。
【数2】
totalGini
A→B:第2データの前記偏りの加重平均
totalGini
B→A:第1データの前記偏りの加重平均
Dependency:第1データ及び第2データ間の依存の向き及び程度
【請求項10】
前記非対称性判定手段が評価した依存の向きをダイアグラム化して表示する視覚化手段をさらに備える、
請求項
7に記載のデータ間の依存性判定システム。
【請求項11】
互いに紐付けられた2種類のデータセットである第1データ及び第2データの入力手段と、
前記第1データの各データ値である第1データ値、及び前記第2データの各データ値である第2データ値について、該第1データ値または第2データ値が階級分け可能な数値データである場合には、これを階級に分けてその各階級をグループとし、該第1データ値または第2データ値が階級分け不能なデータである場合には、その各データ値をそれぞれグループとする、グルーピング手段と、
前記第1データのいずれかの前記グループにおいて、そのグループに含まれる前記第1データ値に紐付く前記第2データ値から、これら第2データ値が属する前記各グループの出現数を取得する分布取得手段と、
前記第2データの前記グループ間における前記出現数の偏りを定量化する偏り評価手段と、
前記偏り又はその平均値が大きいほど、前記第2データの変化が前記第1データの変化に依存している可能性が高く、前記偏り又はその平均値が小さいほど、その可能性が低いと評価する、依存可能性評価手段と、を備える、
データ間の依存性判定システム。
【請求項12】
互いに紐付けられた2種類のデータセットである第1データ及び第2データの入力手段と、
前記第1データのいずれか同一のデータ値に紐付く前記第2データのデータ値から、これら第2データの各データ値の出現数を取得する分布取得手段と、
前記第2データのデータ値間の前記出現数の偏りを定量化する偏り評価手段と、
前記偏り又はその平均値が大きいほど、前記第2データの変化が前記第1データの変化に依存している可能性が高く、前記偏り又はその平均値が小さいほど、その可能性が低いと評価する、依存可能性評価手段と、を備える、
データ間の依存性判定システム。
【請求項13】
互いに紐付けられた2種類の数値データセットである第1データ及び第2データの入力手段と、
前記第1データの各データ値である第1データ値、及び、前記第2データの各データ値である第2データ値を、それぞれ複数の階級に分ける階級化手段と、
前記第1データのいずれかの階級において、その階級に含まれる前記第1データ値に紐付く前記第2データ値から、これら第2データ値が属する各階級の出現数を取得する分布取得手段と、
前記第2データの階級間における前記出現数の偏りを定量化する偏り評価手段と、を備え、
前記第1データおよび前記第2データは経時測定データであり、
前記第1データ値および前記第2データ値を、その取得時期が共通するもの同士ではなく、その取得時期をずらして紐付けることができる、タイムラグ設定手段をさらに備える、
データ間の依存性判定システム。
【請求項14】
コンピュータを、
互いに紐付けられた2種類の数値データセットである第1データ及び第2データの入力手段、
前記第1データの各データ値である第1データ値、及び、前記第2データの各データ値である第2データ値を、それぞれ複数の階級に分ける階級化手段、
前記第1データのいずれかの階級において、その階級に含まれる前記第1データ値に紐付く前記第2データ値から、これら第2データ値が属する各階級の出現数を取得する分布取得手段、
前記第2データの階級間における前記出現数の偏りを定量化する偏り評価手段
、及び、
前記偏り又はその平均値が大きいほど、前記第2データの増減が前記第1データの増減に依存している可能性が高く、前記偏り又はその平均値が小さいほど、その可能性が低いと評価する、依存可能性評価手段として機能させる、
データ間の依存性判定プログラム。
【請求項15】
互いに紐付けられた2種類の数値データセットである第1データ及び第2データを入力する入力ステップと、
前記第1データの各データ値である第1データ値、及び、前記第2データの各データ値である第2データ値を、それぞれ複数の階級に分ける階級化ステップと、
前記第1データのいずれかの階級において、その階級に含まれる前記第1データ値に紐付く前記第2データ値から、これら第2データ値が属する各階級の出現数を取得する分布取得ステップと、
前記第2データの階級間における前記出現数の偏りを定量化する偏り評価ステップと、
前記偏り又はその平均値が大きいほど、前記第2データの増減が前記第1データの増減に依存している可能性が高く、前記偏り又はその平均値が小さいほど、その可能性が低いと評価する、依存可能性評価ステップと、を含む、
データ間の依存性判定方法。
【請求項16】
互いに紐付けられた2種類の数値データセットである第1データ及び第2データを入力する入力ステップと、
前記第1データの各データ値である第1データ値、及び、前記第2データの各データ値である第2データ値を、それぞれ複数の階級に分ける階級化ステップと、
前記第1データのいずれかの階級において、その階級に含まれる前記第1データ値に紐付く前記第2データ値から、これら第2データ値が属する各階級の出現数を取得する分布取得ステップと、
前記第2データの階級間における前記出現数の偏りを定量化する偏り評価ステップと、を含み、
前記分布取得ステップにおいて、前記第2データの全ての階級のうち、前記出現数がゼロの階級の数がその総数の所定の割合を超えた場合には、前記階級化ステップに戻って、前記第1データ値および前記第2データをより少ない数の階級に分ける、
データ間の依存性判定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はデータ解析技術に関する。
【背景技術】
【0002】
下記特許文献1には、変数間の依存関係を示すベイジアンネットモデルの作成方法が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
データ間の依存関係の解析手法として、ベイズ推定(ベイジアンネット)が広く利用されている。ベイズ推定は、事後確率の計算に多次元積分が必要になることがあり、多数のパラメータを含む複雑な依存関係のモデルでは、その積分計算が長時間に及ぶことがある。また、ベイズ推定の計算には通常、マルコフ連鎖モンテカルロ(MCMC)法やその他のサンプリング手法が用いられるが、これらは多くの反復計算を必要とするため、計算量が膨大になりやすい。さらに、多くの特徴や観測点を持つ高次元データセットでは、いわゆる「次元の呪い」と呼ばれる現象が発生し、計算の効率が悪化するという課題もある。
【0005】
ベイズ推定を用いた依存関係の解析は、このような高い計算コストにより、これをリアルタイムでのデータ分析やオンライン学習等に適用することは困難である。また、ベイズ推定は計算リソース(CPU、メモリ、場合によってはGPU)を多く消費するため、リソースに制限がある環境ではその処理に著しく長い時間がかかってしまうことがある。
【0006】
このような問題に鑑み、本発明が解決しようとする課題は、データ間の依存関係をより効率的に、高速に、判定可能とすることにある。
【課題を解決するための手段】
【0007】
上記課題を解決するため、本発明におけるデータ間の依存性判定システムは、互いに紐付けられた2種類の数値データセットである第1データ及び第2データの入力手段と、前記第1データの各データ値である第1データ値、及び、前記第2データの各データ値である第2データ値を、それぞれ複数の階級に分ける階級化手段と、前記第1データのいずれかの階級において、その階級に含まれる前記第1データ値に紐付く前記第2データ値から、これら第2データ値が属する各階級の出現数を取得する分布取得手段と、前記第2データの階級間における前記出現数の偏りを定量化する偏り評価手段と、を備えることを要旨とする。
【0008】
互いに紐付けられたデータセットをそれぞれ階級に分け、一方のデータセットのある階級における他方のデータの各階級の出現数の偏りからデータ間の依存性を判定することにより、変数やデータ数の増加に対する計算量の指数関数的な増加を抑え、速やかに判定結果を得ることができる。
【0009】
より具体的には、例えば仮に第1データと第2データとの間に依存関係が存在する場合、すなわち、第1データの増減や変化に連動して第2データが増減・変化している場合、第1データのある階級に含まれる第1データ値に紐付く第2データ値は、比較的近い値に集中するはずである。つまり第2データの全ての階級のうち、その特定の階級に属する第2データ値が、他の階級に属する第2データ値よりも多く観測されるはずである。逆に、第1データと第2データとが無関係なのであれば、そのような傾向は表れず、よりランダムな結果となる可能性が高い。この考え方に基づき、階級化されたデータセットから依存性を判定することにより、より少ない計算量で効率的にデータ間の依存性を判定することが可能となる。
【0010】
このとき、前記偏り評価手段は、前記第2データの各階級の前記出現数を昇順に累積したヒストグラムデータから算出したジニ係数(Gini Coefficient)で前記偏りを定量化することが好ましい。本発明では、第1データのいずれかの階級における第2データの各階級の出現数を集計することから、結果的にヒストグラム形式のデータが生じる。そこで、経済学において世帯数と累積所得額のヒストグラムから所得分配の不平等(偏り)を測るために用いられているジニ係数を、本システムにおける偏りの定量化に応用することで、簡易かつ実績のある方法で第2データの各階級の出願数の偏りを定量化することが可能となる。
【0011】
また、本発明の依存性判定システムは、前記偏り又はその平均値が大きいほど、前記第2データの増減が前記第1データの増減に依存している可能性が高く、前記偏りが小さいほど、その可能性が低いと評価する、依存可能性評価手段をさらに備えてもよい。
【0012】
また、本発明の依存性判定システムは、前記第1データとなるデータセットに複数の候補があり、前記複数の候補のうち、前記偏り評価手段により定量化された、前記第2データの階級間における前記出現数の偏り又はその平均値が所定の大きさ以上となった候補を抽出する第1フィルタ手段をさらに備えてもよい。例えば第2データをいわゆる目的変数(予測されるべき結果,モデルの出力値)、第1データを説明変数(目的変数を予測するための入力値)とした場合、目的変数の依存可能性(上記偏り)が小さい説明変数は、目的変数に対する説明能力が低いものと考えることができる。このことから、第1データ(説明変数)の複数の候補のうち、第2データ(目的変数)の依存可能性が低い候補を取り除くことで、例えばその後に、これら第1データ及び第2データを用いた機械学習等をより効率的に行うことが可能となる。
【0013】
また、前記分布取得手段は、前記第1データの複数の階級について、階級ごとに、その階級に含まれる前記第1データ値に紐付く前記第2データ値の各階級の前記出現数を取得し、前記偏り評価手段は、前記第1データの階級ごとに、前記第2データの階級間における前記出現数の偏りを定量化し、前記第1データの階級ごとの、前記第2データの各階級の前記出現数の総数を重みとして、前記偏りの加重平均を求める平均化手段をさらに備えることが好ましい。第1データの複数の階級を対象としてデータ間の依存可能性を判定することにより、より信頼性の高い判定結果を得ることができる。
【0014】
このとき、前記偏り評価手段は、前記第1データの階級ごとに、前記第2データの各階級の前記出現数を昇順に累積したヒストグラムデータから算出したジニ係数で前記偏りを定量化し、前記平均化手段は、次式により前記加重平均を求めてもよい。
【数1】
An:第1データの各階級
Gini
B|
An:第1データの階級ごとの第2データのジニ係数
numAn:第1データの階級ごとの前記出現数の総数
totalGini
A→B:第2データの前記偏りの加重平均
【0015】
また、前記分布取得手段はさらに、前記第2データのその全体におけるいずれかの階級について、その階級に含まれる前記第2データ値に紐付く前記第1データ値から、これら第1データ値が属する各階級の出現数を取得し、前記偏り評価手段はさらに、前記第1データの階級間における前記出現数の偏りを定量化することが好ましい。
【0016】
このとき、本発明の依存性判定システムは、前記偏り評価手段が定量化した、前記第2データの階級間における前記出現数の偏りと、前記第1データの階級間における前記出現数の偏りとから、これら第1データ及び第2データ間の依存の向き及び程度を評価する、非対称性判定手段をさらに備えることが好ましい。
【0017】
またこのとき、本発明の依存性判定システムは、前記第1データとなるデータセットに複数の候補があり、前記複数の候補のうち、前記非対称性判定手段により、前記第2データが依存してること、又は、前記第2データの依存度が所定の程度以上であることが特定された候補を抽出する、第2フィルタ手段をさらに有してもよい。その目的、効果は、上述の第1フィルタ手段と同様である。
【0018】
第1データと第2データとを相互に入れ替えて(目的変数と説明変数とを相互に入れ替えて)、同様の手法でデータ間の依存性を判定することにより、これらのデータの依存の向きとその程度を特定することができる。例えば、第1データのいずれかの階級に紐付く第2データの階級数に明らかな偏りが見受けられたとしても、それは、第1データが第2データに依存しているのか、それとも第2データが第1データに依存しているのか定かでない。第1データと第2データの位置づけを相互に入れ替えて依存可能性を判定することにより、これらの偏り(依存可能性)の差から、その依存の向きと程度を特定することが可能になる。
【0019】
また、本発明の依存性判定システムは、前記分布取得手段は、前記第1データのその全体における複数の階級について、階級ごとに、その階級に含まれる前記第1データ値に紐付く前記第2データ値の各階級の前記出現数を取得し、前記偏り評価手段は、前記第1データの前記複数の階級のそれぞれについて、前記第2データの各階級の前記出現数を昇順に累積したヒストグラムデータから算出したジニ係数で、前記第2データの階級間における前記出現数の偏りを定量化し、前記第1データの前記複数の階級における階級ごとの、前記第2データの各階級の前記出願数の総数を重みとして、前記第2データの前記偏りの加重平均を求める平均化手段をさらに備え、前記分布取得手段はさらに、前記第2データのその全体における複数の階級について、階級ごとに、その階級に含まれる前記第2データ値に紐付く前記第1データ値の各階級の前記出現数を取得し、前記偏り評価手段はさらに、前記第2データの前記複数の階級のそれぞれについて、前記第1データの各階級の前記出現数を昇順に累積したヒストグラムデータから算出したジニ係数で、前記第1データの階級間における前記出現数の偏りを定量化し、前記平均化手段はさらに、前記第2データの前記複数の階級における階級ごとの、前記第1データの各階級の前記出現数の総数を重みとして、前記第1データの前記偏りの加重平均を求め、前記非対称性判定手段は、次式により、前記第1データ及び前記第2データ間の依存の向き及び程度を求めてもよい。
【数2】
totalGini
A→B:第2データの前記偏りの加重平均
totalGini
B→A:第1データの前記偏りの加重平均
Dependency:第1データ及び第2データ間の依存の向き及び程度
【0020】
また、本発明の依存性判定システムは、前記非対称性判定手段が評価した依存の向きをダイアグラム化して表示する視覚化手段をさらに備えてもよい。
【0021】
また、上記課題を解決するため、本発明におけるデータ間の依存性判定システムは、互いに紐付けられた2種類のデータセットである第1データ及び第2データの入力手段と、前記第1データの各データ値である第1データ値、及び前記第2データの各データ値である第2データ値について、該データ値が階級分け可能な数値データである場合には、これを階級に分けて各階級をグループとし、該データ値が階級分け不能なデータである場合には、各データ値をそれぞれグループとする、グルーピング手段と、前記第1データのいずれかの前記グループにおいて、そのグループに含まれる前記第1データ値に紐付く前記第2データ値から、これら第2データ値が属する前記各グループの出現数を取得する分布取得手段と、前記第2データの前記グループ間における前記出現数の偏りを定量化する偏り評価手段と、を備えることを要旨とする。
【0022】
また、上記課題を解決するため、本発明におけるデータ間の依存性判定システムは、互いに紐付けられた2種類のデータセットである第1データ及び第2データの入力手段と、前記第1データのいずれか同一のデータ値に紐付く前記第2データのデータ値から、これら第2データの各データ値の出現数を取得する分布取得手段と、前記第2データのデータ値間の前記出現数の偏りを定量化する偏り評価手段と、を備えることを要旨とする。
【0023】
本発明におけるデータ間の依存性判定システムは、数値データセット同士のみでなく、一方が例えばカテゴリデータのような階級分け不能なデータであっても、さらには、両方のデータが階級分け不能なデータであっても、同様の手法によりデータ間の依存性を判定することができる。
【0024】
また、データ間の依存性判定システムは、前記第1データおよび前記第2データが経時測定データであり、前記第1データ値および前記第2データ値を、その取得時期が共通するもの同士ではなく、その取得時期をずらして紐付けることができる、タイムラグ設定手段をさらに備えてもよい。本発明の依存性判定システムを時系列データに応用することにより、第1データと、その第1データとは時間軸をずらした第2データとの間の依存関係の有無を判定することができる。これにより、例えばある事象が生じる兆候を特定するようなデータ解析が可能となる。
【0025】
また、上記課題を解決するため、本発明におけるデータ間の依存性判定プログラムは、コンピュータを、互いに紐付けられた2種類の数値データセットである第1データ及び第2データの入力手段、前記第1データの各データ値である第1データ値、及び、前記第2データの各データ値である第2データ値を、それぞれ複数の階級に分ける階級化手段、前記第1データのいずれかの階級において、その階級に含まれる前記第1データ値に紐付く前記第2データ値から、これら第2データ値が属する各階級の出現数を取得する分布取得手段、及び、前記第2データの階級間における前記出現数の偏りを定量化する偏り評価手段として機能させることを要旨とする。本発明の各構成の意図や効果、原理は上述の依存性判定システムと同様である。
【0026】
また、上記課題を解決するため、本発明におけるデータ間の依存性判定方法は、互いに紐付けられた2種類の数値データセットである第1データ及び第2データを入力するステップと、前記第1データの各データ値である第1データ値、及び、前記第2データの各データ値である第2データ値を、それぞれ複数の階級に分けるステップと、前記第1データのいずれかの階級において、その階級に含まれる前記第1データ値に紐付く前記第2データ値から、これら第2データ値が属する各階級の出現数を取得するステップと、前記第2データの階級間における前記出現数の偏りを定量化するステップと、を含むことを要旨とする。本発明の各ステップの意図や効果、原理は上述の依存性判定システムと同様である。
【0027】
このとき、前記分布取得ステップにおいて、前記第2データの全ての階級のうち、前記出現数がゼロの階級の数がその総数の所定の割合を超えた場合には、前記階級化ステップに戻って、前記第1データ値および前記第2データをより少ない数の階級に分けことが好ましい。適切な階級数を設定することで依存性の判定精度が高められるからである。
【発明の効果】
【0028】
このように、本発明によれば、データ間の依存関係をより効率的に、高速に、判定することが可能となる。
【図面の簡単な説明】
【0029】
【
図1】第1実施形態に係る依存性判定システムの機能構成を示すブロック図である。
【
図2】依存性判定方法の流れを示すフローチャートである。
【
図3】不動産価格データセットの一部を示す図である。
【
図4】階級化手段により階級分けされた第1データ値および第2データ値の様子を示す図である。
【
図5】分布取得手段により階級頻度が集計される過程を示す説明図である。
【
図6】階級頻度の偏りを偏り評価手段によって定量化する様子を示す説明図である。
【
図7】視覚化手段によりダイアグラム化されたデータセット間の依存の向き及び程度を示す図である。
【
図8】第2実施形態に係る依存性判定システムの機能構成を示すブロック図である。
【
図9】職業-給与データセットの一部を示す図である。
【
図10】グルーピング手段によりグループ分けされた第1データ値および第2データ値の様子を示す図(a)、並びに、分布取得手段により第2データの階級頻度を求める過程を示す図(b)である。
【
図11】第2実施形態において、労働者の職業を示す「職業」という項目が第1データとして、労働者の人種を示す「人種」という項目が第2データとして選択された様子を示す図である。
【
図12】第3実施形態に係る依存性判定システムの機能構成を示すブロック図である。
【
図13】異常監視データセットの一部を示す図である。
【
図14】第4実施形態に係る依存性判定システムの機能構成を示すブロック図である。
【発明を実施するための形態】
【0030】
<第1実施形態>
以下、本発明の実施形態について図面を参照して説明する。以下に説明するデータ間の依存性判定システム11(以下、単に「依存性判定システム11」という。)は、互いに紐付けられた数値データセット間の依存性の有無、依存の向き、及び依存度を判定するシステムである。ここで、データセット間の「依存」、「依存性」、及び「依存関係」とは、一方のデータの挙動が他方のデータによって影響を受ける関係、すなわち、一方のデータが他方のデータの増減や変化に連動して増減したり変化したりすることを意味している。これは、相関関係のように双方向性があるとは限らず、一方向にのみ影響を与える関係も含んでいる。またこれは因果関係とも異なり、直接的に原因と結果の関係を示すものではない。そして「依存度」とは、その依存の程度を意味している。また、「依存可能性」とは、一方のデータの増減・変化に対して他方のデータも増減・変化している度合いを示す指標である。いずれか一方向の依存可能性のみでは依存の向きを確定させることはできない。
【0031】
(システム構成)
図1は、依存性判定システム11の機能構成を示すブロック図である。本形態の依存性判定システム11は、一般的なパーソナルコンピュータに専用のアプリケーションプログラムをインストールすることで構成されている。
【0032】
図1に示すように、本形態の依存性判定システム11は、主に、入力手段21、階級化手段31、分布取得手段41、偏り評価手段42、平均化手段43、依存可能性評価手段44、非対称性判定手段51、及び視覚化手段91により構成されている。これらの手段は、上記アプリケーションがパーソナルコンピュータの機能を利用することで実現されている。
【0033】
本形態の依存性判定システム11、つまり上記アプリケーションプログラムは、特別なハードウェアを必要とするものでも、特定のハードウェアに限定されるものでもなく、例えば一般的なスマートフォンやシングルボードコンピュータにインストールされてもよい。又は、例えば一般的なウェブブラウザをユーザインタフェースとしたクラウドサービス(SaaS)として提供することもできる。或いは、上記アプリケーションプログラムの各機能を複数のサーバコンピュータに分散配置し、これらをネットワークで接続することで大規模な依存性判定システム11を構成してもよい。
【0034】
(依存性判定方法概要)
図2は、依存性判定システム11による依存性判定方法の流れを示すフローチャートである。各ステップの詳細については後述するが、まずはこれらの大まかな内容と、依存性判定システム11が備える各手段との関係について概説する。
【0035】
本形態の依存性判定システム11は、データ間の依存性を判定するにあたり、まず、その判定対象となる数値データセットである第1データA及び第2データBを入力手段21により読み込む(ステップ10)。
【0036】
その後、依存性判定システム11は、階級化手段31により、第1データAの各データ値である第1データ値Av、及び第2データBの各データ値である第2データ値Bvをそれぞれ階級An,Bnに分ける(ステップ20)。
【0037】
その後、依存性判定システム11は、第2データBの第1データAに対する依存性の解析を開始する。ここで、以下の説明における「A→B」とは第1データAの変化が第2データBに影響を与える関係、つまり第2データBが第1データAに依存している関係を意味しており、「B→A」は第2データBの変化が第1データAに影響を与える関係、つまり第1データAが第2データBに依存している関係を意味している。
【0038】
依存性判定システム11は、A→Bの依存可能性を判定するにあたり、まず、分布取得手段41により、第1データAのある階級Anに含まれる第1データ値Avに紐付く第2データ値Bvから、これら第2データ値Bvが属する各階級Bnの出現数(以下、この出現数のことを「階級頻度Bf」ともいう。)を取得する(ステップ31)。そして、偏り評価手段42により、第2データBの階級Bn間における階級頻度Bfの偏りを定量化する(ステップ32)。ここで、階級頻度Bfが「偏っている」とは、第2データBの特定の階級Bnが他の階級Bnよりも有意に多く出現していることをいい、「偏っていない」とは、第2データBの各階級Bnがランダムに出現しており、有意差を認めにくいことをいう。本形態の分布取得手段41及び偏り評価手段42は、第1データAの全ての階級Anについて同様の処理(ステップ31及び32)を繰り返す。
【0039】
その後、依存性判定システム11は、平均化手段43により、第1データAの各階級Anにおける階級頻度Bfの偏り値について加重平均をとる(ステップ33)。本形態では、この加重平均が、第2データBの第1データAに対する依存可能性を示す数値となる。仮に第2データBが第1データAに依存している場合、偏りはより大きくなり、依存関係が存在しない場合は偏りが小さくなる(よりランダムな結果となる)可能性が高くなる。つまり、偏りが大きいほど、第2データBの増減が第1データAの増減に依存している可能性が高く、偏りが小さいほど、その可能性が低いということである。
【0040】
第2データBの第1データAに対する依存可能性は上記加重平均によって評価可能であるため、この時点で、依存可能性評価手段44により、その依存可能性の高低を評価してもよい(ステップ34)。依存可能性評価手段44は単に上記加重平均の値を表示するだけでもよく、又はこれをユーザにとって直感的に理解しやすい形に加工して表示してもよい。尚、本形態ではこれらデータセット間の依存性をここからさらに深く解析するため、ステップ34は省略してもよい。
【0041】
依存性判定システム11は、上記加重平均の算出後、次はB→Aの依存可能性を判定する。具体的には、第1データAと第2データBの位置づけを入れ替え、ステップ31から34と同様の処理を繰り返す(ステップ41から44)。すなわち、第2データBの第1データAに対する依存可能性だけでなく、第1データAの第2データBに対する依存可能性も取得する。
【0042】
その後、依存性判定システム11は、A→B及びB→Aにおける偏りの加重平均(依存可能性)を基に、非対称性判定手段51により、これらデータセット間の依存の向き、及び程度を最終評価する。具体的には、A→B及びB→Aにおける偏り加重平均を比較し、偏りのより小さな方からより大きな方へ依存方向が向かい、つまり、A→B及びB→Aのうち、偏りのより大きな方が依存方向であると評価し、その偏りの差が依存度の高低を表すものと評価する。
【0043】
その後、依存性判定システム11は、非対称性判定手段51が評価したこれらデータセット間の依存の向き及び程度を、視覚化手段91によりダイアグラム化して表示する。具体的にはデータセット間の依存方向をノード間の矢印で示し、依存度を数値で表示する。
【0044】
(依存性判定方法詳細)
以下、依存性判定システム11による依存性判定方法について、具体例を用いてより詳細に説明する。
図3は、この説明のために用意した架空のデータセットである不動産価格データセットの一部を示している。不動産価格データセットは不動産の価値に影響を与え得る指標を町ごとにまとめたCSV形式のデータである。
【0045】
上記ステップ10(データセットの入力)では、依存性判定システム11のユーザが、入力手段21を用いてこの不動産価格データセットをロードする。以降の説明では、ユーザは、人口一人あたりの犯罪リスクを示す「犯罪率/人」という項目を第1データAとして、そして街あたりの非小売業務用地の割合を示す「工業用地割合」という項目を第2データBとして選択したものとする。ここでユーザが選択する項目は任意である。
【0046】
尚、本形態の入力手段21は、CSV形式のデータファイルをその入力対象としてサポートしているが、例えばJSONやXML等、他の形式のデータファイルを入力可能としてもよく、又は、図示しないデータベースシステムからデータセットを抽出したり、インターネット上のデータソースからデータセットをダウンロードしたりしてもよい。
【0047】
上記ステップ20(階級分け)では、依存性判定システム11は、階級化手段31により第1データA及び第2データBをそれぞれ階級An,Bnに分ける。
図4は、階級化手段31により階級分けされた第1データ値Av及び第2データ値Bvの様子を示している。
図4の第1データ値Av及び第2データ値Bvは、それぞれ10の階級An,Bnに分けられ、各データ値Av,Bvには0-9の階級番号(階級#)が付されている。尚、「階級」は「BIN」と読み替えても構わない。
【0048】
尚、
図4は、依存性判定システム11による依存性判定方法の過程を説明するための便宜上の図であり、
図4に示すテーブルデータがユーザに表示されるとは限らない。このことは後に参照する
図5及び
図6等についても同様である。また、階級化手段31はユーザの明示的な指示により実行されてもよく、つまり手動で実行されてもよく、入力手段21によるデータセットの入力後、又はユーザによる項目の選択後、自動的に実行されてもよい。このこと(その実行が手動・自動によらないこと)は、分布取得手段41、偏り評価手段42、平均化手段43、依存可能性評価手段44、非対称性判定手段51、視覚化手段91についても同様である。
【0049】
図5は、分布取得手段41により階級頻度Bfが集計される過程を示す図である。第1データA及び第2データBの階級化後、依存性判定システム11は、A→Bの依存可能性について解析を始める。上記ステップ31(階級頻度の取得)では、分布取得手段41は、まず第1データAの階級#「0」に含まれる第1データ値Avに紐付く第2データ値Bvから、これら第2データ値Bvが属する各階級Bnの階級頻度Bfを取得する。
【0050】
図6は、第1データAの階級#「0」における階級頻度Bfの偏りを偏り評価手段42によって定量化する様子を示す説明図である。
図6(a)は、偏りを定量化するにあたっての階級頻度Bfの加工の過程を示しており、
図6(b)は、加工された階級頻度Bfからジニ係数を算出する際の考え方を説明するための参考図である。
【0051】
ステップ32(偏りの定量化)において、偏り評価手段42は、まず、分布取得手段41が集計した階級頻度Bfを昇順に並べ替える。そしてその並べ替えた階級頻度Bfaからこれを累積した累積階級頻度Bfcをとる。そして累積階級頻度Bfcから、縦軸を累積階級頻度Bfc、横軸を階級数Bcとするヒストグラムデータ(
図6(b))を作成する。ここで、階級数Bcは、階級Bnとは異なり、単に累積した階級Bnの数をカウントした数値である。
【0052】
そして、偏り評価手段42は、ヒストグラムデータのプロットエリア上に、各階級数Bcにおける累積階級頻度Bfcの頂部(各BINの頂部の中心)を直線でつないだローレンツ曲線があるものとして、そのプロットエリアにおけるローレンツ曲線よりも下の部分の面積を計算する。具体的には、隣接する各階級数Bcの累積階級頻度Bfcを上底および下底とし、隣接する階級数Bcの差である1を高さとする台形の面積の総和(合計面積)を求める。例えば
図6(b)のハッチングを施した部分であれば、次式によりその台形面積を求めることができる。
(129+185)/2=157
【0053】
そして、偏り評価手段42は、同プロットエリアにおける原点からの対角線である均等分配線(完全平等線ともいう。)を斜辺とする直角三角形の面積(基準面積)を算出し、台形の合計面積とその基準面積との差(面積差)、つまり均等分配線とローレンツ曲線により区画される領域の面積を求める。そして、この基準面積と面積差とからジニ係数を算出する。具体的には、上記面積差を基準面積で割った数をジニ係数とする。ジニ係数は、これが0に近いほど偏りが少なく、これが1に近いほど偏りが大きいものとして、偏りを定量化する。
【0054】
ここで、仮に第2データBが第1データAに依存している場合、第1データAの各階級Anに含まれる第1データ値Avに紐付く第2データ値Bvは、比較的近い値に集中するはずである。つまり第2データBの全ての階級Bnのうち、その特定の階級Bnに属する第2データ値Bvが、他の階級Bnに属する第2データ値Bvよりも有意に多く観測されるはずである。逆に、第2データBが第1データAに依存していなければ、そのような傾向は表れず、よりランダムな結果となる可能性が高い。
【0055】
仮にこのジニ係数が「1」であれば、第2データBが第1データAに依存している可能性は極めて高く、これが「0」であれば依存している可能性はほぼない。すなわち、「0」から「1」に近づくにつれて依存可能性は高くなり、「1」から「0」に近づくにつれて依存可能性は低くなる。ここで、依存可能性が「高い」又は「低い」と判断する基準は、データセットの性質や、その依存可能性の用途等によって変動するため、一律の固定値をもってこれを判断することはできない。よってここで取得された依存可能性を何らかの用途に応用する場合には、その目的やデータセットの性質に応じた基準値を個別に設定することが望ましい。
【0056】
また、本形態の依存性判定システム11では、第1データAの各階級Anにおける第2データBの階級頻度Bfを集計することから、結果的にヒストグラム形式のデータが生じることとなる。そこで、経済学において世帯数と累積所得額のヒストグラムから所得分配の不平等(偏り)を測るために用いられているジニ係数を、本システムにおける偏りの定量化に応用することで、依存性判定システム11では、簡易かつ実績のある方法により階級頻度Bfの偏りを定量化することが実現されている。尚、偏りの評価はジニ係数を用いた方法には限られず、例えばエントロピーなど、他の公知の手法を用いることもできる。その他、偏りの定量化さえ可能であれば、独自の方法を採用してもよい。
【0057】
本形態の分布取得手段41及び偏り評価手段42は、ステップ31及び32を繰り返し、第1データAの全ての階級Anについて、階級頻度Bfのジニ係数を取得する。
【0058】
そしてステップ33(偏り値の平均化)では、依存性判定システム11は、平均化手段43により、第1データAの各階級Anにおける階級頻度Bfの総数を重みとして、ジニ係数の加重平均をとる。具体的には、平均化手段43は、次式によりジニ係数の加重平均(totalGini
A→B)を求める。
【数1】
An:第1データAの各階級An
Gini
B|
An:第1データAの階級Anごとの第2データBのジニ係数
numAn:第1データAの階級Anごとの階級頻度Bfの総数
totalGini
A→B:第2データBのジニ係数の加重平均
【0059】
ここで、本形態においては、第1データAの全ての階級Anにおける階級頻度Bfのジニ係数を取得し、その加重平均をとることでジニ係数の信頼性を高めているが、ジニ係数は、必ずしも第1データAの全ての階級Anにおいて取得しなければならないわけではなく、その平均方法も常に加重平均でなければならないわけではい。例えば第1データAの階級#「0」についてのジニ係数を取得するだけでも、一応はA→Bの依存可能性を判定することはできる。
【0060】
上でも述べたように、この加重平均によって第2データBの第1データAに対する依存可能性は結論づけられるため、ステップ34(依存可能性の評価)において依存可能性評価手段44により、その依存可能性の高低を評価することも可能である。但し、この依存可能性のみによっては依存の向きを確定させることはできない。この依存可能性は、あくまで第1データAの増減・変化に対して第2データBも増減・変化している度合いの高低、つまりA→Bのデータ連動率を示すにとどまる。一方で、このデータの連動率に関心が向けられる用途(例えば後段の第4実施形態において第1フィルタ手段81を用いる場合など)では、この依存可能性のみでも一応の判定結果・効果を得ることはできる。
【0061】
ここまでのステップにより、A→Bの依存可能性の判定が完了する。但し、上でも述べたように、仮にここで高い依存可能性が得られたとしても、それは、第1データAが第2データBに依存しているのか、それとも第2データBが第1データAに依存しているのか、この時点では定かでない。そこで、ステップ41から44では、第1データAと第2データBとを入れ替えて、同様の手法でB→Aの依存可能性を判定する。両方向のジニ係数の加重平均(依存可能性)の差から、これらの依存の向きと程度を特定することができる。尚、本形態では、説明の便宜上、A→Bの依存可能性の判定と、B→Aの依存可能性の判定とを直列的に実行しているが、これらは並列・並行に実行されてもよい。
【0062】
その後、ステップ50(依存の非対称性判定)では、依存性判定システム11は、非対称性判定手段51により、第1データA及び第2データB間の依存の向き及び程度を算出する。具体的には、非対称性判定手段51は、次式により依存の向き及び程度(Dependency)を算出する。
【数2】
totalGini
A→B:第2データBのジニ係数の加重平均
totalGini
B→A:第1データAのジニ係数の加重平均
Dependency:第1データA及び第2データB間の依存の向き及び程度
【0063】
ここで、非対称性判定手段51による計算結果が1より大きければ、A→B、つまり第2データBが第1データAに依存しているということであり、1より小さければ、B→A、つまり第1データAが第2データBに依存しているということである。そして、数直線上における1からのDependencyの距離がその依存の程度を示す。ここで、A→Bの関係が成立する場合のDependencyの最大値は無限大であるが、B→Aの関係にある場合のDependencyは1から0までの値となる。よって、B→Aの関係となる場合はその分子と分母を入れ替えて正方向の依存度を取得するか、又はDependencyの対数から絶対値を求めるようにしてもよい。
【0064】
そして最後に、ステップ60(依存関係の視覚化)において、依存性判定システム11は、非対称性判定手段51による評価結果を基に、これを視覚化手段91でダイアグラム化する。
図7は、視覚化手段91によりダイアグラム化されたデータセット間の依存の向き及び程度を示す図である。このダイアグラム中の「CRIM」が第1データAを指しており、「INDUS」が第2データBを指している。本例では、第1データAが第2データBに依存する(B→A)という結果になっている。尚、
図7は、「CRIM」及び「INDUS」だけでなくより多くの項目について依存性の判定を行った結果を示している。
【0065】
このように、本形態の依存性判定システム11は、互いに紐付けられたデータセットをそれぞれ階級に分け、一方のデータセットのある階級における他方のデータの階級頻度の偏りからデータ間の依存性を判定することにより、変数(項目)やデータ数の増加に対する計算量の指数関数的な増加を抑え、速やかに判定結果を得ることを可能としている。より具体的には、依存性判定システム11によれば、判定対象の項目数が増えても、その計算量の増加は次式程度に収まる。
O(m×n2)
o:計算量
n:変数(項目)の数
m:データ数
【0066】
尚、本形態では第1データ値Av及び第2データ値Bvをそれぞれ10の階級に分けて互いの依存可能性を判定しているが、階級An,Bnの数は10には限られず、任意に調節可能である。但し少なくともデータセットのサンプリング間隔よりは大きくすべきである。例えばレンジが0.1~1.0で、増減単位が0.1のデータセットの場合には、これを10以上の階級に分けるべきではない。仮に階級An,Bnの数が過多であるように見受けられた場合には、以下の手順により、階級数を最小で5まで減らすことを検討してもよい。
(1)階級頻度がゼロの階級の数を確認する
(2)その数が階級数の3割以下であれば、階級数を減らす必要はない(検討終了)
(3)その数が階級数の4割よりも多ければ、3割以下となるよう階級数を減らす
(4)階級数が最小値である5になった場合には階級数を5に決定する(検討終了)
【0067】
<第2実施形態>
以下、本発明の第2実施形態について説明する。
図8は、本形態にかかる依存性判定システム12の機能構成を示すブロック図である。依存性判定システム12は、先の実施形態における依存性判定システム11とは異なり、数値データセットのみでなく、階級分け不能なデータセットであってもデータセット間の依存性を判定することができる。具体的には、依存性判定システム12は、依存性判定システム11の階級化手段31に代えて、数値データ以外もサポートするグルーピング手段32を備えている。その他の機能構成や依存性判定方法は依存性判定システム11と同様であるため、以下、重複する説明は省略し、相違点にのみ焦点をあてて説明する。
【0068】
図9は、依存性判定システム12の説明において使用する架空のデータセットである職業-給与データセットの一部を示している。職業-給与データセットは各労働者の職業および給与とこれらに影響を与え得る属性をまとめたCSV形式のデータである。
【0069】
上記ステップ10(データセットの入力)では、依存性判定システム12のユーザは、入力手段21を用いてこの職業-給与データセットをロードし、労働者の最終学歴を数値化した「教育レベル」という項目を第1データCとして、労働者の給与を示す「給与」という項目を第2データDとして選択したものとする。
【0070】
図10(a)は、グルーピング手段32によりグループ分けされた第1データ値Cv及び第2データ値Dvの様子を示している。上記ステップ20(階級分け)では、依存性判定システム12は、グルーピング手段32により、階級分け不能な数値データである第1データCの各第1データ値CvをそれぞれグループCgとし、階級分け可能な数値データである第2データDについては、これを10の階級Dgに分け、第2データ値Dvのそれぞれに0-9の階級番号(階級#)を付けている。
【0071】
図10(b)は、分布取得手段41により、グループCg「1」における第2データDの階級頻度を求める過程を示している。ステップ31(階級頻度の取得)において、分布取得手段41は、グループCg「1」の第1データ値Cv(同様に第1データ値Cvも「1」である。)に紐付く第2データ値Dvから、これら第2データ値Dvが属する各階級Dnの階級頻度(図示せず)を取得する。以降のステップにおいては、グループCgを先の実施形態の階級An、グループDgを階級Bnとして、先の実施形態と同様の手順で依存性を判定することができる。
【0072】
図11は、ステップ10(データセットの入力)において、依存性判定システム12のユーザが、労働者の職業を示す「職業」という項目を第1データEとして、労働者の人種を示す「人種」という項目を第2データFとして選択した様子を示している。この場合、上記ステップ20において、グルーピング手段32は、階級分け不能なカテゴリデータである第1データEの各第1データ値EvをそれぞれグループEgとし、同じく階級分け不能なカテゴリデータである第1データFの各第2データ値FvをそれぞれグループFgとする。この場合も、以降のステップにおいて、グループEgを先の実施形態の階級An、グループFgを階級Bnとして、先の実施形態と同様の手順で依存性を判定することができる。
【0073】
このように、依存性判定システム12は、階級分け不能なデータセットについては、そのデータ値自体を階級と同じ扱いにすることで、階級分け不能なデータセットについても他のデータセットとの依存性の判定を可能としている。
【0074】
<第3実施形態>
以下、本発明の第3実施形態について説明する。
図12は、本形態にかかる依存性判定システム13の機能構成を示すブロック図である。依存性判定システム13は、先の実施形態における依存性判定システム12の機能に加え、タイムラグ設定手段71を備えている。タイムラグ設定手段71は、本来その取得時期が共通することで紐付けられている経時測定データのペアを、その取得時期をずらして紐付けることができる機能である。その他の機能構成や依存性判定方法は依存性判定システム12と同様であるため、以下、重複する説明は省略し、相違点にのみ焦点をあてて説明する。
【0075】
図13(a)は、依存性判定システム13において使用する架空のデータセットである、異常監視データセットの一部を示している。異常監視データセットは、例えば設備や機器等の異常の有無(状況M)とそのときの監視センサの値S1,S2をまとめたCSV形式の経時測定データである。異常監視データセットは、
図13(a)に示すように、本来、その取得時刻Tによって状況Mとセンサ値S1,S2とが紐付けられたデータセットである。尚、センサ値S1及びS2は直接的に異常の有無を示すデータではない。
【0076】
本形態の依存性判定システム13は、上記ステップ10(データセットの入力)における異常監視データセットの入力後、タイムラグ設定手段71により、これら状況Mとセンサ値S1,S2とを任意の時間幅ずらして紐付けることができる。
図13(b)は、タイムラグ設定手段71により、各状況Mに対して、その取得時刻Tよりも過去に取得されたセンサ値S1,S2を紐付ける様子を示す図である。図中の「センサ1-1」列から「センサ2-3」列までの項目は、各状況Mに対してセンサ値S1,S2を段階的に過去にずらしながら紐付けている項目である。例えば、「センサ1-1」列および「センサ2-1」列では、時刻T「5」に取得された状況M「正常」に対して、時刻T「4」に取得されたセンサ値S1「Value41」とセンサ値S2「Value42」が紐付けられている。
【0077】
ユーザは、状況Mを第2データ、過去にずらして紐付けられたいずれかのセンサ値S1又はS2の項目を第1データとして、先の実施形態と同様の方法でこれらデータセット間の依存関係を判定することができる。これにより、例えばある事象が生じる兆候を特定するようなデータ解析が可能となる。
【0078】
このように、依存性判定システム13では、直接的な紐付けのないデータから依存関係を検出するにあたり、機械学習を用いるよりも大幅に少ない計算量、大幅に短い時間でその結果を得ることができる。例えばニューラルネットワークでは反復計算が用いられるため、必要な計算量は非常に大きくなる。また、多くの機械学習手法でも、ニューラルネットワークほどではないものの、反復計算が必要になる。つまり、依存性判定システム13の利点の一つは、「学習」という工程を経ずに、少ない計算量でデータ間の依存関係を求めることが出来る、という点である。
【0079】
<第4実施形態>
以下、本発明の第4実施形態について説明する。
図14は、本形態にかかる依存性判定システム14の機能構成を示すブロック図である。依存性判定システム14は、第1実施形態の依存性判定システム11の機能に加え、第1フィルタ手段81及び第2フィルタ手段82を備えている。尚、本形態では依存性判定システム11の依存可能性評価手段44と視覚化手段91が省略されているが、これらはあってもよく、なくてもよい。その他の機能構成や依存性判定方法は依存性判定システム11と同様であるため、以下、重複する説明は省略し、相違点にのみ焦点をあてて説明する。
【0080】
第1フィルタ手段81及び第2フィルタ手段82は、データセットに含まれる目的変数としての位置づけの項目に対して、複数の説明変数となり得る項目がある場合に、目的変数に対する説明力が低い(目的変数に対する影響が希薄と見受けられる)説明変数を検出し、これを除去することを目的としている。つまり、目的変数が依存している可能性の高い説明変数のみを抽出することを目的としている。目的変数への影響が小さいデータを除去することにより、その後の様々なデータ解析をより効率的に、効果的に行うことができる。より具体的には、例えば、変数の組み合わせパターンが膨大な数になる機械学習の前処理として本形態の依存性判定システム14を利用したり、或いは、膨大なセンサ情報がリアルタイムに収集されるエッジコンピューティングにおいて情報の取捨選択のために依存性判定システム14を利用したりするケースを想定している。
【0081】
次に
図3の例を使って、本形態の第1フィルタ手段81及び第2フィルタ手段82の機能を説明する。例えば
図3の「住宅価値指数」項目が目的変数であり、他の項目が全て説明変数であったとする。このとき、依存性判定システム14は、「住宅価値指数」項目を第2データI、他の項目を第1データHとして、順次または並列・並行に、第2データIの各第1データHに対する依存可能性または依存性を判定する。依存可能性および依存性の判定方法は第1実施形態のときと同様である。
【0082】
ここで、不要な説明変数の除去を第1フィルタ手段81によって行うときは、第1フィルタ手段81は、複数の第1データHのうち、偏り評価手段42によって定量化された階級頻度の偏り、又は平均化手段43によるその加重平均値が所定の大きさ以上となった項目、つまり依存可能性の高い項目を抽出する。この場合、ステップ32又は33以降の処理は省略してもよい。何らかの入力(説明変数)から、何らかの出力(目的変数)を推定するときには、この依存可能性がその推定結果に強く関係している。すなわち、依存可能性が高い説明変数は、目的変数に対する影響が大きく、依存可能性が低い説明変数は目的変数に対する影響が小さい。目的変数の推定モデルの規模を小さくするためには、重要性の低い説明変数を減らすことが効果的である。例えば説明変数を、その依存可能性が低いものから順に取り除くことで、精度の低下を最小限に抑えつつモデル規模を縮小することができる。尚、判定するデータセットの種類・性質によっては、依存可能性が総じて低く評価されるものや、総じて高く評価されるものがある。よって、上記偏りや加重平均の「所定の大きさ」は、モデル規模の縮小率と精度とのバランスを考慮して適宜調節することが望ましい。
【0083】
一方、不要な説明変数の除去を第2フィルタ手段82によって行うときは、第2フィルタ手段82は、複数の第1データのうち、非対称性判定手段51(Dependency)により、第2データIが依存していること、又は、第2データIの依存度が所定の程度以上であることが特定された項目を抽出する。ここで、Dependencyについて「所定の程度以上」とは、例えば数字の画像イメージが示している数字を推測する場合など、全てのDependencyが1.0を下回るようなケースを想定しており、その具体的な程度は判定対象によって異なる。よって、ここでいう「所定の程度」の基準値は個別に取得・調節する必要がある。また、一般的にはDependencyが1.5以上であるときには「依存している」と判定してよいケースが多い。この基準値もあくまで目安値・推奨値であり、個々のデータセットに独自の性質がある場合にはそれを加味して調節する必要がある。
【0084】
尚、上記の例においては、「住宅価値指数」項目を目的変数として、他の項目を説明変数としたが、どの項目を目的変数とし、どの項目を説明変数とするかは任意に選択可能である。
【0085】
以上、本発明の実施形態について説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で種々の変更を加えることができる。
【符号の説明】
【0086】
11,12,13,14:データ間の依存性判定システム,21:入力手段,31:階級化手段,32:グルーピング手段,41:分布取得手段,42:偏り評価手段,43:平均化手段,44:依存可能性評価手段,51:非対称性判定手段,71:タイムラグ設定手段,81:第1フィルタ手段,82:第2フィルタ手段,91:視覚化手段,A:第1データ(数値データセット),Av:第1データ値,Ac:第1データの階級,B:第2データ(数値データセット),Bv:第2データ値,Bc:第2データの階級,C:第1データ(階級分け不能な数値データセット),Cv:第1データ値,Cg:第1データのグループ,D::第2データ(階級分け可能な数値データセット),Dv:第2データ値,Dg:第2データのグループ,E:第1データ(カテゴリデータセット),Ev:第1データ値,Eg:第1データのグループ,F::第2データ(カテゴリデータセット),Fv:第2データ値,Fg:第2データのグループ,G:経時測定データセット,T:取得時刻,M:異常有無,S1,S2:センサ値
【要約】
【課題】データ間の依存関係をより効率的に、高速に、判定可能とする。
【解決手段】互いに紐付けられた2種類の数値データセットである第1データ及び第2データの入力手段と、前記第1データの各データ値である第1データ値、及び、前記第2データの各データ値である第2データ値を、それぞれ複数の階級に分ける階級化手段と、前記第1データのいずれかの階級において、その階級に含まれる前記第1データ値に紐付く前記第2データ値から、これら第2データ値が属する各階級の出現数を取得する分布取得手段と、前記第2データの階級間における前記出現数の偏りを定量化する偏り評価手段と、を備える、データ間の依存性判定システムによりこれを解決する。
【選択図】
図6