IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特開2023-134897ビッグデータに潜在する因果関係を判定するプログラム、装置及び方法
<>
  • 特開-ビッグデータに潜在する因果関係を判定するプログラム、装置及び方法 図1
  • 特開-ビッグデータに潜在する因果関係を判定するプログラム、装置及び方法 図2
  • 特開-ビッグデータに潜在する因果関係を判定するプログラム、装置及び方法 図3
  • 特開-ビッグデータに潜在する因果関係を判定するプログラム、装置及び方法 図4
  • 特開-ビッグデータに潜在する因果関係を判定するプログラム、装置及び方法 図5
  • 特開-ビッグデータに潜在する因果関係を判定するプログラム、装置及び方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023134897
(43)【公開日】2023-09-28
(54)【発明の名称】ビッグデータに潜在する因果関係を判定するプログラム、装置及び方法
(51)【国際特許分類】
   G06N 20/00 20190101AFI20230921BHJP
【FI】
G06N20/00 130
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022039821
(22)【出願日】2022-03-15
(71)【出願人】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【弁理士】
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】小島 亮一
(72)【発明者】
【氏名】和田 真弥
(57)【要約】      (修正有)
【課題】ビッグデータに潜在する因果関係を判定する技術を提供する。
【解決手段】判定装置は、複数のログデータを、所定説明変数が所定条件を満たす第1のグループと、所定説明変数が所定条件を満たさない第2のグループとに分類する。訓練段階として、第1のグループの各識別子の複数の説明変数と目的変数とを対応付けた教師データを用いて訓練した第1の機械学習エンジンと、第2のグループの各識別子の複数の説明変数と目的変数とを対応付けた教師データを用いて訓練した第2の機械学習エンジンとして機能させる。推定段階として、対象の識別子に基づく複数の説明変数から、第1の機械学習エンジンが第1の目的変数を推定し、第2の機械学習エンジンが第2の目的変数を推定する。そして、第1の目的変数と第2の目的変数との大小関係によって、対象の識別子の目的変数が、所定説明変数と因果関係を有するか否かを判定する因果関係判定手段を機能させる。
【選択図】図2
【特許請求の範囲】
【請求項1】
識別子毎に、複数の説明変数と目的変数とを対応付けたログデータを教師データとして用いて、対象の識別子の目的変数が、所定説明変数と因果関係を有するか否かを判定するようにコンピュータを機能させるプログラムであって、
複数のログデータは、所定説明変数が所定条件を満たす第1のグループと、所定説明変数が所定条件を満たさない第2のグループとに分類されており、
訓練段階として、
第1のグループにおける各識別子の複数の説明変数と目的変数とを対応付けた教師データを用いて訓練した第1の機械学習エンジンと、
第2のグループにおける各識別子の複数の説明変数と目的変数とを対応付けた教師データを用いて訓練した第2の機械学習エンジンと
して機能させ、
推定段階として、
第1の機械学習エンジンが、対象の識別子に基づく複数の説明変数を入力し、第1の目的変数を推定し、
第2の機械学習エンジンが、対象の識別子に基づく複数の説明変数を入力し、第2の目的変数を推定し、
第1の目的変数と第2の目的変数との大小関係によって、対象の識別子の目的変数が、所定説明変数と因果関係を有するか否かを判定する因果関係判定手段と
してコンピュータを機能させることを特徴とするプログラム。
【請求項2】
因果関係判定手段は、
第1の目的変数が第2の目的変数よりも大きい場合、対象の識別子の目的変数が所定説明変数と因果関係有りと判定し、
第1の目的変数が第2の目的変数以下である場合、対象の識別子の目的変数が所定説明変数と因果関係無しと判定する
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
【請求項3】
第1のグループと第2のグループとは、A/Bテストによって分類されたものである
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。
【請求項4】
識別子は、ユーザ識別子であり、
ログデータの説明変数及び目的変数は、ユーザの属性項目の値である
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。
【請求項5】
ユーザの属性項目の値は、ユーザの体組成に基づく値、及び/又は、ユーザの生活習慣に基づく値である
ようにコンピュータを機能させることを特徴とする請求項4に記載のプログラム。
【請求項6】
ユーザの生活習慣に基づく値は、ユーザのスマートフォンの移動履歴に基づく値である
ようにコンピュータを機能させることを特徴とする請求項5に記載のプログラム。
【請求項7】
ユーザの属性項目の値は、ユーザのスマートフォン利用履歴に基づく値、及び/又は、ユーザのスマートフォン契約プランに基づく値である
ようにコンピュータを機能させることを特徴とする請求項4に記載のプログラム。
【請求項8】
識別子毎に、複数の説明変数と目的変数とを対応付けたログデータを教師データとして用いて、対象の識別子の目的変数が、所定説明変数と因果関係を有するか否かを判定する判定装置であって、
複数のログデータは、所定説明変数が所定条件を満たす第1のグループと、所定説明変数が所定条件を満たさない第2のグループとに分類されており、
訓練段階として、
第1のグループにおける各識別子の複数の説明変数と目的変数とを対応付けた教師データを用いて訓練した第1の機械学習エンジンと、
第2のグループにおける各識別子の複数の説明変数と目的変数とを対応付けた教師データを用いて訓練した第2の機械学習エンジンと
を有し、
推定段階として、
第1の機械学習エンジンが、対象の識別子に基づく複数の説明変数を入力し、第1の目的変数を推定し、
第2の機械学習エンジンが、対象の識別子に基づく複数の説明変数を入力し、第2の目的変数を推定し、
第1の目的変数と第2の目的変数との大小関係によって、対象の識別子の目的変数が、所定説明変数と因果関係を有するか否かを判定する因果関係判定手段と
を有することを特徴とする判定装置。
【請求項9】
識別子毎に、複数の説明変数と目的変数とを対応付けたログデータを教師データとして用いて、対象の識別子の目的変数が、所定説明変数と因果関係を有するか否かを判定する装置の判定方法であって、
複数のログデータは、所定説明変数が所定条件を満たす第1のグループと、所定説明変数が所定条件を満たさない第2のグループとに分類されており、
装置は、
訓練段階として、
第1の機械学習エンジンを用いて、第1のグループにおける各識別子の複数の説明変数と目的変数とを対応付けた教師データを用いて訓練する第11のステップと、
第2の機械学習エンジンを用いて、第2のグループにおける各識別子の複数の説明変数と目的変数とを対応付けた教師データを用いて訓練する第12のステップと
を実行し、
推定段階として、
第1の機械学習エンジンへ、対象の識別子に基づく複数の説明変数を入力し、第1の目的変数を推定する第21のステップと、
第2の機械学習エンジンへ、対象の識別子に基づく複数の説明変数を入力し、第2の目的変数を推定する第22のステップと、
第1の目的変数と第2の目的変数との大小関係によって、対象の識別子の目的変数が、所定説明変数と因果関係を有するか否かを判定する第23のステップと
を実行することを特徴とする装置の判定方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、多種多様なビッグデータに潜在する因果関係を判定する技術に関する。
【背景技術】
【0002】
従来、時系列の多変量データを用いて、次元間の非線形な因果関係を推定する技術がある(例えば特許文献1参照)。この技術によれば、例えばデータAの変動後にデータBの変動が見られるとする相関関係を因果関係と見なして、機械学習エンジンによって推定する。具体的には、時系列の多次元数値ベクトルの教師データによって訓練した非線形回帰モデルを用いて、任意の時刻のデータを予測する。そして、時系列の多次元数値ベクトルのデータにおける第1の次元から見た第2の次元に対する因果関係の強さを計算する。
【0003】
また、因果関係を推定する回帰モデルについて、事前設定を不要とする技術もある(例えば特許文献2参照)。この技術によれば、過去の原因から、時系列的な因果関係となる未来の結果を機械学習エンジンによって推定する。具体的には、時系列データの因果関係に関する3つ以上に分類された分類ラベルの正解ラベルと、正解ラベルに対応する時系列データとを入力する。そして、時系列データの特徴量を計算し、特徴量と正解ラベルとの組を用いて、特徴量に対する出力値が正解ラベルの出力値の最大値となるよう分類器を訓練する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2019-144779号公報
【特許文献2】特開2019-185194号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1によれば、相関関係を因果関係と見なしているにすぎず、特許文献2によれば、時系列的な前後関係を因果関係と見なしているに過ぎない。
【0006】
これに対し、本願の発明者らは、多種多様なビッグデータに潜在する因果関係を判定することができないか、と考えた。識別子に複数の項目の値が対応付けられており、それら識別子を、第1の項目と第2の項目との間で因果関係有りとする第1のグループと、因果関係無しとする第2のグループとに予め分類することができたとする。このとき、判定対象となる識別子を分類する際に、第1の項目と第2の項目との因果関係のみならず、他の項目同士の因果関係も考慮して、第1のグループと第2のグループとのいずれに属するかを判定すべきではないか、と考えた。
【0007】
そこで、本発明は、ビッグデータに潜在する因果関係を判定することができるプログラム、装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明によれば、識別子毎に、複数の説明変数と目的変数とを対応付けたログデータを教師データとして用いて、対象の識別子の目的変数が、所定説明変数と因果関係を有するか否かを判定するようにコンピュータを機能させるプログラムであって、
複数のログデータは、所定説明変数が所定条件を満たす第1のグループと、所定説明変数が所定条件を満たさない第2のグループとに分類されており、
訓練段階として、
第1のグループにおける各識別子の複数の説明変数と目的変数とを対応付けた教師データを用いて訓練した第1の機械学習エンジンと、
第2のグループにおける各識別子の複数の説明変数と目的変数とを対応付けた教師データを用いて訓練した第2の機械学習エンジンと
して機能させ、
推定段階として、
第1の機械学習エンジンが、対象の識別子に基づく複数の説明変数を入力し、第1の目的変数を推定し、
第2の機械学習エンジンが、対象の識別子に基づく複数の説明変数を入力し、第2の目的変数を推定し、
第1の目的変数と第2の目的変数との大小関係によって、対象の識別子の目的変数が、所定説明変数と因果関係を有するか否かを判定する因果関係判定手段と
してコンピュータを機能させることを特徴とする。
【0009】
本発明のプログラムにおける他の実施形態によれば、
因果関係判定手段は、
第1の目的変数が第2の目的変数よりも大きい場合、対象の識別子の目的変数が所定説明変数と因果関係有りと判定し、
第1の目的変数が第2の目的変数以下である場合、対象の識別子の目的変数が所定説明変数と因果関係無しと判定する
ようにコンピュータを機能させることも好ましい。
【0010】
本発明のプログラムにおける他の実施形態によれば、
第1のグループと第2のグループとは、A/Bテストによって分類されたものである
ようにコンピュータを機能させることも好ましい。
【0011】
本発明のプログラムにおける他の実施形態によれば、
識別子は、ユーザ識別子であり、
ログデータの説明変数及び目的変数は、ユーザの属性項目の値である
ようにコンピュータを機能させることも好ましい。
【0012】
本発明のプログラムにおける他の実施形態によれば、
ユーザの属性項目の値は、ユーザの体組成に基づく値、及び/又は、ユーザの生活習慣に基づく値である
ようにコンピュータを機能させることも好ましい。
【0013】
本発明のプログラムにおける他の実施形態によれば、
ユーザの生活習慣に基づく値は、ユーザのスマートフォンの移動履歴に基づく値である
ようにコンピュータを機能させることも好ましい。
【0014】
本発明のプログラムにおける他の実施形態によれば、
ユーザの属性項目の値は、ユーザのスマートフォン利用履歴に基づく値、及び/又は、ユーザのスマートフォン契約プランに基づく値である
ようにコンピュータを機能させることも好ましい。
【0015】
本発明によれば、識別子毎に、複数の説明変数と目的変数とを対応付けたログデータを教師データとして用いて、対象の識別子の目的変数が、所定説明変数と因果関係を有するか否かを判定する判定装置であって、
複数のログデータは、所定説明変数が所定条件を満たす第1のグループと、所定説明変数が所定条件を満たさない第2のグループとに分類されており、
訓練段階として、
第1のグループにおける各識別子の複数の説明変数と目的変数とを対応付けた教師データを用いて訓練した第1の機械学習エンジンと、
第2のグループにおける各識別子の複数の説明変数と目的変数とを対応付けた教師データを用いて訓練した第2の機械学習エンジンと
を有し、
推定段階として、
第1の機械学習エンジンが、対象の識別子に基づく複数の説明変数を入力し、第1の目的変数を推定し、
第2の機械学習エンジンが、対象の識別子に基づく複数の説明変数を入力し、第2の目的変数を推定し、
第1の目的変数と第2の目的変数との大小関係によって、対象の識別子の目的変数が、所定説明変数と因果関係を有するか否かを判定する因果関係判定手段と
を有することを特徴とする。
【0016】
本発明によれば、識別子毎に、複数の説明変数と目的変数とを対応付けたログデータを教師データとして用いて、対象の識別子の目的変数が、所定説明変数と因果関係を有するか否かを判定する装置の判定方法であって、
複数のログデータは、所定説明変数が所定条件を満たす第1のグループと、所定説明変数が所定条件を満たさない第2のグループとに分類されており、
装置は、
訓練段階として、
第1の機械学習エンジンを用いて、第1のグループにおける各識別子の複数の説明変数と目的変数とを対応付けた教師データを用いて訓練する第11のステップと、
第2の機械学習エンジンを用いて、第2のグループにおける各識別子の複数の説明変数と目的変数とを対応付けた教師データを用いて訓練する第12のステップと
を実行し、
推定段階として、
第1の機械学習エンジンへ、対象の識別子に基づく複数の説明変数を入力し、第1の目的変数を推定する第21のステップと、
第2の機械学習エンジンへ、対象の識別子に基づく複数の説明変数を入力し、第2の目的変数を推定する第22のステップと、
第1の目的変数と第2の目的変数との大小関係によって、対象の識別子の目的変数が、所定説明変数と因果関係を有するか否かを判定する第23のステップと
を実行することを特徴とする。
【発明の効果】
【0017】
本発明のプログラム、装置及び方法によれば、ビッグデータに潜在する因果関係を判定することができる。
【図面の簡単な説明】
【0018】
図1】本発明の判定装置における訓練段階の機能構成図である。
図2】本発明の判定装置における推定段階の機能構成図である。
図3】判定装置がユーザからログデータを収集するシステム構成図である。
図4】所定条件分類部における具体的なグループ毎のテーブルである。
図5】訓練段階の教師データを表す説明図である。
図6】推定段階の対象IDのログデータを表す説明図である。
【発明を実施するための形態】
【0019】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0020】
図1は、本発明の判定装置における訓練段階の機能構成図である。
【0021】
教師データとして、識別子(ID(IDentifier))毎に、「複数の説明変数」と「目的変数」とを対応付けたログ(log)データを用いる。また、複数のログデータは、以下のように複数のグループに分類されている。
(第1のグループ)所定説明変数が所定条件を満たすログデータの集合
(第2のグループ)所定説明変数が所定条件を満たさないログデータの集合
これによって、第1のグループにおける所定説明変数に対する目的変数の傾向と、第2のグループにおける所定説明変数に対する目的変数の傾向とに分類することができる。
【0022】
第1のグループと第2のグループとは、例えば「A/Bテスト」によって分類されたものであってもよい。A/Bテストとは、一般的に仮説検定を意味し、例えばインターネットマーケティングにおけるコンバージョン率(Conversion Rate Optimization)を最適化するために用いられる。AパターンのページとBパターンのページとをユーザに閲覧させ、いずれの方が高いコンバージョン率を得られるか、を検証する。
この場合、Aパターンのページ(説明変数)に対するそのコンバージョン率(目的変数)の傾向と、Bパターンのページ(説明変数)に対するそのコンバージョン率(目的変数)の傾向とに分類するものとなる。
【0023】
図1によれば、判定装置1は、訓練段階について、第1の機械学習エンジン111と、第2の機械学習エンジン112と有する。
<訓練段階>
第1の機械学習エンジン111は、「第1のグループにおける各識別子の複数の説明変数と目的変数と」を対応付けた教師データを用いて訓練する。
第2の機械学習エンジン112は、「第2のグループにおける各識別子の複数の説明変数と目的変数と」を対応付けた教師データを用いて訓練する。
【0024】
図2は、本発明の判定装置における推定段階の機能構成図である。
【0025】
図2によれば、判定装置1は、訓練段階で学習した第1の機械学習エンジン111と第2の機械学習エンジン112と共に、因果関係判定部12を更に有する。
<推定段階>
第1の機械学習エンジン111は、対象IDに基づく「複数の説明変数」を入力し、「第1の目的変数」を推定する。
第2の機械学習エンジン112は、対象IDに基づく「複数の説明変数」を入力し、「第2の目的変数」を推定する。
【0026】
[因果関係判定部12]
因果関係判定部12は、第1の目的変数と第2の目的変数との大小関係によって、対象IDの目的変数が、所定説明変数と因果関係を有するか否かを判定する。
具体的には、因果関係判定部12は、対象IDについて、以下のように因果関係を判定する。
第1の目的変数>第2の目的変数 -> 所定説明変数と目的変数とに因果関係有り
第1の目的変数≦第2の目的変数 -> 所定説明変数と目的変数とに因果関係無し
最終的に、因果関係に基づく判定結果は、アプリケーションへ出力される。
【0027】
尚、前述した第1の機械学習エンジン111と、第2の機械学習エンジン112と、因果関係判定部12とは、判定装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現されるものであってもよい。また、これら機能構成部の処理の流れは、判定方法としても理解できる。
【0028】
図3は、判定装置がユーザからログデータを収集するシステム構成図である。
【0029】
図3によれば、判定装置1は、ログデータベース10と、ログデータ収集部101と、ログデータ推定部102と、所定条件分類部103とを更に有する。
【0030】
ログデータ収集部101は、多数のユーザそれぞれが所持する携帯端末から、ログデータを収集する。ログデータとしては、ユーザID(IDentifier、識別子)毎に、「ユーザの属性項目の値」であって、複数の説明変数及び目的変数となる。このように、ログデータは、ID(ユーザ)に基づく各項目の値の群である。
本発明によれば、多数のユーザから収集した、多種多様なビッグデータに適用することができる。
【0031】
ログデータ推定部102は、ユーザの携帯端末から収集したログデータから、異なる項目のデータを推定するものである。
例えば、ログデータ収集部101は、ユーザID毎に、例えば時系列の位置情報を収集するものであってもよい。位置情報は、GPS(Global Positioning System)や基地局からの電波によって特定できるものであってもよい。
ログデータ推定部102は、ログデータとして収集された位置情報から、所定時間帯における移動有無を推定し、その時系列から、移動速度を算出することができる。また、その移動速度から、ユーザの移動手段が徒歩か又は車かを推定することもできる。
【0032】
所定条件分類部103は、複数のユーザIDのログデータを、前述したように第1のグループと第2のグループとに分類する。
【0033】
図4は、所定条件分類部における具体的なグループ毎のテーブルである。
【0034】
「ユーザの属性項目の値」は、ユーザの体組成に基づく値、及び/又は、ユーザの生活習慣に基づく値であってもよい。
「ユーザの体組成に基づく値」である場合、例えば「性別」「年齢」「体重」「血圧(上)」「血圧(下)」「HbA1C」のような項目の値であってもよい。尚、HbA1cとは、血中ヘモグロビン中の糖化したヘモグロビンの割合(%)である。病理的には、4.6%~6.2%が正常範囲であり、それより高いと糖尿病が疑われる。
また、「ユーザの生活習慣に基づく値」である場合、例えば「睡眠時間」「徒歩時間」「車時間」のような項目の値であってもよい。例えば移動速度が10km/h未満の移動は「徒歩時間」としてカウントし、10km/h以上の移動は「車時間」としてカウントすることができる。このように、ユーザの生活習慣に基づく値は、ユーザのスマートフォンの移動履歴に基づく値であってもよい。
【0035】
図4によれば、「所定説明変数」として、「徒歩習慣」を所定条件として、第1のグループと第2のグループとに分類されている。ここで、徒歩習慣有りとは、例えば徒歩時間が車時間よりも長いとする。
(第1のグループ)所定説明変数(徒歩時間)が所定条件(徒歩時間>車時間)を
満たす「徒歩習慣のあるログデータの集合」
(第2のグループ)所定説明変数(徒歩時間)が所定条件(徒歩時間≦車時間)を
満たさない「徒歩習慣のないログデータの集合」
【0036】
図5は、訓練段階の教師データを表す説明図である。
【0037】
図5(a)によれば、第1の機械学習エンジン111は、「第1のグループにおける各識別子の複数の説明変数Xと目的変数yと」を対応付けた教師データを用いて訓練する。
=f(X) f():第1の機械学習エンジン111の学習パラメータ
ここでは、目的変数yは、ユーザの属性項目の「HbA1c」となっている。f()は、徒歩習慣のあるユーザIDのログデータの集合(第1のグループ)から、徒歩時間に対するHbA1cの傾向を学習する。
【0038】
また、図5(b)によれば、第2の機械学習エンジン112は、「第2のグループにおける各識別子の複数の説明変数Xと目的変数yと」を対応付けた教師データを用いて訓練する。
=f(X) f():第2の機械学習エンジン112の学習パラメータ
ここでも、目的変数は、図5(a)に合わせて、ユーザの属性項目の「HbA1c」となっている。f()は、徒歩習慣のないユーザIDのログデータの集合(第2のグループ)から、徒歩時間に対するHbA1cの傾向を学習する。
【0039】
図5(a)及び(b)は、「徒歩習慣」と「糖尿病の改善・悪化」との集団的な因果関係を学習しようとするものである。即ち、仮説としては、第2のグループよりも第1のグループの方が、統計的有意差としてHbA1cは改善するであろう、とするものである。
【0040】
ここで、第1のグループ及び第2のグループを比較すると、平均的には、第2のグループよりも第1のグループの方がHbA1cは改善している、という因果関係が得られる。
しかしながら、第1のグループに注目すると、HbA1cが改善していないユーザIDもある。逆に、第2のグループに注目すると、HbA1cが改善しているユーザIDもある。即ち、HbA1cは、徒歩時間以外の他の項目からも、潜在的な因果関係の影響を受けていると想定される。
【0041】
図6は、推定段階の対象IDのログデータを表す説明図である。
【0042】
図6によれば、第1の機械学習エンジン111は、対象IDに基づく「複数の説明変数」を入力し、「第1の目的変数」を出力する。
また、第2の機械学習エンジン112は、対象IDに基づく「複数の説明変数」を入力し、「第2の目的変数」を出力する。
【0043】
そして、因果関係判定部12は、対象IDについて、以下のように因果関係を判定する。
第1の目的変数>第2の目的変数 -> 所定説明変数と目的変数とに因果関係有り
第1の目的変数≦第2の目的変数 -> 所定説明変数と目的変数とに因果関係無し
【0044】
集団的な確率変数を、以下のように規定する。
A:徒歩習慣有り(徒歩時間が車時間よりも長い)
B:徒歩習慣無し(徒歩時間が車時間以下である)
:徒歩習慣有り場合のHbA1c
:徒歩習慣無し場合のHbA1c
ここで、徒歩習慣有りの場合と徒歩習慣無しの場合とで、HbA1cの平均的な変化、即ち、条件付き期待値の差は、以下のようになる。
徒歩習慣有りから徒歩習慣無しに変化させた場合:E(Y-Y|A)
徒歩習慣無しから徒歩習慣有りに変化させた場合:E(Y-Y|B)
【0045】
第1のグループに属する属性Xiのユーザiが、徒歩習慣無しに変化させた場合、以下のように更新される。
E(Y-Y|A):=f(Xi)-f(Xi)
HbA1cが減少することが改善であるとした場合、E(Y-Y|A)<0ならば、ユーザiは、徒歩習慣有りから徒歩習慣無しに行動習慣を変更する(原因)ことが、HbA1cの改善につながる(結果)と、因果関係を推定することとなる。
【0046】
第2のグループに属する属性Xjのユーザjが、徒歩習慣有りに変化させた場合、以下のように更新される。
E(Y-Y|B):=f(Xj)-f(Xj)
HbA1cが減少することが改善であるとした場合、E(Y-Y|B)<0ならば、ユーザjは、徒歩習慣無しから徒歩習慣有りに行動習慣を変更する(原因)ことが、HbA1cの改善につながる(結果)と、因果関係を推定することとなる。
【0047】
本発明における他の実施形態として、ユーザの属性項目の値は、ユーザのスマートフォン利用履歴に基づく値、及び/又は、ユーザのスマートフォン契約プランに基づく値であってもよい。例えばスマートフォンの利用履歴に基づく説明変数と、スマートフォン契約プランを目的変数として、因果関係を推定することもできる。
【0048】
また、更に他の実施形態として、ユーザの属性項目に限られず、例えばスマートホームにおけるマルチモーダル(multi-modal)データであってもよい。スマートホームとは、IoT(Internet of Things)やAI(Artificial Intelligence)の技術を用いて、住人にとってより安全・安心で快適な暮らしを実現するシステムをいう。このシステムは、住宅内に設置された複数のセンサからマルチモーダルデータを収集し、人が知覚可能な室内状態における因果関係を分析することもできる。
【0049】
以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、ビッグデータに潜在する因果関係を判定することができる。
【0050】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0051】
1 判定装置
10 ログデータベース
101 ログデータ収集部
102 ログデータ推定部
103 所定条件分類部
111 第1の機械学習エンジン
112 第2の機械学習エンジン
12 因果関係判定部

図1
図2
図3
図4
図5
図6