(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-24
(45)【発行日】2024-05-07
(54)【発明の名称】特徴ネットワーク抽出装置、コンピュータプログラム、特徴ネットワーク抽出方法及びベイジアンネットワーク分析方法
(51)【国際特許分類】
G06N 7/01 20230101AFI20240425BHJP
【FI】
G06N7/01
(21)【出願番号】P 2020002923
(22)【出願日】2020-01-10
【審査請求日】2022-12-16
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成28年度、国立研究開発法人科学技術振興機構、研究成果展開事業、センター・オブ・イノベーション(COI)プログラム、COI拠点「真の社会イノベーションを実現する革新的{健やか力}創造拠点」、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】504132272
【氏名又は名称】国立大学法人京都大学
(74)【代理人】
【識別番号】100114557
【氏名又は名称】河野 英仁
(74)【代理人】
【識別番号】100078868
【氏名又は名称】河野 登夫
(72)【発明者】
【氏名】奥野 恭史
(72)【発明者】
【氏名】玉田 嘉紀
【審査官】大塚 俊範
(56)【参考文献】
【文献】特開2006-146424(JP,A)
【文献】金 順暎、他2名,ユビキタス環境におけるベイジアンネットワークとノンパラメトリック回帰を用いた異常事象検出手法,電子情報通信学会技術研究報告 ,日本,社団法人電子情報通信学会,2006年11月09日,第106巻、第357号,第31-36頁,ISSN 0913-5685
【文献】吉見 将太、他2名,専門家の知識を用いるインタラクティブなベイジアンネットワーク構成手法,FIT2011 第10回情報科学技術フォーラム 講演論文集 第2分冊 査読付き論文・一般論文 データベース 自然言語・音声・音楽 人工知能・ゲーム 生体情報科学,日本,一般社団法人情報処理学会,社団法人電子情報通信学会,2011年08月22日,第401-404頁
(58)【調査した分野】(Int.Cl.,DB名)
G06N 7/01
(57)【特許請求の範囲】
【請求項1】
それぞれの確率変数が対応付けられた複数のノード間の依存関係を、非巡回有向グラフを用いて表したベイジアンネットワークの
親ノード及び子ノードを含む所要ノードに
計測値を含むデータを付与するデータ付与部と、
前記データ付与部が付与したデータに基づいてノードの事後確率を計算する際に、親ノードの確率変数を所与としたときの条件付き確率を構成する所定
の回帰モデル
を表す関数の関数値に基づいて、前記親ノードから子ノードへの
個別のリンク
それぞれの特徴量を算出する算出部と、
前記算出部が算出した
、前記個別のリンクそれぞれの特徴量に基づいて前記ベイジアンネットワークから特徴ネットワークを抽出する抽出部と
を備える特徴ネットワーク抽出装置。
【請求項2】
前記算出部は、
前記子ノードの確率変数に対する前記親ノードの確率変数の所定モデルを表す所定関数の関数値に基づいて、前記親ノードから子ノードへのリンクの特徴量を算出する請求項1に記載の特徴ネットワーク抽出装置。
【請求項3】
前記算出部は、
前記所定関数の関数値を前記リンクの特徴量として算出する請求項2に記載の特徴ネットワーク抽出装置。
【請求項4】
前記算出部は、
前記データ付与部が異なるサンプルのデータを付与した場合に、第1サンプルのデータに基づく前記所定関数の第1関数値と第2サンプルのデータに基づく前記所定関数の第2関数値との比較値を前記リンクの特徴量として算出する請求項2に記載の特徴ネットワーク抽出装置。
【請求項5】
前記算出部は、
前記子ノードの確率変数に対する複数の親ノードそれぞれの確率変数の所定モデルを表す各所定関数の関数値のうちの最大値に対する、前記リンクに対応する所定関数の関数値の割合を前記リンクの特徴量として算出する請求項2に記載の特徴ネットワーク抽出装置。
【請求項6】
前記算出部は、
前記子ノードの確率変数に対する複数の親ノードそれぞれの確率変数の所定モデルを表す各所定関数の関数値の合計値に対する、前記リンクに対応する所定関数の関数値の比率を前記リンクの特徴量として算出する請求項2に記載の特徴ネットワーク抽出装置。
【請求項7】
前記抽出部は、
前記算出部で算出したリンクの特徴量が所定の閾値以上である場合、前記リンクを含む特徴ネットワークを抽出する請求項2から請求項6のいずれか一項に記載の特徴ネットワーク抽出装置。
【請求項8】
前記ベイジアンネットワークの所要の複数のノードを設定する設定部を備え、
前記算出部は、
前記設定部で設定した一のノードから他のノードへ至る複数のパスそれぞれを構成する1又は複数のリンク全体の特徴量を算出し、
前記抽出部は、
前記複数のパスのうち、パスを構成するリンク全体の特徴量が所定の閾値以上であるパスを含む特徴ネットワークを抽出する請求項2から請求項6のいずれか一項に記載の特徴ネットワーク抽出装置。
【請求項9】
前記所定モデルは、ノンパラメトリック回帰モデルを含み、
前記所定関数は、非線形関数を含む請求項2から請求項8のいずれか一項に記載の特徴ネットワーク抽出装置。
【請求項10】
請求項1から請求項9のいずれか一項に記載の特徴ネットワーク抽出装置を用いて、所要のベイジアンネットワークから特徴ネットワークを抽出し、
抽出した特徴ネットワークに基づいて、前記ベイジアンネットワークでのサンプル又はサンプル群を評価する、
ベイジアンネットワーク分析方法。
【請求項11】
前記ベイジアンネットワークは、医療データ、広告データ、マーケティングデータ及びアンケートデータの少なくとも一つのデータに関する多変量の因果関係を表す請求項10に記載のベイジアンネットワーク分析方法。
【請求項12】
コンピュータに、
それぞれの確率変数が対応付けられた複数のノード間の依存関係を、非巡回有向グラフを用いて表したベイジアンネットワークの
親ノード及び子ノードを含む所要ノードに
計測値を含むデータを付与する処理と、
付与したデータに基づいてノードの事後確率を計算する際に、親ノードの確率変数を所与としたときの条件付き確率を構成する所定
の回帰モデル
を表す関数の関数値に基づいて、前記親ノードから子ノードへの
個別のリンク
それぞれの特徴量を算出する処理と、
算出した
、前記個別のリンクそれぞれの特徴量に基づいて前記ベイジアンネットワークから特徴ネットワークを抽出する処理と
を実行させるコンピュータプログラム。
【請求項13】
コンピュータによる特徴ネットワーク抽出方法であって、
コンピュータは、
それぞれの確率変数が対応付けられた複数のノード間の依存関係を、非巡回有向グラフを用いて表したベイジアンネットワークの
親ノード及び子ノードを含む所要ノードに
計測値を含むデータを付与し、
付与したデータに基づいてノードの事後確率を計算する際に、親ノードの確率変数を所与としたときの条件付き確率を構成する所定
の回帰モデル
を表す関数の関数値に基づいて、前記親ノードから子ノードへの
個別のリンク
それぞれの特徴量を算出し、
算出した
、前記個別のリンクそれぞれの特徴量に基づいて前記ベイジアンネットワークから特徴ネットワークを抽出する特徴ネットワーク抽出方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特徴ネットワーク抽出装置、コンピュータプログラム、特徴ネットワーク抽出方法及びベイジアンネットワーク分析方法に関する。
【背景技術】
【0002】
ベイジアンネットワークは、グラフィカルモデル(グラフ表現を用いた統計モデル)の一つであり、多変量の因果関係をネットワーク(非巡回有向グラフ)で表現したものである。大量のデータからベイジアンネットワークの構造学習をすることにより、ベイジアンネットワークが推定され、多変量間の因果関係を推定することができる。
【0003】
特許文献1には、ユーザがノード名や定義域名の候補となる「表現」を名前とするラベルオブジェクトをGUI画面上に生成し、画面上に配置されたラベルオブジェクトに、ラベル間の関係(因果関係か命題の関係)をマウス操作で定義することにより、ベイジアンネットワークを容易に作成することができる装置が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、大量のデータを用いてベイジアンネットワークが推定されたとしても、推定されたベイジアンネットワークは、大量のデータのうち、データに潜む変数間の関係性のうち共通性のもの(例えば、データの塊り)について何らかの関係性が推定されるのみであり、例えば、個々のサンプル又はサンプル群の関係性を説明することができない。
【0006】
本発明は斯かる事情に鑑みてなされたものであり、推定されたベイジアンネットワークでのサンプル又はサンプル群の関係性を評価することができる特徴ネットワーク抽出装置、コンピュータプログラム、特徴ネットワーク抽出方法及びベイジアンネットワーク分析方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本願は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、特徴ネットワーク抽出装置は、それぞれの確率変数が対応付けられた複数のノード間の依存関係を、非巡回有向グラフを用いて表したベイジアンネットワークの所要ノードにデータを付与するデータ付与部と、前記データ付与部が付与したデータに基づいてノードの事後確率を計算する際に、親ノードの確率変数を所与としたときの条件付き確率を構成する所定モデルに基づいて、前記親ノードから子ノードへのリンクの特徴量を算出する算出部と、前記算出部が算出した特徴量に基づいて前記ベイジアンネットワークから特徴ネットワークを抽出する抽出部とを備える。
【発明の効果】
【0008】
本発明によれば、推定されたベイジアンネットワークでのサンプル又はサンプル群の関係性を特徴付ける特徴ネットワークを抽出することができ、推定されたベイジアンネットワークでのサンプル又はサンプル群を評価することができる。
【図面の簡単な説明】
【0009】
【
図1】本実施の形態の特徴ネットワーク抽出装置の構成の一例を示すブロック図である。
【
図2】ベイジアンネットワークの一例を示す模式図である。
【
図3】B-スプラインを用いたノンパラメトリック回帰モデルの一例を示す模式図である。
【
図4】ノンパラメトリックベイジアンネットワークの一例を示す模式図である。
【
図7】変数Xの親ノードから変数Yの子ノードへの枝に対するΔECvの概念を示す模式図である。
【
図10】特徴ネットワークの抽出方法の第1例を示す模式図である。
【
図11】特徴ネットワークの抽出方法の第2例を示す模式図である。
【
図12】特徴ネットワークの抽出方法の第3例を示す模式図である。
【
図13】抽出された特徴ネットワークの第1例を示す模式図である。
【
図14】特徴ネットワークによる個人の特徴付けの第1例を示す模式図である。
【
図15】ECv行列の他の構成を示す模式図である。
【
図16】特徴ネットワークによる個人の特徴付けの第2例を示す模式図である。
【
図17】抽出された特徴ネットワークの第2例を示す模式図である。
【
図18】抽出された特徴ネットワークの第3例を示す模式図である。
【
図19】抽出された特徴ネットワークにより免疫系の遺伝子を捉えることができるメカニズムを示す模式図である。
【
図20】特徴ネットワークによる個人の特徴付けの第3例を示す模式図である。
【
図21】特徴ネットワークによる個人の特徴付けの第4例を示す模式図である。
【
図22】特徴ネットワークによる個人の特徴付けの第5例を示す模式図である。
【
図23】抽出された特徴ネットワークを全体のネットワークにマッピングした模式図である。
【
図24】抽出された特徴ネットワークとDEG遺伝子との関連の第1例を示す模式図である。
【
図25】抽出された特徴ネットワークとDEG遺伝子との関連の第2例を示す模式図である。
【
図26】抽出された特徴ネットワークの第4例を示す模式図である。
【
図27】慢性腎臓病(CKD)発症関連パスを抜き出した例を示す模式図である。
【
図28】高血圧発症関連パスを抜き出した例を示す模式図である。
【
図29】SNPありの場合のCKD及び高血圧の2疾患関連ネットワークの例を示す模式図である。
【
図30】SNPなしの場合のCKD及び高血圧の2疾患関連ネットワークの例を示す模式図である。
【
図31】慢性腎臓病(CKD)発症の個人ネットワークの第1例を示す模式図である。
【
図32】慢性腎臓病(CKD)発症の個人ネットワークの第2例を示す模式図である。
【
図33】慢性腎臓病(CKD)発症の個人ネットワークの第3例を示す模式図である。
【
図34】特徴ネットワーク抽出装置の処理手順の一例を示すフローチャートである。
【
図35】特徴ネットワーク抽出処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、本発明をその実施の形態を示す図面に基づいて説明する。
図1は本実施の形態の特徴ネットワーク抽出装置50の構成の一例を示すブロック図である。特徴ネットワーク抽出装置50は、プロセッサ51、操作部52、インタフェース部53、表示パネル54、記録媒体読取部55、ROM56、メモリ57(例えば、RAM)及び記憶部58を備える。記憶部58には、予め推定されたベイジアンネットワークモデル581、サンプルデータ582を記憶することができる。なお、特徴ネットワーク抽出装置50は、1台の装置で構成してもよく、あるいは複数台の装置で構成してもよい。
【0011】
プロセッサ51は、例えば、CPU(例えば、複数のプロセッサコアを実装したマルチ・プロセッサなど)、GPU(Graphics Processing Units)、DSP(Digital Signal Processors)、FPGA(Field-Programmable Gate Arrays)などのハードウェアを組み合わせることによって構成することができる。
【0012】
表示パネル54は、液晶パネル又は有機EL(Electro Luminescence)ディスプレイ等で構成することができる。
【0013】
操作部52は、例えば、ハードウェアキーボード、マウスなどで構成され、表示パネル54に表示されたアイコンなどの操作、文字等の入力などを行うことができる。なお、操作部52は、タッチパネルで構成してもよい。
【0014】
インタフェース部53は、サンプルデータ、推定されたベイジアンネットワークモデルなどを外部の装置等から取得することができる。インタフェース部53は、有線通信機能及び無線通信機能を有する。インタフェース部53を経由して取得したサンプルデータやベイジアンネットワークモデルは、記憶部58に記憶することができる。
【0015】
記録媒体読取部55は、例えば、特徴ネットワークの抽出処理の手順が定められたコンピュータプログラムを記録した記録媒体Mを読み取り、読み取ったコンピュータプログラムを記憶部58に記憶することができる。なお、特徴ネットワークの抽出処理の手順が定められたコンピュータプログラムは、インタフェース部53を経由して、外部の装置等から取得してもよい。
【0016】
記憶部58は、ハードディスク又はフラッシュメモリなどで構成することができる。記憶部58に記憶されたコンピュータプログラムをメモリ57に読み込んでプロセッサ51によって処理することにより、特徴ネットワークの抽出を行うことができる。
【0017】
プロセッサ51は、データ付与部、算出部、抽出部及び設定部としての機能を実行することができる。
【0018】
特徴ネットワーク抽出装置50による特徴ネットワークの抽出方法の説明に入る前に、まず、その前提としてベイジアンネットワークの概要について説明する。
【0019】
図2はベイジアンネットワークの一例を示す模式図である。ベイジアンネットワークは、グラフィカルモデル(グラフ表現を用いた統計モデル)の一つであり、多変量の因果関係をネットワーク(非巡回有向グラフ)で表現したものである。図において、○印は、確率変数(単に「変数」ともいう)が対応付けられたノードであり、矢印は枝(リンク又はエッジ)である。枝には矢印で示したような方向性があり、矢印の上流側のノードを親ノードと称し、矢印の下流側のノードを子ノードと称する。
図2の例では、変数X
1 、X
2 、X
3 、X
4 、X
5 、X
6 に対応して6個のノードが図示されている。
【0020】
Pr(X
1 ,X
2 ,X
3 ,X
4 ,X
5 ,X
6)は、変数X
1 、X
2 、X
3 、X
4 、X
5 、X
6 についての同時確率(分布)を表す。この同時確率がどのように分解できるか、すなわち、条件付き独立性を探索することにより、Pr(X
1 ,X
2 ,X
3 ,X
4 ,X
5 ,X
6)は、Pr(X
j|Pa(X
j))という条件付き確率の積で表すことができる。ここで、jは変数のインデックスであり、
図2の例では、p=6である。Pa(X
j)は、変数X
jのネットワークにおける親ノードに対応する変数の集合である。Pr(X
4|X
1 ,X
2)は、変数X
1 、X
2の値が与えられたときの変数X
4 の条件付き確率を表す。
【0021】
図2の例では、変数X
3 、X
4が変数X
1 のもとで独立である(すなわち、変数X
1 の値がわかっているという条件付きで独立である)ことを示す。変数X
5 、X
6も変数X
3 のもとで独立である。条件付き独立である変数は、その条件になっている変数が特定の値に固定された時に相関を示さなくなることを意味しており、これは因果関係とみなすことができる。ベイジアンネットワークは、大量のデータを用いて推定されるので、共通性のあるデータの集合間の因果関係を推定することができる。
【0022】
図3はB-スプラインを用いたノンパラメトリック回帰モデルの一例を示す模式図である。変数間の関係が非線形であるとき、どのようなモデルを用いるかが重要である。ノンパラメトリック回帰は、変数間の関係が一次式や多項式など特定の関数形に従わず、未知である場合、特定の関数形を仮定することなく回帰を行う手法である。変数X
1 、X
2 …、X
p についての同時確率の分解は、確率密度関数f(X
j|Pa(X
j))の分解として表される。確率密度関数f(X
j|Pa(X
j))は、B-スプラインを用いたノンパラメトリック回帰モデルにより構築できる。
図3に示すように、変数X
4のノードの親ノードの変数をX
1 、X
2とすると、変数X
4のデータx
4 と、変数X
1 、X
2のデータx
1 、x
2 との間には、x
4 =m
1 (x
1 )+m
2 (x
2 )+ε、という関係が成り立つ。m
1 、m
2 は、滑らかな関数(非線形関数)であり、εはモデルで表現することができない数値であり、ノイズ項とも称する。N(0、σ
2 )は、平均が0、分散がσ
2 の正規分布である。
【0023】
図4はノンパラメトリックベイジアンネットワークの一例を示す模式図である。ノンパラメトリックベイジアンネットワークは、ベイジアンネットワークの局所確率分布に、
図3で例示したような、B-スプラインノンパラメトリック回帰モデルを用いたものである。
図2に例示したような一般的なベイジアンネットワークと異なり、ノンパラメトリックベイジアンネットワークでは、非線形連続値を扱うことができる。
【0024】
図4の例では、
図2の例と同様に、変数X
1 、X
2 、X
3 、X
4 、X
5 、X
6 に対応して6個のノードが図示されている。
図4に示す式において、iはサンプルのインデックスを示し、jは変数のインデックスを示す。
図4の例では、j=1、2、…、6である。kは親ノードのインデックスを示す。関数m
jkは、親ノードkから子ノードであるノードjへの関数である。関数m
jkを表す式において、b
lkは予め与えられたM
jk個のB-スプライン基底関数であり、γ
lkは、B-スプライン基底関数に対する係数パラメータであり、ノンパラメトリックベイジアンネットワークが推定されると固定される。なお、基底関数は、B-スプライン基底関数に限定されるものではなく、フーリエ級数、多項式基底、回帰スプライン基底、ウェーブレット基底などの他の基底関数を用いてもよい。
【0025】
次に、特徴ネットワーク抽出装置50の詳細について説明する。本実施の形態では、親ノードの確率変数を所与としたときの条件付き確率を構成する所定モデルとして、ノンパラメトリック回帰モデルについて説明するが、所定モデルは、ノンパラメトリック回帰モデルには限定されない。また、子ノードの確率変数に対する親ノードの確率変数の所定モデルを表す所定関数として、非線形関数について説明するが、所定関数は非線形関数に限定されない。本実施の形態では、ベイジアンネットワークはノンパラメトリックベイジアンネットワークであるとする。また、以下では、ノンパラメトリックベイジアンネットワークをベイジアンネットワークとも称する。
【0026】
特徴ネットワーク抽出装置50(プロセッサ51)は、それぞれの確率変数が対応付けられた複数のノード間の依存関係を、非巡回有向グラフを用いて表したベイジアンネットワークの所要ノードにデータを付与する処理、付与したデータに基づいてノードの事後確率を計算する際に、親ノードの確率変数を所与としたときの条件付き確率を構成するノンパラメトリック回帰モデルに基づいて、親ノードから子ノードへのリンクの特徴量を算出する処理、算出した特徴量に基づいてベイジアンネットワークから特徴ネットワークを抽出する処理を行うことができる。本実施の形態の特徴ネットワーク抽出装置50は、特徴量を用いて、予め推定されたベイジアンネットワークの部分ネットワークを特徴ネットワークとして抽出することができる。以下、各処理について説明する。
【0027】
プロセッサ51は、ノンパラメトリックベイジアンネットワークの所要ノードに各ノードの変数のデータを付与する。所要ノードは、どのようなデータを用いて、どのような変数間の因果関係を求めるかに応じて適宜決定することができる。変数のデータとしては、例えば、電子カルテデータや健康診断データの各種計測値(診療行為に関するデータ、検査データ、医薬品に関するデータなどを含む)、遺伝子に関するデータ(遺伝子発現データ、エピゲノムデータ、プロテオームデータ、SNP(Single Nucleotide Polymorphism)やCNV(Copy Number Variations)などのゲノム変異データ)などが含まれるが、これらに限定されない。また、データは、個人サンプルのように、各サンプルが独立であるような静的なデータでもよく、定期的に検査が行われ記録される電子カルテ・健康診断データや薬剤投与の時系列発現データのように動的・時系列データでもよい。
【0028】
プロセッサ51は、付与したデータに基づいて、他のノードの事後確率(同時確率)を計算する際に、親ノードの確率変数を所与としたときの条件付き確率に基づいて、親ノードから子ノードへの枝の特徴量を算出する。より具体的には、プロセッサ51は、子ノードの確率変数に対する親ノードの確率変数の回帰モデルを表す非線形関数の関数値に基づいて、親ノードから子ノードへの枝の特徴量を算出する。
【0029】
次に、枝の特徴量(枝評価手法)について説明する。特徴量は
図5から
図9に示すように所要の式に基づいて定義することができ、特徴ネットワークを抽出する際には、定義された特徴量のうち、好適のものを用いることができる。
【0030】
図5は枝の特徴量の第1例を示す模式図である。
図5に示すように、変数yが対応付けられた子ノードに対して、q個の親ノードが存在し、各親ノードの変数をx
1 、x
2 、…、x
q とする。この場合、子ノードと対応する各親ノードとの間には、q個の枝(リンク)が存在する。ノンパラメトリック回帰モデルに基づき、変数yと、変数x
1 、x
2 、…、x
q との間には、y=m
1 (x
1 )+m
2 (x
2 )+…+m
q (x
q )+ε、という関係が成り立つ。x
j (j=1~q)のyへの特徴量を枝貢献量ECv(Edge Contribution value)とする。枝貢献量ECvは、ECv(x
j →y)=m
j (x
j )と定義する。枝貢献量ECvは、関数m
j の関数値である。すなわち、プロセッサ51は、非線形関数の関数値を枝の特徴量として算出することができる。なお、複数のサンプルで構成されるサンプル群の枝貢献量ECvは、個々のサンプルの枝貢献量ECvの統計値(例えば、平均値、中央値など)とすることができる。
【0031】
図6は枝の特徴量の第2例を示す模式図である。
図6に示すように、変数yが対応付けられた子ノードに対して、q個の親ノードが存在し、各親ノードの変数をx
1 、x
2 、…、x
q とする。
図5の場合と同様に、変数yと、変数x
1 、x
2 、…、x
q との間には、y=m
1 (x
1 )+m
2 (x
2 )+…+m
q (x
q )+ε、という関係が成り立つ。x
j (j=1~q)のyへの特徴量をΔECvとする。2つのサンプルA、Bのデータに対するECvを、それぞれECv(x
j
A →y
A )、ECv(x
j
B →y
B )とすると、ΔECvは、ΔECv(x
j →y、A、B)=|ECv(x
j
A →y
A )-ECv(x
j
B →y
B )|と定義する。すなわち、プロセッサ51は、異なるサンプルのデータを付与した場合に、第1サンプルのデータに基づく非線形関数の第1関数値と第2サンプルのデータに基づく非線形関数の第2関数値との比較値を枝の特徴量として算出することができる。
【0032】
図7は変数Xの親ノードから変数Yの子ノードへの枝に対するΔECvの概念を示す模式図である。図中、横軸は変数Xの値を示し、縦軸は変数Yの値を示す。変数Xの値は連続値とすることができる。図中の曲線は、変数X、Y間のノンパラメトリック回帰モデルを示し、Y=m
1
(Y)(X)で表すことができる。
図7では、コントロールサンプル群(例えば、特定の症状が現れていないサンプル群)と対象サンプル群(例えば、特定の症状が現れているサンプル群)の2つのサンプル集合間のΔECvを矢印の長さで表している。なお、
図7の例では、2つのサンプル群間のΔECvを図示しているが、ΔECvは、2つのサンプル群間の比較に限定されるものではなく、個人(1つのサンプル)と他の個人との間のΔECvでもよく、個人と全サンプル平均との間のΔECvでもよい。
【0033】
図8は枝の特徴量の第3例を示す模式図である。
図8に示すように、変数yが対応付けられた子ノードに対して、q個の親ノードが存在し、各親ノードの変数をx
1 、x
2 、…、x
q とする。
図5の場合と同様に、変数yと、変数x
1 、x
2 、…、x
q との間には、y=m
1 (x
1 )+m
2 (x
2 )+…+m
q (x
q )+ε、という関係が成り立つ。x
j (j=1~q)のyへの特徴量を相対貢献度RCとする。相対貢献度RCは、RC(x
j →y)=|m
j (x
j )|/max|m
k (x
k )|と定義する。相対貢献度RCは0から1の値になる。ここで、kは、0<k≦qとする。すなわち、プロセッサ51は、子ノードの確率変数に対する複数の親ノードそれぞれの確率変数の回帰モデルを表す各非線形関数の関数値のうちの最大値に対する、当該枝に対応する非線形関数の関数値の割合を当該枝の特徴量として算出することができる。なお、複数のサンプルで構成されるサンプル群の相対貢献度RCは、個々のサンプルの相対貢献度RCの統計値(例えば、平均値、中央値など)とすることができる。
【0034】
図9は枝の特徴量の第4例を示す模式図である。
図9に示すように、変数yが対応付けられた子ノードに対して、q個の親ノードが存在し、各親ノードの変数をx
1 、x
2 、…、x
q とする。
図5の場合と同様に、変数yと、変数x
1 、x
2 、…、x
q との間には、y=m
1 (x
1 )+m
2 (x
2 )+…+m
q (x
q )+ε、という関係が成り立つ。x
j (j=1~q)のyへの特徴量を相対貢献率RCrとする。相対貢献率RCrは、RCr(x
j →y)=|m
j (x
j )|/Σ|m
k (x
k )|と定義する。相対貢献率RCrは0から1の値になる。ここで、Σはk=1からqまでの和とする。すなわち、プロセッサ51は、子ノードの確率変数に対する複数の親ノードそれぞれの確率変数の回帰モデルを表す各非線形関数の関数値の合計値に対する、当該枝に対応する非線形関数の関数値の比率を当該枝の特徴量として算出することができる。なお、複数のサンプルで構成されるサンプル群の相対貢献率RCrは、個々のサンプルの相対貢献率RCrの統計値(例えば、平均値、中央値など)とすることができる。
【0035】
プロセッサ51は、算出した特徴量に基づいてベイジアンネットワークから特徴ネットワークを抽出することができる。具体的には、プロセッサ51は、枝の特徴量が所定の閾値以上である場合、当該枝を含む特徴ネットワークを抽出することができる。上述のように、特徴量としては、枝貢献量ECv、ΔECv、相対貢献度RC、相対貢献率RCrなどを用いることができる。また、閾値は、固定値である必要はなく、サンプルに応じて変更してもよく、データを付与する所要ノードを変更する際に変更してもよい。また、閾値は、上限値と下限値との組み合わせによって決定される所要範囲でもよい。特徴量によって、親ノード(例えば、変数x1 、x2 、…、xq )から子ノード(例えば、変数y)への変数yを決めるモデル上の重要因子を定量化することができる。すなわち、特徴量を用いて特徴ネットワークを抽出することにより、予め推定されたベイジアンネットワーク(モデル)でのサンプル(例えば、個人や特定の疾患など)又はサンプル群についての関連性を示す複数の関連パスを抜き出すことができ、推定されたベイジアンネットワークでのサンプル又はサンプル群を評価することができる。
【0036】
次に、特徴ネットワークの抽出方法について説明する。
図10は特徴ネットワークの抽出方法の第1例を示す模式図である。左図のように、便宜上、推定されたベイジアンネットワークが、15個のノードで構成されているとする。サンプルAのデータを所要のノードの変数に付与して、ノードの変数の同時確率を算出する際に、枝の特徴量を算出する。
図10の例では、特徴量として枝貢献量ECvを用いたとする。各枝の枝貢献量ECvと閾値とを比較して、枝貢献量ECvが閾値以上である枝を太線で表す。この場合、インデックスが3、6、8、11、13の順で枝を特定することができ、特定した枝を繋ぐ特徴ネットワークを抽出することができる。変数のうち、インデックス8の変数が、注目したい因子の変数とすると、サンプルAについて、注目したい因子との因果関係のある他の因子を特定することができる。なお、
図10の例では、特徴ネットワークが、1つのネットワークとして抽出されているが、独立の複数のネットワーク、すなわち、お互いに繋がりのない複数のネットワークとして抽出してもよい。
【0037】
図11は特徴ネットワークの抽出方法の第2例を示す模式図である。
図10と同様に、便宜上、推定されたベイジアンネットワークが、15個のノードで構成されているとする。サンプルBのデータを所要のノードの変数に付与して、他のノードの変数の同時確率を算出する際に、枝の特徴量を算出する。
図11の例では、特徴量として枝貢献量ECvを用いたとする。各枝の枝貢献量ECvと閾値とを比較して、枝貢献量ECvが閾値以上である枝を太線で表す。この場合、インデックスが2、5、8、10、12、15の順で枝を特定することができ、特定した枝を繋ぐ特徴ネットワークを抽出することができる。変数のうち、インデックス8の変数が、注目したい因子の変数とすると、サンプルBについて、注目したい因子との因果関係のある他の因子を特定することができる。なお、
図10及び
図11については、注目したい因子を1つ図示しているが、注目したい因子は複数であってもよい。
【0038】
図11を
図10の場合と対比すると、サンプルAとBとでは、抽出される特徴ネットワークに相違がある。このように、サンプル(個人)毎の重要なパスウェイ(枝の繋がり)を抽出することができ、推定されたベイジアンネットワークでの重み付け個人ネットワークを抽出することができる。すなわち、推定されたベイジアンネットワークでのサンプル又はサンプル群を特徴付ける特徴ネットワークを抽出することができ、推定されたベイジアンネットワークでのサンプル又はサンプル群を評価することができ、個人の計測データの特徴づけ(説明)が可能となる。
【0039】
図12は特徴ネットワークの抽出方法の第3例を示す模式図である。プロセッサ51は、ベイジアンネットワークの所要の複数のノードを設定する。所要のノードの設定は、ユーザの指定に基づいて行うことができる。
図12の例では、設定ノードとして上流側のノードS1、下流側のノードS2が設定されている。
【0040】
プロセッサ51は、設定した一のノード(上流側のノードS1)から他のノード(下流側のノードS2)へ至る複数のパス(パスウェイ)それぞれを構成する1又は複数の枝全体の特徴量を算出する。プロセッサ51は、複数のパスのうち、パスを構成する枝全体の特徴量が所定の閾値以上であるパスを含む特徴ネットワークを抽出する。
【0041】
図12の例では、設定ノードS1からノードS2までの6個の枝それぞれの相対貢献度RCを、RC1、RC2、RC3、RC4、RC5、RC6とすると、6個の枝全体の特徴量Eは、(RC1・RC2・RC3・RC4・RC5・RC6)の6乗根で算出できる。他のパスについても同様に特徴量を算出することができる。仮に、(RC1・RC2・RC3・RC4・RC5・RC6)の6乗根が閾値以上であれば、設定ノードS1とノードS2とを繋ぐ特徴ネットワークとして、
図12の太線で示す枝群が抽出される。
【0042】
次に、前述の抽出方法を用いることにより、抽出された特徴ネットワークの例について説明する。
図13は抽出された特徴ネットワークの第1例を示す模式図である。左側に示す、推定されたネットワークは、EMT遺伝子ネットワークの例であり、例えば、ノード(変数)の数は約2万、枝数は約30万程度である。EMTは上皮間葉転換(Epithelial to mesenchymal transition)であり、上皮細胞がEMT化すると、癌細胞から離れて移動能を持ち、血中に入って転移を起こす。EMTに関連するタンパク質は、癌のバイオマーカーとして注目されている。EMT遺伝子ネットワークは、EMT化した細胞とEMT化していない細胞を表すネットワークである。右側に示す、特徴ネットワークは、枝の特徴量としてΔECvを用いて、推定されたネットワークから抽出したものである。具体的には、EMT化した細胞とEMT化していない細胞との間のΔECvを計算し、計算したΔECvが所定の閾値以上である枝を特定し、特定した枝で構成される特徴ネットワークを抽出している。特徴ネットワークのノード数は約150であり、枝数は約120である。
【0043】
図14は特徴ネットワークによる個人の特徴付けの第1例を示す模式図である。
図14(A)は、ECv行列と称し、各行が特徴ネットワークの枝(枝のインデックス)を示し、各列がサンプル(個人)のECvを示す。行列の各要素が各サンプルの各枝でのECvを表す。ここでの各サンプルは、がん患者の公開データベースの肺がん患者サンプルデータを用いており、ベイジアンネットワークの推定および特徴ネットワークの抽出には用いていないものであっても良い。このECv行列に対して値が近いサンプルを纏めていくクラスタリング手法によって、サンプル群をクラスタ(group1)、(group2)という2つのクラスタに分類することができる。
【0044】
2つに分けられた各クラスタに対して、上記がん患者の公開データベースの肺がんデータに含まれる生存時間データを当てはめた生存時間曲線が
図14(B)である。
図14(B)が示すように、一方のクラスタに属する患者の生存時間は比較的長く、他方のクラスタに属する患者の生存時間は比較的短いという結果が得られた。すなわち、2つのクラスタで予後(生存時間)に大きな差が出ることが実証された。このように、特徴ネットワークにより、個人ごとのデータの特徴付け、分類が可能となる。
【0045】
図15はECv行列の他の構成を示す模式図である。各行が特徴ネットワークの枝(枝のインデクス)を示し、各列がサブタイプ間毎のサンプル(個人)のECvを示す。サブタイプは、例えば、胃がんの分子サブタイプのような、ある特定の癌について、さらに細かく分類いたものとすることができる。図では、サブタイプT1、T2、T3のように図示しているが、例えば、CIN(Chromosomal Instability)、MSI(Microsatellite Instability)、EBV(Epstein Barr Virus)、GS(Genomically Stable)などとすることができる。図中、模様を付した部分が2つのサブタイプの組み合わせでΔECvが閾値以上の枝を表す。
【0046】
サブタイプ間ごとのΔECvは、例えば、以下のようにして求めることができる。すなわち、まず、公開されている胃がん患者の遺伝子発現データに基づいて遺伝子ネットワークを推定する。次に、サンプルごとに全ての枝のECvを算出する。そして文献により定義された胃がんの4つのサブタイプ(CIN、MSI、EBV、GS)毎に、各サンプルのECvの平均値を算出し、そのサブタイプ毎の差を取ることにより、2つのサブタイプ間のΔECvを算出することができる。ここまでは上記のEMT化しているサンプルとEMT化していないサンプルとの比較、つまり二群の比較によるΔECvの算出方法と同様である。4つのサブタイプがある胃がんデータでは他群での特徴ネットワークが必要である。これは例えば1つのサブタイプに対して、他の3つのサブタイプそれぞれとの間でΔECvが閾値より大きな枝を求め、その枝の和集合または積集合を取ることによって可能である。これによりサブタイプ毎の特徴ネットワークを抽出することができる。また単純に1つのサブタイプに対して他の3つのサブタイプを1つの大きなサブタイプとみなして二群比較することで4つのサブタイプ毎の特徴ネットワークを抽出することもできる。
【0047】
図16は特徴ネットワークによる個人の特徴付けの第2例を示す模式図である。
図14と同様、
図16(A)は、ECv行列と称し、各行が特徴ネットワークの枝(枝のインデックス)を示し、各列がサンプル(個人)のECvを示す。行列の各要素が各サンプルの各枝でのECvを表す。ここでの各サンプルは、がん患者の公開データベースの胃がん患者サンプルデータを用いており、4種類のサブタイプが含まれる。すなわち、EBVは、EBウイルス陽性を示し、MSIはマイクロサテライト領域の高頻度変異を示し、CINは体細胞コピー数異常を示し、GSはそれら以外を示す。
図16(A)は、公開データベースのデータで遺伝子ネットワーク推定をして、上位枝のECv行列をクラスタリングすることにより、4つのカテゴリに分類することができ、大まかには既存研究の4種類のサブタイプと対応付けが可能であることを示す。また、
図16(B)に示すように、group1は、他のgroupとの間で生存時間に差があることを見出すことができる。
【0048】
図17は抽出された特徴ネットワークの第2例を示す模式図である。
図17では、4つのサブタイプのうち、EBVに対して、その他のサブタイプ(CIN、GS、MSI)それぞれとのΔECvで抽出した枝(ΔECvの抽出の閾値は、例えば、0.5とすることができる)のうち共通部分(二群差の共通枝)をとる、という方法で抽出した特徴ネットワークである。
【0049】
図18は抽出された特徴ネットワークの第3例を示す模式図である。
図18では、4つのサブタイプのうち、EBVに対して、他の3つのサブタイプ(CIN、GS、MSI)のECvを平均とのΔECvで抽出した枝(ΔECvの抽出の閾値は、例えば、0.5とすることができる)によって抽出した特徴ネットワークである。
【0050】
このように、サブタイプ毎のネットワーク推定を行う必要がなく、サブタイプ毎のネットワークの構造を比較する必要がない。ECvによる比較により、ネットワークの構造比較なしで、1つの遺伝子ネットワークからサブタイプの特徴的な枝を抽出することができる。また、ネットワークの構造比較が不要であるので、特定のサブタイプのサンプル数が少なく、構造比較ができない場合でも、サブタイプの特徴的な枝を抽出することができる。上述のように、がんサブタイプ毎のメカニズムの違いを抽出することが可能となる。
【0051】
図19は抽出された特徴ネットワークにより免疫系の遺伝子を捉えることができるメカニズムを示す模式図である。ピロリ菌などのEBウイルス感染により、サイトカイン(Cytokine)が受容体を介して働き、免疫系が動く。この場合、EBウイルス感染によって動くと考えられる免疫系に関する遺伝子が、ECvに基づいて抽出された特徴ネットワークに含まれていることが判明した。すなわち、ウイルス感染により免疫系が動き、既知の遺伝子セット(molecular signature)との構造比較で得られたシグナル伝達系の構造変化を、特徴ネットワークにより推定することができる可能性を示唆している。
【0052】
図20は特徴ネットワークによる個人の特徴付けの第3例を示す模式図である。
図14と同様、
図20は、ECv行列と称し、各行が特徴ネットワークの枝(枝のインデックス)を示し、各列がサンプル(個人)のECvを示す。行列の各要素が各サンプルの各枝でのECvを表す。ここでの各サンプルは、TCGA(The Cancer Genome Atlas)のすい臓がん患者のデータを用いている。すい臓がん153患者のサンプルから予め予後の確実に良い14サンプルと、悪い14サンプルを決定する。予後の良悪2群それぞれのECvの平均値の差が大きい枝を抽出し、そのECvの値で全28サンプルのECv行列のクラスタリングを行う。図において、各列のうち暗くマーキングしているサンプルは予後が良い14サンプルであり、明るくマーキングしているサンプルは予後が悪い14サンプルである。枝を抽出する際のΔECvの閾値は1.0である。
【0053】
図21は特徴ネットワークによる個人の特徴付けの第4例を示す模式図である。
図21では、枝を抽出する際のΔECvの閾値は0.75である。閾値以外は、
図20の場合と同様である。
【0054】
図22は特徴ネットワークによる個人の特徴付けの第5例を示す模式図である。
図22では、28サンプルから153サンプルに拡大してクラスタリングを行った結果を示す。枝を抽出する際のΔECvの閾値は0.75である。
図20~
図22に示すように、良群と悪群にほぼ分かれることが示されている。
【0055】
図23は抽出された特徴ネットワークを全体のネットワークにマッピングした模式図である。図において、濃くマーキングしている部分は特徴ネットワークを示す。
【0056】
遺伝子ネットワーク解析には、DEG(Differentially expressed genes)、すなわち発現差のある遺伝子を抽出する手法が用いられている。以下では、当該手法と本実施の形態による特徴ネットワークとの関連性について説明する。
【0057】
図24は抽出された特徴ネットワークとDEG遺伝子との関連の第1例を示す模式図である。図では、枝を抽出するΔECvの閾値を1.0として、抽出された特徴ネットワークを示す。Top20DEG遺伝子は、良悪2群で発現差が大きいもの(例えば、foldchangeとして差が1以上)であり、20個存在する。20個のDEG遺伝子のうち、特徴ネットワークから距離が所定値(例えば、1)以内のものは、5個存在し(丸印付き)、当該5個のDEG遺伝子は、特徴ネットワークの下流方向にあることが分かる。
【0058】
図25は抽出された特徴ネットワークとDEG遺伝子との関連の第2例を示す模式図である。図では、枝を抽出するΔECvの閾値を0.75として、抽出された特徴ネットワークを示す。20個のDEG遺伝子のうち、特徴ネットワークから距離が所定値(例えば、1)以内のものは、13個存在し、そのうちの10個のDEG遺伝子は、特徴ネットワークの下流方向にあることが分かる。
図24及び
図25から、発現差のある遺伝子を抽出する遺伝子ネットワーク解析手法によって得られる遺伝子は、特徴ネットワークの下流に位置し、特徴ネットワークの違いから生み出された差が、個々の遺伝子の発現差として推定することができると考えられる。
【0059】
図26は抽出された特徴ネットワークの第4例を示す模式図である。図示していないが、ある地域の住民を対象とした健康調査データを用い、複数の重要疾患を定義し、単一のベイジアンネットワークを推定する。
図26は、推定されたネットワークから、被験者Aと被験者Bのデータを用いて枝の特徴量としてECvを算出し、算出したECvが所定の閾値以上の枝を抽出して特徴ネットワークを抽出したものである。カテゴリは、例えば、年齢、性別、社会背景、生活習慣、健康調査の検査値、遺伝子情報などを含む。
図26から、2人の被験者それぞれの疾患羅患が何であり、共通の疾患が何であるかが分かる。
【0060】
次に、本発明の利用形態について具体例を挙げて説明する。市などの自治体や、健康保険組合に属する企業では、住民や社員などの健康維持や疾患の早期発見などを目指して健康診断を実施している。このような健康診断の結果、多数の健康調査データを収集することができる。また、病院や診療所においても、患者を診察又は治療する際に、患者のデータを収集することができる。本発明の特徴ネットワーク抽出方法を用いることにより、住民、社員、患者などの多数のサンプル又はサンプル群の関係性を評価することができる。
【0061】
以下では、弘前COI(センター・オブ・イノベーション)で計測された健診データ(2014年~2017年の4年間、727名分のデータ)から推定されたベイジアンネットワークを解析しやすいように既存のノード縮約を行い、特徴ネットワークを抽出し、所望の疾患ごと及び個人ごとの因果関係(関連パス)を抜き出した例を示す。なお、推定されたベイジアンネットワークが一般的な離散モデルである場合、1-hot化という機械学習などで用いられている前処理を行って、連続型ベイジアンネットワークに適用することができる。
【0062】
図27は慢性腎臓病(CKD)発症関連パスを抜き出した例を示す模式図であり、
図28は高血圧発症関連パスを抜き出した例を示す模式図である。
図27及び
図28において、関連パスを抜き出すには、上述の相対貢献率RCrを利用して相乗平均上位パスを使用している。関連パスを抜き出す際に、生活習慣から特定の疾患(図の例では、慢性腎臓病及び高血圧)に至るパスだけを取り出している。
【0063】
図29はSNPありの場合のCKD及び高血圧の2疾患関連ネットワークの例を示す模式図であり、
図30はSNPなしの場合のCKD及び高血圧の2疾患関連ネットワークの例を示す模式図である。
図29は、SNP、すなわち、個人ゲノム(遺伝子)変異データがある場合の、慢性腎臓病(CKD)と高血圧の両者の共通部分を示す。
図30は、SNPがない場合の、慢性腎臓病(CKD)と高血圧の両者の共通部分を示す。
図29及び
図30に示すように、慢性腎臓病(CKD)と高血圧の両方の疾患共通の関連パスが観察可能となる。
【0064】
図27において例示した慢性腎臓病(CKD)発症関連パス上に、個人ごとの相対貢献率RCrに基づいて抽出した個人のパスの例について、以下説明する。
【0065】
図31は慢性腎臓病(CKD)発症の個人ネットワークの第1例を示す模式図であり、
図32は慢性腎臓病(CKD)発症の個人ネットワークの第2例を示す模式図であり、
図33は慢性腎臓病(CKD)発症の個人ネットワークの第3例を示す模式図である。
図31に示す第1例は、70代女性のパスであり、慢性腎臓病の発症という観点において、飲酒関連及びストレス/睡眠関連のパスが効いていることが分かる。
図32に示す第2例は、50代男性のパスであり、慢性腎臓病の発症という観点において、心疾患関連のパスが効いていることが分かる。
図33に示す第3例は、60代男性のパスであり、慢性腎臓病の発症という観点において、糖尿病関連のパスが効いていることが分かる。
図31から
図33に示すように、個人ごとに効いているパスが異なることが明瞭に観察可能となる。
【0066】
図34は特徴ネットワーク抽出装置50の処理手順の一例を示すフローチャートである。便宜上、以下では処理の主体をプロセッサ51として説明する。プロセッサ51は、サンプル(個人)のデータを取得し(S11)、取得したデータをベイジアンネットワークの所要のノードに付与する(S12)。
【0067】
プロセッサ51は、所要ノード以外のノードの事後確率の算出を開始し(S13)、リンク(枝又はエッジ)の特徴量を算出する(S14)。プロセッサ51は、他のサンプルの有無を判定し(S15)、他のサンプルがある場合(S15でYES)、ステップS11以降の処理を続ける。
【0068】
他のサンプルがない場合(S15でNO)、プロセッサ51は、算出した特徴量に基づいて特徴ネットワークを抽出し(S16)、処理を終了する。
【0069】
次に、上述のステップS16の特徴ネットワークの抽出について説明する。
図35は特徴ネットワーク抽出処理の一例を示すフローチャートである。プロセッサ51は、群ごとに各枝の特徴量(例えば、ECv)の平均を算出し(S161)、群間のECvの差であるΔECvを各枝で算出する(S162)。
【0070】
プロセッサ51は、ΔECvが閾値より大きい枝を抽出する(S163)。プロセッサ51は、他の群の有無を判定し(S164)、他の群がある場合(S164でYES)、群毎に、他の全ての群との間で抽出した枝の和集合または積集合を抽出し(S165)、後述のステップS166の処理を行う。
【0071】
他の群がない場合(S164でNO)、プロセッサ51は、抽出した枝により特徴ネットワークを構築し(S166)、処理を終了する。
【0072】
特徴ネットワーク抽出装置50は、CPU(プロセッサ)、RAMなどを備えたコンピュータを用いて実現することもできる。
図34及び
図35に示すような処理の手順を定めたコンピュータプログラム(記録媒体Mに記録可能)をコンピュータに備えられた記録媒体読取部55で読み取り、読み取ったコンピュータプログラムをRAMにロードし、コンピュータプログラムをCPU(プロセッサ)で実行することにより、コンピュータ上で特徴ネットワーク抽出装置50を実現することができる。
【0073】
上述のように、本実施の形態によれば、データ全体の特徴(因果関係)までは説明できるというベイジアンネットワークの限界点を超えて、ベイジアンネットワークでは説明できなかった、個人又は個別サンプルの因果関係を、推定されたベイジアンネットワークと枝の特徴量という枝評価手法を用いることにより、説明可能とすることができる。
【0074】
本実施の形態において、ベイジアンネットワークに用いる所定モデルは、ノンパラメトリック回帰モデルに限定されるものではない。例えば、所定モデルは、加法モデルでもよく、掛け算モデルでもよい。加法モデルの場合には、親変数x1、x2、…に対して何らかの関数m1、m2、…があり、子変数y=m1(x1)+m2(x2)+…のように「和」で表すことができる。関数m1(x1)、m2(x2)、…は、所要の関数でよく、関数m1(x1)、m2(x2)、…の値をECvとすることができる。また、m1(x)=xとすれば、所定関数は線形関数となり、線形モデルとすることができる。また、掛け算モデルの場合には、子変数y=m1(x1)・m2(x2)・…のように「掛け算」で表すことができる。所定関数は、非線形関数に限定されるものではなく、線形関数でもよい。
【0075】
本実施の形態において、ベイジアンネットワークは離散モデルでも適用することができる。ベイジアンネットワークが離散モデルの場合、1-hot化という機械学習で行われる一般的な前処理を行うことにより、連続モデルに適用可能となる。1-hot化は、例えば、Xという変数が、A、B、Cをとる場合、「XがAである」「XがBである」「XがCである」という3つの変数に分けて、該当する場合1を、そうでない場合は0をそれぞれの変数の値とすることにより、連続値に変換することができる。また、「XがCである」というのは、「XがAである」及び「XがBである」の両方が0であれば表現できるので、N個のカテゴリの変数の1-hot化をN-1の変数で行ってもよい。
【0076】
本実施の形態の特徴ネットワークは、医療関係のベイジアンネットワークへの適用に限定されるものではない。例えば、ベイジアンネットワークを用いた広告提供、マーケティングリサーチ、アンケート分析、及びシステムの障害診断への応用などにも、本実施の形態の特徴ネットワークは適用可能である。例えば、従来のベイジアンネットワークを用いた分析では、ユーザの年代や性別などの大まかな属性データの因果関係は説明できたとしても、個人又は個別サンプルの因果関係は説明することができない。本実施の形態を適用すれば、推定されたベイジアンネットワークと枝の特徴量という枝評価手法を用いることができ、個人又は個別サンプルの因果関係を説明することが可能となり、ユーザモデリングやヒューマンモデリングへ応用する際に、個人レベルまで詳細に分析することが可能となる。
【0077】
本実施の形態のベイジアンネットワーク分析方法は、前述の特徴ネットワーク抽出装置を用いて、所要のベイジアンネットワークから特徴ネットワークを抽出し、抽出した特徴ネットワークに基づいて、前記ベイジアンネットワークでのサンプル又はサンプル群を評価することができる。この場合、所要のベイジアンネットワークは、医療データ、広告データ、マーケティングデータ及びアンケートデータの少なくとも一つのデータに関する多変量の因果関係を表すものとすることができるが、他のデータに関する多変量の因果関係を表すものでもよい。
【符号の説明】
【0078】
50 特徴ネットワーク抽出装置
51 プロセッサ
52 操作部
53 インタフェース部
54 表示パネル
55 記録媒体読取部
56 ROM
57 メモリ
58 記憶部
581 ベイジアンネットワークモデル
582 サンプルデータ