IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 公立大学法人福島県立医科大学の特許一覧

<>
  • 特開-相互依存性の特定方法 図1
  • 特開-相互依存性の特定方法 図2
  • 特開-相互依存性の特定方法 図3
  • 特開-相互依存性の特定方法 図4
  • 特開-相互依存性の特定方法 図5
  • 特開-相互依存性の特定方法 図6
  • 特開-相互依存性の特定方法 図7
  • 特開-相互依存性の特定方法 図8-1
  • 特開-相互依存性の特定方法 図8-2
  • 特開-相互依存性の特定方法 図9
  • 特開-相互依存性の特定方法 図10
  • 特開-相互依存性の特定方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023122845
(43)【公開日】2023-09-05
(54)【発明の名称】相互依存性の特定方法
(51)【国際特許分類】
   G06F 17/18 20060101AFI20230829BHJP
【FI】
G06F17/18 Z
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022026593
(22)【出願日】2022-02-24
(71)【出願人】
【識別番号】509013703
【氏名又は名称】公立大学法人福島県立医科大学
(74)【代理人】
【識別番号】110002572
【氏名又は名称】弁理士法人平木国際特許事務所
(72)【発明者】
【氏名】森 努
(72)【発明者】
【氏名】河村 隆
【テーマコード(参考)】
5B056
【Fターム(参考)】
5B056BB64
(57)【要約】
【課題】多数の基準を含む事象を取り扱うデータを用いる場合であっても、少ない計算量によって簡便に前記事象間の相互情報量を正確に算出し、前記事象についての対象間の相互依存性を効率的に正確に特定すること。
【解決手段】第1の対象と第2の対象の相互依存性の特定方法であって、第1の対象についての複数個の基準を含む第1の事象を取扱い、かつ第2の対象についての複数個の基準を含む第2の事象を取扱う、複数個のデータからなるデータセットを用いて、第1の事象の特定の値と第2の事象の特定の値との相互情報量を算出する工程を含む、方法。前記第1の事象の特定の値と前記第2の事象の特定の値との組み合わせは、前記データセットにおける前記組み合わせの度数を指標として選択されたものである。
【選択図】なし
【特許請求の範囲】
【請求項1】
第1の事象及び第2の事象の相互依存性の特定方法であって、
前記第1の事象はm個の基準を、前記第2の事象はn個の基準をそれぞれ含み、
前記第1の事象から選択される一の基準及び前記第2の事象から選択される一の基準からなるセルに関し、全てのセルにおける標本数をm×nの度数分布表に集計する標本数集計工程、
前記度数分布表の全てのセルにおいて、前記標本数から同時相対度数を算出し、m×nの分割表に集計する相対度数集計工程、
全てのセルにおいて、前記同時相対度数に基づいて各セルの個別相互情報量を決定する個別相互情報量決定工程、
前記個別相互情報量から前記第1の事象及び前記第2の事象の相互情報量を算出する相互情報量算出工程、及び
前記相互情報量の値に基づき、前記第1の事象及び前記第2の事象の相互依存性を判定する相互依存性判定工程
を含み、
前記m及びnはそれぞれ2以上の整数であり、かつ、その少なくとも一方は3以上であり、
前記同時相対度数は、あるセルに該当する前記標本数の全標本数に対する割合であり、
前記個別相互情報量決定工程は、
各セルに関して、
(a)一のセルの同時相対度数、そのセルの第1の事象における基準についての周辺相対度数、及び第2の事象における基準についての周辺相対度数に基づいて、前記m×nの分割表を前記第1及び前記第2の事象のそれぞれにおける基準についての2値データを含む2×2の分割表として変換する変換ステップ、及び
(b)前記2×2の分割表から、多次元相互情報量、フィッシャーの正確確率又は超幾何分布を用いて前記第1及び前記第2の事象における基準の相互関係の強さを前記個別相互情報量として算出する算出ステップ
を含み、
前記相互情報量算出工程は、
(i)前記個別相互情報量から前記相互情報量を式(I)
【数1】
(式中、MIは前記相互情報量を示し、MIklは前記個別相互情報量を示す)
に基づいて算出する直接算出ステップを含み、又は
(ii)前記個別相互情報量を相互に比較し、絶対値が最も大きい前記個別相互情報量をフロンティア相互情報量として選択するフロンティア相互情報量選択ステップ、及び
前記フロンティア相互情報量に基づいて、前記相互情報量を算出するフロンティア相互情報量利用ステップを含み、
前記フロンティア相互情報量利用ステップにおける前記相互情報量の算出は式(II)
【数2】
(式中、MIは前記相互情報量を示し、MIfrontは前記フロンティア相互情報量を示す)
によって行われる、
前記方法。
【請求項2】
前記多次元相互情報量を用いた算出が、下記式(III)に基づいて行われる、請求項1に記載の方法。
【数3】
(式中、
MIklは前記第1の事象のk番目の基準及び前記第2の事象のl番目の基準からなるセルの個別相互情報量を示し、
k′は前記2×2の分割表における前記第1の事象のk′番目の基準を示し、
l′は前記2×2の分割表における前記第2の事象のl′番目の基準を示し、
p(Xk′,Yl′)は基準Xk′及び基準Yl′からなるセルの同時相対度数を示し、
p(Xk′)は基準Xk′についての周辺相対度数を示し、
p(Yl′)は基準Yl′についての周辺相対度数を示す)
【請求項3】
前記m及びnの少なくとも一方が100以上である、請求項1又は2に記載の方法。
【請求項4】
前記全標本数が1000以上である、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記相互情報量算出工程の後に、
前記相互情報量の信頼区間を求める信頼区間算出工程
を更に含む、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記判定工程が、
異なる1以上の分割表との間で前記相互情報量をメタ解析により統合する統合ステップ
を含む、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記各工程及び各ステップがコンピュータによって行われる、請求項1~6のいずれか一項に記載の方法。
【請求項8】
第1の事象及び第2の事象における各セルの期待値の比較方法であって、
前記第1の事象はm個の基準を、前記第2の事象はn個の基準をそれぞれ含み、
前記第1の事象から選択される一の基準及び前記第2の事象から選択される一の基準からなるセルに関し、全てのセルにおける標本数をm×nの度数分布表に集計する標本数集計工程、
前記度数分布表の全てのセルにおいて、前記標本数から同時相対度数を算出し、m×nの分割表に集計する相対度数集計工程、
全てのセルにおいて、前記同時相対度数に基づいて各セルの個別相互情報量を決定する個別相互情報量決定工程、及び
少なくとも1つの前記セルにおいて、確率分布にしたがって前記個別相互情報量を期待値に変換する期待値算出工程
異なる複数のセル間で前記期待値を比較する期待値比較工程、及び
比較結果から、前記各セルの順位を期待値の大きさに基づいて決定するセル順位決定工程
を含み、
前記m及びnはそれぞれ2以上の整数であり、かつ、その少なくとも一方は3以上であり、
前記同時相対度数は、あるセルに該当する前記標本数の全標本数に対する割合であり、
前記個別相互情報量決定工程は、
各セルに関して、
(a)一のセルの同時相対度数、そのセルの第1の事象における基準についての周辺相対度数、及び第2の事象における基準についての周辺相対度数に基づいて、前記m×nの分割表を前記第1及び前記第2の事象のそれぞれにおける基準についての2値データを含む2×2の分割表として変換する変換ステップ、及び
(b)前記2×2の分割表から、多次元相互情報量、フィッシャーの正確確率又は超幾何分布を用いて前記第1及び前記第2の事象における基準の相互関係の強さを前記個別相互情報量として算出する算出ステップ
を含み、
前記確率分布の確率密度関数は式(IV)
【数4】
(式中、p(x)は前記個別相互情報量がxの場合の期待値を示し、<MIkl>は前記個別相互情報量の平均値を示す)
で表される、
前記方法。
【請求項9】
前記各工程及び各ステップがコンピュータによって行われる、請求項8に記載の方法。
【請求項10】
第1の事象及び第2の事象の相互情報量の算出装置であって、
前記第1の事象はm個の基準を、前記第2の事象はn個の基準をそれぞれ含み、
前記第1の事象から選択される一の基準及び前記第2の事象から選択される一の基準からなるセルに関し、全てのセルにおける標本数をm×nの度数分布表に集計する標本数集計部、
前記度数分布表の全てのセルにおいて、前記標本数から同時相対度数を算出し、m×nの分割表に集計する相対度数集計部、
全てのセルにおいて、前記同時相対度数に基づいて各セルの個別相互情報量を決定する個別相互情報量決定部、及び
前記個別相互情報量から前記第1の事象及び前記第2の事象の相互情報量を算出する相互情報量算出部
を含み、
前記m及びnはそれぞれ2以上の整数であり、かつ、その少なくとも一方は3以上であり、
前記同時相対度数は、あるセルに該当する前記標本数の全標本数に対する割合であり、
前記個別相互情報量決定部による決定は、
各セルに関して、
(a)一のセルの同時相対度数、そのセルの第1の事象における基準についての周辺相対度数、及び第2の事象における基準についての周辺相対度数に基づいて、前記m×nの分割表を前記第1及び前記第2の事象のそれぞれにおける基準についての2値データを含む2×2の分割表として変換し、
(b)前記2×2の分割表から、多次元相互情報量、フィッシャーの正確確率又は超幾何分布を用いて前記第1及び前記第2の事象における基準の相互関係の強さを前記個別相互情報量として算出する
ことにより行われ、
前記相互情報量算出部による算出は、
(i)前記個別相互情報量から前記相互情報量を式(I)
【数5】
(式中、MIは前記相互情報量を示し、MIklは前記個別相互情報量を示す)
に基づいて算出することを含み、又は
(ii)前記個別相互情報量を相互に比較し、絶対値が最も大きい前記個別相互情報量をフロンティア相互情報量として選択すること、及び
前記フロンティア相互情報量に基づいて、前記第1の事象及び前記第2の事象における相互情報量を算出することを含み、
前記相互情報量の算出は式(II)
【数6】
(式中、MIは前記相互情報量を示し、MIfrontは前記フロンティア相互情報量を示す)
によって行われる、
前記装置。
【請求項11】
第1の事象及び第2の事象の相互情報量の処理プログラムであって、
前記第1の事象はm個の基準を、前記第2の事象はn個の基準をそれぞれ含み、
コンピュータに、
前記第1の事象から選択される一の基準及び前記第2の事象から選択される一の基準からなるセルに関し、全てのセルにおける標本数をm×nの度数分布表に集計する標本数集計工程、
前記度数分布表の全てのセルにおいて、前記標本数から同時相対度数を算出し、m×nの分割表に集計する相対度数集計工程、
全てのセルにおいて、前記同時相対度数に基づいて各セルの個別相互情報量を決定する個別相互情報量決定工程、及び
期待値の算出を行う場合、
少なくとも1つの前記セルにおいて、確率分布にしたがって前記個別相互情報量を期待値に変換する期待値算出工程を、
期待値の算出を行わない場合、
前記個別相互情報量から前記第1の事象及び前記第2の事象の相互情報量を算出する相互情報量算出工程、及び
前記相互情報量の値に基づき、前記第1の事象及び前記第2の事象の相互依存性を判定する相互依存性判定工程を
実行させるように構成され、
前記m及びnはそれぞれ2以上の整数であり、かつ、その少なくとも一方は3以上であり、
前記同時相対度数は、あるセルに該当する前記標本数の全標本数に対する割合であり、
前記個別相互情報量決定工程は、
各セルに関して、
(a)一のセルの同時相対度数、そのセルの第1の事象における基準についての周辺相対度数、及び第2の事象における基準についての周辺相対度数に基づいて、前記m×nの分割表を前記第1及び前記第2の事象のそれぞれにおける基準についての2値データを含む2×2の分割表として変換する変換ステップ、及び
(b)前記2×2の分割表から、多次元相互情報量、フィッシャーの正確確率又は超幾何分布を用いて前記第1及び前記第2の事象における基準の相互関係の強さを前記個別相互情報量として算出する算出ステップ
を含み、
前記相互情報量算出工程は、
(i)前記個別相互情報量から前記相互情報量を式(I)
【数7】
(式中、MIは前記相互情報量を示し、MIklは前記個別相互情報量を示す)
に基づいて算出する直接算出ステップを含み、又は
(ii)前記個別相互情報量を相互に比較し、絶対値が最も大きい前記個別相互情報量をフロンティア相互情報量として選択するフロンティア相互情報量選択ステップ、及び
前記フロンティア相互情報量に基づいて、前記相互情報量を算出するフロンティア相互情報量利用ステップを含み、
前記フロンティア相互情報量利用ステップにおける前記相互情報量の算出は式(II)
【数8】
(式中、MIは前記相互情報量を示し、MIfrontは前記フロンティア相互情報量を示す)
によって行われ、
前記確率分布の確率密度関数は式(IV)
【数9】
(式中、p(x)は前記個別相互情報量がxの場合の期待値を示し、<MIkl>は前記個別相互情報量の平均値を示す)
で表される、
前記プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、相互情報量を算出する工程を含む相互依存性の特定方法、前記方法を実行させるためのコンピュータ用プログラム、及び前記相互情報量を算出する算出装置に関する。
【背景技術】
【0002】
昨今のコンピュータ技術の発展により、各種の手段によって、データが収集されており、異なる種類のデータを含む大量のデータが蓄積されている。これらの大規模のデータには、有用な情報が含まれていると期待されており、これらを確率変数として大規模な範囲にわたって網羅的に統一的に用いて解析を行うことができれば、前記確率変数についての対象の特性をより高い精度において特定することができることが期待される。
【0003】
複数の確率変数間の相互情報量は、情報理論において用いられている2つの確率変数の相互依存の尺度を表す量であり、前記確率変数についての対象間の相互依存性の尺度を表す量として用いられている。複数の確率変数間の相互情報量を算出することにより、前記確率変数の対象間の相互依存性を特定することができ、これにより、前記対象の特性を特定することができると期待される。なお、相互情報量を用いて大量のデータを解析する技術は、文書、音声、画像、位置、生命、天文、金融、売上等多様な情報の処理に用いられている。生命情報のデータ解析のアルゴリズムとしては、例えばARACNE等が知られている(非特許文献1)。
【0004】
相互情報量は、このように大量のデータを扱うのに適している反面、確率論に基づく統計学的解析を行うことが困難であり、多数の確率変数間での比較が困難であるという欠点があった。この点を克服するため、本発明者らは、2×2の分割表で表現されるデータに関し、統計学的手法を用いた相互情報量の算出方法を開発している(特許文献1)。しかし、この方法を大量の基準からなる複数の事象に関するデータ、つまり、m×nの分割表で表現されるデータに適用するのは困難であった。それは、この方法で使用する統計手法が2×2の分割表に特化したフィッシャーの正確確率であったこと、及び従来の方法を用いて相互情報量を算出する際と同様に、m×nの分割表で表現されるデータからの相互情報量の算出には膨大な計算量が必要であることに起因していた。
【0005】
2つの離散確率変数XとYの相互情報量MIは、XとYが共有する情報量の尺度であり、その算出式としては、以下の式が知られている。
【0006】
【数1】
【0007】
上の式において、p(x,y)はXとYの同時確率、p(x)とp(y)はそれぞれXとYの周辺確率である。
【0008】
また、2つの連続確率変数XとYの相互情報量I(X;Y)の算出式としては、以下の式が知られている。
【0009】
【数2】
【0010】
上の式において、p(x,y)はXとYの同時確率密度関数、p(x)とp(y)はそれぞれXとYの周辺確率密度関数である。これらの式は、あり得る全てのデータ範囲において2変数の同時確率の期待値を計算して、その総和を求めることによって、相互情報量が算出されることを意味している。このように、相互情報量は、2変数の同時確率の期待値の総和により算出されることから、前記変数が取りうる値が増えた場合には、必要な計算量が飛躍的に増大することとなる。そのため、対象間の相互依存性を特定するために多数の値を取る確率変数間の相互情報量を求めることは、計算時間及び計算コストの観点から、現実的ではなかった。
【先行技術文献】
【特許文献】
【0011】
【特許文献1】WO2018/181988
【非特許文献】
【0012】
【非特許文献1】NATURE REVIEWS CANCER,VOLUME 17,FEBRUARY 2017,116-130
【発明の概要】
【発明が解決しようとする課題】
【0013】
本発明は、多数の値を取る確率変数を取り扱うデータを用いる場合であっても、少ない計算量によって簡便に前記確率変数間の相互情報量を正確に算出し、前記確率変数についての対象間の相互依存性を効率的に正確に特定することを目的とする。
【課題を解決するための手段】
【0014】
本発明者らは、鋭意検討していたところ、m個の値を取る第1の確率変数とn個の値を取る第2の確率変数との間の相互情報量MIは、前記第1の確率変数の特定の値と前記第2の確率変数の特定の値との間の個別相互情報量の和として近似できることがわかった。更に、そのうち絶対値が最も大きい個別相互情報量であるフロンティア相互情報量(MIfront)を用いて、式m×n×MIfront/log(m×n-1)により、相互情報量を近似的に算出できることを見出した。そして、前記フロンティア相互情報量MIfrontは、データセットにおける前記組み合わせの度数を指標として特定することができることを見出した。これらの知見に基づき、前記第1及び第2の確率変数として2つの事象の相対度数を用いることにより、2つの事象の相互情報量を特定する方法を開発するに至った。
【0015】
すなわち、本発明は、以下を提供するものである。
[1]第1の事象及び第2の事象の相互依存性の特定方法であって、前記第1の事象はm個の基準を、前記第2の事象はn個の基準をそれぞれ含み、前記第1の事象から選択される一の基準及び前記第2の事象から選択される一の基準からなるセルに関し、全てのセルにおける標本数をm×nの度数分布表に集計する標本数集計工程;前記度数分布表の全てのセルにおいて、前記標本数から同時相対度数を算出し、m×nの分割表に集計する相対度数集計工程;全てのセルにおいて、前記同時相対度数に基づいて各セルの個別相互情報量を決定する個別相互情報量決定工程;前記個別相互情報量から前記第1の事象及び前記第2の事象の相互情報量を算出する相互情報量算出工程;及び前記相互情報量の値に基づき、前記第1の事象及び前記第2の事象の相互依存性を判定する相互依存性判定工程を含み、
前記m及びnはそれぞれ2以上の整数であり、かつ、その少なくとも一方は3以上であり、前記同時相対度数は、あるセルに該当する前記標本数の全標本数に対する割合であり、
前記個別相互情報量決定工程は、各セルに関して、(a)一のセルの同時相対度数、そのセルの第1の事象における基準についての周辺相対度数、及び第2の事象における基準についての周辺相対度数に基づいて、前記m×nの分割表を前記第1及び前記第2の事象のそれぞれにおける基準についての2値データを含む2×2の分割表として変換する変換ステップ、及び(b)前記2×2の分割表から、多次元相互情報量、フィッシャーの正確確率又は超幾何分布を用いて前記第1及び前記第2の事象における基準の相互関係の強さを前記個別相互情報量として算出する算出ステップを含み、
前記相互情報量算出工程は、(i)前記個別相互情報量から前記相互情報量を式(I)
【数3】
(式中、MIは前記相互情報量を示し、MIklは前記個別相互情報量を示す)
に基づいて算出する直接算出ステップを含み、又は(ii)前記個別相互情報量を相互に比較し、絶対値が最も大きい前記個別相互情報量をフロンティア相互情報量として選択するフロンティア相互情報量選択ステップ、及び前記フロンティア相互情報量に基づいて、前記相互情報量を算出するフロンティア相互情報量利用ステップを含み、前記フロンティア相互情報量利用ステップにおける前記相互情報量の算出は式(II)
【数4】
(式中、MIは前記相互情報量を示し、MIfrontは前記フロンティア相互情報量を示す)
によって行われる、前記方法。
[2]前記多次元相互情報量を用いた算出が、下記式(III)に基づいて行われる、[1]に記載の方法。
【数5】
(式中、MIklは前記第1の事象のk番目の基準及び前記第2の事象のl番目の基準からなるセルの個別相互情報量を示し、Xk′は前記2×2の分割表における前記第1の事象のk′番目の基準を示し、Yl′は前記2×2の分割表における前記第2の事象のl′番目の基準を示し、p(Xk′,Yl′)は基準Xk′及び基準Yl′からなるセルの同時相対度数を示し、p(Xk′)は基準Xk′についての周辺相対度数を示し、p(Yl′)は基準Yl′についての周辺相対度数を示す)
[3]前記m及びnの少なくとも一方が100以上である、[1]又は[2]に記載の方法。
[4]前記全標本数が1000以上である、[1]~[3]のいずれかに記載の方法。
[5]前記相互情報量算出工程の後に、前記相互情報量の信頼区間を求める信頼区間算出工程を更に含む、[1]~[4]のいずれかに記載の方法。
[6]前記判定工程が、異なる1以上の分割表との間で前記相互情報量をメタ解析により統合する統合ステップを含む、[1]~[5]のいずれかに記載の方法。
[7]前記各工程及び各ステップがコンピュータによって行われる、[1]~[6]のいずれかに記載の方法。
[8]第1の事象及び第2の事象における各セルの期待値の比較方法であって、前記第1の事象はm個の基準を、前記第2の事象はn個の基準をそれぞれ含み、前記第1の事象から選択される一の基準及び前記第2の事象から選択される一の基準からなるセルに関し、全てのセルにおける標本数をm×nの度数分布表に集計する標本数集計工程;前記度数分布表の全てのセルにおいて、前記標本数から同時相対度数を算出し、m×nの分割表に集計する相対度数集計工程;全てのセルにおいて、前記同時相対度数に基づいて各セルの個別相互情報量を決定する個別相互情報量決定工程;及び少なくとも1つの前記セルにおいて、確率分布にしたがって前記個別相互情報量を期待値に変換する期待値算出工程;異なる複数のセル間で前記期待値を比較する期待値比較工程;及び比較結果から、前記各セルの順位を期待値の大きさに基づいて決定するセル順位決定工程を含み、
前記m及びnはそれぞれ2以上の整数であり、かつ、その少なくとも一方は3以上であり、前記同時相対度数は、あるセルに該当する前記標本数の全標本数に対する割合であり、
前記個別相互情報量決定工程は、各セルに関して、(a)一のセルの同時相対度数、そのセルの第1の事象における基準についての周辺相対度数、及び第2の事象における基準についての周辺相対度数に基づいて、前記m×nの分割表を前記第1及び前記第2の事象のそれぞれにおける基準についての2値データを含む2×2の分割表として変換する変換ステップ、及び(b)前記2×2の分割表から、多次元相互情報量、フィッシャーの正確確率又は超幾何分布を用いて前記第1及び前記第2の事象における基準の相互関係の強さを前記個別相互情報量として算出する算出ステップを含み、
前記確率分布の確率密度関数は式(IV)
【数6】
(式中、p(x)は前記個別相互情報量がxの場合の期待値を示し、<MIkl>は前記個別相互情報量の平均値を示す)
で表される、前記方法。
[9]前記各工程及び各ステップがコンピュータによって行われる、[8]に記載の方法。
【0016】
[10]第1の事象及び第2の事象の相互情報量の算出装置であって、前記第1の事象はm個の基準を、前記第2の事象はn個の基準をそれぞれ含み、前記第1の事象から選択される一の基準及び前記第2の事象から選択される一の基準からなるセルに関し、全てのセルにおける標本数をm×nの度数分布表に集計する標本数集計部;前記度数分布表の全てのセルにおいて、前記標本数から同時相対度数を算出し、m×nの分割表に集計する相対度数集計部;全てのセルにおいて、前記同時相対度数に基づいて各セルの個別相互情報量を決定する個別相互情報量決定部;及び前記個別相互情報量から前記第1の事象及び前記第2の事象の相互情報量を算出する相互情報量算出部を含み、
前記m及びnはそれぞれ2以上の整数であり、かつ、その少なくとも一方は3以上であり、前記同時相対度数は、あるセルに該当する前記標本数の全標本数に対する割合であり、
前記個別相互情報量決定部による決定は、各セルに関して、(a)一のセルの同時相対度数、そのセルの第1の事象における基準についての周辺相対度数、及び第2の事象における基準についての周辺相対度数に基づいて、前記m×nの分割表を前記第1及び前記第2の事象のそれぞれにおける基準についての2値データを含む2×2の分割表として変換し、(b)前記2×2の分割表から、多次元相互情報量、フィッシャーの正確確率又は超幾何分布を用いて前記第1及び前記第2の事象における基準の相互関係の強さを前記個別相互情報量として算出することにより行われ、
前記相互情報量算出部による算出は、(i)前記個別相互情報量から前記相互情報量を式(I)
【数7】
(式中、MIは前記相互情報量を示し、MIklは前記個別相互情報量を示す)
に基づいて算出することを含み、又は(ii)前記個別相互情報量を相互に比較し、絶対値が最も大きい前記個別相互情報量をフロンティア相互情報量として選択すること、及び前記フロンティア相互情報量に基づいて、前記第1の事象及び前記第2の事象における相互情報量を算出することを含み、
前記相互情報量の算出は式(II)
【数8】
(式中、MIは前記相互情報量を示し、MIfrontは前記フロンティア相互情報量を示す)
によって行われる、前記装置。
[11]第1の事象及び第2の事象の相互情報量の処理プログラムであって、前記第1の事象はm個の基準を、前記第2の事象はn個の基準をそれぞれ含み、コンピュータに、前記第1の事象から選択される一の基準及び前記第2の事象から選択される一の基準からなるセルに関し、全てのセルにおける標本数をm×nの度数分布表に集計する標本数集計工程;前記度数分布表の全てのセルにおいて、前記標本数から同時相対度数を算出し、m×nの分割表に集計する相対度数集計工程;全てのセルにおいて、前記同時相対度数に基づいて各セルの個別相互情報量を決定する個別相互情報量決定工程;及び、期待値の算出を行う場合、少なくとも1つの前記セルにおいて、確率分布にしたがって前記個別相互情報量を期待値に変換する期待値算出工程を、期待値の算出を行わない場合、前記個別相互情報量から前記第1の事象及び前記第2の事象の相互情報量を算出する相互情報量算出工程、及び前記相互情報量の値に基づき、前記第1の事象及び前記第2の事象の相互依存性を判定する相互依存性判定工程を実行させるように構成され、
前記m及びnはそれぞれ2以上の整数であり、かつ、その少なくとも一方は3以上であり、前記同時相対度数は、あるセルに該当する前記標本数の全標本数に対する割合であり、
前記個別相互情報量決定工程は、各セルに関して、(a)一のセルの同時相対度数、そのセルの第1の事象における基準についての周辺相対度数、及び第2の事象における基準についての周辺相対度数に基づいて、前記m×nの分割表を前記第1及び前記第2の事象のそれぞれにおける基準についての2値データを含む2×2の分割表として変換する変換ステップ、及び(b)前記2×2の分割表から、多次元相互情報量、フィッシャーの正確確率又は超幾何分布を用いて前記第1及び前記第2の事象における基準の相互関係の強さを前記個別相互情報量として算出する算出ステップを含み、
前記相互情報量算出工程は、(i)前記個別相互情報量から前記相互情報量を式(I)
【数9】
(式中、MIは前記相互情報量を示し、MIklは前記個別相互情報量を示す)
に基づいて算出する直接算出ステップを含み、又は(ii)前記個別相互情報量を相互に比較し、絶対値が最も大きい前記個別相互情報量をフロンティア相互情報量として選択するフロンティア相互情報量選択ステップ、及び前記フロンティア相互情報量に基づいて、前記相互情報量を算出するフロンティア相互情報量利用ステップを含み、
前記フロンティア相互情報量利用ステップにおける前記相互情報量の算出は式(II)
【数10】
(式中、MIは前記相互情報量を示し、MIfrontは前記フロンティア相互情報量を示す)
によって行われ、
前記確率分布の確率密度関数は式(IV)
【数11】
(式中、p(x)は前記個別相互情報量がxの場合の期待値を示し、<MIkl>は前記個別相互情報量の平均値を示す)
で表される、前記プログラム。
【発明の効果】
【0017】
本発明によれば、確率変数の取る値の全ての組み合わせについて同時確率の期待値を計算することなく、確率変数間の相互情報量を正確に算出することができる。また、本発明によれば、相互情報量に基づいて、任意の同時確率の期待値を算出することができる。
【図面の簡単な説明】
【0018】
図1】相互情報量の算出装置(1)の構成例を示す模式図である。
図2】相互情報量の算出装置のソフトウェアの構成例を示す図である。
図3】相互依存性の特定方法及び各セルの期待値の比較方法の工程を示すフローチャートである。
図4】個別相互情報量決定工程(S0103)の詳細(S0110及びS0111)を示すフローチャートである。
図5】相互依存性の特定方法における相互情報量算出工程(S0104)の詳細(S0112~S0114)を示すフローチャートである。
図6】2×2の分割表における、相互情報量(MI)と、フィッシャーの正確確率(P)及びカイ二乗分布から得られた確率(Pχ)の関係を示すグラフである。図中、LogPは確率Pの常用対数を示し、フィッシャーの正確確率に関するRは決定係数を、Nは全標本数を示す。
図7】2×2の分割表における、相互情報量(MI)と、フィッシャーの正確確率(P)及びカイ二乗分布から得られた確率(Pχ)の関係を示すグラフである。図中、LogPは確率Pの常用対数を示し、フィッシャーの正確確率に関するRは決定係数を、Nは全標本数を示す。
図8-1】10×10の分割表の各セルにおける度数の大きさを示す図である。(A)各セルの度数と平均値の差の絶対値の大きさを色の濃さにより示す。(B)各セルの度数を示す。
図8-2】10×10の分割表の各セルにおける個別相互情報量の大きさを示す図である。(A)各セルの個別相互情報量の値の大きさを色の濃さにより示す。(B)各セルの個別相互情報量を示す。
図9】m×nの分割表の各セルの個別相互情報量と同時相対度数の大きさの関係を示すグラフである。各左パネルは、個別相互情報量と同時相対度数の関係を、右パネルは個別相互情報量と同時相対度数の対数値の関係を示す。(A)m=n=10の場合を示す。(B)m=n=100の場合を示す。図中、MIklは個別相互情報量を示し、pは各セルの同時相対度数、Log(p)は同時相対度数pの常用対数を示す。
図10】m×nの分割表の各セルの個別相互情報量と同時相対度数の大きさの関係を示すグラフである。各左パネルは、個別相互情報量と同時相対度数の関係を、右パネルは個別相互情報量と同時相対度数の対数値の関係を示す。(A)m=n=1,000の場合を示す。(B)m=n=10,000の場合を示す。図中、MIklは個別相互情報量を示し、pは各セルの同時相対度数、Log(p)は同時相対度数pの常用対数を示す。
図11】m×nの分割表の各セルの個別相互情報量と同時相対度数を示すグラフである。図中、MIklは個別相互情報量を示し、pは各セルの同時相対度数を示す。
【発明を実施するための形態】
【0019】
本明細書においては、数式中の「×」は一部省略して記載されている。
本発明は、第1の事象及び第2の事象の相互依存性の特定方法を提供する。本発明の方法は、図3に示す通り、標本数集計工程(S0101)、相対度数集計工程(S0102)、個別相互情報量決定工程(S0103)、相互情報量算出工程(S0104)及び相互依存性判定工程(S0105)を含む。
【0020】
ここで、事象の例としては、対象について観察結果として把握される状態が挙げられる。対象の例としては、遺伝子、単語が挙げられる。対象の別の例としては、文書、音声、画像、位置、生命、天文、金融、売上等に関するものが挙げられる。状態の例としては、前記対象の平均的な性質と異なることが挙げられる。事象の例としては、遺伝子の変化、エピジェネティックな変化、株価の上昇・下落が挙げられる。事象の別の例としては、複数の単語が同一の文において用いられること、売り上げに特定の商品の売り上げが含まれることが挙げられる。
【0021】
遺伝子の変化の例としては、遺伝子配列の変異、遺伝子の発現産物の変化、遺伝子の修飾の変化が挙げられる。遺伝子配列の変異の例としては、遺伝子の塩基配列の変異、遺伝子の染色体上のコピー数の変化、遺伝子の修飾の変化が挙げられる。遺伝子の塩基配列の変異の例としては、遺伝子の点突然変異、遺伝子に対する塩基配列の付加、遺伝子における塩基配列の欠失が挙げられる。遺伝子の発現産物の例としては、タンパク質、mRNA、miRNA(micro-RNA)が挙げられる。遺伝子の発現産物の変化の例としては、遺伝子の発現産物の発現量の変化、遺伝子の発現産物の発現箇所の変化、遺伝子の発現産物の複合体の形成、遺伝子の発現産物の複合体の分解が挙げられる。遺伝子の修飾の例としては、DNAメチル化、ヒストン修飾が挙げられる。ヒストン修飾の例としては、アセチル化、メチル化、ユビキチン化、リン酸化、SUMO化が挙げられる。また、遺伝子の修飾の例としては、翻訳後修飾が挙げられる。翻訳後修飾の例としては、官能基付加、タンパク質又はペプチドの付加、アミノ酸の化学的性質の変換、構造変換が挙げられる。官能基付加の例としては、アシル化、アセチル化、アルキル化、アミド化、ビオチニル化、ホルミル化、γカルボキシル化、グルタミル化、グリコシル化、グリシル化、ヘム、ヒドロキシル化、ヨウ素化、イソプレニル化、リポイル化(プレニル化、GPIアンカー形成、ミリストイル化、ファルネシル化、ゲラニルゲラニル化等)、ヌクレオチド又は誘導体への共有結合の付加(ADPリボシル化、FAD結合等)、酸化還元反応、ポリエチレングリコール化、ホスファチジルイノシトール、ホスホパンテテイニル化、リン酸化、ピログルタミン酸形成、ラセミ化、チロシン硫酸化、セレノイル化が挙げられる。タンパク質又はペプチドの付加の例としては、ISG化、SUMO化、ユビキチン化が挙げられる。アミノ酸の化学的性質の変換の例としては、シトルリン化又は脱アミン、脱アミドが挙げられる。構造変換の例としては、ジスルフィド、プロテアーゼによるものが挙げられる。
【0022】
遺伝子の例としては、ヒト、サル、マウス、ラット等の哺乳類の遺伝子が挙げられる。エピジェネティックな変化の例としては、細胞分裂を通して受け継がれる変化であって、DNA塩基配列の変化とは独立した変化が挙げられる。
【0023】
第1の事象と第2の事象において、第1と第2は、第1の事象と第2の事象を区別するための記号であり、これらの順序を限定するものではない。ここで、第1の事象と第2の事象とは、異なる対象についての同一の状態であってもよく、同一の対象についての異なる状態であってもよい。例えば、第1の事象が、遺伝子Aの塩基配列の変異であり、第2の事象が、遺伝子Bの塩基配列の変異であってもよい。また、例えば、第1の事象が、遺伝子Aの配列の変異であり、第2の事象が、遺伝子Aの発現産物の発現量の変化であってもよい。なお、ここで、遺伝子Aと遺伝子Bは、異なる遺伝子を指す。
【0024】
共通の対象の例としては、生物に由来すること、ヒトに由来すること、疾患を有するヒトに由来すること、がんを有するヒトに由来すること、特定の種類のがんを有するヒトに由来することが挙げられる。主体の例としては、ヒト等の生物の細胞、臓器その他の生体試料が挙げられる。
【0025】
特定の種類のがんの例としては、白血病、リンパ腫、ホジキン病、非ホジキンリンパ腫、多発性骨髄腫、脳腫瘍、乳がん、子宮体がん、子宮頚がん、卵巣がん、食道癌、胃癌、虫垂癌、大腸癌、肝癌、肝細胞癌、胆嚢癌、胆管癌、膵臓がん、副腎癌、消化管間質腫瘍、中皮腫、頭頚部癌、喉頭癌、口腔癌、口腔底癌、歯肉癌、舌癌、頬粘膜癌、唾液腺癌、副鼻腔癌、上顎洞癌、前頭洞癌、篩骨洞癌、蝶型骨洞癌、甲状腺癌、腎臓がん、肺癌、骨肉腫、前立腺癌、精巣腫瘍(睾丸がん)、腎細胞癌、膀胱癌、横紋筋肉腫、皮膚癌、肛門癌が挙げられる。
【0026】
疾患、特にがんに罹患した生物は、遺伝子間の相互作用が増幅しているため、疾患、特にがんに罹患した生物に由来する細胞、臓器その他の生体試料は、異なる遺伝子についての相互依存性を特定するためのサンプルとして、好適である。
【0027】
事象の例としては、有無で表されるもの、数値で表されるものが挙げられる。数値で表されるものの例としては、2を超える離散量で表されるもの、連続量で表されるものが挙げられる。第1の事象と第2の事象は、異なるように表されるものであってよく、例えば、第1の事象が有無で表されるものであり、第2の事象が2を超える離散量で表されるものであってもよい。
【0028】
事象が、遺伝子についてのものである場合において、特定する相互依存性の例としては、前記遺伝子の分子細胞機能、生理機能、疾患関連性、生物学的パスウェイに関するものが挙げられ、また、細胞表面分子同士の相互作用、代謝経路、分子機能経路、薬剤標的性に関するものが挙げられる。疾患関連性の例としては、がんの発症や進展、免疫アレルギー疾患、神経精神疾患、先天異常との関連性が挙げられる。
【0029】
本発明においては、用いるサンプルが、がんに罹患した患者に由来するものである場合であっても、がんに関連しない遺伝子どうしについての相互依存性を特定することができる。がんに関連しない遺伝子の例としては、神経系、免疫系、代謝、内分泌関連の遺伝子が挙げられる。また、逆に、本発明においては、用いるサンプルが、がんに罹患しない患者に由来するものである場合であっても、がんに関連する遺伝子どうしについての相互依存性を特定することができる。本発明において特定された相互依存性を用いることによって、疾患に対する標的分子や薬剤の特定を行うことができる。また、本発明において特定された相互依存性を用いることによって、オーファン受容体のリガンドの探索を行うことができる。
【0030】
事象が単語についてのものである場合においては、例えば、事象が特定の文章において特定の単語が用いられることである場合においては、特定する相互依存性の例としては、前記単語の意味が挙げられる。
【0031】
本発明の方法においては、各事象に関する情報を、その種類を問わずに用いることができる。異なる事象について繰り返し行う場合であっても、本発明の方法によれば共通の手法により処理できるため、簡便に統一的な解析を行うことができる。したがって、本発明の方法は、複数の事象、例えば、複数の遺伝子についての情報を含むデータを統一的に用いて、それらの事象の相互依存性を特定するために用いることに適している。
【0032】
本発明の方法においては、複数個の基準を含む第1の事象、及び複数個の基準を含む第2の事象に関する相対度数からなるデータセットが用いられる。相対度数は、正の値であり、合計は1である。
【0033】
データセットにおいては、例えば、N個のそれぞれの標本が、第1の事象の情報と第2の事象の情報を含む。ここで、事象の情報の例としては、(1)事象が有無で表されるものである場合は、その標本につきその事象があったか、その事象がなかったかの情報が挙げられ、(2)事象が数値で表されるものである場合は、その標本についての数値が挙げられる。
【0034】
本発明の方法では、まず、m×nの分割表に集計する。具体的には、標本数集計工程(S0101)及び相対度数集計工程(S0102)の2つの工程によって行われる。
【0035】
標本数集計工程(S0101)は、第1の事象から選択される一の基準及び第2の事象から選択される一の基準からなるセルに関し、全てのセルにおける標本数をm×nの度数分布表に集計する工程である。
【0036】
相対度数集計工程(S0102)は、度数分布表の全てのセルにおいて、標本数から同時相対度数を算出し、m×nの分割表に集計する工程である。
ここで、同時相対度数は、あるセルに該当する標本数の全標本数に対する割合を指す。
【0037】
前記データセットからの分割表への標本数の集計は、例えば、第1の事象についてのデータと第2の事象についてのデータが、いずれも、有無で表される2×2の分割表を例にとると、以下の表1における各欄の条件に該当する標本数であるa、b、c及びdを集計することにより行えばよい。なお、a~dの総和は、前記データセットに含まれる全標本数Nである。
【0038】
【表1】
【0039】
分割表への集計においては、前記の条件に該当する標本数であるa、b、c及びdに対応する標本数を集計しさえすれば、表を用いなくてもよい。この例においては、例えば、以下のように行うことができる。まず、(1)第1の事象があり、第2の事象があるという条件、(2)第1の事象があり、第2の事象がないという条件、(3)第1の事象がなく、第2の事象があるという条件、及び(4)第1の事象がなく、第2の事象がないという条件を設定する。次に、N個の標本のそれぞれが(1)~(4)の条件のいずれに該当するかを判定して、N個の標本のそれぞれを、前記各条件に分類する。これをN個の全標本について繰り返し、各条件に分類された標本の数を集計する。この場合、(1)aは、N個の全標本にしめる、第1の事象が「有」であり、第2の事象が「有」である標本の数であり、(2)bは、N個の全標本にしめる、第1の事象が「有」であり、第2の事象が「無」である標本の数であり、(3)cは、N個の全標本にしめる、第1の事象が「無」であり、第2の事象が「有」である標本の数であり、(4)dは、N個の全標本にしめる、第1の事象が「無」であり、第2の事象が「無」である標本の数である。
【0040】
また、上記の標本数に変えて、相対度数を直接集計して本発明の方法に使用してもよく、又は相対度数で表されたデータをそのまま本発明の方法に使用してもよい。その場合、集計は、相対度数集計工程(S0102)を標本数集計工程(S0101)と同時に行うことによって、又は相対度数集計工程(S0102)のみによって実施することができる。
【0041】
各事象に含まれる基準は、例えば、事象が特定の現象の有無や性質の差異で表される場合においては、ある現象の有無やその種類、個々の事象の性質が挙げられ、事象が数値で表される場合においては、閾値により分けられた数値範囲が挙げられるが、それに限られない。前記閾値を用いる場合においては、例えば、数値が閾値以上であること、又は数値が閾値未満であることに応じて基準ごとに分類することができる。
【0042】
基準は、いずれの基準にも分類されない標本が存在するような方法で設定してもよい。例えば、事象が数値で表される場合には、標本が取り得る全ての値の範囲に対して閾値を設定して分類する必要はなく、一定の範囲を区切った上でその区切られた範囲内で基準を設定することができる。ここで、一定の範囲とは、数値範囲の場合、例えば、外れ値を除いた範囲、パーセンタイルで区切られた範囲、平均値からの標準偏差の大きさで区切られた範囲、その他任意の数値によって区切られた範囲等、一般的な統計学的方法により使用され得る指標により区切られた範囲等を使用することができる。また、それ以外の場合では、様々な目的に応じて、例えば、主要な現象が含まれるように、又は着目する現象がより判然とするように範囲を任意に設定することができる。
【0043】
1つの事象に含まれる基準は、1つの現象や性質に関するもののみからなってもよく、複数の異なる現象や性質に関する基準の組み合わせであってもよい。また、組み合わせを用いる場合には、考えられる全ての組み合わせを基準として用いてもよく、その一部のみを基準として用いてもよい。
【0044】
第1の事象についての基準と、第2の事象についての基準は、同一であっても、異なるものであってもよい。例えば、2つの事象が数値で表される場合において、第1の事象における閾値と、第2の事象における閾値とは、同一の数値であってもよく、異なる数値であってもよい。
【0045】
従来、膨大な数の基準を含む事象の間の相互情報量の算出は、計算量が飛躍的に増大してしまうため、現実的には極めて困難であった。本発明によれば、後述のように事象に含まれる基準の数が増えれば増えるほど、相互情報量を正確に近似することができ、そのような事象を用いる場合であっても、少ない計算量において正確にその相互情報量を算出することができる。
【0046】
第1の事象が含む基準の個数を、以下、m個とする。ここで、mは2以上の整数である。また、第2の事象が含む基準の個数を、以下、n個とする。ここで、nは2以上の整数であり、mと同一であっても異なってもよい。更に、mとnの少なくとも一方は3以上である。m及びnの大きさは特に限定しないが、例えば、少なくとも一方が10以上、50以上、100以上、500以上、1,000以上、5,000以上、10,000以上、50,000以上、100,000以上である。また、データセットにおけるデータの個数、つまり全標本数を、以下、N個とする。Nは2以上の整数である。特に限定はしないが、Nの例としては、10以上、50以上、100以上、500以上、1,000以上、5,000以上、10,000以上、50,000以上、100,000以上等の数値が挙げられる。m及びnが大きいほど、より正確に、第1の事象及び第2の事象の相互依存性を特定することができる。
【0047】
本発明者らの見出したところによれば、m個の基準を含む第1の事象とn個の基準を含む第2の事象との間の相互情報量MIは、前記第1の事象の特定の値と前記第2の事象の特定の基準との間の個別相互情報量に基づいて算出することができる。具体的には、その和により、又はそのうち絶対値が最も大きいであるフロンティア相互情報量MIfrontを用いて、式m×n×MIfront/log(m×n-1)により、相互情報量MIを近似することができる。
【0048】
相互情報量の算出は、個別相互情報量決定工程(S0103)及び相互情報量算出工程(S0104)の2つの工程によって行われる。相互情報量の算出は、通常、集計の後に行われる。ただ、例えば、集計が完了する前に、相互情報量の算出の一部又は全部が開始されてもよい。
【0049】
個別相互情報量決定工程(S0103)は、全てのセルにおいて、同時相対度数に基づいて各セルの個別相互情報量を決定する工程である。
【0050】
相互情報量算出工程(S0104)は、個別相互情報量から第1の事象及び第2の事象の相互情報量を算出する工程である。
【0051】
通常、相互情報量算出工程(S0104)は個別相互情報量決定工程(S0103)の後に行われる。ただし、例えば、特に相互情報量算出工程(S0104)において、後述するフロンティア相互情報量を利用しない場合、個別相互情報量決定工程(S0103)で全てのセルの個別相互情報量を決定した後に相互情報量算出工程(S0104)を行う必要はない。例えば、決定された個別相互情報量から順次、相互情報量の算出を開始していてもよい。また、フロンティア相互情報量を利用する場合であっても、フロンティア相互情報量の選択を個別相互情報量決定工程(S0103)中に開始してもよい。
【0052】
ここで、相互情報量とは、情報理論において用いられている2つの確率変数の相互依存の尺度を表す量である。相互情報量は、第1の確率変数Xと第2の確率変数Yが共有する情報量の尺度である。一般に2つの離散確率変数XとYの相互情報量MIは、例えば、以下の式によって算出される。
【0053】
【数12】
【0054】
上の式において、p(x,y)はXとYの同時確率、p(x)とp(y)はそれぞれXとYの周辺確率である。
【0055】
また、2つの連続確率変数XとYの相互情報量I(X;Y)は、例えば、以下の式によって算出される。
【0056】
【数13】
【0057】
上の式において、p(x,y)はXとYの同時確率密度関数、p(x)とp(y)はそれぞれXとYの周辺確率密度関数である。
【0058】
2つの事象X及びYに関するm×nの分割表の相互情報量をMIとする上記の例において、kを事象Xの一の基準とし、lを事象Yの一の基準として、それらの組み合わせであるセル(k,l)を中心とする2×2の分割表の相互情報量を、個別相互情報量MIklとする。各セルの個別相互情報量は同時相対度数に基づいて決定される。
【0059】
個別相互情報量決定工程(S0103)は、図4に示す通り、変換ステップ(S0110)及び算出ステップ(S0111)の2つのステップを含む。
【0060】
各セルに関して、変換ステップ(S0110)は、各セルに関して、m×nの分割表を第1及び第2の事象のそれぞれにおける基準についての2値データを含む2×2の分割表として変換するステップである。
【0061】
算出ステップ(S0111)は、各セルに関して、2×2の分割表から、第1及び第2の事象における基準の相互関係の強さを個別相互情報量として算出するステップである。
【0062】
算出ステップ(S0111)は通常、変換ステップ(S0110)の後に行うことができる。ここで、例えば、全てのセルについて変換ステップ(S0110)を行ってから算出ステップ(S0111)を行ってもよく、各セルについて、変換ステップ(S0110)及び算出ステップ(S0111)を行ってもよい。
【0063】
上述の変換ステップ(S0110)において、2×2の分割表は、一のセルの同時相対度数、そのセルの第1の事象における基準についての周辺相対度数、及び第2の事象における基準についての周辺相対度数に基づいて変換することができる。ここで、周辺相対度数とは、1つの列又は1つの行における同時相対度数の合計を指す。
【0064】
具体的には、上述の2つの事象X及びYに関するm×nの分割表において、セル(k,l)の同時相対度数をp(X,Y)とし、k列及びl行の周辺相対度数を、それぞれ、p(X)及びp(Y)とする。すると、セル(k,l)を中心とする2×2の分割表は、次の表のように表される。
【0065】
【表2】
【0066】
各セルの個別相互情報量は、算出ステップ(S0111)により算出される。ここで使用される方法は特に限定しないが、例えば、多次元相互情報量、フィッシャーの正確確率又は超幾何分布を用いて算出することができる。
【0067】
多次元相互情報量を用いる方法の例としては、下記式(III)に基づいて行われる方法が挙げられる。
【0068】
【数14】
式中、
MIklは第1の事象のk番目の基準及び第2の事象のl番目の基準からなるセルの個別相互情報量を示し、
k′は2×2の分割表における第1の事象のk′番目の基準を示し、
l′は2×2の分割表における第2の事象のl′番目の基準を示し、
p(Xk′,Yl′)は基準Xk′及び基準Yl′からなるセルの同時相対度数を示し、
p(Xk′)は基準Xk′についての周辺相対度数を示し、
p(Yl′)は基準Yl′についての周辺相対度数を示す。
【0069】
フィッシャーの正確確率を用いた方法としては、例えば、フィッシャーの正確確率をそのまま、又は改変して使用する方法が挙げられる。フィッシャーの正確確率を改変して使用する方法の例としては、例えば、-log(P)/N(Pはフィッシャーの正確確率を示す)による算出が挙げられる。
【0070】
超幾何分布を用いた方法としては、例えば、メタ解析の適用に関する項において後述するフィッシャーの正確確率の主要項Pmainを使用する方法が挙げられる。
【0071】
相互情報量算出工程(S0104)は、図5に示す通り、フロンティア相互情報量の利用の是非により(E0103)、以下の2通りの手順を含む:
(i)フロンティア相互情報量を利用しない場合には、相互情報量算出工程は直接算出ステップ(S0112)を含む;
(ii)フロンティア相互情報量を利用する場合には、相互情報量算出工程は、フロンティア相互情報量選択ステップ(S0113)及びフロンティア相互情報量利用ステップ(S0114)を含む。
【0072】
直接算出ステップ(S0112)では、個別相互情報量から相互情報量を式(I)
【数15】
(式中、MIは相互情報量を示し、MIklは個別相互情報量を示す)
に基づいて算出する。
【0073】
以下に示す通り、m及びnがそれぞれ十分に大きいときに、式(I)の右辺は左辺に限りなく近づき、式(I)は等式と見なすことができる。
【0074】
十分に大きいとは、例えば、50以上、100以上、500以上、1,000以上、5,000以上、10,000以上であることを示す。
【0075】
以下、フロンティア相互情報量を利用する場合について説明する。以下に示す通り、本発明者らは、絶対値が最も大きい個別相互情報量(フロンティア相互情報量)を第1及び第2の事象の相互依存性を示す代表値として用いることにより、僅かな計算量によって簡便に相互情報量を正確に算出可能であることを見出した。
【0076】
フロンティア相互情報量選択ステップ(S0113)においては、個別相互情報量を相互に比較し、絶対値が最も大きい個別相互情報量をフロンティア相互情報量として選択する。
【0077】
フロンティア相互情報量利用ステップ(S0114)においては、選択されたフロンティア相互情報量に基づいて、相互情報量を算出する。
ここで、この算出は、以下の式(II)によって行われる。
【0078】
【数16】
(式中、MIは相互情報量を示し、MIfrontはフロンティア相互情報量を示す)
【0079】
以下に示す通り、m及びnがそれぞれ十分に大きいときに、式(II)の右辺は左辺に限りなく近づき、式(II)は等式と見なすことができる。
十分に大きいm及びnの内容は、上記式(I)に関する記載に準ずる。
【0080】
フロンティア相互情報量の利用の是非は、m及びnの大きさ、使用する計算機の性能、その他の条件及び目的等に応じて適宜決定することができる。例えば、m及びnがそれぞれ十分大きい時にフロンティア相互情報量を利用することができる。
【0081】
ここで、十分に大きいとは、例えば、100以上、500以上、1,000以上、5,000以上、10,000以上、50,000以上、100,000以上であることを示す。
【0082】
算出された相互情報量は第1の事象及び第2の事象の相互依存性の判定に使用することができる。この判定は、相互依存性判定工程(S0105)により行われる。判定は、通常、相互情報量の算出の後に行うことができる。
【0083】
この工程では、相互情報量の値の大きさに基づいて相互依存性を判定する。具体的には、例えば、値が大きい程、第1の事象及び第2の事象の相互依存性が大きいと判定することができる。相互情報量の値に1つ又は複数の閾値を設定し、相互依存性の大きさを段階的に特定してもよい。相互情報量の値を別の分割表についての値と比較して評価して行ってもよい。
【0084】
以下に、相互情報量MIと、上記の個別相互情報量MIkl及びフロンティア相互情報量MIfrontとの関係につき本発明者らの見出した知見を示す。以下、数式で扱う関係上、2つの確率変数に関する相互情報量について記載しているが、この確率変数を事象と読み替えることにより、本発明の相互依存性の特定方法にそのまま適用できる。
【0085】
2つの確率変数X及びYに関するm×nの分割表の相互情報量をMIとする。kを確率変数Xの取る1つの値とし、lを確率変数Yの取る1つの値として、それらの組み合わせであるセル(k,l)を中心とする2×2の分割表の相互情報量を、個別相互情報量MIklとする。更に、セル(k,l)の同時相対度数をp(X,Y)とし、k列及びl行の周辺相対度数を、それぞれ、p(X)及びp(Y)とする。すると、確率変数X及びYの間のMIと全セルにおけるMIklの合計との差は、次の式のように表される。
【0086】
【数17】
【0087】
m×nの分割表の各セルを、行及び列の両方につきh個の均一の部分に分割し、全ての分割したセルについてのMIklの合計を取った場合、以下の式が得られる。
【0088】
【数18】
【0089】
上記の式の左辺をΔ(h)と定義する。ロピタルの定理を用いて、hを無限とした場合の右辺のそれぞれの項の極限を計算する。すると、第1項及び第2項の極限は、いずれも、p(X,Y)となる。第3項は、以下に近似する。
【0090】
【数19】
【0091】
第4項及び第5項は、以下に近似する。
【0092】
【数20】
【0093】
これらの極限と、p(X,Y)の合計とp(X)の合計とp(Y)の合計が等しいことを用いて、右辺の極限がゼロであることが示される。したがって、以下が成り立つ。
【0094】
【数21】
【0095】
よって、m及びnが十分に大きいとき、以下の式(I)が成り立つ。
【0096】
【数22】
【0097】
続いて、本発明者らの見出したところによれば、セル(k,l)を中心とする2×2の分割表の相互情報量である個別相互情報量MIklは、指数分布する。以下にこれを示す。
【0098】
まず、m×nの分割表の相互情報量は、k及びlを、それぞれ1以上m以下、1以上n以下として、以下のように定義される。
【0099】
【数23】
【0100】
なお、以下のように、各確率変数の期待値の合計は1である。
【0101】
【数24】
【0102】
セル(k,l)に関する個別相互情報量は、以下に定義される。
【0103】
【数25】
【0104】
ところで、前記の式(I)に示すとおり、m及びnが十分に大きいとき、以下が成り立つ。
【0105】
【数26】
【0106】
XとYの相互情報量がMIとなる確率p(MI)について、以下が成り立つ。
【0107】
【数27】
【0108】
k及びlに関するMIklの右辺の第2項、第3項及び第4項の総和は、0に収束する。よって、MIklは、他のセルの同時相対度数に対してより独立になる。X及びYが一様分布を取る場合には、k列とl行の周辺相対度数は、それぞれ、1/m及び1/nに漸近し、m及びnが大きくなるにしたがって、他の行及び列の周辺相対度数に対する依存性が低下する。したがって、m及びnが十分に大きいとき、微視的見地からは、X及びYをそれぞれX及びYとすることにより、MIklについても、上記p(MI)の式を適用することができる。
【0109】
すなわち、MIklは、指数分布に従う。他方、巨視的見地からは、MIklの平均値は、前記の式からMI/(m×n)である。つまり、x=MIklの確率密度関数p(x)は、以下の式のように表される。
【0110】
【数28】
【0111】
ここで、λは、相互情報量MIklの平均値の逆数である。
相互情報量MIklは、上記のとおり指数分布に従う。したがって、jをMIklの絶対値の順位とすると、以下が成り立つ。
【0112】
【数29】
【0113】
ここでxはMIklの最大値で、ここではフロンティア相互情報量MIfrontと呼ぶ。これにつき、以下が成り立つ。
【0114】
【数30】
【0115】
したがってMIfrontは、全体のMI及び平均MIklの両方にほぼ比例する。よって、全体のMIは、MIfrontから以下のように算出される。
【0116】
【数31】
【0117】
以上のとおり、n及びmが十分に大きいとき、m個の基準を含む第1の事象とn個の基準を含む第2の事象との間の相互情報量MIは、前記第1の事象の特定の値と前記第2の事象の特定の値と間の相互情報量のうち絶対値が最大であるフロンティア相互情報量MIfrontを用いて算出するm×n×MIfront/log(m×n-1)により近似することができる。
【0118】
本発明の相互依存性の特定方法は、相互情報量を評価する場合(E0102)、相互情報量算出工程(S0104)の後に、相互情報量の信頼区間を求める信頼区間算出工程(S0106)を更に含んでもよい。この工程により、相互情報量算出工程(S0104)で算出された相互情報量の精度を評価することができる。
【0119】
算出には、当技術分野において公知の任意の方法を使用することができる。方法は特に限定しないが、例えば、指数分布から抽出された標本の最大値の分布を使用することができる。
【0120】
信頼区間の幅は特に限定しない。例えば、90%、95%、99%、99.5%とすることができる。
【0121】
具体的には、例えば、相互情報量の95%信頼区間を下記の式によって算出することができる。一般に、mとnの値が大きくなるに従って信頼区間は狭まり、相互情報量の精度は上がることが知られている。
【0122】
【数32】
【0123】
相互依存性判定工程(S0105)は、統合ステップを含むことができる。このステップにおいては、異なる1以上の分割表との間で相互情報量をメタ解析により統合する。
【0124】
メタ解析によれば、異なる種類の標本についてのデータ等、異なる条件によって取得したデータをもとにそれぞれ算出した複数の相互情報量を統合して解析することができる。
【0125】
メタ解析を用いた統合は、各種の方法が知られており、例えば、Rosental,R.(1984).Meta-analytic procedures for social research.Beverly Hills,CA:Sageには、異なる複数検討条件で得られたp値を統合してpoverallを計算する方法が説明されている。また、異なる1以上の分割表の相互情報量を比較し、分割表を順位付けすることができる。例えば、全ての分割表の一方の事象を統一することによって、その事象と相互依存性が大きい事象を見出すことができる。
【0126】
通常、メタ解析が適用可能な指標は確率論の分野の指標に限られるため、情報理論に含まれる相互情報量にはメタ解析を適用できなかった。しかし、本発明者らは、相互情報量が情報理論の指標であるにも関わらず、下記の通り、確率論の解析方法であるメタ解析が適用可能であることを見出した。以下、その内容について詳述する。
【0127】
上述の通り、第1の確率変数の特定の値と第2の確率変数の特定の値との個別相互情報量の算出は、以下の式に従って行うことができる。
【0128】
【数33】
【0129】
より具体的には、以下の方法によって行うことができる。第1の確率変数につき選択された値をkとし、第2の確率変数につき選択された値をlとして、以下の2×2の分割表に従って、データセットにおける相対度数(度数を全標本数Nで割ったもの。)を特定する。
【0130】
【表3】
【0131】
上記の表3におけるそれぞれの相対度数X~Xを用いて、以下の式を用いて個別相互情報量MIklを算出する。
【0132】
【数34】
【0133】
本発明者らが見出したことには、個別相互情報量MIklは、全標本数Nを用いて、フィッシャーの正確確率PFklと、以下の式の関係にある。この近似式は、全標本数Nが十分に大きい場合に等式が成り立つものとして扱うことができる。
【0134】
ここで、全標本数Nが十分に大きいとは、例えば、20以上、50以上、100以上、500以上、1,000以上、5,000以上、10,000以上であることを指す。また、例えば、セルあたりの平均標本数が、1以上、5以上、10以上、50以上、100以上、500以上、1,000以上、5,000以上であってもよい。
【0135】
【数35】
【0136】
これを以下に示す。個別相互情報量MIklは、X~Xを用いた前記の式で示される。他方、フィッシャーの正確確率PFklの主要項Pmainは以下のようになる。
【0137】
【数36】
【0138】
ここで、両辺においてlogを取ると、以下のようになる。
【0139】
【数37】
【0140】
スターリング(Stirling)の公式を用いて、log(N!)をN×log(N)-Nで近似し、更に、関係式X+X+X+X=1を適用すると、以下の通り、上述の近似式が得られる。
【0141】
【数38】
【0142】
このように相互情報量MIklは、全標本数N及びフィッシャーの正確確率PFklとの間で所定の関係があることが示された。フィッシャー正確確率PFklは、メタ解析を用いて統合することができる。したがって、上述の通り、上記の式とメタ解析を用いれば、異なる複数の検討条件下で得られたp値を統合することができ、異なる複数の検討条件下(つまり、複数の分割表)で得られたデータセットをもとにして、相互情報量を求めることができる。
【0143】
本発明は、更に、第1の事象及び第2の事象における各セルの期待値の比較方法を提供する。
【0144】
この方法においては、個別相互情報量決定工程以前の工程、具体的には、標本数集計工程(S0101)、相対度数集計工程(S0102)及び個別相互情報量決定工程(S0103)は、上述した相互依存性の特定方法と共通する。この方法は、これら3つの工程に加え、図3に示す通り、期待値算出工程(S0107)、期待値比較工程(S0108)及びセル順位決定工程(S0109)を含む。
【0145】
期待値算出工程(S0107)は、少なくとも1つのセルにおいて、確率分布にしたがって個別相互情報量を期待値に変換する工程である。ここで使用される確率分布の確率密度関数は式(IV)
【数39】
(式中、p(x)は個別相互情報量がxの確率密度関数を示し、<MIkl>は個別相互情報量の平均値を示す)
で表される。
【0146】
ここで、式(IV)は、x=MIklの確率密度関数p(x)を示す数28の式において、関係式<MIkl>=MI/(m×n)を反映したものである。
【0147】
期待値が算出されるセルの数は限定しない。目的及び使用する計算機器等に応じて決定することができる。例えば、少なくとも2つのセル、少なくとも1列、少なくとも1行、又は全部のセルであってもよい。
【0148】
期待値比較工程(S0108)は、異なる複数のセル間で期待値を比較する工程である。比較対象となるセルは異なるセルであれば特に限定しない。例えば、同じ分割表中の異なるセルであってもよく、異なる分割表中のセルであってもよい。比較するセルの個数も特に限定しない。
【0149】
通常、期待値比較工程(S0108)は期待値算出工程(S0107)の後に行われるが、目的の全てのセルについて期待値を算出してから期待値比較工程(S0108)を行う必要はなく、例えば、新たな期待値が算出される度に既に算出されている期待値との比較を行ってもよい。
【0150】
セル順位決定工程(S0109)は、比較結果から、各セルの順位を期待値の大きさに基づいて決定する工程である。具体的には、例えば、期待値が大きい順に、又は期待値が小さい順に順位付けすることができる。1つ又は複数の閾値を設定し、期待値を複数の集団に分類することにより順位付けしてもよい。
【0151】
セル順位決定工程(S0109)は期待値比較工程(S0108)と同時に、又はその後に行うことができる。
【0152】
本明細書において、方法に利用可能な数式として示される各種数式は、方法により達成される目的を損なわない限り、任意の処理が加えられてもよい。例えば、数式に定数項を付加して、又は任意の係数若しくは指数等を付加して利用してもよく、あるいは数式のべき根を利用してもよい。
【0153】
更に、本発明者らの見出したところによれば、以下に示す通り、フロンティア相互情報量MIfrontを与えるセルは、データセットにおけるセルの度数を指標として選択することができる。そのため、場合により、個別相互情報量決定工程(S0103)において、特定のセルを選択し、そのセルのみについて個別相互情報量を決定し、相互情報量算出工程(S0104)においてフロンティア相互情報量を利用して相互情報量を算出することができる。この方法によれば、上述の相互依存性の特定方法よりも更に簡便に、相互情報量を算出することができる。
【0154】
特定のセルの選択は、データセットにおけるセルの度数又は同時相対度数を指標として、MIfrontを与えるセルを推定して行うことができる。選択にあたっては、複数のセルを選択してもよい。その場合は、適宜、それぞれのセルについて個別相互情報量MIklを算出し、そのうち最も値の大きいMIklを示すセルをMIfrontを与え得るセルとして選択してもよい。また、選択にあたって、平均からの偏りに基づいて判断することもできる。例えば、一のセルの同時相対度数と、他のセルの同時相対度数とを比較して、同時相対度数が平均からより偏っているセルを選択してもよい。この場合、例えば、同時相対度数p(x,y)の平均値からの偏差p(x,y)-1/(m×n)に基づいて選択してもよい。この場合、例えば、偏差の絶対値が最も大きい値を取るセルを選択することができる。
【0155】
また、度数又は同時相対度数が最大又は最小であるセルが、MIfrontを与えるセルとなると期待されるため、選択は、度数又は同時相対度数が最大又は最小であることを指標として行ってもよい。例えば、度数が最大のセルと度数が最小のセルの両方を選択し、そのMIklを比較することで、又はその偏差を比較することで、MIfrontを与え得るセルを更に選択してもよい。
【0156】
なお、N<(m×n)の場合には、度数が0のセルが出現する。本発明のいずれの方法においても、度数が0のセルは算入しても、計算から除外してもよい。これらのセルを算入する場合、例えば、MIklの最大値はp(x,y)が最大のセル又は最小のセル(つまり、p(x,y)=0となるセル)のいずれか又は両方を特定してもよい。この場合には、結果として、p(x,y)が最大のセルがMIfrontを与え得るセルとして選択されることが多いと考えられる。十分に大きい全標本数Nの内容については、統合ステップの項において上述した通りである。
【0157】
以下に本発明者らが見出した知見を示す。
確率変数xとyの同時分布密度関数p(x,y)が一様分布であるとき、その平均Meanは、Mean=1/(m×n)であり、標準偏差SDは、分散1/(N×m×n)の平方根である。p(x,y)がMean-X×SDとなるMIklの値のMean+X×SDとなるMIklの値に対する割合Ratio(XSD)は以下で表される。
【0158】
【数40】
【0159】
式中、各σはそれぞれ以下を示す。
【0160】
【数41】
【0161】
すると、Nが十分に大きいとき、以下が成り立つ。
【0162】
【数42】
【0163】
このように、Nが十分に大きい場合は、相互情報量MIklは、平均値1/mnの左右でほぼ対称となる。
【0164】
したがって、Nが十分に大きい場合は、相互情報量MIklが平均値1/mnを中心に左右対称になるとみなし、p(X,Y)がより高い数値又はより低い数値となるklの組み合わせを選択してMIklを算出することができる。これにより、より効率的にMIfrontを導くことができる。
【0165】
ここで、全標本数Nが十分に大きいとは、例えば、100以上、500以上、1,000以上、5,000以上、10,000以上、50,000以上、100,000以上であることを指す。また、例えば、セルあたりの平均標本数が、10以上、50以上、100以上、1,000以上、5,000以上、10,000以上、50,000以上、100,000以上であってもよい。
【0166】
膨大な数の基準を含む事象についての相互情報量を算出する場合であっても、僅かな計算量によって簡便に事象間の相互情報量を正確に算出することができ、対象間の相互依存性の特定を正確に行うことができる。そのため、本発明によれば、多種多様なデータからなるデータセットの全体を用いた大規模な解析を行うことができるため、本発明の方法はコンピュータによる実施が適している。本発明において、上記のいずれの方法も、コンピュータを含む算出装置によって、又はその方法を実行させるためのコンピュータ用プログラムによって行ってもよい。
【0167】
装置としては、例えば、第1の事象及び第2の事象の相互情報量の算出装置を用いることができる。
【0168】
図1は、その算出装置の構成例を示す模式図である。装置は、コンピュータ(10)を含む。コンピュータ(10)は、一例として、CPU(Central Processing Unit)(101)、揮発性メモリ(102)、不揮発性メモリ(103)、入出力制御部(104)、表示制御部(105)、ディスプレイ(106)(表示部)、キーボード(107)、及びマウス(108)を備えて構成される。CPU(101)は、算出プログラムの動作の全体を司る中央処理装置である。
【0169】
揮発性メモリ(102)は、プログラムの演算結果等を一時的に記憶するRAM等の記憶装置である。
【0170】
不揮発性メモリ(103)は、記憶内容の維持に外部からの給電を必要としない記憶装置である。不揮発性メモリ(103)としては、例えば、ROM、ハードディスクドライブ、フラッシュメモリ等が含まれる。例えば、ROMにプログラムを実行するのに必要な各種データを格納し、ハードディスクドライブに解析対象のデータセット及び分割表の各セルの個別相互情報量を記憶させる等、複数種類の不揮発性メモリを含むことができる。不揮発性メモリ(103)に記憶されるプログラムには、例えば、相互情報量の算出プログラムが含まれる。
【0171】
入出力制御部(104)は、入力デバイスからのデータや命令の入力、及び処理装置から出力される各種データの出力を制御する制御部である。本発明に使用可能な入力デバイスとしては、例えば、キーボード(107)、マウス(108)等が挙げられ、処理装置としてはCPU(101)が挙げられる。
【0172】
表示制御部(105)は、表示部を介してユーザに提示する情報を制御する制御部である。本発明においては、例えば、前述のプログラムの実行画面等をディスプレイ(106)に表示させる場合の表示制御を担当する。
【0173】
コンピュータ(10)は、図2に示す通り、プログラムにより実現されるソフトウェア構成として、標本数集計部(121)、相対度数集計部(122)、個別相互情報量決定部(123)、及び相互情報量算出部(124)を備えている。
【0174】
標本数集計部(121)は、解析対象のデータセットから、ユーザの入力に従い、第1の事象から選択される一の基準及び第2の事象から選択される一の基準からなるセルに関し、全てのセルにおける標本数をm×nの度数分布表に集計する部分である。例えば、CPU(101)、揮発性メモリ(102)、不揮発性メモリ(103)、入出力制御部(104)、キーボード(107)、及びマウス(108)により構成される。この部分では、入出力制御部(104)を介して得られるキーボード(107)又はマウス(108)からのユーザの入力信号(演算開始を指示する信号)に従い、不揮発性メモリ(103)に記憶された解析対象のデータをm×nの度数分布表に集計して揮発性メモリ(102)に記憶する。
【0175】
相対度数集計部(122)は、標本数集計部(121)に記憶された度数分布表の全てのセルにおいて、標本数から同時相対度数を算出し、m×nの分割表に集計する部分である。例えば、CPU(101)、揮発性メモリ(102)及び不揮発性メモリ(103)により構成される。この部分では、揮発性メモリ(102)に記憶された度数分布表データから、各セルに該当する標本数の全標本数に対する割合として同時相対度数を算出し、m×nの分割表に集計して揮発性メモリ(102)に記憶する。
【0176】
個別相互情報量決定部(123)は、同時相対度数に基づいて各セルの個別相互情報量を決定する部分である。例えば、CPU(101)、揮発性メモリ(102)及び不揮発性メモリ(103)により構成される。この部分では、揮発性メモリ(102)に記憶された度数分布表データから、同時相対度数に基づいて各セルの個別相互情報量を決定し、不揮発性メモリ(103)に記憶する。ユーザが個別相互情報量の算出を求めている場合には、各セルの個別相互情報量のデータが表示制御部(105)を介してディスプレイ(106)上で視覚的に認識可能なように表示される。
【0177】
相互情報量算出部(124)は、個別相互情報量から第1の事象及び第2の事象の相互情報量を算出する部分である。例えば、CPU(101)、揮発性メモリ(102)及び不揮発性メモリ(103)により構成される。この部分では、不揮発性メモリ(103)に記憶された個別相互情報量データから、その値に基づいて第1の事象及び第2の事象の相互情報量を算出し、不揮発性メモリ(103)に記憶する。ユーザが相互情報量の算出を求めている場合には、第1の事象及び第2の事象の相互情報量のデータが表示制御部(105)を介してディスプレイ(106)上で視覚的に認識可能なように表示される。
【0178】
本発明の装置は、更なるソフトウェア構成部分を含むことができる。例えば、相互情報量算出部(124)で算出された相互情報量の信頼区間を求める信頼区間算出部を含むことができる。
【0179】
更なるソフトウェア構成部分を含むことによって、他の情報を出力する装置とすることができる。例えば、相互情報量算出部(124)で算出された相互情報量から第1の事象及び第2の事象の相互依存性を判定する相互依存性判定部を更に含むことにより、相互依存性判定装置とすることができる。
【0180】
あるいは、例えば、少なくとも1つのセルにおいて、個別相互情報量決定部(123)で算出された個別相互情報量を確率分布にしたがって期待値に変換する期待値算出部を含むことにより、期待値算出装置とすることができる。
【0181】
例えば、更に、期待値算出部で算出された期待値を異なる複数のセル間で比較する期待値比較部、及び比較結果から、各セルの順位を期待値の大きさに基づいて決定するセル順位決定部を含むことにより、期待値の比較装置とすることができる。
【0182】
工程やステップの要否がユーザの要求に従って選択される必要がある場合、その指示は、キーボード(107)又はマウス(108)からのユーザの入力により行われ、その信号は入出力制御部(104)を介して各ソフトウェア部分に伝達される。この指示の入力をユーザに求める方法は特に限定しないが、例えば、いずれかの部分においてまとめて、又は部分ごとに別々にユーザに求めることができる。
【0183】
本発明は、更に、第1の事象及び第2の事象の相互情報量の処理プログラムを提供する。
【0184】
このプログラムは、図3に示す通り、コンピュータに、標本数集計工程(S0101)、相対度数集計工程(S0102)、及び個別相互情報量決定工程(S0103)を実行させるように構成されたプログラムである。このプログラムは、ユーザが相互依存性の特定を求める場合には、更に相互情報量算出工程(S0104)、及び相互依存性判定工程(S0105)をコンピュータに実行させるように構成される。
【0185】
本発明のプログラムにより実行される各工程の詳細は、相互依存性の特定方法及び期待値の比較方法において詳述した通りである。
【0186】
このプログラムは、個別相互情報量決定工程(S0103)として、図4に示す通り、変換ステップ(S0110)及び算出ステップ(S0111)を実行させるように構成される。
【0187】
また、このプログラムは、相互情報量算出工程(S0104)として、図5に示す通り、直接算出ステップ(S0112)を実行させるように、又はフロンティア相互情報量選択ステップ(S0113)及びフロンティア相互情報量利用ステップ(S0114)を実行させるように構成される。ここで、フロンティア相互情報量選択ステップ(S0113)及びフロンティア相互情報量利用ステップ(S0114)を実行させるか否かは、フロンティア相互情報量の利用の要否によって選択される(E0103)。フロンティア相互情報量の利用の要否は、例えば、ユーザがフロンティア相互情報量の利用を要求するか否かに従う。あるいは、処理対象のデータの種類に従って選択されるように構成されてもよい。例えば、処理対象のデータのn及びmが十分な大きさである場合にフロンティア相互情報量を利用することを選択するように構成することができる。
【0188】
このプログラムは、ユーザが期待値の算出を求める場合には(E0101)、更に期待値算出工程(S0107)をコンピュータに実行させるように構成される。
【0189】
本発明のプログラムは、更なる工程を実行させるように構成されてもよい。例えば、期待値算出工程(S0107)の後に、異なる複数のセル間で期待値を比較する期待値比較工程(S0108)、及び比較結果から、各セルの順位を期待値の大きさに基づいて決定するセル順位決定工程(S0109)を含んでもよい。
【0190】
本発明のプログラムは、ユーザに更なる指示を求めるように構成されてもよい。例えば、相互情報量の評価の要否に関してユーザに指示を求める(E0102)ように構成することができ、評価をする場合には、相互情報量算出工程(S0104)の後に、相互情報量の信頼区間を求める信頼区間算出工程(S0106)を実行することができる。
【0191】
ユーザへの指示の要求の時期及び回数は特に限定しない。例えば、最初に一度に全ての指示を要求してもよく、指示が必要になるたびに複数回にわたって指示を要求してもよい。
【0192】
本発明のプログラムは、個別相互情報量又は相互情報量を処理するものである限り、上記の一部の工程を実施するように構成されてもよい。例えば、標本数集計工程(S0101)、相対度数集計工程(S0102)及び個別相互情報量決定工程(S0103)のみを含むプログラムを個別相互情報量算出プログラムとして扱うことができる。
【0193】
また、例えば、本発明のプログラムは、処理対象のデータの種類に従い、又はユーザの要求に従い、標本数集計工程(S0101)を省略可能なように構成されてもよい。例えば、処理対象のデータの度数の総和が1となる場合には、標本数集計工程(S0101)を省略することができる。
【0194】
本発明のプログラムは、機器の性能に余裕がある場合等は、全ての工程を行った上でユーザに指示を要求し、要求された情報のみを出力するように構成することもできる。この場合、例えば、ユーザに指示を要求することなく、全ての工程を行い、全ての情報を出力することもできる。
【0195】
本発明のプログラムは更に、相互依存性の特定方法において詳述した追加の工程を適宜含むように構成することができる。
【0196】
コンピュータ用プログラムは、記録媒体に保存したものであってもよい。記録媒体としては、例えば、CD-ROM、DVD等の光読取手段、半導体メモリ、フレキシブルディスク、ハードディスク等の情報格納手段を挙げることができる。
【実施例0197】
試験例1:
合計10個の点を、2×2の表上にランダムにスポットし、それぞれのセルにおけるスポットの度数を集計し、それぞれのセルにつき、その同時相対度数を算出した。これにより得られた分割表において、以下の式(III)によりMIを算出した。
【0198】
【数43】
式中、
MIklは第1の事象のk番目の基準及び第2の事象のl番目の基準からなるセルの個別相互情報量を示し、
k′は2×2の分割表における第1の事象のk′番目の基準を示し、
l′は2×2の分割表における第2の事象のl′番目の基準を示し、
p(Xk′,Yl′)は基準Xk′及び基準Yl′からなるセルの同時相対度数を示し、
p(Xk′)は基準Xk′についての周辺相対度数を示し、
p(Yl′)は基準Yl′についての周辺相対度数を示す。
【0199】
また、同じ分割表について、フィッシャーの正確確率(P)、カイ二乗法によるP値(Pχ)を求め、その常用対数値を算出した。この試行を1000回行い、その結果をMIとlog(p)に関してプロットしたグラフを図6に示す。また、同様の実験を合計1,000個の点を用いて行った結果を図7に示す。図6及び図7から、MIとPは比例関係にあることがわかり、点の数が増加するにしたがって、ばらつきが小さくなることが確認できた。一方、Pχはこの直線から外れ、Pとの関係においても一定ではなかった。このことから、MIがカイ二乗法と比較しても、よりフィッシャーの正確確率と整合する、正確な指標であることがわかった。
【0200】
試験例2:
セルあたり平均10,000個となるまで、点をn×mの表上にランダムにスポットし、それぞれのセルにおけるスポットの度数を集計した。n=m=10の場合の様子を図8-1に例示する。図8-1Aにおいては、平均値からより隔たりの大きな度数を示すセルを、より濃い色で示している。更に、それぞれのセルにつきその同時相対度数を算出した後、各セルを中心とする2×2の分割表に基づき個別相互情報量を算出した。図8-1の例において算出した個別相互情報量の様子を図8-2に示す。図8-2Aにおいては、より大きな個別相互情報量を示すセルを、より濃い色で示している。度数のみからは判然としなかった各セルの相互情報量への寄与の大きさが、個別相互情報量を用いることにより明確になることがわかった。更に、それぞれのセルにつき算出したそれぞれの個別相互情報量MIklと、それぞれの同時相対度数pとの関係を、図9及び10に示す。各図において、右パネルは、pの常用対数log(p)とMIklの関係を示す図である。図9Aはn=m=10の場合、図9Bはm=n=100の場合、図10Aはm=n=1,000の場合、図10Bはm=n=10,000の場合をそれぞれ示す。この結果から、log(p)とMIklは線形関係にあり、n及びmが大きくなればなるほど、その傾向が顕著になることが確認できた。このことから、MIklは指数分布することが確認できた。
【0201】
試験例3:
m=n=47、N=10×m×nとして試験例2と同様の方法を行い、それぞれのセルにおける同時相対度数pと個別相互情報量MIklを算出した。
【0202】
図11は、横軸をpとし、縦軸をMIklとして、その関係を示したグラフである。pの平均値1/(m×n)は0.45×10^(-3)であり、図11に示すように、pがこの値のときにMIklは最小値0を取る。グラフは平均値1/mnを中心に左右対称に近い形となり、同時相対度数pが最も偏っているセルにおいてMIklが最大となった。
【0203】
ここで、同時相対度数の分散SD^2は1/(N×m×n)であることから、SD=0.14×10^(-3)である。ここで、95%のセルは、pが平均±2SD、つまり、0.31×10^(-3)~0.59×10^(-3)の範囲に分布する。図11から、この区間において、pとMIklの関係が、平均値を中心にほぼ左右対称となることが分かった。
【0204】
次に、m=n=10、N=100として、同様の方法により解析を行った。そのとき、pが平均-1SDのセルのMIklと、pが平均+1SDのセルのMIklは、それぞれ、約6.34×10^(-5)、約6.02×10^(-5)であり、それらの比は1.05であった。また、pが平均-2SDのセルのMIklと、pが平均+2SDのセルのMIklは、それぞれ、約2.61×10^(-4)、約2.35×10^(-4)であり、それらの比は約1.11であった。このことから、この場合においても、上述の場合と同様にpとMIklの関係が、平均値を中心にほぼ左右対称となることがわかった。
【0205】
更に、m=n=100、N=1,000として、同様の方法により解析を行った。pが平均-1SDのセルのMIklと、pが平均+1SDのセルのMIklは、それぞれ約5.16×10^(-8)、約5.05×10^(-8)であり、それらの比は約1.02であった。また、pが平均-2SDのセルのMIkl(mean-2SD)と、pが平均+2SDのセルのMIklは、それぞれ、約2.08×10^(-7)、約2.00×10^(-7)であり、それらの比は約1.04であった。
【0206】
以上から、pとMIklは平均1/(m×n)を中心にほぼ左右対称の関係であることが分かった。
【0207】
実施例1:
米国The Cancer Genome Atlas(TCGA)(http://cancergenome.nih.gov/)から、全標本数6664の癌患者のデータをダウンロードした。このデータは、約20,000個の遺伝子についての情報を含んでいた。
【0208】
まず、各癌患者におけるASXL1(ASXL Transcriptional Regulator 1)遺伝子についてのmRNAの発現量データとDNAコピー数と突然変異を組み合わせて一次元確率変数として取得し、他の約20,000個の遺伝子についても、同様に一次元確率変数を作成した。
【0209】
ASXL1遺伝子は、経験的に、DNAメチル化やミトコンドリアの機能に関与するクロマチン結合タンパク質をコードする遺伝子として知られる。また、疾患と関連して、ホメオティック遺伝子や癌遺伝子の抑制状態の維持に関与していることが知られている。
【0210】
このように作成したASXL1遺伝子についての一次元確率変数の値と、他の各遺伝子についての確率変数の値とにつき、47×47(ASXL1遺伝子及び他の各遺伝子について、mRNAの発現量の値の範囲Mean-3SDからMean+3SDまでを7等分にした7個の基準、DNAコピー数の値の範囲0から4までの5個の基準、突然変異の有無2個の基準を組み合わせた、合計47個の基準を含む)の分割表にその個別相対度数を集計した。それぞれの分割表において、相対度数が最大となるセルを選択し、そのセルの個別相互情報量をMIfrontとして算出した。このMIfrontを用いて、mnMIfront/log(mn-1)の式に従って全体の相互情報量を算出した。各分割表から得られた相互情報量をその大きさの順に並べ、ASXL1遺伝子との相互情報量が大きい遺伝子のリストを作成した。m及びnの値が各分割表ごとに共通であったため、このリストはMIfrontの大きさの順に並べたリストと同じであった。算出したASXL1遺伝子との間の相互情報量の値が大きい遺伝子、上位2000個とASXL1遺伝子、合計2001個をキアゲン社のIngenuity Pathway Analysis(IPA)(登録商標)解析ソフトウェアを用いた標準経路(Canonical Pathways)解析に供した。IPAにおける標準経路の上位5個の結果を、IPAから得られたp値と併せて、以下の表4に示す。
【0211】
【表4】
【0212】
IPAによって予測された標準経路の1番目が酸化的リン酸化であった。酸化的リン酸化はミトコンドリアの主要な機能の一つである。このように、遺伝子の発現量の情報のみから作成された遺伝子リストに基づいて予測された標準経路は、経験的に知られているASXL1遺伝子のそれと極めて良く一致していた。
【0213】
このことから、特定の遺伝子と、それと高い相互情報量を示す遺伝子のリストのみを用いることにより、遺伝子の機能を高い精度で特定できることが示された。また、同じリストがフロンティア相互情報量MIfrontを用いることによって作成できたことから、前記相互情報量と同様に、フロンティア相互情報量MIfrontを使用しても、対象の相互依存性を特定できることが示された。
【0214】
実施例2:
実施例1と同様に、UHRF1(Ubiquitin like with PHD and Ring Finger domains 1)遺伝子について、算出したUHRF1遺伝子との相互情報量が大きい遺伝子2000個と、UHRF1遺伝子の合計2001個の遺伝子からなる遺伝子リストを作成し、IPA(登録商標)解析ソフトウェアにて解析した。
【0215】
UHRF1遺伝子は、経験的に、ヒストンH3のユビキチン化修飾やDNAの複製等に関与するタンパク質をコードする遺伝子として知られている。
【0216】
標準経路の上位5個の結果を、IPAから得られたp値と併せて、以下の表5に示す。なお、表5のいずれの項目についても、対応するデータの全標本数Nの値は実施例1と同様に6664である。
【0217】
【表5】
【0218】
IPAによって予測された標準経路の上位には、細胞周期に関連する項目が数多く見られた。細胞周期はDNA複製やDNAのメチル化と密接に関係している。このように、遺伝子リストに基づいて予測された標準経路は、経験的に知られているUHRF1遺伝子のそれと極めて良く一致していた。
【0219】
このことから、実施例1と同様に、他の遺伝子においても、特定の遺伝子との相互情報量が大きい遺伝子のリストのみから、その遺伝子の機能を正確に予測することが可能であることがわかった。
【0220】
実施例3:
実施例1と同様に、CLSTN3(Calsyntenin 3)遺伝子について、算出したCLSTN3遺伝子との相互情報量が大きい遺伝子2000個と、CLSTN3遺伝子の合計2001個の遺伝子からなる遺伝子リストを作成し、IPA(登録商標)解析ソフトウェアにて解析した。
【0221】
CLSTN3遺伝子は、経験的に、シナプス後部の細胞膜に局在し、シナプス形成に関与するタンパク質をコードする遺伝子として知られている。また、インシュリン抵抗性に関与することも近年報告されている。
【0222】
標準経路の上位5個の結果を、IPAから得られたp値と併せて、以下の表6に示す。なお、表6のいずれの項目についても、対応するデータの全標本数Nの値は実施例1と同様に6664である。
【0223】
【表6】
【0224】
タンパク質キナーゼAは、報酬系、記憶の形成及びインシュリン経路とも密接に関係するタンパク質である。また、SNAREはシナプス小胞分泌に関与するタンパク質である。さらに、GNRHは神経伝達物質の1つである。表6に示したこれらの項目の他にも、IPAによって予測された標準経路の上位には、神経シグナル伝達及びインスリンに関連する項目が数多く見られた。このように、遺伝子発現量等の、シグナル経路に関する情報を含まない情報から作成された遺伝子リストに基づいて予測された標準経路は、経験的に知られているCLSTN3遺伝子のそれと極めて良く一致していた。
【0225】
このことから、実施例1と同様に、エピゲノム制御に関わる遺伝子以外に、神経機能に関係する遺伝子においても、特定の遺伝子との相互情報量が大きい遺伝子のリストのみから、その遺伝子の機能を正確に予測することが可能であることがわかった。
図1
図2
図3
図4
図5
図6
図7
図8-1】
図8-2】
図9
図10
図11