(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-28
(45)【発行日】2024-03-07
(54)【発明の名称】状態可視化装置、状態可視化方法および状態可視化プログラム
(51)【国際特許分類】
G16H 10/00 20180101AFI20240229BHJP
【FI】
G16H10/00
(21)【出願番号】P 2020557769
(86)(22)【出願日】2019-11-27
(86)【国際出願番号】 JP2019046338
(87)【国際公開番号】W WO2020111109
(87)【国際公開日】2020-06-04
【審査請求日】2022-11-28
(31)【優先権主張番号】P 2018221449
(32)【優先日】2018-11-27
(33)【優先権主張国・地域又は機関】JP
(31)【優先権主張番号】P 2018234464
(32)【優先日】2018-12-14
(33)【優先権主張国・地域又は機関】JP
【新規性喪失の例外の表示】特許法第30条第2項適用 (公開1) 開催日 平成30年1月25日 集会名 理化学研究所医科学イノベーションハブ推進プログラム&Tonomachiリサーチコンプレックス ジョイントシンポジウムSociety5.0時代のヘルスケアの在り方 (公開2) 開催日 平成30年8月23日 集会名 第30回 高遠・分子細胞生物学シンポジウム (公開3) 開催日 平成30年9月9日 集会名 第24回 創発システム・シンポジウム
(73)【特許権者】
【識別番号】503359821
【氏名又は名称】国立研究開発法人理化学研究所
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】石川 哲朗
(72)【発明者】
【氏名】川上 英良
【審査官】鹿野 博嗣
(56)【参考文献】
【文献】特開2009-037588(JP,A)
【文献】江崎貴裕,多次元時系列分析ツールを公開しました [オンライン],日本,2017年07月10日,[検索日:2023年10月16日]、インターネット:<URL:http://tezk.hatenablog.com/entry/2017/07/10/144941>
【文献】柴 建雲,偏微分方程式を用いた等高線地図の補間と滑らかな面の再構成,情報処理学会論文誌,第41巻 第3号,日本,2000年03月15日,p.733~741
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00-80/00
(57)【特許請求の範囲】
【請求項1】
標本データに含まれる複数の項目に対応する値を粗視化する粗視化部と、
粗視化された値を用いて、前記複数の項目に対応する値の組合せによって表される状態の出現頻度に適合するエネルギーを算出するため
のモデルを求めるモデル作成部と、
前記状態を2次元上に配置した
エネルギーランドスケープのグラフを作成するグラフ作成部と、
前記状態間のエネルギーを補間し、補間後のグラフを作成する補間処理部と、
評価対象のデータを
粗視化し、前記補間後のグラフにおける位置を求める評価処理部と、
を備え、
前記補間後のグラフ上において前記エネルギーが辿り着く極小値の吸引領域と、当該吸引領域に属する前記標本データの所定の属性とを対応付けて記憶装置に記憶させておき、
前記評価処理部は、前記評価対象のデータに対応する属性を前記記憶装置から抽出して出力する
状態可視化装置。
【請求項2】
前記補間後のグラフにおける位置は、前記エネルギーランドスケープ上の座標である
請求項1に記載の状態可視化装置。
【請求項3】
前記評価処理部は、前記評価対象の複数の時点における前記データを
粗視化して前記補間後のグラフにおける複数の位置を求め、当該複数の位置の経時的な変化の過程を前記補間後のグラフに重畳して表示する
請求項1又は2に記載の状態可視化装置。
【請求項4】
前記モデルはイジングモデルであり、
前記粗視化部は、前記標本データに含まれる複数の項目に対応する値を2値化する
請求項1から3の何れか一項に記載の状態可視化装置。
【請求項5】
標本データに含まれる複数の項目に対応する値を粗視化する粗視化ステップと、
粗視化された値を用いて、前記複数の項目に対応する値の組合せによって表される状態の出現頻度に適合したエネルギーを算出するため
のモデルを求めるモデル作成ステップと、
前記状態を2次元上に配置した
エネルギーランドスケープのグラフを作成するグラフ作成ステップと、
前記状態間のエネルギーを補間し、補間後のグラフを作成する補間ステップと、
評価対象のデータを
粗視化し、前記補間後のグラフにおける位置を求める評価ステップと、
をコンピュータが実行し、
前記補間後のグラフ上において前記エネルギーが辿り着く極小値の吸引領域と、当該吸引領域に属する前記標本データの所定の属性とを対応付けて記憶装置に記憶させておき、
前記評価ステップにおいて、前記評価対象のデータに対応する属性を前記記憶装置から抽出して出力する
状態可視化方法。
【請求項6】
前記グラフは、生物の状態、若しくは人間の健康状態を表現したものである、又は
前記グラフは人間の健康状態を表現したものであり、前記標本データの所定の属性は所定の疾病の発症の有無を表し、前記コンピュータは前記グラフを用いて、
前記人間の
将来の健康状態を予測する
請求項5に記載の状態可視化方法。
【請求項7】
標本データに含まれる複数の項目に対応する値を粗視化する粗視化ステップと、
粗視化された値を用いて、前記複数の項目に対応する値の組合せによって表される状態の出現頻度に適合したエネルギーを算出するため
のモデルを求めるモデル作成ステップと、
前記状態を2次元上に配置した
エネルギーランドスケープのグラフを作成するグラフ作成ステップと、
前記状態間のエネルギーを補間し、補間後のグラフを作成する補間ステップと、
評価対象のデータを
粗視化し、前記補間後のグラフにおける位置を求める評価ステップと、
をコンピュータに実行させ、
前記補間後のグラフ上において前記エネルギーが辿り着く極小値の吸引領域と、当該吸引領域に属する前記標本データの所定の属性とを対応付けて記憶装置に記憶させておき、
前記評価ステップにおいて、前記評価対象のデータに対応する属性を前記記憶装置から抽出して出力する
状態可視化プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、状態可視化装置、状態可視化方法および状態可視化プログラムに関する。
【背景技術】
【0002】
生物の状態をモニタリングして計測した様々な測定データ、例えば健康医療情報など多項目からなる多変量データが蓄積され続けている。しかしながら、それらのデータが研究に十分役立てられ有効利用されているとは言い難い。
【0003】
また、従来、多変量データの関係性を表現する手法として、離散化された状態の低次元上の布置を決める力学モデルを用いた描画法(例えば、非特許文献1)や離散的な多変量関数を連続的に補間することで滑らかな曲面を構成する手法(例えば、非特許文献2)、サンプル間の類似度の関係性をなるべく保つように低次元に射影する手法(例えば、非特許文献3)などがある。多変量データの安定性を議論するためにエネルギーと呼ばれる指標を導入して、状態ごとのエネルギーを地形に見立てて解析する手法をエネルギーランドスケープ分析と言う。この分析の生命現象への応用としては機能的核磁気共鳴画像法(fMRI)の多変量時系列データに対してエネルギーランドスケープ分析を適用してエネルギーを求めるための技術が提案されている(例えば、非特許文献4)。
【先行技術文献】
【非特許文献】
【0004】
【文献】Thomas M. J. Fruchterman, Edward M. Reingold, "Graph drawing by force‐directed placement.", SOFTWARE-PRACTICE AND EXPERIENCE, VOL. 21(1 1), 1991年11月, p 1129-1164.
【文献】Hiroshi Akima, "Algorithm 760: Rectangular-Grid-Data Surface Fitting that Has the Accurancy of a Bicubic Polynomial," ACM Transactions on Mathematical Software, 1996年9月, Vol.22, No.3, p357-361
【文献】Kruskal, J. B., "Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis." Psychometrika, 1964年3月, Volume 29, Issue 1, pp 1-27
【文献】T. Ezaki, T. Watanabe, M. Ohzeki, and N. Masuda, "Energy landscape analysis of neuroimaging data", Philosophical transactions of the royal society A, 2017年5月15日, Volume 375, issue 2096
【発明の概要】
【発明が解決しようとする課題】
【0005】
例えば、臨床や健康データ、運動量などのライフログ、動物の行動等は、生物について不規則な間隔で測定され、測定回数も一定ではないことがある。一方、測定項目は多岐にわたる。このような、多くない量の不規則な間隔で測定された高次元のデータに対し統計解析を行うのは困難である。
【0006】
そこで、本発明は、生命に関わる多変量データを用いて生命の状態を分析するための新規な技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明に係る状態可視化装置は、標本データに含まれる複数の項目に対応する値を粗視化する粗視化部と、2値化された値を用いて、複数の項目に対応する値の組合せによって表される状態の出現頻度に沿ったエネルギーを算出するためのイジングモデルを求めるモデル作成部と、状態を2次元上に配置したグラフを作成するグラフ作成部とを備える。
【0008】
このようにすれば、元の標本データとの対応関係を維持したままグラフ(エネルギーランドスケープ)を作成することができ、各状態の安定性や、状態間の遷移のし易さを可視化することができる。すなわち、例えば標本データとして臨床データのような多変量データを用いれば、患者の状態を分析するための新規な手法を提供することができる。なお、粗視化によって1つの変量を複数桁の2値(ビット)で表すようにしてもよいし、1つの変量ごとに2値化するようにしてもよい。
【0009】
また、状態間のエネルギーを補間し、補間後のグラフを作成する補間処理部をさらに備えるようにしてもよい。このようにすれば、粗視化で縮退した格子点上以外の状態についてもエネルギーを算出できるようになる。
【0010】
また、評価対象のデータを2値化などにより粗視化し、画像中における位置を求める評価処理部をさらに備えるようにしてもよい。このようにすれば、評価対象の個々のデータについて、画像上の位置で表される状態を認識することができるようになる。
【0011】
また、画像上において各地点からエネルギーが最も急減衰する方向(最急勾配の方向)に進むと最終的にいずれかの極小値に辿り着き、この範囲をその極小値(ベイスン)の吸引領域と呼ぶ。極小値ごとに定められた吸引領域と、当該領域に属する標本データの所定の属性とを対応付けて記憶装置に記憶させておき、評価処理部は、評価対象のデータに対応する属性を記憶装置から抽出して出力するようにしてもよい。例えば、属性として臨床データを測定した後の何らかの疾病の発症の有無を対応付けておくことにより、エネルギーランドスケープ上の位置と発症のリスクとの関係や将来的に遷移し易い状態と発症のリスクとの関係を認識できるようになる。
【0012】
また、評価処理部は、評価対象の複数の時点におけるデータを2値化して画像における複数の位置を求め、当該複数の位置の経時的な変化の過程を画像に重畳して表示するようにしてもよい。このようにすれば、評価対象について、状態の履歴や、将来的に遷移し易い状態を可視化することができる。
【0013】
なお、課題を解決するための手段に記載の内容は、本発明の課題や技術的思想を逸脱しない範囲で可能な限り組み合わせることができる。また、課題を解決するための手段の内容は、コンピュータ等の装置若しくは複数の装置を含むシステム、コンピュータが実行する方法、又はコンピュータに実行させるプログラムとして提供することができる。当該プログラムはネットワーク上で実行されるようにすることも可能である。なお、当該プログラムを保持する記録媒体を提供するようにしてもよい。
【発明の効果】
【0014】
本発明によれば、臨床データのような生命に関わる多変量データを用いて生命の状態を分析するための新規な技術を提供することができる。
【図面の簡単な説明】
【0015】
【
図1】状態可視化装置の一例を示すブロック図である。
【
図3】モデル作成処理の一例を示す処理フロー図である。
【
図4】状態評価処理の一例を示す処理フロー図である。
【
図5】安定的な状態における2値化された測定値の組合せの一例を示す図である。
【
図6】各ベイスンのエネルギーの大きさを表すグラフの一例である。
【
図7】2次元上に配置された状態のエネルギーの大きさを表すエネルギーランドスケープの一例である。
【
図9】各領域と発症リスクとの関係の一例を示す図である。
【
図10】安定的な状態における2値化された測定値の組合せの一例を示す図である。
【
図11】各ベイスンのエネルギーの大きさを表すグラフの一例である。
【
図12】2次元上に配置された状態のエネルギーの大きさを表すエネルギーランドスケープの一例である。
【
図13】ベイスンの吸引領域の一例を示す図である。
【
図14】各領域と発症リスクとの関係の一例を示す図である。
【
図15】観察期間中に糖尿病を発症した検診受信者の経年状態変化をランドスケープ上に重畳して表示した例を示す図である。
【発明を実施するための形態】
【0016】
以下、本発明の実施形態について、図面を用いて説明する。以下の実施形態は例示であり、本発明は下記の構成には限定されない。
【0017】
<装置の機能構成>
図1は、実施の形態に係る状態可視化装置の機能ブロック図である。状態可視化装置1は、例えば健康診断の複数の項目に関する測定結果を含む、複数の患者の臨床データを用いて、患者の健康に関する状態の安定性を求める。また、患者の健康に関する状態の安定性は、例えば視覚的に表示される。本実施形態では患者の臨床データを処理する例を示すが、他の医療情報や各種生物から得られる情報、日常の観測値、各種生物から得られるデータなどのような生命現象に関わる多変量データも同じ装置を用いることができる。
【0018】
本実施形態に係る状態可視化装置1は、一般的なコンピュータであり、入出力インターフェース(I/F)11と、記憶装置12と、通信インターフェース(I/F)13と、プロセッサ14とを備え、これらの構成要素がバス15で接続されている。
【0019】
入出力I/F11は、例えばキーボードやマウス、ディスプレイ、タッチパネル等のユーザインターフェースである。状態可視化装置1は、入出力I/F11を介してユーザの操作を受け付け、以下で述べる処理を行うと共に結果を表示する。記憶装置12は、RAM(Random Access Memory)やROM(Read Only Memory)等の主記憶装置及びHDD(Hard-disk Drive)やSSD(Solid State Drive)、フラッシュメモリ等の補助記憶装置(二次記憶装置)である。主記憶装置は、プロセッサが読み出したプログラムや処理対象のデータを一時的に記憶したり、プロセッサの作業領域を確保したりする。補助記憶装置は、プロセッサが実行するプログラムや、臨床データ等を記憶する。通信I/F13は、例えば有線のネットワークカード等であり、所定のプロトコルに基づき通信を行う。プロセッサ14は、CPU(Central Processing Unit)等の演算処理装置であり、プログラムを実行することにより本実施の形態に係る各処理を行う。
【0020】
図1の例では、プロセッサ14内に機能ブロックを示している。具体的には、プロセッサ14は、粗視化部141、モデル作成部142、グラフ描画部143、補間処理部144、及び評価処理部145として機能する。粗視化部141、モデル作成部142、グラフ描画部143、及び補間処理部144は、患者の臨床データを表す状態の出現頻度に基づいて、状態間の遷移のし易さを表すモデルを作成する。評価処理部145は、作成されたモデルと、評価対象の患者の臨床データを用いて、評価対象の患者の状態を評価する。より具体的には、粗視化部141は、健康診断結果のような臨床データ等の入力データを、所定の基準に基づいて例えば2値化して、離散値に変換する。モデル作成部142は、例えば複数の健診項目の結果に対応する複数の離散値を用いて逆イジング問題を解くことにより、エネルギーと呼ばれる状態の安定性指標を算出する。グラフ描画部143は、上述した離散値の組合せによって表される状態の隣接関係および求められたエネルギーの大きさを地形として表すエネルギーランドスケープを描画する。補間処理部144は、各状態間のエネルギーの大きさを補間してエネルギーランドスケープを連続的な地形として構成する。評価処理部145は、エネルギーランドスケープと、評価対象の患者の臨床データとを用いて、評価対象の患者の現時点の状態や、将来的な状態変化のし易さを表す情報を出力する。なお、
図1に例示した機能構成の少なくとも一部は、ネットワークを介して接続されたサーバによって提供される、いわゆるクラウドサービスであってもよい。
【0021】
<粗視化>
本実施形態では、状態を、イジングモデルを利用して表す。イジングモデルは、物理学において磁石の性質を説明するための導入された微視的なスピンの相互作用モデルであり、2つの状態をとる格子点を複数含む。本実施形態においては、各格子点は、例えば医療情報、健康診断の項目、センサーや質問表などから得られる各種生物情報に対応する。また、例えばある患者の健康診断の項目の測定結果によって表される格子点の状態の組合せによって、当該患者の健康に関する状態が表される。
【0022】
本実施形態においては、健康診断の項目の測定結果を2つの状態で表すために、健康診断の項目の測定結果を表す変数ごとに所定の基準に基づいて2値化する。すなわち、測定結果または複数の測定結果を組み合わせた値と所定の閾値との大小関係に基づき、測定結果を0又は1に変換する。なお、0又は1の2値でなく、-1又は+1の2値であってもよいし、他の2値であってもよい。このように変数を2値化する粗視化によって、健診結果をイジングモデルに当てはめることができる。また、各変数を2値変数の組み合わせで表現する粗視化による解析も可能である。例えば、粗視化によって数段階の順序尺度に変換されたデータを、複数桁のビット列で表すことで、複数の2値の組合せによって患者の健康に関する状態を表現するようにしてもよい。
【0023】
<エネルギーランドスケープ>
イジングモデルは、スピン変数σ
iと、2種類のパラメーターh
i、J
ijとによって表現される。添え字のiやjは1からNまでの値を取る。Nはスピン変数の総数である。σ
iはi番目のスピン変数を表し、0か1のどちらかの値を取る。h
iはσ
iが単独のスピンとしてどの程度1になり易いかを表す。h
iは、物理においては磁場と呼ばれるパラメーターであり、磁場がかかったスピンはその磁場の方向を向きやすくなる。また、J
ijは、σ
iとσ
jとに関する同じ値(いずれも0、又はいずれも1)の取り易さの傾向を表し、i番目のスピンとj番目のスピンの結合強度を表す。物理においては、Jが正の値だとスピンの向きが揃った方が安定となるので強磁性体となり、Jが負の値だとスピンが反平行になろうとするので反強磁性体となる。σ
i、h
iなどが並んだものをベクトルとみなしてそれぞれ太字のσ、太字のhで表し、J
ijを成分とする行列を、太字のJと表す。スピンが単独、および、対(ペアワイズ)となって相互作用することで、特定のスピン配置(0又は1の並び方)の安定性が決まる。この安定性を表す指標をエネルギーEと呼ぶ。エネルギーEは、以下の式(1)で表される。
【数1】
エネルギーEは、パラメーターh、Jのもとで、ある特定の状態、すなわちスピン配置σにおける安定性が決まることを表している。また、エネルギーEは、低いほど安定な状態であることを意味する。ある状態のエネルギーEが定まると、その状態の出現確率Pがギブス・ボルツマン分布に従って決まる。そして、エネルギーEを-1倍したものが指数の肩に乗ったものに比例してある状態が観察される。出現確率Pは、以下の式(2)で表される。
【数2】
ここで、式2の右辺の分母は、全確率を1にするための規格化定数であり、物理学における分配関数である。この分配関数において、全状態にわたって和を取る際のダミー変数をσ’で表す。
【0024】
エネルギーが低いほど安定な状態となり、安定な状態はより観測されやすくなるため、出現頻度が高くなる。各スピンは0又は1の値をとり、合計でNスピンあるため、取り得るスピン配置(状態)の数は2
N
通りになる。物理学においては、hやJが既知(実験的に操作して決まっている)という設定の元で、各スピン配置の出現確率が求められる。一方、本実施形態では、実際に観測された多変数をそれぞれ2値化して得られたスピン配置の出現頻度が与えられた上で、h(太字)とJ(太字)を推定し、各状態のエネルギーEを求める逆イジング問題となる。
【0025】
そして、観測されたスピン配置の出現頻度に最も適合するようにh(太字)とJ(太字)とを推定する。具体的には、スピン変数の1次および2次の期待値であるσiの期待値<σi>及びσiσjの期待値<σiσj>について、状態出現頻度の経験分布と理論分布とが一致するように、h(太字)とJ(太字)とを既存の最適化手法により求めることができる。以上のようにして、離散的な状態の安定性を、ランドスケープとして表すことができる。
【0026】
<画像の描画>
イジングモデルにおいては、スピン配置が変化するときに一度に1つずつスピンが反転する。また、ある状態に対して、いずれか1つのスピンが反転した状態を隣接状態とする。N変数のデータであればスピン変数がN個あるため、スピンが反転する可能性のある場所はN箇所あることになる。すなわち、各状態の隣接状態の数はNである。また、隣接するN状態のいずれよりもエネルギーが低い状態(local minimum:局所最小)をベイスン(basin:盆地)と定義する。ベイスンは周囲よりエネルギーが低いため安定である。また、ベイスンは、複数存在する可能性がある。そして、ベイスンがどのようなスピン配列の状態かを見ることで、各変数(例えば2値化した健診結果や検査データ)のどのような高低の組み合わせがベイスンに対応するかを知ることができる。ここで、何らかの疾病に罹患している患者が多いベイスンもあれば、そうでないベイスンもある。将来発症の可能性が高い疾病が1つ以上のベイスンもあれば、そうでないベイスンもある。ベイスン間の移動が容易に可能なベイスンもあれば、それが起こりにくいベイスンもある。
【0027】
また、各状態からその隣接状態のうち最もエネルギーの低くなる方向を辿ると、最終的にベイスンのいずれかに辿り着く。すなわち、ベイスン以外の状態の各々については、隣接するいずれの状態に遷移し易いかがわかる。エネルギーの低くなる方向に矢印を描き、この道筋を繋ぐと、有向グラフである隣接グラフを描くことができる。本実施形態では、例えばFruchterman-Reingoldアルゴリズムのようなグラフ描画アルゴリズムを用いて、隣接グラフから二次元上の頂点配置を求める。Fruchterman-Reingoldアルゴリズムは、力学のモデルを用いており、辺でつながっている頂点からは引力を、自己以外の全頂点からは斥力を受ける状況において、各頂点で力が釣り合って平衡状態となるような頂点配置を決める。このようにして決定した二次元(これを(x,y)座標とする)に配置された各状態に、先に求めたエネルギーを割り振ると、エネルギーEが2変数関数E(x,y)となる。
【0028】
<補間処理>
E(x,y)は、2
N
個の点のみで定義される。これに対し、例えばAkimaアルゴリズ
ムのような所定の手法で補間すると、滑らかなエネルギーランドスケープの曲面を得ることができる。Akima補間の利点は、急激に値の変化する点の周りで、アーチファクトとな
るような振動(実際には存在しない山や谷が生成されてしまうこと)が起こりにくいことである。このようにして作成される連続的なエネルギーランドスケープは、エネルギーの高低に応じて色を変えて表示してもよいし、高低を表す等高線を描くようにしてもよい。また、仮想的な多次元空間上にエネルギーランドスケープを描画するようにしてもよい。
【0029】
<処理フロー>
図2は、本実施形態に係る処理の一例を示す処理フロー図である。状態可視化装置1の粗視化部141、モデル作成部142、グラフ描画部143、及び補間処理部144は、上述のような処理を行い、連続的なエネルギーランドスケープのモデルを作成する(
図2:S1)。本ステップでは、例えば複数の患者の臨床データを用いて状態の安定性や状態間の遷移のし易さを表す画像が作成される。
【0030】
また、状態可視化装置1の評価処理部145は、評価対象のユーザのデータを用いて、当該ユーザの状態や将来的な状態の遷移の可能性を示す情報を出力する(
図2:S2)。本ステップでは、例えばS1で作成したエネルギーランドスケープと、評価対象の患者の臨床データとを用いて、評価対象の患者の状態をエネルギーランドスケープ上に示す。
【0031】
<モデル作成処理>
図3は、モデル作成処理の一例を示す処理フロー図である。状態可視化装置1の粗視化部141は、高次元データを2値化する(
図3:S11)。本ステップでは、上述した粗視化を行う。粗視化部141は、例えば、臨床データに含まれる所定の項目の測定値やその組み合わせを、所定の閾値との大小関係に基づいて2値化する。所定の閾値は母集団を的確に分割するために有意に定める必要がある。
【0032】
また、状態可視化装置1のモデル作成部142は、2値化された高次元データを用いてエネルギーランドスケープを描くためのモデルを作成する(
図3:S12)。本ステップでは、モデル作成部142は、例えば、2値化された臨床データによって表される状態の出現頻度に基づいてパラメーターを調整し、安定性を表す指標であるエネルギーEを求めるためのモデルを作成する。
【0033】
また、状態可視化装置1のグラフ描画部143は、作成されたモデルを用いてグラフを作成する(
図3:S13)。本ステップでは、所定のアルゴリズムに基づいてグラフを描画する。例えば、グラフのノードを、2次元空間において交差するエッジ少なくなるように配置する。また、エッジでつながっているノードは近づけるが、ノード同士が近づきすぎないようにバランスを取り、なるべくエッジが交差しないような配置を探すようにしてもよい。例えば、Fruchterman-Reingoldアルゴリズムを利用することができる。
【0034】
また、状態可視化装置1の補間処理部144は、作成された離散的なグラフのベイスン間を補間し、連続的なエネルギーランドスケープを作成する(
図3:S14)。本ステップでは、所定のアルゴリズムに基づいて頂点間のエネルギーの大きさを補間する。例えば、Akimaアルゴリズムを利用することができる。また、エネルギーランドスケープは、例えばエネルギーの高低差を色の塗り分けで表現した二次元の画像で表される。
【0035】
<状態評価処理>
図4は、状態評価処理の一例を示す処理フロー図である。状態可視化装置1の評価処理部145は、記憶装置12から評価対象者のデータを読み出す(
図4:S21)。本ステップでは、上述したモデルを作成するために用いた臨床データの測定項目値を読み出す。
【0036】
また、評価処理部145は、読み出したデータを2値化する(
図4:S22)。本ステップにおいては、
図3のS11と同じ方法で2値化する。
【0037】
また、評価処理部145は、評価対象者の状態を、2値化したデータが表す状態に対応するエネルギーランドスケープにおける位置として特定し(
図4:S23)、例えば入出力I/F11を介して出力する(
図4:S24)。
【0038】
<効果>
本実施形態によれば、個人の状態を把握することができると共に、将来的に遷移する可能性の高い状態を知ることができる。エネルギーランドスケープにおいてベイスンとして表れる状態には、何らかの疾病に罹患している患者が多い状態もあれば、そうでない状態もある。疾病の発症する可能性が高い状態もあれば、そうでない状態もある。これまでに知られていない状態を可視化することも可能となる。なお、イジングモデルのスピン変数に採用する健診項目によって、何らかの疾病に罹患している患者が多い状態を含むエネルギーランドスケープも作成し得るし、各状態と何らかの疾病への罹患との相関がないエネルギーランドスケープも作成し得る。複数の疾患や健康状態を示す画像も作成し得る。
【0039】
<実施例1>
具体的な画像作成の例を示す。臨床データのサンプルを用いて糖尿病発症のリスクを表すエネルギーランドスケープを作成した。臨床データに含まれる項目は以下の通りである。以下の項目の値は、中央値を閾値として2値化した。
(1)妊娠回数
(2)経口糖負荷試験2時間値
(3)最低血圧
(4)上腕三頭筋部皮下脂肪厚
(5)血清インスリン2時間値
(6)BMI
(7)糖尿病家系要因
(8)年齢
また、5年以内の糖尿病発症有無を用いて、状態の安定性とリスクとの関係を評価した。
【0040】
そして、2値化された測定値の上記項目についての組合せを用いて、組合せの出現頻度に適合するようにイジングモデルのパラメーターh
i、J
ijを推定し、エネルギーEを算出した。このようなEを用いてエネルギーEが周囲よりも低い状態を特定すると、
図5のような1~7の2値化された値の組合せがベイスンであった。
図5の例は、縦軸に項目名をとり、上から、妊娠回数、経口糖負荷試験2時間値、最低血圧、上腕三頭筋部皮下脂肪厚、血清インスリン2時間値、BMI、糖尿病家系要因、年齢を表す。各項目の値はマスの色で表され、ハッチングの施されたマスは0を表し、白いマスは1を表す。また、横軸は、ベイスンとして見出された7つのベイスン1~7を表す。例えばベイスン1は、全ての項目の値が0である。ベイスン2は、最低血圧、及び血清インスリン2時間値の値のみが1である。ベイスン3は、経口糖負荷試験2時間値、上腕三頭筋部皮下脂肪厚、及び糖尿病家系要因の値が1である。また、
図6は、各ベイスンのエネルギーの大きさを表すグラフである。
図6のグラフ(disconnectivity graph)は、縦軸がエネルギーの大きさを表し、横軸がベイスン1~7を表す。また、各ベイスンは2分木の末端のノードで表され、分岐点のノードは、各ベイスンの間の稜線の最も低い箇所のエネルギーEの大きさを表す。エネルギーの大きさは、ベイスンに限らず、上述した項目の値の組合せの発現頻度を元に推定したhとJを通じて求めることができる。
【0041】
また、Fruchterman-Reingoldアルゴリズムを用いて2次元上に各状態に対応する座標を配置し、Akimaアルゴリズムを用いて座標間のエネルギーEの大きさを補間して画像を描画した。
図7は、2次元上に配置された状態のエネルギーEの大きさを等高線で表すエネルギーランドスケープである。黒で塗られた領域はベイスンとその近傍領域(谷)を示す。また、矢印は、各地点からの最急勾配になった経路を低い方に向けて進む経路を示す。すなわち、矢印の集まる地点がベイスンである。
【0042】
また、
図7のエネルギーランドスケープに基づいて、各ベイスンの吸引領域の特徴は、
図8のように示される。すなわち、
図8は、各ベイスンについて、各地点からエネルギーの最急降下方向を連結した曲線が当該ベイスンへと至る座標の範囲を示している。なお、
図8においては、
図6のベイスン1~7に対応する数字を角括弧で各領域に付している。また、各吸引領域に含まれるサンプルの5年以内の糖尿病の発症の有無に基づいて発症頻度を求めると、
図9のようになる。すなわち、各吸引領域と発症リスク(本発明に係る「属性」の一例に相当する)との関係の一例を示している。
図9は、縦軸が人数を表し、横軸はベイスン1~7を表す。また、左の白い棒グラフは発症しなかった人数を表し、右の黒い棒グラフは発症した人数を表す。例えばベイスン7、4、6等の吸引領域に分類された人は、元の状態が異なるにも関わらず、5年後に糖尿病を発症するリスクが高いことがわかる。ベイスン1、2等の吸引領域にいた人は、5年後に糖尿病を発症するリスクが低いことがわかる。ベイスン6の吸引領域にいた人は、経口糖負荷試験2時間値が低いにもかかわらず、5年後に糖尿病を発症するリスクが高いことがわかる。
【0043】
サンプルとは別の、評価対象の患者の臨床データについて、同様に2値化してエネルギーランドスケープ上の座標を求めると、
図7、8等に基づいて当該患者の状態や、将来的に遷移し易い状態がわかる。
【0044】
本実施形態によれば、元のサンプルとの対応関係を維持したままエネルギーランドスケープを作成するため、各状態との関連について評価することができる。また、視覚的に過去や現在の状態を認識することができるようになる。また、将来の可能性を認識することができる。このように、従来とは異なる手法で、生物の状態、例えば臨床データのような多変量データを用いて、生物の状態、例えば患者の状態を分析することができるようになった。
【0045】
<実施例2>
図10~
図15に他の実施例を示す。日本人の健康診断結果のサンプルを用いて糖尿病発症のリスクを表すエネルギーランドスケープを作成した。サンプルは5年次以上健康診断を受けた34276人からなる健康診断データであり、のべ224461レコードからなる。健康診断データに含まれる項目は以下の通りである。以下の項目の値は、基準値を閾値として2値化した。
(1)空腹時血糖
(2)HbA1c
(3)尿糖
(4)収縮期血圧
(5)腹囲
(6)BMI
(7)ALT(GPT)
(8)γ-GT
(9)赤血球数
(10)血色素量
【0046】
また、観察期間中の検診結果およびレセプトデータから糖尿病、糖尿病疑い(糖尿病型)、非糖尿病に区別した判定を用いて、状態の安定性とリスクとの関係を評価した。観察開始時点で既に糖尿病であった者は8869人、観察期間中に糖尿病を発症した者は13803人、及び観察期間中に糖尿病を発症しなかった者は13000人である。
【0047】
そして、2値化された測定値の上記項目についての組合せを用いて、組合せの出現頻度に適合するようにイジングモデルのパラメーターh
i、J
ijを推定し、エネルギーEを算出した。このようなEを用いてエネルギーEが周囲よりも低い状態を特定すると、
図10のような1~9の2値化された値の組合せがベイスンであった。
図10の例は、縦軸に項目名をとり、上から、空腹時血糖、HbA1c、尿糖、収縮期血圧、腹囲、BMI、ALT(GPT)、γ-GT、赤血球数、血色素量を表す。各項目の値はマスの色で表され、ハッチングの施されたマスは0を表し、白いマスは1を表す。また、横軸は、ベイスンとして見出された9つのベイスン1~9を表す。例えばベイスン1は、全ての項目の値が0である。ベイスン2は、腹囲とBMIの値のみが1である。ベイスン3は、腹囲、BMI、ALT(GPT)、及びγ-GTの値が1である。また、
図11は、各ベイスンのエネルギーの大きさを表すグラフである。
図11のグラフ(disconnectivity graph)は、縦軸がエネルギーの大きさを表し、横軸がベイスン1~9を表す。また、各ベイスンは2分木の末端のノードで表され、分岐点のノードは、各ベイスンの間の稜線の最も低い箇所のエネルギーEの大きさを表す。エネルギーの大きさは、ベイスンに限らず、上述した項目の値の組合せの発現頻度を元に推定したhとJを通じて求めることができる。
【0048】
また、Fruchterman-Reingoldアルゴリズムを用いて2次元上に各状態に対応する座標を配置し、Akimaアルゴリズムを用いて座標間のエネルギーEの大きさを補間して画像を描画した。この際、項目の値の組み合わせの取り得る場合の数が多過ぎて描画が困難な場合は、特定のエネルギーより低い状態のみを用いて計算を行うようにしてもよい。
【0049】
図12は、2次元上に配置された状態のエネルギーEの大きさを等高線で表すエネルギーランドスケープである。黒で塗られた領域はベイスンとその近傍領域(谷)を示す。また、矢印は、各地点からの最急勾配になった経路を低い方に向けて進む経路を示す。すなわち、矢印の集まる地点がベイスンである。
【0050】
また、
図12のエネルギーランドスケープに基づいて、各ベイスンの吸引領域の特徴は、
図13のように示される。すなわち、
図13は、各ベイスンについて、各地点からエネルギーの最急降下方向を連結した曲線が当該ベイスンへと至る座標の範囲を示している。なお、
図13においては、
図10のベイスン1~9に対応する数字を角括弧で各領域に付している。また、各吸引領域に含まれるサンプルの糖尿病の発症の有無、ないしは糖尿病疑いの判定に基づいて観察期間中の出現頻度を求めると、
図14のようになる。すなわち、各吸引領域と発症リスクとの関係の一例を示している。
図14は、縦軸が各吸引領域内にいたことのあるユニークな人数を表し、横軸はベイスン1~9を表す。また、白い棒グラフは発症しなかった人数を表し、灰色の棒グラフは糖尿病疑いの人数を表し、黒い棒グラフは発症した人数を表す。例えばベイスン7、9等の吸引領域に分類された人は、元の状態が異なるにも関わらず、糖尿病疑いかすでに糖尿病を発症している人が多く、リスクが高いことがわかる。ベイスン1、2等の吸引領域にいた人は、その時点では非糖尿病の人が多いが、糖尿病疑いの人もある一定割合おり、糖尿病を発症するリスクが必ずしも低いとは言えない。ベイスン8、9の吸引領域にいた人は、糖尿病の特徴を表す空腹時血糖、HbA1cに加えて尿糖も高い傾向にあり、糖尿病の病態が進行しているリスクが高いことがわかる。
【0051】
このサンプルのように経時的に観察を続けたデータの場合、状態遷移をエネルギーランドスケープ上の軌跡として描くことができる。観察期間中に糖尿病を発症したある検診受信者の経年状態変化をランドスケープ上に重ね描きすると、
図15のようになる。中空の丸印は観察開始時の状態を表し、中が塗りつぶされた丸印は各観察時点での状態を表し、二重丸印は発症と判定された時点の状態を表す。吸引領域1の中を行ったり来たり移動しつつもしばらくその中に留まり、吸引領域2内の状態を経て、最終的に吸引領域6に含まれる状態に到達して糖尿病を発症したことがわかる。
【0052】
サンプルとは別の、評価対象の患者の臨床データや健康診断結果データについて、同様に2値化してエネルギーランドスケープ上の座標を求めると、
図7、8、および
図12、13等に加えてさらに
図15等のような時間変化を俯瞰する描画ができる。このような描画に基づいて、当該患者ないしは検診受診者の状態の履歴や、将来的に遷移し易い状態がわかる。
【0053】
本実施例においても、元のサンプルとの対応関係を維持したままエネルギーランドスケープを作成するため、各状態との関連について評価することができることがわかる。また、実施例1、2に示したように、イジングモデルのスピン変数として用いる項目は、エネルギーランドスケープで表す状態やサンプルに応じて適宜選択することができる。
【0054】
<変形例>
以上、実施形態に係る構成を例示したが、本発明はこのような構成に限定されるものではない。本発明は、臨床データを用いて作成する糖尿病発症のリスクを表すエネルギーランドスケープに限らず、生物の様々な状態を表すことができる。例えば、質問調査の回答を用いて更年期障害のリスクを表すエネルギーランドスケープを作成するようにしてもよい。また、時系列の活動量等のデータを用いて、覚醒及び睡眠の状態を表すエネルギーランドスケープを作成するようにしてもよい。動物の各種データを測定して、動物の健康状態や欲求の状態を表すエネルギーランドスケープを作成するようにしてもよい。植物の生育状態を表すエネルギーランドスケープを作成するようにしてもよい。細胞や微生物などの増殖や分化、種間の相互作用の状態を表すエネルギーランドスケープを作成するようにしてもよい。
【0055】
本発明は、上述した処理を実行するコンピュータプログラムや、当該プログラムを記録した、コンピュータ読み取り可能な記録媒体を含む。当該プログラムが記録された記録媒体は、プログラムをコンピュータに実行させることにより、上述の処理が可能となる。
【0056】
ここで、コンピュータ読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータから読み取ることができる記録媒体をいう。このような記録媒体のうちコンピュータから取り外し可能なものとしては、フレキシブルディスク、光磁気ディスク、光ディスク、磁気テープ、メモリカード等がある。また、コンピュータに固定された記録媒体としては、HDDやSSD(Solid State Drive)、ROM等がある。
【符号の説明】
【0057】
1 :状態可視化装置
11 :入出力I/F
12 :記憶装置
13 :通信I/F
14 :プロセッサ
141 :粗視化部
142 :モデル作成部
143 :グラフ描画部
144 :補間処理部
145 :評価処理部
15 :バス