【文献】
荻原宏是 他,ブール代数に基づく識別とその肝癌診断への応用,第75回(平成25年)全国大会講演論文集(4) インタフェース コンピュータと人間社会,情報処理学会,2013年,pp. 4-903〜4-904
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0012】
以下、図面を参照しながら、本発明にかかる情報処理装置と情報処理プログラム並びに情報処理方法の実施の形態について説明する。
【0013】
本発明は、過去の実績を示す見本データから定まる評価値を用いて、数学的基盤の明確な統計的パターン認識理論に基づき、入力データで示される予測の対象において特定の事象が生じるか否かの予測を支援するものである。
【0014】
以下に説明する実施の形態は、予測の対象となる肝癌の患者(以下「対象患者」という。)の検査データと、対象患者とは異なる別の患者であって肝癌の摘出手術(以下「手術」という。)を受けた患者(以下「見本患者」という。)の検査データおよび手術後の経過と、を用いて、手術を受けた対象患者の肝癌の再発の有無の予測を支援する場合を例にして、本発明の内容を説明する。
【0015】
本発明にかかる情報処理装置は、後述のとおり、見本患者の見本データと、対象患者の入力データと、を用いて、対象患者の肝癌の再発の不確実性を事後確率として数値で表す。本発明にかかる情報処理装置は、この事後確率を用いる統計的パターン認識のBayes識別則により、予測の信頼性を向上させている。
【0016】
また、本発明にかかる情報処理装置は、後述のとおり、見本データを用いて、複数の検査項目(マーカー)の中から肝癌の再発の予測に有効な検査項目の選択の不確実性を事後確率として数値で表す。検査項目は、本発明における指標の例である。本発明にかかる情報処理装置は、この事後確率を用いる統計的パターン認識のBayes識別則により、検査項目の選択の信頼性を向上させている。
【0017】
●情報処理装置●
図1は、本発明にかかる情報処理装置(以下「本装置」という。)の実施の形態を示すブロック図である。本装置1は、記憶部2と、指標選択部3と、分類判定部4と、を有してなる。指標選択部3は、見本データ抽出部31と、事前確率算出部32と、条件付確率算出部33と、事後確率算出部34と、分類推定部35と、指標決定部36と、を含む。
【0018】
本装置1は、パーソナルコンピュータなどで実現される。本装置1では、本発明にかかる情報処理プログラム(以下「本プログラム」という。)が動作して、本プログラムが本装置1のハードウェア資源と共働して、後述する本発明にかかる情報処理方法(以下「本方法」という。)を実現する。
【0019】
なお、図示しないコンピュータに本プログラムを実行させることで、同コンピュータを本装置1と同様に機能させて、同コンピュータに本方法を実行させることができる。
【0020】
記憶部2は、見本データや入力データなど、本装置1が後述する本方法を実行するために必要な情報が記憶される手段である。
【0021】
見本データは、見本患者の検査情報と分類情報とを含む。
【0022】
検査情報は、検査項目ごとの検査結果を示す情報である。検査項目は、定性的なものや定量的なものがある。定性的な検査項目は、例えば、性別、リンパ管侵襲の有無、潰瘍の有無、などである。定量的な検査項目は、例えば、腫瘍数、腫瘍サイズ、ビリルビン値、アルブミン値、などである。本発明は、後述する検査項目ごとの区分を用いて、検査情報のすべてを離散データで統一する。すなわち、本発明におけるBayes識別則は、通常のBayes識別則とは異なり、離散データを取り扱うことができる。
【0023】
分類情報は、特定の事象が生起したか否かを示す情報である。
ここで、特定の事象は、「手術後1年以内に肝癌が再発した」ことをいう。すなわち、分類情報は、「手術後1年以内に肝癌が再発したか否かを示す情報」である。
【0024】
入力データは、対象患者の検査情報を含む。
【0025】
図2は、記憶部2に記憶される見本データの例を示す模式図である。
記憶部2には、複数の見本データが記憶される。各見本データは、見本識別子(見本ID)と関連付けて記憶される。すなわち、本装置1は、見本IDを用いて、見本IDに対応する見本データを、記憶部2から読み出すことができる。見本データに含まれる検査情報は、検査項目を特定する指標識別子(指標ID)と関連付けられて、記憶部2に記憶される。同図は、例えば、見本ID「D
1」の見本データにおいて、指標ID「X
1」の検査データは「V
11」、指標ID「X
2」の検査データは「V
21」であることを示す。
【0026】
図3は、分類情報の例を示す模式図である。
分類情報「ω
1」は、「手術後1年以内に肝癌が再発したことを示す情報」である。分類情報「ω
2」は、「手術後1年以内に肝癌が再発しなかったことを示す情報」である。同図は、例えば、見本ID「D
1」の見本患者の分類情報が「ω
2」、すなわち、同患者は手術後1年以内に肝癌を再発しなかった、ことを示す。各見本患者は、「手術後1年以内に肝癌が再発した」分類(以下「特定分類」という。)と、「手術後1年以内に肝癌が再発しなかった」分類(以下「非特定分類」という。)のいずれかの分類に属する。
【0027】
指標選択部3は、複数の検査項目の中から肝癌の予測に適した検査項目を選択する手段である。検査項目の選択方法については、後述する。
【0028】
分類判定部4は、対象患者の肝癌の再発を予測する手段である。肝癌の再発の予測方法については、後述する。
【0029】
見本データ抽出部31は、見本データのうち、一部の見本データを訓練データとして抽出し、他の一部の見本データを評価データとして抽出する手段である。
【0030】
事前確率算出部32は、特定分類が生起する確率(以下「第1事前確率」という。)と、非特定分類が生起する確率(以下「第2事前確率」という。)と、を算出する手段である。
【0031】
条件付確率算出部33は、第1条件付確率と第2条件付確率とを算出する手段である。
【0032】
第1条件付確率は、訓練データの指標情報と分類情報とを用いて、指標群に含まれる指標の区分ごとに算出される、特定分類が生起したときに指標情報が区分に該当する条件付確率である。指標情報と指標群とについては、後述する。
【0033】
第2条件付確率は、訓練データの指標情報と分類情報とを用いて、指標群に含まれる指標の区分ごとに算出される、非特定分類が生起したときに指標情報が区分に該当する条件付確率である。
【0034】
指標情報は、見本データ(訓練データ、評価データ)ごとの情報であって、見本データに含まれる検査情報が該当する「検査項目ごとの区分」を示す情報である。
【0035】
検査項目ごとの区分は、検査項目で取り得る値を複数に分割したときのそれぞれを特定する情報である。検査項目の区分は、その検査項目で取り得る値が互いに排反事象となるように分割する。すなわち、患者の検査データは、検査項目ごとにいずれかの区分に属する。検査項目が性別であれば、2つの区分「男性」「女性」に分割される。検査項目が腫瘍数であれば、例えば、3つの区分「2個未満」「2個以上7個未満」「7個以上」に分割される。
【0036】
指標群は、複数の検査項目の中から選択された1または複数の検査項目の組合せである。
【0037】
図4は、記憶部2に記憶される訓練データの指標情報の例を示す模式図である。
同図は、指標ID「X
1」の検査項目が2つの区分に分割されていて、各区分を特定する区分識別子(区分ID)が「X
1(1)」「X
1(2)」であることを示す。同図は、指標ID「X
2」の検査項目が3つの区分に分割されていて、各区分を特定する区分IDが「X
2(1)」「X
2(2)」「X
2(3)」であることを示す。同図は、見本ID「D
t1」の訓練データは、指標ID「X
1」の検査項目において区分ID「X
1(2)」の区分に属し、指標ID「X
2」の検査項目において区分ID「X
2(2)」の区分に属することを示す。
【0038】
検査項目ごとの区分を特定する情報、例えば、検査項目が性別における区分「男性」「女性」を特定する情報や、検査項目が腫瘍数における区分「3個未満」「3個以上7個未満」「7個以上」を特定する情報は、記憶部2に予め記憶されている。
【0039】
本装置1は、記憶部2に記憶されている検査項目ごとの区分を特定する情報を参照して、各訓練データの検査情報から訓練データの指標情報を生成して記憶部2に記憶する。
【0040】
図5は、記憶部2に記憶される検査項目ごとの区分に属する訓練データの数(訓練データに対応する見本患者(以下「訓練患者」という。)の人数)の例を示す模式図である。同図は、指標ごとの区分のそれぞれに属する訓練患者の人数が、分類ごとに記憶されていることを示す。
【0041】
同図は、分類ID「ω
1」の分類に属する訓練患者のうち、指標ID「X
1」の検査項目の区分ID「X
1(1)」の区分に属する訓練患者の人数は「n
11(1)」人、区分ID「X
1(2)」の区分に属する訓練患者の人数は「n
11(2)」人であることを示す。同図は、分類ID「ω
1」の分類に属する訓練患者のうち、指標ID「X
2」の検査項目の区分ID「X
2(1)」の区分に属する訓練患者の人数は「n
12(1)」人、区分ID「X
2(2)」の区分に属する訓練患者の人数は「n
12(2)」人、区分ID「X
2(3)」の区分に属する訓練患者の人数は「n
12(3)」人、であることを示す。
【0042】
ここで、分類ID「ω
1」の分類に属する検査項目ごとの訓練患者の人数は、検査項目に関わらず一定である。すなわち、以下の関係が成り立つ。
n
11(1)+n
11(2) = n
12(1)+n
12(2)+n
12(3)
【0043】
本装置1は、訓練データの指標情報と分類情報とを用いて、検査項目ごとの各区分に属する訓練患者の人数を、分類ごとに集計して記憶部2に記憶する。
【0044】
本装置1は、分類ごとに集計された、指標ごとの区分のそれぞれに属する訓練患者の人数を用いて、各検査項目の区分ごとの条件付確率(第1条件付確率と第2条件付確率)を算出する。
【0048】
一般に、検査項目に対する検査結果が複数の区分のいずれかに属するという事象が互いに独立であるとき、以下の式2が成り立つ。
【0050】
事象が2つの分類ω
1とω
2のいずれかに属するという2クラス問題において、事後確率P(ω
i|X)は、Bayesの定理により、式3となる。
【0052】
事前確率P(ω
i)が等確率の0.5とすると、式3に示した事後確率P(ω
i|X)は、式4となる。
【0054】
式4に式2を代入すると、事後確率P(ω
i|X)は式5で算出される。
【0056】
ここで、マーカーがX
1とX
2のとき、つまり、d=2のときに、訓練患者の検査データがX
1(1)とX
2(3)に属したとする。このとき、式6が成り立つ。
【0058】
よって、式5中のP(X
1(1),X
2(3)|ω
1)は、式7で算出される。
【0060】
同様にして、P(X
1(1),X
2(3)|ω
2)を算出した上で、式5により、分類ω
1とω
2の事後確率を算出する。算出された分類ごとの事後確率を比較して、事後確率が大きい分類に同患者を識別する。
【0061】
●情報処理方法●
次に、本装置1が実行する本方法の実施の形態について説明する。
【0062】
図6は、本方法の実施の形態を示すフローチャートである。
先ず、本装置1は、指標選択部3を用いて、複数の検査項目の中から、肝癌の再発の予測に適した検査項目を、選択指標として選択する(S1)。
次いで、本装置1は、分類判定部4を用いて、選択指標を用いて入力データの分類を判定、つまり、入力データに対応する対象患者の手術後1年以内の肝癌の再発の有無を予測する(S2)。
【0063】
●指標の選択
図7は、本装置1が指標選択部3を用いて実行する指標の選択処理(S1)の例を示すフローチャートである。
【0064】
先ず、本装置1は、見本データ抽出部31を用いて、記憶部2に記憶されている見本データを取得し(S11)、取得した見本データのうち、一部の見本データを訓練データとして抽出し、他の一部の見本データを評価データとして抽出する(S12)。本装置1は、例えば、取得した100件の見本データのうち、80件の見本データを訓練データとして抽出し、残り20件の見本データを評価データとして抽出する。本装置1は、見本データの内容(検査結果)を参照することなく、ランダムに見本データから訓練データと評価データとを抽出する。本装置1により抽出される訓練データと評価データの数や、訓練データと評価データの数の比率は、予め、記憶部2に記憶されていて、本装置1は、記憶部2に記憶されているこれらの数や比率に基づいて、見本データを抽出する。
【0065】
次いで、本装置1は、複数の検査項目のいずれかの組合せで構成される指標群を特定する(S13)。複数の検査項目が、例えば、X
1,X
2,X
3の3つのとき、本装置1により特定される指標群は、(X
1),(X
2),(X
3),(X
1,X
2),(X
1,X
3),(X
2,X
3),(X
1,X
2,X
3)の7つである。
【0066】
なお、本装置1により特定される指標群に含まれる指標の数が予め決められていて、この指標の数は本装置1が指標群を特定する際に参照できるように記憶部2に記憶されていてもよい。すなわち、例えば、指標群に含まれる指標の数が「2」であり、見本データに含まれる指標がX
1,X
2,X
3の3つのとき、本装置1は、指標群として(X
1,X
2)と(X
1,X
3)の2つを特定する。
【0067】
次いで、本装置1は、条件付確率算出部33を用いて、特定された指標群ごとに、指標群に含まれる検査項目の区分ごとの条件付確率(第1条件付確率と第2条件付確率)を、訓練データに基づいて式1により算出する(S14)。
【0068】
次いで、本装置1は、評価データごとに、事後確率算出部34を用いて、分類ごとの事後確率を、式5により算出する。
【0069】
なお、本実施の形態は、特定分類と非特定分類とが生起する確率は等確率(0.5)としているため、本装置1は、事前確率(第1事前確率と第2事前確率)を算出することなく、事後確率を式5で算出する。
【0070】
次いで、本装置1は、分類推定部35を用いて、評価データの分類を、算出された分類ごとの事後確率に基づいて推定して(S15)、推定の当否を判定する(S16)。
【0071】
本装置1は、例えば、算出された分類ごとの事後確率の大小を比較して、事後確率の大きい分類を評価データの分類として推定する。
【0072】
本装置1は、推定された分類と、記憶部2に見本データとして記憶されている評価データの分類情報と、を比較して、両者が一致するか否かで、評価データの分類の推定の当否を判定する。すなわち、両者が一致すれば評価データの分類の推定は妥当と判定され、両者が不一致であれば評価データの分類の推定は不当と判定される。
【0073】
図8は、特定された指標群に含まれる検査項目が「X
1,X
2,・・・」であり、見本ID「D
e1,D
e2,・・・」の各評価データが属する検査項目ごとの区分と、各評価データの分類情報と、本装置1が推定した各評価データの分類(推定情報)と、本装置1が判定した推定の当否の判定(判定情報)と、の関係を示す模式図である。
【0074】
同図は、見本ID「D
e1」の評価データの分類情報が分類ID「ω
1」の分類で、推定情報が分類ID「ω
1」の分類で、判定情報が妥当であることを示す「T」であることを示す。すなわち、本装置1は、見本ID「D
e1」の評価データに対応する患者が手術後1年以内に肝癌の再発があったことを言い当てている。
【0075】
一方、同図は、見本ID「D
e2」の評価データの分類情報が分類ID「ω
2」の分類で、推定情報が分類ID「ω
1」の分類で、判定情報が不当であることを示す「F」であることを示す。すなわち、本装置1は、見本ID「D
e2」の評価データに対応する患者が手術後1年以内に肝癌の再発が無かったことを言い当てていない。
【0076】
本装置1は、すべての指標群に対して、処理S14からS16を実行する(S17)。
【0077】
次いで、本装置1は、指標決定部36を用いて、指標群ごとの推定の当否の判定結果を比較して(S18)、選択指標を決定する(S19)。
【0078】
本装置1は、例えば、指標群ごとに評価データの判定情報を集計して、推定が妥当と判定された評価データの数が最大の指標群に含まれる検査項目を、選択指標として決定する。
【0079】
●入力データの分類判定
図9は、本装置1が分類判定部4を用いて実行する入力データの分類判定処理(S2)の例を示すフローチャートである。
【0080】
先ず、本装置1は、入力データの指標情報を取得する(S21)。入力データの指標情報は、前述の見本データの指標情報と同様に、入力データに含まれる検査情報が該当する「検査項目ごとの区分」を示す情報である。本装置1は、入力データと、選択指標に対応する検査項目ごとの区分を特定する情報と、を記憶部2から読み出す。本装置1は、選択指標に対応する検査項目ごとに、入力データの検査情報が該当する区分を特定して、入力データの指標情報を取得する。
【0081】
次いで、本装置1は、見本データを用いて決定された選択指標に含まれる指標の区分ごとの条件付確率(処理S14と同様に算出)を用いて、入力データの分類ごとの事後確率を、式5により算出する(S22)。
【0082】
次いで、本装置1は、算出された分類ごとの事後確率を比較する(S23)。
【0083】
次いで、本装置1は、入力データの分類を特定、すなわち、入力データの分類を特定分類または非特定分類のいずれかに識別する(S24)。
【0084】
本装置1は、例えば、分類ごとの事後確率の大小を比較して、最大の事後確率に対応する分類を、入力データの分類として識別する。
【0085】
特定された入力データの分類は、入力データと関連付けて記憶部2に記憶される。特定された入力データの分類は、本装置1のディスプレイ(不図示)などに、例えば、「患者○○さんは、手術後1年以内に肝癌を再発する可能性は低い」などと表示して出力される。
【0086】
図10は、本装置1が決定した選択指標が表示された画面の例を示す模式図である。同図は、検査項目X
1、X
2、・・・、X
nの中から選択指標として選択された検査項目がX
1とX
2であることを示す。
【0087】
図11は、本装置1が決定した選択指標が表示された別の画面の例を示す模式図である。同図は、検査項目Y
1、Y
2、Y
3、・・・、Y
nの中から選択された検査項目の組合せと、同組合せの事後確率とが、事後確率の降順に表示されていることを示す。本装置1は、例えば、本装置1の使用者にこの画面を閲覧させることで、検査項目の組合せの違いを事後確率の大小で確認させることができる。
【0088】
図12は、本装置1が決定した選択指標が表示されたさらに別の画面の例を示す模式図である。同図は、検査項目Z
1とZ
2の検査を受けているある患者が、検査項目Z
3の検査を受けることで、ある疾患の再発の予測精度が高まることを示す。本装置1は、例えば、
図11に示したような検査項目の組合せと事後確率との対応関係と、ある患者の検査済の検査項目の組合せよりも事後確率が大きい検査項目の組合せを特定して、特定された検査項目の組合せに含まれる検査項目のうち患者の検査済の検査項目以外の検査項目を抽出することができる。
【0089】
●まとめ●
以上説明した実施の形態によれば、肝癌の再発の予測に用いる検査項目の適否を、事後確率という数値で比較することができる。その結果、本発明によれば、数値に基づいて論理的に肝癌の再発の予測を支援することができる。
【0090】
なお、以上説明した実施の形態は、特定分類と非特定分類の2つの分類を対象とするものであったが、本発明は3つ以上の分類へも適用可能である。
【0091】
分類ω
1,ω
2,・・・,ω
m(m≧3)のそれぞれが生起する事象が互いに排反事象で、かつ、それらの和集合が全集合であるとき、入力データは、m個の分類のうちのいずれか一の分類に属する。このとき、マーカーX
t1(rt1),X
t2(rt2),・・・,X
td(rtd)が用いられると、本装置は、分類ごとの条件付確率P(X
t1(rt1),X
t2(rt2),・・・,X
td(rtd)|ω
i)(i=1,2,・・・,m)を算出した上で、事後確率P(ω
i|X
t1(rt1),X
t2(rt2),・・・,X
td(rtd))を式8により算出する。
【0093】
入力データX=[X
t1(rt1),X
t2(rt2),・・・,X
td(rtd)]の事後確率P(ω
i|X
t1(rt1),X
t2(rt2),・・・,X
td(rtd))において、式9が成立するとき、本装置は、入力データXの分類を、分類ω
kと判定する。
【0095】
以下、これまで説明した本装置の特徴を、まとめて記載しておく。
【0096】
(特徴1)
入力データが、複数の分類の中の特定分類に属するか否かを、複数の指標の中から選択された選択指標に基づいて判定する情報処理装置であって、
前記複数の指標のそれぞれは、複数の区分を含み、
前記複数の指標の中から前記選択指標を選択する指標選択部と、
前記入力データが該当する前記選択指標に含まれる指標ごとの区分に基づいて、前記入力データが前記特定分類に属するか否かを決定する分類判定部と、
を有してなり、
前記選択指標の選択に用いられる複数の見本データごとの、前記見本データが該当する前記複数の指標ごとの区分を示す指標情報と、前記見本データが前記特定分類に属するか否かを示す分類情報と、が記憶される記憶部、
を備え、
前記指標選択部は、
(a)前記複数の見本データのうち、一部の見本データを訓練データとして抽出し、他の一部の見本データを評価データとして抽出する、見本データ抽出部と、
(b)前記複数の指標のいずれかの組合せで構成される指標群ごとに、
前記訓練データの前記指標情報と、前記訓練データの前記分類情報と、前記評価データの前記指標情報と、を用いて、前記評価データが前記特定分類に属するか否かを推定し、
前記評価データの前記分類情報を用いて、前記推定の当否を判定する、
分類推定部と、
(c)前記指標群ごとの前記推定の当否の判定結果に基づいて、前記選択指標を決定する、指標決定部と、
を備える、
ことを特徴とする情報処理装置。
(特徴2)
前記分類推定部は、
(b−1)前記訓練データの前記指標情報と前記訓練データの前記分類情報とを用いて、前記特定分類が生起したときの前記指標群に含まれる指標の区分ごとの第1条件付確率と、前記非特定分類が生起したときの前記指標群に含まれる指標の区分ごとの第2条件付確率と、を算出し、
(b−2)前記評価データの前記指標情報と、前記複数の分類のうち前記特定分類が生起する第1事前確率と、前記第1条件付確率と、に基づいて、前記評価データが前記特定分類に属する第1事後確率を算出し、
(b−3)前記評価データの前記指標情報と、前記複数の分類のうち前記特定分類ではない非特定分類が生起する第2事前確率と、前記第2条件付確率と、に基づいて、前記評価データが前記非特定分類に属する第2事後確率を算出し、
(b−4)前記第1事後確率と前記第2事後確率とを比較して、前記評価データが前記特定分類に属するか否かの推定の結果を示す推定情報を出力し、
(b−5)前記評価データの前記推定情報と前記評価データの前記分類情報とを比較して、前記推定の当否の判定結果を示す判定情報を出力し、
前記指標決定部は、
(c−1)前記指標群ごとの前記判定情報のうち、所定の条件を満たす判定情報に対応する指標群を特定し、
(c−2)前記特定された指標群に含まれる指標を前記選択指標として決定する、
特徴1記載の情報処理装置。
(特徴3)
前記分類推定部は、前記第1事前確率と、前記第2事前確率と、を算出する、
特徴2記載の情報処理装置。
(特徴4)
前記見本データ抽出部は、前記複数の見本データの中から複数の前記評価データを抽出し、
前記分類推定部は、前記複数の評価データごとに、前記判定情報を出力し、
前記指標決定部は、前記複数の評価データごとの前記判定情報に基づいて、前記選択指標を決定する、
特徴2または3記載の情報処理装置。
(特徴5)
前記分類推定部は、
前記複数の評価データごとに、前記第1条件付確率と前記第2条件付確率と前記第1事後確率と前記第2事後確率とを算出して、前記推定情報を出力し、
前記複数の評価データごとの前記推定情報に基づいて、前記複数の評価データごとの前記判定情報を出力する、
特徴4記載の情報処理装置。
(特徴6)
前記第1事前確率は、前記第2事前確率と等しい、
特徴2乃至5のいずれかに記載の情報処理装置。
【解決手段】入力データが、複数の分類の中の特定分類に属するか否かを、複数の指標の中から選択された選択指標に基づいて判定する情報処理装置(1)であって、複数の指標のそれぞれは、複数の区分を含み、複数の指標の中から選択指標を選択する指標選択部(3)と、入力データが該当する選択指標に含まれる指標ごとの区分に基づいて、入力データが特定分類に属するか否かを決定する分類判定部(4)と、を有してなり、選択指標の選択に用いられる複数の見本データごとの、見本データが該当する複数の指標ごとの区分を示す指標情報と、見本データが特定分類に属するか否かを示す分類情報と、が記憶される記憶部(2)、を備える、ことを特徴とする。