【解決手段】被検体から採取された試験試料を用いて測定されたか、又は被検体から得られた所定の指標パラメータに基づく第1データを、所定の第2データに基づいて構築された学習モデルで処理して、主要有害心イベントの再発リスクを予測する。
被検体から採取された試験試料を用いて測定されたか、又は被検体から得られた指標パラメータであって、C反応性タンパク質量、Dダイマー量、HDL−コレステロール量、LDL−コレステロール量、プロトロンビン時間(国際標準比(INR))、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン/フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素(LDH)量、尿酸量、pH、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術(PCI)を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく(定性)、尿糖(定性)、入院理由及び入院時現症からなる群より選択頻度に基づいて選択される2種以上の指標パラメータに基づく第1データを取得するステップと、
前記第1データを、第2データに基づいて構築された学習モデルで処理して、再発リスクを予測するステップと
を含む、所定期間内における主要有害心イベントの再発リスクの予測方法。
前記第2データは所定期間内の主要有害心イベントの再発歴を指標パラメータとして含むデータであり、かつ前記第2データは、C反応性タンパク質量、Dダイマー量、HDL−コレステロール量、LDL−コレステロール量、プロトロンビン時間(国際標準比(INR))、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン/フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素(LDH)量、尿酸量、pH、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術(PCI)を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく(定性)、尿糖(定性)、入院理由及び入院時現症からなる群よりさらに選択される1種以上の指標パラメータに基づくデータである、請求項1に記載の所定期間内における主要有害心イベントの再発リスクの予測方法。
前記第1データ及び前記第2データが、心筋マーカーに由来する指標パラメータをさらに含む群から選択される指標パラメータに基づくデータである、請求項1又は2に記載の所定期間内における主要有害心イベントの再発リスクの予測方法。
前記心筋マーカーが、クレアチンキナーゼMB、ヒト心臓型脂肪酸結合タンパク質、心筋トロポニンI、心筋トロポニンT、脳性ナトリウム利尿ペプチド、プロ脳性ナトリウム利尿ペプチド又はその切断産物、ミエロペルオキシダーゼ、胎盤増殖因子、推算糸球体濾過量、ホモシステイン、虚血修飾アルブミン、可溶性CD40リガンド、リポタンパク質関連ホスホリパーゼA2、コリン、及び高感度C反応性タンパク質からなる群から選択される1種以上である、請求項3に記載の所定期間内における主要有害心イベントの再発リスクの予測方法。
前記主要有害心イベントが、急性心筋梗塞、冠血行再建術が施術された狭心症、入院を要した心不全、心房細動、脳卒中、又は循環器を理由とする死亡である、請求項1〜5のいずれか1項に記載の所定期間内における主要有害心イベントの再発リスクの予測方法。
前記学習モデルが、前記第2データを複数のデータ群に分割し、該データ群それぞれを教師データとして用い、かつ複数の該データ群ごとに異なる複数のパラメータ条件で行われる機械学習により構築される、主要有害心イベントの再発があるか又は不明であるかを予測する複数の第1学習モデル、及び主要有害心イベントの再発がないか又は不明であるかを予測する複数の第2学習モデルであり、
前記主要有害心イベントの再発リスクを予測するステップが、前記第1データを、前記第1学習モデル及び前記第2学習モデルにより処理して、再発リスクを予測するステップである、請求項1〜6のいずれか1項に記載の所定期間内における主要有害心イベントの再発リスクの予測方法。
前記学習モデルが、複数の前記第1学習モデル及び複数の前記第2学習モデルごとに、感度及び陽性的中率に基づいて選抜された複数の第1選抜学習モデル、及び複数の第2選抜学習モデルであり、
前記主要有害心イベントの再発リスクを予測するステップが、前記第1データを、前記第1選抜学習モデル及び前記第2選抜学習モデルにより処理して、再発リスクを予測するステップである、請求項7に記載の所定期間内における主要有害心イベントの再発リスクの予測方法。
前記主要有害心イベントの再発リスクを予測するステップが、前記第1データを、前記第1選抜学習モデル及び前記第2選抜学習モデルにより処理し、前記第1選抜学習モデル及び前記第2選抜学習モデルごとに第1判定結果を取得し、該第1判定結果について投票を行い、前記第1選抜学習モデル及び前記第2選抜学習モデルごとに得票率に基づく第2判定結果を取得し、前記第1選抜学習モデルの第2判定結果及び前記第2選抜学習モデルの前記第2判定結果を統合して、第3判定結果を取得し、該第3判定結果に基づいて、主要有害心イベントの再発リスクを予測するステップである、請求項8に記載の所定期間内における主要有害心イベントの再発リスクの予測方法。
前記学習モデルが、前記第2データを複数のデータ群に分割し、該データ群それぞれを教師データとして用い、かつ複数の該データ群ごとに異なる複数のパラメータ条件で行われる機械学習により構築される、主要有害心イベントの再発があるか又は不明であるかを予測する複数の第1学習モデル、及び主要有害心イベントの再発がないか又は不明であるかを予測する複数の第2学習モデルであり、
前記主要有害心イベントの再発リスクを予測するステップが、前記演算部が、前記第1データを、前記第1学習モデル及び前記第2学習モデルにより処理して、所定期間内における主要有害心イベントの再発リスクを予測するステップである、請求項10に記載のプログラム。
前記学習モデルが、複数の前記第1学習モデル及び複数の前記第2学習モデルごとに、感度及び陽性的中率に基づいて選抜された複数の第1選抜学習モデル、及び複数の第2選抜学習モデルであり、
前記主要有害心イベントの再発リスクを予測するステップが、前記演算部が、前記第1データを、前記第1選抜学習モデル及び前記第2選抜学習モデルにより処理して、所定期間内における主要有害心イベントの再発リスクを予測するステップである、請求項11に記載のプログラム。
前記主要有害心イベントの再発リスクを予測するステップが、前記演算部が、前記第1データを、前記第1選抜学習モデル及び前記第2選抜学習モデルにより処理し、前記第1選抜学習モデル及び前記第2選抜学習モデルごとに第1判定結果を取得し、該第1判定結果について投票を行い、前記第1選抜学習モデル及び前記第2選抜学習モデルごとに得票率に基づく第2判定結果を取得し、前記第1選抜学習モデルの第2判定結果及び前記第2選抜学習モデルの前記第2判定結果を統合して、第3判定結果を取得し、該第3判定結果に基づいて、所定期間内における主要有害心イベントの再発リスクを予測するステップである、請求項12に記載のプログラム。
被検体から採取された試験試料を用いて測定されたか、又は被検体から得られた指標パラメータであって、C反応性タンパク質量、Dダイマー量、HDL−コレステロール量、LDL−コレステロール量、プロトロンビン時間(国際標準比(INR))、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン/フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素(LDH)量、尿酸量、pH、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術(PCI)を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく(定性)、尿糖(定性)、入院理由及び入院時現症からなる群より選択頻度に基づいて選択される2種以上の指標パラメータに基づく第1データを生成して取得する第1データ生成取得部と、
第1データ生成取得部が取得した前記第1データを、第2データに基づいて構築された学習モデルで処理して、所定期間内における主要有害心イベントの再発リスクを予測する予測部と
を備える、所定期間内における主要有害心イベントの再発リスクの予測装置。
【発明を実施するための形態】
【0011】
以下、図面を参照して、本発明の実施形態について説明する。なお、各図面は、発明が理解できる程度に、構成要素の形状、大きさ及び配置を概略的に示しているに過ぎない。本発明は以下の記述によって限定されるものではなく、各構成要素は本発明の要旨を逸脱しない範囲において適宜変更可能である。以下の説明に用いる図面において、同様の構成要素については同一の符号を付して示し、重複する説明については省略する場合がある。また、本発明の実施形態にかかる構成要素は、必ずしも図面に示される配置で、製造され、あるいは使用されるとは限らない。
【0012】
本発明は、所定期間内における主要有害心イベントの再発リスクの予測方法に関する。かかる予測方法は、被検体から採取された試験試料を用いて測定されたか、又は被検体から得られた指標パラメータであって、C反応性タンパク質量、Dダイマー量、HDL−コレステロール量、LDL−コレステロール量、プロトロンビン時間(国際標準比(INR))、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン/フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素(LDH)量、尿酸量、pH、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術(PCI)を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく(定性)、尿糖(定性)、入院理由及び入院時現症からなる群より選択される2以上の指標パラメータに基づく第1データを取得するステップと、前記第1データを、複数の第2データを含むデータ群に基づいて構築された学習モデルで処理して、再発リスクを予測するステップとを含む。
【0013】
〔用語の説明〕
本明細書において「主要有害心イベント」とは、急性心筋梗塞、冠血行再建術が施術された狭心症、入院を要した心不全、心房細動、脳卒中(一過性脳虚血発作(TIA)を除く。)、又は循環器を理由とする死亡を意味している。
【0014】
本明細書において「再発リスクの予測」とは、主要有害心イベントの発症後所定期間(例えば、3ヵ月、6ヵ月、1年、1年6ヵ月、2年、3年あるいはより長期)内のさらなる主要有害心イベントの再発の有無(あるいは不明)、又は可能性の高低(あるいは不明)を予測することを意味している。
【0015】
本明細書において「被検体」とは、再発リスクの予測対象である生体を意味しており、具体的には例えば患者が挙げられる。
【0016】
本明細書において「試験試料」とは、後述する指標パラメータを得ることができる任意の試料を意味している。このような試験試料としては、例えば、液体試料(例、血液(全血)または血液由来試料(例、血清、血漿)、尿、唾液、腹水、組織抽出液、細胞抽出液)、非液体試料(例、組織サンプル、細胞サンプル)が挙げられるが、液体試料が好ましく、血液または血液由来試料がより好ましく、血液がより好ましい。試験試料は、測定前に、事前に処理されてもよい。このような処理としては、例えば、遠心分離、抽出、濃縮、分画、細胞固定、組織固定、組織凍結、組織薄片化が挙げられる。
【0017】
本明細書において「指標パラメータ」とは、上記の試験試料について実施された種々の検査結果、例えば生化学検査、血糖検査、血液一般検査、凝固検査などのいわゆる血液検査の結果(所定の成分の含有量、数量、特性など)に加え、その他の生体情報などに基づくパラメータを意味する。
【0018】
「指標パラメータ」の例としては、C反応性タンパク質(CRP)、Dダイマー、HDL−コレステロール(HDL−C)、LDL−コレステロール(LDL−C)、プロトロンビン時間(国際標準比(INR))(PT−INR)、γ−グルタミルトランスペプチターゼ(γ−GTP)、アスパラギン酸アミノトランスフェラーゼ(AST(GOT))、アミラーゼ(AMY)、アラニンアミノトランスフェラーゼ(ALT(GPT))、アルカリホスファターゼ(ALP)、アルブミン(ALB)、アンチトロンビン(AT)、グリコヘモグロビン(HbA1c)、クロール(Cl)、トリグリセリド(TG)、フィブリノゲン(Fbg)、フィブリン/フィブリノゲン分解産物(FDP)、活性化部分トロンボプラスチン時間(APTT)、血清クレアチニン(CRE)、血中尿素窒素(BUN)、血糖(Glu)、総コレステロール(CHO)、総ビルビリン(T・Bil)、単球数(Mono)、直接ビリルビン(D・Bil)、乳酸脱水素酵素(LD(LDH))、尿たんぱく(定性)(UP)、尿酸(UA)、尿糖(定性)(US)、pH、カリウム(K)、カルシウム(Ca)、ナトリウム(Na)、赤血球数(RBC)、ヘマトクリット値(Ht)、ヘモグロビン(Hb)、リンパ球数(Lymp)、血小板数(PL)、好塩基球数(Baso)、好酸球数(Eos)、及び好中球数(Neut)が挙げられる。試験試料におけるこれらの測定値の情報は、常法により得ることができる。
【0019】
また「指標パラメータ」の例としては、所定期間内における主要有害心イベントの再発歴、性別、入院理由、入院時現症、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術(PCI)を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数などの生体情報(属性、定性データ)について2値化あるいは数値化したパラメータがさらに挙げられる。これらのうち、「入院理由」については、例えば、患者(被検体)が入院する際の医師の診断及び処置に基づいて決定することができる。
【0020】
具体的には、例えば、被検体が急性心筋梗塞(AMI)と診断され入院した患者である場合には指標パラメータは1とすればよく、被検体が冠血行再建術が施術された狭心症を理由として入院した患者である場合には指標パラメータは2とすればよく、被検体が心不全(HF)と診断され入院した患者である場合には指標パラメータは3とすればよく、被検体が(心筋焼灼術(アブレーション処置)を要した)心房細動を理由として入院した患者である場合には指標パラメータは4とすればよく、被検体が脳梗塞(CI)と診断され入院した患者である場合には指標パラメータは5とすればよく、被検体が一過性脳虚血発作(TIA)と診断され入院した患者である場合には指標パラメータは6とすればよい。
【0021】
また、「入院時現症」については、例えば、心電図波形に基づく病理学的所見により、「心房細動なし」(洞調律:正常)の場合は指標パラメータは0とされ、心房細動ありの場合は指標パラメータは1とされる。
【0022】
本明細書において「心筋マーカー」とは、試験試料について実施された検査の結果のうち、特に心臓(心筋)に関する指標を意味する。「心筋マーカー」の例としては、クレアチンキナーゼMB(CKMB)、ヒト心臓型脂肪酸結合タンパク質、心筋トロポニンI、心筋トロポニンT、脳性ナトリウム利尿ペプチド(BNP)、プロ脳性ナトリウム利尿ペプチド又はその切断産物、ミエロペルオキシダーゼ、胎盤増殖因子、推算糸球体濾過量、ホモシステイン、虚血修飾アルブミン、可溶性CD40リガンド、リポタンパク質関連ホスホリパーゼA2、コリン、及び高感度C反応性タンパク質が挙げられる。
【0023】
〔所定期間内における主要有害心イベントの再発リスクの予測方法〕
以下、本実施形態の主要有害心イベントの再発リスクの予測方法が含むステップそれぞれについて具体的に説明する。なお、本実施形態においては、特に断りがない限り「ステップ」はコンピュータによって実行される(詳細は後述する。)。
【0024】
図1を参照して、本実施形態の所定期間内における主要有害心イベントの再発リスクの予測方法について説明する。
図1は、予測方法を示すフローチャートである。
【0025】
(1)被検体から採取された試験試料を用いて測定されたか、又は被検体から得られた指標パラメータであって、C反応性タンパク質量、Dダイマー量、HDL−コレステロール量、LDL−コレステロール量、プロトロンビン時間(国際標準比(INR))、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン/フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素(LDH)量、尿酸量、pH、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術(PCI)を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく(定性)、尿糖(定性)、入院理由及び入院時現症からなる群より選択される2種以上の指標パラメータに基づく第1データを取得するステップ(S1)
図1に示されるように、本実施形態の所定期間内における主要有害心イベントの再発リスクの予測方法は、前記ステップ(S1)を含んでいる。
【0026】
以下、ステップ(S1)について、
図2を参照して具体的に説明する。
図2は、ステップ(S1)を説明するためのフローチャートである。
【0027】
なお、ステップ(S1)に先だって、後述する学習モデルを構築しておくことが好ましい。
【0028】
図2に示されるように、ステップ(S1)においては、まず、試験試料を採取するステップ(S1−1)が行われる。ステップ(S1−1)における試験試料の選択、試験試料の採取の方法は、指標パラメータを取得することができることを条件として特に限定されない。
【0029】
例えば、試験試料が特に血液にかかる試料である場合には、通常の採血方法により試験試料を得ることができる。
【0030】
本実施形態では、指標パラメータとして、被験体から採取された試験試料に基づく検査結果及び/又は生体情報が用いられる。
【0031】
本実施形態の所定期間内における主要有害心イベントの再発リスクの予測方法においては、簡便性を向上させ、負荷をより低減することができるので、心筋マーカーに非由来の指標パラメータを用いることが好ましい。
【0032】
よって、本実施形態では、次に、得られた試験試料を用いて測定された心筋マーカーに非由来の指標パラメータに基づく第1データを取得するステップ(S1−2)を行うことが好ましい。
【0033】
このステップ(S1−2)は、得られた試験試料について、従来公知の任意好適な検査手段(測定手段)及び検査方法(測定方法)を用いて分析(測定)することにより行うことができる。
【0034】
本実施形態に適用することができる心筋マーカーに非由来の指標パラメータの例としては、C反応性タンパク質量、Dダイマー量、HDL−コレステロール量、LDL−コレステロール量、プロトロンビン時間(国際標準比(INR))、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン/フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素(LDH)量、尿酸量、pH、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、及び好中球数が挙げられる。
【0035】
第1データの形式については、本発明の予測方法(後述するステップ(S2))に適用できることを条件として特に限定されない。
【0036】
また、第1データを取得するステップ(S1−2)において、既に説明した「心筋マーカーに非由来の指標パラメータの群」にさらに加えて用いられる、心筋マーカーに非由来の指標パラメータの例としては、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術(PCI)を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく(定性)、及び尿糖(定性)などの被検体から得られた生体情報が挙げられる。
【0037】
また、既に説明した心筋マーカーに非由来の指標パラメータの群にさらに加えて用いられる、心筋マーカーに非由来の指標パラメータの例としては、入院理由及び入院時現症などの被検体から得られた生体情報が挙げられる。
【0038】
本実施形態において、第1データ(及び後述する第2データ)は、既に説明した心筋マーカーに非由来の指標パラメータの群にさらに加えて、既に説明した心筋マーカーに由来する指標パラメータをさらに含む群から選択される指標パラメータに基づくデータとしてもよい。
【0039】
このように心筋マーカーに由来する指標パラメータをさらに用いれば、例えば、主要有害心イベントの発症後「3ヵ月以内」といった比較的短期間における再発リスクの予測精度をより向上させることができる。
【0040】
第1データ(及び後述する第2データ)は、既に説明した心筋マーカーに非由来の指標パラメータの群にさらに加えて、心電図に由来する指標パラメータをさらに含む群から選択される指標パラメータに基づくデータとすることができる。
【0041】
このような心電図に由来する指標パラメータの例としては、P波の高さ、R波の間隔(RR間隔)、PQ時間、R波の高さ、QRS幅、ST部分の変化量(S波の高さとT波の高さの総和)、T波の高さ、及び心電図をフーリエ変換して得られるパワースペクトルが挙げられる。
【0042】
このように心電図に由来する指標パラメータをさらに用いれば、指標パラメータの数をさらに増やすことができるので、主要有害心イベントの再発リスクの予測精度をより向上させることができるという効果を得ることができる。
【0043】
第1データは、既に説明した複数の指標パラメータの群から選択される2種以上の指標パラメータに基づいて生成することができる。かかる指標パラメータは、後述する選択頻度に基づいて選択することが好ましい。
【0044】
本実施形態の所定期間内における主要有害心イベントの再発リスクの予測方法において、用いられ得る指標パラメータの数は、予測に要する時間などを勘案して任意好適な数とすることができる。用いられ得る指標パラメータの数は、例えば選択頻度がより高い指標パラメータを予測精度を勘案して適宜選択することにより決定することができる。
【0045】
本実施形態の所定期間内における主要有害心イベントの再発リスクの予測方法において、第1データ(及び後述する第2データ)は、既に説明した指標パラメータのうち、2種以上の指標パラメータが用いられる。しかしながら、用いられ得る指標パラメータの数は特に限定されない。指標パラメータとしては、例えば、2種のみならず、5種以上、10種以上、15種以上、20種以上、25種以上、30種以上、35種以上、40種以上、45種以上又は既に説明したすべてを用い得る。
【0046】
2種以上の指標パラメータが用いられる場合、かかる2種以上の指標パラメータの組み合わせは、相関ルール分析、クラスタリングなどの処理によって適切な組み合わせを選択することができる。
【0047】
(2)第1データを、第2データに基づいて構築された学習モデルで処理して、再発リスクを予測するステップ(S2)
図1に示されるように、本実施形態の所定期間内における主要有害心イベントの予測方法は、上記ステップ(S2)を含んでいる。
【0048】
ここで、まず、
図3を参照して、ステップ(S2)に用いられる学習モデルを構築するステップ(S0)について説明する。
図3は、ステップ(S0)を説明するためのフローチャートである。
【0049】
なお、この学習モデルを構築するステップ(S0)は、既に説明したステップ(S1)に先行して行うこともできる。
【0050】
図3に示されるように、まず、複数のビットストリングを含む第2データを準備するステップ(S0−1)が行われる。
【0051】
具体的には、既に説明した「心筋マーカーに非由来の複数の指標パラメータからなる群」に加えられた群から選択頻度に基づいて選択された2種以上の指標パラメータに基づくビットストリングである第2データを生成して、準備する。
【0052】
第2データは、学習モデルを構築するための教師データである。ここで第2データ及びその生成について説明する。
【0053】
まず、予め収集された症例データ群を準備する。本実施形態の症例データ群は、主要有害心イベントを発症した患者にかかる複数の指標パラメータについての数値データを含む症例データを収集することにより構成されたデータ群であって第1データに対応している。
【0054】
症例データ群は、入院から1年以上の所定期間内における主要有害心イベントの再発の有無が判明している複数の症例データ、すなわち所定期間内に主要有害心イベントを再発した「再発あり」と分類される「再発あり」症例データ及び所定期間内に主要有害心イベントを再発しなかった「再発なし」と分類される「再発なし」症例データを含む。
【0055】
よって、症例データ群は、複数の「再発あり」症例データからなる「再発あり」症例データ群と、複数の「再発なし」症例データからなる「再発なし」症例データ群とから構成される。
【0056】
次に、症例データ群、すなわち、主要有害心イベントの「再発あり」症例データ群及び「再発なし」症例データ群それぞれを、(i)学習モデル構築用の症例データ群と(ii)評価用の症例データ群とに分割する。これらのうち、分割された「学習モデル構築用の症例データ」を用いて第2データを生成させる。
【0057】
ここで「学習モデル構築用の症例データ群」に含まれる「再発あり」症例データの数と「再発なし」症例データの数とが同等ではなく偏りがある場合には、学習モデルの構築にあたり学習バイアスが生じてしまうおそれがある。
【0058】
よって、このように偏りがある場合には「再発あり」症例データの数と「再発なし」症例データの数とを同程度に揃える均等化処理を行って、学習モデル構築用の「均等化済み症例データ群」を調製する。具体的には、例えば「再発あり」症例データの数が「再発なし」症例データの数よりも少ない場合には、「再発あり」症例データの数と同一数の「再発なし」症例データを抽出して双方の数を揃える均等化処理を行うことが好ましい。
【0059】
次に、均等化済み症例データ群を、さらに複数の群に分割する。分割された群それぞれに含まれる症例データの数は同程度であればよく、同一とすることが好ましい。分割後の群の総数は特に限定されないが、例えば4程度とすることが好ましい。
【0060】
次いで、分割された複数の均等化済み症例データ群のうちの一部を用いて「部分データ」を生成する。例えば4つの均等化済み症例データ群に分割された場合には、そのうちの3つの群(75%)を用いて「部分データ」を生成させればよい。なお、この場合、残りの1つの群(25%)は、「評価用データ」とされる。
【0061】
そして、この生成した複数の部分データ及び部分データの生成に用いられた元データである完全データ(症例データ)を含むデータ群である第2データを用いて、学習モデルが構築される(詳細は後述する。)。
【0062】
ここで、
図4を参照して、第2データにかかる指標パラメータの例を説明する。
図4は、第2データにかかる指標パラメータの例を示す表である。
図4には、指標パラメータ名及び指標パラメータに加えて、指標パラメータの定義及び単位、並びに指標パラメータの種類が示されている。また、指標パラメータにはID番号として通し番号(1〜24)が付されている。
【0063】
第2データについては「主要有害心イベントの発症後所定期間内に主要有害心イベントを再発したか、又は再発しなかったか(所定期間内における主要有害心イベントの再発歴)についての指標パラメータ」の選択は必須である。なお、第1データにおいては、かかる指標パラメータはそもそも存在し得ないため選択されない。
【0064】
第2データにかかる指標パラメータの群は、「主要有害心イベントの発症後所定期間内に主要有害心イベントを再発したか、又は再発しなかったかについての指標パラメータ」が含まれることを除き、既に説明した第1データにかかる指標パラメータの群と同一とすることができる。
【0065】
第2データにおける指標パラメータの選択において、第1データと同一の指標パラメータからなる群から選択される指標パラメータは、選択頻度に基づいて選択することが好ましい(詳細については後述する。)。
【0066】
図5及び
図6を参照して、第2データについて説明する。
図5は、部分データを生成するための完全データの構成を説明する模式的な図である。
図6は、部分データである第2データの模式的な図である。
【0067】
図5及び
図6に示されるように完全データ及びかかる完全データから生成される部分データを含む第2データは、機械学習時に使用される指標パラメータの選択及び症例データの選択をビット列(ビットストリング)として表現しているデータである。
図5に示される例では、部分データを生成するための完全データにおいては、10種の指標パラメータ及び10症例の症例データを用いている。
【0068】
ここで「症例データ」とは、選択された指標パラメータに対応する症例(患者)を特定するためのデータ(パラメータ)である。なお、単一の患者についての複数の症例が、別個の症例データとして存在する場合もありうる。
【0069】
図5及び
図6に示されるように、完全データ及びその部分データを含む第2データにかかるビットストリングは、指標パラメータの選択又は非選択が記述される第1部分BSP1と症例データの選択又は非選択が記述される第2部分BSP2とにより構成される。この例では第1部分BSP1の後に連続的に第2部分BSP2が記述されて構成されている。なお、この例では第1部分BSP1に10種の指標パラメータ(ID:1〜10)が記述され、第2部分BSP2には用いられる10症例の症例データ(ID:PT1〜PT10)が記述されている。
【0070】
すなわち、
図5及び
図6において、最上段の数列はID番号を示しており、それより下段の数値は指標パラメータの選択又は非選択、並びに症例データの選択又は非選択を表している。
【0071】
なお、
図5に示されるビットストリングは、10種の指標パラメータ及び10症例の症例データをすべて用いた例を示す完全データであるので、ビットストリングを構成する数値はすべてが「1」で構成されている。ここで、仮に
図4に示される指標パラメータと関連づけて考えると、かかるビットストリングは、具体的には(ID:1〜10)にかかる指標パラメータが対照されて用いられることを意味している。
【0072】
図4に示されるように、得られた検査結果及び/又は生体情報が、例えば所定の成分の含有量、年齢、身長といった定量データ(数値データ)として取得される場合には、そのまま指標パラメータとして用いることができる。
【0073】
また、かかる定量データ(数値データ)は、例えば、年齢(高齢者、中高年、青年、少年、幼齢)を勘案して、順序尺度、間隔尺度、比例尺度などに変換して指標パラメータとして用いることができる。
【0074】
また、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴などの生体情報にかかる属性データ、陽性(レベル)、陰性などの定性データについては、例えば「あり=1、なし=0」と2値化するなどして指標パラメータとして用いることができる。
【0075】
次に、完全データ、及び完全データに基づく部分データを含む第2データの生成について説明する。具体的には、完全データに含まれる複数の指標パラメータ(データ群の列)、及び症例データ(データ群の行)について取捨選択を行い、もとの完全データとは異なる複数の部分データを生成することにより、完全データ、及び完全データに基づく複数の部分データを含むデータ群である第2データを準備する。
【0076】
上述のとおり、第2データには、対応する学習モデルの予測性能が十分であることを条件として、複数の部分データに加えて、すべての指標パラメータ及びすべての症例データを含む完全データが含まれていてもよい。
【0077】
ここで、
図6を参照して、部分データ及び部分データの生成について説明する。
ここでは、
図5を参照して既に説明した第2データを構成し得る完全データ(ビットストリング)に基づく部分データ(ビットストリング)及びその生成ステップについて説明する。
【0078】
図6に示されるように、この例では10種の指標パラメータのうち6種(ID=1、3、4、6、7及び9)が選択され、4種(ID=2、5、8及び10)が非選択とされるとともに、10症例の症例データのうち4症例(ID=PT1、PT4、PT7及びPT10)が選択され、6症例(ID=PT2、PT3、PT5、PT6、PT8及びPT9)が非選択とされている。
【0079】
部分データは、具体的には、例えば、選択された指標パラメータ及び学習モデルの組み合わせを特に考慮することなく、選択結果が重複しないようにランダムに選択して複数の部分データを生成させることにより得ることができる。そして、得られた複数の部分データを第2データに含める処理が行われる。
【0080】
このように指標パラメータ(特徴量)をリサンプリングして得られた複数の部分データを組み入れたデータセットである第2データを得るステップを行うことにより、より大きな分散(Variance)を有する学習モデルを得ることができる。
【0081】
なお、
図6に示されるように本実施形態においては、部分データを含む第2データは、複数のビットストリングを含むデータセットとして管理、保存される。
図6には、第2データであるデータセットに含まれる3つのパターンを有する部分データのビットストリング(BS1、BS2及びBS3)が示されている。複数のビットストリングを含むデータセット(第2データ)にかかる処理の詳細については、後述する。
【0082】
次に、得られた第2データを用いて、機械学習により学習モデルを構築するステップ(S0−2)が実施される。
【0083】
本実施形態で構築される学習モデルには、複数種類の学習モデル、すなわち第1学習モデル及び第2学習モデルが含まれる。
【0084】
本実施形態において、第1学習モデルは、「所定期間内の主要有害心イベントの再発あり」又は「不明」を予測する学習モデルである。また、第2学習モデルは、「所定期間内の主要有害心イベントの再発なし」又は「不明」を予測する学習モデルである。
【0085】
以下、ステップ(S0−2)について具体的に説明する。
ここでは、第2データに含まれ得る完全データ、複数の部分データそれぞれを教師データとして用い、機械学習により複数の学習モデル、すなわち、複数の第1学習モデル及び複数の第2学習モデルを構築する。
【0086】
本実施形態において、第1学習モデル及び第2学習モデルは、サポートベクターマシン(SVM)であることが好ましい。また、サポートベクターマシン以外の手段として、例えばニューラルネットワークなどの他の手段を用いることもできる。
【0087】
本実施形態において、学習モデルを構築するための機械学習に用いられ得るサポートベクターマシンの例としては、ウェブサイト(https://cran.r−project.org/web/packages/e1071)にて入手可能である「R言語(https://www.R−project.org)のe1071パッケージ」に基づくサポートベクターマシンが挙げられる。
【0088】
ここで、学習モデルは、第2データを複数のデータ群に分割し、該データ群それぞれを教師データとして用い、かつ複数の該データ群ごとに異なる複数のパラメータ条件で行われる機械学習により構築されることが好ましい。
【0089】
本実施形態にかかる主要有害心イベントの予測方法において、機械学習にはカーネル関数としてRBFカーネル(ガウスカーネル)を用いたサポートベクターマシンを用いることができる。
【0090】
機械学習は、具体的には、異なる複数のパラメータ条件で行われる。この「異なる複数のパラメータ条件」は、例えばランダムサンプリングにより最適な調整係数(ハイパーパラメータ)を調整することにより設定することができる。
【0091】
例えば、上記のとおりガウスカーネルを採用したサポートベクターマシンを用いる場合には、調整係数であるγパラメータ及びCパラメータを調整することにより、同一の部分データから複数の異なる学習モデルを構築することができる。
【0092】
この場合、例えば、識別境界線の複雑さを調節するγパラメータとして、γ=0.01、γ=0.02、γ=0.03、γ=0.04、γ=0.05の5種類を使用し、ソフトマージンの許容パラメータCについては機械学習時の性能評価の際に用いられる識別関数(後述する。)によって代替されるため固定して、C=100として学習モデルを構築することができる。
【0093】
調整係数を例えば上記のように設定することにより、より大きな分散(Variance)を有する学習モデルを得ることができる。
【0094】
サポートベクターマシンは、本来は分散が小さくなるように構築される学習モデルである。しかしながら、本実施形態では、あえて分散の大きいサポートベクターマシンを構築し、後述する処理をさらに行っている。
【0095】
本実施形態によれば、あえて分散の大きいサポートベクターマシンを構築することで、結果として、予測精度をより向上させることができる。以下の説明において、特に断らない限り、学習モデルとしてサポートベクターマシンを用いる処理について説明する。
【0096】
次いで、評価用データを学習モデルで処理し、予測結果をパレートランクにより評価するステップ(S0−3)が行われる。
【0097】
このステップ(S0−3)では、感度及び陽性的中率を指標とするパレートランクにより第1学習モデル及び第2学習モデルの性能を評価する。以下、この評価ステップについて具体的に説明する。
【0098】
1)まず、構築された学習モデル(第1学習モデル及び第2学習モデル)と既に説明した評価用データとを用いて、すべての学習モデルについて予測結果を得る。
【0099】
2)予測可能な領域と不可能な領域を前提とする識別問題を扱う場合、誤識別の度合いをなるべく小さくするとともに、正しく予測できる対象の数をなるべく大きくすることが重要である。そのため、目的関数O
1(予測可能な領域において、予測エラーを計測するための関数)及び目的関数O
2(データ空間上で正しく予測できるデータ数を計数するための関数)を用いて、得られた予測結果を評価する。
【0100】
ここで、目的関数O
1及び目的関数O
2について説明する。ここでは、識別関数としてサポートベクターマシンを利用して、「再発あり」を予測目標とする第1学習モデルを評価する場合について説明する。
【0101】
前提として、評価用データ(x,y)において、xはある症例について測定された値の組であり、yは正解ラベルであり、「再発あり=+1」および「再発なし=−1」という符号データとして、いずれかの値を取るものとする。
【0102】
所定の第2データを用いて学習することで構築された第1学習モデルの識別関数をfとすると、この学習モデルの識別目標である「再発あり」に基づき、識別関数fにかかるxを入力したときに算出された予測値f(x)に基づいて、f(x)>0であれば「再発あり」と予測され、f(x)<0であれば「不明」とされる。逆に、識別目標が「再発なし」である第2学習モデルにおいては、識別関数の予測値がf(x)<0であれば「再発なし」と予測され、f(x)>0であれば「不明」とされる。
【0103】
本実施形態にかかる「再発あり又は不明」を予測する第1学習モデルは、予測可能領域に存在するデータについては常に「再発あり」と予測し、予測可能領域外に存在するデータについては「不明」とされる。
【0104】
よって、第1学習モデルの予測可能領域に「再発なし」と判定されるべきデータが存在してしまったときには、予測は常に失敗することになる。
【0105】
第1学習モデルの「再発あり」との予測可能領域における、目的関数O
1と目的関数O
2とによる評価について説明する。
【0106】
なお、目的関数O
1による評価は、学習モデルとしてサポートベクターマシン以外を用いる場合にも、2群判別関数を用いた学習モデルに対して一般化することができる。具体的には、例えば、線形判別関数、2次判別関数、ロジスティック判別関数を用いる場合にも、サポートベクターマシンの場合と同様に、誤予測したデータから識別線までの距離を用いて評価を行うことができる。
【0107】
目的関数O
1では、誤予測したデータから識別線までの距離(SVM Confidence Margin)の総和の最小化を考える。
【0108】
SVM Confidence Marginは、評価用データ(x,y)の識別関数fが算出する予測値f(x)を用いて、予測値f(x)と正解ラベルyとの積yf(x)と定義される。
【0109】
ここで、評価用データが正しく「再発あり」と予測される場合、SVM Confidence Marginは、f(x)>0という予測値と正解ラベル「再発あり=+1」との積であるので、正の値をとる。他方、予測可能領域内における誤予測、すなわちf(x)>0となり「再発あり」と予測されたにもかかわらず、正解ラベルyは「再発なし=−1」であった場合、予測値と正解ラベルとの積は、負の値をとる。
【0110】
同様に、第2学習モデルにおいても、SVM Confidence Marginは、評価用データが正しく「再発なし」と予測される場合、f(x)<0という予測値と正解ラベル「再発なし=−1」との積であるので、正の値をとり、誤予測されると負の値をとる。
【0111】
SVM Confidence Marginによる目的関数O
1の最小化は下記式(1)で表される。
【数1】
【0112】
式(1)中、m(y,f(x))について、
【数2】
であり、abs[x]はxの絶対値を表す。すなわち、式(1)は、SVM Confidence Marginにおいて、予測可能領域における誤識別の度合いのみを集計するための機能を有する。
【0113】
「再発あり」を予測目標とする第1学習モデルを評価する場合、各評価用データの識別線からの距離について、「再発あり」データが負例(f(x
i)<0)と予測された評価用データの予測距離だけを集計する。
【0114】
次に、目的関数O
2について、誤予測をある程度許容しながら、正しく予測される「再発あり」の評価用データの個数の最大化を考える。
【0115】
識別関数fの予測の正誤を正解ラベルy及び予測値f(x)を用いて表すと下記式(2)で表される。
【数3】
【0116】
ここでk個の評価用データについて予測を行った場合の目的関数O
2の最大化は下記式(3)で表される。
【数4】
【0117】
式(3)中、右辺第2項は予測可能領域内の「再発なし」の総数による正則化を表している。
【0118】
式(3)中、誤予測の許容度を調整する変数であるα(1>α>0)は、α=0.3と設定することが好ましい。
【0119】
こうして、学習モデルの予測結果が、パレートランクにより評価される。
【0120】
次いで、評価が高い学習モデル及び、評価が高い学習モデルを構築できたビットストリングを選抜するステップ(S0−4)が行われる。
【0121】
具体的には、既に説明した目的関数O
1及びO
2による評価値(O
1,1/O
2)がより小さかった学習モデル(第1学習モデル及び第2学習モデル)及びかかる学習モデルを構築することできたビットストリング(第2データ)が選抜される。
【0122】
ここで、ステップ(S0−4)について具体的に説明する。
【0123】
まず、既に説明した第1データと指標パラメータの構成が同一であるデータであって、かつ指標パラメータの数値が第1データとは一致しない複数の評価用データを用意する。
【0124】
学習モデルの選抜に用いる評価用データとしては、例えば、分割された複数の均等化済み症例データ群のうちの第2データ(部分データ)の生成に用いられなかった均等化済み症例データ群に属する症例データを用いることができる。
【0125】
次いで、かかる評価用データを複数の第1学習モデル及び複数の第2学習モデルでそれぞれ処理して、所定期間内における主要有害心イベントを再発するリスクを予測する。
【0126】
次に、得られた予測結果について、既に説明した目的関数O
1及びO
2を用いて感度及び陽性的中率を指標とするパレートランクにより第1学習モデル及び第2学習モデルを評価する。
【0127】
得られた評価結果に基づいて、感度及び陽性的中率がいずれも高い、すなわち、評価が高い学習モデル(第1学習モデル及び第2学習モデル)及びかかる学習モデルを構築することができた第2データ(ビットストリング)を選抜して保存する。
【0128】
選抜される学習モデル及び対応するビットストリングの個数は、要する時間、実施規模などを勘案して、任意好適な個数とすることができる。既に説明した本実施形態の場合には、40個程度とすることが好ましい。
【0129】
評価が高い学習モデル(第1学習モデル及び第2学習モデル)及び対応するビットストリング(第2データ)を選抜するステップ(S0−4)は、感度については1以下であって、0.95以上、0.7以上又は0.6以上とすることが好ましく、偽陽性率については0以上であって、0.4以下、0.3以下又は0.05以下とすることが好ましい。
【0130】
なお、この評価が高い第1学習モデル及び第2学習モデルを選抜するステップにより選抜された学習モデルにかかる指標パラメータの選択頻度を分析した分析結果は、第1データ及び第2データを構築するための指標パラメータの選択に用いることができる。
【0131】
具体的には、第1学習モデル及び第2学習モデルを構築するにあたり、選択頻度が高い指標パラメータを第1データ及び第2データを生成する際に予め選択すれば、予測方法の実施に必要な時間を短縮することができ、予測精度をより向上させることができる。
【0132】
また、評価が高い第1学習モデル及び第2学習モデルを構築することができたビットストリングを用いて、採用された指標パラメータの組み合わせを解析することにより、予測精度をより向上させ得る複数の指標パラメータの組み合わせを見出すことができる。
【0133】
このようにして見出された複数の指標パラメータの組み合わせを第1データ及び第2データを生成する際に予め選択すれば、予測方法の実施に必要な時間を短縮することができ、予測精度をより向上させることができる。
【0134】
次に、学習モデルが所定の要件を満たすか判定するステップ(S0−5)が行われる。
具体的には、上記ステップ(S0−4)の実施により選抜された学習モデル(第1学習モデル及び第2学習モデル)が所定の要件を満たしているか否かについて判定するステップ(S0−5)が行われる。
【0135】
具体的には、ステップ(S0−5)は、第1学習モデル及び第2学習モデルが所定の要件、例えば、ビットストリングの性能、すなわち選抜された第1学習モデル及び第2学習モデルの予測精度が所定の予測精度、例えば予測精度の改善率が0.1%を下回るか否か、第1学習モデル及び第2学習モデル(ビットストリング)の更新にかかる世代数が任意に設定した世代数の上限(例えば、100世代)を満たすか否かについての判定が行われる。
【0136】
まず、上記ステップ(S0−5)において、上記ステップ(S0−4)の実施により、選抜された第1学習モデル及び第2学習モデルが所定の要件を満たしていない場合(ステップ(S0−5)において「No」の場合)について説明する。
【0137】
選抜された第1学習モデル及び第2学習モデル(学習モデル)が所定の要件を満たしていない場合(ステップ(S0−5)において「No」の場合、例えば、前記例における判定の結果、第1学習モデル及び第2学習モデルの予測精度が0.1%を下回っていた場合、及び/又は第1学習モデル及び第2学習モデル(ビットストリング)の世代数が100世代に達していない場合)、かかる学習モデルに対応する、選抜されたビットストリングに対し、遺伝的アルゴリズムを用いて、進化的な処理を行い、新たなビットストリングを生成するステップ(S0−6)が行われる。
【0138】
なお、かかるビットストリングの生成(最適化)のステップは、遺伝的アルゴリズムのみならず、例えば、全パターンの組み合わせの探索、ランダム探索などによっても行うことができる。
【0139】
ここでは、遺伝的アルゴリズムを用いるビットストリングの最適化のステップについて説明する。
【0140】
遺伝的アルゴリズムを用いるビットストリングの最適化のステップでは、より優れた予測性能を備える学習モデルを構築することができたビットストリングの選抜と選抜された複数のビットストリングを含む第2データ(データセット)の更新及び保存とが行われる。
【0141】
(1)まず、既に説明したとおり、目的関数O
1及びO
2による学習モデルの評価に基づいて、より評価が高い、すなわちパレートランクが高い学習モデルを構築することができたビットストリングがより上位となるように順位付けする。
【0142】
具体的には、順位付けが済んだビットストリングについて、例えば、より上位のビットストリングがより上段に来るよう並べ替え、データセットに含まれるビットストリングの数なども考慮して、評価が低いビットストリングをデータセットから除外するなど編集する。そして、更新された複数のビットストリングを含むデータセット(第2データ)を、かかるデータセットに含まれるビットストリングが読み出しできる状態として保存する。
【0143】
図6に示されるビットストリングを例に取ると、ビットストリングBS1が最上位のビットストリングであり、ビットストリングBS2が第2位のビットストリングであり、ビットストリングBS3が第3位のビットストリングである。
【0144】
(2)次に、遺伝的アルゴリズムを用いて、順位付けがされたビットストリングに対して、淘汰、交叉、突然変異の導入、ビットストリングの評価といった進化的な処理を行う。
【0145】
かかる遺伝的アルゴリズムによる処理は、本実施形態では、例えば、NSGA−II(Elitist Non−dominated Sorting Genetic Algorithm)を用いて実施することができる。ここで、NSGA−IIは、非優越ソート遺伝的アルゴリズムである。
【0146】
かかる遺伝的アルゴリズムによる処理は、特に限定されないが、例えば、一世代あたりのモデル数を500とし、アーカイブサイズを125とし、ビットストリングあたりの突然変異率を10%とし、一点交叉させ、80世代まで更新する条件として行うことができる。
【0147】
そして、かかる遺伝的アルゴリズムによる処理により新たに生成されたビットストリングをもとの第2データに組み込んで、最新の第2データ(データセット)に更新し、データセットに含まれるビットストリングを読み出しできる状態として保存する処理を行う(S0−7)。
【0148】
次いで、更新された最新の第2データを用いて、再度、既に説明した複数のビットストリングを含む第2データを準備するステップ(S0−1)に戻って、再度ステップ(S0−5)までのステップが繰り返され、さらにステップ(S0−5)における判定結果が「No」の場合には、ステップ(S0−5)における判定結果が「Yes」となるまで、ステップ(S0−1)からステップ(S0−7)までが繰り返し実施される。
【0149】
このようにして、より優れた学習モデルを構築することができるビットストリングが選抜され、より優れた第2データにかかるデータセットを保持することができる。
【0150】
かかる遺伝的アルゴリズムによるビットストリングの最適化の処理においては、変数(指標データ)の選択が同時に行われる。具体的には、成績(予測精度)がより優れた第2データ(ビットストリング)が採用している変数と採用していない変数とを、例えば、変数の選択頻度を比較することで、各変数の重要性を評価し、重要性が高いと判断される変数を選択して採用する。
【0151】
かかる変数選択により、予測により寄与すると考えられる変数の抽出、あるいは変数の組み合わせの絞り込みを効果的に行うことができる。
【0152】
そして、ステップ(S0−5)における判定結果が、既に説明した所定の要件を満たしており「Yes」であった場合(前記例における判定の結果、第1学習モデル及び第2学習モデルの予測精度が0.1%以上であった場合、及び/又は第1学習モデル及び第2学習モデル(ビットストリング)の世代数が100世代に達していた場合)には、ビットストリング(第2データ)の更新は終了し、最終的なビットストリングに基づく学習モデルが選抜学習モデル(第1選抜学習モデル及び第2選抜学習モデル)として選抜される。
【0153】
最後に、第1選抜学習モデル及び第2選抜学習モデルが保存される(S0−8)。より具体的には、最終的に選抜された第1選抜学習モデル及び第2選抜学習モデルが、読み出し可能な状態として保存される。またここで、更新が終了した第2データ(ビットストリング)を読み出しできる状態として保存する。
かかるステップ(S0−8)が実施されることによりステップ(S0)は終了する。
【0154】
次に、
図7を参照して、ステップ(S2)について説明する。
図7は、ステップ(S2)を説明するためのフローチャートである。
【0155】
まず、第1データを、第1選抜学習モデル及び第2選抜学習モデルで処理し、第1選抜学習モデル及び第2選抜学習モデルごとに第1判定結果を取得するステップ(S2−1)が行われる。
【0156】
このステップ(S2−1)により、複数の第1選抜学習モデルそれぞれの複数の第1判定結果及び複数の第2選抜学習モデルの複数の第1判定結果を取得することができる。
【0157】
次に、複数の第1選抜学習モデルの複数の第1判定結果及び複数の第2選抜学習モデルの複数の第1判定結果それぞれについて投票が行われ、第1選抜学習モデル及び第2選抜学習モデルごとに得票率に基づく第2判定結果を取得するステップが行われる。以下、かかるステップについて具体的に説明する。
【0158】
まず、複数の第1選抜学習モデルの複数の第1判定結果及び複数の第2選抜学習モデルの複数の第1判定結果それぞれについて投票が行われる(S2−2)。
【0159】
具体的には、得られた第1判定結果に基づいて、複数の第1選抜学習モデルは「再発あり」又は「不明」のいずれかに投票する。複数の第2選抜学習モデルは「再発なし」又は「不明」のいずれかに投票する。それぞれの投票結果は、第1選抜学習モデル及び第2選抜学習モデルごとに集計される。
【0160】
次に、第1選抜学習モデル及び第2選抜学習モデルごとに得票率が算出される。次いで、得票率とカットオフ値とが対照され、得票率がカットオフ値と等しいか又は上回るか否か(カットオフ値≦得票率)が判定される(S2−3)。なお、カットオフ値の詳細については後述する。
【0161】
結果として、得票率が設定されたカットオフ値と等しいか又は上回る場合(ステップ(S2-3)において「Yes」の場合)には、第1選抜学習モデルについては所定期間内の主要有害心イベントの再発を「あり」と判定する第2判定結果が取得され、また、第2選抜学習モデルについては所定期間内の主要有害心イベントの再発を「なし」と判定する第2判定結果が取得される(S2−4)。
【0162】
得票率が設定されたカットオフ値よりも小さい場合(ステップ(S2−3)において「No」の場合)には、第1選抜学習モデル及び第2選抜学習モデルのいずれについても所定期間内の主要有害心イベントの再発リスクを「不明」とする第2判定結果が取得される(S2−5)。
【0163】
ここで、表1を参照して、複数の第1選抜学習モデルについての複数の第1判定結果に基づく投票結果の例について説明する。
【0164】
表1は、第1選抜学習モデルにかかる得票率及び第2判定結果の例を示す表である。ここでは、3個の第1データそれぞれについて4個の第1選抜学習モデルを用いて第2判定結果を得る例について説明する。なお、この例は、第2判定結果を得るにあたり、1年以内における主要有害心イベントの再発を「あり」と判定する場合の得票率を75%(3/4)、すなわち、カットオフ値を0.75とした例である。
【0166】
表1に示されるとおり、この例では、第1データ(1)については、第1学習モデル(1)〜(4)のいずれも主要有害心イベントの再発を「あり」と判定したため、「あり」の得票率は100%(4/4)であり、結果として、設定されたカットオフ値を上回る(カットオフ値≦得票率)ため、第2判定結果は「あり」とされる。
【0167】
第1データ(2)については、第1学習モデル(1)〜(3)が「あり」と判定し、第1学習モデル(4)は「不明」と判定したため、「あり」の得票率は75%(3/4)であり、結果として、第2判定結果は「あり」とされる。
【0168】
第1データ(3)については、第1学習モデル(1)〜(3)が「不明」と判定し、第1学習モデル(4)は「あり」と判定したため、「あり」の得票率は25%(1/4)であり、設定されたカットオフ値よりも小さい(カットオフ値>得票率)ため、結果として、第2判定結果は「不明」とされる。
【0169】
表1に示される例は、「あり」又は「不明」を予測する第1学習モデルにかかる例であるところ、「なし」又は「不明」を予測する第2学習モデルにかかる第2判定結果についても、表1中の第1学習モデル(1)〜(4)それぞれを第2学習モデル(1)〜(4)に置換し、第2判定結果を含め、「あり」を「なし」に反転することで同様に説明することができる。
【0170】
本実施形態の予測方法では、第1判定結果について投票が行われ、得票率に基づく第2判定結果を取得するステップが行われる。本実施形態では、予測精度について、用いられる学習モデルの数が増加するに従って、単体の学習モデルを用いる場合の予測性能と比較して改善する傾向がある。また、学習モデルの数が所定数に達すると、以後の学習モデルの数のさらなる増加に従って予測エラーの数が増加する傾向がある。
【0171】
このことは、用いられる学習モデルの数に最適値があることを示唆している。よって、予測精度を向上させるため(予測エラーの数を低減するため)、例えば、学習モデルの数と学習モデルの数の増加に伴う予測エラーの発生数の変動を観測するなどして、予測エラーの発生数が増加する方向に変動してしまった学習モデルの数よりも、用いる学習モデルの数を少なくすることにより、予測精度の向上(予測エラーの数の低減)を図ることができる。本実施形態においては、予測エラーの発生数の増加に加えて、「再発あり」の予測と「再発なし」の予測との投票数を揃えることも考慮すると、多くとも40モデル程度ずつの第1選抜学習モデル及び第2選抜学習モデルをそれぞれ使用することが好ましい。
【0172】
本実施形態では、カットオフ値は、より目的に適した予測を行うために適宜調整することができる。ここで、第1選抜学習モデルの得票率のカットオフ値と、第2選抜学習モデルの得票率のカットオフ値とを異なる値に設定することができる。
【0173】
本実施形態では、主要有害心イベントが対象であるので、偽陰性、すなわち、再発なしと予測したにもかかわらず再発を起こしてしまったケースを可能な限り除外することが必要である。そこで、第1学習モデルのカットオフ値が第2学習モデルのカットオフ値よりも小さくなるように、すなわち、第2学習モデルのカットオフ値が第1学習モデルのカットオフ値よりも大きくなるように設定することで、偽陰性率をより低くすることができる。このようにすれば、より「除外診断」に適した予測方法とすることができる。
【0174】
また、第1学習モデルのカットオフ値が第2学習モデルのカットオフ値よりも大きくなるように設定することで、偽陽性率をより低くすることができる。結果として、より「確定診断」に適した予測方法とすることができる。
【0175】
カットオフ値は、予測結果が誤りであった場合の重大性などに鑑みて適宜調整される。
【0176】
本実施形態では、第1学習モデル(再発あり)の予測及び第2学習モデル(再発なし)の予測のいずれについても、投票により決定されるという性質上、カットオフ値が高すぎるといかなる第1データを適用したとしてもすべて「不明」と予測されてしまい、カットオフ値が低すぎると逆にすべて「再発あり」と予測されてしまうおそれがある。以上に鑑みると、本実施形態では、カットオフ値は、0.3〜0.7の範囲で設定することが好ましい。
【0177】
本実施形態においては、具体的には、第1学習モデルのカットオフ値を0.3〜0.6の範囲とし、第2学習モデルのカットオフ値を0.4〜0.7の範囲とすることが第1学習モデル及び第2学習モデルの投票結果の採択率に勾配を持たせる観点から好ましい。
【0178】
カットオフ値の評価について、
図8及び
図9を参照して説明する。
図8及び
図9は、カットオフ値の評価結果を説明するための表である。
【0179】
ここでは、全症例数が1231であるうち、陽性症例数(1年以内に主要有害心イベントを再発した患者数)が100であり、陰性症例数(1年以内に主要有害心イベントを再発しなかった患者数)が1131であるモデルを用いる例を示す。
【0180】
第1学習モデルのカットオフ値を0.35と設定した場合の第2学習モデルのカットオフ値の最適値を探索したところ、第2学習モデルの最適なカットオフ値は0.45であった。
【0181】
図8及び
図9から明らかなように、第1学習モデルのカットオフ値を0.35と設定し、第2学習モデルのカットオフ値を0.45に設定した場合(
図9において、P35_N45)の感度は0.77であり、特異度は0.45であった。
【0182】
なお、
図8においては、予測結果が「不明」であったケースを非計数とした計算値が上段に示されており、下段には従来法に従った計算値が示されている。
【0183】
また、
図8において、「YY」は「第1学習モデルが『再発あり』と判定し(Y)、かつ第2学習モデルが『再発なし』と判定した(Y)ケースの数を表しており、「UU」は「第1学習モデルが『不明』と判定し(U)、かつ第2学習モデルが『不明』と判定した(U)ケースの数を表している。
【0184】
次に、第1選抜学習モデルの第2判定結果及び第2選抜学習モデルの第2判定結果を統合して、第3判定結果を取得するステップ(S2−6)が行われる。
【0185】
このステップ(S2−6)により、第1選抜学習モデル(第1学習モデル)の「所定期間内における主要有害心イベントの再発あり、又は不明」にかかる分類問題の第2判定結果と、第2選抜学習モデル(第2学習モデル)の「所定期間内における主要有害心イベントの再発なし、又は不明」の分類問題にかかる第2判定結果とが統合される。結果として、第1選抜学習モデルの第2判定結果と、第2選抜学習モデルの第2判定結果とが統合された第3判定結果が取得される。
【0186】
具体的には、例えば(1)第1選抜学習モデルにかかる第2判定結果が「主要有害心イベントの再発あり」であり、かつ第2選抜学習モデルにかかる第2判定結果が「不明」である場合には、第3判定結果は「主要有害心イベントの再発あり」とされる。また、(2)第1選抜学習モデルにかかる第2判定結果が「不明」であり、かつ第2選抜学習モデルにかかる第2判定結果が「主要有害心イベントの再発なし」である場合には、第3判定結果は「主要有害心イベントの再発なし」とされる。
【0187】
なお、第1選抜学習モデルにかかる第2判定結果が「主要有害心イベントの再発あり」であり、かつ第2選抜学習モデルにかかる第2判定結果が「主要有害心イベントの再発なし」である場合、及び第1選抜学習モデルにかかる第2判定結果が「不明」であり、かつ第2選抜学習モデルにかかる第2判定結果も「不明」である場合には、第3判定結果は「不明」とされる。
【0188】
次に、第3判定結果に基づいて、主要有害心イベントの再発リスクを予測するステップ(S2−7)が行われる。
具体的には、既に説明したステップ(S2−6)により得られた第3判定結果に基づいて、前記(1)の場合には「所定の期間内において主要有害心イベントの再発のリスクが高い」と判定され、前記(2)の場合には「所定の期間内において主要有害心イベントの再発のリスクが低い」と判定され、前記(1)及び(2)以外の場合には、所定の期間内における主要有害心イベントの再発のリスクの判定は保留される。
【0189】
既に説明したとおり、このステップ(S2−7)は、通常、コンピュータにより行われる。しかしながら、第3判定結果に基づく再発リスクの予測、再発リスクの予測に基づく通院頻度の決定などは、例えば、医師、コンサルタントなどの知見に基づいたルール定義ファイルやアルゴリズムに従った処理とすることもできる。
【0190】
既に説明した第2判定結果に基づいて、予測された再発リスクの信頼度を算出するステップ(S2−8)を実施することができる。
【0191】
具体的には、まず、第2判定結果の取得にあたり、複数の学習モデルが、例えば、「再発あり」と判定した場合には「+1」点、「再発なし」と判定した場合には「−1」点、「不明」と判定した場合には「0」点を付与し、同一の被検体にかかる全モデルについてのスコアの総和を算定し、かかる総和に対する「再発あり」のスコアの総和又は「再発なし」のスコアの総和の割合を、信頼度(%)として算出する。
【0192】
なお、算出される信頼度(%)の値は、−100(%)(主要有害心イベントの再発のリスクが小さい)から100(%)(主要有害心イベントの再発のリスクが大きい)までの値を取り得る。
【0193】
かかる信頼度(%)は、過去の症例に基づいて既に説明したとおり、機械学習による解析と学習に用いたデータにおける再発頻度とを紐つけして算出されているので、信頼度の指標として好適である。
【0194】
〔予測装置〕
本実施形態の予測方法、すなわち、前記ステップ(S1)及び(S2)は、通常、演算部を備えるコンピュータにより実行される。以下、
図10及び
図11を参照して、本実施形態に好適に用いることができる予測装置であるコンピュータ10の構成について、説明する。
【0195】
図10は、コンピュータの構成を説明するための模式的なブロック図である。
図11は、演算部の構成を説明するための模式的なブロック図である。
【0196】
図10に示されるように、コンピュータ10は、取得されたパラメータに基づいてデータを生成したり、かかるデータを格納させるなどの命令を処理する演算部12を備えている。
【0197】
演算部12は、例えば、マイクロプロセッサ(CPU)、グラフィックプロセッサ(GPU)などに相当する機能部である。
【0198】
コンピュータ10は、入力されたデータ、生成されたデータ等を一時的に、あるいは所定期間記憶することができ、かつ読み出し可能な状態で格納する記憶部14をさらに備えている。
【0199】
記憶部14は、例えば、メモリ(RAM)装置、ハードディスクドライブ、SSDなどに相当し、演算部12と協働するように構成される機能部である。
【0200】
記憶部14に、読み出し可能な状態で格納されて保存され得るデータの例としては、第1データ、第2データ(完全データ、部分データ、更新されたビットストリングのデータセット)、評価用データ、サポートベクターマシン、第1学習モデル、第2学習モデル、第1選抜学習モデル、第2選抜学習モデルが挙げられる。
【0201】
コンピュータ10は、外部の機能部、機器とデータをやりとりするための例えばシリアル接続、パラレル接続等のインターフェースである入出力部16などの機能部をさらに備えている。
【0202】
また、コンピュータ10には、入出力部16に接続されることにより機能する、キーボード、マウスなどの入力装置22、データを視覚的に表示できる表示機器、紙媒体などに生成されたデータを出力することができるプリンター、データベースを構成する読み出し及び書き込みが可能な大容量の外部記憶装置32などのいわゆるコンピュータハードウェア資源、あるいはこれらの各構成要素に対応する専用のハードウェア資源が、コンピュータ10が備える機能部と協働するように接続される構成とすることもできる。
【0203】
具体的には、例えば、既に説明した第1データについてのデータベースと第2データについてのデータベースとを格納する外部記憶装置、あるいは第1データをデータベースとして格納するハードウェア資源と第2データをデータベースとして格納するハードウェア資源とをそれぞれ別体の外部記憶装置として構成し、これらを既に説明したコンピュータの設置地から物理的に離間した遠隔地に設置し、これらを電気通信回線により協働可能なように接続するように構成してもよい。
【0204】
ここで「電気通信回線により接続されている」とは、電気、光等の媒体による有線または無線による情報回線により、データ、制御信号等をやりとりすることができるように接続して、接続された機器が協働できるように構成されていることを意味している。
【0205】
本実施形態の予測方法を実施するための予測装置は、単体のコンピュータで構成されていても、複数のコンピュータ(サーバ、操作端末なども含む。)及びその他の周辺機器が電気通信回線により一体的に接続されたシステムとして構成されていてもよい。
【0206】
また、上述した実施形態で説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。その他、上述の説明及び図面で示した処理手順、制御手順、具体的名称、各種のデータ、パラメータを含む情報、画面例、データベースの構成については、特記する場合を除いて任意に変更することができる。
【0207】
本実施形態の予測装置は、所定期間内における主要有害心イベントの再発リスクを予測する予測装置である。
【0208】
より具体的には、予測装置は、被検体から採取された試験試料を用いて測定されたか、又は被検体から得られた指標パラメータであって、C反応性タンパク質量、Dダイマー量、HDL−コレステロール量、LDL−コレステロール量、プロトロンビン時間(国際標準比(INR))、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン/フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素(LDH)量、尿酸量、pH、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術(PCI)を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく(定性)、尿糖(定性)、入院理由及び入院時現症からなる群より選択頻度に基づいて選択される2種以上の指標パラメータに基づく第1データを生成して取得する第1データ生成取得部と、第1データ生成取得部が取得した前記第1データを、複数の第2データを含むデータ群に基づいて構築された学習モデルで処理して、所定期間内における主要有害心イベントの再発リスクを予測する予測部とを備える。
【0209】
図11に示されるように、本実施形態の予測装置100は、既に説明した演算部12において相互に協働して機能する複数の機能部を含んでいる。本実施形態の予測装置100は、第1データ生成取得部12a、第2データ生成取得部12b、学習モデル構築部12d、学習モデル選抜部12e、第1判定結果生成取得部12f、第2判定結果生成取得部12g、第3判定結果生成取得部12h及び予測部12iを備えている。
【0210】
本発明の一実施形態の予測装置100は、被検体から採取された試験試料を用いて測定されたか、又は被検体から得られた2以上の指標パラメータを取得し、該指標パラメータに基づいて第1データを生成して取得する第1データ生成取得部12aと、第1データ生成取得部12aが取得した第1データを、第1選抜学習モデル及び第2選抜学習モデルにより処理し、該第1選抜学習モデル及び第2選抜学習モデルごとに第1判定結果を生成して取得する第1判定結果生成取得部12fと、第1判定結果生成取得部12fが取得した複数の第1選抜学習モデルの複数の第1判定結果及び複数の第2選抜学習モデルの複数の第1判定結果に基づいて、第2判定結果を生成して取得する第2判定結果生成取得部12gと、第2判定結果生成取得部12gが取得した第1選抜学習モデルの第2判定結果及び第2選抜学習モデルの第2判定結果を統合して、第3判定結果を生成して取得する第3判定結果生成取得部12hと、第3判定結果生成取得部12hが取得した第3判定結果に基づいて、主要有害心イベントの再発リスクを予測する予測部12iとを備えている。
【0211】
別の一実施形態の予測装置100は、所定期間内に主要有害心イベントを再発したか、又は再発しなかった複数の被検体についての複数の指標パラメータからなる群から選択された2種以上の該指標パラメータに基づく第2データを生成して取得する第2データ生成取得部12bと、第2データ生成取得部12bから取得した第2データに基づいて、主要有害心イベントの再発あり又は不明を予測する複数の第1学習モデル、及び前記主要有害心イベントの再発なし又は不明を予測する複数の第2学習モデルを構築する学習モデル構築部12dと、学習モデル構築部12dが構築した複数の第1学習モデル及び複数の第2学習モデルごとに、複数の第1選抜学習モデル、及び複数の第2選抜学習モデルを選抜する学習モデル選抜部12eとをさらに含むことが好ましい。
【0212】
さらに別の一実施形態の予測装置100においては、第2データ生成取得部12bが、複数の指標パラメータについて取捨選択を行い、部分データを生成することにより、複数の部分データ及び部分データの生成に用いられた完全データ(症例データ)を含み得る第2データを生成する機能部であることが好ましい。
【0213】
さらにまた別の一実施形態の予測装置100においては、学習モデル構築部12dが、第2データ生成取得部12bから取得した第2データを複数のデータ群に分割し、該データ群それぞれを教師データとして用い、かつ複数の該データ群ごとに異なる複数のパラメータ条件で行われる機械学習により、複数の第1学習モデル及び複数の第2学習モデルを構築する機能部であることが好ましい。
【0214】
また別の一実施形態の予測装置100においては、第2判定結果生成取得部12gが、複数の第1選抜学習モデルの複数の第1判定結果及び複数の第2選抜学習モデルの複数の第1判定結果について投票を行い、第1選抜学習モデル及び第2選抜学習モデルごとに得票率に基づく第2判定結果を生成して取得する機能部であることが好ましい。
【0215】
〔プログラム及びプログラムが記録された記憶媒体〕
本発明は、既に説明した本実施形態の予測方法を実施するためのプログラム及びプログラムが記録された記憶媒体にも関する。
【0216】
ここで、「プログラム」とは任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコード、バイナリコードなどの形式を問わない。なお、「プログラム」は、必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されていてもよく、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものを含む。
【0217】
なお、プログラムは、通常、既に説明した記憶部14に準じた記録媒体に記録されており、必要に応じて予測方法を実施するコンピュータに読み取られる。記録媒体に記録されたプログラムを各装置で読み取るための具体的な構成、読み取り手順、読み取り後のインストール手順などについては、周知の構成及び手順を用いることができる。
【0218】
また、「記録媒体」は、任意の「可搬の物理媒体」、任意の「固定用の物理媒体」、「通信媒体」を含む。なお、「可搬の物理媒体」とはフレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVDなどである。「固定用の物理媒体」とは、各種コンピュータシステムに内蔵されるROM、RAM、ハードディスクドライブなどである。「通信媒体」は、LAN、WAN、インターネットなどのネットワークを介してプログラムを送信する場合における通信回線や搬送波のように、短期間、プログラムを保持する。
【0219】
本発明の一実施形態のプログラムは、演算部12を備えるコンピュータ10により実行される下記のステップを含む、所定期間内における主要有害心イベントの再発リスクを予測するためのプログラムであって、演算部12が、被検体から採取された試験試料を用いて測定されたか、又は被検体から得られた指標パラメータであって、C反応性タンパク質量、Dダイマー量、HDL−コレステロール量、LDL−コレステロール量、プロトロンビン時間(国際標準比(INR))、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン/フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素(LDH)量、尿酸量、pH、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術(PCI)を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく(定性)、尿糖(定性)、入院理由及び入院時現症からなる群より選択頻度に基づいて選択される2種以上の指標パラメータに基づく第1データを取得するステップと、演算部12が、第1データを、複数の第2データを含むデータ群に基づいて構築された学習モデルで処理して、再発リスクを予測するステップとを含む。
【0220】
本発明の他の一実施形態のプログラムにおいては、第2データは所定期間内における主要有害心イベントの再発歴を指標パラメータとして含むデータであり、かつ第2データは、C反応性タンパク質量、Dダイマー量、HDL−コレステロール量、LDL−コレステロール量、プロトロンビン時間(国際標準比(INR))、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン/フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素(LDH)量、尿酸量、pH、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術(PCI)を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく(定性)、尿糖(定性)、入院理由及び入院時現症からなる群よりさらに選択される1種以上の指標パラメータに基づくデータであることが好ましい。
【0221】
本発明の他の一実施形態のプログラムにおいては、第1データ及び前記第2データが、心筋マーカーに由来する指標パラメータをさらに含む群から選択される指標パラメータに基づくデータであることが好ましい。
【0222】
本発明のまた他の一実施形態のプログラムにおいては、心筋マーカーが、クレアチンキナーゼMB、ヒト心臓型脂肪酸結合タンパク質、心筋トロポニンI、心筋トロポニンT、脳性ナトリウム利尿ペプチド、プロ脳性ナトリウム利尿ペプチド又はその切断産物、ミエロペルオキシダーゼ、胎盤増殖因子、推算糸球体濾過量、ホモシステイン、虚血修飾アルブミン、可溶性CD40リガンド、リポタンパク質関連ホスホリパーゼA2、コリン、及び高感度C反応性タンパク質からなる群から選択される1種以上であることが好ましい。
【0223】
本発明のさらにまた他の一実施形態のプログラムにおいては、第1データ及び前記第2データが、心電図に由来する指標パラメータをさらに含む群から選択される指標パラメータに基づくデータであることが好ましい。
【0224】
本発明のまた他の一実施形態のプログラムにおいては、心電図に由来する指標パラメータが、P波の高さ、R波の間隔、PQ時間、R波の高さ、QRS幅、ST部分の変化量、T波の高さ、及び心電図をフーリエ変換して得られるパワースペクトルからなる群から選択されることが好ましい。
【0225】
本発明のさらにまた他の一実施形態のプログラムにおいては、試験試料が、血液又は血液由来試料であることが好ましい。
【0226】
本発明のまた他の一実施形態のプログラムにおいては、主要有害心イベントが、急性心筋梗塞、冠血行再建術が施術された狭心症、入院を要した心不全、心房細動、脳卒中、又は循環器を理由とする死亡であることが好ましい。
【0227】
本発明のさらにまた他の一実施形態のプログラムにおいては、主要有害心イベントの再発リスクを予測するステップが、第2データを複数のデータ群に分割し、該データ群それぞれを教師データとして用い、かつ複数の該データ群ごとに異なる複数のパラメータ条件で行われる機械学習により、主要有害心イベントの再発があるか又は不明であるかを予測する複数の第1学習モデル、及び主要有害心イベントの再発がないか又は不明であるかを予測する複数の第2学習モデルを構築するステップをさらに含み、第1データを、前記第1学習モデル及び第2学習モデルにより処理して、所定期間内における主要有害心イベントの再発リスクを予測するステップであることが好ましい。
【0228】
本発明のまた他の一実施形態のプログラムにおいては、主要有害心イベントの再発リスクを予測するステップが、複数の第1学習モデル及び複数の第2学習モデルごとに、感度及び陽性的中率に基づいて複数の第1選抜学習モデル、及び複数の第2選抜学習モデルを選抜するステップをさらに含み、第1データを、第1選抜学習モデル及び第2選抜学習モデルにより処理して、所定期間内における主要有害心イベントの再発リスクを予測するステップであることが好ましい。
【0229】
本発明のさらにまた他の一実施形態のプログラムにおいては、主要有害心イベントの再発リスクを予測するステップが、第1データを、第1選抜学習モデル及び第2選抜学習モデルにより処理し、第1選抜学習モデル及び第2選抜学習モデルごとに第1判定結果を取得し、該第1判定結果について投票を行い、第1選抜学習モデル及び第2選抜学習モデルごとに得票率に基づく第2判定結果を取得し、第1選抜学習モデルの第2判定結果及び第2選抜学習モデルの第2判定結果を統合して、第3判定結果を取得し、該第3判定結果に基づいて、所定期間内における主要有害心イベントの再発リスクを予測するステップであることが好ましい。
【0230】
〔実施例〕
以下、本発明を詳細に説明するために実施例を示す。本発明は下記の実施例に限定されない。
【0231】
<実施例1>(データの調製及び学習モデルの構築)
(1)被検体及び指標パラメータの収集
2012年9月20日から2014年11月28までの期間中に、発症48時間以内の急性心筋梗塞(AMI)、冠動脈形成術(PCI)を必要とした狭心症(AP)、心不全(HF)、アブレーション治療を必要とした心房細動(AF)および脳梗塞(CI)のうちのいずれかを理由として入院した患者2273名を被検体(群)とした。
【0232】
入院後365日時点までの循環器系の疾患による死亡(cardiac death)、心筋梗塞(mi)、脳卒中(stroke)、及び心不全(hf)のいずれかの発症をMACEの再発と定義し、予測目標をMACEの再発の有無とした。
【0233】
被検体について、指標パラメータを収集して第1データを構成した。用いられた指標パラメータを下記表2−1及び2−2に示す。
【0236】
被検体の入院日を基準として、2013年10月1日の前後で被検体群(対応する第1データ群)を2群に分割した。具体的には、入院日が2013年9月30日以前である1659例を学習モデル構築用のデータ群(development cohort)とし、入院日が2013年10月1日以後である614例を評価用のデータ群(validation cohort)とした。
【0237】
結果として、学習モデル構築用のデータ群のうちの102例、評価用のデータ群のうちの56例が「再発あり」に該当していた。
【0238】
(2)部分データの生成
まず、上記(1)の学習モデル構築用のデータ群を、第1分割データ群及び第2分割データ群の2つのデータ群にさらに分割した。ここで、第1分割データ群及び第2分割データ群(評価用データ群)に含まれるデータの数の割合が、第1分割データ群:第2分割データ群=6:4になるように分割した。
【0239】
次いで、第1分割データ群を用いて、400パターンの部分データをランダムに生成した。
【0240】
部分データの生成は、下記のとおり行った。
(i)第1分割データ群に属するデータ(完全データ)から、指標パラメータの一部(列)を削除した。なお、IDと期間内のMACEの再発の有無に関する指標パラメータはすべての部分データで維持した。
(ii)次に、指標パラメータの一部が削除されたデータから、さらに症例データのうちの一部(行)を削除した。
(iii)上記(i)の処理と上記(ii)の処理を繰り返して、複数の異なる部分データを生成した。部分データにおける指標パラメータの組み合わせ、及び症例データの組み合わせはビットストリングとして記述し、一次元の情報として管理した。得られた部分データをもとの第1分割データ群に含めて第2データとして得た。
【0241】
(3)機械学習による学習モデルの構築
得られた第2データを教師データとして用いる機械学習を行うことにより複数の学習モデルを構築した。機械学習にはSVM(e1071パッケージ)を用い、カーネル関数としてRBFカーネルを用いた。識別境界線の複雑さを調節するパラメータγは0.01とした。SVMにおけるソフトマージンの許容パラメータCは100に固定した。結果として、総数400の学習モデルを構築した。
【0242】
(4)構築された学習モデルによる予測性能の評価
上記(2)の第2分割データ群を用いて、すべての学習モデルの予測結果を評価した。それぞれの学習モデルの予測結果はパレートランクにより評価した。具体的には、既に説明した目的関数O
1及びO
2による評価値(O
1,1/O
2)を得て、かかる評価値に基づいて感度及び陽性的中率を指標とするパレートランクにより学習モデルを評価した。
【0243】
(5)学習モデル(選抜学習モデル)の選抜
得られた評価結果に基づいて、評価値(O
1,1/O
2)がより小さい、すなわち感度及び陽性的中率がいずれも高い学習モデルを選抜学習モデルとして選抜した。具体的には、感度が0.7以上であり、かつ陽性的中率が0.7以上である学習モデルを選抜学習モデルとして選抜した。結果として、総数40の選抜学習モデルが選抜された。
【0244】
なお、併せて、選抜学習モデルを構築することができた総数40の第2データ(ビットストリング)を選抜した。
【0245】
(6)遺伝的アルゴリズムを用いる第2データの最適化
非優越ソート遺伝的アルゴリズム(NSGA; Elitist Non−Dominated Sorting Genetic Algorithm)を用い、既に説明した手法により第2データを最適化して更新した。具体的には、上記(5)において選抜されたビットストリング(群)を第一世代とし、一世代あたりのモデル数を400とし、アーカイブサイズを40として、ビットストリングあたりの突然変異率を10%とし、一点交叉させることにより変異を導入した。これを5世代にわたって繰り返し、より予測精度に優れた学習モデルを構築することができる、すなわち成績のよいビットストリング(第2データ)を得た。
【0246】
<実施例2>(MACEの再発の予測)
上記実施例1により構築された選抜学習モデルと評価用のデータ群(validation cohort)とを用いて、既に説明したとおりMACEの再発を予測した。
得られた予測結果にもとづいて、1年再発リスクの層別化を行った。結果を
図12に示す。
図12は、評価用のデータ群(Original:点線)をMACE高リスク群(High:黒線)と低リスク群(Low:灰色線)とに層別化した結果を示すグラフである。
【0247】
結果として、評価用のデータ群(original)(n=614 with 56 observations、9.1%)を、高リスク群(High)(n=247のうちの51例、20.6%)と低リスク群(Low)(n=367のうちの5例、1.4%)の2群に分割することができた。
【0248】
図12に示されるように、これらの2群ともに、MACEを再発した割合(a)及び1年後までの累積生存率(b)について、評価用のデータ群のMACEを再発した割合及び1年後までの累積生存率と比較して有意な差が見られた。
【0249】
<実施例3>(予測性能の評価)
評価用のデータ群を用いた場合の予測性能についてAUC解析により評価した。結果を
図13(a)に示す。
図13(a)は、予測性能を示すグラフである。
図13(a)に示されるように、予測性能は、AUC=0.853(95%CI=0.816−0.890)であった。
また、特異度を0.9に固定した条件での感度は、0.672(95%CI=0.595ー0.762)であった。
【0250】
<比較例1>(予測性能の評価)
従来用いられているCox比例ハザードモデルを用いた回帰分析により、評価用のデータ群を用いた場合の予測性能を評価した。
図13(b)、(c)及び(d)に示す。
図13(b)、(c)及び(d)は従来用いられている手法による予測性能を示すグラフである。
【0251】
図13(b)に示されるとおり、予測性能は、AUC=0.819(95%CI=0.768−0.869)であった。
また、
図13(c)に示されるとおり、GRACE scoreでは、AUC=0.609(95%CI=0.562−0.656)であった。
さらに、
図13(d)に示されるとおり、Framingham risk scoreでは、AUC=0.535(95%CI=0.488−0.582)であった。
このように、比較例1にかかる上記の結果は、実施例3の結果と比較していずれも劣っていた。
【0252】
加えて、従来のCox比例ハザードモデルを用いた場合に特異度を0.9に固定した条件での感度は、0.393(95%CI=0.250−0.536)であった。
このように、比較例1にかかる感度は、実施例3の感度と比較して劣っていた。
【0253】
<実施例4>(指標パラメータの重要度の評価)
上記(6)により得られた成績のよいビットストリング(第2データ)が採用している指標パラメータの選択頻度を比較することで、指標データの重要度を評価した。
結果を
図14に示す。
図14は、全体の選抜学習モデルのうちのある指標パラメータが用いられている選抜学習モデルの割合に基づく選択頻度を示すグラフである。縦軸は指標パラメータを示し、横軸は選択頻度を示していており、選択頻度が高い変数ほど予測の上で重要であると考えられる。