特開2018-72337 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人国立循環器病研究センターの特許一覧 ▶ 富士レビオ株式会社の特許一覧

特開2018-72337主要有害心イベントの再発リスクの予測方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】特開2018-72337(P2018-72337A)

(43)【公開日】2018年5月10日

(54)【発明の名称】主要有害心イベントの再発リスクの予測方法

(51)【国際特許分類】

G01N 33/68 20060101AFI20180406BHJP

【ＦＩ】

G01N33/68

【審査請求】未請求

【請求項の数】14

【出願形態】ＯＬ

【全頁数】41

(21)【出願番号】特願2017-204770(P2017-204770)

(22)【出願日】2017年10月23日

(31)【優先権主張番号】特願2016-207221(P2016-207221)

(32)【優先日】2016年10月21日

(33)【優先権主張国】JP

(71)【出願人】

【識別番号】510094724

【氏名又は名称】国立研究開発法人国立循環器病研究センター

(71)【出願人】

【識別番号】306008724

【氏名又は名称】富士レビオ株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】特許業務法人酒井国際特許事務所

(72)【発明者】

【氏名】西村邦宏

(72)【発明者】

【氏名】宮本恵宏

(72)【発明者】

【氏名】安田聡

(72)【発明者】

【氏名】野口暉夫

(72)【発明者】

【氏名】小川久雄

(72)【発明者】

【氏名】加藤聡史

【テーマコード（参考）】

2G045

【Ｆターム（参考）】

2G045AA25

2G045DA77

2G045JA01

(57)【要約】

【課題】簡便な検査によって所定期間内における主要有害心イベントの再発リスクを予測する。
【解決手段】被検体から採取された試験試料を用いて測定されたか、又は被検体から得られた所定の指標パラメータに基づく第１データを、所定の第２データに基づいて構築された学習モデルで処理して、主要有害心イベントの再発リスクを予測する。
【選択図】図１

【特許請求の範囲】

【請求項1】

被検体から採取された試験試料を用いて測定されたか、又は被検体から得られた指標パラメータであって、Ｃ反応性タンパク質量、Ｄダイマー量、ＨＤＬ−コレステロール量、ＬＤＬ−コレステロール量、プロトロンビン時間（国際標準比（ＩＮＲ））、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン／フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素（ＬＤＨ）量、尿酸量、ｐＨ、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術（ＰＣＩ）を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく（定性）、尿糖（定性）、入院理由及び入院時現症からなる群より選択頻度に基づいて選択される２種以上の指標パラメータに基づく第１データを取得するステップと、
前記第１データを、第２データに基づいて構築された学習モデルで処理して、再発リスクを予測するステップと
を含む、所定期間内における主要有害心イベントの再発リスクの予測方法。

【請求項2】

前記第２データは所定期間内の主要有害心イベントの再発歴を指標パラメータとして含むデータであり、かつ前記第２データは、Ｃ反応性タンパク質量、Ｄダイマー量、ＨＤＬ−コレステロール量、ＬＤＬ−コレステロール量、プロトロンビン時間（国際標準比（ＩＮＲ））、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン／フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素（ＬＤＨ）量、尿酸量、ｐＨ、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術（ＰＣＩ）を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく（定性）、尿糖（定性）、入院理由及び入院時現症からなる群よりさらに選択される１種以上の指標パラメータに基づくデータである、請求項１に記載の所定期間内における主要有害心イベントの再発リスクの予測方法。

【請求項3】

前記第１データ及び前記第２データが、心筋マーカーに由来する指標パラメータをさらに含む群から選択される指標パラメータに基づくデータである、請求項１又は２に記載の所定期間内における主要有害心イベントの再発リスクの予測方法。

【請求項4】

前記心筋マーカーが、クレアチンキナーゼＭＢ、ヒト心臓型脂肪酸結合タンパク質、心筋トロポニンＩ、心筋トロポニンＴ、脳性ナトリウム利尿ペプチド、プロ脳性ナトリウム利尿ペプチド又はその切断産物、ミエロペルオキシダーゼ、胎盤増殖因子、推算糸球体濾過量、ホモシステイン、虚血修飾アルブミン、可溶性ＣＤ４０リガンド、リポタンパク質関連ホスホリパーゼＡ２、コリン、及び高感度Ｃ反応性タンパク質からなる群から選択される１種以上である、請求項３に記載の所定期間内における主要有害心イベントの再発リスクの予測方法。

【請求項5】

前記試験試料が、血液又は血液由来試料である、請求項１〜４のいずれか１項に記載の所定期間内における主要有害心イベントの再発リスクの予測方法。

【請求項6】

前記主要有害心イベントが、急性心筋梗塞、冠血行再建術が施術された狭心症、入院を要した心不全、心房細動、脳卒中、又は循環器を理由とする死亡である、請求項１〜５のいずれか１項に記載の所定期間内における主要有害心イベントの再発リスクの予測方法。

【請求項7】

前記学習モデルが、前記第２データを複数のデータ群に分割し、該データ群それぞれを教師データとして用い、かつ複数の該データ群ごとに異なる複数のパラメータ条件で行われる機械学習により構築される、主要有害心イベントの再発があるか又は不明であるかを予測する複数の第１学習モデル、及び主要有害心イベントの再発がないか又は不明であるかを予測する複数の第２学習モデルであり、
前記主要有害心イベントの再発リスクを予測するステップが、前記第１データを、前記第１学習モデル及び前記第２学習モデルにより処理して、再発リスクを予測するステップである、請求項１〜６のいずれか１項に記載の所定期間内における主要有害心イベントの再発リスクの予測方法。

【請求項8】

前記学習モデルが、複数の前記第１学習モデル及び複数の前記第２学習モデルごとに、感度及び陽性的中率に基づいて選抜された複数の第１選抜学習モデル、及び複数の第２選抜学習モデルであり、
前記主要有害心イベントの再発リスクを予測するステップが、前記第１データを、前記第１選抜学習モデル及び前記第２選抜学習モデルにより処理して、再発リスクを予測するステップである、請求項７に記載の所定期間内における主要有害心イベントの再発リスクの予測方法。

【請求項9】

前記主要有害心イベントの再発リスクを予測するステップが、前記第１データを、前記第１選抜学習モデル及び前記第２選抜学習モデルにより処理し、前記第１選抜学習モデル及び前記第２選抜学習モデルごとに第１判定結果を取得し、該第１判定結果について投票を行い、前記第１選抜学習モデル及び前記第２選抜学習モデルごとに得票率に基づく第２判定結果を取得し、前記第１選抜学習モデルの第２判定結果及び前記第２選抜学習モデルの前記第２判定結果を統合して、第３判定結果を取得し、該第３判定結果に基づいて、主要有害心イベントの再発リスクを予測するステップである、請求項８に記載の所定期間内における主要有害心イベントの再発リスクの予測方法。

【請求項10】

演算部を備えるコンピュータにより実行される下記のステップを含む、所定期間内における主要有害心イベントの再発リスクを予測するためのプログラムであって、
演算部が、被検体から採取された試験試料を用いて測定されたか、又は被検体から得られた指標パラメータであって、Ｃ反応性タンパク質量、Ｄダイマー量、ＨＤＬ−コレステロール量、ＬＤＬ−コレステロール量、プロトロンビン時間（国際標準比（ＩＮＲ））、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン／フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素（ＬＤＨ）量、尿酸量、ｐＨ、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術（ＰＣＩ）を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく（定性）、尿糖（定性）、入院理由及び入院時現症からなる群より選択頻度に基づいて選択される２種以上の指標パラメータに基づく第１データを取得するステップと、
前記演算部が、前記第１データを、第２データに基づいて構築された学習モデルで処理して、所定期間内における主要有害心イベントの再発リスクを予測するステップと
を含む、プログラム。

【請求項11】

前記学習モデルが、前記第２データを複数のデータ群に分割し、該データ群それぞれを教師データとして用い、かつ複数の該データ群ごとに異なる複数のパラメータ条件で行われる機械学習により構築される、主要有害心イベントの再発があるか又は不明であるかを予測する複数の第１学習モデル、及び主要有害心イベントの再発がないか又は不明であるかを予測する複数の第２学習モデルであり、
前記主要有害心イベントの再発リスクを予測するステップが、前記演算部が、前記第１データを、前記第１学習モデル及び前記第２学習モデルにより処理して、所定期間内における主要有害心イベントの再発リスクを予測するステップである、請求項１０に記載のプログラム。

【請求項12】

前記学習モデルが、複数の前記第１学習モデル及び複数の前記第２学習モデルごとに、感度及び陽性的中率に基づいて選抜された複数の第１選抜学習モデル、及び複数の第２選抜学習モデルであり、
前記主要有害心イベントの再発リスクを予測するステップが、前記演算部が、前記第１データを、前記第１選抜学習モデル及び前記第２選抜学習モデルにより処理して、所定期間内における主要有害心イベントの再発リスクを予測するステップである、請求項１１に記載のプログラム。

【請求項13】

前記主要有害心イベントの再発リスクを予測するステップが、前記演算部が、前記第１データを、前記第１選抜学習モデル及び前記第２選抜学習モデルにより処理し、前記第１選抜学習モデル及び前記第２選抜学習モデルごとに第１判定結果を取得し、該第１判定結果について投票を行い、前記第１選抜学習モデル及び前記第２選抜学習モデルごとに得票率に基づく第２判定結果を取得し、前記第１選抜学習モデルの第２判定結果及び前記第２選抜学習モデルの前記第２判定結果を統合して、第３判定結果を取得し、該第３判定結果に基づいて、所定期間内における主要有害心イベントの再発リスクを予測するステップである、請求項１２に記載のプログラム。

【請求項14】

被検体から採取された試験試料を用いて測定されたか、又は被検体から得られた指標パラメータであって、Ｃ反応性タンパク質量、Ｄダイマー量、ＨＤＬ−コレステロール量、ＬＤＬ−コレステロール量、プロトロンビン時間（国際標準比（ＩＮＲ））、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン／フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素（ＬＤＨ）量、尿酸量、ｐＨ、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術（ＰＣＩ）を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく（定性）、尿糖（定性）、入院理由及び入院時現症からなる群より選択頻度に基づいて選択される２種以上の指標パラメータに基づく第１データを生成して取得する第１データ生成取得部と、
第１データ生成取得部が取得した前記第１データを、第２データに基づいて構築された学習モデルで処理して、所定期間内における主要有害心イベントの再発リスクを予測する予測部と
を備える、所定期間内における主要有害心イベントの再発リスクの予測装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、主要有害心イベント（Ｍａｊｏｒａｄｖｅｒｓｅｃａｒｄｉｏｖａｓｃｕｌａｒｅｖｅｎｔｓ：ＭＡＣＥ）の再発リスクの予測方法、予測のためのプログラム及び予測装置に関する。

【背景技術】

【0002】

主要有害心イベントの再発リスクの予測は、主要有害心イベントの再発が、結果として深刻な結果を招来しかねないため、極めて重要である。

【0003】

例えば、下記特許文献１は、急性冠症候群のうちの少なくとも１つの症状を発症後、１年以内に主要有害心イベントを再発するリスクを決定する方法を開示している。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】米国特許第８６５８３８４号

【発明の概要】

【発明が解決しようとする課題】

【0005】

前記特許文献１においては、主要有害心イベントを再発するリスクを決定するにあたり、いわゆる心筋マーカーである、心筋トロポニンＩ（ｃＴｎＩ）、プロＢ型ナトリウム利尿ペプチド（プロＢＮＰ）又はその切断産物、高感度Ｃ反応性タンパク質（ｈｓＣＲＰ）、ミエロペルオキシダーゼ（ＭＰＯ）、胎盤増殖因子（ＰＩＧＦ）、推算糸球体濾過量（eＧＦＲ）、ホモシステイン（ＨＣＹ）、コリン、虚血修飾アルブミン（ＩＭＡ）、可溶性ＣＤ４０リガンド（ｓＣＤ４０Ｌ）及びリポタンパク質関連ホスホリパーゼＡ_２（ＬｐＰＬＡ２）からなる群から選択される、少なくとも３種類のバイオマーカーの試験試料中の量を指標として用いている。

【0006】

しかしながら、前記特許文献１にかかる決定方法では、試験試料中の心筋マーカーの量を指標として用いるため、例えば入院検査や健康診断で一般的に行われる検査とは別途に特殊かつ高額の費用が必要な検査の実施が必要であり、結果として実施のための負担が大きくなってしまっていた。

【0007】

本発明は、前記課題に鑑みてなされたものである。本発明者らは、このように高負荷の検査などを別途実施することなく、入院検査や健康診断で一般的に行われる簡便かつ安価な検査のみによっても、上記課題を解決できることを見出し、本発明を完成するに至った。

【課題を解決するための手段】

【0008】

すなわち、本発明は、下記［１］〜［１４］を提供する。
［１］被検体から採取された試験試料を用いて測定されたか、又は被検体から得られた指標パラメータであって、Ｃ反応性タンパク質量、Ｄダイマー量、ＨＤＬ−コレステロール量、ＬＤＬ−コレステロール量、プロトロンビン時間（国際標準比（ＩＮＲ））、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン／フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素（ＬＤＨ）量、尿酸量、ｐＨ、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術（ＰＣＩ）を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく（定性）、尿糖（定性）、入院理由及び入院時現症からなる群より選択頻度に基づいて選択される２種以上の指標パラメータに基づく第１データを取得するステップと、
前記第１データを、第２データに基づいて構築された学習モデルで処理して、再発リスクを予測するステップと
を含む、所定期間内における主要有害心イベントの再発リスクの予測方法。
［２］前記第２データは所定期間内の主要有害心イベントの再発歴を指標パラメータとして含むデータであり、かつ前記第２データは、Ｃ反応性タンパク質量、Ｄダイマー量、ＨＤＬ−コレステロール量、ＬＤＬ−コレステロール量、プロトロンビン時間（国際標準比（ＩＮＲ））、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン／フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素（ＬＤＨ）量、尿酸量、ｐＨ、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術（ＰＣＩ）を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく（定性）、尿糖（定性）、入院理由及び入院時現症からなる群よりさらに選択される１種以上の指標パラメータに基づくデータである、［１］に記載の所定期間内における主要有害心イベントの再発リスクの予測方法。
［３］前記第１データ及び前記第２データが、心筋マーカーに由来する指標パラメータをさらに含む群から選択される指標パラメータに基づくデータである、［１］又は［２］に記載の所定期間内における主要有害心イベントの再発リスクの予測方法。
［４］前記心筋マーカーが、クレアチンキナーゼＭＢ、ヒト心臓型脂肪酸結合タンパク質、心筋トロポニンＩ、心筋トロポニンＴ、脳性ナトリウム利尿ペプチド、プロ脳性ナトリウム利尿ペプチド又はその切断産物、ミエロペルオキシダーゼ、胎盤増殖因子、推算糸球体濾過量、ホモシステイン、虚血修飾アルブミン、可溶性ＣＤ４０リガンド、リポタンパク質関連ホスホリパーゼＡ２、コリン、及び高感度Ｃ反応性タンパク質からなる群から選択される１種以上である、［３］に記載の所定期間内における主要有害心イベントの再発リスクの予測方法。
［５］前記試験試料が、血液又は血液由来試料である、［１］〜［４］のいずれか１つに記載の所定期間内における主要有害心イベントの再発リスクの予測方法。
［６］前記主要有害心イベントが、急性心筋梗塞、冠血行再建術が施術された狭心症、入院を要した心不全、心房細動、脳卒中、又は循環器を理由とする死亡である、［１］〜［５］のいずれか１つに記載の所定期間内における主要有害心イベントの再発リスクの予測方法。
［７］前記学習モデルが、前記第２データを複数のデータ群に分割し、該データ群それぞれを教師データとして用い、かつ複数の該データ群ごとに異なる複数のパラメータ条件で行われる機械学習により構築される、主要有害心イベントの再発があるか又は不明であるかを予測する複数の第１学習モデル、及び主要有害心イベントの再発がないか又は不明であるかを予測する複数の第２学習モデルであり、
前記主要有害心イベントの再発リスクを予測するステップが、前記第１データを、前記第１学習モデル及び前記第２学習モデルにより処理して、再発リスクを予測するステップである、［１］〜［６］のいずれか１つに記載の所定期間内における主要有害心イベントの再発リスクの予測方法。
［８］前記学習モデルが、複数の前記第１学習モデル及び複数の前記第２学習モデルごとに、感度及び陽性的中率に基づいて選抜された複数の第１選抜学習モデル、及び複数の第２選抜学習モデルであり、
前記主要有害心イベントの再発リスクを予測するステップが、前記第１データを、前記第１選抜学習モデル及び前記第２選抜学習モデルにより処理して、再発リスクを予測するステップである、［７］に記載の所定期間内における主要有害心イベントの再発リスクの予測方法。
［９］前記主要有害心イベントの再発リスクを予測するステップが、前記第１データを、前記第１選抜学習モデル及び前記第２選抜学習モデルにより処理し、前記第１選抜学習モデル及び前記第２選抜学習モデルごとに第１判定結果を取得し、該第１判定結果について投票を行い、前記第１選抜学習モデル及び前記第２選抜学習モデルごとに得票率に基づく第２判定結果を取得し、前記第１選抜学習モデルの第２判定結果及び前記第２選抜学習モデルの前記第２判定結果を統合して、第３判定結果を取得し、該第３判定結果に基づいて、主要有害心イベントの再発リスクを予測するステップである、［８］に記載の所定期間内における主要有害心イベントの再発リスクの予測方法。
［１０］演算部を備えるコンピュータにより実行される下記のステップを含む、所定期間内における主要有害心イベントの再発リスクを予測するためのプログラムであって、
演算部が、被検体から採取された試験試料を用いて測定されたか、又は被検体から得られた指標パラメータであって、Ｃ反応性タンパク質量、Ｄダイマー量、ＨＤＬ−コレステロール量、ＬＤＬ−コレステロール量、プロトロンビン時間（国際標準比（ＩＮＲ））、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン／フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素（ＬＤＨ）量、尿酸量、ｐＨ、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術（ＰＣＩ）を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく（定性）、尿糖（定性）、入院理由及び入院時現症からなる群より選択頻度に基づいて選択される２種以上の指標パラメータに基づく第１データを取得するステップと、
前記演算部が、前記第１データを、第２データに基づいて構築された学習モデルで処理して、所定期間内における主要有害心イベントの再発リスクを予測するステップと
を含む、プログラム。
［１１］前記学習モデルが、前記第２データを複数のデータ群に分割し、該データ群それぞれを教師データとして用い、かつ複数の該データ群ごとに異なる複数のパラメータ条件で行われる機械学習により構築される、主要有害心イベントの再発があるか又は不明であるかを予測する複数の第１学習モデル、及び主要有害心イベントの再発がないか又は不明であるかを予測する複数の第２学習モデルであり、
前記主要有害心イベントの再発リスクを予測するステップが、前記演算部が、前記第１データを、前記第１学習モデル及び前記第２学習モデルにより処理して、所定期間内における主要有害心イベントの再発リスクを予測するステップである、［１０］に記載のプログラム。
［１２］前記学習モデルが、複数の前記第１学習モデル及び複数の前記第２学習モデルごとに、感度及び陽性的中率に基づいて選抜された複数の第１選抜学習モデル、及び複数の第２選抜学習モデルであり、
前記主要有害心イベントの再発リスクを予測するステップが、前記演算部が、前記第１データを、前記第１選抜学習モデル及び前記第２選抜学習モデルにより処理して、所定期間内における主要有害心イベントの再発リスクを予測するステップである、［１１］に記載のプログラム。
［１３］前記主要有害心イベントの再発リスクを予測するステップが、前記演算部が、前記第１データを、前記第１選抜学習モデル及び前記第２選抜学習モデルにより処理し、前記第１選抜学習モデル及び前記第２選抜学習モデルごとに第１判定結果を取得し、該第１判定結果について投票を行い、前記第１選抜学習モデル及び前記第２選抜学習モデルごとに得票率に基づく第２判定結果を取得し、前記第１選抜学習モデルの第２判定結果及び前記第２選抜学習モデルの前記第２判定結果を統合して、第３判定結果を取得し、該第３判定結果に基づいて、所定期間内における主要有害心イベントの再発リスクを予測するステップである、［１２］に記載のプログラム。
［１４］被検体から採取された試験試料を用いて測定されたか、又は被検体から得られた指標パラメータであって、Ｃ反応性タンパク質量、Ｄダイマー量、ＨＤＬ−コレステロール量、ＬＤＬ−コレステロール量、プロトロンビン時間（国際標準比（ＩＮＲ））、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン／フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素（ＬＤＨ）量、尿酸量、ｐＨ、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術（ＰＣＩ）を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく（定性）、尿糖（定性）、入院理由及び入院時現症からなる群より選択頻度に基づいて選択される２種以上の指標パラメータに基づく第１データを生成して取得する第１データ生成取得部と、
第１データ生成取得部が取得した前記第１データを、第２データに基づいて構築された学習モデルで処理して、所定期間内における主要有害心イベントの再発リスクを予測する予測部と
を備える、所定期間内における主要有害心イベントの再発リスクの予測装置。

【発明の効果】

【0009】

本発明にかかる主要有害心イベントの再発リスクの予測方法によれば、より簡便なステップで、より精度の高い再発リスクの判定を行うことができる。これにより、治療方針、通院頻度などについてのより精度の高いコンサルティングを行うことができる。また、特殊かつ高額な費用が必要なバイオマーカーの測定などの高負荷の検査を行わずとも、より簡易で安価な検査のみによっても実施できるので、実施のための負担をより軽減することができる。

【図面の簡単な説明】

【0010】

【図1】図１は、主要有害心イベントの再発リスクの予測方法を示すフローチャートである。

【図2】図２は、ステップ（Ｓ１）を説明するためのフローチャートである。

【図3】図３は、ステップ（Ｓ０）を説明するためのフローチャートである。

【図4】図４は、第２データにかかる指標パラメータの例を示す表である。

【図5】図５は、第２データを生成するための完全データの構成を説明する模式的な図である。

【図6】図６は、第２データの模式的な図である。

【図7】図７は、ステップ（Ｓ２）を説明するためのフローチャートである。

【図8】図８は、カットオフ値の評価結果を説明するための表である。

【図9】図９は、カットオフ値の評価結果を説明するための表である。

【図10】図１０は、コンピュータの構成を説明するための模式的なブロック図である。

【図11】図１１は、演算部の構成を説明するための模式的なブロック図である。

【図12】図１２は、評価用のデータ群をＭＡＣＥ高リスク群と低リスク群とに層別化した結果を示すグラフである。

【図13】図１３は、予測性能を示すグラフである。

【図14】図１４は、全体の選抜学習モデルのうちのある指標パラメータが用いられている選抜学習モデルの割合に基づく選択頻度を示すグラフである。

【発明を実施するための形態】

【0011】

以下、図面を参照して、本発明の実施形態について説明する。なお、各図面は、発明が理解できる程度に、構成要素の形状、大きさ及び配置を概略的に示しているに過ぎない。本発明は以下の記述によって限定されるものではなく、各構成要素は本発明の要旨を逸脱しない範囲において適宜変更可能である。以下の説明に用いる図面において、同様の構成要素については同一の符号を付して示し、重複する説明については省略する場合がある。また、本発明の実施形態にかかる構成要素は、必ずしも図面に示される配置で、製造され、あるいは使用されるとは限らない。

【0012】

本発明は、所定期間内における主要有害心イベントの再発リスクの予測方法に関する。かかる予測方法は、被検体から採取された試験試料を用いて測定されたか、又は被検体から得られた指標パラメータであって、Ｃ反応性タンパク質量、Ｄダイマー量、ＨＤＬ−コレステロール量、ＬＤＬ−コレステロール量、プロトロンビン時間（国際標準比（ＩＮＲ））、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン／フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素（ＬＤＨ）量、尿酸量、ｐＨ、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術（ＰＣＩ）を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく（定性）、尿糖（定性）、入院理由及び入院時現症からなる群より選択される２以上の指標パラメータに基づく第１データを取得するステップと、前記第１データを、複数の第２データを含むデータ群に基づいて構築された学習モデルで処理して、再発リスクを予測するステップとを含む。

【0013】

〔用語の説明〕
本明細書において「主要有害心イベント」とは、急性心筋梗塞、冠血行再建術が施術された狭心症、入院を要した心不全、心房細動、脳卒中（一過性脳虚血発作（ＴＩＡ）を除く。）、又は循環器を理由とする死亡を意味している。

【0014】

本明細書において「再発リスクの予測」とは、主要有害心イベントの発症後所定期間（例えば、３ヵ月、６ヵ月、１年、１年６ヵ月、２年、３年あるいはより長期）内のさらなる主要有害心イベントの再発の有無（あるいは不明）、又は可能性の高低（あるいは不明）を予測することを意味している。

【0015】

本明細書において「被検体」とは、再発リスクの予測対象である生体を意味しており、具体的には例えば患者が挙げられる。

【0016】

本明細書において「試験試料」とは、後述する指標パラメータを得ることができる任意の試料を意味している。このような試験試料としては、例えば、液体試料（例、血液（全血）または血液由来試料（例、血清、血漿）、尿、唾液、腹水、組織抽出液、細胞抽出液）、非液体試料（例、組織サンプル、細胞サンプル）が挙げられるが、液体試料が好ましく、血液または血液由来試料がより好ましく、血液がより好ましい。試験試料は、測定前に、事前に処理されてもよい。このような処理としては、例えば、遠心分離、抽出、濃縮、分画、細胞固定、組織固定、組織凍結、組織薄片化が挙げられる。

【0017】

本明細書において「指標パラメータ」とは、上記の試験試料について実施された種々の検査結果、例えば生化学検査、血糖検査、血液一般検査、凝固検査などのいわゆる血液検査の結果（所定の成分の含有量、数量、特性など）に加え、その他の生体情報などに基づくパラメータを意味する。

【0018】

「指標パラメータ」の例としては、Ｃ反応性タンパク質（ＣＲＰ）、Ｄダイマー、ＨＤＬ−コレステロール（ＨＤＬ−Ｃ）、ＬＤＬ−コレステロール（ＬＤＬ−Ｃ）、プロトロンビン時間（国際標準比（ＩＮＲ））（ＰＴ−ＩＮＲ）、γ−グルタミルトランスペプチターゼ（γ−ＧＴＰ）、アスパラギン酸アミノトランスフェラーゼ（ＡＳＴ（ＧＯＴ））、アミラーゼ（ＡＭＹ）、アラニンアミノトランスフェラーゼ（ＡＬＴ（ＧＰＴ））、アルカリホスファターゼ（ＡＬＰ）、アルブミン（ＡＬＢ）、アンチトロンビン（ＡＴ）、グリコヘモグロビン（ＨｂＡ１ｃ）、クロール（Ｃｌ）、トリグリセリド（ＴＧ）、フィブリノゲン（Ｆｂｇ）、フィブリン／フィブリノゲン分解産物（ＦＤＰ）、活性化部分トロンボプラスチン時間（ＡＰＴＴ）、血清クレアチニン（ＣＲＥ）、血中尿素窒素（ＢＵＮ）、血糖（Ｇｌｕ）、総コレステロール（ＣＨＯ）、総ビルビリン（Ｔ・Ｂｉｌ）、単球数（Ｍｏｎｏ）、直接ビリルビン（Ｄ・Ｂｉｌ）、乳酸脱水素酵素（ＬＤ（ＬＤＨ））、尿たんぱく（定性）（ＵＰ）、尿酸（ＵＡ）、尿糖（定性）（ＵＳ）、ｐＨ、カリウム（Ｋ）、カルシウム（Ｃａ）、ナトリウム（Ｎａ）、赤血球数（ＲＢＣ）、ヘマトクリット値（Ｈｔ）、ヘモグロビン（Ｈｂ）、リンパ球数（Ｌｙｍｐ）、血小板数（ＰＬ）、好塩基球数（Ｂａｓｏ）、好酸球数（Ｅｏｓ）、及び好中球数（Ｎｅｕｔ）が挙げられる。試験試料におけるこれらの測定値の情報は、常法により得ることができる。

【0019】

また「指標パラメータ」の例としては、所定期間内における主要有害心イベントの再発歴、性別、入院理由、入院時現症、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術（ＰＣＩ）を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数などの生体情報（属性、定性データ）について２値化あるいは数値化したパラメータがさらに挙げられる。これらのうち、「入院理由」については、例えば、患者（被検体）が入院する際の医師の診断及び処置に基づいて決定することができる。

【0020】

具体的には、例えば、被検体が急性心筋梗塞（ＡＭＩ）と診断され入院した患者である場合には指標パラメータは１とすればよく、被検体が冠血行再建術が施術された狭心症を理由として入院した患者である場合には指標パラメータは２とすればよく、被検体が心不全（ＨＦ）と診断され入院した患者である場合には指標パラメータは３とすればよく、被検体が（心筋焼灼術（アブレーション処置）を要した）心房細動を理由として入院した患者である場合には指標パラメータは４とすればよく、被検体が脳梗塞（ＣＩ）と診断され入院した患者である場合には指標パラメータは５とすればよく、被検体が一過性脳虚血発作（ＴＩＡ）と診断され入院した患者である場合には指標パラメータは６とすればよい。

【0021】

また、「入院時現症」については、例えば、心電図波形に基づく病理学的所見により、「心房細動なし」（洞調律：正常）の場合は指標パラメータは０とされ、心房細動ありの場合は指標パラメータは１とされる。

【0022】

本明細書において「心筋マーカー」とは、試験試料について実施された検査の結果のうち、特に心臓（心筋）に関する指標を意味する。「心筋マーカー」の例としては、クレアチンキナーゼＭＢ（ＣＫＭＢ）、ヒト心臓型脂肪酸結合タンパク質、心筋トロポニンＩ、心筋トロポニンＴ、脳性ナトリウム利尿ペプチド（ＢＮＰ）、プロ脳性ナトリウム利尿ペプチド又はその切断産物、ミエロペルオキシダーゼ、胎盤増殖因子、推算糸球体濾過量、ホモシステイン、虚血修飾アルブミン、可溶性ＣＤ４０リガンド、リポタンパク質関連ホスホリパーゼＡ２、コリン、及び高感度Ｃ反応性タンパク質が挙げられる。

【0023】

〔所定期間内における主要有害心イベントの再発リスクの予測方法〕
以下、本実施形態の主要有害心イベントの再発リスクの予測方法が含むステップそれぞれについて具体的に説明する。なお、本実施形態においては、特に断りがない限り「ステップ」はコンピュータによって実行される（詳細は後述する。）。

【0024】

図１を参照して、本実施形態の所定期間内における主要有害心イベントの再発リスクの予測方法について説明する。図１は、予測方法を示すフローチャートである。

【0025】

（１）被検体から採取された試験試料を用いて測定されたか、又は被検体から得られた指標パラメータであって、Ｃ反応性タンパク質量、Ｄダイマー量、ＨＤＬ−コレステロール量、ＬＤＬ−コレステロール量、プロトロンビン時間（国際標準比（ＩＮＲ））、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン／フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素（ＬＤＨ）量、尿酸量、ｐＨ、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術（ＰＣＩ）を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく（定性）、尿糖（定性）、入院理由及び入院時現症からなる群より選択される２種以上の指標パラメータに基づく第１データを取得するステップ（Ｓ１）
図１に示されるように、本実施形態の所定期間内における主要有害心イベントの再発リスクの予測方法は、前記ステップ（Ｓ１）を含んでいる。

【0026】

以下、ステップ（Ｓ１）について、図２を参照して具体的に説明する。図２は、ステップ（Ｓ１）を説明するためのフローチャートである。

【0027】

なお、ステップ（Ｓ１）に先だって、後述する学習モデルを構築しておくことが好ましい。

【0028】

図２に示されるように、ステップ（Ｓ１）においては、まず、試験試料を採取するステップ（Ｓ１−１）が行われる。ステップ（Ｓ１−１）における試験試料の選択、試験試料の採取の方法は、指標パラメータを取得することができることを条件として特に限定されない。

【0029】

例えば、試験試料が特に血液にかかる試料である場合には、通常の採血方法により試験試料を得ることができる。

【0030】

本実施形態では、指標パラメータとして、被験体から採取された試験試料に基づく検査結果及び／又は生体情報が用いられる。

【0031】

本実施形態の所定期間内における主要有害心イベントの再発リスクの予測方法においては、簡便性を向上させ、負荷をより低減することができるので、心筋マーカーに非由来の指標パラメータを用いることが好ましい。

【0032】

よって、本実施形態では、次に、得られた試験試料を用いて測定された心筋マーカーに非由来の指標パラメータに基づく第１データを取得するステップ（Ｓ１−２）を行うことが好ましい。

【0033】

このステップ（Ｓ１−２）は、得られた試験試料について、従来公知の任意好適な検査手段（測定手段）及び検査方法（測定方法）を用いて分析（測定）することにより行うことができる。

【0034】

本実施形態に適用することができる心筋マーカーに非由来の指標パラメータの例としては、Ｃ反応性タンパク質量、Ｄダイマー量、ＨＤＬ−コレステロール量、ＬＤＬ−コレステロール量、プロトロンビン時間（国際標準比（ＩＮＲ））、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン／フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素（ＬＤＨ）量、尿酸量、ｐＨ、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、及び好中球数が挙げられる。

【0035】

第１データの形式については、本発明の予測方法（後述するステップ（Ｓ２））に適用できることを条件として特に限定されない。

【0036】

また、第１データを取得するステップ（Ｓ１−２）において、既に説明した「心筋マーカーに非由来の指標パラメータの群」にさらに加えて用いられる、心筋マーカーに非由来の指標パラメータの例としては、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術（ＰＣＩ）を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく（定性）、及び尿糖（定性）などの被検体から得られた生体情報が挙げられる。

【0037】

また、既に説明した心筋マーカーに非由来の指標パラメータの群にさらに加えて用いられる、心筋マーカーに非由来の指標パラメータの例としては、入院理由及び入院時現症などの被検体から得られた生体情報が挙げられる。

【0038】

本実施形態において、第１データ（及び後述する第２データ）は、既に説明した心筋マーカーに非由来の指標パラメータの群にさらに加えて、既に説明した心筋マーカーに由来する指標パラメータをさらに含む群から選択される指標パラメータに基づくデータとしてもよい。

【0039】

このように心筋マーカーに由来する指標パラメータをさらに用いれば、例えば、主要有害心イベントの発症後「３ヵ月以内」といった比較的短期間における再発リスクの予測精度をより向上させることができる。

【0040】

第１データ（及び後述する第２データ）は、既に説明した心筋マーカーに非由来の指標パラメータの群にさらに加えて、心電図に由来する指標パラメータをさらに含む群から選択される指標パラメータに基づくデータとすることができる。

【0041】

このような心電図に由来する指標パラメータの例としては、Ｐ波の高さ、Ｒ波の間隔（ＲＲ間隔）、ＰＱ時間、Ｒ波の高さ、ＱＲＳ幅、ＳＴ部分の変化量（Ｓ波の高さとＴ波の高さの総和）、Ｔ波の高さ、及び心電図をフーリエ変換して得られるパワースペクトルが挙げられる。

【0042】

このように心電図に由来する指標パラメータをさらに用いれば、指標パラメータの数をさらに増やすことができるので、主要有害心イベントの再発リスクの予測精度をより向上させることができるという効果を得ることができる。

【0043】

第１データは、既に説明した複数の指標パラメータの群から選択される２種以上の指標パラメータに基づいて生成することができる。かかる指標パラメータは、後述する選択頻度に基づいて選択することが好ましい。

【0044】

本実施形態の所定期間内における主要有害心イベントの再発リスクの予測方法において、用いられ得る指標パラメータの数は、予測に要する時間などを勘案して任意好適な数とすることができる。用いられ得る指標パラメータの数は、例えば選択頻度がより高い指標パラメータを予測精度を勘案して適宜選択することにより決定することができる。

【0045】

本実施形態の所定期間内における主要有害心イベントの再発リスクの予測方法において、第１データ（及び後述する第２データ）は、既に説明した指標パラメータのうち、２種以上の指標パラメータが用いられる。しかしながら、用いられ得る指標パラメータの数は特に限定されない。指標パラメータとしては、例えば、２種のみならず、５種以上、１０種以上、１５種以上、２０種以上、２５種以上、３０種以上、３５種以上、４０種以上、４５種以上又は既に説明したすべてを用い得る。

【0046】

２種以上の指標パラメータが用いられる場合、かかる２種以上の指標パラメータの組み合わせは、相関ルール分析、クラスタリングなどの処理によって適切な組み合わせを選択することができる。

【0047】

（２）第１データを、第２データに基づいて構築された学習モデルで処理して、再発リスクを予測するステップ（Ｓ２）
図１に示されるように、本実施形態の所定期間内における主要有害心イベントの予測方法は、上記ステップ（Ｓ２）を含んでいる。

【0048】

ここで、まず、図３を参照して、ステップ（Ｓ２）に用いられる学習モデルを構築するステップ（Ｓ０）について説明する。図３は、ステップ（Ｓ０）を説明するためのフローチャートである。

【0049】

なお、この学習モデルを構築するステップ（Ｓ０）は、既に説明したステップ（Ｓ１）に先行して行うこともできる。

【0050】

図３に示されるように、まず、複数のビットストリングを含む第２データを準備するステップ（Ｓ０−１）が行われる。

【0051】

具体的には、既に説明した「心筋マーカーに非由来の複数の指標パラメータからなる群」に加えられた群から選択頻度に基づいて選択された２種以上の指標パラメータに基づくビットストリングである第２データを生成して、準備する。

【0052】

第２データは、学習モデルを構築するための教師データである。ここで第２データ及びその生成について説明する。

【0053】

まず、予め収集された症例データ群を準備する。本実施形態の症例データ群は、主要有害心イベントを発症した患者にかかる複数の指標パラメータについての数値データを含む症例データを収集することにより構成されたデータ群であって第１データに対応している。

【0054】

症例データ群は、入院から１年以上の所定期間内における主要有害心イベントの再発の有無が判明している複数の症例データ、すなわち所定期間内に主要有害心イベントを再発した「再発あり」と分類される「再発あり」症例データ及び所定期間内に主要有害心イベントを再発しなかった「再発なし」と分類される「再発なし」症例データを含む。

【0055】

よって、症例データ群は、複数の「再発あり」症例データからなる「再発あり」症例データ群と、複数の「再発なし」症例データからなる「再発なし」症例データ群とから構成される。

【0056】

次に、症例データ群、すなわち、主要有害心イベントの「再発あり」症例データ群及び「再発なし」症例データ群それぞれを、（ｉ）学習モデル構築用の症例データ群と（ｉｉ）評価用の症例データ群とに分割する。これらのうち、分割された「学習モデル構築用の症例データ」を用いて第２データを生成させる。

【0057】

ここで「学習モデル構築用の症例データ群」に含まれる「再発あり」症例データの数と「再発なし」症例データの数とが同等ではなく偏りがある場合には、学習モデルの構築にあたり学習バイアスが生じてしまうおそれがある。

【0058】

よって、このように偏りがある場合には「再発あり」症例データの数と「再発なし」症例データの数とを同程度に揃える均等化処理を行って、学習モデル構築用の「均等化済み症例データ群」を調製する。具体的には、例えば「再発あり」症例データの数が「再発なし」症例データの数よりも少ない場合には、「再発あり」症例データの数と同一数の「再発なし」症例データを抽出して双方の数を揃える均等化処理を行うことが好ましい。

【0059】

次に、均等化済み症例データ群を、さらに複数の群に分割する。分割された群それぞれに含まれる症例データの数は同程度であればよく、同一とすることが好ましい。分割後の群の総数は特に限定されないが、例えば４程度とすることが好ましい。

【0060】

次いで、分割された複数の均等化済み症例データ群のうちの一部を用いて「部分データ」を生成する。例えば４つの均等化済み症例データ群に分割された場合には、そのうちの３つの群（７５％）を用いて「部分データ」を生成させればよい。なお、この場合、残りの１つの群（２５％）は、「評価用データ」とされる。

【0061】

そして、この生成した複数の部分データ及び部分データの生成に用いられた元データである完全データ（症例データ）を含むデータ群である第２データを用いて、学習モデルが構築される（詳細は後述する。）。

【0062】

ここで、図４を参照して、第２データにかかる指標パラメータの例を説明する。図４は、第２データにかかる指標パラメータの例を示す表である。
図４には、指標パラメータ名及び指標パラメータに加えて、指標パラメータの定義及び単位、並びに指標パラメータの種類が示されている。また、指標パラメータにはＩＤ番号として通し番号（１〜２４）が付されている。

【0063】

第２データについては「主要有害心イベントの発症後所定期間内に主要有害心イベントを再発したか、又は再発しなかったか（所定期間内における主要有害心イベントの再発歴）についての指標パラメータ」の選択は必須である。なお、第１データにおいては、かかる指標パラメータはそもそも存在し得ないため選択されない。

【0064】

第２データにかかる指標パラメータの群は、「主要有害心イベントの発症後所定期間内に主要有害心イベントを再発したか、又は再発しなかったかについての指標パラメータ」が含まれることを除き、既に説明した第１データにかかる指標パラメータの群と同一とすることができる。

【0065】

第２データにおける指標パラメータの選択において、第１データと同一の指標パラメータからなる群から選択される指標パラメータは、選択頻度に基づいて選択することが好ましい（詳細については後述する。）。

【0066】

図５及び図６を参照して、第２データについて説明する。図５は、部分データを生成するための完全データの構成を説明する模式的な図である。図６は、部分データである第２データの模式的な図である。

【0067】

図５及び図６に示されるように完全データ及びかかる完全データから生成される部分データを含む第２データは、機械学習時に使用される指標パラメータの選択及び症例データの選択をビット列（ビットストリング）として表現しているデータである。
図５に示される例では、部分データを生成するための完全データにおいては、１０種の指標パラメータ及び１０症例の症例データを用いている。

【0068】

ここで「症例データ」とは、選択された指標パラメータに対応する症例（患者）を特定するためのデータ（パラメータ）である。なお、単一の患者についての複数の症例が、別個の症例データとして存在する場合もありうる。

【0069】

図５及び図６に示されるように、完全データ及びその部分データを含む第２データにかかるビットストリングは、指標パラメータの選択又は非選択が記述される第１部分ＢＳＰ１と症例データの選択又は非選択が記述される第２部分ＢＳＰ２とにより構成される。この例では第１部分ＢＳＰ１の後に連続的に第２部分ＢＳＰ２が記述されて構成されている。なお、この例では第１部分ＢＳＰ１に１０種の指標パラメータ（ＩＤ：１〜１０）が記述され、第２部分ＢＳＰ２には用いられる１０症例の症例データ（ＩＤ：ＰＴ１〜ＰＴ１０）が記述されている。

【0070】

すなわち、図５及び図６において、最上段の数列はＩＤ番号を示しており、それより下段の数値は指標パラメータの選択又は非選択、並びに症例データの選択又は非選択を表している。

【0071】

なお、図５に示されるビットストリングは、１０種の指標パラメータ及び１０症例の症例データをすべて用いた例を示す完全データであるので、ビットストリングを構成する数値はすべてが「１」で構成されている。ここで、仮に図４に示される指標パラメータと関連づけて考えると、かかるビットストリングは、具体的には（ＩＤ：１〜１０）にかかる指標パラメータが対照されて用いられることを意味している。

【0072】

図４に示されるように、得られた検査結果及び／又は生体情報が、例えば所定の成分の含有量、年齢、身長といった定量データ（数値データ）として取得される場合には、そのまま指標パラメータとして用いることができる。

【0073】

また、かかる定量データ（数値データ）は、例えば、年齢（高齢者、中高年、青年、少年、幼齢)を勘案して、順序尺度、間隔尺度、比例尺度などに変換して指標パラメータとして用いることができる。

【0074】

また、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴などの生体情報にかかる属性データ、陽性（レベル）、陰性などの定性データについては、例えば「あり＝１、なし＝０」と２値化するなどして指標パラメータとして用いることができる。

【0075】

次に、完全データ、及び完全データに基づく部分データを含む第２データの生成について説明する。具体的には、完全データに含まれる複数の指標パラメータ（データ群の列）、及び症例データ（データ群の行）について取捨選択を行い、もとの完全データとは異なる複数の部分データを生成することにより、完全データ、及び完全データに基づく複数の部分データを含むデータ群である第２データを準備する。

【0076】

上述のとおり、第２データには、対応する学習モデルの予測性能が十分であることを条件として、複数の部分データに加えて、すべての指標パラメータ及びすべての症例データを含む完全データが含まれていてもよい。

【0077】

ここで、図６を参照して、部分データ及び部分データの生成について説明する。
ここでは、図５を参照して既に説明した第２データを構成し得る完全データ（ビットストリング）に基づく部分データ（ビットストリング）及びその生成ステップについて説明する。

【0078】

図６に示されるように、この例では１０種の指標パラメータのうち６種（ＩＤ＝１、３、４、６、７及び９）が選択され、４種（ＩＤ＝２、５、８及び１０）が非選択とされるとともに、１０症例の症例データのうち４症例（ＩＤ＝ＰＴ１、ＰＴ４、ＰＴ７及びＰＴ１０）が選択され、６症例（ＩＤ＝ＰＴ２、ＰＴ３、ＰＴ５、ＰＴ６、ＰＴ８及びＰＴ９）が非選択とされている。

【0079】

部分データは、具体的には、例えば、選択された指標パラメータ及び学習モデルの組み合わせを特に考慮することなく、選択結果が重複しないようにランダムに選択して複数の部分データを生成させることにより得ることができる。そして、得られた複数の部分データを第２データに含める処理が行われる。

【0080】

このように指標パラメータ（特徴量）をリサンプリングして得られた複数の部分データを組み入れたデータセットである第２データを得るステップを行うことにより、より大きな分散（Ｖａｒｉａｎｃｅ）を有する学習モデルを得ることができる。

【0081】

なお、図６に示されるように本実施形態においては、部分データを含む第２データは、複数のビットストリングを含むデータセットとして管理、保存される。図６には、第２データであるデータセットに含まれる３つのパターンを有する部分データのビットストリング（ＢＳ１、ＢＳ２及びＢＳ３）が示されている。複数のビットストリングを含むデータセット（第２データ）にかかる処理の詳細については、後述する。

【0082】

次に、得られた第２データを用いて、機械学習により学習モデルを構築するステップ（Ｓ０−２）が実施される。

【0083】

本実施形態で構築される学習モデルには、複数種類の学習モデル、すなわち第１学習モデル及び第２学習モデルが含まれる。

【0084】

本実施形態において、第１学習モデルは、「所定期間内の主要有害心イベントの再発あり」又は「不明」を予測する学習モデルである。また、第２学習モデルは、「所定期間内の主要有害心イベントの再発なし」又は「不明」を予測する学習モデルである。

【0085】

以下、ステップ（Ｓ０−２）について具体的に説明する。
ここでは、第２データに含まれ得る完全データ、複数の部分データそれぞれを教師データとして用い、機械学習により複数の学習モデル、すなわち、複数の第１学習モデル及び複数の第２学習モデルを構築する。

【0086】

本実施形態において、第１学習モデル及び第２学習モデルは、サポートベクターマシン（ＳＶＭ）であることが好ましい。また、サポートベクターマシン以外の手段として、例えばニューラルネットワークなどの他の手段を用いることもできる。

【0087】

本実施形態において、学習モデルを構築するための機械学習に用いられ得るサポートベクターマシンの例としては、ウェブサイト（ｈｔｔｐｓ：／／ｃｒａｎ．ｒ−ｐｒｏｊｅｃｔ．ｏｒｇ／ｗｅｂ／ｐａｃｋａｇｅｓ／ｅ１０７１）にて入手可能である「Ｒ言語（ｈｔｔｐｓ：／／ｗｗｗ．Ｒ−ｐｒｏｊｅｃｔ．ｏｒｇ）のｅ１０７１パッケージ」に基づくサポートベクターマシンが挙げられる。

【0088】

ここで、学習モデルは、第２データを複数のデータ群に分割し、該データ群それぞれを教師データとして用い、かつ複数の該データ群ごとに異なる複数のパラメータ条件で行われる機械学習により構築されることが好ましい。

【0089】

本実施形態にかかる主要有害心イベントの予測方法において、機械学習にはカーネル関数としてＲＢＦカーネル（ガウスカーネル）を用いたサポートベクターマシンを用いることができる。

【0090】

機械学習は、具体的には、異なる複数のパラメータ条件で行われる。この「異なる複数のパラメータ条件」は、例えばランダムサンプリングにより最適な調整係数（ハイパーパラメータ）を調整することにより設定することができる。

【0091】

例えば、上記のとおりガウスカーネルを採用したサポートベクターマシンを用いる場合には、調整係数であるγパラメータ及びＣパラメータを調整することにより、同一の部分データから複数の異なる学習モデルを構築することができる。

【0092】

この場合、例えば、識別境界線の複雑さを調節するγパラメータとして、γ＝０．０１、γ＝０．０２、γ＝０．０３、γ＝０．０４、γ＝０．０５の５種類を使用し、ソフトマージンの許容パラメータＣについては機械学習時の性能評価の際に用いられる識別関数（後述する。）によって代替されるため固定して、Ｃ＝１００として学習モデルを構築することができる。

【0093】

調整係数を例えば上記のように設定することにより、より大きな分散（Ｖａｒｉａｎｃｅ）を有する学習モデルを得ることができる。

【0094】

サポートベクターマシンは、本来は分散が小さくなるように構築される学習モデルである。しかしながら、本実施形態では、あえて分散の大きいサポートベクターマシンを構築し、後述する処理をさらに行っている。

【0095】

本実施形態によれば、あえて分散の大きいサポートベクターマシンを構築することで、結果として、予測精度をより向上させることができる。以下の説明において、特に断らない限り、学習モデルとしてサポートベクターマシンを用いる処理について説明する。

【0096】

次いで、評価用データを学習モデルで処理し、予測結果をパレートランクにより評価するステップ（Ｓ０−３）が行われる。

【0097】

このステップ（Ｓ０−３）では、感度及び陽性的中率を指標とするパレートランクにより第１学習モデル及び第２学習モデルの性能を評価する。以下、この評価ステップについて具体的に説明する。

【0098】

１）まず、構築された学習モデル（第１学習モデル及び第２学習モデル）と既に説明した評価用データとを用いて、すべての学習モデルについて予測結果を得る。

【0099】

２）予測可能な領域と不可能な領域を前提とする識別問題を扱う場合、誤識別の度合いをなるべく小さくするとともに、正しく予測できる対象の数をなるべく大きくすることが重要である。そのため、目的関数Ｏ_１（予測可能な領域において、予測エラーを計測するための関数）及び目的関数Ｏ_２（データ空間上で正しく予測できるデータ数を計数するための関数）を用いて、得られた予測結果を評価する。

【0100】

ここで、目的関数Ｏ_１及び目的関数Ｏ_２について説明する。ここでは、識別関数としてサポートベクターマシンを利用して、「再発あり」を予測目標とする第１学習モデルを評価する場合について説明する。

【0101】

前提として、評価用データ（ｘ，ｙ）において、ｘはある症例について測定された値の組であり、ｙは正解ラベルであり、「再発あり＝＋１」および「再発なし＝−１」という符号データとして、いずれかの値を取るものとする。

【0102】

所定の第２データを用いて学習することで構築された第１学習モデルの識別関数をｆとすると、この学習モデルの識別目標である「再発あり」に基づき、識別関数ｆにかかるｘを入力したときに算出された予測値ｆ（ｘ）に基づいて、ｆ（ｘ）＞０であれば「再発あり」と予測され、ｆ（ｘ）＜０であれば「不明」とされる。逆に、識別目標が「再発なし」である第２学習モデルにおいては、識別関数の予測値がｆ（ｘ）＜０であれば「再発なし」と予測され、ｆ（ｘ）＞０であれば「不明」とされる。

【0103】

本実施形態にかかる「再発あり又は不明」を予測する第１学習モデルは、予測可能領域に存在するデータについては常に「再発あり」と予測し、予測可能領域外に存在するデータについては「不明」とされる。

【0104】

よって、第１学習モデルの予測可能領域に「再発なし」と判定されるべきデータが存在してしまったときには、予測は常に失敗することになる。

【0105】

第１学習モデルの「再発あり」との予測可能領域における、目的関数Ｏ_１と目的関数Ｏ_２とによる評価について説明する。

【0106】

なお、目的関数Ｏ_１による評価は、学習モデルとしてサポートベクターマシン以外を用いる場合にも、２群判別関数を用いた学習モデルに対して一般化することができる。具体的には、例えば、線形判別関数、２次判別関数、ロジスティック判別関数を用いる場合にも、サポートベクターマシンの場合と同様に、誤予測したデータから識別線までの距離を用いて評価を行うことができる。

【0107】

目的関数Ｏ_１では、誤予測したデータから識別線までの距離（ＳＶＭＣｏｎｆｉｄｅｎｃｅＭａｒｇｉｎ）の総和の最小化を考える。

【0108】

ＳＶＭＣｏｎｆｉｄｅｎｃｅＭａｒｇｉｎは、評価用データ（ｘ，ｙ）の識別関数ｆが算出する予測値ｆ（ｘ）を用いて、予測値ｆ（ｘ）と正解ラベルｙとの積ｙｆ（ｘ）と定義される。

【0109】

ここで、評価用データが正しく「再発あり」と予測される場合、ＳＶＭＣｏｎｆｉｄｅｎｃｅＭａｒｇｉｎは、ｆ（ｘ）＞０という予測値と正解ラベル「再発あり＝＋１」との積であるので、正の値をとる。他方、予測可能領域内における誤予測、すなわちｆ（ｘ）＞０となり「再発あり」と予測されたにもかかわらず、正解ラベルｙは「再発なし＝−１」であった場合、予測値と正解ラベルとの積は、負の値をとる。

【0110】

同様に、第２学習モデルにおいても、ＳＶＭＣｏｎｆｉｄｅｎｃｅＭａｒｇｉｎは、評価用データが正しく「再発なし」と予測される場合、ｆ（ｘ）＜０という予測値と正解ラベル「再発なし＝−１」との積であるので、正の値をとり、誤予測されると負の値をとる。

【0111】

ＳＶＭＣｏｎｆｉｄｅｎｃｅＭａｒｇｉｎによる目的関数Ｏ_１の最小化は下記式（１）で表される。

【数1】

【0112】

式（１）中、ｍ（ｙ，ｆ（ｘ））について、

【数2】

であり、ａｂｓ［ｘ］はｘの絶対値を表す。すなわち、式（１）は、ＳＶＭＣｏｎｆｉｄｅｎｃｅＭａｒｇｉｎにおいて、予測可能領域における誤識別の度合いのみを集計するための機能を有する。

【0113】

「再発あり」を予測目標とする第１学習モデルを評価する場合、各評価用データの識別線からの距離について、「再発あり」データが負例（ｆ（ｘ_ｉ）＜０）と予測された評価用データの予測距離だけを集計する。

【0114】

次に、目的関数Ｏ_２について、誤予測をある程度許容しながら、正しく予測される「再発あり」の評価用データの個数の最大化を考える。

【0115】

識別関数ｆの予測の正誤を正解ラベルｙ及び予測値ｆ（ｘ）を用いて表すと下記式（２）で表される。

【数3】

【0116】

ここでｋ個の評価用データについて予測を行った場合の目的関数Ｏ_２の最大化は下記式（３）で表される。

【数4】

【0117】

式（３）中、右辺第２項は予測可能領域内の「再発なし」の総数による正則化を表している。

【0118】

式（３）中、誤予測の許容度を調整する変数であるα（１＞α＞０）は、α＝０．３と設定することが好ましい。

【0119】

こうして、学習モデルの予測結果が、パレートランクにより評価される。

【0120】

次いで、評価が高い学習モデル及び、評価が高い学習モデルを構築できたビットストリングを選抜するステップ（Ｓ０−４）が行われる。

【0121】

具体的には、既に説明した目的関数Ｏ_１及びＯ_２による評価値（Ｏ_１，１／Ｏ_２）がより小さかった学習モデル（第１学習モデル及び第２学習モデル）及びかかる学習モデルを構築することできたビットストリング（第２データ）が選抜される。

【0122】

ここで、ステップ（Ｓ０−４）について具体的に説明する。

【0123】

まず、既に説明した第１データと指標パラメータの構成が同一であるデータであって、かつ指標パラメータの数値が第１データとは一致しない複数の評価用データを用意する。

【0124】

学習モデルの選抜に用いる評価用データとしては、例えば、分割された複数の均等化済み症例データ群のうちの第２データ（部分データ）の生成に用いられなかった均等化済み症例データ群に属する症例データを用いることができる。

【0125】

次いで、かかる評価用データを複数の第１学習モデル及び複数の第２学習モデルでそれぞれ処理して、所定期間内における主要有害心イベントを再発するリスクを予測する。

【0126】

次に、得られた予測結果について、既に説明した目的関数Ｏ_１及びＯ_２を用いて感度及び陽性的中率を指標とするパレートランクにより第１学習モデル及び第２学習モデルを評価する。

【0127】

得られた評価結果に基づいて、感度及び陽性的中率がいずれも高い、すなわち、評価が高い学習モデル（第１学習モデル及び第２学習モデル）及びかかる学習モデルを構築することができた第２データ（ビットストリング）を選抜して保存する。

【0128】

選抜される学習モデル及び対応するビットストリングの個数は、要する時間、実施規模などを勘案して、任意好適な個数とすることができる。既に説明した本実施形態の場合には、４０個程度とすることが好ましい。

【0129】

評価が高い学習モデル（第１学習モデル及び第２学習モデル）及び対応するビットストリング（第２データ）を選抜するステップ（Ｓ０−４）は、感度については１以下であって、０．９５以上、０．７以上又は０．６以上とすることが好ましく、偽陽性率については０以上であって、０．４以下、０．３以下又は０．０５以下とすることが好ましい。

【0130】

なお、この評価が高い第１学習モデル及び第２学習モデルを選抜するステップにより選抜された学習モデルにかかる指標パラメータの選択頻度を分析した分析結果は、第１データ及び第２データを構築するための指標パラメータの選択に用いることができる。

【0131】

具体的には、第１学習モデル及び第２学習モデルを構築するにあたり、選択頻度が高い指標パラメータを第１データ及び第２データを生成する際に予め選択すれば、予測方法の実施に必要な時間を短縮することができ、予測精度をより向上させることができる。

【0132】

また、評価が高い第１学習モデル及び第２学習モデルを構築することができたビットストリングを用いて、採用された指標パラメータの組み合わせを解析することにより、予測精度をより向上させ得る複数の指標パラメータの組み合わせを見出すことができる。

【0133】

このようにして見出された複数の指標パラメータの組み合わせを第１データ及び第２データを生成する際に予め選択すれば、予測方法の実施に必要な時間を短縮することができ、予測精度をより向上させることができる。

【0134】

次に、学習モデルが所定の要件を満たすか判定するステップ（Ｓ０−５）が行われる。
具体的には、上記ステップ（Ｓ０−４）の実施により選抜された学習モデル（第１学習モデル及び第２学習モデル）が所定の要件を満たしているか否かについて判定するステップ（Ｓ０−５）が行われる。

【0135】

具体的には、ステップ（Ｓ０−５）は、第１学習モデル及び第２学習モデルが所定の要件、例えば、ビットストリングの性能、すなわち選抜された第１学習モデル及び第２学習モデルの予測精度が所定の予測精度、例えば予測精度の改善率が０．１％を下回るか否か、第１学習モデル及び第２学習モデル（ビットストリング）の更新にかかる世代数が任意に設定した世代数の上限（例えば、１００世代）を満たすか否かについての判定が行われる。

【0136】

まず、上記ステップ（Ｓ０−５）において、上記ステップ（Ｓ０−４）の実施により、選抜された第１学習モデル及び第２学習モデルが所定の要件を満たしていない場合（ステップ（Ｓ０−５）において「Ｎｏ」の場合）について説明する。

【0137】

選抜された第１学習モデル及び第２学習モデル（学習モデル）が所定の要件を満たしていない場合（ステップ（Ｓ０−５）において「Ｎｏ」の場合、例えば、前記例における判定の結果、第１学習モデル及び第２学習モデルの予測精度が０．１％を下回っていた場合、及び／又は第１学習モデル及び第２学習モデル（ビットストリング）の世代数が１００世代に達していない場合）、かかる学習モデルに対応する、選抜されたビットストリングに対し、遺伝的アルゴリズムを用いて、進化的な処理を行い、新たなビットストリングを生成するステップ（Ｓ０−６）が行われる。

【0138】

なお、かかるビットストリングの生成（最適化）のステップは、遺伝的アルゴリズムのみならず、例えば、全パターンの組み合わせの探索、ランダム探索などによっても行うことができる。

【0139】

ここでは、遺伝的アルゴリズムを用いるビットストリングの最適化のステップについて説明する。

【0140】

遺伝的アルゴリズムを用いるビットストリングの最適化のステップでは、より優れた予測性能を備える学習モデルを構築することができたビットストリングの選抜と選抜された複数のビットストリングを含む第２データ（データセット）の更新及び保存とが行われる。

【0141】

（１）まず、既に説明したとおり、目的関数Ｏ_１及びＯ_２による学習モデルの評価に基づいて、より評価が高い、すなわちパレートランクが高い学習モデルを構築することができたビットストリングがより上位となるように順位付けする。

【0142】

具体的には、順位付けが済んだビットストリングについて、例えば、より上位のビットストリングがより上段に来るよう並べ替え、データセットに含まれるビットストリングの数なども考慮して、評価が低いビットストリングをデータセットから除外するなど編集する。そして、更新された複数のビットストリングを含むデータセット（第２データ）を、かかるデータセットに含まれるビットストリングが読み出しできる状態として保存する。

【0143】

図６に示されるビットストリングを例に取ると、ビットストリングＢＳ１が最上位のビットストリングであり、ビットストリングＢＳ２が第２位のビットストリングであり、ビットストリングＢＳ３が第３位のビットストリングである。

【0144】

（２）次に、遺伝的アルゴリズムを用いて、順位付けがされたビットストリングに対して、淘汰、交叉、突然変異の導入、ビットストリングの評価といった進化的な処理を行う。

【0145】

かかる遺伝的アルゴリズムによる処理は、本実施形態では、例えば、ＮＳＧＡ−ＩＩ（ＥｌｉｔｉｓｔＮｏｎ−ｄｏｍｉｎａｔｅｄＳｏｒｔｉｎｇＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍ）を用いて実施することができる。ここで、ＮＳＧＡ−ＩＩは、非優越ソート遺伝的アルゴリズムである。

【0146】

かかる遺伝的アルゴリズムによる処理は、特に限定されないが、例えば、一世代あたりのモデル数を５００とし、アーカイブサイズを１２５とし、ビットストリングあたりの突然変異率を１０％とし、一点交叉させ、８０世代まで更新する条件として行うことができる。

【0147】

そして、かかる遺伝的アルゴリズムによる処理により新たに生成されたビットストリングをもとの第２データに組み込んで、最新の第２データ（データセット）に更新し、データセットに含まれるビットストリングを読み出しできる状態として保存する処理を行う（Ｓ０−７）。

【0148】

次いで、更新された最新の第２データを用いて、再度、既に説明した複数のビットストリングを含む第２データを準備するステップ（Ｓ０−１）に戻って、再度ステップ（Ｓ０−５）までのステップが繰り返され、さらにステップ（Ｓ０−５）における判定結果が「Ｎｏ」の場合には、ステップ（Ｓ０−５）における判定結果が「Ｙｅｓ」となるまで、ステップ（Ｓ０−１）からステップ（Ｓ０−７）までが繰り返し実施される。

【0149】

このようにして、より優れた学習モデルを構築することができるビットストリングが選抜され、より優れた第２データにかかるデータセットを保持することができる。

【0150】

かかる遺伝的アルゴリズムによるビットストリングの最適化の処理においては、変数（指標データ）の選択が同時に行われる。具体的には、成績（予測精度）がより優れた第２データ（ビットストリング）が採用している変数と採用していない変数とを、例えば、変数の選択頻度を比較することで、各変数の重要性を評価し、重要性が高いと判断される変数を選択して採用する。

【0151】

かかる変数選択により、予測により寄与すると考えられる変数の抽出、あるいは変数の組み合わせの絞り込みを効果的に行うことができる。

【0152】

そして、ステップ（Ｓ０−５）における判定結果が、既に説明した所定の要件を満たしており「Ｙｅｓ」であった場合（前記例における判定の結果、第１学習モデル及び第２学習モデルの予測精度が０．１％以上であった場合、及び／又は第１学習モデル及び第２学習モデル（ビットストリング）の世代数が１００世代に達していた場合）には、ビットストリング（第２データ）の更新は終了し、最終的なビットストリングに基づく学習モデルが選抜学習モデル（第１選抜学習モデル及び第２選抜学習モデル）として選抜される。

【0153】

最後に、第１選抜学習モデル及び第２選抜学習モデルが保存される（Ｓ０−８）。より具体的には、最終的に選抜された第１選抜学習モデル及び第２選抜学習モデルが、読み出し可能な状態として保存される。またここで、更新が終了した第２データ（ビットストリング）を読み出しできる状態として保存する。
かかるステップ（Ｓ０−８）が実施されることによりステップ（Ｓ０）は終了する。

【0154】

次に、図７を参照して、ステップ（Ｓ２）について説明する。図７は、ステップ（Ｓ２）を説明するためのフローチャートである。

【0155】

まず、第１データを、第１選抜学習モデル及び第２選抜学習モデルで処理し、第１選抜学習モデル及び第２選抜学習モデルごとに第１判定結果を取得するステップ（Ｓ２−１）が行われる。

【0156】

このステップ（Ｓ２−１）により、複数の第１選抜学習モデルそれぞれの複数の第１判定結果及び複数の第２選抜学習モデルの複数の第１判定結果を取得することができる。

【0157】

次に、複数の第１選抜学習モデルの複数の第１判定結果及び複数の第２選抜学習モデルの複数の第１判定結果それぞれについて投票が行われ、第１選抜学習モデル及び第２選抜学習モデルごとに得票率に基づく第２判定結果を取得するステップが行われる。以下、かかるステップについて具体的に説明する。

【0158】

まず、複数の第１選抜学習モデルの複数の第１判定結果及び複数の第２選抜学習モデルの複数の第１判定結果それぞれについて投票が行われる（Ｓ２−２）。

【0159】

具体的には、得られた第１判定結果に基づいて、複数の第１選抜学習モデルは「再発あり」又は「不明」のいずれかに投票する。複数の第２選抜学習モデルは「再発なし」又は「不明」のいずれかに投票する。それぞれの投票結果は、第１選抜学習モデル及び第２選抜学習モデルごとに集計される。

【0160】

次に、第１選抜学習モデル及び第２選抜学習モデルごとに得票率が算出される。次いで、得票率とカットオフ値とが対照され、得票率がカットオフ値と等しいか又は上回るか否か（カットオフ値≦得票率）が判定される（Ｓ２−３）。なお、カットオフ値の詳細については後述する。

【0161】

結果として、得票率が設定されたカットオフ値と等しいか又は上回る場合（ステップ（Ｓ２-３）において「Ｙｅｓ」の場合）には、第１選抜学習モデルについては所定期間内の主要有害心イベントの再発を「あり」と判定する第２判定結果が取得され、また、第２選抜学習モデルについては所定期間内の主要有害心イベントの再発を「なし」と判定する第２判定結果が取得される（Ｓ２−４）。

【0162】

得票率が設定されたカットオフ値よりも小さい場合（ステップ（Ｓ２−３）において「Ｎｏ」の場合）には、第１選抜学習モデル及び第２選抜学習モデルのいずれについても所定期間内の主要有害心イベントの再発リスクを「不明」とする第２判定結果が取得される（Ｓ２−５）。

【0163】

ここで、表１を参照して、複数の第１選抜学習モデルについての複数の第１判定結果に基づく投票結果の例について説明する。

【0164】

表１は、第１選抜学習モデルにかかる得票率及び第２判定結果の例を示す表である。ここでは、３個の第１データそれぞれについて４個の第１選抜学習モデルを用いて第２判定結果を得る例について説明する。なお、この例は、第２判定結果を得るにあたり、１年以内における主要有害心イベントの再発を「あり」と判定する場合の得票率を７５％（３／４）、すなわち、カットオフ値を０．７５とした例である。

【0165】

【表1】

【0166】

表１に示されるとおり、この例では、第１データ（１）については、第１学習モデル（１）〜（４）のいずれも主要有害心イベントの再発を「あり」と判定したため、「あり」の得票率は１００％（４／４）であり、結果として、設定されたカットオフ値を上回る（カットオフ値≦得票率）ため、第２判定結果は「あり」とされる。

【0167】

第１データ（２）については、第１学習モデル（１）〜（３）が「あり」と判定し、第１学習モデル（４）は「不明」と判定したため、「あり」の得票率は７５％（３／４）であり、結果として、第２判定結果は「あり」とされる。

【0168】

第１データ（３）については、第１学習モデル（１）〜（３）が「不明」と判定し、第１学習モデル（４）は「あり」と判定したため、「あり」の得票率は２５％（１／４）であり、設定されたカットオフ値よりも小さい（カットオフ値＞得票率）ため、結果として、第２判定結果は「不明」とされる。

【0169】

表１に示される例は、「あり」又は「不明」を予測する第１学習モデルにかかる例であるところ、「なし」又は「不明」を予測する第２学習モデルにかかる第２判定結果についても、表１中の第１学習モデル（１）〜（４）それぞれを第２学習モデル（１）〜（４）に置換し、第２判定結果を含め、「あり」を「なし」に反転することで同様に説明することができる。

【0170】

本実施形態の予測方法では、第１判定結果について投票が行われ、得票率に基づく第２判定結果を取得するステップが行われる。本実施形態では、予測精度について、用いられる学習モデルの数が増加するに従って、単体の学習モデルを用いる場合の予測性能と比較して改善する傾向がある。また、学習モデルの数が所定数に達すると、以後の学習モデルの数のさらなる増加に従って予測エラーの数が増加する傾向がある。

【0171】

このことは、用いられる学習モデルの数に最適値があることを示唆している。よって、予測精度を向上させるため（予測エラーの数を低減するため）、例えば、学習モデルの数と学習モデルの数の増加に伴う予測エラーの発生数の変動を観測するなどして、予測エラーの発生数が増加する方向に変動してしまった学習モデルの数よりも、用いる学習モデルの数を少なくすることにより、予測精度の向上（予測エラーの数の低減）を図ることができる。本実施形態においては、予測エラーの発生数の増加に加えて、「再発あり」の予測と「再発なし」の予測との投票数を揃えることも考慮すると、多くとも４０モデル程度ずつの第１選抜学習モデル及び第２選抜学習モデルをそれぞれ使用することが好ましい。

【0172】

本実施形態では、カットオフ値は、より目的に適した予測を行うために適宜調整することができる。ここで、第１選抜学習モデルの得票率のカットオフ値と、第２選抜学習モデルの得票率のカットオフ値とを異なる値に設定することができる。

【0173】

本実施形態では、主要有害心イベントが対象であるので、偽陰性、すなわち、再発なしと予測したにもかかわらず再発を起こしてしまったケースを可能な限り除外することが必要である。そこで、第１学習モデルのカットオフ値が第２学習モデルのカットオフ値よりも小さくなるように、すなわち、第２学習モデルのカットオフ値が第１学習モデルのカットオフ値よりも大きくなるように設定することで、偽陰性率をより低くすることができる。このようにすれば、より「除外診断」に適した予測方法とすることができる。

【0174】

また、第１学習モデルのカットオフ値が第２学習モデルのカットオフ値よりも大きくなるように設定することで、偽陽性率をより低くすることができる。結果として、より「確定診断」に適した予測方法とすることができる。

【0175】

カットオフ値は、予測結果が誤りであった場合の重大性などに鑑みて適宜調整される。

【0176】

本実施形態では、第１学習モデル（再発あり）の予測及び第２学習モデル（再発なし）の予測のいずれについても、投票により決定されるという性質上、カットオフ値が高すぎるといかなる第１データを適用したとしてもすべて「不明」と予測されてしまい、カットオフ値が低すぎると逆にすべて「再発あり」と予測されてしまうおそれがある。以上に鑑みると、本実施形態では、カットオフ値は、０．３〜０．７の範囲で設定することが好ましい。

【0177】

本実施形態においては、具体的には、第１学習モデルのカットオフ値を０．３〜０．６の範囲とし、第２学習モデルのカットオフ値を０．４〜０．７の範囲とすることが第１学習モデル及び第２学習モデルの投票結果の採択率に勾配を持たせる観点から好ましい。

【0178】

カットオフ値の評価について、図８及び図９を参照して説明する。図８及び図９は、カットオフ値の評価結果を説明するための表である。

【0179】

ここでは、全症例数が１２３１であるうち、陽性症例数（１年以内に主要有害心イベントを再発した患者数）が１００であり、陰性症例数（１年以内に主要有害心イベントを再発しなかった患者数）が１１３１であるモデルを用いる例を示す。

【0180】

第１学習モデルのカットオフ値を０．３５と設定した場合の第２学習モデルのカットオフ値の最適値を探索したところ、第２学習モデルの最適なカットオフ値は０．４５であった。

【0181】

図８及び図９から明らかなように、第１学習モデルのカットオフ値を０．３５と設定し、第２学習モデルのカットオフ値を０．４５に設定した場合（図９において、Ｐ３５＿Ｎ４５）の感度は０．７７であり、特異度は０．４５であった。

【0182】

なお、図８においては、予測結果が「不明」であったケースを非計数とした計算値が上段に示されており、下段には従来法に従った計算値が示されている。

【0183】

また、図８において、「ＹＹ」は「第１学習モデルが『再発あり』と判定し（Ｙ）、かつ第２学習モデルが『再発なし』と判定した（Ｙ）ケースの数を表しており、「ＵＵ」は「第１学習モデルが『不明』と判定し（Ｕ）、かつ第２学習モデルが『不明』と判定した（Ｕ）ケースの数を表している。

【0184】

次に、第１選抜学習モデルの第２判定結果及び第２選抜学習モデルの第２判定結果を統合して、第３判定結果を取得するステップ（Ｓ２−６）が行われる。

【0185】

このステップ（Ｓ２−６）により、第１選抜学習モデル（第１学習モデル）の「所定期間内における主要有害心イベントの再発あり、又は不明」にかかる分類問題の第２判定結果と、第２選抜学習モデル（第２学習モデル）の「所定期間内における主要有害心イベントの再発なし、又は不明」の分類問題にかかる第２判定結果とが統合される。結果として、第１選抜学習モデルの第２判定結果と、第２選抜学習モデルの第２判定結果とが統合された第３判定結果が取得される。

【0186】

具体的には、例えば（１）第１選抜学習モデルにかかる第２判定結果が「主要有害心イベントの再発あり」であり、かつ第２選抜学習モデルにかかる第２判定結果が「不明」である場合には、第３判定結果は「主要有害心イベントの再発あり」とされる。また、（２）第１選抜学習モデルにかかる第２判定結果が「不明」であり、かつ第２選抜学習モデルにかかる第２判定結果が「主要有害心イベントの再発なし」である場合には、第３判定結果は「主要有害心イベントの再発なし」とされる。

【0187】

なお、第１選抜学習モデルにかかる第２判定結果が「主要有害心イベントの再発あり」であり、かつ第２選抜学習モデルにかかる第２判定結果が「主要有害心イベントの再発なし」である場合、及び第１選抜学習モデルにかかる第２判定結果が「不明」であり、かつ第２選抜学習モデルにかかる第２判定結果も「不明」である場合には、第３判定結果は「不明」とされる。

【0188】

次に、第３判定結果に基づいて、主要有害心イベントの再発リスクを予測するステップ（Ｓ２−７）が行われる。
具体的には、既に説明したステップ（Ｓ２−６）により得られた第３判定結果に基づいて、前記（１）の場合には「所定の期間内において主要有害心イベントの再発のリスクが高い」と判定され、前記（２）の場合には「所定の期間内において主要有害心イベントの再発のリスクが低い」と判定され、前記（１）及び（２）以外の場合には、所定の期間内における主要有害心イベントの再発のリスクの判定は保留される。

【0189】

既に説明したとおり、このステップ（Ｓ２−７）は、通常、コンピュータにより行われる。しかしながら、第３判定結果に基づく再発リスクの予測、再発リスクの予測に基づく通院頻度の決定などは、例えば、医師、コンサルタントなどの知見に基づいたルール定義ファイルやアルゴリズムに従った処理とすることもできる。

【0190】

既に説明した第２判定結果に基づいて、予測された再発リスクの信頼度を算出するステップ（Ｓ２−８）を実施することができる。

【0191】

具体的には、まず、第２判定結果の取得にあたり、複数の学習モデルが、例えば、「再発あり」と判定した場合には「＋１」点、「再発なし」と判定した場合には「−１」点、「不明」と判定した場合には「０」点を付与し、同一の被検体にかかる全モデルについてのスコアの総和を算定し、かかる総和に対する「再発あり」のスコアの総和又は「再発なし」のスコアの総和の割合を、信頼度（％）として算出する。

【0192】

なお、算出される信頼度（％）の値は、−１００（％）（主要有害心イベントの再発のリスクが小さい）から１００（％）（主要有害心イベントの再発のリスクが大きい）までの値を取り得る。

【0193】

かかる信頼度（％）は、過去の症例に基づいて既に説明したとおり、機械学習による解析と学習に用いたデータにおける再発頻度とを紐つけして算出されているので、信頼度の指標として好適である。

【0194】

〔予測装置〕
本実施形態の予測方法、すなわち、前記ステップ（Ｓ１）及び（Ｓ２）は、通常、演算部を備えるコンピュータにより実行される。以下、図１０及び図１１を参照して、本実施形態に好適に用いることができる予測装置であるコンピュータ１０の構成について、説明する。

【0195】

図１０は、コンピュータの構成を説明するための模式的なブロック図である。図１１は、演算部の構成を説明するための模式的なブロック図である。

【0196】

図１０に示されるように、コンピュータ１０は、取得されたパラメータに基づいてデータを生成したり、かかるデータを格納させるなどの命令を処理する演算部１２を備えている。

【0197】

演算部１２は、例えば、マイクロプロセッサ（ＣＰＵ）、グラフィックプロセッサ（ＧＰＵ）などに相当する機能部である。

【0198】

コンピュータ１０は、入力されたデータ、生成されたデータ等を一時的に、あるいは所定期間記憶することができ、かつ読み出し可能な状態で格納する記憶部１４をさらに備えている。

【0199】

記憶部１４は、例えば、メモリ（ＲＡＭ）装置、ハードディスクドライブ、ＳＳＤなどに相当し、演算部１２と協働するように構成される機能部である。

【0200】

記憶部１４に、読み出し可能な状態で格納されて保存され得るデータの例としては、第１データ、第２データ（完全データ、部分データ、更新されたビットストリングのデータセット）、評価用データ、サポートベクターマシン、第１学習モデル、第２学習モデル、第１選抜学習モデル、第２選抜学習モデルが挙げられる。

【0201】

コンピュータ１０は、外部の機能部、機器とデータをやりとりするための例えばシリアル接続、パラレル接続等のインターフェースである入出力部１６などの機能部をさらに備えている。

【0202】

また、コンピュータ１０には、入出力部１６に接続されることにより機能する、キーボード、マウスなどの入力装置２２、データを視覚的に表示できる表示機器、紙媒体などに生成されたデータを出力することができるプリンター、データベースを構成する読み出し及び書き込みが可能な大容量の外部記憶装置３２などのいわゆるコンピュータハードウェア資源、あるいはこれらの各構成要素に対応する専用のハードウェア資源が、コンピュータ１０が備える機能部と協働するように接続される構成とすることもできる。

【0203】

具体的には、例えば、既に説明した第１データについてのデータベースと第２データについてのデータベースとを格納する外部記憶装置、あるいは第１データをデータベースとして格納するハードウェア資源と第２データをデータベースとして格納するハードウェア資源とをそれぞれ別体の外部記憶装置として構成し、これらを既に説明したコンピュータの設置地から物理的に離間した遠隔地に設置し、これらを電気通信回線により協働可能なように接続するように構成してもよい。

【0204】

ここで「電気通信回線により接続されている」とは、電気、光等の媒体による有線または無線による情報回線により、データ、制御信号等をやりとりすることができるように接続して、接続された機器が協働できるように構成されていることを意味している。

【0205】

本実施形態の予測方法を実施するための予測装置は、単体のコンピュータで構成されていても、複数のコンピュータ（サーバ、操作端末なども含む。）及びその他の周辺機器が電気通信回線により一体的に接続されたシステムとして構成されていてもよい。

【0206】

また、上述した実施形態で説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。その他、上述の説明及び図面で示した処理手順、制御手順、具体的名称、各種のデータ、パラメータを含む情報、画面例、データベースの構成については、特記する場合を除いて任意に変更することができる。

【0207】

本実施形態の予測装置は、所定期間内における主要有害心イベントの再発リスクを予測する予測装置である。

【0208】

より具体的には、予測装置は、被検体から採取された試験試料を用いて測定されたか、又は被検体から得られた指標パラメータであって、Ｃ反応性タンパク質量、Ｄダイマー量、ＨＤＬ−コレステロール量、ＬＤＬ−コレステロール量、プロトロンビン時間（国際標準比（ＩＮＲ））、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン／フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素（ＬＤＨ）量、尿酸量、ｐＨ、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術（ＰＣＩ）を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく（定性）、尿糖（定性）、入院理由及び入院時現症からなる群より選択頻度に基づいて選択される２種以上の指標パラメータに基づく第１データを生成して取得する第１データ生成取得部と、第１データ生成取得部が取得した前記第１データを、複数の第２データを含むデータ群に基づいて構築された学習モデルで処理して、所定期間内における主要有害心イベントの再発リスクを予測する予測部とを備える。

【0209】

図１１に示されるように、本実施形態の予測装置１００は、既に説明した演算部１２において相互に協働して機能する複数の機能部を含んでいる。本実施形態の予測装置１００は、第１データ生成取得部１２ａ、第２データ生成取得部１２ｂ、学習モデル構築部１２ｄ、学習モデル選抜部１２ｅ、第１判定結果生成取得部１２ｆ、第２判定結果生成取得部１２ｇ、第３判定結果生成取得部１２ｈ及び予測部１２ｉを備えている。

【0210】

本発明の一実施形態の予測装置１００は、被検体から採取された試験試料を用いて測定されたか、又は被検体から得られた２以上の指標パラメータを取得し、該指標パラメータに基づいて第１データを生成して取得する第１データ生成取得部１２ａと、第１データ生成取得部１２ａが取得した第１データを、第１選抜学習モデル及び第２選抜学習モデルにより処理し、該第１選抜学習モデル及び第２選抜学習モデルごとに第１判定結果を生成して取得する第１判定結果生成取得部１２ｆと、第１判定結果生成取得部１２ｆが取得した複数の第１選抜学習モデルの複数の第１判定結果及び複数の第２選抜学習モデルの複数の第１判定結果に基づいて、第２判定結果を生成して取得する第２判定結果生成取得部１２ｇと、第２判定結果生成取得部１２ｇが取得した第１選抜学習モデルの第２判定結果及び第２選抜学習モデルの第２判定結果を統合して、第３判定結果を生成して取得する第３判定結果生成取得部１２ｈと、第３判定結果生成取得部１２ｈが取得した第３判定結果に基づいて、主要有害心イベントの再発リスクを予測する予測部１２ｉとを備えている。

【0211】

別の一実施形態の予測装置１００は、所定期間内に主要有害心イベントを再発したか、又は再発しなかった複数の被検体についての複数の指標パラメータからなる群から選択された２種以上の該指標パラメータに基づく第２データを生成して取得する第２データ生成取得部１２ｂと、第２データ生成取得部１２ｂから取得した第２データに基づいて、主要有害心イベントの再発あり又は不明を予測する複数の第１学習モデル、及び前記主要有害心イベントの再発なし又は不明を予測する複数の第２学習モデルを構築する学習モデル構築部１２ｄと、学習モデル構築部１２ｄが構築した複数の第１学習モデル及び複数の第２学習モデルごとに、複数の第１選抜学習モデル、及び複数の第２選抜学習モデルを選抜する学習モデル選抜部１２ｅとをさらに含むことが好ましい。

【0212】

さらに別の一実施形態の予測装置１００においては、第２データ生成取得部１２ｂが、複数の指標パラメータについて取捨選択を行い、部分データを生成することにより、複数の部分データ及び部分データの生成に用いられた完全データ（症例データ）を含み得る第２データを生成する機能部であることが好ましい。

【0213】

さらにまた別の一実施形態の予測装置１００においては、学習モデル構築部１２ｄが、第２データ生成取得部１２ｂから取得した第２データを複数のデータ群に分割し、該データ群それぞれを教師データとして用い、かつ複数の該データ群ごとに異なる複数のパラメータ条件で行われる機械学習により、複数の第１学習モデル及び複数の第２学習モデルを構築する機能部であることが好ましい。

【0214】

また別の一実施形態の予測装置１００においては、第２判定結果生成取得部１２ｇが、複数の第１選抜学習モデルの複数の第１判定結果及び複数の第２選抜学習モデルの複数の第１判定結果について投票を行い、第１選抜学習モデル及び第２選抜学習モデルごとに得票率に基づく第２判定結果を生成して取得する機能部であることが好ましい。

【0215】

〔プログラム及びプログラムが記録された記憶媒体〕
本発明は、既に説明した本実施形態の予測方法を実施するためのプログラム及びプログラムが記録された記憶媒体にも関する。

【0216】

ここで、「プログラム」とは任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコード、バイナリコードなどの形式を問わない。なお、「プログラム」は、必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されていてもよく、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）に代表される別個のプログラムと協働してその機能を達成するものを含む。

【0217】

なお、プログラムは、通常、既に説明した記憶部１４に準じた記録媒体に記録されており、必要に応じて予測方法を実施するコンピュータに読み取られる。記録媒体に記録されたプログラムを各装置で読み取るための具体的な構成、読み取り手順、読み取り後のインストール手順などについては、周知の構成及び手順を用いることができる。

【0218】

また、「記録媒体」は、任意の「可搬の物理媒体」、任意の「固定用の物理媒体」、「通信媒体」を含む。なお、「可搬の物理媒体」とはフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤなどである。「固定用の物理媒体」とは、各種コンピュータシステムに内蔵されるＲＯＭ、ＲＡＭ、ハードディスクドライブなどである。「通信媒体」は、ＬＡＮ、ＷＡＮ、インターネットなどのネットワークを介してプログラムを送信する場合における通信回線や搬送波のように、短期間、プログラムを保持する。

【0219】

本発明の一実施形態のプログラムは、演算部１２を備えるコンピュータ１０により実行される下記のステップを含む、所定期間内における主要有害心イベントの再発リスクを予測するためのプログラムであって、演算部１２が、被検体から採取された試験試料を用いて測定されたか、又は被検体から得られた指標パラメータであって、Ｃ反応性タンパク質量、Ｄダイマー量、ＨＤＬ−コレステロール量、ＬＤＬ−コレステロール量、プロトロンビン時間（国際標準比（ＩＮＲ））、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン／フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素（ＬＤＨ）量、尿酸量、ｐＨ、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術（ＰＣＩ）を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく（定性）、尿糖（定性）、入院理由及び入院時現症からなる群より選択頻度に基づいて選択される２種以上の指標パラメータに基づく第１データを取得するステップと、演算部１２が、第１データを、複数の第２データを含むデータ群に基づいて構築された学習モデルで処理して、再発リスクを予測するステップとを含む。

【0220】

本発明の他の一実施形態のプログラムにおいては、第２データは所定期間内における主要有害心イベントの再発歴を指標パラメータとして含むデータであり、かつ第２データは、Ｃ反応性タンパク質量、Ｄダイマー量、ＨＤＬ−コレステロール量、ＬＤＬ−コレステロール量、プロトロンビン時間（国際標準比（ＩＮＲ））、γ−グルタミルトランスペプチターゼ量、アスパラギン酸アミノトランスフェラーゼ量、アミラーゼ量、アラニンアミノトランスフェラーゼ量、アルカリホスファターゼ量、アルブミン量、アンチトロンビン量、グリコヘモグロビン量、クロール量、トリグリセリド量、フィブリノゲン量、フィブリン／フィブリノゲン分解産物量、活性化部分トロンボプラスチン時間、血清クレアチニン量、血中尿素窒素量、血糖量、総コレステロール量、総ビルビリン量、単球数、直接ビリルビン量、乳酸脱水素酵素（ＬＤＨ）量、尿酸量、ｐＨ、カリウム量、カルシウム量、ナトリウム量、赤血球数、ヘマトクリット値、ヘモグロビン量、リンパ球数、血小板数、好塩基球数、好酸球数、好中球数、性別、糖尿病既往歴、高血圧症既往歴、脂質異常症既往歴、喫煙習慣の有無、貧血の有無、急性心筋梗塞の既往歴、冠動脈形成術（ＰＣＩ）を必要とした狭心症の既往歴、心不全の既往歴、アブレーション治療を必要とした心房細動の既往歴、脳梗塞の既往歴、末梢動脈疾患の既往歴、大動脈解離の既往歴、透析、年齢、身長、体重、心拍数、尿たんぱく（定性）、尿糖（定性）、入院理由及び入院時現症からなる群よりさらに選択される１種以上の指標パラメータに基づくデータであることが好ましい。

【0221】

本発明の他の一実施形態のプログラムにおいては、第１データ及び前記第２データが、心筋マーカーに由来する指標パラメータをさらに含む群から選択される指標パラメータに基づくデータであることが好ましい。

【0222】

本発明のまた他の一実施形態のプログラムにおいては、心筋マーカーが、クレアチンキナーゼＭＢ、ヒト心臓型脂肪酸結合タンパク質、心筋トロポニンＩ、心筋トロポニンＴ、脳性ナトリウム利尿ペプチド、プロ脳性ナトリウム利尿ペプチド又はその切断産物、ミエロペルオキシダーゼ、胎盤増殖因子、推算糸球体濾過量、ホモシステイン、虚血修飾アルブミン、可溶性ＣＤ４０リガンド、リポタンパク質関連ホスホリパーゼＡ２、コリン、及び高感度Ｃ反応性タンパク質からなる群から選択される１種以上であることが好ましい。

【0223】

本発明のさらにまた他の一実施形態のプログラムにおいては、第１データ及び前記第２データが、心電図に由来する指標パラメータをさらに含む群から選択される指標パラメータに基づくデータであることが好ましい。

【0224】

本発明のまた他の一実施形態のプログラムにおいては、心電図に由来する指標パラメータが、Ｐ波の高さ、Ｒ波の間隔、ＰＱ時間、Ｒ波の高さ、ＱＲＳ幅、ＳＴ部分の変化量、Ｔ波の高さ、及び心電図をフーリエ変換して得られるパワースペクトルからなる群から選択されることが好ましい。

【0225】

本発明のさらにまた他の一実施形態のプログラムにおいては、試験試料が、血液又は血液由来試料であることが好ましい。

【0226】

本発明のまた他の一実施形態のプログラムにおいては、主要有害心イベントが、急性心筋梗塞、冠血行再建術が施術された狭心症、入院を要した心不全、心房細動、脳卒中、又は循環器を理由とする死亡であることが好ましい。

【0227】

本発明のさらにまた他の一実施形態のプログラムにおいては、主要有害心イベントの再発リスクを予測するステップが、第２データを複数のデータ群に分割し、該データ群それぞれを教師データとして用い、かつ複数の該データ群ごとに異なる複数のパラメータ条件で行われる機械学習により、主要有害心イベントの再発があるか又は不明であるかを予測する複数の第１学習モデル、及び主要有害心イベントの再発がないか又は不明であるかを予測する複数の第２学習モデルを構築するステップをさらに含み、第１データを、前記第１学習モデル及び第２学習モデルにより処理して、所定期間内における主要有害心イベントの再発リスクを予測するステップであることが好ましい。

【0228】

本発明のまた他の一実施形態のプログラムにおいては、主要有害心イベントの再発リスクを予測するステップが、複数の第１学習モデル及び複数の第２学習モデルごとに、感度及び陽性的中率に基づいて複数の第１選抜学習モデル、及び複数の第２選抜学習モデルを選抜するステップをさらに含み、第１データを、第１選抜学習モデル及び第２選抜学習モデルにより処理して、所定期間内における主要有害心イベントの再発リスクを予測するステップであることが好ましい。

【0229】

本発明のさらにまた他の一実施形態のプログラムにおいては、主要有害心イベントの再発リスクを予測するステップが、第１データを、第１選抜学習モデル及び第２選抜学習モデルにより処理し、第１選抜学習モデル及び第２選抜学習モデルごとに第１判定結果を取得し、該第１判定結果について投票を行い、第１選抜学習モデル及び第２選抜学習モデルごとに得票率に基づく第２判定結果を取得し、第１選抜学習モデルの第２判定結果及び第２選抜学習モデルの第２判定結果を統合して、第３判定結果を取得し、該第３判定結果に基づいて、所定期間内における主要有害心イベントの再発リスクを予測するステップであることが好ましい。

【0230】

〔実施例〕
以下、本発明を詳細に説明するために実施例を示す。本発明は下記の実施例に限定されない。

【0231】

＜実施例１＞（データの調製及び学習モデルの構築）
（１）被検体及び指標パラメータの収集
２０１２年９月２０日から２０１４年１１月２８までの期間中に、発症４８時間以内の急性心筋梗塞（ＡＭＩ）、冠動脈形成術（ＰＣＩ）を必要とした狭心症（ＡＰ）、心不全（ＨＦ）、アブレーション治療を必要とした心房細動（ＡＦ）および脳梗塞（ＣＩ）のうちのいずれかを理由として入院した患者２２７３名を被検体（群）とした。

【0232】

入院後３６５日時点までの循環器系の疾患による死亡（ｃａｒｄｉａｃｄｅａｔｈ）、心筋梗塞（ｍｉ）、脳卒中（ｓｔｒｏｋｅ）、及び心不全（ｈｆ）のいずれかの発症をＭＡＣＥの再発と定義し、予測目標をＭＡＣＥの再発の有無とした。

【0233】

被検体について、指標パラメータを収集して第１データを構成した。用いられた指標パラメータを下記表２−１及び２−２に示す。

【0234】

【表2-1】

【0235】

【表2-2】

【0236】

被検体の入院日を基準として、２０１３年１０月１日の前後で被検体群（対応する第１データ群）を２群に分割した。具体的には、入院日が２０１３年９月３０日以前である１６５９例を学習モデル構築用のデータ群（ｄｅｖｅｌｏｐｍｅｎｔｃｏｈｏｒｔ）とし、入院日が２０１３年１０月１日以後である６１４例を評価用のデータ群（ｖａｌｉｄａｔｉｏｎｃｏｈｏｒｔ）とした。

【0237】

結果として、学習モデル構築用のデータ群のうちの１０２例、評価用のデータ群のうちの５６例が「再発あり」に該当していた。

【0238】

（２）部分データの生成
まず、上記（１）の学習モデル構築用のデータ群を、第１分割データ群及び第２分割データ群の２つのデータ群にさらに分割した。ここで、第１分割データ群及び第２分割データ群（評価用データ群）に含まれるデータの数の割合が、第１分割データ群：第２分割データ群＝６：４になるように分割した。

【0239】

次いで、第１分割データ群を用いて、４００パターンの部分データをランダムに生成した。

【0240】

部分データの生成は、下記のとおり行った。
（ｉ）第１分割データ群に属するデータ（完全データ）から、指標パラメータの一部（列）を削除した。なお、ＩＤと期間内のＭＡＣＥの再発の有無に関する指標パラメータはすべての部分データで維持した。
（ｉｉ）次に、指標パラメータの一部が削除されたデータから、さらに症例データのうちの一部（行）を削除した。
（ｉｉｉ）上記（ｉ）の処理と上記（ｉｉ）の処理を繰り返して、複数の異なる部分データを生成した。部分データにおける指標パラメータの組み合わせ、及び症例データの組み合わせはビットストリングとして記述し、一次元の情報として管理した。得られた部分データをもとの第１分割データ群に含めて第２データとして得た。

【0241】

（３）機械学習による学習モデルの構築
得られた第２データを教師データとして用いる機械学習を行うことにより複数の学習モデルを構築した。機械学習にはＳＶＭ（ｅ１０７１パッケージ）を用い、カーネル関数としてＲＢＦカーネルを用いた。識別境界線の複雑さを調節するパラメータγは０．０１とした。ＳＶＭにおけるソフトマージンの許容パラメータＣは１００に固定した。結果として、総数４００の学習モデルを構築した。

【0242】

（４）構築された学習モデルによる予測性能の評価
上記（２）の第２分割データ群を用いて、すべての学習モデルの予測結果を評価した。それぞれの学習モデルの予測結果はパレートランクにより評価した。具体的には、既に説明した目的関数Ｏ_１及びＯ_２による評価値（Ｏ_１，１／Ｏ_２）を得て、かかる評価値に基づいて感度及び陽性的中率を指標とするパレートランクにより学習モデルを評価した。

【0243】

（５）学習モデル（選抜学習モデル）の選抜
得られた評価結果に基づいて、評価値（Ｏ_１，１／Ｏ_２）がより小さい、すなわち感度及び陽性的中率がいずれも高い学習モデルを選抜学習モデルとして選抜した。具体的には、感度が０．７以上であり、かつ陽性的中率が０．７以上である学習モデルを選抜学習モデルとして選抜した。結果として、総数４０の選抜学習モデルが選抜された。

【0244】

なお、併せて、選抜学習モデルを構築することができた総数４０の第２データ（ビットストリング）を選抜した。

【0245】

（６）遺伝的アルゴリズムを用いる第２データの最適化
非優越ソート遺伝的アルゴリズム（ＮＳＧＡ；ＥｌｉｔｉｓｔＮｏｎ−ＤｏｍｉｎａｔｅｄＳｏｒｔｉｎｇＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍ）を用い、既に説明した手法により第２データを最適化して更新した。具体的には、上記（５）において選抜されたビットストリング（群）を第一世代とし、一世代あたりのモデル数を４００とし、アーカイブサイズを４０として、ビットストリングあたりの突然変異率を１０％とし、一点交叉させることにより変異を導入した。これを５世代にわたって繰り返し、より予測精度に優れた学習モデルを構築することができる、すなわち成績のよいビットストリング（第２データ）を得た。

【0246】

＜実施例２＞（ＭＡＣＥの再発の予測）
上記実施例１により構築された選抜学習モデルと評価用のデータ群（ｖａｌｉｄａｔｉｏｎｃｏｈｏｒｔ）とを用いて、既に説明したとおりＭＡＣＥの再発を予測した。
得られた予測結果にもとづいて、１年再発リスクの層別化を行った。結果を図１２に示す。図１２は、評価用のデータ群（Ｏｒｉｇｉｎａｌ：点線）をＭＡＣＥ高リスク群（Ｈｉｇｈ：黒線）と低リスク群（Ｌｏｗ：灰色線）とに層別化した結果を示すグラフである。

【0247】

結果として、評価用のデータ群（ｏｒｉｇｉｎａｌ）（ｎ＝６１４ｗｉｔｈ５６ｏｂｓｅｒｖａｔｉｏｎｓ、９．１％）を、高リスク群（Ｈｉｇｈ）（ｎ＝２４７のうちの５１例、２０．６％）と低リスク群（Ｌｏｗ）（ｎ＝３６７のうちの５例、１．４％）の２群に分割することができた。

【0248】

図１２に示されるように、これらの２群ともに、ＭＡＣＥを再発した割合（ａ）及び１年後までの累積生存率（ｂ）について、評価用のデータ群のＭＡＣＥを再発した割合及び１年後までの累積生存率と比較して有意な差が見られた。

【0249】

＜実施例３＞（予測性能の評価）
評価用のデータ群を用いた場合の予測性能についてＡＵＣ解析により評価した。結果を図１３（ａ）に示す。図１３（ａ）は、予測性能を示すグラフである。
図１３（ａ）に示されるように、予測性能は、ＡＵＣ＝０．８５３（９５％ＣＩ＝０．８１６−０．８９０）であった。
また、特異度を０．９に固定した条件での感度は、０．６７２（９５％ＣＩ＝０．５９５ー０．７６２）であった。

【0250】

＜比較例１＞（予測性能の評価）
従来用いられているＣｏｘ比例ハザードモデルを用いた回帰分析により、評価用のデータ群を用いた場合の予測性能を評価した。図１３（ｂ）、（ｃ）及び（ｄ）に示す。図１３（ｂ）、（ｃ）及び（ｄ）は従来用いられている手法による予測性能を示すグラフである。

【0251】

図１３（ｂ）に示されるとおり、予測性能は、ＡＵＣ＝０．８１９（９５％ＣＩ＝０．７６８−０．８６９）であった。
また、図１３（ｃ）に示されるとおり、ＧＲＡＣＥｓｃｏｒｅでは、ＡＵＣ＝０．６０９（９５％ＣＩ＝０．５６２−０．６５６）であった。
さらに、図１３（ｄ）に示されるとおり、Ｆｒａｍｉｎｇｈａｍｒｉｓｋｓｃｏｒｅでは、ＡＵＣ＝０．５３５（９５％ＣＩ＝０．４８８−０．５８２）であった。
このように、比較例１にかかる上記の結果は、実施例３の結果と比較していずれも劣っていた。

【0252】

加えて、従来のＣｏｘ比例ハザードモデルを用いた場合に特異度を０．９に固定した条件での感度は、０．３９３（９５％ＣＩ＝０．２５０−０．５３６）であった。
このように、比較例１にかかる感度は、実施例３の感度と比較して劣っていた。

【0253】

＜実施例４＞（指標パラメータの重要度の評価）
上記（６）により得られた成績のよいビットストリング（第２データ）が採用している指標パラメータの選択頻度を比較することで、指標データの重要度を評価した。
結果を図１４に示す。図１４は、全体の選抜学習モデルのうちのある指標パラメータが用いられている選抜学習モデルの割合に基づく選択頻度を示すグラフである。縦軸は指標パラメータを示し、横軸は選択頻度を示していており、選択頻度が高い変数ほど予測の上で重要であると考えられる。

【符号の説明】

【0254】

１０コンピュータ
１２演算部
１２ａ第１データ生成取得部
１２ｂ第２データ生成取得部
１２ｄ学習モデル構築部
１２ｅ学習モデル選抜部
１２ｆ第１判定結果生成取得部
１２ｇ第２判定結果生成取得部
１２ｈ第３判定結果生成取得部
１２ｉ予測部
１４記憶部
１６入出力部
２２入力装置
３２外部記憶装置
１００予測装置

【図1】