(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023002021
(43)【公開日】2023-01-10
(54)【発明の名称】情報処理システム
(51)【国際特許分類】
G06Q 10/04 20230101AFI20221227BHJP
【FI】
G06Q10/04
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021102999
(22)【出願日】2021-06-22
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110000350
【氏名又は名称】ポレール弁理士法人
(72)【発明者】
【氏名】中川 瞬希
(72)【発明者】
【氏名】竹内 渉
(72)【発明者】
【氏名】垂水 信二
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049AA04
(57)【要約】
【課題】低頻度な診療行為が含まれるデータについて予測精度向上を図る。
【解決手段】複数の患者の医療情報に基づき、患者毎のイベントの遷移情報を生成する遷移情報生成部110と、生成された遷移情報から、診療行為の頻度に関する閾値に基づき、イベントに含まれる診療行為のプロセスを複数のグループに分類する診療プロセス分類部111と、グループの少なくとも一部において、診療行為のプロセスの項目を集約する診療プロセス粒度調整部112と、グループ毎に予測モデルを生成する予測モデル生成部113と、新規患者の医療情報の入力データに基づき、グループのいずれかに分類し、予測モデルを用いて新規患者のイベントの発生を出力する出力部114と、を備える情報処理システムを提供する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
医療情報を処理する情報処理システムであって、
複数の患者の医療情報に基づき、前記患者毎のイベントの遷移情報を生成する遷移情報生成部と、
前記遷移情報から、診療行為の頻度に関する閾値に基づき、前記イベントに含まれる診療行為のプロセスを複数のグループに分類する診療プロセス分類部と、
前記グループの少なくとも一部において、前記診療行為のプロセスの項目を集約する診療プロセス粒度調整部と、
前記グループ毎に予測モデルを生成する予測モデル生成部と、
新規患者の医療情報の入力データに基づき、前記グループのいずれかに分類し、前記予測モデルを用いて前記新規患者のイベントの発生を出力する出力部と、を備える、
ことを特徴とする情報処理システム。
【請求項2】
請求項1に記載の情報処理システムであって、
前記予測モデル生成部は、前記頻度に関する閾値に基づき、前記グループ毎の前期予測モデルの生成手段を変更する、
ことを特徴とする情報処理システム。
【請求項3】
請求項1又は2に記載の情報処理システムであって、
前記診療プロセス分類部は、前記遷移情報から、診療行為の頻度及び平均情報量に関する閾値に基づき、前記イベントに含まれる診療行為のプロセスを複数のグループに分類する、ことを特徴とする情報処理システム。
【請求項4】
請求項1乃至3のいずれか一項に記載の情報処理システムであって、
前記出力部は、新規患者の医療情報の入力データに基づき、前記グループのいずれかに分類し、前記予測モデルを用いて前記新規患者のイベントの発生を出力する、
ことを特徴とする情報処理システム。
【請求項5】
請求項1乃至4のいずれか一項に記載の情報処理システムであって、
前記出力部は、新規患者の医療情報の入力データに基づき、前記グループのいずれかに分類し、前記予測モデルを用いて前記グループの前記遷移情報を出力する、
ことを特徴とする情報処理システム。
【請求項6】
請求項1乃至5のいずれか一項に記載の情報処理システムであって、
前記患者の医療情報から指定した病名及び診療期間を有する医療情報を抽出する分析対象者抽出部を更に有する、
ことを特徴とする情報処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、医療情報を処理する情報処理システムに関する。
【背景技術】
【0002】
近年、患者状態や診療行為などが含まれる医療情報に機械学習を用いて、患者の生死などのイベントの発生を予測し、その結果に基づいて医師の診療を支援することが行われている。
【0003】
特許文献1には、診療行為のプロセスを臨床ガイドラインから複数選択し、選択した診療行為のプロセス毎に予測モデルをそれぞれ生成し、患者アウトカムの確率を算出し、医師に提示することで、医師の診療を支援することが記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】US2014-0058738号明細書
【発明の概要】
【発明が解決しようとする課題】
【0005】
前述の医療情報には、精密医療(Precision medicine)の発展に伴う診療の多様化及び複雑化により、低頻度な診療行為が含まれている場合がある。このようなデータに機械学習を用いた場合、目的変数との相関が低いデータにも基づいて学習が行われ、十分な予測精度が得られない可能性がある。
【0006】
そのため、医療情報を診療支援に活用するには、低頻度な診療行為が含まれるデータについて予測精度向上を図ることが課題であったが、その方法は特許文献1では考慮されていない。
【課題を解決するための手段】
【0007】
本発明においては、上記課題を解決するため、医療情報を処理する情報処理システムであって、複数の患者の医療情報に基づき、前記患者毎のイベントの遷移情報を生成する遷移情報生成部と、前記遷移情報から、診療行為の頻度に関する閾値に基づき、前記イベントに含まれる診療行為のプロセスを複数のグループに分類する診療プロセス分類部と、前記グループの少なくとも一部において、前記診療行為のプロセスの項目を集約する診療プロセス粒度調整部と、前記グループ毎に予測モデルを生成する予測モデル生成部と、新規患者の医療情報の入力データに基づき、前記グループのいずれかに分類し、前記予測モデルを用いて前記新規患者のイベントの発生を出力する出力部と、を備える構成の情報処理システムを提供する。
【発明の効果】
【0008】
本発明によれば、診療行為のプロセスを複数のグループに分割し、機械学習において要求される頻度を満たすように診療行為のプロセスの項目の粒度を調整し、グループ毎に予測モデルを生成することにより、低頻度な診療行為が含まれたデータからでもイベントの発生を高精度に予測することができる。
【図面の簡単な説明】
【0009】
【
図1】実施例1の情報処理システムのハードウェア構成を示すブロック図である。
【
図2】実施例1に係るシステムの患者情報記憶部に格納される患者情報のデータの構成を説明する図である。
【
図3】実施例1に係るシステムの検査情報記憶部に格納される検査情報のデータの構成を説明する図である。
【
図4】実施例1に係るシステムの診断情報記憶部に格納される診断情報のデータの構成を説明する図である。
【
図5】実施例1に係るシステムの診療情報記憶部に格納される診療情報のデータの構成を説明する図である。
【
図6】実施例1に係るシステムの辞書情報記憶部に格納される辞書情報のデータの構成を説明する図である。
【
図7】実施例1に係るシステムの分析対象者抽出処理のフローチャートである。
【
図8】実施例1に係るシステムの目的変数生成処理において生成する目的変数情報を示す図である。
【
図9】実施例1に係るシステムの遷移情報生成処理のフローチャートである。
【
図10】実施例1に係るシステムの遷移情報生成処理において生成する遷移情報を示す図である。
【
図11】実施例1に係るシステムの診療プロセス分類処理のフローチャートである。
【
図12】実施例1に係るシステムの診療プロセス分類処理において計算する診療行為のプロセスの頻度を示す図である。
【
図13】実施例1に係るシステムの診療プロセス粒度調整処理のフローチャートである。
【
図14】実施例1に係るシステムの予測モデル生成処理のフローチャートである。
【
図15】実施例1に係るシステムの出力処理のフローチャートである。
【
図16】実施例1に係るシステムの出力処理において出力する診療支援画面を示す図である。
【
図17】実施例2に係るシステムの診療プロセス分類処理のフローチャートである。
【
図18】実施例2に係るシステムの診療プロセス分類処理において計算する診療行為のプロセスの頻度及び平均情報量を示す図である。
【発明を実施するための形態】
【0010】
以下、本発明を実施するための形態を図面に従い順次説明する。
【実施例0011】
実施例1は、医療情報を処理する情報処理システムであって、複数の患者の医療情報に基づき、前記患者毎のイベントの遷移情報を生成する遷移情報生成部と、前記遷移情報から、診療行為の頻度に関する閾値に基づき、前記イベントに含まれる診療行為のプロセスを複数のグループに分類する診療プロセス分類部と、前記グループの少なくとも一部において、前記診療行為のプロセスの項目を集約する診療プロセス粒度調整部と、前記グループ毎に予測モデルを生成する予測モデル生成部と、新規患者の医療情報の入力データに基づき、前記グループのいずれかに分類し、前記予測モデルを用いて前記新規患者のイベントの発生を出力する出力部と、を備える情報処理システムの実施例である。
【0012】
すなわち、本実施例の情報処理システムでは、頻度に関する閾値に基づいて診療行為のプロセスを複数のグループに分割し、閾値に満たないグループにおける診療行為のプロセスの項目の粒度を集約し、グループ毎に予測モデルを生成する。これにより、機械学習において要求される頻度を満たすように診療行為のプロセスの項目の粒度を調整し、イベントの発生を高精度に予測することができる。
【0013】
図1は、実施例1の情報処理システムのハードウェア構成を示すブロック図である。情報処理システムは、サーバ101及びデータベース102を備える。サーバ101とデータベース102とは、サーバ101がデータベース102に格納されたデータにアクセス可能なように接続される。
【0014】
サーバ101は、入力装置103、出力装置104、プログラムを実行する演算装置105、プログラムを格納するメモリ106及び記憶装置107を有する計算機である。入力装置103は、マウス及びキーボードなどであり、サーバ101への入力を受け付けるインターフェースである。出力装置104は、ディスプレイ装置及びプリンタなどであり、演算装置105の演算結果を出力する。
【0015】
演算装置105は、CPU及びGPUなどであり、メモリ106にロードされたプログラムを実行する。メモリ106は、不揮発性記憶素子であるROM及び揮発性記憶素子であるRAMを含む。ROMは、不変のプログラム(例えば、BIOS)などを格納する。RAMは、DRAM(Dynamic Random Access Memory)のような高速かつ揮発性記憶素子であり、記憶装置107に格納されたプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。記憶装置107は、磁気記憶装置(HDD)及びフラッシュメモリ(SSD)などの不揮発性記憶装置であり、演算装置105によって実行されるプログラム及びプログラム実行時に使用されるデータを格納する。
【0016】
具体的には、記憶装置107は、分析対象者抽出部108、目的変数生成部109、遷移情報生成部110、診療プロセス分類部111、診療プロセス粒度調整部112、予測モデル生成部113、出力部114の各部を実装するためのプログラムを格納する。
【0017】
分析対象者抽出部108は、所定のプログラムの実行によって、分析対象者を抽出する(
図7参照)。目的変数生成部109は、所定のプログラムの実行によって、患者毎に目的変数を生成する(
図8参照)。遷移情報生成部110は、所定のプログラムの実行によって、患者毎にイベントの遷移情報を生成する(
図9参照)。診療プロセス分類部111は、所定のプログラムの実行によって、診療行為の頻度に関する閾値に基づき、前記イベントに含まれる診療行為のプロセスを複数のグループに分類する(
図11参照)。診療プロセス粒度調整部112は、所定のプログラムの実行によって、閾値を満たさないグループにおける診療行為のプロセスの項目の粒度を調整する(
図13参照)。予測モデル生成部113は、所定のプログラムの実行によって、分類したグループ毎に予測モデルを生成する(
図14参照)。
【0018】
出力部114は、所定のプログラムの実行によって、新規患者の入力データをいずれかのグループに分類し、予測モデルを用いて新規患者のイベントの発生を出力する(
図15参照)。データベース102は、サーバ101が医療情報を分析するためのデータ、すなわち、患者情報記憶部115(
図2参照)、検査情報記憶部116(
図3参照)、診断情報記憶部117(
図4参照)、診療情報記憶部118(
図5参照)、辞書情報記憶部119(
図6参照)を格納する。
【0019】
図2は、実施例1の患者情報記憶部115に格納される患者情報の構成を説明する図である。患者情報は、患者ID201、性別202、年齢203、入院日204、退院日205及び死亡日206のデータを含む。
【0020】
患者ID201は、患者を一意に識別する識別子である。性別202は、患者の性別である。年齢203は、患者の年齢である。入院日204は、患者が入院した年月日である。
退院日205は、患者が退院した年月日である。患者が退院していない場合はNULLを割り当てる。死亡日206は、患者が死亡した年月日である。患者が死亡していない場合はNULLを割り当てる。
【0021】
図3は、実施例1のシステムの検査情報記憶部116に格納される検査情報の構成を説明する図である。検査情報は、患者ID201、検査日301、検査項目302、測定値303及び単位304のデータを含む。検査日301は、医師が検査を実施した年月日である。検査項目302は、検査の項目である。測定値303は、検査項目302の測定値である。測定単位304は、検査項目302の測定単位である。
【0022】
図4は、実施例1のシステムの診断情報記憶部117に格納される診断情報の構成を説明する図である。診断情報は、患者ID201、診断日401及び病名402のデータを含む。診断日401は、医師が患者の病気を診断した年月日である。病名402は、病気の名称である。
【0023】
図5は、実施例1の診療情報記憶部118に格納される診療情報の構成を説明する図である。診療情報は、患者ID201、診療日501及び診療項目502のデータを含む。診療日501は、医師が診療を実施した年月日である。診療項目502は、診療行為の項目である。
【0024】
図6は、実施例1のシステムの辞書情報記憶部119に格納される辞書情報の構成を説明する図である。辞書情報は、診療項目502、診療項目分類第1レベル601及び診療項目分類第2レベル602のデータを含む。
【0025】
診療項目分類第1レベル601及び診療項目分類第2レベル602は、いずれも診療項目502の分類であり、部位や作用能などが同系統である診療項目502に対しては同じ分類が割り当てられる。例えば、診療項目502が、インスリン注射などの糖尿病に関連した診療行為である場合、世界保健機関が作成した解剖治療化学分類法(ATC分類)に基づいて、診療項目分類第1レベル601には「A 消化管と代謝作用」、診療項目分類第2レベル602には診療項目分類第1レベル601の次に大きい分類である「A10 糖尿病用薬」を割り当てる。
【0026】
図7は、実施例1のシステムの分析対象者抽出処理のフローチャートである。この分析対象者抽出処理は、サーバ101の分析対象者抽出部108によって実行される。
【0027】
まず、患者情報、検査情報、診断情報及び診療情報を取得する(S701)。患者情報は、患者情報記憶部115から取得する。また、検査情報は、検査情報記憶部116から取得する。また、診断情報は、診断情報記憶部117から取得する。また、診療情報は、診療情報記憶部118から取得する。
【0028】
次に、取得した診断情報から分析対象となる病名及び診療期間を指定し(S702)、指定した病名及び診療期間を有する患者情報、検査情報、診断情報及び診療情報を抽出し(S703)、この処理を終了する。
【0029】
図8は、実施例1のシステムの目的変数生成処理において生成する目的変数情報の構成を説明する図である。この目的変数生成処理は、サーバ101の目的変数生成部109によって実行される。目的変数801は、予測対象となるイベントを表す目的変数である。例えば、患者の退院または死亡を予測対象とする場合、退院患者において死亡日がNULLとなっていれば退院を表す目的変数として0を、死亡日がNULLとなっていなければ死亡を表す目的変数として1をそれぞれ割り当てる。
【0030】
図9は、実施例1のシステムの遷移情報生成処理のフローチャートである。この遷移情報生成処理は、サーバ101の遷移情報生成部110によって実行される。まず、患者情報、診療情報及び辞書情報を取得する(S901)。患者情報及び診療情報は、分析対象者抽出処理(
図7)によって抽出されている。また、辞書情報は、辞書情報記憶部119から取得する。
【0031】
次に、辞書情報における診療項目分類を一つ選択し(S902)、診療情報における診療行為を置換する(S903)。次に、取得した患者情報及び診療情報から、患者毎のイベントの遷移を表す遷移情報を生成し(S904)、この処理を終了する。
【0032】
図10は、
図9のステップS904において生成する遷移情報である。イベント発生日1001及びイベント1002は、患者毎に発生するイベントの発生日及びイベントの内容をそれぞれ表す。例えば、
図10は、患者情報における退院及び死亡、診療情報における診療行為をイベントと見なし、診療項目分類第2レベル602による置換を行った場合に生成される遷移情報を示している。これにより、患者毎にイベントの遷移を確認することができる。
【0033】
図11は、実施例1のシステム本の診療プロセス分類処理のフローチャートである。この診療プロセス分類処理は、サーバ101の診療プロセス分類部111によって実行される。
【0034】
まず、遷移情報を取得する(S1101)。遷移情報は、遷移情報生成処理(
図9)によって生成されている。次に、診療行為のプロセス毎に頻度を計算する(S1102)。
【0035】
図12は、
図11のステップS1102において計算する診療行為のプロセスの頻度である。診療行為のプロセス1201は、遷移情報において連続した2つの診療行為のプロセスである。頻度1202は、診療行為のプロセス1201における患者の頻度である。
【0036】
次に、診療行為の頻度に関する閾値を設定する(S1103)。次に、患者IDを一つ選択し(S1104)、選択した患者IDが閾値を満たす診療行為のプロセスを有するかを判定する(S1105)。その結果、閾値を満たす診療行為のプロセスを有していれば、選択した患者IDの遷移情報を閾値を満たすグループに分類する(S1106)。一方、閾値を満たす診療行為のプロセスを有していなければ、選択した患者IDの遷移情報を、閾値を満たさないグループに分類する(S1107)。例えば、頻度に関する閾値として200を設定した場合、頻度が200以上である診療行為のプロセスを有する患者IDの遷移情報を、閾値を満たすグループに分類する。これにより、機械学習において要求される頻度を満たす診療行為のプロセスを有する患者の遷移情報を抽出することができる。
【0037】
次に、全ての患者IDについて処理を完了しているかを判定する(S1108)。その結果、一部の患者IDについて処理を終了していなければ、ステップS1104に戻り、次の患者IDを選択する。一方、全ての患者IDについて処理を完了していなければ、この処理を終了する。
【0038】
図13は、実施例1のシステムの診療プロセス粒度調整処理のフローチャートである。
この診療プロセス粒度調整処理は、サーバ101の診療プロセス粒度調整部112によって実行される。
【0039】
まず、閾値を満たさないグループの遷移情報及び辞書情報を取得する(S1301)。閾値を満たさないグループの遷移情報は、診療プロセス分類処理(
図11)から取得する。また、辞書情報は、辞書情報記憶部119から取得する。
【0040】
次に、辞書情報における診療項目分類のうち、未選択の大分類を一つ選択し(S1302)、遷移情報における診療行為を置換する(S1303)。例えば、辞書情報における診療項目分類第2レベル602を前の処理で選択していた場合、ステップS1302において診療項目分類第1レベル601を選択し、S1303において診療項目分類第1レベル601による置換を行う。これにより、診療プロセス分類処理において閾値を満たさないグループに分類された遷移情報について、診療行為のプロセス毎の頻度を増やすことができる。
【0041】
次に、診療プロセス分割処理を実行し(S1304)、辞書情報の診療項目分類においいて、未選択の大分類があるかを判定する(S1305)。その結果、未選択の大分類があれば、ステップS1301に戻り、ステップS1304において抽出した閾値を満たさないグループの遷移情報を取得する。一方、未選択の大分類がなければ、この処理を終了する。
【0042】
図14は、実施例1のシステムの予測モデル生成処理のフローチャートである。この予測モデル生成処理は、サーバ101の予測モデル生成部113によって実行される。
【0043】
まず、患者情報、検査情報、診断情報、目的変数情報及び全てのグループの遷移情報を取得する(S1401)。患者情報、検査情報及び診断情報は、分析対象者抽出処理(
図7)によって抽出されている。また、目的変数情報は、目的変数生成処理によって生成されている。また、全てのグループの遷移情報は、診療プロセス分類処理(
図11)及び診療プロセス調整処理(
図13)から取得する。
【0044】
次に、取得した遷移情報のグループ毎に、患者情報、検査情報、診断情報及び遷移情報から特徴量情報をそれぞれ生成し(S1402)、各特徴量情報及び目的変数情報に基づいて機械学習を行い(S1403)、この処理を終了する。このとき、遷移情報のグループ毎に異なる機械学習アルゴリズムを用いてもよい。具体的には、診療行為のプロセスの頻度に鑑みて機械学習アルゴリズムの複雑さを変更することにより、過学習を抑制することができる。
【0045】
図15は、実施例1のシステムの出力処理のフローチャートである。この出力処理は、サーバ101の出力部114によって実行される。
【0046】
まず、新規患者の情報及び全てのグループの遷移情報を取得する(S1501)。新規患者の情報は、入力装置103から入力される。また、全てのグループの遷移情報は、診療プロセス分類処理(
図11)及び診療プロセス粒度調整処理(
図13)から取得する。
【0047】
次に、取得した情報から遷移情報及び特徴量情報を生成し(S1502)、遷移情報に基づいて新規患者をいずれかのグループに分類する(S1503)。これにより、診療行為のプロセスの種類におうじて適切な予測モデルを選択することができる。次に、分類したグループにおいて生成した予測モデルに特徴量情報を入力し、新規患者のイベントの発生を出力し(S1504)、この処理を終了する。
【0048】
図16は、実施例1のシステムの出力処理において出力する診療支援画面である。診療支援画面は、分析条件エリア1601及び分析結果エリア1602で構成される。
【0049】
分析条件エリア1601は、特徴量情報の入力エリア1603、遷移情報の入力エリア1604及び分析実行ボタン1605で構成される。新規患者が特徴量情報の入力エリア1603及び遷移情報の入力エリア1604に情報を入力し、分析実行ボタン1605をクリックすることにより、出力処理を実行することができる。
【0050】
分析結果エリア1602は、死亡の発生リスク1606、診療項目分類1607、診療項目粒度1608及びイベント遷移1609で構成され、分析実行ボタン1605をクリックすることにより表示される。
【0051】
死亡の発生リスク1606は、実行した機械学習モデルから出力されるイベントの発生確率である。これにより、新規患者の死亡の発生リスクを表示することができる。
【0052】
診療項目分類1607及び診療項目粒度1608は、
図6で説明した辞書情報及び診療項目分類の名称である。ここでは、辞書情報に解剖治療化学分類法、診療項目分類に診療項目分類第2レベルを選択した場合を例示している。これにより、後述するイベント遷移1609において表示された診療行為のプロセスの項目の粒度を確認することができる。
【0053】
イベント遷移1609は、実行した機械学習モデルが属するグループの遷移情報の可視化の例である。イベントの遷移及び頻度を表示することにより、診療行為のプロセスによる診療実績の差異を容易に確認することができる。
【0054】
以上に説明したように、実施例1のシステムでは、頻度に関する閾値に基づいて診療行為のプロセスを複数のグループに分割し、閾値に満たないグループにおける診療行為のプロセスの項目の粒度を集約し、グループ毎に予測モデルを生成する。これにより、機械学習において要求される頻度を満たすように診療行為のプロセスの項目の粒度を調整し、イベントの発生を高精度に予測することができる。
実施例2のシステムは、頻度及び平均情報量(エントロピー)に関する閾値に基づいて診療行為のプロセスを複数のグループに分割し、閾値に満たないグループにおける診療行為のプロセスの項目の粒度を集約し、グループ毎に予測モデルを生成する。これにより、機械学習において要求される頻度を満たし、かつ、目的変数に関する不確実さを低減するように診療行為のプロセスの項目の粒度を調整し、イベントの発生を高精度に予測することができる。
実施例2の情報処理システムのハードウェア構成は、前述した実施例1のシステムと同じであるため、説明は省略する。実施例2のシステムの分析対象者抽出処理、目的変数生成処理及び遷移情報生成処理は、前述した実施例1のシステムと同じであるため、説明は省略する。
実施例2のシステの分析対象者抽出処理では、分析対象者を抽出する。実施例2のシステムの目的変数生成処理では、患者毎に目的変数を生成する。実施例2のシステムの遷移情報生成処理では、患者毎にイベントの遷移情報を生成する。
次に、患者IDを一つ選択し(S1704)、選択した患者IDが閾値を満たす診療行為のプロセスを有するかを判定する(S1705)。その結果、閾値を満たす診療行為のプロセスを有していれば、選択した患者IDの遷移情報を閾値を満たすグループに分類する(S1706)。一方、閾値を満たす診療行為のプロセスを有していなければ、選択した患者IDの遷移情報を、閾値を満たさないグループに分類する(S1707)。例えば、頻度及び平均情報量に関する閾値として200及び0.4をそれぞれ設定した場合、頻度が200以上かつ平均情報量が0.4以下である診療プロセスを有する患者IDの遷移情報を、閾値を満たすグループに分類する。これにより、機械学習において要求される頻度を満たし、かつ、患者の退院又は死亡の予測が容易な診療行為のプロセスを有する患者の遷移情報を抽出することができる。
次に、全ての患者IDについて処理を完了しているかを判定する(S1708)。その結果、一部の患者IDについて処理を終了していなければ、ステップS1704に戻り、次の患者IDを選択する。一方、全ての患者IDについて処理を完了していなければ、この処理を終了する。
実施例2のシステムの診療プロセス粒度調整処理、予測モデル生成処理及び出力処理は、前述した実施例1のシステムと同じであるため、説明は省略する。実施例2のシステムの診療プロセス粒度調整処理では、閾値を満たさないグループにおける診療行為のプロセスの項目の粒度を調整する。
実施例2のシステムの予測モデル生成処理では、分類したグループ毎に予測モデルを生成する。実施例2のシステムの出力処理では、新規患者の入力データをいずれかのグループに分類し、予測モデルを用いて新規患者のイベントの発生を出力する。
以上に説明したように、実施例2のシステムでは、頻度及び平均情報量に関する閾値に基づいて診療行為のプロセスを複数のグループに分割し、閾値に満たないグループにおける診療行為のプロセスの項目の粒度を集約し、グループ毎に予測モデルを生成する。これにより、機械学習において要求される頻度を満たし、かつ、目的変数に関する不確実さを低減するように診療行為のプロセスの項目の粒度を調整し、イベントの発生を高精度に予測することができる。
なお、実施例1、実施例2のシステムでは、診療プロセス分類処理として、遷移情報において連続した2つの診療行為のプロセスの頻度及び平均情報量を計算したが、遷移情報において連続した全ての診療行為のプロセスの頻度及び平均情報量を計算してもよい。これにより、全ての診療行為のプロセスについて、機械学習において要求される頻度を満たし、かつ、患者の退院又は死亡の予測が容易な診療行為のプロセスを有する患者の遷移情報を抽出することができる。
また、実施例1、実施例2のシステムでは、診療プロセス分類処理として、診療行為の頻度及び平均情報量に関する閾値を設定したが、予め設定した閾値の候補から最適な閾値を選択してもよい。例えば、診療行為のプロセスをベクトル化し、閾値を満たすグループにおける診療行為のプロセス間の類似度の平均値を閾値の候補毎に計算し、類似度の平均値が最も高くなる閾値を選択してもよい。これにより、診療行為のプロセスの類似性が高く同質的な遷移情報を抽出するように閾値を最適化することができる。
また、実施例1,実施例2のシステムでは、診療プロセス分類処理として、選択した患者IDが閾値を満たす診療行為のプロセスを有するかを判定することにより遷移情報を分類したが、他の方法を使用してもよい。例えば、ヒューリスティックマイナーなどのプロセスマイニングアルゴリズムのパラメータに関する閾値を設定し、潜在的に強い因果関係にある診療行為のプロセスを抽出することにより遷移情報を分類してもよい。これにより、予測モデル生成処理において、目的変数との相関が高いデータに基づいて機械学習を行うことができる。