(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024172807
(43)【公開日】2024-12-12
(54)【発明の名称】医用情報処理装置、医用情報処理方法、及びプログラム
(51)【国際特許分類】
G16H 50/00 20180101AFI20241205BHJP
G16H 10/40 20180101ALI20241205BHJP
【FI】
G16H50/00
G16H10/40
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023090788
(22)【出願日】2023-06-01
(71)【出願人】
【識別番号】594164542
【氏名又は名称】キヤノンメディカルシステムズ株式会社
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】山▲崎▼ 優大
(72)【発明者】
【氏名】狩野 佑介
(72)【発明者】
【氏名】佐々木 翔
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA03
(57)【要約】
【課題】患者に介入すべき医療的行為を推薦することが可能な医用情報処理装置、医用情報処理方法、及びプログラムを提供すること。
【解決手段】実施形態の医用情報処理装置は、取得部と、算出部と、学習部とをもつ。前記取得部は、所定の疾患に関する医療的行為が介入される前の患者の状態を示す第1データと、前記医療的行為が介入された後の前記患者の状態を示す第2データとを取得する。前記算出部は、少なくとも前記第1データのばらつき及び前記第2データのばらつきに基づいて、報酬を算出する。前記学習部は、前記報酬に基づいて、前記医療的行為の方策を学習する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
所定の疾患に関する医療的行為が介入される前の患者の状態を示す第1データと、前記医療的行為が介入された後の前記患者の状態を示す第2データとを取得する取得部と、
少なくとも前記第1データのばらつき及び前記第2データのばらつきに基づいて、報酬を算出する算出部と、
前記報酬に基づいて、前記医療的行為の方策を学習する学習部と、
を備える医用情報処理装置。
【請求項2】
前記第1データ及び前記第2データは、複数の検査値が含まれる多次元のデータであり、
前記複数の検査値のうち少なくともいずれか1つの検査値が前記第1データ又は前記第2データに存在しない場合、前記第1データ又は前記第2データに存在しない前記検査値である不足検査値と、前記不足検査値のばらつきとを推定する推定部を更に備える、
請求項1に記載の医用情報処理装置。
【請求項3】
前記推定部は、
前記複数の検査値のうち少なくともいずれか1つの検査値が前記第1データに存在しない場合、前記第1データに存在する検査値である第1既存検査値、又は前記第2データに存在する検査値である第2既存検査値を用いて、前記第1データに存在しない検査値である第1不足検査値と、前記第1不足検査値のばらつきとを推定し、
前記複数の検査値のうち少なくともいずれか1つの検査値が前記第2データに存在しない場合、前記第2既存検査値又は前記第1既存検査値を用いて、前記第2データに存在しない検査値である第2不足検査値と、前記第2不足検査値のばらつきとを推定する、
請求項2に記載の医用情報処理装置。
【請求項4】
前記算出部は、前記第1データのばらつき及び前記第2データのばらつきに加えて、更に、前記第1データが示す前記患者の状態及び前記第2データが示す前記患者の状態に基づいて、前記報酬を算出する、
請求項1又は2に記載の医用情報処理装置。
【請求項5】
前記算出部は、前記第1データのばらつき及び前記第2データのばらつきに加えて、更に、前記第2データが示す前記患者の状態に基づいて、前記報酬を算出する、
請求項1又は2に記載の医用情報処理装置。
【請求項6】
前記算出部は、前記第1データのばらつき及び前記第2データのばらつきに加えて、更に、前記医療的行為の種類の数に基づいて、前記報酬を算出する、
請求項1又は2に記載の医用情報処理装置。
【請求項7】
前記算出部は、前記第1データのばらつき及び前記第2データのばらつきに加えて、更に、前記医療的行為の経済的又は時間的コストに基づいて、前記報酬を算出する、
請求項1又は2に記載の医用情報処理装置。
【請求項8】
対象患者の状態を示す第3データと、前記学習済みの方策とに基づいて、前記対象患者に対して介入すべき前記医療的行為を決定する決定部と、
前記決定された医療的行為に基づく情報を、出力インタフェースを介して出力する出力制御部と、を更に備える、
請求項1又は2に記載の医用情報処理装置。
【請求項9】
コンピュータを用いた医用情報処理であって、
所定の疾患に関する医療的行為が介入される前の患者の状態を示す第1データと、前記医療的行為が介入された後の前記患者の状態を示す第2データとを取得すること、
少なくとも前記第1データのばらつき及び前記第2データのばらつきに基づいて、報酬を算出すること、
前記報酬に基づいて、前記医療的行為の方策を学習すること、
を含む医用情報処理方法。
【請求項10】
コンピュータに実行させるためのプログラムであって、
所定の疾患に関する医療的行為が介入される前の患者の状態を示す第1データと、前記医療的行為が介入された後の前記患者の状態を示す第2データとを取得すること、
少なくとも前記第1データのばらつき及び前記第2データのばらつきに基づいて、報酬を算出すること、
前記報酬に基づいて、前記医療的行為の方策を学習すること、
を含むプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書及び図面に開示の実施形態は、医用情報処理装置、医用情報処理方法、及びプログラムに関する。
【背景技術】
【0002】
クリニカルパス(Clinical pathways)と呼ばれる医療における品質管理手法により、質の高い医療を患者に提供することができる。しかしながら、患者の疾患が標準的又は代表的な疾患でない場合は、その患者にクリニカルパスを適用することができない場合がある。特に、がんや循環器系の疾患を患う患者は合併症が多く、クリニカルパスの適用は難しい。また、総合診療科では、医師の技量又は経験に治療又は検査の選択が依存する。そのため、患者に適した治療又は検査の選択を支援するシステムが求められている。
【先行技術文献】
【特許文献】
【0003】
【非特許文献】
【0004】
【非特許文献1】Kazuki Nakamura, Ryosuke Kojima, Eiichiro Uchino, Koh Ono, Motoko Yanagita, Koichi Murashita, Ken Itoh, Shigeyuki Nakaji & Yasushi Okuno, ” Health improvement framework for actionable treatment planning using a surrogate Bayesian model”, Nature Communications volume 12, Article number: 3088 (2021).
【非特許文献2】Mehdi Fatemi, Taylor W. Killian, Jayakumar Subramanian, Marzyeh Ghassemi, “Medical Dead-ends and Learning to Identify High-risk States and Treatments,” 35th Conference on Neural Information Processing Systems (NeurIPS 2021).
【非特許文献3】Aaron Sonabend-W, Junwei Lu, Leo A. Celi, Tianxi Cai, Peter Szolovits, “Expert-Supervised Reinforcement Learning for Offline Policy Learning and Evaluation,” 34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver, Canada.
【非特許文献4】Tianhe Yu, Garrett Thomas, Lantao Yu, Stefano Ermon, James Zou, Sergey Levine, Chelsea Finn, Tengyu Ma, “MOPO: Model-based Offline Policy Optimization,” 34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver, Canada.
【発明の概要】
【発明が解決しようとする課題】
【0005】
本明細書及び図面に開示の実施形態が解決しようとする課題は、治療又は検査といった、患者に介入すべき医療的行為を推薦することである。ただし、本明細書及び図面に開示の実施形態により解決しようとする課題は上記課題に限られない。後述する実施形態に示す各構成による各効果に対応する課題を他の課題として位置づけることもできる。
【課題を解決するための手段】
【0006】
実施形態の医用情報処理装置は、取得部と、算出部と、学習部とをもつ。前記取得部は、所定の疾患に関する医療的行為が介入される前の患者の状態を示す第1データと、前記医療的行為が介入された後の前記患者の状態を示す第2データとを取得する。前記算出部は、少なくとも前記第1データのばらつき及び前記第2データのばらつきに基づいて、報酬を算出する。前記学習部は、前記報酬に基づいて、前記医療的行為の方策を学習する。
【図面の簡単な説明】
【0007】
【
図1】実施形態における医用情報処理装置100の構成例を表す図。
【
図2】実施形態に係る処理回路120の一連の処理の流れを表すフローチャート。
【
図3】未観測の診療データの確率密度関数の推定方法を説明するための図。
【
図4】未観測の診療データの確率密度関数の推定方法を説明するための図。
【
図5】医療的行為の一つである治療の介入前後における診療データを対比させた図。
【
図6】医療的行為の一つである検査の介入前後における診療データを対比させた図。
【
図7】医療的行為の一つである治療の介入前後における診療データを対比させた図。
【
図8】実施形態に係る処理回路120の一連の処理の流れを表すフローチャート。
【
図9】対象患者に介入すべき医療的行為に基づく情報が表示されたディスプレイ113aの画面例を表す図。
【
図10】対象患者に介入すべき医療的行為に基づく情報が表示されたディスプレイ113aの画面例を表す図。
【発明を実施するための形態】
【0008】
以下、図面を参照しながら、実施形態の医用情報処理装置、医用情報処理方法、及びプログラムについて説明する。
【0009】
[医用情報処理装置の構成]
図1は、実施形態における医用情報処理装置100の構成例を表す図である。医用情報処理装置100は、例えば、通信インタフェース111と、入力インタフェース112と、出力インタフェース113と、メモリ114と、処理回路120とを備える。
【0010】
通信インタフェース111は、通信ネットワークNWを介して外部装置と通信する。通信ネットワークNWは、電気通信技術を利用した情報通信網全般を意味してよい。例えば、通信ネットワークNWは、病院基幹LAN(Local Area Network)等の無線/有線LANやインターネット網のほか、電話通信回線網、光ファイバ通信ネットワーク、ケーブル通信ネットワークおよび衛星通信ネットワーク等を含む。通信インタフェース111は、例えば、NIC(Network Interface Card)や無線通信用のアンテナ等を含む。
【0011】
入力インタフェース112は、操作者からの各種の入力操作を受け付け、受け付けた入力操作を電気信号に変換して処理回路120に出力する。例えば、入力インタフェース112は、マウス、キーボード、トラックボール、スイッチ、ボタン、ジョイスティック、タッチパネル等を含む。入力インタフェース112は、例えば、マイクロフォン等の音声入力を受け付けるユーザインタフェースであってもよい。入力インタフェース112がタッチパネルである場合、入力インタフェース112は、後述する出力インタフェース113に含まれるディスプレイ113aの表示機能を兼ね備えるものであってもよい。
【0012】
なお、本明細書において入力インタフェース112はマウス、キーボード等の物理的な操作部品を備えるものだけに限られない。例えば、装置とは別体に設けられた外部の入力機器から入力操作に対応する電気信号を受け取り、この電気信号を制御回路へ出力する電気信号の処理回路も入力インタフェース112の例に含まれる。
【0013】
出力インタフェース113は、例えば、ディスプレイ113aやスピーカ113bなどを備える。ディスプレイ113aは、各種の情報を表示する。例えば、ディスプレイ113aは、処理回路120によって生成された画像や、操作者からの各種の入力操作を受け付けるためのGUI(Graphical User Interface)等を表示する。例えば、ディスプレイ113aは、LCD(Liquid Crystal Display)や、CRT(Cathode Ray Tube)ディスプレイ、有機EL(Electro Luminescence)ディスプレイ等である。スピーカ113bは、処理回路120から入力された情報を音声として出力する。
【0014】
メモリ114は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスクによって実現される。これらの非一過性の記憶媒体は、NAS(Network Attached Storage)や外部ストレージサーバ装置といった通信ネットワークNWを介して接続される他の記憶装置によって実現されてもよい。また、メモリ114には、ROM(Read Only Memory)やレジスタ等の非一過性の記憶媒体が含まれてもよい。メモリ114には、処理回路120のハードウェアプロセッサによって実行されるプログラムや、処理回路120による各種演算結果、モデル情報などが格納される。
【0015】
モデル情報は、後述の変換モデルMDL1や強化学習モデルMDL2などを定義した情報(プログラムまたはアルゴリズム)である。MDLは、MODELの省略形を表した単なる符号である。
【0016】
処理回路120は、例えば、取得機能121と、推定機能122と、報酬算出機能123と、学習機能124と、介入決定機能125と、出力制御機能126とを備える。処理回路120は、例えば、ハードウェアプロセッサ(コンピュータ)がメモリ114(記憶回路)に記憶されたプログラムを実行することにより、これらの機能を実現するものである。取得機能121は「取得部」の一例であり、推定機能122は「推定部」の一例であり、報酬算出機能123は「算出部」の一例であり、学習機能124は「学習部」の一例であり、介入決定機能125は「決定部」の一例であり、出力制御機能126は「出力制御部」の一例である。
【0017】
処理回路120におけるハードウェアプロセッサは、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、特定用途向け集積回路(Application Specific Integrated Circuit; ASIC)、プログラマブル論理デバイス(例えば、単純プログラマブル論理デバイス(Simple Programmable Logic Device; SPLD)または複合プログラマブル論理デバイス(Complex Programmable Logic Device; CPLD)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array; FPGA))等の回路(circuitry)を意味する。メモリ114にプログラムを記憶させる代わりに、ハードウェアプロセッサの回路内にプログラムを直接組み込むように構成しても構わない。この場合、ハードウェアプロセッサは、回路内に組み込まれたプログラムを読み出し実行することで機能を実現する。上記のプログラムは、予めメモリ114に格納されていてもよいし、DVDやCD-ROM等の非一時的記憶媒体に格納されており、非一時的記憶媒体が医用情報処理装置100のドライブ装置(不図示)に装着されることで非一時的記憶媒体からメモリ114にインストールされてもよい。ハードウェアプロセッサは、単一の回路として構成されるものに限らず、複数の独立した回路を組み合わせて1つのハードウェアプロセッサとして構成され、各機能を実現するようにしてもよい。また、複数の構成要素を1つのハードウェアプロセッサに統合して各機能を実現するようにしてもよい。
【0018】
[医用情報処理装置の処理フロー:トレーニング]
以下、フローチャートに即しながら、医用情報処理装置100の処理回路120による一連の処理について説明する。
図2は、実施形態に係る処理回路120の一連の処理の流れを表すフローチャートである。本フローチャートの処理は、後述の強化学習モデルMDL2を学習(トレーニング)する際に実行される。
【0019】
まず、取得機能121は、所定の疾患に関する医療的行為の介入前後において観測された患者の状態を示すデータ(以下、観測済みの診療データという)を取得する(ステップS100)。
【0020】
観測済みの診療データには、所定の疾患に関する医療的行為が介入される前の患者の状態を観測することで得られるデータ(以下、介入前診療データという)と、当該医療的行為が介入された後の患者の状態を観測することで得られるデータ(以下、介入後診療データという)とが含まれる。所定の疾患に関する医療的行為とは、例えば、所定の疾患の検査や、所定の疾患の治療である。介入前診療データは「第1データ」の一例であり、介入後診療データは「第2データ」の一例である。
【0021】
例えば、医療的行為の際に、血圧、EF(Ejection Fraction)、CTR(Cardio Thoracic Ratio)、がんマーカ、といった様々な検査が行われるとする。このような場合、介入前診療データと介入後診療データとには、典型的には、各検査によって測定された検査値が含まれることになる。例えば、e1を血圧値、e2をEF値、e3をCTR値、e4をがんマーカ値とした場合、介入前診療データと介入後診療データは、(e1,e2,e3,e4,…)のような多次元ベクトルで表現することができる。
【0022】
医療的行為の介入前に行われた検査のなかには、医療的行為の介入後に行われていない検査が含まれていてもよい。同様に、医療的行為の介入後に行われた検査のなかには、医療的行為の介入前に行われていない検査が含まれていてもよい。
【0023】
例えば、血圧、EF、CTR、がんマーカの計4種類の検査のうち、医療的行為の介入前には、血圧及びがんマーカのみが検査され、医療的行為の介入後には、EF、CTR、及びがんマーカのみが検査されてもよい。介入前診療データと介入後診療データを示す多次元ベクトルの各要素のうち、検査が行われていない検査値の要素には、例えば、ヌルのような検査が行われていないことを示す任意の数値又表現が格納されてよい。例えば、介入前診療データを示す多次元ベクトルは、(80,NULL,NULL,50,…)のように表現でき、介入後診療データを示す多次元ベクトルは、(NULL,34,62,50,…)のように表現できる。
【0024】
なお、介入前診療データと介入後診療データに含まれる検査値には、血圧値、EF値、CTR値、がんマーカ値に加えて、或いは代えて、心疾患リスク、肺がんリスク、死亡リスクといった、その数値自体にばらつき(例えば分散)が存在する指標が含まれていてもよい。
【0025】
例えば、取得機能121は、通信インタフェース111を介して、外部装置であるデータベースにアクセスし、そのデータベースから観測済みの診療データ(介入前診療データ及び介入後診療データ)を取得してよい。また、患者の主治医などが入力インタフェース112に観測済みの診療データを入力した場合、取得機能121は、入力インタフェース112から観測済みの診療データを取得してもよい。更に、メモリ114に観測済みの診療データが格納された場合、取得機能121は、メモリ114から観測済みの診療データを取得してもよい。
【0026】
次に、推定機能122は、変換モデルMDL1を用いて、所定の疾患に関する医療的行為の介入前後において観測されなかった患者の状態を示すデータ(以下、未観測の診療データという)の確率密度関数を推定する(ステップS102)。
【0027】
図3及び
図4は、未観測の診療データの確率密度関数の推定方法を説明するための図である。図の例では、医療的行為の介入前の時刻をtとし、医療的行為の介入後の時刻をt+1としている。x
tは、介入前診療データ(又はそれを示す多次元ベクトル)を表しており、x
t+1は、介入後診療データ(又はそれを示す多次元ベクトル)を表している。
【0028】
例えば、推定機能122は、血圧、EF、CTR、がんマーカといった予め決められた複数の検査値のうち、少なくともいずれか1つの検査値が介入前診療データxt又は介入後診療データxt+1に存在しない場合、変換モデルMDL1を用いて、介入前診療データxt又は介入後診療データxt+1に存在しない検査値(以下、不足検査値という)と、その不足検査値の確率密度関数とを未観測の診療データとして推定する。
【0029】
例えば、医療的行為の介入前の時刻tには、血圧及びがんマーカが検査され、EF及びCTRが検査されていなかった場合、介入前診療データxtを示す多次元ベクトルは(80,NULL,NULL,50,…)となる。このような介入前診療データxtが取得されると、推定機能122は、NULLの検査値であるEF値及びCTR値を不足検査値と判定し、それらEF値及びCTR値の確率密度関数を変換モデルMDL1を用いて推定する。介入前診療データxtに存在せず不足検査値と判定されるEF値及びCTR値は「第1不足検査値」の一例であり、介入前診療データxtに存在する血圧値及びがんマーカ値は「第1既存検査値」の一例である。
【0030】
変換モデルMDL1は、機械学習モデル、統計モデル、ルールベースモデル、又はこれらの組み合わせによって実装されてよい。機械学習モデルは、例えば、ニューラルネットワークや、サポートベクターマシン、決定木、単純ベイズ分類器、ランダムフォレストなどであってよい。
【0031】
例えば、変換モデルMDL1には、介入前診療データxtが入力される。これを受けて変換モデルMDL1は、介入前診療データxtに含まれる血圧及びがんマーカの検査値から、医療的行為の介入前の時刻tにおける患者のEF値及びCTR値の確率密度関数を推定し出力する。
【0032】
介入後診療データxt+1の不足検査値についても同様に推定される。例えば、医療的行為の介入後の時刻t+1には、EF、CTR、及びがんマーカが検査され、血圧が検査されていなかった場合、介入後診療データxt+1を示す多次元ベクトルは(NULL,34,62,50,…)となる。このような介入後診療データxt+1が取得されると、推定機能122は、NULLの検査値である血圧値を不足検査値と判定し、その血圧値の確率密度関数を変換モデルMDL1を用いて推定する。介入後診療データxt+1に存在せず不足検査値と判定される血圧値は「第2不足検査値」の一例であり、介入後診療データxt+1に存在するEF値、CTR値、及びがんマーカ値は「第2既存検査値」の一例である。
【0033】
変換モデルMDL1には、介入後診療データxt+1が入力される。これを受けて変換モデルMDL1は、介入後診療データxt+1に含まれるEF、CTR、及びがんマーカの検査値から、医療的行為の介入後の時刻t+1における患者の血圧値の確率密度関数を推定し出力する。
【0034】
更に変換モデルMDL1には、介入前診療データxt及び介入後診療データxt+1が入力されてもよい。この場合、変換モデルMDL1は、介入前診療データxtに含まれる血圧及びがんマーカの検査値に加えて、或いは代えて、介入後診療データxt+1に含まれるEF及びCTRの検査値から、医療的行為の介入前の時刻tにおける患者のEF値及びCTR値の確率密度関数を推定し出力する。また変換モデルMDL1は、介入後診療データxt+1に含まれるEF、CTR、及びがんマーカの検査値に加えて、或いは代えて、介入前診療データxtに含まれる血圧の検査値から、医療的行為の介入後の時刻t+1における患者の血圧値の確率密度関数を推定し出力する。
【0035】
フローチャートの説明に戻る。次に、報酬算出機能123は、介入前診療データxtのばらつきと介入後診療データxt+1のばらつきとに少なくとも基づいて、強化学習の報酬を算出する(ステップS104)。各データの「ばらつき」は、「不確実性」と読み替えてもよい。
【0036】
「少なくとも」とは、介入前診療データxtのばらつきと介入後診療データxt+1のばらつきに加えて更に、他の要素(介入前診療データxt及び介入後診療データxt+1の一方又は双方)が含まれてよいことを意味する。
【0037】
報酬算出機能123は、報酬の算出に先立って、まず各データのばらつき(具体的には各データの確率密度関数のばらつき)を算出する。
【0038】
例えば、報酬算出機能123は、介入前診療データxt及び介入後診療データxt+1の其々の確率密度関数をN回サンプリングすることで、N個のサンプリング値を取得し、そのN個のサンプリング値に基づいて介入前の患者の状態st,介入後の患者の状態st+1を算出する。そして、報酬算出機能123は、それらの分散var(st)やvar(st+1)をばらつきとして算出する。Nは任意の自然数である。
【0039】
また、報酬算出機能123は、分散に代えて、標準偏差や平均二乗誤差、最大値及び最小値の平均、といったその他のばらつきを表す統計的指標を確率密度関数に基づいて算出してもよい。
【0040】
報酬算出機能123は、介入前状態st及び介入後状態st+1の其々のばらつきを算出すると、それらのばらつきに基づいて、報酬を算出する。例えば、報酬は、数式(1)に基づき算出されてよい。
【0041】
【0042】
rは報酬を表し、stは介入前状態を表し、st+1は介入後状態を表している。更に、utは介入前状態のばらつきを表し、ut+1は介入後状態のばらつきを表している。言い換えれば、stは医療的行為の介入前の時刻tにおける患者の状態を表し、st+1は医療的行為の介入後の時刻t+1における患者の状態を表し、utは医療的行為の介入前の時刻tにおける患者の状態のばらつきを表し、ut+1は医療的行為の介入後の時刻t+1における患者の状態のばらつきを表している。
【0043】
図5は、医療的行為の一つである治療の介入前後における診療データを対比させた図である。例えば、
図5のように、治療の介入の前後を比較した場合、患者の状態は改善し(s
t<s
t+1)、更に、状態のばらつきは小さくなっている(u
t<u
t+1)。このような場合、数式(1)の第1項(s
t+1-s
t)は大きくなり、第2項(u
t-u
t+1)もまた大きくなる。つまり、患者の状態が改善し、更にその状態のばらつきが減少するような治療であれば、その報酬rが大きくなる。
【0044】
図6は、医療的行為の一つである検査の介入前後における診療データを対比させた図である。例えば、
図6のように、検査の介入の前後を比較した場合、患者の状態は変わらないものの(s
t≒s
t+1)、状態のばらつきは小さくなっている(u
t<u
t+1)。このような場合、数式(1)の少なくとも第2項(u
t-u
t+1)は大きくなる。つまり、患者の状態のばらつきが減少するような検査であれば、その報酬rが大きくなる。
【0045】
また、報酬rは、例えば数式(2)に基づき算出されてもよい。
【0046】
【0047】
数式(2)のように、報酬算出機能123は、医療的行為の介入後の時刻t+1における患者の状態st+1がより良好であり、かつ医療的行為の介入前よりも介入後の方が患者の状態のばらつき(ut-ut+1)が減少するほど、報酬rを大きく算出してよい。
【0048】
また、報酬rは、例えば数式(3)に基づき算出されてもよい。
図7は、医療的行為の一つである治療の介入前後における診療データを対比させた図である。
【0049】
【0050】
数式(3)や
図7に示すように、報酬算出機能123は、治療の介入前の時刻tにおける患者の状態s
t又は治療の介入後の時刻t+1における患者の状態s
t+1が閾値K以下である場合、(u
t-u
t+1)のみで報酬rを算出してよい。言い換えれば、治療を行っても患者の状態が閾値Kを越えるほど改善しなければ、その治療には効果がないものとみなし、治療の介入前後の患者の状態のばらつきの差分(u
t-u
t+1)を基に報酬rを算出してよい。
【0051】
また、報酬rは、例えば数式(4)に基づき算出されてもよい。
【0052】
【0053】
Cは、医療的行為に関するコストを表している。具体的には、Cは、医療的行為の種類の数や、医療的行為に費やした経済的又は時間的な費用である。数式(4)に示すように、報酬算出機能123は、医療的行為の種類の数が多いほど(Cが大きいほど)報酬rを小さく算出したり、医療的行為に費やした経済的又は時間的な費用が多いほど(Cが大きいほど)報酬rを小さく算出したりしてよい。
【0054】
また、報酬rは、例えば数式(5)や数式(6)に基づき算出されてもよい。
【0055】
【0056】
【0057】
例えば、医療的行為が「検査」又は「治療」のいずれかであり、その医療的行為の介入によって患者の状態のばらつきを減少させることを目的とする場合(不確実性を改善することを目的とする場合)、報酬算出機能123は、数式(5)を用いて報酬rを算出してよい。また、例えば、医療的行為が「治療」であり、その医療的行為の介入によって患者の状態を改善させることを目的とする場合、報酬算出機能123は、数式(6)を用いて報酬rを算出してよい。このように、報酬算出機能123は、介入する医療的行為の種類に応じて、報酬rの算出方法を変更してもよい。
【0058】
フローチャートの説明に戻る。次に、学習機能124は、算出された報酬rに基づいて、医療的行為の方策を学習する(ステップS106)。
【0059】
例えば、学習機能124は、介入前診療データが入力されたことに応じて、その診療データが示す状態の観測対象である患者に対して介入すべき医療的行為を方策として出力するように、強化学習モデルMDL2を学習する。
【0060】
強化学習には、例えば、価値ベース(Value based)、方策ベース(Policy based)、価値と方策を組み合わせたActor-Critic、予測モデルベース、といったいくつかの種類が知られている。本実施形態に係る強化学習モデルMDL2は、例えば、価値ベースのQ学習や、Actor-Criticなどを適用したニューラルネットワークによって実装されてよい。
【0061】
強化学習モデルMDL2は、メモリ114に格納されたモデル情報によって定義される。モデル情報には、例えば、ニューラルネットワークを構成する複数の層のそれぞれに含まれるユニットが互いにどのように結合されるのかという結合情報や、結合されたユニット間で入出力されるデータに付与される結合係数などの各種情報が含まれる。結合情報とは、例えば、各層に含まれるユニット数や、各ユニットの結合先のユニットの種類を指定する情報、各ユニットを実現する活性化関数、隠れ層のユニット間に設けられたゲートなどの情報を含む。ユニットを実現する活性化関数は、例えば、正規化線形関数(ReLU関数)であってもよいし、シグモイド関数や、ステップ関数、その他の関数などであってもよい。ゲートは、例えば、活性化関数によって返される値(例えば1または0)に応じて、ユニット間で伝達されるデータを選択的に通過させたり、重み付けたりする。結合係数は、例えば、ニューラルネットワークの隠れ層において、ある層のユニットから、より深い層のユニットにデータが出力される際に、出力データに対して付与される重みを含む。結合係数は、各層の固有のバイアス成分などを含んでもよい。
【0062】
例えば、強化学習モデルMDL2にQ学習が適用される場合、学習機能124は、数式(7)に基づいて、行動価値関数を学習してよい。Q学習の一つであるDQN(Deep Q-Network)を適用する場合、学習機能124は、ある時刻tにおける患者の状態Stの下で、ある医療的行為Atを介入したときの価値を関数として表した行動価値関数Q(St、At)を、ニューラルネットワークに近似関数として学習させる。
【0063】
【0064】
Q(St,At)は、医療的行為が介入される前の時刻tにおける行動価値(Q値)を表している。αは学習率を表し、γは割引率を表している。rtは数式(1)~(6)に基づき算出された報酬を表している。aは医療的行為が介入された後の時刻t+1における、ある一つの医療的行為を表している。このように報酬rtが組みこまれた数式(7)を基に行動価値を更新する。このように学習された強化学習モデルMDL2は、医療的行為が介入される前の時刻tにおいて患者に介入することが可能な一つ又は複数の医療的行為(行動変数)Atのうち、価値(Q値)が最大となる医療的行為(行動変数)Atを出力する。
【0065】
また、例えば、強化学習モデルMDL2にActor-Criticが適用される場合、学習機能124は、数式(8)に基づいて勾配を算出し、価値関数VWと方策πθのパラメータを学習してよい。
【0066】
【0067】
また学習機能124は、Q学習やActor-Criticなどの他に、バンディットアルゴリズムと呼ばれる強化学習を用いて患者に介入すべき医療的行為を学習してもよいし、これら強化学習に代えて、教師あり学習や因果推論などを用いて、患者に対して介入すべき医療的行為を学習してもよい。
【0068】
例えば、教師あり学習の場合、介入前診療データと介入され得る診療行為の種類とを説明変数とし、報酬rを目的変数としたトレーニングデータセットを基に機械学習モデルを学習してよい。
【0069】
また例えば、因果推論の場合、介入前診療データ、介入され得る診療行為の種類、及び報酬rを効果として、因果推論を適用してよい。
【0070】
以上説明した一連の処理によって
図2のフローチャートが終了する。
【0071】
[医用情報処理装置の処理フロー・ランタイム]
図8は、実施形態に係る処理回路120の一連の処理の流れを表すフローチャートである。
図8に示すフローチャートの処理は、例えば、Q学習やActor-Critic、バンディットアルゴリズムなどが適用された強化学習モデルMDL2の学習が済んだ後に実行されてよい。Q学習やActor-Critic、バンディットアルゴリズムといった強化学習の代わりに、教師あり学習や因果推論を用いて方策(つまり患者に対して介入すべき医療的行為)が学習されている場合、それら教師あり学習や因果推論が実行された後に、フローチャートの処理は実行される。
【0072】
まず、取得機能121は、医療的行為の介入対象である患者(以下、対象患者という)の状態を示すデータ(つまり対象患者の介入前診療データ)を取得する(ステップS200)。対象患者の介入前診療データは「第3データ」の一例である。
【0073】
例えば、取得機能121は、S102の処理同様に、通信インタフェース111を介して、外部装置であるデータベースにアクセスし、そのデータベースから対象患者の介入前診療データを取得してよい。また、対象患者の主治医などが入力インタフェース112に介入前診療データを入力した場合、取得機能121は、入力インタフェース112から対象患者の介入前診療データを取得してもよい。更に、メモリ114に対象患者の介入前診療データが格納された場合、取得機能121は、メモリ114から対象患者の介入前診療データを取得してもよい。
【0074】
次に、介入決定機能125は、学習済みの方策を用いて、対象患者の介入前診療データから、その対象患者に介入すべき医療的行為(又はその種類)を決定する(ステップS202)。
【0075】
例えば、強化学習モデルMDL2は、上述したように、医療的行為が介入される前の時刻tにおいて患者に介入することが可能な一つ又は複数の医療的行為(行動変数)Atのうち、価値(Q値)が最大となる医療的行為(行動変数)Atを出力するように学習されている。従って、介入決定機能125は、学習済みの強化学習モデルMDL2に対して、対象患者の介入前診療データを入力する。学習済みの強化学習モデルMDL2は、対象患者の介入前診療データが入力されたことに応じて、その対象患者に介入することが可能な一つ又は複数の医療的行為のうち、価値(Q値)が最大となる医療的行為を出力する。介入決定機能125は、強化学習モデルMDL2によって出力された医療的行為を、対象患者に介入すべき医療的行為に決定する。
【0076】
次に、出力制御機能126は、介入決定機能125によって決定された医療的行為に基づく情報を、出力インタフェース113を介して出力する(ステップS204)。例えば、出力制御機能126は、ディスプレイ113aに医療的行為に基づく情報を表示させてよい。また、出力制御機能126は、通信インタフェース111を介して、外部装置(例えば、対象患者の主治医などが利用するコンピュータ)に医療的行為に基づく情報を送信してもよい。これによって、本フローチャートの処理が終了する。
【0077】
図9及び
図10は、対象患者に介入すべき医療的行為に基づく情報が表示されたディスプレイ113aの画面例を表す図である。例えば、ディスプレイ113aの画面には、価値(Q値)が最大となる医療的行為に加えて、2番目に価値が高い医療的行為や、3番目に価値が高い医療的行為などが表示されてよい。また、ディスプレイ113aの画面には、対象患者に介入すべき医療的行為の種類(治療なのか検査なのか)が表示されてもよいし、各医療的行為を介入したときに不確実性(つまり医療的行為の介入前後における対象患者の状態のばらつき)が確率等の定量的指標で表示されてもよい。このような情報をディスプレイ113aに表示させることで、患者に介入すべき医療的行為を推薦することができる。
【0078】
以上説明した実施形態によれば、医用情報処理装置100の処理回路120は、所定の疾患に関する医療的行為が介入される前の患者の状態を示す介入前診療データと、医療的行為が介入された後の患者の状態を示す介入後診療データとを取得する。処理回路120は、少なくとも介入前診療データのばらつき及び介入後診療データのばらつきに基づいて、強化学習のための報酬を算出する。処理回路120は、算出された報酬に基づいて、患者に対して介入すべき医療的行為を決定するための方策を学習する。
【0079】
このように学習された方策を用いて、対象患者の介入前診療データから、対象患者に介入すべき医療的行為を決定することができる。この結果、対象患者に介入すべき医療的行為を推薦することができる。
【0080】
いくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0081】
100…医用情報処理装置、111…通信インタフェース、112…入力インタフェース、113…出力インタフェース、113a…ディスプレイ、114…メモリ、120…処理回路、121…取得機能、122…推定機能、123…報酬算出機能、124…学習機能、125…介入決定機能、126…出力制御機能