(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022190877
(43)【公開日】2022-12-27
(54)【発明の名称】医用情報処理装置及び医用情報処理システム
(51)【国際特許分類】
G16H 50/20 20180101AFI20221220BHJP
G16H 50/70 20180101ALI20221220BHJP
【FI】
G16H50/20
G16H50/70
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021099384
(22)【出願日】2021-06-15
(71)【出願人】
【識別番号】594164542
【氏名又は名称】キヤノンメディカルシステムズ株式会社
(74)【代理人】
【識別番号】100108855
【弁理士】
【氏名又は名称】蔵田 昌俊
(74)【代理人】
【識別番号】100103034
【弁理士】
【氏名又は名称】野河 信久
(74)【代理人】
【識別番号】100179062
【弁理士】
【氏名又は名称】井上 正
(74)【代理人】
【識別番号】100075672
【弁理士】
【氏名又は名称】峰 隆司
(74)【代理人】
【識別番号】100153051
【弁理士】
【氏名又は名称】河野 直樹
(74)【代理人】
【識別番号】100162570
【弁理士】
【氏名又は名称】金子 早苗
(72)【発明者】
【氏名】狩野 佑介
(72)【発明者】
【氏名】佐藤 杏莉
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA03
5L099AA04
(57)【要約】
【課題】因果推論を適切に行うことである。
【解決手段】実施形態に係る医用情報処理装置は、第1取得部と、第2取得部と、第1抽出部と、算出部とを具備する。第1取得部は、観測交絡因子に基づいてユーザが判断した結果に対応する第1数値を取得する。第2取得部は、前記観測交絡因子及び前記ユーザの判断を支援する第1支援情報に基づいて前記ユーザが判断した結果に対応する第2数値を取得する。第1抽出部は、前記第1数値と前記第2数値との間の第1差分を抽出する。算出部は、前記第1差分及び前記観測交絡因子に基づいて、前記ユーザの判断に対する未観測交絡因子の影響度を算出する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
観測交絡因子に基づいてユーザが判断した結果に対応する第1数値を取得する第1取得部と、
前記観測交絡因子及び前記ユーザの判断を支援する第1支援情報に基づいて前記ユーザが判断した結果に対応する第2数値を取得する第2取得部と、
前記第1数値と前記第2数値との間の第1差分を抽出する第1抽出部と、
前記第1差分及び前記観測交絡因子に基づいて、前記ユーザの判断に対する未観測交絡因子の影響度を算出する算出部と、
を具備する医用情報処理装置。
【請求項2】
前記観測交絡因子を入力として前記第1数値の予測値である第1傾向スコアを出力する第1関数と、前記観測交絡因子を入力として前記第2数値の予測値である第2傾向スコアを出力する第2関数とを記憶する記憶部と、
前記第1傾向スコアと前記第2傾向スコアとの間の第2差分を抽出する第2抽出部と、
前記第1差分と前記第2差分との間の予測残差を最小化するように、前記第1関数の第1パラメータ及び前記第2関数の第2パラメータを学習する学習部と、
をさらに具備し、
前記算出部は、前記第1数値と前記学習された第1パラメータを用いて予測された前記第1傾向スコアとの間の差分、又は、前記第2数値と前記学習された第2パラメータを用いて予測された前記第2傾向スコアとの間の差分を、前記未観測交絡因子の影響度として算出する、
請求項1に記載の医用情報処理装置。
【請求項3】
前記第1支援情報を出力するモデルを、前記未観測交絡因子の影響度を用いて更新する
更新部と、
をさらに具備する請求項1又は請求項2に記載の医用情報処理装置。
【請求項4】
前記未観測交絡因子の影響度に基づいて、前記ユーザの判断がアウトカムに与える因果効果を推定する推定部と、
をさらに具備する請求項1から請求項3のいずれか1項に記載の医用情報処理装置。
【請求項5】
前記因果効果に基づいて、前記ユーザの判断を支援する第2支援情報を出力する第1出力部と、
をさらに具備する請求項4に記載の医用情報処理装置。
【請求項6】
前記第2支援情報における前記未観測交絡因子の影響度の割合を出力する第2出力部と、
をさらに具備する請求項5に記載の医用情報処理装置。
【請求項7】
前記第2支援情報に影響する前記未観測交絡因子の候補を出力する第3出力部と、
をさらに具備する請求項5又は請求項6に記載の医用情報処理装置。
【請求項8】
診療情報データベース及び医用情報処理装置を具備する医用情報処理システムであって、
前記診療情報データベースは、
観測交絡因子に基づいてユーザが判断した結果に対応する第1数値と、前記観測交絡因子及び前記ユーザの判断を支援する第1支援情報に基づいて前記ユーザが判断した結果に対応する第2数値とを記憶する記憶部と、
を具備し、
前記医用情報処理装置は、
前記第1数値を取得する第1取得部と、
前記第2数値を取得する第2取得部と、
前記第1数値と前記第2数値との間の第1差分を抽出する第1抽出部と、
前記第1差分及び前記観測交絡因子に基づいて、前記ユーザの判断に対する未観測交絡因子の影響度を算出する算出部と、
を具備する医用情報処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書及び図面に開示の実施形態は、医用情報処理装置及び医用情報処理システムに関する。
【背景技術】
【0002】
因果推論は、データから介入又は曝露がアウトカムに及ぼす因果効果を推定する手法であり、医療、経済、政治、マーケティングなどの広範な分野において利用されている。近年では、機械学習を用いてデータから個別因果効果を推定する手法(例えば、TARNet、Causal Forest、CMGP、GANITE、X-learner)が数多く提案されている。このような機械学習を用いた因果推論において、因果効果を適切に推定するためには、因果関係に影響する全ての交絡因子を特定する必要がある。
【0003】
しかし、交絡因子の特定には、人間による対象分野の専門知識(ドメイン知識)が理論上不可欠とされており、全ての交絡因子を特定することは一般的に困難である。さらに、データからドメイン知識や因果推論の結果が正しいか否かを厳密に検証する手段は存在しないため、未観測の交絡因子が存在する余地が残される。未観測の交絡因子が存在する場合に因果効果を推定する手法として、例えばランダム化比較試験(RCT:Randomized Controlled Trial)、回帰不連続デザイン(RDD:Regression Discontinuity Design)、操作変数(IV:Instrumental Variable)法、フロントドア基準が挙げられるが、これらは条件が厳しく現実的ではない。また、近年提案されている機械学習による因果推論の手法の多くは、未観測の交絡因子がないことを前提としているが、実際の分析では当該前提の妥当性は蔑ろにされている。したがって、機械学習を用いた因果推論において因果効果を適切に推定するため、未観測の交絡因子の影響度を定量化することが望まれる。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
本明細書及び図面に開示の実施形態が解決しようとする課題の一つは、因果推論を適切に行うことである。ただし、本明細書及び図面に開示の実施形態により解決しようとする課題は上記課題に限られない。後述する実施形態に示す各構成による各効果に対応する課題を他の課題として位置づけることもできる。
【課題を解決するための手段】
【0006】
実施形態に係る医用情報処理装置は、第1取得部と、第2取得部と、第1抽出部と、算出部とを具備する。第1取得部は、観測交絡因子に基づいてユーザが判断した結果に対応する第1数値を取得する。第2取得部は、前記観測交絡因子及び前記ユーザの判断を支援する第1支援情報に基づいて前記ユーザが判断した結果に対応する第2数値を取得する。第1抽出部は、前記第1数値と前記第2数値との間の第1差分を抽出する。算出部は、前記第1差分及び前記観測交絡因子に基づいて、前記ユーザの判断に対する未観測交絡因子の影響度を算出する。
【図面の簡単な説明】
【0007】
【
図1】
図1は、実施形態に係る医用情報処理システムの構成例である。
【
図2】
図2は、実施形態に係る医用情報処理装置の構成例である。
【
図4】
図4は、因果推論用のデータセットを収集する方法の一例である。
【
図5】
図5は、因果推論用のデータセットの一例である。
【
図6】
図6は、傾向スコアの予測関数のパラメータを学習する方法の一例である。
【
図7】
図7は、各交絡因子の支援情報への影響度の一例である。
【発明を実施するための形態】
【0008】
以下、図面を参照しながら実施形態に係る医用情報処理装置及び医用情報処理システムについて説明する。以下の実施形態では、同一の参照符号を付した部分は同様の動作を行うものとして、重複する説明を適宜、省略する。
【0009】
図1は、実施形態に係る医用情報処理システム100の構成例である。
医用情報処理システム100は、医用情報処理装置1及び診療情報データベース2を含む。医用情報処理システム100において、医用情報処理装置1及び診療情報データベース2は互いに通信可能に接続される。なお、医用情報処理システム100は、例えば特定の医療機関内において構築された院内ネットワーク(LAN)でもよいし、ネットワークを介して複数の医療機関に跨って構築された広域ネットワーク(WAN)でもよい。すなわち、医用情報処理システム100は、上記の通信経路が構築されている限り、如何なる規模のネットワークでもよい。
【0010】
医用情報処理装置1は、医療に関する種々の情報を処理するコンピュータである。具体的には、医用情報処理装置1は、診療情報データベース2から因果推論用のデータセット200(
図5に後述)を取得して種々の処理を行うことで、未観測の交絡因子の影響度を定量化する。なお、医用情報処理装置1は、高速な処理を実行可能なワークステーションであってもよい。
【0011】
診療情報データベース2は、患者ごとに種々の診療情報を記憶する。診療情報は、例えば基本情報(患者番号、年齢、性別、生年月日など)、個人情報(身長、体重、血液型、既往歴、持病の有無、生活習慣(運動、喫煙、食事、飲酒、ストレス、睡眠)など)、及び疾患情報(疾患名、ステージ、虚弱スコア、実施された治療法(手術又は投薬)、治療後の予後など)を含む。さらに、診療情報は、種々の医用画像診断装置(CR(Computer Radiography)装置、CT(Computed Tomography)装置、MRI(Magnetic Resonance Imaging)装置、UL(Ultrasound)装置、RI(Radio Isotope)装置、内視鏡装置など)により撮影された医用画像を含む。本実施形態において、診療情報データベース2は、因果推論用のデータセット200を含む。なお、診療情報データベース2は、医用情報処理装置1に格納されてもよい。
【0012】
図2は、実施形態に係る医用情報処理装置1の構成例である。
医用情報処理装置1は、処理回路11、メモリ12、ディスプレイ13、入力インタフェース14、及び通信インタフェース15を含む。各構成は、共通の信号伝送路であるバスを介して互いに通信可能に接続される。なお、各構成は個々のハードウェアにより実現されなくともよい。例えば、各構成のうち少なくとも2つが1つのハードウェアにより実現されてもよい。
【0013】
処理回路11は、医用情報処理装置1を制御することで種々の動作を実行させる。処理回路11は、ハードウェアとしてCPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)などのプロセッサを有する。処理回路11は、プロセッサを介してメモリ12に展開されたプログラムを実行することで、各プログラムに対応する各機能(例えば、取得機能111、抽出機能112、算出機能113、学習機能114、更新機能115、推定機能116、出力機能117)を実現する。なお、各機能は複数のプロセッサを組み合わせた処理回路11により実現されてもよい。
【0014】
取得機能111は、観測交絡因子に基づいてユーザが判断した結果に対応する第1数値を取得する。また、取得機能111は、観測交絡因子及びユーザの判断を支援する第1支援情報に基づいてユーザが判断した結果に対応する第2数値を取得する。
抽出機能112は、第1数値と第2数値との間の第1差分を抽出する。また、抽出機能112は、第1傾向スコアと第2傾向スコアとの間の第2差分を抽出する。第1傾向スコア及び第2傾向スコアはそれぞれ、第1数値の予測値及び第2数値の予測値である。
算出機能113は、第1差分及び観測交絡因子に基づいて、ユーザの判断に対する未観測交絡因子の影響度を算出する。
学習機能114は、第1差分と第2差分との間の予測残差を最小化するように、第1関数の第1パラメータ及び第2関数の第2パラメータを学習する。
更新機能115は、第1支援情報を出力するモデルを、未観測交絡因子の影響度を用いて更新する。
推定機能116は、未観測交絡因子の影響度に基づいて、ユーザの判断がアウトカムに与える因果効果を推定する。
出力機能117は、因果効果に基づいて、ユーザの判断を支援する第2支援情報を出力する。また、出力機能117は、第2支援情報における未観測交絡因子の影響度の割合を出力する。また、出力機能117は、第2支援情報に影響する未観測交絡因子の候補を出力する。
【0015】
メモリ12は、処理回路11が使用するデータやプログラムなどの情報を記憶する。メモリ12は、ハードウェアとしてRAM(Random Access Memory)などの半導体メモリ素子を有する。なお、メモリ12は、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク)、光磁気ディスク(MO)、光学ディスク(CD、DVD、Blu-ray(登録商標))、フラッシュメモリ(USBフラッシュメモリ、メモリカード、SSD)、磁気テープなどの外部記憶装置との間で情報を読み書きする駆動装置であってもよい。なお、メモリ12の記憶領域は、医用情報処理装置1内部にあってもよいし、外部記憶装置にあってもよい。本実施形態において、メモリ12は、観測交絡因子を入力として第1数値の予測値である第1傾向スコアを出力する第1関数と、観測交絡因子を入力として第2数値の予測値である第2傾向スコアを出力する第2関数とを記憶する。さらに、メモリ12は、CDS(Clinical Decision Support:臨床決定支援)モデル3を記憶する。メモリ12は、記憶部の一例である。
【0016】
CDSモデル3は、医用情報処理装置1を利用するユーザの臨床的な意思決定を支援する。ユーザは、例えば患者を診療する医師や看護師などの医療従事者を含む。本実施形態において、CDSモデル3は、患者に関する複数種類の診療情報を入力として、当該患者を診療する医師の判断を支援する支援情報を出力するものとする。これに限らず、CDSモデル3は、医師の判断を変化させ得る情報(生データ、予測、推奨など)を出力してもよい。CDSモデル3は、例えばニューラルネットワークなどの機械学習モデルにより実装される。
【0017】
ディスプレイ13は、処理回路11が生成したデータやメモリ12に格納されるデータ、CDSモデル3が出力したデータなどを表示する。ディスプレイ13として、例えば、ブラウン管(CRT:Cathode Ray Tube)ディスプレイ、液晶ディスプレイ(LCD:Liquid Crystal Display)、プラズマディスプレイ、有機ELディスプレイ(OELD:Organic Electro-Luminescence Display)、及びタブレット端末を含む任意のディスプレイが使用可能である。
【0018】
入力インタフェース14は、医用情報処理装置1を利用するユーザからの入力を受け付け、受け付けた入力を電気信号に変換して処理回路11に出力する。入力インタフェース14として、例えば、マウス、キーボード、トラックボール、スイッチ、ボタン、ジョイスティック、タッチパッド、タッチパネルディスプレイを含む任意の操作部品が使用可能である。なお、入力インタフェース14は、医用情報処理装置1とは別体である外部の入力装置から入力を受け付け、受け付けた入力を電気信号に変換して処理回路11に出力する装置であってもよい。
【0019】
通信インタフェース15は、医用情報処理装置1と診療情報データベース2との間で種々のデータを通信する。通信規格として、例えば医用画像情報に関する通信にはDICOM(Digital Imaging and Communications in Medicine)が使用可能であり、医用文字情報に関する通信にはHL7(Health Level 7)が使用可能である。
【0020】
図3は、医用情報処理装置1の動作例である。
ステップS101において、医用情報処理装置1は、取得機能111により、因果推論用のデータセット200を取得する。具体的には、医用情報処理装置1は、通信インタフェース15を介して診療情報データベース2にアクセスすることで、因果推論用のデータセット200を取得する。データセット200には、観測交絡因子に基づいてユーザが判断した結果に対応する第1数値と、観測交絡因子及びユーザの判断を支援する第1支援情報に基づいてユーザが判断した結果に対応する第2数値とが含まれる。なお、データセット200は、予め診療情報データベース2に記憶されていてもよいし、医用情報処理装置1が、
図4に示す方法に従って新たに収集してもよい。
【0021】
ステップS102において、医用情報処理装置1は、学習機能114により、傾向スコアの予測関数のパラメータを学習する。具体的には、医用情報処理装置1は、取得されたデータセット200を用いて、第1数値の予測値である第1傾向スコアを予測する第1関数の第1パラメータと、第2数値の予測値である第2傾向スコアを予測する第2関数の第2パラメータとを学習する。パラメータ学習の詳細は、
図6に後述する。
【0022】
ステップS103において、医用情報処理装置1は、算出機能113により、未観測交絡因子の影響度を算出する。具体的には、医用情報処理装置1は、第1数値と学習された第1パラメータを用いて予測された第1傾向スコアとの間の差分、又は、第2数値と学習された第2パラメータを用いて予測された第2傾向スコアとの間の差分を、未観測交絡因子の影響度として算出する。
【0023】
ステップS104において、医用情報処理装置1は、推定機能116により、因果効果を推定する。具体的には、医用情報処理装置1は、算出された未観測交絡因子の影響度に基づいて、ユーザの判断がアウトカムに与える因果効果を推定する。また、医用情報処理装置1は、更新機能115により、ユーザの判断を支援する第1支援情報を出力するモデル(CDSモデル3)を、算出された未観測交絡因子の影響度を用いて更新してもよい。
【0024】
ステップS105において、医用情報処理装置1は、出力機能117により、支援情報を出力する。具体的には、医用情報処理装置1又はCDSモデル3は、推定された因果効果に基づいて、ユーザの判断を支援する第2支援情報を出力する。
【0025】
ステップS106において、医用情報処理装置1は、出力機能117により、各交絡因子の影響度を出力する。具体的には、医用情報処理装置1は、第2支援情報における未観測交絡因子の影響度の割合を出力する。また、医用情報処理装置1は、出力機能117により、第2支援情報に影響する未観測交絡因子の候補を出力してもよい。
【0026】
図4は、因果推論用のデータセット200を収集する方法の一例である。
以下、因果推論の一例として、患者の治療法に関する医師の判断(治療判断とも呼ぶ)と、当該判断に基づいて当該患者が治療された場合における患者の生存期間との間の因果関係に着目する。当該因果関係において、医師の判断が介入T(Treatment)に相当し、介入Tによる患者の生存期間がアウトカムYに相当する。このとき、介入TとアウトカムYとの間の因果関係を歪める複数の交絡因子が存在すると考えられる。複数の交絡因子は、データが得られている等の理由により、客観的に明らかであり観測される交絡因子(観測交絡因子:Wとも呼ぶ)と、データが得られておらず、客観的に明らかではなく観測されない交絡因子や、データは得られているが、交絡因子として認識されていない因子(未観測交絡因子:Uとも呼ぶ)とに二分される。これら交絡因子は、それぞれ異なる影響度で医師の判断Tに影響し、かつ、患者の生存期間Yにも影響する。本実施形態において、医師は明示的に観測交絡因子Wを考慮しつつ、暗黙的に未観測交絡因子Uを考慮して判断Tを行うものと想定する。なお、医師の判断Tに対する各交絡因子の影響度は、それぞれ異なる太さの矢印により図示される。
【0027】
因果推論用のデータセット200を収集するため、本手法ではCDSモデル3が支援情報を提示する前後それぞれにおいて医師が患者への治療法を判断する。ここでは、医師の判断に対する未観測交絡因子U及び判断の誤差εの影響度は、支援情報の提示前後で不変又は一定であると仮定する。逆に言えば、医師の判断に対する観測交絡因子Wの影響度は、支援情報の提示前後で変化する。
【0028】
まず、支援情報の提示前(CDS提示前)において、医師は観測交絡因子W及び未観測交絡因子Uに基づいて判断する。例えば、観測交絡因子Wが年齢W1及びステージW2であり、未観測交絡因子Uが虚弱さU1及び性別U2である場合を想定する。医師は患者の年齢W1及びステージW2を考慮して、当該患者への治療法に関する第1判断Tを下す。年齢W1は任意の数値を取り得る量的変数であり、ステージW2は複数のカテゴリを持つ質的変数である。具体的には、医師は患者の年齢W1をステージW2よりも重視して第1判断Tを下している。このとき、医師は暗黙的に未観測交絡因子Uである患者の虚弱さU1や性別U2をさらに考慮して第1判断Tを下したものとする。具体的には、虚弱さU1の影響度は性別U2の影響度よりも僅かに高い。
【0029】
第1判断Tは、複数のカテゴリを持つ質的変数である。本実施形態において、第1判断Tは「手術」又は「投薬」の2つのカテゴリを持つ二値変数である。具体的には、ダミー変数を用いて「手術」を「T=1」と表現し、「投薬」を「T=0」と表現する。もちろん、第1判断Tは、3つ以上のカテゴリを持つ多値変数であってもよい。すなわち、第1判断Tは、各カテゴリの数N(Nは自然数)に応じたN次元のOne-hotベクトルにより表現されてもよい。第1判断Tは、診療情報データベース2に記憶される。
【0030】
続いて、医用情報処理装置1は、CDSモデル3を介してディスプレイ13に支援情報を表示する。具体的には、医用情報処理装置1は、CDSモデル3に対してCDS提示前における観測交絡因子Wである年齢W1及びステージW2を入力する。CDSモデル3は、入力された患者の年齢W1及びステージW2に基づいて、医師の判断を支援する支援情報を出力する。例えば、CDSモデル3は支援情報として、患者に推奨される治療法(推奨治療とも呼ぶ)を出力する。推奨治療は、CDS提示後における医師の判断T´に影響を与えるが患者の生存期間Yには影響を与えないため、観測交絡因子Wに含まれないとする。
【0031】
これに限らず、CDSモデル3は、患者の生存期間Yにも影響を与える支援情報を出力してもよい。例えば、CDSモデル3は、患者の年齢W1及びステージW2を入力として、当該患者の虚弱スコアW3を出力してもよい。虚弱スコアW3は、CDS提示後における医師の判断T´に影響を与え、患者の生存期間Yにも影響を与えることから、観測交絡因子Wに含まれる。医師は、ディスプレイ13に表示された支援情報を確認することで、患者に対する治療法の判断を再考する。なお、医用情報処理装置1は、医師に対して治療判断のために参照すべき観測交絡因子Wの生データを支援情報として提示してもよい。すなわち、支援情報としては、医師の治療判断を変化させ得る如何なる因子でもよい。
【0032】
なお、支援情報は、複数の観測交絡因子のうち、全部又は一部の観測交絡因子から構成される値、又は計算される値であってもよい。一例として、複数の観測交絡因子W1、W2、W3、W4が存在する場合、支援情報は一部の観測交絡因子W1及びW2から計算される値であってもよい。
【0033】
最後に、支援情報の提示後(CDS提示後)において、医師は観測交絡因子W、支援情報、及び未観測交絡因子Uに基づいて判断する。例えば、医師は患者の年齢W1、ステージW2、及びCDSモデル3が提示した推奨治療を考慮して、当該患者への治療法に関する第2判断T´を下す。ここでは、医師は患者の年齢W1よりもステージW2を重視して第2判断T´を下している。前述の通り、第1判断T及び第2判断T´において未観測交絡因子U及び誤差εの影響度は不変であると仮定するため、第1判断Tから第2判断T´への医師の判断変化は、観測交絡因子Wの影響度の変化に起因すると見なすことができる。
【0034】
第2判断T´は、複数のカテゴリを持つ質的変数である。本実施形態において、第2判断T´は「手術」又は「投薬」の2つのカテゴリを持つ二値変数である。具体的には、ダミー変数を用いて「手術」を「T´=1」と表現し、「投薬」を「T´=0」と表現する。もちろん、第2判断T´は、3つ以上のカテゴリを持つ多値変数であってもよい。すなわち、第2判断T´は、各カテゴリの数N(Nは自然数)に応じたN次元のOne-hotベクトルにより表現されてもよい。換言すれば、第1判断T及び第2判断T´の定義は同様である。第2判断T´は、診療情報データベース2に記憶される。
【0035】
また、第2判断T´に基づいて患者に治療が実施された結果である当該患者の生存期間Yが、診療情報データベース2に記憶される。本実施形態において、生存期間Yは、任意の数値を取り得る量的変数である。生存期間Yは、第2判断T´が「手術」である場合(T´=1)における生存期間Y(1)と、第2判断T´が「投薬」である場合(T´=0)における生存期間Y(0)とに二分される。一人の患者について、Y(1)又はY(0)のうちいずれか一方が観測されるが他方は観測されないため、観測されないアウトカムY(1)又はY(0)を潜在アウトカム(potential outcome)とも呼ぶ。
【0036】
以上の一連の判断フローにより、診療情報データベース2には、一人の患者について観測交絡因子W1及びW2、第1判断T、第2判断T´、並びにアウトカムY(1)又はY(0)のそれぞれの値が対応付けられたデータが格納される。同様なフローが複数の患者それぞれについて繰り返されることで、患者ごとに上記の各値が対応付けられた因果推論用のデータセット200が収集される。前述の通り、本手法においてはユーザに2回判断させるという実験に近い操作が行われるため、データセット200は純粋な観察データではないといえる。
【0037】
図5は、因果推論用のデータセット200の一例である。
データセット200において、N人(Nは自然数)の患者それぞれについて観測交絡因子W
1及びW
2、未観測交絡因子U、治療判断T及びT´、並びにアウトカムY
(0)又はY
(1)のそれぞれの値が対応付けられて格納される。各患者について、未観測交絡因子U、並びに潜在アウトカムY
(0)又はY
(1)のそれぞれの値は不明であるため、値が不明であるセルは「?」で示される。なお、未観測交絡因子U1及びU2は単に「U」として集約して示される。
【0038】
例えば、患者番号「1」で表される患者について、各値はW1=W1
1、W2=W2
1、T=1、T´=1、Y(1)=Y(1)
1である。換言すれば、患者の年齢W1はW1
1、疾患のステージW2はW2
1である。つまり、データセット200によれば、医師は患者に対するCDS提示前の治療判断Tとして「手術」を選択し、CDS提示後の治療判断T´として「手術」を選択し、後者の治療判断T´に基づいて患者に「手術」が実施された結果、患者はY(1)
1の期間だけ生存した、という事例が把握できる。すなわち、本事例においてCDS提示前後で医師の判断は変化しなかったことが分かる。
【0039】
同様に、患者番号「2」で表される患者について、各値はW1=W1
2、W2=W2
2、T=0、T´=1、Y(1)=Y(1)
2である。換言すれば、患者の年齢W1はW1
2、疾患のステージW2はW2
2である。つまり、データセット200によれば、医師は患者に対するCDS提示前の治療判断Tとして「投薬」を選択し、CDS提示後の治療判断T´として「手術」を選択し、後者の治療判断T´に基づいて患者に「手術」が実施された結果、患者はY(1)
2の期間だけ生存した、という事例が把握できる。すなわち、本事例においてCDS提示前後で医師の判断は変化したことが分かる。
【0040】
次に、医用情報処理装置1は、因果推論用のデータセット200に基づいて学習することで、医師の治療判断Tが患者の生存期間Yに及ぼす因果効果Y
(1)-Y
(0)を推定する。ここで、因果効果Y
(1)-Y
(0)を推定するためのアウトカムYの予測式が以下の式(1)により表されると仮定する。ここでは線形モデルによりアウトカムYが予測される場合を想定するが、非線形モデルによりアウトカムYが予測されてもよい。
【数1】
式(1)において、Yはアウトカムの値、αは定数項、β
T、β
1、β
2、β
Uは偏回帰係数、Tは治療判断の値、W
1、W
2は観測交絡因子の値、Uは未観測交絡因子の値である。さらに、T=1のときのアウトカムYがアウトカムY
(1)に相当し、T=0のときのアウトカムYがアウトカムY
(0)に相当する。偏回帰係数β
TはY
(1)とY
(0)との間の差分Y
(1)-Y
(0)に影響するため、因果効果の推定にはβ
Tを適切に推定することが重要である。
【0041】
しかしながら、データセット200において未観測交絡因子Uの値は不明であるため、未観測交絡因子UのアウトカムYへの影響度を表す偏回帰係数β
Uは算出されない。そこで次に、式(1)における「+β
UU」の項を排除した以下の式(2)を仮定する。
【数2】
式(2)を用いて、医用情報処理装置1は、因果推論用のデータセット200に基づいて重回帰分析などにより学習することでα、β
T、β
1、β
2の値それぞれを算出することはできる。ところが、「+β
UU」の項が排除されているため、算出されていないβ
Uの値の分の影響が、算出されたα、β
T、β
1、β
2の値それぞれに加わる。すなわち、算出されたβ
Tの値にバイアスが含まれるため、医用情報処理装置1は、式(2)を用いて因果効果を適切に推定することができない。
【0042】
そこで本実施形態において、医用情報処理装置1は、患者が手術(T=1)に割り付けられる確率である傾向スコアe(propensity score)を利用して因果効果を推定する。傾向スコアeは1以上の観測交絡因子Wの関数であり、理想的には全ての交絡因子W、Uを用いて傾向スコアeが適切に推定されれば、因果効果も適切に推定される。
図4に示す通り、CDS提示前後において医師の判断への未観測交絡因子Uの影響度は不変であると仮定すれば、第1判断Tから第2判断T´への判断の変化量ΔTは、データセット200における観測交絡因子Wの値から予測される。医用情報処理装置1は、第1判断Tの予測値である第1傾向スコアT
~を予測する第1関数fと、第2判断T´の予測値である第2傾向スコアT´
~を予測する第2関数gとを用いて、判断の変化量ΔTを予測する。ここで、上付きチルダ(
~)は、予測値を示し、文字の直上にチルダが付されることを示す。また、データセット200が収集された時点において、各患者の傾向スコアeの値は不明であるため、各患者の傾向スコアeに関するセルは「?」で示される。
【0043】
図6は、傾向スコアの予測関数のパラメータを学習する方法の一例である。
まず、CDS提示前において、第1関数fは観測交絡因子W
1及びW
2を入力として、第1傾向スコアT
~を出力する。第1関数fは、CDS提示前における観測交絡因子の医師の判断への影響度を表す第1パラメータγ
1及びγ
2を用いて以下の式(3)のようにモデル化される。ここでは線形モデルにより傾向スコアが予測される場合を想定するが、非線形モデルにより傾向スコアが予測されてもよい。
【数3】
式(3)において、f(γ,W)は第1関数、γ
1、γ
2は第1パラメータ、W
1、W
2は観測交絡因子の値、T
~は第1傾向スコアである。また、CDS提示前において、第1判断の真値Tと第1傾向スコアT
~との間の第1予測残差は「|T-T
~|
2」で表される。
【0044】
同様に、CDS提示後において、第2関数gは観測交絡因子W
1及びW
2を入力として、第2傾向スコアT´
~を出力する。第2関数gは、CDS提示後における観測交絡因子の医師の判断への影響度を表す第2パラメータγ´
1及びγ´
2を用いて以下の式(4)のようにモデル化される。
【数4】
式(4)において、g(γ´,W)は第2関数、γ´
1、γ´
2は第2パラメータ、W
1、W
2は観測交絡因子の値、T´
~は第2傾向スコアである。また、CDS提示後において、第2判断の真値T´と第2傾向スコアT´
~との間の第2予測残差は「|T´-T´
~|
2」で表される。
【0045】
以上のように、医用情報処理装置1は、CDS提示前後それぞれにおいて、治療判断の真値T及びT´をそれぞれ予測する第1関数f及び第2関数gをモデル化する。CDS提示前からCDS提示後への判断変化の真値ΔTは、未観測交絡因子Uの影響度が不変であるという仮定の下で、観測交絡因子Wから予測され得る。すなわち、CDS提示前後の差異における判断変化の真値ΔTは、第1関数f及び第2関数gを用いて予測可能である。
【0046】
CDS提示前後の差異において、第3関数hは観測交絡因子W
1及びW
2を入力として、判断変化の予測値ΔT
~を出力する。第3関数hは第1関数f及び第2関数gを用いて以下の式(5)のようにモデル化される。
【数5】
式(5)において、h(γ,γ´,W)は第3関数、ΔT
~は判断変化の予測値である。また、CDS提示前後の差異において、判断変化の真値ΔTと判断変化の予測値ΔT
~との間の第3予測残差は「|ΔT-ΔT
~|
2」で表される。本実施形態において、第3関数hは第2関数gから第1関数fを引いた差分であるが、これに限らない。例えば、第3関数hは、第2関数gを第1関数fで除算したものでもよい。
【0047】
以上のようにしてモデル化された第1予測誤差、第2予測誤差、及び第3予測誤差を用いて、医用情報処理装置1はパラメータγ
1、γ
2、γ´
1、γ´
2を学習する。このとき、パラメータγ
1、γ
2、γ´
1、γ´
2を学習するための損失関数Lは以下の式(6)のように表される。
【数6】
【0048】
医用情報処理装置1は、損失関数Lの値を最小化するように各パラメータγ
1、γ
2、γ´
1、γ´
2を学習する。このときの学習は、具体的には以下の式(7)で表される。
【数7】
式(7)において、λはハイパーパラメータである。具体的には、医用情報処理装置1は、第3予測残差|ΔT-ΔT
~|
2が、第1予測残差|T-T
~|
2及び第2予測残差|T´-T´
~|
2よりも大きくなり過ぎないよう、ハイパーパラメータλを調整する。なお、医用情報処理装置1は、第1予測残差|T-T
~|
2又は第2予測残差|T´-T´
~|
2のうちいずれか一方と、第3予測残差|ΔT-ΔT
~|
2とを含む2つの項の総和を最小化するようにパラメータγ
1、γ
2、γ´
1、γ´
2を学習してもよい。
【0049】
前述の通り、CDS提示前からCDS提示後への判断変化の真値ΔTは、未観測交絡因子Uの影響度が不変であるという仮定の下で、観測交絡因子Wのみから完全に予測され得る。すなわち、式(6)において第3予測残差は0となり、第1予測残差と第2予測残差とにおける観測交絡因子Wでは説明されない未観測交絡因子Uの影響度のみが残差として残る。したがって、式(7)において上記の残差を最小化することにより算出されたパラメータγ1、γ2、γ´1、γ´2は、式(6)から未観測交絡因子Uの影響度を算出するために使用することができる。
【0050】
パラメータγ
1、γ
2、γ´
1、γ´
2が学習された後、医用情報処理装置1は、医師の判断Tへの未観測交絡因子の影響度U´を、以下の式(8)又は(9)により算出する。
【数8】
【数9】
式(8)又は(9)に示されるように、医用情報処理装置1は、CDS提示前又はCDS提示後における判断の真値から、学習されたパラメータを用いて予測された判断の予測値を引いた差分が、医師の判断への未観測交絡因子Uの影響度であるとして算出する。なお、未観測交絡因子の医師の判断への影響度U´は、予測された観測交絡因子の影響度T
~又はT´
~に比べて小さいと仮定する。
【0051】
ここで、医師の判断への未観測交絡因子の影響度U´と、アウトカムへの未観測交絡因子の影響度Uに相関がある、すなわち、未観測交絡因子Uの内訳の比率が不変であると仮定した場合、UはU´に代替される。このようにして、医用情報処理装置1は、以下の式(10)を用いてアウトカムYを推定する。
【数10】
式(10)において、β´
UはU´を含む項に係る偏回帰係数である。このように推定されたU´を用いて、医用情報処理装置1はデータセット200に基づいてアウトカムYを予測するので、偏回帰係数β
Tにはバイアスがかからない。したがって、医用情報処理装置1は、式(10)に基づいて因果効果を適切に推定することができる。なお、データセット200の収集時において、CDSモデル3が未観測交絡因子Uの影響度を考慮しない式(2)に基づいて支援情報を提示していた場合、医用情報処理装置1は、CDSモデル3を未観測交絡因子の影響度Uを考慮する式(10)に基づいて支援情報を提示するように更新してもよい。
【0052】
アウトカムYの予測については、傾向スコアとアウトカムの予測とを組み合わせた既存の手法(二重頑健推定:Doubly Robust Estimation、X-learner、R-learner、DR-learnerなど)を用いればよい。続いて、医用情報処理装置1は、予測されたアウトカムYを用いて種々の因果効果(平均因果効果:ATE(Average Treatment Effect)、条件付き平均因果効果:CATE(Conditional Average Treatment Effect)、個別因果効果:ITE(Individual Treatment Effect)など)を算出すればよい。
【0053】
また、医用情報処理装置1又はCDSモデル3は、予測された因果効果に基づいて、支援情報を出力してもよい。例えば、医用情報処理装置1は、予測された因果効果Y(1)-Y(0)の符号が正である場合には、アウトカムY(1)を生じさせる介入T(すなわち、T=1)に対応する推薦治療を支援情報として出力してもよい。逆に、医用情報処理装置1は、因果効果Y(1)-Y(0)の符号が負である場合には、アウトカムY(0)を生じさせる介入T(すなわち、T=0)に対応する推薦治療を支援情報として出力してもよい。さらに、医用情報処理装置1又はCDSモデル3は、支援情報における各交絡因子の影響度の割合を出力してもよい。
【0054】
図7は、各交絡因子の支援情報への影響度の一例である。
図7(a)及び
図7(b)は、医用情報処理装置1のディスプレイ13に表示され得る。
図7(a)において、医用情報処理装置1が各患者(患者A、患者B、患者C)について提示した各支援情報における各交絡因子の影響度が棒グラフにより示される。各交絡因子の影響度は、具体的には式(10)における各偏回帰係数β
1、β
2、β´
Uを標準化したそれぞれの値が、標準化された各偏回帰係数β
1、β
2、β´
Uそれぞれの値の総和に占める割合に相当する。例えば、標準化された各偏回帰係数β
1、β
2、β´
Uの総和に占める標準化されたβ´
Uの値が、未観測交絡因子Uの影響度に相当する。なお、標準化される前における、元の各交絡因子の影響度は不変である。
【0055】
例えば、患者Aに提示された支援情報に対する観測交絡因子Wの影響度は「0.55」であり、未観測交絡因子Uの影響度は「0.45」である。同様に、患者Bに提示された支援情報に対する観測交絡因子Wの影響度は「0.70」であり、未観測交絡因子Uの影響度は「0.30」である。医用情報処理装置1を利用するユーザは、ディスプレイ13に表示された
図7(a)を参照することで、未観測交絡因子の影響度を考慮して出力された支援情報における、各交絡因子の影響度の割合を確認することができる。
【0056】
図7(a)の表示中、医用情報処理装置1を利用するユーザは入力インタフェース14を操作して所望の患者に関する棒グラフを選択することができる。例えば、患者Aに関する棒グラフが選択された場合、
図7(a)から
図7(b)の表示画面に移行する。
【0057】
図7(b)において、観測交絡因子Wの影響度と、未観測交絡因子Uの影響度とがともに算出され、棒グラフの内訳が表示される。ここで、所定のデータを解析することで、医用情報処理装置1は、未観測交絡因子Uに関する1以上の候補をウィンドウ300に表示してもよい。具体的には、ウィンドウ300には未観測交絡因子の複数の候補として「虚弱スコア」、「性別」、「喫煙の有無」…が表示される。未観測交絡因子の候補の決定方法としては、例えばデータ解析を実行及び支援するユーザ(データサイエンティスト又はナレッジ提供医師)が、手動で候補を選択してもよい。あるいは、例えば医用情報処理装置1が、他のデータ処理で利用された観測交絡因子のうち、医用情報処理装置1の処理結果では観測交絡因子として選択されていない交絡因子を、未観測交絡因子Uの候補として決定してもよい。
【0058】
未観測交絡因子Uの候補を提示するため、例えば医用情報処理装置1は、1つ以上の未観測交絡因子Uを交絡因子Wの一部としてCDSモデル3に入れ、再度同様な方法にて影響度を算出する。医用情報処理装置1は、処理前後で未観測交絡因子Uの影響度が一定以上減少すれば、CDSモデル3に入れた因子を上記の候補として提示すればよい。上記の処理では、データとしては得られているが観測交絡因子Wとして認識されていない未観測交絡因子Uが存在することを前提とする。
【0059】
以上、実施形態に係る医用情報処理装置1について説明した。医用情報処理装置1は、観測交絡因子の影響度に基づいて間接的に、未観測の交絡因子の影響度を定量化する。医用情報処理装置1によれば、医師の判断に影響を及ぼしている未観測の交絡因子の影響度を定量化することができる。その結果として、医師は、因果推論の信頼性の程度を定量的に評価することができる。すなわち、医用情報処理装置1は、因果推論の信頼性を向上させることができる。
【0060】
ここで仮に、医師が観測交絡因子のみを考慮して判断を行う場合を想定する。当該場合においても同様に、医用情報処理装置1は、支援情報(CDS)の提示前における医師の判断に対応する第1数値と支援情報(CDS)の提示後における医師の判断に対応する第2数値とを取得する。続いて、医用情報処理装置1は観測交絡因子に基づいて、第1数値の予測値である第1傾向スコアと第2数値の予測値である第2傾向スコアとを算出する。最後に、医用情報処理装置1は、第1数値と第1傾向スコアとの間の差分、又は第2数値と第2傾向スコアとの間の差分を、未観測交絡因子の影響度として算出する。したがって、医師が観測交絡因子のみを考慮して判断を行っていた場合には、未観測交絡因子の影響度は「0」と算出される。これにより、医用情報処理装置1を利用するユーザは、当該医師の判断には未観測交絡因子の影響が含まれていないことを確認できる。
【0061】
以上説明した少なくとも1つの実施形態によれば、因果推論を適切に行うことができる。
【0062】
いくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更、実施形態同士の組み合わせを行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均などの範囲に含まれるものである。
【符号の説明】
【0063】
1…医用情報処理装置
2…診療情報データベース
3…CDSモデル
11…処理回路
12…メモリ
13…ディスプレイ
14…入力インタフェース
15…通信インタフェース
100…医用情報処理システム
111…取得機能
112…抽出機能
113…算出機能
114…学習機能
115…更新機能
116…推定機能
117…出力機能
200…データセット
300…ウィンドウ