(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024066412
(43)【公開日】2024-05-15
(54)【発明の名称】医用学習装置、医用学習方法及び医用情報処理システム
(51)【国際特許分類】
G06N 20/00 20190101AFI20240508BHJP
【FI】
G06N20/00
【審査請求】未請求
【請求項の数】25
【出願形態】OL
(21)【出願番号】P 2023093260
(22)【出願日】2023-06-06
(31)【優先権主張番号】63/421,359
(32)【優先日】2022-11-01
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】594164542
【氏名又は名称】キヤノンメディカルシステムズ株式会社
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】狩野 佑介
(57)【要約】
【課題】医療イベントに関する因果構造を正確に推定すること。
【解決手段】 実施形態に係る医用学習装置は、取得部と訓練部とを有する。取得部は、複数のイベントからなるデータセットであって、エキスパートに関する第1の行動データを含む第1のデータサンプルを含むデータセットを取得する。訓練部は、前記第1のデータサンプルに基づいて、前記複数のイベントに関する因果関係を推定する因果構造モデルを訓練する。
【選択図】
図5
【特許請求の範囲】
【請求項1】
複数のイベントからなるデータセットであって、エキスパートに関する第1の行動データを含む第1のデータサンプルを含むデータセットを取得する取得部と、
前記第1のデータサンプルに基づいて、前記複数のイベントに関する因果関係を推定する因果構造モデルを訓練する訓練部と、
を具備する医用学習装置。
【請求項2】
前記第1のデータサンプルは、前記第1の行動データに対応する第1の属性データを含む、請求項1に記載の医用学習装置。
【請求項3】
前記データセットは、非エキスパートに関する第2の行動データを含む第2のデータサンプルを更に含む、請求項1に記載の医用学習装置。
【請求項4】
前記第2のデータサンプルは、前記第2の行動データに対応する第2の属性データを含む、請求項3に記載の医用学習装置。
【請求項5】
前記訓練部は、前記第1の行動データに関する近最適性に関する評価関数に基づいて前記因果構造モデルを訓練する、請求項1に記載の医用学習装置。
【請求項6】
前記データセットは、非エキスパートに関する第2の行動データを含む第2のデータサンプルを更に含み、
前記評価関数は、前記第1の行動データと前記第2の行動データとの差に関する第1の評価関数であって、
前記訓練部は、前記第1の評価関数が最大化するように前記因果構造モデルのパラメータを更新する、
請求項5に記載の医用学習装置。
【請求項7】
前記評価関数は、前記第1の行動データに付与される報酬に関する第2の評価関数であって、
前記訓練部は、前記第2の評価関数に基づいて前記因果構造モデルのパラメータを更新する、
請求項5に記載の医用学習装置。
【請求項8】
前記訓練部は、前記第2の評価関数が最大化するように前記因果構造モデルのパラメータを更新する、請求項7に記載の医用学習装置。
【請求項9】
前記第2の評価関数は、前記報酬の分布を更に含み、
前記訓練部は、前記報酬の分布との差分が小さくなるように前記因果構造モデルのパラメータを更新する、
請求項7に記載の医用学習装置。
【請求項10】
前記報酬は、報酬関数に基づいて決定される、請求項7に記載の医用学習装置。
【請求項11】
前記報酬関数は、逆強化学習によって訓練される請求項10に記載の医用学習装置。
【請求項12】
前記第1の行動データは、エキスパートの方策関数に基づいて生成されるデータを含む、請求項1に記載の医用学習装置。
【請求項13】
前記第2の行動データは、前記非エキスパートの方策関数に基づいて生成されるデータを含む、
請求項3に記載の医用学習装置。
【請求項14】
前記エキスパートの方策関数は、強化学習又は模倣訓練によって訓練される、請求項12に記載の医用学習装置。
【請求項15】
前記非エキスパートの方策関数は、強化学習又は模倣訓練によって訓練される、請求項13に記載の医用学習装置。
【請求項16】
前記データセットは、環境モデルによって生成された第3のデータサンプルを含む、請求項1に記載の医用学習装置。
【請求項17】
前記訓練部は、因果識別性条件に関する評価関数に更に基づいて前記因果構造モデルを訓練する、請求項1に記載の医用学習装置。
【請求項18】
前記因果識別性条件に関する評価関数は、因果構造から生成されたデータの回帰誤差と、有向非循環グラフにするための制約条件と、グラフ構造又はニューラルネットワークの複雑さに関する正則化項とのうちの少なくとも1つである、請求項17に記載の医用学習装置。
【請求項19】
前記因果識別性条件に関する評価関数は、条件付き基準及び情報量規準の少なくとも一方である、請求項17に記載の医用学習装置。
【請求項20】
前記因果構造モデルは、環境モデルである、請求項1に記載の医用学習装置。
【請求項21】
前記訓練部は、前記第1のデータサンプルに含まれる前記第1の行動データを除いたイベントに関する因果関係を推定する因果構造モデルを訓練する、請求項1に記載の医用学習装置。
【請求項22】
前記訓練部は、前記第1の属性データに関する因果関係を推定する因果構造モデルを訓練する、
請求項2に記載の医用学習装置。
【請求項23】
前記因果構造モデルは、スケルトン、有向グラフ、部分有向非循環グラフ、有向非循環グラフ及びトポロジカル順序のうちの少なくとも1つである、請求項1に記載の医用学習装置。
【請求項24】
複数のイベントからなるデータセットであって、エキスパートに関する第1の行動データを含む第1のデータサンプルを含んだデータセットを取得する取得工程と、
前記第1のデータサンプルに基づいて、前記複数のイベントに関する因果関係を推定する因果構造モデルを訓練する訓練工程と、
を具備する医用情報処理方法。
【請求項25】
複数のイベントからなるデータセットであって、エキスパートに関する第1の行動データを含む第1のデータサンプルを含むデータセットを収集する収集装置と、
前記第1のデータサンプルに基づいて、前記複数のイベントに関する因果関係を推定する因果構造モデルを訓練する学習装置と、
前記因果構造モデルを利用して、現時点の時間ステップのデータサンプルから次時点の時間ステップのデータサンプルを推論する推論装置と、
を具備する医用情報処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書及び図面に開示の実施形態は、医用学習装置、医用学習方法及び医用情報処理システムに関する。
【背景技術】
【0002】
医療では、医療イベント間の因果関係を正しく考慮して治療方針を決定することが重要である。因果関係を定義する因果構造を有向非巡回グラフ(DAG:Directed Acyclic Graph)等のグラフィカルモデルとして機械学習により特定することは、因果構造学習(Causal Structure Learning)又は因果探索(Causal Discovery)と呼ばれる。正確な因果構造を使用することにより、疾患の診断、個別治療効果(Individualized Treatment Effect)予測、動的治療レジメン(Dynamic Treatment Regimens)等の下流タスクの精度が向上する。しかし、ランダム化比較試験等の介入のないデータから因果構造を学習する技術では、条件付き独立性や情報量規準等の因果識別性に関する条件を導入することで因果構造を特定するが、特殊な状況を除いては、マルコフ同値類以上の推定はできず、因果構造を正確に推定することが困難である。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Rahul Kidambi等、”Mobile: Model-Based Imitation Learning From Observation Alone”、arXiv:2102.10769v3 [cs. LG]、2022年1月31日
【非特許文献2】Daniel Kumor等、”Sequential Causal Imitation Learning with Unobserved Confounders”、arXiv:2208.06276v1 [cs. LG]、2022年8月12日
【非特許文献3】Zheng-Mao Zhu等、”OFFINE REINFORCEMENT LEARNING WITH CAUSAL STRUCTURED WORLD MODELS”、arXiv:2206.01474v1 [cs. LG]、2022年6月3日
【発明の概要】
【発明が解決しようとする課題】
【0004】
本明細書及び図面に開示の実施形態が解決しようとする課題の一つは、医療イベントに関する因果構造を正確に推定することである。ただし、本明細書及び図面に開示の実施形態により解決しようとする課題は上記課題に限られない。後述する実施形態に示す各構成による各効果に対応する課題を他の課題として位置づけることもできる。
【課題を解決するための手段】
【0005】
実施形態に係る医用学習装置は、取得部と訓練部とを有する。前記取得部は、複数のイベントからなるデータセットであって、エキスパートに関する第1の行動データを含む第1のデータサンプルを含むデータセットを取得する。前記訓練部は、前記第1のデータサンプルに基づいて、前記複数のイベントに関する因果関係を推定する因果構造モデルを訓練する。
【図面の簡単な説明】
【0006】
【
図1】
図1は、本実施形態に係る医用学習システムのネットワーク構成例を示す図を示す図である。
【
図2】
図2は、医療イベントに関するデータサンプルのデータ構造を表す図である。
【
図3】
図3は、本実施形態に係る医用学習装置の構成例を示す図である。
【
図4】
図4は、因果構造モデルのネットワーク構造例を示す図である。
【
図5】
図5は、医用学習処理の処理手順の一例を示す図である。
【
図6】
図6は、
図5に示す医用学習処理を模式的に示す図である。
【
図7】
図7は、
図5に示す医用学習処理に係るデータサンプルのデータ構造を表す図である。
【
図8】
図8は、因果構造モデル、報酬関数及び方策関数間のデータの送受を示す図である。
【
図9】
図9は、応用例に係るデータサンプルのデータ構造を表す図である。
【発明を実施するための形態】
【0007】
以下、図面を参照しながら、本実施形態に係る医用学習装置、医用学習方法及び医用情報処理システムについて説明する。
【0008】
図1は、本実施形態に係る医用情報処理システム100のネットワーク構成例を示す図である。
図1に示すように、医用情報処理システム100は、医療イベント収集装置1、医療イベント保管装置3、医用学習装置5、AIモデル保管装置7及び医用推論装置9を有する。医療イベント収集装置1、医療イベント保管装置3、医用学習装置5、AIモデル保管装置7及び医用推論装置9は、相互に情報通信可能に有線又は無線で接続されている。なお、医用情報処理システム100に含まれる医療イベント収集装置1、医療イベント保管装置3、医用学習装置5、AIモデル保管装置7及び医用推論装置9各々は、1台でもよいし、複数台でもよい。
【0009】
医療イベント収集装置1は、医療イベントに関するデータサンプルを収集する。「医療イベント」は、医療受領者に生じる医療に関するイベントである。医療受領者は、一例として、患者を意味する。医療イベントは、具体的には、属性及び/又は行動により規定される。
【0010】
属性は、医療受領者の状態及び/又は曝露を表すデータである。一例として、状態の要素としては、医療受領者の血圧や心拍、血糖値、SpO2その他の生体情報が挙げられる。曝露の要素としては、医療受領者に曝露された化学物質や物理的刺激が挙げられ、具体的には、化学物質や物理的刺激の名称や曝露時間等である。属性に関するデータは、各種生体情報に応じた生体情報収集機器により収集される。属性は、生体情報収集機器により収集されるものだけでなく、各種医用画像診断装置により収集される医用画像や当該医用画像に基づき画像処理装置により計測した画像計測値等でもよい。また、属性は、医療提供者の医療受領者に対する問診により得られる問診結果や医療提供者が作成する読影レポートや電子カルテの記載内容でもよい。属性は、上記の種々の属性要素のうちの1個に対応するスカラー量で表されてもよいし、複数の属性要素の組み合わせを含むベクトル量又は行列量により表されてもよい。属性の値は、具体的には、数字や文字、記号等により表される。属性に関するデータを収集する医療イベント収集装置1としては、属性の各種要素に応じた生体情報収集機器、医用画像診断装置、画像処理装置、医療提供者が診療で使用するコンピュータ端末等が挙げられる。医療提供者は、医師や看護師、薬剤師、介護士等を意味する。
【0011】
行動は、当該属性を有する医療受領者に施された行動を意味する。具体的には、行動は、医療提供者が医療受領者に施す診療行動、医療受領者が医療提供者の指示を受けて実施する行動、医療受領者が自発的に実施する行動等を意味する。一例として、行動の要素としては、投薬治療や外科手術、放射線治療等が挙げられる。行動は、上記の種々の行動要素のうちの1個に対応するスカラー量で表されてもよいし、複数の行動要素の組み合わせを含むベクトル量又は行列量により表されてもよい。行動の値は、具体的には、数字や文字、記号等により表される。行動のデータを収集する医療イベント収集装置1としては、医療提供者や医療受領者が使用するコンピュータ端末等が挙げられる。
【0012】
医療イベントに関するデータサンプルは、属性及び行動の他、報酬を含んでもよい。報酬は、当該属性を有する医療受領者に施された当該行動を評価するデータである。報酬の要素としては、例えば、臨床的アウトカム、患者報告アウトカム、経済的アウトカム等が挙げられる。臨床的アウトカムとしては、一例として、罹患率(罹患の有無を含む)、5年生存率(生存の有無を含む)、合併症発生率(合併症の有無を含む)、再入院率(再入院の有無を含む)、検査値(又は検査値の改善度)、日常生活自立度等が挙げられる。患者報告アウトカムとしては、一例として、自覚症状、主観的な健康状況、治療対する満足度、主観的幸福度等や挙げられる。経済的アウトカムとしては、一例として、医療費、投入された医療リソース、在院日数等が挙げられる。報酬は、上記の種々の報酬要素のうちの1個に対応するスカラー量で表されてもよいし、複数の報酬要素の組み合わせを含むベクトル量又は行列量により表されてもよい。報酬の値は、具体的には、数字や文字、記号等により表される。報酬のデータを収集する医療イベント収集装置1としては、医療提供者や医療受領者が使用するコンピュータ端末等が挙げられる。
【0013】
図2は、医療イベントに関するデータサンプルのデータ構造を表す図である。
図2に示すように、医療イベントに関するデータサンプルは、属性、行動及び/又は報酬のデータを含む。本実施形態において、属性は記号xで表され、行動は記号aで表され、報酬は記号rで表される。各記号の添字は、属性要素、行動要素又は報酬要素を識別する番号を意味する。なお、
図2において報酬rには添字が付されていないが、2個以上の要素により報酬を規定する場合、報酬rに添字が付されることとなる。
【0014】
医療イベント保管装置3は、医療イベントに関するデータサンプルからなるデータセットを保存する記憶装置を含むコンピュータである。当該記憶装置としては、ROM(Read Only Memory)やRAM(Random Access Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)、集積回路記憶装置が用いられればよい。
【0015】
医用学習装置5は、複数の医療イベントに関する因果関係を推定する因果構造モデルを訓練するコンピュータである。医用学習装置5の詳細については後述する。
【0016】
AIモデル保管装置7は、医用学習装置5により訓練された因果構造モデル等を保存する記憶装置を含むコンピュータである。当該記憶装置としては、ROMやRAM、HDD、SSD、集積回路記憶装置が用いられればよい。
【0017】
医用推論装置9は、学習済みの因果構造モデルを利用して複数の医療イベント間の因果構造を推論するコンピュータである。
【0018】
図3は、医用学習装置5の構成例を示す図である。
図3に示すように、医用学習装置5は、処理回路51、記憶装置52、入力機器53、通信機器54及び表示機器55を有するコンピュータ等の情報処理端末である。処理回路51、記憶装置52、入力機器53、通信機器54及び表示機器55は、バス(Bus)を介して相互に情報通信可能に接続されている。
【0019】
処理回路51は、CPU(Central Processing Unit)及びGPU(Graphics Processing Unit)等のプロセッサを有する。処理回路51は、医用学習プログラムを実行することにより、取得機能511、訓練機能512及び表示制御機能513等を実現する。なお、各機能511~513は単一の処理回路で実現される場合に限らない。複数の独立したプロセッサを組合せて処理回路を構成し、各プロセッサがプログラムを実行することにより各機能511~513を実現するものとしても構わない。また、機能511~513は、それぞれ医用学習プログラムを構成するモジュール化されたプログラムであってもよい。これらプログラムは記憶装置52に記憶される。
【0020】
記憶装置52は、種々の情報を記憶するROM(Read Only Memory)やRAM(Random Access Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)、集積回路記憶装置等である。記憶装置52は、上記記憶装置以外にも、CD(Compact Disc)、DVD(Digital Versatile Disc)、フラッシュメモリ等の可搬型記録媒体や、半導体メモリ素子等との間で種々の情報を読み書きする駆動装置であってもよい。また、記憶装置52は、ネットワークを介して接続された他のコンピュータ内にあってもよい。
【0021】
入力機器53は、操作者からの各種の入力操作を受け付け、受け付けた入力操作を電気信号に変換して処理回路51に出力する。具体的には、入力機器53は、マウス、キーボード、トラックボール、スイッチ、ボタン、ジョイスティック、タッチパッド及びタッチパネルディスプレイ等の入力機器に接続されている。入力機器53は、当該入力機器への入力操作に応じた電気信号を処理回路51へ出力する。入力機器53として、音声入力装置が使用されてもよい。また、入力機器53は、ネットワーク等を介して接続された他のコンピュータに設けられた入力機器でもよい。
【0022】
通信機器54は、他のコンピュータとの間で種々の情報を送受信するためのインタフェースである。通信機器54による情報通信は、DICOM(Digital Imaging and Communications in Medicine)等の医療情報通信に適当な規格に従い行われる。
【0023】
表示機器55は、処理回路51の表示制御機能513により種々の情報を表示する。表示機器55としては、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)、CRT(Cathode Ray Tube)ディスプレイ、有機ELディスプレイ(OELD:Organic Electro Luminescence Display)、プラズマディスプレイ又は他の任意のディスプレイが適宜使用可能である。また、表示機器55としてプロジェクタが使用されてもよい。
【0024】
取得機能511の実現により、処理回路51は、複数の医療イベントからなるデータセットであって、エキスパートに関する第1の行動データを含む第1のデータサンプルを含むデータセットを取得する。「エキスパート」は、医療提供者のうちの医療スキルの高い人物(熟練者)を意味する。本実施形態に係るエキスパートは、必ずしもエキスパートとして認定又は認証されている人物に限定されず、基準の人物に比して相対的に熟練していると仮定される人物をも含む。第1のデータサンプルは、上記の通り、第1の行動データに対応する第1の属性データを含んでもよい。データセットは、非エキスパートに関する第2の行動データを含む第2のデータサンプルを更に含んでもよい。第2のデータサンプルは、第1のデータサンプル同様、第2の行動データに対応する第2の属性データを含んでもよい。「非エキスパート」は、医療スキルの高くない人物を意味する。非エキスパートは、医療提供者に限らず如何なる人物でもよい。非エキスパートは、必ずしも非エキスパートとして認定又は認証されている人物に限定されず、基準の人物に比して相対的に熟練していないと仮定される人物をも含む。
【0025】
訓練機能512の実現により、処理回路51は、取得機能511により取得された第1のデータサンプルに基づいて、複数の医療イベントに関する因果関係を推定する因果構造モデルを訓練する。訓練された因果構造モデルは、AIモデル保管装置7に保管される。
【0026】
訓練機能512の実現により、処理回路51は、第1の行動データに関する近最適性に関する評価関数に基づいて因果構造モデルを訓練する。近最適性に関する評価関数は、第1の行動データと第2の行動データとの差に関する第1の評価関数を含んでもよい。処理回路51は、一例として、第1の評価関数が最大化するように因果構造モデルのパラメータを更新する。近最適性に関する評価関数は、第1の行動データに付与される報酬に関する第2の評価関数を含んでもよい。処理回路51は、第2の評価関数に基づいて因果構造モデルのパラメータを更新する。処理回路51は、一例として、第2の評価関数が最大化するように因果構造モデルのパラメータを更新する。第2の評価関数は、報酬の分布を更に含んでもよい。この場合、処理回路51は、目標となる報酬の分布(以下、目標分布)を設定し、第1の行動によって得られる報酬の分布が目標分布に近付くように、すなわち、当該報酬の分布と目標分布との差分が小さくなるように因果構造モデルのパラメータを更新する。報酬は、報酬関数に基づいて決定される。報酬関数は、一例として、逆強化学習によって訓練される。
【0027】
第1の行動データは、エキスパートの方策関数に基づいて生成されるデータを含む。第2の行動データは、非エキスパートの方策関数に基づいて生成されるデータを含む。エキスパートの方策関数は、強化学習又は模倣訓練によって訓練される。非エキスパートの方策関数は、強化学習又は模倣訓練によって訓練される。
【0028】
データセットは、環境モデル(World Model)によって生成された第3のデータサンプルを含んでもよい。因果構造モデルは、環境モデルの一例である。
【0029】
処理回路51は、更に因果識別性条件に関する評価関数に基づいて因果構造モデルを訓練してもよい。因果識別性条件に関する評価関数は、因果構造から生成されたデータの回帰誤差と、有向非循環グラフにするための制約条件と、グラフ構造又はニューラルネットワークの複雑さに関する正則化項とのうちの少なくとも1つを含む。因果識別性条件に関する評価関数は、条件付き基準及び情報量基準の少なくとも一方でもよい。
【0030】
処理回路51は、第1のデータサンプルに含まれる第1の行動データを除いた医療イベントに関する因果関係を推定する因果構造モデルを訓練してもよい。一例として、処理回路51は、第1のデータサンプルのうちの第1の属性データに関する因果関係を推定する因果構造モデルを訓練してもよい。
【0031】
図4は、因果構造モデルFのネットワーク構造例を示す図である。
図4に示すように、因果構造モデルFは、時間ステップtのデータサンプルS
tから、複数の医療イベント間の因果関係に照らして、次の時間ステップt+1のデータサンプルS
t+1として尤も確からしいデータサンプルを生成する。複数の医療イベント間の因果関係に照らして尤もらしいデータサンプルがデータサンプルS
t+1として生成される。なお、医療イベント間の因果関係は、行動から属性への因果関係やある属性から他の属性への因果関係が典型的であるが、属性から行動への因果関係、ある行動から他の行動への因果関係を除外するものではない。因果構造モデルFは、隣接行列層F1とNN(Neural Network)層F2とを有する。
【0032】
隣接行列層F1は、処理対象の時間ステップtのデータサンプルStに、予め定められた複数の医療イベント間の因果構造の有無を規定する隣接行列Aを作用させるネットワーク層である。換言すれば、隣接行列層F1は、時間ステップtのデータサンプルStが表す医療イベントに因果関係がある医療イベントを推定する。隣接行列層F1は、隣接行列Aが作用されたデータサンプルS´tを出力する。隣接行列層F1は、予め定められた複数の医療イベント間の因果構造を表すグラフィカルモデルで表現される。グラフィカルモデルは、スケルトン、有向グラフ、部分有向非循環グラフ、有向非循環グラフ及びトポロジカル順序の何れかにより定義される。
【0033】
一例として、グラフィカルモデルは、予め定められた複数の医療イベントにそれぞれ対応する複数のノードと、隣接するノード(医療イベント)間の因果構造を表すエッジとにより構成される有向非循環グラフであるとする。各ノードには、医療イベントに対応する属性及び/又は行動を表す変数が割り当てられている。各ノードを医療イベント変数と呼んでもよい。グラフィカルモデルに含まれる全てのノードの組合せ各々に関する因果構造の有無は隣接行列Aにより表現される。隣接行列Aは、ノード(医療イベント変数)の組合せに対応する個数の要素(以下、隣接行列要素)を有する。一例として、ノード間に因果構造が有る場合、当該ノード組合せに対応する隣接行列要素は値「1」を有し、ノード間に因果構造が無い場合、当該ノード組合せに対応する隣接行列要素は値「0」を有する。隣接行列要素は、訓練機能512により訓練される、因果構造モデルFのパラメータの一例である。
【0034】
NN層F2は、隣接行列Aが作用されたデータサンプルS´tに基づいて、次の時間ステップt+1のデータサンプルSt+1を推定するネットワーク層である。NN層F2は、畳み込み層、全結合層、プーリング層、正規化層、出力層等の任意のネットワーク層の組合せにより構成される。NN層F2の重みパラメータ及びバイアス等のネットワークパラメータが、訓練機能512により訓練される、因果構造モデルFのパラメータの一例である。
【0035】
表示制御機能513の実現により、処理回路51は、種々の情報を表示機器55に表示する。一例として、処理回路51は、データサンプルやデータセットを表示するとよい。他の例として、処理回路51は、因果構造モデルの学習結果等を表示してもよい。
【0036】
以下、本実施形態に係る医用学習装置500による医用学習処理について説明する。
【0037】
図5は、医用学習処理の処理手順の一例を示す図である。
図6は、
図5に示す医用学習処理を模式的に示す図である。
【0038】
図5に示すように、処理回路51は、取得機能511の実現により、エキスパートに関する現在の時間ステップtのデータサンプルS
(EX)
tを取得する(ステップS1)。データサンプルS
(EX)
tは、医療イベント収集装置1により収集された事実的なデータサンプルでもよいし、エキスパートに関する方策関数π
(EX)により生成された反事実的なデータサンプルでもよい。
【0039】
エキスパートに関する方策関数π(EX)は、エキスパートの行動を模倣するように訓練されたモデルである。方策関数π(EX)は、エキスパートに関するデータサンプルのうちの属性データから、当該エキスパートが行うであろう行動データを推定する。方策関数π(EX)は、エキスパートに関する属性データ及び行動データのデータセットに基づく強化学習又は模倣学習により学習されるとよい。模倣学習として、行動クローニングが使用されてもよいし、GAIL(Generative Adversarial Imitation Learning)が使用されてもよいし、強化学習と逆強化学習とを組み合わせた徒弟学習が使用されてもよい。
【0040】
図7は、
図5に示す医用学習処理に係るデータサンプルのデータ構造を表す図である。
図7に示すように、医療イベントに関するデータサンプルは、属性x、行動a及び/又は報酬rのデータを含む。各データサンプルには、当該データサンプルに含まれる行動データの主体の種別を表す識別子が関連付けられている。主体の種別は、具体的には、エキスパート又は非エキスパートである。
【0041】
ステップS1が行われると処理回路51は、訓練機能512の実現により、ステップS1において取得されたデータサンプルS(EX)
tを因果構造モデルFに適用し、時間ステップt+1のデータサンプルS(EX)
t+1を算出する(ステップS2)。ステップS2において使用される因果構造モデルFは、パラメータの訓練が完了していない、訓練可能な機械学習モデルである。
【0042】
ステップS2が行われると処理回路51は、取得機能511の実現により、非エキスパートに関する現在の時間ステップtのデータサンプルS(nEX)
tを取得する(ステップS3)。データサンプルS(nEX)
tは、医療イベント保管装置3により保管されている事実的なデータサンプルでもよいし、非エキスパートに関する方策関数π(nEX)により生成された反事実的なデータサンプルでもよい。
【0043】
非エキスパートに関する方策関数π(nEX)は、非エキスパートの行動をクローニングするように訓練されたモデルである。方策関数π(nEX)は、非エキスパートに関するデータサンプルのうちの属性データから、当該非エキスパートが行うであろう行動データを推定する。方策関数π(nEX)は、非エキスパートに関する属性データ及び行動データのデータセットに基づく強化学習又は模倣学習により訓練されるとよい。模倣学習として、行動クローニング、GAIL、徒弟学習等が使用されてもよい。
【0044】
ステップS3が行われると処理回路51は、訓練機能512の実現により、ステップS3において取得されたデータサンプルS(nEX)
tを因果構造モデルFに適用し、時間ステップt+1のデータサンプルS(nEX)
t+1を算出する(ステップS4)。ステップS4において使用される因果構造モデルFは、ステップS2において使用された機械学習モデルと同一であり、パラメータの訓練が完了していない、訓練可能な機械学習モデルである。
【0045】
ステップS4が行われると処理回路51は、訓練機能512の実現により、ステップS2において算出されたデータサンプルS(EX)
t+1とステップS4において算出されたデータサンプルS(nEX)
t+1とに基づいて、因果識別性条件評価関数Ccを算出する(ステップS5)。因果識別性条件評価関数Ccは、データサンプルから正しい因果構造を特定するために必要な評価関数である。一例として、連続最適化問題として因果探索を行う場合、因果識別性条件評価関数Ccは、因果構造から生成されたデータの回帰誤差、DAGにするための制約条件、グラフ構造やニューラルネットワークの複雑さに関する正規化項等に基づいて設計される。他の例として、組合せ最適化問題として因果探索を行う場合、因果識別性条件評価関数Ccは、条件付き独立性や情報量規準等に基づいて設計される。なお、本実施形態に係る因果探索においては、因果構造がDAGであることは必須条件ではない。
【0046】
ステップS5が行われると処理回路51は、訓練機能512の実現により、ステップS2において算出されたデータサンプルS(EX)
t+1とステップS4において算出されたデータサンプルS(nEX)
t+1とに基づいて、エキスパート及び非エキスパートの行動間相違度評価関数Cdを算出する(ステップS6)。行動間相違度評価関数Cdは、データサンプルS(EX)
t+1に含まれる行動データとデータサンプルS(nEX)
t+1に含まれる行動データとの差を評価する関数である。
【0047】
ステップS6が行われると処理回路51は、訓練機能512の実現により、ステップS2において算出されたデータサンプルS(EX)
t+1に基づいて報酬評価関数Crを算出する(ステップS7)。報酬評価関数Crは、データサンプルS(EX)
t+1に含まれる行動データに付与された報酬データを評価する関数である。報酬データは、人為的に生成されてもよいし、報酬関数Rに基づいて生成されてもよい。
【0048】
報酬関数Rは、データサンプルS(EX)
t+1に含まれる属性データ及び行動データから報酬データを推定するように訓練されたモデルである。報酬関数Rは、エキスパートに関する属性データ及び行動データのデータセットに基づく逆強化学習により訓練されるとよい。
【0049】
ステップS7が行われると処理回路51は、訓練機能512の実現により、ステップS5において算出された評価関数Cc、ステップS7において算出された評価関数Cd及びステップS8において算出された評価関数Crに基づいて損失関数Lを算出する(ステップS8)。損失関数Lは、下記(1)式に示すように、評価関数Cc、Cd及びCrの重み付け加算により定式化される。重みwc、wd及びwr間の比率は任意に調整可能である。
【0050】
L=wc・Cc+wd・Cd+wr・Cr (1)
【0051】
評価関数Cd及びCrは、エキスパートの行動データの近最適性に関する評価関数である。近最適性とは、エキスパートの行動データが最適又はほぼ最適であることを意味する。上記の通り、評価関数Cdは、データサンプルS(EX)
t+1に含まれる行動データとデータサンプルS(nEX)
t+1に含まれる行動データとの差を評価する。具体的には、評価関数Cdは、エキスパートのデータサンプルS(EX)
t+1から得られる特徴量と非エキスパートのデータサンプルS(nEX)
t+1から得られる特徴量との距離を評価する関数である。一例として、当該距離が大きいほど評価関数Cdの値が小さくなるように評価関数Cdが設計されるとよい。この場合、エキスパートの行動データが近最適性を有するとき、当該距離が相対的に大きくなるので、評価関数Cdの値は相対的に小さくなる。上記の通り、評価関数Crは、データサンプルS(EX)
t+1に含まれる行動データに付与された報酬データを評価する。一例として、報酬が高い評価関数Crの値が小さくなるように評価関数Crが設計されるとよい。この場合、エキスパートの行動データが近最適性を有するとき、報酬が相対的に高くなるので、評価関数Crの値は相対的に小さくなる。
【0052】
ステップS8が行われると処理回路51は、訓練機能512の実現により、ステップS9において算出された損失関数Lに基づいて因果構造モデルFのパラメータを更新する(ステップS9)。処理回路51は、損失関数Lの値(損失)が最小化するようにパラメータを更新する。具体的には、処理回路51は、評価関数Cc、Cd及びCrが最小化するようにパラメータを更新する。近接性に関し、より詳細には、評価関数Cdにより規定される、エキスパートのデータサンプルS(EX)
t+1から得られる特徴量と非エキスパートのデータサンプルS(nEX)
t+1から得られる特徴量との距離が最大化し、且つ、データサンプルS(EX)
t+1に含まれる行動データに付与される報酬が最大化するようにパラメータが更新される。
【0053】
なお、当該損失関数Lの値が大きいほど損失が小さくなるように、例えば、評価関数Cc、Cd及びCrの符号を逆転させる等により損失関数Lを設計することも可能である。この場合、処理回路51は、損失関数Lの値(損失)が最大化するようにパラメータを更新してもよい。
【0054】
ステップS9が行われると処理回路51は、訓練機能512の実現により、更新終了条件を充足するか否かを判定する(ステップS10)。更新終了条件は、所定のデータサンプル数の訓練が終了したこと、因果構造モデルの性能指標が所定の基準に到達したこと等の任意の条件に設定されればよい。更新終了条件を充足しないと判定された場合(ステップS10:NO)、処理回路51は、他のデータサンプルについて、再びステップS1~S10を実行する。処理回路51は、ステップS10において更新終了条件が充足されると判定されるまで、データサンプルを変更しながらステップS1~S10を反復する。
【0055】
そして更新終了条件を充足したと判定された場合(ステップS10:YES)、処理回路51は、現段階の因果構造モデルFを出力する(ステップS11)。出力された因果構造モデルFは、記憶装置52により記憶されたり、AIモデル保管装置7に保管されたり、医用推論装置9に転送されたりする。
【0056】
以上により医用学習処理が終了する。
【0057】
上記
図5及び
図6に示す医用学習処理の処理手順は一例であり上記実施例のみに限定されない。
【0058】
一例として、データサンプルS(EX)
tの取得(S1)及びデータサンプルS(EX)
t+1の算出(S2)と、データサンプルS(nEX)
tの取得(S3)及びデータサンプルS(nEX)
t+1の算出(S4)との順番は逆でもよいし、並列的に行われてもよい。また、因果識別性条件評価関数Ccの算出(S5)、行動間相違度評価関数Cdの算出(S6)及び報酬評価関数Crの算出(S7)は、如何なる順番に行われてもよい。
【0059】
上記医用学習処理では、因果識別性条件評価関数Cc、行動間相違度評価関数Cd及び報酬評価関数Crに基づいてパラメータを更新するものとした。しかしながら、本実施形態はこれに限定されない。評価関数Cc、Cd及びCrのうちの少なくとも1種以上の評価関数に基づいてパラメータが更新されればよい。より限定的には、近最適性に関する評価関数である評価関数Cc及び/又はCrに基づいてパラメータが更新されればよい。これにより、エキスパートの行動データを非エキスパートの行動データに比して重み付けて因果構造モデルFを訓練することが可能である。
【0060】
上記の説明によれば、本実施形態に係る医用学習装置5は、処理回路51を有する。処理回路51は、複数の医療イベントからなるデータセットであって、エキスパートに関する第1の行動データを含む第1のデータサンプルを含むデータセットを取得する。処理回路51は、第1のデータサンプルに基づいて、複数の医療イベントに関する因果関係を推定する因果構造モデルを訓練する。
【0061】
上記の構成によれば、エキスパートに関するデータサンプルを活用して因果構造モデルを訓練するので、因果構造モデルによる複数の医療イベントの因果構造の推定精度を高めることが可能になる。ひいては、因果構造モデルを活用した、疾患の診断、個別治療効果予測、動的治療レジメン等の下流タスクの精度の向上が期待される。
【0062】
(応用例)
上記実施形態において因果構造モデルF、報酬関数R及び方策関数π(EX),(nEX)は、個別に生成されるものとした。応用例に係る処理回路51は、因果構造モデルF、報酬関数R及び方策関数π(EX),(nEX)を協働して生成してもよい。
【0063】
図8は、因果構造モデルF、報酬関数R及び方策関数π
(EX),
(nEX)間のデータの送受を示す図である。
図9は、応用例に係るデータサンプルのデータ構造を表す図である。因果構造モデルFは、一般的に、データの生成過程を表すモデルである。そこで、処理回路51は、因果構造モデルFを使用して反事実的なデータサンプルを生成する。具体的には、処理回路51は、時間ステップtのデータサンプルS
tを因果構造モデルFに適用して時間ステップt+1のデータサンプルS
t+1を生成する。因果構造モデルFを使用して得られたデータサンプルS
t+1は、実測のデータサンプルではなく、反事実的なデータサンプルを意味する。因果構造モデルFを使用して得られたデータサンプルS
t+1をシミュレーションデータサンプルとも呼ぶ。なお、因果構造モデルFを使用して得られるデータサンプルS
t+1は、具体的には、行動データと、行動データ及び属性データとの何れか一方である。また、以後の処理において時間ステップt及びt+1を同一に扱うので記載を省略する。
【0064】
処理回路51は、エキスパートに関するデータサンプルS
(EX)からシミュレーションデータサンプルS
(EX)を生成してもよいし、非エキスパートに関するデータサンプルS
(nEX)からシミュレーションデータサンプルS
(nEX)を生成してもよい。シミュレーションデータサンプルS
(EX)及び/又はS
(nEX)は、医療イベント保管装置3においてデータセットに追加される。その際、
図9に示すように、事実的なデータサンプル(実測のデータサンプル)と反事実的なデータサンプル(シミュレーションデータサンプル)とを識別可能に保管される。
図9においては、一例として、反事実的なデータサンプルには、種別欄に「(S)」が付与されている。
【0065】
処理回路51は、事実的及び/又は反事実的なデータサンプルに方策関数を適用して行動データを生成する。具体的には、処理回路51は、エキスパートに関する事実的及び/又は反事実的なデータサンプルに方策関数π(EX)を適用して行動データを生成する。同様に、処理回路51は、非エキスパートに関する事実的及び/又は反事実的なデータサンプルに方策関数π(nEX)を適用して行動データを生成する。方策関数を使用して得られた行動データは、因果構造モデルにより得られた行動データに比して精度が高いことが期待される。処理回路51は、因果構造モデルにより得られた行動データを、方策関数を使用して得られた行動データで上書きする。
【0066】
処理回路51は、行動データが上書きされた後の事実的及び/又は反事実的なデータサンプルに報酬関数を適用して当該データサンプルに関する報酬データを生成する。生成された報酬データは当該データサンプルに割り当てられる。これによりデータサンプルが完成する。
【0067】
エキスパート及び非エキスパートに関するデータサンプルのうちの属性データ及び/又は行動データに基づいて、因果識別性条件の評価関数Ccを利用した因果構造モデルが訓練される。エキスパートに関するデータサンプルに基づいて、報酬評価関数Crを利用した報酬最大化手法で、因果構造モデルF及び方策関数π(EX)が訓練される。非エキスパートに関するデータサンプルに基づいて、報酬評価関数Crを利用した報酬最大化手法で、因果構造モデルF及び方策関数π(nEX)が訓練される。エキスパート及び非エキスパートに関するデータサンプルに基づいて、近最適性に関する評価関数Cd及び/又はCcを利用した敵対的学習手法で、因果構造モデルF及び報酬関数Rが訓練される。因果構造モデルF、方策関数π及び報酬関数Rの訓練においては、何れかのモデルを固定し残りのモデルを訓練してもよいし、全てのモデルを同時に訓練してもよい。
【0068】
応用例によれば、因果構造モデルF、方策関数π及び報酬関数Rにより精度の高いデータサンプルを増幅することにより、因果構造モデルF、方策関数π及び報酬関数Rを効率的且つ高精度に訓練することが可能になる。
【0069】
以上説明した少なくとも1つの実施形態によれば、医療イベントに関する因果構造を正確に推定することができる。
【0070】
上記説明において用いた「プロセッサ」という文言は、例えば、CPU、GPU、或いは、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC))、プログラマブル論理デバイス(例えば、単純プログラマブル論理デバイス(Simple Programmable Logic Device:SPLD)、複合プログラマブル論理デバイス(Complex Programmable Logic Device:CPLD)、及びフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA))等の回路を意味する。プロセッサは記憶回路に保存されたプログラムを読み出し実行することで機能を実現する。なお、記憶回路にプログラムを保存する代わりに、プロセッサの回路内にプログラムを直接組み込むよう構成しても構わない。この場合、プロセッサは回路内に組み込まれたプログラムを読み出し実行することで機能を実現する。一方、プロセッサが例えばASICである場合、プログラムが記憶回路に保存される代わりに、当該機能がプロセッサの回路内に論理回路として直接組み込まれる。なお、本実施形態の各プロセッサは、プロセッサごとに単一の回路として構成される場合に限らず、複数の独立した回路を組み合わせて1つのプロセッサとして構成し、その機能を実現するようにしてもよい。さらに、
図1における複数の構成要素を1つのプロセッサへ統合してその機能を実現するようにしてもよい。
【0071】
いくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更、実施形態同士の組み合わせを行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0072】
1 医療イベント収集装置
3 医療イベント保管装置
5 医用学習装置
7 AIモデル保管装置
9 医用推論装置
51 処理回路
52 記憶装置
53 入力機器
54 通信機器
55 表示機器
100 医用情報処理システム
511 取得機能
512 訓練機能
513 表示制御機能