特開2024-66412 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 東芝メディカルシステムズ株式会社の特許一覧

特開2024-66412医用学習装置、医用学習方法及び医用情報処理システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024066412

(43)【公開日】2024-05-15

(54)【発明の名称】医用学習装置、医用学習方法及び医用情報処理システム

(51)【国際特許分類】

G06N 20/00 20190101AFI20240508BHJP

【ＦＩ】

G06N20/00

【審査請求】未請求

【請求項の数】25

【出願形態】ＯＬ

(21)【出願番号】P 2023093260

(22)【出願日】2023-06-06

(31)【優先権主張番号】63/421,359

(32)【優先日】2022-11-01

(33)【優先権主張国・地域又は機関】US

(71)【出願人】

【識別番号】594164542

【氏名又は名称】キヤノンメディカルシステムズ株式会社

(74)【代理人】

【識別番号】110003708

【氏名又は名称】弁理士法人鈴榮特許綜合事務所

(72)【発明者】

【氏名】狩野佑介

(57)【要約】

【課題】医療イベントに関する因果構造を正確に推定すること。
【解決手段】実施形態に係る医用学習装置は、取得部と訓練部とを有する。取得部は、複数のイベントからなるデータセットであって、エキスパートに関する第１の行動データを含む第１のデータサンプルを含むデータセットを取得する。訓練部は、前記第１のデータサンプルに基づいて、前記複数のイベントに関する因果関係を推定する因果構造モデルを訓練する。
【選択図】図５

【特許請求の範囲】

【請求項1】

複数のイベントからなるデータセットであって、エキスパートに関する第１の行動データを含む第１のデータサンプルを含むデータセットを取得する取得部と、
前記第１のデータサンプルに基づいて、前記複数のイベントに関する因果関係を推定する因果構造モデルを訓練する訓練部と、
を具備する医用学習装置。

【請求項2】

前記第１のデータサンプルは、前記第１の行動データに対応する第１の属性データを含む、請求項１に記載の医用学習装置。

【請求項3】

前記データセットは、非エキスパートに関する第２の行動データを含む第２のデータサンプルを更に含む、請求項１に記載の医用学習装置。

【請求項4】

前記第２のデータサンプルは、前記第２の行動データに対応する第２の属性データを含む、請求項３に記載の医用学習装置。

【請求項5】

前記訓練部は、前記第１の行動データに関する近最適性に関する評価関数に基づいて前記因果構造モデルを訓練する、請求項１に記載の医用学習装置。

【請求項6】

前記データセットは、非エキスパートに関する第２の行動データを含む第２のデータサンプルを更に含み、
前記評価関数は、前記第１の行動データと前記第２の行動データとの差に関する第１の評価関数であって、
前記訓練部は、前記第１の評価関数が最大化するように前記因果構造モデルのパラメータを更新する、
請求項５に記載の医用学習装置。

【請求項7】

前記評価関数は、前記第１の行動データに付与される報酬に関する第２の評価関数であって、
前記訓練部は、前記第２の評価関数に基づいて前記因果構造モデルのパラメータを更新する、
請求項５に記載の医用学習装置。

【請求項8】

前記訓練部は、前記第２の評価関数が最大化するように前記因果構造モデルのパラメータを更新する、請求項７に記載の医用学習装置。

【請求項9】

前記第２の評価関数は、前記報酬の分布を更に含み、
前記訓練部は、前記報酬の分布との差分が小さくなるように前記因果構造モデルのパラメータを更新する、
請求項７に記載の医用学習装置。

【請求項10】

前記報酬は、報酬関数に基づいて決定される、請求項７に記載の医用学習装置。

【請求項11】

前記報酬関数は、逆強化学習によって訓練される請求項１０に記載の医用学習装置。

【請求項12】

前記第１の行動データは、エキスパートの方策関数に基づいて生成されるデータを含む、請求項１に記載の医用学習装置。

【請求項13】

前記第２の行動データは、前記非エキスパートの方策関数に基づいて生成されるデータを含む、
請求項３に記載の医用学習装置。

【請求項14】

前記エキスパートの方策関数は、強化学習又は模倣訓練によって訓練される、請求項１２に記載の医用学習装置。

【請求項15】

前記非エキスパートの方策関数は、強化学習又は模倣訓練によって訓練される、請求項１３に記載の医用学習装置。

【請求項16】

前記データセットは、環境モデルによって生成された第３のデータサンプルを含む、請求項１に記載の医用学習装置。

【請求項17】

前記訓練部は、因果識別性条件に関する評価関数に更に基づいて前記因果構造モデルを訓練する、請求項１に記載の医用学習装置。

【請求項18】

前記因果識別性条件に関する評価関数は、因果構造から生成されたデータの回帰誤差と、有向非循環グラフにするための制約条件と、グラフ構造又はニューラルネットワークの複雑さに関する正則化項とのうちの少なくとも１つである、請求項１７に記載の医用学習装置。

【請求項19】

前記因果識別性条件に関する評価関数は、条件付き基準及び情報量規準の少なくとも一方である、請求項１７に記載の医用学習装置。

【請求項20】

前記因果構造モデルは、環境モデルである、請求項１に記載の医用学習装置。

【請求項21】

前記訓練部は、前記第１のデータサンプルに含まれる前記第１の行動データを除いたイベントに関する因果関係を推定する因果構造モデルを訓練する、請求項１に記載の医用学習装置。

【請求項22】

前記訓練部は、前記第１の属性データに関する因果関係を推定する因果構造モデルを訓練する、
請求項２に記載の医用学習装置。

【請求項23】

前記因果構造モデルは、スケルトン、有向グラフ、部分有向非循環グラフ、有向非循環グラフ及びトポロジカル順序のうちの少なくとも１つである、請求項１に記載の医用学習装置。

【請求項24】

複数のイベントからなるデータセットであって、エキスパートに関する第１の行動データを含む第１のデータサンプルを含んだデータセットを取得する取得工程と、
前記第１のデータサンプルに基づいて、前記複数のイベントに関する因果関係を推定する因果構造モデルを訓練する訓練工程と、
を具備する医用情報処理方法。

【請求項25】

複数のイベントからなるデータセットであって、エキスパートに関する第１の行動データを含む第１のデータサンプルを含むデータセットを収集する収集装置と、
前記第１のデータサンプルに基づいて、前記複数のイベントに関する因果関係を推定する因果構造モデルを訓練する学習装置と、
前記因果構造モデルを利用して、現時点の時間ステップのデータサンプルから次時点の時間ステップのデータサンプルを推論する推論装置と、
を具備する医用情報処理システム。

【発明の詳細な説明】

【技術分野】

【0001】

本明細書及び図面に開示の実施形態は、医用学習装置、医用学習方法及び医用情報処理システムに関する。

【背景技術】

【0002】

医療では、医療イベント間の因果関係を正しく考慮して治療方針を決定することが重要である。因果関係を定義する因果構造を有向非巡回グラフ（ＤＡＧ：Directed Acyclic Graph）等のグラフィカルモデルとして機械学習により特定することは、因果構造学習（Causal Structure Learning）又は因果探索（Causal Discovery）と呼ばれる。正確な因果構造を使用することにより、疾患の診断、個別治療効果（Individualized Treatment Effect）予測、動的治療レジメン（Dynamic Treatment Regimens）等の下流タスクの精度が向上する。しかし、ランダム化比較試験等の介入のないデータから因果構造を学習する技術では、条件付き独立性や情報量規準等の因果識別性に関する条件を導入することで因果構造を特定するが、特殊な状況を除いては、マルコフ同値類以上の推定はできず、因果構造を正確に推定することが困難である。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Rahul Kidambi等、”Mobile: Model-Based Imitation Learning From Observation Alone”、arXiv:2102.10769v3 [cs. LG]、2022年1月31日

【非特許文献2】Daniel Kumor等、”Sequential Causal Imitation Learning with Unobserved Confounders”、arXiv:2208.06276v1 [cs. LG]、2022年8月12日

【非特許文献3】Zheng-Mao Zhu等、”OFFINE REINFORCEMENT LEARNING WITH CAUSAL STRUCTURED WORLD MODELS”、arXiv:2206.01474v1 [cs. LG]、2022年6月3日

【発明の概要】

【発明が解決しようとする課題】

【0004】

本明細書及び図面に開示の実施形態が解決しようとする課題の一つは、医療イベントに関する因果構造を正確に推定することである。ただし、本明細書及び図面に開示の実施形態により解決しようとする課題は上記課題に限られない。後述する実施形態に示す各構成による各効果に対応する課題を他の課題として位置づけることもできる。

【課題を解決するための手段】

【0005】

実施形態に係る医用学習装置は、取得部と訓練部とを有する。前記取得部は、複数のイベントからなるデータセットであって、エキスパートに関する第１の行動データを含む第１のデータサンプルを含むデータセットを取得する。前記訓練部は、前記第１のデータサンプルに基づいて、前記複数のイベントに関する因果関係を推定する因果構造モデルを訓練する。

【図面の簡単な説明】

【0006】

【図1】図１は、本実施形態に係る医用学習システムのネットワーク構成例を示す図を示す図である。

【図2】図２は、医療イベントに関するデータサンプルのデータ構造を表す図である。

【図3】図３は、本実施形態に係る医用学習装置の構成例を示す図である。

【図4】図４は、因果構造モデルのネットワーク構造例を示す図である。

【図5】図５は、医用学習処理の処理手順の一例を示す図である。

【図6】図６は、図５に示す医用学習処理を模式的に示す図である。

【図7】図７は、図５に示す医用学習処理に係るデータサンプルのデータ構造を表す図である。

【図8】図８は、因果構造モデル、報酬関数及び方策関数間のデータの送受を示す図である。

【図9】図９は、応用例に係るデータサンプルのデータ構造を表す図である。

【発明を実施するための形態】

【0007】

以下、図面を参照しながら、本実施形態に係る医用学習装置、医用学習方法及び医用情報処理システムについて説明する。

【0008】

図１は、本実施形態に係る医用情報処理システム１００のネットワーク構成例を示す図である。図１に示すように、医用情報処理システム１００は、医療イベント収集装置１、医療イベント保管装置３、医用学習装置５、ＡＩモデル保管装置７及び医用推論装置９を有する。医療イベント収集装置１、医療イベント保管装置３、医用学習装置５、ＡＩモデル保管装置７及び医用推論装置９は、相互に情報通信可能に有線又は無線で接続されている。なお、医用情報処理システム１００に含まれる医療イベント収集装置１、医療イベント保管装置３、医用学習装置５、ＡＩモデル保管装置７及び医用推論装置９各々は、１台でもよいし、複数台でもよい。

【0009】

医療イベント収集装置１は、医療イベントに関するデータサンプルを収集する。「医療イベント」は、医療受領者に生じる医療に関するイベントである。医療受領者は、一例として、患者を意味する。医療イベントは、具体的には、属性及び／又は行動により規定される。

【0010】

属性は、医療受領者の状態及び／又は曝露を表すデータである。一例として、状態の要素としては、医療受領者の血圧や心拍、血糖値、ＳｐＯ２その他の生体情報が挙げられる。曝露の要素としては、医療受領者に曝露された化学物質や物理的刺激が挙げられ、具体的には、化学物質や物理的刺激の名称や曝露時間等である。属性に関するデータは、各種生体情報に応じた生体情報収集機器により収集される。属性は、生体情報収集機器により収集されるものだけでなく、各種医用画像診断装置により収集される医用画像や当該医用画像に基づき画像処理装置により計測した画像計測値等でもよい。また、属性は、医療提供者の医療受領者に対する問診により得られる問診結果や医療提供者が作成する読影レポートや電子カルテの記載内容でもよい。属性は、上記の種々の属性要素のうちの１個に対応するスカラー量で表されてもよいし、複数の属性要素の組み合わせを含むベクトル量又は行列量により表されてもよい。属性の値は、具体的には、数字や文字、記号等により表される。属性に関するデータを収集する医療イベント収集装置１としては、属性の各種要素に応じた生体情報収集機器、医用画像診断装置、画像処理装置、医療提供者が診療で使用するコンピュータ端末等が挙げられる。医療提供者は、医師や看護師、薬剤師、介護士等を意味する。

【0011】

行動は、当該属性を有する医療受領者に施された行動を意味する。具体的には、行動は、医療提供者が医療受領者に施す診療行動、医療受領者が医療提供者の指示を受けて実施する行動、医療受領者が自発的に実施する行動等を意味する。一例として、行動の要素としては、投薬治療や外科手術、放射線治療等が挙げられる。行動は、上記の種々の行動要素のうちの１個に対応するスカラー量で表されてもよいし、複数の行動要素の組み合わせを含むベクトル量又は行列量により表されてもよい。行動の値は、具体的には、数字や文字、記号等により表される。行動のデータを収集する医療イベント収集装置１としては、医療提供者や医療受領者が使用するコンピュータ端末等が挙げられる。

【0012】

医療イベントに関するデータサンプルは、属性及び行動の他、報酬を含んでもよい。報酬は、当該属性を有する医療受領者に施された当該行動を評価するデータである。報酬の要素としては、例えば、臨床的アウトカム、患者報告アウトカム、経済的アウトカム等が挙げられる。臨床的アウトカムとしては、一例として、罹患率（罹患の有無を含む）、５年生存率（生存の有無を含む）、合併症発生率（合併症の有無を含む）、再入院率（再入院の有無を含む）、検査値（又は検査値の改善度）、日常生活自立度等が挙げられる。患者報告アウトカムとしては、一例として、自覚症状、主観的な健康状況、治療対する満足度、主観的幸福度等や挙げられる。経済的アウトカムとしては、一例として、医療費、投入された医療リソース、在院日数等が挙げられる。報酬は、上記の種々の報酬要素のうちの１個に対応するスカラー量で表されてもよいし、複数の報酬要素の組み合わせを含むベクトル量又は行列量により表されてもよい。報酬の値は、具体的には、数字や文字、記号等により表される。報酬のデータを収集する医療イベント収集装置１としては、医療提供者や医療受領者が使用するコンピュータ端末等が挙げられる。

【0013】

図２は、医療イベントに関するデータサンプルのデータ構造を表す図である。図２に示すように、医療イベントに関するデータサンプルは、属性、行動及び／又は報酬のデータを含む。本実施形態において、属性は記号ｘで表され、行動は記号ａで表され、報酬は記号ｒで表される。各記号の添字は、属性要素、行動要素又は報酬要素を識別する番号を意味する。なお、図２において報酬ｒには添字が付されていないが、２個以上の要素により報酬を規定する場合、報酬ｒに添字が付されることとなる。

【0014】

医療イベント保管装置３は、医療イベントに関するデータサンプルからなるデータセットを保存する記憶装置を含むコンピュータである。当該記憶装置としては、ＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、集積回路記憶装置が用いられればよい。

【0015】

医用学習装置５は、複数の医療イベントに関する因果関係を推定する因果構造モデルを訓練するコンピュータである。医用学習装置５の詳細については後述する。

【0016】

ＡＩモデル保管装置７は、医用学習装置５により訓練された因果構造モデル等を保存する記憶装置を含むコンピュータである。当該記憶装置としては、ＲＯＭやＲＡＭ、ＨＤＤ、ＳＳＤ、集積回路記憶装置が用いられればよい。

【0017】

医用推論装置９は、学習済みの因果構造モデルを利用して複数の医療イベント間の因果構造を推論するコンピュータである。

【0018】

図３は、医用学習装置５の構成例を示す図である。図３に示すように、医用学習装置５は、処理回路５１、記憶装置５２、入力機器５３、通信機器５４及び表示機器５５を有するコンピュータ等の情報処理端末である。処理回路５１、記憶装置５２、入力機器５３、通信機器５４及び表示機器５５は、バス（Bus）を介して相互に情報通信可能に接続されている。

【0019】

処理回路５１は、ＣＰＵ（Central Processing Unit）及びＧＰＵ（Graphics Processing Unit）等のプロセッサを有する。処理回路５１は、医用学習プログラムを実行することにより、取得機能５１１、訓練機能５１２及び表示制御機能５１３等を実現する。なお、各機能５１１～５１３は単一の処理回路で実現される場合に限らない。複数の独立したプロセッサを組合せて処理回路を構成し、各プロセッサがプログラムを実行することにより各機能５１１～５１３を実現するものとしても構わない。また、機能５１１～５１３は、それぞれ医用学習プログラムを構成するモジュール化されたプログラムであってもよい。これらプログラムは記憶装置５２に記憶される。

【0020】

記憶装置５２は、種々の情報を記憶するＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、集積回路記憶装置等である。記憶装置５２は、上記記憶装置以外にも、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、フラッシュメモリ等の可搬型記録媒体や、半導体メモリ素子等との間で種々の情報を読み書きする駆動装置であってもよい。また、記憶装置５２は、ネットワークを介して接続された他のコンピュータ内にあってもよい。

【0021】

入力機器５３は、操作者からの各種の入力操作を受け付け、受け付けた入力操作を電気信号に変換して処理回路５１に出力する。具体的には、入力機器５３は、マウス、キーボード、トラックボール、スイッチ、ボタン、ジョイスティック、タッチパッド及びタッチパネルディスプレイ等の入力機器に接続されている。入力機器５３は、当該入力機器への入力操作に応じた電気信号を処理回路５１へ出力する。入力機器５３として、音声入力装置が使用されてもよい。また、入力機器５３は、ネットワーク等を介して接続された他のコンピュータに設けられた入力機器でもよい。

【0022】

通信機器５４は、他のコンピュータとの間で種々の情報を送受信するためのインタフェースである。通信機器５４による情報通信は、ＤＩＣＯＭ（Digital Imaging and Communications in Medicine）等の医療情報通信に適当な規格に従い行われる。

【0023】

表示機器５５は、処理回路５１の表示制御機能５１３により種々の情報を表示する。表示機器５５としては、例えば、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）、ＣＲＴ（Cathode Ray Tube）ディスプレイ、有機ＥＬディスプレイ（ＯＥＬＤ：Organic Electro Luminescence Display）、プラズマディスプレイ又は他の任意のディスプレイが適宜使用可能である。また、表示機器５５としてプロジェクタが使用されてもよい。

【0024】

取得機能５１１の実現により、処理回路５１は、複数の医療イベントからなるデータセットであって、エキスパートに関する第１の行動データを含む第１のデータサンプルを含むデータセットを取得する。「エキスパート」は、医療提供者のうちの医療スキルの高い人物（熟練者）を意味する。本実施形態に係るエキスパートは、必ずしもエキスパートとして認定又は認証されている人物に限定されず、基準の人物に比して相対的に熟練していると仮定される人物をも含む。第１のデータサンプルは、上記の通り、第１の行動データに対応する第１の属性データを含んでもよい。データセットは、非エキスパートに関する第２の行動データを含む第２のデータサンプルを更に含んでもよい。第２のデータサンプルは、第１のデータサンプル同様、第２の行動データに対応する第２の属性データを含んでもよい。「非エキスパート」は、医療スキルの高くない人物を意味する。非エキスパートは、医療提供者に限らず如何なる人物でもよい。非エキスパートは、必ずしも非エキスパートとして認定又は認証されている人物に限定されず、基準の人物に比して相対的に熟練していないと仮定される人物をも含む。

【0025】

訓練機能５１２の実現により、処理回路５１は、取得機能５１１により取得された第１のデータサンプルに基づいて、複数の医療イベントに関する因果関係を推定する因果構造モデルを訓練する。訓練された因果構造モデルは、ＡＩモデル保管装置７に保管される。

【0026】

訓練機能５１２の実現により、処理回路５１は、第１の行動データに関する近最適性に関する評価関数に基づいて因果構造モデルを訓練する。近最適性に関する評価関数は、第１の行動データと第２の行動データとの差に関する第１の評価関数を含んでもよい。処理回路５１は、一例として、第１の評価関数が最大化するように因果構造モデルのパラメータを更新する。近最適性に関する評価関数は、第１の行動データに付与される報酬に関する第２の評価関数を含んでもよい。処理回路５１は、第２の評価関数に基づいて因果構造モデルのパラメータを更新する。処理回路５１は、一例として、第２の評価関数が最大化するように因果構造モデルのパラメータを更新する。第２の評価関数は、報酬の分布を更に含んでもよい。この場合、処理回路５１は、目標となる報酬の分布（以下、目標分布）を設定し、第１の行動によって得られる報酬の分布が目標分布に近付くように、すなわち、当該報酬の分布と目標分布との差分が小さくなるように因果構造モデルのパラメータを更新する。報酬は、報酬関数に基づいて決定される。報酬関数は、一例として、逆強化学習によって訓練される。

【0027】

第１の行動データは、エキスパートの方策関数に基づいて生成されるデータを含む。第２の行動データは、非エキスパートの方策関数に基づいて生成されるデータを含む。エキスパートの方策関数は、強化学習又は模倣訓練によって訓練される。非エキスパートの方策関数は、強化学習又は模倣訓練によって訓練される。

【0028】

データセットは、環境モデル（World Model）によって生成された第３のデータサンプルを含んでもよい。因果構造モデルは、環境モデルの一例である。

【0029】

処理回路５１は、更に因果識別性条件に関する評価関数に基づいて因果構造モデルを訓練してもよい。因果識別性条件に関する評価関数は、因果構造から生成されたデータの回帰誤差と、有向非循環グラフにするための制約条件と、グラフ構造又はニューラルネットワークの複雑さに関する正則化項とのうちの少なくとも１つを含む。因果識別性条件に関する評価関数は、条件付き基準及び情報量基準の少なくとも一方でもよい。

【0030】

処理回路５１は、第１のデータサンプルに含まれる第１の行動データを除いた医療イベントに関する因果関係を推定する因果構造モデルを訓練してもよい。一例として、処理回路５１は、第１のデータサンプルのうちの第１の属性データに関する因果関係を推定する因果構造モデルを訓練してもよい。

【0031】

図４は、因果構造モデルＦのネットワーク構造例を示す図である。図４に示すように、因果構造モデルＦは、時間ステップｔのデータサンプルＳ_ｔから、複数の医療イベント間の因果関係に照らして、次の時間ステップｔ＋１のデータサンプルＳ_ｔ＋１として尤も確からしいデータサンプルを生成する。複数の医療イベント間の因果関係に照らして尤もらしいデータサンプルがデータサンプルＳ_ｔ＋１として生成される。なお、医療イベント間の因果関係は、行動から属性への因果関係やある属性から他の属性への因果関係が典型的であるが、属性から行動への因果関係、ある行動から他の行動への因果関係を除外するものではない。因果構造モデルＦは、隣接行列層Ｆ１とＮＮ（Neural Network）層Ｆ２とを有する。

【0032】

隣接行列層Ｆ１は、処理対象の時間ステップｔのデータサンプルＳ_ｔに、予め定められた複数の医療イベント間の因果構造の有無を規定する隣接行列Ａを作用させるネットワーク層である。換言すれば、隣接行列層Ｆ１は、時間ステップｔのデータサンプルＳ_ｔが表す医療イベントに因果関係がある医療イベントを推定する。隣接行列層Ｆ１は、隣接行列Ａが作用されたデータサンプルＳ´_ｔを出力する。隣接行列層Ｆ１は、予め定められた複数の医療イベント間の因果構造を表すグラフィカルモデルで表現される。グラフィカルモデルは、スケルトン、有向グラフ、部分有向非循環グラフ、有向非循環グラフ及びトポロジカル順序の何れかにより定義される。

【0033】

一例として、グラフィカルモデルは、予め定められた複数の医療イベントにそれぞれ対応する複数のノードと、隣接するノード（医療イベント）間の因果構造を表すエッジとにより構成される有向非循環グラフであるとする。各ノードには、医療イベントに対応する属性及び／又は行動を表す変数が割り当てられている。各ノードを医療イベント変数と呼んでもよい。グラフィカルモデルに含まれる全てのノードの組合せ各々に関する因果構造の有無は隣接行列Ａにより表現される。隣接行列Ａは、ノード（医療イベント変数）の組合せに対応する個数の要素（以下、隣接行列要素）を有する。一例として、ノード間に因果構造が有る場合、当該ノード組合せに対応する隣接行列要素は値「１」を有し、ノード間に因果構造が無い場合、当該ノード組合せに対応する隣接行列要素は値「０」を有する。隣接行列要素は、訓練機能５１２により訓練される、因果構造モデルＦのパラメータの一例である。

【0034】

ＮＮ層Ｆ２は、隣接行列Ａが作用されたデータサンプルＳ´_ｔに基づいて、次の時間ステップｔ＋１のデータサンプルＳ_ｔ＋１を推定するネットワーク層である。ＮＮ層Ｆ２は、畳み込み層、全結合層、プーリング層、正規化層、出力層等の任意のネットワーク層の組合せにより構成される。ＮＮ層Ｆ２の重みパラメータ及びバイアス等のネットワークパラメータが、訓練機能５１２により訓練される、因果構造モデルＦのパラメータの一例である。

【0035】

表示制御機能５１３の実現により、処理回路５１は、種々の情報を表示機器５５に表示する。一例として、処理回路５１は、データサンプルやデータセットを表示するとよい。他の例として、処理回路５１は、因果構造モデルの学習結果等を表示してもよい。

【0036】

以下、本実施形態に係る医用学習装置５００による医用学習処理について説明する。

【0037】

図５は、医用学習処理の処理手順の一例を示す図である。図６は、図５に示す医用学習処理を模式的に示す図である。

【0038】

図５に示すように、処理回路５１は、取得機能５１１の実現により、エキスパートに関する現在の時間ステップｔのデータサンプルＳ^（ＥＸ） _ｔを取得する（ステップＳ１）。データサンプルＳ^（ＥＸ） _ｔは、医療イベント収集装置１により収集された事実的なデータサンプルでもよいし、エキスパートに関する方策関数π^（ＥＸ）により生成された反事実的なデータサンプルでもよい。

【0039】

エキスパートに関する方策関数π^（ＥＸ）は、エキスパートの行動を模倣するように訓練されたモデルである。方策関数π^（ＥＸ）は、エキスパートに関するデータサンプルのうちの属性データから、当該エキスパートが行うであろう行動データを推定する。方策関数π^（ＥＸ）は、エキスパートに関する属性データ及び行動データのデータセットに基づく強化学習又は模倣学習により学習されるとよい。模倣学習として、行動クローニングが使用されてもよいし、ＧＡＩＬ（Generative Adversarial Imitation Learning）が使用されてもよいし、強化学習と逆強化学習とを組み合わせた徒弟学習が使用されてもよい。

【0040】

図７は、図５に示す医用学習処理に係るデータサンプルのデータ構造を表す図である。図７に示すように、医療イベントに関するデータサンプルは、属性ｘ、行動ａ及び／又は報酬ｒのデータを含む。各データサンプルには、当該データサンプルに含まれる行動データの主体の種別を表す識別子が関連付けられている。主体の種別は、具体的には、エキスパート又は非エキスパートである。

【0041】

ステップＳ１が行われると処理回路５１は、訓練機能５１２の実現により、ステップＳ１において取得されたデータサンプルＳ^（ＥＸ） _ｔを因果構造モデルＦに適用し、時間ステップｔ＋１のデータサンプルＳ^（ＥＸ） _ｔ＋１を算出する（ステップＳ２）。ステップＳ２において使用される因果構造モデルＦは、パラメータの訓練が完了していない、訓練可能な機械学習モデルである。

【0042】

ステップＳ２が行われると処理回路５１は、取得機能５１１の実現により、非エキスパートに関する現在の時間ステップｔのデータサンプルＳ^{（ｎＥＸ）} _ｔを取得する（ステップＳ３）。データサンプルＳ^{（ｎＥＸ）} _ｔは、医療イベント保管装置３により保管されている事実的なデータサンプルでもよいし、非エキスパートに関する方策関数π^{（ｎＥＸ）}により生成された反事実的なデータサンプルでもよい。

【0043】

非エキスパートに関する方策関数π^{（ｎＥＸ）}は、非エキスパートの行動をクローニングするように訓練されたモデルである。方策関数π^{（ｎＥＸ）}は、非エキスパートに関するデータサンプルのうちの属性データから、当該非エキスパートが行うであろう行動データを推定する。方策関数π^{（ｎＥＸ）}は、非エキスパートに関する属性データ及び行動データのデータセットに基づく強化学習又は模倣学習により訓練されるとよい。模倣学習として、行動クローニング、ＧＡＩＬ、徒弟学習等が使用されてもよい。

【0044】

ステップＳ３が行われると処理回路５１は、訓練機能５１２の実現により、ステップＳ３において取得されたデータサンプルＳ^{（ｎＥＸ）} _ｔを因果構造モデルＦに適用し、時間ステップｔ＋１のデータサンプルＳ^{（ｎＥＸ）} _ｔ＋１を算出する（ステップＳ４）。ステップＳ４において使用される因果構造モデルＦは、ステップＳ２において使用された機械学習モデルと同一であり、パラメータの訓練が完了していない、訓練可能な機械学習モデルである。

【0045】

ステップＳ４が行われると処理回路５１は、訓練機能５１２の実現により、ステップＳ２において算出されたデータサンプルＳ^（ＥＸ） _ｔ＋１とステップＳ４において算出されたデータサンプルＳ^{（ｎＥＸ）} _ｔ＋１とに基づいて、因果識別性条件評価関数Ｃｃを算出する（ステップＳ５）。因果識別性条件評価関数Ｃｃは、データサンプルから正しい因果構造を特定するために必要な評価関数である。一例として、連続最適化問題として因果探索を行う場合、因果識別性条件評価関数Ｃｃは、因果構造から生成されたデータの回帰誤差、ＤＡＧにするための制約条件、グラフ構造やニューラルネットワークの複雑さに関する正規化項等に基づいて設計される。他の例として、組合せ最適化問題として因果探索を行う場合、因果識別性条件評価関数Ｃｃは、条件付き独立性や情報量規準等に基づいて設計される。なお、本実施形態に係る因果探索においては、因果構造がＤＡＧであることは必須条件ではない。

【0046】

ステップＳ５が行われると処理回路５１は、訓練機能５１２の実現により、ステップＳ２において算出されたデータサンプルＳ^（ＥＸ） _ｔ＋１とステップＳ４において算出されたデータサンプルＳ^{（ｎＥＸ）} _ｔ＋１とに基づいて、エキスパート及び非エキスパートの行動間相違度評価関数Ｃｄを算出する（ステップＳ６）。行動間相違度評価関数Ｃｄは、データサンプルＳ^（ＥＸ） _ｔ＋１に含まれる行動データとデータサンプルＳ^{（ｎＥＸ）} _ｔ＋１に含まれる行動データとの差を評価する関数である。

【0047】

ステップＳ６が行われると処理回路５１は、訓練機能５１２の実現により、ステップＳ２において算出されたデータサンプルＳ^（ＥＸ） _ｔ＋１に基づいて報酬評価関数Ｃｒを算出する（ステップＳ７）。報酬評価関数Ｃｒは、データサンプルＳ^（ＥＸ） _ｔ＋１に含まれる行動データに付与された報酬データを評価する関数である。報酬データは、人為的に生成されてもよいし、報酬関数Ｒに基づいて生成されてもよい。

【0048】

報酬関数Ｒは、データサンプルＳ^（ＥＸ） _ｔ＋１に含まれる属性データ及び行動データから報酬データを推定するように訓練されたモデルである。報酬関数Ｒは、エキスパートに関する属性データ及び行動データのデータセットに基づく逆強化学習により訓練されるとよい。

【0049】

ステップＳ７が行われると処理回路５１は、訓練機能５１２の実現により、ステップＳ５において算出された評価関数Ｃｃ、ステップＳ７において算出された評価関数Ｃｄ及びステップＳ８において算出された評価関数Ｃｒに基づいて損失関数Ｌを算出する（ステップＳ８）。損失関数Ｌは、下記（１）式に示すように、評価関数Ｃｃ、Ｃｄ及びＣｒの重み付け加算により定式化される。重みｗｃ、ｗｄ及びｗｒ間の比率は任意に調整可能である。

【0050】

Ｌ＝ｗｃ・Ｃｃ＋ｗｄ・Ｃｄ＋ｗｒ・Ｃｒ（１）

【0051】

評価関数Ｃｄ及びＣｒは、エキスパートの行動データの近最適性に関する評価関数である。近最適性とは、エキスパートの行動データが最適又はほぼ最適であることを意味する。上記の通り、評価関数Ｃｄは、データサンプルＳ^（ＥＸ） _ｔ＋１に含まれる行動データとデータサンプルＳ^{（ｎＥＸ）} _ｔ＋１に含まれる行動データとの差を評価する。具体的には、評価関数Ｃｄは、エキスパートのデータサンプルＳ^（ＥＸ） _ｔ＋１から得られる特徴量と非エキスパートのデータサンプルＳ^{（ｎＥＸ）} _ｔ＋１から得られる特徴量との距離を評価する関数である。一例として、当該距離が大きいほど評価関数Ｃｄの値が小さくなるように評価関数Ｃｄが設計されるとよい。この場合、エキスパートの行動データが近最適性を有するとき、当該距離が相対的に大きくなるので、評価関数Ｃｄの値は相対的に小さくなる。上記の通り、評価関数Ｃｒは、データサンプルＳ^（ＥＸ） _ｔ＋１に含まれる行動データに付与された報酬データを評価する。一例として、報酬が高い評価関数Ｃｒの値が小さくなるように評価関数Ｃｒが設計されるとよい。この場合、エキスパートの行動データが近最適性を有するとき、報酬が相対的に高くなるので、評価関数Ｃｒの値は相対的に小さくなる。

【0052】

ステップＳ８が行われると処理回路５１は、訓練機能５１２の実現により、ステップＳ９において算出された損失関数Ｌに基づいて因果構造モデルＦのパラメータを更新する（ステップＳ９）。処理回路５１は、損失関数Ｌの値（損失）が最小化するようにパラメータを更新する。具体的には、処理回路５１は、評価関数Ｃｃ、Ｃｄ及びＣｒが最小化するようにパラメータを更新する。近接性に関し、より詳細には、評価関数Ｃｄにより規定される、エキスパートのデータサンプルＳ^（ＥＸ） _ｔ＋１から得られる特徴量と非エキスパートのデータサンプルＳ^{（ｎＥＸ）} _ｔ＋１から得られる特徴量との距離が最大化し、且つ、データサンプルＳ^（ＥＸ） _ｔ＋１に含まれる行動データに付与される報酬が最大化するようにパラメータが更新される。

【0053】

なお、当該損失関数Ｌの値が大きいほど損失が小さくなるように、例えば、評価関数Ｃｃ、Ｃｄ及びＣｒの符号を逆転させる等により損失関数Ｌを設計することも可能である。この場合、処理回路５１は、損失関数Ｌの値（損失）が最大化するようにパラメータを更新してもよい。

【0054】

ステップＳ９が行われると処理回路５１は、訓練機能５１２の実現により、更新終了条件を充足するか否かを判定する（ステップＳ１０）。更新終了条件は、所定のデータサンプル数の訓練が終了したこと、因果構造モデルの性能指標が所定の基準に到達したこと等の任意の条件に設定されればよい。更新終了条件を充足しないと判定された場合（ステップＳ１０：ＮＯ）、処理回路５１は、他のデータサンプルについて、再びステップＳ１～Ｓ１０を実行する。処理回路５１は、ステップＳ１０において更新終了条件が充足されると判定されるまで、データサンプルを変更しながらステップＳ１～Ｓ１０を反復する。

【0055】

そして更新終了条件を充足したと判定された場合（ステップＳ１０：ＹＥＳ）、処理回路５１は、現段階の因果構造モデルＦを出力する（ステップＳ１１）。出力された因果構造モデルＦは、記憶装置５２により記憶されたり、ＡＩモデル保管装置７に保管されたり、医用推論装置９に転送されたりする。

【0056】

以上により医用学習処理が終了する。

【0057】

上記図５及び図６に示す医用学習処理の処理手順は一例であり上記実施例のみに限定されない。

【0058】

一例として、データサンプルＳ^（ＥＸ） _ｔの取得（Ｓ１）及びデータサンプルＳ^（ＥＸ） _ｔ＋１の算出（Ｓ２）と、データサンプルＳ^{（ｎＥＸ）} _ｔの取得（Ｓ３）及びデータサンプルＳ^{（ｎＥＸ）} _ｔ＋１の算出（Ｓ４）との順番は逆でもよいし、並列的に行われてもよい。また、因果識別性条件評価関数Ｃｃの算出（Ｓ５）、行動間相違度評価関数Ｃｄの算出（Ｓ６）及び報酬評価関数Ｃｒの算出（Ｓ７）は、如何なる順番に行われてもよい。

【0059】

上記医用学習処理では、因果識別性条件評価関数Ｃｃ、行動間相違度評価関数Ｃｄ及び報酬評価関数Ｃｒに基づいてパラメータを更新するものとした。しかしながら、本実施形態はこれに限定されない。評価関数Ｃｃ、Ｃｄ及びＣｒのうちの少なくとも１種以上の評価関数に基づいてパラメータが更新されればよい。より限定的には、近最適性に関する評価関数である評価関数Ｃｃ及び／又はＣｒに基づいてパラメータが更新されればよい。これにより、エキスパートの行動データを非エキスパートの行動データに比して重み付けて因果構造モデルＦを訓練することが可能である。

【0060】

上記の説明によれば、本実施形態に係る医用学習装置５は、処理回路５１を有する。処理回路５１は、複数の医療イベントからなるデータセットであって、エキスパートに関する第１の行動データを含む第１のデータサンプルを含むデータセットを取得する。処理回路５１は、第１のデータサンプルに基づいて、複数の医療イベントに関する因果関係を推定する因果構造モデルを訓練する。

【0061】

上記の構成によれば、エキスパートに関するデータサンプルを活用して因果構造モデルを訓練するので、因果構造モデルによる複数の医療イベントの因果構造の推定精度を高めることが可能になる。ひいては、因果構造モデルを活用した、疾患の診断、個別治療効果予測、動的治療レジメン等の下流タスクの精度の向上が期待される。

【0062】

（応用例）
上記実施形態において因果構造モデルＦ、報酬関数Ｒ及び方策関数π^（ＥＸ），^{（ｎＥＸ）}は、個別に生成されるものとした。応用例に係る処理回路５１は、因果構造モデルＦ、報酬関数Ｒ及び方策関数π^（ＥＸ），^{（ｎＥＸ）}を協働して生成してもよい。

【0063】

図８は、因果構造モデルＦ、報酬関数Ｒ及び方策関数π^（ＥＸ），^{（ｎＥＸ）}間のデータの送受を示す図である。図９は、応用例に係るデータサンプルのデータ構造を表す図である。因果構造モデルＦは、一般的に、データの生成過程を表すモデルである。そこで、処理回路５１は、因果構造モデルＦを使用して反事実的なデータサンプルを生成する。具体的には、処理回路５１は、時間ステップｔのデータサンプルＳ_ｔを因果構造モデルＦに適用して時間ステップｔ＋１のデータサンプルＳ_ｔ＋１を生成する。因果構造モデルＦを使用して得られたデータサンプルＳ_ｔ＋１は、実測のデータサンプルではなく、反事実的なデータサンプルを意味する。因果構造モデルＦを使用して得られたデータサンプルＳ_ｔ＋１をシミュレーションデータサンプルとも呼ぶ。なお、因果構造モデルＦを使用して得られるデータサンプルＳ_ｔ＋１は、具体的には、行動データと、行動データ及び属性データとの何れか一方である。また、以後の処理において時間ステップｔ及びｔ＋１を同一に扱うので記載を省略する。

【0064】

処理回路５１は、エキスパートに関するデータサンプルＳ^（ＥＸ）からシミュレーションデータサンプルＳ^（ＥＸ）を生成してもよいし、非エキスパートに関するデータサンプルＳ^{（ｎＥＸ）}からシミュレーションデータサンプルＳ^{（ｎＥＸ）}を生成してもよい。シミュレーションデータサンプルＳ^（ＥＸ）及び／又はＳ^{（ｎＥＸ）}は、医療イベント保管装置３においてデータセットに追加される。その際、図９に示すように、事実的なデータサンプル（実測のデータサンプル）と反事実的なデータサンプル（シミュレーションデータサンプル）とを識別可能に保管される。図９においては、一例として、反事実的なデータサンプルには、種別欄に「（Ｓ）」が付与されている。

【0065】

処理回路５１は、事実的及び／又は反事実的なデータサンプルに方策関数を適用して行動データを生成する。具体的には、処理回路５１は、エキスパートに関する事実的及び／又は反事実的なデータサンプルに方策関数π^（ＥＸ）を適用して行動データを生成する。同様に、処理回路５１は、非エキスパートに関する事実的及び／又は反事実的なデータサンプルに方策関数π^{（ｎＥＸ）}を適用して行動データを生成する。方策関数を使用して得られた行動データは、因果構造モデルにより得られた行動データに比して精度が高いことが期待される。処理回路５１は、因果構造モデルにより得られた行動データを、方策関数を使用して得られた行動データで上書きする。

【0066】

処理回路５１は、行動データが上書きされた後の事実的及び／又は反事実的なデータサンプルに報酬関数を適用して当該データサンプルに関する報酬データを生成する。生成された報酬データは当該データサンプルに割り当てられる。これによりデータサンプルが完成する。

【0067】

エキスパート及び非エキスパートに関するデータサンプルのうちの属性データ及び／又は行動データに基づいて、因果識別性条件の評価関数Ｃｃを利用した因果構造モデルが訓練される。エキスパートに関するデータサンプルに基づいて、報酬評価関数Ｃｒを利用した報酬最大化手法で、因果構造モデルＦ及び方策関数π^（ＥＸ）が訓練される。非エキスパートに関するデータサンプルに基づいて、報酬評価関数Ｃｒを利用した報酬最大化手法で、因果構造モデルＦ及び方策関数π^{（ｎＥＸ）}が訓練される。エキスパート及び非エキスパートに関するデータサンプルに基づいて、近最適性に関する評価関数Ｃｄ及び／又はＣｃを利用した敵対的学習手法で、因果構造モデルＦ及び報酬関数Ｒが訓練される。因果構造モデルＦ、方策関数π及び報酬関数Ｒの訓練においては、何れかのモデルを固定し残りのモデルを訓練してもよいし、全てのモデルを同時に訓練してもよい。

【0068】

応用例によれば、因果構造モデルＦ、方策関数π及び報酬関数Ｒにより精度の高いデータサンプルを増幅することにより、因果構造モデルＦ、方策関数π及び報酬関数Ｒを効率的且つ高精度に訓練することが可能になる。

【0069】

以上説明した少なくとも１つの実施形態によれば、医療イベントに関する因果構造を正確に推定することができる。

【0070】

上記説明において用いた「プロセッサ」という文言は、例えば、ＣＰＵ、ＧＰＵ、或いは、特定用途向け集積回路（Application Specific Integrated Circuit：ＡＳＩＣ））、プログラマブル論理デバイス（例えば、単純プログラマブル論理デバイス（Simple Programmable Logic Device：ＳＰＬＤ）、複合プログラマブル論理デバイス（Complex Programmable Logic Device：ＣＰＬＤ）、及びフィールドプログラマブルゲートアレイ（Field Programmable Gate Array：ＦＰＧＡ））等の回路を意味する。プロセッサは記憶回路に保存されたプログラムを読み出し実行することで機能を実現する。なお、記憶回路にプログラムを保存する代わりに、プロセッサの回路内にプログラムを直接組み込むよう構成しても構わない。この場合、プロセッサは回路内に組み込まれたプログラムを読み出し実行することで機能を実現する。一方、プロセッサが例えばＡＳＩＣである場合、プログラムが記憶回路に保存される代わりに、当該機能がプロセッサの回路内に論理回路として直接組み込まれる。なお、本実施形態の各プロセッサは、プロセッサごとに単一の回路として構成される場合に限らず、複数の独立した回路を組み合わせて１つのプロセッサとして構成し、その機能を実現するようにしてもよい。さらに、図１における複数の構成要素を１つのプロセッサへ統合してその機能を実現するようにしてもよい。

【0071】

いくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更、実施形態同士の組み合わせを行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

【符号の説明】

【0072】

１医療イベント収集装置
３医療イベント保管装置
５医用学習装置
７ＡＩモデル保管装置
９医用推論装置
５１処理回路
５２記憶装置
５３入力機器
５４通信機器
５５表示機器
１００医用情報処理システム
５１１取得機能
５１２訓練機能
５１３表示制御機能

【図1】