IP Force 特許公報掲載プロジェクト 2022.1.31 β版

ホーム > 特許ランキング > 株式会社日立製作所

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 株式会社日立製作所の特許一覧

特開2023-179108分析装置、分析方法、および分析プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023179108

(43)【公開日】2023-12-19

(54)【発明の名称】分析装置、分析方法、および分析プログラム

(51)【国際特許分類】

G16H 50/00 20180101AFI20231212BHJP

【ＦＩ】

G16H50/00

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2022092187

(22)【出願日】2022-06-07

(71)【出願人】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110001678

【氏名又は名称】藤央弁理士法人

(72)【発明者】

【氏名】中村泰明

(72)【発明者】

【氏名】竹内渉

【テーマコード（参考）】

5L099

【Ｆターム（参考）】

5L099AA04

(57)【要約】（修正有）

【課題】治療効果の推定精度の向上を図る分析装置、分析方法及び分析プログラムを提供する。
【解決手段】プログラムを実行するプロセッサと、プログラムを記憶する記憶デバイスとを有する分析装置３００は、記憶デバイスに因子群の中の予測因子群毎の重みを記憶しており、患者毎に前記因子群の因子毎の値を含む複数の患者データを取得する取得部４０１と、因子と重みとを選択する選択処理と、選択処理によって選択された前記因子と前記重みとに基づいて分割対象である前記複数の患者データの分割を実行する分割処理と、分割処理によって得られた患者データ群を新たな分割対象に設定する設定処理と、を繰り返し実行することにより、分割処理により分割対象を分割する分岐条件を探索する探索処理を実行する探索部４１１と、を有する。
【選択図】図４

【特許請求の範囲】

【請求項1】

プログラムを実行するプロセッサと前記プログラムを記憶する記憶デバイスとを有する分析装置であって、
前記記憶デバイスは、因子群の中の予測因子群ごとの重みを記憶しており、
患者ごとに前記因子群の因子ごとの値を含む複数の患者データを取得する取得部と、
前記因子と前記重みとを選択する選択処理と、前記選択処理によって選択された前記因子と前記重みとに基づいて分割対象である前記複数の患者データの分割を実行する分割処理と、前記分割処理によって得られた患者データ群を新たな分割対象に設定する設定処理と、を繰り返し実行することにより、前記分割処理により前記分割対象を分割する分岐条件を探索する探索処理を実行する探索部と、
を有することを特徴とする分析装置。

【請求項2】

請求項１に記載の分析装置であって、
前記患者データは、前記患者が治療を選択したか否かを示す治療選択に関する変数を含み、
前記探索部は、前記設定処理により前記複数の患者データが前記分割対象に設定された場合に前記複数の患者データについて前記変数を用いて前記因子に関する第１治療効果を算出するとともに、前記分割処理によって分割された２つの患者データ群の各々について前記変数を用いて前記因子に関する第２治療効果を算出する治療効果算出処理と、前記第１治療効果と前記因子と前記重みとに基づいて分割前の損失関数を算出するとともに、前記２つの患者データ群の各々の前記第２治療効果と前記因子と前記重みとに基づいて、前記分割後の損失関数を算出する損失関数算出処理と、前記分割後の損失関数と前記分割後の損失関数との差分を算出する差分算出処理と、を実行し、前記差分に基づいて、前記分岐条件を探索する、
ことを特徴とする分析装置。

【請求項3】

請求項２に記載の分析装置であって、
前記探索部は、前記差分が目標値よりも大きい場合、前記分割後の損失関数で前記分割前の損失関数を更新し、前記差分で前記目標値を更新する更新処理を実行する、
ことを特徴とする分析装置。

【請求項4】

請求項２に記載の分析装置であって、
前記探索部は、前記複数の患者データを解析対象群として前記探索処理を実行し、
前記予測因子と前記重みとに基づいて前記分岐条件で前記解析対象群を第１分岐群と第２分岐群とに仮分割し、前記解析対象群の前記第１治療効果と前記第１分岐群についての前記第２治療効果との比較結果と、前記解析対象群の前記第１治療効果と前記第２分岐群についての前記第２治療効果との比較結果と、に基づいて、前記第１分岐群および前記第２分岐群のいずれの分岐群の前記第２治療効果が有意に変化したか否かを判定する判定処理と、を実行することにより、前記判定処理による判定結果に基づいて、前記解析対象群を前記第１分岐群と前記第２分岐群とに分割する層別化処理を実行する層別化部と、
を有することを特徴とする分析装置。

【請求項5】

請求項４に記載の分析装置であって、
前記層別化部は、前記複数の患者データのうち少なくとも一以上の患者データを前記解析対象群として前記層別化処理を実行し、
前記一以上の患者データについて前記層別化処理で前記第１分岐群と前記第２分岐群とに分割したときの分岐条件に基づいて、前記因子の前記重みを生成する生成部と、
を有することを特徴とする分析装置。

【請求項6】

請求項１に記載の分析装置であって、
医学文献データベースを、前記因子および転帰に関する接続詞を含む検索キーワードで検索して、前記検索キーワードに該当する文章を抽出することにより、前記検索キーワードに含まれる前記因子の重みを算出し、前記検索キーワードに含まれる前記因子を、前記重みに関連付けて前記記憶デバイスに記憶する生成部と、
を有する分析装置。

【請求項7】

請求項１に記載の分析装置であって、
前記因子は、治療に対する感受性を反映する予測因子である、
ことを特徴とする分析装置。

【請求項8】

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する分析装置が実行する分析方法であって、
前記記憶デバイスは、因子群の中の予測因子群ごとの重みを記憶しており、
前記プロセッサは、
患者ごとに前記因子群の因子ごとの値を含む複数の患者データを取得する取得処理と、
前記因子と前記重みとを選択する選択処理と、前記選択処理によって選択された前記因子と前記重みとに基づいて分割対象である前記複数の患者データの分割を実行する分割処理と、前記分割処理によって得られた患者データ群を新たな分割対象に設定する設定処理と、を繰り返し実行することにより、前記分割処理により前記分割対象を分割する分岐条件を探索する探索処理を実行する探索処理と、
を実行することを特徴とする分析方法。

【請求項9】

因子群の中の因子群の因子ごとの重みを記憶する記憶デバイスにアクセス可能なプロセッサに、
患者ごとに前記因子群の因子ごとの値を含む複数の患者データを取得する取得処理と、
前記因子と前記重みとを選択する選択処理と、前記選択処理によって選択された前記因子と前記重みとに基づいて分割対象である前記複数の患者データの分割を実行する分割処理と、前記分割処理によって得られた患者データ群を新たな分割対象に設定する設定処理と、を繰り返し実行することにより、前記分割処理により前記分割対象を分割する分岐条件を探索する探索処理を実行する探索処理と、
を実行させることを特徴とする分析プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データを分析する分析装置、分析方法、および分析プログラムに関する。

【背景技術】

【0002】

従来の医療はランダム化比較試験をベースとした標準化およびガイドライン作成を推進してきた反面、治療はすべての患者に有効ではなく個人性があることが顕在化してきた。そこで、現在の医療では患者個人の特性に合った最適治療選択の追及に焦点が当てられている。たとえば、患者特性等に基づき患者をサブタイプ分類（層別化）し、類似する患者に対する治療およびアウトカムを分析する包括的医療データ分析システムが開示されている（下記特許文献１を参照）。

【0003】

この包括的医療データ分析システムは、知的医療エンジンを含む医療メインサーバを含み、知的医療エンジンは、機密電子医療記録データベースである中央データベースに通信可能に結合されるとともに、ネットワークを介して病院、診療所及びその他の医療ソースにさらに通信可能に結合される。知的医療エンジンは、潜在的に異なる国、地域及び大陸から大量の医療記録を受け取る。電子医療記録は、病院、診療所及びその他の医療ソースから提供され、患者の医療記録を地球規模で大規模分析して相関付けできるように知的医療エンジン内に供給される。分析は、患者臨床パラメータ、疾患テンプレート、治療及び転帰に従って、医療記録を複数レベルのサブグループにグループ分割（分類）することによって開始する。新規患者がシステムに入力されると、この患者のパラメータ及び疾患テンプレートを最も近いサブグループと照合して、好ましい結果の可能性がある。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特表２０１７－５０２４３９号公報

【非特許文献】

【0005】

【非特許文献1】Athey, Susan, et al,“Recursive partitioning for heterogeneous causal effects” Proceedings of the National Academy of Sciences 113.27 (2016): 7353-7360.

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、特許文献１の包括的医療データ分析システムでは、治療効果に基づいたサブグループの分割は行われていない。また、非特許文献１では、治療効果の推定には治療に関連する因子（予測因子）と、治療に関連しない因子（予後因子）とを同様に取り扱っている。

【0007】

本発明は、治療効果の推定精度の向上を図ることを目的とする。

【課題を解決するための手段】

【0008】

本願において開示される発明の一側面となる分析装置は、プログラムを実行するプロセッサと前記プログラムを記憶する記憶デバイスとを有する分析装置であって、前記記憶デバイスは、因子群の中の予測因子群ごとの重みを記憶しており、患者ごとに前記因子群の因子ごとの値を含む複数の患者データを取得する取得部と、前記因子と前記重みとを選択する選択処理と、前記選択処理によって選択された前記因子と前記重みとに基づいて分割対象である前記複数の患者データの分割を実行する分割処理と、前記分割処理によって得られた患者データ群を新たな分割対象に設定する設定処理と、を繰り返し実行することにより、前記分割処理により前記分割対象を分割する分岐条件を探索する探索処理を実行する探索部と、を有することを特徴とする分析装置。

【発明の効果】

【0009】

本発明の代表的な実施の形態によれば、治療効果の推定精度の向上を図ることができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

【図面の簡単な説明】

【0010】

【図1】図１は、予後因子および予測因子のアウトカムの一例を示す説明図である。

【図2】図２は、治療効果τに有意に効くと考えられる患者特性内の予測因子で患者の母集団を分割して学習時に重み付けする例を示す説明図である。

【図3】図３は、分析装置のハードウェア構成例を示すブロック図である。

【図4】図４は、分析装置の機能的構成例を示すブロック図である。

【図5】図５は、図４に示した重みテーブルの一例を示す説明図である。

【図6】図６は、図４に示したヘルスケアＤＢの一例を示す説明図である。

【図7】図７は、患者データテーブルの一例を示す説明図である。

【図8】図８は、分析装置の入力画面の一例を示す説明図である。

【図9】図９は、分析装置による分析処理手順例を示すフローチャートである。

【図10】図１０は、層別化結果の一例を示す説明図である。

【図11】図１１は、層別化結果の他の例を示す説明図である。

【図12】図１２は、図９に示した層別化処理（ステップＳ９０２）の詳細な処理手順例を示すフローチャートである。

【図13】図１３は、図１０に示した分岐条件探索処理（ステップＳ１００２）の詳細な処理手順例を示すフローチャートである。

【図14】図１４は、従来法と実施例１との分割前と比較した予測誤差改善率を示す箱ひげ図である。

【図15】図１５は、実施例２にかかる生成部による重みテーブルの生成処理手順例を示すフローチャートである。

【図16】図１６は、医学分家データベースからの検索結果を示すヒストグラムである。

【図17】図１７は、実施例３にかかる重みテーブルの生成処理手順例を示すフローチャートである。

【発明を実施するための形態】

【0011】

＜予後因子および予測因子のアウトカム＞
図１は、予後因子および予測因子のアウトカムの一例を示す説明図である。アウトカムは、たとえば、生死、無増悪期間、腫瘍サイズのような観測値であり、治療に関連しない効果と治療効果とが内在する値である。治療に関連しない効果および治療効果はそれぞれ直接観測不可能である。

【0012】

グラフ１０１は、患者の母集団を予後因子の有無でグループ化された患者群Ａ、Ｂの治療前後のアウトカムを示す。グラフ１０２は、患者の母集団を予測因子の有無でグループ化された患者群Ｃ、Ｄの治療前後のアウトカムを示す。

【0013】

予後因子および予測因子はそれぞれ、患者が有する特性（以下、患者特性）を構成する因子群のいずれかの因子であり、アウトカムにより変化する量的変数、すなわち、共変量である。予後因子は、治療の有無にかかわらず、独立した予後を示す因子であり、たとえば、患者の年齢である。予測因子は、治療に対する感受性を反映する因子であり、たとえば、ＥＧＦＲ（Ｅｐｉｄｅｒｍａｌｇｒｏｗｔｈｆａｃｔｏｒｒｅｃｅｐｔｏｒ：上皮成長因子受容体）であり、予測因子の有無によって異なる治療効果を示す因子である。

【0014】

グラフ１０１において、患者群Ａが年齢を示す予後因子の値が低い患者の集合（年齢ｌｏｗ）であり、患者群Ｂが患者群Ａよりも年齢を示す予後因子の値が高い患者の集合（年齢ｈｉｇｈ）である。グラフ１０１では、患者群Ａ、Ｂの違いにより治療前後のアウトカムは変わるが、患者群Ａ、Ｂ間で治療効果τ（治療前後のアウトカムの差）に差はない。

【0015】

グラフ１０２において、患者群ＣがＥＧＦＲを示す予測因子の値が高い患者の集合（ＥＧＦＲ＋）であり、患者群Ｄが患者群ＣよりもＥＧＦＲを示す予測因子が低い患者の集合（ＥＧＦＲ－）である。グラフ１０２では、患者群Ｃ、Ｄの違いにより治療前後のアウトカムは変わり、患者群Ｃ、Ｄ間で治療効果τ（治療前後のアウトカムの差）にも差がある。グラフ１０２では、患者群Ｃの治療効果τは患者群Ｄの治療効果τよりも大きい。

【0016】

このように、ＥＧＦＲのような予測因子で患者の母集団を層別化することで、治療効果τ別の状態分類を通じた治療選択の支援が可能であるが、予測因子で層別化されない場合は治療効果τの予測精度が低下する。このため、以下に示す実施例では、治療効果τに有意に効くと考えられる患者特性内の予測因子を事前に特定し、学習時に重み付けすることで、治療効果τの予測精度向上を図る。

【0017】

図２は、治療効果τに有意に効くと考えられる患者特性内の予測因子で患者の母集団を分割して学習時に重み付けする例を示す説明図である。母集団２００には、処置群に属する患者２０１と非処置群に属する患者２０２とが存在する。処置群とは、傷病の手当てがされた患者の集合であり、非処理群とは、傷病の手当てがされていない患者の集合である。また、（＋）は奏功、（－）は非奏功を示す。以下、奏功した患者２０１、２０２を患者２０１（＋）、２０２（＋）と表記し、非奏功の患者２０１、２０２を患者２０１（－）、２０２（－）と表記する。

【0018】

すなわち、患者２０１（＋）は処置によって傷病が治癒した患者２０１であり、患者２０１（－）は処置しても傷病が治癒しなかった患者２０１である。また、患者２０２（＋）は処置していないにもかかわらず傷病が治癒した患者２０２であり、患者２０２（－）は処置していないので傷病が治癒しなかった患者２０２である。図２では、説明の単純化のため、この６人の患者２０１，２０２の集合を母集団２００とする。

【0019】

ここで、分析装置は、治療効果τに有意に効くと考えられる患者特性内の予測因子ｘで患者の母集団２００を２つの群に分割する。一方の群をサブタイプＬとし、他方の群をサブタイプＲと表記する。

【0020】

サブタイプＬの推定治療効果τ（Ｌ）は、サブタイプＬ内の患者２０１（＋）のアウトカムとサブタイプＬ内の患者２０２（＋）、２０２（－）のアウトカムとの差分であり、図１の患者群Ｃ、Ｄ間の治療効果τの差に対応する。

【0021】

サブタイプＲの推定治療効果τ（Ｒ）は、サブタイプＲ内の患者２０１（＋）、２０１（－）のアウトカムとサブタイプＲ内の患者２０２（＋）のアウトカムとの差分であり、図１の患者群Ｃ、Ｄ間の治療効果τの差に対応する。

【0022】

分析装置は、母集団２００をサブタイプＬ、Ｒに分割した予測因子ｘに関する重みｗ（ｘ）を推定治療効果τ（Ｌ）、τ（Ｒ）の二乗和に重み付けすることで、下記式（１）を用いて損失関数ｆを学習したり、損失関数ｆにより予測対象患者の治療効果τを予測したりする。

【0023】

【数1】

【0024】

なお、ｌは、サブタイプＬ、Ｒのいずれの治療効果τ（ｌ）であるかを示すインデックスである。Ｎ（ｌ）は、サブタイプＬのサンプル数である。以下、図１および図２で示した分析装置の詳細について、実施例１～３として説明する。

【実施例0025】

実施例１では、重みｗ（ｘ）が事前に特定されている場合の分析装置について説明する。また、以下の形態より本発明が限定されるものではない。

【0026】

＜分析装置のハードウェア構成例＞
図３は、分析装置のハードウェア構成例を示すブロック図である。分析装置３００は、プロセッサ３０１と、記憶デバイス３０２と、入力デバイス３０３と、出力デバイス３０４と、通信インターフェース（通信ＩＦ）３０５と、を有する。プロセッサ３０１、記憶デバイス３０２、入力デバイス３０３、出力デバイス３０４、および通信ＩＦ３０５は、バス３０６により接続される。プロセッサ３０１は、分析装置３００を制御する。記憶デバイス３０２は、プロセッサ３０１の作業エリアとなる。また、記憶デバイス３０２は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス３０２としては、たとえば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュメモリがある。入力デバイス３０３は、データを入力する。入力デバイス３０３としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナ、マイク、センサがある。出力デバイス３０４は、データを出力する。出力デバイス３０４としては、たとえば、ディスプレイ、プリンタ、スピーカがある。通信ＩＦ３０５は、ネットワークと接続し、データを送受信する。

【0027】

＜分析装置の機能的構成例＞
図４は、分析装置の機能的構成例を示すブロック図である。分析装置３００は、生成部４００と、取得部４０１と、層別化部４０２と、出力部４０３と、ヘルスケアＤＢ４１０と、患者データテーブル４２０と、重みテーブル４３０と、を有する。ヘルスケアＤＢ４１０、患者データテーブル４２０および重みテーブル４３０は、具体的には、たとえば、図３に示した記憶デバイス３０２に記憶されるデータ構造であり、プロセッサ３０１によりアクセス可能である。生成部４００、取得部４０１、層別化部４０２、および出力部４０３は、具体的には、たとえば、図３に示した記憶デバイス３０２に記憶されたプログラムをプロセッサ３０１に実行させることにより実現される機能である。

【0028】

生成部４００は、へルスケアＤＢ４１０を参照して患者データテーブル４２０を生成する。取得部４０１は、患者データテーブル４２０から患者を特定する患者データを複数取得したり、重みテーブル４３０から重みを取得したりする。層別化部４０２は、取得部４０１によって患者データとして取得された患者群を層別化する。層別化部４０２は、探索部４１１と反復部４１２とを有する。探索部４１１は、患者群を層別化するための分岐条件を探索する。反復部４１２は、探索部４１１による分岐条件の探索と、分岐条件を用いた患者群の分割と、を繰り返し実行する。出力部４０３は、層別化部４０２による層別化結果を出力する。

【0029】

図５は、図４に示した重みテーブル４３０の一例を示す説明図である。重みテーブル４３０は、フィールドとして、予測因子５０１と、重み５０２と、を有する。同一行の予測因子５０１の値および重み５０２の値の組み合わせが１つの予測因子５０１を特定するエントリとなる。

【0030】

予測因子５０１は、上述したように、治療に対する感受性を反映する因子を特定するフィールドであり、ｘ１、ｘ２、…、ｘｉ、…、ｘｎ（ｎは１以上の整数、ｉは１≦ｉ≦ｎを満たす整数）を、予測因子を一意に特定する識別情報として保持する。以下、予測因子５０１の値を予測因子ｘｉと表記する場合がある。重み５０２は、治療効果τの有意性を示す指標値であり、上記式（１）に入力される。本例では、重み５０２の値が大きいほど、治療効果τの予測精度が向上する。

【0031】

なお、実施例１では、重みテーブル４３０は、事前に用意される。分析装置３００は、ユーザの操作により、重みテーブル４３０のエントリの追加、変更、削除や重み５０２の値の変更を実行することができる。

【0032】

図６は、図４に示したヘルスケアＤＢ４１０の一例を示す説明図である。ヘルスケアＤＢ４１０は、フィールドとして、患者ＩＤ６０１と、入院ＩＤ６０２と、治療ライン６０３と、年月日６０４と、処置６０５と、イベント６０６と、患者特性６０７と、を有する。同一行の各フィールドの値の組み合わせが１つのヘルスケア情報を規定するエントリとなる。エントリは、１人の患者について１以上存在する。たとえば、ある患者が３回入院すれば、その患者について３個のエントリが存在する。なお、図６では、分析対象となる傷病（たとえば、がん）についてのヘルスケア情報を規定する。

【0033】

患者ＩＤ６０１は、患者を一意に特定する識別情報である。入院ＩＤ６０２は、患者ＩＤ６０１で特定される患者が入院した時に割り当てられる識別情報である。治療ライン６０３は、治療の順序を示す番号である。

【0034】

治療ライン６０３は、がんに対する治療で、抗がん剤投与による治療の順序を示す番号である。たとえば、あるがん腫に対して、初めて抗がん剤を投与する場合、初回治療となるため、治療ライン６０３の値は「１」となり、２回目の治療の場合は「２」、３回目の治療の場合は「３」、…となる。

【0035】

年月日６０４は、治療ライン６０３による治療をおこなった年、月および日である。処置６０５は、治療ライン６０３による治療の内容である。イベント６０６は、治療ライン６０３で処置６０５を施した結果（たとえば、増悪、死亡など）である。

【0036】

患者特性６０７は、患者ＩＤ６０１で特定される患者の年月日６０４時点における特徴量となる因子群を示す説明変数であり、共変量を含む。患者特性６０７は、具体的には、臨床検査値や遺伝子変異の有無であり、たとえば、因子として、年齢６７１、性別６７２、血圧６７３、ＥＧＦＲ６７４を含む。

【0037】

図７は、患者データテーブルの一例を示す説明図である。患者データテーブル４２０は、ヘルスケアＤＢ４１０を参照して取得部４０１により生成される。なお、患者データテーブル４２０は、あらかじめ記憶デバイス３０２に記憶されていてもよい。

【0038】

患者データテーブル４２０は、ヘルスケアＤＢ４１０を患者単位でまとめたテーブルであり、フィールドとして、たとえば、患者ＩＤ６０１と、生存期間７０１と、アウトカム７０２と、治療選択７０３と、患者特性６０７と、を有する。同一行の各フィールドの値の組み合わせが１人の患者の患者データを規定するエントリとなる。

【0039】

なお、ヘルスケアＤＢ４１０において１人の患者に対し複数のエントリが存在する場合は、たとえば、治療ライン６０３が最大値となるエントリが患者データテーブル４２０のエントリに用いられる。

【0040】

生存期間７０１は、患者ＩＤ６０１で特定される患者が年月日６０４からイベント６０６の値である死亡年月日までの日数である。イベント６０６に値がなければ、現在の年月日までの日数である。

【0041】

アウトカム７０２は、たとえば、生死、無増悪期間、腫瘍サイズのような観測値であり、治療に関連しない効果と治療効果とが内在する値である。ここでは、図７の例では、アウトカム７０２の値は生死を特定する数値である。たとえば、「１」が生存、「０」が死亡を示す。分析装置３００は、イベント６０６を参照し、イベント６０６に値がなければ、「１」を格納し、イベント６０６に死亡年月日があれば、「０」を格納する。

【0042】

治療選択７０３は、患者ＩＤ６０１で特定される患者が治療を選択したか否かを示す値であり、「１」が選択したことを示し、「０」が選択しなかったことを示す。分析装置３００は、処置６０５を参照し、処置６０５に値がなければ、「０」を格納し、処置６０５に値があれば、「１」を格納する。

【0043】

図８は、分析装置３００の入力画面の一例を示す説明図である。入力画面８００は、分析装置３００の出力デバイス３０４の一例である表示装置、または、分析装置３００と通信ＩＦ３０５を介して通信可能な他のコンピュータの表示装置に表示される。また、ユーザは、分析装置３００の入力デバイス３０３または他のコンピュータの入力デバイスを操作することにより、入力画面８００に情報を入力することができる。

【0044】

入力画面８００は、ヘルスケア情報設定項目８０１と、分類設定項目８０２と、治療経過項目８０３と、目的変数項目８０４と、説明変数項目８０５と、欠損値処理項目８０６と、分類モデル項目８０７と、重み項目８０８と、実行ボタン８０９と、を有する。

【0045】

ヘルスケア情報設定項目８０１は、図６に示したヘルスケアＤＢ４１０のエントリ群から予測対象エントリを選択可能なユーザインタフェースである。分類設定項目８０２は、ヘルスケア情報設定項目８０１のエントリ群を患者のがんのステージや遺伝子といった分類情報で分類する項目を選択可能なユーザインタフェースである。これにより、ヘルスケア情報設定項目８０１のエントリ群の絞り込みが可能となる。治療経過項目８０３は、患者の治療ライン６０３を選択可能なユーザインタフェースである。

【0046】

目的変数項目８０４は、分類モデルｆから出力される目的変数を選択可能なユーザインタフェースである。目的変数としては、たとえば、予測対象患者のイベント６０６や処置６０５が選択可能である。説明変数項目８０５は、予測対象患者の１以上の説明変数となる患者特性６０７の因子を選択可能なユーザインタフェースである。図８の例では、年齢６７１、性別６７２、血圧６７３がチェックマークの入力により選択されている。

【0047】

欠損値処理項目８０６は、説明変数の欠損値処理を選択可能なユーザインタフェースである。図８の例では、欠損値処理として「補間」が選択されている。分類モデル項目８０７は、分類モデルｆを選択可能なユーザインタフェースである。図８の例では、分類モデルｆとして因果木が選択されている。

【0048】

重み項目８０８は、説明変数項目８０５で選択された説明変数のうち予測因子５０１に該当する説明変数の重み５０２を表示する。ユーザは、重み５０２を参照して説明変数項目８０５内の説明変数の選択を外してもよい。たとえば、性別６７２の重み５０２は「１．０」と他の重み５０２に比べて低いため、ユーザは説明変数項目８０５から性別６７２を除外してもよい。実行ボタン８０９は、押下により、分析装置３００に分析処理を実行させるためのユーザインタフェースである。

【0049】

＜分析処理＞
図９は、分析装置３００による分析処理手順例を示すフローチャートである。分析装置３００は、取得部４０１により、患者データテーブル４２０が未生成であればヘルスケアＤＢ４１０から患者データテーブル４２０を生成する。そして、分析装置３００は、取得部４０１により、患者データテーブル４２０からそのエントリである患者データを取得する（ステップＳ９０１）。

【0050】

つぎに、分析装置３００は、層別化部４０２により層別化処理を実行する（ステップＳ９０２）。層別化処理（ステップＳ９０２）は、患者データを用いて患者を層別化する処理である。このあと、分析装置３００は、出力部４０３により、層別化処理（ステップＳ９０２）による層別化結果を出力して（ステップＳ９０３）、一連の分析処理を終了する。ステップＳ９０３では、分析装置３００は、出力デバイス３０４の一例であるディスプレイに層別化結果を表示してもよく、通信ＩＦ３０５により他のコンピュータに層別化結果を送信してもよく、記憶デバイス３０２に層別化結果を格納してもよい。

【0051】

＜層別化結果＞
図１０は、層別化結果の一例を示す説明図である。図１０に示す層別化結果は、ツリー構造である因果木１０００である。因果木１０００は、ノード１００１～１００５で構成される。ノード１００１において、治療効果の平均値が「３」である解析対象群は予測因子ｘ１＞０である患者グループとそうでない患者グループとに分割される。この予測因子ｘ１および解析対象群を分割する分割しきい値「０」がノード１００１の分岐条件である。因子ｘ１＞０である患者グループは、治療効果の平均値が「１０」である患者群Ａを示すノード１００２となり、因子ｘ１＞０でない患者グループは、治療効果の平均値が「１」となるノード１００３である。

【0052】

ノード１００３において、分割対象となる治療効果の平均値が「１」である患者グループは、予測因子ｘ２＞０である患者グループとそうでない患者グループとに分割される。当該分割対象を分割する分割しきい値「０」がノード１００３の分岐条件である。予測因子ｘ２＞０である患者グループは、治療効果の平均値が「０」である患者群Ｂを示すノード１００４となり、予測因子ｘ２＞０でない患者グループは、治療効果の平均値が「－５」である患者群Ｃを示すノード１００５となる。

【0053】

ノード１００２、１００４、１００５には、分岐条件は存在しない。ノード１００１～１００５、ノード１００１～１００５間の接続関係、およびノード１００１、１００３が有する分岐条件が、因果木１０００を構成する。

【0054】

なお、分割しきい値は、たとえば、分割対象となる患者グループの患者数を均等になるように分割する予測因子の値である。たとえば、分割に用いられた予測因子の値が大きい患者グループ内の予測因子の最小値でもよく、分割に用いられた予測因子の値が小さい患者グループ内の予測因子の最大値でもよく、当該予測因子の最小値と当該予測因子の最大値との平均値でもよい。

【0055】

図１１は、層別化結果の他の例を示す説明図である。図１１に示す層別化結果１１００は、グラフで示した例である。層別化結果１１００は、共変量である因子１と因子２との関係をグラフ化した散布図であり、解析対象群は患者群Ａ、Ｂ、Ｃに分割される。共変量は、因子１と因子２との組み合わせに限らず、他の組み合わせも選択可能である。

【0056】

また、ユーザが入力デバイス３０３を操作して患者群Ａ、Ｂ、Ｃをそれぞれ指定した場合、分析装置３００は、指定した患者群の特徴情報を表示してもよい。図１１では、患者群Ｂが指定された場合に、患者群Ｂの特徴情報１１０１が表示されている。

【0057】

＜層別化処理＞
図１２は、図９に示した層別化処理（ステップＳ９０２）の詳細な処理手順例を示すフローチャートである。分析装置３００は、反復部４１２により、解析対象群を設定する（ステップＳ１２０１）。具体的には、たとえば、分析装置３００は、ステップＳ１２０１の初回実行時には、ステップＳ９０１で取得した患者データから初回実行時の解析対象群を選択する。初回実行時の解析対象群は、患者データや患者データテーブル４２０の全エントリでもよく、あらかじめ設定した条件に該当する一部の患者データでもよく、一以上の患者データであればよい。

【0058】

また、分析装置３００は、ステップＳ１２０１の初回実行時において、解析対象群に実行ラベル［Ｋ，Ｖ］を設定する。たとえば、実行ラベル［Ｋ，Ｖ］は、キーＫとバリューＶとの組み合わせである。ステップＳ１２０１の初回実行時では、キーＫ＝１、バリューＶ＝Ｆａｌｓｅに設定される。Ｆａｌｓｅは、分岐条件探索処理（ステップＳ１２０２）が未実行であることを示し、分岐条件探索処理（ステップＳ１２０２）が実行されれば、分岐条件探索処理（ステップＳ１２０２）が実行済みであることを示すバリューＶ＝Ｔｕｒｅに更新される。

【0059】

つぎに、分析装置３００は、探索部４１１により、分岐条件探索処理を実行する（ステップＳ１２０２）。分岐条件探索処理（ステップＳ１２０２）は、解析対象群を分岐する条件（分岐条件）を探索して因果木を生成する処理である。

【0060】

つぎに、分析装置３００は、探索部４１１により、解析対象群の実行ラベル［Ｋ，Ｖ］のバリュー値Ｖ＝Ｆａｌｓｅを、分岐条件探索処理（ステップＳ１２０２）が実行したことを示すバリュー値Ｖ＝Ｔｕｒｅに更新する（ステップＳ１２０３）。

【0061】

つぎに、分析装置３００は、反復部４１２により、解析対象群の分割前後で治療効果が変化したか否かを判定する（ステップＳ１２０４）。具体的には、たとえば、分析装置３００は、分割対象である解析対象群を因果木の分岐条件で仮分割し、２つの患者グループ（以下、第１分岐群、第２分岐群と称す。また、区別しない場合は単に分岐群と称す。）を生成する。分析装置３００は、第１分岐群および第２分岐群のいずれの治療効果が分割対象である解析対象群の治療効果に対して有意に変化しているか否かを判定する。

【0062】

たとえば、分析装置３００は、第１分岐群と解析対象群とを比較した治療効果の差分（以下、第１差分）と、第２分岐群と解析対象群とを比較した治療効果の差分（以下、第２差分）と、を合成した標準偏差を算出する。そして、分析装置３００は、第１差分および第２差分の少なくともいずれか一方が標準偏差より大きいか否かを判定する。

【0063】

標準偏差よりも大きい差分の比較元となる分岐群が、分割前の解析対象群から治療効果が変化したと判定する。そして、第１差分および第２差分の少なくともいずれか一方が標準偏差より大きければ、治療効果が変化したとして（ステップＳ１２０４：Ｙｅｓ）、ステップＳ１２０５に移行し、第１差分および第２差分のいずれも標準偏差以下であれば、ステップＳ１２０６に移行する。

【0064】

また、分析装置３００は、分岐条件探索処理（ステップＳ１２０２）において、損失関数が向上しなかった場合（すなわち、Ｎｏｎｅが分岐条件探索結果として返ってきた場合）、分析装置３００は治療効果に変化がないと判定して（ステップＳ１２０４：Ｎｏ）、ステップＳ１２０６に移行する。

【0065】

ステップＳ１２０４：Ｙｅｓのあと、分析装置３００は、ステップＳ１２０４の仮分割で用いた分岐条件で解析対象群を分割する（ステップＳ１２０５）。具体的には、たとえば、分析装置３００は、初回のステップＳ１２０５では親ノードで解析対象群を分割し、ステップＳ１２０６：Ｎｏでループされると、次のステップＳ１２０５で分岐先の子ノードで解析対象群を分割する。

【0066】

また、分析装置３００は、ステップＳ１２０５で分割された２つの群、すなわち、第１分岐群および第２分岐群の各々に、実行ラベルを付与する。具体的には、たとえば、分析装置３００は、第１分岐群および第２分岐群の各々について解析対象群の実行ラベル［Ｋ，Ｖ］を複製する。そして、分析装置３００は、第１分岐群の実行ラベル［Ｋ，Ｖ］のキーＫの末尾に分岐番号「１」を付与し、バリューＶをＶ＝ＴｕｒｅからＶ＝Ｆａｌｓｅに更新する。同様に、分析装置３００は、第２分岐群の実行ラベル［Ｋ，Ｖ］のキーＫの末尾に分岐番号「２」を付与し、バリューＶをＶ＝ＴｕｒｅからＶ＝Ｆａｌｓｅに更新する。

【0067】

たとえば、解析対象群の実行ラベル［Ｋ，Ｖ］が［１，Ｔｕｒｅ］であれば、第１分岐群の実行ラベル［Ｋ，Ｖ］は［１１，Ｆａｌｓｅ］となり、第２分岐群の実行ラベル［Ｋ，Ｖ］は［１２，Ｆａｌｓｅ］となる。このあと、ステップＳ１２０６に移行する。

【0068】

分析装置３００は、終了条件を満たすか否かを判定する（ステップＳ１２０６）。終了条件とは、たとえば、あらかじめ設定した群分割（ステップＳ１２０５）の実行回数（すなわち、分岐の深さ）や、群内サンプル数の下限値である。具体的には、たとえば、群分割（ステップＳ１２０５）の実行回数が所定回数以上でない場合は、終了条件を充足していないとして（ステップＳ１２０６：Ｎｏ）、ステップＳ１２０１に戻る。一方、群分割（ステップＳ１２０５）の実行回数が所定回数以上である場合は、第１分岐群および第２分岐群の各々のバリューＶをＶ＝ＦａｌｓｅからＶ＝Ｔｕｒｅに更新し、終了条件を充足したとして（ステップＳ１２０６：Ｙｅｓ）、層別化処理（ステップＳ９０２）を終了し、ステップＳ９０３に移行する。

【0069】

また、終了条件が群内サンプル数の下限値である場合、分析装置３００は、群分割（ステップＳ１２０５）の実行で分割され、第１分岐群および第２分岐群の各々のサンプル数が、群内サンプル数の下限値を下回っているか否かを判定する。第１分岐群および第２分岐群の少なくともいずれか一方が群内サンプル数の下限値を下回っている場合は、終了条件を充足していないとして（ステップＳ１２０６：Ｎｏ）、ステップＳ１２０１に戻る。一方、第１分岐群および第２分岐群のいずれも群内サンプル数の下限値以上である場合は、第１分岐群および第２分岐群の各々のバリューＶをＶ＝ＦａｌｓｅからＶ＝Ｔｕｒｅに更新し、終了条件を充足したとして（ステップＳ１２０６：Ｙｅｓ）、層別化処理（ステップＳ９０２）を終了し、ステップＳ９０３に移行する。

【0070】

また、治療効果が変化しなかった場合（ステップＳ１２０４：Ｎｏ）、分析装置３００は、解析対象群のサンプル数が、群内サンプル数の下限値を下回っているか否かを判定する。解析対象群が群内サンプル数の下限値を下回っている場合は、終了条件を充足していないとして（ステップＳ１２０６：Ｎｏ）、ステップＳ１２０１に戻る。一方、解析対象群が群内サンプル数の下限値以上である場合は、第１分岐群および第２分岐群の各々のバリューＶをＶ＝ＦａｌｓｅからＶ＝Ｔｕｒｅに更新し、終了条件を充足したとして（ステップＳ１２０６：Ｙｅｓ）、層別化処理（ステップＳ９０２）を終了し、ステップＳ９０３に移行する。

【0071】

すなわち、実行ラベル［Ｋ，Ｖ］のバリューＶが「Ｆａｌｓｅ」である群が存在する場合、終了条件を充足していないとして（ステップＳ１２０６：Ｎｏ）、ステップＳ１２０１に戻る。

【0072】

ステップＳ１２０６：ＮｏからステップＳ１２０１に戻る場合、分析装置３００は、実行ラベル［Ｋ，Ｖ］のバリューが「Ｆａｌｓｅ」の群を次の解析対象群に設定し（ステップＳ１２０１）、同様に、ステップＳ１２０２～Ｓ１２０６を実行する。

【0073】

上述した群分割（ステップＳ１２０５）の例では、第１分岐群の実行ラベル［Ｋ，Ｖ］は［１１，Ｆａｌｓｅ］であり、第２分岐群の実行ラベル［Ｋ，Ｖ］は［１２，Ｆａｌｓｅ］である。したがって、第１分岐群および第２分岐群がそれぞれ解析対象群に設定され（ステップＳ１２０１）、それぞれの解析対象群についてステップＳ１２０２～Ｓ１２０６が実行される。

【0074】

ここで、図１０に示した因果木１０００を例に挙げて具体的に説明する。まず、初回実行時では、分析装置３００は、ノード１００１の分岐条件（ｘ１＞０）で解析対象群を第１分岐群（ｘ１＞０：Ｙｅｓ）と、第２分岐群（ｘ１＞０：Ｎｏ）と、に仮分割する。ここでは、第１分岐群（ｘ１＞０：Ｙｅｓ）および第２分岐群（ｘ１＞０：Ｎｏ）のいずれかについて治療効果が変化したとする（ステップＳ１２０４：Ｙｅｓ）。これにより、分析装置３００は、ノード１００１の分岐条件（ｘ１＞０）で解析対象群を第１分岐群（ｘ１＞０：Ｙｅｓ）と、第２分岐群（ｘ１＞０：Ｎｏ）と、に分割する（ステップＳ１２０５）。

【0075】

また、分析装置３００は、解析対象群の実行ラベル［１，Ｔｒｕｅ］を用いて、第１分岐群（ｘ１＞０：Ｙｅｓ）の実行ラベル［１１，Ｆａｌｓｅ］と第２分岐群（ｘ１＞０：Ｎｏ）の実行ラベル［１２，Ｆａｌｓｅ］とを生成する。

【0076】

第１分岐群（ｘ１＞０：Ｙｅｓ）はノード１００２に遷移する。ノード１００２には、分岐条件は存在しないため、分析装置３００は、第１分岐群（ｘ１＞０：Ｙｅｓ）については探索を終了して（ステップＳ１２０６：Ｙｅｓ）、その実行ラベル［１１，Ｆａｌｓｅ］を実行ラベル［１１，Ｔｒｕｅ］に更新する。

【0077】

第２分岐群（ｘ１＞０：Ｎｏ）の実行ラベルは［１２，Ｆａｌｓｅ］であり、バリューＶがＦａｌｓｅである。したがって、分析装置３００は、第２分岐群（ｘ１＞０：Ｎｏ）を次の解析対象群に設定する（ステップＳ１２０６：Ｎｏ→Ｓ１２０１）。

【0078】

分析装置３００は、因果木１０００において、解析対象群（ｘ１＞０：Ｎｏ）が遷移するノード１００２を特定し、その実行ラベル［１２，Ｆａｌｓｅ］を実行ラベル［１２，Ｔｒｕｅ］に更新する。

【0079】

そして、分析装置３００は、解析対象群（ｘ１＞０：Ｎｏ）を分岐条件（ｘ２＞０）で、第３分岐群（ｘ２＞０：Ｙｅｓ）と第４分岐群（ｘ２＞０：Ｎｏ）と、に仮分割する。ここでは、第３分岐群（ｘ２＞０：Ｙｅｓ）および第４分岐群（ｘ２＞０：Ｎｏ）のいずれかについて治療効果が変化したとする（ステップＳ１２０４：Ｙｅｓ）。分析装置３００は、解析対象群（ｘ１＞０：Ｎｏ）を分岐条件（ｘ２＞０）で第３分岐群（ｘ２＞０：Ｙｅｓ）と第４分岐群（ｘ２＞０：Ｎｏ）とに分割する（ステップＳ１２０５）。

【0080】

また、分析装置３００は、解析対象群（ｘ１＞０：Ｎｏ）の実行ラベル［１２，Ｔｒｕｅ］を用いて、第３分岐群（ｘ２＞０：Ｙｅｓ）の実行ラベル［１２３，Ｆａｌｓｅ］と第４分岐群（ｘ２＞０：Ｎｏ）の実行ラベル［１２４，Ｆａｌｓｅ］とを生成する。

【0081】

第３分岐群（ｘ２＞０：Ｙｅｓ）はノード１００４に遷移する。ノード１００４には、分岐条件は存在しないため、分析装置３００は、第３分岐群（ｘ２＞０：Ｙｅｓ）については探索を終了して（ステップＳ１２０６：Ｙｅｓ）、その実行ラベル［１２３，Ｆａｌｓｅ］を実行ラベル［１２３，Ｔｒｕｅ］に更新する。

【0082】

同様に、第４分岐群（ｘ２＞０：Ｎｏ）はノード１００５に遷移する。ノード１００５には、分岐条件は存在しないため、分析装置３００は、第４分岐群（ｘ２＞０：Ｎｏ）については探索を終了して（ステップＳ１２０６：Ｙｅｓ）、その実行ラベル［１２４，Ｆａｌｓｅ］を実行ラベル［１２４，Ｔｒｕｅ］に更新する。

【0083】

そして、分析装置３００は、これまでに生成した実行ラベルと当該実行ラベルに対応する群、および、分割に用いられた分岐条件を、層別化結果として出力する。

【0084】

なお、図９のステップＳ９０３では、分析装置３００は、出力部４０３により、たとえば、初期の解析対象群から末端の分岐群までのツリー構造である因果木を層別化結果として出力する。このとき、層別化結果の各群の実行ラベルを、初期の解析対象群を開始位置として０から始まる昇順番号に振りなおしてもよい。

【0085】

このように、層別化処理（ステップＳ９０２）では、分岐で生じたそれぞれの分岐群に対して治療効果を最大化するような探索が実行され、治療効果が最大となる層別化が実現する。

【0086】

＜分岐条件探索処理（ステップＳ１００２）＞
図１３は、図１０に示した分岐条件探索処理（ステップＳ１００２）の詳細な処理手順例を示すフローチャートである。探索部４１１は、重みテーブル４３０から予測因子５０１の重み５０２を読み込む（ステップＳ１３０１）。

【0087】

つぎに、探索部４１１は、解析対象群から探索対象群を取得する（ステップＳ１３０２）。具体的には、たとえば、探索部４１１は、解析対象群をそのまま探索対象群としてもよく、解析対象群を訓練データと検証データとに分割してもよい。分割した場合、訓練データが探索対象群となり、検証データは、治療効果推定（ステップＳ１３０６）で用いられる。

【0088】

つぎに、探索部４１１は、探索対象群内の共変量である因子をランダムに選択して、選択した因子のリスト（因子リスト）を作成し（ステップＳ１３０３）、選択した因子の値のリスト（因子の値リスト）を作成する（ステップＳ１３０４）。因子リストは、年齢６７１、血圧６７３、ＥＧＦＲ６７４といった共変量となる因子を示すフィールドのリストである。因子リストに選択される因子群は、全因子よりも少ない数の因子群である。因果木は、因子リストごとに作成される。

【0089】

因子の値リストとは、年齢６７１、血圧６７３、ＥＧＦＲ６７４といった選択した因子の値（５６［歳］、６２［歳］、…、９０［ｍｌ］、１２７［ｍｌ］、…）を含むリストである。

【0090】

また、ステップＳ１３０４では、探索部４１１は、因子リストからあらかじめ設定された予測因子を特定し、特定した予測因子（以下、探索対象予測因子）の値を因子の値リストから抽出する。

【0091】

ステップＳ１３０１，Ｓ１３０３，Ｓ１３０４により、探索部４１１は、未選択の予測因子とその重みとを選択することになる。

【0092】

つぎに、探索部４１１は、探索対象予測因子を用いて、探索対象群を２分割する（ステップＳ１３０５）。このデータ分割は、図２に示した患者特性によりサブタイプＬ、Ｒに分割する処理である。ステップＳ１３１１，Ｓ１３１２から処理が戻ってくる都度、探索対象予測因子には、異なる予測因子が選択される。なお、分割した一方の群を、図２と同様、サブタイプＬと称し、他方の群をサブタイプＲと称す。

【0093】

つぎに、探索部４１１は、サブタイプＬ、Ｒの各々について、治療効果τを算出する（ステップＳ１３０６）。治療効果τは、下記式（２）により算出される。

【0094】

τ（ｌ）＝Ｅ［Ｙ｜Ｔ＝１］－Ｅ［Ｙ｜Ｔ＝０］・・・（２）

【0095】

サブタイプＬであればｌ＝Ｌ、サブタイプＲであればｌ＝Ｒとなる。Ｙはアウトカム（たとえば、イベント６０６）である。Ｔは、治療選択を示す２値の変数であり、Ｔ＝１は治療を選択した（処置６０５をした）ことを示し、Ｔ＝０は治療を選択しなかった（処置６０５をしなかった）ことを示す。また、Ｅ［］は、期待値計算演算子である。Ｅ［］は、たとえば、アウトカムＹの総和である。上記式（２）により、第２治療効果である治療効果τ（Ｌ）、τ（Ｒ）が算出される。治療効果τ（Ｌ）、τ（Ｒ）を区別しない場合は、τ（ｌ）（ただし、ｌ＝Ｌ、Ｒ）と表記する。

【0096】

つぎに、探索部４１１は、治療効果τ（Ｌ）、τ（Ｒ）を用いて、分割前後の損失関数を算出する（ステップＳ１３０７）。分割前の損失関数をＬｏｓｓＰｒｅとし、分割後の損失関数をＬｏｓｓＰｏｓｔとする。まず、分割前の損失関数ＬｏｓｓＰｒｅを下記式（３）に示す。

【0097】

【数2】

【0098】

上記式（３）において、右辺のＮは、探索対象群のサンプル数である。また、右辺のτは、第１治療効果である分割前の治療効果である。初回実行時には、親ノードにおける治療効果τが用いられる。ループの２回目以降は、前回の分割後の治療効果τ（ｌ）が、分割前の治療効果τになる。

【0099】

また、ｘは、予測因子５０１（ｘ１、ｘ２、…、ｘｉ、…、ｘｎ）のうち、ステップＳ１３０５で特定された探索対象予測因子である。Ｗ（ｘ）は、探索対象予測因子の重み５０２である。

【0100】

また、ステップＳ１３０２において、解析対象群が訓練データと検証データとに分割された場合、分割前の損失関数ＬｏｓｓＰｒｅは、上記式（３）に分散による罰則項が追加され、下記式（４）のようになる。

【0101】

【数3】

【0102】

上記式（４）の右辺のＮ_{ｔｒａｉｎ}は、訓練データのサンプル数、すなわち、探索対象群のサンプル数Ｎである。Ｎ_ｅｓｔは検証データのサンプル数である。Ｓ_Ｔ＝１は、探索対象群のうち治療選択Ｔ＝１に属するサンプルの分散であり、Ｓ_Ｔ＝０は、探索対象群のうち治療選択Ｔ＝０に属するサンプルの分散である。また、ｐは、探索対象群のうち治療選択Ｔ＝１に属するサンプル数の割合である。

【0103】

また、上記式（３）、（４）の右辺全体を探索対象群のサンプル数Ｎで割って規格化してもよい。

【0104】

つぎに、分割後の損失関数ＬｏｓｓＰｏｓｔを下記式（５）に示す。分割後の損失関数ＬｏｓｓＰｏｓｔは、推定した治療効果τ（ｌ）をそれぞれ最大化する損失関数である。

【0105】

【数4】

【0106】

上記式（５）において、右辺のＮ（ｌ）は、サブタイプｌのサンプル数である。上記式（３）、（４）の右辺全体が探索対象群のサンプル数Ｎで割って規格化されていれば、上記式（５）の右辺全体を探索対象群のサンプル数（サブタイプＬ、Ｒの総サンプル数）で割って規格化してもよい。また、ｖａｌは、因子ｘの範囲を区切るためのしきい値である。ｖａｌを使用せずに、Ｗ（ｘ）としてもよい。

【0107】

つぎに、探索部４１１は、分割前後の損失関数ＬｏｓｓＰｒｅ、ＬｏｓｓＰｏｓｔの差分Ｇａｉｎを算出する（ステップＳ１３０８）。差分Ｇａｉｎは、損失関数ＬｏｓｓＰｏｓｔが分割によって向上したかどうかを示す指標である。

【0108】

Ｇａｉｎ＝ＬｏｓｓＰｏｓｔ－ＬｏｓｓＰｒｅ・・・（６）

【0109】

つぎに、探索部４１１は、今回の差分Ｇａｉｎが保持中の差分Ｇａｉｎよりも大きいか否かを判定する（ステップＳ１３０９）。保持中の差分Ｇａｉｎとは、それ以前のループのステップＳ１３１０で保持されている差分Ｇａｉｎであり、目標値となる。ただし、初回実行時は、保持中の差分Ｇａｉｎが存在しないため、保持中の差分Ｇａｉｎの初期値として０が用いられる。

【0110】

今回の差分Ｇａｉｎが保持中の差分Ｇａｉｎよりも大きい場合（ステップＳ１３０９：Ｙｅｓ）、探索部４１１は、損失関数ＬｏｓｓＰｏｓｔで、今回適用した分割前の損失関数ＬｏｓｓＰｒｅを更新して、あらたな分割前の損失関数ＬｏｓｓＰｒｅとし、保持中の差分Ｇａｉｎを今回の差分Ｇａｉｎで更新し、ステップＳ１３０５の２分割を実行したときの分岐条件を取得する。このようにして、分岐条件が探索される。そして、ステップＳ１３１１に移行する。

【0111】

一方、今回の差分Ｇａｉｎが保持中の差分Ｇａｉｎよりも大きくない場合（ステップＳ１３０９：Ｎｏ）、探索部４１１は、分割前の損失関数ＬｏｓｓＰｒｅの更新と保持中の差分Ｇａｉｎの更新とをせずに、ステップＳ１３１１に移行する。

【0112】

つぎに、探索部４１１は、探索対象群の２分割（ステップＳ１３０５）が終了条件を充足したか否かを判定する（ステップＳ１３１１）。終了条件は、たとえば、探索対象として選択可能な予測因子５０１が残存していない場合である。探索対象群の２分割（ステップＳ１３０５）が終了条件を充足していない場合（ステップＳ１３０５：Ｎｏ）、すなわち、探索対象として選択可能な予測因子５０１が残存する場合、ステップＳ１３０４に戻る。この場合、探索部４１１は、ステップＳ１３０９で前回の差分より大きいと判定されたサブタイプＬ、Ｒの各々を、次の探索対象群に設定する。

【0113】

一方、終了条件を充足した場合（ステップＳ１３１１：Ｙｅｓ）、すなわち、探索対象として選択可能な予測因子５０１が残存しない場合、因果木が１つ作成されたことになり、探索部４１１は、作成した因果木を保存して、ステップＳ１３１２に移行する。

【0114】

つぎに、探索部４１１は、因果木作成の終了条件を充足したか否かを判定する（ステップＳ１３１２）。終了条件は、たとえば、因果木の数のしきい値である。終了条件を充足していない場合（ステップＳ１３１２：Ｎｏ）（作成済みの因果木の数がしきい値に到達していない場合）、ステップＳ１３０３に戻り、探索部４１１は、因子リストを再作成する。

【0115】

一方、終了条件を充足した場合（ステップＳ１３１２：Ｙｅｓ）、探索部４１１は、作成した因果木を出力して、ステップＳ１２０３に移行する。これにより、ステップＳ１３１２で設定されたしきい値分の因果木が作成される。因果木を構成するノード群のうち分岐先ノードを有するノードは、当該ノードで群分割したときに用いられた予測因子と分割しきい値とを含む。

【0116】

＜シミュレーション結果＞
つぎに、実施例１のシミュレーション結果について、図１４を用いて説明する。

【0117】

図１４は、従来法と実施例１との分割前と比較した予測誤差改善率を示す箱ひげ図である。従来法とは、上記式（３）、（５）からＷ（ｘ）を除いた式で予測誤差改善率を算出する方法である。

【0118】

Ｙ_ｊ＝η（ｘ_ｊ）＋Ｔ_ｊ・τ（ｘ_ｊ）・・・（７）

【0119】

上記式（７）は、アウトカムの算出式である。添え字ｊは患者ＩＤ６０１である。左辺のＹ_ｊは、患者ＩＤ６０１の値がｊの患者（以下、患者ｊ）のアウトカムである。η（ｘ_ｊ）は、患者ｊの予後因子ｘ_ｊによる治療に関係しない効果である。Ｔ_ｊは、患者ｊの治療選択Ｔ（＝０または１）である。τ（ｘ_ｊ）は、予測因子ｘ_ｊによる治療効果である。

【0120】

ここで、η（ｘ_ｊ）は、下記式（８）で表すこととする。

【0121】

【数5】

【0122】

また、τ（ｘ_ｊ）は、下記式（９）で表すこととする。

【0123】

【数6】

【0124】

上記式（８）および（９）は、シミュレーションによるデータ生成方法を示す式であり、図７に類するテーブルデータが作される。患者ｊのサンプル数ＮをＮ＝１０００とし、患者ｊの治療選択Ｔ_ｊはランダムとした。ここで、因子ｘ１～ｘ８のうち、因子ｘ１、ｘ２は、他の因子ｘ３～ｘ８に比べて、重み５０２の値が非常に大きいものとする。

【0125】

本シミュレーションでは、精度の評価としてＲＭＳＥ（二乗平均平方根誤差）を用いて、分割前後での予測誤差低減率を算出した。実施例１では、重み付けされているため、予測誤差改善率が向上し、かつ、変動係数（ＣＶ）が顕著に低減していることが確認できる。

【実施例0126】

つぎに、実施例２について説明する。実施例１では、重みテーブル４３０が存在することを前提に説明したが、実施例２は、分析装置３００が、重みテーブル４３０を生成する例である。すなわち、実施例２では、分析装置３００は、生成部４００により、患者データテーブル４２０を参照して、重みテーブル４３０を生成する。なお、実施例２では、実施例１との相違点を中心に説明するため、実施例１との共通部分については説明を省略する。

【0127】

図１５は、実施例２にかかる生成部４００による重みテーブル４３０の生成処理手順例を示すフローチャートである。生成部４００は、患者データテーブル４２０から患者データを規定するエントリをランダムサンプリングする（ステップＳ１５０１）。サンプリング数は、たとえば、患者データテーブル４２０の全サンプルの５０％、７０％など任意に設定される。また、生成部４００は、サンプリングされなかったサンプルを検証データとして用いてもよい。

【0128】

つぎに、生成部４００は、ステップＳ１５０１でサンプリングされたサンプル群を層別化部４０２に出力し、層別化部４０２から図１２に示した層別化処理（ステップＳ９０２）を呼び出して実行する（ステップＳ９０２）。

【0129】

つぎに、生成部４００は、層別化処理（ステップＳ９０２）による層別化結果である各分岐群から、分割に用いられた予測因子５０１ごとに、予測因子５０１の値とその分割しきい値とを取得する（ステップＳ１５０３）。

【0130】

このあと、生成部４００は、終了条件を充足したか否かを判定する（ステップＳ１５０４）。終了条件は、具体的には、たとえば、ステップＳ１５０１～Ｓ１５０３の実行回数が所定回数に到達した場合である。終了条件を充足していない場合（ステップＳ１５０４：Ｎｏ）、すなわち、ステップＳ１５０１～Ｓ１５０３の実行回数が所定回数に未到達である場合、ステップＳ１５０１に戻る。一方、終了条件を充足した場合（ステップＳ１５０４：Ｙｅｓ）、すなわち、ステップＳ１５０１～Ｓ１５０３の実行回数が所定回数に到達した場合、予測因子５０１ごとに重み５０２を算出して、重みテーブル４３０に保存する（ステップＳ１５０５）。

【0131】

具体的には、たとえば、生成部４００は、予測因子５０１ごとに、予測因子５０１の値と分割しきい値との統計量を算出し、算出した値を重み５０２とする。より具体的には、たとえば、予測因子５０１の値のうち最大値と分割しきい値との差を重み５０２としてもよく、予測因子５０１の値のうち中央値と分割しきい値との差を重み５０２としてもよく、予測因子５０１の値のうち最頻値と分割しきい値との差を重み５０２としてもよく、予測因子５０１の値の平均値と分割しきい値との差を重み５０２としてもよい。また、予測因子５０１の値の出現数でもよい。

【0132】

このようにして、分析装置３００は、重みを医学知識として自動学習する。したがって、分岐条件として用いられる予測因子ほど重み５０２を大きくすることができ、治療効果の推定精度の向上を図ることができる。

【0133】

なお、上述した層別化処理（ステップＳ９０２）は、図９でも適用されるため、図９で層別化処理（ステップＳ９０２）が実行された場合に、生成部４００は、その層別化結果を用いて、重みテーブル４３０を更新してもよい。これにより、分析装置３００で分析すればするほど重みテーブル４３０の信頼性が向上し、治療効果の推定精度が向上する。

【0134】

また、実施例１においては、任意に作成された重みテーブル４３０を適用したが、実施例２では、分析装置３００以外の生成部４００を有するコンピュータが、実施例２による生成処理で重みテーブル４３０を生成し、分析装置３００が当該コンピュータから重みテーブル４３０を取得してもよい。

【実施例0135】

つぎに、実施例３について説明する。実施例１では、重みテーブル４３０が存在することを前提に説明したが、実施例３は、分析装置３００が、重みテーブル４３０を生成する例である。すなわち、実施例３では、分析装置３００は、生成部４００により、ＰｕｂＭｅｄのような医学文献データベースを参照して、重みテーブル４３０を生成する。なお、実施例３では、実施例１との相違点を中心に説明するため、実施例１との共通部分については説明を省略する。

【0136】

具体的には、たとえば、分析装置３００は、生成部４００により、医学文献データベースに対しアブストラクト検索を実行し、関連語句の出現率を統計処理し、その統計処理結果を予測因子５０１の重み５０２に設定する。このようにして、分析装置３００は、医学知識を自動学習する。

【0137】

図１６は、医学文献データベースからの検索結果を示すヒストグラムである。ヒストグラム１６００の縦軸は、検索キーワードにより検索された文に含まれている因子の列である。検索キーワードには、たとえば、リスク因子の名称が用いられる。また、検索キーワードには、「ｃａｕｓｅ」や「ｒｅｌａｔｅ」といった転帰に関する接続詞を含めてもよい。

【0138】

図１６の横軸は、因子の重み５０２である。生成部４００は、重み５０２の値を、検索キーワードにより検索された文中の、検索キーワードの出現回数や検索キーワードにより検索された文の数が多ければ多いほど、値が高くなるように算出される。ただし、検索キーワードにより検索された文に、「ｎｏｔ」のような否定語が含まれていれば、生成部４００は、重み５０２の値が高くしない、または、低くなるように算出する。

【0139】

生成部４００は、重み５０２の値が所定のしきい値以下、または、上位ｋ＋１番目以下の因子を除外し、重み５０２の値が所定のしきい値より大きい、または、上位ｋ番目までの因子を予測因子５０１として、重み５０２とともに重みテーブル４３０に保存する。

【0140】

図１７は、実施例３にかかる重みテーブル４３０の生成処理手順例を示すフローチャートである。生成部４００は、ユーザ操作により検索キーワードを設定する（ステップＳ１７０１）。つぎに、生成部４００は、医学文献データベースに検索キーワードを送信して、医学文献データベースの各文献のアブストラクトを検索し、医学文献データベースから、検索キーワードに該当する文献のアブストラクトを取得する（ステップＳ１７０２）。

【0141】

つぎに、生成部４００は、ステップＳ１７０２で取得したアブストラクトを、検索キーワードに含まれている因子で検索し、当該因子を含む文章を抽出する（ステップＳ１７０３）。

【0142】

つぎに、生成部４００は、ステップＳ１７０３で抽出した文章を、転帰に関する接続詞（たとえば、「ｃａｕｓｅ」や「ｒｅｌａｔｅ」）で検索し、当該接続詞を含む文章について、肯定関係カウントＣｐｏｓをインクリメントする。肯定関係カウントＣｐｏｓは、因子と接続詞との関係が肯定を示す文章に関する評価値であり、カウント値が高いほど重み５０２が大きくなる。一方、転帰に関する接続詞で検索された文章に「ｎｏｔ」のような否定語が含まれている場合、生成部４００は、否定関係カウントＣｎｅｇをインクリメントする。

【0143】

つぎに、生成部４００は、因子ごとに重み５０２を算出する（ステップＳ１７０５）。重み５０２（ｗ）は、たとえば、下記式（１０）により算出される。

【0144】

ｗ＝Ｃｐｏｓ／Ｃｐｏｓ・・・（１０）

【0145】

なお、分母の否定関係カウントＣｎｅｇが一度もカウントされないとＣｎｅｇ＝０となって計算不能となるため、Ｃｎｅｇ＝０の場合でも式（１０）の分母が０にならないよう式（１）を修正してもよい。

【0146】

つぎに、生成部４００は、算出した重み５０２を重みテーブル４３０に保存する（ステップＳ１７０６）。

【0147】

このあと、生成部４００は、終了条件を充足したか否かを判定する（ステップＳ１７０４）。終了条件は、具体的には、たとえば、ステップＳ１７０３で検索された因子について、すべて重み５０２が算出済みである場合である。重み５０２が算出されていない因子があれば（ステップＳ１７０７：Ｎｏ）、ステップＳ１７０３に戻る。一方、重み５０２が算出されていない因子がなければ（ステップＳ１７０７：Ｙｅｓ）、生成部４００は、一例の処理を終了する。

【0148】

このようにして、分析装置３００は、医学知識を重みとして自動学習する。したがって、医学文献データベースから検索される因子ほど重み５０２が大きくなり、医学文献から医学的根拠がある因子と予測因子とした場合に、治療効果の推定精度の向上を図ることができる。

【0149】

なお、実施例３では、医学文献のアブストラクトを検索対象としたため、医学文献そのものを検索対象とするよりも重みテーブル４３０の生成処理の高速化を図ることができる。一方、生成部４００は、医学文献そのものを検索対象としてもよい。これにより、医学文献のアブストラクトを検索対象とするよりも重み５０２の信頼性が向上し、治療効果の推定精度が向上する。

【0150】

また、実施例１においては、任意に作成された重みテーブル４３０を適用したが、実施例１では、分析装置３００以外の生成部４００を有するコンピュータが、実施例３による生成処理で重みテーブル４３０を生成し、分析装置３００が当該コンピュータから重みテーブル４３０を取得してもよい。

【0151】

以上説明したように、上述した分析装置３００によれば、事前に経験知や医学文献から推察される予測因子に対して重み付けを行うことにより、治療効果に寄与する因子で患者を層別化する場合の分類精度が向上する。したがって、治療効果の推定精度が向上し、より正しい患者層別化を実現することができる。

【0152】

このように、分析装置３００は、直接的に患者特性に応じた推定治療効果に基づき患者をサブタイプに分類することができる。したがって、層別化された患者グループは治療効果が異なるサブタイプとして分類され、患者個人の特性に合った最適治療選択に寄与するものと期待される。よって、ある薬剤による治療効果が期待できるサブタイプを特定するが可能になる。

【0153】

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。

【0154】

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、たとえば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

【0155】

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カード、ＳＤカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）の記録媒体に格納することができる。

【0156】

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。