(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024157876
(43)【公開日】2024-11-08
(54)【発明の名称】情報処理システム、及び情報処理方法
(51)【国際特許分類】
G06N 20/20 20190101AFI20241031BHJP
【FI】
G06N20/20
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023072502
(22)【出願日】2023-04-26
(71)【出願人】
【識別番号】501387839
【氏名又は名称】株式会社日立ハイテク
(74)【代理人】
【識別番号】110000350
【氏名又は名称】ポレール弁理士法人
(72)【発明者】
【氏名】中川 瞬希
(72)【発明者】
【氏名】竹内 渉
(57)【要約】
【課題】施設間でデータ特性に差異がある場合にも頑健に予測することができる情報処理システムを提供する。
【解決手段】 本発明の情報処理システムは、分析対象に関連した異なる対象から収集した複数の学習用データ群から、各々の対象に対応する複数の弱学習器を生成する弱学習器生成部と、複数の学習用データ群から、各々に対応する複数の弱学習器に対する予測値のカットオフ値を算出するカットオフ値計算部と、生成した複数の弱学習器によって、分析対象の予測用データを用いて算出した予測値と、対応するカットオフ値とを比較分析し、その結果に応じて分析対象の予測値を算出するアンサンブル計算部と、を有する構成とした。
【選択図】
図1
【特許請求の範囲】
【請求項1】
分析対象の予測値を算出する情報処理システムであって、
前記分析対象に関連した異なる対象から収集した複数の学習用データ群から、各々の対象に対応する複数の弱学習器を生成する弱学習器生成部と、
前記複数の学習用データ群から、各々に対応する複数の前記弱学習器に対する予測値のカットオフ値を算出するカットオフ値計算部と、
前記生成した複数の弱学習器によって、前記分析対象の予測用データを用いて算出した予測値と、対応する前記カットオフ値とを比較分析し、その結果に応じて前記分析対象の予測値を算出するアンサンブル計算部と、
を有することを特徴とする情報処理システム。
【請求項2】
請求項1に記載の情報処理システムであって、
前記カットオフ値計算部は、複数の前記弱学習器毎に対応する前記学習用データ群に対してROC解析を実施し、前記弱学習器の分類性能を最大化する閾値を前記弱学習器のカットオフ値として算出する、
ことを特徴とする情報処理システム。
【請求項3】
請求項1または2に記載の情報処理システムであって、
前記アンサンブル計算部は、複数の前記弱学習器における予測値と、対応する前記カットオフ値との大小関係によって異なる統計値を算出する、
ことを特徴とする情報処理システム。
【請求項4】
請求項3に記載の情報処理システムであって、
前記アンサンブル計算部は、
(1)複数の前記弱学習器の各々の予測値がいずれも対応する前記カットオフ値以上であった場合、前記弱学習器の各々の予測値の中で最大のものを前記分析対象の予測値として算出し、
(2)複数の前記弱学習器の各々の予測値がいずれも対応する前記カットオフ値未満であった場合、前記弱学習器の各々の予測値の中で最小のものを前記分析対象の予測値として算出し、
(3)複数の前記弱学習器における予測値と対応する前記カットオフ値の大小関係が、複数の前記弱学習器の間で異なる場合、複数の前記弱学習器の各々の予測値の平均値を前記分析対象の予測値として算出する、
ことを特徴とする情報処理システム。
【請求項5】
請求項4に記載の情報処理システムであって、
前記算出した前記分析対象の予測値のグラフを表示する出力部を有する、
ことを特徴とする情報処理システム。
【請求項6】
請求項5に記載の情報処理システムであって、
前記出力部は、前記分析対象の予測用データを入力して予測結果を表示する、
ことを特徴とする情報処理システム。
【請求項7】
分析対象の予測値を算出する情報処理方法であって、
前記分析対象に関連した異なる対象から収集した複数の学習用データ群から、各々の対象に対応する複数の弱学習器を生成し、
前記複数の学習用データ群から、各々に対応する複数の前記弱学習器に対する予測値のカットオフ値を算出し、
前記生成した複数の弱学習器によって、前記分析対象の予測用データを用いて算出した予測値と、対応する前記カットオフ値とを比較分析し、その結果に応じて前記分析対象の予測値を算出する、
ことを特徴とする情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、弱学習器を用いたアンサンブル計算により予測を行う情報処理システムに関する。
【背景技術】
【0002】
機械学習においては、施設間で対象集団のデータ特性に差異があった場合、単一施設のデータを学習した予測モデルを他施設のデータに適用すると、予測の頑健性が弱まる可能性がある。このとき、各施設のデータにより生成される予測モデルを弱学習器とし、各弱学習器の予測値に対してアンサンブル計算を行う場合がある。
【0003】
特許文献1には、各弱学習器の予測値に対してゲートアンサンブル重みの情報を用いてアンサンブル計算することで、少ないデータセットでも精度良く希少事象の確率を推定することが記載されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
予測の頑健性を向上するためには、各弱学習器の特性に鑑みて、個々のサンプルに適したアンサンブル計算を行う必要がある。例えば、陽性または陰性といった疾病発症の有無を予測する場合、性別、年齢構成や発症率等のデータ特性に施設間で差異があるため、施設によっては、陽性の予測が優れた弱学習器や、陰性の予測が優れた弱学習器など、特性が異なる弱学習器が生成されうる。
【0006】
そのため予測においては、各弱学習器の予測値に対して一律に平均値等のアンサンブル計算を行うのではなく、陽性の可能性が高いサンプルについては陽性の予測が優れた弱学習器の予測値を採用するなど、個々のサンプルに応じたアンサンブル計算を行うことが望ましい。
【課題を解決するための手段】
【0007】
上記課題を解決するため、本発明の情報処理システムは、分析対象に関連した異なる対象から収集した複数の学習用データ群から、各々の対象に対応する複数の弱学習器を生成する弱学習器生成部と、複数の学習用データ群から、各々に対応する複数の弱学習器に対する予測値のカットオフ値を算出するカットオフ値計算部と、生成した複数の弱学習器によって、分析対象の予測用データを用いて算出した予測値と、対応するカットオフ値とを比較分析し、その結果に応じて分析対象の予測値を算出するアンサンブル計算部と、を有する構成とした。
【発明の効果】
【0008】
本発明の一形態によれば、弱学習器によるアンサンブル計算による予測において施設間でデータ特性に差異がある場合にも頑健に予測することができる。
【図面の簡単な説明】
【0009】
【
図1】本発明の実施形態の情報処理システムのハードウェア構成を示すブロック図である。
【
図2A】本発明の実施形態の学習用データ記憶部112に格納されるデータの構成を説明する図である。
【
図2B】本発明の実施形態の予測用データ記憶部113に格納されるデータの構成を説明する図である。
【
図3】本発明の実施形態の弱学習器生成処理のフローチャートである。
【
図4】本発明の実施形態のカットオフ値計算処理のフローチャートである。
【
図5】本発明の実施形態のカットオフ値計算処理において作成するカットオフ値の例である。
【
図6】本発明の実施形態のアンサンブル計算処理のフローチャートである。
【
図7A】本発明の実施形態のアンサンブル計算処理において作成するアンサンブル計算結果である。
【
図7B】本発明の実施形態のアンサンブル計算処理方法をXY軸上で説明した図である。
【
図8】本発明の実施形態の出力処理のフローチャートである。
【
図9】本発明の実施形態の出力処理において出力する表示画面例である。
【発明を実施するための形態】
【0010】
<実施形態の概要>
本発明の実施形態では、2つの施設のデータを学習して弱学習器を生成し、疾病発症の有無等の2クラス分類問題として予測する場合を例に説明する。各弱学習器は分類性能を最大化するカットオフ値を算出し、カットオフ値に基づいて個々のサンプルデータや弱学習器の予測値に応じたアンサンブル計算を行う。
【実施例0011】
図1は、本実施例の情報処理システムのハードウェア構成を示すブロック図であり、情報処理システムは、サーバ101及びデータベース102を備える。サーバ101とデータベース102とは、サーバ101がデータベース102に格納されたデータにアクセス可能なように接続される。
【0012】
サーバ101は、入力装置103、出力装置104、プログラムを実行する演算装置105、プログラムを格納するメモリ106及び記憶装置107を有する計算機である。ここで、入力装置103は、マウス及びキーボードなどであり、サーバ101への入力を受け付けるインターフェースである。出力装置104は、ディスプレイ装置及びプリンタなどであり、演算装置105の演算結果を出力する。
【0013】
演算装置105は、CPU及びGPUなどであり、メモリ106にロードされたプログラムを実行する。メモリ106は、不揮発性記憶素子であるROM及び揮発性記憶素子であるRAMを含む。ROMは、不変のプログラム(例えば、BIOS)などを格納する。RAMは、DRAM(Dynamic Random Access Memory)のような高速かつ揮発性記憶素子であり、記憶装置107に格納されたプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。
【0014】
記憶装置107は、磁気記憶装置(HDD)及びフラッシュメモリ(SSD)などの不揮発性記憶装置であり、演算装置105によって実行されるプログラム及びプログラム実行時に使用されるデータを格納する。
【0015】
具体的には、記憶装置107は、弱学習器生成部108、カットオフ値計算部109、アンサンブル計算部110、出力部111の各部を実装するためのプログラムを格納する。ここで、弱学習器生成部108は、後述する
図3に示すように、所定のプログラムの実行によって、各施設の学習用データから弱学習器となる予測モデルを生成する。
カットオフ値計算部109は、後述する
図4に示すように、所定のプログラムの実行によって、各弱学習器に対するカットオフ値を算出する。
アンサンブル計算部110は、後述する
図6に示すように、所定のプログラムの実行によって、各弱学習器の予測値とカットオフ値に応じてアンサンブル計算結果を算出する。
出力部111は、後述する
図8に示すように、所定のプログラムの実行によって、予測用データに対する予測値を出力する。
【0016】
データベース102は、サーバ101が分析するためのデータ、すなわち、学習用データ記憶部112(
図2A参照)、予測用データ記憶部113(
図2B参照)を格納する。
図2Aは、本実施例の学習用データ記憶部112に格納される各施設の学習用データの構成を説明する図である。学習用データは、分析対象者ID201、変数A202~変数D205、及び変数Y206のデータを含む。ここで、分析対象者ID201は、分析対象者を一意に識別する識別子である。変数A202~変数D205は、分析対象者に関する説明変数であって、分析対象者の性別や年齢層、各種検査結果などである。また、変数Y206は目的変数であって、例えば、疾病発症の有無を目的変数とした場合、分析対象者が疾病を発症しなかった場合は陰性であるため0、発症した場合は陽性であるため1である。なお、本実施例では、2つの異なる施設を想定しているため、
図2Aに示す学習用データは施設ごとに異なるテーブルを用意してもよいし、一つのテーブルに施設名等を追加して施設の相違がわかるようにしてもよい。
【0017】
図2Bは、本実施例の予測用データ記憶部113に格納される、分析対象者の予測に用いる予測用データの構成を説明する図である。ここで、分析対象者ID201Bは、分析対象者を一意に識別する識別子である。変数A202B~変数D205Bは、分析対象者の性別や年齢層、各種検査結果などであり、本実施例において予測処理を行う場合の入力値となりうるものである。また、学習用データ記憶部112(
図2A)とは、テーブルの内容としては目的変数Y206に相当する項目が存在しない点で異なっている。
【0018】
図3は、本実施例の弱学習器生成処理のフローチャートであり、 この弱学習器生成処理は、サーバ101の弱学習器生成部108によって実行される。
まず、各施設の学習用データを取得する(S301)。学習用データは、学習用データ記憶部112から取得する。次に、機械学習により、各施設の学習用データから弱学習器となる予測モデルを生成し(S302)、この処理を終了する。このとき、各施設の学習用データによって異なる機械学習アルゴリズムを用いてもよい。
【0019】
図4は、本実施例のカットオフ値計算処理のフローチャートであり、このカットオフ値計算処理は、サーバ101のカットオフ値計算部109によって実行される。
まず、各施設の学習用データ及び弱学習器を取得する(S401)。学習用データは、学習用データ記憶部112から取得する。また、弱学習器は、弱学習器生成処理によって生成されている。次に、弱学習器毎に、学習用データに対してROC(Receiver Operating Characteristic)解析を実施する(S402)。例えば、予測値の範囲が0~1であった場合、予測対象が陰性または陽性であるかを分類する閾値を0~1の間で動かし、各閾値における真陽性率(感度)と偽陽性率(1-特異度)をそれぞれ算出する。
【0020】
次に、ROC解析結果から、弱学習器毎にカットオフ値を算出し(S403)、この処理を終了する。具体的には、学習用データに対する弱学習器の分類性能を最大化するため、Youden’s index(感度+特異度-1)が最大となる閾値をカットオフ値とする。このとき、他の方法を用いてカットオフ値を算出してもよい。例えば、縦軸を真陽性率(感度)、横軸を偽陽性率(1-特異度)としたROC曲線を描画し、感度=1及び特異度=1である座標とROC曲線の距離が最小となる座標の閾値をカットオフ値としてもよい。これにより、各弱学習器において、分析対象者の予測値が陰性または陽性のいずれかの可能性が高いかを識別することができる。
【0021】
図5は、
図4のステップS403において生成されたカットオフ値の例である。ここで、弱学習器501は、各施設の学習用データにより生成された弱学習器であり、本実施例では弱学習器1と弱学習器2の2個の弱学習器が生成されている。カットオフ値502は、各弱学習器に対して算出されたカットオフ値である。
【0022】
図6は、本実施例のアンサンブル計算処理のフローチャートであり、このアンサンブル計算処理は、サーバ101のアンサンブル計算部110によって実行される。
まず、各施設の弱学習器による予測値及びカットオフ値を取得する(S601)。すなわち、弱学習器は、前述した弱学習器生成処理(
図3)によって生成されており、予測用データ記憶部113に記録されている予測用データを用いて分析対象者の予測値(例えば、陽性:1、陰性:0)を算出する。また、カットオフ値は、前述したカットオフ値計算処理(
図4)によって生成されている。
【0023】
次に、各弱学習器の予測値とカットオフ値を突合する(S602)。予測値とカットオフ値の大小関係によって異なる統計処理を行って最終的な予測値を算出し(S603)、この処理を終了する。具体的には、
(1)各弱学習器の各々の予測値がいずれもカットオフ値以上であった場合、各弱学習器が陽性と予測する傾向にあることから、各弱学習器の各々の予測値の中で最大のものをアンサンブル計算による予測値として算出する。
(2)各弱学習器の各々の予測値がいずれもカットオフ値未満であった場合、各弱学習器が陰性と予測する傾向にあることから、各弱学習器の各々の予測値の中で最小のものをアンサンブル計算による予測値として算出する。
(3)各弱学習器において予測値とカットオフ値の大小関係が異なる場合、つまり、一方の弱学習器による予測値がカットオフ値以上であり、他方のの弱学習器による予測値がカットオフ値未満であるような場合、一方の弱学習器が陽性と予測し、他方の弱学習器が陰性と予測する傾向にあることから、各弱学習器の各々の予測値の平均値を計算し、アンサンブル計算による予測として算出する。
【0024】
図7Aは、上述した
図6のステップS603において生成するアンサンブル計算の一例である。弱学習器1の予測値701及び弱学習器2の予測値702は、分析対象者に対して各弱学習器がそれぞれ算出した予測値である。弱学習器1のカットオフ値703及び弱学習器2のカットオフ値704は、各弱学習器に対するカットオフ値である。アンサンブル計算結果705は、各弱学習器の予測値とカットオフ値に基づいたアンサンブル計算によって算出した予測値である。
【0025】
例えば、分析対象者ID700がP001であるレコードに着目すると、弱学習器1の予測値701(=0.8)は弱学習器1のカットオフ値703(=0.4)以上、かつ、弱学習器2の予測値702(=0.7)は弱学習器2のカットオフ値704(=0.6)以上であって、各弱学習器はいずれも陽性と予測する傾向にあることから、アンサンブル計算結果705は弱学習器1の予測値701と弱学習器2の予測値702との最大値である0.8となる。
【0026】
また、分析対象者ID700がP002であるレコードに着目すると、弱学習器1の予測値701(=0.2)は弱学習器1のカットオフ値703(=0.4)未満、かつ、弱学習器2の予測値702(=0.1)は弱学習器2のカットオフ値704(=0.6)未満であって、各弱学習器はいずれも陰性と予測する傾向にあることから、アンサンブル計算結果705は弱学習器1の予測値701と弱学習器2の予測値702との最小値である0.1となる。
【0027】
さらに、分析対象者ID700がP003であるレコードに着目すると、弱学習器1の予測値701(=0.6)は弱学習器1のカットオフ値703(=0.4)以上であり、一方、弱学習器2の予測値702(=0.4)は弱学習器2のカットオフ値704(=0.6)未満であって、各学習器において予測値とカットオフ値の大小関係が異なることから、アンサンブル計算結果705は弱学習器1の予測値701と弱学習器2の予測値702との平均値である0.5となる。
【0028】
図7Bは上述した計算例をXY軸上の二次元グラフで説明したものであって、X軸は弱学習器1による予測値、Y軸は弱学習器2による予測値として各分析対象者(P001、P002、P003)についてプロットしたものである。また、各弱学習器のカットオフ値によって4個の領域(領域I710、領域II720、領域III730、領域IV740)に分割されている。
【0029】
領域I710にプロットされている分析対象者P001は、各学習器で陽性の傾向を示しているため最大値0.8を採用する。領域II720にプロットされている分析対象者P002は、各学習器で陰性の傾向を示しているため最小値0.1を採用する。領域III730にプロットされている分析対象者P003は、各学習器で異なる傾向を示しているため両者の平均値0.5を採用する(領域IV740にプロットされた場合も同様)。
【0030】
これにより、陽性の可能性が高い分析対象者の予測値と、陰性の可能性が高い分析対象者の予測値がより分離されるため、陽性と陰性の識別能を向上することができる。
【0031】
図8は、本実施例の出力処理のフローチャートであり、この出力処理は、サーバ101の出力部111によって実行される。
まず、予測用データを取得する(S801)。予測用データは、入力装置103または予測用データ記憶部113(
図2B)から取得される。次に、取得した予測用データを各弱学習器に入力し、アンサンブル計算処理(
図6)において算出されるアンサンブル計算結果を最終的な予測値として出力し(S802)、この処理を終了する。
【0032】
図9は、本実施例の出力処理において出力する表示画面900であり、出力装置104のディスプレイ等に表示される。表示画面は、グラフ表示エリア901及び予測分析エリア902で構成される。
【0033】
グラフ表示エリア901は、グラフ表示情報入力エリア903、グラフ表示実行ボタン904及び表示グラフ905で構成される。利用者がグラフ表示情報入力エリア903にて表示グラフ905の縦軸と横軸を設定する情報を入力し、グラフ表示実行ボタン904をクリックすることにより、表示グラフ905を出力することができる。
【0034】
表示グラフ905は、
図7A、
図7Bのアンサンブル計算結果の可視化の例である。上述の通りグラフ表示情報入力エリア903においてグラフの横軸と縦軸を設定することにより、予測用データ記憶部113から入力された各分析対象者の予測用データに対する各弱学習器(弱学習器1、弱学習器2)の予測結果、及び、予測用データ母集団全体の陽性/陰性の傾向や分布を容易に確認することができる。また、
図7Bと同様に、各分析対象者の予測結果のプロット付近に弱学習器1及び弱学習器2の予測結果(数値)を表示し、さらに、上述したアンサンブル計算方法による最終予測値も表示できるようにしてもよい。また、サンプルが多く予測値を全て表示すると画面上に重なって見えにくい場合は、プロットを利用者がマウス等でクリックした際にのみ、予測値が表示されるようにしてもよい。
【0035】
一方、予測分析エリア902は、利用者が他の分析対象者の予測用データを手動で入力して予測結果を取得するものであり、予測用データ入力エリア906、予測実行ボタン907及び予測結果908で構成される。利用者が予測用データ入力エリア906に分析対象者の予測用データを入力し、予測実行ボタン907をクリックすることにより、予測結果908を出力することができる。予測結果908は、各弱学習器の予測値、アンサンブル計算結果及びアンサンブル計算方法を提示する。これにより、予測において適用されたアンサンブル計算方法を確認することができる。
【0036】
以上に説明したように、本実施例では、各弱学習器において分類性能を最大化するカットオフ値を算出し、カットオフ値に基づいて個々のサンプルデータや弱学習器の予測値に応じたアンサンブル計算を行うことにより、施設間でデータ特性に差異がある場合にも頑健に予測することができる。
【0037】
なお、本実施例では、2つの施設のデータを学習して弱学習器を生成した場合を説明したが、3つ以上の施設のデータを用いてもよい。例えば、施設数をN(≧3)とすると、弱学習器及びカットオフ値はそれぞれN個生成されるが、アンサンブル計算処理においては次のようなアンサンブル計算を行ってもよい。すなわち、
(1)過半数の弱学習器の予測値がカットオフ値以上であれば、過半数の弱学習器が陽性と予測する傾向にあることから、各弱学習器の予測値の最大値をアンサンブル計算による予測値として算出する。
(2)過半数の弱学習器の予測値がカットオフ値未満であれば、過半数の弱学習器が陰性と予測する傾向にあることから、各弱学習器の予測値の最小値をアンサンブル計算による予測値として算出する。
(3)これら以外の場合は、陽性と予測する傾向にある弱学習器の数と、陰性と予測する傾向に弱学習器の数が等しいことから、各弱学習器の予測値の平均値をアンサンブル計算による予測値として算出する。
これにより、施設が多数ある場合にも頑健な予測が可能となる。