特開2024-157876 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立ハイテクノロジーズの特許一覧

特開2024-157876情報処理システム、及び情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3
4
5
6
7A
7B
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024157876

(43)【公開日】2024-11-08

(54)【発明の名称】情報処理システム、及び情報処理方法

(51)【国際特許分類】

G06N 20/20 20190101AFI20241031BHJP

【ＦＩ】

G06N20/20

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2023072502

(22)【出願日】2023-04-26

(71)【出願人】

【識別番号】501387839

【氏名又は名称】株式会社日立ハイテク

(74)【代理人】

【識別番号】110000350

【氏名又は名称】ポレール弁理士法人

(72)【発明者】

【氏名】中川瞬希

(72)【発明者】

【氏名】竹内渉

(57)【要約】

【課題】施設間でデータ特性に差異がある場合にも頑健に予測することができる情報処理システムを提供する。
【解決手段】本発明の情報処理システムは、分析対象に関連した異なる対象から収集した複数の学習用データ群から、各々の対象に対応する複数の弱学習器を生成する弱学習器生成部と、複数の学習用データ群から、各々に対応する複数の弱学習器に対する予測値のカットオフ値を算出するカットオフ値計算部と、生成した複数の弱学習器によって、分析対象の予測用データを用いて算出した予測値と、対応するカットオフ値とを比較分析し、その結果に応じて分析対象の予測値を算出するアンサンブル計算部と、を有する構成とした。
【選択図】図１

【特許請求の範囲】

【請求項1】

分析対象の予測値を算出する情報処理システムであって、
前記分析対象に関連した異なる対象から収集した複数の学習用データ群から、各々の対象に対応する複数の弱学習器を生成する弱学習器生成部と、
前記複数の学習用データ群から、各々に対応する複数の前記弱学習器に対する予測値のカットオフ値を算出するカットオフ値計算部と、
前記生成した複数の弱学習器によって、前記分析対象の予測用データを用いて算出した予測値と、対応する前記カットオフ値とを比較分析し、その結果に応じて前記分析対象の予測値を算出するアンサンブル計算部と、
を有することを特徴とする情報処理システム。

【請求項2】

請求項１に記載の情報処理システムであって、
前記カットオフ値計算部は、複数の前記弱学習器毎に対応する前記学習用データ群に対してＲＯＣ解析を実施し、前記弱学習器の分類性能を最大化する閾値を前記弱学習器のカットオフ値として算出する、
ことを特徴とする情報処理システム。

【請求項3】

請求項１または２に記載の情報処理システムであって、
前記アンサンブル計算部は、複数の前記弱学習器における予測値と、対応する前記カットオフ値との大小関係によって異なる統計値を算出する、
ことを特徴とする情報処理システム。

【請求項4】

請求項３に記載の情報処理システムであって、
前記アンサンブル計算部は、
（１）複数の前記弱学習器の各々の予測値がいずれも対応する前記カットオフ値以上であった場合、前記弱学習器の各々の予測値の中で最大のものを前記分析対象の予測値として算出し、
（２）複数の前記弱学習器の各々の予測値がいずれも対応する前記カットオフ値未満であった場合、前記弱学習器の各々の予測値の中で最小のものを前記分析対象の予測値として算出し、
（３）複数の前記弱学習器における予測値と対応する前記カットオフ値の大小関係が、複数の前記弱学習器の間で異なる場合、複数の前記弱学習器の各々の予測値の平均値を前記分析対象の予測値として算出する、
ことを特徴とする情報処理システム。

【請求項5】

請求項４に記載の情報処理システムであって、
前記算出した前記分析対象の予測値のグラフを表示する出力部を有する、
ことを特徴とする情報処理システム。

【請求項6】

請求項５に記載の情報処理システムであって、
前記出力部は、前記分析対象の予測用データを入力して予測結果を表示する、
ことを特徴とする情報処理システム。

【請求項7】

分析対象の予測値を算出する情報処理方法であって、
前記分析対象に関連した異なる対象から収集した複数の学習用データ群から、各々の対象に対応する複数の弱学習器を生成し、
前記複数の学習用データ群から、各々に対応する複数の前記弱学習器に対する予測値のカットオフ値を算出し、
前記生成した複数の弱学習器によって、前記分析対象の予測用データを用いて算出した予測値と、対応する前記カットオフ値とを比較分析し、その結果に応じて前記分析対象の予測値を算出する、
ことを特徴とする情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、弱学習器を用いたアンサンブル計算により予測を行う情報処理システムに関する。

【背景技術】

【0002】

機械学習においては、施設間で対象集団のデータ特性に差異があった場合、単一施設のデータを学習した予測モデルを他施設のデータに適用すると、予測の頑健性が弱まる可能性がある。このとき、各施設のデータにより生成される予測モデルを弱学習器とし、各弱学習器の予測値に対してアンサンブル計算を行う場合がある。

【0003】

特許文献１には、各弱学習器の予測値に対してゲートアンサンブル重みの情報を用いてアンサンブル計算することで、少ないデータセットでも精度良く希少事象の確率を推定することが記載されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２１－１７４３３０号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

予測の頑健性を向上するためには、各弱学習器の特性に鑑みて、個々のサンプルに適したアンサンブル計算を行う必要がある。例えば、陽性または陰性といった疾病発症の有無を予測する場合、性別、年齢構成や発症率等のデータ特性に施設間で差異があるため、施設によっては、陽性の予測が優れた弱学習器や、陰性の予測が優れた弱学習器など、特性が異なる弱学習器が生成されうる。

【0006】

そのため予測においては、各弱学習器の予測値に対して一律に平均値等のアンサンブル計算を行うのではなく、陽性の可能性が高いサンプルについては陽性の予測が優れた弱学習器の予測値を採用するなど、個々のサンプルに応じたアンサンブル計算を行うことが望ましい。

【課題を解決するための手段】

【0007】

上記課題を解決するため、本発明の情報処理システムは、分析対象に関連した異なる対象から収集した複数の学習用データ群から、各々の対象に対応する複数の弱学習器を生成する弱学習器生成部と、複数の学習用データ群から、各々に対応する複数の弱学習器に対する予測値のカットオフ値を算出するカットオフ値計算部と、生成した複数の弱学習器によって、分析対象の予測用データを用いて算出した予測値と、対応するカットオフ値とを比較分析し、その結果に応じて分析対象の予測値を算出するアンサンブル計算部と、を有する構成とした。

【発明の効果】

【0008】

本発明の一形態によれば、弱学習器によるアンサンブル計算による予測において施設間でデータ特性に差異がある場合にも頑健に予測することができる。

【図面の簡単な説明】

【0009】

【図1】本発明の実施形態の情報処理システムのハードウェア構成を示すブロック図である。

【図2A】本発明の実施形態の学習用データ記憶部１１２に格納されるデータの構成を説明する図である。

【図2B】本発明の実施形態の予測用データ記憶部１１３に格納されるデータの構成を説明する図である。

【図3】本発明の実施形態の弱学習器生成処理のフローチャートである。

【図4】本発明の実施形態のカットオフ値計算処理のフローチャートである。

【図5】本発明の実施形態のカットオフ値計算処理において作成するカットオフ値の例である。

【図6】本発明の実施形態のアンサンブル計算処理のフローチャートである。

【図7A】本発明の実施形態のアンサンブル計算処理において作成するアンサンブル計算結果である。

【図7B】本発明の実施形態のアンサンブル計算処理方法をＸＹ軸上で説明した図である。

【図8】本発明の実施形態の出力処理のフローチャートである。

【図9】本発明の実施形態の出力処理において出力する表示画面例である。

【発明を実施するための形態】

【0010】

＜実施形態の概要＞
本発明の実施形態では、２つの施設のデータを学習して弱学習器を生成し、疾病発症の有無等の２クラス分類問題として予測する場合を例に説明する。各弱学習器は分類性能を最大化するカットオフ値を算出し、カットオフ値に基づいて個々のサンプルデータや弱学習器の予測値に応じたアンサンブル計算を行う。

【実施例0011】

図１は、本実施例の情報処理システムのハードウェア構成を示すブロック図であり、情報処理システムは、サーバ１０１及びデータベース１０２を備える。サーバ１０１とデータベース１０２とは、サーバ１０１がデータベース１０２に格納されたデータにアクセス可能なように接続される。

【0012】

サーバ１０１は、入力装置１０３、出力装置１０４、プログラムを実行する演算装置１０５、プログラムを格納するメモリ１０６及び記憶装置１０７を有する計算機である。ここで、入力装置１０３は、マウス及びキーボードなどであり、サーバ１０１への入力を受け付けるインターフェースである。出力装置１０４は、ディスプレイ装置及びプリンタなどであり、演算装置１０５の演算結果を出力する。

【0013】

演算装置１０５は、ＣＰＵ及びＧＰＵなどであり、メモリ１０６にロードされたプログラムを実行する。メモリ１０６は、不揮発性記憶素子であるＲＯＭ及び揮発性記憶素子であるＲＡＭを含む。ＲＯＭは、不変のプログラム（例えば、ＢＩＯＳ）などを格納する。ＲＡＭは、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような高速かつ揮発性記憶素子であり、記憶装置１０７に格納されたプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。

【0014】

記憶装置１０７は、磁気記憶装置（ＨＤＤ）及びフラッシュメモリ（ＳＳＤ）などの不揮発性記憶装置であり、演算装置１０５によって実行されるプログラム及びプログラム実行時に使用されるデータを格納する。

【0015】

具体的には、記憶装置１０７は、弱学習器生成部１０８、カットオフ値計算部１０９、アンサンブル計算部１１０、出力部１１１の各部を実装するためのプログラムを格納する。ここで、弱学習器生成部１０８は、後述する図３に示すように、所定のプログラムの実行によって、各施設の学習用データから弱学習器となる予測モデルを生成する。
カットオフ値計算部１０９は、後述する図４に示すように、所定のプログラムの実行によって、各弱学習器に対するカットオフ値を算出する。
アンサンブル計算部１１０は、後述する図６に示すように、所定のプログラムの実行によって、各弱学習器の予測値とカットオフ値に応じてアンサンブル計算結果を算出する。
出力部１１１は、後述する図８に示すように、所定のプログラムの実行によって、予測用データに対する予測値を出力する。

【0016】

データベース１０２は、サーバ１０１が分析するためのデータ、すなわち、学習用データ記憶部１１２（図２Ａ参照）、予測用データ記憶部１１３（図２Ｂ参照）を格納する。
図２Ａは、本実施例の学習用データ記憶部１１２に格納される各施設の学習用データの構成を説明する図である。学習用データは、分析対象者ＩＤ２０１、変数Ａ２０２～変数Ｄ２０５、及び変数Ｙ２０６のデータを含む。ここで、分析対象者ＩＤ２０１は、分析対象者を一意に識別する識別子である。変数Ａ２０２～変数Ｄ２０５は、分析対象者に関する説明変数であって、分析対象者の性別や年齢層、各種検査結果などである。また、変数Ｙ２０６は目的変数であって、例えば、疾病発症の有無を目的変数とした場合、分析対象者が疾病を発症しなかった場合は陰性であるため０、発症した場合は陽性であるため１である。なお、本実施例では、２つの異なる施設を想定しているため、図２Ａに示す学習用データは施設ごとに異なるテーブルを用意してもよいし、一つのテーブルに施設名等を追加して施設の相違がわかるようにしてもよい。

【0017】

図２Ｂは、本実施例の予測用データ記憶部１１３に格納される、分析対象者の予測に用いる予測用データの構成を説明する図である。ここで、分析対象者ＩＤ２０１Ｂは、分析対象者を一意に識別する識別子である。変数Ａ２０２Ｂ～変数Ｄ２０５Ｂは、分析対象者の性別や年齢層、各種検査結果などであり、本実施例において予測処理を行う場合の入力値となりうるものである。また、学習用データ記憶部１１２（図２Ａ）とは、テーブルの内容としては目的変数Ｙ２０６に相当する項目が存在しない点で異なっている。

【0018】

図３は、本実施例の弱学習器生成処理のフローチャートであり、この弱学習器生成処理は、サーバ１０１の弱学習器生成部１０８によって実行される。
まず、各施設の学習用データを取得する（Ｓ３０１）。学習用データは、学習用データ記憶部１１２から取得する。次に、機械学習により、各施設の学習用データから弱学習器となる予測モデルを生成し（Ｓ３０２）、この処理を終了する。このとき、各施設の学習用データによって異なる機械学習アルゴリズムを用いてもよい。

【0019】

図４は、本実施例のカットオフ値計算処理のフローチャートであり、このカットオフ値計算処理は、サーバ１０１のカットオフ値計算部１０９によって実行される。
まず、各施設の学習用データ及び弱学習器を取得する（Ｓ４０１）。学習用データは、学習用データ記憶部１１２から取得する。また、弱学習器は、弱学習器生成処理によって生成されている。次に、弱学習器毎に、学習用データに対してＲＯＣ（ＲｅｃｅｉｖｅｒＯｐｅｒａｔｉｎｇＣｈａｒａｃｔｅｒｉｓｔｉｃ）解析を実施する（Ｓ４０２）。例えば、予測値の範囲が０～１であった場合、予測対象が陰性または陽性であるかを分類する閾値を０～１の間で動かし、各閾値における真陽性率（感度）と偽陽性率（１－特異度）をそれぞれ算出する。

【0020】

次に、ＲＯＣ解析結果から、弱学習器毎にカットオフ値を算出し（Ｓ４０３）、この処理を終了する。具体的には、学習用データに対する弱学習器の分類性能を最大化するため、Ｙｏｕｄｅｎ’ｓｉｎｄｅｘ（感度＋特異度－１）が最大となる閾値をカットオフ値とする。このとき、他の方法を用いてカットオフ値を算出してもよい。例えば、縦軸を真陽性率（感度）、横軸を偽陽性率（１－特異度）としたＲＯＣ曲線を描画し、感度＝１及び特異度＝１である座標とＲＯＣ曲線の距離が最小となる座標の閾値をカットオフ値としてもよい。これにより、各弱学習器において、分析対象者の予測値が陰性または陽性のいずれかの可能性が高いかを識別することができる。

【0021】

図５は、図４のステップＳ４０３において生成されたカットオフ値の例である。ここで、弱学習器５０１は、各施設の学習用データにより生成された弱学習器であり、本実施例では弱学習器１と弱学習器２の２個の弱学習器が生成されている。カットオフ値５０２は、各弱学習器に対して算出されたカットオフ値である。

【0022】

図６は、本実施例のアンサンブル計算処理のフローチャートであり、このアンサンブル計算処理は、サーバ１０１のアンサンブル計算部１１０によって実行される。
まず、各施設の弱学習器による予測値及びカットオフ値を取得する（Ｓ６０１）。すなわち、弱学習器は、前述した弱学習器生成処理（図３）によって生成されており、予測用データ記憶部１１３に記録されている予測用データを用いて分析対象者の予測値（例えば、陽性：１、陰性：０）を算出する。また、カットオフ値は、前述したカットオフ値計算処理（図４）によって生成されている。

【0023】

次に、各弱学習器の予測値とカットオフ値を突合する（Ｓ６０２）。予測値とカットオフ値の大小関係によって異なる統計処理を行って最終的な予測値を算出し（Ｓ６０３）、この処理を終了する。具体的には、
（１）各弱学習器の各々の予測値がいずれもカットオフ値以上であった場合、各弱学習器が陽性と予測する傾向にあることから、各弱学習器の各々の予測値の中で最大のものをアンサンブル計算による予測値として算出する。
（２）各弱学習器の各々の予測値がいずれもカットオフ値未満であった場合、各弱学習器が陰性と予測する傾向にあることから、各弱学習器の各々の予測値の中で最小のものをアンサンブル計算による予測値として算出する。
（３）各弱学習器において予測値とカットオフ値の大小関係が異なる場合、つまり、一方の弱学習器による予測値がカットオフ値以上であり、他方のの弱学習器による予測値がカットオフ値未満であるような場合、一方の弱学習器が陽性と予測し、他方の弱学習器が陰性と予測する傾向にあることから、各弱学習器の各々の予測値の平均値を計算し、アンサンブル計算による予測として算出する。

【0024】

図７Ａは、上述した図６のステップＳ６０３において生成するアンサンブル計算の一例である。弱学習器１の予測値７０１及び弱学習器２の予測値７０２は、分析対象者に対して各弱学習器がそれぞれ算出した予測値である。弱学習器１のカットオフ値７０３及び弱学習器２のカットオフ値７０４は、各弱学習器に対するカットオフ値である。アンサンブル計算結果７０５は、各弱学習器の予測値とカットオフ値に基づいたアンサンブル計算によって算出した予測値である。

【0025】

例えば、分析対象者ＩＤ７００がＰ００１であるレコードに着目すると、弱学習器１の予測値７０１（＝０．８）は弱学習器1のカットオフ値７０３（＝０．４）以上、かつ、弱学習器２の予測値７０２（＝０．７）は弱学習器２のカットオフ値７０４（＝０．６）以上であって、各弱学習器はいずれも陽性と予測する傾向にあることから、アンサンブル計算結果７０５は弱学習器１の予測値７０１と弱学習器２の予測値７０２との最大値である０．８となる。

【0026】

また、分析対象者ＩＤ７００がＰ００２であるレコードに着目すると、弱学習器１の予測値７０１（＝０．２）は弱学習器１のカットオフ値７０３（＝０．４）未満、かつ、弱学習器２の予測値７０２（＝０．１）は弱学習器２のカットオフ値７０４（＝０．６）未満であって、各弱学習器はいずれも陰性と予測する傾向にあることから、アンサンブル計算結果７０５は弱学習器１の予測値７０１と弱学習器２の予測値７０２との最小値である０．１となる。

【0027】

さらに、分析対象者ＩＤ７００がＰ００３であるレコードに着目すると、弱学習器１の予測値７０１（＝０．６）は弱学習器１のカットオフ値７０３（＝０．４）以上であり、一方、弱学習器２の予測値７０２（＝０．４）は弱学習器２のカットオフ値７０４（＝０．６）未満であって、各学習器において予測値とカットオフ値の大小関係が異なることから、アンサンブル計算結果７０５は弱学習器１の予測値７０１と弱学習器２の予測値７０２との平均値である０．５となる。

【0028】

図７Ｂは上述した計算例をＸＹ軸上の二次元グラフで説明したものであって、Ｘ軸は弱学習器１による予測値、Ｙ軸は弱学習器２による予測値として各分析対象者（Ｐ００１、Ｐ００２、Ｐ００３）についてプロットしたものである。また、各弱学習器のカットオフ値によって４個の領域（領域Ｉ７１０、領域ＩＩ７２０、領域ＩＩＩ７３０、領域ＩＶ７４０）に分割されている。

【0029】

領域Ｉ７１０にプロットされている分析対象者Ｐ００１は、各学習器で陽性の傾向を示しているため最大値０．８を採用する。領域ＩＩ７２０にプロットされている分析対象者Ｐ００２は、各学習器で陰性の傾向を示しているため最小値０．１を採用する。領域ＩＩＩ７３０にプロットされている分析対象者Ｐ００３は、各学習器で異なる傾向を示しているため両者の平均値０．５を採用する（領域ＩＶ７４０にプロットされた場合も同様）。

【0030】

これにより、陽性の可能性が高い分析対象者の予測値と、陰性の可能性が高い分析対象者の予測値がより分離されるため、陽性と陰性の識別能を向上することができる。

【0031】

図８は、本実施例の出力処理のフローチャートであり、この出力処理は、サーバ１０１の出力部１１１によって実行される。
まず、予測用データを取得する（Ｓ８０１）。予測用データは、入力装置１０３または予測用データ記憶部１１３（図２Ｂ）から取得される。次に、取得した予測用データを各弱学習器に入力し、アンサンブル計算処理（図６）において算出されるアンサンブル計算結果を最終的な予測値として出力し（Ｓ８０２）、この処理を終了する。

【0032】

図９は、本実施例の出力処理において出力する表示画面９００であり、出力装置１０４のディスプレイ等に表示される。表示画面は、グラフ表示エリア９０１及び予測分析エリア９０２で構成される。

【0033】

グラフ表示エリア９０１は、グラフ表示情報入力エリア９０３、グラフ表示実行ボタン９０４及び表示グラフ９０５で構成される。利用者がグラフ表示情報入力エリア９０３にて表示グラフ９０５の縦軸と横軸を設定する情報を入力し、グラフ表示実行ボタン９０４をクリックすることにより、表示グラフ９０５を出力することができる。

【0034】

表示グラフ９０５は、図７Ａ、図７Ｂのアンサンブル計算結果の可視化の例である。上述の通りグラフ表示情報入力エリア９０３においてグラフの横軸と縦軸を設定することにより、予測用データ記憶部１１３から入力された各分析対象者の予測用データに対する各弱学習器（弱学習器１、弱学習器２）の予測結果、及び、予測用データ母集団全体の陽性／陰性の傾向や分布を容易に確認することができる。また、図７Ｂと同様に、各分析対象者の予測結果のプロット付近に弱学習器１及び弱学習器２の予測結果（数値）を表示し、さらに、上述したアンサンブル計算方法による最終予測値も表示できるようにしてもよい。また、サンプルが多く予測値を全て表示すると画面上に重なって見えにくい場合は、プロットを利用者がマウス等でクリックした際にのみ、予測値が表示されるようにしてもよい。

【0035】

一方、予測分析エリア９０２は、利用者が他の分析対象者の予測用データを手動で入力して予測結果を取得するものであり、予測用データ入力エリア９０６、予測実行ボタン９０７及び予測結果９０８で構成される。利用者が予測用データ入力エリア９０６に分析対象者の予測用データを入力し、予測実行ボタン９０７をクリックすることにより、予測結果９０８を出力することができる。予測結果９０８は、各弱学習器の予測値、アンサンブル計算結果及びアンサンブル計算方法を提示する。これにより、予測において適用されたアンサンブル計算方法を確認することができる。

【0036】

以上に説明したように、本実施例では、各弱学習器において分類性能を最大化するカットオフ値を算出し、カットオフ値に基づいて個々のサンプルデータや弱学習器の予測値に応じたアンサンブル計算を行うことにより、施設間でデータ特性に差異がある場合にも頑健に予測することができる。

【0037】

なお、本実施例では、２つの施設のデータを学習して弱学習器を生成した場合を説明したが、３つ以上の施設のデータを用いてもよい。例えば、施設数をＮ（≧３）とすると、弱学習器及びカットオフ値はそれぞれＮ個生成されるが、アンサンブル計算処理においては次のようなアンサンブル計算を行ってもよい。すなわち、
（１）過半数の弱学習器の予測値がカットオフ値以上であれば、過半数の弱学習器が陽性と予測する傾向にあることから、各弱学習器の予測値の最大値をアンサンブル計算による予測値として算出する。
（２）過半数の弱学習器の予測値がカットオフ値未満であれば、過半数の弱学習器が陰性と予測する傾向にあることから、各弱学習器の予測値の最小値をアンサンブル計算による予測値として算出する。
（３）これら以外の場合は、陽性と予測する傾向にある弱学習器の数と、陰性と予測する傾向に弱学習器の数が等しいことから、各弱学習器の予測値の平均値をアンサンブル計算による予測値として算出する。
これにより、施設が多数ある場合にも頑健な予測が可能となる。

【符号の説明】

【0038】

１０１：サーバ
１０２：データベース
１０３：入力装置
１０４：出力装置
１０５：演算装置
１０６：メモリ
１０７：記憶装置
１０８：弱学習器生成部
１０９：カットオフ値計算部
１１０：アンサンブル計算部
１１１：出力部
１１２：学習用データ記憶部
１１３：予測用データ記憶部

【図1】