IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2023-124669情報処理装置、情報処理方法及び情報処理プログラム
<>
  • 特開-情報処理装置、情報処理方法及び情報処理プログラム 図1
  • 特開-情報処理装置、情報処理方法及び情報処理プログラム 図2
  • 特開-情報処理装置、情報処理方法及び情報処理プログラム 図3
  • 特開-情報処理装置、情報処理方法及び情報処理プログラム 図4
  • 特開-情報処理装置、情報処理方法及び情報処理プログラム 図5
  • 特開-情報処理装置、情報処理方法及び情報処理プログラム 図6
  • 特開-情報処理装置、情報処理方法及び情報処理プログラム 図7
  • 特開-情報処理装置、情報処理方法及び情報処理プログラム 図8
  • 特開-情報処理装置、情報処理方法及び情報処理プログラム 図9
  • 特開-情報処理装置、情報処理方法及び情報処理プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023124669
(43)【公開日】2023-09-06
(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20230830BHJP
【FI】
G06N20/00
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022028573
(22)【出願日】2022-02-25
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】中川 瞬希
(72)【発明者】
【氏名】竹内 渉
(57)【要約】
【課題】母集団から収集した偏りのある学習用データを簡便に修正し、修正後の学習用データを使用して、精度の高い数理モデルを機械学習する。
【解決手段】本発明の情報処理装置は、統計情報と同じ変数を有する同時分布情報を学習用データから作成する同時分布作成部と、前記作成した同時分布情報の標本が母集団としての前記統計情報に比して偏っている程度を、複数の前記変数の組み合わせごとに重みとして算出する重み算出部と、前記算出した重みに基づいて、前記学習用データを修正し、前記修正した学習用データを使用して予測モデルを学習する予測モデル作成部と、前記予測モデルを使用して予測用データに対する予測結果を出力する出力処理部と、を備えることを特徴とする。
【選択図】図1
【特許請求の範囲】
【請求項1】
統計情報と同じ変数を有する同時分布情報を学習用データから作成する同時分布作成部と、
前記作成した同時分布情報の標本が母集団としての前記統計情報に比して偏っている程度を、複数の前記変数の組み合わせごとに重みとして算出する重み算出部と、
前記算出した重みに基づいて、前記学習用データを修正し、
前記修正した学習用データを使用して予測モデルを学習する予測モデル作成部と、
前記予測モデルを使用して予測用データに対する予測結果を出力する出力処理部と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記統計情報は、
前記学習用データの標本が収集された施設を含む母集団から取得されたものであること、
を特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記予測モデル作成部は、
前記重みに基づいて、前記学習用データの標本をコピーすることによって前記学習用データの標本数を増やすこと、
を特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記予測モデル作成部は、
修正する前の前記学習用データを使用して第1の弱学習器を学習するとともに、
修正した後の前記学習用データを使用して第2の弱学習器を学習し、
前記第1の弱学習器及び前記第2の弱学習器を有するアンサンブルモデルを作成すること、
を特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記出力処理部は、
ユーザの選択に基づいて、前記第1の弱学習器のみを使用して、前記第2の弱学習器のみを使用して、又は、前記アンサンブルモデルを使用して前記予測結果を出力すること、
を特徴とする請求項4に記載の情報処理装置。
【請求項6】
前記出力処理部は、
前記統計情報の標本数及び前記学習用データの標本数を比較可能に図示すること、
を特徴とする請求項5に記載の情報処理装置。
【請求項7】
情報処理装置の同時分布作成部は、
統計情報と同じ変数を有する同時分布情報を学習用データから作成し、
前記情報処理装置の重み算出部は、
前記作成した同時分布情報の標本が母集団としての前記統計情報に比して偏っている程度を、複数の前記変数の組み合わせごとに重みとして算出し、
前記情報処理装置の予測モデル作成部は、
前記算出した重みに基づいて、前記学習用データを修正し、
前記修正した学習用データを使用して予測モデルを学習し、
前記情報処理装置の出力処理部は、
前記予測モデルを使用して予測用データに対する予測結果を出力すること、
を特徴とする情報処理装置の情報処理方法。
【請求項8】
コンピュータを、
統計情報と同じ変数を有する同時分布情報を学習用データから作成する同時分布作成部と、
前記作成した同時分布情報の標本が母集団としての前記統計情報に比して偏っている程度を、複数の前記変数の組み合わせごとに重みとして算出する重み算出部と、
前記算出した重みに基づいて、前記学習用データを修正し、
前記修正した学習用データを使用して予測モデルを学習する予測モデル作成部と、
前記予測モデルを使用して予測用データに対する予測結果を出力する出力処理部と、
して機能させるための情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
【背景技術】
【0002】
近時、様々な分野においてコンピュータが学習用データを使用して数理モデルを機械学習することが一般的になっている。機械学習において、数理モデルの係数(パラメータ)は最適化される。ユーザがある説明変数を機械学習済の数理モデルに入力すると、その数理モデルは、ユーザが期待する目的変数を出力する。ここで“ユーザが期待する目的変数”とは、“ユーザが経験的に正しいと評価できる”という意味である。
【0003】
人為的、社会的、時期的又は環境的な制約に起因して、母集団から得られた標本としての学習用データに偏り(バイアス)がある場合、数理モデルは、たとえ技術的に正しく機械学習が行われていても、ユーザが期待する目的変数を出力しなくなってしまう。そこで、機械学習済の数理モデルの係数を修正する必要が生じる。特許文献1の情報処理装置は、機械学習済の数理モデルの説明変数に対して乗算される係数の値を修正することにより、ユーザにとって違和感の少ない目的変数を数理モデルに出力させる旨を記載している。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2020-9502号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、機械学習済みの数理モデルの係数の値を修正するには、ユーザは、多くの係数のうちから修正すべき係数を選択し、さらにその係数の値を決定するという試行錯誤が必要になる。係数を事後的に修正することに代えて、学習用データ自身を母集団に対して偏りのないものに入れ替えて再度機械学習を行うことも一法である。しかしながら、フォーマット(変数)が同じ新たな学習用データをその母集団から収集することもまた、多大な手間と時間を要する。そして、新たに収集した学習用データにも他種の偏りがあるかも知れない。
そこで、本発明は、母集団から収集した偏りのある学習用データを簡便に修正し、修正後の学習用データを使用して、精度の高い数理モデルを機械学習することを目的とする。
【課題を解決するための手段】
【0006】
本発明の情報処理装置は、統計情報と同じ変数を有する同時分布情報を学習用データから作成する同時分布作成部と、前記作成した同時分布情報の標本が母集団としての前記統計情報に比して偏っている程度を、複数の前記変数の組み合わせごとに重みとして算出する重み算出部と、前記算出した重みに基づいて、前記学習用データを修正し、前記修正した学習用データを使用して予測モデルを学習する予測モデル作成部と、前記予測モデルを使用して予測用データに対する予測結果を出力する出力処理部と、を備えることを特徴とする。
その他の手段については、発明を実施するための形態のなかで説明する。
【発明の効果】
【0007】
本発明によれば、母集団から収集した偏りのある学習用データを簡便に修正し、修正後の学習用データを使用して、精度の高い数理モデルを機械学習することができる。
【図面の簡単な説明】
【0008】
図1】情報処理装置の構成等を説明する図である。
図2】学習用データの一例である。
図3】統計情報の一例である。
図4】同時分布情報の一例である。
図5】重み情報の一例である。
図6】同時分布作成処理手順のフローチャートである。
図7】重み算出処理手順のフローチャートである。
図8】予測モデル作成処理手順のフローチャートである。
図9】出力処理手順のフローチャートである。
図10】表示画面の一例である。
【発明を実施するための形態】
【0009】
以降、本発明を実施するための形態(“本実施形態”という)を、図等を参照しながら詳細に説明する。本実施形態は、単一の医療施設から収集された学習用データ、及び、国、自治体等が公表している統計情報を使用してその学習用データを修正する例である。しかしながら、本発明は、医療以外の分野についても一般的に適用可能である。
【0010】
(母集団及び標本)
本実施形態における母集団は、国、自治体等に居住する国民、地域住民等である。
本実施形態における標本(サンプル)は、国、自治体等に属する特定の医療施設における被験者(被検者)である。標本は、母集団の特性を正しく反映しているとは限らない。それぞれの医療施設は、例えば高齢者が多い、男性が少ない等の特性を不可避的に有する場合がある。このような特性に起因して、母集団の特性と標本の特性との間に乖離が生じる。この乖離は、”偏り”とも呼ばれる。
【0011】
(情報処理装置の構成等)
図1は、情報処理装置1の構成等を説明する図である。情報処理装置1は、一般的なコンピュータであり、中央制御装置11、マウス、キーボード等の入力装置12、ディスプレイ等の出力装置13、主記憶装置14、補助記憶装置15及び通信装置16を備える。これらは、バスで相互に接続されている。補助記憶装置15は、同時分布情報31、重み情報32及び予測モデル33を格納している。予測モデル33は、第1の弱学習器34及第2の弱学習器35を含む。
【0012】
一般に知られているように、“弱学習器”とは、単独の状態における予測精度が比較的低い数理モデルである。そして、複数の弱学習器から構成され、個々の弱学習器の出力を多数決した結果を出力する数理モデルは、アンサンブルモデルと呼ばれる。アンサンブルモデルの予測精度は、個々の弱学習器に比して高くなる。本実施形態の学習モデル33は、このようなアンサンブルモデルである。
【0013】
主記憶装置14における同時分布作成部21、重み算出部22、予測モデル作成部23及び出力処理部22は、プログラムである。中央制御装置11は、これらのプログラムを補助記憶装置15から主記憶装置14に読み出すことによって、それぞれのプログラムの機能(詳細後記)を実現する。
【0014】
情報処理装置1は、有線又は無線のネットワーク3を介して、データベース2に接続されている。データベース2は、学習用データ41、予測用データ42及び統計情報43(詳細後記)を格納する。データベース2は、例えば、統計情報43を格納する国、自治体等のデータベース、学習用データ41を格納する特定の医療施設のデータベース、及び、予測用データ43(詳細後記)を格納する他の医療施設のデータベース等に分かれていてもよい。
【0015】
(学習用データ)
図2は、学習用データ41の一例である。学習用データ41は、特定の単一の医療施設から収集される。学習用データ41においては、対象者ID欄101に記憶された対象者IDに関連付けて、イベント発生欄102にはイベント発生フラグが、年齢欄103には年齢が、性別欄104には性別が記憶されている。
【0016】
対象者ID欄101の対象者IDは、対象者を一意に特定する識別子である。対象者とは、単一の医療施設による特定の検査の被験者である。
イベント発生欄102のイベント発生フラグは、“0”又は“1”のいずれかである。“1”は、検査によって、対象者が特定の疾病に罹患していることが判明したことを示す。“0”は、検査によって、対象者が特定の疾病に罹患していないことが判明したことを示す。つまり、“イベント”は疾病に罹患することを示す。
年齢欄103の年齢は、対象者の年齢である。
性別欄104の性別は、対象者の性別である。
【0017】
(統計情報)
図3は、統計情報43の一例である。統計情報43は、国、自治体等が作成する行政資料(図示せず)から作成される。本実施形態が想定する行政資料は、国民又は地域住民の属性(イベント発生、年齢、性別、職業、住所、予防接種を受けた回数、…等の変数)を相互に関連付けた公開資料である。学習用データ41の標本が“一部”であるのに対し、行政資料の母集団は、その一部を含み、その一部よりはるかに広い“全体”である。そして、行政資料における属性は、多くの場合、学習用データ41における“イベント発生”、“年齢”及び“性別”以外の属性(変数)を含んでいる。
【0018】
統計情報43においては、イベント発生欄111に記憶されたイベント発生フラグに関連付けて、年齢欄112には年齢が、性別欄113には性別が、統計情報の例数欄114には統計情報の例数が記憶されている。
【0019】
イベント発生欄111のイベント発生フラグは、図2のイベント発生フラグと同じである。
年齢欄112の年齢は、行政資料が取り扱う国民等の年齢である。
性別欄113の性別は、行政資料が取り扱う国民等の性別である。
統計情報の例数欄114の統計情報の例数は、そのイベント発生、年齢及び性別の組合せに該当する国民等(母集団)の人数である。イベント発生、年齢及び性別の組合せは、学習用データ41(図2)の欄102~欄104に一致する。
【0020】
以上より明らかなように、統計情報43は、もとの行政資料の属性から学習用データに現れる属性以外のものを捨象したうえで集計したものである。
【0021】
(同時分布情報)
図4は、同時分布情報31の一例である。同時分布情報31においては、イベント発生欄121に記憶されたイベント発生フラグに関連付けて、年齢欄122には年齢が、性別欄123には性別が、学習用データの例数欄124には学習用データの例数が記憶されている。
【0022】
イベント発生欄121のイベント発生フラグは、図2のイベント発生フラグと同じである。
年齢欄122の年齢は、図2の年齢と同じである。
性別欄123の性別は、図2の性別と同じである。
学習用データの例数欄124の学習用データの例数は、そのイベント発生、年齢及び性別の組合せに該当する、学習用データ41(図2)の対象者(標本)の人数である。
【0023】
同時分布情報31の属性(同時に起きるイベント発生、年齢及び性別の組合せ)は、図3の統計情報43の属性と完全に一致している。同時分布情報31の各属性の値(“0”又は“1”の2値、年齢の範囲、“男”又は“女”の2値)もまた、統計情報43の各属性の値と完全に一致している。
【0024】
統計情報43(図3)の統計情報の例数、及び、同時分布情報31(図4)の学習用データの例数を比較すると、例えば以下のことがわかる。これらは、特定の医療施設から収集した学習用データ41(標本)が有する国民等(母集団)に対する偏りである。
【0025】
・学習用データ41においては、男性の比率が高い。
・学習用データ41においては、男女ともに、イベント発生フラグが“1”である比率が高い。
・学習用データ41においては、女性のイベント発生フラグが“1”である比率が、男性のその比率よりも有意に大きい。母集団には、このような傾向は認められない。
・学習用データ41においては、女性若年層のイベント発生フラグが“1”である比率が高い。
・学習用データ41においては、男性高齢層のイベント発生フラグが“1”である比率が高い。
【0026】
(重み情報)
図5は、重み情報32の一例である。重み情報32においては、イベント発生欄131に記憶されたイベント発生フラグに関連付けて、年齢欄132には年齢が、性別欄133には性別が、重み欄134には重みが記憶されている。
【0027】
イベント発生欄121のイベント発生フラグは、図2のイベント発生フラグと同じである。
年齢欄132の年齢は、図2の年齢と同じである。
性別欄133の性別は、図2の性別と同じである。
重み欄134の重みは、統計情報の例数(図3の欄114)を学習用データの例数(図4の欄124)で除算した結果である。換言すれば、重みは、同時分布情報の標本が母集団としての前記統計情報に比して偏っている程度である。
【0028】
(重みの意味)
図5の各レコード(行)の重みを上下方向に見たとき、各レコードの重みのすべてが同じ値であれば、学習用データ41は、統計情報43に対して偏りがなく、特定の医療施設は、国民等の母集団を理想的に代表しているといえる。しかしながら多くの場合、これらの値は、ばらつきを有する。このばらつきは、その学習用データ41が有する偏りの特徴を示している。例えば、レコード135の重みは“5.0”であり、他のレコードに比して有意に大きい。レコード6の重みは“1.0”であり、他のレコードに比して有意に小さい。これらは以下のことを示している。
【0029】
・学習用データ41が収集された特定の医療施設においては、年齢が“20~29”であり、かつ、性別が“女”である標本のうち、イベント発生フラグが“0”であるものが過小であり、“1”であるものが過大である。
・したがって、この医療施設から収集した学習用データ41を使用して数理モデルを機械学習すると、機械学習済の数理モデルは、“年齢が20~29である女性は、特定の疾病に罹患しやすい”という誤った結論を出力してしまう。
・このような誤りを防ぐには、学習用データ41のレコードのうち、レコード135の属性を有するものをコピーして標本数を増やす一方、レコード136の属性を有するものはコピーせずそのままとし、内容の異なる新たな学習用データを作成する。
・さらに、新たな学習用データを使用して数理モデルを再度機械学習する。
【0030】
以降で、本実施形態の処理手順を説明する。処理手順は、4つ存在し、それらは、同時分布作成処理手順、重み算出処理手順、予測モデル作成処理手順及び出力処理手順であり、この順に実行される。
【0031】
(同時分布作成処理手順)
図6は、同時分布作成処理手順のフローチャートである。
ステップS201において、情報処理装置1の同時分布作成部21は、学習用データ41及び統計情報43を取得する。具体的には、同時分布作成部21は、データベース2から、学習用データ41、及び、前記した“行政資料”の状態にある統計情報43を取得する。ここで取得される統計資料43は、図3のように整った型式を有していない。
【0032】
ステップS202において、同時分布作成部21は、変数を指定する。具体的には、第1に、同時分布作成部21は、学習用データ41の属性(図2の例では、イベント発生、年齢及び性別)を“変数”として認識する。
第2に、同時分布作成部21は、各変数における層を認識する。例えば、統計情報43(行政資料)の年齢が、“0~9”、“10~19”、“20~29”、・・・のように層分けされているのを認識する。
第3に、同時分布作成部21は、ステップS202の“第1”において認識された変数のみを属性とし、ステップS202の“第2”において認識された各変数の層ごとのレコードを有する、図3の型式の統計情報43を作成する。このとき、同時分布作成部21は、行政資料を参照し、イベント発生、性別及び年齢層ごとに、統計情報の例数(図3の欄114)を算出する。
【0033】
ステップS203において、同時分布作成部21は、同時分布情報31を作成する。具体的には、第1に、同時分布作成部21は、ステップS202の“第3”において作成した統計情報43(図3)のコピーを作成し、“統計情報の例数”(図3の欄114)を“学習用データの例数”に書き換えたうえで、各レコードの統計情報の例数の値を削除する(空白に戻す)。
第2に、同時分布作成部21は、学習用データ41を参照し、学習用データの例数(図4の欄124)を算出することによって、図4の同時分布情報31を完成させる。ここで完成した同時分布情報31は、統計情報43(図3)と同じ変数を有している。その後、同時分布作成処理手順を終了する。
【0034】
(重み算出処理手順)
図7は、重み算出処理手順のフローチャートである。
ステップS211において、情報処理装置1の重み算出部22は、統計情報43及び同時分布情報31を取得する。具体的には、重み算出部22は、ステップS202の“第3”で作成した統計情報43、及び、ステップS203の“第2”において完成した同時分布情報31を取得する。
【0035】
ステップS212において、重み算出部22は、重み情報32を作成する。具体的には、第1に、重み算出部22は、ステップS211において取得した統計情報43(図3)のコピーを作成し、“統計情報の例数”(図3の欄114)を“重み”に書き換えたうえで、各レコードの統計情報の例数の値を削除する(空白に戻す)。
第2に、重み算出部22は、ステップS211において取得した統計情報43の統計情報の例数を、ステップS211において取得した同時分布情報31の学習用データの例数で除算し、その結果を“重み”として記憶する。重み算出部22は、イベント発生、年齢層及び性別の組合せごとに重みを算出することによって、図5の重み情報32を完成させる。その後、重み算出処理手順を終了する。
【0036】
(予測モデル作成処理手順)
図8は、予測モデル処理手順のフローチャートである。
ステップS221において、情報処理装置1の予測モデル作成部23は、学習用データ41及び重み情報32を取得する。具体的には、予測モデル作成部23は、データベース2から学習用データ41を取得するとともに、ステップS212の“第2に”において完成した重み情報32を取得する。ここで取得される重み情報31は、学習用データ41の偏りを表現している。
【0037】
前記したように例えば、図5のレコード135の重みは、“5.0”である。このことは、統計情報43における“イベント発生”が“0”、であり“年齢”が“20~29”であり、かつ、“性別”が“女”である母集団の数が、学習用データ41におけるそのような標本の数の5倍存在することを示す。すなわち、学習用データ41が収集された医療施設においては、国等に比して、そのような標本の数が“5分の1”しかなく、換言すれば、そのような標本が“5倍”の希少性を有することを意味する。なお、“5倍”という数値に絶対的な意味があるわけではない。他のレコードにおける重みに比して“5倍”は相対的に突出しており、そのことが偏りを示している。
【0038】
ステップS222において、予測モデル作成部23は、第1の弱学習器34及び第2の弱学習器35を作成する。具体的には、第1に、予測モデル作成部23は、以下のように第1の弱学習器34を学習する。
【0039】
・予測モデル作成部23は、学習用データ41をそのまま使用して数理モデルを機械学習し、最適化された数理モデルを第1の弱学習器34とする。
・ここでの数理モデルは、年齢及び性別を説明変数とし、イベント発生を目的変数とする数理モデルであり、各説明変数に乗算される係数を有するものであってもよい。この場合、各係数が最適化される。
・さらに、ここでの数理モデルは、入力層、複数の中間層及び出力層を有するニューラルネットワークであってもよい。この場合、あるノードの情報を次の層のどのノードにどれだけ伝搬するかを決める重みベクトル(図5の欄134の重みとは別の概念)が最適化される。
【0040】
第2に、予測モデル作成部23は、以下のように第2の弱学習器35を学習する。
・予測モデル作成部23は、図5の重みに従って学習用データ41のレコード(標本)をコピー(複写)する。例えば、予測モデル作成部23は、図5のレコード135に対応して、学習用データ41のレコードのうち、年齢が“20~29”であり、かつ、性別が“女”であるものを5倍に増やす。
・予測モデル作成部23は、同様にして、図5の他の全てのレコードについて、そのレコードに対応する学習用データ41のレコード(標本)を、重みが示す倍数に増やす。
・予測モデル作成部23は、このようにしてレコードの数が修正された後の学習用データ41を使用して前記の数理モデルを機械学習し、最適化された数理モデルを第2の弱学習器35とする。
第1の弱学習器34に比して、第2の弱学習器35は、予測精度が高い。
【0041】
修正後の学習用データ41のレコード数が極端に増加すると、それを使用して数理モデルを機械学習する処理に時間を要する。そこで例えば図5のレコード135の重みが“50.0”であり、レコード136の重みが“20.0”であったとする。この場合、予測モデル作成部23は、レコード135に対応する学習用データ41のレコードを50倍にコピーし、レコード136に対応する学習用データ41のレコードを20倍にコピーするには及ばない。予測モデル作成部23は、例えば、レコード135に対応する学習用データ41のレコードを5倍にコピーし、レコード136に対応する学習用データ41のレコードを2倍にコピーすればよい(制限的コピー)。
【0042】
ステップS223において、予測モデル作成部23は、アンサンブルモデル33を作成する。具体的には、予測モデル作成部23は、第1の弱学習器34及び第2の弱学習器35を有するアンサンブルモデル33を作成する。前記したように、アンサンブルモデルとは、それを構成する弱学習器の出力結果を“多数決的”に採用するモデルである。その後、予測モデル作成処理手順を終了する。
【0043】
(出力処理手順)
図9は、出力処理手順のフローチャートである。
ステップS231において、情報処理装置1の出力処理部24は、予測用データ42を取得する。具体的には、出力処理部24は、データベース2から予測用データ42を取得する。予測用データ42は、学習用データ41(図2)と同じ構成を有する。しかしながら、予測用データ42のイベント発生欄は、空白である。つまり、学習用データ41が、イベント発生が既知である“教師付き学習データ”(過去の標本)であるのに対し、予測用データ42は、イベント発生が未知である現在の標本である。多くの場合、予測用データ42は、特定の医療施設以外の他の医療施設から収集される。
【0044】
ステップS232において、出力処理部24は、イベント発生の予測結果を表示する。具体的には、第1に、出力処理部24は、ユーザが指定する年齢及び性別の組合せを予測用データとして予測モデル33に入力し、予測モデル33の出力としてのイベント発生を取得する。ここで出力処理部24は、ユーザが指定する年齢及び性別の組合せを第1の弱学習器34のみに入力してもよいし、第2の弱学習器35のみに入力してもよい。
第2に、出力処理部24は、出力装置13に表示画面51(詳細後記)を表示する。その後、出力処理手順を終了する。
【0045】
(表示画面)
図10は、表示画面51の一例である。いま、ユーザは、以下を希望している。
・過去において、特定の疾病に罹患しなかった男性の人数を、年齢層ごとに視認したい。
・その人数を、特定の医療施設と、国民等の母集団とで比較したい。
【0046】
そこで、ユーザは、グラフ表示欄52のうち表示情報欄53の横軸欄58に“年齢”を入力し、凡例欄59に“イベント発生:0 性別:男”を入力し、グラフ表示実行ボタン55を押下する。すると出力処理部24は、年齢層を横軸とし、標本数を縦軸とするグラフ54上に、折れ線56及び折れ線57を比較可能に表示する。折れ線56は、統計情報の例数を示し、折れ線57は、学習用データの例数を示す。図10では、単純化のために縦軸の目盛りを1つに統一しているが、出力処理部24は、折れ線57用の目盛り(桁が小さい)とは別に、折れ線56用の目盛り(桁が大きい)を表示してもよい。
【0047】
さらにユーザは、以下を希望している。
・他の医療施設から収集した現在の予測用データのうち、年齢層が“30~39”である女性についてのイベント発生を予測したい。
・アンサンブルモデル33を使用してイベント発生を予測したい。
【0048】
そこで、ユーザは、予測用データとして、分析欄61のうち予測用データ欄62の年齢欄63に“30~39”を入力し、性別欄64に“女”を入力し、予測モデル欄65に“アンサンブル”を入力し、分析実行ボタン66を押下する。すると、出力処理部24は、イベント発生の予測結果欄67に予測結果を表示し、予測結果の説明欄68に予測結果の説明を表示する。
【0049】
これらの表示例から、出力処理部24は、以下の処理を行うことがわかる。
・出力処理部24は、第1の弱学習器34及び第2の弱学習器35を有するアンサンブルモデル33に対して、年齢“30~39”及び性別“女”を入力した。
・第1の弱学習器34は、イベント発生“1”を出力した。
・第2の弱学習器35も、イベント発生“1”を出力した。
・アンサンブルモデル33は、これらの出力を多数決し、イベント発生“1”を出力した。イベント発生の予測結果欄67の“C”は、多数決後の出力“1”に対応している。
【0050】
ちなみに、第1の弱学習器34及び第2の弱学習器35の両者がイベント発生“0”を出力した場合、アンサンブルモデル33は、多数決の結果、イベント発生“0”を出力する。すると出力処理部24は、イベント発生の予測結果欄67に“A”を表示する。第1の弱学習器34及び第2の弱学習器35のどちらか一方がイベント発生“0”を出力し、他方がイベント発生“1”を出力した場合、アンサンブルモデル33は、多数決の結果、“同数競合”を出力する。すると出力処理部24は、イベント発生の予測結果欄67に“B”を表示する。
【0051】
図10の例では、ユーザは、アンサンブルモデルを使用することを希望した。しかしながら、ユーザは、第1の弱学習器のみを使用することを希望できるし、第2の弱学習器のみを使用することも希望できる。結局、これらの希望に応じて、出力表示部24は、ユーザの選択に基づいて、第1の弱学習器のみを使用して、第2の弱学習器のみを使用して、又は、前記アンサンブルモデルを使用して前記予測結果を出力することができる。
【0052】
(重みを使用して学習用データを修正する意義)
始めから統計情報43(図3)を学習用データとして数理モデルを機械学習することも当然に可能である。しかしながら、特定の単一の医療施設から収集された学習用データに偏りがあることは、事後的にわかる場合が多い。また、特定の単一の医療施設から収集された学習用データを使用して機械学習した数理モデルが既に存在しており、専ら当該医療施設から収集された標本に対する予測のために、当該機械学習済の数理モデルを引き続き使用したい場合もある。さらに、情報量が膨大である統計情報43を使用して機械学習を行う処理よりは、前記したように、統計情報43を単純にソートし層ごとの例数を除算して重みを算出し、学習用データを制限的にコピーする処理の方が単純である。
【0053】
(本実施形態の効果)
本実施形態の情報処理装置の効果は以下の通りである。
(1)情報処理装置は、学習用データの母集団に対する偏りに基づき、学習用データを修正することができる。
(2)情報処理装置は、医療施設における標本の偏りを修正することができる。
(3)情報処理装置は、コピーという簡便な方法で学習用データを修正することができる。
(4)情報処理装置は、予測精度が高いアンサンブルモデルを使用することができる。
(5)情報処理装置は、ユーザがアンサンブルモデルの使用を選択することを可能にする。
(6)情報処理装置は、学習用データの母集団に対する偏りを比較可能に表示することができる。
【0054】
なお、本発明は前記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、前記した実施例は、本発明を分かり易く説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【0055】
また、前記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウエアで実現してもよい。また、前記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウエアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、又は、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。
【符号の説明】
【0056】
1 情報処理装置
2 データベース
3 ネットワーク
11 中央制御装置
12 入力装置
13 出力装置
14 主記憶装置
15 補助記憶装置
16 通信装置
21 同時分布作成部
22 重み算出部
23 予測モデル作成部
24 出力処理部
31 同時分布情報
32 重み情報
33 予測モデル(アンサンブルモデル)
34 第1の弱学習器
35 第2の弱学習器
41 学習用データ
42 予測用データ
43 統計情報
51 表示画面
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10