特開2024-171674 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 東芝メディカルシステムズ株式会社の特許一覧

特開2024-171674情報処理装置、情報処理方法および情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024171674

(43)【公開日】2024-12-12

(54)【発明の名称】情報処理装置、情報処理方法および情報処理プログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20241205BHJP

G06F 18/213 20230101ALI20241205BHJP

【ＦＩ】

G06N20/00

G06F18/213

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2023088816

(22)【出願日】2023-05-30

(71)【出願人】

【識別番号】594164542

【氏名又は名称】キヤノンメディカルシステムズ株式会社

(74)【代理人】

【識別番号】110003708

【氏名又は名称】弁理士法人鈴榮特許綜合事務所

(72)【発明者】

【氏名】有田亘佑

(72)【発明者】

【氏名】佐々木翔

(57)【要約】

【課題】少数のデータから現実的かつ多様な増強データを生成できること。
【解決手段】本実施形態に係る情報処理装置は、取得部と、算出部と、生成部とを含む。取得部は、第１のデータ傾向を有する第１のデータセットと、前記第１のデータ傾向とは異なる第２のデータ傾向を有する第２のデータセットとを取得する。算出部は、前記第１のデータセットに基づいた第１の特徴ベクトルと、前記第２のデータセットに基づいた第２の特徴ベクトルとを算出する。生成部は、前記第１の特徴ベクトルと前記第２の特徴ベクトルとに基づいて、前記第２のデータ傾向を有する増強データを生成する。
【選択図】図１

【特許請求の範囲】

【請求項1】

第１のデータ傾向を有する第１のデータセットと、前記第１のデータ傾向とは異なる第２のデータ傾向を有する第２のデータセットとを取得する取得部と、
前記第１のデータセットに基づいた第１の特徴ベクトルと、前記第２のデータセットに基づいた第２の特徴ベクトルとを算出する算出部と、
前記第１の特徴ベクトルと前記第２の特徴ベクトルとに基づいて、前記第２のデータ傾向を有する増強データを生成する生成部と、
を具備する情報処理装置。

【請求項2】

前記第２のデータセットは、前記第１のデータセットよりもデータ数が少ない、請求項１に記載の情報処理装置。

【請求項3】

前記生成部は、前記第１のデータセットから、前記第２のデータセットに属する候補となる１以上の候補データを生成し、前記第１の特徴ベクトルと前記第２の特徴ベクトルと前記候補データとに基づいて、前記候補データの中から前記増強データを生成する、請求項１に記載の情報処理装置。

【請求項4】

前記算出部は、前記１以上の候補データそれぞれについて第３の特徴ベクトルを算出し、
前記生成部は、前記１以上の候補データから前記第３の特徴ベクトルと前記第１の特徴ベクトルとが所定の関係性を有する特徴ベクトルを選択し、選択された特徴ベクトルの中で前記第３の特徴ベクトルと前記第２の特徴ベクトルとが前記所定の関係性を有する特徴ベクトルを除外することで、前記増強データを生成する、請求項３に記載の情報処理装置。

【請求項5】

前記第１のデータセットと前記第２のデータセットとを分類する決定境界を決定する決定部をさらに具備し、
前記生成部は、前記第１のデータセットの中から、前記第２のデータセット側へ前記決定境界をまたぎ、かつデータの多様性を示す指標が閾値以上となる１以上のデータを、前記第２のデータセットに属する候補となる候補データとして生成する、請求項１に記載の情報処理装置。

【請求項6】

前記第２のデータセットおよび前記増強データを用いて、前記第１のデータセットで学習された学習済みモデルの再学習が必要であるか否かを評価する評価部をさらに具備する、請求項１に記載の情報処理装置。

【請求項7】

前記第１のデータセット、前記第２のデータセット、および前記第１のデータセットと前記第２のデータセットとを分類する決定境界について表示するように制御する表示制御部をさらに具備する、請求項１に記載の情報処理装置。

【請求項8】

前記第１の特徴ベクトル、前記第２の特徴ベクトル、および前記第１のデータセットから生成された、前記第２のデータセットに属する候補となる１以上の候補データに関する第３の特徴ベクトルを表示するように制御する表示制御部をさらに具備する、請求項１に記載の情報処理装置。

【請求項9】

前記第１のデータセットおよび前記増強データを用いて、前記第１のデータセットで学習された学習済みモデルの性能評価を表示するように制御する表示制御部をさらに具備する、請求項１に記載の情報処理装置。

【請求項10】

前記第１のデータセットおよび前記増強データを用いて再学習された学習済みモデルの性能評価を表示するように制御する表示制御部をさらに具備する、請求項１に記載の情報処理装置。

【請求項11】

第１のデータ傾向を有する第１のデータセットと、前記第１のデータ傾向とは異なる第２のデータ傾向を有する第２のデータセットとを取得し、
前記第１のデータセットに基づいた第１の特徴ベクトルと、前記第２のデータセットに基づいた第２の特徴ベクトルとを算出し、
前記第１の特徴ベクトルと前記第２の特徴ベクトルとに基づいて、前記第２のデータ傾向を有する増強データを生成する、
情報処理方法。

【請求項12】

コンピュータに、
第１のデータ傾向を有する第１のデータセットと、前記第１のデータ傾向とは異なる第２のデータ傾向を有する第２のデータセットとを取得する取得機能と、
前記第１のデータセットに基づいた第１の特徴ベクトルと、前記第２のデータセットに基づいた第２の特徴ベクトルとを算出する算出機能と、
前記第１の特徴ベクトルと前記第２の特徴ベクトルとに基づいて、前記第２のデータ傾向を有する増強データを生成する生成機能と、
を実現させる情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本明細書及び図面に開示の実施形態は、情報処理装置、情報処理方法および情報処理プログラムに関する。

【背景技術】

【0002】

近年の医療ＡＩの進歩に伴い、機械学習により学習された意思決定支援（ＣＤＳ：Clinical Decision Support）モデルを用いたＣＤＳシステムが利用されている。しかし臨床現場では、患者情報に基づくデータ傾向が、ＣＤＳモデルの訓練時において利用したデータ群のデータ傾向から変化する「ドリフト」が発生しやすい。このようなドリフトによって、ＣＤＳモデルの性能が低下する恐れがある。ドリフトが発生していると分かった場合は、早期に対処することが望まれる。
ドリフトが発生した場合のモデル管理手法として、新規のドリフトデータセットの分布とモデルのデータの分布とが近いモデルで再学習する手法がある。また、多様性のあるデータを生成する手法として、反実仮想サンプル生成手法がある。

【0003】

しかし、これらの手法をドリフトが発生した初期段階で採用した場合、ドリフトデータセットのデータ数が少ないことにより、構築される決定境界が不確実なものになると考えられる。つまり、将来起こりえないドリフトデータセットが生成されるといった、生成されるデータの精度が低くなる可能性がある。結果として、現実の患者データを正しく推定できないＣＤＳモデルが生成されうるという問題がある。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２２－１０５９１６号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

本明細書及び図面に開示の実施形態が解決しようとする課題の一つは、少数データから現実的かつ多様な増強データを生成できることである。ただし、本明細書及び図面に開示の実施形態により解決しようとする課題は上記課題に限られない。後述する実施形態に示す各構成による各効果に対応する課題を他の課題として位置づけることもできる。

【課題を解決するための手段】

【0006】

本実施形態に係る情報処理装置は、取得部と、算出部と、生成部とを含む。取得部は、第１のデータ傾向を有する第１のデータセットと、前記第１のデータ傾向とは異なる第２のデータ傾向を有する第２のデータセットとを取得する。算出部は、前記第１のデータセットに基づいた第１の特徴ベクトルと、前記第２のデータセットに基づいた第２の特徴ベクトルとを算出する。生成部は、前記第１の特徴ベクトルと前記第２の特徴ベクトルとに基づいて、前記第２のデータ傾向を有する増強データを生成する。

【図面の簡単な説明】

【0007】

【図1】図１は、本実施形態に係る情報処理装置を含む情報処理システムを示すブロック図である。

【図2】図２は、本実施形態に係る情報処理装置の動作を示すフローチャートである。

【図3】図３は、本実施形態に係るドリフトデータセットおよび非ドリフトデータセットの具体例を示す図である。

【図4】図４は、本実施形態に係る決定境界の一例を示す図である。

【図5】図５は、本実施形態に係るドリフトデータセットおよび非ドリフトデータセットの特徴ベクトルの一例を示す図である。

【図6】図６は、本実施形態に係るドリフト候補データの生成例を示す図である。

【図7】図７は、本実施形態に係るドリフト候補データから増強データを生成するための処理概念を示す図である。

【図8】図８は、本実施形態に係る生成された増強データの分布の一例を示す図である。

【図9】図９は、本実施形態に係る画面表示の一例を示す図である。

【発明を実施するための形態】

【0008】

以下、図面を参照しながら本実施形態に係る情報処理装置、情報処理方法および情報処理プログラムについて説明する。以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。以下、一実施形態について図面を用いて説明する。

【0009】

本実施形態に係る情報処理装置を含む情報処理システムについて図１のブロック図を参照して説明する。
本実施形態に係る情報処理システムは、情報処理装置１と、患者情報格納部２１と、ＣＤＳモデル格納部２２と、訓練部２３と、実行部２４とを含み、それぞれがネットワークＮＷで接続される。ネットワークＮＷは、院内ネットワークを想定するが、ＶＰＮ（Virtual Private Network）などを用いてデータの秘匿性を確保できるのであれば、外部のネットワークを用いて、各構成（情報処理装置１、患者情報格納部２１、ＣＤＳモデル格納部２２、訓練部２３および実行部２４）が接続されてもよい。

【0010】

患者情報格納部２１は、患者ごとの患者情報を格納する。患者情報は、例えば、患者ＩＤ、患者氏名、性別、および年齢などの患者を識別する情報と、既往歴、所見情報、病名情報、治療内容、クリニカルパスといった患者の診療に関する情報とを含む。
ＣＤＳ（Clinical Decision Support）モデル格納部２２は、訓練部２３により患者情報などを用いて機械学習モデルを訓練することで生成された学習済みモデルを格納する。以下では、学習済みモデルとして、意思決定を支援するためのＣＤＳモデルを例に説明するが、画像診断や予後判定など他の用途に用いられるモデルであってもよい。

【0011】

訓練部２３は、ニューラルネットワークなどの機械学習モデルを訓練し、ＣＤＳモデルを生成する。訓練部２３は、ＣＤＳモデルを再訓練（再学習）することで、再学習済みモデルである更新されたＣＤＳモデルを生成する。機械学習モデルの訓練方法については、一般的な機械学習方法、例えば教師あり学習を用いればよいため、詳細な説明は省略する。
実行部２４は、新たに取得した患者情報に対してＣＤＳモデルを用いて推論を実行する。実行部２４は、新たに取得した患者情報に対して更新されたＣＤＳモデルを用いて推論を実行する。

【0012】

情報処理装置１は、処理回路１０、メモリ１１、入力インタフェース１２、通信インタフェース１３およびディスプレイ１４を有し、それぞれがバスまたはネットワークで接続される。

【0013】

処理回路１０は、ハードウェア資源としてＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）などのプロセッサを有する。例えば、処理回路１０は、各種プログラムの実行により取得機能１０１と、決定機能１０２と、算出機能１０３と、生成機能１０４と、評価機能１０５と、表示制御機能１０６とを実現する。
なお、上述した訓練部２３および実行部２４は、情報処理装置１の処理回路の一機能として組み込まれてもよい。

【0014】

取得機能１０１は、第１のデータ傾向を有する第１のデータセットと、前記第１のデータ傾向とは異なる第２のデータ傾向を有する第２のデータセットとを取得する。以下では、第１のデータセットとして、患者情報のうちのドリフトが発生していない非ドリフトデータセットを例に説明する。第２のデータセットとして、患者情報のうちのドリフトが発生しているドリフトデータセットを例に説明する。

【0015】

決定機能１０２は、非ドリフトデータセットとドリフトデータセットとを分類する決定境界を決定する。

【0016】

算出機能１０３は、非ドリフトデータセットに基づいた第１の特徴ベクトルと、ドリフトデータセットに基づいた第２の特徴ベクトルとを算出する。

【0017】

生成機能１０４は、第１のデータセットから、第２のデータセットに属する候補となる１以上の候補データ（以下では、ドリフト候補データ）を生成し、１以上の候補データの中から、第１の特徴ベクトルと第２の特徴ベクトルとに基づいて、第１のデータ傾向を有する増強データを生成する。

【0018】

評価機能１０５は、第２のデータセットおよび増強データを用いて、第１のデータセットで学習された学習済みモデルの再学習が必要であるか否かを評価する。

【0019】

表示制御機能１０６は、各種データおよびＧＵＩ（Graphical User Interface）をディスプレイ１４に表示するように制御する。例えば、表示制御機能１０６は、ドリフトデータセット、増強データおよび特徴ベクトルに関するグラフ、およびＣＤＳモデルの性能評価に関するグラフをディスプレイ１４に表示するように制御する。

【0020】

メモリ１１は、後述するように、非ドリフトデータセットおよびドリフトデータセット、特徴ベクトル、候補データ、増強データなど、種々の情報を記憶するＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、集積回路記憶装置などの記憶装置である。また、メモリ１１は、ＣＤ－ＲＯＭドライブやＤＶＤドライブ、フラッシュメモリなどの可搬型記憶媒体との間で種々の情報を読み書きする駆動装置等であってもよい。例えば、メモリ１１は、過去に収集された医用データ、制御プログラムなどを記憶する。

【0021】

入力インタフェース１２は、ユーザからの各種指令を受け付ける入力機器を含む。入力機器としては、キーボードやマウス、各種スイッチ、タッチスクリーン、タッチパッドなどが利用可能である。なお、入力機器は、マウス、キーボードなどの物理的な操作部品を備えるものだけに限らない。例えば、磁気共鳴イメージング装置２０とは別体に設けられた外部の入力機器から入力操作に対応する電気信号を受け取り、受け取った電気信号を種々の回路へ出力するような電気信号の処理回路も入力インタフェース１２の例に含まれる。また、入力インタフェース１２は、マイクロフォンにより収集された音声信号を指示信号に変換する音声認識装置でもよい。

【0022】

通信インタフェース１３は、ＬＡＮ（Local Area Network）等を介して、ワークステーションやＰＡＣＳ（Picture Archiving and Communication System）、ＨＩＳ（Hospital Information System）、ＲＩＳ（Radiology Information System）、Ｘ線ＣＴ（Computed Tomography）装置やＭＲＩ（Magnetic Resonance Imaging）装置といった医用画像診断装置などとを接続するインタフェースである。通信インタフェース１３は、各種情報を接続先のワークステーション、ＰＡＣＳ、ＨＩＳおよびＲＩＳとの間で送受信する。

【0023】

ディスプレイ１４は、種々の情報を表示する。ディスプレイ１４としては、例えば、ＣＲＴディスプレイや液晶ディスプレイ、有機ＥＬディスプレイ、ＬＥＤディスプレイ、プラズマディスプレイ、または当技術分野で知られている他の任意のディスプレイが適宜利用可能である。

【0024】

次に、本実施形態に係る情報処理装置１の動作例について図２のフローチャートを参照して説明する。
ステップＳＡ１では、取得機能１０１により処理回路１０が、患者情報に関するドリフトデータセットおよび非ドリフトデータセットを取得する。ここでは、患者情報ごとにドリフトデータであるか非ドリフトデータであるかのラベルがあらかじめ付与されていることを想定する。

【0025】

ステップＳＡ２では、決定機能１０２により処理回路１０が、ドリフトデータセットおよび非ドリフトデータセットの決定境界を決定する。
ステップＳＡ３では、算出機能１０３により処理回路１０が、ドリフトスコアモデルに基づいて、ドリフトデータセットおよび非ドリフトデータセットのそれぞれに対し、特徴量に基づいてドリフトデータセットの傾向を示す特徴ベクトルを算出する。例えば、1以上の特徴量を有するドリフトデータセットが、同じ特徴量を有する非ドリフトデータセットからどれだけ乖離しているかを示すドリフトスコアに基づき、特徴ベクトルを算出する。特徴ベクトルの算出については、図５を参照して後述する。

【0026】

ステップＳＡ４では、生成機能１０４により処理回路１０が、非ドリフトデータセットに基づいて、１以上のドリフト候補データを生成する。ドリフト候補データは、ドリフトデータセットに属する候補となるデータを示す。
ステップＳＡ５では、生成機能１０４により処理回路１０が、各ドリフト候補データと各特徴ベクトルとに基づいて、増強データを生成する。増強データは、ドリフトデータセットのデータ傾向に属し、かつ非ドリフトデータセットのデータ傾向とは異なるデータである。このようなデータ傾向を選択する理由は、少数のドリフトデータセットに基づいて決定される決定境界はあいまいな境界であるため、増強データが、現実のドリフトデータセットに即さない、または非ドリフトデータセットのままの傾向とならないよう、現実のドリフトデータセットのデータ傾向に即したデータを生成できるようにするためである。

【0027】

ステップＳＡ６では、評価機能１０５により処理回路１０が、生成された増強データおよびドリフトデータセットを用いて、非ドリフトデータセットで訓練した学習済みモデルであるＣＤＳモデルの性能を評価する。具体的には、評価機能１０５により処理回路１０が、実行部２４による推論を実行させ、増強データまたはドリフトデータセットを学習済みモデルに入力することで、所望の推論精度が得られるかどうかを検証すればよい。
ステップＳＡ７では、評価機能１０５により処理回路１０が、ＣＤＳモデルの再学習が必要であるか否かを判定する。ステップＳＡ６の処理により所望の推論結果が得られない場合、例えば推論精度が閾値未満である場合、再学習が必要であると判定してステップＳＡ８に進む。一方、所望の処理結果が得られた場合、例えば推論精度が閾値以上である場合、再学習は不要であるとしてステップＳＡ９に進む。

【0028】

ステップＳＡ８では、評価機能１０５により処理回路１０が、訓練部２３に対して指示することにより、ドリフトデータセットおよび増強データを用いてＣＤＳモデルの再学習を実行し、再学習済みのＣＤＳモデル、言い換えれば更新されたＣＤＳモデルを生成する。
ステップＳＡ９では、表示制御機能１０６により処理回路１０が、ＣＤＳモデルの性能評価に関する指標などを表示する。具体的には、図９を参照して後述する。

【0029】

次に、ドリフトデータセットおよび非ドリフトデータセットの具体例について図３を参照して説明する。
図３に示すテーブル２１０は、患者情報格納部２１に格納される患者情報を示す。ここでは、患者ＩＤ、バイタル、検体検査値、医師自由記述、発症ラベルおよびドリフトラベルがそれぞれ対応付けられ、１つのデータ項目として格納される。なお、ドリフトラベル以外の項目は、患者ＩＤに対してどのような情報が対応付けられていてもよい。図３の例では、患者情報に含まれる、検体検査値、バイタルおよび医用画像から算出した特徴量などが、患者情報の特徴量の役割を果たす。ここでは、バイタル、検体検査値、医師自由記述が特徴量に相当する。発症ラベルは、例えば陰性であるか陽性であるかを示す値であり、患者情報に対する正解ラベルの役割を果たす。ドリフトラベルは、過去の患者情報に係るデータ傾向から当該データ項目が乖離した傾向のデータであるか否か、すなわちドリフトデータセットであるか否かを示すラベルである。ドリフトラベルは、ドリフトデータであれば「１」とし、非ドリフトデータであれば「０」とする。なお、「１」「０」に限らず、どのような記号、文字列で区別されてもよい。

【0030】

患者情報の各データ項目がドリフトデータであるか非ドリフトデータであるかは、予めラベル付けされていることを想定する。例えば、ＣＤＳモデルのモデル学習に用いたデータ、ＣＤＳモデルの運用時に取得したデータのうちドリフトデータであるとドリフト検知機能がアラートしなかったデータ、ドリフトが生じていないと医師が判断したデータは、非ドリフトデータであるといえる。一方、例えば、ＣＤＳモデルの運用時に取得したデータのうちドリフト検知機能がアラートしたデータ、ドリフトが生じたと医師が判断したデータは、ドリフトデータであるといえる。

【0031】

ドリフト検知機能としては、例えば、患者情報のデータ分布の変化を監視し、ＣＤＳモデルの訓練時のデータ分布と、その後の推論時に得られた患者情報のデータ分布との乖離度を、Wasserstein距離やKolmogorov-Smirnov検定、ユークリッド距離またはカイ二乗統計量などの関数を用いればよい。当該関数からの出力が閾値以上であれば、推論時に得られた患者情報は、訓練時のデータとは乖離しており、ドリフトデータセットであると判定できる。図３の例では、患者ＩＤ「００１」のデータ項目は、ドリフトラベルが「０」であるため、非ドリフトデータであることがわかる。一方、患者ＩＤ「００２」および「００３」のデータ項目は、ドリフトラベルが「１」であるため、これらのデータがドリフトデータであることがわかる。

【0032】

次に、本実施形態に係る決定境界の一例について図４を参照して説明する。
図４は、患者情報に含まれる２種類の特徴量（ここではｆ１、ｆ２と表記する）を軸とした２次元の特徴量空間における患者情報の分布を示すプロット図４０である。決定機能１０２により処理回路１０は、患者情報のドリフトラベルに基づき、ドリフトデータセットと非ドリフトデータセットとを分類した場合の境界となる決定境界を決定する。決定境界の決定方法としては、例えばＳＶＭ（Support Vector Machine）またはニューラルネットワークを用いた一般的な決定境界の決定方法を用いればよく、詳細な説明は省略する。

【0033】

具体的に図４の例では、特徴量ｆ１を横軸、特徴量ｆ２を縦軸とした２次元の特徴量空間上に患者情報がプロットされる。プロット図４０には、患者情報のうちのドリフトデータ４１が丸でプロットされており、ドリフトデータセットが形成される。同様に、プロット図４０には、患者情報のうちの非ドリフトデータ４２が三角でプロットされており、非ドリフトデータセットが形成される。図４に示すように、ドリフトデータセットと非ドリフトデータセットとはデータ分布に乖離がある。よって、ドリフトデータセットと非ドリフトデータセットとを分類する決定境界４３が２次元の特徴量空間上で決定できる。

【0034】

なお、本実施形態では、ドリフトデータセットが非ドリフトデータセットよりも少数である場合の処理を前提としているため、少数のドリフトデータセットに基づき決定される決定境界は、精度が低いことが想定される。また、説明の便宜上、２次元の特徴量空間のプロット図４０において２種類の特徴量に対する決定境界を決定する場合を例としたが、実際には患者情報に３種類以上の特徴量が含まれる場合もある。このような３種類以上の特徴量が含まれる場合であっても同様に、ＳＶＭまたはニューラルネットワークなどを用いた一般的な決定境界の決定方法により、特徴量間における決定境界が決定されればよい。

【0035】

次に、ドリフトデータセットおよび非ドリフトデータセットの特徴ベクトルの一例について図５を参照して説明する。
図５左図は、患者情報における各特徴量ｆ１－ｆ３の変化を示すグラフである。横軸は患者情報のサンプル番号、すなわち図３に示すデータ項目を、例えば時系列順にならべたものであり、縦軸は特徴量のドリフトスコアである。当該グラフには、非ドリフトデータセット５１の値、ドリフトデータセット５２の値がそれぞれプロットされる。

【0036】

ドリフトスコアは、非ドリフトデータセット５１から算出したドリフトスコアモデルを用いて算出すればよい。非ドリフトデータセット５１の特徴を基準とすることで、ドリフトデータセット５２のサンプル数に依存しない制約を算出できる。例えば、算出機能１０３により処理回路１０が、非ドリフトデータセット５１の各特徴量の相関関係を抽出し、各特徴量の相関を示すガウシアングラフィカルモデル、または構造方程式モデルによりドリフトスコアモデルを構築すればよい。例えば、特徴量ｆ２は、特徴量ｆ１を０．４倍した値であり、特徴量ｆ３は、特徴量ｆ１を０．６倍した値であるという相関関係を、ドリフトスコアモデルとして構築できる。
算出機能１０３により処理回路１０が、非ドリフトデータセット５１およびドリフトデータセット５２それぞれに対してドリフトスコアモデルを適用し、特徴量ごとのドリフトスコアを算出する。図５左図の例では、特徴量ｆ１および特徴量ｆ２は、非ドリフトデータセット５１とドリフトデータセット５２とでドリフトスコアが乖離している。一方、特徴量ｆ３では、非ドリフトデータセット５１とドリフトデータセット５２とでドリフトスコアがほぼ同じ値である。

【0037】

続いて、図５右図に示すように、算出機能１０３により処理回路１０が、非ドリフトデータセット５１について、特徴量ごとに、各非ドリフトデータのドリフトスコアの平均値を算出し、１つの特徴量を１つの軸とした特徴量空間において特徴ベクトル５３を算出する。同様にドリフトデータセット５２についても、特徴量ごとに各非ドリフトデータのドリフトスコアの平均値を算出し、１つの特徴量を１つの軸とした多次元の特徴量空間において特徴ベクトル５４を算出する。図５右図の例では、非ドリフトデータセット５１に基づく特徴ベクトル５３と、ドリフトデータセット５２に基づく特徴ベクトル５４とが特徴量空間上に表現される。特徴ベクトル５３と特徴ベクトル５４とを比較すると、特徴量ｆ３では差はないが、特徴量ｆ１は、ドリフトデータセットのほうが非ドリフトデータセットよりもドリフトスコアが大きいということがわかる。
なお、ドリフトスコアの平均値に限らず、中央値など他の統計値に基づいて特徴ベクトルが算出されてもよい。

【0038】

次に、本実施形態に係るドリフト候補データの生成例について図６を参照して説明する。
図６は、図４と同様に、特徴量ｆ１を横軸、特徴量ｆ２を縦軸とした２次元の特徴量空間上に非ドリフトデータセットおよびドリフトデータセットを表示した例である。
生成機能１０４により処理回路１０が、１つの非ドリフトデータ４２から１以上のドリフト候補データ６１を生成する。ドリフト候補データ６１の生成方法は、例えばニューラルネットワーク、ＳＶＭ、強化学習、遺伝的アルゴリズムといった手法を用いて生成すればよい。本実施形態では、例えば、非ドリフトデータ４２である患者情報の特徴量をばらつかせることにより、１以上のドリフト候補データ６１を生成する。

【0039】

また、ドリフト候補データを生成する際の条件として、２つの条件を設定する。
１つ目の条件は、非ドリフトデータ４２から決定境界４３をまたいでドリフトデータセット側に属するデータとなるように生成する。これは、多数のサンプルが存在する非ドリフトデータセットに基づいてドリフトデータセットを生成することでデータの現実性および確実性を向上させるためである。当該１つ目の条件を満たすためには、生成機能１０４により処理回路１０は、例えば、ヒンジ損失を損失関数として用いて、損失が閾値以下となるようなドリフト候補データ６１を生成すればよい。

【0040】

２つ目の条件は、複数のドリフト候補データ６１を生成する場合に、生成したドリフト候補データ６１間において多様性を有することである。これは、複数のドリフトデータを増強する場合に、多様性を有するほうが実益があるからである。当該２つ目の条件を満たすためには、生成機能１０４により処理回路１０が、例えば、多様性を示す指標が閾値以上となる、具体的にはドリフト候補データ６１間のエントロピーまたはニューロンカバレッジが閾値以上となるように、複数のドリフト候補データ６１を生成すればよい。

【0041】

図６の例では、１つの非ドリフトデータ４２から３つのドリフト候補データ６１を生成した例を示す。図６に示すように、ドリフト候補データ６１は、決定境界４３をまたぎ、かつ特徴量空間においてばらつきを有するように生成される。よって、図６の例によれば、非ドリフトデータ４２が１００サンプルあれば、３００サンプルのドリフト候補データ６１を生成できる。もちろん、非ドリフトデータセットに含まれる全ての非ドリフトデータ４２からドリフト候補データ６１を作成する必要はなく、非ドリフトデータセットの中から選択された非ドリフトデータ４２のサブセットを用いて、ドリフト候補データ６１が生成されてもよい。

【0042】

次に、ドリフト候補データから増強データを生成するための処理概念について図７を参照して説明する。
図７は、図５と同様の特徴量空間上の特徴ベクトルの配置であり、非ドリフトデータセットの特徴ベクトル５３およびドリフトデータセットの特徴ベクトル５４に加えて、ドリフト候補データ６１の特徴ベクトル７１（第３の特徴ベクトル）を示す。

【0043】

算出機能１０３により処理回路１０は、ドリフト候補データ６１ごとに特徴ベクトル７１を算出する。特徴ベクトル７１の算出方法は、非ドリフトデータセット５１の特徴ベクトル５３およびドリフトデータセット５２の特徴ベクトル５４と同様の手法を用いればよい。

【0044】

生成機能１０４により処理回路１０は、特徴ベクトル５３、特徴ベクトル５４および特徴ベクトル７１に基づいて、ドリフト候補データの中から、増強データを生成する。増強データとして選択されるデータは、ドリフトデータセットの特徴量と関係性があるドリフト候補データであって、かつ非ドリフトデータセットの特徴量と関係性があるデータを除外したデータである。これは、少数のドリフトデータセットから決定される決定境界が不確かな境界であるため、増強データが現実のドリフトに即さないデータであること、または実際には非ドリフトデータセットの範疇に収まるデータとなってドリフトデータセットとならないことを防止するためである。

【0045】

生成機能１０４により処理回路１０は、ドリフト候補データの特徴ベクトル７１とドリフトデータセットの特徴ベクトル５４とのコサイン類似度θ_１が閾値以上であるドリフト候補データを選択し、ドリフト候補データの特徴ベクトル７１と非ドリフトデータセットの特徴ベクトル５３とのコサイン類似度θ_２が閾値以上であるドリフト候補データを除外することにより、ドリフトデータセットの増強データを生成する。言い換えれば、生成機能１０４により処理回路１０は、コサイン類似度θ_１が閾値以上であり、かつコサイン類似度θ_２が閾値未満であるドリフト候補データを、増強データとして生成する。なお、増強データの生成数について制約はなく、例えばコサイン類似度の閾値を調整することにより、設計仕様に合わせて増減させればよい。例えば、コサイン類似度の閾値を小さくすれば増強データの生成数は多くなり、コサイン類似度の閾値を大きくすれば増強データの生成数は少なくなる。

【0046】

次に、生成機能１０４により生成された増強データの分布の一例について図８を参照して説明する。
図８は、図４と同様に２次元の特徴量空間におけるデータ分布を示す。図７に示したようにドリフトデータセットのデータ傾向と相関関係を有する増強データ８１が複数プロットされる。このように、ドリフトデータセットが少数の段階でも、ドリフトデータセットのデータ傾向を考慮し、非ドリフトデータセットのデータ傾向とは異なる増強データを所望のデータ数生成し、ドリフトデータセットのサンプル数を増やすことができる。

【0047】

次に、本実施形態に係るドリフトスコアの傾向およびＣＤＳモデルの性能評価の表示例について図９を参照して説明する。
図９は、例えばディスプレイ１４またはネットワークＮＷに接続される外部ディスプレイに表示される、ドリフトスコアの傾向およびＣＤＳモデルの性能評価の表示画面９０である。
図９の例では、表示制御機能１０６により処理回路１０は、４つの表示領域にデータ傾向および性能評価に関するグラフを表示させるように制御する。

【0048】

図９左上の第１の表示領域９１には、非ドリフトデータセットとドリフトデータセットと増強データとのデータ分布を示す図８のプロット図が表示される図９左下の第２の表示領域９２には、各特徴ベクトルのドリフトスコアの傾向を示す図７の特徴量空間のグラフが表示される。

【0049】

図９右上の第３の表示領域９３には、ドリフトデータセットおよび増強データを用いて実施される、現状のＣＤＳモデルの性能評価を表示する。例えば、第３の表示領域９３のグラフは、横軸が時系列に沿ったデータ数を示し、縦軸がＣＤＳモデルによる予測精度を示す。第３の表示領域９３に示されるグラフでは、データ数が増えるほど予測精度が低減しており、現状のＣＤＳモデルではドリフトデータセットに対応できていないことがわかる。
図９右下の第４の表示領域９４では、ＣＤＳモデルを再学習した後の新たなＣＤＳモデルの性能評価を表示する。第４の表示領域９４のグラフも同様に、横軸が時系列に沿ったデータ数を示し、縦軸が予測精度である。第４の表示領域に示されるグラフでは、データ数が増えるほど予測精度が向上しており、ドリフトデータセットに対応できていることがわかる。

【0050】

このように、非ドリフトデータセット、ドリフトデータセットおよび増強データのデータ分布と、現状のモデルの性能評価および再学習後のモデルの性能評価を表示することで、ユーザの判断およびモデルの管理を支援できる。具体的には、ドリフトデータセットが発生しているのか、ドリフトデータセットが発生している場合は、当該ドリフトデータセットを用いて現状のモデルを再学習して更新すべきかどうかの判断の指標を提示できる。

【0051】

なお、上述の例では、データがドリフトし、ドリフトデータセットが発生する場合を想定したが、これに限らない。例えば、複数のデータカテゴリが存在し、少数のデータしか取得できていないカテゴリが存在する場合にも適用可能である。すなわち、６０代以上の患者情報は収集されているが、３０代未満の患者情報が少ない場合、互いのデータ傾向は異なると考えられる。よって、６０代以上の患者情報を第１のデータセットとして、３０台未満の患者情報を第２のデータセットとして取り扱うことで、非ドリフトデータセットおよびドリフトデータセットと同様に処理できる。すなわち、本実施形態に係る情報処理装置１によれば、ドリフトデータに限らず、データ傾向が異なる少数のデータについて増強データを生成することもできる。

【0052】

以上に示した本実施形態によれば、データ傾向の乖離度を示すスコアを、第１のデータセット及び第２のデータセットの特徴量ごとに算出する。第１のデータセットの第１の特徴ベクトルを算出し、当該第１のデータセットとはデータ傾向が異なる第２のデータセットとの第１の特徴ベクトルを算出する。第１のデータセットに基づき生成された候補データから、第１の特徴ベクトルと第２の特徴ベクトルとに基づいて、増強データを生成する。

【0053】

具体的に、第１のデータセットが非ドリフトデータセットであり、第２のデータセットがドリフトデータセットである場合、非ドリフトデータセットに基づき生成されたモデルを用いて、当該モデルから出力されるスコアに基づき１以上のドリフト候補データが生成される。ドリフト候補データの中から、非ドリフトデータセットには類似せず、ドリフトデータセットに類似するデータを増強データとして生成するため、非ドリフトデータセットに基づいているため非現実的なドリフトデータセットではなく、ドリフトデータセットとして現実的なデータを生成できる。すなわち、少数データから現実的かつ多様な増強データを生成できる。

【0054】

なお、上記説明において用いた「プロセッサ」という文言は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、或いは、特定用途向け集積回路（Application Specific Integrated Circuit：ＡＳＩＣ）、プログラマブル論理デバイス（例えば、単純プログラマブル論理デバイス（Simple Programmable Logic Device：ＳＰＬＤ）、複合プログラマブル論理デバイス（Complex Programmable Logic Device：ＣＰＬＤ）、及びフィールドプログラマブルゲートアレイ（Field Programmable Gate Array：ＦＰＧＡ））などの回路を意味する。プロセッサが例えばＣＰＵである場合、プロセッサは記憶回路に保存されたプログラムを読み出し実行することで機能を実現する。一方、プロセッサが例えばＡＳＩＣである場合、プログラムが記憶回路に保存される代わりに、当該機能がプロセッサの回路内に論理回路として直接組み込まれる。なお、本実施形態の各プロセッサは、プロセッサごとに単一の回路として構成される場合に限らず、複数の独立した回路を組み合わせて１つのプロセッサとして構成し、その機能を実現するようにしてもよい。さらに、図における複数の構成要素を１つのプロセッサへ統合してその機能を実現するようにしてもよい。

【0055】

加えて、実施形態に係る各機能は、前記処理を実行するプログラムをワークステーション等のコンピュータにインストールし、これらをメモリ上で展開することによっても実現することができる。このとき、コンピュータに前記手法を実行させることのできるプログラムは、磁気ディスク（ハードディスクなど）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤなど）、半導体メモリなどの記憶媒体に格納して頒布することも可能である。

【0056】

いくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更、実施形態同士の組み合わせを行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

【符号の説明】

【0057】

１情報処理装置
１０処理回路
１１メモリ
１２入力インタフェース
１３通信インタフェース
１４ディスプレイ
２１患者情報格納部
２２ＣＤＳモデル格納部
２３訓練部
２４実行部
４０プロット図
４１ドリフトデータ
４２非ドリフトデータ
４３決定境界
５１非ドリフトデータセット
５２ドリフトデータセット
５３，５４，７１特徴ベクトル
６１ドリフト候補データ
８１増強データ
９０表示画面
９１第１の表示領域
９２第２の表示領域
９３第３の表示領域
９４第４の表示領域
１０１取得機能
１０２決定機能
１０３算出機能
１０４生成機能
１０５評価機能
１０６表示制御機能
２１０テーブル

【図1】