(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024171674
(43)【公開日】2024-12-12
(54)【発明の名称】情報処理装置、情報処理方法および情報処理プログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20241205BHJP
G06F 18/213 20230101ALI20241205BHJP
【FI】
G06N20/00
G06F18/213
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2023088816
(22)【出願日】2023-05-30
(71)【出願人】
【識別番号】594164542
【氏名又は名称】キヤノンメディカルシステムズ株式会社
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】有田 亘佑
(72)【発明者】
【氏名】佐々木 翔
(57)【要約】
【課題】少数のデータから現実的かつ多様な増強データを生成できること。
【解決手段】本実施形態に係る情報処理装置は、取得部と、算出部と、生成部とを含む。取得部は、第1のデータ傾向を有する第1のデータセットと、前記第1のデータ傾向とは異なる第2のデータ傾向を有する第2のデータセットとを取得する。算出部は、前記第1のデータセットに基づいた第1の特徴ベクトルと、前記第2のデータセットに基づいた第2の特徴ベクトルとを算出する。生成部は、前記第1の特徴ベクトルと前記第2の特徴ベクトルとに基づいて、前記第2のデータ傾向を有する増強データを生成する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
第1のデータ傾向を有する第1のデータセットと、前記第1のデータ傾向とは異なる第2のデータ傾向を有する第2のデータセットとを取得する取得部と、
前記第1のデータセットに基づいた第1の特徴ベクトルと、前記第2のデータセットに基づいた第2の特徴ベクトルとを算出する算出部と、
前記第1の特徴ベクトルと前記第2の特徴ベクトルとに基づいて、前記第2のデータ傾向を有する増強データを生成する生成部と、
を具備する情報処理装置。
【請求項2】
前記第2のデータセットは、前記第1のデータセットよりもデータ数が少ない、請求項1に記載の情報処理装置。
【請求項3】
前記生成部は、前記第1のデータセットから、前記第2のデータセットに属する候補となる1以上の候補データを生成し、前記第1の特徴ベクトルと前記第2の特徴ベクトルと前記候補データとに基づいて、前記候補データの中から前記増強データを生成する、請求項1に記載の情報処理装置。
【請求項4】
前記算出部は、前記1以上の候補データそれぞれについて第3の特徴ベクトルを算出し、
前記生成部は、前記1以上の候補データから前記第3の特徴ベクトルと前記第1の特徴ベクトルとが所定の関係性を有する特徴ベクトルを選択し、選択された特徴ベクトルの中で前記第3の特徴ベクトルと前記第2の特徴ベクトルとが前記所定の関係性を有する特徴ベクトルを除外することで、前記増強データを生成する、請求項3に記載の情報処理装置。
【請求項5】
前記第1のデータセットと前記第2のデータセットとを分類する決定境界を決定する決定部をさらに具備し、
前記生成部は、前記第1のデータセットの中から、前記第2のデータセット側へ前記決定境界をまたぎ、かつデータの多様性を示す指標が閾値以上となる1以上のデータを、前記第2のデータセットに属する候補となる候補データとして生成する、請求項1に記載の情報処理装置。
【請求項6】
前記第2のデータセットおよび前記増強データを用いて、前記第1のデータセットで学習された学習済みモデルの再学習が必要であるか否かを評価する評価部をさらに具備する、請求項1に記載の情報処理装置。
【請求項7】
前記第1のデータセット、前記第2のデータセット、および前記第1のデータセットと前記第2のデータセットとを分類する決定境界について表示するように制御する表示制御部をさらに具備する、請求項1に記載の情報処理装置。
【請求項8】
前記第1の特徴ベクトル、前記第2の特徴ベクトル、および前記第1のデータセットから生成された、前記第2のデータセットに属する候補となる1以上の候補データに関する第3の特徴ベクトルを表示するように制御する表示制御部をさらに具備する、請求項1に記載の情報処理装置。
【請求項9】
前記第1のデータセットおよび前記増強データを用いて、前記第1のデータセットで学習された学習済みモデルの性能評価を表示するように制御する表示制御部をさらに具備する、請求項1に記載の情報処理装置。
【請求項10】
前記第1のデータセットおよび前記増強データを用いて再学習された学習済みモデルの性能評価を表示するように制御する表示制御部をさらに具備する、請求項1に記載の情報処理装置。
【請求項11】
第1のデータ傾向を有する第1のデータセットと、前記第1のデータ傾向とは異なる第2のデータ傾向を有する第2のデータセットとを取得し、
前記第1のデータセットに基づいた第1の特徴ベクトルと、前記第2のデータセットに基づいた第2の特徴ベクトルとを算出し、
前記第1の特徴ベクトルと前記第2の特徴ベクトルとに基づいて、前記第2のデータ傾向を有する増強データを生成する、
情報処理方法。
【請求項12】
コンピュータに、
第1のデータ傾向を有する第1のデータセットと、前記第1のデータ傾向とは異なる第2のデータ傾向を有する第2のデータセットとを取得する取得機能と、
前記第1のデータセットに基づいた第1の特徴ベクトルと、前記第2のデータセットに基づいた第2の特徴ベクトルとを算出する算出機能と、
前記第1の特徴ベクトルと前記第2の特徴ベクトルとに基づいて、前記第2のデータ傾向を有する増強データを生成する生成機能と、
を実現させる情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書及び図面に開示の実施形態は、情報処理装置、情報処理方法および情報処理プログラムに関する。
【背景技術】
【0002】
近年の医療AIの進歩に伴い、機械学習により学習された意思決定支援(CDS:Clinical Decision Support)モデルを用いたCDSシステムが利用されている。しかし臨床現場では、患者情報に基づくデータ傾向が、CDSモデルの訓練時において利用したデータ群のデータ傾向から変化する「ドリフト」が発生しやすい。このようなドリフトによって、CDSモデルの性能が低下する恐れがある。ドリフトが発生していると分かった場合は、早期に対処することが望まれる。
ドリフトが発生した場合のモデル管理手法として、新規のドリフトデータセットの分布とモデルのデータの分布とが近いモデルで再学習する手法がある。また、多様性のあるデータを生成する手法として、反実仮想サンプル生成手法がある。
【0003】
しかし、これらの手法をドリフトが発生した初期段階で採用した場合、ドリフトデータセットのデータ数が少ないことにより、構築される決定境界が不確実なものになると考えられる。つまり、将来起こりえないドリフトデータセットが生成されるといった、生成されるデータの精度が低くなる可能性がある。結果として、現実の患者データを正しく推定できないCDSモデルが生成されうるという問題がある。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
本明細書及び図面に開示の実施形態が解決しようとする課題の一つは、少数データから現実的かつ多様な増強データを生成できることである。ただし、本明細書及び図面に開示の実施形態により解決しようとする課題は上記課題に限られない。後述する実施形態に示す各構成による各効果に対応する課題を他の課題として位置づけることもできる。
【課題を解決するための手段】
【0006】
本実施形態に係る情報処理装置は、取得部と、算出部と、生成部とを含む。取得部は、第1のデータ傾向を有する第1のデータセットと、前記第1のデータ傾向とは異なる第2のデータ傾向を有する第2のデータセットとを取得する。算出部は、前記第1のデータセットに基づいた第1の特徴ベクトルと、前記第2のデータセットに基づいた第2の特徴ベクトルとを算出する。生成部は、前記第1の特徴ベクトルと前記第2の特徴ベクトルとに基づいて、前記第2のデータ傾向を有する増強データを生成する。
【図面の簡単な説明】
【0007】
【
図1】
図1は、本実施形態に係る情報処理装置を含む情報処理システムを示すブロック図である。
【
図2】
図2は、本実施形態に係る情報処理装置の動作を示すフローチャートである。
【
図3】
図3は、本実施形態に係るドリフトデータセットおよび非ドリフトデータセットの具体例を示す図である。
【
図4】
図4は、本実施形態に係る決定境界の一例を示す図である。
【
図5】
図5は、本実施形態に係るドリフトデータセットおよび非ドリフトデータセットの特徴ベクトルの一例を示す図である。
【
図6】
図6は、本実施形態に係るドリフト候補データの生成例を示す図である。
【
図7】
図7は、本実施形態に係るドリフト候補データから増強データを生成するための処理概念を示す図である。
【
図8】
図8は、本実施形態に係る生成された増強データの分布の一例を示す図である。
【
図9】
図9は、本実施形態に係る画面表示の一例を示す図である。
【発明を実施するための形態】
【0008】
以下、図面を参照しながら本実施形態に係る情報処理装置、情報処理方法および情報処理プログラムについて説明する。以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。以下、一実施形態について図面を用いて説明する。
【0009】
本実施形態に係る情報処理装置を含む情報処理システムについて
図1のブロック図を参照して説明する。
本実施形態に係る情報処理システムは、情報処理装置1と、患者情報格納部21と、CDSモデル格納部22と、訓練部23と、実行部24とを含み、それぞれがネットワークNWで接続される。ネットワークNWは、院内ネットワークを想定するが、VPN(Virtual Private Network)などを用いてデータの秘匿性を確保できるのであれば、外部のネットワークを用いて、各構成(情報処理装置1、患者情報格納部21、CDSモデル格納部22、訓練部23および実行部24)が接続されてもよい。
【0010】
患者情報格納部21は、患者ごとの患者情報を格納する。患者情報は、例えば、患者ID、患者氏名、性別、および年齢などの患者を識別する情報と、既往歴、所見情報、病名情報、治療内容、クリニカルパスといった患者の診療に関する情報とを含む。
CDS(Clinical Decision Support)モデル格納部22は、訓練部23により患者情報などを用いて機械学習モデルを訓練することで生成された学習済みモデルを格納する。以下では、学習済みモデルとして、意思決定を支援するためのCDSモデルを例に説明するが、画像診断や予後判定など他の用途に用いられるモデルであってもよい。
【0011】
訓練部23は、ニューラルネットワークなどの機械学習モデルを訓練し、CDSモデルを生成する。訓練部23は、CDSモデルを再訓練(再学習)することで、再学習済みモデルである更新されたCDSモデルを生成する。機械学習モデルの訓練方法については、一般的な機械学習方法、例えば教師あり学習を用いればよいため、詳細な説明は省略する。
実行部24は、新たに取得した患者情報に対してCDSモデルを用いて推論を実行する。実行部24は、新たに取得した患者情報に対して更新されたCDSモデルを用いて推論を実行する。
【0012】
情報処理装置1は、処理回路10、メモリ11、入力インタフェース12、通信インタフェース13およびディスプレイ14を有し、それぞれがバスまたはネットワークで接続される。
【0013】
処理回路10は、ハードウェア資源としてCPU(Central Processing Unit)、GPU(Graphics Processing Unit)などのプロセッサを有する。例えば、処理回路10は、各種プログラムの実行により取得機能101と、決定機能102と、算出機能103と、生成機能104と、評価機能105と、表示制御機能106とを実現する。
なお、上述した訓練部23および実行部24は、情報処理装置1の処理回路の一機能として組み込まれてもよい。
【0014】
取得機能101は、第1のデータ傾向を有する第1のデータセットと、前記第1のデータ傾向とは異なる第2のデータ傾向を有する第2のデータセットとを取得する。以下では、第1のデータセットとして、患者情報のうちのドリフトが発生していない非ドリフトデータセットを例に説明する。第2のデータセットとして、患者情報のうちのドリフトが発生しているドリフトデータセットを例に説明する。
【0015】
決定機能102は、非ドリフトデータセットとドリフトデータセットとを分類する決定境界を決定する。
【0016】
算出機能103は、非ドリフトデータセットに基づいた第1の特徴ベクトルと、ドリフトデータセットに基づいた第2の特徴ベクトルとを算出する。
【0017】
生成機能104は、第1のデータセットから、第2のデータセットに属する候補となる1以上の候補データ(以下では、ドリフト候補データ)を生成し、1以上の候補データの中から、第1の特徴ベクトルと第2の特徴ベクトルとに基づいて、第1のデータ傾向を有する増強データを生成する。
【0018】
評価機能105は、第2のデータセットおよび増強データを用いて、第1のデータセットで学習された学習済みモデルの再学習が必要であるか否かを評価する。
【0019】
表示制御機能106は、各種データおよびGUI(Graphical User Interface)をディスプレイ14に表示するように制御する。例えば、表示制御機能106は、ドリフトデータセット、増強データおよび特徴ベクトルに関するグラフ、およびCDSモデルの性能評価に関するグラフをディスプレイ14に表示するように制御する。
【0020】
メモリ11は、後述するように、非ドリフトデータセットおよびドリフトデータセット、特徴ベクトル、候補データ、増強データなど、種々の情報を記憶するHDD(Hard Disk Drive)やSSD(Solid State Drive)、集積回路記憶装置などの記憶装置である。また、メモリ11は、CD-ROMドライブやDVDドライブ、フラッシュメモリなどの可搬型記憶媒体との間で種々の情報を読み書きする駆動装置等であってもよい。例えば、メモリ11は、過去に収集された医用データ、制御プログラムなどを記憶する。
【0021】
入力インタフェース12は、ユーザからの各種指令を受け付ける入力機器を含む。入力機器としては、キーボードやマウス、各種スイッチ、タッチスクリーン、タッチパッドなどが利用可能である。なお、入力機器は、マウス、キーボードなどの物理的な操作部品を備えるものだけに限らない。例えば、磁気共鳴イメージング装置20とは別体に設けられた外部の入力機器から入力操作に対応する電気信号を受け取り、受け取った電気信号を種々の回路へ出力するような電気信号の処理回路も入力インタフェース12の例に含まれる。また、入力インタフェース12は、マイクロフォンにより収集された音声信号を指示信号に変換する音声認識装置でもよい。
【0022】
通信インタフェース13は、LAN(Local Area Network)等を介して、ワークステーションやPACS(Picture Archiving and Communication System)、HIS(Hospital Information System)、RIS(Radiology Information System)、X線CT(Computed Tomography)装置やMRI(Magnetic Resonance Imaging)装置といった医用画像診断装置などとを接続するインタフェースである。通信インタフェース13は、各種情報を接続先のワークステーション、PACS、HISおよびRISとの間で送受信する。
【0023】
ディスプレイ14は、種々の情報を表示する。ディスプレイ14としては、例えば、CRTディスプレイや液晶ディスプレイ、有機ELディスプレイ、LEDディスプレイ、プラズマディスプレイ、または当技術分野で知られている他の任意のディスプレイが適宜利用可能である。
【0024】
次に、本実施形態に係る情報処理装置1の動作例について
図2のフローチャートを参照して説明する。
ステップSA1では、取得機能101により処理回路10が、患者情報に関するドリフトデータセットおよび非ドリフトデータセットを取得する。ここでは、患者情報ごとにドリフトデータであるか非ドリフトデータであるかのラベルがあらかじめ付与されていることを想定する。
【0025】
ステップSA2では、決定機能102により処理回路10が、ドリフトデータセットおよび非ドリフトデータセットの決定境界を決定する。
ステップSA3では、算出機能103により処理回路10が、ドリフトスコアモデルに基づいて、ドリフトデータセットおよび非ドリフトデータセットのそれぞれに対し、特徴量に基づいてドリフトデータセットの傾向を示す特徴ベクトルを算出する。例えば、1以上の特徴量を有するドリフトデータセットが、同じ特徴量を有する非ドリフトデータセットからどれだけ乖離しているかを示すドリフトスコアに基づき、特徴ベクトルを算出する。特徴ベクトルの算出については、
図5を参照して後述する。
【0026】
ステップSA4では、生成機能104により処理回路10が、非ドリフトデータセットに基づいて、1以上のドリフト候補データを生成する。ドリフト候補データは、ドリフトデータセットに属する候補となるデータを示す。
ステップSA5では、生成機能104により処理回路10が、各ドリフト候補データと各特徴ベクトルとに基づいて、増強データを生成する。増強データは、ドリフトデータセットのデータ傾向に属し、かつ非ドリフトデータセットのデータ傾向とは異なるデータである。このようなデータ傾向を選択する理由は、少数のドリフトデータセットに基づいて決定される決定境界はあいまいな境界であるため、増強データが、現実のドリフトデータセットに即さない、または非ドリフトデータセットのままの傾向とならないよう、現実のドリフトデータセットのデータ傾向に即したデータを生成できるようにするためである。
【0027】
ステップSA6では、評価機能105により処理回路10が、生成された増強データおよびドリフトデータセットを用いて、非ドリフトデータセットで訓練した学習済みモデルであるCDSモデルの性能を評価する。具体的には、評価機能105により処理回路10が、実行部24による推論を実行させ、増強データまたはドリフトデータセットを学習済みモデルに入力することで、所望の推論精度が得られるかどうかを検証すればよい。
ステップSA7では、評価機能105により処理回路10が、CDSモデルの再学習が必要であるか否かを判定する。ステップSA6の処理により所望の推論結果が得られない場合、例えば推論精度が閾値未満である場合、再学習が必要であると判定してステップSA8に進む。一方、所望の処理結果が得られた場合、例えば推論精度が閾値以上である場合、再学習は不要であるとしてステップSA9に進む。
【0028】
ステップSA8では、評価機能105により処理回路10が、訓練部23に対して指示することにより、ドリフトデータセットおよび増強データを用いてCDSモデルの再学習を実行し、再学習済みのCDSモデル、言い換えれば更新されたCDSモデルを生成する。
ステップSA9では、表示制御機能106により処理回路10が、CDSモデルの性能評価に関する指標などを表示する。具体的には、
図9を参照して後述する。
【0029】
次に、ドリフトデータセットおよび非ドリフトデータセットの具体例について
図3を参照して説明する。
図3に示すテーブル210は、患者情報格納部21に格納される患者情報を示す。ここでは、患者ID、バイタル、検体検査値、医師自由記述、発症ラベルおよびドリフトラベルがそれぞれ対応付けられ、1つのデータ項目として格納される。なお、ドリフトラベル以外の項目は、患者IDに対してどのような情報が対応付けられていてもよい。
図3の例では、患者情報に含まれる、検体検査値、バイタルおよび医用画像から算出した特徴量などが、患者情報の特徴量の役割を果たす。ここでは、バイタル、検体検査値、医師自由記述が特徴量に相当する。発症ラベルは、例えば陰性であるか陽性であるかを示す値であり、患者情報に対する正解ラベルの役割を果たす。ドリフトラベルは、過去の患者情報に係るデータ傾向から当該データ項目が乖離した傾向のデータであるか否か、すなわちドリフトデータセットであるか否かを示すラベルである。ドリフトラベルは、ドリフトデータであれば「1」とし、非ドリフトデータであれば「0」とする。なお、「1」「0」に限らず、どのような記号、文字列で区別されてもよい。
【0030】
患者情報の各データ項目がドリフトデータであるか非ドリフトデータであるかは、予めラベル付けされていることを想定する。例えば、CDSモデルのモデル学習に用いたデータ、CDSモデルの運用時に取得したデータのうちドリフトデータであるとドリフト検知機能がアラートしなかったデータ、ドリフトが生じていないと医師が判断したデータは、非ドリフトデータであるといえる。一方、例えば、CDSモデルの運用時に取得したデータのうちドリフト検知機能がアラートしたデータ、ドリフトが生じたと医師が判断したデータは、ドリフトデータであるといえる。
【0031】
ドリフト検知機能としては、例えば、患者情報のデータ分布の変化を監視し、CDSモデルの訓練時のデータ分布と、その後の推論時に得られた患者情報のデータ分布との乖離度を、Wasserstein距離やKolmogorov-Smirnov検定、ユークリッド距離またはカイ二乗統計量などの関数を用いればよい。当該関数からの出力が閾値以上であれば、推論時に得られた患者情報は、訓練時のデータとは乖離しており、ドリフトデータセットであると判定できる。
図3の例では、患者ID「001」のデータ項目は、ドリフトラベルが「0」であるため、非ドリフトデータであることがわかる。一方、患者ID「002」および「003」のデータ項目は、ドリフトラベルが「1」であるため、これらのデータがドリフトデータであることがわかる。
【0032】
次に、本実施形態に係る決定境界の一例について
図4を参照して説明する。
図4は、患者情報に含まれる2種類の特徴量(ここではf1、f2と表記する)を軸とした2次元の特徴量空間における患者情報の分布を示すプロット
図40である。決定機能102により処理回路10は、患者情報のドリフトラベルに基づき、ドリフトデータセットと非ドリフトデータセットとを分類した場合の境界となる決定境界を決定する。決定境界の決定方法としては、例えばSVM(Support Vector Machine)またはニューラルネットワークを用いた一般的な決定境界の決定方法を用いればよく、詳細な説明は省略する。
【0033】
具体的に
図4の例では、特徴量f1を横軸、特徴量f2を縦軸とした2次元の特徴量空間上に患者情報がプロットされる。プロット
図40には、患者情報のうちのドリフトデータ41が丸でプロットされており、ドリフトデータセットが形成される。同様に、プロット
図40には、患者情報のうちの非ドリフトデータ42が三角でプロットされており、非ドリフトデータセットが形成される。
図4に示すように、ドリフトデータセットと非ドリフトデータセットとはデータ分布に乖離がある。よって、ドリフトデータセットと非ドリフトデータセットとを分類する決定境界43が2次元の特徴量空間上で決定できる。
【0034】
なお、本実施形態では、ドリフトデータセットが非ドリフトデータセットよりも少数である場合の処理を前提としているため、少数のドリフトデータセットに基づき決定される決定境界は、精度が低いことが想定される。また、説明の便宜上、2次元の特徴量空間のプロット
図40において2種類の特徴量に対する決定境界を決定する場合を例としたが、実際には患者情報に3種類以上の特徴量が含まれる場合もある。このような3種類以上の特徴量が含まれる場合であっても同様に、SVMまたはニューラルネットワークなどを用いた一般的な決定境界の決定方法により、特徴量間における決定境界が決定されればよい。
【0035】
次に、ドリフトデータセットおよび非ドリフトデータセットの特徴ベクトルの一例について
図5を参照して説明する。
図5左図は、患者情報における各特徴量f1-f3の変化を示すグラフである。横軸は患者情報のサンプル番号、すなわち
図3に示すデータ項目を、例えば時系列順にならべたものであり、縦軸は特徴量のドリフトスコアである。当該グラフには、非ドリフトデータセット51の値、ドリフトデータセット52の値がそれぞれプロットされる。
【0036】
ドリフトスコアは、非ドリフトデータセット51から算出したドリフトスコアモデルを用いて算出すればよい。非ドリフトデータセット51の特徴を基準とすることで、ドリフトデータセット52のサンプル数に依存しない制約を算出できる。例えば、算出機能103により処理回路10が、非ドリフトデータセット51の各特徴量の相関関係を抽出し、各特徴量の相関を示すガウシアングラフィカルモデル、または構造方程式モデルによりドリフトスコアモデルを構築すればよい。例えば、特徴量f2は、特徴量f1を0.4倍した値であり、特徴量f3は、特徴量f1を0.6倍した値であるという相関関係を、ドリフトスコアモデルとして構築できる。
算出機能103により処理回路10が、非ドリフトデータセット51およびドリフトデータセット52それぞれに対してドリフトスコアモデルを適用し、特徴量ごとのドリフトスコアを算出する。
図5左図の例では、特徴量f1および特徴量f2は、非ドリフトデータセット51とドリフトデータセット52とでドリフトスコアが乖離している。一方、特徴量f3では、非ドリフトデータセット51とドリフトデータセット52とでドリフトスコアがほぼ同じ値である。
【0037】
続いて、
図5右図に示すように、算出機能103により処理回路10が、非ドリフトデータセット51について、特徴量ごとに、各非ドリフトデータのドリフトスコアの平均値を算出し、1つの特徴量を1つの軸とした特徴量空間において特徴ベクトル53を算出する。同様にドリフトデータセット52についても、特徴量ごとに各非ドリフトデータのドリフトスコアの平均値を算出し、1つの特徴量を1つの軸とした多次元の特徴量空間において特徴ベクトル54を算出する。
図5右図の例では、非ドリフトデータセット51に基づく特徴ベクトル53と、ドリフトデータセット52に基づく特徴ベクトル54とが特徴量空間上に表現される。特徴ベクトル53と特徴ベクトル54とを比較すると、特徴量f3では差はないが、特徴量f1は、ドリフトデータセットのほうが非ドリフトデータセットよりもドリフトスコアが大きいということがわかる。
なお、ドリフトスコアの平均値に限らず、中央値など他の統計値に基づいて特徴ベクトルが算出されてもよい。
【0038】
次に、本実施形態に係るドリフト候補データの生成例について
図6を参照して説明する。
図6は、
図4と同様に、特徴量f1を横軸、特徴量f2を縦軸とした2次元の特徴量空間上に非ドリフトデータセットおよびドリフトデータセットを表示した例である。
生成機能104により処理回路10が、1つの非ドリフトデータ42から1以上のドリフト候補データ61を生成する。ドリフト候補データ61の生成方法は、例えばニューラルネットワーク、SVM、強化学習、遺伝的アルゴリズムといった手法を用いて生成すればよい。本実施形態では、例えば、非ドリフトデータ42である患者情報の特徴量をばらつかせることにより、1以上のドリフト候補データ61を生成する。
【0039】
また、ドリフト候補データを生成する際の条件として、2つの条件を設定する。
1つ目の条件は、非ドリフトデータ42から決定境界43をまたいでドリフトデータセット側に属するデータとなるように生成する。これは、多数のサンプルが存在する非ドリフトデータセットに基づいてドリフトデータセットを生成することでデータの現実性および確実性を向上させるためである。当該1つ目の条件を満たすためには、生成機能104により処理回路10は、例えば、ヒンジ損失を損失関数として用いて、損失が閾値以下となるようなドリフト候補データ61を生成すればよい。
【0040】
2つ目の条件は、複数のドリフト候補データ61を生成する場合に、生成したドリフト候補データ61間において多様性を有することである。これは、複数のドリフトデータを増強する場合に、多様性を有するほうが実益があるからである。当該2つ目の条件を満たすためには、生成機能104により処理回路10が、例えば、多様性を示す指標が閾値以上となる、具体的にはドリフト候補データ61間のエントロピーまたはニューロンカバレッジが閾値以上となるように、複数のドリフト候補データ61を生成すればよい。
【0041】
図6の例では、1つの非ドリフトデータ42から3つのドリフト候補データ61を生成した例を示す。
図6に示すように、ドリフト候補データ61は、決定境界43をまたぎ、かつ特徴量空間においてばらつきを有するように生成される。よって、
図6の例によれば、非ドリフトデータ42が100サンプルあれば、300サンプルのドリフト候補データ61を生成できる。もちろん、非ドリフトデータセットに含まれる全ての非ドリフトデータ42からドリフト候補データ61を作成する必要はなく、非ドリフトデータセットの中から選択された非ドリフトデータ42のサブセットを用いて、ドリフト候補データ61が生成されてもよい。
【0042】
次に、ドリフト候補データから増強データを生成するための処理概念について
図7を参照して説明する。
図7は、
図5と同様の特徴量空間上の特徴ベクトルの配置であり、非ドリフトデータセットの特徴ベクトル53およびドリフトデータセットの特徴ベクトル54に加えて、ドリフト候補データ61の特徴ベクトル71(第3の特徴ベクトル)を示す。
【0043】
算出機能103により処理回路10は、ドリフト候補データ61ごとに特徴ベクトル71を算出する。特徴ベクトル71の算出方法は、非ドリフトデータセット51の特徴ベクトル53およびドリフトデータセット52の特徴ベクトル54と同様の手法を用いればよい。
【0044】
生成機能104により処理回路10は、特徴ベクトル53、特徴ベクトル54および特徴ベクトル71に基づいて、ドリフト候補データの中から、増強データを生成する。増強データとして選択されるデータは、ドリフトデータセットの特徴量と関係性があるドリフト候補データであって、かつ非ドリフトデータセットの特徴量と関係性があるデータを除外したデータである。これは、少数のドリフトデータセットから決定される決定境界が不確かな境界であるため、増強データが現実のドリフトに即さないデータであること、または実際には非ドリフトデータセットの範疇に収まるデータとなってドリフトデータセットとならないことを防止するためである。
【0045】
生成機能104により処理回路10は、ドリフト候補データの特徴ベクトル71とドリフトデータセットの特徴ベクトル54とのコサイン類似度θ1が閾値以上であるドリフト候補データを選択し、ドリフト候補データの特徴ベクトル71と非ドリフトデータセットの特徴ベクトル53とのコサイン類似度θ2が閾値以上であるドリフト候補データを除外することにより、ドリフトデータセットの増強データを生成する。言い換えれば、生成機能104により処理回路10は、コサイン類似度θ1が閾値以上であり、かつコサイン類似度θ2が閾値未満であるドリフト候補データを、増強データとして生成する。なお、増強データの生成数について制約はなく、例えばコサイン類似度の閾値を調整することにより、設計仕様に合わせて増減させればよい。例えば、コサイン類似度の閾値を小さくすれば増強データの生成数は多くなり、コサイン類似度の閾値を大きくすれば増強データの生成数は少なくなる。
【0046】
次に、生成機能104により生成された増強データの分布の一例について
図8を参照して説明する。
図8は、
図4と同様に2次元の特徴量空間におけるデータ分布を示す。
図7に示したようにドリフトデータセットのデータ傾向と相関関係を有する増強データ81が複数プロットされる。このように、ドリフトデータセットが少数の段階でも、ドリフトデータセットのデータ傾向を考慮し、非ドリフトデータセットのデータ傾向とは異なる増強データを所望のデータ数生成し、ドリフトデータセットのサンプル数を増やすことができる。
【0047】
次に、本実施形態に係るドリフトスコアの傾向およびCDSモデルの性能評価の表示例について
図9を参照して説明する。
図9は、例えばディスプレイ14またはネットワークNWに接続される外部ディスプレイに表示される、ドリフトスコアの傾向およびCDSモデルの性能評価の表示画面90である。
図9の例では、表示制御機能106により処理回路10は、4つの表示領域にデータ傾向および性能評価に関するグラフを表示させるように制御する。
【0048】
図9左上の第1の表示領域91には、非ドリフトデータセットとドリフトデータセットと増強データとのデータ分布を示す
図8のプロット図が表示される
図9左下の第2の表示領域92には、各特徴ベクトルのドリフトスコアの傾向を示す
図7の特徴量空間のグラフが表示される。
【0049】
図9右上の第3の表示領域93には、ドリフトデータセットおよび増強データを用いて実施される、現状のCDSモデルの性能評価を表示する。例えば、第3の表示領域93のグラフは、横軸が時系列に沿ったデータ数を示し、縦軸がCDSモデルによる予測精度を示す。第3の表示領域93に示されるグラフでは、データ数が増えるほど予測精度が低減しており、現状のCDSモデルではドリフトデータセットに対応できていないことがわかる。
図9右下の第4の表示領域94では、CDSモデルを再学習した後の新たなCDSモデルの性能評価を表示する。第4の表示領域94のグラフも同様に、横軸が時系列に沿ったデータ数を示し、縦軸が予測精度である。第4の表示領域に示されるグラフでは、データ数が増えるほど予測精度が向上しており、ドリフトデータセットに対応できていることがわかる。
【0050】
このように、非ドリフトデータセット、ドリフトデータセットおよび増強データのデータ分布と、現状のモデルの性能評価および再学習後のモデルの性能評価を表示することで、ユーザの判断およびモデルの管理を支援できる。具体的には、ドリフトデータセットが発生しているのか、ドリフトデータセットが発生している場合は、当該ドリフトデータセットを用いて現状のモデルを再学習して更新すべきかどうかの判断の指標を提示できる。
【0051】
なお、上述の例では、データがドリフトし、ドリフトデータセットが発生する場合を想定したが、これに限らない。例えば、複数のデータカテゴリが存在し、少数のデータしか取得できていないカテゴリが存在する場合にも適用可能である。すなわち、60代以上の患者情報は収集されているが、30代未満の患者情報が少ない場合、互いのデータ傾向は異なると考えられる。よって、60代以上の患者情報を第1のデータセットとして、30台未満の患者情報を第2のデータセットとして取り扱うことで、非ドリフトデータセットおよびドリフトデータセットと同様に処理できる。すなわち、本実施形態に係る情報処理装置1によれば、ドリフトデータに限らず、データ傾向が異なる少数のデータについて増強データを生成することもできる。
【0052】
以上に示した本実施形態によれば、データ傾向の乖離度を示すスコアを、第1のデータセット及び第2のデータセットの特徴量ごとに算出する。第1のデータセットの第1の特徴ベクトルを算出し、当該第1のデータセットとはデータ傾向が異なる第2のデータセットとの第1の特徴ベクトルを算出する。第1のデータセットに基づき生成された候補データから、第1の特徴ベクトルと第2の特徴ベクトルとに基づいて、増強データを生成する。
【0053】
具体的に、第1のデータセットが非ドリフトデータセットであり、第2のデータセットがドリフトデータセットである場合、非ドリフトデータセットに基づき生成されたモデルを用いて、当該モデルから出力されるスコアに基づき1以上のドリフト候補データが生成される。ドリフト候補データの中から、非ドリフトデータセットには類似せず、ドリフトデータセットに類似するデータを増強データとして生成するため、非ドリフトデータセットに基づいているため非現実的なドリフトデータセットではなく、ドリフトデータセットとして現実的なデータを生成できる。すなわち、少数データから現実的かつ多様な増強データを生成できる。
【0054】
なお、上記説明において用いた「プロセッサ」という文言は、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、或いは、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、プログラマブル論理デバイス(例えば、単純プログラマブル論理デバイス(Simple Programmable Logic Device:SPLD)、複合プログラマブル論理デバイス(Complex Programmable Logic Device:CPLD)、及びフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA))などの回路を意味する。プロセッサが例えばCPUである場合、プロセッサは記憶回路に保存されたプログラムを読み出し実行することで機能を実現する。一方、プロセッサが例えばASICである場合、プログラムが記憶回路に保存される代わりに、当該機能がプロセッサの回路内に論理回路として直接組み込まれる。なお、本実施形態の各プロセッサは、プロセッサごとに単一の回路として構成される場合に限らず、複数の独立した回路を組み合わせて1つのプロセッサとして構成し、その機能を実現するようにしてもよい。さらに、図における複数の構成要素を1つのプロセッサへ統合してその機能を実現するようにしてもよい。
【0055】
加えて、実施形態に係る各機能は、前記処理を実行するプログラムをワークステーション等のコンピュータにインストールし、これらをメモリ上で展開することによっても実現することができる。このとき、コンピュータに前記手法を実行させることのできるプログラムは、磁気ディスク(ハードディスクなど)、光ディスク(CD-ROM、DVDなど)、半導体メモリなどの記憶媒体に格納して頒布することも可能である。
【0056】
いくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更、実施形態同士の組み合わせを行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0057】
1 情報処理装置
10 処理回路
11 メモリ
12 入力インタフェース
13 通信インタフェース
14 ディスプレイ
21 患者情報格納部
22 CDSモデル格納部
23 訓練部
24 実行部
40 プロット図
41 ドリフトデータ
42 非ドリフトデータ
43 決定境界
51 非ドリフトデータセット
52 ドリフトデータセット
53,54,71 特徴ベクトル
61 ドリフト候補データ
81 増強データ
90 表示画面
91 第1の表示領域
92 第2の表示領域
93 第3の表示領域
94 第4の表示領域
101 取得機能
102 決定機能
103 算出機能
104 生成機能
105 評価機能
106 表示制御機能
210 テーブル