(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024163549
(43)【公開日】2024-11-22
(54)【発明の名称】情報処理デバイス、情報処理システムおよび情報処理方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20241115BHJP
【FI】
G06N20/00
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023079271
(22)【出願日】2023-05-12
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110000062
【氏名又は名称】弁理士法人第一国際特許事務所
(72)【発明者】
【氏名】チャルキディス ジョージ
(72)【発明者】
【氏名】竹内 渉
(57)【要約】 (修正有)
【課題】小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度を有する機械学習モデルを生成する情報処理デバイスを提供する。
【解決手段】情報処理デバイスは、オリジナルデータセットについての分析結果を生成し、分散閾値に達する第1の分析結果と関連付けられたオリジナルデータセットの内から主体(患者や機械部品など)の第1のセットを識別する分散分析ユニットと、主体の第1のセットをオリジナルデータパーティションに分割し、コピー済みデータパーティションを生成するパーティションユニットと、改変済みコピーデータパーティションを生成する改変ユニットと、オリジナルデータパーティション及び改変済みコピーデータパーティションを使用して機械学習モデルを訓練し、その機械学習モデルを使用して第2の分析結果を生成し、各分析結果を集約することで最終分析結果を生成する結果生成ユニットと、を含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
プロセッサと、
前記プロセッサによって実行可能なコンピュータ実施可能命令を含むメモリと、
を備える情報処理デバイスであって、
前記コンピュータ実施可能命令は、前記プロセッサに、
機械学習モデルの第1のセットを用いてオリジナルデータセットを処理することによって、分析結果のセットを生成することと、
分析結果の前記セットに基づいて、分散閾値に達する第1の分析結果と関連付けられた主体の第1のセットを含む前記オリジナルデータセットの高分散サブセットを識別することと、
を行うように構成される分散分析ユニットと、
前記高分散サブセットの主体の前記第1のセットを第1のデータパーティションおよび第2のデータパーティションに分割することと、
前記第1のデータパーティションのコピーである第3のデータパーティションと、前記第2のデータパーティションのコピーである第4のデータパーティションとを生成することと、
を行うように構成されるパーティションユニットと、
前記第3のデータパーティションを改変することによって改変済み第3のデータパーティション、および前記第4のデータパーティションを改変することによって改変済み第4のデータパーティションを生成することを行うように構成される改変ユニットと、
前記第1のデータパーティション、前記第2のデータパーティション、前記改変済み第3のデータパーティション、および前記改変済み第4のデータパーティションを使用して、機械学習モデルの第2のセットを訓練することと、
機械学習モデルの前記第2のセットを用いて前記オリジナルデータセットを処理することによって、第2の分析結果を生成することと、
前記第1の分析結果と前記第2の分析結果とを集約して分類することによって前記高分散サブセットの主体の前記第1のセットについての最終分析結果を生成することと、
を行うように構成される結果生成ユニットと、
として機能させる、情報処理デバイス。
【請求項2】
前記改変ユニットは、
ノイズレベル基準に基づいて、第1のノイズ量を前記第3のデータパーティションの特徴の第3のセットに付加することによって前記改変済み第3のデータパーティションを生成することと、
前記ノイズレベル基準に基づいて、第2のノイズ量を前記第4のデータパーティションの特徴の第4のセットに付加することによって前記改変済み第4のデータパーティションを生成することと、
を行うように構成される、請求項1に記載の情報処理デバイス。
【請求項3】
前記改変ユニットは、
機械学習モデルの前記第2のセットを使用して、増加するノイズ量が付加された改変済みサンプルデータセットを繰り返し処理することによって、サンプル予測結果のセットを生成することと、
サンプル予測結果の前記セットから、所定の正確率閾値を満たすサンプル予測結果のサブセットを識別することと、
前記ノイズレベル基準として、前記所定の正確率閾値を満たすサンプル予測結果の前記サブセットと関連付けられた前記改変済みサンプルデータセットに対して付加された最大ノイズ量を決定することと、
を行うように構成される、請求項2に記載の情報処理デバイス。
【請求項4】
前記パーティションユニットは、
前記第1の分析結果を、前記オリジナルデータセットについてのグラウンドトゥルース結果に対して比較することによって前記第1の分析結果の正確率を評価することと、
真陽性結果と関連付けられた主体の前記第1のセットの第1のサブセットを前記第1のデータパーティションに分割することと、
偽陽性結果と関連付けられた主体の前記第1のセットの第2のサブセットを前記第2のデータパーティションに分割することと、
を行うように構成される、請求項1に記載の情報処理デバイス。
【請求項5】
前記改変済み第3のデータパーティションおよび前記改変済み第4のデータパーティションに対して真陽性または偽陽性のアウトカムラベルを割り当てるためのラベル付けユニット
をさらに備える、請求項1に記載の情報処理デバイス。
【請求項6】
前記ラベル付けユニットは、
前記第1のデータパーティションの主体の第1のサブセットと前記改変済み第3のデータパーティションの主体の第3のサブセットとの間の第1の類似度を計算し、
前記第1の類似度が類似度閾値に達する場合、真陽性結果ラベルを主体の前記第3のサブセットに割り当て、
前記第1の類似度が類似度閾値に達しない場合、偽陽性結果ラベルを主体の前記第3のサブセットに割り当て、
前記第2のデータパーティションの主体の第2のサブセットと前記改変済み第4のデータパーティションの主体の第4のサブセットとの間の第2の類似度を計算し、
前記第2の類似度が類似度閾値に達する場合、偽陽性結果ラベルを主体の前記第4のサブセットに割り当て、
前記第2の類似度が類似度閾値に達しない場合、真陽性結果ラベルを主体の前記第4のサブセットに割り当てる、
請求項5に記載の情報処理デバイス。
【請求項7】
情報処理デバイスと、
ユーザ端末と、
を備える情報処理システムであって、
前記情報処理デバイスは、
プロセッサと、
前記プロセッサによって実行可能なコンピュータ実施可能命令を含むメモリとを含み、前記コンピュータ実施可能命令は、前記プロセッサに、
機械学習モデルの第1のセットを用いてオリジナルデータセットを処理することによって、分析結果のセットを生成することと、
分析結果の前記セットに基づいて、分散閾値に達する第1の分析結果と関連付けられた主体の第1のセットを含む前記オリジナルデータセットの高分散サブセットを識別することと、
を行うように構成される分散分析ユニットと、
前記高分散サブセットの主体の前記第1のセットを第1のデータパーティションおよび第2のデータパーティションに分割することと、
前記第1のデータパーティションのコピーである第3のデータパーティションと、前記第2のデータパーティションのコピーである第4のデータパーティションとを生成することと、
を行うように構成されるパーティションユニットと、
前記第3のデータパーティションを改変することによって改変済み第3のデータパーティション、および前記第4のデータパーティションを改変することによって改変済み第4のデータパーティションを生成することを行うように構成される改変ユニットと、
前記第1のデータパーティション、前記第2のデータパーティション、前記改変済み第3のデータパーティション、および前記改変済み第4のデータパーティションを使用して、機械学習モデルの第2のセットを訓練することと、
機械学習モデルの前記第2のセットを用いて前記オリジナルデータセットを処理することによって、第2の分析結果を生成することと、
前記第1の分析結果と前記第2の分析結果とを集約して分類することによって前記高分散サブセットの主体の前記第1のセットについての最終分析結果を生成することと、
前記最終分析結果を前記ユーザ端末に出力することと、
を行うように構成される結果生成ユニットと、
として機能させる、情報処理システム。
【請求項8】
コンピュータによって実行される情報処理方法であって、前記情報処理方法は、
機械学習モデルの第1のセットを用いてオリジナルデータセットを処理することによって、分析結果のセットを生成するステップと、
分析結果の前記セットに基づいて、分散閾値に達する第1の分析結果と関連付けられた主体の第1のセットを含む前記オリジナルデータセットの高分散サブセットを識別するステップと、
前記高分散サブセットの主体の前記第1のセットを第1のデータパーティションおよび第2のデータパーティションに分割するステップと、
前記第1のデータパーティションのコピーである第3のデータパーティションと、前記第2のデータパーティションのコピーである第4のデータパーティションとを生成するステップと、
機械学習モデルのテストセットを使用して、増加するノイズ量が付加された改変済みサンプルデータセットを繰り返し処理することによって、サンプル予測結果のセットを生成するステップと、
サンプル予測結果の前記セットから、所定の正確率閾値を満たすサンプル予測結果のサブセットを識別するステップと、
ノイズレベル基準として、前記所定の正確率閾値を満たすサンプル予測結果の前記サブセットと関連付けられた前記改変済みサンプルデータセットに対して付加された最大ノイズ量を決定するステップと、
前記ノイズレベル基準に基づいて、第1のノイズ量を前記第3のデータパーティションの特徴の第3のセットに付加することによって改変済み第3のデータパーティションを生成するステップと、
前記ノイズレベル基準に基づいて、第2のノイズ量を前記第4のデータパーティションの特徴の第4のセットに付加することによって改変済み第4のデータパーティションを生成するステップと、
前記第1のデータパーティション、前記第2のデータパーティション、前記改変済み第3のデータパーティション、および前記改変済み第4のデータパーティションを使用して、機械学習モデルの第2のセットを訓練するステップと、
機械学習モデルの前記第2のセットを用いて前記オリジナルデータセットを処理することによって、第2の分析結果を生成するステップと、
前記第1の分析結果と前記第2の分析結果とを集約して分類することによって前記高分散サブセットの主体の前記第1のセットについての最終分析結果を生成するステップと、
を含む情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理デバイス、情報処理方法、および情報処理システムに関する。
【背景技術】
【0002】
近年、機械学習技術は、幅広い分野への適用のために開発されている。機械学習では、既知のケースに基づく訓練データがコンピュータに入力される。コンピュータは、訓練データを解析して、因子(説明変数または独立変数と呼ばれる場合がある)とアウトカム(目的変数または従属変数と呼ばれる場合がある)との間の関係を汎化するモデルを学習する。このモデルは、次いで、未知のケースに対する結果を予測するために使用され得る。一例として、類似患者についての過去の医学的介入履歴および患者特性を含むデータに基づいて異なる医学的介入を受ける患者の生存性を予測するモデルを生成することが可能である。
【0003】
従来、機械学習技術の性能を改善する技法が考えられてきた。
例えば、特許文献1は、「改訂されたサポートベクタマシン(SVM)クラシファイアは、音声認識システムのキーワードスポッティングコンポーネントからの出力に基づいて真のキーワードと偽陽性とを区別するように提供される。SVMは、特徴次元の縮小セットに対して動作し、この特徴次元は、真のキーワードと偽陽性とを区別するそれらの能力に基づいて選択される。さらに、サポートベクタ対は、再重みづけサポートベクタの縮小セットを作成するために統合される。これらの技法は、結果として、縮小されたコンピューティングリソースを使用して動作され得るSVMをもたらし、したがってシステム性能を向上させる」という技法を開示している。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
機械学習では、生成されたモデルの正確性、すなわち未知のケースの結果を正確に予測する能力(予測性能と呼ばれる場合がある)が高いことが好ましい。因子間の関係を汎化するモデルのデータセットにおける学習可能な情報コンテンツの増加に伴って、予測性能は高まるが、比較的大きなサンプルサイズを用いて実現可能な場合が多い。従来、小さいサンプルサイズに基づくデータセットは、それぞれの結果がアウトカムおいて大きなばらつきを有するなど、予測性能の低下につながり得る。異なるアウトカム間の高分散に起因して、そのような結果は信頼性が低い場合があり、結論または洞察を引き出すには適していない。
【0006】
特許文献1は、キーワード認識のためにSVMクラシファイアを使用するための技法を提案する。より詳しくは、特許文献1の技法は、コンピューティングリソースが限られた環境におけるSVMの動作を容易にするために、特徴セットのサイズを減少させることに関する。しかしながら、特許文献1は、小さいサンプルサイズを有するデータセットにおける機械学習モデルの予測性能を改善することには関しない。
【0007】
したがって、本開示の目的は、小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度を有する機械学習モデルを生成するための情報処理技法を提供することである。
【課題を解決するための手段】
【0008】
本開示の代表的な一例は、プロセッサと、プロセッサによって実行可能なコンピュータ実施可能命令を含むメモリとを含む情報処理デバイスであって、命令は、プロセッサに、機械学習モデルの第1のセットを用いてオリジナルデータセットを処理することによって、分析結果のセットを生成することと、分析結果のセットに基づいて、分散閾値に達する第1の分析結果と関連付けられた主体(例えば、患者や機械部品など)の第1のセットを含むオリジナルデータセットの高分散サブセットを識別することと、を行うように構成される分散分析ユニットと、高分散サブセットの主体の第1のセットを第1のデータパーティションおよび第2のデータパーティションに分割することと、第1のデータパーティションのコピーである第3のデータパーティションと、第2のデータパーティションのコピーである第4のデータパーティションとを生成することと、を行うように構成されるパーティションユニットと、第3のデータパーティションを改変する(例えば、ノイズを付加する)ことによって改変済み第3のデータパーティション、および第4のデータパーティションを改変することによって改変済み第4のデータパーティションを生成することを行うように構成される改変ユニットと、第1のデータパーティション、第2のデータパーティション、改変済み第3のデータパーティション、および改変済み第4のデータパーティションを使用して、機械学習モデルの第2のセットを訓練することと、機械学習モデルの第2のセットを用いてオリジナルデータセットを処理することによって、第2の分析結果を生成することと、第1の分析結果と第2の分析結果とを集約して分類することによって高分散サブセットの主体の第1のセットについての最終分析結果を生成することと、を行うように構成される結果生成ユニットと、として機能させる、情報処理デバイスに関する。
【発明の効果】
【0009】
本開示によれば、小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度を有する機械学習モデルを生成するための情報処理技法を提供することが可能である。
【0010】
上述した以外の問題、構成、および効果は、本発明を実行するための実施形態における以下の記載によって明確となるであろう。
【図面の簡単な説明】
【0011】
【
図1】本開示の実施形態を実行するための例示的なコンピューティングアーキテクチャを示す図である。
【
図2】本開示の実施形態による、情報処理システムの例示的なハードウェア構成を示す図である。
【
図3】本開示の実施形態による、低分散分析結果および高分散分析結果の例を示す図である。
【
図4】本開示の実施形態による、分散減少分析結果の例を示す図である。
【
図5】本開示の実施形態による情報処理方法を示すフローチャートである。
【
図6】本開示の実施形態による、高分散結果と関連するデータセットを識別するための情報処理システムの例示的な論理構成を示す図である。
【
図7】本開示の実施形態による、高分散データセットについての分析結果を生成するための情報処理システムの例示的な論理構成を示す図である。
【発明を実施するための形態】
【0012】
本明細書において、本発明の実施形態が図面を参照して説明される。なお、本明細書で説明される実施形態は特許請求の範囲にしたがって本発明を限定することは意図されないことが留意されるべきであり、実施形態に関して説明される要素の各々とそれらの組み合わせが本発明の態様を実施するために厳密に必要なものではないことを理解されたい。
【0013】
以下の説明および関連図面において、様々な態様が開示される。代替的な態様は、本開示の範囲から逸脱しない範囲で考案可能である。加えて、本開示のよく知られた要素は、本開示の関連詳細を不明瞭にしないために、詳細に説明されず、または省略される。
【0014】
「例示的」および/または「例」という語は、本明細書では、「例、事例、または説明例の役割を果たす」ことを意味するために使用される。「例示的」および/または「例」として本明細書で説明されるあらゆる態様は、他の態様よりも好ましい、または有益であると必ずしも解釈されるべきではない。同様に、「本開示の態様」という表現は、本開示の全態様が、動作の論じられる特徴、利点、または特性を含むことを必要としない。
【0015】
さらに、例えば、演算装置の要素によって実行されるアクションの順序に関して、多くの態様が説明される。本明細書で説明される様々なアクションは、特定の回路(例えば、特定用途向け集積回路(ASIC))、1つまたは複数のプロセッサによって実行されるプログラム命令、またはその両方の組み合わせによって実行可能であることが認識されるであろう。加えて、本明細書で説明されるアクションの順序は、実行されると、関連プロセッサに本明細書で説明される機能を実行させ得るコンピュータ命令の対応セットを格納するコンピュータ可読格納媒体の任意の形態内で全体として具体化されると考えられることが可能である。そのため、本開示の様々な態様は、多数の様々な形態で具体化されてもよく、そのすべては、特許請求の範囲に記載の主題内にあると企図される。
【0016】
本明細書において、本開示の実施形態の詳細な説明が図面を参照して説明される。
【0017】
次に、図面を参照すると、
図1は、本開示の様々な実施形態を実施するための、実施形態による、コンピュータシステム100の概略ブロック図である。本明細書で開示される様々な実施形態の機構および装置は、任意の適切な演算システムに等しく適用可能である。コンピュータシステム100の主要構成要素は、1つまたは複数のプロセッサ102、メモリ104、端末インターフェース112、格納インターフェース113、I/O(入力/出力)デバイスインターフェース114、およびネットワークインターフェース115を含み、そのすべては、メモリバス106、I/Oバス108、バスインターフェースユニット109、およびI/Oバスインターフェースユニット110を介した構成要素間通信のために、直接または間接的に、通信可能に結合される。
【0018】
コンピュータシステム100は、本明細書では全般的にプロセッサ102と呼ばれる、1つまたは複数の汎用プログラマブル中央処理装置(CPU)102Aおよび102Bを含み得る。実施形態では、コンピュータシステム100は複数のプロセッサを含み得るが、特定の実施形態では、コンピュータシステム100は、代替として、単一のCPUシステムでもよい。各プロセッサ102は、メモリ104に格納された命令を実行し、1つまたは複数のレベルのオンボードのキャッシュを含み得る。
【0019】
実施形態では、メモリ104は、データおよびプログラムを格納または符号化するためのランダムアクセス半導体メモリ、格納デバイス、または格納媒体(揮発性、または不揮発性のいずれか)を含み得る。特定の実施形態では、メモリ104は、コンピュータシステム100の仮想メモリ全体を表し、さらに、コンピュータシステム100に結合された、またはネットワークを介して接続された他のコンピュータシステムの仮想メモリを含み得る。メモリ104は、概念上、単一のモノリシックな実体として見られることが可能であるが、他の実施形態では、メモリ104は、キャッシュおよび他のメモリ素子の階層など、より複雑な構成である。例えば、メモリは、複数のレベルのキャッシュに存在してもよく、それらのキャッシュは、さらに機能別に分割されてもよく、それによって、1つのキャッシュが命令を保持し、他の1つのキャッシュが、プロセッサによって使用される命令以外のデータを保持する。メモリは、さらに、様々な、いわゆる不均一メモリアクセス(NUMA)コンピュータアーキテクチャのうちの任意のアーキテクチャにおいて知られるように、分散されて、異なるCPUまたはCPUのセットと関連付けられてもよい。
【0020】
メモリ104は、本明細書で説明されるデータ転送を処理するための様々なプログラム、モジュール、およびデータ構造の全部または一部分を格納し得る。例えば、メモリ104は、情報処理アプリケーション150を格納可能である。実施形態では、情報処理アプリケーション150は、プロセッサ102上で実行される命令またはステートメント、あるいはさらに後述されるような機能を実行するためにプロセッサ102上で実行される命令またはステートメントによって解釈される命令またはステートメントを含み得る。
特定の実施形態では、情報処理アプリケーション150は、プロセッサベースのシステムに代わって、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および/または他の物理的ハードウェアデバイスを介してハードウェアで実施される。実施形態では、情報処理アプリケーション150は、命令またはステートメントに加えて、データを含み得る。特定の実施形態では、カメラ、センサ、または他のデータ入力デバイス(不図示)は、コンピュータシステム100のバスインターフェースユニット109、プロセッサ102、または他のハードウェアとの直接通信状態で提供され得る。そのような構成では、プロセッサ102がメモリ104および情報処理アプリケーション150にアクセスする必要性が削減され得る。
【0021】
コンピュータシステム100は、プロセッサ102、メモリ104、表示システム124、およびI/Oバスインターフェースユニット110間での通信を扱うバスインターフェースユニット109を含み得る。I/Oバスインターフェースユニット110は、様々なI/Oユニットとの間でデータを転送するためにI/Oバス108と結合され得る。I/Oバスインターフェースユニット110は、I/Oバス108を介して、I/Oプロセッサ(IOP)またはI/Oアダプタ(IOA)としても知られる複数のI/Oインターフェースユニット112、113、114、および115と通信する。表示システム124は、ディスプレイコントローラ、ディスプレイメモリ、またはその両方を含み得る。ディスプレイコントローラは、映像、音声、またはその両方の種類のデータを表示デバイス126に提供し得る。さらに、コンピュータシステム100は、データを収集してプロセッサ102に提供するように構成された1つまたは複数のセンサまたは他の装置を含み得る。
例として、コンピュータシステム100は、バイオメトリックセンサ(例えば、心拍数データ、ストレスレベルデータを収集)、環境センサ(例えば、湿度データ、温度データ、圧力データを収集)、運動センサ(例えば、加速度データ、移動データを収集)、などを含み得る。他の種類のセンサも可能である。ディスプレイメモリは、映像データをバッファに入れるための専用メモリでもよい。表示システム124は、スタンドアロンの表示画面、コンピュータモニタ、テレビジョン、タブレット、またはハンドヘルドデバイスのディスプレイなどの表示デバイス126と結合され得る。
一実施形態では、表示デバイス126は、音声をレンダリングするための1つまたは複数のスピーカーを含み得る。あるいは、音声をレンダリングするための1つまたは複数のスピーカーは、I/Oインターフェースユニットと結合され得る。代替の実施形態では、表示システム124によって提供される機能のうちの1つまたは複数は、プロセッサ102も含む集積回路に搭載されてもよい。加えて、バスインターフェースユニット109によって提供される機能のうちの1つまたは複数は、プロセッサ102も含む集積回路に搭載されてもよい。
【0022】
I/Oインターフェースユニットは、種々の格納デバイスおよびI/Oデバイスとの通信をサポートする。例えば、端末インターフェースユニット112は、ユーザ出力デバイス(映像表示デバイス、スピーカー、および/またはテレビジョン受信機など)と、ユーザ入力デバイス(キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、光ペン、または他のポインティングデバイスなど)とを含み得る1つまたは複数のユーザI/Oデバイス116の接続をサポートする。ユーザは、入力データおよびコマンドをユーザI/Oデバイス116およびコンピュータシステム100に提供するために、ユーザインターフェースを使用してユーザ入力デバイスを操作してもよく、さらに、ユーザ出力デバイスを介して出力データを受信してもよい。例えば、ユーザインターフェースは、表示デバイス上での表示、スピーカーによる再生、またはプリンタによる印刷など、ユーザI/Oデバイス116を介して提示されてもよい。
【0023】
格納インターフェース113は、1つまたは複数のディスクドライブまたは直接アクセス格納デバイス117(通常、磁気ディスクドライブ格納デバイスを回転させるが、代替として、ホストコンピュータにとって単一の大容量格納デバイスに見えるディスクドライブ、またはフラッシュメモリなどのソリッドステートドライブのアレイを含む他の格納デバイスでもよい)の接続をサポートする。いくつかの実施形態では、格納デバイス117は、任意の種類の二次格納デバイスによって実施され得る。メモリ104の内容物、またはその任意の部分は、格納デバイス117に格納されてもよく、必要に応じて格納デバイス117から取り出されてもよい。I/Oデバイスインターフェース114は、様々な他のI/Oデバイス、またはプリンタもしくはファックス機などの他の種類のデバイスのうちのいずれかへのインターフェースを提供する。ネットワークインターフェース115は、コンピュータシステム100から他のデジタルデバイスおよびコンピュータシステムへの1つまたは複数の通信経路を提供し、これらの通信経路は、例えば、1つまたは複数のネットワーク130を含み得る。
【0024】
図1に示されるコンピュータシステム100は、プロセッサ102、メモリ104、バスインターフェース109、表示システム124、およびI/Oバスインターフェースユニット110間において直接通信経路を提供する特定のバス構造を説明しているが、代替の実施形態では、コンピュータシステム100は、階層的構成、星状構成もしくはウェブ構成、複数の階層的バス、並列および冗長経路、または任意の他の適切な種類の構成における二点間リンクなどの様々な形態のうちのいずれかで構成され得る異なるバスまたは通信経路を含み得る。さらに、I/Oバスインターフェースユニット110およびI/Oバス108は、単独のそれぞれの部材として示されているが、コンピュータシステム100は、実際に、複数のI/Oバスインターフェースユニット110および/または複数のI/Oバス108を含み得る。様々なI/Oデバイスに向かって走る様々な通信経路からI/Oバス108を分離する複数のI/Oインターフェースユニットが示されているが、他の実施形態では、そのI/Oデバイスのいくつか、または全部は、1つまたは複数のシステムI/Oバスに対して直接接続される。
【0025】
様々な実施形態では、コンピュータシステム100は、複数ユーザメインフレームコンピュータシステム、単一ユーザシステム、もしくはサーバコンピュータまたは直接ユーザインターフェースがほとんどまたは全くない同様のデバイスであるが、他のコンピュータシステム(クライアント)から要求を受信する。他の実施形態では、コンピュータシステム100は、デスクトップコンピュータ、ポータブルコンピュータ、ラップトップもしくはノート型のコンピュータ、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、または任意の他の適切な種類の電子デバイスとして実施され得る。
【0026】
次に、
図2を参照して、本開示の実施形態による情報処理システムの例示的なハードウェア構成を説明する。
【0027】
図2は、本開示の実施形態による、情報処理システム200の例示的なハードウェア構成を示す図である。情報処理システム200は、高分散分析結果と関連付けられたデータセットを識別し、小さいサンプルサイズを有するデータセットのための高信頼度の結果を生成可能な高堅牢度の機械学習モデルを生成するように構成される情報処理システムに関する。
【0028】
図2に示すように、本開示の実施形態による情報処理システム200は、情報処理デバイス210と、通信ネットワーク250と、ユーザ端末260とを含む。情報処理デバイス210およびユーザ端末260は、通信ネットワーク250介して通信可能に接続され得る。
ここで、通信ネットワーク250は、ローカルエリアネットワーク(LAN)接続、インターネット、ワイドエリアネットワーク(WAN)接続、メトロポリタンエリアネットワーク(MAN)接続などを含み得る。
【0029】
情報処理デバイス210は、高分散分析結果と関連付けられたデータセットを識別し、小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度の機械学習モデルを生成するための装置であり、
図2に示すように、主に、メモリ220と、格納ユニット230と、プロセッサ244と、入力/出力ユニット246とを含む。実施形態では、情報処理デバイス210は、
図1に示すコンピュータシステム100などのコンピュータシステムを使用して実施され得る。
【0030】
メモリ220は、本開示の実施形態による情報処理技法の機能を実施するための情報処理アプリケーション150を格納するためのメモリである。
図2に示すように、情報処理アプリケーション150は、分散分析ユニット222と、パーティションユニット224と、改変ユニット226と、ラベル付けユニット228と、結果生成ユニット229とを含み得る。分散分析ユニット222、パーティションユニット224、改変ユニット226、ラベル付けユニット228、および結果生成ユニット229の各々は、情報処理アプリケーション150を含むソフトウェアモジュールとして実施され得る。
【0031】
分散分析ユニット222は、高分散分析結果と関連付けられたデータセットを識別するための機能ユニットである。より詳しくは、分散分析ユニット222は、機械学習モデルの第1のセット(例えば、機械学習モデルの第1のセット233)を用いてオリジナルデータセットを処理することによって分析結果のセットを生成し、その分析結果のセットに基づいて、分散閾値に達する第1の分析結果と関連付けられた主体の第1のセットを含むオリジナルデータセットからの高分散サブセット232を識別し得る。
【0032】
パーティションユニット224は、高分散データセットをパーティションに分割するための機能ユニットである。より詳しくは、パーティションユニット224は、高分散サブセット232の主体の第1のセットを第1のデータパーティションおよび第2のデータパーティションに分割し、第1のデータパーティションのコピーである第3のデータパーティションと、第2のデータパーティションのコピーである第4のデータパーティションとを生成し得る。実施形態では、高分散サブセット232の主体の第1のセットは、機械学習モデルの第1のセット233によって生成された分析結果とグラウンドトゥルースとの間の関係に基づいて、真陽性、偽陽性、真陰性、または偽陰性のデータパーティションに分割され得る。
【0033】
改変ユニット226は、パーティションユニット224によって生成された特定のデータパーティションを改変する(例えば、ノイズを付加する)ための機能ユニットである。より詳しくは、改変ユニット226は、第3のデータパーティションを改変することによって改変済み第3のデータパーティション、および第4のデータパーティションを改変することによって改変済み第4のデータパーティションを生成し得る。
【0034】
ラベル付けユニット228は、パーティションユニット224によって生成されたパーティションにアウトカムラベルを割り当てるための機能ユニットである。実施形態では、ラベル付けユニット228は、改変済み第3のデータパーティションおよび改変済み第4のデータパーティションに対して真陽性もしくは偽陽性(または真陰性もしくは偽陰性)のアウトカムラベルを割り当て得る。
【0035】
結果生成ユニット229は、パーティションユニットによって生成されたデータパーティションに基づいて機械学習モデルを訓練し、それらの機械学習モデルを使用して分析結果を生成するための機能ユニットである。より詳しくは、結果生成ユニット229は、第1のデータパーティション、第2のデータパーティション、改変済み第3のデータパーティション、および改変済み第4のデータパーティションを使用して機械学習モデルの第2のセット(例えば、機械学習モデルの第2のセット234)を訓練し、機械学習モデルの第2のセットを用いてオリジナルデータセットを処理することによって第2の分析結果を生成し、第1の分析結果および第2の分析結果を集約および分類することによって最終分析結果を生成し得る。
【0036】
格納ユニット230は、本開示の態様を実施する際に使用される様々なデータおよび情報を格納するためのユニットである。格納ユニット230は、ハードディスクドライブ、ソリッドステートドライブ、フラッシュメモリ、クラウド、ストレージなどのコレクションを含み得る。
図2に示すように、格納ユニット230は、オリジナルデータセット231と、高分散サブセット232と、機械学習モデルの第1のセット233と、機械学習モデルの第2のセット234とを含み得る。
【0037】
オリジナルデータセット231は、機械学習タスクの一部として使用されるデータセットである。オリジナルデータセット231は、各主体と関連する特徴に基づいて1つまたは複数のカテゴリに分類され得る主体のセットを含み得る。ここで、「主体」とは、オリジナルデータセット内の実体を指す。本明細書で説明する場合、オリジナルデータセット231の全部または部分は、小さいサンプルサイズと関連付けられた主体のセット(例えば、測定された数のデータ点が所定の閾値に達しないセット)を含み得る。
【0038】
一例として、オリジナルデータセット231は、患者についての生活の質情報および医学的介入情報に関係するデータセットを含んでもよく、患者(すなわち、主体)を、患者特性、または人口統計(例えば、年齢、性別、人種、収入レベル、健康の社会的決定要因)、検査結果(例えば、ヘモグロビン、アルブミン、ビリルビン、クレアチニン、ナトリウム、アルカリ性ホスファターゼなど)、診断結果(例えば、腎不全、糖尿病、癌、心不全、高血圧など)、医学的介入履歴(過去の治療、投薬等)などの特徴を使用して判断されるような寿命長さ確率に基づくグループに分類する機械学習タスクのために使用可能である。
【0039】
別の例として、オリジナルデータセット231は、機器メンテナンスに関係するデータセットを含んでもよく、機械部品(すなわち、主体)を、機械部品特性(例えば、デバイスタイプ、材質、製造データ、年数)、デバイス測定または監視結果(例えば、温度、湿度、電圧、圧力)、診断結果(例えば、電圧または電流スパイク、高圧力に起因する構造上の損傷、オーバーヒート)、メンテナンス履歴(例えば、過去の点検、部品交換、ソフトウェア更新)などの特徴を使用して決定されるような故障の確率に基づくグループに分類する機械学習タスクのために使用され得る。
オリジナルデータセット231は、本明細書では特に限定されず、他の種類のデータも使用され得ることに留意されたい。
【0040】
高分散サブセット232は、高分散と関連しているとして識別されたオリジナルデータセット231の一部分である。実施形態では、高分散サブセット232は、オリジナルデータセットのうちから選択された主体の第1のセットを含み得る。
機械学習モデルの第1のセット233は、オリジナルデータセット231に基づいて訓練された機械学習モデルの第1のグループである。
機械学習モデルの第2のセット234は、高分散サブセット232に基づいて生成された改変済み訓練データセットに基づいて訓練された機械学習モデルの第2のグループである。
【0041】
プロセッサ244は、メモリ220に格納された情報処理アプリケーション150に含まれる様々なソフトウェアモジュールおよび機能ユニットのための処理命令を実行するための処理ユニットである。
【0042】
入力/出力ユニット246は、情報処理デバイス210とユーザ端末260などの外部ソースとの間の通信を容易にするためのユニットである。実施形態では、入力/出力ユニット246は、データおよびユーザコマンドの入力を容易にし、ステータス情報および結果を表示するために、グラフィカルユーザインターフェースを生成し、ユーザ端末260上に提供するように構成され得る。
【0043】
ユーザ端末260は、情報処理デバイス210のユーザ(例えば、クライアント)によって使用可能なデバイスである。実施形態では、ユーザ端末260は、情報処理デバイス210による、データのセット(例えば、オリジナルデータセット231)の分析を要求し、この分析の結果を確定するために使用され得る。例として、ユーザ端末260は、パーソナルコンピュータ、タブレットコンピュータ、スマートフォン、または他のコンピューティングデバイスを使用して実施され得る。
【0044】
図2に示される情報処理システム200によれば、小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度を有する機械学習モデルを生成するための情報処理技法を提供することが可能である。
【0045】
本明細書で説明されるように、本開示の態様は、予測モデルが小さいサンプルサイズに基づいてデータセットを処理するために使用されるとき、もたらされる分析結果がアウトカム間の高分散と関連し得るという認識に関係する。ここで、分散は、特定の分析結果と関連するエラー率または不確定度を指す。次に、
図3および
図4を参照して、サンプル分析結果に関してアウトカム分散の例を説明する。
【0046】
図3は、特定の医学的介入に対する患者の生存率に関する低分散分析結果310および高分散分析結果320の例を示す図である。低分散分析結果310および高分散分析結果320において、縦軸は生存率(パーセント)を表し、横軸は医学的介入後に生存した時間を表す。
図3に示すように、低分散分析結果310の線グラフ312は分散範囲315と関連しており、高分散分析結果320の線グラフ322は分散範囲325と関連している。これらの分散範囲315および325は、医学的介入から経過した年数に応じた患者の生存率の誤差範囲を示す。
【0047】
低分散分析結果310と高分散分析結果320とを比較することによってわかるように、低分散分析結果310の分散範囲315は10%未満である一方、高分散分析結果の分散範囲325は60%近い。本明細書で説明されるように、異なるアウトカム間のこの高分散に起因して、高分散分析結果などの結果は信頼性が低く、結論または洞察を引き出すには適していない。
したがって、本開示の態様は、小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度を有する機械学習モデルを生成することに関する。
【0048】
図4は、本開示の実施形態による、分散減少分析結果410の例を示す図である。分散減少分析結果410は、
図3に示す高分散分析結果320を作成するために使用される同一のデータセットに関して、本開示の実施形態による情報処理技法を使用することによって生成された分析結果を示す。
【0049】
図3を参照して説明したように、分散減少分析結果410において、縦軸は生存率(パーセント)を表し、横軸は医学的介入後に生存した時間を表す。
図4に示すように、分散減少分析結果410の線グラフ412は、分散範囲415と関連している。この分散範囲415は、医学的介入から経過した年数に応じた患者の生存率の誤差範囲を示す。
【0050】
図3に示す分散減少分析結果410と高分散分析結果320とを比較することによってわかるように、分散減少分析結果410の分散範囲415は、高分散分析結果320に対して、およそ10%未満だけ減少している。この分散減少範囲に起因して、分散減少分析結果410は、高分散分析結果320よりも正確な結論または洞察を引き出すことを容易にするために使用可能である。
【0051】
次に、
図5を参照して、本開示の実施形態による情報処理方法を説明する。
【0052】
図5は、本開示の実施形態による情報処理方法500を示すフローチャートである。
図5に示す情報処理方法500は、高分散分析結果と関連するデータセットを識別し、高堅牢度の機械学習モデルを生成し、小さいサンプルサイズを有するデータセットのための分析結果を生成するための方法である。情報処理方法500は、
図2に示す情報処理デバイス210の様々な機能ユニットによって実行され得る。
【0053】
最初に、ステップS505で、分散分析ユニット222は、機械学習モデルの第1のセット(例えば、
図2に示す機械学習モデルの第1のセット233)を使用してオリジナルデータセット(例えば、
図2に示すオリジナルデータセット231)を処理することによって分析結果のセットを生成する。機械学習モデルの第1のセットは、オリジナルデータセットに対する分類タスクを実行するように訓練された機械学習モデルでもよい。本明細書で説明されるように、オリジナルデータセットは、機械学習分類タスクの一部として使用されるために指定されたデータセットでもよい。例えば、オリジナルデータセットは、各主体と関連する特徴に基づいて1つまたは複数のカテゴリに分類され得る主体のセットを含み得る。ここで、「主体」とは、オリジナルデータセット内の実体を指す。一例として、オリジナルデータセットは、患者(例えば、主体)についての個人的な生活の質、医学的特性、および医学的介入情報を含み得る。本明細書で説明するように、オリジナルデータセットの主体の全部または一部分は、小さいサンプルサイズと関連付けられ得る。例えば、稀にしか行われない医学的介入と関連付けられた患者は、小さいサンプルサイズと関連付けられ得る。
【0054】
機械学習モデルの第1のセットは、オリジナルデータセットの主体のセットがカテゴリに分類されている分析結果のセットを生成するために、オリジナルデータセットの全部または一部分を処理し得る。この分析結果のセットは、オリジナルデータセットの主体の第1のセットに対応する第1の分析結果を含み得る。
一例として、オリジナルデータセットが患者についての個人的な医学的特性および医学的介入情報を含む場合、機械学習モデルの第1のセットは、各患者が特定の医学的介入に対する生存確率に基づくカテゴリにソートされている分析結果のセットを生成し得る。
【0055】
次に、ステップS510で、分散分析ユニット222は、ステップS505で生成された分析結果のセットに基づいて、分散閾値に達する第1の分析結果と関連するオリジナルデータセットの主体のセットのうち主体の第1のセットを含む高分散サブセット(例えば、
図2に示す高分散サブセット232)を識別する。本明細書で説明されるように、分散は、特定の分析結果と関連する誤差または不確定度を指す。この分散は、オリジナルデータセットにおける小さいばらつきに対する機械学習モデルの第1のセットの感度に起因して発生する場合があり、サンプルサイズが相対的に小さい場合には高くなり得る。加えて、分散閾値は、分析結果のセットに対して、高分散アウトカムと低分散アウトカムとの間の境界を定義する基準または標準を指す。実施形態では、分散閾値は、機械学習タスクの性質に基づいて決定されてもよく、標準偏差の数、そのパーセンテージなどを単位として定義され得る。一例として、分散閾値が「30%」である場合、アウトカム間で30%以上の分散を有する分析結果と関連付けられた主体は、分散閾値に達していると識別され得る。
【0056】
次に、ステップS515で、パーティションユニット224は、ステップS510で識別された高分散サブセット232の主体の第1のセットを2つ以上のデータパーティションに分割する。実施形態では、パーティションユニット224は、オリジナルデータセットのグラウンドトゥルース結果に対して第1の分析結果を比較することによってステップS505において主体の第1のセットに対して生成された第1の分析結果の正確率に基づいて、高分散サブセット232の主体の第1のセットを分割し得る。より詳しくは、主体の第1のセットの主体ごとに、パーティションユニット224は、第1の分析結果においてその主体に対して示された結果と、その主体に対する実際の正確なアウトカムを示すオリジナルデータセットと関連付けられたグラウンドトゥルース結果とを比較し、第1の分析結果とグラウンドトゥルース結果との関係に基づいて、主体の第1のセットを、真陽性結果、偽陽性結果、真陰性結果および偽陰性結果と関連付けられた異なるパーティションにソートしてもよい。本明細書では、説明の都合上、真陽性結果と関連付けられた主体の第1のセットの第1のサブセットが第1のデータパーティションに配置され、偽陽性結果と関連付けられた主体の第1のセットの第2のサブセットが第2のデータパーティションに配置される場合について例示的な構成が説明されるが、本開示は本明細書では限定されず、真陰性結果と関連付けられた主体の第1のセットの第3のサブセットが第3のデータパーティションに配置され、偽陰性結果と関連付けられた主体の第1のセットの第4のサブセットが第4のデータパーティションに配置される構成も可能である。
このように、高分散サブセット232を真陽性結果、偽陽性結果、真陰性結果、および偽陰性結果のパーティションに分割することによって、機械学習分類性能がより高い主体を、機械学習分類性能がより低い主体から分離して個別に管理することが可能になる。その結果、後述するように、異なるノイズ量が特定のパーティションに付加可能である。
【0057】
次に、ステップS520で、パーティションユニット224は、ステップS515で作成された各データパーティションのコピーを生成する。より詳しくは、真陽性結果と関連付けられた第1のデータパーティションおよび偽陽性結果と関連付けられた第2のデータパーティションがステップS515で作成された場合、パーティションユニット224は、第1のデータパーティションのコピーである第3のデータパーティションおよび第2のデータパーティションのコピーである第4のデータパーティションを作成し得る。
【0058】
次に、ステップS525で、改変ユニット226は、ステップS515で作成されたコピー済みデータパーティションを改変して、改変済みデータパーティションを作成する。ここで、改変ユニット226は、各データパーティションの特徴のセットにノイズを付加することによってコピー済みデータパーティションを改変して、それらの特徴の値を歪ませる、または改変することができる。異なるノイズ量が各パーティションに付加され得る。例えば、改変ユニット226は、ノイズの第1のセットを第3のデータパーティションの特徴の第3のセットに付加することによって改変済み第3のデータパーティションを生成でき、ノイズの第2のセットを第4のデータパーティションの特徴の第4のセットに付加することによって改変済み第4のデータパーティションを生成できる。コピー済みデータの特徴のセットに付加されたノイズ量は、ノイズレベル基準に基づいて決定され得る。後述するように、このノイズレベル基準は、様々なノイズ量を有するサンプルデータセットに対して、機械学習モデルの第2のセットの性能に基づいて決定され得る。加えて、後述するように、改変済み第3のデータパーティションおよび改変済み第4のデータパーティションは、ラベル付けユニット228によってラベルが割り当てられ得る。
【0059】
次に、ステップS530で、結果生成ユニット229は、ステップS515で生成された第1のデータパーティションおよび第2のデータパーティション、ならびにステップS525で生成された改変済み第3のデータパーティションおよび改変済み第4のデータパーティションを使用して、機械学習モデルの第2のセット(例えば、
図2に示される機械学習モデルの第2のセット234)を訓練する。ここで、機械学習モデルの第2のセットは、機械学習モデルの第1のセットと同じタイプおよび構成を有する未訓練の機械学習モデルである。歪んだ特徴を有するように改変された改変済み第3および第4のデータパーティションとともに、オリジナルデータセットからのデータを含む第1および第2のデータパーティションを使用して機械学習モデルの第2のセットを訓練することによって、小さいサンプルサイズに関して機械学習モデルの第2のセットの堅牢性が高まり得る。
【0060】
次に、ステップS535で、結果生成ユニット229は、ステップS530で訓練された機械学習モデルの第2のセットを使用して、ステップS510で識別された高分散サブセット232の主体の第1のセットを処理することによって第2の分析結果を生成する。実施形態では、機械学習モデルの第2のセットは、ステップS505と同じデータに対して同じ機械学習タスクを実行するように構成され得る。このようにして、機械学習モデルの第1のセットによって主体の第1のセットに対して生成された第1の分析結果に加えて、主体の同じ第1のセットに対する第2の分析結果が、小さいサンプルサイズに関して堅牢性を高めるように訓練された機械学習モデルの第2のセットによって生成され得る。
【0061】
次に、ステップS540で、結果生成ユニット229は、ステップS505で生成された第1の分析結果とステップS535で生成された第2の分析結果とを集約して、その結果を分類(例えば、再分類および再階層化)することによって最終分析結果を生成し得る。ここで、第1の分析結果および第2の分析結果は、任意の従来の機械学習結果集約技法を使用して集約されてもよく、結果は本明細書では特に限定されない。したがって、主体の第1のセットについて生成された第1の分析結果を、小さいサンプルサイズに関して堅牢性が高められるように訓練された機械学習モデルの第2のセットによって生成された主体の同じ第1のセットについて第2の分析結果とともに組み合わせることによって、第1の分析結果に対して正確率が高められたより正確な最終分析結果を得ることが可能である。
【0062】
情報処理方法500によれば、小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度を有する機械学習モデルを生成するための情報処理技法を提供することが可能である。より詳しくは、特徴がノイズで歪められたオリジナルデータセットの改変バージョンに基づいて機械学習モデルの第2のセットが訓練されると、この機械学習モデルの第2のセットは、分類タスクに対して最も顕著で小さいサンプルサイズに関して堅牢な特徴を認識するように訓練され得る。このようにして、従来の機械学習技術が高分散結果を生じさせる小さいサンプルサイズにおいても高信頼性および高正確率の機械学習分析結果を得ることが可能になる。
【0063】
次に、
図6を参照して、高分散結果と関連するデータセットを識別するための情報処理デバイスの例示的な論理構成を説明する。
【0064】
図6は、本開示の実施形態による、高分散結果と関連するデータセットを識別するための情報処理デバイス210の例示的な論理構成を示す図である。実施形態では、高分散結果と関連するデータセットを識別するために情報処理デバイス210によって実行された機能は、
図5の情報処理方法500のステップS505~S510に実質的に対応し得る。加えて、高分散結果と関連するデータセットを識別するために情報処理デバイス210によって実行された機能は、分散分析ユニット222(
図6では不図示)によって実行され得る。
【0065】
最初に、分散分析ユニット222は、オリジナルデータセット231を取得する。本明細書で説明されるように、オリジナルデータセット231は、機械学習分類タスクの一部として使用されるために指定されたデータセットでもよい。例えば、オリジナルデータセット231は、各主体と関連する特徴に基づいて1つまたは複数の分類に分類され得る主体のセットを含み得る。実施形態では、オリジナルデータセット231は、機械学習分類タスクの一部として使用されるためにユーザによって作成および指定され得る。
【0066】
次に、分散分析ユニット222は、オリジナルデータセット231に対して特徴選択602を実行することによって機械学習データセット605を生成する。より詳しくは、分散分析ユニット222は、実行される機械学習タスクと関連すると判断されたオリジナルデータセット内の顕著な特徴のセットを識別し、主体と、それらの主体についての対応する顕著な特徴とを抽出することによって機械学習データセット605を生成し得る。実施形態では、所与の機械学習タスクに対して、顕著な特徴のセットがユーザによって事前に決定され得る。概して、機械学習データセット605における包含のために選択された特徴が顕著であるほど、機械学習モデルによって達成可能な正確率が上がるが、機械学習データセット605における特徴が顕著なほど、機械学習タスクの実行のために必要なコンピューティングリソースもまた増加する。そのため、機械学習データセットにおける包含のための顕著な特徴のタイプおよび数は、機械学習タスクの性質に基づいてユーザまたは管理者によって選択され得る。
【0067】
次に、分散分析ユニット222は、機械学習データセット605を開発パーティションのセット606および評価パーティションのセット608に分割するために、機械学習データセット605に対してパーティション生成604を実行する。実施形態では、開発パーティションのセット606および評価パーティションのセット608は、互いに対して相互排他的であってもよく、すなわち、開発パーティションのセット606に含まれるデータのうちのいずれも評価パーティションのセット608に含まれておらず、評価パーティションのセット608に含まれるデータのいずれも開発パーティションのセット606に含まれない。さらに、開発パーティションのセット606の各個別のパーティションおよび評価パーティションのセットの各個別のパーティションは、そのセットの他の個別のパーティションに対して相互排他的でもよい。特定の実施形態では、開発パーティションのセット606の各個別のパーティションおよび評価パーティションのセット608の各個別のパーティションは、単一の主体およびその関連付けられた特徴を含み得る。特定の実施形態では、開発パーティションのセット606の各個別のパーティションおよび評価パーティションのセットの各個別のパーティションは、複数の主体およびそれらの関連付けられた特徴を含み得る。
【0068】
実施形態では、分散分析ユニット222は、機械学習データセット605を開発パーティションのセット606および評価パーティションのセット608に無作為に分割し得る。この分割は、所定の比率に基づき得る。例えば、機械学習データセット605のデータの80%を含むデータの無作為に選択された組合せは、開発パーティションのセット606として使用されてもよく、機械学習データセットのデータの残りの20%は評価パーティションのセット608として使用されてもよい。
【0069】
次に、分散分析ユニット222は、開発パーティションのセット606を使用して、分類タスク(例えば、患者生存性、コンポーネント障害などのリスク分類)を実行するように機械学習モデルの第1のセット233を訓練し得る。ここで、機械学習モデルの第1のセット233は、複数の未訓練の予測モデルを含む機械学習モデルアンサンブルでもよい。実施形態では、分散分析ユニット222は、開発パーティションのセット606の単独パーティションを使用して機械学習モデルの第1のセット233の各々の個別機械学習モデルを訓練してもよい。ここで、機械学習モデルの第1のセット233は、既存の訓練方法を使用して訓練されてもよく、その訓練方法は本明細書では特に限定されない。このようにして、機械学習モデルの第1のセット233は、開発パーティションのセット606を使用して分類タスクを実行するように訓練され得る。
【0070】
次に、分散分析ユニット222は、訓練済みの機械学習モデルの第1のセット233を使用して評価パーティションのセット608に対して分類タスクを実行し得る。機械学習モデルのセット233の各機械学習モデルは、分析結果のセット620を生成するために評価パーティションのセット608の単独パーティションを処理し得る。実施形態では、分析結果は、評価パーティションのセット608に含まれる主体ごとに生成され得る。分析結果のセット620は、特定のカテゴリまたは現象に対応する主体の確率を示し得る。それらの計算された確率に基づいて、主体は、分類スコア(例えばリスクスコア)が割り当てられ、およびグループ(例えば、リスクグループ)にまとめられ得る。さらに、本明細書で説明するように、生成された分析結果のセット620の各分析結果は、その特定の主体についてのその分析結果のアウトカムにおける不確実性を示す分散範囲と関連付けられ得る。
【0071】
次に、分散分析ユニット222は、分析結果のセット620を分析して、分散閾値に達する第1の分析結果625と関連付けられた主体の第1のセットを含むオリジナルデータセット231の高分散サブセットを識別し得る。ここで、分散閾値は、分析結果のセットに対して、高分散アウトカムと低分散アウトカムとの間に境界を定義する基準または標準を指す。実施形態では、分散閾値は、機械学習タスクの性質に基づいて決定されてもよく、標準偏差の数、そのパーセンテージなどを単位として定義され得る。一例として、分散閾値が「30%」である場合、30%以上の分散範囲を有する分析結果と関連付けられた主体は、分散閾値に達していると識別され得る。
【0072】
このようにして、本開示の実施形態による分散分析ユニット222によれば、高分散結果と関連する主体を識別することが可能である。本明細書で説明するように、それらの高分散主体(例えば、主体の第1のセット、および関連する第1の分析結果625)は、小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度を有する機械学習モデルの生成を容易にするために使用され得る。
【0073】
次に、
図7を参照して、高分散データセットについての分析結果を生成するための情報処理デバイス210の例示的な論理構成を説明する。
【0074】
図7は、本開示の実施形態による、高分散データセットについての分析結果を生成するための情報処理システム200の例示的な論理構成を示す図である。実施形態では、高分散データセットについての分析結果を生成するために情報処理デバイス210によって実行された機能は、
図5に示す情報処理方法500のステップS515~S540に実質的に対応し得る。加えて、高分散データセットについての分析結果を生成するために情報処理デバイス210によって実行された機能は、高分散結果と関連付けられた主体が
図6を参照して説明したように分散分析ユニット222の機能によって識別された後に、パーティションユニット224、改変ユニット226、ラベル付けユニット228、および結果生成ユニット229によって実行され得る。
【0075】
最初に、パーティションユニット224は、分散分析ユニット222によって識別された(
図6を参照して説明)高分散サブセット232の主体の第1のセットを第1のデータパーティション707および第2のデータパーティション709に分割する。ここで、パーティションユニット224は、主体の第1のセットに対応するグラウンドトゥルース結果に関して高分散サブセット232の主体の第1のセットについて生成された第1の分析結果625の正確率に基づいて、高分散サブセット232の主体の第1のセットを分割し得る。より詳しくは、高分散サブセット232中の主体の第1のセットの主体ごとに、パーティションユニット224は、第1の分析結果625によってその主体に対して示された結果と、その主体に対する実際の正確なアウトカムを示す主体の第1のセットと関連するグラウンドトゥルース結果とを比較し、第1の分析結果625とグラウンドトゥルース結果との関係に基づいて、高分散サブセット232の主体の第1のセットを、真陽性結果、偽陽性結果、真陰性結果および偽陰性結果と関連付けられた異なるパーティションにソートしてもよい。
【0076】
本明細書では、説明の都合上、真陽性結果と関連付けられた主体の第1のセットの第1のサブセットが第1のデータパーティション707に配置され、偽陽性結果と関連付けられた主体の第1のセットの第2のサブセットが第2のデータパーティション709に配置される場合について例示的な構成が説明されるが、本開示は本明細書では限定されず、真陰性結果と関連付けられた主体の第1のセットの第3のサブセットが第3のデータパーティションに配置され、偽陰性結果と関連付けられた主体の第1のセットの第4のサブセットが第4のデータパーティションに配置される構成も可能である。
【0077】
次に、パーティションユニット224は、第1のデータパーティション707および第2のデータパーティション709のコピーを生成する。より詳しくは、パーティションユニット224は、第1のデータパーティション707のコピーである第3のデータパーティション708と、第2のデータパーティション709のコピーである第4のデータパーティション710とを作成し得る。
【0078】
次に、改変ユニット226は、改変済み第3のデータパーティション711を作成するために第3のデータパーティション708を改変し、改変済み第4のデータパーティション712を作成するために第4のデータパーティション710を改変する。ここで、改変ユニット226は、各データパーティションの特徴のセットにノイズを付加することによって第3のデータパーティション708および第4のデータパーティション710を改変して、それらの特徴の値を歪ませる、または改変することができる。コピー済みデータの特徴のセットに付加されたノイズ量は、ノイズレベル基準に基づいて決定され得る。
【0079】
ノイズレベル基準は、各データパーティションの特徴のセットに付加される望ましいノイズ量を示す情報である。ここで、「望ましいノイズ量」とは、主体の変化についての結果ラベル(例えば、真陽性、偽陽性、真陰性、偽陰性)を結果として発生させることなく特定の主体の特徴に付加可能な最大ノイズ量を指す。これは、同じ結果を依然として維持しながら特徴のセットにより多くのノイズを付加することによって、上記の改変されたデータセットを使用して訓練される機械学習モデルの第2のセット234が、特定の分析結果に対応するデータセットの顕著な特徴を依然として認識しながらノイズに関してより堅牢となり得るためである。
【0080】
実施形態では、改変ユニット226は、機械学習モデル(例えば、機械学習モデルの第2のセット234や機械学習モデルの別のテストセット)を使用して、さらに大きな量のノイズが特徴に付加された改変済みサンプルデータセットを連続的に処理し、改変済みサンプルデータセットに対して生成されたサンプル予測結果が所定の正確率閾値(例えば、最小正確率閾値)を満たすように特徴に付加可能な最大ノイズ量を識別するように構成され得る。このようにして、望ましい正確率閾値を維持しながら特徴に付加可能な最大ノイズ量が識別されることができ、ノイズレベル基準として設定され得る。
さらに、このノイズレベル基準に基づいて、各データパーティションに対して異なるノイズ量が付加され得る。一例として、真陽性結果と関連付けられた第3のデータパーティション708に対してより大きなノイズ量が付加されてもよく、偽陽性結果と関連付けられた第4のデータパーティション710に対してより小さいノイズ量が付加され得る。このようにして、各データパーティションの特徴を好適に曖昧化するために必要な適切なノイズ量が、各データパーティションに対して個別に印加され得る。
【0081】
次に、ラベル付けユニット228は、アウトカムラベルを改変済み第3のデータパーティション711および改変済み第4のデータパーティション712に割り当て得る。ここで、アウトカムラベルは、改変済み第3のデータパーティション711および改変済み第4のデータパーティション712(例えば、真陽性、偽陽性、真陰性、偽陰性)に基づいて生成された分析結果と、グラウンドトゥルース結果との間の予測された関係を指す。改変済み第3のデータパーティション711および改変済み第4のデータパーティション712についての分析結果が理論的には作成元のデータパーティション(例えば、第1のデータパーティション707および第2のデータパーティション709)と同じはずであるため、実施形態では、ラベル付けユニット228は、改変済み第3のデータパーティション711に対して真陽性アウトカムラベルを割り当ててもよく、改変済み第4のデータパーティション712に対して偽陽性アウトカムラベルを割り当ててもよい。
【0082】
ただし、本開示の態様は、データパーティション707、709に付加されたノイズに起因して、改変済みデータパーティション711、712について生成されたアウトカムがデータパーティション707、709のアウトカムに対応する保証はないという認識に関係する。したがって、実施形態では、ラベル付けユニット228は、改変済みデータパーティション711、712とオリジナルデータパーティション707、709との間の類似度を計算して、オリジナルデータパーティション707、709に対する改変済みデータパーティション711、712の類似度に基づいて、アウトカムラベルを改変済みデータパーティション711、712に割り当ててもよい。
【0083】
より詳しくは、ラベル付けユニット228は、第1のデータパーティション707の主体の第1のサブセットと改変済み第3のデータパーティション711の主体の第3のサブセットとの間の第1の類似度を計算し、第1の類似度が類似度閾値に達する場合に真陽性結果ラベルを主体の第3のサブセットに割り当て、第1の類似度が類似度閾値に達しない場合に偽陽性結果ラベルを主体の第3のサブセットに割り当ててもよい。同様に、ラベル付けユニット228は、第2のデータパーティション709の主体の第2のサブセットと改変済み第4のデータパーティション712の主体の第4のサブセットとの間の第2の類似度を計算し、第2の類似度が類似度閾値に達する場合に偽陽性結果ラベルを主体の第4のサブセットに割り当て、第2の類似度が類似度閾値に達しない場合に真陽性結果ラベルを主体の第4のサブセットに割り当ててもよい。
このようにして、より正確なアウトカムラベルが改変済みデータパーティション711、712に割り当てられることができ、機械学習モデルの第2のセット234の訓練が容易化され得る。ここで、改変済みデータパーティション711、712とオリジナルデータパーティション707、709との間の類似度は、ユークリッド距離、コサイン類似度、または他の従来の類似度アルゴリズムを使用して計算され得る。
【0084】
次に、結果生成ユニット229は、第1のデータパーティション707、第2のデータパーティション709、改変済み第3のデータパーティション711および改変済み第4のデータパーティション712を含む改変済み訓練データセット713を使用して、機械学習モデルの第2のセット234(例えば、
図2に示される機械学習モデルの第2のセット234)を訓練する。ここで、機械学習モデルの第2のセット234は、機械学習モデルの第1のセットと同じタイプおよび構成を有する未訓練の機械学習モデルである。歪んだ特徴を有するように改変された改変済み第3および第4のデータパーティション711、712とともに、オリジナルデータセットからのデータを含む第1および第2のデータパーティション707、709を使用して機械学習モデルの第2のセット234を訓練することによって、小さいサンプルサイズに関して機械学習モデルの第2のセット234の堅牢性が高まり得る。
【0085】
次に、結果生成ユニット229は、機械学習モデルの第2のセット234を使用して、高分散サブセット232の主体の第1のセットを処理することによって第2の分析結果715を生成する。実施形態では、機械学習モデルの第2のセット234は、
図6で説明した、機械学習モデルの第1のセット233が評価パーティションのセット608に実行されたものと同じ機械学習タスクを高分散サブセット232の主体の第1のセットに対して実行するように構成され得る。
【0086】
次に、結果生成ユニット229は、機械学習モデルの第1のセット233によって生成された第1の分析結果625と、機械学習モデルの第2のセット234によって生成された第2の分析結果715とを集約し、その結果を分類(例えば再分類および再階層化)することによって最終分析結果720を生成し得る。ここで、第1の分析結果および第2の分析結果は、任意の従来の機械学習結果集約技法を使用して集約されてもよく、その結果は本明細書では特に限定されない。
【0087】
図7を参照して説明した情報処理システム200の機能によれば、機械学習モデルの第2のセットは、ノイズによって改変された高分散データセットのバージョンとともにオリジナルの高分散データセットを含む改変済み訓練データセット上で訓練される。このようにして、機械学習モデルの第2のセットは、小さいサンプルサイズを有するデータセットに関して堅牢になるように訓練されることができ、アウトカム分散が減少した機械学習分析結果が生成され得る。
【0088】
本明細書で説明されるように、機械学習では、生成されたモデルの正確性、すなわち未知のケースの結果を正確に予測する能力(予測性能と呼ばれる場合がある)が高いことが好ましい。データセットのサイズ(すなわち、サンプルサイズ)が増加すると、通常、この予測性能は高まる。従来、小さいサンプルサイズに基づくデータセットは、それぞれの結果がアウトカムにおいて大きなばらつきを有するなど、予測性能の低下につながり得る。異なるアウトカム間の高分散に起因して、そのような結果は信頼性が低い場合があり、結論または洞察を引き出すには適していない。
【0089】
実施形態では、本開示の態様は、機械学習モデルの第1のセットを使用してオリジナルデータセットについての分析結果のセットを生成することに関し、この分析結果のセットを使用して、分散閾値(例えば、アウトカム間の高レベルの分散)に達するオリジナルデータセットのサブセットを識別する。このようにして、高分散と関連したオリジナルデータセットのサブセットが識別され得る。
【0090】
本開示のさらなる態様は、識別された高分散サブセットを個別のデータパーティションに分割することに関する。これらのデータパーティションは、高分散サブセットの部分を、機械学習モデルの第1のセットによって生成された分析結果とグラウンドトゥルースとの関係に基づいて、真陽性、偽陽性、真陰性、または偽陰性のカテゴリに分類し得る。高分散サブセットを真陽性、偽陽性、真陰性、および偽陰性のパーティションに分割することによって、機械学習分類性能がより高いデータセット部分は、機械学習分類性能がより低いデータセット部分から分離して管理され得る。各々の生成されたパーティションはコピーされてもよく、各々のコピー済みデータパーティションにノイズが付加されてもよい。各々のコピー済みデータパーティションに付加されたノイズは、パーティションごとに個別に決定され得る。ノイズが付加されたコピー済みデータパーティションは、オリジナルデータパーティションと統合されて、改変済み訓練データセットを生成してもよい。
【0091】
この改変済みデータセットは、機械学習モデルの第2のセットを訓練するために使用可能である。このようにして、機械学習モデルの第2のセットは、小さいサンプルサイズを有するデータセットに関して堅牢になるように訓練されることができる。訓練された機械学習モデルの第2のセットは、オリジナルデータセットから抽出された高分散サブセットについての分析結果(例えば、第2の分析結果)を生成するために使用可能であり、この分析結果は、機械学習結果の第1のセットによって生成された分析結果と集約して、アウトカム分散が減少した最終分析結果を生成できる。
【0092】
したがって、小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度を有する機械学習モデルを生成するための情報処理技法を提供することが可能である。より詳しくは、特徴がノイズで歪められたオリジナルデータセットの改変バージョンに基づいて機械学習モデルの第2のセットが訓練されると、この機械学習モデルの第2のセットは、分類タスクに対して最も顕著で小さいサンプルサイズに関して堅牢な特徴を認識するように訓練され得る。このようにして、従来の機械学習技術が高分散結果を生じさせる小さいサンプルサイズにおいても高信頼性および高正確率の機械学習分析結果を得ることが可能になる。
【0093】
本発明は、システム、方法、および/またはコンピュータプログラム製品でもよい。このコンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読格納媒体(複数可)を含み得る。
【0094】
コンピュータ可読格納媒体は、命令実行デバイスによって使用される命令を保持および格納可能な有形デバイスであり得る。コンピュータ可読格納媒体は、例えば、電子格納装置、磁気格納装置、光学格納装置、電磁格納装置、半導体格納装置、または上記の任意の適切な組み合わせでもよいが、それに限定されない。コンピュータ可読格納媒体のより具体的な例の非網羅的リストは、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、デジタルバーサタイルディスク(DVD)、メモリスティック、フロッピーディスク、パンチカードまたは命令が記録された溝の隆起構造などの機械的暗号化装置、および上記の任意の適切な組み合わせを含む。
本明細書で使用される場合、コンピュータ可読格納媒体は、それ自体、電波または他の自由に伝搬する電磁波、導波路または他の伝送媒体(例えば、光ファイバケーブルを通過する光パルス)を通って伝搬する電磁波、または電線によって伝達される電気信号などの一次的信号であるとして解釈されるべきではない。
【0095】
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータプログラム製品のフローチャートの図および/またはブロック図を参照して、本明細書で説明される。フローチャートの図および/またはブロック図の各ブロック、ならびにフローチャートの図および/またはブロック図中のブロックの組み合わせは、コンピュータ可読プログラム命令によって実施可能であることを理解されるであろう。
【0096】
コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行される命令がフローチャートおよび/またはブロック図のブロックにおいて明示された機能/動作を実施するための手段を創出するように、上記のコンピュータ可読プログラム命令は、機械を製造するために、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供されてもよい。これらのコンピュータ可読プログラム命令は、さらに、命令を格納したコンピュータ可読格納媒体がフローチャートおよび/またはブロック図のブロックに明示された機能/動作の態様を実施する命令を含む製品を備えるように、コンピュータ、プログラマブルデータ処理装置、および/または他の装置に特定のやり方で機能させ得るコンピュータ可読格納媒体に格納されてもよい。
【0097】
コンピュータ、他のプログラマブル装置、または他のデバイス上で実行される命令が、フローチャートおよび/またはブロック図のブロックにおいて明示された機能/動作を実施するように、上記のコンピュータ可読プログラム命令は、一連の動作ステップがコンピュータ実施プロセスを創出するようにコンピュータ、他のプログラマブル装置、または他のデバイス上で実行されるようにするためにコンピュータ、他のプログラマブルデータ処理装置、または他のデバイスにさらにロードされてもよい。
【0098】
図面におけるフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータプログラム製品の可能な実施のアーキテクチャ、機能、および動作を示す。これに関連して、フローチャートまたはブロック図における各ブロックは、特化した論理機能を実施するための1つまたは複数の実行可能命令を含む命令のモジュール、セグメント、または部分を表し得る。いくつかの代替の実施例では、ブロックに記載された機能は、図面に記載の順序とは異なる順序で発生し得る。例えば、連続して示される2つのブロックは、実際には、ほぼ同時に実行されてもよく、またはブロックは、場合によっては、関連する機能に応じて、逆の順序で実行されてもよい。また、ブロック図および/またはフローチャートの図の各ブロックならびにブロック図および/またはフローチャートの図のブロックの組み合わせは、特化した機能または動作を実行する、あるいは専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用ハードウェアベースのシステムによって実施可能であることが認識されるであろう。
【0099】
上記は本発明の例示的な実施形態に関するが、本発明の他のさらなる実施形態が本発明の基本的範囲から逸脱しない範囲で考え出されてもよく、その範囲は、後述の請求項によって判断される。本開示の様々な実施形態の説明が例示目的で提供されたが、網羅的である、または開示された実施形態に限定されることは意図されない。多くの改変および変形は、説明された実施形態の範囲および思想から逸脱しない範囲で、当業者にとって明らかであろう。実施形態の原理、市場に存在する技術の実用化もしくは技術的改良を説明するため、または本開示が属する分野の通常技量を有する他者が本明細書で開示される実施形態を理解できるようにするために、本明細書で使用される用語は選ばれた。
【0100】
本明細書で使用される用語は特定の実施形態を説明する目的のみであり、様々な実施形態を限定することは、意図されない。本明細書で使用される場合、文脈が明確に示さない限り、単数形「a」、「an」、及び「the」は複数形も同様に含むことが意図される。「~セット」、「~群」、「~束」などは、1つまたは複数を含むことが意図される。さらに、本明細書で使用される場合の「含む」および/または「含むこと」という語は、述べられた特徴、完全体、ステップ、動作、要素、および/または構成要素の存在を明示するが、1つまたは複数の他の特徴、完全体、ステップ、動作、要素、構成要素および/またはその群の存在または追加を排除しないことが理解されるであろう。様々な実施形態の例示的な実施形態の上記の詳細な説明において、その部分を形成する添付図面(同様の番号は同様の要素を示す)について言及したが、例として、特定の例示的な実施形態が示されたものであり、様々な実施形態が実践可能である。上記の実施形態は、当業者が実施形態を実践できる程度に詳細に説明されたが、他の実施形態も使用可能であり、論理的、機械的、電気的および他の変更が、様々な実施形態の範囲から逸脱しない範囲でなされ得る。様々な実施形態の十分な理解を実現するために、上記の説明において、数多くの特定の詳細が記載された。しかしながら、様々な実施形態は、それらの特定の詳細がなくても実践され得る。他の事例では、よく知られる回路、構造、および技法は、実施形態を不明瞭にしないために、詳細には示されていない。
【0101】
本明細書で説明するように、本開示の態様は、以下の態様に関する。
【0102】
(態様1)
プロセッサと、
前記プロセッサによって実行可能なコンピュータ実施可能命令を含むメモリと、
を含む情報処理デバイスであって、
前記コンピュータ実施可能命令は、前記プロセッサに、
機械学習モデルの第1のセットを用いてオリジナルデータセットを処理することによって、分析結果のセットを生成することと、
分析結果の前記セットに基づいて、分散閾値に達する第1の分析結果と関連付けられた主体の第1のセットを含む前記オリジナルデータセットの高分散サブセットを識別することと、
を行うように構成される分散分析ユニットと、
前記高分散サブセットの主体の前記第1のセットを第1のデータパーティションおよび第2のデータパーティションに分割することと、
前記第1のデータパーティションのコピーである第3のデータパーティションと、前記第2のデータパーティションのコピーである第4のデータパーティションとを生成することと、
を行うように構成されるパーティションユニットと、
前記第3のデータパーティションを改変することによって改変済み第3のデータパーティション、および前記第4のデータパーティションを改変することによって改変済み第4のデータパーティションを生成することを行うように構成される改変ユニットと、
前記第1のデータパーティション、前記第2のデータパーティション、前記改変済み第3のデータパーティション、および前記改変済み第4のデータパーティションを使用して、機械学習モデルの第2のセットを訓練することと、
機械学習モデルの前記第2のセットを用いて前記オリジナルデータセットを処理することによって、第2の分析結果を生成することと、
前記第1の分析結果と前記第2の分析結果とを集約して分類することによって前記高分散サブセットの主体の前記第1のセットについての最終分析結果を生成することと、
を行うように構成される結果生成ユニットと、
として機能させる、情報処理デバイス。
【0103】
(態様2)
前記改変ユニットは、
ノイズレベル基準に基づいて、ノイズを前記第3のデータパーティションの特徴の第3のセットに付加することによって前記改変済み第3のデータパーティションを生成することと、
前記ノイズレベル基準に基づいて、ノイズを前記第4のデータパーティションの特徴の第4のセットに付加することによって前記改変済み第4のデータパーティションを生成することと、
を行うように構成される、態様1に記載の情報処理デバイス。
【0104】
(態様3)
前記改変ユニットは、
機械学習モデルの前記第2のセットを使用して、増加するノイズ量が付加された改変済みサンプルデータセットを繰り返し処理することによって、サンプル予測結果のセットを生成することと、
サンプル予測結果の前記セットから、所定の正確率閾値を満たすサンプル予測結果のサブセットを識別することと、
前記ノイズレベル基準として、前記所定の正確率閾値を満たすサンプル予測結果の前記サブセットと関連付けられた前記改変済みサンプルデータセットに対して付加された最大ノイズ量を決定することと、
を行うように構成される、態様2に記載の情報処理デバイス。
【0105】
(態様4)
前記パーティションユニットは、
前記第1の分析結果を、前記オリジナルデータセットについてのグラウンドトゥルース結果に対して比較することによって前記第1の分析結果の正確率を評価することと、
真陽性結果と関連付けられた主体の前記第1のセットの第1のサブセットを前記第1のデータパーティションに分割することと、
偽陽性結果と関連付けられた主体の前記第1のセットの第2のサブセットを前記第2のデータパーティションに分割することと、
を行うように構成される、態様1から3のいずれか1つに記載の情報処理デバイス。
【0106】
(態様5)
前記改変済み第3のデータパーティションおよび前記改変済み第4のデータパーティションに対して真陽性または偽陽性のアウトカムラベルを割り当てるためのラベル付けユニット
をさらに備える、態様1から4のいずれか1つに記載の情報処理デバイス。
【0107】
(態様6)
前記ラベル付けユニットは、
前記第1のデータパーティションの主体の第1のサブセットと前記改変済み第3のデータパーティションの主体の第3のサブセットとの間の第1の類似度を計算し、
前記第1の類似度が類似度閾値に達する場合、真陽性結果ラベルを主体の前記第3のサブセットに割り当て、
前記第1の類似度が類似度閾値に達しない場合、偽陽性結果ラベルを主体の前記第3のサブセットに割り当て、
前記第2のデータパーティションの主体の第2のサブセットと前記改変済み第4のデータパーティションの主体の第4のサブセットとの間の第2の類似度を計算し、
前記第2の類似度が類似度閾値に達する場合、偽陽性結果ラベルを主体の前記第4のサブセットに割り当て、
前記第2の類似度が類似度閾値に達しない場合、真陽性結果ラベルを主体の前記第4のサブセットに割り当てる、
態様5に記載の情報処理デバイス。
【符号の説明】
【0108】
150 情報処理アプリケーション
200 情報処理システム
210 情報処理デバイス
220 メモリ
222 分散分析ユニット
224 パーティションユニット
226 改変ユニット
228 ラベル付けユニット
229 結果生成ユニット
230 格納ユニット
231 オリジナルデータセット
232 高分散サブセット
233 機械学習モデルの第1のセット
234 機械学習モデルの第2のセット
244 プロセッサ
246 入力/出力ユニット
250 通信ネットワーク
260 ユーザ端末