2024-163549 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

2024-163549情報処理デバイス、情報処理システムおよび情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024163549

(43)【公開日】2024-11-22

(54)【発明の名称】情報処理デバイス、情報処理システムおよび情報処理方法

(51)【国際特許分類】

G06N 20/00 20190101AFI20241115BHJP

【ＦＩ】

G06N20/00

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2023079271

(22)【出願日】2023-05-12

(71)【出願人】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110000062

【氏名又は名称】弁理士法人第一国際特許事務所

(72)【発明者】

【氏名】チャルキディスジョージ

(72)【発明者】

【氏名】竹内渉

(57)【要約】（修正有）

【課題】小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度を有する機械学習モデルを生成する情報処理デバイスを提供する。
【解決手段】情報処理デバイスは、オリジナルデータセットについての分析結果を生成し、分散閾値に達する第１の分析結果と関連付けられたオリジナルデータセットの内から主体（患者や機械部品など）の第１のセットを識別する分散分析ユニットと、主体の第１のセットをオリジナルデータパーティションに分割し、コピー済みデータパーティションを生成するパーティションユニットと、改変済みコピーデータパーティションを生成する改変ユニットと、オリジナルデータパーティション及び改変済みコピーデータパーティションを使用して機械学習モデルを訓練し、その機械学習モデルを使用して第２の分析結果を生成し、各分析結果を集約することで最終分析結果を生成する結果生成ユニットと、を含む。
【選択図】図２

【特許請求の範囲】

【請求項1】

プロセッサと、
前記プロセッサによって実行可能なコンピュータ実施可能命令を含むメモリと、
を備える情報処理デバイスであって、
前記コンピュータ実施可能命令は、前記プロセッサに、
機械学習モデルの第１のセットを用いてオリジナルデータセットを処理することによって、分析結果のセットを生成することと、
分析結果の前記セットに基づいて、分散閾値に達する第１の分析結果と関連付けられた主体の第１のセットを含む前記オリジナルデータセットの高分散サブセットを識別することと、
を行うように構成される分散分析ユニットと、
前記高分散サブセットの主体の前記第１のセットを第１のデータパーティションおよび第２のデータパーティションに分割することと、
前記第１のデータパーティションのコピーである第３のデータパーティションと、前記第２のデータパーティションのコピーである第４のデータパーティションとを生成することと、
を行うように構成されるパーティションユニットと、
前記第３のデータパーティションを改変することによって改変済み第３のデータパーティション、および前記第４のデータパーティションを改変することによって改変済み第４のデータパーティションを生成することを行うように構成される改変ユニットと、
前記第１のデータパーティション、前記第２のデータパーティション、前記改変済み第３のデータパーティション、および前記改変済み第４のデータパーティションを使用して、機械学習モデルの第２のセットを訓練することと、
機械学習モデルの前記第２のセットを用いて前記オリジナルデータセットを処理することによって、第２の分析結果を生成することと、
前記第１の分析結果と前記第２の分析結果とを集約して分類することによって前記高分散サブセットの主体の前記第１のセットについての最終分析結果を生成することと、
を行うように構成される結果生成ユニットと、
として機能させる、情報処理デバイス。

【請求項2】

前記改変ユニットは、
ノイズレベル基準に基づいて、第１のノイズ量を前記第３のデータパーティションの特徴の第３のセットに付加することによって前記改変済み第３のデータパーティションを生成することと、
前記ノイズレベル基準に基づいて、第２のノイズ量を前記第４のデータパーティションの特徴の第４のセットに付加することによって前記改変済み第４のデータパーティションを生成することと、
を行うように構成される、請求項１に記載の情報処理デバイス。

【請求項3】

前記改変ユニットは、
機械学習モデルの前記第２のセットを使用して、増加するノイズ量が付加された改変済みサンプルデータセットを繰り返し処理することによって、サンプル予測結果のセットを生成することと、
サンプル予測結果の前記セットから、所定の正確率閾値を満たすサンプル予測結果のサブセットを識別することと、
前記ノイズレベル基準として、前記所定の正確率閾値を満たすサンプル予測結果の前記サブセットと関連付けられた前記改変済みサンプルデータセットに対して付加された最大ノイズ量を決定することと、
を行うように構成される、請求項２に記載の情報処理デバイス。

【請求項4】

前記パーティションユニットは、
前記第１の分析結果を、前記オリジナルデータセットについてのグラウンドトゥルース結果に対して比較することによって前記第１の分析結果の正確率を評価することと、
真陽性結果と関連付けられた主体の前記第１のセットの第１のサブセットを前記第１のデータパーティションに分割することと、
偽陽性結果と関連付けられた主体の前記第１のセットの第２のサブセットを前記第２のデータパーティションに分割することと、
を行うように構成される、請求項１に記載の情報処理デバイス。

【請求項5】

前記改変済み第３のデータパーティションおよび前記改変済み第４のデータパーティションに対して真陽性または偽陽性のアウトカムラベルを割り当てるためのラベル付けユニット
をさらに備える、請求項１に記載の情報処理デバイス。

【請求項6】

前記ラベル付けユニットは、
前記第１のデータパーティションの主体の第１のサブセットと前記改変済み第３のデータパーティションの主体の第３のサブセットとの間の第１の類似度を計算し、
前記第１の類似度が類似度閾値に達する場合、真陽性結果ラベルを主体の前記第３のサブセットに割り当て、
前記第１の類似度が類似度閾値に達しない場合、偽陽性結果ラベルを主体の前記第３のサブセットに割り当て、
前記第２のデータパーティションの主体の第２のサブセットと前記改変済み第４のデータパーティションの主体の第４のサブセットとの間の第２の類似度を計算し、
前記第２の類似度が類似度閾値に達する場合、偽陽性結果ラベルを主体の前記第４のサブセットに割り当て、
前記第２の類似度が類似度閾値に達しない場合、真陽性結果ラベルを主体の前記第４のサブセットに割り当てる、
請求項５に記載の情報処理デバイス。

【請求項7】

情報処理デバイスと、
ユーザ端末と、
を備える情報処理システムであって、
前記情報処理デバイスは、
プロセッサと、
前記プロセッサによって実行可能なコンピュータ実施可能命令を含むメモリとを含み、前記コンピュータ実施可能命令は、前記プロセッサに、
機械学習モデルの第１のセットを用いてオリジナルデータセットを処理することによって、分析結果のセットを生成することと、
分析結果の前記セットに基づいて、分散閾値に達する第１の分析結果と関連付けられた主体の第１のセットを含む前記オリジナルデータセットの高分散サブセットを識別することと、
を行うように構成される分散分析ユニットと、
前記高分散サブセットの主体の前記第１のセットを第１のデータパーティションおよび第２のデータパーティションに分割することと、
前記第１のデータパーティションのコピーである第３のデータパーティションと、前記第２のデータパーティションのコピーである第４のデータパーティションとを生成することと、
を行うように構成されるパーティションユニットと、
前記第３のデータパーティションを改変することによって改変済み第３のデータパーティション、および前記第４のデータパーティションを改変することによって改変済み第４のデータパーティションを生成することを行うように構成される改変ユニットと、
前記第１のデータパーティション、前記第２のデータパーティション、前記改変済み第３のデータパーティション、および前記改変済み第４のデータパーティションを使用して、機械学習モデルの第２のセットを訓練することと、
機械学習モデルの前記第２のセットを用いて前記オリジナルデータセットを処理することによって、第２の分析結果を生成することと、
前記第１の分析結果と前記第２の分析結果とを集約して分類することによって前記高分散サブセットの主体の前記第１のセットについての最終分析結果を生成することと、
前記最終分析結果を前記ユーザ端末に出力することと、
を行うように構成される結果生成ユニットと、
として機能させる、情報処理システム。

【請求項8】

コンピュータによって実行される情報処理方法であって、前記情報処理方法は、
機械学習モデルの第１のセットを用いてオリジナルデータセットを処理することによって、分析結果のセットを生成するステップと、
分析結果の前記セットに基づいて、分散閾値に達する第１の分析結果と関連付けられた主体の第１のセットを含む前記オリジナルデータセットの高分散サブセットを識別するステップと、
前記高分散サブセットの主体の前記第１のセットを第１のデータパーティションおよび第２のデータパーティションに分割するステップと、
前記第１のデータパーティションのコピーである第３のデータパーティションと、前記第２のデータパーティションのコピーである第４のデータパーティションとを生成するステップと、
機械学習モデルのテストセットを使用して、増加するノイズ量が付加された改変済みサンプルデータセットを繰り返し処理することによって、サンプル予測結果のセットを生成するステップと、
サンプル予測結果の前記セットから、所定の正確率閾値を満たすサンプル予測結果のサブセットを識別するステップと、
ノイズレベル基準として、前記所定の正確率閾値を満たすサンプル予測結果の前記サブセットと関連付けられた前記改変済みサンプルデータセットに対して付加された最大ノイズ量を決定するステップと、
前記ノイズレベル基準に基づいて、第１のノイズ量を前記第３のデータパーティションの特徴の第３のセットに付加することによって改変済み第３のデータパーティションを生成するステップと、
前記ノイズレベル基準に基づいて、第２のノイズ量を前記第４のデータパーティションの特徴の第４のセットに付加することによって改変済み第４のデータパーティションを生成するステップと、
前記第１のデータパーティション、前記第２のデータパーティション、前記改変済み第３のデータパーティション、および前記改変済み第４のデータパーティションを使用して、機械学習モデルの第２のセットを訓練するステップと、
機械学習モデルの前記第２のセットを用いて前記オリジナルデータセットを処理することによって、第２の分析結果を生成するステップと、
前記第１の分析結果と前記第２の分析結果とを集約して分類することによって前記高分散サブセットの主体の前記第１のセットについての最終分析結果を生成するステップと、
を含む情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、情報処理デバイス、情報処理方法、および情報処理システムに関する。

【背景技術】

【0002】

近年、機械学習技術は、幅広い分野への適用のために開発されている。機械学習では、既知のケースに基づく訓練データがコンピュータに入力される。コンピュータは、訓練データを解析して、因子（説明変数または独立変数と呼ばれる場合がある）とアウトカム（目的変数または従属変数と呼ばれる場合がある）との間の関係を汎化するモデルを学習する。このモデルは、次いで、未知のケースに対する結果を予測するために使用され得る。一例として、類似患者についての過去の医学的介入履歴および患者特性を含むデータに基づいて異なる医学的介入を受ける患者の生存性を予測するモデルを生成することが可能である。

【0003】

従来、機械学習技術の性能を改善する技法が考えられてきた。
例えば、特許文献１は、「改訂されたサポートベクタマシン（ＳＶＭ）クラシファイアは、音声認識システムのキーワードスポッティングコンポーネントからの出力に基づいて真のキーワードと偽陽性とを区別するように提供される。ＳＶＭは、特徴次元の縮小セットに対して動作し、この特徴次元は、真のキーワードと偽陽性とを区別するそれらの能力に基づいて選択される。さらに、サポートベクタ対は、再重みづけサポートベクタの縮小セットを作成するために統合される。これらの技法は、結果として、縮小されたコンピューティングリソースを使用して動作され得るＳＶＭをもたらし、したがってシステム性能を向上させる」という技法を開示している。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】米国特許第９６００２３１号明細書

【発明の概要】

【発明が解決しようとする課題】

【0005】

機械学習では、生成されたモデルの正確性、すなわち未知のケースの結果を正確に予測する能力（予測性能と呼ばれる場合がある）が高いことが好ましい。因子間の関係を汎化するモデルのデータセットにおける学習可能な情報コンテンツの増加に伴って、予測性能は高まるが、比較的大きなサンプルサイズを用いて実現可能な場合が多い。従来、小さいサンプルサイズに基づくデータセットは、それぞれの結果がアウトカムおいて大きなばらつきを有するなど、予測性能の低下につながり得る。異なるアウトカム間の高分散に起因して、そのような結果は信頼性が低い場合があり、結論または洞察を引き出すには適していない。

【0006】

特許文献１は、キーワード認識のためにＳＶＭクラシファイアを使用するための技法を提案する。より詳しくは、特許文献１の技法は、コンピューティングリソースが限られた環境におけるＳＶＭの動作を容易にするために、特徴セットのサイズを減少させることに関する。しかしながら、特許文献１は、小さいサンプルサイズを有するデータセットにおける機械学習モデルの予測性能を改善することには関しない。

【0007】

したがって、本開示の目的は、小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度を有する機械学習モデルを生成するための情報処理技法を提供することである。

【課題を解決するための手段】

【0008】

本開示の代表的な一例は、プロセッサと、プロセッサによって実行可能なコンピュータ実施可能命令を含むメモリとを含む情報処理デバイスであって、命令は、プロセッサに、機械学習モデルの第１のセットを用いてオリジナルデータセットを処理することによって、分析結果のセットを生成することと、分析結果のセットに基づいて、分散閾値に達する第１の分析結果と関連付けられた主体(例えば、患者や機械部品など)の第１のセットを含むオリジナルデータセットの高分散サブセットを識別することと、を行うように構成される分散分析ユニットと、高分散サブセットの主体の第１のセットを第１のデータパーティションおよび第２のデータパーティションに分割することと、第１のデータパーティションのコピーである第３のデータパーティションと、第２のデータパーティションのコピーである第４のデータパーティションとを生成することと、を行うように構成されるパーティションユニットと、第３のデータパーティションを改変する（例えば、ノイズを付加する）ことによって改変済み第３のデータパーティション、および第４のデータパーティションを改変することによって改変済み第４のデータパーティションを生成することを行うように構成される改変ユニットと、第１のデータパーティション、第２のデータパーティション、改変済み第３のデータパーティション、および改変済み第４のデータパーティションを使用して、機械学習モデルの第２のセットを訓練することと、機械学習モデルの第２のセットを用いてオリジナルデータセットを処理することによって、第２の分析結果を生成することと、第１の分析結果と第２の分析結果とを集約して分類することによって高分散サブセットの主体の第１のセットについての最終分析結果を生成することと、を行うように構成される結果生成ユニットと、として機能させる、情報処理デバイスに関する。

【発明の効果】

【0009】

本開示によれば、小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度を有する機械学習モデルを生成するための情報処理技法を提供することが可能である。

【0010】

上述した以外の問題、構成、および効果は、本発明を実行するための実施形態における以下の記載によって明確となるであろう。

【図面の簡単な説明】

【0011】

【図1】本開示の実施形態を実行するための例示的なコンピューティングアーキテクチャを示す図である。

【図2】本開示の実施形態による、情報処理システムの例示的なハードウェア構成を示す図である。

【図3】本開示の実施形態による、低分散分析結果および高分散分析結果の例を示す図である。

【図4】本開示の実施形態による、分散減少分析結果の例を示す図である。

【図5】本開示の実施形態による情報処理方法を示すフローチャートである。

【図6】本開示の実施形態による、高分散結果と関連するデータセットを識別するための情報処理システムの例示的な論理構成を示す図である。

【図7】本開示の実施形態による、高分散データセットについての分析結果を生成するための情報処理システムの例示的な論理構成を示す図である。

【発明を実施するための形態】

【0012】

本明細書において、本発明の実施形態が図面を参照して説明される。なお、本明細書で説明される実施形態は特許請求の範囲にしたがって本発明を限定することは意図されないことが留意されるべきであり、実施形態に関して説明される要素の各々とそれらの組み合わせが本発明の態様を実施するために厳密に必要なものではないことを理解されたい。

【0013】

以下の説明および関連図面において、様々な態様が開示される。代替的な態様は、本開示の範囲から逸脱しない範囲で考案可能である。加えて、本開示のよく知られた要素は、本開示の関連詳細を不明瞭にしないために、詳細に説明されず、または省略される。

【0014】

「例示的」および／または「例」という語は、本明細書では、「例、事例、または説明例の役割を果たす」ことを意味するために使用される。「例示的」および／または「例」として本明細書で説明されるあらゆる態様は、他の態様よりも好ましい、または有益であると必ずしも解釈されるべきではない。同様に、「本開示の態様」という表現は、本開示の全態様が、動作の論じられる特徴、利点、または特性を含むことを必要としない。

【0015】

さらに、例えば、演算装置の要素によって実行されるアクションの順序に関して、多くの態様が説明される。本明細書で説明される様々なアクションは、特定の回路（例えば、特定用途向け集積回路（ＡＳＩＣ））、１つまたは複数のプロセッサによって実行されるプログラム命令、またはその両方の組み合わせによって実行可能であることが認識されるであろう。加えて、本明細書で説明されるアクションの順序は、実行されると、関連プロセッサに本明細書で説明される機能を実行させ得るコンピュータ命令の対応セットを格納するコンピュータ可読格納媒体の任意の形態内で全体として具体化されると考えられることが可能である。そのため、本開示の様々な態様は、多数の様々な形態で具体化されてもよく、そのすべては、特許請求の範囲に記載の主題内にあると企図される。

【0016】

本明細書において、本開示の実施形態の詳細な説明が図面を参照して説明される。

【0017】

次に、図面を参照すると、図１は、本開示の様々な実施形態を実施するための、実施形態による、コンピュータシステム１００の概略ブロック図である。本明細書で開示される様々な実施形態の機構および装置は、任意の適切な演算システムに等しく適用可能である。コンピュータシステム１００の主要構成要素は、１つまたは複数のプロセッサ１０２、メモリ１０４、端末インターフェース１１２、格納インターフェース１１３、Ｉ／Ｏ（入力／出力）デバイスインターフェース１１４、およびネットワークインターフェース１１５を含み、そのすべては、メモリバス１０６、Ｉ／Ｏバス１０８、バスインターフェースユニット１０９、およびＩ／Ｏバスインターフェースユニット１１０を介した構成要素間通信のために、直接または間接的に、通信可能に結合される。

【0018】

コンピュータシステム１００は、本明細書では全般的にプロセッサ１０２と呼ばれる、１つまたは複数の汎用プログラマブル中央処理装置（ＣＰＵ）１０２Ａおよび１０２Ｂを含み得る。実施形態では、コンピュータシステム１００は複数のプロセッサを含み得るが、特定の実施形態では、コンピュータシステム１００は、代替として、単一のＣＰＵシステムでもよい。各プロセッサ１０２は、メモリ１０４に格納された命令を実行し、１つまたは複数のレベルのオンボードのキャッシュを含み得る。

【0019】

実施形態では、メモリ１０４は、データおよびプログラムを格納または符号化するためのランダムアクセス半導体メモリ、格納デバイス、または格納媒体（揮発性、または不揮発性のいずれか）を含み得る。特定の実施形態では、メモリ１０４は、コンピュータシステム１００の仮想メモリ全体を表し、さらに、コンピュータシステム１００に結合された、またはネットワークを介して接続された他のコンピュータシステムの仮想メモリを含み得る。メモリ１０４は、概念上、単一のモノリシックな実体として見られることが可能であるが、他の実施形態では、メモリ１０４は、キャッシュおよび他のメモリ素子の階層など、より複雑な構成である。例えば、メモリは、複数のレベルのキャッシュに存在してもよく、それらのキャッシュは、さらに機能別に分割されてもよく、それによって、１つのキャッシュが命令を保持し、他の１つのキャッシュが、プロセッサによって使用される命令以外のデータを保持する。メモリは、さらに、様々な、いわゆる不均一メモリアクセス（ＮＵＭＡ）コンピュータアーキテクチャのうちの任意のアーキテクチャにおいて知られるように、分散されて、異なるＣＰＵまたはＣＰＵのセットと関連付けられてもよい。

【0020】

メモリ１０４は、本明細書で説明されるデータ転送を処理するための様々なプログラム、モジュール、およびデータ構造の全部または一部分を格納し得る。例えば、メモリ１０４は、情報処理アプリケーション１５０を格納可能である。実施形態では、情報処理アプリケーション１５０は、プロセッサ１０２上で実行される命令またはステートメント、あるいはさらに後述されるような機能を実行するためにプロセッサ１０２上で実行される命令またはステートメントによって解釈される命令またはステートメントを含み得る。
特定の実施形態では、情報処理アプリケーション１５０は、プロセッサベースのシステムに代わって、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および／または他の物理的ハードウェアデバイスを介してハードウェアで実施される。実施形態では、情報処理アプリケーション１５０は、命令またはステートメントに加えて、データを含み得る。特定の実施形態では、カメラ、センサ、または他のデータ入力デバイス（不図示）は、コンピュータシステム１００のバスインターフェースユニット１０９、プロセッサ１０２、または他のハードウェアとの直接通信状態で提供され得る。そのような構成では、プロセッサ１０２がメモリ１０４および情報処理アプリケーション１５０にアクセスする必要性が削減され得る。

【0021】

コンピュータシステム１００は、プロセッサ１０２、メモリ１０４、表示システム１２４、およびＩ／Ｏバスインターフェースユニット１１０間での通信を扱うバスインターフェースユニット１０９を含み得る。Ｉ／Ｏバスインターフェースユニット１１０は、様々なＩ／Ｏユニットとの間でデータを転送するためにＩ／Ｏバス１０８と結合され得る。Ｉ／Ｏバスインターフェースユニット１１０は、Ｉ／Ｏバス１０８を介して、Ｉ／Ｏプロセッサ（ＩＯＰ）またはＩ／Ｏアダプタ（ＩＯＡ）としても知られる複数のＩ／Ｏインターフェースユニット１１２、１１３、１１４、および１１５と通信する。表示システム１２４は、ディスプレイコントローラ、ディスプレイメモリ、またはその両方を含み得る。ディスプレイコントローラは、映像、音声、またはその両方の種類のデータを表示デバイス１２６に提供し得る。さらに、コンピュータシステム１００は、データを収集してプロセッサ１０２に提供するように構成された１つまたは複数のセンサまたは他の装置を含み得る。
例として、コンピュータシステム１００は、バイオメトリックセンサ（例えば、心拍数データ、ストレスレベルデータを収集）、環境センサ（例えば、湿度データ、温度データ、圧力データを収集）、運動センサ（例えば、加速度データ、移動データを収集）、などを含み得る。他の種類のセンサも可能である。ディスプレイメモリは、映像データをバッファに入れるための専用メモリでもよい。表示システム１２４は、スタンドアロンの表示画面、コンピュータモニタ、テレビジョン、タブレット、またはハンドヘルドデバイスのディスプレイなどの表示デバイス１２６と結合され得る。
一実施形態では、表示デバイス１２６は、音声をレンダリングするための１つまたは複数のスピーカーを含み得る。あるいは、音声をレンダリングするための１つまたは複数のスピーカーは、Ｉ／Ｏインターフェースユニットと結合され得る。代替の実施形態では、表示システム１２４によって提供される機能のうちの１つまたは複数は、プロセッサ１０２も含む集積回路に搭載されてもよい。加えて、バスインターフェースユニット１０９によって提供される機能のうちの１つまたは複数は、プロセッサ１０２も含む集積回路に搭載されてもよい。

【0022】

Ｉ／Ｏインターフェースユニットは、種々の格納デバイスおよびＩ／Ｏデバイスとの通信をサポートする。例えば、端末インターフェースユニット１１２は、ユーザ出力デバイス（映像表示デバイス、スピーカー、および／またはテレビジョン受信機など）と、ユーザ入力デバイス（キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、光ペン、または他のポインティングデバイスなど）とを含み得る１つまたは複数のユーザＩ／Ｏデバイス１１６の接続をサポートする。ユーザは、入力データおよびコマンドをユーザＩ／Ｏデバイス１１６およびコンピュータシステム１００に提供するために、ユーザインターフェースを使用してユーザ入力デバイスを操作してもよく、さらに、ユーザ出力デバイスを介して出力データを受信してもよい。例えば、ユーザインターフェースは、表示デバイス上での表示、スピーカーによる再生、またはプリンタによる印刷など、ユーザＩ／Ｏデバイス１１６を介して提示されてもよい。

【0023】

格納インターフェース１１３は、１つまたは複数のディスクドライブまたは直接アクセス格納デバイス１１７（通常、磁気ディスクドライブ格納デバイスを回転させるが、代替として、ホストコンピュータにとって単一の大容量格納デバイスに見えるディスクドライブ、またはフラッシュメモリなどのソリッドステートドライブのアレイを含む他の格納デバイスでもよい）の接続をサポートする。いくつかの実施形態では、格納デバイス１１７は、任意の種類の二次格納デバイスによって実施され得る。メモリ１０４の内容物、またはその任意の部分は、格納デバイス１１７に格納されてもよく、必要に応じて格納デバイス１１７から取り出されてもよい。Ｉ／Ｏデバイスインターフェース１１４は、様々な他のＩ／Ｏデバイス、またはプリンタもしくはファックス機などの他の種類のデバイスのうちのいずれかへのインターフェースを提供する。ネットワークインターフェース１１５は、コンピュータシステム１００から他のデジタルデバイスおよびコンピュータシステムへの１つまたは複数の通信経路を提供し、これらの通信経路は、例えば、１つまたは複数のネットワーク１３０を含み得る。

【0024】

図１に示されるコンピュータシステム１００は、プロセッサ１０２、メモリ１０４、バスインターフェース１０９、表示システム１２４、およびＩ／Ｏバスインターフェースユニット１１０間において直接通信経路を提供する特定のバス構造を説明しているが、代替の実施形態では、コンピュータシステム１００は、階層的構成、星状構成もしくはウェブ構成、複数の階層的バス、並列および冗長経路、または任意の他の適切な種類の構成における二点間リンクなどの様々な形態のうちのいずれかで構成され得る異なるバスまたは通信経路を含み得る。さらに、Ｉ／Ｏバスインターフェースユニット１１０およびＩ／Ｏバス１０８は、単独のそれぞれの部材として示されているが、コンピュータシステム１００は、実際に、複数のＩ／Ｏバスインターフェースユニット１１０および／または複数のＩ／Ｏバス１０８を含み得る。様々なＩ／Ｏデバイスに向かって走る様々な通信経路からＩ／Ｏバス１０８を分離する複数のＩ／Ｏインターフェースユニットが示されているが、他の実施形態では、そのＩ／Ｏデバイスのいくつか、または全部は、１つまたは複数のシステムＩ／Ｏバスに対して直接接続される。

【0025】

様々な実施形態では、コンピュータシステム１００は、複数ユーザメインフレームコンピュータシステム、単一ユーザシステム、もしくはサーバコンピュータまたは直接ユーザインターフェースがほとんどまたは全くない同様のデバイスであるが、他のコンピュータシステム（クライアント）から要求を受信する。他の実施形態では、コンピュータシステム１００は、デスクトップコンピュータ、ポータブルコンピュータ、ラップトップもしくはノート型のコンピュータ、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、または任意の他の適切な種類の電子デバイスとして実施され得る。

【0026】

次に、図２を参照して、本開示の実施形態による情報処理システムの例示的なハードウェア構成を説明する。

【0027】

図２は、本開示の実施形態による、情報処理システム２００の例示的なハードウェア構成を示す図である。情報処理システム２００は、高分散分析結果と関連付けられたデータセットを識別し、小さいサンプルサイズを有するデータセットのための高信頼度の結果を生成可能な高堅牢度の機械学習モデルを生成するように構成される情報処理システムに関する。

【0028】

図２に示すように、本開示の実施形態による情報処理システム２００は、情報処理デバイス２１０と、通信ネットワーク２５０と、ユーザ端末２６０とを含む。情報処理デバイス２１０およびユーザ端末２６０は、通信ネットワーク２５０介して通信可能に接続され得る。
ここで、通信ネットワーク２５０は、ローカルエリアネットワーク（ＬＡＮ）接続、インターネット、ワイドエリアネットワーク（ＷＡＮ）接続、メトロポリタンエリアネットワーク（ＭＡＮ）接続などを含み得る。

【0029】

情報処理デバイス２１０は、高分散分析結果と関連付けられたデータセットを識別し、小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度の機械学習モデルを生成するための装置であり、図２に示すように、主に、メモリ２２０と、格納ユニット２３０と、プロセッサ２４４と、入力／出力ユニット２４６とを含む。実施形態では、情報処理デバイス２１０は、図１に示すコンピュータシステム１００などのコンピュータシステムを使用して実施され得る。

【0030】

メモリ２２０は、本開示の実施形態による情報処理技法の機能を実施するための情報処理アプリケーション１５０を格納するためのメモリである。図２に示すように、情報処理アプリケーション１５０は、分散分析ユニット２２２と、パーティションユニット２２４と、改変ユニット２２６と、ラベル付けユニット２２８と、結果生成ユニット２２９とを含み得る。分散分析ユニット２２２、パーティションユニット２２４、改変ユニット２２６、ラベル付けユニット２２８、および結果生成ユニット２２９の各々は、情報処理アプリケーション１５０を含むソフトウェアモジュールとして実施され得る。

【0031】

分散分析ユニット２２２は、高分散分析結果と関連付けられたデータセットを識別するための機能ユニットである。より詳しくは、分散分析ユニット２２２は、機械学習モデルの第１のセット（例えば、機械学習モデルの第１のセット２３３）を用いてオリジナルデータセットを処理することによって分析結果のセットを生成し、その分析結果のセットに基づいて、分散閾値に達する第１の分析結果と関連付けられた主体の第１のセットを含むオリジナルデータセットからの高分散サブセット２３２を識別し得る。

【0032】

パーティションユニット２２４は、高分散データセットをパーティションに分割するための機能ユニットである。より詳しくは、パーティションユニット２２４は、高分散サブセット２３２の主体の第１のセットを第１のデータパーティションおよび第２のデータパーティションに分割し、第１のデータパーティションのコピーである第３のデータパーティションと、第２のデータパーティションのコピーである第４のデータパーティションとを生成し得る。実施形態では、高分散サブセット２３２の主体の第１のセットは、機械学習モデルの第１のセット２３３によって生成された分析結果とグラウンドトゥルースとの間の関係に基づいて、真陽性、偽陽性、真陰性、または偽陰性のデータパーティションに分割され得る。

【0033】

改変ユニット２２６は、パーティションユニット２２４によって生成された特定のデータパーティションを改変する（例えば、ノイズを付加する）ための機能ユニットである。より詳しくは、改変ユニット２２６は、第３のデータパーティションを改変することによって改変済み第３のデータパーティション、および第４のデータパーティションを改変することによって改変済み第４のデータパーティションを生成し得る。

【0034】

ラベル付けユニット２２８は、パーティションユニット２２４によって生成されたパーティションにアウトカムラベルを割り当てるための機能ユニットである。実施形態では、ラベル付けユニット２２８は、改変済み第３のデータパーティションおよび改変済み第４のデータパーティションに対して真陽性もしくは偽陽性（または真陰性もしくは偽陰性）のアウトカムラベルを割り当て得る。

【0035】

結果生成ユニット２２９は、パーティションユニットによって生成されたデータパーティションに基づいて機械学習モデルを訓練し、それらの機械学習モデルを使用して分析結果を生成するための機能ユニットである。より詳しくは、結果生成ユニット２２９は、第１のデータパーティション、第２のデータパーティション、改変済み第３のデータパーティション、および改変済み第４のデータパーティションを使用して機械学習モデルの第２のセット（例えば、機械学習モデルの第２のセット２３４）を訓練し、機械学習モデルの第２のセットを用いてオリジナルデータセットを処理することによって第２の分析結果を生成し、第１の分析結果および第２の分析結果を集約および分類することによって最終分析結果を生成し得る。

【0036】

格納ユニット２３０は、本開示の態様を実施する際に使用される様々なデータおよび情報を格納するためのユニットである。格納ユニット２３０は、ハードディスクドライブ、ソリッドステートドライブ、フラッシュメモリ、クラウド、ストレージなどのコレクションを含み得る。図２に示すように、格納ユニット２３０は、オリジナルデータセット２３１と、高分散サブセット２３２と、機械学習モデルの第１のセット２３３と、機械学習モデルの第２のセット２３４とを含み得る。

【0037】

オリジナルデータセット２３１は、機械学習タスクの一部として使用されるデータセットである。オリジナルデータセット２３１は、各主体と関連する特徴に基づいて１つまたは複数のカテゴリに分類され得る主体のセットを含み得る。ここで、「主体」とは、オリジナルデータセット内の実体を指す。本明細書で説明する場合、オリジナルデータセット２３１の全部または部分は、小さいサンプルサイズと関連付けられた主体のセット（例えば、測定された数のデータ点が所定の閾値に達しないセット）を含み得る。

【0038】

一例として、オリジナルデータセット２３１は、患者についての生活の質情報および医学的介入情報に関係するデータセットを含んでもよく、患者（すなわち、主体）を、患者特性、または人口統計（例えば、年齢、性別、人種、収入レベル、健康の社会的決定要因）、検査結果（例えば、ヘモグロビン、アルブミン、ビリルビン、クレアチニン、ナトリウム、アルカリ性ホスファターゼなど）、診断結果（例えば、腎不全、糖尿病、癌、心不全、高血圧など）、医学的介入履歴（過去の治療、投薬等）などの特徴を使用して判断されるような寿命長さ確率に基づくグループに分類する機械学習タスクのために使用可能である。

【0039】

別の例として、オリジナルデータセット２３１は、機器メンテナンスに関係するデータセットを含んでもよく、機械部品（すなわち、主体）を、機械部品特性（例えば、デバイスタイプ、材質、製造データ、年数）、デバイス測定または監視結果（例えば、温度、湿度、電圧、圧力）、診断結果（例えば、電圧または電流スパイク、高圧力に起因する構造上の損傷、オーバーヒート）、メンテナンス履歴（例えば、過去の点検、部品交換、ソフトウェア更新）などの特徴を使用して決定されるような故障の確率に基づくグループに分類する機械学習タスクのために使用され得る。
オリジナルデータセット２３１は、本明細書では特に限定されず、他の種類のデータも使用され得ることに留意されたい。

【0040】

高分散サブセット２３２は、高分散と関連しているとして識別されたオリジナルデータセット２３１の一部分である。実施形態では、高分散サブセット２３２は、オリジナルデータセットのうちから選択された主体の第１のセットを含み得る。
機械学習モデルの第１のセット２３３は、オリジナルデータセット２３１に基づいて訓練された機械学習モデルの第１のグループである。
機械学習モデルの第２のセット２３４は、高分散サブセット２３２に基づいて生成された改変済み訓練データセットに基づいて訓練された機械学習モデルの第２のグループである。

【0041】

プロセッサ２４４は、メモリ２２０に格納された情報処理アプリケーション１５０に含まれる様々なソフトウェアモジュールおよび機能ユニットのための処理命令を実行するための処理ユニットである。

【0042】

入力／出力ユニット２４６は、情報処理デバイス２１０とユーザ端末２６０などの外部ソースとの間の通信を容易にするためのユニットである。実施形態では、入力／出力ユニット２４６は、データおよびユーザコマンドの入力を容易にし、ステータス情報および結果を表示するために、グラフィカルユーザインターフェースを生成し、ユーザ端末２６０上に提供するように構成され得る。

【0043】

ユーザ端末２６０は、情報処理デバイス２１０のユーザ（例えば、クライアント）によって使用可能なデバイスである。実施形態では、ユーザ端末２６０は、情報処理デバイス２１０による、データのセット（例えば、オリジナルデータセット２３１）の分析を要求し、この分析の結果を確定するために使用され得る。例として、ユーザ端末２６０は、パーソナルコンピュータ、タブレットコンピュータ、スマートフォン、または他のコンピューティングデバイスを使用して実施され得る。

【0044】

図２に示される情報処理システム２００によれば、小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度を有する機械学習モデルを生成するための情報処理技法を提供することが可能である。

【0045】

本明細書で説明されるように、本開示の態様は、予測モデルが小さいサンプルサイズに基づいてデータセットを処理するために使用されるとき、もたらされる分析結果がアウトカム間の高分散と関連し得るという認識に関係する。ここで、分散は、特定の分析結果と関連するエラー率または不確定度を指す。次に、図３および図４を参照して、サンプル分析結果に関してアウトカム分散の例を説明する。

【0046】

図３は、特定の医学的介入に対する患者の生存率に関する低分散分析結果３１０および高分散分析結果３２０の例を示す図である。低分散分析結果３１０および高分散分析結果３２０において、縦軸は生存率（パーセント）を表し、横軸は医学的介入後に生存した時間を表す。図３に示すように、低分散分析結果３１０の線グラフ３１２は分散範囲３１５と関連しており、高分散分析結果３２０の線グラフ３２２は分散範囲３２５と関連している。これらの分散範囲３１５および３２５は、医学的介入から経過した年数に応じた患者の生存率の誤差範囲を示す。

【0047】

低分散分析結果３１０と高分散分析結果３２０とを比較することによってわかるように、低分散分析結果３１０の分散範囲３１５は１０％未満である一方、高分散分析結果の分散範囲３２５は６０％近い。本明細書で説明されるように、異なるアウトカム間のこの高分散に起因して、高分散分析結果などの結果は信頼性が低く、結論または洞察を引き出すには適していない。
したがって、本開示の態様は、小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度を有する機械学習モデルを生成することに関する。

【0048】

図４は、本開示の実施形態による、分散減少分析結果４１０の例を示す図である。分散減少分析結果４１０は、図３に示す高分散分析結果３２０を作成するために使用される同一のデータセットに関して、本開示の実施形態による情報処理技法を使用することによって生成された分析結果を示す。

【0049】

図３を参照して説明したように、分散減少分析結果４１０において、縦軸は生存率（パーセント）を表し、横軸は医学的介入後に生存した時間を表す。図４に示すように、分散減少分析結果４１０の線グラフ４１２は、分散範囲４１５と関連している。この分散範囲４１５は、医学的介入から経過した年数に応じた患者の生存率の誤差範囲を示す。

【0050】

図３に示す分散減少分析結果４１０と高分散分析結果３２０とを比較することによってわかるように、分散減少分析結果４１０の分散範囲４１５は、高分散分析結果３２０に対して、およそ１０％未満だけ減少している。この分散減少範囲に起因して、分散減少分析結果４１０は、高分散分析結果３２０よりも正確な結論または洞察を引き出すことを容易にするために使用可能である。

【0051】

次に、図５を参照して、本開示の実施形態による情報処理方法を説明する。

【0052】

図５は、本開示の実施形態による情報処理方法５００を示すフローチャートである。図５に示す情報処理方法５００は、高分散分析結果と関連するデータセットを識別し、高堅牢度の機械学習モデルを生成し、小さいサンプルサイズを有するデータセットのための分析結果を生成するための方法である。情報処理方法５００は、図２に示す情報処理デバイス２１０の様々な機能ユニットによって実行され得る。

【0053】

最初に、ステップＳ５０５で、分散分析ユニット２２２は、機械学習モデルの第１のセット（例えば、図２に示す機械学習モデルの第１のセット２３３）を使用してオリジナルデータセット（例えば、図２に示すオリジナルデータセット２３１）を処理することによって分析結果のセットを生成する。機械学習モデルの第１のセットは、オリジナルデータセットに対する分類タスクを実行するように訓練された機械学習モデルでもよい。本明細書で説明されるように、オリジナルデータセットは、機械学習分類タスクの一部として使用されるために指定されたデータセットでもよい。例えば、オリジナルデータセットは、各主体と関連する特徴に基づいて１つまたは複数のカテゴリに分類され得る主体のセットを含み得る。ここで、「主体」とは、オリジナルデータセット内の実体を指す。一例として、オリジナルデータセットは、患者（例えば、主体）についての個人的な生活の質、医学的特性、および医学的介入情報を含み得る。本明細書で説明するように、オリジナルデータセットの主体の全部または一部分は、小さいサンプルサイズと関連付けられ得る。例えば、稀にしか行われない医学的介入と関連付けられた患者は、小さいサンプルサイズと関連付けられ得る。

【0054】

機械学習モデルの第１のセットは、オリジナルデータセットの主体のセットがカテゴリに分類されている分析結果のセットを生成するために、オリジナルデータセットの全部または一部分を処理し得る。この分析結果のセットは、オリジナルデータセットの主体の第１のセットに対応する第１の分析結果を含み得る。
一例として、オリジナルデータセットが患者についての個人的な医学的特性および医学的介入情報を含む場合、機械学習モデルの第１のセットは、各患者が特定の医学的介入に対する生存確率に基づくカテゴリにソートされている分析結果のセットを生成し得る。

【0055】

次に、ステップＳ５１０で、分散分析ユニット２２２は、ステップＳ５０５で生成された分析結果のセットに基づいて、分散閾値に達する第１の分析結果と関連するオリジナルデータセットの主体のセットのうち主体の第１のセットを含む高分散サブセット（例えば、図２に示す高分散サブセット２３２）を識別する。本明細書で説明されるように、分散は、特定の分析結果と関連する誤差または不確定度を指す。この分散は、オリジナルデータセットにおける小さいばらつきに対する機械学習モデルの第１のセットの感度に起因して発生する場合があり、サンプルサイズが相対的に小さい場合には高くなり得る。加えて、分散閾値は、分析結果のセットに対して、高分散アウトカムと低分散アウトカムとの間の境界を定義する基準または標準を指す。実施形態では、分散閾値は、機械学習タスクの性質に基づいて決定されてもよく、標準偏差の数、そのパーセンテージなどを単位として定義され得る。一例として、分散閾値が「３０％」である場合、アウトカム間で３０％以上の分散を有する分析結果と関連付けられた主体は、分散閾値に達していると識別され得る。

【0056】

次に、ステップＳ５１５で、パーティションユニット２２４は、ステップＳ５１０で識別された高分散サブセット２３２の主体の第１のセットを２つ以上のデータパーティションに分割する。実施形態では、パーティションユニット２２４は、オリジナルデータセットのグラウンドトゥルース結果に対して第１の分析結果を比較することによってステップＳ５０５において主体の第１のセットに対して生成された第１の分析結果の正確率に基づいて、高分散サブセット２３２の主体の第１のセットを分割し得る。より詳しくは、主体の第１のセットの主体ごとに、パーティションユニット２２４は、第１の分析結果においてその主体に対して示された結果と、その主体に対する実際の正確なアウトカムを示すオリジナルデータセットと関連付けられたグラウンドトゥルース結果とを比較し、第１の分析結果とグラウンドトゥルース結果との関係に基づいて、主体の第１のセットを、真陽性結果、偽陽性結果、真陰性結果および偽陰性結果と関連付けられた異なるパーティションにソートしてもよい。本明細書では、説明の都合上、真陽性結果と関連付けられた主体の第１のセットの第１のサブセットが第１のデータパーティションに配置され、偽陽性結果と関連付けられた主体の第１のセットの第２のサブセットが第２のデータパーティションに配置される場合について例示的な構成が説明されるが、本開示は本明細書では限定されず、真陰性結果と関連付けられた主体の第１のセットの第３のサブセットが第３のデータパーティションに配置され、偽陰性結果と関連付けられた主体の第１のセットの第４のサブセットが第４のデータパーティションに配置される構成も可能である。
このように、高分散サブセット２３２を真陽性結果、偽陽性結果、真陰性結果、および偽陰性結果のパーティションに分割することによって、機械学習分類性能がより高い主体を、機械学習分類性能がより低い主体から分離して個別に管理することが可能になる。その結果、後述するように、異なるノイズ量が特定のパーティションに付加可能である。

【0057】

次に、ステップＳ５２０で、パーティションユニット２２４は、ステップＳ５１５で作成された各データパーティションのコピーを生成する。より詳しくは、真陽性結果と関連付けられた第１のデータパーティションおよび偽陽性結果と関連付けられた第２のデータパーティションがステップＳ５１５で作成された場合、パーティションユニット２２４は、第１のデータパーティションのコピーである第３のデータパーティションおよび第２のデータパーティションのコピーである第４のデータパーティションを作成し得る。

【0058】

次に、ステップＳ５２５で、改変ユニット２２６は、ステップＳ５１５で作成されたコピー済みデータパーティションを改変して、改変済みデータパーティションを作成する。ここで、改変ユニット２２６は、各データパーティションの特徴のセットにノイズを付加することによってコピー済みデータパーティションを改変して、それらの特徴の値を歪ませる、または改変することができる。異なるノイズ量が各パーティションに付加され得る。例えば、改変ユニット２２６は、ノイズの第１のセットを第３のデータパーティションの特徴の第３のセットに付加することによって改変済み第３のデータパーティションを生成でき、ノイズの第２のセットを第４のデータパーティションの特徴の第４のセットに付加することによって改変済み第４のデータパーティションを生成できる。コピー済みデータの特徴のセットに付加されたノイズ量は、ノイズレベル基準に基づいて決定され得る。後述するように、このノイズレベル基準は、様々なノイズ量を有するサンプルデータセットに対して、機械学習モデルの第２のセットの性能に基づいて決定され得る。加えて、後述するように、改変済み第３のデータパーティションおよび改変済み第４のデータパーティションは、ラベル付けユニット２２８によってラベルが割り当てられ得る。

【0059】

次に、ステップＳ５３０で、結果生成ユニット２２９は、ステップＳ５１５で生成された第１のデータパーティションおよび第２のデータパーティション、ならびにステップＳ５２５で生成された改変済み第３のデータパーティションおよび改変済み第４のデータパーティションを使用して、機械学習モデルの第２のセット（例えば、図２に示される機械学習モデルの第２のセット２３４）を訓練する。ここで、機械学習モデルの第２のセットは、機械学習モデルの第１のセットと同じタイプおよび構成を有する未訓練の機械学習モデルである。歪んだ特徴を有するように改変された改変済み第３および第４のデータパーティションとともに、オリジナルデータセットからのデータを含む第１および第２のデータパーティションを使用して機械学習モデルの第２のセットを訓練することによって、小さいサンプルサイズに関して機械学習モデルの第２のセットの堅牢性が高まり得る。

【0060】

次に、ステップＳ５３５で、結果生成ユニット２２９は、ステップＳ５３０で訓練された機械学習モデルの第２のセットを使用して、ステップＳ５１０で識別された高分散サブセット２３２の主体の第１のセットを処理することによって第２の分析結果を生成する。実施形態では、機械学習モデルの第２のセットは、ステップＳ５０５と同じデータに対して同じ機械学習タスクを実行するように構成され得る。このようにして、機械学習モデルの第１のセットによって主体の第１のセットに対して生成された第１の分析結果に加えて、主体の同じ第１のセットに対する第２の分析結果が、小さいサンプルサイズに関して堅牢性を高めるように訓練された機械学習モデルの第２のセットによって生成され得る。

【0061】

次に、ステップＳ５４０で、結果生成ユニット２２９は、ステップＳ５０５で生成された第１の分析結果とステップＳ５３５で生成された第２の分析結果とを集約して、その結果を分類（例えば、再分類および再階層化）することによって最終分析結果を生成し得る。ここで、第１の分析結果および第２の分析結果は、任意の従来の機械学習結果集約技法を使用して集約されてもよく、結果は本明細書では特に限定されない。したがって、主体の第１のセットについて生成された第１の分析結果を、小さいサンプルサイズに関して堅牢性が高められるように訓練された機械学習モデルの第２のセットによって生成された主体の同じ第１のセットについて第２の分析結果とともに組み合わせることによって、第１の分析結果に対して正確率が高められたより正確な最終分析結果を得ることが可能である。

【0062】

情報処理方法５００によれば、小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度を有する機械学習モデルを生成するための情報処理技法を提供することが可能である。より詳しくは、特徴がノイズで歪められたオリジナルデータセットの改変バージョンに基づいて機械学習モデルの第２のセットが訓練されると、この機械学習モデルの第２のセットは、分類タスクに対して最も顕著で小さいサンプルサイズに関して堅牢な特徴を認識するように訓練され得る。このようにして、従来の機械学習技術が高分散結果を生じさせる小さいサンプルサイズにおいても高信頼性および高正確率の機械学習分析結果を得ることが可能になる。

【0063】

次に、図６を参照して、高分散結果と関連するデータセットを識別するための情報処理デバイスの例示的な論理構成を説明する。

【0064】

図６は、本開示の実施形態による、高分散結果と関連するデータセットを識別するための情報処理デバイス２１０の例示的な論理構成を示す図である。実施形態では、高分散結果と関連するデータセットを識別するために情報処理デバイス２１０によって実行された機能は、図５の情報処理方法５００のステップＳ５０５～Ｓ５１０に実質的に対応し得る。加えて、高分散結果と関連するデータセットを識別するために情報処理デバイス２１０によって実行された機能は、分散分析ユニット２２２（図６では不図示）によって実行され得る。

【0065】

最初に、分散分析ユニット２２２は、オリジナルデータセット２３１を取得する。本明細書で説明されるように、オリジナルデータセット２３１は、機械学習分類タスクの一部として使用されるために指定されたデータセットでもよい。例えば、オリジナルデータセット２３１は、各主体と関連する特徴に基づいて１つまたは複数の分類に分類され得る主体のセットを含み得る。実施形態では、オリジナルデータセット２３１は、機械学習分類タスクの一部として使用されるためにユーザによって作成および指定され得る。

【0066】

次に、分散分析ユニット２２２は、オリジナルデータセット２３１に対して特徴選択６０２を実行することによって機械学習データセット６０５を生成する。より詳しくは、分散分析ユニット２２２は、実行される機械学習タスクと関連すると判断されたオリジナルデータセット内の顕著な特徴のセットを識別し、主体と、それらの主体についての対応する顕著な特徴とを抽出することによって機械学習データセット６０５を生成し得る。実施形態では、所与の機械学習タスクに対して、顕著な特徴のセットがユーザによって事前に決定され得る。概して、機械学習データセット６０５における包含のために選択された特徴が顕著であるほど、機械学習モデルによって達成可能な正確率が上がるが、機械学習データセット６０５における特徴が顕著なほど、機械学習タスクの実行のために必要なコンピューティングリソースもまた増加する。そのため、機械学習データセットにおける包含のための顕著な特徴のタイプおよび数は、機械学習タスクの性質に基づいてユーザまたは管理者によって選択され得る。

【0067】

次に、分散分析ユニット２２２は、機械学習データセット６０５を開発パーティションのセット６０６および評価パーティションのセット６０８に分割するために、機械学習データセット６０５に対してパーティション生成６０４を実行する。実施形態では、開発パーティションのセット６０６および評価パーティションのセット６０８は、互いに対して相互排他的であってもよく、すなわち、開発パーティションのセット６０６に含まれるデータのうちのいずれも評価パーティションのセット６０８に含まれておらず、評価パーティションのセット６０８に含まれるデータのいずれも開発パーティションのセット６０６に含まれない。さらに、開発パーティションのセット６０６の各個別のパーティションおよび評価パーティションのセットの各個別のパーティションは、そのセットの他の個別のパーティションに対して相互排他的でもよい。特定の実施形態では、開発パーティションのセット６０６の各個別のパーティションおよび評価パーティションのセット６０８の各個別のパーティションは、単一の主体およびその関連付けられた特徴を含み得る。特定の実施形態では、開発パーティションのセット６０６の各個別のパーティションおよび評価パーティションのセットの各個別のパーティションは、複数の主体およびそれらの関連付けられた特徴を含み得る。

【0068】

実施形態では、分散分析ユニット２２２は、機械学習データセット６０５を開発パーティションのセット６０６および評価パーティションのセット６０８に無作為に分割し得る。この分割は、所定の比率に基づき得る。例えば、機械学習データセット６０５のデータの８０％を含むデータの無作為に選択された組合せは、開発パーティションのセット６０６として使用されてもよく、機械学習データセットのデータの残りの２０％は評価パーティションのセット６０８として使用されてもよい。

【0069】

次に、分散分析ユニット２２２は、開発パーティションのセット６０６を使用して、分類タスク（例えば、患者生存性、コンポーネント障害などのリスク分類）を実行するように機械学習モデルの第１のセット２３３を訓練し得る。ここで、機械学習モデルの第１のセット２３３は、複数の未訓練の予測モデルを含む機械学習モデルアンサンブルでもよい。実施形態では、分散分析ユニット２２２は、開発パーティションのセット６０６の単独パーティションを使用して機械学習モデルの第１のセット２３３の各々の個別機械学習モデルを訓練してもよい。ここで、機械学習モデルの第１のセット２３３は、既存の訓練方法を使用して訓練されてもよく、その訓練方法は本明細書では特に限定されない。このようにして、機械学習モデルの第１のセット２３３は、開発パーティションのセット６０６を使用して分類タスクを実行するように訓練され得る。

【0070】

次に、分散分析ユニット２２２は、訓練済みの機械学習モデルの第１のセット２３３を使用して評価パーティションのセット６０８に対して分類タスクを実行し得る。機械学習モデルのセット２３３の各機械学習モデルは、分析結果のセット６２０を生成するために評価パーティションのセット６０８の単独パーティションを処理し得る。実施形態では、分析結果は、評価パーティションのセット６０８に含まれる主体ごとに生成され得る。分析結果のセット６２０は、特定のカテゴリまたは現象に対応する主体の確率を示し得る。それらの計算された確率に基づいて、主体は、分類スコア（例えばリスクスコア）が割り当てられ、およびグループ（例えば、リスクグループ）にまとめられ得る。さらに、本明細書で説明するように、生成された分析結果のセット６２０の各分析結果は、その特定の主体についてのその分析結果のアウトカムにおける不確実性を示す分散範囲と関連付けられ得る。

【0071】

次に、分散分析ユニット２２２は、分析結果のセット６２０を分析して、分散閾値に達する第１の分析結果６２５と関連付けられた主体の第１のセットを含むオリジナルデータセット２３１の高分散サブセットを識別し得る。ここで、分散閾値は、分析結果のセットに対して、高分散アウトカムと低分散アウトカムとの間に境界を定義する基準または標準を指す。実施形態では、分散閾値は、機械学習タスクの性質に基づいて決定されてもよく、標準偏差の数、そのパーセンテージなどを単位として定義され得る。一例として、分散閾値が「３０％」である場合、３０％以上の分散範囲を有する分析結果と関連付けられた主体は、分散閾値に達していると識別され得る。

【0072】

このようにして、本開示の実施形態による分散分析ユニット２２２によれば、高分散結果と関連する主体を識別することが可能である。本明細書で説明するように、それらの高分散主体（例えば、主体の第１のセット、および関連する第１の分析結果６２５）は、小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度を有する機械学習モデルの生成を容易にするために使用され得る。

【0073】

次に、図７を参照して、高分散データセットについての分析結果を生成するための情報処理デバイス２１０の例示的な論理構成を説明する。

【0074】

図７は、本開示の実施形態による、高分散データセットについての分析結果を生成するための情報処理システム２００の例示的な論理構成を示す図である。実施形態では、高分散データセットについての分析結果を生成するために情報処理デバイス２１０によって実行された機能は、図５に示す情報処理方法５００のステップＳ５１５～Ｓ５４０に実質的に対応し得る。加えて、高分散データセットについての分析結果を生成するために情報処理デバイス２１０によって実行された機能は、高分散結果と関連付けられた主体が図６を参照して説明したように分散分析ユニット２２２の機能によって識別された後に、パーティションユニット２２４、改変ユニット２２６、ラベル付けユニット２２８、および結果生成ユニット２２９によって実行され得る。

【0075】

最初に、パーティションユニット２２４は、分散分析ユニット２２２によって識別された（図６を参照して説明）高分散サブセット２３２の主体の第１のセットを第１のデータパーティション７０７および第２のデータパーティション７０９に分割する。ここで、パーティションユニット２２４は、主体の第１のセットに対応するグラウンドトゥルース結果に関して高分散サブセット２３２の主体の第１のセットについて生成された第１の分析結果６２５の正確率に基づいて、高分散サブセット２３２の主体の第１のセットを分割し得る。より詳しくは、高分散サブセット２３２中の主体の第１のセットの主体ごとに、パーティションユニット２２４は、第１の分析結果６２５によってその主体に対して示された結果と、その主体に対する実際の正確なアウトカムを示す主体の第１のセットと関連するグラウンドトゥルース結果とを比較し、第１の分析結果６２５とグラウンドトゥルース結果との関係に基づいて、高分散サブセット２３２の主体の第１のセットを、真陽性結果、偽陽性結果、真陰性結果および偽陰性結果と関連付けられた異なるパーティションにソートしてもよい。

【0076】

本明細書では、説明の都合上、真陽性結果と関連付けられた主体の第１のセットの第１のサブセットが第１のデータパーティション７０７に配置され、偽陽性結果と関連付けられた主体の第１のセットの第２のサブセットが第２のデータパーティション７０９に配置される場合について例示的な構成が説明されるが、本開示は本明細書では限定されず、真陰性結果と関連付けられた主体の第１のセットの第３のサブセットが第３のデータパーティションに配置され、偽陰性結果と関連付けられた主体の第１のセットの第４のサブセットが第４のデータパーティションに配置される構成も可能である。

【0077】

次に、パーティションユニット２２４は、第１のデータパーティション７０７および第２のデータパーティション７０９のコピーを生成する。より詳しくは、パーティションユニット２２４は、第１のデータパーティション７０７のコピーである第３のデータパーティション７０８と、第２のデータパーティション７０９のコピーである第４のデータパーティション７１０とを作成し得る。

【0078】

次に、改変ユニット２２６は、改変済み第３のデータパーティション７１１を作成するために第３のデータパーティション７０８を改変し、改変済み第４のデータパーティション７１２を作成するために第４のデータパーティション７１０を改変する。ここで、改変ユニット２２６は、各データパーティションの特徴のセットにノイズを付加することによって第３のデータパーティション７０８および第４のデータパーティション７１０を改変して、それらの特徴の値を歪ませる、または改変することができる。コピー済みデータの特徴のセットに付加されたノイズ量は、ノイズレベル基準に基づいて決定され得る。

【0079】

ノイズレベル基準は、各データパーティションの特徴のセットに付加される望ましいノイズ量を示す情報である。ここで、「望ましいノイズ量」とは、主体の変化についての結果ラベル（例えば、真陽性、偽陽性、真陰性、偽陰性）を結果として発生させることなく特定の主体の特徴に付加可能な最大ノイズ量を指す。これは、同じ結果を依然として維持しながら特徴のセットにより多くのノイズを付加することによって、上記の改変されたデータセットを使用して訓練される機械学習モデルの第２のセット２３４が、特定の分析結果に対応するデータセットの顕著な特徴を依然として認識しながらノイズに関してより堅牢となり得るためである。

【0080】

実施形態では、改変ユニット２２６は、機械学習モデル（例えば、機械学習モデルの第２のセット２３４や機械学習モデルの別のテストセット）を使用して、さらに大きな量のノイズが特徴に付加された改変済みサンプルデータセットを連続的に処理し、改変済みサンプルデータセットに対して生成されたサンプル予測結果が所定の正確率閾値（例えば、最小正確率閾値）を満たすように特徴に付加可能な最大ノイズ量を識別するように構成され得る。このようにして、望ましい正確率閾値を維持しながら特徴に付加可能な最大ノイズ量が識別されることができ、ノイズレベル基準として設定され得る。
さらに、このノイズレベル基準に基づいて、各データパーティションに対して異なるノイズ量が付加され得る。一例として、真陽性結果と関連付けられた第３のデータパーティション７０８に対してより大きなノイズ量が付加されてもよく、偽陽性結果と関連付けられた第４のデータパーティション７１０に対してより小さいノイズ量が付加され得る。このようにして、各データパーティションの特徴を好適に曖昧化するために必要な適切なノイズ量が、各データパーティションに対して個別に印加され得る。

【0081】

次に、ラベル付けユニット２２８は、アウトカムラベルを改変済み第３のデータパーティション７１１および改変済み第４のデータパーティション７１２に割り当て得る。ここで、アウトカムラベルは、改変済み第３のデータパーティション７１１および改変済み第４のデータパーティション７１２（例えば、真陽性、偽陽性、真陰性、偽陰性）に基づいて生成された分析結果と、グラウンドトゥルース結果との間の予測された関係を指す。改変済み第３のデータパーティション７１１および改変済み第４のデータパーティション７１２についての分析結果が理論的には作成元のデータパーティション（例えば、第１のデータパーティション７０７および第２のデータパーティション７０９）と同じはずであるため、実施形態では、ラベル付けユニット２２８は、改変済み第３のデータパーティション７１１に対して真陽性アウトカムラベルを割り当ててもよく、改変済み第４のデータパーティション７１２に対して偽陽性アウトカムラベルを割り当ててもよい。

【0082】

ただし、本開示の態様は、データパーティション７０７、７０９に付加されたノイズに起因して、改変済みデータパーティション７１１、７１２について生成されたアウトカムがデータパーティション７０７、７０９のアウトカムに対応する保証はないという認識に関係する。したがって、実施形態では、ラベル付けユニット２２８は、改変済みデータパーティション７１１、７１２とオリジナルデータパーティション７０７、７０９との間の類似度を計算して、オリジナルデータパーティション７０７、７０９に対する改変済みデータパーティション７１１、７１２の類似度に基づいて、アウトカムラベルを改変済みデータパーティション７１１、７１２に割り当ててもよい。

【0083】

より詳しくは、ラベル付けユニット２２８は、第１のデータパーティション７０７の主体の第１のサブセットと改変済み第３のデータパーティション７１１の主体の第３のサブセットとの間の第１の類似度を計算し、第１の類似度が類似度閾値に達する場合に真陽性結果ラベルを主体の第３のサブセットに割り当て、第１の類似度が類似度閾値に達しない場合に偽陽性結果ラベルを主体の第３のサブセットに割り当ててもよい。同様に、ラベル付けユニット２２８は、第２のデータパーティション７０９の主体の第２のサブセットと改変済み第４のデータパーティション７１２の主体の第４のサブセットとの間の第２の類似度を計算し、第２の類似度が類似度閾値に達する場合に偽陽性結果ラベルを主体の第４のサブセットに割り当て、第２の類似度が類似度閾値に達しない場合に真陽性結果ラベルを主体の第４のサブセットに割り当ててもよい。
このようにして、より正確なアウトカムラベルが改変済みデータパーティション７１１、７１２に割り当てられることができ、機械学習モデルの第２のセット２３４の訓練が容易化され得る。ここで、改変済みデータパーティション７１１、７１２とオリジナルデータパーティション７０７、７０９との間の類似度は、ユークリッド距離、コサイン類似度、または他の従来の類似度アルゴリズムを使用して計算され得る。

【0084】

次に、結果生成ユニット２２９は、第１のデータパーティション７０７、第２のデータパーティション７０９、改変済み第３のデータパーティション７１１および改変済み第４のデータパーティション７１２を含む改変済み訓練データセット７１３を使用して、機械学習モデルの第２のセット２３４（例えば、図２に示される機械学習モデルの第２のセット２３４）を訓練する。ここで、機械学習モデルの第２のセット２３４は、機械学習モデルの第１のセットと同じタイプおよび構成を有する未訓練の機械学習モデルである。歪んだ特徴を有するように改変された改変済み第３および第４のデータパーティション７１１、７１２とともに、オリジナルデータセットからのデータを含む第１および第２のデータパーティション７０７、７０９を使用して機械学習モデルの第２のセット２３４を訓練することによって、小さいサンプルサイズに関して機械学習モデルの第２のセット２３４の堅牢性が高まり得る。

【0085】

次に、結果生成ユニット２２９は、機械学習モデルの第２のセット２３４を使用して、高分散サブセット２３２の主体の第１のセットを処理することによって第２の分析結果７１５を生成する。実施形態では、機械学習モデルの第２のセット２３４は、図６で説明した、機械学習モデルの第１のセット２３３が評価パーティションのセット６０８に実行されたものと同じ機械学習タスクを高分散サブセット２３２の主体の第１のセットに対して実行するように構成され得る。

【0086】

次に、結果生成ユニット２２９は、機械学習モデルの第１のセット２３３によって生成された第１の分析結果６２５と、機械学習モデルの第２のセット２３４によって生成された第２の分析結果７１５とを集約し、その結果を分類（例えば再分類および再階層化）することによって最終分析結果７２０を生成し得る。ここで、第１の分析結果および第２の分析結果は、任意の従来の機械学習結果集約技法を使用して集約されてもよく、その結果は本明細書では特に限定されない。

【0087】

図７を参照して説明した情報処理システム２００の機能によれば、機械学習モデルの第２のセットは、ノイズによって改変された高分散データセットのバージョンとともにオリジナルの高分散データセットを含む改変済み訓練データセット上で訓練される。このようにして、機械学習モデルの第２のセットは、小さいサンプルサイズを有するデータセットに関して堅牢になるように訓練されることができ、アウトカム分散が減少した機械学習分析結果が生成され得る。

【0088】

本明細書で説明されるように、機械学習では、生成されたモデルの正確性、すなわち未知のケースの結果を正確に予測する能力（予測性能と呼ばれる場合がある）が高いことが好ましい。データセットのサイズ（すなわち、サンプルサイズ）が増加すると、通常、この予測性能は高まる。従来、小さいサンプルサイズに基づくデータセットは、それぞれの結果がアウトカムにおいて大きなばらつきを有するなど、予測性能の低下につながり得る。異なるアウトカム間の高分散に起因して、そのような結果は信頼性が低い場合があり、結論または洞察を引き出すには適していない。

【0089】

実施形態では、本開示の態様は、機械学習モデルの第１のセットを使用してオリジナルデータセットについての分析結果のセットを生成することに関し、この分析結果のセットを使用して、分散閾値（例えば、アウトカム間の高レベルの分散）に達するオリジナルデータセットのサブセットを識別する。このようにして、高分散と関連したオリジナルデータセットのサブセットが識別され得る。

【0090】

本開示のさらなる態様は、識別された高分散サブセットを個別のデータパーティションに分割することに関する。これらのデータパーティションは、高分散サブセットの部分を、機械学習モデルの第１のセットによって生成された分析結果とグラウンドトゥルースとの関係に基づいて、真陽性、偽陽性、真陰性、または偽陰性のカテゴリに分類し得る。高分散サブセットを真陽性、偽陽性、真陰性、および偽陰性のパーティションに分割することによって、機械学習分類性能がより高いデータセット部分は、機械学習分類性能がより低いデータセット部分から分離して管理され得る。各々の生成されたパーティションはコピーされてもよく、各々のコピー済みデータパーティションにノイズが付加されてもよい。各々のコピー済みデータパーティションに付加されたノイズは、パーティションごとに個別に決定され得る。ノイズが付加されたコピー済みデータパーティションは、オリジナルデータパーティションと統合されて、改変済み訓練データセットを生成してもよい。

【0091】

この改変済みデータセットは、機械学習モデルの第２のセットを訓練するために使用可能である。このようにして、機械学習モデルの第２のセットは、小さいサンプルサイズを有するデータセットに関して堅牢になるように訓練されることができる。訓練された機械学習モデルの第２のセットは、オリジナルデータセットから抽出された高分散サブセットについての分析結果（例えば、第２の分析結果）を生成するために使用可能であり、この分析結果は、機械学習結果の第１のセットによって生成された分析結果と集約して、アウトカム分散が減少した最終分析結果を生成できる。

【0092】

したがって、小さいサンプルサイズを有するデータセットで高信頼性の結果を生成可能な高堅牢度を有する機械学習モデルを生成するための情報処理技法を提供することが可能である。より詳しくは、特徴がノイズで歪められたオリジナルデータセットの改変バージョンに基づいて機械学習モデルの第２のセットが訓練されると、この機械学習モデルの第２のセットは、分類タスクに対して最も顕著で小さいサンプルサイズに関して堅牢な特徴を認識するように訓練され得る。このようにして、従来の機械学習技術が高分散結果を生じさせる小さいサンプルサイズにおいても高信頼性および高正確率の機械学習分析結果を得ることが可能になる。

【0093】

本発明は、システム、方法、および／またはコンピュータプログラム製品でもよい。このコンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読格納媒体（複数可）を含み得る。

【0094】

コンピュータ可読格納媒体は、命令実行デバイスによって使用される命令を保持および格納可能な有形デバイスであり得る。コンピュータ可読格納媒体は、例えば、電子格納装置、磁気格納装置、光学格納装置、電磁格納装置、半導体格納装置、または上記の任意の適切な組み合わせでもよいが、それに限定されない。コンピュータ可読格納媒体のより具体的な例の非網羅的リストは、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、デジタルバーサタイルディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、パンチカードまたは命令が記録された溝の隆起構造などの機械的暗号化装置、および上記の任意の適切な組み合わせを含む。
本明細書で使用される場合、コンピュータ可読格納媒体は、それ自体、電波または他の自由に伝搬する電磁波、導波路または他の伝送媒体（例えば、光ファイバケーブルを通過する光パルス）を通って伝搬する電磁波、または電線によって伝達される電気信号などの一次的信号であるとして解釈されるべきではない。

【0095】

本発明の態様は、本発明の実施形態による方法、装置（システム）、およびコンピュータプログラム製品のフローチャートの図および／またはブロック図を参照して、本明細書で説明される。フローチャートの図および／またはブロック図の各ブロック、ならびにフローチャートの図および／またはブロック図中のブロックの組み合わせは、コンピュータ可読プログラム命令によって実施可能であることを理解されるであろう。

【0096】

コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行される命令がフローチャートおよび／またはブロック図のブロックにおいて明示された機能／動作を実施するための手段を創出するように、上記のコンピュータ可読プログラム命令は、機械を製造するために、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供されてもよい。これらのコンピュータ可読プログラム命令は、さらに、命令を格納したコンピュータ可読格納媒体がフローチャートおよび／またはブロック図のブロックに明示された機能／動作の態様を実施する命令を含む製品を備えるように、コンピュータ、プログラマブルデータ処理装置、および／または他の装置に特定のやり方で機能させ得るコンピュータ可読格納媒体に格納されてもよい。

【0097】

コンピュータ、他のプログラマブル装置、または他のデバイス上で実行される命令が、フローチャートおよび／またはブロック図のブロックにおいて明示された機能／動作を実施するように、上記のコンピュータ可読プログラム命令は、一連の動作ステップがコンピュータ実施プロセスを創出するようにコンピュータ、他のプログラマブル装置、または他のデバイス上で実行されるようにするためにコンピュータ、他のプログラマブルデータ処理装置、または他のデバイスにさらにロードされてもよい。

【0098】

図面におけるフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータプログラム製品の可能な実施のアーキテクチャ、機能、および動作を示す。これに関連して、フローチャートまたはブロック図における各ブロックは、特化した論理機能を実施するための１つまたは複数の実行可能命令を含む命令のモジュール、セグメント、または部分を表し得る。いくつかの代替の実施例では、ブロックに記載された機能は、図面に記載の順序とは異なる順序で発生し得る。例えば、連続して示される２つのブロックは、実際には、ほぼ同時に実行されてもよく、またはブロックは、場合によっては、関連する機能に応じて、逆の順序で実行されてもよい。また、ブロック図および／またはフローチャートの図の各ブロックならびにブロック図および／またはフローチャートの図のブロックの組み合わせは、特化した機能または動作を実行する、あるいは専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用ハードウェアベースのシステムによって実施可能であることが認識されるであろう。

【0099】

上記は本発明の例示的な実施形態に関するが、本発明の他のさらなる実施形態が本発明の基本的範囲から逸脱しない範囲で考え出されてもよく、その範囲は、後述の請求項によって判断される。本開示の様々な実施形態の説明が例示目的で提供されたが、網羅的である、または開示された実施形態に限定されることは意図されない。多くの改変および変形は、説明された実施形態の範囲および思想から逸脱しない範囲で、当業者にとって明らかであろう。実施形態の原理、市場に存在する技術の実用化もしくは技術的改良を説明するため、または本開示が属する分野の通常技量を有する他者が本明細書で開示される実施形態を理解できるようにするために、本明細書で使用される用語は選ばれた。

【0100】

本明細書で使用される用語は特定の実施形態を説明する目的のみであり、様々な実施形態を限定することは、意図されない。本明細書で使用される場合、文脈が明確に示さない限り、単数形「ａ」、「ａｎ」、及び「ｔｈｅ」は複数形も同様に含むことが意図される。「～セット」、「～群」、「～束」などは、１つまたは複数を含むことが意図される。さらに、本明細書で使用される場合の「含む」および／または「含むこと」という語は、述べられた特徴、完全体、ステップ、動作、要素、および／または構成要素の存在を明示するが、１つまたは複数の他の特徴、完全体、ステップ、動作、要素、構成要素および／またはその群の存在または追加を排除しないことが理解されるであろう。様々な実施形態の例示的な実施形態の上記の詳細な説明において、その部分を形成する添付図面（同様の番号は同様の要素を示す）について言及したが、例として、特定の例示的な実施形態が示されたものであり、様々な実施形態が実践可能である。上記の実施形態は、当業者が実施形態を実践できる程度に詳細に説明されたが、他の実施形態も使用可能であり、論理的、機械的、電気的および他の変更が、様々な実施形態の範囲から逸脱しない範囲でなされ得る。様々な実施形態の十分な理解を実現するために、上記の説明において、数多くの特定の詳細が記載された。しかしながら、様々な実施形態は、それらの特定の詳細がなくても実践され得る。他の事例では、よく知られる回路、構造、および技法は、実施形態を不明瞭にしないために、詳細には示されていない。

【0101】

本明細書で説明するように、本開示の態様は、以下の態様に関する。

【0102】

（態様１）
プロセッサと、
前記プロセッサによって実行可能なコンピュータ実施可能命令を含むメモリと、
を含む情報処理デバイスであって、
前記コンピュータ実施可能命令は、前記プロセッサに、
機械学習モデルの第１のセットを用いてオリジナルデータセットを処理することによって、分析結果のセットを生成することと、
分析結果の前記セットに基づいて、分散閾値に達する第１の分析結果と関連付けられた主体の第１のセットを含む前記オリジナルデータセットの高分散サブセットを識別することと、
を行うように構成される分散分析ユニットと、
前記高分散サブセットの主体の前記第１のセットを第１のデータパーティションおよび第２のデータパーティションに分割することと、
前記第１のデータパーティションのコピーである第３のデータパーティションと、前記第２のデータパーティションのコピーである第４のデータパーティションとを生成することと、
を行うように構成されるパーティションユニットと、
前記第３のデータパーティションを改変することによって改変済み第３のデータパーティション、および前記第４のデータパーティションを改変することによって改変済み第４のデータパーティションを生成することを行うように構成される改変ユニットと、
前記第１のデータパーティション、前記第２のデータパーティション、前記改変済み第３のデータパーティション、および前記改変済み第４のデータパーティションを使用して、機械学習モデルの第２のセットを訓練することと、
機械学習モデルの前記第２のセットを用いて前記オリジナルデータセットを処理することによって、第２の分析結果を生成することと、
前記第１の分析結果と前記第２の分析結果とを集約して分類することによって前記高分散サブセットの主体の前記第１のセットについての最終分析結果を生成することと、
を行うように構成される結果生成ユニットと、
として機能させる、情報処理デバイス。

【0103】

（態様２）
前記改変ユニットは、
ノイズレベル基準に基づいて、ノイズを前記第３のデータパーティションの特徴の第３のセットに付加することによって前記改変済み第３のデータパーティションを生成することと、
前記ノイズレベル基準に基づいて、ノイズを前記第４のデータパーティションの特徴の第４のセットに付加することによって前記改変済み第４のデータパーティションを生成することと、
を行うように構成される、態様１に記載の情報処理デバイス。

【0104】

（態様３）
前記改変ユニットは、
機械学習モデルの前記第２のセットを使用して、増加するノイズ量が付加された改変済みサンプルデータセットを繰り返し処理することによって、サンプル予測結果のセットを生成することと、
サンプル予測結果の前記セットから、所定の正確率閾値を満たすサンプル予測結果のサブセットを識別することと、
前記ノイズレベル基準として、前記所定の正確率閾値を満たすサンプル予測結果の前記サブセットと関連付けられた前記改変済みサンプルデータセットに対して付加された最大ノイズ量を決定することと、
を行うように構成される、態様２に記載の情報処理デバイス。

【0105】

（態様４）
前記パーティションユニットは、
前記第１の分析結果を、前記オリジナルデータセットについてのグラウンドトゥルース結果に対して比較することによって前記第１の分析結果の正確率を評価することと、
真陽性結果と関連付けられた主体の前記第１のセットの第１のサブセットを前記第１のデータパーティションに分割することと、
偽陽性結果と関連付けられた主体の前記第１のセットの第２のサブセットを前記第２のデータパーティションに分割することと、
を行うように構成される、態様１から３のいずれか１つに記載の情報処理デバイス。

【0106】

（態様５）
前記改変済み第３のデータパーティションおよび前記改変済み第４のデータパーティションに対して真陽性または偽陽性のアウトカムラベルを割り当てるためのラベル付けユニット
をさらに備える、態様１から４のいずれか１つに記載の情報処理デバイス。

【0107】

（態様６）
前記ラベル付けユニットは、
前記第１のデータパーティションの主体の第１のサブセットと前記改変済み第３のデータパーティションの主体の第３のサブセットとの間の第１の類似度を計算し、
前記第１の類似度が類似度閾値に達する場合、真陽性結果ラベルを主体の前記第３のサブセットに割り当て、
前記第１の類似度が類似度閾値に達しない場合、偽陽性結果ラベルを主体の前記第３のサブセットに割り当て、
前記第２のデータパーティションの主体の第２のサブセットと前記改変済み第４のデータパーティションの主体の第４のサブセットとの間の第２の類似度を計算し、
前記第２の類似度が類似度閾値に達する場合、偽陽性結果ラベルを主体の前記第４のサブセットに割り当て、
前記第２の類似度が類似度閾値に達しない場合、真陽性結果ラベルを主体の前記第４のサブセットに割り当てる、
態様５に記載の情報処理デバイス。

【符号の説明】

【0108】

１５０情報処理アプリケーション
２００情報処理システム
２１０情報処理デバイス
２２０メモリ
２２２分散分析ユニット
２２４パーティションユニット
２２６改変ユニット
２２８ラベル付けユニット
２２９結果生成ユニット
２３０格納ユニット
２３１オリジナルデータセット
２３２高分散サブセット
２３３機械学習モデルの第１のセット
２３４機械学習モデルの第２のセット
２４４プロセッサ
２４６入力／出力ユニット
２５０通信ネットワーク
２６０ユーザ端末

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版