(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-12
(54)【発明の名称】機械学習を使用した全血算に基づく異常検出
(51)【国際特許分類】
G16H 10/40 20180101AFI20240705BHJP
【FI】
G16H10/40
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023580866
(86)(22)【出願日】2022-07-01
(85)【翻訳文提出日】2024-02-28
(86)【国際出願番号】 GB2022051710
(87)【国際公開番号】W WO2023275568
(87)【国際公開日】2023-01-05
(32)【優先日】2021-07-01
(33)【優先権主張国・地域又は機関】GB
(81)【指定国・地域】
(71)【出願人】
【識別番号】516378426
【氏名又は名称】ザ、チャンセラー、マスターズ、アンド、スカラーズ、オブ、ザ、ユニバーシティー、オブ、ケンブリッジ
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】グリードール,ニコラス スティーブン
(72)【発明者】
【氏名】ロバーツ,マイケル トーマス
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA03
(57)【要約】
本明細書において開示されているのは、全血算(CBC)データにおいて健康及び不健康に関連する特徴を検出するモデルを調製する方法である。当該方法は、1つ以上のデータソースからCBCデータを受信するステップであり、CBCデータは生データ及びリッチデータを含む、ステップと、1つ以上の機械学習アルゴリズムを使用してCBCデータをエンコードするステップと、エンコードされたCBCデータに基づき、生物学的な形質について分類器を訓練するステップであり、生物学的な形質は疾患の表現型を含む、ステップと、訓練された分類器を含むモデルを出力するステップと、を含む。
【特許請求の範囲】
【請求項1】
異常検出のためのモデルを調製するコンピュータ実装方法であって、前記モデルは、全血算(CBC)データにおける異常に関連する生物学的な健康及び不健康の形質及び特性を検出するように構成され、当該方法は、
1つ以上のデータソースからCBCデータを受信するステップであり、前記CBCデータは、1つ以上のCBC機器によって生成された生データ及びリッチデータを含む、ステップと、
1つ以上の機械学習アルゴリズムを使用してCBCデータをエンコードするステップと、
エンコードされた前記CBCデータに基づき、生物学的な健康及び不健康の形質及び特性について分類器を訓練するステップであり、前記形質及び特性は、健康及び不健康に関連する少なくとも1つの表現型を含む、ステップと、
訓練された前記分類器を含む前記モデルを提供するステップと、
を含む方法。
【請求項2】
前記モデルを適用して、1人以上の個人からの全血算(CBC)結果における異常を検出するステップをさらに含む、請求項1に記載の方法。
【請求項3】
前記モデルを適用して、集団レベルで少なくとも1つの異常を検出するステップをさらに含む、請求項1に記載の方法。
【請求項4】
ソフトウェアプラットフォームを用いて前記モデルを展開するステップをさらに含み、前記ソフトウェアプラットフォームは、前記CBCデータを前処理するように構成された1つ以上のハードウェアデバイスを含む、請求項1に記載の方法。
【請求項5】
受信した前記CBCデータをエンコードする前に正規化するステップをさらに含む、請求項1乃至4のいずれか一項に記載の方法。
【請求項6】
前記正規化は、前記モデルを2つ以上のハードウェアデバイスに適用することによるサンプル偏差を補正するように構成された1つ以上の方法を含む、請求項5に記載の方法。
【請求項7】
前記正規化は、1つ以上のデータ標準化技術を適用して行われる、請求項6に記載の方法。
【請求項8】
前記形質は、不健康又は感染病原体若しくは感染病原菌の存在に関連している、請求項1に記載の方法。
【請求項9】
前記形質は、1つ以上の細胞型又は細胞成分に関連する生物学的形質である、請求項8に記載の方法。
【請求項10】
前記形質は、不健康から健康の少なくとも1つの状態、又は健康から不健康の少なくとも1つの状態に関連する不健康な反応に対応し、前記少なくとも1つの状態は、発症、増悪、再発、及び寛解を含む、請求項1に記載の方法。
【請求項11】
前記不健康は、がん、代謝疾患、心血管疾患、自己免疫疾患若しくはアレルギー、メンタルヘルス障害、希少遺伝性疾患の結果としての状態であるか、又は、コミュニティケア若しくは二次及び三次ホスピタルケアで見られる状態である、請求項8又は9に記載の方法。
【請求項12】
前記がんは、腎細胞がんを含む、請求項11に記載の方法。
【請求項13】
前記心血管疾患は、卒中発作及び心臓発作を含む、請求項11に記載の方法。
【請求項14】
前記不健康は健康形質に関連している、請求項1に記載の方法。
【請求項15】
前記健康形質は、妊娠に関連している、請求項14に記載の方法。
【請求項16】
前記不健康は、妊娠によって誘発されるか又は妊娠中に発生する合併症の一種である、請求項1に記載の方法。
【請求項17】
前記少なくとも1つの表現型は、薬物若しくは薬物候補の治療に基づく、又は食事若しくは身体活動の変化に基づく臨床的に有益な反応に対応する、請求項1に記載の方法。
【請求項18】
前記治療は、前記薬物若しくは薬物候補の投与計画を含む、請求項17に記載の方法。
【請求項19】
前記異常は、集団における病原体のアウトブレイクに関連している、請求項1に記載の方法。
【請求項20】
前記異常は、集団が曝露された毒性物質の存在に関連している、請求項1に記載の方法。
【請求項21】
前記異常は、集団が曝露された放射線毒性の存在に関連している、請求項1に記載の方法。
【請求項22】
前記モデルは、前記CBCデータにおける時間依存性を捕捉するように構成されている、請求項1に記載の方法。
【請求項23】
機械学習モデルを適用して、個人ベース又は集団ベースの全血算(CBC)データにおける異常を検出するコンピュータ実装方法であって、
前記CBCデータで訓練された前記機械学習モデルを受信するステップであり、前記機械学習モデルは請求項1に記載の方法に従って調製されている、ステップと、
訓練された前記モデルを1人以上の個人の未分類のCBCデータに適用するステップと、
1つ以上の生物学的形質に基づき前記未分類のCBCデータにおける異常を検出するステップと、
臨床的評価のために前記異常を出力するステップと、
を含む方法。
【請求項24】
前記機械学習モデルは、請求項5に記載の方法に従って構成されているか又はさらに調製されている、請求項23に記載の方法。
【請求項25】
前記生物学的形質は、細胞成分又は細胞型の特徴に関連している、請求項24に記載の方法。
【請求項26】
前記特徴は、前記特徴の数又は定量化された測定値を含む、請求項25に記載の方法。
【請求項27】
前記特徴は、総ペルオキシド量、白血球数、リンパ球数、血小板数、好中球数、及びヘモグロビン数のうち1つ以上を含む、請求項26に記載の方法。
【請求項28】
請求項1に記載の方法に従って調製された機械学習モデルを展開するためのプラットフォームであって、当該プラットフォームは1つ以上のハードウェアデバイスを含み、前記1つ以上のハードウェアデバイスは、
全血算(CBC)データを受信し、前記CBCデータは生データ及びリッチデータを含み、
前記機械学習モデルの入力設定に基づき前記CBCデータを正規化し、
正規化された前記CBCデータに前記機械学習モデルを適用し、
前記機械学習モデルの構成に基づき前記モデルからの分類を提供し、前記構成は、1つ以上の生物学的な健康及び不健康の形質及び特性に関連しており、
前記分類を適用して、1人以上の個人又は1つ以上の集団に対する全血算(CBC)データにおける異常を検出する
ように構成されている、プラットフォーム。
【請求項29】
前記機械学習モデルは、請求項5に記載の方法に従って構成されているか又はさらに調製されている、請求項28に記載のプラットフォーム。
【請求項30】
請求項1に記載の方法に従って調製された機械学習モデルを適用するためのシステムであって、
正規化されたCBCデータを受信し、
前記正規化されたCBCデータに前記機械学習モデルを適用し、
前記機械学習モデルの構成に基づき前記モデルからの分類を提供し、前記構成は、1つ以上の生物学的な健康及び不健康の形質及び特性に関連しており、
前記分類を適用して、1人以上の個人又は1つ以上の集団に対する全血算(CBC)データにおける異常を検出する
ようにさらに構成されているシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、機械学習を使用した血算データに基づく異常検出のためのシステム、プラットフォーム、及び方法に関する。
【背景技術】
【0002】
数ある中でも、検査室、病院、プライマリケアセンター、診療所は、検査に対する多くの他の指標の中でも、疾患の検出、投与された薬物の副作用のモニタリング、及び健康全般の評価のために、患者及び健康な個人に対して全血算検査を日常的に行っている。臨床医、看護師、助産師、及び医療従事者を含むがこれらに限定されない臨床ケアチームのメンバーは、検査結果を使用して、疾患に対する広範なスクリーニング、健康状態から不健康状態への移行、薬物の副作用のモニタリング、がん治療の投薬制限の決定、又は、血液及び免疫系の後天性若しくは遺伝性疾患に関する場合の正確な診断の割り当てを行う。全血算検査から収集されたデータを使用して、機器メーカーのアルゴリズムを適用することによって生じる要約の検査結果が生成される。要約データが臨床ケアチームに報告された後、他の全てのリッチ測定データは一般的に処分される。それによって、現在の血算データの使用は非効率的である。検査結果は、血液サンプルが採取された個人の健康状態の完全な実態を表さないことが多い。
【0003】
全血算データのより良い利用の必要性がある。この必要性に対処するために、本明細書では、機械学習を使用して全血算測定データに基づき異常な健康結果を検出するための少なくとも1つの方法、システム、プラットフォーム、媒体、及び/又は装置について記載される。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本概要は、以下の詳細な説明でさらに記載される概念の選択を簡略化された形で導入するために提供される。本概要は、発明特定事項の鍵となる特徴又は本質的な特徴を特定することを意図するものではなく、発明特定事項の範囲を決定するために使用されることを意図するものでもない。本発明の実施を容易にする及び/又は実質的に類似の技術的効果を達成するのに役立つ異形及び代替的な特徴が、本明細書において開示される本発明の範囲内にあるとみなされるべきである。
【0005】
本開示は、機械学習を使用した血算データに基づく異常検出のためのシステム、装置、及び1つ又は複数の方法を提供する。本開示は、全血算検査から収集されたデータを利用して、個人からの又は集団レベルでの血算結果における異常を検出するために使用することができるシミュレーション又は方法を生成する様式を提供する。当該方法は、細胞血算データを前処理するように構成された1つ以上のハードウェアデバイスを含むソフトウェアプラットフォームを用いて又はソフトウェアプラットフォーム上で展開することができる。モデルから生成されたデータは、より効率的な利用のために臨床ケアチームに報告することができる。
【課題を解決するための手段】
【0006】
第1の態様において、本開示は、異常検出のためのモデルを調製する方法又はコンピュータ実装方法を提供し、モデルは、全血算(CBC:complete blood count)データにおける異常に関連する生物学的な健康及び不健康の形質及び特性を検出するように構成され、当該方法は:1つ以上のデータソースからCBCデータを受信するステップであり、CBCデータは、1つ以上のCBC機器によって生成された生データ及びリッチデータを含む、ステップ;1つ以上の機械学習アルゴリズムを使用してCBCデータをエンコードするステップ;エンコードされたCBCデータに基づき、生物学的な健康及び不健康の形質及び特性について分類器を訓練するステップであり、上記の形質及び特性は、健康及び不健康に関連する少なくとも1つの表現型を含む、ステップ;並びに、訓練された分類器を含むモデルを提供するステップ;を含む。
【0007】
第2の態様において、本開示は、機械学習モデルを適用して、個人ベース又は集団ベースの全血算(CBC)データにおける1つ又は複数の異常を検出する方法又はコンピュータ実装方法を提供し、当該方法は:CBCデータで訓練された機械学習モデルを受信するステップであり、機械学習モデルは第1の態様に従って調製されている、ステップ;訓練されたモデルを1人以上の個人の未分類のCBCデータに適用するステップ;1つ以上の生物学的形質に基づき未分類のCBCデータにおける異常を検出するステップ;並びに、臨床的評価のために異常を出力するステップ;を含む。
【0008】
第3の態様において、本開示は、第1の態様に従って調製されたモデルを展開するためのプラットフォームを提供し、当該プラットフォームは、1つ以上のハードウェアデバイスを含み、1つ以上のハードウェアデバイスは:全血算(CBC)データを受信し、CBCデータは生データ及びリッチデータを含み;機械学習モデルの入力設定に基づきCBCデータを標準化し;正規化されたCBCデータに機械学習モデルを適用し;機械学習モデルの構成に基づきモデルからの分類を提供し、構成は、1つ以上の生物学的な健康及び不健康の形質及び特性に関連しており;分類を適用して、1人以上の個人又は1つ以上の集団に対する全血算(CBC)データにおける異常を検出する;ように構成されている。
【0009】
第4の態様において、本開示は、第1の態様に従って調製された機械学習モデルを適用するためのシステムを提供し、当該システムは:標準化されたCBCデータを受信し;正規化されたCBCデータに機械学習モデルを適用し;機械学習モデルの構成に基づきモデルからの分類を提供し、構成は、1つ以上の生物学的な健康及び不健康の形質及び特性に関連しており;分類を適用して、1人以上の個人又は1つ以上の集団に対する血算(CBC)データにおける異常を検出する;ようにさらに構成されている。
【0010】
本明細書において記載される態様のいずれかで提供されるモデルは、本明細書において記載される1つ以上の形質又は生物学的形質について、1人以上の個人又は集団からの血算(CB)結果における異常を検出するために適用されてもよいことが理解される。例えば、ソフトウェアプラットフォームを用いて展開されるモデルは、腎細胞がんの予後、様々な妊娠段階の決定、及び卒中発作又は他の心血管疾患の発症における決定的なバイオマーカーの特定に適用されてもよい。
【0011】
さらに、本明細書において記載される方法又は方法のステップは、有形の記憶媒体上の機械読み取り可能な形態のソフトウェアによって行われてもよく、例えば、コンピュータプログラムの形態であり、コンピュータプログラムは、プログラムがコンピュータ上で実行されるときに、及び、コンピュータプログラムがコンピュータ読み取り可能な媒体上で具現化されてもよい場合に本明細書において記載される方法のうちいずれかの方法のステップ全てを行うように適応したコンピュータプログラムコード手段を含むことが理解される。有形の(又は非一時的な)記憶媒体の例には、ディスク、サムドライブ、メモリカード等が含まれ、伝搬される信号は含まれない。ソフトウェアは、方法のステップを任意の適した順序で又は同時に実施できるように、並列プロセッサ又はシリアルプロセッサ上での実行に適していてもよい。
【0012】
本願は、ファームウェア及びソフトウェアが、価値のある、別個に取引可能な商品であり得ることを認めている。本願は、所望の機能を実施するために、「ダム」又は標準的なハードウェア上で実行されるか又はそれを制御するソフトウェアを包含することが意図される。所望の機能を実施するために、シリコンチップを設計するために又はユニバーサルプログラマブルチップを構成するために使用されるHDL(ハードウェア記述言語)ソフトウェア等、ハードウェアの構成を「記述」又は定義するソフトウェアを包含することも意図される。
【0013】
以下のセクションのいずれかに記載される選択肢又は任意選択の特徴は、当業者に明らかなように、本発明の任意の1つ以上の態様と必要に応じて組み合わされてもよい。
【図面の簡単な説明】
【0014】
本発明の実施形態は、以下の図面を参照して、例として記載されることになる。
【
図1】本発明による異常検出に使用するためのモデルの調製の一例を示した流れ図である。
【
図2-1】本発明によるCBC検査のワークフローの一例を絵で表した図である。
【
図2-2】本発明によるCBC検査のワークフローの一例を絵で表した図である。
【
図3】本発明によるモデルの高次元特徴空間を絵で表した図である。
【
図4】本発明による高次元入力特徴空間の一例を絵で表した図である。
【
図5】本発明による訓練された分類器からの結果の一例を絵で表した図である。
【
図6】本発明による2Dで表された低次元特徴空間にオートエンコーダを介して圧縮されたオートエンコーダデータの一例を絵で表した図である。
【
図7】本発明によるデータセットにおける特徴に対応するモデルの特徴に関連する解釈可能な結果の一例を絵で表した図である。
【
図8】本発明によるモデルによって使用されるCBC検査の様々な特徴の重要性を絵で表した図である。
【
図9】本発明による腎細胞がんに関してモデルによって生成される集計再構築誤差(aggregate reconstruction error)の一例を絵で表した図である。
【発明を実施するための形態】
【0015】
他のテリトリーにおける全血算又は全血球計算(以下、CBC)は、世界で最も一般的な臨床検査の1つであり、約36億(bn)の検査が世界中で毎年行われている。これらの検査は、臨床ケアチームのメンバーによる意思決定に不可欠であり、医療提供、コミュニティ又はプライマリケア、典型的な通常の病院での二次医療、アドバンスケアを提供する三次紹介病院におけるアドバンスケアのほぼ全ての設定において、臨床的介入を行うことを知らせる。しかし、現在の診療では、健康か不健康かに関する結論に到達するために、限られた数のサマリーレベルの測定値のみが患者ごとに手作業で考慮され、サマリーレベルの測定値の結果は、所与の男性又は女性の集団における結果の平均値±2.5x標準偏差によって定められた正常な性別で層別化された集団範囲に対して解釈される。特定の正常範囲は、新生児及び0から10歳の年齢の未成年者に対して定められる。正常な血液生理学及び血液疾患の分野において熟練した医師及び科学者は、より正確な診断を知らせる又は除外するためにさらなる要約結果を使用することになる。しかし、全体として、限られた数の測定結果が一般的且つ高度な医療行為で使用され、さらなる「高レベル」及び生の測定データの全てが使用されず、考慮されず、一般的にデータが上書きされると処分される。
【0016】
CBC検査には多くの異形があるが、基本的な検査原理は同じである。検査中、血液サンプルが採取され、自動化された血液分析機器を使用して分析される。自動化された機器の内側で、少量の血液サンプルが特定の色素及び試薬と混ぜ合わされ、次に、フローサイトメトリーと類似の様式で、細胞は流れにおいて懸濁させられ、いくつかの異なる検出器/測定装置を1つずつ通過する。いくつかの異なるタイプの測定装置が使用され、例として:(1)レーザー(異なる角度のレーザービームを通過する染色された細胞から生じる光の屈折/散乱/吸収パターンが測定される)、及び(2)コールター原理を使用する電気インピーダンス(細胞は、電流を流す流体において懸濁させられ、小さな開口(開口部)を通過するときに、その低い電気伝導性のために、電流の減少を引き起こす。細胞が開口部を横断するときに生成される電圧パルスの振幅は、細胞によって置き換えられた流体の量、従って細胞の体積と相関し、パルスの総数はサンプル中の細胞の数と相関する)が挙げられる。
【0017】
次に、これらの「生」の測定値を使用して様々な計算が行われて、赤血球数、白血球数、血小板数、及びヘモグロビン濃度等の「高レベル」の要約統計値が生成され、これらは、次に、報告される。白血球は、5つの異なるタイプにおける測定値に基づき区別され、3つは、好中球、好酸球、及び好塩基球という名の顆粒化された多形核細胞又は顆粒球であり、残りの2つは、リンパ球及び単球という名の単核細胞である。臨床ケアチームのメンバーは、限られた数のこれらの「高レベル」の値を、標準化された集団参照範囲と比較し、その診断を知らせる。上述のように、高レベルのCBCの結果は、貧血(低いヘモグロビンの値)、血小板減少症又は血小板増加症(血小板の数が集団の正常範囲の閾値を下回っているか上回っている)、白血球減少症及び白血球増加症(白血球の数が集団の正常範囲の閾値を下回っているか上回っている)等、広範囲の病態及び疾病に対する診断を知らせる又は除外するために広く使用される。貧血及び/又は血小板減少症を伴う又は伴わない白血球数の高い値も、白血病診断の可能性に対する「警告シグナル」である。全体として、ルーチンのCBCは、不健康の状態を検出するための感度の高い検査であるが、検査結果は特異的ではない。CBCの結果は、正常な結果が多くの病態を除外するため、マタニティケア及びより広く集団の健康スクリーニングプログラムでも使用される。現在、診断又は予後を知らせるためにCBCデータにルーチン的に適用される自動化された機械学習ベースの分析方法はない。潜在的なバイオマーカーに対する指標、又はヒトの疾患、疾患の反応、状況、状態、若しくは治療反応に対する指標としてのCBCデータの使用は、この分野では未開発である。
【0018】
データソースには、リッチCBCデータ(先に記載した全ての「高レベル」の測定値も含む血液分析装置等のCBC機器によって直接出力された処理される要約統計値);生のCBCレーザー測定データ(化学染色、電気製品、及びレーザーを含むCBC機械からの生の測定データ);が含まれるが、これらに限定されず、ここで、CBCデータソースは、一次、二次、及び三次のホスピタルケアを含む任意のサンプル源からのものであってもよい。データには、集団健康スクリーニングプログラム、マタニティケアスクリーニングプログラム、血液、血小板、又は血漿のドナーに適用されるスクリーニングプログラム、調査のためのコホート集団研究、並びに、限定されることはないが、生命保険、他の保険に対するCBC検査、新しい薬物、装置、及びワクチンに対する規制当局の承認を得るために行われる臨床研究及び試験等の他のサンプル収集のために採取されたサンプルにおける測定結果も含まれる。
【0019】
上記の及び本発明に関連するあらゆる利点に従って以下に提供される例及び結果は、
図1から9及び付属資料(Appendix)において記載された研究との関連で当業者によって理解され得ることが理解される。
【0020】
例となる方法には、(1)(例えばオートエンコーダ又は変分オートエンコーダ等)本願における機械学習アルゴリズムの使用を介してデータの低次元表現を得るための、任意の装置からのヒト又は動物のCBCデータの圧縮;(2)(例えばXGBoost、Random Forest等)機械学習方法を使用して圧縮されたデータを使用した、個人における、臨床的に有益な疾患表現型を含む形質の分類;(3)上記の圧縮及び分類アルゴリズムを使用した、個人レベルでの異常(例えば、個人は体調不良であり、貧血、又は急性ウイルス感染を有する)及び集団レベルでの異常(例えば、疾患のアウトブレイク事象がケンブリッジシャーで発生した)を介した疾患検出;(4)リッチCBC結果の取り込み及び結果の調和のためのアルゴリズム及びソフトウェアプラットフォーム(オンボードPCIEデバイス、コンピュータ、又はクラスターとクラウドベースの分析プラットフォームを使用した局所分析を含む);が含まれる。
【0021】
より具体的には、この例となる方法において、圧縮ステップによってモデルの複雑さが軽減され、CBCデータの過剰適合が回避される。圧縮は、オートエンコーダを使用して成し遂げることができる。オートエンコーダは、一対のニューラルネットワーク、エンコーダ、及びデコーダを訓練することによって機能する。エンコーダは、入力データをより低次元に圧縮する。CBCデータは、Nの特徴にエンコードされる。デコーダは、これらのNの特徴を入力として受け取り、次に、元のデータを再構築する。一例において、86の特徴を含む特徴空間が、より小さな八次元潜在空間まで縮小される。潜在空間は、86次元CBCデータの情報を含む。より小さな圧縮された空間は、より高次元のデータのサロゲートとして見なすことができる。
【0022】
オートエンコーダのネットワークもデコーダのネットワークも、入力データと再構築されたデータとのいかなる再構築の違いにもペナルティを科すことによって訓練され、再構築が可能な限り正確であることを確実にするために、ニューラルネットワークにおける重みを更新する。オートエンコーダは、CBCデータの特定の分布をエンコードするように訓練することもできる。
【0023】
機械、1日のうちの時刻、1年のうちの月、サンプルの抽出と分析との間の時間によるサンプルにおける偏差を補正し、スケーラビリティを改善し、コンピュータ計算の複雑さを軽減することができる。モデルアーキテクチャにおけるオートエンコーダは、予測タスクへの依存性を取り除くことによって、さらに改善することができる。これによって、圧縮された表現が、訓練された1つのタスクだけでなく、他のタスクに一般化されるのを可能にし、潜在的な表現が元のデータに忠実であり続けることを確実にし、正則化の形態を確実にしている。このアプローチは、損失関数にさらなる項を単に追加するため、多くのドメインに合わせて調整され、ドメイン分類器ヘッドは、単に各ドメイン内の要素に対して等しい数の出力ニューロンを有する多層パーセプトロンであるため、各ドメイン内の多くの要素にも合わせて調整される。
【0024】
上記の方法は、1つ以上の標準化技術を使用することによって実施される。これらの技術には、特徴の解きほぐしに基づく現在の短絡学習防止技術に対する改善が含まれ、タスク特異的分類器及びドメイン特異的分類器を使用して、入力データにおけるドメイン特異的バイアスに関連する特徴ではなく、分類問題に関連する特徴をモデルに学習させる。具体的には、モデルのタスク特異的分類器のコンポーネントがオートエンコーダベースの再構築誤差の最小化に置き換えられているため、この方法は新規であり、他の方法よりも改善されている。この修正によって、現在のモデルが有する特定の予測タスクへの依存性が排除され、次の2つの主要な利点が得られる:(1)モデルによって出力された、結果として生じる潜在的なデータ表現は、特定の分類を行うためだけではなく、他の一般化された下流分析に使用することができ、(2)結果として生じる潜在的なデータ表現は、元のデータに忠実であり続け、正則化の形態を確実にしている。本願における実施のための前処理方法の改善された下流の結果は、表2に従って、並びに、付属資料のセクションIV.機械間の標準化において詳述されている。
【0025】
圧縮ステップに続いて、エンコードされたCBCデータの一部が、分類器を訓練するために使用される。分類器は、XGBoost、Random-Forest、ロジスティック回帰、分類モデルの組み合わせ、又は目の前の分類問題に最も適切なモデルであってもよい。一例では、エンコードされたデータの80%が、CBCデータに基づきドナーを男性又は女性に分類するように分類器を訓練するために使用される。この訓練には、5分割交差検証が使用される。残りの20%のデータ(モデルには見えない)は、モデルの感度及び特異度に基づく検証に使用される。ドナーの性別を分類する際に、患者が男性又は女性であるかを決定するのに寄与する潜在特徴がある。少なくとも1つの潜在特徴は、データ内の特徴に対応することが示されている。
【0026】
上記のように実施され、且つ上記のデータを使用して訓練されるモデルは、付属資料において例証されているような用途に使用することができるということが理解される。これらの用途は、異なるデータ又は異なるソースから得られたデータの使用を伴うことがある。そのようなデータは、本明細書において記載される1つ以上の生物学的形質と関連し、且つそれらを示すことができる。
【0027】
生物学的形質は、以下のような疾患、疾患の反応、状況、状態、又は治療反応のいずれか1つ以上から選択され得る:(1)細菌感染、ウイルス感染(既知のもの及び新たな未知のもの)、又は寄生虫感染;(2)がん、特に血液幹細胞及びその子孫のがん、さらにはCBCデータ及び上記の方法を使用した複数の段階の固形臓器がん;(3)心血管疾患、特に進行したアテローム性動脈硬化症、狭心症、急性冠症候群、ST上昇型心筋梗塞及び血栓性脳卒中の状態;(4)I型(インスリン依存性)糖尿病、II型糖尿病のような代謝障害、他の内分泌学的障害(例えば、甲状腺機能低下症、甲状腺機能亢進症等)、肥満の原因となる又は肥満を伴う代謝障害;(5)自己免疫疾患及びアレルギー疾患、特に、例えば、炎症性腸疾患(クローン病及び潰瘍性大腸炎)、関節リウマチ、全身性エリテマトーデス、多発性硬化症ループス、自己免疫性血小板減少症によって例示されるような自己免疫疾患の増悪;及び、花粉症、チリダニ、食物アレルギーを含むアレルギー;(6)精神的不健康、特に慢性炎症状態と因果関係がある精神的不健康;(7)血液幹細胞及びその子孫の希少遺伝性疾患、さらには、希少疾患の原因となる機能修飾遺伝子が血液幹細胞又はその子孫に転写される他の臓器系の希少疾患;(8)一般的に発生する薬物の副作用の特性の検出を含む、薬物治療/投与に対する反応;(8)特に自己免疫疾患及び炎症障害に特有というわけではないが、疾患の進行、増悪、再発、及び寛解の予測;(9)特定の医学的介入から利益を得る可能性のある特定の標的表現型を有する個人のグループと、同じ介入によって害を受ける可能性のある個人(例えば、アスピリン、ADP受容体阻害薬、及びフィブリノゲン受容体阻害薬を用いた抗血小板薬2剤併用療法又は抗血小板薬3剤併用療法によって血小板が効果的に抑制されたか又は抑制されなかった心血管疾患のリスクのある個人)のグループとの識別;(10)妊娠又は妊娠の段階に関連する健康及び不健康(すなわち、妊娠中に現れる特徴)。
【0028】
本明細書において記載されるモデルは、上記の選択される形質のうちいずれか1つ以上に適し得るということが理解される。モデルは、付属資料において提供されているような結果を提供するために、形質の各々に関する適切な訓練データを使用して適用及び訓練されてもよい。モデルの結果は、がん、代謝疾患、心血管疾患、自己免疫疾患若しくはアレルギー、メンタルヘルス障害、希少遺伝性疾患等、妊娠又は不健康等の健康に関連する状態、及び、コミュニティケア又は二次及び三次ホスピタルケアで見られる状態の評価又は予測に適用可能である。
【0029】
一例では、生物学的形質は、がんの一種、より具体的には、英国で毎年13,000人が発症し、5年生存率が50%であることが知られている腎細胞がんであってもよい。実際には、これは、毎日英国で36人がRCCと診断され、その半数が5年以内に死亡することを意味する。RCCの早期発見は最適な治療成績を達成することにおいて鍵となるが、RCCの診断は依然として非常に困難であり、血尿、疼痛、及び腹部腫瘤という古典的な診断症状は現在では稀であると認識されている。また、他の症状があったとしても、曖昧で非特異的であり、発症が遅れることがある。この疾患の潜行性の性質により、RCC症例の60%以上は、疾患が進行した段階にある時に偶然発見される。研究のさらなる詳細は、付属資料のセクションIII.腎細胞がん症例研究において提供されている。
【0030】
研究から生成されたデータは、本明細書において記載されるモデルを訓練するために使用されることが理解される。結果は、モデルを使用したCBC検査データの分析を考慮した、患者がRCCを患っている可能性があるかどうかの評価に適用可能であってもよい。結果は、予後又は診断目的のために使用されてもよく、例えば、個人がRCCに罹患しているか否かについての何らかの決定支援を提供するため、さらなる調査に患者を差し向ける。RCC患者と平均的なGP患者との間で異なるいくつかの重要なCBC検査の特徴、例えば、好中球数(NE#)、HCT(ヘマトクリット)、MPV(平均血小板体積)が、
図8による結果として特定される。これらの特徴の特定は、本明細書において記載される方法に基づく、CBCデータを使用したRCCの検出に関して、どのようにして疾患進行を評価することができるかということに対する改善された方法を提供する。
【0031】
別の例では、生物学的形質は、心血管疾患、すなわち、卒中発作及び心臓発作であってもよい。研究は、卒中発作を経験し、CUHに入院し、入院から1日以内にCBCが記録された5,036人の患者を含む。研究のさらなる詳細は、付属資料のセクションI.心血管研究において提供されている。研究の一部として、様々な血液バイオマーカーが、本明細書において記載されるモデルを適用することによって特定される。特定された血液バイオマーカーは、心血管疾患を患っているコホートの各々に対応する。特に、付属資料のセクションI.チャートAにより示されているように、血液バイオマーカーである好中球数には統計学的に有意な差がある。本明細書において記載される適切なデータで訓練されたモデルを使用して、心血管疾患のリスクグループを特定し、診断を行い、転帰を予測することができるということが理解される。
【0032】
さらに別の例では、生物学的形質は、妊娠の段階中又は妊娠中のある時点で現れる特徴であってもよい。モデルは、その合間にCBCを有する女性から収集されたデータを使用して訓練される。訓練に使用された研究の詳細及びデータは、付属資料のセクションII.妊娠研究においてさらに記載される。モデルを適用すると、重要な特徴の特定が可能になる。これらの特徴は、妊娠の段階を分ける。特に、重要な特徴は:(a)総ペルオキシド;(b)ペルオキシダーゼ法からのWBC;及び(c)モードリンパ球数;である。これは、付属資料のセクションII.チャートAにおいてさらに記載される。細胞及び細胞成分に関する他の重要な特徴、特に、血小板、好中球、ヘモグロビン、白血球、リンパ球が、付属資料のセクションII.チャートBにより提供される。本明細書において記載されるモデルを使用したこれらの重要な特徴又はバイオマーカーの特定は、子癇前症及び妊娠誘発糖尿病を含む妊娠中の合併症を評価し且つ早期発見するための手段を提供する。
【0033】
さらに別の例では、生物学的形質は、代謝に関連して現れる特徴、例えば、肥満又はその予測であってもよい。CBCデータには、ボディマスインデックス(BMI)によって定義される肥満の異なるレベルを示すバイオマーカーが存在してもよく、これらのバイオマーカーは、肥満予測のためのモデルによって特定され得ることが理解される。一実験において、INTERVAL供血者からのCBCデータを、モデルのための入力として使用してもよい。データセットは、NHS Englandによって定義される肥満の異なるレベルに対して5つの体重クラスに分割される。これらは以下の通りである:低体重(BMI<18.5)、健康(BMI:18.5~24.9)、過体重(BMI 25.0~29.9)、肥満(BMI 30.0~39.9)、及び重度肥満(BMI 40.0+)。加えて、CBCデータは個人の性別を特定するために使用されてもよく、男性と女性との間に生物学的体重差があることはよく知られている。従って、性別に関連するバイアスを避けるために、男性及び女性の供血者に対して別々に分析が行われる。以下の表は、各体重クラスにおけるドナーに対して入手可能なCBC検査の数を示している。
【0034】
【表1】
データセット内の相関性がない「高レベル」のCBC特徴のみを使用して、ドナーの体重クラスはそのCBCデータのみに基づき分類される。データは、開発セット(データの2/3)及びホールドアウトセット(データの1/3)に分けた。モデルは、5分割交差検証を使用して訓練した。女性のコホートに対しては、平均検証AUCは0.830667であり、内部ホールドアウトの感度は0.770886であり、特異度は0.737313である。男性のコホートに対しては、平均検証AUCは0.829957であり、内部ホールドアウトの感度は0.734328であり、特異度は0.775949である。この分析の注意点は、供血に対する選択バイアスにより、低体重及び重度肥満の供血者からのサンプルが非常に少ないことである。
【0035】
さらに、本明細書において記載される方法は以下を含んでもよい:(1)集団における既知又は新規の病原体のアウトブレイクの検出(例えば、ケンブリッジシャーにおけるSARS-CoV-2感染アウトブレイクの病原体不可知論的検出(pathogen agnostic detection));(2)モデルは、データにおける時間依存性を捕捉するように構成されてもよい;上記において、モデルは、(例えば、低及び中所得国における等)複数病原体感染が風土性である集団からのCBC結果を解釈するように構成される。データにおける時間依存性又は患者CBCにおける経時的変化は、例えば、腎細胞がんの予後に関する重要な指標であり得ること、及び妊娠中の評価を行うための重要な指標であり得ることを正しく理解することができる。指標を適用することは、モデル結果の精度を効果的に高めるであろう。
【0036】
別の例では、ある期間中に行われた全血算のうち全てからのデータ、すなわち、2019年のAddenbrooke研究室からのデータをエンコード及び処理して、その期間に対する患者分布の表現を得ることができる。その後の期間(すなわち、2020年及び2021年)からのさらなるデータをモデルに組み込むことができる。時間依存的CBCサンプルに対するモデル誤差を比較することによって、ある地域におけるCOVID-19等のパンデミック事象を特定することができ、病原体のアウトブレイク又は他の異常検出に対するスケーラブルで安価な集団スクリーニング方法を可能にしている。より具体的には、集団からのCBC結果を解釈する範囲で、COVID-19等の病原体のアウトブレイク事象をモデルによって特定し、予測することができる。これの一例が
図9により示され、以下のセクションおいて記載される。
【0037】
上記の例に関連して、モデルは、SARS-CoV-2の症例が予想されなかった2019年10月から2020年1月の間にケンブリッジシャーの集団に対して行われた103,219のR-CBC測定値からのデータを使用して訓練されたオートエンコーダを含んでもよい。次に、モデルを使用して、2020年2月から2021年4月の間に行われた残りの404,215のR-CBC測定値を圧縮し、再構築した。モデルは、以前に訓練されていないR-CBC測定値(すなわち、COVID-19患者由来のもの)に遭遇すると、
図9において示されているようなエラーを発生させることが提唱されている。
【0038】
上記の方法には:(1)自動化されたソフトウェア及び分析パイプラインを使用した、リッチCBC測定データ及び生のCBC測定データの取り込み;(2)異なるメーカーのCBC機器からのデータの標準化;(3)正確にCBCパラメータを測定する機器による自動化された偏差の検出;が含まれる。
【0039】
リッチデータに対して、上記に続いて:(1)自己教師あり/半教師あり/教師なし/教師ありの方法を使用したデータ圧縮;(2)自己教師あり/半教師あり/教師なし/教師ありの方法を使用した圧縮空間におけるデータの分類;が含まれる。
【0040】
生データに対して、上記に続いて:(1)ディープニューラルネットワーク技術又はコンピュータビジョン技術を使用した生データのクラスタリング;(2)クラスタリング出力からの特徴量エンジニアリング;(3)ここからは、リッチデータに対して上述したもの;が含まれる。
【0041】
最初の分析に続いて:(1)全てのソースからの分析されたデータの集計;(2)集団サンプルにおける異常を検出するための自己教師あり/半教師あり/教師なし/教師ありの方法の訓練;が含まれる。
【0042】
上記の方法は、(1)学習された特徴及び潜在空間の分析のための解釈可能性技術;出力結果に基づくアクティブラーニング/モデルのハイパーパラメータチューニングのためのアルゴリズム;を含んでもよい。
【0043】
大規模分析プラットフォームには:(1)テスト場所から中央分析コンピューティング環境へのCBCデータのストリーミング;(2)連合学習スタイルアプローチにおけるCBCデータの局所分析及び中央コンピューティング環境への分析結果のストリーミング;(3)集団健康モニタリング及び疾患アウトブレイク検出のための照合されたデータの分析;が含まれる。
【0044】
例となるモデル結果の適用
上記に関連して、複数の半教師ありモデル及び教師なしモデルが開発されており、これらを使用して「リッチ」CBCデータ及び「生の」CBCデータを分析し、様々な重要な臨床事象を検出することができる。
【0045】
(1)リッチデータ及び生データを使用して、0.95の曲線下面積(AUC)内部検証データ、並びに、内部ホールドアウトセットにおいて0.87の感度及び0.89の特異度で、性別(男性又は女性)を推測することができる。STRIDESと呼ばれる外部の供血者データセットでは、0.85の感度及び0.85の特異度を有し、COMPAREと呼ばれる別の供血者データセットに対しては、0.87の感度及び0.80の特異度を有する。(2)肥満では、0.73の感度、0.70の特異度の内部ホールドアウトに対して内部検証0.81のAUCを有する。(3)病院サンプル対コミュニティサンプル(非病院)では、内部検証0.88のAUC、ホールドアウトの0.80の感度及び特異度を有する。(4)データを集計することによって、感染症のアウトブレイクの特定等、他の集団全体の分析を行うのが可能になる。本発明者等は、より広範なケンブリッジシャー集団から採取したサンプルにおいてSARS-CoV-2による感染に対してこれを行って、コミュニティベースの一般開業医(GP)によるクリニックを受診した個人、又はケンブリッジ大学病院の外来において見られる患者及び入院患者から得た静脈血サンプルにおいて感染を検出した。
【0046】
例となるモデルの実施
【0047】
【0048】
【0049】
【表2-3】
上記の表は、付属資料において記載される様々な研究に関して展開された機械学習実装の例を提供している。この実装は、本願において記載されるモデルの他の用途に対しては異なる場合がある。この実装は、本明細書において記載される本発明の様々な態様及び例に適用可能である。
【0050】
図1は、異常検出において使用するためのモデル調製の一例を示した流れ図である。モデルは、全血算(CBC)データにおける異常を検出するために、本明細書において記載される1つ以上の機械学習方法を使用して調製又は訓練される。特に、このモデルは、CBCデータにおける異常に関連する生物学的な健康及び不健康の形質及び特性を検出するように構成される。
【0051】
ステップ101では、1つ以上のデータソースからのCBCデータが受信される。CBCデータは、1つ以上のCBC機器によって生成された生データ及びリッチデータを含む。ステップ103において、CBCデータは、1つ以上の機械学習アルゴリズムを使用してエンコードされる。ステップ105において、分類器が、エンコードされたCBCデータに基づき、生物学的な健康及び不健康の形質及び特性を分類するように訓練される。形質及び特性は、健康及び不健康に関連する少なくとも1つの表現型を含む。ステップ107において、訓練された分類器を含むモデルが、さらなる用途のために提供される。
【0052】
これらの用途には、1人以上の個人からの血算結果における異常の検出、又は集団レベルでの少なくとも1つの異常の検出が含まれてもよいが、これらに限定されない。モデルは、ソフトウェアプラットフォームを用いて展開されてもよく、ソフトウェアプラットフォームは、CBCデータを前処理するように構成された1つ以上のハードウェアデバイスを含む。
【0053】
図2は、CBC検査のワークフローの一例を絵で表した図である。この図は、モデルから生成された「高レベル」のデータレポートを示している。出力レポートは、本発明によって使用される「高レベル」の測定値及び「リッチ」測定値のサブセットのみを含有している。実際には、レポートにおいて表示される限られた数の測定値(例えば、WBC、RBC、HGB)が、診断及び医学的意思決定を知らせるために医療専門家に提示される。
【0054】
図3は、CBCデータに関連する高次元特徴空間、及び可変性を構成するための異なるソースからの入力データの標準化を絵で表した図である。
【0055】
図4は、オートエンコーダを使用して潜在空間に圧縮され、潜在空間から圧縮解除されている高次元入力特徴空間の一例を絵で表した図である。データが圧縮される例証的なネットワークの層も示されている。例えば、圧縮されたデータは、エンコーダ及びデコーダが86の特徴の入力を8の特徴に再構築するように訓練されたネットワーク構造に対応している。
【0056】
図5は、CBCデータの潜在空間エンコーディングに基づき形質及び特性を分類する訓練された分類器からの結果の一例を絵で表した図である。
【0057】
図6は、2Dで表された低次元特徴空間にオートエンコーダを介して圧縮されたオートエンコーダデータの一例を絵で表した図である。特定の図は、オートエンコーダ及び分類モデルの訓練中に学習した特徴を使用した分類及びCBCデータのみを使用して、男性を女性から識別することにおける本発明の適用を実証している。
【0058】
図7は、データセットにおける特徴に対応するモデルの特徴に関連する解釈可能な結果の一例を絵で表した図であり、学習した潜在空間特徴を入力特徴にリンクさせ、所与のサンプルに対するCBC入力データを圧縮し、潜在圧縮空間データ内の得られた特徴を操作して人工的なエンコーディングをもたらし、本発明を使用して人工的なエンコーディングから入力を再構築し、人工的な出力データにおいて観察された違いを、元の入力データにおいて観察された違いと比較するプロセスを実証している。
【0059】
図8は、腎細胞がんの発症を診断する用途におけるRCC対GP CBCの分類特徴の重要性の一例を絵で表した図である。腎細胞がん(RCC)患者対一般開業医(GP)患者からの全血算(CBC)検査の分類において、モデルによって使用されるCBC検査の様々な特徴の重要性が示されている。これについては、付属資料においてさらに記載される。
【0060】
図9は、Public Health Englandの(当時の)(データベース内のケンブリッジにおける)ケンブリッジシャーの集団に関連したPCRにより決定された症例数と比較した月ごとの集計再構築誤差の一例を絵で表した図である。この図において、青いバー(X軸1)は、PCRを使用して病院の検査室(地域の検査センター)によって特定された月ごとの新しい症例数を表している。赤い線(X軸2)は、同じ時点においてモデルによって生成された平均90パーセンタイル再構築誤差を表している。Y軸上に閾値を設定することによって、アウトブレイク調査をトリガすることができる。
【0061】
この図は、2020-2021年全体で、月ごとの平均圧縮/再構築誤差率における有意な増加が観察され、ケンブリッジシャーSARS-CoV-2感染の「波」と一致する3月/4月及び12月/1月中にピークを迎えていることを示している。ピークの誤差率は、既知のSARS-CoV-2 PCR陽性者に対して行われているCBC検査の数と強く相関している。これは、R-CBCデータを使用して、集団におけるこれらの感染者の存在を検出できることを示している。新しい症例がほとんど特定されなかった期間である2020年6月から2020年10月の間の高い誤差率は、入院したCOVID-19+患者に対してこの期間に行われているCBC検査の割合によって説明される。
【0062】
上記の
図1から9は、以下の態様に対応する。一態様は、異常検出のためのモデルを調製する方法又はコンピュータ実装方法であり、モデルは、全血算(CBC)データにおける異常に関連する生物学的な健康及び不健康の形質及び特性を検出するように構成され、当該方法は:1つ以上のデータソースからCBCデータを受信するステップであり、CBCデータは、1つ以上のCBC機器によって生成された生データ及びリッチデータを含む、ステップ;1つ以上の機械学習アルゴリズムを使用してCBCデータをエンコードするステップ;エンコードされたCBCデータに基づき、生物学的な健康及び不健康の形質及び特性について分類器を訓練するステップであり、これらの形質及び特性は、健康及び不健康に関連する少なくとも1つの表現型を含む、ステップ;並びに、訓練された分類器を含むモデルを提供するステップ;を含む。
【0063】
別の態様は、腎細胞がんを検出するため、妊娠の段階を決定するため、又は心血管イベントが発生するかどうかを予測するためのモデルを調製する方法又はコンピュータ実装方法であり、モデルは、患者からの全血算(CBC)データにおける異常に関連する生物学的な健康及び不健康の形質及び特性を検出するように構成され、当該方法は:1つ以上のデータソースからCBCデータを受信するステップであり、CBCデータは、1つ以上のCBC機器によって生成された生データ及びリッチデータを含む、ステップ;1つ以上の機械学習アルゴリズムを使用してCBCデータをエンコードするステップ;エンコードされたCBCデータに基づき、生物学的な健康及び不健康の形質及び特性について分類器を訓練するステップであり、これらの形質及び特性は、健康及び不健康に関連する少なくとも1つの表現型を含む、ステップ;並びに、訓練された分類器を含むモデルを提供するステップであって、分類器は、モデルによって学習されたバイオマーカーに関して、患者が腎細胞がんを示すかどうかを決定するか、妊娠の段階を特定するか、又は心血管イベントを予測するように構成されている、ステップ;を含む。
【0064】
別の態様は、機械学習モデルを適用して、個人ベース又は集団ベースの全血算(CBC)データにおける異常を検出する方法又はコンピュータ実装方法であり、当該方法は:CBCデータで訓練された機械学習モデルを受信するステップであり、機械学習モデルは、第1の態様に従って及び/又は本明細書において記載される1つ又は複数の選択肢に従って調製されている、ステップ;訓練されたモデルを1人以上の個人の未分類のCBCデータに適用するステップ;1つ以上の生物学的形質に基づき未分類のCBCデータにおける異常を検出するステップ;並びに、臨床的評価のために異常を出力するステップ;を含む。
【0065】
別の態様は、第1の態様に従って及び/又は本明細書において記載される1つ又は複数の選択肢に従って調製されたモデルを展開するためのプラットフォームであり、当該プラットフォームは1つ以上のハードウェアデバイスを含み、1つ以上のハードウェアデバイスは:全血算(CBC)データを受信し、CBCデータは生データ及びリッチデータを含み;機械学習モデルの入力設定に基づきCBCデータを標準化し;正規化されたCBCデータに機械学習モデルを適用し;機械学習モデルの構成に基づきモデルからの分類を提供し、構成は、1つ以上の生物学的な健康及び不健康の形質及び特性に関連しており;分類を適用して、1人以上の個人又は集団に対する全血算(CBC)データにおける異常を検出する;ように構成されている。
【0066】
別の態様は、第1の態様に従って及び/又は本明細書において記載される1つ又は複数の選択肢に従って調製された機械学習モデルを適用するためのシステムであり、当該システムは、標準化されたCBCデータを受信し;正規化されたCBCデータに機械学習モデルを適用し;機械学習モデルの構成に基づきモデルからの分類を提供し、構成は、1つ以上の生物学的な健康及び不健康の形質及び特性に関連しており;分類を適用して、1人以上の個人又は集団に対する血算(CBC)データにおける異常を検出する;ようにさらに構成されている。
【0067】
選択肢として、生物学的形質は、細胞成分又は細胞型の特徴に関連していてもよい。別の選択肢として、特徴は、特徴の数又は定量化された測定値を含む。さらに別の選択肢として、特徴は、総ペルオキシド量、白血球数、リンパ球数、血小板数、好中球数、ヘモグロビン数、及びリンパ細胞数のうち1つ以上を含む。
【0068】
選択肢として:受信したCDCデータをエンコードする前に正規化するステップがさらに含まれる。別の選択肢として、この正規化は、上記のモデルを2つ以上のハードウェアデバイスに適用することによるサンプル偏差を補正するように構成された1つ以上の方法を含む。別の選択肢として、上記の正規化は、1つ以上のデータ標準化技術を適用して行われる。別の選択肢として、上記の形質は、不健康又は感染病原体若しくは感染病原菌の存在に関連している。別の選択肢として、形質は、1つ以上の細胞型又は細胞成分に関連する生物学的形質である。別の選択肢として、上記の形質は、不健康から健康の少なくとも1つの状態、又は健康から不健康の少なくとも1つの状態に関連する不健康な反応に対応し、この少なくとも1つの状態は、発症、増悪、再発、及び寛解を含む。別の選択肢として、不健康は、がん、代謝疾患、心血管疾患、自己免疫疾患若しくはアレルギー、メンタルヘルス障害、希少遺伝性疾患の結果としての状態であるか、又は、コミュニティケア若しくは二次及び三次ホスピタルケアで見られる状態である。別の選択肢として、この状態は、がん、代謝疾患、心血管疾患、自己免疫疾患若しくはアレルギー、メンタルヘルス障害、希少遺伝性疾患のうち1つ以上であるか、又は、コミュニティケア若しくは二次及び三次ホスピタルケアで見られる状態である。別の選択肢として、がんは、腎細胞がんを含む。別の選択肢として、心血管疾患は、卒中発作及び心臓発作を含む。別の選択肢として、不健康は健康形質に関連している。別の選択肢として、健康形質は、妊娠に関連している。別の選択肢として、不健康は、妊娠によって誘発されるか又は妊娠中に発生する合併症の一種である。別の選択肢として、上記の少なくとも1つの表現型は、薬物若しくは薬物候補の治療に基づく、又は食事若しくは身体活動の変化に基づく臨床的に有益な反応に対応する。別の選択肢として、治療は、薬物若しくは薬物候補の投与計画を含む。別の選択肢として、異常は、集団における病原体のアウトブレイクに関連している。別の選択肢として、異常は、集団が曝露された毒性物質の存在に関連している。別の選択肢として、異常は、集団が曝露された放射線毒性の存在に関連している。別の選択肢として、モデルは、CBCデータにおける時間依存性を捕捉するように構成されている。
【0069】
上記の説明は、明確性のために、単一のユーザを参照して本発明の実施形態及び態様を論じている。実際には、当該システムは複数のユーザによって共有され、場合によっては非常に多数のユーザによって同時に共有されてもよいということが理解されることになる。
【0070】
上記の実施形態及び態様は、半自動であるように構成されてもよく、及び/又は完全に自動であるように構成される。一部の例では、1つ又は複数のクエリシステム/1つ又は複数のプロセス/1つ又は複数の方法のユーザ又はオペレータが、実行されることになる1つ又は複数のプロセス/1つ又は複数の方法の一部のステップを手動で指示することができる。
【0071】
記載される本発明の実施形態及び態様、本発明による及び/又は本明細書において記載されるシステム、1つ又は複数のプロセス、1つ又は複数の方法等は、コンピューティングデバイス及び/又は電子デバイスのいずれかの形態として実装され得る。そのようなデバイスは、ルーティング情報を収集及び記録するためにデバイスの動作を制御するコンピュータ実行可能命令を処理するためのマイクロプロセッサ、コントローラ、又は任意の他の適したタイプのプロセッサであり得る1つ以上のプロセッサを含んでもよい。一部の例では、例えば、システムオンチップのアーキテクチャが使用される場合、プロセッサは、プロセス/方法の一部を(ソフトウェア又はファームウェアではなく)ハードウェアで実装する1つ以上の固定機能ブロック(アクセラレータとも呼ばれる)を含んでもよい。オペレーティングシステムを含むプラットフォームソフトウェア又は任意の他の適したプラットフォームソフトウェアをコンピューティングベースのデバイスに提供して、アプリケーションソフトウェアがデバイス上で実行されるのを可能にすることができる。
【0072】
本明細書において記載される様々な機能は、ハードウェア、ソフトウェア、又はそれらの任意の組み合わせで実装することができる。ソフトウェアで実装される場合、機能は、コンピュータ読み取り可能媒体又は非一時的なコンピュータ読み取り可能媒体上の1つ以上の命令又はコードとして格納され得るか又は伝送され得る。コンピュータ読み取り可能媒体は、例えば、コンピュータ読み取り可能記憶媒体を含んでもよい。コンピュータ読み取り可能記憶媒体は、コンピュータ読み取り可能命令、データ構造、プログラムモジュール又は他のデータ等の情報を格納するための任意の方法又は技術で実装された揮発性又は不揮発性、取り外し可能又は取り外し不可能な媒体を含んでもよい。コンピュータ読み取り可能記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な記憶媒体であり得る。限定されることなく一例として、そのようなコンピュータ読み取り可能記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリ若しくは他のメモリデバイス、CD-ROM若しくは他の光ディスクストレージ、磁気ディスクストレージ若しくは他の磁気ストレージデバイス、又は、命令若しくはデータ構造の形で所望のプログラムコードを運ぶ若しくは格納するために使用することができる、及びコンピュータによってアクセスされ得る任意の他の媒体を含んでもよい。ディスク(disc及びdisk)は、本明細書において使用される場合、コンパクトディスク(CD)、レーザーディスク、光ディスク、デジタル多用途ディスク(DVD)、フロッピーディスク、及びblu-ray(商標)ディスク(BD)を含む。さらに、伝搬される信号は、コンピュータ読み取り可能記憶媒体の範囲には含まれない。コンピュータ読み取り可能媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体も含む。例えば、接続又は結合は、通信媒体であり得る。例えば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、又は、赤外線、無線、及びマイクロ波等の無線技術を使用して、ウェブサイト、サーバ、又は他のリモートソースから送信される場合、それらは通信媒体の定義に含まれる。上記の組み合わせも、コンピュータ読み取り可能媒体の範囲に含まれるべきである。
【0073】
代替的又は追加的に、本明細書において記載される機能は、少なくとも部分的に、1つ以上のハードウェアロジックコンポーネントによって行うことができる。例えば、限定されることなく、使用することができるハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ(FPGA)、特定プログラム向け集積回路(ASIC)、特定プログラム向け標準製品(ASSP)、システムオンチップシステム(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)等を含んでもよい。
【0074】
単一システムとして例示されているけれども、コンピューティングデバイスは分散システムであってもよいことを理解されたい。従って、例えば、いくつかのデバイスは、ネットワーク接続によって通信することができ、コンピューティングデバイスによって行われるとして記載されるタスクを集合的に行うことができる。
【0075】
ローカルデバイスとして例示されているけれども、コンピューティングデバイスは、遠隔に位置してもよく、ネットワーク又は他の通信リンクを介して(例えば、通信インタフェースを使用して)アクセスすることができるということが正しく理解されることになる。
【0076】
「コンピュータ」という用語は、本明細書において、命令を実行することができるような処理能力を有する任意のデバイスを指すために使用される。当業者は、そのような処理能力が多くの異なるデバイスに組み込まれ、従って、「コンピュータ」という用語は、PC、サーバ、IoTデバイス、携帯電話、携帯情報端末、及び多くの他のデバイスを含むということを認識することになる。
【0077】
当業者は、プログラム命令を格納するために利用される記憶装置をネットワーク全体に分散させることができるということを認識することになる。例えば、リモートコンピュータは、ソフトウェアとして記載されるプロセスの一例を格納することができる。ローカルコンピュータ又は端末コンピュータは、リモートコンピュータにアクセスし、プログラムを実行するためにソフトウェアの一部又は全てをダウンロードすることができる。或いは、ローカルコンピュータは、必要に応じてソフトウェアの一部分をダウンロードすることができるか、又はローカル端末において一部のソフトウェア命令を実行し、リモートコンピュータ(又はコンピュータネットワーク)において一部のソフトウェア命令を実行することができる。当業者は、当業者に知られている従来技術を利用することによって、ソフトウェア命令の全て又は一部を、DSP又はプログラマブルロジックアレイ等の専用回路によって実行することができるということも認識することになる。
【0078】
上記の利益及び利点は、一実施形態に関するものであってもよく、又はいくつかの実施形態に関するものであってもよいということが理解されることになる。実施形態及び態様は、記載された問題のいずれか若しくは全てを解決するもの、又は記載された利益及び利点のいずれか若しくは全てを有するものに限定されない。異形が、本発明の範囲に含まれると考えられるべきである。
【0079】
単数形の項目へのいかなる言及も、それらの項目の1つ以上を指す。「含む」という用語は、本明細書において、特定される方法のステップ又は要素を含むことを意味するために使用されるが、そのようなステップ又は要素は、排他的なリストを含まず、方法又は装置は、さらなるステップ又は要素を有し得る。
【0080】
本明細書において使用される場合、「コンポーネント」及び「システム」という用語は、プロセッサによって実行されたときに特定の機能を行わせるコンピュータ実行可能命令で構成されたコンピュータ読み取り可能なデータ記憶装置を包含することを意図している。コンピュータ実行可能命令は、ルーチン又は関数等を含んでもよい。また、コンポーネント又はシステムは、単一のデバイス上にローカライズされてもよく、又はいくつかのデバイスにわたって分散されてもよいことも理解されたい。さらに、本明細書において使用される場合、「例証的」、「例」、又は「実施形態」という用語は、「何かの例示又は例として役立つ」のを意味することを意図している。さらに、「含む」という用語が詳細な説明又は特許請求の範囲のいずれかで使用される限りでは、そのような用語は、「含んでいる」という用語が特許請求の範囲において転換語として利用される場合に解釈されるように、「含んでいる」という用語と類似の様式で包含的であることを意図している。
【0081】
図は、例証的な方法を例示している。これらの方法は、特定の順序で行われる一連の動作として示され且つ記載されているけれども、これらの方法は、その順序によって限定されないことを正しく理解されたい。例えば、一部の動作は、本明細書において記載されているものとは異なる順序で発生することができる。加えて、ある動作は、別の動作と同時に発生することができる。さらに、一部の例では、全ての動作が、本明細書において記載される方法を実施するために必要とされ得るわけではない。
【0082】
さらに、本明細書において記載される動作は、1つ以上のプロセッサによって実施され得る、及び/又は、1つ又は複数のコンピュータ読み取り可能媒体上に格納され得るコンピュータ実行可能命令を含んでもよい。コンピュータ実行可能命令は、ルーチン、サブルーチン、プログラム、及び/又は実行の脈絡等を含み得る。さらに、方法の動作の結果を、コンピュータ読み取り可能媒体に格納する、及び/又はディスプレイ装置に表示すること等ができる。
【0083】
本明細書において記載される方法のステップの順序は例証的であるが、ステップは、任意の適した順序で、又は適切な場合には同時に実行されてもよい。加えて、ステップは、本明細書において記載される発明特定事項の範囲から逸脱することなく、方法のいずれかにおいて追加若しくは置換され得るか、又は個々のステップが方法のいずれかから削除され得る。上記の例のうちいずれかの例の態様を、求める効果を失うことなく、記載される他の例のうちいずれかの例の態様と組み合わせて、さらなる例を形成することができる。
【0084】
上記の好ましい実施形態の説明は、単に例として与えられたものであること、及び、当業者によって様々な修正が行われ得ることが理解されることになる。
【0085】
上記のものは、1つ以上の実施形態の例を含む。当然ながら、上述の態様を説明する目的のために、上記の装置又は方法の全ての考えられる修正及び変更を記載することは可能ではないが、当業者は、様々な態様の多くのさらなる修正及び置換が可能であることを認識することができる。従って、記載される態様は、添付の特許請求の範囲内にある全てのそのような変更、修正、及び異形を包含することを意図している。
【0086】
付属資料
I. 心血管症例研究
本発明者等は、卒中発作及び心臓発作を含む心血管疾患に対するリスクグループを特定し、診断し、及び転帰を予測するために使用することができる血液バイオマーカーがあると考えている。これらの集団は、他のコホートとは異なり、患者が迅速に病院に搬送されると、インシデントの直後にCBCが行われるため、重要である。
【0087】
卒中発作を経験し、CUHに入院し、入院の1日以内にCBCを記録した5,036人の患者がいる。最初に、本発明者等は、CBCから所与のウィンドウ内に患者が死亡する可能性が高いかどうかを予測することに焦点を当てている。292人の患者が3日以内に、443人が7日以内に、602人が14日以内に、698人が21日以内に、765人が28日以内に、913人が60日以内に、976人が90日以内に死亡した。
【0088】
本発明者等は、これらのコホートの各々に対する血液バイオマーカーを考慮し、好中球数において統計学的に有意な差があることに気づいた。以下の図では、90日以内に死亡した全てのグループにおいて好中球数がどのように高くなっているかを示しているが、3日以内に死亡したグループにおいて最も上昇し、次に、その上昇は減衰している。
【0089】
【表3】
これは、より詳細なリッチCBCデータと共に好中球数を使用して、モデルを訓練し、卒中発作患者に対する起こり得る転帰を予測することができる可能性があることを示唆している。この分析は、当然ながら、心臓発作及び他の心血管疾患にまで及ぶ。
【0090】
II. 妊娠症例研究
妊娠中に全血算を行った女性についての妊娠研究では、以下のデータを使用している;初期段階(10週~14週)の女性348人、妊娠中期(26週~30週)の女性450人、及び妊娠後期(>=38週)の女性242人。複数のCBC結果がある場合は、最新のものを使用する。データセット内の全ての相関特徴をドロップし、データの2/3を表す開発データセットまで、5分割交差検証を使用して機械学習モデルをフィットさせ、残りの1/3を検査のためのホールドアウトセットとして使用する。
【0091】
妊娠初期と妊娠中期との識別については、0.76の特異度で0.63のホールドアウトの感度と共に、0.73の平均検証AUCを有する。妊娠初期と妊娠後期との識別については、0.70の特異度で0.60のホールドアウトの感度と共に、0.76の平均検証AUCを有する。最後に、妊娠中期と妊娠後期との識別については、0.66の特異度で0.70のホールドアウトの感度と共に、0.70の平均検証AUCを有する。これらのモデルは、妊娠の段階を分けるモデルに対する重要な特徴を特定するのを可能にする。特に、以下の3つの特徴がある。
【0092】
【表4】
また、INTERVAL及びCOMPARE研究からの同年齢の供血者と比較した場合に、妊娠期間を通じていくつかの血液パラメータにおいて統計学的に有意な差が認められる。
【0093】
【表5】
このことから、妊娠の進行を示すバイオマーカーを特定すると共に、女性に対する妊娠の段階を予測することができると考えられる。ドナー集団のそのような可変性を考慮すると、この技術によって、子癇前症及び妊娠誘発糖尿病を含む妊娠中の合併症を特定するのが可能になると考えられる。これらの妊娠マーカーには、ドナー集団と比較して全ての段階でそのような大きな差があるため、これは、妊娠を偶発的に特定するためのフラグとしても使用することができると考えられる。現在、このデータを偶発的に収集することは幸運であるため、どのくらい早くバイオマーカーが変化し始めるかは依然として明らかではない。
【0094】
III. 腎細胞がん症例研究
英国では毎年13,000人が腎細胞がん(RCC)を発症し、50%の5年生存率を有している(https://www.cancerresearchuk.org/health-professional/cancer-statistics/statistics-by-cancer-type/kidney-cancer#heading-Zero)。実質的には、これは、毎日英国では36人がRCCと診断され、その半数が5年以内に死亡することになるということを意味している。
【0095】
RCCの早期発見が最適な治療成果を達成する鍵となることがこれまでの研究で示されている。しかし、RCCの診断は依然として極めて困難であり、血尿、疼痛、及び腹部腫瘤という古典的な診断症状は現在では稀であると認識されている。また、他の症状があったとしても、曖昧で非特異的であり、発症が遅延する可能性がある。この疾患の潜行性の性質により、RCC症例の60%以上は、疾患が進行した段階にある時に偶然発見される(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7223292/)。
【0096】
血球細胞産生の制御因子であるエリスロポエチン(EPO)産生における腎臓の役割、及びCBC由来の血液指標がRCC患者の生存と相関しているというこれまでのエビデンスを考慮すると、全血算(CBC)測定データはRCCに関連する価値のある生物学的情報を有しており、疾患の早期発見及び診断につながる可能性があると仮定される。
【0097】
CUHのEpiCovデータセットにおいて、腎細胞がんと診断された2,585人のユニークな患者を特定することができた。このうち409人は2年以上の間隔を空けて複数の診断を受けており、他の腎臓の再発又は疾患を示唆していた。データセットに2,176人のユニークな患者/エピソードを残したまま、各患者のRCCのプライマリエピソードに焦点を当てることを選んだ。合計で12,793のCBCからのデータがこれらの患者に対して利用可能であった。
【0098】
原理証明分析では、各エピソードについてRCC診断に先立つ1年のウィンドウ内に行われた最初のCBC検査を採用した。これによって、「症例セット」(ここではRCC CBC検査と呼ぶ)に846のCBC検査が残った。対照セットについては、プライマリケア施設のみを受診し、病院には入院していない患者からの1.7MのCBC検査(すなわち、一般開業医CBCテスト(ここではGP CBCテストと呼ぶ))を特定した。クラス不均衡の問題を回避するために、GP CBC検査を1,692のセットまでランダムにダウンサンプリングして、ソース患者の年齢及び性別の分布がRCC CBC検査を提供した患者集団と類似していることを確実にする方法を使用して最終的な「対照セット」を形成した。合計で2,583のCBC検査からのデータを使用した。データセット内の相関性がない「高レベル」のCBC特徴のみを使用して、機械学習モデルをフィットさせ、5分割交差検証を使用して、RCC CBC対GP CBCを分類し、開発データセットはデータの2/3を表し、残りの1/3を検査のためのホールドアウトセットとして使用した。RCC CBCとGP CBCとの識別のために、0.81の平均検証AUC、並びに、0.64のホールドアウトの感度及び0.75の特異度を観察した。
【0099】
この分析によって、好中球数(NE#)、HCT(ヘマトクリット)、MPV(平均血小板体積)等、RCC患者と平均GP患者との間で異なるいくつかの重要なCBC検査特徴を特定するのが可能になった(
図8参照)。64%の検査感度は、現在報告されている40%の症状ベースのRCC検出率よりも劇的に改善されているため、これらの有望な初期結果は、CBCベースのRCC検出に関する調査をさらに正当化している。リッチレーザーCBC測定をモデルに追加し、本願において記載される完全な分析方法論による前処理(IV.機械間の標準化参照)を行うと、モデルのパフォーマンスが大幅に改善される可能性がある。さらに、モデルによってGP CBCとして誤って分類されたRCC CBCの調査では、62%が診断前の年の最初の6ヶ月からのもの、すなわちRCC診断の183日以上前に採取されたものであることが明らかになった。これは、進行したRCC疾患の可能性が低いことを意味している。電子ヘルスケア記録データを使用することで、どの疾患進行の段階でCBCデータを使用してRCCを検出することができるかをより適切に評価し、特定の疾患段階に焦点を当てたより良いモデル評価実験を構築することができる。
【0100】
IV. 機械間の標準化
CBCデータは、2つの主な根本原因のために本質的に乱雑である。第一に、採血から分析までの間の臨床診療は、血液に大きな変化をもたらす可能性がある。例えば、サンプルを分析前に長時間放置すると、WBC数は著しく減少し、サンプルに対する保存温度もサンプルに大きな影響を与える。第二に、CBC機器自体は、1日のうちの時刻、部屋の温度、機械が稼働している時間を含む多くの因子に応じてかなり可変である。
【0101】
本発明者等は、機械によるバイアスを除去するためにいくつかのアプローチを適用してきた。特に、本発明者等は、サンプル偏差を補正するために数学的スプラインの使用に基づくアプローチを考慮しており、機械、1日のうちの時刻、1年のうちの月、サンプル採取と分析との間の時間によるサンプルにおける偏差を補正するために、(Astle, Cell 2016)のアプローチに従っている。しかし、このアプローチは多くの機械に合うように調整されず、計算コストが高い。
【0102】
従って、本発明者等は、Robinson等のアプローチ(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7885941/)に従い、機械学習法を使用して、異なるドメイン下で不変の特徴を抽出する。これは、以前、結果として明確な予測タスクを有する画像データに適用されていた。本発明者等は、この方法をさらに発展させて、予測タスクへの依存性を取り除き、モデルアーキテクチャにオートエンコーダを組み込んだ。これらのうち第1の適応は、圧縮された表現が、訓練された1つのタスクだけでなく、他のタスクまで一般化されるのを可能にする。第2の適応は、潜在的な表現が元のデータに忠実であり続けることを確実にし、正則化の形態を確実にしている。このアプローチは、損失関数にさらなる項を追加するだけであるため、多くのドメインに合わせて調整される。また、ドメイン分類器ヘッドが、単に各ドメイン内の要素に等しい数の出力ニューロンを有する多層パーセプトロンであるため、各ドメイン内の多くの要素にも合わせて調整される。
【0103】
このモデルは、検査のため及び性別特定のために、2つの機械と共に、INTERVALデータ及びCOMPAREを使用して訓練され、モデルの感度は0.85から0.91に、特異度は0.88から0.93に改善された。モデルは、合成データを使用しても訓練されており、大きなブーストも観察されている。
【0104】
これを超えて、今では、大規模に国、メーカー、及び機械間でサンプルを標準化するために、パンデミック監視ツールにこのフレームワークを適用することができる。従って、血液の表現は、純粋にヒト血液サンプル間の不変の特徴であり、臨床的収集及び機械のバイアスの影響を受けない。
【国際調査報告】