(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-29
(54)【発明の名称】リキッドバイオプシーサンプルにおいて健康異常を検出する方法及びシステム
(51)【国際特許分類】
G01N 33/50 20060101AFI20240822BHJP
【FI】
G01N33/50 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024516782
(86)(22)【出願日】2022-09-15
(85)【翻訳文提出日】2024-03-13
(86)【国際出願番号】 EP2022075710
(87)【国際公開番号】W WO2023041676
(87)【国際公開日】2023-03-23
(32)【優先日】2021-09-15
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】524097953
【氏名又は名称】オックスフォード キャンサー アナリティクス リミティド
(74)【代理人】
【識別番号】100099759
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100114018
【氏名又は名称】南山 知広
(74)【代理人】
【識別番号】100153729
【氏名又は名称】森本 有一
(72)【発明者】
【氏名】チエン ルイ リウ
(72)【発明者】
【氏名】アンドレアス ハルナー
【テーマコード(参考)】
2G045
【Fターム(参考)】
2G045CA25
2G045CA26
2G045CB03
2G045CB04
2G045CB08
2G045CB22
2G045DA13
2G045DA36
2G045FA34
2G045FA36
2G045FB02
2G045FB03
2G045JA01
2G045JA03
2G045JA06
(57)【要約】
本開示は、リキッドバイオプシーに由来する検査データにおいて健康異常を検出するためのコンピュータ実行方法に関する。コンピュータ実行方法を取得する際に、関連する特徴を選択するための訓練データ及び検証データの特別な準備及び前処理を行い、健康異常の有無を予測する最終タスクに使用する性能の良い最終機械学習分類器を開発及び選択する。最後に、部分的にリキッドバイオプシーサンプルから取得される検査データを、選択した機械学習分類器に入力し、関連する患者が問題の健康異常を有するか否かのスクリーニング又は診断検査結果を提供する。
【特許請求の範囲】
【請求項1】
リキッドバイオプシーサンプルにおいて健康異常を検出するのに使用する機械学習分類器モデルのための訓練データを確立するコンピュータ実行方法であって、
複数のデータセットを受信することであって、データセットの各々は、それぞれの患者に関連する複数の特徴を含むことと、
健康異常の陽性検出に関連するm個の全ての訓練データセットを識別し、これらのデータセットに対してカーネル密度推定を実行し、続いて、健康異常陽性カーネル密度モデルから無作為に抽出されたp個のサンプルから構成される第1の「合成」データセットを作成することと、
健康異常がないことに関連するn個の全ての訓練データセットを識別し、これらのデータセットに対してカーネル密度推定を行い、その後、健康異常がないカーネル密度モデルから無作為に抽出されたq個のサンプルから構成される第2の「合成」データセットを作成することと、
前記第1の合成データセット及び前記第2の合成データセットを含む訓練データをコンパイルすることと、
前記訓練データの前記第1の合成データセット及び前記第2の合成データセットの各々の関連する特徴を識別することであって、前記関連する特徴又はそのような特徴の組合せは、健康異常の陽性徴候の閾値を超える尤度レベルを提供することと、
関連のない特徴を除去することにより前記訓練データを最適化すること、
を備えるコンピュータ実行方法。
【請求項2】
前記リキッドバイオプシーは、血液、尿、糞便、呼気又は痰のサンプルを含む、請求項1に記載のコンピュータ実行方法。
【請求項3】
受信した前記データセットは、DNA、疫学に基づくデータ、プロテオミクス、エピジェネティクス、揮発性有機分子、メタボロミクス及び/又はマイクロバイオ-ムに基づくデータのいずれか一つ以上を含む、請求項1~2のいずれか一項に記載のコンピュータ実行方法。
【請求項4】
前記関連する特徴は、リキッドバイオプシーにおいて見つけられる遊離分子、エクソソ-ム、及び/又は、アポト-シス体及び/又は細胞の形態の生物学的特徴を含む、請求項1~3のいずれか一項に記載のコンピュータ実行方法。
【請求項5】
受信した前記データセットは、再フォーマットされるとともに正規化される、請求項1~4のいずれか一項に記載のコンピュータ実行方法。
【請求項6】
前記関連する特徴を識別することは、線形次元削減又は非線形次元削減技術を実行することを更に備える、請求項1~5のいずれか一項に記載のコンピュータ実行方法。
【請求項7】
前記関連する特徴を識別することは、非線形特徴の相互作用を識別するために、コンパイルされた前記訓練データを様々なタイプの分類器に入力することによって、特徴の関連する組合せを識別することを更に備える、請求項1~6のいずれか一項に記載のコンピュータ実行方法。
【請求項8】
前記関連する特徴を識別することは、
特徴のランダム化されたサブセットをコンパイルすることであって、前記サブセットは、x個の特徴を含むことと、
ランダム化された前記サブセットを複数の異なる分類器モデルに入力することと、
検証セットにおいて、前記分類器が最小の既定のメトリックをもたらすことを可能にする特徴サブセットを選択すること、又は、トップパフォーマーの分類器特徴サブセットの割合を選択することと、
選択した前記特徴サブセットの少なくとも指定された割合で出現する特徴の異なるz個の可能な組合せについて、特定の特徴の組合せを含む全ての特徴サブセットに亘る分類器性能の平均低下に基づいて、そのような組合せに重要度を割り当てることであって、関連する特徴サブセットにおいて、特定の特徴の組合せの特徴の全てが削除される又は特定の組合せの特徴が非情報的となるように応答変数との関係で特徴の値が並べ替えられることと、
を更に備える、請求項1~7のいずれか一項に記載のコンピュータ実行方法。
【請求項9】
複数の異なる前記分類器モデルは、学習分類器システムを備える、請求項8に記載のコンピュータ実行方法。
【請求項10】
前記関連する特徴を識別することは、
コンパイルされた前記訓練データを複数の異なる学習分類器システムに入力することと、
関連する特徴サブセットにおいて、特定の特徴の組合せの特徴の全てが削除される又は特定の組合せの特徴が非情報的となるように応答変数との関係で特徴の値が並べ替えられるときに、特定の特徴の組合せを含む全ての特徴サブセットに亘る分類器性能の平均低下に基づいて、選択した特徴サブセットの少なくとも指定された割合で出現する特徴の組合せの各々に重要度を割り当てることと、
を更に備える、請求項1~7のいずれか一項に記載のコンピュータ実行方法。
【請求項11】
リキッドバイオプシーサンプルにおいて健康異常を検出するのに使用する機械学習分類器モデルを選択するコンピュータ実行方法であって、
請求項1~10のいずれか一項に記載の最適化された前記訓練データを使用して複数の異なる機械学習分類器モデルを訓練することを備えるコンピュータ実行方法。
【請求項12】
検証データセットをコンパイルすることであって、前記検証データセットは、識別された関連する特徴を含み、前記検証データセットは、最適化された前記訓練データセットに含まれるデータセットと等価ではないことと、
前記検証データセットについての訓練された機械学習分類器モデルの性能を評価することと、
複数の機械学習分類器モデルから一つ以上の機械学習分類器を選択することであって、選択した一つ以上の前記機械学習分類器は、正確に検出された健康異常の閾値を超えるパーセンテージをもたらすことと、
を更に備える、請求項11に記載のコンピュータ実行方法。
【請求項13】
k分割検証のためにk分割をコンパイルすることと、
k分割分割交差検証における検証分割の平均パフォ-マンスを評価することと、
複数の機械学習分類器モデルから一つ以上の機械学習分類器を選択することであって、選択した一つ以上の前記機械学習分類器は、正確に検出された健康異常の閾値を超えるパーセンテージをもたらすことと、
を更に備える、請求項11に記載のコンピュータ実行方法。
【請求項14】
検証データセットについての一つ以上の前記機械学習分類器の性能を受信者動作特性曲線によって評価することと、
前記受信者動作特性曲線の既定の感度比及び選択比を取得するために、選択した一つ以上の前記機械学習分類器のパラメ-タを最適化することと、
を更に備える、請求項12~13のいずれか一項に記載のコンピュータ実行方法。
【請求項15】
リキッドバイオプシーサンプルにおいて健康異常を検出するコンピュータ実行方法であって、
請求項1~9のいずれか一項に記載の識別された関連する特徴を含む検査データセットを受信することであって、前記検査データセットは、最適化された前記訓練データセットに含まれるデータセットと等価でなく、前記検査データセットは、少なくとも一つのリキッドバイオプシーサンプルに対応するデータを含むことと、
請求項11~14のいずれか一項に記載のように、前記検証データセットについての選択した一つ以上の前記機械学習分類器の性能を評価することと、
選択した一つ以上の前記機械学習分類器の出力を受信することであって、前記出力は、前記検査データセットに対応する前記リキッドバイオプシーサンプルにおける健康異常の存在を示すことと、
を備えるコンピュータ実行方法。
【請求項16】
前記出力は、前記健康異常の有無に対応する確率又は投票である、請求項15に記載のコンピュータ実行方法。
【請求項17】
前記分類器モデルは、サポートベクターマシン、ニューラルネットワーク、決定木、ランダムフォレスト、ブースティング木、ロジスティック回帰、ラッソ、k-最近傍及び/又はナイーブベイズのうちの一つ以上である、請求項1~16のいずれか一項に記載のコンピュータ実行方法。
【請求項18】
前記分類器モデルは、ミシガン型教師あり学習分類器システム又はピッツバーグ型教師あり学習分類器システムである、請求項1~16のいずれか一項に記載のコンピュータ実行方法。
【請求項19】
コンピュータ可読媒体に記憶されたコンピュータプログラム製品であって、コンピュータプロセッサによって実行されるとき、請求項1~18のいずれか一項に記載の方法を実行するコンピュータ実行可能な命令及び/又はデータを含む、コンピュータプログラム製品。
【請求項20】
入出力装置(301)と、
メモリ(305)と、
処理回路(303)と、
を備え、請求項1~18のいずれか一項に記載の方法を実行するように構成された、分析装置。
【発明の詳細な説明】
【技術分野】
【0001】
リキッドバイオプシーの医療スクリーニング及び診断検査は、健康異常、例えば、がんの存在を検出するためにしばしば使用される。現在のがん診断検査は、ほとんど画像診断によって腫瘍を「見る」能力に専ら焦点が当てられており、外科的切除が現在の標準治療において選択される根治的治療と考えられている。残念ながら、腫瘍内科におけるそのような管理は、他の疾患の管理方法に比べて遅れている。例えば、子宮外妊娠を血液ベースのバイオマーカーの検出又は超音波検査で 「見る 」ことによって診断できることがガイドラインで示されている。所定の閾値以上の血液バイオマーカーの存在は、子宮外妊娠の診断を確定するとともに直ちに治療を開始するのに十分である。最近の概念実証研究であるChen, X et al.(Non-invasive early detection of cancer four years before conventional diagnosis using a blood test. Nat Commun 11, 3475, doi:10.1038/s41467-020-17316-z (2020))は、リキッドバイオプシーが現在の絶対的基準より最大で4年早く無症状の早期がん症例を発見できることを実証した。
【発明の概要】
【発明が解決しようとする課題】
【0002】
がん管理戦略及びリキッドバイオプシーのような技術が進歩するに従って、診断を確定するために物理的にがんを視覚的に 「見る」ことからリキッドバイオプシーのような更に感度の高い分子レベルのツールに基づいてがんを 「見る」ことへのパラダイムシフトが生じる。リキッドバイオプシーは、分子バイオマーカーパネルを使用してがん患者に最も適した治療法を決定するのに役立つ可能性を更に秘めている。
【課題を解決するための手段】
【0003】
本開示は、リキッドバイオプシー由来の検査データにおいて健康異常を検出するためのコンピュータ実行方法に関する。本コンピュータ実行方法を取得する際に、機械学習分類器モデルの学習データを確立する。その後、複数の機械学習分類器から、健康異常を検出するための機械学習分類器が選択する。最後に、リキッドバイオプシーサンプルから部分的に得られる検査データを、選択した機械学習分類器に入力し、関連する患者が当該健康異常を有するか否かのスクリーニング又は診断検査結果を提供する。
【0004】
したがって、本明細書に記載した例示的な実施形態は、リキッドバイオプシーサンプルにおいて健康異常を検出するのに使用する機械学習分類器モデルのための訓練データを確立することを対象とする。方法は、複数のデータセットを受信することを備え、データセットの各々は、それぞれの患者に関連する複数の特徴を含む。方法は、健康異常の陽性検出に関連するm個の全ての訓練データセットを識別し、これらのデータセットに対してカーネル密度推定を実行し、続いて、健康異常陽性カーネル密度モデルから無作為に抽出されたp個のサンプルから構成される第1の「合成」データセットを作成することを更に備える。さらに、健康異常がないことに関連するn個の全ての訓練データセットを識別し、これらのデータセットに対してカーネル密度推定を行い、その後、健康異常がないカーネル密度モデルから無作為に抽出されたq個のサンプルから構成される第2の「合成」データセットを作成する。この方法では、p≧m、q≧nであり、p及びqの値及び比p:qは、臨床的背景及び検証データにおける健康異常の検出における分類器モデルの最適性能に基づいて値が選択されるパラメ-タである。方法は、健康異常陽性カーネル密度モデルから無作為に抽出されたp個のサンプルと健康異常のないカーネル密度モデルから無作為に抽出されたq個のサンプルの両方を含む訓練データをコンパイルすることを更に備える。方法は、訓練データの合成データセットの各々の関連する特徴を識別することを更に備え、関連する特徴又は又はそのような特徴の組合せは、健康異常の陽性徴候の閾値を超える尤度レベルを提供する。方法は、関連のない特徴を除去することにより訓練データを最適化することも備える。本開示の更なる例示的な実施形態によれば、方法は、検証データにおける分類器の性能によって決定されるように最適化された合成データセットのp及びqの値並びに関連する特徴サブセットを使用して(訓練データ及び検証データの組合せに基づく)合成データセットの分類器を再訓練することを更に備える。そのようにして再訓練された分類器を、検査セットの患者が健康異常を有するか否かを判定するために使用することができる。代替的には、本開示の更なる例示的な実施形態は、元のデータセット又は合成データセットの方法のいずれか一つ(p及びqの異なる値)のいずれかを使用して検証段階で関連性があると識別された任意の特徴を使用して、元の訓練データ及び検証データで分類器を再訓練することを備えてもよい。後者の実施形態では、機械学習分類器は、特定の臨床状況で起こり得るデータセットの不均衡の状況において、健康異常のある患者と健康異常のない患者を区別するために特に重要であると識別された特徴を選択してもよい。いくつかの実施形態において、この特徴選択の実施形態は、データセットの不均衡が生じた場合及び/又は健康異常又は健康異常の不在に関連する信号が弱い場合であっても、機械学習分類器の性能のロバスト性を増大することができる。選択した特徴を使用してそのように再訓練された分類器を、検査セット内の患者が所定の健康異常を有するか否かを判別するために使用することができる。
【0005】
例示的な実施形態のいくつかは、リキッドバイオプシーサンプルにおいて健康異常の検出に使用する機械学習分類器モデルを選択するコンピュータ実行方法を対象とする。方法は、本明細書に記載のように最適化された訓練データを使用して複数の異なる機械学習分類器モデルを訓練することを備える。
【0006】
例示的な実施形態のいくつかは、リキッドバイオプシーサンプルにおいて健康異常を検出するコンピュータ実行方法を対象とする。方法は、本明細書に記載されるように識別された関連特徴を含む検査データセットを受信することであって、検査データセットは、最適化された訓練データセットに含まれるデータセットと等価でなく、検査データセットは、少なくとも一つのリキッドバイオプシーサンプルに対応するデータを含むことを備える。方法は、検査データセットについての選択した機械学習分類器の性能を評価することを備える。方法は、選選択した一つ以上の前記機械学習分類器の出力を受信することであって、出力は、検査データセットに対応するリキッドバイオプシーサンプルにおける健康異常の存在を示すことを更に備える。
【0007】
本開示のコンピュータ実行方法において、p≧m、q≧n、及びpとqの値並びに比率p:qは、臨床的状況に基づいて値が初期化された後に検証データにおいて健康異常を検出する際の分類器モデルの性能を評価することによって更に最適化されるパラメ-タである。本実施形態における合成データセットの作成を、健康異常合成データセットの健康異常の有無の比率p:qを元のデータレコードの比率m:nと同一に保持しながら健康異常を検出する分類器モデルを訓練するためのデータセットのデータレコードの総数を増加させるために使用してもよい。代替的には、本実施形態における合成データセットの作成を、元のデータレコードの比率m:nと比較して健康異常合成データセットの健康異常の有無の比率p:qを修正するために使用しれてもよい。例えば、合成データセットは、所望に応じて、健康異常信号の表現を増幅する又は健康な(健康異常のない)信号の表現を増幅するように、健康異常のある患者とない患者の分布に歪みを与えてもよい。例えば、例示的な実施形態のいくつかによれば、多変量特徴空間における健康異常の信号対雑音比が強く、かつ、健康異常が陽性であるデータレコードの数mが多いが健康異常がないデータレコードの数nが少ない場合、合成データセットの比率p:qを、(p/m)<(q/n)となるように選択してもよい。例えば、前者において、m=500及びn=200の場合、合成データセットの数が元の学習データレコードの数より多くなるとともに多変量空間における健康異常合成データポイントの密度と比較した多変量空間における健康(健康異常なし)合成データポイントの密度が元のデータレコードにおける密度比より相対的に増加するように、pを750で初期化するとともにqを800で初期化することができる。これにより、分類モデルが健康な(健康異常のない)サンプルに対して十分な学習データを有することが保証される。別の例示的な実施形態では、健康異常が陽性である元のデータレコードの数が健康異常のない元のデータレコードの数に比べて少ない場合及び/又は多変量空間における健康異常の信号対雑音比が弱い場合、合成データセットp:qの比を、p<q又はp=q又はp>qで(p/m)>(q/n)となるように選択してもよい。例えば、m=200及びn=500の場合、pを400で初期化するとともにqを500で初期化してもよい又はpを1,000で初期化するとともにqを750で初期化してもよい。前者ではm<nのようにp<qであるのに対し、後者ではm<nであるがp>qであり、いずれの場合も(p/m)>(q/n)であるので、多変量空間における健常(健常異常なし)合成データ点の密度と比較した多変量空間における健常異常合成データ点の密度は、元のデータレコードにおける密度比に対して増加する。これにより、分類器モデルが健康異常の陽性サンプルに対して十分な学習データを持つことが保証される。上記を含むがそれに限定されない状況考察に基づくp及びqの初期化値の後、パラメ-タp,q及び比率p:qの正確な値は、検証セットにおける分類器モデルの性能を評価することによって最適化される。置換を伴うアンダーサンプリング又はオーバーサンプリングではなく、健康異常陽性カーネル密度モデル及び健康異常のないカーネル密度モデルから合成データセットを作成することにより、多数の合成データセットを作成することが可能になるとともに合成サンプルの中に現実的なノイズが存在することが保証され、その結果、健康異常のある患者と健康異常のない患者を区別する際に分類器のオーバーフィッティングを最小にする。最終的な特徴サブセットを、検証段階での性能に基づくpとqの最適値を有する特定の合成データセットを使用した検証データにおける機械学習分類器の性能によって決定してもよい。代替的には、最終的な特徴セットは、元のデータセット又は合成データセットの方法のいずれか一つ(pとqの異なる値)を使用して検証段階で関連するものとして選択した任意の特徴を含んでもよい。後者のアプローチでは、機械学習分類器は、所定の臨床状況で発生する可能性のある特定の形態のデータセットの不均衡の状況で健康異常のある患者と健康異常のない患者とを区別するために特に重要であると識別された特徴を選択してもよい。所定の状況において、この特徴選択アプローチは、データセットの不均衡が生じた場合及び/又は健康異常に関連する信号又は健康異常のないことに関連する信号が弱い場合であっても、機械学習分類器の性能のロバスト性を増大することができる。このように選択した特徴を使用して再訓練した分類器を、検査セットの患者が所定の健康異常を有するか否かを判別するために使用してもよい。
【0008】
DNAの例が突然変異、コピ-数の変化、再配列及び循環腫瘍DNA断片化サイズを含むことを理解すべきである。プロテオミクスの例は、タンパク質の量の表現とタンパク質の特定の翻訳後修飾の存在の両方を含む。タンパク質データは、リキッドバイオプシー中の特定のタンパク質及びタンパク質形態を識別するためのELISA又は他の免疫アッセイに基づく技術とリキッドバイオプシーに適用される様々なレベルの枯渇を伴う質量分析に基づく技術の両方に基づいてもよく、そのようなタンパク質及び/又はタンパク質の形態は、健康状態に異常がある組織では健康な組織と比較して増加/減少/制御されることが既に知られている又は数理生物学的モデルによって予測される。エピジェネティクスの例は、メチル化、アセチル化及びクロマチン修飾を含む。別の例は、リキッドバイオプシーサンプルに存在する細菌種又はウイルス種の定量的及び定性的な測定を含み、そのような細菌種は、特定の健康異常(例えば、悪性腫瘍)を発症しやすくなることと関連する又は関連しないことが知られている。リキッドバイオプシーが呼気サンプルである場合に揮発性有機分子の使用が呼気分析に有用であることを理解すべきである。
【0009】
例示的な実施形態のいくつかによれば、受信したデータセットの生物学的特徴の分析を実行する。分析は、血液、尿、糞便、呼気、喀痰等に含まれる腫瘍細胞及び血液、尿、糞便、呼気、喀痰等に含まれるエクソソ-ムから得られる物質と血液、尿、糞便、呼気スペクトル等に含まれる遊離分子の形態の両方であってもよい。
【0010】
例示的な実施形態のいくつかによれば、線形次元削減は、合成データセットに対する主成分分析(PCA)であってもよい(がそれに限定されない)(例えば、関連する特徴は、PCAにおいて最も高い変域をもたらす合成データセットの特徴である。)。
【0011】
例示的な実施形態のいくつかによれば、最小の既定のメトリックは、受信者動作特性曲線の下の面積、バランス精度、感度及び特異度のうちの少なくとも一つを含んでもよい。分類器性能の平均低下を、バランス精度のような指標を使用して決定してもよいが、それに限定されない。応答変数は、健康異常の有無を含んでもよい。
【0012】
いくつかの例示的な実施形態によれば、学習分類器システムは、ミシガン型教師あり学習分類器システム又はピッツバーグ型教師あり学習分類器システムであってもよい。
【0013】
閾値パーセンテージは、複数の機械学習分類器モデルの最高パーセンテージ又は正確に検出された健康異常の臨床使用パフォ-マンス測定基準(そのような測定基準は、受信者動作特性曲線の下の面積、感度、特異度、陽性予測値及び陰性予測値を含むが、それに限定されない。)に対して十分に高いパーセンテージである。
【0014】
いくつかの例示的な実施形態によれば、選択した機械学習分類器の性能を評価する方法を、本開示の任意のコンピュータ実行方法に関連して実行してもよい。
【0015】
いくつかの例示的な実施形態によれば、分類決定を、上述した分類器のいずれかの組合せからの投票に基づいて行ってもよい。
【0016】
ミシガン型教師あり学習分類器システム又はピッツバーグ型教師あり学習分類器システムの場合、 「専門家による知識発見」の一部として、学習を、専門家ベースのスコアによってガイドしてもよく、専門家ベースのスコアは、受信したデータセットの要素(請求項4のリキッドバイオプシー-含有物質のいずれかからの請求項3の要素)が健康異常のない患者からのリキッドバイオプシーサンプルと比較して健康異常のある患者からのリキッドバイオプシーサンプルにおいて増加若しくは減少している若しくは健康異常のない患者からの組織バイオプシーサンプルと比較して健康異常のある患者からの組織バイオプシーサンプルにおいて増加若しくは減少している程度から計算される、又は、健康異常の有無の状態における所定の要素の量の増加若しくは減少の理論的な数学的生物学的予測に基づいて計算される。
【図面の簡単な説明】
【0017】
【
図1】
図1は、本明細書に記載された例示的な実施形態のいくつかによるデータセットを使用する方法を示す例示的な概要である。
【0018】
【
図2】
図2は、本明細書に記載された例示的な実施形態のいくつかによるデータ記録の例示的な例である。
【0019】
【
図3】
図3は、本明細書に記載された例示的な実施形態のいくつかによる学習データの確立、機械学習分類器モデルの選択及びリキッドバイオプシーにおける健康異常の検出を行う装置を示す図である。
【0020】
【
図4】
図4は、本明細書に記載された例示的な実施形態のいくつかによるリキッドバイオプシーサンプルの健康異常の検出に使用する機械学習分類器モデルの学習データを確立するための例示的な工程のフロ-チャ-トである。
【0021】
【
図5】
図5は、本明細書に記載された例示的な実施形態のいくつかによるリキッドバイオプシーサンプルの健康異常の検出に使用する機械学習分類器モデルを選択するための例示的な工程のフロ-チャ-トである。
【0022】
【
図6】
図6は、本明細書に記載された例示的な実施形態のいくつかによるリキッドバイオプシーサンプルの健康異常を検出する例示的な工程のフロ-チャ-トである。
【0023】
【
図7】
図7は、Cohen et al. (“Detection and localization of surgically resectable cancers with a multi-analyte blood test.” Science. 2018 Feb 23;359(6378):926-930. doi: 10.1126/science.aar3247)データセットを使用したがんタイプの各々についての訓練中に使用されたKDEベースのサンプル数を示す表である。
【0024】
【
図8】
図8は、元のデータ、KDE法及び最終的な結合特徴セットを使用して選択したタンパク質の数を示す表である。
【0025】
【
図9】
図9は、全体的な特異度の閾値が99%である場合のがんのタイプ及びステージによる28個のタンパク質結合特徴セットを使用したランダムフォレストモデルの検査セット感度を示す表である。
【0026】
【
図10】
図10は、Cohen et al.データセットの201人のがん患者と163人のがんのない患者とを区別するための検査セットの受信者動作特性曲線と受信者動作特性曲線の下の面積(AUC)を示すグラフである。
【0027】
【
図11】
図11は、全体的な特異度の閾値が99%である場合のがんのタイプ及びステージによるCohen et al.によって報告されたクロスバリデ-ション感度を示す表である。
【0028】
【
図12】
図12は、Blume et al (“Rapid, deep and precise profiling of the plasma proteome with multi-nanoparticle protein corona.” Nat Commun. 2020 Jul 22;11(1):3662. doi: 10.1038/s41467-020-17033-7)データセットを使用した肺がんの有無の分類の訓練中に使用されたKDEベースのサンプル数を示す表である。
【0029】
【
図13】
図13は、元のデータ、KDE法及び最終的な結合特徴セットを使用して選択したタンパク質の数を示す表である。
【0030】
【
図14A】
図14Aは、Blume et alのスピオン又は枯渇血漿データの各々に対する最適化ランダムフォレスト分類器モデルの31個の患者検査セットの性能を示す受信者動作特性曲線及び受信者動作特性曲線の下の面積(AUC)を示すグラフである。
【
図14B】
図14Bは、Blume et alのスピオン又は枯渇血漿データの各々に対する最適化ランダムフォレスト分類器モデルの31個の患者検査セットの性能を示す受信者動作特性曲線及び受信者動作特性曲線の下の面積(AUC)を示すグラフである。
【
図14C】
図14Cは、Blume et alのスピオン又は枯渇血漿データの各々に対する最適化ランダムフォレスト分類器モデルの31個の患者検査セットの性能を示す受信者動作特性曲線及び受信者動作特性曲線の下の面積(AUC)を示すグラフである。
【
図14D】
図14Dは、Blume et alのスピオン又は枯渇血漿データの各々に対する最適化ランダムフォレスト分類器モデルの31個の患者検査セットの性能を示す受信者動作特性曲線及び受信者動作特性曲線の下の面積(AUC)を示すグラフである。
【
図14E】
図14Eは、Blume et alのスピオン又は枯渇血漿データの各々に対する最適化ランダムフォレスト分類器モデルの31個の患者検査セットの性能を示す受信者動作特性曲線及び受信者動作特性曲線の下の面積(AUC)を示すグラフである。
【
図14F】
図14Fは、Blume et alのスピオン又は枯渇血漿データの各々に対する最適化ランダムフォレスト分類器モデルの31個の患者検査セットの性能を示す受信者動作特性曲線及び受信者動作特性曲線の下の面積(AUC)を示すグラフである。
【発明を実施するための形態】
【0031】
添付図面に例示した例示的な実施形態を詳細に参照する。以下の説明は、添付図面を参照し、異なる図面における同一の番号は、他に表されていない限り同一又は類似の要素を表す。例示的な実施形態に関する以下の説明に記載した実施形態は、本発明と一致する全ての実施形態を表すものではない。むしろ、それらは、添付の特許請求の範囲に記載された本発明に関連する態様と一致する装置及び方法の単なる例である。
【0032】
開示した実施形態は、健康異常を検査する診断方法に機械学習技術を適用する方法及びシステムに関する。本明細書に記載した例示的な実施形態は、部分的にリキッドバイオプシーに由来する検査データに基づいてスクリーニング又は診断検査結果を提供するシステムの確立を対象とする。スクリーニング又は診断システムの確立において、例示的な実施形態のいくつかは、訓練データの生成及び最適化を対象とする。その後、例示的な実施形態は、スクリーニング又は診断検査を提供するために、複数の可能な機械学習分類器から(一つ以上の)機械学習分類器を選択する手段を更に備える。最後に、本明細書に記載した例示的な実施形態のいくつかは、特定の患者に関連するリキッドバイオプシーから部分的に取得した検査データに関するスクリーニング又は診断検査結果の提供を対象とする。本明細書に記載したスクリーニング又は診断は、関連する患者が問題の健康異常を有するか否かに関する表示である。
【0033】
本明細書では、例示的な健康異常として肺がんを使用して例示的な実施形態を説明する。しかしながら、本明細書に記載した例示的な実施形態を自己免疫疾患及び神経変性状態と同様に任意の他の形態のがんに適用してもよいことを理解すべきである。本明細書に記載したようなリキッドバイオプシーが血液、尿、糞便、呼気又は痰のサンプルを含んでもよいことも理解すべきである。
【0034】
リキッドバイオプシーサンプルから健康異常を判定するとともにそのためのシステムを確立する際に、様々な形態のデータを使用した機械学習技術を採用してもよい。
図1は、本明細書に記載した例示的な実施形態のいくつかによるデータの利用方法の概要を提供する。様々なデータセット101、例えば、訓練データセット、検証データセット及び検査データセットを使用してもよい。各データセットは、任意の数のデータレコードを含んでもよく、各データレコードは、複数の特徴を含んでもよい。訓練データセット及び検証データセット103を、診断を行うるための(一つ以上の)機械学習分類器の選択及び最適化に利用してもよい。
【0035】
訓練データセットは、複数の既知の陽性症例又は健康異常を有することが既知である患者に関連するデータを特徴とするデータレコードを含む。訓練データセットは、健康な患者又はそのデータが問題の健康異常について否定的な結果をもたらす患者に関連する複数のデータレコードを更に含む。例示的な実施形態のいくつかによれば、合成データセットが元のデータレコードと異なる数の健康異常のある症例及び健康異常のない症例並びに元のデータレコードと異なる比率の健康異常のある症例に対する対健康異常のない症例を含んでもよくなるように、カーネル密度推定を実行するとともに健康異常の陽性検出カーネル密度モデル及び健康異常のないカーネル密度モデルからサンプルを抽出することによって合成データセットを作成する。
【0036】
検証データセットは、機械分類モデルを選択するために使用される。検証データセットは、健康異常陽性検出カーネル密度モデルによる合成データセットの数及び健康異常のないカーネル密度モデルによる合成データセットの数を最適化するためにも使用される。検証データセットは、例えば、特定の感度及び特異度比のような所望のメトリックを提供するために、選択した機械分類モデルのパラメ-タを調整するためにも使用される。 検査データセットは、最終化された機械分類器モデルで検査されるデータ又は患者を含んでもよい。
【0037】
訓練データセット及び検証データセット103は、示すように二つの別個のセットであってもよく、代替的に、「検査セット」が最初に「合計データ」から分割されるとともにデータの残りがさまざまな訓練-検証スプリットに分割されるk分割交差検証を使用してもよい。
【0038】
「検証セット」又は「検証分割」でのパフォーマンスに基づいて決定された最終的な機械分類器モデル((一つ以上の)分類器のタイプ及び特定の特徴の組合せ)は、これまで訓練ステップ及び検証ステップの一部として一切使用されていない「検査セット」について評価される。
【0039】
検査データセット105は、選択されるとともに最適化された機械分類モデルを使用して検査されるデータセットである。検査データセット105は、訓練データセット及び検証データセット103と同様の方法でフォーマットされる。機械分類モデルは、検査データセット105に関連する患者が問題の健康異常を有するか否かについての分析を行う。
【0040】
単一の機械学習分類器が選択されてもよい又は機械学習分類器の組合せを採用してもよいことを理解すべきである。機械学習システムが確立されると、特定の患者に関連する検査データ105が、選択した機械学習分類器に入力され、その結果、健康異常の有無に関する判定が出力として提供される。
【0041】
図2は、データレコード200の例示である。訓練データ、検証データ及び検査データの全ては、
図2に示す例の形態をとってもよい。例示的な実施形態のいくつかによれば、データレコードは、特定の患者に固有の情報を含んでもよい。
図2の例では、患者は、ジョン ドウである。データレコードは、ジョン ドウに関連する様々な特徴又は変数を含んでもよい。例えば、データレコード200に示す二つの特徴は、ジョン ドウの年齢及び性別であり、それぞれ65歳及び男性である。
【0042】
他の例示的な変数又は特徴は、リキッドバイオプシーサンプル中に存在する又は異常組織に応答して免疫系により産生されるタンパク質である循環タンパク質(例えば、プロラクチン、インタ-ロイキン-6、OPG、CEA、メソセリン、CA 15-3、カリクレイン-6、ミッドカイン、アンジオポエチン-6、フォリスタチン及びTGFa)を含む。さらに、変数は、リキッドバイオプシーサンプルに存在する健康異常に関連する変異(例えば、通常腫瘍の発生抑制に関与する遺伝子TP53の変異)を有する循環DNA断片の存在及び/又は量を含む。変数は、遺伝子発現を制御するエピジェネティックなDNA修飾の存在及び/又は量も含む。メチル化は、そのような「エピジェネティック」な変化の一例であり、所定の疾患状態(例えば、NTSR1遺伝子の高メチル化の存在)と関連する可能性がある。
【0043】
図3は、本明細書に記載された学習データの生成、機械学習分類器の選択及び最適化並びに診断検査を行うように構成された分析装置300のハ-ドウェア構成例である。装置300は、データ、命令又はメッセ-ジを受信及び/又は送信するように構成された入出力装置301を備えてもよい。入出力装置301が当該技術分野において公知の任意の入出力通信ポ-トの形態であってよいことを理解すべきである。装置300は、処理回路303を更に備えてもよい。処理回路303は、任意の適切なタイプの計算装置、例えば、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)若しくは特定用途向け集積回路(ASIC)又は他の任意の形態の回路であってよい。分析装置300は、任意の適切なタイプのコンピュータ可読メモリであってよい又は揮発性及び/又は不揮発性タイプであってよい記憶装置305をさらに含んでよい。メモリ303は、受信、送信及び/又は測定したデータ及び/又は実行可能なプログラム命令を記憶するように構成されてもよい。
【0044】
図4は、機械分類器モデルの学習データを確立する際に本明細書に記載された装置300が行ってもよい工程の例を示す流れ図である。
図4が実線の枠で示すいくつかの工程及び破線の枠で示すいくつかの工程を含むことを理解すべきである。実線の枠で囲まれた工程は、最も広範な実施形態例で構成される工程である。 破線の枠で囲まれた工程は、枠の例示的な実施形態の動作に加えて構成されてもよい、その一部であってもよい又は更に行ってもよい工程である例示的な実施形態である。また、動作を任意の順序及び任意の組合せで実行してもよいことを理解すべきである。
【0045】
工程401
【0046】
例示的な実施形態は、複数のデータセットを受信することであって、データセットの各々は、それぞれの患者に関連する複数の特徴を含むことを備える。入出力装置301は、複数のデータセットを受信するように構成される。
【0047】
例示的な実施形態のいくつかによれば、データセットを、
図2に描かれているようにフォーマットしてもよい。このデータが機械分類器モデルの訓練データを確立するために使用されるので、データセットの各々に関連する患者が健康異常を有するか否かは既知である。データセットは、リキッドバイオプシーサンプルに関連する。例示的な実施形態のいくつかによれば、リキッドバイオプシーサンプルは、血液、尿、糞便、呼気又はスペクトルの形態であってもよい。
【0048】
例示的な実施形態のいくつかによれば、受信したデータセットは、DNA、疫学に基づくデータ、プロテオミクス、エピジェネティクス、揮発性有機分子、メタボロミクス及び/又はマイクロバイオ-ムに基づくデータのいずれか一つ以上を含む。DNAの例が突然変異、コピ-数の変化、再配列及び循環腫瘍DNA断片化サイズを含むことを理解すべきである。プロテオミクスの例は、タンパク質の量とタンパク質の特定の翻訳後修飾の存在及び量の両方を含んでもよい。タンパク質データは、リキッドバイオプシーの特定のタンパク質及びタンパク質形態を識別するためのELISA又は他の免疫アッセイに基づく技術とリキッドバイオプシーに適用される様々なレベルの枯渇を伴う質量分析に基づく技術の両方に基づいてもよい。エピジェネティクスの例は、メチル化、アセチル化及びクロマチン修飾を含んでもよい。別の例は、リキッドバイオプシーサンプルに存在する細菌種又はウイルス種の定量的測定及び定性的測定を含み、そのような細菌種は、特定の健康異常(例えば、悪性腫瘍)を発症しやすくなることと関連する又は関連しないことが知られている。リキッドバイオプシーが呼気サンプルである場合に揮発性有機分子の使用が呼気分析に有用であることを理解すべきである。
【0049】
例示的な実施形態のいくつかによれば、受信したデータセットの生物学的特徴の分析を行う。分析は、血液、尿、糞便、呼気、喀痰等に含まれる腫瘍細胞及び血液、尿、糞便、呼気、喀痰等に含まれるエクソソ-ムから得られる物質と血液、尿、糞便、呼気スペクトル等に含まれる遊離分子の形態の両方であってもよい。
【0050】
工程403
【0051】
例示的な実施形態は、受信したデータセットのうちの健康異常の陽性検出に関連するデータセットを識別することを更に備える。処理回路303は、健康異常の陽性検出に関連するデータセットを識別するように構成される。上述したように、訓練データをコンパイルするために使用される取得したデータは、既知の患者からの情報を特徴付け、したがって、健康異常を有する患者は予め知られている。
【0052】
工程405
【0053】
例示的な実施形態は、健康異常の陽性検出に関連するm個の全ての訓練データセットを識別し、これらのデータセットに対してカーネル密度推定を実行し、続いて、健康異常陽性カーネル密度モデルから無作為に抽出されたp個のサンプルから構成される第1の「合成」データセットを作成することを更に備える。さらに、健康異常がないことに関連するn個の全ての訓練データセットを識別し、これらのデータセットに対してカーネル密度推定を実行され、健康異常がないカーネル密度モデルからランダムに引き出されたq個のサンプルからなる第2の「合成」データセットを作成する。処理回路303は、これまで説明したように、カーネル密度推定を実行するとともにカーネル密度モデルからサンプルを抽出するように構成され、その結果、複数の合成データセットが得られる。
【0054】
例示的な実施形態のいくつかによれば、p>m及び/又はq>n及び/又は比p:qが比m:nとは異なる。p及びqの値並びに比p:qは、臨床的状況に基づいて初期化された後に検証データにおいて健康異常を検出する際の分類器モデルの性能を評価することによって更に最適化されるパラメ-タである。本実施形態における合成データセットの作成を、健康異常合成データセットの健康異常の有無の比率p:qを元のデータレコードの比率m:nと同一に保持しながら健康異常を検出する分類器モデルを訓練するためのデータセットのデータレコードの総数を増加させるために使用してもよい。代替的には、本実施形態における合成データセットの作成を、元のデータレコードの比率m:nと比較して健康異常合成データセットの健康異常の有無の比率p:qを修正するために使用しれてもよい。例えば、合成データセットは、所望に応じて、健康異常信号の表現を増幅する又は健康な(健康異常のない)信号の表現を増幅するように、健康異常のある患者とない患者の分布に歪みを与えてもよい。例えば、例示的な実施形態のいくつかによれば、多変量特徴空間における健康異常の信号対雑音比が強く、かつ、健康異常が陽性であるデータレコードの数mが多いが健康異常がないデータレコードの数nが少ない場合、合成データセットの比率p:qを、(p/m)<(q/n)となるように選択してもよい。例えば、前者において、m=500及びn=200の場合、合成データセットの数が元の学習データレコードの数より多くなるとともに多変量空間における健康異常合成データポイントの密度と比較した多変量空間における健康(健康異常なし)合成データポイントの密度が元のデータレコードにおける密度比より相対的に増加するように、pを750で初期化するとともにqを800で初期化することができる。これにより、分類モデルが健康な(健康異常のない)サンプルに対して十分な学習データを有することが保証される。別の例示的な実施形態では、健康異常が陽性である元のデータレコードの数が健康異常のない元のデータレコードの数に比べて少ない場合及び/又は多変量空間における健康異常の信号対雑音比が弱い場合、合成データセットp:qの比を、p<q又はp=q又はp>qで(p/m)>(q/n)となるように選択してもよい。例えば、m=200及びn=500の場合、pを400で初期化するとともにqを500で初期化してもよい又はpを1,000で初期化するとともにqを750で初期化してもよい。前者ではm<nのようにp<qであるのに対し、後者ではm<nであるがp>qであり、いずれの場合も(p/m)>(q/n)であるので、多変量空間における健常(健常異常なし)合成データ点の密度と比較した多変量空間における健常異常合成データ点の密度は、元のデータレコードにおける密度比に対して増加する。これにより、分類器モデルが健康異常の陽性サンプルに対して十分な学習データを持つことが保証される。上記を含むがそれに限定されない状況考察に基づくp及びqの初期化値の後、パラメ-タp,q及び比率p:qの正確な値は、検証セットにおける分類器モデルの性能を評価することによって最適化される。置換を伴うアンダーサンプリング又はオーバーサンプリングではなく、健康異常陽性カーネル密度モデル及び健康異常のないカーネル密度モデルから合成データセットを作成することにより、多数の合成データセットを作成することが可能になるとともに合成サンプルの中に現実的なノイズが存在することが保証され、その結果、健康異常のある患者と健康異常のない患者を区別する際に分類器のオーバーフィッティングを最小にする。
【0055】
例示的な実施形態のいくつかによれば、最終的な特徴サブセットを、検証段階での性能に基づくpとqの最適値を有する特定の合成データセットを使用した検証データにおける機械学習分類器の性能によって決定してもよい。代替的には、最終的な特徴セットは、元のデータセット又は合成データセットの方法のいずれか一つ(pとqの異なる値)を使用して検証段階で関連するものとして選択した任意の特徴を含んでもよい。後者のアプローチでは、機械学習分類器は、所定の臨床状況で発生する可能性のある特定の形態のデータセットの不均衡の状況で健康異常のある患者と健康異常のない患者とを区別するために特に重要であると識別された特徴を選択してもよい。所定の状況において、この特徴選択アプローチは、データセットの不均衡が生じた場合及び/又は健康異常に関連する信号又は健康異常のないことに関連する信号が弱い場合であっても、機械学習分類器の性能のロバスト性を増大することができる。このように選択した特徴を使用して再訓練した分類器を、検査セットの患者が所定の健康異常を有するか否かを判別するために使用してもよい。
【0056】
工程407
【0057】
例示的な実施形態は、複数の合成データセットを含む訓練データをコンパイルすることを更に備える。処理回路303は、複数の合成データセットを含む訓練データをコンパイルするように構成される。したがって、本明細書で使用される訓練データは、合成データセットを含み、健康異常を有する患者に関するカーネル密度モデルに関連するデータセットは、分類器に最適な合成データセットの健康異常の有無の比率の合成データセットに応じて、元のデータレコードと比較して、健康異常のない患者に関連するデータセットより多く又は少なく使用される。
【0058】
工程409
【0059】
例示的な実施形態は、訓練データの合成データセットの各々の関連する特徴を識別することであって、関連する特徴又は特徴の組み合わせは、健康異常の肯定的な徴候の閾値を超える尤度のレベルを提供することを備える。
【0060】
図2に示すように、各データレコードは、それぞれの患者に関連する複数の特徴を含む。それぞれの患者が健康異常を有するか否かを判定するプロセスを最適化するために、データレコードごとに必要な処理の必要性を低減するために関連性がないとみなされる特徴をデータレコードから削除してもよい。
【0061】
例示的な工程411
【0062】
例示的な実施形態のいくつかによれば、関連する特徴を識別すること(工程409)は、(例えば、関連する特徴がPCAにおいて最も高い変数をもたらす合成データセットの特徴である場合に)合成データセットについて主成分分析(PCA)のような線形次元削減を実行すること又は非線形次元削減技術を実行することを備えてもよい。処理回路303は、合成データセットについて次元削減を実行するように構成されてもよい。
【0063】
例示的な工程415
【0064】
例示的な実施形態のいくつかによれば、関連する特徴を識別すること(工程409)は、非線形フィーチャーインタラクションを識別するために、コンパイルされた訓練データを様々な分類器モデルに入力することによって、関連する特徴を識別することを備えてもよい。処理回路303は、非線形フィーチャーインタラクションを識別するために、コンパイルされた訓練データを様々な分類器モデルに入力するように構成されてもよい。
【0065】
例示的な実施形態のいくつかによれば、x個の特徴(xはサブセットごとに異なる値をとることがあるが全ての場合においてx<特徴の総数y)を含むランダム化された特徴のサブセットを最初にコンパイルしてもよい(例示的な工程414)。これらのランダム化されたサブセットを、非線形フィーチャーインタラクションを識別するための様々な分類器モデルに入力してもよい。特徴xのそのようなランダム化されたサブセットの使用は、特に、特徴の総数yが訓練データセットの総数を超える場合にオーバーフィッティングを防止しながら更に多くの特徴の組合せの検査を可能にしてもよい。
【0066】
例示的な実施形態のいくつかによれば、複数の異なる分類器モデルは、学習分類器システムをそなえる。学習分類器システムは、ミシガン型教師あり学習分類器システム又はピッツバーグ型教師あり学習分類器システムであってもよい。
【0067】
例示的な工程417
【0068】
例示的な実施形態のいくつかによれば、ランダム化されたサブセットのコンパイル(例示的な工程413)及び/又はサブセットの異なる分類器モデルへの入力(例示的な工程415)の際に、関連する特徴を識別すること(工程409)は、検証セットにおいて、前記分類器が最小の既定のメトリック(例えば、バランス精度、感度、特異度)をもたらすことを可能にする特徴サブセットを選択すること、又は、トップパフォーマーの分類器特徴サブセットの割合を選択することを更に備えてもよい。次に、選択した特徴サブセットの少なくとも指定された割合で出現する特徴の異なる組合せ(組合せにおける特徴の数は1からxの範囲であってもよい。)が記録され、そのような組合せの総数zが記録される。次に、z個の特徴の組合せのそれぞれに重要度を割り当てる。処理回路303は、例えば、関連する特徴サブセットにおいて特定の特徴の組合せの特徴の全てが削除されるとき又は特定の組合せの特徴が非情報的になるように応答変数(健康異常の有無)に関連して特徴の値が並べ替えられたときに特定の特徴の組合せを含む全ての特徴サブセットに亘る(バランス精度のようなメトリックを使用するがそれに限定されない)分類器の性能の平均低下に基づいてz個の特徴の組合せの各々に重要度を割り当てるように構成されてもよい。したがって、(分類器が健康異常の有無を区別できるようにするための)重要度は、個々の特徴だけでなく選択した特徴サブセットの少なくとも指定された割合の一部である特徴の特定の組合せにも割り当てられる。
【0069】
工程425
【0070】
例示的な実施形態は、関連のない特徴を除去することにより訓練データを最適化することを更に備える。処理回路303は、関連のない特徴を除去することにより訓練データを最適化するように構成される。
【0071】
図5は、上述した最適化された訓練データを使用して機械学習分類器モデルを選択及び訓練する際に分析ユニット300によって実行してもよい例示的な操作を示す。
図5が実線の枠で示すいくつかの工程及び破線の枠で示すいくつかの工程を含むことを理解されたい。実線の枠で囲まれた工程は、最も広範な実施形態例で構成される工程である。 破線の枠で囲まれた工程は、枠の例示的な実施形態の動作に加えて構成されてもよい、その一部であってもよい又は更に行ってもよい工程である例示的な実施形態である。また、動作を任意の順序及び任意の組合せで実行してもよいことを理解すべきである。
【0072】
工程501
【0073】
例示的な実施形態は、上述した最適化された訓練データを使用して複数の異なる機械学習分類器モデルを訓練することを備える。処理回路303は、上述した最適化された訓練データを使用して複数の異なる機械学習分類器モデルを訓練するように構成される。
【0074】
例示的な工程503
【0075】
例示的な実施形態のいくつかによれば、訓練(工程501)は、検証データセットをコンパイルすることであって、検証データセットは、識別された関連する特徴を含み、検証データセットは、最適化された訓練データセットに含まれるデータセットと等価ではないことを更に備える。処理回路303は、検証セットをコンパイルするように構成されてもよい。
図1で説明したように、検証データセットは、訓練データとは別個のものであり、検証データセットを、分類器モデルを更に最適化するために使用してもよい。検証データセットを
図2で提供された例と同一の形式で構成してもよいことを理解すべきである。
【0076】
例示的な工程505
【0077】
例示的な実施形態のうちのいくつかは、検証データセットについての訓練された機械学習分類器モデルの性能を評価することを更に備える。処理回路303を、検証データセットについての訓練された機械学習分類器モデルの性能にアクセスするように構成してもよい。
【0078】
訓練データの場合と同様に、検証データセットのデータレコードが既知の患者に関連付けられていることを理解すべきである。したがって、患者に対して健康異常による影響が及ぼされているか否かは事前に知られている。したがって、機械学習分類モデルの精度を、検証データセットを使用して決定してもよい。
【0079】
例示的な工程507
【0080】
例示的な実施形態のいくつかは、複数の機械学習分類器モデルから一つ以上の機械学習分類器を選択することであって、選択した一つ以上の機械学習分類器は、正確に検出された健康異常の閾値を超えるパーセンテージをもたらすことを更に備える。処理回路303は、複数の機械学習分類器モデルから(一つ以上の)機械学習分類器を選択するように構成されてもよい。例示的な実施形態のいくつかによれば、正確に検出された健康異常のパーセンテージが最も高い(一つ以上の)機械学習分類器を選択してもよい。
【0081】
例示的な工程509
【0082】
例示的な実施形態のいくつかは、検証データセットについての一つ以上の前記機械学習分類器の性能を受信者動作特性曲線によって評価することを更に備えてもよい。処理回路303は、検証データセットについての一つ以上の前記機械学習分類器の性能を受信者動作特性曲線によって評価するように構成される。
【0083】
例示的な工程511
【0084】
例示的な実施形態のいくつかは、受信者動作特性曲線の既定の感度比及び選択比を取得するために、選択した一つ以上の機械学習分類器のパラメ-タを最適化することを更に備える。処理回路303を、例えば、信者動作特性曲線の既定の感度比及び選択比を取得するために、選択した一つ以上の機械学習分類器のパラメ-タを最適化するように構成してもよい。異なる応用に対して異なる比率を適用してもよいことを理解すべきである。例えば、所定の臨床応用(例えば、現在の標準治療を改善する目的、及び/又は、特定の医療システムのコンテキスト内で費用対効果を達成する目的)に必要な閾値を選択することができる。我々の研究からの一例は、特異度を99%に固定し、特異度を99%に維持しながら達成できる感度を識別することである。対照的な例は、特異度を犠牲にして感度を最大にする代わりに特異度が所定の閾値、例えば、80%特異度を下回らないようにすることである。第3のアプローチは、感度と特異度のいずれか一方を最大にするとともに他方を犠牲にすることである。
【0085】
例示的な工程513
【0086】
例示的な実施形態のいくつかは、k分割バリエーションをコンパイルすることを備える。処理回路を、k分割バリエーションをコンパイルするように構成してもよい。k分割は、k個の訓練-検証分割である、すなわち、検査セットデータが残りから分離された後、残りのデータ(
図1の103)は、訓練-検証スプリットに分割される。 例えば、5分割交差検証では、
図1のデータセット103は、4/5訓練/1/5検証データの5シャッフルで構成される。10分割交差検証では、
図1のデータセット103は、9/10訓練/1/10検証データ等の10シャッフルで構成される。
【0087】
例示的な工程515
【0088】
例示的な実施形態のいくつかは、k分割交差検証における検証分割の平均パフォ-マンスを評価することを更に備える。処理回路303を、k分割交差検証における検証分割の平均パフォ-マンスを評価するように構成してもよい。
【0089】
例示的な工程517
【0090】
例示的な実施形態のいくつかは、複数の機械学習分類器モデルから一つ以上の機械学習分類器を選択することであって、選択した一つ以上の機械学習分類器は、正確に検出された健康異常の閾値を超えるパーセンテージをもたらすことを備える。処理回路303を、複数の機械学習分類器モデルから一つ以上の機械学習分類器を選択するように構成してもよい。例示的な実施形態のいくつかによれば、正確に検出された健康異常のパーセンテージが最も高い(一つ以上の)機械学習分類器を選択してもよい。
【0091】
図6は、上述した選択した機械学習分類器を使用して検査データセット内の健康異常を検出する際に分析ユニット300によって実行してもよい例示的な工程を示す。
【0092】
工程601
【0093】
実施形態は、上述したように識別された関連する特徴を含む検査データセットを受信することを備える。検査データセットは、最適化された訓練データセットに含まれるデータセットとも等価でない。検査データセットは、少なくとも一つのリキッドバイオプシーに対応するデータを含む。入出力装置301を、述したように識別された関連する特徴を含む検査データセットを受信するように構成してもよい。検証データセットを
図2で提供された例と同一の形式で構成してもよいことを理解すべきである。例示的な実施形態のいくつかによれば、検査データセットのデータレコードは、
図4に関連して説明したように、識別された関連する特徴を含んでもよい。
【0094】
いくつかの例示的な実施形態によれば、分類器モデルは、サポートベクターマシン、ニューラルネットワーク、決定木、ランダムフォレスト、ブースティング木、ロジスティック回帰、ラッソ、k-最近傍及び/又はナイーブベイズのうちの一つ以上である。分類決定を上述した分類器のいずれかの組合せからの投票に基づいて行われることを理解すべきである。
【0095】
例示的な実施形態のいくつかによれば、分類器モデルは、ミシガン型教師あり学習分類器システム又はピッツバーグ型教師あり学習分類器システムである。ミシガン型教師あり学習分類器システム又はピッツバーグ型教師あり学習分類器システムの場合、 「専門家による知識発見」の一部として、学習を、専門家ベースのスコアによってガイドしてもよく、専門家ベースのスコアは、受信したデータセットの要素が健康異常のない患者からのリキッドバイオプシーサンプルと比較して健康異常のある患者からのリキッドバイオプシーサンプルにおいて増加若しくは減少している若しくは健康異常のない患者からの組織バイオプシーサンプルと比較して健康異常のある患者からの組織バイオプシーサンプルにおいて増加若しくは減少している程度から計算される、又は、健康異常の有無の状態における所定の要素の量の増加若しくは減少の理論的な数学的生物学的予測に基づいて計算される。
【0096】
工程603
【0097】
例示的な実施形態は、上述したように、検証データセットについての選択した(一つ以上の)機械学習分類器モデルの性能を評価することを更に備える。処理回路303は、選択した機械学習分類器の性能を評価するように構成される。
【0098】
工程605
【0099】
例示的な実施形態は、選択した一つ以上の機械学習分類器の出力を受信することであって、出力は、検査データセットに対応するリキッドバイオプシーサンプルにおける健康異常の存在を示すことを更に備える。処理回路303は、選択した一つ以上の機械学習分類器の出力を受信するとともに出力が検査データセットに対応するリキッドバイオプシーサンプルにおける健康異常の存在を示すように構成される。例示的な実施形態のいくつかによれば、出力は、健康異常の有無に対応する確率又は投票であってもよい。
【0100】
本開示の実施形態の利点及び利益を、以下の実施例によって説明する。そのような以下の実施例において、本開示のコンピュータ実行方法は、以下の二つのオープンアクセスデータセットに適用される。
【0101】
第1のオープンアクセスデータセット: Cohen et alによるタンパク質及びDNA血液測定を含む多発がんデータセット。1005人の患者が(乳房、大腸、食道、肝臓、肺、卵巣、膵臓及び胃を含む)八つの型のがんのいずれかを有していた。812人の患者はがんではなかった。Cohen et alのデータセットにより、本開示の実施形態が複数の異なるがん型を検出及び区別する能力を評価することができる。これは、がんの検出と局在化の両方が必要とされる臨床状況の例を反映する。がん患者の数は、肺がんが104人であり、乳がんが209人であり、大腸がんが388人であり、食道がんが45人であり、肝臓がんが44人であり、卵巣がんが54人であり、膵臓が93人であり、胃がんが68人であった。
【0102】
第2のオープンアクセスデータセット:Blume et alによる高次元プロテオミクスデータセット。141人の患者が含まれる。61人の患者は、肺がんであり、80人の患者は、がんではなかった。Blume et alデータセットにより、肺がんを検出するために特徴選択を実行するとともに元のデータセットの特徴の小さいサブセットを使用する例示的な実施形態の能力を評価することができる。
【0103】
この例では、本開示の実施形態のコンピュータ実行方法を、性能の一般化可能な推定値を提供するために約20%のサンプルのホールドアウト検査セットについて評価した。検査セットは、がん型によって層別化され、Cohen et alのデータセットの場合は、全てのがん型並びにデータセット全体で発生したのと同一の割合のステージ1、ステージ2及びステージ3のがんを反映するために、ステージの観点からも層別化された。ホールドアウト検査セットに含まれない残りの患者サンプルは、モンテカルロ交差検証方式でがん検出分類法の訓練及び検証のためのデータを構成した。検証は、特徴選択ステップと、様々なカーネル密度ベースの推定(KDE)法を組み合わせた分類器の最適化と、を含む。元の未変換のデータに加えて、三つのKDEベースの方法:がん患者の数とがんでない患者の数をバランスさせたKDEベースの増強、がんでない患者に対するがん患者の比率を高めたデータ増強及びがん患者に対するがんでない患者の比率を高めたデータ増強を使用した。
図7の表は、がん型の各々の訓練中に使用されたKDEベースのサンプル数を示す。
【0104】
Cohen et alの39個のタンパク質の全てを使用してランダムフォレスト分類器を訓練した。ランダムフォレストのジニ係数に基づく変数重要度スコア使用して再帰的特徴除去を行った。異なる特徴セットサイズの分類器のうちの受信者動作特性曲線の下の分類面積が統計的に有意に最も大きくなる特徴の最適なサブセットを選択した。所与のKDEベースの方法及び元のデータに対して最適なタンパク質のサブセットを識別すると、受信者動作特性曲線の下の面積が最も良い性能を示したタンパク質のサブセットよりも統計的に小さくない最小のタンパク質のサブセットが選択するために、仮説検定を実行した。最後に、元データ及び三つのKDEベースの方法の各々について仮説検定後に選択した特徴セットの結合を選択した。この結合特徴セットを使用して、ランダムフォレスト、サポートベクターマシン、l2ペナルティ付きロジスティック回帰、多層パーセプトロンについて、ハイパーパラメ-タの最適化を行った。最適なタンパク質特徴サブセットを有する最も性能の良い分類器モデルを、モンテカルロ法による交差検証分割に亘る受信者動作特性曲線の下の面積に基づいて識別した。この最適モデルは、全ての訓練及び検証患者サンプルで再訓練され、その後、ホールドアウト検査セットについて評価された。がんとがんでない分類については、検査セットの受信者動作特性曲線の下の面積に加えて、全体的な特異度99%に対するがん及びステージによる検査セット感度が報告された。これにより、偽陽性の最小化ががん検出アルゴリズムの目的の一つであったCohen et alの状況との比較が可能になった。
図8の表は、元のデータ及び三つのKDEベースの方法の各々を使用して選択したタンパク質の数と、結合特徴セットのタンパク質の数と、を示す。
【0105】
例示的な実施形態の性能は、Cohen et alの論文の性能よりも優れていた。例示的な実施形態の性能を、
図9の表に要約する。例えば、がん全体とがんのない患者とを区別するために、例示的な実施形態の機械学習構成は、ステージ1、ステージ2及びステージ3のがんに対してそれぞれ90%、94%及び95%の全体的な感度を達成した。がん型については、ステージに関係なく、感度が膵臓がんの場合の68%から肺がん、肝臓がん及び卵巣がんの場合の100%の範囲であった。
図10は、がん患者の全体とがんのない患者とを区別するための例示的な実施形態の機械学習パイプラインの受信者動作特性曲線(ROC)を示す。
【0106】
例示的な実施形態の性能は、例示的な実施形態を使用しないのCohen et alのアプローチの性能であるステージ1、ステージ2及びステージ3それぞれについての48%、63%及び70%の感度よりも大きい。例示的な実施形態を使用しないCohen et alのアプローチの性能を、
図11の表に要約する。注目すべきは、全体的に、全ての病期において、がん対がんなしの実施形態例のパイプラインは、肺がんで100%を達成し、乳がんで93%を達成し、大腸がんで97%を達成し、それに対し、Cohen et alの感度は、肺がんで59%であり、乳がんで33%であり、大腸がんで65%であった。
【0107】
Blume et alのデータセットの分析については、例示的な実施形態の類似の枠組みが使用された。
図12の表は、肺がんの患者とがんでない患者とを区別するために訓練中に使用されたKDEベースのサンプルの数を示す。
【0108】
例示的な実施形態の機械学習パイプラインの訓練ステップ及び検証ステップは、六つの異なるデータ入力を使用して適用された。一つのデータ入力は、Blume et alに記載されている枯渇血漿(DP)アプローチに対応する。他の五つのデータ入力は、Blume et alに記載されている五つの異なるナノ粒子「スピオン」(SP003、SP006、SP007、SP333、SP339)によって測定されたタンパク質強度を表し、その各々が異なる生物物理学的特性を有する。
図13の表は、元のデータ及び三つのKDEベースの方法の各々を使用して選択したタンパク質の数と、結合特徴セットに含まれるタンパク質の数と、を示す。
【0109】
(KDEに基づく方法を含む)例示的な実施形態の特徴選択アプローチは、以下の数のタンパク質を選択することを可能にした:枯渇血漿(DP): 最初の419個のタンパク質のうち30個;SP003: 最初の1238個のタンパク質のうち32個;SP006:最初の1081個のタンパク質のうち26個;SP007: 897個のタンパク質のうち14個; SP333: 738個のタンパク質のうち36個; SP339: 897個のタンパク質のうち43個。
【0110】
例示的な実施形態によって達成された最良の受信者動作特性曲線の下の面積は、例示的な実施形態を使用しないBlume et alのアプローチと比較して0.97であり(
図14A~
図14F参照)、肺がんの患者とがんでない患者とを区別するための交差検証の結果、受信者動作特性曲線の下の面積は、0.91であった。
【0111】
図14A~
図14Fを参照すると、スピオン又は枯渇血漿の各々について、がんのないサンプルと肺がんでないサンプルとを区別するために最終分類モデルによって使用されたタンパク質の最適なサブセットを示す。(a)最適なタンパク質セットに30個のタンパク質が含まれていた枯渇血漿(AUC0.97)、(b)最適なタンパク質セットに32個のタンパク質が含まれていたSP003(AUC0. 93)、(c)最適なタンパク質セットに26個のタンパク質が含まれたSP006(AUC0.81)、(d)最適なタンパク質セットに14個のタンパク質が含まれたSP007(AUC0.93)、(e)最適なタンパク質セットに36個のタンパク質が含まれたSP333(AUC0.92)、(f)最適なタンパク質セットに43個のタンパク質が含まれたSP339(AUC0.92)。
【0112】
要約すると、例示的な実施形態は、厳密な特徴選択を可能にし、選択した特徴により、がんの患者とがんでない患者の比率が均衡しているか不均衡であるかに関係なく、がんの患者とがんでない患者を区別することができる。本開示の例示的な実施形態は、例示的な実施形態を使用しない他の科学グループの絶対的基準アプローチと比較して、がん検出の優れた性能を可能にする。したがって、例示的な実施形態は、臨床応用に適していると思われる。
【0113】
上述した明細書において、実施形態を、実施形態ごとに異なることができる複数の具体的な詳細を参照して説明した。記載した実施形態の特定の適合及び変更を行うことができる。他の実施形態は、本明細書に開示した発明の明細書及び実施例を考慮することから当業者には明らかである。明細書及び実施例は、例示的なものとしてのみ考慮されることが意図され、本発明の真の範囲及び精神を、以下の特許請求の範囲によって示す。また、図に示すステップの順序は、例示を目的とするものであり、特定のステップの順序に限定することを意図するものではないことも意図する。したがって、当業者は、同一の方法を実施する間にこれらのステップを異なる順序で実施できることを理解することができる。
【国際調査報告】