(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-19
(54)【発明の名称】遺伝子発現に基づく肺結節の機械学習分類
(51)【国際特許分類】
C12Q 1/04 20060101AFI20240112BHJP
C12M 1/34 20060101ALI20240112BHJP
G16H 10/00 20180101ALI20240112BHJP
【FI】
C12Q1/04
C12M1/34 B
G16H10/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023540797
(86)(22)【出願日】2021-12-28
(85)【翻訳文提出日】2023-08-22
(86)【国際出願番号】 US2021065348
(87)【国際公開番号】W WO2022147013
(87)【国際公開日】2022-07-07
(32)【優先日】2020-12-30
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】523249881
【氏名又は名称】アンペル バイオソリューションズ,エルエルシー
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】バチャリ,プラシューシャ
(72)【発明者】
【氏名】グラマー,アムリエ,シー.
(72)【発明者】
【氏名】リプスキー,ピーター,イー.
【テーマコード(参考)】
4B029
4B063
5L099
【Fターム(参考)】
4B029AA07
4B029BB11
4B029FA02
4B063QA18
4B063QQ03
4B063QQ52
4B063QQ79
4B063QS31
4B063QS36
4B063QS39
5L099AA03
(57)【要約】
本開示は、遺伝子発現データおよび臨床特性データに基づく肺結節の機械学習分類のためのシステムおよび方法を提供する。方法は、a)少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、および患者の1つまたは複数の臨床特性の臨床特性データを含有するデータセットを得る工程;b)データセットが悪性肺結節を示すか良性肺結節を示すかに関する推論を生成するように訓練された機械学習モデルに、データセットを入力として提供する工程;c)機械学習モデルの出力として、データセットが悪性肺結節を示すか良性肺結節を示すかを示す推論を受信する工程;ならびにd)患者の肺結節を悪性肺結節または良性肺結節として分類するレポートを電子的に出力する工程を含み得る。
【特許請求の範囲】
【請求項1】
患者の肺結節を評価する方法であって、
a)i)表4、表7、または両方に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される、患者の1つまたは複数の臨床特性の臨床特性データを含むデータセットを得る工程であって、生体試料が、血液試料、単離された末梢血単核球(PBMC)、またはその任意の派生物である工程;
b)データセットが悪性肺結節を示すか良性肺結節を示すかに関する推論を生成するように訓練された機械学習モデルに、データセットを入力として提供する工程;
c)データセットが悪性肺結節を示すか良性肺結節を示すかを示す推論を、機械学習モデルの出力として受信する工程;ならびに
d)患者の肺結節を悪性肺結節または良性肺結節として分類するレポートを電子的に出力する工程
を含む方法。
【請求項2】
少なくとも2つの肺疾患関連遺伝子が、表7に記載される遺伝子の群から選択される、請求項1に記載の方法。
【請求項3】
1つまたは複数の臨床特性が、結節のサイズ、患者の年齢、および肺上葉における結節の存在を含む、請求項1または2に記載の方法。
【請求項4】
機械学習モデルが、線形回帰、ロジスティック回帰(LOG)、リッジ回帰、ラッソ回帰、エラスティックネット(EN)回帰、サポートベクトルマシン(SVM)、勾配ブースティングマシン(GBM)、k最近傍(kNN)、一般化線形モデル(GLM)、ナイーブベイズ(NB)分類器、ニューラルネットワーク、ランダムフォレスト(RF)、ディープラーニングアルゴリズム、線形判別分析(LDA)、決定木学習(DTREE)、適応型ブースティング(ADB)、またはその任意の組合せを使用して開発される、請求項1から3のいずれか一項に記載の方法。
【請求項5】
患者が肺がんを有する、請求項1から4のいずれか一項に記載の方法。
【請求項6】
患者が肺がんを有しない、請求項1から4のいずれか一項に記載の方法。
【請求項7】
患者が、肺がんを有するリスクが上昇している、請求項1から4のいずれか一項に記載の方法。
【請求項8】
患者が肺がんに関して無症候性である、請求項1から5および7のいずれか一項に記載の方法。
【請求項9】
患者の結節が悪性結節として分類されたことに基づいて処置を投与する工程をさらに含む、請求項1から5、7、および8のいずれか一項に記載の方法。
【請求項10】
処置が、手術、化学療法、標的化治療、免疫療法、放射線療法、またはその任意の組合せである、請求項9に記載の方法。
【請求項11】
推論が、肺結節が悪性である0から1の間の信頼度を含む、請求項1から10のいずれか一項に記載の方法。
【請求項12】
少なくとも2つの肺疾患関連遺伝子が、表4に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、または295個の遺伝子を含む、請求項1から11のいずれか一項に記載の方法。
【請求項13】
少なくとも2つの肺疾患関連遺伝子が、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含む、請求項1から12のいずれか一項に記載の方法。
【請求項14】
患者の肺結節を、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率で悪性肺結節または良性肺結節として分類する工程を含む、請求項1から13のいずれか一項に記載の方法。
【請求項15】
患者の肺結節を、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度で悪性肺結節または良性肺結節として分類する工程を含む、請求項1から14のいずれか一項に記載の方法。
【請求項16】
患者の肺結節を、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度で悪性肺結節または良性肺結節として分類する工程を含む、請求項1から15のいずれか一項に記載の方法。
【請求項17】
患者の肺結節を、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度で悪性肺結節または良性肺結節として分類する工程を含む、請求項1から16のいずれか一項に記載の方法。
【請求項18】
患者の肺結節を、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度で悪性肺結節または良性肺結節として分類する工程を含む、請求項1から17のいずれか一項に記載の方法。
【請求項19】
訓練された機械学習モデルが、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.91、少なくとも約0.92、少なくとも約0.93、少なくとも約0.94、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、少なくとも約0.99、または約0.99より高い曲線下面積(AUC)を有する受信者動作特性曲線(ROC)を有する、請求項1から18のいずれか一項に記載の方法。
【請求項20】
患者の肺結節を評価するためのシステムであって、
1つまたは複数のプロセッサー;および
1つまたは複数のプロセッサーによる実行の結果として、システムに、
i)表4または表7または両方に記載される遺伝子の群から選択される複数の肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含むデータセットをデータベースから得る工程であって、生体試料が、血液試料、単離された末梢血単核球(PBMC)、またはその任意の派生物である工程;
データセットが悪性肺結節を示すか良性肺結節を示すかに関する推論を生成するように訓練された機械学習モデルに、データセットを入力として提供する工程;
機械学習モデルの出力として、複合データセットが悪性肺結節を示すか良性肺結節を示すかを示す推論を受信する工程;ならびに
患者の肺結節を悪性肺結節または良性肺結節として分類するレポートを作成する工程
を実行させる実行可能命令を保存する1つまたは複数のメモリ
を含むシステム。
【請求項21】
コンピュータシステムの1つまたは複数のプロセッサーによる実行の結果として、コンピュータシステムに、
i)表4または表7または両方に記載される遺伝子の群から選択される複数の肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含むデータセットをデータベースから得る工程であって、生体試料が、血液試料、単離された末梢血単核球(PBMC)、またはその任意の派生物である工程;
データセットが悪性肺結節を示すか良性肺結節を示すかに関する推論を生成するように訓練された機械学習モデルに、データセットを入力として提供する工程;
機械学習モデルの出力として、複合データセットが悪性肺結節を示すか良性肺結節を示すかを示す推論を受信する工程;ならびに
患者の肺結節を悪性肺結節または良性肺結節として分類するレポートを作成する工程
を実行させる、患者の肺結節を評価するための実行可能命令を保存する非一時的コンピュータ可読媒体。
【請求項22】
生検を実施することなく肺結節が良性であるか悪性であるかを分類することが可能な遺伝子セットを決定する方法であって、
a)複数の個々の参照データセットを含む参照データセットを得る工程であって、複数の個々の参照データセットのそれぞれの個々の参照データセットが、i)肺結節を有する参照対象の参照生体試料の複数の遺伝子に関する遺伝子発現測定値、ii)表6に記載される臨床特性の群から選択される、参照対象の1つまたは複数の臨床特性の臨床特性データ、およびiii)参照対象の肺結節が良性であるか悪性であるかに関するデータを含み、参照生体試料が、血液試料、単離された末梢血単核球(PBMC)、またはその任意の派生物である工程;
b)参照データセットを使用して機械学習モデルを訓練する工程であって、機械学習モデルが、複数の遺伝子から選択される1つまたは複数の予測子、および1つまたは複数の臨床特性に少なくとも部分的に基づいて、肺結節が良性であるか悪性であるかを推論するように訓練される工程;
c)複数の遺伝子の特徴量重要度の値を決定する工程;ならびに
d)特徴量重要度の値に少なくとも部分的に基づいて遺伝子セットを決定する工程
を含む方法。
【請求項23】
複数の遺伝子が表9に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む、請求項22に記載の方法。
【請求項24】
患者の肺結節が良性であるか悪性であるかを推論することが可能な訓練された機械学習モデルを開発する方法であって、
(a)複数の第1の個々の参照データセットを含む第1の参照データセットを得る工程であって、複数の第1の個々の参照データセットのそれぞれの第1の個々の参照データセットが、i)肺結節を有する参照対象の参照生体試料の複数の遺伝子の遺伝子発現測定値、ii)表6に記載される臨床特性の群から選択される、参照対象の1つまたは複数の臨床特性の臨床特性データ、およびiii)参照対象の肺結節が良性であるか悪性であるかに関するデータを含み、生体試料が、血液試料、単離された末梢血単核球(PBMC)、またはその任意の派生物である工程;
(b)第1の参照データセットを使用して第1の機械学習モデルを訓練する工程であって、第1の機械学習モデルが、複数の遺伝子から選択される1つまたは複数の予測子、および1つまたは複数の臨床特性に少なくとも部分的に基づいて、肺結節が良性であるか悪性であるかを推論するように訓練される工程;
(c)第1の機械学習モデルの1つまたは複数の予測子の特徴量重要度の値を決定する工程;
(d)特徴量重要度の値に少なくとも部分的に基づいて第1の機械学習モデルのA個の予測子を選択する工程であって、Aが5~2000の整数である工程;ならびに
(e)複数の第2の個々の参照データセットを含む第2の参照データセットに少なくとも部分的に基づいて第2の機械学習モデルを訓練する工程であって、複数の第2の個々の参照データセットのそれぞれの第2の個々の参照データセットが、訓練された機械学習モデルを得るために、i)参照対象のA個の予測子の測定データ、ii)参照対象の肺結節が良性であるか悪性であるかに関するデータを含み、訓練された機械学習モデルが、A個の予測子の測定データに少なくとも部分的に基づいて、肺結節が良性であるか悪性であるかを推論するように訓練される工程
を含む方法。
【請求項25】
複数の遺伝子が表9に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む、請求項24に記載の方法。
【請求項26】
A個の予測子が、上位5~200個の特徴量重要度の値を有する、請求項24または25に記載の方法。
【請求項27】
訓練された機械学習モデルが、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率を有する、請求項24から26のいずれか一項に記載の方法。
【請求項28】
訓練された機械学習モデルが、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度を有する、請求項24から27のいずれか一項に記載の方法。
【請求項29】
訓練された機械学習モデルが、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度を有する、請求項24から28のいずれか一項に記載の方法。
【請求項30】
訓練された機械学習モデルが、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度を有する、請求項24から29のいずれか一項に記載の方法。
【請求項31】
訓練された機械学習モデルが、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度を有する、請求項24から30のいずれか一項に記載の方法。
【請求項32】
訓練された機械学習モデルが、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.91、少なくとも約0.92、少なくとも約0.93、少なくとも約0.94、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、少なくとも約0.99、または約0.99より高い曲線下面積(AUC)を有する受信者動作特性曲線(ROC)を有する、請求項24から31のいずれか一項に記載の方法。
【請求項33】
第1の機械学習モデルおよび第2の機械学習モデルが、線形回帰、ロジスティック回帰(LOG)、リッジ回帰、ラッソ回帰、エラスティックネット(EN)回帰、サポートベクトルマシン(SVM)、勾配ブースティングマシン(GBM)、k最近傍法(kNN)、一般化線形モデル(GLM)、ナイーブベイズ(NB)分類器、ニューラルネットワーク、ランダムフォレスト(RF)、ディープラーニングアルゴリズム、線形判別分析(LDA)、決定木学習(DTREE)、適応型ブースティング(ADB)、またはその任意の組合せを使用して独立して訓練される、請求項24から32のいずれか一項に記載の方法。
【請求項34】
患者の肺結節を評価する方法であって、
(a)請求項24から26のいずれか一項に記載のA個の予測子の1つまたは複数に関する患者の測定データを含むデータセットを得る工程;
(b)データセットが悪性肺結節を示すか良性肺結節を示すかに関する推論を生成するように、請求項24から33のいずれか一項に記載の方法に従って訓練された、訓練された機械学習モデルにデータセットを入力として提供する工程;
(c)機械学習モデルの出力として、データセットが悪性肺結節を示すか良性肺結節を示すかを示す推論を受信する工程;および
(d)患者の肺結節を悪性肺結節または良性肺結節として分類するレポートを電子的に出力する工程
を含む方法。
【請求項35】
生体試料が、血液試料、単離された末梢血単核球(PBMC)、またはその任意の派生物である、請求項34に記載の方法。
【請求項36】
患者が肺がんを有する、請求項34または35に記載の方法。
【請求項37】
患者が肺がんを有しない、請求項34または35に記載の方法。
【請求項38】
患者が、肺がんを有するリスクが上昇している、請求項34または35に記載の方法。
【請求項39】
患者が、肺がんに関して無症候性である、請求項34から36および38のいずれか一項に記載の方法。
【請求項40】
患者の肺結節が悪性結節として分類されたことに基づいて処置を投与する工程をさらに含む、請求項34から36、38、および39のいずれか一項に記載の方法。
【請求項41】
処置が、手術、化学療法、標的化治療、免疫療法、放射線療法、またはその任意の組合せである、請求項40に記載の方法。
【請求項42】
肺結節を有する患者における肺がんを処置する方法であって、
(a)i)表4、または表7、または両方に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)患者の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含むデータセットを得る工程であって、生体試料が、血液試料、単離された末梢血単核球(PBMC)、またはその任意の派生物である工程;
(b)データセットが悪性肺結節を示すか良性肺結節を示すかに関する推論を生成するように訓練された、訓練された機械学習モデルにデータセットを入力として提供する工程;
(c)機械学習モデルの出力として、データセットが悪性肺結節を示すか良性肺結節を示すかを示す推論を受信する工程;ならびに
(d)患者の肺結節が悪性肺結節として分類されたことに基づいて処置を投与する工程
を含む方法。
【発明の詳細な説明】
【技術分野】
【0001】
相互参照
[0001] 本出願は、参照により全体が本明細書に組み込まれる、2020年12月30日に出願された米国仮特許出願第63/132,130号に対する優先権を主張する。
【背景技術】
【0002】
[0002] 肺結節は一般的であり、肺疾患の症状を経験していない患者のスクリーニングにおいてしばしば検出される。肺結節を有する対象の中で、わずかな比率の者が最終的にがんと診断される。肺結節の非がん性の原因は、例えば、マイコバクテリウムまたは真菌感染症、自己免疫疾患、空気中汚染物質、および以前の傷害からの瘢痕化を含み得る。大きい肺結節は、典型的には、侵襲的な生検または胸部手術による除去の正当な理由となる。がんとして最終的に同定される肺結節のパーセンテージは、40%もの低さであると概算されている。生検または胸部手術の潜在的な害を考慮して、肺がんのためのより侵襲性が低い試験が必要とされる。単純な非侵襲的な試験、例えば、血液試験は、患者にとっての害の可能性を大きく低減させ、医療コストを低下させるであろう。
【発明の概要】
【課題を解決するための手段】
【0003】
[0003] 一態様では、本開示は、対象の肺結節を評価する方法であって、(a)対象から得られたかまたは対象に由来する生体試料をアッセイして、複数の肺疾患関連ゲノム座の各々からの生体試料の遺伝子発現測定値を含むデータセットを生成する工程であって、複数の肺疾患関連ゲノム座が、表1、表2、表3、表4、表5、表7、および表8のいずれか1つまたは複数に記載される遺伝子の群から選択される少なくとも1つの遺伝子を含む工程;(b)データセットを分析して、対象の肺結節を悪性肺結節または良性肺結節として分類する工程;ならびに(c)悪性肺結節または良性肺結節としての対象の肺結節の分類を示すレポートを電子的に出力する工程を含む方法を提供する。生体試料の遺伝子発現は、例えば、ゲノム座、例えば、肺疾患関連遺伝子から生成されたRNAをアッセイすることにより測定され得る。生体試料における遺伝子発現測定は、任意の好適な技術、例えば、RNA-seqおよびAmpli-seq等を含むがこれらに限定されない、任意の好適なRNA定量技術を使用して実施することができる。一部の実施形態では、データセットは、対象の1つまたは複数の臨床特性の臨床特性データをさらに含む。一部の実施形態では、1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される。
【0004】
[0004] 一部の実施形態では、複数の疾患関連ゲノム座は、表1に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、または180個の遺伝子を含む。
【0005】
[0005] 一部の実施形態では、複数の疾患関連ゲノム座は、表2に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、または175個の遺伝子を含む。
【0006】
[0006] 一部の実施形態では、複数の疾患関連ゲノム座は、表3に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、または60個の遺伝子を含む。
【0007】
[0007] 一部の実施形態では、複数の疾患関連ゲノム座は、表4に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、または295個の遺伝子を含む。
【0008】
[0008] 一部の実施形態では、複数の疾患関連ゲノム座は、表5に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、または142個の遺伝子を含む。
【0009】
[0009] 一部の実施形態では、複数の疾患関連ゲノム座は、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含む。一部の実施形態では、遺伝子は、BCAT1、CRCP、COA4、OVCA2、POM121、HLA-DPA1、VPS37C、MGST2、RNF220、HDAC3、NFE2L1、WDR20、CNPY4、HOXB2、C6orf120、TMEM8A、ASAP1-IT2、C15orf54、CD101、FNBP1、TECR、PROK2、SLC35B3、TDRD9、CLHC1、LPL、IFITM3、OGFOD3、EIF2B3、TMEM65、およびMKRN3から選択される。一部の実施形態では、複数の疾患関連ゲノム座は、遺伝子BCAT1、CRCP、COA4、OVCA2、POM121、HLA-DPA1、VPS37C、MGST2、RNF220、HDAC3、NFE2L1、WDR20、CNPY4、HOXB2、C6orf120、TMEM8A、ASAP1-IT2、C15orf54、CD101、FNBP1、TECR、PROK2、SLC35B3、TDRD9、CLHC1、LPL、IFITM3、OGFOD3、EIF2B3、TMEM65、およびMKRN3を含む。一部の実施形態では、複数の疾患関連ゲノム座は、遺伝子BCAT1、CRCP、COA4、OVCA2、POM121、HLA-DPA1、VPS37C、MGST2、RNF220、HDAC3、NFE2L1、WDR20、CNPY4、HOXB2、C6orf120、TMEM8A、ASAP1-IT2、C15orf54、CD101、FNBP1、TECR、PROK2、SLC35B3、TDRD9、CLHC1、LPL、IFITM3、OGFOD3、EIF2B3、TMEM65、およびMKRN3からなる。これらの遺伝子および本明細書に記載される遺伝子は当業者に公知であり、文献に記載されている。表Aは、各々参照により全体が本明細書に組み込まれる、OMIM(登録商標) - Online Mendelian Inheritance in Man (McKusick-Nathans Institute of Genetic Medicine、Johns Hopkins University School of Medicine、Baltimore、MD)およびthe National Center for Biotechnology Information gene database(NCBI、U.S. National Library of Medicine 8600 Rockville Pike、Bethesda MD、20894 USA)に記載されている、表7および表8を含む、本明細書中の表に記載される遺伝子のGene ID番号の例を提供する。
【0010】
【0011】
【0012】
[0011] 一部の実施形態では、複数の疾患関連ゲノム座は、表8に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、または21個の遺伝子を含む。一部の実施形態では、遺伝子は、BCAT1、USP32P2、CD177、QPCT、SCAF4、SNRPD3、BCL9L、THBS1、SLC22A18AS、ARCN1、DHX16、SATB1、ST6GAL1、CXCL1、TDRD9、ZNF831、MTCH1、FAM86HP、DHX8、RNF114、およびDCTN4から選択される。一部の実施形態では、複数の疾患関連ゲノム座は、遺伝子BCAT1、USP32P2、CD177、QPCT、SCAF4、SNRPD3、BCL9L、THBS1、SLC22A18AS、ARCN1、DHX16、SATB1、ST6GAL1、CXCL1、TDRD9、ZNF831、MTCH1、FAM86HP、DHX8、RNF114、およびDCTN4を含む。一部の実施形態では、複数の疾患関連ゲノム座は、遺伝子BCAT1、USP32P2、CD177、QPCT、SCAF4、SNRPD3、BCL9L、THBS1、SLC22A18AS、ARCN1、DHX16、SATB1、ST6GAL1、CXCL1、TDRD9、ZNF831、MTCH1、FAM86HP、DHX8、RNF114、およびDCTN4からなる。
【0013】
[0012] 一部の実施形態では、1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7または8個の臨床特性を含む。一部の実施形態では、1つまたは複数の臨床特性は、結節のサイズを含む。一部の実施形態では、1つまたは複数の臨床特性は、対象の年齢を含む。一部の実施形態では、1つまたは複数の臨床特性は、肺上葉における結節の存在を含む。一部の実施形態では、1つまたは複数の臨床特性は、結節のサイズ、対象の年齢、肺上葉における結節の存在、またはその任意の組合せを含む。
【0014】
[0013] 一部の実施形態では、複数の疾患関連ゲノム座は、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含み、および1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7または8個の臨床特性を含む。一部の実施形態では、複数の疾患関連ゲノム座は、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含み、および対象の1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せを含む。一部の実施形態では、複数の疾患関連ゲノム座は、表7に記載される31個の遺伝子を含み、ならびに1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在を含む。一部の実施形態では、複数の疾患関連ゲノム座は、表7に記載される31個の遺伝子からなり、ならびに1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在からなる。
【0015】
[0014] 一部の実施形態では、方法は、対象の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、約80%~約100%の正解率で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の正解率で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の正解率で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の正解率で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の正解率で悪性肺結節または良性肺結節として分類する工程を含む。
【0016】
[0015] 一部の実施形態では、方法は、対象の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、約80%~約100%の感度で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の感度で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の感度で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の感度で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の感度で悪性肺結節または良性肺結節として分類する工程を含む。
【0017】
[0016] 一部の実施形態では、方法は、対象の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、約80%~約100%の特異度で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の特異度で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の特異度で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の特異度で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の特異度で悪性肺結節または良性肺結節として分類する工程を含む。
【0018】
[0017] 一部の実施形態では、方法は、対象の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、約80%~約100%の陽性的中度で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の陽性的中度で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陽性的中度で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の陽性的中度で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陽性的中度で悪性肺結節または良性肺結節として分類する工程を含む。
【0019】
[0018] 一部の実施形態では、方法は、対象の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、約80%~約100%の陰性的中度で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の陰性的中度で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陰性的中度で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の陰性的中度で悪性肺結節または良性肺結節として分類する工程を含む。一部の実施形態では、方法は、対象の肺結節を、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陰性的中度で悪性肺結節または良性肺結節として分類する工程を含む。
【0020】
[0019] 一部の実施形態では、方法は、対象の肺結節を、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.91、少なくとも約0.92、少なくとも約0.93、少なくとも約0.94、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、少なくとも約0.99、または約0.99より高い曲線下面積(AUC)で悪性肺結節または良性肺結節として分類する工程を含む。対象の肺結節は、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.91、少なくとも約0.92、少なくとも約0.93、少なくとも約0.94、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、少なくとも約0.99、または約0.99より高いAUCを有する受信者動作特性(ROC)曲線を有する機械学習モデルを用いて悪性肺結節または良性肺結節として分類され得る。対象の肺結節は、約0.8~約1のAUCを有するROC曲線を有する機械学習モデルを用いて悪性肺結節または良性肺結節として分類され得る。対象の肺結節は、約0.8~約0.85、約0.8~約0.9、約0.8~約0.92、約0.8~約0.94、約0.8~約0.95、約0.8~約0.96、約0.8~約0.97、約0.8~約0.98、約0.8~約0.99、約0.8~約0.995、約0.8~約1、約0.85~約0.9、約0.85~約0.92、約0.85~約0.94、約0.85~約0.95、約0.85~約0.96、約0.85~約0.97、約0.85~約0.98、約0.85~約0.99、約0.85~約0.995、約0.85~約1、約0.9~約0.92、約0.9~約0.94、約0.9~約0.95、約0.9~約0.96、約0.9~約0.97、約0.9~約0.98、約0.9~約0.99、約0.9~約0.995、約0.9~約1、約0.92~約0.94、約0.92~約0.95、約0.92~約0.96、約0.92~約0.97、約0.92~約0.98、約0.92~約0.99、約0.92~約0.995、約0.92~約1、約0.94~約0.95、約0.94~約0.96、約0.94~約0.97、約0.94~約0.98、約0.94~約0.99、約0.94~約0.995、約0.94~約1、約0.95~約0.96、約0.95~約0.97、約0.95~約0.98、約0.95~約0.99、約0.95~約0.995、約0.95~約1、約0.96~約0.97、約0.96~約0.98、約0.96~約0.99、約0.96~約0.995、約0.96~約1、約0.97~約0.98、約0.97~約0.99、約0.97~約0.995、約0.97~約1、約0.98~約0.99、約0.98~約0.995、約0.98~約1、約0.99~約0.995、約0.99~約1、または約0.995~約1のAUCを有するROC曲線を有する機械学習モデルを用いて悪性肺結節または良性肺結節として分類され得る。対象の肺結節は、約0.8、約0.85、約0.9、約0.92、約0.94、約0.95、約0.96、約0.97、約0.98、約0.99、約0.995、または約1のAUCを有するROC曲線を有する機械学習モデルを用いて悪性肺結節または良性肺結節として分類され得る。対象の肺結節は、少なくとも約0.8、約0.85、約0.9、約0.92、約0.94、約0.95、約0.96、約0.97、約0.98、約0.99、または約0.995のAUCを有するROC曲線を有する機械学習モデルを用いて悪性肺結節または良性肺結節として分類され得る。対象の肺結節は、最大で約0.85、約0.9、約0.92、約0.94、約0.95、約0.96、約0.97、約0.98、約0.99、約0.995、または約1のAUCを有するROC曲線を有する機械学習モデルを用いて悪性肺結節または良性肺結節として分類され得る。
【0021】
[0020] 一部の実施形態では、対象は肺がんを有する。一部の実施形態では、対象は、肺がんを有することが疑われる。一部の実施形態では、対象は、肺がんを有するリスクが上昇している。一部の実施形態では、対象は、肺がんに関して無症候性である。
【0022】
[0021] ある特定の実施形態では、方法は、任意選択により、対象の肺結節が悪性肺結節または良性肺結節として分類されたことに少なくとも部分的に基づいて、対象の肺結節の生検を実施する工程を含む。ある特定の実施形態では、方法は、任意選択により、対象の肺結節が悪性肺結節として分類されたことに少なくとも部分的に基づいて、対象の肺結節の生検を実施する工程を含む。ある特定の実施形態では、肺結節の生検は実施されない。一部の実施形態では、方法は、対象の肺結節が悪性肺結節または良性肺結節として分類されたことに少なくとも部分的に基づいて対象に処置を投与する工程をさらに含有する。一部の実施形態では、方法は、対象の肺結節が悪性肺結節として分類されたことに少なくとも部分的に基づいて、対象に処置を投与する工程を含有する。一部の実施形態では、処置は、対象の肺がんを処置するように構成される。一部の実施形態では、処置は、対象の肺がんの重症度を低減させるように構成される。一部の実施形態では、処置は、対象の肺がんを有するリスクを低減させるように構成される。処置は、肺がんの1つまたは複数の処置を含むことができる。一部の実施形態では、処置は、手術、化学療法、標的化治療、免疫療法、放射線療法、およびその任意の組合せからなる群から選択される。
【0023】
[0022] 一部の実施形態では、(b)は、データセットを参照データセットと比較する工程を含む。一部の実施形態では、参照データセットは、複数の肺疾患関連ゲノム座の各々からの参照生体試料の遺伝子発現測定値、および任意選択により参照対象の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、参照生体試料は、悪性肺結節を有する参照対象から得られたかまたは参照対象に由来する第1の複数の生体試料および良性肺結節を有する参照対象から得られたかまたは参照対象に由来する第2の複数の生体試料を含む。
【0024】
[0023] 一部の実施形態では、(b)は、訓練された機械学習分類器を使用してデータセットを分析して、対象の肺結節を悪性肺結節または良性肺結節として分類する工程を含む。訓練された機械学習分類器は、データセットが悪性肺結節を示すか良性肺結節を示すかに関する推論を生成することができる。一部の実施形態では、訓練された機械学習分類器は、BIG-C(商標)ビッグデータ分析ツール、I-Scope(商標)ビッグデータ分析ツール、T-Scope(商標)ビッグデータ分析ツール、CellScanビッグデータ分析ツール、MS(Molecular Signature) Scoring(商標)分析ツール、およびGene Set Variation Analysis(GSVA)ツール(例えば、P-Scope)からなる群から選択されるデータ分析ツールによって得られた遺伝子発現データを使用して訓練される。
【0025】
[0024] 一部の実施形態では、訓練された機械学習分類器は、教師あり機械学習アルゴリズムまたは教師なし機械学習アルゴリズムである。一部の実施形態では、訓練された機械学習分類器は、線形回帰、ロジスティック回帰(LOG)、リッジ回帰、ラッソ回帰、エラスティックネット(EN)回帰、サポートベクトルマシン(SVM)、勾配ブースティングマシン(GBM)、k最近傍法(kNN)、一般化線形モデル(GLM)、ナイーブベイズ(NB)、ニューラルネットワーク、ランダムフォレスト(RF)、ディープラーニングアルゴリズム、線形判別分析(LDA)、決定木学習(DTREE)、適応型ブースティング(ADB)、およびその任意の組合せからなる群から選択される。一部の実施形態では、訓練された機械学習分類器は、LOGを含む。一部の実施形態では、訓練された機械学習分類器はリッジ回帰を含む。一部の実施形態では、訓練された機械学習分類器はラッソ回帰を含む。一部の実施形態では、訓練された機械学習分類器はGLMを含む。一部の実施形態では、訓練された機械学習分類器はkNNを含む。一部の実施形態では、訓練された機械学習分類器はSVMを含む。一部の実施形態では、訓練された機械学習分類器はGBMを含む。一部の実施形態では、訓練された機械学習分類器はRFを含む。一部の実施形態では、訓練された機械学習分類器はNBを含む。一部の実施形態では、訓練された機械学習分類器はEN回帰を含む。一部の実施形態では、訓練された機械学習分類器は、ニューラルネットワークを含む。一部の実施形態では、訓練された機械学習分類器は、ディープラーニングアルゴリズムを含む。一部の実施形態では、訓練された機械学習分類器はLDAを含む。一部の実施形態では、訓練された機械学習分類器はDTREEを含む。一部の実施形態では、訓練された機械学習分類器はADBを含む。ある特定の実施形態では、オーバーサンプリングまたはアンダーサンプリング補正が、機械学習モデルの訓練の間に行われる。
【0026】
[0025] 一部の実施形態では、方法は、機械学習分類器の出力として、データセットが悪性肺結節を示すか良性肺結節を示すかを示す推論を受信する工程を含む。
【0027】
[0026] 一部の実施形態では、生体試料は、血液試料、単離された末梢血単核球(PBMC)、肺生検試料、鼻汁、唾液、およびその任意の派生物からなる群から選択される。一部の実施形態では、生体試料は、血液試料、またはその任意の派生物である。一部の実施形態では、生体試料は、単離された末梢血単核球(PBMC)、またはその任意の派生物である。一部の実施形態では、生体試料は、肺生検試料、またはその任意の派生物である。一部の実施形態では、生体試料は鼻汁試料、またはその派生物である。一部の実施形態では、生体試料は、唾液試料、またはその任意の派生物である。
【0028】
[0027] 一部の実施形態では、方法は、対象の肺結節が、悪性肺結節または良性肺結節として分類される可能性を決定する工程をさらに含む。一部の実施形態では、可能性は、約50%、約55%、約60%、約65%、約70%、約75%、約80%、約85%、約90%、約91%、約92%、約93%、約94%、約95%、約96%、約97%、約98%、約99%、または約100%である。一部の実施形態では、可能性は、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%であるか、または約99%より高い。
【0029】
[0028] 一部の実施形態では、方法は、対象の肺結節をモニターする工程をさらに含み、モニターする工程は、複数の時点で対象の肺結節を評価する工程を含む。一部の実施形態では、複数の時点での対象の肺結節の評価の差は、(i)対象の肺結節の診断、(ii)対象の肺結節の予後、および(iii)対象の肺結節を処置するための処置の経過の有効性または非有効性からなる群から選択される1つまたは複数の臨床指標を示している。一部の実施形態では、複数の時点は、少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、または50個の異なる時点を含む。
【0030】
[0029] 一態様では、本開示は、患者の肺結節を評価する方法を提供する。方法は、工程a’、b’、c’、およびd’のいずれか1つ、その任意の組合せ、またはすべてを含み得る。工程a’は、少なくとも2つの肺疾患関連遺伝子に関する患者から得られたまたは患者に由来する生体試料の遺伝子発現測定値を含有するデータセットを得る工程を含み得る。データセットは、生体試料をアッセイすることによって得ることができる。一部の実施形態では、少なくとも2つの肺疾患関連遺伝子は、表4に記載される遺伝子の群から選択される。一部の実施形態では、少なくとも2つの肺疾患関連遺伝子は、表1に記載される遺伝子の群から選択される。一部の実施形態では、少なくとも2つの肺疾患関連遺伝子は、表2に記載される遺伝子の群から選択される。一部の実施形態では、少なくとも2つの肺疾患関連遺伝子は、表3に記載される遺伝子の群から選択される。一部の実施形態では、少なくとも2つの肺疾患関連遺伝子は、表5に記載される遺伝子の群から選択される。一部の実施形態では、少なくとも2つの肺疾患関連遺伝子は、表7に記載される遺伝子の群から選択される。一部の実施形態では、少なくとも2つの肺疾患関連遺伝子は、表8に記載される遺伝子の群から選択される。工程b’は、データセットが悪性肺結節を示すか良性肺結節を示すかに関する推論を生成するように訓練された機械学習モデルに、データセットを入力として提供する工程を含み得る。工程c’は、機械学習モデルの出力として、データセットが悪性肺結節を示すか良性肺結節を示すかを示す推論を受信する工程を含み得る。工程d’は、患者の肺結節を悪性肺結節または良性肺結節として分類するレポートを電子的に出力する工程を含み得る。一部の実施形態では、工程a’のデータセットは、患者の1つまたは複数の臨床特性の臨床特性データをさらに含み得る。一部の実施形態では、1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される。一部の実施形態では、工程a’のデータセットは、i)表1、2、3、4、5、7、および8の任意の1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する生体試料の遺伝子発現測定値、ならびにii)任意選択により表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含有する。生体試料の遺伝子発現測定は、任意の好適な技術、例えばRNA-seq、Ampli-seq等を含むがこれらに限定されない任意の好適なRNA定量技術を使用して実施することができる。
【0031】
[0030] 一部の実施形態では、例えば工程a’の少なくとも2つの肺疾患関連遺伝子は、表1に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、もしくは182個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、例えば工程a’の少なくとも2つの肺疾患関連遺伝子は、表2に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、もしくは175個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、例えば工程a’の少なくとも2つの肺疾患関連遺伝子は、表3に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、もしくは62個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、例えば工程a’の少なくとも2つの肺疾患関連遺伝子は、表4に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、もしくは295個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、例えば工程a’の少なくとも2つの肺疾患関連遺伝子は、表5に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、もしくは142個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、例えば工程a’の少なくとも2つの肺疾患関連遺伝子は、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含む。一部の実施形態では、工程a’の少なくとも2つの肺疾患関連遺伝子は、BCAT1、CRCP、COA4、OVCA2、POM121、HLA-DPA1、VPS37C、MGST2、RNF220、HDAC3、NFE2L1、WDR20、CNPY4、HOXB2、C6orf120、TMEM8A、ASAP1-IT2、C15orf54、CD101、FNBP1、TECR、PROK2、SLC35B3、TDRD9、CLHC1、LPL、IFITM3、OGFOD3、EIF2B3、TMEM65、およびMKRN3から選択される。一部の実施形態では、例えば工程a’の少なくとも2つの肺疾患関連遺伝子は、表8に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、または21個の遺伝子を含む。一部の実施形態では、工程a’の少なくとも2つの肺疾患関連遺伝子は、BCAT1、USP32P2、CD177、QPCT、SCAF4、SNRPD3、BCL9L、THBS1、SLC22A18AS、ARCN1、DHX16、SATB1、ST6GAL1、CXCL1、TDRD9、ZNF831、MTCH1、FAM86HP、DHX8、RNF114、およびDCTN4から選択される。一部の実施形態では、1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7、または8個の臨床特性を含む。一部の実施形態では、1つまたは複数の臨床特性は結節のサイズを含む。一部の実施形態では、1つまたは複数の臨床特性は患者の年齢を含む。一部の実施形態では、1つまたは複数の臨床特性は、肺上葉における結節の存在を含む。一部の実施形態では、患者の1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せを含む。一部の実施形態では、工程a’の少なくとも2つの肺疾患関連遺伝子は、表7に記載される31個の遺伝子を含み、工程a’の1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在を含む。一部の実施形態では、工程a’の少なくとも2つの肺疾患関連遺伝子は、表7に記載される31個の遺伝子からなり、工程a’の1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在からなる。一部の実施形態では、工程a’のデータセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の肺疾患関連遺伝子に関する生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1、2、3、4、5、6、7、または8個の臨床特性の臨床特性データを含有する。一部の実施形態では、工程a’のデータセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の肺疾患関連遺伝子に関する生体試料の遺伝子発現測定値、およびii)結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せから選択される患者の臨床特性の臨床特性データを含有する。
【0032】
[0031] 一部の実施形態では、生体試料は、血液試料、単離された末梢血単核球(PBMC)、肺生検試料、鼻汁、唾液、またはその任意の派生物である。一部の実施形態では、生体試料は、血液試料またはその任意の派生物である。一部の実施形態では、生体試料は、単離された末梢血単核球(PBMC)またはその任意の派生物である。一部の実施形態では、生体試料は、肺生検試料、またはその任意の派生物である。一部の実施形態では、生体試料は、鼻汁試料、またはその任意の派生物である。一部の実施形態では、生体試料は、唾液試料、またはその任意の派生物である。
【0033】
[0032] 方法は、患者の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率で悪性肺結節または良性肺結節として分類することができる。例えば工程b’の機械学習モデルは、データセットが悪性肺結節を示すか良性肺結節を示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率で推論することができる。方法は、患者の肺結節を、約80%~約100%の正解率で悪性肺結節または良性肺結節として分類することができる。方法は、患者の肺結節を、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の正解率で悪性肺結節または良性肺結節として分類することができる。方法は、患者の肺結節を、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の正解率で悪性肺結節または良性肺結節として分類することができる。方法は、患者の肺結節を、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の正解率で悪性肺結節または良性肺結節として分類することができる。方法は、患者の肺結節を、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の正解率で悪性肺結節または良性肺結節として分類することができる。
【0034】
[0033] 方法は、患者の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度で悪性肺結節または良性肺結節として分類することができる。例えば工程b’の機械学習モデルは、データセットが悪性肺結節を示すか良性肺結節を示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度で推論することができる。方法は、患者の肺結節を、約80%~約100%の感度で悪性肺結節または良性肺結節として分類することができる。方法は、患者の肺結節を、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の感度で悪性肺結節または良性肺結節として分類することができる。方法は、患者の肺結節を、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の感度で悪性肺結節または良性肺結節として分類することができる。方法は、患者の肺結節を、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の感度で悪性肺結節または良性肺結節として分類することができる。方法は、患者の肺結節を、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の感度で悪性肺結節または良性肺結節として分類することができる。
【0035】
[0034] 方法は、患者の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度で悪性肺結節または良性肺結節として分類することができる。例えば工程b’の機械学習モデルは、データセットが悪性肺結節を示すか良性肺結節を示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度で推論することができる。方法は、患者の肺結節を、約80%~約100%の特異度で悪性肺結節または良性肺結節として分類することができる。方法は、患者の肺結節を、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の特異度で悪性肺結節または良性肺結節として分類することができる。方法は、患者の肺結節を、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の特異度で悪性肺結節または良性肺結節として分類することができる。方法は、患者の肺結節を、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の特異度で悪性肺結節または良性肺結節として分類することができる。方法は、患者の肺結節を、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の特異度で悪性肺結節または良性肺結節として分類することができる。
【0036】
[0035] 方法は、患者の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度で悪性肺結節または良性肺結節として分類することができる。例えば工程b’の機械学習モデルは、データセットが悪性肺結節を示すか良性肺結節を示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度で推論することができる。方法は、患者の肺結節を、約80%~約100%の陽性的中度で悪性肺結節または良性肺結節として分類することができる。方法は、患者の肺結節を、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の陽性的中度で悪性肺結節または良性肺結節として分類することができる。方法は、患者の肺結節を約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陽性的中度で悪性肺結節または良性肺結節として分類することができる。方法は、患者の肺結節を、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の陽性的中度で悪性肺結節または良性肺結節として分類することができる。方法は、患者の肺結節を、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陽性的中度で悪性肺結節または良性肺結節として分類することができる。
【0037】
[0036] 方法は、患者の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度で悪性肺結節または良性肺結節として分類することができる。例えば工程b’の機械学習モデルは、データセットが悪性肺結節を示すか良性肺結節を示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度で推論することができる。方法は、患者の肺結節を、約80%~約100%の陰性的中度で悪性肺結節または良性肺結節として分類することができる。方法は、患者の肺結節を、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の陰性的中度で悪性肺結節または良性肺結節として分類することができる。方法は、患者の肺結節を、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陰性的中度で悪性肺結節または良性肺結節として分類することができる。方法は、患者の肺結節を、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の陰性的中度で悪性肺結節または良性肺結節として分類することができる。方法は、患者の肺結節を、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陰性的中度で悪性肺結節または良性肺結節として分類することができる。
【0038】
[0037] 例えば工程b’の機械学習モデルは、データセットが悪性肺結節を示すか良性肺結節を示すかを、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.91、少なくとも約0.92、少なくとも約0.93、少なくとも約0.94、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、少なくとも約0.99、または約0.99より高いAUCを有する受信者動作特性(ROC)曲線で推論することができる。例えば工程b’の機械学習モデルは、データセットが悪性肺結節を示すか良性肺結節を示すかを、約0.8~約1のAUCを有するROC曲線で推論することができる。例えば工程b’の機械学習モデルは、約0.8~約0.85、約0.8~約0.9、約0.8~約0.92、約0.8~約0.94、約0.8~約0.95、約0.8~約0.96、約0.8~約0.97、約0.8~約0.98、約0.8~約0.99、約0.8~約0.995、約0.8~約1、約0.85~約0.9、約0.85~約0.92、約0.85~約0.94、約0.85~約0.95、約0.85~約0.96、約0.85~約0.97、約0.85~約0.98、約0.85~約0.99、約0.85~約0.995、約0.85~約1、約0.9~約0.92、約0.9~約0.94、約0.9~約0.95、約0.9~約0.96、約0.9~約0.97、約0.9~約0.98、約0.9~約0.99、約0.9~約0.995、約0.9~約1、約0.92~約0.94、約0.92~約0.95、約0.92~約0.96、約0.92~約0.97、約0.92~約0.98、約0.92~約0.99、約0.92~約0.995、約0.92~約1、約0.94~約0.95、約0.94~約0.96、約0.94~約0.97、約0.94~約0.98、約0.94~約0.99、約0.94~約0.995、約0.94~約1、約0.95~約0.96、約0.95~約0.97、約0.95~約0.98、約0.95~約0.99、約0.95~約0.995、約0.95~約1、約0.96~約0.97、約0.96~約0.98、約0.96~約0.99、約0.96~約0.995、約0.96~約1、約0.97~約0.98、約0.97~約0.99、約0.97~約0.995、約0.97~約1、約0.98~約0.99、約0.98~約0.995、約0.98~約1、約0.99~約0.995、約0.99~約1、または約0.995~約1のAUCを有するROC曲線で推論することができる。例えば工程b’の機械学習モデルは、データセットが悪性肺結節を示すか良性肺結節を示すかを、約0.8、約0.85、約0.9、約0.92、約0.94、約0.95、約0.96、約0.97、約0.98、約0.99、約0.995、または約1のAUCを有するROC曲線で推論することができる。例えば工程b’の機械学習モデルは、データセットが悪性肺結節を示すか良性肺結節を示すかを、少なくとも約0.8、約0.85、約0.9、約0.92、約0.94、約0.95、約0.96、約0.97、約0.98、約0.99、または約0.995のAUCを有するROC曲線で推論することができる。例えば工程b’の機械学習モデルは、最大で約0.85、約0.9、約0.92、約0.94、約0.95、約0.96、約0.97、約0.98、約0.99、約0.995、または約1のAUCを有するROC曲線で推論することができる。
【0039】
[0038] 機械学習モデルからの推論は、結節が悪性である0から1の間、例えば0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、もしくは1、またはその間の任意の値もしくは範囲の信頼度を含み得る。より高い信頼度は、結節が悪性であるより高い可能性と相関し得る。悪性の結節は、転移能または浸潤性の成長能によって特徴付けられ得るが、これらは良性結節とは対照的であり得る。
【0040】
[0039] 一部の実施形態では、患者は肺がんを有する。一部の実施形態では、患者は肺がんを有しない。一部の実施形態では、患者は肺がんを有することが疑われる。一部の実施形態では、患者は、肺がんを有するリスクが上昇している。一部の実施形態では、患者は肺がんに関して無症候性である。
【0041】
[0040] ある特定の実施形態では、方法は、患者の肺結節が悪性肺結節または良性肺結節として分類されたことに少なくとも部分的に基づいて、任意選択により患者の肺結節の生検を実施する工程を含む。ある特定の実施形態では、方法は、患者の肺結節が悪性肺結節として分類されたことに少なくとも部分的に基づいて、任意選択により患者の肺結節の生検を実施する工程を含む。一部の実施形態では、生検が実施される。一部の実施形態では、生検は実施されない。生検を実施する決定は、患者の肺結節が悪性肺結節または良性肺結節として分類されたことを考慮して、知識および経験に基づいて当業者によって行われ得る。生検を実施する決定は、推論の信頼度に部分的に依存し得る。一部の実施形態では、方法は、患者の肺結節が悪性肺結節または良性肺結節として分類されたことに少なくとも部分的に基づいて患者に処置を投与する工程をさらに含む。一部の実施形態では、方法は、患者の肺結節が悪性肺結節として分類されたことに少なくとも部分的に基づいて患者に処置を投与する工程を含む。一部の実施形態では、処置は、患者の肺がんを処置するように構成される。一部の実施形態では、処置は、患者の肺がんの重症度を低減するように構成される。一部の実施形態では、処置は、患者が肺がんを有するリスクを低減するように構成される。処置は、肺がんの1つまたは複数の処置を含み得る。一部の実施形態では、処置は、手術、化学療法、標的化治療、免疫療法、放射線療法、またはその任意の組合せである。
【0042】
[0041] 例えば工程b’の訓練された機械学習モデルは、データセットを参照データセットと比較することによって、データセットが悪性肺結節を示すか良性肺結節を示すかに関する推論を生成することができる。機械学習モデルは、参照データセットを使用して訓練することができる。一部の実施形態では、参照データセットは、肺結節を有する複数の参照対象の複数の参照生体試料の複数の遺伝子の遺伝子発現測定値;参照対象の肺結節が良性であるか悪性であるかに関するデータ;および任意選択により参照対照の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有する。複数の参照対象の第1の部分は、良性肺結節を有し得て、複数の参照対象の第2の部分は、悪性肺結節を有し得る。一部の実施形態では、参照データセットは、複数の個々の参照データセットを含有する。複数の個々の参照データセットのそれぞれの個々の参照データセットは、i)肺結節を有する参照対象の参照生体試料の複数の遺伝子の遺伝子発現測定値、ii)参照対象の肺結節が良性であるか悪性であるかに関するデータ、およびiii)任意選択により参照対象の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有し得る。複数の個々の参照データセットは、複数の参照対象から得ることができる。一部の実施形態では、異なる個々の参照データセットは、異なる参照対象から得られる。一部の実施形態では、個々の参照データセットの各々は、i)1例の参照対象からの参照生体試料の複数の遺伝子の遺伝子発現測定値、ii)1例の参照対象の肺結節が良性であるか悪性であるかに関するデータ、およびiii)任意選択により1例の参照対象の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有し、異なる個々の参照データセットは、異なる参照対象から得られる。ある特定の実施形態では、オーバーサンプリングまたはアンダーサンプリング補正が、機械学習モデルの訓練の間に行われる。例えば、参照データセットが、良性であると同定された多数の試料を含み、悪性であると同定された比較的少数の試料を含む場合、悪性試料をオーバーサンプリングして良性試料と悪性試料の同数を有するデータセットを作成してもよい。参照データセットの複数の遺伝子は、表1、2、3、4、5、7、および8の任意の1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含み得る。一部の実施形態では、参照データセットの複数の遺伝子は、表1に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、もしくは182個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、参照データセットの複数の遺伝子は、表2に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、もしくは175個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、参照データセットの複数の遺伝子は、表3に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、もしくは62個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、参照データセットの複数の遺伝子は、表4に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、もしくは295個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、参照データセットの複数の遺伝子は、表5に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、もしくは142個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、参照データセットの複数の遺伝子は、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含む。一部の実施形態では、参照データセットの複数の遺伝子は、表8に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、または21個の遺伝子を含む。一部の実施形態では、参照データセットの1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7、または8個の臨床特性を含む。一部の実施形態では、参照データセットの1つまたは複数の臨床特性は結節のサイズを含む。一部の実施形態では、参照データセットの1つまたは複数の臨床特性は、患者の年齢を含む。一部の実施形態では、参照データセットの1つまたは複数の臨床特性は、肺上葉における結節の存在を含む。一部の実施形態では、参照データセットの1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せを含む。一部の実施形態では、参照データセットの複数の遺伝子は、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含み、参照データセットの1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7、または8個の臨床特性を含む。一部の実施形態では、参照データセットの複数の遺伝子は、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含み、参照データセットの1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せを含む。一部の実施形態では、参照データセットの複数の遺伝子は、表7に記載される31個の遺伝子を含み、参照データセットの1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在を含む。一部の実施形態では、参照データセットの複数の遺伝子は、表7に記載される31個の遺伝子からなり、参照データセットの1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在からなる。データセットの遺伝子および参照データセットの遺伝子は、少なくとも部分的に重複することができ、および/またはデータセットの任意選択による臨床特性および参照データセットの任意選択による臨床特性は少なくとも部分的に重複することができる。一部の実施形態では、参照生体試料は、血液試料、単離された末梢血単核球(PBMC)、肺生検試料、鼻汁、唾液、またはその任意の派生物である。一部の実施形態では、参照生体試料は、血液試料またはその任意の派生物である。一部の実施形態では、参照生体試料は、単離された末梢血単核球(PBMC)、またはその任意の派生物である。一部の実施形態では、参照生体試料は、肺生検試料、またはその任意の派生物である。一部の実施形態では、参照生体試料は、鼻汁試料、またはその任意の派生物である。一部の実施形態では、参照生体試料は、唾液試料、またはその任意の派生物である。参照対象はヒトであり得る。
【0043】
[0042] 遺伝子発現データは、以下の群:BIG-C(商標)ビッグデータ解析ツール、I-Scope(商標)ビッグデータ解析ツール、T-Scope(商標)ビッグデータ解析ツール、Cell Scanビッグデータ解析ツール、MS(Molecular Signature)Scoring(商標)解析ツール、およびGene Set Variation Analysis(GSVA)ツール(例えば、P-Scope)から選択されるデータ解析ツールによって得ることができる。
【0044】
[0043] 一部の実施形態では、例えば工程b’の訓練された機械学習モデルは、教師あり機械学習アルゴリズムまたは教師なし機械学習アルゴリズムである。一部の実施形態では、訓練された機械学習モデルは、線形回帰、ロジスティック回帰(LOG)、リッジ回帰、ラッソ回帰、エラスティックネット(EN)回帰、サポートベクトルマシン(SVM)、勾配ブースティングマシン(GBM)、k最近傍法(kNN)、一般化線形モデル(GLM)、ナイーブベイズ(NB)、ニューラルネットワーク、ランダムフォレスト(RF)、ディープラーニングアルゴリズム、線形判別分析(LDA)、決定木学習(DTREE)、適応型ブースティング(ADB)、またはその任意の組合せを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、LOGを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、リッジ回帰を使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、ラッソ回帰を使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、GLMを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、kNNを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、SVMを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、GBMを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、RFを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、NBを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、EN回帰を使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、ニューラルネットワークを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、ディープラーニングアルゴリズムを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、LDAを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、DTREEを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、ADBを使用して訓練される。
【0045】
[0044] 一部の実施形態では、方法は、患者の肺結節が悪性肺結節または良性肺結節として分類される可能性を決定する工程を含む。一部の実施形態では、可能性は、約50%、約55%、約60%、約65%、約70%、約75%、約80%、約85%、約90%、約91%、約92%、約93%、約94%、約95%、約96%、約97%、約98%、約99%、または約100%である。一部の実施形態では、可能性は、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%であるか、または約99%より高い。
【0046】
[0045] 一部の実施形態では、方法は、患者の肺結節をモニターする工程をさらに含み、モニターする工程は、複数の時点で患者の肺結節を評価する工程を含む。一部の実施形態では、複数の時点での患者の肺結節の評価の差は、(i)患者の肺結節の診断、(ii)患者の肺結節の予後、および(iii)患者の肺結節を処置するための処置の過程の有効性または非有効性からなる群から選択される1つまたは複数の臨床指標を示している。一部の実施形態では、複数の時点は、少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、または50個の異なる時点を含む。
【0047】
[0046] 別の態様では、本開示は、肺結節を良性または悪性として分類することが可能な遺伝子セットを決定する方法を提供する。対象の生体試料(例えば、血液)の遺伝子セットの1つまたは複数の遺伝子の遺伝子発現測定値を使用して、結節の生検を実施することなく対象の肺結節を良性または悪性として分類することができる。一部の実施形態では、結節の生検を実施して、遺伝子発現測定データを使用して得られた分類結果を確認および/または追跡調査する。一部の実施形態では、結節の生検は実施されない。方法は、工程a’’、b’’、c’’、およびd’’のいずれか1つ、その任意の組合せ、またはすべてを含み得る。工程a’’では、参照データセットを得るおよび/または提供することができる。参照データセットは、複数の個々の参照データセットを含有し得る。複数の個々の参照データセットのそれぞれの個々の参照データセットは、i)肺結節を有する参照対象の参照生体試料の複数の遺伝子の遺伝子発現測定値、ii)肺結節が良性であるか悪性であるかに関するデータ、およびiii)任意選択により、参照対象の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有し得る。複数の個々の参照データセットは、複数の参照対象から得ることができる。一部の実施形態では、異なる個々の参照データセットは、異なる参照対象から得られる。一部の実施形態では、個々の参照データセットの各々は、i)1例の参照対象の参照生体試料の複数の遺伝子の遺伝子発現測定値、ii)1例の参照対象の肺結節が良性であるか悪性であるかに関するデータ、およびiii)任意選択により、1例の参照対象の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有し、異なる個々の参照データセットは、異なる参照対象から得られる。複数の参照対象の第1の部分は、良性肺結節を有し得て、複数の参照対象の第2の部分は、悪性肺結節を有し得る。参照データセットは、肺結節を有する複数の参照対象の複数の参照生体試料の複数の遺伝子の遺伝子発現測定値;参照対象の肺結節が良性であるか悪性であるかに関するデータ;および任意選択により表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の参照対象の臨床特性データを含有し得る。工程b’’では、機械学習モデルを、i)複数の遺伝子、およびii)任意選択により1つまたは複数の臨床特性から選択される1つまたは複数の予測子に少なくとも部分的に基づいて肺結節が良性であるか悪性であるかを推論するように、参照データセットを使用して訓練することができる。訓練された機械学習モデルは、対象の生体試料の複数の遺伝子の遺伝子発現測定値、および任意選択により対象の1つまたは複数の臨床特性の臨床特性データに少なくとも部分的に基づいて、対象の肺結節が良性であるか悪性であるかを推論することができる。一部の実施形態では、機械学習モデルを、参照データセットの第1の部分を含有する訓練データセット、および参照データセットの第2の部分を含有するバリデーションデータセットを使用して訓練することができる。ある特定の実施形態では、オーバーサンプリングまたはアンダーサンプリング補正が、機械学習モデルの訓練の間に行われる。例えば、データセットが、良性であると同定された多数の試料を含み、悪性であると同定された比較的少数の試料を含む場合、悪性試料をオーバーサンプリングして良性試料と悪性試料の同数を有するデータセットを作成してもよい。工程c’’では、複数の遺伝子の特徴量重要度の値を決定することができる。工程d’’では、遺伝子セットを選択することができる。一部の実施形態では、遺伝子セットは、機械学習モデルを訓練するために使用される予測子として選択される。遺伝子セットは、特徴量重要度の値に少なくとも部分的に基づいて選択され得る。一部の実施形態では、遺伝子セットの遺伝子の特徴量重要度の値は、上位3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、210、220、230、240、もしくは250、またはその間の任意の値もしくは範囲の特徴量重要度の値内である。一部の実施形態では、遺伝子セットの遺伝子の特徴量重要度は、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、または90%より高い正解率を有する。一部の実施形態では、遺伝子セットの遺伝子の特徴量重要度は、30、35、40、45、50、55、60、65、70、75、80、または90より高い閾値重要度を有する。ある特定の実施形態では、機械学習モデルの上位3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、210、220、230、240、もしくは250、またはその間の任意の値もしくは範囲の予測子が、遺伝子セットの遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表9に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表1に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表2に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表3に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表4に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表5に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表9に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、300、400、500、600、700、800、900、1000、1100、もしくは1178個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表1に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、もしくは182個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表2に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、もしくは175個、またはその間の任意の値もしくは範囲を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表3に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、もしくは62個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表4に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、もしくは295個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表5に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、もしくは142個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7、または8個の臨床特性を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表1、2、3、4、5、および9の任意の1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含み、工程a’’の参照データセットの1
つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7、または8個の臨床特性を含む。一部の実施形態では、相関係数(例えば、非限定的な態様では>0.7~>0.9)を有する同一直線上の発現を有する遺伝子を、参照データセットから消去した。同一直線上の遺伝子発現は、任意の好適な技術、例えばペアソン相関係数によって測定することができる。複数の遺伝子の特徴量重要度の値を決定することが記載されているが、これは単に実践することができる技術の非限定的な例証としての例である。様々な実施形態では、1つまたは複数の特徴量選択技術を使用して、肺結節を良性であるか悪性であるか分類することができる遺伝子セットを決定する。特徴量選択技術は、最小絶対値縮小選択演算子(least absolute shrinkage and selection operator)(ラッソ)回帰、サポートベクトルマシン(SVM)、正則化ツリー、決定木、メメティックアルゴリズム、ランダム多項ロジット(RMNL)、自己符号化ネットワーク、劣モジュラ特徴量選択、再帰的特徴量削減、またはその任意の組合せを含み得る。これらの例の一部では、特徴量重要度の値を、表9の遺伝子の各々について計算する必要はない。参照生体試料は、血液試料、単離された末梢血単核球(PBMC)、肺生検試料、鼻汁試料、唾液試料、またはその任意の派生物であり得る。一部の実施形態では、参照生体試料は、血液試料またはその任意の派生物である。一部の実施形態では、参照生体試料は、単離された末梢血単核球(PBMC)またはその任意の派生物である。一部の実施形態では、参照生体試料は、肺生検試料、またはその任意の派生物である。一部の実施形態では、参照生体試料は、鼻汁試料、またはその任意の派生物である。一部の実施形態では、参照生体試料は、唾液試料、またはその任意の派生物である。
【0048】
[0047] 例えば工程b’’の機械学習モデルは、教師あり機械学習アルゴリズムまたは教師なし機械学習アルゴリズムを使用して訓練することができる。一部の実施形態では、例えば工程b’’の機械学習モデルは、線形回帰、ロジスティック回帰、リッジ回帰、ラッソ回帰、エラスティックネット(EN)回帰、サポートベクトルマシン(SVM)、勾配ブースティングマシン(GBM)、k最近傍法(kNN)、一般化線形モデル(GLM)、ナイーブベイズ(NB)、ニューラルネットワーク、ランダムフォレスト(RF)、ディープラーニングアルゴリズム、線形判別分析(LDA)、決定木学習(DTREE)、適応型ブースティング(ADB)、またはその任意の組合せを使用して訓練される。一部の実施形態では、機械学習モデルは、ロジスティック回帰を使用して訓練される。一部の実施形態では、機械学習モデルは、リッジ回帰を使用して訓練される。一部の実施形態では、機械学習モデルは、ラッソ回帰を使用して訓練される。一部の実施形態では、機械学習モデルは、GLMを使用して訓練される。一部の実施形態では、機械学習モデルは、kNNを使用して訓練される。一部の実施形態では、機械学習モデルは、SVMを使用して訓練される。一部の実施形態では、機械学習モデルは、GBMを使用して訓練される。一部の実施形態では、機械学習モデルは、RFを使用して訓練される。一部の実施形態では、機械学習モデルは、NBを使用して訓練される。一部の実施形態では、機械学習モデルは、EN回帰を使用して訓練される。一部の実施形態では、機械学習モデルは、ニューラルネットワークを使用して訓練される。一部の実施形態では、機械学習モデルは、ディープラーニングアルゴリズムを使用して訓練される。一部の実施形態では、機械学習モデルは、LDAを使用して訓練される。一部の実施形態では、機械学習モデルは、DTREEを使用して訓練される。一部の実施形態では、機械学習モデルは、ADBを使用して訓練される。
【0049】
[0048] 遺伝子セットは、肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、約80%~約100%の正解率で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の正解率で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の正解率で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の正解率で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の正解率で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、約80%~約100%の感度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の感度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の感度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の感度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の感度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、約80%~約100%の特異度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の特異度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の特異度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の特異度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の特異度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、約80%~約100%の陽性的中度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95
%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の陽性的中度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陽性的中度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の陽性的中度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陽性的中度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、約80%~約100%の陰性的中度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の陰性的中度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陰性的中度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の陰性的中度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陰性的中度で悪性肺結節または良性肺結節として分類することができる。
【0050】
[0049] 別の態様では、本開示は、患者の肺結節が良性であるか悪性であるかを推論することが可能な訓練された機械学習モデルを開発する方法を提供する。方法は、工程a’’’、b’’’、c’’’、d’’’およびe’’’のいずれか1つ、その任意の組合せ、またはすべてを含み得る。工程a’’’は第1の参照データセットを得るおよび/または提供する工程を含み得る。第1の参照データセットは、複数の第1の個々の参照データセットを含有し得る。複数の第1の個々の参照データセットのそれぞれの第1の個々の参照データセットは、i)肺結節を有する参照対象の参照生体試料の複数の遺伝子の遺伝子発現測定値、ii)参照対象が良性であるか悪性であるかに関するデータ、およびiii)任意選択により、参照対象の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有し得る。複数の第1の個々の参照データセットは、複数の参照対象から得ることができる。一部の実施形態では、異なる第1の個々の参照データセットは、異なる参照対象から得られる。一部の実施形態では、第1の個々の参照データセットの各々は、i)1例の参照対象の参照対象試料の複数の遺伝子の遺伝子発現測定値、ii)1例の参照対象の肺結節が良性であるか悪性であるかに関するデータ、およびiii)任意選択により、1例の参照対象の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有し、異なる第1の個々の参照データセットは、異なる参照対象から得られる。複数の参照対象の第1の部分は、良性肺結節を有し得て、複数の参照対象の第2の部分は、悪性肺結節を有し得る。第1の参照データセットは、肺結節を有する複数の参照対象の複数の参照生体試料の複数の遺伝子の遺伝子発現測定値;参照対象の肺結節が良性であるか悪性であるかに関するデータ;および任意選択により、参照対象の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有し得る。工程b’’’では、第1の機械学習モデルを、i)複数の遺伝子、およびii)任意選択により1つまたは複数の臨床特性から選択される1つまたは複数の予測子に少なくとも部分的に基づいて、肺結節が良性であるか悪性であるかを推論するために第1の参照データセットを使用して訓練することができる。第1の機械学習モデルを、i)対象の生体試料の複数の遺伝子の遺伝子発現測定データ、およびii)任意選択により対象の1つまたは複数の臨床特性の臨床特性データに少なくとも部分的に基づいて、対象の肺結節が良性であるか悪性であるかを推論するように訓練することができる。一部の実施形態では、第1の機械学習モデルは、第1の参照データセットの第1の部分を含有する訓練データセット、および第1の参照データセットの第2の部分を含有するバリデーションデータセットを使用して訓練される。工程c’’’では、第1の機械学習モデルの1つまたは複数の予測子の特徴量重要度の値を決定することができる。工程d’’’では、特徴量重要度の値に少なくとも部分的に基づいて第1の機械学習モデルのA個の予測子を選択することができ、Aは、3~2000、例えば3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、210、220、230、240、250、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、もしくは2000、またはその中の任意の整数値もしくは範囲の整数であり得る。ある特定の実施形態では、第1の機械学習モデルの3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、210、220、230、240、もしくは250個、またはその間の任意の値もしくは範囲の予測子が選択される。一部の実施形態では、A個の予測子は、上位A個の特徴量重要度の値を有し、例えば非限定的な態様ではAは10であり、10個の最高特徴量重要度の値を有する10個の予測子を選択する。一部の実施形態では、A個の予測子の特徴量重要度は、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、または90%より高い正解率を有する。一部の実施形態では、A個の予測子の特徴量重要度は、30、35、40、45、50、55、60、65、70、75、80、または90より高い閾値重要度を有し得る。A個の予測子は、1つもしくは複数の遺伝子、および/または任意選択により1つもしくは複数の臨床特性を含み得る。1つまたは複数の予測子に関する特徴量重要度を決定する方法について説明しているが、これは、実践することができる技術の単なる非限定的な例証的例である。様々な実施形態では、1つまたは複数の特徴量選択技術を使用して、A個の予測子を決定する。特徴量選択技術は、最小絶対値縮小選択演算子(ラッソ)回帰、サポートベクトルマシン(SVM)、正則化ツリー、決定木、メメティックアルゴリズム、ランダム多項ロジット(RMNL)、自己符号化ネットワーク、劣モジュラ特徴量選択、再帰的特徴量削減、またはその任意の組合せを含み得る。これらの例の一部では、工程c’’’において、特徴量重要度の値を、第1の機械学習モデルの予測子の各々について計算する必要はない。工程e’’’は、訓練された機械学習モデルを得るために第2の参照データセットに少なくとも部分的に基づいて第2の機械学習モデルを訓練する工程を含み得る。訓練された機械学習モデルは、対象のA個の予測子の測定データに少なくとも部分的に基づいて、対象の肺結節が良性であるか悪性であるかを推論することができる。第2の参照データセットは、複数の第2の個々の参照データセットを含有し得る。複数の第2の個々の参照データセットのそれぞれの第2の個々の参照データセットは、i)参照対象のA個の予測子の測定データ、およびii)参照対象の肺結節が良性であるか悪性であるかに関するデータを含み得る。A個の予測子の測定データは、A個の予測子の1つもしくは複数の遺伝子予測子に関する参照生体試料の遺伝子発現測定値、および/または任意選択によりA個の予測子の任意選択の1つもしくは複数の臨床特性予測子の臨床特性データを含み得る。複数の第2の個々の参照データセットを、複数の参照対象から得ることができる。一部の実施形態では、異なる第2の個々の参照データセットは、異なる参照対象から得られる。一部の実施形態では、第2の個々の参照データセットの各々は、i)1例の参照対象のA個の予測子の測定データ、およびii)1例の参照対象の肺結節が良性であるか悪性であるかに関するデータを含有し、異なる第2の個々の参照データセットは、異なる参照対象から得られる。ある特定の実施形態では、オーバーサンプリングまたはアンダーサンプリング補正が、第1および/または第2の機械学習モデルの訓練の間に行われる。第2の参照データセットは、複数の参照対象からのA個の予測子の測定データ、および参照対象の肺結節が良性であるか悪性であるかに関するデータを含有し得る。一部の実施形態では、第1の参照データセットの複数の遺伝子は、表9に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、第1の参照データセットの複数の遺伝子は、表9に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、300、400、500、600、700、800、900、1000、1100、もしくは1178個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、第1の参照データセットの複数の遺伝子は、表1に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、第1の参照データセットの複数の遺伝子は、表2に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、第1の参照データセットの複数の遺伝子は、表3に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、第1の参照データセットの複数の遺伝子は、表4に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、第1の参照データセットの複数の遺伝子は、表5に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、第1の参照データセットの1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7、または8個の臨床特性を含む。一部の実施形態では、第1の参照データセットの複数の遺伝子は、表1、2、3、4、5、または9の任意の1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含み、第1の参照データセットの1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7、または8個の臨床特性を含む。一部の実施形態では、相関係数(例えば、非限定的な態様では>0.7~>0.9)を有する同一直線上の発現を有する遺伝子を、参照データセットから消去した。同一直線上の遺伝子発現は、任意の好適な技術、例えばペアソン相関係数によって測定することができる。一部の実施形態では、A個の予測子は、予測子として、表1に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、もしくは182個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、A個の予測子は、予測子として、表2に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、
42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、もしくは175個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、A個の予測子は、予測子として、表3に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、もしくは62個、またはその間の任意の値もしくは範囲を含む。一部の実施形態では、A個の予測子は、予測子として、表4に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、もしくは295個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、A個の予測子は、予測子として、表5に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、もしくは142個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、A個の予測子は、予測子として表7に記載される群から選択される遺伝子の少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含む。一部の実施形態では、A個の予測子は、予測子として、表8に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、または21個の遺伝子を含む。一部の実施形態では、A個の予測子は、i)表1、2、3、4、5、7、および8の任意の1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの遺伝子、およびii)任意選択により、予測子として、結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せを含む。一部の実施形態では、A個の予測子は、表7に記載される群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、または34個の予測子を含み得る。一部の実施形態では、A個の予測子は、表7に記載される34個の予測子を含む。一部の実施形態では、A個の予測子は、表7に記載される34個の予測子からなる。
【0051】
[0050] 一部の実施形態では、参照生体試料は、血液試料、単離された末梢血単核球(PBMC)、肺生検試料、鼻汁、唾液、またはその任意の派生物である。一部の実施形態では、参照生体試料は、血液試料またはその任意の派生物である。一部の実施形態では、参照生体試料は、単離された末梢血単核球(PBMC)またはその任意の派生物である。一部の実施形態では、参照生体試料は、肺生検試料、またはその任意の派生物である。一部の実施形態では、参照生体試料は、鼻汁試料、またはその任意の派生物である。一部の実施形態では、参照生体試料は、唾液試料、またはその任意の派生物である。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.91、少なくとも約0.92、少なくとも約0.93、少なくとも約0.94、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、少なくとも約0.99、または約0.99より高い曲線下面積(AUC)を有する受信者動作特性(ROC)曲線で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、約80%~約100%の正解率で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の正解率で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の正解率で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の正解率で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の正解率で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、約80%~約100%の感度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の感度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の感度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の感度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを。最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の感度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、約80%~約100%の陽性的中度で推論することができる。例えば工程e’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の陽性的中度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺
結節が良性であるか悪性であるかを、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陽性的中度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の陽性的中度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陽性的中度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、約80%~約100%の陰性的中度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の陰性的中度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陰性的中度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の陰性的中度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陰性的中度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、約0.8~約1のAUCを有するROC曲線で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、約0.8~約0.85、約0.8~約0.9、約0.8~約0.92、約0.8~約0.94、約0.8~約0.95、約0.8~約0.96、約0.8~約0.97、約0.8~約0.98、約0.8~約0.99、約0.8~約0.995、約0.8~約1、約0.85~約0.9、約0.85~約0.92、約0.85~約0.94、約0.85~約0.95、約0.85~約0.96、約0.85~約0.97、約0.85~約0.98、約0.85~約0.99、約0.85~約0.995、約0.85~約1、約0.9~約0.92、約0.9~約0.94、約0.9~約0.95、約0.9~約0.96、約0.9~約0.97、約0.9~約0.98、約0.9~約0.99、約0.9~約0.995、約0.9~約1、約0.92~約0.94、約0.92~約0.95、約0.92~約0.96、約0.92~約0.97、約0.92~約0.98、約0.92~約0.99、約0.92~約0.995、約0.92~約1、約0.94~約0.95、約0.94~約0.96、約0.94~約0.97、約0.94~約0.98、約0.94~約0.99、約0.94~約0.995、約0.94~約1、約0.95~約0.96、約0.95~約0.97、約0.95~約0.98、約0.95~約0.99、約0.95~約0.995、約0.95~約1、約0.96~約0.97、約0.96~約0.98、約0.96~約0.99、約0.96~約0.995、約0.96~約1、約0.97~約0.98、約0.97~約0.99、約0.97~約0.995、約0.97~約1、約0.98~約0.99、約0.98~約0.995、約0.98~約1、約0.99~約0.995、約0.99~約1、または約0.995~約1のAUCを有するROC曲線で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、約0.8、約0.85、約0.9、約0.92、約0.94、約0.95、約0.96、約0.97、約0.98、約0.99、約0.995、または約1のAUCを有するROC曲線で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、少なくとも約0.8、約0.85、約0.9、約0.92、約0.94、約0.95、約0.96、約0.97、約0.98、約0.99、または約0.995のAUCを有するROC曲線で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、最大で約0.85、約0.9、約0.92、約0.94、約0.95、約0.96、約0.97、約0.98、約0.99、約0.995、または約1のAUCを有するROC曲線で推論することができる。
【0052】
[0051] 遺伝子発現データは、以下の群:BIG-C(商標)ビッグデータ解析ツール、I-Scope(商標)ビッグデータ解析ツール、T-Scope(商標)ビッグデータ解析ツール、Cell Scanビッグデータ解析ツール、MS(Molecular Signature)Scoring(商標)解析ツール、およびGene Set Variation Analysis(GSVA)ツール(例えば、P-Scope)から選択されるデータ解析ツールによって得ることができる。
【0053】
[0052] 一部の実施形態では、訓練された機械学習モデルは、教師あり機械学習アルゴリズムまたは教師なし機械学習アルゴリズムである。一部の実施形態では、第1および/または第2の機械学習モデルは、線形回帰、ロジスティック回帰(LOG)、リッジ回帰、ラッソ回帰、エラスティックネット(EN)回帰、サポートベクトルマシン(SVM)、勾配ブースティングマシン(GBM)、k最近傍法(kNN)、一般化線形モデル(GLM)、ナイーブベイズ(NB)、ニューラルネットワーク、ランダムフォレスト(RF)、ディープラーニングアルゴリズム、線形判別分析(LDA)、決定木学習(DTREE)、適応型ブースティング(ADB)、またはその任意の組合せを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、LOGを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、リッジ回帰を使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、ラッソ回帰を使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、GLMを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、kNNを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、SVMを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、GBMを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、RFを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、NBを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、EN回帰を使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、ニューラルネットワークを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、ディープラーニングアルゴリズムを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、LDAを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、DTREEを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、ADBを使用して独立して訓練される。
【0054】
[0053] 一態様では、本開示は、患者における肺がんを処置する方法を提供する。一部の実施形態では、患者は、肺結節を有する。方法は、工程a’’’’、b’’’’、c’’’’、およびd’’’’のいずれか1つ、その任意の組合せ、またはすべてを含み得る。工程a’’’’は、i)少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)任意選択により、患者の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有するデータセットを得る工程を含み得る。遺伝子発現測定は、生体試料をアッセイすることによって得ることができる。工程b’’’’は、データセットが、患者が肺がんを有することを示すか有しないことを示すかに関する推論を生成するように訓練された機械学習モデルに、データセットを入力として提供する工程を含み得る。一部の実施形態では、推論は、データセットが、患者の肺結節が悪性であることを示すか良性であることを示すかを推論する。工程c’’’’は、機械学習モデルの出力として、データセットが、患者が肺がんを有することを示すか有しないことを示すかを示す推論を受信する工程を含み得る。一部の実施形態では、出力として受信された推論は、患者の肺結節が悪性肺結節であるか良性肺結節であるかを示す。工程d’’’’は、患者が肺がんを有するという決定に基づいて処置を投与する工程を含み得る。一部の実施形態では、処置は、患者の肺結節が悪性結節として分類されたことに基づいて投与されている。
【0055】
[0054] 工程a’’’’のデータセットは、i)表1、2、3、4、5、7、および8の任意の1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)任意選択により、患者の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有し得る。一部の実施形態では、工程a’’’’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表1に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、もしくは182個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、工程a’’’’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表2に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、もしくは175個、またはその間の任意の値もしくは範囲の遺伝子を含み得る。一部の実施形態では、工程a’’’’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表3に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、もしくは62個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、工程a’’’’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表4に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、もしくは295個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、工程a’’’’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表5に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、もしくは142個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、工程a’’’’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含む。一部の実施形態では、工程a’’’’のデータセットの少なくとも2つの肺疾患関連遺伝子は、BCAT1、CRCP、COA4、OVCA2、POM121、HLA-DPA1、VPS37C、MGST2、RNF220、HDAC3、NFE2L1、WDR20、CNPY4、HOXB2、C6orf120、TMEM8A、ASAP1-IT2、C15orf54、CD101、FNBP1、TECR、PROK2、SLC35B3、TDRD9、CLHC1、LPL、IFITM3、OGFOD3、EIF2B3、TMEM65、およびMKRN3から選択される。一部の実施形態では、工程a’’’’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表8に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、または21個の遺伝子を含む。一部の実施形態では、工程a’’’’の少なくとも2つの肺疾患関連遺伝子は、BCAT1、USP32P2、CD177、QPCT、SCAF4、SNRPD3、BCL9L、THBS1、SLC22A18AS、ARCN1、DHX16、SATB1、ST6GAL1、CXCL1、TDRD9、ZNF831、MTCH1、FAM86HP、DHX8、RNF114、およびDCTN4から選択される。一部の実施形態では、工程a’’’’のデータセットの1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7、または8個の臨床特性を含む。一部の実施形態では、工程a’’’’のデータセットの1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せを含む。一部の実施形態では、工程a’’’’のデータセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子の遺伝子発現測定値、およびii)患者の、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7、または8個の臨床特性の臨床特性データを含有する。一部の実施形態では、工程a’’’’のデータセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子の遺伝子発現測定値、およびii)結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せから選択される患者の臨床特性の臨床特性データを含有する。一部の実施形態では、工程a’’’’の少なくとも2つの肺疾患関連遺伝子は、表7に記載される31個の遺伝子を含み、工程a’’’’の1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在を含む。一部の実施形態では、工程a’’’’の少なくとも2つの肺疾患関連遺伝子は、表7に記載される31個の遺伝子からなり、工程a’’’’の1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在からなる。
【0056】
[0055] 機械学習モデルからの推論は、結節が悪性である0から1の間、例えば0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、もしくは1、またはその間の任意の値もしくは範囲の信頼度を含み得て、より高い信頼度は、結節が悪性であるより高い可能性と相関し得る。一部の実施形態では、生体試料は、血液試料、単離された末梢血単核球(PBMC)、肺生検試料、鼻汁、唾液、またはその任意の派生物である。一部の実施形態では、生体試料は、血液試料またはその任意の派生物である。一部の実施形態では、生体試料は、単離された末梢血単核球(PBMC)またはその任意の派生物である。一部の実施形態では、生体試料は、肺生検試料またはその任意の派生物である。一部の実施形態では、生体試料は、鼻汁試料またはその任意の派生物である。一部の実施形態では、生体試料は、唾液試料またはその任意の派生物である。ある特定の実施形態では、方法は、患者の肺結節が悪性肺結節または良性肺結節として分類されたことに少なくとも部分的に基づいて、任意選択により患者の肺結節の生検を実施する工程を含む。ある特定の実施形態では、方法は、患者の肺結節が悪性肺結節として分類されたことに少なくとも部分的に基づいて、任意選択により患者の肺結節の生検を実施する工程を含む。生検を実施する決定は、推論の信頼度に依存し得る。例えば工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかに関する推論を生成することができ、悪性肺結節を有する患者は、患者が肺がんを有することを示し得て、良性結節を有する患者は、患者が肺がんを有しないことを示し得る。ある特定の実施形態では、患者の肺結節の生検は実施されない。工程b’’’’の機械学習モデルは、本明細書に記載される方法に従って、例えば工程b’の機械学習モデルを訓練する方法に従って訓練することができる。
【0057】
[0056] 工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率で推論することができる。一部の実施形態では、工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度で推論することができる。一部の実施形態では、工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度で推論することができる。一部の実施形態では、工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度で推論することができる。一部の実施形態では、工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度で推論することができる。一部の実施形態では、工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.91、少なくとも約0.92、少なくとも約0.93、少なくとも約0.94、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、少なくとも約0.99、または約0.99より高い曲線下面積(AUC)を有する受信者動作特性曲線(ROC)で推論することができる。一部の実施形態では、工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.91、少なくとも約0.92、少なくとも約0.93、少なくとも約0.94、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、少なくとも約0.99、または約0.99より高い曲線下面積(AUC)を有する受信者動作特性曲線(ROC)で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、約80%~約100%の正解率で推論することができる。工程b’’’’の機械学習モデルは、患者が肺がんを有することを示すか有しないことを示すかを、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の正解率で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の正解率で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の正解率で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の正解率で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、約80%~約100%の感度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約
99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の感度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の感度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の感度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の感度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、約80%~約100%の特異度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の特異度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の特異度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%.の特異度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の特異度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、約80%~約100%の陽性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の陽性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陽性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の陽性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陽性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、約80%~約100%の陰性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の陰性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陰性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の陰性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陰性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、約0.8~約1のAUCを有するROC曲線で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、約0.8~約0.85、約0.8~約0.9、約0.8~約0.92、約0.8~約0.94、約0.8~約0.95、約0.8~約0.96、約0.8~約0.97、約0.8~約0.98、約0.8~約0.99、約0.8~約0.995、約0.8~約1、約0.85~約0.9、約0.85~約0.92、約0.85~約0.94、約0.85~約0.95、約0.85~約0.96、約0.85~約0.97、約0.85~約0.98、約0.85~約0.99、約0.85~約0.995、約0.85~約1、約0.9~約0.92、約0.9~約0.94、約0.9~約0.95、約0.9~約0.96、約0.9~約0.97、約0.9~約0.98、約0.9~約0.99、約0.9~約0.995、約0.9~約1、約0.92~約0.94、約0.92~約0.95、約0.92~約0.96、約0.92~約0.97、約0.92~約0.98、約0.92~約0.99、約0.92~約0.995、約0.92~約1、約0.94~約0.95、約0.94~約0.96、約0.94~約0.97、約0.94~約0.98、約0.94~約0.99、約0.94~約0.995、約0.94~約1、約0.95~約0.96、約0.95~約0.97、約0.95~約0.98、約0.95~約0.99、約0.95~約0.995、約0.95~約1、
約0.96~約0.97、約0.96~約0.98、約0.96~約0.99、約0.96~約0.995、約0.96~約1、約0.97~約0.98、約0.97~約0.99、約0.97~約0.995、約0.97~約1、約0.98~約0.99、約0.98~約0.995、約0.98~約1、約0.99~約0.995、約0.99~約1、または約0.995~約1のAUCを有するROC曲線で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、約0.8、約0.85、約0.9、約0.92、約0.94、約0.95、約0.96、約0.97、約0.98、約0.99、約0.995、または約1のAUCを有するROC曲線で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、少なくとも約0.8、約0.85、約0.9、約0.92、約0.94、約0.95、約0.96、約0.97、約0.98、約0.99、または約0.995のAUCを有するROC曲線で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、最大で約0.85、約0.9、約0.92、約0.94、約0.95、約0.96、約0.97、約0.98、約0.99、約0.995、または約1のAUCを有するROC曲線で推論することができる。
【0058】
[0057] 一部の実施形態では、処置は、患者の肺がんを処置するように構成される。一部の実施形態では、処置は、患者の肺がんの重症度を低減させるように構成される。一部の実施形態では、処置は、患者の肺がんを有するリスクを低減させるように構成される。処置は、肺がんの1つまたは複数の処置を含むことができる。一部の実施形態では、処置は、手術、化学療法、標的化治療、免疫療法、放射線療法、またはその任意の組合せである。
【0059】
[0058] 一態様では、本開示は、生検のために、患者の肺結節を評価する方法を提供する。方法は、工程w、x、yおよびzのいずれか1つ、任意の組合せ、またはすべてを含むことができる。工程wは、i)少なくとも2つの肺疾患関連遺伝子に関する、患者の生体試料の遺伝子発現測定値、およびii)任意選択により患者の表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有するデータセットを得る工程を含むことができる。遺伝子発現測定値は、生体試料をアッセイすることにより得られ得る。工程xは、データセットが悪性肺結節を示すか良性肺結節を示すかに関する推論を生成するように訓練された機械学習モデルに入力としてデータセットを提供する工程を含むことができる。工程yは、機械学習モデルの出力として、データセットが悪性肺結節を示すか良性肺結節を示すかを示す推論を受信する工程を含むことができる。工程zは、肺結節の機械学習分類に基づいて肺結節の生検を実施する工程を含むことができる。一部の実施形態では、工程zは、肺結節が悪性結節または良性結節として分類されていることに基づいて肺結節の生検を実施する工程を含むことができる。一部の実施形態では、工程zは、肺結節が悪性結節として分類されていることに基づいて肺結節の生検を実施する工程を含むことができる。生検を実施する決定は、推論の信頼度に依存してもよい。ある特定の実施形態では、患者の肺結節の生検は実施されない。一部の実施形態では、工程wのデータセットは、i)表1、表2、表3、表4、表5、表7、および表8のいずれか1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する生体試料の遺伝子発現測定値、ならびにii)任意選択により表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含有する。一部の実施形態では、工程wのデータセットの少なくとも2つの肺疾患関連遺伝子は、表1に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、または182個、またはこれらの間の任意の値もしくは範囲の個数の遺伝子を含む。一部の実施形態では、工程wのデータセットの少なくとも2つの肺疾患関連遺伝子は、表2に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、または175個、またはこれらの間の任意の値もしくは範囲の個数の遺伝子を含む。一部の実施形態では、工程wのデータセットの少なくとも2つの肺疾患関連遺伝子は、表3に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60または62個、またはこれらの間の任意の値もしくは範囲の個数の遺伝子を含む。一部の実施形態では、工程wのデータセットの少なくとも2つの肺疾患関連遺伝子は、表4に記載される遺伝子の群から選択される少なくとも、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、または295個、またはこれらの間の任意の値もしくは範囲の個数の遺伝子を含む。一部の実施形態では、工程wのデータセットの少なくとも2つの肺疾患関連遺伝子は、表5に記載される遺伝子の群から選択される少なくとも、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、または142個、またはこれらの間の任意の値もしくは範囲の個数の遺伝子を含む。一部の実施形態では、工程wのデータセットの少なくとも2つの肺疾患関連遺伝子は、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含む。一部の実施形態では、工程wの少なくとも2つの肺疾患関連遺伝子は、BCAT1、CRCP、COA4、OVCA2、POM121、HLA-DPA1、VPS37C、MGST2、RNF220、HDAC3、NFE2L1、WDR20、CNPY4、HOXB2、C6orf120、TMEM8A、ASAP1-IT2、C15orf54、CD101、FNBP1、TECR、PROK2、SLC35B3、TDRD9、CLHC1、LPL、IFITM3、OGFOD3、EIF2B3、TMEM65、およびMKRN3から選択される。一部の実施形態では、工程wのデータセットの少なくとも2つの肺疾患関連遺伝子は、表8に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、または21個の遺伝子を含む。一部の実施形態では、工程wの少なくとも2つの肺疾患関連遺伝子は、BCAT1、USP32P2、CD177、QPCT、SCAF4、SNRPD3、BCL9L、THBS1、SLC22A18AS、ARCN1、DHX16、SATB1、ST6GAL1、CXCL1、TDRD9、ZNF831、MTCH1、FAM86HP、DHX8、RNF114、およびDCTN4から選択される。一部の実施形態では、工程wのデータセットの1つまたは複数の臨床特性は、患者の、表6に記載される群から選択される1、2、3、4、5、6、7または8個の臨床特性を含む。一部の実施形態では、工程wのデータセットの1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せを含む。一部の実施形態では、工程wのデータセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の肺疾患関連遺伝子に関する遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7または8個の臨床特性の臨床特性データを含有する。一部の実施形態では、工程wのデータセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の肺疾患関連遺伝子に関する遺伝子発現測定値、およびii)結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せから選択される患者の臨床特性の臨床特性データを含有する。一部の実施形態では、工程wの少なくとも2つの肺疾患関連遺伝子は、表7に記載される31個の遺伝子を含み、ならびに工程wの1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在を含む。一部の実施形態では、工程wの少なくとも2つの肺疾患関連遺伝子は、表7に記載される31個の遺伝子からなり、ならびに工程wの1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在からなる。
【0060】
[0059] 一部の実施形態では、生体試料は、血液試料、単離された末梢血単核球(PBMC)、肺生検試料、鼻水、唾液、またはその任意の派生物である。一部の実施形態では、生体試料は、血液試料またはその任意の派生物である。一部の実施形態では、生体試料は、単離された末梢血単核球(PBMC)またはその任意の派生物である。一部の実施形態では、生体試料は、肺生検試料、またはその任意の派生物である。一部の実施形態では、生体試料は、鼻水試料、またはその任意の派生物である。一部の実施形態では、生体試料は、唾液試料、またはその任意の派生物である。
【0061】
[0060] 例えば工程xの、機械学習モデルは、本明細書に記載される方法にしたがって、例えば工程b’の機械学習モデルの訓練方法にしたがって訓練され得る。
【0062】
[0061] ある特定の態様は、患者において肺がんを決定する方法に方向付けられている。方法は、工程w’、x’、y’およびz’のいずれか1つ、任意の組合せ、またはすべてを含むことができる。工程w’は、i)少なくとも2つの肺疾患関連遺伝子に関する、患者の生体試料の遺伝子発現測定値、およびii)任意選択により表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含有するデータセットを得る工程を含むことができる。遺伝子発現測定値は、生体試料をアッセイすることにより得られ得る。工程x’は、データセットが、患者が肺がんを有することを示すか有しないことを示すかに関する推論を生成するように訓練された機械学習モデルに入力としてデータセットを提供する工程を含むことができる。工程y’は、機械学習モデルの出力として、データセットが、患者が肺がんを有することを示すか有しないことを示すかに関する推論を受信する工程を含むことができる。工程z’は、患者が肺がんを有することを示すか有しないことを示すかに関するレポートを電子的に出力する工程を含むことができる。生体試料の遺伝子発現測定は、任意の好適な技術、例えば、RNA-seqまたはAmpli-seq等を含むがこれらに限定されない、任意の好適なRNA定量技術を使用して実施することができる。一部の実施形態では、工程w’のデータセットは、i)表1、表2、表3、表4、表5、表7、および表8のいずれか1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する生体試料の遺伝子発現測定値、ならびにii)任意選択により表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含有する。
【0063】
[0062] 一部の実施形態では、工程w’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表1に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、または182個、またはこれらの間の任意の値もしくは範囲の個数の遺伝子を含む。一部の実施形態では、工程w’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表2に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、または175個、またはこれらの間の任意の値もしくは範囲の個数の遺伝子を含む。一部の実施形態では、工程w’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表3に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60または62個、またはこれらの間の任意の値もしくは範囲の個数の遺伝子を含む。一部の実施形態では、工程w’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表4に記載される遺伝子の群から選択される少なくとも、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、または295個、またはこれらの間の任意の値もしくは範囲の個数の遺伝子を含む。一部の実施形態では、工程w’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表5に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、または142個の遺伝子を含む。一部の実施形態では、工程w’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含む。一部の実施形態では、工程w’の少なくとも2つの肺疾患関連遺伝子は、BCAT1、CRCP、COA4、OVCA2、POM121、HLA-DPA1、VPS37C、MGST2、RNF220、HDAC3、NFE2L1、WDR20、CNPY4、HOXB2、C6orf120、TMEM8A、ASAP1-IT2、C15orf54、CD101、FNBP1、TECR、PROK2、SLC35B3、TDRD9、CLHC1、LPL、IFITM3、OGFOD3、EIF2B3、TMEM65、およびMKRN3から選択される。一部の実施形態では、工程w’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表8に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、または21個の遺伝子を含む。一部の実施形態では、工程w’の少なくとも2つの肺疾患関連遺伝子は、BCAT1、USP32P2、CD177、QPCT、SCAF4、SNRPD3、BCL9L、THBS1、SLC22A18AS、ARCN1、DHX16、SATB1、ST6GAL1、CXCL1、TDRD9、ZNF831、MTCH1、FAM86HP、DHX8、RNF114、およびDCTN4から選択される。一部の実施形態では、工程w’のデータセットの1つまたは複数の臨床特性は、表6に記載される群から選択される1、2、3、4、5、6、7または8個の臨床特性を含む。一部の実施形態では、工程w’のデータセットの1つまたは複数の臨床特性は、結節のサイズを含む。一部の実施形態では、工程w’のデータセットの1つまたは複数の臨床特性は、患者の年齢を含む。一部の実施形態では、工程w’のデータセットの1つまたは複数の臨床特性は、肺上葉における結節の存在を含む。一部の実施形態では、工程w’のデータセットの1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せを含む。一部の実施形態では、工程w’のデータセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の肺疾患関連遺伝子に関する遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1、2、3、4、5、6、7または8個の臨床特性の臨床特性データを含有する。一部の実施形態では、工程w’のデータセットは、i)生体試料の表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の肺疾患関連遺伝子に関する遺伝子発現測定値、およびii)結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せから選択される患者の臨床特性の臨床特性データを含有する。一部の実施形態では、工程w’の少なくとも2つの肺疾患関連遺伝子は、表7に記載される31個の遺伝子を含み、ならびに工程w’の1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在を含む。一部の実施形態では、工程w’の少なくとも2つの肺疾患関連遺伝子は、表7に記載される31個の遺伝子からなり、ならびに工程w’の1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在からなる。
【0064】
[0063] 一部の実施形態では、生体試料は、群:血液試料、単離された末梢血単核球(PBMC)、肺生検試料、鼻水、唾液、およびその任意の派生物から選択される。一部の実施形態では、生体試料は、血液試料またはその任意の派生物である。一部の実施形態では、生体試料は、単離された末梢血単核球(PBMC)またはその任意の派生物である。一部の実施形態では、生体試料は、肺生検試料、またはその任意の派生物である。一部の実施形態では、生体試料は、鼻水試料、またはその任意の派生物である。一部の実施形態では、生体試料は、唾液試料、またはその任意の派生物である。
【0065】
[0064] 方法は、患者が肺がんを有するか否かを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率で決定することができる。方法は、患者が肺がんを有するか否かを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度で決定することができる。方法は、患者が肺がんを有するか否かを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度で決定することができる。方法は、患者が肺がんを有するか否かを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度で決定することができる。方法は、患者が肺がんを有するか否かを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度で決定することができる。例えば工程x’の、機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.91、少なくとも約0.92、少なくとも約0.93、少なくとも約0.94、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、少なくとも約0.99、または約0.99より高いAUCを有する受信者動作特性(ROC)曲線を用いて推論することができる。方法は、患者が肺がんを有するか否かを、約80%~約100%の正解率で決定することができる。方法は、患者が肺がんを有するか否かを、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の正解率で決定することができる。方法は、患者が肺がんを有するか否かを、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の正解率で決定することができる。方法は、患者が肺がんを有するか否かを、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の正解率で決定することができる。方法は、患者が肺がんを有するか否かを、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の正解率で決定することができる。方法は、患者が肺がんを有するか否かを、約80%~約100%の感度で決定することができる。方法は、患者が肺がんを有するか否かを、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の感度で決定することができる。方法は、患者が肺がんを有するか否かを、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の感度で決定することができる。方法は、患者が肺がんを有するか否かを、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の感度で決定することができる。方法は、患者が肺がんを有するか否かを、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の感度で決定することができる。方法は、患者が肺がんを有するか否かを、約80%~約100%の特異度で決定することができる。方法は、患者が肺がんを有するか否かを、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の特異度で決定することができる。方法は、患者が肺がんを有するか否かを、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の特異度で決定することができる。方法は、患者が肺がんを有するか否かを、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の特異度で決定することができる。方法は、患者が肺がんを有するか否かを、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の特異度で決定することができる。方法は、患者が肺がんを有するか否かを、約80%~約100%の陽性的中度で決定することができる。方法は、患者が肺がんを有するか否かを、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、
約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の陽性的中度で決定することができる。方法は、患者が肺がんを有するか否かを、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陽性的中度で決定することができる。方法は、患者が肺がんを有するか否かを、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の陽性的中度で決定することができる。方法は、患者が肺がんを有するか否かを、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陽性的中度で決定することができる。方法は、患者が肺がんを有するか否かを、約80%~約100%の陰性的中度で決定することができる。方法は、患者が肺がんを有するか否かを、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の陰性的中度で決定することができる。方法は、患者が肺がんを有するか否かを、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陰性的中度で決定することができる。方法は、患者が肺がんを有するか否かを、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の陰性的中度で決定することができる。方法は、患者が肺がんを有するか否かを、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陰性的中度で決定することができる。工程x’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、約0.8~約1のAUCを有するROC曲線を用いて推論することができる。工程x’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、約0.8~約0.85、約0.8~約0.9、約0.8~約0.92、約0.8~約0.94、約0.8~約0.95、約0.8~約0.96、約0.8~約0.97、約0.8~約0.98、約0.8~約0.99、約0.8~約0.995、約0.8~約1、約0.85~約0.9、約0.85~約0.92、約0.85~約0.94、約0.85~約0.95、約0.85~約0.96、約0.85~約0.97、約0.85~約0.98、約0.85~約0.99、約0.85~約0.995、約0.85~約1、約0.9~約0.92、約0.9~約0.94、約0.9~約0.95、約0.9~約0.96、約0.9~約0.97、約0.9~約0.98、約0.9~約0.99、約0.9~約0.995、約0.9~約1、約0.92~約0.94、約0.92~約0.95、約0.92~約0.96、約0.92~約0.97、約0.92~約0.98、約0.92~約0.99、約0.92~約0.995、約0.92~約1、約0.94~約0.95、約0.94~約0.96、約0.94~約0.97、約0.94~約0.98、約0.94~約0.99、約0.94~約0.995、約0.94~約1、約0.95~約0.96、約0.95~約0.97、約0.95~約0.98、約0.95~約0.99、約0.95~約0.995、約0.95~約1、約0.96~約0.97、約0.96~約0.98、約0.96~約0.99、約0.96~約0.995、約0.96~約1、約0.97~約0.98、約0.97~約0.99、約0.97~約0.995、約0.97~約1、約0.98~約0.99、約0.98~約0.995、約0.98~約1、約0.99~約0.995、約0.99~約1、または約0.995~約1のAUCを有するROC曲線を用いて推論することができる。工程x’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、約0.8、約0.85、約0.9、約0.92、約0.94、約0.95、約0.96、約0.97、約0.98、約0.99、約0.995、または約1のAUCを有するROC曲線を用いて推論することができる。工程x’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、少なくとも約0.8、約0.85、約0.9、約0.92、約0.94、約0.95、約0.96、約0.97、約0.98、約0.99、または約0.995のAUCを有するROC曲線を用いて推論することができる。工程x’の機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、最大で約0.85、約0.9、約0.92、約0.94、約0.95、約0.96、約0.97、約0.98、約0.99、約0.995、または約1のAUCを有するROC曲線を用いて推論することができる。
【0066】
[0065] 機械学習モデルからの推論は、患者が肺がんを有することの0~1、例えば0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9または1、またはそれらの間の任意の値もしくは範囲の信頼度を含むことができる。より高い信頼度は、患者が肺がんを有するより高い可能性と相関し得る。
【0067】
[0066] 例えば工程x’の、機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかに関する推論を生成することができ、患者が悪性肺結節を有することは、患者が肺がんを有することを示すことができ、患者が良性肺結節を有することは、患者が肺がんを有しないことを示すことができる。機械学習モデルは、本明細書に記載される方法にしたがって、例えば工程b’の機械学習モデルの訓練方法にしたがって訓練され得る。
【0068】
[0067] 別の態様では、本開示は、対象の肺結節を評価するためのコンピュータシステムであって、データセットを保存するように構成されたデータベースまたは他の好適なデータストレージシステム;およびデータベースに作動可能にカップリングした1つまたは複数のコンピュータプロセッサーであって、(i)データセットを分析して、対象の肺結節を悪性肺結節または良性肺結節として分類するように;(ii)悪性肺結節または良性肺結節としての対象の肺結節の分類を示すレポートを電子的に出力するように個々にまたは集合的にプログラムされている、1つまたは複数のコンピュータプロセッサーを含む、コンピュータシステムを提供する。本明細書に記載されているコンピュータにより実装された方法は、コンピュータシステム、例えば上記されるコンピュータシステム上で実行されてもよい。例えば、コンピュータシステムは、1つまたは複数のプロセッサー、および、実行の結果として、1つまたは複数のプロセッサーが上記されるプログラムされた工程を集合的に行うことを引き起こす、コンピュータ可読実行可能命令を集合的に保存する1つまたは複数のメモリユニットを含んでもよい。本明細書に記載されているコンピュータシステムは、パーソナルコンピュータに通信的にカップリングしたアッセイデバイスを含んでもよい。データセットは、本明細書に記載されるデータセットであり得る。一部の実施形態では、データセットは、a)遺伝子発現データであって、遺伝子発現データが、対象から得られたかまたは対象に由来する生体試料をアッセイして、複数の肺疾患関連ゲノム座の各々からの生体試料の遺伝子発現測定値を生成することにより得られ、複数の疾患関連ゲノム座が、表4に記載される遺伝子の群から選択される少なくとも1つの遺伝子を含む、遺伝子発現データを含む。一部の実施形態では、データセットは、i)表1、表2、表3、表4、表5、表7、および表8のいずれか1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する対象の生体試料の遺伝子発現測定値、ならびにii)任意選択により表6に記載される臨床特性の群から選択される対象の1つまたは複数の臨床特性の臨床特性データを含有する。一部の実施形態では、データセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の肺疾患関連遺伝子に関する対象の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される対象の1、2、3、4、5、6、7または8個の臨床特性の臨床特性データを含有する。一部の実施形態では、データセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の肺疾患関連遺伝子に関する対象の生体試料の遺伝子発現測定値、およびii)結節のサイズ、対象の年齢、肺上葉における結節の存在、またはその任意の組合せから選択される対象の臨床特性の臨床特性データを含有する。生体試料は、本明細書に記載される生体試料であり得る。一部の実施形態では、データセットは、i)表7に記載される31個の遺伝子、ならびにii)結節のサイズ、患者の年齢、および肺上葉における結節の存在から選択される対象の1つまたは複数の臨床特性を含む。一部の実施形態では、データセットは、i)表7に記載される31個の遺伝子、ならびにii)結節のサイズ、患者の年齢、および肺上葉における結節の存在から選択される対象の1つまたは複数の臨床特性からなる。生体試料は、本明細書に記載される生体試料であり得る。
【0069】
[0068] 一部の実施形態では、コンピュータシステムは、1つまたは複数のコンピュータプロセッサーに作動可能にカップリングした電子ディスプレイであって、レポートを表示するように構成されたグラフィカルユーザーインターフェースを含む電子ディスプレイをさらに含む。
【0070】
[0069] 別の態様では、本開示は、1つまたは複数のコンピュータプロセッサーにより実行されると、1つまたは複数のコンピュータプロセッサーが、対象の肺結節を評価する方法を行うことを引き起こす、機械実行可能コードを集合的に含む1つまたは複数の非一時的コンピュータ可読媒体であって、方法が、(a)対象から得られたかまたは対象に由来する生体試料をアッセイしてデータセットを生成する工程;(b)データセットを分析して、対象の肺結節を悪性肺結節または良性肺結節として分類する工程;および(c)悪性肺結節または良性肺結節としての対象の肺結節の分類を示すレポートを電子的に出力する工程を含む、1つまたは複数の非一時的コンピュータ可読媒体を提供する。データセットは、本明細書に記載されるデータセットであり得る。一部の実施形態では、データセットは、複数の肺疾患関連ゲノム座の各々からの生体試料の遺伝子発現測定値を含み、複数の疾患関連ゲノム座は、表4に記載される群から選択される少なくとも1つの遺伝子を含む。一部の実施形態では、データセットは、i)表1、表2、表3、表4、表5、表7、および表8のいずれか1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する対象の生体試料の遺伝子発現測定値、ならびにii)任意選択により表6に記載される臨床特性の群から選択される対象の1つまたは複数の臨床特性の臨床特性データを含有する。一部の実施形態では、データセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の肺疾患関連遺伝子に関する対象の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される対象の1、2、3、4、5、6、7または8個の臨床特性の臨床特性データを含有する。一部の実施形態では、データセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の肺疾患関連遺伝子に関する対象の生体試料の遺伝子発現測定値、およびii)結節のサイズ、対象の年齢、肺上葉における結節の存在、またはその任意の組合せから選択される対象の臨床特性の臨床特性データを含有する。一部の実施形態では、データセットは、i)表7に記載される31個の遺伝子、ならびにii)結節のサイズ、患者の年齢、および肺上葉における結節の存在から選択される対象の1つまたは複数の臨床特性を含む。一部の実施形態では、データセットは、i)表7に記載される31個の遺伝子、ならびにii)結節のサイズ、患者の年齢、および肺上葉における結節の存在から選択される対象の1つまたは複数の臨床特性からなる。生体試料は、本明細書に記載される生体試料であり得る。
【0071】
[0070] 本開示は、がんを診断するための、またはがんを有する患者もしくは対象の処置を決定および/もしくは投与するための、本明細書に記載される任意の発明的方法、システム、または、発明的方法を使用して決定された遺伝子セットを含む、他の組成物の使用を含む。
【0072】
[0071] 本開示は、以下の態様を含む。
【0073】
[0072] 態様1は、対象の肺結節を評価する方法であって、
(a)対象から得られたまたは対象に由来する生体試料をアッセイして、複数の肺疾患関連ゲノム座の各々で生体試料の遺伝子発現測定値を含むデータセットを生成する工程であって、複数の疾患関連ゲノム座が、表1、2、3、4、5、7、および8の任意の1つまたは複数に記載される群から選択される少なくとも1つの遺伝子を含む工程;
(b)データセットを解析して、対象の肺結節を悪性肺結節または良性肺結節として分類する工程;ならびに
(c)対象の肺結節を悪性肺結節または良性肺結節として分類することを示すレポートを電子的に出力する工程
を含む方法を対象とする。
【0074】
[0073] 態様2は、複数の疾患関連ゲノム座が、表4に記載される群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、または295個の遺伝子を含む、態様1に記載の方法を対象とする。
【0075】
[0074] 態様3は、対象の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率で悪性肺結節または良性肺結節として分類する工程をさらに含む、態様1または2のいずれかに記載の方法を対象とする。
【0076】
[0075] 態様4は、対象の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度で悪性肺結節または良性肺結節として分類する工程をさらに含む、態様1~3のいずれか1つに記載の方法を対象とする。
【0077】
[0076] 態様5は、対象の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度で悪性肺結節または良性肺結節として分類する工程をさらに含む、態様1~4のいずれか1つに記載の方法を対象とする。
【0078】
[0077] 態様6は、対象の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度で悪性肺結節または良性肺結節として分類する工程をさらに含む、態様1~5のいずれか1つに記載の方法を対象とする。
【0079】
[0078] 態様7は、対象の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度で悪性肺結節または良性肺結節として分類する工程をさらに含む、態様1~6のいずれか1つに記載の方法を対象とする。
【0080】
[0079] 態様8は、対象の肺結節を、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.91、少なくとも約0.92、少なくとも約0.93、少なくとも約0.94、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、少なくとも約0.99、または約0.99より高い曲線下面積(AUC)で悪性肺結節または良性肺結節として分類する工程をさらに含む、態様1~7のいずれか1つに記載の方法を対象とする。
【0081】
[0080] 態様9は、対象が肺がんを有する、態様1~8のいずれか1つに記載の方法を対象とする。
【0082】
[0081]態様10は、対象が肺がんを有することが疑われる、態様1~8のいずれか1つに記載の方法を対象とする。
【0083】
[0082] 態様11は、対象が肺がんを有するリスクが上昇している、態様1~8のいずれか1つに記載の方法を対象とする。
【0084】
[0083] 態様12は、対象が肺がんに関して無症候性である、態様1~8のいずれか1つに記載の方法を対象とする。
【0085】
[0084] 態様13は、対象の肺結節が悪性肺結節または良性肺結節として分類されたことに少なくとも部分的に基づいて、対象に処置を投与する工程をさらに含む、態様1~12のいずれか1つに記載の方法を対象とする。
【0086】
[0085] 態様14は、処置が対象の肺がんを処置するように構成される、態様13に記載の方法を対象とする。
【0087】
[0086] 態様15は、処置が、対象の肺がんの重症度を低減するように構成される、態様13に記載の方法を対象とする。
【0088】
[0087] 態様16は、処置が、対象が肺がんを有するリスクを低減させるように構成される、態様13に記載の方法を対象とする。
【0089】
[0088] 態様17は、処置が、手術、化学療法、標的化治療、免疫療法、放射線療法、およびその任意の組合せからなる群から選択される、態様13に記載の方法を対象とする。
【0090】
[0089] 態様18は、(b)が、訓練された機械学習分類器を使用してデータセットを解析し、対象の肺結節を悪性肺結節または良性肺結節として分類する工程を含む、態様1に記載の方法を対象とする。
【0091】
[0090] 態様19は、訓練された機械学習分類器が、BIG-C(商標)ビッグデータ解析ツール、I-Scope(商標)ビッグデータ解析ツール、T-Scope(商標)ビッグデータ解析ツール、CellScanビッグデータ解析ツール、MS(Molecular Signature)Scoring(商標)解析ツール、およびGene Set Variation Analysis(GSVA)ツール(例えば、P-Scope)からなる群から選択されるデータ解析ツールによって得られた遺伝子発現データを使用して訓練される、態様18に記載の方法を対象とする。
【0092】
[0091] 態様20は、訓練された機械学習分類器が、線形回帰、ロジスティック回帰、リッジ回帰、ラッソ回帰、エラスティックネット(EN)回帰、サポートベクトルマシン(SVM)、勾配ブースティングマシン(GBM)、k最近傍法(kNN)、一般化線形モデル(GLM)、ナイーブベイズ(NB)分類器、ニューラルネットワーク、ランダムフォレスト(RF)、ディープラーニングアルゴリズム、およびその組合せからなる群から選択される、態様18に記載の方法を対象とする。
【0093】
[0092] 態様21は、訓練された機械学習分類器がロジスティック回帰を含む、態様20に記載の方法を対象とする。
【0094】
[0093] 態様22は、訓練された機械学習分類器がGLMを含む、態様20に記載の方法を対象とする。
【0095】
[0094] 態様23は、訓練された機械学習分類器がkNNを含む、態様20に記載の方法を対象とする。
【0096】
[0095] 態様24は、訓練された機械学習分類器がSVMを含む、態様20に記載の方法を対象とする。
【0097】
[0096] 態様25は、訓練された機械学習分類器がGBMを含む、態様20に記載の方法を対象とする。
【0098】
[0097] 態様26は、訓練された機械学習分類器がRFを含む、態様20に記載の方法を対象とする。
【0099】
[0098] 態様27は、訓練された機械学習分類器がNBを含む、態様20に記載の方法を対象とする。
【0100】
[0099] 態様28は、訓練された機械学習分類器がEN回帰を含む、態様20に記載の方法を対象とする。
【0101】
[0100] 態様29は、(b)が、データセットを参照データセットと比較する工程を含む、態様1に記載の方法を対象とする。
【0102】
[0101] 態様30は、参照データセットが、複数の肺疾患関連ゲノム座の各々で参照生体試料の遺伝子発現測定値を含む、態様29に記載の方法を対象とする。
【0103】
[0102] 態様31は、悪性肺結節を有する対象から得られたまたは対象に由来する第1の複数の生体試料、および良性肺結節を有する対象から得られたまたは対象に由来する第2の複数の生体試料を含む、態様29に記載の方法を対象とする。
【0104】
[0103] 態様32は、生体試料が、血液試料、単離された末梢血単核球(PBMC)、肺生検試料、またはその任意の派生物からなる群から選択される、態様1~31のいずれか1つに記載の方法を対象とする。
【0105】
[0104] 態様33は、患者の肺結節が悪性肺結節または良性肺結節として分類される可能性を決定する工程をさらに含む、態様1~32のいずれか1つに記載の方法を対象とする。
【0106】
[0105] 態様34は、複数の時点で対象の肺結節を評価する工程を含む、対象の肺結節をモニターする工程をさらに含む、態様1~33のいずれか1つに記載の方法を対象とする。
【0107】
[0106] 態様35は、複数の時点における対象の肺結節の評価の差が、(i)対象の肺結節の診断、(ii)対象の肺結節の予後、および(iii)対象の肺結節を処置するための処置の経過の有効性または非有効性からなる群から選択される1つまたは複数の臨床指標を示している、態様34に記載の方法を対象とする。
【0108】
[0107] 態様36は、対象の肺結節を評価するためのコンピュータシステムであって、遺伝子発現データを含むデータセットを保存するように構成されたデータベースであって、遺伝子発現データが、複数の肺疾患関連ゲノム座の各々で生体試料の遺伝子発現測定値を生成するために対象から得られたまたは対象に由来する生体試料をアッセイすることによって得られ、複数の疾患関連ゲノム座が、表1、2、3、4、5、7、および8の任意の1つまたは複数に記載される遺伝子の群から選択される少なくとも1つの遺伝子を含むデータベース;ならびにデータベースに作動可能にカップリングした1つまたは複数のコンピュータプロセッサーであって、(i)データセットを解析して対象の肺結節を悪性肺結節または良性肺結節として分類する;(ii)対象の肺結節を悪性肺結節または良性肺結節として分類することを示すレポートを電子的に出力するように個々にまたは集合的にプログラムされる1つまたは複数のコンピュータプロセッサーを含むコンピュータシステムを対象とする。
【0109】
[0108] 態様37は、1つまたは複数のコンピュータプロセッサーに作動可能にカップリングした電子ディスプレイをさらに含み、電子ディスプレイがレポートを表示するように構成されたグラフィックユーサーインターフェースを含む、態様36に記載のコンピュータシステムを対象とする。
【0110】
[0109] 態様38は、1つまたは複数のコンピュータプロセッサーによって実行される場合に、対象の肺結節を評価する方法をインプリメントする機械実行可能コードを集合的に含む1つまたは複数の非一時的コンピュータ可読媒体であって、方法が、
(a)対象から得られたまたは対象に由来する生体試料をアッセイして、複数の肺疾患関連遺伝子座の各々で生体試料の遺伝子発現測定値を含むデータセットを生成する工程であって、複数の疾患関連ゲノム座が、表1、2、3、4、5、7、および8の任意の1つまたは複数に記載される遺伝子の群から選択される少なくとも1つの遺伝子を含む工程;
(b)データセットを解析して、対象の肺結節を悪性肺結節または良性肺結節として分類する工程;ならびに
(c)対象の肺結節が悪性肺結節または良性肺結節として分類されることを示すレポートを電子的に出力する工程
を含む、非一時的コンピュータ可読媒体を対象とする。
【0111】
[0110] 態様39は、患者の肺結節を評価する方法であって、
a)i)表1、2、3、4、5、7、および8の任意の1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、ならびにii)任意選択により表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含むデータセットを得る工程であって、生体試料が、血液試料、単離された末梢血単核球(PBMC)、またはその任意の派生物である工程;
b)データセットが悪性肺結節を示すか良性肺結節を示すかに関する推論を生成するように訓練された機械学習モデルに、データセットを入力として提供する工程;
c)データセットが悪性肺結節を示すか良性肺結節を示すかを示す推論を、機械学習モデルの出力として受信する工程;ならびに
d)患者の肺結節を悪性肺結節または良性肺結節として分類するレポートを電子的に出力する工程
を含む方法を対象とする。
【0112】
[0111] 一部の実施形態では、態様39のデータセットは、表1に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様39のデータセットは、表2に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様39のデータセットは、表3に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様39のデータセットは、表4に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様39のデータセットは、表5に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様39のデータセットは、表7に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様39のデータセットは、表8に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様39のデータセットは、i)表1に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様39のデータセットは、i)表2に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様39のデータセットは、i)表3に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様39のデータセットは、i)表4に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様39のデータセットは、i)表5に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様39のデータセットは、i)表7に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様39のデータセットは、i)表8に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。
【0113】
[0112] 態様40は、少なくとも2つの肺疾患関連遺伝子が表7に記載される遺伝子の群から選択される、態様39に記載の方法を対象とする。
【0114】
[0113] 態様41は、1つまたは複数の臨床特性が、結節のサイズ、患者の年齢、および肺上葉における結節の存在を含む、態様39または40に記載の方法を対象とする。
【0115】
[0114] 態様42は、機械学習モデルが、線形回帰、ロジスティック回帰(LOG)、リッジ回帰、ラッソ回帰、エラスティックネット(EN)回帰、サポートベクトルマシン(SVM)、勾配ブースティングマシン(GBM)、k最近傍法(kNN)、一般化線形モデル(GLM)、ナイーブベイズ(NB)分類器、ニューラルネットワーク、ランダムフォレスト(RF)、ディープラーニングアルゴリズム、線形判別分析(LDA)、決定木学習(DTREE)、適応型ブースティング(ADB)、またはその任意の組合せを使用して開発される、態様39から41のいずれか1つに記載の方法を対象とする。
【0116】
[0115] 態様43は、患者が肺がんを有する、態様39~42のいずれか1つに記載の方法を対象とする。
【0117】
[0116] 態様44は、患者が肺がんを有しない、態様39~42のいずれか1つに記載の方法を対象とする。
【0118】
[0117] 態様45は、患者が肺がんを有するリスクが上昇している、態様39~42のいずれか1つに記載の方法を対象とする。
【0119】
[0118] 態様46は、患者が肺がんに関して無症候性である、態様39~43および45のいずれか1つに記載の方法を対象とする。
【0120】
[0119] 態様47は、患者の結節が悪性結節として分類されたことに基づいて処置を投与する工程をさらに含む、態様39~43、45、および46のいずれか1つに記載の方法を対象とする。
【0121】
[0120] 態様48は、処置が、手術、化学療法、標的化治療、免疫療法、放射線療法、またはその任意の組合せである、態様47に記載の方法を対象とする。
【0122】
[0121] 態様49は、推論が、肺結節が悪性である0から1の間の信頼度を含む、態様39~48のいずれか1つに記載の方法を対象とする。
【0123】
[0122] 態様50は、少なくとも2つの肺疾患関連遺伝子が、表4に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、または295個の遺伝子を含む、態様39~49のいずれか1つに記載の方法を対象とする。
【0124】
[0123] 態様51は、少なくとも2つの肺疾患関連遺伝子が、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含む、態様39~50のいずれか1つに記載の方法を対象とする。
【0125】
[0124] 態様52は、患者の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率で悪性肺結節または良性肺結節として分類する工程を含む、態様39~51のいずれか1つに記載の方法を対象とする。
【0126】
[0125] 態様53は、患者の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度で悪性肺結節または良性肺結節として分類する工程を含む、態様39~52のいずれか1つに記載の方法を対象とする。
【0127】
[0126] 態様54は、患者の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度で悪性肺結節または良性肺結節として分類する工程を含む、態様39~53のいずれか1つに記載の方法を対象とする。
【0128】
[0127] 態様55は、患者の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度で悪性肺結節または良性肺結節として分類する工程を含む、態様39~54のいずれか1つに記載の方法を対象とする。
【0129】
[0128] 態様56は、患者の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度で悪性肺結節または良性肺結節として分類する工程を含む、態様39~55のいずれか1つに記載の方法を対象とする。
【0130】
[0129] 態様57は、訓練された機械学習モデルが、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.91、少なくとも約0.92、少なくとも約0.93、少なくとも約0.94、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、少なくとも約0.99、または約0.99より高い曲線下面積(AUC)を有する受信者動作特性曲線(ROC)を有する、態様39~56のいずれか1つに記載の方法を対象とする。
【0131】
[0130] 態様58は、患者の肺結節を評価するためのシステムであって、
1つまたは複数のプロセッサー;および
1つまたは複数のプロセッサーによる実行の結果として、システムに、
表1、2、3、4、5、7、および8の任意の1つまたは複数に記載される遺伝子の群から選択される複数の肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)任意選択により、表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含むデータセットをデータベースから得る工程であって、生体試料が、血液試料、単離された末梢血単核球(PBMC)、またはその任意の派生物である工程;
データセットが悪性肺結節を示すか良性肺結節を示すかに関する推論を生成するように訓練された機械学習モデルに、データセットを入力として提供する工程;
機械学習モデルの出力として、複合データセットが悪性肺結節を示すか良性肺結節を示すかを示す推論を受信する工程;ならびに
患者の肺結節を悪性肺結節または良性肺結節として分類するレポートを作成する工程
を実行させる実行可能命令を保存する1つまたは複数のメモリ
を含むシステムを対象とする。
【0132】
[0131] 一部の実施形態では、態様58のデータセットは、表1に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様58のデータセットは、表2に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様58のデータセットは、表3に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様58のデータセットは、表4に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様58のデータセットは、表5に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様58のデータセットは、表7に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様58のデータセットは、表8に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様58のデータセットは、i)表1に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様58のデータセットは、i)表2に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様58のデータセットは、i)表3に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様58のデータセットは、i)表4に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様58のデータセットは、i)表5に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様58のデータセットは、i)表7に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様58のデータセットは、i)表8に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。
【0133】
[0132] 態様59は、コンピュータシステムの1つまたは複数のプロセッサーによる実行の結果として、コンピュータシステムに、
表1、2、3、4、5、7、および8の任意の1つまたは複数に記載される遺伝子の群から選択される複数の肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)任意選択により、表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含むデータセットをデータベースから得る工程であって、生体試料が、血液試料、単離された末梢血単核球(PBMC)、またはその任意の派生物である工程;
データセットが悪性肺結節を示すか良性肺結節を示すかに関する推論を生成するように訓練された機械学習モデルに、データセットを入力として提供する工程;
機械学習モデルの出力として、複合データセットが悪性肺結節を示すか良性肺結節を示すかを示す推論を受信する工程;ならびに
患者の肺結節を悪性肺結節または良性肺結節として分類するレポートを作成する工程
を実行させる、患者の肺結節を評価するための実行可能命令を保存する非一時的コンピュータ可読媒体を対象とする。
【0134】
[0133] 一部の実施形態では、態様59のデータセットは、表1に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様59のデータセットは、表2に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様59のデータセットは、表3に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様59のデータセットは、表4に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様59のデータセットは、表5に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様59のデータセットは、表7に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様59のデータセットは、表8に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様59のデータセットは、i)表1に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様59のデータセットは、i)表2に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様59のデータセットは、i)表3に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様59のデータセットは、i)表4に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様59のデータセットは、i)表5に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様59のデータセットは、i)表7に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様59のデータセットは、i)表8に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。
【0135】
[0134] 態様60は、生検を実施することなく肺結節が良性であるか悪性であるかを分類することが可能な遺伝子セットを決定する方法であって、
複数の個々の参照データセットを含む参照データセットを得る工程であって、複数の個々の参照データセットのそれぞれの個々の参照データセットが、i)肺結節を有する参照対象の参照生体試料の複数の遺伝子の遺伝子発現測定値、ii)参照対象の肺結節が良性であるか悪性であるかに関するデータ、およびiii)任意選択により、参照対象の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含み、参照生体試料が、血液試料、単離された末梢血単核球(PBMC)、またはその任意の派生物である工程;
参照データセットを使用して機械学習モデルを訓練する工程であって、機械学習モデルが、複数の遺伝子から選択される1つまたは複数の予測子および任意選択により1つまたは複数の臨床特性に少なくとも部分的に基づいて、肺結節が良性であるか悪性であるかを推論するように訓練される工程;
複数の遺伝子の特徴量重要度の値を決定する工程;ならびに
特徴量重要度の値に少なくとも部分的に基づいて遺伝子セットを決定する工程
を含む方法を対象とする。
【0136】
[0135] 一部の実施形態では、態様60のそれぞれの個々の参照データセットは、i)参照生体試料の複数の遺伝子の遺伝子発現測定値、およびii)参照対象の肺結節が良性であるか悪性であるかに関するデータを含み;ならびに機械学習モデルは、複数の遺伝子から選択される1つまたは複数の予測子に少なくとも部分的に基づいて肺結節が良性であるか悪性であるかを推論するように訓練される。一部の実施形態では、態様60のそれぞれの個々の参照データセットは、i)参照生体試料の複数の遺伝子の遺伝子発現測定値、ii)参照対象の肺結節が良性であるか悪性であるかに関するデータ、およびiii)任意選択により参照対象の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含み;ならびに機械学習モデルは、肺結節が良性であるか悪性であるかを、複数の遺伝子から選択される1つまたは複数の予測子および1つまたは複数の臨床特性に少なくとも部分的に基づいて肺結節が良性であるか悪性であるかを推論するように訓練される。
【0137】
[0136] 態様61は、複数の遺伝子が、表9に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む、態様60に記載の方法を対象とする。
【0138】
[0137] 態様62は、患者の肺結節が良性であるか悪性であるかを推論することが可能な訓練された機械学習モデルを開発する方法であって、
(a)複数の第1の個々の参照データセットを含む第1の参照データセットを得る工程であって、複数の第1の個々の参照データセットのそれぞれの第1の個々の参照データセットが、i)肺結節を有する参照対象の参照生体試料の複数の遺伝子の遺伝子発現測定値、ii)参照対象の肺結節が良性であるか悪性であるかに関するデータ、およびiii)任意選択により、参照対象の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含み、生体試料が、血液試料、単離された末梢血単核球(PBMC)、またはその任意の派生物である工程;
(b)第1の参照データセットを使用して第1の機械学習モデルを訓練する工程であって、第1の機械学習モデルが、複数の遺伝子から選択される1つまたは複数の予測子、および任意選択により1つまたは複数の臨床特性に少なくとも部分的に基づいて、肺結節が良性であるか悪性であるかを推論するように訓練される工程;
(c)第1の機械学習モデルの1つまたは複数の予測子の特徴量重要度の値を決定する工程;
(d)特徴量重要度の値に少なくとも部分的に基づいて第1の機械学習モデルのA個の予測子を選択する工程であって、Aが5~2000の整数である工程;ならびに
(e)複数の第2の個々の参照データセットを含む第2の参照データセットに少なくとも部分的に基づいて第2の機械学習モデルを訓練する工程であって、複数の第2の個々の参照データセットのそれぞれの第2の個々の参照データセットが、訓練された機械学習モデルを得るために、i)参照対象のA個の予測子の測定データ、ii)参照対象の肺結節が良性であるか悪性であるかに関するデータを含み、訓練された機械学習モデルが、A個の予測子の測定データに少なくとも部分的に基づいて、肺結節が良性であるか悪性であるかを推論するように訓練される工程
を含む方法を対象とする。
【0139】
[0138] 一部の実施形態では、態様62のそれぞれの第1の個々の参照データセットは、i)参照生体試料の複数の遺伝子の遺伝子発現測定値、およびii)参照対象の肺結節が良性であるか悪性であるかに関するデータを含み;ならびに第1の機械学習モデルは、複数の遺伝子から選択される1つまたは複数の予測子に少なくとも部分的に基づいて肺結節が良性であるか悪性であるかを推論するように訓練される。一部の実施形態では、態様60のそれぞれの第1の個々の参照データセットは、i)参照生体試料の複数の遺伝子の遺伝子発現測定値、ii)参照対象の肺結節が良性であるか悪性であるかに関するデータ、およびiii)任意選択により、参照対象の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含み;ならびに第1の機械学習モデルは、複数の遺伝子から選択される1つまたは複数の予測子および1つまたは複数の臨床特性に少なくとも部分的に基づいて、肺結節が良性であるか悪性であるかを推論することができる。
【0140】
[0139] 態様63は、複数の遺伝子が、表9に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む、62の態様を対象とする。
【0141】
[0140] 態様64は、A個の予測子が、上位5~200の特徴量重要度の値を有する、態様62または63のいずれかに記載の方法を対象とする。
【0142】
[0141] 態様65は、訓練された機械学習モデルが、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率を有する、態様62~64のいずれか1つに記載の方法を対象とする。
【0143】
[0142] 態様66は、訓練された機械学習モデルが、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度を有する、態様62~65のいずれか1つに記載の方法を対象とする。
【0144】
[0143] 態様67は、訓練された機械学習モデルが、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度を有する、態様62~66のいずれか1つに記載の方法を対象とする。
【0145】
[0144] 態様68は、訓練された機械学習モデルが、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度を有する、態様62~67のいずれか1つに記載の方法を対象とする。
【0146】
[0145] 態様69は、訓練された機械学習モデルが、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度を有する、態様62~68のいずれか1つに記載の方法を対象とする。
【0147】
[0146] 態様70は、訓練された機械学習モデルが、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.91、少なくとも約0.92、少なくとも約0.93、少なくとも約0.94、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、少なくとも約0.99、または約0.99より高い曲線下面積(AUC)を有する受信者動作特性(ROC)曲線を有する、態様62~69のいずれか1つに記載の方法を対象とする。
【0148】
[0147] 態様71は、第1の機械学習モデルおよび第2の機械学習モデルが、線形回帰、ロジスティック回帰(LOG)、リッジ回帰、ラッソ回帰、エラスティックネット(EN)回帰、サポートベクトルマシン(SVM)、勾配ブースティングマシン(GBM)、k最近傍法(kNN)、一般化線形モデル(GLM)、ナイーブベイズ(NB)分類器、ニューラルネットワーク、ランダムフォレスト(RF)、ディープラーニングアルゴリズム、線形判別分析(LDA)、決定木学習(DTREE)、適応型ブースティング(ADB)、またはその任意の組合せを使用して独立して訓練される、態様62~70のいずれか1つに記載の方法を対象とする。
【0149】
[0148] 態様72は、患者の肺結節を評価する方法であって、
(a)態様62~64のいずれか1つに記載のA個の予測子の1つまたは複数に関する患者の測定データを含むデータセットを得る工程;
(b)データセットが悪性肺結節を示すか良性肺結節を示すかに関する推論を生成するように、請求項62~71のいずれか1つに記載の方法に従って訓練された、訓練された機械学習モデルにデータセットを入力として提供する工程;
(c)機械学習モデルの出力として、データセットが悪性肺結節を示すか良性肺結節を示すかを示す推論を受信する工程;および
(d)患者の肺結節を悪性肺結節または良性肺結節として分類するレポートを電子的に出力する工程
を含む方法を対象とする。
【0150】
[0149] 態様73は、生体試料が、血液試料、単離された末梢血単核球(PBMC)、またはその任意の派生物である、態様72に記載の方法を対象とする。
【0151】
[0150] 態様74は、患者が肺がんを有する、態様72または73のいずれかに記載の方法を対象とする。
【0152】
[0151] 態様75は、患者が肺がんを有しない、態様72または73のいずれかに記載の方法を対象とする。
【0153】
[0152] 態様76は、患者が肺がんを有するリスクが上昇している、態様72または73のいずれかに記載の方法を対象とする。
【0154】
[0153] 態様77は、患者が肺がんに関して無症候性である、態様72~74および76のいずれか1つに記載の方法を対象とする。
【0155】
[0154] 態様78は、患者の結節が悪性結節として分類されたことに基づいて処置を投与する工程をさらに含む、態様72~74、76、および77のいずれか1つに記載の方法を対象とする。
【0156】
[0155] 態様79は、処置が、手術、化学療法、標的化治療、免疫療法、放射線療法、またはその任意の組合せである、態様78に記載の方法を対象とする。
【0157】
[0156] 態様80は、肺結節を有する患者における肺がんを処置する方法であって、
(a)i)表1、2、3、4、5、7、および8の任意の1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)任意選択により、患者の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含むデータセットを得る工程であって、生体試料が、血液試料、単離された末梢血単核球(PBMC)、またはその任意の派生物である工程;
(b)データセットが悪性肺結節を示すか良性肺結節を示すかに関する推論を生成するように訓練された、訓練された機械学習モデルにデータセットを入力として提供する工程;
(c)機械学習モデルの出力として、データセットが悪性肺結節を示すか良性肺結節を示すかを示す推論を受信する工程;ならびに
(d)患者の肺結節が悪性肺結節として分類されたことに基づいて処置を投与する工程
を含む方法を対象とする。
【0158】
[0157] 一部の実施形態では、態様80のデータセットは、表1に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様80のデータセットは、表2に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様80のデータセットは、表3に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様80のデータセットは、表4に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様80のデータセットは、表5に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様80のデータセットは、表7に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様80のデータセットは、表8に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値を含む。一部の実施形態では、態様80のデータセットは、i)表1に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様80のデータセットは、i)表2に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様80のデータセットは、i)表3に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様80のデータセットは、i)表4に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様80のデータセットは、i)表5に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様80のデータセットは、i)表7に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、態様80のデータセットは、i)表8に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含む。
【0159】
[0158] 態様81は、少なくとも2つの肺疾患関連遺伝子が、表7に記載される遺伝子の群から選択される、態様80に記載の方法を対象とする。
【0160】
[0159] 態様82は、1つまたは複数の臨床特性が、結節のサイズ、患者の年齢、および肺上葉における結節の存在を含む、態様80または81のいずれかに記載の方法を対象とする。
【0161】
[0160] 態様83は、機械学習モデルが、線形回帰、ロジスティック回帰(LOG)、リッジ回帰、ラッソ回帰、エラスティックネット(EN)回帰、サポートベクトルマシン(SVM)、勾配ブースティングマシン(GBM)、k最近傍法(kNN)、一般化線形モデル(GLM)、ナイーブベイズ(NB)分類器、ニューラルネットワーク、ランダムフォレスト(RF)、ディープラーニングアルゴリズム、線形判別分析(LDA)、決定木学習(DTREE)、適応型ブースティング(ADB)、またはその任意の組合せを使用して開発される、態様80~82のいずれか1つに記載の方法を対象とする。
【0162】
[0161] 態様84は、処置が、手術、化学療法、標的化治療、免疫療法、放射線療法、またはその任意の組合せである、態様80~83のいずれか1つに記載の方法を対象とする。
【0163】
[0162] 態様85は、推論が、肺結節が悪性である0から1の間の信頼度を含む、態様80~84のいずれか1つに記載の方法を対象とする。
【0164】
[0163] 態様86は、少なくとも2つの肺疾患関連遺伝子が、表4に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、または295個の遺伝子を含む、態様80~85のいずれか1つに記載の方法を対象とする。
【0165】
[0164] 態様87は、少なくとも2つの肺疾患関連遺伝子が、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含む、態様80~86のいずれか1つに記載の方法を対象とする。
【0166】
[0165] 態様88は、患者の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率で悪性肺結節または良性肺結節として分類する工程を含む、態様80~87のいずれか1つに記載の方法を対象とする。
【0167】
[0166] 態様89は、患者の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度で悪性肺結節または良性肺結節として分類する工程を含む、態様80~88のいずれか1つに記載の方法を対象とする。
【0168】
[0167] 態様90は、患者の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度で悪性肺結節または良性肺結節として分類する工程を含む、態様80~89のいずれか1つに記載の方法を対象とする。
【0169】
[0168] 態様91は、患者の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度で悪性肺結節または良性肺結節として分類する工程を含む、態様80~90のいずれか1つに記載の方法を対象とする。
【0170】
[0169] 態様92は、患者の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度で悪性肺結節または良性肺結節として分類する工程を含む、態様80~91のいずれか1つに記載の方法を対象とする。
【0171】
[0170] 態様93は、訓練された機械学習モデルが、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.91、少なくとも約0.92、少なくとも約0.93、少なくとも約0.94、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、少なくとも約0.99、または約0.99より高い曲線下面積(AUC)を有する受信者動作特性(ROC)曲線を有する、態様80~92のいずれか1つに記載の方法を対象とする。
【0172】
[0171] 本開示の追加の態様および実施形態は、本開示の例示的な実施形態のみを示して説明する以下の詳細な説明から当業者には容易に明らかとなるであろう。認識されるように、本開示は、他のおよび異なる実施形態が可能であり、その一部の詳細は、すべて本開示から逸脱することなく、様々な明白な態様において改変することが可能である。したがって、図面および説明は、本質的に例示的であり、限定的であるとみなされない。
【0173】
参照による組込み
[0172] 本明細書において言及されるすべての刊行物、特許、および特許出願は、各々の個々の刊行物、特許、または特許出願が、参照により組み込まれることを特におよび個々に示されたのと同じ程度まで参照により本明細書に組み込まれる。参照により組み込まれる刊行物および特許または特許出願が本明細書に含有される開示と矛盾する場合、本明細書が、任意のそのような矛盾する内容に対して代用されるおよび/または優先されることが意図される。
【0174】
図面の簡単な説明
[0173] 本開示の新規の特徴は、添付の請求項において精密に記載されている。本開示の特徴および利点のより良好な理解は、本開示の原理が利用される実例的な実施形態を記載する以下の詳細な説明、および以下の内容の添付の図面を参照することにより得られる。
【図面の簡単な説明】
【0175】
【
図1A】[0174]
図1Aは、悪性肺結節と良性肺結節とを区別するための、リボ核酸(RNA)シークエンシング(RNA-Seq)データから生成された1,178個の遺伝子特徴量のセットを使用する8個の機械学習分類器の性能を示す受信者動作特性(ROC)プロットである。1,178個の遺伝子は、悪性肺結節を有する患者の血液試料中と良性肺結節を有する患者の血液試料中との間で差次的に発現された。8個の機械学習分類器は、LOG、GLM、kNN、RF、SVM、GBM、NB、およびENを含む。
【
図1B】[0175]
図1Bは、悪性肺結節と良性肺結節とを区別するために1,178個の遺伝子特徴量のセットを使用してRNA Seqデータを分析する例示的な訓練された機械学習分類器アルゴリズムの結果を示す。
【
図2A】[0176]
図2Aは、RNA-Seqデータの分析に基づいて悪性肺結節と良性肺結節とを区別するための差次的に発現される遺伝子の最適化のためのROCプロットである。6個の機械学習分類器は、LOG、GLM、kNN、RF、SVM、およびGBMを含む。
【
図2B】[0177]
図2Bは、悪性肺結節と良性肺結節とを区別するための差次的に発現される遺伝子の
図2Aの最適化における例示的な訓練された機械学習分類器アルゴリズムの結果を示す。
【
図3A】[0178]
図3Aは、悪性肺結節と良性肺結節とを区別するための、RNA-Seqデータから生成された182個の遺伝子特徴量のセットを使用する8個の機械学習分類器の性能を示すROCプロットである。8個の機械学習分類器は、LOG、GLM、kNN、RF、SVM、GBM、NB、およびENを含む。
【
図3B】[0179]
図3Bは、悪性肺結節と良性肺結節とを区別するために182個の遺伝子特徴量のセットを使用してRNASeqデータを分析する例示的な訓練された機械学習分類器アルゴリズムの結果を示す。
【
図4A】[0180]
図4Aは、悪性肺結節と良性肺結節とを区別するための、RNA-Seqデータから生成された182個の遺伝子特徴量のセットを使用する機械学習分類器の性能を示すROCプロットである。8個の機械学習分類器は、LOG、GLM、kNN、RF、SVM、GBM、NB、およびENを含む。
【
図4B】[0181]
図4Bは、
図4Aに対応する例示的な訓練された機械学習分類器アルゴリズムの結果を表にしたものを示す。
【
図5A】[0182]
図5Aは、悪性肺結節と良性肺結節とを区別するための、RNA-Seqデータから生成された175個の遺伝子特徴量のセットを使用する8個の機械学習分類器の性能を示すROCプロットである。8個の機械学習分類器は、LOG、GLM、kNN、RF、SVM、GBM、NB、およびENを含む。
【
図5B】[0183]
図5Bは、
図5Aに対応する例示的な訓練された機械学習分類器アルゴリズムの結果を表にしたものを示す。
【
図6A】[0184]
図6Aは、悪性肺結節と良性肺結節とを区別するための、RNA-Seqデータから生成された62個の遺伝子特徴量のセットを使用する機械学習分類器の性能を示すROCプロットである。8個の機械学習分類器は、LOG、GLM、kNN、RF、SVM、GBM、NB、およびENを含む。
【
図6B】[0185]
図6Bは、
図6Aに対応する例示的な訓練された機械学習分類器アルゴリズムの結果を表にしたものを示す。
【
図7A】[0186]
図7Aは、悪性肺結節と良性肺結節とを区別するための、RNA-Seqデータから生成された295個の遺伝子特徴量のセットを使用する機械学習分類器の性能を示すROCプロットである。8個の機械学習分類器は、LOG、GLM、kNN、RF、SVM、GBM、NB、およびENを含む。
【
図7B】[0187]
図7Bは、
図7Aに対応する例示的な訓練された機械学習分類器アルゴリズムの結果を表にしたものを示す。
【
図8A】[0188]
図8Aは、悪性肺結節と良性肺結節とを区別するための、RNA-Seqデータから生成された175個の遺伝子特徴量のセットを使用する機械学習分類器の性能を示すROCプロットである。8個の機械学習分類器は、LOG、GLM、kNN、RF、SVM、GBM、NB、およびENを含む。
【
図8B】[0189]
図8Bは、
図8Aに対応する例示的な訓練された機械学習分類器アルゴリズムの結果を表にしたものを示す。
【
図9A】[0190]
図9Aは、175個の遺伝子特徴量のセットを使用してロジスティック回帰分類器により予測された肺結節の累積的な比率である。
【
図9B】[0191]
図9Bは、175個の遺伝子特徴量のセットを使用して勾配ブースティング分類器により予測された肺結節の累積的な比率である。
【
図10】[0192]
図10は、対象の肺結節を評価する例示的な方法1000の概要を図示する。
【
図11】[0193]
図11は、本明細書において提供される方法を実行するようにプログラムされているか、または他に構成されたコンピュータシステム1101を示す。
【
図12】[0194]
図12は、表6に記載される8個の臨床特性特徴量の相関プロットを示す。
【
図13】[0195]
図13A~E:
図13Aは、(152人の患者において)悪性肺結節と良性肺結節とを区別するための、表6に記載される8個の臨床特性特徴量の臨床特性データを使用する9個の機械学習分類器の性能を示すROCプロットを示す。
図13Bは、悪性肺結節と良性肺結節とを区別するための、8個の臨床特性特徴量(表6)の臨床特性データを使用する9個の機械学習分類器の精度/再現率曲線を示す。
図13Cは、
図13Aに対応する9個の機械学習分類器の結果を表にしたものを示す。
図13Dは、9個の機械学習分類器のための8個の臨床特性特徴量(表6)の特徴量重要度を示す。
図13Eは、9個すべての分類器のための8個の臨床特性特徴量の特徴量重要度を示す。9個の機械学習分類器は、LOG、RF、SVM、DTREE、ADB、NB、LDA、kNN、およびGBMである。
【
図14】[0196]
図14A~E:
図14Aは、悪性肺結節と良性肺結節とを区別するための、4個の臨床特性特徴量、NCNSZE(結節サイズ)、NCNUPYN(上葉における結節)、AGE、およびNCNMYN(小棘形成した結節)の臨床特性データを使用する9個の機械学習分類器の性能を示すROCプロットを示す。
図14Bは、悪性肺結節と良性肺結節とを区別するための、4個の臨床特性特徴量の臨床特性データを使用する9個の機械学習分類器の精度/再現率曲線を示す。
図14Cは、
図14Aに対応する9個の機械学習分類器の結果を表にしたものを示す。
図14Dは、9個の機械学習分類器のための4個の臨床特性特徴量の特徴量重要度を示す。
図14Eは、9個すべての分類器のための4個の臨床特性特徴量の特徴量重要度を示す。9個の機械学習分類器は、LOG、RF、SVM、DTREE、ADB、NB、LDA、kNN、およびGBMである。
【
図15】[0197]
図15A~E:
図15Aは、悪性肺結節と良性肺結節とを区別するための、9個の臨床特性特徴量(表6における8個の特徴量およびがんの履歴)の臨床特性データを使用する9個の機械学習分類器の性能を示すROCプロットを示す。
図15Bは、悪性肺結節と良性肺結節とを区別するための、9個の臨床特性特徴量の臨床特性データを使用する9個の機械学習分類器の精度/再現率曲線を示す。
図15Cは、
図15Aに対応する9個の機械学習分類器の結果を表にしたものを示す。
図15Dは、9個の機械学習分類器のための9個の臨床特性特徴量の特徴量重要度を示す。
図15Eは、9個すべての分類器のための9個の臨床特性特徴量の特徴量重要度を示す。9個の機械学習分類器は、LOG、RF、SVM、DTREE、ADB、NB、LDA、kNN、およびGBMである。
【
図16】[0198]
図16A~D:
図16Aは、悪性肺結節と良性肺結節とを区別するための、142個の遺伝子特徴量(表5)の遺伝子発現データ、ならびに3個の臨床特徴量(NCNSZE(結節サイズ)、NCNUPYN(上葉における結節)、およびAGE)の臨床特性データを使用する9個の機械学習分類器の性能を示すROCプロットを示す。
図16Bは、悪性肺結節と良性肺結節とを区別するための、142個の遺伝子特徴量の遺伝子発現データ、および3個の臨床特徴量の臨床特性データを使用する9個の機械学習分類器の精度/再現率曲線を示す。
図16Cは、
図16Aに対応する9個の機械学習分類器の結果を表にしたものを示す。
図16Dは、オーバーサンプリングの補正(例えば良性肺結節を有する80個の試料、および悪性肺結節を有する80個の試料)を適用した
図16Aに対応する9個の機械学習分類器の結果を表にしたものを示す。9個の機械学習分類器は、LOG、RF、SVM、DTREE、ADB、NB、LDA、kNN、およびGBMである。
【
図17】[0199]
図17A~E:
図17Aは、悪性肺結節と良性肺結節とを区別するための、34個の予測子(表7)の測定データを使用する9個の機械学習分類器の性能を示すROCプロットを示す。
図17Bは、悪性肺結節と良性肺結節とを区別するための、34個の予測子の測定データを使用する9個の機械学習分類器の精度/再現率曲線を示す。
図17Cは、
図17Aに対応する機械学習分類器LOGおよびRFの結果を表にしたものを示す。
図17Dは、オーバーサンプリングの補正(例えば良性肺結節を有する80個の試料、および悪性肺結節を有する80個の試料)を適用した、
図17Aに対応する9個の機械学習分類器の結果を表にしたものを示す。
図17Eは、9個すべての分類器のための34個の臨床特性特徴量の特徴量重要度を示す。9個の機械学習分類器は、LOG、RF、SVM、DTREE、ADB、NB、LDA、kNN、およびGBMである。
【
図18】
図18A~C:
図18Aは、悪性肺結節と良性肺結節とを区別するための、175個の遺伝子特徴量(表2)の遺伝子発現データ、ならびに4個の臨床特徴量(NCNSZE(結節サイズ)、NCNUPYN(上葉における結節)、AGE、およびNCNMYN(小棘形成した結節))の臨床特性データを使用する9個の機械学習分類器の性能を示すROCプロットを示す。
図18Bは、悪性肺結節と良性肺結節とを区別するための、175個の遺伝子特徴量の遺伝子発現データ、および4個の臨床特徴量の臨床特性データを使用する9個の機械学習分類器の精度/再現率曲線を示す。
図18Cは、
図18Aに対応する9個の機械学習分類器の結果を表にしたものを示す。9個の機械学習分類器は、LOG、RF、SVM、DTREE、ADB、NB、LDA、kNN、およびGBMである。
【発明を実施するための形態】
【0176】
[0200] 詳細な説明
【0177】
[0201] 本開示のある特定の態様では、機械学習を使用して、患者の肺結節を評価するための方法およびシステムが開示される。方法は、結節の生検を実施することなく、良性または悪性として肺結節を分類することができる。ある特定の実施形態では、結節の生検は、機械学習分類からの結果を確認するため、および/またはそのフォローアップのために実施されてもよい。実施例において非限定的な方式で示されるように、患者の生体試料の遺伝子発現測定値、および任意選択により患者の臨床特性データを使用して、本開示の機械学習方法は結節を分類することができる。生体試料は血液試料であり得る。方法は、相対的に高い正解率、特異度、選択性、陽性的中度、および/または陰性的中度を有することができる。さらに、実施例5において非限定的な方式で示されるように、遺伝子発現データのみを使用する場合と比較して遺伝子発現データおよび臨床特性データの両方を使用して、機械学習モデルおよび方法の予測力(例えば正解率、特異度、選択性、陽性的中度、および/または陰性的中度)が向上され得ることもまた見出された。例えば、
図17Dに示されるように、0.9を上回る正解率、特異度、選択性が、遺伝子および臨床特性を含有する相対的により少ない数の予測子を使用するある特定の機械学習モデルを用いて得られ得る。ある特定の実施形態では、肺がんの処置は、機械学習分類からの結果に基づいて投与され得る。本開示のある特定の実施形態の潜在的な利益の1つは、ML分類モデルが、肺結節が良性または悪性であることを高い信頼度で出力する場合に生検が回避され得ることである。ここでの利益は、従来技術において、生検は、肺結節が良性であるか悪性であるかを決定するための唯一の仕方であることから、常に実施されるということである。しかしながら、生検手順は本来的なリスクを有し、生検のリスクは、個々の状況に基づいて、他の患者ではそうでないが一部の患者について利益を凌ぎ得る。MLモデルは、生検を得ることの利益が生検手順のリスクを凌ぐかどうかの情報を臨床医に、より良好に与えるために使用され得る(例えば、我々は、生検が回避されるべき例、場合により、患者が、(1)何らかの他の健康関連状態または腫瘍の位置に起因して生検の合併症の高まったリスクがある例、および(2)血液試料が、肺結節が良性または悪性である高い可能性を有することを示す例に対処することができる)。我々が取り組んでいるシナリオのほとんどは悪性肺結節の事例をより正確に同定することに焦点を当てているが、不必要な生検を回避する能力もまた技術的長所/実施上の利益と考えられ得る。
【0178】
[0202] 本発明の様々な実施形態が本明細書に示され、記載されているが、そのような実施形態は例としてのみ提供されていることは当業者に自明である。多数のバリエーション、変化、および置換が、本発明から離れることなく当業者に想起され得る。本明細書に記載される発明の実施形態に対する様々な代替が用いられてもよいことが理解されるべきである。
【0179】
[0203] 本明細書の全体を通じて使用される様々な用語は、文脈が他に示さなければ、以下のように読まれ、理解され得る:全体を通じて使用される「または」は、「および/または」と記載されたかのように包含的であり;全体を通じて使用される単数の冠詞および代名詞は、それらの複数形を含み、逆もまた成立し;同様に、性別のある代名詞は、それらの対応代名詞を含み、その結果、代名詞は、本明細書に記載されるものを、単一の性別による使用、インプリメンテーション、性能等に限定するとして理解されるべきではなく;「例示的な」は「実例的な」または「~を例示する」として理解されるべきであり、必ずしも他の実施形態よりも「好ましい」として理解されるべきではない。用語のためのさらなる定義が本明細書において記載されることがあり;これらは、本明細書を読むことで理解されるように、それらの用語の先行するおよび後続する事例に適用され得る。用語「少なくとも~」、「~より大きい」、または「~より大きいまたは~に等しい」が2つ以上の数値のシリーズ中の第1の数値に続く場合、用語「少なくとも~」、「~より大きい」または「~より大きいまたは~に等しい」は、数値のそのシリーズ中の数値の各々に適用される。例えば、1、2、または3より大きいまたはそれに等しいは、1より大きいもしくは1に等しい、2より大きいもしくは2に等しい、または3より大きいもしくは3に等しいと同等である。
【0180】
[0204] 用語「~以下の」、「~より小さい」、または「~より小さいまたは~に等しい」が2つ以上の数値のシリーズ中の第1の数値に続く場合はいつでも、用語「~以下の」、「~より小さい」、または「~より小さいまたは~に等しい」は、数値のそのシリーズ中の数値の各々に適用される。例えば、3、2、または1より小さいまたはそれに等しいは、3より小さいもしくは3に等しい、2より小さいもしくは2に等しい、または1より小さいもしくは1に等しいと同等である。
【0181】
[0205] 用語「対象」、または「参照対象」は、本明細書において使用される場合、ヒト、例えば患者を一般に指す。対象は、肺がん、良性肺結節、もしくは悪性肺結節を有する人物(例えば、患者);または肺がん、良性肺結節、もしくは悪性肺結節について処置されている人物;または肺がん、良性肺結節、もしくは悪性肺結節についてモニターされている人物;または肺がん、良性肺結節、もしくは悪性肺結節を有することが疑われる人物;または肺がん、良性肺結節、もしくは悪性肺結節を有することも有する疑いもない人物であってもよい。用語「患者」は、本明細書において使用される場合、ヒト患者を一般に指す。患者は、肺がん、良性肺結節、もしくは悪性肺結節を有する人物;または肺がん、良性肺結節、もしくは悪性肺結節について処置されている人物;または肺がん、良性肺結節、もしくは悪性肺結節についてモニターされている人物;または肺がん、良性肺結節、もしくは悪性肺結節を有することが疑われる人物;または肺がん、良性肺結節、もしくは悪性肺結節を有することも有する疑いもない人物であってもよい。
【0182】
[0206] 血液試料は、全血、血液細胞、血清、血漿、またはその任意の組合せであり得る。
【0183】
[0207] 表1、表2、表3、表4、表5、および表9は肺疾患関連遺伝子を記載する。表7は31個の肺疾患関連遺伝子および3個の臨床特性を記載する。表8は21個の肺疾患関連遺伝子および1個の臨床特性を記載する。表6は8個の臨床特性を記載する。表1、表2、表3、表4、表5、表6、表7、表8および表9、ならびに表の内容のすべては、本開示の明細書の部分として組み込まれる。
【0184】
[0208] 一態様では、本開示は、対象の肺結節を評価する方法であって、(a)対象から得られたかまたは対象に由来する生体試料をアッセイして、複数の肺疾患関連ゲノム座の各々における生体試料の遺伝子発現測定値を含むデータセットを生成する工程であって、複数の疾患関連ゲノム座が、表1、表2、表3、表4、表5、表7、および表8のいずれか1つまたは複数に記載される遺伝子の群から選択される少なくとも1つの遺伝子を含む工程;(b)データセットを分析して、対象の肺結節を悪性肺結節または良性肺結節として分類する工程;ならびに(c)悪性肺結節または良性肺結節としての対象の肺結節の分類を示すレポートを電子的に出力する工程を含む方法を提供する。生体試料の遺伝子発現は、例えば、ゲノム座、例えば、肺疾患関連遺伝子から生成されたRNAをアッセイすることにより測定され得る。生体試料における遺伝子発現測定は、任意の好適な技術、例えば、RNA-seqまたはAmpli-seq等を含むがこれらに限定されない、任意の好適なRNA定量技術を使用して実施することができる。一部の実施形態では、データセットは、対象の1つまたは複数の臨床特性の臨床特性データをさらに含む。一部の実施形態では、1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される。
【0185】
[0209] 一部の実施形態では、複数の疾患関連ゲノム座は、表1に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、または180個の遺伝子を含む。
【0186】
[0210] 一部の実施形態では、複数の疾患関連ゲノム座は、表2に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、または175個の遺伝子を含む。
【0187】
[0211] 一部の実施形態では、複数の疾患関連ゲノム座は、表3に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、または60個の遺伝子を含む。
【0188】
[0212] 一部の実施形態では、複数の疾患関連ゲノム座は、表4に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、または295個の遺伝子を含む。
【0189】
[0213] 一部の実施形態では、複数の疾患関連ゲノム座は、表5に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、または142個の遺伝子を含む。
【0190】
[0214] 一部の実施形態では、複数の疾患関連ゲノム座は、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含む。一部の実施形態では、遺伝子は、BCAT1、CRCP、COA4、OVCA2、POM121、HLA-DPA1、VPS37C、MGST2、RNF220、HDAC3、NFE2L1、WDR20、CNPY4、HOXB2、C6orf120、TMEM8A、ASAP1-IT2、C15orf54、CD101、FNBP1、TECR、PROK2、SLC35B3、TDRD9、CLHC1、LPL、IFITM3、OGFOD3、EIF2B3、TMEM65、およびMKRN3から選択される。一部の実施形態では、複数の疾患関連ゲノム座は、遺伝子BCAT1、CRCP、COA4、OVCA2、POM121、HLA-DPA1、VPS37C、MGST2、RNF220、HDAC3、NFE2L1、WDR20、CNPY4、HOXB2、C6orf120、TMEM8A、ASAP1-IT2、C15orf54、CD101、FNBP1、TECR、PROK2、SLC35B3、TDRD9、CLHC1、LPL、IFITM3、OGFOD3、EIF2B3、TMEM65、およびMKRN3を含む。一部の実施形態では、複数の疾患関連ゲノム座は、遺伝子BCAT1、CRCP、COA4、OVCA2、POM121、HLA-DPA1、VPS37C、MGST2、RNF220、HDAC3、NFE2L1、WDR20、CNPY4、HOXB2、C6orf120、TMEM8A、ASAP1-IT2、C15orf54、CD101、FNBP1、TECR、PROK2、SLC35B3、TDRD9、CLHC1、LPL、IFITM3、OGFOD3、EIF2B3、TMEM65、およびMKRN3からなる。これらの遺伝子および本明細書に記載される遺伝子は当業者に公知であり、文献に記載されている。表Aは、各々参照により全体が本明細書に組み込まれる、OMIM(登録商標) - Online Mendelian Inheritance in Man (McKusick-Nathans Institute of Genetic Medicine、Johns Hopkins University School of Medicine、Baltimore、MD)およびthe National Center for Biotechnology Information gene database(NCBI、U.S. National Library of Medicine 8600 Rockville Pike、Bethesda MD、20894 USA)に記載されている、表7および表8を含む、本明細書中の表に記載される遺伝子のGene ID番号の例を提供する。
【0191】
[0215] 一部の実施形態では、複数の疾患関連ゲノム座は、表8に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、または21個の遺伝子を含む。一部の実施形態では、遺伝子は、BCAT1、USP32P2、CD177、QPCT、SCAF4、SNRPD3、BCL9L、THBS1、SLC22A18AS、ARCN1、DHX16、SATB1、ST6GAL1、CXCL1、TDRD9、ZNF831、MTCH1、FAM86HP、DHX8、RNF114、およびDCTN4から選択される。一部の実施形態では、複数の疾患関連ゲノム座は、遺伝子BCAT1、USP32P2、CD177、QPCT、SCAF4、SNRPD3、BCL9L、THBS1、SLC22A18AS、ARCN1、DHX16、SATB1、ST6GAL1、CXCL1、TDRD9、ZNF831、MTCH1、FAM86HP、DHX8、RNF114、およびDCTN4を含む。一部の実施形態では、複数の疾患関連ゲノム座は、遺伝子BCAT1、USP32P2、CD177、QPCT、SCAF4、SNRPD3、BCL9L、THBS1、SLC22A18AS、ARCN1、DHX16、SATB1、ST6GAL1、CXCL1、TDRD9、ZNF831、MTCH1、FAM86HP、DHX8、RNF114、およびDCTN4からなる。
【0192】
[0216] 一部の実施形態では、1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7または8個の臨床特性を含む。一部の実施形態では、1つまたは複数の臨床特性は、結節のサイズを含む。一部の実施形態では、1つまたは複数の臨床特性は、患者の年齢を含む。一部の実施形態では、1つまたは複数の臨床特性は、肺上葉における結節の存在を含む。一部の実施形態では、1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せを含む。
【0193】
[0217] 一部の実施形態では、複数の疾患関連ゲノム座は、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含み、および1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7または8個の臨床特性を含む。一部の実施形態では、複数の疾患関連ゲノム座は、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含み、および対象の1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せを含む。
【0194】
[0218] 一部の実施形態では、複数の疾患関連ゲノム座は、表7に記載される31個の遺伝子を含み、ならびに1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在を含む。一部の実施形態では、複数の疾患関連ゲノム座は、表7に記載される31個の遺伝子からなり、ならびに1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在からなる。
【0195】
[0219] 一部の実施形態では、方法は、対象の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率で悪性肺結節または良性肺結節として分類する工程をさらに含む。
【0196】
[0220] 一部の実施形態では、方法は、対象の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度で悪性肺結節または良性肺結節として分類する工程をさらに含む。
【0197】
[0221] 一部の実施形態では、方法は、対象の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度で悪性肺結節または良性肺結節として分類する工程をさらに含む。
【0198】
[0222] 一部の実施形態では、方法は、対象の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度で悪性肺結節または良性肺結節として分類する工程をさらに含む。
【0199】
[0223] 一部の実施形態では、方法は、対象の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度で悪性肺結節または良性肺結節として分類する工程をさらに含む。
【0200】
[0224] 一部の実施形態では、方法は、対象の肺結節を、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.91、少なくとも約0.92、少なくとも約0.93、少なくとも約0.94、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、少なくとも約0.99、または約0.99より高い曲線下面積(AUC)で悪性肺結節または良性肺結節として分類する工程をさらに含む。
【0201】
[0225] 一部の実施形態では、対象は肺がんを有する。一部の実施形態では、対象は、肺がんを有することが疑われる。一部の実施形態では、対象は、肺がんを有するリスクが上昇している。一部の実施形態では、対象は、肺がんに関して無症候性である。
【0202】
[0226] ある特定の実施形態では、方法は、対象の肺結節が悪性肺結節または良性肺結節としての分類されたことに少なくとも部分的に基づいて対象の肺結節の生検を実施する工程を含む。ある特定の実施形態では、方法は、対象の肺結節が悪性肺結節として分類されたことに少なくとも部分的に基づいて、対象の肺結節の生検を実施する工程を含む。一部の実施形態では、方法は、対象の肺結節が悪性肺結節または良性肺結節としての分類されたことに少なくとも部分的に基づいて対象に処置を投与する工程をさらに含む。一部の実施形態では、方法は、対象の肺結節が悪性肺結節として分類されたことに少なくとも部分的に基づいて、対象に処置を投与する工程を含む。一部の実施形態では、方法は、対象の肺結節が悪性肺結節として分類されたことに少なくとも部分的に基づいて、対象に処置を投与する工程を含む。一部の実施形態では、処置は、対象の肺がんを処置するように構成される。一部の実施形態では、処置は、対象の肺がんの重症度を低減させるように構成される。一部の実施形態では、処置は、対象の肺がんを有するリスクを低減させるように構成される。処置は、肺がんの1つまたは複数の処置を含むことができる。一部の実施形態では、処置は、手術、化学療法、標的化治療、免疫療法、放射線療法、およびその任意の組合せからなる群から選択される。
【0203】
[0227] 一部の実施形態では、(b)は、訓練された機械学習分類器を使用してデータセットを分析して、対象の肺結節を悪性肺結節または良性肺結節として分類する工程を含む。訓練された機械学習モデルは、データセットが悪性肺結節を示すか良性肺結節を示すかに関する推論を生成することができる。一部の実施形態では、機械学習モデルは、遺伝子発現データ、および任意選択により臨床特性データを使用して訓練され得る。遺伝子発現データは、BIG-C(商標)ビッグデータ分析ツール、I-Scope(商標)ビッグデータ分析ツール、T-Scope(商標)ビッグデータ分析ツール、CellScanビッグデータ分析ツール、MS(Molecular Signature) Scoring(商標)分析ツール、およびGene Set Variation Analysis(GSVA)ツール(例えば、P-Scope)からなる群から選択されるデータ分析ツールにより得られ得る。
【0204】
[0228] 例えば、BIG-C(商標)ビッグデータ分析ツール、I-Scope(商標)ビッグデータ分析ツール、T-Scope(商標)ビッグデータ分析ツール、CellScanビッグデータ分析ツール、MS(Molecular Signature) Scoring(商標)分析ツール、およびGene Set Variation Analysis(GSVA)ツール(例えば、P-Scope)の1つまたは複数を使用してデータ分析を行ってもよく;これらは、例えば、参照により全体が本明細書に組み込まれる国際出願PCT/US2019/060641号(2019年11月8日に出願され、国際公開第2020102043A1号パンフレットとして公開されている)に記載されている。
【0205】
[0229] 一部の実施形態では、訓練された機械学習分類器は、教師あり機械学習アルゴリズムまたは教師なし機械学習アルゴリズムである。一部の実施形態では、訓練された機械学習分類器は、線形回帰、ロジスティック回帰(LOG)、リッジ回帰、ラッソ回帰、エラスティックネット(EN)回帰、サポートベクトルマシン(SVM)、勾配ブースティングマシン(GBM)、k最近傍法(kNN)、一般化線形モデル(GLM)、ナイーブベイズ(NB)分類器、ニューラルネットワーク、ランダムフォレスト(RF)、ディープラーニングアルゴリズム、線形判別分析(LDA)、決定木学習(DTREE)、適応型ブースティング(ADB)、およびその任意の組合せからなる群から選択される。一部の実施形態では、訓練された機械学習分類器は、LOGを含む。一部の実施形態では、訓練された機械学習分類器はリッジ回帰を含む。一部の実施形態では、訓練された機械学習分類器はラッソ回帰を含む。一部の実施形態では、訓練された機械学習分類器はGLMを含む。一部の実施形態では、訓練された機械学習分類器はkNNを含む。一部の実施形態では、訓練された機械学習分類器はSVMを含む。一部の実施形態では、訓練された機械学習分類器はGBMを含む。一部の実施形態では、訓練された機械学習分類器はRFを含む。一部の実施形態では、訓練された機械学習分類器はNBを含む。一部の実施形態では、訓練された機械学習分類器はEN回帰を含む。一部の実施形態では、訓練された機械学習分類器は、ニューラルネットワークを含む。一部の実施形態では、訓練された機械学習分類器は、ディープラーニングアルゴリズムを含む。一部の実施形態では、訓練された機械学習分類器はLDAを含む。一部の実施形態では、訓練された機械学習分類器はDTREEを含む。一部の実施形態では、訓練された機械学習分類器はADBを含む。
【0206】
[0230] 一部の実施形態では、方法は、機械学習モデルの出力として、データセットが悪性肺結節を示すか良性肺結節を示すかを示す推論を受信する工程、および/または患者の肺結節を悪性肺結節もしくは良性肺結節として分類するレポートを電子的に出力する工程を含むことができる。
【0207】
[0231] 一部の実施形態では、(b)は、データセットを参照データセットと比較する工程を含む。一部の実施形態では、参照データセットは、複数の肺疾患関連ゲノム座の各々における参照対象の参照生体試料の遺伝子発現測定値、および任意選択により表6に記載される群から選択される1つまたは複数の臨床特性の臨床特性データを含む。一部の実施形態では、参照生体試料は、悪性肺結節を有する対象から得られたかまたは対象に由来する第1の複数の生体試料および良性肺結節を有する対象から得られたかまたは対象に由来する第2の複数の生体試料を含む。
【0208】
[0232] 一部の実施形態では、生体試料は、血液試料、単離された末梢血単核球(PBMC)、肺生検試料、鼻水、唾液、およびその任意の派生物からなる群から選択される。
【0209】
[0233] 一部の実施形態では、方法は、対象の肺結節が、悪性肺結節または良性肺結節として分類される可能性を決定する工程をさらに含む。一部の実施形態では、可能性は、約50%、約55%、約60%、約65%、約70%、約75%、約80%、約85%、約90%、約91%、約92%、約93%、約94%、約95%、約96%、約97%、約98%、約99%、または約100%である。一部の実施形態では、可能性は、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%であるか、または約99%より高い。
【0210】
[0234] 一部の実施形態では、方法は、対象の肺結節をモニターする工程をさらに含み、モニターする工程は、複数の時点で対象の肺結節を評価する工程を含む。一部の実施形態では、複数の時点での対象の肺結節の評価の差は、(i)対象の肺結節の診断、(ii)対象の肺結節の予後、および(iii)対象の肺結節を処置するための処置の経過の有効性または非有効性からなる群から選択される1つまたは複数の臨床指標を示している。一部の実施形態では、複数の時点は、少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、または50個の異なる時点を含む。
【0211】
[0235] 一態様では、本開示は、患者の肺結節を評価する方法を提供する。方法は、工程a’、b’、c’、およびd’のいずれか1つ、その任意の組合せ、またはすべてを含み得る。工程a’は、少なくとも2つの肺疾患関連遺伝子に関する患者から得られたまたは患者に由来する生体試料の遺伝子発現測定値を含有するデータセットを得る工程を含み得る。データセットは、生体試料をアッセイすることによって得ることができる。一部の実施形態では、少なくとも2つの肺疾患関連遺伝子は、表4に記載される遺伝子の群から選択される。一部の実施形態では、少なくとも2つの肺疾患関連遺伝子は、表1に記載される遺伝子の群から選択される。一部の実施形態では、少なくとも2つの肺疾患関連遺伝子は、表2に記載される遺伝子の群から選択される。一部の実施形態では、少なくとも2つの肺疾患関連遺伝子は、表3に記載される遺伝子の群から選択される。一部の実施形態では、少なくとも2つの肺疾患関連遺伝子は、表5に記載される遺伝子の群から選択される。一部の実施形態では、少なくとも2つの肺疾患関連遺伝子は、表7に記載される遺伝子の群から選択される。一部の実施形態では、少なくとも2つの肺疾患関連遺伝子は、表8に記載される遺伝子の群から選択される。工程b’は、データセットが悪性肺結節を示すか良性肺結節を示すかに関する推論を生成するように訓練された機械学習モデルに、データセットを入力として提供する工程を含み得る。工程c’は、機械学習モデルの出力として、データセットが悪性肺結節を示すか良性肺結節を示すかを示す推論を受信する工程を含み得る。工程d’は、患者の肺結節を悪性肺結節または良性肺結節として分類するレポートを電子的に出力する工程を含み得る。一部の実施形態では、工程a’のデータセットは、患者の1つまたは複数の臨床特性の臨床特性データをさらに含み得る。一部の実施形態では、1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される。一部の実施形態では、工程a’のデータセットは、i)表1、2、3、4、5、7、および8の任意の1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する生体試料の遺伝子発現測定値、ならびにii)任意選択により表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含有する。生体試料の遺伝子発現測定は、任意の好適な技術、例えばRNA-seq、Ampli-seq等を含むがこれらに限定されない任意の好適なRNA定量技術を使用して実施することができる。
【0212】
[0236] 一部の実施形態では、例えば工程a’の少なくとも2つの肺疾患関連遺伝子は、表1に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、もしくは182個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、例えば工程a’の少なくとも2つの肺疾患関連遺伝子は、表2に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、もしくは175個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、例えば工程a’の少なくとも2つの肺疾患関連遺伝子は、表3に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、もしくは62個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、例えば工程a’の少なくとも2つの肺疾患関連遺伝子は、表4に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、もしくは295個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、例えば工程a’の少なくとも2つの肺疾患関連遺伝子は、表5に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、もしくは142個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、例えば工程a’の少なくとも2つの肺疾患関連遺伝子は、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含む。一部の実施形態では、工程a’の少なくとも2つの肺疾患関連遺伝子は、BCAT1、CRCP、COA4、OVCA2、POM121、HLA-DPA1、VPS37C、MGST2、RNF220、HDAC3、NFE2L1、WDR20、CNPY4、HOXB2、C6orf120、TMEM8A、ASAP1-IT2、C15orf54、CD101、FNBP1、TECR、PROK2、SLC35B3、TDRD9、CLHC1、LPL、IFITM3、OGFOD3、EIF2B3、TMEM65、およびMKRN3から選択される。一部の実施形態では、例えば工程a’の少なくとも2つの肺疾患関連遺伝子は、表8に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、または21個の遺伝子を含む。一部の実施形態では、工程a’の少なくとも2つの肺疾患関連遺伝子は、BCAT1、USP32P2、CD177、QPCT、SCAF4、SNRPD3、BCL9L、THBS1、SLC22A18AS、ARCN1、DHX16、SATB1、ST6GAL1、CXCL1、TDRD9、ZNF831、MTCH1、FAM86HP、DHX8、RNF114、およびDCTN4から選択される。一部の実施形態では、1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7、または8個の臨床特性を含む。一部の実施形態では、1つまたは複数の臨床特性は結節のサイズを含む。一部の実施形態では、1つまたは複数の臨床特性は患者の年齢を含む。一部の実施形態では、1つまたは複数の臨床特性は、肺上葉における結節の存在を含む。一部の実施形態では、患者の1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せを含む。一部の実施形態では、工程a’の少なくとも2つの肺疾患関連遺伝子は、表7に記載される31個の遺伝子を含み、工程a’の1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在を含む。一部の実施形態では、工程a’の少なくとも2つの肺疾患関連遺伝子は、表7に記載される31個の遺伝子からなり、工程a’の1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在からなる。一部の実施形態では、工程a’のデータセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の肺疾患関連遺伝子に関する生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1、2、3、4、5、6、7、または8個の臨床特性の臨床特性データを含有する。一部の実施形態では、工程a’のデータセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の肺疾患関連遺伝子に関する生体試料の遺伝子発現測定値、およびii)結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せから選択される患者の臨床特性の臨床特性データを含有する。
【0213】
[0237] 一部の実施形態では、生体試料は、血液試料、単離された末梢血単核球(PBMC)、肺生検試料、鼻汁、唾液、またはその任意の派生物である。一部の実施形態では、生体試料は、血液試料またはその任意の派生物である。一部の実施形態では、生体試料は、単離された末梢血単核球(PBMC)またはその任意の派生物である。一部の実施形態では、生体試料は、肺生検試料、またはその任意の派生物である。一部の実施形態では、生体試料は、鼻汁試料、またはその任意の派生物である。一部の実施形態では、生体試料は、唾液試料、またはその任意の派生物である。
【0214】
[0238] 方法は、患者の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率で悪性肺結節または良性肺結節として分類することができる。例えば工程b’の機械学習モデルは、データセットが悪性肺結節を示すか良性肺結節を示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率で推論することができる。
【0215】
[0239] 方法は、患者の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度で悪性肺結節または良性肺結節として分類することができる。例えば工程b’の機械学習モデルは、データセットが悪性肺結節を示すか良性肺結節を示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度で推論することができる。
【0216】
[0240] 方法は、患者の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度で悪性肺結節または良性肺結節として分類することができる。例えば工程b’の機械学習モデルは、データセットが悪性肺結節を示すか良性肺結節を示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度で推論することができる。
【0217】
[0241] 方法は、患者の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度で悪性肺結節または良性肺結節として分類することができる。例えば工程b’の機械学習モデルは、データセットが悪性肺結節を示すか良性肺結節を示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度で推論することができる。
【0218】
[0242] 方法は、患者の肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度で悪性肺結節または良性肺結節として分類することができる。例えば工程b’の機械学習モデルは、データセットが悪性肺結節を示すか良性肺結節を示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度で推論することができる。
【0219】
[0243] 例えば工程b’の機械学習モデルは、データセットが悪性肺結節を示すか良性肺結節を示すかを、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.91、少なくとも約0.92、少なくとも約0.93、少なくとも約0.94、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、少なくとも約0.99、または約0.99より高いAUCを有する受信者動作特性(ROC)曲線で推論することができる。
【0220】
[0244] 機械学習モデルからの推論は、結節が悪性である0から1の間、例えば0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、もしくは1、またはその間の任意の値もしくは範囲の信頼度を含み得る。より高い信頼度は、結節が悪性であるより高い可能性と相関し得る。悪性の結節は、転移能または浸潤性の成長能によって特徴付けられ得るが、これらは良性結節とは対照的であり得る。
【0221】
[0245] 一部の実施形態では、患者は肺がんを有する。一部の実施形態では、患者は肺がんを有しない。一部の実施形態では、患者は肺がんを有することが疑われる。一部の実施形態では、患者は、肺がんを有するリスクが上昇している。一部の実施形態では、患者は肺がんに関して無症候性である。
【0222】
[0246] ある特定の実施形態では、方法は、患者の結節が悪性肺結節または良性肺結節として分類されたことに少なくとも部分的に基づいて、任意選択により患者の肺結節の生検を実施する工程を含む。ある特定の実施形態では、方法は、患者の肺結節が悪性肺結節として分類されたことに少なくとも部分的に基づいて、任意選択により患者の肺結節の生検を実施する工程を含む。一部の実施形態では、生検が実施される。一部の実施形態では、生検は実施されない。生検を実施する決定は、患者の肺結節が悪性肺結節または良性肺結節として分類されたことを考慮して、知識および経験に基づいて当業者によって行われ得る。生検を実施する決定は、推論の信頼度に部分的に依存し得る。一部の実施形態では、方法は、患者の肺結節が悪性肺結節または良性肺結節として分類されたことに少なくとも部分的に基づいて患者に処置を投与する工程をさらに含む。一部の実施形態では、方法は、患者の肺結節が悪性肺結節として分類されたことに少なくとも部分的に基づいて患者に処置を投与する工程をさらに含む。一部の実施形態では、処置は、患者の肺がんを処置するように構成される。一部の実施形態では、処置は、患者の肺がんの重症度を低減するように構成される。一部の実施形態では、処置は、患者が肺がんを有するリスクを低減するように構成される。処置は、肺がんの1つまたは複数の処置を含み得る。一部の実施形態では、処置は、手術、化学療法、標的化治療、免疫療法、放射線療法、またはその任意の組合せである。
【0223】
[0247] 例えば工程b’の訓練された機械学習モデルは、データセットを参照データセットと比較することによって、データセットが悪性肺結節を示すか良性肺結節を示すかに関する推論を生成することができる。機械学習モデルは、参照データセットを使用して訓練することができる。一部の実施形態では、参照データセットは、肺結節を有する複数の参照対象の複数の参照生体試料の複数の遺伝子の遺伝子発現測定値;参照対象の肺結節が良性であるか悪性であるかに関するデータ;および任意選択により参照対照の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有する。複数の参照対象の第1の部分は、良性肺結節を有し得て、複数の参照対象の第2の部分は、悪性肺結節を有し得る。一部の実施形態では、参照データセットは、複数の個々の参照データセットを含有する。複数の個々の参照データセットのそれぞれの個々の参照データセットは、i)肺結節を有する参照対象の参照生体試料の複数の遺伝子の遺伝子発現測定値、ii)参照対象の肺結節が良性であるか悪性であるかに関するデータ、およびiii)任意選択により参照対象の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有し得る。複数の個々の参照データセットは、複数の参照対象から得ることができる。一部の実施形態では、異なる個々の参照データセットは、異なる参照対象から得られる。一部の実施形態では、個々の参照データセットの各々は、i)1例の参照対象からの参照生体試料の複数の遺伝子の遺伝子発現測定値、ii)1例の参照対象の肺結節が良性であるか悪性であるかに関するデータ、およびiii)任意選択により1例の参照対象の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有し、異なる個々の参照データセットは、異なる参照対象から得られる。ある特定の実施形態では、オーバーサンプリングまたはアンダーサンプリング補正が、機械学習モデルの訓練の間に行われる。例えば、参照データセットが、良性であると同定された多数の試料を含み、悪性であると同定された比較的少数の試料を含む場合、悪性試料をオーバーサンプリングして良性試料と悪性試料の同数を有するデータセットを作成してもよい。参照データセットの複数の遺伝子は、表1、2、3、4、5、7、および8の任意の1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含み得る。一部の実施形態では、参照データセットの複数の遺伝子は、表1に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、もしくは182個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、参照データセットの複数の遺伝子は、表2に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、もしくは175個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、参照データセットの複数の遺伝子は、表3に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、もしくは62個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、参照データセットの複数の遺伝子は、表4に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、もしくは295個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、参照データセットの複数の遺伝子は、表5に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、もしくは142個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、参照データセットの複数の遺伝子は、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含む。一部の実施形態では、参照データセットの複数の遺伝子は、表8に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、または21個の遺伝子を含む。一部の実施形態では、参照データセットの1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7、または8個の臨床特性を含む。一部の実施形態では、参照データセットの1つまたは複数の臨床特性は結節のサイズを含む。一部の実施形態では、参照データセットの1つまたは複数の臨床特性は、患者の年齢を含む。一部の実施形態では、参照データセットの1つまたは複数の臨床特性は、肺上葉における結節の存在を含む。一部の実施形態では、参照データセットの1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せを含む。一部の実施形態では、参照データセットの複数の遺伝子は、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含み、参照データセットの1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7、または8個の臨床特性を含む。一部の実施形態では、参照データセットの複数の遺伝子は、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含み、参照データセットの1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せを含む。一部の実施形態では、参照データセットの複数の遺伝子は、表7に記載される31個の遺伝子を含み、参照データセットの1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在を含む。一部の実施形態では、参照データセットの複数の遺伝子は、表7に記載される31個の遺伝子からなり、参照データセットの1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在からなる。
【0224】
[0248] データセットの遺伝子および参照データセットの遺伝子は、少なくとも部分的に重複することができ、および/またはデータセットの任意選択による臨床特性および参照データセットの任意選択による臨床特性は少なくとも部分的に重複することができる。一部の実施形態では、参照生体試料は、血液試料、単離された末梢血単核球(PBMC)、肺生検試料、鼻汁、唾液、またはその任意の派生物である。一部の実施形態では、参照生体試料は、血液試料またはその任意の派生物である。一部の実施形態では、参照生体試料は、単離された末梢血単核球(PBMC)、またはその任意の派生物である。一部の実施形態では、参照生体試料は、肺生検試料、またはその任意の派生物である。一部の実施形態では、参照生体試料は、鼻汁試料、またはその任意の派生物である。一部の実施形態では、参照生体試料は、唾液試料、またはその任意の派生物である。参照対象はヒトであり得る。
【0225】
[0249] 遺伝子発現データは、以下の群:BIG-C(商標)ビッグデータ解析ツール、I-Scope(商標)ビッグデータ解析ツール、T-Scope(商標)ビッグデータ解析ツール、Cell Scanビッグデータ解析ツール、MS(Molecular Signature)Scoring(商標)解析ツール、およびGene Set Variation Analysis(GSVA)ツール(例えば、P-Scope)から選択されるデータ解析ツールによって得ることができる。
【0226】
[0250] 一部の実施形態では、例えば工程b’の訓練された機械学習モデルは、教師あり機械学習アルゴリズムまたは教師なし機械学習アルゴリズムである。一部の実施形態では、訓練された機械学習モデルは、線形回帰、ロジスティック回帰(LOG)、リッジ回帰、ラッソ回帰、エラスティックネット(EN)回帰、サポートベクトルマシン(SVM)、勾配ブースティングマシン(GBM)、k最近傍法(kNN)、一般化線形モデル(GLM)、ナイーブベイズ(NB)、ニューラルネットワーク、ランダムフォレスト(RF)、ディープラーニングアルゴリズム、線形判別分析(LDA)、決定木学習(DTREE)、適応型ブースティング(ADB)、またはその任意の組合せを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、LOGを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、リッジ回帰を使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、ラッソ回帰を使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、GLMを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、kNNを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、SVMを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、GBMを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、RFを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、NBを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、EN回帰を使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、ニューラルネットワークを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、ディープラーニングアルゴリズムを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、LDAを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、DTREEを使用して訓練される。一部の実施形態では、訓練された機械学習モデルは、ADBを使用して訓練される。
【0227】
[0251] 一部の実施形態では、方法は、患者の肺結節が悪性肺結節または良性肺結節として分類される可能性を決定する工程を含む。一部の実施形態では、可能性は、約50%、約55%、約60%、約65%、約70%、約75%、約80%、約85%、約90%、約91%、約92%、約93%、約94%、約95%、約96%、約97%、約98%、約99%、または約100%である。一部の実施形態では、可能性は、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%であるか、または約99%より高い。
【0228】
[0252] 一部の実施形態では、方法は、患者の肺結節をモニターする工程をさらに含み、モニターする工程は、複数の時点で患者の肺結節を評価する工程を含む。一部の実施形態では、複数の時点での患者の肺結節の評価の差は、(i)患者の肺結節の診断、(ii)患者の肺結節の予後、および(iii)患者の肺結節を処置するための処置の過程の有効性または非有効性からなる群から選択される1つまたは複数の臨床指標を示している。一部の実施形態では、複数の時点は、少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、または50個の異なる時点を含む。
【0229】
[0253] 別の態様では、本開示は、肺結節を良性または悪性として分類することが可能な遺伝子セットを決定する方法を提供する。対象の生体試料(例えば、血液)の遺伝子セットの1つまたは複数の遺伝子の遺伝子発現測定値を使用して、結節の生検を実施することなく対象の肺結節を良性または悪性として分類することができる。一部の実施形態では、結節の生検を実施して、遺伝子発現測定データを使用して得られた分類結果を確認および/または追跡調査する。一部の実施形態では、結節の生検は実施されない。方法は、工程a’’、b''、c'’、およびd’’のいずれか1つ、その任意の組合せ、またはすべてを含み得る。工程a’’では、参照データセットを得るおよび/または提供することができる。参照データセットは、複数の個々の参照データセットを含有し得る。複数の個々の参照データセットのそれぞれの個々の参照データセットは、i)肺結節を有する参照対象の参照生体試料の複数の遺伝子の遺伝子発現測定値、ii)肺結節が良性であるか悪性であるかに関するデータ、およびiii)任意選択により、参照対象の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有し得る。複数の個々の参照データセットは、複数の参照対象から得ることができる。一部の実施形態では、異なる個々の参照データセットは、異なる参照対象から得られる。一部の実施形態では、個々の参照データセットの各々は、i)1例の参照対象の参照生体試料の複数の遺伝子の遺伝子発現測定値、ii)1例の参照対象の肺結節が良性であるか悪性であるかに関するデータ、およびiii)任意選択により、1例の参照対象の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有し、異なる個々の参照データセットは、異なる参照対象から得られる。複数の参照対象の第1の部分は、良性肺結節を有し得て、複数の参照対象の第2の部分は、悪性肺結節を有し得る。参照データセットは、肺結節を有する複数の参照対象の複数の参照生体試料の複数の遺伝子の遺伝子発現測定値;参照対象の肺結節が良性であるか悪性であるかに関するデータ;および任意選択により表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の参照対象の臨床特性データを含有し得る。工程b’’では、機械学習モデルを、i)複数の遺伝子、およびii)任意選択により1つまたは複数の臨床特性から選択される1つまたは複数の予測子に少なくとも部分的に基づいて肺結節が良性であるか悪性であるかを推論するように、参照データセットを使用して訓練することができる。訓練された機械学習モデルは、対象の生体試料の複数の遺伝子の遺伝子発現測定値、および任意選択により対象の1つまたは複数の臨床特性の臨床特性データに少なくとも部分的に基づいて、対象の肺結節が良性であるか悪性であるかを推論することができる。一部の実施形態では、機械学習モデルを、参照データセットの第1の部分を含有する訓練データセット、および参照データセットの第2の部分を含有するバリデーションデータセットを使用して訓練することができる。ある特定の実施形態では、オーバーサンプリングまたはアンダーサンプリング補正が、機械学習モデルの訓練の間に行われる。例えば、データセットが、良性であると同定された多数の試料を含み、悪性であると同定された比較的少数の試料を含む場合、悪性試料をオーバーサンプリングして良性試料と悪性試料の同数を有するデータセットを作成してもよい。工程c’’では、複数の遺伝子の特徴量重要度の値を決定することができる。工程d’’では、遺伝子セットを選択することができる。一部の実施形態では、遺伝子セットは、機械学習モデルを訓練するために使用される予測子として選択される。遺伝子セットは、特徴量重要度の値に少なくとも部分的に基づいて選択され得る。一部の実施形態では、遺伝子セットの遺伝子の特徴量重要度の値は、上位3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、210、220、230、240、もしくは250、またはその間の任意の値もしくは範囲の特徴量重要度の値内である。一部の実施形態では、遺伝子セットの遺伝子の特徴量重要度は、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、または90%より高い正解率を有する。一部の実施形態では、遺伝子セットの遺伝子の特徴量重要度は、30、35、40、45、50、55、60、65、70、75、80、または90より高い閾値重要度を有する。ある特定の実施形態では、機械学習モデルの上位3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、210、220、230、240、もしくは250、またはその間の任意の値もしくは範囲の予測子が、遺伝子セットの遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表9に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表1に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表2に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表3に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表4に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表5に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表9に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、300、400、500、600、700、800、900、1000、1100、もしくは1178個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表1に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、もしくは182個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表2に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、もしくは175個、またはその間の任意の値もしくは範囲を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表3に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、もしくは62個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表4に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、もしくは295個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表5に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、もしくは142個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、工程a’’の参照データセットの1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7、または8個の臨床特性を含む。一部の実施形態では、工程a’’の参照データセットの複数の遺伝子は、表1、2、3、4、5、もしくは9またはその任意の組合せの任意の1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含み、工程a’’
の参照データセットの1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7、または8個の臨床特性を含む。一部の実施形態では、相関係数(例えば、非限定的な態様では>0.7~>0.9)を有する同一直線上の発現を有する遺伝子を、参照データセットから消去した。同一直線上の遺伝子発現は、任意の好適な技術、例えばペアソン相関係数によって測定することができる。複数の遺伝子の特徴量重要度の値を決定することが記載されているが、これは単に実践することができる技術の非限定的な例証としての例である。様々な実施形態では、1つまたは複数の特徴量選択技術を使用して、肺結節を良性であるか悪性であるか分類することができる遺伝子セットを決定する。特徴量選択技術は、最小絶対値縮小選択演算子(ラッソ)回帰、サポートベクトルマシン(SVM)、正則化ツリー、決定木、メメティックアルゴリズム、ランダム多項ロジット(RMNL)、自己符号化ネットワーク、劣モジュラ特徴量選択、再帰的特徴量削減、またはその任意の組合せを含み得る。これらの例の一部では、特徴量重要度の値を、表9の遺伝子の各々について計算する必要はない。参照生体試料は、血液試料、単離された末梢血単核球(PBMC)、肺生検試料、鼻汁試料、唾液試料、またはその任意の派生物であり得る。一部の実施形態では、参照生体試料は、血液試料またはその任意の派生物である。一部の実施形態では、参照生体試料は、単離された末梢血単核球(PBMC)またはその任意の派生物である。一部の実施形態では、参照生体試料は、肺生検試料、またはその任意の派生物である。一部の実施形態では、参照生体試料は、鼻汁試料、またはその任意の派生物である。一部の実施形態では、参照生体試料は、唾液試料、またはその任意の派生物である。
【0230】
[0254] 例えば工程b’’の機械学習モデルは、教師あり機械学習アルゴリズムまたは教師なし機械学習アルゴリズムを使用して訓練することができる。一部の実施形態では、例えば工程b’’の機械学習モデルは、線形回帰、ロジスティック回帰、リッジ回帰、ラッソ回帰、エラスティックネット(EN)回帰、サポートベクトルマシン(SVM)、勾配ブースティングマシン(GBM)、k最近傍法(kNN)、一般化線形モデル(GLM)、ナイーブベイズ(NB)、ニューラルネットワーク、ランダムフォレスト(RF)、ディープラーニングアルゴリズム、線形判別分析(LDA)、決定木学習(DTREE)、適応型ブースティング(ADB)、またはその任意の組合せを使用して訓練される。一部の実施形態では、機械学習モデルは、ロジスティック回帰を使用して訓練される。一部の実施形態では、機械学習モデルは、リッジ回帰を使用して訓練される。一部の実施形態では、機械学習モデルは、ラッソ回帰を使用して訓練される。一部の実施形態では、機械学習モデルは、GLMを使用して訓練される。一部の実施形態では、機械学習モデルは、kNNを使用して訓練される。一部の実施形態では、機械学習モデルは、SVMを使用して訓練される。一部の実施形態では、機械学習モデルは、GBMを使用して訓練される。一部の実施形態では、機械学習モデルは、RFを使用して訓練される。一部の実施形態では、機械学習モデルは、NBを使用して訓練される。一部の実施形態では、機械学習モデルは、EN回帰を使用して訓練される。一部の実施形態では、機械学習モデルは、ニューラルネットワークを使用して訓練される。一部の実施形態では、機械学習モデルは、ディープラーニングアルゴリズムを使用して訓練される。一部の実施形態では、機械学習モデルは、LDAを使用して訓練される。一部の実施形態では、機械学習モデルは、DTREEを使用して訓練される。一部の実施形態では、機械学習モデルは、ADBを使用して訓練される。
【0231】
[0255] 遺伝子セットは、肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度で悪性肺結節または良性肺結節として分類することができる。遺伝子セットは、肺結節を、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度で悪性肺結節または良性肺結節として分類することができる。
【0232】
[0256] 別の態様では、本開示は、患者の肺結節が良性であるか悪性であるかを推論することが可能な訓練された機械学習モデルを開発する方法を提供する。方法は、工程a’’’、b’’’、c’’’、d’’’およびe’’’のいずれか1つ、その任意の組合せ、またはすべてを含み得る。工程a’’’は第1の参照データセットを得るおよび/または提供する工程を含み得る。第1の参照データセットは、複数の第1の個々の参照データセットを含有し得る。複数の第1の個々の参照データセットのそれぞれの第1の個々の参照データセットは、i)肺結節を有する参照対象の参照生体試料の複数の遺伝子の遺伝子発現測定値、ii)参照対象が良性であるか悪性であるかに関するデータ、およびiii)任意選択により、参照対象の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有し得る。複数の第1の個々の参照データセットは、複数の参照対象から得ることができる。一部の実施形態では、異なる第1の個々の参照データセットは、異なる参照対象から得られる。一部の実施形態では、第1の個々の参照データセットの各々は、i)1例の参照対象の参照対象試料の複数の遺伝子の遺伝子発現測定値、ii)1例の参照対象の肺結節が良性であるか悪性であるかに関するデータ、およびiii)任意選択により、1例の参照対象の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有し、異なる第1の個々の参照データセットは、異なる参照対象から得られる。複数の参照対象の第1の部分は、良性肺結節を有し得て、複数の参照対象の第2の部分は、悪性肺結節を有し得る。第1の参照データセットは、肺結節を有する複数の参照対象の複数の参照生体試料の複数の遺伝子の遺伝子発現測定値;参照対象の肺結節が良性であるか悪性であるかに関するデータ;および任意選択により、参照対象の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有し得る。工程b’’’では、第1の機械学習モデルを、i)複数の遺伝子、およびii)任意選択により1つまたは複数の臨床特性から選択される1つまたは複数の予測子に少なくとも部分的に基づいて、肺結節が良性であるか悪性であるかを推論するために第1の参照データセットを使用して訓練することができる。第1の機械学習モデルを、i)対象の生体試料の複数の遺伝子の遺伝子発現測定データ、およびii)任意選択により対象の1つまたは複数の臨床特性の臨床特性データに少なくとも部分的に基づいて、対象の肺結節が良性であるか悪性であるかを推論するように訓練することができる。一部の実施形態では、第1の機械学習モデルは、第1の参照データセットの第1の部分を含有する訓練データセット、および第1の参照データセットの第2の部分を含有するバリデーションデータセットを使用して訓練される。工程c’’’では、第1の機械学習モデルの1つまたは複数の予測子の特徴量重要度の値を決定することができる。工程d’’’では、特徴量重要度の値に少なくとも部分的に基づいて第1の機械学習モデルのA個の予測子を選択することができ、Aは、3~2000、例えば3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、210、220、230、240、250、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、もしくは2000、またはその中の任意の整数値もしくは範囲の整数であり得る。ある特定の実施形態では、第1の機械学習モデルの3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、210、220、230、240、もしくは250個、またはその間の任意の値もしくは範囲の予測子が選択される。一部の実施形態では、A個の予測子は、上位A個の特徴量重要度の値を有し、例えば非限定的な態様ではAは10であり、10個の最高特徴量重要度の値を有する10個の予測子を選択する。一部の実施形態では、A個の予測子の特徴量重要度は、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、または90%より高い正解率を有する。一部の実施形態では、A個の予測子の特徴量重要度は、30、35、40、45、50、55、60、65、70、75、80、または90より高い閾値重要度を有し得る。A個の予測子は、1つもしくは複数の遺伝子、および/または任意選択により1つもしくは複数の臨床特性を含み得る。1つまたは複数の予測子に関する特徴量重要度を決定する方法について説明しているが、これは、実践することができる技術の単なる非限定的な例証的例である。様々な実施形態では、1つまたは複数の特徴量選択技術を使用して、A個の予測子を決定する。特徴量選択技術は、最小絶対値縮小選択演算子(ラッソ)回帰、サポートベクトルマシン(SVM)、正則化ツリー、決定木、メメティックアルゴリズム、ランダム多項ロジット(RMNL)、自己符号化ネットワーク、劣モジュラ特徴量選択、再帰的特徴量削減、またはその任意の組合せを含み得る。これらの例の一部では、工程c’’’において、特徴量重要度の値を、第1の機械学習モデルの予測子の各々について計算する必要はない。工程e’’’は、訓練された機械学習モデルを得るために第2の参照データセットに少なくとも部分的に基づいて第2の機械学習モデルを訓練する工程を含み得る。訓練された機械学習モデルは、対象のA個の予測子の測定データに少なくとも部分的に基づいて、対象の肺結節が良性であるか悪性であるかを推論することができる。第2の参照データセットは、複数の第2の個々の参照データセットを含有し得る。複数の第2の個々の参照データセットのそれぞれの第2の個々の参照データセットは、i)参照対象のA個の予測子の測定データ、およびii)参照対象の肺結節が良性であるか悪性であるかに関するデータを含み得る。A個の予測子の測定データは、A個の予測子の1つもしくは複数の遺伝子予測子に関する参照生体試料の遺伝子発現測定値、および/または任意選択によりA個の予測子の任意選択の1つもしくは複数の臨床特性予測子の臨床特性データを含み得る。複数の第2の個々の参照データセットを、複数の参照対象から得ることができる。一部の実施形態では、異なる第2の個々の参照データセットは、異なる参照対象から得られる。一部の実施形態では、第2の個々の参照データセットの各々は、i)1例の参照対象のA個の予測子の測定データ、およびii)1例の参照対象の肺結節が良性であるか悪性であるかに関するデータを含有し、異なる第2の個々の参照データセットは、異なる参照対象から得られる。ある特定の実施形態では、オーバーサンプリングまたはアンダーサンプリング補正が、第1および/または第2の機械学習モデルの訓練の間に行われる。第2の参照データセットは、複数の参照対象からのA個の予測子の測定データ、および参照対象の肺結節が良性であるか悪性であるかに関するデータを含有し得る。一部の実施形態では、第1の参照データセットの複数の遺伝子は、表9に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、第1の参照データセットの複数の遺伝子は、表9に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、300、400、500、600、700、800、900、1000、1100、もしくは1178個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、第1の参照データセットの複数の遺伝子は、表1に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、第1の参照データセットの複数の遺伝子は、表2に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、第1の参照データセットの複数の遺伝子は、表3に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、第1の参照データセットの複数の遺伝子は、表4に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、第1の参照データセットの複数の遺伝子は、表5に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含む。一部の実施形態では、第1の参照データセットの1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7、または8個の臨床特性を含む。一部の実施形態では、第1の参照データセットの複数の遺伝子は、表1、2、3、4、5、または9の任意の1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの遺伝子を含み、第1の参照データセットの1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7、または8個の臨床特性を含む。一部の実施形態では、相関係数(例えば、非限定的な態様では>0.7~>0.9)を有する同一直線上の発現を有する遺伝子を、参照データセットから消去した。同一直線上の遺伝子発現は、任意の好適な技術、例えばペアソン相関係数によって測定することができる。一部の実施形態では、A個の予測子は、予測子として、表1に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、もしくは182個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、A個の予測子は、予測子として、表2に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、
42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、もしくは175個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、A個の予測子は、予測子として、表3に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、もしくは62個、またはその間の任意の値もしくは範囲を含む。一部の実施形態では、A個の予測子は、予測子として、表4に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、もしくは295個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、A個の予測子は、予測子として、表5に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、もしくは142個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、A個の予測子は、予測子として表7に記載される群から選択される遺伝子の少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含む。一部の実施形態では、A個の予測子は、予測子として、表8に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、または21個の遺伝子を含む。一部の実施形態では、A個の予測子は、i)表1、2、3、4、5、7、および8の任意の1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの遺伝子、およびii)任意選択により、予測子として、結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せを含む。一部の実施形態では、A個の予測子は、表7に記載される群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、または34個の予測子を含み得る。一部の実施形態では、A個の予測子は、表7に記載される34個の予測子を含む。一部の実施形態では、A個の予測子は、表7に記載される34個の予測子からなる。
【0233】
[0257] 一部の実施形態では、参照生体試料は、血液試料、単離された末梢血単核球(PBMC)、肺生検試料、鼻汁、唾液、またはその任意の派生物である。一部の実施形態では、参照生体試料は、血液試料またはその任意の派生物である。一部の実施形態では、参照生体試料は、単離された末梢血単核球(PBMC)またはその任意の派生物である。一部の実施形態では、参照生体試料は、肺生検試料、またはその任意の派生物である。一部の実施形態では、参照生体試料は、鼻汁試料、またはその任意の派生物である。一部の実施形態では、参照生体試料は、唾液試料、またはその任意の派生物である。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度で推論することができる。例えば工程e’’’から得られた訓練された機械学習モデルは、肺結節が良性であるか悪性であるかを、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.91、少なくとも約0.92、少なくとも約0.93、少なくとも約0.94、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、少なくとも約0.99、または約0.99より高い曲線下面積(AUC)を有する受信者動作特性(ROC)曲線で推論することができる。
【0234】
[0258] 遺伝子発現データは、以下の群:BIG-C(商標)ビッグデータ解析ツール、I-Scope(商標)ビッグデータ解析ツール、T-Scope(商標)ビッグデータ解析ツール、Cell Scanビッグデータ解析ツール、MS(Molecular Signature)Scoring(商標)解析ツール、およびGene Set Variation Analysis(GSVA)ツール(例えば、P-Scope)から選択されるデータ解析ツールによって得ることができる。
【0235】
[0259] 一部の実施形態では、訓練された機械学習モデルは、教師あり機械学習アルゴリズムまたは教師なし機械学習アルゴリズムである。一部の実施形態では、第1および/または第2の機械学習モデルは、線形回帰、ロジスティック回帰(LOG)、リッジ回帰、ラッソ回帰、エラスティックネット(EN)回帰、サポートベクトルマシン(SVM)、勾配ブースティングマシン(GBM)、k最近傍法(kNN)、一般化線形モデル(GLM)、ナイーブベイズ(NB)、ニューラルネットワーク、ランダムフォレスト(RF)、ディープラーニングアルゴリズム、線形判別分析(LDA)、決定木学習(DTREE)、適応型ブースティング(ADB)、またはその任意の組合せを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、LOGを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、リッジ回帰を使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、ラッソ回帰を使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、GLMを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、kNNを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、SVMを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、GBMを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、RFを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、NBを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、EN回帰を使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、ニューラルネットワークを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、ディープラーニングアルゴリズムを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、LDAを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、DTREEを使用して独立して訓練される。一部の実施形態では、第1および/または第2の機械学習モデルは、ADBを使用して独立して訓練される。
【0236】
[0260] 一態様では、本開示は、肺結節を有する患者において肺がんを処置する方法を提供する。方法は、工程a’’’’、b’’’’、c’’’’およびd’’’’のいずれか1つ、任意の組合せ、またはすべてを含むことができる。工程a’’’’は、i)少なくとも2つの肺疾患関連遺伝子に関する、患者の生体試料の遺伝子発現測定値、およびii)任意選択により患者の表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有するデータセットを得る工程を含むことができる。工程b’’’’は、データセットが悪性肺結節を示すか良性肺結節を示すかに関する推論を生成するように訓練された機械学習モデルに入力としてデータセットを提供する工程を含むことができる。工程c’’’’は、機械学習モデルの出力として、データセットが悪性肺結節を示すか良性肺結節を示すかを示す推論を受信する工程を含むことができる。工程d’’’’は、患者の肺結節が悪性結節として分類されたことに基づいて処置を投与する工程を含むことができる。
【0237】
[0261] 工程a’’’’のデータセットは、i)表1、2、3、4、5、7、および8の任意の1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、およびii)任意選択により、患者の、表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有し得る。一部の実施形態では、工程a’’’’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表1に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、もしくは182個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、工程a’’’’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表2に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、もしくは175個、またはその間の任意の値もしくは範囲を含み得る。一部の実施形態では、工程a’’’’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表3に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、もしくは62個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、工程a’’’’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表4に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、もしくは295個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、工程a’’’’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表5に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、もしくは142個、またはその間の任意の値もしくは範囲の遺伝子を含む。一部の実施形態では、工程a’’’’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含む。一部の実施形態では、工程a’’’’のデータセットの少なくとも2つの肺疾患関連遺伝子は、BCAT1、CRCP、COA4、OVCA2、POM121、HLA-DPA1、VPS37C、MGST2、RNF220、HDAC3、NFE2L1、WDR20、CNPY4、HOXB2、C6orf120、TMEM8A、ASAP1-IT2、C15orf54、CD101、FNBP1、TECR、PROK2、SLC35B3、TDRD9、CLHC1、LPL、IFITM3、OGFOD3、EIF2B3、TMEM65、およびMKRN3から選択される。一部の実施形態では、工程a’’’’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表8に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、または21個の遺伝子を含む。一部の実施形態では、工程a’’’’の少なくとも2つの肺疾患関連遺伝子は、BCAT1、USP32P2、CD177、QPCT、SCAF4、SNRPD3、BCL9L、THBS1、SLC22A18AS、ARCN1、DHX16、SATB1、ST6GAL1、CXCL1、TDRD9、ZNF831、MTCH1、FAM86HP、DHX8、RNF114、およびDCTN4から選択される。一部の実施形態では、工程a’’’’のデータセットの1つまたは複数の臨床特性は、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7、または8個の臨床特性を含む。一部の実施形態では、工程a’’’’のデータセットの1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せを含む。一部の実施形態では、工程a’’’’のデータセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子の遺伝子発現測定値、およびii)患者の、表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7、または8個の臨床特性の臨床特性データを含有する。一部の実施形態では、工程a’’’’のデータセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子の遺伝子発現測定値、およびii)結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せから選択される患者の臨床特性の臨床特性データを含有する。一部の実施形態では、工程a’’’’の少なくとも2つの肺疾患関連遺伝子は、表7に記載される31個の遺伝子を含み、工程a’’’’の1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在を含む。一部の実施形態では、工程a’’’’の少なくとも2つの肺疾患関連遺伝子は、表7に記載される31個の遺伝子からなり、工程a’’’’の1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在からなる。
【0238】
[0262] 機械学習モデルからの推論は、結節が悪性である0から1の間、例えば0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、もしくは1、またはその間の任意の値もしくは範囲の信頼度を含み得て、より高い信頼度は、結節が悪性であるより高い可能性と相関し得る。一部の実施形態では、生体試料は、血液試料、単離された末梢血単核球(PBMC)、肺生検試料、鼻汁、唾液、またはその任意の派生物である。一部の実施形態では、生体試料は、血液試料またはその任意の派生物である。一部の実施形態では、生体試料は、単離された末梢血単核球(PBMC)またはその任意の派生物である。一部の実施形態では、生体試料は、肺生検試料またはその任意の派生物である。一部の実施形態では、生体試料は、鼻汁試料またはその任意の派生物である。一部の実施形態では、生体試料は、唾液試料またはその任意の派生物である。ある特定の実施形態では、方法は、患者の結節が悪性肺結節または良性肺結節として分類されたことに少なくとも部分的に基づいて、任意選択により患者の肺結節の生検を実施する工程を含む。ある特定の実施形態では、方法は、患者の肺結節が悪性肺結節として分類されたことに少なくとも部分的に基づいて、任意選択により患者の肺結節の生検を実施する工程を含む。生検を実施する決定は、推論の信頼度に依存し得る。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかに関する推論を生成することができ、悪性肺結節を有する患者は、患者が肺がんを有することを示し得て、良性結節を有する患者は、患者が肺がんを有しないことを示し得る。ある特定の実施形態では、患者の肺結節の生検は実施されない。工程b’’’’の機械学習モデルは、本明細書に記載される方法に従って、例えば工程b’の機械学習モデルを訓練する方法に従って訓練することができる。
【0239】
[0263] 工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.91、少なくとも約0.92、少なくとも約0.93、少なくとも約0.94、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、少なくとも約0.99、または約0.99より高い曲線下面積(AUC)を有する受信者動作特性(ROC)曲線で推論することができる。
【0240】
[0264] 工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、約80%~約100%の正解率で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の正解率で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の正解率で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の正解率で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の正解率で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、約80%~約100%の感度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の感度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の感度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の感度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の感度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、約80%~約100%の特異度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の特異度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の特異度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の特異度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の特異度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、約80%~約100%の陽性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の陽性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陽性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の陽性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陽性的中度で推論することができる。工程b’
’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、約80%~約100%の陰性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、約80%~約85%、約80%~約90%、約80%~約92%、約80%~約94%、約80%~約95%、約80%~約96%、約80%~約97%、約80%~約98%、約80%~約99%、約80%~約99.5%、約80%~約100%、約85%~約90%、約85%~約92%、約85%~約94%、約85%~約95%、約85%~約96%、約85%~約97%、約85%~約98%、約85%~約99%、約85%~約99.5%、約85%~約100%、約90%~約92%、約90%~約94%、約90%~約95%、約90%~約96%、約90%~約97%、約90%~約98%、約90%~約99%、約90%~約99.5%、約90%~約100%、約92%~約94%、約92%~約95%、約92%~約96%、約92%~約97%、約92%~約98%、約92%~約99%、約92%~約99.5%、約92%~約100%、約94%~約95%、約94%~約96%、約94%~約97%、約94%~約98%、約94%~約99%、約94%~約99.5%、約94%~約100%、約95%~約96%、約95%~約97%、約95%~約98%、約95%~約99%、約95%~約99.5%、約95%~約100%、約96%~約97%、約96%~約98%、約96%~約99%、約96%~約99.5%、約96%~約100%、約97%~約98%、約97%~約99%、約97%~約99.5%、約97%~約100%、約98%~約99%、約98%~約99.5%、約98%~約100%、約99%~約99.5%、約99%~約100%、または約99.5%~約100%の陰性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陰性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、少なくとも約80%、約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、または約99.5%の陰性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、最大で約85%、約90%、約92%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約100%の陰性的中度で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、約0.8~約1のAUCを有するROC曲線で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、約0.8~約0.85、約0.8~約0.9、約0.8~約0.92、約0.8~約0.94、約0.8~約0.95、約0.8~約0.96、約0.8~約0.97、約0.8~約0.98、約0.8~約0.99、約0.8~約0.995、約0.8~約1、約0.85~約0.9、約0.85~約0.92、約0.85~約0.94、約0.85~約0.95、約0.85~約0.96、約0.85~約0.97、約0.85~約0.98、約0.85~約0.99、約0.85~約0.995、約0.85~約1、約0.9~約0.92、約0.9~約0.94、約0.9~約0.95、約0.9~約0.96、約0.9~約0.97、約0.9~約0.98、約0.9~約0.99、約0.9~約0.995、約0.9~約1、約0.92~約0.94、約0.92~約0.95、約0.92~約0.96、約0.92~約0.97、約0.92~約0.98、約0.92~約0.99、約0.92~約0.995、約0.92~約1、約0.94~約0.95、約0.94~約0.96、約0.94~約0.97、約0.94~約0.98、約0.94~約0.99、約0.94~約0.995、約0.94~約1、約0.95~約0.96、約0.95~約0.97、約0.95~約0.98、約0.95~約0.99、約0.95~約0.995、約0.95~約1、約0.96~約0.97、約0.96~約0.98、約0.96~約0.99、約0.96~約0.995、約0.96~約1、約0.97~約0.98、約0.97~約0.99、約0.97~約0.995、約0.97~約1、約0.98~約0.99、約0.98~約0.995、約0.98~約1、約0.99~約0.995、約0.99~約1、または約0.995~約1のAUCを有するROC曲線で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、約0.8、約0.85、約0.9、約0.92、約0.94、約0.95、約0.96、約0.97、約0.98、約0.99、約0.995、または約1のAUCを有するROC曲線で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、少なくとも約0.8、約0.85、約0.9、約0.92、約0.94、約0.95、約0.96、約0.97、約0.98、約0.99、または約0.995のAUCを有するROC曲線で推論することができる。工程b’’’’の機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかを、最大で約0.85、約0.9、約0.92、約0.94、約0.95、約0.96、約0.97、約0.98、約0.99、約0.995、または約1のAUCを有するROC曲線で推論することができる。
【0241】
[0265] 一部の実施形態では、処置は、患者の肺がんを処置するように構成される。一部の実施形態では、処置は、患者の肺がんの重症度を低減させるように構成される。一部の実施形態では、処置は、患者の肺がんを有するリスクを低減させるように構成される。処置は、肺がんの1つまたは複数の処置を含むことができる。一部の実施形態では、処置は、手術、化学療法、標的化治療、免疫療法、放射線療法、またはその任意の組合せである。
【0242】
[0266] 一態様では、本開示は、生検のために、患者の肺結節を評価する方法を提供する。方法は、工程w、x、yおよびzのいずれか1つ、任意の組合せ、またはすべてを含むことができる。工程wは、i)少なくとも2つの肺疾患関連遺伝子に関する、患者の生体試料の遺伝子発現測定値、およびii)任意選択により患者の表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含有するデータセットを得る工程を含むことができる。遺伝子発現測定値は、生体試料をアッセイすることにより得られ得る。工程xは、データセットが悪性肺結節を示すか良性肺結節を示すかに関する推論を生成するように訓練された機械学習モデルに入力としてデータセットを提供する工程を含むことができる。工程yは、機械学習モデルの出力として、データセットが悪性肺結節を示すか良性肺結節を示すかを示す推論を受信する工程を含むことができる。工程zは、肺結節の機械学習分類に基づいて肺結節の生検を実施する工程を含むことができる。一部の実施形態では、工程zは、肺結節が悪性結節または良性結節として分類されていることに基づいて肺結節の生検を実施する工程を含むことができる。一部の実施形態では、工程zは、肺結節が悪性結節として分類されていることに基づいて肺結節の生検を実施する工程を含むことができる。生検を実施する決定は、推論の信頼度に依存してもよい。ある特定の実施形態では、患者の肺結節の生検は実施されない。一部の実施形態では、工程wのデータセットは、i)表1、表2、表3、表4、表5、表7、および表8のいずれか1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する生体試料の遺伝子発現測定値、ならびにii)任意選択により表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含有する。
【0243】
[0267]一部の実施形態では、工程wのデータセットの少なくとも2つの肺疾患関連遺伝子は、表1に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、または182個、またはこれらの間の任意の値もしくは範囲の個数の遺伝子を含む。一部の実施形態では、工程wのデータセットの少なくとも2つの肺疾患関連遺伝子は、表2に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、または175個、またはこれらの間の任意の値もしくは範囲の個数の遺伝子を含む。一部の実施形態では、工程wのデータセットの少なくとも2つの肺疾患関連遺伝子は、表3に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60または62個、またはこれらの間の任意の値もしくは範囲の個数の遺伝子を含む。一部の実施形態では、工程wのデータセットの少なくとも2つの肺疾患関連遺伝子は、表4に記載される遺伝子の群から選択される少なくとも、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、または295個、またはこれらの間の任意の値もしくは範囲の個数の遺伝子を含む。一部の実施形態では、工程wのデータセットの少なくとも2つの肺疾患関連遺伝子は、表5に記載される遺伝子の群から選択される少なくとも、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、または142個、またはこれらの間の任意の値もしくは範囲の個数の遺伝子を含む。一部の実施形態では、工程wのデータセットの少なくとも2つの肺疾患関連遺伝子は、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含む。一部の実施形態では、工程wの少なくとも2つの肺疾患関連遺伝子は、BCAT1、CRCP、COA4、OVCA2、POM121、HLA-DPA1、VPS37C、MGST2、RNF220、HDAC3、NFE2L1、WDR20、CNPY4、HOXB2、C6orf120、TMEM8A、ASAP1-IT2、C15orf54、CD101、FNBP1、TECR、PROK2、SLC35B3、TDRD9、CLHC1、LPL、IFITM3、OGFOD3、EIF2B3、TMEM65、およびMKRN3から選択される。一部の実施形態では、工程wのデータセットの少なくとも2つの肺疾患関連遺伝子は、表8に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、または21個の遺伝子を含む。一部の実施形態では、工程wの少なくとも2つの肺疾患関連遺伝子は、BCAT1、USP32P2、CD177、QPCT、SCAF4、SNRPD3、BCL9L、THBS1、SLC22A18AS、ARCN1、DHX16、SATB1、ST6GAL1、CXCL1、TDRD9、ZNF831、MTCH1、FAM86HP、DHX8、RNF114、およびDCTN4から選択される。一部の実施形態では、工程wのデータセットの1つまたは複数の臨床特性は、患者の、表6に記載される群から選択される1、2、3、4、5、6、7または8個の臨床特性を含む。一部の実施形態では、工程wのデータセットの1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せを含む。一部の実施形態では、工程wのデータセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の肺疾患関連遺伝子に関する遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される1、2、3、4、5、6、7または8個の臨床特性の臨床特性データを含有する。一部の実施形態では、工程wのデータセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の肺疾患関連遺伝子に関する遺伝子発現測定値、およびii)結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せから選択される患者の臨床特性の臨床特性データを含有する。一部の実施形態では、工程wの少なくとも2つの肺疾患関連遺伝子は、表7に記載される31個の遺伝子を含み、ならびに工程wの1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在を含む。一部の実施形態では、工程wの少なくとも2つの肺疾患関連遺伝子は、表7に記載される31個の遺伝子からなり、ならびに工程wの1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在からなる。
【0244】
[0268] 一部の実施形態では、生体試料は、血液試料、単離された末梢血単核球(PBMC)、肺生検試料、鼻水、唾液、またはその任意の派生物である。一部の実施形態では、生体試料は、血液試料またはその任意の派生物である。一部の実施形態では、生体試料は、単離された末梢血単核球(PBMC)またはその任意の派生物である。一部の実施形態では、生体試料は、肺生検試料、またはその任意の派生物である。一部の実施形態では、生体試料は、鼻水試料、またはその任意の派生物である。一部の実施形態では、生体試料は、唾液試料、またはその任意の派生物である。
【0245】
[0269] 例えば工程xの、機械学習モデルは、本明細書に記載される方法にしたがって、例えば工程b’の機械学習モデルの訓練方法にしたがって訓練され得る。
【0246】
[0270] ある特定の態様は、患者において肺がんを決定する方法に方向付けられている。方法は、工程w’、x’、y’およびz’のいずれか1つ、任意の組合せ、またはすべてを含むことができる。工程w’は、i)少なくとも2つの肺疾患関連遺伝子に関する、患者の生体試料の遺伝子発現測定値、およびii)任意選択により表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含有するデータセットを得る工程を含むことができる。遺伝子発現測定値は、生体試料をアッセイすることにより得られ得る。工程x’は、データセットが、患者が肺がんを有することを示すか有しないことを示すかに関する推論を生成するように訓練された機械学習モデルに入力としてデータセットを提供する工程を含むことができる。工程y’は、機械学習モデルの出力として、データセットが、患者が肺がんを有することを示すか有しないことを示すかに関する推論を受信する工程を含むことができる。工程z’は、患者が肺がんを有することを示すか有しないことを示すかに関するレポートを電子的に出力する工程を含むことができる。生体試料の遺伝子発現測定は、任意の好適な技術、例えば、RNA-seqまたはAmpli-seq等を含むがこれらに限定されない、任意の好適なRNA定量技術を使用して実施することができる。一部の実施形態では、工程w’のデータセットは、i)表1、表2、表3、表4、表5、表7、および表8のいずれか1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する生体試料の遺伝子発現測定値、ならびにii)任意選択により表6に記載される臨床特性の群から選択される患者の1つまたは複数の臨床特性の臨床特性データを含有する。
【0247】
[0271] 一部の実施形態では、工程w’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表1に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、または182個、またはこれらの間の任意の値もしくは範囲の個数の遺伝子を含む。一部の実施形態では、工程w’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表2に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、または175個、またはこれらの間の任意の値もしくは範囲の個数の遺伝子を含む。一部の実施形態では、工程w’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表3に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60または62個、またはこれらの間の任意の値もしくは範囲の個数の遺伝子を含む。一部の実施形態では、工程w’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表4に記載される遺伝子の群から選択される少なくとも、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、または295個、またはこれらの間の任意の値もしくは範囲の個数の遺伝子を含む。一部の実施形態では、工程w’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表5に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、または142個の遺伝子を含む。一部の実施形態では、工程w’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の遺伝子を含む。一部の実施形態では、工程w’の少なくとも2つの肺疾患関連遺伝子は、BCAT1、CRCP、COA4、OVCA2、POM121、HLA-DPA1、VPS37C、MGST2、RNF220、HDAC3、NFE2L1、WDR20、CNPY4、HOXB2、C6orf120、TMEM8A、ASAP1-IT2、C15orf54、CD101、FNBP1、TECR、PROK2、SLC35B3、TDRD9、CLHC1、LPL、IFITM3、OGFOD3、EIF2B3、TMEM65、およびMKRN3から選択される。一部の実施形態では、工程w’のデータセットの少なくとも2つの肺疾患関連遺伝子は、表8に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、または21個の遺伝子を含む。一部の実施形態では、工程wの少なくとも2つの肺疾患関連遺伝子は、BCAT1、USP32P2、CD177、QPCT、SCAF4、SNRPD3、BCL9L、THBS1、SLC22A18AS、ARCN1、DHX16、SATB1、ST6GAL1、CXCL1、TDRD9、ZNF831、MTCH1、FAM86HP、DHX8、RNF114、およびDCTN4から選択される。一部の実施形態では、工程w’のデータセットの1つまたは複数の臨床特性は、表6に記載される群から選択される1、2、3、4、5、6、7または8個の臨床特性を含む。一部の実施形態では、工程w’のデータセットの1つまたは複数の臨床特性は、結節のサイズを含む。一部の実施形態では、工程w’のデータセットの1つまたは複数の臨床特性は、患者の年齢を含む。一部の実施形態では、工程w’のデータセットの1つまたは複数の臨床特性は、肺上葉における結節の存在を含む。一部の実施形態では、工程w’のデータセットの1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せを含む。一部の実施形態では、工程w’のデータセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の肺疾患関連遺伝子に関する遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される患者の1、2、3、4、5、6、7または8個の臨床特性の臨床特性データを含有する。一部の実施形態では、工程w’のデータセットは、i)生体試料の表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の肺疾患関連遺伝子に関する遺伝子発現測定値、およびii)結節のサイズ、患者の年齢、肺上葉における結節の存在、またはその任意の組合せから選択される患者の臨床特性の臨床特性データを含有する。一部の実施形態では、工程w’の少なくとも2つの肺疾患関連遺伝子は、表7に記載される31個の遺伝子を含み、ならびに工程w’の1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在を含む。一部の実施形態では、工程w’の少なくとも2つの肺疾患関連遺伝子は、表7に記載される31個の遺伝子からなり、ならびに工程w’の1つまたは複数の臨床特性は、結節のサイズ、患者の年齢、および肺上葉における結節の存在からなる。
【0248】
[0272] 一部の実施形態では、生体試料は、群:血液試料、単離された末梢血単核球(PBMC)、肺生検試料、鼻水、唾液、およびその任意の派生物から選択される。一部の実施形態では、生体試料は、血液試料またはその任意の派生物である。一部の実施形態では、生体試料は、単離された末梢血単核球(PBMC)またはその任意の派生物である。一部の実施形態では、生体試料は、肺生検試料、またはその任意の派生物である。一部の実施形態では、生体試料は、鼻水試料、またはその任意の派生物である。一部の実施形態では、生体試料は、唾液試料、またはその任意の派生物である。
【0249】
[0273] 方法は、患者が肺がんを有するか否かを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い正解率で決定することができる。方法は、患者が肺がんを有するか否かを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い感度で決定することができる。方法は、患者が肺がんを有するか否かを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い特異度で決定することができる。方法は、患者が肺がんを有するか否かを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陽性的中度で決定することができる。方法は、患者が肺がんを有するか否かを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、または約99%より高い陰性的中度で決定することができる。例えば工程x’の、機械学習モデルは、データセットが、患者が肺がんを有することを示すか有しないことを示すかを、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.91、少なくとも約0.92、少なくとも約0.93、少なくとも約0.94、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、少なくとも約0.99、または約0.99より高いAUCを有する受信者動作特性(ROC)曲線を用いて推論することができる。
【0250】
[0274] 機械学習モデルからの推論は、患者が肺がんを有することの0~1、例えば0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9または1、またはそれらの間の任意の値もしくは範囲の信頼度を含むことができる。より高い信頼度は、患者が肺がんを有するより高い可能性と相関し得る。
【0251】
[0275] 例えば工程x’の、機械学習モデルは、データセットが、患者が悪性肺結節を有することを示すか良性肺結節を有することを示すかに関する推論を生成することができ、患者が悪性肺結節を有することは、患者が肺がんを有することを示すことができ、患者が良性肺結節を有することは、患者が肺がんを有しないことを示すことができる。機械学習モデルは、本明細書に記載される方法にしたがって、例えば工程b’の機械学習モデルの訓練方法にしたがって訓練され得る。
【0252】
[0276] 別の態様では、本開示は、対象の肺結節を評価するためのコンピュータシステムであって、データセットを保存するように構成されたデータベースまたは他の好適なデータストレージシステム;およびデータベースに作動可能にカップリングした1つまたは複数のコンピュータプロセッサーであって、(i)データセットを分析して、対象の肺結節を悪性肺結節または良性肺結節として分類するように;(ii)悪性肺結節または良性肺結節としての対象の肺結節の分類を示すレポートを電子的に出力するように個々にまたは集合的にプログラムされている、1つまたは複数のコンピュータプロセッサーを含む、コンピュータシステムを提供する。本明細書に記載されているコンピュータにより実装された方法は、コンピュータシステム、例えば上記されるコンピュータシステム上で実行されてもよい。例えば、コンピュータシステムは、1つまたは複数のプロセッサー、および、実行の結果として、1つまたは複数のプロセッサーが上記されるプログラムされた工程を集合的に行うことを引き起こす、コンピュータ可読実行可能命令を集合的に保存する1つまたは複数のメモリユニットを含んでもよい。本明細書に記載されているコンピュータシステムは、パーソナルコンピュータに通信的にカップリングしたアッセイデバイスを含んでもよい。データセットは、本明細書に記載されるデータセットであり得る。一部の実施形態では、データセットは、a)遺伝子発現データであって、遺伝子発現データが、対象から得られたかまたは対象に由来する生体試料をアッセイして、複数の肺疾患関連ゲノム座の各々からの生体試料の遺伝子発現測定値を生成することにより得られ、複数の疾患関連ゲノム座が、表4に記載される遺伝子の群から選択される少なくとも1つの遺伝子を含む、遺伝子発現データを含む。一部の実施形態では、データセットは、i)表1、表2、表3、表4、表5、表7、および表8のいずれか1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する対象の生体試料の遺伝子発現測定値、ならびにii)任意選択により表6に記載される臨床特性の群から選択される対象の1つまたは複数の臨床特性の臨床特性データを含有する。一部の実施形態では、データセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の肺疾患関連遺伝子に関する対象の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される対象の1、2、3、4、5、6、7または8個の臨床特性の臨床特性データを含有する。一部の実施形態では、データセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の肺疾患関連遺伝子に関する対象の生体試料の遺伝子発現測定値、およびii)結節のサイズ、対象の年齢、肺上葉における結節の存在、またはその任意の組合せから選択される対象の臨床特性の臨床特性データを含有する。生体試料は、本明細書に記載される生体試料であり得る。一部の実施形態では、データセットは、i)表7に記載される31個の遺伝子、ならびにii)結節のサイズ、患者の年齢、および肺上葉における結節の存在から選択される対象の1つまたは複数の臨床特性を含む。一部の実施形態では、データセットは、i)表7に記載される31個の遺伝子、ならびにii)結節のサイズ、患者の年齢、および肺上葉における結節の存在から選択される対象の1つまたは複数の臨床特性からなる。生体試料は、本明細書に記載される生体試料であり得る。
【0253】
[0277] 一部の実施形態では、コンピュータシステムは、1つまたは複数のコンピュータプロセッサーに作動可能にカップリングした電子ディスプレイであって、レポートを表示するように構成されたグラフィカルユーザーインターフェースを含む電子ディスプレイをさらに含む。
【0254】
[0278] 別の態様では、本開示は、1つまたは複数のコンピュータプロセッサーにより実行されると、1つまたは複数のコンピュータプロセッサーが、対象の肺結節を評価する方法を行うことを引き起こす、機械実行可能コードを集合的に含む1つまたは複数の非一時的コンピュータ可読媒体であって、方法が、(a)対象から得られたかまたは対象に由来する生体試料をアッセイしてデータセットを生成する工程;(b)データセットを分析して、対象の肺結節を悪性肺結節または良性肺結節として分類する工程;および(c)悪性肺結節または良性肺結節としての対象の肺結節の分類を示すレポートを電子的に出力する工程を含む、1つまたは複数の非一時的コンピュータ可読媒体を提供する。データセットは、本明細書に記載されるデータセットであり得る。一部の実施形態では、データセットは、複数の肺疾患関連ゲノム座の各々からの生体試料の遺伝子発現測定値を含み、複数の疾患関連ゲノム座は、表4に記載される群から選択される少なくとも1つの遺伝子を含む。一部の実施形態では、データセットは、i)表1、表2、表3、表4、表5、表7、および表8のいずれか1つまたは複数に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する対象の生体試料の遺伝子発現測定値、ならびにii)任意選択により表6に記載される臨床特性の群から選択される対象の1つまたは複数の臨床特性の臨床特性データを含有する。一部の実施形態では、データセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の肺疾患関連遺伝子に関する対象の生体試料の遺伝子発現測定値、およびii)表6に記載される臨床特性の群から選択される対象の1、2、3、4、5、6、7または8個の臨床特性の臨床特性データを含有する。一部の実施形態では、データセットは、i)表7に記載される遺伝子の群から選択される少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、または31個の肺疾患関連遺伝子に関する対象の生体試料の遺伝子発現測定値、およびii)結節のサイズ、対象の年齢、肺上葉における結節の存在、またはその任意の組合せから選択される対象の臨床特性の臨床特性データを含有する。一部の実施形態では、データセットは、i)表7に記載される31個の遺伝子、ならびにii)結節のサイズ、患者の年齢、および肺上葉における結節の存在から選択される対象の1つまたは複数の臨床特性を含む。一部の実施形態では、データセットは、i)表7に記載される31個の遺伝子、ならびにii)結節のサイズ、患者の年齢、および肺上葉における結節の存在から選択される対象の1つまたは複数の臨床特性からなる。生体試料は、本明細書に記載される生体試料であり得る。
【0255】
[0279]
図10は、対象の肺結節を評価する例示的な方法1000の概要を図示する。方法1000は、操作1002におけるように、対象から得られたかまたは対象に由来する生体試料をアッセイして、複数の肺疾患関連ゲノム座の各々における生体試料の遺伝子発現測定値を含むデータセットを生成する工程を含んでもよい。一部の実施形態では、データセットは、対象の表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データをさらに含有する。一部の実施形態では、複数の疾患関連ゲノム座は、表1に記載される遺伝子の群から選択される少なくとも1つの遺伝子を含む。一部の実施形態では、複数の疾患関連ゲノム座は、表2に記載される遺伝子の群から選択される少なくとも1つの遺伝子を含む。一部の実施形態では、複数の疾患関連ゲノム座は、表3に記載される遺伝子の群から選択される少なくとも1つの遺伝子を含む。一部の実施形態では、複数の疾患関連ゲノム座は、表4に記載される遺伝子の群から選択される少なくとも1つの遺伝子を含む。一部の実施形態では、複数の疾患関連ゲノム座は、表5に記載される遺伝子の群から選択される少なくとも1つの遺伝子を含む。一部の実施形態では、複数の疾患関連ゲノム座は、表7に記載される遺伝子の群から選択される少なくとも1つの遺伝子を含む。一部の実施形態では、複数の疾患関連ゲノム座は、表8に記載される遺伝子の群から選択される少なくとも1つの遺伝子を含む。一部の実施形態では、データセットは、i)表7に記載される遺伝子の群から選択される少なくとも2つの肺疾患関連遺伝子に関する患者の生体試料の遺伝子発現測定値、および対象の表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データを含む。方法1000は、操作1004におけるように、データセットを分析して、対象の肺結節を悪性肺結節または良性肺結節として分類する工程を含んでもよい。方法1000は、操作1006におけるように、悪性肺結節または良性肺結節としての対象の肺結節の分類を示すレポートを電子的に出力する工程を含んでもよい。
【0256】
[0280] 本開示の方法は、訓練された機械学習アルゴリズムを遺伝子発現データ(例えば、RNA-SeqまたはAmpli-seq等により獲得されたもの)および任意選択により対象の臨床特性データに適用して、対象の肺結節を評価する工程を含んでもよい。訓練された機械学習アルゴリズムは、遺伝子発現データおよび任意選択により臨床特性データを処理して肺結節を評価する(例えば、肺結節が悪性であるか良性であるかを決定する)ように構成された機械学習ベース分類器を含んでもよい。機械学習分類器は、臨床的データセット、例えば対象の1つまたは複数のコホートからの参照データセットを使用して、例えば、遺伝子発現データおよび/または臨床健康データ、例えば入力として対象の臨床特性データおよび機械学習分類器への出力として対象の既知の臨床健康アウトカム(例えば、悪性または良性である肺結節)を使用して訓練されてもよい。
【0257】
[0281] 機械学習分類器は、1つまたは複数の機械学習アルゴリズムを含んでもよい。機械学習アルゴリズムの例は、線形回帰、ロジスティック回帰(LOG)、リッジ回帰、ラッソ回帰、エラスティックネット(EN)回帰、サポートベクトルマシン(SVM)、勾配ブースティングマシン(GBM)、k最近傍(kNN)、一般化線形モデル(GLM)、ナイーブベイズ(NB)分類器、ニューラルネットワーク、ランダムフォレスト(RF)、ディープラーニングアルゴリズム、線形判別分析(LDA)、決定木学習(DTREE)、適応型ブースティング(ADB)またはその任意の組合せ、または分類および回帰のための別の教師あり学習アルゴリズムもしくは教師なし学習アルゴリズムを含んでもよい。機械学習分類器は、対象データ(例えば、遺伝子発現データおよび/または臨床健康データ)に対応する1つまたは複数の参照データセットを使用して訓練されてもよい。
【0258】
[0282] 機械学習分類器を訓練するために使用される参照データセットは、例えば、一般的な臨床特性(特徴量)および臨床アウトカム(標識)を有する患者の1つまたは複数のコホートから生成されてもよい。参照データセットは、特徴量および特徴量に対応する標識のセットを含んでもよい。特徴量は、対象データ(例えば、遺伝子発現データおよび/または臨床健康データ、例えば臨床特性データ)を含むアルゴリズム入力に対応してもよい。特徴量は、臨床特性、例えば、遺伝子発現データおよび/または臨床健康データのある特定の範囲、カテゴリ、またはレベル等を含んでもよい。特徴量は、対象の情報、例えば患者の年齢、患者の病歴、他の医学的条件、現在もしくは過去の医薬品、結節のサイズ、肺上葉における結節の存在および/または最後の観察からの時間を含んでもよい。例えば、所与の時点において所与の患者から収集された特徴量のセットは、所与の時点における対象の臨床健康アウトカム(例えば、悪性または良性である肺結節)を示し得るシグネチャとして集合的に役立ち得る。
【0259】
[0283] 例えば、対象データ(例えば、遺伝子発現データおよび/または臨床健康データ)の範囲は、複数の、連続的な測定値の互いに共通元をもたない連続的な範囲として表されてもよく、対象データ(例えば、遺伝子発現データおよび/または臨床健康データ)のカテゴリは、複数の、測定値の互いに共通元をもたないセット(例えば、{「高い」、「低い」}、{「高い」、「正常」}、{「低い」、「正常」}、{「高い」、「ボーダーラインで高い」、「正常」、「低い」}、{「該当」、「非該当」}、{「存在」、「非存在」}等)として表されてもよい。臨床特性はまた、対象の健康上の履歴、例えば疾患もしくは障害の診断、臨床処置(例えば、薬物、外科的処置、化学療法、放射線療法、免疫療法等)の先行する投与(施用)、行動因子、または他の健康状態(例えば、高血圧(hypertensionもしくはhigh blood pressure)、高血糖症もしくは高血中グルコース、高コレステロール血症もしくは高血中コレステロール、アレルギー性反応もしくは他の有害反応の履歴等)を示す臨床標識を含んでもよい。患者の臨床特性、AGEについての臨床特性データは患者の年齢であり得る。患者の臨床特性、SEXについての臨床特性データは患者の性別であり得る。患者の臨床特性、肺上葉における結節の存在(NCNUPYN)についての臨床特性データは該当または非該当であり得る。患者の臨床特性、喫煙状況(MHTBSTAT)についての臨床特性データは過去または現在のものであり得る。患者の臨床特性、慢性閉塞性肺疾患(MHCPDYN)についての臨床特性データは該当または非該当であり得る。患者の臨床特性、小棘形成した肺結節(NCNMYN)についての臨床特性データは該当または非該当であり得る。患者の臨床特性、気腫(MHEMPYN)についての臨床特性データは該当または非該当であり得る。標識は、臨床アウトカム、例えば悪性または良性である肺結節等を含んでもよい。
【0260】
[0284] 機械学習分類器アルゴリズムは、入力特徴量を処理して、1つもしくは複数の分類、1つもしくは複数の予測、またはその組合せを含む出力値を生成してもよい。例えば、そのような分類または予測は、肺結節のバイナリー分類、カテゴリカル標識の群(例えば、「悪性肺結節」および「良性肺結節」)の間の分類、悪性肺結節または良性肺結節を有する可能性(例えば、相対的な可能性または確率)、ならびに任意の数値的予測のための信頼区画を含んでもよい。様々な機械学習技術はカスケードされてもよく、その結果、機械学習技術の出力はまた、機械学習分類器の後続する層またはサブセクションへの入力特徴量として使用されてもよい。
【0261】
[0285] (例えば、モデルの重みおよび相関を決定することにより)機械学習分類器モデルを訓練してリアルタイム分類または予測を生成するために、モデルは、参照データセットを使用して訓練され得る。そのようなデータセットは、統計的に有意な分類または予測を生成するために十分に大きくてもよい。一部の場合には、データセットはアノテーションまたは標識される。
【0262】
[0286] データセットは、サブセット(例えば、離散的なまたはオーバーラップするもの)、例えば訓練データセット、開発データセット(development dataset)、および試験データセットに分割されてもよい。例えば、データセットは、データセットの80%を構成する訓練データセット、データセットの10%を構成する開発データセット、およびデータセットの10%を構成する試験データセットに分割されてもよい。訓練データセットは、データセットの約10%、約20%、約30%、約40%、約50%、約60%、約70%、約80%、または約90%を構成してもよい。開発データセットは、データセットの約10%、約20%、約30%、約40%、約50%、約60%、約70%、約80%、または約90%を構成してもよい。試験データセットは、データセットの約10%、約20%、約30%、約40%、約50%、約60%、約70%、約80%、または約90%を構成してもよい。訓練セット(例えば、訓練データセット)は、サンプリングの独立性を確実にするために1つまたは複数の患者コホートに対応するデータのセットのランダムなサンプリングにより選択されてもよい。代替的に、訓練セット(例えば、訓練データセット)は、サンプリングの独立性を確実にするために1つまたは複数の患者コホートに対応するデータのセットの比例的なサンプリングにより選択されてもよい。
【0263】
[0287] 参照データセットは、サブセット(例えば、離散的なまたはオーバーラップするもの)、例えば訓練データセット、および検証データセットに分割されてもよい。例えば、参照データセットは、データセットの80%を含有する訓練データセット、およびデータセットの20%を含有する検証データセットに分割されてもよい。訓練データセットは、参照データセットの5%、10%、20%、30%、40%、50%、60%、70%、80%、90%または95%、またはそれらの間の任意の値もしくは範囲を含有してもよい。検証データセットは、参照データセットの5%、10%、20%、30%、40%、50%、60%、70%、80%、90%または95%、またはそれらの間の任意の値もしくは範囲を含有してもよい。2、2.5、5または10、またはそれらの間の任意の値もしくは範囲の分割の交差検証が使用され得る。
【0264】
[0288] 機械学習分類器モデルの性能を検証するために、異なる性能メトリクスが生成されてもよい。例えば、機械学習分類器の診断能力を決定するために受信者動作曲線下面積(AUROC)が使用されてもよい。例えば、機械学習分類器は、特異度および感度がチューニング可能であるように調整可能な分類閾値を使用してもよく、受信者動作曲線(ROC)は、特異度および感度の異なる値に対応する異なる動作点を同定するために使用され得る。
【0265】
[0289] 一部の場合には、例えばデータセットが十分に大きくない場合には、異なる訓練および試験データセットの間での機械学習分類器モデルの堅牢性を評価するために交差検証が行われてもよい。
【0266】
[0290] 性能メトリクス、例えば感度、特異度、正解率、陽性的中度(PPV)、陰性的中度(NPV)、AUPRC、AUROC、または類似したものを計算するために、以下の定義が使用されてもよい。「偽陽性」は、対象の肺結節が悪性肺結節として不正確に分類されるアウトカムを指すことができる。「真陽性」は、対象の肺結節が悪性肺結節として正確に分類されるアウトカムを指すことができる。「偽陰性」は、対象の肺結節が良性肺結節として不正確に分類されるアウトカムを指すことができる。「真陰性」は、対象の肺結節が良性肺結節として正確に分類されるアウトカムを指すことができる。
【0267】
[0291] 遺伝子発現測定は、任意の好適な技術、例えば、RNA-seqまたはAmpli-seq等を含むがこれらに限定されない、任意の好適なRNA定量技術を使用して実施することができる。一部の実施形態では、遺伝子発現データは、群:BIG-C(商標)ビッグデータ分析ツール、I-Scope(商標)ビッグデータ分析ツール、T-Scope(商標)ビッグデータ分析ツール、Cell Scanビッグデータ分析ツール、MS(Molecular Signature) Scoring(商標)分析ツール、およびGene Set Variation Analysis(GSVA)ツール(例えば、P-Scope)から選択されるデータ分析ツールにより得られる。
【0268】
[0292] 機械学習分類器は、正解率または性能のためのある特定の予め決定された条件、例えば診断正解率指標に対応する最小の所望される値を有する条件が満たされるまで、訓練されてもよい。例えば、診断正解率指標は、肺結節が悪性または良性である可能性の予測に対応してもよい。診断正解率指標の例は、肺結節が悪性であるか良性であるかを決定する診断正解率に対応する感度、特異度、陽性的中度(PPV)、陰性的中度(NPV)、正解率、精度-再現率曲線下面積(AUPRC)、および受信者動作特性(ROC)曲線の曲線下面積(AUC)(AUROC)を含み得る。
【0269】
[0293] 例えば、そのような予め決定された条件は、肺結節が悪性であるか良性であるかを決定する感度が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の値を含むことであってもよい。
【0270】
[0294] 別の例として、そのような予め決定された条件は、肺結節が悪性であるか良性であるかを決定する特異度が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の値を含むことであってもよい。
【0271】
[0295] 別の例として、そのような予め決定された条件は、肺結節が悪性であるか良性であるかを決定する陽性的中度(PPV)が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の値を含むことであってもよい。
【0272】
[0296] 別の例として、そのような予め決定された条件は、肺結節が悪性であるか良性であるかを決定する陰性的中度(NPV)が、例えば、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の値を含むことであってもよい。
【0273】
[0297] 別の例として、そのような予め決定された条件は、肺結節が悪性であるか良性であるかを決定する受信者動作特性(ROC)曲線の曲線下面積(AUC)(AUROC)が、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、または少なくとも約0.99の値を含むことであってもよい。
【0274】
[0298] 別の例として、そのような予め決定された条件は、肺結節が悪性であるか良性であるかを決定する精度-再現率曲線下面積(AUPRC)が、少なくとも約0.10、少なくとも約0.15、少なくとも約0.20、少なくとも約0.25、少なくとも約0.30、少なくとも約0.35、少なくとも約0.40、少なくとも約0.45、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、または少なくとも約0.99の値を含むことであってもよい。
【0275】
[0299] 一部の実施形態では、訓練される分類器は、肺結節が悪性であるか良性であるかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の感度で決定するように訓練または構成されてもよい。
【0276】
[0300] 一部の実施形態では、訓練される分類器は、肺結節が悪性であるか良性であるかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の特異度で決定するように訓練または構成されてもよい。
【0277】
[0301] 一部の実施形態では、訓練される分類器は、肺結節が悪性であるか良性であるかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の陽性的中度(PPV)で決定するように訓練または構成されてもよい。
【0278】
[0302] 一部の実施形態では、訓練される分類器は、肺結節が悪性であるか良性であるかを、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、または少なくとも約99%の陰性的中度(NPV)で決定するように訓練または構成されてもよい。
【0279】
[0303] 一部の実施形態では、訓練される分類器は、肺結節が悪性であるか良性であるかを、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、または少なくとも約0.99の受信者動作特性(ROC)曲線の曲線下面積(AUC)(AUROC)で決定するように訓練または構成されてもよい。
【0280】
[0304] 一部の実施形態では、訓練される分類器は、肺結節が悪性であるか良性であるかを、少なくとも約0.10、少なくとも約0.15、少なくとも約0.20、少なくとも約0.25、少なくとも約0.30、少なくとも約0.35、少なくとも約0.40、少なくとも約0.45、少なくとも約0.50、少なくとも約0.55、少なくとも約0.60、少なくとも約0.65、少なくとも約0.70、少なくとも約0.75、少なくとも約0.80、少なくとも約0.85、少なくとも約0.90、少なくとも約0.95、少なくとも約0.96、少なくとも約0.97、少なくとも約0.98、または少なくとも約0.99の精度-再現率曲線下面積(AUPRC)で決定するように訓練または構成されてもよい。
【0281】
[0305] 本開示は、本開示の方法を実行するようにプログラムされたコンピュータシステムを提供する。
図11は、本明細書において提供される方法を実行するようにプログラムされているか、または他に構成されたコンピュータシステム1101を示す。
【0282】
[0306] コンピュータシステム1101は、本開示の様々な態様、例えば、対象から得られたかまたは対象に由来する生体試料をアッセイして、複数の肺疾患関連ゲノム座の各々からの生体試料の遺伝子発現測定値を含むデータセットを生成する工程、データセットを分析して、対象の肺結節を悪性肺結節または良性肺結節として分類する工程、および悪性肺結節または良性肺結節としての対象の肺結節の分類を示すレポートを電子的に出力する工程等を調節することができる。一部の実施形態では、データセットは、患者の表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データをさらに含有する。コンピュータシステム1101は、ユーザーの電子デバイスであるか、または電子デバイスに対してリモートに位置するコンピュータシステムであり得る。電子デバイスはモバイルの電子デバイスであり得る。
【0283】
[0307] コンピュータシステム1101は、中央処理装置(CPU、本明細書においてまた「プロセッサー」および「コンピュータプロセッサー」)1105を含み、CPU 1105は、シングルコアもしくはマルチコアプロセッサー、または並列処理のための複数のプロセッサーであり得る。コンピュータシステム1101はまた、メモリまたはメモリ位置1110(例えば、ランダムアクセスメモリ、リードオンリーメモリ、フラッシュメモリ)、電子ストレージユニット1115(例えば、ハードディスク)、1つまたは複数の他のシステムとの通信のための通信インターフェース1120(例えば、ネットワークアダプタ)、ならびに周辺デバイス1125、例えばキャッシュ、他のメモリ、データストレージおよび/または電子ディスプレイアダプタを含む。メモリ1110、ストレージユニット1115、インターフェース1120および周辺デバイス1125は、通信バス(実線)、例えばマザーボードを通じてCPU 1105と通信している。ストレージユニット1115は、データを保存するためのデータストレージユニット(またはデータリポジトリ)であり得る。コンピュータシステム1101は、通信インターフェース1120の補助と共にコンピュータネットワーク(「ネットワーク」)1130に作動可能にカップリングし得る。ネットワーク1130は、インターネット、インターネットおよび/もしくはエクストラネット、またはインターネットと通信するイントラネットおよび/もしくはエクストラネットであり得る。
【0284】
[0308] ネットワーク1130は、一部の場合には、電気通信および/またはデータネットワークである。ネットワーク1130は、分散型コンピューティング、例えばクラウドコンピューティングを可能にすることができる1つまたは複数のコンピュータサーバーを含むことができる。例えば、1つまたは複数のコンピュータサーバーは、本開示の分析、計算、および生成の様々な態様、例えば、対象から得られたかまたは対象に由来する生体試料をアッセイして、複数の肺疾患関連ゲノム座の各々からの生体試料の遺伝子発現測定値を含むデータセットを生成する工程、データセットを分析して、対象の肺結節を悪性肺結節または良性肺結節として分類する工程、および悪性肺結節または良性肺結節としての対象の肺結節の分類を示すレポートを電子的に出力する工程等を行うためにネットワーク1130上でのクラウドコンピューティング(「クラウド」)を可能にしてもよい。一部の実施形態では、データセットは、患者の表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データをさらに含有する。そのようなクラウドコンピューティングは、クラウドコンピューティングプラットフォーム、例えば、Amazon Web Services(AWS)、Microsoft Azure、Google Cloud Platform、およびIBM cloud等により提供されてもよい。ネットワーク1130は、一部の場合にはコンピュータシステム1101の補助と共に、ピアツーピアネットワークを実行することができ、これは、コンピュータシステム1101にカップリングしたデバイスがクライアントまたはサーバーとして振る舞うことを可能にし得る。
【0285】
[0309] CPU 1105は、プログラムまたはソフトウェアに具現化され得る、機械可読命令の配列を実行することができる。命令は、メモリ位置、例えばメモリ1110に保存されてもよい。命令は、CPU 1105に方向付けることが可能であり、これは引き続いて、本開示の方法を実行するようにCPU 1105をプログラムまたは他に構成することができる。CPU 1105により行われる演算の例は、フェッチ、デコード、実行、およびライトバックを含むことができる。
【0286】
[0310] CPU 1105は、回路、例えば集積回路の部分であり得る。システム1101の1つまたは複数の他の構成要素が回路中に含まれ得る。一部の場合には、回路は特定用途向け集積回路(ASIC)である。
【0287】
[0311] ストレージユニット1115は、ファイル、例えばドライバ、ライブラリおよび保存されたプログラムを保存することができる。ストレージユニット1115は、ユーザーのデータ、例えば、ユーザーの好みおよびユーザーのプログラムを保存することができる。コンピュータシステム1101は、一部の場合には、コンピュータシステム1101に対して外部にある、例えばイントラネットまたはインターネットを通じてコンピュータシステム1101と通信するリモートサーバー上に位置する1つまたは複数の追加のデータストレージユニットを含むことができる。
【0288】
[0312] コンピュータシステム1101は、ネットワーク1130を通じて1つまたは複数のリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム1101は、ユーザーのリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例は、パーソナルコンピュータ(例えば、ポータブルPC)、スレートもしくはタブレットPC(例えば、Apple(登録商標) iPad、Samsung(登録商標) Galaxy Tab)、電話機、スマートホン(例えば、Apple(登録商標) iPhone、Androidデバイス、Blackberry(登録商標))、またはパーソナルデジタルアシスタントを含む。ユーザーは、ネットワーク1130を介してコンピュータシステム1101にアクセスすることができる。
【0289】
[0313] 本明細書に記載されている方法は、コンピュータシステム1101の電子ストレージ位置、例えば、メモリ1110または電子ストレージユニット1115等に保存された機械(例えば、コンピュータプロセッサー)実行可能コードによって実行され得る。機械実行可能または機械可読コードは、ソフトウェアの形態で提供され得る。使用の間に、コードはプロセッサー1105により実行され得る。一部の場合には、コードは、ストレージユニット1115から読み出され、プロセッサー1105による迅速なアクセスのためにメモリ1110に保存され得る。一部の状況では、電子ストレージユニット1115は使用不可にすることができ、機械実行可能命令はメモリ1110に保存される。
【0290】
[0314] コードは、コードを実行するように構成されたプロセッサーを有する機械での使用のようにプレコンパイルおよび構成され得るか、または実行時の間にコンパイルされ得る。コードは、プレコンパイルされたまたは実行時にコンパイルされる様式でのコードの実行を可能にするために選択され得るプログラミング言語において供給され得る。
【0291】
[0315] 本明細書において提供されるシステムおよび方法の態様、例えばコンピュータシステム1101は、プログラミングにおいて具現化され得る。技術の様々な態様は、典型的には、機械(もしくはプロセッサー)実行可能コードおよび/または一種の機械可読媒体に保有もしくは具現化された関連付けられるデータの形態の「製造物」または「製品」と考えることができる。機械実行可能コードは、電子ストレージユニット、例えばメモリ(例えば、リードオンリーメモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスク上に保存され得る。「ストレージ」型媒体は、ソフトウェアプログラミングのための任意の時点における非一時的な保存を提供し得るコンピュータ、もしくはプロセッサー等の有形メモリ、またはその関連付けられるモジュール、例えば様々な半導体メモリ、テープドライブ、およびディスクドライブ等のいずれかまたはすべてを含むことができる。ソフトウェアの全体または部分は、時には、インターネットまたは様々な他の電気通信ネットワークを通じて通信されてもよい。そのような通信は、例えば、1つのコンピュータまたはプロセッサーから別のコンピュータまたはプロセッサーへの、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームへの、ソフトウェアのローディングを可能にし得る。そのため、ソフトウェアエレメントを保有し得る別の種類の媒体は、光波、電波および電磁波、例えば有線および光学ランドラインネットワークを通じてならびに様々なエアリンク上で、ローカルデバイスの間の物理的インターフェースの間で使用されるものを含む。そのような波を搬送する物理エレメント、例えば有線もしくは無線接続、または光学接続等もまた、ソフトウェアを保有する媒体として考えられ得る。本明細書において使用される場合、非一時的な、有形の「ストレージ」媒体に制限されなければ、コンピュータまたは機械「可読媒体」等の用語は、実行のためのプロセッサーへの命令の提供に参加する任意の媒体を指す。
【0292】
[0316] それゆえ、機械可読媒体、例えばコンピュータ実行可能コードは、有形のストレージ媒体、搬送波媒体または物理的伝送媒体を含むがこれらに限定されない、多くの形態をとることができる。非揮発性ストレージ媒体は、例えば、光学または磁気ディスク、例えば任意のコンピュータ等におけるストレージデバイスのいずれか、例えば図中に示されるデータベース等を実行するために使用され得るものを含む。揮発性ストレージ媒体は、動的メモリ、例えばそのようなコンピュータプラットフォームのメインメモリを含む。有形の伝送媒体は、同軸ケーブル;コンピュータシステム内のバスを含むワイヤーを含む、銅ワイヤーおよびファイバーオプティクスを含む。搬送波伝送媒体は、電気もしくは電磁気信号、または音波もしくは光波、例えばラジオ周波数(RF)および赤外(IR)データ通信の間に生成されるものの形態をとることができる。一般的な形態のコンピュータ可読媒体は、したがって、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVDもしくはDVD-ROM、任意の他の光学媒体、パンチカード紙テープ、穴のパターンを有する任意の他の物理的ストレージ媒体、RAM、ROM、PROMおよびEPROM、FLASH-EPROM、任意の他のメモリチップもしくはカートリッジ、データもしくは命令を運搬する搬送波、そのような搬送波を運搬するケーブルもしくは接続、またはコンピュータがそこからプログラミングコードおよび/もしくはデータを読むことができる任意の他の媒体を含む。これらの形態のコンピュータ可読媒体の多くは、実行のためのプロセッサーへの1つまたは複数の命令の1つまたは複数の配列の伝送に関与し得る。
【0293】
[0317] コンピュータシステム1101は、ユーザーインターフェース(UI)1140を含む電子ディスプレイ1135を含むことができるか、またはそれと通信することができる。ユーザーインターフェース(UI)の例は、限定なしに、グラフィカルユーザーインターフェース(GUI)およびウェブベースユーザーインターフェースを含む。例えば、コンピュータシステムは、例えば、対象データ、悪性肺結節もしくは良性肺結節としての対象の肺結節の同定、および/または対象データから生成された予測もしくは評価を表示するように構成されたグラフィカルユーザーインターフェース(GUI)を含むことができる。
【0294】
[0318] 本開示の方法およびシステムは、1つまたは複数のアルゴリズムによって実行され得る。アルゴリズムは、中央処理装置1105による実行でソフトウェアによって実行され得る。アルゴリズムは、例えば、対象から得られたかまたは対象に由来する生体試料をアッセイして、複数の肺疾患関連ゲノム座の各々における生体試料の遺伝子発現測定値を含むデータセットを生成する工程、データセットを分析して、対象の肺結節を悪性肺結節または良性肺結節として分類する工程、および悪性肺結節または良性肺結節としての対象の肺結節の分類を示すレポートを電子的に出力する工程を行うことができる。一部の実施形態では、データセットは、患者の表6に記載される臨床特性の群から選択される1つまたは複数の臨床特性の臨床特性データをさらに含有する。
【実施例】
【0295】
[0319] 実施例1:RNA-Seqデータの機械学習分類
【0296】
[0320] 差次的遺伝子発現分析を行って、良性肺結節を有する対象と悪性肺結節を有する対象との間で全血試料において最も差次的に発現される遺伝子(例えば、バイオマーカー)を同定した。152人の対象からの試料を含むバイオマーカーデータセットを分析した。それらの中で、バイオマーカーデータセット中の試料の80個は良性肺結節の診断を有し、72個の試料は悪性肺結節の診断を有した。RNA-Seq技術を使用して対象からの全血試料の遺伝子発現測定値を分析した。
【0297】
[0321] 604人の対象からの肺結節試料を含む訓練データセットを使用して機械学習アルゴリズムを訓練した。対象からの全血試料の遺伝子発現測定値を分析した。引き続いて、487人の対象からの肺結節(long noduless)の試料を含む検証データセットを使用して機械学習アルゴリズムを検証した。RNA-Seq技術を使用して試料を分析した。以下の実施例では、RNA-Seqデータの分析に基づいて悪性肺結節と良性肺結節とを区別するために勾配ブースティングマシン(GBM)、ロジスティック回帰モデル(LOG)、サポートベクトルマシン(SVM)、ランダムフォレスト(RF)、一般化線形モデル(GLM)、k最近傍(kNN)、ナイーブベイズ(NB)およびエラスティックネットワーク(EN)を含む8個の機械学習分類器を訓練した。
【0298】
[0322] 8個の異なる機械学習分類器を訓練して、バイオマーカーデータセットを使用して悪性肺結節と良性肺結節とを区別するための遺伝子の高成績セットを決定した。バイオマーカーデータセットは、全トランスクリプトームRNAシークエンシングにより得た。バイオマーカーデータセットは、良性肺結節の診断を有する80個の肺結節試料および悪性肺結節の診断を有する72個の試料を含んだ。
【0299】
[0323] 全部で1,430個の遺伝子が、悪性肺結節試料と良性肺結節試料との間で差次的に発現されることが最初に同定された。差次的に発現される遺伝子の遺伝子発現のLog2比を使用して、最適な遺伝子のセットを決定した。Log2比はT/Rとして定義し、ここで、Tは試験試料における遺伝子発現レベルであり、Rは参照試料における遺伝子発現レベルである。共線的な発現(相関またはr>0.8)を呈する1,430個の遺伝子のサブセットを除去した後に、全部で1,178個の遺伝子特徴量(表9)が同定された。
【0300】
【0301】
【0302】
【0303】
【0304】
【0305】
【0306】
[0324] 8個の機械学習分類器を次に、1,178個の遺伝子特徴量を使用して交差検証方法を介して検証した。交差検証方法において、バイオマーカーデータセットを、訓練セットおよび検証セットを含む2つの群に分割した。
図1A~1Bは、データセットの80%を分類器を訓練するために考慮し、データセットの20%を検証のために使用した場合の交差検証実験の結果を示す。
【0307】
[0325]
図1Aは、悪性肺結節と良性肺結節とを区別するための、リボ核酸(RNA)シークエンシング(RNA-Seq)データから生成された1,178個の遺伝子特徴量のセットを使用する8個の機械学習分類器の性能を示す受信者動作特性(ROC)プロットである。1,178個の遺伝子のセットは、悪性肺結節を有する患者の血液試料中と良性肺結節を有する患者の血液試料中との間で差次的に発現された。8個の機械学習分類器は、LOG、GLM、kNN、RF、SVM、GBM、NB、およびENを含む。
【0308】
[0326]
図1Bは、悪性肺結節と良性肺結節とを区別するために1,178個の遺伝子特徴量のセットを使用してRNASeqデータを分析する例示的な訓練された機械学習分類器アルゴリズムの結果を示す。
図1AのROCプロットからの対応するデータを
図1Bにおいて表にしている。GBM、SVM、およびEN分類器は最も有効な分類器であった。
【0309】
[0327] 分類器を訓練するためにデータセットの75%および検証のためにデータセットの25%を使用して類似した検証を行った。
図2A~2Bは、データセットの75%を分類器を訓練するために考慮し、データセットの25%を検証のために使用した場合の交差検証実験の結果を示す。
【0310】
[0328]
図2Aは、RNA-Seqデータの分析に基づいて悪性肺結節と良性肺結節とを区別するための差次的に発現される遺伝子の最適化のためのROCプロットである。6個の機械学習分類器は、LOG、GLM、kNN、RF、SVM、およびGBMを含む。
図2Bは、悪性肺結節と良性肺結節とを区別するための差次的に発現される遺伝子の最適化における例示的な訓練された機械学習分類器アルゴリズムの結果を示す。
図2AのROCプロットからの対応するデータを
図2Bにおいて表にしている。GBM、SVM、およびkNN分類器は最も有効な分類器であった。
【0311】
[0329] 肺結節を分類するためのより少ない数の特徴量を得るために、肺結節を正確に予測した7個の分類器(
図1A~1B)からの上位50の予測的遺伝子を組み合わせた。さらには、オーバーラップする遺伝子を除去し、それにより182個の遺伝子特徴量(表1に示される)の遺伝子セットを得た。
【0312】
【0313】
[0331] 肺結節の予測における1,178個の遺伝子特徴量と比較して182個の遺伝子特徴量のみを使用する分類器の性能を調べた。182個の遺伝子特徴量と共に10分割交差検証実験を使用した7個の分類器の性能の結果を
図3A~3Bに示している。
【0314】
[0332]
図3Aは、悪性肺結節と良性肺結節とを区別するための、RNA-Seqデータから生成された182個の遺伝子特徴量のセットを使用する7個の機械学習分類器の性能を示すROCプロットである。8個の機械学習分類器は、LOG、GLM、kNN、RF、SVM、GBM、NB、およびENを含む。
図3AのROCプロットからの対応するデータを
図3Bにおいて表にしている。
図3Bは、悪性肺結節と良性肺結節とを区別するために182個の遺伝子特徴量のセットを使用してRNASeqデータを分析する例示的な訓練された機械学習分類器アルゴリズムの結果を示す。
【0315】
[0333] 各々の交差検証データセットは、80%の訓練データおよび20%の検証データを含んだ。182個の遺伝子特徴量は悪性肺結節と良性肺結節とを有効に区別することを結果は実証した。一般に、182個の遺伝子の使用は、1,178個の遺伝子のセット全体よりも有効であった。さらには、GBMおよびLOG機械学習分類器は、1,178個の遺伝子特徴量のセット全体と比較して、182個の遺伝子特徴量を使用した場合により良好な予測値を達成した。SVMモデルは、約0.05の特異度減少を達成したが、SVMモデルの全体的な性能は、1,178個の遺伝子特徴量のセット全体と比較して、182個の遺伝子特徴量のセットを使用した場合に向上した。
【0316】
[0334] 別に、1,178個の遺伝子のセット全体を男性対象および女性対象において独立して調べた。他の分類器と比較して、GBM機械学習分類器は男性対象のために最良の予測性能を達成し、NB機械学習分類器は女性対象のために最良の予測性能を達成した。男性についてのGBM分類器からの遺伝子特徴量、および女性についてのNB分類器における同じ遺伝子特徴量についての順位に基づいて各々の遺伝子特徴量について遺伝子重要度を計算した。>50の遺伝子重要度を有する遺伝子をより小さいサブセットに含めるために選択し、それにより、予測を行うために最初に使用した1,178個の遺伝子特徴量のセットから175個の遺伝子特徴量のセットを生成した。
【0317】
[0335] バイオマーカーデータセットの80%の訓練および20%の検証の分割を使用する類似した10分割交差検証を使用して、8個の分類器を使用する175個の遺伝子特徴量のセットの有効性を調べた。
図4Aは、データセット全体(男性および女性)に対して175個の遺伝子を使用する分類器の性能のROCプロットを示す。8個の機械学習分類器は、LOG、GLM、kNN、RF、SVM、GBM、NB、およびENを含む。
図4Bは、
図4Aに対応する例示的な訓練された機械学習分類器アルゴリズムの結果を表にしたものを示す。
【0318】
[0336]
図4AのROCプロットからの対応するデータを
図4Bにおいて表にしている。kNNおよびEN分類器は、182個の遺伝子特徴量のセットを使用する場合と比較して175個の遺伝子特徴量のセットを使用してより良好な予測値を達成した。
【0319】
[0337]
図5Aは、80%の訓練および20%の検証の分割と共に10分割検証技術を用いて175個の遺伝子特徴量を使用した8個の分類器の性能のROCプロットを示す。8個の機械学習分類器は、LOG、GLM、kNN、RF、SVM、GBM、NB、およびENを含む。
図5AのROCプロットからの対応するデータを
図5Bにおいて表にしている。GBMおよびSVM分類器は、175個の遺伝子特徴量を使用して最も高い予測値を達成した。
【0320】
【0321】
[0339] 175個の遺伝子特徴量のセットおよび182個の遺伝子特徴量のセットは、2つのセットの間でオーバーラップする全部で62個の共有される遺伝子特徴量を有した。62個の遺伝子特徴量を、バイオマーカーデータセットを使用する肺結節の予測におけるそれらの有効性について調べた。75%および25%の訓練対検証の分割と共に10分割交差検証を使用した。6Bは、
図6Aに対応する例示的な訓練された機械学習分類器アルゴリズムの結果を表にしたものを示す。
図6Aは、悪性肺結節と良性肺結節とを区別するための、RNA-Seqデータから生成された62個の遺伝子特徴量のセットを使用する機械学習分類器の性能を示すROCプロットである。8個の機械学習分類器は、LOG、GLM、kNN、RF、SVM、GBM、NB、およびENを含む。62個の遺伝子特徴量のセットは、8個すべての分類器にわたり高い予測値を達成した。
【0322】
【0323】
[0341] 別に、182個の遺伝子特徴量のセットおよび175個の遺伝子特徴量のセットを組み合わせ、オーバーラップする遺伝子を除去して295個の遺伝子特徴量のセットを生成した。295個の遺伝子特徴量のこのセットを、バイオマーカーデータベースを使用して試験して、肺がんの分類における有効性を調べた。訓練および検証データセットを生成するための75%対25%の分割と共に10分割交差検証技術を使用し、295個の遺伝子特徴量を使用して分類器を試験した。
図7Aは、悪性肺結節と良性肺結節とを区別するための、RNA-Seqデータから生成された295個の遺伝子特徴量のセットを使用する機械学習分類器の性能を示すROCプロットである。8個の機械学習分類器は、LOG、GLM、kNN、RF、SVM、GBM、NB、およびENを含む。
【0324】
[0342]
図7Bは、
図7Aに対応する例示的な訓練された機械学習分類器アルゴリズムの結果を表にしたものを示す。GLMを除くすべての分類器は、バイオマーカーデータセットを使用する肺結節の分類において高い予測値を達成した。
【0325】
【0326】
【0327】
[0344] 機械学習分類器は、良性肺結節から悪性肺結節を良好に区別することを結果は実証した。特徴量選択を行って、特徴量のセットを1,178個の遺伝子から、(i)295個の遺伝子のセット、(ii)182個の遺伝子のセット、(iii)175個の遺伝子のセット、または(iv)62個の遺伝子のセットのうちの1つに低減させ、これらは良性肺結節からの悪性肺結節の区別において肯定的な結果を達成した。以下の実施例において、臨床データにおける不均質性を補償するためにより大きいデータセットを調べた。
【0328】
[0345] 7個の分類器からの上位50個の予測子を選択し、オーバーラップする遺伝子を除去した後に、142個の遺伝子特徴量のセット(表5)を得た。7個の分類器は、8個の分類器からGLMを除いたものを含んだ。142個の遺伝子特徴量のセットについての遺伝子発現データを、RNA-Seqを使用して得た。80%対20%の訓練および検証データの分割と共に10分割交差検証技術を使用してバイオマーカーデータセットに対して142個の遺伝子特徴量のセットを使用して8個すべての分類器を訓練および検証した。
【0329】
【0330】
[0346] 実施例2:Ampli-Seqデータの機械学習分類
【0331】
[0347] 604人の対象からのより大きいデータセットを集めて、悪性肺結節と良性肺結節との区別における175個の遺伝子特徴量のセットの有効性を調べた。対象からの全血試料の遺伝子発現測定値を、Ampli-Seq技術を使用して分析した。訓練データセットは、以前に決定された175個の遺伝子を標的化するAmpli-Seqを使用して得た。訓練データセットは、良性であることが既知の301個の肺結節試料および悪性として診断された303個の試料を含んだ。175個の遺伝子の正規化されたAmpli-Seqリードカウント(RPM)を入力データとして分類器に提供した。
【0332】
[0348] 80%の訓練データ対20%の検証データのデータ分割を使用した10分割検証における8個の分類器の結果を
図8A~8Bに示している。
図8Aは、悪性肺結節と良性肺結節とを区別するための、Ampli-Seqデータから生成された175個の遺伝子特徴量のセットを使用する機械学習分類器の性能を示すROCプロットである。8個の機械学習分類器は、LOG、GLM、kNN、RF、SVM、GBM、NB、およびENを含む。
図8Bは、
図8Aに対応する例示的な訓練された機械学習分類器アルゴリズムの結果を表にしたものを示す。75%対25%の訓練対検証データの分割を使用して類似した10分割検証を行った。
【0333】
[0349] 実施例3:Ampli-Seqデータを使用する機械学習分類および検証
【0334】
[0350] 実施例2の機械学習分類器の性能を、487人の対象からの肺結節試料のデータセットを使用して検証した。検証データセットは、175個の遺伝子のセットを標的化するAmpli-Seqを使用して得た。検証データセットは、悪性であると診断された142個の肺結節試料を含んだ。
【0335】
[0351] 175個の遺伝子のセットの正規化されたAmpli-Seqリードカウント(RPM)を入力データとして分類器に提供した。175個の遺伝子特徴量のセット(LOG)および85個の遺伝子特徴量のセット(GBM)を使用する最も良好な成績の分類器を検証データセットにおいて比較した。分類器を訓練するために検証データセットからのデータは使用しなかった。
【0336】
[0352]
図9Aは、175個の遺伝子特徴量のセットを使用してロジスティック回帰分類器により予測された肺結節の累積的な比率である。
図9Bは、175個の遺伝子特徴量のセットを使用して勾配ブースティング分類器により予測された肺結節の累積的な比率である。
【0337】
[0353] 175個の特徴量のセットを使用するLOGモデル(
図9A)により予測される悪性肺結節の累積的な比率は、85個の特徴量のセットを使用するGBM(
図9B)と比較した場合に過学習(overfitting)を示した。LOG分類器は、全部で487人の患者から悪性肺結節を有する266人の患者を同定した(
図9A)。一方、85個の遺伝子のサブセットを使用して、GBM分類器は、142人の患者から、良性肺結節に比して悪性肺結節を有する127人の患者を同定した。
【0338】
[0354] 実施例4:臨床特性データを使用する機械学習分類
【0339】
[0355] 152人の対象から得られたバイオマーカーデータセットを分析した。対象の中で、80人の対象は良性肺結節の診断を有し、72人の対象は悪性肺結節の診断を有した。8個の臨床特性特徴量のセット(表6)を、バイオマーカーデータセットを使用して肺結節の予測におけるそれらの有効性について調べた。
図12は、8個の臨床特性特徴量(表6)の相関プロットを示す。
【0340】
【0341】
[0356] 8個の臨床特性特徴量(表6)の臨床特性データに基づいて悪性肺結節と良性肺結節とを区別するためにロジスティック回帰モデル(LOG)、ランダムフォレスト(RF)、サポートベクトルマシン(SVM)、決定木学習(DTREE)、適応型ブースティング(ADB)、ナイーブベイズ(NB)、線形判別分析(LDA)、k最近傍(kNN)、および勾配ブースティングマシン(GBM)を含む8個の機械学習分類器を訓練した。
【0342】
[0357]
図13Aは、悪性肺結節と良性肺結節とを区別するための、8個の臨床特性特徴量(表6)の臨床特性データを使用する9個の機械学習分類器の性能を示すROCプロットを示す。バイオマーカーデータセットの80%の訓練および20%の検証の分割を使用する10分割交差検証を使用した。9個の機械学習分類器LOG、RF、SVM、DTREE、ADB、NB、LDA、kNN、およびGBMについてのROCプロットのAUCは、それぞれ0.803、0.782、0.393、0.618、0.792、0.806、0.804、0.750および0.764である。
図13Bは、悪性肺結節と良性肺結節とを区別するための、8個の臨床特性特徴量の臨床特性データを使用する9個の機械学習分類器の精度/再現率曲線を示す。9個の機械学習分類器LOG、RF、SVM、DTREE、ADB、NB、LDA、kNN、およびGBMについての精度/再現率曲線のAUCは、それぞれ0.703、0.688、0.351、0.656、0.720、0.710、0.699、0.766および0.646である。
図13Cは、
図13Aに対応する9個の機械学習分類器の結果を表にしたものを示す。
図13Dは、9個の機械学習分類器のための8個の臨床特性特徴量の特徴量重要度を示す。
図13Eは、9個すべての分類器のための8個の臨床特性特徴量の特徴量重要度を示す。
図13DおよびEから見られ得るように、3個の最も上位の寄与因子または予測子または特徴量は、NCNSZE(結節サイズ)、NCNUPYN(上葉における結節)、およびAGEであり、4番目はNCNMYN(小棘形成した結節)であった。
【0343】
[0358] 次に、上記で決定されたような上位4個の特徴量、例えばNCNSZE(結節サイズ)、NCNUPYN(上葉における結節)、AGE、およびNCNMYN(小棘形成した結節)の有効性を、8個の分類器を使用して調べた。
【0344】
[0359]
図14Aは、悪性肺結節と良性肺結節とを区別するための、4個の臨床特性特徴量、NCNSZE、NCNUPYN、AGE、およびNCNMYNの臨床特性データを使用する9個の機械学習分類器の性能を示すROCプロットを示す。バイオマーカーデータセットの80%の訓練および20%の検証の分割を使用する10分割交差検証を使用した。9個の機械学習分類器LOG、RF、SVM、DTREE、ADB、NB、LDA、kNN、およびGBMについてのROCプロットのAUCは、それぞれ0.858、0.730、0.840、0.586、0.736、0.811、0.862、0.725および0.735である。
図14Bは、悪性肺結節と良性肺結節とを区別するための、4個の臨床特性特徴量、NCNSZE、NCNUPYN、AGE、およびNCNMYNの臨床特性データを使用する9個の機械学習分類器の精度/再現率曲線を示す。9個の機械学習分類器LOG、RF、SVM、DTREE、ADB、NB、LDA、kNN、およびGBMについての精度/再現率曲線のAUCは、それぞれ0.746、0.703、0.791、0.626、0.598、0.695、0.750、0.653および0.689である。
図14Cは、
図14Aに対応する9個の機械学習分類器の結果を表にしたものを示す。
図14Dは、9個の機械学習分類器のための4個の臨床特性特徴量の特徴量重要度を示す。
図14Eは、9個すべての分類器のための4個の臨床特性特徴量の特徴量重要度を示す。
図13Aおよび14Aから見られ得るように、上位4個の予測子(NCNSZE、NCNUPYN、AGE、およびNCNMYN)を使用した場合の分類器の性能は、8個すべての予測子(表6)よりも良好な性能を示す。
【0345】
[0360] 604人の対象からのより大きいデータセットを集めて、悪性肺結節と良性肺結節との区別における臨床特徴量の有効性を調べた。それらの中で、バイオマーカーデータセットにおける試料の301個は良性肺結節の診断を有し、303個の試料は悪性肺結節の診断を有した。9個の臨床特性特徴量のセット(表6における臨床特性、およびがんの履歴 - Y/N))を、より大きいデータセットを使用して肺結節の予測におけるそれらの有効性について調べた。
【0346】
[0361]
図15Aは、悪性肺結節と良性肺結節とを区別するための、9個の臨床特性特徴量の臨床特性データを使用する9個の機械学習分類器の性能を示すROCプロットを示す。より大きいデータセットの80%の訓練および20%の検証の分割を使用する10分割交差検証を使用した。9個の機械学習分類器LOG、RF、SVM、DTREE、ADB、NB、LDA、kNN、およびGBMについてのROCプロットのAUCは、それぞれ0.773、0.745、0.730、0.661、0.771、0.786、0.768、0.654および0.757である。
図15Bは、悪性肺結節と良性肺結節とを区別するための、9個の臨床特性特徴量の臨床特性データを使用する9個の機械学習分類器の精度/再現率曲線を示す。9個の機械学習分類器LOG、RF、SVM、DTREE、ADB、NB、LDA、kNN、およびGBMについての精度/再現率曲線のAUCは、それぞれ0.747、0.690、0.673、0.740、0.759、0.746、0.743、0.633および0.707である。
図15Cは、
図15Aに対応する9個の機械学習分類器の結果を表にしたものを示す。
図15Dは、9個の機械学習分類器のための9個の臨床特性特徴量の特徴量重要度を示す。
図15Eは、9個すべてのモデルのための9個の臨床特性特徴量の特徴量重要度を示す。
図15DおよびEから見られ得るように、3個の最も上位の寄与因子または予測子または特徴量は、NCNSZE(結節サイズ)、NCNUPYN(上葉における結節)、およびAGEであった。
【0347】
[0362] 実施例5:遺伝子発現データおよび臨床特性データを使用する機械学習分類
【0348】
[0363] 上記の実施例において得られた結果に基づいて、142個の遺伝子特徴量(表5)のセット、および3個の臨床特性特徴量のセットの組合せを肺結節の予測におけるそれらの有効性について調べた。142個の遺伝子特徴量は、実施例1の結果に基づいて選択した。3個の臨床特性特徴量、NCNSZE(結節サイズ)、NCNUPYN(上葉における結節)、およびAGEは、実施例4の結果に基づいて選択した。遺伝子発現測定値は対象の全血試料からのものであった。152人の対象からの試料を含む組み合わせたバイオマーカーデータセットを分析した。対象の中で、80人の対象は良性肺結節の診断を有し、72人の対象は悪性肺結節の診断を有した。
【0349】
[0364]
図16Aは、悪性肺結節と良性肺結節とを区別するための、142個の遺伝子特徴量の遺伝子発現データ、および3個の臨床特性の臨床特性データを使用する9個の機械学習分類器の性能を示すROCプロットを示す。組み合わせたデータセットの80%の訓練および20%の検証の分割を使用する10分割交差検証を使用した。9個の機械学習分類器LOG、RF、SVM、DTREE、ADB、NB、LDA、kNN、およびGBMについてのROCプロットのAUCは、それぞれ0.919、0.819、0.829、0.660、0.690、0.783、0.905、0.826および0.795である。
図16Bは、悪性肺結節と良性肺結節とを区別するための、142個の遺伝子特徴量の遺伝子発現データ、および3個の臨床特性の臨床特性データを使用する9個の機械学習分類器の精度/再現率曲線を示す。9個の機械学習分類器LOG、RF、SVM、DTREE、ADB、NB、LDA、kNN、およびGBMについての精度/再現率曲線のAUCは、それぞれ0.854、0.780、0.756、0.632、0.619、0.663、0.754、0.764および0.687である。
図16Cは、
図16Aに対応する9個の機械学習分類器の結果を表にしたものを示す。
図16Dは、オーバーサンプリングの補正(例えば良性肺結節を有する80個の試料、および悪性肺結節を有する80個の試料)を適用した、
図16Aに対応する9個の機械学習分類器の結果を表にしたものを示す。
図16CおよびDから見られ得るように、142個の遺伝子特徴量(表5)のセット、ならびに3個の臨床特性NCNSZE、NCNUPYN、およびAGEのセットを特徴量として使用して相対的に高い予測値が達成され得る。上位2個の寄与因子または予測子または特徴量は結節サイズおよびBCAT1遺伝子であった。表7は、実施例5の組み合わせたデータセットを使用して機械学習分類器から得られた上位34個の予測子を示す。表7は、31個の肺疾患関連遺伝子ならびに3個の臨床特性(例えばNCNSZE、NCNUPYN、およびAGE)を含有する。
【0350】
【0351】
[0365] 次に、上位34個の予測子を肺結節の予測におけるそれらの有効性について調べた。上位34個の予測子のためのバイオマーカーデータセットは152人の対象から得られた。上記のように、対象の中で、80人の対象は良性肺結節の診断を有し、72人の対象は悪性肺結節の診断を有した。上位34個の予測子は、31個の遺伝子ならびにNCNSZE(結節サイズ)、NCNUPYN(上葉における結節)、およびAGEを予測子として含有する。
【0352】
[0366]
図17Aは、悪性肺結節と良性肺結節とを区別するための、34個の予測子の測定データ(例えば遺伝子発現データまたは適宜の臨床特性データ)を使用する9個の機械学習分類器の性能を示すROCプロットを示す。バイオマーカーデータセットの80%の訓練および20%の検証の分割を使用する10分割交差検証を使用した。9個の機械学習分類器LOG、RF、SVM、DTREE、ADB、NB、LDA、kNN、およびGBMについてのROCプロットのAUCは、それぞれ0.992、0.867、0.950、0.675、0.800、0.854、0.963、0.835および0.842である。
図17Bは、悪性肺結節と良性肺結節とを区別するための、34個の予測子の測定データを使用する9個の機械学習分類器の精度/再現率曲線を示す。9個の機械学習分類器LOG、RF、SVM、DTREE、ADB、NB、LDA、kNN、およびGBMについての精度/再現率曲線のAUCは、それぞれ0.988、0.807、0.931、0.687、0.747、0.815、0.943、0.814および0.811である。
図17Cは、
図17Aに対応する機械学習分類器LOGおよびRFの結果を表にしたものを示す。
図17Dは、オーバーサンプリングの補正(例えば良性肺結節を有する80個の試料、および悪性肺結節を有する80個の試料)を適用した、
図17Aに対応する9個の機械学習分類器の結果を表にしたものを示す。
図17Eは、9個すべての分類器のための34個の特徴量の特徴量重要度を示す。
図17CおよびDから見られ得るように、表7の遺伝子および臨床特性のセットを含有する34個の予測子を使用して相対的に高い予測値が達成され得る。
【0353】
[0367] 実施例6:遺伝子発現データおよび臨床特性データを使用する機械学習分類
【0354】
[0368] 175個の遺伝子特徴量(表2)のセット、および4個の臨床特性特徴量のセットの組合せを肺結節の予測におけるそれらの有効性について調べた。175個の遺伝子特徴量は、実施例1、2および3の結果に基づいて選択した。4個の臨床特性特徴量、NCNSZE(結節サイズ)、NCNUPYN(上葉における結節)、AGE、およびNCNMYN(小棘形成した結節)は、実施例4の結果に基づいて選択した。遺伝子発現測定値は対象の全血試料からのものであった。152人の対象からの179個の特徴量(例えば175個の遺伝子特徴量および4個の臨床特性特徴量)の測定データを含有する組み合わせたバイオマーカーデータセットを分析した。上記のように、対象の中で、80人の対象は良性肺結節の診断を有し、72人の対象は悪性肺結節の診断を有した。
【0355】
[0369]
図18Aは、悪性肺結節と良性肺結節とを区別するための、175個の遺伝子特徴量の遺伝子発現データ、および4個の臨床特性の臨床特性データを使用する9個の機械学習分類器の性能を示すROCプロットを示す。組み合わせたバイオマーカーデータセットの80%の訓練および20%の検証の分割を使用する10分割交差検証を使用した。9個の機械学習分類器LOG、RF、SVM、DTREE、ADB、NB、LDA、kNN、およびGBMについてのROCプロットのAUCは、それぞれ0.674、0.698、0.669、0.702、0.723、0.657、0.630、0.560および0.784である。
図18Bは、悪性肺結節と良性肺結節とを区別するための、175個の遺伝子特徴量の遺伝子発現データ、および4個の臨床特性の臨床特性データを使用する9個の機械学習分類器の精度/再現率曲線を示す。9個の機械学習分類器LOG、RF、SVM、DTREE、ADB、NB、LDA、kNN、およびGBMについての精度/再現率曲線のAUCは、それぞれ0.635、0.724、0.664、0.727、0.663、0.630、0.544、0.550および0.729である。
図18Cは、
図18Aに対応する9個の機械学習分類器の結果を表にしたものを示す。表8は、実施例6の組み合わせたデータセットを使用して機械学習分類器から得られた上位22個の予測子を示す。
【0356】
【0357】
[0370] 本発明の好ましい実施形態を本明細書に示し、記載したが、そのような実施形態は例としてのみ提供されることは当業者に自明である。本発明は、本明細書内に提供される特有の例により限定されることは意図されない。本発明が上述の仕様に関して記載されたが、本出願における実施形態の記載および図は、限定的な意味で解釈されることは意味されない。多数のバリエーション、変化、および置換が、本発明から離れることなく当業者に想起される。さらには、本発明のすべての態様は、様々な条件および可変要素に依存する本明細書に記載される特有の描写、構成または相対的な割合に限定されないことが理解される。本明細書に記載される発明の実施形態に対する様々な代替が本発明の実施において用いられ得ることが理解されるべきである。したがって、本発明はまた、任意のそのような代替、修飾、バリエーションまたは均等物をカバーすることが想定される。以下の請求項は本発明の範囲を定義することならびにこれらの請求項の範囲内の方法および構造物ならびにそれらの均等物がそれによりカバーされることが意図される。
【国際調査報告】