(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-06
(45)【発行日】2024-02-15
(54)【発明の名称】癌分類子モデル、機械学習システム、および使用方法
(51)【国際特許分類】
G01N 33/574 20060101AFI20240207BHJP
【FI】
G01N33/574 A
G01N33/574 E
(21)【出願番号】P 2020573269
(86)(22)【出願日】2019-07-01
(86)【国際出願番号】 US2019040075
(87)【国際公開番号】W WO2020006547
(87)【国際公開日】2020-01-02
【審査請求日】2022-06-28
(32)【優先日】2018-06-30
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520508859
【氏名又は名称】20/20 ジェネシステムズ,インク
(74)【代理人】
【識別番号】100082072
【氏名又は名称】清原 義博
(72)【発明者】
【氏名】コーヘン,ジョナサン
(72)【発明者】
【氏名】ドセエバ,ヴィクトリア
(72)【発明者】
【氏名】シ,ペイチャン
【審査官】海野 佳子
(56)【参考文献】
【文献】米国特許出願公開第2018/0068083(US,A1)
【文献】特表2014-514572(JP,A)
【文献】米国特許出願公開第2013/0196868(US,A1)
【文献】Hsin-Yao Wang et al,Cancers Screening in an Asymptomatic Population by Using Multiple Tumour Markers,PLOS ONE,2016年
【文献】Ying-Hao Wen et al,Cancer screening through a multi-analyte serum biomarker panel during health check-up examinations: Results from a 12-year experience,Clinica Chimica Acta,2015年,450,273-276
(58)【調査した分野】(Int.Cl.,DB名)
G01N 33/48-33/98
(57)【特許請求の範囲】
【請求項1】
診断検査のために、癌を有するまたは癌を発症する、無症候性癌の患者を特定するために、1つ以上の分類子モデルを使用するコンピュータ実装方法であって、前記方法は、
a)患者から取得された試料からバイオマーカーデータを取得する工程と、
b)少なくとも年齢および性別を含む、前記患者に対応する臨床パラメータデータを取得する工程と、
c)
コンピュータ実装システムを使用して、少なくとも10,000名の男性または女性患者の集団を使用して訓練された
、コンピュータ実装の、性別に基づいた分類子モデルを
生成する工程
であって、
前記性別に基づいた分類子モデルは、前記男性または女性患者集団の少なくとも2つのバイオマーカーのパネルの値、年齢、および診断指標を含む訓練データを使用して、機械学習システムによって生成される、工程と、
d)
前記性別に基づいた分類子モデルを使用して、前記患者を癌を有するかまたは癌を発症するリスク
増加カテゴリに分類する工程であって
、陽性予測値(PPV)に変換
される複合値を生成
し、前記PPVが予め決定された閾値を超える場合に、個々の患者を前記リスク増加カテゴリに割り当て、前記PPVが予め決定された閾値を超えない場合に個々の患者を前記リスク増加カテゴリに割り当てない、工程と、
e)前記患者が癌を有するまたは癌を発症する前記リスク
増加カテゴリに分類されたときに、前記患者に実施される診断検査のためにユーザに通知を提供する工程と、を含む、方法。
【請求項2】
前記
性別に基づいた分類子モデルが、前記患者を癌を有するまたは癌を発症するとして正しく分類するために、少なくとも0.8の感度値および少なくとも0.8の特異度値
を持つ予測性能に達するまで訓練される、請求項1に記載の方法。
【請求項3】
前
記訓練データが、少なくとも6つの
前記バイオマーカーのパネルからの値を含む、請求項1に記載の方法。
【請求項4】
前記バイオマーカーデータが、少なくとも6つの
前記バイオマーカーのパネルからの測定値を含む、請求項1に記載の方法。
【請求項5】
前記バイオマーカーのパネルが、AFP、CEA、CA125、CA19-9、CA15-3、CYFRA21-1、PSA、およびSCCから選択される、請求項3に記載の方法。
【請求項6】
前記バイオマーカーのパネルが、AFP、CEA、CA125、CA19-9、CA15-3、CYFRA21-1、PSA、およびSCCから選択される、請求項4に記載の方法。
【請求項7】
男性患者の前記バイオマーカーのパネルが、AFP、CEA、CA19-9、CYFRA21-1、PSA、およびSCCから選択される、請求項1に記載の方法。
【請求項8】
女性患者の前記バイオマーカーのパネルが、AFP、CEA、CA125、CA19-9、CA15-3、CYFRA21-1、およびSCCから選択される、請求項1に記載の方法。
【請求項9】
前記機械学習システムが、前記
性別に基づいた分類子モデルの性能を改善するために、前記
性別に基づいた分類子モデルを、新しい訓練データで訓練することによって、前記
性別に基づいた分類子モデルを反復的に再生成する工程をさらに含む、請求項1に記載の方法。
【請求項10】
前記
性別に基づいた分類子モデルが、前記患者を癌を有するまたは癌を発症するとして正しく分類するために、少なくとも0.85の感度値および少なくとも0.8の特異度値で訓練される、請求項9に記載の方法。
【請求項11】
前記リスク
増加カテゴリが、低リスク、中程度のリスク、または高リスクを含む、請求項1に記載の方法。
【請求項12】
前記診断検査が、放射線スクリーニングまたは組織生検である、請求項1に記載の方法。
【請求項13】
(1)
前記工程e)の後に、前記診断検査を実施し、前記患者の癌の存在を確認または否定する、前記診断検査からの1つ以上の検査結果を取得する工程と、
(2
)前記1つ以上の検査結果を前
記訓練データに組み込む工程と、
(3)前記機械学習システムによって前記
性別に基づいた分類子モデルを再生成する工程と、をさらに含む、請求項1に記載の方法。
【請求項14】
前記
性別に基づいた分類子モデルが、サポートベクターマシン、決定木、ランダムフォレスト、ニューラルネットワーク、深層学習ニューラルネットワーク、またはロジスティック回帰アルゴリズムを含む、請求項1に記載の方法。
【請求項15】
前記癌が、乳癌、胆管癌、骨癌、子宮頸癌、大腸癌、結腸直腸癌、胆嚢癌、腎臓癌、肝臓または肝細胞癌、小葉癌、肺癌、黒色腫、卵巣癌、膵臓癌、前立腺癌、皮膚癌、および精巣癌からなる群から選択される、請求項1に記載の方法。
【請求項16】
前
記訓練データが、試料を提供して3ヶ月以上後に、癌診断を受けていない患者の群からのデータの群を含む、請求項1に記載の方法。
【請求項17】
前
記訓練データが、試料を提供して3ヶ月以上後に、癌診断を受けた患者の群からのデータの群を含む、請求項1に記載の方法。
【請求項18】
前記閾値が、0.5の確率値である、請求項1に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2018年6月30日に出願された米国仮特許出願第62/692,683号の利益を主張し、その内容は、参照によりその全体が本明細書に組み込まれる。
【0002】
本出願は、概して、癌を発症するリスクが増加した無症候性患者および癌の種類を特定するための、特に、その他の場合には無症候性患者または曖昧な症候性患者において特定するための、縦断的データで訓練された機械学習システムによって生成された分類子モデルに関する。
【背景技術】
【0003】
多くの種類の癌において、腫瘍が転移する前に手術および他の治療介入が開始される場合、患者の転帰は著しく改善する。したがって、医師が癌を早期に検出するのを支援するために、撮像検査および診断検査が医療に導入されている。当該検査には、マンモグラフィなどの様々な撮像モダリティ、ならびに血液中の癌特異的「バイオマーカー」および前立腺特異的抗原(PSA)検査などの、他の体液を特定するための診断検査が含まれる。当該検査の価値の多くは、特に偽陽性、偽陰性などに関連するコストとリスクが、実際に救われた人命の観点から見込まれる利益を上回るかどうかという点で、しばしば疑問視されている。さらに、この価値を実証するためには、研究所に保存された試料の遡及分析ではなく、多数の患者(数千人、または数万人)からのデータを実世界の(予期的)研究で作成する必要がある。残念ながら、スクリーニングツールのための大規模な予期的研究を実施するコストは、合理的に予想される財政収益に見合うものではない。したがって、これらの大規模な予期的研究が民間部門によって行われることはほとんどなく、政府が出資者となって時折実施するのみである。結果として、大部分の癌の早期発見のための血液検査のパラダイムは、この数十年間ほとんど進歩していない。例えば、米国では、PSAは依然として、癌スクリーニングのために広く利用されている唯一の血液検査であるが、その利用法も物議を醸している。世界の他の地域、特に極東地域では、様々な癌を検出するための血液検査がより一般的であるが、これらの地域でそのような血液検査の精度を確認または改善するための標準化方法または経験的方法はほとんどない。
【0004】
したがって、癌スクリーニングが一般的である地域における癌スクリーニングの精度および標準化を改善し、その際に、癌スクリーニングが一般的ではない地域において改善および/または促進し得るツールおよび技術を生み出すことが望ましい。
【0005】
癌細胞は、ウイルスおよび細菌とは異なり、生物学的に正常な健康な細胞と類似しており、それらと区別することが困難であるため、癌検出は、ウイルスまたは細菌感染症の検出と比較して著しい技術的課題となっている。このため、癌の早期発見のために使用される検査は、ウイルスもしくは細菌感染症の同等の検査、または遺伝子、酵素、もしくはホルモン異常を測定する検査と比較して、偽陽性および偽陰性の数が多くなることが多い。これはしばしば、医療従事者とその患者との間で混乱を引き起こし、不必要で高価で侵襲的なフォローアップ検査が行われるケースもあれば、フォローアップ検査を完全に無視した結果、有用な介入を行うには癌の発見が遅すぎてしまうケースもある。医師および患者にとって、2値決定または2値結果が得られる検査、例えば、患者がある状態に対して陽性または陰性であるかのいずれかをもたらす検査は、歓迎するものであり、このような検査として、例えば、免疫アッセイ結果が妊娠の指標としてプラス記号またはマイナス記号の形状をもたらすカウンター妊娠検査キットの上で観察される検査がある。しかし、診断の感度および特異度が99%に近づかなければ、大部分の癌検査では得られない水準であるため、そのような2値出力は非常に誤解を招くか、または不正確なものとなる。
【0006】
したがって、たとえ2値出力が実用的でなくとも、医療従事者およびその患者に、癌、特に特定の癌を有するまたは発症する可能性についてのより定量的な情報を提供することが望ましい。
【0007】
早期癌の発見はまた、現代の医療行為を伴う要因により、困難なものとなっている。特に一次診療医は、1日あたりの患者数が多く、医療費抑制の要求により、各患者に費やすことができる時間が大幅に短縮されている。そのため、医師は、家族歴および生活歴を詳しく調べたり、患者の健康的な生活習慣についてカウンセリングをしたり、オフィスでの診療で提供されている以上の検査を勧められた患者のフォローアップをしたりするための時間が十分に取れないことが多い。
【0008】
したがって、特に大規模の一次診療医に、癌患者のトリアージまたは相対的なリスクの比較に役立つツールを提供して、最もリスクの高い患者に対して追加検査を指示できるようにすることが望ましい。
【0009】
人工知能/機械学習システムは、情報の分析に有用であり、人間の専門家が意思決定を行う際に役立ち得る。例えば、診断決定支援システムを含む機械学習システムは、診断を行う医師を支援するための臨床決定式、規則、木、または他のプロセスを使用してもよい。
【0010】
意思決定システムが開発されているものの、このようなシステムは、医療機関の日常業務に組み込むことができないという制約があるため、医療現場ではあまり活用されていない。例えば、意思決定システムは、管理しきれないほどのデータ量を提供し、わずかな有意性のある分析に依存し、複雑な多疾患との相関性が低い場合がある(非特許文献1)。
【0011】
多くの異なる医療従事者が患者を診察する場合があり、患者データは、構造化された形態および非構造化された形態の両方で異なるコンピュータシステムにわたって散在している場合がある。また、システムは、相互作用が困難である(非特許文献2)。患者データの入力は困難であり、診断提案のリストは長すぎる場合があり、診断提案の背後にある推論は常に明確ではない。さらに、システムは次のアクションに十分に焦点を当てておらず、臨床医が患者を助けるために何をすべきかを理解するのに役立っていない(非特許文献2)。
【0012】
したがって、人工知能/機械学習システムが、特に血液検査で癌の早期発見に役立つような方法および技術を提供することが望ましい。
【先行技術文献】
【非特許文献】
【0013】
【文献】Greenhalgh,T.Evidence based medicine:a movement in crisis?BMJ(2014)348:g3725
【文献】Berner,2006;Shortliffe,2006
【発明の概要】
【0014】
分類子モデル、機械学習システム、コンピュータ実装システム、およびその方法が本明細書で開示される。
【0015】
実施形態では、少なくとも1つのプロセッサおよび少なくとも1つのメモリを含むコンピュータ実装システムにおける方法であって、少なくとも1つのメモリは、少なくとも1つのプロセッサによって実行されて、少なくとも1つのプロセッサに、無症候性患者に対して、癌を有するリスクまたは癌を発症するリスクの増加を予測するための1つ以上の分類子モデルを実装させる命令を含み、方法は、患者からの試料中のバイオマーカーのパネルの測定値を取得する工程であって、バイオマーカーの値は、試料中のバイオマーカーのレベルに対応する、取得する工程と、少なくとも年齢および性別を含む、患者に対応する臨床パラメータを取得する工程と、第1の分類子モデルを使用して、患者を癌を有するかまたは癌を発症するリスクカテゴリに分類する工程であって、第1の分類子モデルは、患者集団の少なくとも2つのバイオマーカーのパネルの値、年齢、および診断指標を含む第1の訓練データを使用して機械学習システムによって生成され、第1の分類子モデルは、第1の分類子モデルの出力が閾値を超えるときに、年齢の入力変数および患者からのバイオマーカーのパネルの測定値を使用して、患者をリスク増加カテゴリに分類する、分類する工程と、患者がリスク増加カテゴリに分類されたときに、患者の診断検査のためにユーザに通知を提供する工程と、を含む、方法が開示される。
【0016】
実施形態では、機械学習システムは、第1の分類子モデルの性能を改善するために、第1の分類子モデルを、新しい訓練データで訓練することによって、第1の分類子モデルを反復的に再生成することをさらに含む。特定の実施形態では、分類子モデルは反復的に再生成され、方法は、患者の癌の存在を確認または否定する、診断検査からの1つ以上の検査結果を取得する工程と、機械学習システムの第1の分類子モデルのさらなる訓練のために、1つ以上の検査結果を第1の訓練データに組み込む工程と、機械学習システムによって改善された第1の分類子モデルを生成する工程と、をさらに含む。
【0017】
特定の実施形態では、機械学習システムによって生成された分類子モデルを訓練するために使用される訓練データは、試料を提供して3ヶ月以上後に癌診断を受けていない患者の群からのデータの群を含む。特定の他の実施形態では、訓練データは、試料を提供して3ヶ月以上後に癌診断を受けた患者の群からのデータの群を含む。
【0018】
他の実施形態では、少なくとも1つのプロセッサおよび少なくとも1つのメモリを含むコンピュータ実装システムにおける方法であって、少なくとも1つのメモリが、少なくとも1つのプロセッサによって実行されて、少なくとも1つのプロセッサに、癌を有するリスクまたは癌を発症するリスクが増加した患者の臓器系に基づく悪性腫瘍を予測するための1つ以上の分類子モデルを実装させる命令を含み、方法は、
a)患者からの試料中のバイオマーカーのパネルの測定値を取得する工程であって、バイオマーカーの値が、試料中のバイオマーカーのレベルに対応する、取得する工程と、
b)少なくとも年齢および性別を含む、患者から臨床パラメータを取得する工程と、
c)癌分類子モデルを使用して、患者を臓器系クラス所属に分類する工程であって、癌分類子モデルが、患者集団の少なくとも2つのバイオマーカーのパネルからの値、年齢、および診断指標を含む訓練データを使用して機械学習システムによって生成され、
癌分類子モデルが、年齢の入力変数および患者からのバイオマーカーのパネルの測定値を使用して、臓器系クラス所属を割り当てる、分類する工程と、
d)患者が臓器系に基づく悪性腫瘍を有すると予測されたときに、患者の診断検査のためにユーザに通知を提供する工程と、を含む、方法が開示される。
【0019】
特定の実施形態では、本明細書で提供されるのは、少なくとも1つのプロセッサおよび少なくとも1つのメモリを含むコンピュータ実装システムにおける方法であって、少なくとも1つのメモリが、少なくとも1つのプロセッサによって実行されて、少なくとも1つのプロセッサに、癌を有するリスクまたは癌を発症するリスクが増加した患者の臓器系に基づく悪性腫瘍を予測するための1つ以上の分類子モデルを実装させる命令を含み、方法は、
a)患者からの試料中のバイオマーカーのパネルの測定値を取得する工程であって、バイオマーカーの値が、試料中のバイオマーカーのレベルに対応する、取得する工程と、
b)少なくとも年齢および性別を含む、患者に対応する臨床パラメータを取得する工程と、
c)第1の分類子モデルを使用して、患者を癌を有するかまたは癌を発症するリスクカテゴリに分類する工程であって、第1の分類子モデルが、患者集団の少なくとも2つのバイオマーカーのパネルの値、年齢、および診断指標を含む第1の訓練データを使用して機械学習システムによって生成され、
第1の分類子モデルは、第1の分類子モデルの出力が閾値を超えるときに、年齢の入力変数および患者からのバイオマーカーのパネルの測定値を使用して、患者をリスク増加カテゴリに分類する、分類する工程と、
d)第2の分類子モデルを使用して、患者を臓器系クラス所属に分類する工程であって、第2の分類子モデルが、患者集団の少なくとも2つのバイオマーカーのパネルからの値、年齢、および診断指標を含む訓練データを使用して機械学習システムによって生成され、
癌分類子モデルが、年齢の入力変数および患者からのバイオマーカーのパネルの測定値を使用して、臓器系クラス所属を割り当てる、分類する工程と、
e)患者が臓器系に基づく悪性腫瘍を有すると予測されたときに、患者の診断検査のためにユーザに通知を提供する工程と、を含む、方法が提供される。
【0020】
本明細書に提供される実施形態では、癌を有するリスクまたは癌を発症するリスクが増加した患者の臓器系に基づく悪性腫瘍を予測するための少なくとも1つのプロセッサを含む機械学習であって、プロセッサが、
a)患者からの試料中のバイオマーカーのパネルの測定値を取得することであって、バイオマーカーの値が、試料中のバイオマーカーのレベルに対応する、取得することと、
b)年齢および性別を含む、患者から臨床パラメータを取得することと、
c)機械学習システムによって第1の分類子モデルを生成して、患者を癌を有するかまたは癌を発症するリスクカテゴリに分類することであって、
第1の分類子モデルは、第1の分類子モデルの出力が閾値より大きいときに、患者をリスク増加カテゴリに分類し、
第1の分類子モデルが、患者集団の少なくとも6つのバイオマーカー、年齢、性別、および診断指標のパネルからの値を含む訓練データを使用して機械学習システムによって生成される、分類することと、
d)機械学習システムによって第2の分類子モデルを生成して、患者を臓器系クラス所属に分類することであって、
癌分類子モデルが、年齢の入力変数および患者からのバイオマーカーのパネルの測定値を使用して、臓器系クラス所属を割り当て、
第2の分類子モデルが、患者集団の少なくとも2つのバイオマーカーのパネルからの値、年齢、および診断指標を含む訓練データを使用して機械学習システムによって生成される、分類することと、
e)患者の診断検査のために、ユーザに通知を提供することと、を行うように構成されている、機械学習が提供される。
【図面の簡単な説明】
【0021】
図面は、限定ではなく例として、本明細書に開示される様々な実施形態を一般的に示す。
【0022】
【
図1A】男性対象が検査日から約2年以内に癌を発症する可能性について、最良の性能を発揮する機械学習モデル、リッジロジスティック回帰(AUC0.875、ユーデン指数0.628)(
図1A)およびSVMモデル(AUC0.816、ユーデン指数0.631)(
図1B)の受信者動作特性(ROC)曲線を示す。実施例1および表4を参照されたい。
【
図1B】男性対象が検査日から約2年以内に癌を発症する可能性について、最良の性能を発揮する機械学習モデル、リッジロジスティック回帰(AUC0.875、ユーデン指数0.628)(
図1A)およびSVMモデル(AUC0.816、ユーデン指数0.631)(
図1B)の受信者動作特性(ROC)曲線を示す。実施例1および表4を参照されたい。
【
図2】癌を発症するための「中程度のリスク」または「高リスク」として分類される個体からの上位3つの(N=3)臓器系を決定するためのパターン認識アルゴリズム(kNN)の性能を示す。当該アルゴリズムは、汎癌を発症する確率が0.5を超える個体における臓器系に基づく悪性腫瘍リスクを予測するために訓練された。実施例2を参照されたい。
【
図3】分類子モデルの入力変数(バイオマーカー測定値および年齢)の表、ならびに出力(確率値)に基づく各患者のリスクカテゴリへの分類を示す。実施例3を参照されたい。
【
図4】本発明の分類子モデルを使用して、無症候性患者の癌を有するリスクまたは癌を発症するリスクの増加を予測する方法を実行するためのワークフローを示す。
【
図5A】癌および0.87の対応する曲線下面積(AUC)値(
図5B)を予測するための個々のバイオマーカー(「任意マーカー高」方法)の測定と比較して、感度および特異度についての本発明の男性分類子モデル(
図5A)の有意な改善を示す。実施例4を参照されたい。
【
図5B】癌および0.87の対応する曲線下面積(AUC)値(
図5B)を予測するための個々のバイオマーカー(「任意マーカー高」方法)の測定と比較して、感度および特異度についての本発明の男性分類子モデル(
図5A)の有意な改善を示す。実施例4を参照されたい。
【
図6A】本発明の男性分類子モデルが、0.5の閾値で82%の感度および81%の特異度を有する非癌から癌を区別することができたことを示す。
【
図6B】本発明の男性分類子モデルが、0.5の閾値で82%の感度および81%の特異度を有する非癌から癌を区別することができたことを示す。
【
図7A】本発明の女性分類子モデルが、同じ対象からの個々のバイオマーカーのパネル(
図7A)および0.67の対応するAUC値(
図7B)の測定よりも、1年以内の癌発症を予測することにおいて著しく優れていることを示す。本発明の女性分類子モデルは、個々のバイオマーカー「単一閾値」法と比較した改善であり、感度が単一閾値法と比較して4倍の増加を表す。換言すると、本発明の女性分類子モデルは、「任意マーカー高」の従来の方法と比較して、女性患者において4倍以上の癌を特定する。
【
図7B】本発明の女性分類子モデルが、同じ対象からの個々のバイオマーカーのパネル(
図7A)および0.67の対応するAUC値(
図7B)の測定よりも、1年以内の癌発症を予測することにおいて著しく優れていることを示す。本発明の女性分類子モデルは、個々のバイオマーカー「単一閾値」法と比較した改善であり、感度が単一閾値法と比較して4倍の増加を表す。換言すると、本発明の女性分類子モデルは、「任意マーカー高」の従来の方法と比較して、女性患者において4倍以上の癌を特定する。
【
図8A】本発明の女性分類子モデルが、0.5の閾値で50%の感度および74%の特異度を有する非癌から癌を区別することができたことを示す。
【
図8B】本発明の女性分類子モデルが、0.5の閾値で50%の感度および74%の特異度を有する非癌から癌を区別することができたことを示す。
【発明を実施するための形態】
【0023】
本発明の実施形態は、概して、非侵襲的な方法、診断検査、特にバイオマーカー(例えば、腫瘍抗原)を臨床パラメータと組み合わせて測定する血液(血清または血漿を含む)検査、ならびに機械学習システムによって生成された分類子モデルに関するものであり、患者を、癌を有するかまたは癌を発症するリスクカテゴリに割り当て、癌を有するかまたは癌を発症するリスク増加カテゴリに分類される患者を、臓器系クラス所属に割り当て、その患者が追加の、より侵襲的な診断検査でフォローアップされるべきかどうかを決定する。
【0024】
序説
分類子モデルが本明細書で開示され、腫瘍および/または潜伏癌の早期予測のための癌に関して無症候性患者と共に使用される。分類子モデルは、患者集団の、少なくとも2つのバイオマーカーのパネルの値、年齢、および診断指標を含む訓練データを使用して、機械学習システムによって生成された。本発明の分類子モデルをバイオマーカーで訓練し、患者が診断を受ける前に少なくとも3ヶ月間、それ以上でない場合は3ヶ月間測定した。実施形態では、訓練データは、試料を提供して3ヶ月以上後に、癌診断を受けていない患者の群からのデータの群を含む。実施形態では、訓練データは、試料を提供して3ヶ月以上後に、癌診断を受けた患者の群からのデータの群を含む。実施例1Aを参照されたい。
【0025】
本発明では、分類子モデルは、入力からモデルを構築することによって機械学習システムを使用して「訓練」される。これらの入力は、縦断的データであってもよく、癌の既知の診断(マッチした対照を含む)は、測定されたバイオマーカーおよびそれらの患者の臨床学的因子からのデータが収集されてから数ヶ月後、さもなければ数年後に決定される。縦断的癌患者データを使用する本発明の分類子モデルの訓練については、実施例1Aおよび2を参照されたい。
【0026】
機械学習システムによって生成された第1の分類子モデルが本明細書に提供されており、入力変数として(バイオマーカー値のパネルと共に)、モデルの訓練のために、年齢を含めることで、第1の分類子モデルの性能が有意かつ予想外に増加した。実施例1Bを参照されたい。実施形態では、分類子モデルは、少なくとも0.8の感度値および少なくとも0.8の特異度値を有する受信者動作特性(ROC)曲線の性能を有する。
【0027】
本明細書に提供される実施形態では、機械学習システムによって生成された第1の分類子モデルであって、患者を癌を有するかまたは癌を発症するリスクカテゴリに分類する、第1の分類子モデルが提供される。実施形態では、分類子モデルの使用は、分類子モデルの出力が閾値を超えるときに、年齢の入力変数および患者からのバイオマーカーのパネルの測定値を使用して、患者をリスク増加カテゴリに分類する。他の実施形態では、分類子モデルは、分類子モデルの出力が閾値未満であるときに、年齢の入力変数および患者からのバイオマーカーのパネルの測定値を使用して、患者を低リスクカテゴリに分類する。本明細書で使用される場合、「リスク増加」という用語は、集団コホート全体にわたるその特定の癌の既知の罹患率と比較して、癌の存在または発症の増加を指す。実施例3を参照されたい。
【0028】
本明細書に提供される実施形態では、患者を臓器系または特定の癌クラス所属に分類する、機械学習システムによって生成された第2の分類子モデルが提供される。実施形態では、第2の分類子モデルは、年齢の入力変数および患者からのバイオマーカーのパネルの測定値を使用して、臓器系または特定の癌クラス所属を割り当てる。特定の実施形態では、患者が第1の分類子モデルによってリスク増加カテゴリに分類されたときに、患者は、第2の分類子モデルを使用して臓器系または特定の癌クラス所属に分類され、第2の分類子モデルは、患者集団の少なくとも2つのバイオマーカーのパネルからの値、年齢、および診断指標を含む訓練データを使用して機械学習システムによって生成される。
【0029】
特定の実施形態では、分類子モデルは静的であり、その使用は、少なくとも1つのプロセッサおよび少なくとも1つのメモリを含むコンピュータ実装システムによって実装され、少なくとも1つのメモリは、少なくとも1つのプロセッサによって実行されて、少なくとも1つのプロセッサに分類子モデルを実装させる命令を含む。特定の実施形態では、機械学習システムは、分類子モデルの性能を改善するために、分類子モデルを、新しい訓練データで訓練することによって、分類子モデルを反復的に再生する。
【0030】
例示的な実施形態では、本発明の方法は、第1の分類子モデルを使用して、少なくとも1つのプロセッサおよび少なくとも1つのメモリを含むコンピュータ実装システムにおいて、少なくとも1つのメモリが、少なくとも1つのプロセッサによって実行されて、少なくとも1つのプロセッサに、無症候性患者に対して、癌を有するリスクまたは癌を発症するリスクの増加を予測するための1つ以上の分類子モデルを実装させる命令を含み、患者からの試料中のバイオマーカーのパネルの測定値を取得する工程であって、バイオマーカーの値が、試料中のバイオマーカーのレベルに対応する、取得する工程と、少なくとも年齢および性別を含む、患者に対応する臨床パラメータを取得する工程と、第1の分類子モデルを使用して、患者を癌を有するかまたは癌を発症するリスクカテゴリに分類する工程であって、第1の分類子モデルが、患者集団の少なくとも2つのバイオマーカーのパネルの値、年齢、および診断指標を含む第1の訓練データを使用して機械学習システムによって生成され、第1の分類子モデルは、第1の分類子モデルの出力が閾値を超えるときに、年齢の入力変数および患者からのバイオマーカーのパネルの測定値を使用して、患者をリスク増加カテゴリに分類する、分類する工程と、患者がリスク増加カテゴリに分類されたときに、患者の診断検査のためにユーザに通知を提供する工程と、を含む。実施例1および3を参照されたい。
【0031】
他の例示的な実施形態では、本発明の方法は、第2の分類子モデルを使用して、少なくとも1つのプロセッサおよび少なくとも1つのメモリを含むコンピュータ実装システムにおいて、少なくとも1つのメモリが、少なくとも1つのプロセッサによって実行されて、少なくとも1つのプロセッサに、癌を有するリスクまたは癌を発症するリスクが増加した患者の臓器系に基づく悪性腫瘍を予測するための1つ以上の分類子モデルを実装させる命令を含み、患者からの試料中のバイオマーカーのパネルの測定値を取得する工程であって、バイオマーカーの値が、試料中のバイオマーカーのレベルに対応する、取得する工程と、少なくとも年齢および性別を含む、患者から臨床パラメータを取得する工程と、第2の分類子モデルを使用して、患者を臓器系クラス所属に分類する工程であって、分類子モデルが、患者集団の少なくとも2つのバイオマーカーのパネルからの値、年齢、および診断指標を含む訓練データを使用して機械学習システムによって生成され、癌分類子モデルが、年齢の入力変数および患者からのバイオマーカーのパネルの測定値を使用して、臓器系クラス所属を割り当てる、分類する工程と、患者が臓器系に基づく悪性腫瘍を有すると予測されたときに、患者の診断検査のためにユーザに通知を提供する工程と、を含む。実施例2および3を参照されたい。
【0032】
第1の分類子モデルは、検査を受けた各患者のリスクスコアを数値化し、無症候性患者における早期癌をより良好に予測および診断するためにスクリーニング手順をさらに通知するために医師によって使用され得る。リスク増加カテゴリに分類されたこれらの患者は、第2の分類子モデルを使用してクラス所属にさらに分類することができる。当該クラス所属は、臓器系悪性腫瘍、または特定の癌の種類であり得る。また、本明細書でより詳細に開示されるように、機械学習システムは、システムが実世界の臨床設定で使用されるときに追加データを受信し、分類子モデルが使用されるほど「よりスマート」になるように性能を再計算し、かつ向上させるように適合される。
【0033】
定義
本明細書で使用される場合、「a」または「an」という用語は、特許文献で一般的であるように、「少なくとも1つ」または「1つ以上」の任意の他の例または使用法とは無関係に、1つまたは1つ超を含むように使用される。
【0034】
本明細書で使用される場合、「または」という用語は、別途示されない限り、非排他的、あるいは「AまたはB」が「AであるがBではない」、「BであるがAではない」、ならびに「AおよびB」を含むように使用される。
【0035】
本明細書で使用される場合、「約」という用語は、近似的に、ほぼ、およそ、または記載の量に等しいかもしくはそれに近い量、例えば、状態量プラス/マイナス約5%、約4%、約3%、約2%または約1%である量を指すために使用される。
【0036】
本明細書で使用される場合、「無症候性」という用語は、その有するリスクが現在定量化され、分類されているのと同じ癌で以前に診断されていない患者またはヒト対象を指す。例えば、ヒト対象は、咳、疲労、疼痛などの徴候を示し得るが、肺癌と以前に診断されておらず、現在、癌の存在および本発明の方法に対するリスクの増加を分類するためにスクリーニングを受けているヒト対象は、依然として「無症候性」と見なされる。
【0037】
本明細書で使用される場合、「AUC」という用語は、例えば、ROC曲線の曲線下面積を指す。その値により、検査対象を分類する際に検査においてランダムな応答が提供されることを意味する、0.5までの範囲の良好な検査を表す1の値を有する所与の試料集団に対する検査の利点または性能を評価することができる。AUCの範囲はわずか0.5~1.0であるため、AUCにおける小さな変化は、0~1または0~100%の範囲の指標における類似の変化よりも大きな意味を有する。AUCの変化率が与えられると、指標の全範囲が0.5~1.0であるという事実に基づいて計算される。様々な統計パッケージは、JMP(商標)またはAnalyse-It(商標)などのROC曲線のAUCを計算することができる。AUCは、完全なデータ範囲にわたる分類子モデルの精度を比較するために使用することができる。より大きなAUCを有する分類子モデルは、定義上、2つの対象群(疾患および疾患なし)の間で未知試料を正しく分類する能力がより大きい。
【0038】
本明細書で使用される場合、「生体試料」および「検査試料」という用語は、任意の所与の対象から単離された全ての生体流体および排泄物を指す。本発明の実施形態の文脈において、かかる試料としては、血液、血清、血漿、尿、涙、唾液、汗、生検、腹水、脳脊髄液、乳、リンパ、気管支および他の洗浄試料、または組織抽出試料が挙げられるが、これらに限定されない。特定の実施形態では、血液、血清、血漿および気管支洗浄または他の液体試料は、本発明の方法の文脈で使用するための便利な検査試料である。
【0039】
本明細書で使用される場合、「バイオマーカー測定値」は、疾患の存在または不在を特徴付けるのに有用なバイオマーカーに関する情報である。そのような情報は、濃度であるか、または濃度に比例するか、またはそれ以外の場合、組織もしくは生物学的流体中のバイオマーカーの発現の定性的指標もしくは定量的指標を提供する測定値を含み得る。
【0040】
本明細書で使用される場合、「癌」および「癌性」という用語は、典型的には調節されていない細胞増殖によって特徴付けられる哺乳動物における生理学的状態を指すか、または説明するものである。癌の例としては、肺癌、乳癌、大腸癌、前立腺癌、肝細胞癌、胃癌、膵臓癌、子宮頸癌、卵巣癌、肝臓癌、膀胱癌、尿路癌、甲状腺癌、腎臓癌、癌腫、黒色腫、および脳癌が挙げられるが、これらに限定されない。
【0041】
本明細書で使用される場合、「コホート」または「コホート集団」という用語は、年齢、家族歴、癌リスク因子、環境影響、病歴などの共通の因子または影響を有するヒト対象の群またはセグメントを指す。一例では、本明細書で使用される場合、「コホート」は、共通の癌リスク因子を有するヒト対象の群を指し、本明細書では「疾患コホート」とも称される。別の事例では、本明細書で使用される場合、「コホート」は、例えば、年齢によって、癌リスクコホートに一致する正常集団群を指し、本明細書では、「正常コホート」とも称される。「同じコホート」は、癌などの疾患のリスクについて評価を受ける個体と同じ共有癌リスク因子を有するヒト対象の群を指す。
【0042】
本明細書で使用される場合、「機械学習」は、データから学習し、データについて予測を行うアルゴリズムを含む、明示的にプログラムされることなくコンピュータに学習する能力を与えるアルゴリズムを指す。機械学習アルゴリズムには、決定木学習、人工ニューラルネットワーク(ANN)(本明細書では「ニューラルネット」とも称される)、深層学習ニューラルネットワーク、サポートベクターマシン、ルールベース機械学習、ランダムフォレスト、ロジスティック回帰、パターン認識アルゴリズムなどが含まれるが、これらに限定されない。明確にするために、線形回帰またはロジスティック回帰などのアルゴリズムを機械学習プロセスの一部として使用することができる。しかしながら、機械学習プロセスの一部として線形回帰または別のアルゴリズムを使用することは、Excelなどのスプレッドシートプログラムを用いて回帰などの統計分析を行うこととは異なることが理解される。機械学習プロセスは、新しいデータが利用可能になるにつれて分類子モデルを継続的に学習および調整する能力を有し、明示的またはルールベースのプログラミングに依存しない。統計モデリングは、結果を予測するために変数間の関係(例えば、数式)を見出すことに依存する。
【0043】
本明細書で使用される場合、「病歴」という用語は、患者に関連する任意の種類の医療情報を指す。いくつかの実施形態では、病歴は、電子カルテデータベースに格納される。病歴には、臨床データ(例えば、撮像モダリティ、血液検査、バイオマーカー、癌性試料および対照試料、ラボなど)、臨床メモ、症状、症状の重症度、喫煙年数、疾患の家族歴、病歴、治療および転帰、特定の診断を示すICDコード、他の疾患の病歴、放射線学報告書、撮像研究、報告書、病歴、遺伝子検査から特定された遺伝リスク因子、遺伝子変異などが含まれ得る。
【0044】
本明細書で使用される場合、「リスク増加」という用語は、分類子モデルによる分析後のヒト対象のための、検査前の特定の癌の母集団の既知の罹患率と比較した癌の存在または発症のためのリスクレベルの増加を指す。換言すると、バイオマーカー検査および/またはデータ分析の前のヒト対象の癌のリスクは、1%(集団における癌の罹患率の理解に基づいて)であり得るが、分類子モデルを使用した分析の後、癌の存在に対する患者のリスクは、8%であり得、あるいは、コホートと比較して8倍の増加として報告され得る。本機械学習システムは、癌を有する8%のリスクを計算し、集団またはコホート集団と比較して8倍のリスク増加を本明細書でより詳細に提供する。
【0045】
本明細書で使用される場合、同義的に使用される「マーカー」、「バイオマーカー」(またはその断片物)およびそれらの同義語は、試料中で評価することができ、健康状態と関連付けられる分子を指す。例えば、マーカーは、健康状態または疾患状態に関連する、ヒト試料、例えば、血液、血清、固体組織などから検出され得るそれらのタンパク質に対する発現遺伝子またはそれらの生成物(例えば、タンパク質)または自己抗体を含む。かかるバイオマーカーとしては、ヌクレオチド、アミノ酸、糖、脂肪酸、ステロイド、代謝産物、ポリペプチド、タンパク質(抗原および抗体などであるが、これらに限定されない)、炭水化物、脂質、ホルモン、抗体、生物学的分子の代替物として機能する対象領域、それらの組み合わせ(例えば、糖タンパク質、リボ核酸タンパク質、リポタンパク質)、ならびに任意のかかる生体分子を含む任意の複合体、例えば、抗原と、当該抗原上の利用可能なエピトープに結合する自己抗体との間に形成される複合体が挙げられるが、これらに限定されない。「バイオマーカー」という用語はまた、少なくとも5個の連続するアミノ酸残基、好ましくは少なくとも10個の連続するアミノ酸残基、より好ましくは少なくとも15個の連続するアミノ酸残基を含み、親ポリペプチドの生物学的活性および/またはいくつかの機能的特徴、例えば抗原性または構造的ドメイン特徴を保持するポリペプチド(親)配列の一部分を指し得る。本発明のマーカーは、癌細胞上または癌細胞内に存在する腫瘍抗原、または癌細胞から血液もしくは血清などの体液中に流出している腫瘍抗原の両方を指す。本明細書で使用される場合、本発明のマーカーはまた、それらの腫瘍抗原に対して身体によって産生された自己抗体を指す。一態様では、本明細書で使用される場合、「マーカー」は、ヒト対象の血清中で検出されることができる腫瘍抗原および自己抗体の両方を指す。また、本発明の方法において、パネル内のマーカーの使用は、各々、分類子モデルにおいて等しく寄与し得るか、または特定のバイオマーカーが重み付けされ得、パネル内のマーカーは、分類子モデルにおいて異なる重みまたは量に寄与することも理解される。バイオマーカーは、遺伝子、エピジェネティック、プロテオミクス、グリコミクス、または撮像バイオマーカーを含むが、これらに限定されない癌の存在を示す任意の生物学的物質を含み得る。バイオマーカーとして、細胞遊離DNA、mRNA、およびタンパク質ベースの生成物(腫瘍マーカーまたは抗原)などを含む、腫瘍または癌によって分泌される分子が挙げられる。
【0046】
本明細書で使用される場合、(腫瘍)癌の「病理」という用語は、患者の健康を損なう全ての現象を含む。これには、異常または制御不能な細胞成長、転移、隣接する細胞の正常な機能の干渉、異常レベルでのサイトカインまたは他の分泌物の放出、炎症または免疫学的応答の抑制または悪化、腫瘍、前癌状態、悪性腫瘍、リンパ節などの周囲または遠隔の組織または器官の浸潤などが含まれるが、これらに限定されない。
【0047】
本明細書で使用される場合、「生理学的試料」は、生体流体および組織由来の試料を含む。生物学的流体としては、全血、血漿、血清、痰、尿、汗、リンパ、および肺胞洗浄液が挙げられる。組織試料としては、固体肺組織または他の固体組織からの生検、リンパ節生検組織、転移巣の生検が挙げられる。生理学的試料を得る方法は周知である。
【0048】
本明細書で使用される場合、「陽性予測スコア」、「陽性予測値」、または「PPV」という用語は、バイオマーカー検査上の特定の範囲内のスコアが真陽性の結果である可能性を指す。これは、真陽性の結果の数を総陽性結果の数で除算したものとして定義される。真陽性の結果は、検査感度に検査集団における疾患の罹患率を乗算することによって計算することができる。偽陽性は、(1から特異度を減算した値)に(1-検査集団における疾患の罹患率)を乗じて計算することができる。総陽性結果は真陽性+偽陽性に等しい。
【0049】
本明細書で使用される場合、「受信者動作特性曲線」または「ROC曲線」という用語は、2つの集団、癌患者、および対照、例えば、癌を有していない集団を区別するための特定の特徴の性能のプロットである。集団全体(すなわち、患者と対照)のデータは、単一の特徴の値に基づいて昇順に並べ替えられる。そして、その特徴の値ごとに、データの真陽性率と偽陽性率が決定される。真陽性率は、検討中の当該特徴の値を上回る症例数をカウントし、その後、患者の総数で除算することによって決定される。偽陽性率は、検討中の当該特徴の値を上回る対照の数をカウントし、その後、対照の総数で除算することによって決定される。
【0050】
ROC曲線は、単一の特徴、ならびに他の単一の出力、例えば、ROC曲線にプロットされ得る単一の組み合わせ値を提供するために組み合わされる2つ以上の特徴(例えば、加算、減算、乗算、加重など)の組み合わせに対して生成され得る。ROC曲線は、検査の偽陽性率(1-特異度)に対する検査の真陽性率(感度)のプロットである。ROC曲線は、データセットを素早くスクリーニングする別の手段を提供する。本明細書で使用される場合、本発明の分類子モデルの性能は、感度および特異度値を有する計算されたROC曲線を使用して決定される。性能は、モデルを比較するために使用され、また重要なことに、異なる変数を有するモデルを比較して、患者のために、癌を有するか、または癌を発症することを予測するための最も高い精度を有する分類子モデルを選択するために使用される。
【0051】
機械学習システムによって生成された分類子モデルとその使用
無症候性患者を、癌を有するかまたは癌を発症するリスクカテゴリに分類するための分類子モデル、コンピュータ実装システム、機械学習システム、およびその方法、ならびに/あるいは、癌を有するリスクまたは癌を発症するリスクが増加した患者を、臓器系に基づく悪性腫瘍クラス所属および/または特定の癌クラス所属に分類するための分類子モデル、コンピュータ実装システム、機械学習システム、およびその方法が、本明細書で開示される。
【0052】
本明細書に開示される機械学習システムでは、12,000人を超える無症候性男性患者および15,000人を超える無症候性女性患者のコホートからの縦断的データを使用して、本発明の分類子モデルが生成された。実施例1Aおよび2を参照されたい。この事例では、バイオマーカーを測定し、患者のフォローアップを実施して、将来の診断指標を提供した(例えば、癌発症なし、または特定の癌の診断なし)。癌が検出される数ヶ月、あるいは数年前に得られたバイオマーカーを使用することで、分類子モデルを訓練するための強力なツールが提供され、ROC曲線分析によって測定される非常に正確な分類子モデルが得られた。実施形態では、訓練データは、試料を提供して3ヶ月以上後に癌診断を受けていない患者の群からのデータを含む。実施形態では、訓練データは、試料を提供して3ヶ月以上後に癌診断を受けた患者の群からのデータを含む。
【0053】
実施形態では、無症候性女性患者のコホートを使用して、女性患者に使用される分類子モデルを訓練し、無症候性男性患者のコホートを使用して、男性患者に使用される分類子モデルを訓練した。実施形態では、患者の性別は、分類子モデルを選択するために使用される。実施形態では、訓練データには、癌を有する患者よりも多くの癌を有していない患者が含まれ、分類子モデルの訓練は、陰性試料の選択を改善するために階層化サンプリング技術を使用することによって訓練データを再処理することを含む。
【0054】
驚くべきことに、分類子モデルの訓練および使用のための入力変数として年齢を含むことで、分類子モデルの性能がさらに改善された。実施例1Bを参照されたい。実施形態では、分類子モデルは、少なくとも0.8の感度値および少なくとも0.8の特異度値を有する受信者動作特性(ROC)曲線の性能を有する。
【0055】
実施形態では、機械学習システムは、静的であり得る分類子モデルを生成する。換言すると、分類子モデルが訓練され、次いで、その使用は、患者データ(例えば、バイオマーカー測定値および年齢)が入力され、分類子モデルは、患者を分類するために使用される出力を提供するコンピュータ実装システムで実装される。
【0056】
他の実施形態では、分類子モデルは、連続的に、または日常的に更新され、改善されており、入力値、出力値、ならびに患者からの診断指標は、分類子モデルをさらに訓練するために使用される。実施形態では、分類子モデルは、少なくとも0.85の感度値および少なくとも0.8の特異度値を有する受信者動作特性(ROC)曲線の改善された性能を有する。
【0057】
実施形態では、分類子モデルは、機械学習システムによってさらに訓練および改善され、(1)患者の癌の存在を確認または否定する、診断検査からの1つ以上の検査結果を取得することと、(2)機械学習システムの分類子モデルのさらなる訓練のために、1つ以上の検査結果を訓練データに組み込むことと、(3)機械学習システムによって改善された分類子モデルを生成することと、を含む。実施形態では、診断検査は、放射線撮影スクリーニングまたは組織生検を含む。
【0058】
本明細書に提供される実施形態では、無症候性患者の癌を有するリスクまたは癌を発症するリスクの増加を予測するための分類子モデルが提供される。実施形態では、この第1の分類子モデルは、患者集団の、少なくとも2つのバイオマーカーのパネルの値、年齢、および診断指標を含む訓練データを使用して、機械学習システムによって生成される。実施形態では、第1の分類子モデルは、男性コホートまたは女性コホートのみからのデータを使用して訓練された。実施形態では、訓練データは、少なくとも6つのバイオマーカーのパネルの値を含む。実施形態では、訓練データは、AFP、CEA、CA125、CA19-9、CA15-3、CYFRA21-1、PSA、およびSCCから選択されるバイオマーカーのパネルからの値を含む。
【0059】
例示的な実施形態では、第1の分類子モデルは、男性コホートのみ、AFP、CEA、CA19-9、CYFRA21-1、PSAおよびSCCを含む6つのバイオマーカーのパネルの値、ならびに年齢を含む訓練データを使用して機械学習システムによって生成される。他の例示的な実施形態では、第1の分類子モデルは、女性コホートのみ、AFP、CEA、CA125、CA19-9、CA15-3、CYFRA21-1およびSCCを含む7つのバイオマーカーのパネルの値、ならびに年齢を含む訓練データを使用して機械学習システムによって生成される。
【0060】
実施形態では、第1の分類子モデルは、第1の分類子モデルの出力が閾値を超えるときに、年齢の入力変数および患者からのバイオマーカーのパネルの測定値を使用して、患者をリスク増加カテゴリに分類する。実施形態では、第1の分類子モデルは、第1の分類子モデルの出力が閾値未満であるときに、年齢の入力変数および患者からのバイオマーカーのパネルの測定値を使用して、患者を低リスク(例えば、リスク増加なし)カテゴリに分類する。例示的な実施形態では、出力は確率値であり、閾値は、リスク増加カテゴリ(訓練データを反映する集団と比較して、癌を有するリスクまたは癌を発症するリスクが増加した患者)から、低リスクカテゴリ(そのリスクが訓練データを反映する集団以下である患者)に患者を分離するように設定される。実施例3および
図3を参照されたい。特定の実施形態では、リスク増加カテゴリは、中程度のリスクカテゴリおよび高リスクカテゴリなど、さらに細分化することができる。
【0061】
実施形態では、リスク増加カテゴリに分類されたこれらの患者は、パーセント、例えば、100分のX、または乗数などのリスクスコアを割り当てることができる。特定の実施形態では、患者は(癌を有するかまたは癌を発症する)2~10%のリスクスコアを割り当てられ得、分類子モデルを訓練するために使用された集団における癌の発生率は約1%である。実施形態では、それらのパーセンテージリスクスコアは、100分のX、例えば、100分の3として提示され得、そのスコアを有する患者は、バイオマーカーが測定された時から1年以内に癌を発症するおよそ100分の3のリスクを有する。この事例では、閾値カットオフとは、それ以下のリスクスコアが正常と見なされ、それを超えるリスクスコアがリスク増加と見なされる。特定の実施形態では、閾値カットオフ値は、100分の1であり得、これは1%の不均質集団における癌を有する「正常」リスクに対応する。
【0062】
特定の他の実施形態では、患者に乗数を割り当てることができる。実施形態では、リスクスコアは、出力値ではなく、リスク増加カテゴリなどのリスクカテゴリに割り当てられた値であり、出力値は、患者をリスクカテゴリに分類するために使用される。特定の実施形態では、出力値は、0~1の範囲であり得る予測確率値であり、その値は、患者をリスクカテゴリに分類するために使用される。次いで、リスクカテゴリに割り当てられたリスクスコアは、リスクカテゴリに割り当てられた予測確率を集団における癌の罹患率と比較することによって計算される。実施例3を参照されたい。
【0063】
実施形態では、患者は、乳癌、胆管癌、骨癌、子宮頸癌、大腸癌、結腸直腸癌、胆嚢癌、腎臓癌、肝臓または肝細胞癌、小葉癌、肺癌、黒色腫、卵巣癌、膵臓癌、前立腺癌、皮膚癌、および精巣癌からなる群から選択される癌を有するリスクまたは癌を発症するリスクの増加を有し得る。
【0064】
実施形態では、分類子モデルは、患者の性別に基づいて選択される。実施形態では、男性患者の入力変数は、少なくとも6つのバイオマーカーのパネルからの測定値および年齢を含む。実施形態では、バイオマーカーのパネルは、AFP、CEA、CA125、CA19-9、CA15-3、CYFRA21-1、PSA、およびSCCから選択される。例示的な実施形態では、男性患者の入力変数は、AFP、CEA、CA19-9、CYFRA21-1、PSAおよびSCC、ならびに年齢からの測定値を含む。他の実施形態では、女性患者の入力変数は、少なくとも6つのバイオマーカーのパネルからの測定値および年齢を含む。例示的な実施形態では、女性患者特許の入力変数は、AFP、CEA、CA125、CA19-9、CA15-3、CYFRA21-1およびSCC、ならびに年齢からの測定値を含む。
【0065】
実施形態では、第1の分類子モデルは、サポートベクターマシン、決定木、ランダムフォレスト、ニューラルネットワーク、深層学習ニューラルネットワーク、またはロジスティック回帰アルゴリズムを含む。
【0066】
少なくとも1つの最も可能性の高い臓器系悪性腫瘍および/または特定の癌を予測するための第2の分類子モデルが、本明細書で開示される。特定の実施形態では、第2の分類子モデルは、癌を有するかまたは癌を発症するリスク増加カテゴリに分類された患者に適用される。第1の分類子モデルと同様に、第2の分類子モデルを、縦断的研究からの測定されたバイオマーカー、および年齢で訓練し、1つの分類子モデルを女性患者からおよび男性患者のために訓練し、別の分類子モデルを男性患者からおよび男性患者のために訓練した。
【0067】
実施形態では、第2の分類子モデルは、患者集団の、少なくとも2つのバイオマーカーのパネルからの値、年齢、および診断指標を含む訓練データを使用して、機械学習システムによって生成された。実施形態では、第2の分類子モデルは、男性コホートのみまたは女性コホートのみからのデータを使用して訓練された。実施形態では、訓練データは、少なくとも6つのバイオマーカーのパネルの値を含む。実施形態では、訓練データは、AFP、CEA、CA125、CA19-9、CA15-3、CYFRA21-1、PSA、およびSCCから選択されるバイオマーカーのパネルからの値を含む。
【0068】
例示的な実施形態では、第2の分類子モデルは、男性コホートのみを含む訓練データ、AFP、CEA、CA19-9、CYFRA21-1、PSAおよびSCCを含む6つのバイオマーカーのパネルの値、ならびに年齢を使用して機械学習システムによって生成される。他の例示的な実施形態では、第2の分類子モデルは、女性コホートのみを含む訓練データ、AFP、CEA、CA125、CA19-9、CA15-3、CYFRA21-1およびSCCを含む7つのバイオマーカーのパネルの値、ならびに年齢を使用して機械学習システムによって生成される。実施形態では、第2の分類子モデルは、少なくとも0.8の感度値および少なくとも0.7の特異度値を有する受信者動作特性(ROC)曲線の性能を有する。
【0069】
実施形態では、第2の分類子モデルは、年齢の入力変数および患者からのバイオマーカーのパネルの測定値を使用して、患者を臓器系クラス所属に割り当てる。特定の実施形態では、第2の分類子モデルは、年齢の入力変数および患者からのバイオマーカーのパネルの測定値を使用して、患者を特定の癌クラス所属に割り当てる。実施形態では、クラス所属は、泌尿器系(GU)、消化器系(GI)、肺系、皮膚系、血液系、神経系、婦人科系、または一般系から選択される臓器系のためのものである。実施例3を参照されたい。特定の実施形態では、クラス所属は、乳癌、胆管癌、骨癌、子宮頸癌、大腸癌、結腸直腸癌、胆嚢癌、腎臓癌、肝臓または肝細胞癌、小葉癌、肺癌、黒色腫、卵巣癌、膵臓癌、前立腺癌、皮膚癌、および精巣癌から選択される癌についてのものである。
【0070】
実施形態では、第2の分類子モデルは、患者の性別に基づいて選択される。実施形態では、男性患者の入力変数は、少なくとも6つのバイオマーカーのパネルからの測定値および年齢を含む。実施形態では、バイオマーカーのパネルは、AFP、CEA、CA125、CA19-9、CA15-3、CYFRA21-1、PSA、およびSCCから選択される。例示的な実施形態では、男性患者の入力変数は、AFP、CEA、CA19-9、CYFRA21-1、PSAおよびSCCからの測定値、ならびに年齢を含む。他の実施形態では、女性患者の入力変数は、少なくとも6つのバイオマーカーのパネルからの測定値および年齢を含む。例示的な実施形態では、女性患者特許の入力変数は、AFP、CEA、CA125、CA19-9、CA15-3、CYFRA21-1およびSCCからの測定値、ならびに年齢を含む。
【0071】
実施形態では、第2の分類子モデルは、パターン認識アルゴリズムを含む。例示的な実施形態では、第2の分類子モデルは、k近傍法(kNN)を含む。特定の実施形態では、第2の分類子モデルは、サポートベクターマシン、決定木、ランダムフォレスト、ニューラルネットワーク、深層学習ニューラルネットワーク、またはロジスティック回帰アルゴリズムを含む。
【0072】
本明細書に開示されるのは、癌、および/または臓器系に基づく悪性腫瘍、および/または特定の癌のリスク増加を予測するための少なくとも1つのプロセッサを含む機械学習システムである。
【0073】
特定の実施形態では、プロセッサは、患者からの試料中のバイオマーカーのパネルの測定値を取得することであって、バイオマーカーの値が、試料中のバイオマーカーのレベルに対応する、取得することと、年齢および性別を含む、患者から臨床パラメータを取得することと、機械学習システムによって第1の分類子モデルを生成して、患者を癌を有するかまたは癌を発症するリスクカテゴリに分類することと、を行うように構成され、第1の分類子モデルは、第1の分類子モデルの出力が閾値を超えるときに、患者をリスク増加カテゴリに分類し、第1の分類子モデルは、患者集団の少なくとも2つのバイオマーカーからの値、年齢、性別および診断指標を含む訓練データを使用して機械学習システムによって生成される。実施形態では、訓練データは、バイオマーカー測定値が、訓練データコホートにおける患者について癌診断が確認される(または確認されない)数ヶ月または数年前に取得される、縦断的研究からのものである。
【0074】
特定の他の実施形態において、プロセッサは、患者からの試料中のバイオマーカーのパネルの測定値を取得することであって、バイオマーカーの値が、試料中のバイオマーカーのレベルに対応する、取得することと、年齢および性別を含む、患者から臨床パラメータを取得することと、機械学習システムによって第2の分類子モデルを生成して、患者を臓器系クラス所属に分類することと、を行うように構成され、第2の分類子モデルは、年齢の入力変数および患者からのバイオマーカーのパネルの測定値を使用して臓器系クラス所属を割り当て、第2の分類子モデルは、患者集団の少なくとも2つのバイオマーカーのパネルからの値、年齢、および診断指標を含む訓練データを使用して機械学習システムによって生成される。
【0075】
特定の他の実施形態において、プロセッサは、患者からの試料中のバイオマーカーのパネルの測定値を取得することであって、バイオマーカーの値が、試料中のバイオマーカーのレベルに対応する、取得することと、年齢および性別を含む、患者から臨床パラメータを取得することと、機械学習システムによって第2の分類子モデルを生成して、患者を特定の癌クラス所属に分類することと、を行うように構成され、第2の分類子モデルは、年齢の入力変数および患者からのバイオマーカーのパネルの測定値を使用して特定の癌クラス所属を割り当て、第2の分類子モデルは、患者集団の少なくとも2つのバイオマーカーのパネルからの値、年齢、および診断指標を含む訓練データを使用して機械学習システムによって生成される。
【0076】
試料中のバイオマーカーの測定
本発明の方法の一部として、無症候性ヒト対象からのマーカーのパネルを測定することができる。遺伝子発現(例えば、mRNA)または得られる遺伝子産物(例えば、ポリペプチドまたはタンパク質)のいずれかを測定するための多くの方法が当業者に既知である。これらは、本発明の方法で使用することができ、当業者に既知である。しかしながら、少なくとも20~30年間、腫瘍抗原(例えば、CEA、CA-125、PSAなど)は、世界中で癌検出のために最も広く利用されたバイオマーカーであり、本発明の好ましい腫瘍マーカーの種類である。
【0077】
腫瘍抗原の検出のために、検査は、好ましくは大規模な設置ベースを有する、企業の自動免疫アッセイ分析器を使用して実施される。代表的な分析器として、Roche DiagnosticsのElecsys(登録商標)システムまたはAbbott DiagnosticsのArchitect(登録商標)分析器が挙げられる。このような標準化されたプラットフォームを使用することで、ある研究室または病院からの結果を世界中の他の研究室に転送することができる。しかしながら、本明細書に提供される方法は、パネルを含む任意の1つのアッセイ形式または任意の特定のマーカーのセットに限定されない。例えば、PCT国際特許出願公開第WO2009/006323号、米国公開第2012/0071334号、米国特許出願公開第2008/0160546号、米国特許出願公開第2008/0133141号、米国特許出願公開第2007/0178504号(各々参照により本明細書に組み込まれる)は、免疫アッセイ形式で、ビーズを固相として、および蛍光または色をレポーターとして使用する多重肺癌アッセイを教示する。したがって、蛍光または色の程度は、レポーターの存在および量の実際の定量値と比較して定性的スコアの形態で提供され得る。
【0078】
例えば、検査試料中の1つ以上の抗原または抗体の存在および定量性は、当該技術分野で既知の1つ以上の免疫アッセイを使用して決定することができる。免疫アッセイは、典型的に、(a)バイオマーカー(すなわち、抗原または抗体)に特異的に結合する抗体(または抗原)を提供することと、(b)検査試料を抗体または抗原と接触させることと、(c)検査試料中の抗原に結合した抗体の複合体または検査試料中の抗体に結合した抗原の複合体の存在を検出することと、を含む。
【0079】
周知の免疫学的結合アッセイとしては、例えば、「サンドイッチアッセイ」としても知られる酵素結合免疫吸着アッセイ(ELISA)、酵素免疫アッセイ(EIA)、ラジオ免疫アッセイ(RIA)、フルオロ免疫アッセイ(FIA)、化学発光免疫アッセイ(CLIA)、カウンティング免疫アッセイ(CIA)、濾過培地酵素免疫アッセイ(META)、蛍光結合免疫吸着アッセイ(FLISA)、凝集免疫アッセイおよび多重蛍光免疫アッセイ(Luminex Lab MAPなど)、免疫組織化学などが挙げられる。一般的な免疫アッセイの概説については、Methods in Cell Biology:Antibodies in Cell Biology,volume 37(Asai,ed.1993);Basic and Clinical Immunology(Daniel P.Stites;1991)を参照されたい。
【0080】
免疫アッセイは、対象由来の試料中の抗原の検査量を決定するために使用することができる。まず、試料中の抗原の検査量は、上述の免疫アッセイ方法を使用して検出することができる。抗原が試料中に存在する場合、それは、本明細書に記載される好適なインキュベーション条件下で抗原に特異的に結合する抗体と抗体-抗原複合体を形成する。抗体-抗原複合体の量、活性、または濃度などは、測定値を基準または対照と比較することによって決定することができる。次いで、抗原のAUCは、ROC分析などの既知の技術を使用して計算され得るが、これらに限定されない。
【0081】
別の実施形態では、マーカー(例えば、mRNA)の遺伝子発現は、ヒト対象由来の試料中で測定される。例えば、パラフィン包埋組織と共に使用するための遺伝子発現プロファイリング方法には、定量的な逆転写酵素ポリメラーゼ連鎖反応(qRT-PCR)が挙げられるが、質量分析およびDNAマイクロアレイを含む他の技術プラットフォームも使用することができる。これらの方法としては、PCR、マイクロアレイ、遺伝子発現の連続分析(SAGE)、およびマッシブリーパラレルシグネチャシーケンシング(MPSS)による遺伝子発現分析が挙げられるが、これらに限定されない。
【0082】
ヒト対象からのマーカーまたはマーカーのパネルの測定を提供する任意の方法論は、本発明の方法で使用するために企図される。特定の実施形態では、ヒト対象由来の試料は、生検などの組織切片である。別の実施形態において、ヒト対象由来の試料は、血液、血清、血漿、またはその一部もしくは画分などの体液である。他の実施形態では、試料は、血液または血清であり、マーカーは、そこから測定されるタンパク質である。また別の実施形態では、試料は、組織切片であり、マーカーは、その中で発現されるmRNAである。ヒト対象由来の試料形態およびマーカーの形態の多くの他の組み合わせが企図される。
【0083】
癌を含む疾患について多くのマーカーが既知であり、既知のパネルを選択することができ、または、本出願人らによって行われたように、縦断的臨床試料中の個々のマーカーの測定に基づいてパネルを選択することができる。パネルは、癌などの所望の疾患についての経験的データに基づいて生成される。
【0084】
使用され得るバイオマーカーの例としては、例えば、抗体、抗原、小分子、タンパク質、ホルモン、酵素、遺伝子などの体液試料中で検出可能な分子が挙げられる。しかしながら、腫瘍抗原を使用することは、それらが長年にわたって広く使用されること、ならびに検証され標準化された検出キットが、前述の自動免疫アッセイプラットフォームで使用するためにそれらの多くのために利用可能であるという事実に起因して、多くの利点を有する。
【0085】
実施形態では、バイオマーカーのパネルは、AFP、CEA、CA125、CA19-9、CA15-3、CYFRA21-1、PSA、およびSCCから選択される。特定の実施形態では、バイオマーカーのパネルは、抗p53、抗NY-ESO-1、抗ras、抗Neu、抗MAPKAPK3、サイトケラチン8、サイトケラチン19、サイトケラチン18、CEA、CA125、CA15-3、CA19-9、Cyfra21-1、血清アミロイドA、proGRP、およびα1抗トリプシン(US2012/0071334、US2008/0160546、US2008/0133141、US2007/0178504(各々参照により本明細書に組み込まれる))から選択される。さらなる腫瘍マーカーとしては、ヒト上体タンパク質4、カルシトニン、PAP、BR27.29、Her-2、およびHE-4が挙げられる。
【0086】
肺癌の循環マーカーとして提案されている自己抗体としては、p53、NY-ESO-1、ケージ、GBU4-5、アネキシン1、SOX2およびIMPDH、ホスホグリセレートムターゼ、ユビキリン、アネキシンI、アネキシンII、および熱ショックタンパク質70-9B(HSP70-9B)が挙げられる。
【0087】
特定の実施形態では、マーカーのパネルは、胆管癌、骨癌、膵臓癌、子宮頸癌、大腸癌、結腸直腸癌、胆嚢癌、肝臓または肝細胞癌、卵巣癌、精巣癌、小葉癌、前立腺癌、ならびに皮膚癌または黒色腫から選択される癌に関連するマーカーを含む。他の実施形態では、マーカーのパネルは、乳癌に関連するマーカーを含む。特定の実施形態において、バイオマーカーのパネルは、「汎癌」に関連するマーカーを含む。
【0088】
世界の特定の地域、特に極東地域では、多くの病院および「健康診断センター」が、毎年の身体検査または健康診断の一環として、患者に腫瘍マーカーのパネルを提供している。これらのパネルは、任意の特定の癌の顕著な徴候もしくは症状、またはその素因がない患者に提供され、任意の1つの腫瘍型(すなわち、「汎癌」)に特異的なものではない。かかる検査手法の例として、Y.-H.Wen et al.,Clinica Chimica Acta 450 (2015)273-276,“Cancer Screening Through a Multi-Analyte Serum Biomarker Panel During Health Check-Up Examinations:Results from a 12-year Experience.”で報告された手法がある。著者らは、2001年~2012年にかけて、台湾の病院で検査された4万人を超える患者の結果を報告している。Roche Diagnostics、Abbott Diagnostics、およびSiemens Healthcare Diagnosticsから入手可能なキットを使用して、患者を、AFP、CA15-3、CA125、PSA、SCC、CEA、CA19-9、およびCYFRA、21-1のバイオマーカーを用いて検査した。当該地域で最も一般的に診断された4つの悪性腫瘍(すなわち、肝臓癌、肺癌、前立腺癌、および結腸直腸癌)を同定するためのパネルの感度は、それぞれ、90.9%、75.0%、100%、および76%であった。カットオフ点を上回る値を示すマーカーのうちの少なくとも1つを有する対象を、アッセイに対して陽性と見なした。アルゴリズムは報告されなかった。さらに、この検査では、臨床パラメータもバイオマーカー速度も考慮されなかった。
【0089】
本発明による方法および機械学習システムは、台湾のグループによって報告された汎癌バイオマーカーパネルを改善および強化し、世界の他の地域でのその使用を容易に可能にすることができると考えられる。例えば、バイオマーカー値を臨床パラメータと組み合わせるアルゴリズムを用いて、機械学習ソフトウェアを使用して自動的に改善することができる。
【0090】
パネルは、例えば、分類子モデルの特異度または感度を最大化することを求める、設計選択として任意の数のマーカーを含むことができる。したがって、本発明の方法は、設計の選択として、2つ以上のバイオマーカー、3つ以上のバイオマーカー、4つ以上のバイオマーカー、5つ以上のバイオマーカー、6つ以上のバイオマーカー、7つ以上のバイオマーカー、8つ以上のバイオマーカーのうちの少なくとも1つの存在を要求し得る。
【0091】
したがって、一実施形態では、バイオマーカーのパネルは、少なくとも2個、少なくとも3個、少なくとも4個、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、または少なくとも10個以上の異なるマーカーを含むことができる。一実施形態において、バイオマーカーのパネルは、約2~10個の異なるマーカーを含む。別の実施形態において、バイオマーカーのパネルは、約4~8個の異なるマーカーを含む。また別の実施形態では、マーカーのパネルは、約6または約7個の異なるマーカーを含む。
【0092】
概して、試料はアッセイにコミットされ、結果は、試料中のパネルのバイオマーカーの各々の存在の存在およびレベル(例えば、濃度、量、活性など)を反映する数値の範囲であり得る。
【0093】
マーカーの選択は、各マーカーが測定および正規化されると、分類子モデルの入力変数として等しく寄与するという理解に基づき得る。したがって、特定の実施形態では、パネル内の各マーカーが測定され、正規化され、マーカーのいずれも、いかなる特定の重みも与えられない。この場合、各マーカーは1の重みを有する。
【0094】
他の実施形態では、マーカーの選択は、各マーカーが測定され正規化されると、分類子モデルの入力変数として不均等に寄与するという理解に基づき得る。この場合、パネル内の特定のマーカーは、1の分数(例えば、相対寄与が低い場合)、1の倍数(例えば、相対寄与が高い場合)、または1として(例えば、相対寄与がパネル内の他のマーカーと比較して中立である場合)のいずれかとして重み付けされ得る。
【0095】
さらに他の実施形態では、機械学習システムは、バイオマーカーパネルからの値を、値の正規化なしに分析することができる。したがって、測定を行うために器具類から得られた生の値を直接分析してもよい。
【0096】
本明細書に提示される実施形態の臨床環境での使用は、ここで「汎癌」および特定の癌スクリーニングの文脈において説明される。
【0097】
本明細書に開示された技術のユーザの中には、内科または家族医療を専門とする医師、ならびに医師助手およびナースプラクティショナーを含み得る一次診療医療従事者が含まれている。これらの一次診療医は、通常、毎日大量の患者を診察する。一例では、これらの患者は、喫煙歴、年齢、および他の生活要因に起因して肺癌のリスクにさらされている。2012年には、米国の人口の約18%が進行中の喫煙者であり、そのより多くが喫煙経験のない人口よりも肺癌リスクプロファイルが高い元喫煙者であった。
【0098】
50歳以上の患者などの患者からの血液試料は、機械学習システムによって生成された本発明の分類子モデルを訓練するために使用されるようなバイオマーカーのパネルを使用して試料を検査する資格を有する研究所に送られる。かかるバイオマーカーの非限定的なリストは、実施例を含む本明細書全体を通して本明細書に含まれる。血液の代わりに、痰または唾液などの他の好適な体液も利用することができる。
【0099】
次いで、バイオマーカーの測定値は、コンピュータ実装システム内の第1の分類子モデルと共に使用される年齢と共に入力値として使用される。出力値が得られ閾値と比較され、閾値は経験的に決定され、低リスクカテゴリの患者と、癌を有するリスクまたは癌を発症するリスクが増加した患者とを分離するように設定される。閾値は、縦断的臨床データを使用して経験的に決定される。リスク計算が研究所ではなく、診療の時点で行われる場合、モバイルデバイス(例えば、タブレットまたはスマートフォン)と互換性のあるソフトウェアアプリケーションを採用することができる。
【0100】
リスク増加カテゴリに分類されたこれらの患者について、測定されたバイオマーカーおよび年齢の入力変数は、コンピュータ実装システム内の第2の分類子モデルと共に使用され得る。出力値が得られ、第2の分類子モデルを訓練するために使用される縦断的臨床データと比較され、クラス所属が割り当てられ、ここで、クラス所属は臓器系である。特定の実施形態では、クラス所属は、特定の癌の種類、例えば、肺癌によってさらに定義される。
【0101】
医師または医療従事者が、患者のリスクスコア(すなわち、患者が同等の疫学的要因を有する他の集団と比較して癌を有するリスクまたは癌を発症するリスク)および最も可能性の高い臓器悪性腫瘍または特定の癌を把握すると、放射線撮影スクリーニングまたは組織生検などのより高いリスクを有する者に対してフォローアップ検査を推奨することができる。さらなる検査が推奨される上記の正確な数値カットオフは、(i)患者の希望およびその全体的な健康状態および家族歴、(ii)医療委員会によって確立されたまたは科学的機関によって推奨された診療ガイドライン、(iii)医師自身の診療の好み、および(iv)その全体的な精度および検証データの強度を含むバイオマーカー検査の性質を含むが、これらに限定されない多くの要因に依存して異なり得ることを理解されたい。
【0102】
本明細書に提示される実施形態の使用は、手術で治癒することができる早期腫瘍および潜伏癌を検出するために、リスクが最も高い患者がさらなる診断検査を受けることを確実にする一方で、スタンドアロンスクリーニングに関連する偽陽性の費用および負担を低減するという2つの利点を有すると考えられる。
【0103】
本発明の実施形態は、対象の癌の存在のリスクレベルを評価し、集団またはコホート集団と比較した検査後の癌の存在の増加または減少とリスクレベルを相関させるための装置をさらに提供する。装置は、試料中のバイオマーカーの評価から濃度値を受信するためにコンピュータ可読媒体命令(例えば、コンピュータプログラムまたはソフトウェアアプリケーション、例えば、機械学習システム)を実行するように構成されたプロセッサを含むことができ、かつ他のリスク因子(例えば、患者の病歴、癌を発症するリスクに関連する公的に入手可能な情報源など)と組み合わせて、リスクスコアを決定し、それを多数のリスクカテゴリを含む階層化コホート集団の群と比較することができる。
【0104】
装置は、様々な形態、例えば、ハンドヘルドデバイス、タブレット、または任意の他の種類のコンピュータもしくは電子デバイスのいずれかの形態をとることができる。装置はまた、命令を実行するように構成されたプロセッサ(例えば、コンピュータソフトウェア製品、ハンドヘルドデバイスのためのアプリケーション、本方法を実行するように構成されたハンドヘルドデバイス、ワールドワイドウェブ(WWW)ページ、または他のクラウドもしくはネットワークアクセス可能な場所、または任意のコンピューティングデバイス)を含んでもよい。他の実施形態では、装置は、サービス(SaaS)展開としてソフトウェアとして提供される機械学習システムにアクセスするためのハンドヘルドデバイス、タブレット、または任意の他の種類のコンピュータもしくは電子デバイスを含んでもよい。したがって、相関関係は、いくつかの実施形態では、ランダムアクセスメモリ、読み取り専用メモリ、ディスク、仮想メモリなどのデータベースまたはメモリに記憶されるグラフィック表現として表示され得る。当該技術分野で既知の他の好適な表現、または例示が使用されてもよい。
【0105】
本装置は、相関関係を記憶する記憶手段と、入力手段と、対象の状態を特定の病態に関して表示する表示手段とをさらに含むことができる。記憶手段は、例えば、ランダムアクセスメモリ、読み取り専用メモリ、キャッシュ、バッファ、ディスク、仮想メモリ、またはデータベースであってもよい。入力手段は、例えば、キーパッド、キーボード、記憶データ、タッチスクリーン、音声起動システム、ダウンロード可能なプログラム、ダウンロード可能なデータ、デジタルインターフェース、ハンドヘルドデバイス、または赤外線信号デバイスであってもよい。表示手段は、例えば、コンピュータモニタ、陰極線管(CRT)、デジタル画面、発光ダイオード(LED)、液晶ディスプレイ(LCD)、X線、圧縮デジタル画像、ビデオ画像、またはハンドヘルドデバイスであってもよい。装置は、データベースをさらに含むか、またはデータベースと通信することができる。データベースは、因子の相関関係を記憶し、ユーザがアクセス可能である。
【0106】
本発明の別の実施形態では、装置は、例えば、処理ユニット、メモリ、および記憶装置を含むコンピュータまたはハンドヘルドデバイスの形態のコンピューティングデバイスである。コンピューティングデバイスは、揮発性メモリおよび不揮発性メモリ、リムーバブル記憶装置、および/または非リムーバブル記憶装置などの様々なコンピュータ可読媒体を含むコンピューティング環境を含むか、またはそれにアクセスすることができる。コンピュータ記憶装置は、例えば、RAM、ROM、EPROMおよびEEPROM、フラッシュメモリもしくは他のメモリ技術、CDROM、デジタル多目的ディスク(DVD)もしくは他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶装置、またはコンピュータ可読命令を記憶することができることが当該技術分野で既知である他の媒体を含む。コンピューティングデバイスはまた、入力、出力、および/または通信接続を含むコンピューティング環境を含むか、またはそれにアクセスすることができる。入力は、キーボード、マウス、タッチスクリーン、またはスタイラスなどの1つまたはいくつかのデバイスであってもよい。出力はまた、ビデオディスプレイ、プリンタ、音声出力デバイス、タッチ刺激出力デバイス、またはスクリーン読み取り出力デバイスなどの1つまたはいくつかのデバイスであってもよい。必要に応じて、コンピューティングデバイスは、1つ以上のリモートコンピュータに接続するために通信接続を使用してネットワーク環境で動作するように構成することができる。通信接続は、例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)または他のネットワークであってもよく、クラウド、有線ネットワーク、無線無線周波数ネットワーク、および/または赤外線ネットワークを介して動作してもよい。
【0107】
人工知能システムは、通常人間が行うタスク、例えば、音声認識、意思決定、言語変換、画像処理および画像認識などを実行するように構成されるコンピュータシステムを含む。概して、人工知能システムは、学習能力、大規模な情報リポジトリを維持およびアクセスする能力、意思決定を行うための推論および分析を実行する能力、ならびに自己修正する能力を有する。
【0108】
人工知能システムは、知識表現システムおよび機械学習システムを含むことができる。知識表現システムは、概して、意思決定をサポートするために使用される情報を捕捉および符号化する構造を提供する。機械学習システムは、データを分析して、データ内の新しい傾向とパターンを特定することができる。例えば、機械学習システムは、ニューラルネットワーク、誘導アルゴリズム、遺伝的アルゴリズムなどを含んでもよく、データ内のパターンを分析することによって解決策を導出してもよい。
【0109】
特定の実施形態において、本発明の分類子モデルは、サポートベクターマシン、決定木、ランダムフォレスト、ニューラルネットワーク、深層学習ニューラルネットワーク、ロジスティック回帰またはパターン認識アルゴリズムなどのアルゴリズムを含む。分類子モデルを使用して、個々の患者を複数のカテゴリ、例えば、癌の可能性を示すカテゴリまたは癌の可能性がないことを示すカテゴリのうちの1つに分類することができる。分類子モデルへの入力は、癌の存在ならびに臨床パラメータに関連するバイオマーカーのパネルを含んでもよい。実施例3を参照されたい。実施形態では、臨床パラメータは、(1)年齢、(2)性別、(3)年間の喫煙歴、(4)年間喫煙箱数、(5)症状、(6)癌の家族歴、(7)併発疾患、(8)結節数、(9)結節の大きさ、(10)撮像データなどのうちの1つ以上を含む。例示的な実施形態では、入力値として使用される臨床パラメータは年齢であり、性別は、男性患者のための分類子モデルおよび女性患者のための別個の分類子モデルを提供する分類子モデルを訓練するために使用される。
【0110】
特定の実施形態では、臨床パラメータは、年間喫煙歴、年間喫煙箱数、および年齢を含む。さらに他の実施形態では、バイオマーカーのパネルは、任意の2個、任意の3個、任意の4個、任意の5個、任意の6個、任意の7個、任意の8個、任意の9個、または任意の10個のバイオマーカーを含む。実施形態では、バイオマーカーのパネルは、AFP、CA125、CA15-3、CA19-19、CEA、CYFRA21-1、HE-4、NSE、Pro-GRP、PSA、SCC、抗サイクリンE2、抗MAPKAPK3、抗NY-ESO-1、および抗p53からなる群から選択される2つ以上のバイオマーカーを含む。他の実施形態では、バイオマーカーのパネルは、CA19-9、CEA、CYFRA21-1、NSE、Pro-GRP、およびSCCを含む。さらに他の実施形態では、バイオマーカーのパネルは、AFP、CA125、CA15-3、CA-19-9、CEA、HE-4、およびPSAを含む。さらに他の実施形態では、バイオマーカーのパネルは、AFP、CA125、CA15-3、CA-19-9、カルシトニン、CEA、PAP、およびPSAを含む。他の実施形態では、バイオマーカーのパネルは、AFP、BR27.29、CA12511、CA15-3、CA-19-9、カルシトニン、CEA、Her-2、およびPSAを含む。
【0111】
サポートベクターマシン、決定木、ランダムフォレスト、ニューラルネットワーク、または深層学習ニューラルネットワークなど、様々な機械学習モデルが利用可能である。概して、サポートベクターマシン(SVM)は、分類および回帰分析のためにデータを分析する監督された学習モデルである。SVMは、n次元空間内のデータ点の集合をプロットしてもよく(例えば、nはバイオマーカーおよび臨床パラメータの数である)、分類は、データ点の集合をクラスに分離することができる超平面を見出すことによって実行される。いくつかの実施形態では、超平面は線形であり、他の実施形態では、超平面は非線形である。SVMは、高次元空間において有効であり、次元数がデータ点の数よりも多い場合に有効であり、概して、明確な分離マージンを有するデータセットにおいて良好に動作する。
【0112】
決定木は、分類問題でも使用される監督学習アルゴリズムの一種である。決定木を使用して、最良の均質なデータセットを提供する最も重要な変数を特定することができる。決定木は、データ点の群を1つ以上のサブセットに分割し、次いで、各サブセットを1つ以上の追加のカテゴリなどに分割して、端末ノード(例えば、分割しないノード)を形成するまで行うことができる。分割が発生する場所を決定するために、ジニ指数(2値分割の一種)、カイ二乗、情報利得、または分散減少など、様々なアルゴリズムを使用することができる。決定木は、多数の変数の中で最も重要な変数を迅速に特定すると共に、2つ以上の変数間の関係を特定する能力を有する。加えて、決定木は数値データと非数値データの両方を処理することができる。この技術は、概して、非パラメトリック手法であると考えられ、例えば、データが正規分布に適合する必要はない。
【0113】
ランダムフォレスト(またはランダム決定フォレスト)は、分類と回帰の両方に好適な手法である。いくつかの実施形態では、ランダムフォレスト法は、制御された分散を有する決定木の集合を構築する。概して、M個の入力変数について、M個未満の数の変数(nvar)が、データ点の群を分割するために使用される。最良の分割が選択され、端末ノードに到達するまでプロセスが繰り返される。ランダムフォレストは、最も重要な変数を特定するために多数の入力変数(例えば、数千)を処理するのに特に適している。ランダムフォレストは、欠落データの推定にも有効である。
【0114】
ニューラルネット(人工ニューラルネット(ANN)とも称される)は、本出願を通して説明される。非決定的な機械学習技術であるニューラルネットは、出力を計算するために非表示ノードのうちの1つ以上の層を利用する。入力が選択され、各入力に重みが割り当てられる。訓練データは、ニューラルネットワークを訓練するために使用され、入力および重みは、指定された指標、例えば、好適な特異度および感度に到達するまで調整される。
【0115】
従属変数と独立変数との相関関係が線形でない場合、または式を使用して容易に分類することができない場合、ANNを使用してデータを分類することができる。25種類を超える異なる種類のANNが存在し、各ANNは、異なる訓練アルゴリズム、活性化/伝達関数、隠れ層の数などに基づいて異なる結果をもたらす。いくつかの実施形態では、15種類を超える伝達関数がニューラルネットワークで使用可能である。癌を有する可能性の予測は、ANNの種類、活性化/伝達関数、隠れ層の数、ニューロン/ノードの数、および他のカスタマイズ可能なパラメータのうちの1つ以上に基づく。
【0116】
別の機械学習技術である深層学習ニューラルネットワークは、通常のニューラルネットに類似しているが、より複雑であり(例えば、典型的には、多数の隠れ層を有する)、自動化された様式で動作(例えば、特徴抽出)を自動的に実行することができ、概して、従来のニューラルネットよりもユーザとの対話を必要としない。
【0117】
いくつかの実施形態では、分類子モデルの性能を向上させるために入力を選択することができる。例えば、臨床的に関連する特異度が80%以上のような最高の可能性のある感度を達成する入力セットを選択するのではなく、感度閾値(例えば、80%以上)に到達するように入力セットを選択し、この閾値に到達したら、分類子モデルの性能を最適化するように入力セットを選択し、それによって分類子モデルの性能を向上させることができる。
【0118】
したがって、癌を有する患者のリスクを特定するために、システム、方法、およびコンピュータ可読媒体は、例えば、分類子モデルを生成するために、機械学習システムを使用することに関して本明細書に提示される。データのセットは、複数の患者記録を含み、各患者記録が、患者についての複数のパラメータおよび対応する値を含み、データのセットはまた、患者が癌と診断されたか否かを示す診断指標を含み、分類子モデルまたは機械学習システムによってアクセス可能なメモリに記憶される。複数のパラメータは、分類子モデルへの入力として選択され得る様々なバイオマーカー、臨床学的因子、および他の因子を含む。診断指標は、患者が癌を有することを肯定的に示す指標であり、例えば、癌の診断を確認する肺X線および/または生検である。複数のパラメータのサブセットは、機械学習システムへの入力のために選択され、サブセットは、少なくとも2つの異なるバイオマーカーと、年齢などの少なくとも1つの臨床パラメータとのパネルを含む。
【0119】
機械学習システムによって生成された分類子モデルを訓練するために、データのセット(例えば、縦断的)は、訓練データおよび検証データにランダムに分割される。分類子モデルは、訓練データ、入力のサブセット、および本明細書に記載される機械学習システムに関連付けられた他のパラメータに基づいて、機械学習システムを使用して生成される。分類子は、患者の正しい分類のための感度と特異度を指定する所定の受信者動作特性(ROC)統計などの特定の性能基準を満たしているかどうかを決定する。実施形態では、特異度は少なくとも80%であり、感度は少なくとも75%である。実施例1Aおよび2を参照されたい。
【0120】
分類子モデルが所定のROC統計を満たしていない場合、分類子が所定のROC統計を満たすまで、訓練データおよび異なるサブセットの入力に基づいて分類子が反復的に再生成され得る。機械学習システムが所定のROC統計を満たすとき、分類子の静的構成が生成され得る。この静的構成は、肺癌のリスクを有する患者を特定することに使用するために、または医師のオフィスによってアクセスすることができるリモートサーバに格納するために、医師のオフィスに配備されてもよい。
【0121】
分類子モデルが訓練データ上で訓練されると、分類子モデルは、検証データを使用して検証することができる。検証データはまた、患者についての複数のパラメータおよび対応する値を含み、かつ、患者が癌と診断されたか否かを示す診断指標を含む。検証データは、分類子モデルを使用して分類することができ、当該データに基づいて、分類子がROC統計などの所定の性能基準を満たすかどうかを判定することができる。分類子モデルが所定のROC統計を満たしていない場合、再生成された分類子が所定のROC統計を満たすまで、訓練データおよび複数のパラメータの異なるサブセットに基づいて分類子が反復的に再生成され得る。次いで、検証プロセスを繰り返すことができる。
【0122】
静的分類子モデルを有するコンピューティングデバイスへのアクセスを有するユーザは、患者に対応する入力値をコンピューティングデバイスに入力することができる。次いで、患者は、静的分類子を使用して、癌を有する可能性を示すリスクカテゴリに、または癌を有していない可能性を示す別のリスクカテゴリに分類することができる。次いで、システムは、患者が癌を有する可能性を示すカテゴリに分類されるときに、追加の診断検査(例えば、CTスキャン、胸部X線または生検)を推奨する通知をユーザ(例えば、医師)に送信することができる。
【0123】
いくつかの実施形態では、機械学習システムによって生成された分類子モデルは、経時的に継続的に訓練することができる。癌の存在を確認または否定する、診断検査から得られた検査結果は、機械学習システムのさらなる訓練のために訓練データセットに組み込むことができ、機械学習システムによって改善された分類子を生成する。
【0124】
したがって、いくつかの実施形態では、患者からの試料中のバイオマーカーのパネルの値が測定される。分類子モデルは、患者を癌を有するかまたは癌を発症するリスクカテゴリに分類するために機械学習システムによって生成され、分類子モデルは、少なくとも80%の感度および少なくとも80%の特異度を有するROC曲線の性能を有し、分類子は、少なくとも2つの異なるバイオマーカーと、年齢などの少なくとも1つの臨床パラメータとを含むバイオマーカーのパネルを使用して生成される。患者が癌を有するかまたは癌を発症するリスク増加カテゴリに分類されると、診断検査のためのユーザへの通知が提供される。実施形態では、癌を有するかまたは癌を発症するリスクカテゴリは、癌を有する可能性の定性的群(例えば、高、低、中など)にさらに分類されてもよく、または癌を有する可能性の定量的群(例えば、パーセンテージ、倍率、リスクスコア、複合スコア)に分類されてもよい。
【0125】
特定の実施形態では、癌を有するかまたは癌を発症するリスク増加カテゴリに分類された患者について、第2の分類子モデルは、患者を臓器系および/または特定の癌クラス所属に割り当てるために機械学習システムによって生成され、分類子モデルは、少なくとも70%の感度および少なくとも80%の特異度を有するROC曲線の性能を有し、分類子は、少なくとも2つの異なるバイオマーカーと、年齢などの少なくとも1つの臨床パラメータとを含むバイオマーカーのパネルを使用して生成される。クラス所属に分類された後、診断検査のためのユーザへの通知が提供される。
【0126】
他の実施形態では、1つ以上のプロセッサによって実行されるための1つ以上のコンピュータ可読命令を記憶するメモリに結合された1つ以上のプロセッサを有するコンピュータシステムを使用して、対象において癌を有するリスクまたは癌を発症するリスクを予測するためのコンピュータ実装方法であって、1つ以上のコンピュータ可読命令が、複数の患者記録を含むデータのセットを記憶する工程であって、各患者記録が患者のための複数のパラメータを含み、データのセットはまた、患者が癌と診断されたか否かを示す診断指標を含む、記憶する工程と、機械学習システムへの入力のための複数のパラメータを選択する工程であって、パラメータが、少なくとも2つの異なるバイオマーカー値および少なくとも1つの種類の臨床データのパネルを含む、選択する工程と、機械学習システムを使用して分類子を生成する工程であって、分類子が、少なくとも70%の感度および少なくとも80%の特異度を含み、分類子が、入力のサブセットに基づいている、生成する工程と、を行うための命令を含む、コンピュータ実装方法である。
【0127】
いくつかの実施形態では、機械学習システムは、より正確な予測を行うために時間の経過と共に進化することができるが、機械学習システムは、スケジュールベースで改善された予測を展開する能力を有してもよい。換言すると、機械学習システムによってリスクを決定するために使用される技術は、リスクスコアの決定に関する一貫性を保つことができるように、一定期間静的なままであってもよい。指定された時点で、機械学習システムは、改善されたリスクスコアを生成するために、新しいデータの分析を組み込む更新された技術を展開することができる。したがって、本明細書に記載される機械学習システムは、(1)静的な様式で、(2)分類子が所定のスケジュールに従って(例えば、特定の時間に)更新される半静的な様式で、または(3)連続的な様式で、新しいデータが利用可能であるように更新されるように動作し得る。
【実施例】
【0128】
本発明の実施を例示するために、以下の実施例を示す。これらは、本発明の全体の範囲を制限または定義することを意図しない。
【0129】
実施例1A:無症候性患者を癌発症患者として分類するためのマルチマーカーモデルの開発:「汎癌」検査
癌を発症するリスクが増加している無症候性患者を特定するためのマルチマーカー分類子モデルおよび方法が本明細書に提供される。当該リスクは、癌を発症するための「低リスク」、「中リスク/中程度のリスク」または「高リスク」として分類することができ、これらのカテゴリの範囲は、例えば、6ヶ月~1年以内に癌を発症する確率に基づいてもよく、その確率は、不均質集団における癌のベースラインレベルに対して測定される。当該技術分野において、癌の発生率は、一般集団において約1%であることが理解される。汎癌検査を開発するために使用されるコホートにおける癌の罹患率は、約1.5%であった。検査および確率値の使用の詳細については、以下の例を参照されたい。分類子モデルの開発、およびマーカー(血液および臨床パラメータの両方)の選択は、分類子モデルの性能の尺度を提供する精度、曲線下面積(AUC)、感度、特異度値、および/またはユーデン指数(感度+特異度-1)の組み合わせに基づいてもよい。
【0130】
汎癌検査の分類子モデルによる開発および継続学習は、バイオマーカーが(性別および年齢と共に)測定され、統計解析が行われ、データが癌を発症した個体と相関した12年間にわたって、縦断的データおよび/または遡及データを使用して行われた。そこから、アルゴリズムを含むモデルが生成され、その後6ヶ月から1年間にわたって癌を発症するリスクが増加している個体を特定するために訓練された。モデルの精度を継続的に向上させるために、同じ原理が適用され、個体およびそれらのバイオマーカー測定値をコホートに追加し、モデルをさらに訓練する。
【0131】
本発明の「汎癌」モデルは、台湾で12年間にわたる腫瘍マーカーパネルに基づいて測定された血清バイオマーカーを有した12,622人の無症候性男性および15,316人の無症候性女性からのデータを使用して開発された。男性コホートは、測定された6つのマーカー(AFP、CEA、CA19-9、CA15-3、CA125、PSA、SCC、およびCYFRA21-1)のパネルを有し、女性コホートは、測定された7つのマーカー(AFP、CEA、CA19-9、CA125、CA15-3、SCC、およびCYFRA21-1)のパネルを有していた。全ての腫瘍マーカーを、市販のin vitro診断(IVD)キットおよびRocheまたはAbbott Diagnosticsのいずれかによって製造された器具類を使用して測定した。腫瘍マーカーの全てのアッセイは、米国病理学者カレッジ(CAP)研究所認定プログラムの要件を満たした。転帰データを癌レジストリから得て、各患者が腫瘍マーカー検査の1年以内に悪性腫瘍の新しい診断を受けたかどうかを判定した。
【0132】
27,938人全員がランダムに訓練(2/3)または検査(1/3)セットに割り当てられた。全ての無作為割付は、Matlab(Math-Works、Natick、マサチューセッツ州、米国)を使用して実施された。
【0133】
本研究で使用されるデータセットの不均衡な性質(非癌の数が真性癌よりもはるかに多い)のため、データ再処理を実施して、階層化サンプリング技術を使用して陰性試料の選択を改善した。8291例および10107例の非癌症例からそれぞれ最終訓練セットに124症例の男性および104症例の女性を無作為化するために、1:1の癌対非癌比を採用した。その結果、新たに診断された男性の124の癌症例と124の非癌症例、および女性の104の癌症例と104の非癌症例を含む訓練セットを使用して、機械学習モデルを訓練した。
【0134】
統計分析。バイオマーカーパネルAFP、CEA、CA19-9、CYFRA21-1、SCC、およびPSAを12,622人の男性個体全てについて測定し、バイオマーカーパネルAFP、CEA、CA19-9、CA125、CA15-3、SCC、およびCYFRA21-1を15,316人の女性個体全てについて測定した。変数選択プロセスを適用して、それらの血清腫瘍マーカーから堅牢な変数を選択し、癌検出モデルを設計した。精度、感度、特異度、AUC(曲線下面積)、ユーデン指数を、最適な機械学習モデルを選択するために比較した。
【0135】
ユーデン指数を、本研究の分類子モデルで使用される変数を選択するための性能指標として使用した。生物医学研究において最も広く使用されている性能指標の一つであるユーデン指数は、以下の式で計算される。ユーデン指数=感度+特異度-1。
【0136】
癌スクリーニングのための統計アルゴリズムとモデル。本研究では、上記測定された血清腫瘍マーカーを使用した多数の癌スクリーニングモデルを、SVM、kNN、MLR、逐次最小問題最適化法(SMO)、J48決定木、近傍ベースのクラスタリングアルゴリズム(NBC)、サポートベクターマシン用ライブラリLibSVM、アンサンブル投票分類子(LibSVM、LR、NBC)、および多層パーセプトロン(MLP)を含む機械学習方法を使用して設計した。
【0137】
結果。機械学習方法および男性コホートで測定された6つのバイオマーカーのパネルを使用して癌検出モデルを設計するために、腫瘍マーカーの63の組み合わせを、ユーデン指数を使用して評価し、最も高いAUCおよび/またはユーデン指数を有する効果的な癌分類子モデルを構築するための変数の適切な組み合わせを選択した。ROC曲線およびAUC値を使用して、癌予測のための様々な機械学習方法の性能を評価した。これらの結果を以下の表1に提供する。
【0138】
【0139】
多数のバイオマーカーを統合した全ての様々な機械学習方法のAUC値は、以前に公開されたように、個々のバイオマーカーAUC値を上回った(Wen YH,Chang PY,Hsu CM,Wang HY,Chiu CT,Lu JJ.(2015)Cancer screening through a multi-analyte serum biomarker panel during health check-up examinations:Results from a 12-year experience.Clinica chimica acta, International Journal of Clinical Chemistry 450:273-6;Wang HY,Hsieh CH,Wen CN,Wen YH,Chen CH,Lu JJ(2016) Cancer Screening in an Asymptomatic Population by Using Multiple Tumour Markers.PLoS ONE 11(6))。これを、個々のバイオマーカーについての単一閾値法と、同じデータセットを有する本発明の分類子モデルと比較してさらに検証した。実施例4および5を参照されたい。
【0140】
男性の個体については、6つ全てのバイオマーカー(AFP、CEA、CA19-9、CYFRA21-1、PSA、およびSCC)および年齢を組み合わせたSVM(SMO、ポリカーネル、正規化なし)モデルで、最も高いユーデン指数(0.631)が達成された(表1)。しかしながら、同じ変数である、6つのバイオマーカーおよび年齢を組み込んだリッジロジスティック回帰モデルでは、最も高いAUCが達成された(表1)。
【0141】
任意の1つのマーカーを除外することで、ユーデン指数またはAUCのいずれかのSMOモデルに対する負の影響を最小限に抑えることができた(表2)。リッジロジスティック回帰モデルにおいても同様の傾向が観察されたが、SCCバイオマーカーの省略はLRモデルの性能に影響を与えなかった(表3)。
【0142】
【0143】
【0144】
上記の結果に基づいて、5つの腫瘍マーカー(SCCを含まない)および年齢を含むロジスティック回帰モデルは、SMOモデル(6つのバイオマーカーおよび年齢)をわずかに上回り、わずかに高いAUC(0.875)と同様のユーデン指数(0.628)が得られた。
図1および表4を参照されたい。
【0145】
【0146】
女性コホートについて上記と同じ分析を行った。しかしながら、機械学習SVMモデルの感度および特異度は、男性モデルのものほど高くなかった。また、女性のための最適なMLモデル(投票(LibSVM、LR、NBC))の性能は、単一閾値法(それぞれ、ユーデン指数0.244対0.028)よりも大幅に改善された。
【0147】
MLモデルは、定期的なレビューと再定義が可能である。米国コホートおよびアジアコホートを組み合わせてより大きなデータセットを使用することで、追加のデータを活用し、臨床学的因子の予測因子の数を拡大することによって、汎癌モデルの精度を女性に対してさらに改善することができる。また、理論に束縛されることを望むことなく、女性のためのモデルが、妊娠または月経周期中などのホルモンの変動を任意選択的に考慮して、性能をさらに改善し得ることも可能である。
【0148】
女性または男性の個体については、開発された汎癌モデルを、年齢および性別と共に測定されたバイオマーカーのパネルに適用して、個体が癌を発症するリスクがある可能性を決定することができる。特定の実施形態では、癌を発症する期間は、数ヶ月、例えば3ヶ月以内、および最大約2年である。特定の実施形態では、個体が癌を発症するリスクにある「可能性」は、検査を受けた個体が数ヶ月~約2年以内に癌を発症するというバックグラウンドを超える確率である。例えば、個体は、癌を発症する確率がベースラインの5倍である「中程度のリスク」として分類される場合があり、ベースラインは、一般集団において約1%である。換言すると、「中程度のリスク」に分類される被検個体の可能性は、同じ期間にわたって癌を発症する1%のリスクを有する「低リスク」個体と比較して5%の癌を発症するリスクを有する。
【0149】
したがって、「中程度のリスク」または「高リスク」として特定された個体は、次いで、癌を有するリスクが増加した患者の臓器系に基づく悪性腫瘍を予測するためのさらなる分析のために選択され得る。特定の実施形態では、表5の選択されたモデルを使用して、0.5(50%)を超える確率を有する個体を「中程度のリスク」または「高リスク」として分類した。確率値が0.5(50%)を下回る個体を「低リスク」に分類した。選択されたモデルの性能は、感度値0.82および特異度値0.81を有した。
【0150】
特定の実施形態では、無症候性患者について癌を有するリスクの増加を予測するための方法であって、患者からの試料中のバイオマーカーのパネルの値を測定する工程と、年齢および性別を含む、患者から臨床パラメータを取得する工程と、機械学習システムによって生成された分類子を利用して、患者を、癌を有するかまたは癌を発症する低リスク、中程度のリスクまたは高リスクカテゴリに分類する工程であって、分類子が、確率値を提供し、0.5以上の確率を有する個体が中程度のリスクまたは高リスクとして分類され、分類子が、複数の患者記録から少なくとも6つのバイオマーカーのパネル、年齢、性別および診断指標を使用して生成され、分類子が、少なくとも0.8の感度値および少なくとも0.8の特異度値の受信者動作特性(ROC)曲線に基づく性能を有する、分類する工程と、診断検査のためにユーザに通知を提供する工程と、を含む方法が提供される。
【0151】
実施形態では、本発明の分類子モデルは、各変数および各性別について以下の重要因子を含む。
【0152】
【0153】
【0154】
実施例1B:無症候性患者を癌発症患者として分類するためのマルチマーカーモデルの改善:モデルに臨床学的因子「年齢」を含める。
無症候性患者を癌を有するか、または癌を発症するかについて分類するための改善されたマルチマーカーモデルが本明細書で開示される。測定されたバイオマーカーのパネルのみを使用する上記分類子モデルは、男性コホートに対する受信者動作特性(ROC)曲線の性能が非常に低く、感度値が0.515、特異度値が0.851であったことが以前に公開された。女性コホートは、感度値0.345および特異度値0.880を有するROC曲線のより低い性能を有した。Wang H.Y.,Hsieh C.H.,Wen C.N.,Wen Y.H.,Chen C.H.and Lu J.J.,“Cancers Screening in an Asymptomatic Population by Using Multiple Tumour Markers”PLoS One,June 29,2016の表7および8を参照されたい。換言すると、測定された血清バイオマーカーのみを使用する以前の分類子モデルは、特異度値が少なくとも0.8の患者の癌のリスクを除外するために許容された。しかしながら、以前の分類子モデルは、癌の予測に関しては男性に関しては50%にすぎず、女性に関してはさらに50%より劣った。当該モデルの性能は、分類子モデルが、生検または放射線撮影スクリーニングなどの他の診断手段と比較して、癌を有するリスクまたは癌を発症するリスクのある無症候性患者を特定する必要がある臨床環境では使用不可能である。以前に公開されたように、測定された血清バイオマーカーのみを使用する分類子モデルでは、125~200人の男性に1人が助けられたのに対し、4~7人に1人が害を受け(誤診断)、また、200~333人の女性に1人が助けられたのに対し、3~8人の女性に1人が害を受けた。
【0155】
出願人らは、驚くべきことに、年齢を変数として分類子モデルに含めることにより、分類子モデルの性能が著しく向上することを見出した。実施例1に開示されるように、年齢は、測定された血清バイオマーカーAFP、CEA、CA19-9、CYFRA21-1およびSCCと共に、男性のPSA、ならびに女性のCA15-3およびCA125と共に、本発明の分類子モデルに使用された。表1は、6つ全てのバイオマーカー(AFP、CEA、CA19-9、CYFRA21-1、PSA、およびSCC)および年齢を含む様々なモデルの比較を示しており、分類子モデル性能は、(ROC曲線の)感度値が少なくとも0.8、特異度値が少なくとも0.8で有意に増加した。
【0156】
実施例2:汎癌検査に基づく「高リスク」および「中程度のリスク」カテゴリの個体に対する臓器系に基づく悪性腫瘍予測モデルの開発
実施例1に特定されたように癌を有するリスクが増加した患者のために臓器系に基づく悪性腫瘍を予測するための技術が本明細書で提供される。当該情報は、より侵襲的な診断検査のために患者を専門医に紹介するために使用され得る。
【0157】
癌対象のコホート全体(n=186)および同じ6つのバイオマーカー測定値(または女性個体の場合は5つ)を年齢および性別と共に用いて、パターン認識アルゴリズム、ならびに1個抜き評価方法を用いたk近傍法(kNN)を含むモデルを適用し、各試料について上位1、2、3、4、5、6、7、8、9、または10個の癌を予測した。精度は、表5に報告されており、上位N個(表5のN=10)の予測癌において見出された各癌種の症例の割合を反映している。明らかに、予測の精度は、癌種と、データセットに見出された癌種の症例数の両方に基づいて異なっている。
【0158】
【0159】
そのため、患者を紹介すべき専門医を提案することを考慮して、臓器系に基づいて癌をより広く分類することが決定された。同様の分析を行い、全体的な結果を
図2に示す。最も影響を受ける可能性の高い上位3つの臓器系が報告されると、感度と特異度がバランスよく達成される。精度/感度は、データセットにおける所与の癌種の全体的な症例数(すなわち、消化器系(GI)癌および泌尿器系(GU)癌対皮膚癌)、ならびにバイオマーカーの性質(例えば、PSAは、前立腺およびしたがってGUに特異的である)の両方を最もよく反映する。
【0160】
【0161】
パターン認識アルゴリズムであるk近傍系法(kNN)を含む選択されたモデルを使用して、「中程度のリスク」または「高リスク」分類群において癌を発症する可能性が最も高い上位3つの臓器を決定した場合、検査の性能は81%の感度値を有し、特異度値は72%であった。
【0162】
特定の実施形態では、癌を有するリスクが増加した患者の臓器系に基づく悪性腫瘍を予測するための方法であって、患者からの試料中のバイオマーカーのパネルの値を測定する工程と、年齢および性別を含む、患者から臨床パラメータを取得する工程と、機械学習システムを利用して、癌を有するリスクまたは癌を発症するリスクが増加した患者を適切なカテゴリに分類し、当該患者のための少なくとも1つの最も可能性の高い臓器系悪性腫瘍を特定する工程であって、分類子が、クラス所属を提供し、分類子が、複数の患者記録からの少なくとも6つのバイオマーカーのパネル、年齢、性別および診断指標を使用して生成され、分類子が、少なくとも0.8の感度値および少なくとも0.7の特異度値の受信者動作特性(ROC)曲線に基づく性能を有する、特定する工程と、診断検査のためにユーザに通知する工程と、を含む方法が提供される。
【0163】
実施例3:二段階モデルを使用した癌を発症する可能性のある患者のスクリーニングと、癌に関与する可能性の高い臓器の予測
癌を有するリスクが増加した患者の臓器系に基づく悪性腫瘍を予測するための方法が、本明細書で提供され、実施例1のコホートから訓練されたモデルが、測定されたバイオマーカーのパネル、ならびに年齢および性別の臨床学的因子に適用され、癌を有するリスクまたは癌を発症するリスクが増加した患者を特定する。すなわち汎癌検査である。次に、中程度のリスクまたは高リスクに分類される癌を有するリスクまたは癌を発症するリスクが増加した可能性がある0.5(50%)の患者について、実施例2のコホートを使用して訓練されたモデルを、測定されたバイオマーカーのパネル、ならびに年齢および性別の臨床学的因子に適用して、癌に関与する可能性が最も高いクラス所属(例えば、臓器系(または上位2つもしくは3つの臓器系))を提供する。すなわち臓器系に基づく悪性腫瘍検査である。
【0164】
実施例2に開示されるように、訓練されたモデルは、上位3つの臓器系を予測する。モデルの出力は、1つの臓器系(上位3つの臓器系は全て同じである)、2つの臓器系(上位3つの臓器系のうちの2つは同じである)、または3つの臓器系(モデルによって予測される上位3つの臓器系は全て異なる)におけるクラス所属を提供し得る。各クラス内の臓器系(クラス所属)および代表的な癌の種類のリストについては、表6を参照されたい。
【0165】
本実施例では、8人の無症候性患者(5人の男性および3人の女性)を、まず実施例1による汎癌検査を用いてスクリーニングし、次に、実施例2による臓器系に基づく悪性腫瘍検査を用いて、中程度のリスクまたは高リスクに分類される患者をさらにスクリーニングした。
【0166】
8つの血清バイオマーカーからなるパネルを測定したが、PSAは女性患者では測定されず、CA125および/またはCA15-3は男性患者では測定されなかった。以下の表7を参照されたい。各患者について、以下の情報が得られた。
一般情報(年齢、性別、身長、体重、人種、民族、現在の健康状態、フィットネスレベル)
健康歴(高血圧、糖尿病、慢性膵炎、大腸ポリープ、クローン病、潰瘍性大腸炎、COPD、慢性気管支炎、肺気腫など))
喫煙歴(喫煙箱数・年数、喫煙期間、禁煙年齢)
アルコール使用量(1週間あたりの摂取量、期間)
女性専用:出産および授乳情報、月経状況、避妊薬の履歴、BRCA1、BRCA2、または他の高リスク遺伝子変異(例えば、TP53、PALB2、CDH1、もしくはATM)
癌スクリーニング履歴(結腸内視鏡検査、S状結腸鏡検査、マンモグラフィ、肺癌のX線またはCTスキャン、PAP/HPV検査)
癌家族歴(いずれかの癌と診断された近親者)
【0167】
確率値を提供するために使用されるロジスティック回帰アルゴリズムへの入力のための変数として使用される測定された血清バイオマーカー、年齢および性別の表については、
図3を参照されたい。確率値は0~1の範囲であり、低リスク、中程度のリスク、高リスクのカテゴリを作成するために使用される確率範囲は、男性患者と女性患者では異なっていた。汎癌検査モデルの現在の適用の反復は、男性患者の各カテゴリの以下の確率範囲を提供する。
低リスク;0~0.57
中程度のリスク;0.58~0.79
高リスク;0.8~1
【0168】
低リスクに分類される確率値を有する男性患者については、その範囲の確率値を有する個体の1%未満が癌を有する可能性が高いことを意味する。そのリスクレベルは、一般的な不均質集団と変わらない。言い換えれば、低リスクカテゴリは、ベースラインと比較して男性患者のリスクの増加を表すものではない。中程度のリスクに分類される確率値を有する男性患者については、その範囲の確率値を有する100人のうちのおよそ5人が、バイオマーカーを測定してから1年以内に癌と診断されたことを意味する。そのリスクレベルは、1年以内に癌を患っているか発症しているかのおよそ5%、つまり低リスクカテゴリと比較して5倍の増加である。高リスクに分類される確率値を有する男性患者については、その範囲の確率値を有する100人のうちのおよそ10人が、それらのバイオマーカーを測定してから1年以内に癌と診断されたことを意味する。そのリスクレベルは、1年以内に癌を患っているか発症しているかのおよそ10%、つまり低リスクカテゴリと比較して10倍の増加である。
【0169】
汎癌検査モデルの現在の適用の反復は、女性患者の各カテゴリの以下の確率範囲を提供する。
低リスク;0~0.56倍
中程度のリスク;0.57~0.79
高リスク;0.8~1
【0170】
低リスクに分類される確率値を有する女性患者については、その範囲の確率値を有する個体の1%未満が癌を有する可能性が高いことを意味する。そのリスクレベルは、一般的な不均質集団と変わらない。言い換えれば、低リスクカテゴリは、ベースラインと比較して女性患者のリスクの増加を表すものではない。中程度のリスクに分類される確率値を有する女性患者については、その範囲の確率値を有する100人のうちのおよそ2人が、バイオマーカーを測定してから1年以内に癌と診断されたことを意味する。そのリスクレベルは、1年以内に癌を患っているか発症しているかのおよそ2%、つまり低リスクカテゴリと比較して2倍の増加である。高リスクに分類される確率値を有する女性患者については、その範囲の確率値を有する100人のうちのおよそ8人が、それらのバイオマーカーを測定してから1年以内に癌と診断されたことを意味する。そのリスクレベルは、1年以内に癌を患っているか発症しているかのおよそ8%、つまり低リスクカテゴリと比較して8倍の増加である。
【0171】
現在のモデルとバイオマーカー測定の適用による男女間のリスクの増加の不一致の説明として考えられるのは、女性の診断された癌の最大40%が乳癌であり、現在のところ、乳癌の存在と相関する良好な血液バイオマーカーは存在しないことである。
【0172】
図3の患者のリスクカテゴリ分類に基づいて、実施例2の訓練されたパターン認識モデルを、高リスクおよび中程度のリスクの男性患者および高リスク女性患者に適用した。
図3のこれらの同じ変数を、臓器系に基づく悪性腫瘍検査モデルの入力として使用した。出力は、癌の種類のグループを表す臓器系のクラス所属であり、放射線撮影または侵襲的診断検査を含み得るフォローアップ診療のための専門医を提案するために使用することができる。
【0173】
臓器系に基づく悪性腫瘍検査モデルの適用により、以下の結果が得られた:
【0174】
【0175】
実施形態では、癌を有するリスクが増加した患者の臓器系に基づく悪性腫瘍を予測するための方法であって、方法が、2段階の機械学習プロセスを利用し、第1の機械学習モデルが、測定された血清バイオマーカーおよび年齢を入力変数として使用して適用され、性別が、測定されたバイオマーカーを選択し、分類子を訓練するために使用され、患者を低リスク(リスク増加なし)または中程度のリスクまたは高リスクとして分類するために使用され、後者の2つのカテゴリが、ベースライン(低リスク)と比較して1年以内に癌を有するリスクまたは癌を発症するリスクの増加を表す方法が提供される。中程度のリスクまたは高リスクに分類される患者については、測定されたバイオマーカー、年齢、および性別を入力変数として使用して第2の機械学習分類子が適用され、いくつかの異なる癌種を表す臓器系のクラス所属を提供する。
【0176】
特定の実施形態において、癌を有するリスクが増加した患者の臓器系に基づく悪性腫瘍を予測するための方法であって、a)患者からの試料中のバイオマーカーのパネルの値を測定する工程と、b)年齢および性別を含む、患者から臨床パラメータを取得する工程と、c)機械学習システムによって生成された第1の分類子を利用して、患者を、癌を有するかまたは癌を発症する低リスク、中程度のリスク、または高リスクに分類する工程であって、分類子が、確率値を提供し、0.5以上の確率を有する個体が中程度のリスクまたは高リスクとして分類され、分類子が、複数の患者記録から少なくとも6つのバイオマーカーのパネル、年齢、性別および診断指標を使用して生成される、分類する工程と、工程c)において患者が癌を発症する中リスクまたは高リスクカテゴリに分類されるときに、機械学習システムによって生成された第2の分類子を利用して、患者のための少なくとも1つの最も可能性の高い臓器系悪性腫瘍を特定する工程であって、分類子が、クラス所属を提供し、分類子が、複数の患者記録から少なくとも6つのバイオマーカーのパネル、年齢、性別および診断指標を使用して生成される、特定する工程と、e)診断検査のためにユーザに通知を提供する工程と、を含む、方法が提供される。
【0177】
いくつかの実施形態では、機械学習システムは、1つ以上の機械学習プロセッサを含む。他の実施形態では、機械学習プロセッサは、深層学習プロセッサである。他の態様では、1つ以上の深層学習プロセッサは、訓練データを使用して1つ以上の分類子モデルを訓練する。いくつかの態様では、機械学習システムは、癌を有するか、癌を発症する可能性、クラス所属の可能性、またはその両方を予測するための1つ以上の分類子を生成する。
【0178】
いくつかの態様において、機械学習モデルは、1つ以上の分類子、1つ以上の入力、および1つ以上の分類子モデルと共に、入力の重み付けのための1つ以上の重み付け係数を含むことができる。機械学習モデルは、新しい訓練データが利用可能になるにつれて継続的に改善することができる。
【0179】
実施例4:男性分類子モデルは、癌の予測のためのバイオマーカーを測定する単一閾値法よりも優れている
本発明の男性分類子モデルが、実施例1で開発したように、同じ対象からの個々のバイオマーカーのパネルの測定よりも、1年以内の癌発症を予測するのに著しく優れていることの実証が、本明細書で提供される。従来の方法では、同じマーカーのパネルを測定しても、いずれか1つの測定されたバイオマーカーが「高い」場合に、患者が癌を発症するリスクの増加を予測するか、または患者が増加したと見なす場合があるが、本発明の方法および分類子モデルは、バイオマーカー測定値および年齢などの臨床学的因子を集約して患者の癌リスクを予測する。換言すると、臨床的に関連すると見なされる閾値を上回る任意の1つのバイオマーカーがあれば、癌を発症するリスクの増加について陽性検査を示すことになる。例えば、以下の表8は、十分に検証された腫瘍マーカーの正常範囲を提供し、所与のマーカーの正常範囲を超える測定は、癌を発症する可能性の増加を示す。実施例1に従い、実施例3で使用される本発明の男性分類子モデルは、「任意マーカー高」方法と比較して、癌を予測するための感度および特異度の著しい改善が提供されている。
図5を参照されたい。
【0180】
【0181】
本発明の男性分類子モデルは、従来の方法、例えば、任意マーカー高の方法よりも診断精度の実質的な改善を提供し、感度の改善が実証され、男性において2倍以上の癌が検出される。さらに、本発明の男性分類子モデルは、82%の感度および81%の特異度を有する非癌から癌を区別することができた。
図6を参照されたい。この図では、低リスクと中程度のリスクまたは高リスクとの間のカットオフは50、または0.5であった。リスクスコアは、0~1、または0~100で提供され得る。
【0182】
実施例5:女性分類子モデルは、癌の予測のためのバイオマーカーを測定する単一閾値法よりも優れている
本発明の女性分類子モデルが、実施例1で開発したように、同じ対象からの個々のバイオマーカーのパネルの測定よりも、1年以内の癌発症を予測するのに著しく優れているという実証が、本明細書で提供される。特に、本発明の女性分類子モデルは、個々のバイオマーカー「単一閾値」法を改善するものであり、感度は、単一閾値法と比較して4倍の増加を表す。換言すると、本発明の女性分類子モデルは、「任意マーカー高」の従来の方法と比較して、女性患者において4倍以上の癌を特定する。
図7を参照されたい。
【0183】
以下の表9は、十分に検証された腫瘍マーカーの正常範囲を提供し、所与のマーカーの正常範囲を超える測定は、従来の方法を使用して癌を発症する可能性の増加を示す。
【0184】
【0185】
本発明の女性分類子モデルは、従来の方法、例えば、任意マーカー高の方法よりも診断精度の実質的な改善を提供し、感度の改善が実証され、女性において4倍以上の癌が検出される。さらに、本発明の女性分類子モデルは、50%の感度および74%の特異度を有する非癌から癌を区別することができた。
図8を参照されたい。この図では、低リスクと中程度のリスクまたは高リスクとの間のカットオフは50、または0.5であった。リスクスコアは、100人の患者(スコア(アルゴリズムを開発するために使用される集団内)がこれらのバイオマーカーを検査してから1年以内に癌と診断された患者)のうち0~1人、または0~100人、またはX人から提供されてもよい。実施形態では、不均質集団は、100分の1の癌発症率を有し、100分の1の任意のリスクスコアは、正常リスクと見なされるか、またはリスク増加と見なされない。さらなる実施形態において、100分の2のリスクスコア、または大きなリスクスコアは、患者をリスク増加カテゴリに分類する。
【0186】
実施例6:全ての測定されたバイオマーカーが正常範囲内にある場合、癌を発症する可能性について患者をスクリーニングし、癌を発症するリスクが増加している患者を特定する
無症候性患者の癌を有するリスクまたは癌を発症するリスクの増加を予測するための方法が、本明細書で提供され、実施例1のコホートから訓練されたモデルが、測定されたバイオマーカーのパネル、ならびに年齢および性別の臨床学的因子に適用され、癌を有するリスクまたは癌を発症するリスクが増加した患者を特定する。すなわち汎癌検査である。実施形態では、当該方法および本発明の分類子モデルは、正常臨床範囲内にある測定されたバイオマーカーの入力変数を使用するものであり、汎癌分類子モデルは、第1の分類子モデルの出力が閾値を超えるときに、年齢の入力変数および患者からのバイオマーカーのパネルの測定値を使用して、患者をリスク増加カテゴリに分類する。
【0187】
本実施例では、実施例1および実施例3による汎癌検査を用いて、4人の無症候性患者(2人の男性および2人の女性)をスクリーニングした。この例では、表8のバイオマーカーを正常範囲内で測定したが、本発明の男性分類子モデルは、1%の閾値(不均質集団における癌率)を使用して、リスクカテゴリの増加した両方の患者を分類した。1人の患者(mp#1)が、100人中5人(陽性予測値)として癌を有するリスクが増加していると分類され、他方の患者(mp#2)は、100人中12人として癌を有するリスクが増加していると分類された。mp#1はその後、ステージ1の肝臓癌と診断され、mp#2はその後、ステージ1の膀胱癌と診断された。いずれの場合においても、本発明の男性分類子モデルは、通常であれば全ての腫瘍マーカーが低い場合には懸念されないような男性患者を高リスクに分類した。
【0188】
この例では、表9のバイオマーカーを正常範囲内で測定したが、本発明の女性分類子モデルは、1%の閾値(不均質集団における癌率)を使用して、リスクカテゴリの増加した両方の患者を分類した。1人の患者(fp#1)が、100人中2人(陽性予測値)として癌を有するリスクが増加していると分類され、他方の患者(fp#2)は、100人中3人として癌を有するリスクが増加していると分類された。fp#はその後、ステージ1Bの肺癌と診断され、fp#2はその後、ステージ2Bの乳癌と診断された。いずれの場合においても、本発明の女性分類子モデルは、通常であれば全ての腫瘍マーカーが低い場合には懸念されないような女性患者を高リスクに分類した。