(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-13
(54)【発明の名称】電子画像を処理して発がん性シグナルを判断するためのシステム及び方法
(51)【国際特許分類】
G16B 5/00 20190101AFI20241106BHJP
G16B 40/20 20190101ALI20241106BHJP
【FI】
G16B5/00
G16B40/20
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024529941
(86)(22)【出願日】2022-10-31
(85)【翻訳文提出日】2024-06-05
(86)【国際出願番号】 US2022078993
(87)【国際公開番号】W WO2023097141
(87)【国際公開日】2023-06-01
(32)【優先日】2021-11-23
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】518307592
【氏名又は名称】ペイジ.エーアイ インコーポレイテッド
【氏名又は名称原語表記】PAIGE.AI, Inc.
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ワン, イーカン
(72)【発明者】
【氏名】クンツ, ジェレミー
(72)【発明者】
【氏名】カナン, クリストファー
(57)【要約】
患者特有の発がん性シグナル伝達経路またはネットワークの挙動を生成及び予測するためのシステム及び方法が開示される。いくつかの態様では、患者に関連付けられた1つ以上のデジタル医用画像を受信することと、データ未入力の遺伝子ネットワークグラフ、及び1つ以上のデジタル医用画像をトレーニングされた機械学習システムへの入力として提供することであって、機械学習システムが、患者に特有の遺伝子発現レベルを有する遺伝子ネットワークグラフに1つ以上のデジタル医用画像に基づいてデータ入力するようにトレーニングされていることと、患者に特有の遺伝子発現レベルがデータ入力された遺伝子ネットワークグラフをトレーニングされた機械学習システムからの出力として受信することと、によって、患者特有の発がん性シグナル伝達経路またはネットワークが生成され得る。
【選択図】
図1A
【特許請求の範囲】
【請求項1】
患者に関連する1つ以上のデジタル医用画像を受信することと、
前記1つ以上のデジタル医用画像に基づいて患者に特有の遺伝子発現レベルを遺伝子ネットワークグラフにデータ入力するようにトレーニングされた、トレーニングされた機械学習システムへの入力としてデータ未入力の遺伝子ネットワークグラフ及び前記1つ以上のデジタル医用画像を提供することと、
前記トレーニングされた機械学習システムからの出力として、前記患者に特有の前記遺伝子発現レベルでデータ入力された前記遺伝子ネットワークグラフを受信することと、
を含む、デジタル医用画像を処理して遺伝子ネットワークグラフにデータ入力する方法。
【請求項2】
前記患者に関連する臨床データを受信することと、
前記トレーニングされた機械学習システムへの追加入力として前記臨床データを提供することと、
をさらに含む、請求項1に記載の方法。
【請求項3】
前記デジタル医用画像が、デジタル全スライド画像、デジタル多重免疫蛍光画像、またはデジタル多重免疫組織化学画像を含む、請求項1に記載の方法。
【請求項4】
前記機械学習システムが、
トレーニングデータとして、複数の患者に関連付けられた複数のデジタル医用画像、及び前記複数の患者についてデータ入力された遺伝子ネットワークグラフを受信することと、
前記トレーニングデータを使用して前記機械学習システムをトレーニングすることであって、前記それぞれの1つ以上のデジタル医用画像に基づいて、前記データ入力された遺伝子ネットワークグラフのうちの1つまたは複数を推論する、前記トレーニングすることと、
によってトレーニングされる、請求項1に記載の方法。
【請求項5】
前記トレーニングデータが、複数の患者に関連付けられた臨床データをさらに含み、前記臨床データが、年齢、病歴、がん治療歴、家族歴、過去の生検または細胞診情報、腫瘍配列情報、mRNA発現レベルのうちの1つ以上を含む、請求項4に記載の方法。
【請求項6】
前記複数の患者の前記遺伝子ネットワークグラフが、
データ未入力の遺伝子ネットワークグラフを受信することであって、前記データ未入力の遺伝子ネットワークグラフが、発現レベルを有さない遺伝子ネットワークグラフを含む、前記受信することと、
前記複数の患者に関連付けられた腫瘍配列情報を受信することと、
前記それぞれの腫瘍配列情報に基づいて、前記複数の患者の発現レベルを有する前記遺伝子ネットワークグラフにデータ入力することと、
によってデータ入力されている、請求項4に記載の方法。
【請求項7】
前記複数の患者の前記遺伝子ネットワークグラフの前記データ入力が、
前記データ入力された遺伝子ネットワークグラフの前記それぞれに発現レベルの欠損値があるかどうかを判断することと、
前記データ入力された遺伝子ネットワークグラフの1つ以上に欠損値があると判断すると、前記欠損値を推測するために1つ以上のラベル伝播技術を使用することと、
を含む、請求項6に記載の方法。
【請求項8】
前記1つ以上のラベル伝播技術が、有向ラベル伝播を含む、請求項7に記載の方法。
【請求項9】
機械学習システムをトレーニングして遺伝子ネットワークグラフにデータ入力する方法であって、
データ未入力の遺伝子ネットワークグラフを受信することであって、前記データ未入力の遺伝子ネットワークグラフが、発現レベルを有さない遺伝子ネットワークグラフを含む、前記受信することと、
複数の患者のそれぞれに関連付けられた腫瘍配列情報を受信することと、
前記複数の患者のそれぞれに関連付けられた1つ以上のデジタル医用画像を受信することと、
前記遺伝子ネットワークグラフが前記それぞれの腫瘍配列情報に基づく発現レベルを含むように、前記複数の患者のそれぞれについてデータ入力することと、
前記それぞれの1つ以上のデジタル医用画像に基づいて、前記データ入力された遺伝子ネットワークグラフの1つ以上を推論するように前記機械学習システムをトレーニングすることと、
を含む、前記方法。
【請求項10】
前記デジタル医用画像が、デジタル全スライド画像、デジタル多重免疫蛍光画像、またはデジタル多重免疫組織化学画像を含む、請求項9に記載の方法。
【請求項11】
各データ入力された遺伝子ネットワークグラフについて、前記遺伝子ネットワークグラフ内の発現レベルの欠損値があるかどうかを判断することと、
欠損値があると判断すると、前記欠損値を推測するために1つ以上のラベル伝播技術を使用することと、
をさらに含む、請求項9に記載の方法。
【請求項12】
前記1つ以上のラベル伝播技術が、有向ラベル伝播を含む、請求項11に記載の方法。
【請求項13】
前記複数の患者のそれぞれに関連付けられた臨床データを受信することをさらに含み、前記機械学習システムが、前記それぞれの臨床データに基づいて前記1つ以上のデータ入力された遺伝子ネットワークグラフを推論するようにさらにトレーニングされ、前記臨床データが、年齢、病歴、がん治療歴、家族歴、過去の生検または細胞診情報、腫瘍配列情報、mRNA発現レベル、またはそれらの組み合わせをさらに含む、請求項9に記載の方法。
【請求項14】
デジタル医用画像を処理して遺伝子ネットワークグラフにデータ入力するためのシステムであって、
命令を格納する少なくとも1つのメモリと、
前記命令を実行して動作を実行するように構成された少なくとも1つのプロセッサと、を含み、
前記動作が、
患者に関連する1つ以上のデジタル医用画像を受信することと、
前記1つ以上のデジタル医用画像に基づいて患者に特有の遺伝子発現レベルを遺伝子ネットワークグラフにデータ入力するようにトレーニングされた、トレーニングされた機械学習システムへの入力としてデータ未入力の遺伝子ネットワークグラフ及び前記1つ以上のデジタル医用画像を提供することと、
前記トレーニングされた機械学習システムからの出力として、前記患者に特有の前記遺伝子発現レベルでデータ入力された前記遺伝子ネットワークグラフを受信することと、
を含む、前記システム。
【請求項15】
前記患者に関連する臨床データを受信することと、
前記トレーニングされた機械学習システムへの追加入力として前記臨床データを提供することと、
をさらに含む、請求項14に記載のシステム。
【請求項16】
前記デジタル医用画像が、デジタル全スライド画像、デジタル多重免疫蛍光画像、またはデジタル多重免疫組織化学画像を含む、請求項14に記載のシステム。
【請求項17】
前記機械学習システムが、
トレーニングデータとして、複数の患者に関連付けられた複数のデジタル医用画像、及び前記複数の患者についてデータ入力された遺伝子ネットワークグラフを受信することと、
前記トレーニングデータを使用して前記機械学習システムをトレーニングすることであって、前記それぞれの1つ以上のデジタル医用画像に基づいて、前記データ入力された遺伝子ネットワークグラフのうちの1つまたは複数を推論する、前記トレーニングすることと、
によってトレーニングされる、請求項14に記載のシステム。
【請求項18】
前記トレーニングデータが、複数の患者に関連付けられた臨床データをさらに含み、前記臨床データが、年齢、病歴、がん治療歴、家族歴、過去の生検または細胞診情報、腫瘍配列情報、mRNA発現レベルのうちの1つ以上を含む、請求項17に記載の方法。
【請求項19】
前記複数の患者の前記遺伝子ネットワークグラフの前記データ入力が、
前記データ入力された遺伝子ネットワークグラフの前記それぞれに発現レベルの欠損値があるかどうかを判断することと、
前記データ入力された遺伝子ネットワークグラフの1つ以上に欠損値があると判断すると、前記欠損値を推測するために1つ以上のラベル伝播技術を使用することと、
を含む、請求項18に記載の方法。
【請求項20】
前記1つ以上のラベル伝播技術が、有向ラベル伝播を含む、請求項19に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年11月23日に出願された米国特許出願第63/264,465号の利益を主張し、その内容が参照により本明細書に組み込まれている。
【0002】
本開示の様々な技術は、一般に、発がん性シグナル伝達経路解析に関する。より具体的には、本開示の特定の技術は、患者特有の発がん性シグナル伝達経路またはネットワークの挙動を生成および予測するためのシステムおよび方法に関する。
【背景技術】
【0003】
シグナル伝達経路はまた、生化学カスケードとも呼ばれ、刺激によって開始されたときに生体細胞内で生じる一連の化学反応である。例えば、特定の癌のシグナル伝達経路は、1つ以上の変異遺伝子、及びその遺伝子によって生成される異常な分子を含み得る。一般に、シグナル伝達経路は、遺伝子ネットワークグラフを使用して表現される。遺伝子ネットワークグラフは、シグナル伝達経路をグラフで示すために、発現レベルが付加された遺伝子を表すノードを含み得る。遺伝子ネットワークグラフは、がんの特徴である細胞周期の進行、アポトーシス、細胞増殖を制御するシグナル伝達経路の遺伝子変化を示すために使用され得る。遺伝子シグナル伝達経路における実行可能な変化の特定は、がん治療のための標的療法と併用療法の機会を示唆している。
【0004】
本明細書において提供される背景説明は、本開示の内容を一般的に示すことを目的としている。本明細書に別段の指示がない限り、本項に記載の資料は、本出願の特許請求の範囲に対する先行技術ではなく、本項に含めることよって先行技術または先行技術の示唆であるとは認められない。
【発明の概要】
【課題を解決するための手段】
【0005】
本開示の特定の態様によれば、患者特有の発がん性シグナル伝達経路またはネットワークの挙動を生成及び予測するための方法及びシステムが開示されている。本明細書の開示の態様の各々は、他の開示された態様のいずれかと関連して説明される特徴のうち1つ以上を含み得る。
【0006】
本開示の一例によれば、デジタル医用画像を処理して遺伝子ネットワークグラフ、または遺伝子ネットワークグラフのデータ表現にデータ入力する方法が説明され得る。例示的な方法は、患者に関連付けられた1つ以上のデジタル医用画像を受信することと、データ未入力の遺伝子ネットワークグラフ、及び1つ以上のデジタル医用画像をトレーニングされた機械学習システムへの入力として提供することであって、機械学習システムが、患者に特有の遺伝子発現レベルを有する遺伝子ネットワークグラフに1つ以上のデジタル医用画像に基づいてデータ入力するようにトレーニングされていることと、患者に特有の遺伝子発現レベルがデータ入力された遺伝子ネットワークグラフをトレーニングされた機械学習システムからの出力として受信することと、を含み得る。
【0007】
本開示の別の例によれば、遺伝子ネットワークグラフにデータ入力するために機械学習システムをトレーニングするための方法が説明され得る。例示的な方法は、発現レベルを含まない遺伝子ネットワークグラフを含むデータ未入力の遺伝子ネットワークグラフを受信することと、複数の患者のそれぞれに関連付けられた腫瘍配列情報を受信することと、複数の患者のそれぞれに関連付けられた1つ以上のデジタル医用画像を受信することと、複数の患者のそれぞれについて、それぞれの腫瘍配列情報に基づく発現レベルを含むように遺伝子ネットワークグラフにデータ入力することと、それぞれの1つ以上のデジタル医用画像に基づいて、データ入力された遺伝子ネットワークグラフのうちの1つ以上を推論するように機械学習システムをトレーニングすることと、を含み得る。
【0008】
本開示のさらなる例によれば、デジタル医用画像を処理して遺伝子ネットワークグラフにデータ入力するためのシステムが説明され得る。例示的なシステムは、命令を格納する少なくとも1つのメモリと、命令を実行して動作を実行するように構成された少なくとも1つのプロセッサとを含み得る。動作は、患者に関連付けられた1つ以上のデジタル医用画像を受信することと、データ未入力の遺伝子ネットワークグラフ、及び1つ以上のデジタル医用画像をトレーニングされた機械学習システムへの入力として提供することであって、機械学習システムが、患者に特有の遺伝子発現レベルを有する遺伝子ネットワークグラフに1つ以上のデジタル医用画像に基づいてデータ入力するようにトレーニングされている、提供することと、患者に特有の遺伝子発現レベルがデータ入力された遺伝子ネットワークグラフをトレーニングされた機械学習システムからの出力として受信することと、を含み得る。
【0009】
前述の一般的な説明と以下の詳細な説明はいずれも例示的かつ説明的なものに過ぎず、特許請求される開示された実施形態を限定するものではないことが理解される。
【0010】
本明細書に組み込まれ、その一部を構成する添付図面は、様々な例示的な技術を示し、その説明とともに、開示された技術の原理を説明する働きをする。
【図面の簡単な説明】
【0011】
【
図1A】1つ以上の技術による、遺伝子ネットワークグラフにデータ入力し、変化予測をするための例示的なシステムのブロック図を示す。
【0012】
【
図1B】1つ以上の技術による、遺伝子ネットワークグラフにデータ入力するための例示的なシステムのブロック図を示す。
【0013】
【
図1C】1つ以上の技術による、遺伝子ネットワークグラフの変化予測をするための例示的なシステムのブロック図を示す。
【0014】
【
図1D】1つ以上の技術による、例示的な遺伝子ネットワークグラフを示す。
【0015】
【
図2】1つ以上の技術による、遺伝子ネットワークグラフにデータ入力するための例示的なシステムの概略図を示す。
【0016】
【
図3】1つ以上の技術による、遺伝子ネットワークグラフへの変化を予測するための例示的なシステムの概略図を示す。
【0017】
【
図4】1つ以上の技術による、遺伝子ネットワークグラフを生成し、遺伝子ネットワークグラフへの変化を予測するための例示的なプロセスのフロー図を示す。
【0018】
【
図5】1つ以上の技術による、遺伝子ネットワークグラフにデータ入力するための例示的な方法のフローチャートを示す。
【0019】
【
図6】1つ以上の技術による、グラフ生成システムの機械学習モデルをトレーニングするための例示的な方法を示す。
【0020】
【
図7】1つ以上の技術による、遺伝子ネットワークグラフの変化を予測するための例示的な方法のフローチャートを示す。
【0021】
【
図8】1つ以上の技術による、グラフ予測システムのための機械学習モデルをトレーニングするための例示的な方法を示す。
【0022】
【
図9】1つ以上の技術による、本明細書で提示される技術を実行することができる例示的なシステムまたはデバイスを示す。
【発明を実施するための形態】
【0023】
ここで本開示の例示的な技術を詳細に参照すると、その実施例が添付の図面に示されている。可能な限り、同一の参照番号が、図面全体を通して同一または類似の部品を参照するために使用されている。
【0024】
本明細書に開示されるシステム、デバイス、及び方法は、例として、図面を参照して詳細に説明される。本明細書で説明される例は、単なる例であり、本明細書に記載される装置、デバイス、システム、及び方法の説明を助けるために提供される。図面に示されている、または以下で説明されている機能やコンポーネントはいずれも、特に必須として指定されていない限り、これらのデバイス、システム、または方法の特定の実施態様にとって必須であるとみなされるべきではない。
【0025】
また、説明されるすべての方法について、その方法が、フロー図と関連付けて説明されているかどうかに関係なく、別段の指定がない限り、または文脈によって要求されない限り、方法の実行で行われるステップの明示的または暗黙的な順序付けは、これらのステップが提示された順序で実行する必要があるが、別の順序で実行したり、並行して実行したりできることを意味することを理解されたい。
【0026】
本明細書で使用される「例示的な」という用語は、「理想的」というよりはむしろ「例」という意味で使用されている。さらに、本明細書における用語「a」及び「an」は、数量の限定を意味するものではなく、むしろ、言及された品目の1つ以上の存在を意味する。
【0027】
本明細書で使用される「遺伝子発現」という用語は、遺伝子からの情報が、遺伝子がタンパク質や非コードRNAなどの最終産物を生成できるようにし、最終的には最終的な効果として表現型に影響を与える、機能的な遺伝子産物の合成に使用されるプロセスを指す。遺伝子発現の制御とは、遺伝子の機能産物の出現の量とタイミングを制御することである。発現を制御することで、細胞が必要なときに必要な遺伝子産物を細胞が産生できるようになり、その結果、変化する環境、外部信号、細胞への損傷、及び/またはその他の刺激に適応する柔軟性が細胞に与えられる。遺伝子(または遺伝子学の)制御ネットワーク(GRN)は、互いに、及び細胞内の他の物質と相互作用して、mRNAやタンパク質の遺伝子発現レベルを制御し、ひいては細胞の機能を決定する分子制御因子の集合である。
【0028】
本明細書で使用される場合、「遺伝子ネットワークシグナリンググラフ」、「遺伝子ネットワークグラフ」などの用語は、ノード及びノードを接続するエッジから構成される重み付けされ、方向付けされたグラフ、または遺伝子ネットワークグラフを表すデータ構造であり得る。各ノードは、連続的または閾値処理されて離散的であり得る発現レベルが付加された遺伝子であり得る。グラフのエッジは、遺伝学における既知の発見に基づいたシグナル伝達経路グラフを定義し得る。連続発現レベル(連続重み)は、遺伝子の活性レベルを示す。いくつかの例では、分析を簡素化するために連続重みの値が閾値処理されることができる。このような例では、閾値は、発現レベルがいつ異常であるかを判断するかを目的とした科学的研究の結果から取得され得る。本明細書で使用される場合、用語「データ入力された遺伝子ネットワークグラフ」などは、遺伝子発現レベルがデータ入力された遺伝子ネットワークグラフ、または遺伝子ネットワークグラフを表すデータ構造であり得る。本明細書で使用される場合、用語「データ未入力の遺伝子ネットワークグラフ」などは、遺伝子発現レベルのデータ入力されていない遺伝子ネットワークグラフであり得る。例えば、データ未入力の遺伝子ネットワークグラフは、遺伝子間の相互作用を示すノード及びエッジの構造、構成、またはトポロジを含み得るが、遺伝子に関連する患者固有の発現レベルは含まない。
【0029】
本明細書で使用される場合、「ドライバ突然変異」、「ドライバ遺伝子変化」、「ドライバエピジェネティック変化」などは、がんの発症を促す遺伝子突然変異を指す。ドライバ突然変異とは、がんが増殖し、体細胞などのヒト細胞に侵入することを可能にする突然変異である。
【0030】
DNAのアセチル化及び/またはメチル化の異常パターン、ヒストン翻訳後修飾のパターンの破壊、及び/またはクロマチンリモデリングなどのエピジェネティックな変化は、遺伝子変化と連携してがん表現型を生成することがある。例えば、発がんの代替的ドライバとしてのエピジェネティックな変化は、遺伝子の突然変異を生じることがあり、逆に、エピゲノムを改変する遺伝子で突然変異が頻繁に観察されることがある。(マイクロサテライトの不安定性、染色体の不安定性、プロモータの過剰メチル化など)遺伝的及び/またはエピジェネティックな経路と、患者の予後、全生存期間、及び/またはがんの標的治療に対する反応との間には関連があることがある。従って、発がん性シグナル伝達経路における遺伝子変化と可逆的なエピジェネティックな変化が、精密医療の治療選択肢を知らせるために使用され得る。
【0031】
例えば、HER2+乳がんでは、抗HER2薬のような小分子阻害剤に基づいて、開発された治療法が成功している。しかし、有毒な化学療法、及び標的療法剤に対する避けられない耐性は、がん治療において依然として課題になっている。標的薬物への反応を予測するドライバの遺伝的及びエピジェネティックな変化により、顕微鏡検査で特定可能な特定の組織学的表現型になることがある。従って、人工知能(AI)システムは、腫瘍サンプルの全スライドイメージング(WSI)で予測バイオマーカの存在を予測するために使用され得、かつ、治療の意思決定のためのスクリーニングツールとして使用され得る。しかし、このようなAIシステムを確立する際の課題の1つは、データの欠如によることがあり、特定の腫瘍タイプにおける個々の遺伝子変異の有病率の低さによることがある。
【0032】
さらに、デジタル組織学画像から個々の遺伝子の発がん性突然変異について予測するためにディープラーニングが実装されることもできるが、個々の遺伝子のみに関連する予測に依存することは、過度に単純化されることがある。腫瘍の増殖は、1つの遺伝子だけではなく、1つの遺伝子が他の遺伝子の活動に影響を与えるネットワーク内で相互作用する多数(またはすべて)の遺伝子によって管轄される。例えば、複数の遺伝子における異なる遺伝的かつエピジェネティックな変化は、同じシグナル伝達経路の混乱と収束した表現型になり得る。遺伝子変化及びエピジェネティック異常は、発がんの代替的ドライバと考えられ得るが、それらの発がん経路における変化の程度、メカニズム、及び同時発生は、異なる腫瘍の種類及び個々の腫瘍サンプルによって異なる。従って、がん表現型を促進する発がん性シグナル伝達経路の混乱の影響を明らかにするには、遺伝的、エピジェネティック、及び臨床症状の多層証拠の統合を必要とし得る。
【0033】
本明細書で議論される技術は、データタイプのなかでも、とりわけ患者の組織学的画像、患者の臨床情報、ゲノムデータ、及び/または遺伝子ネットワーク関係のデータベースに適用されるAI技術、機械学習、及び/または画像処理ツールを使用することができ、患者固有の発がん性シグナル伝達経路及びネットワーク(例えば、遺伝子ネットワークグラフ)の行動を生成及び予測する。例えば、各遺伝子の対応する活性レベル(例えば、シグナル伝達経路を表す)がデータ入力された患者固有の遺伝子ネットワークグラフを生成するシステムが確立され得る。さらに、システムは、ゲノム変異体及びエピジェネティックな変化、シグナル伝達経路、臨床症状、及び治療転帰を含む複数のソースからのデータを統合することによって、デジタル医用画像(例えば、組織学的WSI)からシグナル伝達経路レベルにおける変化を検出することができる。例えば、システムは、発がん性シグナル伝達経路または複合体の異常に関連付けられた計算及び/または学習された組織学的特徴を特定することができ、どの発がん性シグナル伝達経路が患者の腫瘍発生を促しているかを予測することができ、それが治療ターゲットとして利用されることができる。
【0034】
図1Aは、1つ以上の技術による、患者特有の発がん性シグナル伝達経路またはネットワークの挙動を生成及び予測するための例示的なシステムを示す。
図1Aに示されているものは、例えば1つ以上のコンピュータ、サーバ、及び/またはハンドヘルドモバイルデバイスを介して、医師サーバ121、病院サーバ122、臨床試験サーバ123、研究所サーバ124、及び/または研究所情報システム125に接続され得る電子ネットワーク120である。本開示の例示的な態様によれば、ネットワーク120は、サーバシステム110に接続され得、これは、例えば、グラフ生成システム101とグラフ予測システム102を実行または実施するように構成された1つ以上の処理デバイス100、及びストレージデバイス109を含み得る。グラフ生成システム101は、1つ以上のトレーニングされた機械学習システムを使用する遺伝子ネットワークグラフのデータ入力のために構成され得る。グラフ予測システム102は、本開示の例示的な態様に従って、1つ以上のトレーニングされた機械学習システムを使用して、例えば、グラフ生成システム101または別のシステムによって生成されたデータ入力された遺伝子ネットワークグラフなどの遺伝子ネットワークグラフの挙動の予測のために構成され得る。グラフ生成システム101とグラフ予測システム102が、
図1では別個のシステムとして示されているが、他の例では、グラフ生成システム101とグラフ予測システム102は、より大きなシステムのサブシステムであり得ることを理解されたい。
【0035】
医師サーバ121、病院サーバ122、臨床試験サーバ123、研究所サーバ124、及び/または研究所情報システム125は、デジタル医用画像、発現データ、ゲノム変異体、及び/または臨床データなどのデータを作成または取得することができる。例えば、デジタル医用画像は、作成もしくは取得され得る1人以上の患者の全体のスライド画像(複数可)、細胞診標本(複数可)、組織病理学標本(複数可)、細胞診標本のスライド(複数可)、組織病理学標本のスライドのデジタル画像(複数可)、またはそれらの任意の組み合わせを含むデジタル病理学画像を含み得る。追加的に、または代替的に、デジタル医用画像は、作成または取得され得るデジタル多重免疫蛍光画像、デジタル多重免疫組織化学画像、磁気共鳴画像法(MRI)、コンピュータ断層撮影法(CT)、X線、核医学画像法、または超音波を含む、他のモダリティタイプの画像を含み得る。
【0036】
発現データは、患者特有の、または非患者特有の腫瘍配列データ、タンパク質発現レベル、及び/またはノンコーディングRNA発現レベルを含み得る。発現データは、医療専門家(例えば、病理医、医師、など)及びAIシステム同様のものの両方によってトレーニング目的で利用されることができ、他のタスクの中でも発がんパターンの予測精度を向上させることができる。特定の状態や疾患を示す発現データの利用可能性が高まると、発現データ間の表現のばらつきが大きくなり、医療専門家とAIシステムの両方の学習能力が向上する。しかし、特定の腫瘍タイプにおける個々の遺伝子変異については、依然として大量の発現データが利用できないため、学習できる変動量は必然的に制限される。例えば、患者固有の腫瘍の治療は、表現型は同じだが遺伝子型が異なる別の患者と比較して、遺伝子型の差異により困難になり得る。
【0037】
ゲノムバリアントは、SWI/SNF複合体(例えば、ARID1A、ARID1B、ARID2、PBRM1、SMARCA4、及びSMARCB1)またはRTK/RAS経路(例えば、ERBB2、ERBB3、ERBB4、SOS1、HRAS、BRAF、MAP2K1、及びMAPK1)などの所与の遺伝子複合体またはシグナル伝達経路の個々の遺伝子における突然変異を含み得る。臨床データは、年齢、病歴、がん治療歴、家族歴、過去の生検または細胞診情報、腫瘍配列情報、mRNA発現レベル、遺伝子ネットワークグラフ(治療前及び/または治療後)、全生存期間データ、対応する打ち切りデータを有するプログッションフリーサバイバル、5年生存率、薬物治療転帰データ、等を含み得る。
【0038】
デジタル医用画像、発現データ、ゲノム変異体、臨床データ、及び/または他のデータは、ネットワーク120を介してデジタルまたは電子形式でサーバシステム110と医師サーバ121、病院サーバ122、臨床試験サーバ123、研究室サーバ124、及び/または研究室情報システム125との間で通信され得る。
【0039】
サーバシステム110は、例えば、医師サーバ121、病院サーバ122、臨床試験サーバ123、研究室サーバ124、及び/または研究室情報システム125のうちの少なくとも1つから受信したデジタル医用画像、発現データ、ゲノム変異体、臨床データなどのデータを格納するための1つ以上のストレージデバイス109を含むことができる。例えば、グラフ生成システム101によって生成された1つ以上のデータ入力された遺伝子ネットワークグラフは、1つ以上のデータストア、例えばストレージデバイス109内に記憶され得る。
【0040】
サーバシステム110は、ストレージデバイス109に記憶されたデジタル医用画像及び/または他の上述のデータを処理するための処理デバイス100を含み得る。サーバシステム110は、1つ以上の機械学習ツール(複数可)または機能を含むことができる。例えば、処理デバイス100は、1つ以上の技術に従って、グラフ生成システム101及び/またはグラフ予測システム102によって利用される1つ以上の機械学習システムを実行することができる。いくつかの例では、機械学習システムの出力は、以下で詳細に説明するように、他のシステムまたはプロセスでの使用のためにストレージデバイス109に記憶され得る。代替的に、または追加的に、本開示(または本開示のシステム及び方法の一部)は、ローカル処理デバイス(例えば、ラップトップ)上で実行されることができる。
【0041】
本開示の例示的な態様によれば、グラフ生成システム101は、1つ以上の機械学習システムを使用して遺伝子ネットワークグラフを作成するように構成され得る。データ入力された遺伝子ネットワークグラフは患者固有のものであり得、各遺伝子の対応する活性レベルを含み得る。本開示の例示的な態様によれば、グラフ予測システム102は、1つ以上の機械学習システムを使用して、1つ以上の治療の有無にかかわらず、データ入力された遺伝子ネットワークグラフが経時的にどのように挙動し得るかを予測するように構成され得る。この実施態様により、患者固有のデータを利用可能にすることができ、特定の治療に応じた発がん性変化を、例えば、遺伝子発現変化をより正確に予測できるようになる。
【0042】
図1Bは、本開示の例示的な態様に従って、データ入力された遺伝子ネットワークグラフを生成するための例示的なシステム(例えば、グラフ生成システム101)を示す。グラフ生成システム101は、トレーニンググラフ生成プラットフォーム131及び/またはターゲットグラフ生成プラットフォーム135を含み得る。
【0043】
トレーニンググラフ生成プラットフォーム131は、一技術によれば、実装されると、遺伝子ネットワークグラフに遺伝子発現レベル及び/または予測された腫瘍遺伝子発現レベルでデータ入力する1つ以上の機械学習モデルを生成してトレーニングするトレーニングデータの1つ以上のデータセットを生成または受信することができる。1つの技術によれば、トレーニンググラフ生成プラットフォーム131は、トレーニングデータ取り込みモジュール132、トレーニングデータ入力モジュール133、及びトレーニングデータ入力予測モデル134を含む複数のソフトウェアモジュールを含み得る。トレーニンググラフ生成プラットフォーム131によって出力されたデータ及び/または機械学習システムは、例えばストレージデバイス109に記憶されてもよく、または他のシステム、例えばターゲットグラフ生成プラットフォーム135によって使用されてもよい。
【0044】
一態様によれば、トレーニングデータ取り込みモジュール132は、データ入力された遺伝子ネットワークグラフを生成するための1つ以上の機械学習をトレーニングするために使用され得るトレーニングデータ(例えば、データ未入力の遺伝子ネットワークグラフ、発現データ、デジタル医用画像、任意選択の臨床データなど)を作成または受信し得る。トレーニングデータは、サーバシステム110、医師サーバ121、病院サーバ122、臨床試験サーバ123、研究所サーバ124、及び/または研究所情報システム125のいずれか1つまたは任意の組み合わせから受信されることができる。トレーニングデータは、実在のソース(例えば、人間、動物など)から取得することも、合成のソース(例えば、グラフィックスシミュレータ、グラフィックスレンダリングエンジン、3Dモデルなど)から取得することもできる。
【0045】
トレーニングデータデータセットは、データ未入力の遺伝子ネットワークグラフに対応する1つ以上のデータセット、発現データ(例えば、RNA発現データ)に対応する1つ以上のデータセット、腫瘍配列決定情報に対応する1つ以上のデータセット、デジタル医用画像に対応する1つ以上のデータセット、及び/または臨床データに対応する1つ以上のデータセットを含み得る。いくつかの例では、トレーニングデータのサブセットは、遺伝子ネットワークグラフ、腫瘍配列情報、発現データ、及び/または臨床データの様々なデータセット間で重複することがある。トレーニングデータセットは、デジタルストレージデバイス、例えば、ストレージデバイス109のうちの1つに記憶されることができる。
【0046】
いくつかの例では、発現データ、例えば、遺伝子発現データ及び/またはRNA発現データは、1つ以上の機械学習システムの直接出力であり得る。他の例では、1つ以上の機械学習システムの出力は、データ入力された遺伝子ネットワークグラフの生成を可能にするさらなるプロセスへの入力として使用され得る。別の例では、トレーニングWSIは、限定されるものではないが、ヘマトキシリン及びエオシン、ヘマトキシリン単独、トルイジンブルー、アルシアンブルー、ギムザ、トリクローム、抗酸菌、ニッスルなどの様々な染色で染色された、デジタル化された組織学または細胞学のスライドを含み得る。他のトレーニングデータは、本明細書で論じられるように、ゲノム変異体及び/または臨床データを含み得る。臨床データは、組織学的データ、腫瘍のサブタイプデータ、腫瘍の等級分けデータまたは病期分類データ、腫瘍のサイジングデータ、患者の人口統計データなどを含み得る。
【0047】
トレーニングデータ入力モジュール133は、少なくとも腫瘍配列決定情報に基づいて遺伝子ネットワークグラフにデータ入力することができる。データ未入力の遺伝子ネットワークグラフは、公開された研究または他の同様の情報源から得られた所与の遺伝子セットに関連付けられた相互作用データに基づいて、1つ以上のシステム、例えばトレーニングデータ入力モジュール133によって生成され得る。追加的に、または代替的に、データ未入力の遺伝子ネットワークグラフは、様々な遺伝子セットに対するデータ未入力の遺伝子ネットワークグラフのコレクションを格納する公共データベースから受信されることができる(例えば、データ未入力の遺伝子ネットワークは、サードパーティによって事前に作成され、公開データベースに格納され得、トレーニングデータ入力モジュール133への入力として提供され得る)。腫瘍配列決定情報は、サーバシステム110、医師サーバ121、病院サーバ122、臨床試験サーバ123、研究室サーバ124、研究室情報システム125、及び/またはトレーニングデータ取り込みモジュール132のいずれか1つまたはそれらの任意の組み合わせから受信されることができる。トレーニングデータ入力モジュール133は、例えば、患者固有の発現レベルがデータ入力された遺伝子ネットワークグラフを出力することができ、これは、例えば、ストレージデバイス109に記憶されることができるか、及び/またはトレーニング中にトレーニングデータ入力予測モジュール134によって利用されることができる。
【0048】
いくつかの例では、腫瘍配列情報は、遺伝子パネルから取得され得る。しかしながら、遺伝子パネルは、すべての遺伝子から発現レベルを取得することができないが、遺伝子のサブセットのみを取得することができる。従って、腫瘍配列情報は不完全であり得、遺伝子ネットワークグラフに完全にデータ入力できないことがある。このような場合、遺伝子パネルに含まれていない遺伝子は欠損値として扱われ得、例えばラベル伝播アルゴリズム(LPA)を使用して決定され得、遺伝子ネットワークグラフが完全にデータ入力されるようにする。例えば、未解析の遺伝子の発現レベルに対応する欠損値の推論は、方向付けされたLPAを使用して実行することができる。
【0049】
腫瘍配列決定情報を使用して遺伝子ネットワークグラフにデータ入力することに加えて、トレーニングデータ入力モジュール133は、患者固有の腫瘍配列データと表現型(例えば、所与の腫瘍調節遺伝子の発現と腫瘍発現)とを相関させ、及び/または腫瘍配列及び遺伝子発現データを他の配列決定データ及び発現データのデータベース(例えば、ストレージデバイス109)に加えるように構成され得る。いくつかの例では、サードパーティは、トレーニングデータ入力モジュール133の1つ以上の機械学習システムをトレーニングすることができ、トレーニングされた機械学習システム(複数可)を(例えば、ストレージデバイス109において)記憶して(例えば、ターゲットグラフ生成プラットフォーム135によって)実行するためにサーバシステム110に提供することができる。
【0050】
トレーニングデータ入力予測モジュール134は、デジタル医用画像からデータ入力された遺伝子ネットワークグラフを推論するようにトレーニングされ得る。言い換えると、トレーニングデータ入力モジュール133は、所与の腫瘍のデジタル医用画像に関連付けられた遺伝子発現データ(例えば、所与の表現型を有する腫瘍が他の遺伝子とどのように相互作用するか)に基づいて生成されたデータ入力された遺伝子ネットワークグラフを予測するように構成され得る。いくつかの例では、トレーニングデータ入力予測モジュール134は、全生存データ、対応する打ち切りデータを伴う無増悪生存期間、薬物治療転帰データなどの臨床データを使用してさらにトレーニングされ得る。トレーニングデータ入力予測モジュール134の1つ以上の機械学習システムをトレーニングするための例示的な方法については、以下で詳細に説明する。
【0051】
いくつかの例では、機械学習システムは、対応する遺伝子ネットワークグラフを学習するために、異なる組織及び/または腫瘍タイプの各々に対して生成され得る。他の例では、2つ以上の組織及び/または腫瘍タイプの遺伝子ネットワークグラフを学習できる1つの機械学習システムが生成され得る。トレーニングデータ入力予測モジュール134は、マルチモーダルディープニューラルネットワーク、グラフニューラルネットワーク、畳み込みニューラルネットワーク、トランスフォーマニューラルネットワーク、等のいずれかを介して動作するように構成された1つ以上の機械学習システムを生成することができる。
【0052】
1つの技術によれば、ターゲットグラフ生成プラットフォーム135は、ターゲットデータ取り込みモジュール136、データ入力モジュール137、及び出力インターフェース138などのソフトウェアモジュールを含むことができる。一態様によれば、ターゲットグラフ生成プラットフォーム135は、発現データの要求を受信することができ、トレーニンググラフ生成プラットフォーム131によってトレーニングされた機械学習システムのうちの1つ以上を実行することができ、1つ以上のデータ入力された遺伝子ネットワークグラフを生成する。例えば、要求は、医師サーバ121、病院サーバ122、臨床試験サーバ123、研究所サーバ124、及び/または研究所情報システム125のいずれか1つまたは任意の組み合わせから受信されることができる。別の例では、グラフ予測システム102が遺伝子ネットワークグラフを予測するためのリクエストを受信すること、及び/または患者固有のデータ未入力の遺伝子ネットワークグラフを受信することに応答して、要求はグラフ予測システム102から自動的に受信され得る。
【0053】
一態様によれば、ターゲットデータ取り込みモジュール136は、データ入力された遺伝子ネットワークグラフを生成するための1つ以上のトレーニングされた機械学習システムの入力として使用され得るターゲットデータ(例えば、画像、任意選択で臨床データなど)を作成または受信することができる。例えば、ターゲットデータ取り込みモジュール136は、1つ以上のトレーニングされた機械学習システムの入力として使用され得るデジタル医用画像を受信することができる。ターゲットデータは、サーバシステム110、医師サーバ121、病院サーバ122、臨床試験サーバ123、研究所サーバ124、及び/または研究所情報システム125のいずれか1つまたは任意の組み合わせから受信されることができる。ターゲットデータは、実在のソース(例えば、人間、動物など)から取得することも、合成のソース(例えば、グラフィックスシミュレータ、グラフィックスレンダリングエンジン、3Dモデルなど)から取得することもできる。ターゲットデータ取り込みモジュール136は、ターゲットデータ、例えば、デジタル医用画像の1つ以上のデータセットを作成または受信することができる。例えば、データセットは、デジタル医用画像に対応する1つ以上のデータセット、及び/または任意選択で、臨床データに対応する1つ以上のデータセットを含み得る。いくつかの例では、ターゲットデータのサブセットは、画像及び/または臨床データの様々なデータセット間で重複する可能性がある。ターゲットデータセットは、デジタルストレージデバイス、例えばストレージデバイス109のうちの1つに記憶されることができる。
【0054】
データ入力モジュール137は、グラフニューラルネットワーク、畳み込みニューラルネットワーク、トランスフォーマニューラルネットワークなどを含むがこれらに限定されない、任意の適切な機械学習システムを含み得る。データ入力モジュール137は、遺伝子ネットワークグラフの生成及び/またはデータ入力を容易にするために、トレーニンググラフ生成プラットフォーム131、例えば、トレーニングデータ入力予測モジュール134によって生成される様々な機械学習システムを実行することができる。データ入力モジュール137は、1つ以上の医用画像、及び任意選択で臨床データの処理から特定される1つ以上の特徴に基づいて推論される発現レベル、ならびにそれらの1つ以上の特徴について学習された関連する発現レベルを遺伝子ネットワークグラフにデータ入力することができる。
【0055】
出力インターフェース138は、データ入力された遺伝子ネットワークグラフを(例えば、スクリーン、モニタ、ストレージデバイス、ウェブブラウザなどに)出力するために使用され得る。いくつかの技術によれば、出力インターフェース138は、後述する後続のプロセスにおける入力として使用するために、データ入力された遺伝子ネットワークグラフをグラフ予測システム102に出力することができる。グラフ生成システム101によって生成または使用される、データ入力された遺伝子ネットワークグラフ及び他のデータは、1つ以上のストレージデバイス109に記憶され得る。
【0056】
図1Dは、例えば、グラフ生成システム101及び/またはグラフ予測システム102によって出力され得るような、例示的なデータ入力された遺伝子ネットワークグラフ150を示す。
図1Dに示されるように、遺伝子ネットワークグラフ150は、1つ以上の転写因子のノード152、1つ以上のタンパク質のノード153など、ネットワーク内の遺伝子に対応する1つ以上のノードを含み得る。ノード間の関係、例えば連続発現レベルは、1つ以上のエッジによって表され得る。遺伝子ネットワークグラフ150内のエッジの視覚的表現は、遺伝的証拠の存在、正または負の効果、発現及び/または調節などの関係の特徴を描写することができる。例えば、エッジ154aは、タンパク質153CHSに対する負の効果を誘導するタンパク質153HOG1の遺伝的証拠を表すことができる。別の例では、エッジ154bは、転写因子152LHYでの発現に対する正の効果を誘導する転写因子152P1F3を表し得る。別の例では、エッジ154cは、タンパク質153CAB1に結合するプロモータの上方制御を誘導する転写因子152P1F3を表し得る。他の任意の適切なノード、エッジ、及び/またはノードとエッジの組み合わせが、遺伝子ネットワークグラフ150上に表されることができる。遺伝子ネットワークグラフ150は、データ入力されたノードを含み、描写することができるが、グラフ生成システム101によって入力として受信されるデータ未入力の遺伝子ネットワークグラフなどの遺伝子ネットワークグラフは、データ入力されたノード及びその結果として生じる信号経路及び/または関係性を含み得ず、また描写し得ないことを理解されたい。
【0057】
図2は、データ入力された遺伝子ネットワークグラフを生成するために実装される例示的なシステム(例えば、グラフ生成システム101)の概略
図200を示す。
図2に示されるように、グラフ生成システム101は、例えば、ターゲットデータ取り込みモジュール136において、1つ以上の入力202を受信することができる。1つ以上の入力202は、発現レベルを含まない1つ以上の遺伝子ネットワークグラフ204、患者の臨床情報206、患者のデジタル医用画像208、またはそれらの任意の組み合わせを含み得るが、これらに限定されない。1つ以上の入力202は、サーバシステム110、医師サーバ121、病院サーバ122、臨床試験サーバ123、研究所サーバ124、及び/または研究所情報システム125のいずれか1つまたは任意の組み合わせから受信されることができる。1つ以上の入力202は、1つ以上のトレーニングされた機械学習システム(例えば、データ入力モジュール137)を使用してグラフ生成システム101によって処理され、患者固有の発現レベルがデータ入力された遺伝子ネットワークグラフ(データ入力された遺伝子ネットワークグラフ)212を出力することができる。出力されたデータ入力された遺伝子ネットワークグラフ212は、例えば、ストレージデバイス109に記憶されることができ、さらなる処理のためにグラフ予測システム102によって受信されることができる。
【0058】
図1Cは、本開示の例示的な技術に従って、遺伝子ネットワークグラフの挙動を予測するための例示的なシステム(例えば、グラフ予測システム102)を示す。グラフ予測システム102は、トレーニンググラフ予測プラットフォーム141及び/またはターゲットグラフ予測プラットフォーム145を含むことができる。
【0059】
1つの技術によれば、トレーニンググラフ予測プラットフォーム141は、トレーニングデータ取り込みモジュール142及びトレーニング予測モジュール147などのソフトウェアモジュールを含むことができる。一態様によれば、トレーニングデータ取り込みモジュール142は、治療後のデータ入力された遺伝子ネットワークグラフを生成するため、及び/または治療転帰を予測するために、1つ以上の機械学習システムをトレーニングするために使用され得るトレーニングデータを作成または受信することができる。トレーニングデータは、サーバシステム110、医師サーバ121、病院サーバ122、臨床試験サーバ123、研究所サーバ124、及び/または研究所情報システム125のいずれか1つまたは任意の組み合わせから受信されることができる。トレーニングデータは、実在のソース(例えば、人間、動物など)から取得することも、合成のソース(例えば、グラフィックスシミュレータ、グラフィックスレンダリングエンジン、3Dモデルなど)から取得することもできる。トレーニングデータ取り込みモジュール142は、1つ以上のトレーニングデータのデータセットを作成または受信することができる。例えば、データセットは、複数の患者の遺伝子ネットワークグラフ(に対応する1つ以上のデータセット例えば、治療前及び治療後の)、複数の患者の治療データに対応する1つ以上のデータセット(例えば、治療の種類、投与量など)、治療前後の時間遅延に対応する1つ以上のデータセットを含み得る。別の例では、各データセットは患者固有であり、治療前の遺伝子ネットワークグラフ、治療後の遺伝子ネットワークグラフ、治療データ、及び/または所与の患者についての治療前と治療後の遺伝子ネットワークグラフの間の期間を含むことができる。いくつかの例では、トレーニングデータのサブセットは、遺伝子ネットワークグラフ、治療データ、及び/または時間遅延データについての様々なデータセット間で重複することがある。
【0060】
いくつかの例では、トレーニングデータは、1つ以上の機械学習システムの直接出力であり得る。他の例では、1つ以上の機械学習システムの出力は、遺伝子ネットワークグラフの変化の予測を可能にするさらなるプロセスへの入力として使用され得る。トレーニングデータセットは、デジタルストレージデバイス、例えば、ストレージデバイス109のうちの1つに記憶されることができる。
【0061】
トレーニング予測モジュール143は、トレーニングデータを入力として使用して、例えば、提案された治療レジメンに応じて遺伝子ネットワークグラフの変化を予測できる1つ以上の機械学習システムを生成することができる。いくつかの例では、サードパーティが、1つ以上のトレーニングされた機械学習システムを生成することができ、記憶(例えば、ストレージデバイス109内に)及び/またはグラフ予測システム102による実行のためにトレーニングされた機械学習システム(複数可)をサーバシステム110に提供することができる。トレーニング予測モジュール143は、例えば、遺伝子発現レベルが、特定の治療に反応して治療前の遺伝子ネットワークからどのように変化し得るかを示す治療後の遺伝子ネットワークグラフを予測するために、トランスフォーマ、グラフニューラルネットワーク、または任意の他の適切なタイプの機械学習システムをトレーニングし得る。トレーニング予測モジュール143は、例えば、治療前の遺伝子ネットワークグラフ及びデータ入力された遺伝子ネットワークグラフなどの他の遺伝子ネットワークグラフとともに、治療後の遺伝子ネットワークグラフをデータベースに、例えば、ストレージデバイス109に記憶し得る。
【0062】
追加的に、または代替的に、トレーニング予測モジュール143は、トレーニングデータを入力として使用して、治療転帰(本明細書では患者転帰とも呼ばれる)を予測できる1つ以上の機械学習システムを生成することができる。いくつかの例では、機械学習システムは、所与の治療に対する対応する組織反応を学習するために、異なる組織タイプ、例えば腫瘍タイプのそれぞれに対して生成され得る。他の例では、2つ以上の組織タイプの治療転帰を予測できる1つの機械学習システムが生成され得る。トレーニング予測モジュール143の1つ以上の機械学習システムをトレーニングするための方法を以下に説明する。
【0063】
1つの技術によれば、ターゲットグラフ予測プラットフォーム145は、ターゲットデータ取り込みモジュール146、予測モジュール147、及び出力インターフェース148などのソフトウェアモジュールを含むことができる。ターゲットデータ取り込みモジュール146は、治療前の遺伝子ネットワークグラフ、治療レジメン、治療前後の時間遅延などを含むがこれらに限定されない、1つ以上のターゲット入力を受信することができる。例えば、1つ以上のターゲットデータは、サーバシステム110、医師サーバ121、病院サーバ122、臨床試験サーバ123、研究所サーバ124、及び/または研究所情報システム125のいずれか1つまたは任意の組み合わせから受信されることができる。
【0064】
ターゲットデータ取り込みモジュール146は、遺伝子ネットワークグラフの変化及び/または治療転帰を予測するために、1つ以上の入力を予測モジュール147に提供することができる。予測モジュール147は、以下でより詳細に説明する1つ以上の構成要素で構成されることができる。予測モジュール147は、トレーニンググラフ予測プラットフォーム141によって生成された様々な機械学習モデルを実行して、遺伝子ネットワークグラフの変化及び/または治療転帰の予測を容易にすることができる。
【0065】
一態様によれば、予測モジュール147は、遺伝子ネットワークグラフにおける1つ以上の変化及び/または治療転帰を予測するための要求を受信し、トレーニンググラフ予測プラットフォーム141によってトレーニングされた機械学習システムのうちの1つ以上を実行し、リクエストに応じて、遺伝子ネットワークグラフ及び/または治療転帰に対する1つ以上の変化を予測することができる。例えば、リクエストは、サーバシステム110、医師サーバ121、病院サーバ122、臨床試験サーバ123、研究室サーバ124、及び/または研究室情報システム125のいずれか1つまたは任意の組み合わせから受信されることができる。別の例では、リクエストは、例えば、グラフ生成システム101からなど、別のシステムからの出力の検出に応答して、グラフ予測システム102によって自動的に生成され得る。いくつかの実施態様では、予測モジュール147は、ベースラインと比較したデータ入力された遺伝子ネットワーク発現レベルの有意な変化または偏差の検出に応答して、また、治療の変化(例えば、薬物投与)などの検出に応答して、遺伝子ネットワークグラフ及び/または治療転帰における1つ以上の変化を自動的に予測するように構成され得る。
【0066】
予測モジュール147は、グラフニューラルネットワーク、畳み込みニューラルネットワーク、トランスフォーマニューラルネットワークなどを含むがこれらに限定されない、任意の適切な機械学習システムを含み得る。予測モジュール147は、治療後の遺伝子ネットワークグラフ及び/または転帰データの生成及び/またはデータ入力を容易にするために、例えばトレーニング予測モジュール143などのトレーニンググラフ予測プラットフォーム141によって生成される様々な機械学習システムを実行することができる。治療後の遺伝子ネットワークグラフは、例えば、時間、治療レジメンなどの刺激に応じた予測された発現値を有する遺伝子ネットワークグラフを描写することができる。転帰データは、全生存期間データ、対応する打ち切りデータを有する無増悪生存期間、薬物治療転帰データ、治療前の時間遅延(例えば、診断と治療の間)、寛解率などの臨床データを含み得る。
【0067】
出力インターフェース148は、予測された治療後のデータ入力された遺伝子ネットワークグラフ、及び/または転帰データを(例えば、スクリーン、モニタ、ストレージデバイス、ウェブブラウザなどに)出力するために使用され得る。
【0068】
図3は、遺伝子ネットワークグラフに対する変化を予測するために実装された例示的なシステム(例えば、グラフ予測システム102)の概略
図300を示す。
図3に示されるように、グラフ予測システム102は、例えば、ターゲットデータ取り込みモジュール146において、1つ以上の入力302を取得し得る。本明細書で説明するように、1つ以上の入力302は、サーバシステム110、医師サーバ121、病院サーバ122、臨床試験サーバ123、研究所サーバ124、及び/または研究所情報システム125のいずれか1つまたは任意の組み合わせから受信されることができる。1つ以上の入力302は、1つ以上の治療前の遺伝子ネットワークグラフ304、治療レジメン306、任意選択の治療前後の時間遅延308などを含み得るが、これらに限定されない。治療前の遺伝子ネットワークグラフ304は、例えば、時間遅延、治療レジメンなどの刺激発生前の発現値を有する遺伝子ネットワークグラフを示し得る。治療レジメン306は、投与量、スケジュール、タイミングなどを含み得る。治療前後の時間遅延308は、診断と治療の間の時間を含み得る。入力302を処理するために本明細書に記載される1つ以上のトレーニングされた機械学習システムを使用して、グラフ予測システム102は、1つ以上の出力312として、治療後の遺伝子ネットワークグラフ314及び/または患者転帰316を提供することができる。出力312は、時間遅延308によって示される期間に関連付けられることができる。
【0069】
図4は、1つ以上の技術による、遺伝子ネットワークグラフにデータ入力し、変化予測をするための例示的なプロセスのフロー図を示す。
図4に示されるように、1つ以上の入力は、1つ以上のシステム(例えば、グラフシステム412)によって処理されて、1つ以上の出力を生成することができる。グラフシステム412は、互いに連携して動作するグラフデータ入力システム101、及びグラフ予測システム102を含むことができる。1つ以上の入力は、ゲノミクス及び/またはエピゲノムデータ402(例えば、ゲノム変異体、エピジェネティック変化、または遺伝子パネル)、発現データ404(例えば、RNA配列及び/または遺伝子のマイクロアレイ)、臨床データ406(例えば、生存データ及び/または治療反応)、及び/または医用画像408(例えば、一致した画像または全スライド画像(WSI))を含むことができる。
【0070】
ゲノミクス及び/またはエピゲノムデータ402は、例えば、点突然変異、コピー数変異、構造変異、ヒストン修飾、及び/または過剰メチル化などのゲノム変異体及びエピジェネティック変異体を含むことができる。ゲノムデータ及び/またはエピゲノムデータ402は、利用可能な場合、ゲノムバリアントまたはエピジェネティックバリアントによって誘導される対応する遺伝子発現プロファイルを特定するために使用され得る。
【0071】
例えば、RNA配列発現レベルなどの発現データ404は、複数のがんタイプ(汎がん)にわたる患者遺伝子行列、単一のがんタイプにわたる患者遺伝子行列、異なるタイムスタンプ(例えば、時系列)におけるような治療の様々な段階における患者遺伝子行列、様々な併用療法後の患者の遺伝子行列、等を含み得る。いくつかの例では、値は正規化された発現レベル、例えば、正規化されたFPKM値(マッピングされたリード100万件あたりの転写産物のキロベースあたりの断片数)、またはマイクロアレイ遺伝子データであり得る。平坦な遺伝子発現プロファイルを有する遺伝子は除外されることができる。いくつかの実施形態では、発現データ404は、発現データを含み得るデータ入力された遺伝子ネットワークグラフの形態であり得る。発現データ404は、一変量の、及び/または多変量のコックス比例ハザード(CoxPH)回帰を使用して、生存関連遺伝子または薬物反応関連遺伝子を特定するために使用され得る。
【0072】
臨床データ406は、年齢、病歴、がん治療歴、家族歴、過去の生検または細胞診情報、腫瘍配列情報、mRNA発現レベル、遺伝子ネットワークグラフ(治療前及び/または治療後)、全生存データ、無増悪生存期間と対応する打ち切りデータ、薬物治療転帰データなどを含み得る。本明細書で論じられるように、グラフ生成システム101は、特定のタイプの臨床データ406(例えば、がん治療歴、家族歴、mRNA発現レベルなど)を使用して任意選択でトレーニングされ得る一方で、グラフ生成システムは、他のタイプの臨床データ406(例えば、全生存期間データ、対応する打ち切りデータを含む無増悪生存期間、薬物治療転帰データなど)を使用してトレーニングされ得る。医用画像408は、患者からサンプルまでのレベルであることができる。いくつかの例では、画像またはWSIは、分析及び/または処理のために複数のタイルに分割され得る。しかし、予測される発現レベルは、複数のタイルからの集計値に基づくことができる。
【0073】
遺伝子発現プロファイル410は、治療前及び/または治療後の遺伝子ネットワークグラフを含むことができる。遺伝子発現プロファイル410は、治療及び転帰データに関連する発現データ404及び/または臨床データ406の少なくとも一部に基づくことができ、従って、遺伝子発現プロファイル410は転帰に関連し得る。遺伝子発現プロファイル410は、遺伝子のリストの正規化された発現レベルを示す連続値ベクトル、または遺伝子が過剰発現され、変化されず、または下方制御され得るかどうかを示す遺伝子のリストの整数ベクトル(例えば、1、0、-1)を含み得る。予測された遺伝子発現プロファイル410に基づいて、高度に発現または下方制御されている遺伝子が特定され得る。例えば、T細胞受容体、DNA修復経路などの関連する経路を判断し、その経路を潜在的な治療療法に関連付けるために経路濃縮分析が使用され得る。
【0074】
遺伝子発現プロファイル410は、グラフシステム412によって実行される機械学習システムをトレーニングして、遺伝子発現の変化(例えば、遺伝子グラフネットワークの変化)及び/または特定の治療レジメン及び/または時間遅延が与えられた場合、例えば、異なるサンプルサブセットに対して、ベイジアン推論、相関推論、ブール推論アルゴリズム、またはその他の適切なモデルを使用して、患者の転帰を推論するために使用され得る。例えば、患者の可能なまたは可能性の高い治療転帰、及び/または患者の予後(例えば、良好または不良)は、患者の遺伝子ネットワークグラフ(例えば、発がん性シグナル伝達経路)が、受けた治療に基づいてどのように変化すると予測されるかに基づいて推測され得る。このプロセスは、がんや薬剤耐性の高いリスクに寄与することがある遺伝子相互作用を特定し、及び/または同じ変異遺伝子の様々な臨床転帰に関する洞察を提供する(例えば、抗HER2+薬(例:ラパチニブ及びトラスツズマブ)及び抗HER2+併用薬療法に対して良好な反応が得られないHER2+患者を特定する)のに役立ち得る。
【0075】
本明細書で論じられるように、入力の特定されたサブセットは、グラフ生成システム101及び/またはグラフ予測システム102を含み得るグラフシステム412の1つ以上の機械学習システムをトレーニングするために使用され得る。例えば、ゲノミクスデータ及び/またはエピゲノムデータ402、臨床データ406、及び/または医療画像408が、グラフ生成システム101をトレーニングするために使用され得る。別の例では、発現データ404、臨床データ406、及び/または遺伝子発現プロファイル410が、グラフ予測システム102をトレーニングするために使用され得る。
【0076】
いくつかの技術では、グラフシステム412は、1つ以上の出力を生成することができる。例えば、グラフシステム412は、1つ以上の予測された患者転帰414、予測された発現レベル416、及び/または(例えば、予測された発現レベル416に基づいた)予測された治療後グラフ418を出力し得る。いくつかの例では、予測された患者転帰414は、値(例えば、それぞれ上方制御、相互作用なし、または下方制御(つまり阻害)のための1、0、及び/または-1)を有する遺伝子ごとのマトリックス(または符号付きの値(重み)の行列、遺伝子間の関連性(つまり、1つの遺伝子の発現が他の遺伝子の発現をどのように変化させるか)を示す値であることもある)を含む、発現レベルに関連する患部および/または組織学的パターンのヒートマップを含み得る。予測発現レベル416、例えば、将来時点での発現レベルを含む予測は、(投与量変化を伴うか、または伴わない)薬物治療の異なるステージ/フェーズを含むことができ、これは予測治療後グラフ418及び/または治療に対する反応を推測するために使用され得る。いくつかの例では、グラフシステム412は、例えば、発現データ404及び/または医療画像408などの1つ以上の入力を使用して、予測治療後グラフ418を直接推論することができる。
【0077】
図5は、1つ以上の技術による、遺伝子ネットワークグラフにデータ入力するための例示的な方法500のフローチャートを示す。ステップ502では、例えば、グラフ生成システム101などのシステムは、患者に関連付けられた1つ以上のデジタル医用画像を受信することができる。任意選択で、ステップ504では、患者に関連付けられた臨床データも受信されることができる。入力データは、例えば、ストレージデバイス109など、本明細書で説明されるシステムによって生成及び/または記憶され得るか、または医師サーバ121、病院サーバ122、臨床試験サーバ123、研究所サーバ124、及び/または研究室情報システム125のうち1つ以上から受信され得る。
【0078】
ステップ506において、患者に関連付けられた1つ以上のデジタル医用画像及びデータ未入力の遺伝子ネットワークグラフが、トレーニングされた機械学習システムに提供され得る。臨床データが任意選択で受信される場合、その臨床データはまた、トレーニングされた機械学習システムにも提供され得る。トレーニングされた機械学習システムは、少なくとも1つのデータ入力された遺伝子ネットワークグラフを出力するために、1つ以上のデジタル医用画像(及び任意選択で臨床データ)を処理することができる。データ入力された遺伝子ネットワークグラフは、ステップ508においてトレーニングされた機械学習システムから受信され得る。例えば、所与のがん遺伝子型を有する患者の場合、グラフ生成システム101は、マルチモーダルディープニューラルネットワークを使用して、例えば、がん組織のデジタル全体スライド画像などの患者のデジタル医用画像に基づいて、患者のデータ入力された遺伝子ネットワークグラフを予測することができる。
【0079】
機械学習システムは、
図6で説明されているようにトレーニングされ得る。機械学習システムは、例えば、mRNA及び/または腫瘍配列決定データ、患者の臨床情報、デジタル医用画像などの1つ以上の入力に基づいて、患者固有のデータ入力された遺伝子ネットワークグラフを推論するようにトレーニングされ得る。
【0080】
図6は、1つ以上の技術に従って、グラフ生成システム101によって実装される機械学習モデルをトレーニングするための例示的な方法600を示す。機械学習モデルは、少なくともデジタル医用画像に基づいて、データ入力された遺伝子ネットワークグラフを推論するようにトレーニングされ得る。例示的な方法600(例えば、ステップ602~610)は、グラフ生成システム101によって実行され得る。例示的な方法600は、以下のステップのうちの1つまたは複数を含むことができる。
【0081】
ステップ602において、データ未入力の遺伝子ネットワークグラフが受信されることができる。データ未入力の遺伝子ネットワークグラフは、遺伝子、タンパク質、mRNAなどの間の一般的な関係性を示し得るが、いずれの遺伝子発現レベルも含み得ない。例えば、データ未入力の遺伝子ネットワークグラフは、SWI/SNF複合体の個々の遺伝子(例えば、ARID1A、ARID1B、ARID2、PBRM1、SMARCA4、SMARCB1遺伝子)間に関係性が存在することを示し得るが、それらの遺伝子が特定の個別の細胞内でどのように相互作用することができるかは示し得ない。言い換えれば、一般的な遺伝子関係は、データ未入力の遺伝子ネットワークグラフを使用して示され得るが、患者の特定の遺伝子相互作用の量または程度(例えば、特定の患者の特定の遺伝子相互作用がより高い程度で起こるか、より低い程度で起こるか)は、遺伝子発現レベルの欠如により示されない。いくつかの例では、データ未入力の遺伝子ネットワークグラフに示された遺伝子、タンパク質、mRNAなどの間の一般的な関係は、遺伝子の様々なセットの一般的な関係性データのコレクションを格納できる公開データベースから受信できる。
【0082】
ステップ604において、複数の患者に関連付けられた腫瘍配列決定情報が受信されることができる。腫瘍配列情報は、患者固有の遺伝子配列(例えば、ドライバ領域、プロモータ領域、エキソンなど)、関連する患者集団に基づいた変異データ(例えば、アシュケナージ系ユダヤ人集団に関連する遺伝子変異)などを含み得る。腫瘍配列決定情報は、データ未入力の遺伝子ネットワークグラフ内のノードによって表される遺伝子に関連する発現レベルを示し得る。ステップ606において、機械学習システムは、複数の患者に関連付けられた複数の患者デジタル医用画像を受信することができる。本明細書で論じられるように、デジタル医用画像は、例えば、デジタル多重免疫蛍光画像、デジタル多重免疫組織化学画像、磁気共鳴画像法(MRI)、コンピュータ断層撮影法(CT)、X線、核医学画像法、超音波などの任意の適切な構成であり得る。任意選択で、ステップ608において、複数の患者に関連付けられた臨床データが、トレーニングのために受信されることができる。臨床データは、がんの治療歴、家族歴、mRNA発現レベルなどを含み得る。ステップ602、604、606、及び608は、同時に及び/または別々に実行されることができる。
【0083】
ステップ610では、複数の患者のうちの1人以上について、データ未入力の遺伝子ネットワークグラフが、それぞれの患者の腫瘍配列決定情報に基づいてデータ入力され得る。換言すれば、トレーニングデータ入力モジュール133は、腫瘍配列決定データを発現レベルデータと相関させて、遺伝子ネットワークグラフのノードによって示される遺伝子の発現レベルを含むデータ入力された遺伝子ネットワークグラフを生成することができる。遺伝子ネットワークグラフにデータ入力することは、遺伝子ネットワークグラフに欠落している発現レベル値があるかどうかを判断すること、及びラベル伝播技術を使用して欠落している値を推測することをさらに含むことができる。本明細書で論じられるように、腫瘍配列データは、すべての遺伝子の発現レベルを提供し得ず、または含み得ない。そのような場合、欠落している遺伝子の発現レベル値は、例えば、本明細書で論じられるように、指向性標識伝播技術を使用して判断され得る。
【0084】
ステップ612において、機械学習システムは、任意選択で受信した場合、データ未入力の遺伝子ネットワークグラフ、デジタル医用画像、及び/または臨床データなどの複数の入力を使用してトレーニングされ得る。機械学習システムは、教師あり学習または半教師あり学習を使用して、患者の1つ以上の医用画像に基づいて、患者のデータ入力された遺伝子ネットワークグラフを推論するようにトレーニングされることができる。トレーニングされた機械学習システムは、例えば、ストレージデバイス109などのデジタルストレージに出力され得る。
【0085】
いくつかの例では、教師あり機械学習システムは、分類または回帰を使用してトレーニングされ得る。このような例では、教師あり機械学習システムは、他の類似の例の中でも、マルチモーダルディープニューラルネットワーク、グラフニューラルネットワーク、トランスフォーマーニューラルネットワーク、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、または多層パーセプトロン(MLP)を含み得る。学習を可能にするために、デジタル医用画像が機械学習システムへの入力として提供され得る。機械学習システムは、次いで、遺伝子ネットワークグラフにデータ入力するために使用され得る予測遺伝子配列データを出力することができる。予測された遺伝子配列決定データは、機械学習システムのパラメータを更新して損失または誤差を低減するために使用され得る損失または誤差を判断するために、対応する遺伝子配列決定データと比較されることができる。対応する遺伝子配列データは、トレーニング遺伝子配列データの一部であり得、これらは、デジタル医用画像に対応し、デジタル医用画像における既知のがん組織の態様及び/または遺伝子型を示す。機械学習システムは、機械学習システムの精度を向上させるために、誤差に基づいて修正または変更されることができる(例えば、1つ以上のノード及び/または層に関連付けられた重み及び/または偏りが調整され得る)。このプロセスは、受信したトレーニングデジタル医用画像のそれぞれについて、または少なくとも判定された損失または誤差が所定の閾値を下回るまで、繰り返され得る。いくつかの例では、トレーニング画像の一部が保留され、機械学習システムをさらに検証またはテストするために使用されることができる。
【0086】
いくつかの例では、機械学習モデルは、シーケンスツーシーケンス(「Seq2Seq」)モデル、例えば、トランスフォーマSeq2Seqモデルを含み得る。トランスフォーマSeq2Seqモデルは、エンコーダモデル及びデコーダモデルを含むことができる。トランスフォーマSeq2Seqモデルは、例えば、エンコーダモデルがエンコード及び/または圧縮する、デジタル医用画像及び/またはタイルのベクトル埋め込み(及び任意選択の臨床データ)から入力タイルとして受信するように構成され得る。デコーダモデルは、データ入力された遺伝子ネットワークグラフを出力するためにエンコーダモデルからエンコード及び/または圧縮されたベクトル埋め込みを受信及びデコードすることができる。デコーダ出力は、損失や誤差を減らす機械学習システムのパラメータを更新するために使用され得る損失または誤差を判定するために、患者について実際にデータ入力されたネットワークグラフ(例えば、患者の腫瘍配列決定情報を使用してデータ入力されたもの)と比較されることができる。いくつかの例では、トランスフォーマSeq2Seqモデルは、可変量のデータを入力として受信し、固定サイズのデータ入力された遺伝子ネットワークグラフを生成することができる。
【0087】
いくつかの態様では、グラフ生成システム101のトレーニングされた機械学習システムによって出力されるデータ入力された遺伝子ネットワークグラフは、治療前の遺伝子ネットワークグラフ(例えば、患者が治療を受ける前の遺伝子発現レベルを示す遺伝子ネットワークグラフ)であり得る。このグラフを入力として使用して、グラフ予測システム102は、提案された治療に基づいた転帰及び/または治療後の遺伝子ネットワークグラフを予測するように構成され得る。
【0088】
図7は、1つ以上の技術に従って、例えば、提案された治療レジメンに応答して、遺伝子ネットワークグラフの変化を予測するための例示的な方法700のフローチャートを示す。例示的な方法700(例えば、ステップ702~710)は、グラフ予測システム102によって実行され得る。例示的な方法700は、以下のステップのうちの1つまたは複数を含むことができる。
【0089】
ステップ702において、治療前のデータ入力された遺伝子ネットワークグラフが受信されることができる。本明細書で論じられるように、治療前のデータ入力された遺伝子ネットワークグラフは、患者が何らかの治療を受ける前の遺伝子ネットワークグラフ、患者が最初の治療を受けた後の遺伝子ネットワークグラフ、などを含み得る。例えば、最初の治療を受けた患者について、治療前のデータ入力された遺伝子ネットワークグラフは、最初の治療後であるが、提案された第二の治療の前の遺伝子発現値に基づいてデータ入力され得る。いくつかの例では、治療前のデータ入力された遺伝子ネットワークグラフは、グラフ予測システム101によって生成され得る。
【0090】
ステップ704において、提案された1つ以上の治療レジメンが受信されることができる。提案される治療レジメンは、単剤療法(例えば、化学療法、MET阻害剤、等)、併用療法(例えば、膵臓がん治療のためのシスプラチンとタキソール)、タイミングデータ(例えば、治療頻度、治療期間、等)投与量データ(例えば、1回の投与量、総投与量、等)などを含み得る。ステップ702及び704のいずれかまたは両方において、入力は、例えば、ターゲットグラフ予測プラットフォーム145などのグラフ予測システム102で受信されることができ、及び/または、例えば、ストレージデバイス109によって記憶されることができる。いくつかの例では、提案された治療レジメンが、ベクトル埋め込みにベクトル化されることができる。ステップ706において、任意選択で時間遅延データが受信されることができる。時間遅延データは、ステップ702で受信された治療前のデータ入力された遺伝子ネットワークグラフと治療後の遺伝子ネットワークグラフとの間で経過した期間、及び/またはトレーニングされた機械学習システムによって予測される転帰を規定することができる。例えば、ユーザが、提案された治療レジメンに基づいて1年間の期間後に患者の遺伝子発現レベルがどのように変化するかを判断することに興味がある場合、時間遅延データは1年を示すことがある。
【0091】
ステップ708において、治療前のデータ入力された遺伝子ネットワークグラフ、1つ以上の提案された治療レジメンが、例えば、ターゲットグラフ予測プラットフォーム145などのトレーニングされた機械学習システムへの入力データとして提供され得る。任意選択で、入力データは、受信した場合、時間遅延データも含むことができる。トレーニングされた機械学習システムは、入力データを処理して、ステップ710で、少なくとも1つの治療後のデータ入力された遺伝子ネットワークグラフ、及び/または転帰データを出力することができる。治療後のデータ入力された遺伝子ネットワークグラフは、データ入力前の遺伝子ネットワークグラフ(例えば、同じノード及びエッジ)と同じ構造またはトポロジを有し得るが、ノードによって表される遺伝子の発現の変化(例えば、挙動の変化)を示す1つ以上のノードに関連付けられた異なる値を有し得る。任意選択の時間遅延データが受信された場合、治療後のデータ入力された遺伝子ネットワークグラフ、及び/またはトレーニングされた機械学習システムによって予測及び出力される転帰データは、所定の時間遅延(例えば、治療前のグラフに続く規定された期間)であり得る。代替的に、時間遅延データが受信されない場合、治療後のデータ入力された遺伝子ネットワークグラフのセット、及び/または一連の時間遅延における転帰データが、トレーニングされた機械学習システムによって予測及び出力され得る。例えば、一連の時間遅延は、治療前のグラフに続く事前規定された間隔(例えば、6ヶ月ごと、1年ごと、3年ごとなど)であることができる。転帰データは、例えば、予測された治療成功率、予測された遺伝子相互作用、予測された生存率、転移のリスク、T細胞受容体の免疫療法抵抗性などを含み得る。グラフ予測システム102への入力(例えば、治療前のデータ入力された遺伝子ネットワークグラフ)、グラフ予測システム102からの出力(例えば、治療後にデータ入力された遺伝子ネットワークグラフ)、及び/または任意の他のデータ、のいずれかが、例えば、ストレージデバイス109内に格納され得る。
【0092】
一例では、治療後のデータ入力された遺伝子ネットワークグラフは、提案された治療レジメンの予測された有効性及び/または化学療法抵抗性を通知することができる。別の例では、所与の急性リンパ芽球性白血病遺伝子型を有する患者の場合、グラフ予測システム102は、トランスフォーマを使用して、治療前のデータ入力された遺伝子ネットワークグラフ、及びアザシチジンの提案された治療に基づいて、患者の治療後のデータ入力された遺伝子ネットワークグラフを予測することができる。別の例では、グラフ予測システム102は、グラフニューラルネットワークを使用して、異なる時点での経路の変化に基づいて、患者が、正常細胞の過剰増殖である子宮内膜過形成、または異常細胞の過剰増殖である異型子宮内膜過形成を発症し得るかどうかを予測することができる。
【0093】
機械学習システムは、
図8で説明されているようにトレーニングされ得る。例示的な方法800(例えば、ステップ802~810)は、グラフ予測システム102のトレーニングされたグラフ予測プラットフォーム141によって実行され得る。例示的な方法800は、以下のステップのうちの1つまたは複数を含むことができる。
【0094】
複数の患者についての治療前のデータ入力された遺伝子ネットワークグラフと、複数の患者についての治療後にデータ入力された遺伝子ネットワークグラフが、それぞれステップ802とステップ804で受信され得る。治療後のデータ入力された遺伝子ネットワークグラフは、治療前のデータ入力された遺伝子ネットワークグラフの後に所定の期間(例えば、所定の時間遅延)で生成され得る。いくつかの例では、所与の患者は、治療前のデータ入力された遺伝子ネットワークグラフに続いて、異なる時間遅延で複数の治療後のデータ入力された遺伝子ネットワークグラフを有し得る。治療前のデータ入力された遺伝子ネットワークグラフと1つ以上の治療後のデータ入力された遺伝子ネットワークグラフとの間で経過した時間を示す時間遅延データが、トレーニングで使用するために複数の患者のうちの1人または複数人について受信され得る。ステップ806において、例えばトレーニンググラフ予測プラットフォーム141などの機械学習システムは、複数の患者が受けた治療レジメンを受信することができる。本明細書で論じられるように、治療レジメンは、治療の種類(例えば、単独療法治療、併用治療)、タイミングデータ、投与量データなどを含み得る。タイミングデータには、例えば、診断から治療開始までの経過時間など、治療時間遅延データが含まれ得る。治療レジメンを説明または表すために、ベクトル埋め込みが生成されることができる。
【0095】
ステップ808において、例えばトレーニンググラフ予測プラットフォーム141などの機械学習システムは、複数の患者の転帰データを受信することができる。転帰データは、他の同様のデータの中でも特に、全患者生存率、無増悪生存率、固形腫瘍における奏効評価基準(RECIST)、病理学的完全奏効データ、または薬物治療転帰などの臨床データを含み得る。
【0096】
場合によっては、治療前のデータ入力された遺伝子ネットワークグラフ、治療後の遺伝子ネットワークグラフ、提案された治療レジメン、及び/または転帰データのいずれかまたはすべてがベクトル形式でベクトル化されることができる。それぞれの入力のベクトル形式は、機械学習システムによって受信され得る。ステップ802、804、806、及び808は、同時に及び/または別々に実行されることができる。
【0097】
ステップ810において、機械学習システムは、治療後のデータ入力された遺伝子ネットワークグラフ及び/または少なくとも1つの治療転帰を推論するようにトレーニングされ得る。機械学習システムは、ステップ802~808からの入力のうちの1つ以上を使用してトレーニングされ得る。機械学習システムは、例えば、教師あり学習などのトレーニングのために任意の既知の方法を使用することができる。トレーニングされたシステムは、例えばストレージデバイス109などのデジタルストレージデバイスに出力され得る。
【0098】
いくつかの例では、教師あり機械学習システムは、強力な注釈(例えば、所与の治療に応じた治療前のネットワークグラフ及び治療後ネットワークグラフからの既知の患者転帰、及び/または遺伝子発現における既知の変化)を使用してトレーニングされ得る。このような例では、教師あり機械学習システムは、他の同様の例の中でも特に、グラフニューラルネットワーク、トランスフォーマニューラルネットワーク、畳み込みニューラルネットワーク(CNN)、または多層パーセプトロン(MLP)を含み得る。学習を可能にするために、患者の治療前の遺伝子配列データ(例えば、治療前のネットワークグラフの形式)、患者の治療後遺伝子配列データ(例えば、治療後ネットワークグラフの形式)、患者が受けた対応する治療レジメン、及び転帰データが、機械学習システムへの入力として提供され得る。治療前の遺伝子ネットワークグラフと予測される治療後の遺伝子ネットワークグラフとの間の期間を示す、つまり、例えば、患者の実際の治療前と治療後の遺伝子ネットワークグラフの間の期間に等しい時間遅延データは、任意選択で入力として提供されることもできる。次いで、機械学習システムは、治療後遺伝子ネットワークグラフにデータ入力するために使用され得る予測された治療後遺伝子配列決定データ、及び/または(例えば、任意選択で受信される場合には所定の時間遅延で)予測される患者転帰を出力することができる。予測された治療後遺伝子ネットワークグラフは、患者が損失または誤差を判断するために実際の治療後遺伝子ネットワークグラフに比較されることができる。同様に、予測された患者の転帰は、(例えば、臨床データから得られる)実際の患者の転帰に比較され得る。実際の治療後の遺伝子ネットワークグラフと患者の転帰は、トレーニング遺伝子配列決定データの強力な注釈の一部であることができ、これは、提案された治療レジメンに対応し、既知の遺伝子発現の変化(例えば、行われた治療に反応したドライバ遺伝子のメチル化の減少)、及び/または治療前の遺伝子ネットワークグラフから治療後の遺伝子ネットワークグラフまでの転帰データを示す。機械学習システムは、機械学習システムの精度を向上させるために、誤差に基づいて修正または変更されることができる(例えば、1つ以上のノード及び/または層に関連付けられた重み及び/または偏りが調整され得る)。このプロセスは、受信した、または少なくとも判断されたトレーニング提案された治療レジメンのそれぞれについて、損失または誤差が所定の閾値を下回るまで、繰り返され得る。いくつかの例では、トレーニング治療レジメンの一部が保留され、機械学習システムをさらに検証またはテストするために使用されることができる。
【0099】
例示的な用途:治療転帰の代用
臨床転帰は、治験に参加した患者の気分や機能が改善するかどうか、または長生きするかどうかを直接測定する。臨床転帰によって測定される治療の恩恵または恩恵となり得るものが評価されて、それが副作用を上回るかどうかを判断することができる。一部の臨床試験では、臨床転帰の研究に長い時間がかかる場合、臨床転帰の代わりに代用エンドポイントが使用され得る。
【0100】
本明細書に開示される態様は、発がん性シグナル伝達経路を特定するために使用することができ、その活性化または阻害が適切な代用エンドポイントとして転帰に関連するか、または適切な代用エンドポイントとして転帰を予測すること(例えば、薬物に対する反応、全生存期間、無増悪生存期間などを予測する)ができる。これにより、薬剤の転帰データがないにもかかわらず、薬剤がターゲットとするシグナル伝達経路に基づいて、薬剤に反応する可能性が高い患者を特定することで、臨床試験の設計をサポートできる。これは、暫定的な転帰データが入手できない臨床試験設計の初期段階で特に有用である。
【0101】
例示的な用途:バイオマーカのスクリーニングと開発
単一のゲノム変異に由来するバイオマーカのスクリーニングは、陽性症例の数が限られているために失敗することがある。対照的に、複数の遺伝子に由来するシグナル伝達経路をスクリーニングすると、サンプルサイズが増加し、まれな変異体及び/またはまれな腫瘍タイプのスクリーニングが可能になることがある。例えば、SWI/SNF複合体(ARID1A、ARID1B、ARID2、PBRM1、SMARCA4、SMARCB1)の個別の遺伝子のそれぞれにおける変異の有病率は、一部の腫瘍では低くなり得、一方で、複合体における変異の有病率は、全腫瘍の約20%で集合的に発見される。
【0102】
本明細書に開示される態様は、シグナル伝達経路を薬力学バイオマーカとして特定するために、また、多くの場合、各薬物が異なる遺伝子であるが同じ経路をターゲットとする場合に、単一療法及び併用療法に対する予測バイオマーカを特定するために使用されることができる。同じシグナル伝達経路またはネットワークの機能的破壊に寄与する遺伝子に関連するドライバ遺伝的変異体及びエピジェネティックな変異体が統合されることができ、これは陽性症例の数を増やし、機能的シグナル伝達経路または複合体レベルでバイオマーカをスクリーニングするのに寄与する。
【0103】
例示的な用途:希少腫瘍のサブタイプの特定
遺伝子発現アッセイは、腫瘍の分類に使用され得る。腫瘍サンプルは、遺伝子発現プロファイルに基づいてクラスタ化され得、遡及分析により各腫瘍サブタイプの臨床的意味を特定する。例えば、PAM50遺伝子発現アッセイは、例えば、乳がんのLuminal A、Luminal B、Basal-like、正常サブタイプなど、乳房腫瘍の内因性サブタイプを明らかにするのに寄与する。しかし、アッセイで使用する遺伝子の数が異なると、腫瘍のサブタイプも変化する場合があり、限られた遺伝子セットに基づいて、稀な腫瘍のサブタイプを特定することも困難になり得る。
【0104】
本明細書に開示される態様は、発がん性シグナル伝達経路に関連する組織学的特徴を検出するために使用されることができ、経路の検出は、患者の層別化を支援する遺伝子発現アッセイの補完または代替として使用され得る。腫瘍サンプルは、発がん経路の活性化に関連するコンピュータ学習された組織学的パターンに基づいてクラスタ化され得る。臨床情報と合わせた遡及的分析は、稀な腫瘍サブタイプ及び関連するシグナル伝達経路、または遺伝子複合体を特定するために使用され、様々なリスクグループの患者に対する治療方針を評価する際の指針を提供することができる。
【0105】
例示的な用途:遠隔転移のリスクの推定
転移は、がん治療の失敗と死亡の主な原因である。補助化学療法は遠隔制御によく使用される。しかし、すべての患者が補助化学療法の恩恵を受けられるわけではなく、特に一部の患者は治療後にさらに悪化することがある。遠隔転移のリスクを評価し、遠隔制御のために補助化学療法の恩恵を受け得る患者を特定することにより、治療計画が容易になる。転移に寄与する可能性のある特定の突然変異とシグナル伝達プロセスが存在する。一例として、Ras変異は、転移性腫瘍の約50%に存在し、Rasタンパク質は、複数の下流シグナル伝達経路を活性化する。別の例として、上皮表現型と間葉表現型の間の一連の移行段階である上皮間葉転換(EMT)は、細胞が遊走表現型を獲得できるようにするだけでなく、複数の免疫抑制、薬剤耐性、アポトーシス機構の回避を誘導する。
【0106】
本明細書に開示される態様は、進行を調節し、転移表現型の獲得を促進するシグナル伝達経路を検出するために使用され得る。例えば、上述のシステム及び方法は、Ras変異及び下流シグナル伝達経路に関連する組織学的パターンを特定し、Rasシグナル伝達経路の活性化を予測して遠隔転移のリスクを推測するために使用され得る。さらに、上述のシステム及び方法は、学習された組織学的特徴を上皮表現型対間葉表現型と関連付けるために使用することができ、これにより、上皮から間葉への変換(EMT)または間葉から上皮への変換(MET)のいずれであるか、変換タイプを検出することができる。予後データと合せて、これらの特定と検出は、手術後の遠隔転移のリスクを予測するのに役立ち、患者が補助化学療法の恩恵を受けるかどうかを特定するのに役立つ。
【0107】
例示的な用途:治療介入と合成致死性の評価
合成致死性は、特定の治療不可能ながん変異を有するがん細胞をターゲットとする手法であり、これは、複数の遺伝子を同時に混乱させ、細胞死をもたらす一種の遺伝的相互作用である。合成致死スクリーニングは、新しい治療法を開発するために、特定のがん変異によって引き起こされる新たな脆弱性を特定できる可能性がある。経路レベルでの合成致死効果は、遺伝子レベルよりも再現性が高くなる。
【0108】
本明細書に開示される態様は、正常及び疾患状態(機能破壊)の下で、例えば、DNA損傷応答経路などの発がん性シグナル伝達経路に関連する視覚パターンを識別するために使用され得る。治療介入の前後のシグナル伝達経路の違いを検出することにより、治療の有効性を推定することができ、化学療法抵抗性をさらに予測することができる。さらに、そのような特定と検出は、がん治療においてより効果的なターゲット薬物を開発するための合成致死方針のスクリーニングを容易にすることができる。
【0109】
例示的な用途:T細胞受容体(TCR)ベースの免疫療法に対する耐性の予測
TCRベースの免疫療法は、様々な固形がん患者の治療に使用できる可能性を有し得る。しかし、TCR耐性に関連する経路は複数あり、それらは例えば、機能喪失、ヘテロ接合性の喪失、抗原プロセシング、提示、インターフェロン応答経路に関与する重要な遺伝子のエピジェネティックなサイレンシングなどである。
【0110】
本明細書に開示される態様は、TCR耐性に関連する組織学的パターン(例えば、T細胞受容体シグナル伝達経路またはB細胞受容体シグナル伝達経路)を特定するため、また、治療抵抗性を克服するための免疫チェックポイント阻害剤と免疫刺激サイトカインの注入を含む補助免疫療法と組み合わせたTCRに基づく治療の有効性を評価するために使用され得る。
【0111】
例示的な用途:腫瘍の良性から悪性への進行を予測
発がん性ドライバは、正常な組織だけでなく、様々な良性疾患でも見られる。組織微小環境、ゲノムドライバ補因子または腫瘍抑制因子の共喪失、変異体クローンのサイズなどを含む、多くの要因が良性状態から悪性状態への変化を誘発することがある。例えば、異型子宮内膜過形成は、子宮の内層で発症する可能性がある前がん状態である。これは異常な細胞の過剰増殖であるか、正常細胞の過剰増殖である子宮内膜過形成から発生する可能性がある。異型子宮内膜増殖症の患者は、子宮内膜がんを発症するリスクが非常に高くなる。
【0112】
本明細書に開示される態様は、正常サンプル、異型子宮内膜過形成、及び子宮内膜腫瘍サンプルにおけるゲノム変異またはエピジェネティック変異に関連する組織学的パターンを特定するために使用され得る。腫瘍の進行をプロファイルするために、例えば、異なる時点での経路の変化が確立され得る。さらに、良性から悪性への変化を引き起こすために特定の発がん性シグナル伝達経路に必要な最小限の変化が判断されることもできる。
【0113】
図9は、本明細書で提示される技術を実行することができる例示的なシステムまたはデバイス900を示す。デバイス900は、中央処理デバイス(CPU)920を含み得る。CPU920は、例えば、任意タイプの専用または汎用マイクロプロセッサデバイスを含む、任意タイプのプロセッサデバイスであり得る。当業者には理解されるように、CPU920はまた、単独で動作するようなマルチコア/マルチプロセッサシステム内の、またはクラスタまたはサーバファーム内で動作するコンピューティングデバイスのクラスタ内の単一プロセッサであってもよい。CPU920は、例えば、バス、メッセージキュー、ネットワーク、またはマルチコアメッセージパッシングスキームなどのデータ通信インフラストラクチャ910に接続され得る。
【0114】
デバイス900は、例えばランダムアクセスメモリ(RAM)などのメインメモリ940も含むことができ、また、二次メモリ930も含むことができる。例えば、読み取り専用メモリ(ROM)などの二次メモリ930は、例えば、ハードディスクドライブまたはリムーバブルストレージドライブであってもよい。このようなリムーバブルストレージドライブは、例えば、フロッピー(登録商標)ディスクドライブ、磁気テープドライブ、光ディスクドライブ、フラッシュメモリなどを含むことができる。この例にあるリムーバブルストレージドライブは、周知の方法でリムーバブルストレージユニットに対して読み取り及び/または書き込みを行う。リムーバブルストレージデバイスは、フロッピー(登録商標)ディスク、磁気テープ、光ディスクなどを含むことができ、リムーバブルストレージデバイスドライブによって読み書きされる。当業者には理解されるように、そのようなリムーバブルストレージユニットは一般に、コンピュータソフトウェア及び/またはデータを記憶したコンピュータ使用可能なストレージ媒体を含む。
【0115】
代替的な実施態様では、二次メモリ930は、コンピュータプログラムまたは他の命令がデバイス900にロードされるようにするための同様の手段を含み得る。このような手段の例には、(ビデオゲームデバイスに見られるような)プログラムカートリッジ及びカートリッジインターフェース、(EPROMまたはPROMなどの)リムーバブルメモリチップ及び関連するソケット、ならびに、ソフトウェア及びデータがリムーバブルストレージユニットからデバイス900に転送されるようにするその他のリムーバブルストレージユニット及びインターフェースが含まれ得る。
【0116】
デバイス900はまた、通信インターフェース(COM)960を含み得る。通信インターフェース960は、ソフトウェア及びデータがデバイス900と外部デバイスとの間で転送されることを可能にする。通信インターフェース960は、モデム、(イーサネット(登録商標)カードなどの)ネットワークインターフェース、通信ポート、PCMCIAスロット及びカードなどを含むことができる。通信インターフェース960を介して転送されるソフトウェア及びデータは、信号の形態であってもよく、信号は、通信インターフェース960によって受信可能な電子信号、電磁信号、光信号、または他の信号であってもよい。これらの信号は、デバイス900の通信経路を介して通信インターフェース960に提供されることができ、この通信経路は、例えば、ワイヤまたはケーブル、光ファイバ、電話線、携帯電話リンク、RFリンク、または他の通信チャネルを使用して実装されることができる。
【0117】
このような機器のハードウェア要素、オペレーティングシステム、及びプログラミング言語は、本質的に従来のものであり、当業者はそれらに十分精通していると推定される。デバイス900はまた、キーボード、マウス、タッチスクリーン、モニタ、ディスプレイなどの入出力デバイスに接続するための入出力ポート950を含むことができる。当然ながら、処理負荷を分散するために、様々なサーバ機能が多数の同様のプラットフォーム上に分散方式で実装され得る。代替的に、サーバは、1つのコンピュータハードウェアプラットフォームの適切なプログラミングによって実装されることもできる。
【0118】
本開示全体を通して、コンポーネントまたはモジュールへの言及は、一般に、機能または関連する機能のグループを実行するために論理的にグループ化され得る項目を指す。同様の参照番号は、一般に、同じまたは類似のコンポーネントを指すことを意図している。コンポーネント及び/またはモジュールは、ソフトウェア、ハードウェア、またはソフトウェア及び/またはハードウェアの組み合わせに実装され得る。
【0119】
上述のツール、モジュール、及び/または機能は、1つ以上のプロセッサによって実行され得る。「ストレージ」タイプのメディアには、コンピュータ、プロセッサなどの有形メモリの一部またはすべて、またはソフトウェアプログラミングのために非一時的なストレージをいつでも提供することができる様々な半導体メモリ、テープドライブ、ディスクドライブなどの関連モジュールが含まれ得る。
【0120】
ソフトウェアは、インターネット、クラウドサービスプロバイダ、またはその他の電気通信ネットワークを通じて通信され得る。例えば、通信は、あるコンピュータまたはプロセッサから別のコンピュータまたはプロセッサにソフトウェアをロードすることを可能にできる。本明細書で使用される場合、非一時的な有形の「ストレージ」媒体に限定されない限り、コンピュータまたは機械の「読み取り可能媒体」などの用語は、プロセッサに実行のための命令を提供することに関与する任意の媒体を指す。
【0121】
前述の一般的な説明は、例示的かつ説明的なものにすぎず、本開示を限定するものではない。他の実施形態は、明細書を考慮すること、及び本明細書に開示される発明を実施することにより、当業者には明らかになり得る。明細書及び実施例は、例示としてのみ考慮されることを意図している。
【国際調査報告】