IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テンプス ラブス,インコーポレイティドの特許一覧

特表2022-516152転移性組織サンプルのトランスクリプトームデコンボリューション
<>
  • 特表-転移性組織サンプルのトランスクリプトームデコンボリューション 図1
  • 特表-転移性組織サンプルのトランスクリプトームデコンボリューション 図2
  • 特表-転移性組織サンプルのトランスクリプトームデコンボリューション 図3
  • 特表-転移性組織サンプルのトランスクリプトームデコンボリューション 図4
  • 特表-転移性組織サンプルのトランスクリプトームデコンボリューション 図5
  • 特表-転移性組織サンプルのトランスクリプトームデコンボリューション 図6
  • 特表-転移性組織サンプルのトランスクリプトームデコンボリューション 図7
  • 特表-転移性組織サンプルのトランスクリプトームデコンボリューション 図8
  • 特表-転移性組織サンプルのトランスクリプトームデコンボリューション 図9
  • 特表-転移性組織サンプルのトランスクリプトームデコンボリューション 図10
  • 特表-転移性組織サンプルのトランスクリプトームデコンボリューション 図11A
  • 特表-転移性組織サンプルのトランスクリプトームデコンボリューション 図11B
  • 特表-転移性組織サンプルのトランスクリプトームデコンボリューション 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-02-24
(54)【発明の名称】転移性組織サンプルのトランスクリプトームデコンボリューション
(51)【国際特許分類】
   G16B 25/10 20190101AFI20220216BHJP
   G16B 40/30 20190101ALI20220216BHJP
   C12Q 1/68 20180101ALN20220216BHJP
【FI】
G16B25/10
G16B40/30
C12Q1/68
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021538465
(86)(22)【出願日】2019-12-31
(85)【翻訳文提出日】2021-08-05
(86)【国際出願番号】 US2019069161
(87)【国際公開番号】W WO2020142563
(87)【国際公開日】2020-07-09
(31)【優先権主張番号】62/786,756
(32)【優先日】2018-12-31
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/924,054
(32)【優先日】2019-10-21
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/944,995
(32)【優先日】2019-12-06
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】521286248
【氏名又は名称】テンプス ラブス,インコーポレイティド
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100117019
【弁理士】
【氏名又は名称】渡辺 陽一
(74)【代理人】
【識別番号】100141977
【弁理士】
【氏名又は名称】中島 勝
(74)【代理人】
【識別番号】100138210
【弁理士】
【氏名又は名称】池田 達則
(74)【代理人】
【識別番号】100197169
【弁理士】
【氏名又は名称】柴田 潤二
(72)【発明者】
【氏名】キャサリン イガルチュア
(72)【発明者】
【氏名】カーナン シャー
(72)【発明者】
【氏名】マシュー バーバー
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA08
4B063QQ52
4B063QS40
4B063QX10
(57)【要約】
遺伝子発現データのトランスクリプトームデコンボリューションのためのプラットフォームが提供され、かつ当該プラットフォームは、転移性癌サンプルの評価に使用することができる。デコンボリューションは、メンバーシップのグレードなどの教師なしクラスタリング手法を使用して実行される。これにより、訓練プロセス中にサンプルを複数のクラスターに割り当てることができる。その結果、デコンボリューション遺伝子発現モデルが生成され、後続のサンプルの転移を正確に評価するために使用される。
【選択図】図1
【特許請求の範囲】
【請求項1】
第1の複数の原発性癌サンプルおよび第2の複数の混合純度転移性癌サンプルを含む複数のサンプルに対応するRNA発現データに対して教師なしクラスタリングを実行することであって、各サンプルが、複数のクラスターのうちの少なくとも1つに割り当てられる、実行することと、
1つ以上の病状の生物学的指標に対応すると同定された少なくとも1つのクラスターを含むデコンボリューションされたRNA発現データモデルを生成することと、
腫瘍組織のサンプルの追加のRNA発現データを受信することと、
前記デコンボリューションされたRNA発現データモデルに部分的に基づいて、前記追加のRNA発現データをデコンボリューションすることと、
前記腫瘍組織のサンプルを前記1つ以上の病状の生物学的指標として分類することと、を含む、コンピュータ実装方法。
【請求項2】
メンバーシップクラスタリング操作のグレードで前記RNA発現データの前記クラスタリングを実行することをさらに含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記生物学的指標に対応する少なくとも1つのクラスターが同定されるまで、前記RNA発現データに対して前記メンバーシップクラスタリング操作の前記グレードを繰り返し実行することをさらに含む、請求項2に記載のコンピュータ実装方法。
【請求項4】
前記生成されたデコンボリューションされたRNA発現データモデルが、前記RNA発現データ中の複数のサンプルを反映する第1の次元および複数の遺伝子を反映する第2の次元を含む、請求項1に記載のコンピュータ実装方法。
【請求項5】
前記RNA発現データが、生のRNA発現データまたは正規化されたRNA発現データである、請求項1に記載のコンピュータ実装方法。
【請求項6】
前記正規化されたRNA発現データが、少なくとも1つの参照遺伝子発現データセットからのRNA発現データを含む、請求項5に記載のコンピュータ実装方法。
【請求項7】
前記RNA発現データが、正常組織サンプルからのRNA発現データを含み、前記少なくとも1つのクラスターが、前記生物学的指標として原発性癌に対応している、請求項1に記載のコンピュータ実装方法。
【請求項8】
前記RNA発現データが、転移性サンプルのRNA発現データを含み、前記少なくとも1つのクラスターが、前記生物学的指標として転移性癌に対応している、請求項1に記載のコンピュータ実装方法。
【請求項9】
前記生物学的指標が、急性リンパ性癌、急性骨髄性白血病、胞巣状横紋筋肉腫、骨肉腫、脳腫瘍、乳癌(例えば、トリプルネガティブ乳癌)、肛門癌、肛門管癌、または肛門直腸癌、眼癌、肝内胆管癌、関節癌、頭頸部癌、胆嚢癌、または胸膜癌、鼻癌、鼻腔癌、または中耳癌、口腔癌、外陰癌、慢性リンパ性白血病、慢性骨髄性癌、結腸癌、食道癌、子宮頸癌、消化器癌(例えば、消化管カルチノイド腫瘍)、膠芽腫、ホジキンリンパ腫、下咽頭癌、血液悪性腫瘍、腎臓癌、喉頭癌、肝臓癌、肺癌(例えば、非小細胞肺癌(NSCLC)、小細胞肺癌(SCLC)、気管支肺胞癌)、悪性中皮腫、黒色腫、多発性骨髄腫、上咽頭癌、非ホジキンリンパ腫、卵巣癌、膵臓癌、腹膜、大網、腸間膜癌、咽頭癌、前立腺癌、直腸癌、腎癌(例えば、腎細胞癌(RCC))、小腸癌、軟部肉腫、胃癌、精巣癌、甲状腺癌、尿管癌、および膀胱癌からなる群から選択される、請求項1に記載のコンピュータ実装方法。
【請求項10】
前記腫瘍組織のサンプルが、肝臓組織、乳房組織、膵臓組織、結腸組織、骨髄、リンパ節組織、皮膚、腎臓組織、肺組織、膀胱組織、骨、前立腺組織、卵巣組織、筋肉組織、腸組織、神経組織、精巣組織、甲状腺組織、脳組織、体液サンプル、およびそれらの任意の組み合わせからなる群から選択された組織部位から得られる、請求項1に記載のコンピュータ実装方法。
【請求項11】
対象組織サンプルのRNA発現データを受信することと、
前記受信したRNA発現データを、1つ以上の細胞型の生物学的指標に対応すると同定された少なくとも1つのクラスターを含むデコンボリューションされたRNA発現モデルと比較することと、
前記比較に基づいて、前記対象組織サンプルに存在する1つ以上の細胞型を決定することと、を含む、コンピュータ実装方法。
【請求項12】
前記対象組織サンプルが、肝臓組織、乳房組織、膵臓組織、結腸組織、骨髄、リンパ節組織、皮膚、腎臓組織、肺組織、膀胱組織、骨、前立腺組織、卵巣組織、筋肉組織、腸組織、神経組織、精巣組織、甲状腺組織、脳組織、体液サンプル、およびそれらの任意の組み合わせからなる群から選択された組織部位から得られる、請求項11に記載のコンピュータ実装方法。
【請求項13】
前記1つ以上の細胞型が、細胞集団、細胞のコレクション、細胞の集団、幹細胞、および/またはオルガノイドを含む、請求項11に記載のコンピュータ実装方法。
【請求項14】
前記組織サンプルが、脳組織であり、前記1つ以上の細胞型が、ニューロン、グリア細胞、星状細胞、希突起膠細胞、および/またはミクログリア細胞を含む、請求項11に記載のコンピュータ実装方法。
【請求項15】
前記対象組織サンプルが、癌組織に由来している、請求項11に記載のコンピュータ実装方法。
【請求項16】
前記対象組織サンプルが、非癌性組織に由来している、請求項11に記載のコンピュータ実装方法。
【請求項17】
前記受信したRNA発現データを前記デコンボリューションされたRNA発現モデルと比較することが、前記受信したRNA発現データをデコンボリューションすることを含む、請求項11に記載のコンピュータ実装方法。
【請求項18】
腫瘍組織のサンプルのRNA発現情報を受信することと、前記RNA発現情報のデコンボリューションを生成することと、前記デコンボリューションに部分的に基づいて前記腫瘍組織の生物学的指標を決定することと、を含む、方法。
【請求項19】
前記生物学的指標が、癌種である、請求項18に記載の方法。
【請求項20】
前記腫瘍組織が、臓器に由来している、請求項18に記載の方法。
【請求項21】
前記腫瘍組織の前記生物学的指標が、転移性癌である、請求項20に記載の方法。
【請求項22】
前記デコンボリューションに部分的に基づいて前記腫瘍組織の生物学的指標を決定するステップが、濃縮された遺伝子発現を生成することと、生物学的指標データモデルで前記濃縮された遺伝子発現を分類することと、を含む、請求項18に記載の方法。
【請求項23】
濃縮された遺伝子発現を生成することが、複数のクラスターのうちの各クラスターへのパーセント割り当てを受信することと、各クラスターへの対応するメンバーシップの関連付けに部分的に基づいて、1つ以上の遺伝子の前記RNA発現情報をスケーリングすることと、を含む、請求項22に記載の方法。
【請求項24】
前記デコンボリューションに部分的に基づいて前記腫瘍組織の生物学的指標を決定するステップが、デコンボリューション中に実行され、前記デコンボリューションが、教師あり機械学習モデルおよび半教師あり機械学習モデルのうちの1つを用いて実行される、請求項18に記載の方法。
【請求項25】
前記デコンボリューションに部分的に基づいて前記腫瘍組織の生物学的指標を決定するステップが、デコンボリューションの後に実行され、前記デコンボリューションが、教師なし機械学習モデルを用いて実行される、請求項18に記載の方法。
【請求項26】
腫瘍組織のサンプルのRNA発現情報を受信することが、腫瘍の前記サンプルを配列決定してRNA発現情報を生成することを含む、請求項18に記載の方法。
【請求項27】
腫瘍組織を受け取ることが、外科的生検、皮膚生検、パンチ生検、前立腺生検、骨生検、骨髄生検、針生検、CTガイド下生検、超音波ガイド下生検、細針吸引、吸引生検、採血、および当技術分野で知られている腫瘍サンプル収集方法からなる群から選択される腫瘍生検法によって収集された組織サンプルを受け取ることを含む、請求項18に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本特許出願は、2018年12月31日に提出された米国仮特許出願第62/786,756号、2019年10月21日に提出された米国仮特許出願第62/924,054号、および2019年12月6日に提出された米国仮特許出願第62/944,995号の利益を主張する。前述の出願のすべては、参照によりその全体が本明細書に組み込まれる。特に、デコンボリューションのシステムおよび方法に関連する開示(例えば、標本に存在する細胞集団の量を決定するためのデコンボリューションの使用方法)に関して、「Multi-Modal Approach to Predicting Immune Infiltration Based on Integrated RNA Expression and Imaging Features」(2019年8月6日出願)と題する米国特許出願第16/533,676号および国際出願PCT/US19/45368号も、参照により本明細書に完全に組み込まれている。
【0002】
本開示は、混合細胞型集団のトランスクリプトーム分析、より具体的には、転移性腫瘍組織において定量化されたRNA転写物配列のデコンボリューションのための技術に関する。
【背景技術】
【0003】
本明細書に提供される背景技術の記載は、本開示の文脈を一般的に提示する目的のためのものである。この背景技術のセクションに記載されている範囲での現在名前が挙げられている発明者らの研究、および別の方法で出願時に従来技術と見なされていない可能性がある記載の態様は、明示的にも黙示的にも本開示に対する従来技術とは認められない。
【0004】
固形腫瘍は、腫瘍細胞、近傍の間質細胞および正常な上皮細胞、免疫細胞および血管細胞から構成される細胞集団の不均一な混合物である。標準的なRNA(リボ核酸)シーケンシング法による腫瘍サンプルのトランスクリプトームプロファイリングは、サンプリング時にサンプルに存在する細胞型の平均遺伝子発現を測定するものであり、サンプルには通常、腫瘍(標的)細胞および非腫瘍(非標的)細胞の両方が含まれている。発現プロファイルは、主にサンプルの腫瘍構造によって形成される。腫瘍の純度、すなわちサンプル中の癌細胞の比率は、シーケンシングの結果、ゲノムの解釈、および結果として提案される臨床転帰との関連性に直接影響を与える場合がある。換言すれば、臨床腫瘍サンプルは細胞の混合集団を含み、その多くは非腫瘍細胞であるため、結果として得られる遺伝子発現プロファイルは、臨床的に関連する関連性を簡潔に明らかにしない場合がある。腫瘍の純度への依存とそれがゲノム解釈にもたらす課題は、転移性癌で最も顕著であり、腫瘍および非癌性バックグラウンド組織は、腫瘍が転移したバックグラウンド組織とは異なる組織に由来する腫瘍に起因して、異なる遺伝子発現プロファイルを有する可能性がある。換言すれば、正常な隣接細胞から腫瘍へのRNA発現は、所与の遺伝子に関連する発現シグナルを増加または流失させ、過剰発現または過少発現、ならびにその後の推奨される治療の誤った解釈につながる可能性がある。
【0005】
腫瘍の不均一性を理解し、癌の転写プロファイルをモデル化することを目的として、腫瘍細胞の細胞型特異的発現プロファイルを推定するための複数の計算アプローチが開発されている。これらの方法は、主に腫瘍サンプルからの免疫細胞の解離に焦点を当てており、十分に特徴付けられた細胞型特異的遺伝子からの既知の発現リファレンス、または精製された細胞集団からのトランスクリプトームを必要とする。既存の方法にもかかわらず、収集された組織に不要な正常細胞を含む細胞集団の調査された混合物から腫瘍遺伝子の発現をデコンボリューションすることは、依然として困難な課題となっている。トランスクリプトームデコンボリューション技術の向上が求められている。
【発明の概要】
【0006】
本出願は、トランスクリプトームデコンボリューションのための新規技術、特に、トランスクリプトームデコンボリューションを使用して転移性癌サンプルを評価するための技術を提示するものである。一例では、本技術は、複数の癌種の転移性腫瘍を検査するために使用される。
【0007】
一例では、本技術は、腫瘍または癌細胞であるサンプルの比率を、正常細胞であるサンプルの比率と比較して定量化することを含む。一例では、サンプルは、4,754個の癌および肝臓の正常なサンプルである。本技術には、混合物サンプル中の非腫瘍細胞の比率を推定するためのトランスクリプトームシグネチャの定量化が含まれ得る。特定の手法には、健康な組織であると推定されるサンプルの比率に基づいて、参照サンプルに対して回帰ベースのアプローチで遺伝子発現プロファイルを調整することが含まれる。かかる腫瘍における遺伝子発現プロファイルの調整は、例えば、とりわけ、癌種の予測、遺伝子および経路活性の過剰発現および過少発現の検出、癌分子サブタイプ/ネットワークの特性評価、バイオマーカーの発見、および臨床的関連性など、サンプル中の腫瘍特徴を正確にモデル化するために利用され、治療に対するより良い反応または抵抗性を通知し得る。
【0008】
一部の例では、本技術により、転移性サンプルが定量化され得る。一例では、4,754個の癌および肝臓の正常なサンプルのセットの各サンプルの肝臓の比率が定量化されており、これを使用して、非負の最小二乗モデルを訓練し、混合サンプルの肝臓の比率が推定される。肝臓の正常なサンプルは、非腫瘍性の肝臓組織であり得る。サンプルから得られた情報は、測定されたRNAレベルなどのRNA発現データであり得る。混合サンプルは、転移性組織サンプルであり得、当該転移性組織サンプルには、生検または外科的除去の一部として含まれ得る、腫瘍および転移した腫瘍に隣接する正常組織などのバックグラウンドの非腫瘍癌部位細胞が含まれる。次に、混合サンプル全体の推定肝臓比率を利用して、回帰ベースのアプローチで遺伝子発現プロファイルを調整することができる。本技術は、肝臓サンプルおよび肝臓癌に使用されると説明されているが、それらのサンプルが転移性であるかどうかにかかわらず、他の種類の組織サンプルまたは癌に拡張することができる。正常組織の例には、肝臓、脳、肺、リンパ節、骨髄、骨、腹部、胸膜、または人体の任意の部分が含まれるが、これらに限定されない。混合物サンプルには、免疫細胞(樹状細胞、リンパ球、マクロファージなどを含む)がさらに含まれ得る。
【0009】
一部の態様での癌は、急性リンパ性癌、急性骨髄性白血病、胞巣状横紋筋肉腫、骨肉腫、脳腫瘍、乳癌(例えば、トリプルネガティブ乳癌)、肛門癌、肛門管癌、または肛門直腸癌、眼癌、肝内胆管癌、関節癌、頭頸部癌、胆嚢癌、または胸膜癌、鼻癌、鼻腔癌、または中耳癌、口腔癌、外陰癌、慢性リンパ性白血病、慢性骨髄性癌、結腸癌、食道癌、子宮頸癌、消化器癌(例えば、消化管カルチノイド腫瘍)、膠芽腫、ホジキンリンパ腫、下咽頭癌、血液悪性腫瘍、腎臓癌、喉頭癌、肝臓癌、肺癌(例えば、非小細胞肺癌(NSCLC)、小細胞肺癌(SCLC)、気管支肺胞癌)、悪性中皮腫、黒色腫、多発性骨髄腫、上咽頭癌、非ホジキンリンパ腫、卵巣癌、膵臓癌、腹膜、大網、腸間膜癌、咽頭癌、前立腺癌、直腸癌、腎癌(例えば、腎細胞癌(RCC))、小腸癌、軟部肉腫、胃癌、精巣癌、甲状腺癌、尿管癌、および膀胱癌からなる群から選択される。本明細書における癌のリストは、範囲を網羅することを意図するものではなく、他の癌も同様に考慮され得る。
【0010】
一例では、コンピュータ実装方法は、複数のサンプルに対応するRNA発現データに対してクラスタリングを実行することであって、各サンプルが、複数のクラスターのうちの少なくとも1つに割り当てられる、実行することと、1つ以上の病状の生物学的指標に対応すると同定された少なくとも1つのクラスターを含むデコンボリューションされたRNA発現データモデルを生成することと、腫瘍組織のサンプルの追加のRNA発現データを受信することと、デコンボリューションされたRNA発現データモデルに部分的に基づいて、追加のRNA発現データをデコンボリューションすることと、腫瘍組織のサンプルを1つ以上の病状の生物学的指標として分類することと、を含む。
【0011】
一部の例では、RNA発現データのクラスタリングは、メンバーシップクラスタリング操作のグレードを使用して実行される。一部の例では、メンバーシップクラスタリング操作のグレードは、生物学的指標に対応する少なくとも1つのクラスターが同定されるまで繰り返し実行される。他の例では、RNA発現データのクラスタリングは、非負行列因子分解操作を使用して実行される。
【0012】
一部の例では、生成されたデコンボリューションされたRNA発現データモデルは、RNA発現データ中の複数の遺伝子を反映する第1の次元および複数のサンプルを反映する第2の次元を含む。
【0013】
別の例によれば、コンピュータ実装方法は、対象組織サンプルのRNA発現データを受信することと、受信したRNA発現データを、1つ以上の病状の生物学的指標に対応すると同定された少なくとも1つのクラスターを含むデコンボリューションされたRNA発現モデルと比較することと、比較に基づいて、対象組織サンプルの病理型を決定することと、を含む。
【0014】
一部の例では、受信したRNA発現データをデコンボリューションされたRNA発現モデルと比較することは、受信したRNA発現データをデコンボリューションすることを含む。
【0015】
別の例によれば、コンピュータ実装方法は、対象組織サンプルのRNA発現データを受信することと、受信したRNA発現データを、1つ以上の細胞型の生物学的指標に対応すると同定された少なくとも1つのクラスターを含むデコンボリューションされたRNA発現モデルと比較することと、比較に基づいて、対象組織サンプルに存在する1つ以上の細胞型を決定することと、を含む。
【0016】
一部の例では、1つ以上の細胞型は、細胞集団、細胞のコレクション、細胞の集団、幹細胞、および/またはオルガノイドを含む。
【0017】
別の例によれば、方法は、腫瘍組織のサンプルのRNA発現情報を受信することと、RNA発現情報のデコンボリューションを生成することと、デコンボリューションに部分的に基づいて腫瘍組織の生物学的指標を決定することと、を含む。
【0018】
一部の例では、生物学的指標は癌種である。一部の例では、腫瘍組織の生物学的指標は転移性癌である。
【0019】
一部の例では、腫瘍組織の生物学的指標を決定することは、濃縮された遺伝子発現を生成することと、生物学的指標データモデルにおける濃縮された遺伝子発現を分類することと、を含む。一部の例では、濃縮された遺伝子発現を生成することは、複数のクラスターの各クラスターへのメンバーシップの関連付けを受け取ることと、各クラスターへの対応するメンバーシップの関連付けに部分的に基づいて、1つ以上の遺伝子のRNA発現情報をスケーリングすることと、を含む。
【0020】
一部の例では、デコンボリューションは、教師あり機械学習モデル、半教師あり機械学習モデル、または教師なし機械学習モデルを使用して実行される。
【0021】
一部の例では、RNA発現データは生のRNA発現データである。一部の例では、RNA発現データは正規化されたRNA発現データである。
【0022】
本技術は、RNA発現データをデコンボリューションするために使用されると説明されているが、例えば、遺伝子配列アナライザによって測定されたDNAリードカウントを含むDNAリードカウントデータをデコンボリューションするように拡張することができる。
【図面の簡単な説明】
【0023】
以下に記載される図面は、本明細書で開示されるシステムおよび方法の様々な態様を示す。各図は、本システムおよび方法の態様の一例を示していることを理解されたい。
【0024】
図1】一例による、RNA発現データに対してデコンボリューションを実行するためのデコンボリューションフレームワークを有する例示的なコンピュータ処理システムの概略図である。
【0025】
図2】一例による、図1のシステムによって実行され得る、正規化された転移性サンプルRNA発現データからデコンボリューションされたRNA発現データを生成するための例示的なプロセスのブロック図である。
【0026】
図3】一例による、図2のデコンボリューションされたRNA発現データ生成プロセスの例示的な実装形態のブロック図である。
【0027】
図4】一例による、ブロック312のデコンボリューション回帰モデルの開発の例示的な実装形態のブロック図である。
【0028】
図5】参照組織サンプルの遺伝子発現プロファイルの主成分分析(PCA)のプロットである。
【0029】
図6図1のデコンボリューションフレームワークの例示的な実施形態における、K=15のクラスターを有するメンバーシップグレード(GoM)モデルの比率のプロットである。22の癌と正常な肝臓からの4,754個のサンプルに対して、K=15のクラスターを適合させた。各サンプルは、15個のクラスターに対するメンバーシップの比率の水平棒グラフとして表されている。サンプルは、癌種/組織型ごとに並べ替えられ、各グループ内のK=1のクラスター比率で並べ替えられている。
【0030】
図7図6の4,754個のサンプルの一例について、癌種および組織型によるGoMクラスターK=5の分布を示す。示されているように、正常な肝臓のGTExおよびTCGA lihcサンプルは、K=5潜在因子の比率が最も高く、TCGA原発性癌は最も低くなっている。
【0031】
図8】一例による、デコンボリューションフレーム、具体的にはフレームワークによって生成された肝臓デコンボリューションモデルの1つを除外した検証の結果を示す。腫瘍推定値の非負の最小二乗(NNLS)モデルは、本手法のGoM比率(r=0.98)と高度に相関していることが示されている。
【0032】
図9】一例による、肝転移のデコンボリューション前(図9)およびデコンボリューション後(図10)の膵臓コホートの主成分分析のプロットである。PCA分析には、(バックグラウンド組織部位で標識された)65個の膵臓サンプル、TCGA原発性肝臓(lihc)および膵臓(paad)サンプル、GTEx正常肝臓サンプルが含まれていた。デコンボリューション後(図10)、肝臓転移サンプルは他のすべての膵臓癌サンプルとグループを形成している。
図10】(同上)
【0033】
図11A】2つの異なるサンプルについて、乳房と肝臓のインシリコ混合物のPCA分析とデコンボリューションされたモデリング結果のプロットである。示されているように、肝臓混合物のRNA発現データにデコンボリューションが適用された後、肝臓サンプルの適切なグループ化が行われる。
図11B】(同上)
【0034】
図12】一例による、元のRNA発現データおよびデコンボリューションされたRNA発現データにおける発現コール(call)結果の要約である。値は、その遺伝子に少なくとも1つのサンプルがコールされた癌の中で、各グループにコールが存在するサンプルの比率である。
【発明を実施するための形態】
【0035】
本明細書で使用される場合、以下の用語は関連する意味を有する。
【0036】
「生物学的検証」とは、クラスターと相関する同定された遺伝子のセットと、組織サンプルの一部、組織サンプルに含まれる可能性のある細胞の種類、もしくは組織サンプル内の単一細胞を含む組織のサブセットと関連することが知られている、またはその可能性が高いRNA発現プロファイルで表される遺伝子とを比較し、既知のRNA発現プロファイル遺伝子とクラスターと相関する遺伝子との間の相関関係を決定し、クラスターとそのサブセットの組織の発現プロファイルとを関連付けることである。
【0037】
「クラスター」とは、その発現レベルが、RNA発現データセット内の複数のサンプル間で見られる分散の割合と相関している遺伝子のセットを指す。クラスターは、この遺伝子セットによって駆動されていると言える。ここで、「駆動」とは、このセット内の遺伝子の発現レベルが分散の割合を説明することを表す用語である。このセットの遺伝子の発現レベルは、分散に一貫して関連付けられているパターンを有し得る。例えば、セット内の所与の遺伝子の発現レベルは、共通の1つ以上の特徴を有するサンプルにおいてより高くなるか、またはより低くなり得る。あるいは、2つ以上の遺伝子の発現レベルは、1つ以上の共通の特徴を有するサンプルにおいて互いに直接相関し得るか、または逆相関し得る。サンプルの特徴には、サンプルの収集部位、組織の種類、またはサンプルに含まれる組織型の組み合わせなどが含まれ得る。
【0038】
「バイオインフォマティクスパイプライン」とは、パイプラインの一連の処理段階を意味しており、患者の腫瘍または正常組織または体液の次世代シーケンシング結果に関するバイオインフォマティクスレポートをインスタンス化して、患者のゲノムに存在するバリアントを抽出してレポートするものである。
【0039】
「デコンボリューション」は、例えばアルゴリズムプロセスを使用して、細胞型の混合集団からの発現データを解決して、1つ以上の構成細胞型の発現プロファイルを同定するプロセスを指す。
【0040】
「発現レベル」は、遺伝子または他の遺伝子座によって生成されたRNAまたはタンパク質分子のコピーの数を意味しており、染色体位置または他の遺伝地図指標によって定義され得る。
【0041】
「遺伝子産物」とは、遺伝子または他の遺伝子座の操作(転写を含む)によって生成される分子(タンパク質またはRNA分子を含む)を意味しており、染色体位置または他の遺伝地図指標によって定義され得る。
【0042】
「遺伝子アナライザ」とは、生物学的標本(腫瘍、生検、腫瘍オルガノイド、血液サンプル、唾液サンプル、または他の組織もしくは体液を含む)に存在する核酸分子(DNA、RNAなどを含む)の特性(配列を含む)を決定するためのデバイス、システム、および/または方法を意味する。
【0043】
「遺伝子プロファイル」とは、次世代シーケンシングから患者に対して決定された1つ以上の変異体、RNAトランスクリプトーム、またはその他の有益な遺伝的特徴の組み合わせを意味する。
【0044】
「遺伝子配列」とは、患者の組織または体液の配列決定から決定された、患者のRNAまたはDNAに存在する一連のヌクレオチドの記録を意味する。
【0045】
「転移性サンプル」とは、サンプルが採取された臓器とは異なる臓器から生じた腫瘍のサンプルを指す。
【0046】
「混合純度転移性癌サンプル」は、隣接する非癌性組織を含む転移性サンプルを指す。
【0047】
「正常サンプル」とは、非腫瘍組織のサンプルを指す。
【0048】
「原発性サンプル」とは、サンプルが採取されたのと同じ臓器から生じた腫瘍のサンプルを指す。
【0049】
「リード」とは、サンプルからのシーケンスがシーケンサーによって検出された回数を指す。
【0050】
「RNAリードカウント」とは、遺伝子アナライザから生成されたRNAまたはcDNAのリードカウントを意味する。
【0051】
「シーケンス深度」とは、サンプル内のヌクレオチドごとに繰り返されるリードの総数を指す。
【0052】
「シーケンシングプローブ」とは、染色体の遺伝子座に存在するRNAまたはDNAのヌクレオチドの予想される配列に基づいて、その遺伝子座に付着する化学物質のコレクションを意味する。
【0053】
「ターゲットパネル」とは、1つ以上の染色体上の1つ以上の遺伝子座をマッピングするために選択された、患者の生物学的標本(腫瘍、生検、腫瘍オルガノイド、血液サンプル、唾液サンプル、またはその他の組織もしくは体液を含む)の次世代シーケンシング用のプローブの組み合わせを意味する。
【0054】
「バリアント」とは、参照遺伝子配列または予想される遺伝子プロファイルと比較した場合の遺伝子配列または遺伝子プロファイルにおける差異を意味する。
【0055】
遺伝子発現データに対してデコンボリューションを実行し、遺伝子発現分析のためのデコンボリューションモデルを開発するためのシステムを図1に示している。システム100は、本明細書の技術を実施するためのコンピューティングデバイス101を含む。図示のように、コンピューティングデバイス101は、デコンボリューションフレームワーク102およびRNA正規化フレームワーク104を含む。これらは両方とも、1つ以上の処理装置、例えば、中央処理装置(CPU)、および/またはCPUおよび/またはGPUのクラスターを含む1つ以上のグラフィック処理装置(GPU)に実装することができる。デコンボリューションフレームワーク102および正規化フレームワーク104について説明された特徴および機能は、コンピューティングデバイス101の1つ以上の非一時的なコンピュータ可読媒体に格納され、そこから実装され得る。コンピュータ可読媒体は、例えば、オペレーティングシステムおよびフレームワーク102および104を含んでもよい。より一般的には、コンピュータ可読媒体は、本明細書の技法を実装するために、フレームワーク104のバッチ正規化プロセス命令およびフレームワーク102のデコンボリューションプロセス命令を格納することができる。コンピューティングデバイス101は、アマゾンウェブサービスクラウドコンピューティングソリューションなどの分散コンピューティングシステムであり得る。
【0056】
コンピューティングデバイス101は、携帯型パーソナルコンピュータ、スマートフォン、電子文書、タブレット、および/もしくはデスクトップパーソナルコンピュータ、または他のコンピューティングデバイスへ通信するために、あるいはそれらから通信するためにネットワーク106に通信可能に結合されたネットワークインターフェースを含む。コンピューティングデバイスは、デジタルディスプレイ、ユーザー入力デバイスなどのデバイスに接続されたI/Oインターフェースをさらに含む。
【0057】
フレームワーク102および104の機能は、通信リンクを介して互いに接続された分散コンピューティングデバイス152、154などにわたって実装され得る。他の例では、システム100の機能は、示される携帯型パーソナルコンピュータ、スマートフォン、電子文書、タブレット、およびデスクトップパーソナルコンピュータデバイスを含む、任意の数のデバイスに分散され得る。コンピューティングデバイス101は、ネットワーク106および別のネットワーク156に通信可能に結合され得る。ネットワーク106/156は、インターネットなどのパブリックネットワーク、研究機関もしくは企業のネットワークなどのプライベートネットワーク、またはそれらの任意の組み合わせであり得る。ネットワークには、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、セルラー、衛星、または無線か有線かを問わず、その他のネットワークインフラストラクチャが含まれる。ネットワークは、インターネットプロトコル(IP)、伝送制御プロトコル(TCP)、ユーザーデータグラムプロトコル(UDP)、または他のタイプのプロトコルなどのパケットベースおよび/もしくはデータグラムベースのプロトコルを含む通信プロトコルを利用できる。さらに、ネットワークは、スイッチ、ルーター、ゲートウェイ、アクセスポイント(示されているような無線アクセスポイントなど)、ファイアウォール、基地局、リピーター、バックボーンデバイスなど、ネットワーク通信を容易にし、かつ/またはネットワークのハードウェア基盤を形成する複数のデバイスを含むことができる。
【0058】
コンピュータ可読媒体は、本明細書の技術にコンピュータをプログラミングするために(例えば、プロセッサ(複数可)およびGPU(複数可)を含む)、コンピュータ上に格納された実行可能なコンピュータ可読コードを含み得る。かかるコンピュータ可読記憶媒体の例として、ハードディスク、CD-ROM、デジタル多用途ディスク(DVD)、光記憶装置、磁気記憶装置、ROM(リード専用メモリ)、PROM(プログラム可能なリード専用メモリ)、EPROM(消去可能なプログラム可能なリード専用メモリ)、EEPROM(電気的に消去可能なプログラム可能なリード専用メモリ)、およびフラッシュメモリが挙げられる。より一般的には、コンピューティングデバイス200の処理ユニットは、CPUタイプの処理ユニット、GPUタイプの処理ユニット、フィールドプログラマブルゲートアレイ(FPGA)、別のクラスのデジタルシグナルプロセッサ(DSP)、またはCPUで駆動できるその他のハードウェアロジックコンポーネントを表し得る。
【0059】
コンピューティングデバイス101は、遺伝子発現データセット116などのデータベースから遺伝子発現カウントデータを受信するように結合されている。一例では、遺伝子発現データは、正規化されたカウントまたは生のRNA発現カウントであり得る。これは、特定の遺伝子のRNAが、配列アナライザまたは遺伝子配列を検出するための別のデバイスによってサンプルにおいて検出された回数を報告するものである。コンピューティングデバイス101は、通信ネットワーク106を介して多数の異なる外部ソースから遺伝子発現データを受信するように結合することができる。コンピューティングデバイス101は、例えば、医療提供者、研究機関、研究室、病院、医師グループなどに結合されてもよい。これにより、RNA配列決定データセットの形態で保存された遺伝子発現データが利用可能となる。外部遺伝子発現データセットの例には、Cancer Genome Atlas(TCGA)データセット118およびGenotype-Tissue Expression(GTEx)データセット120が含まれる。いずれも、正規化フレームワーク104によって正規化され、データセット116などの、遺伝子発現データのすでに正規化されたデータベースに組み込まれ得る確立された遺伝子発現データセットの例である。遺伝子発現データセット116は、正規化されたデータセットであり得る。遺伝子発現データを正規化する方法は、2019年9月24日に出願された米国特許出願第16/581,706号に開示されており、その全体が参照により組み込まれている。遺伝子発現データセットは、例えば、ネットワークにアクセス可能な外部データベースまたは内部データベースから取得されてもよい。遺伝子発現データセットには、RNA seqデータが含まれ得る。遺伝子名、(遺伝子長を決定するための)開始点および終了点、遺伝子の内容(「GC」)などの情報を含む遺伝子情報テーブルにアクセスし、結果の情報を使用して、遺伝子発現データセット116を分析するためのサンプル領域を決定することができる。
【0060】
一例では、さらなる正規化を実行することができる。例えば、GC含量の正規化は、第1の完全分位数正規化プロセス、例えばRパッケージEDASeqおよびDESeq正規化プロセス(Bioconductor、Roswell Park Comprehensive Cancer Center、ニューヨーク州バッファロー、https://bioconductor.org/packages/release/bioc/html/DESeq.htmlより入手可能)のような分位数正規化プロセスを使用して実行できる。次に、サンプリングされたデータのGC含量を、遺伝子発現データセットに対して正規化することができる。続いて、サンプルデータの遺伝子長に対して第2の完全分位数正規化を実行できる。シーケンス深度を補正するために、第3の正規化プロセスを使用でき、この第3の正規化プロセスにより、任意の所与のサンプル内の外れ値遺伝子発現値に過度に影響されることなく、サンプル間のシーケンス深度の全体的な差異を補正することができる。例えば、グローバルリファレンスは、すべてのサンプルにわたる各遺伝子の発現の幾何平均を計算することによって決定できる。サイズ係数を使用して、グローバルリファレンスに一致するようにサンプルを調整できる。サンプルの発現値をグローバルリファレンス幾何平均と比較して、各遺伝子の発現比(つまり、サンプル発現とグローバルリファレンス発現の比)のセットを作成することができる。サイズ係数は、これらの計算された比率の中央値として決定される。次に、サンプルは、グローバルリファレンスに一致するように、例えば、各遺伝子の遺伝子発現値をサンプルのサイズ係数で除算することによって、単一のサイズ係数補正によって調整される。GC全体の正規化、遺伝子長の正規化、および配列深度補正されたRNA seqデータは、正規化されたRNASeqデータとして保存され得る。次に、RNA Seqデータを何度もサンプリングし、統計マッピングを実行するか、線形変換モデルなどの統計変換モデルを各遺伝子に適用することにより、正規化されたRNA seqデータに対して補正プロセスを実行できる。対応する切片およびベータ値は、線形変換モデルから決定され得、RNA seqデータの補正係数として使用され得る。
【0061】
一部の例では、複数のデータセットを組み込むための正規化フレームワーク104は、GC含量、遺伝子長、およびシーケンス深度を含むがこれらに限定されない、データセット内の既知のバイアスを調整する遺伝子発現バッチ正規化プロセスを含む。正規化フレームワーク104は、遺伝子発現補正プロセスを含む。正規化フレームワーク104は、1つ以上の補正係数を生成することができ、これは、データセット118および120などの新規の遺伝子発現データセットを正規化データセットに変換するために正規化フレームワーク104によって適用される。これらの補正係数を適用すると、正規化フレームワーク104は、示されるように、既存の正規化され補正された遺伝子発現データセット117に統合するために、新規の遺伝子発現データセット116を正規化、補正、および変換することができる。既知のバイアスでは、例えば、データセットが異なるシーケンスプロトコルによって取得された場合、2つの正規化されていないデータセットが直接比較されない可能性がある。さらに、サンプル内の遺伝子配列の一部の特性により、シーケンサーがその配列を検出する可能性が変化する場合がある。遺伝子配列のヌクレオチドの分布(グアノシン(G)またはシトシン(C)およびアデニン(A)またはチミン(T)の割合)は、配列が増幅されて、シーケンサーによって検出される可能性に影響を与える場合がある。同様に、遺伝子配列の長さが短くなり、シーケンス深度が浅くなると、遺伝子レベルの配列リードの検出および定量化の可能性が低くなる。このような場合、正規化プロセスでは、リード数に補正係数を乗算して、リード数を調整し、サンプル内のこれらの配列の実際の分子コピー数をより適切に反映させている。
【0062】
デコンボリューションフレームワーク102は、正規化された遺伝子発現データを受信し、クラスタリングプロセスを使用してかかるデータを変更して、対象の1つ以上の細胞型に関連する1つ以上の遺伝子発現クラスターが検出されるように、クラスターの数Kを最適化するように構成することができる。その後の遺伝子発現クラスターの分析により、かかるデータ内の癌特異的クラスタータイプが決定され得る。デコンボリューションフレームワークは、以下の図2に関してより詳細に議論される。
【0063】
デコンボリューションされた遺伝子発現データは、ダウンストリーム遺伝子発現データ分析で使用することができ、混合サンプル遺伝子発現データを分析するよりも正確な結果を得ることができる。例えば、混合サンプルの遺伝子発現データの分析では、混合サンプルの癌組織ではなく、バックグラウンド組織を反映した結果が返され得る。ダウンストリーム遺伝子発現データ分析の例には、どの遺伝子が過剰発現または過少発現しているかの決定、コンセンサス分子サブタイプの決定、(特に原因不明の腫瘍の場合の)サンプルに存在する癌種の予測、浸潤リンパ球の検出、どの細胞活性経路が調節不全であるかの決定、バイオマーカーの発見、これらの下流分析のいずれかの結果に基づくマッチング療法または臨床試験、ならびにこれらのダウンストリーム分析の結果に基づく臨床試験またはオルガノイド実験の設計が含まれる。
【0064】
一例では、混合サンプル遺伝子発現データを分析することにより肝臓から生検された転移性サンプルに存在する癌種を予測することで、実際には転移性乳癌であるのに、肝臓癌がサンプルに存在すると予測される場合がある。
【0065】
別の例では、デコンボリューションフレームワーク102は、混合サンプルに関連するDNAリードカウントデータを受信し、DNAリードカウントデータをデコンボリューションして、混合サンプル内の組織型の1つについてデコンボリューションされたDNAリードカウントデータを提供する。このデコンボリューションされたDNAリードカウントデータは、ダウンストリームDNAデータ分析で使用でき、混合サンプルDNAリードカウントデータを分析するよりも正確な結果を得ることができる。ダウンストリームDNAデータ分析の例として、バリアントの検出、バリアント対立遺伝子画分の計算、コピー数多型の検出、相同組換え欠損の検出、バイオマーカーの発見、これらのダウンストリーム分析の結果に基づくマッチング療法または臨床試験、ならびにこれらのダウンストリーム分析の結果に基づく臨床試験またはオルガノイド実験の設計が挙げられる。
【0066】
図2は、RNA発現データに対して例示的なデコンボリューションを実行するために、システム100、特にデコンボリューションフレームワーク102によって実行され得るプロセス200を示している。ブロック202において、システム100は、例えば、正規化されたRNA配列データベース116から、正規化されたRNA発現データを受信する。一部の例では、システム100は、例えば、正規化フレームワーク104を参照して説明されるように、正規化されたRNA発現データを生成するように構成される。RNA発現データには、癌組織サンプルおよび正常組織サンプルなど、種々の組織サンプルのデータが含まれ得る。本明細書の種々の例に記載されているように、RNA発現データは、癌と正常組織の混合物を含む転移性組織サンプルを含み得る。サンプルは、例えば、肝臓組織、乳房組織、膵臓組織、結腸組織、骨髄、リンパ節組織、皮膚、腎臓組織、肺組織、膀胱組織、骨、前立腺組織、卵巣組織、筋肉組織、腸組織、神経組織、精巣組織、甲状腺組織、脳組織、および体液サンプル(唾液、血液など)を含む、任意の組織型に由来し得る。サンプルはまた、オルガノイド(例えば、腫瘍に由来し、インビトロで成長したオルガノイド)であり得る。
【0067】
ブロック204において、デコンボリューションフレームワーク102は、正規化されたRNA発現データを分析し、デコンボリューションモデルを適用して、目的の細胞型(腫瘍または他の型の癌組織)ではない細胞集団から発現データを除去する。一部の例では、ブロック204は、教師なしまたは教師ありクラスタリング技術などの機械学習アルゴリズムを使用してデコンボリューションモデルを実装し、遺伝子発現データを調べて、データに存在する腫瘍対正常細胞集団のレベルを定量化する。ブロック204は、例えば、異常検出、人工ニューラルネットワーク、期待値最大化、特異値分解などのような任意の数の機械学習アルゴリズムを適用することができる。一部の例では、ブロック204は、機械学習技術を適用することができる。クラスタリングの代わりに使用され得る他の機械学習手法の例として、サポートベクター機械学習、決定木学習、関連ルール学習、ベイジアン手法、およびルールベースの機械学習が挙げられる。
【0068】
一部の例において、そして本明細書でさらに議論されるように、ブロック204は、デコンボリューションモデルを適用して組織の複数のサンプルを分析して、RNA発現データの1つ以上の相関クラスターおよびその後のRNA発現データにおける組織および癌種を同定するためのそれらのクラスターに対応する遺伝子を同定する。クラスタリングプロセスを完了した後、ブロック204は、癌患者からの組織サンプルから生成されたRNA発現データなど、その後に受信されたRNA発現データを検査するための訓練されたモデルとして使用するために(ブロック206に)格納されるデコンボリューションされたRNA発現モデルを生成する。例えば、デコンボリューションされたRNA発現モデルには、潜在因子に対応する退行したクラスター、例えば、特定の癌種または類似の発現プロファイルを有する細胞集団に対応する遺伝子発現データのクラスター、特に、デコンボリューションされたRNA発現モデルを生成するために発現データから減算される(例えば、回帰された)混合サンプルRNA発現データに影響を与える細胞集団に対応するクラスターが含まれ得る。これらのデコンボリューションされたRNA発現モデルは、以下の例に示すように、正常または混合された畳み込みRNA発現データとは異なる過剰発現遺伝子および過少発現遺伝子を示すことができ、過剰発現および過少発現遺伝子のリストに基づいて癌種をより正確に予測する。次に、生成された訓練されたデコンボリューションされたモデルは、ブロック208で、後続のRNA発現データに適用され得る。
【0069】
デコンボリューションされたRNA発現モデルによって調べたRNA発現データを使用して、どの遺伝子または関連遺伝子のネットワークが腫瘍組織と正常組織との間で異なる発現レベルを有するかを判別することができる。デコンボリューションされたRNA発現データに対する畳み込みRNA発現データにおける発現レベルの例示的な差異が図12に示されている。種々の態様において、腫瘍発現レベルを正常組織レベルと比較することにより、どの遺伝子または遺伝子ネットワークが、治療によって調整または標的化され得る正常組織よりも腫瘍組織においてより高い発現レベルまたはより低い発現レベルを有するかを判別することで、バイオマーカーの発見が可能になる。かかる比較により、癌の種類または癌の起源を予測し、突然変異を遺伝子発現パターンに関連付け、腫瘍遺伝子発現プロファイルを、そのプロファイルを有する患者の反応を予測し得る癌治療のリストに関連付けることができる。
【0070】
デコンボリューションの一部として、分析されるデータセット内の関連遺伝子の遺伝子またはネットワークの数は、数千または数万になり得る。
【0071】
図3は、プロセス200を実装するためにシステム100によって実行され得る、デコンボリューションRNA発現データモデルを生成するためのプロセス300の詳細な例示的な実装形態を示している。初期訓練モードでは、参照RNA発現データはブロック302で受信される。この参照RNA発現データは、外部および/または内部データセットからの正規化されたRNA発現データであり得る。外部データセットには、TCGAデータベース118およびGTExデータベース120などの遺伝子発現データベースからのRNA配列データが含まれ得る。これは、正規化されたデータベース116などのデータベースに正規化されない場合がある。RNA発現データは、NxG行列で構成できる。ここで、Nはサンプルの数、Gは遺伝子の数である。遺伝子に関連する発現レベル値は、その遺伝子の産物であり得るすべての転写物(例えば、スプライスバリアントおよび/またはアイソフォーム)の合計量を表し得、あるいは発現レベルは、その遺伝子に関連する単一の転写物または転写物のサブセットであり得る。一例では、ヒトゲノムに関連する約19,000個の遺伝子および約160,000の固有の転写物が存在する。一部の例では、RNA発現データは、正常サンプル、原発性サンプル(乳房組織からの乳房腫瘍など)、および転移サンプル(肝臓組織からの乳房腫瘍など)からのデータを含む。一部の例では、原発性サンプルが利用できないか、または大量には利用できない場合、原発性サンプルの癌種に一致する組織由来の非癌性サンプル(例えば、原発性乳癌サンプルの代わりとして非癌性乳癌組織)を、原発性サンプルの代わりに、または原発性サンプルに加えて使用することができる。
【0072】
ブロック304は、ブロック302からRNA発現データを受信し、処理装置によって実行されるクラスタリングアルゴリズムを用いてRNA発現データを分析する。図示の例では、クラスタリングアルゴリズムには、メンバーシップのグレード(GoM)モデルを適用できる。これは、クラスタリングアルゴリズムの実行時に、サンプリングされたRNA発現データが複数のクラスターで部分的なメンバーシップを有することを可能にする混合モデルである。例えば、各サイクルにおいて、RNA発現データ内のN個の各サンプルは、K個のクラスターのそれぞれにおける割合メンバーシップを割り当てられ得る。このコンピューティングデバイスは、サンプルが各RNA発現データセットにわたってクラスター化されるまで、処理ループ306を介してプロセスを継続する。クラスタリングアルゴリズムは、CountClustアルゴリズム(Bioconductor、Roswell Park Comprehensive Cancer Center、ニューヨーク州バッファロー、https://bioconductor.org/packages/CountClust/で入手可能)を使用して実装できる。例えば、メンバーシップのグレードは、K=10、12、14、16、および24個のクラスターの正規化されたlog10遺伝子発現カウントへの適合を使用してCountClustに実装できる。遺伝子またはタンパク質のリストのメンバーのいずれかが、統計的に予想されるよりも多く表される遺伝子またはタンパク質のクラスを有しているかどうかを特定する遺伝子濃縮は、goseq Rパッケージ(Bioconductor、Roswell Park Comprehensive Cancer Center、ニューヨーク州バッファロー、https://bioconductor.org/packages/release/bioc/html/goseq.htmlで入手可能)のプロセス手順を使用して、各クラスターについて報告された上位1,000個の駆動遺伝子について計算することができる。他の例では、代替アルゴリズムを使用して、クラスターの最適な数を決定することができる。別の例では、非負行列因子分解(NMF)を含むがこれに限定されない代替のクラスタリングアルゴリズムを実行することができる。種々の実施形態において、クラスタリングは教師なしであり、デコンボリューションのために純粋な組織または細胞型サンプルから生成された参照遺伝子発現プロファイルの使用を必要としない。
【0073】
クラスターの数は、ブロック304によって事前に決定されるか、または動的に設定され得る。例えば、クラスターの数は、RNA発現データでサンプリングされる組織の種類、検査される癌種または細胞集団の種類と不均一性、または参照サンプルのサンプルサイズ分布およびシーケンス技術の種類に依存し得る。例示的な訓練データセットには、組織正常サンプル、原発性サンプル、および転移サンプルからのRNA発現データが含まれ得る。代替の訓練セットには、他の生物学的指標(癌部位、転移、診断など)または病理分類(診断、不均一性、癌腫、肉腫など)に加えて、各サンプルをそれぞれのタイプの組織として特定するラベル、注釈、もしくは分類も含まれ得る。
【0074】
機械学習アルゴリズム(MLA)またはニューラルネットワーク(NN)は、訓練データセットから訓練することができる。MLAには、線形回帰、ロジスティック回帰、決定木、分類および回帰ツリー、単純ベイズ、最近傍クラスタリングを使用した教師ありアルゴリズム(データセット内の機能/分類に注釈が付けられているアルゴリズムなど)と、クラスタリング、主成分分析、ランダムフォレスト、適応ブーストを意味するAprioriを使用する教師なしアルゴリズム(データセット内の特徴/分類に注釈が付けられていないアルゴリズムなど)と、生成的アプローチ(ガウス分布の混合、多項分布の混合、隠れマルコフモデルなど)、低密度分離、グラフベースのアプローチ(最小カット、調和関数、多様体の正規化など)、ヒューリスティックアプローチ、またはサポートベクターマシンを使用した半教師ありアルゴリズム(データセット内の特定の機能/分類に注釈が付けられているアルゴリズムなど)と、が含まれる。NNには、条件付き確率場、畳み込みニューラルネットワーク、注意ベースのニューラルネットワーク、長期短期記憶ネットワーク、または訓練データセットに複数のサンプルと各サンプルのRNA発現データが含まれるその他のニューラルモデルが含まれる。MLAおよびニューラルネットワークは、機械学習への異なるアプローチを特定するが、これらの用語は本明細書では同じ意味で使用され得る。したがって、MLAの言及には、対応するNNが含まれ得、NNの言及には、対応するMLAが含まれ得る。
【0075】
訓練には、MLAがバックグラウンド組織からの転移腫瘍の比率を予測し、入力RNA発現セットのどの部分が腫瘍に起因する可能性があり、どの部分がバックグラウンド組織に起因する可能性があるかを特定できるように、組織正常サンプル、原発性サンプル、および転移サンプルのRNA遺伝子発現全体で共有される共通の発現特性を特定することが含まれ得る。一般的な発現特性は、各タイプの組織および/または腫瘍に対してどの遺伝子が過剰発現、発現、および/または過少発現すると予想されるかを含み得、各kクラスターについて対応する遺伝子として同定され得る。一例では、教師ありMLAを訓練するために、各サンプルに提供される注釈は、完全なトランスクリプトーム遺伝子発現データセット、癌種、組織部位、およびバックグラウンド組織の割合になる。一例では、肝臓の正常は100%のバックグラウンド組織と標識され、原発性癌は0%のバックグラウンド組織と標識される。
【0076】
ブロック304のプロセスを使用して部分的なメンバーシップでクラスター化されたサンプルを用いて、ブロック308で、コンピュータデバイスは、特定されたグレードのメンバーシップ潜在因子の所望による生物学的検証を実行することができる。このプロセスは、本例では遺伝子濃縮とも称され、遺伝子またはタンパク質のリストを分析して、統計的に予想されるよりも高い速度でリストのメンバーによって表される遺伝子またはタンパク質のクラスを特定する。例示的な実装形態では、対象のバックグラウンド組織に関連することが知られている遺伝子が濃縮された1つ以上のクラスターが、コンピューティングデバイスによって同定される。次に、ブロック308は、どの遺伝子がこれらのクラスターに最も寄与しているかを判別し、ブロック308は、これらの遺伝子が生物学的解釈を有することを検証する。検証のために、例えば、コンピューティングデバイスにより、同定された遺伝子は、検査対象である対象細胞集団に関連することが知られている特定の生物学的プロセスに関連する遺伝子の既存のデータベースと比較され得る。例えば、対象細胞集団は、肝細胞、腫瘍内の乳癌細胞などであり得る。このように、生物学的検証では、クラスターで過剰発現または過少発現されている遺伝子を分析し、それを細胞型で過剰発現または過少発現されていることが知られている遺伝子のリストと照合することによって、どの細胞型が各クラスターに関連しているかを判別し得る。例えば、クラスターが肝臓組織に関連する遺伝子(CYP遺伝子などを含む)の遺伝子発現が高い場合、この生物学的検証ステップにより、クラスターが肝細胞を表すと判別することができる。
【0077】
一実施形態では、生物学的検証には、所与のクラスター内の各サンプルの推定メンバーシップパーセントをそのサンプルの腫瘍純度推定値(または1-腫瘍純度)と比較して、クラスターがサンプル内の原発性癌細胞(またはバックグラウンド組織細胞)を表す可能性があるかどうかを判別することが含まれ得る。混合サンプルで知られている他の細胞型の比率推定値を同様の方法で使用して、クラスターをその細胞型に関連付けることができる。種々の例において、混合サンプルの腫瘍純度は、組織病理学的スライドの視覚的分析によって、またはサンプルに関連するDNAデータの生物情報学的分析によって決定され得る。
【0078】
ブロック304および308のプロセスは、クラスター最適化が完了するまで、フィードバック310を使用して実行され得る。クラスタリングを複数回適用して、種々の数のクラスターKを生成し、各クラスター内の各タイプの組織のすべてのサンプルのメンバーシップの割合を分析できる。最適な数のKクラスターは、1つ以上のクラスターのメンバーシップの合計がi)対象細胞集団(肝正常および肝癌など)を含む参照サンプルでの高い推定比率、ii)他の細胞型(非肝臓原発性癌など)での低い比率、ならびにiii)関連する生物学的経路の最も強力な有意な濃縮(肝臓のバックグラウンドを特定するための代謝プロセスなど)となるように選択することができる。
【0079】
ブロック308からブロック312において生物学的検証が完了すると、デコンボリューションフレームワーク102は、RNA発現データのデコンボリューション回帰モデルを開発する。デコンボリューション回帰モデルは、遺伝子発現レベルへの1つ以上のクラスターの寄与を計算し、サンプルの遺伝子発現データからそれらの寄与を取り除くことによって開発され得る。一例では、所与の遺伝子の発現レベルに対する所与のクラスターにおける特定のメンバーシップの割合の効果は、複数のサンプルに由来するRNA発現データの回帰を使用することによって計算され得る(x軸にクラスター内のサンプルのメンバーシップの割合としてプロットされ、y軸にその遺伝子のサンプルの発現レベルとしてプロットされる)。ブロック312は、例えば、回帰モデルとしてNxG値のデコンボリューションされたRNA行列、またはKXG値の第2の行列を伴うNXK値の第1の行列を格納する。この例では、Nは各サンプルを表し、Kは各クラスターを表し、Gは各遺伝子を表す。各サンプル、クラスター、および/または遺伝子の行列に、行または列が存在し得る。
【0080】
クラスターの数はブロック308で最適化できるため、本明細書に開示されるシステムおよび方法は、サンプル中に存在する細胞の数に制限を必要とせず、任意の数の細胞型について、各細胞型のデコンボリューションされたトランスクリプトームを生成するために使用され得る。一例では、混合サンプルは、生検収集部位からの転移性癌組織、免疫細胞、およびバックグラウンド組織を含み得る。人体の任意の部分は、肝臓組織、脳組織、肺組織、リンパ節、骨髄、骨、胸膜、腹部などを含むがこれらに限定されない、混合サンプル中のバックグラウンド組織型であり得る。免疫細胞には、複数の細胞型(リンパ球、マクロファージ、樹状細胞などを含む)が含まれ得、バックグラウンド組織は、複数の細胞型(間質細胞、上皮細胞、および臓器に特異的な細胞、例えば、肝臓の肝細胞を含む)を有し得る。混合サンプルは、複数のタイプの腫瘍細胞(例えば、クローン)および/または複数の免疫細胞型を含むオルガノイドであり得る。一例では、混合サンプルで予想される各細胞型は、生物学的検証ステップ中にクラスタリングアルゴリズムによって定義されたクラスターの少なくとも1つに割り当てられる。例えば、クラスタリングアルゴリズムは、K個のクラスターを同定し、次いで、生物学的検証ステップでは、これらの細胞型(例えば、免疫細胞、肝細胞、および内皮細胞)を表す遺伝子が濃縮されたクラスターを同定することにより、これらのクラスターのそれぞれの生物学的表現を決定する。次に、ブロック312で、それらの推定された比率の各々について別々の項を有する回帰モデルが構築され、複数のクラスターを説明する。一例では、各クラスターは、複数の細胞集団として解釈され得る。
【0081】
デコンボリューションされたRNA行列は、ブロック314で検証され得、これは、例えば、癌およびバックグラウンドRNA発現データのインシリコ混合物を使用することによって、インシリコ検証(すなわち、コンピュータ上で実行される検証)を実行し得る。検証では、デコンボリューションされたRNA行列が、サンプルから既知のインシリコ混合物のRNA発現を適切に同定しているかどうかを分析する。別の例では、ブロック314は、最近傍クラスタリングとして知られるグループ化分析を使用して、デコンボリューションの前後のRNA発現データセットを分析し、グループ化分析の結果を比較するなど、機械学習技術を使用して検証を実行する。この検証を適用して、デコンボリューションされたRNA行列の関連サンプルが、グループ化手法でソートされたときに同じ癌種の原発性サンプルとグループを形成することを確認できる。
【0082】
一例では、これらの検証を使用して、検出限界として機能するより低い最小腫瘍純度があるかどうかを判別することができる。例えば、癌の比率が閾値を下回るインシリコのサンプルのデコンボリューションされたRNA行列が、インシリコのサンプルの作成に使用された癌RNA発現データと類似していない場合、その閾値が検出限界になり得る。別の例では、腫瘍純度が閾値を下回るサンプルのデコンボリューションされたRNA行列が、グループ化手法でソートしたときに同じ癌種の原発性サンプルとグループを形成しない場合、その閾値が検出限界になり得る。
【0083】
別の例では、検証には、サンプルの母集団全体で、デコンボリューション中にサンプルのデータセットから減算された(例えば、回帰された)潜在因子リード(例えば、バックグラウンド組織リード)の数の分布の分析がさらに含まれ得る。ヒストグラムを使用して、各サンプルのデータセット(x軸)から特定の数のシーケンスリードを減算したサンプル数(y軸)を視覚化して、減算されたリードの分布が不均一であるかどうかを判別できる。分布が不均一でない場合、例えば、サンプルの大部分で減算されたリードが非常に少ないか、かつ/または多数のリードが減算されている場合、これは、デコンボリューションモデルの訓練に使用されるすべてのデータセットが比較可能であるとは限らないため、アルゴリズムが極小値または極大値を検出していることを示している可能性がある。バッチ効果、正規化の差異、または遺伝的データセット間の差異の他の原因により、データセットが比較できない場合がある。デコンボリューションモデルを最適化する前に、訓練データセット内のこの非互換性を(例えば、正規化フレームワーク104を使用して訓練データを正規化することによって)修正する必要があり得る。
【0084】
図2に戻ると、図2のブロック204における図3に関して上述したMLAの適用には、患者における転移性腫瘍のRNA発現データを受信することが含まれ得る。例えば、患者は、患者の体内の追加の場所に転移した乳癌と診断される場合があり、乳癌腫瘍が患者の肝臓に存在する場合がある。遺伝子配列アナライザによって処理された組織サンプルには、乳房腫瘍組織と健康な肝臓組織の両方が含まれている可能性があるため、配列決定される畳み込まれた混合組織サンプルには、両方の組織からの発現結果が含まれる可能性がある。両方の組織の遺伝子発現レベルは、混合サンプル全体の測定された遺伝子発現レベルに寄与する。
【0085】
図3に関して上記のように訓練された例示的なモデルにより、受信したRNA発現データを処理して、モデルの各クラスターのメンバーシップを同定することができる(すなわち、k=15モデルにおいて、kはクラスターの数であり、各サンプル各クラスターに関連付けられた15個の異なるメンバーシップ分類を受信する)。教師なしMLAでは、教師なしアルゴリズムが、各サンプルの分類を特に考慮することなく、類似した特徴に基づいてクラスター化するため、例示的なクラスターは、腫瘍を伴う特定の癌部位、腫瘍を伴わない癌部位、または転移腫瘍に割り当てられない場合がある。したがって、どの特徴がどの種類のサンプルに対応するかを特定することが容易でない場合がある。教師なしアプローチでは、1つ以上のクラスターのサンプルのメンバーシップによって発現レベルが影響を受けると予測される遺伝子のみが同定され、次に、これらの遺伝子の発現レベルを後処理で調整して(つまり、変量/多変量回帰を使用して)、任意のクラスターのメンバーシップのサンプルの割合の影響を打ち消す。
【0086】
特定のサンプルについて、MLA結果により、各クラスターのメンバーシップの割合が特定され得る(例えば、15%K、65%K、20%K13)。メンバーシップ出力のグレードの後処理には、RNA発現データのk、k、およびk13など、各クラスターの影響に対応する多変量回帰が含まれ得る。例示的な実施形態では、それぞれのクラスターの1つにメンバーシップを有するすべての訓練サンプルにおける1つの遺伝子の発現レベルに基づく線形回帰を使用して、各遺伝子について、回帰遺伝子発現レベルを計算することができる。例えば、クラスターが1000個のサンプルから派生した場合、各サンプルは、x軸にそのクラスターのメンバーシップの割合のグレード、y軸にサンプル内の所与の遺伝子の発現レベルを示すデータポイントとしてプロットでき、プロットされたデータポイントを近似するために回帰直線の方程式が計算され得る。回帰直線の方程式を使用して、xを最新のサンプルのメンバーシップの割合に置き換え、yを計算することができる。yは、そのクラスターのメンバーシップの割合によって説明される遺伝子の発現レベルである。一例では、そのクラスターの影響を除去するために、計算された発現レベルyを、その遺伝子の混合物サンプルで測定された総遺伝子発現レベルから減算することができる。別の例では、そのクラスターに関連付けられた各遺伝子の発現レベルは、線形回帰プロットのそのメンバーシップの割合での平均との関係で遺伝子の発現が低下する場所に基づいて、混合サンプルで測定された遺伝子発現レベルを増減するようにスケーリングできる。
【0087】
クラスターに関連するすべての遺伝子の発現レベルに対する各クラスターの影響を計算することにより(つまり、混合サンプルで測定された初期RNA遺伝子発現レベルを、各クラスターの効果の反数と合計することにより)、これらの要因を回帰させ、結果として得られるデコンボリューションされたRNA発現データをバイオマーカーまたはその他の生物学的指標について評価できる。教師ありまたは半教師ありMLAでは、例示的なクラスターが1つ以上のタイプのサンプル(特定の腫瘍のある癌部位、腫瘍のない癌部位、または転移性腫瘍)に割り当てられる。例えば、kは乳房腫瘍に割り当てられ得、kは肝臓に転移された腫瘍性乳房組織に割り当てられ得、そしてkは非腫瘍乳房組織に割り当てられ得る。さらに、初期訓練データセットには、対応するタイプのサンプルを同定するN個のサンプルのテーブルが含まれ得る。したがって、MLA処理からの出力により、各クラスター内のメンバーシップの割合ならびにサンプルのタイプの予測が特定され得る。半教師ありおよび教師ありMLAの後処理は、上記の教師なしMLAと同じ方法で実行できる。
【0088】
図4は、一例による、ブロック312のデコンボリューション回帰モデルの開発の例示的な実装形態400のブロック図である。
【0089】
参照データベース402/404(例えば、GTExおよびTCGAデータベース)ならびに患者またはオルガノイドからのRNAデータセットが受信されている。各RNAデータセット402/404は、生物学的サンプルに関連付けられており、サンプル中に存在するバックグラウンド組織(例えば、肝臓)の比率の推定値は、それぞれ、プロセス406および408で決定される。バックグラウンド組織の比率は、1-腫瘍純度に等しい。各RNAデータセット402/404には、各々が遺伝子に関連する発現レベルが含まれている。
【0090】
各遺伝子について、プロセス410において、線形モデルが生成され、サンプル中に存在するバックグラウンド組織の比率を、そのサンプルに関連する遺伝子の発現レベルと相関させている。
【0091】
プロセス412において、対応する切片およびベータ(例えば、残差)値は、線形モデルから決定され得、標準化されたデコンボリューションモデルを生成するための補正係数として使用され得る。プロセス414において、切片およびベータ値を使用して、受信された各RNAデータセット、または任意の追加のRNAデータセットを調整し、そのRNAデータセットに関連するバックグラウンド組織の比率と相関する遺伝子発現レベルを除去することができる。
【実施例
【0092】
ここで、特に肝臓転移性サンプルの分析例に適用される、図2、3、および4のプロセスの例示的な実装形態について説明する。
【0093】
最初に、参照データセットを編集した。参照データセットには、表1における238個の配列決定された肝転移サンプル(Tempus Labs、Inc.、イリノイ州シカゴ)、Met500プロジェクトの一部としての120個の転移サンプル、転移性肝サンプル中の22の癌の中から選択されたThe Cancer Genome Atlas(TCGA)由来の3,508個の原発性サンプル、およびGenotype-Tissue Expressionプロジェクト(GTEx)由来の136個の正常な肝臓サンプル(合計4,754サンプル)が含まれている。
【0094】
この例では、サンプルはGTEx、TCGA、Met500プロジェクト、または臨床サンプル(Tempus Labs、Inc.、イリノイ州シカゴ)の一部として収集された。バッチ効果の可能性を最小限に抑えるために、GTExおよびTCGAデータベースからの生データをbamファイル形式でダウンロードし、同じRNA-seqパイプラインを介して処理して配列アラインメントと正規化を行った。Met500および臨床サンプルは、RNA-seqライブラリ調製アプローチに供されており、当該アプローチは、転写キャプチャステップを含み、ホルマリン固定パラフィン包埋(FFPE)サンプル用に最適化されていた。研究ごとのライブラリ調製方法の差異を説明するために、1,000個のTCGAの500個のサブサンプルならびに9,295個のTCGAサンプルおよび3,903個の臨床サンプルのグループからの臨床サンプルから、log10で正規化したカウント値で遺伝子ごとのサイジングファクターを算出した。サイジングファクターをTCGAおよびGTExサンプルに適用して、遺伝子が研究間で同等の平均および分散を有するようにした。
【表1】
【0095】
肝転移内で最も豊富な癌は、乳癌(23.5%)、膵臓癌(19.8%)、および結腸癌(17.3%)であった(表2)。
【表2】
【0096】
この例では、主成分分析(PCA)を使用して、原発性癌サンプル、健康な組織サンプル、およびデコンボリューションされた転移サンプル間のRNA遺伝子発現プロファイルに基づいてグループ化を評価する検証ステップが実行された。図1のような計算装置によって実行されるPCAは、特に、各サンプルが複数の値、例えば、数万以上の発現遺伝子の各発現遺伝子の発現レベル値などに関連付けられている場合に、複数のサンプルからのデータセットまたは複数のサンプルを含む単一のデータセットを比較するための次元削減技術である。PCAにより、発現されたすべての遺伝子に使用して、サンプル間で発現レベルの変動が最も大きい遺伝子を判別できる。
【0097】
主成分により、サンプル間の最大の差異を示す遺伝子の寄与によって説明される分散の割合が大きい順にソートすることができ、分散に寄与が最大の主成分を主成分1(PC1)と指定することができる。(PC1の寄与を回帰した後)分散に対して第2に大きな寄与をする主成分は、主成分2(PC2)と称され得る。サンプルは、データセット内の分散の最大の割合に寄与する主成分の寄与の程度に従って、空間的に配置することができる。コンピューティングデバイスによって生成された図5に示される例では、PC1で表される遺伝子グループの発現レベルは、肝細胞の比率が低いサンプル(例では、原発性非肝臓癌)と肝細胞の比率が高いサンプル(例では、肝臓癌および健康な肝臓サンプル)を区別している。PC2によって表される遺伝子のグループの発現レベルは、原発性癌種によって引き起こされる差異に基づいてサンプルを区別している。予想通り、肝臓特異的癌および肝臓組織にはこのタイプの分散が含まれておらず、これらのグループのy軸に沿った大きな分離はない。
【0098】
サンプルデータのグループは、図5に示されるようなチャートで視覚的に表すことができる。サンプルは、組織または起源によって色分けされている。示されているように、PC1は分散の10.5%を説明しており、TCGA肝臓肝細胞癌(lihc)およびGTEx正常肝臓を他の非肝臓原発性癌から分離した。この教師なしグループ化の例では、癌の起源の種類でグループを形成するのではなく、主成分分析により、肝転移サンプルをTCGA癌と正常肝臓(GTEx)および癌サンプル(lihc TCGA)との間の連続体としてグループ化した。転移性肝サンプル(つまり、肝臓に見られる別の臓器からの腫瘍細胞)は、それぞれのTCGA原発性癌から離れた大きな円および形成されたグループで表されている。図5に示すように、肝臓転移の左側にある小さな円は、非肝臓原発性癌を表しており、肝臓原発性癌および正常肝臓サンプルは、転移の右側にグループ化された小さな円で表されている。転移性肝サンプルを原発性サンプルから分離するこの発現の変動は、サンプル中の正常なバックグラウンド肝臓組織の発現に起因している。示されているように、肝臓転移サンプルは、左側のTCGA癌と、右側の正常肝臓(GTEx肝臓)および肝臓癌サンプル(TCGA肝臓肝細胞癌(lihc))の両方との間の連続体としてグループ化されている。
【0099】
サンプルに存在する細胞集団を特徴づけることを目的として、CountClustアルゴリズムを例示的なクラスタリングアルゴリズムとして使用し、15個のクラスター(K=15)のメンバーシップモデル(GoM)のグレードに適合させた。図6に示すクラスタリングは、CountClustアルゴリズムのGoMモデルを使用して決定された、15個のクラスターと各クラスターを駆動する上位1,000個の遺伝子を示している。図6では、左側のラベルは癌種または肝臓の正常組織を示しており、各行は、左側に示されている癌種の単一のサンプルを表し、各色は、そのサンプルの一部に関連付けられたクラスターを表している(図6の下部)。行全体の長さに対する各行の各色の長さは、その色のクラスターに関連付けられているその行のサンプルの割合を表している。
【0100】
クラスターの数を意味する好ましいクラスターサイズは、K=15であり得る。クラスターサイズは、クラスター番号5を示すオリーブグリーン色のバンドとして図6に示すように(凡例を参照)、単一のクラスターがGTEx肝臓およびTCGA lihcサンプルで高い推定比率をもたらし、他のTCGA癌サンプルで低くなるように選択された。TCGA lihc、chol、およびGTEx肝臓サンプルのメンバーシップの比率が高く(それぞれ平均0.608、0.192、および0.730)、他のすべての非肝臓TCGA原発性癌の比率が低い(0.011)、1つのクラスター(第5のクラスター、k=5、オリーブグリーンで着色)を同定した。転移性肝サンプルは、4,754個のサンプルすべての癌種ごとの第5のGoMクラスターの分布を示す図7に示すように、第5のクラスターの中間メンバーシップ値の範囲(0.230)を有していた。図7は、プロットのx軸に沿ってラベル付けされた各癌または組織型内のサンプルのメンバーシップ値の箱ひげ図であり、ドットは各カテゴリーの外れ値を表す。腫瘍純度が低くバックグラウンド組織が高い転移性サンプルは、外れ値である可能性が高く、第5のクラスターの比率が高くなる。Met500およびTempus Labs、Inc.の肝転移サンプルは、このクラスターの推定比率が中程度であった。原発性膵管腺癌(paad)および胆管癌胆管癌(chol)には、肝臓組織と同様の遺伝子発現プロファイルを有する組織が含まれており、これらの癌サンプルの第5のクラスターの推定比率が高くなっている。
【0101】
所望による検証として、特定の第5のクラスターに生物学的関連性を割り当てるために、遺伝子濃縮法(http://geneontology.org/で入手可能)が、第5のクラスターに影響を与える上位1,000個の遺伝子を選択し、遺伝子オントロジー(GO)生物学的プロセスの遺伝子濃縮分析を実行するように構成された。この遺伝子濃縮分析により、ボンフェローニ補正後に有意に濃縮された582個の生物学的プロセスが同定された。つまり、582個の生物学的プロセスは、発現が第5のクラスターと最も一貫して相関する遺伝子と不均衡に関連していた。代謝プロセスは最も濃縮されたものの1つであり、最も重要なものはGO:0019752-カルボン酸代謝プロセス(1,002個の遺伝子のうち203個;p=3.61x10-85)である。この結果を考慮すると、第5のクラスターは肝臓固有の潜在因子であり、各サンプルに存在し、サンプル間で比較可能な肝臓バックグラウンド組織の比率の近似値であるとみなされる。
【0102】
肝臓特異的潜在因子としての第5のクラスターの決定を、腫瘍純度データに対して検証した。140個のサンプルの腫瘍純度の推定値は、同じ腫瘍サンプルのDNAシーケンスから、かつ別々のサンプルからの病状の推定値から入手可能であった。これにより、第5のGoMクラスターの比率とこれらの腫瘍純度の推定値との相関関係を評価し、-0.33の相関関係を見出すことができた。その結果、癌および肝臓の割合を予測するために使用するクラスターの同定を訓練し、検証した。プロセス300の例では、この手順は、すべてのクラスターが検査および検証されるまで、フィードバック310を通して繰り返すことができる。
【0103】
一例では、本技術は、非負の最小二乗(NNLS)モデルを実装して、第5のクラスターのGoM比率および358個の肝臓転移サンプルからの遺伝子発現プロファイルで訓練された腫瘍および肝臓の割合を予測することができる。すべての遺伝子に適用されるリーブワンアウト(leave-one-out)検証アプローチにおいて、残差平方和(SSE)が最小の500個の遺伝子を選択した。次に、選択した遺伝子リストを第2のリーブワンアウトステップで検証した。その結果、図8に示すように、予測される肝臓の比率と癌種全体での同等のパフォーマンスとの間にr=0.98の相関が生じた。
【0104】
一例では、カスタマイズされた非負の最小二乗アルゴリズムにより、サンプル内の細胞の比率が推定され、すべての推定値が非負で合計が1になるような確率シンプレックスにそれらが投影される。凸関数の最適化は、モデルパラメーターとサンプル推定値との間の二乗和誤差(SSE)が、最近の2つの実行間で10-7未満の差を有するように繰り返し実行された。最終的な非負の最小二乗モデルで最高の予測力を有する遺伝子のセットを選択するために、358個の肝転移サンプルにおける19,147個の遺伝子の遺伝子発現を使用して、リーブワンアウトNNLSアプローチを実行した。第5のクラスター(肝臓)のGoM比率と、1からこの比率を引いたものを予測子として使用した。本技術は、癌の起源を予測するために使用することができる。最終的なモデルの実装形態では、モデルの中でSSEが最も低い500個の遺伝子を選択した。選択された遺伝子の数はいくぶん恣意的であるが、GO濃縮の関連性が最も重要になるように、一連の遺伝子セット(100、250、500)から500個の遺伝子を選択した。
【0105】
一例では、膵臓癌の研究データセットを使用して肝臓のデコンボリューションモデルを検証した。肝臓(9)、肺(5)、リンパ節(1)、直腸(1)からの転移サンプルを含む膵臓研究コホートから65個の膵臓癌サンプルを同定した。遺伝子発現の主成分分析(PCA)は、肝臓サンプル(TCGA-青緑色およびGTEx-オレンジ色)と他のすべての膵臓サンプルとの間にグループ化された転移性肝臓サンプル(青色)を示した(図9)。PENN(黄色)およびTCGA(薄茶色)の原発性膵臓癌とグループ化された肺(ピンク色)、リンパ節(緑色)および直腸(灰色)からの転移サンプルは、バックグラウンド組織部位によって説明される変動の大きな比率を示さなかった。肝臓のバックグラウンド遺伝子発現を調整するために、9つの肝転移に本手法からのデコンボリューションモデルを適用したところ、図10に示すように、膵臓癌サンプル(PAAD)と一緒にグループ化されたデコンボリューションされたサンプルに存在するグローバル変動を示した。したがって、図9のRNA発現データ、デコンボリューション前、および図10のデコンボリューションされた発現データの比較から明らかなように、デコンボリューションプロセスが実行された後、肝臓転移サンプル(青色の肝臓膵臓転移サンプル)が既知の膵臓癌のサンプルと一緒にグループ化されたことが明らかである。一部の例では、生の遺伝子発現データと、遺伝子発現アナライザに提供され、かつ/または遺伝子発現アナライザから受信された処理済み遺伝子発現データとの比較を使用して、デコンボリューションの存在を示すパターンを特定することができる。
【0106】
別の例では、乳癌と正常な肝臓の混合物を使用して、インシリコで肝臓のデコンボリューションモデルを検証した。事前の予想で肝臓デコンボリューションモデルを評価するために、TCGAデータセットからの2組のサンプルに対して、乳癌および肝臓の正常なシーケンスリードのインシリコ混合を実行した。具体的には、TCGAからの2組のサンプル、すなわちTCGA_DD_A114_11(正常肝臓)とTCGA_EW_A424_01(乳癌)およびTCGA_DD_A118_11(正常肝臓)とTCGA_EW_A3U0_01(乳癌)の生のシーケンスリードを混合した。4つの純粋な個々のサンプルの各々からのシーケンスリードを参照シーケンスとアラインメントし、リードを正規化し、アラインされたリードの数に基づいて、サンプルのペアを組み合わせる滴定レベルを選択した。5つの異なる滴定レベルで示されたサンプルのペアからのリードの組み合わせを使用して、新規のデータファイルを作成した。ここで、滴定レベルは、サンプルの各ペアについて0~100%の範囲内で、第1のサンプルと第2のサンプルからのリードを組み合わせた比率である(表3を参照)。非負の最小二乗(NNLS)モデルを使用して、2つの混合物シリーズ(表3)のそれぞれに存在する肝臓クラスター(第5のクラスター)の割合を予測し、続いて、回帰モデルを使用してデコンボリューションを行った(例えば、図11Aおよび11BのPCAプロットを参照)。非負の最小二乗モデルにより、肝臓の正常なリードと乳癌のリードである各混合物の比率が正確に概算された(表3)。
【表3】
【0107】
図11Aおよび11Bに示されるように、デコンボリューション後に実行されたPCA試験が、インシリコ混合物分析(左側のプロット)と比較して、肝臓サンプルのはるかに良好なグループ化(右側のプロット)をもたらすことを示している。乳癌のリードの予想される割合とNNLSモデルの予測される腫瘍の比率との間には高い相関関係(0.89および0.82)があることがわかった。さらに、肝臓のデコンボリューションモデルは、十分な腫瘍純度のサンプルに存在しない肝細胞集団を同定するのに適していた。腫瘍の純度が不十分なサンプル混合物では、腫瘍の割合が過大評価される可能性がある。
【0108】
さらに、デコンボリューションされたサンプルでの発現コールのパフォーマンスを調べた。発現コールを行った。ここで、各コールは、遺伝子が非腫瘍組織において有するものよりもRNAコピーの量が多い(過剰発現)または少ない(過少発現)遺伝子を同定するものであり、サンプルの量および非腫瘍量の差は、ユーザー定義の値よりも大きい。純粋な乳癌サンプルに対して発現コールを行い、結果をそれぞれの混合物およびデコンボリューションされたサンプルと比較した。
【0109】
最初の乳癌サンプルでは、MYC遺伝子が過剰発現し、PGRおよびESR1が発現不足であった。すべてのデコンボリューションされたサンプルはMYCを過剰発現としてコールしたが、94%の乳房混合物のみがこの遺伝子を同定した。この例では、中程度のデコンボリューションされた混合物のうち2つ(82%および40%肝臓)のみがPGR(プロゲステロン受容体)を過少発現として同定したが、デコンボリューションされた混合物サンプルはいずれもESR1(エストロゲン受容体)を過少発現として同定しなかった。最も高い肝臓混合物サンプルでは、誤ってNGR1(負の成長調節タンパク質)が過剰発現とコールされた。全体として、デコンボリューションプロセスは、すべての滴定でMYCの過剰発現のコールを改善し、偽陽性のコールを減らしたが、2つの過少発現遺伝子を捕捉するのに十分な感度はなかった。
【0110】
第2の純粋な乳癌サンプルでは、PGRとESR1が過剰発現していた。すべてのデコンボリューションされたサンプルでPGRが過剰発現とコールされたが、このコールは最も比率の高い肝臓を除くすべての混合サンプルで行われた。肝臓の比率が最も低いサンプルのデコンボリューション混合物のみでESR1が過剰発現とコールされたが、肝臓の割合が最も低い混合物の両方がこのコールを検出した。偽陽性に関しては、最も高い肝臓デコンボリューション混合物においてMYCが過剰発現とコールされ、最も高い肝臓混合物サンプルにおいてMTORが過剰発現とコールされた。要約すると、このサンプルでのPGRの過剰発現は十分に高かったため、両方の分析でその過剰発現が捕捉された。さらに、腫瘍の純度が低いサンプル(この特定の例では(<22%))での発現コールは、混合物とデコンボリューションされたサンプルの両方で偽陽性コールを起こしやすい傾向があった。
【0111】
本技術の別の適用例では、124個の肝臓転移性癌サンプルにおける発現コールを調べた。サンプルサイズが10を超える4つの癌の中から肝転移サンプルを選択した結果、124個のサンプル(37個のbrca、36個のcoad、33個のpaad、18個のpcpg)が得られた。肝臓のデコンボリューションモデルを介して各サンプルを処理し、元のRNAとデコンボリューションされたRNAサンプルを、関連するTCGA癌とGTEx組織に対して発現コールを行った。各遺伝子(左端の列の遺伝子名)について、その遺伝子が少なくとも一度コールされた癌種の中から、i)両方のRNAデータセット、ii)元のRNAのみ、またはiii)デコンボリューションされたRNAのみ(各列に記載)で過剰発現または過少発現された遺伝子を持つサンプルの比率を計算した。図12の各列で、遺伝子が過剰発現または過少発現でコールされた各グループのサンプルの比率は、淡いピンク(0、または0%)から濃い紫(0.37、つまり37%)までのスペクトルのピンクの色合いで表されている。
【0112】
図12に示すように、この例では、癌種のサンプルのいずれも遺伝子の1つに対する過剰発現または過少発現のコールを受けなかった場合、その癌種のすべてのサンプルは、その遺伝子の発現コール比率の計算から除外された。各遺伝子のサンプルグループに含まれるサンプルの総数nは、右側の列に、約18(淡い緑色)~約124(暗い緑色)の範囲の数値を表す緑色の陰影として示されている。
【0113】
図12の発現コール比較分析に示すように、これらの遺伝子比率コールを比較し、比率がほぼ数値で編成されるように遺伝子の行を空間的に配置して、デコンボリューション後の傾向を特定した。MTOR、ERBB4、およびMETは、元のRNAサンプル(それぞれ18.5%、33.9%、および37.1%の時間)で一貫して過剰発現とコールされていたが、それぞれのデコンボリューションされたサンプルでは異なっていた。これらの遺伝子は、他の正常組織と比較してGTEx正常肝臓で一貫して高い発現を示し、元のRNAサンプルで遺伝子発現値が上昇している。一方、PGRは、他の正常なサンプルと比較して肝臓の正常なサンプルでの発現がはるかに低いため、27%の確率で元のRNAでのみ発現不足とコールされた。デコンボリューションに続いて、サンプルの5%以上で8つの遺伝子が過剰発現され、2つの遺伝子が過少発現(EGFRおよびKRAS)とコールされた。これを図12の3列目に示している。
【0114】
本技術では、種々の癌種のデコンボリューションRNAモデルの生成により、後続の組織サンプルを評価および特性評価するために使用できる訓練済みモデルが提供されている。例えば、組織分析のための方法は、サンプルからRNA発現データを受信することと、受信したRNA発現データに対してデコンボリューションを実行してバックグラウンド発現データを削除することにより、参照RNA発現データとして機能するデコンボリューションされたRNA発現モデルに対して受信したRNA発現データを分析することと、を含み得る。この方法はさらに、デコンボリューションされた受信RNA発現データを参照RNA発現データと比較し、その比較から、受信RNA発現データが参照RNA発現データと一致するかまたは異なるかを判別すること、例えば、特定の癌に相関する所定のグループが存在するかどうかを決定し、その比較から、サンプルの癌種を決定することによって判別することを含み得る。
【0115】
上記の開示は、異なる癌種の同定に焦点を当てているが、本明細書に記載のシステムおよび方法は、癌腫瘍に加えて広範囲の組織型の決定に有用であり得ることが理解されよう。例えば、脳、筋肉、神経、皮膚などの健康な臓器からの組織サンプルには、異なる遺伝子発現を有する複数のタイプの細胞の混合物が含まれ得る。本明細書に記載のシステムおよび方法を利用することにより、手元の組織を分析して、組織サンプル内から各タイプの細胞の遺伝子の発現レベルを決定することが可能である。例えば、脳の場合、ニューロン、グリア細胞、星状細胞、希突起膠細胞、およびミクログリアは、脳組織に見られる細胞の種類の例である。本明細書に提供される開示を使用して、複数のサンプルに対応するRNA発現データでのクラスタリングを実行することができ、ここで、各サンプルは、複数のクラスターのうちの少なくとも1つに割り当てられる。関連する脳細胞のデコンボリューションされたRNA発現データモデルを生成することができ、データモデルには、細胞の生物学的指標に対応するものとして同定された少なくとも1つのクラスターが含まれる。
【0116】
健康な組織サンプルに上記の開示を使用することに加えて、本開示は、幹細胞、オルガノイドなどを含み得る他の細胞集団、細胞のコレクション、細胞の集団などに使用され得ることが当業者によって理解されよう。同様に、癌性ではないが健康でもない他の組織サンプル(例えば、喫煙歴のある患者からの肺組織)は、上記のシステムおよび方法を使用して検査および分析することができる。
【0117】
上記の方法およびシステムは、一般に医療および研究を対象とするデジタルおよび実験室のヘルスケアプラットフォームと組み合わせて、またはその一部として利用することができる。かかるプラットフォームと組み合わせて、上記の方法およびシステムの多くの使用が可能であることを理解されたい。かかるプラットフォームの一例は、2019年10月18日に出願された「Data Based Cancer Research and Treatment Systems and Methods」と題された米国特許出願第16/657,804号に記載されており、参照によりその全体があらゆる目的のために本明細書に組み込まれる。
【0118】
例えば、上記の方法およびシステムの1つ以上の実施形態における実装形態には、デコンボリューションをサポートするデジタルおよび実験室ヘルスケアプラットフォームを構成するマイクロサービスが含まれ得る。実施形態には、ゲノムデータのデコンボリューションを実行および配信するための単一のマイクロサービスが含まれ得るか、またはそれぞれが上記の実施形態の1つ以上を一緒に実施する特定の役割を有する複数のマイクロサービスが含まれ得る。
【0119】
別の例では、デコンボリューションの方法およびシステムは、プラットフォーム上で動作する1つ以上のマイクロサービスで実行され得る。別の例では、そのようなマイクロサービスの1つ以上は、プラットフォーム内の注文管理システムの一部であり得る。当該プラットフォームにより、適切な時間にデコンボリューションを実行するために必要な一連のイベントが、患者の腫瘍組織または癌患者への精密医療成果物の正常組織のシーケンスなど、遺伝子シーケンスの実行に必要なイベントの適切な順序で調整される。別の例では、バイオインフォマティクスマイクロサービスには、バイオインフォマティクスパイプラインの種々の段階をプロビジョニングおよび実行するための1つ以上のサブマイクロサービスが含まれ得る。バイオインフォマティクスパイプラインのかかる段階のうちの1つには、本明細書で説明するデコンボリューション方法およびシステムが含まれる。マイクロサービスベースの注文管理システムは、例えば、2019年7月12日に出願された「Adaptive Order Fulfillment and Tracking Methods and Systems」と題された米国仮特許出願第62/873,693号に開示されており、参照によりその全体があらゆる目的のために本明細書に組み込まれる。
【0120】
プラットフォームが遺伝子分析システムを含む場合、遺伝子分析システムは、標的化されたパネルおよび/または配列決定プローブを含み得る。対象となるパネルの一例は、例えば、2019年9月19日に出願された「System and Method for Expanding Clinical Options for Cancer Patients using Integrated Genomic Profiling」と題された米国仮特許出願第62/902,950号に開示されており、参照によりその全体があらゆる目的のために本明細書に組み込まれる。一例では、標的化されたパネルは、上記の一実施形態による、デコンボリューションのための次世代シーケンシング結果の配信を可能にし得る。次世代シーケンシングプローブの設計例は、例えば、2019年10月21日に出願された「Systems and Methods for Next Generation Sequencing Uniform Probe Design」と題された米国仮特許出願第62/924,073号に開示されており、参照によりその全体があらゆる目的のために本明細書に組み込まれる。
【0121】
プラットフォームがバイオインフォマティクスパイプラインを含む場合、上記の方法およびシステムは、バイオインフォマティクスパイプラインで利用されるシステムおよび方法の完了または実質的な完了後に利用することができる。一例として、バイオインフォマティクスパイプラインは、次世代の遺伝子シーケンシング結果を受信し、リファレンスゲノムにアラインメントされたDNAおよび/またはRNAリードカウントを反映する1つ以上のBAMファイルなどのバイナリファイルのセットを返し得る。上記の方法およびシステムは、例えば、DNAおよび/またはRNAのリードカウントを取り込み、結果としてデコンボリューションされたDNAおよび/またはRNAデータを生成するために利用され得る。
【0122】
デジタルおよび実験室のヘルスケアプラットフォームに自動化されたRNA発現コーラー(caller)がさらに含まれている場合、RNA発現レベルは、参照発現レベルに対する値として表現されるように調整することができる。これは、分析用に複数のRNA発現データセットを準備して、同じ方法、機器、および/または試薬を使用して生成されていないためにデータセットに差異がある場合に発生するアーティファクトを回避するために行われることが多い。自動化されたRNA発現コーラーの一例は、例えば、2019年12月4日に出願された「Systems and Methods for Automating RNA Expression Calls in a Cancer Prediction Pipeline」と題された米国仮特許出願第62/943,712号に開示されており、参照によりその全体があらゆる目的のために本明細書に組み込まれる。
【0123】
次に、本明細書に開示されるシステムおよび方法によって生成されたデコンボリューションされたデータは、バリアントコール、RNA発現コール、または洞察エンジンなどのプラットフォームの他の態様に渡され得る。
【0124】
パイプラインには、自動化されたRNA発現コール元が含まれ得る。自動化されたRNA発現コーラーの一例は、2019年12月4日に出願された「Systems and Methods for Automating RNA Expression Calls in a Cancer Prediction Pipeline」と題された米国仮特許出願第62/943,712号に開示されており、参照によりその全体があらゆる目的のために本明細書に組み込まれる。
【0125】
デジタルおよび実験室ヘルスケアプラットフォームは、患者および/または標本に関連する遺伝的および/または臨床データに基づき得る病状に関連するさらなる情報、特性、または決定を配信するための1つ以上の洞察エンジンをさらに含み得る。デコンボリューションされた情報を受信する可能性のある例示的な洞察エンジンには、起源不明の腫瘍エンジン、ヒト白血球抗原(HLA)ホモ接合性喪失(LOH)エンジン、腫瘍突然変異負荷エンジン、PD-L1ステータスエンジン、相同組換え欠損エンジン、細胞経路活性化報告エンジン、免疫浸潤エンジン、マイクロ衛星不安定性エンジン、病原体感染状態エンジンなどが含まれる。起源不明のエンジンの腫瘍の一例は、例えば、2019年5月31日に出願された「Systems and Methods for Multi-Label Cancer Classification」と題された米国仮特許出願第62/855,750号に開示されており、参照によりその全体があらゆる目的のために本明細書に組み込まれる。HLA LOHエンジンの一例は、例えば、2019年8月20日に出願された「Detection of Human Leukocyte Antigen Loss of Heterozygosity」と題された米国仮特許出願第62/889,510号に開示されており、参照によりその全体があらゆる目的のために本明細書に組み込まれる。腫瘍突然変異負荷エンジンの一例は、例えば、2019年2月12日に出願された「Assessment of Tumor Burden Methodologies for Targeted Panel Sequencing」と題された米国仮特許出願第62/804,458号に開示されており、参照によりその全体があらゆる目的のために本明細書に組み込まれる。PD-L1ステータスエンジンの一例は、例えば、2019年5月30日に出願された「A Pan-Cancer Model to Predict The PD-L1 Status of a Cancer Cell Sample Using RNA Expression Data and Other Patient Data」と題された米国仮特許出願第62/854,400号に開示されており、参照によりその全体があらゆる目的のために本明細書に組み込まれる。相同組換え欠損エンジンの一例は、例えば、2019年2月12日に出願された「An Integrative Machine-Learning Framework to Predict Homologous Recombination Deficiency」と題された米国仮特許出願第62/804,730号に開示されており、参照によりその全体があらゆる目的のために本明細書に組み込まれる。細胞経路活性化報告エンジンの一例は、例えば、2019年8月16日に出願された「Cellular Pathway Report」と題された米国仮特許出願第62/888,163号に開示されており、参照によりその全体があらゆる目的のために本明細書に組み込まれる。免疫浸潤エンジンの一例は、例えば、2019年8月6日に出願された「A Multi-Modal Approach to Predicting Immune Infiltration Based on Integrated RNA Expression and Imaging Features」と題された米国特許出願第16/533,676号に開示されており、参照によりその全体があらゆる目的のために本明細書に組み込まれる。免疫浸潤エンジンのさらなる例は、例えば、2019年2月12日に出願された「Comprehensive Evaluation of RNA Immune System for the Identification of Patients with an Immunologically Active Tumor Microenvironment」と題された米国特許出願第62/804,509号に開示されており、参照によりその全体があらゆる目的のために本明細書に組み込まれる。MSIエンジンの一例は、例えば、2019年10月15日に出願された「Microsatellite Instability Determination System and Related Methods」と題された米国特許出願第16/653,868号に開示されており、参照によりその全体があらゆる目的のために本明細書に組み込まれる。MSIエンジンの追加の一例は、例えば、2019年11月6日に出願された「Systems and Methods for Detecting Microsatellite Instability of a Cancer Using a Liquid Biopsy」と題された米国仮特許出願第62/931,600号に開示されており、参照によりその全体があらゆる目的のために本明細書に組み込まれる。PD-L1ステータスエンジンの追加の一例は、例えば、2019年3月26日に出願された「PD-L1 Prediction Using H&E Slide Images」と題された米国仮特許出願第62/824,039号に開示されており、参照によりその全体があらゆる目的のために本明細書に組み込まれる。
【0126】
プラットフォームがレポート生成エンジンを含む別の例では、上記の方法およびシステムを利用して、医師に提示するためのデコンボリューションされた情報の要約レポートを作成することができる。例えば、報告書は、配列決定された標本が、第1の臓器、第2の臓器、第3の臓器などからの腫瘍または正常組織をどの程度含んでいたかについての情報を医師に提供し得る。例えば、レポートにより、標本内の組織型、腫瘍、または臓器の各々の遺伝子プロファイルが提供され得る。遺伝子プロファイルには、組織型、腫瘍、または臓器に存在する遺伝子配列を表し、変異体、発現レベル、遺伝子産物に関する情報、または組織、腫瘍、または臓器の遺伝子分析から導き出される可能性のある他の情報が含まれ得る。レポートには、デコンボリューションされた情報の一部またはすべてに基づいて照合された治療法および/または臨床試験が含まれ得る。例えば、治療法は、2019年2月12日に出願された「Therapeutic Suggestion Improvements Gained Through Genomic Biomarker Matching Plus Clinical History」と題された米国仮特許出願第62/804,724号に開示されているシステムおよび方法に従って適合させることができ、すべての目的のためにその全体が参照により本明細書に組み込まれている。例えば、臨床試験は、2019年5月31日に出願された「Systems and Methods of Clinical Trial Evaluation」と題された米国仮特許出願第62/855,913号に開示されているシステムおよび方法に従って一致させることができ、すべての目的のためにその全体が参照により本明細書に組み込まれている。
【0127】
レポートには、結果と多くの標本の結果のデータベースとの比較が含まれ得る。結果を結果のデータベースと比較するための方法およびシステムの一例は、2018年12月31日に出願された「A Method and Process for Predicting and Analyzing Patient Cohort Response,Progression and Survival」と題された米国仮特許出願第62/786,739号に開示されており、参照によりその全体があらゆる目的のために本明細書に組み込まれる。この情報は、バイオマーカーを発見するか、または臨床試験を設計するために、追加の検体および/または臨床反応情報からの同様の情報と組み合わせて使用され得る。
【0128】
第3の例では、上記の方法およびシステムは、プラットフォームに関連して開発されたオルガノイドに適用され得る。この例では、方法およびシステムを使用して、オルガノイドに由来する遺伝子配列決定データをデコンボリューションして、配列決定されたオルガノイドが第1の細胞型、第2の細胞型、第3の細胞型などを含む程度に関する情報を提供することができる。例えば、レポートにより、標本内の細胞型の各々の遺伝子プロファイルが提供され得る。遺伝子プロファイルには、所与の細胞型に存在する遺伝子配列を表し得、変異体、発現レベル、遺伝子産物に関する情報、または細胞の遺伝子分析から導き出され得る他の情報が含まれ得る。レポートには、デコンボリューションされた情報の一部またはすべてに基づいて照合された治療法が含まれ得る。これらの治療法は、オルガノイド、そのオルガノイドの誘導体、および/または同様のオルガノイドでテストして、それらの治療法に対するオルガノイドの感受性を決定することができる。例えば、オルガノイドは、2019年11月22日に出願された「Tumor Organoid Culture Compositions,Systems,and Methods」と題された米国特許出願第16/693,117号、2019年10月22日に出願された「Systems and Methods for Predicting Therapeutic Sensitivity」と題された米国仮特許出願第62/924,621号、および2019年12月5日に出願された「Large Scale Phenotypic Organoid Analysis」と題された米国仮特許出願第62/944,292号に開示されたシステムおよび方法に従って培養および試験することができ、参照により、およびその全体がすべての目的のために本明細書に組み込まれている。
【0129】
第4の例では、上記のシステムおよび方法は、一般に医療および研究を対象とする医療機器または実験室で開発された試験と組み合わせて、またはその一部として利用することができる。実験室で開発されたテストの例、特に人工知能によって強化されたテストの一例は、例えば、2019年10月22日に出願された「Artificial Intelligence Assisted Precision Medicine Enhancements to Standardized Laboratory Diagnostic Testing」と題された米国仮特許出願第62/924,515号に開示されており、参照によりその全体があらゆる目的のために本明細書に組み込まれる。
【0130】
上記の例は例示的なものであり、デジタルおよび実験室のヘルスケアプラットフォームと組み合わせた本明細書に記載のシステムおよび方法の使用を制限するものではないことを理解されたい。
【0131】
本明細書を通して、複数の事例は、単一の事例として記載された構成要素、動作、または構造を実装することができる。1つ以上の方法の個々の動作が別個の動作として例示および記載されたが、個々の動作のうちの1つ以上が同時に実行されてもよく、例示された順序で動作が実行される必要はない。例示的な構成内で別個の構成要素として提示された構造および機能は、組み合わされた構造または構成要素として実装されてもよい。同様に、単一構成要素として提示された構造および機能は、別個の構成要素または複数の構成要素として実装されてもよい。これらのおよび他の変形、変更、追加、および改善は、本明細書の主題の範囲内に含まれる。
【0132】
さらに、特定の実施形態は、ロジックまたは多数のルーチン、サブルーチン、アプリケーション、もしくは命令を含むものとして本明細書に記載される。これらはソフトウェア(例えば、機械可読媒体上または伝送信号中にて具現化されるコード)またはハードウェアのいずれかを構成することができる。ハードウェアでは、ルーチンなどは、特定の動作を実行することができる有形の単位であり、特定の方法で構成もしくは配置されることができる。例示的な実施形態では、1つ以上のコンピュータシステム(例えば、スタンドアローン、クライアント、もしくはサーバコンピュータシステム)、またはコンピュータシステムの1つ以上のハードウェアモジュール(例えば、プロセッサまたはプロセッサ群)は、ソフトウェア(例えば、アプリケーションまたはアプリケーションの一部)によって、本明細書に記載の特定の動作を実行するように動作するハードウェアモジュールとして構成されることができる。
【0133】
様々な実施形態では、ハードウェアモジュールは、機械的にまたは電子的に実装されることができる。例えば、ハードウェアモジュールは、特定の動作を実行するために、恒久的に構成された専用の回路またはロジック(例えば、マイクロコントローラ、フィールドプログラマブルゲートアレイ(FPGA)または特定用途向け集積回路(ASIC)などの特殊用途向けのプロセッサ)を含むことができる。ハードウェアモジュールはまた、特定の動作を実行するため、ソフトウェアによって一時的に構成されるプログラマブルなロジックまたは回路(例えば、汎用プロセッサまたは他のプログラマブルプロセッサ内に包含されるもの)も含むことができる。ハードウェアモジュールを機械的に実装するのか、専用且つ恒久的に構成された回路で実装するのか、または一時的に構成された回路で(例えばソフトウェアにより構成される)実装するのかどうかについては、コストおよび時間を考慮して決定されることができることが理解されよう。
【0134】
したがって、「ハードウェアモジュール」という用語は、有形エンティティを包含すると理解されるべきであり、ある特定の方法で動作するように、または本明細書に記載のある特定の動作を実行するように物理的に構築されているか、恒久的に構成されている(例えば、ハードウェアに組み込まれている)か、または一時的に構成されている(例えば、プログラムされている)エンティティということである。ハードウェアモジュールが一時的に構成されている(例えば、プログラムされている)実施形態を考慮すると、ハードウェアモジュールのそれぞれは、どの時点のインスタンスにおいても構成またはインスタンス化されている必要はない。例えば、ハードウェアモジュールが、ソフトウェアを使用して構成された汎用プロセッサを含む場合には、当該汎用プロセッサは、異なる時点においてそれぞれ異なるハードウェアモジュールとして構成されることができる。したがって、ソフトウェアは、例えば、ある時点では特定のハードウェアモジュールを構成し、別の時点では別のハードウェアモジュールを構成するように、プロセッサを構成してもよい。
【0135】
ハードウェアモジュールは、他のハードウェアモジュールに情報を提供し、他のハードウェアモジュールから情報を受信することができる。したがって、記載されたハードウェアモジュールは、通信可能に結合されているとみなすことができる。複数のそのようなハードウェアモジュールが同時に存在する場合、通信は、ハードウェアモジュールを接続する信号伝送を介して(例えば、適切な回路およびバスを介して)達成されることができる。複数のハードウェアモジュールが異なる時間に構成またはインスタンス化される実施形態では、そのようなハードウェアモジュール間の通信は、例えば、複数のハードウェアモジュールがアクセスするメモリ構造内の情報の記憶および検索を介して達成されることができる。例えば、あるハードウェアモジュールは、動作を実行し、その動作の出力を当該ハードウェアモジュールが通信可能に結合しているメモリデバイスに記憶することができる。次いで、さらなるハードウェアモジュールが後にメモリデバイスにアクセスして、記憶された出力を検索して処理することができる。ハードウェアモジュールはまた、入力または出力デバイスとの通信を開始して、リソース(例えば、情報の収集)に対して動作することができる。
【0136】
本明細書に記載の例示的方法の様々な動作は、少なくとも部分的には、関連する動作を実行するように一時的に(例えば、ソフトウェアにより)構成されたか、または恒久的に構成された1つ以上のプロセッサによって実行されることができる。一時的に構成されたか、または恒久的に構成されたかにかかわらず、そのようなプロセッサは、1つ以上の動作または機能を実行するように動作するプロセッサ実装モジュールを構成することができる。本明細書において言及されるモジュールは、いくつかの例示的な実施形態においては、プロセッサ実装モジュールを含むことができる。
【0137】
同様に、本明細書に記載の方法またはルーチンは、少なくとも部分的にはプロセッサ実装型とすることができる。例えば、ある方法の動作のうちの少なくとも一部は、1つ以上のプロセッサまたはプロセッサ実装ハードウェアモジュールによって実行されることができる。動作の一定の性能は、単一のマシン内に存在するのみならず、いくつかのマシンにわたって配備された1つ以上のプロセッサの間でも分散されることができる。いくつかの実施形態では、1つ以上のプロセッサは、(例えば、家庭環境内の、職場環境内の、またはサーバファームとして)単一の場所に存在することができるが、他の実施形態では、プロセッサは、多数の場所にわたって分散されてもよい。
【0138】
動作の一定の性能は、単一のマシン内に存在するのみならず、いくつかのマシンにわたって配備された1つ以上のプロセッサの間でも分散されることができる。いくつかの例示的な実施形態では、1つ以上のプロセッサまたはプロセッサ実装モジュールは、(例えば、家庭環境内の、職場環境内の、またはサーバファームとして)単一の場所に存在することができる。他の例示的な実施形態では、1つ以上のプロセッサまたはプロセッサ実装モジュールは、多数の場所にわたって分散されてもよい。
【0139】
特に指示しない限り、「processing」(処理する)、「computing」(処理/演算する)、「calculating」(演算する)、「determining」(判定する)、「presenting」(提示する)、「displaying」(表示する)など言葉を使用している本明細書における説明は、1つ以上のメモリ(例えば、揮発性メモリ、不揮発性メモリ、もしくはこれらの組み合わせ)、レジスタ、または情報を受信、記憶、送信、もしくは表示する他の機械部品内の物理的(例えば、電子的、磁気的、もしくは光学的)な量として表現されるデータを操作もしくは変換する機械(例えば、コンピュータ)の動作または処理を意味することができる。
【0140】
本明細書に使用される際、「一実施形態」または「実施形態」に対する任意の言及は、実施形態と併せて説明された特定の要素、特徴、構造または特性が、少なくとも1つの実施形態に含められることを意味する。本明細書の様々な場所の「一実施形態では」という語句の出現は、必ずしも全てが同一の実施形態を参照しているとは限らない。
【0141】
いくつかの実施形態は、「結合された」および「接続された」という表現をそれらの派生語とともに使用して説明されることができる。例えば、いくつかの実施形態は、2つ以上の要素が物理的または電気的に直接接触していることを示すために「結合された」という用語を使用して説明されることができる。しかしながら、「結合された」という用語は、2つ以上の要素が互いに直接接触していないが、それでも互いに協働または相互作用することも意味することができる。実施形態は、この文脈に限定されるものではない。
【0142】
本明細書に使用される際、「備える(comprises、comprising)」、「含む(includes、including)」、「有する(has、having)」という用語、またはそれらの任意の他の変形は、非排他的な包含を網羅することを意図する。例えば、要素のリストを含むプロセス、方法、物品、または装置は、必ずしもそれらの要素のみに限定されるものではなく、明示的に列挙されていないか、またはかかるプロセス、方法、物品もしくは装置に固有の他の要素を含むことができる。さらに、正反対に明示的に述べられない限り、「または」は、排他的なまたはではなく、包括的なまたはであることを意味する。例えば、条件AまたはBは、Aが真(または存在)且つBが偽(または存在しない)、Aが偽(または存在しない)且つBが真(または存在する)、ならびにAおよびBの双方が真である(または存在する)のうちのいずれか1つによって満たされる。
【0143】
加えて、「a」または「an」の使用は、本明細書の実施形態の要素および構成要素を説明するために用いられる。これは、単に便宜上、且つ説明の一般的な意味を与えるために行われる。この説明は、1つまたは少なくとも1つを含むように読み取られるべきであり、また単数は、そうでないことが意味されていることが明白でない限り、複数を含む。
【0144】
この詳細な説明は、単に一例として解釈されるべきであり、全ての可能な実施形態を説明することは、不可能ではない場合でも非現実的であるので、全ての可能な実施形態を説明するものではない。本技術または本特許出願の出願日の後に開発される技術のいずれかを使用して、多くの代替の実施形態を実装することができる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11A
図11B
図12
【国際調査報告】