特表2023-511368 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ スルナリティクス　インコーポレイテッドの特許一覧

特表2023-511368低分子ＲＮＡ疾患分類器

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6A
6B
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-03-17

(54)【発明の名称】低分子ＲＮＡ疾患分類器

(51)【国際特許分類】

C12Q 1/6883 20180101AFI20230310BHJP

C12Q 1/6869 20180101ALI20230310BHJP

C12Q 1/6886 20180101ALI20230310BHJP

C12Q 1/686 20180101ALI20230310BHJP

C12Q 1/6851 20180101ALI20230310BHJP

【ＦＩ】

C12Q1/6883 Z ZNA

C12Q1/6869 Z

C12Q1/6886 Z

C12Q1/686 Z

C12Q1/6851 Z

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2022544274

(86)(22)【出願日】2021-01-22

(85)【翻訳文提出日】2022-09-16

(86)【国際出願番号】 US2021014755

(87)【国際公開番号】W WO2021150990

(87)【国際公開日】2021-07-29

(31)【優先権主張番号】62/964,412

(32)【優先日】2020-01-22

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】521032771

【氏名又は名称】ゲートハウスバイオインコーポレイテッド

(74)【代理人】

【識別番号】110000796

【氏名又は名称】弁理士法人三枝国際特許事務所

(72)【発明者】

【氏名】サルズマンデビッドダブリュー．

(72)【発明者】

【氏名】サルズマンアランピー．

(72)【発明者】

【氏名】フォスターニールシー．

(72)【発明者】

【氏名】レイネイサンエス．

(72)【発明者】

【氏名】メルコニアンテラン

【テーマコード（参考）】

4B063

【Ｆターム（参考）】

4B063QA01

4B063QA13

4B063QA19

4B063QQ03

4B063QQ08

4B063QQ52

4B063QR08

4B063QR42

4B063QR55

4B063QR62

4B063QS25

4B063QS34

4B063QX01

(57)【要約】

本開示は、１つ以上の異なる生物学的状態または１つ以上の疾患サブタイプについて対象を評価するための疾患分類器を構築するための方法を提供する。本発明は、発見試料セットの配列データから候補低分子ＲＮＡ（ｓＲＮＡ）配列を特定することを含む。発見試料セットにわたる候補ｓＲＮＡ配列（各々個別に入手されたもの）の存在または存在量は、目的とする生物学的状態を予測し（例えば、他の異なる生物学的状態または非疾患対照に対して）、これらの候補ｓＲＮＡ配列が本開示の実施形態に従ってさらにフィルタリングまたは選択される。その後、機械学習技法が適用されて、複数疾患分類器を含む疾患分類器を構築及びトレーニングする。トレーニングされた分類器を使用して、新たな試料を分類する、例えば、疾患について患者を評価することができる。

【特許請求の範囲】

【請求項1】

１つ以上の生物学的状態について対象を評価するための分類器を作製するための方法であって、
発見試料セットにわたるｓＲＮＡ配列の存在もしくは不在または存在量を含むｓＲＮＡ配列データを提供することであって、前記発見試料セットが１つ以上の生物学的状態の存在または不在を表す、前記提供することと、
候補ｓＲＮＡ配列であって、それらの存在もしくは不在または存在量が生物学的状態の存在または不在と相関している、前記候補ｓＲＮＡ配列を選択することと、
前記候補ｓＲＮＡ配列から、前記１つ以上の生物学的状態について試料を評価するための特徴を含む分類器をトレーニングすることと、を含む、前記方法。

【請求項2】

前記発見試料が２つ以上の生物学的状態に対して陽性または陰性であるとラベル付けされる、請求項１に記載の方法。

【請求項3】

前記ｓＲＮＡ配列データが、ｓＲＮＡ配列リードから５’及び３’配列決定アダプターをトリミングすることによって、かつ参照配列または遺伝子座に基づいてｓＲＮＡ配列バリアントを統合することなく処理される、請求項１に記載の方法。

【請求項4】

候補ｓＲＮＡ配列が、それらの存在もしくは不在または存在量が生物学的状態と相関する程度に基づいて選択される、請求項３に記載の方法。

【請求項5】

少なくとも１つの候補ｓＲＮＡ配列が、生物学的状態に対して陽性である複数の発見試料に存在し、すべての非疾患試料または異なる生物学的状態でラベル付けされたすべての試料に不在である、請求項４に記載の方法。

【請求項6】

候補ｓＲＮＡ配列であって、それらの存在または存在量によって生物学的状態の存在または不在を個別に予測する、前記候補ｓＲＮＡ配列が選択される、請求項４に記載の方法。

【請求項7】

候補ｓＲＮＡ配列であって、それらの存在または存在量が生物学的状態の存在または不在を予測し、かつ少なくとも０．０１のｐ値を有する、前記候補ｓＲＮＡ配列が選択される、請求項６に記載の方法。

【請求項8】

少なくとも１つの候補ｓＲＮＡ配列であって、それらの存在または存在量が生物学的状態の不在の存在を予測し、少なくとも０．０００１のｐ値を有する、前記少なくとも１つの候補ｓＲＮＡ配列が選択される、請求項７に記載の方法。

【請求項9】

少なくとも１つの候補ｓＲＮＡ配列であって、それらの存在または存在量が生物学的状態の存在または不在を予測し、かつ少なくとも０．０００００１のｐ値を有する、前記少なくとも１つの候補ｓＲＮＡ配列が選択される、請求項７に記載の方法。

【請求項10】

少なくとも１つの候補ｓＲＮＡ配列であって、それらの存在または存在量が生物学的状態の存在または不在を予測し、かつ少なくとも０．０００００００１のｐ値を有する、前記少なくとも１つの候補ｓＲＮＡ配列が選択される、請求項７に記載の方法。

【請求項11】

少なくとも１つの候補ｓＲＮＡ配列であって、それらの存在または存在量が生物学的状態の存在または不在を予測し、かつ少なくとも０．０００００００００１のｐ値を有する、前記少なくとも１つの候補ｓＲＮＡ配列が選択される、請求項７に記載の方法。

【請求項12】

少なくとも２つの生物学的状態の存在または不在を個別に予測する候補ｓＲＮＡ配列が選択される、請求項７に記載の方法。

【請求項13】

前記発見試料セットが少なくとも２つの別個の研究から得られ、前記選択された候補ｓＲＮＡ配列の各々が各研究からの少なくとも１つの試料に存在した、請求項１に記載の方法。

【請求項14】

前記別個の研究が異なる場所での生体試料の収集を含む、請求項１３に記載の方法。

【請求項15】

前記別個の研究が異なる場所での核酸またはｓＲＮＡの抽出をさらに含む、請求項１４に記載の方法。

【請求項16】

前記別個の研究が異なる場所でのｓＲＮＡ配列決定をさらに含む、請求項１５に記載の方法。

【請求項17】

前記発見試料セットが生物学的状態のステージ、グレード、または重症度についてさらにラベル付けされ、リードカウントがかかるステージ、グレード、または重症度と相関する候補ｓＲＮＡ配列が選択される、請求項１～１６のいずれか１項に記載の方法。

【請求項18】

前記ｓＲＮＡ配列が、ｓＲＮＡ配列のレベルを内在性ｓＲＮＡ対照及び／またはスパイクイン対照に対して正規化するために、前記対照を使用してｓＲＮＡ配列決定によって決定されたものである、請求項１７に記載の方法。

【請求項19】

複数の試料由来のＲＮＡが配列決定のためにプールされ、異なる試料由来の配列が試料特定タグ配列を含む、請求項１８に記載の方法。

【請求項20】

候補ｓＲＮＡ配列が１００万リードあたり少なくとも０．１のトリミングされたリードの平均リードカウントを有する、請求項１９に記載の方法。

【請求項21】

候補ｓＲＮＡ配列が、生物学的状態において増加した配列多様性を有するｓＲＮＡファミリーを特定し、かつ前記ｓＲＮＡファミリー内のｓＲＮＡ配列を候補ｓＲＮＡ配列として選択することによって選択される、及び／またはエクソソーム中での存在に関連する配列特徴を有する候補ｓＲＮＡ配列が選択される、請求項１に記載の方法。

【請求項22】

前記発見試料セットが、少なくとも３つの生物学的状態または少なくとも５つの生物学的状態の存在及び不在を表す、請求項１～２１のいずれか１項に記載の方法。

【請求項23】

前記発見試料セットが、少なくとも１０の生物学的状態の存在及び不在を表す、請求項２２に記載の方法。

【請求項24】

前記分類器が、ｓＲＮＡ配列のパネルの存在もしくは不在または存在量に基づいて試料を分類するようにトレーニングされ、前記パネルが、１クラスあたり約４～約２００個のｓＲＮＡ配列、または１クラスあたり約４～約１００個のｓＲＮＡ配列、または１クラスあたり約４～約５０個のｓＲＮＡ配列を含む、請求項１～２３のいずれか１項に記載の方法。

【請求項25】

前記発見試料セットが、固体組織試料、生体液試料、または培養細胞を含む、請求項１～２４のいずれか１項に記載の方法。

【請求項26】

前記発見試料セットが、血液、血清、血漿、脳脊髄液、尿、または唾液である、請求項２５に記載の方法。

【請求項27】

前記発見試料セットが固体組織生検である、請求項２５に記載の方法。

【請求項28】

前記発見試料セットが、前記少なくとも２つの生物学的状態に対して陽性である少なくとも１０個の試料を含む少なくとも１００個の試料を含む、請求項１～２７のいずれか１項に記載の方法。

【請求項29】

前記発見試料が、少なくとも２５個の非疾患または健常対照を含む、請求項２８に記載の方法。

【請求項30】

前記分類器が、パラメトリック／ノンパラメトリック距離測定法、ロジスティック回帰、サポートベクトルマシン、決定木、ランダムフォレスト、ニューラルネットワーク、プロビット回帰、フィッシャー線形判別、単純ベイズ分類器、パーセプトロン、二次分類器、カーネル推定、ｋ近傍法、学習ベクトル量子化、及び主成分分析などの教師あり、教師なし、半教師あり機械学習モデルのうちの１つ以上を使用してトレーニングされる、請求項１～２９のいずれか１項に記載の方法。

【請求項31】

前記分類器が、線形サポートベクトルマシンを使用してトレーニングされる、請求項３０に記載の方法。

【請求項32】

追加の発見試料からのｓＲＮＡ配列データが、分類器特徴を減少させるために評価される、請求項３１に記載の方法。

【請求項33】

前記生物学的状態が、中枢神経系の状態である、請求項１～３２のいずれか１項に記載の方法。

【請求項34】

少なくとも２つの生物学的状態が、認知症の症状を伴う神経変性疾患である、請求項３３に記載の方法。

【請求項35】

少なくとも２つの生物学的状態が、アルツハイマー病、パーキンソン病、ハンチントン病、軽度認知障害、進行性核上性麻痺、前頭側頭型認知症、レビー小体型認知症、及び血管性認知症から選択される、請求項３３に記載の方法。

【請求項36】

少なくとも２つの生物学的状態が、運動制御喪失の症状を伴う神経変性疾患である、請求項３３に記載の方法。

【請求項37】

少なくとも２つの生物学的状態が、アルツハイマー病、パーキンソン病、ハンチントン病、多発性硬化症、筋萎縮性側索硬化症、及び脊髄性筋萎縮症から選択される、請求項３６に記載の方法。

【請求項38】

少なくとも２つの生物学的状態が、任意選択で多発性硬化症、視神経炎、横断性脊髄炎、及び視神経脊髄炎を含む、脱髄疾患である、請求項３３に記載の方法。

【請求項39】

１つ以上の生物学的状態が、アルツハイマー病、パーキンソン病、ハンチントン病、多発性硬化症、筋萎縮性側索硬化症、及び脊髄性筋萎縮症から選択され、トレーニング試料が、疾患ステージ、疾患重症度、薬物応答性、または疾患進行の経過についてラベル付けされる、請求項１～３２のいずれか１項に記載の方法。

【請求項40】

前記生物学的状態が、異なる組織または細胞起源のがんである、請求項１～３２のいずれか１項に記載の方法。

【請求項41】

前記生物学的状態が、薬物感受性及び薬物抵抗性のがんを含む、請求項４０に記載の方法。

【請求項42】

前記対象由来の前記生体試料が、腫瘍またはがん細胞生検である、請求項４０または４１に記載の方法。

【請求項43】

前記生物学的状態が、任意選択で全身性エリテマトーデス（ＳＬＥ）、強皮症、自己免疫性血管炎、糖尿病（１型または２型）、グレーブス病、アディソン病、シェーグレン症候群、甲状腺炎、リウマチ性関節炎、重症筋無力症、多発性硬化症、線維筋痛症、乾癬、クローン病、潰瘍性大腸炎、憩室症、セリアック病、及び臓器線維症疾患のうちの１つ以上を含む、炎症性疾患または免疫疾患である、請求項１～３２のいずれか１項に記載の方法。

【請求項44】

前記生体試料が、血液、血清、または血漿である、請求項４３に記載の方法。

【請求項45】

前記生物学的状態が、任意選択で急性事象のリスクに対する層別化を含む、心血管疾患である、請求項１～３２のいずれか１項に記載の方法。

【請求項46】

前記心血管疾患が、冠動脈疾患（ＣＡＤ）、心筋梗塞、脳卒中、うっ血性心不全、高血圧性心疾患、心筋症、心臓不整脈、先天性心疾患、心臓弁膜症、心臓炎、大動脈瘤、末梢動脈疾患、及び静脈血栓症のうちの１つ以上を含む、請求項４５に記載の方法。

【請求項47】

少なくとも２つの生物学的状態が疾患サブタイプである、請求項１～３２のいずれか１項に記載の方法。

【請求項48】

前記試料セットが複雑な疾患の疾患サブタイプについてラベル付けされず、疾患サブタイプ分類器が教師なし機械学習モデルを使用してトレーニングされるか、または前記試料セットが複雑な疾患の疾患サブタイプについて部分的にのみラベル付けされ、疾患サブタイプ分類器が半教師あり機械学習モデルを使用してトレーニングされる、請求項４７に記載の方法。

【請求項49】

前記パネルにおけるｓＲＮＡが標的遺伝子または経路にマッピングされて、前記疾患サブタイプの創薬可能な標的または治療的介入を特定する、請求項４８に記載の方法。

【請求項50】

１つ以上の生物学的状態について対象を評価するための方法であって、
前記対象の生体試料を提供し、ｓＲＮＡパネルにおけるｓＲＮＡの存在もしくは不在または存在量を決定することと、
請求項１～４９のいずれか１項に従って調製された疾患分類器を使用して１つ以上の生物学的状態間で前記対象の状態を分類することと、を含む、前記方法。

【請求項51】

前記試料中のｓＲＮＡの存在もしくは不在または存在量が、定量的ＰＣＲアッセイによって決定される、請求項５０に記載の方法。

【請求項52】

前記試料中のｓＲＮＡの存在もしくは不在または存在量が、任意選択でｓＲＮＡ標的捕捉を用いるｓＲＮＡ配列決定によって決定される、請求項５０に記載の方法。

【請求項53】

前記疾患分類器が、少なくとも３つの生物学的状態または少なくとも５つの生物学的状態間で試料を分類する、請求項５０～５２のいずれか１項に記載の方法。

【請求項54】

前記疾患分類器が、少なくとも１０の生物学的状態間で分類する、請求項５３に記載の方法。

【請求項55】

前記パネルが、約４～約２００個のｓＲＮＡ、または約４～約１００個のｓＲＮＡ、または約４～約５０個のｓＲＮＡを含む、請求項５０～５４のいずれか１項に記載の方法。

【請求項56】

前記生体試料が、固体組織試料、生体液試料、または培養細胞のうちの１つ以上を含む、請求項５５に記載の方法。

【請求項57】

前記生体試料が、血液、血清、血漿、脳脊髄液、尿、または唾液である、請求項５６に記載の方法。

【請求項58】

前記対象の生体試料が固体組織生検である、請求項５６に記載の方法。

【請求項59】

前記分類器が、中枢神経系の生物学的状態を表す発見セットを使用してトレーニングされる、請求項５７に記載の方法。

【請求項60】

前記対象が中枢神経系疾患と一致する症状を呈する、請求項５９に記載の方法。

【請求項61】

前記対象が認知症の症状を有する、請求項６０に記載の方法。

【請求項62】

前記対象が運動制御喪失の症状を有する、請求項６０に記載の方法。

【請求項63】

前記対象が、アルツハイマー病、パーキンソン病、ハンチントン病、軽度認知障害、進行性核上性麻痺、前頭側頭型認知症、レビー小体型認知症、血管性認知症、多発性硬化症、筋萎縮性側索硬化症、及び脊髄性筋萎縮症のうちの１つ以上を有するまたは有しないと分類される、請求項６１または６２に記載の方法。

【請求項64】

前記対象が、任意選択で多発性硬化症、視神経炎、横断性脊髄炎、及び視神経脊髄炎のうちの１つ以上を含む、脱髄疾患を有するまたは有しないと分類される、請求項６０に記載の方法。

【請求項65】

前記対象が、アルツハイマー病、パーキンソン病、ハンチントン病、多発性硬化症、筋萎縮性側索硬化症、及び脊髄性筋萎縮症のうちの１つ以上を有すると診断または決定され、前記対象が、疾患ステージ、疾患重症度、薬物応答性、または疾患進行の経過について分類される、請求項６０に記載の方法。

【請求項66】

前記対象が、がんのリスクがあるか、がんを有する疑いがあるか、またはがんを有すると診断される、請求項５０～５８のいずれか１項に記載の方法。

【請求項67】

前記対象ががんを有し、前記試料が、薬物感受性、薬物抵抗性、及び組織起源から選択される１つ以上について分類される、請求項６６に記載の方法。

【請求項68】

前記対象由来の前記生体試料が、腫瘍またはがん細胞生検である、請求項６７に記載の方法。

【請求項69】

前記対象が炎症性疾患または免疫疾患の症状を呈する、請求項５０～５８のいずれか１項に記載の方法。

【請求項70】

前記対象の試料が、全身性エリテマトーデス（ＳＬＥ）、強皮症、自己免疫性血管炎、糖尿病（１型または２型）、グレーブス病、アディソン病、シェーグレン症候群、甲状腺炎、リウマチ性関節炎、重症筋無力症、多発性硬化症、線維筋痛症、乾癬、特発性肺線維症、クローン病、潰瘍性大腸炎、憩室症、及びセリアック病のうちの１つ以上の存在または不在について分類される、請求項６９に記載の方法。

【請求項71】

前記生体試料が、血液、血清、または血漿である、請求項６９または７０に記載の方法。

【請求項72】

前記疾患状態が、任意選択で急性事象のリスクに対する層別化を含む、心血管疾患である、請求項５０～５８のいずれか１項に記載の方法。

【請求項73】

前記心血管疾患が、冠動脈疾患（ＣＡＤ）、心筋梗塞、脳卒中、うっ血性心不全、高血圧性心疾患、心筋症、心臓不整脈、先天性心疾患、心臓弁膜症、心臓炎、大動脈瘤、末梢動脈疾患、及び静脈血栓症のうちの１つ以上を含む、請求項７２に記載の方法。

【請求項74】

前記対象が、複雑な疾患の疾患サブタイプについて分類される、請求項５０～７３のいずれか１項に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

優先権
本出願は、参照により全体が本明細書に組み込まれる２０２０年１月２２日に出願された特許仮出願第６２／９６４，４１２号の利益を主張するものである。

【背景技術】

【0002】

複雑な疾患における診断法及び治療法の進歩は、限られた成功しか収めていない。メンデル型遺伝病とは対照的に、複雑な疾患は、多くの場合、単一遺伝子変異によって引き起こされない表現型として定義される。複雑な疾患は、多数の遺伝的事象によって引き起こされる可能性があり、これは、罹患した個体によって異なる場合があり、環境要因からの多大な寄与を含み得る。複雑な疾患の研究に対する従来のアプローチは、類似した表現型を有する患者を特定し、関連研究を使用して表現型に関する共通の原因遺伝的事象を特定しようと試みている。これらのアプローチは、例えば、表現型に関連する一塩基多型（ＳＮＰ）などの遺伝子変異を特定することによって、ＤＮＡレベルで機能する。この古典的なアプローチは、限られた成功しか収めておらず、多くの高価な治験が有効性を示すことができておらず、これは、部分的には、基礎疾患が十分に特徴付けされていないまたは理解されていないままであるか、または確立されたまたは認識された疾患特徴付けとは異質のままであるためである。ＪａｍｅｓｏｎＬＪｅｔａｌ．，ＰｒｅｃｉｓｉｏｎＭｅｄｉｃｉｎｅ－Ｐｅｒｓｏｎａｌｉｚｅｄ，ＰｒｏｂｌｅｍａｔｉｃａｎｄＰｒｏｍｉｓｉｎｇ，ＮＥＪＭ３７２：２２２９－２２３４（２０１５）、ＬｙｍａｎＧＨ，ａｔａｌ．，ＢｉｏｍａｒｋｅｒＴｅｓｔｓｆｏｒＭｏｌｅｃｕｌａｒｌｙＴａｒｇｅｔｅｄＴｈｅｒａｐｉｅｓ－ＬａｙｉｎｇｔｈｅＦｏｕｎｄａｔｉｏｎａｎｄＦｕｌｆｉｌｌｉｎｇｔｈｅＤｒｅａｍ，Ｊ．Ｃｌｉｎ．Ｏｎｃｏｌ．３４（１７）：２０６１－２０６６（２０１６）を参照されたい。

【0003】

複雑な疾患をサブタイプ化するためのアプローチを含む、疾患を分類するための新たなアプローチが必要とされている。複雑な疾患を分類またはサブタイプ化するための正確な分子アプローチは、診断及び療法における大きなブレークスルーにつながり、次世代の患者ケアにつながる可能性がある。本発明は、これら及び他の目的を満たす。

【発明の概要】

【0004】

本開示は、１つ以上の異なる生物学的状態または１つ以上の疾患サブタイプについて対象を評価するための疾患分類器を構築するための方法を提供する。本発明は、発見試料セットの配列データから候補低分子ＲＮＡ（ｓＲＮＡ）配列を特定することを含む。発見試料セットにわたる候補ｓＲＮＡ配列（各々個別に入手されたもの）の存在または存在量は、目的とする生物学的状態を予測する（例えば、他の異なる生物学的状態または非疾患対照に対して）か、または疾患進行もしくは治療に対する反応を予測し、これらの候補ｓＲＮＡ配列が本開示の実施形態に従ってさらにフィルタリングまたは選択される。その後、機械学習技法が適用されて、疾患分類器、マルチクラス疾患分類器、及び異なる病状または疾患状態の分類器を含む分類器を構築及びトレーニングする。トレーニングされた分類器を使用して、新たな試料を分類する、例えば、疾患について患者を評価する、または治療的治療法に応答する疾患患者群を予測することができる。

【0005】

いくつかの実施形態では、疾患分類器は、マルチクラス予測器である。例えば、マルチクラス予測器は、類似の臨床症状（例えば、認知症、運動障害など）とともに現れる可能性のある状態、及び／または類似の病理学的注釈（例えば、疾患ステージ、線維症、炎症など）を有する状態などの目的とする生物学的状態を区別し得る。発見セットにわたる候補ｓＲＮＡ配列、具体的には、それらのバイナリプロファイル（存在もしくは不在）または存在量レベルプロファイルは、本明細書により完全に記載されるように、様々な機械学習モデルを使用して疾患分類器を構築するために使用される。疾患分類器は、分子検出アッセイを使用して、または他の実施形態では、ｓＲＮＡ配列決定を使用して、１つ以上の疾患状態の存在について対象をスクリーニングまたは評価するために使用することができる。

【0006】

いくつかの実施形態では、発見セットにおける候補ｓＲＮＡ配列の存在もしくは不在または存在量は、疾患サブタイプを特定または分類するために使用される。疾患サブタイプには、表現型が類似しているが、生物学的経路の異種の調節不全または異種のｓＲＮＡ生物発生に起因し得る疾患が含まれる。異種のサブタイプは、治療的介入に異なる応答を示し得る。さらに、予測ｓＲＮＡ配列を標的遺伝子及びそれらの生物学的経路にマッピングすることにより、疾患サブタイプの異なる創薬可能な標的及び治療レジメンを解明することができる。疾患サブタイプ分類器は、患者を適切な治療レジメンと一致させるために個別化された医療用途で使用される。疾患サブタイプ分類器はさらに、治験薬の作用機序に応じて患者募集を調整するために臨床試験設計で使用される。

【0007】

様々な実施形態では、本発明は、１つ以上の生物学的状態について対象を評価するための分類器を生成するための方法を提供する。本方法は、発見試料セットにわたって存在する異なるｓＲＮＡ配列の編集を含むｓＲＮＡ配列データを提供することと、候補ｓＲＮＡ配列であって、それらの存在もしくは不在または存在量（例えば、発現レベル）が目的とする生物学的状態の存在、不在、ステージ、または他の特徴と相関する、候補ｓＲＮＡ配列を選択することとを含む。これらの異なるｓＲＮＡ変種（例えば、ｉｓｏｍｉＲ）は、参照配列または遺伝子座に基づいて統合されず、それ故に、ｍｉＲＮＡを分析するための従来のアプローチとは異なる。発見試料セットは、概して、目的とする１つ以上の生物学的状態の存在または不在を表す試料を含み、非疾患対照をさらに含み得る。その後、分類器は、臨床表現型または病理学的ラベルを含む試料メタデータとともに、様々な機械学習モデルを使用して、例えば、トレーニングセットにわたる候補ｓＲＮＡ配列の存在もしくは不在、またはいくつかの実施形態では存在量を使用してトレーニングされる。この態様による分類器は、生物学的状態の存在及び／または不在について対象の試料を評価するためのｓＲＮＡ特徴を含む。

【0008】

様々な実施形態では、発見セット試料は、目的とする１つ以上の生物学的状態に対して陽性または陰性であるとラベル付けされる。かかる実施形態では、本発明は、教師あり機械学習モデルを使用して試料を分類するためのｓＲＮＡパネル及び特徴を特定することを含む。これらの実施形態では、本発明は、疾患の初期段階を含む同様の症状または病理を呈し得る生物学的状態を正確に分類するための分類器を提供する。例としては、とりわけ、認知症または振戦を呈するＣＮＳ障害及び胃腸炎を呈する障害が挙げられる。いくつかの異なる疾患状態にわたって共有され得る他の疾患表現型が本明細書の他の場所で提供される。

【0009】

さらに他の実施形態では、発見セット試料は、複雑な疾患及び非疾患対照の試料を表す。例えば、複雑な疾患は、発見セットでラベル付けされていない１つ以上の疾患サブタイプを含み得る。いくつかの実施形態では、本明細書に記載の方法は、かかる疾患サブタイプを潜在的に初めて特定する。これらの実施形態では、本発明は、教師なしまたは半教師あり機械学習を使用して、かかる疾患サブタイプの存在または不在について試料を分類するためのｓＲＮＡ特徴を特定する。したがって、試料をラベル付けするために代理マーカーが利用できない場合、または病理医の評価が異なる疾患サブタイプを区別するのに不十分な場合であっても、本発明による候補ｓＲＮＡ配列の存在もしくは不在または相対的存在量は、試料を分類するための驚くほど効果的な手段を提供する。いくつかの実施形態では、本明細書に記載の本発明は、さもなければ病理学的に類似しているとみなされる発見試料セットからこれらの疾患サブタイプを特定及び分類するために使用される。

【0010】

機械学習を改善するために、トレーニングセット内のおよそ１億個の異なる配列であり得る異なるｓＲＮＡ配列が、事前選択基準を使用して、数千個の候補ｓＲＮＡにフィルタリングされる。候補ｓＲＮＡ配列は、それらの存在、不在、または存在量が目的とする生物学的状態の存在または不在と相関する程度に基づいて選択することができる。いくつかの実施形態では、少なくとも１つの候補ｓＲＮＡ配列は、目的とする生物学的状態に対して陽性である発見試料（例えば、トレーニングセット）にのみ存在し、他のすべての発見試料には不在である。いくつかの実施形態では、少なくとも１つの候補ｓＲＮＡ配列は、目的とする生物学的状態（例えば、非疾患対照または他の生物学的状態クラス）に対して陰性である発見試料（例えば、トレーニングセット）にのみ存在し、目的とする生物学的状態に対して陽性としてラベル付けされたすべての試料には不在である。様々な実施形態では、候補ｓＲＮＡ配列であって、それらの存在または不在によってトレーニングセットにおける目的とする生物学的状態を個別に予測する、候補ｓＲＮＡ配列が選択される。すなわち、候補ｓＲＮＡは、トレーニングセット及び／または非疾患対照で表される他の生物学的状態に対して少なくとも１つの生物学的状態の存在または不在を決定するそれらの予測力について個別に選択された配列を含む。いくつかの実施形態では、候補ｓＲＮＡ配列は、それらの存在量（例えば、過剰または不足）が目的とする生物学的状態の存在または不在と相関する程度に基づいて、配列データから選択される。

【0011】

いくつかの実施形態では、発見試料セットは、目的とする１つ以上の生物学的状態のステージ、グレード、または他の特徴についてさらにラベル付けされる。これらの実施形態では、候補ｓＲＮＡであって、それらのリードカウントが、例えば、疾患ステージまたはグレードなどの疾患活動性と相関する、候補ｓＲＮＡが選択され得る。例えば、疾患ステージまたはグレードが進行すると、より高いまたはより低いリードカウントを示す候補ｓＲＮＡ配列が選択され得る。すなわち、平均リードカウントは、疾患の後期段階で、またはより高い疾患活動性とともに増加または減少する。あるいは、疾患ステージが低下すると（例えば、処理群において）、処理された対象においてより低いまたはより高いリードカウントを示す候補ｓＲＮＡ配列を選択することができる。

【0012】

様々な実施形態では、生物学的状態において増加した配列多様性を有するｓＲＮＡファミリー（例えば、同じシード配列を有するｍｉＲＮＡ）が特定される。これらのｓＲＮＡファミリー内のｓＲＮＡアイソフォームは、分類のための候補ｓＲＮＡ配列として選択される。例えば、いくつかの実施形態では、配列変異が、疾患状態において増加する、及び／または疾患状態の重症度とともに増加する、及び／または変異が治療レジメンに応答して正規化するか、または改善され得るｓＲＮＡファミリーが特定され得る。いくつかの実施形態では、機械学習のためのｓＲＮＡの事前選択は、同じシード配列を有するｉｓｏｍｉＲの選択に重きが置かれているか、またはエクソソーム内での存在（例えば、３’非鋳型ヌクレオチドの存在）に関連する変異を有するｉｓｏｍｉＲなどの他のｓＲＮＡ特性に重きが置かれている。

【0013】

ＳＲＮＡ特徴が選択された後、１つ以上の機械学習アプローチを使用して、機械学習分類器をトレーニングすることができる。いくつかの実施形態では、分類器は、候補ｓＲＮＡのパネルの存在もしくは不在または存在量に基づいて、試験セットの試料を分類するように構成されている。パネルのサイズは、関連するクラスの数に依存する。例えば、パネルは、１～約５０，０００個のｓＲＮＡ配列を含み得る。いくつかの実施形態では、パネルは、約４～約２００個のｓＲＮＡ配列を含む。いくつかの実施形態では、パネルの最大サイズを選択することができる（例えば、約１００のｓＲＮＡ）。いくつかの実施形態では、分類器は、例えば、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、ロジスティック回帰アルゴリズム、混合モデル、隠れマルコフモデル、またはニューラルネットワークアルゴリズムに基づく。

【0014】

トレーニングされた機械学習分類器は、対象由来の生体試料中のパネルにおけるｓＲＮＡマーカーの存在もしくは不在または存在量を検出し、かつ分類器を適用することによって、疾患状態または疾患サブタイプ（生物学的状態）についての独立した対象の評価に使用することができる。生体試料は、試験される各クラスに関して計算される対応する確率または別の尺度を有する２つ以上のクラスに割り当てることができる。いくつかの事例では、ある特定の閾値を超える関連付けられた確率値を有する割り当てのみが、分類器によって提供され得る。さらに、いくつかの実施形態では、治療推奨またはレジメンは、対象の生体試料の分類の結果に基づいて生成することができる。

【0015】

他の態様では、本発明は、１つ以上の疾患状態または疾患サブタイプについて対象を評価するための方法を提供する。様々な実施形態では、本方法は、対象の生体試料を提供し、ｓＲＮＡパネルにおけるｓＲＮＡの存在もしくは不在または存在量を決定することを含む。その後、このｓＲＮＡプロファイルが、本開示により調製された疾患分類器を使用して１つ以上の疾患状態または疾患サブタイプ間で対象の状態を分類するために使用される。患者の状態または疾患サブタイプが特定された場合、患者を、疾患状態に適切な治療レジメンとマッチング（すなわち、それを投与）することができる、及び／または臨床試験に組み入れるまたは除外することができる。例えば、いくつかの実施形態では、患者は、調節不全または異常経路を標的とし、かつクラスタ分析に使用されるパネルにおける１つ以上のｓＲＮＡ（例えば、ｍｉＲＮＡ）によって標的とされる経路に対応する療法を投与される。

【0016】

様々な実施形態では、対象の試料中のｓＲＮＡの存在もしくは不在または存在量は、定量的ＰＣＲアッセイなどの分子診断アッセイによって決定される。例えば、ｓＲＮＡ配列の検出は、定量的もしくは定性的ＰＣＲ、例えば、リアルタイムＰＣＲを含む、プローブの逆転写、増幅、及び／またはハイブリダイゼーションを用いることができる様々な検出プラットフォームのうちの１つに移行する。ＰＣＲ検出フォーマットは、いくつかの実施形態では、かつ任意選択で、蛍光標識プローブに関連して、ＲＴ－ＰＣＲ用のステムループプライマーを用いることができる。

【0017】

さらに他の実施形態では、対象の試料に存在するｓＲＮＡは、本明細書の他の場所に記載のｓＲＮＡ配列決定及びアダプタートリミングによって決定または定量化される。ｓＲＮＡ配列決定は、当該技術分野で既知の標的捕捉（標的濃縮配列決定）を含み得る。

【0018】

本発明の他の態様及び実施形態は、以下の発明を実施するための形態から明白となるであろう。

【図面の簡単な説明】

【0019】

【図1】いくつかの実施形態による、分類器を生成する方法を説明するフローチャートである。

【図2】いくつかの実施形態による、図１の方法を使用して生成された分類器を適用する方法を説明するフローチャートである。

【図3】Ａ～Ｄは、高度に正確なマルチクラス疾患予測：対照（Ａ）、クローン病（Ｂ）、潰瘍性大腸炎（Ｃ）、及び憩室症（Ｄ）を説明する、様々なＩＢＤクラス及び対照のＲＯＣ／ＡＵＣ曲線を示す。

【図4】正確なマルチクラス疾患予測のそれらの真の参照同一性に対する割合を示しているヒートマップを示す。クラスは、クローン病、対照（ＣＴＲ）、憩室症、及び潰瘍性大腸炎である。

【図5】スパイクイン低分子ＲＮＡを使用した正規化の例を説明する。

【図6A】教師あり機械学習と教師なし機械学習との組み合わせを使用して複雑な疾患をサブタイプ化するための方法を説明する。

【図6B】いくつかの実施形態による教師なし機械学習のステップを図６Ｂに図式的に示す。

【図7】ｓＲＮＡの事前選択中に共通のシード領域を有するｍｉＲＮＡバリアントが凝集したときの分類器性能の向上を示す。

【発明を実施するための形態】

【0020】

本開示は、１つ以上の異なる生物学的状態または１つ以上の疾患サブタイプ（集合的に「生物学的状態」または「疾患状態」と称されることもある）について対象を評価するための疾患分類器を構築するための方法を提供する。本発明は、発見試料セットの配列データから候補低分子ＲＮＡ（ｓＲＮＡ）配列を特定することを含む。発見試料セット（またはトレーニングセット）にわたる候補ｓＲＮＡ配列（各々個別に入手されたもの）の存在または存在量は、目的とする生物学的状態を予測し（例えば、他の異なる生物学的状態または非疾患対照に対して）、これらの候補ｓＲＮＡ配列が本開示の実施形態に従ってさらにフィルタリングまたは選択される。その後、機械学習技法が適用されて、複数疾患分類器及び疾患サブタイプ分類器を含む疾患分類器を構築及びトレーニングする。トレーニングされた分類器を使用して、新たな試料を分類する、例えば、疾患について患者を評価することができる。

【0021】

いくつかの実施形態では、疾患分類器は、マルチクラス予測器である。例えば、マルチクラス予測器は、典型的には類似の臨床症状（例えば、認知症、運動障害など）とともに現れるか、またはそれを呈する状態などの目的とする生物学的状態を区別し得る。発見セットにわたる候補ｓＲＮＡ配列、具体的には、それらのバイナリプロファイル（存在もしくは不在）または発現レベルプロファイルは、本明細書により完全に記載されるように、様々な機械学習モデルを使用して疾患分類器を構築するために使用される。疾患分類器は、分子検出アッセイを使用して、または他の実施形態では、ｓＲＮＡ配列決定を使用して、１つ以上の疾患状態の存在について対象を評価するために使用することができる。

【0022】

いくつかの実施形態では、ｓＲＮＡパネルは、疾患サブタイプを特定または分類するために使用される。疾患サブタイプには、表現型が類似しているが、生物学的経路の異なる異常もしくは調節不全、または異種のｓＲＮＡ生物発生に起因し得る疾患が含まれる。異種のサブタイプは、治療的介入に異なる応答を示し得る。さらに、予測ｓＲＮＡ配列を標的遺伝子及びそれらの生物学的経路にマッピングすることにより、疾患サブタイプの異なる創薬可能な標的及び治療レジメンを解明することができる。疾患サブタイプ分類器は、患者を適切な治療法または治療レジメンと一致させるために個別化された医療用途で使用される。疾患サブタイプ分類器はさらに、治験薬の作用機序に応じて患者募集を調整するために臨床試験設計で使用される。

【0023】

様々な実施形態では、本発明は、１つ以上の生物学的状態について対象を評価するための分類器を生成するための方法を提供する。本方法は、発見試料セット（例えば、トレーニングセット）にわたって存在する異なるｓＲＮＡ配列の編集を含むｓＲＮＡ配列データを提供することと、候補ｓＲＮＡ配列であって、それらの存在もしくは不在または存在量が目的とする生物学的状態の存在、不在、ステージ、または他の特徴と相関する、候補ｓＲＮＡ配列を選択することとを含む。発見試料セットは、概して、目的とする１つ以上の生物学的状態の存在または不在を表す試料を含み、非疾患対照をさらに含み得る。本発明の実施形態による候補ｓＲＮＡ配列を減少させた後（以下に記載されるように）、分類器は、生物学的状態ラベルを含む試料メタデータとともに、様々な機械学習モデルを使用して、例えば、トレーニングセットにわたる候補ｓＲＮＡ配列の存在もしくは不在、またはいくつかの実施形態では存在量を使用してトレーニングされる。この態様による分類器は、生物学的状態の存在及び／または不在について対象の試料を評価するためのｓＲＮＡ特徴を含む。

【0024】

図１は、いくつかの実施形態による、分類器を生成する方法１００を概略的に説明する。方法１００は、少なくとも部分的に、いくつかの実施態様では１つ以上の中央処理装置ＣＰＵ（プロセッサとも称される）、１つ以上のグラフィカル処理装置、１つ以上のネットワークインターフェース、ユーザインターフェース、非永続的メモリ、永続的メモリ、及びこれらの構成要素を相互接続するための１つ以上の通信バスを含む好適なシステムで実行することができる。１つ以上の通信バスは、任意選択で、システム構成要素間の通信を相互接続及び制御する回路（チップセットと呼ばれることもある）を含む。非永続的メモリは、典型的には、ＤＲＡＭ、ＳＲＡＭ、ＤＤＲＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリなどの高速ランダムアクセスメモリを含み、永続的メモリは、典型的には、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）もしくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶装置、磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリデバイス、または他の不揮発性ソリッドステート記憶装置を含む。

【0025】

永続的メモリは、任意選択で、ＣＰＵから遠隔に位置する１つ以上の記憶装置を含む。永続的メモリ、及び非永続的メモリ内の不揮発性メモリデバイスは、非一時的コンピュータ可読記憶媒体を含む。いくつかの実施態様では、非永続的メモリまたはあるいは非一時的コンピュータ可読記憶媒体は、方法１００を実装するために使用されるプログラム、モジュール、及びデータ構造を記憶する（場合によっては永続的メモリと併せて）。これらのプログラム、モジュール、及びデータ構造は、任意選択のオペレーティングシステム（様々な基本システムサービスを処理し、かつハードウェア依存タスクを実行するための手順を含む）、システムを他のデバイスまたは通信ネットワークに接続するための任意選択のネットワーク通信モジュール（または命令）、及び他のモジュールを含むことができる。例えば、１つ以上のトレーニングデータセットは、システムのメモリに記憶することができる。これらのモジュール、データ、またはプログラム（例えば、命令セット）は、別個のソフトウェアプログラム、手順、データセット、またはモジュールとして実装される必要はなく、それ故に、これらのモジュール及びデータの様々なサブセットは、様々な実装において組み合わせられるか、またはさもなければ再配置され得る。

【0026】

図１のブロック１０２では、発見試料セットを取得することができる。発見試料セットは、患者試料に一致するｓＲＮＡ配列データを提供する任意の１つ以上の研究を含む、任意の好適な供給源から得ることができる。発見試料セットは、概して、目的とする１つ以上の生物学的状態の存在または不在を表す試料を含み得、非疾患対照をさらに含み得る。

【0027】

本明細書で使用される場合、「発見セット」または「発見試料セット」は、目的とする１つ以上の生物学的状態を表す試料セットを含み、様々な実施形態では、目的とする生物学的状態のうちのいずれかを表さない対照（非疾患対照）も含む。いくつかの実施形態では、発見試料は、共通の組織に由来し、目的とする生物学的状態は、共通の表現型または病理を有する。目的とする生物学的状態を定義し得る例示的な表現型または病理は、とりわけ、がん性悪性腫瘍、悪性腫瘍浸潤、認知症、認知試験スコア、β－アミロイドタンパク質堆積、タウタングル、運動制御または振戦、神経変性、脱髄、不安、抑うつ、または双極性障害、頭痛または疲労、不眠症、慢性組織炎症、血管炎、血管透過性、過敏性腸症候群（腹痛、下痢、便秘、疲労、及び／または体重減少を含み得る）、筋肉または関節痛または疲労、胃腸透過性、筋萎縮、自己免疫、組織線維症、身体、精神、または社会性発達障害、リソソーム蓄積異常、グリコーゲン蓄積、無制御細胞増殖、細胞または組織壊死またはアポトーシス、脂肪肝または肝炎、慢性腎疾患、好中球増加症または好中球減少症、骨再形成異常（異常な骨形成または骨吸収を含む）、インスリン抵抗性、高血圧または低血圧、血管収縮、病理学的血管新生またはリンパ管形成、高コレステロール血症、代謝性疾患または肥満、冠動脈疾患、うっ血性心不全、薬物反応または薬物中毒のうちの１つ以上を含み得るが、これらに限定されない。いくつかの実施形態では、発見セットは、本明細書にさらに記載されるように、候補ｓＲＮＡ及び機械学習を選択するためにトレーニングセット及び試験セットにランダムに分けられる。

【0028】

いくつかの実施形態では、発見セットは、目的とする生物学的状態を表し、かつ異種の治療的介入を受けるか、または治療的介入に対する異種の応答を有する患者から得られた試料を含む。かかる実施形態では、試料は、特定の治療的介入、及び／または治療的介入の有効性もしくは毒性についてラベル付けされ得る。

【0029】

様々な実施形態では、発見試料セットにおける試料は、少なくとも２つの生物学的状態、または少なくとも３つの生物学的状態、または少なくとも５つの生物学的状態の存在及び不在を表し（例えば、それらについてラベル付けされ）、これらは、共通の表現型または病理を共有する。いくつかの実施形態では、発見試料セットは、少なくとも４つ、少なくとも５つ、少なくとも７つ、または少なくとも１０の生物学的状態の存在及び不在を表す。いくつかの実施形態では、発見試料は、共通の表現型または病理を共有する３～１０または３～５の生物学的状態の存在及び不在を表す。

【0030】

いくつかの実施形態では、発見試料セットは、２つ以上の異なる疾患サブタイプを有する疑いのある少なくとも１つの生物学的状態を表す。本明細書で使用される場合、「疾患サブタイプ」とは、類似の疾患症状とともに現れるが、異なるｓＲＮＡ生物発生、異種のもしくは区別可能な生物学的経路異常もしくは調節不全の生物学的経路を含み得る、及び／または異なる治療様式を必要とし得る生物学的状態の集合を意味する。本開示によれば、理論に拘束されることを意図するものではないが、多くの複雑な疾患が実際にはｓＲＮＡ生物発生の分析に基づいて有意義に区別することができる疾患の異質の集合であると考えられている。いくつかの実施形態では、本発明は、別の点で病理学的に類似しているとみなされる発見試料セットからこれらの疾患サブタイプを特定する。

【0031】

様々な実施形態では、発見試料セットは、固体組織試料、生体液試料、または培養細胞を含む。例えば、生体液試料は、血液、血清、血漿、脳脊髄液、尿、または唾液であり得る。いくつかの実施形態では、発見試料セットは、固体組織生検（例えば、疾患組織のもの）または解剖試料である。いくつかの実施形態では、発見セットは、がん細胞培養物を含み、これらのがん細胞培養物は、いくつかの実施形態では、一次培養物または不死化細胞株であり得る。

【0032】

様々な実施形態では、発見試料セット（またはトレーニングセット）は、目的とする生物学的状態の各々に対して陽性である少なくとも５０個の試料、または少なくとも１００個の試料、例えば、少なくとも１０個の試料または少なくとも２０個の試料または少なくとも５０個の試料を含む。いくつかの実施形態では、発見試料セットは、少なくとも２５個の非疾患または健常対照、または少なくとも５０個の非疾患または健常対照、または少なくとも１００個の非疾患または健常対照を含む。

【0033】

発見セットは、単一の研究から供給される必要はなく、いくつかの実施形態では、分析前変数、例えば、核酸の抽出、ｓＲＮＡライブラリの調製、及び次世代配列決定を制御するために、発見セットが別個の研究から調達されることが好ましい。「別個の研究」という用語は、異なる場所（例えば、別個の施設）での生体試料の収集、または異なる場所での核酸もしくはｓＲＮＡの抽出、及び任意選択で少なくとも１つの他の場所からの異なる核酸もしくはｓＲＮＡ抽出プロトコルまたは試薬の使用、ならびに異なる場所でのｓＲＮＡ配列決定ライブラリ調製及び／または配列決定、及び任意選択で少なくとも１つの他の場所からの異なるｓＲＮＡ配列決定ライブラリ調製及び／または配列決定プロトコルの使用のうちの１つ以上を必要とする。いくつかの実施形態では、別個の研究は、異なる地理（例えば、少なくとも２つの異なる国または大陸）での組織の調達もしくは処理及び／または配列決定を含む。これらの実施形態では、別個の調達、処理、または配列決定は、研究プロトコルの追加の多様性を提供し、患者の遺伝的または民族的差異も提供し得る。いくつかの実施形態では、本明細書に記載されるように、特徴減少のために追加の発見試料が続いて用いられる。

【0034】

様々な実施形態では、発見セット試料は、目的とする１つ以上の生物学的状態に対して陽性または陰性であるとラベル付けされる。かかる実施形態では、本発明は、本発明は、教師あり機械学習モデルを使用して試料を分類するためのｓＲＮＡ特徴を特定することを含む。これらの実施形態では、本発明は、疾患の初期段階を含む同様の症状を呈し得る生物学的状態を正確に分類するための分類器を提供する。例としては、とりわけ、認知症または振戦を呈するＣＮＳ障害、胃腸炎症を呈する障害、臓器または組織の炎症または線維症（例えば、特発性肺線維症）を呈する障害、腫瘍形成または細胞悪性腫瘍を特徴とする障害が挙げられる。いくつかの異なる疾患状態にわたって共有され得る他の疾患表現型が本明細書の他の場所で提供される。

【0035】

さらに他の実施形態では、発見セット試料は、少なくとも１つの複雑な疾患及び非疾患対照の試料を表す。例えば、複雑な疾患は、発見セットでラベル付けされていないか、または部分的にのみラベル付けされている１つ以上の疾患サブタイプを含み得る。いくつかの実施形態では、本明細書に記載の方法は、疾患サブタイプを潜在的に初めて特定する。これらの実施形態では、本発明は、教師なしまたは半教師あり機械学習を使用して、かかる疾患サブタイプの存在または不在について試料を分類するためのｓＲＮＡ特徴を特定する。したがって、試料をラベル付けするために代理マーカーが利用できない場合、または病理医の評価が異なる疾患サブタイプを区別するのに不十分な場合であっても、本発明の実施形態による教師あり機械学習によって特定されるパネルにおけるｓＲＮＡ配列の存在もしくは不在または相対的存在量は、複雑な疾患の試料をサブタイプ化するための驚くほど効果的な手段を提供する。いくつかの実施形態では、本明細書に記載の本発明は、さもなければ病理学的に類似しているとみなされる発見試料セットからこれらの疾患サブタイプを特定及び分類するために使用される。

【0036】

図１に戻って参照すると、いくつかの実施形態では、ブロック１０４に示されるように、発見試料セットにおけるｓＲＮＡ配列決定データが処理され、これはアダプタートリミングを伴う。いくつかの実施形態では、アダプタートリミングは、例えば、全内容が参照により本明細書に組み込まれるＰＣＴ／ＵＳ２０１８／０１４８５６に記載されるように行うことができる。

【0037】

本開示のいくつかの実施形態では、発見試料セットのｓＲＮＡ配列データが提供される。ｓＲＮＡ配列データは、存在する５’及び３’変異を特定するために、ｓＲＮＡ配列リードから５’及び３’配列決定アダプターをトリミングすることによって処理される。これらの異なる変異は、ｍｉＲＮＡを分析するための従来のアプローチである参照配列または遺伝子座に基づいて統合されない。したがって、発見セットからのｓＲＮＡ配列データは、発見試料にわたる各試料における異なるｓＲＮＡ配列（すなわち、アイソフォーム）の編集を伴う。

【0038】

ｓＲＮＡの５’末端及び３’末端での変異を特定するために、例えば、好適な計算モジュール（例えば、ソフトウェアプログラム）を使用して、ユーザ定義の配列決定アダプターを生のｓＲＮＡ配列リードからトリミングしてもよい。アダプターは、配列決定プラットフォームに基づいて、ユーザによって定義される。アダプター配列を除去することにより、ｓＲＮＡアイソフォームを特定し、試料中で定量化することができる。例えば、いくつかの実施形態では、ソフトウェアプログラムは、ユーザ定義の３’アダプターに対応する正規表現を検索し、それらを生のｓＲＮＡ配列リードから削除する。

【0039】

いくつかの実施形態では、ユーザ定義の３’アダプターの正規表現は、いくつかの「ワイルドカード」を含む。ワイルドカードは、以下の４つのデオキシリボ核酸：（Ａ）アデニン、（Ｔ）チミン、（Ｇ）グアニン、または（Ｃ）シトシンのうちのいずれか１つであると定義される。しかしながら、ユーザ指定の３’アダプター配列の５’末端の第１のヌクレオチドは改変されておらず（例えば、挿入もしくは欠失とみなされないか、または別様にワイルドカード変化を受けやすいとみなされない）、それ故に、ｓＲＮＡの３’末端ヌクレオチドが３’アダプターの５’末端ヌクレオチドにライゲーションされる接合部でｓＲＮＡ配列を保持する。ユーザ指定の３’アダプターの５’末端ヌクレオチドが、ユーザが指定したものと一致しない場合、３’アダプター配列はトリミングされないが、必要に応じて、独立して検証することができる。いくつかの実施形態では、（トリミング後に）少なくとも１７ヌクレオチド長を有するｓＲＮＡが分析に考慮される。いくつかの実施形態では、約７５以下のヌクレオチド長以下、または約５０以下のヌクレオチド、または約４３以下のヌクレオチド長を有するｓＲＮＡが分析に考慮される。

【0040】

いくつかの実施形態では、異なるｓＲＮＡ配列の存在もしくは不在または存在量が決定される。かかる実施形態では、ｓＲＮＡ配列は、１つ以上の内因性ｓＲＮＡ対照または外因性（すなわち、「スパイクイン」）ｓＲＮＡ対照に対して正規化され得る。いくつかの実施形態では、スパイクインは、（１）合成オリゴヌクレオチド、（２）合成オリゴヌクレオチドの等モルプール、または（３）増加濃度で混合された合成オリゴヌクレオチドのプールであり得る。各実施形態では、スパイクインは、５’及び３’アダプターライゲーション前に試料に添加される。上記の事例の各々では、オリゴヌクレオチドが５’ホスフェート及び３’ヒドロキシルで合成されて、内因性ｓＲＮＡを模倣する。

【0041】

いくつかの実施形態では、実施例２（図５）により詳細に記載されるように、５’ホスフェート及び３’ヒドロキシルで合成されるある特定の数の外因性オリゴヌクレオチドのプールは、様々な濃度で組み合わされ、５’及び３’アダプターライゲーション前に各試料に添加され得る。

【0042】

ｓＲＮＡ配列決定は、低分子ＲＮＡ種、例えば、マイクロＲＮＡ（ｍｉＲＮＡ）、Ｐｉｗｉ相互作用ＲＮＡ（ｐｉＲＮＡ）、低分子干渉ＲＮＡ（ｓｉＲＮＡ）、ヴォールトＲＮＡ（ｖｔＲＮＡ）、核小体低分子ＲＮＡ（ｓｎｏＲＮＡ）、トランスファーＲＮＡ由来の低分子ＲＮＡ（ｔｓＲＮＡ）、リボソームＲＮＡ由来の低分子ＲＮＡ断片（ｒｓＲＮＡ）、低分子ｒＲＮＡ由来のＲＮＡ（ｓｒＲＮＡ）、及び核内低分子ＲＮＡ（Ｕ－ＲＮＡ）を濃縮し、配列決定する。例えば、ｓＲＮＡ配列決定データを提供する際に、入力材料が低分子ＲＮＡについて濃縮され得る。配列ライブラリ構築は、用いられるハイスループット配列決定プラットフォームに応じていくつかのプロセスまたは市販のキットのうちのいずれかを使用して、ｓＲＮＡ濃縮材料を用いて行われる。概して、ｓＲＮＡ配列決定ライブラリ調製は、試料からの全ＲＮＡの単離、サイズ分画、配列決定アダプターのライゲーション、逆転写及びＰＣＲ増幅、ならびにＤＮＡ配列決定を含む。

【0043】

より具体的には、いくつかの実施形態では、所与の試料において、すべてのＲＮＡ（すなわち、全ＲＮＡ）が抽出され、単離される。低分子ＲＮＡは、サイズ分画によって、例えば、変性ポリアクリルアミドゲル上に単離されたＲＮＡを泳動させることによって、または様々な市販のキットのうちのいずれかを使用することによって単離される。その後、ライゲーションステップは、逆転写中及びＰＣＲ増幅中にプライマー結合部位として作用する低分子ＲＮＡの両端にアダプターを付加する。例えば、事前にアデニル化された一本鎖ＤＮＡの３’アダプター、続いて５’アダプターは、Ｔ４ＲＮＡリガーゼ２切断（Ｔ４Ｒｎｌ２ｔｒＫ２２７Ｑ）などのライゲーション酵素を使用して、低分子ＲＮＡにライゲーションされる。これらのアダプターは、異なる５’及び３’末端化学を有するＲＮＡ分解産物ではなく、生物学的に処理された低分子ＲＮＡ（例えば、マイクロＲＮＡ）の特徴である５’ホスフェート及び３’ヒドロキシル基を有する低分子ＲＮＡを捕捉するように設計されている。その後、ｓＲＮＡライブラリが逆転写され、ＰＣＲによって増幅される。このステップは、アダプターライゲーションＲＮＡを、配列決定反応の鋳型であるｃＤＮＡクローンに変換する。固有のヌクレオチドインデックス配列で設計されたプライマーをこのステップで使用して、ＩＤタグ（すなわち、バーコード）を作成して、ライブラリプール及びマルチプレックス配列決定を容易にすることもできる。

【0044】

とりわけ、パイロシーケンシング（例えば、４５４ＬｉｆｅＳｃｉｅｎｃｅｓ）、ポリメラーゼベースの合成による配列（例えば、Ｉｌｌｕｍｉｎａ）、またはライゲーションによる配列決定（例えば、ＡＢＩＳｏｌｉｄＳｅｑｕｅｎｃｉｎｇプラットフォーム）などの任意の次世代配列決定プラットフォームを含む、任意のＤＮＡ配列決定プラットフォームを用いることができる。

【0045】

図１に戻って参照すると、ブロック１０６では、候補ｓＲＮＡがブロック１０４で処理されたｓＲＮＡから選択され得る。いくつかの実施形態では、候補ｓＲＮＡは、ｍｉＲＮＡアイソフォーム、トランスファーＲＮＡ由来の断片、及びリボソームＲＮＡ由来の断片のうちの１つ以上に限定される。いくつかの実施形態では、これらのｍｉＲＮＡ種、ｔＲＮＡ種、及びｒＲＮＡ種は、ｓＲＮＡ配列からフィルタリングされ、候補選択のために使用される。いくつかの実施形態では、１つ以上のｓＲＮＡは、ｉｓｏｍｉＲである。「ｉｓｏｍｉＲ」とは、参照ｍｉＲＮＡ配列（例えば、ｍｉＲＢａｓｅによって使用される）に関して変異を有する配列を指す。ｍｉＲＢａｓｅでは、各ｍｉＲＮＡは、ｍｉＲＮＡ前駆体、及び１つまたは２つの成熟ｍｉＲＮＡ（－５ｐ及び－３ｐ）に関連する。ディープ配列決定は、ｍｉＲＮＡ生合成における大きな変異を検出し、これは、同じｍｉＲＮＡ前駆体から多くの異なる配列が検出され得ることを意味する。ＳＲＮＡの６つの主な変異：（１）５’改変（５’末端ヌクレオチドが参照ｓＲＮＡ配列の上流または下流にある）、（２）３’改変（３’末端ヌクレオチドが参照ｓＲＮＡ配列の上流または下流にある）、（３）５’ヌクレオチド付加（ヌクレオチドが参照ｓＲＮＡの５’末端に酵素的に付加される）、（４）３’ヌクレオチド付加（ヌクレオチドが参照ｓＲＮＡの３’末端に酵素的に付加される）、（５）ヌクレオチド置換（ヌクレオチドがＤＮＡバリアント（例えば、一塩基多型、挿入、または欠失）に起因して改変される）、（６）ヌクレオチド編集（ヌクレオチドがｍｉＲＮＡ前駆体または成熟ｍｉＲＮＡまたは他のｓＲＮＡ中の１つ以上のヌクレオチド塩基の酵素的改変に起因して改変される）が存在する。いくつかの実施形態では、ｉｓｏｍｉＲの包含は、５’及び３’バリアントに限定されるが、置換または「スワップ」は限定されない。いくつかの実施形態では、遺伝子間マッピングｍｉＲＮＡは、候補ｓＲＮＡ選択プロセスにおいて許可されない。

【0046】

いくつかの実施形態では、１つ以上の候補ｓＲＮＡバリアントは、スワップなしのトランスファーＲＮＡ由来の断片である。いくつかの実施形態では、１つ以上の候補ｓＲＮＡバリアントは、スワップなしのリボソームＲＮＡ由来の断片である。

【0047】

様々な実施形態によれば、図１のブロック１０６では、発見セットからのｓＲＮＡ配列データを使用して、機械学習のための候補ｓＲＮＡ配列を選択する。機械学習を改善するために、発見セット内のおよそ１億個の異なる配列であり得る異なるｓＲＮＡ配列を、事前選択基準を使用して、数千個の候補ｓＲＮＡにフィルタリングする。例えば、いくつかの実施形態では、約１００，０００個以下のｓＲＮＡ配列が機械学習分析のために選択されるか、または約５０，０００個以下のｓＲＮＡ配列、もしくは約１０，０００個以下のｓＲＮＡ配列、もしくは約５，０００個以下のｓＲＮＡ配列、もしくは約２，０００個以下のｓＲＮＡ配列が、機械学習モデルを使用して疾患分類器をトレーニングするために選択される。様々な実施形態では、少なくとも約１０００個、または少なくとも約２０００個、または少なくとも約５０００個、または少なくとも約１０，０００個の候補ｓＲＮＡが、教師あり機械学習のために事前選択される。いくつかの実施形態では、約２，５００～約６０，０００個のｓＲＮＡ配列が、疾患分類器をトレーニングするために事前選択される。

【0048】

図１のブロック１０６では、いくつかの実施形態では、発見セットからのｓＲＮＡ配列データが処理された後、候補ｓＲＮＡ配列がｓＲＮＡ配列データから選択される。候補ｓＲＮＡ配列は、それらの存在、不在、または存在量が、例えば、発見セットに存在する他の状態または非疾患対照と比較して、目的とする生物学的状態の存在または不在と相関する程度に基づいて選択することができる。いくつかの実施形態では、少なくとも１つの候補ｓＲＮＡ配列は、目的とする生物学的状態に対して陽性であり、かつすべての他の発見試料に不在である発見試料（例えば、トレーニングセットの）にのみ存在する。いくつかの実施形態では、目的とする生物学的状態に対して陽性または陰性であり、かつすべての他の発見試料に不在である試料にのみ存在する少なくとも５つ、または少なくとも１０個、または少なくとも２０個の候補ｓＲＮＡ配列が選択される。いくつかの実施形態では、ｓＲＮＡは、定義された頻度閾値で疾患試料に存在する（かつ少なくとも１つの他のクラス（例えば、健常対照または他の生物学的状態）のすべての他の試料に不在である）ものについてフィルタリングされる。例えば、ｓＲＮＡは、目的とする生物学的状態に対して陽性である試料の少なくとも約５％、または少なくとも約１０％、または少なくとも約１５％、または少なくとも約２０％、または少なくとも約２５％に存在するものについてフィルタリングされ得る。加えて、ｓＲＮＡ配列は、定義された頻度閾値で対照試料に存在する（かつ少なくとも１つの生物学的状態クラスのすべての試料に不在である）ものについてフィルタリングすることができる。例えば、ｓＲＮＡは、健常（非疾患）対照である試料の少なくとも約５％、または少なくとも約１０％、または少なくとも約１５％、または少なくとも約２０％、または少なくとも約２５％に存在するものについてフィルタリングされ得る。１つのクラスの試料に存在するが、少なくとも１つの他のクラスのすべての試料に不在であると特定されるｓＲＮＡマーカーは、本明細書では「バイナリ」マーカーと称されることがある。

【0049】

様々な実施形態では、候補ｓＲＮＡ配列であって、それらの存在または不在によって発見セット、特にトレーニング群における試料セットにおける目的とする生物学的状態を個別に予測する、候補ｓＲＮＡ配列が選択される。例えば、候補ｓＲＮＡ配列であって、それらの存在または不在が目的とする生物学的状態を予測し、かつトレーニング群において少なくとも０．０１のｐ値を有する、候補ｓＲＮＡ配列を選択することができる。いくつかの実施形態では、少なくとも１つの候補ｓＲＮＡ配列（例えば、少なくとも２、３、４、または５つの候補ｓＲＮＡ配列）であって、その存在または不在が目的とする生物学的状態を予測し、かつトレーニング群において少なくとも０．０００１のｐ値を有する、少なくとも１つの候補ｓＲＮＡ配列が選択される。いくつかの実施形態では、少なくとも１つの候補ｓＲＮＡ配列（例えば、少なくとも２、３、４、または５つの候補ｓＲＮＡ配列）であって、その存在または不在が目的とする生物学的状態を予測し、かつトレーニング群において少なくとも０．０００００１のｐ値を有する、少なくとも１つの候補ｓＲＮＡ配列が選択される。いくつかの実施形態では、少なくとも１つの候補ｓＲＮＡ配列（例えば、少なくとも２、３、４、または５つの候補ｓＲＮＡ配列）であって、その存在または不在が目的とする生物学的状態を予測し、かつトレーニング群において少なくとも０．０００００００１のｐ値を有する、少なくとも１つの候補ｓＲＮＡ配列が選択される。いくつかの実施形態では、少なくとも１つの候補ｓＲＮＡ配列（例えば、少なくとも２、３、４、または５つの候補ｓＲＮＡ配列）であって、その存在または不在が目的とする生物学的状態を予測し、かつトレーニング群において少なくとも０．０００００００００１のｐ値を有する、少なくとも１つの候補ｓＲＮＡ配列が選択される。様々な実施形態では、かかる候補ｓＲＮＡ配列は、目的とする各生物学的状態に対して選択される。すなわち、候補ｓＲＮＡは、発見セット及び／または非疾患対照で表される他の生物学的状態に対して少なくとも１つの生物学的状態の存在または不在を決定するそれらの予測力について個別に選択された配列を含む。

【0050】

いくつかの実施形態では、事前選択は、少なくとも部分的に、トレーニング群における候補ｓＲＮＡの頻度閾値を選択することによって実施される。すなわち、候補ｓＲＮＡは、（トレーニング群において）特定のクラスでは最小頻度で存在しなければならないが、少なくとも１つの他のクラスでは指定された周波数閾値未満で存在しなければならない。例えば、候補ｓＲＮＡは、（トレーニング群において）特定のクラスで試料の少なくとも約５０％、または特定のクラスで試料の少なくとも約４０％、または特定のクラスで試料の少なくとも約２５％、または特定のクラスで試料の少なくとも約２０％、または特定のクラスで試料の少なくとも約１５％、または特定のクラスで試料の少なくとも約１０％、または特定のクラスで試料の少なくとも約５％に存在し得る。いくつかの実施形態では、候補ｓＲＮＡは、そのクラスで表される各々の独立した研究のためのこの閾値要件を満たす。かかる候補ｓＲＮＡに関して、これらは、トレーニング群において少なくとも１つの他のクラスで閾値未満、例えば、少なくとも１つの他のクラスで試料の約１５％未満、または少なくとも１つの他のクラスで試料の約１０％未満、または少なくとも１つの他のクラスで試料の約５％未満で存在する。いくつかの実施形態では、候補ｓＲＮＡは、トレーニング群において少なくとも１つの他のクラスのすべての試料に不在である。

【0051】

いくつかの実施形態では、候補ｓＲＮＡ配列は、例えば、発見セットに存在する他の状態または非疾患対照と比較して、それらの存在量が目的とする生物学的状態の存在または不在と相関する程度に基づいて、配列データから選択される。いくつかの実施形態では、少なくとも１つの候補ｓＲＮＡ配列は、目的とする生物学的状態の存在または不在を示す存在量レベルを有する（例えば、存在量は、ある特定の閾値を上回るか、または下回る）。いくつかの実施形態では、疾患試料と非疾患試料との間の相対存在量の差は、少なくとも約５倍、または少なくとも約１０倍、または少なくとも約１００倍、または少なくとも約１０００倍、または少なくとも約１０，０００倍である。少なくとも２つのクラス間の存在量の差に基づいて選択されるｓＲＮＡマーカーは、本明細書では「差次的に発現された」マーカーと称されることがある。

【0052】

いくつかの実施形態では、候補ｓＲＮＡ配列であって、それらの存在量に基づいて目的とする生物学的状態の存在または不在を個別に予測する、候補ｓＲＮＡ配列が選択される。例えば、候補ｓＲＮＡ配列であって、それらの存在量が目的とする生物学的状態の存在または不在を予測し、かつトレーニング群において少なくとも０．０１のｐ値を有する、候補ｓＲＮＡ配列を選択することができる。いくつかの実施形態では、少なくとも１つの候補ｓＲＮＡ配列（例えば、少なくとも２、３、４、または５つの候補ｓＲＮＡ配列）であって、その存在量が目的とする生物学的状態の存在または不在を予測し、かつトレーニング群において少なくとも０．０００１のｐ値を有する、少なくとも１つの候補ｓＲＮＡ配列が選択される。いくつかの実施形態では、少なくとも１つの候補ｓＲＮＡ配列（例えば、少なくとも２、３、４、または５つの候補ｓＲＮＡ配列）であって、その存在量が目的とする生物学的状態の存在または不在を予測し、かつトレーニング群において少なくとも０．０００００１のｐ値を有する、少なくとも１つの候補ｓＲＮＡ配列が選択される。いくつかの実施形態では、少なくとも１つの候補ｓＲＮＡ配列（例えば、少なくとも２、３、４、または５つの候補ｓＲＮＡ配列）であって、その存在量が目的とする生物学的状態の存在または不在を予測し、かつトレーニング群において少なくとも０．０００００００１のｐ値を有する、少なくとも１つの候補ｓＲＮＡ配列が選択される。いくつかの実施形態では、少なくとも１つの候補ｓＲＮＡ配列（例えば、少なくとも２、３、４、または５つの候補ｓＲＮＡ配列）であって、その存在量が目的とする生物学的状態の存在または不在を予測し、かつトレーニング群において少なくとも０．０００００００００１のｐ値を有する、少なくとも１つの候補ｓＲＮＡ配列が選択される。様々な実施形態では、かかる候補ｓＲＮＡ配列は、目的とする各生物学的状態に対して選択される。すなわち、候補ｓＲＮＡは、トレーニング群において発見セット及び／または非疾患対照で表される他の生物学的状態に対して少なくとも１つの生物学的状態の存在を決定するそれらの予測力について個別に選択された配列を含む。

【0053】

いくつかの実施形態では、存在量が増加したｓＲＮＡの事前選択は、少なくとも部分的に、候補ｓＲＮＡの頻度閾値を選択することによって実施される。すなわち、候補ｓＲＮＡは、トレーニング群において少なくとも１つの他のクラスの試料で観察される相対的存在量レベル（例えば、平均または中央値）と比較して、特定のクラスでは最小頻度で存在量が有意に高いか、または低くなければならない。例えば、候補ｓＲＮＡは、（少なくとも１つの他のクラスで観察されるｓＲＮＡの相対的存在量と比較して）トレーニング群において特定のクラスで試料の少なくとも約５０％、または特定のクラスで試料の少なくとも約４０％、または特定のクラスで試料の少なくとも約２５％、または特定のクラスで試料の少なくとも約２０％、または特定のクラスで試料の少なくとも約１５％、または特定のクラスで試料の少なくとも約１０％、または特定のクラスで試料の少なくとも５％で相対的存在量が有意に高い場合があるか、または低い場合がある。いくつかの実施形態では、候補ｓＲＮＡは、トレーニング群においてそのクラスで表される各々の独立した研究のためのこの閾値要件を満たす。かかる候補ｓＲＮＡに関して、相対存在量の変化は、トレーニング群において少なくとも１つの他のクラスで閾値未満、例えば、少なくとも１つの他のクラスで試料の約１５％未満、または少なくとも１つの他のクラスで試料の約１０％未満、または少なくとも１つの他のクラスで試料の約５％未満で観察される。いくつかの実施形態では、候補ｓＲＮＡは、トレーニング群において少なくとも１つの他のクラスのいずれの試料でも観察されない特定のクラスの試料における相対的存在量の統計的に有意な変化を有する。

【0054】

候補ｓＲＮＡの数は、例えば、線形またはロジスティック回帰モデルを使用してさらに減少させることができる。

【0055】

いくつかの実施形態では、発見試料セットは、目的とする生物学的状態のステージ、グレード、または他の特徴についてさらにラベル付けされる。これらの実施形態では、候補ｓＲＮＡであって、それらのリードカウントが、例えば、疾患ステージまたはグレードなどの疾患活動性と（例えば、直接）相関する、候補ｓＲＮＡが選択され得る。例えば、疾患ステージまたはグレードが進行すると、より高いリードカウントを示す候補ｓＲＮＡ配列が選択され得る。すなわち、平均リードカウントは、疾患の後期段階で、またはより高い疾患活動性とともに増加する。あるいは、疾患重症度が低下すると（例えば、処理群において）、処理された対象においてより低いリードカウントを示す候補ｓＲＮＡ配列を選択することができる。したがって、いくつかの実施形態では、少なくとも１、２、３、４、または５つの候補ｓＲＮＡ配列であって、その存在または存在量が発見セットにおける試料によって表される生物学的状態を予測し、かつその読み取り数がかかる試料における疾患ステージまたは疾患グレードと相関する、候補ｓＲＮＡ配列が選択される。候補ｓＲＮＡ配列を選択するために平均リードカウントが望ましい場合、ｓＲＮＡ配列は、例えば、以下の実施例２に記載されるように、内因性ｓＲＮＡ及び／またはスパイクイン正規化対照のうちの１つ以上を使用して決定することができる。

【0056】

様々な実施形態では、目的とする生物学的状態において増加した配列多様性を有するｓＲＮＡファミリーが特定される。これらのｓＲＮＡファミリー内のｓＲＮＡ配列が候補ｓＲＮＡ配列として選択される。例えば、いくつかの実施形態では、配列変異が、疾患状態において増加する、及び／または疾患状態の重症度とともに増加する、及び／または変異が治療レジメンに応答して正規化するか、または改善され得るｓＲＮＡファミリーが特定され得る。例えば、ｓＲＮＡ事前選択は、生物学的に関連する配列特徴に基づいてｓＲＮＡアイソフォーム（ｉｓｏｍｉＲなど）を「ファミリー」にグループ化することを含むことができる。いくつかの実施形態では、配列特徴は、一般に注釈付きｓＲＮＡの５’末端から２～８のヌクレオチドを含むｍｉＲＮＡ「シード配列」である。いくつかの実施形態では、配列特徴は、一塩基多型またはインデルである。これらのｓＲＮＡファミリーは、５’末端及び３’末端での変異について評価される。例えば、変異は、テンプレート化及び／または非テンプレート化ヌクレオチド付加、または５’及び／または３’トリミングを含む５’及び／または３’変異を含み得、これは、疾患の存在または疾患活動と相関し得る。これらの全ファミリーまたはファミリー内の予測バリアントは、機械学習の候補として選択することができる。いくつかの実施形態では、これらのファミリーは、目的とする生物学的状態が固有である少なくとも１つのｓＲＮＡ配列を含む。

【0057】

いくつかの実施形態では、線形またはロジスティック回帰モデルは、共通のシード配列を有するｓＲＮＡアイソフォーム（ｉｓｏｍｉＲ）、またはエクソソーム内での存在に関連する特性を有するｓＲＮＡ（３’非テンプレート化ヌクレオチド付加、例えば、Ｕ付加など）について重み付けされる。いくつかの実施形態では、共通のシード領域を有するｍｉＲＮＡが候補ｓＲＮＡ減少中に（例えば、事前選択フィルタを使用して）凝集する。

【0058】

他のパラメータを使用して、候補ｓＲＮＡ配列の選択を補助することができる。例えば、発見試料セットは、本明細書の他の場所に記載されるように、少なくとも２つの別個の研究から調達することができ、いくつかの実施形態では、少なくとも２つの異なる機関、国、または大陸からの調達を含む。これらの実施形態では、選択された候補ｓＲＮＡ配列は各々、各研究からの少なくとも１つの試料に存在し（または各研究における頻度閾値を上回り）、それにより、その配列が研究アーチファクトである可能性を低下させる。別個の研究は、異なる場所での生体試料の収集、または異なる場所での核酸もしくはｓＲＮＡの抽出、または異なる場所での配列決定ライブラリ調製及び／または配列決定を含み得る。いくつかの実施形態では、異なる研究は、異なる核酸もしくはｓＲＮＡ抽出プロトコル、または異なる配列決定ライブラリ調製プロトコル及び／または配列決定プロトコルを用いる。

【0059】

様々な実施形態では、ｓＲＮＡ配列は、発見セットにおける閾値平均リードカウントに基づいて事前選択される。例えば、選択されたｓＲＮＡ配列は、１００万リードあたり少なくとも０．１のトリミングされたリードの平均リードカウントを有し得る。いくつかの実施形態では、指定されたフロアを上回り、かつ指定されたシーリングを下回るリードカウントを有するｓＲＮＡ配列が選択される。いくつかの実施形態では、配列決定深度は、生物学的マトリックスに基づくスライディングスケールである。例えば、固体組織試料は、１試料あたり５０，０００億～１５０，０００億リードで配列決定され得、脳脊髄液、血清、及び血漿試料は、１試料あたり１５０，０００億～３５０，０００億リードで配列決定され得、ＰＡＸｇｅｎｅ（全血）試料は、１試料あたり３５０，０００億～５５０，０００億リードで配列決定され得る。より高い深度で配列決定することにより、本方法は、ｓＲＮＡが組織から出て末梢に入る際のｓＲＮＡの希釈を考慮する。

【0060】

様々な実施形態では、候補ｓＲＮＡ配列は、ヒトゲノムにマッピングするそれらの能力に基づいて選択される。

【0061】

図１に戻って参照すると、候補ｓＲＮＡがトレーニングセットから選択されると（機械学習のための所望の数の候補ｓＲＮＡへの減少を含む）、ｓＲＮＡ特徴が分類器をトレーニングするために特定され得る（ブロック１０８）。様々な特徴選択または抽出アプローチを使用して、機械学習分類器に適切な特徴を選択することができる。いくつかの実施形態では、特徴は、処理されたデータの形態、例えば、ブロック１０６で選択されたｓＲＮＡのポリヌクレオチド配列（これらは、例えば、アダプタートリミングによって以前に処理されたものである）であり得る。さらに、いくつかの実施形態では、多次元データポイントである特徴を生成することができる。計算負荷を減少させるために、かかる特徴の次元は、例えば、当該技術分野で既知の統計的特徴選択または特徴抽出手順、例えば、主成分分析、非負行列因数分解、特徴ランキングのためのＲＯＣ曲線、カーネルＰＣＡ、グラフベースのカーネルＰＣＡ、ＵＭＡＰ、線形判別分析、一般化判別分析を使用して減少させることができる。同様に、いくつかの実施形態では、機械学習技法、例えば、ニューラルネットワーク、畳み込みニューラルネットワーク、オートエンコーダ、サポートベクトルマシン、ベイズネットワーク、または遺伝的アルゴリズムが、多次元データポイントの次元の数を減少させるために使用される。

【0062】

いくつかの実施形態では、ブロック１１０を参照すると、ｓＲＮＡ特徴が選択された後、１つ以上の機械学習アプローチを使用して、機械学習分類器をトレーニングすることができる。いくつかの実施形態では、分類器は、（候補ｓＲＮＡからの）ｓＲＮＡ配列のパネルの存在もしくは不在または存在量に基づいて、試料を分類するように構成されている。いくつかの実施形態では、所望のパネルサイズを選択することができる。一般に、パネルのサイズは、より多くの疾患クラスが存在する場合、より大きい可能性がある。例えば、いくつかの実施形態では、パネルは、約１～約５０，０００個のｓＲＮＡ配列、例えば、１クラスあたり約１～約２００個のｓＲＮＡ配列、または１クラスあたり約４～約１００個のｓＲＮＡ配列、または１クラスあたり約４～約５０個のｓＲＮＡ配列を含む。いくつかの実施形態では、パネルは、１クラスあたり約１０～約１００個のｓＲＮＡ配列、または１クラスあたり約１０～約５０個のｓＲＮＡ配列、または１クラスあたり約１０～約４０個のｓＲＮＡ配列、または１クラスあたり約１０～約３０個のｓＲＮＡ配列を含む。いくつかの実施形態では、パネルは、１クラスあたり約５０～約１５０個のｓＲＮＡ配列、または約５０～約１００個のｓＲＮＡ配列を含む。いくつかの実施形態では、総パネルが１～約５００個のｓＲＮＡ配列、または１～約２００個のｓＲＮＡ配列、または約４～約１００個のｓＲＮＡ配列、または約４～約５０個のｓＲＮＡ配列、または約１０～約１００個のｓＲＮＡ配列、または約１０～約５０個のｓＲＮＡ配列、または約１０～約４０個のｓＲＮＡ配列、または約１０～約３０個のｓＲＮＡ配列、または約５０～約１５０個のｓＲＮＡ配列、または約５０～約１００個のｓＲＮＡ配列である最小パネルまたは減少パネルが選択される。いくつかの実施形態では、パネルは、約１００個以下のｓＲＮＡ配列、または９６個以下のｓＲＮＡ配列、または７５個以下のｓＲＮＡ配列、または５０個以下のｓＲＮＡ配列を含む。

【0063】

いくつかの実施形態では、分類器は、サポートベクトルマシンアルゴリズム、決定木アルゴリズム、教師なしクラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、ロジスティック回帰アルゴリズム、混合モデル、隠れマルコフモデル、またはニューラルネットワークアルゴリズムに基づく。

【0064】

様々な実施形態では、分類器は、例えば、パラメトリック／ノンパラメトリック距離測定法、ロジスティック回帰、サポートベクトルマシン、決定木、ランダムフォレスト、ニューラルネットワーク、プロビット回帰、フィッシャー線形判別、単純ベイズ分類器、パーセプトロン、二次分類器、カーネル推定、ｋ近傍法、学習ベクトル量子化、及びＰＣＡなどの教師あり、教師なし、半教師あり機械学習モデルのうちの１つ以上を使用してトレーニングされる。例えば、いくつかの実施形態では、分類器は、少なくとも線形サポートベクトルマシンを使用してトレーニングされる。

【0065】

いくつかの実施形態では、分類器は、教師なしクラスタリングモデルである。いくつかの実施形態では、分類器は、教師ありクラスタリングモデルである。クラスタリングは、参照により全体が本明細書に組み込まれる、ＤｕｄａａｎｄＨａｒｔ，ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎａｎｄＳｃｅｎｅＡｎａｌｙｓｉｓ，１９７３，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．，ＮｅｗＹｏｒｋ（以下、「Ｄｕｄａ１９７３」）の２１１～２５６頁に記載されている。クラスタリング問題は、データセット内の自然なグループ化を見つけ出すことを含む。自然なグループ化を特定するために、２つの問題に対処する。第一に、２つの試料間の類似性（または相違性）を測定する方法が決定される。この測定基準（例えば、類似性尺度）は、あるクラスタ内の試料が、それらが他のクラスタ内の試料よりも互いに類似していることを確実にするために使用される。第二に、類似性尺度を使用してデータをクラスタに分割するための機構が決定される。クラスタリング調査を開始するために、距離関数を定義し、トレーニングセット内のすべての試料対間の距離の行列を計算することができる。距離が良好な類似性尺度である場合、同じクラスタ内の参照エンティティ間の距離は、異なるクラスタ内の参照エンティティ間の距離よりも有意に短くなる。しかしながら、クラスタリングは距離測定基準の使用を必要としない。例えば、非計量的類似性関数ｓ（ｘ，ｘ’）を使用して、２つのベクトルｘ及びｘ’を比較することができる。従来、ｓ（ｘ，ｘ’）は、ｘとｘ’がどことなく「類似」している場合に値が大きい対称関数である。

【0066】

データセット内のポイント間の「類似性」または「相違性」を測定するための方法が選択されると、クラスタリングは、データの任意のパーティションのクラスタリング品質を測定する基準関数を必要とする。基準関数を極端化するデータセットのパーティションは、データをクラスタリングするために使用される。クラスタリング技術についてのさらなる情報は、各々参照により本明細書に組み込まれる、ＫａｕｆｍａｎａｎｄＲｏｕｓｓｅｅｕｗ，１９９０，ＦｉｎｄｉｎｇＧｒｏｕｐｓｉｎＤａｔａ：ＡｎＩｎｔｒｏｄｕｃｔｉｏｎｔｏＣｌｕｓｔｅｒＡｎａｌｙｓｉｓ，Ｗｉｌｅｙ，ＮｅｗＹｏｒｋ，Ｎ．Ｙ．、Ｅｖｅｒｉｔｔ，１９９３，Ｃｌｕｓｔｅｒａｎａｌｙｓｉｓ（３ｄｅｄ．），Ｗｉｌｅｙ，ＮｅｗＹｏｒｋ，Ｎ．Ｙ．、及びＢａｃｋｅｒ，１９９５，Ｃｏｍｐｕｔｅｒ－ＡｓｓｉｓｔｅｄＲｅａｓｏｎｉｎｇｉｎＣｌｕｓｔｅｒＡｎａｌｙｓｉｓ，ＰｒｅｎｔｉｃｅＨａｌｌ，ＵｐｐｅｒＳａｄｄｌｅＲｉｖｅｒ，ＮｅｗＪｅｒｓｅｙで見つけることができる。本開示で使用することができる特定の例示的なクラスタリング技術には、階層的クラスタリング（最近傍アルゴリズム、最遠方（ｆａｒｔｈｅｓｔ－ｎｅｉｇｈｂｏｒ）アルゴリズム、平均連結アルゴリズム、重心アルゴリズム、または二乗和アルゴリズムを使用した凝集型クラスタリング）、ｋ平均クラスタリング、ファジーｋ平均クラスタリングアルゴリズム、及びジャーヴィス・パトリッククラスタリングが含まれるが、これらに限定されない。いくつかの実施形態では、クラスタリングは、トレーニングセットがクラスタリングされるときにどのクラスタが形成されるべきであるかの先入観が課されていない教師なしクラスタリングを含む。いくつかの実施形態では、教師なしクラスタリングを使用して疾患サブタイプを特定することができ、これにより、有意義なパターンをｓＲＮＡデータ内で発見し、研究及び臨床用途で利用することができるようになる。

【0067】

いくつかの実施形態では、分類器は、全体が参照により本明細書に組み込まれる、Ａｇｒｅｓｔｉ，ＡｎＩｎｔｒｏｄｕｃｔｉｏｎｔｏＣａｔｅｇｏｒｉｃａｌＤａｔａＡｎａｌｙｓｉｓ，１９９６，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．，ＮｅｗＹｏｒｋ，Ｃｈａｐｔｅｒ８に記載の多カテゴリロジットモデルなどの回帰モデルである。いくつかの実施形態では、分類器は、Ｈａｓｔｉｅｅｔａｌ．，２００１，ＴｈｅＥｌｅｍｅｎｔｓｏｆＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇ，Ｓｐｒｉｎｇｅｒ－Ｖｅｒｌａｇ，ＮｅｗＹｏｒｋに開示されている回帰モデルを使用する。

【0068】

いくつかの実施形態では、分類器は、メタゲノムリードを扱うためにローゼンらによって開発されたツールなどのナイーブベイズアルゴリズムである（Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２７（１）：１２７－１２９，２０１１を参照されたい）。いくつかの実施形態では、分類器は、Ｋａｍｖａｒｅｔａｌ．，ＦｒｏｎｔＧｅｎｅｔｉｃｓ６：２０８ｄｏｉ：１０．３３８９／ｆｇｅｎｅ．２０１５．００２０８，２０１５）に記載のノンパラメトリック法などの最近傍アルゴリズムである。いくつかの実施形態では、分類器は、ＭｃＬａｃｈｌａｎｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ１８（３）：４１３－４２２，２００２に記載のものなどの混合モデルである。いくつかの実施形態では、特に時間的成分を含む実施形態では、分類器は、Ｓｃｈｌｉｅｐｅｔａｌ．，２００３，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ１９（１）：ｉ２５５－ｉ２６３に記載のものなどの隠れマルコフモデルである。

【0069】

主成分分析（ＰＣＡ）アルゴリズムは、参照により本明細書に組み込まれる、Ｊｏｌｌｉｆｆｅ，１９８６，ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ，Ｓｐｒｉｎｇｅｒ，ＮｅｗＹｏｒｋに記載されている。ＰＣＡは、参照により本明細書に組み込まれる、Ｄｒａｇｈｉｃｉ，２００３，ＤａｔａＡｎａｌｙｓｉｓＴｏｏｌｓｆｏｒＤＮＡＭｉｃｒｏａｒｒａｙｓ，Ｃｈａｐｍａｎ＆Ｈａｌｌ／ＣＲＣにも記載されている。主成分（ＰＣ）には相関関係がなく、ｋ番目のＰＣがＰＣの中でｋ番目に大きい分散を有するように順序付けられる。ｋ番目のＰＣは、１番目のｋ－１ＰＣに直交するようにデータポイントの投影の変動を最大化する方向として解釈することができる。最初のいくつかのＰＣは、トレーニングセットの変動のほとんどを捕捉する。対照的に、最後のいくつかのＰＣは、多くの場合、トレーニングセット内の残りの「ノイズ」のみを捕捉すると想定される。

【0070】

ＳＶＭアルゴリズムは、各々参照により全体が本明細書に組み込まれる、ＣｒｉｓｔｉａｎｉｎｉａｎｄＳｈａｗｅ－Ｔａｙｌｏｒ，２０００，“ＡｎＩｎｔｒｏｄｕｃｔｉｏｎｔｏＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ，”ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓＣａｍｂｒｉｄｇｅ、Ｂｏｓｅｒｅｔａｌ．，１９９２，“Ａｔｒａｉｎｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｏｐｔｉｍａｌｍａｒｇｉｎｃｌａｓｓｉｆｉｅｒｓ，”ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５^ｔｈＡｎｎｕａｌＡＣＭＷｏｒｋｓｈｏｐｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｅａｒｎｉｎｇＴｈｅｏｒｙ，ＡＣＭＰｒｅｓｓ，Ｐｉｔｔｓｂｕｒｇｈ，Ｐａ．，ｐｐ．１４２－１５２、Ｖａｐｎｉｋ，１９９８，ＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇＴｈｅｏｒｙ，Ｗｉｌｅｙ，ＮｅｗＹｏｒｋ、Ｍｏｕｎｔ，２００１，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ：ｓｅｑｕｅｎｃｅａｎｄｇｅｎｏｍｅａｎａｌｙｓｉｓ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙＰｒｅｓｓ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒ，Ｎ．Ｙ．、Ｄｕｄａ，ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ，ＳｅｃｏｎｄＥｄｉｔｉｏｎ，２００１，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．，ｐｐ．２５９，２６２－２６５、及びＨａｓｔｉｅ，２００１，ＴｈｅＥｌｅｍｅｎｔｓｏｆＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇ，Ｓｐｒｉｎｇｅｒ，ＮｅｗＹｏｒｋ、及びＦｕｒｅｙｅｔａｌ．，２０００，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ１６，９０６－９１４に記載されている。分類のために使用される場合、ＳＶＭは、ラベル付けされたデータから最大限に離れた超平面でバイナリラベル付けデータトレーニングセットの所与のセットを分離する。線形分離が不可能な場合、ＳＶＭは、特徴空間への非線形マッピングを自動的に実現する「カーネル」技法と組み合わせて機能することができる。特徴空間におけるＳＶＭによって見つけられる超平面は、入力空間における非線形決定境界に対応する。

【0071】

いくつかの実施形態では、特徴の選択及び機械学習分類器のトレーニング（それぞれ、図１のブロック１０８及び１１０）は、図１の矢印１０９によって概略的に示されるように、分類器が適切な特徴の相互検証及び選択のために使用されるように同じ処理の一部であり得る。トレーニングされた機械学習分類器を使用して、図１のブロック１１２に示されるように、ｓＲＮＡパネルを選択することができる。機械学習分類器のトレーニング及びｓＲＮＡパネルの選択が同じプロセスの一部であり得ることを理解されたい。また、ｓＲＮＡパネルに含まれるｓＲＮＡのリストは、図１の矢印１１３によって概略的に示されるように、反復的に調整することができる。

【0072】

いくつかの実施形態では、再び図１のブロック１１０を参照して、機械学習分類器をトレーニングするために、試料の１０％～９０％がトレーニングセットにランダムに分けられる。事前選択を使用して、例えば、０．１～１００の最小ＴＲＰＭ（１００万あたりのトリミングされたリード）を有するトレーニングセットから２，４００～６０，０００個の低分子ＲＮＡ特徴を選択する。ｓＲＮＡ特徴セットは、回帰モデルを使用して、１クラスあたり１～１，０００個のｓＲＮＡ特徴に減少させることができる。最終ｓＲＮＡ特徴セットは、５１％～１００％信頼区間の閾値で線形回帰またはサポートベクトルマシンを使用して、試料の残りの１０％～９０％で試験して、試料を分類するために使用される。精度は、真陽性率、偽陽性率、真陰性率、及び偽陰性率、全精度、ならびに曲線下面積を計算するために標準の受信者操作特性を使用して計算される。「ＲＯＣ」または「ＲＯＣ曲線」という用語は、受信者動作特性曲線を指す。ＲＯＣ曲線は、バイナリ分類器システムの性能のグラフィック表現であり得る。任意の所与の方法の場合、ＲＯＣ曲線は、様々な閾値設定で特異度に対する感度をプロットすることによって生成され得る。さらに、３つのパラメータ（例えば、感度、特異度、及び閾値設定）のうちの少なくとも１つが提供されると、ＲＯＣ曲線は、任意の未知パラメータの値または期待値を決定することができる。未知パラメータは、ＲＯＣ曲線に適合した曲線を使用して決定することができる。例えば、試料中のｓＲＮＡのパネルの存在／不在または存在量が提供されると、試験の期待感度及び／または特異度を決定することができる。「ＡＵＣ」または「ＲＯＣ－ＡＵＣ」という用語は、受信者動作特性曲線下の面積を指すことができる。この測定基準は、方法の感度及び特異度の両方を考慮して、方法の診断的有用性の尺度を提供することができる。ＲＯＣ－ＡＵＣは、０．５～１．０の範囲であり得、０．５に近い値は、方法が限定された診断的有用性（例えば、より低い感度及び／または特異度）を有することを示すことができ、１．０に近い値は、方法がより高い診断的有用性（例えば、より高い感度及び／または特異度）を有することを示す。例えば、参照により全体が本明細書に組み込まれる、Ｐｅｐｅｅｔａｌ．，２００４，“ＬｉｍｉｔａｔｉｏｎｓｏｆｔｈｅＯｄｄｓＲａｔｉｏｉｎＧａｕｇｉｎｇｔｈｅＰｅｒｆｏｒｍａｎｃｅｏｆａＤｉａｇｎｏｓｔｉｃ，Ｐｒｏｇｎｏｓｔｉｃ，ｏｒＳｃｒｅｅｎｉｎｇＭａｒｋｅｒ，”Ａｍ．Ｊ．Ｅｐｉｄｅｍｉｏｌ１５９（９）：８８２－８９０を参照されたい。診断的有用性を特徴付けるための追加のアプローチには、尤度関数、オッズ比、情報理論、予測値、較正（適合度を含む）、及び再分類測定の使用が含まれる。アプローチの例は、例えば、参照により全体が本明細書に組み込まれる、Ｃｏｏｋ，“ＵｓｅａｎｄＭｉｓｕｓｅｏｆｔｈｅＲｅｃｅｉｖｅｒＯｐｅｒａｔｉｎｇＣｈａｒａｃｔｅｒｉｓｔｉｃＣｕｒｖｅｉｎＲｉｓｋＰｒｅｄｉｃｔｉｏｎ，”Ｃｉｒｃｕｌａｔｉｏｎ２００７，１１５：９２８－９３５に要約されている。本開示の実施形態では、分類器は、バイナリ分類器であり得る（すなわち、例えば、状態を表す２つのクラスを分類することができる）か、または３、４、５、もしくはそれ以上の生物学的状態を分類し得る。いくつかの実施形態では、分類器は、少なくとも３、少なくとも５、少なくとも１０、少なくとも１５、少なくとも２０、少なくとも２５、少なくとも３０、または少なくとも３５の生物学的状態を分類することができる。

【0073】

いくつかの実施形態では、図１のブロック１１４に示されるように、機械学習分類器をトレーニングした後、追加の発見試料を評価して、パネルにおける分類器特徴の数またはｓＲＮＡの数を減少させることができる（図１の矢印１１１を参照のこと）。例えば、追加の試料の分類に関する分類器特徴の値を使用して、個々の特徴を重み付けすることができるか、または特徴セットを減少させることができる。いくつかの実施形態では、少なくとも１００個のｓＲＮＡ配列が発見試料に基づいて元の特徴セットに含まれ、この特徴セットは、追加の試料からのｓＲＮＡ配列データを使用して、７５未満、または５０未満、または２０未満に減少される。様々な実施形態では、追加の発見試料を使用して、ｓＲＮＡパネルが、いくつかの実施形態では、概して、少なくとも１０％、または少なくとも２５％、または少なくとも５０％減少する。様々な実施形態では、追加の発見試料は、発見セットに関して、異なる収集基準を有する試料、例えば、異なる場所での生体試料の収集、または異なる場所での核酸もしくはｓＲＮＡの別個の抽出、または異なる場所での別個のｓＲＮＡ配列決定ライブラリ調製及び／または配列決定を含む。いくつかの実施形態では、追加の試料は、異なる核酸もしくはｓＲＮＡ抽出プロトコル、または異なる配列決定ライブラリ調製プロトコル及び／または配列決定プロトコルを用いる。ｓＲＮＡパネルが選択される前にブロック１１４（図１）での処理が実行され得ることに留意されたい。

【0074】

トレーニングされた機械学習分類器は、対象由来の生体試料中のパネルにおけるｓＲＮＡマーカーの存在もしくは不在または存在量を検出し、かつ分類器を適用することによって、疾患状態についての独立した対象の評価、または疾患サブタイプ（例えば、複雑な疾患のもの）についてのさらなる特定及び評価に使用することができる。図２は、いくつかの実施形態による、疾患もしくは状態または疾患サブタイプについて対象を評価（試験）する方法２００の実施形態を説明する。ブロック２０２では、生体試料を対象（例えば、ヒト）から得ることができる。生体試料は、機械学習分類器をトレーニングするために使用されなかった試料とすることができ、これは、いくつかの実施形態では、試験試料と称することができる。ブロック２０４では、ｓＲＮＡデータをｓＲＮＡパネル内で検出及び定量化することができ、１つ以上のｓＲＮＡパネルにおける生体試料由来のｓＲＮＡの存在、不在、または存在量の決定を伴い得る。ｓＲＮＡは、分子検出アッセイ（定量的もしくは半定量的ＰＣＲ、または本明細書に記載の他のアプローチなど）を使用して、試料中で検出及び／または定量化され得るか、またはｓＲＮＡ配列決定及びリードからのアダプター配列のトリミングによって行われ得る。ｓＲＮＡ配列決定は、捕捉ＲＮＡ配列決定（例えば、捕捉濃縮ｓＲＮＡ配列決定）を伴い得る。ｓＲＮＡパネルの種類に応じて、いくつかの実施形態では、試料由来のｓＲＮＡの存在量が決定される。ブロック２０６では、トレーニングされた分類器が検出されたｓＲＮＡデータに適用されて、図２のブロック２０８を参照して、生体試料をクラスに割り当てることができる。いくつかの実施形態では、生体試料のクラスへの割り当ては、分類器が生体試料をそのクラスに割り当てた（すなわち、生体試料がそのクラスに属すると予測した）信頼性を示すスコアまたは別の尺度と関連付けられ得る。したがって、いくつかの実施態様では、生体試料は、各クラスに関して計算された対応する確率または別の尺度で２つ以上のクラスに割り当てられ得る。いくつかの事例では、ある特定の閾値を超える関連付けられた確率値を有する割り当てのみが、分類器によって提供され得る（例えば、ユーザインターフェース上に示される、ネットワークを介して通信する、及び／または別様にユーザに出力される）。閾値は、様々な方法で、例えば、ユーザ入力に基づいて選択することができる。

【0075】

さらに、いくつかの実施形態では、図２（ブロック２１０）に示されるように、治療推奨またはレジメンは、対象の生体試料の分類の結果に基づいて生成することができる。

【0076】

様々な生物学的状態に関する分類は、本開示の主題に従って行うことができる。いくつかの実施形態では、分類のための生物学的状態は、中枢神経系の状態である。例えば、いくつかの実施形態では、生物学的状態は、認知症の症状を伴う神経変性疾患である。いくつかの実施形態では、生物学的状態は、アルツハイマー病、パーキンソン病、ハンチントン病、軽度認知障害、進行性核上性麻痺、前頭側頭型認知症、レビー小体型認知症、及び血管性認知症から選択される。これらまたは他の実施形態では、分類のための少なくとも２つの生物学的状態は、運動制御喪失の症状を伴う神経変性疾患である。例えば、いくつかの実施形態では、少なくとも２つの生物学的状態は、アルツハイマー病、進行性核上麻痺、海馬硬化症、レビー小体型認知症、パーキンソン病、ハンチントン病、多発性硬化症、筋萎縮性側索硬化症、及び脊髄性筋萎縮症から選択される。いくつかの実施形態では、分類のための生物学的状態は、多発性硬化症、視神経炎、横断性脊髄炎、及び視神経脊髄炎を含み得る脱髄疾患である。

【0077】

いくつかの実施形態では、発見セットは、疾患ステージ、疾患重症度、薬物応答性、または疾患進行の経過についてラベル付けされる。これらの実施形態は、特に、アルツハイマー病、パーキンソン病、ハンチントン病、多発性硬化症、筋萎縮性側索硬化症、及び脊髄性筋萎縮症などの生物学的状態を評価するために使用される。

【0078】

さらに他の実施形態では、分類のための生物学的状態は、異なる組織または細胞起源のがんである。これらまたは他の実施形態では、発見セットは、薬物感受性または薬物抵抗性についてもラベル付けされえ、これらの特性が対象の試料中で評価されることを可能にする。いくつかの実施形態では、対象由来の生体試料は、腫瘍またはがん細胞生検である。さらに他の実施形態では、生体試料は、血液、血清、または血漿試料である。

【0079】

いくつかの実施形態では、分類のための生物学的状態は、炎症性疾患または免疫疾患である。例示的な炎症性疾患または免疫疾患は、全身性エリテマトーデス（ＳＬＥ）、強皮症、自己免疫性血管炎、糖尿病（１型または２型）、グレーブス病、アディソン病、シェーグレン症候群、甲状腺炎、リウマチ性関節炎、重症筋無力症、多発性硬化症、線維筋痛症、乾癬、クローン病、潰瘍性大腸炎、憩室症、及びセリアック病のうちの１つ以上を含む。いくつかの実施形態では、発見セットは、組織、血液、血清、血漿、または脳脊髄液などの生体液試料を含む。

【0080】

いくつかの実施形態では、分類のための生物学的状態は、心血管疾患である。いくつかの実施形態では、発見セットは、急性心血管イベントのリスクについてラベル付けされる。かかる実施形態では、疾患分類器は、急性イベントのリスクに対する患者の層別化のための便利なツールを提供する。いくつかの実施形態では、心血管疾患は、冠動脈疾患（ＣＡＤ）、心筋梗塞、脳卒中、うっ血性心不全、高血圧性心疾患、心筋症、心臓不整脈、先天性心疾患、心臓弁膜症、心臓炎、大動脈瘤、末梢動脈疾患、及び静脈血栓症のうちの１つ以上を含む。

【0081】

様々な実施形態では、上述のように、分類器は、例えば、複雑な疾患の疾患サブタイプを特定する。かかる実施形態では、目的とする生物学的状態に関連する全発見試料セット（例えば、非疾患対照を除く）、または目的とする生物学的状態に関連する相当数の試料（例えば、約２５％超、または約５０％超、または約７５％超）が疾患サブタイプについてラベル付けされない。かかる実施形態では、複雑な疾患を分類するために教師あり機械学習を使用して作成されたｓＲＮＡパネルが教師なしまたは半教師あり機械学習アプローチで用いられて、疾患サブタイプを特定することができる。これらの実施形態では、ｓＲＮＡパネルは、クラスタ分析のための強力な手段を提供し、異なるｓＲＮＡ生物発生パターンを伴う異なる疾患サブタイプを特定する。

【0082】

サブタイプ分類器で使用されるｓＲＮＡ（例えば、ｍｉＲＮＡ）のパネルを使用して、異なる疾患サブタイプの異なる創薬可能な標的または経路を特定することができる。ｓＲＮＡをｍＲＮＡ標的及び経路にマッピングする際に使用される生物学的データベースは、参照により全体が本明細書に組み込まれる、ＺｏｕＤ，ｅｔａｌ．，ＢｉｏｌｏｇｉｃａｌＤａｔａｂａｓｅｓｆｏｒＨｕｍａｎＲｅｓｅａｒｃｈ，ＧｅｎｏｍｉｃｓＰｒｏｔｅｏｍｉｃｓＢｉｏｉｎｆｏｒｍａｔｉｃｓ，１３（２０１５）５５－６３に記載されている。例には、とりわけ、ＤａｔａｂａｓｅｏｆＥｓｓｅｎｔｉａｌＧｅｎｅｓ（ＤＥＧ）、ＫｙｏｔｏＥｎｃｙｃｌｏｐｅｄｉａｏｆＧｅｎｅｓａｎｄＧｅｎｏｍｅｓ（ＫＥＧＧ）、ＫＥＧＧＰａｔｈｗａｙｓ、ＧｅｎｅＣａｒｄｓ、ＰｏｌｙｍｉＲＴＳ（ｍｉＲＮＡ及びそれらの標的部位の多型）、ＣｈＩＰＢａｓｅ、ｍｉＲＴａｒＢａｓｅ、ｍｉＲＷａｌｋ、ｐｉＲＮＡＢａｎｋ、ＤａｔａｂａｓｅｏｆＩｎｔｅｒａｃｔｉｎｇＰｒｏｔｅｉｎ（ＤＩＰ）、及びＭｏｌｅｃｕｌａｒＩｎｔｅｒａｃｔｉｏｎＤａｔａｂａｓｅ（ＭＩＮＴ）が挙げられる。

【0083】

例えば、ｓＲＮＡパネルにおける１つ以上のｍｉＲＮＡバリアントによって標的とされる遺伝子を伴う生物学的経路を特定することができる。いくつかの実施形態では、生物学的経路は、対応する予測ｓＲＮＡバリアントを標的遺伝子にマッピングすることによって、疾患サブタイプ毎に特定される。いくつかの実施形態では、予測ｉｓｏｍｉＲが注釈付きｍｉＲＮＡにマッピングされ、注釈付けされたｍｉＲＮＡを使用して、異常なｓＲＮＡ生物発生によって影響を及ぼされるまたは調節不全にされる潜在的な経路を特定する。ＢｈａｔｔａｃｈａｒｙａＡ，ｅｔａｌ．，ＰｏｌｙｍｉＲＴＳＤａｔａｂａｓｅ３．０：ｌｉｎｋｉｎｇｐｏｌｙｍｏｒｐｈｉｓｍｓｉｎｍｉｃｒｏＲＮＡｓａｎｄｔｈｅｉｒｔａｒｇｅｔｓｉｔｅｓｗｉｔｈｈｕｍａｎｄｉｓｅａｓｅｓａｎｄｂｉｏｌｏｇｉｃａｌｐａｔｈｗａｙｓ，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．２０１４；４２：Ｄ８６－Ｄ９１を参照されたい。

【0084】

図６Ａを参照すると、いくつかの実施形態では、本発明は、１つ以上の生物学的状態を分類するために、かつそれらの生物学的状態のうちの少なくとも１つをサブタイプ化するために１つ以上のｓＲＮＡパネルを生成する（例えば、複雑な疾患の場合）。特発性肺線維症（ＩＰＦ）に関して、図６Ａの実施形態が実施例３で説明される。

【0085】

図６Ａにおいて、プロセス（または方法）６００は、複数の試料または対応するｓＲＮＡ配列データ（本明細書に記載のアダプタートリミングされたもの）及び試料メタデータが取得されたときに開始することができる。複数のブートストラップセットが試料から作成され、分析されて、ｓＲＮＡシグネチャを作成することができる。図６Ａのブロック６０２を参照すると、プロセス６００は、試料をトレーニング群と交差検証群または試験群に分けることによってブートストラップセットを作成する。試料は、ランダムに分けることによって、または別の方法で、トレーニング群と試験群に分けることができる。

【0086】

モデルを作成するために、ブロック６０４で、バイナリまたは差次的に発現されたｓＲＮＡがトレーニング群で選択され（サブブロック６０１）、例えば、エラスティックネット（例えば、線形回帰とロジスティック回帰とリッジ回帰との組み合わせ）を使用して（かつ本明細書の他の場所に記載されるように）、候補ｓＲＮＡの数を減少させる（サブブロック６０３）。サポートベクトルマシン（ＳＶＭ）は、サブブロック６０５で、減少したｓＲＮＡセットを使用してトレーニングされる。図６Ａのブロック６０６を参照すると、ＳＶＭが試験群（相互検証群）に対して試験される。図６Ａのブロック６０８を参照して、受信者操作特性（特異度、感度、精度など）がモデル性能を評価するために計算される。

【0087】

図６Ａに示されるように、ブロック６０２～６０８での動作の処理は、ブロック６１１として集合的に描写される。決定ブロック６１０では、ブロック６１１でのステップがＮ回繰り返されるようにブロック６１１での処理の回数（繰り返し回数とも称される）がＮに達したかが決定される。Ｎは、事前選択することができるか、ユーザ入力に基づいて設定することができるか、または他の方法で定義することができる。ブロック６０２～６０８での処理（ブロック６１１）がＮ回繰り返された（「はい」）とブロック６１０で決定された場合、プロセス６００は、受信者動作特性がＮ回のブートストラップにわたって平均化されるブロック６１２に進む。

【0088】

ブロック６１４を参照すると、Ｎ個のモデルのＸ％超で選択されたｓＲＮＡと係数が組み合わせられて、ｓＲＮＡシグネチャを生成する。いくつかの実施形態では、Ｎ個のモデルの２５％超で選択されたｓＲＮＡと係数が組み合わせられて、ｓＲＮＡシグネチャを生成するが、Ｘが異なる値であり得ることが認識される。

【0089】

ブロック６１６を参照すると、任意選択で、生物学的状態（複雑な疾患クラス）の試料に対するｓＲＮＡパネル（そのシグネチャにおけるｓＲＮＡ）の教師なしまたは半教師ありクラスタリングを使用して、異なる疾患サブタイプを特定することができる。ブロック６１８を参照すると、任意選択で、疾患サブタイプに関与する生物学的経路は、ｍｉＲＮＡシード領域及び標的ｍＲＮＡの分析によって特定される。これらのステップは、図６Ｂにさらに図式的に示される。

【0090】

ブロック６０２～６０８での処理（ブロック６１１）がＮ回繰り返されていない（「いいえ」）とブロック６１０で決定された場合、プロセス６００はブロック６０２に戻り、そこで別のブートストラップセットが作成され、ブロック６０４、６０６、及び６０８での処理が繰り返される。

【0091】

図６Ｂは、複雑な疾患の試料をサブタイプ化するための本開示の実施形態によるｓＲＮＡパネルを用いた教師なし学習のプロセス７００を図示する。図６Ｂに示されるように、ブロック７０４で、プロセス７００は、低分子ＲＮＡ発現値を使用して試料間の距離を計算することを含む。ブロック７０６では、試料が凝集型または分裂型クラスタリングによってクラスタリングされる。ブロック７０８では、クラスタラベルが試料に割り当てられる。ブロック７１０では、任意選択で、クラスタが主成分分析によって検証される。ブロック７１２では、任意選択で、割り当てられたクラスタラベル上のモデルをトレーニングすることにより、クラスタが教師あり学習（上述のもの）によって検証される。ブロック７１４では、任意選択で、疾患サブタイプを分類するために使用されるパネルにおけるｍｉＲＮＡのシード配列を使用して、標的メッセンジャーＲＮＡが予測される。ブロック７１０、７１２、及び７１４での処理を他の順序で行うことができるため、それらのブロックでの処理の順序がほんの一例として示されていることを理解されたい。

【0092】

他の態様では、本発明は、１つ以上の疾患状態または疾患サブタイプについて対象を評価するための方法を提供する。様々な実施形態では、本方法は、対象の生体試料を提供し、ｓＲＮＡパネルにおけるｓＲＮＡの存在または不在を決定することを含む。その後、このｓＲＮＡプロファイルが、本開示により調製された疾患分類器を使用して１つ以上の疾患状態または疾患サブタイプ間で対象の状態を分類するために使用される。

【0093】

患者の状態または疾患サブタイプが特定された場合、患者を、疾患状態に適切な治療レジメンとマッチング（すなわち、それを投与）することができる、及び／または臨床試験に組み入れるまたは除外することができる。例えば、いくつかの実施形態では、患者は、調節不全または異常経路を標的とし、かつクラスタ分析に使用されるパネルにおける１つ以上のｓＲＮＡによって標的とされる経路に対応する療法を投与される。

【0094】

様々な実施形態では、対象の試料中のｓＲＮＡの存在もしくは不在またはレベルは、定量的ＰＣＲアッセイなどの分子診断アッセイによって決定される。例えば、ｓＲＮＡ配列の検出は、定量的もしくは定性的ＰＣＲ、例えば、リアルタイムＰＣＲを含む、プローブの逆転写、増幅、及び／またはハイブリダイゼーションを用いることができる様々な検出プラットフォームのうちの１つに移行する。ＰＣＲ検出フォーマットは、いくつかの実施形態では、かつ任意選択で、蛍光標識されたプローブと関連して、ＲＴ－ＰＣＲのためのステムループプライマーを用いることができる。

【0095】

一般に、リアルタイムポリメラーゼ連鎖反応（ｑＰＣＲ）は、ＰＣＲ中、つまり、リアルタイムで、標的ＤＮＡ分子の増幅をモニタリングする。リアルタイムＰＣＲは、定量的かつ半定量的に使用され得る。リアルタイムＰＣＲでＰＣＲ産物を検出するための２つの一般的な方法は、（１）任意の二本鎖ＤＮＡにインターカレートする非特異的蛍光色素（例えば、ＳＹＢＲＧｒｅｅｎ（ＩまたはＩＩ））、及び（２）オリゴヌクレオチドからなる配列特異的ＤＮＡプローブであって、オリゴヌクレオチドがその相補的配列（例えば、ＴＡＱＭＡＮ）とのプローブのハイブリダイゼーション後にのみ検出を可能にする蛍光レポーターで標識されている、配列特異的ＤＮＡプローブである。

【0096】

いくつかの実施形態では、アッセイフォーマットは、ＴＡＱＭＡＮリアルタイムＰＣＲである。ＴＡＱＭＡＮプローブは、定量的ＰＣＲの特異性を増加させるように設計された加水分解プローブである。ＴＡＱＭＡＮプローブの原理は、相補的標的配列へのハイブリダイゼーション中に、フルオロフォアベースの検出で二重標識プローブを切断するための、Ｔａｑポリメラーゼの５’から３’のエキソヌクレアーゼ活性に依存する。ＴＡＱＭＡＮプローブは、フルオロフォア及びクエンチャで二重標識されており、フルオロフォアがＴａｑエキソヌクレアーゼ活性によってオリゴヌクレオチドプローブから切断される際に、フルオロフォアシグナルが、検出される（例えば、もはやシグナルはラベルの近接によってクエンチされない）。他の定量的ＰＣＲ法におけるように、得られた蛍光シグナルは、ＰＣＲの指数関数的ステージ中に産物の蓄積の定量的測定を可能にする。ＴＡＱＭＡＮプローブフォーマットは、検出の高い感度及び特異性を提供する。

【0097】

いくつかの実施形態では、試料に存在するｓＲＮＡは、特異的プライマー、例えば、１つ以上のステムループプライマーを使用して、ｃＤＮＡに変換される。次いで、ｃＤＮＡの増幅は、例えば、蛍光レポーティング分子からのシグナルを検出することによってリアルタイムで定量化され得、シグナル強度は、各増幅サイクルでのＤＮＡのレベルと相関する。

【0098】

あるいは、パネルにおけるｓＲＮＡ、またはそれらのアンプリコンは、ハイブリダイゼーションによって検出される。例示的なプラットフォームは、表面プラズモン共鳴（ＳＰＲ）及びマイクロアレイ技術を含む。検出プラットフォームは、簡便な試料処理及びｓＲＮＡ検出のために、いくつかの実施形態では、マイクロフルイディクスを使用できる。

【0099】

一般に、試料中のｓＲＮＡの存在を決定するための任意の方法が、用いられ得る。かかる方法は、さらに、核酸配列ベースの増幅（ＮＡＳＢＡ）、フラップエンドヌクレアーゼベースのアッセイ、同様に、分岐ＤＮＡによる直接ＲＮＡキャプチャ（ＱｕａｎｔｉＧｅｎｅ（商標））、ＨｙｂｒｉｄＣａｐｔｕｒｅ（商標）（Ｄｉｇｅｎｅ）、またはｎＣｏｕｎｔｅｒ（商標）ｍｉＲＮＡ検出（Ｎａｎｏｓｔｒｉｎｇ）を含む。アッセイフォーマットは、ｍｉＲＮＡ及び他のｓＲＮＡの存在を決定することに加えて、とりわけ、固有のシグナル強度変動の制御も提供できる。かかる制御は、例えば、バックグラウンドシグナル強度及び／または試料処理、及び／またはハイブリダイゼーション効率のための制御、同様に、患者試料中のｓＲＮＡを検出するための他の望ましい制御（例えば、集合的に「正規化制御」と呼ばれる）を含み得る。

【0100】

いくつかの実施形態では、アッセイフォーマットは、Ｉｎｖａｄｅｒ（商標）アッセイ（ＴｈｉｒｄＷａｖｅＴｅｃｈｎｏｌｏｇｉｅｓ）などのフラップエンドヌクレアーゼベースのフォーマットである。インベーダー法を使用する場合、標的部位の３’領域に特異的な配列を含むインベーダープローブと、テンプレートの標的部位の５’領域に特異的な配列及び無関係のフラップ配列を含む一次プローブと、が調製される。次いで、クリベースは、これらのプローブ、標的分子、同様に、フラップ配列に相補的な配列と、蛍光色素及びクエンチャの両方で標識された自己相補的配列と、を含むＦＲＥＴプローブの存在下で、作用することが可能である。一次プローブがテンプレートとハイブリダイズする際に、インベーダープローブの３’末端は標的部位を貫通し、この構造はクリベースによって切断され、フラップの解離をもたらす。フラップはＦＲＥＴプローブに結合し、蛍光色素部分は、蛍光の発光をもたらすクリベースによって切断される。

【0101】

いくつかの実施形態では、ＲＮＡは、検出のためのｓＲＮＡ処理の前に試料から抽出される。ＲＮＡは、例えば、ＲＮＡＭｅｔｈｏｄｏｌｏｇｉｅｓ，Ａｌａｂｏｒａｔｏｒｙｇｕｉｄｅｆｏｒｉｓｏｌａｔｉｏｎａｎｄｃｈａｒａｃｔｅｒｉｚａｔｉｏｎ．２ｎｄｅｄｉｔｉｏｎ，１９９８，ＲｏｂｅｒｔＥ．Ｆａｒｒｅｌｌ，Ｊｒ．，Ｅｄ．，ＡｃａｄｅｍｉｃＰｒｅｓｓに記載の様々な標準手順を使用して精製され得る。加えて、ｍｉｒＶＡＮＡ（商標）ＰａｒｉｓｍｉＲＮＡ単離キット（Ａｍｂｉｏｎ）、ｍｉＲＮｅａｓｙ（商標）キット（Ｑｉａｇｅｎ）、ＭａｇＭＡＸ（商標）キット（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ）、ＰｕｒｅＬｉｎｋ（商標）キット（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ）を含む、低分子量ＲＮＡの単離のための市販の製品と同様に、様々なプロセスがある。例えば、低分子量のＲＮＡは、グラスファイバーフィルタ上での精製が後に続く有機抽出によって単離され得る。ｍｉＲＮＡを単離するための代替方法は、磁気ビーズへのハイブリダイゼーションを含む。代替的には、検出のためのｍｉＲＮＡ処理（例えば、ｃＤＮＡ合成）は、生体液試料において、すなわち、ＲＮＡ抽出ステップを伴わずに実施され得る。

【0102】

一般に、アッセイは、各アッセイが、注釈付き配列及び／または他の非予測ｉｓｏ－ｍｉＲよりもｓＲＮＡ（例えば、ｉｓｏｍｉＲ）に対して少なくとも８０％、または少なくとも８５％、または少なくとも９０％、または少なくとも９５％、または少なくとも９８％特異的であるように構築され得る。注釈付き配列は、ｍｉＲＢａｓｅを参照して決定され得る。例えば、ｓＲＮＡ予測因子特異的リアルタイムＰＣＲアッセイを調製する際、ＰＣＲプライマー及び蛍光プローブは、調製され得、それらの特異性のレベルについて試験され得る。二環式ヌクレオチド（例えば、ＬＮＡ、ｃＥＴ、及びＭＯＥ）または他のヌクレオチド修飾（塩基修飾を含む）は、検出の感度または特異度を増加させるためにプローブに用いられ得る。

【0103】

さらに他の実施形態では、対象の試料に存在するｓＲＮＡは、本明細書の他の場所に記載されるように、ｓＲＮＡ配列決定及びアダプタートリミングによって決定または定量化される。ｓＲＮＡ配列決定は、捕捉オリゴヌクレオチドプローブを用いて増幅及び／または配列決定のためにｓＲＮＡ標的を濃縮／捕捉することができる捕捉ＲＮＡ配列決定を用いることができる。ＷＯ２０１１／０６９６７を参照されたい。

【0104】

本明細書で使用される場合、文脈上他の意味に解すべき場合を除き、「約」という用語は、関連する数値の±１０％を意味する。

【0105】

本発明の他の態様及び実施形態は、以下の実施例によって明らかになるであろう。

【実施例】

【0106】

実施例１：炎症性腸疾患（ＩＢＤ）のマルチクラス疾患分類器の構築。
特定のｓＲＮＡ分子の存在または不在に基づいてＩＢＤ試料を分類する疾患分類器を構築するために、ｓＲＮＡパネルを、クローン病、潰瘍性大腸炎、及び憩室症などの、目的の異なる疾患状態を表す様々なトレーニングセットにおける配列データから決定した。

【0107】

試料
すべての試料は、それらのそれぞれの施設内審査委員会（ＩＲＢ）の承認に従って収集され、無制限の使用について患者の同意を有する。データを、電子診療記録及びカルテ審査から収集した。臨床データは、年齢、性別、人種、民族性、体重、ボディマス指数、喫煙歴、アルコール使用歴、及び家族病歴などの情報を含む。疾患関連データは、診断、炎症性腸疾患（ＩＢＤ）診断時の年齢、現在及び以前の薬物療法、併存症、大腸全摘及び回腸嚢肛門管吻合術（ＩＰＡＡ）時の年齢、同様に、パウチ年齢、イレオストミーの閉鎖からの、またはパウチ手術からの時間（これらの処置を受けている患者から該当する場合）などの情報を含む。

【0108】

生検を、結腸上皮から採取した。手術不能の潰瘍性大腸炎（ＩＵＣ）、手術可能な潰瘍性大腸炎（ＯＵＣ）、クローン病（ＣＤ）、憩室症（ＤＤ）、ポリープ／ポリポーシス（ＰＰ）、鋸歯状ポリープ／ポリポーシス（ＳＰＰ）、結腸癌（ＣＣ）、直腸癌（ＲＣ）を、臨床的、内視鏡的、組織学的、及び画像研究に従って定義した。さらなる組み入れ基準は、ＣＤ患者についての回腸炎の存在と、内視鏡検査によって見られ、ＩＵＣ患者についての組織学によって確認された正常な回腸末端を有することであった。定期的なスクリーニングのために結腸内視鏡検査を必要とし、内視鏡検査及び／または組織学によって非疾患腸組織を有するとして検証された個体を、正常対照としてラベル付けした。

【0109】

すべての生検を、最低２名の施設内のＩＢＤ訓練された病理医によって評価し、コンセンサススコア及び診断を、臨床及び業界標準の診断プロトコルに従って提供した。簡単に説明すると、活性炎症特性を、好中球浸潤（０～３）及び潰瘍形成の面積（０～３）に従ってスコアリングし、各試料を、非活性、陰窩炎、陰窩膿瘍、多数の陰窩膿瘍（３超／高倍率視野）、及び潰瘍形成に分類した。元のＧｅｂｏｅｓスコア（ＯＧＳ）または簡略化Ｇｅｂｏｅｓスコア（ＳＧＳ）を、ＵＣを分類するために使用した。クローン病活性指数（ＣＤＡＩ）及びクローン病内視鏡的重症度指数（ＣＤＥＩＳ）を、ＣＤを分類するために使用した。ヒンチェイ分類を、ＤＤを特徴付けるために使用した。大腸がん、ポリープ、及び鋸歯状ポリープを、Ｍｕｌｔｉ－ＳｏｃｉｅｔｙＴａｓｋＦｏｒｃｅｏｎＣｏｌｏｒｅｃｔａｌＣａｎｃｅｒ（ＣＲＣ）の最新の勧告に従って分類した。

【0110】

使用したＩＢＤ試料の概要を、以下に示す。

【表1】

【0111】

ＩＢＤに関連する疾患クラスに対する低分子ＲＮＡ予測因子を特定するために、低分子ＲＮＡ配列決定データを、ＧＥＯデータベースからダウンロードし、ディスカバリーセットとして使用した。低分子ＲＮＡ配列決定データを、クローン病（ＧＳＥ６６２０８）、潰瘍性大腸炎（ＧＳＥ１１４５９１）、憩室症（ＧＳＥ８９６６７）、及び正常／対照（ＧＳＥ１１８５０４）についてのジオデータベース研究からダウンロードした。

【0112】

データファイルを、Ｃｅｎｔｏｓ用のＳＲＡツールキットｖ２．８．０を使用して．ｓｒａ形式から．ｆａｓｔｑ形式に変換し、．ｆａｓｔｑ形式のファイルを、参照によりその全体が本明細書に組み込まれる２０１８年１月２３日に出願された米国特許第２０１８／０２５８４８６号及び国際出願第ＰＣＴ／ＵＳ２０１８／０１４８５６号に記載されるように処理した。具体的には、すべての．ｆａｓｔｑデータファイルを、（Ｒｅｇｅｘ）正規表現ベースの検索及びトリムアルゴリズムを使用してアダプター配列をトリミングすることによって処理し、５’ ＴＧＧＡＡＴＴＣＴＣＧＧＧＴＧＣＣＡＡＧＧＡＡ３’（配列番号１）（最大１５ヌクレオチドの３’末端トランケーションを含有する）を、３’アダプター配列を特定するために入力し、Ｒｅｇｅｘ検索のための２のレーベンシュタイン距離または５．のハミング距離のパラメータは、ユーザ指定の検索語の１番目のヌクレオチドが、ヌクレオチド挿入、欠失、及び／または交換に関して未改変であるように要求する。

【0113】

マルチクラス分類器を構築するために、試料の６０％をトレーニングに使用し、試料の４０％を試験に使用して、試料を２４の独立したトレーニング群及び試験群にランダムに分けた。事前選択により、１つのクラスに存在し、かつ他の３つのクラスのうちの（少なくとも）１つのすべての試料に不在である最大２０，０００個のｓＲＮＡが選択された。事前選択されたｓＲＮＡは、その特定のクラスにおいて２５％、及びそのクラス内の各研究において少なくとも２５％の最小頻度で存在しなければならなかった。ｓＲＮＡはまた、試験試料（例えば、すべての試料からトレーニングセットを差し引いたもの）に２５％の最小頻度で存在しなければならなかった。エラスティックネットを使用した特徴減少により、ｓＲＮＡファミリー用のフィルタ（シード配列または非テンプレート３’付加など）を使用せずに、ｓＲＮＡの数を１クラスあたり１２６未満に減少させた。０．５の閾値でサポートベクトルマシンを使用して試験を実行した。

【0114】

クラスあたりの評価指標
クラスあたりの評価指標を、疾患クラスを特定するために最も重要であるマーカーを特定するために、各クラスに対して決定した。ｓＲＮＡパネルを、目的の異なる疾患状態を表す様々なトレーニングセットにおける配列データから決定した。疾患クラスの低分子ＲＮＡ予測因子を含有する特異的バイオマーカーパネルを、以下のように特定した：
・対照（健常個体／「正常」個体）：表２（炎症性腸疾患の対照（「正常」個体）に対する結腸上皮組織からのｓＲＮＡバイオマーカーのパネルを示す）、
・クローン病：表３（クローン病に対する結腸上皮組織からのｓＲＮＡバイオマーカーのパネルを示す）、
・潰瘍性大腸炎：表４（潰瘍性大腸炎に対する結腸上皮組織からのｓＲＮＡバイオマーカーのパネルを示す）、及び
・憩室症：表５（憩室症に対する結腸上皮組織からのｓＲＮＡバイオマーカーのパネルを示す）。

【0115】

教師あり、ノンパラメトリック、ロジスティック回帰機械学習モデルを使用することによって、最終的な選択マーカー計数を、１２８から１００に低減した。分類モデルの性能を評価するために、ＲＯＣ／ＡＵＣ曲線を、クラスあたりに特定されたマーカーの各セットについて取得したが、ここでＲＯＣは確率曲線であり、ＡＵＣは分離可能性の程度または尺度を表す。ＲＯＣ曲線は、偽陽性率に対して真陽性率でプロットされる。ＲＯＣ／ＡＵＣ曲線を、上記のように、様々なＩＢＤクラス及び対照について確立し、これらを図３Ａ、図３Ｂ、図３Ｃ、及び図３Ｄに示す。

【表2-1】

【表2-2】

【表2-3】

【表2-4】

【表3-1】

【表3-2】

【表3-3】

【表4-1】

【表4-2】

【表4-3】

【表4-4】

【表4-5】

【表4-6】

【表4-7】

【表5-1】

【表5-2】

【表5-3】

【0116】

マルチクラス疾患分類
疾患分類器を、ｓＲＮＡパネルの陽性または陰性マーカー、同様に、対照、クローン病、潰瘍性大腸炎、及び憩室症について上で特定されたパネルにおけるｓＲＮＡの存在または不在に基づいてトレーニングした。クラスメトリックがすべて組み合わされた際の計算モデルの精度を評価するために、試験を、各クラスの参照試料に対するモデルの特定予測力を評価するために実行した。モデルは９８％の正解率を有することが見いだされた。図４は、真の参照同一性に対する疾患クラスの正確な予測の割合を示すヒートマップを示す。これらの結果は、以下のマトリックスにも示される。

【表6】

【0117】

実施例２：スパイクインデータの使用
本実施例は、ｍｉＲＮｅａｓｙＳｅｒｕｍ／ＰｌａｓｍａＡｄｖａｎｃｅｄＫｉｔ（Ｑｉａｇｅｎ）を使用して１３７個の０．５ｍＬ脳脊髄液試料から抽出したｓＲＮＡを使用して、全シーケンシングランから取得したスパイクインデータの使用を説明する。

【0118】

プールした５つのキャリブレータを含むＲＮＡスパイクイン混合物を使用し、試料中の各スパイクの最終濃度が以下になるように、プールを各試料にスパイクした後にライブラリ調製した。
キャリブレータ１＝０．０００１ａｍｏｌ／μＬ
キャリブレータ２＝０．００１ａｍｏｌ／μＬ
キャリブレータ３＝０．０１ａｍｏｌ／μＬ
キャリブレータ４＝０．１ａｍｏｌ／μＬ
キャリブレータ５＝１．０ａｍｏｌ／μＬ

【0119】

試料（スパイクイン混合物を含む）を、３’及び５’アダプターライゲーションを含むライブラリ調製、続いて、逆転写、その後、ＰＣＲ増幅に供して、ＳｃｉｃｌｏｎｅｉＱＮＧＳＷｏｒｋｓｔａｔｉｏｎ（ＰｅｒｋｉｎＥｌｍｅｒ）上でＮｅｘｔＦｌｅｘＳｍａｌｌＲＮＡＬｉｂｒａｒｙＰｒｅｐａｒａｔｉｏｎＫｉｔｖ３．０（ＢＩＯＯ）を使用して、固有のバーコードを各試料に添加した。

【0120】

試料を０．６５ｎＭの最終濃度までプールし、１方向あたり１０１ｂｐでランするＳ２フローセルを使用してＮｏｖａＳｅｑ６０００ＳｅｑｕｅｎｃｉｎｇＳｙｓｔｅｍ（Ｉｌｌｕｍｉｎａ）で配列決定した。このスキーマを使用して、各試料を１２，０００，０００リード以上の深度で配列決定した。トリミングアルゴリズムを使用してデータをトリミングした。

【0121】

スパイクイン参照ライブラリを使用してスパイクインをマッピングした。リードをＴＲＰＭ（１００万リードあたりのトリミングされたリード）に変換した。データをプロットし、Ｒ二乗を計算した。図５は、１３７個の試料の全ランのデータをプロットした結果を示す（Ｒ_２＝０．９８９）。

【0122】

実施例３：特発性肺線維症のサブタイプ化
特発性肺線維症（ＩＰＦ）は、不可逆的な致命的疾患である。ＩＰＦの発症率は、米国、ヨーロッパ、及びアジアで１０万人あたり２．５～１６．０である。これらの発症率に基づいて、世界中で毎年１００万人以上がこの疾患と闘っていると推定することができる。ＩＰＦは、呼吸困難、咳、及び経時的な肺機能の低下を症候的に呈する。ＩＰＦの診断は、多くの場合１年以上かかり、かつ臨床試験、気管支鏡検査、肺生検、及び組織学的検査を行う呼吸器科医、胸部放射線科医、及び病理医からなる多くの専門分野にわたるチームを必要とする複雑な手順である。

【0123】

ＩＰＦ患者は予後不良であり、診断時から５年未満で死亡率が５０％超に達する。ＩＰＦ肺組織の病理学は、線維芽細胞の無制御増殖及び細胞外マトリックス分子の過剰蓄積に起因する肺構造の歪みを示す。しかしながら、全生存率は絶対的なものではなく、患者の経緯は様々であり、一部の患者では進行の遅い疾患であり、他の患者では急速に悪化する。したがって、異質性は、疾患ドライバーに影響を及ぼす遺伝的及び環境的要因、ならびに十分に理解されていない疾患維持に必要な他の遺伝子に関係している可能性がある。

【0124】

ＩＰＦ患者における転帰を予測し、かつ疾患ドライバーをよりよく理解することができるバイオマーカーを特定するために、本明細書に記載の機械学習発見プラットフォームを使用して、血液ベースの低分子ＲＮＡ（ｓＲＮＡ）バイオマーカーを発見することができると仮定した。この仮説を試験するために、観察的、多部位、前向き縦断プロファイル研究からのＩＰＦ試料を、本発明の実施形態に従って評価した。プロファイル研究は、１２３個の血清タンパク質の統計的相関を分析した。ＭａｈｅｒＴＭ，ｅｔａｌ．，ＰＲＯＦＩＬＥｉｎｇｉｄｉｏｐａｔｈｉｃｐｕｌｍｏｎａｒｙｆｉｂｒｏｓｉｓ：ｒｅｔｈｉｎｋｉｎｇｂｉｏｍａｒｋｅｒｄｉｓｃｏｖｅｒｙ．ＥｕｒｏｐｅａｎＲｅｓｐｉｒａｔｏｒｙＲｅｖｉｅｗ２２，１４８－１５２（２０１３）、Ｍａｈｅｒ，ＴＭ，ｅｔａｌ．，Ａｎｅｐｉｔｈｅｌｉａｌｂｉｏｍａｒｋｅｒｓｉｇｎａｔｕｒｅｆｏｒｉｄｉｏｐａｔｈｉｃｐｕｌｍｏｎａｒｙｆｉｂｒｏｓｉｓ：ａｎａｎａｌｙｓｉｓｆｒｏｍｔｈｅｍｕｌｔｉｃｅｎｔｅｒＰＲＯＦＩＬＥｃｏｈｏｒｔｓｔｕｄｙ．ＴｈｅＬａｎｃｅｔＲｅｓｐｉｒａｔｏｒｙＭｅｄｉｃｉｎｅ５，９４６－９５５（２０１３）を参照されたい。本研究の目的は、ＩＰＦをさらに分類する（すなわち、サブタイプ化する）ことであった。結果は、ｓＲＮＡシグネチャ（８６個のｓＲＮＡのパネルに基づく）が、１００％の精度で対照試料からＩＰＦを分類することができ、ＩＰＦ試料をいくつかの異なるクラスタにタイプ分けすることができることを示す。

【0125】

５０個のＩＰＦ疾患試料及び１７０個の健常ドナー試料を使用した（ＰＡＸｇｅｎｅ生物検体）。具体的には、一酸化炭素（ＤＬｃｏ）、努力呼気量、第１の呼吸（Ｆｅｖ１）、努力肺活量（Ｆｖｃ）、及びＦｅｖ１：Ｆｖｃ比メタデータに対応する肺拡散能力を有する１７０名の年齢及び性別が一致した対照を選択した。

【0126】

ＱＩＡＣｕｂｅＣｏｎｎｅｃｔ（ＱＩＡＧＥＮ）自動液体ハンドラ上でＰＡＸｇｅｎｅＢｌｏｏｄＲＮＡＥｘｔｒａｃｔｉｏｎＫｉｔ（ＱＩＡＧＥＮ）を使用して血液ＲＮＡを抽出した。Ｑｕｂｉｔ４Ｆｌｕｏｒｏｍｅｔｅｒ（Ｔｈｅｒｍｏ）上でＲＮＡＨＳＡｓｓａｙＫｉｔ（Ｔｈｅｒｍｏ）を使用してＲＮＡ量を評価した。ＬａｂＣｈｉｐＧＸＴｏｕｃｈ（ＰｅｒｋｉｎＥｌｍｅｒ）上でＬａｂＣｈｉｐＲＮＡＨＳＡｓｓａｙＫｉｔ（ＰｅｒｋｉｎＥｌｍｅｒ）を使用してＲＮＡ完全性スコア（ＲＩＮ）を評価した。各試料から２５０ｕｇの総ＲＮＡを９６ウェルプレートにアリコートした。スパイクインキャリブレータのカクテルを各試料に添加して、分析中に品質管理を監視し、下流正規化を容易にした。各試料に固有のｉ７／ｉ５デュアルインデックスを組み込んで多重配列決定を支援するＳｃｉｃｌｏｎｅｉＱＮＧＳＷｏｒｋｓｔａｔｉｏｎ（ＰｅｒｋｉｎＥｌｍｅｒ）上でＮｅｘｔＦｌｅｘＳｍａｌｌＲＮＡＬｉｂｒａｒｙＰｒｅｐＫｉｔｖ３（ＢＩＯＯ）を使用して次世代配列決定（ＮＧＳ）ライブラリを調製した。Ｑｕｂｉｔ４Ｆｌｕｏｒｏｍｅｔｅｒ（Ｔｈｅｒｍｏ）上で１ｘｄｓＤＮＡＨＳＡｓｓａｙＫｉｔ（Ｔｈｅｒｍｏ）を使用してライブラリを定量化した。ＬａｂＣｈｉｐＤＮＡ３ＫＮＧＳＡｓｓａｙＫｉｔ（ＰｅｒｋｉｎＥｌｍｅｒ）を使用してライブラリ断片化分析を評価した。ライブラリを１．０ｎＭの濃度でプールした。ＮｏｖａＳｅｑ６０００ＳｅｑｕｅｎｃｉｎｇＳｙｓｔｅｍ（Ｉｌｌｕｍｉｎａ）上でＳ２ＦｌｏｗＣｅｌｌＫｉｔ（Ｉｌｌｕｍｉｎａ）を使用して、プールしたライブラリを１試料あたり４，０００万の対合末端リードの標的深度で配列決定した。

【0127】

低分子ＲＮＡ配列決定データ品質を、ＦＡＳＴＱＣを使用して評価した。フィルタを通過したリード（Ｑスコア００％超）を処理し、低分子ＲＮＡに注釈を付けるように設計された一連のトリミング及びショートリードアライメントアルゴリズムを使用して注釈を付けた。このショートリードアラインメントアプローチは、低分子ＲＮＡの５’末端及び３’末端におけるテンプレート化及び非テンプレート化ヌクレオチド付加の注釈付けを可能にし、エクソソームへの遺伝子標的及び細胞局在に関する情報を提供する。このショートリードアラインメントアプローチは、マイクロＲＮＡの注釈付きライブラリと比較して１０，０００倍超多くの固有の低分子ＲＮＡ遺伝子のマッピングも可能にする。分析は、分析に使用した１７～４３塩基対長のマッピングされたリードにわたって一貫したプロファイルを示した。

【0128】

ＩＰＦ試料及びＣＴＬ試料を各々、モンテカルロ交差検証ランで使用するために、９０：１０の比率（トレーニング：試験）でトレーニングセット及び試験セットに無作為に分けた。モンテカルロラン後、教師あり及び教師なし機械学習（ＭＬ）を利用した一連の人工知能アルゴリズムを使用してデータを分析して、予測ｓＲＮＡシグネチャを特定した。ＭＬアルゴリズムは、トレーニング試料セットを使用してモデルを作成し、その後、試験試料セットを使用して精度を測定した。

【0129】

具体的には、トレーニング試料中の最小クラス頻度が５％超であったｓＲＮＡを選択した。エラスティックネットアルゴリズムを使用して、ｓＲＮＡ遺伝子ファミリー及び３’非テンプレート化ヌクレオチド付加などの超特徴を使用してパネルを減少させた。サポートベクトルマシン（ＳＶＭ）を使用して試験試料を分析し、その後、受信者動作特性（ＲＯＣ）を使用して、曲線下面積、精度、感度、特異度、正の予測値、負の予測値、及びＦ１スコアを測定した。

【0130】

９６回のモンテカルロ交差検証ランでは、８６個の低分子ＲＮＡ遺伝子のｓＲＮＡシグネチャが特定され、ＩＰＦ試料をＣＴＬ試料と区別する際に９９．３％の精度（９５％信頼区間９８．５～１００％、ｐ＜０．００００１）を提供した。疾患予測モデルは、試料毎に０．０～１．０のＳＶＭスコアももたらした。０．５超のスコアを疾患として分類した。ＣＴＬ試料の疾患確率スコアのおよそ９４％が０．０～０．１であった。試料の厳密なグループ化は、ＣＴＬ試料が同種群であることを示した。対照的に、ＩＰＦ試料は、異質性を示唆するいくつかの異なるピークを有する広い平坦な領域に広がる分布を示した。

【0131】

ＩＰＦ試料をＣＴＬ試料と区別した８６個の低分子ＲＮＡ遺伝子がｓＲＮＡシグネチャに存在した。このシグネチャでは、ＣＴＬ試料と比較して、３７個（４３％）のｓＲＮＡが上方制御され、４９個（５７％）のｓＲＮＡが下方制御された。このシグネチャは、７１個のｍｉＲＮＡアイソフォーム、タンパク質コード遺伝子のイントロン及びエクソンにマッピングする９つの遺伝子間由来のｓＲＮＡ、３つのｒＲＮＡ由来のｓＲＮＡ、２つのｐｉＲＮＡアイソフォーム、及び１つのｙＲＮＡ由来のｓＲＮＡから成った。ＣＴＬと比較して１０倍超の過剰発現を有する４つのｍｉＲＮＡアイソフォームがＩＰＦ試料に存在し、ＣＴＬと比較して１０倍未満の下方制御を有する７つのｍｉＲＮＡアイソフォーム及び３遺伝子間ｓＲＮＡがＩＰＦ試料に存在した。

【0132】

教師なし階層的クラスタリングの場合、予測ｓＲＮＡシグネチャから８６個のｓＲＮＡ遺伝子を使用してユークリッド距離を計算した。完全結合凝集型クラスタリングを使用して試料をグループ化した。結果は、３つのＩＰＦサブタイプを明らかにし、８６個の予測低分子ＲＮＡ遺伝子がすべてのＩＰＦ試料において均一に分布及び発現していないことを示した。

【0133】

主成分（ＰＣ）分析は、教師なし階層的クラスタリング分析から割り当てられたサブタイプ群を使用してＩＰＦ試料を分離することを示した。単位分散スケーリングを適用し、補完を伴う特異値分解（ＳＶＤ）を使用して主成分を計算した。ＰＣ１（２９％）及びＰＣ２（１９％）を使用して試料をプロットした。予測楕円は、同じ群からの新たな観察結果が楕円内に入る確率０．９５を示す。

【0134】

目標予測アルゴリズムを使用して、ｓＲＮＡシグネチャにおける８６個の低分子ＲＮＡ遺伝子の標的を特定した。目標予測プロセスは、９９．３％の精度でＩＰＦとＣＴＬを分類し、かつＩＰＦ試料をサブグループに層別化したｓＲＮＡシグネチャからの８６個の低分子ＲＮＡ遺伝子の各々を分析することから開始した。これらの８６個の遺伝子内で、４０個の固有の「シード」が発見された。これらの４０個のシードを使用して、目標予測アルゴリズムは、ｐ＜０．０１及びＦＤＲ＜０．０５を有する１４，２８０個の予測遺伝子をもたらした。３つの交差検証参照検索を使用して、重み付け予測を行った。生物学的方向性を適用して、機能的に関連する標的を解析した。「細胞成分」のための遺伝子オントロジー用語濃縮を使用して、低分子ＲＮＡ遺伝子及び標的を解析した。

【0135】

この研究の結果は、９９．３％の精度でＩＰＦ試料をＣＴＬ試料と区別することができ、ＩＰＦ試料を３つの主要なサブタイプに層別化することもできたｓＲＮＡシグネチャを特定した。ＳＲＮＡシグネチャは、８６個の低分子ＲＮＡ遺伝子のパネルを含む。ｓＲＮＡシグネチャの生物学的有意性を分析することにより、いくつかの生物学的経路の調節不全が予測された。

【0136】

実施例４：候補ｓＲＮＡの減少
特発性肺線維症（ＩＰＦ）と診断された５１１名の患者及び２２１名の正常健常対照（ＣＴＬ）対象のＰＡＸｇｅｎｅＢｌｏｏｄＲＮＡから得られた低分子ＲＮＡ配列決定データを、機械学習を使用して分析して、ＩＰＦまたはＣＴＬを分類することができるバイオマーカーを特定した。３つの異なる分類ランを試験し、分類器が、（１）すべての低分子ＲＮＡ特徴、（２）ヒトゲノムに完全にマッピングし、かつ低分子ＲＮＡの遺伝子間マッピングを許可しない低分子ＲＮＡのみ、及び（３）スワップなしのマイクロＲＮＡアイソフォーム、トランスファーＲＮＡ由来の断片、リボソームＲＮＡ由来の断片のみを選択することを許可した。

【0137】

いずれの場合にも、モデルを４９個のＩＰＦ試料及び１８２個のＣＴＬ試料でトレーニングし、４６２個のＣＴＬ試料及び３９個のＣＴＬ試料で試験した。いずれの場合にも、分類器が最小トレーニングセット頻度１０％で１クラスあたり最大３，０００個の低分子ＲＮＡ特徴を選択することを許可した。いずれの場合にも、エラスティックネットは、最終バイオマーカーパネルを１モデルあたり最大９６個の低分子ＲＮＡに減少させた。

【0138】

結果は、スワップなしのマイクロＲＮＡアイソフォーム、トランスファーＲＮＡ由来の断片、リボソームＲＮＡ由来の断片のみを許可するように事前選択フィルタを制限することにより、７１．２のＡＵＣ及び９２．６％の精度で最良の性能がもたらされたことを示す。事前選択フィルタにすべての低分子ＲＮＡを許可することにより、６６．７％のＡＵＣ及び１８．３％の精度がもたらされた。ヒトゲノムに完全にマッピングする低分子ＲＮＡのみを許可し、かつ低分子ＲＮＡの遺伝子間マッピングを許可しないように事前選択フィルタを制限することにより、６９．３のＡＵＣ及び４５．８％の精度がもたらされた。

【0139】

加えて、事前選択は、ｍｉＲＮＡシード配列に関する情報を用いることができる。低分子ＲＮＡ配列決定データを、合計６９３個のがん性（ＬＵＡＤ）及び２３１個の正常隣接組織（ＣＴＬ）肺生検試料を含む４つの研究（ＧＳＥ１１０９０７、ＧＳＥ６２１８２、ＧＳＥ８３５２７、及びＴＣＧＡ－ＬＵＡＤ）から集計した。これらの試料を、ＬＵＡＤまたはＣＴＬ組織を分類するように設計された交差検証を用いた機械学習を使用して分析した。

【0140】

例示的な調査では、このシステムは、ＧＳＥ６２１８２、ＧＳＥ８３５２７、及びＴＣＧＡ－ＬＵＡＤからの６４５個のＬＵＡＤ試料及びＣＴＬ試料でトレーニングし、ＧＳＥ１１０９０７からの４８個のＬＵＡＤ試料及びＣＴＬ試料で試験した。２回目の調査では、このシステムは、ＧＳＥ１１０９０７及びＴＣＧＡ－ＬＵＡＤからの５６３個のＬＵＡＤ試料及び１０１個のＣＴＬ試料でトレーニングし、ＧＳＥ２１８２及びＧＳＥ８３５２７からの１３０個のＬＵＡＤ試料及びＣＴＬ試料で試験した。いずれの場合にも、事前選択アルゴリズムが２，０００個のｓＲＮＡ特徴または６，０００個のｓＲＮＡ特徴のいずれかの選択を許可された５０回のブートストラップ試験を行った。その後、一致するシード配列（低分子ＲＮＡ特徴の５’末端からヌクレオチド２～８）に基づいて選択されたｓＲＮＡが凝集したか、または凝集しないままであった。シード凝集特徴セットまたは非凝集特徴セットを、最大９６個の低分子ＲＮＡを許可するエラスティックネットアルゴリズムを使用して減少させた。減少した特徴セットを使用して、ＧＳＥ１１０９０７またはＧＳＥ６２１８２及びＧＳＥ８３５２７からの試料を試験したサポートベクトルマシンをトレーニングした。

【0141】

結果は、２，０００個及び６，０００個のｓＲＮＡの事前選択により、試験した試料に対して同等の精度がもたらされたことを示した。その一方で、シード凝集特徴セットからの値でトレーニングしたサポートベクトルマシンは、非シード凝集研究と比較して向上した分類性能をもたらした。図７を参照されたい。

【表7】

【0142】

引用文献及び代替実施形態
本明細書で引用されるすべての参考文献は、個々の刊行物または特許または特許出願が各々、すべての目的のために参照によりその全体が組み込まれると具体的かつ個別に示された場合と同じ程度に、すべての目的のために参照によりそれらの全体が本明細書に組み込まれる。

【0143】

本発明は、非一時的なコンピュータ可読記憶媒体に組み込まれたコンピュータプログラム機構を備えるコンピュータプログラム製品として実装することができる。例えば、このコンピュータプログラム製品は、図１と図２の任意の組み合わせで示される及び／または説明されるプログラムモジュールを含み得る。これらのプログラムモジュールは、ＣＤ－ＲＯＭ、ＤＶＤ、磁気ディスク記憶装置製品、ＵＳＢキー、または他の非一時的なコンピュータ可読データまたはプログラム記憶装置製品に記憶することができる。

【図1】