IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パーソナリス,インコーポレイティドの特許一覧

特表2024-542031核酸分子の潜在変数に基づくフラグメントミクスシグネチャの決定
<>
  • 特表-核酸分子の潜在変数に基づくフラグメントミクスシグネチャの決定 図1
  • 特表-核酸分子の潜在変数に基づくフラグメントミクスシグネチャの決定 図2
  • 特表-核酸分子の潜在変数に基づくフラグメントミクスシグネチャの決定 図3
  • 特表-核酸分子の潜在変数に基づくフラグメントミクスシグネチャの決定 図4
  • 特表-核酸分子の潜在変数に基づくフラグメントミクスシグネチャの決定 図5
  • 特表-核酸分子の潜在変数に基づくフラグメントミクスシグネチャの決定 図6
  • 特表-核酸分子の潜在変数に基づくフラグメントミクスシグネチャの決定 図7
  • 特表-核酸分子の潜在変数に基づくフラグメントミクスシグネチャの決定 図8
  • 特表-核酸分子の潜在変数に基づくフラグメントミクスシグネチャの決定 図9
  • 特表-核酸分子の潜在変数に基づくフラグメントミクスシグネチャの決定 図10
  • 特表-核酸分子の潜在変数に基づくフラグメントミクスシグネチャの決定 図11
  • 特表-核酸分子の潜在変数に基づくフラグメントミクスシグネチャの決定 図12
  • 特表-核酸分子の潜在変数に基づくフラグメントミクスシグネチャの決定 図13
  • 特表-核酸分子の潜在変数に基づくフラグメントミクスシグネチャの決定 図14
  • 特表-核酸分子の潜在変数に基づくフラグメントミクスシグネチャの決定 図15
  • 特表-核酸分子の潜在変数に基づくフラグメントミクスシグネチャの決定 図16
  • 特表-核酸分子の潜在変数に基づくフラグメントミクスシグネチャの決定 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-13
(54)【発明の名称】核酸分子の潜在変数に基づくフラグメントミクスシグネチャの決定
(51)【国際特許分類】
   G16B 40/00 20190101AFI20241106BHJP
   C12Q 1/6869 20180101ALI20241106BHJP
   C12M 1/00 20060101ALI20241106BHJP
   G16B 20/00 20190101ALI20241106BHJP
【FI】
G16B40/00
C12Q1/6869 Z
C12M1/00 A
G16B20/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024525704
(86)(22)【出願日】2022-10-31
(85)【翻訳文提出日】2024-06-04
(86)【国際出願番号】 US2022078956
(87)【国際公開番号】W WO2023077114
(87)【国際公開日】2023-05-04
(31)【優先権主張番号】63/274,330
(32)【優先日】2021-11-01
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.VISUAL BASIC
2.PYTHON
(71)【出願人】
【識別番号】522177178
【氏名又は名称】パーソナリス,インコーポレイティド
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100117019
【弁理士】
【氏名又は名称】渡辺 陽一
(74)【代理人】
【識別番号】100141977
【弁理士】
【氏名又は名称】中島 勝
(74)【代理人】
【識別番号】100138210
【弁理士】
【氏名又は名称】池田 達則
(72)【発明者】
【氏名】ジード エム.ルサン
(72)【発明者】
【氏名】ニコラス エー.フィリップス
(72)【発明者】
【氏名】ジェイソン ハリス
(72)【発明者】
【氏名】ニン チャン
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA07
4B029BB01
4B029BB20
4B029FA15
4B063QA13
4B063QQ03
4B063QQ08
4B063QQ42
4B063QQ58
4B063QR08
4B063QR62
4B063QS39
4B063QX02
(57)【要約】
フラグメントミクスシグネチャに基づいて対象の疾患の分類を予測する方法は、対象の生体試料の配列データにアクセスすることを含み得る。この方法はまた、配列データに基づいて配列サイズ値のセットを生成することも含み得る。このセットの各配列サイズ値は、配列データの配列のサイズに対応し得る。この方法はまた、配列サイズ値のセットをフラグメントミクスシグネチャの潜在変数に投影することによって、対象のフラグメントミクスシグネチャ振幅を決定することも含む。潜在変数は、1つ以上の参照生体試料から取得した他の配列サイズ値に1つ以上の信号分離アルゴリズムを適用することによって生成することができる。この方法はまた、機械学習モデルを使用してフラグメントミクスシグネチャ振幅を処理することによって結果を生成することを含み得る。結果には、対象が特定の疾患に罹患しているかどうかを予測する分類が含まれ得る。
【選択図】図1
【特許請求の範囲】
【請求項1】
対象の生体試料の配列データにアクセスすること、
前記配列データに基づいて、配列サイズ値のセットであって、前記セットの各配列サイズ値が前記配列データの配列のサイズに対応する、前記配列サイズ値のセットを生成すること、
フラグメントミクスシグネチャの潜在変数であって、前記潜在変数が、1つ以上の参照生体試料から取得した他の配列サイズ値に1つ以上の信号分離アルゴリズムを適用することによって生成される、前記潜在変数に、前記配列サイズ値のセットを投影することによって、前記対象のフラグメントミクスシグネチャ振幅を決定すること、
機械学習モデルを使用して前記フラグメントミクスシグネチャ振幅を処理することによって、前記対象が特定の疾患を有するかどうかを予測する分類を含む結果を生成すること、及び
前記結果を出力すること
を含む、方法。
【請求項2】
前記フラグメントミクスシグネチャの前記潜在変数の各潜在変数が、前記1つ以上の参照試料の前記他の配列サイズ値のサイズ分布を表すヒストグラムまたは重みベクトルを含み、前記生体試料の前記フラグメントミクスシグネチャ振幅が、前記配列サイズ値の複数のセットを前記潜在変数の各潜在変数に投影することによって決定される、請求項1に記載の方法。
【請求項3】
前記配列サイズ値のセットが、1つ以上のゲノム領域にアラインさせる前記配列データの配列に対応する、請求項1または請求項2に記載の方法。
【請求項4】
前記1つ以上の信号分離アルゴリズムが、1つ以上のブラインド信号源分離アルゴリズムを含む、請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記1つ以上のブラインド信号源分離アルゴリズムが、独立成分分析アルゴリズムをさらに含む、請求項4に記載の方法。
【請求項6】
前記1つ以上のブラインド信号源分離アルゴリズムが、非負値行列因子分解アルゴリズムをさらに含む、請求項4に記載の方法。
【請求項7】
前記潜在変数のセットの第1の潜在変数の1つ以上のグラフ成分から、ヌクレオソーム結合DNAらせんピッチに関連するDNA断片の進行性消化を予測する、請求項1~6のいずれか1項に記載の方法。
【請求項8】
前記潜在変数のセットの第2の潜在変数の1つ以上のグラフ成分から、DNA結合タンパク質の細胞間異質性を予測することをさらに含む、請求項1~7のいずれか1項に記載の方法。
【請求項9】
対応する配列サイズ値によって表される各配列が、60bp~600bpの範囲のサイズを有するDNA断片を含む、請求項1~8のいずれか1項に記載の方法。
【請求項10】
前記配列データが、前記生体試料から検出された複数の体細胞バリアントに対応する配列を含む、請求項1~9のいずれか1項に記載の方法。
【請求項11】
前記配列サイズ値のセットがさらに、前記配列データの前記配列に基づいて生成される経験的確率質量関数である、請求項1~10のいずれか1項に記載の方法。
【請求項12】
前記配列データが、前記生体試料の複数のセルフリーDNA分子に対応し、前記複数のセルフリーDNA分子が、循環腫瘍DNA分子を含む、請求項1~11のいずれか1項に記載の方法。
【請求項13】
前記特定の疾患ががんである、請求項1~12のいずれか1項に記載の方法。
【請求項14】
前記対象のフラグメントミクスシグネチャ振幅を決定することが、前記配列サイズ値のセットを前記潜在変数のサブセットのそれぞれに投影することを含む、請求項1~13のいずれか1項に記載の方法。
【請求項15】
前記フラグメントミクスシグネチャの前記潜在変数のサブセットが、前記潜在変数にクラスタリングアルゴリズムを適用することを含む、請求項14に記載の方法。
【請求項16】
前記フラグメントミクスシグネチャの前記潜在変数の前記サブセットを、別の機械学習モデルの前処理トレーニングデータとして使用する、請求項14に記載の方法。
【請求項17】
前記フラグメントミクスシグネチャの前記潜在変数のセットの前記サブセットを、後続の主成分分析の成分として使用する、請求項14に記載の方法。
【請求項18】
前記配列データに基づいて、末端モチーフ配列データのセットを生成することであって、前記セットの各末端モチーフ配列データが、特定の末端モチーフに対応する末端配列を有する核酸分子の数または相対出現頻度を識別する、前記生成すること、及び
前記末端モチーフ配列データのセットに1つ以上のシグナル分離アルゴリズムを適用することにより、別のフラグメントミクスシグネチャの潜在変数を決定すること
をさらに含む、請求項1~17のいずれか1項に記載の方法。
【請求項19】
前記対象の前記フラグメントミクスシグネチャ振幅を決定することが、前記末端モチーフ配列データのセットを前記他のフラグメントミクスシグネチャの前記潜在変数に投影することを含む、請求項18のいずれか1項に記載の方法。
【請求項20】
1つ以上のデータプロセッサ、及び
非一時的コンピュータ可読記憶媒体であって、前記1つ以上のデータプロセッサ上で実行される場合に、本明細書で開示される1つ以上の方法の一部または全部を前記1つ以上のデータプロセッサに実施させる命令を含む、前記非一時的コンピュータ可読記憶媒体
を含む、システム。
【請求項21】
非一時的機械可読記憶媒体内に実体的に具体化されたコンピュータプログラム製品であって、本明細書で開示される1つ以上の方法の一部または全部を1つ以上のデータプロセッサに実施させるように構成された命令を含む、前記コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年11月1日に出願された「Determining Gene Signatures Based On Latent Variables Of Nucleic Acid Molecules」と題された米国仮特許出願第63/274,330号への優先権を主張し、その内容は、あらゆる目的のためにその全体が参照により本明細書に援用される。
【背景技術】
【0002】
次世代シーケンシングは、対象の遺伝的特徴を識別するために使用することができる。例えば、全ゲノム配列解析を使用して、対象の配列データ内の体細胞変異を明らかにすることができ、その一部は腫瘍DNAに対応する。さらに、断片長及び末端モチーフなどのセルフリーDNAフラグメントミクス特性に関する最近の研究により、血漿試料を使用して対象を正確に診断する可能性が拡大した。例えば、そのような研究により、様々な種類の腫瘍に対応する断片長の特徴の発見が促進されている。対象のがんを検出するための上記技術を開発する取り組みも行われている。
【0003】
そのような取り組みにもかかわらず、血漿試料からがんを正確に検出することは依然として困難である。そのような困難さの一因は、腫瘍の種類、疾患の進行段階、及び循環系にアクセスできる腫瘍細胞DNAの放出の程度(腫瘍の「脱落」)に応じて、血漿試料中の腫瘍DNAの量が大きく異なり得ることである。これらの様々な特性のため、腫瘍DNAの特定の特徴(例えば、断片の長さ、末端モチーフ)を特定することは困難であった。さらに、血漿試料中の腫瘍DNA濃度は、対象の正確な診断が困難になる程度まで低くなり得る。
【発明の概要】
【0004】
いくつかの実施形態では、核酸分子のサイズ分布に基づくフラグメントミクスシグネチャに基づいて対象の疾患の分類を予測する方法を提供する。この方法は、対象の生体試料の配列データにアクセスすることを含み得る。この方法はまた、配列データに基づいて配列サイズ値のセットを生成することも含み得る。セットの各配列サイズ値は、配列データの配列サイズに対応し得る。この方法はまた、配列サイズ値のセットをフラグメントミクスシグネチャの潜在変数に投影することによって、対象のフラグメントミクスシグネチャ振幅を決定することも含む。潜在変数は、1つ以上の参照生体試料から取得した他の配列サイズ値に1つ以上の信号分離アルゴリズムを適用することによって生成することができる。この方法は、機械学習モデルを使用してフラグメントミクスシグネチャ振幅を処理することによって結果を生成することができる。結果には、対象が特定の疾患に罹患しているかどうかを予測する分類が含まれ得る。この方法は、結果を出力することを含み得る。
【0005】
いくつかの実施形態では、末端モチーフ出現頻度の分布に基づくフラグメントミクスシグネチャに基づいて対象の疾患の分類を予測する方法を提供する。この方法は、対象の生体試料の配列データにアクセスすることを含み得る。この方法はまた、配列データに基づいて、末端モチーフ配列データのセットを生成することも含み得る。セットの各末端モチーフ配列データは、特定の末端モチーフに対応する末端配列を有する核酸分子の数または相対出現頻度を識別する。この方法はまた、末端モチーフ配列データのセットをフラグメントミクスシグネチャの潜在変数に投影することによって、対象のフラグメントミクスシグネチャ振幅を決定することも含む。潜在変数は、1つ以上の参照生体試料から取得した他の末端モチーフ配列データに1つ以上の信号分離アルゴリズムを適用することによって生成することができる。この方法は、機械学習モデルを使用してフラグメントミクスシグネチャ振幅を処理することによって結果を生成することができる。結果には、対象が特定の疾患に罹患しているかどうかを予測する分類が含まれ得る。この方法は、結果を出力することを含み得る。
【0006】
本開示のいくつかの実施形態は、1つ以上のデータプロセッサを含むシステムを含む。いくつかの実施形態では、システムは、1つ以上のデータプロセッサ上で実行される場合に、本明細書で開示する1つ以上の方法の一部もしくは全部、及び/または1つ以上のプロセスの一部もしくは全部を1つ以上のデータプロセッサに実施させる命令を含む、非一時的コンピュータ可読記憶媒体を含む。本開示のいくつかの実施形態は、本明細書で開示する1つ以上の方法の一部もしくは全部、及び/または1つ以上のプロセスの一部もしくは全部を1つ以上のデータプロセッサに実施させるように構成された命令を含む、非一時的機械可読記憶媒体に実体的に具体化されたコンピュータプログラム製品を含む。
【0007】
用いられている用語及び表現は、説明の用語として使用されており、限定の用語としては使用されておらず、そのような用語及び表現の使用は、示され説明される特徴またはその一部の任意の均等物を排除することを意図するものではないが、特許請求される本発明の範囲内で様々な変更が可能であることを認識されたい。したがって、特許請求される本発明は、いくつかの実施形態及び任意選択の特徴によって具体的に開示されているものの、本明細書で開示する概念の変更及び変形は当業者に委ねられ得るものであり、このような変更及び変形は、添付の特許請求の範囲によって定義される本発明の範囲内にあると考えられる。
【0008】
本開示を、添付の図面と組み合わせて説明する。
【図面の簡単な説明】
【0009】
図1】いくつかの実施形態による、配列データから潜在変数を生成し、その潜在変数を使用してがんの存在を予測するプロセスを示す概略図を示す。
図2】いくつかの実施形態による、核酸分子のサイズ分布に基づいて決定されるフラグメントミクスシグネチャに基づいて対象の疾患の分類を予測する方法の一例を示すフローチャートを含む。
図3】いくつかの実施形態による、配列サイズ値を生成するための例示的な技術を示す概略図を示す。
図4】いくつかの実施形態による、信号分離アルゴリズムを使用して非混合画像のセットを生成するプロセスを示す例示的な図を示す。
図5】いくつかの実施形態による、配列サイズの潜在変数のセットを生成するための例示的な技術を示す概略図を示す。
図6】いくつかの実施形態による、全エクソーム配列データに対して独立成分分析アルゴリズムを使用してフラグメントミクスシグネチャを生成する例示的な技術を示す概略図を示す。
図7】正常な対象の生体試料に対応する配列サイズ値に信号分離アルゴリズムを適用することによって生成される潜在変数のセットを示す。
図8】別の正常な対象の生体試料に対応する配列サイズ値に信号分離アルゴリズムを適用することによって生成される潜在変数のセットを示す。
図9】結腸直腸癌と診断された対象の生体試料に対応する配列サイズ値に信号分離アルゴリズムを適用することによって生成される潜在変数のセットを示す。
図10】結腸直腸癌と診断された別の対象の生体試料に対応する配列サイズ値に信号分離アルゴリズムを適用することによって生成される潜在変数のセットを示す。
図11】いくつかの実施形態による、フラグメントミクスシグネチャに基づいて、異なるエピジェネティック状態を有する遺伝子座に由来するDNA分子の濃縮を予測するための技術を示す概略図を示す。
図12】いくつかの実施形態による、生の配列サイズ分布を潜在変数に投影し、その分布をフラグメントミクスシグネチャ振幅のセットに変換し、その振幅を使用してがん関連遺伝子変異を検出することにより、生の配列サイズ分布を前処理するプロセスを示す概略図を示す。
図13】いくつかの実施形態による、ハイブリダイゼーション捕捉試料に対して独立成分分析アルゴリズムを使用して潜在変数のセットを生成する例示的な技術を示す概略図を示す。
図14】いくつかの実施形態による、ハンドクラフト特徴量または潜在変数特徴量を使用してがんの再発をモニタリングするための例示的な技術を示す概略図を示す。
図15】疾患の分類にフラグメントミクスシグネチャを使用した場合の精度レベルを示す受信者動作特性(ROC)曲線のセットを示す。
図16】いくつかの実施形態による、核酸分子の末端モチーフ出現頻度に基づいて決定されるフラグメントミクスシグネチャに基づいて対象の疾患の分類を予測する方法の一例を示すフローチャートを含む。
図17】本明細書で開示するいくつかの実施形態を実装するためのコンピュータシステムの一例を示す。
【発明を実施するための形態】
【0010】
フラグメントミクスとは、一般に、断片のサイズや末端モチーフを含む、セルフリーDNAの断片化パターンの分析を指す。これらの断片化パターンは、組織型及びがんに特有のエピジェネティックなシグネチャと関連付けられ得る。部分的には、正常細胞とがん細胞における、ヒストン、及びクロマチン構造を制御する関連調節タンパク質、ならびに相互に関連する遺伝子転写ランドスケープの差異が、DNA断片長の分布の差異として現れると考えられる。こうした進歩にもかかわらず、効果的な治療法(例えば、ネオ抗原ワクチン)の開発にそのような特徴を利用することは困難である。例えば、血漿試料中の腫瘍DNAレベルは通常低く、そのような限定的なデータでは、対象ががんに罹患しているかどうかを予測する上で十分な精度が得られない可能性がある。別の例では、クローン造血由来のものを含む、セルフリーDNAに認められる非腫瘍起源の体細胞変異により、腫瘍DNAのバリアントコール及び検出が複雑になり得る。さらに別の例では、配列知識データベースの腫瘍配列データの可用性が一貫していない場合があり、その結果、対象ががんに罹患しているかどうかを予測するための機械学習モデルをトレーニングするためのトレーニングデータとして適切に機能することができない。
【0011】
これらの課題に対処するために、本技術は、フラグメントミクスシグネチャに基づいて対象の疾患の分類を予測することを含み得る。本明細書で使用される場合、フラグメントミクスシグネチャとは、疾患の分類を予測することができる核酸分子のサイズ及び/または末端モチーフ分布の1つ以上のシグネチャを指す。例えば、フラグメントミクスシグネチャは、疾患の分類を予測することができるゲノム領域セットの各ゲノム領域に一致する配列の断片長(「サイズ」とも呼ばれる)の推定分布を表すことができる。さらに、または代わりに、フラグメントミクスシグネチャは、疾患の分類を予測することができるX-bp 5’及び3’配列同一性または「末端モチーフ」(例えば、CCCA)の推定分布を表すことができる。
【0012】
フラグメントミクスシグネチャは、参照コホートから得られた核酸分子のサイズ及び/または末端モチーフ分布にブラインド信号源分離(BSS)アルゴリズムを適用することによって生成される1つ以上の潜在変数を含み得る。各潜在変数は、ゲノム領域のセット全体にわたって可変的に濃縮された配列の推定サイズ及び/または末端モチーフ分布を識別し、配列サイズ及び/または末端モチーフデータの新規基底ベクトルを定義する。いくつかの例では、1つ以上の潜在変数は、疾患診断の参照試料から取得された配列データに基づいて決定される。いくつかの例では、1つ以上の潜在変数は、特定の末端モチーフのセットに対応する末端配列を有する配列リードの推定分布を識別する。フラグメントミクスシグネチャは、対象ががんに罹患しているかどうかを予測するために使用され得る(例えば)。
【0013】
フラグメントミクスシグネチャに基づいて対象の疾患の分類を予測する技術は、対象の生体試料の配列データにアクセスすることによって開始することができる。いくつかの例では、配列データは、生体試料の複数のセルフリーDNA分子を配列決定することによって得られる複数の核酸配列を識別する。複数のセルフリーDNA分子には、循環腫瘍DNA分子が含まれ得る。さらに、または代わりに、配列データは、生体試料から検出される複数の体細胞バリアントに対応する配列リードも識別することができる。複数の体細胞バリアントは、配列データの各配列リードを参照配列(例えば、ヒト参照ゲノム)にアラインメントすることによって検出することができる。
【0014】
いくつかの例では、参照配列には、1人以上の対象の健常な血液細胞(例えば、白血球)、口腔細胞、及び/または毛根細胞から得られる「正常な」または「健常な」配列が含まれる。細胞は、例えば、特定の種類のがんではないと以前に診断された場合、またはがん細胞もしくは前がん細胞が含まれていない可能性が高い組織から試料を採取することができる場合など、様々な方法で健常であると識別される。いくつかの例では、正常配列は、(i)血液試料の白血球及び末梢血単核球を含むバフィーコートから血漿を分離し、(ii)バフィーコートからDNAを単離し、(iii)単離したDNA由来の正常配列を配列決定することによって得られる。生体試料由来の正常配列を配列決定するための例示的な技術は、米国特許第10,125,399号にさらに記載されており、その内容は、あらゆる目的のために参照により本明細書に援用される。
【0015】
配列データに基づいて、配列サイズ値のセット(例えば、配列サイズ値の2次元マトリックス)を生成することができる。例えば、配列サイズ値のセットには、配列サイズ値の2次元マトリックスを含めることができ、このマトリックスでは、配列サイズ(例えば、30bp)を規定する第1の次元が、配列サイズに対応する配列の数(例えば、50カウント)を識別する第2の次元に関連付けられる。配列サイズ値のセットは、ゲノム領域のセットの対応するゲノム領域にアラインさせる配列データの各核酸配列について、配列のサイズを表す配列サイズ値を含み得る。対応する配列サイズ値によって表される各配列は、特定のサイズ(bp)範囲(例えば、60bp~600bpのサイズ範囲)内のDNA断片を含み得る。いくつかの例では、ゲノム領域のセットを、参照配列(例えば、ヒト参照ゲノム)を使用して識別する。さらに、または代わりに、配列サイズ値のセットを、経験的確率質量関数のセットに変換することができ、各経験的確率関数は、対応するゲノム領域にアラインさせる核酸配列の配列サイズ値に基づいて生成することができる。いくつかの例では、対象の配列データから、配列サイズ値のセットを表すサイズ分布データを決定する。例えば、配列サイズ値のセットを、経験的確率質量関数(PMF)に変換することができる。本明細書で使用される場合、PMFとは、離散ランダム変数がいくつかの値と正確に等しい確率を推定する関数を指す。PMFのセットは、潜在変数のセットを決定するための入力として使用することができる。
【0016】
生体試料の配列サイズ値のセットを使用して疾患の分類を予測するために、フラグメントミクスシグネチャを決定することができる。フラグメントミクスシグネチャを決定するために、潜在変数のセットを最初に生成することができる。本明細書で使用される場合、用語「潜在変数」とは、ゲノム領域のセットにアラインさせる配列データの基礎となるいくつかの潜在的な変動信号源の1つに対応する、配列サイズの推定分布(配列サイズの符号付き重みの数値ベクトルとしてエンコードされたパターン)を指す。潜在変数のセットは、1つ以上の参照試料から取得した配列サイズ値に1つ以上の信号分離アルゴリズムを適用することによって決定することができる。いくつかの例では、参照試料は、疾患の診断(例えば、がん、健常)を受けた他の対象から採取した生体試料を含む。さらに、または代わりに、疾患の進行をモニタリングするために、参照試料に、同じ対象から異なる時点で採取した生体試料を含めることができる。例えば、参照試料は、現在の生体試料を採取する時点の2年前に採取した対象の生体試料に対応し得る。
【0017】
1つ以上の信号分離アルゴリズムは、ブラインド信号源分離アルゴリズム、独立成分分析アルゴリズム、及び/または非負値行列因子分解アルゴリズムを含み得る。本明細書で使用される場合、ブラインド信号源分離アルゴリズムは、ソース信号または混合プロセスに関する情報を使用せずに(またはほとんど情報を使用せずに)、ソース信号のセット(例えば、潜在変数)を混合信号のセット(例えば、配列サイズ値)から分離する技術である。さらに、または代わりに、1つ以上の信号分離アルゴリズムは、1つ以上の他の教師なし機械学習技術であり得る。いくつかの例では、潜在変数のセットにクラスタリングアルゴリズムを適用し、クラスタリングアルゴリズムによって生成される各クラスターの重心またはメドイドを識別することによって、潜在変数のサブセット(「固定」潜在変数とも呼ばれる)を選択する。固定潜在変数は、1つ以上の参照試料に反映される様々な生体プロセスによって生成される核酸分子を表し得るフラグメントミクスシグネチャとして使用することができる。
【0018】
次いで、生体試料の配列サイズ値のセットを、フラグメントミクスシグネチャの潜在変数に投影することができる。例えば、配列サイズ値のセットから決定されるサイズ分布データを固定潜在変数に投影して、1つ以上の潜在変数係数(「振幅」とも呼ばれる)を生成することができる。フラグメントミクスシグネチャ振幅は、生体試料中の様々なグループの核酸分子の濃縮度を表し得る。
【0019】
機械学習モデルを使用してフラグメントミクスシグネチャ振幅を処理することによって結果を生成することができ、その結果には、対象が特定の疾患に罹患しているかどうかを予測する分類が含まれる。さらに、または代わりに、結果には、対象が特定の種類のがんに罹患しているかどうかを予測する分類が含まれ、この結果を使用して、対象に対する治療を予測したり、どの程度の頻度で対象に治療を施すべきかを予測したりすることができる。
【0020】
いくつかの例では、フラグメントミクスシグネチャを使用して、他の種類のタスクを実行するための結果を生成することができる。いくつかの実施形態によれば、タスクの例には、フラグメントミクスシグネチャに基づいて、独立して制御される分子セットが保有する信号として特定の潜在変数を識別することに基づいて、配列サイズデータ内のエピジェネティック状態にリンクされたタンパク質分子セットの濃縮度を測定することが含まれ得る。例えば、特定のゲノム領域または特定の対立遺伝子の染色体と関連することが知られている核酸分子についての生体試料の濃縮度を使用して、配列データに寄与する対応する細胞遺伝子座でのクロマトソームの結合及びサイレンシングされたヘテロクロマチン状態の濃縮度を予測することができる。別の例では、配列データ内のがんに関連する核酸分子についての生体試料の濃縮度を使用して、特定の対立遺伝子ががん細胞に由来するかどうかを予測することができる。さらに別の例では、配列データ内の遺伝子発現に関連する核酸分子についての生体試料の濃縮度を使用して、配列データに寄与する特定の対立遺伝子が発現しているかどうかを予測することができる。
【0021】
さらに別のタスクには、ヌクレオソーム及び転写因子などのタンパク質分子に結合することが知られている生体試料の核酸分子のサイズ変動性と中心傾向を推定することが含まれる。別のタスクには、1つ以上のマルチモーダル潜在変数のピーク間のサイズの差異を比較することにより、様々なタンパク質の間隔及びリンカーDNAサイズを推測することが含まれる。他のタスクには、1つ以上のマルチモーダル潜在変数の短い配列サイズ種と長い配列サイズ種の相対的な存在量を予測すること、及び潜在変数空間の様々な変化率からフラグメントミクスシグネチャのセルフリーDNA分解速度を推測することが含まれる。
【0022】
さらに、または代わりに、フラグメントミクスシグネチャを、データノイズ除去に使用することができ、この機能は、特にデータ量が少ない場合に有利となり得る。生データ(例えば、サイズ分布データ)を潜在変数空間に投影すると、モデルの下流での過剰適合が軽減され、ノイズや興味深くないと見なされる他のデータが削除されるため、統計検定の精度が向上する。さらに別の例には、生データをいくつかの潜在変数に投影していくつかの数値振幅(例えば、2Dプロットでデータを描画する場合は2つ)を生成することにより、次元削減に潜在変数を使用することが含まれる。野生型対立遺伝子をサポートするリードと変異型対立遺伝子をサポートするリード間の数値振幅を比較することができ、それによってPCRまたは配列決定エラーによって発生する偽陽性の変異を除外することができる。
【0023】
したがって、本開示のいくつかの実施形態は、シグナル分離及びクラスタリングアルゴリズムを使用してフラグメントミクスシグネチャを生成し、生体試料中の配列サイズ及び/または末端モチーフデータの基礎となる独立した変動信号源の正確で一般化可能なモデルを表すことにより、従来の技術よりも技術的な利点を提供する。例えば、ブラインド信号源分離アルゴリズムは、配列データから隠れているが独立した要因を識別することができ、これを使用して対象の疾患または病態を予測することができる。いくつかの例では、フラグメントミクスシグネチャを使用して、様々な核酸またはタンパク質分子の特性を予測することができ、様々なエピジェネティック状態の診断または予後に使用することができる。上記で説明したように、フラグメントミクスは、核酸分子が何を表しているかを理解することにより、疾患表現型の解釈に役立つ核酸分子の固有の特性を特定できる場合がある。
【0024】
前述の技術的利点はすべて、計算効率、教師あり機械学習モデルの解釈、一般化、及びパフォーマンスに対する下流の利点につながる。次いで、固定された潜在変数を含むフラグメントミクスシグネチャを、生体試料に腫瘍DNAが含まれているかどうかを予測するために使用することができ、及び/またはがんの特定の段階を予測するためにも使用することができる。さらに、フラグメントミクスシグネチャを使用することにより、検出された腫瘍DNAの量が少ない場合でも、対象が特定の疾患に罹患しているかどうかを正確に予測することができる。したがって、本技術は、セルフリー血漿試料から得られた配列データに機械学習モデルを適用することにより、対象の疾患を正確かつ確実に検出することを容易にする。
【0025】
以下の実施例を、特定の実施形態を紹介するために示す。以下の説明では、説明の目的で、本開示の実施例を十分に理解できるようにするために具体的な詳細を記載する。しかしながら、これらの具体的な詳細がなくても、様々な実施例が実践され得ることは明らかであろう。例えば、デバイス、システム、構造、集合体、方法、及び他の構成要素は、不要な詳細で例を不明瞭にしないようにするため、ブロック図形態で構成要素として示されることがある。他の例では、周知されたデバイス、プロセス、システム、構造、及び技法は、例を不明瞭にするのを避けるため、必要な詳細なしで示されることがある。図面及び説明は、限定的であるようには意図されていない。本開示で用いられている用語及び表現は、限定ではなく説明のための用語として使用され、そのような用語及び表現の使用において、示され説明されている特徴またはその一部のいかなる均等物も排除されるようには意図されていない。用語「実施例」は、本明細書では、「例、事例、または例示として機能すること」を意味するように使用される。本明細書で「実施例」として記載される任意の実施形態または設計は、必ずしも他の実施形態または設計よりも好ましいまたは有利であると解釈されるわけではないものとする。
【0026】
I.フラグメントミクスシグネチャに基づく対象の疾患分類の予測の概要
対象における腫瘍生検及びセルフリーDNA血漿のペアの研究により、2つの対応する体細胞バリアントコールセット間で異なる特性が明らかになった。腫瘍と血漿の体細胞バリアントコールセットのペアの間の差異は、腫瘍型、ステージ、異質性、及び各試料の取得時期に基づいて影響を受ける可能性があるため、非常に変動しやすいことが判明した。
【0027】
腫瘍DNA断片長の全体的なパターンは、正常なセルフリーDNAの断片長と比較して短いことが示されている。既知の腫瘍バリアントについて生体試料を濃縮し、その後、正常及び濃縮された生体試料のペアから生成された配列リードから推定される断片長を調べることにより、疾患の状態を区別する特徴を予測する技術を実装することができる。それでも、腫瘍DNAと正常DNAをそれらのサイズ分布のみに基づいて区別するのは困難であり得る。さらに、生体試料中の腫瘍DNAの量は様々に異なり得、従来技術では特定の配列セットが腫瘍DNA由来であるかどうかを正確に予測することはできない。この困難さのため、腫瘍DNAのDNA断片長を様々な技術(例えば、体細胞バリアントコール)に組み込むことは、依然として困難なままである。
【0028】
これらの課題に対処するために、本発明の技術は、BSSアルゴリズムによって生成される潜在変数に基づいてフラグメントミクスシグネチャを決定することを含み得る。フラグメントミクスシグネチャを使用して、対象の疾患の分類を予測することができる。潜在変数は、参照試料から取得した配列サイズ値の複数のセットに1つ以上の機械学習モデル(例えば、1つ以上の教師なし機械学習モデル、BSSアルゴリズム)を適用することによって生成することができる。参照試料は、疾患(例えば、がん)と診断された対象及び/または健常な対象から得ることができる。各配列のサイズを測定して、配列サイズの値を特定することができる。複数の配列サイズ値セットの各セットは、参照ゲノム内で識別されるゲノム領域セットのゲノム領域に関連付けられ得る。配列サイズ値の複数のセットは、配列サイズ値のサイズ分布を表すマトリックスまたは任意のデータ構造として表すことができる。さらに、または代わりに、配列サイズ値の各セットを経験的確率質量関数(PMF)に変換し、それによって配列サイズ値の複数のセットをPMFのセットで表すこともできる。各潜在変数は、独立した生体プロセス、技術的アーティファクト、またはノイズ源に関連付けられた重み付けされた断片サイズのセットを表す。生物学的に意味のある潜在変数(例えば、固定潜在変数)を選択してフラグメントミクスシグネチャとして使用することができる。いくつかの例では、潜在変数にクラスタリングアルゴリズムを適用し、フラグメントミクスシグネチャを形成する固定潜在変数を選択する。
【0029】
特定の対象(例えば、疾患を有すると診断されている/されていない対象)のフラグメントミクスシグネチャ振幅は、特定の対象の生体試料の配列のサイズ分布を生物学的に意味のある潜在変数の集合に投影することによって決定することができる。いくつかの例では、フラグメントミクスシグネチャ振幅を使用して、対象の配列データに既知の腫瘍起源の体細胞バリアントが含まれているかどうかを予測することができ、これによりセルフリーバリアントコール及び早期のがん検出が容易になる。いくつかの例では、フラグメントミクスシグネチャ振幅を分類モデルによって処理して、ある人が特定の疾患(例えば、がん)に罹患しているかどうかを予測する。
【0030】
A.フラグメントミクスシグネチャを使用して対象の疾患を予測する例示的技術
図1は、いくつかの実施形態による、配列データから潜在変数を生成し、その潜在変数を使用してがんの存在を予測するプロセスを示す概略図100である。プロセス100は、(i)参照試料に対してブラインド信号源分離アルゴリズムを使用して潜在変数のセットを生成する第1段階102、及び(ii)新規試料の配列データを固定潜在変数に投影する第2段階104を含む。
【0031】
i.第1段階
ステップ106では、異なる参照試料からセルフリーDNA分子(別名「cfDNA」とも呼ばれる)を得ることができる。cfDNAは、アポトーシス及び壊死などのいくつかの生体プロセスの結果として生成され得る。異なる供給源に由来するこれらのcfDNAは、異なる断片サイズ分布を有し得、これらをBSSアルゴリズムによって分離することができる。いくつかの例では、参照試料は、疾患(例えば、がん)の診断を受けた対象から採取した生体試料(例えば、血清試料または血漿試料)を含む。その結果、上記の参照試料に対して決定される潜在変数を、別の対象の別の生体試料から決定される配列データのサイズ分布と比較する潜在変数(または「固定潜在変数」)として使用することができる。
【0032】
ステップ108では、セルフリーDNA分子のサイズ分布を決定することができる。参照ゲノムのN個のゲノム領域の各ゲノム領域について、配列サイズ値のセットを特定することができる。配列サイズ値のセットの各配列サイズ値は、ゲノム領域にアラインさせた対応する配列リードのサイズ(例えば、DNAアダプター配列間のペア末端リード断片挿入サイズ、bp単位の断片長)を特定することができる。次いで、各参照試料について、配列サイズ値のセットの断片サイズ分布を生成することができる。分析では、50~550bpの配列サイズ値のみを使用する。いくつかの例では、配列サイズ値の各セットについてPMFを生成して、サイズ分布を決定し、その場合、セットの各配列サイズ値を、セット内の配列の合計数によって正規化する。
【0033】
ステップ110では、配列サイズ値のサイズ分布をブラインド信号源分離アルゴリズムによって処理して、潜在変数のセットを生成することができる。いくつかの例では、PMFのセットを、1つ以上のブラインド信号源分離アルゴリズムの入力データ(例えば、N×501次元を含むマトリックス)として使用する。この例では、BSSアルゴリズムは、独立成分分析(ICA)アルゴリズム(例えば、fastICA)または非負値行列因子分解(NMF)アルゴリズムを含んでいた。BSSアルゴリズムのタイプに応じて、入力データの追加のフォーマットを実施した。例えば、非負値行列因子分解アルゴリズムに入力されるX行列は、本明細書に記載される生のPMFであった。別の例では、独立成分分析アルゴリズムに入力されるX行列を、最初に平均重心化し、次いで単位分散にスケーリングした。BSSアルゴリズムを、確率的初期状態が収束する(例えば、解に到達するか、最小化または最大化基準が満たされるか、ICAの非ガウス性が最大化される)まで、複数回実施した。
【0034】
各試料に対してBSSを実施した後、J個の参照試料由来の潜在変数をクラスタリングアルゴリズム(例えば、K平均クラスタリングアルゴリズム)を使用して保存されたクラスターに形成することができる。各クラスターの重心またはメドイドを選択することができ、その重心またはメドイドを、様々な生体プロセス由来のcfDNAを表すことができる固定潜在変数として使用することができる。さらに、または代わりに、ゲノム全体にわたる配列サイズのPMFをJ個の参照試料ごとに特定することができる。このJ×501(50~550bp)マトリックスは、1つ以上のBSSアルゴリズムの入力として使用することができる。BSSアルゴリズムからの出力潜在変数は、固定潜在変数として直接使用することができる。固定潜在変数をフラグメントミクスシグネチャとして集合的に使用して、他の生体試料中のがんを予測することができる。
【0035】
ii.第2段階
第2段階104では、別の生体試料からセルフリーDNA分子を得ることができる。他の生体試料は、疾患の診断が不明な別の対象から採取することができる。他の生体試料は、がんの治療及び手術が行われた対象から得ることができる。いくつかの例では、他の生体試料を、参照試料を採取した同じ対象ではあるが、ある期間内の異なる時点における対象から採取する。他の生体試料をフラグメントミクスシグネチャの固定潜在変数と比較して、対象のがん(例えば)の分類を予測し、及び/またはがんの進行をモニタリングすることができる。ステップ112では、他の対象のcfDNAのサイズ分布データを決定することができる。サイズ分布データには、1つ以上のPMFが含まれ得る。サイズ分布を決定するプロセスは、図1のステップ108に記載されている。
【0036】
ステップ114では、他の対象の配列サイズを表すサイズ分布データをフラグメントミクスシグネチャの固定潜在変数に投影して、他の対象のフラグメントミクスシグネチャ振幅を生成することができる。フラグメントミクスシグネチャ振幅を計算するために、他の対象のサイズ分布データを表すPMFマトリックスに、潜在変数マトリックスの逆行列を右乗算する。潜在変数の生成に使用されるBSSアルゴリズムに応じて、スケーリング、ホワイトニングなどの入力PMFの追加フォーマットを実行することができる。さらに、または代わりに、類似度測定(例えば、コサイン類似度またはピアソン相関)を使用して、断片サイズPMF内の各固定潜在変数の濃縮度を測定することもできる。いくつかの例では、他の試料の断片サイズPMFを、配列サイズのサイズ分布から生成し、そのPMFを、k個の固定潜在変数に対して比較し、または投影することができる。いくつかの例では、1×k特徴量振幅ベクトルを選択し、下流の分析のためのPMFの低次元表現として使用する。
【0037】
ステップ116では、下流分析を実行して、他の対象のフラグメントミクスシグネチャ振幅に基づいて、他の対象ががんに罹患しているかどうかを予測することができる。いくつかの例では、潜在変数を特徴量として使用してトレーニングされた機械学習モデルは、(i)他の対象ががん関連の遺伝子変異を保有しているかどうかを予測し、(ii)他の対象が疾患(例えば、がん)に罹患しているかどうかを予測し、(iii)他の対象が特定の種類の疾患(例えば、肝臓癌)に罹患しているかどうかを予測し、(iv)病期(例えば、ステージIVのがん)を予測し、及び(v)他の対象が特定の治療に応答して疾患から回復したかどうかを予測することを含む、1つ以上の予測タスクを実行するように構成される。
【0038】
いくつかの実施形態では、機械学習モデルには、複数のモデル(例えば、1、2、3、4、5、6、7、8、9、または10個の機械学習モデル)が含まれる。いくつかの例では、トレーニングされた機械学習モデルには、ディープニューラルネットワークが含まれる。ディープニューラルネットワークは、ますます大規模かつ高次元化するデータセット(例えば、核酸配列データ)の内部構造を捕捉するために使用することができる。ディープニューラルネットワークは、高レベルの特徴量を識別し、従来の統計モデルよりもパフォーマンスを向上させ、解釈可能性を高め、核酸配列データの構造に関するさらなる理解を提供する。
【0039】
他の種類の機械学習モデルは、勾配ブースティング決定木(例えば、XGBoostフレームワーク、LightGBMフレームワーク)、バギング法、ブースティング法、サポートベクターマシン、及び/またはランダムフォレストアルゴリズムのうちの1つ以上を含み得る。例えば、勾配ブースティングは、回帰問題及び分類問題、ならびに予測モデル(決定木などの弱い予測モデルのアンサンブルを含み得る)の生成に使用することができる機械学習手法の一種に対応し得る。いくつかの例では、勾配ブースティング決定木には、例えば、XGBoostフレームワークまたはLightGBMフレームワークが含まれ得る。
【0040】
機械学習モデルには、ハイパーパラメータが含まれ得る。ハイパーパラメータは、モデルの外部にあり、その値がデータ(例えば、トレーニングデータ、入力データ)から推定されない構成であり得る。いくつかの例では、ハイパーパラメータを調整し、例えば、特定の予測モデリング問題を解決するために調整する。いくつかの例では、ハイパーパラメータを使用して、モデルパラメータを推定する。ハイパーパラメータは、ユーザーが指定することができる。いくつかの例では、一連のヒューリスティックアルゴリズムを使用してハイパーパラメータを決定することができる。
【0041】
B.核酸分子のサイズ分布から決定されるフラグメントミクスシグネチャに基づいて、対象の疾患の分類を予測する方法
図2は、いくつかの実施形態による、生体試料の核酸分子のサイズ分布に基づいて対象のフラグメントミクスシグネチャを決定する方法の例を示すフローチャート200を含む。フローチャート200で説明されている操作の一部は、コンピュータシステム(例えば、図17のコンピュータシステム1700)によって実行されてもよい。フローチャート200は、操作を逐次的なプロセスとして説明している可能性があるが、様々な実施形態において、操作の多くは、並行してまたは同時に実施してもよい。さらに、操作の順番を並べ替えてもよい。操作は、図に示されていない追加のステップを有してもよい。さらに、この方法のいくつかの実施形態を、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはこれらの任意の組合せによって実装してもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードに実装される場合、関連するタスクを実施するためのプログラムコードまたはコードセグメントを、記憶媒体などのコンピュータ可読媒体に格納してもよい。
【0042】
ステップ202では、対象の生体試料の配列データにアクセスすることができる。いくつかの例では、配列データは、生体試料の複数のセルフリーDNA分子に対応し、複数のセルフリーDNA分子には循環腫瘍DNA分子が含まれる。配列データには、生体試料から検出された複数の体細胞バリアントに対応する配列も含まれ得る。
【0043】
ステップ204では、配列データに基づいて、配列サイズ値のセット(例えば、配列サイズ値の2次元マトリックス)を生成することができる。配列サイズ値は、ゲノム領域のセットの対応するゲノム領域にアラインさせる配列データの各配列について、配列のサイズに対応する配列サイズ値を含み得る。対応する配列サイズ値によって表される各配列には、特定の範囲内のサイズを有するDNA断片が含まれる。いくつかの例では、ゲノム領域のセットを、参照配列(例えば、ヒト参照ゲノム)を使用して識別する。配列サイズ値のセットは、対応するゲノム領域にアラインさせる配列データの配列に基づいて生成される経験的確率質量関数(PMF)であり得る。いくつかの例では、配列サイズ値のセットについてPMFを生成して、配列データのサイズ分布を決定し、その場合、セットの各配列サイズ値を、生体試料中の配列の合計数によって正規化する。
【0044】
ステップ206では、配列サイズ値のセットをフラグメントミクスシグネチャの潜在変数に対して比較し、または投影することができる。フラグメントミクスシグネチャには、疾患の分類を予測することができる核酸分子のサイズ分布の1つ以上のシグネチャが含まれ得る。フラグメントミクスシグネチャには、1つ以上の固定潜在変数が含まれ得る。1つ以上の固定潜在変数は、(i)1つ以上の参照試料から取得した配列サイズ値に1つ以上の信号分離アルゴリズムを適用して潜在変数のセットを生成し、(ii)クラスタリングアルゴリズムを適用して潜在変数のセットのサブセットを選択すること(このサブセットは固定潜在変数に対応する)によって決定することができる。いくつかの例では、参照試料は、疾患(例えば、がん)の診断を受けた対象から採取した生体試料(例えば、組織、血漿試料)を含む。さらに、または代わりに、参照試料には、同じ対象から別の時点で得られた生体試料が含まれ得る。いくつかの例では、潜在変数セットの各潜在変数には、様々な生体プロセスによって生成される核酸分子の推定サイズ分布を表すヒストグラムまたは重みベクトルが含まれる。1つ以上の信号分離アルゴリズムは、ブラインド信号源分離アルゴリズムであり得、これには、独立成分分析アルゴリズム及び/または非負値行列因子分解アルゴリズムが含まれ得る。いくつかの例では、異なる参照試料から生成される潜在変数にクラスタリングアルゴリズムを適用し、潜在変数のセットのサブセットを決定する。潜在変数のサブセットには、識別された潜在変数のクラスターから選択される重心またはメドイドが含まれ得る。
【0045】
さらに、または代わりに、潜在変数の導関数は、スケーリング、変換、平均化、周波数領域変換(例えば、高速フーリエ変換)などの変換、及び他の同様の変換を適用することによって決定することができる。
【0046】
いくつかの例では、BSSアルゴリズムが物理的に別個のエンティティが保有する信号を推定する記録を有することを考慮すると、潜在変数のセットは、セルフリーDNAに結合して保護するタンパク質分子セット(例えば、モノヌクレオソーム、ジヌクレオソーム、モノクロマトソーム、ジクロマトソーム、及び転写因子複合体)を予測することができる。いくつかの例では、潜在変数は、関連するDNAフラグメントミクスシグネチャに基づいて、潜在的な新規核酸及び/またはタンパク質エンティティとそれに対応する構造を予測することができる。
【0047】
さらに、エピジェネティック状態に対応する潜在変数については、分散及び重心傾向(例えば、ピーク配列サイズ)などの密度特性から、結合したDNAの、したがってエピジェネティック状態を可能にするタンパク質の、細胞間異質性の程度を予測することができる。また、潜在変数の異なるタンパク質の相対間隔及び平均リンカーDNAサイズを、マルチモーダル潜在変数のピーク間のサイズの差異を比較することによって予測してもよい。さらに、マルチモーダル潜在変数の短いサイズ密度と長いサイズ密度(例えば、それぞれ、関連するモノヌクレオソーム及びジヌクレオソーム)の相対的な割合、及び潜在変数空間内の曲線に沿った長い配列サイズから短い配列サイズへの変化率を測定することによって、セルフリーDNAの分解速度を予測することができる。
【0048】
ステップ208では、配列サイズ値のセット(例えば、サイズ分布データ)をフラグメントミクスシグネチャに投影することに基づいて、生体試料の1つ以上のフラグメントミクスシグネチャ振幅を決定することができる。フラグメントミクスシグネチャの振幅は、サイズ分布データ(例えば、PMF)をフラグメントミクスシグネチャの潜在変数のサブセットに投影することによって決定することができる。
【0049】
ステップ210では、フラグメントミクスシグネチャ振幅を機械学習アルゴリズム(例えば、ロジスティック回帰分類モデル)への入力として使用して結果を生成することができる。その結果から、対象が特定の疾患に罹患しているかどうかを予測する分類を予測することができる。特定の疾患には、がんが含まれ得る。いくつかの例では、参照試料を同じ対象から異なる時点で採取した場合、その結果から、特定の疾患の進行または再発を予測することができる。この結果を使用して、対象に対する治療法を特定し、及び/または対象に治療を施す頻度を決定することができる。別の例では、この結果から、対立遺伝子に関連するモノクロマトソーム配列及びジクロマトソーム配列の有意な濃縮を決定するアルゴリズムに基づいて、関心対象の対立遺伝子におけるクロマトソーム結合の存在及びその対立遺伝子のサイレンシングの存在を予測することができる。したがって、対象の全エクソーム配列決定または特定のゲノム領域(例えば)から生成されるセルフリー配列データを活用することにより、ゲノム領域セットの各ゲノム領域を、それぞれが混合物中の異なるDNA配列サイズシグネチャ及び振幅を有する対立遺伝子エピジェネティック状態(例えば、転写または抑制された遺伝子座)の線形混合物としてモデル化することができる。
【0050】
ステップ214では、結果を出力することができる。例えば、結果をローカルに表示したり、別のデバイスに送信したりすることができる。結果は、対象の識別子とともに出力することができる。その後にプロセス200が終了する。
【0051】
II.配列データ
A.対象及び試料
対象の生体試料の核酸分子のサイズに基づいてフラグメントミクスシグネチャを決定するために、対象の生体試料から複数の核酸分子を表す核酸配列データを得ることができる。対象はヒトであり得る。対象は、男性でも女性でもよい。対象は、胎児、乳児、小児、青年、ティーンエイジャー、または成人であってよい。対象は、任意の年齢の患者であってよい。例えば、対象は、約10歳未満の患者であってもよい。例えば、対象は、少なくとも約0、5、10、20、30、40、50、60、70、80、90、または100歳の患者であってもよい。対象は、治療計画を受けているか、または治療計画(例えば、がん治療)の評価を受けている患者または他の個体である。しかしながら、いくつかの例では、対象は、治療計画を受けていない。
【0052】
いくつかの例では、対象は、哺乳類または非哺乳類であり得る。いくつかの例では、対象は、哺乳類、例えば、ヒト、非ヒト霊長類(例えば、類人猿、サル、チンパンジー)、ネコ、イヌ、ウサギ、ヤギ、ウマ、ウシ、ブタ、げっ歯類、マウス、SCIDマウス、ラット、モルモット、またはヒツジである。いくつかの実施形態では、これらの遺伝子の種のバリアントまたは相同遺伝子を非ヒト動物モデルで使用する。種のバリアントは、互いに最大の配列同一性と機能特性の類似性を有する異種遺伝子であってもよい。そのような種のバリアントであるヒト遺伝子の多くは、Swiss-Protデータベースに記載されている場合がある。
【0053】
特定の実施形態は、ヒト対象などの対象から試料を採取することを含み得る。いくつかの例では、患者から臨床検体を採取する。例えば、患者から採血してもよい。特定の実施形態は、生体試料中の分子(例えば、核酸、DNA、RNAなど)を具体的に検出し、プロファイリングし、または定量化することを含み得る。
【0054】
試料は、組織試料または体液であってもよい。いくつかの例では、試料は、組織試料または臓器試料、例えば生検である。いくつかの例では、試料は、がん細胞を含む。いくつかの例では、試料は、がん細胞及び正常細胞を含む。いくつかの例では、試料は、腫瘍生検である。体液は、汗、唾液、涙、尿、血液、月経血、精液、及び/または脊髄液であってもよい。いくつかの例では、試料は、血液試料である。試料は、1つ以上の末梢血リンパ球を含んでいてもよい。試料は、全血試料であってもよい。血液試料は、末梢血試料であってもよい。いくつかの例では、試料は、末梢血単核球(PBMC)を含み、いくつかの例では、試料は、末梢血リンパ球(PBL)を含む。試料は、血清試料であってもよい。試料は、血漿試料であってもよい。
【0055】
試料は、本明細書に記載の分析方法に適した試料を提供することができる任意の方法を使用して取得してよい。試料は、咽頭スワブ、頬粘膜スワブ、気管支洗浄、尿採取、皮膚もしくは子宮頸部の掻爬、頬のスワブ採取、唾液採取、糞便採取、月経血採取、または精液採取などの非侵襲的な方法で採取してもよい。試料は、採血などの低侵襲的な方法で採取してもよい。試料は、静脈穿刺によって採取してもよい。他の例では、試料を、生検、肺胞洗浄もしくは肺洗浄、または針吸引を含むがこれらに限定されない侵襲的手順によって採取する。生検の方法には、外科的生検、切開生検、切除生検、パンチ生検、剃毛生検、または皮膚生検が含まれる。試料は、ホルマリン固定切片であってもよい。針穿刺吸引法には、さらに、細針生検、コア針生検、真空補助下生検、またはラージコア生検が含まれ得る。いくつかの例では、十分な量の生体材料を確保するために、本明細書に記載の方法によって複数の試料を採取してもよい。いくつかの例では、生検によって試料を取得しない。
【0056】
B.配列データの生成
いくつかの実施形態では、試料を処理して核酸配列データを取得する。「核酸」または「核酸分子」は、プリン塩基及びピリミジン塩基、または他の天然の、化学的または生化学的に修飾された、非天然の、または誘導体化されたヌクレオチド塩基を含む、リボヌクレオチド、デオキシリボヌクレオチド、またはペプチド核酸(PNA)のいずれかの、任意の長さのヌクレオチドのポリマー形態に対応する。ポリヌクレオチドのバックボーンには、RNAもしくはDNAに通常認められる糖及びリン酸基、または修飾もしくは置換された糖もしくはリン酸基が含まれる。ポリヌクレオチドは、メチル化ヌクレオチド及びヌクレオチド類似体などの修飾ヌクレオチドを含み得る。ヌクレオチドの配列は、非ヌクレオチド成分により中断され得る。したがって、ヌクレオシド、ヌクレオチド、デオキシヌクレオシド、及びデオキシヌクレオチドという用語には、一般に、本明細書に記載されているような類似体が含まれる。これらの類似体は、天然のヌクレオシドまたはヌクレオチドと共通の構造的特徴を有する分子であり、核酸またはオリゴヌクレオシド配列に組み込まれると、溶液中の天然の核酸配列とハイブリダイズすることができる。通常、これらの類似体は、天然のヌクレオシド及びヌクレオチドから、塩基、リボース、またはホスホジエステル部分を置換及び/または修飾することによって誘導される。これらの変更をカスタマイズして、ハイブリッド形成を安定化したり不安定化したり、または所望により、相補的な核酸配列とのハイブリダイゼーションの特異性を高めることができる。核酸分子はDNA分子であってもよい。核酸分子はRNA分子であってもよい。
【0057】
試料の処理には、核酸試料の処理とその後の核酸試料の配列決定が含まれる。生体試料の一部または全部を配列決定して核酸配列データを提供してもよく、これを電子的、磁気的、または光学的な記憶域に保存または維持してもよい。配列情報をコンピュータプロセッサの支援の下に解析してもよく、解析した配列情報を電子記憶域に保存してもよい。電子記憶域は、核酸試料から生成された配列情報及び解析した配列情報のプールまたはコレクションを含み得る。いくつかの実施形態では、生体試料を、がんに罹患しているか、またはその疑いのある対象から採取する。
【0058】
いくつかの実施形態では、純粋な腫瘍試料及び純粋な正常試料から核酸配列データを生成する。対応対の細胞株は、別の供給源(例えば、American Type Culture Collection)から入手することができる。各対応対には、同じ対象由来の腫瘍細胞株及び正常細胞株が含まれ得る。細胞株をin vitroで培養し、増殖させて、DNA抽出に適した数の細胞を得ることができる。DNAを抽出し、処理し、全エクソームまたは全ゲノムの配列決定に供する。配列リードを、品質管理処理(例えば、FastQCによる)に供して、FASTQファイルを提供することができる。
【0059】
いくつかの例では、全ゲノム配列決定を使用して、核酸配列データを生成する。いくつかの例では、全ゲノム配列決定を使用して、ヒトにおけるバリアントを同定する。全ゲノム配列決定には、ゲノム全体またはほぼ全体にわたるシャローシーケンシング(1~5倍のカバレッジ)またはディープシーケンシング(30~100倍のカバレッジ)が含まれる。いくつかの例では、配列決定にはゲノムの一部に対する配列決定が含まれる。例えば、ゲノムの一部は、少なくとも約50、75、100、125、150、175、200、225、250、275、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1,000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、またはそれ以上の塩基または塩基対であり得る。いくつかの例では、ゲノムを、100万、200万、300万、400万、500万、600万、700万、800万、900万、1000万、または1000万超の塩基または塩基対にわたって配列決定してもよい。いくつかの例では、ゲノムを、エクソーム全体にわたって配列決定してもよい(例えば、全エクソーム配列決定)。いくつかの例では、ディープシーケンシングには、ゲノムの一部にわたって複数のリードを取得することが含まれ得る。例えば、複数のリード取得には、ゲノムの一部にわたって少なくとも2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、10,000リード、または10,000超のリードが含まれ得る。
【0060】
さらに、または代わりに、核酸配列データは、パネルベースの配列決定を使用して生成され得る。パネルベースの配列決定を使用して、疑われる障害、疾患、または表現型の複数の潜在的な遺伝的原因を同時に評価することができる。遺伝子パネルを使用して、標的ゲノム領域(その配列に核酸分子をアラインさせる)を識別することができる。いくつかの例では、標的ゲノム領域の数には、少なくとも50、100、200、500、1000、1500、2000のゲノム領域が含まれる。パネルベースの配列決定では、標的ゲノム領域の数ではなく、標的ゲノム領域のフットプリントを画定することができる。例えば、フットプリントは、175Kb~3Gbの範囲であり得る。他の実施形態では、パネルベースの配列決定は、がんドライバー遺伝子または腫瘍回避遺伝子のバリアントに関連するゲノム領域など、生物学的に重要なことが知られている多数のゲノム領域を標的とすることができる。
【0061】
いくつかの例では、核酸配列データの生成には、ディープシーケンシングによって低い対立遺伝子分率を検出することが含まれる。いくつかの例では、ディープシーケンシングを、次世代シーケンシングによって実行する。いくつかの例では、エラープローンな領域を避けてディープシーケンシングを実行する。いくつかの例では、エラープローンな領域には、配列重複に近い領域、GC率が異常に高いまたは低い領域、ホモポリマー、ジヌクレオチド、及びトリヌクレオチドに近い領域、及び他の短い繰り返しに近い領域が含まれ得る。いくつかの例では、エラープローンな領域に、DNA配列エラー(例えば、ホモポリマー配列におけるポリメラーゼスリッページ)をもたらす領域が含まれ得る。
【0062】
いくつかの例では、核酸配列データを生成することは、試料中の1つ以上の核酸分子に対して1つ以上の配列決定反応を実行することを含む。特定の実施形態は、試料中の1つ以上の核酸分子に対して、1以上、2以上、3以上、4以上、5以上、6以上、7以上、8以上、9以上、10以上、15以上、20以上、30以上、40以上、50以上、60以上、70以上、80以上、90以上、100以上、200以上、300以上、400以上、500以上、600以上、700以上、800以上、900以上、または1000以上の配列決定反応を実行することを含み得る。配列決定反応は、同時に、順次に、またはそれらの組み合わせで実行してもよい。配列決定反応には、全ゲノム配列決定、エクソーム配列決定、またはより小さなパネルを標的とした配列決定が含まれ得る。配列決定反応には、Maxim-Gilbert法、チェインターミネーション法、またはハイスループットシステムが含まれ得る。代わりに、またはさらに、配列決定反応には、Helioscope(商標)単一分子シーケンシング、Nanopore DNAシーケンシング、Lynx TherapeuticsのMassively Parallel Signatureシーケンシング(MPSS)、454パイロシーケンシング、単一分子リアルタイム(RNAP)シーケンシング、Illumina(Solexa)シーケンシング、SOLiDシーケンシング、Ion Torrent(商標)、イオン半導体シーケンシング、単一分子SMRT(商標)シーケンシング、Polonyシーケンシング、DNAナノボールシーケンシング、VisiGen Biotechnologiesアプローチ、またはそれらの組み合わせが含まれ得る。代わりに、またはさらに、配列決定反応には、Illumina社が提供するGenome Analyzer IIx、HiSeq、MiSeq、及びNovaSeq、Pacific Biosciences(California)社が提供するPacBio RSシステムなどの単一分子リアルタイム(SMRT(商標))技術、及びHelicos Inc.(Cambridge,MA)が提供するHeliScope(商標)シーケンサーなどのSolexa Sequencer、True Single Molecule Sequencing(tSMS(商標))技術を含むがこれらに限定されない、1つ以上の配列決定プラットフォームが含まれ得る。配列決定反応には、電子顕微鏡検査または化学感受性電界効果トランジスタ(chemFET)アレイも含まれ得る。本開示のいくつかの態様では、配列決定反応には、キャピラリーシーケンシング、次世代シーケンシング、サンガーシーケンシング、合成によるシーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、単一分子シーケンシング、またはそれらの組み合わせが含まれる。合成によるシーケンシングには、可逆的ターミネーターシーケンシング、プロセッシブ単一分子シーケンシング、シーケンシャルフローシーケンシング、またはそれらの組み合わせが含まれる。シーケンシャルフローシーケンシングには、パイロシーケンシング、pH媒介シーケンシング、半導体シーケンス、またはそれらの組み合わせが含まれる。
【0063】
いくつかの例では、核酸配列データを生成することは、少なくとも1つのロングリード配列決定反応と少なくとも1つのショートリード配列決定反応を実行することを含む。ロングリード配列決定反応及び/またはショートリード配列決定反応を、核酸分子のサブセットの少なくとも一部に対して実行してもよい。ロングリード配列決定反応及び/またはショートリード配列決定反応を、核酸分子の2つ以上のサブセットの少なくとも一部に対して実行してもよい。ロングリード配列決定反応及びショートリード配列決定反応の両方を、核酸分子の1つ以上のサブセットの少なくとも一部に対して実行してもよい。
【0064】
1つ以上の核酸分子またはそのサブセットの配列決定には、少なくとも約5、10、15、20、25、30、35、40、45、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、4,500、5,000、5,500、6,000、6,500、7,000、7,500、8,000、8,500、9,000、9,500、10,000、25,000、50,000、75,000、100,000、250,000、500,000、750,000、10,000,000、25,000,000、50,000,000、100,000,000、250,000,000、500,000,000、750,000,000、1,000,000,000、またはそれ以上の配列決定リードが含まれ得る。
【0065】
配列決定反応には、1つ以上の核酸分子の少なくとも約50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、325、350、375、400、425、450、475、500、600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、4,500、5,000、5,500、6,000、6,500、7,000、7,500、8,000、8,500、9,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、またはそれ以上の塩基または塩基対の配列決定が含まれ得る。配列決定反応には、1つ以上の核酸分子の少なくとも約50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、325、350、375、400、425、450、475、500、600、700、800、900、1,000、1,500、2,000、2,500、3,000、3,500、4,000、4,500、5,000、5,500、6,000、6500、7,000、7,500、8,000、8,500、9,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、またはそれ以上の連続する塩基または塩基対の配列決定が含まれ得る。
【0066】
いくつかの例では、配列決定技術は、1回の実行につき少なくとも100個のリード、1回の実行につき少なくとも200個のリード、1回の実行につき少なくとも300個のリード、1回の実行につき少なくとも400個のリード、1回の実行につき少なくとも500個のリード、1回の実行につき少なくとも600個のリード、1回の実行につき少なくとも700個のリード、1回の実行につき少なくとも800個のリード、1回の実行につき少なくとも900個のリード、1回の実行につき少なくとも1,000個のリード、1回の実行につき少なくとも5,000個のリード、1回の実行につき少なくとも10,000個のリード、1回の実行につき少なくとも50,000個のリード、1回の実行につき少なくとも100,000個のリード、1回の実行につき少なくとも500,000個のリード、または1回の実行につき少なくとも1,000,000個のリードを生成する。あるいは、配列決定技術は、1回の実行につき少なくとも1,500,000個のリード、1回の実行につき少なくとも2,000,000個のリード、1回の実行につき少なくとも2,500,000個のリード、1回の実行につき少なくとも3,000,000個のリード、1回の実行につき少なくとも3,500,000個のリード、1回の実行につき少なくとも4,000,000個のリード、1回の実行につき少なくとも4,500,000個のリード、または1回の実行につき少なくとも5,000,000個のリードを生成する。
【0067】
いくつかの例では、配列決定技術は、少なくとも約30塩基対、少なくとも約40塩基対、少なくとも約50塩基対、少なくとも約60塩基対、少なくとも約70塩基対、少なくとも約80塩基対、少なくとも約90塩基対、少なくとも約100塩基対、少なくとも約110、少なくとも約120塩基対/リード、少なくとも約150塩基対、少なくとも約200塩基対、少なくとも約250塩基対、少なくとも約300塩基対、少なくとも約350塩基対、少なくとも約400塩基対、少なくとも約450塩基対、少なくとも約500塩基対、少なくとも約550塩基対、少なくとも約600塩基対、少なくとも約700塩基対、少なくとも約800塩基対、少なくとも約900塩基対、または少なくとも約1,000塩基対/リードを生成する。さらに、または代わりに、配列決定技術は、長い配列決定リードを生成することができる。いくつかの例では、配列決定技術は、少なくとも約1,200塩基対/リード、少なくとも約1,500塩基対/リード、少なくとも約1,800塩基対/リード、少なくとも約2,000塩基対/リード、少なくとも約2,500塩基対/リード、少なくとも約3,000塩基対/リード、少なくとも約3,500塩基対/リード、少なくとも約4,000塩基対/リード、少なくとも約4,500塩基対/リード、少なくとも約5,000塩基対/リード、少なくとも約6,000塩基対/リード、少なくとも約7,000塩基対/リード、少なくとも約8,000塩基対/リード、少なくとも約9,000塩基対/リード、少なくとも約10,000塩基対/リード、少なくとも約20,000塩基対/リード、少なくとも約30,000塩基対/リード、少なくとも約40,000塩基対/リード、少なくとも約50,000塩基対/リード、少なくとも約60,000塩基対/リード、少なくとも約70,000塩基対/リード、少なくとも約80,000塩基対/リード、少なくとも約90,000塩基対/リード、または少なくとも約100,000塩基対/リードを生成することができる。
【0068】
ハイスループットシーケンシングシステムは、配列決定されたヌクレオチドを、成長中の鎖に組み込まれた直後に、または組み込まれた時点で検出すること、すなわち、リアルタイムまたは実質的にリアルタイムで配列を検出することを可能にし得る。いくつかの例では、ハイスループットシーケンシングは、1時間あたり少なくとも1,000、少なくとも5,000、少なくとも10,000、少なくとも20,000、少なくとも30,000、少なくとも40,000、少なくとも50,000、少なくとも100,000、または少なくとも500,000の配列リードを生成し、各リードは、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも120、少なくとも150、少なくとも200、少なくとも250、少なくとも300、少なくとも350、少なくとも400、少なくとも450、または少なくとも500塩基/リードである。配列決定は、本明細書に記載の核酸、例えば、ゲノムDNA、mtDNA、RNA転写産物由来のcDNA、またはRNAをテンプレートとして使用して実施することができる。
【0069】
III.潜在変数を決定するための入力データ
フラグメントミクスシグネチャを、1つ以上の潜在変数を含むように定義することができる。各潜在変数は、ゲノム領域のセット全体にわたって可変的に濃縮された配列の推定サイズ及び/または末端モチーフ分布を識別することができる。潜在変数は、配列サイズ及び/または末端モチーフデータについて新規の独立した基底ベクトルを表すことができ、次いでそれを使用して対象のフラグメントミクスシグネチャの濃縮度を決定する。
【0070】
A.配列サイズ値
図3は、いくつかの実施形態による、配列サイズ値を生成するための例示的な技術を示す概略図300を示す。概略図300は、参照配列310にアラインさせた配列データ305を示す。いくつかの例では、参照配列310は、ヒト参照ゲノム(例えば、hg19ゲノム)である。参照配列310は、ゲノム領域315を含むゲノム領域のセットに分割され得る。図3に示す例では、配列データ305の配列セットをゲノム領域315にアラインすることができる。ゲノム領域315について、配列セットのサイズ分布を識別することができる。
【0071】
配列データ305に基づいて、複数の配列サイズ値のセット320を生成することができる。配列サイズ値の各セットは、各ゲノム領域について、対応する配列セットのサイズに対応する配列サイズ値を含み得る。配列サイズ値のセットは、四角形内の整数のセットに対応し得る。いくつかの例では、ゲノム全体にわたる配列サイズ値のセットを使用する。配列サイズ値のセットは、ゲノム領域のセット(例えば、体細胞バリアントががんと関連していることが知られているゲノム領域)にアラインメントさせた配列から決定することができる。
【0072】
いくつかの例では、対応する配列サイズ値によって表される各配列には、50bp~550bpの範囲のサイズを有するDNA断片が含まれる。50~550bpの範囲外の配列サイズ値(例えば、SAM/BAMファイル内のテンプレート断片長の値)は、解析に使用しなかった。
【0073】
配列サイズ値のセットに加えて、またはその代わりに、配列サイズ値の各セットを使用してPMF325を生成することができる。PMFとは、離散ランダム変数(例えば、配列サイズ値)が特定の範囲内で何らかの値(例えば、167bp)に等しい確率を与える関数を指し得る。
【0074】
いくつかの実施形態では、PMF325を、配列サイズ値の各セットに対して生成し、セットの各配列サイズ値を、1bpの解像度でビニングし、その後、合計リードペア数によって正規化した。このPMFのセットを、特定の疾患を予測する1つ以上の成分を識別するBSSアルゴリズムの入力データ(例えば、N×501次元を含むマトリックス)として使用した。
【0075】
B.末端モチーフ
末端モチーフは、DNA断片のヌクレオチドの末端配列、例えば断片のいずれかの末端のK塩基の配列として識別され得る。末端配列は、1、2、3、4、5、6、7などの様々な数の塩基を有するk量体であり得る。いくつかの例では、末端モチーフは、配列リードを参照ゲノムにアラインし、開始位置の直前または終了位置の直後のヌクレオチド塩基を識別することによって決定される。そのような塩基は、例えば、それらが断片の末端配列に基づいて識別されるため、DNA断片の末端に対応する。
【0076】
末端モチーフは、様々な技術を使用してアラインした配列リードから識別され得る。いくつかの例では、k量体末端モチーフは、血漿DNA分子の両端にある最初のk-bpの配列から直接構築される。例えば、配列決定した断片の最初の4ヌクレオチドまたは最後の4ヌクレオチドを使用することができる。別の例では、断片の配列決定した末端からの(k-2)量体の配列と、その断片の末端に隣接するゲノム領域からの他の(k-2)量体の配列を利用して、k量体の末端モチーフを共同で構築する。様々な長さの末端モチーフ、例えば、1量体、2量体、3量体、5量体、6量体、7量体の末端モチーフを使用することができる。配列リードを、末端モチーフにアラインし、それによって末端モチーフ配列データのセットを生成することができる。末端モチーフ配列データのセットを1つ以上のシグナル分離アルゴリズムに適用して、対応する潜在変数のセットを生成することができる。
【0077】
セルフリーDNA末端シグネチャに含まれるヌクレオチドの数が多いほど、モチーフの特異性は高くなる。例えば、ゲノム内で6つの塩基が正確な配置で配列されている確率は、ゲノム内で2つの塩基が正確な配置で配列されている確率よりも低くなる。したがって、末端モチーフの長さの選択は、意図する使用用途に必要な感度及び/または特異性に左右され得る。
【0078】
IV.信号分離アルゴリズムを用いたフラグメントミクスシグネチャの潜在変数の決定
フラグメントミクスシグネチャの潜在変数を決定するために、1つ以上の信号分離アルゴリズムを、複数の配列サイズ値セット及び/または末端モチーフ配列データに適用することができる。いくつかの例では、潜在変数セットの各潜在変数には、生体試料の配列データの割合の基礎となるサイズ分布を表すヒストグラムまたは重みベクトルが含まれる。1つ以上の信号分離アルゴリズムは、ブラインド信号源分離アルゴリズムであり得、これは、独立成分分析アルゴリズム及び/または非負値行列因子分解アルゴリズムを使用することができる。
【0079】
A.信号分離アルゴリズム
信号分離アルゴリズムは、観測した信号のセットからソース信号のセットを推定するように構成及び使用することができ、観測される各信号は、ソース信号の混合物である。図4は、線形加算された画像ソース信号から作成される画像混合のセットに適用される信号分離アルゴリズムを示す例示的な図400を示す。図4では、入力画像405を、画像信号410のセットの混合に基づいて生成した。各画像信号Sを、ランダム係数kによってスケーリングして、画像混合コンペンディウム内のソース画像振幅の多様性を生成することができる。少なくとも1つの画像信号は、画像混合ごとにユニークなランダムノイズ信号を含み得る。図4では、4つの画像信号セット410の混合物に基づいて構築された2000個の入力画像405は、次式で表され得る。
【数1】
【0080】
入力画像405を、1つ以上の信号分離アルゴリズムを使用して処理して、画像信号セット410によって表される画像を視覚的に近似する画像セット415を出力することができる。信号分離アルゴリズムは、ブラインド信号源分離アルゴリズムであり得る。ブラインド信号源分離アルゴリズムは、ソース信号を直接観察せずに、測定可能な基本量への影響を観測することによってソース信号を推定できることから、「ブラインド」と呼ばれる。
【0081】
ブラインド信号源分離アルゴリズムは、特異値分解(SVD)アルゴリズム420またはICAアルゴリズム430(例えば、fastICA、InfoMax)によって達成される主成分分析(PCA)を含み得る。SVDアルゴリズム420及びICAアルゴリズム430の両方をデータセットでトレーニングすることができ、その出力を新規データセットに適用することができる。本明細書で使用される場合、SVDアルゴリズム420とは、より大きなデータセットから主成分として知られる相関のない少数の変数を識別する技術を指し得る。この技術は、データセット(例えば、入力画像405に対応するピクセルのセット)内の変化を強調し、強いパターンを捕捉するために広く使用されている。図4では、SVDアルゴリズム420を2,000個の画像混合405のセット全体に適用することによって生成した出力として、例示的な非混合画像のセット425が示されている。いくつかの例では、入力画像405を、SVDアルゴリズム420を適用する前に前処理する。
【0082】
ICAアルゴリズム430は、非ガウス性の最大値を見つけるための固定小数点反復スキームを含み得、その場合、このICAアルゴリズムを、最大の非ガウス値に達するまで反復的に実行することができる。いくつかの例では、入力画像405を、ゼロ重心化及び単位分散へのスケーリングを含むICAアルゴリズム430を適用する前に前処理する。図4に示すように、例示的な非混合画像セット435及び440は、異なる量の入力画像405にICAアルゴリズム430を適用することによって生成される出力として示され得る。第1の非混合画像セット435の視覚特性は、画像信号セット410の視覚特性と一致していないように見えるが、これは、ソース画像振幅の多様性が比較的低い、少数(10)の画像混合物(I-I10)を使用したことによるものと考えられる。対照的に、第2の画像セット440の視覚特性は、それぞれの画像信号セットの視覚特性と一致しているように見えるが、これは、ソース画像の振幅多様性が豊富な多数(2000)の画像混合物(I-I2000)を使用したことによるものと考えられる。さらに、図4には示されていないが、ブラインド信号源分離アルゴリズムは、NMFアルゴリズムを含み得る。
【0083】
B.フラグメントミクスシグネチャの潜在変数を決定するための例示的スキーム
図5は、いくつかの実施形態による、潜在変数のセットを生成するための例示的な技術を示す概略図500を示す。図5に示すように、配列サイズ値505の複数のセットの各セットを、BSSアルゴリズム510の入力として使用することができる。BSSアルゴリズム510は、ICAアルゴリズム515またはNMFアルゴリズム520を含み得る。BSSアルゴリズムの種類に応じて、配列サイズ値505の複数のセットの追加のフォーマットを実行することができる。例えば、NMFアルゴリズム520は、配列サイズ値のセットに対応する生のPMFを使用することができる。別の例では、ICAアルゴリズム515は、最初に平均重心化されてから単位分散にスケーリングされたPMFを使用することができる。いくつかの例では、BSSアルゴリズム510を、確率的初期状態が収束する(例えば、解に到達するか、最小化または最大化基準が満たされるか、ICAの非ガウス性が最大化される)まで、複数回実施される。BSSアルゴリズムを繰り返し実行して、複数回の実行にわたる再現性から適切に推定された潜在変数を確実に取得できるようにした。
【0084】
図5の例示的技術は、配列サイズ値のセットから潜在変数のセットを生成することを説明しているものの、BSSアルゴリズム510を末端モチーフ配列データのセットに適用して、別の潜在変数のセットを生成することもできる。この場合、潜在変数の他のセットは、配列データの末端モチーフ分布を識別する。例えば、末端モチーフ分布は、ヌクレオチドの各k量体の末端モチーフ(例えば、CCCA、TAAA)について、k量体の末端モチーフに対応する末端配列を有するDNA断片の数または相対出現頻度を含み得る。配列データの末端モチーフ分布を、独立した重みベクトルのセットに分離することにより、フラグメントミクスシグネチャを決定することができる。
【0085】
さらに、または代わりに、BSSアルゴリズム510を適用して潜在変数のセットを生成することもでき、これにより、各潜在変数は、それぞれの末端モチーフに対応する末端配列を有する配列リードの推定サイズ分布を識別することができる。
【0086】
ICAアルゴリズム515への入力はデータマトリックスXであり、出力には、(i)潜在変数のセットに対応するヒストグラムまたは符号付き重みベクトルデータを含むSマトリックス、及び(ii)ゲノム領域のセット全体にわたる潜在変数の推定振幅を含むA線形混合マトリックスが含まれる。同様に、NMFアルゴリズム520への入力はデータマトリックスYであり、出力には、(i)潜在変数のセットに対応する非負ヒストグラムデータを含むWマトリックス、及び(ii)ゲノム領域のセット全体にわたる潜在変数の推定振幅を含むHマトリックスが含まれる。これらのデータマトリックスを使用して、ヒストグラムまたは重みベクトルのセットを生成することができ、これは対応するフラグメントミクスシグネチャの潜在変数525として表すことができる。
【0087】
図5に示す例を続けると、潜在変数525は、BSSアルゴリズム510を複数の配列サイズ値セット505に適用することによって生成される重みベクトルまたはヒストグラムに対応する。潜在変数525のそれぞれで識別されるピーク及び振幅は、生体試料の核酸分子のサイズ、及び/または配列データ内の配列の配列断片化パターンを明らかにすることができる。潜在変数525は、対象のフラグメントミクスシグネチャを表し得る。
【0088】
V.がん関連遺伝子変異を検出するためのフラグメントミクスシグネチャの潜在変数の使用
多くのがんは、乳癌におけるBRCA及びHER2変異などの再発性遺伝子変異によって引き起こされる。したがって、これらのがん関連遺伝子変異を正確に検出することが、がん患者に対する標的治療の鍵となる。しかしながら、NGS実験の様々なステップで、PCRエラーまたは配列決定エラーなどのノイズが発生し得る。これらのノイズは、実際の変異の対立遺伝子頻度が低いcfDNA試料では特に問題である。以前の研究により、がん組織由来のcfDNA分子は、健常な組織由来のcfDNA分子と比較して、異なる断片サイズ分布を有することが示されている。変異を裏付けるリードのフラグメントミクスシグネチャを調べることにより、観察された変異ががん関連かノイズ関連かを確認することができる。
【0089】
A.cfDNA全エクソーム配列決定(WES)試料のセットからフラグメントミクスシグネチャを生成する
図6は、いくつかの実施形態による、参照シグネチャの潜在変数のセットを生成するために独立成分分析アルゴリズムを使用する例示的な技術を示す概略図600を示す。図6に示すように、cfDNA試料(n=10)のセット605を収集することができる。cfDNA試料のセット605は、接頭辞「CRC」で識別される4つの結腸直腸癌cfDNA試料、及び接頭辞「PON」で識別される6つの健常なドナー試料を含み得る。全エクソームシーケンシング(WES)を使用して生体試料のセット605を配列決定して、配列データを生成し、そこから配列サイズ値のセットを生成することができる。
【0090】
配列データを309の均一な間隔に分割し、各領域の断片サイズ分布を生成することができる。次いで、ICAアルゴリズムを各試料610の309×541(60~600bp)マトリックスに適用して、潜在変数のセットに対応するSマトリックスを生成する。そのようなセットから最も関連性の高い潜在変数を選択するために、クラスタリングアルゴリズム615(例えば、k平均クラスタリングアルゴリズム)をすべての試料の潜在変数のセットに適用することができ、そのセットの潜在変数をそれらの類似性に基づいてクラスタリングすることができる。各クラスターについて、潜在変数の重心を生成することができる。各対象について、がんの変異を検出するために、クラスターの重心に最も類似する潜在変数を使用することができる。例えば、クラスター重心に類似した潜在変数620を、健常なcfDNA試料から選択することができる。別の例では、クラスター重心に類似した潜在変数625を、結腸直腸癌に関連するcfDNA試料から選択することができる。
【0091】
B.健常なドナーとがん患者との潜在変数の比較
図6に戻ると、正常な生体試料の核酸分子の潜在変数620を、腫瘍DNA(例えば、TP53腫瘍バリアント)を含む生体試料の核酸分子の潜在変数625と比較する。潜在変数620と潜在変数625の差異を使用して、がん関連遺伝子の変異を予測することができる。
【0092】
図6の例を続けると、比較は、潜在変数セット620のそれぞれに示されるピークの配列サイズ値と、潜在変数セット625の対応する潜在変数に示されるピークの配列サイズ値とを比較することを含み得る。一例では、潜在変数セット625(結腸直腸癌試料)に示されるピークの配列サイズ値は、潜在変数セット620(健常な試料)に示される値よりもおよそ10~30塩基対小さい。したがって、比較的短いDNA分子の豊富さから、対象ががんに罹患しているかどうかを予測することができる。いくつかの例では、がん試料の潜在変数のピークの配列サイズ値と、健常な試料の対応する潜在変数のピークの配列サイズ値との差異を計算して、疾患の特定の段階を予測する。例えば、差異が比較的小さい値(例えば、10bp未満)を示している場合、がんが早期段階にあると予測することができる。対照的に、差異が比較的大きな値(例えば、30bp超)を示している場合、がんが進行期段階にあると予測することができる。
【0093】
さらに、または代わりに、比較は、各潜在変数について、所定のサイズ範囲内の配列サイズ値の密度を決定することを含み得る。対象が特定の疾患に罹患しているかどうかを予測するために、配列サイズ値の密度を所定の閾値と比較することができる。例えば、200~300bpのサイズ範囲内の潜在変数の配列サイズ値の密度を計算し、その密度を閾値(例えば2)と比較して、対象ががんに罹患しているかどうかを予測することができる。
【0094】
さらに、または代わりに、潜在変数の比較は、潜在変数セット620の各潜在変数の振幅値と、潜在変数セット625の対応する潜在変数の振幅値を比較することを含み得る。いくつかの例では、振幅値の各ペア間の差異を閾値と比較する。
【0095】
C.個々の試料のフラグメントミクスシグネチャの例
図7~10は、いくつかの実施形態による、個々の試料のフラグメントミクスシグネチャの例示的なセットを示す。各図では、試料全体及びBSSアルゴリズムの複数回の実行にわたって繰り返し識別される潜在変数を強調表示する。図7は、正常な対象の生体試料に対応する配列サイズ値に信号分離アルゴリズムを適用することによって生成される潜在変数のセット700を示す。潜在変数のサブセット705を、潜在変数のセット700から選択することができ、その場合、潜在変数のサブセット705は、対応する生体試料のフラグメントミクスシグネチャを代表する配列のサイズ分布を識別する。いくつかの例では、潜在変数に特定の閾値よりも大きいピーク幅値を有するピークが含まれているかどうかに基づいて、サブセット705の潜在変数を選択する。さらに、または代わりに、潜在変数にクラスタリングアルゴリズムを適用してクラスターのセットを生成し、そのセットの特定のクラスターの重心に対応する潜在変数を選択することによって、サブセット705の潜在変数を選択することができる。
【0096】
図8は、別の正常な対象の生体試料に対応する配列サイズ値に信号分離アルゴリズムを適用することによって生成される潜在変数のセット800を示す。潜在変数のサブセット805を、潜在変数のセット800から選択することができ、その場合、潜在変数のサブセット805は、対応する生体試料のフラグメントミクスシグネチャを代表する配列のサイズ分布を識別する。図8に示すように、潜在変数のサブセット805には、図7のフラグメントミクスシグネチャ705の潜在変数と類似点を共有する潜在変数のサブセットが含まれる。
【0097】
図9は、結腸直腸癌と診断された対象の生体試料に対応する配列サイズ値に信号分離アルゴリズムを適用することによって生成される潜在変数のセット900を示す。潜在変数のサブセット905を、潜在変数のセット900から選択することができ、その場合、潜在変数のサブセット905は、対応する生体試料のフラグメントミクスシグネチャを代表する配列のサイズ分布を識別する。図10は、結腸直腸癌と診断された別の対象の生体試料に対応する配列サイズ値に信号分離アルゴリズムを適用することによって生成される潜在変数のセット1000を示す。潜在変数のサブセット1005を、潜在変数のセット1000から選択することができ、その場合、潜在変数のサブセット1005は、対応する生体試料のフラグメントミクスシグネチャを代表する配列のサイズ分布を識別する。
【0098】
D.潜在変数に影響を与える生体プロセス
いくつかの例では、潜在変数の形状を使用して、セルフリーDNA配列サイズデータにおけるタンパク質分子セット(例えば、モノヌクレオソーム、ジヌクレオソーム、モノクロマトソーム、ジクロマトソーム、及び転写因子複合体)の濃縮度を予測し、潜在変数をクロマチンエピジェネティック状態を左右する独立して制御される分子を表す統計オブジェクトとして利用することに基づいて、in vivoでの対応する細胞遺伝子座における前記分子セットの結合を予測することができる。いくつかの例では、潜在変数を使用して、断片長パターンに基づいて、潜在的な新規核酸及びタンパク質のエンティティと、それに対応する構造も予測する。
【0099】
例えば、配列データ中の染色体と関連することが知られている潜在変数の濃縮度を使用して、対応する細胞遺伝子座におけるクロマトソームの結合及びサイレンシングされたヘテロクロマチン状態の濃縮度を予測することができる。別の例では、配列データ内のがんに関連する潜在変数の濃縮度を使用して、特定の対立遺伝子ががん細胞に由来するかどうかを予測することができる。さらに別の例では、配列データ内の遺伝子発現に関連する潜在変数の濃縮度を使用して、配列データに寄与する特定の対立遺伝子が発現しているかどうかを予測することができる。さらに、または代わりに、分子セット内のより短いサイズのタイプとより長いサイズのタイプの相対的なセルフリーDNAの存在量を、二峰性の潜在変数密度ピークを比較し、潜在変数空間における変化率からセルフリーDNAの分解速度を推量することによって予測することができる。
【0100】
図11は、いくつかの実施形態による、配列サイズデータにおけるタンパク質分子セットの濃縮度を予測するための技術を示す概略図1100を示す。
【0101】
潜在変数セット1105は、潜在変数1110a~eを含み得、各潜在変数は、生体試料中の核酸分子の推定サイズ分布を提供する。各潜在変数について、ピークのセットを識別することができる。ピークセットの各ピークを使用して、特定のタンパク質の結合を予測することができる。例えば、潜在変数1110aは、およそ150bpの配列サイズでピーク1115aを有する単峰型サイズ分布として表され得る。そのようなサイズ分布のピークから、ゲノム位置に関連付けられた配列サイズデータが豊富にある場合、ヌクレオソーム結合の位置を予測することができる。ピーク1115aに加えて、ピーク幅がおよそ10bpのピークの周期的なパターンから、おそらくヌクレオソームに結合したDNAらせんピッチに関連する個別の断片の進行性消化と相関する追加のDNA分解シグナルの影響を考慮することにより、ヌクレオソーム結合を予測することができる。これらのピークは、アポトーシスまたは壊死性細胞死中の核酸分子の挙動と、その結果として循環系への放出及び循環系を通過することと相関していると考えられる。例えば、通常はヒストンまたは転写因子に関連する、タンパク質結合DNA分子が損傷(例えば、消化)を選択的に生き残り、血液循環に放出される一方で、未結合のDNA分子は失われる。
【0102】
図11の例を続けると、いくつかの潜在変数は、特定のタンパク質の結合を予測することができる。例えば、潜在変数1110eには、多峰性分布として一緒に表されるピーク1120a~bが含まれており、ピーク1120a~bのそれぞれを使用して、転写された遺伝子座に関連付けられた配列サイズデータに富んでいる場合に、転写因子及び転写因子-ジヌクレオソーム複合体の結合を予測することができる。さらに、潜在変数1110eには、より大きなピーク幅値を有する第3のピーク1120cが含まれる。そのようなピークを使用して、転写因子とモノヌクレオソームの結合を予測することができる。各ピーク1220a~bの幅に加えて、CTCFをフィンガープリントすると思われるおよそ10bpの重ね合わせた周期パターン(例えば、ATAC-seqデータに認められるような)から、転写された遺伝子座のエピジェネティック状態を制御するDNA結合タンパク質の細胞間異質性を予測することができる。
【0103】
図11に記載の技術を、異なる潜在変数セット1125に適用することができる。予測されるタンパク質結合を使用して、ゲノム全体のヌクレオソームフットプリントパターンを画定することができ、次いでそれを使用して対象ががんに罹患しているかどうかを予測することができる。
【0104】
E.がん関連遺伝子変異を判定するためのがん由来の潜在変数の使用
フラグメントミクスシグネチャの潜在変数は、生体試料の核酸分子ががん関連の変異を保有するかどうかを予測するための特徴量として使用することができる。例えば、TP53遺伝子は、細胞分裂を制御する腫瘍抑制タンパク質をコードする。これは、ヒトのがんにおいて最も頻繁に変異する遺伝子の1つである。CRC10063 cfDNA試料において、TP53_chr17_7578265_A>C変異が同定された。同じ変異は、ペアの腫瘍試料でも見出され、対応する隣接する健常な組織または白血球の正常試料では見出されなかったが、これは、cfDNAからの変異をサポートするリードが腫瘍細胞起源であることを示している。これらのTP53変異をサポートするリードの配列サイズ分布を、固定潜在変数に投影することができ、配列サイズデータ内の各潜在変数の振幅または濃縮度を表す1×5ベクトルが生成される。陰性対照として、高品質の野生型対立遺伝子をサポートするリードを使用して同じICA投影を実行した。これら2つのベクトルは、断片のサイズの差異を定量化する方法を提供することができる。
【0105】
図12は、いくつかの実施形態による、生の配列サイズ分布を潜在変数に投影し、その断片サイズ分布を振幅のセットに変換し、その振幅を使用してがん関連遺伝子変異を検出することにより、生の配列サイズ分布を前処理するプロセスを示す概略図1200を示す。初期ステップとして、BSSをがん参照試料から取得した配列データに適用することができ、様々な参照試料にわたって繰り返し識別される潜在変数を選択する。ステップ1205では、cfDNA試料で候補変異を判定した後、変異(ALT対立遺伝子)をサポートするリードと野生型対立遺伝子(REF対立遺伝子)をサポートするリードを分離することができる。ステップ1210では、ALT対立遺伝子及びREF対立遺伝子の配列サイズ分布をそれぞれのPMFに変換し、固定潜在変数に投影することができる。結果として得られる潜在変数の振幅を使用して、変異判定の品質を測定することができる。例えば、腫瘍組織由来の変異をサポートするリードに対応する潜在変数の振幅は、野生型をサポートするリードに対応する潜在変数の振幅とは異なるはずであるが、一方、実験ノイズまたはエラーに由来する変異リードの振幅は、野生型リードの振幅により近いはずである。
【0106】
潜在変数は、血漿試料中の循環腫瘍DNA(ctDNA)の配列サイズ分布に非常に豊富に含まれ得ることが示されている。例えば、潜在変数には、進行期結腸直腸癌患者の配列サイズデータにICAアルゴリズムを適用して生成された重みベクトルが含まれる。前述のTP53変異に関連する血漿cfDNA配列サイズデータは、一致する腫瘍生検試料に由来することが知られており、140~150bpの範囲の狭いピーク、及び200~300bpの範囲のより広いピークを示しており、これは潜在変数「LV5」と非常によく似ている。
【0107】
候補変異判定をフィルタリングするためのモデルを開発するために、高品質の変異を有する78の遺伝子座に対応する配列サイズ分布を選択し、固定潜在変数に投影した(ステップ1210を参照のこと)。同時に、同じ方法を使用して、対応する高品質の野生型リードを投影した。各遺伝子座のLV1及びLV5振幅をプロットした。LV振幅プロット1215は、REF対立遺伝子に対応する結果セットが第1の領域1220にクラスタリングされているのに対し、ALT対立遺伝子に対応する結果セットはそのクラスターからほとんど離れていることを示している。いくつかの例では、1215に示されているプロット結果に基づいて1つ以上のカットオフを決定する。例えば、カットオフ1225はおよそ0.4である。カットオフ1225を超える結果は、腫瘍DNAに特有の体細胞変異を有するものとみなされ得る。一例として、LV振幅プロット1215から識別される結果1230は、既知の腫瘍関連バリアント(TP53遺伝子バリアント)を有する核酸分子のサイズ分布を識別する。
【0108】
VI.フラグメントミクスシグネチャの潜在変数を用いたがんの予測
フラグメントミクスシグネチャによって表される潜在変数は、対象におけるがんの早期発見及び治療後のがんの再発のモニタリングにも使用することができる。がん患者は通常、健常対照の対象と比較してcfDNA断片のサイズ分布及び末端モチーフの出現頻度が異なる。特定の対象のサイズ分布データを、フラグメントミクスシグネチャの潜在変数のセットに投影して、フラグメントミクスシグネチャ振幅を生成することができ、その場合、フラグメントミクスシグネチャ振幅を使用して(例えば、機械学習を介して)、特定の対象が疾患(例えば、がん)に罹患しているかどうかを予測することができる。例えば、フラグメントミクスシグネチャ振幅を健常なドナーのフラグメントミクスシグネチャ振幅と比較して、対象に異常があるかどうかを予測することができる。潜在変数の種類、及び機械学習モデルに使用するトレーニングデータの種類に基づいて、他の種類の予測を検討することができる。特定の病期にある患者の参照試料がトレーニングデータに含まれている場合、潜在変数ベースのモデルを使用して、特定の対象が特定の病期(例えば、ステージIVのがん)にあるかどうかを予測することができる。特定の種類の疾患を有する参照試料がトレーニングデータに含まれている場合、機械学習モデルを使用して、対象が特定の種類の疾患(例えば、結腸直腸癌)に罹患しているかどうかを予測することができる。
【0109】
A.腫瘍情報パネルによって濃縮されたcfDNA試料のセットからの潜在変数の生成
cfDNA解析は、治療後の微小残存病変またはがんの再発を検出するための新たな方法である。しかしながら、血漿中の腫瘍シグナルが低いため、その感度は限定的である。以下の説明では、個別化されたハイブリダイゼーション捕捉によって腫瘍由来DNAを濃縮することができ、腫瘍が濃縮された試料を使用して、対象のがんを検出するための潜在変数を導出することができる例を示す。
【0110】
図13は、いくつかの実施形態による、ハイブリダイゼーション捕捉試料に対して独立成分分析アルゴリズムを使用して潜在変数のセットを生成する例示的な技術を示す概略図を示す。図13では、様々な腫瘍型の正常/腫瘍/血漿試料の3つ組を使用した。正常試料と腫瘍試料を使用して全ゲノム配列決定を実施して、腫瘍内の体細胞変異を検出した。ステップ1305では、高出現頻度の対立遺伝子を有する約1800個の体細胞変異を使用して、各患者について個別化されたハイブリダイゼーション捕捉パネルを設計した。この腫瘍情報パネルを使用して、血漿からの腫瘍シグナルを濃縮することができる。各パネル設計では、1つまたは2つの健常な血漿試料を参照として使用したハイブリダイゼーション捕捉も実施した。
【0111】
潜在変数を生成するために、配列リードを参照ゲノムにマッピングし、すべてのリードを50~550bp以内に維持した。ステップ1310では、各血漿試料について、各標的領域の周囲の断片サイズPMFを生成した。ステップ1315では、断片の配列サイズ分布を識別する1800×501マトリックスを、ICAなどのBSSアルゴリズムへの入力として使用した。この例では、各血漿試料に対してICAを実行し、10個の潜在変数(独立成分)を保持した。
【0112】
119個の健常な血漿試料と101個の患者の血漿試料から潜在変数を収集した後、K平均法を使用して、異なる試料間にわたる類似の潜在変数を特定した(ステップ1320)。異なるパラメータを使用してクラスタリングアルゴリズムを実行し、いくつかのクラスタリング評価方法に従って8クラスターモデルを選択した。結果1325は、各クラスターの重心を示しており、これを下流の解析(例えば、他の対象におけるがんを予測するための解析)の潜在変数として使用する。
【0113】
B.潜在変数振幅を用いたがんの発症または再発の検出
以下の説明は、潜在変数を使用して手術後のがんの再発をモニタリングする例を示す。図14は、いくつかの実施形態による、ハンドクラフト特徴量または潜在変数特徴量を使用してがんの再発をモニタリングするための例示的な技術を示す概略図を示す。ハイブリダイゼーション捕捉パネルの設計を、腫瘍試料の体細胞変異に応じて実行した。ステップ1405では、手術後の様々な時点で血漿試料を収集し、その後、ハイブリダイゼーション捕捉を使用して、標的cfDNAについて腫瘍試料を濃縮した。参照として、健常な血漿試料を使用して、同様にハイブリダイゼーション捕捉を実行した。ステップ1410では、様々な時点でのがんの再発の可能性をモニタリングするために、患者試料と健常な試料の両方から断片サイズ分布を抽出し、8つの固定潜在変数に投影することができる。ステップ1415では、事前にトレーニングされた機械学習モデルを使用して、患者の潜在変数振幅を対照の潜在変数振幅と比較し、異なる時点についてステータスを割り当てることができる。ステップ1420では、潜在変数アプローチを他の手法と比較するために、50~250bp以内のリードの累積確率、160~170bp以内のリードの確率、250~300bpのリードと300~350bpのリードの比率など、13個のハンドクラフト特徴量を使用してベースラインモデルもトレーニングした。
【0114】
機械学習モデルに関しては、ハンドクラフト(ステップ1420)または潜在変数特徴量(ステップ1415)に基づく2つのロジスティック回帰モデルを、43の健常者同士のペアと59の健常者と患者のペアのデータセットを使用してトレーニングした。図15は、疾患の分類にフラグメントミクスシグネチャを使用した場合の精度レベルを示す受信者動作特性(ROC)曲線のセット1500を示す。図15において、グラフ1505及び1510は、2つのモデルのパフォーマンスを識別する受信者動作特性曲線を示している。潜在変数特徴量ベースのモデル(グラフ1510)は、ハンドクラフト特徴量ベースのモデル(グラフ1505)よりもパフォーマンスが優れており、トレーニング曲線下面積は95.8%から97%に増加し、交差検証曲線下面積(平均)は93.8%から97%に増加した。したがって、BSSアルゴリズムは、偏りのないデータ駆動型の潜在変数の特徴量を効果的に抽出するために使用することができる。さらに、潜在変数を使用して、がん検出においてハンドクラフト特徴量よりも優れたパフォーマンスを得ることができる。
【0115】
VII.末端モチーフ出現頻度から決定されるフラグメントミクスシグネチャに基づいて対象の疾患の分類を予測する方法
図16は、いくつかの実施形態による、生体試料の核酸分子の末端モチーフ出現頻度に基づいて対象のフラグメントミクスシグネチャを決定する方法の例を示すフローチャート1600を含む。フローチャート1600で説明されている操作の一部は、コンピュータシステム(例えば、図17のコンピュータシステム1700)によって実行されてもよい。フローチャート1600は、操作を逐次的なプロセスとして説明している可能性があるが、様々な実施形態において、操作の多くは、並行してまたは同時に実施してもよい。さらに、操作の順番を並べ替えてもよい。操作は、図に示されていない追加のステップを有してもよい。さらに、この方法のいくつかの実施形態は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはこれらの任意の組合せによって実装することができる。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードに実装される場合、関連するタスクを実施するためのプログラムコードまたはコードセグメントを、記憶媒体などのコンピュータ可読媒体に格納してもよい。
【0116】
ステップ1602では、対象の生体試料の配列データにアクセスすることができる。いくつかの例では、配列データは、生体試料の複数のセルフリーDNA分子に対応し、複数のセルフリーDNA分子には循環腫瘍DNA分子が含まれる。配列データには、生体試料から検出された複数の体細胞バリアントに対応する配列も含まれ得る。さらに、各セルフリーDNA分子は、対応する末端モチーフを含み得る。末端モチーフは、DNA断片のヌクレオチドの末端配列、例えば断片のいずれかの末端のK塩基の配列として識別され得る。末端配列は、1、2、3、4、5、6、7などの様々な数の塩基を有するk量体であり得る。いくつかの例では、末端モチーフは、配列リードを参照ゲノムにアラインし、開始位置の直前または終了位置の直後のヌクレオチド塩基を識別することによって決定される。そのような塩基は、例えば、それらが断片の末端配列に基づいて識別されるため、DNA断片の末端に対応する。セルフリーDNA分子の末端モチーフを識別するプロセスは、本開示のセクションIII.Bでさらに詳述される。
【0117】
ステップ1604では、配列データに基づいて、末端モチーフ配列データのセットを生成することができる。いくつかの例では、セットの各末端モチーフ配列データは、特定の末端モチーフに対応する末端配列を有する核酸分子の数または相対出現頻度を識別する。例えば、末端モチーフ配列データのセットは、特定の4量体末端モチーフ(例えば、CCCA)について、その末端モチーフを有する配列リードの数を含み得る。いくつかの例では、特定の末端モチーフを有する核酸分子の数または相対出現頻度を正規化することができる(例えば、生体試料中の配列リードの総数を使用して)。
【0118】
ステップ1606では、末端モチーフ配列データのセットをフラグメントミクスシグネチャの潜在変数に投影することができる。フラグメントミクスシグネチャには、疾患の分類を予測することができる核酸分子の末端モチーフ出現頻度の分布の1つ以上のシグネチャが含まれ得る。フラグメントミクスシグネチャには、1つ以上の固定潜在変数が含まれ得る。固定潜在変数は、(i)1つ以上の参照試料から取得した末端モチーフ配列データに1つ以上の信号分離アルゴリズムを適用して潜在変数のセットを生成し、(ii)クラスタリングアルゴリズムを適用して潜在変数のセットのサブセットを選択すること(このサブセットは固定潜在変数に対応する)によって決定することができる。いくつかの例では、参照試料には、疾患診断(例えば、がん)を受けた対象から採取した生体試料(例えば、組織、血漿試料)が含まれる。さらに、または代わりに、参照試料には、同じ対象から異なる時点で得られた生体試料が含まれ得る。いくつかの例では、潜在変数のセットの各潜在変数には、参照試料の末端モチーフ出現頻度の分布を表すヒストグラムまたは重みベクトルが含まれる。1つ以上の信号分離アルゴリズムは、ブラインド信号源分離アルゴリズムであり得、これには、独立成分分析アルゴリズム及び/または非負値行列因子分解アルゴリズムが含まれ得る。
【0119】
さらに、または代わりに、潜在変数の導関数は、スケーリング、変換、平均化、周波数領域変換(例えば、高速フーリエ変換)などの変換、及び他の同様の変換を適用することによって決定することができる。
【0120】
DFFB、DNASE1L3、及びDNASE1などの血漿DNAヌクレアーゼは、cfDNAの生成と除去の両方に関与する。これらの異なるヌクレアーゼの切断優先度は、cfDNA末端モチーフの出現頻度に影響を及ぼし得る。研究によると、血漿DNAヌクレアーゼの活性は、がん及び全身性エリテマトーデスなどの複数の疾患によって修飾され得ることが示されている。いくつかの例では、BSSアルゴリズムは、物理的に別個のエンティティが保有する信号を推定する記録を有するため、潜在変数のセットは、異なる対象の血漿DNAヌクレアーゼの活性を予測することができる。
【0121】
さらに、cfDNA末端モチーフ出現頻度は、DNAヌクレアーゼの異なるゲノム領域へのアクセス可能性に対応している。したがって、潜在変数から、結合したDNAの細胞間異質性の程度を予測し、それによってエピジェネティック状態を可能にするタンパク質を予測することができる。
【0122】
ステップ1608では、末端モチーフ配列データのセットを潜在変数のセットに投影することに基づいて、生体試料の1つ以上のフラグメントミクスシグネチャ振幅を決定することができる。フラグメントミクスシグネチャ振幅は、末端モチーフ配列データ(例えば、PMF)のセットを参照試料の潜在変数のセットのサブセットに投影することによって決定することができる。いくつかの例では、異なる参照試料から生成される潜在変数にクラスタリングアルゴリズムを適用し、潜在変数のセットのサブセットを決定する。潜在変数のサブセットには、識別された潜在変数のクラスターから選択される重心またはメドイドが含まれ得る。
【0123】
ステップ1610では、フラグメントミクスシグネチャ振幅を機械学習アルゴリズム(例えば、ロジスティック回帰分類モデル)への入力として使用して結果を生成することができる。その結果から、対象が特定の疾患に罹患しているかどうかを予測する分類を予測することができる。特定の疾患には、がんが含まれ得る。いくつかの例では、参照試料を同じ対象から異なる時点で採取した場合、その結果から、特定の疾患の進行または再発を予測することができる。この結果を使用して、対象に対する治療法を特定し、及び/または対象に治療を施す頻度を決定することができる。別の例では、この結果から、対立遺伝子に関連するモノクロマトソーム配列及びジクロマトソーム配列の有意な濃縮を決定するアルゴリズムに基づいて、関心対象の対立遺伝子におけるクロマトソーム結合の存在及びその対立遺伝子のサイレンシングの存在を予測することができる。
【0124】
したがって、全エクソーム配列決定または対象の特定のゲノム領域(例えば)から生成される末端モチーフデータを活用することにより、ゲノム領域セットの各ゲノム領域にマッピングしたcfDNAを、異なる血漿DNAヌクレアーゼによって処理されたDNA分子の線形混合物としてモデル化することができる。次いで、BSSアルゴリズムを混合物のセットに適用して、対象のフラグメントミクスシグネチャを推定する。
【0125】
ステップ1614では、結果を出力することができる。例えば、結果をローカルに表示したり、別のデバイスに送信したりすることができる。結果は、対象の識別子とともに出力することができる。その後にプロセス1600が終了する。
【0126】
VIII.疾患及び治療
特定の実施形態は、1つ以上の生物医学的出力に基づいて、対象における疾患または病態の状態または転帰を予測、診断、及び/または予後推定することを含み得る。対象における疾患の状態または転帰の予測、診断、及び/または予後推定には、疾患または病態の診断、疾患または病態の予測、疾患または病態の段階の予測、疾患または病態のリスクの評価、疾患の再発リスクの評価、薬物の有効性の評価、薬物有害反応のリスクの評価、最適な薬物用量の予測、薬物耐性の予測、またはそれらの組み合わせが含まれ得る。
【0127】
本明細書に開示される試料は、妊娠中の女性由来であってもよい。試料は、胎児の核酸分子を含む母体血漿試料であり得る。胎児は、染色体異数性を有していてもよい。胎児異数性は、ダウン症候群(21トリソミー)、パトウ症候群(13トリソミー)、エドワーズ症候群(18トリソミー)など、様々な疾患を引き起こし得る。胎児は、脊髄性筋萎縮症及びディジョージ症候群など、遺伝子の変異や欠失によって引き起こされる疾患を抱えている場合がある。
【0128】
本明細書に開示される試料は、がんに罹患している対象由来であってもよい。試料は、悪性組織、良性組織、液体生検、またはそれらの混合物を含み得る。がんは、再発性及び/または難治性のがんであってもよい。がんの例としては、肉腫、癌腫、リンパ腫、または白血病が挙げられるが、これらに限定されない。いくつかの例では、がん組織を含む試料を採取するが、一致する正常試料を採取しない。いくつかの例では、一致する正常試料を利用できない。いくつかの例では、一致する正常試料を採取する(例えば、本明細書に開示されるモデルのトレーニング及び検定用)。
【0129】
肉腫は、骨、軟骨、脂肪、筋肉、血管、または他の結合組織もしく支持組織のがんである。肉腫としては、骨癌、線維肉腫、軟骨肉腫、ユーイング肉腫、悪性血管内皮腫、悪性神経鞘腫、両側前庭神経鞘腫、骨肉腫、軟部肉腫(例えば、胞状軟部肉腫、血管肉腫、葉状嚢胞肉腫、皮膚線維肉腫、デスモイド腫瘍、類上皮肉腫、骨外性骨肉腫、線維肉腫、血管周皮腫、血管肉腫、カポジ肉腫、平滑筋肉腫、脂肪肉腫、リンパ管肉腫、リンパ肉腫、悪性線維性組織球腫、神経線維肉腫、横紋筋肉腫、及び滑膜肉腫)が挙げられるが、これらに限定されない。
【0130】
癌腫は、体の表面を覆い、ホルモンを産生し、腺を構成する上皮細胞から発生するがんである。非限定的な例として、癌腫には、乳癌、膵臓癌、肺癌、結腸癌、結腸直腸癌、直腸癌、腎臓癌、膀胱癌、胃癌、前立腺癌、肝臓癌、卵巣癌、脳癌、膣癌、外陰癌、子宮癌、口腔癌、陰茎癌、精巣癌、食道癌、皮膚癌、卵管癌、頭頸部癌、消化管間質癌、腺癌、皮膚または眼内黒色腫、肛門領域の癌、小腸癌、内分泌系の癌、甲状腺癌、副甲状腺癌、副腎癌、尿道癌、腎盂癌、尿管癌、子宮内膜癌、子宮頸癌、下垂体癌、中枢神経系(CNS)、原発性CNSリンパ腫、脳幹神経膠腫、及び脊髄軸腫瘍が含まれる。がんは、基底細胞癌、扁平上皮癌、黒色腫、非黒色腫、または光線(日光)角化症などの皮膚癌であってもよい。
【0131】
がんは肺癌であってもよい。肺癌は、肺(気管支)または肺の小さな空気の袋(肺胞)に供給する気管から分岐する気道で発生し得る。肺癌には、非小細胞肺癌(NSCLC)、小細胞肺癌、及び中皮腫が含まれる。NSCLCの例としては、扁平上皮癌、腺癌、及び大細胞癌が挙げられる。中皮腫は、肺及び胸腔の内膜(胸膜)または腹部内膜(腹膜)のがん性腫瘍であってもよい。中皮腫は、アスベストへの曝露が原因であり得る。がんは、神経膠芽腫などの脳癌であってもよい。
【0132】
がんは、中枢神経系(CNS)腫瘍であってもよい。CNS腫瘍は、神経膠腫または非神経膠腫に分類され得る。神経膠腫は、悪性神経膠腫、高悪性度神経膠腫、びまん性内在性橋グリオーマであってもよい。神経膠腫の例としては、星細胞腫、乏突起膠腫(または乏突起膠腫と星細胞腫の要素の混合)、及び上衣腫が挙げられる。星細胞腫としては、低悪性度星細胞腫、未分化星細胞腫、多形性膠芽腫、毛様細胞性星細胞腫、多形性黄色星細胞腫、及び上衣下巨細胞性星細胞腫が挙げられるが、これらに限定されない。乏突起膠腫としては、低悪性度乏突起膠腫(または乏突起星細胞腫)及び未分化乏突起膠腫が挙げられる。非神経膠腫としては、髄膜腫、下垂体腺腫、原発性CNSリンパ腫、及び髄芽腫が挙げられる。がんは、髄膜腫であってもよい。
【0133】
白血病は、急性リンパ性白血病、急性骨髄性白血病、慢性リンパ性白血病、または慢性骨髄性白血病であってもよい。さらなる白血病の種類としては、有毛細胞白血病、慢性骨髄単球性白血病、及び若年性骨髄単球性白血病が挙げられる。
【0134】
リンパ腫はリンパ球のがんであり、Bリンパ球またはTリンパ球のいずれからも発生し得る。リンパ腫の2つの主要なタイプは、以前はホジキン病と呼ばれていたホジキンリンパ腫、及び非ホジキンリンパ腫である。ホジキンリンパ腫は、Reed-Sternberg細胞の存在を特徴とする。非ホジキンリンパ腫とは、ホジキンリンパ腫以外のリンパ腫のことである。非ホジキンリンパ腫は、低悪性度リンパ腫及び高悪性度リンパ腫であってよい。非ホジキンリンパ腫としては、びまん性大細胞型B細胞リンパ腫、濾胞性リンパ腫、粘膜関連リンパ組織リンパ腫(MALT)、小細胞リンパ性リンパ腫、マントル細胞リンパ腫、バーキットリンパ腫、縦隔大細胞型B細胞リンパ腫、ワルデンシュトレーム型マクログロブリン血症、結節性辺縁帯B細胞リンパ腫(NMZL)、脾臓辺縁帯リンパ腫(SMZL)、節外性辺縁帯B細胞リンパ腫、血管内大細胞型B細胞リンパ腫、原発性滲出液リンパ腫、及びリンパ腫様肉芽腫症が挙げられるが、これらに限定されない。
【0135】
特定の実施形態は、1つ以上の生物医学的出力に基づいて、対象の疾患または病態を治療及び/または予防することを含み得る。1つ以上の生物医学的出力は、1つ以上の治療法を推奨する場合がある。1つ以上の生物医学的出力は、疾患または病態の治療及び/または予防のコースを提案、選択、指定、推奨、または決定してもよい。1つ以上の生物医学的出力は、1つ以上の治療法の変更または継続を推奨してもよい。1つ以上の治療法の変更は、1つ以上の治療法の投与、開始、低減、増加、及び/または終了を含み得る。1つ以上の治療法は、抗がん療法、抗ウイルス療法、抗菌療法、抗真菌療法、免疫抑制療法、またはそれらの組み合わせを含む。1つ以上の治療法は、1つ以上の疾患または適応症を治療、緩和、または予防し得る。
【0136】
抗がん療法の例としては、手術、化学療法、放射線療法、免疫療法/生物学的療法、光線力学療法が挙げられるが、これらに限定されない。抗がん療法には、化学療法、モノクローナル抗体(例えば、リツキシマブ、トラスツズマブ)、がんワクチン(例えば、治療ワクチン、予防ワクチン)、遺伝子療法、またはそれらの組み合わせが含まれ得る。
【0137】
IX.コンピューティング環境
図17は、本明細書で開示するいくつかの実施形態を実装するためのコンピュータシステム1700の一例を示す。コンピュータシステム1700は、分散アーキテクチャを含んでもよく、その場合、いくつかの構成要素(例えば、メモリ及びプロセッサ)がエンドユーザーデバイスの一部であり、他のいくつかの同様の構成要素(例えば、メモリ及びプロセッサ)はコンピュータサーバーの一部である。いくつかの例では、コンピュータシステム1700は、核酸分子のサイズ分布に基づいてフラグメントミクスシグネチャを決定するためのコンピュータシステムであり、少なくともプロセッサ1702、メモリ1704、ストレージデバイス1706、入出力(I/O)周辺機器1708、通信周辺機器1710、及びインターフェイスバス1712を含む。インターフェイスバス1712は、コンピュータシステム1700の様々な構成要素間でデータ、制御、及びコマンドを通信、伝送、及び転送するように構成される。プロセッサ1702は、1つ以上の処理ユニット、例えば、CPU、GPU、TPU、シストリックアレイ、またはSIMDプロセッサを含んでもよい。メモリ1704及び記憶デバイス1706は、コンピュータ可読記憶媒体、例えば、RAM、ROM、電気的消去書込み可能な読出し専用メモリ(EEPROM)、ハードドライブ、CD-ROM、光学記憶デバイス、磁気記憶デバイス、電子不揮発性コンピュータ記憶装置、例えば、Flash(登録商標)メモリ、及び他の有形記憶媒体を含む。任意のそのようなコンピュータ可読記憶媒体は、本開示の態様を具体化する命令またはプログラムコードを格納するように構成することができる。メモリ1704及び記憶デバイス1706は、コンピュータ可読信号媒体も含む。
【0138】
コンピュータ可読信号媒体は、その中に具体化されたコンピュータ可読プログラムコードを有する伝播データ信号を含む。そのような伝搬信号は、電磁、光、またはその任意の組合せを含むがこれらに限定されない様々な形態のいずれかをとる。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではない、コンピュータシステム1700と共に使用するためのプログラムを通信、伝播、または伝送することができる、任意のコンピュータ可読媒体を含む。
【0139】
さらに、メモリ1704は、オペレーティングシステム、プログラム、及びアプリケーションを含む。プロセッサ1702は、格納された命令を実行するように構成されており、例えば、論理処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、及び他のプロセッサを含む。例えば、コンピューティングシステム1700は、プロセッサ1702を構成する命令(例えば、プログラムコード)を実行して、本明細書に記載の1つ以上の操作を実施することができる。プログラムコードは、例えば、配列データの解析、及び/または本明細書に記載の1つ以上の操作を実施する他の任意の好適なアプリケーションを実装するコードを含む。命令は、例えば、C、C++、C#、Visual Basic、Java(登録商標)、Python、Perl、JavaScript(登録商標)、R、及びActionScriptを含む任意の好適なコンピュータプログラミング言語で記述されたコードから、コンパイラまたはインタプリタによって生成されたプロセッサ専用の命令を含み得る。
【0140】
プログラムコードは、メモリ1704または任意の好適なコンピュータ可読媒体に格納することができ、プロセッサ1702または任意の他の好適なプロセッサによって実行することができる。いくつかの実施形態では、本明細書で記載される様々な機能及びプロセスを実行するためのコンピュータシステム内のすべてのモジュールをメモリ1704に格納する。追加的または代替的な実施形態では、上記コンピュータシステムのこれらのモジュールのうちの1つ以上を、異なるコンピューティングシステムの異なるメモリデバイスに格納する。
【0141】
メモリ1704及び/またはプロセッサ1702は仮想化することができ、例えばクラウドネットワークまたはデータセンターの、別のコンピューティングシステム内にホスティングすることができる。I/O周辺機器1708は、ユーザーインターフェイス、例えば、キーボード、スクリーン(例えば、タッチスクリーン)、マイクロフォン、スピーカー、他の入出力デバイス、ならびにコンピューティング構成要素、例えば、画像処理ユニット、シリアルポート、パラレルポート、ユニバーサルシリアルバス、及び他の入出力周辺機器を含む。I/O周辺機器1708は、インターフェイスバス1712に結合したポートのいずれかを通じてプロセッサ1702に接続する。通信周辺機器1710は、通信ネットワークにおけるコンピュータシステム1700と他のコンピューティングデバイスとの間の通信を容易にするように構成されており、例えば、ネットワークインターフェイスコントローラ、モデム、無線及び有線インターフェイスカード、アンテナ、ならびに他の通信周辺機器を含む。例えば、コンピューティングシステム1700は、通信周辺機器1710のネットワークインターフェイスデバイスを使用して、データネットワークを介して1つ以上の他のコンピューティングデバイス(例えば、核酸分子のサイズ分布に基づいてフラグメントミクスシグネチャを決定するコンピューティングデバイス、対象の生体試料の配列データを生成する別のコンピューティングデバイス)と通信することができる。
【0142】
本発明の主題を、その特定の実施形態に関して詳細に説明してきたが、当業者は、前述の理解を得ることで、そのような実施形態に対する変更、変形、及び均等物を容易に生成し得ることを理解するであろう。したがって、本開示は、限定ではなく例示の目的で提示されており、当業者に容易に明らかとなるであろうもののような本発明の主題の変更、変形、及び/または追加を含めることを排除しないことを理解されたい。実際に、本明細書に記載の方法及びシステムは、他の様々な形態で具体化してもよく、さらに、本明細書に記載の方法及びシステムの形態における様々な省略、置換、及び変更を、本開示の趣旨から逸脱することなく行ってもよい。添付の特許請求の範囲及びその均等物は、本開示の範囲及び趣旨に含まれるようなそのような形態または変更を網羅するように意図されている。
【0143】
別段の明記がない限り、本明細書全体において、「処理」、「コンピューティング」、「計算」、「決定」、及び「特定」などの用語を利用する解説は、コンピューティングプラットフォームのメモリ、レジスタ、または他の情報記憶デバイス、伝送デバイス、もしくはディスプレイデバイス内の物理的な電子的または磁気的な量として表されるデータを操作または変換するコンピューティングデバイス、例えば、1つ以上のコンピュータ、または同様の電子コンピューティングデバイス(単数もしくは複数)の動作またはプロセスを指すものと理解されたい。
【0144】
本明細書で論じているシステム(単数または複数)は、いかなる特定のハードウェアアーキテクチャにも構成にも限定されない。コンピューティングデバイスは、1つ以上の入力に条件付けられた結果を提供する任意の好適な構成要素の配置を含むことができる。好適なコンピューティングデバイスは、格納されたソフトウェアにアクセスする多目的のマイクロプロセッサベースのコンピューティングシステムを含み、このソフトウェアは、コンピューティングシステムを、汎用コンピューティング装置から本発明の主題の1つ以上の実施形態を実装する特化されたコンピューティング装置へとプログラムまたは構成する。任意の好適なプログラミング、スクリプト、または他の種類の言語または言語の組合せを使用して、コンピューティングデバイスのプログラミングまたは構成に使用されるソフトウェアに、本明細書に含まれる教示内容を実装してもよい。
【0145】
本明細書で開示される方法の特定の実施形態を、そのようなコンピューティングデバイスの操作において実施してもよい。上記の例に提示されているブロックの順序を変えてもよく、例えば、ブロックを並べ替えたり、組み合わせたり、及び/または下位ブロックに分割したりすることができる。特定のブロックまたはプロセスを、並行して実施することができる。
【0146】
本明細書で使用される条件付き文言、例えば、特に「~することができる(can)」、「~することができる(could)」、「~してもよい(might)」、「~してもよい(may)」、「例えば(e.g.,)」などは、別段の明記がない限り、または使用される文脈内で別の意味で理解されない限り、一般に、特定の例が特定の特徴、要素、及び/またはステップを含み、他の例がそれらを含まないことを伝えるように意図されている。したがって、そのような条件付き文言は、一般に、特徴、要素、及び/またはステップが、1つ以上の例に何らかの形で必要とされること、あるいは、1つ以上の例が、作者の入力または指示の有無にかかわらず、これらの特徴、要素、及び/またはステップが任意の特定の例に含まれるかまたは実施されるかどうかを決定するためのロジックを必ずしも含むこと、を意味するようには意図されていない。
【0147】
用語「含む(comprising)」、「含む(including)」、「有する(having)」などは同義であり、包括的にオープンエンド様式で使用され、追加の要素、特徴、作用、操作などを排除しない。また、用語「または」も包括的な意味で(かつ排他的な意味ではなく)使用されるため、例えば、要素のリストを接続するために使用される場合、用語「または」は、リスト内の要素の1つ、いくつか、または全てを意味する。本明細書における「~するように適合された」または「~するように構成された」の使用は、追加的なタスクまたはステップを実施するように適合または構成されたデバイスを排除しない、開放的かつ包括的な文言として意図されている。さらに、「~に基づく」の使用は、1つ以上の挙げられた条件または値「に基づく」プロセス、ステップ、計算、または他の動作が、実際には、挙げられたもの以外の追加の条件または値に基づく可能性があるという点において、開放的かつ包括的であるように意図されている。同様に、「少なくとも部分的には~に基づく」の使用は、「少なくとも部分的には」1つ以上の挙げられた条件または値「に基づく」プロセス、ステップ、計算、または他の動作が、実際には、挙げられたもの以外の追加の条件または値に基づいている可能性があるという点において、開放的かつ包括的であるように意図されている。本明細書に含まれる見出し、リスト、及び番号付けは、説明を容易にするためのものに過ぎず、限定を意味するものではない。
【0148】
上述の様々な特徴及びプロセスは、互いに独立に使用しても、様々な方法で組み合わせてもよい。全ての可能な組合せ及び部分組合せは、本開示の範囲内に入るように意図されている。さらに、いくつかの実装において、特定の方法またはプロセスブロックが省略される場合がある。また、本明細書に記載の方法及びプロセスは、いかなる特定の順序にも限定されず、それに関するブロックまたは状態は、適切な他の順序で実施することができる。例えば、記載されるブロックまたは状態は、具体的に開示されたもの以外の順序で実行してもよく、または、複数のブロックまたは状態を、単一のブロックまたは状態として組み合わせてもよい。例示的なブロックまたは状態を、連続して、並行して、または他の何らかの様式で実施してもよい。ブロック及び状態を、本開示の例に追加してもよく、またはそこから除外してもよい。同様に、本明細書に記載の例示的なシステム及び構成要素を、記載とは異なるように構成してもよい。例えば、本開示の例と比較して、要素を追加、除外、または再配置してもよい。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
【国際調査報告】