特許7297774 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ダブテイル　ゲノミクス　エルエルシーの特許一覧

特許7297774構造変異の分析

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
2C
2D
3A
3B
3C
3D
4A
4B
4C
4D
4E
4F
4G
5A
5B
5C
6A
6B
6C
6D
7
8A
8B
8C
8D
8E
9
10A
10B
10C
11A
11B
11C
12A
12B
13
14A
14B
15A
15B
16A
16B
16C
17A
17B
17C
18A
18B
18C
18D
18E

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-06-16

(45)【発行日】2023-06-26

(54)【発明の名称】構造変異の分析

(51)【国際特許分類】

C12Q 1/6874 20180101AFI20230619BHJP

G16B 30/20 20190101ALI20230619BHJP

【ＦＩ】

C12Q1/6874 Z

G16B30/20

【請求項の数】 26

(21)【出願番号】P 2020544593

(86)(22)【出願日】2018-11-08

(65)【公表番号】

(43)【公表日】2021-01-28

(86)【国際出願番号】 US2018059885

(87)【国際公開番号】W WO2019094636

(87)【国際公開日】2019-05-16

【審査請求日】2021-11-05

(31)【優先権主張番号】62/583,974

(32)【優先日】2017-11-09

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】518399195

【氏名又は名称】ダブテイルゲノミクスエルエルシー

(74)【復代理人】

【識別番号】110003797

【氏名又は名称】弁理士法人清原国際特許事務所

(74)【代理人】

【識別番号】100082072

【弁理士】

【氏名又は名称】清原義博

(72)【発明者】

【氏名】パトナム，ニコラスエイチ．

(72)【発明者】

【氏名】トロール，クリストファージョン

【審査官】山▲崎▼ 真奈

(56)【参考文献】

【文献】米国特許出願公開第２０１７／０３００６１５（ＵＳ，Ａ１）

【文献】Chaktraborty, A. and Ay, F.，Identification of copy number variations and translcations in cancer cells from Hi-C data，Bioinformatics，2017年10月18日，３４（２），338-345

【文献】Servant, N. et al.，HiC-Pro: an optimized and flexible pipeline for Hi-C data processing，Genome Biology，2015年，１６：２５９，1-11

【文献】Rao, S. S. P.，A 3D map of the human genome at kilobase resolution reveals principles of chromatin looping，Cell，2014年，１５９，1665-1680

【文献】Dong, Z. et al.，A robust approach for blind detection of balanced chromosomal rearrangements with whole-genome low-coverage sequencing，Human Mutation，2014年，３５（５），625-636

【文献】Lee, S. et al.，A robust framework for detecting structural variations in a genome，Bioinformatics，2008年，２４，i59-i67

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｃ１２Ｑ

ＣＡｐｌｕｓ／ＭＥＤＬＩＮＥ／ＥＭＢＡＳＥ／ＢＩＯＳＩＳ（ＳＴＮ）

(57)【特許請求の範囲】

【請求項1】

核酸構造変異を検出する方法であって、該方法は、
（ａ）リードペア配列情報を配列スキャホールド上へマッピングする工程であって、
該リードペア配列情報を配列スキャホールド上へマッピングする工程は、リードペアを示すシンボルを位置決めする工程を含み、これにより、前記配列スキャホールドを表す軸からの前記シンボルの距離が、前記配列スキャホールド上の前記リードペアの第１のリードのマッピング位置から、前記配列スキャホールド上のリードペアの第２のリードのマッピング位置までの距離を示し、かつ、前記配列スキャホールドを表す軸に対する前記シンボルの位置は、前記リードペアの前記第１のリードペアのマッピング位置と、前記リードペアの前記第２のリードのマッピング位置との平均を示す、リードペア配列情報を配列スキャホールド上へマッピングする工程、
（ｂ）そのようにマッピングされた複数のリード・ペア・シンボルの密度の局所的変異を識別する工程、および
（ｃ）密度の局所的変異を対応する構造配置特徴に割り当てること、または密度の局所的変異が減少するように配列スキャホールドを再構成する工程、
を含む方法。

【請求項2】

前記密度の局所的変異を、対応する前記構造配置特徴に割り当てる工程を含む、請求項１に記載の方法。

【請求項3】

前記密度の局所的変異が減少するように前記配列スキャホールドを再構成する工程を含む、請求項１に記載の方法。

【請求項4】

前記配列スキャホールドを再構成する工程は、前記配列スキャホールドの少なくとも一部のコンティグを再び順序付ける、または再配向する工程を含む、請求項３に記載の方法。

【請求項5】

前記配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも１つのコンティグへ区切りを導入する工程を含む、請求項３に記載の方法。

【請求項6】

前記配列スキャホールドを再構成する工程は、第１のコンティグの部分を第２のコンティグの内部領域へと転座させる工程を含む、請求項３に記載の方法。

【請求項7】

前記リードペア配列情報を前記配列スキャホールド上へマッピングする工程は、リードペア情報を複数のビンに割り当てる工程を含む、請求項１に記載の方法。

【請求項8】

前記密度の局所的変異を識別する工程は、前記シンボルの密度が局所的に低い領域を識別する工程、または前記シンボルの密度が局所的に高い領域を識別する工程を含む、請求項１に記載の方法。

【請求項9】

前記密度の局所的変異を識別する工程は、第１の位置の密度、および第２の位置の密度を識別する工程を含み、第１の位置の密度および第２の位置の密度が異なる、
請求項１に記載の方法。

【請求項10】

前記密度の局所的変異を識別する工程は、第１の位置の予測密度、および第１の位置の観察密度を得る工程を含む、請求項１に記載の方法。

【請求項11】

サンプルの倍数性に等しい整数値の割合の局所的密度変異は、その割合における事象の倍数性を示す、請求項１に記載の方法。

【請求項12】

前記配列スキャホールドは癌細胞ゲノム、トランスジェニック細胞ゲノム、または遺伝子編集されたゲノムを表す、請求項１に記載の方法。

【請求項13】

配列スキャホールドは、再構成後に少なくとも２０％増加したＮ５０値を有する、請求項３に記載の方法。

【請求項14】

核酸構造変異を検出する方法であって、該方法は、
配列スキャホールド情報を含むスキャホールドを得る工程、
ペアリード情報を得る工程、
少なくとも一部のリードペア情報は、（i）前記スキャホールドに対するリードペアの各リードの位置を示し、かつ（ii）前記スキャホールドにマッピングされるようなリードと他のリードペアへのリードの間の距離を示す、ペアリード情報を展開する工程、
展開時のペアリード情報の密度の局所的変異を識別する工程、および
密度の局所的変異を対応する構造配置特徴に割り当てることまたは局所的変異を減らすようにスキャホールドを再構成する工程、
を含む、方法。

【請求項15】

前記密度の局所的変異を、対応する構造配置特徴に割り当てる工程を含む、請求項１４に記載の方法。

【請求項16】

前記局所的変異を減少させるようにスキャホールドを再構成する工程を含む、請求項１４に記載の方法。

【請求項17】

前記配列スキャホールド情報を含むスキャホールドを得る工程は、核酸サンプルを配列決定する工程を含む、請求項１４に記載の方法。

【請求項18】

展開されたリードペア情報に対して予測された密度分布を得る工程を含む、請求項１４に記載の方法。

【請求項19】

局所的変異を識別する工程は、密度ピークが直角の頂点にある密度摂動を識別する工程
を含む、請求項１４に記載の方法。

【請求項20】

ペアエンドリード情報を得る工程は、未抽出の核酸を架橋する工程、クロマチンにおい
て結合された核酸を架橋する工程、および／または核酸を核酸結合部分に結合させる工程
を含む、請求項１４に記載の方法。

【請求項21】

前記ペアリード情報を展開する工程は、前記リードペア情報を複数のビンに割り当てる工程を含む、請求項１４に記載の方法。

【請求項22】

前記配列スキャホールドを再構成する工程は、前記配列スキャホールドの少なくとも一部のコンティグを再び順序付ける、または再配向する工程を含む、請求項１６に記載の方法。

【請求項23】

前記配列スキャホールドを再構成する工程は、前記配列スキャホールドの少なくとも１つのコンティグへ区切りを導入する工程、および／または第１のコンティグの部分を第２のコンティグの内部領域へと転座させる工程を含む、請求項１６に記載の方法。

【請求項24】

前記スキャホールドは癌細胞ゲノム、トランスジェニック細胞ゲノム、または遺伝子編集されたゲノムを表す、請求項１４に記載の方法。

【請求項25】

前記構造配置特徴は、逆位を含む、請求項１に記載の方法。

【請求項26】

前記構造配置特徴は、逆位を含む、請求項１４に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

相互参照
本出願は、２０１７年１１月９日出願の米国仮出願第６２／５８３，９７４号の利益を主張するものであり、この文献は参照によって全体として本明細書に組み込まれる。

【背景技術】

【0002】

高品質の高度に連続したゲノム配列を生成することは、理論上および事実上、依然として困難である。この問題は、ゲノム配列、フェージング情報、または他の遺伝子情報を回復しようとする試みが、ホルマリン固定パラフィン包埋（ＦＦＰＥ）サンプルなどの保存サンプルからの望ましい場合に、悪化する。配列決定のコストと時間の削減は、利用可能な生のゲノムデータの量を増大させたが、効率的かつ正確な方法でデータを分析かつ組み立てるのに適切な方法の不足は、本配列決定技術を限定する主要因である。

【0003】

引用による組み込み
本明細書で言及される出願公開、特許、および特許出願は全て、あたかも個々の出願公開、特許、または特許出願がそれぞれ参照により組み込まれるように具体的かつ個々に指示されるように同じ程度にまで、参照により本明細書に組み込まれる。本明細書で言及される出願公開、特許、および特許出願はすべて、本明細書で引用される任意の文献と同様に、全体として参照することで本明細書に組み込まれる。

【発明の概要】

【0004】

本明細書には、核酸構造変異の検出の方法が提供される。そのような方法の一部は、ａ）リードペア情報を基準核酸スキャホールド上にマッピングする工程；ｂ）リードペアの中点が第１のビン核酸位置範囲内にあり、かつリードペア分離が第１のビン分離範囲内にあるように、リードペア位置を第１のビンに割り当てる工程；およびｃ）第１のビンのマッピング可能性値に基づいてコピー数変異を推定する工程を含む。場合によっては、方法はさらに、コピー数変異を標準化する工程を含む。加えて、方法はさらに、２つのサンプルのマッピングされたリード密度を互いに対してプロットすることにより、マッピング可能性を視覚化する工程を含む。

【0005】

本明細書には、核酸構造変異の検出の方法が提供される。そのような方法の一部は、ａ）リードペア情報を基準核酸スキャホールド上にマッピングする工程；ｂ）リードペアの中点が第１のビン核酸位置範囲内にあり、かつリードペア分離が第１のビン分離範囲内にあるように、リードペア位置を第１のビンに割り当てる工程；ｃ）リードペア情報の二次元画像を精製する工程であって、各ピクセルはビンを表す、工程；ｄ）画像中の共通の角を共有する４つのピクセルの少なくとも１つの群に対してｚスコアを算出する工程であって、ｚスコアは隣接するピクセル間の対比によって表される、工程；およびｅ）ｚスコアが閾値を超えたときに候補ヒットを識別する工程を含む。場合によっては、基準核酸スキャホールドはゲノムである。多くの場合、各データセットは、異なるペアエンドリード方向から得られる。候補ヒットは、転座、逆位、欠失、重複、および染色体間の構造変異のうち１つ以上から選択されることが、企図される。

【0006】

本明細書には、サンプル中の対立遺伝子変異の混合物をモデル化するためのシステムが提供される。そのようなシステムの一部は、重み付きゲノム・スキャホールド・モデルのセットであって、各ゲノム・スキャホールド・モデルは重み付き染色体のセットを含み、各染色体はゲノムスキャホールドにおけるビンの線形グラフである、セット；およびライブラリーによりサンプリングされたリードペアがビンの中にあるかを予測するために少なくとも２つのゲノム・スキャホールド・モデルの対数尤度の比率を算出するためのモジュールを含む。場合によっては、本明細書中のシステムはさらに、少なくとも１つの特徴検出器モジュールを含み、少なくとも１つの特徴検出器モジュールはゲノム・スキャホールド・モデルの候補修飾を提案する。多くの場合、少なくとも１つの特徴検出器モジュールは、配列変異体のビン境界を決定する。配列変異は、転座、逆位、欠失、および重複のうち１つ以上から選択されることが、企図される。多くの場合、システムはさらに、少なくとも１つの特徴検出器モジュールからの入力に基づいて代替モデルを生成するモジュールを含む。

【0007】

本明細書には、サンプル中の対立遺伝子変異をモデル化するための方法が提供される。そのような方法の一部は、ａ）重み付きゲノム・スキャホールド・モデルのセットを生成する工程であって、各ゲノム・スキャホールド・モデルは重み付き染色体のセットを含み、各染色体はゲノムスキャホールドにおけるビンの線形グラフである、工程；ｂ）基準配列上にマッピングされたリードペア配列決定情報を説明するモデルの能力に基づいてスコアを算出する工程であって、より高いスコア値はより多くの予測モデルを示す、工程；およびｃ）スコア値を最大限にするために付加的なモデルを反復して加える工程を含む。リードペア配列決定情報は、逆位、転座、重複、および欠失のうち１つ以上を含むことが、企図される。場合によっては、方法はさらに、特徴を検出する工程を含み、特徴を検出する工程は、スコア値を増大させるためにモデルにおいてビンを結合または分離する工程を含む。多くの場合、サンプルは癌細胞である。

【0008】

本明細書には、核酸構造変異の検出の方法が提供される。そのような方法の一部は、ａ）リードペア情報を予測された核酸スキャホールド上にマッピングする工程；ｂ）リードペアの中点が第１のビン核酸位置範囲内にあり、かつリードペア分離が第１のビン分離範囲内にあるように、リードペア位置を第１のビンに割り当てる工程；ｃ）リードペア情報の二次元画像を精製する工程であって、各ピクセルはビンを表す、工程；およびｄ）共通の結合配列フラグメントにより接続される２つの配列フラグメントに対応する二次元画像中の少なくとも１つの特徴を識別する工程を含む。多くの場合、方法は、正確な順序で共通の結合配列フラグメントにより接続される２つの配列フラグメントをアセンブルする工程を含む。時折、方法は、偽陽性に対応する特徴を切り捨てる工程を含む。

【0009】

本明細書に提供される方法は、以下を含む：リードペア配列情報を配列スキャホールド上へマッピングする工程；およびそのようにマッピングされた複数のリード・ペア・シンボルの密度の局所的変異を識別する工程。場合によっては、方法は、密度の局所的変異を対応する構造配置特徴に割り当てる工程を含む。多くの場合、方法は、密度の局所的変異が減少するように配列スキャホールドを再構成する工程を含む。時折、リードペア配列情報を配列スキャホールド上へマッピングする工程は、リードペアを示すシンボルを位置決めする工程を含み、これにより、配列スキャホールドを表す軸からのシンボルの距離が、配列スキャホールド上のリードペアの第１のリードのマッピング位置から、配列スキャホールド上のリードペアの第２のリードのマッピング位置までの距離を示し、かつ、配列スキャホールドを表す軸に対するシンボルの位置は、リードペアの第１のリードペアのマッピング位置と、リードペアの第２のリードのマッピング位置との平均を示す。時折、配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも一部のコンティグを再び順序付ける工程を含む。代替的に、または組み合わせにおいて、配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも１つのコンティグを再配向する工程を含む。多くの場合、配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも１つのコンティグへ区切りを導入する工程を含む。時折、方法はさらに、区切りの一端に存在する配列を区切りの他端に導入する工程を含む。場合によっては、配列スキャホールドを再構成する工程は、第１のコンティグの部分を第２のコンティグの内部領域へと転座させる工程を含む。時折、リードペア配列情報を配列スキャホールド上へマッピングする工程は、リードペア情報を複数のビンに割り当てる工程を含む。多くの場合、密度の局所的変異を識別する工程は、シンボルの密度が局所的に低い領域を識別する工程を含む。代替的に、密度の局所的変異を識別する工程は、シンボルの密度が局所的に高い領域を識別する工程を含む。時折、密度の局所的変異を識別する工程は、第１の位置の密度、および第２の位置の密度を識別する工程を含み、第１の位置の密度および第２の位置の密度は、大きく異なっている。場合によっては、第１の位置と第２の位置は隣接している。多くの場合、第１の位置および第２の位置は、配列スキャホールドから等距離にある。時折、密度の局所的変異を識別する工程は、第１の位置の予測密度、および第１の位置の観察密度を得る工程を含む。多くの場合、第１の位置の予測密度は、配列スキャホールドを表す軸からの距離の増加に応じて単調的に減少する密度勾配により予測された密度である。随意に、サンプルの倍数性に等しい整数値の分画の局所的密度変異は、サンプルの倍数性補体の比率における事象を示す。場合によっては、スキャホールドは癌細胞ゲノムを表す。代替的に、または組み合わせにおいて、スキャホールドはトランスジェニック細胞ゲノムを表す。随意に、スキャホールドは遺伝子編集されたゲノムを表す。多くの場合、スキャホールドは、再構成後に少なくとも２０％を超えるＮ５０を有する。

【0010】

本明細書には、配列スキャホールド情報を含むスキャホールドを得る工程を含む方法が提供される。そのような方法の一部は、ペアリード情報を得る工程；少なくとも一部のリードペア情報を表すことで、スキャホールドに対するリードペアの各リードの位置を示し、かつスキャホールドにマッピングされるようなリード間の距離を示すように、ペアリード情報を展開する工程；および展開時のペアリード情報の密度の局所的変異を識別する工程を含む。場合によっては、方法は、密度の局所的変異を対応する構造配置特徴に割り当てる工程を含む。時折、方法は、局所的変異を減らすようにスキャホールドを再構成する工程を含む。多くの場合、配列スキャホールド情報を含むスキャホールドを得る工程は、核酸サンプルを配列決定する工程を含む。代替的に、または組み合わせにおいて、配列スキャホールド情報を含むスキャホールドを得る工程は、核酸サンプルを表すデジタル情報を受信する工程を含む。時折、方法は、展開されたリードペア情報に対して予測された密度分布を得る工程を含む。多くの場合、識別する工程は、予測された密度分布と、表されたリードペア情報密度との有意差を識別する工程を含む。代替的に、または組み合わせにおいて、局所的変異を識別する工程は、密度ピークが直角の頂点にある密度摂動を識別する工程を含む。場合によっては、直角の頂点はスキャホールドを表す軸を指す。多くの場合、ペアエンドリード情報を得る工程は、未抽出の核酸を架橋する工程を含む。時折、ペアエンドリード情報を得る工程は、クロマチンにおいて結合された核酸を架橋する工程を含む。多くの場合、クロマチンはネイティブクロマチンである。代替的に、または組み合わせにおいて、ペアエンドリード情報を得る工程は、核酸を核酸結合部分に結合させる工程を含む。場合によっては、ペアエンドリード情報を得る工程は、再構成されたクロマチンを生成する工程を含む。多くの場合、ペアリード情報を展開する工程は、リードペア情報を複数のビンに割り当てる工程を含む。時折、配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも一部のコンティグを再び順序付ける工程を含む。代替的に、または組み合わせにおいて、配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも１つのコンティグを再配向する工程を含む。時折、配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも１つのコンティグへ区切りを導入する工程を含む。多くの場合、方法は、区切りの一端にする配列を区切りの他端に導入する工程を含む。時折、配列スキャホールドを再構成する工程は、第１のコンティグの部分を第２のコンティグの内部領域へと転座させる工程を含む。場合によっては、スキャホールドは癌細胞ゲノムを表す。時折、スキャホールドはトランスジェニック細胞ゲノムを表す。代替的に、または組み合わせにおいて、スキャホールドは遺伝子編集された細胞ゲノムを表す。多くの場合、スキャホールドは、再構成後に少なくとも２０％を超えるＮ５０を有する。時折、サンプルの倍数性に等しい整数値の分画の局所的密度変異は、サンプルの倍数性補体の比率における事象を示す。

【0011】

本明細書には、配列スキャホールドに対してサンプル中の構造再編成を識別する方法が提供される。そのような方法の一部は、リードペア配列情報を配列スキャホールド上へマッピングする工程；配列スキャホールドに対応するとともに直角縁部を二分する線に沿って左右対称である軸を指す直角縁部を持つ、局所的密度変異を識別する工程；および局所的密度変異のマッピングされたリードが最も遠くにある限り、転座ポイントからの長さの部分を含む配列スキャホールドに対して単純な転座を有するものとして、サンプルを分類する工程を含む。

【0012】

本明細書には、サンプル中の構造再編成を識別する方法が提供される。そのような方法の一部は、リードペア配列情報を配列スキャホールド上へマッピングする工程；配列スキャホールドに対応する軸を指す直角縁部を有する局所的密度変異を識別する工程；直角縁部を二分する線に沿って左右対称に分裂する局所的密度変異のサブ領域を識別する工程；および対称性を修復するリードペアの集団がマッピングされる配列を欠く部分を含む配列スキャホールドに対して転座を有すると、サンプルを分類する工程を含む。

【0013】

本明細書には、配列スキャホールドに対してサンプル中の構造再編成を識別する方法が提供される。そのような方法の一部は、リードペア配列情報を配列スキャホールド上へマッピングする工程；配列スキャホールドに対応する軸を指す直角縁部を有する局所的密度変異を識別する工程；予想されるリードペア密度分布曲線を得る工程；局所的密度変異を含むリードペアがマッピングされるスキャホールド部分を識別する工程；局所的密度変異を含むリードペアが、局所的密度変異の密度を持つと予測されたリードペア密度分布曲線により示される領域にマッピングされるように、スキャホールド部分を再び位置決めする工程を含む。

【0014】

本明細書には、本明細書に記載される方法の何れかの結果を表示するよう構成されたコンピューターモニターが提供される。

【0015】

本明細書には、本明細書に記載される方法の何れかの計算工程を実行するよう構成されたコンピューターシステムが提供される。

【0016】

本明細書には、本明細書に記載される、または本明細書に記載される方法を使用して生成される、マッピングされたリードペアデータの視覚表示が提供される。

【0017】

本明細書には、核酸構造変異の検出の方法が提供される。そのような方法の一部は、リードペア情報を予測された核酸スキャホールド上にマッピングする工程；構造変異仮定を得る工程；構造変異仮定がリードペア情報と一貫している尤度パラメーターを算出する工程；および仮定に対する尤度パラメーターが、第２の仮定に対する第２の尤度パラメーターより大きい場合に、核酸サンプルを、構造変異仮定を持つものと分類する工程を含み、リードペア情報を予測された核酸スキャホールド上にマッピングする工程は、リードペアをリードペア位置に割り当てる工程を含み、これにより、リードペアは、１つの軸上の予測された核酸スキャホールド上の中点に割り当てられ、および、リードペアは、第２の軸上のリードペア分離に対応する値に割り当てられる。時折、リードペアは、核酸分子の第１の領域にマッピングされる第１の部分、および核酸分子の第２の領域にマッピングされる第２の部分を含み、第１の部分および第２の部分は、隣接しておらず、共通のフェーズを共有する。多くの場合、リードペアの中点が第１のビン核酸位置範囲内にあり、かつリードペア分離が第１のビン分離範囲内にある場合、リードペア位置は第１のビンに割り当てられる。場合によっては、第１のビンの核酸位置範囲は、予測された核酸スキャホールドの規則的な間隔である。代替的に、または組み合わせにおいて、第１のビンの分離範囲は、リードペア情報に対する完全な分離範囲の対数間隔である。時折、第１のビンの核酸範囲は核酸スキャホールドの規則的な間隔であり、第１のビンの分離範囲はリードペア情報に対する完全な分離範囲の対数間隔である。場合によっては、リードペアの中点が第２のビン核酸位置範囲内にあり、かつリードペア分離が第２のビン分離範囲内にあるように、リードペア位置は第２のビンに割り当てられる。多くの場合、ほぼすべてのリード情報がビニングされる（ｂｉｎｎｅｄ）。時折、尤度パラメーターを算出する工程は、第１のビンに対する尤度貢献を決定する工程を含む。多くの場合、第１のビンに対する尤度貢献は、第１のビンにマッピングされるリードペアの数に比例する第１の尤度因子を含む。代替的に、または組み合わせにおいて、第１のビンに対する尤度貢献は、第１のビンの領域に比例する第２の尤度因子を含む。時折、第１のビンに対する尤度貢献は、第１のビンにマッピングされるリードペアの数に比例する第１の尤度因子を含み、第１のビンに対する尤度貢献は、第１のビンの領域に比例する第２の尤度因子を含む。多くの場合、方法は、領域が第１のビンと重複していない第２のビンに対する尤度貢献を決定する工程を含む。時折、尤度パラメーターは、第１のビンの尤度貢献および第２のビンの尤度貢献を含む。時折、尤度パラメーターは、第３のビンの尤度貢献を含む。代替的に、または組み合わせにおいて、尤度パラメーターは、ビニングされたほぼすべてのリードペア情報に対する尤度貢献を含む。時折、仮定は、左の縁と長さを有する構造変異を含む。多くの場合、構造変異は、欠失、逆位、直接重複、外向き逆位重複、および内向き逆位重複のうち少なくとも１つである配向を有する。随意に、第２の仮定は、左の縁、長さ、および構造配向のうち少なくとも１つにおいて異なる構造変異を含む。時折、前記核酸構造変異は、前記核酸サンプル中のホモ結合である。代替的に、前記核酸構造変異は、前記核酸サンプル中のヘテロ結合である。

【0018】

本明細書には、核酸サンプル中の推定上の構造変異を視覚化する方法が提供される。そのような方法の一部は、配列リードの集団を番号付きのビンの集団に割り当てる工程、および前記ビンの集団の第１のビン内にある構造変異縁部を含むリードの尤度パラメーターを割り当てる工程を含み、前記第１のビンに対する前記尤度パラメーターは、第１のビンにマッピングされるリードの数を含む第１の尤度成分、および第１のビンの区域を含む第２の成分を含む。時折、方法は、ビンの数に応じて構造変異の尤度をプロットする工程を含む。頻繁に、前記第１のビンに対する前記尤度パラメーターは、第１のビンにマッピングされる多数のリードを含む第１の尤度成分、および第１のビンの区域を含む第２の成分を含む。代替的に、または組み合わせにおいて、前記尤度パラメーターは、第１のビンにマッピングされるリードの数に構造変異予測を関連づける尤度成分、および第１のビンの領域を含む尤度成分を含む。時折、前記ビンの集団は、固定された核酸距離にわたる共通のビン幅を共有する。時折、前記ビンの集団は、その員の中のビン高さに応じて変動する。多くの場合、ビン高さは、対数軸上でプロットされたときに一定に見える。頻繁に、尤度パラメーターは、配列リードの確率に関連し、これには左の縁および長さを持つ構造変異の結合、および前記第１のビンへのマッピングが含まれる。時折、構造変異は、欠失、逆位、直接重複、外向き逆位重複、および内向き逆位重複のうち少なくとも１つである配向を有する。多くの場合、配列リードはリードペアを含む。時折、リードペアは、核酸分子の第１の領域にマッピングされる第１の部分、および核酸分子の第２の領域にマッピングされる第２の部分を含み、第１の部分および第２の部分は、隣接しておらず、共通のフェーズを共有する。

【0019】

本明細書には、核酸サンプル中の構造を識別する方法が提供される。そのような方法の一部は、核酸サンプルに対してマッピングされたリードペアデータを得る工程；核酸スキャホールド配列を得る工程；リードペアデータを核酸スキャホールド配列と比較する複数の構造変異仮定の各々に関する、尤度確率情報を得る工程；および構造変異種仮定中の大半の起こり得る仮定を識別する工程を含み；ここで、前記方法は、１分あたり少なくとも１０ｍｂの核酸スキャホールド配列を評価する。頻繁に、方法は、リードペア情報を核酸スキャホールド配列上にマッピングする工程；構造変異仮定を得る工程；構造変異仮定がリードペア情報と一貫している尤度パラメーターを算出する工程；および仮定に対する尤度パラメーターが第２の仮定に対する第２の尤度パラメーターより大きい場合に、核酸サンプルを、構造変異仮定を持つと分類する工程を含む。時折、リードペア情報を核酸スキャホールド配列上にマッピングする工程は、リードペアが１つの軸上の予測された核酸スキャホールド上の中点に割り当てられ、かつリードペアが第２の軸上のリードペア分離に対応する値に割り当てられるように、リードペアをリードペア位置に割り当てる工程を含む。多くの場合、前記リードペアは、核酸分子の第１の領域にマッピングされる第１の部分、および核酸分子の第２の領域にマッピングされる第２の部分を含み、第１の部分および第２の部分は、隣接しておらず、共通のフェーズを共有する。時折、リードペア位置は、リードペア中点が第１のビンの核酸位置範囲内にあり、かつリードペア分離が第１のビン分離範囲内にある場合、第１のビンに割り当てられる。時折、第１のビンの核酸位置範囲は、核酸スキャホールドの規則的な間隔である。多くの場合、第１のビンの分離範囲は、リードペア情報に対する完全な分離範囲の対数間隔である。代替的に、または組み合わせにおいて、第１のビンの核酸位置範囲は核酸スキャホールドの規則的な間隔であり、第１のビンの分離範囲はリードペア情報に対する完全な分離範囲の対数間隔である。場合によっては、リードペアの中点が第２のビンの核酸位置範囲内にあり、かつリードペア分離が第２のビンの分離範囲内にある場合、リードペア位置は第２のビンに割り当てられる。頻繁に、ほぼすべてのリード情報がビニングされる。多くの場合、尤度パラメーターを算出する工程は、第１のビンに対する尤度貢献を決定する工程を含む。時折、第１のビンに対する尤度貢献は、第１のビンにマッピングされるリードペアの数に比例する第１の尤度因子を含む。時折、第１のビンに対する尤度貢献は、第１のビンの領域に比例する第２の尤度因子を含む。代替的に、または組み合わせにおいて、第１のビンに対する尤度貢献は、第１のビンにマッピングされるリードペアの数に比例する第１の尤度因子を含み、第１のビンに対する尤度貢献は、第１のビンの領域に比例する第２の尤度因子を含む。頻繁に、方法はさらに、領域が第１のビンと重複していない第２のビンに対する尤度貢献を決定する工程を含む。時折、尤度パラメーターは、第１のビンの尤度貢献および第２のビンの尤度貢献を含む。時折、尤度パラメーターは、第３のビンの尤度貢献を含む。時折、尤度パラメーターは、ビンされたほぼすべてのリードペア情報に対する尤度貢献を含む。時折、仮定は、左の縁と長さを有する構造変異を含む。頻繁に、構造変異は、欠失、逆位、直接重複、外向き逆位重複、および内向き逆位重複のうち少なくとも１つである配向を有する。時折、第２の仮定は、左の縁、長さ、および構造配向のうち少なくとも１つにおいて異なる構造変異を含む。時折、前記核酸構造変異は、前記核酸サンプル中のホモ結合である。代替的に、前記核酸構造変異は、前記核酸サンプル中のヘテロ結合である。

【0020】

本明細書には、処置レジメンを選択する方法が提供される。そのような方法の一部は、前述の実施形態の何れか１つの方法を実行する工程、再編成を識別する工程、および再編成と一致する処置レジメンを識別する工程を含む。頻繁に、処置レジメンは薬物投与を含む。代替的に、または組み合わせにおいて、処置レジメンは組織切除を含む。

【0021】

本明細書には、処置レジメンを評価する方法が提供される。そのような方法の一部は、最初に前述の実施形態の何れか１つの方法を実行する工程、処置レジメンを施す工程、および２回目の処置レジメンを実行する工程を含む。時折、方法は処置レジメンを中止する工程を含む。代替的に、方法は処置レジメンの用量を増大させる工程を含む。時折、方法は、処置レジメンの用量を減少させる工程を含む。代替的に、方法は、処置レジメンを継続させる工程を含む。頻繁に、処置レジメンは薬物を含む。多くの場合、処置レジメンは外科的介入を含む。

【図面の簡単な説明】

【0022】

特許または特許出願のファイルは、色付きで作成された少なくとも１つの図面を含む。色付きの図面を伴う本特許または特許出願公開のコピーが、必要な料金の請求および支払い後に当該事務局によって提供される。

【図1】リードペア・ライブラリー・データを分析するためのプロトコルの典型的な概略を表す。

【図2A】コピー数変異の推定のためのリードペア・ライブラリー・データの視覚表示を表す。

【図2B】コピー数変異の推定のためのリードペア・ライブラリー・データの視覚表示を表す。

【図2C】コピー数変異の推定のためのリードペア・ライブラリー・データの視覚表示を表す。

【図2D】２つのサンプル間のコピー数変異の視覚表示を表す。

【図3A】リードペア分離のプロットとしてマッピングされたリードペアｖｓスキャホールドに一致するサンプルのマッピングされたリードペアの中点位置の視覚表示を表す。

【図3B】リードペア分離のプロットとしてマッピングされたリードペアｖｓ逆位を伴うサンプルのマッピングされたリードペアの中点位置の視覚表示を表す。

【図3C】リードペア分離のプロットとしてマッピングされたリードペアｖｓ逆位を伴うサンプルのマッピングされたリードペアの中点位置の拡大視覚表示を表す。

【図3D】点ａとｂとの間のヘテロ結合逆位に関するマッピングされたリードペアデータの図を表す。

【図4A】様々な型の構造変異、および、作成される、マッピングされたリードペア密度パターンの型の例を表す。

【図4B】構造変異に観察された、マッピングされたリードペアデータの一般的な例を表す。

【図4C】欠失に観察された、マッピングされたリードペアデータの一般的な例を表す。

【図4D】逆位に観察された、マッピングされたリードペアデータの一般的な例を表す。

【図4E】直接縦列重複に観察された、マッピングされたリードペアデータの一般的な例を表す。

【図4F】逆位縦列重複Ｒに観察された、マッピングされたリードペアデータの一般的な例を表す。

【図4G】逆位縦列重複Ｌに観察された、マッピングされたリードペアデータの一般的な例を表す。

【図5A】対数尤度比率のプロットとしてマッピングされたリードペアデータｖｓ逆位を伴うデータセットのビン数の視覚表示を表す。

【図5B】対数尤度比率のプロットとしてマッピングされたリードペアデータｖｓＬＬＲがほぼ０である区域を伴うデータセットのビン数の視覚表示を表す。

【図5C】対数尤度比率のプロットとしてマッピングされたリードペアデータｖｓ構造変異のない区域を伴うデータセットのビン数の視覚表示を表す。

【図6A】相互転座を見出すために使用可能な、典型的で単純なカーネルを表す。

【図6B】相互転座を見出すために使用可能な、典型的で単純なカーネルを表す。

【図6C】フォアグラウンド（ｆｇ）領域とバックグラウンド（ｂｇ）領域の比率を使用して特徴を分析する方法を表す。

【図6D】Ｚスコア方法を使用して識別された特徴を伴う画像を表す。

【図7】染色体内の再編成を例示するスキャホールド上にマッピングされたリードペアデータの画像を表す。

【図8A】「第２度結合」アセンブリ状況の例を表し、２つの異なるアセンブリ結果は、一次リードペアのみの分析から可能である。

【図8B】特徴検出を使用した「第２度結合」アセンブリ状況の例を表す。

【図8C】特徴検出を使用した「第２度結合」アセンブリ状況の例を表す。

【図8D】特徴検出を使用した「第２度結合」アセンブリ状況の例を表す。

【図8E】混合物（γ）におけるリードペアの存在量の貢献、およびマッピングされたリードペア密度の変化の予測におけるギャップのサイズ／距離（ｇ）（外形）を示す、２つのプロットを表す。

【図9】ＥＴＶ６とＮＴＲＫ３との間の相互転座に対応する特徴を伴う画像を表す。

【図10A】３つの異なるサンプルにおいて比較された染色体の同じペアにおける画像分析に基づく結果を表す。

【図10B】３つの異なるサンプルにおいて比較された染色体の同じペアにおける画像分析に基づく結果を表す。

【図10C】３つの異なるサンプルにおいて比較された染色体の同じペアにおける画像分析に基づく結果を表す。

【図11A】染色体１対染色体７に関する中間の標準化リード密度（１０を超えるサンプル）を表す。

【図11B】染色体２対染色体５に関する中間の標準化リード密度（１０を超えるサンプル）を表す。

【図11C】染色体１対染色体１に関する中間の標準化リード密度（１０を超えるサンプル）を表す。

【図12A】様々なビン取り扱い手法を表す。図１２Ａは等しいビンのサイズを示す。

【図12B】様々なビン取り扱い手法を表す。図１２Ｂはビンの補間を示す。

【図13】全ゲノム走査分析のパイプラインによる分析を表す。

【図14A】ＦＦＰＥベースの「Ｃｈｉｃａｇｏ」リードペアライブラリーに由来するリードペア距離頻度のデータを表す。

【図14B】ライブラリー古典的「Ｃｈｉｃａｇｏ」ベースのリードペアライブラリーに由来するリードペア距離頻度のデータを表す。

【図15A】ＧＭ１２８７８と基準との間の構造的な差異の付近でプロットされる、リードペアのＧＲＣｈ３８基準配列上のマッピング位置を例示する。図１５Ａは、隣接する２０ｋｂの反復領域を伴う８０ｋｂの逆位に関するデータを表す。

【図15B】ＧＭ１２８７８と基準との間の構造的な差異の付近でプロットされる、リードペアのＧＲＣｈ３８基準配列上のマッピング位置を例示する。図１５Ｂは、段階的なヘテロ結合の欠失に関するデータを表す。

【図16A】基準スキャホールドと比較した、マッピングされたリードペアデータ中の変位部分の誤差を表す。この場合、データの垂直部分（垂線）はプロットの代替「穴」セクション（矢印）に変位されている。

【図16B】基準スキャホールドと比較した、マッピングされたリードペアデータ中の崩壊部分の誤差を表す。この場合、部分ＢとＢ’の両方はスキャホールド上で同じ隣接部分Ａにマッピングされている。

【図16C】基準スキャホールドと比較した、マッピングされたリードペアデータ中の崩壊の反復と誤った結合（ｍｉｓｊｏｉｎ）の誤差を表す。この場合、高度に類似した配列Ｂ／Ｘは、スキャホールド中の単一のアセンブリへと崩壊されている。

【図17A】スキャホールド上のマッピングされたリードペアデータの質を改善するためにゲノム・スキャホールド・モデルを反復して改善するための、典型的なワークフローを表す。

【図17B】ジャガイモ染色体に対するモデル最適化の前にスキャホールド上にマッピングされた、リードペアデータの画像を表す。

【図17C】ジャガイモ染色体に対するモデル最適化の後にスキャホールド上にマッピングされた、リードペアデータの画像を表す。

【図18A】本明細書で提供される方法を実施するようにプログラムまたは構成される典型的なコンピューターシステムを示す。

【図18B】本発明の実施形態の一例に関して使用可能なコンピューターシステムの例を例示する。

【図18C】本発明の実施形態の一例に関連して使用可能なコンピューターシステム（７００）のアーキテクチャの第１の例を示すブロック図である。

【図18D】本発明の実施形態の一例に関連して使用可能な、複数のコンピューターシステム、複数の携帯電話、および個人用携帯情報端末、およびネットワーク接続ストレージ（ＮＡＳ）を組み込むように構成された、ネットワーク（２１００）を実証する略図である。

【図18E】本発明の実施形態の一例に関連して使用可能な共有仮想アドレスメモリ空間を使用したマルチプロセッサーコンピューターシステム（９００）のブロック図である。

【発明を実施するための形態】

【0023】

本明細書には、核酸サンプルの分析により示されるような配列スキャホールドに対する再編成の検出、視覚化、および較正に関連する方法およびシステムが開示される。再編成は、場合により、ヒト基準ゲノムと比較して評価されるように、ヒトまたは他の癌細胞に大抵生じるゲノム再編成などの、サンプルの一部またはすべてに生じる分子事象を示す。本開示が関連する交互の「再編成」は、概要的な、または以前に公開されたゲノムアセンブリを含み、これに対して相当なコンティグ情報が利用可能であるが、１つ以上のコンティグが誤って位置決めされ、例えば順序ばらばらに配され、実験的に判定されたサンプルに対し誤って配向され、高度に類似した領域が崩壊し、または不正確に結合したコンティグ構成を用いて構成される。

【0024】

これらの両事例において、本明細書中の方法とシステムの実行により、存在する場合に、以前または同時に生成された配列情報のスキャホールドと、短距離および長距離の物理結合情報を示すデータとの間の誤差の識別が可能になる。本明細書に記載される誤差は多くの場合、カーネル、特徴、またはシンボルと呼ばれる。

【0025】

構造変異（ＳＶ）、コピー数多型（ＣＮＶ）、ヘテロ結合性（ＬＯＨ）、単一ヌクレオチド変異体（ＳＮＶ）、一塩基多型（ＳＮＰ）、染色体転座、遺伝子融合、および挿入と欠失（ＩＮＤＥＬ）を含むがこれらに限定されない、フェージング情報、染色体立体配座、配列アセンブリ、および遺伝学的特徴が、本明細書に開示される方法によりもたらされる配列リードデータの分析により判定され得る。遺伝学的特徴の分析のための他の入力は、基準ゲノム（例えばアノテーションを伴う）、ゲノム遮蔽情報、および、候補遺伝子、遺伝子ペア、および／または対象の座標のリストを含み得る。構成パラメーターおよびゲノム遮蔽情報はカスタマイズ可能であり、またはデフォルトパラメーターおよびゲノム遮蔽が使用可能である。

【0026】

本明細書に記載される方法は、配列決定データの処理に関する様々な工程を利用する。随意に、各工程は、先の工程の結果または考察を利用し、結果または出力をもたらす。場合によっては、工程は省略され、または方法のワークフローにおける追加の工程と置き換えられる。いくつかの例において、配列決定データ（Ｈｉ－Ｃまたは他のペアリードプロトコルに従い生成されたデータなど）は、サンプルの処理および配列決定により得られる。配列決定データの分析のための典型的な工程は、多くの場合、リードマッピング（基準に対して１つの個体からペア配列リードをマッピングする）、リードビニング（１つ以上の特性により読み取られる群）、コピー数推定（コピー数変異、ＣＮＶ）、標準化、デノボ特徴検出、区切り点の改良、候補のスコア付け、および報告を含む（図１）。これらの工程は、ほんの一例として、特徴を識別かつ報告するための他の工程が、本明細書に記載される方法とシステムとともに使用される場合に、提供される。

【0027】

リードペアの生成
多くのリードペア生成手法は、本明細書の開示と一致している。典型的な実施形態において、リードペアは、「Ｈｉ－Ｃ」、または内部に切断された核酸分子間の結合情報を保存するためにネイティブクロマチンまたは再構成クロマチンを用いる関連手法を使用して生成されることで、分子の第１の領域と第２の領域が、それら共通のリン酸ジエステルバックボーンから独立して共に保持される。しかし、本明細書中の方法およびシステムは、広範囲のソースからのリードペアデータと一致しており、すべての実施形態が互いのリードペア生成ソースにより制限されるわけではない。

【0028】

リードペアデータのマッピング
本明細書中の多くのシステムと方法に共通するものは、スキャホールド配列軸に対して二次元マップとして随意に提示される、ビニングされた一連のリードペアの生成である。そのようなマップ上での局所的密度変異が識別され、リードペアが局所的密度変異を占めるコンティグは、再編成され、再配向され、断片化され、または、コンティグが寄与するスキャホールドを再構成するように操作され、リードペアのビニングされたアレイまたはリードペアの分布マップにおける全体的または局所的な密度変異を減らす。

【0029】

本明細書で使用されるように、リードペアのデータセットは、リードペアデータがスキャホールド配列に対してビニングまたは位置決めされる場合に、配列スキャホールドにマッピングされる。場合によっては、マッピングされたデータは、コンピューターモニターなどの上で空間的に表示され、または印刷される。代替的に、配列スキャホールドにマッピングされたリードペアのデータセットは、コンピューターのデータ記憶媒体上にデータアレイとして記憶される。リードペアデータは好ましくは、二次元空間上、またはデータアレイ内の特定位置に「ビニング」され、または割り当てられる。随意に、ビンは、マッピングされたリードペアのデータセットのコンピューター画像のピクセルにより表される。

【0030】

空間的に表されたデータは好ましくは、リードペア分離と、リードペアの個々のリードのマップ位置が、リードペアまたはマップ内の占有されたビンを表すシンボルの位置決めにおいて捕捉されるように、提示される。

【0031】

例えば、リードペアデータのマッピングに対するいくつかの手法は、垂直に測定されたビンからスキャホールド配列を表す軸までの距離が、リードペアマップの第１のリードと第２のリードとの分離に対応し、かつそれを示し、スキャホールド配列に最も強くアライメントされるように位置決めされるビンに、リードペアを割り当てる工程を含む。すなわち、スキャホールド上で互いに密にアライメントされるリードを持つリードペアは、軸付近のビンに割り当てられ、一方で、互いに長距離離れているリードを有するリードペアは、配列スキャホールドを表す軸からさらに離れたビンに割り当てられる。

【0032】

随意に組み合わせにおいて、リードペアは、スキャホールド配列を表す軸に沿って位置決めされるので、第１のリードがマッピングされるスキャホールド位置と第２のリードペアがマッピングされるスキャホールド位置との間の中点をほぼまたは正確に表す軸に沿った、最も近くの点を持つ位置またはビンを割り当てられる。データ表示に応じて、軸は、中心軸、または対角線（軸）と称することができる。場合によっては、軸は、水平に、垂直に、対角線上に、又はその他の構成により表示される。

【0033】

視覚化の一例において、リードペアはゲノムスキャホールドにマッピングされ、各ペアはｘ座標とｙ座標がある面に恬として表示され、両座標は、一致するリードペア間の距離に等しい。ｘ－ｙ面は、重複しない正方形ビンへと分割可能であり、各ビンにマッピングされるリードペアの数が作表可能である。ビンの数は、ピクセルに対応させたビンを伴う画像（例えばヒートマップ）として視覚化可能である。場合によっては、本明細書に記載されるリードペアマッピングからのデータは、水平軸を伴うプロット、またはリード密度に対応する強度を伴う２Ｄプロットとして視覚化される。いくつかの例において、データは処理され、および／または特徴は視覚化工程なしに識別される。

【0034】

低度の「バックグラウンド」は多くの場合、ビニングまたはリードペアマッピングに観察される。そのようなバックグラウンドは、データアレイまたはマップ視覚化の空のセクターにおける単一の「ナイトスカイ」ビンの点として現れる。定量的に、このバックグラウンドは、リードペアを欠いていると予測され、又は示されるマップまたはデータアレイの領域における、非常に低密度の局所ビンとして現れる。

【0035】

本開示とは別の多数の技術的要因が、そのような「ナイトスカイ」バックグラウンドを考慮する。要因には、リードペア配列の質、サンプルまたはスキャホールドの「ＧＣパーセンテージ」、または塩基対バイアス、ゲノムにおける全体的または局所的な反復性、リードとスキャホールドとのアライメントの厳密さなどの技術的パラメーターが挙げられる。

【0036】

リード配列の塩基の要求におけるエラーは、基礎の分子が実際に由来する領域とは別のスキャホールド領域へのリードのアライメントをもたらし得る。歪んだＧＣパーセンテージまたは反復性により、リードが複数の位置にアライメントされ、または配列決定時の１つの塩基の誤差がリードをスキャホールドの不正確な領域にアライメントさせる可能性が増大する。これらの可能性は、配列決定における塩基の要求の厳密さの調整、またはゲノム領域へのリードの割り当ての厳密さを増大させることにより、減る場合がある。

【0037】

しかし、これら工程の何れか、または配列の生成とアライメントのプロセスの他の部分での厳密さの増加はおそらく、大量の正確で有益なデータの分析から除外される。ゆえに、個体サンプル、配列決定プロトコル、有機体、または実験目標は、本明細書に開示されるような方法の所定の実施またはシステムの使用において「ナイトスカイ」バックグラウンドが許容される程度を規定し得る。

【0038】

局所的密度変異の判定
本明細書に開示される方法に従い、多くの場合有益なのは、リードペアデータのアレイ、またはマッピングされたリードペアのデータセットにおける局所的密度変異を評価することである。多数の手法が局所的密度変異の評価に利用可能であるので、データセットのアレイまたはマッピングされたデータセットにおいてカーネルなどの特徴を識別できる。

【0039】

局所的密度変異の評価は、当業者に既知のあらゆる手法を用いて行われる。例えば、局所的密度が判定され、マッピングされたリードペアのデータセットまたはリードペアのアレイの真隣の領域の密度と比較される。代替的に、局所的密度は、スキャホールド配列により規定される、またはそれに対応する軸に垂直な同等または同様の距離を位置決めされる領域の密度と比較される。

【0040】

局所的密度変異よりむしろ、またはそれに加えて、局所的密度変異は随意に、局所的領域を通過するとともにスキャホールド配列を表す軸と平行な線または帯に沿って、局所的密度を平均密度と比較することにより検出される。すなわち、局所的密度は、共通または同等のリードペア分離を共有するがスキャホールド全体の他の位置に分布される、リードペアの密度と同等である。

【0041】

代替的に、または組み合わせにおいて、密度値は、マップまたはデータセット全体の様々な位置に対して判定されるので、密度は、マップまたはデータセットの少なくとも１つの他の位置、例えば１、２、３、４、５、または５以下の位置の局所的密度と同等である。局所的密度は、マップまたはデータセットの少なくとも１つの他の位置の局所的密度に対して判定かつ評価されるので、局所的密度変異は、共通の密度を持つマップまたはデータセット上の位置に対応し、軸からの距離、またはその員の平均リードペア距離から独立し得る。

【0042】

同様に、場合によっては、配列スキャホールドを表す軸などの軸からの距離に応じて減少する密度勾配などの密度勾配が判定される。その後、局所的密度は、勾配の密度と同等となり、局所的密度は、局所的密度区域から軸までの距離と同等である軸からの距離の分、密度勾配値とは大きく異なる場合に、「変異」として分類される。「大幅な」相違は、当該技術分野で既知の、または本開示に一致する、あらゆる統計手法や計算手法などの手法により評価され得る。

【0043】

そのような判定後、場合によっては、局所的密度に起因するリードペアに対する「密度予測」位置が判定されることで、軸上のコンティグなどのスキャホールド成分の再配置はリードペアの位置決めをもたらし、局所的密度は、スキャホールドまたはスキャホールドコンティグの再配置後にリードペアの局所的密度に一致する、またはより密に近似する。

【0044】

コンティグまたは他のスキャホールド成分の再配置を達成することで、上記で評価されるような局所的密度変異が減り、または、全体的に予測された密度勾配に対する密度変異の全体的な測定値が減少する。多様に再配置することには、コンティグなどのスキャホールド成分を互いに対して再び順序付けること、少なくとも１つのコンティグを第２のコンティグに対して再配向すること、コンティグを少なくとも２つの成分に分けること、区切り点境界に、区切りに隣接する配列などの配列を導入すること、および、スキャホールドのコンティグの他の場所に部分を導入することが挙げられる。

【0045】

予測された密度変異は、いくつかの態様において、密度を予測するための様々なモデリング方法を使用して算出される。随意に、γ（混合物存在量）およびｇ（ギャップサイズ）に関するモデルが使用され、外形は密度の変化（または勾配）の予測速度を示す。このモデルにおいて、多くの場合、最も急激な密度変化（外形）の領域は、低い存在量／低いギャップサイズ（図８Ｅ、左）、および高い存在量／高いギャップサイズ（図８Ｅ、右）と共に見出される。追加のモデルは、本明細書に記載される方法とシステムから得られる経験的な獲得データに基づくものが挙げられ、密度の変化を予測し、随意に全体にわたり組み込まれる。

【0046】

特定の状況下での局所的密度は、マッピングされたリードペアのプロット上の規定区域に「近い」または「離れている」と定められる。いくつかの例において、中心軸「付近」と定められる区域は、中心軸に正確に位置する平均予想密度の少なくとも０．５Ｘ、０．７５Ｘ、１Ｘ、１．２５Ｘ、１．５Ｘ、２Ｘ、または２．５Ｘ以内の予測されたリード密度を持つ区域に対応する。場合によっては、中心軸から「離れている」と定められる区域は、中心軸に位置する平均密度の０．１Ｘ、０．２Ｘ、０．３Ｘ、０．４Ｘ、０．５Ｘ、０．７５Ｘ、または０．９Ｘ以下の予測されたリード密度を持つ区域に対応する。代替的に、軸の「付近」と定められた区域は、中心軸からの（塩基対における）リードペア分離距離の観点から説明される。随意に、中心軸からの少なくとも１、２、５、１０、２０、５０、１００、２００、５００、１０００、２０００、５０００、１０，０００、２０，０００、５０，０００、１００，０００、２００，０００、５００，０００、１００万、２００万、５００万、１０００万、または少なくとも２０００万の塩基対のリードペア距離は、軸から「離れている」と定められる。場合によっては、中心軸からの約１、２、５、１０、２０、５０、１００、２００、５００、１０００、２０００、５０００、１０，０００、２０，０００、５０，０００、１００，０００、２００，０００、５００，０００の、１００万、２００万、５００万、１０００万、または約２０００万の塩基対のリードペア距離は、軸から「離れている」と定められる。同様に、中心軸からの１、２、５、１０、２０、５０、１００、２００、５００、１０００、２０００、５０００、１０，０００、または２０，０００以下の塩基対のリードペア距離は、軸に「近い」と定められる。同様に、中心軸からの約１、２、５、１０、２０、５０、１００、２００、５００、１０００、２０００、５０００、１０，０００、または約２０，０００の塩基対のリードペア距離は、軸に「近い」と定められる。代替的に、リードペア距離は各ビンにより表され、各ビンは、塩基対におけるリードペアの範囲を表す。

【0047】

本明細書に記載される方法の様々な具体化において、２つの規定区域間のリード密度は、カーネルの境界または存在を確立するために比較される。場合によっては、この差異は、少なくとも１０％、２０％、５０％、８０％、１００％、２００％、５００％、８００％、１０００％、２０００％、５０００％、または少なくとも５０００％である。他の例において、この差異は、約１０％、２０％、５０％、８０％、１００％、２００％、５００％、８００％、１０００％、２０００％、５０００％、または少なくとも５０００％である。

【0048】

本明細書に記載される方法の様々な具体化において、観察密度と予想密度との間のリード密度の差異は、モデルスキャホールドとマッピングされたリードペアデータとの誤差を識別するために比較される（「より高い」または「より低い」）。場合によっては、この差異は、少なくとも１０％、２０％、５０％、８０％、１００％、２００％、５００％、８００％、１０００％、２０００％、５０００％、または少なくとも５０００％である。他の例において、この差異は、約１０％、２０％、５０％、８０％、１００％、２００％、５００％、８００％、１０００％、２０００％、５０００％、または少なくとも５０００％である。

【0049】

複合再編成の評価
リードペアのビンのアレイまたはマップの分析は、場合によっては、配列スキャホールドに対して特定の再編成と一致するビンの分布を示す。多くの場合、特定の再編成は、ビンのアレイまたはマップに複数の影響と兆候を及ぼし、染色体などの分子上の再編成またはスキャホールド配列などの予測された配列における複数の事象の程度と共起に左右される。

【0050】

再編成を示すデータのアレイまたはマップにおける局所的密度変異の識別に際して、本明細書中のいくつかの方法とシステムを介して、二次的な局所的密度変異、または、再編成における複数の事象の程度または共起を示す局所的密度変異の詳細に関する統計が、挟持される。例えば、単純な転座事象は、特徴的な局所的密度分布をもたらし、この分布は、マップまたはビニングされたデータアレイの密度分解能よりも大きな長さの断片と共に生じた場合、対称的な局所的密度分布をもたらす。しかし、転座またはスキャホールドの再編成が、分子またはスキャホールドの全腕ではなく内部部分を対象とする場合、部分がマップまたはビニングされたデータアレイの密度分解能内にあれば、１つ以上の摂動を確認できる。事象を示す局所的密度分布は、軸にその最も近い点で局所的密度変異を二分する線に沿った左右対称性を欠く場合がある。代替的に、または組み合わせにおいて、第２の局所的密度分布が、第１の局所的密度変異にマッピングされた場合に先の局所的密度変異との対称性を回復するリードを予測する領域にマッピングされる１つのリードを有する、リードペアを含むと検出される。そのような密度分布は多くの場合、サンプル分子またはスキャホールドにおける複合再編成を示すので、２つの区切り点が、３つの別個の部分を、最初の、または予測されたスキャホールドに繋げる。

【0051】

典型的な複合再編成の「第２度結合」状態は、図８Ａに例示される。配列ａ－ｇ（図８Ａ、上部）は、フラグメント（ａ－ｇで標識）を形成すると示される部位にて分割され、生成物（図８Ａ、下部）を形成するべく再編成される。フラグメントａとｇ両方のフラグメントｄへの共通の結合は分析を複雑し、ａ－ｄ－ｅ／ｃ－ｄ－ｇおよびｄ－ｇの両方で再びアセンブルされたフラグメントと一致するシグナルを生成する。しかし、両方のシナリオは、場合によっては、図８Ｂに存在し、かつ図８Ａには存在しないａ－ｄ－ｇの付加的な長距離シグナルａ－ｇ（ａ－ｄ－ｅ／ｃ－ｄ－ｇ）を識別することで区別される。いくつかの例において、方法はさらに、これらの長距離シグナルの観察に起因する偽陽性融合要求の可能性を減らすために使用される（図８Ｄ）。偽陽性を減らす１つの方法において、すべての融合要求は、共有された区切り点により分類され、融合要求は、両区切り点をより高いスコアの要求と共有する場合に拒絶される。偽陽性を減らす別の方法において、モデルベースの判別方法を適用して、γ（混合物存在量）およびｇ（ギャップサイズ）に応じて尤度を調べ（図８Ｅ）、外形は密度の変化の予想速度を予測する。

【0052】

局所的密度変異の幾可学的形状
局所的密度変異は多くの場合、軸の方を「指し示す」少なくとも１つの直角縁を持つようにマッピング出力において現れ、そのため、角度を局所的に二分する線は、局所的密度変異から軸までの最短距離を表す。

【0053】

いくつかの局所的密度変異は正方形であり、軸に垂直に描かれ、かつ軸を指し示す直角縁を二分する線に沿った左右対称を示している。

【0054】

代替的に、いくつかの局所的密度変異は上述のような左右対称を示すが、局所的密度変異の他の場所に対して軸の方を指し示す直角縁にて相当大きな局所的密度変異により、十分に規定されていない遠位縁または境界を有している。

【0055】

代替的に、いくつかの局所的密度変異は正方形ではなく長方形であり、軸に対し垂直に描かれ、かつ軸の方を指し示す直角縁を二分する線に沿った左右対称性を欠いている。極端な場合、そのような局所的な濃度変異は、より低レベルの分解能にて線形であると考えられる。加えて、局所的密度変異は、上述のものとは別の構成を持つと観察される。

【0056】

代替的に、いくつかの局所的密度変異は、「蝶ネクタイ」形状であり、中心点は、部分長さと、軸から離れた同じ距離との間のほぼ途中に規定される。中心点において直角に交差する４つの密度領域が場合によっては観察され、領域の境界線は４５度で軸と交差し、軸上の部分の境界を通過する。１つの密度領域は随意に、軸により境界を付けられ、場合によっては、軸により境界を付けた領域に隣接する領域の密度は予想よりも高い。

【0057】

局所的密度からの情報
本明細書に開示される方法およびシステムは、本明細書中の様々な手法において多数の目的に対して使用される局所的密度判定を可能にする。

【0058】

スキャホールド配列を表す軸に最も近い直角縁に見られるものなど、局所的密度変異のピーク変異は、場合によっては、関連するゲノムの事象のコピー数の基準として有益である。すなわち、隣接した部分を示す局所的密度変異は、単独で、または他のマップまたはビンのアレイ情報と組み合わせて、そのピーク密度に関して分析される。この密度は、マップまたはデータセットのための軸から直ちに（ｉｍｍｅｄｉａｔｅｌｙ）離れたピーク密度と比較される。多様に使用されるメトリックは、軸上密度の平均、中央、形態、または他の基準を含む。

【0059】

両者の整数比率を示す比較は、場合によっては、局所的密度変異に関連付けられる事象の倍数性を示す。すなわち、局所的軸密度の半分の密度は、２倍性サンプル中の１倍性の事象を示す。局所的軸密度の８分の１の密度は、８倍性サンプルの１つの染色体に生じる事象を示す。局所的軸密度の８分の５の密度は、８倍性サンプルの５つの染色体に生じる事象を示す。他の組み合わせも当業者に明白であり、例えば、４倍性ゲノム中の１／４、１／２、または３／４、８倍性ゲノム中の８つのうち１、２、３、４、５、６、７、または８、６倍性ゲノム中の６つのうち１、２、３、４、５、または６、または、サンプルのゲノム倍数性と一致する範囲内の整数比率を含む、またはそれに近似する他の割合が挙げられる。同様に、遺伝子採取の異質性は、いくつかの例において、局所的密度における整数変異を生じさせる。例えば、密度は、１倍性サンプルに対して予測密度の１／１０で明白となり、ゲノムの１／１０が事象を含むことが示される。これら事象は多くの場合、腫瘍、または他の多様な細胞の集団などの、異種混合の細胞集団において明示される。

【0060】

代替的に、または組み合わせにおいて、局所的密度変異に対するピーク密度は、スキャホールド配列を表す軸に最も近い直角縁に見られるように、場合によっては、スキャホールド配列に関連するゲノムの事象の縁間の距離の基準として有益である。すなわち、物理的に結合した部分を示す局所的密度変異は、単独で、または他のマップまたはビンのアレイ情報と組み合わせて、そのピーク密度に関して分析される。この密度は、マップまたはデータセットの軸から直ちに離れた距離に及ぶ密度勾配と同等であり、軸からさらに遠くのバックグラウンド密度にまで減少する。多様に使用されるメトリックは、密度勾配上の点を判定するために軸上の密度の平均、中央、モード、または他の基準を含む。

【0061】

局所的密度変異の密度は、比較可能な密度を有する勾配上に軸外距離を見出すように判定され、リードペアのビン密度勾配と比較される。その後、スキャホールド配列は、それらの密度が勾配の密度に一致するように、局所的密度変異のリードペアを位置決めするように再構成される。したがって、スキャホールド成分は、データアレイ、または勾配に対するマップにおける総合密度変異を減らすように再構成される。

【0062】

完全なスキャホールド上にマッピングされたリードペアデータの理想的なセットでは、密度のほぼ全てが中心軸に等しく分配される。代替的に、密度の分布はデータのモデルを使用して予測されることで、軸から減少する予想密度または密度勾配が生成される。対角線軸上の予想密度に対する高密度または低密度の区域は、いくつかの例において、リードペアデータとスキャホールドモデルとの間の誤差を示す。例えば、軸上の予想密度よりも大きな区域は、いくつかの例において、スキャホールドモデルの崩壊したフラグメントを示す。別の例において、軸上の予想密度よりも小さな区域は、いくつかの例において、スキャホールドモデルの２つのフラグメント間の誤った結合を示す。一態様において、誤った結合は、２つの染色体を不正確に接続する。軸上の密度変異は、いくつかの態様において、観察されたリードペアデータとスキャホールドモデルとの間の、任意数の誤差を記載する。

【0063】

密度の数理モデル
密度データ処理の一態様において、ゲノム位置のプロット（例えば、マッピングされたリードペアの中点位置により表される）は、リードペア分離に対してプロットされる。構造的変異（ＳＶ、誤差、特徴など）のないゲノムにおいて、大部分の点がベースライン付近に分配される（図３Ａ）。しかし、逆位などの変異の存在は、図３Ｂと図３Ｃに表されるものなどのプロットをもたらす。点を欠くベースライン付近の区域は、逆位部分の縁を表す。構造的変異は、いくつかの例において、図３Ｄに示されるように特徴またはカーネルとしてモデル化され、部位ａおよびｂは事象の縁であり、明るい色の点は、ａとｂの中点（点線の交点）上に反映され、多くの場合特徴を識別するために使用される。随意に、尤度比率は、１）ＳＶがゲノムに存在する仮定と２）ゲノムが基準に一致する仮定とを比較して算出される。場合によっては、仮定ｈは、線形動作として公式化され、ビン：Ｃ_ｉｊとセットＡ_ｉｊにおけるリードペア数のセットとして対象の領域中のデータを各ビンの区域に表現すること、ｉ，ｊのビンに対するリードペア（Ｓ^ｈ _ｉｊ）あたりの対数尤度比率（ＬＬＲ）貢献を算出すること、およびｉ，ｊのビン（Ｔ^ｈ _ｉｊ）の単位区域あたりの対数尤度貢献を算出することを含む。１つの典型的な式において、ＬＬＲスコアは次のように表現される：

【0064】

【数1】

【0065】

いくつかの例において、複数のＳＶに対する尤度比率を算出することが有益である。例えば、ペア（Ｓ^ｈ _ｉｊ、Ｔ^ｈ _ｉｊ）は、ゲノム中のすべてのオフセットｋにおいてＳＶを検索するために使用される。

【0066】

【数2】

【0067】

このプロセスは随意に、ゲノム中のすべてのＳＶに対する尤度比率を算出するために反復される。

【0068】

別の例において、図４Ａにおける変異の各々が分析される。ほんの一例として、逆位、欠失、縦列重複、および逆位重複を含む各変異には、ゲノム中で明白な分離ｄ_０、および起こり得る真の分離ｄ_ｉでマッピングされるリードペアがある。場合によっては、ｄ_ｉは、図４Ｂ－４Ｇに表される変異における４つの領域（０、１、２、３）の各々に対して判定される。

【0069】

リードペア分離の変化は多くの場合、例えば次の式により表されるＣｈｉｃａｇｏ尤度モデルを用いてカーネル要素へと変更される：

【0070】

【数3】

【0071】

式中、ｎはＮ回試みのうちの「まれな」結果へのヒットを表し、ｐはまれな結果の全体的な可能性であり：

【0072】

【数4】

【0073】

ｍは、重複の場合に、多様な代替的なシナリオである。

【0074】

【数5】

【0075】

またはヘテロ結合の場合に対して随意に：

【0076】

【数6】

【0077】

時折、ビンは、特徴またはカーネルに対する領域境界に重なる。１つの潜在的な解法は、Ｓ^ｈ _ｉ，ｊに対してｍａｘ（）、およびＴ^ｈ _ｉ，ｊに対してｍｉｎ（）を使用して、各重複領域の区域と質量中心を算出することを含む。当業者により認識されるように、代替的な特徴分析の式とアルゴリズムも、本明細書中の方法とシステムと共に使用される。

【0078】

画像処理技術などの追加の分析技術は、異なる再編成などの遺伝学的特徴のシグネチャを識別するために多様に使用される。例えば、カーネルコンボリューションのフィルタ処理を使用して、ペアリードの二次元プロットを分析することにより、融合されるゲノム遺伝子座のペアに対応する画像中の点を見つけることができる。図６Ａと図６Ｂは、相互転座を見つけるために使用可能な典型的で単純なカーネルを示す。様々な事例において、局所的ｚスコアは、カーネルのフォアグラウンド領域とバックグラウンド領域との比率として規定されるｚスコアのコントラスト値を計算することでカーネルに対して算出され、これは各ピクセルに対して反復される（図６Ｃ）。ｚ－スコアリングから識別された特徴（円で囲んだ部分）を持つ典型的な画像を、図６Ｄに示す。いくつかの例において、ＥＴＶ６とＮＴＲＫ３との相互転座が識別される（図７）。右上部分と左下部分にある「蝶ネクタイ」形状の特徴は、相互転座のゲノム特徴のこれら２つの領域間の相互作用を示す。いくつかの態様において、染色体間の再編成は、局所的なｚスコア検出の方法により識別される。このプロセスは随意に、画像中のすべてのピクセルに対して反復される。場合により、閾値を越えるすべての局所的最大値は、特徴の候補ヒットと考慮される。

【0079】

スキャホールドのモデリング
核酸フラグメント（コンティグ、クラスターなど）の関連性は、いくつかの例において、数学的グラフモデルにより表され、各配列はノードであり、および、アセンブリ中の任意の２つのフラグメント間の界面は、２つ以上のノードを接続する縁として表される。縁を介して（および各ノードを一度だけ通過させる）を介して全てのノードを接続する経路は、場合によっては、配列決定フラグメントのアセンブリの解法を表す。多くの場合、配列決定データフラグメント中の固有の重複領域の欠如は、アセンブリに対して複数の解法（または経路）をもたらす。例えば、フラグメントＡ、Ｂ、およびＣの理想化された１倍性の系列において、線形様式で３つすべてのフラグメントを接続するための６つの異なる選択肢（または経路）が想定される。しかし、ノードＡ／ＢとＢ／Ｃとの間の縁が、編成Ａ－Ｂ－Ｃに対応するスキャホールドモデルを持つ中心軸上またはその付近にあるマッピングされたリードペア密度のグラフ上にカーネルとして明示される場合、モデルは正確に単一経路Ａ－Ｂ－Ｃに一致する。特定の場合、縁（例えば、縁Ａ／Ｂ）に対応する領域は、特徴に対応する密度には存在せず、編成は、スキャホールドモデルに情報を伝える「遮断縁」を含み、起こり得る経路の数を減らす。遮断縁は、場合によっては、経路がグラフモデルの２つのノード間に規定されるのを妨げ、これら２つのフラグメントが隣接していないアセンブリに情報を伝える。随意に、各縁は、解法経路の一部としてその縁を利用する尤度を規定する、加重因子を与えられる。加重因子は、場合によっては、２つのノードが接続される尤度を表す。Ａ－Ｂ－Ｃのスキャホールドモデルに関して、いくつかの例において、予想よりも低い密度が対角線上に観察され、ここではＡ－Ｂの特徴が予想され、縁Ａ－Ｂの加重因子を減らす。実用的な意味合いでは、これにより、いくつかの例において、配列のグラフモデルに対してノードを通る経路の数の単純化が可能になる。別の例において、縁Ａ－Ｃに対応する特徴は、軸上のフラグメントＡの位置を二分する水平線と、軸上のフラグメントＣの位置を二分する垂線との交点に観察される。Ａ－Ｂ－Ｃのスキャホールドモデルに関して、このことは、場合によっては、ノード（またはフラグメント）ＢがフラグメントＡとＣとの間のスキャホールドモデルにおいて不正確に配置されたことを示し、これらは隣接していなければならない。

【0080】

より複雑な転座事象は多くの場合、遮断縁の追加により補助される。例えば、図８Ａは、２つの異なる再変性／経路（左と右）を表し、それぞれ縁接続フラグメントがａ／ｄとｄ／ｇを有している。このアセンブリ状態、およびその他多くは多くの場合、グラフ理論モデルの適用により処理される。マッピングされたリード密度の不足に対応するａ／ｇ（上部同心円、図８Ｂ）の間に遮断縁を加えることによって、ａ－ｄ－ｅおよびｃ－ｄ－ｇを接続する単一経路のみが、最も起こり得る。代替的に、同心円により表される２つの領域中の密度の不足をもたらすａ／ｅおよびｃ／ｇ（２セットの同心円、図８Ｃ）の間に遮断縁を加えることにより、ａ－ｄ－ｇを接続する単一経路のみが、最も起こり得る。随意に、より複雑な転座事象も、この一般的な戦略を使用して分析される。

【0081】

モデルの評価
多くのフラグメント（ノード）から成るスキャホールド、染色体、またはゲノム全体は、いくつかの態様において、この方法を使用して説明可能であり、これに関して、ノードを通る経路により表される多くのアセンブリ解法が評価される。多くの場合、変異体は、内部染色体変異体として存在し、データ分析の様々な方法、例えば複数のポテンシャル式により定められるモデリングなどを用いて、対処される。データ分析の１つの典型的な方法において、ゲノムモデル「スキャホールド」は、Ｈｉ－Ｃデータセットなどの配列決定データセットから構築される。随意に、データは腫瘍から獲得され、ゲノムの混合物、または対立遺伝子に対してヘテロ結合性で他のサンプルも含む。いくつかの態様において、高度の遺伝子異質性を含むゲノムのセット（腫瘍など）は、ゲノムモデルの加重されたセットとしてモデル化され、次の式により定められる：

【0082】

【数7】

【0083】

式中、各ゲノム（Ｇ_１、Ｇ_２など）は、染色体のセットの加重されたモデル（加重因子α）モデルとして定められる。場合によっては、各染色体（Ｃ）は、ゲノム上のビンの線形グラフとして定められる：

【0084】

【数8】

【0085】

いくつかの実施形態において、１対のゲノムビン（ｉ、ｊ）のペアを接続するためにマッピングされるリードペアの数は、ポアソン分布として定められる：

【0086】

【数9】

【0087】

λ_１およびλ_２のリードそれぞれを予測する２つのモデルの対数尤度比率に関する典型的な式は、次のとおりである：

【0088】

【数10】

【0089】

いくつかの態様において、モデルは、ゲノムからのライブラリーによるリードペアモデルがビンｉ，ｊに属する確率を提供する。等方性のモデル（トランス活性化ドメイン（ＴＡＤ）なし）に関して、確率は随意に、次のように表現される：

【0090】

【数11】

【0091】

式中、ｄ^ｇ _ｉ，ｊは、ゲノムｇにおけるビンｉとｊとの間の最短経路の距離であり、ｐ（ｄ）は経験的なリード経路分離分布である。代替的に、または組み合わせにおいて、リードペアの確率は、ビンｉおよびｊに対するコピー数とマッピング可能性の観点により入り組んでいる。場合によっては、位置に特異的なＴＡＤを含む非等方性モデルが使用される：

【0092】

【数12】

【0093】

またはより一般的な形態が使用される：

【0094】

【数13】

【0095】

モデルの修飾と改善は多くの場合、データの質と精度を高める。多くの場合、新たな構成要素をモデルに加えて、データを説明するモデルの能力を増大させる。例えば、モデルＭｋの配列は、基準スキャホールド、または比較ゲノムスキャホールドから生成された初期のモデルを改善するために生成される。多くの場合、Ｍ_ｋ＋１は、１つの新たなゲノムｇ_ｋ＋１をＭ_ｋに加え、１＜ｉ＜ｋに対する重量γと重量αｉはそれぞれ、（１－γ）αｉへと更新される。Ｍｋ＋１に対する所定の複数の候補、場合によっては、スコアΔＳ中の最大の増加へと通じる候補が、選択される：

【0096】

【数14】

【0097】

例えば、いくつかの例において、最良のモデルは、ΔＳを最大限にするγの選択により見出される。代替的に、または組み合わせにおいて、重量α_ｉはすべて、増加したΔＳを得るよう調整される。

【0098】

いくつかの態様において、すべての（ｉ，ｊ）に対して合計されたときに大きな値のΔＳをもたらす、新たな混合構成要素の候補が獲得される。しかし、多くの場合、これら潜在的なモデル構成要素のΔＳへの貢献は、融合結合付近のｉｊ面に集中する。いくつかの例において、局所画像のフィルタ処理は、候補の編集を識別する。そのよう局所検索が、ビンｒとｓとの間の高スコアの（ゆえに、現行のモデルにより説明されない）接触を識別すると、この接触は随意に、新たな「ゲノム」に、または、混合物に既に存在するゲノムの１つに対する編集として追加される。特徴検出方法は、場合によっては、見出される特徴を説明するために、モデルの候補への修飾を提案する。例えば、特徴検出方法の基本的なセットは、次の１つ以上を含む：「相互転座＋」、「相互転座－」、「転座＋＋」、「転座＋－」、「転座－＋」、「転座－－」、または「区切り」の方法。特徴検出方法は多くの場合、例えば次の特徴を出力する：ビンｉの後の区切り、ビンｊの前の区切り、またはビンｉのビンｊへの結合。いくつかの例において、方法は、特徴とモデルのリストをとり、スコアリングの代替的なモデルを生成する。例えば、モデルが既にｎ個の代替的なゲノムから成る場合、方法は随意に、これらｎの各々に特徴の編集を適用し、それぞれの新たなコピーを作り出すことで編集を合計２ｎの代替的なモデルに適用する。他のスコアリングモデルも、この方法の実施中に利用される。

【0099】

別の特徴識別技術において、モデリングは、内部染色体再編成を識別するために使用される。例えば、再編成が生じる尤度は多くの場合、対数尤度比率（ＬＬＲ）が２つの仮定間の比率であると推定することにより判定される：

【0100】

【数15】

【0101】

式中、

【0102】

【数16】

は、仮定ｉの下での２Ｄ接触面の領域におけるリードの予想数であり、Ｐ^ｉ _ｊは、リードペアｊに対する仮定ｉにより分離が示唆されているリードペアをサンプリングする可能性であり、挿入サイズ分布モデルが与えられる。いくつかの例において、仮定は、バックグラウンド、および頻度λにおいて混合されたバックグラウンドと信号である。いくつかの態様において、仮定は、ａ）変異が分析中のゲノムの区域に存在する、およびｂ）ゲノムが基準に一致するというものである。例えば、２つの仮定に対するＬＬＲスコアＳを算出するために、（１）リードは、画分が基準に対して遺伝子座ｉとｊとの融合を含むゲノムの混合物から生成され、（０）そのような接触はｉ、ｊ付近には存在しない。

【0103】

【数17】

【0104】

ギャップｄ_０により分離されるゲノム上で２つの小さなビンに関するｎ個のリードにより寄与されるスコアは、再編成された遺伝子型（２Ｄ接触面の小さな領域）においてリードがｄ_１により分離されるように、試験される接触（ｉ、ｊ）に対して位置決めされ、多くの場合、以下のように表現される（小さなビンの近似を作り出す）：

【0105】

【数18】

【0106】

スコアＳは、各方向ｉ、ｊでのｗ個のビン内の貢献ｄＳの面にわたる合計である。

【0107】

【数19】

【0108】

場合により、スコア「Ｓ」は、γに関して変異体存在量を推定する。γ→１である限界において、これは分離可能となり、カーネルコンボリューションによる計算に従う：

【0109】

【数20】

【0110】

式中、Ｍは、観察されたリード数のマトリクスであり、Ｋ_Ｓ１は、要素ｌｎＰ（ｄ^ｋ，ｌ）を伴う特徴検出カーネルであり、Ｋ_０は、１に等しいとともにカーネルのフットプリントを覆う要素を伴う自明のカーネルであり（対角線距離の外形に等しい）、Ｑは、ＭおよびＰ（ｄ）の要素毎の積に等しい要素を伴うゼロの仮定リード尤度貢献であり、Ｎ^Ｋ _１は、カーネルの範囲における再編成された遺伝子型から予想されたリードの数を表す定数であり、Ｎ_０は、リードの数が仮定０の下で予想されることを示す要素を伴うマトリクス（対角線の外形）である。最初の１→γの順では、以下のとおりである。

【0111】

【数21】

【0112】

場合によっては、これ（例えば、γ＜１）を以下のように近似させることが合理的であり、

【0113】

【数22】

なぜなら、この項

【0114】

【数23】

は多くの場合小さく、Ｐ（ｄ^ｋ，ｌ）＞＞Ｐ（ｄ^{ｉ＋ｋ，ｊ＋ｌ}）である。

【0115】

いくつかの態様において、尤度関数はコンティグの順序と配向を決定する。場合によっては、尤度関数は、ｋ＋１ビンへと型変換されたＮ個のボールの特定の構成を観察する多項確率に由来し、０、１．．．ｋの番号を付けられ、ｘ_ｉは、ｉ番目のビンに入るボール（またはペアエンドリード）の数であり、Ｐ_ｉは、ボールがビンｉに入る確率である：

【0116】

【数24】

【0117】

一例において、ビン０は、残る「まれな」ビンよりもはるかに高い確率を持つ。ｎ≪Ｎ個のボールが「まれな」ビンのｍに入り、残るＮ－ｎのボールがビン０に行き着く場合、確率は多くの場合、以下のように記載される：

【0118】

【数25】

【0119】

式中、ｊは、ボールを受ける稀なビンにインデックスを付ける。一般原理の損失なしに、いくつかの例において、ビンは、その第１のｍがボールによりヒットを得るものであるように、１…ｋで再び番号を付けられる。Ｐ_ｉ ^ｘｉ（ｉ＞ｍおよびｘ_ｉ＝０であるビンに関する）の残りの因子はすべて、１に等しい。随意に、稀なビンが非常に希少であるため１より多くのボールによりヒットがなされないという仮定が適用され、ｍ＝ｎであり、式を以下に減じる：

【0120】

【数26】

【0121】

Ｐ_ｉ上での標準化条件、およびすべての稀なビンを組み合わせた確率としての利便性に対しｐを規定することにより、以下になる：

【0122】

【数27】

【0123】

ポアソン限界定理から、Ｎが非常に大きく、かつｐが非常に小さい場合、以下である：

【0124】

【数28】

【0125】

式中、λ＝Ｎｐである。いくつかの態様において、これにより、確率の表現における組み合わせの因子が単純化される。いくつかの例において、置換ｎ＝ｋが行われ、近似が以下のように再び書かれる：

【0126】

【数29】

【0127】

対数確率は、場合により以下の方法で表現される：

【0128】

【数30】

【0129】

場合によっては、Ｐ_ｉは、

【0130】

【数31】

へと標準化される。多くの場合、ｎを統制する二項分布にポアソンの近似が使用され、これは多くの場合、Ｎが大きく、かつ

【0131】

【数32】

である限り有効であり、最大１つのボールが所定のまれなビンにあると仮定される。いくつかの例において、対数尤度比率は以下のように表現される：

【0132】

【数33】

【0133】

スキャホールドモデルの最適化は、場合によってはスコアＳの低下をもたらし、十分にデータを説明するモデルを示している。この最適化プロセスは随意に、モデルと、マッピングされたリードペアデータとの間の全ての誤差が取り除かれるまで繰り返される。図１７Ａでは、スキャホールドモデルを改善するための例示的なワークフローが確認でき、生の結合密度データを得る工程、接触電位スコアを精製する工程、側面グラフ編集を行う工程、距離場を精製する工程、および現行の側面グラフに対する接触電位をアップデートする工程が含まれる。場合によっては、このプロセスは、ゲノムの対話式にアップデートされたグラフベースのモデルをもたらす。いくつかの例において、このプロセスは、特徴の識別のためにマッピングされたリードペアデータの品質を改善するために繰り返される。接触電位スコアは、いくつかの例において、プロット中のあらゆる電位特徴（または誤差）に生成される。側面グラフ編集は、場合によっては、アセンブリのグラフモデル中の縁に与えられる重量を変更することを指し、このことは、最も起こり得るアセンブリ解法に影響を及ぼす。いくつかの態様において、これら側面グラフ編集は、スキャホールド中のフラグメントを再び順序付けすること、フラグメントを取り除くこと、フラグメントを重複させること、または、スキャホールドモデルとリードペアデータとのより良い一致を作成するためにフラグメントを壊すことに相当する。いったん編集が行われると、グラフモデルを通る最短経路が多くの場合識別され、リードペアデータは新たなスキャホールドモデル上へとマッピングされる。別の工程において、スキャホールドモデルとリードペアデータとの間の起こり得るすべての誤差が再評価され、新たなスコアが生成される。随意に、これらの工程を反復することで、全体的なスコアが最小化され、より正確なスキャホールドアセンブリが示される。全体的な効果は、場合によっては、例えばモデルの最適化前に得られる図１７Ｂと、その後に得られる図１７Ｃとの間の差異において、視覚的に観察される。

【0134】

ゲノムのモデル化、および確率の表現のための他の式と方法も、本明細書に記載される方法とシステムと共に使用される。

【0135】

コピー数推定
コピー数変異の計算は多くの場合、例えば癌に関連する突然変異を持つ遺伝子コピーの数の評価において、疾患状態を評価するのに有益である。突然変異に対するコピー数の推定は、広範囲の手法、例えば、マップの他の場または位置、または密度勾配場に対する、局所的密度変異の密度評価に関連する手法などを使用して、判定される。場合によっては、コピー数変異は次の式を使用して算出される：

【0136】

【数34】

【0137】

式中、Ｎ_ｉはビンｉにおけるマッピングリードの数であり、Ｎはマッピングされたリードの総数であり、ｗはビンの幅であり、Ｇはゲノムサイズであり、ｃ_ｉはビンｉのコピー数であり、ｍ_ｉはビンｉのマッピング可能性である。マッピング可能性は、いくつかの態様において、ゲノムのセクションを再びアセンブルする能力を指し、これは場合によっては、高度反復配列により阻止される。場合によっては、Ｎ_ｉとｍ_ｉが共に小さい場合、ｃ_ｉは１に向かって偏る。いくつかの例において、染色体はビンへと分割され、マッピングされたリードペアは、ペアの中点に基づいてビンへと選別される。いくつかの例において、ゲノムのビンｉとｊに結合するリードペアの数は、次の式に従う：

【0138】

【数35】

【0139】

２Ｄヒストグラムは、場合によっては、異なるサンプルのコピー数データを視覚表示するために生成される（図２Ａ－２Ｃ）。別の態様において、２Ｄヒストグラムを標準化して、コピー数の差異から長距離接触の信号を単離する：

【0140】

【数36】

【0141】

２つ以上のサンプルは多くの場合、マッピング可能性の効果を視覚化するために比較される。例えば、サンプルＣＴ４０７（図２Ａ、左）とＣＴ４１０（図２Ａ、右）は、図２Ｄの各軸に対して互いにプロットされる。対角線の外側にある点は、いくつかの態様において、比較される２つのサンプル間のコピー数の差異を表す。代替的に、または組み合わせにおいて、上記工程は、視覚化の補助なしに実行され、代わりに、非一時的コンピューター媒体に記憶される。当業者は、代替的な式がコピー数の差異の評価にも使用されることを認識する。

【0142】

配列決定
配列リードデータなどの入力は、適切なファイル形式で形式設定可能である。例えば、配列リードデータは、ＦＡＳＴＡファイル、ＦＡＳＴＱファイル、ＢＡＭファイル、ＳＡＭファイル、または他のファイル形式で含まれ得る。入力配列リードデータはアライメントされない場合がある。入力配列リードデータはアライメント可能である。

【0143】

配列リードデータは、分析のために調製可能である。例えば、リードは、品質のためにトリミング可能である。必要ならば、リードは配列決定アダプターを取り除くためにもトリミング可能である。

【0144】

配列リードデータはアライメント可能である。例えば、リードペアは、特定の基準ゲノムへとアライメント可能である。場合によっては、基準ゲノムはＧＲＣｈ３８である。アライメントは、様々なアルゴリズムまたはツール、例えば限定されないが、ＳＮＡＰ、Ｂｕｒｒｏｗｓ－Ｗｈｅｅｌｅｒアライナー（例えばｂｗａ－ｓｗ、ｂｗａ－ｍｅｍ、ｂｗａ－ａｌｎ）、Ｂｏｗｔｉｅ２、Ｎｏｖｏａｌｉｇｎ、およびそれらの修正版または変形版などを用いて実行可能である。

【0145】

分析の品質管理（ＱＣ）報告も作成可能である。ＱＣ報告を使用して、失敗したライブラリーを識別した後、より深い配列決定を実施できる。そのような品質管理報告は、様々な測定基準を含み得る。ＱＣ測定基準には、限定されないが、リードペアの合計、重複（例えばＰＣＲ重複）のパーセント、マッピングされていないリードのパーセント、マップ品質が低い（例えば、Ｑ＜２０）リードのパーセント、異なる染色体にマッピングされたリードペアのパーセント、０～１ｋｂｐのリードペア挿入（マッピング位置間の距離など）のパーセント、１ｋｂｐ～１００ｋｂｐのリードペア挿入のパーセント、１００ｋｂｐ～１Ｍｂｐのリードペア挿入のパーセント、１Ｍｂｐより上のリードペア挿入のパーセント、ライゲーション結合を含むリードペアのパーセント、制限フラグメント端部への近接、リードペア分離プロット、およびライブラリー複雑性の評価が挙げられる。ＱＣ測定基準を使用して、分析を最適化し、かつ、試薬、サンプル、およびユーザーにおける品質の問題を識別できる。配列アラインメントは、ＱＣ測定基準の１つ以上に基づいてフィルタ処理可能である。重複したリードも、例えば密に対応する位置でのリードの比較に基づいてフィルタ処理可能である。

【0146】

配列リード分析の結果は、結合密度の結果を含み得る。結合密度の結果は、結合密度の結果の全ゲノム、１つの遺伝子座、および２つの遺伝子座の視点を含み得る。結合密度の結果は、データセットとして出力可能である。結合密度の結果は、染色体またはゲノムの領域間の相互作用（例えば接触）のヒートマップなどの結合密度プロット（ＬＤＰ）として提示可能である。結合密度の結果は、品質スコアなどのスコアに関連付け可能である。場合によっては、結合密度の視覚化は、スコア閾値を越える結果に対して出力される。一例では、視覚化は、全ゲノムに対し、スコア閾値を越えるデノボ要求に対し、スコア閾値を越える片側の候補要求に対し、および、陰性と分類されるものを含む両側候補すべてに対して、含まれる。結合密度の視覚化は、スケール（例えばカラースケール）、長さスケールバー、遺伝子ネームラベル、遺伝子に対するエクソン／イントロン構造グリフ、および検出された再編成の強調を含み得る。

【0147】

結合情報を標準化して、効果とバイアス、例えばカバレッジ、フラグメントのマッピング可能性、フラグメントのＧＣ含量、およびフラグメントの長さなどを制御できる。標準化は、マトリクスの平衡化、または他の要因作動方法により実施可能である。マトリクス平衡化は、Ｓｉｎｋｈｏｒｎ－ＫｎｏｐｐアルゴリズムまたはＫｎｉｇｈｔ－Ｒｕｉｚ標準化などのアルゴリズムを利用できる。標準化を実行することで、偽陽性を引き起こしかねないバックグラウンドシグナルの較正もできる。例えば、図１０Ａ、図１０Ｂ、および図１０Ｃは、３つの異なるサンプル中で比較された同じペアの染色体における、画像分析に基づく結果を示す。様々な「ヒット」（図中の円で囲んだ部分）が、複数のサンプル全体の同じ位置に見出され、これらが偽陽性であるという疑いを生じさせる。サンプルのプール（例えば１０のサンプル）にわたる中央の標準化リード密度などによる標準化を使用して、例えば中央ピクセルでサンプルピクセルを分割することによって個別のサンプルデータを較正できる。図１１Ａ、図１１Ｂ、および図１１Ｃは、染色体１対染色体７（図１１Ａ）、染色体２対染色体５（図１１Ｂ）、および染色体１対染色体１（図１１Ｃ）に関する中央の標準化リード密度（１０を超えるサンプル）を示す。標準化は、図１２Ａに示されるように同等のビンサイズを含むビン取り扱い手法により、および図１２Ｂに示されるようにビンの補間により、実行できる。場合によっては、ビンの補間は、同等のビンサイズに比べてバックグラウンドノイズを減少させ、結果的により急激に解かれた特徴をもたらす。

【0148】

アライメントされた配列データは、再編成、例えば全ゲノムを介した再編成、および特定の２つの遺伝子座（または両側）候補遺伝子での再編成に対して分析可能である。分析は、接触、融合、および結合の識別も含み得る。配列リードデータのアライメント（例えば、ＢＡＭファイルなどの適切なフォーマットにおける）は、分析へと入力可能である。ゲノム遮蔽情報は同様に入力可能であり、または、デフォルトのゲノム遮蔽情報を分析に使用可能である。分析は全ゲノムにわたり実行できる。付加的、または代替的に、分析は、両側候補融合のリストに対して実行できる。場合によっては、候補融合のリストに対し行われた分析は、全ゲノムに行われた分析よりも感度が高い。両側の候補融合の分析は、全ゲノムスキャンにより欠損しかねないＤＮＡの比較的短い部分の転座を必要とする、融合を検出できる。

【0149】

距離の測定は、場合によっては塩基と塩基対の組み合わせとして行われる。検出可能な再編成に対する区切り点間の最小距離は、核酸長さのリストから選択される２つの数により規定される範囲内にある数、その数未満、またはほぼその数であり、２ｂｐ、３ｂｐ、４ｂｐ、５ｂｐ、６ｂｐ、７ｂｐ、８ｂｐ、９ｂｐ、１０ｂｐ、２０ｂｐ、３０ｂｐ、４０ｂｐ、５０ｂｐ、６０ｂｐ、７０ｂｐ、８０ｂｐ、９０ｂｐ、１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、６００ｂｐ、７００ｂｐ、８００ｂｐ、９００ｂｐ、１ｋｂ、２ｋｂ、３ｋｂ、４ｋｂ、５ｋｂ、６ｋｂ、７ｋｂ、８ｋｂ、９ｋｂ、１０ｋｂ、２０ｋｂ、３０ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７０ｋｂ、８０ｋｂ、９０ｋｂ、１００ｋｂ、２００ｋｂ、３００ｋｂ、４００ｋｂ、５００ｋｂ、６００ｋｂ、７００ｋｂ、８００ｋｂ、９００ｋｂ、１Ｍｂ、２Ｍｂ、３Ｍｂ、４Ｍｂ、５Ｍｂ、６Ｍｂ、７Ｍｂ、８Ｍｂ、９Ｍｂ、１０Ｍｂ、２０Ｍｂ、３０Ｍｂ、４０Ｍｂ、５０Ｍｂ、６０Ｍｂ、７０Ｍｂ、８０Ｍｂ、９０Ｍｂ、１００Ｍｂ、２００Ｍｂ、３００Ｍｂ、４００Ｍｂ、５００Ｍｂ、６００Ｍｂ、７００Ｍｂ、８００Ｍｂ、９００Ｍｂ、または１Ｇｂが挙げられる。

【0150】

再編成分析により、被験体ゲノムにおいて結合されたとみなされる区切り点のペアのリストを得ることができる。区切り点座標のペアのリストは、区切り点座標ペアに関する統計的有意差または信頼測定基準（例えばｐ値）を含み得る。これら区切り点のペアは、ブラウザ拡張可能データ（ＢＥＤ）またはＢＥＤ－ＰＥなどの適切なフォーマットで出力可能である。

【0151】

染色体立体配座の分析も、本明細書に開示される技術を使用して実行できる。例えば、位相幾何学的に関連するドメイン（ＴＡＤ）とＴＡＤ境界を判定できる。他の位相幾何学的ドメインと境界も判定でき、限定されないが、ラミナ関連ドメイン（ＬＡＤ）、複製時間帯、および大規模な組織化クロマチンＫ９修飾（ＬＯＣＫ）ドメインが挙げられる。

【0152】

図１３は、全ゲノムスキャンの分析パイプラインによる分析を示す。分析パイプラインにより行われたサンプル要求は、白い円で囲まれて示される。図１３は、２５０ｋのビンを伴う、染色体３対染色体６のプロットを示す。

【0153】

典型的な実施形態において、配列決定データを使用して、出発ＦＦＰＥサンプル中にあると知られる多形性に関するフェージング情報が判定される。例えば、配列決定データを使用して、ＳＮＰなど特定の多形性が、同じまたは異なるＤＮＡ分子に存在したかどうかが判定される。この方法を使用して判定されるフェージングの精度は、ＧＩＡＢサンプルの配列など既知の配列との比較により測定される。例えば、場合によっては、０－１０，０００の間で、１３２，７９６のＳＮＰＳが見出され、９９．０５９％が正確なフェーズにあることが分かっている。高い一致（＞９５％）は、約１．５ＭＢまで見られる（１３のうち１つが欠損する７０－８０ｋｂのビン、および、１５のうち２つが欠損する１．１－１．３ＭＢのビンを例外とする）。１．７－１．９ＭＢの範囲では、７つのＳＮＰペアフェーズのうち７つが適切に要求された。これらのデータから、低レベルの偽性結合にもかかわらず、厳密な長距離の情報が、ＦＦＰＥ－Ｃｈｉｃａｇｏ方法を使用して最大メガベースの範囲にまで判定されると、結論付けられる。重要なことに、これら「一致」予測率は、多くの場合９５％以上であり、５０％の成功率より著しく高い（ランダム偶然から予測）。

【0154】

構造上のフェージング情報
現在、構造とフェージングの分析（例えば医療目的のため）は、困難なままである。例えば、癌、同じタイプの癌を抱える個体、または同じ腫瘍の中にも、驚異的な異質性が存在する。必然の効果から原因となるものを引き出すことには、サンプルごとに低コストで非常に高い精度かつスループットが必要となる。個別化医療の分野では、ゲノムケアのゴールドスタンダードの１つは、大小の構造的な再編成と新規な突然変異を含む、すべての変異が完全に特徴付けられ、かつフェージングされた、配列決定されたゲノムである。従来技術でこれを実現するには、デノボアセンブリに必要な労力と同種の労力が要求され、このアセンブリは現在、非常に高価で多大な時間と労力を要するので、慣例的な医療処置では必要とされない。

【0155】

フェージング情報は、母／父のフェージングのほか、腫瘍／非腫瘍のフェージング情報も含む。腫瘍／非腫瘍のフェージングを使用して、癌ゲノム情報を体性ゲノム情報から分化できる。

【0156】

本開示のいくつかの実施形態において、被験体からの保存組織（例えば、ＦＦＰＥ組織）が提供される場合があり、前記方法は、アセンブルされたゲノム、要求された変異（大きな構造変異およびコピー数変異を含む）を伴うアライメント、フェージングされた変異要求、または任意の追加の分析を戻すことができる。他の実施形態において、本明細書に開示される方法は、個体に長距離リードペアライブラリーを直接提供できる。

【0157】

本開示の様々な実施形態において、本明細書に開示される方法は、長距離も離れている長距離リードペアを生成できる。この距離の上限は、大きなサイズのＤＮＡサンプルを採取する能力によって改善され得る。場合によっては、リードペアは、ゲノム距離で最大５０、６０、７０、８０、９０、１００、１２５、１５０、１７５、２００、２２５、２５０、３００、４００、５００、６００、７００、８００、９００、１０００、１５００、２０００、２５００、３０００、４０００、５０００ｋｂｐ、またはそれ以上に及ぶ場合がある。いくつかの例において、リードペアは、ゲノム距離で最大５００ｋｂｐに及ぶ場合がある。他の例において、リードペアは、ゲノム距離で最大２０００ｋｂｐに及ぶ場合がある。本明細書に開示される方法は、分子生物学の標準技術を統合して積み上げることができ、さらに、効率、特異性、およびゲノムカバレッジを増大させるのに適切である。

【0158】

他の実施形態において、本明細書に開示される方法は、現在利用されている配列決定技術と共に使用可能である。例えば、該方法は、十分に試験され、および／または広く展開されている配列決定機器と組み合わせて使用可能である。さらなる実施形態において、本明細書に開示される方法は、現在使用されている配列決定技術に由来する技術と手法と共に使用可能である。

【0159】

様々な実施形態において、本開示は、保存（例えばＦＦＰＥ）サンプルまたは細胞内の染色体の物理的な配置を探索する工程を含む、本明細書に開示される１つ以上の方法を提供する。配列決定によって染色体の物理的な配置を探索する技術の例としては、染色体立体構造捕捉（「３Ｃ」）、環状化染色体立体構造捕捉（「４Ｃ」）、カーボンコピー染色体捕捉（「５Ｃ」）、およびＨｉ－Ｃに基づく方法などの技術の「Ｃ」ファミリー；および、ＣｈＩＰ－ループ、ＣｈＩＰ－ＰＥＴなどのＣｈＩＰに基づく方法が挙げられる。これらの技術は、核の中の空間的関係を固めるために生細胞のクロマチンの固着を利用する。生成物のその後の処理と配列決定により、研究者はゲノム領域中の近似結合のマトリクスを回復できる。詳しい分析により、これらの関連性を使用して、染色体が保存（例えばＦＦＰＥ）サンプルに物理的に編成されるように染色体の３次元幾何学マップを作成できる。こうした技術は、染色体の別の空間的な組織化について記載しており、染色体の遺伝子座の中での機能的な相互作用を正確に把握する。

【0160】

いくつかの実施形態において、染色体内の相互作用は染色体の接続性と相関する。場合によっては、染色体内のデータはゲノムアセンブリを補助できる。場合によっては、クロマチンはインビトロで再構築される。このことは有利な場合があり、なぜなら、クロマチン、特にクロマチンの主要なタンパク質成分であるヒストンは、配列決定：３Ｃ、４Ｃ、５Ｃ、およびＨｉ－Ｃによってクロマチンの立体構造と構造を検知するための技術の最も一般的な「Ｃ」ファミリー下での固着に重要だからである。クロマチンは、配列の観点から高度に非特異的であり、一般にゲノム全体で均一にアセンブルする。場合によっては、クロマチンを使用しない種のゲノムは、再構築されたクロマチン上でアセンブルし、それにより、開示のために範囲を生命のすべての領域にまで拡大できる。

【0161】

リードペアデータは、クロマチン立体配座の捕捉技術から入手可能である。いくつかの例において、ライゲーションまたは他のタグ付けは、物理的に近接した状態のゲノム領域をマーキングするように達成される。タンパク質（ヒストンなど）がクロマチン内でＤＮＡ分子（例えばゲノムＤＮＡ）との複合体において安定して結合されるような、複合体の架橋は、本明細書の他の場所でさらに詳細に記載されている、または当該技術分野で既知の適切な方法によって達成可能である。場合によっては、サンプル保存（例えば、固着から）から生じる架橋は、そのような複合体が、例えばプロテイナーゼＫでの処置の除外を介して分解しないような条件下で、ＤＮＡタンパク質複合体を抽出することにより利用される。例えば、ゲノム配列に沿って近接していないヌクレオチド部分は、クロマチンなどの構造の部分に物理的に近接し得る。そのようなヌクレオチド部分はともにライゲートされ、その後、本開示の方法に従い分析され得る。例えば、ライゲートされたヌクレオチド部分が配列決定され、２つのライゲートされた部分の配列決定端部間の距離（挿入距離）が分析され得る。図１４Ａは、本開示の技術により分析される保存サンプル（例えばＦＦＰＥサンプル）に対する塩基対（ｂｐ）中の挿入距離に応じた、特定の範囲での挿入の確率のグラフを示す。図１４Ｂは、Ｃｈｉｃａｇｏ法を使用して分析されたサンプルに対する同様のグラフを示す。両グラフにおいて、Ｘ軸は０～３００，０００の挿入距離（ｂｐ）を示し、一方でＹ軸は、軸（対数）の上部１０^０から下部１０^－８までの距離の挿入の確率を示す。

【0162】

場合によっては、２つ以上のヌクレオチド配列が、１つ以上のヌクレオチド配列に結合したタンパク質を介して架橋できる。１つの手法は、クロマチンを紫外線照射に晒すことである（Ｇｉｌｍｏｕｒｅｔａｌ．，Ｐｒｏｃ．Ｎａｔ’ｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ８１：４２７５－４２７９，１９８４）。ポリヌクレオチド部分の架橋も、化学的または物理的（例えば、光学）な架橋など、他の手法を利用して実行されてもよい。適切な化学架橋剤としては、限定されないが、ホルムアルデヒドとソラレンが挙げられる（Ｓｏｌｏｍｏｎｅｔａｌ．，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ８２：６４７０－６４７４，１９８５；Ｓｏｌｏｍｏｎｅｔａｌ．，Ｃｅｌｌ５３：９３７－９４７，１９８８）。例えば、架橋は、ＤＮＡ分子とクロマチンタンパク質を含む混合物に２％のホルムアルデヒドを加えることにより実行可能である。ＤＮＡを架橋するために使用可能な薬剤の他の例としては、限定されないが、ＵＶ光、マイトマイシンＣ、ナイトロジェンマスタード、メルファラン、１，３－ブタジエンジエポキシド、シスジアミンジクロロ白金（ＩＩ）、およびシクロホスファミドが挙げられる。適切なものとして、架橋剤は、約２Åなど比較的短い距離を埋める架橋を形成し、それにより、逆転可能な密接な相互作用を選択する。

【0163】

普遍的に、Ｈｉ－Ｃ技術などの染色体の物理的な配置を探索するための手順は、培養細胞または一次組織から単離されたクロマチンなどの、細胞／生命体内に形成されるクロマチンを利用する。Ｃｈｉｃａｇｏベースの方法は、細胞／生物体から単離されたクロマチンだけでなく、再構成されたクロマチンも用いる、そのような技術の使用を提供する。再構成されたクロマチンは、様々な特徴にわたって細胞／生物体内に形成されたクロマチンと区別される。第１に、多くのサンプルについて、ネイキッドＤＮＡサンプルの収集は、体液を採取すること、頬側または直腸の領域を拭き取ること、あるいは上皮サンプルを採取することなどにより、非侵襲的～侵襲的な様々な方法を用いて達成可能である。第２に、クロマチンの再構成は、ゲノムアセンブリとハプロタイプフェージング向けのアーチファクトを生成する、染色体間と他の長距離の相互作用を実質的に妨げる。場合によっては、サンプルは、本開示の方法と組成物に従い、約２０、１５、１２、１１、１０、９、８、７、６、５、４、３、２、１、０．５、０．４、０．３、０．２、０．１％、またはそれ以下の染色体間または分子間の架橋を有する場合がある。いくつかの例において、サンプルは約５％未満の染色体間または分子間の架橋を有する場合がある。いくつかの例において、サンプルは約３％未満の染色体間または分子間の架橋を有する場合がある。さらなる例において、サンプルは約１％未満の染色体間または分子間の架橋を有する場合がある。第３に、架橋可能な部位の頻度、およびしたがって、ポリヌクレオチド内での分子内架橋の頻度は、調節可能である。例えば、ヌクレオソーム密度を望ましい値に調節できるように、ＤＮＡ対ヒストンの比率を変更できる。場合によっては、ヌクレオソーム密度は生理的なレベル以下に減らされる。したがって、架橋の分布は長距離の相互作用へ有利に働くように変更可能である。いくつかの実施形態において、様々な架橋密度を有するサブサンプルは、短距離と長距離の結合を網羅するように調製されてもよい。例えば、架橋条件は、架橋の少なくとも約１％、約２％、約３％、約４％、約５％、約６％、約７％、約８％、約９％、約１０％、約１１％、約１２％、約１３％、約１４％、約１５％、約１６％、約１７％、約１８％、約１９％、約２０％、約２５％、約３０％、約４０％、約４５％、約５０％、約６０％、約７０％、約８０％、約９０％、約９５％、または約１００％が、サンプルＤＮＡ分子上で少なくとも約５０ｋｂ、約６０ｋｂ、約７０ｋｂ、約８０ｋｂ、約９０ｋｂ、約１００ｋｂ、約１１０ｋｂ、約１２０ｋｂ、約１３０ｋｂ、約１４０ｋｂ、約１５０ｋｂ、約１６０ｋｂ、約１８０ｋｂ、約２００ｋｂ、約２５０ｋｂ、約３００ｋｂ、約３５０ｋｂ、約４００ｋｂ、約４５０ｋｂ、または約５００ｋｂ離れたＤＮＡ部分間で生じるように、調節可能である。

【0164】

癌のゲノム配列決定に必要とされる高い精度は、本明細書に記載された方法とシステムを使用して達成可能である。癌ゲノムを配列決定する際、不正確な基準ゲノムではベース要求が困難になりかねない。異種のサンプルと小さな出発物質、例えば、生検によって得られたサンプルは、別の問題を引き起こす。さらに、大規模な構造変異体の検出および／またはヘテロ結合性の喪失は多くの場合、体細胞の変異体とベース要求のエラーとを区別する能力と同様に、癌のゲノム配列決定に必要不可欠である。

【0165】

本明細書に記載されたシステムと方法は、２、３、４、５、６、７、８、９、１０、１２、１５、２０、またはそれ以上の様々なゲノムを含む複合体サンプルからの正確な長い配列を生成し得る。正常な、良性の、および／または腫瘍起原の混合サンプルは、随意に正常な対照を必要とすることなく分析され得る。いくつかの実施形態において、１００ｎｇほどの小さな、あるいは数百のゲノム当量と同じくらい小さな出発サンプルを用いて、正確な長い配列を生成する。本明細書に記載されるシステムと方法は、コピー数変異体、大規模構造変異体、および再編成の検出を可能にすることもあり、フェージングされた変異体要求は、約１ｋｂｐ、約２ｋｂｐ、約５ｋｂｐ、約１０ｋｂｐ、２０ｋｂｐ、約５０ｋｂｐ、約１００ｋｂｐ、約２００ｋｂｐ、約５００ｋｂｐ、約１Ｍｂｐ、約２Ｍｂｐ、約５Ｍｂｐ、約１０Ｍｂｐ、約２０Ｍｂｐ、約５０Ｍｂｐ、または約１００Ｍｂｐ以上のヌクレオチドに及ぶ長い配列にわたって得られる場合がある。例えば、フェージングされた変異体要求は、約１Ｍｂｐまたは約２Ｍｂｐに及ぶ長い配列にわたって得られる場合がある。

【0166】

本明細書に記載される方法とシステムを使用して判定されたハプロタイプは、計算上のリソース、例えば、クラウドシステムなどのネットワークを介する計算上のリソースに割り当てられてもよい。短い変異体要求は、必要に応じて、計算上のリソースに保存される関連情報を使用して、修正可能である。構造変異体は、短い変異体コールからの組み合わせた情報と、計算上のリソースに保存された情報とに基づいて検知可能である。部分重複、構造的な変異の傾向のある領域、非常に可変かつ医学的に関連するＭＨＣ領域、セントロメアおよびテロメアの領域、および、限定されないが、反復領域、低い配列精度、高い変異体比率、ＡＬＵ反復、部分重複、または当該技術分野で知られる他の関連する問題のある部分を有する領域を含む、他のヘテロクロマチン領域などの、ゲノムの問題部分は、精度を増加させるために再アセンブル可能である。

【0167】

サンプルタイプは、局所的に、またはクラウドなどのネットワークにつながれた計算上のリソースにおいて配列情報を割り当てられ得る。情報のソースが知られている場合、例えば、情報のソースが癌または正常組織由来である場合、サンプルタイプの一部としてソースをサンプルに割り当てることができる。他のサンプルタイプの例としては一般に、限定されないが、組織タイプ、サンプル採取方法、感染症の存在、感染症の種類、処理方法、サンプルのサイズなどが挙げられる。癌ゲノムとの比較における正常なゲノムなどの完全または部分的な比較ゲノム配列が利用可能である場合、サンプルデータと比較ゲノム配列との差異を判定し、随意に出力することができる。

【0168】

ハプロタイプフェージング方法
本明細書に開示される方法により生成されたリードペアが一般に、染色体間の接触に由来するので、ヘテロ型結合性の部位を含有すあらゆるリードペアはまた、それらのフェージングに関する情報を伝える。この情報を使用して、短い、中間、および長い（メガベース）距離にわたる信頼できるフェージングが、急速かつ正確に実行され得る。１０００ゲノムのトリオ（母／父／子のゲノムのセット）の１つからのデータをフェージングするように設計された実験は、信頼して推測されたフェージングを有する。加えて、Ｓｅｌｖａｒａｊｅｔａｌ．（ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ３１：１１１１－１１１８（２０１３））に類似する近接ライゲーションを使用するハプロタイプ再構成も、本明細書に開示されるハプロタイプフェージング方法と共に使用可能である。

【0169】

例えば、近接ライゲーションベースの方法を使用するハプロタイプ再構成はまた、ゲノムをフェージングする際に本明細書に開示される方法に使用され得る。近接ライゲーションベースの方法を使用するハプロタイプ再構成は、ハプロタイプアセンブリのために近接ライゲーションおよびＤＮＡ配列決定を確率的アルゴリズムと組み合わせる。最初に、Ｈｉ－Ｃプロトコルなどの染色体捕捉プロトコルを使用して、近接ライゲーション配列決定が実行される。これらの方法は、三次元空間で一緒にループされる２つの離れたゲノム遺伝子座からＤＮＡ断片を捕捉できる。結果として生じるＤＮＡライブラリーのショットガンＤＮＡ配列決定の後、ペアエンド配列決定リードは、数百から何千万もの範囲の塩基対の「挿入サイズ」を有する。ゆえに、Ｈｉ－Ｃ実験で生成された短いＤＮＡ断片は、小さなハプロタイプブロックをもたらすことができ、長い断片は、最終的にこれらの小さなブロックを一緒に連結できる。十分な配列決定カバレッジがあることで、この手法は、変異体を不連続のブロックに連結し、そのようなブロックすべてを単一のハプロタイプへとアセンブルする可能性がある。その後、このデータは、ハプロタイプアセンブリのために確率的アルゴリズムと組み合わせられる。確率的アルゴリズムは、ノードがヘテロ結合変異体に対応し、縁がヘテロ結合変異体に連結し得る重複配列断片に対応するグラフを利用する。このグラフは、配列決定エラーまたはトランス相互作用に起因する偽の縁を含み得る。その後、入力配列決定リードのセットによって提供されるハプロタイプ情報と最大限に一致している簡潔な解法を予測するために、最大切断アルゴリズムが使用される。近接ライゲーションが、従来のゲノム配列決定またはメイトペア配列より大きなグラフを生成するため、ハプロタイプが合理的な速度および高精度で予測され得るように、計算時間およびイテレーションの数が変更される。その後、結果として得られるデータを使用して、Ｂｅａｇｌｅソフトウェアおよびゲノムプロジェクトの配列決定データを使用してローカルフェージングを誘導し、高解像度および精度で染色体にわたる（ｃｈｒｏｍｏｓｏｍｅ－ｓｐａｎｎｉｎｇ）ハプロタイプを生成できる。

【0170】

ペアエンドを伴うフェーズ情報の判定
本明細書にはさらに、ＦＦＰＥサンプル由来のペアエンドのフェーズ情報を判定するための方法と組成物が提供される。ペアエンドは、開示の方法、または提供される実施例に例示される方法のいずれかにより生成され得る。例えば、後に切断される固体表面に結合されるＤＮＡ分子の場合、遊離末端の再ライゲーション後、再ライゲートされたＤＮＡ部分は、例えば制限消化によって、固体フェーズが付いたＤＮＡ分子から放たれる。この放出の結果、複数のペアエンドの断片がもたらされる。場合によっては、ペアエンドは、増幅アダプターにライゲートされ、増幅され、かつショートリード技術により配列決定される。これらの事例において、複数の異なる固体フェーズが結合したＤＮＡ分子のペアエンドは、配列決定サンプル内にある。しかし、ペアエンド結合部のいずれの側についても、結合部に隣接する配列は、共通の分子の共通のフェーズに由来すると、確信的に結論付けられる。ペアエンドが終点オリゴヌクレオチド（ｐｕｎｃｔｕａｔｉｏｎｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅ）と結合される場合、配列決定リードのペアエンド結合部は、終点オリゴヌクレオチド配列により識別される。他の場合、ペアエンドは、修飾ヌクレオチドにより結合され、これは修飾ヌクレオチドの配列に基づいて識別可能である。

【0171】

代替的に、ペアエンドの放出後、遊離ペアエンドは、増幅アダプターにライゲートされ、増幅される。これらの場合、複数のペアエンドが共にバルクライゲートされ（ｂｕｌｋｌｉｇａｔｅｄ）、ロングリード配列決定技術を用いて読み取られる長い分子を生成する。他の例において、放出されたペアエンドは、介入的な増幅工程なしに互いに対しバルクライゲートされる。いずれの場合も、埋め込まれたリードペアは、結合配列、例えば終点配列または修飾ヌクレオチドなどに隣接する天然ＤＮＡ配列を介して識別可能である。連鎖状のペアエンドは、長い配列デバイス上で読み取られ、かつ、複数の結合部に関する配列情報が得られる。ペアエンドは複数の異なる固体フェーズが結合したＤＮＡ分子に由来するので、２つの個々のペアエンドに及ぶ配列、例えば増幅アダプター配列に隣接する配列は、複数の異なるＤＮＡ分子にマッピングされるのが分かる。しかし、ペアエンド結合部のいずれの側についても、結合部に隣接する配列は、共通の分子の共通のフェーズに由来すると、確信的に結論付けられる。例えば、終点を付けた分子に由来するペアエンドの場合、終点配列に隣接する配列は、共通のＤＮＡ分子へと確信的に割り当てられる。好ましい場合、個々のペアエンドは、本明細書に開示される方法と組成物を使用して連結されるので、単一のリードにおいて複数のペアエンドを配列決定できる。

【0172】

本明細書に記載される方法と組成物を使用して生成された配列決定データを使用して、好ましい実施形態において、フェージングされたデノボ配列アセンブリを生成し、フェーズ情報を判定し、および／または構造変異を識別する。

【0173】

構造変異および他の遺伝学的特徴の判定
図１５Ａと図１５Ｂを参照すると、再びアセンブルされたクロマチンのＤＮＡの近接ライゲーションから生成されたリードペアの基準配列上のマッピングされた位置、例えばＧＲＣｈ３８が、ＧＭ１２８７８と基準との間の構造的な差異の付近でプロットされる例が、提供される。生成された各リードペアは、対角線より上および下に表される。対角線より上では、陰は、示されたスケールでのマップ品質スコアを示し；対角線より下では、陰は、フェージングされたＳＮＰとの重なりに基づいて生成されたリードペアの推量されたハプロタイプフェーズを示す。いくつかの実施形態において、生成されたプロットは、図１５Ｂに例示されるように、隣接する反復領域を伴う逆位を表す。いくつかの実施形態において、生成されたプロットは、図１５Ｂに例示されるように、フェージングされたヘテロ結合欠失に関するデータを表す。

【0174】

基準に対する１つの個体からのペア配列リードのマッピングは、逆位、欠失、および重複のような隣接する核酸またはゲノム構造における差異を識別するための、最も一般的に使用される配列ベースの方法である（Ｔｕｚｕｎｅｔａｌ．，２００５）。図１５Ａと図１５Ｂは、ヒト基準ゲノムＧＲＣｈ３８にマッピングされたＧＭ１２８７８から再びアセンブルされたクロマチンのＤＮＡの近接ライゲーションにより生成されたリードペアが、どのようにそのような２つの構造的な差異を明らかにするのかを示す。構造的な差異を識別するべくリードペアデータの感度と特異性を推定するために、ヘテロ結合逆位の効果をシミュレートするために構成されたシミュレーションデータセット上の最大尤度弁別子を検査した。検査データは、ＧＲＣｈ３８基準配列に生成されたＮＡ１２８７８リードのマッピングから定めた長さＬの間隔を無作為に選択し、かつ生成したリードペアそれぞれを独立して無作為に逆位または基準のパプロタイプに割り当てることにより、および、それに応じてマッピングされた座標を編集することにより、構築された。非対立性の相同組換えは、ヒトゲノムに観察された構造的変異の多くに起因し、結果として、反復した配列の長いブロックに生じる多くの変異区切り点が生じる（Ｋｉｄｄｅｔａｌ．，２００８）。逆位区切り点を囲む反復配列の様々な長さの効果は、それらの距離Ｗ内にマッピングされたリードすべてを取り除くことによりシミュレートされた。逆位区切り点の反復配列がない場合、１Ｋｂｐ、２Ｋｂｐ、および５Ｋｂｐの逆位それぞれに対して、感度（特異性）はそれぞれ０．７６（０．８８）、０．８９（０．８９）、および０．９７（０．９４）であった。逆位区切り点での反復（マッピング不能）配列の１Ｋｂｐの領域がシミュレーションに使用されると、５Ｋｂｐの逆位に対する感度（特異性）は０．８１（０．７６）であった。

【0175】

パフォーマンス
本明細書に開示される技術で実施される分析は、高精度で実行できる。分析は、少なくとも約５０％、６０％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．９％、９９．９９％、９９．９９９％、またはそれ以上の精度で実行できる。分析は、少なくとも７０％の精度で実行できる。分析は、少なくとも８０％の精度で実行できる。分析は、少なくとも９０％の精度で実行できる。

【0176】

本明細書に開示される技術で実施される分析は、高特異性で実行できる。分析は、少なくとも約５０％、６０％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．９％、９９．９９％、９９．９９９％、またはそれ以上の特異性で実行できる。分析は、少なくとも７０％の特異性で実行できる。分析は、少なくとも８０％の特異性で実行できる。分析は、少なくとも９０％の特異性で実行できる。

【0177】

本明細書に開示される技術で実施される分析は、高感度で実行できる。分析は、少なくとも約５０％、６０％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．９％、９９．９９％、９９．９９９％、またはそれ以上の感度で実行できる。分析は、少なくとも７０％の感度で実行できる。分析は、少なくとも８０％の感度で実行できる。分析は、少なくとも９０％の感度で実行できる。

【0178】

本開示の技術の使用は、それらが実施されるコンピューターシステムの機能を改善できる。例えば、前記技術は、所定の分析のための処理時間を、少なくとも約５％、１０％、１５％、２０％、２５％、３０％、３５％、４０％、４５％、５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、またはそれ以上減らすことができる。前記技術は、所定の分析に必要なメモリーを、少なくとも約５％、１０％、１５％、２０％、２５％、３０％、３５％、４０％、４５％、５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、またはそれ以上減らすことができる。

【0179】

本開示の技術の使用は、以前は不能であった分析の実施を可能にする。例えば、特定の遺伝学的特徴は、本開示の方法を必要とすることなくそのような情報から検出できない、配列情報から検出できる。

【0180】

機械学習
特徴、例えば接触と再編成（限定されないが、欠失、重複、挿入、逆位、または逆転、転座、結合、融合、および分裂を含む）、および他の相互作用を識別するための分析は、様々な技術により実施できる。分析技術は、統計的かつ確率的な分析、フーリエ分析、コンピュータービジョン、および他の画像処理を含む信号処理、言語処理（例えば自然言語処理）、および機械学習を含み得る。例えば、接触マトリクスなどの相互作用プロットは、上述のものなどの特徴を示すデータ構成について分析できる。場合によっては、フィルターは、プロットまたは他のデータに適用できる。フィルターは、平滑化フィルター（例えば、特にカーネル平滑化またはＳａｖｉｔｚｋｙ－Ｇｏｌａｙフィルター、ガウシアンぼかし）を含むがこれらに限定されない、コンボリューションフィルターであり得る。

【0181】

いくつかの実施形態は、ゲノム構造判定の構成要素として機械学習を必要とし、したがって、いくつかのコンピューターシステムは、機械学習性能を持つモジュールを含むように構成される。機械学習モジュールは、機械学習機能を構成するように以下に列挙したモダリティーのうち少なくとも１つを含む。

【0182】

機械学習を構成するモダリティーは、自動化された質量スペクトルデータスポットの検出と要求を実行できるように、データをフィルタ処理する性能を多様に実証する。このモダリティーは、場合によっては、逆位、挿入、欠失、または転座などの様々なゲノムの構造変化を示す、予測されたパターンの存在により容易になる。

【0183】

機械学習を構成するモダリティーは、リードペア頻度を、下流分析を促す形態にするように、データ処置またはデータ処理の性能を多様に実証する。データ処置の例には、対数変換、スケール比率の割り当て、または、データを、下流分析を促す形態にするように精巧な特徴へのデータのマッピングが挙げられるが、必ずしもこれらに限定されない。

【0184】

本明細書に開示されるような機械学習データ分析構成要素は、リードペアのデータセット中の広範囲の特徴、例えば、１～１０，０００の特徴、２～３００，０００の特徴、またはこれらの範囲の何れか以上の数の特徴を規則的に処理する。場合によっては、データ分析は、少なくとも１ｋ、２ｋ、３ｋ、４ｋ、５ｋ、６ｋ、７ｋ、８ｋ、９ｋ、１０ｋ、２０ｋ、３０ｋ、４０ｋ、５０ｋ、６０ｋ、７０ｋ、８０ｋ、９０ｋ、１００ｋ、１２０ｋ、１４０ｋ、１６０ｋ、１８０ｋ、２００ｋ、２２０ｋ、２２４０ｋ、２６０ｋ、２８０ｋ、３００ｋ、または３００ｋより多くの特徴を必要とする。

【0185】

リードペア分散パターンは、本開示と一致するあらゆる数の手法を使用して識別される。場合によっては、リードペア分散パターンの選択は、エラスティックネット（ｅｌａｓｔｉｃｎｅｔ）、情報利得、ランダム・フォレスト・インピューティング、または、本開示に一致し、かつ当業者に精通する他の特徴選択手法を含む。

【0186】

選択されたリードペア分散パターンは、本開示と一致するあらゆる数の手法を再び用いて、ゲノムの構造変化を示す予測されたパターンに対して整合される。場合によっては、リードペアパターンの検出は、ロジスティック回帰、ＳＶＭ、ランダムフォレスト、ＫＮＮ、または、本開示に一致し、かつ当業者に精通する他のクラシファイヤー手法を含む。

【0187】

機械学習の適用、または、本明細書に開示される分析のために構成されるコンピューターへの機械学習モジュールの設置により、進行中のモニタリング手順の一部として無症状疾患の検出または早期検出に対するゲノム構造変化の検出を可能にして、症状の進行に先立ち、または介入が容易に達成されるか、成功的な結果をもたらす可能性が高い間に、疾患または障害を識別する。

【0188】

機械学習の適用、または、本明細書に開示される分析のために構成されるコンピューターへの機械学習モジュールの設置により、例えば薬物試験一部として薬物処置を受ける個体の構造再編成の識別を可能にして、その結果、個体または集団に対する試験の結果は、正または負に薬物効果と対応する特定のゲノム構造事象を識別するように、同時に、または遡及的に相関され得る。

【0189】

機械学習の適用、または、本明細書に開示される分析のために構成されるコンピューターへの機械学習モジュールの設置により、サンプル中の位置情報を保存するように均質化を用いずに採取された腫瘍組織サンプルなど、遺伝学的に異種混合のサンプルの特定領域に対応するする構造再編成の識別を可能にする。腫瘍領域の一部は、特に転移または腫瘍拡散が大きな（ａｄｅｐｔ）細胞集団に相当すると知られるので、この細胞集団に相関するゲノム再編成または他のフェーズ情報の識別は、特に危険な３つの細胞集団を標的とする処置レジメンの選択を補助する。

【0190】

モニタリングは多くの場合、発症または進行の兆候がモニタリングされる障害の遺伝的素因を示す遺伝学的評価と組み合わせて、またはそれを支持して実行されるが、必ずしもそうではない。同様に、場合によっては、機械学習を使用して処置レジメンの処置効果のモニタリングまたは評価が容易になり、その結果、処置レジメンは経時的に改変され、継続され、または、進行中のプロテオミクス媒介モニタリングにより示されるように解かれる場合がある。

【0191】

機械学習手法、および、モジュールが機械学習アルゴリズムを実行するよう構成されているコンピューターシステムは、変動する複雑性のデータセットにおけるフェーズ情報またはゲノム再編成の識別を容易にする。場合によっては、フェーズ情報またはゲノム再編成は、大量の質量スペクトルデータ、例えば、複数の時点で１つの個体から得られるデータ、目的の状態に関する既知の状況、または既知の最終的な処置の結果または応答のある複数の個体などの個体から得たサンプル、または複数の時点と複数の個体から得たサンプルなどを含む、標的でないデータベースから識別される。

【0192】

代替的に、場合によっては、機械学習は、例えば、個体の健康状態がその時点で分かっているときに複数の時点にわたり１つの個体からゲノム再編成またはフェーズ情報を採取すること、目的の状態に関する既知の状況を持つ複数の個体から配列情報を採取すること、または、複数の時点で複数の個体から配列情報を採取することにより、ゲノム再編成またはフェーズ情報に標的化されるデータベースの分析を通じてゲノム再編成またはフェーズ情報の洗練を容易にする。容易に明らかとなるように、場合によっては、配列情報の採取は、手術に従い採取された架橋サンプル、または薬物試験に従い採取されたＦＦＰＥサンプルなどの保存サンプルの使用により容易となる。

【0193】

ゆえに、配列情報は、単独で、または、薬物試験結果または介入結果の情報と組み合わせて、採取される。配列データは、例えば本明細書に開示されるように構成されるコンピューターシステム上で機械学習にさらされて、健康状態のシグナルを単独で、または１つ以上の追加のマーカーを組み合わせて把握するゲノム再編成に相当するパターンを示すリードペアの部分集合を識別する。ゆえに、機械学習は場合によっては、配列、すなわちＤＮＡまたはＲＮＡの配列、または個体の健康状態の個々に有益なゲノム再編成の識別を容易にする。

【0194】

上記の開示と一致する機械学習手法の一例は、コンボリューション・ニューラル・ネットワーク（ＣＮＮ）である。ＣＮＮは、例えば正または負のサンプルの分類に有用である。典型的なＣＮＮのアーキテクチャは、２つの完全に接続された畳みこみ隠れ層を含み、その各々の下には、ロジット活性化関数を用いて１２８、２５６、５１２、１０２４、または他のニューロンの数などの、２または２の因数でのみ割り切れるニューロンの数など、ニューロンの数の最大プーリング層と最終出力層が続く。代替的な実施形態において、広範囲のニューロン数が本開示に適合可能であり、エンドポイントにより規定される範囲中のそのような数は、５０未満から、５０、６０、６４、７０、８０、９０、１００、１２０、１４０、１６０、１８０、２００、２５０、３００、３５０、４００、４５０、５００、５５０、６００、６５０、７００、７５０、８００、８５０、９００、９５０、１０００、１１００、１２００、１３００、１４００、１５００、１６００、１７００、１８００、１９００、２０００、２０４８、２１００、２２００、２３００、２４００、２５００、２６００、２７００、２８００、２９００、３０００、または３０００を超えるものまで変動する。

【0195】

ＣＮＮなどの機械学習の実施の一部から、訓練データはリードペア数の情報を使用し、染色体内基質は、例えば、対角線からリードペアマッピング点までの距離の逆数を使用して標準化される。代替的に、または組み合わせにおいて、ＣＮＮネットワークなどのマルチチャネル・ニューラル・ネットワークを作成するために、基準のマッピング可能性、制限部位分布、またはその他などの他のパラメーターが追加のチャネルとして使用される。

【0196】

画像分類は、とりわけ、ＹＯＬＯ、ＭａｓｋＲ－ＣＮＮ、ＦａｓｔＲ－ＣＮＮなどの手法といった多数の最先端技術ネットワークを介した特徴の局在化を使用して実行される。代替的に、特異的に調整したドメインのアーキテクチャは、特定用途のために設計される。

【0197】

コンピューターシステム
図１８Ａは、本明細書で提供される方法を実施するようにプログラムまたは構成されるコンピューターシステム（４０１）を示す。コンピューターシステム（４０１）は、ユーザーまたはコンピューターシステムの電子デバイスであり、ユーザーまたはコンピューターシステムは、電子デバイスに対して遠隔に位置付けられる。電子デバイスはモバイル電子デバイスでもよい。

【0198】

コンピューターシステム（４０１）は、中央処理装置（ＣＰＵ、本明細書では「プロセッサー」および「コンピュータープロセッサー」）（４０５）を含み、これらはシングルコアまたはマルチコアプロセッサー、または並列処理のための複数のプロセッサーであり得る。コンピューターシステム（４０１）は、メモリーまたは記憶場所（４１０）（例えばランダムアクセスメモリー、読み取り専用メモリー、フラッシュメモリー）、電子記憶装置（４１５）（例えばハードディスク）、１つ以上の他のシステムと通信するための通信インターフェース（４２０）（例えばネットワークアダプター）、およびキャッシュ、他のメモリー、データストレージ、および／または電子ディスプレイアダプターなどの周辺機器（４２５）も具備する。メモリー（４１０）、記憶装置（４１５）、インターフェース（４２０）、および周辺機器（４２５）は、マザーボードなどの通信バス（実線）を通じて、ＣＰＵ（４０５）と通信する。記憶装置（４１５）は、データを記憶するためのデータ記憶装置（またはデータレポジトリ）であり得る。コンピューターシステム（４０１）は、通信インターフェース（４２０）の補助によりコンピューターネットワーク（「ネットワーク」）（４３０）に動作可能に連結され得る。ネットワーク（４３０）は、インターネットおよび／またはエクストラネット、または、インターネットと通信状態にあるイントラネットおよび／またはエクストラネットであり得る。場合によっては、ネットワーク（４３０）は、電気通信および／またはデータのネットワークである。ネットワーク（４３０）は、１つ以上のコンピューターサーバーを含むことができ、これはクラウドコンピューティングなどの分散コンピューティングを可能にし得る。ネットワーク（４３０）は、場合によってはコンピューターシステム（４０１）の補助により、ピアツーピア・ネットワークを実施することができ、これは、コンピューターシステム（４０１）に連結されたデバイスが、クライアントまたはサーバーとして動くことを可能にし得る。

【0199】

ＣＰＵ（４０５）は、機械可読命令のシーケンスを実行でき、これはプログラムまたはソフトウェア中に埋め込まれる。この命令は、メモリー（４１０）などの記憶場所に記憶され得る。この命令は、ＣＰＵ（４０５）に向けることができ、これは後に、本開示の方法を実施するようにＣＰＵ（４０５）をプログラムまたは構成することができる。ＣＰＵ（４０５）により実行される動作の例は、フェッチ、デコード、実行、およびライトバックを含み得る。

【0200】

ＣＰＵ（４０５）は集積回路などの回路の一部であり得る。システム（４０１）の１つ以上の他のコンポーネントを回路に含めることができる。場合によっては、回路は特定用途向け集積回路（ＡＳＩＣ）である。

【0201】

記憶装置（４１５）は、ドライバー、ライブラリー、および保存されたプログラムなどのファイルを記憶できる。記憶装置（４１５）は、ユーザーデータ、例えばユーザーの嗜好性やユーザーのプログラムを保存可能である。コンピューターシステム（４０１）は、場合によっては、イントラネットまたはインターネットを通じてコンピューターシステム（４０１）と通信状態にあるリモートサーバー上に位置付けられるなど、コンピューターシステム（４０１）の外側にある１つ以上の追加のデータ記憶装置を含み得る。

【0202】

コンピューターシステム（４０１）は、ネットワーク（４３０）を介して１つ以上の遠隔コンピューターシステムと通信できる。例えば、コンピューターシステム（４０１）は、ユーザー（例えばサービス提供者）のリモートコンピューターシステムと通信できる。リモートコンピューターシステムの例には、パーソナルコンピューター（例えば、持ち運び可能なＰＣ）、スレートまたはタブレットＰＣ（例えばＡｐｐｌｅ（登録商標）ｉＰａｄ（登録商標）、Ｓａｍｓｕｎｇ（登録商標）ＧａｌａｘｙＴａｂ）、電話、スマートフォン（例えばＡｐｐｌｅ（登録商標）ｉＰｈｏｎｅ（登録商標）、Ａｎｄｒｏｉｄ－ｅｎａｂｌｅｄデバイス、Ｂｌａｃｋｂｅｒｒｙ（登録商標））、または携帯情報端末が挙げられる。ユーザーは、ネットワーク（４３０）を介してコンピューターシステム（４０１）にアクセスできる。

【0203】

本明細書に記載されるような方法は、コンピューターシステム（４０１）の電子記憶場所、例えば、メモリー（４１０）または電子記憶装置（４１５）などに記憶された機械（例えば、コンピュータ処理装置）実行可能なコードとして実行され得る。機械実行可能または機械可読コードは、ソフトウェアの形で提供できる。

【0204】

使用中、コードはプロセッサー（４０５）により実行され得る。場合によっては、コードは、電子記憶装置（４１５）から取得され、プロセッサー（１００５）による容易なアクセスのためにメモリー（４１０）上に記憶可能である。いくつかの状況において、電子記憶装置（４１５）は除外することができ、機械実行可能命令がメモリ（４１０）に記憶される。

【0205】

コードは、コードを実行するように適合されたプロセッサーを有する機械と共に使用するために予めコンパイルかつ構成され、または実行時にコンパイルされ得る。コードは、予めコンパイルされた、またはアズコンパイルされた（ａｓ－ｃｏｍｐｉｌｅｄ）様式でコードが実行を可能にするために選択可能な、プログラミング言語で供給され得る。

【0206】

コンピューターシステム（１００１）などの本明細書に提供されるシステムおよび方法の態様は、プログラミングにおいて具体化され得る。この技術の様々な態様は、典型的には一種の機械可読媒体上で運ばれる、またはそれに埋め込まれる機械（またはプロセッサー）実行可能コードおよび／または関連データの形で、「製品」または「製造用品」として考慮され得る。機械実行可能コードは、メモリー（例えば、読み取り専用メモリー、ランダムアクセスメモリー、フラッシュメモリー）またはハードディスクなどの電子記憶装置に記憶され得る。「記憶」型の媒体は、様々な半導体メモリー、テープドライブ、ディスクドライブなどの、コンピューターやプロセッサーの有形メモリー、または、その関連するモジュールの何れかまたはすべてを含むことができ、これらは、ソフトウェアのプログラミングのためにいかなる時も非一時的な記憶を提供し得る。ソフトウェアのすべてまたは一部は時折、インターネットなどの様々な電気通信ネットワークを介して通信される。そのような通信は、例えば、１つのコンピューターまたはプロセッサーから別のものへの、例えば、管理サーバーまたはホストコンピューターからアプリケーションサーバーのコンピュータープラットフォームへのソフトウェアのローディングを可能にし得る。故に、ソフトウェア要素を有し得る別のタイプの媒体は、有線および光地上通信線ネットワークを通じた、および様々なエアリンク（ａｉｒ－ｌｉｎｋｓ）上での、ローカルデバイス間の物理インターフェースにわたって使用されるものなどの、光波、電波、および電磁波を含む。有線または無線リンク、光リンクなどの、前述の波を運ぶ物理要素も、ソフトウェアを持つ媒体と考慮され得る。本明細書で使用されるように、非一時的で有形の「記憶」媒体に制限されない限り、コンピューターまたは機械「可読媒体」などの用語は、実行のためにプロセッサーに命令を提供することに関与する媒体を指す。

【0207】

したがって、コンピューター実行可能コードなどの機械可読媒体は、有形記憶媒体、搬送波媒体、または物理的伝送媒体を含むが、これらに限定されない多くの形態をとってもよい。不揮発性記憶媒体は、例えば、図面に示されるデータベースなどを実施するために使用され得るものなど、コンピューターなどにおける記憶装置の何れかといった、光ディスクまたは磁気ディスクを含む。揮発性記憶媒体は、そのようなコンピュータープラットフォームのメインメモリーなどのダイナミックメモリーを含む。有形送信媒体は、同軸ケーブル；コンピューターシステム内のバスを含むワイヤーを含む、銅線および光ファイバーを含んでいる。搬送波送信媒体は、無線周波（ＲＦ）および赤外線（ＩＲ）データ通信中に生成されたものなどの、電気信号または電磁気信号、または、音波または光波の形態をとり得る。ゆえに、コンピューター可読媒体の共通の形態は、例えば：フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤまたはＤＶＤ－ＲＯＭ、他の光学媒体、パンチカードペーパーテープ、ホールのパターンを備えた（ｗｉｔｈｐａｔｔｅｒｎｓｏｆｈｏｌｅｓ）他の物理的記憶媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭ、およびＥＰＲＯＭ、ＦＬＡＳＨ（登録商標）－ＥＰＲＯＭ、他のメモリーチップまたはカートリッジ、データまたは命令を運ぶ搬送波、そのような搬送波を運ぶケーブルまたはリンク、または、コンピューターがプログラミングコードおよび／またはデータを読み取る他の媒体を含む。コンピューター可読媒体のこれらの形態の多くは、実行のためにプロセッサーに１つ以上の命令の１つ以上のシーケンスを運ぶことを必要とし得る。

【0208】

コンピューターシステム（４０１）は、例えば、訓練されたアルゴリズムの出力または読み出しを提供するためのユーザーインターフェース（ＵＩ）（４４０）を具備する電子ディスプレイ（４３５）を含む、またはそれと通信状態にあってもよい。ＵＩの例には、限定されないが、グラフィカル・ユーザー・インターフェース（ＧＵＩ）やウェブベースのユーザーインターフェースが挙げられる。

【0209】

本開示の方法およびシステムは、１つ以上のアルゴリズムにより実施可能である。アルゴリズムは、中央処理装置（４０５）による実行後にソフトウェアにより実施可能である。

【0210】

本明細書中のコンピューターシステムは、場合によっては、本明細書に開示されるもの、または当業者に既知のものなど、機械学習操作を実行するように構成される。

【0211】

図１８Ｂに例示されるコンピューターシステム（６００）は、媒体（６１１）および／またはネットワークポート（６０５）から命令を読み取ることが可能な論理的な装置として理解され、固定された媒体（６１２）を持つサーバー（６０９）へと随意に接続され得る。図１８Ｂに示されるものなどのシステムは、ＣＰＵ（６０１）、ディスクドライブ（６０３）、キーボード（６１５）、および／またはマウス（６１６）などの随意の入力装置、および随意にモニター（６０７）を含み得る。データ通信は、局所または遠隔の位置にてサーバーへと、示された通信媒体を通じて達成され得る。通信媒体は、データを送信および／または受信する任意の手段を含み得る。例えば、通信媒体は、ネットワーク接続、無線接続、またはインターネット接続であり得る。そのような接続は、ワールド・ワイド・ウェブ上での通信を提供できる。本開示に関するデータは、図１８Ｂに例示されるように当事者（６２２）による受理および／または検討のために、そのようなネットワークまたは接続上で伝達され得ることが想定される。

【0212】

図１８Ｃは、本明細書に記載の実施形態の例と関連して使用され得るコンピューターシステム（７００）の第１の例のアーキテクチャを示す、ブロック図である。図１８Ｃに表されるように、コンピューターシステムの例は、命令を処理するためのプロセッサー（７０２）を含む。プロセッサーの非限定的な例には、以下が挙げられる：ＩｎｔｅｌＸｅｏｎ（商標）プロセッサー、ＡＭＤＯｐｔｅｒｏｎ（商標）プロセッサー、Ｓａｍｓｕｎｇ３２－ｂｉｔＲＩＳＣＡＲＭ１１７６ＪＺ（Ｆ）－Ｓｖ１．０（商標）プロセッサー、ＡＲＭＣｏｒｔｅｘ－Ａ８ＳａｍｓｕｎｇＳ５ＰＣ１００（商標）プロセッサー、ＡＲＭＣｏｒｔｅｘ－Ａ８ＡｐｐｌｅＡ４（商標）プロセッサー、ＭａｒｖｅｌｌＰＸＡ９３０（商標）プロセッサー、または機能的に同等なプロセッサー。複数のスレッドの実行が並列処理のために使用され得る。いくつかの実施形態において、複数のプロセッサー、または複数のコアを持つプロセッサーは、単一のコンピューターシステム中でも、クラスター中でも、または、複数のコンピューター、携帯電話、および／または個人用携帯情報端末装置を含むネットワーク上のシステムにわたって分布されても、使用され得る。

【0213】

図１８Ｃに例示されるように、高速キャッシュ（７０４）は、プロセッサー（７０２）に接続されるか、またはその中に組み込まれることで、プロセッサー（７０２）により近年使用されてきた、または頻繁に使用されている、命令またはデータのための高速メモリーを提供できる。プロセッサー（７０２）は、プロセッサーバス（７０８）によりノースブリッジ（７０６）に接続される。ノースブリッジ（７０６）は、メモリーバス（７１２）によりランダムアクセスメモリー（ＲＡＭ）（７１０）に接続され、プロセッサー（７０２）によりＲＡＭ（７１０）へのアクセスを管理する。ノースブリッジ（７０６）はまた、チップセットバス（７１６）によりサウスブリッジ（７１４）に接続される。サウスブリッジ（７１４）は次に、周辺バス（７１８）に接続される。周辺バスは、例えばＰＣＩ、ＰＣＩ－Ｘ、ＰＣＩＥｘｐｒｅｓｓなどの周辺バスであり得る。ノースブリッジおよびサウスブリッジは多くの場合、プロセッサーチップセットと称され、周辺バス（７１８）上でプロセッサーと、ＲＡＭと、周辺コンポーネントとの間のデータ転送を管理する。いくつかの代替的な構成において、ノースブリッジの機能性は、別個のノースブリッジチップを使用する代わりにプロセッサーに組み込まれ得る。

【0214】

いくつかの実施形態において、システム（７００）は、周辺バス（７１８）に付けられたアクセラレーターカード（７２２）を含む。アクセラレーターは、特定の処理を速めるためのフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）などのハードウェアを含み得る。例えば、アクセラレーターは、適応データの再構築のために、または、拡張設定処理に使用される代数式を評価するために使用され得る。

【0215】

ソフトウェアとデータは、外部記憶装置（７２４）に記憶され、プロセッサーによる使用のためにＲＡＭ（７１０）および／またはキャッシュ（７０４）へとロードされ得る。システム（２０００）は、システムリソースの管理のためのオペレーティングシステムを含み；オペレーティングシステムの非限定的な例には、以下が挙げられる：Ｌｉｎｕｘ（登録商標）、Ｗｉｎｄｏｗｓ（商標）、ＭＡＣＯＳ（商標）、ＢｌａｃｋＢｅｒｒｙＯＳ（商標）、ｉＯＳ（商標）、およびその他機能的に同等なＯＳ、同様に、本発明の実施形態の例に従ってデータの記憶と最適化を管理するためのオペレーティングシステム上で実行されるアプリケーションソフトウェア。

【0216】

この例において、システム（７００）はまた、ネットワーク接続ストレージ（ＮＡＳ）などの外部記憶装置、および分散並列処理に使用され得る他のコンピューターシステムにネットワークインターフェースを設けるために、周辺バスに接続されるネットワーク・インターフェース・カード（ＮＩＣ）（７２０）および（７２１）を含む。

【0217】

図１８Ｄは、複数のコンピューターシステム（２１０２ａ）および（２１０２ｂ）、複数の携帯電話および個人用携帯情報端末（２１０２ｃ）、およびネットワーク接続ストレージ（ＮＡＳ）（２１０４ａ）および（２１０４ｂ）を含む、ネットワーク（２１００）を示す略図である。実施形態の例において、システム（２１０２ａ）、（２１０２ｂ）、および（２１０２ｃ）は、データ記憶を管理し、ネットワーク接続ストレージ（ＮＡＳ）（２１０４ａ）および（２１０４ｂ）に記憶されたデータに対するデータアクセスを最適化できる。数学モデルがこのデータに対して使用され、コンピューターシステム（２１０２ａ）および（２１０２ｂ）、および携帯電話および個人用携帯情報端末システム（２１０２ｃ）にわたって分散並列処理を使用して評価され得る。コンピューターシステム（２１０２ａ）および（２１０２ｂ）、および携帯電話および個人用携帯情報端末システム（２１０２ｃ）はまた、ネットワーク接続ストレージ（ＮＡＳ）（２１０４ａ）および（２１０４ｂ）に記憶されたデータの適応データ再構築に対して並列処理を提供できる。図１８Ｄは一例のみを例示しており、様々な他のコンピューターのアーキテクチャとシステムは、本発明の様々な実施形態と共に使用され得る。例えば、ブレードサーバーが、並列処理を提供するために使用され得る。プロセッサーブレードは、並列処理を提供するためにバックプレーンを通じて接続され得る。ストレージはまた、別個のネットワークインターフェースを通ってバックプレーンに、またはネットワーク接続ストレージ（ＮＡＳ）として接続され得る。

【0218】

いくつかの実施形態の例において、プロセッサーは、別個のメモリー空間を維持し、ネットワークインターフェース、バックプレーン、または他のプロセッサーによる並列処理のための他のコネクターを通じてデータを伝達可能である。他の実施形態において、プロセッサーの一部またはすべてが、共有仮想アドレスメモリ空間を使用できる。

【0219】

図１８Ｅは、実施形態の例に従って共有仮想アドレスメモリ空間を使用するマルチプロセッサー・コンピューター・システム（９００）のブロック図である。該システムは、共有メモリーサブシステム（９０４）にアクセス可能な複数のプロセッサー（９０２ａ－ｆ）を含む。システムは、メモリーサブシステム（９０４）に複数のプログラマブルハードウェアのメモリー・アルゴリズム・プロセッサー（ＭＡＰ）（９０６ａ－ｆ）を組み込む。ＭＡＰ（９０６ａ－ｆ）は各々、メモリー（９０８ａ－ｆ）および１以上のフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）（９１０ａ－ｆ）を含み得る。ＭＡＰは設定可能な機能ユニットを提供し、特定のアルゴリズムまたはその一部は、各プロセッサーと密接に協働して処理を行うためにＦＰＧＡ（９１０ａ－ｆ）に設けられ得る。例えば、ＭＡＰは、データモデルに関する代数式を評価し、かつ実施形態の例における適応データの再構築を行うために使用され得る。この例において、各ＭＡＰは、このような目的のためにプロセッサーすべてによって世界的にアクセス可能である。１つの構成において、ＭＡＰは各々、関連するメモリー（９０８ａ－ｆ）にアクセスするためにダイレクト・メモリー・アクセス（ＤＭＡ）を使用可能であり、それにより、各マイクロプロセッサー（９０２ａ－ｆ）とは別個に、かつこれらから非同期的にタスクを実行可能となる。この構成において、ＭＡＰは、パイプライン処理（ｐｉｐｅｌｉｎｉｎｇ）およびアルゴリズムの並列の実行のために別のＭＡＰに結果を直接供給できる。

【0220】

上述のコンピューターのアーキテクチャとシステムは単なる例であり、様々な他のコンピューター、携帯電話、個人用携帯情報端末のアーキテクチャとシステムが、一般的なプロセッサー、コプロセッサー、ＦＰＧＡ、および他のプログラム可能論理回路の任意の組み合わせを使用するシステム、システムオンチップ（ＳＯＣ）、特定用途向け集積回路（ＡＳＩＣ）、および他の処理要素と論理素子を含む実施形態の例と共に、使用され得る。いくつかの実施形態において、コンピューターシステムのすべてまたは一部は、ソフトウェアまたはハードウェアに実装され得る。様々なデータ記憶媒体が実施形態の例と共に使用され得、例えばランダムアクセスメモリー、ハードドライブ、フラッシュメモリー、テープドライブ、ディスクアレイ、ネットワーク接続ストレージ（ＮＡＳ）、および他のローカルまたは分散データ記憶デバイスとシステムが挙げられる。

【0221】

実施形態の例において、コンピューターシステムは、上述または他のコンピューターのアーキテクチャおよびシステムの何れかにて実行されるソフトウェアモジュールを使用して実施され得る。他の実施形態において、システムの機能は、ファームウェア、図１８Ｅで言及されるようなフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）などのプログラム可能論理回路、システムオンチップ（ＳＯＣ）、特定用途向け集積回路（ＡＳＩＣ）、または他の処理要素や論理素子において部分的または完全に実施され得る。

【0222】

本出願の出願時点で使用中の方法に対して、本明細書に開示される方法とシステムは、多数の利点を提供する。

【0223】

本明細書に開示される方法および計算システムの一部は、生物体の染色体の数には依存しない様式でコンティグをクラスター化する。単連結クラスター化のためのコンティグ間の連結に対して保存的な閾値が適用されることで、結果として生じるより小さなコンティグクラスターをスキャホールドへとアセンブルし、後のスキャフォールディングの連結は、本明細書に開示される様々な方法により可能となる。

【0224】

いくつかの実施形態において、本明細書に開示される方法は、実質的にクラスター化を必要としないが、スパニング・ツリー・ステップ、その後、位相樹木の剪定へと進む。いくつかの実施形態において、１より多くのクラスター化方法が使用可能であり、例えばＭａｒｋｏｖＣｌｕｓｔｅｒＡｌｇｏｒｉｔｈｍ（ＭＣＬアルゴリズム）がある。理論に縛られることなく、ミスアセンブリは、必要以上に注意を払いこれらの縁を処置し、かつアセンブリの誤った結合を回避することにより、位相剪定によって妨げられ得る。

【0225】

スキャホールド中のコンティグの順序を固定した後、配向を、ダイナミック・プログラミング・アルゴリズムの使用により最適化できる。そのような手法は、スコアに対する順序付けの貢献が最適化されている際に隣接するコンティグのペアへとマッピングされたペアのみを読み取り、外部にあるおよびアセンブルされていない優れたフラグメントペアの最大分離よりも短いコンティグを除外する。配向工程を改善するために、最近傍コンティグスコアの相互作用に加えて、最近傍コンティグスコアの相互作用でないコンティグは、例えば順序付けした２以上のコンティグの値、例えば２、３、４、５、６、７、８、９、１０以上を用いて、最大ｗ－２の介入コンティグ内のコンティグのペアへとマッピングされたすべてのペアのデータを組み込むアルゴリズムの使用によって、検討され得る。

【0226】

いくつかの実施形態において、インターカレーション工程の精度は改善可能である。理論に縛られることなく、トランクの作成後の優れたリードペア間の最大分離よりも短いコンティグを持つアセンブリにおいて、順序付けに沿ったｗコンティグの近傍内にあるコンティグのデータは、トランクからコンティグを除外し、かつ、隣接するコンティグ間の結合の量を最大限にする部位にて再挿入する場合に、含まれる。

【0227】

他のいくつかの実施形態において、配向工程は、より多くの最近傍コンティグスコアの相互作用を考慮することにより改善可能である。スキャホールド中のコンティグの順序を固定した後、コンティグ配向を、ダイナミック・プログラミング・アルゴリズムの使用により最適化する。順序付けにおける隣接したペアへとマッピングされたリードペアのみが、最適化されているスコアに寄与する。場合によっては、順序付けにおける最大ｗ－２の介入コンティグ内のコンティグのペアへとマッピングされたすべてのペアのデータを組み込むアルゴリズムが、優れたフラグメントペアの最大分離よりも短いあらゆるコンティグを持つアセンブリに使用され得る。例えば、順序付けにおける２つ以上のコンティグの値、例えば２、３、４、５、６、７、８、９、または１０以上が使用される。

【0228】

いくつかの実施形態において、順序付け工程と配向工程をより厳密に統合することにより、順序付けと配向両方の精度を改善できる。初期のグラフを構築することができ、このグラフにおいて、ノードはコンティグ端部であり、各コンティグの２つの末端ノードは縁により結合される。特定の短いギャップサイズの仮定中にコンティグ内の縁の対数尤度比率スコアを算出し、選別した。縁のスコアの順序を減らす際にリストを下ると、新たな縁が、アセンブリの全スコアを増加または減少させるかに応じて、受け入れられ、または拒絶される。正のスコアを伴う均一な縁は、アセンブリ中のコンティグのスコアの合計を減らしかねない場合があり、なぜなら、既存のスキャホールドのギャップへのコンティグのインターカレーションを示唆する縁を受け入れることで、ギャップの何れかの側にある結合したコンティグのペア間のギャップサイズを増大させ、おそらくはそれらに低いスコアを付与することに、留意されたい。

【0229】

加えて、最大尤度ギャップサイズを効率的に計算できる。報告されたアセンブリの全体的な精度は、連続するコンティグ間の未知の配列の長さを推定することで増大され得る。ライブラリーのリードペア間の分離ｄに対するモデル確率密度関数（ＰＤＦ）を含むライブラリー作成プロセスのモデルを考慮すると、最大尤度ギャップの長さは、ギャップに及ぶペアの分離ｄｉの結合尤度を最大限にすることで見出され得る。微分可能なモデルＰＤＦに関して、効率的な反復最適化方法（例えば、Ｎｅｗｔｏｎ－Ｒａｐｈｓｏｎ）を使用できる。

【0230】

本明細書に開示される方法と組成物の要素は、コンティグが、例えば、コンティグの順序、配向、または順序と配向に関して２、３、４、５、または６以上のコンティグのコンティグウィンドウ中の最適点である構成へとアセンブルされ、一方で、８、７、６、５、４、３、または２時間未満などの比較的短い時間で実行可能または獲得可能であるもの、である。ゆえに、場合によっては、本明細書中の方法により、高度の算出能力が、大量の算出時間を使用せず、かつ全体的に非常に大きな算出空間を探索する必要なしに、計算上集約的な問題へともたらされ得る。むしろ、局所的順序付けは、コンティグの適度に正確な順序付けを達成し、その後、算出強度は、大半の場合に一度にすべてのコンティグを全体的に最適化するよりむしろ、コンティグの局所的ウィンドウを最適化することに費やされる。場合によっては、３、４、５、または６に及ぶウィンドウサイズを使用して、構成の最適化が、８、７、６、５、４、３、または２時間未満で行われる。より大きなウィンドウサイズに関して、構成の最適化は、数日から最大一週間で達成される。

【0231】

デジタル処理デバイス
いくつかの実施形態において、本明細書に記載されるコンティグアセンブリ方法は、デジタル処理装置、またはその使用を含む。更なる実施形態において、デジタル処理デバイスは、デバイスの機能を実行する１つ以上のハードウェア中央処理装置（ＣＰＵ）を備える。また更なる実施形態において、デジタル処理デバイスは、実行可能命令を実行するように構成されるオペレーティングシステムを更に含む。いくつかの実施形態において、デジタル処理デバイスはコンピューターネットワークに随意に接続される。更なる実施形態において、デジタル処理デバイスは、ワールド・ワイド・ウェブにアクセスするようインターネットに随意に接続される。また更なる実施形態において、デジタル処理デバイスは、クラウド・コンピューティング・インフラストラクチャーに随意に接続される。他の実施形態において、デジタル処理デバイスはイントラネットに随意に接続される。他の実施形態において、デジタル処理デバイスはデータ記憶デバイスに随意に接続される。

【0232】

本明細書の記載に従って、適切なデジタル処理装置には、非限定的な例として、サーバーコンピューター、デスクトップコンピューター、ラップトップコンピューター、ノートブックコンピューター、サブノートブックコンピューター、ネットブックコンピューター、ネットパッドコンピューター、セットトップコンピューター、メディアストリーミングデバイス、ハンドヘルドコンピューター、インターネット家電、モバイルスマートフォン、タブレットコンピューター、携帯情報端末、ビデオゲーム機、および伝達手段が挙げられる。当業者は、多くのスマートフォンが、本明細書に記載されるシステムにおいて使用するのに適していることを認識する。当業者はまた、随意のコンピューターネットワークの接続性を備えた、選択したテレビ、ビデオプレーヤー、およびデジタル音楽プレーヤーが、本明細書に記載されるシステムにおいて使用するのに適していることを認識する。適切なタブレットコンピューターには、当業者に既知の、ブックレット、スレート、および変換可能な構成を備えたものが挙げられる。

【0233】

いくつかの実施形態において、デジタル処理デバイスは、実行可能命令を実行するように構成されたオペレーティングシステムを含む。オペレーティングシステムは、例えば、デバイスのハードウェアを管理し、アプリケーションの実施のためのサービスを提供するプログラムおよびデータを含む、ソフトウェアである。当業者は、適切なサーバー・オペレーティング・システムには、限定されないが、ＦｒｅｅＢＳＤ、ＯｐｅｎＢＳＤ、ＮｅｔＢＳＤ（登録商標）、Ｌｉｎｕｘ（登録商標）、Ａｐｐｌｅ（登録商標）、ＭａｃＯＳＸＳｅｒｖｅｒ（登録商標）、Ｏｒａｃｌｅ（登録商標）Ｓｏｌａｒｉｓ（登録商標）、ＷｉｎｄｏｗｓＳｅｒｖｅｒ（登録商標）、およびＮｏｖｅｌｌ（登録商標）ＮｅｔＷａｒｅ（登録商標）が挙げられることを認識する。当業者は、適切なパーソナル・コンピューター・オペレーティング・システムには、限定されないが、Ｍｉｃｒｏｓｏｆｔ（登録商標）Ｗｉｎｄｏｗｓ（登録商標）、Ａｐｐｌｅ（登録商標）ＭａｃＯＳＸ（登録商標）、ＵＮＩＸ（登録商標）、および、ＧＮＵ／Ｌｉｎｕｘ（登録商標）などのＵＮＩＸ（登録商標）のようなオペレーティングシステムが挙げられることを認識する。いくつかの実施形態において、オペレーティングシステムは、クラウドコンピューティングによって提供される。当業者はまた、適切なモバイルスマートフォンのオペレーティングシステムには、限定されないが、Ｎｏｋｉａ（登録商標）Ｓｙｍｂｉａｎ（登録商標）ＯＳ、Ａｐｐｌｅ（登録商標）ｉＯＳ（登録商標）、ＲｅｓｅａｒｃｈＩｎＭｏｔｉｏｎ（登録商標）ＢｌａｃｋＢｅｒｒｙＯＳ（登録商標）、Ｇｏｏｇｌｅ（登録商標）Ａｎｄｒｏｉｄ（登録商標）、Ｍｉｃｒｏｓｏｆｔ（登録商標）ＷｉｎｄｏｗｓＰｈｏｎｅ（登録商標）ＯＳ、Ｍｉｃｒｏｓｏｆｔ（登録商標）ＷｉｎｄｏｗｓＭｏｂｉｌｅ（登録商標）ＯＳ、Ｌｉｎｕｘ（登録商標）、およびＰａｌｍ（登録商標）ＷｅｂＯＳ（登録商標）が挙げられることを認識する。

【0234】

いくつかの実施形態において、デバイスは、記憶デバイスおよび／またはメモリーデバイスを含む。記憶デバイスおよび／またはメモリーデバイスは、一時的または恒久的な基礎に基づいてデータまたはプログラムを記憶するために使用される、１以上の物理的な装置である。いくつかの実施形態において、デバイスは揮発性メモリーであり、記憶した情報を維持するために電力を必要とする。いくつかの実施形態において、デバイスは不揮発性メモリーであり、デジタル処理デバイスに電力が供給されないときにも記憶した情報を保持する。更なる実施形態において、不揮発性メモリーはフラッシュメモリーを含む。いくつかの実施形態において、不揮発性メモリーはダイナミック・ランダム・アクセス・メモリー（ＤＲＡＭ）を含む。いくつかの実施形態において、不揮発性メモリーは、強誘電体ランダムアクセスメモリー（ＦＲＡＭ（登録商標））を含む。いくつかの実施形態において、不揮発性メモリーは、相変化ランダムアクセスメモリー（ＰＲＡＭ）を含む。随意に、デバイスは、限定されないが、ＣＤ－ＲＯＭ、ＤＶＤ、フラッシュメモリーデバイス、磁気ディスクドライブ、光ディスクドライブ、およびクラウドコンピューティングベースの記憶装置を含む、記憶デバイスである。更なる実施形態において、記憶デバイスおよび／またはメモリーデバイスは、本明細書に開示されるものなどのデバイスの組み合わせである。

【0235】

一部のデジタル処理装置は、視覚情報をユーザーに送信するためのディスプレイ、例えば、ブラウン管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）、薄膜トランジスタ液晶ディスプレイ（ＴＦＴ－ＬＣＤ）、パッシブマトリクスＯＬＥＤ（ＰＭＯＬＥＤ）などの有機発光ダイオード（ＯＬＥＤ）ディスプレイ、またはアクティブマトリクスＯＬＥＤ（ＡＭＯＬＥＤ）ディスプレイを含む。プラズマディスプレイ、ビデオプロジェクター、または本明細書に開示されるものなどのデバイスの組み合わせ。

【0236】

多くの場合、デジタル処理装置は、ユーザーから情報を受信するための入力デバイス、例えば、キーボード、非限定的な例としてマウス、トラックボール、トラックパッド、ジョイスティック、ゲームコントローラー、またはスタイラスといったポインティングデバイスを含む。いくつかの実施形態において、入力デバイスは、タッチスクリーンまたはマルチタッチスクリーン、音声または他の音入力を捉えるマイクロフォンまたはビデオカメラ、または動きや視覚入力を捉える他のセンサーである。更なる実施形態において、入力デバイスは、Ｋｉｎｅｃｔ、ＬｅａｐＭｏｔｉｏｎなどである。多くの場合、入力デバイスは、本明細書に開示されるものなどのデバイスの組み合わせである。

【0237】

非一時的コンピューター可読記憶媒体
いくつかの実施形態において、本明細書に開示されるコンティグアセンブリ方法は、随意にネットワーク化されたデジタル処理デバイスのオペレーティングシステムによって実行可能な命令を含むプログラムでコードされた、１つ以上の非一時的コンピューター可読記憶媒体を含む。更なる実施形態において、コンピューター可読記憶媒体はデジタル処理デバイスの有形部品である。また更なる実施形態において、コンピューター可読記憶媒体は、デジタル処理デバイスから随意に取り外し可能である。いくつかの実施形態において、コンピューター可読記憶媒体には、限定されないが、ＣＤ－ＲＯＭ、ＤＶＤ、フラッシュメモリーデバイス、固体記憶装置、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、クラウドコンピューティングシステムおよびサービスなどが挙げられる。場合によっては、プログラムと命令は、永続的に、ほぼ永続的に、半永続的に、または非一時的に、媒体上でコードされる。

【0238】

コンピュータープログラム
いくつかの実施形態において、本明細書に開示されるコンティグアセンブリ方法は、少なくとも１つのコンピュータープログラム、またはその使用を含む。コンピュータープログラムは、デジタル処理デバイスのＣＰＵにおいて実行可能であり、特別なタスクを実行するために書かれた、一連の命令を含む。コンピューター可読命令は、特定のタスクを実行する、または特定の抽象データ型を実装する、機能、オブジェクト（ｏｂｊｅｃｔｓ）、アプリケーション・プログラム・インターフェース（ＡＰＩ）、データ構造などのプログラムモジュールとして実施されてもよい。本明細書で提供される開示に照らして、当業者は、コンピュータープログラムが様々な言語の様々なバージョンで書かれ得ることを認識する。

【0239】

コンピューター可読の命令の機能性は、様々な環境に所望されるように組み合わせられるか、または分布されてもよい。いくつかの実施形態において、コンピュータープログラムは１つの連続した命令を含む。いくつかの実施形態において、コンピュータープログラムは複数の連続した命令を含む。いくつかの実施形態において、コンピュータープログラムは、１つの場所から提供される。他の実施形態において、コンピュータープログラムは複数の場所から提供される。様々な実施形態において、コンピュータープログラムは、１以上のソフトウェアモジュールを含む。様々な実施形態において、コンピュータープログラムは、部分的または全体的に、１以上のウェブアプリケーション、１以上のモバイルアプリケーション、１以上の独立型アプリケーション、１以上のウェブ・ブラウザ・プラグイン、エクステンション、アドイン、またはアドオン、またはそれらの組み合わせを含む。

【0240】

ウェブアプリケーション
いくつかの実施形態において、コンティグアセンブリ方法を実施するコンピュータープログラムは、ウェブアプリケーションを備える。本明細書で提供される開示に照らして、当業者は、ウェブアプリケーションが、様々な実施形態において、１以上のソフトウェアフレームワークおよび１以上のデータベースシステムを利用することを認識する。いくつかの実施形態において、ウェブアプリケーションは、Ｍｉｃｒｏｓｏｆｔ（登録商標）．ＮＥＴまたはＲｕｂｙｏｎＲａｉｌｓ（ＲｏＲ）などのソフトウェアフレームワーク上で作成される。いくつかの実施形態において、ウェブアプリケーションは、限定されないが、リレーショナル、非リレーショナル、オブジェクト指向、連想型、およびＸＭＬのデータベースシステムを含む、１以上のデータベースシステムを利用する。更なる実施形態において、適切なリレーショナルデータベースシステムには、限定されないが、Ｍｉｃｒｏｓｏｆｔ（登録商標）ＳＱＬＳｅｒｖｅｒ、ｍｙＳＱＬ（商標）、およびＯｒａｃｌｅ（登録商標）が挙げられる。当業者は、ウェブアプリケーションが、様々な実施形態において１以上の言語の１以上のバージョンで書かれることを認識する。ウェブアプリケーションは、１以上のマークアップ言語、プレゼンテーション定義言語、クライアント側スクリプト言語、サーバー側コード化言語、データベース照会言語、またはそれらの組み合わせで書かれてもよい。いくつかの実施形態において、ウェブアプリケーションは、ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ（ＨＴＭＬ）、ＥｘｔｅｎｓｉｂｌｅＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ（ＸＨＴＭＬ）、またはｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ（ＸＭＬ）などのマークアップ言語で、ある程度書かれる。いくつかの実施形態において、ウェブアプリケーションは、ＣａｓｃａｄｉｎｇＳｔｙｌｅＳｈｅｅｔｓ（ＣＳＳ）などのプレゼンテーション定義言語で、ある程度書かれる。いくつかの実施形態において、ウェブアプリケーションは、ＡｓｙｎｃｈｒｏｎｏｕｓＪａｖａｓｃｒｉｐｔａｎｄＸＭＬ（ＡＪＡＸ）、Ｆｌａｓｈ（登録商標）Ａｃｔｉｏｎｓｃｒｉｐｔ、Ｊａｖａｓｃｒｉｐｔ、またはＳｉｌｖｅｒｌｉｇｈｔ（登録商標）などのクライアント側スクリプトで、ある程度書かれる。いくつかの実施形態において、ウェブアプリケーションは、ＡｃｔｉｖｅＳｅｒｖｅｒＰａｇｅｓ（ＡＳＰ）、ＣｏｌｄＦｕｓｉｏｎ（登録商標）、Ｐｅｒｌ、Ｊａｖａ（商標）、ＪａｖａＳｅｒｖｅｒＰａｇｅｓ（ＪＳＰ）、ＨｙｐｅｒｔｅｘｔＰｒｅｐｒｏｃｅｓｓｏｒ（ＰＨＰ）、Ｐｙｔｈｏｎ（商標）、Ｒｕｂｙ、Ｔｃｌ、Ｓｍａｌｌｔａｌｋ、ＷｅｂＤＮＡ（登録商標）、またはＧｒｏｏｖｙなどのサーバー側コード化言語で、ある程度書かれる。いくつかの実施形態において、ウェブアプリケーションは、ＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ（ＳＱＬ）などのデータベース照会言語で、ある程度書かれる。いくつかの実施形態において、ウェブアプリケーションは、ＩＢＭＲＬｏｔｕｓＤｏｍｉｎｏ（登録商標）などの企業サーバー製品を統合する。いくつかの実施形態において、ウェブアプリケーションはメディアプレーヤー要素を含む。様々な更なる実施形態において、メディアプレーヤー要素は、限定されないが、Ａｄｏｂｅ（登録商標）Ｆｌａｓｈ（登録商標）、ＨＴＭＬ５、Ａｐｐｌｅ（登録商標）ＱｕｉｃｋＴｉｍｅ（登録商標）、Ｍｉｃｒｏｓｏｆｔ（登録商標）Ｓｉｌｖｅｒｌｉｇｈｔ（登録商標）、Ｊａｖａ（登録商標）、及びＵｎｉｔｙ（登録商標）を含む、多くの適切なマルチメディア技術の１つ以上を利用する。

【0241】

モバイルアプリケーション
いくつかの実施形態において、本明細書に開示されるコンティグアセンブリ方法を実施するコンピュータープログラムは、モバイルデジタル処理デバイスに設けられるモバイルアプリケーションを備える。いくつかの実施形態において、モバイルアプリケーションは、製造時にモバイルデジタル処理デバイスに設けられる。他の実施形態において、モバイルアプリケーションは、本明細書に記載されるコンピューターネットワークを介してモバイルデジタル処理デバイスに設けられる。

【0242】

本明細書で提供される開示を考慮して、モバイルアプリケーションは、当該技術分野で既知のハードウェア、言語、および開発環境を使用する、当業者に既知の技術によって作成される。当業者は、モバイルアプリケーションが様々な言語で書かれることを認識する。適切なプログラミング言語には、限定されないが、Ｃ、Ｃ＋＋、Ｃ＃、Ｏｂｊｅｃｔｉｖｅ－Ｃ、Ｊａｖａ（商標）、Ｊａｖａｓｃｒｉｐｔ、Ｐａｓｃａｌ、ＯｂｊｅｃｔＰａｓｃａｌ、Ｐｙｔｈｏｎ（商標）、Ｒｕｂｙ、ＶＢ．ＮＥＴ、ＷＭＬ、および、ＣＳＳの有無にかかわらずＸＨＴＭＬ／ＨＴＭＬ、またはそれらの組み合わせを含む。

【0243】

適切なモバイルアプリケーション開発環境は、様々なソースから利用可能である。市販で入手可能な開発環境には、限定されないが、ＡｉｒｐｌａｙＳＤＫ、ａｌｃｈｅＭｏ、Ａｐｐｃｅｌｅｒａｔｏｒ（登録商標）、Ｃｅｌｓｉｕｓ、Ｂｅｄｒｏｃｋ、ＦｌａｓｈＬｉｔｅ、．ＮＥＴＣｏｍｐａｃｔＦｒａｍｅｗｏｒｋ、Ｒｈｏｍｏｂｉｌｅ、およびＷｏｒｋＬｉｇｈｔＭｏｂｉｌｅＰｌａｔｆｏｒｍが挙げられる。他の開発環境はコスト無しで利用可能であり、限定されないが、Ｌａｚａｒｕｓ、ＭｏｂｉＦｌｅｘ、ＭｏＳｙｎｃ、およびＰｈｏｎｅｇａｐが挙げられる。また、モバイルデバイスのメーカーは、限定されないが、ｉＰｈｏｎｅ（登録商標）およびｉＰａｄ（登録商標）（ｉＯＳ）ＳＤＫ、Ａｎｄｒｏｉｄ（商標）ＳＤＫ、ＢｌａｃｋＢｅｒｒｙ（登録商標）ＳＤＫ、ＢＲＥＷＳＤＫ、Ｐａｌｍ（登録商標）ＯＳＳＤＫ、ＳｙｍｂｉａｎＳＤＫ、ｗｅｂＯＳＳＤＫ、およびＷｉｎｄｏｗｓ（登録商標）ＭｏｂｉｌｅＳＤＫを含む、ソフトウェア開発キットを流通させている。

【0244】

当業者は、様々な商用のフォーラムが、限定されないが、Ａｐｐｌｅ（登録商標）ＡｐｐＳｔｏｒｅ、Ａｎｄｒｏｉｄ（商標）Ｍａｒｋｅｔ、ＢｌａｃｋＢｅｒｒｙ（登録商標）ＡｐｐＷｏｒｌｄ、ＰａｌｍｄｅｖｉｃｅｓのＡｐｐＳｔｏｒｅ、ｗｅｂＯＳのＡｐｐＣａｔａｌｏｇ、ＭｏｂｉｌｅのＷｉｎｄｏｗｓ（登録商標）Ｍａｒｋｅｔｐｌａｃｅ、Ｎｏｋｉａ（登録商標）デバイスのＯｖｉＳｔｏｒｅ、Ｓａｍｓｕｎｇ（登録商標）Ａｐｐ、およびＮｉｎｔｅｎｄｏ（登録商標）ＤＳｉＳｈｏｐを含む、モバイルアプリケーションの流通に利用可能であることを認識する。

【0245】

独立型アプリケーション
いくつかの実施形態において、本明細書に開示されるコンティグアセンブリ方法を実施するコンピュータープログラムは、独立型アプリケーションを備え、これは、既存のプロセスへのアドオン、例えばプラグインではなく、独立したコンピュータープロセスとして実行されるプログラムである。当業者は、独立型アプリケーションが頻繁にコンパイルされることを認識する。コンパイラーは、プログラミング言語で書かれたソースコードを、アセンブリ言語または機械コードなどのバイナリオブジェクト・コード（ｂｉｎａｒｙｏｂｊｅｃｔｃｏｄｅ）へと変換させるコンピュータープログラムである。適切なコンパイルされたプログラミング言語には、限定されないが、Ｃ、Ｃ＋＋、Ｏｂｊｅｃｔｉｖｅ－Ｃ、ＣＯＢＯＬ、Ｄｅｌｐｈｉ、Ｅｉｆｆｅｌ、Ｊａｖａ（商標）、Ｌｉｓｐ、Ｐｙｔｈｏｎ（商標）、ＶｉｓｕａｌＢａｓｉｃ、およびＶＢ．ＮＥＴ、またはそれらの組み合わせが挙げられる。コンパイルは多くの場合、実行可能なプログラムを作成するために少なくとも部分的に行なわれる。いくつかの実施形態において、コンピュータープログラムは、１以上の実行可能な、コンパイルされたアプリケーションを備える。

【0246】

ウェブ・ブラウザ・プラグイン
いくつかの実施形態において、コンティグアセンブリ方法は、ウェブ・ブラウザ・プラグインを備える。計算において、プラグインは、より大きなソフトウェアアプリケーションに特異的な機能性を加える、１以上のソフトウェアコンポーネントである。ソフトウェアアプリケーションのメーカーは、第三者である開発者が、アプリケーションを拡張させる性能を作り出し、新たな機能の容易な追加を支援し、かつアプリケーションのサイズを減らすことを可能にするように、プラグインを支持する。支持されると、プラグインは、ソフトウェアアプリケーションの機能性のカスタマイズを可能にする。例えば、プラグインは、ビデオを再生し、対話性を生成し、ウイルスをスキャンし、および特定のファイルタイプを表示するために、ウェブブラウザにおいて一般的に使用される。当業者は、Ａｄｏｂｅ（登録商標）Ｆｌａｓｈ（登録商標）Ｐｌａｙｅｒ、Ｍｉｃｒｏｓｏｆｔ（登録商標）Ｓｉｌｖｅｒｌｉｇｈｔ（登録商標）、およびＡｐｐｌｅ（登録商標）ＱｕｉｃｋＴｉｍｅ（登録商標）を含む、様々なウェブブラウザのプラグインに精通している。いくつかの実施形態において、ツールバーは、１以上のウェブブラウザの拡張、アドイン、またはアドオンを含む。いくつかの実施形態において、ツールバーは、１以上のエクスプローラーバー、ツールバンド、またはデスクバンドを含む。

【0247】

本明細書で提供される開示を考慮して、当業者は、限定されないがＣ＋＋、Ｄｅｌｐｈｉ、Ｊａｖａ（商標）、ＰＨＰ、Ｐｙｔｈｏｎ（商標）、およびＶＢ．ＮＥＴを含む様々なプログラミング言語でのプラグインの開発を可能にする、様々なプラグイン・フレームワークが利用可能であることを認識する。

【0248】

ウェブブラウザ（インターネットブラウザとも呼ばれる）は、ワールド・ワイド・ウェブ上で情報資源を検索、提示、およびトラバースする（ｔｒａｖｅｒｓｉｎｇ）ための、ネットワーク接続のデジタル処理デバイスとの使用のために設計される、ソフトウェアアプリケーションである。適切なウェブブラウザには、限定されないが、Ｍｉｃｒｏｓｏｆｔ（登録商標）ＩｎｔｅｒｎｅｔＥｘｐｌｏｒｅｒ（登録商標）、Ｍｏｚｉｌｌａ（登録商標）Ｆｉｒｅｆｏｘ（登録商標）、Ｇｏｏｇｌｅ（登録商標）Ｃｈｒｏｍｅ、Ａｐｐｌｅ（登録商標）Ｓａｆａｒｉ（登録商標）、ＯｐｅｒａＳｏｆｔｗａｒｅ（登録商標）Ｏｐｅｒａ（登録商標）、およびＫＤＥＫｏｎｑｕｅｒｏｒが挙げられる。いくつかの実施形態において、ウェブブラウザはモバイルウェブブラウザである。モバイルのウェブブラウザ（マイクロブラウザ、ミニブラウザ、およびワイヤレスブラウザとも呼ばれる）は、非限定的な例として、ハンドヘルドコンピューター、タブレットコンピューター、ネットブックコンピューター、サブノートブックコンピューター、スマートフォン、ミュージックプレーヤー、携帯情報端末（ＰＤＡ）、およびハンドヘルド・ビデオ・ゲーム・システムを含む、モバイルデジタル処理デバイスでの使用のために設計されている。適切なモバイルウェブブラウザには、限定されないが、Ｇｏｏｇｌｅ（登録商標）Ａｎｄｒｏｉｄ（登録商標）ブラウザ、ＲＩＭＢｌａｃｋＢｅｒｒｙ（登録商標）ブラウザ、Ａｐｐｌｅ（登録商標）Ｓａｆａｒｉ（登録商標）、Ｐａｌｍ（登録商標）Ｂｌａｚｅｒ、Ｐａｌｍ（登録商標）ＷｅｂＯＳ（登録商標）Ｂｒｏｗｓｅｒ、携帯用のＭｏｚｉｌｌａ（登録商標）Ｆｉｒｅｆｏｘ（登録商標）、Ｍｉｃｒｏｓｏｆｔ（登録商標）ＩｎｔｅｒｎｅｔＥｘｐｌｏｒｅｒ（登録商標）Ｍｏｂｉｌｅ、Ａｍａｚｏｎ（登録商標）Ｋｉｎｄｌｅ（登録商標）ＢａｓｉｃＷｅｂ、Ｎｏｋｉａ（登録商標）ブラウザ、ＯｐｅｒａＳｏｆｔｗａｒｅ（登録商標）Ｏｐｅｒａ（登録商標）Ｍｏｂｉｌｅ、およびＳｏｎｙ（登録商標）ＰＳＰ（商標）ブラウザが挙げられる。

【0249】

ソフトウェアモジュール
いくつかの実施形態において、本明細書に開示されるコンティグアセンブリ方法は、ソフトウェア、サーバー、および／またはデータベースモジュール、またはそれらの使用を含む。本明細書で提供される開示を考慮して、ソフトウェアモジュールは、当該技術分野で既知のマシン、ソフトウェア、および言語を使用する、当業者に既知の技術製品によって作り出される。本明細書に開示されたソフトウェアモジュールは、多数の方法で実装される。様々な実施形態において、ソフトウェアモジュールは、ファイル、コードのセクション、プログラミングオブジェクト、プログラミング構造、またはそれらの組み合わせを含む。更に様々な実施形態において、ソフトウェアモジュールは、複数のファイル、コードの複数のセクション、複数のプログラムミングオブジェクト、複数のプログラムミング構造、またはそれらの組み合わせを含む。様々な実施形態において、１以上のソフトウェアモジュールは、限定されないが、ウェブアプリケーション、モバイルアプリケーション、および独立型アプリケーションを含む。いくつかの実施形態において、ソフトウェアモジュールは、１つのコンピュータープログラムまたはアプリケーションにある。他の実施形態において、ソフトウェアモジュールは、１より多くのコンピュータープログラムまたはアプリケーションにある。いくつかの実施形態において、ソフトウェアモジュールは１つのマシン上でホストされる（ｈｏｓｔｅｄ）。他の実施形態において、ソフトウェアモジュールは１より多くのマシン上でホストされる。更なる実施形態において、ソフトウェアモジュールは、クラウド・コンピューティング・プラットフォーム上でホストされる。いくつかの実施形態において、ソフトウェアモジュールは、１つの場所にある１つ以上のマシン上でホストされる。他の実施形態において、ソフトウェアモジュールは、１より多くの場所にある１つ以上のマシン上でホストされる。

【0250】

データベース
いくつかの実施形態において、本明細書に開示されるコンティグアセンブリ方法は、１つ以上のデータベース、またはその使用を含む。本明細書で提供される開示を考慮して、当業者は、多くのデー夕ベースが、コンティグ情報の保管と検索に適切であることを認識する。様々な実施形態において、適切なデータベースには、限定されないが、リレーショナルデータベース、非リレーショナルデータベース、オブジェクト指向型データベース、オブジェクトデータベース、実体関連モデルデータベース、連想データベース、およびＸＭＬデータベースが挙げられる。他の実施形態において、デー夕ベースはインターネットベースである。更なる実施形態において、データベースはウェブベースである。また更なる実施形態において、デー夕ベースは、クラウドコンピューティングベースである。他の実施形態において、データベースは、１以上のローカルコンピューター記憶デバイスをベースとする。

【0251】

診断上の用途
本明細書中のシステムと方法は、薬物の選択または評価、または他の治療レジメンに適用可能である。本開示の実施を通じて、癌組織などの組織は、薬物候補を示す構造的な再編成に関して評価される。例えば、局所的密度変異または局所的密度変異パターンは、場合によっては、特定の遺伝子の変化を示す。例えば、分析に関与する再編成は、特定の治療に応答すると知られる、またはその疑いのあるゲノムバックグラウンドを形成するように、遺伝子のトランケーション、欠失、または融合を必要とし得る。実行される分析は治療方針を示し、薬物が示される。多くの場合、薬物または他の治療のレジメンは、医療従事者または患者に提唱され、または、分析されたサンプルに関連する健康状態に対処するように患者に適用される。

【0252】

代替的に、または組み合わせにおいて、本明細書に開示されるようなシステムと方法を利用して、個体、例えばゲノム再編成が治療中の障害に関係する個体に適用した薬物または他の処置レジメンの成功をモニタリングする。サンプルは、本明細書に開示されるように採取および分析されることで、局所的密度パターンを識別される。多くの場合、必ずしもそうではないが、局所的密度変異は、疾患に関連付けられる特定のゲノム再編成に関係し、処置の手法を示唆し、または、疾患進行（サンプル中の再編成の存在量を介するなどの）を示す。薬物処置などの処置レジメンは、単独で、または、他の処置工程、または薬物を必要としない他の工程と組み合わせて、疾病の症状を処置または改善するように試みられる。第２のサンプルは、本明細書に開示されるように採取および分析されることで、局所的密度パターンを識別される。このパターン、または結果としてもたらされる分析を、処置レジメンの前、またはそれより早く観察されたものと比較することで、レジメンの効果、例えば、腫瘍中の特定の再編成の存在量の減少における薬物の効果、または、癌腫瘍などの特定の組織疾患の原因となる、またはそれに関連する疑いのある組織を切除または減少させる際の外科的介入などの処置レジメンの効果などを評価する。評価は、処置レジメンを止めること、処置レジメンを減少させること、第２の処置レジメンを始めること、処置レジメンを変更せず継続させること、処置レジメンを増大させること、処置レジメンをモニタリングと置き換えること、または他のレジメン入力を多様に含む。

【0253】

本開示に関連する番号付きの実施形態
本開示はさらに、以下の番号付きの実施形態への言及を通じて明確にされ、この実施形態は数的順序で提示されるが、以下の数により示される相互関係に加えて、互いに、かつ本明細書の残部と容易に相関付けられる。番号付き実施形態は、本開示をさらに明確にし、かつ実施形態の発明特定事項を詳述する請求項を支持するために提示される。１．核酸構造変異検出の方法であって、該方法は、ａ）リードペア情報を基準核酸スキャホールド上にマッピングする工程；ｂ）リードペアの中点が第１のビン核酸位置範囲内にあり、かつリードペア分離が第１のビン分離範囲内にあるように、リードペア位置を第１のビンに割り当てる工程；およびｃ）第１ビンのマッピング可能性値に基づいてコピー数変異を推定する工程を含む、方法。２．コピー数変異を標準化する工程をさらに含む、実施形態１に記載の方法。３．２つのサンプルのマッピングされたリード密度を互いに対してプロットすることにより、マッピング可能性を視覚化する工程をさらに含む、実施形態１に記載の方法。４．核酸構造変異検出の方法であって、該方法は、ａ）リードペア情報を基準核酸スキャホールド上にマッピングする工程；ｂ）リードペアの中点が第１のビン核酸位置範囲内にあり、かつリードペア分離が第１のビン分離範囲内にあるように、リードペア位置を第１のビンに割り当てる工程；ｃ）リードペア情報の二次元画像を精製する工程であって、各ピクセルはビンを表す、工程；ｄ）画像中の共通の角を共有する４つのピクセルの少なくとも１つの群に対してｚスコアを算出する工程であって、ｚスコアは隣接するピクセル間の対比によって表される、工程；およびｅ）ｚスコアが閾値を超えたときに候補ヒットを識別する工程を含む、方法。５．基準核酸スキャホールドはゲノムである、実施形態１乃至４の何れか１つに記載の方法。６．各データセットは、異なるペアエンドリード方向から得られる、実施形態１乃至４の何れか１つに記載の方法。７．候補ヒットは転座である、実施形態１乃至４の何れか１つに記載の方法。８．候補ヒットは逆位である、実施形態１乃至４の何れか１つに記載の方法。９．候補ヒットは欠失である、実施形態１乃至４の何れか１つに記載の方法。１０．候補ヒットは重複である、実施形態１乃至４の何れか１つに記載の方法。１１．候補ヒットは、染色体間の構造変異である、実施形態１乃至４の何れか１つに記載の方法。１２．サンプル中の対立遺伝子変異の混合物をモデル化するためのシステムであって、該システムは、重み付きゲノム・スキャホールド・モデルのセットであって、各ゲノム・スキャホールド・モデルは重み付き染色体のセットを含み、各染色体はゲノムスキャホールドにおけるビンの線形グラフである、セット；およびライブラリーによりサンプリングされたリードペアがビンの中にあるかを予測するために少なくとも２つのゲノム・スキャホールド・モデルの対数尤度の比率を算出するためのモジュールを含む、システム。１３．ゲノム・スキャホールド・モデルに対する候補修飾を提示する、少なくとも１つの特徴検出器モジュールを更に含む、実施形態１乃至１２の何れか１つに記載のシステム。１４．少なくとも１つの特徴検出器モジュールは、配列変異のビン境界を決定する、実施形態１乃至１３の何れか１つに記載のシステム。１５．配列変異は転座である、実施形態１乃至１４の何れか１つに記載のシステム。１６．配列変異は逆位である、実施形態１乃至１４の何れか１つに記載のシステム。１７．配列変異は欠失である、実施形態１乃至１４の何れか１つに記載のシステム。１８．配列変異は重複である、実施形態１乃至１４の何れか１つに記載のシステム。１９．少なくとも１つの特徴検出器モジュールからの入力に基づいて代替的なモデルを生成するモジュールをさらに含む、実施形態１乃至１２の何れか１つに記載のシステム。２０．サンプル中の対立遺伝子変異をモデル化する方法であって、該方法は、ａ）重み付きゲノム・スキャホールド・モデルのセットを生成する工程であって、各ゲノム・スキャホールド・モデルは重み付き染色体のセットを含み、各染色体はゲノムスキャホールドにおけるビンの線形グラフである、工程；ｂ）基準配列上にマッピングされたリードペア配列決定情報を説明するモデルの能力に基づいてスコアを算出する工程であって、より高いスコア値はより多くの予測モデルを示す、工程；およびｃ）スコア値を最大限にするために付加的なモデルを反復して加える工程を含む、方法。２１．リードペア配列決定情報は逆位を含む、実施形態１乃至２０の何れか１つに記載の方法。２２．リードペア配列決定情報は転座を含む、実施形態１乃至２０の何れか１つに記載の方法。２３．リードペア配列決定情報は重複を含む、実施形態１乃至２０の何れか１つに記載の方法。２４．リードペア配列決定情報は欠失を含む、実施形態１乃至２０の何れか１つに記載の方法。２５．特徴を検出する工程をさらに含み、該工程は、スコア値を増大させるためにモデル中のビンを結合または分離することを含む、実施形態１乃至２１の何れか１つに記載の方法。２６．サンプルは癌細胞である、実施形態１乃至２０の何れか１つに記載の方法。２７．核酸構造変異検出の方法であって、該方法は、ａ）リードペア情報を、予測された核酸スキャホールド上にマッピングする工程；ｂ）リードペアの中点が第１のビン核酸位置範囲内にあり、かつリードペア分離が第１のビン分離範囲内にあるように、リードペア位置を第１のビンに割り当てる工程；ｃ）リードペア情報の二次元画像を精製する工程であって、各ピクセルはビンを表す、工程；およびｄ）共通の結合配列フラグメントにより接続される２つの配列フラグメントに対応する二次元画像中の少なくとも１つの特徴を識別する工程を含む、方法。２８．正確な順序で共通の結合配列フラグメントにより接続される２つの配列フラグメントをアセンブルする工程を含む、実施形態１乃至２７の何れか１つに記載の方法。２９．偽陽性に対応する特徴を切り捨てる工程を含む、実施形態１乃至２７の何れか１つに記載の方法。３０．方法であって、該方法は、リードペア配列情報を配列スキャホールド上へマッピングする工程；およびそのようにマッピングされた複数のリード・ペア・シンボルの密度の局所的変異を識別する工程、を含む方法。３１．密度の局所的変異を、対応する構造配置特徴に割り当てる工程を含む、実施形態１乃至３０の何れか１つに記載の方法。３２．密度の局所的変異が減少するように配列スキャホールドを再構成する工程を含む、実施形態１乃至３０の何れか１つに記載の方法。３３．リードペア配列情報を配列スキャホールド上へマッピングする工程は、リードペアを示すシンボルを位置決めする工程を含み、これにより、配列スキャホールドを表す軸からのシンボルの距離が、配列スキャホールド上のリードペアの第１のリードのマッピング位置から、配列スキャホールド上のリードペアの第２のリードのマッピング位置までの距離を示し、かつ、配列スキャホールドを表す軸に対するシンボルの位置は、リードペアの第１のリードペアのマッピング位置と、リードペアの第２のリードのマッピング位置との平均を示す、実施形態１乃至３０の何れか１つに記載の方法。３４．配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも一部のコンティグを再び順序付ける工程を含む、実施形態１乃至３１の何れか１つに記載の方法。３５．配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも１つのコンティグを再配向する工程を含む、実施形態１乃至３１の何れか１つに記載の方法。３６．配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも１つのコンティグへ区切りを導入する工程を含む、実施形態１乃至３１の何れか１つに記載の方法。３７．区切りの一端に存在する配列を区切りの他端に導入する工程を含む、実施形態１乃至３６の何れか１つに記載の方法。３８．配列スキャホールドを再構成する工程は、第１のコンティグの部分を第２のコンティグの内部領域へと転座させる工程を含む、実施形態１乃至３０の何れか１つに記載の方法。３９．リードペア配列情報を配列スキャホールド上へマッピングする工程は、リードペア情報を複数のビンに割り当てる工程を含む、実施形態１乃至３０の何れか１つに記載の方法。４０．密度の局所的変異を識別する工程は、シンボルの密度が局所的に低い領域を識別する工程を含む、実施形態１乃至３０の何れか１つに記載の方法。４１．密度の局所的変異を識別する工程は、シンボルの密度が局所的に高い領域を識別する工程を含む、実施形態１乃至３０の何れか１つに記載の方法。４２．密度の局所的変異を識別する工程は、第１の位置の密度、および第２の位置の密度を識別する工程を含み、第１の位置の密度および第２の位置の密度は、大きく異なっている、実施形態１乃至３０の何れか１つに記載の方法。４３．第１の位置および第２の位置は隣接している、実施形態１乃至４２の何れか１つに記載の方法。４４．第１の位置および第２の位置は、配列スキャホールドから等距離にある、実施形態１乃至４２の何れか１つに記載の方法。４５．密度の局所的変異を識別する工程は、第１の位置の予測密度、および第１の位置の観察密度を得る工程を含む、実施形態１乃至３０の何れか１つに記載の方法。４６．第１の位置の予測密度は、配列スキャホールドを表す軸からの距離の増加に応じて単調的に減少する密度勾配により予測された密度である、実施形態１乃至４５の何れか１つに記載の方法。４７．サンプルの倍数性に等しい整数値の分画の局所的密度変異は、サンプルの倍数性補体の比率における事象を示す、実施形態１乃至３０の何れか１つに記載の方法。４８．スキャホールドは癌細胞ゲノムを表す、実施形態１乃至３０の何れか１つに記載の方法。４９．スキャホールドはトランスジェニック細胞ゲノムを表す、実施形態１乃至３０の何れか１つに記載の方法。５０．スキャホールドは遺伝子編集されたゲノムを表す、実施形態１乃至３０の何れか１つに記載の方法。５１．スキャホールドは、再構成後に少なくとも２０％を超えるＮ５０を有する、実施形態１乃至３２の何れか１つに記載の方法。５２．方法であって、該方法は、配列スキャホールド情報を含むスキャホールドを得る工程；ペアリード情報を得る工程；少なくとも一部のリードペア情報を表すことで、スキャホールドに対するリードペアの各リードの位置を示し、かつスキャホールドにマッピングされるようなリード間の距離を示すように、ペアリード情報を展開する工程；および展開時のペアリード情報の密度の局所的変異を識別する工程を含む、方法。５３．密度の局所的変異を、対応する構造配置特徴に割り当てる工程を含む、実施形態１乃至５２の何れか１つに記載の方法。５４．局所的変異を減少させるようにスキャホールドを再構成する工程を含む、実施形態１乃至５２の何れか１つに記載の方法。５５．配列スキャホールド情報を含むスキャホールドを得る工程は、核酸サンプルを配列決定する工程を含む、実施形態１乃至５２の何れか１つに記載の方法。５６．配列スキャホールド情報を含むスキャホールドを得る工程は、核酸サンプルを表すデジタル情報を受信する工程を含む、実施形態１乃至５２の何れか１つに記載の方法。５７．展開されたリードペア情報に対して予測された密度分布を得る工程を含む、実施形態１乃至５２の何れか１つに記載の方法。５８．識別する工程は、予測された密度分布と、表されたリードペア情報密度との有意差を識別する工程を含む、実施形態１乃至５７の何れか１つに記載の方法。５９．局所的変異を識別する工程は、密度ピークが直角の頂点にある密度摂動を識別する工程を含む、実施形態１乃至５２の何れか１つに記載の方法。６０．直角の頂点はスキャホールドを表す軸を指す、実施形態１乃至５９の何れか１つに記載の方法。６１．ペアエンドリード情報を得る工程は、未抽出の核酸を架橋する工程を含む、実施形態１乃至５２の何れか１つに記載の方法。６２．ペアエンドリード情報を得る工程は、クロマチンにおいて結合された核酸を架橋する工程を含む、実施形態１乃至５２の何れ
か１つに記載の方法。６３．クロマチンはネイティブクロマチンである、実施形態１乃至６２の何れか１つに記載の方法。６４．ペアエンドリード情報を得る工程は、核酸を核酸結合部分に結合させる工程を含む、実施形態１乃至５２の何れか１つに記載の方法。６５．ペアエンドリード情報を得る工程は、再構成されたクロマチンを生成する工程を含む、実施形態１乃至５２の何れか１つに記載の方法。６６．ペアリード情報を展開する工程は、リードペア情報を複数のビンに割り当てる工程を含む、実施形態１乃至５２の何れか１つに記載の方法。６７．配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも一部のコンティグを再び順序付ける工程を含む、実施形態１乃至５２の何れか１つに記載の方法。６８．配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも１つのコンティグを再配向する工程を含む、実施形態１乃至５４の何れか１つに記載の方法。６９．配列スキャホールドを再構成する工程は、配列スキャホールドの少なくとも１つのコンティグへ区切りを導入する工程を含む、実施形態１乃至５４の何れか１つに記載の方法。７０．区切りの一端にする配列を区切りの他端に導入する工程を含む、実施形態１乃至６９の何れか１つに記載の方法。７１．配列スキャホールドを再構成する工程は、第１のコンティグの部分を第２のコンティグの内部領域へと転座させる工程を含む、実施形態１乃至５４の何れか１つに記載の方法。７２．スキャホールドは癌細胞ゲノムを表す、実施形態１乃至５２の何れか１つに記載の方法。７３．スキャホールドはトランスジェニック細胞ゲノムを表す、実施形態１乃至５２の何れか１つに記載の方法。７４．スキャホールドは遺伝子編集されたゲノムを表す、実施形態１乃至５２の何れか１つに記載の方法。７５．スキャホールドは、再構成後に少なくとも２０％を超えるＮ５０を有する、実施形態１乃至５２の何れか１つに記載の方法。７６．サンプルの倍数性に等しい整数値の分画の局所的密度変異は、サンプルの倍数性補体の比率における事象を示す、実施形態１乃至５２の何れか１つに記載の方法。７７．配列スキャホールドに対する、サンプル中の構造再配置を識別する方法であって、該方法は、リードペア配列情報を配列スキャホールド上にマッピングする工程；配列スキャホールドに対応するとともに直角縁部を二分する線に沿って左右対称である軸を指す直角縁部を持つ、局所的密度変異を識別する工程；および局所的密度変異のマッピングされたリードが最も遠くにある限り、転座ポイントからの長さの部分を含む配列スキャホールドに対して単純な転座を有するものとして、サンプルを分類する工程を含む、方法。７８．サンプル中の構造再配置を識別する方法であって、該方法は、リードペア情報を配列スキャホールド上にマッピングする工程；配列スキャホールドに対応する軸を指す直角縁部を有する局所的密度変異を識別する工程；直角縁部を二分する線に沿って左右対称に分裂する局所的密度変異のサブ領域を識別する工程；および対称性を修復するリードペアの集団がマッピングされる配列を欠く部分を含む配列スキャホールドに対して転座を有すると、サンプルを分類する工程を含む、方法。７９．配列スキャホールドに対する、サンプル中の構造再配置を識別する方法であって、該方法は、リードペア配列情報を配列スキャホールド上にマッピングする工程；配列スキャホールドに対応する軸を指す直角縁部を有する局所的密度変異を識別する工程；予想されるリードペア密度分布曲線を得る工程；局所的密度変異を含むリードペアがマッピングされるスキャホールド部分を識別する工程；局所的密度変異を含むリードペアが、局所的密度変異の密度を持つと予測されたリードペア密度分布曲線により示される領域にマッピングされるように、スキャホールド部分を再び位置決めする工程を含む、方法。８０．実施形態１乃至７９の何れか１つに記載の方法の結果を表示するよう構成される、コンピューターモニター。８１．実施形態１乃至７９の何れか１つに記載の方法の計算工程を実行するよう構成される、コンピューターシステム。８２．実施形態１乃至７９の何れか１つに記載のマッピングされたリードペアデータの視覚表示。８３．核酸構造変異検出の方法であって、該方法は、リードペア情報を、予測された核酸スキャホールド上にマッピングする工程；構造変異仮定を得る工程；構造変異仮定がリードペア情報と一貫している尤度パラメーターを算出する工程；および仮定に対する尤度パラメーターが、第２の仮定に対する第２の尤度パラメーターより大きい場合に、核酸サンプルを、構造変異仮定を持つものと分類する工程を含み、リードペア情報を予測された核酸スキャホールド上にマッピングする工程は、リードペアをリードペア位置に割り当てる工程を含み、これにより、リードペアは、１つの軸上の予測された核酸スキャホールド上の中点に割り当てられ、および、リードペアは、第２の軸上のリードペア分離に対応する値に割り当てられる、方法。８４．前記リードペアは、核酸分子の第１の領域にマッピングされる第１の部分、および核酸分子の第２の領域にマッピングされる第２の部分を含み、第１の部分および第２の部分は、隣接しておらず、共通のフェーズを共有する、実施形態１乃至８３の何れか１つに記載の方法。８５．リードペアの中点が第１のビン核酸位置範囲内にあり、かつリードペア分離が第１のビン分離範囲内にある場合、リードペア位置は第１のビンに割り当てられる、実施形態１乃至８３の何れか１つに記載の方法。８６．第１のビン核酸位置の範囲は、予測された核酸スキャホールドの規則的な間隔である、実施形態１乃至８５の何れか１つに記載の方法。８７．第１のビン分離範囲は、リードペア情報に対する完全な分離範囲の対数間隔である、実施形態１乃至８５の何れか１つに記載の方法。８８．第１のビンの核酸範囲は核酸スキャホールドの規則的な間隔であり、第１のビンの分離範囲はリードペア情報に対する完全な分離範囲の対数間隔である、実施形態１乃至８５の何れか１つに記載の方法。８９．リードペアの中点が第２のビン核酸位置範囲内にあり、かつリードペア分離が第２のビン分離範囲内にある場合、リードペア位置は第２のビンに割り当てられる、実施形態８５乃至８８の何れか１つに記載の方法。９０．ほぼすべてのリード情報がビニングされる、実施形態１乃至８９の何れか１つに記載の方法。９１．尤度パラメーターを算出する工程は、第１のビンに対する尤度貢献を判定する工程を含む、実施形態８５乃至９０の何れか１つに記載の方法。９２．第１のビンに対する尤度貢献は、第１のビンにマッピングされるリードペアの数に比例する第１の尤度因子を含む、実施形態１乃至９１の何れか１つに記載の方法。９３．第１のビンに対する尤度貢献は、第１のビンの区域に比例する第２の尤度因子を含む、実施形態１乃至９１の何れか１つに記載の方法。９４．第１のビンに対する尤度貢献は、第１のビンにマッピングされるリードペアの数に比例する第１の尤度因子を含み、第１のビンに対する尤度貢献は、第１のビンの領域に比例する第２の尤度因子を含む、実施形態１乃至８３の何れか１つに記載の方法。９５．領域が第１のビンと重複していない第２のビンに対する尤度貢献を決定する工程を含む、実施形態１乃至９４の何れか１つに記載の方法。９６．尤度パラメーターは、第１のビンの尤度貢献および第２のビンの尤度貢献を含む、実施形態１乃至９５の何れか１つに記載の方法。９７．尤度パラメーターは、第３のビンの尤度貢献を含む、実施形態１乃至９６の何れか１つに記載の方法。９８．尤度パラメーターは、ビニングされたほぼすべてのリードペア情報に対する尤度貢献を含む、実施形態１乃至９７の何れか１つに記載の方法。９９．仮定は、左の縁と長さを有する構造変異を含む、実施形態７８乃至９８の何れか１つに記載の方法。１００．構造変異は、欠失、逆位、直接重複、外向き逆位重複、および内向き逆位重複のうち少なくとも１つである配向を有する、実施形態１乃至９９の何れか１つに記載の方法。１０１．第２の仮定は、左の縁、長さ、および構造配向のうち少なくとも１つにおいて異なる構造変異を含む、実施形態９９乃至１００の何れか１つに記載の方法。１０２．前記核酸構造変異は、前記核酸サンプル中のホモ結合である、実施形態１乃至１０１の何れか１つに記載の方法。１０３．前記核酸構造変異は、前記核酸サンプル中のヘテロ結合である、実施形態７８乃至１０１の何れか１つに記載の方法。１０４．核酸サンプル中の推定上の構造変異を視覚化する方法であって。該方法は、配列リードの集団を番号付きのビンの集団に割り当てる工程、および前記ビンの集団の第１のビン内にある構造変異縁部を含むリードの尤度パラメーターを割り当てる工程を含み、前記第１のビンに対する前記尤度パラメーターは、第１のビンにマッピングされるリードの数を含む第１の尤度成分、および第１のビンの区域を含む第２の成分を含む、方法。１０５．ビンの数に応じて構造変異の尤度をプロットする工程を含む、実施形態１乃至１０４の何れか１つに記載の方法。１０６．前記第１のビンに対する前記尤度パラメーターは、第１のビンにマッピングされる多数のリードを含む第１の尤度成分、および第１のビンの区域を含む第２の成分を含む、実施形態１乃至１０４の何れか１つに記載の方法。１０７．前記尤度パラメーターは、第１のビンにマッピングされるリードの数に構造変異予測を関連づける尤度成分、および第１のビンの領域を含む尤度成分を含む、実施形態１乃至１０６の何れか１つに記載の方法。１０８．前記ビンの集団は、固定された核酸距離にわたる共通のビン幅を共有する、実施形態１乃至１０４の何れか１つに記載の方法。１０９．前記ビンの集団は、その員の中のビン高さに応じて変動する、実施形態１乃至１０４の何れか１つに記載の方法。１１０．ビン高さは、対数軸上でプロットされたときに一定に見える、実施形態１乃至１０９の何れか１つに記載の方法。１１１．尤度パラメーターは、配列リードの確率に関連し、これには左の縁および長さを持つ構造変異の結合、および前記第１のビンへのマッピングが含まれる、実施形態１乃至１０４の何れか１つに記載の方法。１１２．構造変異は、欠失、逆位、直接重複、外向き逆位重複、および内向き逆位重複のうち少なくとも１つである配向を有する、実施形態１乃至１１１の何れか１つに記載の方法。１１３．前記配列リードはリードペアを含む、実施形態１乃至１０４の何れか１つに記載の方法。１１４．リードペアは、核酸分子の第１の領域にマッピングされる第１の部分、および核酸分子の第２の領域にマッピングされる第２の部分を含み、第１の部分および第２の部分は、隣接しておらず、共通のフェーズを共有する、実施形態１乃至１１３の何れか１つに記載の方法。１１５．核酸サンプル中の構造を識別する方法であって、該方法は、核酸サンプルに対してマッピングされたリードペアデータを得る工程；核酸スキャホールド配列を得る工程；リードペアデータを核酸スキャホールド配列と比較する複数の構造変異仮定の各々に関する、尤度確率情報を得る工程；および構造変異種仮定中の大半の起こり得る仮定を識別する工程を含み；ここで、前記方法は、１分あたり少なくとも１０ｍｂの核酸スキャホールド配列を評価する、方法。１１６．リードペア情報を核酸スキャホールド配列上にマッピングする工程；構造変異仮定を得る工程；構造変異仮定がリードペア情報と一貫している尤度パラメーターを算出する工程；および仮定に対する尤度パラメーターが第２の仮定に対する第２の尤度パラメーターより大きい場合に、核酸サンプルを、構造変異仮定を持つと分類する工程を含む、実施形態１乃至１１５の何れか１つに記載の方法。１１７．リードペア情報を核酸スキャホールド配列上にマッピングする工程は、リードペアが１つの軸上の予測された核酸スキャホールド上の中点に割り当てられ、かつリードペアが第２の軸上のリードペア分離に対応する値に割り当てられるように、リードペアをリードペア位置に割り当てる工程を含む、実施形態１乃至１１６の何れか１つ
に記載の方法。１１８．前記リードペアは、核酸分子の第１の領域にマッピングされる第１の部分、および核酸分子の第２の領域にマッピングされる第２の部分を含み、第１の部分および第２の部分は、隣接しておらず、共通のフェーズを共有する、実施形態１１６乃至１１２の何れか１つに記載の方法。１１９．リードペアの中点が第１のビン核酸位置範囲内にあり、かつリードペア分離が第１のビン分離範囲内にある場合、リードペア位置は第１のビンに割り当てられる、実施形態１乃至１１７の何れか１つに記載の方法。１２０．第１のビン核酸位置の範囲は、核酸スキャホールドの規則的な間隔である、実施形態１乃至１１９の何れか１つに記載の方法。１２１．第１のビン分離範囲は、リードペア情報に対する完全な分離範囲の対数間隔である、実施形態１乃至１１９の何れか１つに記載の方法。１２２．第１のビンの核酸位置範囲は核酸スキャホールドの規則的な間隔であり、第１のビンの分離範囲はリードペア情報に対する完全な分離範囲の対数間隔である、実施形態１乃至１１９の何れか１つに記載の方法。１２３．リードペアの中点が第２のビン核酸位置範囲内にあり、かつリードペア分離が第２のビン分離範囲内にある場合、リードペア位置は第２のビンに割り当てられる、実施形態１１９乃至１２２の何れか１つに記載の方法。１２４．ほぼすべてのリード情報がビニングされる、実施形態１乃至１２３の何れか１つに記載の方法。１２５．尤度パラメーターを算出する工程は、第１のビンに対する尤度貢献を判定する工程を含む、実施形態１１９乃至１１９の何れか１つに記載の方法。１２６．第１のビンに対する尤度貢献は、第１のビンにマッピングされるリードペアの数に比例する第１の尤度因子を含む、実施形態１乃至１２５の何れか１つに記載の方法。１２７．第１のビンに対する尤度貢献は、第１のビンの区域に比例する第２の尤度因子を含む、実施形態１乃至１２０の何れか１つに記載の方法。１２８．第１のビンに対する尤度貢献は、第１のビンにマッピングされるリードペアの数に比例する第１の尤度因子を含み、第１のビンに対する尤度貢献は、第１のビンの領域に比例する第２の尤度因子を含む、実施形態１乃至１２０の何れか１つに記載の方法。１２９．領域が第１のビンと重複していない第２のビンに対する尤度貢献を決定する工程を含む、実施形態１乃至１２３の何れか１つに記載の方法。１３０．尤度パラメーターは、第１のビンの尤度貢献および第２のビンの尤度貢献を含む、実施形態１乃至１２４の何れか１つに記載の方法。１３１．尤度パラメーターは、第３のビンの尤度貢献を含む、実施形態１乃至１３０の何れか１つに記載の方法。１３２．尤度パラメーターは、ビニングされたほぼすべてのリードペア情報に対する尤度貢献を含む、実施形態１乃至１２６の何れか１つに記載の方法。１３３．仮定は、左の縁と長さを有する構造変異を含む、実施形態１１５乃至１２７の何れか１つに記載の方法。１３４．構造変異は、欠失、逆位、直接重複、外向き逆位重複、および内向き逆位重複のうち少なくとも１つである配向を有する、実施形態１乃至１２８の何れか１つに記載の方法。１３５．第２の仮定は、左の縁、長さ、および構造配向のうち少なくとも１つにおいて異なる構造変異を含む、実施形態１３４乃至１２９の何れか１つに記載の方法。１３６．前記核酸構造変異は、前記核酸サンプル中のホモ結合である、実施形態１１１乃至１３０の何れか１つに記載の方法。１３７．前記核酸構造変異は、前記核酸サンプル中のヘテロ結合である、実施形態１１１乃至１３０の何れか１つに記載の方法。１３８．処置レジメンを選択する方法であって、該方法は、前述の実施形態の何れか１つの方法を実行する工程、再編成を識別する工程、および再編成と一致する処置レジメンを識別する工程を含む、方法。１３９．処置レジメンは薬物投与を含む、実施形態１乃至１３３の何れか１つに記載の方法。１４０．処置レジメンは組織切除を含む、実施形態１乃至１３３の何れか１つに記載の方法。１４１．処置レジメンを評価する方法であって、該方法は、最初に前述の実施形態の何れか１つの方法を実行する工程、処置レジメンを施す工程、および２回目の処置レジメンを実行する工程を含む、方法。１４２．処置レジメンを中止する工程を含む、実施形態１乃至１３６の何れか１つに記載の方法。１４３．処置レジメンの用量を増大させる工程を含む、実施形態１乃至１３６の何れか１つに記載の方法。１４４．処置レジメンの用量を減少させる工程を含む、実施形態１乃至１３６の何れか１つに記載の方法。１４５．処置レジメンを継続させる工程を含む、実施形態１乃至１３６の何れか１つに記載の方法。１４６．処置レジメンは薬物を含む、実施形態１３６乃至１４０の何れか１つに記載の方法。１４７．処置レジメンは外科的介入を含む、実施形態１３６乃至１４０の何れか１つに記載の方法。

【0254】

添付図面の説明
図１では、ペアエンドリードデータの処理に使用される方法に関する８工程の典型的なワークフローを確認できる。典型的な工程は、リードマッピング（基準に対して１つの個体からペア配列リードをマッピング）、リードビニング（１つ以上の特性による群のリード）、コピー数推定（コピー数変異、ＣＮＶ）、標準化、デノボ特徴検出、区切り点の洗練、候補スコアリング、および報告を含む。いくつかの例において、工程は、ペアエンドリードデータの分析中、全体的に反復され、または飛ばされる。

【0255】

図２Ａ－２Ｃではプロットのペアを確認でき、各プロットでは、ビンはｘ軸上のマッピングされたリードペアの中点位置の範囲に対応し、スケールは２０，０００ｂｐの増加量において０～１２０００であり、対数目盛としてＹ軸上の評価されたコピー数は０．１～１０である。図２Ａの基準サンプルＣＴ４０７（上部）、図２ＢのＣＴ４１８（上部）、および図２ＣのＣＴ４１６に関して、塩基の大半は単一のコピーとして提示され、垂直軸の中心にある高いプロット密度の区域により表される。サンプル、図２Ａの下部プロットＣＴ４１０および図２ＢのＣＴ４１７により表されるサンプルは、１からの有意な偏差を示し、ビンには１より多く、または１未満のコピー数がある。例えば、サンプルＣＴ４１０では、およそ１０，０００～１０，５００の塩基におけるビンのコピー数が増加している。図２Ｄは、Ｘ軸上のサンプルＣＴ４１０およびＹ軸上のＣＴ４０７のコピー数を伴う二次元散布図を示し、各点は、各サンプル中の対応するビンのコピー数を表す。点の大部分は、両サンプル中のビンにおける単一のコピーに相当するｙ＝ｘ対角線上の座標（１，１）に集中する。対角線付近にない点は、２つのサンプル間のコピー数の有意差を表す。例えば、（１００，１０）に相当する点は、ＣＴ４１０のコピー数においてＣＴ４０７の１０倍の増加を伴うビンを表す。

【0256】

図３Ａでは、ｘ軸上のマッピングされたリードペアの中点位置のプロットが確認でき、５．３６×１０^７～５．３１×１０^７の塩基対のスケールは０．０１×１０^７の増加量にあり、リードペア分離は、サンプルＮＡ１２８７８の染色体７に対して０～２００，０００の塩基（２０，０００の塩基増加量）のスケールでｙ軸上にプロットされる。このプロットは、ｙ軸上で０付近にある点の大半により明示されるように、明確な構造変異を示さない。これは、リードペアの大半がスキャホールド上の隣接部分に相当することを示唆する。図３Ｂと図３Ｃでは、５．４１×１０^７～５．４６×１０^７のｘ軸スケール、および０～２００，０００（２０，０００の塩基増加量）と１００～１００，０００（対数スケール）のｙ軸スケールが示される。これらプロットにおいて、逆位が約５．４２×１０^７～５．４４×１０^７の塩基の間に存在することを確認でき、データにはギャップがある。図３Ｄでは、位置ａとｂとの間に位置する逆位の典型的な描写を確認でき、そこでは、ほぼ半分の点（灰色）が軸付近にあり、もう半分は位置ａとｂとの間にある中間点上で反映される。この例において、軸付近にある明るい色の点はヘテロ結合逆位を示し、ペア中の１つの染色体だけが逆位される。いくつかの例において、プロットは４５度回転され、ｘ軸はｙ＝－ｘの対角線上にある。

【0257】

図４Ａでは、ｘ軸から４５度の角度である線により形成される区域へのマッピングされたリードペアの再分布として明示される、様々な構造変異の例を確認できる。図４Ｂは、軸から４５度の角度である線により形成される密度区域を規定するための記数法を表す。図４Ｃ－４Ｇは、様々な構造変異の密度の区域を規定する典型的な方法を表す。いくつかの例において、密度の区域は、カーネルであるパターンを作成する。規定されたパターンを多様に使用して、マッピングされたリードペアデータとスキャホールドとの相違を示す密度変異を予測する。例えば、図４Ｃ、図４Ｄ、図４Ｅ、図４Ｆ、および図４Ｇは、場合によっては、欠失、逆位、直接縦列重複、逆位タンデム重複（右）、または逆位タンデム重複（左）それぞれについて予想される局所的密度変化の区域を規定する。領域０－３の各々の密度の予想変異を規定するための典型的な式は、それぞれの図の左側に示される。

【0258】

図５Ａでは、スケールが１０，０００の間隔で０～８０，０００である２００のリードペアビンの数のｘ軸、および、５０の間隔で－２５０～１５０の間であるスケール上に対数尤度比率（ＬＬＲ）を表すｙ軸を含む、予測された構造変異のプロットが確認できる。対数尤度比率は、いくつかの例において、構造変異が生じなかった尤度に対する、構造変異が生じた尤度を表す。より高い値は、より発生する可能性が高い変異、例えば、既知の逆位に相当する約３６０００のビンに見られるスパイクを示す。図５Ｂでは、スケールが１０，０００の間隔で０～８０，０００である２００のリードペアビンの数のｘ軸、および、２０の間隔で－１２０～４０の間であるスケール上に対数尤度比率（ＬＬＲ）を表すｙ軸を含む、予測された構造変異のプロットが確認できる。この例では、ビンが５５０００～６８０００である比較的負の値は、１０ｋｂのヘテロ結合欠失が存在することを示す。図５Ｃでは、スケールが１０，０００の間隔で０～８０，０００である２００のリードペアビンの数のｘ軸、および、２０の間隔で－１００～６０の間であるスケール上に対数尤度比率（ＬＬＲ）を表すｙ軸を含む、予測された構造変異のプロットが確認できる。この例では、ビンが５５０００～６８０００である比較的負の値は、２６ｋｂのヘテロ結合重複（Ｌ）が存在することを示す。

【0259】

図６Ａと図６Ｂでは、場合によっては相互転座を表す典型的なリード分布パターンを確認でき、この場合、４つの領域へと分割される正方形である。いくつかの例において、このパターンはカーネルまたは特徴である。リード密度はこの場合、２つの線の交点により形成された対角線の区域に分布される。図６Ｃでは、フォアグラウンド（ｆｇ）およびバックグラウンド（ｂｇ）の領域として表される区域を確認でき、これは、いくつかの例においてｚスコアを確立するためにｆｇとｂｇとの比率と比較される。ｚスコアは多くの場合、ノイズから特徴を識別するために使用される。図６Ｄでは、スキャホールド上でマッピングされたリードペアデータのプロットを確認でき、特徴が識別されている（円で囲んだ部分）。場合によっては、高いまたは低いリード密度の区域は、正方形の中心にわたる密度の反映を示す左下側の特徴と比較して、正方形の中心（右上の円で囲んだ部分）にわたり反映されない。この例では、リードペア密度は、正方形の中心から４５度離れた角度勾配にて減少し、最高密度が見出される。場合によっては、左下側の円で囲まれた２つの特徴により例証された「蝶ネクタイ」構造は、転座に相当する。

【0260】

図７では、スキャホールド上にマッピングされたリードペアの画像を確認でき、対角線ｙ＝－ｘ軸を離れた以外にも高いまたは低いリード密度の区域により視覚化されるような染色体内再編成が示されている。対角線軸から離れて位置するこれら区域は、リードより長い距離だけ離れているマッピングされたリードペアに相当し、スキャホールドのアセンブリにおける起こり得る誤差を示す。

【0261】

図８Ａでは、「第２度結合」アセンブリ状態の例を確認でき、２つの異なるアセンブリの結果は、一次リードペアのみの分析から可能である。矢印の上の各セットにおける３つの配列は、本来の配列構成（スキャホールド）に相当する：配列ａ－ｂ、ｃ－ｄ－ｅ、およびｆ－ｇ。しかし、配列中の断片の再編成（矢印により表される）は、２つの起こり得る再編成をもたらす：ａ－ｄ－ｅおよびｃ－ｄ－ｇ、またはａ－ｄ－ｇ。これらは一次リードペア分析を通じて区別できず、なぜなら両方の起こり得る再編成は、リードペアマッピング断片ａ～ｄ、およびｄ～ｇを有する再編成配列をもたらすからである。図８Ｂでは、スキャホールドにマッピングされたリードペアデータを示す例示を確認でき、軸上のデータは示されない。２つの特徴が識別される（陰影のあるボックスはリードペア密度を表し、強度は、互いに接触する小さな円と大きな円のシンボルで標識される、ボックス内の直角に対角線軸から離れて伸長する勾配に沿って減少する）。アルファベット順で断片ａ－ｇの線形編成がスキャホールドとして使用される。２つの「軸外」特徴からのリードペアデータは、断片ａ－ｄとｄ－ｇとの接続を示す。加えて、同心円によりマーキングされたシグナルの欠如は、断片ａ－ｇが介在配列ｄにより接続されないことを示す。図８Ｃでは、ａ－ｄ－ｇ結合に対して予想されたパターンを表す同様のグラフを確認できる。ａ－ｄとｄ－ｇの接続性は、小さいおよび大きな円のシンボルにて識別された特徴により例示される。断片ａとｇは直接接続されないが、陰影のある領域は、介在配列ｄを架橋するリードペアに対応すると観察され、ａ－ｆおよびｃ－ｇに対応する特徴は存在せず（同心円）、ａ－ｄ－ｇ接続性の仮定がさらに支持される。図８Ｄでは、ａ－ｄ－ｇ結合に対して予想されたパターンを表す同様のグラフを確認でき、主な特徴は陰影のあるボックスにおいて目視可能である。いくつかの例において、ａ－ｇに対応する「架橋」特徴は、断片ａとｇとの偽陽性融合要求を示す。他の場合、ｄ－ｇでの特徴は偽陽性融合要求を示し、追加の断片はｄ－ｇにおいて断片ｄの左側に存在しない。図８Ｅでは、混合物中のリードペアの存在量（ｇ）および間隙サイズ／距離（γ）が、密度（外側線）における予想される変化をどのように予測するのかを示す、プロットを確認できる。例えば、リードペアの間の距離（ｇ）が短く、存在量が少ないと、左のプロットは、（外側線の中間からの）リード密度における急速な減少を表す。右のプロットは、リードペアの間の距離（ｇ）が長く、存在量が多いときの（外側線の中間からの）リード密度における急速な減少を表す。いくつかの例において、リード密度が減少する速度を使用して、配列断片間の遮断縁を予測する。例えば、１つのカーネルに隣接するリード密度における急激で迅速な減少は、隣接したカーネルの欠如を示す。区域に対して予想されるリード密度の比較は、偽陽性カーネル要求の最小化のために使用される。多くの場合、推定上のカーネルは、（わずか１つの追加の断片に接続される）末端断片に対して予想されるよりも大きいリード密度を持ち、末端断片はそのようなものとして識別されない。代替的に、推定上のカーネルは、融合事象に対して予想されるよりも小さいリード密度を持ち、融合事象はそのようなものとして識別されない。特定の場合、密度の急速な減少は、密度の段階的な変化と対比するために「工程」と呼ばれる。予想された密度も、対称性などの幾何学的な考慮事項により規定または記載され得る。例えば、リード密度の対称的な変化は、スキャホールドモデルから単離された誤差を示し、リード密度の非対称的な変化は随意に、追加の隣接する誤差の存在を示す。

【0262】

図９では、スキャホールド上にマッピングされた２つの遺伝子のリードペアの画像を確認でき、対角線ｙ＝－ｘ軸を離れた以外にも高いまたは低いリード密度の区域により視覚化されるような構造変異が示されている。右上と左下のボックス区域中の蝶ネクタイ形状の密度分布は、遺伝子ＥＴＶ６とＮＴＲＫ３との相互転座を示す。

【0263】

図１０Ａ－１０Ｃでは、３つの異なるサンプルにおいて比較された同じペアの染色体での画像分析に基づく結果を確認できる。円で囲んだ領域は、構造変異を表す識別された特徴に相当する。

【0264】

図１１Ａ－１１Ｃでは、染色体１対染色体７（図１１Ａ）、染色体２対染色体５（図１１Ｂ）、および染色体１対染色体１（図１１Ｃ）に関する中間の標準化リード密度（１０を超えるサンプル）を表す画像を確認できる。

【0265】

図１２Ａと図１２Ｂでは、マッピングされたリードペアデータのための様々なビン取り扱い手法を表す画像を確認でき、これによりリードペアを群に配する。図１２Ａは等しいビンのサイズを示し、図１２Ｂはビンの補間を示す。

【0266】

図１３に、全ゲノムスキャン分析のパイプラインを表す画像を確認でき、識別された特徴は構造変異に相当する。分析パイプラインにより行われたサンプル要求は、白色の円で囲まれて示される。図１３は、２５０ｋのビンを用いる、染色体３対染色体６のプロットを示す。

【0267】

図１４Ａでは、本開示の技術により分析される保存サンプル（例えばＦＦＰＥサンプル）に対する塩基対（ｂｐ）中の挿入距離に応じた特定の範囲での挿入物の確率のグラフを確認できる。図１４Ｂでは、Ｃｈｉｃａｇｏ法を使用して分析されたサンプルに関する同様のグラフを確認できる。両グラフにおいて、Ｘ軸は０～３００，０００の挿入距離（ｂｐ）を示し（５０，０００ｂｐの増加量における）、一方でＹ軸は、軸の上部で１０^０～軸の下部で１０^－８の距離の挿入の確率を示す（対数）。

【0268】

図１５Ａと図１５Ｂでは、再びアセンブルされたクロマチンのＤＮＡの近接ライゲーションから生成されたリードペアの基準配列上のマッピングされた位置、例えばＧＲＣｈ３８が、ＧＭ１２８７８と基準との間の構造的な差異の付近でプロットされるグラフを、確認できる。図１５Ａにおいて、ｘ軸は、０．０５ｍｂの増加量において５４．２～５４．５５のスケールでのリード位置１（Ｍｂ）である。ｙ軸は、０．０５ｍｂの増加量において５４．１５～５４．５５のスケールでのリード位置２（Ｍｂ）である。図１５Ｂにおいて、ｘ軸は、０．０５ｍｂの増加量において７８．８５～７９．１５のスケールでのリード位置１（Ｍｂ）である。ｙ軸は、０．０５ｍｂの増加量において７８．８～７９．２のスケールでのリード位置２（Ｍｂ）である。生成された各リードペアは、対角線より上および下に表される。対角線より上では、陰は、示されたスケールでのマップ品質スコアを示し；対角線より下では、陰は、フェージングされたＳＮＰとの重なりに基づいて生成されたリードペアの推量されたハプロタイプフェーズを示す。いくつかの実施形態において、生成されたプロットは、図１５Ｂに例示されるように、隣接する反復領域を伴う逆位を表す。いくつかの実施形態において、生成されたプロットは、図１５Ｂに例示されるように、フェージングされたヘテロ結合欠失に関するデータを表す。基準に対する１つの個体からのペア配列リードのマッピングは、逆位、欠失、および重複のような隣接する核酸またはゲノム構造における差異を識別するための、最も一般的に使用される配列ベースの方法である（Ｔｕｚｕｎｅｔａｌ．，２００５）。図１５Ａと図１５Ｂは、ヒト基準ゲノムＧＲＣｈ３８にマッピングされたＧＭ１２８７８から再びアセンブルされたクロマチンのＤＮＡの近接ライゲーションにより生成されたリードペアが、どのようにそのような２つの構造的な差異を明らかにするのかを示す。

【0269】

図１６Ａ－１６Ｃでは、マッピングされたリードペアデータと基準スキャホールドとの間の典型的な配列決定誤差（右）、およびこれらの事象を表す画像（左）の具体例を確認できる。例えば、図１６Ａにおいて、変位された部分誤差を確認でき、スキャホールド位置は、１つの軸上の多数の位置にマッピングされる（薄く水平または垂直な線の何れかとして）。プロットより上の垂線は、変位された部分の場所を示し、矢印はスキャホールド中のこの垂直帯域の正確な配置を示す。随意に、モデルは、変位された部分に相当する断片の位置をスキャホールド中の正確な場所に変えることによって更新される。図１６Ｂでは、断片ＡとＡ’が非常に類似し、かつ共にマッピングされるが、断片ＢとＢ’が大きく異なり（右、上部）、結果として断片をＡ－Ｂ－Ｂ’（右、下）として不正確に順序付けるスキャホールドを生成する、崩壊断片の事例を確認できる。この誤差は、マッピングされたリードペアにより生成される画像の予期しない低リード密度の非対角区域から（左、Ｂ’より上の区域）、および、代替的に、または組み合わせにおいて、断片Ａの軸付近の予想されたリード密度より高いものにより（Ｂ／Ｂ’に対して２つのコピーを示す）、識別される。断片ＢとＢ’が、示唆された（隣接する）スキャホールドとして順序付けられる場合、Ａ－Ｂ断片間で見られるように、この隣接に対応する対角線軸付近のリード密度が予想される。加えて、予想よりも高い密度がＡ－Ｂ’に対応する区域において観察され、ＢとＢ’が独立してＡに隣接するが互いには隣接していないことが、さらに示される。随意に、モデルは、Ｂ’を異なる染色体に動かし、その染色体上でＡを重複し、コピー数を更新することにより、較正される。図１６Ｃでは、崩壊した反復および誤った結合の事例を確認でき、ここで、２つの断片ＡとＹはそれぞれ、非常に類似した配列Ｂ／Ｘに隣接するが、ＡとＹは異なる染色体に存在する。生成されたスキャホールドは、断片をＡ－（Ｂ／Ｘ）－Ｙとして不正確に配置し、Ｂ／Ｘは崩壊し、Ａ－Ｙは不適当に結合される。この誤差は、画像（左）におけるマッピングされたリードペアデータから識別され、ここで、予想外に低いリード密度の区域は対角線軸の両側に見られるが、低密度の追加の線は、対角線軸からの４５度の角度で特徴から外側に伸長する。代替的に、または組み合わせにおいて、この誤差はまた、ＡまたはＹに対するＢ／Ｘの２つのコピーに対応する、軸付近の予想よりも高いリード密度の区域によって識別される。随意に、モデルは、Ｂ／ＸとＹの接続を壊すこと、Ｂ／Ｘを重複させること、およびそれをＹに付けることにより較正される。

【0270】

図１７Ａでは、マッピングされたリードペアデータの品質を改善する（モデル最適化）ための典型的なワークフローを確認でき、生の結合密度データを得る工程、接触電位スコアを生成する工程、側部グラフ編集を行う工程、距離の場を生成する工程、および現在の側部グラフに対して接触電位を更新する工程が含まれる。場合によっては、このプロセスは、ゲノムの対話式に更新されたグラフに基づくモデルをもたらす。いくつかの例において、このプロセスは、特徴識別のためのマッピングされたリードペアデータの品質を改善するために反復される。図１７Ｂでは、ジャガイモ染色体に対するモデル最適化前に、スキャホールド上にマッピングされた生の密度リードペアデータの画像を確認できる。図１７Ｃでは、ジャガイモ染色体に対するモデル最適化後に、スキャホールド上にマッピングされたリードペアデータの画像を確認できる。結果として得られる画像は、場合によっては、局所的な高密度と低密度の軸外区域がさらに小さくなり、リードペアデータへのスキャホールドモデルの適合が優れていることを示す。

【0271】

図１８Ａ－１８Ｄでは、本明細書に記載される方法の実施のためのコンピューターシステムまたはネットワークの例を確認できる。例えば、図１８Ａは、本明細書で提供される方法を実施するようにプログラムまたは構成される典型的なコンピューターシステムを示す。例えば、図１８Ｂでは、本発明の実施形態の例と共に使用可能なコンピューターシステムの例を確認できる。図１８Ｃでは、本発明の実施形態の例と共に使用可能なコンピューターシステム（７００）の第１の例のアーキテクチャを示すブロック図を確認できる。図１８Ｄでは、本発明の実施形態の例と共に使用可能な、複数のコンピューターシステム、複数の携帯電話および個人用携帯情報端末、およびネットワーク接続ストレージ（ＮＡＳ）を組み込むように構成されたネットワーク（２１００）を実証するダイヤグラムを確認できる。図１８Ｅでは、本発明の実施形態の例と共に使用可能な共有仮想アドレスメモリ空間を使用するマルチプロセッサー・コンピューター・システム（９００）のブロック図を確認できる。いくつかの例において、コンピューターシステムとネットワークは、ユーザーによる管理を必要とすることなく、本明細書に記載される方法を実行する。

【0272】

定義
本明細書や添付の請求項で使用されるように、単数形「ａ」、「ａｎ」、及び「ｔｈｅ」は、文脈で特段の定めのない限り、複数の指示対象を含んでいる。したがって、例えば、「コンティグ」に対する言及は、複数のコンティグを含み、「染色体の物理的な配置を探索する」に対する言及は、当業者に既知の染色体とその同等物の物理的な配置を探索する１つ以上の方法に対する言及などを含む。

【0273】

また、「および」の使用は、特に明記しない限り、「および／または」を意味する。同様に、「含む（ｃｏｍｐｒｉｓｅ）」、「含む（ｃｏｍｐｒｉｓｅｓ）」、「含んでいる（ｃｏｍｐｒｉｓｉｎｇ）」、「含む（ｉｎｃｌｕｄｅ）」、「含む（ｉｎｃｌｕｄｅｓ）」、および「含んでいる（ｉｎｃｌｕｄｉｎｇ）」は交換可能であり、限定的なものとして意図されていない。

【0274】

様々な実施形態の記載が用語「含んでいる」の使用を含む場合、当業者は、いくつかの特定の例において、「～から本質的になる」または「～からなる」との表現を用いて実施形態を二者択一的に記載できることを、理解する。

【0275】

用語「配列決定リード」は、本明細書で使用されるように、中で配列が決定されたＤＮＡの断片を指す。

【0276】

本明細書で使用されるような用語「コンティグ」は、ＤＮＡ配列の隣接する領域を指す。「コンティグ」は、当該技術分野で既知の任意数の方法、例えば、配列を重複させるために配列決定リードを比較すること、および／または、どの配列決定リードが隣接する可能性が高いかを識別するために既知の配列のデータベースに対して配列決定リードを比較することにより判定され得る。

【0277】

本明細書で使用されるような用語「被験体」は、任意の真核生物または原核生物を指す場合がある。

【0278】

本明細書で使用されるような用語「ネイキッドＤＮＡ」は、複合体化したタンパクを実質的に含まないＤＮＡを指す場合がある。例えば、それは、細胞核に見出される内因性タンパク質の約５０％、約４０％、約３０％、約２０％、約１０％、約５％、または約１％未満と複合されたＤＮＡを指す。

【0279】

用語「再構成クロマチン」は、本明細書で使用されるように、核酸結合部分をネイキッドＤＮＡなどの核酸に複合させることにより形成されたクロマチンを指す場合がある。場合によっては、これら部分は核タンパク質またはヒストンなどの核酸タンパク質であるが、ナノ粒子などの他の部分も企図される。

【0280】

用語「リードペア（ｒｅａｄｐａｉｒ）」または「リードペア（ｒｅａｄ－ｐａｉｒ）」は、本明細書で使用されるように、配列情報を提供するよう結合した２つ以上の元素を指す場合がある。場合によっては、リードペアの数は、マッピング可能なリードペアの数を指す場合がある。他の場合において、リードペアの数は、生成されたｓの総数を指す場合がある。

【0281】

「組織サンプル」は、本明細書で使用されるように、潜在的に核酸を含む個体または核酸を含む環境由来の生体サンプルを指す。例えば、腫瘍は組織として考慮され、腫瘍から得たサンプルは組織サンプルを構成するが、場合によっては、この用語は、異種混合環境、例えば胃または腸の部分から得たサンプル、または、互いに対して空間分布された複数のソース由来の核酸を含む環境サンプルを指す。

【0282】

「約」は、本明細書で使用されるように数に関して、その数の＋／－１０％の数を指す。範囲に関して使用されるように、「約」は、示された範囲の下限より１０％低い下限、および示された範囲の上限より１０％高い上限を有する、範囲を指す。

【0283】

「プローブ」は、本明細書で使用されるように、標的への結合を介して情報を運ぶ分子を指す。典型的なプローブはオリゴヌクレオチド分子および抗体を含む。オリゴヌクレオチド分子は、標的にアニールし、かつ蛍光特徴を変更することで情報を伝えることにより、または代替的に、標的にアニールし、かつ標的の存在を示すアンプリコンなどの産物の合成を容易にすることにより、プローブとして作用し得る。すなわち、用語「プローブ」は、本明細書で使用されるように、抗体プローブおよび他の小分子プローブのほか、オリゴ核酸分子を多様に考慮し、例えば蛍光状態の変化をもたらす標的へのハイブリダイゼーションを直接介してシグナルを生成することにより作用し、または、標的の存在を示すアンプリコンの合成を容易にすることにより作用する。

【0284】

本明細書で使用されるように、句「～の少なくとも１つ」は、『Ａ，Ｂ，Ｃ，Ｄ』など連続する言葉が後に続くと、この連続のうち１つの員（ＡまたはＢまたはＣまたはＤ）、連続のうち２つの員、連続のうち３つの員、連続のうちすべての員（Ａ、Ｂ、Ｃ、およびＤ）、および場合によっては列挙されていない追加の員も指す。連続のうち「少なくとも１つ」は、その連続の各員を表すものが存在することを必ずしも示唆するわけではない。

【0285】

本明細書で使用されるように、ＤＮＡタンパク質複合体は、タンパク質および核酸が複合体を形成するようにはこれ以上アセンブルされない場合、破壊または分裂される。場合によっては、複合体は、完全に変性され、または分解され、その結果、タンパク質ＤＮＡ結合は残らない。代替的に、場合によっては、ＤＮＡタンパク質複合体は、第１の核酸部分と第２の核酸部分があらゆるリン酸ジエステル結合から独立して共にこれ以上保持されない場合に、実質的に破壊される。

【0286】

別段の定めのない限り、本明細書で使用される技術的かつ科学的な用語はすべて、本開示が属する技術分野の当業者によって一般に理解されるのと同じ意味を有する。本明細書に記載される方法や試薬と類似するまたは同等である任意の方法や試薬を、開示された方法の実施や組成物に使用できるが、典型的な方法と材料はここに記載される。

【0287】

以下の例は、本開示を例示することを意図としているが、限定することは意図されていない。実施例は使用され得る例の典型ではあるが、当業者に既知の他の手順が代替的に使用される場合もある。

【実施例】

【0288】

実施例１
３つの染色体を含むサンプルは、基準スキャホールドに対して受けられた少なくとも１つのゲノム再編成を持つ、少なくともいくつかのゲノム材料を有している疑いがある。サンプルは、部分ａとｂを有する第１の染色体、部分ｃとｄとｅを有する第２の染色体、および部分ｆとｇを含む第３の染色体を含む。

【0289】

リードペア情報がサンプルに対して得られ、リードペアは基準スキャホールドに対してマッピングされる。

【0290】

部分ａとｄにマッピングされるリードペアの実質的な過剰表現を表す局所的密度変位が観察される。最終的に、ａとｄを互いに物理結合させる再編成が生じた。

【0291】

局所的密度変位をさらに詳しく分析する。観察されるものとして、この局所的密度変異に対するピーク密度において、リードペアビンの占有率は、密度の測定値として、軸から直ちに離れたリードペア密度の占有率に一致する。最終的に、部分ａとｄは、少なくとも１つの再編成事象において隣接する。

【0292】

局所的密度変異は、その対称性に関して観察される。確認されるものとして、局所的密度変異は、マッピングの分解能のレベルを持つスキャホールド軸に最も近い直角縁を二分する線に沿って、実質的に双方で対称的である。観察されるものとして、転座は、アッセイの分解能のレベルが少なくとも可能な限り長い、ａとｄ両方の部分を含む。最終的に、事象は、ａをｄに隣接させる単純な転座である。

【0293】

実施例２
３つの染色体を含むサンプルは、基準スキャホールドに対して受けられた少なくとも１つのゲノム再編成を持つ、少なくともいくつかのゲノム材料を有している疑いがある。サンプルは、部分ａとｂを有する第１の染色体、部分ｃとｄとｅを有する第２の染色体、および部分ｆとｇを含む第３の染色体を含む。

【0294】

リードペア情報がサンプルに対して得られ、リードペアは基準スキャホールドに対してマッピングされる。

【0295】

【0296】

マップをさらに詳しく調べる。観察されるものとして、ａとｄは、他のあらゆる実質的に軸外の局所的密度変異に関与しない。最終的に、部分ａとｄは、１つの再編成事象において隣接する。

【0297】

実施例３
３つの染色体を含むサンプルは、基準スキャホールドに対して受けられた少なくとも１つのゲノム再編成を持つ、少なくともいくつかのゲノム材料を有している疑いがある。サンプルは、部分ａとｂを有する第１の染色体、部分ｃとｄとｅを有する第２の染色体、および部分ｆとｇを含む第３の染色体を含む。

【0298】

リードペア情報がサンプルに対して得られ、リードペアは基準スキャホールドに対してマッピングされる。

【0299】

【0300】

マップをさらに詳しく調べる。観察されるものとして、ｄは、他の実質的に軸外の局所的密度変異に関与しない。部分ｄは、ｇにマッピングされるリードペア補体を持つ局所的密度変異に関与すると観察される。最終的に、部分ｄとｇは、それらを物理結合させる再編成事象に関与する。

【0301】

局所的密度変位をさらに詳しく分析する。観察されるものとして、このｄからｇへの局所的密度変異に対するピーク密度において、リードペアビンの占有率は、密度の測定値として、軸から離れたリードペア密度の占有率に一致する。最終的に、部分ｄとｇは、少なくとも１つの再編成事象において隣接する。

【0302】

マップをさらに詳しく調べる。観察されるものとして、ａは、他の実質的に軸外の局所的密度変異に関与しない。部分ａは、ｇにマッピングされるリードペア補体を持つ局所的密度変異に関与すると観察される。最終的に、部分ｄとｇは、それらを物理結合させる再編成事象に関与する。

【0303】

局所的密度変位をさらに詳しく分析する。観察されるものとして、このａからｇへの局所的密度変異に対するピーク密度において、リードペアビンの占有率は、密度の測定値として、軸から離れたリードペア密度の占有率より実質的に低い。最終的に、部分ａとｇは、少なくとも１つの再編成事象において隣接していない。

【0304】

ａ－ｄとｄ－ｇの局所的密度変異をさらに詳しく調べる。観察されるものとして、各々が、軸に最も近い直角縁から引かれた線に沿った左右対称性を欠いている。最終的に、マップの分解能のレベル内にある部分ｄの転座が生じた。

【0305】

実施例４
３つの染色体を含むサンプルは、基準スキャホールドに対して受けられた少なくとも１つのゲノム再編成を持つ、少なくともいくつかのゲノム材料を有している疑いがある。サンプルは、部分ａとｂを有する第１の染色体、部分ｃとｄとｅを有する第２の染色体、および部分ｆとｇを含む第３の染色体を含む。

【0306】

リードペア情報がサンプルに対して得られ、リードペアは基準スキャホールドに対してマッピングされる。

【0307】

【0308】

局所的密度変位をさらに詳しく分析する。観察されるものとして、このａからｄへの局所的密度変異に対するピーク密度において、リードペアビンの占有率は、密度の測定値として、軸から離れたリードペア密度の占有率のほぼ半分である。最終的に、部分ａとｄは、少なくとも１つの再編成事象において隣接する。

【0309】

【0310】

局所的密度変位をさらに詳しく分析する。観察されるものとして、このｄからｇへの局所的密度変異に対するピーク密度において、リードペアビンの占有率は、密度の測定値として、軸から離れたリードペア密度の占有率のほぼ半分である。最終的に、部分ｄとｇは、少なくとも１つの再編成事象において隣接する。

【0311】

マップをさらに詳しく調べる。観察されるものとして、ａは、ｇにマッピングされるリードペア補体を持つ局所的密度変異に関与しない。最終的に、部分ａとｇは、それらを物理結合させる再編成事象に関与しない。

【0312】

ａ－ｄとｄ－ｇの局所的密度変異をさらに詳しく調べる。観察されるものとして、各々が、軸に最も近い直角縁から引かれた線に沿った左右対称性を示す。最終的に、マップの分解能のレベルより大きい部分ｄの転座が生じた。

【0313】

最終的に、ａをｄに結合させる転座事象は１つの染色体上に生じ、ｄをｇに結合させる別個の転座事象は第２の染色体上に生じた。最終的に、サンプルは各転座事象に対してヘテロ結合性である。

【0314】

実施例５．カーネルへのリードペア分離の変換
ヒト染色体７（１５Ｍｂ）からリードペアデータを得て、リードペアを２００ｂｐのビンに組織化し、ＬＬＲ値をビンの各々に対して算出する。既知のヘテロ結合逆位に相当する高いＬＬＲ値を得る（図５Ａ）。同じ分析領域において、１０ｋｂのヘテロ結合欠失のカーネル、および２６ｋｂのヘテロ結合重複（Ｌ）カーネルを識別した（それぞれ図５Ｂおよび図５Ｃ）。

【0315】

実施例６．変位された部分の識別
リードペア情報をサンプルに対して得て、リードペアを基準スキャホールドに対してマッピングする。スキャホールドの部分にマッピングされるリードペアの、起こり得る誤って置かれた部分を表す局所的密度変異は、予想外に高いリード密度の垂直または水平な帯域として観察される（図１６Ａ）。予想外に低いリード密度の「穴」の対応する水平または垂直の帯域が識別され、この帯域に対し予想されるリードペア密度は、誤って置かれた部分の密度に匹敵する。穴に対し予想されるリードペア密度は、帯域に対し観察された密度に一致し、最終的に、誤って置かれた部分が穴に相当する。スキャホールドモデルは、誤って置かれた部分を穴と取り替えてモデルを改善することにより調整される。

【0316】

実施例７．２倍性ゲノム中の崩壊した部分の識別
リードペア情報がサンプルに対して得られ、リードペアを基準スキャホールドに対してマッピングする。スキャホールドＡ－Ｂ－Ｂ’のセクションについて、予想より高い密度の第１の区域が、部分Ａの中心軸付近の少なくとも１つの他の領域に比べて、中心軸付近に観察される。場合によっては２つの部分を分割する低密度の正方形または長方形として明示される、予想外に低いリード密度の第２の区域（図１６Ａ）も、第２の区域の一角がＢとＢ’との間の中心軸と接触した状態で観察される。第１の区域における「過剰」密度は、第２の区域に観察された密度の欠如に相当する、密度の組み合わせにほぼ比例する。最終的に、第１の区域は、高い類似性により崩壊したＡの２倍性配列に相当し、ＢとＢ’との間の軸またはその付近の密度の欠如は、不適当な結合個所が生じたことを示す。随意に、スキャホールドは、Ａを重複し（コピー数を増大させる）、Ｂ－Ｂ’を壊すことでＡ－ＢまたはＡ－Ｂ’を含む２つの別個の染色体を作成することにより、調整される。

【0317】

実施例８．２倍性ゲノム中の崩壊した反復および再結合の識別
リードペア情報がサンプルに対して得られ、リードペアを基準スキャホールドに対してマッピングする。スキャホールドＡ－Ｂ／Ｘ－Ｙのセクションについて、予想より高い密度の第１の区域が、部分Ａの中心軸付近の少なくとも１つの他の領域、例えば部分ＡまたはＹに比べて、部分Ｂ／Ｘの中心軸付近に観察される。加えて、場合によっては２つの部分を分割する低密度の正方形または長方形として明示される、予想外に低いリード密度の第２の区域（図１６Ｂ）も、第２の区域の一角がＡとＹとの間の中心軸と完全に接触していない状態で観察される。最終的に、Ｂ／Ｘに対応する第２の区域は崩壊した部分を含み、ＡとＹは、共通の断片Ｂ／Ｘを通じて適当に結合された。随意に、スキャホールドは、Ｂ／Ｘを重複し、Ｂ－Ｙを壊すことでＡ－ＢまたはＸ－Ｙを含む２つの別個の染色体を作成することにより調整される。

【0318】

実施例９．染色体破壊の識別
リードペア情報がサンプルに対して得られ、リードペアを基準スキャホールドに対してマッピングする。スキャホールドのセクションに関して、中心軸の内外で予想より低いリード密度が、２つの部分間の接続部に対応する区域に観察される。最終的に、染色体破壊が存在し、それに応じてスキャホールドが更新される。

【0319】

実施例１０：１倍性の崩壊した部分の識別
リードペア情報を一倍性ゲノムのサンプルに対して得て、リードペアを基準スキャホールドに対してマッピングする。スキャホールドのセクションに関して、中心軸上の予想より高いリード密度（例えば、軸付近のスキャホールド上の他の区域における平均リード密度より高い）が、２つの部分間の接続部に対応する区域に観察される。他の有意な軸外特徴は識別されない。最終的に、高密度の区域は、スキャホールドのアセンブリ中に崩壊した反復部分を表す。反復部分は重複され、スキャホールド中の元の部分に隣接して置かれる。随意にモデルは、反復された部分の軸付近のリード密度がスキャホールドに沿った位置の平均リード密度に近似するまで反復して調整され、反復部分の正確な数がスキャホールドモデルに存在することが示される。

【0320】

実施例１１．ゲノムモデリング
リードペア情報が腫瘍サンプルに対して得られ、リードペアをヒトゲノム基準スキャホールドに対してマッピングする。スキャホールドとリードペアデータとの間に相当数の誤差が観察され、複数の区域に対する予想密度と観察密度との間の変化により明示されるものであり、分析が複雑になる。各誤差は、誤差のサイズに基づいてスコアを提示される。スキャホールドは、各々に加重染色体が含まれている加重ゲノムの集まりとして再構成され、リードペアデータが再びマッピングされる。この結果、誤差の数、したがってスコアの大幅な減少が生じる。結果として、データの分析は通常どおり進み、腫瘍細胞集団の異質性に関する情報が得られる。随意に、図１７Ａに例示されるように、モデルをさらに低いスコアに反復して調整し、およびスキャホールドのリードペアデータに対しより良い適合を得る。

【0321】

実施例１２．スキャホールドのグラフ表現
リードペア情報がサンプルに対して得られ、リードペアを基準スキャホールドに対してマッピングする。スキャホールドの部分は、数学的にノードとして表され、マッピングされたリード密度の区域はノードを接続する縁として表される。随意に、各縁は、部分間の接続部がリード密度の観察された区域と場所に基づいて正確である（例えば、遮断縁）可能性に応じて加重される。計算アルゴリズムを利用して、ノード、その後、最短の経路が識別されるまで縁を通る経路を反復して評価する。随意に、機械学習アルゴリズムを利用して、グラフを通る最短経路を見つける。最終的に、最短経路は、リードペアデータの最良適合スキャホールドモデルを表す。このようにグラフとしてアセンブリスキャホールドを表すことで、最良適合スキャホールドモデルの生成に必要な計算時間とエネルギーが全体的に減少する。

【0322】

実施例１３．２倍体性逆位
２倍体性ゲノムを含むサンプルは、基準スキャホールドに対して受けられた少なくとも１つのゲノム再編成を持つ、少なくともいくつかのゲノム材料を有している疑いがある。サンプルは、部分ａ、ｂ、およびｃを有する第１の染色体、および、部分ｄ、ｅ、およびｆを含む第２の染色体を含む。

【0323】

リードペア情報がサンプルに対して得られ、リードペアは基準スキャホールドに対してマッピングされる。

【0324】

部分ａ－ｂとｂ－ｃにマッピングされるリードペアの実質的な過小表現を表す局所的密度変位が観察される。最終的に、ａとｂの右端をｂの右端とｃに沿わせる再編成が生じた（逆位）。

【0325】

局所的密度変位をさらに詳しく分析する。観察されるものとして、この局所的密度変異に対するピーク密度において、リードペアビンの占有率は、密度の測定値として、軸から離れたリードペア密度の占有率の半分しかない。さらに、変位した密度は、部分ｂ間の中点にて、軸外に位置する「蝶ネクタイ」パターンとして存在する。最終的に、逆位は１つの染色体に生じただけであった。

【0326】

局所的密度変異は、その対称性に関して観察される。確認されるものとして、局所的密度変異は、マッピングの分解能のレベルを持つスキャホールド軸に最も近い直角縁を二分する線に沿って、実質的に双方で対称的である。最終的に、事象は単純な逆位であり、部分ｂの配向を反転させる。

【0327】

実施例１４．診断法
腫瘍サンプルを患者から採取して配列決定することでリードペアデータを得て、結果として生じるデータをヒト基準ゲノムスキャホールド上にマッピングする。軸外の「蝶ネクタイ」密度特徴を、本明細書中の方法とシステムを使用して識別し、図７に示されるように、これらの特徴を、融合を形成するために１つまたは両方の染色体に対する遺伝子ＥＴＶ６とＮＴＲＫ３との間の転座として識別する。特徴の予想密度と観察密度との間の差異は、突然変異を有する腫瘍細胞のゲノム中の染色体のパーセントを示す。この結果から、および随意にリードペアデータからの付加的な特徴の有無から、患者は、癌、例えば乳腺相似分泌癌などを診断され、続いて、この突然変異を伴う癌を標的とすると知られる薬物、例えばＮＴＲＫ３キナーゼ阻害剤などで処置される。処置レジメンの完了後に腫瘍から取り除かれたサンプルの配列決定は、ＥＴＶ６－ＮＴＲＫ３転座に対応する特徴の密度の減少または除去を示す。臨床医は、薬物処置によりゲノム中に転座がある腫瘍細胞の死滅が成功したと結論付ける。

【0328】

実施例１５．診断法
腫瘍サンプルを患者から採取して配列決定することでリードペアデータを得て、結果として生じるデータをヒト基準ゲノムスキャホールド上にマッピングする。軸外の「蝶ネクタイ」密度特徴は、遺伝子ＥＴＶ６とＮＴＲＫ３との間の転座に相当するものであるが、は、本明細書中の方法とシステムを本明細書に使用しても１つまたは両方の染色体には観察されない。この結果から、および随意にリードペアデータからの付加的な特徴の有無から、臨床医は、患者にＮＴＲＫ３キナーゼ阻害剤などの薬物による処置は必要ないと結論を下す。

【図1】