特表2024-532497 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 広州燃石医学検験所有限公司の特許一覧

特表2024-532497コピー数変異の検出方法およびその応用

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2A
2B
3A
3B
4A
4B
4C
4D
4E
4F
4G
4H
4I
4J
5A
5B
5C
5D
5E
5F
6
7
8A
8B
8C
8D
8E
8F

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-09-05

(54)【発明の名称】コピー数変異の検出方法およびその応用

(51)【国際特許分類】

C12Q 1/6869 20180101AFI20240829BHJP

C12M 1/00 20060101ALI20240829BHJP

C12Q 1/6883 20180101ALI20240829BHJP

【ＦＩ】

C12Q1/6869 Z

C12M1/00 A

C12Q1/6883 Z

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024514011

(86)(22)【出願日】2022-08-29

(85)【翻訳文提出日】2024-04-26

(86)【国際出願番号】 CN2022115447

(87)【国際公開番号】W WO2023030233

(87)【国際公開日】2023-03-09

(31)【優先権主張番号】202111002171.4

(32)【優先日】2021-08-30

(33)【優先権主張国・地域又は機関】CN

(31)【優先権主張番号】202111095132.3

(32)【優先日】2021-09-17

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】524077542

【氏名又は名称】広州燃石医学検験所有限公司

【氏名又は名称原語表記】ＧＵＡＮＧＺＨＯＵＢＵＲＮＩＮＧＲＯＣＫＤＸＣＯ．，ＬＴＤ．

(74)【代理人】

【識別番号】110000729

【氏名又は名称】弁理士法人ユニアス国際特許事務所

(72)【発明者】

【氏名】劉成林

(72)【発明者】

【氏名】趙宇

(72)【発明者】

【氏名】曠 ▲ティン▼

(72)【発明者】

【氏名】張之宏

(72)【発明者】

【氏名】張振

(72)【発明者】

【氏名】張光亮

(72)【発明者】

【氏名】張周

(72)【発明者】

【氏名】揣少坤

(72)【発明者】

【氏名】漢雨生

【テーマコード（参考）】

4B029

4B063

【Ｆターム（参考）】

4B029AA08

4B029BB11

4B029FA03

4B063QA13

4B063QA17

4B063QQ02

4B063QQ03

4B063QQ43

4B063QR08

4B063QR42

4B063QR62

(57)【要約】

コピー数変異を検出する方法を提供する。コピー数変異を検出する方法およびその応用が提供される。また、被検試料の標的区間を幾つかのウィンドウ領域に分割し、被検試料群におけるコントロールウィンドウ領域のシーケンシングデータを取得し、前記コントロールウィンドウ領域のシーケンシングデータに基づいて前記被検試料の標的遺伝子のコピー数状態を決定するステップを含む、コピー数状態の分析方法が提供される。
【選択図】図１Ａ

【特許請求の範囲】

【請求項1】

コピー数状態の分析方法であって、被検試料の標的区間を幾つかのウィンドウ領域に分割し、被検試料群におけるコントロールウィンドウ領域のシーケンシングデータを取得し、前記コントロールウィンドウ領域の前記シーケンシングデータに基づいて前記被検試料の標的遺伝子のコピー数状態を決定するステップを含み、任意選択で、前記コントロールウィンドウ領域は、カバレッジ変動レベルが低いウィンドウ領域を含む、方法。

【請求項2】

（Ｓ１）前記被検試料のシーケンシングデータおよび／または複数の参照試料のシーケンシングデータを取得するステップと、
（Ｓ２）前記参照試料を２つ以上の参照試料群に分けるステップと、
（Ｓ３）前記被検試料に最も近い参照試料群を決定するステップと、
（Ｓ４）被検試料に最も近い前記参照試料群のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定するステップと、をさらに含む、請求項１に記載の方法。

【請求項3】

前記品質合格試料のウィンドウ領域をカバレッジ変動レベルの昇順に並べるステップを含み、
前記コントロールウィンドウ領域は、前記カバレッジ変動レベルの先頭２つ以上、または先頭４つ以上の前記ウィンドウを含むか、または前記コントロールウィンドウ領域のすべての前記品質合格試料の前記シーケンシングデータの中央絶対偏差と中央値との比が、約０．１５以下である、請求項１～２のいずれか１項に記載の方法。

【請求項4】

前記品質合格試料のウィンドウ領域のシーケンシングデータの統計値に基づいて前記カバレッジ変動レベルを決定するステップを含み、
任意選択で、前記品質合格試料のウィンドウ領域のシーケンシングデータの中央絶対偏差と中央値との比に基づいて前記カバレッジ変動レベルを決定する、請求項３に記載の方法。

【請求項5】

前記コントロールウィンドウ領域のシーケンシングデータに基づいて正規化係数を決定するステップを含み、
任意選択で、前記コントロールウィンドウ領域のすべての前記品質合格試料のシーケンシングデータの平均値を計算することによって前記正規化係数を決定する、請求項３～４のいずれか１項に記載の方法。

【請求項6】

前記正規化係数に基づいて、被検試料の各ウィンドウ領域のコピー数を決定するステップを含み、
任意選択で、前記正規化は、前記ウィンドウ領域の被検試料のシーケンシングデータを、前記ウィンドウ領域の正規化係数で割り、プロイディを乗じることを含む、請求項５に記載の方法。

【請求項7】

被検試料の各ウィンドウ領域のシーケンシングデータおよび対応するウィンドウ領域の被検試料群の他の試料のシーケンシングデータに基づいて、被検試料のコピー数変異の有意性を決定するステップを含み、
任意選択で、ｔ検定の有意性検定方法によって、前記コピー数変異の有意性を決定する、請求項１～６のいずれか１項に記載の方法。

【請求項8】

前記被検試料は、組織試料、血液試料、唾液、胸水、腹膜液および脳脊髄液からなる群から選択される、請求項１～７のいずれか１項に記載の方法。

【請求項9】

前記ステップ（Ｓ２）は、前記参照試料を群分けするステップ（Ｓ２－１）を含み、前記群分けは、標的区間の前記シーケンシングデータに基づいて、クラスター分析の方法によって前記参照試料を群分けすることを含み、好ましくは、前記クラスター分析の方法は、Ｋ平均クラスタリングおよび／または階層クラスタリングを含み、
前記ステップ（Ｓ２）は、前記参照試料群の前記シーケンシングデータの統計値を確認するステップ（Ｓ２－２）を含み、好ましくは、前記統計値を確認することは、前記標的区間における各群の前記参照試料の平均値および／または標準偏差を計算することを含む、請求項２～８のいずれか１項に記載の方法。

【請求項10】

前記ステップ（Ｓ３）は、標的区間における前記参照試料群および前記被検試料の前記シーケンシングデータに基づいて、統計距離を計算することにより前記参照試料群と前記被検試料との分布類似度を確認することを含み、好ましくは、前記分布類似度が高いことは、前記標的区間における前記参照試料群と前記被検試料との前記統計距離が短いことを含む、請求項２～９のいずれか１項に記載の方法。

【請求項11】

前記統計距離は、前記標的区間における前記参照試料群と前記被検試料の前記シーケンシングデータの差の絶対値のｐ乗の統計値を含み、前記ｐは１以上であり、好ましくは、前記統計値は総和値を含み、好ましくは、前記統計距離はミンコフスキー距離を含む、請求項１０に記載の方法。

【請求項12】

前記ステップ（Ｓ４）は、前記被検試料の前記標的遺伝子のエキソンの長さ、および標的区間ｉにおける前記被検試料のコピー数ＣＮ_ｉに基づいて、標的遺伝子における前記被検試料のコピー数ＣＮ_ｇを決定することを含み、好ましくは、前記ステップ（Ｓ４）は、次式に基づいて前記ＣＮ_ｇを決定することを含み、

【数1】

ここで、ｉは標的区間を示し、ｊは標的エキソンを示し、ｎは標的エキソンｊ上の標的区間の数を示し、ｍは標的エキソン数を示し、ＣＮ_ｉは標的区間ｉにおけるコピー数を示し、Ｌｅｎ_ｊは標的エキソンｊの長さを示す、請求項２～１１のいずれか１項に記載の方法。

【請求項13】

前記ステップ（Ｓ４）は、標的区間における被検試料のコピー数変異の存在の確率を決定することを含み、前記コピー数変異の存在の確率は、標的区間における前記被検試料のコピー数の増幅の確率（ｐ_ａ）および／または欠失の確率（ｐ_ｄ）を含み、好ましくは、前記ステップ（Ｓ４）は、標的区間ｉにおける前記被検試料のシーケンシングデータ、および対応する標的区間における前記被検試料に最も近い参照試料群のシーケンシングデータの平均値および標準偏差に基づいて、確率分布によって前記コピー数変異の存在の確率を確認することを含み、好ましくは、前記確率分布は正規確率分布を含む、請求項２～１２のいずれか１項に記載の方法。

【請求項14】

前記ステップ（Ｓ４）は、前記標的遺伝子における前記被検試料の有意なコピー数の増幅または欠失の存在の割合のｓｉｇＲａｔｉｏを決定することを含み、好ましくは、有意なコピー数変異が生じた前記標的遺伝子における標的区間の数を前記標的遺伝子における全ての標的区間の数で割って前記ｓｉｇＲａｔｉｏを得、前記有意なコピー数変異が生じた標的区間は、前記コピー数変異の割合が約３０％以上である標的区間を含み、
前記ステップ（Ｓ４）は、さらに、前記標的遺伝子における前記被検試料のコピー数変異の存在に関する統計的検定パラメータを決定することを含み、好ましくは、前記標的遺伝子における前記被検試料の前記標的区間の数、前記標的遺伝子における前記被検試料の各標的区間のシーケンシングデータ、前記標的遺伝子における前記被検試料の各標的区間のシーケンシングデータの標準偏差、および対応する標的遺伝子における前記被検試料に最も近い参照試料群の標的区間におけるシーケンシングデータの平均値および標準偏差に基づいて、ｔ検定の方法によってｐ値ｐ_{ｔｔｅｓｔ}を確認する、請求項２～１３のいずれか１項に記載の方法。

【請求項15】

前記ステップ（Ｓ４）は、以下のことにより、前記被検試料の前記標的遺伝子のコピー数状態を決定し、
ＣＮ_ｇ≧ＣＮ_ｔｈＡ、ｓｉｇＲａｔｉｏ≧ｓｉｇＲａｔｉｏ_ｔｈ、かつｐ_{ｔｔｅｓｔ}≦ｐ_ｔｈのとき、前記被検試料の前記標的遺伝子のコピー数の増幅が生じたことを確認し、
ＣＮ_ｇ≦ＣＮ_ｔｈＤ、ｓｉｇＲａｔｉｏ≧ｓｉｇＲａｔｉｏ_ｔｈ、かつｐ_{ｔｔｅｓｔ}≦ｐ_ｔｈのとき、前記被検試料の前記標的遺伝子のコピー数欠失が生じたことを確認し、
ＣＮ_ｔｈＡ＜ＣＮ_ｇ＜ＣＮ_ｔｈＤ、またはｓｉｇＲａｔｉｏ＜ｓｉｇＲａｔｉｏ_ｔｈ、またはｐ_{ｔｔｅｓｔ}＞ｐ_ｔｈのとき、前記被検試料の標的遺伝子のコピー数が正常であることを確認し、ここで、ＣＮ_ｔｈＡ、ＣＮ_ｔｈＤ、ｓｉｇＲａｔｉｏ_ｔｈ、およびｐ_ｔｈは、それぞれ独立して閾値であり、好ましくは、ＣＮ_ｔｈＡは約２．２５～約４であり、好ましくは、ＣＮ_ｔｈＤは、約１．０～約１．７５であり、好ましくは、ｓｉｇＲａｔｉｏ_ｔｈは、約０．３～約１であり、好ましくは、ｐ_ｔｈは、約０．０５～約０．００００１である、請求項１４に記載の方法。

【請求項16】

前記標的遺伝子は、
ＡＢＬ１、ＡＢＬ２、ＡＢＲＡＸＡＳ１、ＡＣＶＲ１、ＡＣＶＲ１Ｂ、ＡＫＴ１、ＡＫＴ２、ＡＫＴ３、ＡＬＫ、ＡＬＯＸ１２Ｂ、ＡＭＥＲ１、ＡＰＣ、ＡＲ、ＡＲＡＦ、ＡＲＦＲＰ１、ＡＲＩＤ１Ａ、ＡＲＩＤ１Ｂ、ＡＲＩＤ２、ＡＲＩＤ５Ｂ、ＡＳＸＬ１、ＡＳＸＬ２、ＡＳＸＬ３、ＡＴＧ５、ＡＴＭ、ＡＴＲ、ＡＴＲＸ、ＡＵＲＫＡ、ＡＵＲＫＢ、ＡＸＩＮ１、ＡＸＩＮ２、ＡＸＬ、Ｂ２Ｍ、ＢＡＰ１、ＢＡＲＤ１、ＢＢＣ３、ＢＣＬ１０、ＢＣＬ２、ＢＣＬ２Ｌ１、ＢＣＬ２Ｌ１１、ＢＣＬ２Ｌ２、ＢＣＬ６、ＢＣＯＲ、ＢＣＯＲＬ１、ＢＩＲＣ３、ＢＬＭ、ＢＭＰＲ１Ａ、ＢＲＡＦ、ＢＲＣＡ１、ＢＲＣＡ２、ＢＲＤ４、ＢＲＤ７、ＢＲＩＮＰ３、ＢＲＩＰ１、ＢＴＧ１、ＢＴＧ２、ＢＴＫ、ＣＡＬＲ、ＣＡＲＤ１１、ＣＡＳＰ８、ＣＢＦＢ、ＣＢＬ、ＣＣＮＤ１、ＣＣＮＤ２、ＣＣＮＤ３、ＣＣＮＥ１、ＣＤ２７４、ＣＤ２８、ＣＤ５８、ＣＤ７４、ＣＤ７９Ａ、ＣＤ７９Ｂ、ＣＤＣ７３、ＣＤＨ１、ＣＤＨ１８、ＣＤＫ１２、ＣＤＫ４、ＣＤＫ６、ＣＤＫ８、ＣＤＫＮ１Ａ、ＣＤＫＮ１Ｂ、ＣＤＫＮ１Ｃ、ＣＤＫＮ２Ａ、ＣＤＫＮ２Ｂ、ＣＤＫＮ２Ｃ、ＣＥＢＰＡ、ＣＥＮＰＡ、ＣＨＤ１、ＣＨＤ２、ＣＨＤ４、ＣＨＤ８、ＣＨＥＫ１、ＣＨＥＫ２、ＣＩＣ、ＣＩＩＴＡ、ＣＲＥＢＢＰ、ＣＲＫＬ、ＣＲＬＦ２、ＣＲＹＢＧ１、ＣＳＦ１Ｒ、ＣＳＦ３Ｒ、ＣＳＭＤ１、ＣＳＭＤ３、ＣＴＣＦ、ＣＴＬＡ４、ＣＴＮＮＡ１、ＣＴＮＮＢ１、ＣＵＬ３、ＣＵＬ４Ａ、ＣＸＣＲ４、ＣＹＬＤ、ＣＹＰ１７Ａ１、ＣＹＰ２Ｄ６、ＤＡＸＸ、ＤＣＵＮ１Ｄ１、ＤＤＲ１、ＤＤＲ２、ＤＤＸ３Ｘ、ＤＩＣＥＲ１、ＤＩＳ３、ＤＮＡＪＢ１、ＤＮＭＴ１、ＤＮＭＴ３Ａ、ＤＮＭＴ３Ｂ、ＤＯＴ１Ｌ、ＤＰＹＤ、ＤＴＸ１、ＤＵＳＰ２２、ＥＥＤ、ＥＧＦＲ、ＥＩＦ１ＡＸ、ＥＩＦ４Ｅ、ＥＭＳＹ、ＥＰ３００、ＥＰＣＡＭ、ＥＰＨＡ２、ＥＰＨＡ３、ＥＰＨＡ５、ＥＰＨＡ７、ＥＰＨＢ１、ＥＰＨＢ４、ＥＲＢＢ２、ＥＲＢＢ３、ＥＲＢＢ４、ＥＲＣＣ１、ＥＲＣＣ２、ＥＲＣＣ３、ＥＲＣＣ４、ＥＲＣＣ５、ＥＲＧ、ＥＲＲＦＩ１、ＥＳＲ１、ＥＴＶ４、ＥＴＶ５、ＥＴＶ６、ＥＷＳＲ１、ＥＺＨ２、ＥＺＲ、ＦＡＮＣＡ、ＦＡＮＣＣ、ＦＡＮＣＤ２、ＦＡＮＣＥ、ＦＡＮＣＦ、ＦＡＮＣＧ、ＦＡＮＣＩ、ＦＡＮＣＬ、ＦＡＮＣＭ、ＦＡＳ、ＦＡＴ１、ＦＡＴ３、ＦＢＸＷ７、ＦＧＦ１０、ＦＧＦ１２、ＦＧＦ１４、ＦＧＦ１９、ＦＧＦ２３、ＦＧＦ３、ＦＧＦ４、ＦＧＦ６、ＦＧＦ７、ＦＧＦＲ１、ＦＧＦＲ２、ＦＧＦＲ３、ＦＧＦＲ４、ＦＨ、ＦＬＣＮ、ＦＬＴ１、ＦＬＴ３、ＦＬＴ４、ＦＯＸＡ１、ＦＯＸＬ２、ＦＯＸＯ１、ＦＯＸＯ３、ＦＯＸＰ１、ＦＲＳ２、ＦＵＢＰ１、ＦＹＮ、ＧＡＢＲＡ６、ＧＡＬＮＴ１２、ＧＡＴＡ１、ＧＡＴＡ２、ＧＡＴＡ３、ＧＡＴＡ４、ＧＡＴＡ６、ＧＥＮ１、ＧＩＤ４、ＧＬＩ１、ＧＮＡ１１、ＧＮＡ１３、ＧＮＡＱ、ＧＮＡＳ、ＧＰＳ２、ＧＲＥＭ１、ＧＲＩＮ２Ａ、ＧＲＭ３、ＧＳＫ３Ｂ、Ｈ３Ｆ３Ａ、Ｈ３Ｆ３Ｂ、Ｈ３Ｆ３Ｃ、ＨＤＡＣ１、ＨＤＡＣ２、ＨＧＦ、ＨＩＳＴ１Ｈ１Ｃ、ＨＩＳＴ１Ｈ２ＢＤ、ＨＩＳＴ１Ｈ３Ａ、ＨＩＳＴ１Ｈ３Ｂ、ＨＩＳＴ１Ｈ３Ｃ、ＨＩＳＴ１Ｈ３Ｄ、ＨＩＳＴ１Ｈ３Ｅ、ＨＩＳＴ１Ｈ３Ｇ、ＨＩＳＴ１Ｈ３Ｈ、ＨＩＳＴ１Ｈ３Ｉ、ＨＩＳＴ１Ｈ３Ｊ、ＨＩＳＴ２Ｈ３Ｄ、ＨＩＳＴ３Ｈ３、ＨＬＡ－Ａ、ＨＬＡ－Ｂ、ＨＬＡ－Ｃ、ＨＮＦ１Ａ、ＨＯＸＢ１３、ＨＲＡＳ、ＨＳＤ３Ｂ１、ＨＳＰ９０ＡＡ１、ＩＣＯＳＬＧ、ＩＤ３、ＩＤＨ１、ＩＤＨ２、ＩＦＮＧＲ１、ＩＧＦ１、ＩＧＦ１Ｒ、ＩＧＦ２、ＩＧＨＤ、ＩＧＨＪ、ＩＧＨＶ、ＩＫＢＫＥ、ＩＫＺＦ１、ＩＬ１０、ＩＬ７Ｒ、ＩＮＨＡ、ＩＮＨＢＡ、ＩＮＰＰ４Ａ、ＩＮＰＰ４Ｂ、ＩＮＳＲ、ＩＲＦ２、ＩＲＦ４、ＩＲＳ１、ＩＲＳ２、ＩＴＫ、ＩＴＰＫＢ、ＪＡＫ１、ＪＡＫ２、ＪＡＫ３、ＪＵＮ、ＫＡＴ６Ａ、ＫＤＭ５Ａ、ＫＤＭ５Ｃ、ＫＤＭ６Ａ、ＫＤＲ、ＫＥＡＰ１、ＫＥＬ、ＫＩＲ２ＤＬ４、ＫＩＲ３ＤＬ２、ＫＩＴ、ＫＬＦ４、ＫＬＨＬ６、ＫＬＲＣ１、ＫＬＲＣ２、ＫＬＲＫ１、ＫＭＴ２Ａ、ＫＭＴ２Ｃ、ＫＭＴ２Ｄ、ＫＲＡＳ、ＬＡＴＳ１、ＬＡＴＳ２、ＬＭＯ１、ＬＲＰ１Ｂ、ＬＴＫ、ＬＹＮ、ＭＡＦ、ＭＡＧＩ２、ＭＡＬＴ１、ＭＡＰ２Ｋ１、ＭＡＰ２Ｋ２、ＭＡＰ２Ｋ４、ＭＡＰ３Ｋ１、ＭＡＰ３Ｋ１３、ＭＡＰ３Ｋ１４、ＭＡＰＫ１、ＭＡＰＫ３、ＭＡＸ、ＭＣＬ１、ＭＤＣ１、ＭＤＭ２、ＭＤＭ４、ＭＥＤ１２、ＭＥＦ２Ｂ、ＭＥＮ１、ＭＥＲＴＫ、ＭＥＴ、ＭＦＨＡＳ１、ＭＧＡ、ＭＩＲ２１、ＭＩＴＦ、ＭＫＮＫ１、ＭＬＨ１、ＭＬＨ３、ＭＰＬ、ＭＲＥ１１、ＭＳＨ２、ＭＳＨ３、ＭＳＨ６、ＭＳＴ１、ＭＳＴ１Ｒ、ＭＴＡＰ、ＭＴＯＲ、ＭＵＴＹＨ、ＭＹＣ、ＭＹＣＬ、ＭＹＣＮ、ＭＹＤ８８、ＭＹＯＤ１、ＮＡＶ３、ＮＢＮ、ＮＣＯＡ３、ＮＣＯＲ１、ＮＣＯＲ２、ＮＥＧＲ１、ＮＦ１、ＮＦ２、ＮＦＥ２Ｌ２、ＮＦＫＢＩＡ、ＮＫＸ２－１、ＮＫＸ３－１、ＮＯＴＣＨ１、ＮＯＴＣＨ２、ＮＯＴＣＨ３、ＮＯＴＣＨ４、ＮＰＭ１、ＮＲＡＳ、ＮＲＧ１、ＮＳＤ１、ＮＳＤ２、ＮＳＤ３、ＮＴ５Ｃ２、ＮＴＨＬ１、ＮＴＲＫ１、ＮＴＲＫ２、ＮＴＲＫ３、ＮＵＰ９３、ＮＵＴＭ１、Ｐ２ＲＹ８、ＰＡＫ１、ＰＡＫ３、ＰＡＫ５、ＰＡＬＢ２、ＰＡＬＬＤ、ＰＡＲＰ１、ＰＡＲＰ２、ＰＡＲＰ３、ＰＡＸ５、ＰＢＲＭ１、ＰＣＤＨ１１Ｘ、ＰＤＣＤ１、ＰＤＣＤ１ＬＧ２、ＰＤＧＦＲＡ、ＰＤＧＦＲＢ、ＰＤＫ１、ＰＧＲ、ＰＨＯＸ２Ｂ、ＰＩＫ３Ｃ２Ｂ、ＰＩＫ３Ｃ２Ｇ、ＰＩＫ３Ｃ３、ＰＩＫ３ＣＡ、ＰＩＫ３ＣＢ、ＰＩＫ３ＣＤ、ＰＩＫ３ＣＧ、ＰＩＫ３Ｒ１、ＰＩＫ３Ｒ２、ＰＩＫ３Ｒ３、ＰＩＭ１、ＰＬＣＧ２、ＰＬＫ２、ＰＭＳ１、ＰＭＳ２、ＰＮＲＣ１、ＰＯＬＤ１、ＰＯＬＥ、ＰＯＭ１２１Ｌ１２、ＰＰＡＲＧ、ＰＰＭ１Ｄ、ＰＰＰ２Ｒ１Ａ、ＰＰＰ２Ｒ２Ａ、ＰＰＰ６Ｃ、ＰＲＤＭ１、ＰＲＥＸ２、ＰＲＫＡＲ１Ａ、ＰＲＫＣＩ、ＰＲＫＤＣ、ＰＲＫＮ、ＰＴＣＨ１、ＰＴＥＮ、ＰＴＰＮ１１、ＰＴＰＲＤ、ＰＴＰＲＯ、ＰＴＰＲＳ、ＰＴＰＲＴ、ＱＫＩ、ＲＡＢ３５、ＲＡＣ１、ＲＡＤ２１、ＲＡＤ５０、ＲＡＤ５１、ＲＡＤ５１Ｂ、ＲＡＤ５１Ｃ、ＲＡＤ５１Ｄ、ＲＡＤ５２、ＲＡＤ５４Ｌ、ＲＡＦ１、ＲＡＲＡ、ＲＡＳＡ１、ＲＢ１、ＲＢＭ１０、ＲＥＣＱＬ４、ＲＥＬ、ＲＥＴ、ＲＨＥＢ、ＲＨＯＡ、ＲＩＣＴＯＲ、ＲＩＴ１、ＲＮＦ４３、ＲＯＳ１、ＲＰＡ１、ＲＰＳ６ＫＡ４、ＲＰＳ６ＫＢ２、ＲＰＴＯＲ、ＲＳＰＯ２、ＲＵＮＸ１、ＲＵＮＸ１Ｔ１、ＳＤＣ４、ＳＤＨＡ、ＳＤＨＡＦ２、ＳＤＨＢ、ＳＤＨＣ、ＳＤＨＤ、ＳＥＴＤ２、ＳＦ３Ｂ１、ＳＧＫ１、ＳＨ２Ｂ３、ＳＨ２Ｄ１Ａ、ＳＨＱ１、ＳＬＣ３４Ａ２、ＳＬＩＴ２、ＳＬＸ４、ＳＭＡＤ２、ＳＭＡＤ３、ＳＭＡＤ４、ＳＭＡＲＣＡ４、ＳＭＡＲＣＢ１、ＳＭＡＲＣＤ１、ＳＭＯ、ＳＮＣＡＩＰ、ＳＯＣＳ１、ＳＯＸ１０、ＳＯＸ１７、ＳＯＸ２、ＳＯＸ９、ＳＰＥＮ、ＳＰＩ１、ＳＰＯＰ、ＳＰＴＡ１、ＳＲＣ、ＳＲＳＦ２、ＳＴＡＧ２、ＳＴＡＴ３、ＳＴＡＴ４、ＳＴＡＴ５Ａ、ＳＴＡＴ５Ｂ、ＳＴＡＴ６、ＳＴＫ１１、ＳＴＫ４０、ＳＵＦＵ、ＳＹＫ、ＴＡＦ１、ＴＢＸ２１、ＴＢＸ３、ＴＣＦ３、ＴＣＦ７Ｌ２、ＴＥＫ、ＴＥＮＴ５Ｃ、ＴＥＲＣ、ＴＥＲＴ、ＴＥＴ１、ＴＥＴ２、ＴＧＦＢＲ１、ＴＧＦＢＲ２、ＴＩＰＡＲＰ、ＴＭＥＭ１２７、ＴＭＰＲＳＳ２、ＴＮＦＡＩＰ３、ＴＮＦＲＳＦ１４、ＴＯＰ１、ＴＯＰ２Ａ、ＴＰ５３、ＴＰ６３、ＴＰ７３、ＴＲＡＦ２、ＴＲＡＦ３、ＴＲＡＦ７、ＴＲＩＭ５８、ＴＲＰＣ５、ＴＳＣ１、ＴＳＣ２、ＴＳＨＲ、ＴＹＲＯ３、Ｕ２ＡＦ１、ＵＧＴ１Ａ１、ＶＥＧＦＡ、ＶＥＧＦＢ、ＶＥＧＦＣ、ＶＨＬ、ＷＩＳＰ３、ＷＲＮ、ＷＴ１、ＸＩＡＰ、ＸＰＯ１、ＸＲＣＣ２、ＸＲＣＣ３、ＹＡＰ１、ＹＥＳ１、ＺＡＰ７０、ＺＢＴＢ１６、ＺＢＴＢ２、ＺＮＦ２１７、ＺＮＦ７０３、およびＺＮＲＦ３からなる群から選択される遺伝子を含む、請求項２～１５のいずれか１項に記載の方法。

【請求項17】

コピー数状態の分析装置であって、
被検試料群のシーケンシングデータを取得する受信モジュールと、
前記被検試料中の標的遺伝子を決定する決定モジュールと、
前記被検試料群のシーケンシングデータに基づいて、前記被検試料中の標的遺伝子のコピー数状態を決定する判定モジュールと、を含む、コピー数状態の分析装置。

【請求項18】

（Ｍ１）被検試料のシーケンシングデータおよび／または複数の参照試料のシーケンシングデータを取得する受信モジュールと、
（Ｍ２）前記参照試料を２つ以上の参照試料群に分ける処理モジュールと、
（Ｍ３）前記被検試料に最も近い参照試料群を決定する計算モジュールと、
（Ｍ４）被検試料に最も近い前記参照試料群のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定する判定モジュールと、を含む、請求項１７に記載のコピー数状態の分析装置。

【請求項19】

記憶媒体であって、請求項１～１６のいずれか１項に記載の方法を実行することができるプログラムを記載した記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は、バイオインフォマティクスの分野に関し、具体的には、コピー数変異の検出方法およびその応用に関する。

【背景技術】

【0002】

コピー数変異（ＣＮＶ）は、ヒトゲノムにおける一般的な変異の一つである。コピー数変異は遺伝子コピー数の増幅と欠失の両方を含む。コピー数変異の検出は、被験者のゲノムの状態をモニターするのに用いることができ、また、特定の疾患と特定のゲノム変異との関連関係を同定するのにも用いることができる。例えば、遺伝子のコピー数変異は多くのよく見られる遺伝性疾患を引き起こす可能性があり、例えば、ＢＲＣＡ１／２遺伝子の欠失は遺伝性乳がんのリスクを引き起こす可能性がある。遺伝子のコピー数変異は腫瘍の発生や進行に影響する可能性があり、例えば、ＨＥＲ２遺伝子の増幅は腫瘍の発生や進行に関係するだけでなく、重要な臨床治療のモニタリングや予後の指標でもあり、腫瘍標的治療の重要なターゲットでもある。従って、コピー数変異の検出方法は、被験者のゲノム状態のモニタリング、ゲノムワイド関連研究、遺伝性疾患の予防、および腫瘍の精密治療において重要な役割を果たす。例えば、特定のコピー数変異を持つ被験者は、通常の人と比較して疾患（腫瘍など）を発症する生涯リスクが高い可能性がある。そのため、コピー数変異検出方法を用いてリスクの高い被験者をスクリーニングし、その被験者に対して個別に疾患のモニタリングを行うことで、早期の診断と治療を可能にすることができる。

【0003】

ドロップレットデジタルＰＣＲ（ｄｄＰＣＲ：ｍｉｃｒｏｄｒｏｐｌｅｔｄｉｇｉｔａｌＰＣＲ）、多重ライゲーションプローブ増幅技術（ＭＬＰＡ：ｍｕｌｔｉｐｌｅｘｅｄｌｉｇａｔｉｏｎｐｒｏｂｅａｍｐｌｉｆｉｃａｔｉｏｎ）、蛍光ｉｎｓｉｔｕハイブリダイゼーション（ＦＩＳＨ：ｆｌｕｏｒｅｓｃｅｎｃｅｉｎｓｉｔｕｈｙｂｒｉｄｉｓａｔｉｏｎ）などの従来のコピー数変異検出方法では、一度に１つまたは数個の遺伝子のコピー数状態しか検出できないか、特定の遺伝子のコピー数状態しか検出できず、ゲノム全体を分析することができないため、スループットが低く、コストが高いという特徴がある。現在、ハイスループット技術に基づくコピー数変異の検出方法は数多く存在するが、検出方法によって結果に大きな差があり、検出感度や特異性にも一定の限界がある。一方では、ハイスループットシーケンシング技術には、ライブラリーの構築やシーケンシングの際に一定のバッチ効果や技術的エラーがあり、他方では、腫瘍試料の複雑さがコピー数検出結果の安定性に大きな課題をもたらし、プレシジョンメディシンの分野においてハイスループットシーケンシング技術に基づくコピー数変異の検出を困難にしている。この分野では、バッチ効果やエラーを低減し、および／またはコピー数検出結果の安定性を向上させることができる分析方法が緊急に必要とされている。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本願の目的は、上記の既存技術の欠点に対応して、遺伝子コピー数異常を検出する方法を提供することである。本方法は、少なくともバッチ効果、エラーを低減し、および／またはコピー数検出結果の安定性を向上させることができ、これはコピー数異常に関連する駆動事象を検出し、腫瘍ゲノム進化情報を解釈するために重要である。本出願は、コピー数変異の検出方法およびその応用を提供する。

【課題を解決するための手段】

【0005】

一態様では、本出願は、コピー数状態の分析方法を提供し、前記方法は、被検試料の標的区間を幾つかのウィンドウ領域に分割するステップと、被検試料群におけるコントロールウィンドウ領域のシーケンシングデータを取得するステップと、前記コントロールウィンドウ領域のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定するステップと、を含み、任意選択で、前記コントロールウィンドウ領域は、カバレッジ変動レベルの低いウィンドウ領域を含む。

【0006】

一態様では、本出願は、被検試料群のシーケンシングデータを取得する受信モジュールと、被検試料中の標的遺伝子を決定する決定モジュールと、前記被検試料群のシーケンシングデータに基づいて、前記被検試料中の標的遺伝子のコピー数状態を決定する判定モジュールと、を含む、コピー数状態の分析装置を提供する。

【0007】

一態様では、本出願は、本出願に記述された方法を実行できるプログラムを記載した記憶媒体を提供する。

【0008】

当業者であれば、以下の詳細な説明から本出願の他の態様および利点を容易に洞察することができるであろう。以下の詳細な説明では、本出願の例示的な実施形態のみを示し、説明する。当業者に認識されるように、本出願の内容は、当業者が、本出願が関連する本発明の精神および範囲から逸脱することなく、開示された特定の実施形態に変更を加えることを可能にする。したがって、本出願の添付図面および明細書の記載は、単なる例示であり、限定することを意図するものではない。

【図面の簡単な説明】

【0009】

本出願に係る発明の具体的な特徴は、添付の特許請求の範囲に示されている。本出願が関連する本発明の特徴および利点は、以下に詳細に説明する例示的な実施形態および添付図面を参照することにより、よりよく理解することができる。添付図面の簡単な説明を以下に記載する。

【図1】図１Ａ～１Ｂは、参照ベースラインの構築に基づく方法と本出願の方法による検出結果の図を示す。各ボックスプロットは、３０個の試料のＢＲＣＡ１遺伝子のエキソンコピー数値の分布を示す。Ａ群およびＢ群は、それぞれ異なるプローブによって捕捉されるバッチを表す。図１Ａは、参照ベースラインの構築に基づく方法で算出されたＢＲＣＡ１遺伝子の各エキソンのコピー数の分布を示す。図１Ｂは、本出願の方法で算出されたＢＲＣＡ１遺伝子の各エキソンのコピー数の分布を示す。

【図2】図２Ａ～２Ｂは、参照ベースラインの構築に基づく方法と本出願の方法による、ＮＧＳ（次世代シーケンシング）ライブラリー構築方法の違いの試料を検出する結果を示す図である。横軸は染色体の座標を、縦軸は評価されたコピー数（ＣＮ）値を表す。図２Ａは、参照ベースラインの構築に基づく方法でコピー数変異を検出した結果を示し、図２Ｂは、本出願の方法によってコピー数変異を検出した結果を示す。枠内は検出されたコピー数変異を示す。

【図3】図３Ａ～３Ｂは、スクリーニングにおける安定したウィンドウの異なる設定閾値に基づく試料の検出結果を示す。横軸は染色体の座標を、縦軸は評価されたコピー数（ＣＮ）値を示す。図３Ａは、閾値を０．０５と設定した場合の試料のコピー数変異の検出結果を示し、図３Ｂは、閾値を０．１５と設定した場合の試料のコピー数変異の検出結果を示す。枠内は検出されたコピー数変異を示す。

【図4】図４Ａ～４Ｊは、コピー数変異陽性模擬試料１０試料についてバッチベースラインを構築した後の検出結果を示す。横軸は染色体の座標を、縦軸は評価されたコピー数（ＣＮ）値を示す。図内の枠は検出されたコピー数変異を示す。

【図5】図５Ａ～５Ｆは、模擬試料についての本出願の方法の検出結果のデータの一部のコピー数の分布図の例を示す。

【図6】図６Ａ～６Ｃは、標準試料についての本出願の方法の検出結果のデータの一部のコピー数の分布グラフの例を示す。

【図7】図７Ａ～７Ｃは、実試料についての本出願の方法の検出結果のデータの一部のコピー数の分布グラフの例を示す。

【図8】図８Ａ～８Ｆは、標準試料１について異なるベースラインを用いた本出願の方法の検出結果のコピー数の分布グラフの例を示す。

【発明を実施するための形態】

【0010】

本願発明の以下の実施形態は、特定の具体的な実施形態によって説明されており、本願発明の他の利点および効果は、本明細書に開示された内容から当業者に容易に理解されてもよい。

【0011】

＜定義＞
本出願において、「第２世代遺伝子シーケンシング」、「ハイスループットシーケンシング」または「次世代シーケンシング」という用語は、一般に、第２世代のハイスループットシーケンシング技術およびその後に開発されたより高スループットのシーケンシング方法を指す。次世代シーケンシングプラットフォームには、Ｉｌｌｕｍｉｎａなどの既存のシーケンシングプラットフォームが含まれるが、これらに限定されるものではない。シーケンシング技術が進化し続けるにつれて、他の方法のシーケンシング方法および装置もまた、本発明の方法において使用するために採用されてもよいことが、当業者には理解される。例えば、第２世代遺伝子シーケンシングは、高感度、高スループット、高シーケンシング深さ、または低コストという利点を有し得る。開発の歴史、影響力、シーケンシングの原理および技術に応じて、以下の主な種類のシーケンシング法がある。超並列シグネチャーシーケンス（ＭＰＳＳ：ＭａｓｓｉｖｅｌｙＰａｒａｌｌｅｌＳｉｇｎａｔｕｒｅＳｅｑｕｅｎｃｉｎｇ）、ポロニーシーケンス（ＰｏｌｏｎｙＳｅｑｕｅｎｃｉｎｇ）、４５４パイロシーケンシング（４５４ｐｙｒｏｓｅｑｕｅｎｃｉｎｇ）、イルミナ（ソレクサ）シーケンシング（Ｉｌｌｕｍｉｎａ（Ｓｏｌｅｘａ）ｓｅｑｕｅｎｃｉｎｇ）、半導体シーケンシング（Ｉｏｎｓｅｍｉｃｏｎｄｕｃｔｏｒｓｅｑｕｅｎｃｉｎｇ）、ＤＮＡナノボールシーケンシング（ＤＮＡｎａｎｏ－ｂａｌｌｓｅｑｕｅｎｃｉｎｇ）、ＣｏｍｐｌｅｔｅＧｅｎｏｍｉｃｓ社のＤＮＡナノアレイとプローブ・アンカーライゲーション複合シーケンス法など。前記第２世代シーケンシングは、１つの種のトランスクリプトームおよびゲノムを詳細かつ包括的に分析することを可能にし、したがって、ディープシーケンシング（ｄｅｅｐｓｅｑｕｅｎｃｉｎｇ）とも呼ばれる。例えば、本出願の方法は、第１世代遺伝子シーケンシング、第２世代遺伝子シーケンシング、第３世代遺伝子シーケンシングまたは単一分子シーケンシング（ＳＭＳ）にも適用することができる。

【0012】

本出願において、「データベース」という用語は、一般に、データまたは組織化された実体が表現される方法に関係なく、関連データの組織化された実体を指す。例えば、前記関連データの組織化された実体は、表、マップ、グリッド、グループ、データグラム、ファイル、文書、リスト、またはその他の形態をとることができる。本出願においては、前記データベースは、コンピュータがアクセス可能な方法で収集され保存されるあらゆるデータを含むことができる。

【0013】

本出願において、「計算モジュール」という用語は、一般に、計算のための機能モジュールを指す。当該計算モジュールは、入力値に基づいて出力値を計算し、結論や結果を得たりしてもよく、例えば、計算モジュールは主に出力値を計算するために使用されてもよい。計算モジュールは、電子計算機のプロセッサ、プロセッサを備えたコンピュータや電子機器、コンピュータネットワークなどの有形のものであってもよいし、電子媒体に保存されたプログラム、コマンドライン、ソフトウェアパッケージであってもよい。

【0014】

本出願において、「処理モジュール」という用語は、一般に、データ処理のための機能モジュールを指す。当該処理モジュールは、入力値を統計的に有意なデータに処理してもよく、例えば、入力値のデータの分類であってもよい。処理モジュールは、例えば、データを保存するための電子媒体や磁気媒体、電子計算機のプロセッサ、プロセッサを備えたコンピュータや電子機器、コンピュータネットワークなどの有形のものであってもよく、電子媒体に保存されたプログラム、コマンドライン、ソフトウェアパッケージであってもよい。

【0015】

本出願において、「判定モジュール」という用語は、一般に、関連する判定結果を得るための機能モジュールを指す。本出願において、前記判定モジュールは、入力値に基づいて出力値を計算し、結論や結果を得たりしてもよく、例えば、判定モジュールは、結論や結果を得るために主に使用されてもよい。判定モジュールは、電子計算機のプロセッサ、プロセッサを備えたコンピュータや電子機器、コンピュータネットワークなどの有形のものであってもよいし、電子媒体に保存されたプログラム、コマンドライン、ソフトウェアパッケージであってもよい。

【0016】

本出願において、「試料取得モジュール」という用語は、一般に、被験者から前記試料を取得するための機能モジュールを指す。例えば、前記試料取得モジュールは、前記試料（例えば、組織試料、血液試料、唾液、胸水、腹膜液、脳脊髄液など）を取得するために必要な試薬および／または機器を含んでよい。例えば、採血針、採血管および／または血液試料輸送ボックスが含まれ得る。例えば、本出願の装置は、前記試料取得モジュールを含まないか、または１つまたは複数含んでいてもよく、任意選択で、本出願に記載の試料の測定値を出力する機能を有していてもよい。

【0017】

本出願において、用語「受信モジュール」は、一般に、前記試料中の前記測定値を取得するための機能モジュールを指す。本出願において、前記受信モジュールは、本出願に記載の試料（例えば、組織試料、血液試料、唾液、胸水、腹膜液、脳脊髄液など）を入力してもよい。本出願において、前記受信モジュールは、本出願に記載の試料（例えば、組織試料、血液試料、唾液、胸水、腹水、脳脊髄液など）の測定値を入力してもよい。前記受信モジュールは、前記試料の状態を検出してもよい。例えば、前記データ受信モジュールは、任意選択で、前記試料に対して本出願に記載の遺伝子シーケンシング（例えば、第２世代遺伝子シーケンシング）を実行してもよい。例えば、前記データ受信モジュールは、任意選択で、前記遺伝子シーケンシングを実行するのに必要な試薬および／または機器を含んでもよい。前記データ受信モジュールは、任意選択で、シーケンシング深さ、シーケンシングリード長の計数、またはコピー数を検出することができる。

【0018】

本出願において、「コピー数変異」という用語は、一般に、標的区間、標的遺伝子、または標的遺伝子中の標的区間のコピー数の増幅または欠失を指す。例えば、本出願で提供されるコピー数変異の分析方法は、治療目的または診断目的であってもよい。例えば、本出願で提供されるコピー数変異の分析方法は、シーケンシング結果によってコピー数変異が存在するか否かを決定するような、非治療目的または診断目的のために使用されてもよい。

【0019】

本出願において、「スライディングウィンドウ法」という用語は、一般に、ウィンドウ領域を分割する方法を指し、例えば、同じまたは異なるウィンドウ領域の長さによって、全長領域を幾つかのウィンドウに分割することができる。例えば、同じまたは異なるステップ長によって全長領域を幾つかのウィンドウに分割することができる。例えば、同じウィンドウ領域長さ、且つ同じステップ長によって全長領域を幾つかのウィンドウに分割することができる。

【0020】

本出願において、「品質合格試料」という用語は、一般に、品質管理基準に合格する試料を指す。例えば、品質合格試料は、平均シーケンシング深さ、最小シーケンシング深さ、および／またはカバレッジ均一性が合格する試料を指すことができる。例えば、平均シーケンシング深さが合格するとは、平均シーケンシング深さが約１００倍以上である試料を指すことができる。例えば、最小シーケンシング深さ合格試料は、シーケンシング深さが約３０倍以上である試料を指すことができる。例えば、カバレッジ均一性合格試料は、試料の平均シーケンシング深さの２０％以上の塩基数が、試料中の総塩基数に占める割合が約９０％以上である試料を指すことがある。

【0021】

本出願において、「不合格標的区間」という用語は、一般に、シーケンシング品質が低い区間を指す。例えば、不合格区間は、コピー数変異の分析における使用に適さないことがある。例えば、不合格区間は参照またはベースライン構築において不適当であることがある。場合によっては、不合格区間を除外することで検出結果の精度を向上させることができる。他の場合では、不合格区間をスクリーニングしなくても、ある程度の精度の検出結果を得ることができる。例えば、不合格区間とは、シーケンシング深さが低い区間を指すことがあり、例えば、不合格区間とは、当該区間が試料ごとに大きく異なる区間を指すことがある。

【0022】

本出願において、「捕捉効率の低い区間」という用語は、一般に、使用されるプローブによって捕捉されにくい区間を指す。例えば、ある区間内の配列は、その区間内に特定の配列の組み合わせがある場合、核酸プローブによって捕捉されにくい可能性がある。例えば、捕捉効率の低い区間は、シーケンシング深さが低い区間を指すことができる。例えば、捕捉効率が低い区間は、シーケンシングリード長の計数が約５以下である区間を指すことができる。

【0023】

本出願において、「不安定区間」という用語は、一般に、シーケンシング結果が試料ごとに大きく異なる区間を指す。例えば、同一の試料の複数回のシーケンシング結果にわたって結果が大きく変動する区間であってもよい。例えば、異なる試料の同じバッチ内でシーケンシング結果が大きく異なる区間であってもよい。例えば、異なる試料の異なるバッチ間でシーケンシング結果が大きく異なる区間であってもよい。例えば、異なる参照試料においてシーケンシング結果が大きく異なる区間であってもよい。例えば、不安定区間を決定する方法は、異なる試料にわたるある区間のシーケンシング深さの標準偏差の平均に対する比を計算し、その比がある閾値より大きいかどうかを決定する方法で、例えば、閾値は０．８であってもよいか、または実際のシーケンシングに基づいて当業者によって調整されてもよい。

【0024】

本出願において、「被検試料」という用語は、一般に、試料上の１つまたは複数の遺伝子領域にコピー数変異が存在するか否かを決定するために検出される試料を指す。例えば、被検試料またはそのデータは、検出前に記憶装置に保存することができる。

【0025】

本出願において、「ヒト参照ゲノム」という用語は、一般に、遺伝子シーケンシングにおいて参照機能を果たすことができるヒトゲノムを指す。前記ヒト参照ゲノムに関する情報は、ＵＣＳＣ（ＵｎｉｖｅｒｓｉｔｙｏｆＣａｌｉｆｏｒｎｉａ，ＳａｎｔａＣｒｕｚ）を参照することができる。前記ヒト参照ゲノムは、異なるバージョン、例えば、ｈｇ１９、ＧＲＣＨ３７またはｅｎｓｅｍｂｌ７５として入手可能である。

【0026】

本出願において、「ＧＣ含有量」という用語は、一般に、遺伝子配列（塩基配列）中のグアニンＧとシトシンＣの、配列に含まれる全ヌクレオチドに対する比率を指す。

【0027】

本出願において、「標的シーケンシングパネル」または「パネル」という用語は、一般に、検出対象のグループ／セットを指す。例えば、シーケンシングの過程で、１つまたは複数の標的区間が１つまたは複数のプローブを設計することによって捕捉および検出され、このような１つまたは複数のプローブは、標的シーケンシングパネルを形成し得る。例えば、標的シーケンシングパネルは、標的遺伝子、標的区間、または関心領域、例えばいくつのエキソン領域についても任意選択で設計することができる。例えば、プローブは、研究において標的区間のオリゴヌクレオチドまたは標的核酸と相補的なオリゴヌクレオチドを指すことができる。例えば、標的区間はプローブのターゲットとして設計された区間である。

【0028】

本出願において、「シーケンシング深さ」という用語は、一般に、特定の領域（例えば、特定の遺伝子、特定の区間、特定の塩基）が検出された回数を指す。シーケンシング深さは、シーケンシングによって検出された塩基の配列を指すことができる。例えば、シーケンシング深さをヒト参照ゲノムと比較し、任意選択で重複除去することにより、特定の遺伝子、特定の区間、または特定の塩基位置におけるシーケンシングリード長の数を決定、計数することができ、これをシーケンシング深さとすることができる。場合によっては、シーケンシング深さは、シーケンシング深さに関連し得る。例えば、シーケンシング深さはコピー数状態に影響されてもよい。

【0029】

本出願において、「シーケンシングデータ」という用語は、一般に、シーケンシングにより得られる短い配列のデータをいう。例えば、シーケンシングデータには、シーケンシングされた短い配列の塩基配列（シーケンシングリード長）、シーケンシングリード長の数などが含まれる。

【0030】

本出願において、「シーケンシングバイアス」という用語は、一般に、異なる区間によって生成されたシーケンシングデータにおけるバイアスを指す。例えば、区間内の配列の特定の並べ方または塩基比は、その区間で計数されるリード長に影響を及ぼし得る。例えば、ある区間がＧＣ含有量を高くまたは低く含む場合、その区間のシーケンシングリード長の計数は、ＧＣ含有量が５０％に近い区間と比較してバイアスする可能性がある。

【0031】

本出願において、「分布類似度」という用語は、２組のデータ間の分布類似程度を指すことができる。例えば、本出願における分布類似度は、１つまたは複数の区間にわたる参照試料群および被検試料のシーケンシングリード長の計数の間の類似度を指すことができる。

【0032】

本出願において、「統計距離」という用語は、２つのデータグループのデータ値間の距離を指すことができる。例えば、本出願における統計距離は、１つまたは複数の区間にわたる、参照試料群と被検試料のシーケンシングリード長の計数の差の統計量であってもよい。例えば、統計距離は、ユークリッド距離、チェビシェフ距離、マハラノビス距離などによって計算されてもよい。

【0033】

本出願において、「統計値」という用語は、試料のデータ値から算出される分析値を指すことができる。例えば、本出願における統計値とは、平均値、分散値、標準偏差、中央値、複数値などを指すことができる。当業者は、データを分析するための１つまたは複数の統計値を適宜選択する。

【0034】

本出願において、「確率分布」という用語は、一般に確率変数の値の分布を指す。例えば、確率分布は、それが属する確率変数の種類に応じて異なる形式をとることができる。例えば、確率変数の確率分布として正規分布を使用することができる。

【0035】

本出願において、「平滑化」という用語は、一般に、本出願に記載の差分の間の偏差を減少させるデータ処理方法を指す。例えば、散乱したデータを平滑化された直線に当てはめる方法を指すことができる。例えば、局所加重回帰方法によって分析して平滑化処理することができる。例えば、平滑化処理後、試料シーケンシングデータに対する変数（例えば、ＧＣ含有量）により引き起こされるバイアスは、試料シーケンシングデータに対するその変数（例えば、ＧＣ含有量）の固有の影響を除去することにより、除去または減衰されてもよい。例えば、前記平滑化処理は、本出願の明細書に記載される差分の一定数の平均を得ることを含んでもよい。例えば、前記平滑化処理は、ある区間長に基づいて異なる長さに対応するデータ値を選択し、異なるデータ値間の差分を計算することを含んでもよい。例えば、前記平滑化処理は、ある長さ範囲内の前記差分値の累積値を再び区間長で割って比率値を得ることを含んでもよい。例えば、前記比率は、その長さ範囲における前記差分値の平均差分とみなすことができる。

【0036】

本出願において、「回帰」という用語は、一般に、変数間の関係を統計的に分析する方法を指す。例えば、本出願は、回帰分析によって、試料のシーケンシングデータとある変数（例えば、ＧＣ含有量）との間の線形または非線形の関係を導出することができる。例えば、試料のシーケンシングデータとある変数（例えば、ＧＣ含有量）との間の関係は、局所加重回帰によって得ることができ、その試料のシーケンシングデータは、この関係によって調整／補正することができる。例えば、本出願の補正は、試料のシーケンシングデータと特定の変数との関係に基づいて、その試料のシーケンシングデータにその変数によって引き起こされるバイアスを除去または減衰させるために、試料のシーケンシングデータを処理することを指すことができる。

【0037】

本出願において、「局所加重回帰」という用語は、一般に、入力変数とターゲット変数の回帰分析において、局所的に重みが導入される回帰分析の方法を意味する。例えば、局所加重回帰は、アルゴリズム（ｌｏｅｓｓ（Ｘ～Ｙ））によって、Ｘの回帰分析をＹに従って局所的に重み付けすることによって分析され、処理される。

【0038】

本出願において、「ノイズ除去」という用語は、一般に、データからノイズデータを除去または低減することを指す。例えば、ノイズデータは一般的に高周波信号として現れるという事実に基づいて、変換分析、主成分分析アルゴリズム、特異値分解および／またはガウシアンフィルタリングなどの方法によって有用な信号を抽出することにより、ノイズを含むデータをノイズ除去することができる。

【0039】

本出願において、「クラスター分析」という用語は、一般に、同じ群のメンバーが幾つかの類似した属性を共有するように、類似したオブジェクトを群に分類することを指す。

【0040】

本出願において、「Ｋ平均クラスタリング」という用語は、一般にクラスター分析の方法を指す。例えば、Ｋ平均クラスタリングは、Ｋ個のクラスタリング中心に基づいて、１組のデータを複数（Ｋ個）のカテゴリーに分類することができるクラスター分析の方法であり、個々のデータは、その最も近いクラスタリング中心からの距離の合計が最小である。

【0041】

本出願において、「変換分析」という用語は、一般に、データを分析する方法を指す。例えば、変換分析は、データの元の分布を、解を容易に求めるかまたは容易に処理することができる変換領域の分布に変換することによって、データを分析し、さらなる処理に使用することができる。例えば、変換分析は、離散ウェーブレット変換を含むことができる。

【0042】

本出願において、「離散ウェーブレット変換」という用語は、一般に、基本ウェーブレットのスケールと並進を離散させることを指す。例えば、離散ウェーブレット変換は、ノイズ除去の方法として使用することができる。

【0043】

本出願において、「標準化」または「正規化」という用語は、一般に、データを変換する方法を指す。例えば、標準化とは、異なる組のデータを一定の範囲に変換するプロセスを指すことができる。例えば、標準化とは、異なる組のデータを同一中央値に変換するプロセスを指すこともある。例えば、本出願の標準化は、異なる試料のシーケンシングデータを近いレベルの中央値を持つデータに変換するプロセスを指すことができる。

【0044】

本出願において、「有意性検定」という用語は、一般に、試料と仮想的な分布との間の差が有意であるかどうかを判定する方法を指す。例えば、有意性検定は、被検試料のコピー数変異が有意であるかどうかを判定するために用いることができる。

【0045】

本出願において、「正規確率分布」という用語は、一般に、確率変数の確率分布を指す。例えば、確率変数の発生確率は、正規確率分布および正規確率分布密度関数によって決定することができる。例えば、被検試料の標的区間のコピー数変異の存在の確率は、参照試料群のシーケンシングデータに基づいて、正規確率分布によって確認することができる。

【0046】

本出願において、「グラブス検定」という用語は、一般に、外れ値を判定および／または選別する方法を指す。例えば、ある値が外れ値であるかどうかは、その値が全体的な分布範囲に適合するかどうかを判定することによって決定することができる。

【0047】

本出願において、「ｔ検定」という用語は、一般に、スチューデントのｔ分布を用いた統計的仮説検定の一形態を指す。例えば、ｔ検定は、被検試料中の標的遺伝子のコピー数変異の有意性を確認する。

【0048】

本出願において、「含む」という用語は、一般に、明確に指定された特徴を含むことを意味するが、他の要素を排除することを意味しない。

【0049】

本出願において、「約」という用語は、一般的に、指定された値の±０．５～１０％の範囲内で変動することを意味し、例えば、指定された値の±０．５％、±１％、±１．５％、±２％、±２．５％、±３％、±３．５％、±４％、±４．５％、±５％、±５．５％、±６％、±６．５％、±７％、±７．５％、±８％、±８．５％、±９％、±９．５％、または±１０％である。

【0050】

発明を実施するための形態
一態様では、本出願は、コピー数状態の分析方法を提供する。

【0051】

一態様では、本出願は、被検試料群のシーケンシングデータを取得するステップと、前記被検試料群のシーケンシングデータに基づいて、前記被検試料中の標的遺伝子のコピー数状態を決定するステップとを含んでもよいコピー数状態の分析方法を提供する。

【0052】

【0053】

一態様では、本出願は、
（Ｓ１）前記標的遺伝子が存在する領域を幾つかのウィンドウ領域に分割し、前記被検試料群におけるコントロールウィンドウ領域のシーケンシングデータを取得するステップと、
（Ｓ２）前記コントロールウィンドウ領域のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定し、前記品質合格試料のウィンドウ領域を前記カバレッジ変動レベルの昇順に並べるステップであって、前記コントロールウィンドウ領域は、カバレッジ変動レベルの先頭４つ以上の前記ウィンドウを含んでもよく、前記カバレッジ変動レベルは、前記品質合格試料のウィンドウ領域のシーケンシングデータの中央絶対偏差と中央値との比に基づいて決められてもよく、または前記コントロールウィンドウ領域のすべての前記品質合格試料の前記シーケンシングデータの中央絶対偏差と中央値との比が約０．１５以下であってもよいステップと、を含む、コピー数状態の分析方法を提供する。

【0054】

一態様では、本出願は、以下のステップを含んでもよいコピー数状態の分析方法を提供する。
（Ｓ１）ステップ（Ｓ１－１）：前記被検試料群の全試料のウィンドウ領域のシーケンシングデータを取得する。ステップ（Ｓ１－２）：前記被検試料群における品質合格試料を取得し、前記品質合格試料は、平均シーケンシング深さ、最小シーケンシング深さおよび／またはカバレッジ均一性について合格である試料を含んでもよい。ステップ（Ｓ１－３）：前記被検試料群の全試料のウィンドウ領域の前記シーケンシングデータを標準化する。
（Ｓ２）前記コントロールウィンドウ領域のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定し、前記品質合格試料のウィンドウ領域を前記カバレッジ変動レベルの昇順に並べ、前記コントロールウィンドウ領域は、前記カバレッジ変動レベルの先頭４つ以上の前記ウィンドウを含んでもよく、前記カバレッジ変動レベルは、前記品質合格試料のウィンドウ領域のシーケンシングデータの中央絶対偏差と中央値との比に基づいて決められてもよく、または前記コントロールウィンドウ領域のすべての前記品質合格試料の前記シーケンシングデータの中央絶対偏差と中央値との比が約０．１５以下であってもよい。ステップ（Ｓ２－１）：前記コントロールウィンドウ領域のシーケンシングデータに基づいて、正規化係数を決定する。ステップ（Ｓ２－２）：前記正規化係数に基づいて被検試料の各ウィンドウ領域のコピー数を決定する。ステップ（Ｓ２－３）：被検試料の各ウィンドウ領域のシーケンシングデータと、対応するウィンドウ領域の被検試料群における他の試料のシーケンシングデータに基づいて、被検試料のコピー数変異の有意性を決定する。

【0055】

例えば、前記シーケンシングデータは、シーケンシング深さを含んでもよい。例えば、前記コピー数状態は、コピー数の増幅および／または欠失を含んでもよい。例えば、前記コピー数状態は、エキソンコピー数状態を含んでもよい。

【0056】

例えば、前記被検試料は、約１０以上の試料を含んでもよい。例えば、前記被検試料は、約１０以上、約１２以上、約１５以上、約２０以上、約２５以上、約５０以上、または約１００以上の試料を含んでもよい。例えば、本出願は、同じバッチにおいて、より多い数の試料を必要としなくてもよい。例えば、前記被検試料群は、約１０以下、約１２以下、約１５以下、約２０以下、約２５以下、または約５０以下の試料を含んでもよい。例えば、本出願のコピー数状態の分析方法は、被検試料のコピー数変異レベルに対して高い許容度を有することができる。例えば、約３０％のコピー数変異を含む試料は、本出願の分析方法により評価することができる。例えば、１０％以下、１５％以下、２０％以下、２５％以下、あるいは３０％以下のコピー数変異を含む試料は、本出願の分析方法により評価することができる。例えば、本出願の試料の供給源は、組織、血液、唾液、胸水、腹膜液、脳脊髄液など、核酸を有する任意の試料であってもよい。

【0057】

例えば、本出願の方法に記載のステップ（Ｓ１）は、さらに、前記被検試料群における全試料のウィンドウ領域のシーケンシングデータを取得するステップ（Ｓ１－１）を含んでもよい。例えば、本出願の遺伝子シーケンシングは、任意のハイスループットシーケンシング方法またはモジュールまたは装置を含んでもよい。例えば、シーケンシングは、Ｓｏｌｅｘａシーケンシング技術、４５４シーケンシング技術、ＳＯＬｉＤシーケンシング技術、ＣｏｍｐｌｅｔｅＧｅｎｏｍｉｃｓシーケンシング法、および半導体（ＩｏｎＴｏｒｒｅｎｔ）シーケンシング技術、ならびにそれらの対応する装置から選択されてもよい。

【0058】

例えば、本出願の方法に記載のステップ（Ｓ１－１）は、前記標的遺伝子が存在する領域をスライディングウィンドウ法により前記ウィンドウ領域に分割するステップを含んでもよい。例えば、前記スライディングウィンドウ法のステップ長は、約２４塩基であってもよい。例えば、前記ウィンドウ領域の長さは約１２０塩基であってもよい。

【0059】

例えば、本出願の方法に記載のステップ（Ｓ１－１）は、重複するシーケンシングされた断片を除去した後に、各前記ウィンドウ領域の平均シーケンシング深さを求めるステップを含んでもよい。

【0060】

例えば、本出願の方法に記載のステップ（Ｓ１）は、さらに、前記被検試料群の中から品質合格試料を取得するステップ（Ｓ１－２）を含んでもよく、前記品質合格試料は、平均シーケンシング深さ、最小シーケンシング深さ、および／またはカバレッジ均一性がすべて合格である試料を含んでもよい。例えば、前記平均シーケンシング深さ合格試料は、約１００倍以上の平均シーケンシング深さを有する試料を含んでもよい。例えば、前記最小シーケンシング深さ合格試料は、約３０倍以上の最小シーケンシング深さを有する試料を含んでもよい。例えば、品質合格の個々の閾値は、シーケンシングに基づいて調整されてもよい。

【0061】

例えば、前記カバレッジ均一性は、前記試料の各塩基のシーケンシング深さに関係することができる。例えば、前記カバレッジ均一性は、前記試料の塩基の総数に占める、前記試料の平均シーケンシング深さの２０％以上の塩基の数の割合によって計算される。例えば、前記カバレッジ均一性合格試料は、約９０％以上のカバレッジ均一性を有する試料を含んでもよい。例えば、前記カバレッジ均一性合格試料は、カバレッジ均一性が約９０％以上、約９２％以上、約９５％以上、約９７％以上、または約９９％以上の試料を含んでもよい。

【0062】

例えば、前記被検試料群における品質合格試料の数は、１０以上であってもよい。

【0063】

例えば、本出願の方法に記載のステップ（Ｓ１）は、さらに、前記被検試料群におけるすべての試料のウィンドウ領域の前記シーケンシングデータを標準化するステップ（Ｓ１－３）をさらに含んでもよい。

【0064】

例えば、前記標準化は、前記試料のすべてのウィンドウ領域の平均シーケンシング深さに基づいて、前記試料の各ウィンドウ領域の前記シーケンシングデータを標準化すること、および／または前記試料の各ウィンドウ領域のＧＣ含有量に基づいて、前記試料の各ウィンドウ領域の前記シーケンシングデータを標準化することを含んでもよい。

【0065】

例えば、前記標準化は、前記試料の各ウィンドウ領域における前記シーケンシングデータを、前記試料の全ウィンドウ領域における前記シーケンシングデータの合計で割り、さらに因子を乗じたものを含んでもよい。例えば、前記因子は、すべての区間のサイズに基づいて設定されてもよい。例えば、前記因子は、任意選択で、１Ｅ＋０７であってもよい。例えば、前記因子は、任意選択で、１Ｅ＋１００、１Ｅ＋２０、１Ｅ＋１０、１Ｅ＋０９、１Ｅ＋０８、１Ｅ＋０７、１Ｅ＋０６、１Ｅ＋０５、１Ｅ＋０４、１Ｅ＋０３、または１Ｅ＋０２であってもよい。

【0066】

例えば、前記標準化は、ＧＣ含有量に基づいて、回帰によって、前記試料の各ウィンドウ領域の前記シーケンシングデータを標準化することを含んでもよい。例えば、前記回帰は、局所加重回帰を含んでもよい。

【0067】

例えば、前記コントロールウィンドウ領域は、カバレッジ変動レベルの低いウィンドウ領域を含んでもよい。

【0068】

例えば、前記カバレッジ変動レベルは、前記品質合格試料のウィンドウ領域のシーケンシングデータの統計値に基づいて決定されてもよい。例えば、前記カバレッジ変動レベルは、前記品質合格試料のウィンドウ領域のシーケンシングデータの偏差に基づいて決定されてもよい。例えば、前記カバレッジ変動レベルは、前記品質合格試料のウィンドウ領域のシーケンシングデータの中央値絶対偏差および／または中央値に基づいて決定されてもよい。例えば、前記カバレッジ変動レベルは、前記品質合格試料のウィンドウ領域についてのシーケンシングデータの絶対偏差中央値と中央値との比に基づいて決定されてもよい。

【0069】

例えば、前記品質合格試料のウィンドウ領域は、前記カバレッジ変動レベルの昇順に並べられ、前記コントロールウィンドウ領域は、前記カバレッジ変動レベルの先頭２つ以上の前記ウィンドウを含んでもよい。

【0070】

例えば、前記品質合格試料のウィンドウ領域は、前記カバレッジ変動レベルの昇順に並べられ、前記コントロールウィンドウ領域は、前記カバレッジ変動レベルの先頭４つ以上の前記ウィンドウを含んでもよい。

【0071】

例えば、前記コントロールウィンドウ領域のすべての前記品質合格試料の前記シーケンシングデータの中央絶対偏差と中央値との比は、約０．１５以下であってもよい。例えば、前記コントロールウィンドウ領域のすべての前記品質合格試料の前記シーケンシングデータの絶対偏差中央値と中央値との比は、約０．１５以下、約０．１４以下、約０．１３以下、約０．１２以下、約０．１１以下、約０．１０以下、約０．０９以下、約０．０８以下、約０．０７以下、約０．０６以下、または約０．０５以下であってもよい。例えば、前記コントロールウィンドウ領域内のすべての前記品質合格試料の前記シーケンシングデータの中央絶対偏差と中央値との比は、約０．０５～約０．１５、約０．０７～約０．１５、約０．１０～約０．１５、約０．１２～約０．１５、約０．０５～約０．１２、約０．０７～約０．１２、約０．１０～約０．１２、約０．０５～約０．１０、約０．０７～約０．１０、または約０．０５～約０．０７であってもよい。

【0072】

例えば、本出願に記載のステップ（Ｓ２）は、前記コントロールウィンドウ領域のシーケンシングデータに基づいて正規化係数を決定するステップ（Ｓ２－１）をさらに含んでもよい。

【0073】

例えば、前記正規化係数は、前記コントロールウィンドウ領域内のすべての前記品質合格試料のシーケンシングデータの平均値を計算することによって決定されてもよい。

【0074】

例えば、前記正規化係数を決定する前に、前記コントロールウィンドウ領域における異常試料のカバレッジレベル値を除外することができる。例えば、前記異常カバレッジレベル値は、各前記コントロールウィンドウ領域について、外れ値分析方法により異常試料と判定されたカバレッジレベル値であってもよい。例えば、前記外れ値分析方法は、グラブス検定（Ｇｒｕｂｂｓｔｅｓｔ）を含んでもよい。例えば、各ウィンドウには、そのウィンドウにおけるバッチ内の品質合格試料のカバレッジレベル値が含まれていてもよく、その後、グラブス検定を使用して、それらのカバレッジレベル値に外れ値が含まれているか否かを判定し、含まれている場合には、その外れ値を除去してもよい。そして残りのカバレッジレベル値について、グラブス検定を、外れ値が出現しなくなるまで、異常があるかどうかを判定するために繰り返し続けることができる。例えば、残りのカバレッジレベル値の数が、品質合格試料数の６０％以下、５０％以下、あるいは４０％以下であるときに、外れ値の除去を停止することも可能であり、残りの値は、前記正規化係数を決定するために使用することができる。

【0075】

例えば、前記異常試料を除外した後の残りの試料数は、除外前の試料数の４０％以上、７０％以上、８０％以上、９０％以上、９５％以上、あるいは９９％以上であってもよい。

【0076】

例えば、本出願に記載のステップ（Ｓ２）は、さらに、前記正規化係数に基づいて、被検試料の各ウィンドウ領域のコピー数を決定するステップ（Ｓ２－２）を含んでもよい。

【0077】

例えば、本出願に記載のステップ（Ｓ２－２）は、前記正規化係数に基づいて、前記被検試料の各ウィンドウ領域の前記シーケンシングデータを正規化することにより、前記被検試料の各ウィンドウ領域の前記コピー数を決定することを含んでもよい。

【0078】

例えば、前記正規化方法は、前記ウィンドウ領域の被検試料のシーケンシングデータを、前記ウィンドウ領域の正規化係数で割り、プロイディを乗じることを含んでもよい。例えば、男性のＸ染色体の場合、前記プロイディは１であってもよい。被験者が倍数体の場合、前記プロイディはケースバイケースで調整されてもよい。例えば、２倍体とする。

【0079】

例えば、本出願に記載のステップ（Ｓ２）は、さらに、被検試料の各ウィンドウ領域のシーケンシングデータと、対応するウィンドウ領域の被検試料群における他の試料のシーケンシングデータとに基づいて、被検試料のコピー数変異の有意性を決定するステップ（Ｓ２－３）を含んでもよい。

【0080】

例えば、本出願に記載のステップ（Ｓ２－３）は、被検試料の各ウィンドウ領域の前記コピー数に基づいてコピー数変異候補領域を決定することを含んでもよい。

【0081】

例えば、前記コピー数変異候補領域は、領域分割によって決定されてもよい。例えば、前記領域分割は、サイクリックバイナリセグメンテーションアルゴリズムによって前記コピー数変異候補領域の前端点および後端点を決定することを含んでもよい。

【0082】

例えば、本出願に記載のステップ（Ｓ２－３）は、被検試料の前記コピー数変異候補領域におけるウィンドウ領域のシーケンシングデータと、対応するウィンドウ領域の被検試料群における他の試料のシーケンシングデータとに基づいて、コピー数変異の有意性を決定することを含んでもよい。例えば、前記コピー数変異の有意性は、有意性検定によって決定されてもよい。例えば、前記有意性検定は、ｔ検定を含んでもよい。

【0083】

一態様では、本出願は、コピー数状態の分析装置も提供し、このコピー数状態の分析装置は、被検試料群のシーケンシングデータを取得する受信モジュールと、被検試料中の標的遺伝子を決定する決定モジュールと、前記被検試料群のシーケンシングデータに基づいて、前記被検試料中の標的遺伝子のコピー数状態を決定する判定モジュールと、を含んでもよい。

【0084】

例えば、本出願のコピー数状態の分析装置では、前記モジュールは、前記記憶媒体に記載されたプログラムに基づいて、本出願に記載のコピー数状態の分析方法を実行するように構成されていてもよい。

【0085】

コピー数状態の分析方法
一態様では、本出願は、コピー数状態の分析方法を提供し、この方法は、（Ｓ１）：被検試料のシーケンシングデータおよび／または複数の参照試料のシーケンシングデータを取得するステップと、（Ｓ２）：前記参照試料を２つ以上の参照試料群に分けるステップと、（Ｓ３）：前記被検試料に最も近い参照試料群を決定するステップと、（Ｓ４）：前記被検試料に最も近い参照試料群のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定するステップと、を含んでもよい。

【0086】

一態様では、本出願は、コピー数状態の分析装置を提供し、この装置は、（Ｍ１）被検試料のシーケンシングデータおよび／または複数の参照試料のシーケンシングデータを取得する受信モジュールと、（Ｍ２）前記参照試料を２つ以上の参照試料群に分ける処理モジュールと、（Ｍ３）前記被検試料に最も近い参照試料群を決定する計算モジュールと、（Ｍ４）：前記被検試料に最も近い参照試料群のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定する判定モジュールと、を含んでもよい。

【0087】

一態様では、本出願は、コピー数状態の分析方法を提供し、この方法は、以下のステップを含んでもよい。
（Ｓ１）被検試料のシーケンシングデータおよび／または複数の参照試料のシーケンシングデータを取得する。ステップ（Ｓ１－１）：遺伝子シーケンシングにより前記被検試料および／または前記参照試料の前記シーケンシングデータを取得する。ステップ（Ｓ１－２）：前記被検試料および／または参照試料の前記シーケンシングデータを補正する。
（Ｓ２）前記参照試料を２つ以上の参照試料群に分ける。ステップ（Ｓ２－１）：前記参照試料を群分けする。ステップ（Ｓ２－２）：前記参照試料群の前記シーケンシングデータの統計値を決定する。
（Ｓ３）前記被検試料に最も近い参照試料群を決定する。
（Ｓ４）被検試料に最も近い前記参照試料群のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定する。ステップ（Ｓ４－１）：前記標的区間ｉにおける前記被検試料の標的遺伝子のコピー数ＣＮ_ｉを決定する。ステップ（Ｓ４－３）：標的遺伝子における前記被検試料のコピー数ＣＮ_ｇを決定する。ステップ（Ｓ４－４）：前記標的区間における被検試料のコピー数変異の存在の確率を決定する。ステップ（Ｓ４－５）：前記標的遺伝子における前記被検試料の有意なコピー数の増幅または欠失の存在の割合のｓｉｇＲａｔｉｏを決定する。ステップ（Ｓ４－６）：前記標的遺伝子における前記被検試料のコピー数変異の存在に関する統計的検定パラメータｐを決定する。以下のことにより、前記被検試料の標的遺伝子のコピー数状態を決定する。ＣＮ_ｇ≧ＣＮ_ｔｈＡ、ｓｉｇＲａｔｉｏ≧ｓｉｇＲａｔｉｏ_ｔｈ、かつｐ_{ｔｔｅｓｔ}≦ｐ_ｔｈのとき、前記被検試料の標的遺伝子のコピー数増幅が発生したことを確認し、ＣＮ_ｇ≦ＣＮ_ｔｈＤ、ｓｉｇＲａｔｉｏ≧ｓｉｇＲａｔｉｏ_ｔｈ、かつｐ_{ｔｔｅｓｔ}≦ｐ_ｔｈのとき、前記被検試料の標的遺伝子のコピー数欠失が生じたことを確認し、ＣＮ_ｔｈＡ＜ＣＮ_ｇ＜ＣＮ_ｔｈＤ、または、ｓｉｇＲａｔｉｏ＜ｓｉｇＲａｔｉｏ_ｔｈ、または、ｐ_{ｔｔｅｓｔ}＞ｐ_ｔｈのとき、前記被検試料の標的遺伝子のコピー数が正常であることを確認し、ここで、ＣＮ_ｔｈＡ、ＣＮ_ｔｈＤ、ｓｉｇＲａｔｉｏ_ｔｈ、および、ｐ_ｔｈは、それぞれ、互いに独立して閾値として設定される。

【0088】

一態様では、本出願は、本出願のコピー数状態の分析方法を実施するモジュールを含んでもよいコピー数状態の分析装置を提供する。

【0089】

一態様では、本出願は、コピー数状態の分析方法を提供し、この方法は、以下のステップを含んでもよい。
（Ｓ１）被検試料のシーケンシングデータおよび／または複数の参照試料のシーケンシングデータを取得する。ステップ（Ｓ１－１）：遺伝子シーケンシングにより前記被検試料および／または前記参照試料の前記シーケンシングデータを取得する。ステップ（Ｓ１－２）：前記被検試料および／または前記参照試料の前記シーケンシングデータを補正する。
（Ｓ２）前記参照試料を２つ以上の参照試料群に分ける。ステップ（Ｓ２－１）：前記参照試料を群分けする。ステップ（Ｓ２－２）：前記参照試料群の前記シーケンシングデータの統計値を確認する。
（Ｓ３）前記被検試料に最も近い参照試料群を決定する。
（Ｓ４）被検試料に最も近い前記参照試料群のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を確認する。ステップ（Ｓ４－１）：前記標的区間ｉにおける前記被検試料の標的遺伝子のコピー数ＣＮ_ｉを決定する。ステップ（Ｓ４－２）：前記標的区間における前記被検試料のコピー数をノイズ除去する。ステップ（Ｓ４－３）：標的遺伝子における前記被検試料のコピー数ＣＮ_ｇを決定する。ステップ（Ｓ４－４）：前記標的区間における被検試料のコピー数変異の存在の確率を決定する。ステップ（Ｓ４－５）：前記標的遺伝子における前記被検試料の有意なコピー数の増幅または欠失の存在の割合ｓｉｇＲａｔｉｏを決定する。ステップ（Ｓ４－６）：前記標的遺伝子における前記被検試料のコピー数変異の存在の統計学的検定パラメータｐ_{ｔｔｅｓｔ}を決定する。以下のことにより、前記被検試料の標的遺伝子のコピー数状態を確認する。ＣＮ_ｇ≧ＣＮ_ｔｈＡ、ｓｉｇＲａｔｉｏ≧ｓｉｇＲａｔｉｏ_ｔｈ、かつｐ_{ｔｔｅｓｔ}≦ｐ_ｔｈのとき、前記被検試料の標的遺伝子のコピー数の増幅が発生したことを確認し、ＣＮ_ｇ≦ＣＮ_ｔｈＤ、ｓｉｇＲａｔｉｏ≧ｓｉｇＲａｔｉｏ_ｔｈ、かつｐ_{ｔｔｅｓｔ}≦ｐ_ｔｈのとき、前記被検試料の標的遺伝子にコピー数欠失が生じたことを確認し、ＣＮ_ｔｈＡ＜ＣＮ_ｇ＜ＣＮ_ｔｈＤ、または、ｓｉｇＲａｔｉｏ＜ｓｉｇＲａｔｉｏ_ｔｈ、または、ｐ_{ｔｔｅｓｔ}＞ｐ_ｔｈのとき、前記被検試料は、標的遺伝子のコピー数が正常であることを確認し、ここで、ＣＮ_ｔｈＡ、ＣＮ_ｔｈＤ、ｓｉｇＲａｔｉｏ_ｔｈ、および、ｐ_ｔｈは、それぞれ、互いに独立して、閾値として設定される。

【0090】

一態様では、本出願は、本出願のコピー数状態の分析方法を実施するモジュールを含んでもよいコピー数状態の分析装置を提供する。

【0091】

例えば、本出願のシーケンシングデータは、シーケンシングリード長の計数を含んでもよい。例えば、本出願のシーケンシングデータは、標的遺伝子または標的区間におけるシーケンシングリード長（ｒｅａｄ）の計数を含んでもよい。

【0092】

例えば、本出願の前記ステップ（Ｓ１）またはモジュール（Ｍ１）は、遺伝子シーケンシングによって前記被検試料および／または前記参照試料の前記シーケンシングデータを取得するステップ（Ｓ１－１）またはモジュール（Ｍ１－１）を含んでもよい。例えば、前記遺伝子シーケンシングは、第２世代遺伝子シーケンシング（ＮＧＳ）を含んでもよい。例えば、本出願の遺伝子シーケンシングは、任意のハイスループットシーケンシング方法またはモジュール、または装置を含んでもよい。例えば、前記シーケンシングは、Ｓｏｌｅｘａシーケンシング技術、４５４シーケンシング技術、ＳＯＬｉＤシーケンシング技術、ＣｏｍｐｌｅｔｅＧｅｎｏｍｉｃｓシーケンシング法、および半導体（ＩｏｎＴｏｒｒｅｎｔ）シーケンシング技術、ならびにそれらの対応する装置から選択されてもよい。

【0093】

例えば、前記被検試料および／または前記参照試料は、核酸を含む試料を含んでもよい。例えば、本出願の試料の供給源は、組織、血液、唾液、胸水、腹膜液、脳脊髄液など、核酸を含む任意の試料であってよい。

【0094】

例えば、前記ステップ（Ｓ１－１）またはモジュール（Ｍ１－１）は、前記被検試料および／または参照試料の標的区間内の各塩基の前記シーケンシングデータを取得することを含んでもよい。

【0095】

例えば、前記標的区間は、標的シーケンシングパネルの配列に対応する区間を含んでもよい。例えば、前記標的区間の長さは、約２０～約５００塩基の量であってもよい。例えば、前記標的間隔の長さは、約２０～約５００塩基の量、約５０～約５００塩基の量、約１００～約５００塩基の量、約２００～約５００塩基の量、約２０～約２００塩基の量、約５０～約２００塩基の量、約１００～約２００塩基の量、約２０～約１００塩基の量、約５０～約１００塩基の量、または約２０～約５０塩基の量であってもよい。

【0096】

例えば、前記標的区間の数は少なくとも約１００であってもよい。例えば、前記標的区間の数は、少なくとも約１００、少なくとも約２００、少なくとも約５００、少なくとも約１，０００、または少なくとも約１０，０００であってもよい。

【0097】

例えば、前記ステップ（Ｓ１）またはモジュール（Ｍ１）は、前記被検試料および／または参照試料の前記シーケンシングデータを補正するステップ（Ｓ１－２）またはモジュール（Ｍ１－２）を含んでもよい。例えば、本出願の方法はまた、ステップ（Ｓ１－２）を含まないか、またはステップ（Ｓ１－２）の一部のみを含んでもよい。例えば、本出願の装置は、モジュール（Ｍ１－２）を含まないか、またはモジュール（Ｍ１－２）の一部のみを含んでもよい。例えば、本出願の方法のステップ（Ｓ１－２）の以下のステップの順序は任意である。前記被検試料および／または参照試料の前記シーケンシングデータを標準化するステップ、前記被検試料および／または参照試料の前記シーケンシングデータを平滑化するステップ、およびＧＣ含有量が異常な前記標的区間を除外するステップ。例えば、本出願の装置のモジュール（Ｍ１－２）の以下のモジュールの順序は任意である。前記被検試料および／または参照試料の前記シーケンシングデータを標準化するモジュール、前記被検試料および／または参照試料の前記シーケンシングデータを平滑化するモジュール、および前記ＧＣ含有量が異常な前記標的区間を除外するモジュール。

【0098】

例えば、前記ステップ（Ｓ１－２）またはモジュール（Ｍ１－２）は、前記被検試料および／または参照試料の前記シーケンシングデータを標準化または均一化することを含んでもよい。例えば、前記標準化または均一化は、前記標的区間における前記シーケンシングデータを、前記標的区間に対応する試料の全ての標的区間における前記シーケンシングデータの合計で割り、因子を乗じることを含んでもよい。例えば、前記因子は、すべての区間のサイズに基づいて設定されてもよい。例えば、前記因子は、任意選択で、１Ｅ＋０７であってもよい。例えば、前記因子は、任意選択で、１Ｅ＋１００、１Ｅ＋２０、１Ｅ＋１０、１Ｅ＋０９、１Ｅ＋０８、１Ｅ＋０７、１Ｅ＋０６、１Ｅ＋０５、１Ｅ＋０４、１Ｅ＋０３、または１Ｅ＋０２であってもよい。

【0099】

例えば、前記ステップ（Ｓ１－２）またはモジュール（Ｍ１－２）は、前記被検試料および／または参照試料の前記シーケンシングデータを平滑化することを含んでもよい。例えば、前記平滑化は、シーケンシングバイアスに基づいて、回帰の方法またはその手順を記載した装置により、前記被検試料および／または参照試料の前記シーケンシングデータを平滑化することを含んでもよい。例えば、前記回帰は、局所加重回帰を含んでもよい。

【0100】

例えば、前記シーケンシングバイアスは、前記標的区間においてカバレッジされるプローブの数を含んでもよい。

【0101】

例えば、前記シーケンシングバイアスは、前記標的区間のＧＣ含有量を含んでもよい。

【0102】

例えば、前記ステップ（Ｓ１－２）またはモジュール（Ｍ１－２）は、任意選択で、ＧＣ含有量が異常な前記標的区間を除外することを含んでもよい。

【0103】

例えば、前記ＧＣ含有量が異常な前記標的区間は、ＧＣ含有量が約２５％以下の前記標的区間、および／またはＧＣ含有量が約７５％以上の前記標的区間を含んでもよい。

【0104】

例えば、前記ステップ（Ｓ２）またはモジュール（Ｍ２）は、前記参照試料を群分けするステップ（Ｓ２－１）またはモジュール（Ｍ２－１）を含んでもよい。例えば、前記参照試料は、前記被検試料から由来してもよいし、前記被検試料以外の試料から由来してもよい。例えば、前記被検試料の一部を参照試料として分割してもよい。例えば、前記参照試料は更新されてもよく、例えば、新たな試料のシーケンシングデータが分析されるたびに、その新たな試料のデータが既存のデータベースに追加され、データベース再確立プロセスが実行されてもよい。

【0105】

例えば、前記群分けは、前記標的区間の前記シーケンシングデータに基づいて前記参照試料を群分けすることを含んでもよい。

【0106】

例えば、前記群分けは、クラスター分析の方法またはその手順を記載した装置により、前記参照試料を群分けすることを含んでもよい。

【0107】

例えば、前記クラスター分析の方法は、Ｋ平均クラスタリング、階層クラスタリング、密度クラスタリング、グリッドクラスタリング、確率モデルクラスタリング、またはニューラルネットワークモデルクラスタリングを含んでもよい。例えば、前記クラスター分析の方法またはその手順を記載した装置は、クラスタリング、分類および群分けの方法またはその手順を記載した装置のいずれかを含んでもよい。

【0108】

例えば、前記参照試料の数は約３０以上であってもよい。例えば、前記参照試料の数は約５０以上であってもよい。例えば、前記参照試料の数は、約３０以上、約４０以上、約５０以上、約６０以上、約７０以上、約８０以上、約９０以上、約１００以上、約２００以上、約３００以上、約４００以上、約５００以上、または約１０００以上であってもよい。

【0109】

例えば、前記群分けは、約２群またはそれ以上への分け方を含んでもよい。例えば、すべての参照試料のシーケンシングデータがより類似している場合、それらは１つの群のみに分けられてもよい。例えば、前記群分けは、約２個以上、約３個以上、約４個以上、約５個以上、約６個以上、約７個以上、約８個以上、約９個以上、約１０個以上、約２０個以上、約３０個以上、約４０個以上、約５０個以上、約６０個以上、約７０個以上、約８０個以上、約９０個以上、または約１００個以上に分けることを含んでもよい。

【0110】

例えば、各群の前記参照試料の数は、約３０以上であってもよい。例えば、各群の参照試料の数は、約３０以上、約４０以上、約５０以上、約６０以上、約７０以上、約８０以上、約９０以上、約１００以上、約２００以上、約３００以上、約４００以上、約５００以上、または約１０００以上であってもよい。

【0111】

例えば、前記ステップ（Ｓ２）またはモジュール（Ｍ２）は、前記参照試料群の前記シーケンシングデータの統計値を確認するステップ（Ｓ２－２）またはモジュール（Ｍ２－２）を含んでもよい。例えば、前記参照試料群の前記シーケンシングデータの前記統計値は、それぞれの候補ベースラインとして提供されてもよい。例えば、前記統計値の確認は、前記標的区間における各群の前記参照試料の平均値および／または標準偏差を計算することを含んでもよい。

【0112】

例えば、前記ステップ（Ｓ２）またはモジュール（Ｍ２）は、前記参照試料における不合格標的区間を除外するステップ（Ｓ２－３）またはモジュール（Ｍ２－３）を含んでもよい。例えば、前記不合格標的区間は、捕捉非効率区間および／または不安定区間を含んでもよい。

【0113】

例えば、前記不合格標的区間は、シーケンシングリード長の計数が約５以下の標的区間を含んでもよい。例えば、前記不合格標的区間は、シーケンシングリード長の計数が約３０以下、約２０以下、約１０以下、約５以下、約４以下、約３以下、約２以下、約１以下、または約０以下の標的区間を含んでもよい。

【0114】

例えば、前記不合格標的区間は、約０．８以上の変動係数を有する標的区間を含んでもよく、前記変動係数は、前記標的区間における各群の前記参照試料の前記シーケンシングデータの標準偏差と平均値との比である。例えば、前記不合格標的区間は、約０．８以上、約０．９以上、または約１．０以上の変動係数を含んでもよい。例えば、捕捉非効率区間および／または不安定区間のそれぞれの閾値は、シーケンシングの状況に応じて調整されてもよい。

【0115】

例えば、前記ステップ（Ｓ３）またはモジュール（Ｍ３）は、前記被検試料と前記参照試料群との類似度を確認することを含んでもよい。

【0116】

例えば、前記類似度を確認することは、前記標的区間における前記参照試料群および前記被検試料の前記シーケンシングデータに基づいて、前記参照試料群と前記被検試料の分布類似度を確認することを含んでもよい。

【0117】

例えば、前記類似度は、前記標的区間における前記参照試料群と前記被検試料の前記シーケンシングデータとの近接度を含んでもよい。

【0118】

例えば、前記類似度の確認は、統計距離を計算する方法、類似度アルゴリズム、またはそのような手順を記載した装置により、前記参照試料群の分布と前記被検試料群の分布の類似度を確認することを含んでもよい。例えば、前記統計距離は、前記標的区間における前記参照試料群と前記被検試料の前記シーケンシングデータ間の差の統計値を含んでもよい。例えば、前記統計距離は、前記標的区間における前記参照試料群と前記被検試料の前記シーケンシングデータの差の絶対値の統計値を含んでもよい。例えば、前記統計距離は、前記標的区間における前記参照試料群と前記被検試料の前記シーケンシングデータの差の絶対値のｐ乗の統計値を含んでもよく、前記ｐは１以上である。例えば、前記統計値は、総和値を含んでもよい。

【0119】

例えば、前記高い類似度は、前記標的区間における前記参照試料群と前記被検試料との間の短い統計距離を含んでもよい。

【0120】

例えば、前記統計距離は、ミンコフスキー距離を含んでもよい。例えば、前記統計距離は、ヨーロピアン距離、マンハッタン距離、チェビシェフ距離、ミンコフスキー距離（ｐ＝１のとき、マンハッタン距離、ｐ＝２のとき、ヨーロピアン距離、ｐが無限大に近づくとき、チェビシェフ距離）などを含んでもよい。例えば、前記類似度アルゴリズムには、余弦類似度、ピアソンの相関係数、スピアマンの相関係数、対数尤度類似度、クロスエントロピーなどが含まれる。

【0121】

例えば、前記被検試料の標的遺伝子のコピー数状態は、前記被検試料の標的遺伝子のコピー数変異の存在および／または数を含んでもよい。

【0122】

例えば、前記コピー数変異は、コピー数の増幅および／または欠失を含んでもよい。

【0123】

例えば、前記ステップ（Ｓ４）またはモジュール（Ｍ４）は、前記標的区間ｉにおける前記被検試料の標的遺伝子のコピー数ＣＮ_ｉを決定するステップ（Ｓ４－１）またはモジュール（Ｍ４－１）を含んでもよい。

【0124】

例えば、前記ＣＮ_ｉを決定することは、前記被検試料の標的遺伝子の前記標的区間におけるシーケンシングデータの平均値を、前記被検試料に最も近い参照試料群の前記標的区間におけるシーケンシングデータの平均値で割り、プロイディを乗じて、前記ＣＮ_ｉを得ることを含んでもよい。

【0125】

例えば、前記プロイディは２であってもよいし、例えば、男性のＸ染色体の場合、前記プロイディは１であってもよい。被験者が倍数体の場合、前記プロイディは特定の状況に応じて調整されてもよい。

【0126】

例えば、前記ステップ（Ｓ４）またはモジュール（Ｍ４）は、前記被検試料の前記標的区間におけるコピー数をノイズ除去するステップ（Ｓ４－２）またはモジュール（Ｍ４－２）を含んでもよい。

【0127】

例えば、前記ノイズ除去は、変換分析、主成分分析アルゴリズム、特異値分解および／またはガウシアンフィルタリングの方法、またはそのような手順を記載した装置により、前記の被検試料の前記標的区間におけるコピー数をノイズ除去することを含んでもよい。

【0128】

例えば、前記ノイズ除去は、離散ウェーブレット変換またはその手順を記載した装置により、前記被検試料の前記標的区間におけるコピー数をノイズ除去することを含んでもよい。例えば、前記ノイズ除去は、変換分析、主成分分析アルゴリズム、特異値分解および／またはガウシアンフィルタリングなどの方法、またはその手順を記載した装置により、前記被検試料の前記標的区間におけるコピー数をノイズ除去することを含んでもよい。

【0129】

例えば、前記ステップ（Ｓ４）またはモジュール（Ｍ４）は、前記被検試料の標的遺伝子のコピー数ＣＮ_ｇを決定するステップ（Ｓ４－３）またはモジュール（Ｍ４－３）を含んでもよい。

【0130】

例えば、前記標的遺伝子は、コピー数変異が生じると決定されるべき遺伝子を含んでもよい。

【0131】

例えば、前記標的遺伝子は、ＡＢＬ１、ＡＢＬ２、ＡＢＲＡＸＡＳ１、ＡＣＶＲ１、ＡＣＶＲ１Ｂ、ＡＫＴ１、ＡＫＴ２、ＡＫＴ３、ＡＬＫ、ＡＬＯＸ１２Ｂ、ＡＭＥＲ１、ＡＰＣ、ＡＲ、ＡＲＡＦ、ＡＲＦＲＰ１、ＡＲＩＤ１Ａ、ＡＲＩＤ１Ｂ、ＡＲＩＤ２、ＡＲＩＤ５Ｂ、ＡＳＸＬ１、ＡＳＸＬ２、ＡＳＸＬ３、ＡＴＧ５、ＡＴＭ、ＡＴＲ、ＡＴＲＸ、ＡＵＲＫＡ、ＡＵＲＫＢ、ＡＸＩＮ１、ＡＸＩＮ２、ＡＸＬ、Ｂ２Ｍ、ＢＡＰ１、ＢＡＲＤ１、ＢＢＣ３、ＢＣＬ１０、ＢＣＬ２、ＢＣＬ２Ｌ１、ＢＣＬ２Ｌ１１、ＢＣＬ２Ｌ２、ＢＣＬ６、ＢＣＯＲ、ＢＣＯＲＬ１、ＢＩＲＣ３、ＢＬＭ、ＢＭＰＲ１Ａ、ＢＲＡＦ、ＢＲＣＡ１、ＢＲＣＡ２、ＢＲＤ４、ＢＲＤ７、ＢＲＩＮＰ３、ＢＲＩＰ１、ＢＴＧ１、ＢＴＧ２、ＢＴＫ、ＣＡＬＲ、ＣＡＲＤ１１、ＣＡＳＰ８、ＣＢＦＢ、ＣＢＬ、ＣＣＮＤ１、ＣＣＮＤ２、ＣＣＮＤ３、ＣＣＮＥ１、ＣＤ２７４、ＣＤ２８、ＣＤ５８、ＣＤ７４、ＣＤ７９Ａ、ＣＤ７９Ｂ、ＣＤＣ７３、ＣＤＨ１、ＣＤＨ１８、ＣＤＫ１２、ＣＤＫ４、ＣＤＫ６、ＣＤＫ８、ＣＤＫＮ１Ａ、ＣＤＫＮ１Ｂ、ＣＤＫＮ１Ｃ、ＣＤＫＮ２Ａ、ＣＤＫＮ２Ｂ、ＣＤＫＮ２Ｃ、ＣＥＢＰＡ、ＣＥＮＰＡ、ＣＨＤ１、ＣＨＤ２、ＣＨＤ４、ＣＨＤ８、ＣＨＥＫ１、ＣＨＥＫ２、ＣＩＣ、ＣＩＩＴＡ、ＣＲＥＢＢＰ、ＣＲＫＬ、ＣＲＬＦ２、ＣＲＹＢＧ１、ＣＳＦ１Ｒ、ＣＳＦ３Ｒ、ＣＳＭＤ１、ＣＳＭＤ３、ＣＴＣＦ、ＣＴＬＡ４、ＣＴＮＮＡ１、ＣＴＮＮＢ１、ＣＵＬ３、ＣＵＬ４Ａ、ＣＸＣＲ４、ＣＹＬＤ、ＣＹＰ１７Ａ１、ＣＹＰ２Ｄ６、ＤＡＸＸ、ＤＣＵＮ１Ｄ１、ＤＤＲ１、ＤＤＲ２、ＤＤＸ３Ｘ、ＤＩＣＥＲ１、ＤＩＳ３、ＤＮＡＪＢ１、ＤＮＭＴ１、ＤＮＭＴ３Ａ、ＤＮＭＴ３Ｂ、ＤＯＴ１Ｌ、ＤＰＹＤ、ＤＴＸ１、ＤＵＳＰ２２、ＥＥＤ、ＥＧＦＲ、ＥＩＦ１ＡＸ、ＥＩＦ４Ｅ、ＥＭＳＹ、ＥＰ３００、ＥＰＣＡＭ、ＥＰＨＡ２、ＥＰＨＡ３、ＥＰＨＡ５、ＥＰＨＡ７、ＥＰＨＢ１、ＥＰＨＢ４、ＥＲＢＢ２、ＥＲＢＢ３、ＥＲＢＢ４、ＥＲＣＣ１、ＥＲＣＣ２、ＥＲＣＣ３、ＥＲＣＣ４、ＥＲＣＣ５、ＥＲＧ、ＥＲＲＦＩ１、ＥＳＲ１、ＥＴＶ４、ＥＴＶ５、ＥＴＶ６、ＥＷＳＲ１、ＥＺＨ２、ＥＺＲ、ＦＡＮＣＡ、ＦＡＮＣＣ、ＦＡＮＣＤ２、ＦＡＮＣＥ、ＦＡＮＣＦ、ＦＡＮＣＧ、ＦＡＮＣＩ、ＦＡＮＣＬ、ＦＡＮＣＭ、ＦＡＳ、ＦＡＴ１、ＦＡＴ３、ＦＢＸＷ７、ＦＧＦ１０、ＦＧＦ１２、ＦＧＦ１４、ＦＧＦ１９、ＦＧＦ２３、ＦＧＦ３、ＦＧＦ４、ＦＧＦ６、ＦＧＦ７、ＦＧＦＲ１、ＦＧＦＲ２、ＦＧＦＲ３、ＦＧＦＲ４、ＦＨ、ＦＬＣＮ、ＦＬＴ１、ＦＬＴ３、ＦＬＴ４、ＦＯＸＡ１、ＦＯＸＬ２、ＦＯＸＯ１、ＦＯＸＯ３、ＦＯＸＰ１、ＦＲＳ２、ＦＵＢＰ１、ＦＹＮ、ＧＡＢＲＡ６、ＧＡＬＮＴ１２、ＧＡＴＡ１、ＧＡＴＡ２、ＧＡＴＡ３、ＧＡＴＡ４、ＧＡＴＡ６、ＧＥＮ１、ＧＩＤ４、ＧＬＩ１、ＧＮＡ１１、ＧＮＡ１３、ＧＮＡＱ、ＧＮＡＳ、ＧＰＳ２、ＧＲＥＭ１、ＧＲＩＮ２Ａ、ＧＲＭ３、ＧＳＫ３Ｂ、Ｈ３Ｆ３Ａ、Ｈ３Ｆ３Ｂ、Ｈ３Ｆ３Ｃ、ＨＤＡＣ１、ＨＤＡＣ２、ＨＧＦ、ＨＩＳＴ１Ｈ１Ｃ、ＨＩＳＴ１Ｈ２ＢＤ、ＨＩＳＴ１Ｈ３Ａ、ＨＩＳＴ１Ｈ３Ｂ、ＨＩＳＴ１Ｈ３Ｃ、ＨＩＳＴ１Ｈ３Ｄ、ＨＩＳＴ１Ｈ３Ｅ、ＨＩＳＴ１Ｈ３Ｇ、ＨＩＳＴ１Ｈ３Ｈ、ＨＩＳＴ１Ｈ３Ｉ、ＨＩＳＴ１Ｈ３Ｊ、ＨＩＳＴ２Ｈ３Ｄ、ＨＩＳＴ３Ｈ３、ＨＬＡ－Ａ、ＨＬＡ－Ｂ、ＨＬＡ－Ｃ、ＨＮＦ１Ａ、ＨＯＸＢ１３、ＨＲＡＳ、ＨＳＤ３Ｂ１、ＨＳＰ９０ＡＡ１、ＩＣＯＳＬＧ、ＩＤ３、ＩＤＨ１、ＩＤＨ２、ＩＦＮＧＲ１、ＩＧＦ１、ＩＧＦ１Ｒ、ＩＧＦ２、ＩＧＨＤ、ＩＧＨＪ、ＩＧＨＶ、ＩＫＢＫＥ、ＩＫＺＦ１、ＩＬ１０、ＩＬ７Ｒ、ＩＮＨＡ、ＩＮＨＢＡ、ＩＮＰＰ４Ａ、ＩＮＰＰ４Ｂ、ＩＮＳＲ、ＩＲＦ２、ＩＲＦ４、ＩＲＳ１、ＩＲＳ２、ＩＴＫ、ＩＴＰＫＢ、ＪＡＫ１、ＪＡＫ２、ＪＡＫ３、ＪＵＮ、ＫＡＴ６Ａ、ＫＤＭ５Ａ、ＫＤＭ５Ｃ、ＫＤＭ６Ａ、ＫＤＲ、ＫＥＡＰ１、ＫＥＬ、ＫＩＲ２ＤＬ４、ＫＩＲ３ＤＬ２、ＫＩＴ、ＫＬＦ４、ＫＬＨＬ６、ＫＬＲＣ１、ＫＬＲＣ２、ＫＬＲＫ１、ＫＭＴ２Ａ、ＫＭＴ２Ｃ、ＫＭＴ２Ｄ、ＫＲＡＳ、ＬＡＴＳ１、ＬＡＴＳ２、ＬＭＯ１、ＬＲＰ１Ｂ、ＬＴＫ、ＬＹＮ、ＭＡＦ、ＭＡＧＩ２、ＭＡＬＴ１、ＭＡＰ２Ｋ１、ＭＡＰ２Ｋ２、ＭＡＰ２Ｋ４、ＭＡＰ３Ｋ１、ＭＡＰ３Ｋ１３、ＭＡＰ３Ｋ１４、ＭＡＰＫ１、ＭＡＰＫ３、ＭＡＸ、ＭＣＬ１、ＭＤＣ１、ＭＤＭ２、ＭＤＭ４、ＭＥＤ１２、ＭＥＦ２Ｂ、ＭＥＮ１、ＭＥＲＴＫ、ＭＥＴ、ＭＦＨＡＳ１、ＭＧＡ、ＭＩＲ２１、ＭＩＴＦ、ＭＫＮＫ１、ＭＬＨ１、ＭＬＨ３、ＭＰＬ、ＭＲＥ１１、ＭＳＨ２、ＭＳＨ３、ＭＳＨ６、ＭＳＴ１、ＭＳＴ１Ｒ、ＭＴＡＰ、ＭＴＯＲ、ＭＵＴＹＨ、ＭＹＣ、ＭＹＣＬ、ＭＹＣＮ、ＭＹＤ８８、ＭＹＯＤ１、ＮＡＶ３、ＮＢＮ、ＮＣＯＡ３、ＮＣＯＲ１、ＮＣＯＲ２、ＮＥＧＲ１、ＮＦ１、ＮＦ２、ＮＦＥ２Ｌ２、ＮＦＫＢＩＡ、ＮＫＸ２－１、ＮＫＸ３－１、ＮＯＴＣＨ１、ＮＯＴＣＨ２、ＮＯＴＣＨ３、ＮＯＴＣＨ４、ＮＰＭ１、ＮＲＡＳ、ＮＲＧ１、ＮＳＤ１、ＮＳＤ２、ＮＳＤ３、ＮＴ５Ｃ２、ＮＴＨＬ１、ＮＴＲＫ１、ＮＴＲＫ２、ＮＴＲＫ３、ＮＵＰ９３、ＮＵＴＭ１、Ｐ２ＲＹ８、ＰＡＫ１、ＰＡＫ３、ＰＡＫ５、ＰＡＬＢ２、ＰＡＬＬＤ、ＰＡＲＰ１、ＰＡＲＰ２、ＰＡＲＰ３、ＰＡＸ５、ＰＢＲＭ１、ＰＣＤＨ１１Ｘ、ＰＤＣＤ１、ＰＤＣＤ１ＬＧ２、ＰＤＧＦＲＡ、ＰＤＧＦＲＢ、ＰＤＫ１、ＰＧＲ、ＰＨＯＸ２Ｂ、ＰＩＫ３Ｃ２Ｂ、ＰＩＫ３Ｃ２Ｇ、ＰＩＫ３Ｃ３、ＰＩＫ３ＣＡ、ＰＩＫ３ＣＢ、ＰＩＫ３ＣＤ、ＰＩＫ３ＣＧ、ＰＩＫ３Ｒ１、ＰＩＫ３Ｒ２、ＰＩＫ３Ｒ３、ＰＩＭ１、ＰＬＣＧ２、ＰＬＫ２、ＰＭＳ１、ＰＭＳ２、ＰＮＲＣ１、ＰＯＬＤ１、ＰＯＬＥ、ＰＯＭ１２１Ｌ１２、ＰＰＡＲＧ、ＰＰＭ１Ｄ、ＰＰＰ２Ｒ１Ａ、ＰＰＰ２Ｒ２Ａ、ＰＰＰ６Ｃ、ＰＲＤＭ１、ＰＲＥＸ２、ＰＲＫＡＲ１Ａ、ＰＲＫＣＩ、ＰＲＫＤＣ、ＰＲＫＮ、ＰＴＣＨ１、ＰＴＥＮ、ＰＴＰＮ１１、ＰＴＰＲＤ、ＰＴＰＲＯ、ＰＴＰＲＳ、ＰＴＰＲＴ、ＱＫＩ、ＲＡＢ３５、ＲＡＣ１、ＲＡＤ２１、ＲＡＤ５０、ＲＡＤ５１、ＲＡＤ５１Ｂ、ＲＡＤ５１Ｃ、ＲＡＤ５１Ｄ、ＲＡＤ５２、ＲＡＤ５４Ｌ、ＲＡＦ１、ＲＡＲＡ、ＲＡＳＡ１、ＲＢ１、ＲＢＭ１０、ＲＥＣＱＬ４、ＲＥＬ、ＲＥＴ、ＲＨＥＢ、ＲＨＯＡ、ＲＩＣＴＯＲ、ＲＩＴ１、ＲＮＦ４３、ＲＯＳ１、ＲＰＡ１、ＲＰＳ６ＫＡ４、ＲＰＳ６ＫＢ２、ＲＰＴＯＲ、ＲＳＰＯ２、ＲＵＮＸ１、ＲＵＮＸ１Ｔ１、ＳＤＣ４、ＳＤＨＡ、ＳＤＨＡＦ２、ＳＤＨＢ、ＳＤＨＣ、ＳＤＨＤ、ＳＥＴＤ２、ＳＦ３Ｂ１、ＳＧＫ１、ＳＨ２Ｂ３、ＳＨ２Ｄ１Ａ、ＳＨＱ１、ＳＬＣ３４Ａ２、ＳＬＩＴ２、ＳＬＸ４、ＳＭＡＤ２、ＳＭＡＤ３、ＳＭＡＤ４、ＳＭＡＲＣＡ４、ＳＭＡＲＣＢ１、ＳＭＡＲＣＤ１、ＳＭＯ、ＳＮＣＡＩＰ、ＳＯＣＳ１、ＳＯＸ１０、ＳＯＸ１７、ＳＯＸ２、ＳＯＸ９、ＳＰＥＮ、ＳＰＩ１、ＳＰＯＰ、ＳＰＴＡ１、ＳＲＣ、ＳＲＳＦ２、ＳＴＡＧ２、ＳＴＡＴ３、ＳＴＡＴ４、ＳＴＡＴ５Ａ、ＳＴＡＴ５Ｂ、ＳＴＡＴ６、ＳＴＫ１１、ＳＴＫ４０、ＳＵＦＵ、ＳＹＫ、ＴＡＦ１、ＴＢＸ２１、ＴＢＸ３、ＴＣＦ３、ＴＣＦ７Ｌ２、ＴＥＫ、ＴＥＮＴ５Ｃ、ＴＥＲＣ、ＴＥＲＴ、ＴＥＴ１、ＴＥＴ２、ＴＧＦＢＲ１、ＴＧＦＢＲ２、ＴＩＰＡＲＰ、ＴＭＥＭ１２７、ＴＭＰＲＳＳ２、ＴＮＦＡＩＰ３、ＴＮＦＲＳＦ１４、ＴＯＰ１、ＴＯＰ２Ａ、ＴＰ５３、ＴＰ６３、ＴＰ７３、ＴＲＡＦ２、ＴＲＡＦ３、ＴＲＡＦ７、ＴＲＩＭ５８、ＴＲＰＣ５、ＴＳＣ１、ＴＳＣ２、ＴＳＨＲ、ＴＹＲＯ３、Ｕ２ＡＦ１、ＵＧＴ１Ａ１、ＶＥＧＦＡ、ＶＥＧＦＢ、ＶＥＧＦＣ、ＶＨＬ、ＷＩＳＰ３、ＷＲＮ、ＷＴ１、ＸＩＡＰ、ＸＰＯ１、ＸＲＣＣ２、ＸＲＣＣ３、ＹＡＰ１、ＹＥＳ１、ＺＡＰ７０、ＺＢＴＢ１６、ＺＢＴＢ２、ＺＮＦ２１７、ＺＮＦ７０３、およびＺＮＲＦ３からなる群から選択される遺伝子を含んでもよい。例えば、前記標的遺伝子は、ＡＬＫ（転写産物番号はＮＭ＿００４３０４．４であってもよい）、ＥＲＢＢ２（転写産物番号はＮＭ＿００４４４８．３であってもよい）、ＥＧＦＲ（転写産物番号はＮＭ＿００５２２８．３であってもよい）、ＦＧＦＲ１（転写産物番号はＮＭ＿０２３１１０．２であってもよい）、ＦＧＦＲ２（転写産物番号はＮＭ＿０００１４１．４であってもよい）、ＣＤＫ４（転写産物番号はＮＭ＿００００７５．３であってもよい）およびＭＥＴ（転写産物番号はＮＭ＿０００２４５．３であってもよい）からなる群から選択される遺伝子を含んでもよい。

【0132】

例えば、本出願における試料は、組織試料、血液試料、唾液、胸水、腹膜液、および脳脊髄液からなる群から選択される。

【0133】

例えば、前記ステップ（Ｓ４－３）またはモジュール（Ｍ４－３）は、前記被検試料の前記標的遺伝子のエキソンの長さ、および前記被検試料の前記標的区間ｉにおけるコピー数ＣＮ_ｉに基づいて、前記ＣＮ_ｇを決定することを含んでもよい。

【0134】

例えば、前記ステップ（Ｓ４－３）またはモジュール（Ｍ４－３）は、以下の式に基づいて前記ＣＮ_ｇを決定することを含んでもよい。

【数1】

ここで、ｉは標的区間を表し、ｊは標的エキソンを表し、ｎは標的エキソンｊ上の標的区間の数を表し、ｍは標的エキソンの数を表し、ＣＮ_ｉは標的区間ｉにおけるコピー数を表し、Ｌｅｎ_ｊは標的エキソンｊの長さを表す。

【0135】

例えば、前記ステップ（Ｓ４）またはモジュール（Ｍ４）は、前記標的区間における被検試料のコピー数変異の存在の確率を決定するステップ（Ｓ４－４）またはモジュール（Ｍ４－４）を含んでもよい。

【0136】

例えば、前記コピー数変異の存在の確率は、前記標的区間において前記被検試料において生じるコピー数の増幅の確率（ｐ_ａ）および／または欠失の確率（ｐ_ｄ）を含んでもよい。

【0137】

例えば、前記ステップ（Ｓ４－４）またはモジュール（Ｍ４－４）は、前記標的区間ｉにおける前記被検試料のシーケンシングデータ、および対応する標的区間における前記被検試料に最も近い参照試料群のシーケンシングデータの平均値および標準偏差に基づいて、確率分布の方法またはその手順を記載した装置により、前記コピー数変異の存在の確率を確認することを含んでもよい。

【0138】

例えば、前記確率分布は、正規確率分布を含んでもよい。例えば、前記確率分布は、任意の一般的な確率分布を含んでもよい。例えば、前記確率分布は、任意の離散確率分布を含んでもよい。例えば、前記確率分布は、任意の連続確率分布を含んでもよい。

【0139】

例えば、前記ステップ（Ｓ４）またはモジュール（Ｍ４）は、前記標的遺伝子における前記被検試料の有意なコピー数の増幅または欠失の存在の比率ｓｉｇＲａｔｉｏを決定するステップ（Ｓ４－５）またはモジュール（Ｍ４－５）を含んでもよい。

【0140】

例えば、前記ステップ（Ｓ４－５）またはモジュール（Ｍ４－５）は、有意なコピー数変異が生じた前記標的遺伝子における標的区間の数を、前記標的遺伝子における全ての標的区間の数で割って、前記ｓｉｇＲａｔｉｏを得ることを含んでもよい。

【0141】

例えば、有意なコピー数変異が生じた標的区間は、前記コピー数変異の割合が約３０％以上である前記標的区間を含んでもよい。例えば、有意なコピー数変異が生じた前記標的区間は、前記コピー数変異の割合が約３０％以上、約４０％以上、約５０％以上、約６０％以上、約７０％以上、約８０％以上、約９０％以上、約９５％以上である前記標的区間を含んでもよい。

【0142】

例えば、前記ステップ（Ｓ４）またはモジュール（Ｍ４）は、前記標的遺伝子において前記被検試料のコピー数変異の存在に関する統計学的検定パラメータを決定するステップ（Ｓ４－６）またはモジュール（Ｍ４－６）を含んでもよい。

【0143】

例えば、前記統計学的検定パラメータは、有意性検定によって決定されるｐ値を含んでもよい。

【0144】

例えば、前記有意性検定は、ｔ検定を含んでもよい。例えば、前記有意性検定は、任意の有意性検定であってもよいし、実際の状況に応じて変形された有意性検定であってもよい。

【0145】

例えば、前記ステップ（Ｓ４－６）またはモジュール（Ｍ４－６）は、前記標的遺伝子における前記被検試料の前記標的区間の数、前記標的遺伝子における前記被検試料の各前記標的区間におけるシーケンシングデータ、前記標的遺伝子における前記被検試料の各前記標的区間におけるシーケンシングデータの標準偏差、および対応する標的遺伝子が被検試料に最も近い前記参照試料群の標的区間におけるシーケンシングデータの平均値および標準偏差に基づいて、ｔ検定またはその手順を記載した装置によりｐ値ｐ_{ｔｔｅｓｔ}を確認することを含んでもよい。

【0146】

例えば、前記ステップ（Ｓ４）またはモジュール（Ｍ４）は、以下のことにより、前記被検試料の標的遺伝子のコピー数状態を決定してもよい。
ＣＮ_ｇ≧ＣＮ_ｔｈＡ、ｓｉｇＲａｔｉｏ≧ｓｉｇＲａｔｉｏ_ｔｈ、かつｐ_{ｔｔｅｓｔ}≦ｐ_ｔｈのとき、前記被検試料の前記標的遺伝子のコピー数の増幅が生じたことを確認し、
ＣＮ_ｇ≦ＣＮ_ｔｈＤ、ｓｉｇＲａｔｉｏ≧ｓｉｇＲａｔｉｏ_ｔｈ、かつｐ_{ｔｔｅｓｔ}≦ｐ_ｔｈのとき、前記被検試料の標的遺伝子のコピー数欠失が生じたことを確認し、
ＣＮ_ｔｈＡ＜ＣＮ_ｇ＜ＣＮ_ｔｈＤ、またはｓｉｇＲａｔｉｏ＜ｓｉｇＲａｔｉｏ_ｔｈ、またはｐ_{ｔｔｅｓｔ}＞ｐ_ｔｈのとき、前記被検試料の前記標的遺伝子のコピー数が正常であることを確認し、ここで、ＣＮ_ｔｈＡ、ＣＮ_ｔｈＤ、ｓｉｇＲａｔｉｏ_ｔｈ、およびｐ_ｔｈは、それぞれ独立して、閾値である。

【0147】

例えば、ＣＮ_ｔｈＡは約２．２５～約４であってもよい。例えば、ＣＮ_ｔｈＡは約２．２５、約２．５０、約２．７５、約３．００、約３．２５、約３．５０、約３．７５、または約４．００であってもよい。

【0148】

例えば、ＣＮ_ｔｈＤは約１．０～約１．７５であってもよい。例えば、ＣＮ_ｔｈＤは約０．２５、約０．５０、約０．７５、約１．００、約１．２５、約１．５０、約１．７５であってもよい。

【0149】

例えば、ｓｉｇＲａｔｉｏ_ｔｈは約０．３～約１であってもよい。例えば、ｓｉｇＲａｔｉｏ_ｔｈは約０．３、約０．４、約０．５、約０．６、約０．７、約０．８、約０．９、または約１．０であってもよい。

【0150】

例えば、ｐ_ｔｈは、約０．０５～約０．００００１であってもよい。例えば、ｐ_ｔｈは、約０．０５、約０．０１、約０．００１、約０．０００１、約０．００００１、約０．０００００１、または約０．００００００１であってもよい。

【0151】

データベースの構築
一態様では、本出願は、複数の参照試料のシーケンシングデータを取得するステップと、前記参照試料を２つ以上の参照試料群に分けるステップとを含んでもよいデータベース構築方法を提供する。

【0152】

例えば、前記データベース構築方法は、（Ｓ１）：被検試料のシーケンシングデータおよび／または複数の参照試料のシーケンシングデータを取得するステップと、（Ｓ２）：前記参照試料を２つ以上の参照試料群に分けるステップと、を含んでもよい。

【0153】

一態様では、本出願は、被検試料のシーケンシングデータおよび／または複数の参照試料のシーケンシングデータを取得する受信モジュールと、前記参照試料を２つ以上の参照試料群に分ける処理モジュールと、を含んでもよいデータベース構築装置を提供する。

【0154】

例えば、前記データベース構築装置は、（Ｍ１）被検試料のシーケンシングデータおよび／または複数の参照試料のシーケンシングデータを取得する受信モジュールと、（Ｍ２）前記参照試料を２つ以上の参照試料の群に分ける処理モジュールとを含んでもよい。

【0155】

一態様では、本出願は、以下のステップを含んでもよいデータベース構築方法を提供する。
（Ｓ１）被検試料のシーケンシングデータおよび／または複数の参照試料のシーケンシングデータを取得する。ステップ（Ｓ１－１）：遺伝子シーケンシングにより前記被検試料および／または前記参照試料の前記シーケンシングデータを取得する。ステップ（Ｓ１－２）：前記被検試料および／または前記参照試料の前記シーケンシングデータを補正する。
（Ｓ２）前記参照試料を２つ以上の参照試料群に分ける。ステップ（Ｓ２－１）：前記参照試料を群分けする。ステップ（Ｓ２－２）：前記参照試料群の前記シーケンシングデータの統計値を確認する。
一態様では、本出願は、本出願のデータベース構築方法を実施するモジュールを含んでもよいデータベース構築装置を提供する。
一態様では、本出願は、以下のステップを含んでもよいデータベース構築方法を提供する。
（Ｓ１）被検試料のシーケンシングデータおよび／または複数の参照試料のシーケンシングデータを取得する。ステップ（Ｓ１－１）：遺伝子シーケンシングにより前記被検試料および／または前記参照試料の前記シーケンシングデータを取得する。ステップ（Ｓ１－２）：前記被検試料および／または前記参照試料の前記シーケンシングデータを補正する。
（Ｓ２）前記参照試料を２つ以上の参照試料群に分ける。ステップ（Ｓ２－１）：前記参照試料を群分けする。ステップ（Ｓ２－２）：前記参照試料群の前記シーケンシングデータの統計値を確認する。

【0156】

一態様では、本出願は、本出願のデータベース構築方法を実施するモジュールを含んでもよいデータベース構築装置を提供する。

【0157】

一態様では、本出願は、（Ｍ１）被検試料のシーケンシングデータおよび／または複数の参照試料のシーケンシングデータを取得する受信モジュールと、（Ｍ２）前記参照試料を２つ以上の参照試料群に分ける処理モジュールと、を含んでもよい、データベース構築装置を提供する。

【0158】

コピー数状態の分析方法
一態様では、本出願は、既存のデータベースからの情報に基づいてコピー数状態の分析方法を提供し、この方法は、２つ以上の参照試料群から被検試料に最も近い参照試料群を決定するステップと、被検試料に最も近い前記参照試料群のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定するステップとを含んでもよい。

【0159】

例えば、前記コピー数状態の分析方法は、（Ｓ３）前記被検試料に最も近い参照試料群を決定するステップと、（Ｓ４）被検試料に最も近い前記参照試料群のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定するステップと、を含んでもよい。

【0160】

一態様では、本出願は、２つ以上の参照試料群から前記被検試料に最も近い参照試料群を決定する計算モジュールと、被検試料に最も近い前記参照試料群のシーケンシングデータに基づいて前記被検試料の標的遺伝子のコピー数状態を決定する判定モジュールと、を含んでもよい、コピー数状態の分析装置を提供する。

【0161】

例えば、前記コピー数状態の分析装置は、（Ｍ３）前記被検試料に最も近い参照試料群を決定する計算モジュールと、（Ｍ４）前記被検試料に最も近い参照試料群のシーケンシングデータに基づいて前記被検試料の標的遺伝子のコピー数状態を決定する判定モジュールと、を含んでもよい。

【0162】

一態様では、本出願は、以下のステップを含んでもよい、コピー数状態の分析方法を提供する。
（Ｓ３）前記被検試料に最も近い参照試料群を決定する。
（Ｓ４）前記被検試料に最も近い前記参照試料群のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定する。ステップ（Ｓ４－１）：前記標的区間ｉにおける前記被検試料の標的遺伝子のコピー数ＣＮ_ｉを決定する。ステップ（Ｓ４－３）：標的遺伝子における前記被検試料のコピー数ＣＮ_ｇを決定する。ステップ（Ｓ４－４）：前記標的区間における被検試料のコピー数変異の存在の確率を決定する。ステップ（Ｓ４－５）：前記標的遺伝子における前記被検試料の有意なコピー数の増幅または欠失の存在の比率ｓｉｇＲａｔｉｏを決定する。ステップ（Ｓ４－６）：前記標的遺伝子における前記被検試料のコピー数変異の存在に関する統計学的検定パラメータを決定する。以下のことにより、前記被検試料の前記標的遺伝子のコピー数状態を決定する。ＣＮ_ｇ≧ＣＮ_ｔｈＡ、ｓｉｇＲａｔｉｏ≧ｓｉｇＲａｔｉｏ_ｔｈ、かつｐ_{ｔｔｅｓｔ}≦ｐ_ｔｈのとき、前記被検試料の標的遺伝子のコピー数の増幅が生じたことを確認し、ＣＮ_ｇ≦ＣＮ_ｔｈＤ、ｓｉｇＲａｔｉｏ≧ｓｉｇＲａｔｉｏ_ｔｈ、かつｐ_{ｔｔｅｓｔ}≦ｐ_ｔｈのとき、前記被検試料の標的遺伝子のコピー数欠失が生じたことを確認し、ＣＮ_ｔｈＡ＜ＣＮ_ｇ＜ＣＮ_ｔｈＤ、またはｓｉｇＲａｔｉｏ＜ｓｉｇＲａｔｉｏ_ｔｈ、またはｐ_{ｔｔｅｓｔ}＞ｐ_ｔｈのとき、前記被検試料の標的遺伝子のコピー数が正常であることを確認し、ここで、ＣＮ_ｔｈＡ、ＣＮ_ｔｈＤ、ｓｉｇＲａｔｉｏ_ｔｈ、およびｐ_ｔｈは、それぞれ独立して、閾値である。

【0163】

一態様では、本出願は、本出願のコピー数状態の分析方法を実施するモジュールを含んでもよいコピー数状態の分析装置を提供する。

【0164】

一態様では、本出願は、以下のステップを含んでもよい、コピー数状態の分析方法を提供する。
（Ｓ３）前記被検試料に最も近い参照試料群を決定する。
（Ｓ４）前記被検試料に最も近い前記参照試料群のシーケンシングデータに基づいて、前記被検試料の標的遺伝子のコピー数状態を決定する。ステップ（Ｓ４－１）：前記標的区間ｉにおける前記被検試料の標的遺伝子のコピー数ＣＮ_ｉを決定する。ステップ（Ｓ４－２）：前記標的区間における前記被検試料のコピー数をノイズ除去する。ステップ（Ｓ４－３）：前記標的遺伝子における前記被検試料のコピー数ＣＮ_ｇを決定する。ステップ（Ｓ４－４）：前記標的区間における前記被検試料のコピー数変異の存在の確率を決定する。ステップ（Ｓ４－５）：前記標的遺伝子における前記被検試料の有意なコピー数の増幅または欠失の存在の割合ｓｉｇＲａｔｉｏを決定する。ステップ（Ｓ４－６）：前記標的遺伝子における前記被検試料のコピー数変異の存在に関する統計的検定のパラメータを決定する。以下のことにより、前記被検試料の標的遺伝子のコピー数状態を決定する。ＣＮ_ｇ≧ＣＮ_ｔｈＡ、ｓｉｇＲａｔｉｏ≧ｓｉｇＲａｔｉｏ_ｔｈ、かつｐ_{ｔｔｅｓｔ}≦ｐ_ｔｈのとき、前記被検試料の標的遺伝子のコピー数の増幅が生じたことを確認し、ＣＮ_ｇ≦ＣＮ_ｔｈＤ、ｓｉｇＲａｔｉｏ≧ｓｉｇＲａｔｉｏ_ｔｈ、かつｐ_{ｔｔｅｓｔ}≦ｐ_ｔｈのとき、前記被検試料の標的遺伝子のコピー数欠失が生じたことを確認し、ＣＮｔｈＡ＜ＣＮ_ｇ＜ＣＮ_ｔｈＤ、またはｓｉｇＲａｔｉｏ＜ｓｉｇＲａｔｉｏ_ｔｈ、またはｐ_{ｔｔｅｓｔ}＞ｐ_ｔｈのとき、前記被検試料の標的遺伝子のコピー数が正常であることを確認し、ここで、ＣＮ_ｔｈＡ、ＣＮ_ｔｈＤ、ｓｉｇＲａｔｉｏ_ｔｈ、およびｐ_ｔｈは、それぞれ独立に閾値である。

【0165】

一態様では、本出願は、本出願のコピー数状態の分析方法を実施するモジュールを含んでもよいコピー数状態の分析装置を提供する。

【0166】

データベース、機器、および応用方法
一態様では、本出願は、本出願に記載のコピー数状態の分析方法またはデータベース構築方法によって構築されるデータベースを提供する。

【0167】

一態様では、本出願は、本出願に記載の方法を実行できるプログラムを記載した記憶媒体をさらに提供する。

【0168】

一態様では、本出願は、本出願に記載の記憶媒体を含んでもよい装置をさらに提供する。例えば、前記不揮発性コンピュータ読み取り可能記憶媒体は、フロッピーディスク、フレックスディスク、ハードディスク、ソリッドステートストレージ（ＳＳＳ）（例えば、ソリッドステートドライブ（ＳＳＤ））、ソリッドステートカード（ＳＳＣ）、ソリッドステートモジュール（ＳＳＭ））、エンタープライズフラッシュドライブ、磁気テープ、または任意の他の非一過性磁気媒体などを含んでもよい。不揮発性コンピュータ読み取り可能な記憶媒体には、パンチカード、紙テープ、フォトマーカーシート（または、穴パターンまたは他の光学的に識別可能なマーキングを有する他の物理的媒体）、コンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、コンパクトディスク再書き込み可能（ＣＤ－ＲＷ）、デジタルユニバーサルディスク（ＤＶＤ）、ブルーレイディスク（ＢＤ）、および／または他の非一時的な光媒体も含まれる。

【0169】

例えば、本出願の機器は、前記記憶媒体に結合されたプロセッサをさらに含み、前記プロセッサは、前記記憶媒体に記憶されたプログラムの実行に基づいて本出願に記載の方法を実現するように構成されてもよい。

【0170】

一態様では、本出願は、疾患の診断、予防および／または治療における本出願の方法の応用をさらに提供する。

【0171】

一態様では、本出願は、標的遺伝子のコピー数状態モニタリングにおける本出願の方法の応用をさらに提供する。

【0172】

一態様では、本出願は、ゲノムワイド関連研究における本出願の方法の応用をさらに提供する。

【0173】

本出願において、前記方法は、前記被験者がコピー数変異を有するか否かを判定するために使用されてもよい。例えば、本出願のいずれか１つまたは複数の方法は、非診断目的であってもよい。例えば、本出願のいずれか１つまたは複数の方法は、診断目的であってもよい。

【0174】

本出願において、前記方法は、前記コピー数変異を検出することにより、臨床での使用（例えば、ある特定の腫瘍治療方式が当該被験者に適するかどうかを推測するため）に用いられ得る。場合によっては、前記方法によって検出されたコピー数変異のレベルは、当該技術分野で公知のバイオマーカーと組み合わせて臨床で使用することができる。

【0175】

いかなる理論によっても限定されることを望むことなく、以下に記載される実施例は、単に本出願の方法および用途等を説明するためのものであり、本出願の発明の範囲を限定することを意図するものではない。

【0176】

＜実施例＞
実施例１
１．１データの準備
３０個の陰性末梢血試料を選択し、同じバッチの実験試薬を用いて末梢血からＤＮＡを抽出し、断片化、リンカー付加、ＰＣＲ増幅の実験ステップを経て全ゲノムプレライブラリーを作製した。次に、調製したプレライブラリーを２つに分け、バッチＡとバッチＢと記した異なるバッチのプローブを用いて、プレライブラリーとハイブリダイズさせ、ヒトゲノムのＢＲＣＡ１遺伝子を特異的に捕捉し、最終ライブラリーＡと最終ライブラリーＢを得た。この２つの最終ライブラリーについて、シーケンサーを用いたハイスループットシーケンシングを行った。最後に、このシーケンシングデータをヒトゲノム標準配列ｈｇ１９とアライメントし、アライメント済みＢＡＭファイルを得た。

【0177】

１．２参照ベースラインの構築に基づくコピー数変異の従来の検出方法
事前に、前期に採取したコピー数が正常な十分な陰性試料（例えば５０例以上）を参照集合とし、参照ベースラインを構築した。その後、２群の実験試料を用いて、この参照集合から構築したベースラインを用いてＢＲＣＡ１遺伝子の各エキソンのコピー数の値を算出し、コピー数変異を検出した。エキソンコピー数の計算結果（図１Ａに示す）から、バッチＡプローブで捕捉した実験データは、均一性が良く、理論コピー数値の２に近かったが、バッチＢプローブで捕捉した結果は、比較的悪く、特にＢＲＣＡ１遺伝子のエキソン８については、すべての試料の選好度は大幅に低かった。一方、コピー数変異の検出結果から、バッチＢプローブを用いた実験群では、３０試料において、２つの試料のＢＲＣＡ１由来の偽陽性のコピー数変異が検出された。このことは、従来のベースライン参照方法を用いると、プローブバッチの違いに起因するコピー数変異の検出精度の低下を招きやすいことを示唆している。

【0178】

１．３本出願の方法によるコピー数変異の検出
そこで、次に、本出願の方法を用いてコピー数変異を検出した。

【0179】

（１）データの準備
本出願のコピー数変異の検出アルゴリズムは、十分な数の試料を選択することができ、例えば、同じ試料タイプ、同じ実験方法による試料データ１５例とすることができ、実験に使用する試薬バッチ、実験機器などが可能な限り一致するようにする。参加する各試料データは、ＮＧＳシーケンシングデータのアライメント後のＢＡＭファイルから取得する必要がある。

【0180】

（２）ＢＡＭファイルの重複除去およびＤＮＡ配列断片のカバレッジ深さに基づく統計
各試料のＢＡＭファイルについて、まず、ＮＧＳライブラリー構築によりＰＣＲで導入された重複ＤＮＡ配列断片を除去し、一意なアライメントＤＮＡ断片を得た。次に、検出したい標的ＤＮＡ領域に応じて、スライディングウィンドウ法を用いて、２４ｂｐずつスライドさせ、プローブの長さを１２０ｂｐに固定したウィンドウ領域に分割し、各ウィンドウ内の一意なアライメントＤＮＡ断片の平均カバレッジレベルを計数した。

【0181】

（３）試料シーケンシングのカバレッジ品質管理
任意選択で、各試料に対して品質管理を実施し、平均シーケンシング深さ、最小シーケンシング深さ、およびカバレッジ均一性が要件を満たしているかどうかを判定した。このうち、平均シーケンシング深さは≧１００倍、最小シーケンシング深さは≧３０倍、カバレッジ均一性は≧９０％（塩基のシーケンシング深さが試料の平均シーケンシング深さの２０％以上である塩基の割合を指し、式は、カバレッジ均一性＝（試料の平均シーケンシング深さの２０％以上である塩基の数／試料の総塩基数）×１００％である。試料データの品質が要件を満たさない場合、それを修正ベースラインの構築に使用しない。本出願の検出方法は、品質の要件を満たす試料数を少なくとも１０試料として検出することができる。

【0182】

（４）データの補正と正規化処理
ノイズや系統的バイアスがコピー数変異の検出結果に与える影響を最小限に抑えるため、各ウィンドウ領域のカバレッジレベルを補正することができる。カバレッジレベル初期補正（試料平均カバレッジレベルに基づく）、ＧＣ補正、バッチ補正などがある。

【0183】

（５）カバレッジレベル初期補正
カバレッジレベル初期補正は、シーケンシングされた異なる試料のカバレッジの深さの違いを補正するために、バッチ内のすべての試料のカバレッジレベルを同じ指定されたカバレッジレベルに補正することである。具体的には、バッチ内の各試料のウィンドウ領域について、シーケンシングによる平均カバレッジレベルを、その試料内のすべてのウィンドウ領域の平均カバレッジレベルの合計で割り、固定係数（係数は１Ｅ＋０７）を乗じる。

【0184】

（６）ＧＣ補正
ＧＣｐｒｅｆｅｒｅｎｃｅによるシーケンシングカバレッジ深さの違いを補正するために、各ウィンドウのＧＣ含有量を計算し、試料内の各ウィンドウ領域のカバレッジレベルをＬｏｅｓｓ回帰を用いてＧＣｐｒｅｆｅｒｅｎｃｅについて補正することにより、ＧＣ補正を行った。

【0185】

（７）バッチ補正
ｉ．バッチ内のすべての品質制御合格試料のＧＣ補正データを入手する。
ｉｉ．バッチベースライン構築に関与した試料について、各ウィンドウ内のカバレッジレベルの中央値（ｍｅｄｉａｎ）と中央絶対偏差（ＭＡＤ）を計算する。ＭＡＤ／中央値＞設定閾値（例えば、設定閾値は約０．０５～約０．１５とすることができる）の場合、これはそのウィンドウのカバレッジレベルが不安定であり、除外する必要があることを示す。
ｉｉｉ．ＭＡＤ／中央値＜設定閾値のウィンドウ、またはＭＡＤ／中央値が最小の先頭４つのウィンドウを、カバレッジレベルが安定したウィンドウ領域として保持する。
ｉｖ．次に、保持されたカバレッジレベルが安定した各ウィンドウ領域について、グラブス（ｇｒｕｂｂｓ）検定を用いてそのウィンドウ内の異常なカバレッジレベル値を除去し、残りのカバレッジレベル値の平均値をバッチ補正参照係数として算出する。
ｖ．最後に、被検試料ごとに、上記で算出したバッチ補正参照係数に基づいて、各ウィンドウ領域のカバレッジレベルを正規化し、コピー数ＣＮ値を算出するが、各ウィンドウのコピー数ＣＮ値の算出式は以下の通りである。

【数2】

【0186】

（８）コピー数変異の同定
ＣＢＳアルゴリズムを用いて、試料の標的領域のブレークポイントの位置を同定し、コピー数変異領域候補を得る。次に、各コピー数変異候補領域について有意性検定を行い、具体的には、ｔ検定により、コピー数変異候補領域での被検試料のウィンドウカバレッジレベルが、その領域におけるバッチ内の他の試料のカバレッジレベルと有意に異なるかどうかを判定し、コピー数変異候補の信頼性を判定する。

【0187】

その中で、ＢＲＣＡ１遺伝子エキソンのコピー数の分布を図１Ｂに示すが、参照ベースラインの構築に基づく従来の方法と比較して、本出願の方法は、コピー数結果の均一性により優れており、特にバッチ差の大きいＢ群プローブにおいて顕著であり、２組の実験データいずれにおいても偽陽性のコピー数変異は検出されなかった。

【0188】

実施例２
２０個の細胞株試料を選択し、そのうち１９個は陰性で、１個は既知のエキソンコピー数変異（ＬＧＲ）試料であった（ＢＲＣＡ１：Ｅｘｏｎ１２ａｍｐ）。実験では、機器による自動ライブラリー構築方法を用いて、ハイスループットシーケンスデータを得た。最後に、シーケンシングデータをヒトゲノム標準配列ｈｇ１９とアライメントし、アライメント済みＢＡＭファイルを得た。試料のＢＡＭファイルについて、参照ベースラインの構築に基づく従来の方法と、本出願の方法とをそれぞれ用いて、コピー数変異を検出した。ここで、参照ベースラインの構築に基づく方法において採用されるベースラインは、以前の手動ライブラリー構築方法（例えば、実施例１において使用された参照ベースライン）からの試料データを用いて確立されてもよい。

【0189】

コピー数変異を含む陽性試料の結果を図２Ａ～２Ｂに示すが、参照ベースラインの構築に基づく従来の方法の結果（図２Ａに示す）は、バックグラウンドノイズが非常に高く、コピー数変異を検出できないのに対し、本出願の方法のデータは、バックグラウンドノイズが著しく低くなり、コピー数変異を検出できる（図２Ｂに示す）ことから、異なる実験方法によって生成されたＮＧＳデータは大きく異なる可能性があり、手動ライブラリー構築方法のデータから構築されたベースラインは、自動ライブラリー構築方法のデータには適用できなかった。このことは、実験方法を変更する場合、従来の参照ベースラインの方法を用いると、あらかじめ実験方法を用いて十分な試料データを収集し、手作業で新たなベースラインを構築する必要があり、実験のコストとマンパワーの無駄が大きくなることを示している。

【0190】

実施例３
ＢＲＣＡ１およびＢＲＣＡ２のエキソンコピー数変異（ＬＧＲ）を検出するために、６６９個の末梢血試料を選択し、ＢＲＣＡ１およびＢＲＣＡ２遺伝子領域を特異的に捕捉するＲＮＡプローブを用いて実験を行った後、ハイスループットシーケンシングを行い、そのシーケンシングデータをヒトゲノムの標準配列であるｈｇ１９とアラインメントし、アラインメント済みＢＡＭファイルを得た。その後、参照ベースラインの構築に基づく方法と本出願の方法をそれぞれ用いてコピー数変異を検出した。一方、ＢＲＣＡＭＡＳＴＲＰｌｕｓＤｘキット（ｍｕｌｔｉｐｌｅｘＰＣＲｃａｐｔｕｒｅｍｅｔｈｏｄｏｌｏｇｙに基づく）により全試料のコピー数変異を確認したところ、合計１７個のＬＧＲ陽性試料と６７９個の陰性試料が含まれていた。

【0191】

ＢＲＣＡＭＡＳＴＲＰｌｕｓＤｘキットの検出結果を基準として、これら６９６個の末梢血試料について、参照ベースラインの構築に基づく従来の方法の検出結果および本出願の方法の検出結果の感度および特異度を求め、それぞれ表１および表２に示す。

【表1】

【表2】

【0192】

表１と表２を比較すると、ベースラインを構築する従来の方法と比較して、本出願の方法では、感度を損なうことなく試料の偽陽性を大幅に低減でき、検出精度を７５．３％から９８．９％に向上できることがわかった。

【0193】

実施例４
バッチベースラインを構築するために、シーケンシングアライメントの１４個の細胞株試料のデータを選択し、バッチベースラインを構築する過程で、ウィンドウカバレッジのカバレッジ変動レベルを表す閾値をそれぞれ０．０５と０．１５に設定し、２つのバッチベースラインを構築した。そして、ＬＧＲのコピー数変異が既知の１４個の試料（ＢＲＣＡ１：ｅｘｏｎ４－６ｄｅｌ）について、それぞれ２つのバッチベースラインを用いてバッチ補正を行い、コピー数変異を検出した。

【0194】

図３Ａ～３Ｂに、コピー数変異を含む陽性試料の結果を示すが、ウィンドウカバレッジ変動レベルが異なる閾値に基づいて構築されたバッチベースラインは、コピー数変異を明確に検出することができ、本出願のスクリーニング安定区間の閾値範囲がコピー数変異の検出を達成できることを示している。

【0195】

実施例５
模擬試料バックグラウンドとして１０個の陰性細胞株試料を選択し、次に模擬する変異として文献で報告されているＢＲＣＡ１およびＢＲＣＡ２遺伝子の１０個のＬＧＲコピー数変異（表３に示す）を選択した（５種類のコピー数の増幅変異試料、５種類のコピー数欠失変異）。シミュレーション後、上記のコピー数の増幅変異とコピー数欠失変異を模擬試料バックグラウンドデータに人為的に追加し、最終的に１０個の陽性ＬＧＲ模擬試料データを得た。

【0196】

１０個の模擬陽性試料についてバッチベースラインを構築し、構築したバッチベースラインを用いて、１０個の模擬試料についてバッチ補正とコピー数変異の同定を行った。１０個の模擬試料についての結果を図４Ａ～４Ｊに示すが、１０個の模擬コピー数変異はすべて正確に検出されており、本出願がどの領域についてもコピー数変異の正確な検出を達成していることがわかった。

【表3】

【0197】

実施例６
本出願の方法は、クラスタリング法を用いて、大量の実試料データをシーケンシング深さの傾向クラスタリングに従って異なる試料集合に分割し、それぞれベースライン（平均深さおよび深さ変動範囲）を構築し、試料とベースラインとの間の類似度に応じてバックグラウンドベースラインを動的にスクリーニングし、バッチ効果を排除しつつ、検出の特異性および感度を向上させる。一方、任意選択で離散ウェーブレット変換法を用いてコピー数を平滑化し、ノイズを低減し、シーケンシングデータのＳ／Ｎ比を向上させることができる。

【0198】

本出願の方法は、ハイスループットシーケンスにおいて、高感度かつ高精度なコピー数変異検出を実現する方法および媒体を提供することを目的とし、試料カバレッジ特徴の特異性の差異に基づいてコピー数変異を検出するものである。具体的には、大規模試料のクラスター分析に基づいて複数の対照群ベースラインを構築し、シーケンシングにおける実験や試料の違いによるカバレッジ深さ特徴の不整合に起因するベースラインの不一致の問題を回避することができ、試料の特異性のデータバラつきを低減するための様々なカバレッジ深さ補正ストラテジーを統合することができ、最終的には、定量分析と統計的差異評価によって結果の正確性と安定性を確保することができる。本出願におけるコピー数変異検出方法は、特定の遺伝子パネル（ｐａｎｅｌ）の標的化キャプチャーシーケンスデータだけでなく、エキソーム全体のキャプチャーシーケンスデータにも適用できる。以上のことから、本出願のデータベース構築方法は、以下のステップを含んでもよい。

【0199】

１．データ準備モジュールであって、以下のことを含む。
ａ）配列アライメント：ハイスループットシーケンスによるｆａｓｔｑの生データをヒトリファレンスゲノムにポストバックし、被検試料や参照試料の標的区間がヒトリファレンスゲノムの参照配列に一致する配列を決定する。
ｂ）リピート配列の除去：ＰＣＲ増幅中に生成したリピート配列を除去する。
ｃ）カバレッジ深さの計算：標的区間における各塩基のシーケンシング深さＲＤ_Ｂａｓｅを計算する。

【0200】

２．カバレッジ深さ補正モジュールであって、３つの独立した、順次任意の補正を含む。
ａ）前記シーケンシングデータの標準化：試料総シーケンシング深さ補正であって、具体的には、試料総シーケンシング深さに従って、各標的区間における個々の遺伝子座のカバレッジ深さを標準化し、異なる試料間のシーケンシングデータ量の差を排除してＲＤ_{ｎｏｒｍＤ}を得る。

【数3】

ここで、ｉは標的区間における遺伝子座を示し、ｎは全ての標的区間における遺伝子座の総数を示し、ＲＤ_ｉは標的区間における遺伝子座ｉのシーケンシング深さを示し、Ｒは全ての区間のサイズに応じて設定可能な定数であり、被検試料の補正深さと参照試料群の補正深さが同じレベルになるようにする。
ｂ）前記シーケンシングデータの平滑化１：プローブ敷設特徴補正であって、具体的には、プローブ設計における異なる区間のプローブ敷設乗数の差、例えば、区間にカバーされるプローブの数に基づいて、区間を分割し、各標的区間の長さを約２４塩基対とし、各標的区間の平均カバレッジ深さＲＤを計算し、各標的区間にカバーされたプローブ数ＰｒｏｂｅＮに基づいて、局所加重回帰（ｌｏｅｓｓ（ＲＤ～ＰｒｏｂｅＮ））により標的区間でのシーケンシング深さを補正し、プローブ補正シーケンシング深さＲＤ_{ｎｏｒｍＰ}を得る。
ｃ）前記シークエンシングデータの平滑化２：ＧＣ補正であって、具体的には、特に、カバレッジ深さ計算に使用される標的区間を、側鎖に従って２００ｂｐ長より大きい全長に拡張し、平均ＧＣパーセンテージを計算し、そして区間のＧＣ含有量に従って、シーケンシング深さＲＤに対して局所加重回帰（ｌｏｅｓｓ（ＲＤ～ＧＣ））補正を実施し、ＧＣ補正されたシーケンシング深さＲＤ_{ｎｏｒｍＧＣ}を得る。
ｄ）任意選択で、ＧＣ含有量のバランスのとれた区間をスクリーニングして、極端にＧＣ含有量が不均衡な領域（ＣＧ含有量が０．２５未満の領域、またはＧＣ含有量が０．７５を超える領域）を除外し、補正されたカバレッジ深さをコピー数変異の検出に使用する。

【0201】

３．ベースライン構築モジュールであって、以下のステップを含む。
ａ）試料のクラスタリング：既存の方法では、一般的に、すべての参照試料を１つの分類として扱うことによってベースラインを構築する。本出願の方法は、参照試料を群分けし、具体的には、標的区間において変化する各参照試料のカバレッジ深さの一貫性、例えば、標的区間における参照試料の前記シーケンシングの類似度に基づいて、クラスター分析を実行し、参照試料を異なるカテゴリーの参照試料群に分割する。クラスタリング方法は、例えば、Ｋ平均クラスタリング、階層クラスタリング方法などであってもよい。
ｂ）ベースラインの構築：各参照試料群について、ベースラインを構築する。具体的には、各標的区間における各参照試料群の全参照試料の平均シーケンシング深さ（ＭｅａｎＲＤ^ｉ _{Ｂａｓｅｌｉｎｅ}）とシーケンシング深さの標準偏差（ＳｄＲＤ^ｉ _{Ｂａｓｅｌｉｎｅ}）をベースライン（Ｂａｓｅｌｉｎｅ_ｉ）として計算し、ここでｉ＝｛１，２，３，４，．．．｝である。例えば、統計的に有意であるためには、各参照試料群に十分な試料数が必要であり、各参照試料群の試料数は３０個以下であってはならない。参照試料群の数の設定は、腫瘍試料の特徴およびシーケンシング品質を考慮する必要があり、参照試料群の数は、捕捉された特徴の数に応じて決定され、例えば、参照試料群の数は２以上、例えば２～１０とすることができる。
ｃ）任意選択で、区間スクリーニングを実施することができる：各区間におけるシーケンシング深さの変異係数ｃｖを計算し、試料中で大きく変動する不安定な区間を除去する。

【数4】

ここで、ＭｅａｎＲＤ^ｉ _{Ｂａｓｅｌｉｎｅ}とＳｄＲＤ^ｉ _{Ｂａｓｅｌｉｎｅ}はそれぞれ、各標的区間における全参照試料の平均シーケンシング深さとシーケンシング深さの標準偏差を表す。ｃｖ＞０．８の場合、その区間は不安定な領域とみなされ、フィルタリングされる。また、補正されたシーケンシング深さが５より低い場合、捕捉効率の低い領域とみなされ、フィルタリングされ、最終的に保持された区間は安定な区間とみなされる。

【0202】

最終的に、本出願のデータベースは、本実施例に従って得られ、標的区間における変化の一貫性を有する２つ以上の参照試料群を含む。従来技術と比較して、本出願のデータベースの利点は、大規模試料のクラスター分析を通じて、参照試料を異なるカテゴリーの参照試料群に分割し、試料特有のバックグラウンドベースラインを個別に構築することにより、ハイスループットシーケンスデータのコピー数変異検出においてバッチ効果によって生じる偽陽性を大幅に低減し、結果の安定性を高めることである。また、本出願におけるバッチ効果を排除する方法は、同一バッチ内の同一遺伝子パネルの十分な試料数を必要としないため、実用化の困難性を大幅に軽減する。

【0203】

実施例７
実験や試料の違いによるカバレッジ特徴の深さの不一致に起因するシーケンシングにおけるベースラインの不一致の問題を解決するために、本出願はまた、コピー数状態の分析方法を提供する。本出願のコピー数状態の分析方法は、以下のステップを含んでもよい。
ａ）前記被検試料と前記参照試料群との類似度に応じて、前記被検試料に最も近い参照試料群を決定し、すなわち、ベースラインを動的にスクリーニングし、すなわち、ミンコフスキー距離などの統計距離を計算する方法によって、各標的区間における被検試料のシーケンシング深さと、その標的区間における各参照試料群のシーケンシング深さとを比較し、統計的な距離を確認する。

【数5】

ここで、Ｌ_ｐ値は統計距離を表し、ｉは標的区間を表し、ｎは標的区間の数を表し、ＲＤ^ｉ _{Ｓａｍｐｌｅ}は被検試料の標的区間ｉのシーケンシング深さを表し、ＲＤ^ｉ _{Ｂａｓｅｌｉｎｅ}は参照試料群の標的区間ｉのシーケンシング深さを表し、ｐは任意選択で１以上である。被検試料との統計距離が最も小さい（Ｌ_ｐ値が最も小さく、最も高い類似度を示す）参照試料群が、被検試料のバックグラウンドベースライン（Ｂａｓｅｌｉｎｅ_ｘ）として選択される。
ｂ）遺伝子コピー数検出：
ｉ．各被検試料の標的区間のコピー数の評価：以下の式により、被検試料の各標的区間のコピー数ＣＮ_ｉを算出する。

【数6】

ここで、ＲＤ_{ｓａｍｐｌｅ}は、被検試料の各標的区間のシーケンシング深さを示し、ＲＤ^ｘ _{Ｂａｓｅｌｉｎｅ}は、被検試料に最も近い参照試料群の各標的区間のシーケンシング深さを示し、ここで、プロイディは２であってもよい。
ｉｉ．任意選択で、各区間のコピー数を平滑化し、ノイズを低減し、すなわち、各区間のＣＮ_ｉをノイズ低減アルゴリズムを用いて平滑化し、ノイズを低減して、データのＳ／Ｎ比を改善する。ノイズ除去方法は、離散ウェーブレット変換（ＤＷＴ）、主成分分析アルゴリズム、特異値分解、および／またはガウスフィルタリングを使用して平滑化することができる。ＤＷＴは、データノイズ低減の目的を達成するために、信号を離散ウェーブレット変換、連続ウェーブレットとそのウェーブレット変換離散化、それぞれローパスフィルタとハイパスフィルタを介して、高周波信号と低周波信号に分割することである。このようにして、ノイズを除去したＣＮ_ｉを得ることができる。
ｉｉｉ．各標的遺伝子のコピー数評価：試料中の各標的遺伝子の加重平均コピー数ＣＮ_ｇを算出し、標的エキソンの長さを用いてＣＮ_ｉを補正する。例えば、以下の通りである。

【数7】

ここで、ｉは標的区間を示し、ｊは標的エキソンを示し、ｎは標的エキソンｊにおける標的区間の数を示し、ｍは標的エキソンの数を示し、ＣＮ_ｉは標的区間ｉにおけるコピー数を示し、Ｌｅｎ_ｊは標的エキソンｊの長さを示す。
ｉｖ．前記標的区間における被検試料のコピー数変異の存在の確率を決定し、例えば、複数の区間シーケンシング深さ対スクリーニングされたバックグラウンドベースラインの分布の正規性検定であってもよく、その式は以下の通りである。

【数8】

ここで、ＲＤ^ｉ _{Ｓａｍｐｌｅ}は被検試料の標的区間ｉのシーケンシング深さを表し、ＭｅａｎＲＤ^ｘ _{Ｂａｓｅｌｉｎｅ}は被検試料に最も近い参照試料群の各標的区間のシーケンシング深さの平均値を表し、ＳｄＲＤ^ｘ _{Ｂａｓｅｌｉｎｅ}は被検試料に最も近い参照試料群の各標的区間のシーケンシング深さの標準偏差を表し、ｌｏｗｅｒ．ｔａｉｌ＝Ｆは右尾確率を表し、ｐ_ａはその区間でコピー数の増幅が生じる確率値を表し、ｌｏｗｅｒ．ｔａｉｌ＝Ｔは左尾確率を表し、ｐｄはその区間でコピー数欠失が生じる確率値を示す。
ｖ．各標的遺伝子の有意性の比の評価：各標的遺伝子の有意な増幅または欠失のｓｉｇＲａｔｉｏを以下の式でそれぞれ算出する：

【数9】

ここで、有意なコピー数変異が生じる前記標的区間は、コピー数変異の割合が約３０％以上である前記標的区間を含む。
ｖｉ．各標的遺伝子の総合的レベルの有意性検定：各標的遺伝子について、各標的区間の補正シーケンシング深さを被検試料に最も近い参照試料群の各区間の平均シーケンシング深さに基づいて、試料とベースラインとの差が有意であるか否かを決定するためにｔ検定を行い、ｐ_{ｔｔｅｓｔ}を求める。
ｃ）前記被検試料の標的遺伝子のコピー数状態を、以下の方法によって決定する。

【数10】

各閾値は、大規模試料を用いたトレーニングにより得ることができる。ここで、ＣＮ_ｔｈＡはコピー数の増幅の閾値を示し、値は任意選択で２．２５～４であってもよく、ＣＮ_ｔｈＤはコピー数欠失の閾値を示し、値は任意選択で１．０～１．７５であってもよく、ｓｉｇＲａｔｉｏ_ｔｈは有意増幅／欠失の比の閾値を示し、値は任意選択で０．３～１であってもよく、ｐ_ｔｈは有意性のｔ検定の閾値を示し、値は任意選択で０．０５～０．００００１であってもよい。

【0204】

本出願のコピー数状態の分析方法は、被検試料と参照試料群との類似度に基づいて、被検試料に最も近い参照試料群をバックグラウンドベースラインとして動的にスクリーニングするため、バッチ効果を排除することができ、また、検出の特異性および感度を向上させることができる。

【0205】

実施例８
データベースの構築：６５５個の参照試料を用いてベースラインを構築し、ｋ平均クラスタリングアルゴリズムを用いるなど、本出願のデータベース構築方法を用いて、参照試料を５つの参照試料群、５つの異なるベースライン候補をデータベースとして構築する。

【0206】

模擬データの構築：ｖａｒＢｅｎ腫瘍変異データシミュレーションソフトウェア（ｇｉｔｈｕｂ．ｃｏｍ／ｎｃｃｌ－ｊｍｌｉ／ＶａｒＢｅｎ）を用いて、良性組織試料を基に、標的遺伝子のリードセグメントをシーケンシングデータに挿入することで、コピー数の異なる標的遺伝子の増幅を勾配で模擬し、模擬試料のリストを表４に示した。

【表4】

【0207】

模擬試料を本出願のコピー数状態の分析方法に従って測定し、その結果を表５に示した。

【表5】

【0208】

図５Ａ～５Ｆは、本出願の検定結果のデータの一部のコピー数の分布図の例を示す。各点は遺伝子の区間を示し、灰色の点はコピー数が正常な遺伝子を、黒い点はコピー数が増幅または欠失した遺伝子を示し、対応する遺伝子名も記した。横軸は遺伝子が存在する染色体位置、縦軸は本出願の方法に基づいて算出されたコピー数（中央の横線は正常遺伝子のコピー数を示す）、灰色の背景はバックグラウンドベースライン（検出対象試料に最も近い参照試料群）における各標的区間の変動幅を示す。図５Ａ～５Ｃは、異なる程度のコピー数の増幅を受けたＥＲＢＢ２遺伝子のシミュレーションを示し、図５Ｄ～５Ｆは、異なる段階のコピー数の増幅を受けたＦＧＦＲ１遺伝子のシミュレーションを示し、それぞれ２．５、２．７５、３．０のコピー数勾配を有する。この結果は、本出願のコピー数状態の分析方法を模擬試料に用いると、すべての模擬遺伝子と異なる勾配におけるコピー数の増幅を安定に検出でき、コピー数予測が正確であることを示した。

【0209】

実施例９
陽性標準試料：本出願における測定は、ＮＣＩ－ＢＬ２００９細胞株由来の３０個の陽性標準試料を含む。この試料は、ＣＮＶ陽性データを得るために、プラスミドトランスフェクションを用いて対応する割合の標的遺伝子を細胞株に導入し、マイクロタイターデジタルＰＣＲ（ｄｄＰＣＲ）を用いて遺伝子のコピー数を定量したものであった。プラスミド番号は、ＬｉｆｅＲＰＣＩ１１．Ｃ－４３３Ｃ１０ＢＡＣ－ＥＧＦＲ、ＬｉｆｅＲＰＣＩ１１．Ｃ－９３６Ｉ７ＢＡＣ－ＣＤＫ４、ＬｉｆｅＲＰＣＩ１１．Ｃ－１６３Ｃ９ＢＡＣ－ＭＥＴ、ＬｉｆｅＲＰＣＩ１１．Ｃ－９０９Ｌ６ＢＡＣ－ＥＲＢＢ２、ＬｉｆｅＲＰＣＩ１１．Ｃ－９５７Ｐ１７ＢＡＣ－ＦＧＦＲ１。陽性標準試料のリストを表６に示した。

【表6】

【0210】

データベースの構築：６５５個の参照試料を用いてベースラインを構築し、ｋ平均クラスタリングアルゴリズムを用いるなど、本出願のデータベース構築方法を用いて、参照試料を５つの参照試料群に分け、５つの異なるベースライン候補をデータベースとして構築した。

【0211】

本出願のコピー数状態の分析方法に従って、コピー数の増幅陽性標準試料のコピー数状態を検出し、その結果を表７に示す。

【表7】

【0212】

図６Ａ～６Ｃは、本出願の検出結果のデータの一部についてのコピー数の分布図の例を示す。図６Ａ～６Ｃは、プラスミドトランスフェクトされたＣＮＶ陽性細胞株標準試料の検出結果を表し、それぞれｄｄＰＣＲ校正コピー数は３、５、８である。この結果は、プラスミドトランスフェクトされた細胞株標準試料に対する本出願の方法が、すべての遺伝子について、また異なるコピー数状態についても、正確なコピー数予測で安定的に検出されることを示している。

【0213】

実施例１０
実データ：本出願で測定した実試料には、第三者の免疫組織化学（ＩＨＣ）検出で確認されたＥＲＢＢ２増幅陽性試料２０検体が含まれ、実試料のリストを表８に示す。

【表8】

【0214】

データベース構築：４４３例の参照試料を用いてベースラインを構築し、ｋ平均クラスタリングアルゴリズムを用いるなど、本出願のデータベース構築方法を用いて、参照試料を参照試料群に分け、異なるベースライン候補をデータベースとして構築した。

【0215】

本出願のコピー数状態の分析方法に従って、実試料のコピー数状態を検出し、その結果を表９に示す。

【表9】

【0216】

図７Ａ～７Ｃは、本出願の検出結果のデータの一部のコピー数の分布図の例を示す。図７Ａ～７Ｃは、実試料のＥＲＢＢ２陽性試料の検出結果を表す。この結果は、本出願の方法を実試料に用いたところ、ＩＨＣの結果ＨＥＲ２陽性の２０試料が安定して検出されたことを示している。

【0217】

実施例１１
陽性標準試料：本出願の測定には、実施例９と同じ由来の３つの陽性標準試料が含まれ、異なるベースラインからの結果を測定する。陽性標準試料のリストを表１０に示す。

【表10】

【0218】

データベースの構築：ベースラインを構築するために６５５個の参照試料を使用し、ｋ平均クラスタリングアルゴリズムを使用するなど、本出願のデータベース構築方法を使用して、参照試料を５つの参照試料群に分け、データベースとして５つの異なるベースライン候補を構築した。また、クラスタリング法を用いずに、すべての参照試料を１つのベースラインとして構築した。

【0219】

クラスタリングアルゴリズムから得られた５つのベースラインとクラスタリングなしの１つのベースラインを参考対照として、それぞれコピー数の増幅標準試料のコピー数状態を検出した。ベースラインの選択と検体の変動を表１１に、検出結果を表１２に示す。

【表11】

【表12】

【0220】

図８Ａ～８Ｆは、異なるベースラインを用いた標準試料１のコピー数の分布の例の図である。

【0221】

その結果、本出願の発明的方法を用いてマッチングされた最適なベースラインは、被検試料と最も類似しており（被検試料とベースラインとの距離値が最も小さい）、被検試料全体のコピー数変動（ＳＤ）が最も小さく、コピー数の分布図が最も安定でノイズが小さいことから、本出願の方法の検出結果がより安定していることがわかった。本出願では、すべての遺伝子で、異なるコピー数状態でも安定に検出できるが、コピー数が３の場合、他のベースラインでは安定に検出できない。

【0222】

前述の詳細な説明は、説明および例として提供されるものであり、添付の特許請求の範囲を限定することを意図するものではない。本出願に現在列挙されている実施形態の複数の変形例は、当業者には明らかであり、添付の特許請求の範囲およびその等価実施形態の範囲内に保持される。

【図1A】