(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-05-13
(45)【発行日】2022-05-23
(54)【発明の名称】コピー数計測装置、コピー数計測プログラムおよびコピー数計測方法
(51)【国際特許分類】
G16B 30/00 20190101AFI20220516BHJP
G01N 33/53 20060101ALI20220516BHJP
G01N 33/574 20060101ALI20220516BHJP
【FI】
G16B30/00
G01N33/53 M
G01N33/574 D
(21)【出願番号】P 2017175703
(22)【出願日】2017-09-13
【審査請求日】2020-08-07
(73)【特許権者】
【識別番号】591102095
【氏名又は名称】三菱電機ソフトウエア株式会社
(73)【特許権者】
【識別番号】504173471
【氏名又は名称】国立大学法人北海道大学
(74)【代理人】
【識別番号】110002491
【氏名又は名称】溝井国際特許業務法人
(72)【発明者】
【氏名】谷嶋 成樹
(72)【発明者】
【氏名】毛利 涼
(72)【発明者】
【氏名】酒寄 圭佑
(72)【発明者】
【氏名】西原 広史
(72)【発明者】
【氏名】湯澤 明夏
【審査官】梅岡 信幸
(56)【参考文献】
【文献】特表2016-506760(JP,A)
【文献】特表2013-507987(JP,A)
【文献】特表2017-511330(JP,A)
【文献】特表2008-506407(JP,A)
【文献】特表2008-501343(JP,A)
【文献】特開2006-014740(JP,A)
【文献】特開2010-239899(JP,A)
【文献】国際公開第2017/042394(WO,A1)
【文献】特開2016-109452(JP,A)
【文献】米国特許出願公開第2014/0193819(US,A1)
【文献】市川 仁,国内における臨床シークエンスの展開-オリジナル遺伝子パネルNCC oncopanelを用いたクリニカルシークエンシング,医学のあゆみ(別冊) がんゲノム研究の進歩 網羅的解析からの知見 5月,第2015巻,日本,医歯薬出版株式会社,2015年05月20日,第129-134頁
【文献】毛利 涼,がんゲノムデータ解析:臨床現場への実装,MSS技報 Vol.27,日本,三菱スペース・ソフトウエア株式会社,2017年02月10日,第1-4頁
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
G01N 33/48-33/98
C12Q 1/00- 3/00
(57)【特許請求の範囲】
【請求項1】
がん細胞を含んだ腫瘍サンプルから得られた複数のリードである複数の腫瘍サンプルリードをヒトゲノム配列にマッピングし、対象遺伝子毎にヒトゲノム配列に対して変化している塩基のゲノム位置である対象位置を特定する位置特定部と、
それぞれの対象遺伝子の対象位置毎に変異アリル頻度を算出する頻度算出部と、
対象遺伝子毎に、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数であるマッピングリード数の変異アリル頻度に対する密度を示す密度分布においてピーク密度に対応する変異アリル頻度と基準の変異アリル頻度との差に相当する特徴距離を算出する距離算出部と、
対象遺伝子毎の特徴距離を用いて、前記腫瘍サンプルにおける対象遺伝子毎のコピー数を補正するための補正係数を算出する係数算出部と、
前記腫瘍サンプルにおける対象遺伝子毎のコピー数と前記補正係数とを用いて、前記がん細胞における対象遺伝子毎のコピー数を算出するコピー数算出部と
を備えるコピー数計測装置。
【請求項2】
前記距離算出部は、対象位置毎の変異アリル頻度と対象位置毎のマッピングリード数との関係を示す散布グラフを生成し、前記散布グラフを密度分布グラフに変換し、前記密度分布グラフのうちの前記基準の変異アリル頻度以下の領域である下位領域と前記密度分布グラフのうちの前記基準の変異アリル頻度以上の領域である上位領域との相関を示す相関グラフを生成し、前記相関グラフにおいてピーク相関値に対応する変異アリル頻度と前記基準の変異アリル頻度との差の絶対値を前記特徴距離として算出する
請求項1に記載のコピー数計測装置。
【請求項3】
前記相関グラフは、前記下位領域と前記上位領域とにおいて前記基準の変異アリル頻度との差の絶対値が等しい変異アリル頻度同士の密度の相関を示す
請求項2に記載のコピー数計測装置。
【請求項4】
前記係数算出部は、正常細胞における遺伝子のコピー数に対するがん細胞における遺伝子のコピー数の割合の対数値と特徴距離との関係を示す関係グラフと、正常サンプルにおける対象遺伝子のコピー数に対する前記腫瘍サンプルにおける対象遺伝子のコピー数の割合の対数値と対象遺伝子の特徴距離とを示す計測点とのずれ量に相当する値を、前記補正係数として算出する
請求項1から請求項3のいずれか1項に記載のコピー数計測装置。
【請求項5】
前記がん細胞における対象遺伝子毎のコピー数に基づいて、前記腫瘍サンプルにおける前記がん細胞の含有率を算出する含有率算出部を備える
請求項1から請求項4のいずれか1項に記載のコピー数計測装置。
【請求項6】
前記含有率算出部は、対象遺伝子毎に前記がん細胞におけるコピー数を用いて含有率候補を算出し、対象遺伝子毎の含有率候補に基づいて前記腫瘍サンプルにおける前記がん細胞の前記含有率を決定する
請求項5に記載のコピー数計測装置。
【請求項7】
前記腫瘍サンプルが脳腫瘍のサンプルであり、
前記対象遺伝子が、ATRXとIDH1とIDH2とTP53とTERTとBRAFとPDGFRAとMETとEGFRとBRSK1とEHD2とAKT2とTP73とNMNAT1とTGFBR3とPTENとの少なくともいずれかである
請求項1から請求項6のいずれか1項に記載のコピー数計測装置。
【請求項8】
がん細胞を含んだ腫瘍サンプルから得られた複数のリードである複数の腫瘍サンプルリードをヒトゲノム配列にマッピングし、対象遺伝子毎にヒトゲノム配列に対して変化している塩基のゲノム位置である対象位置を特定する位置特定部と、
それぞれの対象遺伝子の対象位置毎に変異アリル頻度を算出する頻度算出部と、
対象遺伝子毎に、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数であるマッピングリード数の変異アリル頻度に対する密度を示す密度分布においてピーク密度に対応する変異アリル頻度と基準の変異アリル頻度との差に相当する特徴距離を算出する距離算出部と、
対象遺伝子毎の特徴距離を用いて、前記腫瘍サンプルにおける対象遺伝子毎のコピー数を補正するための補正係数を算出する係数算出部と、
前記腫瘍サンプルにおける対象遺伝子毎のコピー数と前記補正係数とを用いて、前記がん細胞における対象遺伝子毎のコピー数を算出するコピー数算出部
としてコンピュータを機能させるためのコピー数計測プログラム。
【請求項9】
前記距離算出部は、対象位置毎の変異アリル頻度と対象位置毎のマッピングリード数との関係を示す散布グラフを生成し、前記散布グラフを密度分布グラフに変換し、前記密度分布グラフのうちの前記基準の変異アリル頻度以下の領域である下位領域と前記密度分布グラフのうちの前記基準の変異アリル頻度以上の領域である上位領域との相関を示す相関グラフを生成し、前記相関グラフにおいてピーク相関値に対応する変異アリル頻度と前記基準の変異アリル頻度との差の絶対値を前記特徴距離として算出する
請求項8に記載のコピー数計測プログラム。
【請求項10】
前記相関グラフは、前記下位領域と前記上位領域とにおいて前記基準の変異アリル頻度との差の絶対値が等しい変異アリル頻度同士の密度の相関を示す
請求項9に記載のコピー数計測プログラム。
【請求項11】
前記係数算出部は、正常細胞における遺伝子のコピー数に対するがん細胞における遺伝子のコピー数の割合の対数値と特徴距離との関係を示す関係グラフと、正常サンプルにおける対象遺伝子のコピー数に対する前記腫瘍サンプルにおける対象遺伝子のコピー数の割合の対数値と対象遺伝子の特徴距離とを示す計測点とのずれ量に相当する値を、前記補正係数として算出する
請求項8から請求項10のいずれか1項に記載のコピー数計測プログラム。
【請求項12】
前記がん細胞における対象遺伝子毎のコピー数に基づいて、前記腫瘍サンプルにおける前記がん細胞の含有率を算出する含有率算出部を備える
請求項8から請求項11のいずれか1項に記載のコピー数計測プログラム。
【請求項13】
前記含有率算出部は、対象遺伝子毎に前記がん細胞におけるコピー数を用いて含有率候補を算出し、対象遺伝子毎の含有率候補に基づいて前記腫瘍サンプルにおける前記がん細胞の前記含有率を決定する
請求項12に記載のコピー数計測プログラム。
【請求項14】
前記腫瘍サンプルが脳腫瘍のサンプルであり、
前記対象遺伝子が、ATRXとIDH1とIDH2とTP53とTERTとBRAFとPDGFRAとMETとEGFRとBRSK1とEHD2とAKT2とTP73とNMNAT1とTGFBR3とPTENとの少なくともいずれかである
請求項8から請求項13のいずれか1項に記載のコピー数計測プログラム。
【請求項15】
位置特定部が、がん細胞を含んだ腫瘍サンプルから得られた複数のリードである複数の腫瘍サンプルリードをヒトゲノム配列にマッピングし、対象遺伝子毎にヒトゲノム配列に対して変化している塩基のゲノム位置である対象位置を特定し、
頻度算出部が、それぞれの対象遺伝子の対象位置毎に変異アリル頻度を算出し、
距離算出部が、対象遺伝子毎に、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数であるマッピングリード数の変異アリル頻度に対する密度を示す密度分布においてピーク密度に対応する変異アリル頻度と基準の変異アリル頻度との差に相当する特徴距離を算出し、
係数算出部が、対象遺伝子毎の特徴距離を用いて、前記腫瘍サンプルにおける対象遺伝子毎のコピー数を補正するための補正係数を算出し、
コピー数算出部が、前記腫瘍サンプルにおける対象遺伝子毎のコピー数と前記補正係数とを用いて、前記がん細胞における対象遺伝子毎のコピー数を算出するコピー数計測方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ターゲットシークエンスにおいて正確なコピー数を計測するための技術に関するものである。
【背景技術】
【0002】
がん患者の遺伝子の変異を調べて最適な治療を行うクリニカルシークエンスというサービスが存在する。
シークエンスとは、遺伝物質の塩基を読み取り、遺伝物質の遺伝情報を示す配列を知ることである。
シークエンスの種類には、全ゲノムシークエンス、全エクソームシークエンスおよびターゲットシークエンスが存在する。
全ゲノムシークエンスは、遺伝子が無い領域も含めてゲノム全体に対して行うシークエンスである。
全エクソームシークエンスは、遺伝子領域に対して行うシークエンスである。
ターゲットシークエンスは、一部の遺伝子に対して行うシークエンスである。具体的には、ターゲットシークエンスは、がんに関連する遺伝子に対して行われる。
【0003】
がん患者の状態は悪化するので、検査結果が短期間に得られることが望ましい。また、クリニカルシークエンスは保険収載されていないので、費用の全額が患者の自費負担となる。
そのため、クリニカルシークエンスでは、日常的に行えるシークエンスであるターゲットシークエンスによる比較解析が行われる。これにより、時間の短縮および費用の削減を図ることができる。
【0004】
比較解析では、がんでない正常サンプルと腫瘍サンプルが用いられる。具体的には、がんでない正常サンプルとして血液が用いられ、腫瘍サンプルとして手術検体が用いられる。そして、正常サンプルの遺伝子配列と腫瘍サンプルの遺伝子配列との差異に基づいて、がん由来のSNV(Single Nucleotide Variant)およびCNV(Copy Number Variation)が検出される。腫瘍サンプルの遺伝子配列を正常サンプルの遺伝子配列と比較することで、個人差に伴う変異を除外してがん由来の変異だけを知ることができる。比較解析は差分解析とも呼ばれる。
【0005】
CNVの検出が行われる前に、各サンプルから多数のリードが得られ、それぞれのリードがヒトゲノム配列にマッピングされる。
ヒトゲノム配列において対象遺伝子の領域にマッピングされたリードの数は、実際の細胞において対象遺伝子を含んだ染色体の数と近似する。そのため、マッピングされたリードの数に基づいて、細胞内での染色体のコピー数を推定することができる。
CNVの検出では、がん細胞における遺伝子の正規化されたリード数が正常細胞における遺伝子の正規化されたリード数よりも多い場合、その遺伝子ががん細胞内で増幅していると判断される。また、がん細胞における遺伝子のリード数が正常細胞における遺伝子のリード数よりも少ない場合、その遺伝子ががん細胞において減少していると判断される。
通常、人の遺伝子のコピー数は2コピーである。そのため、基準の1.5倍の比率のリードが遺伝子の領域にマッピングされた場合、その遺伝子のコピー数が3コピーであると判断される。
【0006】
非特許文献1および非特許文献2は、マイクロアレイ解析に関する文献であり、LRR(Log R Ratio)とBAF(B Allele Frequency)との相関を開示している。
非特許文献3は、1番染色体の短腕と19番染色体の長腕とのそれぞれのコピー数が共に減少しているという現象が脳腫瘍の予後を左右する重要なファクターであることを開示している。
【先行技術文献】
【非特許文献】
【0007】
【文献】Cathy C.L、et al. Detectable clonal mosaicism from birth to old age and its relationship to cancer、Nature Genetics Volume 44、June 2012、pp.642-650
【文献】C Alkan、et al. Genome Structural variation discovery and genotyping、Nature Reviews Genetics 12、May 2011、pp.363-376
【文献】Louis DN、et al. Acta Neuropathol. June 2016、131(6):803-20.doi:10.1007/s00401-016-1545-1.
【発明の概要】
【発明が解決しようとする課題】
【0008】
ターゲットシークエンスにおけるCNVの検出には以下のような課題がある。
通常、CNVの検出では、それぞれの領域の正常細胞における遺伝子のリード数に対するがん細胞における遺伝子のリード数の比(以下「リード数比」という)のうち最も頻度が高いリード数比が2コピーの領域にマッピングされるリード数比として扱われる。
ゲノム全体では、一部のコピー数が増減していても、その他の遺伝子のコピー数が2コピーであるため、コピー数の平均は2コピーである。つまり、ゲノム全体に対して行われる全ゲノムシークエンスの場合、2コピーの領域にマッピングされるリード数比の頻度が最も高い。したがって、通常のCNVの検出によって、正確なコピー数を得ることができる。
一方、がんに関連する遺伝子は増幅または減少しやすい。そのため、がんに関連する遺伝子に対して行われるターゲットシークエンスにおいては、コピー数の平均が2コピーでない可能性がある。つまり、ターゲットシークエンスの場合、2コピーの領域にマッピングされるリード数比の頻度が最も高いとは限らない。したがって、通常のCNVの検出によって、正確なコピー数を得ることができない可能性がある。
【0009】
本発明は、ターゲットシークエンスにおいて正確なコピー数を得ることができるようにすることを目的とする。
【課題を解決するための手段】
【0010】
本発明のコピー数計測装置は、
がん細胞を含んだ腫瘍サンプルから得られた複数のリードである複数の腫瘍サンプルリードをヒトゲノム配列にマッピングし、対象遺伝子毎にヒトゲノム配列に対して変化している塩基のゲノム位置である対象位置を特定する位置特定部と、
それぞれの対象遺伝子の対象位置毎に変異アリル頻度を算出する頻度算出部と、
対象遺伝子毎に、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数であるマッピングリード数の変異アリル頻度に対する密度を示す密度分布においてピーク密度に対応する変異アリル頻度と基準の変異アリル頻度との差に相当する特徴距離を算出する距離算出部と、
対象遺伝子毎の特徴距離を用いて、前記腫瘍サンプルにおける対象遺伝子毎のコピー数を補正するための補正係数を算出する係数算出部と、
前記腫瘍サンプルにおける対象遺伝子毎のコピー数と前記補正係数とを用いて、前記がん細胞における対象遺伝子毎のコピー数を算出するコピー数算出部とを備える。
【0011】
前記距離算出部は、対象位置毎の変異アリル頻度と対象位置毎のマッピングリード数との関係を示す散布グラフを生成し、前記散布グラフを密度分布グラフに変換し、前記密度分布グラフのうちの前記基準の変異アリル頻度以下の領域である下位領域と前記密度分布グラフのうちの前記基準の変異アリル頻度以上の領域である上位領域との相関を示す相関グラフを生成し、前記相関グラフにおいてピーク相関値に対応する変異アリル頻度と前記基準の変異アリル頻度との差の絶対値を前記特徴距離として算出する。
【0012】
前記相関グラフは、前記下位領域と前記上位領域とにおいて前記基準の変異アリル頻度との差の絶対値が等しい変異アリル頻度同士の密度の相関を示す。
【0013】
前記係数算出部は、正常細胞における遺伝子のコピー数に対するがん細胞における遺伝子のコピー数の割合の対数値と特徴距離との関係を示す関係グラフと、正常サンプルにおける対象遺伝子のコピー数に対する前記腫瘍サンプルにおける対象遺伝子のコピー数の割合の対数値と対象遺伝子の特徴距離とを示す計測点とのずれ量に相当する値を、前記補正係数として算出する。
【0014】
前記がん細胞における対象遺伝子毎のコピー数に基づいて、前記腫瘍サンプルにおける前記がん細胞の含有率を算出する含有率算出部を備える。
【0015】
前記含有率算出部は、対象遺伝子毎に前記がん細胞におけるコピー数を用いて含有率候補を算出し、対象遺伝子毎の含有率候補に基づいて前記腫瘍サンプルにおける前記がん細胞の前記含有率を決定する。
【0016】
前記腫瘍サンプルが脳腫瘍のサンプルであり、
前記対象遺伝子が、ATRXとIDH1とIDH2とTP53とTERTとBRAFとPDGFRAとMETとEGFRとBRSK1とEHD2とAKT2とTP73とNMNAT1とTGFBR3とPTENとの少なくともいずれかである。
【0017】
本発明のコピー数計測プログラムは、
がん細胞を含んだ腫瘍サンプルから得られた複数のリードである複数の腫瘍サンプルリードをヒトゲノム配列にマッピングし、対象遺伝子毎にヒトゲノム配列に対して変化している塩基のゲノム位置である対象位置を特定する位置特定部と、
それぞれの対象遺伝子の対象位置毎に変異アリル頻度を算出する頻度算出部と、
対象遺伝子毎に、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数であるマッピングリード数の変異アリル頻度に対する密度を示す密度分布においてピーク密度に対応する変異アリル頻度と基準の変異アリル頻度との差に相当する特徴距離を算出する距離算出部と、
対象遺伝子毎の特徴距離を用いて、前記腫瘍サンプルにおける対象遺伝子毎のコピー数を補正するための補正係数を算出する係数算出部と、
前記腫瘍サンプルにおける対象遺伝子毎のコピー数と前記補正係数とを用いて、前記がん細胞における対象遺伝子毎のコピー数を算出するコピー数算出部としてコンピュータを機能させる。
【0018】
前記距離算出部は、対象位置毎の変異アリル頻度と対象位置毎のマッピングリード数との関係を示す散布グラフを生成し、前記散布グラフを密度分布グラフに変換し、前記密度分布グラフのうちの前記基準の変異アリル頻度以下の領域である下位領域と前記密度分布グラフのうちの前記基準の変異アリル頻度以上の領域である上位領域との相関を示す相関グラフを生成し、前記相関グラフにおいてピーク相関値に対応する変異アリル頻度と前記基準の変異アリル頻度との差の絶対値を前記特徴距離として算出する。
【0019】
前記相関グラフは、前記下位領域と前記上位領域とにおいて前記基準の変異アリル頻度との差の絶対値が等しい変異アリル頻度同士の密度の相関を示す。
【0020】
前記係数算出部は、正常細胞における遺伝子のコピー数に対するがん細胞における遺伝子のコピー数の割合の対数値と特徴距離との関係を示す関係グラフと、正常サンプルにおける対象遺伝子のコピー数に対する前記腫瘍サンプルにおける対象遺伝子のコピー数の割合の対数値と対象遺伝子の特徴距離とを示す計測点とのずれ量に相当する値を、前記補正係数として算出する。
【0021】
前記がん細胞における対象遺伝子毎のコピー数に基づいて、前記腫瘍サンプルにおける前記がん細胞の含有率を算出する含有率算出部を備える。
【0022】
前記含有率算出部は、対象遺伝子毎に前記がん細胞におけるコピー数を用いて含有率候補を算出し、対象遺伝子毎の含有率候補に基づいて前記腫瘍サンプルにおける前記がん細胞の前記含有率を決定する。
【0023】
前記腫瘍サンプルが脳腫瘍のサンプルであり、
前記対象遺伝子が、ATRXとIDH1とIDH2とTP53とTERTとBRAFとPDGFRAとMETとEGFRとBRSK1とEHD2とAKT2とTP73とNMNAT1とTGFBR3とPTENとの少なくともいずれかである。
【0024】
本発明のコピー数計測方法において、
位置特定部が、がん細胞を含んだ腫瘍サンプルから得られた複数のリードである複数の腫瘍サンプルリードをヒトゲノム配列にマッピングし、対象遺伝子毎にヒトゲノム配列に対して変化している塩基のゲノム位置である対象位置を特定し、
頻度算出部が、それぞれの対象遺伝子の対象位置毎に変異アリル頻度を算出し、
距離算出部が、対象遺伝子毎に、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数であるマッピングリード数の変異アリル頻度に対する密度を示す密度分布においてピーク密度に対応する変異アリル頻度と基準の変異アリル頻度との差に相当する特徴距離を算出し、
係数算出部が、対象遺伝子毎の特徴距離を用いて、前記腫瘍サンプルにおける対象遺伝子毎のコピー数を補正するための補正係数を算出し、
コピー数算出部が、前記腫瘍サンプルにおける対象遺伝子毎のコピー数と前記補正係数とを用いて、前記がん細胞における対象遺伝子毎のコピー数を算出する。
【0025】
本発明の遺伝子パネルは、
ATRXとIDH1とIDH2とTP53とTERTとBRAFとPDGFRAとMETとEGFRとBRSK1とEHD2とAKT2とTP73とNMNAT1とTGFBR3とPTENとを全て含む遺伝子セットを含む。
【0026】
本発明の遺伝子パネルは、
ATRXとIDH1とIDH2とTP53とTERTとBRAFとPDGFRAとMETとEGFRとBRSK1とEHD2とAKT2とTP73とNMNAT1とTGFBR3とPTENとから成る遺伝子セットを含む。
【0027】
本発明の遺伝子パネルは、
ATRXとIDH1とIDH2とTP53とTERTとBRAFとPDGFRAとMETとEGFRとBRSK1とEHD2とAKT2とTP73とNMNAT1とTGFBR3とPTENとの少なくともいずれかを含む遺伝子セットを含む。
【発明の効果】
【0028】
本発明によれば、ターゲットシークエンスにおいて正確なコピー数を得ることができる。
【図面の簡単な説明】
【0029】
【
図1】実施の形態1におけるコピー数計測装置100の構成図。
【
図2】実施の形態1におけるコピー数計測方法のフローチャート。
【
図3】実施の形態1における位置特定処理(S110)のフローチャート。
【
図4】実施の形態1における変異位置の例を示す図。
【
図5】実施の形態1における頻度算出処理(S120)のフローチャート。
【
図6】実施の形態1における距離算出処理(S130)のフローチャート。
【
図7】実施の形態1におけるモデル生成処理(S132)のフローチャート。
【
図8】実施の形態1における散布グラフ201を示す図。
【
図9】実施の形態1における密度分布グラフ202を示す図。
【
図10】実施の形態1における相関グラフ203を示す図。
【
図11】実施の形態1における相関グラフ203の特徴距離を示す図。
【
図12】実施の形態1における関係モデル210を示す図。
【
図13】実施の形態1における関係モデル210に合致する計測点群を示す図。
【
図14】実施の形態1における関係モデル210に合致しない計測点群を示す図。
【
図15】実施の形態1における係数算出処理(S140)のフローチャート。
【
図16】実施の形態1における係数算出処理(S140)のフローチャート。
【
図17】実施の形態1におけるスコア算出処理(S144)のフローチャート。
【
図18】実施の形態1におけるコピー数算出処理(S150)のフローチャート。
【
図20】1番染色体、10番染色体および19番染色体のコピー数の例を示す図。
【
図21】実施の形態2におけるコピー数計測装置100の構成図。
【
図22】実施の形態2におけるコピー数計測方法のフローチャート。
【
図23】実施の形態2における含有率算出処理(S160)のフローチャート。
【発明を実施するための形態】
【0030】
実施の形態および図面において、同じ要素および対応する要素には同じ符号を付している。同じ符号が付された要素の説明は適宜に省略または簡略化する。図中の矢印はデータの流れ又は処理の流れを主に示している。
【0031】
実施の形態1.
ターゲットシークエンスにおいて正確なコピー数を得るための形態について、
図1から
図18に基づいて説明する。
【0032】
***構成の説明***
図1に基づいて、コピー数計測装置100の構成を説明する。
コピー数計測装置100は、プロセッサ901とメモリ902と補助記憶装置903といったハードウェアを備えるコンピュータである。これらのハードウェアは、信号線を介して互いに接続されている。
【0033】
プロセッサ901は、演算処理を行うIC(Integrated Circuit)であり、他のハードウェアを制御する。例えば、プロセッサ901は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、またはGPU(Graphics Processing Unit)である。
メモリ902は揮発性の記憶装置である。メモリ902は、主記憶装置またはメインメモリとも呼ばれる。例えば、メモリ902はRAM(Random Access Memory)である。メモリ902に記憶されたデータは必要に応じて補助記憶装置903に保存される。
補助記憶装置903は不揮発性の記憶装置である。例えば、補助記憶装置903は、ROM(Read Only Memory)、HDD(Hard Disk Drive)、またはフラッシュメモリである。補助記憶装置903に記憶されたデータは必要に応じてメモリ902にロードされる。
【0034】
コピー数計測装置100は、位置特定部110と頻度算出部120と距離算出部130と係数算出部140とコピー数算出部150と含有率算出部160といったソフトウェア要素を備える。ソフトウェア要素はソフトウェアで実現される要素である。
【0035】
補助記憶装置903には、位置特定部110と頻度算出部120と距離算出部130と係数算出部140とコピー数算出部150と含有率算出部160としてコンピュータを機能させるためのコピー数計測プログラムが記憶されている。コピー数計測プログラムは、メモリ902にロードされて、プロセッサ901によって実行される。
さらに、補助記憶装置903にはOS(Operating System)が記憶されている。OSの少なくとも一部は、メモリ902にロードされて、プロセッサ901によって実行される。
つまり、プロセッサ901は、OSを実行しながら、コピー数計測プログラムを実行する。
コピー数計測プログラムを実行して得られるデータは、メモリ902、補助記憶装置903、プロセッサ901内のレジスタまたはプロセッサ901内のキャッシュメモリといった記憶装置に記憶される。
【0036】
メモリ902はデータを記憶する記憶部191として機能する。但し、他の記憶装置が、メモリ902の代わりに、又は、メモリ902と共に、記憶部191として機能してもよい。
【0037】
コピー数計測装置100は、プロセッサ901を代替する複数のプロセッサを備えてもよい。複数のプロセッサは、プロセッサ901の役割を分担する。
【0038】
コピー数計測プログラムは、磁気ディスク、光ディスクまたはフラッシュメモリ等の不揮発性の記憶媒体にコンピュータ読み取り可能に記憶することができる。不揮発性の記憶媒体は、一時的でない有形の媒体である。
【0039】
***動作の説明***
コピー数計測装置100の動作はコピー数計測方法に相当する。また、コピー数計測方法の手順はコピー数計測プログラムの手順に相当する。
【0040】
コピー数計測方法は、がん細胞における対象遺伝子のコピー数を計測する方法である。
対象遺伝子は、脳腫瘍の予後の予測に特化した遺伝子である。脳腫瘍の予後の予測に特化した遺伝子とは、1番染色体の短腕と19番染色体の長腕とのそれぞれのコピー数が共に減少しているか判定できる領域に存在する遺伝子のうち、脳腫瘍との関連が知られている遺伝子である。
具体的には、対象遺伝子は、ATRX、IDH1、IDH2、TP53、TERT、BRAF、PDGFRA、MET、EGFR、BRSK1、EHD2、AKT2、TP73、NMNAT1、TGFBR3およびPTENである。または、対象遺伝子はこれらの遺伝子のうちの一部である。
【0041】
実施の形態1における遺伝子パネルは、上記の対象遺伝子の少なくともいずれかを含む遺伝子セットを含む。
具体的には、遺伝子セットは上記の対象遺伝子の全てを含む。特に、遺伝子セットは上記の対象遺伝子から成る。
遺伝子パネルは、遺伝子の変異を解析するためのツールである。遺伝子パネルは、シーケンスパネルともいう。
【0042】
図2に基づいて、コピー数計測方法の手順を説明する。
ステップS110において、位置特定部110は、対象遺伝子毎に対象位置を特定する。
対象位置は、ヒトゲノム配列に対して変化している塩基のゲノム位置である。特に、有意に変化しているゲノム位置が対象位置となる。
ゲノム位置は、ヒトゲノム配列における塩基の位置である。
【0043】
具体的には、位置特定部110は、複数の腫瘍サンプルリードをヒトゲノム配列にマッピングする。そして、位置特定部110は、対象遺伝子毎に、ヒトゲノム配列の中の対象遺伝子の領域にマッピングされた腫瘍サンプルリードをヒトゲノム配列の中の対象遺伝子の領域と比較して対象位置を特定する。
複数の腫瘍サンプルリードは、腫瘍サンプルから得られた複数のリードである。
腫瘍サンプルは腫瘍の一部である。具体的な腫瘍は脳腫瘍である。腫瘍サンプルには、がん細胞と正常な細胞とが含まれる。
リードは、断片化された遺伝子配列であり、塩基の並びを示す文字列(塩基配列)で表される。
【0044】
図3に基づいて、位置特定処理(S110)の手順を説明する。
ステップS111において、位置特定部110は、複数の腫瘍サンプルリードをヒトゲノム配列にマッピングする。
複数の腫瘍サンプルリードは、DNAシークエンサーによって腫瘍サンプルから得られ、記憶部191に記憶されている。
DNAシークエンサーによって得られるリードの数は数十万本である。リードの長さは100塩基程度である。
【0045】
ステップS112において、位置特定部110は、複数の正常サンプルリードをヒトゲノム配列にマッピングする。
正常サンプルは腫瘍以外の部分である。
複数の正常サンプルリードは、DNAシークエンサーによって正常サンプルから得られ、記憶部191に記憶されている。
【0046】
ステップS113において、位置特定部110は、未選択の対象遺伝子を1つ選択する。
【0047】
ステップS114からステップS116までの処理は、ステップS113で選択された対象遺伝子に対して行われる。ヒトゲノム配列において対象遺伝子が存在する領域を対象領域という。
【0048】
ステップS114において、位置特定部110は、対象領域にマッピングされた腫瘍サンプルリードの塩基をヒトゲノム配列の中の対象領域の塩基と比較する。
そして、位置特定部110は、比較結果に基づいて、腫瘍サンプルにおける複数の変異位置を特定する。
変異位置は、ヒトゲノム配列に対して変化している塩基のゲノム位置である。つまり、変異位置は、SNV(Single Nucleotide Variant)の塩基のゲノム位置である。
変異位置を特定する方法は、SNVの塩基の位置を特定する従来の方法と同じである。
【0049】
図4に、ヒトゲノム配列に対して4つのリードがマッピングされた様子を示す。
マッピングされたリードの中の塩基「A」は、ヒトゲノム配列における塩基「T」と異なる。つまり、ヒトゲノム配列における塩基「T」に対して、マッピングされたリードの塩基は「A」に変化している。
したがって、ヒトゲノム配列における塩基「T」のゲノム位置は変異位置である。
【0050】
図3に戻り、ステップS115から説明を続ける。
ステップS115において、位置特定部110は、対象領域にマッピングされた正常サンプルリードの塩基をヒトゲノム配列の中の対象領域の塩基と比較する。
そして、位置特定部110は、比較結果に基づいて、正常サンプルにおける複数の変異位置を特定する。
変異位置を特定する方法は、SNVの塩基の位置を特定する従来の方法と同じである。
【0051】
ステップS116において、位置特定部110は、腫瘍サンプルにおける複数の変異位置を正常サンプルにおける複数の変異位置と比較する。
そして、位置特定部110は、比較結果に基づいて、腫瘍サンプルにおける複数の変異位置から有意な変異位置を選択する。有意な変異位置は、有意に変化している塩基の位置であり、対象位置として扱われる。
具体的には、位置特定部110は、フィッシャー検定または他の検定を行う。
【0052】
ステップS117において、位置特定部110は、未選択の対象遺伝子が有るか判定する。
未選択の対象遺伝子が有る場合、処理はステップS111に進む。
未選択の対象遺伝子が無い場合、位置特定処理(S110)は終了する。
【0053】
図2に戻り、ステップS120を説明する。
ステップS120において、頻度算出部120は、それぞれの対象遺伝子の対象位置毎にVAF(変異アリル頻度)を算出する。
【0054】
図5に基づいて、頻度算出処理(S120)の手順を説明する。
ステップS121において、頻度算出部120は、未選択の対象遺伝子を1つ選択する。
【0055】
ステップS122からステップS126までの処理は、ステップS121で選択された対象遺伝子に対して行われる。
【0056】
ステップS122において、頻度算出部120は、未選択の対象位置を1つ選択する。
【0057】
ステップS123からステップS125において、対象遺伝子はステップS121で選択された対象遺伝子を意味し、対象位置はステップS122で選択された対象位置を意味する。
【0058】
ステップS123において、頻度算出部120は、マッピングリード数を数える。
マッピングリード数は、複数の腫瘍サンプルリードのうち、対象位置を含む領域にマッピングされたリードの数である。
マッピングリード数は、シークエンスdepthと呼ばれる。
【0059】
ステップS124において、頻度算出部120は、変異リード数を数える。
変異リード数は、対象位置にマッピングされたリードのうち、対象位置の塩基がヒトゲノム配列における塩基と異なるリードの数である。
【0060】
ステップS125において、頻度算出部120は、マッピングリード数に対する変異リード数の割合を算出する。算出される割合がVAFである。
【0061】
ステップS126において、頻度算出部120は、未選択の対象位置が有るか判定する。
未選択の対象位置が有る場合、処理はステップS122に進む。
未選択の対象位置が無い場合、処理はステップS127に進む。
【0062】
ステップS127において、頻度算出部120は、未選択の対象遺伝子が有るか判定する。
未選択の対象遺伝子が有る場合、処理はステップS121に進む。
未選択の対象遺伝子が無い場合、頻度算出処理(S120)は終了する。
【0063】
図2に戻り、ステップS130を説明する。
ステップS130において、距離算出部130は、対象遺伝子毎に特徴距離を算出する。
特徴距離は、VAF(変異アリル頻度)に対するマッピングリード数の密度を示す密度分布においてピーク密度に対応するVAFと基準のVAF(=0.5)との差に相当する値である。また、特徴距離は、非特許文献1に記載されている|BAF deviation from 0.5|に相当する。
マッピングリード数は、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数を意味する。
【0064】
図6に基づいて、距離算出処理(S130)の手順を説明する。
ステップS131において、距離算出部130は、未選択の対象遺伝子を1つ選択する。
【0065】
ステップS132およびステップS133において、対象遺伝子はステップS131で選択された対象遺伝子を意味する。
【0066】
ステップS132において、距離算出部130は、VAFモデルを生成する。
VAFモデルは、ピーク密度に対応するVAFを特定するためのグラフである。
【0067】
図7に基づいて、モデル生成処理(S132)の手順を説明する。
ステップS1321において、距離算出部130は、対象位置毎のVAFと対象位置毎のマッピングリード数との関係を示す散布グラフを生成する。
【0068】
図8に、散布グラフ201を示す。散布グラフ201は散布グラフの一例である。
散布グラフ201において、横軸はVAFを示し、縦軸はマッピングリード数を示す。
散布グラフ201は、0.4に近いVAFに対応する対象位置に多くの腫瘍サンプルリードがマッピングされたことを示している。また、散布グラフ201は、0.6に近いVAFに対応する対象位置にも、ある程度の数の腫瘍サンプルリードがマッピングされたことを示している。
【0069】
ステップS1322において、距離算出部130は、散布グラフを密度分布グラフに変換する。密度分布グラフは、VAFとマッピング密度との関係を示す。
マッピング密度は、VAFに対するマッピングリード数の密度である。
【0070】
図9に、密度分布グラフ202を示す。密度分布グラフ202は、
図8の散布グラフ201を変換することによって得られる密度分布グラフである。
密度分布グラフ202において、横軸はVAFを示し、縦軸はマッピング密度を示す。
密度分布グラフ202は、0.4に近いVAFに対応するマッピング密度が高いことを示している。また、密度分布グラフ202は、0.6に近いVAFに対応するマッピング密度も、ある程度高いことを示している。
【0071】
ステップS1323において、距離算出部130は、密度分布グラフを用いて、相関グラフを生成する。生成される相関グラフがVAFモデルである。
相関グラフは、密度分布グラフの下位領域と密度分布グラフの上位領域との相関を示す。下位領域は基準のVAF(=0.5)以下の領域であり、上位領域は基準のVAF以上の領域である。
具体的には、相関グラフは、下位領域と上位領域とにおいて基準のVAFとの差の絶対値が等しいVAF同士の密度の相関を示す。
【0072】
距離算出部130は、以下のように相関グラフを生成する。
まず、距離算出部130は、密度分布グラフにおいて基準のVAF(=0.5)を対象軸にして上位領域(VAF>0.5)のグラフを下位領域(VAF<0.5)のグラフに線対称に写像する。
次に、距離算出部130は、下位領域において、元のグラフと写像されたグラフとの相関を示す相関値を求める。
次に、距離算出部130は、下位領域において、VAFと相関値との関係を示す相関グラフを生成する。
そして、距離算出部130は、基準のVAFを対象軸にして、下位領域を上位領域に線対称に写像する。
【0073】
図10に、相関グラフ203を示す。相関グラフ203は、
図9の密度分布グラフ202を用いて生成される相関グラフ(VAFモデル)である。
相関グラフ203において、横軸はVAFを示し、縦軸は相関値を示す。
相関グラフ203は、0.4に近いVAFに対応する相関値および0.6に近いVAFに対応する相関値が相関値のピークであることを示している。
【0074】
図6に戻り、ステップS133から説明を続ける。
ステップS133において、距離算出部130は、VAFモデルを用いて特徴距離を算出する。
具体的には、距離算出部130は、VAFモデル(相関グラフ)においてピーク相関値に対応するVAF(変異アリル頻度)と基準のVAF(=0.5)との差の絶対値を算出する。算出される絶対値が特徴距離である。
ピーク相関値は、VAFモデルにおける相関値のピークである。
ピーク相関値が複数有る場合、距離算出部130は、最大のピーク相関値に対応するVAFを用いて特徴距離を求める。
【0075】
例えば、距離算出部130は、ピーク相関値に対応するVAFを以下のように特定する。
距離算出部130は、対象VAFを変化させながら、対象VAFと低VAFと高VAFとの組毎に以下の処理を行う。低VAFは対象VAFより一定値だけ小さいVAFであり、高VAFは対象VAFより一定値だけ大きいVAFである。
まず、距離算出部130は、低VAFの相関値と対象VAFの相関値とを結ぶ第1直線を求める。さらに、距離算出部130は、対象VAFの相関値と高VAFの相関値とを結ぶ第2直線を求める。
次に、距離算出部130は、第1直線の傾きと第2直線の傾きとを求める。
次に、距離算出部130は、第1直線の傾きの符号を第2直線の傾きの符号と比較する。
そして、第1直線の傾きの符号が第2直線の傾きの符号と異なる場合、距離算出部130は、対象VAFを選択する。選択される対象VAFがピーク相関値に対応するVAFである。
【0076】
図11に、相関グラフ203における特徴距離を示す。|0.5-VAF|が特徴距離を示している。
相関グラフ203において、ピーク相関値に対応するVAFは約0.4および約0.6である。したがって、特徴距離は約0.1である。
【0077】
ステップS134において、距離算出部130は、未選択の対象遺伝子が有るか判定する。
未選択の対象遺伝子が有る場合、処理はステップS131に進む。
未選択の対象遺伝子が無い場合、処理はステップS135に進む。
【0078】
ステップS135において、距離算出部130は、対象染色体毎に特徴距離を算出する。
対象染色体は、1番染色体、10番染色体および19番染色体である。
対象染色体の特徴距離を算出する方法は、対象遺伝子の特徴距離を算出する方法と同様である。
【0079】
図2に戻り、ステップS140を説明する。
ステップS140において、係数算出部140は、対象遺伝子毎の特徴距離を用いて、補正係数を算出する。
補正係数は、腫瘍サンプルにおける対象遺伝子(および対象染色体)のコピー数を補正するための係数である。
腫瘍サンプルにおける対象遺伝子(および対象染色体)のコピー数を補正係数を用いて補正することにより、がん細胞における対象遺伝子(および対象染色体)のコピー数を得ることができる。
【0080】
図12に、関係モデル210を示す。
関係モデル210は、特徴距離とコピー数のLRR(Log R Ratio)との関係を示す。|0.5-VAF|が特徴距離を示している。
LRRは、正常細胞における遺伝子のコピー数に対するがん細胞における遺伝子のコピー数の割合を対数で表した値である。
【0081】
LRRは、以下の式で表すことができる。
LRR=log2(tumor/normal)
tumorはがん細胞における遺伝子のコピー数であり、normalは正常細胞における遺伝子のコピー数である。normalの値は2である。
tumorが2である場合、LRRは0であり、遺伝子の状態はUPD(Uniparental disomy)である可能性がある。UPDは、母親由来または父親由来の遺伝子のみが2コピーとなり、ヘテロ性が失われている状態である。
tumorが2未満である場合、LRRは負の値であり、遺伝子の状態はLOSSである。LOSSは遺伝子が減少している状態である。
tumorが2より大きい場合、LRRは正の値であり、遺伝子の状態はAMPである。AMPは遺伝子が増幅している状態である。
【0082】
非特許文献1に記載のように、特徴距離とコピー数のLRRとが関係モデル210に合致することが知られている。
がん細胞における遺伝子の特徴距離とがん細胞における遺伝子のLRRとを計測すると、
図13に示すようなグラフが得られる。各バツ印は計測点を示している。
【0083】
例えば、腫瘍サンプルにおける対象遺伝子の特徴距離と腫瘍サンプルにおける対象遺伝子のLRRとを計測した結果、
図14に示すようなグラフが得られたものと仮定する。腫瘍サンプルにおける対象遺伝子のLRRは、正常サンプルにおける対象遺伝子のコピー数に対する腫瘍サンプルにおける対象遺伝子のコピー数の割合の対数値である。
補正係数は、関係モデル210に対する計測点群のずれ量に相当する。つまり、補正係数を用いて計測点群を補正すると、
図13に示すように計測点群が関係モデル210に合致する。
【0084】
図15および
図16に基づいて、係数算出処理(S140)の手順を説明する。
ステップS141-1(
図15参照)において、係数算出部140は、対象遺伝子毎にLRRを算出する。さらに、係数算出部140は、対象染色体毎にLRRを算出する。
算出されるLRRは、正常サンプルにおける対象遺伝子(または対象染色体)のコピー数に対する腫瘍サンプルにおける対象遺伝子(または対象染色体)のコピー数の割合の対数値である。
【0085】
対象遺伝子(または対象染色体)のLRRは、ヒトゲノム配列の中の対象遺伝子(または対象染色体)の領域にマッピングされた腫瘍サンプルリードと正常サンプルリードとの数の割合に基づいて算出される。LRRを算出する方法は従来技術である。
【0086】
ステップS141-2において、係数算出部140は、対象遺伝子毎に仮コピー数を算出する。さらに、係数算出部140は、対象染色体毎に仮コピー数を算出する。
仮コピー数は、腫瘍サンプルにおける対象遺伝子(または対象染色体)のコピー数に相当する。
【0087】
具体的には、係数算出部140は、対象遺伝子(または対象染色体)のLRRに基づいて仮コピー数式を選択し、選択された仮コピー数式を対象遺伝子(または対象染色体)の特徴距離を用いて計算する。これにより、対象遺伝子(または対象染色体)の仮コピー数が算出される。仮コピー数式は仮コピー数を求めるための式である。
以下に示す各仮コピー数式において、CNtは対象遺伝子(または対象染色体)の仮コピー数であり、|0.5-VAF|は対象遺伝子(または対象染色体)の特徴距離である。
【0088】
LRRが正の値である場合の仮コピー数式は以下の通りである。
CNt=1/(0.5-|0.5-VAF|)
【0089】
LRRがゼロである場合の仮コピー数式は以下の通りである。
CNt=2.0
【0090】
LRRが負の値である場合の仮コピー数式は以下の通りである。
CNt=1/(0.5+|0.5-VAF|)
【0091】
ステップS142において、係数算出部140は、未選択の対象遺伝子を1つ選択する。
【0092】
ステップS143からステップS145-2までの処理は、ステップS142で選択された対象遺伝子に対して行われる。
【0093】
ステップS143において、係数算出部140は、対象遺伝子の仮コピー数を用いて、仮係数を算出する。
具体的には、係数算出部140は、以下の式を計算することによって、対象遺伝子の仮係数Ctを算出する。CNtは対象遺伝子の仮コピー数である。
Ct = 2.0 / CNt
【0094】
ステップS144において、係数算出部140は距離スコアを算出する。
【0095】
図17に基づいて、スコア算出処理(S144)の手順を説明する。
ステップS144-1において、係数算出部140は、1番染色体と10番染色体と19番染色体との3つの対象染色体から、未選択の対象染色体を1つ選択する。
【0096】
ステップS144-2からステップS144-5までの処理は、ステップS144-1で選択された対象染色体に対して行われる。
【0097】
ステップS144-2において、係数算出部140は、対象染色体のLRRに基づいて座標式を選択する。座標式は座標値を求めるための式である。
AMP用の式とUPD用の式とLOSS用の式との3種類の座標式が有る。
AMPは遺伝子の増幅を意味する。
UPDは遺伝子の片親性ダイソミーを意味する。
LOSSは遺伝子の欠損を意味する。
【0098】
具体的には、係数算出部140は座標式を以下のように選択する。
対象染色体のLRRが正の値である場合、係数算出部140はAMP用の式を選択する。
対象染色体のLRRがゼロである場合、係数算出部140はUPD用の式を選択する。
対象染色体のLRRが負の値である場合、係数算出部140はLOSS用の式を選択する。
【0099】
ステップS144-3において、係数算出部140は、選択された座標式を計算することによって、座標値を算出する。
具体的には、係数算出部140は、仮係数と対象染色体の仮コピー数とを用いて座標式を計算する。
以下に示す各座標式において、CNtは対象染色体の仮コピー数であり、Ctは仮係数であり、|0.5-VAF|は対象染色体の特徴距離である。そして、(x,y)が座標値である。
【0100】
AMP用の式は以下の通りである。
x=0.5-1/(CNt×Ct)
y=1/(0.5-|0.5-VAF|)
【0101】
UPD用の式は以下の通りである。
x=|0.5-VAF|
y=CNt×Ct
【0102】
LOSS用の式は以下の通りである。
x=1/(CNt×Ct)-0.5
y=1/(0.5+|0.5-VAF|)
【0103】
ステップS144-4において、係数算出部140は、算出された座標値を用いて、X方向における距離値とY方向における距離値とを算出する。
【0104】
具体的には、係数算出部140は、以下の式を計算することによって、X方向における距離値X%とY方向における距離値Y%とを算出する。
X%=||0.5-VAF|-x|/x
Y%=|CN
t
×C
t
-y|/|2-y|
【0105】
ステップS144-5において、係数算出部140は、X方向における距離値とY方向における距離値とを用いて、個別スコアを算出する。
【0106】
具体的には、係数算出部140は、以下の式を計算することによって、個別スコアScorenを算出する。m^2はmの二乗を意味する。
Scoren=X%^2+Y%^2
【0107】
ステップS144-6において、係数算出部140は、未選択の対象染色体が有るか判定する。
未選択の対象染色体が有る場合、処理はステップS144-1に進む。
未選択の対象染色体が無い場合、処理はステップS144-7に進む。
【0108】
ステップS144-7において、係数算出部140は、個別スコアの合計を算出する。個別スコアの合計が距離スコアである。
【0109】
具体的には、係数算出部140は、以下の式を計算することによって、距離スコアScoreを算出する。Scorenはn番染色体の個別スコアである。
Score=Score1+Score10+Score19
【0110】
図15に戻り、ステップS145-1から説明を続ける。
ステップS145-1において、係数算出部140は、距離スコアを最小スコアと比較する。なお、最小スコアの初期値は最小スコア用の変数における最大値である。
距離スコアが最小スコアより小さい場合、処理はステップS145-2に進む。
距離スコアが最小スコア以上である場合、処理はステップS146に進む。
【0111】
ステップS145-2において、係数算出部140は、基準係数の値を仮係数の値に更新する。基準係数の初期値は1である。
さらに、係数算出部140は、最小スコアの値を距離スコアの値に更新する。
【0112】
ステップS146において、係数算出部140は、未選択の対象遺伝子が有るか判定する。
未選択の対象遺伝子が有る場合、処理はステップS142に進む。
未選択の対象遺伝子が無い場合、処理はステップS147(
図16参照)に進む。
【0113】
ステップS147(
図16参照)において、係数算出部140は、未選択の対象遺伝子を1つ選択する。
【0114】
ステップS148-1からステップS148-5までの処理は、ステップS147で選択された対象遺伝子に対して行われる。
【0115】
ステップS148-1において、係数算出部140は基準係数を調整する。
具体的には、係数算出部140は、調整範囲から未選択の調整係数を1つ選択し、選択された調整係数を基準係数にかける。
調整範囲は、予め決められた範囲であり、複数の調整係数を含む。例えば、調整範囲は、0.80から1.20までの範囲であり、0.01刻みで41個の調整係数を含む。
基準係数を調整することによって得られる係数を調整後の基準係数という。
【0116】
ステップS148-2において、係数算出部140は、調整後の基準係数を用いて、距離スコアを算出する。距離スコアを算出する方法はステップS144(
図17参照)における方法と同様である。但し、仮係数の代わりに、調整後の基準係数が用いられる。
【0117】
ステップS148-3において、係数算出部140は、距離スコアを最小スコアと比較する。
距離スコアが最小スコアより小さい場合、処理はステップS148-4に進む。
距離スコアが最小スコア以上である場合、処理はステップS148-5に進む。
【0118】
ステップS148-4において、係数算出部140は、補正係数の値を調整後の基準係数の値に更新する。補正係数の初期値は1である。
さらに、係数算出部140は、最小スコアの値を距離スコアの値に更新する。
【0119】
ステップS148-5において、係数算出部140は、基準係数の調整を終了するか判定する。
具体的には、係数算出部140は、調整範囲の中に未選択の調整係数が有るか判定する。未選択の調整係数が無い場合、係数算出部140は基準係数の調整を終了する。
基準係数の調整を終了する場合、処理はステップS149に進む。
基準係数の調整を終了しない場合、処理ステップS148-1に進む。
【0120】
ステップS149において、係数算出部140は、未選択の対象遺伝子が有るか判定する。
未選択の対象遺伝子が有る場合、処理はステップS147に進む。
未選択の対象遺伝子が無い場合、係数算出処理(S140)は終了する。
【0121】
図2に戻り、ステップS150を説明する。
ステップS150において、コピー数算出部150は、腫瘍サンプルにおける対象遺伝子毎のコピー数と、補正係数とを用いて、がん細胞における対象遺伝子毎のコピー数を算出する。
【0122】
図18に基づいて、コピー数算出処理(S150)の手順を説明する。
ステップS151において、コピー数算出部150は、未選択の対象遺伝子を1つ選択する。
【0123】
ステップS152において、コピー数算出部150は、対象遺伝子の仮コピー数に補正係数をかける。対象遺伝子の仮コピー数は、ステップS141-2(
図15参照)で算出される。
対象遺伝子の仮コピー数に補正係数をかけることによって得られるコピー数が、がん細胞における対象遺伝子のコピー数、すなわち、対象遺伝子の正確なコピー数である。
【0124】
具体的には、コピー数算出部150は、以下の式を計算することによって、コピー数CNを算出する。Cbestは補正係数である。CN
t
は仮コピー数である。
CN=Cbest×CNt
【0125】
ステップS153において、コピー数算出部150は、未選択の対象遺伝子が有るか判定する。
未選択の対象遺伝子が有る場合、処理はステップS151に進む。
未選択の対象遺伝子が無い場合、処理はステップS154に進む。
【0126】
ステップS154において、コピー数算出部150は、対象染色体毎に正確なコピー数を算出する。
対象染色体の正確なコピー数を算出する方法は、対象遺伝子の正確なコピー数を算出する方法と同様である。
【0127】
***実施の形態1の効果***
図19は、ゲノム全体のコピー数を示している。
図20は、1番染色体、10番染色体および19番染色体のコピー数を示している。
ゲノム全体(
図19参照)ではコピー数の平均が2コピーである。しかし、がんに関連する遺伝子が含まれる1番染色体、10番染色体および19番染色体(
図20参照)においてはコピー数の平均が2コピーでない。
通常のCNV検出はコピー数の平均が2コピーであると仮定して行われるため、通常のCNV検出では、ターゲットシークエンスにおいて正確なコピー数を得ることはできない。
一方、実施の形態1では、コピー数を補正することにより、ターゲットシークエンスにおいて正確なコピー数を得ることができる。
【0128】
非特許文献2に記載のように、BAFの散布図は基準のBAF(=0.5)に対して線対称に分布するという性質が知られている。これはVAFにおいてもあてはまる。
実施の形態1では、この性質を利用し、散布グラフ201から得られる密度分布グラフ202において下位領域と上位領域との相関を取る。これにより、本グラフが得られた領域におけるVAFが正確に求まる。そのため、正確な特徴距離が求まる。その結果、正確なコピー数を算出することができる。
【0129】
実施の形態1では、正確なコピー数、すなわち、がん細胞における対象遺伝子毎のコピー数が算出される。
これにより、腫瘍サンプルにおけるがん細胞の含有率を求めることが可能となる。
【0130】
実施の形態2.
腫瘍サンプルにおけるがん細胞の含有率を求める形態について、主に実施の形態1と異なる点を
図21から
図23に基づいて説明する。
【0131】
***構成の説明***
図21に基づいて、コピー数計測装置100の構成を説明する。
コピー数計測装置100は、さらに、含有率算出部160をソフトウェア要素として備える。
コピー数計測プログラムは、さらに、含有率算出部160としてコンピュータを機能させる。
【0132】
***動作の説明***
図22に基づいて、コピー数計測方法を説明する。
ステップS110からステップS150までの処理は、実施の形態1(
図2参照)で説明した通りである。
【0133】
ステップS160において、含有率算出部160は、がん細胞における対象遺伝子毎のコピー数に基づいて、がん含有率を算出する。
がん含有率は、腫瘍サンプルにおけるがん細胞の含有率である。
【0134】
図23に基づいて、含有率算出処理(S160)の手順を説明する。
ステップS161において、含有率算出部160は、未選択の対象遺伝子を1つ選択する。
【0135】
ステップS162およびステップS163において、対象遺伝子はステップS161で選択された対象遺伝子を意味する。
【0136】
ステップS162において、含有率算出部160は、対象遺伝子のコピー数に基づいて、含有率式を選択する。
対象遺伝子のコピー数は、ステップS150で算出された対象遺伝子のコピー数、すなわち、がん細胞における対象遺伝子のコピー数である。
含有率式はがん含有率を求めるための式である。LOSS用の式とAMP用の式との2種類の含有率式が有る。LOSSは遺伝子の欠失を意味する。AMPは遺伝子の増幅を意味する。
【0137】
具体的には、含有率算出部160は含有率式を以下のように選択する。
対象遺伝子のコピー数が2未満である場合、含有率算出部160はLOSS用の式を選択する。
対象遺伝子のコピー数が2より大きい場合、含有率算出部160はAMP用の式を選択する。
【0138】
ステップS163において、含有率算出部160は、選択された含有率式を計算することによって、がん含有率を算出する。算出されたがん含有率が含有率候補となる。
具体的には、含有率算出部160は、対象遺伝子のコピー数を用いて、含有率式を計算する。
以下に示す各含有率式において、CRはがん含有率であり、CNはコピー数である。
【0139】
LOSS用の式は以下の通りである。
CR=2-CN
【0140】
LOSS用の式は、CNとCRとの関係を示す以下の式に基づいている。
CN=2(1-CR)+1×CR=2-CR
【0141】
AMP用の式は以下の通りである。nは、がん細胞におけるコピー数として推定される値である。nを推定することができない場合、AMP用の式を用いてがん含有率を算出することはできない。
CR=(CN-2)/(n-2)
【0142】
AMP用の式は、CNとCRとnとの関係を示す以下の式に基づいている。
CN=2(1-CR)+n×CR=2+(n-2)×CR
【0143】
ステップS164において、含有率算出部160は、未選択の対象遺伝子が有るか判定する。
未選択の対象遺伝子が有る場合、処理はステップS161に進む。
未選択の対象遺伝子が無い場合、処理はステップS165に進む。
【0144】
ステップS165において、含有率算出部160は、対象染色体毎に含有率候補を算出する。
対象染色体の含有率候補を算出する方法は、対象遺伝子の含有率候補を算出する方法と同様である。
【0145】
ステップS166において、含有率算出部160は、対象遺伝子毎の含有率候補と対象染色体毎の含有率候補とに基づいて、がん含有率を決定する。
例えば、含有率算出部160は、対象遺伝子毎の含有率候補と対象染色体毎の含有率候補との平均を算出する。算出された平均ががん含有率である。
【0146】
***実施の形態2の効果***
実施の形態2により、腫瘍サンプルにおけるがん細胞の含有率を求めることができる。
その結果、腫瘍サンプルにおけるがん細胞の含有率に応じて患者に適した治療を選択することが可能となる。
【0147】
***実施の形態の補足***
実施の形態は、好ましい形態の例示であり、本発明の技術的範囲を制限することを意図するものではない。実施の形態は、部分的に実施してもよいし、他の形態と組み合わせて実施してもよい。フローチャート等を用いて説明した手順は、適宜に変更してもよい。
【符号の説明】
【0148】
100 コピー数計測装置、110 位置特定部、120 頻度算出部、130 距離算出部、140 係数算出部、150 コピー数算出部、160 含有率算出部、191 記憶部、201 散布グラフ、202 密度分布グラフ、203 相関グラフ、210 関係モデル、901 プロセッサ、902 メモリ、903 補助記憶装置。