特許7519125 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 国立大学法人　東京大学の特許一覧

特許7519125融合遺伝子及び／又はエクソンスキッピングにより生ずる転写産物を検出するためのプローブ及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-07-10

(45)【発行日】2024-07-19

(54)【発明の名称】融合遺伝子及び／又はエクソンスキッピングにより生ずる転写産物を検出するためのプローブ及び方法

(51)【国際特許分類】

C12Q 1/6886 20180101AFI20240711BHJP

C12Q 1/6813 20180101ALI20240711BHJP

C12N 15/09 20060101ALN20240711BHJP

【ＦＩ】

C12Q1/6886 Z

C12Q1/6813 Z ZNA

C12N15/09

【請求項の数】 13

(21)【出願番号】P 2023024770

(22)【出願日】2023-02-21

(62)【分割の表示】P 2019526862の分割

【原出願日】2018-06-22

(65)【公開番号】P2023054163

(43)【公開日】2023-04-13

【審査請求日】2023-03-13

(31)【優先権主張番号】P 2017125074

(32)【優先日】2017-06-27

(33)【優先権主張国・地域又は機関】JP

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成２８年度、国立研究開発法人日本医療研究開発機構、［革新的先端研究開発支援事業インキュベートタイプ］「がん治療標的探索プロジェクト」委託研究、産業技術力強化法第１７条の適用を受ける特許出願

(73)【特許権者】

【識別番号】504137912

【氏名又は名称】国立大学法人東京大学

(74)【代理人】

【識別番号】110002572

【氏名又は名称】弁理士法人平木国際特許事務所

(72)【発明者】

【氏名】間野博行

(72)【発明者】

【氏名】高阪真路

(72)【発明者】

【氏名】上野敏秀

【審査官】田ノ上拓自

(56)【参考文献】

【文献】韓国公開特許第１０－２０１３－００８３１８５（ＫＲ，Ａ）

【文献】特表２０１６－５１０９９２（ＪＰ，Ａ）

【文献】特表２０１６－５１５３８４（ＪＰ，Ａ）

【文献】特表２０１５－５１６８１４（ＪＰ，Ａ）

【文献】国際公開第２０１７／０１５５１３（ＷＯ，Ａ１）

【文献】Genome Research, 2015年，Vol.25，p.1372-1381

【文献】Cancer Sci., 2012年，Vol.103, No.1，p.131-135

【文献】Genome Biology, 2009年，Vol.10，R115 (p.1-8)，doi:10.1186/gb-2009-10-10-r115

【文献】Blood, 2014年，Vol.124, No.21，2406 (p.1-6)

【文献】Cancer Res., 2016年，Vol.76 (14_Supplement)，1398 (p.1-3)

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｃ１２Ｑ１／００－３／００

Ｃ１２Ｎ１５／００－１５／９０

ＪＳＴＰｌｕｓ／ＪＭＥＤＰｌｕｓ／ＪＳＴ７５８０（ＪＤｒｅａｍＩＩＩ）

ＣＡｐｌｕｓ／ＭＥＤＬＩＮＥ／ＥＭＢＡＳＥ／ＢＩＯＳＩＳ（ＳＴＮ）

(57)【特許請求の範囲】

【請求項1】

大規模並列配列決定においてゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブセットを作製する方法であって、
前記融合遺伝子から発現された、5'側の遺伝子Aの一部と3'側の遺伝子Bの一部が連結点において連結した転写産物から調製したcDNAに対して各キャプチャープローブがハイブリダイズした時の前記各キャプチャープローブの末端部から前記連結点までの最短塩基長をx、前記各キャプチャープローブにおいてcDNAとハイブリダイズする領域の塩基長をy、大規模並列配列決定のリード長をzとした場合に、z≧x+yであり、かつxは300以下となるように、前記遺伝子A又はBのいずれかに由来する領域にハイブリダイズする３個以上のキャプチャープローブを2×タイリング以上の密度で設計すること、並びに
前記３個以上のキャプチャープローブからなるプローブセットを作製すること
を含む、前記方法。

【請求項2】

大規模並列配列決定においてエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブセットを作製する方法であって、
5'側のエクソンA'と3'側のエクソンB'が連結点において連結された転写産物から調製したcDNAに対して各キャプチャープローブがハイブリダイズした時の前記各キャプチャープローブの末端部から前記連結点までの最短塩基長をx、前記各キャプチャープローブにおいてcDNAとハイブリダイズする領域の塩基長をy、大規模並列配列決定のリード長をzとした場合に、z≧x+yであり、かつxは300以下となるように、前記エクソンA'又はB'のいずれかに由来する領域にハイブリダイズする３個以上のキャプチャープローブを2×タイリング以上の密度で設計すること、並びに
前記３個以上のキャプチャープローブからなるプローブセットを作製すること
を含む、前記方法。

【請求項3】

xが0～140、yが30～140、かつzが100～300である、請求項１又は２に記載の方法。

【請求項4】

大規模並列配列決定においてゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブセットを作製する方法であって、
前記融合遺伝子から発現された、5'側の遺伝子Aの一部と3'側の遺伝子Bの一部が連結点において連結した転写産物から調製したcDNAの前記連結点を含む領域にハイブリダイズする３個以上のキャプチャープローブを2×タイリング以上の密度で設計すること、並びに
前記３個以上のキャプチャープローブからなるプローブセットを作製すること
を含む、前記方法。

【請求項5】

大規模並列配列決定においてエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブセットを作製する方法であって、
5'側のエクソンA'と3'側のエクソンB'が連結点において連結された転写産物から調製したcDNAにおけるエクソンスキッピングが生じ得る前記連結点を含む領域にハイブリダイズする３個以上のキャプチャープローブを2×タイリング以上の密度で設計すること、並びに
前記３個以上のキャプチャープローブからなるプローブセットを作製すること
を含む、前記方法。

【請求項6】

前記プローブセットが、１０個以上の前記キャプチャープローブからなる、請求項１～５のいずれか一項に記載の方法。

【請求項7】

異なる複数の融合遺伝子に対する前記プローブセットからなる組み合わせプローブセットを作製することをさらに含む、請求項１～６のいずれか一項に記載の方法。

【請求項8】

前記異なる複数の融合遺伝子が、10以上である、請求項７に記載の方法。

【請求項9】

少なくとも1個の遺伝子発現量測定用プローブを作製することをさらに含む、請求項１～８のいずれか一項に記載の方法。

【請求項10】

前記プローブセット又は前記組み合わせプローブセットが、加工処理した生体サンプル由来の転写産物に対して用いるためのものである、請求項１～９のいずれか一項に記載の方法。

【請求項11】

請求項１～１０のいずれか一項に記載の方法に従ってプローブセット又は組み合わせプローブセットを作製することを含む、融合遺伝子の転写産物の存在又はその発現量、及び／又はエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのキットを作製する方法。

【請求項12】

被験体由来のサンプルから転写産物を調製する工程、
前記転写産物からcDNAを調製する工程、
請求項１～１０のいずれか一項に記載の方法に従ってプローブセット又は組み合わせプローブセットを作製する工程、
前記作製したプローブセット又は組み合わせプローブセットのプローブにハイブリダイズした標的cDNAを濃縮する工程、
濃縮された前記標的cDNAに対し、大規模並列配列決定による配列解析を行う工程、及び
前記配列解析の結果に基づいて、ゲノム上の融合遺伝子の転写産物及び／又はエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定する工程、
を含む、ゲノム上の融合遺伝子の転写産物及び／又はエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定する方法。

【請求項13】

請求項１２に記載の方法に従って、ゲノム上の融合遺伝子の転写産物、及び／又はエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定する工程、並びに
前記存在が検出されたとき、又は前記発現量が健常体と比べて高いときに、被験体が疾患に罹患しているか、又はそのリスクが高いと評価する工程
を含む、被験体における疾患の罹患有無又はそのリスクを判定する方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブ、エクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブ、該プローブを含むキット、該プローブを用いてゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定する方法、及びエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定する方法等に関する。

【背景技術】

【0002】

融合遺伝子は、体細胞がん変異の一因として知られており、これまでに融合遺伝子に起因するがんに対して幾つかの治療法が開発されている。例えば、慢性骨髄白血病におけるBCR-ABL1融合遺伝子（非特許文献1）、非小細胞肺がんにおけるEML4-ALK融合遺伝子（非特許文献2）等のがん変異を有する患者に対して、チロシンキナーゼ阻害剤を用いる第一選択療法が挙げられる。これにより融合遺伝子に起因するがんの治療成績が改善された。

【0003】

近年のシーケンシング技術の進歩によって、がんゲノム及びトランスクリプトームにおける染色体再構成の網羅的な検出が可能となり、RET、ROS1、NTRK1、NRG1、又はFGRF1/2/3遺伝子等の融合遺伝子が発見され（非特許文献3～8）、これらの融合遺伝子は、がんの診断にも応用されている。また、近年では融合遺伝子に加えてMET14エクソンスキッピング等のエクソンスキッピングもがんの原因となり得ることが示唆されている。

【0004】

しかしながら、これらの融合遺伝子及びエキクソンスキッピングの発生は比較的低頻度であり、その種類も多様であることから、標的遺伝子となる複数の融合遺伝子を同時に検出するのは困難であった。また、FISH、免疫組織化学、及び逆転写PCR等の従来法は、診断に専門的技術を要することから、臨床応用のために、簡便に多数の標的遺伝子を検出可能な方法が切望されている。

【0005】

アンプリコンPCR又はハイブリダイゼーションキャプチャーによるgDNAの標的遺伝子富化によるがん関連遺伝子のターゲットシーケンシングは、融合遺伝子等の変異の検出に用いられる方法の一例である。しかしながら、融合遺伝子等の連結点は、多くの場合各遺伝子のイントロンに広く分布している。そのため、通常のハイブリダイゼーションキャプチャー法では、融合遺伝子及びエクソンスキッピングの連結点を捕捉するためにイントロンに偏りなくプローブを作製する必要があり、多数のプローブを必要とする。

【0006】

また、新鮮な凍結サンプル又は細胞株から融合転写物を検出するための代替法として、RNAシーケンス（RNA-seq）が提案されている。しかし、ホルマリン固定パラフィン包埋（FFPE）等のRNAの質が低いサンプル（低質RNAサンプル）では、mRNA濃縮に通常用いられるポリA選択等によって信頼できるライブラリーを作製するのが困難なため、適用が難しい。また、低質RNAサンプルを用いる場合、RNA-seqには、cDNAキャプチャー法又はアンカードマルチプレックスPCRベースの方法が有用であるとの報告もあるが、これらの方法では対象となる遺伝子の種類が非常に限定的であるため、臨床的な有用性が低い。したがって、低質RNAサンプルについても簡便に多数の標的遺伝子を検出可能な方法が求められていた。

【先行技術文献】

【非特許文献】

【0007】

【文献】J. Erikson et al., Proc. Natl. Acad. Sci., USA 83, 1807-1811, 1986

【文献】M. Soda et al., Nature, 448, 561-566, 2007

【文献】T. Kohno et al., Nat. Med. 18, 375-377, 2012

【文献】K. Takeuchi et al., Nat. Med. 18, 378-381, 2012

【文献】D. Lipson et al., Nat. Med. 18, 382-384, 2012

【文献】L. Fernandez-Cuesta et al., Cancer Discov. 4, 415-422, 2014

【文献】A. Vaishnavi et al., Nat. Med., 19, 1469-1472, 2013

【文献】R. Wang, L et al., Clin. Cancer Res. 20,, 4107-4114, 2014

【発明の概要】

【発明が解決しようとする課題】

【0008】

一実施形態において、本発明は、融合遺伝子及び／又はエクソンスキッピングにより生ずる転写産物を簡便に検出可能な方法を提供することを課題とする。

【課題を解決するための手段】

【0009】

本発明者は、大規模並列配列決定においてゲノム上の融合遺伝子又はエクソンスキッピングにより生ずる転写産物を検出するために用い得るプローブを作製し、本プローブを用いてゲノム上の融合遺伝子又はエクソンスキッピングにより生ずる転写産物を効率的に検出できることを見出した。

【0010】

本願発明は、以下の態様を包含する。
（１）大規模並列配列決定においてゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブであって、
前記融合遺伝子が、5'側の遺伝子Aの一部と3'側の遺伝子Bの一部が仮想連結点において連結した転写産物を発現し、
前記プローブが前記転写産物から調製したcDNAの遺伝子A又はBのいずれかに由来する領域にハイブリダイズし、
前記cDNAにプローブがハイブリダイズした時の前記プローブの末端部から前記仮想連結点までの最短塩基長をx、前記プローブにおいてcDNAとハイブリダイズする領域の塩基長をy、大規模並列配列決定のリード長をzとした場合に、z≧x+yである、プローブ。
（２）大規模並列配列決定においてゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブセットであって、
前記融合遺伝子が、5'側の遺伝子Aの一部と3'側の遺伝子Bの一部が仮想連結点において連結した転写産物を発現し、
前記転写産物から調製したcDNAの遺伝子A又はBのいずれかに由来する領域にハイブリダイズする少なくとも2個の異なるプローブを含み、
前記cDNAにプローブがハイブリダイズした時の各前記プローブの末端部から前記仮想連結点までの最短塩基長をx、各前記プローブにおいてcDNAとハイブリダイズする領域の塩基長をy、大規模並列配列決定のリード長をzとした場合に、z≧x+yである、プローブセット。
（３）大規模並列配列決定においてエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブであって、
前記転写産物において、5'側のエクソンA'と3'側のエクソンB'が仮想連結点において連結されており、
前記プローブが前記転写産物から調製したcDNAのエクソンA'又はB'のいずれかに由来する領域にハイブリダイズし、
前記cDNAにプローブがハイブリダイズした時の前記プローブの末端部から前記仮想連結点までの最短塩基長をx、前記プローブにおいてcDNAとハイブリダイズする領域の塩基長をy、大規模並列配列決定のリード長をzとした場合に、z≧x+yである、プローブ。
（４）大規模並列配列決定においてエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブセットであって、
前記転写産物において、5'側のエクソンA'と3'側のエクソンB'が仮想連結点において連結されており、
前記転写産物から調製したcDNAのエクソンA'又はB'のいずれかに由来する領域にハイブリダイズする少なくとも2個の異なるプローブを含み、
前記cDNAにプローブがハイブリダイズした時の各前記プローブの末端部から前記仮想連結点までの最短塩基長をx、各前記プローブにおいてcDNAとハイブリダイズする領域の塩基長をy、大規模並列配列決定のリード長をzとした場合に、z≧x+yである、プローブセット。
（５）xが0～140、yが30～140、zが100～300である、（１）～（４）のいずれかに記載のプローブ又はプローブセット。
（６）前記プローブを少なくとも6個含む、（２）、（４）、及び（５）のいずれかに記載のプローブセット。
（７）z≧x+yを満たすプローブのみからなる、（２）及び（４）～（６）のいずれかに記載のプローブセット。
（８）プローブセットがn個のプローブを含み、各プローブの前記最短塩基長をそれぞれx₁、x₂、x₃、…x_n（ただし、x₁＜x₂＜x3…＜x_n）とした場合に、
x₁＝0、x₂＝x_n×1/（n-1）、x₃＝x_n×2/（n-1）、…x_n= x_n×（n-1）/（n-1）
である、（２）及び（４）～（７）のいずれかに記載のプローブセット。
（９）大規模並列配列決定においてゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブであって、
前記融合遺伝子が、5'側の遺伝子Aの一部と3'側の遺伝子Bの一部が仮想連結点において連結した転写産物を発現し、
前記転写産物から調製したcDNAの前記仮想連結点を含む領域にハイブリダイズする、プローブ。
（１０）大規模並列配列決定においてゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブセットであって、
前記融合遺伝子が、5'側の遺伝子Aの一部と3'側の遺伝子Bの一部が仮想連結点において連結した転写産物を発現し、
前記転写産物から調製したcDNAの前記仮想連結点を含む領域にハイブリダイズする少なくとも2個の異なるプローブを含む、プローブセット。
（１１）大規模並列配列決定においてエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブであって、
前記転写産物において、5'側のエクソンA'と3'側のエクソンB'が仮想連結点において連結されており、
前記転写産物から調製したcDNAにおけるエクソンスキッピングが生じ得る前記仮想連結点を含む領域にハイブリダイズする、プローブ。
（１２）大規模並列配列決定においてエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブセットであって、
前記転写産物において、5'側のエクソンA'と3'側のエクソンB'が仮想連結点において連結されており、
前記転写産物から調製したcDNAにおけるエクソンスキッピングが生じ得る前記仮想連結点を含む領域にハイブリダイズする、少なくとも2個の異なるプローブを含む、プローブセット。
（１３）（１）～（１２）のいずれかに記載の異なる複数のプローブ又はプローブセットを含む、組み合わせプローブセット。
（１４）少なくとも1個の遺伝子発現量測定用プローブをさらに含む、（１）～（１２）のいずれかに記載のプローブ又はプローブセット又は（１３）に記載の組み合わせプローブセット。
（１５）加工処理した生体サンプル由来の転写産物に対して用いるための、（１）～（１４）のいずれかに記載のプローブ、プローブセット又は組み合わせプローブセット。
（１６）（１）～（１５）のいずれかに記載のプローブ、プローブセット又は組み合わせプローブセットを含む、キット。
（１７）被験体由来のサンプルから転写産物を調製する工程、
前記転写産物からcDNAを調製する工程、
（１）～（１５）のいずれかに記載のプローブ、プローブセット又は組み合わせプローブセットのプローブにハイブリダイズした標的cDNAを濃縮する工程、
濃縮された前記標的cDNAに対し、大規模並列配列決定による配列解析を行う工程、及び
前記配列解析の結果に基づいて、ゲノム上の融合遺伝子の転写産物を含む転写産物の存在又はその発現量を判定する工程、
を含む、ゲノム上の融合遺伝子の転写産物を含む転写産物の存在又はその発現量を判定する方法。
（１８）前記判定が、以下の工程：
前記融合遺伝子が、5'側の遺伝子Aの一部と3'側の遺伝子Bの一部が仮想連結点において連結した転写産物を発現するとしたときに、
仮想連結点において遺伝子融合が生じていない遺伝子A由来のcDNAのリード数をα、遺伝子B由来のcDNAのリード数をβとし、仮想連結点において遺伝子融合が生じている融合遺伝子由来のcDNAのリード数をγとした場合に、
0＜α又はβ≦γである場合、融合遺伝子が存在すると判定し、
0＜γ＜α又はβである場合、低い発現量で融合遺伝子が存在すると判定し、
α又はβ>0、γ=0である場合、融合遺伝子が存在しないと判定する工程によって行われる、（１７）に記載の方法。
（１９）被験体由来のサンプルから転写産物を調製する工程、
前記転写産物からcDNAを調製する工程、
（１）～（１５）のいずれかに記載のプローブ、プローブセット又は組み合わせプローブセットのプローブにハイブリダイズした標的cDNAを濃縮する工程、
濃縮された前記標的cDNAに対し、大規模並列配列決定による配列解析を行う工程、及び
前記配列解析の結果に基づいて、エクソンスキッピングにより生じる転写産物を含む転写産物の存在又はその発現量を判定する工程、
を含む、エクソンスキッピングにより生じる転写産物を含む転写産物の存在又はその発現量を判定する方法。
（２０）判定が、以下の工程：
前記転写産物において、5'側のエクソンA'と3'側のエクソンB'が仮想連結点において連結されているとしたときに、
仮想連結点において遺伝子融合が生じていないエクソンA'由来のcDNAのリード数をα'、エクソンB'由来のcDNAのリード数をβ'とし、エクソンスキッピングにより生じる転写産物由来のcDNAのリード数をγ'とした場合に、
0＜α'又はβ'≦γ'である場合、エクソンスキッピングにより生じる転写産物が存在すると判定し、
0＜γ'＜α'又はβ'である場合、低い発現量でエクソンスキッピングにより生じる転写産物が存在すると判定し、
α'又はβ'>0、γ'=0である場合、エクソンスキッピングにより生じる転写産物が存在しないと判定する工程によって行われる、（１９）に記載の方法。
（２１）前記判定工程において、同じ領域にハイブリダイズする複数のプローブが存在する場合、該複数のプローブの数に基づいて転写産物の発現量を補正することを含む、（１７）～（２０）のいずれかに記載の方法。
（２２）前記判定工程において、ハウスキーピング遺伝子の発現量に基づいて、転写産物の発現量を補正することを含む、（１７）～（２１）のいずれかに記載の方法。
（２３）（１７）～（２２）のいずれかに記載の方法に従って、ゲノム上の融合遺伝子の転写産物、及び／又はエクソンスキッピングにより生じる転写産物を含む転写産物存在又はその発現量を判定する工程、
を含む、被験体における疾患の罹患有無又はそのリスクを判定する、がんの種類を特定する、又はがんの予後を判定する方法。
（２４）がんの種類の特定が、複数の転写産物の存在及び／又は発現量に基づいて、被験体由来のサンプルをクラスタリングすることを含む、（２３）に記載の方法。

【0011】

本明細書は本願の優先権の基礎となる日本国特許出願番号2017-125074号の開示内容を包含する。

【発明の効果】

【0012】

本発明により、融合遺伝子及び／又はエクソンスキッピングにより生じる転写産物を簡便に検出できる方法が提供され得る。

【図面の簡単な説明】

【0013】

【図1】図1Aは、本発明の一実施形態のプローブの概念図である。図示したプローブはいずれも右側末端部が5'末端、左側末端部が3'末端である。仮想連結点を含む連結支持リードが得られる様に、リード長z及びプローブにおいてcDNAとハイブリダイズする領域の塩基長yに基づいて、プローブの末端部から仮想連結点までの最短塩基長xを定めることができる。図1Bは、本発明の一実施形態の方法において、配列決定の結果から融合遺伝子及び／又はエクソンスキッピングにより生ずる転写産物を検出する方法の一例を示す。図1Bに示す様に、仮想連結点において遺伝子変異（遺伝子融合又はエクソンスキッピング）が生じていない遺伝子A由来のcDNAのリード数をα、遺伝子B由来のcDNAのリード数をβとし、仮想連結点において遺伝子変異が生じている融合遺伝子由来のcDNAのリード数をγとした場合に、0＜α又はβ≦γである場合、変異遺伝子が存在すると判定し、0＜γ＜α又はβである場合、低い発現量で変異遺伝子が存在すると判定し、α又はβ>0、γ=0である場合、変異遺伝子が存在しないと判定することができる。

【図2】図2Aは、示した各方法における、10M（1000万）ローリード（raw read）あたりの連結支持リードの数を示す（Pancancer panelは、FFPE由来の合成cDNAの全エクソンキャプチャーを示す）。本発明の一実施形態のジャンクションキャプチャー法と、従来のコーディングエクソンキャプチャー法を用いた場合の、プローブ数を図2Bに、標的キャプチャーサイズを図2Cに示す。図2B及び図2CにおけるV1、V2、及びV3は、実施例において記載した遺伝子パネル（TOP RNA V1、TOP RNA V2、及びTOP RNA V3）における結果を示している。

【図3】図3Aは、3つの異なる方法：すなわち、新鮮凍結サンプルから抽出したRNAのポリA選択（ポリAキャプチャー）、FFPE由来の合成cDNAの全エクソンキャプチャー（Pancancer panel）、又はFFPE由来の合成cDNAのジャンクションキャプチャーを用いて、RNA-seqによってMETエクソン14スキッピング陽性の症例において、MET転写産物にシーケンスリードをマッピングした結果を示す。図中、2本の縦線で挟まれた領域は、METエクソン14に相当する領域を示し、この領域にリードがないことがエクソンスキッピング陽性であることを示す。図3Bは、各方法における、1000万ローリードあたりのMETエクソン13及びMETエクソン15の連結（エクソンスキッピング）支持リードの数を示す。

【図4】図4Aは、ヘマトキシリン及びエオシン染色した骨髄吸引標本の代表的な写真である（200×倍率、スケールバー100μm）。図4Bは、ヘマトキシリン及びエオシン染色したTBLB標本の代表的な写真である（左、40×倍率、スケールバー1mm。右、400×倍率、スケールバー100μm）。

【図5】図5は、RNA-seqのRPKMと、ジャンクションキャプチャー法におけるタイリング数に基づく補正を行ったRPKMの相関を示す図である。発現量測定用遺伝子群の結果をAに、融合遺伝子解析用遺伝子群の結果をBに示す。7つのサンプル全てにおいて相関がみられた。

【図6】図6は、遺伝子の発現量に基づいてサンプルをクラスタリングした結果を示す。縦軸は各遺伝子を示し、発現強度に応じてクラスタリングを行った。横軸は各サンプルを示し、LUAD、SARC、MUCA、及びLUSC等のがん種に応じてサンプルがクラスタリングされたことがわかる。

【発明を実施するための形態】

【0014】

１．ゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブ
一態様において、本発明は、大規模並列配列決定においてゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブに関する。

【0015】

本明細書において、「大規模並列配列決定（Massively Parallel Sequencing）」は、DNAの配列決定を大規模かつ並列に実施する方法を意味し、大規模並列配列決定では通常、10²、10³、10⁴、10⁵又はそれ以上の分子が同時にシーケンシングされる。大規模並列配列決定には、例えば次世代シーケンスが含まれる。

【0016】

次世代シーケンスとは、次世代シーケンサーを用いた配列情報の取得法であり、Sanger法に比べて膨大な数のシーケンシング反応を同時並行して実行できることを特徴とする（例えば、Rick Kamps et al., Int. J. Mol. Sci., 2017, 18(2), p. 308及びInt. Neurourol. J., 2016, 20(Suppl. 2), S76-83を参照されたい）。次世代シーケンスのためのシステムには様々なものが提供されており、限定するものではないが、例えばRocheのGenome Sequencer（GS）FLX System、IlluminaのHiSeq、又はGenome Analyzer（GA）、Life technologiesのSupport Oligonucleotide Ligation Detection（SOLiD）システム、PolonatorのG.007システム、及びHelicos BioSciencesのHeliScope Gene Sequencingシステム等を用いることができる。

【0017】

限定するものではないが、次世代シーケンスの一般的な工程を以下に示す。次世代シーケンスではまず初めに、サンプル調製を行う。この工程では、解析対象となる核酸を、次世代シーケンサーのリード長に合わせて酵素的又は機械的に断片化する。続いて、多くの場合、次のシーケンス工程に必要なアダプター配列を付加する。また、特定の遺伝子領域を解析するために、PCR等により特定の遺伝子領域を富化してもよいし、又はプローブ等を用いて特定の配列を有する領域を濃縮してもよい。遺伝子領域の富化は、例えば4～12サイクルの増幅ステップにより行うことができ、プローブを用いた濃縮はプローブに付した標識子（例えばビオチン等）を利用して行うことができる。

【0018】

続いて、シーケンシングが行われる。この工程の詳細は、次世代シーケンサーの種類により異なるが、典型的にはアダプター配列を介して基板に連結させ、またアダプター配列をプライミング部位としてシーケンシング反応が行われる。シーケンス反応の詳細については、例えばRick Kamps et al.（上掲）を参照されたい。

【0019】

最後に、データ出力が行われる。この工程では、シーケンシング反応により得られた配列情報（リード）を集めたものが得られる。出力されたデータをさらに解析して、リード数、例えばローリード当たり連結支持リード数等のより意味のある結果を導くことができる。

【0020】

本明細書において、「リード数」とは、特定の配列を有する増幅産物の増幅量を指す。リード数は、通常シーケンシング前の核酸の量に比例することから、リード数を利用して遺伝子の発現量を推定し得る。

【0021】

本明細書において、「連結支持リード」とは、遺伝子融合又はエクソンスキッピングにより生ずる転写産物における連結点、又は遺伝子融合又はエクソンスキッピングにより生ずるゲノム上の連結点を含むリードを意味し、「連結支持リード数」は、連結支持リードの数を意味する。本明細書において、「ローリード（raw read）」とは、次世代シーケンスによって得られたリードの総数を示し、ローリード当たりの連結支持リード数を算出することによって、連結支持リードの頻度を評価することができる。

【0022】

本明細書において、「ゲノム上の融合遺伝子」とは、欠失、挿入、逆位、及び転座等によって生じる染色体再構成の結果、複数の遺伝子が連結されて生じる変異遺伝子を指す。通常、融合遺伝子は、その発現産物として転写によりRNA分子を生じる。例えば、RNA分子の例として融合タンパク質をコードするmRNA等の転写産物が挙げられる。本明細書において、融合遺伝子の種類は限定しないが、例えば発癌性を有する融合遺伝子、例えばEML4-ALK、BCR-ABL1、KIF5B-RET、SLC34A2-ROS1、CD74-ROS1、SS18-SSX1、SS18-SSX2、NAB2-STAT6、EWSR1-FLI1、SYT-SSX1、FUS-CREB3L2、TPM3-ROS1、CD74-NRG1、及びEWSR1-FLI1等が挙げられる。

【0023】

本発明において、ゲノム上の融合遺伝子の転写産物の「存在」とは、融合遺伝子のゲノム上の有無を指し、融合遺伝子の転写産物の「発現量」は、融合遺伝子に由来するmRNA、rRNA、及びtRNA等の転写産物、好ましくはmRNAの発現量を指す。

【0024】

一実施形態において、本発明のプローブは、融合遺伝子が、5'側の遺伝子Aの一部と3'側の遺伝子Bの一部が仮想連結点において連結した転写産物を発現するとした場合、前記転写産物から調製したcDNAの遺伝子A又はBのいずれかに由来する領域にハイブリダイズする。融合遺伝子を形成し得る各遺伝子、及び仮想連結点については科学論文、特許文献、及びCOSMIC等のデータベースを参照して、決定することができる。

【0025】

本明細書において、「エクソン」とは、遺伝子の塩基配列のうち、成熟転写産物中に残る領域を意味する。一般に、真核生物では、遺伝子は一次転写産物として転写された後、スプライシングによりイントロンと呼ばれる介在領域が除去され、エクソン同士が連結されて成熟転写産物が形成される。例えば、タンパク質をコードする遺伝子の場合、転写によって生じたmRNA前駆体（pre-miRNA）からpre-miRNAスプライシングによってイントロンが除去されて連結されたエクソンで構成される成熟miRNAが生じる。

【0026】

一実施形態において、転写産物のRNA分子から調製したcDNAにプローブがハイブリダイズした時の各プローブの5'側又は3'側のいずれかの末端部から前記仮想連結点までの最短塩基長をx、各前記プローブにおいてcDNAとハイブリダイズする領域の塩基長をy、大規模並列配列決定のリード長をzとした場合に、z≧x+yとなるように、プローブを設計する。このような仮想連結点を含まない核酸領域にハイブリダイズするプローブを、以下「仮想連結点非含有プローブ」とも記載する。仮想連結点非含有プローブは、複数の融合パートナー、及び新規な融合遺伝子を検出し得るという利点を有する。

【0027】

本発明の理解を容易にするために、本実施形態のプローブの設計を図1Aに示す。図1Aでは、プローブの末端部から仮想連結点までの最短塩基長x、前記プローブにおけるcDNAとハイブリダイズする領域の塩基長y、及びリード長zが示され、大規模並列配列決定によって仮想連結点を含むリードが得られ得ることを示している。

【0028】

一実施形態において、リード長zは、大規模並列配列決定に用いる機器及び方法等により定まる。また、サンプル由来の核酸が断片化されている場合及び／又はシーケンス前に核酸の断片化を行う場合、これらの断片の長さによりリード長が規定されることがあり得る。リード長zの長さは限定しないが、例えば50以上、75以上、100以上、150以上、又は160以上であってよく、500以下、400以下、300以下、200以下、又は180以下であってよく、例えば50～500、100～300、又は150～200であってよい。なお、大規模並列配列決定では、核酸の片側からのみシーケンスを行うシングルリードと、核酸の両側からシーケンスを行うペアエンドが存在するが、上記リード長zは好ましくはペアエンドにおけるリード長である。

【0029】

プローブにおいてcDNAとハイブリダイズする領域の塩基長yは、当業者であれば適宜定めることができる。yは、例えば20以上、30以上、40以上、好ましくは50以上、60以上、又は80以上であってよく、220以下、200以下、180以下、好ましくは160以下、140以下、又は120以下であってよく、例えば20～220、50～160、又は60～140であってよい。好ましくは、プローブは仮想連結点に近い末端部から連続する領域においてcDNAとハイブリダイズする。一実施形態において、プローブはその全長においてcDNAとハイブリダイズし、この場合、yはプローブの長さと同一となる。

【0030】

プローブの塩基長は、限定しないが、例えば20以上、40以上、60以上、80以上、100以上、110以上、又は115以上であってよく、220以下、200以下、180以下、160以下、140以下、130以下、又は125以下であってよく、例えば20～220、60～180、100～140、110～130、115～125、又は120であってよい。

【0031】

プローブの末端部から仮想連結点までの最短塩基長xは、上記リード長z及びプローブにおいてcDNAとハイブリダイズする領域の塩基長yに基づいて適宜定めることができる。例えば、プローブの末端部から仮想連結点までの最短塩基長xの下限は0であり、これは仮想連結点に隣接する領域に対してプローブが設計されていることを意味する。xの上限は限定されず、例えば300以下、250以下、200以下、150以下、140以下、130以下、125以下、120以下であってよく、xは例えば0～300、0～200、0～140、0～125、又は0～120であってよい。

【0032】

z≧x+y+a（a≧0）は、仮想連結点を超えてa塩基以上の配列を含むリードが得られ得ることを示しており、このように仮想連結点の付近にプローブを複数設計することによって、このプローブを用いて、融合遺伝子に関する様々な種類の転写産物を効率的に濃縮し得る。aの値は0以上であれば特に限定しないが、大きくすると特異性が高まる一方検出感度が下がるため、当業者であれば本明細書の内容を参照して適宜定めることができる。aの値は、例えば5以上、10以上、好ましくは15以上、20以上、30以上、50以上、又は100以上であってよく、500以下、400以下、好ましくは300以下、200以下、又は150以下であってよい。

【0033】

プローブは、標的遺伝子の配列に基づいて当業者であれば容易に設計することができる。本明細書において、「標的遺伝子」とは、本発明のプローブによって捕捉され得る遺伝子、例えば融合遺伝子を形成し得る遺伝子、及びエクソンスキッピングを生じ得る遺伝子等を指す。

【0034】

そのようなプローブの例として、例えば、（a）標的遺伝子の相補的な配列の連続する少なくとも20、40、60、80、100、110、115、又は120の塩基配列、（b）（a）の塩基配列において、1若しくは複数個の塩基が付加、欠失、及び／若しくは置換された塩基配列、（c）（a）の塩基配列に対して、例えば70%以上、80%以上、好ましくは90%以上、95%以上、97%以上、98%以上、若しくは99%以上の同一性を有する塩基配列、及び（d）標的遺伝子の連続する少なくとも20、40、60、80、100、110、115、又は120の配列に対して、ストリンジェントな条件でハイブリダイズする核酸の塩基配列を含むプローブが挙げられる。

【0035】

本明細書において、「１若しくは複数個」の範囲は、1から10個、好ましくは1から7個、さらに好ましくは1から5個、特に好ましくは1から3個、あるいは1個又は2個である。また、本明細書において、塩基配列に関する同一性の値は、複数の配列間の同一性を演算するソフトウェア（例えば、FASTA、DANASYS、及びBLAST）を用いてデフォルトの設定で算出した値を示す。同一性の決定方法の詳細については、例えばAltschul et al, Nuc. Acids. Res. 25, 3389-3402, 1977及びAltschul et al, J. Mol. Biol. 215, 403-410, 1990を参照されたい。

【0036】

本明細書において、「ストリンジェントな条件」とは、いわゆる特異的なハイブリッドが形成され、非特異的なハイブリッドが形成されない条件を意味する。ストリンジェントな条件は、公知のハイブリダイゼーション法の条件を利用することができる。例えばGreen and Sambrook, Molecular Cloning, 4th Ed (2012), Cold Spring Harbor Laboratory Press を参照して適宜決定すればよい。具体的には、ハイブリダイゼーション法温度や溶液に含まれる塩濃度、及びハイブリダイゼーション法の洗浄工程における温度や溶液に含まれる塩濃度によりストリンジェントな条件を設定すればよい。より詳細なストリンジェントな条件としては、例えば、ナトリウム濃度が25～500mM、好ましくは25～300mMであり、温度が42～68℃、好ましくは42～65℃が挙げられる。より具体的には、5×SSC (83mM NaCl、83mMクエン酸ナトリウム)、温度42℃が挙げられる。

【0037】

プローブは、上記配列に基づいて当業者に知られる公知の方法により調製することができ、限定されるものではないが、例えば化学合成法によって調製することができる。

【0038】

一実施形態において、本発明は、異なる前記プローブを少なくとも2個含むプローブセットに関する。前記プローブの数は2個以上であれば特に限定しないが、少なすぎれば検出感度が低下し、多すぎるとコストが増加することから、感度及びコスト等を勘案し、本明細書の内容を参照して適宜定めればよい。プローブセットに含まれ得る前記プローブの数は、例えば3個以上、4個以上、5個以上、6個以上、8個以上、10個以上、又は11個以上、また30個以下、25個以下、20個以下、15個以下、14個以下、13個以下、又は12個以下であってよい。

【0039】

プローブセットに含まれる各プローブの末端部から前記仮想連結点までの最短塩基長xは、それぞれの値が同一でなく、また分散していることが好ましい。これにより、様々な核酸断片を捕捉し得るからである。例えば、プローブセットがn個のプローブを含み、各プローブの最短塩基長をそれぞれx₁、x₂、x₃、…x_n（ただし、x₁＜x₂＜x3…＜x_n）とした場合、

【0040】

【数1】

【0041】

となるように、各プローブの最短塩基長を定めることができる。bは定数で、bが0である場合、各プローブの最短塩基長xが、仮想連結点から均等に分布していることを意味し、bの値が大きくなるほど仮想連結点からの分布が不均等になることを意味する。bは、例えば50以下、40以下、30以下、25以下、20以下、15以下、10以下、好ましくは5以下、4以下、3以下、2以下、1以下、又は0である。また、x_nは、任意の値であってよく、例えば20～500、30～400、40～300、60～200、80～180、好ましくは100～140、110～130、115～125、又は120であってよい。

【0042】

また、プローブの数nが3以上である場合、上記式にしたがってプローブを設計した後、m個のプローブをプローブセットから除いてもよい（ただし、mは1以上の整数、例えば1～5、1～4、1～3、1～2、好ましくは1で、n-m≧2である）。

【0043】

一実施形態において、本発明のプローブは、次世代シーケンスのシーケンシング工程の前に特定の核酸配列を濃縮するために用いることができる。

【0044】

一態様において、本発明のプローブは、仮想連結点を含む核酸領域にハイブリダイズする。このような仮想連結点を含む核酸領域にハイブリダイズするプローブを、以下「仮想連結点含有プローブ」とも記載する）。仮想連結点含有プローブ、又はそのセットについて、仮想連結点を含む核酸領域にハイブリダイズするプローブを含む以外の構成、例えばプローブにおいてcDNAとハイブリダイズする領域の塩基長y及びプローブセットに含まれるプローブの数は、上述の「仮想連結点非含有プローブ」と同様である。ただし、仮想連結点含有プローブは、遺伝子Aの一部と遺伝子Bの一部の融合により生じる一つの融合遺伝子のみを検出するため、特異性が高いが、様々な融合パートナーを検出することができない。

【0045】

一実施形態において、仮想連結点含有プローブは、前記融合遺伝子の転写産物から調製したcDNAの5'側の遺伝子Aと3'側の遺伝子Bの双方に由来する領域の10塩基以上、15塩基以上、20塩基以上、30塩基以上、40塩基以上、50塩基以上、又は60塩基以上にハイブリダイズする。

【0046】

一実施形態において、本発明のプローブセットは、上記「仮想連結点非含有プローブ」に加えて、「仮想連結点含有プローブ」を含む。両方のプローブを含むことで、検出特異性をさらに高め得る。一実施形態において、本発明のプローブセットは、z≧x+yを満たすプローブ、及び前記仮想連結点含有プローブのみからなる。また別の一実施形態において、本発明のプローブセットは、z≧x+yを満たすプローブのみからなる。

【0047】

本発明のプローブセットは評価対象となる全ての標的遺伝子のエクソンの5'末端側及び3'末端側について設計されてもよいが、融合遺伝子を形成することが知られている遺伝子の、遺伝子融合に関わるエクソンの5'末端側及び／又は3'末端側についてのみプローブを設計することが好ましい。

【0048】

一実施形態において、本発明のプローブ又はプローブセットは、少なくとも1個の遺伝子発現量測定用プローブをさらに含む。遺伝子発現量測定用プローブとは、大規模並列配列決定において遺伝子発現量を測定するために用いられるプローブである。遺伝子発現量測定用プローブは、発現量を測定しようとする遺伝子に対して万遍なく、また、例えば2×タイリング以上の密度で設計することができる。遺伝子発現量測定用プローブの塩基長は、限定しないが、例えば20以上、40以上、60以上、80以上、100以上、110以上、又は115以上であってよく、220以下、200以下、180以下、160以下、140以下、130以下、又は125以下であってよく、例えば20～220、60～180、100～140、110～130、115～125、又は120であってよい。一つの遺伝子に対する遺伝子発現量測定用プローブの数は限定しないが、例えば3個以上、4個以上、5個以上、6個以上、8個以上、10個以上、又は11個以上、また30個以下、25個以下、20個以下、15個以下、14個以下、13個以下、又は12個以下であってよい。遺伝子発現量測定用プローブは、「複数」の遺伝子、例えば2以上、5以上、10以上、50以上、100以上、150以上、200以上、250以上、好ましくは300以上、400以上、又は500以上であってよく、2000以下、1000以下、900以下、好ましくは800以下、700以下、又は600以下の遺伝子に対するプローブであってよい。発現量を測定する標的遺伝子の例として、がん遺伝子（例えば、ALK、EGFR、ERBB2、MET）、及びハウスキーピング遺伝子が挙げられる。これらの遺伝子の少なくとも一部に結合可能な核酸を、プローブとして用いることができる。発現量測定用プローブを含むことで、より正確に遺伝子の発現量を測定することが可能となる。

【0049】

一実施形態において、本発明は、異なる複数の上記プローブ又はプローブセットを含む、組み合わせ又はプローブセットに関する。ここで、組み合わせプローブセットは、複数の異なる融合遺伝子に対するプローブセットを含むことが好ましく、これにより複数の融合遺伝子の転写産物存在又はその発現量を同時に検出し得る。「複数」の下限及び上限は特に限定しないが、例えば2以上、5以上、10以上、50以上、100以上、150以上、200以上、250以上、好ましくは300以上、400以上、又は500以上であってよく、2000以下、1000以下、900以下、好ましくは800以下、700以下、又は600以下であってよい。

【0050】

一実施形態において、本明細書に記載のプローブ、プローブセット又は組み合わせプローブセットは、含まれるRNAが分解又は劣化したサンプル、例えば加工処理を行った生体サンプル由来の転写産物に対して好適に用いられる。加工処理の種類としては、熱処理、凍結処理、酸処理、塩基処理、好ましくはFFPE（ホルマリン固定パラフィン包埋）等の固定処理等が挙げられる。
２．本発明のプローブの効果
上記の通り、本発明のプローブは、大規模並列配列決定によって仮想連結点を含むリードが得られるような核酸断片を捕捉し、濃縮することができるため、濃縮を行ったサンプルに対して大規模並列配列決定を行うことにより、効率的に融合遺伝子を検出し得る。また、一実施形態において、本発明のプローブセットは、mRNA等の転写産物から調製したcDNAに対して用いられ、また仮想連結点付近に集中的にプローブを含み得るため、ゲノムDNAのイントロン部分を捕捉するイントロンキャプチャー法、及び全てのエクソン部分を捕捉するコーディングエクソンキャプチャー法よりも、必要となるプローブの数が少ないという利点を有し得る。また、一実施形態において、本発明のプローブセットは、仮想連結点付近に集中的にプローブを含むため、仮想連結点を含む様々な核酸断片が得られ得る。Ryan Tewhey et al（Genome Biology, 2009, 10, R116）によって、プローブを2×タイリング以上の密度にしてもcoverageが向上しないことが示されていることから、仮想連結点付近に集中的にプローブを含むことによって、融合遺伝子又はエクソンスキッピングの検出効率が向上することは驚くべきことであった。なお、本明細書において「タイリング」とは、標的遺伝子に対してプローブが設計される密度を意味し、タイリングの倍数の値nは、プローブの長さをwとすると、w/nずつ間隔を開けてプローブが設計されていることを意味する。

【0051】

また、一実施形態において、本発明のプローブは、mRNAに含まれるポリA配列を転写又は濃縮に必要としない為、特にRNAが分解又は劣化したサンプルにおいて効率的に融合遺伝子を検出し得る。
３．エクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブ
一態様において、本発明は、大規模並列配列決定においてエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブ、又は異なる本プローブを少なくとも2個含むプローブセットに関する。前記転写産物において、5'側のエクソンA'と3'側のエクソンB'が仮想連結点において連結されているとした場合、本態様のプローブは、前記転写産物から調製したcDNAのエクソンA'又はB'のいずれかに由来する領域にハイブリダイズする。一実施形態において、プローブが前記転写産物から調製したcDNAにハイブリダイズした時の各プローブの末端部から前記仮想連結点までの最短塩基長をx、各前記プローブにおいてcDNAとハイブリダイズする領域の塩基長y、大規模並列配列決定のリード長をzとした場合に、z≧x+yである。

【0052】

一態様において、大規模並列配列決定においてエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブであって、前記転写産物において、5'側のエクソンA'と3'側のエクソンB'が仮想連結点において連結されており、前記転写産物から調製したcDNAにおけるエクソンスキッピングが生じ得る仮想連結点を含む領域にハイブリダイズするプローブ、又は異なる本プローブを少なくとも2個含むプローブセットに関する。

【0053】

本明細書において、「エクソンスキッピング」とは、スプライシングミスにより、一部のエクソンがイントロンと共に除去される結果、異常なエクソン連結を生じる現象をいう。例えば、野生型遺伝子がエクソンA'、B'、及びC'を含む場合、本来エクソンA'、B'、及びC'が連結されるべきところをスプライシングのミスによりエクソンB'がスキップアウトされてエクソンA'とエクソンC'が連結される場合が該当する。エクソンスキッピングにより生じる産物は以上産物であるため、疾患の原因となることが多い。例えばMET（mesenchymal-epithelial transition）のエクソン14のスキッピングは、非小細胞肺がんの罹患率と関連があることが知られている。

【0054】

エクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのものである以外の本態様のプローブの構成、例えばプローブの数、各プローブの末端部から仮想連結点までの最短塩基長x、各プローブにおけるcDNAとハイブリダイズする領域の塩基長y、大規模並列配列決定のリード長z、各プローブの配列、設計等は、上記「１．ゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブ」に準ずる。遺伝子発現量測定用プロープをさらに含み得る点についても、「１．ゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブ」と同様である。また、本態様のプローブの効果は、上記「２．本発明のプローブの効果」に準ずる。

【0055】

一態様において、本発明は、上記「１．ゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブ」及び本態様の「エクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブ」の両方を含むプローブセットに関する。このプローブセットを用いることにより、融合遺伝子とエクソンスキッピングの両方を同時に検出し得る。
４．プローブを含むキット
一態様において、本発明は、上記「１．ゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブ」及び／又は上記「３．エクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブ」に記載のプローブ、プローブセット、又は組み合わせプローブセットを含む、キットに関する。

【0056】

本キットは、上記プローブに加えて、例えば、バッファー、酵素、及び使用説明書等を含んでもよい。

【0057】

本キットは、融合遺伝子の転写産物の存在又はその発現量、及び／又はエクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するために用いられ得る。
５．融合遺伝子の転写産物を含む転写産物の存在又はその発現量を判定する方法
一態様において、本発明は、ゲノム上の融合遺伝子の転写産物を含む転写産物の存在又はその発現量を判定する方法に関する。本態様の方法は、被験体由来のサンプルから転写産物を調製する工程（転写産物調製工程）、転写産物からcDNAを調製する工程（cDNA調製工程）、上記「１．ゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブ」のプローブ、プローブセット又は組み合わせプローブセットのプローブにハイブリダイズした標的cDNAを濃縮する工程（濃縮工程）、濃縮された標的cDNAに対し、大規模並列配列決定による配列決定を行う工程（配列決定工程）、及び配列決定の結果に基づいて、ゲノム上の融合遺伝子の転写産物を含む転写産物の存在又はその発現量を判定する工程（判定工程）、をこの順序で含む。

【0058】

本方法を構成する各工程について、以下詳細に説明する。
（１）転写産物調製工程
転写産物調製工程では、被験体由来のサンプルから転写産物を調製する。本明細書において、被験体の生物種は限定しないが、好ましくは哺乳動物、例えばヒト及びチンパンジー等の霊長類、ラット及びマウス等の実験動物、ブタ、ウシ、ウマ、ヒツジ、及びヤギ等の家畜動物、並びにイヌ及びネコ等の愛玩動物、好ましくはヒトである。

【0059】

本明細書において、「サンプル」とは、本発明の方法に供される生体試料を意味する。本発明において使用可能なサンプルとしては、限定するものではないが、例えば生体から単離した体液、細胞又は組織が挙げられる。体液の例として、血液、汗、唾液、乳、及び尿等が挙げられ、細胞の例として、例えば末梢血細胞、細胞を含むリンパ液及び組織液、毛母細胞、口腔細胞、鼻腔細胞、腸管細胞、膣内細胞、粘膜細胞、喀痰（肺胞細胞又は気肝細胞等を含み得る）が挙げられる。組織の例として、がんの病変部位、例えば、脳、咽頭、甲状腺、肺、乳房、食道、胃、肝臓、膵臓、腎臓、小腸、大腸、膀胱、前立腺、子宮、卵巣、好ましくは肺等が挙げられ、例えばこれらの組織の生検サンプルを用いることができる。生検サンプルを用いる場合、組織学的な病理診断と本発明の方法による融合遺伝子の検出を同時に行うことができるため、被験体の病理学的症状をより正確に特定できる。

【0060】

また、一実施形態では、サンプルとして、含まれるRNAが分解又は劣化したサンプル、例えば加工処理を行った生体サンプルが用いられる。加工処理の種類としては、熱処理、凍結処理、酸処理、塩基処理、好ましくはFFPE（ホルマリン固定パラフィン包埋）等の固定処理等が挙げられる。

【0061】

転写産物（total RNA）には、rRNA、tRNA、及びmRNAが含まれ得るが、好ましくはmRNAである。

【0062】

サンプルからの転写産物の調製は、公知の任意の方法を用いて行うことができる。例えば、サンプルと、チオシアン酸グアニジン及び界面活性剤を含む可溶化液とを混合し、得られた混合液に物理的処理(撹拌、ホモジナイズ、超音波破砕など)を施して、転写産物を抽出することができる。好ましくは、さらに、フェノール及びクロロホルムを添加して撹拌し、これを遠心分離することで、転写産物を含む水層を回収する方法（AGPC法）を利用することもできる。続いて、該水層からアルコール沈殿法などにより転写産物を得ることができる。また、RNAの抽出には、RNA-Bee（Tel-Test Inc.）、及びTRIZOL（Thermo Fisher Scientific）等の市販のキットを用いることもできる。これらの具体的な手順などについては、当該分野のプロトコル、例えば、Green and Sambrook, Molecular Cloning, 4th Ed (2012), Cold Spring Harbor Laboratory Pressを参照すればよい。本明細書に記載の他の生物学的な手法、例えば以下のcDNA調製工程、及び濃縮工程についても、Green and Sambrook（上掲）を参照することができる。
（２）cDNA調製工程
転写産物調製工程で得られた転写産物からのcDNAの製造は、逆転写酵素を用いる逆転写反応によって行うことができる。逆転写反応を行う際に使用するプライマー、逆転写酵素、及び反応条件等は、当業者であれば、公知のものを適宜選択することができる。本発明の方法では、以下で記載する濃縮工程によって目的の核酸断片が濃縮されるため、ポリA配列を利用してmRNAのみを逆転写する必要がなく、例えばランダムプライマー等を用いてtotal RNAを逆転写してもよい。
（３）濃縮工程
濃縮工程では、本明細書に記載のプローブ、プローブセット又は組み合わせプローブセットにハイブリダイズした標的cDNAを濃縮する。濃縮は当業者に知られる任意の方法を用いて行うことができる。例えば、プローブに標識子を付し、標識子と他の物質との相互作用によりプローブにハイブリダイズした標的cDNAを濃縮することができる。例えば、プローブにビオチンを付してアビジンとの相互作用によりプローブにハイブリダイズしたcDNAを濃縮してもよいし、基質または抗原抗体反応を利用したアフィニティークロマトグラフィーにより濃縮を行ってもよいし、プローブに磁性ビーズを付して磁気によりプローブにハイブリダイズしたcDNAを濃縮してもよい。

【0063】

プローブセットによる濃縮工程の前又は後に、大規模並列配列決定におけるリード長に合わせてcDNAを酵素的又は機械的に断片化してもよい。また、後のシーケンス工程に必要なアダプター配列を付加してもよい。濃縮工程の前又は後に特定の遺伝子領域を解析するために、PCR等により特定の遺伝子領域を富化してもよい。遺伝子領域の富化は、例えば4～12サイクルの増幅ステップにより行うことができる。
（４）配列決定工程
配列決定工程では、濃縮された標的cDNAに対し、大規模並列配列決定による配列決定が行われる。シーケンシング工程の詳細は、大規模並列配列決定に用いる機器の種類等により異なるが、典型的にはアダプター配列を介して基板に連結させ、またアダプター配列をプライミング部位としてシーケンシング反応が行われる。シーケンス反応の詳細については、例えばRick Kamps et al.（上掲）を参照されたい。

【0064】

本工程では、シーケンシング反応により得られた配列情報（リード）を集めたものが得られる。出力されたデータをさらに解析して、リード数、例えばローリード当たり連結支持リード数等のより意味のある結果を導くことができる。大規模並列配列決定のための装置は各メーカーで市販されており、それらを利用することができる。例えば、限定するものではないが、RocheのGenome Sequencer（GS）FLX System、IlluminaのHiSeq、又はGenome Analyzer（GA）、Life technologiesのSupport Oligonucleotide Ligation Detection（SOLiD）システム、PolonatorのG.007システム、及びHelicos BioSciencesのHeliScope Gene Sequencingシステム等を用いることができる。
（５）判定工程
判定工程では、配列決定工程の結果に基づいて、ゲノム上の融合遺伝子の転写産物を含む転写産物の存在又はその発現量が判定される。判定工程の一例を、図1Bに示す。判定工程の具体的な方法は、限定されるものではないが、例えば以下の基準により行うことができる。

【0065】

融合遺伝子が、5'側の遺伝子Aの一部と3'側の遺伝子Bの一部が仮想連結点において連結した転写産物を発現するとしたときに、仮想連結点において遺伝子融合が生じていない遺伝子A由来のcDNAのリード数をα、遺伝子B由来のcDNAのリード数をβとし、仮想連結点において遺伝子融合が生じている融合遺伝子由来のcDNAのリード数をγとした場合に、
0＜α又はβ≦γである場合、融合遺伝子が存在すると判定し、
0＜γ＜α又はβである場合、低い発現量で融合遺伝子が存在すると判定し、
α又はβ>0、γ=0である場合、融合遺伝子が存在しないと判定することができる。

【0066】

α及び／又はβ=0、並びにγ=0である場合には、融合遺伝子の転写産物が存在しないか、又はサンプルの質が悪いことにより転写産物が分解されているかのいずれかであると考えられる。この場合、推定融合遺伝子の両方の遺伝子の野生型転写産物の仮想連結点付近のリードをより詳細に数えることによって、いずれが正しいのかを正確に判断することが可能である。

【0067】

リード数は、通常シーケンシング前の核酸の量に比例することから、遺伝子のリード数に基づいて発現量を判定することができる。発現量は、例えば野生型遺伝子とのリード数の比較、健常体におけるリード数との比較等により相対値で定めることができるし、特定の条件におけるリード数等の測定値を絶対値として定めることもできる。

【0068】

一実施形態において、前記判定工程は、同じ領域にハイブリダイズする複数のプローブが存在する場合、該複数のプローブの数に基づいて転写産物の発現量を補正することを含む。本発明のプローブセットは、仮想連結点付近に集中的にプローブを含むため、同じ領域に重複してプローブが設計され得る。これに伴って、プローブの数に応じて当該領域に相当する転写産物のリード数が高く算出され得る。したがって、より正確にリード数に基づいて発現量を判定するには、同じ領域にハイブリダイズするプローブの数でリード数を補正することが好ましい。プローブの数によるリード数の補正方法は限定しないが、例えば、リード数をプローブのタイリング数によって割ることによって、リード数を補正することができる（例えば、5×タイリングであればリード数を5で割り、10×タイリングであればリード数を10で割ることができる）。

【0069】

一実施形態において、前記判定工程は、少なくとも1つのハウスキーピング遺伝子の発現量に基づいて、転写産物の発現量を補正することを含む。ハウスキーピング遺伝子に基づく補正は、異なるプローブセットを用いる場合、及び／又は異なるサンプルを用いる場合に、より正確に発現量を比較する際に特に好ましい。ハウスキーピング遺伝子は本分野で公知のものを使用することができ、例えばACTB、B2M、GAPDH、GUSB、H3F3A、HPRT1、HSP90AB1、NPM1、PPIA、RPLP0、TFRC、及びUBCの少なくとも1つ、少なくとも2つ、少なくとも3つ、少なくとも5つ、又は全てを使用することができる。ハウスキーピング遺伝子によるリード数の補正方法は限定しないが、例えば、発現量を測定しようとする転写産物のリード数を、ハウスキーピング遺伝子のリード数によって割ることによって、リード数を補正することができる。

【0070】

本態様の方法によって、ゲノム上の融合遺伝子存在又はその発現量を判定することにより疾患を診断し得る。また、ゲノム上の融合遺伝子存在又はその発現量の情報等の被験体の遺伝的背景を踏まえて適切な薬剤等の療法を選択し得る。
６．エクソンスキッピングにより生じる転写産物を含む転写産物の存在又はその発現量を判定する方法
一態様において、本発明は、エクソンスキッピングにより生じる転写産物を含む転写産物の存在又はその発現量を判定する方法に関する。本態様の方法は、被験体由来のサンプルから転写産物を調製する工程（転写産物調製工程）、転写産物からcDNAを調製する工程（cDNA調製工程）、上記「３．エクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブ」に記載のプローブ、プローブセット又は組み合わせプローブセットのプローブにハイブリダイズした標的cDNAを濃縮する工程（濃縮工程）、濃縮された標的cDNAに対し、大規模並列配列決定による配列決定を行う工程（配列決定工程）、及び配列決定の結果に基づいて、エクソンスキッピングにより生じる転写産物を含む転写産物の存在又はその発現量を判定する工程（判定工程）、をこの順序で含む。

【0071】

エクソンスキッピングにより生じる転写産物を含む転写産物の存在又はその発現量を判定するためのものである点、及び用いるプローブが異なる点以外の本態様の方法の構成、例えば転写産物調製工程、cDNA調製工程、濃縮工程、配列決定工程、判定工程は、上記「５．融合遺伝子の転写産物の存在又はその発現量を判定する方法」に準ずる。したがって、ここでは上記「５．融合遺伝子の転写産物の存在又はその発現量を判定する方法」と異なる点を中心に以下で説明する。

【0072】

一態様において、本発明は、上記「１．ゲノム上の融合遺伝子の転写産物の存在又はその発現量を判定するためのプローブ」、及び上記「３．エクソンスキッピングにより生じる転写産物の存在又はその発現量を判定するためのプローブ」の両方を用いてcDNA濃縮工程を行う方法に関する。これにより、融合遺伝子とエクソンスキッピングの両方を同時に検出し得る。

【0073】

判定工程は、上記「５．融合遺伝子の転写産物の存在又はその発現量を判定する方法」において記載した通りに行うことができる。すなわち、転写産物において、5'側のエクソンA'と3'側のエクソンB'が仮想連結点において連結されているとしたときに、仮想連結点において遺伝子融合が生じていないエクソンA'由来のcDNAのリード数をα'、エクソンB'由来のcDNAのリード数をβ'とし、エクソンスキッピングにより生じる転写産物由来のcDNAのリード数をγ'とした場合に、
0＜α'又はβ'≦γ'である場合、エクソンスキッピングにより生じる転写産物が存在すると判定し、
0＜γ'＜α'又はβ'である場合、低い発現量でエクソンスキッピングにより生じる転写産物が存在すると判定し、
α'又はβ'＞0、γ'=0である場合、エクソンスキッピングにより生じる転写産物が存在しないと判定する工程によって行うことができる。
７．疾患の罹患有無又はそのリスク判定を判定する、がんの種類を特定する、又はがんの予後を判定する方法
一態様において、本発明は、本明細書に記載の方法に従って、ゲノム上の融合遺伝子の転写産物、及び／又はエクソンスキッピングにより生じる転写産物を含む転写産物の存在又はその発現量を判定する工程（判定工程）を含む、被験体における疾患の罹患有無又はそのリスクを判定する、がん（例えば原発がん）の種類を特定する、又はがん（又はがん患者）の予後を判定する方法に関する。判定工程は、上記「５．融合遺伝子の転写産物の存在又はその発現量を判定する方法」及び／又は上記「６．エクソンスキッピングにより生じる転写産物の存在又はその発現量を判定する方法」において記載した通りに行うことができる。本態様の方法は、罹患有無又はそのリスクを判定する、がんの種類を特定する、又はがんの予後を判定するものである点で、上記「５．融合遺伝子の転写産物の存在又はその発現量を判定する方法」又は「６．エクソンスキッピングにより生じる転写産物の存在又はその発現量を判定する方法」に記載の方法と異なる。

【0074】

本態様の方法において、疾患の種類は融合遺伝子又はエクソンスキッピングによって罹患有無又はそのリスクを判定できるものであれば限定しないが、例えばがん、例えば脳腫瘍、咽頭がん、甲状腺がん、肺がん、乳がん、食道がん、胃がん、肝臓がん、膵臓がん、腎臓がん、小腸がん、大腸がん、膀胱がん、前立腺がん、子宮頸がん、卵巣がん、肉腫、リンパ腫、若しくは黒色腫、好ましくは肺がん又は肉腫が挙げられる。

【0075】

本態様の方法は、判定工程に加えて、ゲノム上の融合遺伝子の転写産物の存在又はその発現量、及び／又はエクソンスキッピングにより生じる転写産物の存在又はその発現量に基づいて、被験体における疾患の罹患有無又はそのリスクを評価する工程（評価工程）、がんの種類を特定する工程（特定工程）、又はがんの予後を判定する工程（判定工程）を含み得る。
評価工程
評価工程は、融合遺伝子又はエクソンスキッピングと疾患の公知の関連性を利用して行うことができる。例えば、EML4（echinoderm microtubule associated protein like 4）-ALK（Anaplastic lymphoma kinase）は非小細胞肺癌の、BCR（B cell receptor）-ABL1（Abelson murine leukemia viral oncogene homolog 1）は慢性骨髄白血病の、TAF15（TATA-box binding protein associated factor 15）-NR4A3（nuclear receptor subfamily 4 group A member 3）は骨外性軟骨肉腫の、AHRR（aryl-hydrocarbon receptor repressor）-NCOA2（nuclear receptor coactivator 2）は血管線維腫の、METのエクソン14のスキッピングは、非小細胞肺がんの罹患有無又はそのリスクを判定するために用いることができる。

【0076】

評価工程では、融合遺伝子の転写産物の存在又はエクソンスキッピングにより生じる転写産物の存在が検出された場合に、又は融合遺伝子の発現量又はエクソンスキッピングにより生じる転写産物の発現量が、例えば健常体と比べて高い場合に、その疾患に罹患しているか、又はそのリスクが高いと評価することができる。
特定工程及び判定工程
がんの種類の特定及びがんの予後の判定は、ゲノム上の融合遺伝子の転写産物、及び／又はエクソンスキッピングにより生じる転写産物を含む転写産物と疾患の関連性を利用して行うことができる。上記転写産物と疾患の関連性は公知のものを利用してもよいし、未知のものを利用してもよい。

【0077】

本明細書において、「予後」とは、例えば化学療法等の治療処置を行った後の、腫瘍量の低減、腫瘍増殖の抑制、疾患の経過又は結末（例えば、再発の有無、生死等）、好ましくは生存期間の長さ、再発のリスクの高低を意味する。予後の判定は、例えば治療処置を行った後の、生存期間又は一定期間後の生存率の予測であってもよい。

【0078】

一実施形態において、特定及び判定工程は、複数の転写産物の存在及び／又は発現量に基づいて、被験体由来のサンプルをクラスタリングすることを含む。この実施形態は、上記転写産物と疾患の関連性が未知である場合に特に有利である。この実施形態における複数の転写産物の数は限定しないが、例えば2以上、5以上、10以上、20以上、30以上、50以上、100以上、200以上、300以上、400以上、又は500以上であってよく、20000以下、10000以下、5000以下、好ましくは3000以下、2000以下、又は1000以下であってよい。複数の転写産物の存在及び／又は発現量に基づいてサンプルをクラスタリングする際には、がん種が特定されている又は予後が予測されている被験体由来の標準サンプルを加えることができる。これにより、より正確にがん種に基づく又は予後に基づくクラスタリングが可能となる。クラスタリングの方法は限定しないが、例えば統計解析ソフトRのheatmap.3を用いて、遺伝子発現量を基にサンプルのクラスタリングを行うことができる。

【0079】

特定工程におけるがんの種類は限定しないが、例えば脳腫瘍、咽頭がん、甲状腺がん、肺がん（例えば肺腺がん）、乳がん、食道がん、胃がん、肝臓がん、膵臓がん、腎臓がん、小腸がん、大腸がん、膀胱がん、前立腺がん、子宮頸がん、卵巣がん、肉腫、リンパ腫、若しくは黒色腫、好ましくは肺がん（例えば肺腺がん）又は肉腫であってよい。

【0080】

本態様の疾患の罹患有無又はそのリスク判定を判定する、がんの種類を特定する、又はがんの予後を判定する方法は、他の方法、例えば組織学的な病理診断、FISH、RT-PCR、及び免疫組織化学等によるバイオマーカーの検出、CT、MRI、及び核医学検査等の画像診断と組み合わせて行ってもよい。他の方法との組み合わせによって、疾患の検出精度を高めることができる。

【実施例】

【0081】

材料と方法
gDNA標的シーケンシング
FFPEサンプルからゲノムDNA（500ng）をGeneRead DNA FFPE Kit（Qiagen）によって単離し、SureSelectXT Custom Kit（Agilent）を用いて標的断片を富化した。オーダーメードのプローブは、標的遺伝子のgDNAにハイブリダイズし、キャプチャーするように設計した。単離した断片の大規模並列シーケンシング（Massively Parallel Sequencing）を、ペアエンドオプションでHiSeq2500 platform（Illumina）を用いて行った。大きなデータセットから、各塩基についてQ値≧20のシーケンスリードのみを選択し、bowtie 2アルゴリズム（http://bowtie-bio.sourceforge.net/bowtie2/index.shtml）を用いて参照ヒトゲノムシーケンス（hg19）にマッピングした。体細胞変異は、MuTect（http://www.broadinstitute.org/cancer/cga/mutect）によって特定した。また、以下の判断基準：judgment = KEEP（KEEPは、mutectによる体細胞変異陽性を示す）、腫瘍リード深度≧20×、変異率≧10%、及び正常リード深度≧10×によって変異候補を選択した。
ポリA選択によるRNA-seq
RNA-Bee（Tel-Test Inc., # CS-104B）を用いて全RNAを新鮮凍結サンプルから抽出し、DNase I（Life Technology）で処理した後にポリA-RNA選択に供し、これをcDNA合成に用いた。RNA-seqのライブラリー調製をNEBNext Ultra Directional RNA Library Prep Kit （New England Bio Labs）を用いて、製造業者のプロトコルに従って行った。NGSシーケンシングを、HiSeq2500 platform（Illumina）を用いて、各クラスターの両端から行った。
cDNAキャプチャーによるRNA-seq
全RNAを、RNeasy FFPE Kit（Qiagen）によってFFPEサンプルから抽出し、DNase I（Life Technology）で処理した。コーディングエクソンキャプチャーのためのcDNA合成、プローブによるキャプチャー、及びライブラリー調製は、TruSight RNA Pan-Cancer Panel（Illumina）を用いて、製造業者のプロトコルに従って行った。

【0082】

ジャンクションキャプチャーのためのcDNA合成及びライブラリー調製は、SureSelect RNA Capture kit（Agilent technologies）を用いて、製造業者のプロトコルに従って行った。ジャンクションキャプチャー法のためのカスタムプローブは、標的遺伝子の仮想連結点付近配列にハイブリダイズし、キャプチャーするように設計した。具体的には、用いた大規模並列配列決定のリード長が170bpであることを考慮し、またプローブにおいてcDNAとハイブリダイズする領域の塩基長が50以上であれば仮想連結点を含むリードが得られ得ると想定して、cDNAにプローブがハイブリダイズした時の各プローブの末端部から仮想連結点までの最短塩基長を120以下となるようにプローブを設計した。なお、プローブの長さはいずれも120bpとした。また、ジャンクションキャプチャー法ではできるだけ多くの種類のリードを得るため、5×又は10×タイリングでプローブの設計を行った。NGSシーケンシングは、HiSeq2500 platform（Illumina）を用いて、各クラスターの両端から行った。一例として、EML4のエクソン13、ALKのエクソン20、及びEML4-ALKの融合遺伝子を同定するために用いたプローブセットの配列番号を以下の表1に示す。

【0083】

【表1】

【0084】

実施例1：ジャンクションキャプチャー法による融合遺伝子の検出
結果
シーケンスデータの解析では、融合転写産物の連結点の存在を支持するシーケンスリードの数を数え、野生型遺伝子の転写産物と比較して、融合転写産物が有意に発現しているかどうかを調べた。

【0085】

また、各遺伝子転写産物が存在し、融合遺伝子転写産物が存在しない場合には、融合転写産物が存在しないことが示されるが、各遺伝子のリード数が0である場合には、mRNAが発現していないか、又はサンプルの質に基づくmRNA分解に由来するものであるのかを慎重に評価した。

【0086】

パイロット実験として、ジャンクションキャプチャー法に基づいて67個の融合遺伝子を標的とする小さなターゲットパネル（TOP RNA V1）を作製した。そして、TOP RNA V1を、従来法である融合遺伝子のゲノムにおける連結点を検出するイントロンキャプチャー法（TOP DNA）により得られるパネル、又はコーディングエクソンキャプチャー法に基づくTruSight RNA Pan-Cancer Panel（illumina）と比較した。

【0087】

その結果、ジャンクションキャプチャー法により得られたTOP RNA V1パネルは、イントロンキャプチャー法により得られたTOP DNAパネルよりも融合遺伝子を正確に検出でき、また連結支持リード／1000万ローリードの値も多かった（表2、図2A）。この結果は、ジャンクションキャプチャー法が融合遺伝子を検出する優れた方法であることを示唆している。

【0088】

【表2】

【0089】

続いて、ジャンクションキャプチャー法について、肉腫の融合遺伝子をカバーするより大きなターゲットパネル（TOP RNA V2）、及びデータベースCOSMICにおいて報告された全ての融合遺伝子をカバーするパネル（TOP RNA V3）を設計した。RNAを抽出したFFPE保存サンプルのRNA integrity score（RIN）は、高度に分解が進んでいることを示す1.1～2.3であったが、全ての融合転写産物が検出可能であった（表3）。また、ジャンクションキャプチャー法では、コーディングエクソンキャプチャー法によってパネルを設計した場合に比べて、予想されるプローブの数及び標的キャプチャーサイズ（プローブにより捕捉される核酸配列の長さ）の両方が、顕著に少ない（図2B、及び図2C）。これは、ジャンクションキャプチャー法が非常に費用対効果が高いことを示唆している。

【0090】

ハウスキーピング遺伝子カバー度及びカバー率を計算することによって、RNA-seqの質を評価することができる。以下の基準を、RNA-seqの質が優れているとした：ハウスキーピング遺伝子の平均カバー度＞500X及び100X、及びハウスキーピング遺伝子のカバー率＞70%。連結支持リードが存在しない場合には、FFPE由来のRNAの分解が進んでいることにより連結支持リードが検出されないという可能性もある。そこで、融合遺伝子が真に陰性であることを確実にするため、COSMICのデータベースにおいて報告されている推定融合遺伝子の両方の遺伝子の野生型転写産物の連結指示リードをカウントするパイプラインを開発した。症例#31（EML4-ALK陽性肺腺癌）に対するこの分析の結果により、この腫瘍が分析した融合転写産物について真に陰性であることが確かめられた（データ示さず）。
実施例2：ジャンクションキャプチャー法によるエクソンスキッピングの検出
続いて、ジャンクションキャプチャー法が、肺腺癌において発癌性であることが報告されているMETエクソン14スキッピング等の転写産物も検出可能か調べた。新鮮な凍結サンプルを用いるRNA-seqによってMETエクソン14スキッピングを有することが特定された肺腺癌の症例の5個のFFPEからRNAを抽出した。エクソン13からエクソン15への連結、即ちエクソン14のスキッピングを支持する連結支持リードの数を数えた。ジャンクションキャプチャー法では、エクソンスキッピングを有する5個のFFPEサンプルの全てにおいてMETエクソン14スキッピングが同定できたが、METエクソンスキッピングを有さない他の34の症例では全て、連結支持リードが認められなかった（図3、表3）。これは、ジャンクションキャプチャー法がエクソンスキッピングも検出可能であることを示している。

【0091】

【表3】

【0092】

実施例3：生検サンプルに対するジャンクションキャプチャー法の適用
また、ジャンクションキャプチャー法が、小さな生検サンプルに適用可能であるかを評価した。針生検（core needle bipsy）、微細針吸引生検（fine needle aspiration）、及び経気管支肺生検（transbronchial lung biopsy、TBLB）をはじめとする融合遺伝子陽性のFFPE標本からRNAを調製した。驚くべきことに、全てのRNA-seqにおいて、各標本に特異的な正しい融合転写産物を支持する多数の連結支持リードを検出した（図4、表4）。

【0093】

【表4】

【0094】

実施例4：ジャンクションキャプチャー法の臨床的な有用性
KRAS及びEGFR変異陰性である、ステージII又はIIIのNSCLCの40の症例の外科的切除によって得られたFFPEについて、ジャンクションキャプチャー法で試験することによって、この方法の臨床的な有用性を評価した。METエクソン14スキッピング、EML4-ALK融合遺伝子、RET融合遺伝子がそれぞれ3症例、2症例、及び1症例で検出された（データ示さず）。また、ジャンクションキャプチャー法の肉腫の診断への臨床的有用性を評価するために、前向き研究において肉腫患者についてジャンクションキャプチャー法を実施した。結果を以下の表5に示す。

【0095】

【表5】

【0096】

一つの症例（#44）は、粘液性間質の付近での非定型の核を有する紡錘細胞の増殖のため、粘液線維肉腫と診断されていた。しかしながら、本症例は、ジャンクションキャプチャー法によって、血管線維腫に特異的な融合遺伝子であるAHRR-NCO2A遺伝子が検出されたことから、軟組織血管線維腫であることが明らかとなった。別の症例（#48）はTAF15-NR4A3陽性であり、これは骨外性軟骨肉腫の診断結果と一致する。

【0097】

これらの結果は、ジャンクションキャプチャー法が疾患の診断に用いられ得ることを示している。
実施例5：遺伝子発現量の測定
本実施例では、ジャンクションキャプチャー法を用いて遺伝子発現量の測定を行った。
（材料と方法）
遺伝子発現量測定
11種類のハウスキーピング遺伝子（ACTB、B2M、GAPDH、GUSB、H3F3A、HPRT1、HSP90AB1、PPIA、RPLP0、TFRC、及びUBC）について、実施例1に従い、全RNAをFFPEサンプルから抽出し、実施例1に従ってcDNAキャプチャー（ジャンクションキャプチャー）によるRNA-seqを行った。比較のために、実施例1に従って全RNAを新鮮凍結サンプルからも抽出し、ポリA選択によるRNA-Seqを行った。

【0098】

ただし、本実施例では、実施例1で示したジャンクションキャプチャー法のためのカスタムプローブ（TOP RNA V3）に加えて、遺伝子発現量測定用のプローブを加えて濃縮を行った。遺伝子発現量測定用プローブとしては、ERBB2等のがん遺伝子を含む125遺伝子に2×タイリングでデザインしたプローブを使用した。プローブ長は全て120塩基とした。
タイリング数に基づくリード数の補正
実施例1で記載の通り、ジャンクションキャプチャー法ではできるだけ多くの種類のリードを得るため、仮想連結点付近に集中して5×又は10×タイリングでプローブの設計を行った。したがって、リード数に基づいて遺伝子の発現量を推定する場合、プローブの数に応じて発現量が多く算出される恐れがある。そこで、ジャンクションキャプチャー法ではリード数をプローブのタイリング数によって割ることで、リード数を補正した（例えば、5×タイリングであればリード数を5で割り、10×タイリングであればリード数を10で割った）。
ハウスキーピング遺伝子に基づくリード数の補正
ジャンクションキャプチャー法ではFFPEサンプル（A群）を用い、ポリA選択によるRNA-Seqでは新鮮凍結サンプル（B群）を用いたため、サンプル間の質の差異を両者のハウスキーピング遺伝子の発現量が等しくなるように補正した。具体的には、11種類のハウスキーピング遺伝子の発現量のA群とB群の比のlog_2平均が等しくなるようにB群の発現量を補正する係数を計算し、これらの係数を用いて全遺伝子の発現量を補正した。
（結果）
肺がん患者由来の7個のサンプルについて、ポリA選択によるRNA-Seq及びジャンクションキャプチャー法を用いて、11種類のハウスキーピング遺伝子（ACTB、B2M、GAPDH、GUSB、H3F3A、HPRT1、HSP90AB1、NPM1、PPIA、RPLP0、TFRC、及びUBC）の発現量を測定した。

【0099】

その結果、ハウスキーピング遺伝子については、ポリA選択によるRNA-Seqとジャンクションキャプチャー法では、RPKM（Reads Per Kilobase of exon model per Million mapped reads）の値に相関が認められた（データ示さず）。

【0100】

続いて、RNA-seqのRPKMと、ジャンクションキャプチャー法におけるタイリング数に基づいて補正を行ったRPKMについて、発現量測定用遺伝子群と融合遺伝子解析用遺伝子群について相関係数を計算した。ここで、発現量測定用遺伝子群とは遺伝子発現量測定用のプローブにより発現測定を行った遺伝子群であり、融合遺伝子解析用遺伝子群とはジャンクションキャプチャー法のためのカスタムプローブにより発現測定を行った遺伝子群である。

【0101】

発現量測定用遺伝子群の結果を図5A及び表6に、融合遺伝子解析用遺伝子群の結果を図5B及び表7に示す。発現量測定用遺伝子群及び融合遺伝子解析用遺伝子群の両方でRNA-seqのRPKMと、ジャンクションキャプチャー法のRPKMの相関が認められ、特に発現量測定用遺伝子群について、より強い相関が認められた。これらの結果は、遺伝子発現量測定用のプローブの方が発現量の測定に適しているが、ジャンクションキャプチャー法のためのカスタムプローブも発現量の測定に用い得ることを示している。また、これらの結果は、遺伝子発現量測定用のプローブに加えてジャンクションキャプチャー法のためのカスタムプローブを含む場合であっても、正確に遺伝子発現量を測定することができることを示している。

【0102】

【表6】

【0103】

【表7】

【0104】

実施例6：遺伝子発現量に基づくがんのクラスタリング
LUAD（肺腺がん）、SARC（肉腫）、MUCA（多発がん）、及びLUSC（肺扁平上皮がん）の患者由来のサンプルを、実施例5に従って、遺伝子発現量測定用のプローブも加えてジャンクションキャプチャー法により遺伝子発現測定を行った。具体的には、発現量測定用、融合遺伝子解析用の両方の遺伝子の合計467遺伝子について、実施例5に記載の方法に従ってタイリング数に基づくリード数の補正及びハウスキーピング遺伝子に基づくリード数の補正を行い発現値を求めた。求めた発現値（xn, n=1,...,N, Nは遺伝子数）を対数変換（log_2(xn+1)）し、その値に基づいて統計解析ソフトRのheatmap.3を用いてクラスタリングを行った。

【0105】

その結果、図6に示す様に、遺伝子の発現量に基づいてLUAD、SARC、MUCA、及びLUSCがクラスタリングされた。これは、本発明の方法によって遺伝子発現量を測定することによって、原発がんの種類を特定し得ることを示している。

【産業上の利用可能性】

【0106】

本発明により、融合遺伝子及び／又はエクソンスキッピングにより生じる転写産物を簡便に検出可能な方法が提供される。これにより疾患の診断や、被験体の遺伝的背景を踏まえて適切な薬剤を選択することが可能となることから、産業上の利用可能性は大きい。

【0107】

本明細書で引用した全ての刊行物、特許及び特許出願はそのまま引用により本明細書に組み入れられるものとする。

【図1】