(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-09-06
(45)【発行日】2022-09-14
(54)【発明の名称】乾癬のリスクを判定する方法
(51)【国際特許分類】
C12Q 1/6827 20180101AFI20220907BHJP
G01N 33/50 20060101ALI20220907BHJP
C12N 15/09 20060101ALI20220907BHJP
C12Q 1/6883 20180101ALI20220907BHJP
【FI】
C12Q1/6827 Z ZNA
G01N33/50 P
C12N15/09 Z
C12Q1/6883 Z
(21)【出願番号】P 2019082514
(22)【出願日】2019-04-24
【審査請求日】2022-01-24
(73)【特許権者】
【識別番号】504217812
【氏名又は名称】ジェネシスヘルスケア株式会社
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】宇田川 ヨスバニ
(72)【発明者】
【氏名】黄 鶴
(72)【発明者】
【氏名】佐藤 バラン 伊里
【審査官】斉藤 貴子
(56)【参考文献】
【文献】特表2011-530750(JP,A)
【文献】特開2018-186768(JP,A)
【文献】特表2010-522537(JP,A)
【文献】ZUO, X. et al.,Whole-exome SNP array identifies 15 new susceptibility loci for psoriasis,Nature Communications,2015年,Vol. 6,Article No. 6793,http://www.nature.com/ncomms/index.html
【文献】NITITHAM, J. et al.,Psoriasis risk SNPs and their association with HIV-1 control,Human Immunology,2017年,Vol. 78, No. 2,P. 179-184,DOI 10.1016/j.humimm.2016.10.018
(58)【調査した分野】(Int.Cl.,DB名)
C12Q
C12N
G01N
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
JSTPlus/JMEDPlus/JST7580(JDreamIII)
(57)【特許請求の範囲】
【請求項1】
乾癬に罹患したヒトの遺伝子型データと、乾癬に罹患していないヒトの遺伝子型データと、を学習データとして用いて機械学習したモデルを用いて、乾癬と正の相関があるrs10936599、rs10498345、rs2280401、及びrs2307121と、乾癬と負の相関があるrs4895441
、rs6906021、rs11010067、rs12688220、及びrs9276975を少なくとも含む一塩基多型セットの遺伝子型情報であって、
rs10936599の遺伝子型がTC、rs10498345の遺伝子型がAT、rs2280401の遺伝子型がAG、rs2307121の遺伝子型がCC、rs4895441の遺伝子型がAG
、rs6906021の遺伝子型がTT、rs11010067の遺伝子型がCC、rs12688220の遺伝子型がCC、及びrs9276975の遺伝子型がCCであるか否かに関する遺伝子型情報に基づいて、乾癬のリスクを判定する、方法。
【請求項2】
リスクの判定を受ける対象者の体液サンプル、細胞サンプル又は体毛を用いる、請求項1に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は乾癬のリスクを判定する方法に関する。
【背景技術】
【0002】
疾患のリスクの判定に用いるために、一塩基多型(以下、「SNP」ともいう。)と疾患との関連性の特定が進められている。NCBI SNP Databaseは、ヒトのSNPをまとめたデータベースであり、SNPにrs番号を付して管理している。本明細書におけるrs番号も、このNCBI SNP Databaseにおける登録番号を意味するものとする。
【0003】
本明細書においてrs番号で特定されるSNPと、当該SNPに関連する疾患、病態又は状態等として非特許文献等で開示されているものとの関係は、以下のとおりである。
rs9276975:ワイン好きに関するSNP(非特許文献 1)
rs4895441:白血球数に関するSNP(非特許文献 2)
rs10936599:多発性骨髄腫に関するSNP(非特許文献 3)
rs2280401:血液中のアルブミン濃度に関するSNP(非特許文献 4)
rs2307121:角膜の厚さに関するSNP(非特許文献 5)
rs11010067:炎症性腸疾患に関するSNP(非特許文献 6)
rs77641731:重症マラリアに関するSNP(非特許文献 7)
rs77641731:ABO式血液型(3SNPs判定)に関するSNP(非特許文献 8)
rs77641731:ABO式血液型(2SNPs判定)に関するSNP(非特許文献 9)
rs10498345:冠動脈攣縮に関するSNP(非特許文献 10)
rs6906021:アレルギー体質に関するSNP(非特許文献 11)
rs12688220:膵炎に関するSNP(非特許文献 12)
【先行技術文献】
【非特許文献】
【0004】
【文献】Pirastu N, Kooyman M, Traglia M, Robino A, Willems SM, Pistis G, et al. Genome-wide association analysis on five isolated populations identifies variants of the HLA-DOA gene associated with white wine liking. Eur. J. Hum. Genet. 2015;23: 1717-22.
【文献】Kamatani Y, Matsuda K, Okada Y, Kubo M, Hosono N, Daigo Y, et al. Genome-wide association study of hematological and biochemical traits in a Japanese population. Nat. Genet. 2010;42: 210-5.
【文献】Chubb D, Weinhold N, Broderick P, Chen B, Johnson DC, Forsti A, et al. Common variation at 3q26.2, 6p21.33, 17p11.2 and 22q13.1 influences multiple myeloma risk. Nat. Genet. 2013;45: 1221-1225.
【文献】Franceschini N, van Rooij FJ, Prins BP, Feitosa MF, Karakas M, Eckfeldt JH, et al. Discovery and fine mapping of serum protein loci through transethnic meta-analysis. Am. J. Hum. Genet. 2012;91: 744-53.
【文献】Lu Y, Vitart V, Burdon KP, Khor CC, Bykhovskaya Y, Mirshahi A, et al. Genome-wide association analyses identify multiple loci associated with central corneal thickness and keratoconus. Nat. Genet. 2013;45: 155-63.
【文献】Fuyuno Y, Yamazaki K, Takahashi A, Esaki M, Kawaguchi T, Takazoe M, et al. Genetic characteristics of inflammatory bowel disease in a Japanese population. J. Gastroenterol. 2016;51: 672-81.
【文献】Timmann C, Thye T, Vens M, Evans J, May J, Ehmen C, et al. Genome-wide association study indicates two novel resistance loci for severe malaria. Nature 2012;489: 443-6.
【文献】Nakao M, Matsuo K, Hosono S, Ogata S, Ito H, Watanabe M, et al. ABO blood group alleles and the risk of pancreatic cancer in a Japanese population. Cancer Sci. 2011;102: 1076-80.
【文献】Nakao M, Matsuo K, Hosono S, Ogata S, Ito H, Watanabe M, et al. ABO blood group alleles and the risk of pancreatic cancer in a Japanese population. Cancer Sci. 2011;102: 1076-80.
【文献】Suzuki S, Yoshimura M, Nakayama M, Abe K, Yamamuro M, Nagayoshi Y, et al. A novel genetic marker for coronary spasm in women from a genome-wide single nucleotide polymorphism analysis. Pharmacogenet. Genomics 2007;17: 919-30.
【文献】Bonnelykke K, Matheson MC, Pers TH, Granell R, Strachan DP, Alves AC, et al. Meta-analysis of genome-wide association studies identifies ten loci influencing allergic sensitization. Nat. Genet. 2013;45: 902-906.
【文献】Whitcomb DC, LaRusch J, Krasinskas AM, Klei L, Smith JP, Brand RE, et al. Common genetic variants in the CLDN2 and PRSS1-PRSS2 loci alter risk for alcohol-related and sporadic pancreatitis. Nat. Genet. 2012;44: 1349-54.
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、乾癬(以下、「本疾患」ともいう。)のリスクを判定する方法を提供することを課題とする。
【課題を解決するための手段】
【0006】
本発明者らは上記課題を解決するために鋭意検討した。その結果、これまで一見すると本疾患との関連性がないと認められる個々の一塩基多型を、一つのまとまったセットとしてみたときに、本疾患との関連性があることを見出した。そして、その関連性を用いることで、本疾患のリスクを判定する本発明を完成するに至った。
【0007】
すなわち、本発明の方法では、本疾患との関連性を見出した、rs9276975、rs4895441、rs10936599、rs2280401、rs2307121、rs11010067、rs77641731、rs10498345、rs6906021、及びrs12688220を少なくとも含む一塩基多型セット(以下、「本SNPセット」ともいう。)の遺伝子型情報に基づいて、本疾患のリスクを判定する。
【0008】
本発明の方法においては、「一塩基多型セット」とは、複数の一塩基多型の一つのまとまったセットを意味し、この一つのセットにより本疾患との関連性が見出されている。
【0009】
また、本発明の方法における「遺伝子型情報」とは、一塩基多型における2つのホモ接合型(AA,BB)と、ヘテロ接合型(AB)に分類して示される、一塩基多型の遺伝子型(Genotype)の情報を意味し、「本SNPセットの遺伝子型情報」とは、本SNPセットにおいて特定される各一塩基多型の遺伝子型情報を一まとまりとしたセットを意味し、言い換えれば、各rs番号で示される塩基配列中の各SNPの多型となる塩基に関する情報のセットである。本SNPセットの遺伝子型情報は、
図1において示すとおりである。
【発明の効果】
【0010】
本発明によれば、本疾患のリスクを判定することができる。
【図面の簡単な説明】
【0011】
【
図2】本SNPセットの遺伝子型情報にSNP毎の接合型に対応付ける値の関係を示した変換テーブルの一例を示す。
【
図3】本SNPセットを用いたモデルのROC曲線とAUCを示す。また、N個のSNPを含む本SNPセットから1つのSNPを任意に抜いたN-1個のSNPを含むSNPセットを、「比較SNPセット」ともいい、各比較SNPセットを表す場合には、比較SNPセット1、比較SNPセット2と、記載する。
【
図4】比較SNPセット1を用いたモデルのROC曲線とAUCを示す。
【
図5】比較SNPセット2を用いたモデルのROC曲線とAUCを示す。
【
図6】比較SNPセット3を用いたモデルのROC曲線とAUCを示す。
【
図7】比較SNPセット4を用いたモデルのROC曲線とAUCを示す。
【
図8】比較SNPセット5を用いたモデルのROC曲線とAUCを示す。
【
図9】比較SNPセット6を用いたモデルのROC曲線とAUCを示す。
【
図10】比較SNPセット7を用いたモデルのROC曲線とAUCを示す。
【
図11】比較SNPセット8を用いたモデルのROC曲線とAUCを示す。
【
図12】比較SNPセット9を用いたモデルのROC曲線とAUCを示す。
【
図13】比較SNPセット10を用いたモデルのROC曲線とAUCを示す。
【発明を実施するための形態】
【0012】
本発明の実施の形態について説明する。以下の実施形態は、本発明を説明するための例示であり、本発明をこの実施形態にのみ限定する趣旨ではない。本発明は、その要旨を逸脱しない限り、様々な形態で実施することができる。
【0013】
本実施形態において、乾癬とは、銀白色の鱗屑(皮膚の粉)をともない、境界明瞭な盛り上がった紅斑が全身に出る疾患をいう。
【0014】
また、本実施形態において、本疾患は、一般には、本疾患に関する医学会の公表するガイドラインに沿って診断される疾患、医療用医薬品の添付文書において、効能・効果の欄に記載される疾患、あるいは、医薬・医療業界において汎用される用語として理解される疾患の少なくともいずれかを意味するものと解することができる。
【0015】
本実施形態の方法においては、一見すると本疾患との関連性がないと認められる所定数の一塩基多型セットを用いて、本疾患のリスクを判定する。
【0016】
本疾患のリスクとは、本疾患の罹りやすさや罹りにくさなどの本疾患に罹る可能性をいう。「リスクを判定する」とは、例えば、現在または将来において本疾患に罹る可能性をいくつかのレベルに分けて出力することや、数値により出力することを含む。本疾患のリスクの判定には、疾患に罹りやすい傾向にあるのか、罹りにくい傾向にあるのかといった、疾患に対する遺伝的要因あるいは遺伝的感受性についての評価が含まれる。
【0017】
なお、本疾患のリスクを判定するにあたっては、本疾患のリスクの判定を受ける対象者が、本疾患のリスクの判定時において、実際に本疾患に罹患しているか(発症しているか)否かは問わない。
【0018】
本実施形態の方法では、本SNPセットで特定される各SNPの遺伝子型を2つのホモ接合型(AA,BB)と、ヘテロ接合型(AB)に分類した遺伝子型のセットである、本SNPセットの遺伝子型情報を用いる。そして、本SNPセットの遺伝子型情報に基づいて、対象者の本疾患のリスクを判定する。
【0019】
本実施形態の方法で用いる本SNPセットは、本疾患との関連性が従来認められていなかったSNPを含むセットである。すなわち、通常は、本SNPセットに含まれるSNPを個別に分析したとしても、本疾患のリスクを判定することはできない。しかしながら、本実施形態の方法では、本SNPセットに含まれる各SNPの遺伝子型情報を一まとまりのセットとして分析することにより、本疾患のリスクを判定することができる。また、本SNPセットを分析した場合と、比較SNPセットを分析した場合とを比較すると、本SNPセットを分析した場合の方が統計的に有意な結果が得られている。すなわち、本実施形態の方法において、本SNPセットを分析して本疾患のリスクを判定することで、高精度が高い、あるいは予測能力が高いリスクの判定方法を提供することができる。
【0020】
以下、本SNPセットに含まれる各SNPに関連して、rs番号と、各SNPが存在する染色体番号(性染色体の場合には、XかYで示す)と、各SNPの染色体上の位置と、rs番号に対応する塩基配列と、を列記する。なお、各rs番号で示される塩基配列中において、SNPは[]で囲って示す。例えば、[A/G]と表記した場合には、その塩基配列の位置においてA又はGの一塩基多型があることを示す。また、[-/G]と表記した場合には、その塩基配列の位置において欠失[-]又はGの挿入があることを示す。また、各SNPに関する塩基配列や疾患などの情報は、例えば、rs番号に基づいてNCBI SNP Databaseを検索することで得られる。それらの情報は当該Databaseにより参照可能であり、また、本明細書で援用する。なお、以下に記す染色体上の位置は、assembly genomeのバージョンGRCh37に対応するものである。
【0021】
rs9276975
染色体番号 6
染色体上の位置 32973599
塩基配列 TTTCCACCTCTTGGCCTCAAGCAGT[T/C]CTGTCCCCTTGGCCTCCCAAAGTGC(配列番号1)
【0022】
rs4895441
染色体番号 6
染色体上の位置 135426573
塩基配列 CTGGGGAAAGACTCTTTGTAAAGTG[A/G]TACATGAGCAGAGAACTGAGTAAGT(配列番号2)
【0023】
rs10936599
染色体番号 3
染色体上の位置 169492101
塩基配列 ATATCAAAATGCAGTATTCGCACCA[T/C]TGTGAGCACCTTTTAGAGAGACTGA(配列番号3)
【0024】
rs2280401
染色体番号 19
染色体上の位置 50000009
塩基配列 TTTTTTTGGAGTTCTCCGGTCTTCA[A/G]GGGTAATTCTGTGGAAACGGACTCC(配列番号4)
【0025】
rs2307121
染色体番号 5
染色体上の位置 64625512
塩基配列 CTAGACATTAATATTTTTTGAACTG[T/C]AGTCAGTGCTGGAAAATGTCTAGAC(配列番号5)
【0026】
rs11010067
染色体番号 10
染色体上の位置 35295431
塩基配列 TATTAATTTCCACTCATTTCGCTAT[C/G]GCCCATCTGCAACAGACCTTAGGAC(配列番号6)
【0027】
rs77641731
染色体番号 9
染色体上の位置 136132908
塩基配列 GCAGTAGGAAGGATGTCCTCGTGGT[-/G]ACCCCTTGGCTGGCTCCCATTGTCT(配列番号7)
【0028】
rs10498345
染色体番号 14
染色体上の位置 39020505
塩基配列 TTGGCGGTCTATCCTATAACTTTAT[A/T]CCCTCATTCCCAGAGAATGTTTTAA(配列番号8)
【0029】
rs6906021
染色体番号 6
染色体上の位置 32626311
塩基配列 AAGCTCCCAGACTCTGTCTTCATGA[T/C]GAAACTCAGAGACTGAGATGTAGAC(配列番号9)
【0030】
rs12688220
染色体番号 X
染色体上の位置 106244767
塩基配列 ATGTCCTTTGAGCATCATTTTTTAC[T/C]CCCATTGGGTGCTTTACATTTGTCT(配列番号10)
【0031】
本実施形態の方法において、本SNPセットを構成する各SNPはrs番号により特定される塩基配列を参照することによって特定可能であるが、本明細書において記載するrs番号が他のrs番号と併合され、新たなrs番号が付与された場合には、本明細書において該当するrs番号は、併合後のrs番号及び併合される他のrs番号をも意味する。また、本明細書において記載するrs番号が複数のrs番号の併合により付与された番号である場合には、本明細書において該当するrs番号は、その他の元となるrs番号をも意味する。
【0032】
また、SNPに関する各rs番号で示される上記塩基配列は、特定の塩基配列として示しているが、人種の相違等によって、当該塩基配列において該当するSNP以外の部分における塩基配列は変更されてもよい。
【0033】
本実施形態の方法は、いずれの人種の被検者に対しても用いることができるが、特に、アジア人に好適に用いることができる。アジア人の中でも日本人等の東アジア人の被検者により好適に用いることができる。また、本実施形態の方法は、いずれの性別の被検者に対しても用いてもよい。
【0034】
以下、本SNPセットの遺伝子型情報を分析することにより本疾患のリスクを判定する方法の一態様について説明する。但し、判定方法は、以下に限定されない。
【0035】
はじめに、対象者の試料を用いて、試料中の本SNPセットに含まれる各SNPの遺伝子型を特定する。SNPの検出に用いる試料としては、染色体DNAを含む試料であれば特に制限されない。このような試料としては、例えば、唾液、血液、尿等の体液サンプル;口腔粘膜などの細胞サンプル;毛髪等の体毛などが挙げられる。SNPの検出には、これらの試料から常法により単離した染色体DNAを直接使用してもよいし、単離した染色体DNAを増幅して、増幅後の染色体DNAを使用してもよい。
【0036】
SNPの検出は、通常の遺伝子多型解析方法によって行うことができる。例えば、DNAチップ法(DNAマイクロアレイ)、サンガー法を用いた従来型のシーケンサーや次世代シーケンサー(NGS;Next Generation Sequencer)などを用いたシーケンス解析、PCR(Polymerase Chain Reaction)、ハイブリダイゼーション、インベーダー法などが挙げられるが、これらに限定されない。
【0037】
DNAチップ法では、SNP部位を含む多数のDNA断片(プローブ)を基板上に配置したDNAチップを用い、染色体DNAをチップ上のプローブとハイブリダイズさせて、結合部位を蛍光又は電流により検出することにより、染色体DNAの配列を解析する。SNP解析に用いられるDNAチップとしては、SNP部位を含む塩基配列を検出可能なオリゴヌクレオチドプローブが配置されたチップが挙げられる。
【0038】
また、シーケンス解析は通常のサンガー法により行うことができる。例えば、多型を示す塩基の5'側の数十塩基の位置に設定したプライマーを使用してシーケンス反応を行い、その解析結果から、該当する位置がどの種類の塩基であるかを決定することができる。なお、シーケンス反応の前に、あらかじめSNP部位を含む断片をPCRなどによって増幅しておくことが好ましい。効率の観点からはNGS技術を使用してもよい。
【0039】
また、SNPの検出は、例えば従来のPCRによる増幅の有無を調べることによって行うことができる。例えば、多型を示す塩基を含む領域に対応する配列を有し、かつ、3'末端が各多型に対応するプライマーをそれぞれ用意する。それぞれのプライマーを使用してPCRを行い、増幅産物の有無によってどのタイプの多型であるかを決定することができる。また、LAMP法(Loop-Mediated Isothermal Amplification;特許第3313358号明細書)、NASBA法(Nucleic Acid Sequence-Based Amplification;特許2843586号明細書)、ICAN法(Isothermal and Chimeric primer-initiated Amplification of Nucleic acids;特許第3433929号公報)などによって増幅の有無を調べることもできる。その他、単鎖増幅法やNGSを用いた解析法を用いてもよい。
【0040】
また、SNP部位を含むDNA断片を増幅し、増幅産物の電気泳動における移動度の違いによってどのタイプの多型であるかを決定することもできる。このような方法としては、例えば、PCR-SSCP(single-strand conformation polymorphism)法(Genomics. 1992 Jan 1;12(1):139-146.)などが挙げられる。具体的には、まず、目的のSNPを含むDNAを増幅し、増幅したDNAを一本鎖DNAに解離させる。次いで、解離させた一本鎖DNAを非変性ゲル上で分離し、分離した一本鎖DNAのゲル上での移動度の違いによってどのタイプの多型であるかを決定することができる。
【0041】
さらに、多型を示す塩基が制限酵素認識配列に含まれる場合は、制限酵素による切断の有無によって解析することもできる(RFLP(Restriction Fragment Length Polymorphism)法)。この場合、まず、DNA試料を制限酵素により切断する。次いで、DNA断片を分離し、検出されたDNA断片の大きさによってどのタイプの多型であるかを決定することができる。
【0042】
また、ハイブリダイゼーションの有無を調べることによって多型の種類を解析することも可能である。すなわち、各塩基に対応するプローブを用意し、いずれのプローブにハイブリダイズするかを調べることによってSNPがいずれの塩基であるかを調べることもできる。
【0043】
このようにして、本SNPセットの各SNPに関して、対象者の遺伝子型データを決定することができる。なおここで、「対象者の遺伝子型データ」とは、対象者の有する遺伝子型情報をいう。
【0044】
次いで、本SNPセットの遺伝子型情報に基づいて、本疾患のリスクを判定する。リスクの判定には、任意のモデルを用いることができる。モデルとしては、特に制限されないが、例えば、本SNPセットの遺伝子型情報を用いて、対象者の遺伝子型データから算出される特徴量を入力とし、本疾患のリスクを出力とするロジスティック回帰モデルを用いることができる。当該ロジスティック回帰モデルは、予め、本疾患に罹患したヒトの遺伝子型データと、本疾患に罹患していないヒトの遺伝子型データと、を学習データとして用いてパラメータを機械学習している。
【0045】
また、疾患のリスクを判定するモデルとしては、ロジスティック回帰モデルに代えて、多層パーセプトロン、CNN(Convolutional Neural Network)及びRNN(Recurrent Neural Network)などのニューラルネットワーク、ガウシアンカーネル等の任意のカーネル関数を用いるサポートベクターマシーン、回帰木としてモデル化したランダムフォレスト、重回帰分析、隠れマルコフモデルなどを利用したモデル、統計モデルや確率モデルなど種々の他のモデルを採用することもできる。また、種々のモデルを組み合わせて総合的な判定を行うモデルを採用することもできる。
【0046】
次いで、モデルを用いた本疾患のリスク判定の一例について説明する。まず、本疾患のリスクの判定をする対象者の遺伝子型データを、モデルに入力可能な特徴量に変換する。本実施形態の方法における特徴量は、例えば、本SNPセットの各SNPについて、対象者の遺伝子型データがホモ接合型(AA)、ホモ接合型(BB)、又はヘテロ接合型(AB)のいずれであるかを示すパラメータである。遺伝子型は、相同染色体のSNPが共にG(グアニン)であることを示す“GG”や、一方がG(グアニン)で、他方がA(アデニン)であることを示す“AG”などヌクレオチドにより表記されることが一般的であるため、対象者の遺伝子型データを、本SNPセットの遺伝子型情報を用いるモデルに入力可能なパラメータに変換する。しかし、モデルが、このようなパラメータへの変換の必要がないものである場合には、上記変換は必要とされない。
【0047】
対象者の遺伝子型データの特徴量への変換は、例えば、本SNPセットに含まれるSNP1つ1つに関して、対象者の遺伝子型データに値を付すことにより行うことができる。例えば、各SNPについて、対象者の遺伝子型データがホモ接合型(AA)、ホモ接合型(BB)、又はヘテロ接合型(AB)のいずれに該当するのかに応じて、そのSNPに値(例えば、0又は1)を対応づける。これにより、対象者の遺伝子型データを特徴量に変換することができる。なお、以下では、各SNPに対応させる値を0又は1とした場合を例に説明するが、SNPに対応させる値は0又は1の2つの値に限られるものではない。
【0048】
接合型に対応づける値はSNPごとに決めることができる。例えば、あるSNPは、対象者の遺伝子型データがホモ接合型(AA)である場合に値1を対応付け、ホモ接合型(BB)及びヘテロ接合型(AB)である場合に値0を対応付けるようにし、他のSNPは、対象者の遺伝子型データがヘテロ接合型(AB)である場合に値1を対応付け、ホモ接合型(AA)及びホモ接合型(BB)である場合に値0を対応付けるようにしてもよい。そのほか、対象者の遺伝子型データがヘテロ接合型(AB)及びホモ接合型(BB)である場合に値1を対応付け、ホモ接合型(AA)である場合に値0を対応付けるようにしてもよい。
【0049】
上記のように、対象者の遺伝子型データを特徴量に変換することができる。この特徴量への変換において対応付けに使用する値は、任意に決定することができる。例えば、上記非特許文献に基づいて、もともと各SNPが関連する疾患に関係の高い遺伝子型に対して値1を対応付けるようにし、かつ、各SNPが関連する疾患に関係の低い遺伝子型に対して値0を対応付けるようにすることができる。
【0050】
このような、SNPごとの接合型とその接合型に対応付ける値の関係は、
図1のような本SNPセットの遺伝子型情報をもとに、例えば、
図2のような変換テーブルとして表すこともできる。
図2の変換テーブルでは、網掛けをした遺伝子型と一致する場合にはそのSNPに対応付ける値を1とし、一致しない場合には対応付ける値を0とする。なお、
図1及び2の具体的な遺伝子型の表記において、Aはアデニン、Gはグアニン、Cはシトシン、Tはチミンを示す。また、Dは欠失[-]を示し、Iは挿入を示す。但し、特徴量の変換テーブルの形式は、
図2に限定されるものではない。
【0051】
最後に、本SNPセットの遺伝子型情報に基づいて、対象者の本疾患のリスクを判定する。より具体的には、本SNPセットの遺伝子型情報に基づく変換テーブルを用いて、対象者の遺伝子型データを、モデルに入力可能に変換した特徴量として算出し、当該特徴量を所定の判定モデルに入力し、対象者の本疾患のリスクを判定することができる。
【0052】
判定モデルにおいて、特徴量には、本SNPセットのSNPごとに、本疾患のリスクと正の相関があることを表す重みづけや、本疾患のリスクと負の相関があることを表す重みづけをすることができる。例えば、rs10936599、rs10498345、rs2280401、及びrs2307121に対応付けた値(特徴量)ついては、本疾患のリスクと正の相関があることを表す重みづけを行い、rs4895441、rs77641731、rs6906021、rs11010067、rs12688220、及びrs9276975に対応付けた値(特徴量)ついては、本疾患のリスクと負の相関があることを表す重みづけを行うことができる。
【0053】
例えば、特徴量に対して重みづけを行う場合には、rs10936599の遺伝子型がTC、rs10498345の遺伝子型がAT、rs2280401の遺伝子型がAG、及びrs2307121の遺伝子型がCCである場合に、本疾患のリスクと正の相関があることを表す重みづけを行い、rs4895441の遺伝子型がAG、rs77641731の遺伝子型がDD、rs6906021の遺伝子型がTT、rs11010067の遺伝子型がCC、rs12688220の遺伝子型がCC、及びrs9276975の遺伝子型がCCである場合に、本疾患のリスクと負の相関があることを表す重みづけを行うことができる。また、特徴量として値0を対応付けた各SNPの遺伝子型の場合には、本疾患のリスクと相関がない或いは無視しうる程度に低いものと評価することができる。
【0054】
このような、本疾患のリスクとの相関を表す重みづけは、本疾患に罹患したヒトの遺伝子型データと、本疾患に罹患していないヒトの遺伝子型データと、を学習データとして用いてパラメータを機械学習することにより特定される。この際、あるモデルにおいて、あるSNPが本疾患のリスクと正の相関があることを表す重み付けがなされるとした場合、他のモデルにおいても同様にそのSNPは本疾患のリスクと正の相関があることを表す重み付けがなされることが通常である。すなわち、モデルの種類等によって、あるSNPにおいて本疾患のリスクとの相関関係が逆になるような事態は想定し難い。なお、重みづけの具体的な値はモデルによって異なり、特に制限されるものではない。
【0055】
ここで、本SNPセットのなかで本疾患のリスクと正の相関があることを表す重みづけを行うSNPのまとまりを「正相関SNPセット」といい、本疾患のリスクと負の相関があることを表す重みづけを行うSNPのまとまりを「負相関SNPセット」という。本SNPセットは、正相関SNPセットと負相関SNPセットとを含むものであり、このような本SNPセットの遺伝子型情報に基づくことにより、対象者の本疾患のリスクを、リスクが上昇する要因とリスクが低下する要因の両面を総合して判定することができる。
【0056】
上記のようにして得られる判定結果は、本疾患の専門医が本疾患を診断する際の補助としても用いられる。また、上記のようにして判定した本疾患のリスクと、対象者からのアンケート結果とに基づいて、本疾患のリスクの判定結果は補正されしてもよい。また、本疾患のリスクと、対象者からのアンケート結果とに基づいて、対象者に対して、生活改善に関するアドバイスを出力してもよい。
【0057】
本発明は、プライマーやプローブなどの検査試薬を提供することもできる。このようなプローブとしては、上記SNP部位を含み、ハイブリダイズの有無によってSNP部位の塩基の種類を判定できるプローブが挙げられる。また、プライマーとしては、上記SNP部位を増幅するためのPCRに用いることのできるプライマー、又は上記SNP部位をシーケンス解析するために用いることのできるプライマーが挙げられる。本実施形態の検査試薬はこれらのプライマーやプローブに加えて、PCR用のポリメラーゼやバッファー、ハイブリダイゼーション用試薬などを含むものであってもよい。
【実施例】
【0058】
以下、本実施形態を実施例によりさらに具体的に説明する。但し、本実施形態はこれらの実施例に限定されない。
【0059】
本SNPセットと本疾患との関連性を、以下のように検証した。
【0060】
遺伝子解析サービスの利用者7万3千人以上から、利用者の同意のもと、唾液試料と、各種疾患の罹患情報を収集した。罹患情報とは、例えば、本疾患に罹患している場合に1、罹患していない場合に0となる数値である。唾液試料から、利用者ごとの遺伝子型データを特定し、利用者の遺伝子型データと各種罹患情報とを対応付けたデータベースを構築した。このデータベースの中から、本疾患に罹患している被検者692名と、罹患していないコントロール692名との症例対照セットを構築した。
【0061】
次いで、被検者及びコントロールの本SNPセットの各SNPの遺伝子型を、2つのホモ接合型(AA,BB)と、ヘテロ接合型(AB)に分類した。そして、遺伝子型が
図2に示す網掛けをした変換テーブルの遺伝子型と一致する場合には、x
iの値を1とし、一致しない場合には0として、x
1~x
Nを以下の数式(1)で表されるロジスティック回帰モデルの説明変数とした。例えば、rs9276975の場合は、遺伝子型が“CC”であるときにx
1の値を1とし、遺伝子型が“TT”又は“TC”であるときにはx
1の値を0とした。なお、本実施例ではN=10である。また、以下の数式で表されるロジスティック回帰モデルの目的変数は、本疾患に罹患している確率を表す0から1の間の値p(罹患情報)とした。
【数1】
α=0.1
【表1】
【0062】
1.AUCによるモデルの検証
本SNPセットを用いた判定方法の精度について説明する。上記データベースから、テスト用に、利用者の遺伝子型情報と罹患情報とを対応付けたデータセットを作成した。データセットにおける各利用者の本SNPセットの各SNPの遺伝子型を、ホモ接合型(AA,BB)と、ヘテロ接合型(AB)に分類し、分類した各遺伝子型が
図2に示す網掛けをした遺伝子型と一致する場合には、x
iの値を1と評価し、一致しない場合には0と評価して、x
1~x
Nを特徴量として算出した。
【0063】
利用者毎の本SNPセットに関する特徴量を上記ロジスティック回帰モデル(以下、「判定モデル」ともいう。)に入力し、各利用者が本疾患に罹患しているか否かを予測し、その偽陽性率と真陽性率を算出し、ROC(Receiver Operating Characteristic)曲線とAUC(Area Under the Curve)をそれぞれ求めた。より具体的には、判定モデルについて5分割交差検証を行い、5つのROC曲線(ROC fold 1からROC fold 5)を求めて、その平均(Mean ROC)と標準偏差(±1std. dev.)を求めた。
図3中の破線(Luck)は、本疾患に罹患しているか否かをランダムに出力する場合であり、予測能力が無いモデルのROC曲線に対応している。
【0064】
また、同様にして、本SNPセットから1つのSNPを除いた各比較SNPセットに対して、上記と同様にそれぞれロジスティック回帰モデル(以下、「比較判定モデル」ともいう。)を作成した。そして、各比較SNP関する特徴量を各比較判定モデルに入力し、各利用者が本疾患に罹患しているか否かを予測し、偽陽性率と真陽性率を算出し、ROC曲線とAUCをそれぞれ求めた。その結果を
図4以降に示す。
【0065】
本SNPセットを用いて本疾患を判定した場合、AUCは0.68±0.02であり、ランダムな出力の場合(AUC=0.5)と比べて有意に高く、本SNPセットを用いる判定モデルの予測能力が高いことが確認できる。
【0066】
一方、各比較SNPセットを用いる比較判定モデルの場合、AUCは本SNPセットを用いる場合よりも低い。従って、各比較SNPセットを用いる比較判定モデルのAUCは、ランダムな出力の場合(AUC=0.5)よりも高いものの、本SNPセットを用いる判定モデルのAUC(0.68±0.02)よりも総じて低いことが確認できる。
【0067】
よって、本SNPセットに含まれるSNP全てを用いて判定することで、本SNPセットから1つのSNPを除いた各比較SNPセットを用いる場合よりも、本疾患に罹患しているか否かを高精度で予測できることが分かった。
【0068】
2.ウィルコクソンの順位和検定による検証
本SNPセットを用いる判定モデルが、各比較SNPセットを用いる比較判定モデルよりも有意に優れたモデルであることを確かめるために、ノンパラメトリック検定の一種であるウィルコクソンの順位和検定を行った。具体的には、本SNPセットを用いる判定モデルのAUCと、各比較SNPセットを用いる比較判定モデルのAUCとに差が無いという帰無仮説を設定し、有意水準を0.01としてウィルコクソンの順位和検定を行った。
【0069】
その結果、p値はいずれも3.96×10-18であり、帰無仮説が棄却されることが確認された。すなわち、本SNPセットを用いる判定モデルのAUCと、各比較SNPセットを用いる比較判定モデルのAUCとは、統計的に有意な差があり、本SNPセットを用いる判定モデルは、各比較SNPセットを用いる比較判定モデルよりも優れたモデルであるといえる。
【0070】
上記のとおり、本実施形態の方法は、本疾患に罹患しているか否かを予測する精度が、ランダムな予測の場合の精度よりも有意に高いという効果を有する。また、本実施形態の方法は、本SNPセットの遺伝子型情報に基づく本疾患の判定の結果と、比較SNPセットの遺伝子型情報に基づく本疾患の判定の結果との間に、有意な差があるという効果を有する。当該効果は、本SNPセットの遺伝子型情報と本疾患の間に、これまで見出されていなかった潜在的な相関性があることに基づくものであると考えられる。上記で例示したロジスティック回帰モデルやその他のモデルは、本SNPセットの遺伝子型情報を前提として、本疾患に罹患したヒトと本疾患に罹患していないヒトの遺伝子型に関するデータと罹患情報を学習データとして用いてパラメータを機械学習することなどにより得られるものである。すなわち、いずれのモデルも上記潜在的な相関性を表す一つの表現型に過ぎず、本実施形態の方法の実施において使用されるモデルの種類は特に限定されるものではない。
【産業上の利用可能性】
【0071】
本発明の方法は、医療やヘルスケアに関連する分野において、本疾患のリスクを判定し、その予防および/または治療に貢献するものである。
【配列表】