(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-09-13
(45)【発行日】2022-09-22
(54)【発明の名称】DNA変異絞込装置、DNA変異絞込システム、DNA変異絞込方法、及びプログラム
(51)【国際特許分類】
G16B 20/00 20190101AFI20220914BHJP
【FI】
G16B20/00
(21)【出願番号】P 2018164050
(22)【出願日】2018-08-31
【審査請求日】2021-02-08
(73)【特許権者】
【識別番号】392026693
【氏名又は名称】株式会社NTTドコモ
(73)【特許権者】
【識別番号】504157024
【氏名又は名称】国立大学法人東北大学
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100124844
【氏名又は名称】石原 隆治
(72)【発明者】
【氏名】恒元 淑希
(72)【発明者】
【氏名】山内 隆史
(72)【発明者】
【氏名】越智 大介
(72)【発明者】
【氏名】檜山 聡
(72)【発明者】
【氏名】長▲崎▼ 正朗
(72)【発明者】
【氏名】菅原 準一
(72)【発明者】
【氏名】峯岸 直子
【審査官】岡北 有平
(56)【参考文献】
【文献】特開2008-191716(JP,A)
【文献】特開2016-059759(JP,A)
【文献】Paula J. Williams, et al.,The genetics of pre-eclampsia and other hypertensive disorders of pregnancy,Best Practice & Research Clinical Obstetrics and Gynaecology [online],2011年08月25日,Volume 25, Issue 4,Pages 405-417,[検索日:2022年7月19日], <URL:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3145161/>
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00 - 99/00
(57)【特許請求の範囲】
【請求項1】
所定の疾患に罹患している被験者を含む複数の被験者から収集した、前記所定の疾患に関連する量的形質の連続的な計測値
に対して所定の多項式にフィッティングを行い、前記多項式の係数、前記多項式の切片、又は前記多項式の係数と切片を用いて、前記被験者ごとに特徴量を抽出する特徴量抽出部と、
前記複数の被験者におけるDNA変異の情報を取得する取得部と、
前記特徴量と前記DNA変異との関連を解析する解析部と、
前記解析部の解析結果に基づいて、前記所定の疾患に関連するDNA変異を抽出するDNA変異抽出部と、
を有
し、
前記解析部は、前記特徴量を目的変数、前記DNA変異を説明変数として関連解析を行い、前記特徴量と各DNA変異との関連度を示す統計的指標の値を算出し、
前記DNA変異抽出部は、前記解析部が算出した前記統計的指標の値が、予め定められた基準値以上、又は基準値以下となるDNA変異を抽出する、
DNA変異絞込装置。
【請求項2】
所定の疾患に罹患している被験者を含む複数の被験者から収集した、前記所定の疾患に関連する量的形質の連続的な計測値に対して所定の多項式にフィッティングを行い、前記多項式の係数、前記多項式の切片、又は前記多項式の係数と切片を用いて、前記被験者ごとに特徴量を抽出する特徴量抽出部と、
前記複数の被験者におけるDNA変異の情報を取得する取得部と、
前記特徴量と前記DNA変異との関連を解析する解析部と、
前記解析部の解析結果に基づいて、前記所定の疾患に関連するDNA変異を抽出するDNA変異抽出部と、
を有し、
前記解析部は、
前記特徴量抽出部が抽出した特徴量を、予め定めた基準値を用いて前記所定の疾患の罹患群と非罹患群とにラベル付けし、
前記取得部が取得したDNA変異の情報に含まれる各DNA変異に対して、前記罹患群、及び前記非罹患群における保有数に差があるかを示す統計的指標の値を算出し、
前記DNA変異抽出部は、前記解析部が算出した前記統計的指標の値が、予め定められた基準値以上、又は基準値以下となるDNA変異を抽出する
、
DNA変異絞込装置。
【請求項3】
前記DNA変異は、一塩基多型を含み、
前記統計的指標は、有意確率を表すp値を含み、
前記DNA変異抽出部は、前記p値が、予め定められた有意水準より小さい前記一塩基多型を抽出する、請求項
1又は2に記載のDNA変異絞込装置。
【請求項4】
前記所定の疾患は、妊娠高血圧症候群を含み、
前記所定の疾患に関連する量的形質の連続的な計測値は、所定の時間間隔で計測した血圧の計測値を含む、請求項1乃至
3のいずれか一項に記載のDNA変異絞込装置。
【請求項5】
所定の疾患に罹患している被験者を含む複数の被験者から収集した、前記所定の疾患に関連する量的形質の連続的な計測値
に対して所定の多項式にフィッティングを行い、前記多項式の係数、前記多項式の切片、又は前記多項式の係数と切片を用いて、前記被験者ごとに特徴量を抽出する特徴量抽出部と、
前記複数の被験者におけるDNA変異の情報を取得する取得部と、
前記特徴量と前記DNA変異との関連を解析する解析部と、
前記解析部の解析結果に基づいて、前記所定の疾患に関連するDNA変異を抽出するDNA変異抽出部と、
を有
し、
前記解析部は、前記特徴量を目的変数、前記DNA変異を説明変数として関連解析を行い、前記特徴量と各DNA変異との関連度を示す統計的指標の値を算出し、
前記DNA変異抽出部は、前記解析部が算出した前記統計的指標の値が、予め定められた基準値以上、又は基準値以下となるDNA変異を抽出する、
DNA変異絞込システム。
【請求項6】
所定の疾患に罹患している被験者を含む複数の被験者から収集した、前記所定の疾患に関連する量的形質の連続的な計測値に対して所定の多項式にフィッティングを行い、前記多項式の係数、前記多項式の切片、又は前記多項式の係数と切片を用いて、前記被験者ごとに特徴量を抽出する特徴量抽出部と、
前記複数の被験者におけるDNA変異の情報を取得する取得部と、
前記特徴量と前記DNA変異との関連を解析する解析部と、
前記解析部の解析結果に基づいて、前記所定の疾患に関連するDNA変異を抽出するDNA変異抽出部と、
を有し、
前記解析部は、
前記特徴量抽出部が抽出した特徴量を、予め定めた基準値を用いて前記所定の疾患の罹患群と非罹患群とにラベル付けし、
前記取得部が取得したDNA変異の情報に含まれる各DNA変異に対して、前記罹患群、及び前記非罹患群における保有数に差があるかを示す統計的指標の値を算出し、
前記DNA変異抽出部は、前記解析部が算出した前記統計的指標の値が、予め定められた基準値以上、又は基準値以下となるDNA変異を抽出する、
DNA変異絞込システム。
【請求項7】
コンピュータが、
所定の疾患に罹患している被験者を含む複数の被験者から収集した、前記所定の疾患に関連する量的形質の連続的な計測値
に対して所定の多項式にフィッティングを行い、前記多項式の係数、前記多項式の切片、又は前記多項式の係数と切片を用いて、前記被験者ごとに特徴量を抽出する処理と、
前記複数の被験者におけるDNA変異の情報を取得する処理と、
前記特徴量と前記DNA変異との関連を解析する
解析処理と、
前記
解析処理の解析結果に基づいて、前記所定の疾患に関連するDNA変異を抽出する
DNA変異抽出処理と、
を実行
し、
前記解析処理は、前記特徴量を目的変数、前記DNA変異を説明変数として関連解析を行い、前記特徴量と各DNA変異との関連度を示す統計的指標の値を算出し、
前記DNA変異抽出処理は、前記解析処理で算出した前記統計的指標の値が、予め定められた基準値以上、又は基準値以下となるDNA変異を抽出する、
DNA変異絞込方法。
【請求項8】
コンピュータが、
所定の疾患に罹患している被験者を含む複数の被験者から収集した、前記所定の疾患に関連する量的形質の連続的な計測値に対して所定の多項式にフィッティングを行い、前記多項式の係数、前記多項式の切片、又は前記多項式の係数と切片を用いて、前記被験者ごとに特徴量を抽出する特徴量抽出処理と、
前記複数の被験者におけるDNA変異の情報を取得する取得処理と、
前記特徴量と前記DNA変異との関連を解析する解析処理と、
前記解析処理の解析結果に基づいて、前記所定の疾患に関連するDNA変異を抽出するDNA変異抽出処理と、
を実行し、
前記解析処理は、
前記特徴量抽出処理で抽出した特徴量を、予め定めた基準値を用いて前記所定の疾患の罹患群と非罹患群とにラベル付けし、
前記取得処理で取得したDNA変異の情報に含まれる各DNA変異に対して、前記罹患群、及び前記非罹患群における保有数に差があるかを示す統計的指標の値を算出し、
前記DNA変異抽出処理は、前記解析処理で算出した前記統計的指標の値が、予め定められた基準値以上、又は基準値以下となるDNA変異を抽出する、
DNA変異絞込方法。
【請求項9】
コンピュータに、
所定の疾患に罹患している被験者を含む複数の被験者から収集した、前記所定の疾患に関連する量的形質の連続的な計測値
に対して所定の多項式にフィッティングを行い、前記多項式の係数、前記多項式の切片、又は前記多項式の係数と切片を用いて、前記被験者ごとに特徴量を抽出する処理と、
前記複数の被験者におけるDNA変異の情報を取得する処理と、
前記特徴量と前記DNA変異との関連を解析する
解析処理と、
前記解析する処理の解析結果に基づいて、前記所定の疾患に関連するDNA変異を抽出する
DNA変異抽出処理と、
を実行させ
、
前記解析処理は、前記特徴量を目的変数、前記DNA変異を説明変数として関連解析を行い、前記特徴量と各DNA変異との関連度を示す統計的指標の値を算出し、
前記DNA変異抽出処理は、前記解析処理で算出した前記統計的指標の値が、予め定められた基準値以上、又は基準値以下となるDNA変異を抽出する、
プログラム。
【請求項10】
コンピュータに、
所定の疾患に罹患している被験者を含む複数の被験者から収集した、前記所定の疾患に関連する量的形質の連続的な計測値に対して所定の多項式にフィッティングを行い、前記多項式の係数、前記多項式の切片、又は前記多項式の係数と切片を用いて、前記被験者ごとに特徴量を抽出する特徴量抽出処理と、
前記複数の被験者におけるDNA変異の情報を取得する取得処理と、
前記特徴量と前記DNA変異との関連を解析する解析処理と、
前記解析処理の解析結果に基づいて、前記所定の疾患に関連するDNA変異を抽出するDNA変異抽出処理と、
を実行させ、
前記解析処理は、
前記特徴量抽出処理で抽出した特徴量を、予め定めた基準値を用いて前記所定の疾患の罹患群と非罹患群とにラベル付けし、
前記取得処理で取得したDNA変異の情報に含まれる各DNA変異に対して、前記罹患群、及び前記非罹患群における保有数に差があるかを示す統計的指標の値を算出し、
前記DNA変異抽出処理は、前記解析処理で算出した前記統計的指標の値が、予め定められた基準値以上、又は基準値以下となるDNA変異を抽出する、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、DNA変異絞込装置、DNA変異絞込システム、DNA変異絞込方法、及びプログラムに関する。
【背景技術】
【0002】
複数の被験者のDNA(DeoxyriboNucleic Acid)変異データを用いて、DNA変異と特定の病気や量的形質との関連を調べる技術が知られている(例えば、特許文献1参照)。
【0003】
また、具体的な研究の例として、日本人約16万人のDNA情報を用いて全ゲノム関連解析を実施し、さらに欧米人32万人で行われたメタ解析を行うことにより、体重に影響すると考えられる193のゲノム領域を同定した例がある(例えば、非特許文献1参照)。
【0004】
さらに、妊娠高血圧症候群(以下HDP: Hypertensive Disorders of Pregnancy)に罹患した50名の遺伝子情報と、罹患していない50名の遺伝子情報とを用いてエキソーム解析を行ったところ、両群の遺伝子の発現量に差は見られたものの、有意差がでなかった例がある(例えば、非特許文献2参照)。
【先行技術文献】
【特許文献】
【0005】
【非特許文献】
【0006】
【文献】Akiyama M, et.al, "Genome-wide association study identifies 112 loci for body mass index in the Japanese population.", Nature genetics, doi: 10.1038/ng.3951
【文献】Hansen, Anette Tarp, et al. "The Genetic Component of Preeclampsia: A Whole-Exome Sequencing Study.", Plos One, vol. 13, no. 5, 2018, doi:10.1371
【発明の概要】
【発明が解決しようとする課題】
【0007】
例えば、非特許文献1のように、全ゲノム関連解析を行う際には、約30億の塩基対の中から、所定の疾患に関連するDNA変異を特定するため、膨大な数(例えば、数千~数十万単位)のDNAサンプルが必要となる。
【0008】
しかし、研究機関の資金不足や、所定の疾患の罹患率が低い等の理由により、十分な数のサンプルが得られないことも多く、このような場合には、例えば、非特許文献2に示すように、所定の疾患に関連するバイオマーカーを十分に絞り込めない場合がある。
【0009】
また、疾患によっては、罹患群と非罹患群の定義が曖昧な場合がある。例えば、HDPには診断のガイドラインが設定されているが、実際には、HDPに分類されていなくてもHDPのような血圧値が現れる場合がある。このような場合には罹患群、非罹患群の遺伝的背景に十分な差がない可能性があり、所定の疾患に関連するDNA変異を十分に絞り込めない場合がある。
【0010】
こういった課題を解決する方法として、罹患群と非罹患群のDNA配列の違いに関し関連解析を行う方法に加え、体重、BMI、血圧、体温などの所定の疾患に関わる量的形質を用いて、量的形質の大小にDNA配列が及ぼす影響を評価する量的形質を用いた関連解析が考えられる。しかし、例えば来院時に測定した量的形質を用いて関連解析を行う場合、患者によって来院時期が異なっている等の理由から、罹患群、非罹患群で量的形質の比較を行う際、量的形質に及ぼす来院時期の影響を取り除くことができず、所定の疾患に関連するDNA変異を十分に絞り込めない場合が想定できる。
【0011】
このように、従来の技術では、例えば、検体のDNAサンプルが少ない場合や、疾患の定義が曖昧である場合には、所定の疾患に関連するDNA変異を絞り込むことには困難を伴っていた。さらに量的形質を用いて関連解析を行う場合でも所定の疾患に関連するDNA変異を絞り込むことが困難であることが想定できる。
【0012】
本発明の実施形態は、上記の問題点に鑑みてなされたものであって、所定の疾患に関わる量的形質を用いて関連解析を行う場合に、所定の疾患に関連するDNA変異を容易に絞り込むことができるDNA変異絞込装置を提供する。
【課題を解決するための手段】
【0013】
上記の課題を解決するため、本発明の一実施形態に係るDNA変異絞込装置は、所定の疾患に罹患している被験者を含む複数の被験者から収集した、前記所定の疾患に関連する量的形質の連続的な計測値に対して所定の多項式にフィッティングを行い、前記多項式の係数、前記多項式の切片、又は前記多項式の係数と切片を用いて、前記被験者ごとにから特徴量を抽出する特徴量抽出部と、前記複数の被験者におけるDNA変異の情報を取得する取得部と、前記特徴量と前記DNA変異との関連を解析する解析部と、前記解析部の解析結果に基づいて、前記所定の疾患に関連するDNA変異を抽出するDNA変異抽出部と、を有し、前記解析部は、前記特徴量を目的変数、前記DNA変異を説明変数として関連解析を行い、前記特徴量と各DNA変異との関連度を示す統計的指標の値を算出し、前記DNA変異抽出部は、前記解析部が算出した前記統計的指標の値が、予め定められた基準値以上、又は基準値以下となるDNA変異を抽出する。
【0014】
ここで、所定の疾患に関連する量的形質には、例えば、被験者の血圧、体重、BMI(Body Mass Index)、脈拍、心拍数、体脂肪率、活動量、消費カロリー、睡眠時間、体温等の連続的かつ量的に変化する形質が含まれる。量的形質の連続的な計測値は、これらの量的形質を所定の期間連続的に測定し記録した値である。
【0015】
このように、疾患に関わる連続的な量的形質を用いることで、罹患、非罹患という2値の情報を使う場合よりも当該疾患に関する情報を増やすことを可能とする。
【発明の効果】
【0016】
本発明の一実施形態によれば、所定の疾患に関わる量的形質を用いて関連解析を行う場合に、所定の疾患に関連するDNA変異を容易に絞り込むことができるDNA変異絞込装置を提供することができる。
【図面の簡単な説明】
【0017】
【
図1】一実施形態に係るDNA変異絞込装置の構成例を示す図(1)である。
【
図2】一実施形態に係るDNA変異絞込装置の構成例を示す図(2)である。
【
図3】一実施形態に係るDNA変異絞込装置のハードウェア構成の例を示す図である。
【
図4】一実施形態に係るDNA変異の絞込処理の概要を示すフローチャートである。
【
図5】一実施形態に係る特徴量の抽出処理の例を示すフローチャートである。
【
図6】一実施形態に係る特徴量の一例について説明するための図である。
【
図7】一実施形態に係る第1の具体例のDNA変異の絞込処理の例を示すフローチャートである。
【
図8】一実施形態に係る第1の具体例のDNA変異の絞込処理の応用例を示すフローチャートである。
【
図9】一実施形態に係る第2の具体例のDNA変異の絞込処理の例を示すフローチャートである。
【
図10】一実施形態に係る第2の具体例の罹患群、非罹患群のラベル付け処理の例を示すフローチャートである。
【発明を実施するための形態】
【0018】
以下、図面を参照して本発明の実施の形態を説明する。なお、以下で説明する実施の形態は一例であり、本発明が適用される実施の形態は、以下の実施の形態に限られない。
【0019】
<DNA変異絞込装置の構成>
図1~3を用いて、一実施形態に係るDNA(DeoxyriboNucleic Acid)変異絞込装置の構成について説明する。DNA変異絞込装置110は、コンピュータの構成を有する情報処理装置、又は複数の情報処理装置を含むシステム(DNA変異絞込システム100)である。DNA変異絞込装置110は、例えば、
図3に示すようなハードウェア構成を備えている。
【0020】
DNA変異絞込装置110は、例えば、入力された複数の被験者のDNA変異データと、連続した量的形質のデータとに基づいて関連解析(検定)を行いDNA変異データが連続した量的形質の変化に及ぼす影響を算出し所定の疾患に関連するDNA変異の絞込を行い、絞込結果(例えば、候補リスト等)を出力する。
【0021】
ここで、関連解析(検定)には、線形回帰、ロジスティック回帰、フィッシャーの正確検定、カイ二乗検定、コクラン・アミテージ検定、t検定等を用いることができるが、これに限定されない。
【0022】
なお、DNA変異絞込装置110は、例えば、所定の疾患に関連する一塩基多型等のDNA変異の候補を絞り込むものであれば良く、必ずしも、所定の疾患の罹患/非罹患や進行度等を直接示すDNA変異を特定するものでなくても良い。
【0023】
図1は、一実施形態に係るDNA変異絞込装置110の構成例を示す図(1)である。DNA変異絞込装置110は、
図3のプロセッサ301で所定のプログラムを実行することにより、
図1に示す入力受付部111、特徴量抽出部112、DNA変異情報取得部113、関連解析部114、DNA変異抽出部115、記憶部116、及び結果出力部117等を実現している。なお、入力受付部111、特徴量抽出部112、DNA変異情報取得部113、関連解析部114、DNA変異抽出部115、記憶部116、及び結果出力部117のうち、少なくとも一部は、ハードウェアによって実現されるものであっても良い。
【0024】
入力受付部111は、例えば、
図3のプロセッサ301で実行されるプログラムによって実現され、
図3の入力装置304、通信装置306等から入力される入力データや入力操作等を受け付ける。例えば、入力受付部111は、所定の疾患に罹患している被験者を含む複数の被験者から収集した、所定の疾患に関連する量的形質の連続的な計測値の入力を受け付ける。
【0025】
また、入力受付部111は、所定の疾患に罹患している被験者を含む複数の被験者から収集したDNA配列情報(以下、DNA情報と呼ぶ)や、DNA変異の情報等の入力を受け付けることもできる。
【0026】
DNAは、遺伝情報を記録している物質(デオキシリボ核酸)であり、約30億対の塩基から構成されている。DNAには、遺伝情報を含む特定の領域(塩基配列)である遺伝子が含まれる。本実施形態では、遺伝子以外の領域に存在するDNA変異も絞込の対象とすることができる。
【0027】
DNA変異は、DNAにおける構造(塩基配列)の変異であり、例えば、一塩基多型(SNP: Single Nucleotide Polymorphism)、コピー数多型(CNV: Copy Number Variation)、DNAの欠失、挿入等が含まれ得る。
【0028】
特徴量抽出部112は、例えば、
図3のプロセッサ301で実行されるプログラムによって実現され、入力受付部111が受け付けた、所定の疾患に関連する量的形質の連続的な計測値から特徴量を抽出(決定)する。
【0029】
ここで特徴量は、例えば、所定の疾患に関連する量的形質の連続的な計測値を、所定の多項式にフィッティングし得られた、多項式の係数、多項式の切片、又は多項式の係数と切片等である。なお、特徴量抽出部112による特徴量の抽出方法の具体的な一例については、後述する。
【0030】
DNA変異情報取得部(取得部)113は、例えば、
図3のプロセッサ301で実行されるプログラムによって実現され、所定の疾患に罹患している被験者を含む複数の被験者におけるDNA変異の情報を取得する。
【0031】
例えば、DNA変異情報取得部113は、入力受付部111が受け付けたDNA情報を解析して、DNA変異の情報を抽出する。
【0032】
或いは、DNA変異情報取得部113は、
図2に示すように、DNA情報からDNA変異の情報を取得する外部装置であるDNA変異情報取得装置210から、複数の被験者におけるDNA変異の情報を取得するものであっても良い。さらに、DNA変異情報取得部113は、
図2に示すように、予め取得したDNA変異の情報を格納するDNA変異情報DB(Database)220から、複数の被験者に対応するDNA変異の情報を取得するものであっても良い。
【0033】
好ましくは、DNA変異情報取得部113が取得するDNA変異の情報には、複数の被験者のDNA情報(DNA配列情報)から抽出された、DNA配列中の全ての一塩基多型(SNP)の情報が含まれる。
【0034】
関連解析部(解析部)114は、例えば、
図3のプロセッサ301で実行されるプログラムによって実現され、特徴量抽出部112が抽出した特徴量と、DNA変異情報取得部113が取得したDNA変異の情報に含まれるDNA変異との関連を解析する。例えば、関連解析部114は、特徴量を目的変数、DNA変異を説明変数として関連解析(検定)を行い、DNA変異が特徴量にどの程度の影響を与えているかを表す、特徴量とDNA変異との関連度を示す統計的指標の値を算出する。
【0035】
ここで、特徴量とDNA変異との関連度を示す統計的指標の値には、特徴量抽出部112が抽出した特徴量と、DNA変異情報取得部113が取得したDNA変異の情報に含まれる各DNA変異との有意差を示す数値(例えば、p値、f値、オッズ比等)が含まれる。
【0036】
また、関連解析(検定)には、線形回帰、ロジスティック回帰、フィッシャーの正確検定、カイ二乗検定、コクラン・アミテージ検定、t検定等を用いることができるが、これに限定されない。
【0037】
なお、関連解析部114は、特徴量抽出部112が抽出した特徴量を、予め定めた基準値を用いて所定の疾患の罹患群と非罹患群とにラベル付けし、各DNA変異の有意性を示す統計的指標の値を算出するものであっても良い。
【0038】
DNA変異抽出部115は、例えば、
図3のプロセッサ301で実行されるプログラムによって実現され、関連解析部114の解析結果に基づいて、所定の疾患に関連するDNA変異を抽出する。例えば、DNA変異抽出部115は、関連解析部114が算出した統計的指標の値を基準として、所定の疾患に関するDNA変異を抽出する。
【0039】
記憶部116は、例えば、
図3のプロセッサ301で実行されるプログラム、及びストレージ303、メモリ302等によって実現され、入力受付部111が受け付けた情報や、DNA変異情報取得部113が取得した情報等を記憶する。
【0040】
結果出力部117は、例えば、
図3のプロセッサ301で実行されるプログラムによって実現される。結果出力部117は、DNA変異抽出部115が抽出した、所定の疾患に関連するDNA変異の情報(例えば、DNA変異の候補リスト等)を、本実施形態のハードウェア構成の例を示す
図3の出力装置305等を用いて出力する。
【0041】
(具体的な構成の一例)
DNA変異絞込装置110の具体的な構成の一例として、
図1で示す入力受付部111は、所定の疾患に罹患している被験者を含む複数の被験者から、所定の時間間隔(例えば、毎日、同じ時間帯等)で測定した、連続した血圧の計測値の情報を受け付ける。
【0042】
特徴量抽出部112は、入力受付部111が受け付けた、連続した血圧の計測値を多項式(例えば、一次式)にフィッティングして、多項式の傾き、切片等を算出する。一例として、特徴量抽出部112は、多項式の傾きを特徴量として用いることができる。
【0043】
DNA変異情報取得部113は、例えば、所定の疾患に罹患している被験者を含む複数の被験者のDNA情報から抽出した、全ての被験者の各々の一塩基多型(DNA変異の一例)の情報を取得する。
【0044】
関連解析部114は、特徴量抽出部112が抽出した特徴量(多項式の傾き)を目的変数、DNA変異情報取得部113が取得した一塩基多型の情報に含まれる全ての一塩基多型を説明変数として、関連解析(検定)を行う。例えば、関連解析部114は、線形回帰による検定を行い、抽出した特徴量と、一塩基多型の情報に含まれる全ての一塩基多型との有意確率を表すp値(統計的指標の値の一例)を算出する。
【0045】
DNA変異抽出部115は、塩基多型の情報に含まれる全ての一塩基多型のうち、p値が、予め定められた有意水準(例えば、5×10-8)以下(又は未満)となる一塩基多型を抽出する。
【0046】
ここで、有意水準は、p値が統計的に有意とみなすことができる水準を示す値であり、一般的な解析では0.05(5%)が用いられる。しかし、ゲノム解析においては数千~数万のパラメータを一度に検定するため、検定回数が増え、偶然に有意差が生じる可能性が増すため有意水準を補正するのが一般的である。補正後のp値の水準には5×10-8(0.000005%)が多く用いられるが、必要に応じて他の値(例えば、5×10-10、5×10-12等)を用いても良い。
【0047】
記憶部116は、所定の疾患に罹患している被験者を含む複数の被験者の連続的な量的形質の計測値を取得し、取得した連続的な量的形質の計測値を記憶する。
【0048】
結果出力部117は、DNA変異抽出部115が抽出した一塩基多型の情報を、所定の疾患に関連する一塩基多型として、例えば、候補リスト等として出力する。
【0049】
図2は、一実施形態に係るDNA変異絞込装置の構成例を示す図(2)である。
図2に示すように、DNA変異絞込装置110は、DNA変異情報取得装置210や、DNA変異情報DB220等の外部装置と連携して、各機能を実現するものであっても良い。また、DNA変異絞込装置110は、前述したように、複数の情報処理装置で構成されるDNA変異絞込システム100であっても良い。
【0050】
(ハードウェア構成)
図3は、
図1、
図2に記載の一実施形態に係るDNA変異絞込装置110のハードウェア構成の例を示す図である。DNA変異絞込装置110は、物理的には、プロセッサ301、メモリ302、ストレージ303、入力装置304、出力装置305、通信装置306、及びバス307等を含むコンピュータ装置として構成されても良い。なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニット等に読み替えることができる。
【0051】
プロセッサ301は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ301は、周辺装置とのインタフェース、制御装置、演算装置、レジスタ等を含む中央処理装置(CPU:Central Processing Unit)で構成されても良い。
【0052】
また、プロセッサ301は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ303及び/又は通信装置306からメモリ302に読み出し、これらに従って各種の処理を実行する。プログラムとしては、DNA変異絞込装置110の動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。DNA変異絞込装置110において実行される各種処理は、1つのプロセッサ301で実行されても良いし、2以上のプロセッサ301により同時又は逐次に実行されても良い。プロセッサ301は、1以上のチップで実装されても良い。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
【0053】
メモリ302は、コンピュータ読み取り可能な記憶媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)等の少なくとも1つで構成されても良い。メモリ302は、レジスタ、キャッシュ、メインメモリ(主記憶装置)等と呼ばれても良い。メモリ302は、本発明の一実施の形態に係るDNA変異絞込方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュール等を保存することができる。
【0054】
ストレージ303は、コンピュータ読み取り可能な記憶媒体であり、例えば、CD-ROM(Compact Disc ROM)等の光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップ等の少なくとも1つで構成されても良い。ストレージ303は、補助記憶装置と呼ばれても良い。上述の記憶媒体は、例えば、メモリ302及び/又はストレージ303を含むデータベース、サーバその他の適切な媒体であっても良い。
【0055】
入力装置304は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサ等)である。出力装置305は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカ、LEDランプ等)である。なお、入力装置304及び出力装置305は、一体となった構成(例えば、タッチパネルディスプレイ)であっても良い。
【0056】
通信装置306は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等ともいう。また、通信装置306は、近距離無線通信により、外部装置と直接通信を行う機能を有していても良い。
【0057】
上記のプロセッサ301やメモリ302等の各装置は、情報を通信するためのバス307で接続される。バス307は、単一のバスで構成されても良いし、装置間で異なるバスで構成されても良い。
【0058】
<処理の流れ>
続いて、本実施形態に係るDNA変異絞込方法の処理の流れについて
図4~6を用いて説明する。
【0059】
図4は、一実施形態に係るDNA変異絞込処理の概要を示すフローチャートである。ここでは、後述する第1の具体例、及び第2の具体例に共通する処理を中心に説明を行う。
【0060】
ステップS401において、DNA変異絞込装置110の入力受付部111は、所定の疾患に罹患している被験者を含む複数の被験者の連続的な量的形質の計測値を取得し、取得した連続的な量的形質の計測値を記憶部116等に記憶する。
【0061】
ステップS402において、DNA変異絞込装置110の特徴量抽出部112は、記憶部116に記憶された、量的形質の経時的な変化から、所定の疾患に関連する特徴量を抽出する。例えば、特徴量抽出部112は、
図5に示すような特徴量の抽出処理を実行する。
【0062】
図5は、一実施形態に係る特徴量の抽出処理の例を示すフローチャートである。この処理は、例えば、
図4のステップS402で実行される特徴量の抽出処理の例を示している。
【0063】
ステップS501において、特徴量抽出部112は、入力受付部111が取得した連続的な量的形質の計測値を、例えば、
図6に示すように、多項式にフィッティングする。
【0064】
図6は、一実施形態に係る特徴量の一例について説明するための図である。ここでは、具体的な一例として、連続的な量的形質が、所定の時間間隔(例えば、毎日、同じ時間帯等)に測定した妊婦(被験者の一例)の血圧の計測値であり、多項式が1次式であるものとする。
【0065】
図6において、特徴量抽出部112は、妊婦Aの血圧の計測値601を、例えば、線形回帰により、1次式「y=ax+b」にフィッティングする。なお、1次式「y=ax+b」は所定の多項式の一例である。
【0066】
ステップS502において、特徴量抽出部112は、フィッティングした多項式の係数、及び切片を算出する。例えば、特徴量抽出部112は、1次式で表される直線の傾きa1、及び切片b1を算出する。
【0067】
ステップS503において、特徴量抽出部112は、算出した係数、切片、又は係数と切片を特徴量として抽出する。
【0068】
例えば、他の妊婦Bの計測値を用いて、1次式「y=ax+b」にフィッティングを行い、傾きa2、及び切片b2を、さらに算出したものとする。この場合、一例として、1次式の傾きa1、a2を、特徴量として利用することができる。
【0069】
例えば、
図6に示すように、時間(妊娠経過)とともに血圧が増加するものとする。各妊婦が各々のタイミングで血圧を測定している場合、例えば、
図6の通り、t1時点での妊婦Aの血圧の計測値601は存在するが、妊婦Bの血圧の計測値603は存在しない。異なる時点の血圧を妊婦AとBで比較した場合、その差には、測定時点差の影響が含まれることから、妊婦AとBの血圧値の差を真に比較することは困難である。
【0070】
一方、
図6に示すように、例えば、妊婦Aと妊婦Bの血圧の計測値を1次式にフィッティングし、妊娠Aの血圧値に対する回帰線602と妊婦Bの血圧の計測値に対する回帰線604を算出したとする。回帰線602や604も用いることで、両者の傾きから妊娠AとBの血圧推移の差を比較することができる。また、所定の時間(t)において血圧の予測値を用いることで、測定時点差の影響を排除した比較が可能となる。
【0071】
また、別の一例として、
図6において、時間t0が妊婦の妊娠の初日であるものとする。また、ある疾患の発症の有無が、妊娠の初日の血圧値に関連があるものとする。この場合、妊婦A、妊婦B、妊婦Cのように妊娠初日の血圧値の記録がない場合でも、各妊婦の血圧値を1次式にフィッティングすることで、1次式の切片b1と、切片b2、切片3を得ることができ、特徴量として用いることができる。
【0072】
同様にして、例えば、妊娠の初日から所定の日数を経過した時点における各妊婦の血圧を、フィッティングした1次式を用いて算出し、特徴量として利用することができる。
【0073】
このように、特徴量抽出部112は、複数の被験者から収集した、量的形質の経時的な変化から、所定の疾患に関連する特徴量を抽出する。
【0074】
なお、上記の傾きa1、a2、a3及び切片b1、b2、b3は、特徴量抽出部112が抽出する特徴量の一例である。また、
図6に示す1次式は、所定の多項式の一例であり、所定の多項式は、2次以上の多項式であっても良い。
【0075】
ここで、
図4に戻り、DNA変異の絞込処理の例を示すフローチャートの説明を続ける。
【0076】
ステップS403において、DNA変異絞込装置110のDNA変異情報取得部113は、例えば、ステップS401、S402の処理と並行して、所定の疾患に罹患している被験者を含む複数の被験者におけるDNA変異の情報を取得する。
【0077】
一例として、DNA変異情報取得部113は、入力受付部111が受け付けた、所定の疾患に罹患している被験者を含む複数の被験者のDNA情報を用いて、DNA配列中の所定のDNA変異情報(例えば、全ての一塩基多型等)を抽出(取得)する。
【0078】
また、別の一例として、DNA変異情報取得部113は、
図2に示すDNA変異情報取得装置210から、DNA変異情報取得装置210が抽出した、所定の疾患に罹患している被験者を含む複数の被験者のDNA変異情報を取得するものであっても良い。さらに、DNA変異情報取得部113は、所定の疾患に罹患している被験者を含む複数の被験者のDNA変異情報が、
図2に示す予め登録されたDNA変異情報DB220から、所定の疾患に罹患している被験者を含む複数の被験者のDNA変異情報を取得するものであっても良い。
【0079】
なお、ステップS401において、連続的な量的形質の計測値を取得する複数の被験者と、ステップS403において、一塩基多型の情報を取得する複数の被験者は、同じ被験者である。
【0080】
ステップS404において、DNA変異絞込装置110の関連解析部114は、ステップS402で抽出した特徴量と、ステップS403で取得したDNA変異の情報に含まれるDNA変異との関連を解析する。
【0081】
一例として、関連解析部114は、特徴量を目的変数、DNA変異を説明変数として関連解析(検定)を行い、特徴量と各DNA変異との関連度を示す統計的指標の値を算出する(第1の具体例)。例えば、関連解析部114は、特徴量を目的変数、DNA変異を説明変数とした回帰式において、各DNA変異の係数のWald統計量から算出されるp値を、統計的指標の値とすることができる。
【0082】
別の一例として、関連解析部114は、特徴量を、予め定めた基準値を用いて、罹患群と非罹患群とラベル付けし、各DNA変異に対して、罹患群、及び非罹患群における保有数に差があるかを示す統計的指標の値を算出する(第2の具体例)。例えば、関連解析部114は、フィッシャーの正確検定や、カイ二乗検定を行い、有意確率を表すp値を、統計的指標の値とすることができる。
【0083】
なお、関連解析部114が、統計的指標の値を算出する際の検定(関連解析)には、例えば、線形回帰、ロジスティック回帰、フィッシャーの正確検定、カイ二乗検定、コクラン・アミテージ検定、t検定等が用いられるが、これに限定されない。また、関連解析部114が算出する統計的指標の値には、例えば、p値、f値、又はオッズ比等が用いられるが、これに限定されない。
【0084】
また、関連解析部114は、優性遺伝子作用、劣性遺伝子作用、遺伝子型等をさらに考慮して統計的指標の値を算出しても良いし、共編量として年齢、体重、BMI等の情報を用いるものであっても良い。
【0085】
ステップS405において、DNA変異絞込装置110のDNA変異抽出部115は、関連解析部114の解析結果に基づいて、所定の疾患に関連するDNA変異を抽出する。例えば、DNA変異抽出部115は、ステップS403で取得したDNA変異の情報に含まれる各DNA変異の中から、ステップS404で算出した統計的指標の値を基準値として、所定の疾患に関連するDNA変異を抽出する。例えば、DNA変異抽出部115は、統計的指標の値が、基準値以上、又は基準値以下のDNA変異を抽出する。
【0086】
なお、上記の処理で抽出されたDNA変異の情報は、DNA変異絞込装置110の結果出力部117によって、例えば、所定の疾患に関連するDNA変異の候補として、出力装置305、又はストレージ303等に出力される。
【0087】
続いて、第1の具体例、及び第2の具体例におけるDNA変異絞込方法の処理の流れについて説明する。
【0088】
[第1の具体例]
第1の具体例では、DNA変異絞込装置110の関連解析部114が、特徴量を目的変数、DNA変異を説明変数として関連解析を行い、特徴量と各DNA変異との関連度を示す統計的指標の値(例えば、p値等)を算出する場合の処理の例について説明する。
【0089】
図7は、一実施形態に係る第1の具体例に係るDNA変異の絞込処理の例を示すフローチャートである。
【0090】
ステップS701において、DNA変異絞込装置110の入力受付部111は、複数の被験者の連続的な量的形質の計測値を取得し、取得した連続的な量的形質の計測値を記憶部116等に保存(記憶)する。
【0091】
ステップS702において、DNA変異絞込装置110の特徴量抽出部112は、記憶部116に記憶された、量的形質の経時的な変化から、所定の表現型に関連する特徴量を抽出する。例えば、特徴量抽出部112は、
図5に示すような特徴量の抽出処理を実行する。
【0092】
なお、表現型とは、例えば、ヒトの遺伝子型が形質として表現されたものであり、例えば身長の高さや目や肌、髪の色、肥満になりやすい体質であるか否か、等の個人の体質や、高血圧、糖尿病、妊娠高血圧症候群、冠動脈疾患等の所定の疾患を含む。本実施形態は、所定の疾患に限られず、所定の表現型に関連する遺伝子変異を絞り込む用途にも適用することができる。
【0093】
ステップS703、S704において、DNA変異絞込装置110は、例えば、ステップS701、S702の処理と並行して、複数の被験者におけるDNA変異の情報を取得する。例えば、ステップS703において、DNA変異絞込装置110の入力受付部111は、複数の被験者のDNA情報を取得し、記憶部116に記憶する。また、ステップ704において、DNA変異絞込装置110のDNA変異情報取得部113は、記憶部116に記憶した複数の被験者のDNA情報を解析して、DNA変異の情報を抽出する。
【0094】
なお、ステップS703、S704において、DNA変異情報取得部113は、
図2に示すDNA変異情報取得装置210や、DNA変異情報DB220等から、複数の被験者におけるDNA変異の情報を取得するものであっても良い。
【0095】
ステップS705において、DNA変異絞込装置110の関連解析部114は、特徴量を目的変数、DNA変異を説明変数として関連解析(検定)を行い、特徴量と各DNA変異との関連度を示す統計的指標の値を算出する。例えば、関連解析部114は、特徴量と各DNA変異との関連度を示す統計的指標の値として、p値、f値、オッズ比等を算出する。
【0096】
ステップS706において、DNA変異絞込装置110のDNA変異抽出部115は、ステップS705で算出した統計的指標の値が、基準値以上、又は基準値以下となるDNA変異を抽出する。
【0097】
上記の処理により、DNA変異絞込装置110は、ステップS703、S704で取得したDNA変異の中から、所定の表現型に関連するDNA変異を抽出することができる。
【0098】
(応用例)
図8は、一実施形態に係る第1の具体例のDNA変異の絞込処理の応用例を示すフローチャートである。
【0099】
ここでは、上記の処理を用いて、DNA情報のサンプルが少ない場合や、所定の疾患の定義が曖昧である場合であっても、所定の疾患に関連するDNA変異を容易に絞り込むことができるDNA変異絞込方法について説明する。
【0100】
ここでは、具体的な一例として、所定の疾患が、妊娠高血圧症候群(以下HDP: Hypertensive Disorders of Pregnancy)であるものとして、以下の説明を行う。
【0101】
HDPには、診断のガイドラインが設定されているが、実際には、HDPに分類されていなくてもHDPのような血圧値が現れる場合がある。このような場合には、罹患群、非罹患群の遺伝的背景に十分な差がなく、所定の疾患に関連するDNA変異を十分に絞り込めない場合がある。なお、HDPは、罹患群と非罹患群の定義が曖昧な疾患の一例である。
【0102】
また、ここでは、
図6に示すように、血圧の計測値の変化率を示す傾きが、HDPの罹患と関連しており、例えば、HDPに罹患している妊婦における血圧の計測値の傾きは、HDPに罹患していない妊婦における血圧の計測値の傾きより大きい傾向があるものとする。なお、妊婦の血圧の計測値は、所定の疾患に関連する量的形質の連続的な計測値の一例である。また、血圧の計測値の傾きは、正規化された特徴量の一例である。
【0103】
ステップS801において、DNA変異絞込装置110の入力受付部111は、HDPに罹患している被験者を含む、複数の被験者における血圧の計測値を含む連続的な量的形質の計測値を取得し、記憶部116に記憶する。
【0104】
ステップS802において、DNA変異絞込装置110の特徴量抽出部112は、量的形質の経時的な変化から、HDPに関連する特徴量を抽出する。例えば、特徴量抽出部112は、
図6に示すように、妊婦の血圧の計測値601を1次式「y=ax+b」にフィッティングし、一次式の傾きaを特徴量として抽出する。
【0105】
ステップS803において、DNA変異絞込装置110のDNA変異情報取得部113は、HDPに罹患している被験者を含む複数の被験者のDNA情報から抽出された一塩基多型の情報を取得する。例えば、
図2のDNA変異情報取得装置210は、HDPに罹患している被験者を含む複数の被験者のDNA情報を用いて、DNA配列中における全ての一塩基多型の情報を抽出する。また、DNA変異情報取得部113は、DNA変異情報取得装置210から、抽出された一塩基多型の情報を取得する。なお、一塩基多型の情報は、DNA変異の情報の一例である。
【0106】
ステップS804において、DNA変異絞込装置110の関連解析部114は、ステップS802で抽出した特徴量を目的変数、ステップS803で取得した一塩基多型の情報に含まれる一塩基多型を説明変数として関連解析(検定)を行う。例えば、関連解析部114は、特徴量を目的変数、一塩基多型を説明変数とした回帰式において、各一塩基多型の係数のWald統計量から、有意確率を表すp値を算出する。
【0107】
ステップS805において、DNA変異絞込装置110のDNA変異抽出部115は、ステップS803で取得した一塩基多型の情報に含まれる一塩基多型の中から、p値が、予め定められた有意水準(例えば、5×10-8)より小さい一塩基多型を抽出する。
【0108】
これにより、
図6に示すような、血圧の計測値の傾きaに関連する一塩基多型の情報、例えば、HDPに関連する一塩基多型の情報を抽出することができる。
【0109】
本実施形態によれば、例えば、HDPのように疾患の症状と血圧等の量的形質が関わっている疾患において、量的形質を用いた関連解析を行う際に、多時点の情報を扱うことで、関連解析(検定)の精度を高め、所定の疾患に関連する一塩基多型を容易に抽出(絞込)することができる。
【0110】
また、本実施形態では、例えば、
図6に示すように、量的形質の連続的な計測値から抽出した、特徴量を用いて関連解析を行う。これにより、互いに異なる期間に計測された複数の被験者の計測値を、同様に処理することができる。また、計測期間とは異なる時点における量的形質の計測値を推定して、関連解析を行うこと(例えば、妊娠10週~15週の血圧の計測値に基づいて、妊娠初日の血圧値を推定して、関連解析を行う等)もできる。
【0111】
以上、本実施形態によれば、量的形質を用いた関連解析を行う際に、所定の疾患に関連するDNA変異を容易に絞り込むことができるDNA変異絞込装置、DNA変異絞込システム、及びDNA変異絞込方法を提供することができる。
【0112】
[第2の具体例]
第1の具体例では、関連解析部114が、特徴量を目的変数、DNA変異を説明変数として関連解析を行い、特徴量と各DNA変異との関連度を示す統計的指標の値(例えば、p値等)を算出する場合の処理の例について説明した。
【0113】
第2の具体例では、関連解析部114が、特徴量を、予め定めた基準値を用いて、罹患群と非罹患群とラベル付けし、各DNA変異に対して、罹患群、及び非罹患群における保有数に差があるかを示す統計的指標の値を算出する場合の処理の例について説明する。
【0114】
図9は、一実施形態に係る第2の具体例のDNA変異の絞込処理の例を示すフローチャートである。なお、ここでは、第1の具体例と同様の処理に対する詳細な説明は省略する。
【0115】
ステップS901において、DNA変異絞込装置110の入力受付部111は、複数の被験者の連続的な量的形質の計測値を取得し、取得した連続的な量的形質の計測値を記憶部116に保存(記憶)する。
【0116】
ステップS902において、DNA変異絞込装置110は、量的形質の経時的な変化から所定の表現型に関連する特徴量を抽出し、抽出した特徴量を予め定めた基準値を用いて罹患群と非罹患群とにラベル付けを行う。例えば、DNA変異絞込装置110は、
図10に示すような罹患群、非罹患群のラベル付け処理を実行する。
【0117】
図10は、一実施形態に係る第2の具体例の罹患群、非罹患群のラベル付け処理の例を示すフローチャートである。この処理は、
図9のステップS902において、DNA変異絞込装置110が実行する罹患群、非罹患群のラベル付け処理の一例を示している。
【0118】
ステップS1001において、DNA変異絞込装置110の特徴量抽出部112は、入力受付部111が取得した連続的な量的形質の計測値を、多項式にフィッティングする。
【0119】
ステップS1002において、特徴量抽出部112は、フィッティングした多項式の係数、切片等を算出する。
【0120】
ステップS1003において、特徴量抽出部112は、算出した係数、切片、又は係数と切片を用いて、正規化された特徴量を抽出する。
【0121】
具体的な一例として、所定の表現型が、HDPである場合、特徴量抽出部112は、
図6で前述したように、連続的な血圧(量的形質の一例)の計測値を1次式にフィッティングし、1次式の傾きを特徴量として抽出する。
【0122】
ステップS1004において、DNA変異絞込装置110の関連解析部114は、特徴量抽出部112が抽出した特徴量を、予め定めた基準値を用いて罹患群と非罹患群とに分類(ラベル付け)する。
【0123】
例えば、前述したように、HDPに罹患している妊婦における血圧の計測値の傾きは、HDPに罹患していない妊婦における血圧の計測値の傾きより大きい傾向があることから、予め定められた傾き(基準値)を用いて、罹患群と非罹患群とを分類することができる。具体的な一例として、関連解析部114は、予め定められた傾きより大きい特徴量を罹患群としてラベル付けし、予め定められた傾き以下の特徴量を非罹患群としてラベル付けすることができる。
【0124】
ここで、
図9に戻り、DNA変異の絞込処理の例を示すフローチャートの説明を続ける。
【0125】
ステップS903、S904において、DNA変異絞込装置110は、例えば、ステップS901、S902の処理と並行して、複数の被験者におけるDNA変異の情報を取得する。
【0126】
ステップS905において、DNA変異絞込装置110の関連解析部114は、DNA変異情報取得部113が取得したDNA変異の情報に含まれる各DNA変異に対して、罹患群、及び非罹患群における保有数に差があるかを示す統計的指標の値を算出する。
【0127】
具体的な一例として、関連解析部114は、フィッシャーの正確検定、又はカイ二乗検定を行い、p値を算出する。
【0128】
ステップS906において、DNA変異絞込装置110のDNA変異抽出部115は、関連解析部114が算出した統計的指標の値が、基準値以上、又は基準値以下となるDNA変異を抽出する。
【0129】
具体的な一例として、DNA変異抽出部115は、p値が、予め定められた基準値(例えば、0.05等)以下となるDNA変異を抽出する。
【0130】
上記の処理において、例えば、所定の表現型をHDP、量的形質の計測値を妊婦の血圧の計測値、血圧の計測値の傾きを特徴量とすることにより、第1の具体例と同様に、HDPに関連するDNA変異(一塩基多型)を抽出することができる。
【0131】
また、第2の具体例においても、検体のサンプルが少ない場合や、疾患の定義が曖昧である場合であっても、所定の疾患に関連するDNA変異を容易に絞り込むことができるDNA変異絞込装置、DNA変異絞込システム、及びDNA変異絞込方法を提供することができる。
【0132】
以上、本発明の実施形態によれば、サンプルが少ない場合や、疾患の定義が曖昧であり、通常のゲノムワイド関連解析で有効な結果が得られないようなケースでも、有意なDNA変異を絞込できることができる。これにより、従来の技術では特定できなかった疾患に関連するDNA変異を特定し、疾患の早期発見や予防に活用することが期待できる。
【0133】
<補足>
なお、
図1、2の構成図は、機能単位のブロックを示している。これらの機能ブロックは、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されても良いし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されても良い。
【0134】
また、
図3に示すDNA変異絞込装置110のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されても良いし、一部の装置を含まずに構成されても良い。また、DNA変異絞込装置110は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)等のハードウェアを含んで構成されても良く、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されても良い。例えば、プロセッサ301は、これらのハードウェアの少なくとも1つで実装されても良い。
【0135】
本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャート等は、矛盾のない限り、順序を入れ替えても良い。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
【0136】
入出力された情報等は特定の場所(例えば、メモリ)に保存されても良いし、管理テーブルで管理しても良い。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されても良い。入力された情報等は他の装置へ送信されても良い。
【0137】
判定は、1ビットで表される値(0か1か)によって行われても良いし、真偽値(Boolean:true又はfalse)によって行われても良いし、数値の比較(例えば、所定の値との比較)によって行われても良い。
【0138】
本明細書で説明した各態様/実施形態は単独で用いても良いし、組み合わせて用いても良いし、実行に伴って切り替えて用いても良い。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われても良い。
【0139】
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
【0140】
また、ソフトウェア、命令などは、伝送媒体を介して送受信されても良い。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
【0141】
本明細書で説明した情報、信号等は、様々な異なる技術のいずれかを使用して表されても良い。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されても良い。
【0142】
なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えても良い。
【0143】
また、本明細書で説明した情報、パラメータなどは、絶対値で表されても良いし、所定の値からの相対値で表されても良いし、対応する別の情報で表されてもよい。例えば、無線リソースはインデックスで指示されるものであっても良い。
【0144】
本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
【0145】
「含む(including)」、「含んでいる(comprising)」、及びそれらの変形が、本明細書、或いは特許請求の範囲で使用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書、或いは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。
【0146】
本開示の全体において、例えば、英語でのa, an, 及びtheのように、翻訳により冠詞が追加された場合、これらの冠詞は、文脈から明らかにそうではないことが示されていなければ、複数のものを含むものとする。
【0147】
以上、本発明について詳細に説明したが、当業者にとっては、本発明が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本発明は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。従って、本明細書の記載は、例示説明を目的とするものであり、本発明に対して何ら制限的な意味を有するものではない。
【符号の説明】
【0148】
100 DNA変異絞込システム
110 DNA変異絞込装置
112 特徴量抽出部
113 DNA変異情報取得部(取得部)
114 関連解析部(解析部)
115 DNA変異抽出部