IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ユニスト(ウルサン ナショナル インスティテュート オブ サイエンス アンド テクノロジー)の特許一覧

特表2022-534236多重オミックス分析を利用した鬱病または自殺危険の予測用マーカー発掘方法、鬱病または自殺危険の予測用マーカー、及び多重オミックス分析を利用した鬱病または自殺危険の予測方法
<>
  • 特表-多重オミックス分析を利用した鬱病または自殺危険の予測用マーカー発掘方法、鬱病または自殺危険の予測用マーカー、及び多重オミックス分析を利用した鬱病または自殺危険の予測方法 図1
  • 特表-多重オミックス分析を利用した鬱病または自殺危険の予測用マーカー発掘方法、鬱病または自殺危険の予測用マーカー、及び多重オミックス分析を利用した鬱病または自殺危険の予測方法 図2
  • 特表-多重オミックス分析を利用した鬱病または自殺危険の予測用マーカー発掘方法、鬱病または自殺危険の予測用マーカー、及び多重オミックス分析を利用した鬱病または自殺危険の予測方法 図3
  • 特表-多重オミックス分析を利用した鬱病または自殺危険の予測用マーカー発掘方法、鬱病または自殺危険の予測用マーカー、及び多重オミックス分析を利用した鬱病または自殺危険の予測方法 図4
  • 特表-多重オミックス分析を利用した鬱病または自殺危険の予測用マーカー発掘方法、鬱病または自殺危険の予測用マーカー、及び多重オミックス分析を利用した鬱病または自殺危険の予測方法 図5
  • 特表-多重オミックス分析を利用した鬱病または自殺危険の予測用マーカー発掘方法、鬱病または自殺危険の予測用マーカー、及び多重オミックス分析を利用した鬱病または自殺危険の予測方法 図6
  • 特表-多重オミックス分析を利用した鬱病または自殺危険の予測用マーカー発掘方法、鬱病または自殺危険の予測用マーカー、及び多重オミックス分析を利用した鬱病または自殺危険の予測方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-07-28
(54)【発明の名称】多重オミックス分析を利用した鬱病または自殺危険の予測用マーカー発掘方法、鬱病または自殺危険の予測用マーカー、及び多重オミックス分析を利用した鬱病または自殺危険の予測方法
(51)【国際特許分類】
   C12Q 1/68 20180101AFI20220721BHJP
【FI】
C12Q1/68
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021569946
(86)(22)【出願日】2019-05-23
(85)【翻訳文提出日】2022-01-19
(86)【国際出願番号】 KR2019006160
(87)【国際公開番号】W WO2020235721
(87)【国際公開日】2020-11-26
(81)【指定国・地域】
(71)【出願人】
【識別番号】515351884
【氏名又は名称】ユニスト(ウルサン ナショナル インスティテュート オブ サイエンス アンド テクノロジー)
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】セ・ミン・イ
(72)【発明者】
【氏名】ジョン・フア・バク
(72)【発明者】
【氏名】ヒョン・オ・ジョン
(72)【発明者】
【氏名】ヨン・ジュネ・バク
(72)【発明者】
【氏名】ビュン・チュル・キム
(72)【発明者】
【氏名】ユン・スン・チョ
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QA19
4B063QQ02
4B063QQ42
4B063QQ52
4B063QR32
4B063QR35
4B063QR73
4B063QS39
(57)【要約】
多重オミックス分析と機械学習とを利用した鬱病または自殺危険の予測用マーカー発掘方法、及び該方法によって発掘された鬱病または自殺危険の予測用マーカーに係り、当該の鬱病または自殺危険の予測用マーカー発掘方法によれば、正確度及び信頼度が高い鬱病または自殺危険の予測用マーカーを発掘することができ、遺伝子検査を介し、鬱病または自殺危険を早期に診断し、その危険を予防することができる。
【特許請求の範囲】
【請求項1】
複数の、鬱病を有する個体、自殺企図個体または自殺遂行個体の多重オミックスデータ、及び鬱病、自殺企図いかんまたは自殺遂行いかんのデータを獲得する段階と、
前記多重オミックスデータを加工した学習用入力データと、前述の鬱病、自殺企図いかんまたは自殺遂行いかんのデータを加工した学習用出力データと、を機械学習させてテストモデルを生成する段階と、
前記学習用入力データ及び学習用出力データを前記テストモデルに適用し、鬱病または自殺危険の予測度を算出する段階と、
前記予測度が、事前に定められた基準値以上である多重オミックスデータを選別する段階と、を含む、鬱病または自殺危険の予測用マーカー発掘方法。
【請求項2】
前記多重オミックスデータは、メチル化関連または遺伝体データを含む、請求項1に記載の方法。
【請求項3】
前記メチル化関連データまたは前記遺伝体データは、それぞれ測定されたメチル化レベル、または測定された遺伝子発現量が、比較対照群のメチル化レベルまたは遺伝子発現量に比べて変化されたものを含む、請求項2に記載の方法。
【請求項4】
前述の鬱病または自殺危険の予測方法は、機械学習を利用したものである、請求項1ないし3のうちいずれか1項に記載の方法。
【請求項5】
複数の、鬱病を有する個体、自殺企図個体または自殺遂行個体の多重オミックスデータ、及び鬱病、自殺企図いかんまたは自殺遂行いかんのデータを獲得する段階と、
前記多重オミックスデータを加工した検証用入力データ、及び前述の鬱病、自殺企図いかんまたは自殺遂行いかんのデータを加工した検証用出力データを獲得する段階と、
前記検証用入力データ及び前記検証用出力データを前記テストモデルに適用し、鬱病または自殺危険再現度を算出する段階と、
前記再現度が、事前に定められた基準値以上であるメチル化関連データを選別する段階と、を含む、請求項4に記載の機械学習を利用した鬱病または自殺危険の予測用マーカー発掘方法。
【請求項6】
前記複数の、鬱病を有する個体、自殺企図個体または自殺遂行個体の心理思考評価尺度データを獲得する段階と、
前記心理思考評価尺度データとメチル化関連データとの相関係数を算出する段階と、
前記相関係数が、事前に定められた基準値以上であるメチル化関連データを選別する段階と、を含む、請求項4に記載の機械学習を利用した鬱病または自殺危険の予測用マーカー発掘方法。
【請求項7】
前記予測度に係わる基準値は、50%である、請求項4に記載の機械学習を利用した鬱病または自殺危険の予測用マーカー発掘方法。
【請求項8】
前記再現度に係わる基準値は、50%である、請求項5に記載の機械学習を利用した鬱病または自殺危険の予測用マーカー発掘方法。
【請求項9】
前記相関係数に係わる基準値は、0.3のである、請求項6に記載の機械学習を利用した鬱病または自殺危険の予測用マーカー発掘方法。
【請求項10】
請求項1ないし3のうちいずれか1項に記載の方法によって発掘された、鬱病または自殺危険の予測用マーカー。
【請求項11】
請求項4に記載の方法によって発掘された、鬱病または自殺危険の予測用マーカー。
【請求項12】
鬱病または自殺危険の予測用マーカーであり、前記マーカーは、ヒトの11番目染色体の67806358番目塩基、ヒトの14番目染色体の102516597番目塩基、ヒトの15番目染色体の37172017番目塩基、ヒトの16番目染色体の14014009番目塩基、ヒトの16番目染色体の88636588番目塩基、ヒトの17番目染色体の73009364番目塩基、ヒトの18番目染色体の77487338番目塩基、ヒトの19番目染色体の40023259番目塩基、ヒトの2番目染色体の3423658番目塩基、ヒトの2番目染色体の73052175番目塩基、ヒトの20番目染色体の42163538番目塩基、ヒトの20番目染色体の62460632番目塩基、ヒトの3番目染色体の147125005番目塩基、ヒトの4番目染色体の85419584番目塩基、ヒトの6番目染色体の21524046番目塩基、またはそれらの組み合わせのメチル化関連データである、鬱病または自殺危険の予測用マーカー。
【請求項13】
下記段階を含む個体の鬱病または自殺危険を予測するための情報を提供する方法であり、
個体の生物学的試料から核酸試料を得る段階と、
得られた核酸試料から、鬱病または自殺危険の予測用マーカーのメチル化関連データを分析する段階と、を含み、
前記マーカーは、ヒトの11番目染色体の67806358番目塩基、ヒトの14番目染色体の102516597番目塩基、ヒトの15番目染色体の37172017番目塩基、ヒトの16番目染色体の14014009番目塩基、ヒトの16番目染色体の88636588番目塩基、ヒトの17番目染色体の73009364番目塩基、ヒトの18番目染色体の77487338番目塩基、ヒトの19番目染色体の40023259番目塩基、ヒトの2番目染色体の3423658番目塩基、ヒトの2番目染色体の73052175番目塩基、ヒトの20番目染色体の42163538番目塩基、ヒトの20番目染色体の62460632番目塩基、ヒトの3番目染色体の147125005番目塩基、ヒトの4番目染色体の85419584番目塩基、ヒトの6番目染色体の21524046番目塩基、またはそれらの組み合わせである方法。
【請求項14】
複数の、鬱病を有する個体、自殺企図個体または自殺遂行個体の多重オミックスデータ、及び鬱病、自殺企図いかんまたは自殺遂行いかんのデータを獲得する段階と、
前記多重オミックスデータを加工した学習用入力データ、及び前述の鬱病、自殺企図いかんまたは自殺遂行いかんのデータを加工した学習用出力データを機械学習させてテストモデルを生成する段階と、
前記学習用入力データ及び学習用出力データを前記テストモデルに適用し、鬱病または自殺危険の予測度を算出する段階と、
前記予測度が、事前に定められた基準値以上である多重オミックスデータを選別する段階と、
前記選別された多重オミックスデータを学習用入力データにする鬱病または自殺危険の予測用モデルを生成する段階と、を含む、鬱病または自殺危険の予測方法。
【請求項15】
前記多重オミックスデータは、メチル化関連データ、及びRNA発現マーカーデータのうち少なくとも一つを含む、請求項14に記載の方法。
【請求項16】
前述の鬱病または自殺危険の予測方法は、統計的予測方法、または機械学習を利用したものである、請求項14または15に記載の方法。
【請求項17】
前記複数の、鬱病を有する個体、自殺企図個体または自殺遂行個体の心理思考評価尺度データを獲得する段階と、
前記心理思考評価尺度データと、メチル化関連データ及びRNA発現マーカーデータのうち少なくとも1つとの相関係数を算出する段階と、
前記相関係数が、事前に定められた基準値以上であるメチル化関連データ及び前記相関係数が、事前に定められた基準値以上であるRNA発現マーカーのうち少なくとも一つを選別する段階と、を含む、請求項16に記載の統計的予測方法または機械学習を利用した鬱病または自殺危険の予測方法。
【請求項18】
前記テストモデルを生成する段階は、
前記メチル化関連データを加工した第1学習用入力データの学習用入力データ、及び前述の鬱病、自殺企図いかんまたは自殺遂行いかんのデータを加工した学習用出力データを機械学習させてテストモデルを生成し、
前記テストモデルを基に、前記RNA発現マーカーデータを加工した第2学習用入力データ、及び前述の鬱病、自殺企図いかんまたは自殺遂行いかんのデータを加工した学習用出力データを機械学習させてテストモデルを更新する段階を含む、請求項16に記載の統計的予測方法または機械学習を利用した鬱病または自殺危険の予測方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、多重オミックス分析を利用した鬱病または自殺危険の予測用マーカー発掘方法、鬱病または自殺危険の予測用マーカー、及び多重オミックス分析を利用した鬱病または自殺危険の予測方法に関する。
【背景技術】
【0002】
韓国の自殺率は、現在、OECD国家のうち、最も高く観測されている。最近の調査によれば、自殺は、韓国人の死亡原因順位のうち、癌、脳血管疾患、心臓疾患の次を占め、、これまでの何年かの間、続けて増加している状況にある。それにより、関連分野においては、自殺率が韓国において、それほどまでに上昇していることを、深刻な社会問題として認識し、自殺率を予測するための努力を行っている。しかし、現在の自殺予測のための研究は、自殺に影響を与える要因として、失業率や気温のような、単純であって断片的な要因のみを考慮しており、予測結果に対する信頼度が下がるという限界を有する。
【0003】
自殺は、人間の生存に対する本能的な執着とは違背するものであるために、これまでは、主に、心理的または社会的な原因論が支持されてきた、21世紀に入り、遺伝的要因が主要原因ということがだんだんと明らかにされている。全ての種族において、自殺率が共通して約1%と高くしめされ、その自殺率が一定して続けて維持されているという点に注目し、進化遺伝学者らは、憂鬱症状も、進化過程で獲得された形質であり、鬱病が自殺と明白に関連があるという点において、自殺が、遺伝的に進化されてきた精神病理であると強調している。そのような基本的な観点を基に、家族、双生児及び養子縁組の研究において、自殺行動の遺伝的要因に係わる証拠を提示している。一部双生児研究においては、自殺思考と自殺行動との発生におき、約45%が、遺伝的要因によると提示している。特に、致命的な自殺試みの場合、遺伝的要因が55%までと推定されている。家族研究においては、自殺行動の遺伝が、自殺行動と係わる精神病理の遺伝と無関係であるということを明らかにした。言い換えれば、精神疾患のようなストレスの家族間遺伝は、自殺行動の素因の家族間遺伝とは関連がないということを示す。そのような事実は、自殺行動の素因と関連する遺伝的因子があるというということを示唆している。
【0004】
現在、自殺行動に係わる意味ある遺伝的予測因子は、不足している。従って、当業界においては、自殺危険がある対象体を確認するための診断検定法及び試験が要求されている。それにより、本発明においては、自殺に影響を与えるさらに実在的な要因を考慮し、信頼度高い、自殺率を予測することができる方案を提案するのである。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】US2016-0153044A1
【発明の概要】
【発明が解決しようとする課題】
【0006】
一様態は、多重オミックス分析を利用した鬱病または自殺危険の予測用マーカー発掘方法を提供する。
【0007】
他の様態は、鬱病または自殺危険の予測用マーカーを提供する。
【0008】
他の様態は、多重オミックス分析を利用した鬱病または自殺危険の予測方法を提供する。
【課題を解決するための手段】
【0009】
本発明は、多様な変換を加えることができ、さまざまな実施例を有することができるが、特定実施例を図面に例示し、詳細な説明によって説明とする。本発明の効果、特徴、及びそれらを達成する方法は、図面と共に詳細に後述されている実施例を参照すれば、明確になるであろう。しかし、本発明は、以下で開示される実施例に限定されるものではなく、多様な形態によっても具現される。
【0010】
以下の実施例において、第1、第2のような用語は、限定的な意味ではなく、1つの構成要素を他の構成要素と区別する目的に使用される。
【0011】
以下の実施例において、単数の表現は、文脈上明白に異なって意味しない限り、複数の表現を含む。
【0012】
以下の実施例において、「含む」または「有する」というような用語は、明細書上に記載された特徴、または構成要素が存在することを意味することで、1以上の他の特徴または構成要素が付加される可能性を事前に排除するものではない。
【0013】
ある実施例が異なって具現可能である場合、特定の段階は、説明される順序と異なるようにも遂行される。例えば、連続して説明される2つの段階は、実質的に同時にも遂行され、説明される順序と反対の順序にも遂行される。
【0014】
図面においては、説明の便宜のために、構成要素がその大きさが誇張されてもあり、縮小されてもいる。例えば、図面に示された各構成の大きさ及び厚みは、説明の便宜のために任意に示されているので、本発明は、必ずしも図示されたところに限定されるものではない。
【0015】
一様態は、複数の、鬱病(depressive disorder)を有する個体、自殺(suicide)企図個体または自殺遂行個体の多重オミックスデータ、及び鬱病、自殺企図いかんまたは自殺遂行いかんのデータを獲得する段階と、前記多重オミックスデータを加工した学習用入力データと、前述の鬱病、自殺企図いかんまたは自殺遂行いかんのデータを加工した学習用出力データと、を機械学習(machine learning)させてテストモデルを生成する段階と、前記学習用入力データ及び学習用出力データを前記テストモデルに適用し、鬱病または自殺危険の予測度を算出する段階と、前記予測度が、事前に定められた基準値以上である多重オミックスデータを選別する段階と、を含む、鬱病または自殺危険の予測用マーカー発掘方法を提供する。
【0016】
一具体例において、前記多重オミックスデータは、メチル化(methylation)関連データまたは遺伝体(genome)データを含んでもよい。
【0017】
一具体例において、前記メチル化マーカーデータまたは前記遺伝体データは、それぞれ測定されたメチル化レベル、または測定された遺伝子発現量が、比較対照群のメチル化レベルまたは遺伝子発現量に比べて変化されたものを含んでもよい。
【0018】
前記比較対照群は、正常である、自殺企図個体、自殺遂行個体、または鬱病を有する個体を含むものでもある。例えば、鬱病患者と自殺企図個体との多重オミックスデータを比較することができ、それを二項分類(binary classifier)モデルと言う。
【0019】
一具体例において、前述の鬱病または自殺危険の予測方法は、機械学習を利用したものでもある。
【0020】
図1を参照すれば、複数の、鬱病を有する個体、自殺企図個体または自殺遂行個体の多重オミックスデータ、及び鬱病、自殺企図いかんまたは自殺遂行いかんのデータを獲得する段階(S10)が遂行される。
【0021】
前記メチル化関連データは、個体の染色体内の特定領域または特定位置において、メチル化が起こるか否かということ、メチル化される程度、またはメチル化された配列の比率を意味しうる。染色体内の特定領域または特定位置において、メチル化が起こるか否かということは、メチル化サイトとも混用される。塩基メチル化は、塩基配列に変化を伴わずとも、DNAメチル化のような後天的な修飾により、遺伝子発現メカニズムの変化が起こる現象を意味する。DNAメチル化は、遺伝子発現の抑制に関与する。ゲノムDNAのCpGジヌクレオチド(dinucleotide)配列のシトシンには、メチル化が起こりうる。CpG配列は、ゲノムで散発的に存在するが、特に、CpGアイランド(island)と呼ばれる地域において、メチル化が多く発生しうる。CpGアイランドのメチル化は、一般的に、クロマチン凝集と遺伝子転写とを抑制させる。遺伝学的に、DNAメチル化により、各個体に大きい差を引き起こしうる。従って、染色体内特定位置におけるメチル化いかんは、個体の鬱病または自殺危険を予測することができる指標としての使用される。
【0022】
前記メチル化関連データは、個体の染色体内シーケンシング結果、メチル化された塩基の染色体内位置、メチル化された塩基の染色体内位置と係わる遺伝子のように、個体の遺伝体におけるDNAメチル化と係わる記録を含んでもよい。
【0023】
前記メチル化マーカーデータは、鬱病を有する個体、自殺企図個体または自殺遂行個体を含む危険群(case)と、そうではない個体である正常人を含む対照群(control)とに分けた後、危険群の測定されたメチル化レベルが、正常人のメチル化レベルと比較し、その差が0.01β値(beta value)より大きく、Benjamini-Hochberg adjusted P値が0.05より小さいものを、鬱病または自殺危険の予測用マーカーとして発掘することができる。
【0024】
前記遺伝体データは、鬱病を有する個体、自殺企図個体または自殺遂行個体を含む危険群(case)と、そうではない個体である正常人を含む対照群(control)とに分けた後、危険群の測定された遺伝子発現量が、正常人の発現量と比較し、1.2倍以上差があり、Benjamini-Hochberg adjusted P値が0.05より小さいものを、鬱病または自殺危険の予測用マーカーとして発掘することができる。
【0025】
前記自殺とは、自らを死に至らしめる意図を有して行動化させ、それにより、医学的処置が必要となった場合であり、その結果は、自殺企図または自殺遂行として示される。前記鬱病は、憂鬱な気分、またはほとんどの活動において、興味または楽しさが喪失された症状、例えば、睡眠の変化、食欲及び体重の変化、焦燥、遅滞、疲労感、無価値感または罪責感、思考力及び集中力の減退などが一定期間以上持続することを意味する。
【0026】
前述の鬱病、自殺企図いかんまたは自殺遂行いかんのデータは、過去または現在、鬱病と診断を受けた病的記録、自殺試み経験、または自殺遂行による死亡を意味しうるが、それらに制限されるものではない。
【0027】
前記メチル化関連データ、及び前述の鬱病、自殺企図いかんまたは自殺遂行いかんのデータは、1以上の病院または地域の個体から獲得することができる。前記メチル化関連データは、遺伝体またはDNAのメチル化を確認することができる公知の方法を遂行しても獲得され、前述の鬱病、自殺企図いかんまたは自殺遂行いかんのデータは、個体の問診またはアンケート結果からも獲得されるが、それらに制限されるものではない。
【0028】
前記個体は、鬱病または自殺危険を予測するための対象を意味する。前記個体は、脊椎動物、哺乳動物またはヒト(Homo sapiens)を含んでもよい。例えば、前記ヒトは、韓国人でもある。
【0029】
前記データを獲得する段階はk-最近接隣接アルゴリズム(knn:k-nearest neighbor algorithm)を利用し、欠測値(NaN:missing data)を追加する段階を含んでもよい。
【0030】
その後、前記メチル化関連データを加工した学習用入力データと、前述の鬱病、自殺企図いかんまたは自殺遂行いかんのデータを加工した学習用出力データと、を機械学習させてテストモデルを生成する段階(S20)が遂行される。
【0031】
多重オミックス分析(multi-omics analysis)は、遺伝体、転写体(tranome)、蛋白体(proteome)、代謝体(metabolome)、後成遺伝体(epigenome)、脂質体(lipodome)のような多様な分子レベルで生成されたさまざまなデータの総体的であって統合的な分析を意味する。該多重オミックスにおいては、大規模の情報が生産されるので、生物情報学的技法を活用することができる。
【0032】
機械学習は、人工知能の一種類であり、コンピュータが、与えられたデータを介し、自ら学習させることを意味する。該機械学習は、データの表現と、それらに対する評価とのための関数及び一般化(generalization)を含む。該一般化は、現在の模型が新たなデータにもそのまま適用されるようにすることを意味する。
【0033】
テストモデルを生成する段階は、機械学習技法によって生成された前記多重オミックスデータを加工した学習用入力データと、そのような多重オミックスデータそれぞれに対応する鬱病、自殺企図いかんまたは自殺遂行いかんのデータを加工した学習用出力データとの相関係数(correlation)、すなわち、両者のマッピング情報でもある。該学習用データは、学習用入力データと学習用出力データとを含んでもよい。
【0034】
「学習用入力データ」は、機械学習のために使用されるデータであり、複数の、鬱病を有する個体、自殺企図個体または自殺遂行個体の多重オミックスデータから加工されても獲得される。例えば、前述のメチル化関連データのにおいて、染色体番号、メチル化が起こる染色体内塩基の位置、メチル化された程度、またはメチル化された配列の比率のように、分類(classification)が可能な値は、レベリングし、1つの数学的値に変換させることができる。
【0035】
「学習用出力データ」は、テストモデルを介して出力された値、またはそれを利用した鬱病または自殺危険の予測方法の結果値と比較されるデータを意味する。そのような学習用出力データは、個体の鬱病、自殺試みいかんまたは自殺遂行いかんのデータから加工されても獲得される。例えば、「学習用出力データ」は、過去の任意時点、または現在において、鬱病と診断された病的記録、自殺企図経験、または自殺遂行による死亡を示すデータでもある。例えば、テストモデルが、未来の任意時点において、鬱病、自殺企図いかんまたは自殺遂行いかんを予測するように機械学習される場合、「学習用出力データ」は、鬱病、自殺企図または自殺遂行(1)、あるいは鬱病なし、自殺企図または自殺遂行なし(0)のように表現したバイナリ(binary)データでもある。
【0036】
そのような過程を介し、多重オミックスデータ、及び鬱病、自殺企図いかんまたは自殺遂行いかんのデータを数学的に処理することができるように加工し、学習用入力データ及び学習用出力データを獲得することができる。
【0037】
「テストモデル」は、学習用入力データと学習用出力データとの相関係数を分析し、過去、現在または未来の任意時点における、鬱病との診断、自殺試み、または自殺遂行による死亡を予測する入出力関数を意味する。その場合、該テストモデルは、0または1に近い値を出力することができ、該出力値が0に近いか、あるいは小さいほど、鬱病がないか、あるいは自殺企図または自殺遂行がない確率が高く、1に近いか、あるいは大きいほど、鬱病と診断されるか、あるいは自殺を試みたり、自殺遂行で死亡したりする確率が高い。従って、該出力値は、「鬱病、自殺企図または自殺遂行」を示す指標とも解釈される。
【0038】
テストモデル生成段階(S20)以後には、前記テストモデルの予測結果を基に、前記学習用入力データ及び学習用出力データを前記テストモデルに適用し、鬱病または自殺危険の予測度を算出する段階(S30)が遂行される。
【0039】
前記予測度は、学習用入力データ及び学習用出力データを基に、テストモデルを生成し、学習用入力データ及び学習用出力データの一部または全部を前記テストモデルに適用したとき、鬱病、自殺企図いかんまたは自殺遂行いかんの予測可能性、または鬱病を有する個体、自殺企図個体または自殺遂行個体と、そうではない個体とを区分する程度を示す。
【0040】
前記予測度は、トレーニングデータセットを、鬱病を有する個体、自殺企図個体または自殺遂行個体を含む危険群(case)と、そうではない個体である正常人を含む対照群(control)とに分けた後、危険群の数値中の中間値と、対照群の数値中の中間値との平均を危険群と対照群とに分ける基準値とし、その基準値をトレーニングデータセットの危険群と対照群とに再適用し、危険群と対照群とを再区分するとき、本来の危険群と対照群との区分と一致する程度を計算する方法のようなアルゴリズム及び/または方式(技法)を使用することができる。
【0041】
鬱病、自殺企図または自殺遂行の予測に、影響が少ない変数を含み、機械学習を行うことになれば、演算量が増加するだけではなく、予測に係わる正確度が下がるという問題が生じる。それにより、本発明においては、テストモデル生成後、学習用入力データ及び学習用出力データを前記テストモデルに適用し、鬱病または自殺危険の予測度を算出し、前記予測度が、事前に定められた基準値以上であるメチル化関連データを選別する段階(S40)が遂行される。
【0042】
前記予測度は、約50%以上、約55%以上、約60%以上、約65%以上、約70%以上、約75%以上、約80%以上、約85%以上、約90%以上、約95%以上または約100%でもある。一実施例によれば、予測度が75%以上である多重オミックスデータを選別し、鬱病または自殺危険の予測用マーカーとして発掘することができる。
【0043】
一具体例において、前記方法は、複数の、鬱病を有する個体、自殺企図個体または自殺遂行個体のメチル化関連データ、及び鬱病、自殺企図いかんまたは自殺遂行いかんのデータを獲得する段階と、前記メチル化関連データを加工した検証用入力データ、及び前述の鬱病、自殺企図いかんまたは自殺遂行いかんのデータを加工した検証用出力データを獲得する段階と、前記検証用入力データ及び前記検証用出力データを前記テストモデルに適用し、鬱病または自殺危険再現度を算出する段階と、前記再現度が、事前に定められた基準値以上であるメチル化関連データを選別する段階と、を含んでもよい。
【0044】
複数の、鬱病を有する個体、自殺企図個体または自殺遂行個体のメチル化関連データ、及び鬱病、自殺企図いかんまたは自殺遂行いかんのデータを獲得する段階は、前述のところと同一である。検証用入力データ及び検証用出力データは、学習用入力データ及び学習用出力データを得た個体と同一個体から得ることができ、また、他の個体から得ることもできる。
【0045】
次に、前記メチル化関連データ、及び鬱病、自殺企図いかんまたは自殺遂行いかんのデータを獲得する段階後には、検証用入力データ及び検証用出力データを獲得する段階が遂行される。検証用データは、検証用入力データと検証用出力データとを含んでもよい。
【0046】
「検証用入力データ」は、複数の、鬱病を有する個体、自殺企図個体または自殺遂行個体のメチル化関連データから加工されて獲得される。例えば、前述のメチル化関連データのにおいて、染色体番号、メチル化が起こる染色体内塩基の位置、メチル化された程度、またはメチル化された配列の比率のように、分類が可能な値は、レベリングし、1つの数学的値に変換させることができる。
【0047】
「検証用出力データ」は、テストモデルを介して出力された値、またはそれを利用した鬱病または自殺危険の予測方法の結果値と比較されるデータを意味する。
【0048】
そのような検証用出力データは、個体の鬱病、自殺企図いかんまたは自殺遂行いかんのデータから加工されて獲得される。例えば、「検証用出力データ」は、過去の任意時点、または現在において、鬱病と診断された病的記録、自殺試み経験、または自殺遂行による死亡を示すデータでもある。例えば、テストモデルが未来の任意時点において、鬱病、自殺企図いかんまたは自殺遂行いかんを予測するように機械学習される場合、「検証用出力データ」は、鬱病、自殺企図または自殺遂行(1)、あるいは鬱病なし、自殺企図または自殺遂行なし(0)のように表現したバイナリデータでもある。
【0049】
該検証用入力データ及び該検証用出力データを獲得する段階後には、前記検証用入力データ及び前記検証用出力データを前記テストモデルに適用し、鬱病または自殺危険再現度を算出する段階が遂行される。
【0050】
前記検証用入力データ及び前記検証用出力データを既生成のテストモデルに適用し、鬱病または自殺危険再現度を算出することにより、前記テストモデルの性能と妥当性とを評価して検証することができる。
【0051】
前記再現度は、検証用入力データ及び検証用出力データの一部または全部を前記テストモデルに適用したとき、鬱病、自殺企図いかんまたは自殺遂行いかんの予測可能性、または鬱病を有する個体、自殺企図個体または自殺遂行個体と、そうではない個体とを区分する程度を示す。
【0052】
前記再現度は、トレーニングデータセットを、鬱病を有する個体、自殺企図個体または自殺遂行個体を含む危険群(case)と、そうではない個体である正常人を含む対照群(control)とに分けた後、危険群の数値中の中間値と、対照群の数値中の中間値との平均を、危険群と対照群とを分ける基準値とし、その基準値を検証用データセットの危険群と対照群とに適用し、危険群と対照群とを区分するとき、本来の危険群と対照群との区分と一致する程度を計算する方法のようなアルゴリズム及び/または方式(技法)を使用することができる。
【0053】
前記再現度は、約50%以上、約55%以上、約60%以上、約65%以上、約70%以上、約75%以上、約80%以上、約85%以上、約90%以上、約95%以上または約100%以上でもある。一実施例によれば、再現度が50%以上であるメチル化関連データを選別し、鬱病または自殺危険の予測用マーカーとして発掘することができる。
【0054】
一具体例において、前記方法は、前記複数の、鬱病を有する個体、自殺企図個体または自殺遂行個体の心理思考評価尺度データを獲得する段階と、前記心理思考評価尺度データとメチル化関連データとの相関係数を算出する段階と、前記相関係数が、事前に定められた基準値以上であるメチル化関連データを選別する段階と、を含んでもよい。
【0055】
帰納処理に先立ち、関連がないか、あるいは少ない関連を有する属性を抽出するために、属性と次元との関連性を分析することができる。具体的な属性関連分析方法としては、情報利得、ジニ係数、不確実指数、相関係数などがある。該相関係数は、2つの変数間の関係の強度を意味し、変数間に高関係数が存在するということは、2つの変数が共に大きくなったり小さくなったりする傾向があるというものでもある。
【0056】
前記メチル化関連データは、心理思考評価尺度データと任意の相関関係を有しうる。前記メチル化関連データと心理思考評価尺度データとの相関係数は、約0.30以上、約0.35以上、約0.40以上、約0.45以上または約0.5以上でもある。
【0057】
一実施例によれば、前記メチル化関連データと心理思考評価尺度データとの相関係数が0.3以上であるメチル化関連データを選別し、鬱病または自殺危険の予測用マーカーとして発掘することができる。
【0058】
一方、図1に図示された本発明の一実施例による機械学習を利用した鬱病または自殺危険の予測用マーカー発掘方法は、コンピュータで実行されうるプログラムに作成することができ、コンピュータで読み取り可能な記録媒体を利用し、前記プログラムを動作させる汎用デジタルコンピュータによっても具現される。前記コンピュータで読み取り可能な記録媒体は、マグネチック記録媒体(例えば、ROM(read only memory)、フロッピーディスク、ハードディスクなど)、光学的判読媒体(例えば、CD-ROM(compact disc read only memory)、DVD(digital versatile disc)など)のような記録媒体を含んでもよい。
【0059】
本発明による多重オミックス分析と機械学習とを利用した鬱病または自殺危険の予測用マーカー発掘方法、それを遂行する装置、及びプログラムによれば、個体の鬱病または自殺危険を個々人別に正確に予測することができる。
【0060】
他の様態は、前記方法によって発掘された鬱病または自殺危険の予測用マーカーを提供する。
【0061】
前述の鬱病または自殺危険の予測用マーカーは、ヒトの11番目染色体の67806358番目塩基、ヒトの14番目染色体の102516597番目塩基、ヒトの15番目染色体の37172017番目塩基、ヒトの16番目染色体の14014009番目塩基、ヒトの16番目染色体の88636588番目塩基、ヒトの17番目染色体の73009364番目塩基、ヒトの18番目染色体の77487338番目塩基、ヒトの19番目染色体の40023259番目塩基、ヒトの2番目染色体の3423658番目塩基、ヒトの2番目染色体の73052175番目塩基、ヒトの20番目染色体の42163538番目塩基、ヒトの20番目染色体の62460632番目塩基、ヒトの3番目染色体の147125005番目塩基、ヒトの4番目染色体の85419584番目塩基、ヒトの6番目染色体の21524046番目塩基、またはそれらの組み合わせのメチル化関連データでもある。
【0062】
前述の鬱病または自殺危険の予測用マーカーは、ヒトの11番目染色体の67806358番目塩基のメチル化、ヒトの14番目染色体の102516597番目塩基の非メチル化、ヒトの15番目染色体の37172017番目塩基の非メチル化、ヒトの16番目染色体の14014009番目塩基のメチル化、ヒトの16番目染色体の88636588番目塩基のメチル化、ヒトの17番目染色体の73009364番目塩基の非メチル化、ヒトの18番目染色体の77487338番目塩基の非メチル化、ヒトの19番目染色体の40023259番目塩基のメチル化、ヒトの2番目染色体の3423658番目塩基の非メチル化、ヒトの2番目染色体の73052175番目塩基の非メチル化、ヒトの20番目染色体の42163538番目塩基の非メチル化、ヒトの20番目染色体の62460632番目塩基の非メチル化、ヒトの3番目染色体の147125005番目塩基のメチル化、ヒトの4番目染色体の85419584番目塩基のメチル化、ヒトの6番目染色体の21524046番目塩基の非メチル化、またはそれらの組み合わせでもある。
【0063】
前記自殺危険予測用マーカーは、ヒトの13番目染色体の100254805番目塩基、ヒトの15番目染色体の53093335番目塩基、ヒトの21番目染色体の46351387番目塩基、ヒトの3番目染色体の28390646番目塩基、ヒトの10番目染色体の44144362番目塩基、またはそれらの組み合わせのメチル化関連データでもある。
【0064】
前記自殺危険予測用マーカーは、ヒトの13番目染色体の100254805番目塩基のメチル化、ヒトの15番目染色体の53093335番目塩基のメチル化、ヒトの21番目染色体の46351387番目塩基のメチル化、ヒトの3番目染色体の28390646番目塩基の非メチル化、ヒトの10番目染色体の44144362番目塩基の非メチル化、またはそれらの組み合わせでもある。
【0065】
前記自殺危険予測用マーカーは、鬱病危険と自殺危険とを特異的に区分することができる。それを逆に適用すれば、鬱病危険予測用マーカーとして適用することができる。
【0066】
さらに他の様態は、下記段階を含む個体の鬱病または自殺危険を予測するための情報を提供する方法であり、個体の生物学的試料から核酸試料を得る段階と、得られた核酸試料から、鬱病または自殺危険の予測用マーカーのメチル化関連データを分析する段階と、を含み、前記マーカーは、ヒトの11番目染色体の67806358番目塩基、ヒトの14番目染色体の102516597番目塩基、ヒトの15番目染色体の37172017番目塩基、ヒトの16番目染色体の14014009番目塩基、ヒトの16番目染色体の88636588番目塩基、ヒトの17番目染色体の73009364番目塩基、ヒトの18番目染色体の77487338番目塩基、ヒトの19番目染色体の40023259番目塩基、ヒトの2番目染色体の3423658番目塩基、ヒトの2番目染色体の73052175番目塩基、ヒトの20番目染色体の42163538番目塩基、ヒトの20番目染色体の62460632番目塩基、ヒトの3番目染色体の147125005番目塩基、ヒトの4番目染色体の85419584番目塩基、ヒトの6番目染色体の21524046番目塩基、またはそれらの組み合わせでもある。
【0067】
前記方法は、個体の生物学的試料から核酸試料を得る段階を含んでもよい。
【0068】
前記個体は、鬱病または自殺危険を予測するための対象を意味する。前記個体は、脊椎動物、哺乳動物、ヒト、マウス、ラット、牛、馬、豚、羊、山羊、犬、猫などを含むものでもある。例えば、前記ヒトは、アジア系であるか、または韓国人でもある。「個体」及び「対象」は、本明細書において、相互交換的に使用される。
【0069】
前記生物学的試料は、生物から得られた試料を言う。前記生物学的試料は、例えば、血液、組織、小便、粘液、唾液、涙、血漿、血清、喀痰、脊髄液、胸水、乳頭吸引物、リンパ、気道液、腸液、泌尿生殖管液、母乳、リンパ系体液、精液、脳脊髄液、器官系内体液、腹水、嚢胞性腫瘍体液、羊水液、またはそれらの組み合わせでもある。該生物学的試料は、純水に分離された核酸、粗分離された核酸、核酸を含む細胞破鎖物、または細胞遊離核酸を含むものでもある。
【0070】
生物学的試料から核酸を分離する方法は、通常の核酸分離方法によっても遂行される。例えば、標的核酸を重合酵素連鎖反応(PCR:polymerase chain reaction)、リガーゼ連鎖反応(LCR:ligase chain reaction)、転写増幅(transcription amplification)またはリアルタイム・核酸配列基礎増幅(NASBA:real time-nucleic acid sequence based amplification)を介して増幅し、それを精製して得ることができる。
【0071】
前記方法は、得られた核酸試料から、マーカーのメチル化関連データを分析する段階を含んでもよい。前記メチル化関連データを分析する段階は、遺伝体またはDNAのメチル化を確認することができる公知の方法によっても遂行される。例えば、シーケンシング、PCR、メチル化特異PCR(methylation specific PCR)、リアルタイムメチル化特異PCR(realtime methylation specific PCR)、メチル化DNA特異的結合タンパク質を利用したPCR、定量PCR、DNAチップ、パイロシーケンシング及びバイサルファイトシーケンシング、またはそれらの組み合わせによっても遂行される。
【0072】
前記シーケンシングは、次世代塩基シーケンシング(NGS:next generation sequencing)でもあるが、「次世代塩基シーケンシング(NGS)は、チップ基盤及びPCR基盤の対末端(paired end)形式に全長遺伝体を切り、前記切片を化学的な反応(hybridization)に基づき、超高速でシーケンシングを行う技術を意味する。該次世代塩基ギシーケンシングにより、短時間内に、分析対象になる試料に対し、大量の塩基配列データを生成することができる。
【0073】
前記マーカーでメチル化されたDNAの数が、1個以上、2個以上、3個以上、4個以上、5個以上、6個以上、7個以上、8個以上、9個以上、10個以上、11個以上、12個以上、13個以上、14個以上である場合、鬱病または自殺危険が高いと判断することができ、予測に係わる正確度が高くなりうる。
【0074】
さらに他の様態は、複数の、鬱病を有する個体、自殺企図個体または自殺遂行個体の多重オミックスデータ、及び鬱病、自殺企図いかんまたは自殺遂行いかんのデータを獲得する段階と、前記多重オミックスデータを加工した学習用入力データ、及び前述の鬱病、自殺企図いかんまたは自殺遂行いかんのデータを加工した学習用出力データを機械学習させてテストモデルを生成する段階と、前記学習用入力データ及び学習用出力データを前記テストモデルに適用し、鬱病または自殺危険の予測度を算出する段階と、前記予測度が、事前に定められた基準値以上である多重オミックスデータを選別する段階と、前記選別された多重オミックスデータを学習用入力データにする鬱病または自殺危険の予測用モデルを生成する段階と、を含む、鬱病または自殺危険の予測方法を提供する。
【0075】
一具体例において、前記多重オミックスデータは、メチル化関連データ、及びRNA発現マーカーデータのうち少なくとも一つを含む方法を含んでもよい。
【0076】
一具体例において、前述の鬱病または自殺危険の予測方法は、統計的予測方法、または機械学習を利用したものである方法を含んでもよい。
【0077】
鬱病または自殺危険の予測は、個体の遺伝的なゲノム、転写体、後成遺伝体データなどを含む多重オミックスデータを入力すれば、所定のアルゴリズムを介し、前記個体の鬱病、自殺試みまたは自殺遂行の可能性を算出するということを意味しうる。
【0078】
前記メチル化関連データは、前述のところと同一である。前記RNA発現マーカーデータは、個体の染色体内シーケンシング結果、DNAのRNAへの転写いかんのように、個体の遺伝体におけるRNA発現と係わる記録を含むものでもある。
【0079】
前記メチル化関連データ、RNA発現マーカーデータ、及び前述の鬱病、自殺企図いかんまたは自殺遂行いかんのデータは、1以上の病院または地域の個体から獲得することができる。
【0080】
前記メチル化関連データは、遺伝体またはDNAのメチル化を確認することができる公知の方法を遂行しても獲得され、前記RNA発現マーカーは、DNAからRNAへの転写いかんを確認することができる公知の方法を遂行しても獲得され、前述の鬱病、自殺企図いかんまたは自殺遂行いかんのデータは、個体の問診またはアンケート結果から獲得されうる、それらに制限されるものではない。
【0081】
その後、前記多重オミックスデータの学習用入力データ、及び前述の鬱病、自殺企図いかんまたは自殺遂行いかんのデータを加工した学習用出力データを機械学習させ、テストモデルを生成する段階が遂行されうる。
【0082】
テストモデルを生成する段階は、多重オミックスデータに対応する鬱病、自殺企図いかんまたは自殺遂行いかんのデータを加工した学習用出力データとの相関係数、すなわち、両者のマッピング情報でもある。
【0083】
「学習用入力データ」は、機械学習のために使用されるデータであり、複数の、鬱病を有する個体、自殺企図個体または自殺遂行個体の多重オミックスデータから加工されても獲得される。
【0084】
前記多重オミックスデータは、メチル化関連データ及び/またはRNA発現マーカーデータから加工されても獲得される。学習用入力データは、第1学習用入力データ及び/または第2学習用入力データを含んでもよい。例えば、前述のRNA発現マーカーデータのにおいて、染色体番号、染色体内塩基の位置、RNAへの転写いかんのように、分類が可能な値は、レベリングし、1つの数学的値に変換させることができる。
【0085】
「学習用出力データ」は、テストモデルを介して出力された値と比較されるデータを意味する。そのような学習用出力データは、個体の鬱病、自殺企図いかんまたは自殺遂行いかんのデータから加工されても獲得される。それは、前述のところと同一である。
【0086】
そのような過程を介し、多重オミックスデータ、及び鬱病、自殺企図いかんまたは自殺遂行いかんのデータを数学的に処理することができるように加工し、学習用入力データ及び学習用出力データを獲得することができる。
【0087】
「テストモデル」は、学習用入力データと学習用出力データとの相関係数を分析し、過去、現在または未来の任意時点における鬱病診断、自殺試み、または自殺遂行における死亡を予測する入出力関数を意味する。
【0088】
テストモデル生成段階後には、前記テストモデルの予測結果を基に、前記学習用入力データ及び学習用出力データを前記テストモデルに適用し、鬱病または自殺危険の予測度を算出する段階が遂行されうる。
【0089】
前記予測度については、前述のところと同一である。
【0090】
テストモデル生成後、学習用入力データ及び学習用出力データを前記テストモデルに適用し、鬱病または自殺危険の予測度を算出し、前記予測度が、事前に定められた基準値以上であるメチル化関連データ及び前記予測度が、事前に定められた基準値以上であるRNA発現マーカーのうち少なくとも一つを選別する段階が遂行されうる。
【0091】
前記予測度は、約50%以上、約55%以上、約60%以上、約65%以上、約70%以上、約75%以上、約80%以上、約85%以上、約90%以上、約95%以上または約100%以上でもある。一実施例によれば、予測度が75%以上である多重オミックスデータを選別し、鬱病または自殺危険の予測用マーカーとして発掘することができる。
【0092】
前記選別された多重オミックスデータを学習用入力データにする鬱病または自殺危険の予測用モデルを生成する段階が遂行される。前記多重オミックスデータは、メチル化関連データ及びRNA発現マーカーのうち少なくとも一つでもあり、一実施例においては、ランダムフォレスト(random forest)を利用して選別されたメチル化関連データ及び/またはRNA発現マーカーを統合した結果をランダムフォレストに適用し、結果値でもって、鬱病または自殺危険の予測度が高いということを確認した。
【0093】
一具体例において、前記方法は、前記複数の、鬱病を有する個体、自殺企図個体または自殺遂行個体の心理思考評価尺度データを獲得する段階と、前記心理思考評価尺度データと、メチル化関連データ及びRNA発現マーカーデータのうち少なくとも1つとの相関係数を算出する段階と、前記相関係数が、事前に定められた基準値以上であるメチル化関連データ及び前記相関係数が、事前に定められた基準値以上であるRNA発現マーカーのうち少なくとも一つを選別する段階と、を含んでもよい。
【0094】
前記メチル化関連データ及び/またはRNA発現マーカーデータは、心理思考評価尺度データと任意の相関関係を有しうる。前記メチル化関連データ及び/またはRNA発現マーカーデータと、心理思考評価尺度データとの相関係数は、約0.30以上、約0.35以上、約0.40以上、約0.45以上または約0.5以上でもある。一実施例によれば、前記メチル化関連データ及び/またはRNA発現マーカーと、心理思考評価尺度データとの相関係数が0.3以上であるメチル化関連データ及び/またはRNA発現マーカーを選別し、鬱病または自殺危険の予測用マーカーで最終的に選別することができる。
【0095】
一具体例において、前記テストモデルを生成する段階は、前記メチル化関連データを加工した第1学習用入力データの学習用入力データ、及び前述の鬱病、自殺企図いかんまたは自殺遂行いかんのデータを加工した学習用出力データを機械学習させてテストモデルを生成し、前記テストモデルを基に、前記RNA発現マーカーデータを加工した第2学習用入力データ、及び前述の鬱病、自殺企図いかんまたは自殺遂行いかんのデータを加工した学習用出力データを機械学習させ、既生成のテストモデルを修正して更新する段階が遂行されうる。その後、修正されて更新されたモデルの入力変数集合を、最終変数集合として選定することができ、例えば、修正されて更新されたモデルのメチル化関連を、最終変数集合として選定することができる。
【0096】
前述の鬱病または自殺危険の予測用マーカー発掘方法、及び/あるいは統計的予測方法または機械学習を利用した鬱病または自殺危険の予測方法は、複数の学習用入力データ及び/または学習用出力データを分類するために、ロジスティック回帰(logistic regression)、決定木(decision tree)、最近傍識別器(nearest-neighbor classifier)、Kernel discriminant analysis、ニューラルネットワーク(neural network)、サポートベクターマシン(support vector machine)、ランダムフォレスト(random forest)、boosted treeのようなアルゴリズム及び/または方式(技法)を使用することができる。
【0097】
前述の鬱病または自殺危険の予測用マーカー発掘方法、及び/あるいは統計的予測方法または機械学習を利用した鬱病または自殺危険の予測方法は、鬱病または自殺危険を予測するために、線形回帰(linear regression)、回帰木(regression tree)、Kernel regression、サポートベクター回帰(support vector regression)、深層学習(deep learning)のようなアルゴリズム及び/または方式(技法)を使用することができる。
【0098】
また、前述の鬱病または自殺危険の予測用マーカー発掘方法、及び/あるいは統計的予測方法または機械学習を利用した鬱病または自殺危険の予測方法は、予測度、再現度、相関係数などの演算のために、主成分分析(principal component analysis)、非負値行列因子分解(non-negative matrix factorization)、独立成分分析(independent component analysis)、多様体学習(manifold learning)、SVD(singular value decomposition)のようなアルゴリズム及び/または方式(技法)を使用することができる。
【0099】
前述の鬱病または自殺危険の予測用マーカー発掘方法、及び/あるいは統計的予測方法または機械学習を利用した鬱病または自殺危険の予測方法は、複数のメチル化関連データのグループ化のために、k平均法(k-means)、階層的クラスタリング(hierarchical clustering)、mean-shift、自己組織化写像(SOMs:self-organizing maps)のようなアルゴリズム及び/または方式(技法)を使用することができる。
【0100】
前述の鬱病または自殺危険の予測用マーカー発掘方法、及び/あるいは統計的予測方法または機械学習を利用した鬱病または自殺危険の予測方法は、データ比較のために、bipartite cross-matching、n-point correlation two-sample testing、最小全域木(minimum spanning tree)のようなアルゴリズム及び/または方式(技法)を使用することができる。
【0101】
ただし、前述のアルゴリズム及び/または方式(技法)は、例示的なものであり、本発明の思想は、それらに限定されるものではない。
【0102】
一方、データは、データセット(data set)でもある。言い換えれば、学習用入力データ、学習用出力データ、検証用入力データ、検証用出力データなどは、行列(matrix)のように、複数個の数(または、係数)で構成されたデータセットでもある。
【発明の効果】
【0103】
本発明の多重オミックス分析と機械学習とを利用した鬱病または自殺危険の予測用マーカー発掘方法によれば、正確度及び信頼度が高い鬱病または自殺危険の予測用マーカーを発掘することができ、遺伝子検査を介し、鬱病または自殺危険を早期に診断し、その危険を予防することができる。ここで、そのような効果により、本発明の範囲が限定されるものではないということは、言うまでもない。
【図面の簡単な説明】
【0104】
図1】一実施例による、多重オミックス分析と機械学習とを利用した鬱病または自殺危険の予測用マーカー発掘方法を示した順序図である。
図2】選抜された70人を対象に学習用データを得て、遺伝子全体で変形されたメチルシトシンの分布を分析した結果である。
図3】予測度及び再現度が基準値以上であり、心理思考評価尺度と相関係数が基準値以上であるメチル化サイトを選別する過程、及びそれによって選別されたDNAメチル化関連データを示す図である。
図4】鬱病を有する群、及び自殺企図群または自殺遂行群におけるDNAメチル化関連データを示す図である。
図5】鬱病または自殺危険の予測用マーカーによって選別されたメチル化関連データから、メチル化程度を示したグラフである。
図6】心理思考評価尺度と関連性がある、メチル化サイト、RNA発現結果、メチル化サイトとRNA発現結果とを統合した結果それぞれをランダムフォレストに適用し、結果値でもって、鬱病または自殺危険の予測度を確認した結果である。
図7】一実施例による、多重オミックス分析と機械学習とを利用した鬱病または自殺危険の予測用マーカー発掘方法、及び機械学習を利用した鬱病または自殺危険の予測方法を示した順序図である。
【発明を実施するための形態】
【0105】
本発明について、下記実施例により、さらに具体的に説明する。しかし、下記実施例は、本発明の理解の一助とするためのものであるのみ、いかなる意味においても、本発明の範囲は、そのような実施例によって限定されるものではない。
【実施例
【0106】
実施例1:1)鬱病、自殺遂行または自殺企図個体からの遺伝体メチル化情報抽出、2)心理思考評価尺度との相関係数が基準値以上あり、予測度及び再現度が基準値以上であるメチル化サイトの選別、及び3)メチル化関連データ及びRNA発現マーカー、並びに多重オミックス分析と機械学習とを利用した鬱病または自殺危険の予測
1.鬱病、自殺遂行または自殺企図個体からの遺伝体メチル化情報抽出、及び心理思考評価尺度との相関係数が基準値以上であり、予測度及び再現度が基準値以上であるメチル化関連データの選別
図7は、一実施例による、多重オミックス分析と機械学習とを利用した鬱病または自殺危険の予測用マーカー発掘方法、及び多重オミックス分析と機械学習とを利用した鬱病または自殺危険の予測方法を示した順序図である。図7を参照すれば、個体から得たMethylSeqリード(read)を、転換されたhg19参照配列に整列し、塩基のメチル化情報を抽出する。前記情報を利用し、危険群と正常群とにおいて、メチル化いかんが異なるように示された染色体サイト(DMS:differentially methylated site)、それぞれのメチル化サイトにおける鬱病、自殺企図または自殺遂行に係わる予測度と再現度、及びそれぞれのメチル化サイトと心理思考評価尺度との相関係数を利用し、鬱病または自殺危険の予測用マーカーを発掘することができ、それを利用し、個体の鬱病または自殺危険を予測することができる。
【0107】
鬱病を有する個体22名、自殺企図個体または自殺遂行個体34名(危険群)、及びそうではない個体44人(正常群または対照群)の総100人を募集した。そのうち、任意に選抜された70人を対象に学習用データを得て、残り30人を対象に検証用データを得た。
【0108】
前記100名の対象者から末梢血液を採取し、次に、QiAmpDNAキット(Qiagen、ドイツ)を利用し、前記血液から、遺伝体DNA(gDNA:genomic DNA)を得た。次に、バイサルファイト(bisulfite)を利用したシーケンシング(RRBS:reduced representation bisulfite sequencing)(Illumina)を行った。得られたシーケンシングデータを、NGSQcToolKitを利用し、品質点数(quality control)が20以上であるリードだけをフィルタリングし、MethylSeqリードを得た。ヒト参照ゲノム(human reference genome)(hg19)は、bismark_genome_preparationプログラムで転換(convert)した。MethylSeqリードを、bismark整列(align)を利用して転換されたhg19参照配列に整列した(http://genome.ucsc.edu)。整列(alignment)結果から、MethylExtractを利用し、メチル化情報を抽出した。
【0109】
メチル化レベルを比較するために、は、DNeasy Blood &T issue KitとAgilent SureSelectXT Human Methyl-Seq Kit 84Mとを介し、シーケンシング試料が準備された。該シーケンシングは、HiSeq2500プラットフォームを介して進められた。前記シーケンシングを行って得られた原データ(raw data)を、NGSQcToolKitを使用してフィルタリングした。前記フィルタリングされたMethylSeqリードを、bismarkを利用し、hg19について整列を行った。前記整列結果から、MethylExtractを利用し、各試料のメチル化程度を0値、1値を有するβ値に定量化した。定量化されたメチル化情報は、SVAパッケージのCombatを介し、性別、年齢及びそしてシーケンシングバッチの影響が除去された。各メチル化マーカーは、次の段階を介してフィルタリングが進められた。優先的には、自殺企図者と正常とのメチル化差、または重度鬱病患者と正常人とのメチル化差が、0.01β値より大きく、Benjamini-Hochberg adjusted P値<0.05であるメチル化位置が選定された。
【0110】
遺伝子発現量を比較するために、は、TruSeqRNA Sample Prep Kit v2を介し、RNA-Seq試料が準備され、HiSeq2500プラットフォームを介し、シーケンシングが行われた。シーケンシングを行って得られた原データを、NGSQcToolKitを使用してフィルタリングした。前記フィルタリングされたRNA-seqリードを、MapSpliceを利用し、hg19についてg整列を行った。前記整列結果から、RSEMツールを利用し、各試料の遺伝子発現を定量化した。定量化された遺伝子の発現量情報は、SVAパッケージのCombatを介し、性別、年及びシーケンシングバッチの影響が除去された。各遺伝子発現マーカーは、次の段階を介し、フィルタリングが進められた。優先的には、自殺企図者と正常との遺伝子発現量、または重度鬱病患者と正常人との遺伝子発現量が、DESeq2プログラムを利用して比較された。前記分析において、遺伝子発現量が1.2倍差があり、Benjamini-Hochberg adjusted P値<0.05である遺伝子の発現量が選定された。選定された遺伝子の発現量は、そのうち、心理検査点数との相関関係が、スピアマンのロー(Spearman’s rho>0.2であり、P値<0.05を満足するものでもってさらに1回選定された。それは、前記遺伝子の発現量が、自殺または鬱病危険性を予測するためのマーカーとして有意に活用することができ、自殺または鬱病危険性を客観的に点数化することができる線形回帰モデル構築において、入力特徴(input feature)セットとして活用されうるということを意味する。70名のメチル化情報を利用し、危険群と正常群とにおいて、メチル化いかんが異なるように示された染色体サイト(DMS)を、ゲノム全般的なDNAメチル化プロファイル分析のための包括的なRパッケージであるmethyl kit及びWilcoxonテストを利用して抽出した。
【0111】
次に、それぞれのメチル化サイトにおける自殺企図または自殺遂行に係わる予測度と再現度とを計算した。該予測度は、70名のメチル化情報をトレーニングデータセット(training data set)にしてテストモデルを生成し、前記トレーニングデータセットを前記テストモデルに適用したとき、危険群と対照群とが区分される程度(0ないし1)を示す。再現度は、残り30名を対象に検証用データを得て、メチル化情報を生成されたテストモデルに適用したとき、危険群と対照群が区分される程度(0または1)を示す。具体的には、トレーニングデータセットを、危険群(case)と対照群(control)とに分けた後、危険群の数値中の中間値と、対照群の数値中の中間値との平均を、危険群と対照群とを分ける基準値にする。その基準値を、トレーニングデータセットの危険群と対照群とに再適用し、危険群と対照群とを再区分するとき、本来の危険群と対照群との区分と一致する程度を計算して出てきた値を予測度にする。その基準値を、検証用データセットに、前述のような方法で計算して出てきた値を再現度にする。
【0112】
また、メチル化情報と心理思考評価尺度点数とを基に、スピアマン相関係数を利用し、メチル化サイトと心理思考評価尺度点数との相関係数を求めた。
【0113】
図2は、選抜された70名を対象に学習用データを得て、遺伝子全体でメチル化された塩基の分布を分析した結果である。chrは、染色体番号を示し、Annotationは、当該位置がどの遺伝子のどの領域に位置するかということを示す。Rho_HAM21、HAM17、SSIは、心理思考評価尺度(鬱病:HAM21、HAM17;自殺:SSI)との相関係数を示す。Pval_HAM21、HAM17、SSIは、心理思考評価尺度との相関係数の有意度を示す。Pval_MethylKitとPval_Willcoxonは、それぞれのメチル化サイトにおいて、危険群と対照群とが区分される程度の有意度を示す。PredictionとReplicationは、それぞれ予測度と再現度とを示す。
【0114】
図3は、図2の表から、予測度及び再現度が基準値以上であり、心理思考評価尺度との相関係数が基準値以上であるメチル化サイトを選別する過程、及びそれによって選別されたDNAメチル化関連データを示す。
【0115】
図3のAを参照すれば、予測度が50%以上であるメチル化サイトを計数した結果、31,739個であり、そのうち、それぞれの心理思考評価尺度と関連性があるメチル化サイトを選別して計数した。このとき、関連性があるメチル化サイトは、Rho_HAM21、HAM17及びSSIそれぞれとの相関係数が0.3以上(Rho=0.3)であり、相関係数の有意度が0.05未満(P値<0.05)であるものを選別した。その結果、HAM21につき、5,524個であり、HAM17につき、5,633個であり、SSIにつき、5,292個であった。全ての心理思考評価尺度と関連性があるメチル化サイトの数は、2,287個であった。
【0116】
そのうち、予測度が75%以上であるメチル化サイト15個を選別し、図3のBに示した。図3のBに示されているように、前記15種のメチル化関連データは、自殺企図または自殺試み、あるいは鬱病の危険を、高い正確度及び信頼度で予測することができる。図3のBにおいて、Chrは、染色体番号を示し、Siteは、染色体上の位置を示し、Geneは、当該位置がどの遺伝子と関連しているかということを示し、>methylationは、当該位置において、危険群と正常群都のうち、どちらの群にさらに多くメチル化されているかということを示し、Regionは、当該位置が、関連する遺伝子のどの領域に位置するかということを示す。図3のCは、図3のA及びBをグラフで示したものである。
【0117】
図5は、鬱病または自殺危険の予測用マーカーによって選別されたメチル化関連データから、メチル化程度を示したグラフである。図5のAは、メチル化サイトであるヒトの16番目染色体の14014009番目塩基につき、鬱病を有する個体、自殺企図個体または自殺遂行個体からのメチル化程度を示したグラフである。図5のAに示されているように、鬱病を有する個体、自殺企図個体または自殺遂行個体は、正常群に比べ、16番目染色体の14014009番目塩基からメチル化程度が顕著に高かった。
【0118】
2.自殺遂行または自殺企図と特異的に係わるメチル化サイト選別
鬱病と、自殺企図または自殺遂行との危険は、他の遺伝的な要因によっても誘発されるので、1.と同一方法で、鬱病と、自殺企図または自殺遂行とを区分することができるメチル化関連データをさらに確認した。
【0119】
図4は、鬱病を有する群、及び自殺企図群または自殺遂行群におけるDNAメチル化関連データを示す。
【0120】
図4のAを参照すれば、自殺企図または自殺遂行に係わる予測度が50%以上であるメチル化サイトを計数した結果、35,778個であり、そのうち、それぞれの心理思考評価尺度と関連性があるメチル化サイトを選別して計数した。その結果、HAM21につき、322個であり、HAM17につき、337個であり、SSIにつき、532個であった。全ての心理思考評価尺度と関連性があるメチル化サイトの数は、122個であった。そのうち、予測度が80%以上であり、それぞれの心理思考評価尺度と関連性があるメチル化サイトの数は、5個であった。図4のAに示されているように、前述の種類のメチル化関連データは、自殺企図または自殺試みの危険と、鬱病の危険とを特異的に区分し、高い正確度及び信頼度で予測することができる。図4のBは、図4のAをグラフで示したものである。
【0121】
図5は、鬱病または自殺危険の予測用マーカーによって選別されたメチル化関連データから、メチル化程度を示したグラフである。図5のBは、メチル化サイトであるヒトの10番目染色体の44144362番目塩基につき、鬱病を有する群、及び自殺企図群または自殺遂行群からのメチル化程度を示したグラフである。図5のBに示されているように、鬱病を有する個体は、自殺企図個体または自殺遂行個体に比べ、10番目染色体の44144362番目塩基において、メチル化程度が顕著に高かった。一方、自殺企図個体または自殺遂行個体は、ヒトの13番目染色体の100254805番目塩基のメチル化、ヒトの15番目染色体の53093335番目塩基のメチル化、ヒトの21番目染色体の46351387番目塩基のメチル化、ヒトの3番目染色体の28390646番目塩基の非メチル化、及びヒトの10番目染色体の44144362番目塩基の非メチル化を有するということが分かる。
【0122】
3.メチル化関連データ及びRNA発現マーカー、並びに多重オミックス分析と機械学習とを利用した鬱病または自殺危険の予測
3種の心理思考評価尺度と関連性がある(相関係数が0.35以上である)メチル化サイト(86個)を利用し、機械学習方法のうち一つであるランダムフォレストに適用した。1.において、鬱病または自殺危険がある危険群と正常群とに係わる結果を確認したので、指導式学習(supervised learning)方法を適用し、鬱病または自殺危険に係わる予測度を確認した。前記検証方法は、さまざまな検証方法のうち、少ないサンプル数に有用な一個抜き交差検証(leave-one-out cross validation)方法を適用した。
【0123】
1.で遂行した、メチル化サイト、及び多重オミックス分析と機械学習とを利用した鬱病または自殺危険の予測用マーカー発掘方法を、RNA発現データに適用した。また、3種の心理思考評価尺度と関連性がある(相関係数0.35以上である)RNA発現データ(28個)を指導ランダムフォレスト(supervised random forests)に適用した。
【0124】
メチル化サイト、RNA発現データ、及びウィルコクソンの符号順位検定(Wilcoxon signed-rank test)結果を利用し、指導ランダムフォレストに適用した。
【0125】
図6は、心理思考評価尺度と関連性がある、メチル化サイト、RNA発現結果、メチル化サイトとRNA発現結果とを統合したデータそれぞれをランダムフォレストに適用し、結果値でもって、鬱病または自殺危険の予測度を確認した結果である。
【0126】
図6を参照すれば、3種の心理思考評価尺度と関連性があるメチル化サイト(86個)につき、鬱病または自殺危険を予測する正確度は、約86%であった。3種の心理思考評価尺度と関連性があるRNA発現結果につき、鬱病または自殺危険を予測する正確度は、約73%であった。3種の心理思考評価尺度と関連性があるメチル化サイトとRNA発現結果とを統合したデータ(114個)につき、鬱病または自殺危険を予測する正確度は、約86%であった。3種の心理思考評価尺度と関連性があるメチル化サイトとRNA発現結果とを統合したデータ(114個)に、1.で分析されて確認された15種のマーカーを追加した場合、鬱病または自殺危険を予測する正確度は、約90%であった。3種の心理思考評価尺度と関連性があるメチル化サイトとRNA発現結果とを統合したデータ(114個)に、1.で分析されて確認された15種のマーカー、及びRNA発現分析及び確認された9種のマーカーを追加した場合、鬱病または自殺危険を予測する正確度は、約90%であった。
【0127】
個体の鬱病または自殺危険は、個体の転写体及び後成遺伝体データなどを含む多重オミックスデータ及び所定のアルゴリズムを介し、高い正確度で予測することができる。
図1
図2
図3
図4
図5
図6
図7
【国際調査報告】