IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソウル ナショナル ユニバーシティ アールアンドディービー ファウンデーションの特許一覧

特表2022-534071NGSデータを用いて遺伝型を予測する方法及び装置
<>
  • 特表-NGSデータを用いて遺伝型を予測する方法及び装置 図1
  • 特表-NGSデータを用いて遺伝型を予測する方法及び装置 図2
  • 特表-NGSデータを用いて遺伝型を予測する方法及び装置 図3
  • 特表-NGSデータを用いて遺伝型を予測する方法及び装置 図4
  • 特表-NGSデータを用いて遺伝型を予測する方法及び装置 図5
  • 特表-NGSデータを用いて遺伝型を予測する方法及び装置 図6
  • 特表-NGSデータを用いて遺伝型を予測する方法及び装置 図7
  • 特表-NGSデータを用いて遺伝型を予測する方法及び装置 図8
  • 特表-NGSデータを用いて遺伝型を予測する方法及び装置 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-07-27
(54)【発明の名称】NGSデータを用いて遺伝型を予測する方法及び装置
(51)【国際特許分類】
   C12Q 1/6869 20180101AFI20220720BHJP
   C12M 1/00 20060101ALI20220720BHJP
   C12M 1/34 20060101ALI20220720BHJP
【FI】
C12Q1/6869 Z
C12M1/00 A
C12M1/34 Z
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021569579
(86)(22)【出願日】2020-05-22
(85)【翻訳文提出日】2022-01-20
(86)【国際出願番号】 KR2020006720
(87)【国際公開番号】W WO2020235972
(87)【国際公開日】2020-11-26
(31)【優先権主張番号】10-2019-0059946
(32)【優先日】2019-05-22
(33)【優先権主張国・地域又は機関】KR
(31)【優先権主張番号】10-2020-0061499
(32)【優先日】2020-05-22
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】519001383
【氏名又は名称】ソウル ナショナル ユニバーシティ アールアンドディービー ファウンデーション
(74)【代理人】
【識別番号】110003339
【氏名又は名称】特許業務法人南青山国際特許事務所
(72)【発明者】
【氏名】ハン、ボム
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA07
4B029BB20
4B029FA12
4B063QA13
4B063QA19
4B063QQ02
4B063QQ08
4B063QQ42
4B063QQ52
4B063QR08
4B063QR32
4B063QR42
4B063QR56
4B063QR62
4B063QR82
4B063QS24
4B063QS25
4B063QS34
4B063QS39
4B063QX02
(57)【要約】
NGSデータを用いて遺伝型を予測する方法及び装置に関する。一実施形態は、分析対象NGSデータを取得するステップ、NGS基盤の予測技術を適用して第1確率を取得するステップ、SNP基盤の予測技術を適用して第2確率を取得するステップ、及び第1確率及び第2確率に基づいて分析対象NGSデータの遺伝型を予測するステップを含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
分析対象NGS(next generation sequencing)データを取得するステップと、
分析対象遺伝子に関する遺伝型が互いに異なる塩基序列それぞれに前記分析対象NGSデータをマッピングするステップと、
前記マッピング結果に基づいて、前記分析対象NGSデータが前記分析対象遺伝子に関する遺伝型それぞれに対応する第1確率を取得するステップと、
前記NGSデータから分析対象SNPデータを抽出するステップと、
前記分析対象遺伝子に関する遺伝型が互いに異なる複数のSNPデータを含む参照データを取得するステップと、
前記分析対象SNPデータ及び前記参照データに基づいて、前記分析対象SNPデータが前記複数の遺伝型それぞれに対応する第2確率を取得するステップと、
前記第1確率及び前記第2確率に基づいて、前記分析対象NGSデータの遺伝型を予測するステップと、
を含む、NGSデータを用いて遺伝型を予測する方法。
【請求項2】
前記第1確率を取得するステップは、
前記分析対象遺伝子に関する遺伝型が互いに異なる塩基序列それぞれに対して、前記NGSデータ内のマッピングされた塩基序列の長さを取得するステップと、
前記マッピングされた塩基序列の長さに基づいて、前記分析対象遺伝子に関する遺伝型それぞれに対応する第1確率を取得するステップと、
を含む、請求項1に記載のNGSデータを用いて遺伝型を予測する方法。
【請求項3】
前記分析対象NGSデータの遺伝型を予測するステップは、
遺伝型ごとに第1確率及び第2確率を演算し、前記分析対象SNPデータが前記複数の遺伝型それぞれに対応する最終確率を取得するステップと、
前記最終確率のうち、最も高い最終確率に対応する遺伝型を前記分析対象NGSデータの遺伝型として予測するステップと、
を含む、請求項1に記載のNGSデータを用いて遺伝型を予測する方法。
【請求項4】
前記分析対象SNPデータを抽出するステップは、前記NGSデータ内の遺伝子間領域(intergenic region)からSNPを検出するステップをさらに含む、請求項1に記載のNGSデータを用いて遺伝型を予測する方法。
【請求項5】
前記参照データを取得するステップは、前記分析対象遺伝子に関する遺伝型が決定された複数のSNPデータそれぞれに対して、SNPデータに含まれている予め決定された複数の領域それぞれに前記SNPデータの遺伝型に対応するマーカーを挿入するステップをさらに含む、請求項1に記載のNGSデータを用いて遺伝型を予測する方法。
【請求項6】
前記参照データを取得するステップは、前記分析対象遺伝子に関する遺伝型が決定された複数のSNPデータそれぞれに対して、SNPデータに含まれる複数のエクソンそれぞれに前記SNPデータの遺伝型に対応する2進マーカーを挿入するステップをさらに含む、請求項1に記載のNGSデータを用いて遺伝型を予測する方法。
【請求項7】
前記第2確率を取得するステップは、
前記分析対象SNPデータと前記参照データを推定モデルに入力することによって、前記分析対象SNPデータが前記複数のSNPデータの遺伝型に対応する確率を領域ごとに算出するステップと、
前記領域ごとの確率に基づいて、前記分析対象SNPデータが前記複数の遺伝型それぞれに対応する第2確率を取得するステップと、
を含む、請求項1に記載のNGSデータを用いて遺伝型を予測する方法。
【請求項8】
前記第2確率を取得するステップは、
前記複数の遺伝型に対応する複数のマーカー間の遺伝的距離を算出するステップと、
前記分析対象SNPデータ、前記参照データ、及び前記遺伝的距離に基づいて、前記分析対象SNPデータが前記複数の遺伝型それぞれに対応する第2確率を取得するステップと、
を含む、請求項1に記載のNGSデータを用いて遺伝型を予測する方法。
【請求項9】
前記第2確率を取得するステップは、
前記分析対象SNPデータ及び前記複数のSNPデータをサンプリングするステップと、
前記サンプリングされたデータに基づいて、隠れマルコフモデルで前記複数の遺伝型に対応する状態間の転移確率を算出するステップと、
前記状態間の転移確率を変換し、状態間の遺伝的距離を取得するステップと、
前記遺伝的距離、前記参照データ、及び前記分析対象SNPデータに基づいて、前記分析対象SNPデータが前記複数の遺伝型それぞれに対応する第2確率を取得するステップと、
を含む、請求項1に記載のNGSデータを用いて遺伝型を予測する方法。
【請求項10】
前記分析対象SNPデータは、
分析対象ユーザのDNA塩基序列のうち少なくとも一部と、
前記少なくとも一部のDNA塩基序列に含まれている少なくとも一部のSNP情報と、
を含む、請求項1に記載のNGSデータを用いて遺伝型を予測する方法。
【請求項11】
前記参照データに含まれているSNPデータそれぞれは、
該当する遺伝型のDNA塩基序列と、
前記DNA塩基序列に含まれているSNPの情報と、
前記DNA塩基序列内の予め決定された複数の領域に挿入されたマーカーと、
を含む、請求項1に記載のNGSデータを用いて遺伝型を予測する方法。
【請求項12】
前記分析対象遺伝子は、HLA遺伝子であり、
前記複数の遺伝型は、前記HLA遺伝子に定義された複数の遺伝型を含み、
前記分析対象NGSデータは、前記HLA遺伝子の塩基序列を含む、請求項1に記載のNGSデータを用いて遺伝型を予測する方法。
【請求項13】
ハードウェアと結合して請求項1~請求項12のいずれか1項に記載の方法を実行させるために媒体に格納されたコンピュータプログラム。
【請求項14】
分析対象遺伝子に関する遺伝型が決定された複数のSNPデータを含む参照データを格納するメモリと、
分析対象NGS(next generation sequencing)データを取得し、
前記分析対象遺伝子に関する遺伝型が互いに異なる塩基序列それぞれに前記分析対象NGSデータをマッピングし、
前記マッピング結果に基づいて、前記分析対象NGSデータが前記分析対象遺伝子に関する遺伝型それぞれに対応する第1確率を取得し、
前記NGSデータから分析対象SNPデータを抽出し、
前記分析対象遺伝子に関する遺伝型に対応するマーカーが挿入された複数のSNPデータを含む参照データを取得し、
前記分析対象SNPデータ及び前記参照データに基づいて、前記分析対象SNPデータが前記複数の遺伝型それぞれに対応する第2確率を取得し、
前記第1確率及び前記第2確率に基づいて、前記分析対象NGSデータの遺伝型を予測する少なくとも1つのプロセッサと、
を含む、NGSデータを用いて遺伝型を予測する装置。
【請求項15】
前記プロセッサは、
前記第1確率を取得することにおいて、
前記分析対象遺伝子に関する遺伝型が互いに異なる塩基序列それぞれに対して、前記NGSデータ内のマッピングされた塩基序列の長さを取得し、
前記マッピングされた塩基序列の長さに基づいて、前記分析対象遺伝子に関する遺伝型それぞれに対応する第1確率を取得する、請求項14に記載のNGSデータを用いて遺伝型を予測する装置。
【請求項16】
前記プロセッサは、
前記分析対象NGSデータの遺伝型を予測することにおいて、
遺伝型ごとに第1確率及び第2確率を演算し、前記分析対象SNPデータが前記複数の遺伝型それぞれに対応する最終確率を取得し、
前記最終確率のうち、最も高い最終確率に対応する遺伝型を前記分析対象NGSデータの遺伝型として予測する、請求項14に記載のNGSデータを用いて遺伝型を予測する装置。
【請求項17】
前記プロセッサは、
前記分析対象SNPデータを抽出することにおいて、
前記NGSデータ内の遺伝子間領域からSNPを検出する、請求項14に記載のNGSデータを用いて遺伝型を予測する装置。
【請求項18】
前記プロセッサは、
前記参照データを取得することにおいて、
前記分析対象遺伝子に関する遺伝型が決定された複数のSNPデータそれぞれに対して、SNPデータに含まれている予め決定された複数の領域それぞれに前記SNPデータの遺伝型に対応するマーカーを挿入する、請求項14に記載のNGSデータを用いて遺伝型を予測する装置。
【請求項19】
前記プロセッサは、
前記第2確率を取得することにおいて、
前記分析対象SNPデータと前記参照データを推定モデルに入力することによって、前記分析対象SNPデータが前記複数のSNPデータの遺伝型に対応する確率を領域ごとに算出し、
前記領域ごとの確率に基づいて、前記分析対象SNPデータが前記複数の遺伝型それぞれに対応する第2確率を取得する、請求項14に記載のNGSデータを用いて遺伝型を予測する装置。
【請求項20】
前記プロセッサは、
前記第2確率を取得することにおいて、
前記複数の遺伝型に対応する複数のマーカーの間の遺伝的距離を算出し、
前記分析対象SNPデータ、前記参照データ、及び前記遺伝的距離に基づいて、前記分析対象SNPデータが前記複数の遺伝型それぞれに対応する第2確率を取得する、請求項14に記載のNGSデータを用いて遺伝型を予測する装置。
【請求項21】
前記分析対象遺伝子は、HLA遺伝子であり、
前記複数の遺伝型は、前記HLA遺伝子に定義された複数の遺伝型を含み、
前記分析対象NGSデータは、前記HLA遺伝子の塩基序列を含む、請求項14に記載のNGSデータを用いて遺伝型を予測する装置。
【発明の詳細な説明】
【技術分野】
【0001】
以下の実施形態は、NGSデータを用いて遺伝型を予測する方法に関する。
【背景技術】
【0002】
ヒトを始めとする生物体の細胞内染色体に存在するDNAは、生殖及び繁殖過程で子孫に伝達される遺伝物質であって、ヒトの場合、両親の個体からそれぞれ受け継いだDNAが染色体の対をなして存在する。DNA塩基序列のうち、形質発現に関与している部分を遺伝子といい、遺伝子の発現によりタンパク質が合成されて生物体の構造及び機能が形成される。遺伝子のDNA塩基配列の差によって生物体ごとに互いに異なる遺伝型が決定されるものであって、同種に属する個体のDNA塩基配列には、個体ごとに差が示される単一塩基が存在する。DNA塩基序列で単一塩基の差によって発生する遺伝的な多様性をSNP(single nucleotide polymorphism)という。
【0003】
次世代シーケンシング(Next Generation Sequencing、NGS)技術とは、生命体のDNAやRNAを細かく割ってその序列を機械で読み込む技術である。各序列フラグメントがゲノム(genome)のどの位置に該当するかを把握するために、マッピング(mapping)という作業を行い、全ての序列フラグメントの位置を把握した後は、DNAの変移の有無を分析したり、DNAがRNAに転写された量を測定するなど、様々な解釈を行う。特定の生物体の誘電物質序列フラグメントのマッピングを行うためには、当該の生物ゲノムの標準となる基準ゲノム(reference genome)が必要であり、ヒトの基準ゲノムの場合、ヒトゲノムプロジェクト(Human Genome Project)などのプロジェクトによって確立されて引き続きアップデートされている。
【0004】
しかし、多型(polymorphic)の遺伝子、即ち、様々な遺伝型が存在し得る遺伝子(例えば、HLA)の場合、特定の生物体の序列フラグメントが基準と異なる序列を有し得るため、NGSデータから基準ゲノムにマッピングして遺伝子の遺伝型を正確にタイピングすることが難しいという問題がある。多型性の高い遺伝子の序列フラグメントが、基準ゲノムに円満にマッピングされないという問題を解決するために、序列フラグメントを1つの基準ゲノムにのみマッピングすることなく、知られた様々な遺伝型とその序列情報が蓄積されているデータベースの全体序列にマッピングする方法が利用されている。例えば、ヒトのHLA遺伝子の場合、IMGT/HLAと呼ばれる公共データベースに今まで知られているHLAの様々な遺伝型とそれらの序列情報が蓄積されている。しかし、この方法は、NGSの深度(depth)が低い場合、正確度が極めて低下するという問題があることから、NGSの深度が低い場合であっても正確に遺伝型を予測できる改善された技術の開発が求められている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
実施形態は、NGSデータのシーケンシングの深度が低い場合であっても、NGSデータから多型性の高い遺伝子の遺伝型を正確に分析できる技術を開示することにある。
【0006】
実施形態は、逆抗癌療法、自己免疫疾患のリスク判明、臓器移植の適合性判定、薬の副作用判定などに有用に使用され得るHLA遺伝子の遺伝型を正確に予測する技術を開示することにある。
【課題を解決するための手段】
【0007】
一側面に係るNGSデータを用いて遺伝型を予測する方法は、分析対象NGS(next generation sequencing)データを取得するステップと、分析対象遺伝子に関する遺伝型が互いに異なる塩基序列それぞれに前記分析対象NGSデータをマッピングするステップと、前記マッピング結果に基づいて、前記分析対象NGSデータが前記分析対象遺伝子に関する遺伝型それぞれに対応する第1確率を取得するステップと、前記NGSデータから分析対象SNPデータを抽出するステップと、前記分析対象遺伝子に関する遺伝型が互いに異なる複数のSNPデータを含む参照データを取得するステップと、前記分析対象SNPデータ及び前記参照データに基づいて、前記分析対象SNPデータが前記複数の遺伝型それぞれに対応する第2確率を取得するステップと、前記第1確率及び前記第2確率に基づいて、前記分析対象NGSデータの遺伝型を予測するステップとを含む。
【0008】
前記第1確率を取得するステップは、前記分析対象遺伝子に関する遺伝型が互いに異なる塩基序列それぞれに対して、前記NGSデータ内のマッピングされた塩基序列の長さを取得するステップと、前記マッピングされた塩基序列の長さに基づいて、前記分析対象遺伝子に関する遺伝型それぞれに対応する第1確率を取得するステップとを含むことができる。
【0009】
前記分析対象NGSデータの遺伝型を予測するステップは、遺伝型ごとに第1確率及び第2確率を演算し、前記分析対象SNPデータが前記複数の遺伝型それぞれに対応する最終確率を取得するステップと、前記最終確率のうち、最も高い最終確率に対応する遺伝型を前記分析対象NGSデータの遺伝型として予測するステップとを含むことができる。
【0010】
前記分析対象SNPデータを抽出するステップは、前記NGSデータ内の遺伝子間領域(intergenic region)からSNPを検出するステップをさらに含むことができる。
【0011】
前記参照データを取得するステップは、前記分析対象遺伝子に関する遺伝型が決定された複数のSNPデータそれぞれに対して、SNPデータに含まれている予め決定された複数の領域それぞれに前記SNPデータの遺伝型に対応するマーカーを挿入するステップをさらに含むことができる。
【0012】
前記参照データを取得するステップは、前記分析対象遺伝子に関する遺伝型が決定された複数のSNPデータそれぞれに対して、SNPデータに含まれる複数のエクソンそれぞれに前記SNPデータの遺伝型に対応する2進マーカーを挿入するステップをさらに含むことができる。
【0013】
前記第2確率を取得するステップは、前記分析対象SNPデータと前記参照データを推定モデルに入力することによって、前記分析対象SNPデータが前記複数のSNPデータの遺伝型に対応する確率を領域ごとに算出するステップと、前記領域ごとの確率に基づいて、前記分析対象SNPデータが前記複数の遺伝型それぞれに対応する第2確率を取得するステップとを含むことができる。
【0014】
前記第2確率を取得するステップは、前記複数の遺伝型に対応する複数のマーカー間の遺伝的距離を算出するステップと、前記分析対象SNPデータ、前記参照データ、及び前記遺伝的距離に基づいて、前記分析対象SNPデータが前記複数の遺伝型それぞれに対応する第2確率を取得するステップとを含むことができる。
【0015】
前記第2確率を取得するステップは、前記分析対象SNPデータ及び前記複数のSNPデータをサンプリングするステップと、前記サンプリングされたデータに基づいて、隠れマルコフモデルで前記複数の遺伝型に対応する状態間の転移確率を算出するステップと、前記状態間の転移確率を変換し、状態間の遺伝的距離を取得するステップと、前記遺伝的距離、前記参照データ、及び前記分析対象SNPデータに基づいて、前記分析対象SNPデータが前記複数の遺伝型それぞれに対応する第2確率を取得するステップとを含むことができる。
【0016】
前記分析対象SNPデータは、分析対象ユーザのDNA塩基序列のうち少なくとも一部と、前記少なくとも一部のDNA塩基序列に含まれている少なくとも一部のSNP情報とを含むことができる。
【0017】
前記参照データに含まれているSNPデータそれぞれは、該当する遺伝型のDNA塩基序列と、前記DNA塩基序列に含まれているSNPの情報と、前記DNA塩基序列内の予め決定された複数の領域に挿入されたマーカーとを含むことができる。
【0018】
一側面に係るNGSデータを用いて遺伝型を予測する装置は、分析対象遺伝子に関する遺伝型が決定された複数のSNPデータを含む参照データを格納するメモリと、分析対象NGS(next generation sequencing)データを取得し、前記分析対象遺伝子に関する遺伝型が互いに異なる塩基序列それぞれに前記分析対象NGSデータをマッピングし、前記マッピング結果に基づいて、前記分析対象NGSデータが前記分析対象遺伝子に関する遺伝型それぞれに対応する第1確率を取得し、前記NGSデータから分析対象SNPデータを抽出し、前記分析対象遺伝子に関する遺伝型に対応するマーカーが挿入された複数のSNPデータを含む参照データを取得し、前記分析対象SNPデータ及び前記参照データに基づいて、前記分析対象SNPデータが前記複数の遺伝型それぞれに対応する第2確率を取得し、前記第1確率及び前記第2確率に基づいて、前記分析対象NGSデータの遺伝型を予測する少なくとも1つのプロセッサとを含む。
【0019】
前記プロセッサは、前記第1確率を取得することにおいて、前記分析対象遺伝子に関する遺伝型が互いに異なる塩基序列それぞれに対して、前記NGSデータ内のマッピングされた塩基序列の長さを取得し、前記マッピングされた塩基序列の長さに基づいて、前記分析対象遺伝子に関する遺伝型それぞれに対応する第1確率を取得することができる。
【0020】
前記プロセッサは、前記分析対象NGSデータの遺伝型を予測することにおいて、遺伝型ごとに第1確率及び第2確率を演算し、前記分析対象SNPデータが前記複数の遺伝型それぞれに対応する最終確率を取得し、前記最終確率のうち、最も高い最終確率に対応する遺伝型を前記分析対象NGSデータの遺伝型として予測することができる。
【0021】
前記プロセッサは、前記分析対象SNPデータを抽出することにおいて、前記NGSデータ内の遺伝子間領域からSNPを検出することができる。
【0022】
前記プロセッサは、前記参照データを取得することにおいて、前記分析対象遺伝子に関する遺伝型が決定された複数のSNPデータそれぞれに対して、SNPデータに含まれている予め決定された複数の領域それぞれに前記SNPデータの遺伝型に対応するマーカーを挿入することができる。
【0023】
前記プロセッサは、前記第2確率を取得することにおいて、前記分析対象SNPデータと前記参照データを推定モデルに入力することによって、前記分析対象SNPデータが前記複数のSNPデータの遺伝型に対応する確率を領域ごとに算出し、前記領域ごとの確率に基づいて、前記分析対象SNPデータが前記複数の遺伝型それぞれに対応する第2確率を取得することができる。
【0024】
前記プロセッサは、前記第2確率を取得することにおいて、前記複数の遺伝型に対応する複数のマーカーの間の遺伝的距離を算出し、前記分析対象SNPデータ、前記参照データ、及び前記遺伝的距離に基づいて、前記分析対象SNPデータが前記複数の遺伝型それぞれに対応する第2確率を取得することができる。
【0025】
前記分析対象遺伝子は、HLA遺伝子であり、前記複数の遺伝型は、前記HLA遺伝子に定義された複数の遺伝型を含み、前記分析対象NGSデータは、前記HLA遺伝子の塩基序列を含むことができる。
【図面の簡単な説明】
【0026】
図1】一実施形態に係るNGSデータを用いて遺伝型を予測する方法のフローチャートを示す図である。
図2】次世代シーケンシング技術のパイプラインを示す図である。
図3】NGSのマッピングを説明するための図である。
図4】一実施形態に係るNGS基盤方法に係る遺伝型予測方法を説明するための図である。
図5】一実施形態に係るSNP基盤の予測技術を適用して第2確率を取得する方法を説明するための図である。
図6】SNPを説明するための図である。
図7】染色体内の特定の遺伝子座の塩基序列構造を説明するための図である。
図8】一実施形態に係る推定モデルを適用して、分析対象SNPデータの遺伝型を予測する方法を説明するための図である。
図9】一実施形態に係る推定モデルの具体的な動作の例示を示す図である。
【発明を実施するための形態】
【0027】
以下、添付する図面を参照しながら実施形態を詳細に説明する。各図面に提示された同一の参照符号は同一の部材を示す。以下で説明する実施形態は、実施形態に対して制限しようとするものではなく、これに対するすべての変更、均等物ないし代替物が権利範囲に含まれるものとして理解されなければならない。
【0028】
本明細書で用いる用語は、単に特定の実施形態を説明するために用いられるものであって、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品、又はこれらを組み合わせたものが存在することを示すものであって、一つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれらを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
【0029】
異なるように定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
【0030】
また、図面を参照して説明する際に、図面符号に拘わらず同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略する。実施形態の説明において関連する公知技術に対する具体的な説明が本発明の要旨を不要に曖昧にすると判断される場合、その詳細な説明は省略する。
【0031】
また、実施形態の構成要素の説明において、第1,第2,A,B,(a),(b)などの用語を使用することがある。このような用語は、その構成要素を他の構成要素と区別するためのものにすぎず、その用語によって該当の構成要素の本質や順番又は順序などが限定されない。いずれか一つの実施形態に含まれている構成要素と、共通の機能を含む構成要素は、他の実施形態で同じ名称を用いて説明することにする。
【0032】
いずれかの実施例に含まれる構成要素と、共通的な機能を含む構成要素は、他の実施例において同じ名称を用いて説明する。反対となる記載がない以上、いずれか一つの実施形態に記載した説明は、他の実施形態にも適用され、重複する範囲において具体的な説明は省略することにする。
【0033】
図1は、一実施形態に係るNGSデータを用いて遺伝型を予測する方法のフローチャートを示す図である。
【0034】
図1を参照すると、一実施形態に係るNGSデータを用いて遺伝型を予測する方法は、分析対象NGSデータを取得するステップ110、NGS基盤の予測技術を適用して第1確率を取得するステップ130、SNP基盤の予測技術を適用して第2確率を取得するステップ170、及び第1確率及び第2確率に基づいて分析対象NGSデータの遺伝型を予測するステップ180を含む。一実施形態によると、NGS基盤の予測技術を適用して第1確率を取得するステップは、NGSデータを各遺伝型に該当する塩基序列にマッピングするステップ120、及びマッピング結果に基づいて各遺伝型に対する第1確率を取得するステップ130を含む。一実施形態に係るSNP基盤の予測技術を適用して第2確率を取得するステップは、分析対象NGSデータから分析対象SNPデータを抽出するステップ140、分析対象遺伝子に関する遺伝型に対応するマーカーが挿入された複数のSNPデータを含む参照データを取得するステップ150、分析対象SNPデータ及び参照データに基づいて、各遺伝型に対する第2確率を取得するステップ170を含む。一実施形態に係る各遺伝型に対する第2確率を取得するステップ170は、分析対象SNPデータ及び参照データに推定モデルを適用するステップ160を含む。
【0035】
次世代シーケンシング(Next Generation Sequencing、NGS)技術とは、生命体のDNAやRNAを細かく割ってその序列を機械に読み込む技術である。次世代シーケンシング技術のパイプラインは、図2を参照すればよい。図2を参照すると、次世代シーケンシング技術は、生物体のDNAを抽出し(210)、DNAを短い序列フラグメント(fragment)に割って(220)、各序列フラグメントに対して序列に含まれている塩基を分析するシーケンシングを実行する(230)。シーケンシング方法により、パイロシーケンシング(Pyrosequencing)、イルミナシーケンシング方法などがある。シーケンシングの後に、各序列フラグメントがゲノム(genome)のどの位置に該当するかを把握するために、基準ゲノムを基準にして各序列フラグメントを整列するマッピングを実行し(240)、序列フラグメントのゲノム内の位置を把握する。全ての序列フラグメントの位置を把握した後には、DNAの変移の有無を分析したり、DNAがRNAに転写した量を測定するなどの様々な分析を実行する(250)。
【0036】
図3は、NGSのマッピングについて説明するための図である。図3を参照すると、基準ゲノム(reference genome)は、特定の生物体の誘電物質序列フラグメントのマッピングのための、該当生物ゲノムの標準となるゲノムである。シーケンシングを介して塩基が分析された序列フラグメント(set of reads)を基準ゲノムの序列に対応させるマッピングを通じて、ゲノム内の序列フラグメントの位置を探す。ここで、基準ゲノムにおいて序列フラグメントと一致する序列に該当する位置が序列フラグメントの位置となる。即ち、マッピングとは、序列フラグメントのゲノム内の位置に整列する過程に該当する。シーケンシングの結果、特定の塩基に対する重複回数、即ち、特定塩基が繰り返して示された程度をシーケンシング程度又はシーケンシング深度(sequencing depth)といい、シーケンシングの深度は、重複した回数がnである場合にnxに表現してもよい。シーケンシングの深度によりマッピング結果の正確度が変わり得るが、シーケンシングの深度が低い場合(例えば、10x以下)基準ゲノムでマッピングされていない部分が生じる場合もあり、マッピングされた領域内にマッピングされた序列フラグメントの個数が少なくなり、マッピングの正確度が低下する。
【0037】
再び図1を参照すると、一実施形態に係るNGSデータは、次世代塩基序列分析(next generation sequencing;NGS)を適用して取得した生物体の塩基序列データであって、例えば、全ゲノムシーケンシング(whole genome sequencing)技術による生物体の全体塩基序列データ、エクソムシーケンシング(exome sequencing)技術による遺伝子内のタンパク質暗号化領域(coding region)の塩基序列データ、標的シーケンシング(targeted sequencing)による特定領域(targeted region)の塩基序列データなどがこれに該当する。一実施形態に係る分析対象NGSデータは、生物体から抽出した分析対象遺伝子に関する塩基序列データを、短い序列フラグメント(fragment)で割って、各序列フラグメントに含まれている塩基を分析するシーケンシングを行って取得されたデータを含むことができる。
【0038】
以下において、塩基序列は、DNA塩基序列であるものと説明するが、一実施形態に係る塩基序列データはDNA塩基序列データだけでなく、RNA塩基序列データを含んでもよい。
【0039】
DNA塩基序列は、DNAを構成している基本単位であるヌクレオチドの構成要素である塩基を順に羅列したものである。ヌクレオチドを構成している塩基は、A(アデニン)、T(チミン)、G(グアニン)、C(シトシン)のいずれか1つである。DNAは、細胞内で染色体として存在するが、ヒトの場合、両親から1つずつ受け継いだ染色体が対をなしている23個の染色体の対が存在する。1つの染色体の対を構成している各染色体を相同染色体といい、1つの染色体の対を構成している1つの相同染色体は、父系に基づいたDNA塩基序列から構成され、他の1つの相同染色体は、母系に基づいたDNA塩基序列から構成される。遺伝子は、染色体で形質発現に関与する一部のDNA塩基序列を含む。
【0040】
生物体の遺伝子は、生物体のDNA塩基序列のうちの一部により決定され、生物体の染色体内の該当の遺伝子座(locus)の塩基序列の差により発現する形質が変わり得る。特定遺伝子の遺伝型を相違に決定する該当の遺伝子座の塩基序列を対立遺伝子(allele)という。生物体の特定の遺伝子座の塩基序列によって発現する形質に応じて、遺伝型(genotype)が定義される。即ち、遺伝型は、生物個体で塩基序列の差により発現する遺伝的な特性を意味するもので、対立遺伝子の種類に該当する。同じ遺伝子で同種の個体間に遺伝型の差が存在し得るが、遺伝型が多様に示される現像を多型性(polymorphism)という。例えば、ヒトのHLA遺伝子には数個の遺伝子座が存在し、そのうち1つの遺伝子座の対立遺伝子は数十個が存在し、多型性の高い遺伝子として分類される。
【0041】
1つの染色体の対をなす相同染色体の同じ位置に存在する遺伝子は1つの形質を決定し、それぞれの相同染色体に存在する遺伝子の遺伝型はそれぞれ異なってもよい。例えば、あるヒトのHLA遺伝子は6番の染色体に存在するものの、6番の染色体の対をなしている1つの相同染色体のX遺伝子はA型の遺伝子型に該当し、他の1つの相同染色体のX遺伝子はB型に該当してもよい。従って、一個体の遺伝子から抽出したDNA塩基序列は、それぞれの遺伝形質を有するDNA塩基序列の対に該当し、一対の遺伝型のように表現されてもよい。
【0042】
一実施形態に係るステップ110で取得されたNGSデータに基づいて、NGS基盤の予測技術による第1確率、及びSNP基盤の予測技術による第2確率が取得されることができる。一実施形態に係るNGS基盤の予測技術による第1確率を取得する方法については以下の図4を参照し、SNP基盤の予測技術による第2確率を取得する方法については以下の図5を参照して説明する。
【0043】
一実施形態に係る最終遺伝型を予測するステップ180は、複数の遺伝型に対応する第1確率及び第2確率に基づいて、分析対象NGSデータの遺伝型を予測するステップである。一実施形態によると、最終遺伝型を予測するステップ180において、遺伝型ごとに第1確率及び第2確率を演算して分析対象SNPデータが複数の遺伝型それぞれに対応する最終確率を取得するステップを含む。一実施形態に係る第1確率及び第2確率の演算方式は、予め決定された基準による様々な演算方式を含む。例えば、A(01:01)がHLA-A遺伝子に01:01遺伝型が存在する最終の確率であるとき、A(01:01)[1]及びA(01:01)[2]をそれぞれ第1確率及び第2確率とすれば、A(01:01)は加重平均確率a*A(01:01)[1]+(1-a)*A(01:01)[2]のように定義される。ここで、加重値aの値は、NGS基盤予測による情報の重要度とSNP基盤予測による情報の重要度に基づいて、0以上1以下の値に決定され、トレーニングデータに基づいて最適な加重値が取得されてもよい。ここで、トレーニングデータは、遺伝型を予め知っているシーケンシング深度(sequencing depth)の深いNGSデータを含むことができる。トレーニングデータに基づいて最適な加重値を取得する方法は、例えば、シーケンシングの深度の深いNGSデータから任意にサンプリングし、深度のさらに低いデータを作ることができるため、予測しようとするデータがUだけの深度を有すれば、トレーニングデータに含まれているNGSデータでUだけの深度を有する仮想データを作ることができる。この仮想データに対して、0~1間の加重値で一実施形態に係る遺伝型予測を行うことで、どの加重値が最も高い遺伝型予測の正確度を与える最適な加重値であるかを判別することができる。一実施形態に係るステップ180は、遺伝型ごとに取得された最終の確率のうち最も高い最終確率に対応する遺伝型を分析対象NGSデータの遺伝型として予測するステップを含む。
【0044】
図4は、一実施形態に係るNGS基盤の方法による遺伝型予測方法を説明するための図である。
【0045】
図4を参照すると、一実施形態に係るNGS基盤の予測技術を適用して第1確率を取得する方法は、NGSデータを各遺伝型に該当する塩基序列にマッピングするステップ420、及びマッピング結果に基づいて各遺伝型に対する第1確率を取得するステップ430を含む。
【0046】
一実施形態に係るNGSデータ401を各遺伝型に該当する塩基序列411,412,413にマッピングするステップ420は、分析対象遺伝子に関する遺伝型が互いに異なる塩基序列それぞれに分析対象NGSデータをマッピングするステップである。言い換えれば、一実施形態に係るステップ420は、分析対象遺伝子に関する遺伝型が決定された複数の塩基序列411,412,413を基準ゲノムにして、複数の塩基序列それぞれに対して分析対象NGSデータをマッピングするステップである。ここで、マッピングの基準ゲノムである複数の塩基序列411,412,413は、分析対象遺伝子に関する遺伝型がそれぞれ相違に決定された塩基序列を含んでもよい。例えば、分析対象遺伝子に関する遺伝型が、A型、B型、C型を含んでいる場合、分析対象NGSデータをA型に対応する塩基序列411、B型に対応する塩基序列412、C型に対応する塩基序列413それぞれにマッピングしてもよい。一実施形態によると、分析対象遺伝子に関する遺伝型それぞれに対応する塩基序列のデータベース410を使用することができる。例えば、分析対象遺伝子がヒトのHLA遺伝子である場合、様々な遺伝型に該当する塩基序列が、データベース化されているIMGT/HLAデータベースに基づいて、IMGT/HLAに格納されている各遺伝型に該当する塩基序列を基準ゲノムにしてマッピングステップを行うことができる。
【0047】
一実施形態に係る各遺伝型に対する第1確率を取得するステップ430は、マッピング結果に基づいて、分析対象NGSデータが分析対象遺伝子に関する遺伝型それぞれに対応する第1確率を取得するステップである。言い換えれば、分析対象NGSデータが特定の遺伝型に対応する第1確率は、該当の遺伝型に対応する塩基序列を基準ゲノムにして分析対象NGSデータをマッピングした結果に基づいて取得された確率であって、各遺伝型に対する第1確率を取得するステップ430は、分析対象遺伝子に関する複数の遺伝型それぞれに対して、第1確率を取得するステップである。例えば、分析対象遺伝子に関する遺伝型が、A型、B型、C型を含む場合、遺伝型ごとにマッピング結果に基づいて、分析対象NGSデータがA型に対応する第1確率、B型に対応する第1確率、C型に対応する第1確率を取得することができる。
【0048】
一実施形態によると、特定の遺伝型に対応する第1確率は、分析対象NGSデータから該当の遺伝型に対応する塩基序列にマッピングされた塩基序列の長さを取得し、該当の遺伝型に対応する塩基序列の全長とマッピングされた塩基序列の長さを比較することで取得されてもよい。ここで、マッピングされた塩基序列の長さは、基準ゲノムにマッピングされた塩基の個数を意味する。また、マッピングされた塩基序列の長さは、基準ゲノムにマッピングされた分析対象NGSデータ内の序列フラグメントの個数を含むことができる。
【0049】
一実施形態によると、分析対象NGSデータは、母系に基づいたDNA塩基序列及び父系に基づいたDNA塩基序列それぞれに対して遺伝型を分析するために加工され得る。
【0050】
図5は、一実施形態に係るSNP基盤の予測技術を適用して第2確率を取得する方法を説明するための図である。
【0051】
図5を参照すると、一実施形態に係るSNP予測技術を適用して第2確率を取得する方法は、分析対象NGSデータから分析対象SNPデータ501を抽出するステップ、参照データ502にマーカー503を挿入することで参照データを更新するステップ510、及び分析対象SNPデータ及び参照データに基づいて、分析対象SNPデータが各遺伝型に対応する第2確率を取得するステップ520を含む。一実施形態に係る分析対象SNPデータが各遺伝型に対応する第2確率を取得するステップ520は、分析対象SNPデータ及び参照データを推定モデル505に入力することで、分析対象SNPデータが各遺伝型に対応する第2確率を取得するステップを含む。
【0052】
SNP(single nucleotide polymorphism)は、DNA塩基序列のうち生物個体ごとに差のある単一塩基の位置を意味する。SNPにおける塩基序列の差により、同種に属する異なる生物個体は、異なる遺伝形質を有する。例えば、図6を参照すると、3種類のDNA塩基序列は、同種に属している個体610、620、630のDNA塩基序列のうち、同じ位置に該当する一部の塩基序列に該当する。図2に示す個体の塩基序列でCGTAおよびTCCGAは共通して示される一方、5番目に位置している塩基は、(A)601、(G)602、(T)603と個体ごとに異なる。すなわち、図2において5番目の塩基の位置をSNPという。DNA塩基序列の一部の単一塩基の差により個体の形質が異なり得る。
【0053】
再び図5を参照すると、一実施形態に係るSNPデータは、特定の生物個体の特定の遺伝子座(gene locus)の少なくとも一部のDNA塩基序列、及び少なくとも一部のDNA塩基序列に含まれている少なくとも一部のSNPの情報を含むことができる。一実施形態に係るSNPデータに含まれている一部のDNA塩基序列は、同じ種に属する異なる個体のDNA塩基序列と差が示される単一塩基を含む。一実施形態に係るSNPデータに含まれているSNPの情報は、SNPデータに含まれているDNA塩基序列のうち同じ種に属する異なる個体のDNA塩基序列と差が示される単一塩基の位置情報を含んでもよい。
【0054】
一実施形態に係るSNPデータに含まれたDNA塩基序列は、母系に基づいたDNA塩基序列及び父系に基づいたDNA塩基序列を含む。以下、母系に基づいたDNA塩基序列及び父系に基づいたDNA塩基序列は、DNA塩基序列の対に称し、DNA塩基序列が父系に基づいたDNA塩基序列及び母系に基づいたDNA塩基序列のいずれか1つのみを示すものと限定しない限り、DNA塩基序列は、母系に基づいたDNA塩基序列及び父系に基づいたDNA塩基序列を意味する。
【0055】
一実施形態に係る分析対象SNPデータ501は、分析対象ユーザの特定遺伝子に関するNGSデータから変移検出(variant calling)など、塩基序列データからSNPなどの変移を検出する方法により抽出されたSNPデータである。一実施形態に係る分析対象SNPデータ501は、分析対象ユーザのDNA塩基序列のうち、特定遺伝子の少なくとも一部のDNA塩基序列、及び少なくとも一部のDNA塩基序列に含まれている少なくとも一部のSNPの情報を含んでもよい。一実施形態に係る分析対象データに含まれているDNA塩基序列は、上述したように母系に基づいたDNA塩基序列及び父系に基づいたDNA塩基序列を含む。
【0056】
一実施形態によると、分析対象SNPデータは、分析対象遺伝子の遺伝子間領域(intergenic region)から検出されたSNPデータを含むことができる。遺伝子間領域は、DNA塩基序列で発現されない塩基序列を意味するもので、図7を参照すると、染色体の特定の遺伝子座の塩基序列内で遺伝子(gene)領域以外の領域が遺伝子間領域である。例えば、分析対象遺伝子がHLA遺伝子である場合、分析対象SNPデータ501は、HLA遺伝子に関するNGSデータで変移検出方法により遺伝子間領域から抽出されたSNPデータである。この場合、分析対象SNPデータ501は、ヒトの6番目の染色体の特定位置に存在するHLA遺伝子から抽出された、ヒトごとに異なる種類の塩基が示される単一塩基を含むDNA塩基序列の対を含んでもよく、ヒトごとに異なる種類の塩基が示される単一塩基の位置情報を含んでもよい。
【0057】
一実施形態に係る分析対象NGSデータから分析対象SNPデータを抽出するステップは、母系に基づいたDNA塩基序列及び父系に基づいたDNA塩基序列それぞれに対して遺伝型を分析するために、分析対象SNPデータをページングして2つの半数体(haploid)データに分離するステップ、及び2つの半数体データをそれぞれ複製して、半数体データと該当の半数体の複製データが1つの対をなしている2つの2倍体(diploid)データを取得するステップを含む。一実施形態に係るページングは、DNA塩基序列の対を母系に基づいたDNA塩基序列及び父系に基づいたDNA塩基序列に分離する動作を意味する。一実施形態に係る半数体データは、父系に基づいたDNA塩基序列及び母系に基づいたDNA塩基序列のいずれか1つのDNA塩基序列のみを含んでいるSNPデータを意味する。一実施形態に係る2倍体データは、半数体データに含まれているDNA塩基序列をコピーして作った、同一のDNA塩基序列の対を含むSNPデータを意味する。
【0058】
例えば、分析対象SNPデータに父系に基づいたDNA塩基序列a、及び母系に基づいたDNA塩基配列bが含まれている場合、分析対象SNPデータをページングして2つに分離した半数体データは、父系に基づいたDNA塩基序列aのみを含むSNPデータ、及び母系に基づいたDNA塩基序列bのみを含むSNPデータを意味する。同じ例として、半数体データと該当半数体の複製データが1つの対をなす2つの2倍体データは、父系に基づいたDNA塩基序列a2個で構成されたDNA塩基序列の対を含むSNPデータ、及び母系に基づいたDNA塩基序列b2個で構成されたDNA塩基序列の対を含むSNPデータを意味する。
【0059】
再び図5を参照すると、一実施形態に係る参照データ502は、分析対象遺伝子に関する複数の遺伝型のいずれか1つであって、遺伝型が決定されたSNPデータを含む。例えば、分析対象SNPデータがHLA遺伝子から抽出された場合、参照データ502に含まれているSNPデータは、HLA遺伝子の少なくとも一部のDNA塩基序列及び少なくとも一部のDNA塩基序列に含まれている少なくとも一部のSNPの情報含んでもよく、少なくとも一部のDNA塩基序列は、他の個体の塩基序列と差が示される単一の塩基を含む。一実施形態によると、参照データ502に含まれているSNPデータは、遺伝子間領域から抽出されたSNPデータを含み得る。
【0060】
一実施形態に係る遺伝型が決定されたSNPデータは、分析対象SNPデータの抽出された遺伝子に定義された複数の遺伝型のいずれか1つに該当するSNPデータを少なくとも1つ含んでもよい。言い換えれば、一実施形態に係る遺伝型が決定されたSNPデータは、分析対象遺伝子に定義された複数の遺伝型のいずれか1つに該当する遺伝型の対に対応する。実施形態に係る参照データ502に含まれているSNPデータは、2つのDNA塩基配列から構成されたDNA塩基配列の対を含んでいるが、それぞれのDNA塩基序列は、分析対象遺伝子に定義された複数の遺伝型のいずれか1つの遺伝型に該当する。即ち、参照データ502に含まれているSNPデータに対応する遺伝型の対は、SNPデータに含まれたDNA塩基序列対を構成しているDNA塩基序列それぞれに該当する遺伝型の対に該当する。
【0061】
例えば、分析対象SNPデータが抽出された遺伝子にA型、B型、C型の遺伝型が定義された場合、参照データ502に含まれている第1SNPデータは、A型該当するDNA塩基序列及びB型該当するDNA塩基序列の対を含んでもよく、参照データ502に含まれている第2SNPデータは、A型該当するDNA塩基序列及びC型該当するDNA塩基序列の対を含んでもよい。この場合、参照データ502に含まれている第1SNPデータに対応する遺伝型の対は(A型、B型)に該当し、参照データ502に含まれている第2SNPデータに対応する遺伝型の対は(A型、C型)に該当する。
【0062】
一実施形態に係る参照データ502を更新するステップ510は、参照データ502に含まれている各SNPデータに対応し、該当するSNPデータに含まれている予め決定された複数の領域それぞれに該当するSNPデータの遺伝型の対に対応するマーカー503を挿入して参照データ502を更新するステップである。一実施形態に係る参照データ502を更新するステップ510は、マーカー503を挿入する前に、複数のSNPデータの遺伝型に対応するマーカー503を決定するステップをさらに含むことができる。
【0063】
一実施形態に係るマーカー503は、分析対象遺伝子の予め定義された複数の遺伝型それぞれに対応して定義されたマーカーを含む。例えば、一実施形態に係るマーカー503は、分析対象遺伝子に予め定義された複数の遺伝型がそれぞれA型、B型、C型である場合、A型に対応して定義された第1マーカー、B型に対応して定義された第2マーカー、C型に対応して定義された第3マーカーを含んでもよい。
【0064】
一実施形態に係るマーカー503は、マーカーに対応する遺伝型に該当するDNA塩基序列が、SNPデータに存在するか否かを指示する2進マーカーを含む。実施形態に係る2進マーカーは、SNPデータに含まれているDNA塩基序列が、2進マーカーに対応する遺伝型に該当する場合は1、該当しない場合は0に表現されてもよい。例えば、第1SNPデータが遺伝型の対(A型、B型)に該当する場合、A型に対応して定義された第1マーカーは(1,0)に表現され、B型に対応する第2マーカーは(0,1)に表現され、C型に対応して定義された第3マーカーは(0,0)に表現されてもよい。
【0065】
一実施形態によると、マーカー503は、SNPデータに含まれている1つの塩基配列に対応して、分析対象遺伝子の遺伝型に対応する2進マーカー(例えば、第1の2進マーカー、第2の2進マーカー、及び第3の2進マーカー)のタプル(tuple)に表現されてもよい。例えば、SNPデータに含まれている1つの塩基序列がA型の遺伝型である場合、該当塩基序列のマーカー503は1,0,0に表現され、他の1つの塩基序列がB型の遺伝型である場合、該当塩基序列のマーカー503は(0、1.0)に表現されてもよい。
【0066】
一実施形態に係る参照データ502を更新するステップ510において、SNPデータに含まれている予め決定された複数の領域は、SNPデータに含まれたDNA塩基序列において、予め決定された位置及び範囲に該当する複数の領域を意味する。一実施形態によると、複数の領域は複数のエクソン(exon)領域を含む。エクソンは、遺伝子のDNA塩基序列のうちタンパク質として合成される領域を意味するもので、1つの遺伝子のDNA塩基序列には複数のエクソンが存在し得る。
【0067】
例えば、図7を参照するとき、分析対象遺伝子は、染色体700の特定位置710に存在するDNA塩基序列である。分析対象遺伝子は、複数のタンパク質を合成するために関与することができ、合成するタンパク質により複数の区域に区分され得る。分析対象遺伝子のDNA塩基序列のうち、特定のタンパク質を合成する1つの遺伝子領域720に該当するDNA塩基序列は、特定タンパク質の合成に関与する複数のエクソン721,722を含む。
【0068】
再び図5を参照すると、一実施形態に係る参照データ502を更新するステップ510において、SNPデータに含まれている予め決定された複数の領域にSNPデータの遺伝型の対に対応するマーカー503を挿入することは、予め決定された複数の領域をマーカー503でエンコーディングすることを意味する。例えば、分析対象遺伝子の遺伝型がA型、B型、及びC型に定義された場合、参照データ502に含まれている第1SNPデータが(A型、B型)の遺伝型の対に対応する場合、第1SNPデータに含まれているDNA塩基序列のうち、予め決定された複数の領域に含まれた各DNA塩基序列をA型に対応する2進マーカー(1,0)、及びB型に対応する2進マーカー(0,1)、及びC型に対応する2進マーカー(0,0)にエンコーディングしてもよい。
【0069】
一実施形態によると、ステップ510の複数の領域が複数のエクソンに該当する場合、それぞれのエクソンに含まれているDNA塩基序列にSNPデータの遺伝型の対に対応するマーカー503を挿入してもよい。例えば、図7を参照すると、参照データに含まれているSNPデータが、図3に示すDNA塩基序列を含んでいる場合、DNA塩基序列のエクソン(1)721、エクソン(2)722領域に含まれたDNA塩基序列それぞれをSNPデータの遺伝型の対に対応するマーカーでエンコーディングすることができる。
【0070】
再び図5を参照すると、一実施形態に係るステップ510によって更新された参照データに含まれているSNPデータそれぞれは、該当する遺伝型のDNA塩基序列、遺伝子のDNA塩基序列に含まれているSNPの情報、及びDNA塩基序列内の複数の領域の位置に挿入されたマーカーを含んでもよい。一実施形態に係るDNA塩基序列内の複数の領域の位置に挿入されたマーカーは、DNA塩基序列内の複数の領域をエンコーディングしたマーカーの情報である。
【0071】
一実施形態によれば、参照データ502に含まれているSNPデータのDNA塩基序列の対は、互いに分離して用いられてもよい。言い換えれば、一実施形態に係る参照データ502を更新するステップ510において、SNPデータに含まれている予め決定された複数の領域にSNPデータの遺伝型の対に対応するマーカー503を挿入することは、SNPデータに含まれているDNA塩基序列それぞれに対して、予め決定された複数の領域内の予め決定された位置にDNA塩基序列の遺伝型に対応するマーカー503を挿入することを意味する。例えば、参照データに含まれている1つのDNA塩基序列内に存在する各エクソン領域の中間に該当するDNA塩基序列の遺伝型を指示するマーカーを挿入してもよい。実施形態に係るDNA塩基序列の遺伝型を指示するマーカーは、複数の遺伝型に対応する2進マーカーがタプル(tuple)をなしている形態である。
【0072】
例えば、第1SNPデータは、A型の第1DNA塩基序列及びB型の第2DNA塩基序列を含んでもよい。この場合、第1DNA塩基序列に含まれているエクソン内の予め決定された位置(例えば、エクソンの中心位置など)にA型を指示する2進マーカーが挿入され、第2DNA塩基序列に含まれているエクソン内の予め決定された位置(例えば、エクソンの中心位置など)にB型を指示する2進マーカーが挿入されてもよい。ここで、特定の遺伝型を指示する2進マーカーは、分析対象遺伝子の遺伝型にそれぞれ対応する2進マーカーで構成されたタプルを含む。例えば、分析対象遺伝子の遺伝型のA型、B型、及びC型が存在するとき、A型を指示する2進マーカーは(1,0,0)、B型を指示する2進マーカーは(0,1,0)、C型を指示する2進マーカーは(0,0,1)に該当する。
【0073】
一実施形態によると、参照データ502を更新するステップ510は、SNPデータに含まれている予め決定された複数の領域のうち、1つの領域にSNPデータの遺伝型の対に対応するマーカー503を挿入するステップを含む。例えば、参照データ502に含まれているSNPデータの予め決定された複数の領域がエクソン1及びエクソン2である場合、ステップ510において、更新された参照データは、エクソン1領域にのみマーカー503を挿入したSNPデータ及びエクソン2領域にのみマーカー503を挿入したSNPデータを含むことができる。
【0074】
一実施形態に係る各遺伝型に対応する第2確率を取得するステップ520は、分析対象SNPデータ及び更新された参照データに基づいて、分析対象SNPデータが分析対象遺伝子に関する複数の遺伝型それぞれに対応する第2確率を取得するステップである。言い換えれば、分析対象SNPデータが特定の遺伝型に対応する第2確率は、分析対象SNPデータ及び更新された参照データに基づいて取得された該当遺伝型に対応する確率であって、ステップ520は、分析対象遺伝子に関する複数の遺伝型それぞれに対して、第2確率を取得するステップである。
【0075】
一実施形態によると、各遺伝型に対応する第2確率を取得するステップ520は、分析対象SNPデータ及び参照データを推定モデル505に入力することによって、分析対象SNPデータが各遺伝型に対応する第2確率を取得するステップを含む。一実施形態に係る推定モデル505は、分析対象SNPデータ501及び参照データが入力され、分析対象SNPデータ501が分析対象遺伝子に予め定義された複数の遺伝型に対応する確率を領域ごとに算出した結果を出力する隠れマルコフ基盤モデルである。より具体的に、一実施形態に係るステップ520は、分析対象SNPデータ501と更新された参照データを推定モデル505に入力することで、分析対象SNPデータが参照データに含まれている複数のSNPデータの遺伝型に対応する確率を領域ごとに算出するステップと、領域ごとの確率に基づいて、分析対象SNPデータが複数の遺伝型それぞれに対応する第2確率を取得するステップとを含む。
【0076】
一実施形態によると、第2確率を取得するために、推定モデルに遺伝的距離(genetic distance)504を入力値として与えてもよい。一実施形態に係る遺伝的距離は、分析対象遺伝子の予め定義された複数の遺伝型それぞれに対応して定義されたマーカー間の遺伝的距離を含む。この場合、マーカー間の遺伝的距離は、各マーカーに対応する遺伝型に決定されたDNA塩基序列間の遺伝的距離を含み得る。
【0077】
一実施形態に係る遺伝的距離を測定する方法は、分析対象SNPデータ及び複数のSNPデータをサンプリングするステップと、サンプリングされたデータに基づいて、隠れマルコフモデルで複数の遺伝型に対応する状態間の転移確率を算出するステップと、状態間の転移確率を変換して、状態間の遺伝的距離を取得するステップとを含む。
【0078】
実施形態に係る転移確率を測定するアルゴリズムは、バウム=ウェルチアルゴリズムを含む。一実施形態に係る状態間の転移確率を変換し、状態間の遺伝的距離を取得するステップは、次の数式を用いて状態間の転移確率を状態間の遺伝的距離に変換するステップである。
【数1】
【0079】
前記数式(1)において、τは転移確率を算出するステップで算出された状態間の転移確率、rは遺伝的距離、Nは分析対象に該当する人種の有効人口数(各人種ごとに有効人口数が知られている。例えば、西洋人の場合、有効人口数は10、000と設定されている)、Hは、隠れマルコフモデル状態の個数である。実施形態に係るサンプリングされた参照データに含まれている各SNPデータは、1つの生物個体から抽出されたSNPデータに該当するため、Hは、ンプリングされた参照データに含まれているSNPデータが抽出された生物個体の数に該当する。
【0080】
一実施形態によると、遺伝的距離を考慮して分析対象SNPデータの各遺伝型に対応する第2確率を取得することで、遺伝型予測の正確度を高めることができる。
【0081】
実施形態に係る推定モデル505は、BEAGLEモデル又は人工神経網モデルを含む。以下は、推定モデル505をBEAGLEモデルとして例を挙げて説明するが、これらに限定されない。
【0082】
例えば、図8を参照すると、実施形態に係る図5に示す推定モデル505は、隠れマルコフモデルに基づいてSNPデータから遺伝型を予測するモデルを含む。この場合、推定モデル505は、分析対象遺伝子に含まれている複数の遺伝型に対応する隠れ状態(hidden state)X1、X2、SNPデータに対応する観測データ(observable outcome)Y1、Y2、Y3、隠れ状態間の転移確率a11、a12、a21、a22、及びそれぞれの隠れ状態及び観測データ間の放出確率b11、b12、b13、b21、b22、b23を含む。
【0083】
実施形態によると、参照データに含まれている各SNPデータに対応して、該当のNPデータに含まれた複数のエクソン領域exon1、exon2、exon3それぞれにマーカーを挿入して参照データを更新してもよい。この場合、一実施形態に係る推定モデルは、複数の領域exon1、exon2、exon3それぞれに対して、遺伝型X1、X2に対応する確率を算出することができる。一実施形態に係る図5に示すステップ520において、各遺伝型に対応する確率を複数の領域それぞれに対して算出した確率の平均として示す。
【0084】
一実施形態によると、第2確率を取得するために、更新された参照データに含まれた複数のSNPデータに基づいて、分析対象SNPデータを分析するための塩基序列の長さを指示する複数のパラメータを設定するステップと、分析対象SNPデータ、更新された参照データ、及びパラメータを予測モデルに入力することで、分析対象SNPデータが複数のSNPデータの遺伝型に対応する確率を領域とパラメータの組み合せごとに算出するステップと、組み合せごとの確率に基づいて、分析対象SNPデータの各遺伝型に対応する第2確率を取得するステップとを含む。
【0085】
例えば、図8を参照すると、分析対象SNPデータを分析するための塩基序列の長さを指示する複数のパラメータを3000及び5000に設定してもよい。この場合、一実施形態に係る推定モデルは、複数の領域exon1、exon2、exon3及びパラメータ3000,5000の組み合せそれぞれに対して、遺伝型X1、X2に対応する確率を算出することができる。例えば、図8を参照すると、複数の領域exon1、exon2、exon3及びパラメータ3000,5000の組み合せそれぞれに対して、遺伝型X1に対応する確率は、exon1領域及びパラメータを3000に設定して算出された確率10%、exon1領域及びパラメータを5000に設定して算出された確率20%などを含む。図8を参照するとき、X1に対応する確率は、複数の領域exon1、exon2、exon3、及びパラメータ3000,5000の組み合せそれぞれに対して算出された確率の平均である35%に示し、X2に対応する確率は複数の領域exon1、exon2、exon3、及びパラメータ3000,5000の組み合せそれぞれに対して算出された確率の平均である65%に示すことができる。
【0086】
説明の便宜のために、図8において、一般的な循環構造のHMMを例にして説明したが、一実施形態に係るHMMは、図9に示す構造を有してもよい。図9を参照すると、ゲノム位置(genomic position)によって状態が左側から右側に転移してもよい。
【0087】
一実施形態に係る遺伝型予測方法は、分析対象NGSデータの遺伝子領域の塩基序列を遺伝型が決定された基準ゲノムにマッピングし、遺伝型を予測するNGS基盤方式及び分析対象NGSデータで遺伝子間領域のSNPデータを抽出し、参照データに基づいて推定モデルにより遺伝型を予測するSNP基盤方式を使用することができる。ここで、一実施形態に係る分析対象NGSデータは、遺伝子領域及び遺伝子間領域の塩基序列を全てシーケンシングする全ゲノムシーケンシング(Whole genome sequencing)によるNGSデータを含み得る。しかし、全ゲノムシーケンシング以外のエクソムシーケンシング(exome sequencing)や標的シーケンシング(targeted sequencing)などによるNGSデータの場合にも、遺伝子領域付近のSNPが算入されることがあり、遺伝子領域内で抽出されたSNPデータも一実施形態に係るSNP基盤遺伝型予測の技術に使用され得るため、一実施形態に係るNGSデータは、必ず全ゲノムシーケンシングによるNGSデータに限定されるものではなく、エクソムシーケンシング又は標的シーケンシングなどによるNGSデータを含むことができる。
【0088】
実施形態に係る方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気-光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。上記で説明したハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
【0089】
ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。
【0090】
上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
【0091】
したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
【国際調査報告】