IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人東北大学の特許一覧

特許7663969ウイルス変異予測装置、ウイルス変異予測方法、およびプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-04-09
(45)【発行日】2025-04-17
(54)【発明の名称】ウイルス変異予測装置、ウイルス変異予測方法、およびプログラム
(51)【国際特許分類】
   G16B 40/20 20190101AFI20250410BHJP
   G16B 20/50 20190101ALI20250410BHJP
   G16B 30/00 20190101ALI20250410BHJP
   C12Q 1/6827 20180101ALN20250410BHJP
   C12N 15/50 20060101ALN20250410BHJP
【FI】
G16B40/20
G16B20/50
G16B30/00
C12Q1/6827
C12N15/50
【請求項の数】 10
(21)【出願番号】P 2022538042
(86)(22)【出願日】2021-07-21
(86)【国際出願番号】 JP2021027331
(87)【国際公開番号】W WO2022019331
(87)【国際公開日】2022-01-27
【審査請求日】2024-04-09
(31)【優先権主張番号】P 2020125563
(32)【優先日】2020-07-22
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】504157024
【氏名又は名称】国立大学法人東北大学
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100188558
【弁理士】
【氏名又は名称】飯田 雅人
(74)【代理人】
【識別番号】100175824
【弁理士】
【氏名又は名称】小林 淳一
(74)【代理人】
【識別番号】100152272
【弁理士】
【氏名又は名称】川越 雄一郎
(74)【代理人】
【識別番号】100181722
【弁理士】
【氏名又は名称】春田 洋孝
(72)【発明者】
【氏名】小笠原 康悦
【審査官】関 博文
(56)【参考文献】
【文献】国際公開第2019/095017(WO,A1)
【文献】WRIGHT, Erik S. ,SARS-CoV-2 genome evolution exposes early human adaptations,bioRxiv,[online],[2021年10月18日検索],2020年05月26日,インターネット<URL:https://www.biorxiv.org/content/10.1101/2020.05.26.117069v1.full.pdf>,<DOI:10.1101/2020.05.26.117069>
【文献】MATYASEK, Roman ,Mutation Patterns of Human SARS-CoV-2 and Bat RaTG13 Coronavirus Genomes Are Strongly Biased Towards,genes, 11(7),[online],[2021年10月18日検索],2020年07月07日,インターネット<URL:https://www.mdpi.com/2073-4425/11/7/761>,<DOI:10.3390/genes110700761>
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
C12Q 1/6827
C12N 15/50
(57)【特許請求の範囲】
【請求項1】
ウイルスのゲノムの遺伝子配列データを取得する取得部と、
取得した前記ゲノムの遺伝子配列データからC(シトシン)またはG(グアニン)を抽出し、CまたはGからU(ウラシル)への変異が起こるまたは起こったコンテキストを抽出する抽出部と、
CまたはGからUに変わった時、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離する分離部と、
前記同義置換の配列データを学習データに用いて学習する学習部と、
学習された結果を用いて、前記ウイルスにおける将来変異が入りうる場所および置き換わる塩基を予測する予測部と、
を備えるウイルス変異予測装置。
【請求項2】
ウイルスのゲノムの遺伝子配列データを取得する取得部と、
取得した前記ゲノムの遺伝子配列データからC(シトシン)、G(グアニン)、A(アデニン)、U(ウラシル)またはT(チミン)を抽出し、GからA、AからG、UからC、TからCへの変異が起こるまたは起こったコンテキストを抽出する抽出部と、
抽出されたコンテキストの塩基配列が変化した場合、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離する分離部と、
前記同義置換の配列データを学習データに用いて学習する学習部と、
学習された結果を用いて、前記ウイルスにおける将来変異が入りうる場所および置き換わる塩基を予測する予測部と、
を備えるウイルス変異予測装置。
【請求項3】
前記同義置換から所定数を選ぶサンプリング部、を更に備え、
前記学習部は、前記サンプリング部によって選ばれた前記同義置換の配列データを学習データに用いる、
請求項1または請求項2に記載のウイルス変異予測装置。
【請求項4】
RNA塩基A(アデニン)、U、G、Cの4種類のうち、2塩基が選ばれて特徴づけられた量である特徴量であって、学習の際に用いられる前記特徴量を追加する特徴量追加選択部、を更に備え、
前記学習部は、前記特徴量も学習データに用いる、
請求項1から請求項3のうちのいずれか1項に記載のウイルス変異予測装置。
【請求項5】
前記コンテキストの範囲は、-3から+3以上、-10から+10以下である、
請求項1から請求項4のいずれか1項に記載のウイルス変異予測装置。
【請求項6】
前記ウイルスは、SARS-CoV-2である、
請求項1から請求項5のいずれか1項に記載のウイルス変異予測装置。
【請求項7】
取得部が、ウイルスのゲノムの遺伝子配列データを取得し、
抽出部が、取得された前記ゲノムの遺伝子配列データからC(シトシン)またはG(グアニン)を抽出し、CまたはGからU(ウラシル)への変異が起こるまたは起こったコンテキストを抽出し、
分離部が、CまたはGからUに変わった時、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離し、
学習部が、前記同義置換の配列データを学習データに用いて学習し、
予測部が、学習された結果を用いて、前記ウイルスにおける将来変異が入りうる場所および置き換わる塩基を予測する、
ウイルス変異予測方法。
【請求項8】
取得部が、ウイルスのゲノムの遺伝子配列データを取得し、
抽出部が、取得した前記ゲノムの遺伝子配列データからC(シトシン)、G(グアニン)、A(アデニン)、U(ウラシル)またはT(チミン)を抽出し、GからA、AからG、UからC、TからCへの変異が起こるまたは起こったコンテキストを抽出し、
分離部が、抽出されたコンテキストの塩基配列が変化した場合、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離し、
学習部が、前記同義置換の配列データを学習データに用いて学習し、
予測部が、学習された結果を用いて、前記ウイルスにおける将来変異が入りうる場所および置き換わる塩基を予測する、
ウイルス変異予測方法。
【請求項9】
コンピュータに、
ウイルスのゲノムの遺伝子配列データを取得させ、
取得された前記ゲノムの遺伝子配列データからC(シトシン)またはG(グアニン)を抽出させ、CまたはGからU(ウラシル)への変異が起こるまたは起こったコンテキストを抽出させ、
分離部が、CまたはGからUに変わった時、アミノ酸変異があるかを確認させ、前記アミノ酸変異がある配列を非同義置換として分離させ、アミノ酸変異がない配列を同義置換であるとして分離させ、
前記同義置換の配列データを学習データに用いて学習させ、
学習された結果を用いて、前記ウイルスにおける将来変異が入りうる場所および置き換わる塩基を予測させる、
プログラム。
【請求項10】
コンピュータに、
ウイルスのゲノムの遺伝子配列データを取得させ、
取得された前記ゲノムの遺伝子配列データからC(シトシン)、G(グアニン)、A(アデニン)、U(ウラシル)またはT(チミン)を抽出させ、GからA、AからG、UからC、TからCへの変異が起こるまたは起こったコンテキストを抽出させ、
抽出されたコンテキストの塩基配列が変化した場合、アミノ酸変異があるかを確認させ、前記アミノ酸変異がある配列を非同義置換として分離させ、前記アミノ酸変異がない配列を同義置換であるとして分離させ、
前記同義置換の配列データを学習データに用いて学習させ、
学習された結果を用いて、前記ウイルスにおける将来変異が入りうる場所および置き換わる塩基を予測させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ウイルス変異予測装置、ウイルス変異予測方法、およびプログラムに関する。
本願は、2020年 7月22日に、日本に出願された特願2020-125563号に基づき優先権を主張し、その内容をここに援用する。
【背景技術】
【0002】
ウイルスは、自己増殖できないことが特徴であり、他細胞を利用して増殖することができる。すなわち、ウイルスは、宿主のポリメラーゼなどの種々の酵素を利用して増殖に役立てている。ウイルスには、DNAウイルスとRNAウイルスが存在することが知られている。DNAウイルスは、ウイルスゲノムDNAを、宿主のRNAポリメラーゼを利用し、メッセンジャーRNAを合成して、タンパク質を合成してウイルスは増殖する。DNAウイルスには、増殖の過程で生じたDNA複製のミスを修正する機構が備わっているので、RNAウイルスと比較すると遺伝子の変異が少ないことが知られている。
【0003】
RNAウイルスは、インフルエンザに代表されるように感染が伝播するにしたがって多くの変異が入りウイルスが変化していくことが知られている。つまり、RNAウイルスは、DNAウイルスに比べ遺伝子変異が多い。例えば、新型コロナウイルス(SARS-CoV-2)やSARS等のコロナウイルスもRNAウイルスであり、変異が観察されている。しかし、コロナウイルスは、RNA校正酵素をウイルスゲノム内に有しているため、大規模な遺伝子の欠失や数塩基にわたる塩基置換、変異は起こりにくい。そのため、コロナウイルスでは、点変異が多いことが知られている。なお、点変異とは、塩基の欠失、置換、挿入による変化である。
【0004】
RNAウイルスの点変異には、宿主のRNA編集酵素が関与していることが知られている。新型コロナウイルスの変異においては、RNA編集酵素、ADARsやAPOBECsなどにより点変異が引き起こされていることを示している。RNAウイルスの点変異では、特にADARsの関与を示唆する結果が提示されている。加えて、RNAウイルスの点変異では、RNA編集酵素による変異部分を0としたときの周囲の塩基配列の部分について5’側2塩基を-2と表記、3’側2塩基を+2と表記すると、-2から+2の塩基配列に特徴があることを示している(例えば、非特許文献1参照)。
【0005】
現在、ウイルスの変異予測については、インフルエンザウイルスについて予測が始まっており、ヘマグルチニン(HA)の構造を指標に変異予測がなされている。しかし、新型コロナウイルスなどRNA校正酵素をもつウイルスの変異の予測は、まだ行われていない。
【先行技術文献】
【非特許文献】
【0006】
【文献】Di Giorgio, S.,et al. Evidence for host-dependent RNA editing in the transcriptome of SARS-CoV-2. Science Advances: eabb5813, 2020.
【発明の概要】
【発明が解決しようとする課題】
【0007】
新型コロナウイルスなどのRNAウイルスは変異を起こす。ウイルス変異が起こった場合は、ウイルス変異前に作成された診断に用いられる抗体検査や抗原検査が無効になる、および治療薬が無効になる。ウイルス変異は、ゲノム上の変異の位置や置換された塩基について、変異が起こってからしかわからないという問題がある。抗体検査や抗原検査キットを作成するためには、変異が起こったのち変異部位を特定してから、新たに抗体検査や抗原検査に利用するタンパク質を作成する必要があった。そのため、新たな変異に対応する診断薬や治療薬をつくるためには、多くの時間を要している。
【0008】
本発明は、上記の問題点に鑑みてなされたものであって、ウイルス変異を、変異が起こる前に事前に予測することができるウイルス変異予測装置、ウイルス変異予測方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明は以下の態様を含む。
[1]ウイルスのゲノムの遺伝子配列データを取得する取得部と、取得した前記ゲノムの遺伝子配列データからC(シトシン)またはG(グアニン)を抽出し、CまたはGからU(ウラシル)への変異が起こるまたは起こったコンテキストを抽出する抽出部と、CまたはGからUに変わった時、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離する分離部と、前記同義置換の配列データを学習データに用いて学習する学習部と、学習された結果を用いて、前記ウイルスの変異を予測する予測部と、を備えるウイルス変異予測装置。
[2]ウイルスのゲノムの遺伝子配列データを取得する取得部と、取得した前記ゲノムの遺伝子配列データからC(シトシン)、G(グアニン)、A(アデニン)、U(ウラシル)またはT(チミン)を抽出し、GからA、AからG、UからC、TからCへの変異が起こるまたは起こったコンテキストを抽出する抽出部と、抽出されたコンテキストの塩基配列が変化した場合、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離する分離部と、前記同義置換の配列データを学習データに用いて学習する学習部と、学習された結果を用いて、前記ウイルスの変異を予測する予測部と、を備えるウイルス変異予測装置。
[3]前記ウイルス変異予測装置は、前記同義置換から所定数を選ぶサンプリング部、を更に備え、前記学習部は、前記サンプリング部によって選ばれた前記同義置換の配列データを学習データに用いる。
[4]前記ウイルス変異予測装置は、RNA塩基A(アデニン)、U、G、Cの4種類のうち、2塩基が選ばれて特徴づけられた量である特徴量であって、学習の際に用いられる前記特徴量を追加する特徴量追加選択部、を更に備え、前記学習部は、前記特徴量も学習データに用いる。
[5]前記ウイルス変異予測装置において、前記コンテキストの範囲は、-3から+3以上、-10から+10以下である。
[6]前記ウイルス変異予測装置において、前記ウイルスは、SARS-CoV-2である。
[7]取得部が、ウイルスのゲノムの遺伝子配列データを取得し、抽出部が、取得された前記ゲノムの遺伝子配列データからC(シトシン)またはG(グアニン)を抽出し、CまたはGからU(ウラシル)への変異が起こるまたは起こったコンテキストを抽出し、分離部が、CまたはGからUに変わった時、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離し、学習部が、前記同義置換の配列データを学習データに用いて学習し、予測部が、学習された結果を用いて、前記ウイルスの変異を予測する、ウイルス変異予測方法。
[8]取得部が、ウイルスのゲノムの遺伝子配列データを取得し、抽出部が、取得した前記ゲノムの遺伝子配列データからC(シトシン)、G(グアニン)、A(アデニン)、U(ウラシル)またはT(チミン)を抽出し、GからA、AからG、UからC、TからCへの変異が起こるまたは起こったコンテキストを抽出し、分離部が、抽出されたコンテキストの塩基配列が変化した場合、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離し、学習部が、前記同義置換の配列データを学習データに用いて学習し、予測部が、学習された結果を用いて、前記ウイルスの変異を予測する、ウイルス変異予測方法。
[9]コンピュータに、ウイルスのゲノムの遺伝子配列データを取得させ、取得された前記ゲノムの遺伝子配列データからC(シトシン)またはG(グアニン)を抽出させ、CまたはGからU(ウラシル)への変異が起こるまたは起こったコンテキストを抽出し、分離部が、CまたはGからUに変わった時、アミノ酸変異があるかを確認させ、前記アミノ酸変異がある配列を非同義置換として分離させ、アミノ酸変異がない配列を同義置換であるとして分離させ、前記同義置換の配列データを学習データに用いて学習させ、学習された結果を用いて、前記ウイルスの変異を予測させる、プログラム。
[10]コンピュータに、ウイルスのゲノムの遺伝子配列データを取得させ、
取得された前記ゲノムの遺伝子配列データからC(シトシン)、G(グアニン)、A(アデニン)、U(ウラシル)またはT(チミン)を抽出し、GからA、AからG、UからC、TからCへの変異が起こるまたは起こったコンテキストを抽出させ、抽出されたコンテキストの塩基配列が変化した場合、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離させ、前記アミノ酸変異がない配列を同義置換であるとして分離させ、前記同義置換の配列データを学習データに用いて学習させ、学習された結果を用いて、前記ウイルスの変異を予測させる、プログラム。
【発明の効果】
【0010】
本発明によれば、ウイルス変異を、変異が起こる前に事前に予測することができる。
【図面の簡単な説明】
【0011】
図1】実施形態に係るウイルス変異予測装置の構成の一例を示す図である。
図2】SARS-CoV-2ゲノムにおける点突然変異の分布を示す図である。
図3】遺伝子ごとの点突然変異の数を示す図である。
図4】各遺伝子の100塩基あたりの点突然変異率を示す図である。
図5】変異した核酸塩基を調べた結果を示す図である。
図6】それぞれの塩基がどの塩基から変異しているか調べた結果を示す図である。
図7】各遺伝子の変異パターンを示す図である。
図8】各遺伝子における点突然変異の数を遺伝子長で割った変異数を示す図である。
図9】CtoUにおける点変異の両側の塩基配列の特徴を示す図である。
図10】GtoAにおける点変異の両側の塩基配列の特徴を示す図である。
図11】AtoGにおける点変異の両側の塩基配列の特徴を示す図である。
図12】UtoCにおける点変異の両側の塩基配列の特徴を示す図である。
図13】CからUへの変異(n=2401)の上流下流3塩基ずつのコンテキストの特徴を示す図である。
図14】SARS-CoV-2のシークエンスの全てのCのコンテキストにおいて、それぞれの塩基に該当する期待値からの増減[%]を示す図である。
図15】参照配列のアンマスク領域の全シトシン残基のコンテキストの比率を示す図である。
図16】実施形態に係るウイルス変異予測装置による学習手順のフローチャートである。
図17】マッピングと変異記録のイメージ図である。
図18】同義置換(アミノ酸変異なし)を用いた場合の2つのポジションの組み合わせ例を示す図である。
図19】選択された上位30の特徴量の一例を示す図である。
図20】特徴量追加無し・選択無しの場合のコンテキストとスコアの関係例を示す図である。
図21】特徴量追加有り・選択有りの場合のコンテキストとスコアの関係例を示す図である。
図22】特徴量追加有り・選択有りの場合のコンテキストと正則化パラメーター毎のスコアの平均値を示す図である。
図23】特徴量追加有り・選択有りの場合のコンテキストと正則化パラメーター毎のスコアの標準偏差を示す図である。
図24】実施形態に係る変異予測の処理手順のフローチャートである。
図25】変異予測時に画像表示装置上に表示される情報の一例を示す図である。
図26】ロジスティック回帰計算した結果例を示す図である。
図27】変異記録と変異予測を示す図である。
図28】系統樹を示す図である。
図29】選んだ4つの変異型を各種変異型のゲノム上の変異部位と、疑似感染モデルの際に使用したRNA配列の位置を示す図である。
図30】ssRNAによるTNF-α産生の誘導を示す図である。
図31】ssRNAによるIL-6産生の誘導を示す図である。
図32】実施形態に係る解析プログラムの処理内容例と処理手順例を示す図である。
図33】塩基配列の範囲ごとにグリッドサーチを行い、最適化した各モデルのハイパーパラメータの値の例を示す図である。
図34】塩基配列の範囲-10~+10;回帰式の係数をヒストグラムで表した図である。
図35】塩基配列の範囲-10~+10;回帰式の係数をヒストグラムで表した図である。
図36】塩基配列の範囲-10~+10;回帰式の係数をヒストグラムで表した図である。
図37】塩基配列の範囲-10~+10;回帰式の係数のヒストグラムを箱ひげ図でプロットした図である。
図38】比較した学習モデルの概要と特徴を示す図である。
図39】モデル別AUCスコアの要約統計量を解析した結果例を示す図である。
図40】処理前のAUCスコア例を示す図である。
図41】処理後のAUCスコア例を示す図である。
図42】塩基配列の範囲-2~+2;交差検証回数が1回目の各モデルのROC曲線を示す図である。
図43】塩基配列の範囲-2~+2;交差検証回数が2回目の各モデルのROC曲線を示す図である。
図44】5回の交差検証による学習データの分割方法例を示す図である。
図45】汎化性能を測定する方法を説明するための図である。
図46】GからUへ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。
図47】GからA(アデニン)へ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。
図48】AからGへ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。
図49】UからC(T(チミン)からC)へ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。
【発明を実施するための形態】
【0012】
以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の実施形態では、対象ウイルスがSARS-CoV-2の例を説明する。
【0013】
[SARS-CoV-2ウイルスの概略]
現在、SARS-CoV-2に対するワクチン、診断法、治療法が求められている。ワクチンや抗体検査は、SARS-CoV-2のタンパク質(または遺伝子配列)をもとに作成される。ゲノム分析によれば、SARS-CoV-2には、A、B、Cの3つのタイプに分類されるいくつかのバリアントがある。この結果、ワクチンや抗体検査のためには、SARS-CoV-2の変異型を収集する必要性がある。
【0014】
これらのSARS-CoV-2バリアントに、いくつかの遺伝子変異が含まれているが、これらの変異が感染に及ぼす影響は不明である。ウイルスには、突然変異が自己複製時のエラーや細胞由来のRNA編集酵素によって、ウイルスに導入される。RNA編集酵素は、RNAウイルスに変異を引き起こすことが知られている。
【0015】
RNAに作用するアデノシンデアミナーゼ(ADAR)などのRNA編集酵素やアポリポ蛋白質BのmRNA編集酵素、触媒ポリペプチド(APOBECs)は、RNAウイルス感染症において研究されてきた。ADARは、アデノシンからアミノ基を抽出してイノシンに変換する酵素であり、主に二本鎖RNAに作用する機能である。シチジンデアミナーゼの一族であるAPOBECsは、シチジンからアミノ基を抽出してウラシルに変換する酵素である。また、APOBECsは、ssDNAを基質として機能することが報告されている。さらに、APOBEC1、APOBEC3A、APOBEC3GもssRNAを基質として認識する。しかし、SARS-CoV-2変異体の変異が、宿主のRNA編集によって誘導されるか否かは、まだ不明である。
【0016】
そこで、本実施形態では、RNA編集酵素に着目して、ウイルス遺伝子変異の前後数塩基の特徴的配列をもとにウイルスゲノムを検索することで、将来変異が入りうる場所、および置き換わる塩基を予測する。ウイルス変異を、事前に予測することができれば、新変異に対応する診断薬や治療薬を準備する時間ができ、変異が起こった後すぐに、診断薬や治療薬を適用できる。
【0017】
[ウイルスの点変異予測装置の構成例]
図1は、本実施形態に係るウイルス変異予測装置1の構成の一例を示す図である。図1のように、ウイルス変異予測装置1は、取得部11、記憶部12、抽出部13、分離部14、サンプリング部15、特徴量追加選択部16、学習部17、予測部18、出力部19、および操作部20を備える。
【0018】
ウイルス変異予測装置1は、DB(データベース)2からネットワークNWを介してデータを取得する。ウイルス変異予測装置1は、取得したデータから遺伝子変異の特徴を学習させ、変異を予測する。
【0019】
取得部11は、例えば無線ネットワーク回路である。取得部11は、DB2(例えばGISAID(鳥インフルエンザ情報共有の国際推進機構;https://www.gisaid.org/))からネットワークNWを介してデータを取得する。データは、例えばSARS-CoV-2の世界のゲノムの遺伝子配列であり、複数である。
【0020】
記憶部12は、取得された取得したSARS-CoV-2のゲノムデータを記憶する。記憶部12は、正則化パラメーターCが変異を受けたか否かを示す情報を記憶する。記憶部12は、C(シトシン)またはG(グアニン)からU(ウラシル)に変わった時、アミノ酸変異があるかが確認された確認結果を記憶する。記憶部12は、学習、予測に必要なアルゴリズム、プログラム、閾値等を記憶する。
【0021】
抽出部13は、取得したSARS-CoV-2のゲノムから、Cを抽出する。抽出部13は、取得したSARS-CoV-2のゲノムから、CまたはGからUへの変異が起こる、または起こったコンテキストも抽出する。なお、コンテキストとは、変異部位の前後数塩基の配列のセットである。
【0022】
分離部14は、取得したSARS-CoV-2のゲノムデータのCまたはGからUへの変異部分を抽出し、抽出した変異部分を1ゲノム上にマッピングする。分離部14は、CまたはGが変異を受けたか否かを示す情報を記憶部12に記憶させる。分離部14は、CまたはGからUに変わった時、アミノ酸変異があるかを確認し、確認結果を記憶部12に記憶させる。分離部14は、CまたはGからUに変わった時、アミノ酸変異があるかを確認し、アミノ酸変異がある配列を非同義置換として分離し、アミノ酸変異がない配列を同義置換であるとして分離する。
【0023】
サンプリング部15は、アミノ酸置換のない(同義置換)のものを第1所定数選ぶ。サンプリング部15は、ノイズを抑えるため、選択した第1所定数のうち、第1所定数より少ない第2所定数を学習データとして選ぶ。なお、サンプリング処理は、必ずしも行わなくてもよい。この場合は、同義置換全てを学習データに用いてもよい。また、サンプリング部15は、アミノ酸置換のない(同義置換)のものを第1所定数選び、これを学習データとしてもよい。
【0024】
特徴量追加選択部16は、特徴量(パラメーター)を追加する。なお、特徴量については後述する。例えば、特徴量は、RNA塩基A、U、G、Cの4種類のうち、2塩基が選ばれて特徴づけられた量である。
【0025】
学習部17は、選ばれた第2所定数を学習データとし、第1所定数の残りをテストデータとする。学習部17は、特徴量と学習データを用いて学習を行う。なお、学習部17は、学習に特徴量を用いなくてもよい。なお、学習部17は、例えば、ニューラルネットワーク、サポートベクターマシン、強化学習、ディープラーニング等のアルゴリズムを用いて学習する。また、人工知能(AI: Artificial Interigence)を用いて学習してもよい。
【0026】
予測部18は、学習された結果を用いて、点変異を予測する。
【0027】
出力部19は、予測部18が予測した結果を示す情報を、画像表示装置3上に表示させる。なお、画像表示装置3は、例えばタブレット端末等であってもよい。
【0028】
操作部20は、例えば、画像表示装置3上に設けられているタッチパネルセンサー、マウス等である。操作部20は、利用者が操作した操作結果を検出する。
【0029】
[SARS-CoV-2の解析結果]
ここで、発明者らが行ったSARS-CoV-2の解析結果を説明する。発明者らは、GISAIDから収集したSARS-CoV-2の世界のゲノム7800遺伝子配列を網羅的に解析した。なお、収集の際、重複している配列、収集日が不明瞭な配列等は除外した。この結果、GISAIDから7804個の配列を取得した。
【0030】
まず、取得した配列に対して系統ネットワーク解析を行い系統樹作成した結果、5000回以上の点突然変異の頻度が算出された。
【0031】
次に、これらの点突然変異の位置を解析した。図2は、SARS-CoV-2ゲノムにおける点突然変異の分布を示す図である。なお、図2の上の図は、全長ssRNAの各遺伝子の位置を示す図(g1)である。図2の下のヒストグラムg2は、各位置での突然変異の数を示す。ヒストグラムg2において、縦軸は変異数であり、横軸は塩基数(bp)である。図2のように、150ヌクレオチド(ビン)あたりの点突然変異の平均数は約28個であったが、いくつかの場所で点突然変異の頻度が高くなっていることが観察された。
【0032】
次に、各遺伝子における点突然変異の偏りをさらに解析するために、遺伝子ごとの点突然変異の数をカウントした。図3は、遺伝子ごとの点突然変異の数を示す図である。図3において、横軸は遺伝子名であり、縦軸は変異数である。図3のように、ORF-1aとORF-1bは、点突然変異が多かった。
【0033】
しかし、図2のように、ORF-1aとORF-1bは他の領域に比べて非常に長いため、より多くの突然変異が発生する可能性がある。このため、各遺伝子の100塩基あたりの点突然変異率を推定した。図4は、各遺伝子の100塩基あたりの点突然変異率を示す図である。図4において、横軸は遺伝子名であり、縦軸は100塩基あたりの点突然変異率である。図4のように、遺伝子長で正規化した場合は、5’-非翻訳領域(UTR)と3’-UTRで点突然変異の頻度が最も高かった。
これらの結果は、点突然変異がSARS-CoV-2変異体に存在することを示している。
【0034】
次に、発明者らは、遺伝子変異の可視化することで、遺伝子変異の特徴について解析した。
図5は、変異した核酸塩基を調べた結果を示す図である。横軸は点突然変異後の置換塩基数であり、縦軸は塩基(A(アデニン)、U、G(グアニン)、C)である。図5のように、Uへの変異が半分以上の割合を占めていることが分かった。
【0035】
図6は、それぞれの塩基がどの塩基から変異しているか調べた結果を示す図である。横軸は各点突然変異時の元の塩基と置換塩基数であり、縦軸は塩基から塩基である。この結果、Uへの変異は、C、G(特にC)からの変異が多いことが分かった。また、その他にもGはA、AはG、UはCへの変異が優位であることが分かった。CからUとGからAはAPOBECによって導入され、AからGとUからCはADARによって導入されることが知られている。なお、実施形態では、例えばCからUの変異をCtoUとも書く。
【0036】
図7は、各遺伝子の変異パターンを示す図である。図8は、各遺伝子における点突然変異の数を遺伝子長で割った変異数を示す図である。図7図8において、横軸は遺伝子名である。図7の縦軸は変異数である。図8の縦軸は100ベースごとの変異数である。図7図8より、遺伝子ごとに多少の違いはありながらも、CtoUの変異が優位であった。
【0037】
さらに、図5図8で観測された変異のうち、CtoUとGtoAはAPOBEC、AtoGとCtoUは、ADARによって導入される変異と一致している。このため、発明者らは、この4つの変異について上流下流1塩基のコンテキストを調べた。
【0038】
図9は、CtoUにおける点変異の両側の塩基配列の特徴を示す図である。図10は、GtoAにおける点変異の両側の塩基配列の特徴を示す図である。図11は、AtoGにおける点変異の両側の塩基配列の特徴を示す図である。図12は、UtoCにおける点変異の両側の塩基配列の特徴を示す図である。図9図12において、横軸は塩基名であり、縦軸はA、U、G、Cそれぞれの割合[%]である。また、図9図12において、左のグラフは突然変異部位の5’側の塩基(-1)を示し、右のグラフは突然変異部位の3’側の塩基(-1)を示す。
【0039】
図9のように、CtoUの変異においては、5’側、3’側では、共にAとUが多く隣接していた。一方、図10のように、GtoAの変異において、5’側にはAとUが多く隣接し、3’側にはGとUが多く隣接していた。なお、これに相補的な配列は、[C/U]C、C[A/U]である。
【0040】
図11のように、AtoGの変異においては、5’側ではAとUが多く隣接し、3’側ではUとGが多く隣接していた。また、図12のように、UtoCの変異においては、5’側にUが多く隣接し、3’側にはGとUが多く隣接していた。なお、これに相補的な配列は、CA、[A/C]Cである。
【0041】
次に、一番多く観測されたCからUへの変異(n=2401)の上流下流3塩基ずつのコンテキストについて、より詳細に検討した結果を説明する。図13は、CからUへの変異(n=2401)の上流下流3塩基ずつのコンテキストの特徴を示す図である。なお、0は突然変異部位を示し、負の数字と正の数字はそれぞれ上流側と下流側の部位を示す。図13において、横方向はコンテキストの位置である。また、各数値は、各位置における塩基AUGCそれぞれの数である。図13のように、置換されるC前後にはAとUが非常に多くなっていた。この理由は、SARS-CoV-2にAとUが多く含まれているバイアスを受けていると考えられる(Aが30%、Uが32%)。
【0042】
図13のような特徴が得られたため、SARS-CoV-2のシークエンスの全てのCのコンテキストについて調べ、期待値とし、それぞれの塩基について、該当する期待値からの増減[%]を調べた。図14は、SARS-CoV-2のシークエンスの全てのCのコンテキストにおいて、それぞれの塩基に該当する期待値からの増減[%]を示す図である。図14において、横方向はコンテキストの位置である。図14のように、位置+2、+1ではUが高く、-1ではGが高くなっていた(p<10^-3, fisher exact test)。一方、位置+1では、Cが少なくなっていた(p<0.01,fisher exact test)。これは、変異を導入するAPOBECの基質特異性を示唆している可能性がある。なお、C-to-U変異におけるシトシン残基の上流側(-3)および下流側(+3)のコンテキストの期待値は、参照配列のアンマスク領域の全シトシン残基のコンテキストの比率から算出した(図15)。図15は、参照配列のアンマスク領域の全シトシン残基のコンテキストの比率を示す図である。
【0043】
以上のような解析によって、以下の4つの遺伝子変異の特徴を発見した。
I.ウラシル(U)変異が多い
II.シトシン(C)からウラシル(U)への変異が多い
III.遺伝子変異にはRNA編集酵素が関与している
IV.ウラシル変異の前後1塩基から3塩基には特徴的な配列がある
【0044】
[学習手順]
次に、ウイルス変異予測装置1による学習手順例を説明する。なお、実施形態では、SARS-CoV-2のゲノムを教師データとして使用した。図16は、本実施形態に係るウイルス変異予測装置1による学習手順のフローチャートである。
【0045】
(ステップS1)取得部11は、DB2(例えばGISAID)からSARS-CoV-2のゲノムデータを取得する。取得部11は、取得したSARS-CoV-2のゲノムデータを記憶部12に記憶させる。
【0046】
(ステップS2)抽出部13は、取得したSARS-CoV-2のゲノムから、CまたはGを選び出す。抽出部13は、取得したSARS-CoV-2のゲノムから、CまたはGからUへの変異が起こる、または起こったコンテキストg11(図17)も抽出する。図17は、マッピングと変異記録のイメージ図である。なお、コンテキストは、例えば3通り(-2から+2、-3から+3、-10から+10)である。
【0047】
(ステップS3)分離部14は、取得したSARS-CoV-2のゲノムデータのCまたはGからUへの変異部分を抽出し、抽出した変異部分を1ゲノム上にマッピングする(図17)。
【0048】
(ステップS4)分離部14は、CまたはGが変異を受けたか否かを示す情報を記憶部12に記憶させる(図17)。分離部14は、例えば、CまたはGからUに変異した場合を1と記憶させ、CまたはGのままを0として数値化して記憶させる。
【0049】
(ステップS5)分離部14は、CまたはGからUに変わった時、アミノ酸変異があるかを確認し、確認結果を記憶部12に記憶させる。分離部14は、アミノ酸変異があると判別した場合(ステップS5;YES)、ステップS6の処理に進める。分離部14は、アミノ酸変異がないと判別した場合(ステップS5;NO)、ステップS7の処理に進む。
【0050】
(ステップS6)分離部14は、非同義置換であると判別し、このデータも学習に使用する。
【0051】
(ステップS7)分離部14は、同義置換であると判別し、このデータを学習に使用する。なお、同義置換となる約1800部位のうち675部位で変異を確認した。処理後、分離部14は、ステップS8の処理に進める。
【0052】
(ステップS8)サンプリング部15は、アミノ酸置換のない(同義置換)のものを1000個(変異有500、無500)に選ぶ(第1ランダムサンプリング)。なお、サンプリング部15は、このランダムな選択を、5回行ってアミノ酸置換のない(同義置換)のものを1000個選択する。
【0053】
(ステップS9)一般的に機械学習の際には、学習データを60から80%とすることが多いため、サンプリング部15は、選択した1000個のうち800個を学習データとして選ぶ(第2ランダムサンプリング)。なお、サンプリング部15は、ランダムな選択を、5回行って800個を選ぶ。なお、サンプリング部15は、この処理は、行わなくてもよい。
【0054】
(ステップS10)学習部17は、選んだ800個を学習データとし、残り200個をテストデータとする。なお、学習部17は、変異なしも学習データに使用する。
【0055】
(ステップS11)特徴量追加選択部16は、特徴量(パラメーター)を追加する。例えば、-10から+10の塩基配列において、RNA塩基は、A、U、G、Cの4種類あり、20塩基の配列があることから、特徴量は80種類(=4×20)となる。このうち、2塩基を選んで特徴づけるため、80の2乗の6400種類あるが、組み合わせなので、特徴量はその半分の3200通りになる。続けて、特徴量追加選択部16は、3200通りのパラメーターの中で、例えば上位30を選び出す。なお、特徴量の個数は一例であり、これに限らない。特徴量追加選択部16は、基準にx二乗検定を選択し、SelectKBest(chi2、K=30)を用いた。なお、この特徴量は、学習の際、スコア(ここでのスコアは正答率と同義)を向上させるために用いられる。なお、特徴量は、図19のように、コンテキストの中で選ばれた2塩基の組み合わせである。
【0056】
(ステップS12)学習部17は、特徴量と学習データを用いて学習を行う。
【0057】
(ステップS13)予測部18は、学習された結果を用いて、点変異を予測する。なお、予測については後述する。
【0058】
なお、上述した例では、コンテキストが3通り(-2から+2、-3から+3、-10から+10)の例を示したが、これに限らない。コンテキストは、-3から+3以上、-10から+10以下であればよい。なお、-3から+3以上、-10から+10以下とは、-4から+4、・・・、-9から+9を含む。
【0059】
図18は、同義置換(アミノ酸変異なし)を用いた場合の2つのポジションの組み合わせ例を示す図である。例えば1行目の「1_G 4_G」は、1_Gが位置+1のGを示し、4_Gが位置+4のGを示す。また、2行目の「-2_T 1_G」は、TNCGのコンテキストを示している。
【0060】
図19は、選択された上位30の特徴量の一例を示す図である。なお、ハッチングg21は増加を表し、ハッチングg22は減少を表している。なお、選択される特徴量は、30個に限らない。
【0061】
[特徴有無によるスコアの比較]
ここで、特徴量を追加しなかった場合と追加かした場合の学習結果のスコアの差を説明する。1000部位のランダムサンプリングしたもののうち、800部位を学習データとし、200部位をテストデータとし、交差検証を行った(n=5)。結果を図20図21に示す。
【0062】
図20は、特徴量追加無し・選択無しの場合のコンテキストとスコアの関係例を示す図である。図21は、特徴量追加有り・選択有りの場合のコンテキストとスコアの関係例を示す図である。図20図21において、横軸はコンテキスト{(-2、+2)、(-3、+3)、(-10、+10)}であり、縦軸はスコアである。また、各コンテキストにおいて点は、ロジスティック回帰における正則化パラメーターC値であり、左から順に0.0001、0.001、0.01、0.1、1.0、10.0、100.0、1000.0である。1つの点は交差検証のスコア(n=5)の平均値である。なお、正則化パラメーターは、値が大きいほど学習しやすいことを示している。また、スコアは正答率を示し、ばらつきはデータの偏りに対する頑健性を示す。
【0063】
特徴量追加無し・選択無しの場合は、図20のようにコンテキストの範囲を増やしても学習結果のスコアが向上しなかった。これに対して、特徴量追加有り・選択有りの場合は、図21の矢印g31のように、コンテキストの範囲を増やすと学習結果のスコアが向上した。このように、特徴量の追加、選択は、変異予測に有効であることが分かった。
【0064】
実施形態では、上述したように機械学習で変異を予測させるために、特徴量を加え800個を学習させる。その時、予測部18は、特徴量(上位30)を加えたことで上位30の順位に応じて、係数をかけて計算して予測している。特徴量(上位30の中でも)の中でも、真に重要なものとノイズがある。
【0065】
C値を学習のしやすさと表現したが、その意味は、特徴量をもとに係数をかけて計算しているものの、その中にもノイズが含まれているので、C値で分類した(C値が小さければノイズなし、大きければノイズを含む)。
例えば、C=0.0001であれば、ノイズを拾っていない学習のため、学習しきれていず、C=1000であれば、ノイズも拾って学習している、ということである。
図21では、適正のC値(-3から+3、‐10から+10とも)は、スコアが上がりきった最初の位置(C=0.1か、1.0)が適正値と考えられる(真の特徴量の係数で計算できている可能性が高い)。なお、過学習は、ノイズを拾うので、ノイズをいかに少なくし、真に重要な特徴量を学ばせるかが重要となる。
【0066】
図22は、特徴量追加有り・選択有りの場合のコンテキストと正則化パラメーター毎のスコアの平均値を示す図である。図23は、特徴量追加有り・選択有りの場合のコンテキストと正則化パラメーター毎のスコアの標準偏差を示す図である。
図22図23のようにコンテキスト-2から+2と、3から+3との比較では、-3から+3の方が、スコアが高いこと、かつ、ばらつき(標準偏差)が小さい。スコアが高いと正答率が高く、ばらつきが小さいと得られる結果の妥当性が高いことを示すため、実用的になっていると考えられる。
【0067】
さらに、コンテキスト-3から+3よりも-10から+10の方が、よりスコアが高く、ばらつきも小さかった。したがって、コンテキストは、-2から+2よりも-3から+3の方が良く、-3から+3よりも-10から+10が良い。すなわち、-10から+10のコンテキストが一番良かった。
【0068】
[変異予測]
次に、本実施形態における変異予測の例を説明する。図24は、実施形態に係る変異予測の処理手順のフローチャートである。なお、予測に際して、上述した学習が予め行われている。
【0069】
(ステップS101)予測部18は、予測した結果のスコアを算出し、算出したスコアを出力部19を介して画像表示装置3に表示させる。この結果、画像表示装置3には、例えば図25のような、コンテキストとスコアの関係のグラフが表示される。図25は、変異予測時に画像表示装置3上に表示される情報の一例を示す図である。
【0070】
(ステップS102)利用者は、表示された画像(図25)を見て、例えばコンテキスト-3から+3のC=0.1の領域g41を選択する。操作部20は、利用者によって選択された選択情報を予測部18に出力する。
【0071】
(ステップS103)予測部18は、選択されたコンテキストの正則パラメーターに対して、所定のアルゴリズム(例えばロジスティック回帰)で図26のような統計的処理を行う。図26は、ロジスティック回帰計算した結果例を示す図である。図26の縦軸はスコアであり、直線g42は変異有無の閾値である。予測部18は、図26のようなグラフを画像表示装置3上に表示させる。
【0072】
(ステップS104)利用者は、表示された画像(図26)を見て、変異有りの点、例えば点g43を選択する。操作部20は、利用者によって選択された選択情報を予測部18に出力する。
【0073】
(ステップS105)予測部18は、選択された点を、図27のように1つのSARS-CoV-2ゲノム上の位置g44にマッピングし、マッピングした画像を画像表示装置3上に表示させる。図27は、変異記録と変異予測を示す図である。
【0074】
(ステップS106)予測部18は、表示された画像(図27)において抽出部分を操作部20が操作されて選択されたことを検出した際、図26のどこに相当するかを表示する(バックキャスト機能)。なお、予測部18は、1つの画面内に、図25図27の全てを表示してもよく、すくなくとも1つを表示して切り替えて表示するようにしてもよい。本実施形態では、このように、例えば図26図27で双方向に選択、マッピングできる。
【0075】
なお、図24に示した処理手順は一例であり、これに限らない。
【0076】
上述したように、新型コロナウイルスの世界のゲノム7800遺伝子配列を網羅的に解析したところ、ウイルス遺伝子変異には特徴があることが判明した。その特徴は、1)ウラシル(U)変異が多いこと、2)シトシン(C)からウラシル(U)への変異が多いこと、3)遺伝子変異にはRNA編集酵素が関与していること、4)ウラシル変異の前後1塩基から3塩基には特徴的な配列があること、がわかった。また、コロナウイルスはRNA校正酵素をもつため、変異が点変異に限定され、かつRNA編集酵素による変異が顕在化していると考えられた。その結果、本実施形態では、RNA編集酵素に着目して、ウイルス遺伝子変異の前後数塩基の特徴的配列をもとにウイルスゲノムを検索することで、将来変異が入りうる場所、および置き換わる塩基を予測することが可能となった。すなわち、本実施形態によれば、新型コロナウイルスの将来起こりうる変異を予測することができるようになった。
【0077】
本実施形態では、ウイルス遺伝子変異の前後数塩基の特徴的配列をもとにウイルスゲノムを検索し、これまでの変異(CまたはGからU)を教師データとして、機械学習させ、変異を予測するようにした。
【0078】
この結果、本実施形態では、60から70%の精度正答率でウイルス変異を予測することが可能となった。ただし、この正答率は、RNA編集酵素による変異のみならず突然変異も含んだ正答率であり、突然変異とRNA編集酵素のみの変異を区別することで、RNA編集酵素による変異予測の正答率はより高率になっていることは容易に想像できる。なお、上記においてAUC(Area Under the Curve)スコアを正答率として用いた。AUCスコアの算出等については後述する。
これにより、本実施形態によれば、ウイルス変異を、変異が起こる前に事前に予測できれば、ウイルス感染診断において、事前に診断キットを準備することができる。本実施形態によれば、超早期診断キットの開発を可能とする発明である。また、本実施形態によれば、診断キットのみならず、ワクチンの効果判定や、ウイルス抗体医薬の効果判定、免疫パスポートの認証や取り消しも可能とする。加えて、本実施形態によれば、治療薬の候補選択も可能となることから、超早期治療を可能とする。
【0079】
[検証結果]
以下、上記の学習、予測について、検証した結果の一例を説明する。
点変異によりウイルスゲノムのUが増えることが明らかとなった。Uが増加することによる、炎症の増強が考えられるため、炎症性サイトカイン産生が変化するか否かを調べた。細胞刺激アッセイのために、4つの異なる配列、EPI_ISL_419308、EPI_ISL_415644、EPI_ISL_418420、およびEPI_ISL_419846をSARS-CoV-2バリアントから選択した。これらの変異配列は、それぞれ日本、ジョージア州、フランス、オーストラリアで検出されたものである。
【0080】
作業者は、4種類の変異体のそれぞれの一本鎖RNA(ssRNA)の全長の中から、Uへの変異が観察された1つの領域を抽出し、合成した。
これらの異なるバリアントから得られたssRNAの配列は以下の通りであった。variant-1(5’-AUUUAUUGUUCUUUUACCC-3’;at2946-2965 region in EPI_ISL_419308)、variant-2(5’-AUUUAUUGUUCUUUUUCUUUUACCC-3’;EPI_ISL_415644の11041~11060領域)、バリアント-3(5’-UUUCUACAGUGUCCCACUU-3’;EPI_ISL_418420の14392~14411領域)、およびバリアント-4(5’-AAACCUUUGAGAGAGUU-3’;EPI_ISL_419846の22946~22965領域)。
【0081】
変異したSARS-CoV-2配列の対照として、参照配列(MN908947)と同じ領域を用いた。それぞれの異なる4種類の変異体に対応する参照配列は以下の通りであった。武漢-1(5’-AUGUAAUGUUCUCCC-3’;at 3023-3042 region)、武漢-2(5’-UCUCUAUGUCUCUCUCCUCCC-3’;at 11066-11085 region)、武漢-3(5’-UCUCUAUCAGUCCCUCCCUCCUCUCU-3’;at 14390-14409 region、11066-11085領域)、武漢-3(5’-UCUCUACCUACGUGUCCCCUCU-3’;14390-14409領域)、および武漢-4(5’-AAACCCUACUUUGUAGAGAGUAUAU-3’;22946-22965領域)。
【0082】
TLR7媒介サイトカイン産生の誘導には、Uを含まない配列(5’-GACAGAGAGAGAACAAG-3’)をネガティブコントロールとして用いた。検証には、株式会社日本遺伝子研究所(宮城県仙台市)が合成したssRNAを用いた。
【0083】
ヒト単球性白血病細胞株THP-1は、10%FCS、55mM 2-メルカプトエタノール、100mM 非必須アミノ酸(NEAAs)、1mM ピルビン酸および20mM ml-1の各ペニシリンおよびストレプトマイシンを添加したRPMI-1640培地で維持した。
【0084】
4×10^5細胞を、96ウェル平底プレートを用いて150μl RPMIで培養した。Yan Liらに準じて疑似感染モデルを行った。
【0085】
発明者らは、初期に報告された武漢型(W)をもとに、GISAIDより遺伝子配列を収集して、図28の系統樹を作成した。図28は、系統樹を示す図である。検証では、各RNA配列の全長内でのUへの点突然変異の頻度を調べるために、SARS-CoV-2変異体から以下の4つの異なる配列を選んだ。4つの配列は、第1バリアント(variant-1、日本型)、第2バリアント(variant-2、ジョージア型)、第3バリアント(variant-3、フランス型)、および第4バリアント(variant-4、オーストラリア型)に由来している。また、図28において、Wは、武漢で報告されたオリジナルのSARS-CoV-2配列を示す。
【0086】
図29は、選んだ4つの変異型を各種変異型のゲノム上の変異部位と、疑似感染モデルの際に使用したRNA配列の位置を示す図である。図29において、横方向は(bp)であり、下向き三角形はVtoU(VはU以外のすべての塩基)であり、上向き三角形はUtoVであり、四角は細胞刺激に用いたssRNAの配列を示す。図29のように、各SARS-CoV-2変異体の全長ssRNA内のUの数は、元の単離株と比較して有意に増加している。また、図29のように、Uに対する点突然変異の頻度は、A、G、またはCに対するUの頻度よりもはるかに高かった。このように、完全長の変異したssRNAの炎症性サイトカインを誘導する能力は、元の分離株よりもはるかに大きい。これらの結果は、SARS-CoV-2遺伝子変異が炎症性活性化の亢進を引き起こすメカニズムの一つである可能性を示唆している。
【0087】
これまでのいくつかの研究では、U-rich ssRNAがTLR7シグナルを介して自然免疫細胞を刺激し、炎症性サイトカインを産生することが示されている。このように、点突然変異に起因する多数のU残基が、ヒトマクロファージによる炎症性サイトカインの誘導を促進しているのではないかという仮説を立てた。
【0088】
この仮説を検証するために、SARS-CoV-2変異体のUリッチ領域で刺激されたヒト単球/マクロファージ細胞株THP-1におけるTNF-αおよびIL(インターロイキン)-6の産生を解析した。図30は、ssRNAによるTNF-α産生の誘導を示す図である。ヒトTNF-αの測定のために、細胞をPMA(0.2ng/ml、Sigma Aldrich、St.Louis、MO、USA)の存在下で培養し、DOTAP(10μg、Roche Diagnostics、Mannheim、Germany)を用いて160(pmol)のssRNAで刺激した。サイトカインの検出のため、ヒトTNF-αおよびIL-6は、OptEIAセット(BD Bioscience、San Diego、CA USA)を用いて培養上清中で測定した。TNF-αの産生は、18時間の刺激後に測定した。
【0089】
なお、図30図31において、例えばW-1は初期の武漢型を示し、variant-1は変異型を示す。
【0090】
図31は、ssRNAによるIL-6産生の誘導を示す図である。ヒトIL-6の測定のために、細胞をPMA(50ng/ml)の存在下で培養し、DOTAP(15μg)を用いて480(pmol)のssRNAを用いて刺激した。IL-6の産生は、48時間の刺激後に測定した。
【0091】
値は平均±SD(n=6)である。データは、類似の結果を有する2つの独立した実験の代表である。
なお、フィッシャー厳密検定は、Python 3ベースパッケージのscipy 1.4.1を用いて片側検定で行った。また、Mann-Whitney U検定は、Prism 8 ソフトウェア(GraphPad Software、San Diego、CA)を用いて実施した。P<0.05の値は、有意性を示す。
【0092】
図30のように、予想通り、U残基を欠いたssRNA配列は、TNF-αの産生をアップレギュレートしなかった。点突然変異によって誘導されたU数の増加は、武漢型の参照ssRNA配列による刺激と比較して、variant-1、3、4のサイトカイン産生を増加させた。
また、図31のように、TNF-αに比べてIL-6の産生は低かったが、IL-6の産生には同様の傾向が観察された。これらの結果は、SARS-CoV-2ゲノム内のUへの点変異が、TNF-αやIL-6などの炎症性サイトカインの産生増加を刺激する能力をもたらすことを示している。すなわち、U変異の予測は、炎症性サイトカイン産生の増強も予測できるため、患者の炎症の症状、重症化も判別が可能となる。
【0093】
そして、本実施形態では、取得部が、ウイルスのゲノムの遺伝子配列データを取得する。抽出部が、取得したゲノムの遺伝子配列データからC(シトシン)またはG(グアニン)を抽出し、CまたはGからU(ウラシル)への変異が起こるまたは起こったコンテキストを抽出する。
本実施形態では、上述したように、抽出したコンテキストの塩基配列がCまたはGからUに変わった場合、アミノ酸変異があるかを確認する。RNA編集酵素による変異は、ゲノムRNAに直接作用して変異を誘導するためにアミノ酸変異の有無にかかわらずおこると考えられる。しかしその一方で、アミノ酸変異がある場合は、変異の要因にかかわらずウイルスの生存にかかわる変異があるため存在しないウイルス、存在しないゲノムデータもあるはずである。そのため、アミノ酸変異を含む変異データ自体が偏ったデータであると考えられる。従って、学習データするのには、アミノ酸変異のないデータを用いるのが妥当である。
そこで、本実施形態では、分離部が、アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離する。そして、学習部が、同義置換の配列データを学習データに用いて学習し、予測部が、学習された結果を用いて、ウイルスの変異を予測する。
【0094】
[解析プログラム]
ここで、上述したウイルス変異予測装置1をソフトウエアプログラムである解析プログラムで実現した例を説明する。図32は、本実施形態に係る解析プログラムの処理内容例と処理手順例を示す図である。図32において、縦方向は主な処理であり、横方向は処理手順である。
【0095】
解析プログラムは、前処理(ステップS210)で、解析を行う対象のファイルを読み込み(ステップS211)、説明変数・目的関数の設定を行い(ステップS212)、特徴量作成用の関数を定義し(ステップS213)、塩基配列の範囲およびグリッドサーチ用パラメーターの設定を行う(ステップS214)。
なお、目的変数とは変異の有無であり、説明変数はダミー化した塩基配列および塩基割合の2つである。特徴量作成用の関数は、例えば塩基配列の範囲(例:-3~+3)を引数として、塩基割合(1レコードに対して「A」「G」「C」「T」がそれぞれ全体の何%含まれているか)を算出する関数である。
【0096】
解析プログラムは、学習プロセス(ステップS220)で、特徴量の作成を行い(ステップS221)、グリッドサーチによるパラメーターの最適化を行い(ステップS222)、交差検証・各種モデルの学習を実行し(ステップS223)、各種モデルのAUCスコアを算出する(ステップS224)。
なお、特徴量の作成では、特徴量作成用の関数を用いて塩基の割合を算出し、引数に指定した変数をダミー化する関数を用いて塩基配列のダミー変数化を行う。また、ACUスコアは、ROC(Receiver Operating Characteristic Curve)曲線を作成した時に、グラフの曲線より下の部分の面積であり、例えば0から1までの値をとり、値が1に近いほど判別能が高いことを示す。
【0097】
解析プログラムは、精度評価処理(ステップS230)で、各種モデルのAUCスコアを出力し(ステップS231)、AUCスコアの要約統計量を算出する(ステップS232)。
【0098】
解析プログラムは、データ可視化処理(ステップS240)で、回帰式の係数をヒストグラムで表し箱ひげ図でプロットし(ステップS241)、各種モデルのROC曲線をプロットする(ステップS242)。
【0099】
[モデルのハイパーパラメータの最適化の解析]
次に、モデルのハイパーパラメータの最適化について解析した結果例を説明する。解析では、各モデルのハイパーパラメータについて、塩基配列の範囲ごとにグリッドサーチを行い、最適化した数値を算出した。
【0100】
図33は、塩基配列の範囲ごとにグリッドサーチを行い、最適化した各モデルのハイパーパラメータの値の例を示す図である。図32の例では、モデルはロジスティック回帰と、決定木と勾配ブースティングを組み合わせた手法であるLightGBMである。図33の解析条件は、交差検証の回数が5回である。塩基配列の範囲は、-2~+2、-3~+3、-5~+5、および-10~+10である。ロジスティック回帰の検証に使用したハイパーパラメータは、C:[0.0001,0.001,0.01,0.1,1,10,100,1000]であり、LightGBMの検証に使用したハイパーパラメータは、num_leaves:[10,31,64]、learning_rate:[0.01,0.1,1]である。
図33のように、塩基配列の範囲が広がるにつれてロジスティック回帰における正則化の強さが増す傾向にある。また、LightGBMのハイパーパラメータ「learning_rate」は0.01で一定であった。
【0101】
[塩基配列の範囲別ロジスティック回帰の相関係数比較]
次に、塩基配列の範囲-2~+2、-3~+3、-5~+5および-10~+10についてロジスティック回帰の相関係数を比較した結果の一例として塩基配列の範囲-10~+10の結果を、図34図37に示す。解析では、塩基配列の範囲別に各変数のロジスティック回帰の相関係数をプロットし、グループ間の比較を行った。なお、図34図36では、A、C,G、T、A_percent、G_percent、C_percent、およびT_percentの解析結果を示している。なお、A_percent、G_percent、C_percent、およびT_percentは、1レコードあたりの塩基の割合である。また、図34図36において、0~4は交差回数毎の係数であり、例えば0の棒グラフが1回目の交差検証時の係数である。図34図36において、横軸はパラメーター、縦軸は率である。図37において、縦軸は率である。
【0102】
図34図36は、塩基配列の範囲-10~+10;回帰式の係数をヒストグラムで表した図である。図37は、塩基配列の範囲-10~+10;回帰式の係数のヒストグラムを箱ひげ図でプロットした図である。図34図36のように、塩基配列の範囲-10~+10では、-6T、-2G、-2T、-1G、-1T、+5A等の値が大きかった。
また、塩基配列の範囲-2~2では、-2T、+1Gの値が大きかった。塩基配列の範囲-3~3では、-2T、-1G、+1Gの値が大きかった。塩基配列の範囲-5~5では、-2T、-1G、-1T、+1G等の値が大きかった。
なお、このような相関係数は、後述する塩基ごとの重みを可視化するために使用した。
【0103】
[モデル別AUCスコアの要約統計量]
次に、モデル別AUCスコアの要約統計量を解析した結果例を説明する。解析では、学習アルゴリズムごとにAUCスコアの要約統計量を算出した。
図38は、比較した学習モデルの概要と特徴を示す図である。図38のように、モデルは、ロジスティック回帰、SVM(Support Vector Machine)、決定木、ランダムフォレスト、XGBoost、およびLight GBMである。
【0104】
図39は、モデル別AUCスコアの要約統計量を解析した結果例を示す図である。なお、図39では、塩基配列の範囲-2~+2、-3~+3、-5~+5および-10~10それぞれのロジスティック回帰の相関係数を用いて、小数点第3位以下を切り捨てて要約統計量を示している。図39の画像g101は、XDBoostのROC(ROC_xgt)、決定木のROC(ROC_tree)、LightGBMのROC(ROC_lgb)を示している。画像g102は、SVMのROC(ROC_svm)、ランダムフォレストのROC(ROC_tf)、ロジスティック回帰のROC(ROC_lr)を示している。図39において、交差検証によってデータを5つに分割しているため、各要約統計量のcountが5になっている。meanはスコア(正答率と同義)であり、stdは標準偏差であり、minは最小値で、maxは最大値である。
【0105】
図39のように、スコアは、塩基配列の範囲-10~+10が55.4%、塩基配列の範囲-2~+2が56.0%、塩基配列の範囲-3~+3が56.6%、塩基配列の範囲-5~+5が56.2%であった。このように、全体的にはロジスティック回帰のスコアが高めであった。他のモデルでも、52~57%程度のスコアが得られた。
【0106】
次に、モデルとしてロジスティック回帰を用いた場合の処理前と処理後のAUCスコアについて説明する。
図40は、処理前のAUCスコア例を示す図である。図41は、処理後のAUCスコア例を示す図である。なお、図40図41では、塩基配列の範囲-2~+2、-3~+3、-5~+5および-10~+10それぞれのロジスティック回帰の相関係数を用いて、小数点第3位以下を切り捨てて要約統計量を示している。また、図40図41では、比較のため、処理前のデータに存在しない以下の変数を削除してから、処理後のAUCスコアを算出した。なお、削除した変数(ハイパーパラメータ)は、A_percent,G_percent,C_percent,T_percentである。
【0107】
図40図41のように、ロジスティック回帰を用いた場合の処理前のAUCスコアは約51~54%程度であるが、処理後のAUCスコアは約56~57%程度と向上している。
【0108】
[モデル別ROC曲線]
次に、モデル別ROC曲線を用いて解析した結果例を説明する。解析では、塩基配列の範囲-2~+2、-3~+3、-5~+5および-10~+10それぞれに対して、学習アルゴリズム毎にROC曲線をプロットし、モデル間の比較を行った。比較結果の一例として、塩基配列の範囲-2~+2の比較結果例を図42図43に示す。図42は、塩基配列の範囲-2~+2;交差検証回数が1回目の各モデルのROC曲線を示す図である。図43は、塩基配列の範囲-2~+2;交差検証回数が2回目の各モデルのROC曲線を示す図である。図42図43において、横軸は誤答率(1.0=100%)、縦軸はスコア(1.0=100%)である。なお、用いたアルゴリズムは、図38に示したロジスティック回帰(Logistic Regression)、SVM、決定木(Decision Tree)、ランダムフォレスト(Random Forest)、XGBoost、およびLight GBMである。なお、図42図43において、線g201はXGBoost、線g202は決定木、線g203はLight GBM、線g205はSVM、線g205はランダムフォレスト、線g206はロジスティック回帰それぞれのROC曲線である。
【0109】
図42図43、および塩基配列の範囲-3~+3、-5~+5および-10~+10それぞれの結果から、いずれのモデルを用いても同等の結果が得られたが、他のモデルと比較するとSVMのROCの面積の差異が塩基配列の範囲によって大きかった。
【0110】
[機械学習の実装例]
上述した解析等を行えるように、ウイルス変異予測装置1の機能を実現したプログラムは、以下のような機能を備える。
I.解析対象のファイル読み込み、解析で用いない”1”のレコードを削除する第1関数。
II.塩基割合算出用の第2関数を実行し、Iで読み込んだデータの塩基割合を算出し、新たな変数に格納する。
III.Iで読み込んだデータのうち、塩基配列の変数(ファイルの例えばC~V列)を、第3関数を用いてダミー変数化する。
IV.第4関数を用いてグリッドサーチを実行し、各種モデルのパラメーターを最適化する(図33)。
V.第5関数を用いて5分割交差検証を実行する。
VI.II、IIIの変数を説明変数、Iで読み込んだデータのうち変異の有無(ファイルの例えばB列)を目的変数として第1メソッドに設定し、各モデルの学習を実行する。なお、第1メソッドは、第一引数に分類対象のテストデータを、第二引数に分類した結果の正しい答えを指定することで、機械学習を行う。
VII.VIの学習結果をもとに、第6関数を用いて各モデルのAUCスコアを算出する。
VIII.各モデルのAUCスコアの要約統計量を、統計情報を抽出する第2メソッドで算出する(例えば図38図43)。
IX.第3メソッドを用いて、ロジスティック回帰の係数をプロットする(例えば図34図36)。なお、第3メソッドは、与えられたベクトル(数値で構成される配列)の平均値を高さとして、信頼区間をエラーバーとして出力するメソッドである。
X. 第3メソッドを用いて、係数を箱ひげ図でプロットする(例えば図37)。
XI.プロットする第4メソッドを用いて、各モデルのROC曲線をプロットする(例えば図42図43)。
なお、上述したI~XIの機能、関数、メソッドは一例であり、これに限らない。
【0111】
[学習データの分割方法、汎化性能を測定する方法]
次に、学習データの分割方法、汎化性能を測定する方法を説明する。
図44は、5回の交差検証による学習データの分割方法例を示す図である。
学習データやテストデータをどのように分割するのは非常に重要な問題である。このため、本実施形態では、図44のようにトレーニングデータとテストデータとを分割し、交差毎にトレーニングデータとテストデータとを入れ替えて学習を行うようにした。
【0112】
図45は、汎化性能を測定する方法を説明するための図である。
本実施形態では、汎化性能を計測する方法として図45のようにStratifiedKFoldを行った。この処理では、分布の比率を維持したままデータを訓練用とテスト用に分割する。
なお、図44図45に示した例は一例であり、これに限らない。
【0113】
[GtoU,GtoA,AtoG,UtoC]
上述した例では、C(シトシン)またはG(グアニン)からU(ウラシル)への変異が起こるまたは起こったコンテキストを抽出する例を説明したが、これに限らない。以下に他の変異例に対する学習結果例を、図46図49に示す。なお、この場合は、GからU、GからA、AからG、またはUからC(またはT(チミン)からC)への変異が起こるまたは起こったコンテキストを抽出する。なお、学習や推定では、RNA表記されているものについてU(ウラシル)を抽出し、DNA表記されているものについてT(チミン)を抽出する。
【0114】
図46は、GからUへ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。図47は、GからAへ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。図48は、AからGへ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。図49は、UからC(またはT(チミン)からC)へ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。なお、図49では、DNA表記でTtoCと表記しているが、RNA表記ではUからCである。
【0115】
なお、以下の説明において、xgbはXGBoost、Treeは決定木、LabはLight GBM、SvmはSVM、rfはランダムフォレスト、Lrはロジスティック回帰を示す。
【0116】
GからUへの変異の場合、例えば、塩基配列の範囲-10~+10の正答率の平均値は、XGBoostが56.4%、決定木が53.0%、Light GBMが50.0%、SVMが51.4%、ランダムフォレストが54.0%、ロジスティック回帰が54.0%であった。
図46のように、GからUへの変異の場合は、塩基配列の範囲-10~+10、モデルXGBoostの組み合わせの結果が最も良かった。
【0117】
また、GからAへの変異の場合、例えば、塩基配列の範囲-5~+5の正答率の平均値は、XGBoostが62.2%、決定木が57.0%、Light GBMが62.8%、SVMが52.6%、ランダムフォレストが64.2%、ロジスティック回帰が60.2%であった。また、塩基配列の範囲-10~+10の正答率の平均値は、XGBoostが60.6%、決定木が56.6%、Light GBMが61.6%、SVMが54.4%、ランダムフォレストが64.2%、ロジスティック回帰が59.8%であった。
図47のように、GからAへの変異の場合は、塩基配列の範囲-10~+10または-5~+5、モデルランダムフォレストの組み合わせの結果が最も良かった。
【0118】
AからGへの変異の場合、例えば、塩基配列の範囲-2~+2の正答率の平均値は、XGBoostが58.0%、決定木が56.4%、Light GBMが60.2%、SVMが48.8%、ランダムフォレストが57.2%、ロジスティック回帰が58.2%であった。
図48のように、AからGへの変異の場合は、塩基配列の範囲-2~+2、モデルLight GBMの組み合わせの結果が最も良かった。
【0119】
U(またはT)からCへの変異の場合、例えば、塩基配列の範囲-5~+5の正答率の平均値は、XGBoostが61.0%、決定木が62.4%、Light GBMが64.0%、SVMが55.0%、ランダムフォレストが62.4%、ロジスティック回帰が62.6%であった。
図49のように、U(またはT)からCへの変異の場合は、塩基配列の範囲-5~+5、Light GBMの組み合わせの結果が最も良かった。
【0120】
以上のように、本実施形態の手法を用いる場合は、XGBoost、決定木、Light GBM、SVM、ランダムフォレスト、ロジスティック回帰を学習モデルとして用いることができる。この結果、本実施形態によれば、学習された結果を用いて、点変異を精度良く予測することでできる。
また、本実施形態によれば、GからUへ変異する場合に加え、GからAに変異する場合、AからGに変異する場合、およびTからCに変異する場合にも、本実施形態の手法を用いて、学習された結果を用いて点変異を予測することができる。
【0121】
なお、上述した説明と図におけるコンテキストの表記について説明する。
本明細書中でコンテキストの表記は、変異部分を0とし、上流側をマイナス(-)、下流側をプラス(+)で表記している。また、図や明細書の中では、プラス表記がある記載と無い記載(例えば“1_G”と“+1_G”)があるが、同じコンテキストを表している。また、図と明細書において、例えば“1_G”と“+1_G”と“1G”と“+1G”のように数字とアルファベットとの間にアンダーバーがある表記と無い表記とが混在しているが、これらは同じコンテキストを表している。
また、塩基配列の範囲については、例えば-2から+2について、明細書と図で“-2-+2”または“-2~+2”と記載している。
【0122】
なお、本発明におけるウイルス変異予測装置1の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりウイルス変異予測装置1が行う全ての処置または一部の処理を行ってもよい。また、機械学習には、ディープラーニング法など種々の学習法を用いてもよく、人工知能(AI: Artificial Interigence)を用いて処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0123】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0124】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
【符号の説明】
【0125】
1…ウイルス変異予測装置、2…DB、3…画像表示装置、11…取得部、12…記憶部、13…抽出部、14…分離部、15…サンプリング部、16…特徴量追加選択部、17…学習部、18…予測部、19…出力部、20…操作部、A…アデニン、U…ウラシル、G…グアニン、C…シトシン、T…チミン
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27
図28
図29
図30
図31
図32
図33
図34
図35
図36
図37
図38
図39
図40
図41
図42
図43
図44
図45
図46
図47
図48
図49