特許7663969 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人東北大学の特許一覧

特許7663969ウイルス変異予測装置、ウイルス変異予測方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-04-09

(45)【発行日】2025-04-17

(54)【発明の名称】ウイルス変異予測装置、ウイルス変異予測方法、およびプログラム

(51)【国際特許分類】

G16B 40/20 20190101AFI20250410BHJP

G16B 20/50 20190101ALI20250410BHJP

G16B 30/00 20190101ALI20250410BHJP

C12Q 1/6827 20180101ALN20250410BHJP

C12N 15/50 20060101ALN20250410BHJP

【ＦＩ】

G16B40/20

G16B20/50

G16B30/00

C12Q1/6827

C12N15/50

【請求項の数】 10

(21)【出願番号】P 2022538042

(86)(22)【出願日】2021-07-21

(86)【国際出願番号】 JP2021027331

(87)【国際公開番号】W WO2022019331

(87)【国際公開日】2022-01-27

【審査請求日】2024-04-09

(31)【優先権主張番号】P 2020125563

(32)【優先日】2020-07-22

(33)【優先権主張国・地域又は機関】JP

(73)【特許権者】

【識別番号】504157024

【氏名又は名称】国立大学法人東北大学

(74)【代理人】

【識別番号】100165179

【弁理士】

【氏名又は名称】田▲崎▼ 聡

(74)【代理人】

【識別番号】100188558

【弁理士】

【氏名又は名称】飯田雅人

(74)【代理人】

【識別番号】100175824

【弁理士】

【氏名又は名称】小林淳一

(74)【代理人】

【識別番号】100152272

【弁理士】

【氏名又は名称】川越雄一郎

(74)【代理人】

【識別番号】100181722

【弁理士】

【氏名又は名称】春田洋孝

(72)【発明者】

【氏名】小笠原康悦

【審査官】関博文

(56)【参考文献】

【文献】国際公開第２０１９／０９５０１７（ＷＯ，Ａ１）

【文献】WRIGHT, Erik S. ，SARS-CoV-2 genome evolution exposes early human adaptations，bioRxiv，[online],[2021年10月18日検索]，2020年05月26日，インターネット＜ＵＲＬ：https://www.biorxiv.org/content/10.1101/2020.05.26.117069v1.full.pdf＞，<DOI:10.1101/2020.05.26.117069>

【文献】MATYASEK, Roman ，Mutation Patterns of Human SARS-CoV-2 and Bat RaTG13 Coronavirus Genomes Are Strongly Biased Towards，genes， 11(7)，[online],[2021年10月18日検索]，2020年07月07日，インターネット＜ＵＲＬ：https://www.mdpi.com/2073-4425/11/7/761＞，<DOI:10.3390/genes110700761>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１６Ｂ５／００－９９／００

Ｃ１２Ｑ１／６８２７

Ｃ１２Ｎ１５／５０

(57)【特許請求の範囲】

【請求項1】

ウイルスのゲノムの遺伝子配列データを取得する取得部と、
取得した前記ゲノムの遺伝子配列データからＣ（シトシン）またはＧ（グアニン）を抽出し、ＣまたはＧからＵ（ウラシル）への変異が起こるまたは起こったコンテキストを抽出する抽出部と、
ＣまたはＧからＵに変わった時、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離する分離部と、
前記同義置換の配列データを学習データに用いて学習する学習部と、
学習された結果を用いて、前記ウイルスにおける将来変異が入りうる場所および置き換わる塩基を予測する予測部と、
を備えるウイルス変異予測装置。

【請求項2】

ウイルスのゲノムの遺伝子配列データを取得する取得部と、
取得した前記ゲノムの遺伝子配列データからＣ（シトシン）、Ｇ（グアニン）、Ａ（アデニン）、Ｕ（ウラシル）またはＴ（チミン）を抽出し、ＧからＡ、ＡからＧ、ＵからＣ、ＴからＣへの変異が起こるまたは起こったコンテキストを抽出する抽出部と、
抽出されたコンテキストの塩基配列が変化した場合、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離する分離部と、
前記同義置換の配列データを学習データに用いて学習する学習部と、
学習された結果を用いて、前記ウイルスにおける将来変異が入りうる場所および置き換わる塩基を予測する予測部と、
を備えるウイルス変異予測装置。

【請求項3】

前記同義置換から所定数を選ぶサンプリング部、を更に備え、
前記学習部は、前記サンプリング部によって選ばれた前記同義置換の配列データを学習データに用いる、
請求項１または請求項２に記載のウイルス変異予測装置。

【請求項4】

ＲＮＡ塩基Ａ（アデニン）、Ｕ、Ｇ、Ｃの４種類のうち、２塩基が選ばれて特徴づけられた量である特徴量であって、学習の際に用いられる前記特徴量を追加する特徴量追加選択部、を更に備え、
前記学習部は、前記特徴量も学習データに用いる、
請求項１から請求項３のうちのいずれか１項に記載のウイルス変異予測装置。

【請求項5】

前記コンテキストの範囲は、－３から＋３以上、－１０から＋１０以下である、
請求項１から請求項４のいずれか１項に記載のウイルス変異予測装置。

【請求項6】

前記ウイルスは、ＳＡＲＳ－ＣｏＶ－２である、
請求項１から請求項５のいずれか１項に記載のウイルス変異予測装置。

【請求項7】

取得部が、ウイルスのゲノムの遺伝子配列データを取得し、
抽出部が、取得された前記ゲノムの遺伝子配列データからＣ（シトシン）またはＧ（グアニン）を抽出し、ＣまたはＧからＵ（ウラシル）への変異が起こるまたは起こったコンテキストを抽出し、
分離部が、ＣまたはＧからＵに変わった時、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離し、
学習部が、前記同義置換の配列データを学習データに用いて学習し、
予測部が、学習された結果を用いて、前記ウイルスにおける将来変異が入りうる場所および置き換わる塩基を予測する、
ウイルス変異予測方法。

【請求項8】

取得部が、ウイルスのゲノムの遺伝子配列データを取得し、
抽出部が、取得した前記ゲノムの遺伝子配列データからＣ（シトシン）、Ｇ（グアニン）、Ａ（アデニン）、Ｕ（ウラシル）またはＴ（チミン）を抽出し、ＧからＡ、ＡからＧ、ＵからＣ、ＴからＣへの変異が起こるまたは起こったコンテキストを抽出し、
分離部が、抽出されたコンテキストの塩基配列が変化した場合、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離し、
学習部が、前記同義置換の配列データを学習データに用いて学習し、
予測部が、学習された結果を用いて、前記ウイルスにおける将来変異が入りうる場所および置き換わる塩基を予測する、
ウイルス変異予測方法。

【請求項9】

コンピュータに、
ウイルスのゲノムの遺伝子配列データを取得させ、
取得された前記ゲノムの遺伝子配列データからＣ（シトシン）またはＧ（グアニン）を抽出させ、ＣまたはＧからＵ（ウラシル）への変異が起こるまたは起こったコンテキストを抽出させ、
分離部が、ＣまたはＧからＵに変わった時、アミノ酸変異があるかを確認させ、前記アミノ酸変異がある配列を非同義置換として分離させ、アミノ酸変異がない配列を同義置換であるとして分離させ、
前記同義置換の配列データを学習データに用いて学習させ、
学習された結果を用いて、前記ウイルスにおける将来変異が入りうる場所および置き換わる塩基を予測させる、
プログラム。

【請求項10】

コンピュータに、
ウイルスのゲノムの遺伝子配列データを取得させ、
取得された前記ゲノムの遺伝子配列データからＣ（シトシン）、Ｇ（グアニン）、Ａ（アデニン）、Ｕ（ウラシル）またはＴ（チミン）を抽出させ、ＧからＡ、ＡからＧ、ＵからＣ、ＴからＣへの変異が起こるまたは起こったコンテキストを抽出させ、
抽出されたコンテキストの塩基配列が変化した場合、アミノ酸変異があるかを確認させ、前記アミノ酸変異がある配列を非同義置換として分離させ、前記アミノ酸変異がない配列を同義置換であるとして分離させ、
前記同義置換の配列データを学習データに用いて学習させ、
学習された結果を用いて、前記ウイルスにおける将来変異が入りうる場所および置き換わる塩基を予測させる、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ウイルス変異予測装置、ウイルス変異予測方法、およびプログラムに関する。
本願は、２０２０年７月２２日に、日本に出願された特願２０２０－１２５５６３号に基づき優先権を主張し、その内容をここに援用する。

【背景技術】

【0002】

ウイルスは、自己増殖できないことが特徴であり、他細胞を利用して増殖することができる。すなわち、ウイルスは、宿主のポリメラーゼなどの種々の酵素を利用して増殖に役立てている。ウイルスには、ＤＮＡウイルスとＲＮＡウイルスが存在することが知られている。ＤＮＡウイルスは、ウイルスゲノムＤＮＡを、宿主のＲＮＡポリメラーゼを利用し、メッセンジャーＲＮＡを合成して、タンパク質を合成してウイルスは増殖する。ＤＮＡウイルスには、増殖の過程で生じたＤＮＡ複製のミスを修正する機構が備わっているので、ＲＮＡウイルスと比較すると遺伝子の変異が少ないことが知られている。

【0003】

ＲＮＡウイルスは、インフルエンザに代表されるように感染が伝播するにしたがって多くの変異が入りウイルスが変化していくことが知られている。つまり、ＲＮＡウイルスは、ＤＮＡウイルスに比べ遺伝子変異が多い。例えば、新型コロナウイルス（ＳＡＲＳ－ＣｏＶ－２）やＳＡＲＳ等のコロナウイルスもＲＮＡウイルスであり、変異が観察されている。しかし、コロナウイルスは、ＲＮＡ校正酵素をウイルスゲノム内に有しているため、大規模な遺伝子の欠失や数塩基にわたる塩基置換、変異は起こりにくい。そのため、コロナウイルスでは、点変異が多いことが知られている。なお、点変異とは、塩基の欠失、置換、挿入による変化である。

【0004】

ＲＮＡウイルスの点変異には、宿主のＲＮＡ編集酵素が関与していることが知られている。新型コロナウイルスの変異においては、ＲＮＡ編集酵素、ＡＤＡＲｓやＡＰＯＢＥＣｓなどにより点変異が引き起こされていることを示している。ＲＮＡウイルスの点変異では、特にＡＤＡＲｓの関与を示唆する結果が提示されている。加えて、ＲＮＡウイルスの点変異では、ＲＮＡ編集酵素による変異部分を０としたときの周囲の塩基配列の部分について５’側２塩基を－２と表記、３’側２塩基を＋２と表記すると、－２から＋２の塩基配列に特徴があることを示している（例えば、非特許文献１参照）。

【0005】

現在、ウイルスの変異予測については、インフルエンザウイルスについて予測が始まっており、ヘマグルチニン（ＨＡ）の構造を指標に変異予測がなされている。しかし、新型コロナウイルスなどＲＮＡ校正酵素をもつウイルスの変異の予測は、まだ行われていない。

【先行技術文献】

【非特許文献】

【0006】

【文献】Di Giorgio, S.,et al. Evidence for host-dependent RNA editing in the transcriptome of SARS-CoV-2. Science Advances: eabb5813, 2020.

【発明の概要】

【発明が解決しようとする課題】

【0007】

新型コロナウイルスなどのＲＮＡウイルスは変異を起こす。ウイルス変異が起こった場合は、ウイルス変異前に作成された診断に用いられる抗体検査や抗原検査が無効になる、および治療薬が無効になる。ウイルス変異は、ゲノム上の変異の位置や置換された塩基について、変異が起こってからしかわからないという問題がある。抗体検査や抗原検査キットを作成するためには、変異が起こったのち変異部位を特定してから、新たに抗体検査や抗原検査に利用するタンパク質を作成する必要があった。そのため、新たな変異に対応する診断薬や治療薬をつくるためには、多くの時間を要している。

【0008】

本発明は、上記の問題点に鑑みてなされたものであって、ウイルス変異を、変異が起こる前に事前に予測することができるウイルス変異予測装置、ウイルス変異予測方法、およびプログラムを提供することを目的とする。

【課題を解決するための手段】

【0009】

本発明は以下の態様を含む。
［１］ウイルスのゲノムの遺伝子配列データを取得する取得部と、取得した前記ゲノムの遺伝子配列データからＣ（シトシン）またはＧ（グアニン）を抽出し、ＣまたはＧからＵ（ウラシル）への変異が起こるまたは起こったコンテキストを抽出する抽出部と、ＣまたはＧからＵに変わった時、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離する分離部と、前記同義置換の配列データを学習データに用いて学習する学習部と、学習された結果を用いて、前記ウイルスの変異を予測する予測部と、を備えるウイルス変異予測装置。
［２］ウイルスのゲノムの遺伝子配列データを取得する取得部と、取得した前記ゲノムの遺伝子配列データからＣ（シトシン）、Ｇ（グアニン）、Ａ（アデニン）、Ｕ（ウラシル）またはＴ（チミン）を抽出し、ＧからＡ、ＡからＧ、ＵからＣ、ＴからＣへの変異が起こるまたは起こったコンテキストを抽出する抽出部と、抽出されたコンテキストの塩基配列が変化した場合、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離する分離部と、前記同義置換の配列データを学習データに用いて学習する学習部と、学習された結果を用いて、前記ウイルスの変異を予測する予測部と、を備えるウイルス変異予測装置。
［３］前記ウイルス変異予測装置は、前記同義置換から所定数を選ぶサンプリング部、を更に備え、前記学習部は、前記サンプリング部によって選ばれた前記同義置換の配列データを学習データに用いる。
［４］前記ウイルス変異予測装置は、ＲＮＡ塩基Ａ（アデニン）、Ｕ、Ｇ、Ｃの４種類のうち、２塩基が選ばれて特徴づけられた量である特徴量であって、学習の際に用いられる前記特徴量を追加する特徴量追加選択部、を更に備え、前記学習部は、前記特徴量も学習データに用いる。
［５］前記ウイルス変異予測装置において、前記コンテキストの範囲は、－３から＋３以上、－１０から＋１０以下である。
［６］前記ウイルス変異予測装置において、前記ウイルスは、ＳＡＲＳ－ＣｏＶ－２である。
［７］取得部が、ウイルスのゲノムの遺伝子配列データを取得し、抽出部が、取得された前記ゲノムの遺伝子配列データからＣ（シトシン）またはＧ（グアニン）を抽出し、ＣまたはＧからＵ（ウラシル）への変異が起こるまたは起こったコンテキストを抽出し、分離部が、ＣまたはＧからＵに変わった時、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離し、学習部が、前記同義置換の配列データを学習データに用いて学習し、予測部が、学習された結果を用いて、前記ウイルスの変異を予測する、ウイルス変異予測方法。
［８］取得部が、ウイルスのゲノムの遺伝子配列データを取得し、抽出部が、取得した前記ゲノムの遺伝子配列データからＣ（シトシン）、Ｇ（グアニン）、Ａ（アデニン）、Ｕ（ウラシル）またはＴ（チミン）を抽出し、ＧからＡ、ＡからＧ、ＵからＣ、ＴからＣへの変異が起こるまたは起こったコンテキストを抽出し、分離部が、抽出されたコンテキストの塩基配列が変化した場合、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離し、学習部が、前記同義置換の配列データを学習データに用いて学習し、予測部が、学習された結果を用いて、前記ウイルスの変異を予測する、ウイルス変異予測方法。
［９］コンピュータに、ウイルスのゲノムの遺伝子配列データを取得させ、取得された前記ゲノムの遺伝子配列データからＣ（シトシン）またはＧ（グアニン）を抽出させ、ＣまたはＧからＵ（ウラシル）への変異が起こるまたは起こったコンテキストを抽出し、分離部が、ＣまたはＧからＵに変わった時、アミノ酸変異があるかを確認させ、前記アミノ酸変異がある配列を非同義置換として分離させ、アミノ酸変異がない配列を同義置換であるとして分離させ、前記同義置換の配列データを学習データに用いて学習させ、学習された結果を用いて、前記ウイルスの変異を予測させる、プログラム。
［１０］コンピュータに、ウイルスのゲノムの遺伝子配列データを取得させ、
取得された前記ゲノムの遺伝子配列データからＣ（シトシン）、Ｇ（グアニン）、Ａ（アデニン）、Ｕ（ウラシル）またはＴ（チミン）を抽出し、ＧからＡ、ＡからＧ、ＵからＣ、ＴからＣへの変異が起こるまたは起こったコンテキストを抽出させ、抽出されたコンテキストの塩基配列が変化した場合、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離させ、前記アミノ酸変異がない配列を同義置換であるとして分離させ、前記同義置換の配列データを学習データに用いて学習させ、学習された結果を用いて、前記ウイルスの変異を予測させる、プログラム。

【発明の効果】

【0010】

本発明によれば、ウイルス変異を、変異が起こる前に事前に予測することができる。

【図面の簡単な説明】

【0011】

【図1】実施形態に係るウイルス変異予測装置の構成の一例を示す図である。

【図2】ＳＡＲＳ－ＣｏＶ－２ゲノムにおける点突然変異の分布を示す図である。

【図3】遺伝子ごとの点突然変異の数を示す図である。

【図4】各遺伝子の１００塩基あたりの点突然変異率を示す図である。

【図5】変異した核酸塩基を調べた結果を示す図である。

【図6】それぞれの塩基がどの塩基から変異しているか調べた結果を示す図である。

【図7】各遺伝子の変異パターンを示す図である。

【図8】各遺伝子における点突然変異の数を遺伝子長で割った変異数を示す図である。

【図9】ＣｔｏＵにおける点変異の両側の塩基配列の特徴を示す図である。

【図10】ＧｔｏＡにおける点変異の両側の塩基配列の特徴を示す図である。

【図11】ＡｔｏＧにおける点変異の両側の塩基配列の特徴を示す図である。

【図12】ＵｔｏＣにおける点変異の両側の塩基配列の特徴を示す図である。

【図13】ＣからＵへの変異（ｎ＝２４０１）の上流下流３塩基ずつのコンテキストの特徴を示す図である。

【図14】ＳＡＲＳ－ＣｏＶ－２のシークエンスの全てのＣのコンテキストにおいて、それぞれの塩基に該当する期待値からの増減［％］を示す図である。

【図15】参照配列のアンマスク領域の全シトシン残基のコンテキストの比率を示す図である。

【図16】実施形態に係るウイルス変異予測装置による学習手順のフローチャートである。

【図17】マッピングと変異記録のイメージ図である。

【図18】同義置換（アミノ酸変異なし）を用いた場合の２つのポジションの組み合わせ例を示す図である。

【図19】選択された上位３０の特徴量の一例を示す図である。

【図20】特徴量追加無し・選択無しの場合のコンテキストとスコアの関係例を示す図である。

【図21】特徴量追加有り・選択有りの場合のコンテキストとスコアの関係例を示す図である。

【図22】特徴量追加有り・選択有りの場合のコンテキストと正則化パラメーター毎のスコアの平均値を示す図である。

【図23】特徴量追加有り・選択有りの場合のコンテキストと正則化パラメーター毎のスコアの標準偏差を示す図である。

【図24】実施形態に係る変異予測の処理手順のフローチャートである。

【図25】変異予測時に画像表示装置上に表示される情報の一例を示す図である。

【図26】ロジスティック回帰計算した結果例を示す図である。

【図27】変異記録と変異予測を示す図である。

【図28】系統樹を示す図である。

【図29】選んだ４つの変異型を各種変異型のゲノム上の変異部位と、疑似感染モデルの際に使用したＲＮＡ配列の位置を示す図である。

【図30】ｓｓＲＮＡによるＴＮＦ-α産生の誘導を示す図である。

【図31】ｓｓＲＮＡによるＩＬ-６産生の誘導を示す図である。

【図32】実施形態に係る解析プログラムの処理内容例と処理手順例を示す図である。

【図33】塩基配列の範囲ごとにグリッドサーチを行い、最適化した各モデルのハイパーパラメータの値の例を示す図である。

【図34】塩基配列の範囲－１０～＋１０；回帰式の係数をヒストグラムで表した図である。

【図35】塩基配列の範囲－１０～＋１０；回帰式の係数をヒストグラムで表した図である。

【図36】塩基配列の範囲－１０～＋１０；回帰式の係数をヒストグラムで表した図である。

【図37】塩基配列の範囲－１０～＋１０；回帰式の係数のヒストグラムを箱ひげ図でプロットした図である。

【図38】比較した学習モデルの概要と特徴を示す図である。

【図39】モデル別ＡＵＣスコアの要約統計量を解析した結果例を示す図である。

【図40】処理前のＡＵＣスコア例を示す図である。

【図41】処理後のＡＵＣスコア例を示す図である。

【図42】塩基配列の範囲－２～＋２；交差検証回数が１回目の各モデルのＲＯＣ曲線を示す図である。

【図43】塩基配列の範囲－２～＋２；交差検証回数が２回目の各モデルのＲＯＣ曲線を示す図である。

【図44】５回の交差検証による学習データの分割方法例を示す図である。

【図45】汎化性能を測定する方法を説明するための図である。

【図46】ＧからＵへ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。

【図47】ＧからＡ（アデニン）へ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。

【図48】ＡからＧへ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。

【図49】ＵからＣ（Ｔ（チミン）からＣ）へ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。

【発明を実施するための形態】

【0012】

以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の実施形態では、対象ウイルスがＳＡＲＳ－ＣｏＶ－２の例を説明する。

【0013】

［ＳＡＲＳ－ＣｏＶ－２ウイルスの概略］
現在、ＳＡＲＳ－ＣｏＶ－２に対するワクチン、診断法、治療法が求められている。ワクチンや抗体検査は、ＳＡＲＳ－ＣｏＶ－２のタンパク質（または遺伝子配列）をもとに作成される。ゲノム分析によれば、ＳＡＲＳ－ＣｏＶ－２には、Ａ、Ｂ、Ｃの３つのタイプに分類されるいくつかのバリアントがある。この結果、ワクチンや抗体検査のためには、ＳＡＲＳ－ＣｏＶ－２の変異型を収集する必要性がある。

【0014】

これらのＳＡＲＳ－ＣｏＶ－２バリアントに、いくつかの遺伝子変異が含まれているが、これらの変異が感染に及ぼす影響は不明である。ウイルスには、突然変異が自己複製時のエラーや細胞由来のＲＮＡ編集酵素によって、ウイルスに導入される。ＲＮＡ編集酵素は、ＲＮＡウイルスに変異を引き起こすことが知られている。

【0015】

ＲＮＡに作用するアデノシンデアミナーゼ（ＡＤＡＲ）などのＲＮＡ編集酵素やアポリポ蛋白質ＢのｍＲＮＡ編集酵素、触媒ポリペプチド（ＡＰＯＢＥＣｓ）は、ＲＮＡウイルス感染症において研究されてきた。ＡＤＡＲは、アデノシンからアミノ基を抽出してイノシンに変換する酵素であり、主に二本鎖ＲＮＡに作用する機能である。シチジンデアミナーゼの一族であるＡＰＯＢＥＣｓは、シチジンからアミノ基を抽出してウラシルに変換する酵素である。また、ＡＰＯＢＥＣｓは、ｓｓＤＮＡを基質として機能することが報告されている。さらに、ＡＰＯＢＥＣ１、ＡＰＯＢＥＣ３Ａ、ＡＰＯＢＥＣ３ＧもｓｓＲＮＡを基質として認識する。しかし、ＳＡＲＳ－ＣｏＶ－２変異体の変異が、宿主のＲＮＡ編集によって誘導されるか否かは、まだ不明である。

【0016】

そこで、本実施形態では、ＲＮＡ編集酵素に着目して、ウイルス遺伝子変異の前後数塩基の特徴的配列をもとにウイルスゲノムを検索することで、将来変異が入りうる場所、および置き換わる塩基を予測する。ウイルス変異を、事前に予測することができれば、新変異に対応する診断薬や治療薬を準備する時間ができ、変異が起こった後すぐに、診断薬や治療薬を適用できる。

【0017】

［ウイルスの点変異予測装置の構成例］
図１は、本実施形態に係るウイルス変異予測装置１の構成の一例を示す図である。図１のように、ウイルス変異予測装置１は、取得部１１、記憶部１２、抽出部１３、分離部１４、サンプリング部１５、特徴量追加選択部１６、学習部１７、予測部１８、出力部１９、および操作部２０を備える。

【0018】

ウイルス変異予測装置１は、ＤＢ（データベース）２からネットワークＮＷを介してデータを取得する。ウイルス変異予測装置１は、取得したデータから遺伝子変異の特徴を学習させ、変異を予測する。

【0019】

取得部１１は、例えば無線ネットワーク回路である。取得部１１は、ＤＢ２（例えばＧＩＳＡＩＤ（鳥インフルエンザ情報共有の国際推進機構；https://www.gisaid.org/））からネットワークＮＷを介してデータを取得する。データは、例えばＳＡＲＳ－ＣｏＶ－２の世界のゲノムの遺伝子配列であり、複数である。

【0020】

記憶部１２は、取得された取得したＳＡＲＳ－ＣｏＶ－２のゲノムデータを記憶する。記憶部１２は、正則化パラメーターＣが変異を受けたか否かを示す情報を記憶する。記憶部１２は、Ｃ（シトシン）またはＧ（グアニン）からＵ（ウラシル）に変わった時、アミノ酸変異があるかが確認された確認結果を記憶する。記憶部１２は、学習、予測に必要なアルゴリズム、プログラム、閾値等を記憶する。

【0021】

抽出部１３は、取得したＳＡＲＳ－ＣｏＶ－２のゲノムから、Ｃを抽出する。抽出部１３は、取得したＳＡＲＳ－ＣｏＶ－２のゲノムから、ＣまたはＧからＵへの変異が起こる、または起こったコンテキストも抽出する。なお、コンテキストとは、変異部位の前後数塩基の配列のセットである。

【0022】

分離部１４は、取得したＳＡＲＳ－ＣｏＶ－２のゲノムデータのＣまたはＧからＵへの変異部分を抽出し、抽出した変異部分を１ゲノム上にマッピングする。分離部１４は、ＣまたはＧが変異を受けたか否かを示す情報を記憶部１２に記憶させる。分離部１４は、ＣまたはＧからＵに変わった時、アミノ酸変異があるかを確認し、確認結果を記憶部１２に記憶させる。分離部１４は、ＣまたはＧからＵに変わった時、アミノ酸変異があるかを確認し、アミノ酸変異がある配列を非同義置換として分離し、アミノ酸変異がない配列を同義置換であるとして分離する。

【0023】

サンプリング部１５は、アミノ酸置換のない（同義置換）のものを第１所定数選ぶ。サンプリング部１５は、ノイズを抑えるため、選択した第１所定数のうち、第１所定数より少ない第２所定数を学習データとして選ぶ。なお、サンプリング処理は、必ずしも行わなくてもよい。この場合は、同義置換全てを学習データに用いてもよい。また、サンプリング部１５は、アミノ酸置換のない（同義置換）のものを第１所定数選び、これを学習データとしてもよい。

【0024】

特徴量追加選択部１６は、特徴量（パラメーター）を追加する。なお、特徴量については後述する。例えば、特徴量は、ＲＮＡ塩基Ａ、Ｕ、Ｇ、Ｃの４種類のうち、２塩基が選ばれて特徴づけられた量である。

【0025】

学習部１７は、選ばれた第２所定数を学習データとし、第１所定数の残りをテストデータとする。学習部１７は、特徴量と学習データを用いて学習を行う。なお、学習部１７は、学習に特徴量を用いなくてもよい。なお、学習部１７は、例えば、ニューラルネットワーク、サポートベクターマシン、強化学習、ディープラーニング等のアルゴリズムを用いて学習する。また、人工知能（AI: Artificial Interigence）を用いて学習してもよい。

【0026】

予測部１８は、学習された結果を用いて、点変異を予測する。

【0027】

出力部１９は、予測部１８が予測した結果を示す情報を、画像表示装置３上に表示させる。なお、画像表示装置３は、例えばタブレット端末等であってもよい。

【0028】

操作部２０は、例えば、画像表示装置３上に設けられているタッチパネルセンサー、マウス等である。操作部２０は、利用者が操作した操作結果を検出する。

【0029】

［ＳＡＲＳ－ＣｏＶ－２の解析結果］
ここで、発明者らが行ったＳＡＲＳ－ＣｏＶ－２の解析結果を説明する。発明者らは、ＧＩＳＡＩＤから収集したＳＡＲＳ－ＣｏＶ－２の世界のゲノム７８００遺伝子配列を網羅的に解析した。なお、収集の際、重複している配列、収集日が不明瞭な配列等は除外した。この結果、ＧＩＳＡＩＤから７８０４個の配列を取得した。

【0030】

まず、取得した配列に対して系統ネットワーク解析を行い系統樹作成した結果、５０００回以上の点突然変異の頻度が算出された。

【0031】

次に、これらの点突然変異の位置を解析した。図２は、ＳＡＲＳ－ＣｏＶ－２ゲノムにおける点突然変異の分布を示す図である。なお、図２の上の図は、全長ｓｓＲＮＡの各遺伝子の位置を示す図（ｇ１）である。図２の下のヒストグラムｇ２は、各位置での突然変異の数を示す。ヒストグラムｇ２において、縦軸は変異数であり、横軸は塩基数（ｂｐ）である。図２のように、１５０ヌクレオチド（ビン）あたりの点突然変異の平均数は約２８個であったが、いくつかの場所で点突然変異の頻度が高くなっていることが観察された。

【0032】

次に、各遺伝子における点突然変異の偏りをさらに解析するために、遺伝子ごとの点突然変異の数をカウントした。図３は、遺伝子ごとの点突然変異の数を示す図である。図３において、横軸は遺伝子名であり、縦軸は変異数である。図３のように、ＯＲＦ－１ａとＯＲＦ－１ｂは、点突然変異が多かった。

【0033】

しかし、図２のように、ＯＲＦ－１ａとＯＲＦ－１ｂは他の領域に比べて非常に長いため、より多くの突然変異が発生する可能性がある。このため、各遺伝子の１００塩基あたりの点突然変異率を推定した。図４は、各遺伝子の１００塩基あたりの点突然変異率を示す図である。図４において、横軸は遺伝子名であり、縦軸は１００塩基あたりの点突然変異率である。図４のように、遺伝子長で正規化した場合は、５’－非翻訳領域（ＵＴＲ）と３’－ＵＴＲで点突然変異の頻度が最も高かった。
これらの結果は、点突然変異がＳＡＲＳ－ＣｏＶ－２変異体に存在することを示している。

【0034】

次に、発明者らは、遺伝子変異の可視化することで、遺伝子変異の特徴について解析した。
図５は、変異した核酸塩基を調べた結果を示す図である。横軸は点突然変異後の置換塩基数であり、縦軸は塩基（Ａ（アデニン）、Ｕ、Ｇ（グアニン）、Ｃ）である。図５のように、Ｕへの変異が半分以上の割合を占めていることが分かった。

【0035】

図６は、それぞれの塩基がどの塩基から変異しているか調べた結果を示す図である。横軸は各点突然変異時の元の塩基と置換塩基数であり、縦軸は塩基から塩基である。この結果、Ｕへの変異は、Ｃ、Ｇ（特にＣ）からの変異が多いことが分かった。また、その他にもＧはＡ、ＡはＧ、ＵはＣへの変異が優位であることが分かった。ＣからＵとＧからＡはＡＰＯＢＥＣによって導入され、ＡからＧとＵからＣはＡＤＡＲによって導入されることが知られている。なお、実施形態では、例えばＣからＵの変異をＣｔｏＵとも書く。

【0036】

図７は、各遺伝子の変異パターンを示す図である。図８は、各遺伝子における点突然変異の数を遺伝子長で割った変異数を示す図である。図７と図８において、横軸は遺伝子名である。図７の縦軸は変異数である。図８の縦軸は１００ベースごとの変異数である。図７、図８より、遺伝子ごとに多少の違いはありながらも、ＣｔｏＵの変異が優位であった。

【0037】

さらに、図５～図８で観測された変異のうち、ＣｔｏＵとＧｔｏＡはＡＰＯＢＥＣ、ＡｔｏＧとＣｔｏＵは、ＡＤＡＲによって導入される変異と一致している。このため、発明者らは、この４つの変異について上流下流１塩基のコンテキストを調べた。

【0038】

図９は、ＣｔｏＵにおける点変異の両側の塩基配列の特徴を示す図である。図１０は、ＧｔｏＡにおける点変異の両側の塩基配列の特徴を示す図である。図１１は、ＡｔｏＧにおける点変異の両側の塩基配列の特徴を示す図である。図１２は、ＵｔｏＣにおける点変異の両側の塩基配列の特徴を示す図である。図９～図１２において、横軸は塩基名であり、縦軸はＡ、Ｕ、Ｇ、Ｃそれぞれの割合［％］である。また、図９～図１２において、左のグラフは突然変異部位の５’側の塩基（－１）を示し、右のグラフは突然変異部位の３’側の塩基（－１）を示す。

【0039】

図９のように、ＣｔｏＵの変異においては、５’側、３’側では、共にＡとＵが多く隣接していた。一方、図１０のように、ＧｔｏＡの変異において、５’側にはＡとＵが多く隣接し、３’側にはＧとＵが多く隣接していた。なお、これに相補的な配列は、［Ｃ／Ｕ］Ｃ、Ｃ［Ａ／Ｕ］である。

【0040】

図１１のように、ＡｔｏＧの変異においては、５’側ではＡとＵが多く隣接し、３’側ではＵとＧが多く隣接していた。また、図１２のように、ＵｔｏＣの変異においては、５’側にＵが多く隣接し、３’側にはＧとＵが多く隣接していた。なお、これに相補的な配列は、ＣＡ、［Ａ／Ｃ］Ｃである。

【0041】

次に、一番多く観測されたＣからＵへの変異（ｎ＝２４０１）の上流下流３塩基ずつのコンテキストについて、より詳細に検討した結果を説明する。図１３は、ＣからＵへの変異（ｎ＝２４０１）の上流下流３塩基ずつのコンテキストの特徴を示す図である。なお、０は突然変異部位を示し、負の数字と正の数字はそれぞれ上流側と下流側の部位を示す。図１３において、横方向はコンテキストの位置である。また、各数値は、各位置における塩基ＡＵＧＣそれぞれの数である。図１３のように、置換されるＣ前後にはＡとＵが非常に多くなっていた。この理由は、ＳＡＲＳ－ＣｏＶ－２にＡとＵが多く含まれているバイアスを受けていると考えられる（Ａが３０％、Ｕが３２％）。

【0042】

図１３のような特徴が得られたため、ＳＡＲＳ－ＣｏＶ－２のシークエンスの全てのＣのコンテキストについて調べ、期待値とし、それぞれの塩基について、該当する期待値からの増減［％］を調べた。図１４は、ＳＡＲＳ－ＣｏＶ－２のシークエンスの全てのＣのコンテキストにおいて、それぞれの塩基に該当する期待値からの増減［％］を示す図である。図１４において、横方向はコンテキストの位置である。図１４のように、位置＋２、＋１ではＵが高く、－１ではＧが高くなっていた（ｐ＜１０＾－３，ｆｉｓｈｅｒｅｘａｃｔｔｅｓｔ）。一方、位置＋１では、Ｃが少なくなっていた（ｐ＜０．０１，ｆｉｓｈｅｒｅｘａｃｔｔｅｓｔ）。これは、変異を導入するＡＰＯＢＥＣの基質特異性を示唆している可能性がある。なお、Ｃ－ｔｏ－Ｕ変異におけるシトシン残基の上流側（－３）および下流側（＋３）のコンテキストの期待値は、参照配列のアンマスク領域の全シトシン残基のコンテキストの比率から算出した（図１５）。図１５は、参照配列のアンマスク領域の全シトシン残基のコンテキストの比率を示す図である。

【0043】

以上のような解析によって、以下の４つの遺伝子変異の特徴を発見した。
Ｉ．ウラシル（Ｕ）変異が多い
ＩＩ．シトシン（Ｃ）からウラシル（Ｕ）への変異が多い
ＩＩＩ．遺伝子変異にはＲＮＡ編集酵素が関与している
ＩＶ．ウラシル変異の前後１塩基から３塩基には特徴的な配列がある

【0044】

［学習手順］
次に、ウイルス変異予測装置１による学習手順例を説明する。なお、実施形態では、ＳＡＲＳ－ＣｏＶ－２のゲノムを教師データとして使用した。図１６は、本実施形態に係るウイルス変異予測装置１による学習手順のフローチャートである。

【0045】

（ステップＳ１）取得部１１は、ＤＢ２（例えばＧＩＳＡＩＤ）からＳＡＲＳ－ＣｏＶ－２のゲノムデータを取得する。取得部１１は、取得したＳＡＲＳ－ＣｏＶ－２のゲノムデータを記憶部１２に記憶させる。

【0046】

（ステップＳ２）抽出部１３は、取得したＳＡＲＳ－ＣｏＶ－２のゲノムから、ＣまたはＧを選び出す。抽出部１３は、取得したＳＡＲＳ－ＣｏＶ－２のゲノムから、ＣまたはＧからＵへの変異が起こる、または起こったコンテキストｇ１１（図１７）も抽出する。図１７は、マッピングと変異記録のイメージ図である。なお、コンテキストは、例えば３通り（－２から＋２、－３から＋３、－１０から＋１０）である。

【0047】

（ステップＳ３）分離部１４は、取得したＳＡＲＳ－ＣｏＶ－２のゲノムデータのＣまたはＧからＵへの変異部分を抽出し、抽出した変異部分を１ゲノム上にマッピングする（図１７）。

【0048】

（ステップＳ４）分離部１４は、ＣまたはＧが変異を受けたか否かを示す情報を記憶部１２に記憶させる（図１７）。分離部１４は、例えば、ＣまたはＧからＵに変異した場合を１と記憶させ、ＣまたはＧのままを０として数値化して記憶させる。

【0049】

（ステップＳ５）分離部１４は、ＣまたはＧからＵに変わった時、アミノ酸変異があるかを確認し、確認結果を記憶部１２に記憶させる。分離部１４は、アミノ酸変異があると判別した場合（ステップＳ５；ＹＥＳ）、ステップＳ６の処理に進める。分離部１４は、アミノ酸変異がないと判別した場合（ステップＳ５；ＮＯ）、ステップＳ７の処理に進む。

【0050】

（ステップＳ６）分離部１４は、非同義置換であると判別し、このデータも学習に使用する。

【0051】

（ステップＳ７）分離部１４は、同義置換であると判別し、このデータを学習に使用する。なお、同義置換となる約１８００部位のうち６７５部位で変異を確認した。処理後、分離部１４は、ステップＳ８の処理に進める。

【0052】

（ステップＳ８）サンプリング部１５は、アミノ酸置換のない（同義置換）のものを１０００個（変異有５００、無５００）に選ぶ（第１ランダムサンプリング）。なお、サンプリング部１５は、このランダムな選択を、５回行ってアミノ酸置換のない（同義置換）のものを１０００個選択する。

【0053】

（ステップＳ９）一般的に機械学習の際には、学習データを６０から８０％とすることが多いため、サンプリング部１５は、選択した１０００個のうち８００個を学習データとして選ぶ（第２ランダムサンプリング）。なお、サンプリング部１５は、ランダムな選択を、５回行って８００個を選ぶ。なお、サンプリング部１５は、この処理は、行わなくてもよい。

【0054】

（ステップＳ１０）学習部１７は、選んだ８００個を学習データとし、残り２００個をテストデータとする。なお、学習部１７は、変異なしも学習データに使用する。

【0055】

（ステップＳ１１）特徴量追加選択部１６は、特徴量（パラメーター）を追加する。例えば、－１０から＋１０の塩基配列において、ＲＮＡ塩基は、Ａ、Ｕ、Ｇ、Ｃの４種類あり、２０塩基の配列があることから、特徴量は８０種類（＝４×２０）となる。このうち、２塩基を選んで特徴づけるため、８０の２乗の６４００種類あるが、組み合わせなので、特徴量はその半分の３２００通りになる。続けて、特徴量追加選択部１６は、３２００通りのパラメーターの中で、例えば上位３０を選び出す。なお、特徴量の個数は一例であり、これに限らない。特徴量追加選択部１６は、基準にｘ二乗検定を選択し、ＳｅｌｅｃｔＫＢｅｓｔ（ｃｈｉ２、Ｋ＝３０）を用いた。なお、この特徴量は、学習の際、スコア（ここでのスコアは正答率と同義）を向上させるために用いられる。なお、特徴量は、図１９のように、コンテキストの中で選ばれた２塩基の組み合わせである。

【0056】

（ステップＳ１２）学習部１７は、特徴量と学習データを用いて学習を行う。

【0057】

（ステップＳ１３）予測部１８は、学習された結果を用いて、点変異を予測する。なお、予測については後述する。

【0058】

なお、上述した例では、コンテキストが３通り（－２から＋２、－３から＋３、－１０から＋１０）の例を示したが、これに限らない。コンテキストは、－３から＋３以上、－１０から＋１０以下であればよい。なお、－３から＋３以上、－１０から＋１０以下とは、－４から＋４、・・・、－９から＋９を含む。

【0059】

図１８は、同義置換（アミノ酸変異なし）を用いた場合の２つのポジションの組み合わせ例を示す図である。例えば１行目の「１＿Ｇ４＿Ｇ」は、１＿Ｇが位置＋１のＧを示し、４＿Ｇが位置＋４のＧを示す。また、２行目の「－２＿Ｔ１＿Ｇ」は、ＴＮＣＧのコンテキストを示している。

【0060】

図１９は、選択された上位３０の特徴量の一例を示す図である。なお、ハッチングｇ２１は増加を表し、ハッチングｇ２２は減少を表している。なお、選択される特徴量は、３０個に限らない。

【0061】

［特徴有無によるスコアの比較］
ここで、特徴量を追加しなかった場合と追加かした場合の学習結果のスコアの差を説明する。１０００部位のランダムサンプリングしたもののうち、８００部位を学習データとし、２００部位をテストデータとし、交差検証を行った（ｎ＝５）。結果を図２０と図２１に示す。

【0062】

図２０は、特徴量追加無し・選択無しの場合のコンテキストとスコアの関係例を示す図である。図２１は、特徴量追加有り・選択有りの場合のコンテキストとスコアの関係例を示す図である。図２０と図２１において、横軸はコンテキスト｛（－２、＋２）、（－３、＋３）、（－１０、＋１０）｝であり、縦軸はスコアである。また、各コンテキストにおいて点は、ロジスティック回帰における正則化パラメーターＣ値であり、左から順に０．０００１、０．００１、０．０１、０．１、１．０、１０．０、１００．０、１０００．０である。１つの点は交差検証のスコア（ｎ＝５）の平均値である。なお、正則化パラメーターは、値が大きいほど学習しやすいことを示している。また、スコアは正答率を示し、ばらつきはデータの偏りに対する頑健性を示す。

【0063】

特徴量追加無し・選択無しの場合は、図２０のようにコンテキストの範囲を増やしても学習結果のスコアが向上しなかった。これに対して、特徴量追加有り・選択有りの場合は、図２１の矢印ｇ３１のように、コンテキストの範囲を増やすと学習結果のスコアが向上した。このように、特徴量の追加、選択は、変異予測に有効であることが分かった。

【0064】

実施形態では、上述したように機械学習で変異を予測させるために、特徴量を加え８００個を学習させる。その時、予測部１８は、特徴量（上位３０）を加えたことで上位３０の順位に応じて、係数をかけて計算して予測している。特徴量（上位３０の中でも）の中でも、真に重要なものとノイズがある。

【0065】

Ｃ値を学習のしやすさと表現したが、その意味は、特徴量をもとに係数をかけて計算しているものの、その中にもノイズが含まれているので、Ｃ値で分類した（Ｃ値が小さければノイズなし、大きければノイズを含む）。
例えば、Ｃ＝０．０００１であれば、ノイズを拾っていない学習のため、学習しきれていず、Ｃ＝１０００であれば、ノイズも拾って学習している、ということである。
図２１では、適正のＣ値（－３から＋３、‐１０から＋１０とも）は、スコアが上がりきった最初の位置（Ｃ＝０．１か、１．０）が適正値と考えられる（真の特徴量の係数で計算できている可能性が高い）。なお、過学習は、ノイズを拾うので、ノイズをいかに少なくし、真に重要な特徴量を学ばせるかが重要となる。

【0066】

図２２は、特徴量追加有り・選択有りの場合のコンテキストと正則化パラメーター毎のスコアの平均値を示す図である。図２３は、特徴量追加有り・選択有りの場合のコンテキストと正則化パラメーター毎のスコアの標準偏差を示す図である。
図２２、図２３のようにコンテキスト－２から＋２と、３から＋３との比較では、－３から＋３の方が、スコアが高いこと、かつ、ばらつき（標準偏差）が小さい。スコアが高いと正答率が高く、ばらつきが小さいと得られる結果の妥当性が高いことを示すため、実用的になっていると考えられる。

【0067】

さらに、コンテキスト－３から＋３よりも－１０から＋１０の方が、よりスコアが高く、ばらつきも小さかった。したがって、コンテキストは、－２から＋２よりも－３から＋３の方が良く、－３から＋３よりも－１０から＋１０が良い。すなわち、－１０から＋１０のコンテキストが一番良かった。

【0068】

［変異予測］
次に、本実施形態における変異予測の例を説明する。図２４は、実施形態に係る変異予測の処理手順のフローチャートである。なお、予測に際して、上述した学習が予め行われている。

【0069】

（ステップＳ１０１）予測部１８は、予測した結果のスコアを算出し、算出したスコアを出力部１９を介して画像表示装置３に表示させる。この結果、画像表示装置３には、例えば図２５のような、コンテキストとスコアの関係のグラフが表示される。図２５は、変異予測時に画像表示装置３上に表示される情報の一例を示す図である。

【0070】

（ステップＳ１０２）利用者は、表示された画像（図２５）を見て、例えばコンテキスト－３から＋３のＣ＝０．１の領域ｇ４１を選択する。操作部２０は、利用者によって選択された選択情報を予測部１８に出力する。

【0071】

（ステップＳ１０３）予測部１８は、選択されたコンテキストの正則パラメーターに対して、所定のアルゴリズム（例えばロジスティック回帰）で図２６のような統計的処理を行う。図２６は、ロジスティック回帰計算した結果例を示す図である。図２６の縦軸はスコアであり、直線ｇ４２は変異有無の閾値である。予測部１８は、図２６のようなグラフを画像表示装置３上に表示させる。

【0072】

（ステップＳ１０４）利用者は、表示された画像（図２６）を見て、変異有りの点、例えば点ｇ４３を選択する。操作部２０は、利用者によって選択された選択情報を予測部１８に出力する。

【0073】

（ステップＳ１０５）予測部１８は、選択された点を、図２７のように１つのＳＡＲＳ－ＣｏＶ－２ゲノム上の位置ｇ４４にマッピングし、マッピングした画像を画像表示装置３上に表示させる。図２７は、変異記録と変異予測を示す図である。

【0074】

（ステップＳ１０６）予測部１８は、表示された画像（図２７）において抽出部分を操作部２０が操作されて選択されたことを検出した際、図２６のどこに相当するかを表示する（バックキャスト機能）。なお、予測部１８は、１つの画面内に、図２５～図２７の全てを表示してもよく、すくなくとも１つを表示して切り替えて表示するようにしてもよい。本実施形態では、このように、例えば図２６と図２７で双方向に選択、マッピングできる。

【0075】

なお、図２４に示した処理手順は一例であり、これに限らない。

【0076】

上述したように、新型コロナウイルスの世界のゲノム７８００遺伝子配列を網羅的に解析したところ、ウイルス遺伝子変異には特徴があることが判明した。その特徴は、１）ウラシル（Ｕ）変異が多いこと、２）シトシン（Ｃ）からウラシル（Ｕ）への変異が多いこと、３）遺伝子変異にはＲＮＡ編集酵素が関与していること、４）ウラシル変異の前後１塩基から３塩基には特徴的な配列があること、がわかった。また、コロナウイルスはＲＮＡ校正酵素をもつため、変異が点変異に限定され、かつＲＮＡ編集酵素による変異が顕在化していると考えられた。その結果、本実施形態では、ＲＮＡ編集酵素に着目して、ウイルス遺伝子変異の前後数塩基の特徴的配列をもとにウイルスゲノムを検索することで、将来変異が入りうる場所、および置き換わる塩基を予測することが可能となった。すなわち、本実施形態によれば、新型コロナウイルスの将来起こりうる変異を予測することができるようになった。

【0077】

本実施形態では、ウイルス遺伝子変異の前後数塩基の特徴的配列をもとにウイルスゲノムを検索し、これまでの変異（ＣまたはＧからＵ）を教師データとして、機械学習させ、変異を予測するようにした。

【0078】

この結果、本実施形態では、６０から７０％の精度正答率でウイルス変異を予測することが可能となった。ただし、この正答率は、ＲＮＡ編集酵素による変異のみならず突然変異も含んだ正答率であり、突然変異とＲＮＡ編集酵素のみの変異を区別することで、ＲＮＡ編集酵素による変異予測の正答率はより高率になっていることは容易に想像できる。なお、上記においてＡＵＣ（Area Under the Curve）スコアを正答率として用いた。ＡＵＣスコアの算出等については後述する。
これにより、本実施形態によれば、ウイルス変異を、変異が起こる前に事前に予測できれば、ウイルス感染診断において、事前に診断キットを準備することができる。本実施形態によれば、超早期診断キットの開発を可能とする発明である。また、本実施形態によれば、診断キットのみならず、ワクチンの効果判定や、ウイルス抗体医薬の効果判定、免疫パスポートの認証や取り消しも可能とする。加えて、本実施形態によれば、治療薬の候補選択も可能となることから、超早期治療を可能とする。

【0079】

［検証結果］
以下、上記の学習、予測について、検証した結果の一例を説明する。
点変異によりウイルスゲノムのＵが増えることが明らかとなった。Ｕが増加することによる、炎症の増強が考えられるため、炎症性サイトカイン産生が変化するか否かを調べた。細胞刺激アッセイのために、４つの異なる配列、ＥＰＩ＿ＩＳＬ＿４１９３０８、ＥＰＩ＿ＩＳＬ＿４１５６４４、ＥＰＩ＿ＩＳＬ＿４１８４２０、およびＥＰＩ＿ＩＳＬ＿４１９８４６をＳＡＲＳ－ＣｏＶ－２バリアントから選択した。これらの変異配列は、それぞれ日本、ジョージア州、フランス、オーストラリアで検出されたものである。

【0080】

作業者は、４種類の変異体のそれぞれの一本鎖ＲＮＡ（ｓｓＲＮＡ）の全長の中から、Ｕへの変異が観察された１つの領域を抽出し、合成した。
これらの異なるバリアントから得られたｓｓＲＮＡの配列は以下の通りであった。ｖａｒｉａｎｔ－１（５’－ＡＵＵＵＡＵＵＧＵＵＣＵＵＵＵＡＣＣＣ－３’；ａｔ２９４６－２９６５ｒｅｇｉｏｎｉｎＥＰＩ＿ＩＳＬ＿４１９３０８）、ｖａｒｉａｎｔ－２（５’－ＡＵＵＵＡＵＵＧＵＵＣＵＵＵＵＵＣＵＵＵＵＡＣＣＣ－３’；ＥＰＩ＿ＩＳＬ＿４１５６４４の１１０４１～１１０６０領域）、バリアント－３（５’－ＵＵＵＣＵＡＣＡＧＵＧＵＣＣＣＡＣＵＵ－３’；ＥＰＩ＿ＩＳＬ＿４１８４２０の１４３９２～１４４１１領域）、およびバリアント－４（５’－ＡＡＡＣＣＵＵＵＧＡＧＡＧＡＧＵＵ－３’；ＥＰＩ＿ＩＳＬ＿４１９８４６の２２９４６～２２９６５領域）。

【0081】

変異したＳＡＲＳ－ＣｏＶ－２配列の対照として、参照配列（ＭＮ９０８９４７）と同じ領域を用いた。それぞれの異なる４種類の変異体に対応する参照配列は以下の通りであった。武漢－１（５’－ＡＵＧＵＡＡＵＧＵＵＣＵＣＣＣ－３’；ａｔ３０２３－３０４２ｒｅｇｉｏｎ）、武漢－２（５’－ＵＣＵＣＵＡＵＧＵＣＵＣＵＣＵＣＣＵＣＣＣ－３’；ａｔ１１０６６－１１０８５ｒｅｇｉｏｎ）、武漢－３（５’－ＵＣＵＣＵＡＵＣＡＧＵＣＣＣＵＣＣＣＵＣＣＵＣＵＣＵ－３’；ａｔ１４３９０－１４４０９ｒｅｇｉｏｎ、１１０６６－１１０８５領域）、武漢－３（５’－ＵＣＵＣＵＡＣＣＵＡＣＧＵＧＵＣＣＣＣＵＣＵ－３’；１４３９０－１４４０９領域）、および武漢－４（５’－ＡＡＡＣＣＣＵＡＣＵＵＵＧＵＡＧＡＧＡＧＵＡＵＡＵ－３’；２２９４６－２２９６５領域）。

【0082】

ＴＬＲ７媒介サイトカイン産生の誘導には、Ｕを含まない配列（５’－ＧＡＣＡＧＡＧＡＧＡＧＡＡＣＡＡＧ－３’）をネガティブコントロールとして用いた。検証には、株式会社日本遺伝子研究所（宮城県仙台市）が合成したｓｓＲＮＡを用いた。

【0083】

ヒト単球性白血病細胞株ＴＨＰ－１は、１０％ＦＣＳ、５５ｍＭ２－メルカプトエタノール、１００ｍＭ非必須アミノ酸（ＮＥＡＡｓ）、１ｍＭピルビン酸および２０ｍＭｍｌ－１の各ペニシリンおよびストレプトマイシンを添加したＲＰＭＩ－１６４０培地で維持した。

【0084】

４×１０＾５細胞を、９６ウェル平底プレートを用いて１５０μｌＲＰＭＩで培養した。ＹａｎＬｉらに準じて疑似感染モデルを行った。

【0085】

発明者らは、初期に報告された武漢型（Ｗ）をもとに、ＧＩＳＡＩＤより遺伝子配列を収集して、図２８の系統樹を作成した。図２８は、系統樹を示す図である。検証では、各ＲＮＡ配列の全長内でのＵへの点突然変異の頻度を調べるために、ＳＡＲＳ－ＣｏＶ－２変異体から以下の４つの異なる配列を選んだ。４つの配列は、第１バリアント（ｖａｒｉａｎｔ－１、日本型）、第２バリアント（ｖａｒｉａｎｔ－２、ジョージア型）、第３バリアント（ｖａｒｉａｎｔ－３、フランス型）、および第４バリアント（ｖａｒｉａｎｔ－４、オーストラリア型）に由来している。また、図２８において、Ｗは、武漢で報告されたオリジナルのＳＡＲＳ－ＣｏＶ－２配列を示す。

【0086】

図２９は、選んだ４つの変異型を各種変異型のゲノム上の変異部位と、疑似感染モデルの際に使用したＲＮＡ配列の位置を示す図である。図２９において、横方向は（ｂｐ）であり、下向き三角形はＶｔｏＵ（ＶはＵ以外のすべての塩基）であり、上向き三角形はＵｔｏＶであり、四角は細胞刺激に用いたｓｓＲＮＡの配列を示す。図２９のように、各ＳＡＲＳ－ＣｏＶ－２変異体の全長ｓｓＲＮＡ内のＵの数は、元の単離株と比較して有意に増加している。また、図２９のように、Ｕに対する点突然変異の頻度は、Ａ、Ｇ、またはＣに対するＵの頻度よりもはるかに高かった。このように、完全長の変異したｓｓＲＮＡの炎症性サイトカインを誘導する能力は、元の分離株よりもはるかに大きい。これらの結果は、ＳＡＲＳ－ＣｏＶ－２遺伝子変異が炎症性活性化の亢進を引き起こすメカニズムの一つである可能性を示唆している。

【0087】

これまでのいくつかの研究では、Ｕ－ｒｉｃｈｓｓＲＮＡがＴＬＲ７シグナルを介して自然免疫細胞を刺激し、炎症性サイトカインを産生することが示されている。このように、点突然変異に起因する多数のＵ残基が、ヒトマクロファージによる炎症性サイトカインの誘導を促進しているのではないかという仮説を立てた。

【0088】

この仮説を検証するために、ＳＡＲＳ-ＣｏＶ-２変異体のＵリッチ領域で刺激されたヒト単球／マクロファージ細胞株ＴＨＰ-１におけるＴＮＦ-αおよびＩＬ（インターロイキン）-６の産生を解析した。図３０は、ｓｓＲＮＡによるＴＮＦ-α産生の誘導を示す図である。ヒトＴＮＦ－αの測定のために、細胞をＰＭＡ（０．２ｎｇ／ｍｌ、ＳｉｇｍａＡｌｄｒｉｃｈ、Ｓｔ．Ｌｏｕｉｓ、ＭＯ、ＵＳＡ）の存在下で培養し、ＤＯＴＡＰ（１０μｇ、ＲｏｃｈｅＤｉａｇｎｏｓｔｉｃｓ、Ｍａｎｎｈｅｉｍ、Ｇｅｒｍａｎｙ）を用いて１６０（ｐｍｏｌ）のｓｓＲＮＡで刺激した。サイトカインの検出のため、ヒトＴＮＦ－αおよびＩＬ－６は、ＯｐｔＥＩＡセット（ＢＤＢｉｏｓｃｉｅｎｃｅ、ＳａｎＤｉｅｇｏ、ＣＡＵＳＡ）を用いて培養上清中で測定した。ＴＮＦ-αの産生は、１８時間の刺激後に測定した。

【0089】

なお、図３０と図３１において、例えばＷ－１は初期の武漢型を示し、ｖａｒｉａｎｔ－１は変異型を示す。

【0090】

図３１は、ｓｓＲＮＡによるＩＬ-６産生の誘導を示す図である。ヒトＩＬ-６の測定のために、細胞をＰＭＡ（５０ｎｇ／ｍｌ）の存在下で培養し、ＤＯＴＡＰ（１５μｇ）を用いて４８０（ｐｍｏｌ）のｓｓＲＮＡを用いて刺激した。ＩＬ-６の産生は、４８時間の刺激後に測定した。

【0091】

値は平均±ＳＤ（ｎ＝６）である。データは、類似の結果を有する２つの独立した実験の代表である。
なお、フィッシャー厳密検定は、Ｐｙｔｈｏｎ３ベースパッケージのｓｃｉｐｙ１．４．１を用いて片側検定で行った。また、Ｍａｎｎ－ＷｈｉｔｎｅｙＵ検定は、Ｐｒｉｓｍ８ソフトウェア（ＧｒａｐｈＰａｄＳｏｆｔｗａｒｅ、ＳａｎＤｉｅｇｏ、ＣＡ）を用いて実施した。Ｐ＜０．０５の値は、有意性を示す。

【0092】

図３０のように、予想通り、Ｕ残基を欠いたｓｓＲＮＡ配列は、ＴＮＦ－αの産生をアップレギュレートしなかった。点突然変異によって誘導されたＵ数の増加は、武漢型の参照ｓｓＲＮＡ配列による刺激と比較して、ｖａｒｉａｎｔ－１、３、４のサイトカイン産生を増加させた。
また、図３１のように、ＴＮＦ-αに比べてＩＬ-６の産生は低かったが、ＩＬ-６の産生には同様の傾向が観察された。これらの結果は、ＳＡＲＳ－ＣｏＶ－２ゲノム内のＵへの点変異が、ＴＮＦ－αやＩＬ－６などの炎症性サイトカインの産生増加を刺激する能力をもたらすことを示している。すなわち、Ｕ変異の予測は、炎症性サイトカイン産生の増強も予測できるため、患者の炎症の症状、重症化も判別が可能となる。

【0093】

そして、本実施形態では、取得部が、ウイルスのゲノムの遺伝子配列データを取得する。抽出部が、取得したゲノムの遺伝子配列データからＣ（シトシン）またはＧ（グアニン）を抽出し、ＣまたはＧからＵ（ウラシル）への変異が起こるまたは起こったコンテキストを抽出する。
本実施形態では、上述したように、抽出したコンテキストの塩基配列がＣまたはＧからＵに変わった場合、アミノ酸変異があるかを確認する。ＲＮＡ編集酵素による変異は、ゲノムＲＮＡに直接作用して変異を誘導するためにアミノ酸変異の有無にかかわらずおこると考えられる。しかしその一方で、アミノ酸変異がある場合は、変異の要因にかかわらずウイルスの生存にかかわる変異があるため存在しないウイルス、存在しないゲノムデータもあるはずである。そのため、アミノ酸変異を含む変異データ自体が偏ったデータであると考えられる。従って、学習データするのには、アミノ酸変異のないデータを用いるのが妥当である。
そこで、本実施形態では、分離部が、アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離する。そして、学習部が、同義置換の配列データを学習データに用いて学習し、予測部が、学習された結果を用いて、ウイルスの変異を予測する。

【0094】

［解析プログラム］
ここで、上述したウイルス変異予測装置１をソフトウエアプログラムである解析プログラムで実現した例を説明する。図３２は、本実施形態に係る解析プログラムの処理内容例と処理手順例を示す図である。図３２において、縦方向は主な処理であり、横方向は処理手順である。

【0095】

解析プログラムは、前処理（ステップＳ２１０）で、解析を行う対象のファイルを読み込み（ステップＳ２１１）、説明変数・目的関数の設定を行い（ステップＳ２１２）、特徴量作成用の関数を定義し（ステップＳ２１３）、塩基配列の範囲およびグリッドサーチ用パラメーターの設定を行う（ステップＳ２１４）。
なお、目的変数とは変異の有無であり、説明変数はダミー化した塩基配列および塩基割合の２つである。特徴量作成用の関数は、例えば塩基配列の範囲（例：－３～＋３）を引数として、塩基割合（１レコードに対して「Ａ」「Ｇ」「Ｃ」「Ｔ」がそれぞれ全体の何％含まれているか）を算出する関数である。

【0096】

解析プログラムは、学習プロセス（ステップＳ２２０）で、特徴量の作成を行い（ステップＳ２２１）、グリッドサーチによるパラメーターの最適化を行い（ステップＳ２２２）、交差検証・各種モデルの学習を実行し（ステップＳ２２３）、各種モデルのＡＵＣスコアを算出する（ステップＳ２２４）。
なお、特徴量の作成では、特徴量作成用の関数を用いて塩基の割合を算出し、引数に指定した変数をダミー化する関数を用いて塩基配列のダミー変数化を行う。また、ＡＣＵスコアは、ＲＯＣ（Receiver Operating Characteristic Curve）曲線を作成した時に、グラフの曲線より下の部分の面積であり、例えば０から１までの値をとり、値が１に近いほど判別能が高いことを示す。

【0097】

解析プログラムは、精度評価処理（ステップＳ２３０）で、各種モデルのＡＵＣスコアを出力し（ステップＳ２３１）、ＡＵＣスコアの要約統計量を算出する（ステップＳ２３２）。

【0098】

解析プログラムは、データ可視化処理（ステップＳ２４０）で、回帰式の係数をヒストグラムで表し箱ひげ図でプロットし（ステップＳ２４１）、各種モデルのＲＯＣ曲線をプロットする（ステップＳ２４２）。

【0099】

［モデルのハイパーパラメータの最適化の解析］
次に、モデルのハイパーパラメータの最適化について解析した結果例を説明する。解析では、各モデルのハイパーパラメータについて、塩基配列の範囲ごとにグリッドサーチを行い、最適化した数値を算出した。

【0100】

図３３は、塩基配列の範囲ごとにグリッドサーチを行い、最適化した各モデルのハイパーパラメータの値の例を示す図である。図３２の例では、モデルはロジスティック回帰と、決定木と勾配ブースティングを組み合わせた手法であるＬｉｇｈｔＧＢＭである。図３３の解析条件は、交差検証の回数が５回である。塩基配列の範囲は、－２～＋２、－３～＋３、－５～＋５、および－１０～＋１０である。ロジスティック回帰の検証に使用したハイパーパラメータは、Ｃ：［０．０００１，０．００１，０．０１，０．１，１，１０，１００，１０００］であり、ＬｉｇｈｔＧＢＭの検証に使用したハイパーパラメータは、ｎｕｍ＿ｌｅａｖｅｓ：［１０，３１，６４］、ｌｅａｒｎｉｎｇ＿ｒａｔｅ：［０．０１，０．１，１］である。
図３３のように、塩基配列の範囲が広がるにつれてロジスティック回帰における正則化の強さが増す傾向にある。また、ＬｉｇｈｔＧＢＭのハイパーパラメータ「ｌｅａｒｎｉｎｇ＿ｒａｔｅ」は０．０１で一定であった。

【0101】

［塩基配列の範囲別ロジスティック回帰の相関係数比較］
次に、塩基配列の範囲－２～＋２、－３～＋３、－５～＋５および－１０～＋１０についてロジスティック回帰の相関係数を比較した結果の一例として塩基配列の範囲－１０～＋１０の結果を、図３４～図３７に示す。解析では、塩基配列の範囲別に各変数のロジスティック回帰の相関係数をプロットし、グループ間の比較を行った。なお、図３４～図３６では、Ａ、Ｃ，Ｇ、Ｔ、Ａ＿ｐｅｒｃｅｎｔ、Ｇ＿ｐｅｒｃｅｎｔ、Ｃ＿ｐｅｒｃｅｎｔ、およびＴ＿ｐｅｒｃｅｎｔの解析結果を示している。なお、Ａ＿ｐｅｒｃｅｎｔ、Ｇ＿ｐｅｒｃｅｎｔ、Ｃ＿ｐｅｒｃｅｎｔ、およびＴ＿ｐｅｒｃｅｎｔは、１レコードあたりの塩基の割合である。また、図３４～図３６において、０～４は交差回数毎の係数であり、例えば０の棒グラフが１回目の交差検証時の係数である。図３４～図３６において、横軸はパラメーター、縦軸は率である。図３７において、縦軸は率である。

【0102】

図３４～図３６は、塩基配列の範囲－１０～＋１０；回帰式の係数をヒストグラムで表した図である。図３７は、塩基配列の範囲－１０～＋１０；回帰式の係数のヒストグラムを箱ひげ図でプロットした図である。図３４～図３６のように、塩基配列の範囲－１０～＋１０では、－６Ｔ、－２Ｇ、－２Ｔ、－１Ｇ、－１Ｔ、＋５Ａ等の値が大きかった。
また、塩基配列の範囲－２～２では、－２Ｔ、＋１Ｇの値が大きかった。塩基配列の範囲－３～３では、－２Ｔ、－１Ｇ、＋１Ｇの値が大きかった。塩基配列の範囲－５～５では、－２Ｔ、－１Ｇ、－１Ｔ、＋１Ｇ等の値が大きかった。
なお、このような相関係数は、後述する塩基ごとの重みを可視化するために使用した。

【0103】

［モデル別ＡＵＣスコアの要約統計量］
次に、モデル別ＡＵＣスコアの要約統計量を解析した結果例を説明する。解析では、学習アルゴリズムごとにＡＵＣスコアの要約統計量を算出した。
図３８は、比較した学習モデルの概要と特徴を示す図である。図３８のように、モデルは、ロジスティック回帰、ＳＶＭ（Support Vector Machine）、決定木、ランダムフォレスト、ＸＧＢｏｏｓｔ、およびＬｉｇｈｔＧＢＭである。

【0104】

図３９は、モデル別ＡＵＣスコアの要約統計量を解析した結果例を示す図である。なお、図３９では、塩基配列の範囲－２～＋２、－３～＋３、－５～＋５および－１０～１０それぞれのロジスティック回帰の相関係数を用いて、小数点第３位以下を切り捨てて要約統計量を示している。図３９の画像ｇ１０１は、ＸＤＢｏｏｓｔのＲＯＣ（ROC＿ｘｇｔ）、決定木のＲＯＣ（ROC_tree）、ＬｉｇｈｔＧＢＭのＲＯＣ（ROC_lgｂ)を示している。画像ｇ１０２は、ＳＶＭのＲＯＣ（ＲＯＣ＿ｓｖｍ）、ランダムフォレストのＲＯＣ（ＲＯＣ＿ｔｆ）、ロジスティック回帰のＲＯＣ（ＲＯＣ＿ｌｒ）を示している。図３９において、交差検証によってデータを５つに分割しているため、各要約統計量のｃｏｕｎｔが５になっている。ｍｅａｎはスコア（正答率と同義）であり、ｓｔｄは標準偏差であり、ｍｉｎは最小値で、ｍａｘは最大値である。

【0105】

図３９のように、スコアは、塩基配列の範囲－１０～＋１０が５５．４％、塩基配列の範囲－２～＋２が５６．０％、塩基配列の範囲－３～＋３が５６．６％、塩基配列の範囲－５～＋５が５６．２％であった。このように、全体的にはロジスティック回帰のスコアが高めであった。他のモデルでも、５２～５７％程度のスコアが得られた。

【0106】

次に、モデルとしてロジスティック回帰を用いた場合の処理前と処理後のＡＵＣスコアについて説明する。
図４０は、処理前のＡＵＣスコア例を示す図である。図４１は、処理後のＡＵＣスコア例を示す図である。なお、図４０、図４１では、塩基配列の範囲－２～＋２、－３～＋３、－５～＋５および－１０～＋１０それぞれのロジスティック回帰の相関係数を用いて、小数点第３位以下を切り捨てて要約統計量を示している。また、図４０、図４１では、比較のため、処理前のデータに存在しない以下の変数を削除してから、処理後のＡＵＣスコアを算出した。なお、削除した変数（ハイパーパラメータ）は、Ａ＿ｐｅｒｃｅｎｔ，Ｇ＿ｐｅｒｃｅｎｔ，Ｃ＿ｐｅｒｃｅｎｔ，Ｔ＿ｐｅｒｃｅｎｔである。

【0107】

図４０、図４１のように、ロジスティック回帰を用いた場合の処理前のＡＵＣスコアは約５１～５４％程度であるが、処理後のＡＵＣスコアは約５６～５７％程度と向上している。

【0108】

［モデル別ＲＯＣ曲線］
次に、モデル別ＲＯＣ曲線を用いて解析した結果例を説明する。解析では、塩基配列の範囲－２～＋２、－３～＋３、－５～＋５および－１０～＋１０それぞれに対して、学習アルゴリズム毎にＲＯＣ曲線をプロットし、モデル間の比較を行った。比較結果の一例として、塩基配列の範囲－２～＋２の比較結果例を図４２～図４３に示す。図４２は、塩基配列の範囲－２～＋２；交差検証回数が１回目の各モデルのＲＯＣ曲線を示す図である。図４３は、塩基配列の範囲－２～＋２；交差検証回数が２回目の各モデルのＲＯＣ曲線を示す図である。図４２～図４３において、横軸は誤答率（１．０＝１００％）、縦軸はスコア（１．０＝１００％）である。なお、用いたアルゴリズムは、図３８に示したロジスティック回帰(Logistic Regression)、ＳＶＭ、決定木（Decision Tree）、ランダムフォレスト(Random Forest)、ＸＧＢｏｏｓｔ、およびＬｉｇｈｔＧＢＭである。なお、図４２～図４３において、線ｇ２０１はＸＧＢｏｏｓｔ、線ｇ２０２は決定木、線ｇ２０３はＬｉｇｈｔＧＢＭ、線ｇ２０５はＳＶＭ、線ｇ２０５はランダムフォレスト、線ｇ２０６はロジスティック回帰それぞれのＲＯＣ曲線である。

【0109】

図４２～図４３、および塩基配列の範囲－３～＋３、－５～＋５および－１０～＋１０それぞれの結果から、いずれのモデルを用いても同等の結果が得られたが、他のモデルと比較するとＳＶＭのＲＯＣの面積の差異が塩基配列の範囲によって大きかった。

【0110】

［機械学習の実装例］
上述した解析等を行えるように、ウイルス変異予測装置１の機能を実現したプログラムは、以下のような機能を備える。
Ｉ．解析対象のファイル読み込み、解析で用いない”１”のレコードを削除する第１関数。
II.塩基割合算出用の第２関数を実行し、Iで読み込んだデータの塩基割合を算出し、新たな変数に格納する。
ＩＩＩ．Ｉで読み込んだデータのうち、塩基配列の変数（ファイルの例えばＣ～Ｖ列）を、第３関数を用いてダミー変数化する。
ＩＶ．第４関数を用いてグリッドサーチを実行し、各種モデルのパラメーターを最適化する（図３３）。
Ｖ．第５関数を用いて５分割交差検証を実行する。
ＶＩ．ＩＩ、ＩＩＩの変数を説明変数、Ｉで読み込んだデータのうち変異の有無（ファイルの例えばＢ列）を目的変数として第１メソッドに設定し、各モデルの学習を実行する。なお、第１メソッドは、第一引数に分類対象のテストデータを、第二引数に分類した結果の正しい答えを指定することで、機械学習を行う。
ＶＩＩ．ＶＩの学習結果をもとに、第６関数を用いて各モデルのＡＵＣスコアを算出する。
ＶＩＩＩ．各モデルのＡＵＣスコアの要約統計量を、統計情報を抽出する第２メソッドで算出する（例えば図３８～図４３）。
ＩＸ．第３メソッドを用いて、ロジスティック回帰の係数をプロットする（例えば図３４～図３６）。なお、第３メソッドは、与えられたベクトル（数値で構成される配列）の平均値を高さとして、信頼区間をエラーバーとして出力するメソッドである。
Ｘ．第３メソッドを用いて、係数を箱ひげ図でプロットする（例えば図３７）。
ＸＩ．プロットする第４メソッドを用いて、各モデルのＲＯＣ曲線をプロットする（例えば図４２～図４３）。
なお、上述したＩ～ＸＩの機能、関数、メソッドは一例であり、これに限らない。

【0111】

［学習データの分割方法、汎化性能を測定する方法］
次に、学習データの分割方法、汎化性能を測定する方法を説明する。
図４４は、５回の交差検証による学習データの分割方法例を示す図である。
学習データやテストデータをどのように分割するのは非常に重要な問題である。このため、本実施形態では、図４４のようにトレーニングデータとテストデータとを分割し、交差毎にトレーニングデータとテストデータとを入れ替えて学習を行うようにした。

【0112】

図４５は、汎化性能を測定する方法を説明するための図である。
本実施形態では、汎化性能を計測する方法として図４５のようにＳｔｒａｔｉｆｉｅｄＫＦｏｌｄを行った。この処理では、分布の比率を維持したままデータを訓練用とテスト用に分割する。
なお、図４４、図４５に示した例は一例であり、これに限らない。

【0113】

［ＧｔｏＵ，ＧｔｏＡ，ＡｔｏＧ，ＵｔｏＣ］
上述した例では、Ｃ（シトシン）またはＧ（グアニン）からＵ（ウラシル）への変異が起こるまたは起こったコンテキストを抽出する例を説明したが、これに限らない。以下に他の変異例に対する学習結果例を、図４６～図４９に示す。なお、この場合は、ＧからＵ、ＧからＡ、ＡからＧ、またはＵからＣ（またはＴ（チミン）からＣ）への変異が起こるまたは起こったコンテキストを抽出する。なお、学習や推定では、ＲＮＡ表記されているものについてＵ（ウラシル）を抽出し、ＤＮＡ表記されているものについてＴ（チミン）を抽出する。

【0114】

図４６は、ＧからＵへ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。図４７は、ＧからＡへ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。図４８は、ＡからＧへ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。図４９は、ＵからＣ（またはＴ（チミン）からＣ）へ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。なお、図４９では、ＤＮＡ表記でＴｔｏＣと表記しているが、ＲＮＡ表記ではＵからＣである。

【0115】

なお、以下の説明において、ｘｇｂはＸＧＢｏｏｓｔ、Ｔｒｅｅは決定木、ＬａｂはＬｉｇｈｔＧＢＭ、ＳｖｍはＳＶＭ、ｒｆはランダムフォレスト、Ｌｒはロジスティック回帰を示す。

【0116】

ＧからＵへの変異の場合、例えば、塩基配列の範囲－１０～＋１０の正答率の平均値は、ＸＧＢｏｏｓｔが５６．４％、決定木が５３．０％、ＬｉｇｈｔＧＢＭが５０．０％、ＳＶＭが５１．４％、ランダムフォレストが５４．０％、ロジスティック回帰が５４．０％であった。
図４６のように、ＧからＵへの変異の場合は、塩基配列の範囲－１０～＋１０、モデルＸＧＢｏｏｓｔの組み合わせの結果が最も良かった。

【0117】

また、ＧからＡへの変異の場合、例えば、塩基配列の範囲－５～＋５の正答率の平均値は、ＸＧＢｏｏｓｔが６２．２％、決定木が５７．０％、ＬｉｇｈｔＧＢＭが６２．８％、ＳＶＭが５２．６％、ランダムフォレストが６４．２％、ロジスティック回帰が６０．２％であった。また、塩基配列の範囲－１０～＋１０の正答率の平均値は、ＸＧＢｏｏｓｔが６０．６％、決定木が５６．６％、ＬｉｇｈｔＧＢＭが６１．６％、ＳＶＭが５４．４％、ランダムフォレストが６４．２％、ロジスティック回帰が５９．８％であった。
図４７のように、ＧからＡへの変異の場合は、塩基配列の範囲－１０～＋１０または－５～＋５、モデルランダムフォレストの組み合わせの結果が最も良かった。

【0118】

ＡからＧへの変異の場合、例えば、塩基配列の範囲－２～＋２の正答率の平均値は、ＸＧＢｏｏｓｔが５８．０％、決定木が５６．４％、ＬｉｇｈｔＧＢＭが６０．２％、ＳＶＭが４８．８％、ランダムフォレストが５７．２％、ロジスティック回帰が５８．２％であった。
図４８のように、ＡからＧへの変異の場合は、塩基配列の範囲－２～＋２、モデルＬｉｇｈｔＧＢＭの組み合わせの結果が最も良かった。

【0119】

Ｕ（またはＴ）からＣへの変異の場合、例えば、塩基配列の範囲－５～＋５の正答率の平均値は、ＸＧＢｏｏｓｔが６１．０％、決定木が６２．４％、ＬｉｇｈｔＧＢＭが６４．０％、ＳＶＭが５５．０％、ランダムフォレストが６２．４％、ロジスティック回帰が６２．６％であった。
図４９のように、Ｕ（またはＴ）からＣへの変異の場合は、塩基配列の範囲－５～＋５、ＬｉｇｈｔＧＢＭの組み合わせの結果が最も良かった。

【0120】

以上のように、本実施形態の手法を用いる場合は、ＸＧＢｏｏｓｔ、決定木、ＬｉｇｈｔＧＢＭ、ＳＶＭ、ランダムフォレスト、ロジスティック回帰を学習モデルとして用いることができる。この結果、本実施形態によれば、学習された結果を用いて、点変異を精度良く予測することでできる。
また、本実施形態によれば、ＧからＵへ変異する場合に加え、ＧからＡに変異する場合、ＡからＧに変異する場合、およびＴからＣに変異する場合にも、本実施形態の手法を用いて、学習された結果を用いて点変異を予測することができる。

【0121】

なお、上述した説明と図におけるコンテキストの表記について説明する。
本明細書中でコンテキストの表記は、変異部分を０とし、上流側をマイナス（－）、下流側をプラス（＋）で表記している。また、図や明細書の中では、プラス表記がある記載と無い記載（例えば“１＿Ｇ”と“＋１＿Ｇ”）があるが、同じコンテキストを表している。また、図と明細書において、例えば“１＿Ｇ”と“＋１＿Ｇ”と“１Ｇ”と“＋１Ｇ”のように数字とアルファベットとの間にアンダーバーがある表記と無い表記とが混在しているが、これらは同じコンテキストを表している。
また、塩基配列の範囲については、例えば－２から＋２について、明細書と図で“－２－＋２”または“－２～＋２”と記載している。

【0122】

なお、本発明におけるウイルス変異予測装置１の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりウイルス変異予測装置１が行う全ての処置または一部の処理を行ってもよい。また、機械学習には、ディープラーニング法など種々の学習法を用いてもよく、人工知能（AI: Artificial Interigence）を用いて処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

【0123】

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

【0124】

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。

【符号の説明】

【0125】

１…ウイルス変異予測装置、２…ＤＢ、３…画像表示装置、１１…取得部、１２…記憶部、１３…抽出部、１４…分離部、１５…サンプリング部、１６…特徴量追加選択部、１７…学習部、１８…予測部、１９…出力部、２０…操作部、Ａ…アデニン、Ｕ…ウラシル、Ｇ…グアニン、Ｃ…シトシン、Ｔ…チミン

【図1】