(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024162488
(43)【公開日】2024-11-21
(54)【発明の名称】計算機システムとシミュレーション方法
(51)【国際特許分類】
G16B 30/00 20190101AFI20241114BHJP
G16B 40/00 20190101ALI20241114BHJP
C12Q 1/68 20180101ALN20241114BHJP
C12M 1/00 20060101ALN20241114BHJP
【FI】
G16B30/00
G16B40/00
C12Q1/68 100Z
C12M1/00 A
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2023078036
(22)【出願日】2023-05-10
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.PYTHON
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110002365
【氏名又は名称】弁理士法人サンネクスト国際特許事務所
(72)【発明者】
【氏名】庄司 竜麻
(72)【発明者】
【氏名】竹内 渉
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA23
4B029AA27
4B029BB20
4B029FA15
4B063QA20
4B063QQ42
4B063QQ52
4B063QR08
4B063QR32
4B063QR35
4B063QR62
4B063QS25
4B063QS34
(57)【要約】 (修正有)
【課題】任意の配列を持った生体高分子の分解安定性を高精度に予測可能なシステムを提供する。
【解決手段】コンピュータは、生体高分子の配列の情報を取得し、配列を複数の領域に分類し、複数の領域の夫々の安定性を計算し、計算の結果に基づく前記複数の領域夫々の安定性を纏めた代表値に基づいて生体高分子の安定性の予測シミュレーションを実行する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
生体高分子の安定性をシミュレーションする計算機システムであって、
メモリに格納されたプログラムを実行するコントローラを備え、
前記コントローラは、
前記生体高分子の配列の情報を取得し、
前記配列を複数の領域に分類し、
前記複数の領域の夫々の安定性を計算し、
当該計算の結果に基づく前記複数の領域夫々の安定性を纏めた代表値に基づいて前記生体高分子の安定性の予測シミュレーションを実行する、
計算機システム。
【請求項2】
前記コントローラは、
前記複数の領域の夫々を、前記配列の位置と幅によって特定することによって、前記生体高分子の配列から抽出し、
前記生体高分子の量の時系列データに基づいて、前記複数の領域夫々の前記安定性を計算する、
請求項1記載の計算機システム。
【請求項3】
前記コントローラは、
前記複数の領域夫々の安定性を、当該領域の配列が崩壊する速度に基づいて算出する、
請求項2記載の計算機システム。
【請求項4】
前記コントローラは、
前記生体高分子の安定性を目的変数とし、前記生体高分子を構成する配列情報を説明変数とする機械学習を実行し、
前記機械学習によって、前記生体高分子自体の安定性の予測モデルを構築する、
請求項1記載の計算機システム。
【請求項5】
前記コントローラは、
新たに生体高分子の配列の情報を取得し、
前記予測モデルに基づき、前記生体高分子自体の安定性を計算する、
請求項4記載の計算機システム。
【請求項6】
前記コントローラは、
前記領域の配列が崩壊する速度を、前記生体高分子の時系列データに基づいて、当該領域の配列を有する生体高分子の量の変化から算出する、
請求項3記載の計算機システム。
【請求項7】
前記コントローラは、
前記代表値を計算する方式を入力として受け付ける、
請求項6記載の計算機システム。
【請求項8】
前記コントローラは、
前記生体高分子としてのmRNAの時系列データを受け付け、
前記時系列データから、前記mRNAの配列に対する領域別の安定性を算出し、
前記安定性に基づいて、機械学習における目的変数としての修正安定性を算出し、
前記修正安定性および前記時系列データに基づいて機械学習を行い、学習モデルを生成し、
前記学習モデルを出力する、
請求項1記載の計算機システム。
【請求項9】
前記コントローラは、
前記複数の領域夫々について、当該領域の配列を有する生体高分子量を時間で回帰させることにより、前記夫々の領域の安定性を算出する、
請求項2記載の計算機システム。
【請求項10】
前記コントローラは、
前記領域の配列を有する生体高分子量を時間で回帰させる際に、当該生体高分子量を、ユーザの入力に基づいてBoxcox変換を実行する、
請求項6記載の計算機システム。
【請求項11】
生体高分子の安定性をシミュレーションする計算機システムであって、
メモリに格納されたプログラムを実行するコントローラを備え、
前記コントローラは、
前記生体高分子としてのmRNAの時系列データを受け付け、
前記配列を複数の領域に分類し、
前記複数の領域の夫々の安定性を計算し、
前記安定性を出力する、
計算機システム。
【請求項12】
生体高分子の安定性をシミュレーションシステム方法であって、
前記生体高分子の配列の情報を取得し、
前記生体高分子の配列を複数の領域に分類し、
前記複数の領域の夫々の安定性を計算し、
当該計算の結果に基づく前記複数の領域夫々の安定性を纏めた代表値に基づいて前記生体高分子自体の安定性の予測シミュレーションを実行する、
シミュレーション方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はコンピュータによって、生体高分子の安定性をシミュレーションするシステムとその方法に関する。
【背景技術】
【0002】
生体高分子は生体に存在し、モノマ単位が重合して構成された高分子である。生体高分子として、ポリヌクレオチド、ポリペプチド、および、多糖が知られている。生体高分子は、重合構造と生理活性との多彩な相関性を持つことが知られているために、生体高分子を医薬品として開発する際に、コンピュータを利用して、生体高分子の構造や薬効の評価が行われることがよくある。例えば、生体高分子の体内での分解に対する安定性をコンピュータによって予測することが知られている。
【0003】
先行技術文献1には、生体高分子としてのmRNAの安定性を半減期として定義し、RNA-Seqにより、多数の遺伝子のmRNAの半減期を測定しこれを機械学習させることで、任意の配列のmRNAに対して半減期を予測することが記載されている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Medina-Munoz,Santiago Gerardo,et al.「Crosstalk between codon optimality and cis-regulatory elements dictates mRNA stability」Genome biology 22.1 (2021):1-23
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、前記先行技術として記載された従来方法では、実際には、mRNAの安定性の予測値とその実測値との間の相関係数が小さいという課題がある。そこで、本発明は、任意の配列を持った生体高分子の分解安定性を高精度に予測可能なシステムを提供することを目的とする。
【課題を解決するための手段】
【0006】
前記目的を達成するために、本発明は、生体高分子の安定性をシミュレーションする計算機システムであって、メモリに格納されたプログラムを実行するコントローラを備え、前記コントローラは、前記生体高分子の配列の情報を取得し、前記配列を複数の領域に分類し、前記複数の領域の夫々の安定性を計算し、当該計算の結果に基づく前記複数の領域夫々の安定性を纏めた代表値に基づいて前記生体高分子の安定性の予測シミュレーションを実行する、計算機システムである。さらに、本発明は、生体高分子の安定性をシミュレーションする方法に係る。
【発明の効果】
【0007】
本発明によれば、任意の配列を持った生体高分子の分解安定性を高精度に予測可能なシステムを提供することができる。
【図面の簡単な説明】
【0008】
【
図1】
図1は本発明に係る、生体高分子の安定性をシミュレーションする計算機システムの実施形態のブロック図である。
【
図2】
図2は、所定の塩基配列からなるmRNAの領域毎の安定性の違いを模式的に示すグラフである。
【
図3】mRNAの安定性予測に於ける相関係数を、本発明と従来法とで比較したグラフである。
【
図4】mRNAの安定性予測に於ける相関係数を、本発明と従来法とで比較した他のグラフである。
【
図5】本発明に係る、生体高分子の安定性をシミュレーションする計算機システムを介して表示される画面例である。
【
図6】本発明に係る、生体高分子の安定性をシミュレーションする計算機システムを介して表示される画面の他の例である。
【発明を実施するための形態】
【0009】
次に本発明の実施形態について説明する。
図1は本発明に係る、生体高分子の安定性をシミュレーションする計算機システムの実施形態のブロック図である。計算機システムは、計算サーバ120と、計算サーバに接続するクライアントコンピュータ100とを備える。計算機システムのコントローラ(又は、プロセッサ)は、メモリのプログラムに基づいて、生体高分子の安定性をシミュレーションするために、生体高分子を構成する複数のモノマの配列に基づいて、生体高分子の安定性を予測する計算を実行する。
図1のシステムの説明に先立って、生体高分子の安定性を予測するシミュレーションシステムに於ける、本発明者の新たな知見について説明する。
【0010】
既述したように、生体高分子は生体に存在し、モノマ単位が重合して構成された高分子であって、生体高分子として、ポリヌクレオチド、ポリペプチド、および、多糖が知られている。以下、生体高分子として、ポリヌクレオチドであるRNAのうちのmRNAを例にして説明する。
【0011】
一つのアミノ酸をコードするヌクレオチド配列、即ち、塩基配列は複数存在する。従って、同じタンパク質をコードするmRNA配列は極めて多数存在する。mRNAワクチン等の核酸医薬の開発では、目的のタンパク質をコードするmRNAの多数の配列群から、生体中での分解に対して安定なmRNA分子を選択する必要がある。
【0012】
既述の先行技術文献1に記載された従来法で述べられている、mRNAの半減期は、実際には、崩壊速度定数(以下、従来法の崩壊速度定数を「βg
(S)」とする。)の意味で使用されており、これは分解速度定数、又は、安定度定数と言い換えられてもよい。遺伝子gのmRNAの崩壊速度定数βg
(S)は、半減期同様に、mRNAの安定性の指標であり、崩壊速度定数βg
(S)は下記の数式(1)のmRNA崩壊(分解)反応モデルに示されている。
【0013】
数式(1)において、tは時刻、[mRNAg]は時刻tにおける遺伝子gの細胞内mRNA量に係る時系列データである。数式(1)を積分して得られる数式(2)から、log[mRNAg]を時刻に対して回帰することでβg
(S)を推定できる。数式(2)のαg
(S)は積分定数あるいは切片である。
【0014】
【0015】
【0016】
[mRNAg]を求めるにはTranscripts Per Million(TPM)を用いる。TPMはRNA-Seqの実験データであるfastqファイルから得られるmRNA量の指標の1つで、遺伝子にマッピングされたリード数をリードの長さ、及び、遺伝子の長さ、並びに、全リード数で補正した値である。
【0017】
具体的には、Trimmomatic(v0.39)を用いてfastqファイルのクオリティチェックをした後に、HISAT2(v2.2.1)を用いてゲノムへマッピングし、Subread(v2.0.0)のfeature Countによって遺伝子毎のリード数を集計した後、カスタムPython(3.9.15)スクリプトによって、TPMは計算される。
【0018】
マッピングで使用する、レファレンスファイル、及び、リード数の集計で必要となるGene Transfer Format(GTF)ファイルには、Ensemble (https://asia.ensembl.org/index.html)において2023年1月時点で最新のもの(Release 109)を採用した。
【0019】
RNA-Seqの実験データには(ヒト:GSE126520,マウス:GSE99978,ゼブラフィッシュ:SRP072296,アフリカツメガエルGSE65785)を選び、National Center for Biotechnology Information(NCBI)のGene Expression Omnibus (GEO)(https://www.ncbi.nlm.nih.gov/geo/)からダウンロードして使用した。以上の操作により、合計で97,804件の遺伝子について、[mRNAg]とβg
(S)が得られた。
【0020】
mRNA分子は長い鎖状の分子であり、発明者が鋭意検討したところ、
図2に示すように、mRNAの安定性は、ヌクレオチドの塩基配列(モノマ配列:横軸)の領域毎に異なっていることが判った。
図2は、所定の塩基配列からなるmRNAの領域毎の安定性(縦軸)の違いを模式的に示すグラフである。
【0021】
図2の横軸は塩基配列、即ち、i番目の塩基配列を示し、縦軸は、所定時間(0~6hr)経過毎に、i番目に同一ヌクレオチドを有する、遺伝子gの細胞内mRNA量を示す。縦軸の値が大きいほどmRNA分子の量が多く、縦軸の値が小さいほどその量が低いことを示している。即ち、縦軸の値の時間に対する変化の割合が大きいほどmRNA分子の安定性が高く、縦軸の値の時間に対する変化の割合が小さいほどその安定性が低い。
図2から、mRNA分子の安定性は、iとw(wは塩基配列の幅)によって定まる領域200毎に、不規則なノコギリ歯の如く大きく変動していることが判る。
【0022】
既述の従来法は、mRNA分子の領域別の安定性を考慮していないため、安定性予測に機械学習の学習モデルを利用した場合、任意の塩基配列を持つmRNA分子の安定性の予測精度に限界があった。本発明の計算機システムは、生体高分子を複数の領域に分類し、領域別の安定性(領域別の崩壊速度)を計算工程に導入して、生体高分子全体の安定性をシミュレーションする。
【0023】
領域別の安定性とは、mRNAの時系列データ(RNA-Seqデータ)を時間前後で比較して、同一領域のヌクレオチド配列が維持される度合いをいう。生体高分子の複数の領域夫々の安定性は、領域の配列が崩壊する速度に基づいて算出される。同一領域のヌクレオチド配列が崩れる程度(崩壊速度等)が小さいほど、領域の安定性が高いことになる。一つの領域の安定性を全領域に亘って、合成、統合、或いは、融合することによって代表値を求め、代表値をmRNAそのものの安定性に影響するファクタとすることにより、安定性に領域依存性がある生体高分子でも、それ自身の安定性を見積り、そして、予測することができる。
【0024】
さらに、本発明の計算機システムは、領域別の安定性(領域別の崩壊速度)を統合して生体高分子全体の安定性としての代表値(修正崩壊速度定数)を計算し、これを目的変数にした機械学習の学習モデル(予測モデル)を構築した。計算機システムは、生体高分子の配列を説明変数として学習モデルに適用することにより、生体高分子の全体としての安定性を精度よく予測することができる。
【0025】
遺伝子gのmRNAの修正安定性である、修正崩壊速度定数(従来法に対する本発明の崩壊速度定数であって、「β
g
(A)」と記載する。)は、任意の位置iを開始点とした2以上の任意の塩基配列の幅であるウィンドウサイズwで定義され、mRNAの配列から抽出される領域毎、即ち、
図2の200のmRNA量から反応次数を1以外に拡張して算出された崩壊速度の統計量関数による代表値である。以下、この領域別RNA量を[mRNA
g,i,w]といい、算出された崩壊速度を、領域別崩壊速度:b
g,i,w
(A)という。
【0026】
[mRNAg,i,w]として特に遺伝子全域を与えて1次反応モデルを考えた場合、従来法のように、bg,i,w
(A)は崩壊速度定数βg
(S)と一致する。遺伝子gのサイズがLgであった場合、開始点i(モノマの位置)の範囲は1からLg-1、ウィンドウサイズw(領域の幅)の範囲は2からLg-i+1となり、計算機システムは、合計でLg(Lg-1)/2種類の領域夫々について[mRNAg,i,w]を算出する。
【0027】
計算機システムは、求めた[mRNAg,i,w]を時刻に対して適切な反応次数を考慮して回帰することでbg,i,w
(A)(領域別崩壊速度)を算出し、得られた、Lg(Lg-1)/2個のbg,i,w
(A)を統計量関数fによって、βg
(A)に統合する。
【0028】
なお、既存のバイオインフォマティクスのツールで、mRNAの任意の点に於けるmRNA量(「Depth」という)を求めることができるので、システムは、これを各領域内で平均するか、又は、合算することによって、任意の領域のmRNA量([mRNAg,i,w])求めることができる。
【0029】
[mRNAg,i,w]の時間変化である領域別崩壊速度bg,i,w
(A)は、数式(3)の崩壊反応モデル式に示され、tは時刻、[mRNAg,i,w]は時刻tにおける遺伝子gのi,wで定義される領域200のmRNA量(領域別mRNA量)、pg,i,wは遺伝子gのi,wで定義される領域に対して崩壊反応を仮定した際の反応次数である。
【0030】
数式(3)を積分して得られる数式(4)により、数式(4)の左辺の量を時刻に対して回帰することでbg,i,w
(A)が推定できる。数式(4)のαg,i,w
(A)は積分定数、又は、切片である。
【0031】
【0032】
一方で、この手法では、修正崩壊速度定数βg
(A)算出時の回帰計算において残差(=実測値と回帰直線による予測値の差)が正規分布にならず、回帰計算の結果を推定値として利用できない場合が多数あった。そこで、計算機システムは、回帰分析の前に、Boxcox変換をして残差が正規分布となるようにしてから、修正崩壊速度定数βg
(A)の推定値を得るようにした。
【0033】
数式(4)において1-pg,i,w=λg,i,wとして得られる数式(5)の左辺は、[mRNAg,i,w]のBoxcox変換である。Boxcox変換後の回帰における残差が正規分布に従っていると仮定した際の尤度は数式(6)で与えられる。従って、数式(6)の尤度を最大化するようにλg,i,wを決めることでpg,i,wが得られる。
【0034】
【0035】
【0036】
【0037】
Xは数式(7)に示した。Iは単位行列である。数式(7)において、時刻tiにおけるmRNA量をyti、ytiをBoxcox変換した値を並べて出来るベクトルをy(λ)、y(λ)の次元をnで表した。λg,i,wの探索範囲を、3以上の反応次数の反応が殆ど存在しないことから、-2から2とした。インターバルは0.2に設定した。なお、この探索範囲はPythonのscipyと同じ探索範囲である。
【0038】
数式(3)のモデルにおける半減期は、(-1/(βg
(A)λ))*(1-2-λ)で与えられる。そこで、システムは、崩壊速度定数を出力するか、半減期を出力するかをユーザに選択させてよい。
【0039】
複数の領域別崩壊速度(bg,i,w
(A))を修正崩壊速度定数(βg
(A))に統合するための統計量関数fは、複数の領域別崩壊速度の平均値、中央値、絶対値最小、又は、絶対値最大に基づいて、代表値としての修正崩壊速度定数(βg
(A))を出力するものである。本発明システムは、複数の領域別崩壊速度の平均値、中央値、絶対値最小、又は、絶対値最大の他、従来法を加えた5つの代表値の算出方法からユーザが選択できるようにした。
【0040】
平均値として選択された場合の統計量関数fの定義は以下の数式(8)、(9)の通りである。
【0041】
【0042】
【0043】
中央値を選択した場合の統計量関数fの定義は数式(10)の通りであり、x
kはb
g,i,w
(A)のうち、ゼロを除いて小さい順に並び変えた数列であり、Nは数式(9)のものと同じ値である。
【数10】
【0044】
絶対値最小を選択した場合の統計量関数fの定義は以下の通りである。
【0045】
【0046】
絶対値最大を選択した場合の統計量関数fの定義は以下のとおりである。
【数12】
【0047】
従来法については、領域として遺伝子全域を指定して(i=0、w=遺伝子長)得られる領域別崩壊速度bg,i,w
(A)をそのまま修正崩壊速度定数βg
(A)とする。従来法を選択した場合の統計量関数fの定義は以下になる。Lgは遺伝子gの長さである。
【0048】
【0049】
次に、
図1に係るシステムを改めて説明する。
図1の計算サーバ120のコントローラがメモリに記録されたプログラムに基づいて、既述した知見に基づき、生体高分子の安定性シミュレーションを実現する。既述したクライアントコンピュータ100は、RNA-Seqデータ受付モジュール102と、機械学習パラメータ受付モジュール104、そして、機械学習結果閲覧モジュール106とを備える。これら各モジュールは、メモリに記録されたプログラムをコントロールが実行することによって実現される。なお、モジュールは手段、機能、ユニット、部等の用語に言い換えられてもよい。
【0050】
RNA-Seqデータ受付モジュール102は、ユーザから、所定の遺伝子gのmRNAのRNA-Seqデータのリクエストを受け付ける。機械学習パラメータ受付モジュール104は、ユーザからの入力によって、機械学習の展開を制御するパラメータを計算サーバ120の後述する機械学習処理モジュール134に設定する。機械学習パラメータ受付モジュール104は、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナ、マイク、又はセンサによりユーザからの入力を受け付ける。具体的には、機械学習パラメータ受付モジュール104は、
図5のような画面を介して入力を受け付けてもよい。
【0051】
このパラメータは、生体高分子の安定性の指標として、崩壊速度定数又は半減期の選択、既述の[mRNAg,i,w](時刻における遺伝子gのi,wで定義される領域のmRNA量)を時間で回帰させる際のBoxcox変換の有無、Ratio(後述)の下限値、標準偏差(後述)の上限値、既述の統計量関数のタイプ(平均値、中間値等)の選択がある。クライアントコンピュータ100が、ユーザにパラメータの設定を認めたのは、遺伝子や生体高分子(mRNA)の特性に応じた機械学習を可能にするためである。機械学習結果閲覧モジュール106は機械学習結果データベース124を参照して、ユーザが機械学習の結果を閲覧できるようにした。機械学習結果閲覧モジュール106は、たとえば、ディスプレイ、プリンタ、スピーカを介して、結果を出力する(
図6)。
【0052】
計算サーバ120はデータベースと連携して生体高分子の安定性シミュレーションシステムを実行する。データベースにはRNA-Seqデータベース122と機械学習結果データベース124とがある。機械学習結果データベース124は機械学習に関する要約データ12401と学習モデル12402とを格納する。データベースは、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、又はフラッシュメモリである。
【0053】
計算サーバ120は、Depth算出処理モジュール126と、領域別mRNA量算出処理モジュール128と、領域別崩壊速度算出処理モジュール130と、修正崩壊速度定数算出処理モジュール132と、そして、機械学習処理モジュール134と、を備える。これらモジュールも計算サーバ120のコントローラがプログラムを実行することによって実現される。これらモジュールの組み合わせが生体高分子の安定性シミュレーションモジュールを構成する。
【0054】
Depth算出処理モジュール126は、RNA-Seqデータ受付モジュール102が受け付けた、遺伝子のmRNAに基づいてRNA-Seqデータベース122を参照して、mRNAの配列の任意の点に於けるmRNA量(Depth)の時系列データに基づいて
図2のグラフを作成するためのデータ処理を実行する。
【0055】
領域別mRNA量算出処理モジュール128は、Depthの算出結果に基づいて、mRNAの塩基配列の領域(
図2:200)ごとに、mRNAの量(既述の[mRNA
g,i,w]:時刻tにおける遺伝子gのi,wで定義される領域のmRNA量)を算出する。修正崩壊速度定数算出処理モジュール132は、既述の統計量関数fを利用して、複数の領域別崩壊速度(b
g,i,w
(A))を修正崩壊速度定数(β
g
(A))に統合する。
【0056】
機械学習処理モジュール134は、mRNA分子のコドン頻度およびCDS長の対数値並びに3’UTR長とこれらの任意の組合せからなる二乗項を説明変数とし、Least Absolute Shrinkage and Selection Operator(LASSO)により予測モデルを構築する。予測モデルは、他にもロジスティック回帰、Ridge回帰またはElastic Net回帰等を用いてもよい。機械学習処理モジュール134は、訓練データとテストデータの割り当てをランダムに行い、モデル作成と相関係数を求める操作を複数回行って平均をとったものを最終的な相関係数として出力する。具体的には、相関係数を求める操作を1000回行い、平均を算出したことによって得られた係数を相関係数としてもよい。
【0057】
機械学習処理モジュール134は、説明変数に関する量をGTFファイルに基づいてカスタムPythonスクプリトにより算出する。LASSOによる予測モデル構築についてはPythonのscikit learn(v1.2.1)を用いる。
【0058】
本発明者は、学習モデルの構築に用いる訓練用遺伝子セットと性能評価に用いるテスト用遺伝子セットの選定方法として、次の2通りの方法をテストした。1つ目は従来法と同じくし、訓練用遺伝子を65,977件、テスト用遺伝子を7,376件とした。βg
(S)を目的変数に設定して予測モデルを構築し、相関係数が0.43になった。
【0059】
2つ目はBootstrapによる性能検証を目的とした場合である。全遺伝子である97,804件からランダムに10%をテスト用遺伝子として予測モデルを構築することを1000回繰り返した。得られた相関係数の平均は0.12であった。
【0060】
学習用遺伝子名を並べたベクトルをgtrainとし、gtrainの各要素gに対して式(1)、(2)と関数fに従って崩壊速度定数βg
(S)を導出して並べて出来るベクトルをβtrain
(S)(true)とする。これらは機械学習の学習用データの目的変数として利用される。相関係数の計算方法はβtrain
(S)(true)とβtrain
(A)(true)とについて変わらないので、以後は、βtrain
(x)(train)と表記する。
【0061】
次に、機械学習処理モジュール134は、コドン頻度等の特徴量行列Q(train)=p(Gtrain)を算出する。Qi,jはi番目の遺伝子についてj番目の特徴量の値を有する行列で、機械学習の学習用データの説明変数とする。pは遺伝子名のセットを引数として、行列Qを返す関数である。
【0062】
続いて、機械学習処理モジュール134は、βtrain
(X)(true)=fLASS0
(x) (Q(train))となるfLASS0
(x)をLASSOにより決定する。最後に、テスト用遺伝子名を並べたベクトルをgtestとし、数式(1)、(2)あるいは式(3)から(7)と統計量関数fに従って崩壊速度定数βtest
(x)(true)を導出する。一方で、特徴量Q(test)=p(Gtest)を算出して、βtest
(X)(pred)=fLASS0
(x) (Q(test))を求める。このとき相関係数(r)は以下の数式(14)で表される。Cov(・,・)は共分散、V(・)は分散である。
【0063】
【0064】
機械学習処理モジュール134は、機械学習の精度を向上するために、確実な生体高分子(mRNA)を利用することとし、そうではない遺伝子を訓練データおよびテストデータに用いないこととした。そこで、システムは
図2の縦軸の値が0でない領域(非ゼロ領域)の全領域に対する割合(Ratio)が所定の閾値値以上であり、そして、全領域について、領域別速度の崩壊速度(b
wi
(A))の標準偏差が所定の閾値以下のmRNAを機械学習に利用することとした。
【0065】
次に従来法と本発明の夫々によって計算された、標準偏差(SD)―相関係数の変化特性を既述の割合(Ratio)の違い毎に比較して説明する。但し、訓練データとテストデータの割り当てはランダムに行い、モデル作成と相関係数を求める操作を1000回行って平均をとったものを最終的な相関係数とした。
【0066】
機械学習の結果、本発明の相関係数は従来法に比べて改善された。
図3の(A)は、統計量関数fを「平均値」とした場合での相関係数―既述の標準偏差(SD)のRatioごとの変化特性を示す。
図3の(B)は、統計量関数fを「中央値」とした場合での相関係数―既述の標準偏差(SD)の変化特性を示す。
図3(C)は従来法での変化特性であり、SDは、既述のβ
g
(S)の標準偏差である。
図3の(A)、(B)、(C)とを比較すると、本発明の相関係数は従来法の相関係数より高いことが判る。
【0067】
本発明の相関係数と従来法の相関係数とをさらに比較した結果を
図4に示す。
図4が
図3と異なる点は、回帰分析の際、Boxcox変換を行った点にある。
図4の(A)は、統計量関数fを「平均値」とした場合での相関係数―既述の標準偏差(SD)のRatioごとの変化特性を示す。
図4の(B)は、統計量関数fを「中央値」とした場合での相関係数―既述の標準偏差(SD)の変化特性を示す。
図4の(C)は従来法での変化特性である。
図4の(A)、(B)、(C)を比較すると、本発明の相関係数は従来法の相関係数さらに向上されていることが判る。
【0068】
次に、学習モデル12402を用いた、mRNAの安定性シミュレーションの動作について説明する。ユーザはクライアントコンピュータ100に所定のヌクレオチドを入力する。この情報は、計算サーバ120に送信され、計算サーバ120のシミュレーション解析部は機械学習結果データベース124を参照して、ヌクレオチド配列がコードするアミノ酸配列が同一なヌクレオチド配列候補を複数決定する。
【0069】
シミュレーション解析部は、学習モデル12402に、複数の候補夫々の配列情報を説明変数として入力する。学習モデル12402は、複数の候補夫々の説明変数に基づく目的変数を計算し、崩壊速度定数が高い値から順に複数の候補をランキング形式で出力する。ユーザはこのランキングに基づいて、最も、分解安定性に優れた配列を持ったmRNAを決定することができる。
【0070】
既述の施形態によれば、生体高分子の安定性をシミュレーションする計算機システムであって、メモリに格納されたプログラムを実行するコントローラを備え、前記コントローラは、前記生体高分子の配列の情報を取得し、前記配列を複数の領域に分類し、前記複数の領域の夫々の安定性を計算し、当該計算の結果に基づく前記複数の領域夫々の安定性を纏めた代表値に基づいて前記生体高分子自体の安定性の予測シミュレーションを実行する、第1の計算機システムが提供される。第1の計算機システムによれば、任意の配列を持った生体高分子の分解安定性が高精度に予測可能となる。
【0071】
さらに既述の実施形態によれば第1の計算機システムにおいて、前記複数の領域の夫々を、前記配列の位置と幅によって特定することによって、前記生体高分子の配列から抽出し、前記生体高分子の量の時系列データに基づいて、前記複数の領域夫々の前記安定性を計算する、第2の計算機システムが提供される。第2の計算機システムによれば複数の領域それぞれの安定性を求めることができる。
【0072】
さらに既述の実施形態によれば、第2の計算機システムにおいて、前記複数の領域夫々の安定性を、当該領域の配列が崩壊する速度に基づいて算出する、第3の計算機システムが提供される。第3の計算機システムによれば複数の領域夫々の安定性を確実に求めることができる。
【0073】
さらにまた既述の実施形態によれば、第1の計算機システムにおいて、前記生体高分子自体の安定性を目的変数とし、前記生体高分子を構成する配列情報を説明変数とする機械学習を実行し、前記機械学習によって、前記生体高分子自体の安定性の予測モデルを構築する、第4の計算機システムを提供することができる。第4の計算機システムによれば、生体高分子の安定性を確実に予測可能な学習モデルを提供することができる。
【0074】
さらにまた既述の実施形態によれば、第4の計算機システムにおいて、新たに生体高分子の配列の情報を取得し、前記予測モデルに基づき、前記生体高分子自体の安定性を計算する、第5の計算機システムを提供する。第5の計算機システムによれば、新たに生体高分子を入力として受け付けたとしても、構築した予測モデルに基づき、新たに受け付けた生体高分子の安定性を精度良く算出することができる。
【0075】
また既述の実施形態によれば、第3の計算機システムにおいて、前記領域の配列が崩壊する速度を、前記生体高分子の時系列データに基づいて、当該領域の配列を有する生体高分子の量の変化から算出する、第6の計算機システムが提供される。第6の計算機システムによれば、前記領域の安定性を確実に計算することができる。
【0076】
さらにまた既述の実施形態によれば、第5の計算機システムにおいて、前記代表値を計算する方式を入力として受け付けるようにした第7の計算機システムが提供される。第7の計算機システムによれば、代表値を求める方式を生体高分子に応じてユーザが適宜変更することができる。
【0077】
既述の実施形態によれば、第1の計算機システムにおいて、前記生体高分子としてのmRNAの時系列データを受け付け、前記時系列データから、前記mRNAの配列に対する領域別の修正安定性を算出し、前記安定性に基づいて、機械学習における目的変数としての修正安定性を算出し、記修正安定性および前記時系列データに基づいて機械学習を行い、学習モデルを生成し、前記学習モデルを出力する、第8の計算機システムが提供される。この第8の計算機システムによればmRNAの安定性の予測精度を向上させることができる。
【0078】
さらに既述の実施形態によれば、第2の計算機システムにおいて、前記複数の領域夫々について、当該領域の配列を有する生体高分子量を時間で回帰させることにより、前記夫々の領域の安定性を算出する、第9の計算機システムが提供される。第9の計算機システムによれば、回帰分析によって前記夫々の領域の安定性を推定することができる。
【0079】
さらにまた、既述の実施形態によれば、第5の計算機システムにおいて、前記領域の配列を有する生体高分子量を時間で回帰させる際に、当該生体高分子の量を、ユーザの入力に基づいてBoxcox変換を実行する、第10の計算機システムが提供される。第10の計算機システムによれば、ユーザは生体高分子の属性に応じてBoxcox変換の要否を選択することができる。
【0080】
さらに既述の実施形態によれば、生体高分子の安定性をシミュレーションする計算機システムであって、メモリに格納されたプログラムを実行するコントローラを備え、前記コントローラは、前記生体高分子としてのmRNAの時系列データを受け付け、前記配列を複数の領域に分類し、前記複数の領域の夫々の安定性を計算し、前記安定性を出力する、第11の計算機システムを提供することができる。第11の計算機システムによれば、第1の計算機システムによれば、任意の配列を持ったmRNAの分解安定性が高精度に予測可能となる。
【0081】
そして既述の実施形態によれば、生体高分子の安定性をシミュレーションシステムする方法であって、前記コンピュータは、前記生体高分子の配列の情報を取得し、前記配列を複数の領域に分類し、前記複数の領域の夫々の安定性を計算し、当該計算の結果に基づく前記複数の領域夫々の安定性を纏めた代表値に基づいて前記生体高分子自体の安定性の予測シミュレーションを実行する、シミュレーションシステム方法が提供される。
【0082】
以上、実施の形態について説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、種々の変更または改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。
【0083】
例えば、既述の実施形態では生体高分子としてmRNAを例にとり説明したが、生体高分子のモノマ配列の領域ごとに安定性が異なるタイプ、例えば、立体構造の違いによって安定性が異なるタンパク質や多糖であっても本発明を適用することが出来る。
【符号の説明】
【0084】
100:クライアントコンピュータ、102:RNA-Seqデータ受付モジュール、104:機械学習パラメータ受付モジュール、106:機械学習結果閲覧モジュール、120:計算サーバ、122:RNA-Seqデータベース、124:機械学習結果データベース、126:Depth算出処理モジュール、128:領域別mRNA量算出処理モジュール、130:領域別崩壊速度算出処理モジュール、132:修正崩壊速度定数算出処理モジュール、134:機械学習処理モジュール、200:領域、12401:機械学習要約データ、12402:学習モデル