(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025163509
(43)【公開日】2025-10-29
(54)【発明の名称】計算機システム及び予測モデルの学習方法
(51)【国際特許分類】
G16B 40/20 20190101AFI20251022BHJP
【FI】
G16B40/20
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2024066820
(22)【出願日】2024-04-17
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.PYTHON
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(71)【出願人】
【識別番号】521298285
【氏名又は名称】株式会社ARCALIS
(74)【代理人】
【識別番号】110001678
【氏名又は名称】藤央弁理士法人
(72)【発明者】
【氏名】庄司 竜麻
(72)【発明者】
【氏名】竹内 渉
(72)【発明者】
【氏名】吉田 哲郎
(72)【発明者】
【氏名】赤堀 玲奈
(57)【要約】
【課題】生体高分子の安定性を高い精度で予測する機械学習モデルを生成する。
【解決手段】計算機システムは、複数の生体高分子の塩基配列のリード結果及び生体高分子に対応する崩壊速度を格納するデータベースと接続し、各生体高分子について、生体高分子の塩基配列の各位置におけるリード結果の重なり数であるデプスを表すデータを生成し、各生体高分子について、データに基づいてデプスの標準偏差を算出し、デプスの標準偏差に基づいて生体高分子をグループに分類し、各グループについて、生体高分子の塩基配列及び崩壊速度から構成される学習データを生成し、各グループについて、学習データを用いた機械学習を実行することによって、生体高分子の塩基配列を受け付け、生体高分子の崩壊速度を出力する予測モデルを生成する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
計算機システムであって、
プロセッサ、前記プロセッサに接続される記憶装置、及び前記プロセッサに接続されるネットワークインタフェースを備え、
複数の生体高分子の塩基配列のリード結果及び前記生体高分子に対応する崩壊速度を格納するデータベースとアクセス可能に接続し、
前記プロセッサは、
前記生体高分子の各々について、前記生体高分子の塩基配列の各位置における前記リード結果の重なり数であるデプスを表すデータを生成し、
前記生体高分子の各々について、前記データに基づいて、前記生体高分子の前記デプスの標準偏差を算出し、
前記生体高分子の各々の前記デプスの標準偏差に基づいて、前記複数の生体高分子を複数のグループに分類し、
前記グループの各々について、前記グループに属する前記生体高分子の塩基配列及び前記データベースに格納される崩壊速度から構成される学習データを生成し、
前記グループの各々について、前記グループの前記学習データを用いた機械学習を実行することによって、前記生体高分子の塩基配列を受け付け、前記生体高分子の崩壊速度を出力する予測モデルを生成し、前記予測モデルの情報を前記記憶装置に格納することを特徴とする計算機システム。
【請求項2】
請求項1に記載の計算機システムであって、
前記プロセッサは、前記生体高分子の各々について、前記生体高分子の塩基配列を複数の領域に分割し、前記データに基づいて前記生体高分子の前記領域毎の崩壊速度を算出し、前記データベースに格納することを特徴とする計算機システム。
【請求項3】
請求項2に記載の計算機システムであって、
前記データベースには、同一の前記生体高分子であって、計測基準時からの経過時間が異なる前記リード結果が格納され、
前記プロセッサは、
同一の前記生体高分子の前記経過時間が異なる前記データを用いて、前記領域毎に、前記生体高分子の時間変化に対する前記デプスの変化量を算出し、
前記領域毎に、前記生体高分子の時間変化に対する前記デプスの変化量に基づいて、前記生体高分子の崩壊速度を算出することを特徴とする計算機システム。
【請求項4】
請求項1に記載の計算機システムであって、
前記プロセッサは、前記生体高分子の各々の前記デプスの標準偏差と、前記生体高分子の数とに基づいて、前記生体高分子を複数のグループに分類することを特徴とする計算機システム。
【請求項5】
請求項1に記載の計算機システムであって、
前記プロセッサは、前記グループの各々について、前記グループの前記学習データを用いて深層学習を実行することを特徴とする計算機システム。
【請求項6】
計算機システムであって、
プロセッサ、前記プロセッサに接続される記憶装置、及び前記プロセッサに接続されるネットワークインタフェースを備え、
前記記憶装置は、生体高分子の塩基配列を入力として受け付け、前記生体高分子の崩壊速度を出力する、予測モデルの情報を複数格納し、
前記予測モデルは、
前記生体高分子の崩壊速度を出力する機械学習モデルであり、
前記生体高分子の塩基配列の各位置におけるリード結果の重なり数であるデプスを表すデータに基づいて算出される、前記生体高分子の前記デプスの標準偏差に基づいて、複数の前記生体高分子を複数のグループに分類する処理と、
前記生体高分子の各々について、崩壊速度を算出する処理と、
前記グループの各々について、前記グループに属する前記生体高分子の塩基配列及び崩壊速度から構成される学習データを用いた機械学習を実行する処理と、によって生成され、
前記プロセッサは、前記複数の予測モデルを用いて、予測対象の生体高分子の崩壊速度を予測することを特徴とする計算機システム。
【請求項7】
請求項6に記載の計算機システムであって、
前記プロセッサは、
前記予測対象の生体高分子の塩基配列を受け付けた場合、前記複数の予測モデルの各々に前記予測対象の生体高分子の塩基配列を入力し、
前記複数の予測モデルの各々から得られる崩壊速度に基づいて、前記予測対象の生体高分子の崩壊速度の統計値を算出し、
前記統計値に基づいて、出力する前記崩壊速度を選択することを特徴とする計算機システム。
【請求項8】
請求項6に記載の計算機システムであって、
前記記憶装置は、前記グループの分類基準を格納し、
前記プロセッサは、
予測対象の生体高分子の塩基配列及び前記リード結果を受け付けた場合、前記リード結果に基づいて、前記予測対象の生体高分子の前記デプスの標準偏差を算出し、
前記分類基準及び前記予測対象の生体高分子の前記デプスの標準偏差に基づいて、前記予測対象の生体高分子が属する前記グループを特定し、
特定された前記グループの前記予測モデルに、前記予測対象の生体高分子の塩基配列を入力することを特徴とする計算機システム。
【請求項9】
計算機システムが実行する予測モデルの学習方法であって、
前記計算機システムは、
プロセッサ、前記プロセッサに接続される記憶装置、及び前記プロセッサに接続されるネットワークインタフェースを有し、
複数の生体高分子の塩基配列のリード結果及び前記生体高分子に対応する崩壊速度を格納するデータベースとアクセス可能に接続し、
前記予測モデルの学習方法は、
前記プロセッサが、前記生体高分子の各々について、前記生体高分子の塩基配列の各位置における前記リード結果の重なり数であるデプスを表すデータを生成する第1のステップと、
前記プロセッサが、前記生体高分子の各々について、前記データに基づいて、前記生体高分子の前記デプスの標準偏差を算出する第2のステップと、
前記プロセッサが、前記生体高分子の各々の前記デプスの標準偏差に基づいて、前記生体高分子を複数のグループに分類する第3のステップと、
前記プロセッサが、前記グループの各々について、前記グループに属する前記生体高分子の塩基配列及び前記データベースに格納される崩壊速度から構成される学習データを生成する第4のステップと、
前記プロセッサが、前記グループの各々について、予測モデルを生成し、前記予測モデルの情報を前記記憶装置に格納する第5のステップと、
を含むことを特徴とする予測モデルの学習方法。
【請求項10】
請求項9に記載の予測モデルの学習方法であって、
前記プロセッサが、前記生体高分子の各々について、前記生体高分子の塩基配列を複数の領域に分割し、前記データに基づいて前記生体高分子の前記領域毎の崩壊速度を算出し、前記データベースに格納する第6のステップを含むことを特徴とする予測モデルの学習方法。
【請求項11】
請求項9に記載の予測モデルの学習方法であって、
前記第3のステップは、前記プロセッサが、前記生体高分子の各々の前記デプスの標準偏差と、前記生体高分子の数とに基づいて、前記生体高分子を複数のグループに分類するステップを含むことを特徴とする予測モデルの学習方法。
【請求項12】
請求項9に記載の予測モデルの学習方法であって、
前記第5のステップは、前記プロセッサが、前記グループの各々について、前記グループの前記学習データを用いて深層学習を実行することを特徴とする予測モデルの学習方法。
【請求項13】
請求項9に記載の予測モデルの学習方法であって、
前記プロセッサが、前記複数の予測モデルを用いて、予測対象の生体高分子の崩壊速度を予測するステップを含むことを特徴とする予測モデルの学習方法。
【請求項14】
請求項13に記載の予測モデルの学習方法であって、
前記予測対象の生体高分子の塩基配列を受け付けた場合、前記プロセッサが、前記複数の予測モデルの各々に前記予測対象の生体高分子の塩基配列を入力するステップと、
前記プロセッサが、前記複数の予測モデルの各々から得られる領域毎の崩壊速度に基づいて、前記予測対象の生体高分子の崩壊速度の統計値を算出するステップと、
前記プロセッサが、前記統計値を出力するステップと、を含むことを特徴とする予測モデルの学習方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は生体高分子の安定性を予測するシステムとその方法に関する。
【背景技術】
【0002】
生体高分子は生体に存在し、モノマ単位が重合して構成された高分子である。生体高分子として、ポリヌクレオチド、ポリペプチド、及び多糖が知られている。生体高分子は、重合構造と生理活性との多彩な相関性を持つことが知られているために、生体高分子を医薬品として開発する際に、コンピュータを利用して、生体高分子の構造や薬効の評価が行われることがよくある。例えば、生体高分子の体内での分解に対する安定性を予測することが知られている。
【0003】
非特許文献1には、生体高分子としてのmRNAの安定性を半減期として定義し、RNA-Seqにより、多数の遺伝子のmRNAの半減期を測定し、これを機械学習させることで、任意の配列のmRNAに対して半減期を予測することが記載されている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Medina-Munoz, Santiago Gerardo, et al、「Crosstalk between codon optimality and cis-regulatory elements dictates mRNA stability」、Genome biology 22.1 (2021):1-23
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献1に記載された方法では、実際には、mRNAの安定性の予測値とその実測値との間の相関係数が小さいという課題がある。本発明は、生体高分子の安定性を高精度に予測可能なシステムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、計算機システムであって、プロセッサ、前記プロセッサに接続される記憶装置、及び前記プロセッサに接続されるネットワークインタフェースを備え、複数の生体高分子の塩基配列のリード結果及び前記生体高分子に対応する崩壊速度を格納するデータベースとアクセス可能に接続し、前記プロセッサは、前記生体高分子の各々について、前記生体高分子の塩基配列の各位置における前記リード結果の重なり数であるデプスを表すデータを生成し、前記生体高分子の各々について、前記データに基づいて、前記生体高分子の前記デプスの標準偏差を算出し、前記生体高分子の各々の前記デプスの標準偏差に基づいて、前記生体高分子を複数のグループに分類し、前記グループの各々について、前記グループに属する前記生体高分子の塩基配列及び前記データベースに格納される崩壊速度から構成される学習データを生成し、前記グループの各々について、前記グループの前記学習データを用いた機械学習を実行することによって、前記生体高分子の塩基配列を受け付け、前記生体高分子の崩壊速度を出力する予測モデルを生成し、前記予測モデルの情報を前記記憶装置に格納する。
【発明の効果】
【0007】
本発明によれば、任意の生体高分子の安定性を高精度に予測することができる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
【図面の簡単な説明】
【0008】
【
図1】実施例1の計算機システムの構成の一例を示すブロック図である。
【
図2】実施例1のサーバのハードウェア構成の一例を示すブロック図である。
【
図3】実施例1の計算機システムのGUIの一例を示す図である。
【
図4】実施例1の計算機システムのGUIの一例を示す図である。
【
図5】実施例1のサーバが実行する予測モデル生成処理の一例を説明するフローチャートである。
【
図6】実施例1のデプス算出部が生成するデプスデータの一例を説明する図である。
【
図7】実施例1のサーバが作成するデータベースの一例を説明する図である。
【
図8】実施例1のサーバが実行する予測処理の一例を説明するフローチャートである。
【
図9】実施例1の計算機システムのGUIの一例を示す図である。
【
図10】本発明の予測モデルの性能の検証結果の一例を示す図である。
【
図11】本発明の予測モデルの性能の検証結果の一例を示す図である。
【発明を実施するための形態】
【0009】
以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施例の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
【0010】
以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。
【0011】
本明細書等における「第1」、「第2」、「第3」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。
【0012】
図面等において示す各構成の位置、大きさ、形状、及び範囲等は、発明の理解を容易にするため、実際の位置、大きさ、形状、及び範囲等を表していない場合がある。したがって、本発明では、図面等に開示された位置、大きさ、形状、及び範囲等に限定されない。
【実施例0013】
図1は、実施例1の計算機システムの構成の一例を示すブロック図である。
図2は、実施例1のサーバのハードウェア構成の一例を示すブロック図である。
【0014】
計算機システムは、サーバ100及びクライアント端末101から構成される。サーバ100及びクライアント端末101は、LAN(Local Area Network)等のネットワークを介して接続される。
【0015】
サーバ100は、生体高分子の安定性を評価する指標を予測する予測モデルの学習及び予測モデルを用いた指標の予測を行う。サーバ100は、
図2に示すように、プロセッサ200、ネットワークインタフェース201、主記憶装置202、及び副記憶装置203を有する。各ハードウェア要素はバス204を介して互いに接続される。なお、サーバ100は、キーボード、マウス、タッチパネル等の入力装置、並びに、ディスプレイ等の出力装置を有してもよい。
【0016】
サーバ100が保持する情報は、主記憶装置202又は副記憶装置203に格納される。また、サーバ100が有する機能部は、プロセッサ200が、主記憶装置202又は副記憶装置203に格納されるプログラムを実行することによって実現される。以下では、機能部を主語に処理を説明する場合、プロセッサ200が当該機能部を実現するプログラムを実行していることを示す。
【0017】
なお、プログラムによって実現される機能部は、仮想的な計算機、計算機システム、FPGA(Field-Programmable Gate Array)及びASIC(Application Specific Integrated Circuit)等の専用回路を用いて実現してもよい。
【0018】
以下では、生体高分子として、ポリヌクレオチドであるRNAのうちのmRNAを例に説明する。
【0019】
非特許文献1では、mRNAの安定性を評価する指標としてmRNAの崩壊速度を定義している。本発明でも、mRNAの崩壊速度をmRNAの安定性を評価する指標として採用する。ただし、一例として崩壊速度を用いたが、他の安定性を示す指標を用いてもよい。
【0020】
サーバ100は、mRNAの塩基配列及びmRNAのRNA-Seqデータを用いて、任意のmRNAの塩基配列を入力として受け付け、mRNAの崩壊速度を予測する予測モデルを生成するための機械学習を実行する。本実施例の予測モデルは、mRNAの塩基配列の崩壊速度の予測を行うモデルである。予測モデルは、例えば、DNN等の深層学習であってもよいが、深層学習に限られない。
【0021】
サーバ100は、RNA-Seqデータデータベース110及び予測モデルデータベース130を保持する。
【0022】
RNA-Seqデータデータベース110は、種々のmRNAのRNA-Seqデータを格納するデータベースである。RNA-Seqデータは、次世代シーケンスを用いて取得した塩基配列のリード結果である。例えば、リードID、リード配列、及びクオリティを含む。RNA-Seqデータは計測基準時からの経過時間(時系列)と関連付けて管理される。また、RNA-Seqデータデータベース110は種々のmRNAに対応する崩壊速度を紐づけて格納してもよい。なお、RNA-Seqデータデータベース110は、サーバ100の外部の装置又はシステムが保持してよい。
【0023】
予測モデルデータベース130は、予測モデルを定義する情報を格納するデータベースである。
【0024】
サーバ100は、デプス算出部120、標準偏差算出部121、mRNA分類部122、崩壊速度算出部123、学習部124、及び予測部125を有する。なお、サーバ100が有する機能部は、複数の機能部を一つの機能部にまとめてもよいし、一つの機能部を機能毎に複数の機能部に分けてもよい。
【0025】
クライアント端末101は、サーバ100に各種データを入力し、また、サーバ100から各種データを取得する。クライアント端末101のハードウェア構成はサーバ100と同様であるため説明を省略する。クライアント端末101は、RNA-Seqデータ登録部140、入力データ入力部141、予測結果取得部142を有する。
【0026】
RNA-Seqデータ登録部140は、サーバ100にRNA-Seqデータを登録する。たとえば、
図3のように、クライアント端末101から生体高分子のRNA-Seqデータを登録してもよい。またRNA-Seqデータ以外にRNA-Seqデータに関する種の情報や、計測時刻を入力してもよい。入力データ入力部141は、サーバ100に予測モデルに入力する入力データを入力する。たとえば、安定性を予測したい生体高分子の情報のみを選択して予測モデルに入力してもよい。具体的には
図4のようにRNA-Seqデータから所定の配列のみをチェックボタンで選択して、予測モデルに入力してもよい。予測結果取得部142は、サーバ100から予測結果を取得する。なお、クライアント端末101は、予測モデルの機械学習の各種パラメータを入力する機能部を有してもよい。
【0027】
図5は、実施例1のサーバ100が実行する予測モデル生成処理の一例を説明するフローチャートである。
【0028】
デプス算出部120は、各mRNAのデプスデータを生成する(ステップS101)。具体的には、以下のような処理が実行される。
【0029】
(S101-1)デプス算出部120はRNA-Seqデータデータベース110から一つのmRNAを選択する。
【0030】
(S101-2)デプス算出部120は、RNA-Seqデータデータベース110から、選択したmRNAのRNA-Seqデータを取得する。ここでは、時系列毎(経過時間毎)にRNA-Seqデータが取得される。例えば、選択したmRNAのRNA-Seqにおける初回の計測基準時である「0時間」のRNA-Seqデータ、初回からの経過時間が「1時間」のRNA-Seqデータ、初回からの経過時間が「3時間」のRNA-Seqデータ、初回からの経過時間が「6時間」のRNA-Seqデータが取得される。
【0031】
(S101-3)デプス算出部120は、各時系列について、RNA-Seqデータを選択したmRNAのリファレンス配列にマッピングする。
【0032】
(S101-4)デプス算出部120は、各時系列について、マッピングの結果に基づいてリファレンス配列の各位置について読み取られたRNA-Seqデータによって検出されたリードの重なり数(mRNA量)をデプスとして1塩基毎に算出し、デプスデータとして保存する。
【0033】
(S101-5)デプス算出部120は、処理対象の全てのmRNAについてS101-4の処理が完了したか否かを判定する。処理対象の全てのmRNAについて処理が完了していない場合、デプス算出部120はS101-1に戻る。処理対象の全てのmRNAについて処理が完了した場合、デプス算出部120はS101の処理を終了する。
【0034】
図6は、実施例1のデプス算出部120が生成するデプスデータの一例を説明する図である。横軸は塩基配列を表し、縦軸はデプス(mRNA量)を表す。
図6には、同一mRNAの時系列が異なるデプスデータを示している。
【0035】
時間変化に対するデプスの変化量が大きいほど、mRNAの安定性が低く、時間変化に対するデプスの変化量が小さいほど、mRNAの安定性が高い。
【0036】
標準偏差算出部121は、各mRNAについて、任意の時系列のデプスデータを用いてデプスの標準偏差を算出する(ステップS102)。デプスの標準偏差はデプスデータを有するmRNA毎に算出される。たとえば、
図6に記載のmRNAの経過時間「0時間」における、mRNAの全長配列のデプスデータに基づいて、mRNAの全長配列のデプスのばらつきを算出する。具体的には、
図7のテーブルAのように、mRNA毎にmRNAの全長配列のデプスデータに基づいて、デプスの標準偏差が算出される。算出されたデプスの標準偏差のデータベースは予測モデルデータベース130に格納してもよい。以降、本実施例では経過時間「0時間」のデプスデータを用いる。また、本実施例では標準偏差を用いたが、分散であってもよい。
【0037】
mRNA分類部122は、各mRNAのmRNA量の標準偏差に基づいて複数のmRNAを複数のグループに分類する(ステップS103)。例えば、mRNA分類部122は、分類基準及びmRNA量の標準偏差に基づいて8つのグループに分類する。分類基準は、mRNA量の標準偏差の範囲であり、任意に設定できる。例えば、4つのグループに分類する分類基準を設定してもよい。このため、各グループには所定の範囲内に含まれる標準偏差を有するmRNAが分類される。具体的には、
図7のテーブルCのように、グループ毎にデプスの標準偏差の範囲が設けられる。また、設定されたデプスの標準偏差の範囲に対応するmRNAを抽出することで、複数のmRNAを複数のグループに分類する。mRNAの分類結果は分類データベースとして予測モデルデータベース130に格納してもよい。
【0038】
崩壊速度算出部123は、各mRNAの崩壊速度を算出する(ステップS104)。具体的には、以下のような処理が実行される。なお、予め各mRNAに対応する崩壊速度を記憶している場合は、ステップS104を省略してもよい。
【0039】
(S104-1)崩壊速度算出部123はmRNAを選択する。
【0040】
(S104-2)崩壊速度算出部123は、各時系列のデプスデータを所定の数の領域に分割する。領域とは、解析対象のmRNAにおける所定の範囲である。領域数は任意に設定できる。なお、領域は領域の開始地点を表す塩基配列の位置i及び領域の幅wによって定まる。
【0041】
(S104-3)崩壊速度算出部123は領域を選択する。
【0042】
(S104-4)崩壊速度算出部123は、各時系列のデプスデータの選択した領域のデプスの変化量を算出し、当該変化量に基づいて崩壊速度を算出する。崩壊速度の算出方法としては、mRNAの崩壊の反応モデルに基づく回帰分析が考えられる。崩壊速度算出部123は、mRNA、領域、及び崩壊速度を対応づけて記憶する。
【0043】
(S104-5)崩壊速度算出部123は全ての領域について処理が完了したか否かを判定する。全ての領域について処理が完了していない場合、崩壊速度算出部123はS104-3に戻る。
【0044】
(S104-5)全ての領域について処理が完了した場合、崩壊速度算出部123は全てのmRNAについて処理が完了したか否かを判定する。全てのmRNAについて処理が完了していない場合、崩壊速度算出部123はS104-1に戻る。全てのmRNAについて処理が完了した場合、崩壊速度算出部123はS104の処理を終了する。一例として、全てのmRNAについて処理が完了した場合、
図7のテーブルBのように崩壊速度のデータベースを生成してもよい。崩壊速度のデータベースは予測モデルデータベース130又はRNA-Seqデータデータベース110に格納してもよい。上記では、領域毎の崩壊速度の算出方法を記載したが、対象のmRNAの全長に対する崩壊速度や、mRNAの領域毎の崩壊速度の平均値を算出してもよい。
【0045】
学習部124は、ステップS103で分類したmRNAのグループ毎に予測モデルを学習して、生成する(ステップS105)。具体的には、以下のような処理が実行される。
【0046】
(S105-1)学習部124はグループを選択する。
【0047】
(S105-2)学習部124は、グループに属するmRNAの各々について、mRNAの塩基配列と、S104-4で算出したmRNAの崩壊速度とから構成される学習データを生成する。具体的には、
図7のテーブルDのように、グループAに属するmRNAの塩基配列と崩壊速度を、
図7のテーブルB、テーブルCのデータベースに基づいて生成する。
【0048】
(S105-3)学習部124は、生成された学習データを用いて、mRNAの塩基配列を入力とし、mRNAの崩壊速度を出力する予測モデルを学習する。本発明は学習の手法に限定されない。
【0049】
(S105-4)学習部124は、全てのグループについて処理が完了したか否かを判定する。全てのグループについて処理が完了していない場合、学習部124はS105-1に戻る。
【0050】
(S105-4)全てのグループについて処理が完了した場合、学習部124は、グループの識別情報及び予測モデルを対応づけて予測モデルデータベース130に記憶する。このとき、学習部124は、mRNA量の標準偏差の算出結果及び分類基準も予測モデルデータベース130に記憶する。
【0051】
本発明では、mRNAのRNA-Seqデータから算出されるmRNA量の標準偏差に基づいて、RNA-Seqデータを複数のグループに分類し、グループ毎に学習データセットを生成した。また、本発明ではmRNA等の生体高分子の安定性が領域毎に異なることを考慮して、生体高分子の領域毎の崩壊速度を予測する予測モデルを学習した。これによって、各グループの学習データを用いて生成されたそれぞれの予測モデルにより、高い予測精度を発揮することを可能にする。
【0052】
図10は複数のRNA-Seqデータに対してデプスデータを生成し、デプスデータによって算出される標準偏差に基づいて複数のmRNAを分類し、それぞれのグループについて学習した結果を示す。また、グループの分類数はそれぞれ2分類、4分類、8分類まで設定した。分類の基準は、各グループに含まれる遺伝子数に基づいて分類した。具体的には
図10における2分類の方法では、各グループに含まれる遺伝子数は2000程度、4分類の方法では1000程度、8分類の方法では500程度に分類した。
【0053】
また、学習方法には、LASSO、CNN、Enformerの3種を用いた。
【0054】
また、相関係数は、mRNAの安定性の一つである崩壊速度の予測値とその実測値との相関である。
【0055】
その結果、4分類に分類した予測モデルの予測精度が高いことが分かった。特に、4分類で分類し、Enformerで学習した予測モデルは、予測モデルの精度が平均して0.9495であった。
【0056】
また、他のmRNAのデータセットを用いた予測精度について
図11に示す。
【0057】
図11では、8分類に分類し、Enformerで学習した予測モデルが高い予測精度を有した。このように、分類したグループに含まれる遺伝子数によって、予測精度が異なることがわかる。これは、mRNAのデプスデータがmRNAの二次構造に依存することが関係していると考えられる。分類数が多ければ各グループのSDの分布は一様になり、さらにグループに含まれるmRNAの二次構造も一様になるため、学習の性能が向上すると考えられる。一方で、分類数が一定の範囲よりも多い場合、学習のためのmRNAのデータ数が減るため学習性能が下がると考えられる。
【0058】
また、深層学習であるEnformerやCNNはLassoよりも高い予測精度を有したことから、深層学習を用いることで、mRNAの崩壊速度を精度良く予測できる。
本実施例では、mRNAの塩基配列のみを入力するパターンと、時系列が異なるRNA-Seqデータ及びmRNAの塩基配列を入力するパターンとが考えられる。そこで、予測部125は、入力データにRNA-Seqデータが含まれるか否かを判定する(ステップS202)。
入力データにRNA-Seqデータが含まれる場合、予測部125は、デプス算出部120及び標準偏差算出部121と連係して入力データのRNA-Seqデータに対応するデプスの標準偏差を算出する(ステップS203)。
予測部125は、mRNA量の標準偏差に基づいて予測モデルデータベース130に格納される分類基準を参照し、mRNAが属するグループを特定する(ステップS204)。
ステップS202において、入力データにRNA-Seqデータが含まれない場合、予測部125は、予測モデルデータベース130から各グループの予測モデルの情報を取得し、各予測モデルに入力データのmRNAの塩基配列を入力することによって、mRNAの崩壊速度の予測を行う(ステップS206)。
予測部125は、グループ毎の各予測モデルについて崩壊速度の平均値を算出する(ステップS207)。ここでは一例として平均値を挙げたが、中央値等の統計値であってよい。
予測部125は、崩壊速度の平均値に基づいて出力する予測結果を選択する(ステップS208)。本実施例では、崩壊速度の平均値が選択される。その後、予測部125は、クライアント端末101に予測結果(mRNAの崩壊速度)を出力し(ステップS209)、予測処理を終了する。
本実施例により、予測対象のmRNAに対して、予測に適した予測モデルを選択することができる。これにより予測対象のmRNAの崩壊速度を精度良く算出することができる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Python、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。