特開2025-163509 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧 ▶ 株式会社ＡＲＣＡＬＩＳの特許一覧

特開2025-163509計算機システム及び予測モデルの学習方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025163509

(43)【公開日】2025-10-29

(54)【発明の名称】計算機システム及び予測モデルの学習方法

(51)【国際特許分類】

G16B 40/20 20190101AFI20251022BHJP

【ＦＩ】

G16B40/20

【審査請求】未請求

【請求項の数】14

【出願形態】ＯＬ

(21)【出願番号】P 2024066820

(22)【出願日】2024-04-17

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＰＹＴＨＯＮ

(71)【出願人】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(71)【出願人】

【識別番号】521298285

【氏名又は名称】株式会社ＡＲＣＡＬＩＳ

(74)【代理人】

【識別番号】110001678

【氏名又は名称】藤央弁理士法人

(72)【発明者】

【氏名】庄司竜麻

(72)【発明者】

【氏名】竹内渉

(72)【発明者】

【氏名】吉田哲郎

(72)【発明者】

【氏名】赤堀玲奈

(57)【要約】

【課題】生体高分子の安定性を高い精度で予測する機械学習モデルを生成する。
【解決手段】計算機システムは、複数の生体高分子の塩基配列のリード結果及び生体高分子に対応する崩壊速度を格納するデータベースと接続し、各生体高分子について、生体高分子の塩基配列の各位置におけるリード結果の重なり数であるデプスを表すデータを生成し、各生体高分子について、データに基づいてデプスの標準偏差を算出し、デプスの標準偏差に基づいて生体高分子をグループに分類し、各グループについて、生体高分子の塩基配列及び崩壊速度から構成される学習データを生成し、各グループについて、学習データを用いた機械学習を実行することによって、生体高分子の塩基配列を受け付け、生体高分子の崩壊速度を出力する予測モデルを生成する。
【選択図】図１

【特許請求の範囲】

【請求項1】

計算機システムであって、
プロセッサ、前記プロセッサに接続される記憶装置、及び前記プロセッサに接続されるネットワークインタフェースを備え、
複数の生体高分子の塩基配列のリード結果及び前記生体高分子に対応する崩壊速度を格納するデータベースとアクセス可能に接続し、
前記プロセッサは、
前記生体高分子の各々について、前記生体高分子の塩基配列の各位置における前記リード結果の重なり数であるデプスを表すデータを生成し、
前記生体高分子の各々について、前記データに基づいて、前記生体高分子の前記デプスの標準偏差を算出し、
前記生体高分子の各々の前記デプスの標準偏差に基づいて、前記複数の生体高分子を複数のグループに分類し、
前記グループの各々について、前記グループに属する前記生体高分子の塩基配列及び前記データベースに格納される崩壊速度から構成される学習データを生成し、
前記グループの各々について、前記グループの前記学習データを用いた機械学習を実行することによって、前記生体高分子の塩基配列を受け付け、前記生体高分子の崩壊速度を出力する予測モデルを生成し、前記予測モデルの情報を前記記憶装置に格納することを特徴とする計算機システム。

【請求項2】

請求項１に記載の計算機システムであって、
前記プロセッサは、前記生体高分子の各々について、前記生体高分子の塩基配列を複数の領域に分割し、前記データに基づいて前記生体高分子の前記領域毎の崩壊速度を算出し、前記データベースに格納することを特徴とする計算機システム。

【請求項3】

請求項２に記載の計算機システムであって、
前記データベースには、同一の前記生体高分子であって、計測基準時からの経過時間が異なる前記リード結果が格納され、
前記プロセッサは、
同一の前記生体高分子の前記経過時間が異なる前記データを用いて、前記領域毎に、前記生体高分子の時間変化に対する前記デプスの変化量を算出し、
前記領域毎に、前記生体高分子の時間変化に対する前記デプスの変化量に基づいて、前記生体高分子の崩壊速度を算出することを特徴とする計算機システム。

【請求項4】

請求項１に記載の計算機システムであって、
前記プロセッサは、前記生体高分子の各々の前記デプスの標準偏差と、前記生体高分子の数とに基づいて、前記生体高分子を複数のグループに分類することを特徴とする計算機システム。

【請求項5】

請求項１に記載の計算機システムであって、
前記プロセッサは、前記グループの各々について、前記グループの前記学習データを用いて深層学習を実行することを特徴とする計算機システム。

【請求項6】

計算機システムであって、
プロセッサ、前記プロセッサに接続される記憶装置、及び前記プロセッサに接続されるネットワークインタフェースを備え、
前記記憶装置は、生体高分子の塩基配列を入力として受け付け、前記生体高分子の崩壊速度を出力する、予測モデルの情報を複数格納し、
前記予測モデルは、
前記生体高分子の崩壊速度を出力する機械学習モデルであり、
前記生体高分子の塩基配列の各位置におけるリード結果の重なり数であるデプスを表すデータに基づいて算出される、前記生体高分子の前記デプスの標準偏差に基づいて、複数の前記生体高分子を複数のグループに分類する処理と、
前記生体高分子の各々について、崩壊速度を算出する処理と、
前記グループの各々について、前記グループに属する前記生体高分子の塩基配列及び崩壊速度から構成される学習データを用いた機械学習を実行する処理と、によって生成され、
前記プロセッサは、前記複数の予測モデルを用いて、予測対象の生体高分子の崩壊速度を予測することを特徴とする計算機システム。

【請求項7】

請求項６に記載の計算機システムであって、
前記プロセッサは、
前記予測対象の生体高分子の塩基配列を受け付けた場合、前記複数の予測モデルの各々に前記予測対象の生体高分子の塩基配列を入力し、
前記複数の予測モデルの各々から得られる崩壊速度に基づいて、前記予測対象の生体高分子の崩壊速度の統計値を算出し、
前記統計値に基づいて、出力する前記崩壊速度を選択することを特徴とする計算機システム。

【請求項8】

請求項６に記載の計算機システムであって、
前記記憶装置は、前記グループの分類基準を格納し、
前記プロセッサは、
予測対象の生体高分子の塩基配列及び前記リード結果を受け付けた場合、前記リード結果に基づいて、前記予測対象の生体高分子の前記デプスの標準偏差を算出し、
前記分類基準及び前記予測対象の生体高分子の前記デプスの標準偏差に基づいて、前記予測対象の生体高分子が属する前記グループを特定し、
特定された前記グループの前記予測モデルに、前記予測対象の生体高分子の塩基配列を入力することを特徴とする計算機システム。

【請求項9】

計算機システムが実行する予測モデルの学習方法であって、
前記計算機システムは、
プロセッサ、前記プロセッサに接続される記憶装置、及び前記プロセッサに接続されるネットワークインタフェースを有し、
複数の生体高分子の塩基配列のリード結果及び前記生体高分子に対応する崩壊速度を格納するデータベースとアクセス可能に接続し、
前記予測モデルの学習方法は、
前記プロセッサが、前記生体高分子の各々について、前記生体高分子の塩基配列の各位置における前記リード結果の重なり数であるデプスを表すデータを生成する第１のステップと、
前記プロセッサが、前記生体高分子の各々について、前記データに基づいて、前記生体高分子の前記デプスの標準偏差を算出する第２のステップと、
前記プロセッサが、前記生体高分子の各々の前記デプスの標準偏差に基づいて、前記生体高分子を複数のグループに分類する第３のステップと、
前記プロセッサが、前記グループの各々について、前記グループに属する前記生体高分子の塩基配列及び前記データベースに格納される崩壊速度から構成される学習データを生成する第４のステップと、
前記プロセッサが、前記グループの各々について、予測モデルを生成し、前記予測モデルの情報を前記記憶装置に格納する第５のステップと、
を含むことを特徴とする予測モデルの学習方法。

【請求項10】

請求項９に記載の予測モデルの学習方法であって、
前記プロセッサが、前記生体高分子の各々について、前記生体高分子の塩基配列を複数の領域に分割し、前記データに基づいて前記生体高分子の前記領域毎の崩壊速度を算出し、前記データベースに格納する第６のステップを含むことを特徴とする予測モデルの学習方法。

【請求項11】

請求項９に記載の予測モデルの学習方法であって、
前記第３のステップは、前記プロセッサが、前記生体高分子の各々の前記デプスの標準偏差と、前記生体高分子の数とに基づいて、前記生体高分子を複数のグループに分類するステップを含むことを特徴とする予測モデルの学習方法。

【請求項12】

請求項９に記載の予測モデルの学習方法であって、
前記第５のステップは、前記プロセッサが、前記グループの各々について、前記グループの前記学習データを用いて深層学習を実行することを特徴とする予測モデルの学習方法。

【請求項13】

請求項９に記載の予測モデルの学習方法であって、
前記プロセッサが、前記複数の予測モデルを用いて、予測対象の生体高分子の崩壊速度を予測するステップを含むことを特徴とする予測モデルの学習方法。

【請求項14】

請求項１３に記載の予測モデルの学習方法であって、
前記予測対象の生体高分子の塩基配列を受け付けた場合、前記プロセッサが、前記複数の予測モデルの各々に前記予測対象の生体高分子の塩基配列を入力するステップと、
前記プロセッサが、前記複数の予測モデルの各々から得られる領域毎の崩壊速度に基づいて、前記予測対象の生体高分子の崩壊速度の統計値を算出するステップと、
前記プロセッサが、前記統計値を出力するステップと、を含むことを特徴とする予測モデルの学習方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は生体高分子の安定性を予測するシステムとその方法に関する。

【背景技術】

【0002】

生体高分子は生体に存在し、モノマ単位が重合して構成された高分子である。生体高分子として、ポリヌクレオチド、ポリペプチド、及び多糖が知られている。生体高分子は、重合構造と生理活性との多彩な相関性を持つことが知られているために、生体高分子を医薬品として開発する際に、コンピュータを利用して、生体高分子の構造や薬効の評価が行われることがよくある。例えば、生体高分子の体内での分解に対する安定性を予測することが知られている。

【0003】

非特許文献１には、生体高分子としてのｍＲＮＡの安定性を半減期として定義し、ＲＮＡ－Ｓｅｑにより、多数の遺伝子のｍＲＮＡの半減期を測定し、これを機械学習させることで、任意の配列のｍＲＮＡに対して半減期を予測することが記載されている。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】Medina-Munoz, Santiago Gerardo, et al、「Crosstalk between codon optimality and cis-regulatory elements dictates mRNA stability」、Genome biology 22.1 (2021):1-23

【発明の概要】

【発明が解決しようとする課題】

【0005】

非特許文献１に記載された方法では、実際には、ｍＲＮＡの安定性の予測値とその実測値との間の相関係数が小さいという課題がある。本発明は、生体高分子の安定性を高精度に予測可能なシステムを提供することを目的とする。

【課題を解決するための手段】

【0006】

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、計算機システムであって、プロセッサ、前記プロセッサに接続される記憶装置、及び前記プロセッサに接続されるネットワークインタフェースを備え、複数の生体高分子の塩基配列のリード結果及び前記生体高分子に対応する崩壊速度を格納するデータベースとアクセス可能に接続し、前記プロセッサは、前記生体高分子の各々について、前記生体高分子の塩基配列の各位置における前記リード結果の重なり数であるデプスを表すデータを生成し、前記生体高分子の各々について、前記データに基づいて、前記生体高分子の前記デプスの標準偏差を算出し、前記生体高分子の各々の前記デプスの標準偏差に基づいて、前記生体高分子を複数のグループに分類し、前記グループの各々について、前記グループに属する前記生体高分子の塩基配列及び前記データベースに格納される崩壊速度から構成される学習データを生成し、前記グループの各々について、前記グループの前記学習データを用いた機械学習を実行することによって、前記生体高分子の塩基配列を受け付け、前記生体高分子の崩壊速度を出力する予測モデルを生成し、前記予測モデルの情報を前記記憶装置に格納する。

【発明の効果】

【0007】

本発明によれば、任意の生体高分子の安定性を高精度に予測することができる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

【図面の簡単な説明】

【0008】

【図1】実施例１の計算機システムの構成の一例を示すブロック図である。

【図2】実施例１のサーバのハードウェア構成の一例を示すブロック図である。

【図3】実施例１の計算機システムのＧＵＩの一例を示す図である。

【図4】実施例１の計算機システムのＧＵＩの一例を示す図である。

【図5】実施例１のサーバが実行する予測モデル生成処理の一例を説明するフローチャートである。

【図6】実施例１のデプス算出部が生成するデプスデータの一例を説明する図である。

【図7】実施例１のサーバが作成するデータベースの一例を説明する図である。

【図8】実施例１のサーバが実行する予測処理の一例を説明するフローチャートである。

【図9】実施例１の計算機システムのＧＵＩの一例を示す図である。

【図10】本発明の予測モデルの性能の検証結果の一例を示す図である。

【図11】本発明の予測モデルの性能の検証結果の一例を示す図である。

【発明を実施するための形態】

【0009】

以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施例の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。

【0010】

以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。

【0011】

本明細書等における「第１」、「第２」、「第３」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。

【0012】

図面等において示す各構成の位置、大きさ、形状、及び範囲等は、発明の理解を容易にするため、実際の位置、大きさ、形状、及び範囲等を表していない場合がある。したがって、本発明では、図面等に開示された位置、大きさ、形状、及び範囲等に限定されない。

【実施例0013】

図１は、実施例１の計算機システムの構成の一例を示すブロック図である。図２は、実施例１のサーバのハードウェア構成の一例を示すブロック図である。

【0014】

計算機システムは、サーバ１００及びクライアント端末１０１から構成される。サーバ１００及びクライアント端末１０１は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等のネットワークを介して接続される。

【0015】

サーバ１００は、生体高分子の安定性を評価する指標を予測する予測モデルの学習及び予測モデルを用いた指標の予測を行う。サーバ１００は、図２に示すように、プロセッサ２００、ネットワークインタフェース２０１、主記憶装置２０２、及び副記憶装置２０３を有する。各ハードウェア要素はバス２０４を介して互いに接続される。なお、サーバ１００は、キーボード、マウス、タッチパネル等の入力装置、並びに、ディスプレイ等の出力装置を有してもよい。

【0016】

サーバ１００が保持する情報は、主記憶装置２０２又は副記憶装置２０３に格納される。また、サーバ１００が有する機能部は、プロセッサ２００が、主記憶装置２０２又は副記憶装置２０３に格納されるプログラムを実行することによって実現される。以下では、機能部を主語に処理を説明する場合、プロセッサ２００が当該機能部を実現するプログラムを実行していることを示す。

【0017】

なお、プログラムによって実現される機能部は、仮想的な計算機、計算機システム、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）及びＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等の専用回路を用いて実現してもよい。

【0018】

以下では、生体高分子として、ポリヌクレオチドであるＲＮＡのうちのｍＲＮＡを例に説明する。

【0019】

非特許文献１では、ｍＲＮＡの安定性を評価する指標としてｍＲＮＡの崩壊速度を定義している。本発明でも、ｍＲＮＡの崩壊速度をｍＲＮＡの安定性を評価する指標として採用する。ただし、一例として崩壊速度を用いたが、他の安定性を示す指標を用いてもよい。

【0020】

サーバ１００は、ｍＲＮＡの塩基配列及びｍＲＮＡのＲＮＡ－Ｓｅｑデータを用いて、任意のｍＲＮＡの塩基配列を入力として受け付け、ｍＲＮＡの崩壊速度を予測する予測モデルを生成するための機械学習を実行する。本実施例の予測モデルは、ｍＲＮＡの塩基配列の崩壊速度の予測を行うモデルである。予測モデルは、例えば、ＤＮＮ等の深層学習であってもよいが、深層学習に限られない。

【0021】

サーバ１００は、ＲＮＡ－Ｓｅｑデータデータベース１１０及び予測モデルデータベース１３０を保持する。

【0022】

ＲＮＡ－Ｓｅｑデータデータベース１１０は、種々のｍＲＮＡのＲＮＡ－Ｓｅｑデータを格納するデータベースである。ＲＮＡ－Ｓｅｑデータは、次世代シーケンスを用いて取得した塩基配列のリード結果である。例えば、リードＩＤ、リード配列、及びクオリティを含む。ＲＮＡ－Ｓｅｑデータは計測基準時からの経過時間（時系列）と関連付けて管理される。また、ＲＮＡ－Ｓｅｑデータデータベース１１０は種々のｍＲＮＡに対応する崩壊速度を紐づけて格納してもよい。なお、ＲＮＡ－Ｓｅｑデータデータベース１１０は、サーバ１００の外部の装置又はシステムが保持してよい。

【0023】

予測モデルデータベース１３０は、予測モデルを定義する情報を格納するデータベースである。

【0024】

サーバ１００は、デプス算出部１２０、標準偏差算出部１２１、ｍＲＮＡ分類部１２２、崩壊速度算出部１２３、学習部１２４、及び予測部１２５を有する。なお、サーバ１００が有する機能部は、複数の機能部を一つの機能部にまとめてもよいし、一つの機能部を機能毎に複数の機能部に分けてもよい。

【0025】

クライアント端末１０１は、サーバ１００に各種データを入力し、また、サーバ１００から各種データを取得する。クライアント端末１０１のハードウェア構成はサーバ１００と同様であるため説明を省略する。クライアント端末１０１は、ＲＮＡ－Ｓｅｑデータ登録部１４０、入力データ入力部１４１、予測結果取得部１４２を有する。

【0026】

ＲＮＡ－Ｓｅｑデータ登録部１４０は、サーバ１００にＲＮＡ－Ｓｅｑデータを登録する。たとえば、図３のように、クライアント端末１０１から生体高分子のＲＮＡ－Ｓｅｑデータを登録してもよい。またＲＮＡ－Ｓｅｑデータ以外にＲＮＡ－Ｓｅｑデータに関する種の情報や、計測時刻を入力してもよい。入力データ入力部１４１は、サーバ１００に予測モデルに入力する入力データを入力する。たとえば、安定性を予測したい生体高分子の情報のみを選択して予測モデルに入力してもよい。具体的には図４のようにＲＮＡ－Ｓｅｑデータから所定の配列のみをチェックボタンで選択して、予測モデルに入力してもよい。予測結果取得部１４２は、サーバ１００から予測結果を取得する。なお、クライアント端末１０１は、予測モデルの機械学習の各種パラメータを入力する機能部を有してもよい。

【0027】

図５は、実施例１のサーバ１００が実行する予測モデル生成処理の一例を説明するフローチャートである。

【0028】

デプス算出部１２０は、各ｍＲＮＡのデプスデータを生成する（ステップＳ１０１）。具体的には、以下のような処理が実行される。

【0029】

（Ｓ１０１－１）デプス算出部１２０はＲＮＡ－Ｓｅｑデータデータベース１１０から一つのｍＲＮＡを選択する。

【0030】

（Ｓ１０１－２）デプス算出部１２０は、ＲＮＡ－Ｓｅｑデータデータベース１１０から、選択したｍＲＮＡのＲＮＡ－Ｓｅｑデータを取得する。ここでは、時系列毎（経過時間毎）にＲＮＡ－Ｓｅｑデータが取得される。例えば、選択したｍＲＮＡのＲＮＡ－Ｓｅｑにおける初回の計測基準時である「０時間」のＲＮＡ－Ｓｅｑデータ、初回からの経過時間が「１時間」のＲＮＡ－Ｓｅｑデータ、初回からの経過時間が「３時間」のＲＮＡ－Ｓｅｑデータ、初回からの経過時間が「６時間」のＲＮＡ－Ｓｅｑデータが取得される。

【0031】

（Ｓ１０１－３）デプス算出部１２０は、各時系列について、ＲＮＡ－Ｓｅｑデータを選択したｍＲＮＡのリファレンス配列にマッピングする。

【0032】

（Ｓ１０１－４）デプス算出部１２０は、各時系列について、マッピングの結果に基づいてリファレンス配列の各位置について読み取られたＲＮＡ－Ｓｅｑデータによって検出されたリードの重なり数（ｍＲＮＡ量）をデプスとして１塩基毎に算出し、デプスデータとして保存する。

【0033】

（Ｓ１０１－５）デプス算出部１２０は、処理対象の全てのｍＲＮＡについてＳ１０１－４の処理が完了したか否かを判定する。処理対象の全てのｍＲＮＡについて処理が完了していない場合、デプス算出部１２０はＳ１０１－１に戻る。処理対象の全てのｍＲＮＡについて処理が完了した場合、デプス算出部１２０はＳ１０１の処理を終了する。

【0034】

図６は、実施例１のデプス算出部１２０が生成するデプスデータの一例を説明する図である。横軸は塩基配列を表し、縦軸はデプス（ｍＲＮＡ量）を表す。図６には、同一ｍＲＮＡの時系列が異なるデプスデータを示している。

【0035】

時間変化に対するデプスの変化量が大きいほど、ｍＲＮＡの安定性が低く、時間変化に対するデプスの変化量が小さいほど、ｍＲＮＡの安定性が高い。

【0036】

標準偏差算出部１２１は、各ｍＲＮＡについて、任意の時系列のデプスデータを用いてデプスの標準偏差を算出する（ステップＳ１０２）。デプスの標準偏差はデプスデータを有するｍＲＮＡ毎に算出される。たとえば、図６に記載のｍＲＮＡの経過時間「０時間」における、ｍＲＮＡの全長配列のデプスデータに基づいて、ｍＲＮＡの全長配列のデプスのばらつきを算出する。具体的には、図７のテーブルＡのように、ｍＲＮＡ毎にｍＲＮＡの全長配列のデプスデータに基づいて、デプスの標準偏差が算出される。算出されたデプスの標準偏差のデータベースは予測モデルデータベース１３０に格納してもよい。以降、本実施例では経過時間「０時間」のデプスデータを用いる。また、本実施例では標準偏差を用いたが、分散であってもよい。

【0037】

ｍＲＮＡ分類部１２２は、各ｍＲＮＡのｍＲＮＡ量の標準偏差に基づいて複数のｍＲＮＡを複数のグループに分類する（ステップＳ１０３）。例えば、ｍＲＮＡ分類部１２２は、分類基準及びｍＲＮＡ量の標準偏差に基づいて８つのグループに分類する。分類基準は、ｍＲＮＡ量の標準偏差の範囲であり、任意に設定できる。例えば、４つのグループに分類する分類基準を設定してもよい。このため、各グループには所定の範囲内に含まれる標準偏差を有するｍＲＮＡが分類される。具体的には、図７のテーブルＣのように、グループ毎にデプスの標準偏差の範囲が設けられる。また、設定されたデプスの標準偏差の範囲に対応するｍＲＮＡを抽出することで、複数のｍＲＮＡを複数のグループに分類する。ｍＲＮＡの分類結果は分類データベースとして予測モデルデータベース１３０に格納してもよい。

【0038】

崩壊速度算出部１２３は、各ｍＲＮＡの崩壊速度を算出する（ステップＳ１０４）。具体的には、以下のような処理が実行される。なお、予め各ｍＲＮＡに対応する崩壊速度を記憶している場合は、ステップＳ１０４を省略してもよい。

【0039】

（Ｓ１０４－１）崩壊速度算出部１２３はｍＲＮＡを選択する。

【0040】

（Ｓ１０４－２）崩壊速度算出部１２３は、各時系列のデプスデータを所定の数の領域に分割する。領域とは、解析対象のｍＲＮＡにおける所定の範囲である。領域数は任意に設定できる。なお、領域は領域の開始地点を表す塩基配列の位置ｉ及び領域の幅ｗによって定まる。

【0041】

（Ｓ１０４－３）崩壊速度算出部１２３は領域を選択する。

【0042】

（Ｓ１０４－４）崩壊速度算出部１２３は、各時系列のデプスデータの選択した領域のデプスの変化量を算出し、当該変化量に基づいて崩壊速度を算出する。崩壊速度の算出方法としては、ｍＲＮＡの崩壊の反応モデルに基づく回帰分析が考えられる。崩壊速度算出部１２３は、ｍＲＮＡ、領域、及び崩壊速度を対応づけて記憶する。

【0043】

（Ｓ１０４－５）崩壊速度算出部１２３は全ての領域について処理が完了したか否かを判定する。全ての領域について処理が完了していない場合、崩壊速度算出部１２３はＳ１０４－３に戻る。

【0044】

（Ｓ１０４－５）全ての領域について処理が完了した場合、崩壊速度算出部１２３は全てのｍＲＮＡについて処理が完了したか否かを判定する。全てのｍＲＮＡについて処理が完了していない場合、崩壊速度算出部１２３はＳ１０４－１に戻る。全てのｍＲＮＡについて処理が完了した場合、崩壊速度算出部１２３はＳ１０４の処理を終了する。一例として、全てのｍＲＮＡについて処理が完了した場合、図７のテーブルＢのように崩壊速度のデータベースを生成してもよい。崩壊速度のデータベースは予測モデルデータベース１３０又はＲＮＡ－Ｓｅｑデータデータベース１１０に格納してもよい。上記では、領域毎の崩壊速度の算出方法を記載したが、対象のｍＲＮＡの全長に対する崩壊速度や、ｍＲＮＡの領域毎の崩壊速度の平均値を算出してもよい。

【0045】

学習部１２４は、ステップＳ１０３で分類したｍＲＮＡのグループ毎に予測モデルを学習して、生成する（ステップＳ１０５）。具体的には、以下のような処理が実行される。

【0046】

（Ｓ１０５－１）学習部１２４はグループを選択する。

【0047】

（Ｓ１０５－２）学習部１２４は、グループに属するｍＲＮＡの各々について、ｍＲＮＡの塩基配列と、Ｓ１０４－４で算出したｍＲＮＡの崩壊速度とから構成される学習データを生成する。具体的には、図７のテーブルＤのように、グループＡに属するｍＲＮＡの塩基配列と崩壊速度を、図７のテーブルＢ、テーブルＣのデータベースに基づいて生成する。

【0048】

（Ｓ１０５－３）学習部１２４は、生成された学習データを用いて、ｍＲＮＡの塩基配列を入力とし、ｍＲＮＡの崩壊速度を出力する予測モデルを学習する。本発明は学習の手法に限定されない。

【0049】

（Ｓ１０５－４）学習部１２４は、全てのグループについて処理が完了したか否かを判定する。全てのグループについて処理が完了していない場合、学習部１２４はＳ１０５－１に戻る。

【0050】

（Ｓ１０５－４）全てのグループについて処理が完了した場合、学習部１２４は、グループの識別情報及び予測モデルを対応づけて予測モデルデータベース１３０に記憶する。このとき、学習部１２４は、ｍＲＮＡ量の標準偏差の算出結果及び分類基準も予測モデルデータベース１３０に記憶する。

【0051】

本発明では、ｍＲＮＡのＲＮＡ－Ｓｅｑデータから算出されるｍＲＮＡ量の標準偏差に基づいて、ＲＮＡ－Ｓｅｑデータを複数のグループに分類し、グループ毎に学習データセットを生成した。また、本発明ではｍＲＮＡ等の生体高分子の安定性が領域毎に異なることを考慮して、生体高分子の領域毎の崩壊速度を予測する予測モデルを学習した。これによって、各グループの学習データを用いて生成されたそれぞれの予測モデルにより、高い予測精度を発揮することを可能にする。

【0052】

図１０は複数のＲＮＡ－Ｓｅｑデータに対してデプスデータを生成し、デプスデータによって算出される標準偏差に基づいて複数のｍＲＮＡを分類し、それぞれのグループについて学習した結果を示す。また、グループの分類数はそれぞれ２分類、４分類、８分類まで設定した。分類の基準は、各グループに含まれる遺伝子数に基づいて分類した。具体的には図１０における２分類の方法では、各グループに含まれる遺伝子数は２０００程度、４分類の方法では１０００程度、８分類の方法では５００程度に分類した。

【0053】

また、学習方法には、ＬＡＳＳＯ、ＣＮＮ、Ｅｎｆｏｒｍｅｒの３種を用いた。

【0054】

また、相関係数は、ｍＲＮＡの安定性の一つである崩壊速度の予測値とその実測値との相関である。

【0055】

その結果、４分類に分類した予測モデルの予測精度が高いことが分かった。特に、４分類で分類し、Ｅｎｆｏｒｍｅｒで学習した予測モデルは、予測モデルの精度が平均して０．９４９５であった。

【0056】

また、他のｍＲＮＡのデータセットを用いた予測精度について図１１に示す。

【0057】

図１１では、８分類に分類し、Ｅｎｆｏｒｍｅｒで学習した予測モデルが高い予測精度を有した。このように、分類したグループに含まれる遺伝子数によって、予測精度が異なることがわかる。これは、ｍＲＮＡのデプスデータがｍＲＮＡの二次構造に依存することが関係していると考えられる。分類数が多ければ各グループのＳＤの分布は一様になり、さらにグループに含まれるｍＲＮＡの二次構造も一様になるため、学習の性能が向上すると考えられる。一方で、分類数が一定の範囲よりも多い場合、学習のためのｍＲＮＡのデータ数が減るため学習性能が下がると考えられる。

【0058】

また、深層学習であるＥｎｆｏｒｍｅｒやＣＮＮはＬａｓｓｏよりも高い予測精度を有したことから、深層学習を用いることで、ｍＲＮＡの崩壊速度を精度良く予測できる。

【実施例0059】

本実施例は、実施例１における予測モデルを用いて、ｍＲＮＡの塩基配列又はＲＮＡ－Ｓｅｑデータから崩壊速度を算出するものである。

【0060】

図８は、実施例１のサーバ１００が実行する予測処理の一例を説明するフローチャートである。

【0061】

予測部１２５は、クライアント端末１０１から入力データを取得する（ステップＳ２０１）。

【0062】

本実施例では、ｍＲＮＡの塩基配列のみを入力するパターンと、時系列が異なるＲＮＡ－Ｓｅｑデータ及びｍＲＮＡの塩基配列を入力するパターンとが考えられる。そこで、予測部１２５は、入力データにＲＮＡ－Ｓｅｑデータが含まれるか否かを判定する（ステップＳ２０２）。

【0063】

入力データにＲＮＡ－Ｓｅｑデータが含まれる場合、予測部１２５は、デプス算出部１２０及び標準偏差算出部１２１と連係して入力データのＲＮＡ－Ｓｅｑデータに対応するデプスの標準偏差を算出する（ステップＳ２０３）。

【0064】

予測部１２５は、ｍＲＮＡ量の標準偏差に基づいて予測モデルデータベース１３０に格納される分類基準を参照し、ｍＲＮＡが属するグループを特定する（ステップＳ２０４）。

【0065】

予測部１２５は、予測モデルデータベース１３０から、特定されたグループの予測モデルの情報を取得し、当該予測モデルにｍＲＮＡの塩基配列を入力することによってｍＲＮＡの崩壊速度の予測を行う（ステップＳ２０５）。その後、予測部１２５は、クライアント端末１０１に予測結果（ｍＲＮＡの崩壊速度）を出力し（ステップＳ２０９）、予測処理を終了する。たとえば図９にクライアント端末１０１における表示画面例を示す。図９のように、ＲＮＡ－Ｓｅｑデータ登録部１４０を介して予測対象のＲＮＡ－Ｓｅｑデータを入力として受け付け、予測部１２５において算出した標準偏差を出力してもよい。また、標準偏差に基づいて、クライアントから使用する予測モデルを入力として受け付けてもよい。図９では、クライアント端末１０１を介してユーザから使用する予測モデルの選択情報を入力として受け付けたが、ユーザからの入力を介さずに、算出されたｍＲＮＡのデプスの標準偏差に基づいて、自動で使用する予測モデルを選択してもよい。最終的に予測結果取得部１４２を介して、クライアント端末１０１に予測したいｍＲＮＡの崩壊速度を出力してもよい。なお、利用する予測モデルに記載の相関関数は、各予測モデルの学習に用いた崩壊速度の予測値と、実験などで得られた崩壊速度の実測値との相関関係を示す。

【0066】

ステップＳ２０２において、入力データにＲＮＡ－Ｓｅｑデータが含まれない場合、予測部１２５は、予測モデルデータベース１３０から各グループの予測モデルの情報を取得し、各予測モデルに入力データのｍＲＮＡの塩基配列を入力することによって、ｍＲＮＡの崩壊速度の予測を行う（ステップＳ２０６）。

【0067】

予測部１２５は、グループ毎の各予測モデルについて崩壊速度の平均値を算出する（ステップＳ２０７）。ここでは一例として平均値を挙げたが、中央値等の統計値であってよい。

【0068】

予測部１２５は、崩壊速度の平均値に基づいて出力する予測結果を選択する（ステップＳ２０８）。本実施例では、崩壊速度の平均値が選択される。その後、予測部１２５は、クライアント端末１０１に予測結果（ｍＲＮＡの崩壊速度）を出力し（ステップＳ２０９）、予測処理を終了する。

【0069】

本実施例により、予測対象のｍＲＮＡに対して、予測に適した予測モデルを選択することができる。これにより予測対象のｍＲＮＡの崩壊速度を精度良く算出することができる。

【0070】

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。

【0071】

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、光ディスク、光磁気ディスク、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

【0072】

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｐｙｔｈｏｎ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

【0073】

さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はＣＤ－ＲＷ、ＣＤ－Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

【0074】

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

IP Force 特許公報掲載プロジェクト 2022.1.31 β版