(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024137802
(43)【公開日】2024-10-07
(54)【発明の名称】オミクスデータに基づく推定装置および推定方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20240927BHJP
G06F 18/27 20230101ALI20240927BHJP
G16B 40/20 20190101ALI20240927BHJP
【FI】
G06N20/00 130
G06F18/27
G16B40/20
【審査請求】未請求
【請求項の数】19
【出願形態】OL
(21)【出願番号】P 2024039572
(22)【出願日】2024-03-14
(31)【優先権主張番号】63/453,626
(32)【優先日】2023-03-21
(33)【優先権主張国・地域又は機関】US
【国等の委託研究の成果に係る記載事項】(出願人による申告)国立研究開発法人農業・食品産業技術総合研究機構、ムーンショット型農林水産研究開発事業委託研究、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】503359821
【氏名又は名称】国立研究開発法人理化学研究所
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】市橋 泰範
(72)【発明者】
【氏名】小泉 敬彦
(72)【発明者】
【氏名】鈴木 健大
(57)【要約】
【課題】オミクスデータに基づいて高精度な定量推定が可能な技術を提供する
【解決手段】複数の説明変数を有する入力データから、目的変数を推定する推定方法であって、複数の教師データを用いて説明変数ごとにあらかじめ生成された予測モデルと、前記入力データとに基づいて、説明変数ごとに、入力データが与えられたときの目的変数に関する条件付き確率密度分布を生成するステップと、条件付き確率密度分布を統合して統合確率密度分布を生成するステップと、前記統合確率密度分布においてピークを与える値を前記目的変数の推定値として決定するステップと、を含む。予測モデルは、回帰モデルであり、前記説明変数ごとの条件付き確率密度分布は、前記回帰モデルに前記入力データの前記説明変数を入力して得られる値を平均値とし、前記回帰モデルの誤差の分散を標準偏差とする、ガウス分布に従う確率密度分布である。
【選択図】
図3
【特許請求の範囲】
【請求項1】
複数の説明変数を有する入力データから、目的変数を推定する推定方法であって、
複数の教師データを用いて説明変数ごとにあらかじめ生成された予測モデルと、前記入力データとに基づいて、説明変数ごとに、前記入力データが与えられたときの前記目的変数に関する条件付き確率密度分布を生成するステップと、
それぞれの説明変数に対応する前記条件付き確率密度分布を統合して統合確率密度分布を生成するステップと、
前記統合確率密度分布においてピークを与える値を前記目的変数の推定値として決定するステップと、
を含む、推定方法。
【請求項2】
前記予測モデルは、回帰モデルであり、
前記説明変数ごとの条件付き確率密度分布は、
前記説明変数についての前記回帰モデルに、前記入力データの前記説明変数を入力して得られる値を平均値とし、
前記回帰モデルの誤差の分散を標準偏差とする、
ガウス分布に従う確率密度分布である、
ことを特徴とする請求項1に記載の推定方法。
【請求項3】
前記予測モデルは、線形回帰モデル、または、2次もしくは3次の多項式回帰モデルである、
ことを特徴とする請求項1に記載の推定方法。
【請求項4】
前記説明変数の数は、前記教師データの数よりも多い、
ことを特徴とする請求項1に記載の推定方法。
【請求項5】
前記入力データは、オミクスデータである、
ことを特徴とする請求項1に記載の推定方法。
【請求項6】
前記入力データは、単一の細胞に係るシングルセルトランスクリプトームであり、
前記目的変数は、前記細胞の活動電位である、
ことを特徴とする請求項5に記載の推定方法。
【請求項7】
前記入力データは、サンプル個体に係るトランスクリプトームであり、
前記目的変数は、前記サンプル個体の採取環境を表すパラメータである、
ことを特徴とする請求項5に記載の推定方法。
【請求項8】
前記入力データは、サンプル個体に係るメタボロームであり、
前記目的変数は、前記サンプル個体の齢である、
ことを特徴とする請求項5に記載の推定方法。
【請求項9】
前記入力データは、サンプル微生物叢に係るマイクロバイオームであり、
前記目的変数は、前記サンプル微生物叢の採取環境を表すパラメータである、
ことを特徴とする請求項5に記載の推定方法。
【請求項10】
請求項1から9のいずれか1項に記載の推定方法の各ステップをコンピュータに実行させるためのプログラムを非一時的に格納したコンピュータ可読記憶媒体。
【請求項11】
複数の説明変数を有する入力データから、目的変数を推定する推定装置であって、
複数の教師データを用いて説明変数ごとにあらかじめ生成された予測モデルと、前記入力データとに基づいて、説明変数ごとに、前記入力データが与えられたときの前記目的変数に関する条件付き確率密度分布を生成する第1生成手段と、
それぞれの説明変数に対応する前記条件付き確率密度分布を統合して統合確率密度分布を生成する第2生成手段と、
前記統合確率密度分布においてピークを与える値を前記目的変数の推定値として決定する推定手段と、
を備える、推定装置。
【請求項12】
前記予測モデルは、回帰モデルであり、
前記説明変数ごとの条件付き確率密度分布は、
前記説明変数についての前記回帰モデルに、前記入力データの前記説明変数を入力して得られる値を平均値とし、
前記回帰モデルの誤差の分散を標準偏差とする、
ガウス分布に従う確率密度分布である、
ことを特徴とする請求項11に記載の推定装置。
【請求項13】
前記予測モデルは、線形回帰モデル、または、2次もしくは3次の多項式回帰モデルである、
ことを特徴とする請求項11に記載の推定装置。
【請求項14】
前記説明変数の数は、前記教師データの数よりも多い、
ことを特徴とする請求項11に記載の推定装置。
【請求項15】
前記入力データは、オミクスデータである、
ことを特徴とする請求項11に記載の推定装置。
【請求項16】
前記入力データは、単一の細胞に係るシングルセルトランスクリプトームであり、
前記目的変数は、前記細胞の活動電位である、
ことを特徴とする請求項11に記載の推定装置。
【請求項17】
前記入力データは、サンプル個体に係るトランスクリプトームであり、
前記目的変数は、前記サンプル個体の採取環境を表すパラメータである、
ことを特徴とする請求項11に記載の推定装置。
【請求項18】
前記入力データは、サンプル個体に係るメタボロームであり、
前記目的変数は、前記サンプル個体の齢である、
ことを特徴とする請求項11に記載の推定装置。
【請求項19】
前記入力データは、サンプル微生物叢に係るマイクロバイオームであり、
前記目的変数は、前記サンプル微生物叢の採取環境を表すパラメータである、
ことを特徴とする請求項11に記載の推定装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オミクスデータに基づく推定装置および推定方法に関する。
【背景技術】
【0002】
生物の生理状態を反映した挙動を示す生体分子は、バイオマーカーとして広く利用されている。例えば医学分野では、特定のタンパク質やマイクロRNAが、視認できない疾患の有無や症状の進行度を推定するバイオマーカーとして注目を集めてきた。しかし、少数のマーカーに基づく推定では、個々における測定誤差が最終的な推定結果に大きく影響してしまう。近年、塩基配列解析技術のハイスループット化と大幅なコストダウンによって、生体分子の全体集合であるオミクスデータを容易に取得できるようになった。オミクスデータには、潜在的にバイオマーカーとして機能しうる生体分子情報が豊富に含まれることから、それらを全て統合することによって高精度の推定ツ―ル(=バイオセンサー)を構築できる。
【0003】
また、従来のバイオマーカーとして利用される生体分子は、着目する事象との関連(遺伝子の機能など)が過去の知見に基づいて明確なものに限定されてきた。しかし、オミクスデータには網羅的に取得した生体分子の全情報が含まれることから、いかなる事前情報をも必要とせず、データ内からバイオマーカーとして機能しうる生体分子を的確に抽出することができる。これは、従来であれば少数のバイオマーカーを選定するために費やしていたコストを削減することにつながり、オミクスデータを活用するからこそ得られるメリットであると言える。
【0004】
複数の要素を説明変数として定量的な推定を行う際、一般的には回帰式を構築する。基本的には、回帰の制約によって説明変数の数が学習データ数を上回ることが許されない。しかしオミクスデータには説明変数となりうる要素が膨大に含まれることから、前述の制約を回避する数々の推定手法が考案されてきた。具体的には、一般的な回帰式に正則化項を付与することによって変数を選択するLasso回帰、同様にして全ての回帰係数を縮小す
るRidge回帰、説明変数を主成分に変換する主成分回帰(PCR)および部分的最小二乗回帰(PLSR)、機械学習的アプローチに基づくサポートベクター回帰(SVR)およびランダムフォレ
スト回帰(RFR)などが挙げられる。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Klau, S., Jurinovic, V., Hornung, R. et al. Priority-Lasso: a simple hierarchical approach to the prediction of clinical outcome using multi-omics data. BMC Bioinformatics 19, 322 (2018). https://doi.org/10.1186/s12859-018-2344-6
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上述のいずれの手法も、過学習によって新規のデータに適用する際に推定精度が低下する問題、モデルが複雑になり解釈が困難になる問題、さらにオミクスデータに含まれるノイズによって推定精度が低下する問題がある。さらに、推定モデルを特徴づけるハイパーパラメータをデータ構造に合わせて適宜調整する必要があることから、結果的に構築される推定モデルが恣意的になりやすく、またこれが過学習をもたらす一因ともなっている。
【0007】
これら一連の問題が生じることにより、膨大な有用情報を一括で取得できるオミクスデータが持つ本来のアドバンテージを、定量推定の用途において現状ほとんど生かせていない。
【0008】
本開示は、オミクスデータに基づいて高精度な定量推定が可能な技術を提供すること目的とする。
【課題を解決するための手段】
【0009】
本開示の一態様は、複数の説明変数を有する入力データから、目的変数を推定する推定方法であって、
複数の教師データを用いて説明変数ごとにあらかじめ生成された予測モデルと、前記入力データとに基づいて、説明変数ごとに、前記入力データが与えられたときの前記目的変数に関する条件付き確率密度分布を生成するステップと、
それぞれの説明変数に対応する前記条件付き確率密度分布を統合して統合確率密度分布を生成するステップと、
前記統合確率密度分布においてピークを与える値を前記目的変数の推定値として決定するステップと、
を含む、推定方法である。
【発明の効果】
【0010】
本開示によれば、オミクスデータに基づいて高精度な定量推定が可能となる。
【図面の簡単な説明】
【0011】
【
図1】実施形態に係る推定装置の機能構成を示す図。
【
図2】実施形態における典型的な処理フローおよび推定装置が提供する推定ツールを説明する図。
【
図3】推定モデルの構築および当該推定モデルに基づく推定処理のフローチャート。
【
図4】推定モデルの構築および当該推定モデルに基づく推定処理を説明する図。
【
図5】推定モデルの構築および当該推定モデルに基づく推定処理を説明する図。
【
図6】推定モデルの構築および当該推定モデルに基づく推定処理を説明する図。
【発明を実施するための形態】
【0012】
<概要>
従来の推定手法は、いずれも教師データの学習過程を経て推定誤差の分散を最小化するモデルを生成する。それに対して本発明は、新規の推定アルゴリズムにより確率論的に推定値を導出するモデルを生成する。
【0013】
本手法では、まず、個々の説明変数に基づいて、ガウス分布に従うように推定値に関する条件付き確率密度分布を生成する。全ての説明変数に関して生成された確率密度分布を統合して得られる混合ガウス分布の最大ピークを与える数値を最終的な推定値として返す。
【0014】
<構成概要>
図1は、一実施形態に係る推定装置1の機能構成を示す図である。推定装置1は、オミク
スデータを入力として受け付け、定量的な推定を行う。一例として、推定装置1は、遺伝
子発現に関するオミクスデータ(トランスクリプトーム)から、サンプル個体の採取環境(例えば、温度)を推定する。推定装置1は、バイオセンサであると捉えることもできる。
【0015】
推定装置1は、演算プロセッサとメモリを備えるコンピュータ(情報処理装置)によっ
て実装される。推定装置1の演算プロセッサがメモリに格納されたプログラムを実行することにより、
図1に示す機能が実現される。すなわち、推定装置1は、前処理部11、要素モデル生成部12、要素モデル13、データ可視化部14、データ取得部15、条件付き確率密度分布生成部16、統合確率密度分布生成部17、推定部18として機能する。なお、上記機能部の一部または全てが、専用のハードウェアによって実現されても構わない。
【0016】
図2は、本実施形態における典型的な処理フローおよび推定装置1が提供する推定ツールを説明する図である。推定装置1は、例えばR言語などのプログラミング言語により記述され、
図2に示す6つの関数を含んで構成されており、オミクスデータを用いたバイオセンサの構築をサポートする。6つの関数は、欠損値を除外する関数os.clean(202)、データ可視化を行う関数os.rankおよびos.pca(203)、データの並び替えを行う関
数os.sort(204)、データの最適化を行う関数os.opt(205)、および推定モデル
の構築と適用を行う関数os.pred(206)を含む。
【0017】
学習に利用する入力データ201のデータ構造は、サンプルを行、説明変数を列とする。
【0018】
関数os.clean(202)は、ある閾値以上の欠損値を含む説明変数を除外する。オミクスデータは一般に多くの欠損値や異常値を有し、このことが適切な予測を阻害する。関数os.cleanは、このような説明変数を入力データから除外し、適切な予測に貢献する。関数os.cleanは前処理部11によって実現される。
【0019】
関数os.rankおよびos.pca(203)は、入力データの可視化を行う。予測モデルの性
能はモデルで利用される説明変数の数に大きく依存する。このような情報に関連されたオミクスデータの全体像を把握するために、関数os.rankおよびos.pcaによって説明変数の
重要度(説明変数と推定すべき変数の回帰式におけるR2値)のrank-abundanceプロットを描画する。関数os.rankおよびos.pcaはデータ可視化部14によって実現される。
【0020】
関数os.sort(204)は、重要度の高い順に入力データの列を並び替える。関数os.sortは前処理部11によって実現される。
【0021】
関数os.opt(205)は、推定モデルに組み込む説明変数の数として適切な数値を返す。関数os.optは前処理部11によって実現される。
【0022】
関数os.pred(206)は、入力データに基づいて推定モデルを構築し、入力データ構
造に対応する新規のデータ行列(207)に対して、目的とする推定値(208)を出力する。関数os.predは、要素モデル生成部12、要素モデル13、条件付き確率密度分布
生成部16、統合確率密度分布生成部17、および推定部18によって実現される。
【0023】
<推定モデルの構築と適用>
図3は、推定モデルを構築し、当該推定モデルを用いて新規の入力データから定量推定を行う処理を示すフローチャートである。また、
図4から
図6は、当該処理の詳細を説明する図である。
【0024】
ステップS301において、推定装置1は教師データ(学習データ)を取得する。教師データは、複数の説明変数と、目的変数とを含む。一例として、説明変数は遺伝子発現に関するオミクスデータ(トランスクリプトーム)であり、目的変数はサンプル個体の採取環境(例えば、温度)である。本実施形態では、
図4に示すように、教師データのデータ構造は、サンプルを行、説明変数を列とする。ここで、オミクスデータにおける説明変数の数は膨大であり、教師データの数よりも多いことが一般的である。したがって、過学習に陥らない推定モデルの構築が肝要となる。
【0025】
ステップS302において、前処理部11は教師データに対する前処理を行う。前処理は、上述したように欠損値や異常値を有するサンプルの除外、重要度順に応じたデータの並び替え、および組み込む説明変数の適切な値の算出を含む。
【0026】
ステップS303において、要素モデル生成部12は、説明変数から目的変数を予測する推定モデルを、説明変数ごとに生成する(
図4参照)。本実施形態において、推定モデルは回帰モデルであり、回帰モデルの次数は1から3のいずれかとする。すなわち、要素モデルは、線形回帰モデル、または、2次もしくは3次の多項式回帰モデルである。回帰モデルの次数を4次以上としても構わないが、過学習のリスクが大きくなることから次数は1から3とすることが好ましい。
【0027】
回帰モデルは、教師データをx=(x
1, x
2, ..., x
n)として、以下の式で表される。
【数1】
ここで、x
iはi番目の説明変数であり、kは回帰モデルの次数である。β
0i、β
ki(k=1,2,3)、およびe
iはそれぞれ、切片、係数、および誤差項である。
【0028】
ステップS303において生成された回帰モデル(モデルを規定するパラメータ)はメモリに記憶される。なお、回帰モデルの生成は推定の度に行う必要はなく、事前に行っておけばよい。また、推定装置1が回帰モデルの生成を行う必要はなく、他の装置が生成したモデルを推定装置1のメモリに格納しておいてもよい。
【0029】
ステップS304において、データ取得部15が推定の対象となる新規データ(入力データ)を取得する。新規データは、教師データと同様に複数の説明変数を含む。
【0030】
ステップS305において、条件付き確率密度分布生成部16は、要素モデル13および入力データとに基づいて、入力データの説明変数ごとに、当該説明変数が与えられたときの目的変数に関する条件付き確率密度分布関数を求める。
図5Aは、入力データのそれぞれの説明変数に対応する条件付き密度分布関数を概念的に説明する図である。
図5Bは、条件付き分布関数の生成をより詳細に説明する図である。条件付き確率密度分布関数は、ガウス分布(正規分布)として求められる。このガウス分布の平均および分散は要素モデル13に対して入力データの説明変数を入力して得られる値である。
【0031】
すなわち、ステップS305において求められる条件付き確率密度分布関数は次のように表される。
【数2】
【0032】
ステップS306において、統合確率密度分布生成部17は、説明変数ごとの条件付き確率密度分布を統合した統合確率密度分布(混合ガウス分布)を生成する。統合確率密度
分布関数は次のように表される。
【数3】
【0033】
図6は、説明変数ごとの条件付き確率密度分布と、これらを統合した統合確率密度分布を示す。
【0034】
ステップS307において、推定部18は、統合確率密度分布においてピークを与える値、すなわちargmax(P(y|x))を、入力データに対応する最終的な推定値として決定する
【0035】
本手法は、説明変数ごとに生成される確率密度分布を統合する点において、複数の予測器を統合するアンサンブル学習の一種と見做せるが、従来のアンサンブル学習では個々の予測器が数値を返すのに対し、本手法では確率密度分布を返す点において、従来の手法とは区別される。また、一般的にクラスター分析に用いられる混合ガウス分布に関して、本手法ではこれを確率密度分布と見做す点において新しい用法である。さらに、混合ガウス分布の平均値 (mean) ではなく最大ピークをもたらす値 (argmax) を推定値として採用するのは、これを確率密度分布として見做すが故のことである。
【0036】
本手法では、予測器となる条件付き確率密度分布がガウス分布に従うため、分布を決めるパラメータである平均値と分散は教師データに対して一意に定まる。それゆえに、ハイパーパラメータの調整が不要であり、結果的に過学習を回避することができる。これは同時に、生成される推定モデルが本来のデータ構造を反映していることを意味し、解釈性においても優れている。
【0037】
また、個々の説明変数から生成される予測器を混合ガウス分布として統合するため、説明変数の上限数に関する回帰の制約を受けないことに加えて、ノイズに対する推定モデルの頑健性を向上させる効果も得ることができる。
【0038】
本発明によって、オミクスデータに基づく定量推定に関する従来の問題点を克服することができ、オミクスデータに含まれる膨大な情報を最大限に有効活用した高精度な定量推定を実現できる。
【0039】
<本手法の評価>
遺伝子発現に関するオミクスデータ(トランスクリプトーム)から温度センサーを構築する事例に基づいて本手法の評価を行う。
【0040】
まず、厳密に制御できる「温度」をオミクスデータへ関連付ける変数に指定することで、上記の推定アルゴリズムの妥当性を証明する。従来の6つの推定手法(Lasso回帰、Ridge回帰、PCR (Principal Component Regression)、PLSR (Partial Least Squares Regression)、SVR (Support Vector Regression)、RFR (Random Forest Regression))と新規の推定アルゴリズムについて、推定誤差(MAE:平均絶対誤差)、精度(SD:標準偏差)、
過学習、ノイズに対する頑健性の4項目を比較する。続いて、スケールの異なる種々のオ
ミクスデータに本発明を適用することで、その汎用性を示す。
【0041】
モデルとして、温度制御下において生育させたクロマツの根におけるトランスクリプトームを取得した。クロマツは防砂、防風、防潮を目的として利用価値の高い樹種である反面、30 Gbpを超える巨大なゲノムサイズを有するが故に、遺伝子機能に関する情報がほとんど得られていない。そこで、遺伝子機能に関する事前情報を必要としないことを特徴とする本発明の適用モデルとして本樹種を選んだ。無菌発芽させた60個体のクロマツ実生を12個体ずつ5種類の温度条件 (8, 13, 18, 23, 28 °C) で生育させ、発芽してから2ヶ月
の経過後に根系全体からRNAを抽出した。BrAD-seq法によりRNA-seqライブラリを構築し、次世代シーケンサー (Illumina株式会社 HiSeq X(登録商標)) を用いて353,866遺伝子
からなるトランスクリプトームを取得した。各温度条件を半数サンプルで分割し、一方を推定モデルの構築に用いる教師データ(30サンプル)、もう一方を構築した推定モデルの精度評価に用いる検証データ(30サンプル)とした。
【0042】
各推定手法に関して、教師データの内20サンプルを無作為に抽出して推定モデルを構築し、それを検証データに適用して得られた推定値と、検証データに既に紐づけられている実測値との差分の絶対値の総和であるMAEを算出した。推定モデルの構築に用いる説明変
数の数を5から300で変動させ、各数について10回の反復試行を実施することでSDを算出した。本発明の新規アルゴリズムでは予測器の構築において、説明変数と推定すべき変数の関係性を記述するために一次、二次、三次関数を設定することができる。高次の関数を用いて両変数の関係性を柔軟に表現することが可能となり、予測器および最終的な推定精度を向上させることができる。
図7Aにおけるグラフ701,702,703がそれぞれ1次、2次、3次の結果を表す。1次から3次のいずれの場合も、比較的少ない説明変数の数で安定した結果が得られることが分かる。なお、2次と3次のグラフ702,703はほぼ同一の結果が得られている。
【0043】
各推定手法における過学習を評価するため、教師データから検証データに推定モデルを適用した際のMAEの落差を算出した。ノイズに対する頑健性を評価するため、検証データ
を構成する1割の説明変数に人工的に生成したノイズを加えたことによるMAEの落差を算
出した。従来の推定手法に関しては、10分割交差検証によってハイパーパラメータの調整を行なった。新規アルゴリズムに関しては、説明変数と推定すべき変数の関係性として一次および三次関数を設定した。
図7Bのグラフ711,712から、本手法の新規アルゴリズムを適用することにより、従来の推定手法と比較して少ない説明変数(20個ほど)で推定精度が安定することが分かる。本手法と並んでRidge回帰による推定精度が高かった
ものの、説明変数の数が増加するにつれて過学習に陥る傾向が認められた(グラフ713)。一方、本手法を適用した場合、説明変数の数に関わらず過学習はほとんど認められなかった。また、従来の推定手法ではノイズの付加によって推定精度が著しく低下した一方、新規アルゴリズムを適用した場合は推定精度がほとんど低下しなかった(グラフ714~716)。
【0044】
また、
図8は、上記と同様の評価を、2乗平均平方根誤差(RMSE)を用いて評価した結果である。
図8では、説明変数の数を30個とした場合と300個とした場合のそれぞれについて示している。各グラフにおいて、左から順にLasso回帰、Ridge回帰、PCR, PLSR,
SVR, RFR, 本手法(1次)、本手法(3次)の結果である。図中、本手法の結果は点線
で囲っている。
図8の結果からも上記と同様の傾向が見られた。
【0045】
前述のシミュレーションにおいて比較的MAEの数値が低かったLasso回帰、Ridge回帰、
新規アルゴリズムに関して、それらに基づく推定モデルにおける遺伝子の貢献度と、遺伝子共発現ネットワークにおける位置づけを比較した。
図9のグラフ901~903は、それぞれ本手法、Lasso回帰、およびRidge回帰の結果を示す。本手法に基づく推定モデルでは、共発現ネットワークにおける遺伝子の次数中心性と推定モデルにおける貢献度との間に高い相関関係が認められた (R = 0.358, p < 0.001)。一方、Lasso回帰とRidge回帰に
おいて同様の傾向は認められなかった (p > 0.010)。次数中心性は、ネットワークのモジュール構造における重要度の指標であることから、この数値の高い遺伝子が推定モデルにおける貢献度が高いことは、推定モデルの構築過程において着目する現象に関与するモジュールを適切に検出できていることを示す。これは、推定モデルの解釈可能性を向上させることにつながり、本発明のユーザーにとって大きな利点である。
【0046】
本発明の汎用性を評価するため、前述のトランスクリプトームのデータセット以外でも同様の評価を行った。
図10のグラフ1001~1003はそれぞれ、活動電位に応じたマウス神経細胞のシングルセルトランスクリプトーム(31サンプル)、ショウジョウバエの月齢に応じたメタボローム(30サンプル)、土壌pHに応じたマイクロバイオーム(49サンプル)のデータセットに適用して構築した推定モデルの精度の評価結果を示す。データセットを構成するサンプルの内、3分の2を教師データ、残りを検証データとして無作為に分割し、100回の反復試行を実施した平均的な結果を示している。いずれのオミクスデー
タに対する適用例においても、実測値と推定値との間に非常に高い相関 (R > 0.85) が認められた。特に、シングルセルトランスクリプトームにおける適用例では、正則化回帰モデルを用いた元の報告における相関係数 (R2 = 0.63) を上回り (R2 = 0.85)、推定精度
の大幅な改善が認められた。
【0047】
<適用例>
本発明は、オミクスデータに基づいて提供的な推定を行うバイオセンサの構築に適用可能である。一例として、サンプル個体のトランスクリプトームから、当該サンプル個体の採取環境を表すパラメータを推定するために利用できる。採取環境を表すパラメータの例は、温度、気圧、照度などである。別の例として、単一の細胞に係るシングルセルトランスクリプトームから、当該細胞の活動電位を推定するために利用できる。また、サンプル個体に係るメタボロームから、サンプル個体の齢を推定するために利用できる。また、サンプル微生物叢に係るマイクロバイオームから、当該サンプル微生物叢の採取環境を表すパラメータを推定するために利用できる。
【0048】
<その他の実施形態>
上記の実施形態はあくまでも一例であって、本開示はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
【0049】
本開示は、上記の実施形態で説明した機能を実装したコンピュータプログラムをコンピュータに供給し、当該コンピュータが有する1つ以上のプロセッサがプログラムを読み出して実行することによっても実現可能である。このようなコンピュータプログラムは、コンピュータのシステムバスに接続可能な非一時的なコンピュータ可読記憶媒体によってコンピュータに提供されてもよいし、ネットワークを介してコンピュータに提供されてもよい。非一時的なコンピュータ可読記憶媒体は、例えば、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクドライブ(HDD)等)、光ディスク(CD-ROM、DVDディスク、ブルーレイディスク等)など任意のタイプのディスク、読み込み専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気カード、フラッシュメモリ、光学式カード、電子的命令を格納するために適した任意のタイプの媒体を含む。
【符号の説明】
【0050】
1 推定装置 11:前処理部 12:要素モデル生成部 13:要素モデル
14:データ可視化部 15:データ取得部 16:条件付き確率密度分布生成部
17:統合確率密度分布生成部 18:推定部