IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

<>
  • 特開-情報システム 図1
  • 特開-情報システム 図2
  • 特開-情報システム 図3
  • 特開-情報システム 図4
  • 特開-情報システム 図5
  • 特開-情報システム 図6
  • 特開-情報システム 図7
  • 特開-情報システム 図8
  • 特開-情報システム 図9
  • 特開-情報システム 図10
  • 特開-情報システム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024171263
(43)【公開日】2024-12-11
(54)【発明の名称】情報システム
(51)【国際特許分類】
   G16H 50/50 20180101AFI20241204BHJP
   G16B 25/00 20190101ALI20241204BHJP
【FI】
G16H50/50
G16B25/00
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023088240
(22)【出願日】2023-05-29
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】根本 翔太
(72)【発明者】
【氏名】柴原 琢磨
(72)【発明者】
【氏名】山下 泰穂
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA04
(57)【要約】
【課題】
疾患進行や重症化と関連のある生体機能を抽出すること。
【解決手段】
情報システムは、プロセッサと、記憶装置と、を備える。記憶装置は、目的変数についての目的変数テーブルと、生体機能と該生体機能に関連する特徴量についてのメタ情報テーブルと、を格納する。プロセッサは、生体機能ごとに特徴量を説明変数として目的変数を予測する予測モデルを生成し、予測モデルの精度を評価し、予測モデルの評価結果に基づいて目的変数と関連する生体機能を抽出する。
【選択図】 図2
【特許請求の範囲】
【請求項1】
プロセッサと、
記憶装置と、
を備え、
前記記憶装置は、
目的変数についての目的変数テーブルと、生体機能と該生体機能に関連する特徴量についてのメタ情報テーブルと、を格納し、
前記プロセッサは、
前記生体機能ごとに前記特徴量を説明変数として前記目的変数を予測する予測モデルを生成し、
前記予測モデルの精度を評価し、
前記予測モデルの評価結果に基づいて前記目的変数と関連する前記生体機能を抽出する、
ことを特徴とする情報システム。
【請求項2】
請求項1に記載の情報システムであって、
前記プロセッサは、
前記生体機能の抽出に併せて、前記生体機能の特徴量を抽出する、
ことを特徴とする情報システム。
【請求項3】
請求項1に記載の情報システムであって、
前記プロセッサは、
前記予測モデルの特徴量についての重要度を算出し、
前記生体機能の抽出に併せて、前記生体機能の特徴量を抽出する、
ことを特徴とする情報システム。
【請求項4】
請求項1に記載の情報システムであって、
前記メタ情報テーブルは、共発現ネットワークにより生成される、
ことを特徴とする情報システム。
【請求項5】
請求項1に記載の情報システムであって、
前記メタ情報テーブルは、ユーザによる生体機能と該生体機能に関連する特徴量の追加が可能である、
ことを特徴とする情報システム。
【請求項6】
請求項4に記載の情報システムであって、
前記メタ情報テーブルは、ユーザによる生体機能と該生体機能に関連する特徴量の追加が可能である、
ことを特徴とする情報システム。
【請求項7】
請求項1に記載の情報システムであって、
前記生体機能は、遺伝子機能であり、
前記特徴量は、遺伝子である、
ことを特徴とする情報システム。
【請求項8】
請求項1に記載の情報システムであって、
前記生体機能は、タンパク質機能であり
前記特徴量は、タンパク質である、
ことを特徴とする情報システム。
【請求項9】
請求項1に記載の情報システムであって、
前記情報システムは、
データの入出力を行う入出力端末に接続され、
前記入出力端末との通信に第5世代移動通信システムを用いる、
ことを特徴とする情報システム。
【請求項10】
請求項1に記載の情報システムであって、
前記情報システムは、
データの入出力を行う入出力端末に接続され、クラウド上に配置される、
ことを特徴とする情報システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報システムに関する。
【背景技術】
【0002】
近年、遺伝子、タンパク質、あるいは代謝産物といった生体分子を網羅的に解析するオミックスデータ解析を通じて、創薬・治療法の開発が行われている。オミックスデータ解析を通じて、疾患進行や重症化に関連する遺伝子を抽出する方法が過去に開発されている。非特許文献1では、WGCNA(Weighted gene co-expression network analysis)という手法を用いて、副腎皮質癌の病態進行に関連する遺伝子機能、及び遺伝子の特定が行われた。
【先行技術文献】
【特許文献】
【0003】
【非特許文献1】Xia W, Yu Q, Li G, Liu Y, Xiao F, Yang L, Rahman ZU, Wang H, Kong Q. 2019. Identification of four hub genes associated with adrenocortical carcinoma progression by WGCNA. PeerJ 7:e6555 https://doi.org/10.7717/peerj.6555
【発明の概要】
【発明が解決しようとする課題】
【0004】
前述のように、WGCNAといった共発現ネットワーク解析を用いて疾患進行や重症化に関連する遺伝子機能、及び遺伝子の抽出が行われている。しかし、WGCNAなどの共発現ネットワーク解析単体では、疾患進行や重症化と関連する遺伝子機能、及び遺伝子を十分に絞り込むことが容易ではないと考えられた。
【0005】
非特許文献1では、WGCNAによって副腎皮質癌の病態進行と関連が示唆された遺伝子機能数は110であったが、110の遺伝子機能のうち、どの機能が重要なのかを更に絞り込む解析は実施していない。これは、遺伝子機能を絞り込むためには上記の解析でだけでは不十分であると考えられる。
【0006】
そこで、疾患進行や重症化と関連のある生体機能を抽出することに課題がある。
【課題を解決するための手段】
【0007】
本発明によれば、下記の情報システムが提供される。この情報システムは、プロセッサと、記憶装置と、を備える。記憶装置は、目的変数についての目的変数テーブルと、生体機能と該生体機能に関連する特徴量についてのメタ情報テーブルと、を格納する。プロセッサは、生体機能ごとに特徴量を説明変数として目的変数を予測する予測モデルを生成し、予測モデルの精度を評価し、予測モデルの評価結果に基づいて目的変数と関連する生体機能を抽出する。
【発明の効果】
【0008】
本発明によれば、疾患進行や重症化と関連する生体機能を抽出することができる。なお、上記した以外の課題、構成および効果は、以下の発明を実施するための形態の説明により明らかにされる。
【図面の簡単な説明】
【0009】
図1】重要生体機能提示システムの構成の一例を示す図である。
図2】重要生体機能提示システムのハードウェア構成の一例を示す図である。
図3】重要生体機能提示システムが保持する目的変数テーブルの構成例を示す図である。
図4】重要生体機能提示システムが保持する特徴量テーブルの構成例を示す図である。
図5】重要生体機能提示システムが保持するメタ情報テーブルの構成例を示す図である。
図6】重要生体機能提示システムが保持する予測モデル管理テーブルの構成例を示す図である。
図7】重要生体機能提示システムが保持する予測モデル性能情報管理テーブルの構成例を示す図である。
図8】重要生体機能提示システムが保持する特徴量重要度テーブルの構成例を示す図である。
図9】重要生体機能提示システムの処理フロー例を示す図である。
図10】重要生体機能提示システムの処理フロー中で、予測モデル構築・性能評価における処理フローの一例を示す図である。
図11】重要生体機能提示システムの処理フロー中で、特徴量重要度算出の処理フローの一例を示す図である。
【発明を実施するための形態】
【0010】
以下、図面を参照して本発明の実施形態を説明する。実施形態は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。特に限定しない限り、各構成要素は単数でも複数でも構わない。
図面において示す各構成要素の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面に開示された位置、大きさ、形状、範囲などに限定されない。
各種情報の例として、「テーブル」、「リスト」、「キュー」等の表現にて説明することがあるが、各種情報はこれら以外のデータ構造で表現されてもよい。例えば、「XXテーブル」、「XXリスト」、「XXキュー」等の各種情報は、「XX情報」としてもよい。識別情報について説明する際に、「識別情報」、「識別子」、「名」、「ID」、「番号」等の表現を用いるが、これらについてはお互いに置換が可能である。
同一あるいは同様の機能を有する構成要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。また、これらの複数の構成要素を区別する必要がない場合には、添字を省略して説明する場合がある。
実施形態において、プログラムを実行して行う処理について説明する場合がある。ここで、計算機は、プロセッサ(例えばCPU、GPU)によりプログラムを実行し、記憶資源(例えばメモリ)やインターフェースデバイス(例えば通信ポート)等を用いながら、プログラムで定められた処理を行う。そのため、プログラムを実行して行う処理の主体を、プロセッサとしてもよい。同様に、プログラムを実行して行う処理の主体が、プロセッサを有するコントローラ、装置、システム、計算機、ノードであってもよい。プログラムを実行して行う処理の主体は、演算部であれば良く、特定の処理を行う専用回路を含んでいてもよい。ここで、専用回路とは、例えばFPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)、CPLD(Complex Programmable Logic Device)等である。
プログラムは、プログラムソースから計算機にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサと配布対象のプログラムを記憶する記憶資源を含み、プログラム配布サーバのプロセッサが配布対象のプログラムを他の計算機に配布してもよい。また、実施例において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。
【0011】
実施形態では、遺伝子やタンパク質などのオミックスデータの分析を支援する情報システムについて説明する。この情報システムの技術は、一例として、オミックスデータ中から疾患発症や重症化予測に寄与する遺伝子機能、及び、遺伝子などの生体情報を抽出することに関する。この情報システムによれば、例えば、オミックスデータの分析におけるコストの抑制を図り、経済的な観点で貢献することができる。
【0012】
先ず、図1を参照しながら、重要生体機能提示システムの構成例について説明する。図1は重要生体機能提示システムの構成の一例を示す図である。重要生体機能提示システム100(情報システム)は、データの読み込み、機械学習技術を用いたモデル生成、生成した機械学習モデルからの特徴量重要度の計算、結果の描画を行うシステムである。ここで例示する重要生体機能提示システム101は、データ取得部102、予測モデル生成・評価部103、特徴量重要度計算部104、結果描画部105を備える。
【0013】
図1にて示すデータ取得部102は、例としてデータ106に示すデータを取り込む機能を有する。遺伝子発現量データ107は、遺伝子の発現産物であるRNA(Ribonucleic acid)の量を定量的に測定したデータである。タンパク質発現量データ108は、RNAの発現産物であるタンパク質の量を定量的に測定したデータである。患者情報データ109は、年齢、性別、臨床検査値といった、機械学習モデルで説明変数として使用する患者の背景情報や検査値情報、及び機械学習モデルで目的変数として使用する数値情報を記載したデータである。メタ情報データ110は、機械学習技術を用いたモデルを構築する際に、説明変数として用いる特徴量を定めたデータである。データ取得部102にて取り込んだデータは、重要生体機能提示システム101内で目的変数テーブル111、特徴量テーブル112、メタ情報テーブル113として管理する。
【0014】
予測モデル生成・評価部103は、機械学習技術を用いて予測モデルを生成する機能、生成した予測モデルの性能を評価する機能、及び生成した予測モデルを保存する機能を有する。生成した予測モデルは、予測モデルファイル117として重要生体機能提示システム101内で保持する。また、生成した予測モデルに関する情報は、予測モデル管理テーブル114、予測モデル性能情報管理テーブル15にて保管する。
【0015】
特徴量重要度計算部104は、予測モデル生成・評価部102で生成した予測モデルから、特徴量の重要度を算出する機能を有する。算出した特徴量重要度は、特徴量重要度テーブル116にて保管する。結果描画部105は、予測モデル生成・評価部102で保存したモデルの性能情報、及び特徴量重要度計算部104で出力した特徴量重要度を表示する機能を有する。重要生体機能提示システム101の各機能は、入出力端末118から制御可能であるとする。重要生体機能提示システム101で保持する各テーブルの詳細な構成については後述する。
【0016】
続いて、重要生体機能提示システム101のハードウェア構成の一例について、図2を用いて説明する。重要生体機能提示システム101は、プロセッサの一例であって各種処理を行うホストCPU(Central Processing Unit)201、ホストメモリ202、周辺IF203、記憶装置204、通信IF205、およびバス206を備える。そして、ホストCPU201、ホストメモリ202、周辺I/F203、記憶装置204、および通信IF205は、バス206を介して接続され、相互に情報をやり取り可能となっている。
【0017】
このうちホストCPU201は、記憶装置204に保持しているプログラムを実行する演算装置である。また、ホストメモリ202は、ホストCPU201が上述のプログラムを実行する際に、ワーキングメモリおよび入出力データの一時バッファとして用いる揮発性記憶装置である。また、周辺IF203は、マウス、キーボード、モニタ等の入出力装置や、USB(Universal Serial Bus)メモリ等の外部ストレージ等の各種周辺機器を重要生体機能提示システム101に接続するインターフェースである。
【0018】
また、記憶装置204は、磁気ディスク装置、フラッシュROM(Read Only Memory)等から構成され、OS、各種ドライバ、各種アプリケーションプログラムや、プログラムで使用される各種情報(例えば、管理者または保守者によって設定される情報等)を格納している。
【0019】
また、通信IF205は、重要生体機能提示システム101が通信を行う際のインターフェースを提供する。この通信IF205は、2つ以上あっても構わない。
【0020】
なお、重要生体機能提示システム101では、記憶装置204のプログラムをホストCPU201がホストメモリ202に読み出して実行することで、重要生体機能提示システム101として必要となる上述の機能、すなわち、データ取得部102、予測モデル生成・評価部103、特徴量重要度計算部104、結果描画部105の各機能が実装される。
【0021】
次に、重要生体機能提示システム101が記憶装置204にて備える目的変数テーブル111に格納される情報の一例について、図3を用いて説明する。目的変数テーブル111は、患者ID301、目的変数値302の各値を格納している。患者ID301の列は、患者の識別情報を表すID情報を格納する領域である。目的変数値302の列は、各患者IDに対応する目的変数の値を格納する領域である。例えば、行303は、患者IDが“#1”である患者の目的変数の値が“1”であることを表している。なお、図3では目的変数値302が2値(2クラス分類)の場合を示しているが、連続量、あるいは複数値(マルチクラス分類)あっても構わない。
【0022】
次に、重要生体機能提示システム101が記憶装置204にて備える特徴量テーブル112に格納される情報の一例について、図4を用いて説明する。特徴量テーブル112は、患者ID301、患者情報データ109から取得した患者情報401、遺伝子発現量データ107あるいはタンパク質発現量データ108から取得した発現量情報402の各値を格納している。特徴量テーブル112に格納する患者情報401、及び発現量情報402は、予測モデル生成・評価部103で予測モデルを生成する際の特徴量(説明変数)として使用する。患者情報401の各列は、性別、年齢といった患者の背景情報、あるいはアルブミン、クレアチニンといった臨床検査値の情報を格納する領域である。発現量情報402は、遺伝子発現量、タンパク質発現量といった情報を格納する領域である。例えば、行403では、患者IDが“#1”の特徴量データは、性別の値が“0”、年齢の値が“43”、遺伝子発現量Aが“0.54”、遺伝子発現量Bが“6.54”、遺伝子発現量Cが“2.76”であることを表している。
【0023】
次に、重要生体機能提示システム101が記憶装置204にて備えるメタ情報テーブル113に格納される情報の一例について、図5を用いて説明する。メタ情報テーブル113は、機能ID501、機能名502、特徴量情報503の各値を格納している。メタ情報テーブル113に格納する機能ID501の列は、機能(生体機能)の識別情報を表すIDを格納する領域である。メタ情報テーブル113に格納する機能名502の列は、機能IDに対応する機能名を格納する領域である。メタ情報テーブル113に格納する特徴量情報503の各列は、機能名502に該当する機能に属する特徴量名を格納する領域である。ここで、特徴量情報503の列数は、機能名502に該当する機能によって異なるとする。
【0024】
なお、機能ID501に対応する特徴量情報503は、入出力端末118から指定することができる。また、手動で指定するだけでなく、WGCNA等の前の解析を受けて自動入力されてもよい。ここで、機能名ID501に対応する特徴量情報503は、遺伝子機能である場合当該遺伝子機能に対応する遺伝子である。遺伝子機能と遺伝子の関係は既知のGO(Gene Ontology)で定義されている情報を用いても良く、あるGOと遺伝子の間に関係がある(アノテーションされている)場合、GOを機能名、特徴量情報をアノテーションされた遺伝子とすることができる。例えば、機能名IDが“GO:0090248”の場合、遺伝子“cdh2”と対応付けられる。このような遺伝子機能と遺伝子をユーザが入出力端末118から入力してもよいし、WGCNA等の共発現ネットワーク解析を用いて特定された遺伝子機能と遺伝子の組合せを自動で入力してもよい。また、機能(生体機能)と機能に属する特徴量は遺伝子機能と遺伝子に限らず、タンパク質機能と当該タンパク質機能に属するタンパク質等の別の生体情報に関する機能(生体機能)と特徴量の組合せでも良い。
【0025】
一例として、メタ情報テーブル113に対して、年齢や性別といった別の因子を手動で加えることが可能である。これにより、例えば、遺伝子発現量と疾患発症の間の交絡因子も考慮したうえで、疾患発症に重要な遺伝子機能や遺伝子を抽出することができる。
【0026】
メタ情報テーブル113の各行は、予測モデル生成・評価部103で予測モデルを生成する際の特徴量(説明変数)を表している。例えば、行504では、機能IDが“K001”、機能名が“DNA damage repair”に対応する特徴量として、特徴量1の値が“年齢”、特徴量2の値が“遺伝子AA”、特徴量3の値が“遺伝子AR”であることを表している。これは、特徴量が“年齢”、“遺伝子AA”、“遺伝子AR”からなる予測モデルを生成することを意味する。
【0027】
次に、重要生体機能提示システム101が記憶装置204にて備える予測モデル管理テーブル114に格納される情報の一例について、図6を用いて説明する。予測モデル管理テーブル114は、モデルID601、格納ディレクトリ602、モデルファイル名603、目的変数テーブル名604、機能ID605の各値を格納している。モデルID601の列は、モデルの識別情報を表すID情報を格納する領域である。格納ディレクトリ602、及びモデルファイル名603の列は、予測モデルファイル117を格納したディレクトリ名、及びファイル名を格納する領域である。目的変数テーブル名604は、予測モデルを生成する際に用いた目的変数テーブル名を格納する領域である。機能ID605は、予測モデルの生成時に用いた特徴量のリストに対応する機能IDを格納する領域である。
【0028】
例えば、行606は、モデルIDが“M001”に該当する予測モデルファイルが、格納ディレクトリ列に記載の“/home/user/model/”に格納されていることを表している。また、モデルIDが“M001”の予測モデルファイルのファイル名は“Target01.K001.model”であることを表している。さらに、モデルIDが“M001”の予測モデルは、目的変数テーブル“Target01”を目的変数としており、機能IDが“K001”に対応する特徴量リストから生成されていることを表している。
【0029】
次に、重要生体機能提示システム101が記憶装置204にて備える予測モデル性能情報管理テーブル115に格納される情報の一例について、図7を用いて説明する。予測モデル性能情報管理テーブル115は、性能ID701、モデルID601、機能ID605、性能指標702、性能値703の各値を格納している。性能ID701の列は、性能情報の識別情報を表すIDを格納する領域である。性能指標702の列は、予測モデル生成・評価部103で予測モデルの性能を評価する際に用いた指標名を格納する領域である。性能値703の列は、性能指標702の指標で評価した際の値を格納する領域である。
【0030】
例えば、行704は、性能ID“P001”は、モデルIDが“M001”に関する性能情報が格納されていることを表す。また、行704は、モデルIDが“M001”の予測モデルが機能ID“K001”に対応する特徴量リストから生成されており、性能指標“AUC”で評価した際の性能値が“0.876”であることを表している。
【0031】
ここで、1つのモデルあたり、複数の性能指標で評価しても良いこととする。つまり、予測モデル性能情報管理テーブル115では、モデルIDごとに複数の行を保持することを許容する。
【0032】
次に、重要生体機能提示システム101が記憶装置204にて備える特徴量重要度テーブル116に格納される情報の一例について、図8を用いて説明する。特徴量重要度テーブル116は、重要度ID801、モデルID601、機能ID605、特徴量名802、重要度指標803、重要度804の各値を格納している。重要度ID801の列は、重要度の識別情報を表すIDを格納する領域である。特徴量名802は、重要度を評価する特徴量名を格納する領域である。重要度指標803の列は、特徴量重要度計算部104で特徴量の重要度を評価する際に用いた指標名を格納する領域である。重要度804の列は、重要度指標803の指標で評価した際の値を格納する領域である。
【0033】
例えば、行805は、重要度ID“I001”は、モデルIDが“M001”に関する重要度が格納されていることを表す。また、行805は、モデルIDが“M001”の予測モデルが機能ID“K001”に対応する特徴量リストから生成されており、モデルID“M001”中の特徴量名“Age”の重要度を“PI”で評価した際の重要度が“0.006”であることを表している。
【0034】
次に、重要生体機能提示システム101の処理フローの一例について、図9を用いて説明する。
【0035】
まず、重要生体機能提示システム101は、データ取得部102で取り込み、記憶装置204に格納したテーブルデータの中から、予測モデル生成・評価部103の入力となるテーブルデータを読み込む。初めに、予測モデル生成・評価部103で使用する目的変数テーブルがユーザによって入出力端末118を介して指定され、重要生体機能提示システム101は、指定されたテーブルデータを読み込む(ステップS901)。次に、予測モデル生成・評価部103で使用する特徴量テーブルがユーザによって入出力端末118を介して指定され、重要生体機能提示システム101は、指定されたテーブルデータを読み込む(ステップS902)。そして、予測モデル生成・評価部103で使用するメタ情報テーブルがユーザによって入出力端末118を介して指定され、重要生体機能提示システム101は、指定されたテーブルデータを読み込む(ステップS903)。
【0036】
続いて、重要生体機能提示システム101は、ステップS901、ステップS902、ステップS903で読み込んだテーブルデータを受取り、予測モデル生成・評価部103にて予測モデル構築・性能評価を実行する(ステップS904)ステップS904における処理の詳細については後述する。
【0037】
ステップS904の実行後、重要生体機能提示システム101は、ステップS904で構築した予測モデルから特徴量重要度を計算する(ステップS905)。ステップS905における処理の詳細については後述する。
【0038】
最後に、重要生体機能提示システム101は、ステップS904で生成する予測モデルの性能情報、及び、ステップS905で計算する特徴量の重要度に関する情報を結果として描画し(ステップS906)、入出力端末118に描画した内容を出力する(ステップS907)。ここで、ステップS906での描画方法は、テーブル情報を表形式で出力する以外に、例えば、ネットワーク図の形式で描画する、あるいはグラフ形式で描画する方法も含む。
【0039】
次に、図9で説明した処理フローにおけるステップS904、すなわち予測モデル生成・評価部103による予測モデル構築・性能評価の処理フローの一例について、図10を用いて説明する。
【0040】
まず、重要生体機能提示システム101は、予測モデルをどの機械学習アルゴリズムで構築するかを指定する(ステップS1001)。ステップS1001で選択可能な機械学習アルゴリズムは、説明可能な機械学習アルゴリズムとする。すなわち、特徴量の重要度が計算可能な機械学習アルゴリズムで選択が可能である。
【0041】
続いて、重要生体機能提示システム101は、機械学習アルゴリズムの最適なハイパーパラメータを探索するために、ハイパーパラメータの探索範囲を設定し、設定を予測モデル生成・評価部103で読み込む(ステップS1002)。探索範囲を設定するハイパーパラメータは、機械学習アルゴリズムごとに異なる。
【0042】
次に、重要生体機能提示システム101は、予測モデルの性能評価方法を設定し、設定を予測モデル生成・評価部103で読み込む(ステップS1003)。ここで、性能評価に使う指標は複数個選択してもよい。また、性能評価時にk-fold Cross Validaton等のバリデーション方法も実行する場合、ステップS1003で指定する。
【0043】
重要生体機能提示システム101は、ステップS1001、ステップS1002、ステップS1003で設定した値を用いて予測モデルを生成する。予測モデルはステップS903で読み込んだメタ情報テーブルに存在する機能IDの数だけモデルを生成し、未処理の機能IDがあるかどうかを判断する(ステップS1004)。予測モデルを生成していない機能IDが存在する場合(ステップS1004:未処理あり)、ステップS1005へ処理を進める。一方で、予測モデルを生成していない機能IDが存在しない場合(ステップS1004:全て終了)、処理を終了する。
【0044】
重要生体機能提示システム101は、ステップS1005において、予測モデルを生成する機能IDと対応する特徴量データを、ステップS902で読み込んだ特徴量テーブルから取得する。例えば、機能IDに対応する特徴量が“Age”、“遺伝子AR”の場合、特徴量テーブルから、“Age”、“遺伝子AR”のデータを読み込む。
【0045】
続いて、ステップS1006では、重要生体機能提示システム101は、ステップS901で読み込んだ目的変数テーブルデータ、及びステップS1005で読み込んだ特徴量テーブルデータを使用した予測モデルを生成した場合の最適なハイパーパラメータを探索する。ハイパーパラメータは、ステップS1002で設定した範囲から探索する。また、最適なハイパーパラメータかどうかは、ステップS1003で設定した性能評価方法で判断する。
【0046】
ステップS1006においてハイパーパラメータの探索が完了したあと、重要生体機能提示システム101は、最適なハイパーパラメータを用いて予測モデルを構築する(ステップS1007)。加えて、ステップS1007で構築した予測モデルの性能を、ステップS1003で設定した方法に基づいて評価する(ステップS1008)。
【0047】
続いて、重要生体機能提示システム101は、ステップS1007で構築した予測モデルを、予測モデルファイル117として、記憶装置204に格納する(ステップS1009)。
【0048】
重要生体機能提示システム101は、予測モデルファイルの格納先、ファイル名といった管理に必要な情報を、予測モデル管理テーブル114に出力する。そして、ステップS1008での性能評価結果を、予測モデル性能情報管理テーブル115に出力する(ステップS1010)。ここで、予測モデルの性能が高いということは、ステップS1005で読み込んだ特徴量テーブルデータが、ステップS901で読み込んだ目的変数テーブルデータの予測に強く関連していることを意味する。言い換えると、ステップS1005で読み込んだ特徴量テーブルデータが属する機能は、疾患発症等を表す目的変数の予測に強く関連していると言えるため、予測モデルの性能情報のみで疾患発症と関連が強い遺伝子機能などを抽出することができる。
【0049】
さらに、当該予測モデルの説明変数である遺伝子などの寄与度が高いことは、目的変数の予測に強く関連していることを意味する。言い換えると、特徴量重要度テーブルの重要度が高い遺伝子などは、疾患発症等を表す目的変数の予測に強く関連していると言えるため、予測モデルの寄与度のみで疾患発症と関連が強い遺伝子などを抽出することができる。
【0050】
このようにして、一例として、WGCNAの解析結果により自動入力されたまたはユーザが入力した、遺伝子機能と関連付けられた遺伝子により予測モデルを生成することで、予測モデルの性能及び寄与度から重要な遺伝子機能及び遺伝子を特定することが可能となる。これにより、絞り込みが効率的できるようになる。
【0051】
また、本実施形態によれば、一例として、生成した予測モデルのみで遺伝子機能の重要度と遺伝子の重要度の2つを出力することが可能である。これにより、タンパク質共発現解析等の、タンパク質の発現量情報を参照してタンパク質の発現に寄与する遺伝子に適応可能であるがタンパク質を発現しない遺伝子を対象不可能な解析に比べ漏れなく(観点を更に絞り込む必要なく)重要な遺伝子を抽出することができる。
【0052】
次に、図9で説明した処理フローにおけるステップS905、すなわち特徴量重要度計算部104にて特徴量重要度を計算する際の処理フローの一例について、図11を用いて説明する。
【0053】
まず、重要生体機能提示システム101は、重要度をどのような計算方法で算出するかを指定する(ステップS1101)。ステップS1101で選択可能な重要度算出方法は、ステップS904で作成した予測モデルの機械学習アルゴリズムにおいて算出可能な計算方法とする。続いて、重要度を計算して特徴量重要度テーブル116に出力するモデルの性能の閾値を設定し、設定を特徴量重要度計算部104で読み込む(ステップS1102)。ステップS904で構築した予測モデル全てから特徴量重要度を算出する場合、性能評価に用いた指標が取りうる閾値の下限値を指定する。
【0054】
重要生体機能提示システム101は、特徴量重要度について、ステップS904で構築した予測モデルの数だけ予測モデルファイルを読み込んで計算する。すなわち、ステップS903で読み込んだメタ情報テーブルに存在する機能IDの数だけ予測モデルファイルを読み込んで、未処理の機能IDがあるかどうかを判断する(ステップS1103)。予測モデルとして読み込んでいない機能IDが存在する場合(ステップS1103:未処理あり)、ステップS1104へ処理を進める。一方で、予測モデルを読み込んでいない機能IDが存在しない場合(ステップS1103:全て終了)、処理を終了する。
【0055】
続いて、重要生体機能提示システム101は、ステップS1104において、機能IDと対応する予測モデルの性能情報を、予測モデル性能情報管理テーブル115から読み込む。読み込んだ性能情報と、ステップS1102で設定した閾値を照合して、読み込んだ予測モデルの性能が閾値以上であった場合(ステップS1105:Yes)、ステップS1106に処理を進める。読み込んだ予測モデルの性能がステップS1102で設定した閾値を下回っていた場合(ステップS1105:No)、ステップS1103に戻り、次の機能IDに対応する予測モデルで処理を実行する。
【0056】
ステップS1106では、重要生体機能提示システム101は、ステップS1101で設定した計算方法に基づいて、予測モデルから特徴量重要度を計算する。ステップS1106での処理が完了した後、計算した特徴量重要度を、特徴量重要度テーブル116に格納する(ステップS1107)。
【0057】
以上で説明した実施形態によれば、下記の情報システムが提供される。この情報システムは、プロセッサ(一例として、ホストCPU201)と、記憶装置204と、を備える。記憶装置204は、目的変数についての目的変数テーブル111と、生体機能と該生体機能に関連する特徴量についてのメタ情報テーブル113と、を格納する。プロセッサは、生体機能ごとに特徴量を説明変数として目的変数を予測する予測モデルを生成する。そして、プロセッサは、予測モデルの精度を評価し、予測モデルの評価結果に基づいて前記目的変数と関連する生体機能を抽出する。
【0058】
これによれば、生体機能に関する特徴量に基づいた予測モデルの中で高精度のモデルを特定することで、疾患と関連性の高い生体機能を抽出することができる。
【0059】
また、プロセッサは、生体機能の抽出に併せて、生体機能の特徴量を抽出してもよい。
【0060】
これによれば、関連する特徴量も併せて抽出することができる。
【0061】
また、プロセッサは、予測モデルの特徴量についての重要度を算出し、生体機能の抽出に併せて、生体機能の特徴量を抽出してもよい。
【0062】
これによれば、生体機能に関連する多数の特徴量から、目的変数に影響のある特徴量を特定することができる。
【0063】
また、メタ情報テーブル113は、共発現ネットワークにより生成されてもよい。
【0064】
これによれば、生体機能に関する特徴量を特定し、生体機能と該生体機能に関連する特徴量の組合せの自動の入力が可能である。
【0065】
また、メタ情報テーブル113は、ユーザによる生体機能と該生体機能に関連する特徴量の追加が可能であってもよい。
【0066】
これによれば、メタ情報テーブル113の内容をユーザが手動で編集することができる。
【0067】
また、メタ情報テーブル113は、自動で生成されるだけではなく(WGCNA等の共発現ネットワークによって生成されるだけではなく)、ユーザによる生体機能と該生体機能に関連する特徴量の追加が可能であってもよい。
【0068】
これによれば、自動で生成される内容だけではなく、例えば、ユーザは、他の因子の影響も考慮し、手動で特徴量等を追加することができる。
【0069】
また、一例として、生体機能は遺伝子機能であり、特徴量は遺伝子とすることができる。また、一例として、生体機能はタンパク質機能であり、特徴量はタンパク質とすることができる。
【0070】
以上、実施形態について説明されたが、本発明は前述した実施形態に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、例えば、実施形態の構成の一部について、他の構成の追加、削除、置換をしてもよい。
【0071】
プロセッサとしてホストCPU201を用いる例を説明したが、所定の処理を実行する主体であればよく、他の半導体デバイスが用いられてもよい。
【0072】
入出力端末118は、一例として、適宜のコンピュータ装置として構成することができる。入出力端末118は、例えば、プロセッサと、記憶装置と、通信装置と、入力装置と、出力装置と、を備える構成であってもよい。
【0073】
重要生体機能提示システム101と入出力端末118は、有線により接続されてもよいし、無線により接続されてもよい。また、重要生体機能提示システム101には、単数の入出力端末118が接続されてもよいし、複数の入出力端末118が接続されてもよい。
【0074】
重要生体機能提示システム101と入出力端末118との間の通信は、例えば、「多数同時接続」、「超低遅延」を可能とした第5世代移動通信システム、いわゆる5G(5th Generation)を用いることができる。5G以降の新しいシステムの特徴を活かすことで、例えば、多数の入出力端末118が同時に接続され、データ通信量が多くなる場合、記憶装置204に格納するデータが大容量となり、入出力端末118との間でデータ通信量が多くなる場合であっても、通信遅延の抑制を図ることができる。
【0075】
重要生体機能提示システム101は、遠隔地の入出力端末118に接続され、クラウド上に配置されてもよい。また、クラウド上の重要生体機能提示システム101と入出力端末118との間の無線通信には、5G以降の新しいシステムが用いられてもよい。
【符号の説明】
【0076】
101 重要生体機能提示システム
102 データ取得部
103 予測モデル生成・評価部
104 特徴量重要度計算部
105 結果描画部
106 データ
107 遺伝子発現量データ
108 タンパク質発現量データ
109 患者情報データ
110 メタ情報データ
111 目的変数テーブル
112 特徴量テーブル
113 メタ情報テーブル
114 予測モデル管理テーブル
115 予測モデル性能情報管理テーブル
116 特徴量重要度テーブル
117 予測モデルファイル
118 入出力端末
201 CPU
202 メモリ
203 周辺IF
204 記憶装置
205 通信IF
206 バス
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11