IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 之江実験室の特許一覧

特許7381815適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システム
<>
  • 特許-適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システム 図1
  • 特許-適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システム 図2
  • 特許-適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システム 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-11-08
(45)【発行日】2023-11-16
(54)【発明の名称】適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システム
(51)【国際特許分類】
   G16B 40/20 20190101AFI20231109BHJP
【FI】
G16B40/20
【請求項の数】 7
(21)【出願番号】P 2023095082
(22)【出願日】2023-06-08
【審査請求日】2023-06-08
(31)【優先権主張番号】202210685472.X
(32)【優先日】2022-06-17
(33)【優先権主張国・地域又は機関】CN
【早期審査対象出願】
(73)【特許権者】
【識別番号】521162399
【氏名又は名称】之江実験室
(74)【代理人】
【識別番号】100128347
【弁理士】
【氏名又は名称】西内 盛二
(72)【発明者】
【氏名】李 ▲勁▼松
(72)【発明者】
【氏名】童 丹▲陽▼
(72)【発明者】
【氏名】王 ▲ユー▼
(72)【発明者】
【氏名】田 雨
(72)【発明者】
【氏名】周 天舒
【審査官】岡北 有平
(56)【参考文献】
【文献】国際公開第2021/202423(WO,A1)
【文献】特表2022-504916(JP,A)
【文献】国際公開第2022/058980(WO,A1)
【文献】Mayur Divate, et al.,Deep Learning-Based Pan-Cancer Classification Model Reveals Tissue-of-Origin Specific Gene Expression Signatures,Cancers [online],2022年02月24日,Vol.14, No.1185,Pages 1-16,[検索日:2023年8月9日], <URL:https://doi.org/10.3390/cancers14051185>
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00 - 99/00
(57)【特許請求の範囲】
【請求項1】
適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システムであって、データ収集モジュール、データ前処理モジュール、通路異常検出モデル構築モジュール及び通路異常検出モジュールを含み、
前記データ収集モジュールは、腫瘍組織サンプル遺伝子表現データを収集することに用いられ、
前記データ前処理モジュールは、腫瘍組織サンプル遺伝子表現データに対して欠損値処理と正規化処理を行うことに用いられ、
前記通路異常検出モデル構築モジュールは、正常サンプル遺伝子表現データに基づいてディープエンコーダネットワークを訓練することであって、リサンプリングに基づいて原訓練セットから現在訓練セットを取得し、現在訓練セットに基づいて1つのディープエンコーダネットワークを訓練し、かつディープエンコーダネットワークの予測値と実際値との差異に基づいて1つの閾値を取得して原訓練セットにおけるサンプルを正常サンプルまたは異常サンプルとして識別し、原訓練セットのうち異常サンプルとして識別されたサンプル重みを調整した後で次のディープエンコーダネットワークを訓練することと、複数のディープエンコーダネットワークを集積し、正常サンプルと異常サンプルを効果的に識別できる通路異常検出モデルを取得することとを含み、
前記ディープエンコーダネットワークの構造及びパラメータは、
生物機能信号通路pが総計でg個の遺伝子に関すると仮定すると、KEGG通路データベースにおける通路pに含まれるKEGG機能直系同源物IDの数が
であり、
前記ディープエンコーダネットワークが順に接続された入力層、エンコードユニット、底層、デコードユニット及び出力層を含み、前記エンコードユニットが少なくとも2つのエンコード層を含み、前記デコードユニットがエンコードユニットの各エンコード層に対応するデコード層を含み、前記エンコード層とデコード層が何れも隠し層であり、対応するエンコード層とデコード層がニューロン個数が同じであり、
入力層と出力層のニューロン個数をgに設定し、エンコードユニットの1番目のエンコード層とデコードユニットの最後のデコード層のニューロン個数を
に設定し、底層のニューロン個数を通路データベースにおける通路pのネットワーク図に含まれるサブ通路ネットワークの数に設定し、netとして記し、エンコード層の数が
と仮定すると、code番目のエンコード層のニューロン個数が
であり、
前記通路異常検出モデルの構築過程は、
g個の遺伝子に関する生物機能信号通路pに対して、train_n個の正常サンプル遺伝子表現データを含む正常サンプルを原訓練セットNRtrain_n×gとして構成し、ベースネットワークの総数をL、l=1,…,Lに設定することと、
原訓練セットNRtrain_n×gのサンプル分布を均一分布として初期化し、サンプル重み分布を
として記し、ここで、Wがi番目のサンプルの重みであることと、
サンプル重み分布に基づいてサンプルをリサンプリングし、現在訓練セット
を取得し、かつ現在訓練セット
に基づいてディープエンコーダネットワークを訓練し、ベースネットワークhを取得することと、
現在訓練セット
の各サンプルのネットワークの予測値と実際値の差異difftrain_iを高次元空間に投影し、かつ当該高次元空間で半径が最も小さい1つの超球体を見つけ、訓練セット
の各サンプルのネットワークの予測値と実際値の差異がいずれも当該超球体に入るようにし、当該超球体の半径Rをベースネットワークhとして正常/異常サンプルの閾値を区別することと、
原訓練セットNRtrain_n×gの各サンプルxtrain_iをベースネットワークhに入力し、サンプルxtrain_iに対応する投影点から最も小さい超球体の球心までの距離
のとき、サンプルxtrain_iを異常サンプルとして表記し、異常サンプルの集合をAとして記し、ベースネットワークhの原訓練セットNRtrain_n×gにおける誤差率
を取得することと、
誤差率
に基づき現在ベースネットワークhの重み係数
を算出し、かつサンプル重み分布を更新することと、
訓練されたディープエンコーダネットワーク個数が予め設定されたベースネットワーク総数Lに達するか否かを判断し、達しない場合、更新されたサンプル重み分布に基づいてリサンプリングを新たに行いかつベースネットワークを訓練し、達する場合、ベースネットワークの重み係数
に基づいてL個のベースネットワークを集積し、通路異常検出モデルHを取得することと、を含み、
前記ベースネットワークhの損失関数算出過程が下記の通りであり、
現在訓練セット
の各サンプル
をベースネットワークhの入力として、各サンプルの再構成ベクトル
を取得し、
通路データベースから通路pの有向図を取得し、遺伝子kの通路pに対する影響をIとして記し、活性化作用である場合、I=1であり、抑制作用である場合、I=-1であり、遺伝子kの通路pでの重要性を
として記し、ここで、Wが有向図における遺伝子を通過するkの経路数であり、max(W)が全ての遺伝子のWの最大値であり、遺伝子kの通路pでの貢献を
として記し、ここで、cvが訓練セット
における遺伝子kの変異係数であり、遺伝子kの通路pでの重みを
として記し、Kが通路pの遺伝子集合であり、
サンプル
の損失関数
を以下の通り記し、
【数1】
ここで、
がそれぞれサンプル
と再構成ベクトル
の第k個の元素であり、
が現在訓練セット
の全てのサンプルの第k個の元素の平均値であり、
が再構成ベクトル
の全てのサンプルの第k個の元素の平均値であり、
前記通路異常検出モジュールは、腫瘍組織サンプル遺伝子表現データを分析し、個体通路異常状況を評価することに用いられる
ことを特徴とする適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システム。
【請求項2】
前記エンコードユニットの1番目のエンコード層及び出力層の活性化関数がReluであり、1番目のエンコード層と出力層の間のエンコード層、デコード層と底層の活性化関数がtanhであり、ディープエンコーダネットワークにL制限を加入する
ことを特徴とする請求項1に記載の適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システム。
【請求項3】
前記サンプル重み分布に基づいてサンプルをリサンプリングし、現在訓練セットを取得することは、
ベースネットワーク個数l=1のとき、原訓練セットNRtrain_n×gを現在訓練セット
として使用することと、
ベースネットワーク個数
のとき、サンプル重み分布Dに基づいてリサンプリングを行うことと、を含み、
ベースネットワーク個数
のとき、サンプル重み分布Dに基づいてリサンプリングを行うことは、ステップ1~ステップ5を含み、
前記ステップ1では、1つの実数mをランダムに生成し、値範囲が
であり、
前記ステップ2では、サンプルを重みに応じて昇順配列し、
前記ステップ3では、二分探索アルゴリズムに従って、条件
を満たすインデックスjを検索し、
前記ステップ4では、インデックスjに対応するサンプルを取得し、
前記ステップ5では、train_n個のサンプルを取得して現在訓練セット
を構成するまで、前記ステップ1~前記ステップ4を繰り返す
ことを特徴とする請求項1に記載の適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システム。
【請求項4】
前記超球体の半径最小化式は、以下の式2に示され、
【数2】
ここで、Rが第l個のベースネットワークの超球体の半径であり、aが第l個のベースネットワークの超球体の球心であり、θltrain_iは第l個のベースネットワークにおいて差異difftrain_iが高次元空間に投影する投影点に対応するリラックスファクターであり、
が各サンプルのネットワークの予測値と実際値の差異を高次元空間に投影することを担当する非線形関数であり、
が投影点から球心までの距離であり、distrain_iとして記し、cが第l個のベースネットワークの複雑さを調整する誤差ペナルティ係数である
ことを特徴とする請求項1に記載の適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システム。
【請求項5】
サンプル重み分布を更新する式が下記の通りであり、
【数3】
ここで、
がそれぞれサンプルxtrain_iのサンプル重み分布
における重みであり、
がサンプルxtrain_iをベースネットワークhに入力した後で取得した正常/異常サンプル識別結果であり、

を確率分布にする正規化ファクターである
ことを特徴とする請求項1に記載の適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システム。
【請求項6】
原訓練セットNRtrain_n×gを利用して通路異常検出モデルHの予測値と実際値の差異を算出し、かつ差異を高次元空間に投影する最小超球体Qの半径Rを算出し、Rを通路異常検出モデルとして正常/異常サンプルの閾値を区別し、かつ全てのサンプル投影点から最小超球体Qの球心までの平均距離を取得し、MDとして記する
ことを特徴とする請求項1に記載の適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システム。
【請求項7】
前記通路異常検出モジュールが個体通路異常状況を評価することに使用され、具体的には、
通路pに対して、患者iの腫瘍組織サンプル遺伝子表現データを入力とし、患者サンプルが通路異常検出モデルにより取得した予測値と実際値の差異diffpiを取得し、diffpiの高次元空間での投影点から最小超球体Qの球心までの距離dispiを算出し、かつ閾値Rに基づいて当該患者サンプルが通路pにおいて異常サンプルであるか否かを判断し、
のとき、当該患者サンプルが通路p正常サンプルであり、かつ当該患者通路pの通路異常スコアを0として記し、
のとき、当該患者サンプルが通路p異常サンプルであり、かつ
を当該患者通路pの通路異常スコアとする
ことを特徴とする請求項6に記載の適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、医療情報技術分野に属し、特に適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システムに関する。
【背景技術】
【0002】
癌は発病率及び死亡率が高<、既に人間が疾患に起因して死亡する主な要因となっている。人口数の増加及び人口の高齢化の発展に伴い、癌による疾患の負担はさらに増大している。多くの最新の研究では、バイオマーカーなどの新たな予後因子を加入することにより、患者の疾患状况と予後状況をより個性的に説明できることを見出した。しかし、現在では、HER2とERが乳癌の予後ステージングに用いられる以外に、多くの腫瘍の研究には信頼できるバイオマーカーは見つかっておらず、単一又は少数の遺伝子が効果的な予後情報を提供することができないことが示されている。したがって、大量の遺伝子から、データ駆動の方式で、効果的な予後情報を提供できる一連の遺伝子を見つける必要がある。通路知識に基づいて遺伝子表現データを患病個体の通路異常状況に変換することは、単一遺伝子の予後情報を効果的に豊かにすることができ、患者の疾患状况と予後状況をより個性的に説明する。
【0003】
従来の個体通路異常状況評価方法は、PARADIGMとPathifierの二種類を含む。ここで、PARADIGM方法は、個体通路異常状況を算出評価する過程において、通路の具体的な機能的構造情報及び完全なゲノミクス、トランスクリプトミクス及びプロテオミクスなどの複数のスケールの完全なオミクスデータを必要とするため、通路構造が複雑であるとき、大量の時間を費やして評価する必要があり、かつ個体通路異常状況を評価するときに通路内の係る全ての遺伝子、タンパク質などの異なるスケールの情報を取得する必要がある。実際の場合、常に患者のある通路における係る遺伝子、タンパク質などの複数のスケ-ルの完全な情報を取得することを保証できないため、当該方法は臨床に適用しない。Pathifier方法は完全な通路情報を必要とせず、かつ単一スケールのオミクスデータ例えば遺伝子表現データだけを必要とし、それは評価過程において主成分数を選択しかつ背景遺伝子データをフィルタリングして主成分曲線を取得し、さらに個体の通路異常状況を評価する必要がある。しかし、当該方法は、少なくとも2つの患病サンプルデータを要求し、かつ新患者の通路異常状況を評価するたびに全てのサンプルに基づいて主成分曲線を新たに取得する必要があり、これにより、当該方法は安定な通路異常状況を取得することができる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、従来技術の不足について、適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システムを提供し、本発明は、ニューラルネットワークに基づくディープエンコーダアルゴリズムを利用し、個体通路異常状況評価問題を異常検出問題に変換し、異常サンプルと正常サンプルを区別し、正常サンプルに対する異常サンプルの通路異常程度を評価し、主成分曲線に基づく通路異常状況評価アルゴリズムで通路異常状況を安定に評価できない問題を改善する。事前検証知識を十分に利用する場合、複数の生物機能が近い遺伝子の予後情報を豊かにし、患者の通路異常状況を効果的に評価し、腫瘍予後予測正確性の向上に使用でき、医師が患者の治療計画を制定することを支援する。
【課題を解決するための手段】
【0005】
本発明の目的は、以下の技術的解決手段によって実現される。
【0006】
腫瘍組織サンプル遺伝子表現データを収集するためのデータ収集モジュールと、
腫瘍組織サンプル遺伝子表現データに対して欠損値処理と正規化処理を行うためのデータ前処理モジュールと、
正常サンプル遺伝子表現データに基づいてディープエンコーダネットワークを訓練するものであって、リサンプリングに基づいて原訓練セットから現在訓練セットを取得し、現在訓練セットに基づいて1つのディープエンコーダネットワークを訓練し、かつディープエンコーダネットワークの予測値と実際値との差異に基づいて1つの閾値を取得して原訓練セットにおけるサンプルを正常サンプルまたは異常サンプルとして識別し、原訓練セットのうち異常サンプルとして識別されたサンプル重みを調整した後で次のディープエンコーダネットワークを訓練することと、複数のディープエンコーダネットワークを集積し、正常サンプルと異常サンプルを効果的に識別できる通路異常検出モデルを取得することとを含む通路異常検出モデル構築モジュールと、
腫瘍組織サンプル遺伝子表現データを分析し、個体通路異常状況を評価するための通路異常検出モジュールと、を含む
適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システム。
【0007】
さらに、前記ディープエンコーダネットワークの構造及びパラメータが下記の通りであり、
生物機能信号通路pが総計でg個の遺伝子に関すると仮定すると、KEGG通路データベースにおける通路pに含まれるKEGG機能直系同源物IDの数が
であり、
前記ディープエンコーダネットワークは、順に接続された入力層、エンコードユニット、底層、デコードユニット及び出力層を含み、前記エンコードユニットが少なくとも2つのエンコード層を含み、前記デコードユニットがエンコードユニットの各エンコード層に対応するデコード層を含み、前記エンコード層とデコード層が何れも隠し層であり、対応するエンコード層とデコード層はニューロン個数が同じであり、
入力層と出力層のニューロン個数をgに設定し、エンコードユニットの1番目のエンコード層とデコードユニットの最後のデコード層のニューロン個数を
に設定し、底層のニューロン個数を通路データベースにおける通路pのネットワーク図に含まれるサブ通路ネットワークの数に設定し、netとして記し、エンコード層の数が
と仮定すると、code番目のエンコード層のニューロン個数が
である。
【0008】
さらに、前記エンコードユニットの1番目のエンコード層及び出力層の活性化関数がReluであり、1番目のエンコード層と出力層の間のエンコード層、デコード層と底層の活性化関数がtanhであり、ディープエンコーダネットワークにL制限を加入する。
【0009】
さらに、前記通路異常検出モデルの構築過程は、
g個の遺伝子に関する生物機能信号通路pに対して、train_n個の正常サンプル遺伝子表現データを含む正常サンプルを原訓練セットNRtrain_n×gとして構成し、ベースネットワークの総数をL、l=1,…,Lに設定することと、
原訓練セットNRtrain_n×gのサンプル分布を均一分布として初期化し、サンプル重み分布を
として記し、ここで、Wがi番目のサンプルの重みであることと、
サンプル重み分布に基づいてサンプルをリサンプリングし、現在訓練セット
を取得し、かつ現在訓練セット
に基づいてディープエンコーダネットワークを訓練し、ベースネットワークhを取得することと、
現在訓練セット
の各サンプルのネットワークの予測値と実際値の差異difftrain_iを高次元空間に投影し、かつ当該高次元空間で半径が最も小さい1つの超球体を見つけ、訓練セット
の各サンプルのネットワークの予測値と実際値の差異がいずれも当該超球体に入るようにし、当該超球体の半径Rをベースネットワークhとして正常/異常サンプルの閾値を区別することと、
原訓練セットNRtrain_n×gの各サンプルxtrain_iをベースネットワークhに入力し、サンプルxtrain_iに対応する投影点から最も小さい超球体の球心までの距離
のとき、サンプルxtrain_iを異常サンプルとして表記し、異常サンプルの集合をAとして記し、ベースネットワークhの原訓練セットNRtrain_n×gにおける誤差率
を取得することと、
誤差率
に基づき現在ベースネットワークhの重み係数
を算出し、かつサンプル重み分布を更新することと、
訓練されたディープエンコーダネットワーク個数が予め設定されたベースネットワーク総数Lに達するか否かを判断し、達しない場合、更新されたサンプル重み分布に基づいてリサンプリングを新たに行いかつベースネットワークを訓練し、達する場合、ベースネットワークの重み係数
に基づいてL個のベースネットワークを集積し、通路異常検出モデルHを取得することと、を含む。
【0010】
さらに、前記サンプル重み分布に基づいてサンプルをリサンプリングし、現在訓練セットを取得することは、
ベースネットワーク個数l=1のとき、原訓練セットNRtrain_n×gを現在訓練セット
として使用することと、
ベースネットワーク個数
のとき、サンプル重み分布Dに基づいてリサンプリングを行うことと、を含み、
ベースネットワーク個数
のとき、サンプル重み分布Dに基づいてリサンプリングを行うことは、
(1)1つの実数mをランダムに生成し、値範囲が
であることと、
(2)サンプルを重みに応じて昇順配列することと、
(3)二分探索アルゴリズムに従って、条件
を満たすインデックスjを検索することと、
(4)インデックスjに対応するサンプルを取得することと、
(5)train_n個のサンプルを取得して現在訓練セット
を構成するまで、ステップ(1)~ステップ(4)を繰り返すこととを含む。
【0011】
さらに、前記ベースネットワークhの損失関数算出過程が下記の通りであり、
現在訓練セット
の各サンプル
をベースネットワークhの入力として、各サンプルの再構成ベクトル
を取得し、
通路データベースから通路pの有向図を取得し、遺伝子kの通路pに対する影響をIとして記し、活性化作用である場合、I=1であり、抑制作用である場合、I=-1であり、遺伝子kの通路pでの重要性を
として記し、ここで、Wが有向図における遺伝子を通過するkの経路数であり、max(W)が全ての遺伝子のWの最大値であり、遺伝子kの通路pでの貢献を
として記し、ここで、cvが訓練セット
における遺伝子kの変異係数であり、遺伝子kの通路pでの重みを
として記し、Kが通路pの遺伝子集合であり、
サンプル
の損失関数
を以下の通り記し、
【数1】
ここで、
がそれぞれサンプル
と再構成ベクトル
の第k個の元素であり、
が現在訓練セット
の全てのサンプルの第k個の元素の平均値であり、
が再構成ベクトル
の全てのサンプルの第k個の元素の平均値である。
【0012】
さらに、前記超球体の半径最小化式が下記の通りであり、
【数2】
ここで、Rが第l個のベースネットワークの超球体の半径であり、aが第l個のベースネットワークの超球体の球心であり、θltrain_iが第l個のベースネットワークにおいて差異difftrain_iが高次元空間に投影する投影点に対応するリラックスファクターであり、
が各サンプルのネットワークの予測値と実際値の差異を高次元空間に投影することを担当する非線形関数であり、
が投影点から球心までの距離であり、distrain_iとして記し、cが第l個のベースネットワークの複雑さを調整する誤差ペナルティ係数である。
【0013】
さらに、サンプル重み分布を更新する式が下記の通りであり、
【数3】
ここで、
がそれぞれサンプルxtrain_iのサンプル重み分布
における重みであり、
がサンプルxtrain_iをベースネットワークhに入力した後で取得した正常/異常サンプル識別結果であり、

を確率分布にする正規化ファクターである。
【0014】
さらに、原訓練セットNRtrain_n×gを利用して通路異常検出モデルHの予測値と実際値の差異を算出し、かつ差異を高次元空間に投影する最小超球体Qの半径Rを算出し、Rを通路異常検出モデルとして正常/異常サンプルの閾値を区別し、かつ全てのサンプル投影点から最小超球体Qの球心までの平均距離を取得し、MDとして記する。さらに、前記通路異常検出モジュールが個体通路異常状況を評価することに使用され、具体的には、
通路pに対して、患者iの腫瘍組織サンプル遺伝子表現データを入力とし、患者サンプルが通路異常検出モデルにより取得した予測値と実際値の差異diffpiを取得し、diffpiの高次元空間での投影点から最小超球体Qの球心までの距離dispiを算出し、かつ閾値Rに基づいて当該患者サンプルが通路pにおいて異常サンプルであるか否かを判断し、
のとき、当該患者サンプルが通路p正常サンプルであり、かつ当該患者通路pの通路異常スコアを0として記し、
のとき、当該患者サンプルが通路p異常サンプルであり、かつ
を当該患者通路pの通路異常スコアとする。
【発明の効果】
【0015】
本発明の有益な効果としては、本発明は、通路知識を十分に利用する場合、従来方法が単一患者の通路異常状況評価に使用できない問題を効率的に解決する。複数のディープエンコーダネットワークを集積して構築された通路異常検出モデルは、正常サンプルに対する識別能力を向上し、良好な拡張可能性を有し、大量のデータの大規模な処理に役立つ。通路異常検出モデルの予測値と実際値の差異に基づいてサンプルが異常であるか否かを区分し、かつサンプルの通路異常スコアを算出し、患病サンプルの正常サンプルに対する通路異常程度を評価することができる。
【図面の簡単な説明】
【0016】
図1】本発明の適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システム構成枠組み図である。
図2】本発明の実施例による通路異常検出モデル訓練フローチャートである。
図3】本発明の実施例によるディープエンコーダネットワーク構成図である。
【発明を実施するための形態】
【0017】
本発明の上記目的、特徴及び利点をより分かりやすくするために、以下、図面を参照して本発明の実施形態を詳細に説明する。
【0018】
本発明を十分に理解するために、以下の説明では、多くの具体的な詳細が記載されているが、本発明は、ここで説明するものとは異なる他の方式で実施することもでき、当業者は、本発明の意味合いに違反することなく、同様の拡張を行うことができるため、本発明は、以下に開示される具体的な実施例に限定されない。
【0019】
通路とは、従来の科学研究に基づいて生物システム内の同一機能に関連する遺伝子または分子間の相互作用、反応及び関係ネットワークを取得することを指し、通路異常検出とは、ある患病個体のある通路の活動状況と健康個体の同一通路の活動状況の差異に対する評価を指し、健康個体と顕著な差異があるか否か、及び差異程度の評価を含む。
【0020】
本発明は、適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システムを提供する。図1に示すように、当該システムは、
腫瘍組織サンプル遺伝子表現データを収集するためのデータ収集モジュールと、
腫瘍組織サンプル遺伝子表現データに対して欠損値処理と正規化処理を行うためのデータ前処理モジュールと、
正常サンプル遺伝子表現データに基づいて正常サンプルと異常サンプルを効率的に識別できるディープエンコーダネットワークを訓練し、訓練されたディープエンコーダネットワークを通路異常検出モデルとする通路異常検出モデル構築モジュールと、
腫瘍組織サンプル遺伝子表現データを分析し、個体通路異常状況を評価するための通路異常検出モジュールと、を含む。
【0021】
通路異常検出モデル訓練過程は図2に示す通りである。通路異常検出モデルの正常サンプルに対する識別能力を向上するために、データ前処理を完成した後、リサンプリングに基づいて原訓練セットから現在訓練セットを取得し、現在訓練セットに基づいて1つのディープエンコーダネットワークを訓練し、かつネットワークの予測値と実際値の差異に基づいて1つの閾値を取得して原訓練セットにおけるサンプルを正常サンプルまたは異常サンプルとして識別し、原訓練セットのうち異常サンプルとして識別されたサンプル重みを調整した後で上記過程を繰り返し、複数のディープエンコーダネットワークを訓練し、最後に複数のディープエンコーダネットワークを集積して正常サンプルと異常サンプルを効果的に識別できる通路異常検出モデルを取得し、通路異常検出に用いる。具体的なステップは下記の通りである。
【0022】
(1)ディープエンコーダネットワークパラメータ設定
ある生物機能信号通路pが総計でg個の遺伝子に関すると仮定すると、KEGG(京都遺伝子とゲノミクス百科事典)通路データベースにおける通路pに含まれるKEGG ORTHOLOGY ID(KEGG機能直系同源物ID。各IDは機能が既知の同源遺伝子を表す)の数が
であり、ディープエンコーダネットワークは、順に接続された入力層、エンコードユニット、底層、デコードユニット、出力層を含む。エンコードユニットは少なくとも2つのエンコード層を含み、デコードユニットはエンコードユニットの各エンコード層に対応するデコード層を含む。エンコード層とデコード層は何れも隠し層であり、対応するエンコード層とデコード層はニューロン個数が同じである。
ここで、入力層と出力層のニューロン個数がgであり、通路内の一部の遺伝子の間には類似する生物機能を有し、相関性が高いことを考慮するため、生物機能が類似する遺伝子を処理し、エンコードユニットの1番目のエンコード層Eとデコードユニットの最後のデコード層Dのニューロン個数を
に設定する必要がある。1番目のエンコード層E及び出力層の活性化関数がReluである。
残りのエンコード層、デコード層と底層のニューロン個数特定方法としては、まず、底層のニューロン個数を特定し、その数が通路データベース(KEGG、Reactome等)における通路pのネットワーク図に含まれるサブ通路ネットワークの数であり、netとして記し、エンコード層の数が
であると仮定すると、code番目のエンコード層のニューロン個数が
であり、対応するデコード層とエンコード層とはニューロン個数が同じであり、1番目のエンコード層Eと出力層の間のエンコード層、デコード層と底層の活性化関数がtanhである。
本発明は、さらにディープエンコーダネットワークにL制限を加入し、モデル過度フィットを効果的に防止できる。
1つの実施例において、図3に示すように、ディープエンコーダネットワークは11層のネットワークであり、順に接続された入力層、4つのエンコード層、底層、4つのデコード層、出力層を含む。ここで、入力層と出力層のニューロン個数がgであり、エンコード層Eとデコード層Dのニューロン個数を
に設定し、エンコード層E及び出力層の活性化関数がReluであり、デコード層Dの活性化関数がtanhである。
底層のニューロン個数がnetであるとき、エンコード層Eとデコード層Dのニューロン個数が
であり、活性化関数がtanhであり、エンコード層Eとデコード層Dのニューロン個数が
であり、活性化関数がtanhであり、エンコード層Eとデコード層Dのニューロン個数が
であり、活性化関数がtanhであり、底層の活性化関数がtanhである。
【0023】
(2)正常サンプル遺伝子表現データに基づいてディープエンコーダネットワークを訓練する
あるg個の遺伝子に関する生物機能信号通路pに対して、train_n個の正常サンプル遺伝子表現データを含む正常サンプルを原訓練セットNRtrain_n×gとして構成し、ベースネットワークの総数をL、l=1,…,Lに設定する。
(2.1)サンプル重みを初期化する
原訓練セットNRtrain_n×gのサンプル分布を均一分布として初期化する場合、各サンプルの重みが何れも
であり、このとき、ベースネットワーク個数がl=1であり、サンプル重み分布が
である。
(2.2)サンプル重み分布に基づいてサンプルをリサンプリングする
ベースネットワーク個数l=1のとき、原訓練セットNRtrain_n×gを直接に現在訓練セットとして使用することができ、リサンプリングを行う必要がなく、すなわち、現在訓練セット
である。
ベースネットワーク個数
のとき、サンプル重み分布Dに基づいてリサンプリングを行う必要があり、ここで、FiltEXアルゴリズムを使用して実現し、具体的な流れが下記の通りであり、
a.1つの実数mをランダムに生成し、当該実数の値範囲が
である。
b.サンプルを重みに応じて昇順配列する。
c.二分探索アルゴリズムに従って、条件
を満たすインデックスjを検索する。
d.インデックスjに対応するサンプルを取得する。
e. train_n個のサンプルを取得して現在訓練セット
を構成するまで、ステップa~dを繰り返す。
(2.3)ディープエンコーダネットワークを初期化する
ステップ(2.2)で取得された現在訓練セット
に基づいて、ディープエンコーダネットワークを訓練し、勾配降下アルゴリズムを使用して逆方向伝播アルゴリズムと組み合わせてディープエンコーダネットワーを調整し、ベースネットワークhを取得する。
(2.4)ディープエンコーダネットワークを訓練する。
現在訓練セット
の各サンプル
をベースネットワークhの入力とし、各サンプルの再構成ベクトル
を取得する。
通路における異なる遺伝子の重要性が異なるため、ベースネットワークhの損失関数を算出するとき、通路における各遺伝子の重みを考慮する必要がある。通路データベース(KEGG、Reactome等)から通路pの有向図を取得し、図の各ノードが通路pにおける遺伝子であり、図の各エッジはノード及び/またはノード生成物における遺伝子間の生化学的な活性化または抑制相互作用を表す。エッジ内に送信しないノード(入度が0である)を起点とし、エッジ外に送信しない(出度が0である)ノードを終点とし、経路を算出するときに循環が出現することを禁止する。遺伝子kの通路pに対する影響をIとして記し、活性化作用である場合、I=1であり、抑制作用である場合、I=-1である。遺伝子kの通路pでの重要性を
として記し、ここで、Wが有向図における遺伝子kを通過する経路数であり、max(W)が全ての遺伝子のWの最大値である。cvが訓練セット
における遺伝子kの変異係数である。遺伝子kの通路pでの貢献を
として記する。最終的に遺伝子kの通路pでの重みを
として記し、Kが通路pの遺伝子集合であり、すなわち、遺伝子kの貢献が通路pにおける全ての遺伝子貢献和の比率であり、
にする。
最終的にサンプル
の損失関数
を以下の通り記し、
【数1】
ここで、
がそれぞれサンプル
と再構成ベクトル
の第k個の元素であり、
が現在訓練セット
の全てのサンプルの第k個の元素の平均値であり、
が再構成ベクトル
の全てのサンプルの第k個の元素の平均値である。当該損失関数は現在ベースネットワークhの訓練と最適化を行うためのものである。
(2.5)現在ベースネットワークを算出して正常/異常サンプルの閾値を区別する
カーネル関数を導入して現在訓練セット
の各サンプルのネットワークの予測値と実際値の差異
を高次元空間に投影し、かつ当該高次元空間で半径が最も小さい1つの超球体を見つけ、訓練セット
の各サンプルのネットワークの予測値と実際値の差異がいずれも当該超球体に入るようにし、当該超球体の半径を現在ベースネットワークとして正常/異常サンプルの閾値を区別する。超球体の半径最小化式が下記の通りであり、
【数2】
ここで、Rが第l個のベースネットワークの超球体の半径であり、aが第l個のベースネットワークの超球体の球心であり、θltrain_iは第l個のベースネットワークにおいてdifftrain_iが高次元空間に投影する投影点に対応するリラックスファクターであり、
が各サンプルのネットワークの予測値と実際値の差異を高次元空間に投影することを担当する非線形関数であり、
が投影点から球心までの距離であり、distrain_iとして記し、cが第l個のベースネットワークの複雑さを調整する誤差ペナルティ係数である。
(2.6)ディープエンコーダネットワークに基づいて原訓練セットを分類し、かつサンプル重みを調整する
原訓練セットNRtrain_n×gの各サンプルxtrain_iをベースネットワークhの入力とし、各サンプルの再構成ベクトル
を取得し、サンプルxtrain_iに対応する
のとき、サンプルxtrain_iを異常サンプルとして表記し、異常サンプルの集合をAとして記し、最終的にベースネットワークhの原訓練セットNRtrain_n×gにおける誤差率
、すなわち、原訓練セットNRtrain_n×gにおいてベースネットワークhによって異常サンプルとして識別されるサンプル重みの和を取得する。
(2.7)サンプル重み分布Dを更新する
誤差率
に基づき現在ベースネットワークhの重み係数
を算出し、かつサンプル重み分布を更新し、
【数3】
ここで、
がそれぞれサンプルxtrain_i
における重みであり、
がサンプルxtrain_iをベースネットワークhに入力した後で取得した正常/異常サンプル識別結果であり、

を確率分布にする正規化ファクターである。
(2.8)訓練されたディープエンコーダネットワーク個数が予め設定されたベースネットワーク総数Lに達するか否かを判断する
のとき、
であり、ステップ(2.2)に戻り、更新されたサンプル重み分布に基づいてリサンプリングを新たに行いかつベースネットワークを訓練する。
のとき、ステップ(2.9)に入る。
(2.9)取得されたL個のベースネットワークを集積する
ベースネットワークの重み係数
に基づいて、L個のベースネットワークhを集積し、最終的に取得された通路異常検出モデルが
である。
通路異常検出モデルHに基づき、原訓練セットNRtrain_n×gを利用して通路異常検出モデルの予測値と実際値の差異を算出し、かつ差異を高次元空間に投影する最小超球体Qの半径Rを算出し、Rを通路異常検出モデルとして正常/異常サンプルの閾値を区別し、かつ全てのサンプル投影点から最小超球体Qの球心までの平均距離を取得し、MDとして記する。
通路異常検出モジュールにより患者サンプルの通路異常状況を評価し、具体的には、
ある通路pに対して、患者iの腫瘍組織サンプル遺伝子表現データを入力とし、患者サンプルが通路異常検出モデルにより取得した予測値と実際値の差異diffpiを取得し、diffpiの高次元空間での投影点から最小超球体Qの球心までの距離dispiを算出し、かつ閾値Rに基づいて当該患者サンプルが通路pにおいて異常サンプルであるか否かを判断し、
のとき、当該患者サンプルが通路p正常サンプルであり、かつ当該患者通路pの通路異常スコアを0として記し、
のとき、当該患者サンプルが通路p異常サンプルだり、かつ
を当該患者通路pの通路異常スコアとし、すなわち、
【数4】
ここで、ADip、PDSipがそれぞれ患者iの通路pの正常/異常サンプルフラグと通路異常スコアである。
上記ステップを繰り返し、患者の全ての通路の通路異常状況を評価することができる。
【0024】
実施例
遺伝子型組織表現(項目)GTExにおける308つの正常結腸組織サンプルの遺伝子表現データを用いてKEGGにおける人類通路結腸直腸癌の通路異常検出システム構築を行い、かつ癌ゲノミクススペクトル(項目)TCGAにおける41つの傍癌性正常結腸組織と286つの結腸腫瘍組織の遺伝子表現データを用いてシステムの性能評価を行う。ここで、GTExの308つの正常結腸組織サンプルを訓練データセットとし、TCGAの41つの傍癌性正常結腸組織と286つの結腸腫瘍組織を検証データセットとする。
【0025】
当該通路は総計で86個の遺伝子、72つのKEGG ORTHOLOGY ID、20個のサブ通路ネットワークを含み、ディープエンコーダネットワークは図3に示す構造を採用するため、ディープエンコーダネットワークの各層ニューロンの個数はそれぞれ入力層が86個であり、エンコード層Eが72個であり、エンコード層E2が59個であり、エンコード層E3が46個であり、エンコード層E4が33個であり、底層が20個であり、デコード層D4が33つ個であり、デコード層D3が46個であり、デコード層D2が59個であり、デコード層D1が72個であり、出力層が86個である。
【0026】
最終的に構築された通路異常検出モデルは、訓練データセットにおける306つのサンプルを正常サンプルとして識別し、すなわち、識別正確率が99.35%に達する。検証データセットにおいて、当該通路異常検出モデルはTCGA傍癌性正常結腸組織における39つのサンプルを正常サンプルとして識別し、識別正確率が95.12%である。当該通路異常検出モデルは、TCGA結腸腫瘍組織における274つのサンプルを異常サンプルとして識別し、識別正確率が95.80%である。かつTCGA結腸腫瘍組織の通路異常スコアを評価取得する。
【0027】
そして、モデル安定性テストを行う。286つのTCGA結腸腫瘍組織における57つのサンプルをランダムに選択し、かつ57つの騒音データをランダムに生成し、通路異常検出モデルによりこれら114つのサンプルを評価し、評価結果において、モデルはランダムに選択された57つのTCGA結腸腫瘍組織における54つを異常サンプルとして識別し、3つを正常サンプルとして識別し、結果は騒音データが加入されていないときの識別結果と全く同じである。モデル安定性テストにおいて、小数点以下6桁を保留する場合、ランダムに選択された57つのTCGA結腸腫瘍組織の通路異常スコアは、騒音データが加入されていないときの識別結果と全く同じである。
【0028】
以上は本発明の好ましい実施形態だけであり、本発明は好ましい実施例で以上のように開示されているが、本発明を限定するものではない。当業者は本発明の技術的解決手段の範囲から逸脱することなく、上記開示された方法及び技術内容を利用して本発明の技術的解決手段に対して多くの可能な変動及び修飾を行い、又は同等変化の等価実施例に修正することができる。したがって、本発明の技術的解決手段の内容から逸脱せず、本発明の技術的思想に基ついて以上の実施例に対して行われたいかなる簡単な修正、同等変化及び修飾は、いずれも依然として本発明の技術的解決手段の保護範囲内に属する。

【要約】
【課題】本発明は適応リサンプリングディープエンコーダネットワークに基づく通路異常検出システムを提供する。
【解決手段】
データ収集モジュール、データ前処理モジュール、通路異常検出モデル構築モジュール及び通路異常検出モジュールを含む。本発明は、ニューラルネットワークに基づくディープエンコーダアルゴリズムを開示し、個体通路異常状況評価問題を異常検出問題に変換し、異常サンプルと正常サンプルを区別し、正常サンプルに対する異常サンプルの通路異常程度を評価し、主成分曲線に基づく通路異常状況評価アルゴリズムで通路異常状況を安定に評価できない問題を改善する。事前検証知識を十分に利用する場合、複数の生物機能が類似する遺伝子の予後情報を豊かにし、患者の通路異常状況を効果的に評価し、腫瘍予後予測の正確性の向上に使用することができ、医師が患者の治療計画を制定することを支援する。
【選択図】図1
図1
図2
図3