(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023092524
(43)【公開日】2023-07-03
(54)【発明の名称】遺伝子発現プロファイルの予測
(51)【国際特許分類】
G16B 25/10 20190101AFI20230626BHJP
G16B 40/00 20190101ALI20230626BHJP
【FI】
G16B25/10
G16B40/00
【審査請求】未請求
【請求項の数】13
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022203940
(22)【出願日】2022-12-21
(31)【優先権主張番号】21306894.3
(32)【優先日】2021-12-21
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】500102435
【氏名又は名称】ダッソー システムズ
【氏名又は名称原語表記】DASSAULT SYSTEMES
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】ポーリン セシェ
(72)【発明者】
【氏名】アーサー バル
(57)【要約】 (修正有)
【課題】遺伝子発現プロファイルを予測するためにニューラルネットワークをトレーニングするためのコンピュータ実装方法、データ構造、及びシステムを提供する。
【解決手段】方法は、参照ゲノムの配列の遺伝子セットの遺伝子間の潜在的調節マトリックスを取得することと、ニューラルネットワークの入力層の各ノードは調節遺伝子を表し、出力層の各ノードは被調節遺伝子を表す、入力層のノードから出力層のノードへの接続を追加すること、とを含む。追加される接続は、取得した潜在的調節マトリックスから抽出される。方法はさらに、観察される生物学的プロセスの遺伝子発現プロファイルのセットを使用してニューラルネットワークをトレーニングし、トレーニングされたニューラルネットワークの各接続を重み付けすることと、有意でない重み値を有する接続をトレーニングされたニューラルネットワークから除去することと、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
遺伝子発現プロファイルを予測するためにニューラルネットワークをトレーニングするためのコンピュータ実装方法であって、
-参照ゲノムの配列の遺伝子セットの遺伝子間の潜在的調節マトリックスを取得すること(S10)であって、前記潜在的調節マトリックスは調節遺伝子と被調節遺伝子との間の接続を記述し、調節遺伝子は少なくとも1つの被調節遺伝子を調節する少なくとも1つの転写因子をコードし、接続は、前記参照ゲノムの配列の遺伝子セットの遺伝子が関与する観察される生物学的プロセスの少なくとも1つの時系列における、前記調節遺伝子による前記被調節遺伝子の少なくとも1つの観察される調節を表す、前記潜在的調節マトリックスを取得すること(S10)、
-ノードの入力層とノードの出力層を有するニューラルネットワークを取得すること(S20)であって、前記入力層及び前記出力層は、前記参照ゲノムの配列の遺伝子セットの各遺伝子を表す同等ノードを有し、前記入力層の各ノードは調節遺伝子を表し、前記出力層の各ノードは被調節遺伝子を表す、前記ニューラルネットワークを取得すること(S20)、
-前記ニューラルネットワークに、前記入力層のノードから前記出力層のノードへの接続を追加すること(S30)であって、追加される前記接続は、取得した前記潜在的調節マトリックスから抽出される、前記追加すること(S30)、
-前記観察される生物学的プロセスの遺伝子発現プロファイルのセットを使用してニューラルネットワークをトレーニングすること(S40)であって、トレーニングされた前記ニューラルネットワークの各接続は重み付けされる、前記トレーニングすること(S40)、及び
-有意でない重み値を有する接続を前記トレーニングされたニューラルネットワークから除去すること(S50)、
を含む、前記コンピュータ実装方法。
【請求項2】
前記有意でない重み値を有する接続を前記トレーニングされたニューラルネットワークから除去することは、前記トレーニングされたニューラルネットワークの各接続ごとに、
-被調節遺伝子発現の変化が実験誤差範囲内であることを表す非有意の閾値を取得すること、
-前記重み値が前記非有意の閾値よりも小さい場合、被調節遺伝子への接続を除去すること、
を実行すること含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
取得した前記参照ゲノムの配列の遺伝子セットの遺伝子間の潜在的調節マトリックスが、
-前記参照ゲノムの配列の遺伝子セットの各遺伝子ごとに、1つ以上の転写因子結合部位及び前記1つ以上の転写因子結合部位に結合したそれぞれの転写因子を特定すること、
-特定された各結合転写因子ごとに、
-1つ以上の潜在的被調節遺伝子を特定すること、
-前記結合転写因子をコードする潜在的調節遺伝子を特定すること、及び、
-前記調節遺伝子と前記1つ以上の被調節遺伝子を接続させること、
によって算出されている、請求項1又は2に記載のコンピュータ実装方法。
【請求項4】
前記1つ以上の潜在的被調節遺伝子を特定することが、
-前記参照ゲノムの配列の遺伝子セットの遺伝子の遺伝子位置マップから、特定された前記結合転写因子周囲の所定数の塩基対のフレーム内に1つ以上の遺伝子が存在するかどうかを決定すること、及び
-前記特定された結合転写因子周囲の所定数の塩基対のフレーム内に存在する前記1つ以上の遺伝子を潜在的被調節遺伝子として特定すること、
を含む、請求項3に記載のコンピュータ実装方法。
【請求項5】
前記所定数の塩基対が15,000未満、好ましくは10,000未満である、請求項4に記載のコンピュータ実装方法。
【請求項6】
前記参照ゲノムの配列の遺伝子セットの各遺伝子ごとに、1つ以上の転写因子結合部位を特定することが、
-前記参照ゲノムの配列の遺伝子セットのクロマチンアクセシビリティデータに対してピークコール操作を実行し、それによってピークを特定すること、
-特定された各ピークごとに1つ以上のくぼみを特定し、それによって、前記参照ゲノムの配列の遺伝子セットの前記クロマチンアクセシビリティデータ上に過去に存在した転写因子のフットプリントを取得すること、
-取得した前記フットプリントを既知の転写因子のモチーフと比較すること、及び
-比較の結果、どの転写因子が各フットプリントに結合したかを特定すること、
を含む、請求項3から5のいずれか一項に記載のコンピュータ実装方法。
【請求項7】
取得した前記参照ゲノムの配列の遺伝子セットの遺伝子間の前記潜在的調節マトリックスが、
-前記観察される生物学的プロセスの各時系列ごとに潜在的調節マトリックスを取得し、それによって潜在的調節マトリックスのセットを取得すること、及び
-前記潜在的調節マトリックスのセットの潜在的調節マトリックスを統合すること、
によって算出されているマトリックスである、請求項3から6のいずれか一項に記載のコンピュータ実装方法。
【請求項8】
前記観察される生物学的プロセスの各時系列について記述される接続が、前記観察される生物学的プロセスの時系列のうちの1つの時系列について記述される接続と同等である、請求項7に記載のコンピュータ実装方法。
【請求項9】
請求項1から8のいずれか一項に従ってトレーニングされた遺伝子発現プロファイルを予測するためのニューラルネットワークを使用するコンピュータ実装方法であって、
-前記参照ゲノムの配列の遺伝子セットの遺伝子が関与する前記観察される生物学的プロセスのある時系列の遺伝子発現を含む入力データを提供すること、
-前記トレーニングされたニューラルネットワークを前記入力データに適用し、将来の遺伝子発現を予測すること、を含む、前記コンピュータ実装方法。
【請求項10】
請求項1から8のいずれか一項に従って潜在的調節マトリックスを取得するためのコンピュータ実装方法。
【請求項11】
請求項1から8のいずれか一項に従ってトレーニングされたニューラルネットワーク、請求項10に従って形成されるデータセット、並びに/又は、請求項1から8のいずれか一項に記載の方法、請求項9に記載の方法及び/若しくは請求項10に記載の方法を実行するための命令を含むコンピュータプログラムを含む、データ構造。
【請求項12】
請求項11に記載のデータ構造を記録したコンピュータ可読記憶媒体。
【請求項13】
請求項11に記載のデータ構造を記録したデータ記憶媒体を含むデバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、生物学に適用されるデータサイエンスの分野に関し、より具体的には、遺伝子発現プロファイルの予測に関連する方法、データ構造、及びシステムに関する。
【背景技術】
【0002】
データサイエンスが生物学の分野で重要性を増している。生物学的プロセスに関するデータがますます利用可能になっており、これらのデータは生物学的プロセスをより正確に予測するために使用できる。特に、データサイエンスは、必要なデータが提供されることを前提として、遺伝子発現の変化に関係するあらゆる生物学的プロセスに適用できる。
【0003】
こういった背景において、転写調節ネットワークを再構築するための手法がいくつか今後予期される。遺伝子調節ネットワーク(GRN)は、分子調節因子の集合であり、当該分子調節因子は、互いに相互作用及び細胞内の他の物質と相互作用してmRNA及びタンパク質の遺伝子発現レベルを制御し、当該mRNA及びタンパク質は次いで細胞の機能を決定する。
【0004】
第一の手法はlogicTRNと呼ばれ、「Bin Yan, Daogang Guan, Chao Wang, Junwen Wang, Bing He, Jing Qin, Kenneth R Boheler, Aiping Lu, Ge Zhang, and Hailong Zhu. An integrative method to decode regulatory logics in gene transcription. Nature communications, 8(1):1044, 2017」で議論されている。この第一の手法では、(クロマチンデータを介した)TF-DNA結合情報と、遺伝子発現データを使用して、遺伝子転写におけるTF調節ロジックを解読する。ある特定の標的遺伝子(TG)に対し、そのプロモーターには一連のTFが結合できると想定される。観測と微分方程式によって、ある遺伝子のさまざまな調節ロジックをモデル化し、また、この技法を全遺伝子に拡張することで、調節メカニズムの全体的な視野を得ることが可能になる。この手法は興味深いが、ブール値のシミュレーションに依存しており、一方で、定量的シミュレーションが望ましい場合がある。
【0005】
第二の手法では、最初に、ロジスティック回帰モデルを使用してゲノム上の任意の位置の各段階における転写因子(TF)結合を予測し、次に時間変動するベイジアンネットワーク(Time Varying Dynamic Bayesian Network)を使用して異なる時点を再接続する。このモデルを構築するために、データから約100個の特徴が抽出される。この手法の主な欠点は、段階固有の規則を構築することである。したがって、この手法は動的なネットワークではなく単純な観察と見なすことができ、モデルが有益となるには抽象化に欠けている。
【0006】
第三の手法は、回帰型ニューラルネットワーク(RNN)に基づき、「Abhinandan Khan, Sudip Mandal, Rajat Kumar Pal, and Goutam Saha. Construction of gene regulatory networks using recurrent neural networks and swarm intelligence. Scientifica, 2016」に記述されている。ある特定の遺伝子の、別の遺伝子又は遺伝子群による発現の調節は、回帰型ニューラルネットワーク(RNN)によって表すことができる。RNNは、ある配列のノードのサイクルを介して配列のダイナミクスを捉えるコネクショニストモデルである。RNNは、互いに接続された個々のユニット(ニューロン)で構成され、ニューロンは非線形に相互作用し、構造内に少なくとも1つのサイクルが存在する。ニューロンは、重み付けされたエッジによって接続される。ニューロンの出力は、その入力の非線形結合である。展開された形式では、RNNは、ネットワークの重みに等式制約がある従来の人工ニューラルネットワークに匹敵する。ただし、この第三の手法には、ネットワークが文献から既知である調節のために構築されるという欠点がある。これは、モデル構築が先験的(a priori)である(例えば、文献からの知識を使用する)ことを意味する。先験的な構築には、先験が網羅的ではないという問題があり、調節メカニズムの現在の理解は完全に満足できるものではない。予測は、現在の知識に限られる。
【発明の概要】
【発明が解決しようとする課題】
【0007】
つまり、現在の手法は完全に記述的であり、どの遺伝子が他のどの遺伝子を調節するかという調節メカニズムを記述するだけである。上記したこれらの手法では経時的な予測が可能ではなく、したがって、遺伝子発現のある段階における遺伝子の将来の発現を予測することはできないため、不十分である。
【0008】
こういった背景において、遺伝子発現プロファイルを予測するための改良された方法が依然として必要とされている。
【課題を解決するための手段】
【0009】
したがって、遺伝子発現プロファイルを予測するためにニューラルネットワークをトレーニングするためのコンピュータ実装方法が提供される。本方法は、
-参照ゲノムの配列の遺伝子セットの遺伝子間の潜在的調節マトリックスを取得することであって、ここで、当該潜在的調節マトリックスは調節遺伝子と被調節遺伝子との間の接続(関連性)を説明し、調節遺伝子は少なくとも1つの被調節遺伝子を調節する少なくとも1つの転写因子をコードし、接続は、当該参照ゲノムの配列の遺伝子セットの遺伝子が関与する観察される生物学的プロセスの少なくとも1つの時系列における、当該調節遺伝子による当該被調節遺伝子の少なくとも1つの観察される調節を表す、上記潜在的調節マトリックスを取得すること、
-ノードの入力層とノードの出力層を有するニューラルネットワークを取得することであって、当該入力層及び当該出力層は、上記参照ゲノムの配列の遺伝子セットの各遺伝子を表す同等ノードを有し、当該入力層の各ノードは調節遺伝子を表し、当該出力層の各ノードは被調節遺伝子を表す、上記ニューラルネットワークを取得すること、
-上記ニューラルネットワークに、上記入力層のノードから上記出力層のノードへの接続を追加することであって、ここで、追加される接続は、上記で取得した潜在的調節マトリックスから抽出される、上記接続を追加すること、
-上記観察される生物学的プロセスの遺伝子発現プロファイルのセットを使用してニューラルネットワークをトレーニングすることであって、ここで、トレーニングされたニューラルネットワークの各接続は重み付けされる、上記トレーニングすること、及び
-有意でない重み値を有する接続をトレーニングされたニューラルネットワークから除去すること、とを含む。
【0010】
本方法は、以下のうちの1つ以上を含んでもよい:
-有意でない重み値を有する接続をトレーニングされたニューラルネットワークから除去することは、トレーニングされたニューラルネットワークの各接続ごとに、
-被調節遺伝子発現の変化が実験誤差範囲内であることを表す非有意の閾値を取得すること、
-上記重み値が上記非有意の閾値よりも小さい場合、被調節遺伝子への接続を除去すること、を実行することを含んでよい、
-上記で取得した参照ゲノムの配列の遺伝子セットの遺伝子間の潜在的調節マトリックスは、
-上記参照ゲノムの配列の遺伝子セットの各遺伝子ごとに、1つ以上の転写因子結合部位及び当該1つ以上の転写因子結合部位に結合したそれぞれの転写因子を特定すること、
-特定された各結合転写因子ごとに、
--1つ以上の潜在的被調節遺伝子を特定すること、
--上記結合転写因子をコードする潜在的調節遺伝子を特定すること、及び、
--上記調節遺伝子と1つ以上の上記被調節遺伝子を接続させる(関連付ける)こと、
によって算出されているマトリックスであってよい、
-1つ以上の潜在的被調節遺伝子を特定することは、
-上記参照ゲノムの配列の遺伝子セットの遺伝子の遺伝子位置マップから、上記で特定された結合転写因子周囲の所定数の塩基対のフレーム内に1つ以上の遺伝子が存在するかどうかを決定すること、及び
-上記で特定された結合転写因子周囲の所定数の塩基対のフレーム内に存在する1つ以上の遺伝子を潜在的被調節遺伝子として特定すること、を含んでよい、
-上記所定数の塩基対は15,000未満、好ましくは10,000未満であってよい、
-参照ゲノムの配列の遺伝子セットの各遺伝子ごとに1つ以上の転写因子結合部位を特定することは、
-上記参照ゲノムの配列の遺伝子セットのクロマチンアクセシビリティデータに対してピークコール操作を実行し、それによってピークを特定すること、
-特定された各ピークごとに1つ以上のくぼみを特定し、それによって、上記参照ゲノムの配列の遺伝子セットのクロマチンアクセシビリティデータ上に過去に存在した転写因子のフットプリントを取得すること、
-取得したフットプリントを既知の転写因子のモチーフと比較すること、及び
-比較の結果、どの転写因子が各フットプリントに結合したかを特定すること、を含んでよい、
-上記で取得した参照ゲノムの配列の遺伝子セットの遺伝子間の潜在的調節のマトリックスは、
-上記観察される生物学的プロセスの各時系列ごとに潜在的調節マトリックスを取得し、それによって潜在的調節マトリックスのセットを取得すること、及び
-上記潜在的調節マトリックスのセットの潜在的調節マトリックスを統合すること、によって算出されているマトリックスであってよい、
-上記観察される生物学的プロセスの各時系列について記述される接続(関連性)は、上記観察される生物学的プロセスの時系列のうちの1つの時系列について記述される接続と同等であってよい。
【0011】
さらに、遺伝子発現プロファイルを予測するためにトレーニングされた上記ニューラルネットワークを使用するためのコンピュータ実装方法が提供される。本使用方法は、
-上記参照ゲノムの配列の遺伝子セットの遺伝子が関与する上記観察される生物学的プロセスのある時系列の遺伝子発現を含む入力データを提供すること、
-上記でトレーニングされたニューラルネットワークを上記入力データに適用し、将来の遺伝子発現を予測すること、を含む。
【0012】
さらに、上記の方法に従って潜在的調節マトリックスを取得するためのコンピュータ実装方法が提供される。当該方法は、実験データを取得し、当該実験データから参照ゲノムの配列の遺伝子セットの遺伝子間の潜在的調節マトリックスを取得することを含み、ここで、当該潜在的調節マトリックスは調節遺伝子と被調節遺伝子との間の接続(関連性)を説明し、当該調節遺伝子は少なくとも1つの被調節遺伝子を調節する少なくとも1つの転写因子をコードし、当該接続は、当該参照ゲノムの配列の遺伝子セットの遺伝子が関与する観察される生物学的プロセスの少なくとも1つの時系列における、当該調節遺伝子による当該被調節遺伝子の少なくとも1つの観察される調節を表す。
【0013】
潜在的調節マトリックスを取得するための方法は、さらに以下のうちの1つ以上を含んでよい:
-上記で取得した参照ゲノムの配列の遺伝子セットの遺伝子間の潜在的調節マトリックスは、
-上記参照ゲノムの配列の遺伝子セットの各遺伝子ごとに、1つ以上の転写因子結合部位及び当該1つ以上の転写因子結合部位に結合したそれぞれの転写因子を特定すること、
-特定された各結合転写因子ごとに、
--1つ以上の潜在的被調節遺伝子を特定すること、
--上記結合転写因子をコードする潜在的調節遺伝子を特定すること、及び、
--上記調節遺伝子と1つ以上の上記被調節遺伝子を接続させる(関連付ける)こと、
によって算出されているマトリックスであってよい、
-1つ以上の潜在的被調節遺伝子を特定することは、
-上記参照ゲノムの配列の遺伝子セットの遺伝子の遺伝子位置マップから、特定された結合転写因子周囲の所定数の塩基対のフレーム内に1つ以上の遺伝子が存在するかどうかを決定すること、及び
-上記で特定された結合転写因子周囲の所定数の塩基対のフレーム内に存在する1つ以上の遺伝子を潜在的被調節遺伝子として特定すること、を含んでよい、
-上記所定数の塩基対は、15,000未満、好ましくは10,000未満である、
-上記参照ゲノムの配列の遺伝子セットの各遺伝子ごとに1つ以上の転写因子結合部位を特定することは、
-上記参照ゲノムの配列の遺伝子セットのクロマチンアクセシビリティデータに対してピークコール操作を実行し、それによってピークを特定すること、
-特定された各ピークごとに1つ以上のくぼみを特定し、それによって、上記参照ゲノムの配列の遺伝子セットのクロマチンアクセシビリティデータ上に過去に存在した転写因子のフットプリントを取得すること、
-取得したフットプリントを既知の転写因子のモチーフと比較すること、及び
-比較の結果、どの転写因子が各フットプリントに結合しているかを特定すること、を含んでよい、
-上記で取得した参照ゲノムの配列の遺伝子セットの遺伝子間の潜在的調節マトリックスは、
-上記観察される生物学的プロセスの各時系列ごとに潜在的調節マトリックスを取得し、それによって潜在的調節マトリックスのセットを取得すること、及び
-上記潜在的調節マトリックスのセットの潜在的調節マトリックスを統合すること、によって算出されているマトリックスであってよい、
-上記観察される生物学的プロセスの各時系列について記述される接続は、上記観察される生物学的プロセスの時系列のうちの1つについて記述される接続と同等である。
【0014】
上記した方法に従ってトレーニングされたニューラルネットワーク、上記した潜在的調節マトリックスを取得するための方法に従って形成されるデータセット、並びに/又は、上記の方法、上記の使用方法、及び/若しくは上記の潜在的調節マトリックスを取得するための方法を実行するための命令を含むコンピュータプログラムを含む、データ構造がさらに提供される。
【0015】
さらに、当該データ構造を記録したコンピュータ可読記憶媒体が提供される。
【0016】
さらに、当該データ構造を記録したデータ記憶媒体を含むデバイスが提供される。
【図面の簡単な説明】
【0017】
次に、本発明の実施形態を、限定するものではない例をもとに添付の図面を参照して説明する。
【0018】
【発明を実施するための形態】
【0019】
図1のフローチャートを参照して、遺伝子発現プロファイルを予測するためにニューラルネットワークをトレーニングするためのコンピュータ実装方法を提案する。遺伝子発現プロファイルは、メッセンジャーRNAを作成している細胞又は組織内のすべての遺伝子を特定する。遺伝子発現プロファイルを予測して、疾患及び/若しくは状態を発見及び/若しくは診断でき、並びに/又は、体が治療にどれだけ良好に反応するかを確認することができる。
【0020】
本方法は、参照ゲノムの配列の遺伝子セットの遺伝子間の潜在的調節マトリックスを取得することを含む。潜在的調節マトリックスは、調節遺伝子と被調節遺伝子との間の接続(関連性)を説明する。調節遺伝子は、少なくとも1つの転写因子(TFと記される)をコードする遺伝子である。被調節遺伝子は、その発現が調節遺伝子によって制御される遺伝子である。調節遺伝子と被調節遺伝子との間の接続は、当該調節遺伝子による、当該被調節遺伝子の、少なくとも1つの観察される調節を表す。当該調節の観察は、上記参照ゲノムの配列の遺伝子セットの遺伝子が関与する観察される生物学的プロセスの少なくとも1つの時系列で行われる。
【0021】
本方法は、ニューラルネットワークを取得することをさらに含む。ニューラルネットワークは、ノードの入力層とノードの出力層を有する。当該入力層及び当該出力層は、上記した参照ゲノムの配列の遺伝子セットの各遺伝子を表す同等ノードを有する。入力層の各ノードは調節遺伝子を表し、出力層の各ノードは被調節遺伝子を表す。
【0022】
本方法はまた、上記ニューラルネットワークに、上記入力層のノードから上記出力層のノードへの接続を追加することを含む。追加される接続は、上記で取得した潜在的調節マトリックスから抽出される。
【0023】
次に、本方法は、上記観察される生物学的プロセスの遺伝子発現プロファイルのセットを使用し、上記で追加された接続を有するニューラルネットワークをトレーニングすることを含む。トレーニングされたニューラルネットワーク(トレーニング済みニューラルネットワーク)の各接続は重み付けされる。
【0024】
次いで、本方法は、有意でない重み値を有する接続を上記トレーニング済みニューラルネットワークから除去することを含む。
【0025】
本明細書に提示される方法はすべて、遺伝子発現プロファイルを予測するための包括的なソリューションの一部である。本データセット形成法により、学習方法で使用できるデータセットを取得できる。当該学習方法を使用して、使用方法で使用できるニューラルネットワークをトレーニングできる。そして、当該使用方法により、遺伝子発現プロファイルの予測が実行可能になる。
【0026】
提案されるソリューションによって、先験的ではない、つまり文献の知識を使用せずに、遺伝子発現プロファイルを予測することが可能になる。
【0027】
上記データセットは、参照ゲノムの配列の遺伝子セットの遺伝子間の潜在的調節マトリックスを提供する。したがって、当該データセットは、遺伝子発現プロファイルの予測を実行する、つまり、ある遺伝子発現プロファイルから将来の遺伝子発現を予測するための本使用方法に適合したニューラルネットワークを構築及びトレーニングするのに役立ち得る。また、当該データセットを使用して、乱れた遺伝子発現プロファイルから、将来の遺伝子発現を予測することもできる。ニューラルネットワークの学習に使用されるデータは、遺伝子発現の時系列であり、様々な時点(全遺伝子に対して同じ)での各遺伝子の発現である。トレーニングが完了すると、ニューラルネットワークは遺伝子発現プロファイルを入力として使用し、遺伝子発現プロファイルを出力として提供する。
【0028】
本方法は、データを使用して、存在する可能性がある調節を探し、この情報をニューラルネットワークに開始点として提供する。文献から既知の潜在的調節を調べるのではなく、遺伝子間の潜在的調節を構築する。上記のようにモデルを構築することで、本発明は、従来の知識ベースのモデル作成を含まない。情報に基づいていない全結合のブルートフォースニューラルネットワークではなく、情報に基づいた構造が構築される。ニューラルネットワーク構造は、データから学習した情報で構築される。ネットワーク内の各接続は、例えばクロマチンアクセシビリティデータによって推定される、可能性のある調節を表す。文献ではなくデータを用いてネットワークを作成するため、上記した先験的な問題は解決される。本方法は、ネットワークの各ノードが遺伝子を表す学習プロセスも提供する。本発明は、入力(遺伝子発現の数)で与えられるのと同じ数の遺伝子を有するモデルを作成する。データで考慮される任意の遺伝子をモデルに追加できる。よって、モデルの構築は漸進的であり、つまり、遺伝子は学習データで発見され次第追加される。ネットワークのトレーニングは、遺伝子間の調節を「学習」する。すでに定義された潜在的調節のみが学習される。ノード間のエッジの重みは、調節の強さを定義する。
【0029】
したがって、本発明は、生物学的背景とは無関係である。よって、細胞の老化プロセスに関する予測を行うことができ、また、必要なデータがモデルに入力として与えられる限り、どのような生物学的プロセスでも本方法で使用できることが理解される。本発明は、知識の代わりにデータを使用して構造を構築し、したがって、未知の遺伝子調節を網羅/発見することができる。遺伝子調節は生物学的状況に大きく依存しているため、これは特に重要である。本発明は、ある発現プロファイルから、将来の遺伝子発現を予測することができる。本発明は、変化した遺伝子発現プロファイルから、将来の遺伝子発現を予測することもできる。したがって、本発明は、複数の遺伝子発現が変化した場合に何が起こるかをシミュレーションするために使用することもできる。本発明は、トレーニングされたモデルを踏まえて、遺伝子間の(文献上)未知の潜在的調節への手がかりを提供し、したがって、調節がまだ観察されていない場合でも、本発明は、その未知の調節が可能であるということを示唆する。
【0030】
上記した方法はコンピュータに実装される。つまり、方法のステップ(又は実質的にすべてのステップ)が、少なくとも1台のコンピュータ又は任意のシステムによって実行されることを意味する。したがって、本方法のステップは、可能性としては完全自動で、又は半自動で、コンピュータによって実行される。いくつかの例では、本方法の少なくともいくつかのステップは、ユーザーとコンピュータのインタラクションを介して始動されてもよい。必要なユーザーとコンピュータのインタラクションのレベルは、予測される自動化のレベルに依存し、ユーザーの希望を実施する必要性とのバランスが取られてもよい。いくつかの例では、このレベルはユーザー定義及び/又は事前に定義されてもよい。
【0031】
本方法のコンピュータ実装の典型的な例は、この目的に適応したシステムで当該方法を実行することである。システムはメモリに結合したプロセッサを含んでもよく、メモリは、本方法を実行するための命令を含むコンピュータプログラムを記録している。メモリはデータベースを格納していてもよい。メモリは、そのような格納に適応したハードウェアであり、おそらく物理的に異なる部品をいくつか含む(例えば、プログラム用に1つ、データベース用に1つ)。
【0032】
図7は、システムの一例を示しており、システムは、クライアントコンピュータシステムである。
【0033】
この例のクライアントコンピュータは、内部通信BUS1000に接続された中央処理装置(CPU)1010と、同じくBUSに接続されたランダムアクセスメモリ(RAM)1070とを備える。クライアントコンピュータはさらに、BUSに接続されたビデオランダムアクセスメモリ1100と関連するグラフィックプロセッシングユニット(GPU)1110を備えている。ビデオRAM1100は、当技術分野ではフレームバッファとしても知られている。大容量記憶装置コントローラ1020は、ハードドライブ1030などの大容量記憶装置へのアクセスを管理する。コンピュータプログラムの命令及びデータを有形に具体化するのに適した大容量記憶装置にはあらゆる形態の不揮発性メモリが含まれ、例として、EPROM、EEPROM、及びフラッシュメモリデバイスなどの半導体メモリデバイス;内蔵ハードディスクやリムーバブルディスクなどの磁気ディスク;光磁気ディスク;及びCD-ROMディスク1040が挙げられる。前述したものはいずれも、特別に設計されたASIC(特定用途向け集積回路)によって補完されるか、又はその中に組み込まれてもよい。ネットワークアダプタ1050は、例えばリモートデータにアクセスするために、ネットワーク1060へのアクセスを管理する(データセットは、ハードドライブ1030などのローカルメモリ、及び/又はクラウドなどの遠隔メモリに実際に格納され得る)。クライアントコンピュータはまた、カーソル制御デバイス、キーボードなどのようなハプティックデバイス1090を含んでもよい。カーソル制御デバイスは、ユーザーがディスプレイ1080上の任意の所望の位置にカーソルを選択的に配置できるよう、クライアントコンピュータで使用される。さらに、カーソル制御デバイスにより、ユーザーはさまざまなコマンドを選択し、制御信号を入力することが可能となる。カーソル制御デバイスは、システムに制御信号を入力するための複数の信号生成装置を含む。通常、カーソル制御デバイスはマウスであってもよく、マウスのボタンは信号を生成するために使用される。代替的又は追加的に、クライアントコンピュータシステムは、感圧パッド、及び/又は感圧スクリーンを含んでもよい。
【0034】
コンピュータプログラムは、コンピュータによって実行可能な命令を含んでもよく、命令は、上記のシステムに本方法を実行させるための手段を含む。プログラムは、システムのメモリを含む任意のデータ記憶媒体に記録可能であってよい。プログラムは、例えば、デジタル電子回路、又はコンピュータハードウェア、ファームウェア、ソフトウェア、又はそれらの組み合わせに実装されてもよい。プログラムは、例えば、プログラム可能なプロセッサによる実行のために機械可読記憶装置に有形に具体化された製品などの装置として実装されてもよい。本方法のステップは、入力データについて動作し出力を生成して本方法の機能を実行するように命令のプログラムを実行する、プログラム可能なプロセッサによって実行されてもよい。したがって、プロセッサは、プデータ記憶システム、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスからデータ及び命令を受信し、これらにデータ及び命令を送信するように、ログラム可能であるか又は結合されてもよい。適用プログラムは、必要に応じて、高レベルの手続き型プログラミング言語又はオブジェクト指向プログラミング言語、あるいは、アセンブリ言語又は機械語で実施されてもよい。いずれの場合も、言語はコンパイル型又はインタプリタ型言語であってもよい。プログラムは、フルインストールプログラム又は更新プログラムであってもよい。いずれにせよ、システム上でのプログラムの適用は、本方法を実行するための命令をもたらす。
【0035】
上記の通りトレーニングされたニューラルネットワークは、遺伝子発現プロファイルを予測するように構成される。つまり、トレーニング済みニューラルネットワークは、遺伝子発現プロファイルを入力として受け取り、遺伝子発現プロファイルを出力として与えるように構成される。
【0036】
【0037】
S10では、潜在的調節マトリックスが取得される。潜在的調節マトリックスは、参照ゲノムの配列の遺伝子セットの遺伝子間の潜在的調節を説明する。当該参照ゲノムは、任意のゲノムであってよく、例えば、参照ゲノムはヒトゲノムである。参照ゲノムの配列は、参照ゲノムの全部又は一部が当該マトリックスの潜在的調節によって支持されることを意味する。したがって、当該参照ゲノムの配列は遺伝子セットを含み、潜在的調節マトリックスは、当該遺伝子セットの遺伝子に関係する。
【0038】
潜在的調節マトリックスは、調節遺伝子と被調節遺伝子との間の接続(関連性)を説明する。調節遺伝子は、上記遺伝子セットのうちの1つ以上の別の遺伝子の発現の制御に関与する遺伝子である。(当該遺伝子セットのうちの)被調節遺伝子は、その発現が1つ以上の被調節遺伝子によって制御される遺伝子である。
【0039】
遺伝子発現は、遺伝子からの情報を用いて、遺伝子が最終産物、タンパク質又はノンコーディングRNAを生成できるようにする機能的な遺伝子産物を合成するプロセスであり、遺伝子発現は、最終的な効果として、最終的には表現型に影響を与える。遺伝子発現は、生物学において周知のプロセスであり、本開示では論じない。
【0040】
例示目的で、真核生物細胞における遺伝子発現の原理を
図3に示す。ある遺伝子のDNA配列が転写されてmRNA分子が作成され、次に当該mRNA分子が最終産物(
図3のタンパク質)へと翻訳される。転写は核内で3種類のmRNAポリメラーゼによって行われ、各ポリメラーゼは、プロセスを開始するために、プロモーターと呼ばれる特別なDNA配列と、一連のDNA結合タンパク質(転写因子)を必要とする(以下の転写の調節を参照)。転写因子は、遺伝子を調節するタンパク質である。ヒトゲノムには約700個の異なる転写因子があり、遺伝子の近く(10,000bpフレーム内)に結合して当該遺伝子を調節する。各転写には、好ましい結合DNA「モチーフ」がある。パズルのピースのように、モチーフによって結合したりしなかったりする。遺伝子には、異なる転写因子のための転写因子結合部位(TFBS)が複数隣接していることが多く、これらの各遺伝子の効率的な発現には、複数の異なる転写因子の協調作用が必要である。
【0041】
調節遺伝子は、少なくとも1つの被調節遺伝子を調節する少なくとも1つの転写因子(TF)をコードする。調節遺伝子と被調節遺伝子との間の接続は、調節遺伝子による被調節遺伝子の少なくとも1つの観察される調節を表す。したがって、接続は、調節遺伝子によってコードされ、1つ以上の遺伝子を調節する転写因子(TF)を表す。遺伝子は少なくとも1つの調節遺伝子によって調節されること、及び、調節遺伝子は1つ以上の被調節遺伝子を調節し得ることが理解される。
【0042】
調節遺伝子と被調節遺伝子との間の接続の観察は、上記した参照ゲノムの配列の遺伝子セットの遺伝子が関与する観察される生物学的プロセスの少なくとも1つの時系列で行われる。生物学的プロセスは、生物が生きるために不可欠なプロセスである。生物学的プロセスは、多くの化学反応で構成され、遺伝子発現を伴う。例えば、細胞老化プロセスは生物学的プロセスである。本発明は、少なくとも1つの遺伝子発現を含む任意の生物学的プロセスに使用できることが理解される。
【0043】
遺伝子産物をコードする遺伝子は、一般的に、生物学的プロセスの過程で協調的に調節される。したがって、遺伝子の役割と遺伝子発現は、生物学的プロセスの時間経過を通じて進化する。よって、生物学的プロセスは、1つ以上の時系列全体を通して(実験的に)観察される。時系列は同じ長さである場合もあれば、そうでない場合もある。
【0044】
上記のように、遺伝子の発現レベルは、観察される生物学的プロセスの以前の時点での当該遺伝子の発現に依存し、また、遺伝子の発現レベルは転写因子(TF)にも依存する。したがって、遺伝子の発現レベルは、以前の時点での転写因子(TF)結合に依存し、S10で取得される潜在的調節マトリックスは、観察される生物学的プロセスの少なくとも1つの時点における遺伝子の発現レベルを表す。
【0045】
潜在的調節マトリックス(データセット)が取得される(S10)。当該マトリックスを取得するということは、当該潜在的調節マトリックスが、上記したニューラルネットワークをトレーニングする方法に提供(既に構築済み)及び使用されるデータセットであることを意味する。あるいは、潜在的調節マトリックスは、本方法によって構築され、使用される。つまり、ニューラルネットワークをトレーニングするために取得されるデータセットは、オンライン(つまり、トレーニングの過程)又はオフライン(つまり、トレーニング前の段階)で構築され得る。
【0046】
取得する(S10)例について説明する。これらの例は、オンラインモード又はオフラインモードに関係なく適用できる。これらの例では、参照ゲノムの配列の各遺伝子について、1つ以上の転写因子結合部位の特定が行われる。1つ以上の転写因子結合部位に結合したそれぞれの転写因子も特定される。
図3を参照して説明した通り、遺伝子には、異なる転写因子のための転写因子結合部位(TFBS)が複数隣接している。したがって、TBFSの特定により、TBFSに潜在的に結合する1つ以上のTFの特定が可能になる。
【0047】
いくつかの例では、TBFS及びそのTFは、上記した参照ゲノムの配列の遺伝子セットのクロマチンアクセシビリティデータを分析することによって特定されてよい。クロマチンは、真核細胞に見られるDNAとタンパク質の複合体である。クロマチンの主な機能は、長いDNA分子を、細胞核に入るコンパクトで高密度の構造に収納することである。クロマチン構造の変化は、DNA複製と遺伝子発現に関連する。
【0048】
一例では、TBFS及びそのTFの特定のためのクロマチンアクセシビリティデータ分析は、以下の3つのステップ、すなわち(i)ピークコールの実行、(ii)フットプリントの取得、及び(iii)モチーフマッチを実行することによって行われてよい。これら3つのステップにより、
図3を参照して説明した現象、つまり、転写因子がDNAに結合して転写を調節し、最終的に遺伝子発現を調節する現象を検出することが可能になる。次のステップ(i)、(ii)、及び(iii)は、クロマチンアクセシビリティデータ(DNAse-seq又はATAC-seqなど)から情報を抽出して、研究対象の生物学的プロセスにおいてどの遺伝子がどの別の遺伝子を調節する可能性があるかを理解するための実装の一例である。
【0049】
(i)上記参照ゲノムの配列の遺伝子セットのクロマチンアクセシビリティデータに対してピークコール操作を実行し、それによってクロマチン上のピークを特定する。
【0050】
ピークコール操作により、転写因子が結合し得るゲノム上の「大きな領域」を発見することができる。クロマチンの形状に応じて、転写因子は結合できたりできなかったりする。潜在的なTF結合は、結合部位に最も近い遺伝子をTFが調節し得ることを意味する。潜在的なTF結合の存在は遺伝子調節にとって十分条件ではなく、必要条件である。クロマチンアクセシビリティデータは、TFが近づいて結合するのに十分に開いた大きな領域の情報を提供する。クロマチンアクセシビリティデータ解析(ピークコール)は、アクセス可能なクロマチンがピークとして見えるシグナル解析の一種である。このように、ピークコール操作によるクロマチン上のピークの特定により、クロマチンからTBFSを抽出することが可能になる。
【0051】
ピークコールは、任意の既知のソリューションで実行されてよく、例えば、Homerと呼ばれるツールを使用してもよいが、これに限定されない。Homerは、http://homer.ucsd.edu/homer/ngs/peaks.htmlで開示及び記述されるように、モチーフの発見及び配列分析のためのソフトウェアツールである。
【0052】
(ii)上記(i)で特定された各ピークごとに1つ以上のくぼみを特定し、それによって、上記参照ゲノムの配列の遺伝子セットのクロマチンアクセシビリティデータ上に過去に存在した転写因子のフットプリントを取得する。フットプリントの取得は、(ピークコール操作で発見した)大きな領域内に任意の転写因子(TF)が結合できた小さな領域を探すことを目的とする。ピークを拡大すると、その中には、転写因子のフットプリントを示すくぼみがいくつか存在する。各くぼみは、研究対象の生物学的プロセスの観察の瞬間に転写因子が確実に(潜在的に)当該くぼみに結合していたことを示すが、存在の確認だけではどのTFが結合したという情報は得られない。
【0053】
このフットプリント取得のステップは、任意の既知のソリューションで実行でき、例えば、限定はされないがRGT(Regulatory Genomics Toolbox)と呼ばれるツールが挙げられる。RGTは、https://www.regulatory-genomics.org/hint/introduction/で説明及び議論されている通り、調節ゲノミクスを分析するためのソフトウェアツールである。
【0054】
(iii)次に、モチーフマッチを行う。取得したフットプリントを、既知の転写因子のモチーフと比較する。比較の結果、各フットプリントに結合した転写因子を特定する。モチーフマッチのステップにより、好ましいゲノム配列結合モチーフを発見し、(ii)で特定した小さな領域にどのTFが結合したかを発見することが可能になる。これは、TFが、ある程度特有のゲノム配列に結合するという事実に基づいており、当該ある程度特有のゲノム配列はモチーフと呼ばれる。フットプリントのゲノム配列を既知の転写因子全てのモチーフと比較すると、どの転写因子がモチーフに結合する可能性が最も高いかがわかる。
【0055】
モチーフは既知であり(例えば、いくつかの生物学的プロセスで観察される)、公開データベースでアクセスできる。例えば、JASPAR(http://jaspar.genereg.net/でアクセス可能)と呼ばれる公開データベースを使用してよい。
【0056】
ステップ(i)、(ii)及び(iii)の結果として、参照ゲノムの配列の遺伝子セットの遺伝子が関与する観察される生物学的プロセスのゲノムのマップが、潜在的に結合する転写因子すべての位置及び名前と一緒に得られる。
【0057】
図4には、転写因子結合モチーフの3つの例が示されている。文字の大きさは、その結合位置での好ましいヌクレオチドの確率を示す。
【0058】
取得する(S10)例に戻ると、TBFSに潜在的に結合できる1つ以上のTFが特定された後、当該1つ以上のTFによってそれぞれ潜在的に調節される1つ以上の遺伝子が特定される。
【0059】
いくつかの例では、当該1つ以上の転写因子によってそれぞれ潜在的に調節される1つ以上の遺伝子の特定は、参照ゲノムの配列の遺伝子セットの遺伝子の遺伝子位置マップに基づいてよい。遺伝子の位置マップは、公開マップのライブラリから取得してよい。例えば、ヒトゲノムの遺伝子の位置のマップは、ヒトゲノム計画によって解析されている。ヒトゲノム計画は、2003年に完了した国際的な研究活動であり、各ヒト染色体の塩基対配列が同定された。この配列情報により、染色体位置よりも具体的な多くの遺伝子の所在地が特定できる。遺伝子の分子上での所在地は、その遺伝子の位置を塩基対で正確に示し、染色体上の遺伝子の正確な位置及びその遺伝子の大きさを示す。分子上の位置を知ることで、遺伝子が同染色体上の他の遺伝子からどれだけ離れているかを正確に判断することもできる。参照ゲノムの配列の遺伝子セットの遺伝子の遺伝子位置マップから、特定された結合転写因子周囲の所定数の塩基対のフレーム内に1つ以上の遺伝子が存在するかどうかを決定する。結合した転写因子は、ゲノム上のすべての遺伝子を調節するわけではなく、通常は、所定数の塩基対のフレーム内にある遺伝子を調節する。
【0060】
一例では、塩基対の所定数は、15,000未満、すなわち、0から15,000の間に含まれてよい。
【0061】
別の例では、塩基対の所定数は、10,000未満、すなわち、0から10,000の間に含まれてもよい。
【0062】
特定された結合転写因子周囲の所定数の塩基対のフレーム内に遺伝子が1つ以上存在する場合、当該転写因子は当該遺伝子を潜在的に調節するものとしてと見なされる。したがって、特定された結合転写因子周囲の所定数の塩基対のフレーム内に存在する当該1つ以上の遺伝子は潜在的被調節遺伝子として特定される。これは潜在的調節であり、ネットワークのトレーニング(以下で説明)は、当該潜在的調節が実際に起こる調節であるかどうかを選択するのに役立つ。
【0063】
このように、特定した各転写因子ごとに当該転写因子が調節する遺伝子のリストを含む調節マトリックスが得られる。
【0064】
転写因子は、DNAの3D構造に応じて、所定の塩基対を超えて調節することもあり得る。この可能性は、こういった空間情報も捉える参照ゲノムの配列の遺伝子セットの遺伝子の遺伝子位置マップに含まれていてよい。
【0065】
いくつかの例では、参照ゲノムの配列の遺伝子セットの遺伝子間の潜在的調節マトリックスは、複数の時系列で観察される生物学的プロセスについて取得されてよい。生物学的プロセスは、(場合により異なる条件下での)複数の実験を通じて研究され、実験ごとに実験測定が実行される。このような例では、観察される生物学的プロセスの各時系列ごとに潜在的調節マトリックスを取得し、よって潜在的調節マトリックスのセットが取得される。次に、(時系列ごとに取得された)複数の潜在的調節マトリックスを統合し、単一の潜在的調節マトリックスを取得する。統合は、潜在的調節マトリックスのセット内の全ての情報が、得られた単一の潜在的調節マトリックスで利用可能であるように実行されてよい。
【0066】
いくつかの例では、上記統合は、上記単一の潜在的調節マトリックスにおける観察数が上記潜在的調節のマトリックスのセットにおける観察数と等しい一対一統合(one-to-one merge)によって実行されてよい。
【0067】
特定された結合転写因子ごとに潜在的被調節遺伝子を1つ以上特定した後、当該結合転写因子をコードする潜在的調節遺伝子を特定する。これにより、転写因子と被調節遺伝子だけでなく、調節遺伝子と被調節遺伝子間に繋がりを作成できる。
【0068】
いくつかの例では、1つ以上の潜在的調節遺伝子の特定は、文献から既知の情報を使用して行ってよく、例えば、タンパク質をコードする調節遺伝子が知られている。
【0069】
いくつかの例では、1つ以上の潜在的調節遺伝子の特定は、転写因子を、当該転写因子をコードする遺伝子とみなして行ってもよい。転写因子はタンパク質であり、つまり、転写され、タンパク質に翻訳される遺伝子が存在することを意味し、タンパク質はしばしば転写因子と同じ名前を持つ。
【0070】
このように、各転写因子に関して、当該転写因子をコードする遺伝子と、当該転写因子に調節されるすべての遺伝子が特定される。次のステップは、潜在的調節マトリックスを取得するために、調節遺伝子と1つ以上の被調節遺伝子を接続させる(関連付ける)ことである。「接続させる」とは、調節遺伝子、転写因子、被調節遺伝子の対応表が構築されることを意味する。
【0071】
一例では、観察される生物学的プロセスの各時系列について記述されるそれぞれの接続は、観察される生物学的プロセスの時系列のうちの1つの時系列について記述される接続と同等である。よって、接続が一切失われていないことを保証する。したがって、調節マップは、観察される生物学的プロセスのどこかの時点で潜在的調節が観察されたことを意味する。
【0072】
図5は、潜在的調節マトリックスの根柢にある原理を示す概略図である。転写因子(TF1と表記)をコードする各遺伝子について、TF1の標的遺伝子が知られている。
【0073】
マトリックスは、上記参照ゲノムの配列の遺伝子セットの遺伝子が関与する、観察される生物学的プロセスの少なくとも1つの時系列における実験データから構築される。例えば、観察される調節は、(S10で)取得されるマトリックスを構築するのに使用される実験データのセット内で観察される。
【0074】
図1を再度参照すると、S10後、ニューラルネットワークが提供(取得)される(S20)。ニューラルネットワークは、ノードの入力層とノードの出力層を有する。当該入力層及び当該出力層は、上記した参照ゲノムの配列の遺伝子セットの各遺伝子を表す同等ノードを有する。つまり、入力層のノード数と出力層のノード数は等しい。入力層の各ノードは調節遺伝子を表し、出力層の各ノードは被調節遺伝子を表す。2層のネットワーク構造が得られる。ネットワーク構造は、任意の既知のニューラルネットワークに基づいてよい。
【0075】
次に、S30で、ニューラルネットワークに接続が追加される。接続は、入力層のノードを出力層の1つ以上のノードに接続する。追加される接続は、上記で取得した潜在的調節マトリックスから抽出される。したがって、調節マップの各対について、調節遺伝子を表す層1のノードから被調節遺伝子を表す層2のノードに繋がりが形成される。したがって、結果として得られるネットワークは、潜在的調節マトリックスのすべての接続を再現する。したがって、ニューラルネットワークの各層のノード数は、遺伝子セットの遺伝子数に依存する。例えば、200個の遺伝子の発現を測定する場合、ニューラルネットワークは、情報の損失なく、各層に同数の200個のノードを持つ。全遺伝子の発現を測定すると、取得されるニューラルネットワークは全遺伝子を考慮する。調節/非調節のバイナリ情報は、ネットワークの2つのノード(同じ層に属さないノード)間の繋がりとして記述される。
【0076】
図6は、S20及びS30の結果として得られるネットワーク構造を説明する。
【0077】
次に、(S30実行後に取得した)ニューラルネットワークがトレーニングされる(S40)。トレーニングのステップは、ニューラルネットワークの接続の重み及び/又はバイアスを変化させることで構成される。ニューラルネットワークのトレーニングは、(トレーニング)データセットと一致する値を出力するように接続の重みを強制してよい。S30後に取得したニューラルネットワークは、重みがない接続又は重みが等しい接続を有してよく、ここで、(トレーニング)データセットは、観察される生物学的プロセスの遺伝子発現プロファイルの時系列をそれぞれ含むトレーニングサンプル/例を提供する。(トレーニング)データセットは、観察される生物学的プロセスの遺伝子発現プロファイルの最終結果若しくは中間結果、又はそのような観察される生物学的プロセスの後処理を含むか、又はこれらから構成されてよい。例えば、(トレーニング)データセットは、参照遺伝子のリスト及び各遺伝子に関連するそれぞれの発現レベルなどの遺伝子発現データを示して(すなわち、直接的又は間接的に表して)よく、当該発現レベルは、例えば、マッピングされたリード数100万ごと及び1000塩基長の転写産物ごとのフラグメント(Fragments Per Kilobase of transcript per Million mapped reads、又はFPKM)で表される。(トレーニング)データセットは、テキストデータ及び/又はそのようなテキストデータから導出される数値データ(すなわち、数値及び/又は数値のベクトル)形式であってよい。(トレーニング)データセットは、観察される生物学的プロセスの1つ以上の時系列を含む、又は、観察される生物学的プロセスの1つ以上の時系列から構成されてよく、各時系列は、他の時系列から独立していると見なされる。
【0078】
したがって、ニューラルネットワークのトレーニングは、トレーニング済みネットワークの出力が(トレーニング)データセットの出力に収束するように、接続の重みを調整することによってネットワークの構造を改良することのみを目的とする。したがって、トレーニング済みニューラルネットワークの各接続は重み付けされる。スパースネットワークのトレーニングは、全結合ではない点を除けば、従来のニューラルネットワークのトレーニングと類似している。
【0079】
潜在的被調節遺伝子を見つけた時点では、潜在的調節が上向き調節なのか下向き調節なのかを知ることはできない。生物学的プロセスにおいて、下向き調節は、細胞が外部刺激に反応してRNAやタンパク質などの細胞成分の量を減少させるプロセスである。当該成分の増加を伴う補完的プロセスは、上向き調節と呼ばれる。ネットワークトレーニングは、モデル研究(観察される生物学的プロセス)を通じてその情報を提供する。ノード間の繋がりの重みでは、正の重みは上向き調節を意味し、負の重みは下向き調節を意味し、0に「近い」重みは調節ではない、とみなされる。
【0080】
次に、S50では、重み付けされた接続が有意でない重み値を有する場合、当該接続をトレーニング済みニューラルネットワークから除去する。別の言い方をすれば、調節ではなかった潜在的調節が除去される。当該除去はトレーニング後に行ってもよいし、トレーニング中に行ってもよい。トレーニング後に実行する場合、アルゴリズムによって学習したネットワークの全接続が解析され、重みが低い接続が除去される。ここで、低いとは、実験誤差範囲内である遺伝子発現の変化として定義される。ノイズを追加して不正確なモデルをもたらす繋がりを除去するために、有意な繋がりのみが選択される。
【0081】
いくつかの例では、トレーニング済みニューラルネットワークの接続の除去は、所定の調節遺伝子から開始する接続に関連する所定の重み値に基づいて実行される。所定の値は、所定の調節遺伝子から始まる1つ以上(すべて)の接続について同じであってよい。
【0082】
いくつかの例では、トレーニング済みニューラルネットワークの接続を除去することは、当該トレーニング済みニューラルネットワークの各接続の有意性の評価を実行することを含んでよい。有意性の評価は、被調節遺伝子発現の変化が実験誤差範囲内であることを表す非有意の閾値を取得することを含んでよい。「実験誤差」とは、ある量の測定値又は推定値とその真の値との差を指し、すべての測定に固有のものである。したがって、実験誤差は、例えば、潜在的調節遺伝子が、観察される生物学的プロセスの時系列に関与していない場合に発生する可能性がある。トレーニング済みニューラルネットワークの接続の重み値が、トレーニング後に算出された非有意の閾値よりも小さい場合、対応する被調節遺伝子への接続が除去される。各調節遺伝子の実験誤差は既知であり(例えば、品質スコアが各遺伝子発現に割り当てられ、品質スコアが高いほど実験誤差も低くなる)、予測に対する重みの影響を算出できる。その影響が実験誤差よりも小さい場合、接続は除去される。
【0083】
トレーニング後、ノード間の繋がり(接続)の各重みが予測され、繋がりの重みが実験誤差の範囲内であると考えられ得る調節を示している場合、その調節遺伝子と被調節遺伝子間の繋がりは除去される。当該プロセスS50の終わりに、繋がりの数が減少した新しい構造が得られる(実験誤差範囲内と考えられる調節を示す重み値が一切ない場合を除く)。
【0084】
再度
図2を参照して、本方法の実施の一例を説明する。本実施例は、上記で議論及び説明した方法の複数の例を組み合わせたものである。
【0085】
本実施例では、クロマチンアクセシビリティ、転写因子結合モチーフ、遺伝子位置マップ、遺伝子発現プロファイルのセット(遺伝子発現プロファイルの時系列であるセット)及び参照ゲノムの配列に関するデータが入力として提供される。
【0086】
A、B、Cと記されたステップの目的は、クロマチンアクセシビリティデータ(DNAse-seq又はATAC-seqなど)から情報を抽出し、研究対象の生物学的プロセスにおいてどの遺伝子がどの別の遺伝子を調節し得るかを理解することである。
【0087】
ステップAでは、転写因子結合部位を探す。
図3に示すように、TFはDNAに結合して転写を調節し、最終的に遺伝子発現を調節する。転写因子がどこに結合するかを探すために、ピークコール、フットプリント、及びモチーフマッチを実行する3つの外部ソフトウェアツールが使用される。これは前述した通りに実行され、ステップAの出力は、観察される生物学的プロセスに関与するゲノムマップとして見なされ得るTF結合部位のリストに、潜在的に結合した全転写因子の位置と名前が付随したものである。
【0088】
ステップBは、どの転写因子がどの遺伝子を調節し得るかを理解することを目的とする。これは、上記ステップの出力と遺伝子位置マップを使用して実行される。Bの出力は、発見された各TF結合部位ごとの潜在的被調節遺伝子のリストである。
【0089】
ステップCは、ステップBの潜在的被調節遺伝子のリストと遺伝子位置マップを入力として使用して、潜在的調節遺伝子を見つける。Cの出力は、潜在的調節遺伝子のリストである。
ステップDでは、ステップBとステップCの情報が、
図5に示されるように結合される。Dの出力は、いわゆる潜在的調節マトリックスである。
【0090】
ステップEで、調節マップの各対について、調節遺伝子を表す層1のノードから被調節遺伝子を表す層2のノードへ繋がりが形成されることにより2層ネットワーク構造が形成され、
図6はステップEの結果を示す。
【0091】
最後に、ステップFで、ステップEの出力で提供される2層ネットワーク構造が、従来のニューラルネットワークトレーニングを使用してトレーニングされる。ノイズを追加して不正確なモデルをもたらす繋がりを除去するために、有意な繋がりのみが選択される。
【0092】
さらにステップFでは、上記トレーニング済みモデルの入力に遺伝子発現を提供して将来の遺伝子発現を予測するために、上記の通り、繋がりの数が減少したトレーニング済みニューラルネットワーク用いて、将来の遺伝子発現も予測する。本発明の例に従ってトレーニングされたモデルは、遺伝子発現プロファイルを予測するために使用することができる。参照ゲノムの配列の遺伝子セットの遺伝子が関与する観察される生物学的プロセスのある時系列の遺伝子発現を含む入力データが提供される。提供された入力は、トレーニング済みニューラルネットワークに入力データとして適用され、将来の遺伝子発現が予測され、これは、当技術分野で公知の通りに実行される。
【0093】
トレーニング済みモデルは、さらなる用途のために再度トレーニングしてよい。第1の例では、1つ以上の遺伝子の発現が減少(又は増加)した場合に何が生じるかを理解するために、生物学者はしばしば「ノックダウン」と呼ばれる実験を行う。これは非常に費用のかかる実験であり、生物学者は実験を行う遺伝子を慎重に選択する。本発明は、イン・シリコでそういった実験を行うことを可能にする。その実施のために、1つ以上の遺伝子修飾が何をもたらすのかを調べ、それらの遺伝子発現を変化させたい遺伝子発現プロファイルを、アルゴリズムに入力する。例えば、ある遺伝子の発現を元の値の130%に変更し(過剰発現を意味する)、別の遺伝子発現を元の値の30%に変更(抑制)してよい。変更した遺伝子発現プロファイルは学習済みモデルへの入力として与えられ、予測により、当該変更を考慮した将来の遺伝子発現プロファイルをシミュレーションする。
【0094】
第2の例では、ノード間の接続の重みの分析により、ある遺伝子の別の遺伝子に対する作用(例えば、遺伝子を上向き又は下向き調節するのか、又は一切調節しないか)についての洞察を得ることができる。
【配列表】
【手続補正書】
【提出日】2023-03-30
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
遺伝子発現プロファイルを予測するためにニューラルネットワークをトレーニングするためのコンピュータ実装方法であって、
-参照ゲノムの配列の遺伝子セットの遺伝子間の潜在的調節マトリックスを取得すること(S10)であって、前記潜在的調節マトリックスは調節遺伝子と被調節遺伝子との間の接続を記述し、調節遺伝子は少なくとも1つの被調節遺伝子を調節する少なくとも1つの転写因子をコードし、接続は、前記参照ゲノムの配列の遺伝子セットの遺伝子が関与する観察される生物学的プロセスの少なくとも1つの時系列における、前記調節遺伝子による前記被調節遺伝子の少なくとも1つの観察される調節を表す、前記潜在的調節マトリックスを取得すること(S10)、
-ノードの入力層とノードの出力層を有するニューラルネットワークを取得すること(S20)であって、前記入力層及び前記出力層は、前記参照ゲノムの配列の遺伝子セットの各遺伝子を表す同等ノードを有し、前記入力層の各ノードは調節遺伝子を表し、前記出力層の各ノードは被調節遺伝子を表す、前記ニューラルネットワークを取得すること(S20)、
-前記ニューラルネットワークに、前記入力層のノードから前記出力層のノードへの接続を追加すること(S30)であって、追加される前記接続は、取得した前記潜在的調節マトリックスから抽出される、前記追加すること(S30)、
-前記観察される生物学的プロセスの遺伝子発現プロファイルのセットを使用してニューラルネットワークをトレーニングすること(S40)であって、トレーニングされた前記ニューラルネットワークの各接続は重み付けされる、前記トレーニングすること(S40)、及び
-有意でない重み値を有する接続を前記トレーニングされたニューラルネットワークから除去すること(S50)、
を含む、前記コンピュータ実装方法。
【請求項2】
前記有意でない重み値を有する接続を前記トレーニングされたニューラルネットワークから除去することは、前記トレーニングされたニューラルネットワークの各接続ごとに、
-被調節遺伝子発現の変化が実験誤差範囲内であることを表す非有意の閾値を取得すること、
-前記重み値が前記非有意の閾値よりも小さい場合、被調節遺伝子への接続を除去すること、
を実行すること含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
取得した前記参照ゲノムの配列の遺伝子セットの遺伝子間の潜在的調節マトリックスが、
-前記参照ゲノムの配列の遺伝子セットの各遺伝子ごとに、1つ以上の転写因子結合部位及び前記1つ以上の転写因子結合部位に結合したそれぞれの転写因子を特定すること、
-特定された各結合転写因子ごとに、
-1つ以上の潜在的被調節遺伝子を特定すること、
-前記結合転写因子をコードする潜在的調節遺伝子を特定すること、及び、
-前記調節遺伝子と前記1つ以上の被調節遺伝子を接続させること、
によって算出されている、請求項1に記載のコンピュータ実装方法。
【請求項4】
前記1つ以上の潜在的被調節遺伝子を特定することが、
-前記参照ゲノムの配列の遺伝子セットの遺伝子の遺伝子位置マップから、特定された前記結合転写因子周囲の所定数の塩基対のフレーム内に1つ以上の遺伝子が存在するかどうかを決定すること、及び
-前記特定された結合転写因子周囲の所定数の塩基対のフレーム内に存在する前記1つ以上の遺伝子を潜在的被調節遺伝子として特定すること、
を含む、請求項3に記載のコンピュータ実装方法。
【請求項5】
前記所定数の塩基対が15,000未満である、請求項4に記載のコンピュータ実装方法。
【請求項6】
前記所定数の塩基対が10,000未満である、請求項4に記載のコンピュータ実装方法。
【請求項7】
前記参照ゲノムの配列の遺伝子セットの各遺伝子ごとに、1つ以上の転写因子結合部位を特定することが、
-前記参照ゲノムの配列の遺伝子セットのクロマチンアクセシビリティデータに対してピークコール操作を実行し、それによってピークを特定すること、
-特定された各ピークごとに1つ以上のくぼみを特定し、それによって、前記参照ゲノムの配列の遺伝子セットの前記クロマチンアクセシビリティデータ上に過去に存在した転写因子のフットプリントを取得すること、
-取得した前記フットプリントを既知の転写因子のモチーフと比較すること、及び
-比較の結果、どの転写因子が各フットプリントに結合したかを特定すること、
を含む、請求項3に記載のコンピュータ実装方法。
【請求項8】
取得した前記参照ゲノムの配列の遺伝子セットの遺伝子間の前記潜在的調節マトリックスが、
-前記観察される生物学的プロセスの各時系列ごとに潜在的調節マトリックスを取得し、それによって潜在的調節マトリックスのセットを取得すること、及び
-前記潜在的調節マトリックスのセットの潜在的調節マトリックスを統合すること、
によって算出されているマトリックスである、請求項3に記載のコンピュータ実装方法。
【請求項9】
前記観察される生物学的プロセスの各時系列について記述される接続が、前記観察される生物学的プロセスの時系列のうちの1つの時系列について記述される接続と同等である、請求項8に記載のコンピュータ実装方法。
【請求項10】
請求項1から9のいずれか一項に従ってトレーニングされた遺伝子発現プロファイルを予測するためのニューラルネットワークを使用するコンピュータ実装方法であって、
-前記参照ゲノムの配列の遺伝子セットの遺伝子が関与する前記観察される生物学的プロセスのある時系列の遺伝子発現を含む入力データを提供すること、
-前記トレーニングされたニューラルネットワークを前記入力データに適用し、将来の遺伝子発現を予測すること、を含む、前記コンピュータ実装方法。
【請求項11】
請求項1から9のいずれか一項に従って潜在的調節マトリックスを取得するためのコンピュータ実装方法。
【請求項12】
請求項1から9のいずれか一項に記載のコンピュータ実装方法を実行するための命令を含むコンピュータプログラム。
【請求項13】
請求項12に記載のコンピュータプログラムを記録したコンピュータ可読記憶媒体。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0038
【補正方法】変更
【補正の内容】
【0038】
潜在的調節マトリックスは、調節遺伝子と被調節遺伝子との間の接続(関連性)を説明する。調節遺伝子は、上記遺伝子セットのうちの1つ以上の別の遺伝子の発現の制御に関与する遺伝子である。(当該遺伝子セットのうちの)被調節遺伝子は、その発現が1つ以上の調節遺伝子によって制御される遺伝子である。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0046
【補正方法】変更
【補正の内容】
【0046】
取得する(S10)例について説明する。これらの例は、オンラインモード又はオフラインモードに関係なく適用できる。これらの例では、参照ゲノムの配列の各遺伝子について、1つ以上の転写因子結合部位の特定が行われる。1つ以上の転写因子結合部位に結合したそれぞれの転写因子も特定される。
図3を参照して説明した通り、遺伝子には、異なる転写因子のための転写因子結合部位(TFBS)が複数隣接している。したがって、
TFBSの特定により、
TFBSに潜在的に結合する1つ以上のTFの特定が可能になる。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0047
【補正方法】変更
【補正の内容】
【0047】
いくつかの例では、TFBS及びそのTFは、上記した参照ゲノムの配列の遺伝子セットのクロマチンアクセシビリティデータを分析することによって特定されてよい。クロマチンは、真核細胞に見られるDNAとタンパク質の複合体である。クロマチンの主な機能は、長いDNA分子を、細胞核に入るコンパクトで高密度の構造に収納することである。クロマチン構造の変化は、DNA複製と遺伝子発現に関連する。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0048
【補正方法】変更
【補正の内容】
【0048】
一例では、
TFBS及びそのTFの特定のためのクロマチンアクセシビリティデータ分析は、以下の3つのステップ、すなわち(i)ピークコールの実行、(ii)フットプリントの取得、及び(iii)モチーフマッチを実行することによって行われてよい。これら3つのステップにより、
図3を参照して説明した現象、つまり、転写因子がDNAに結合して転写を調節し、最終的に遺伝子発現を調節する現象を検出することが可能になる。次のステップ(i)、(ii)、及び(iii)は、クロマチンアクセシビリティデータ(DNAse-seq又はATAC-seqなど)から情報を抽出して、研究対象の生物学的プロセスにおいてどの遺伝子がどの別の遺伝子を調節する可能性があるかを理解するための実装の一例である。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0050
【補正方法】変更
【補正の内容】
【0050】
ピークコール操作により、転写因子が結合し得るゲノム上の「大きな領域」を発見することができる。クロマチンの形状に応じて、転写因子は結合できたりできなかったりする。潜在的なTF結合は、結合部位に最も近い遺伝子をTFが調節し得ることを意味する。潜在的なTF結合の存在は遺伝子調節にとって十分条件ではなく、必要条件である。クロマチンアクセシビリティデータは、TFが近づいて結合するのに十分に開いた大きな領域の情報を提供する。クロマチンアクセシビリティデータ解析(ピークコール)は、アクセス可能なクロマチンがピークとして見えるシグナル解析の一種である。このように、ピークコール操作によるクロマチン上のピークの特定により、クロマチンからTFBSを抽出することが可能になる。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0058
【補正方法】変更
【補正の内容】
【0058】
取得する(S10)例に戻ると、TFBSに潜在的に結合できる1つ以上のTFが特定された後、当該1つ以上のTFによってそれぞれ潜在的に調節される1つ以上の遺伝子が特定される。
【外国語明細書】