特許7684287 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ リジェネロン・ファーマシューティカルズ・インコーポレイテッドの特許一覧

特許7684287単一細胞ＲＮＡ－ＳＥＱデータ処理

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5A
5B
5C
5D
6
7A
7B
7C
8A
8B
8C
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-05-19

(45)【発行日】2025-05-27

(54)【発明の名称】単一細胞ＲＮＡ－ＳＥＱデータ処理

(51)【国際特許分類】

G16B 25/10 20190101AFI20250520BHJP

【ＦＩ】

G16B25/10

【請求項の数】 25

(21)【出願番号】P 2022517965

(86)(22)【出願日】2020-09-25

(65)【公表番号】

(43)【公表日】2022-11-22

(86)【国際出願番号】 US2020052787

(87)【国際公開番号】W WO2021062198

(87)【国際公開日】2021-04-01

【審査請求日】2023-09-20

(31)【優先権主張番号】62/905,519

(32)【優先日】2019-09-25

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】597160510

【氏名又は名称】リジェネロン・ファーマシューティカルズ・インコーポレイテッド

【氏名又は名称原語表記】ＲＥＧＥＮＥＲＯＮＰＨＡＲＭＡＣＥＵＴＩＣＡＬＳ，ＩＮＣ．

(74)【代理人】

【識別番号】100105957

【弁理士】

【氏名又は名称】恩田誠

(74)【代理人】

【識別番号】100068755

【弁理士】

【氏名又は名称】恩田博宣

(74)【代理人】

【識別番号】100142907

【弁理士】

【氏名又は名称】本田淳

(74)【代理人】

【識別番号】100152489

【弁理士】

【氏名又は名称】中村美樹

(72)【発明者】

【氏名】アトワル、グリンダシン

(72)【発明者】

【氏名】リム、ウェイキアット

(72)【発明者】

【氏名】チャン、ルオユー

【審査官】田中寛人

(56)【参考文献】

【文献】米国特許出願公開第２０１８／０２５１８４９（ＵＳ，Ａ１）

【文献】Saskia FREYTAG et al.，“Systematic noise degrades gene co-expression signals but can be corrected”，BMC Bioinformatics，2015年09月24日，Vol. 16, No. 309，pp.1-17，DOI: 10.1186/s12859-015-0745-3

【文献】Goekcen ERASLAN et al.，“Single-cell RNA-seq denoising using a deep count autoencoder”，Nature Communications，2019年01月23日，Vol. 10, No. 390，pp.1-14，DOI: 10.1038/s41467-018-07931-2

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１６Ｂ５／００－９９／００

(57)【特許請求の範囲】

【請求項1】

遺伝子－遺伝子相関のためのデータ処理を改善するための方法であって、
正規化または補完のために遺伝子発現データを処理することと、
ノイズ正則化プロセスを前記正規化または補完された遺伝子発現データに適用することであって、前記ノイズ正則化プロセスが、発現マトリックス中の細胞内の遺伝子の発現値にランダムノイズを付加することを含み、前記ランダムノイズが、前記発現マトリックス中の前記細胞のすべてにわたる前記遺伝子の発現分布を決定することと、前記遺伝子の発現レベルの約０．１～約２０パーセンタイルを最大ノイズレベルと見なすこと、均一分布下で０から前記最大ノイズレベルまでの範囲の乱数を生成すること、前記発現マトリックス中の前記細胞内の前記遺伝子の前記発現値に前記乱数を付加して、ノイズ正則化発現マトリックスを取得すること、によって決定される、前記適用すること、
前記ノイズ正則化プロセスが適用された前記遺伝子発現データに対して、遺伝子－遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、を含む、方法。

【請求項2】

前記遺伝子発現データが、単一細胞遺伝子発現データである、請求項１に記載の方法。

【請求項3】

前記ランダムノイズが、
前記発現マトリックス中の前記細胞のすべてにわたる前記遺伝子の発現分布を決定することと、
前記遺伝子の発現レベルの１パーセンタイルを最大ノイズレベルと見なすことと、
均一分布下で０から前記最大ノイズレベルまでの範囲の乱数を生成することと、
前記発現マトリックス中の前記細胞内の前記遺伝子の前記発現値に前記乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される、請求項１に記載の方法。

【請求項4】

前記遺伝子－遺伝子相関計算プロセスが、細胞クラスタ内で行われる、請求項１に記載の方法。

【請求項5】

前記相関遺伝子対に関連付けられた前記遺伝子発現データにエンリッチメントを行うことをさらに含む、請求項１に記載の方法。

【請求項6】

全一意分子識別子正規化（ＮｏｒｍＵＭＩ）、正則化された負の二項回帰（ＮＢＲ）、ディープカウントオートエンコーダネットワーク（ＤＣＡ）、細胞のマルコフ親和性ベースのグラフ補完（ＭＡＧＩＣ）、または発現回復を介した単一細胞分析（ＳＡＶＥＲ）が、正規化または補完のために遺伝子発現データを処理するために使用される、請求項１または３に記載の方法。

【請求項7】

前記相関遺伝子対に基づいて遺伝子－遺伝子相関ネットワークを構築することをさらに含む、請求項１または３に記載の方法。

【請求項8】

前記遺伝子－遺伝子相関ネットワークが、細胞型特異的である、請求項７に記載の方法。

【請求項9】

分子相互作用をマッピングするために前記遺伝子－遺伝子相関ネットワークを使用すること、実験設計を導いて生物学的事象を調査すること、バイオマーカーを発見すること、比較ネットワーク分析を導くこと、薬物設計を導くこと、細胞の健康状態および疾患状態を比較することによって遺伝子－遺伝子相互作用の変化を識別すること、薬物開発を導くこと、遺伝子の転写調節を予測すること、薬物効率を改善すること、または薬物耐性因子を識別することをさらに含む、請求項７に記載の方法。

【請求項10】

遺伝子－遺伝子相関のためのデータ処理のためのコンピュータ実装方法であって、
遺伝子発現データを取り出すこと、
正規化または補完のために前記遺伝子発現データを処理すること、
ノイズ正則化プロセスを前記正規化または補完された遺伝子発現データに適用することであって、前記ノイズ正則化プロセスが、発現マトリックス中の細胞内の遺伝子の発現値にランダムノイズを付加することを含み、前記ランダムノイズが、前記発現マトリックス中の前記細胞のすべてにわたる前記遺伝子の発現分布を決定することと、前記遺伝子の発現レベルの約０．１～約２０パーセンタイルを最大ノイズレベルと見なすことと、均一分布下で０から前記最大ノイズレベルまでの範囲の乱数を生成することと、前記発現マトリックス中の前記細胞内の前記遺伝子の前記発現値に前記乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される、前記適用すること、
前記ノイズ正則化プロセスが適用された前記遺伝子発現データに対して、遺伝子－遺伝子相関計算プロセスを適用して相関遺伝子対を取得し、前記相関遺伝子対に基づいて遺伝子－遺伝子相関ネットワークを構築すること、を含む、方法。

【請求項11】

前記遺伝子発現データが、単一細胞遺伝子発現データである、請求項１０に記載の方法。

【請求項12】

【請求項13】

前記遺伝子－遺伝子相関計算プロセスが、細胞クラスタ内で行われる、請求項１０に記載の方法。

【請求項14】

前記相関遺伝子対に関連付けられた前記遺伝子発現データにエンリッチメントを行うことをさらに含む、請求項１０に記載の方法。

【請求項15】

【請求項16】

前記遺伝子－遺伝子相関ネットワークが、細胞型特異的である、請求項１０に記載の方法。

【請求項17】

【請求項18】

遺伝子－遺伝子ネットワークを生成するためのシステムであって、
遺伝子発現データを記憶するように構成されたデータベースと、
命令を記憶するように構成されたメモリと、
前記メモリに結合された少なくとも１つのプロセッサであって、前記少なくとも１つのプロセッサが、
前記遺伝子発現データを取り出すことと、
正規化または補完のために前記遺伝子発現データを処理することと、
ノイズ正則化プロセスを前記正規化または補完された遺伝子発現データに適用することであって、前記ノイズ正則化プロセスが、発現マトリックス中の細胞内の遺伝子の発現値にランダムノイズを付加することを含み、前記ランダムノイズが、前記発現マトリックス中の前記細胞のすべてにわたる前記遺伝子の発現分布を決定することと、前記遺伝子の発現レベルの約０．１～約２０パーセンタイルを最大ノイズレベルと見なすことと、均一分布下で０から前記最大ノイズレベルまでの範囲の乱数を生成することと、前記発現マトリックス中の前記細胞内の前記遺伝子の前記発現値に前記乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される、前記適用することと、
前記ノイズ正則化プロセスが適用された前記遺伝子発現データに対して、遺伝子－遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、
前記相関遺伝子対に基づいて遺伝子－遺伝子相関ネットワークを構築することと、を行うための命令を実行するように構成されている、少なくとも１つのプロセッサと、
前記プロセッサに結合され、遺伝子－遺伝子相関のためのクエリを受信し、前記相関遺伝子対および前記構築された遺伝子－遺伝子相関ネットワークの結果を表示することができるユーザインターフェースと、を含む、システム。

【請求項19】

前記遺伝子発現データが、単一細胞遺伝子発現データである、請求項１８に記載のシステム。

【請求項20】

【請求項21】

前記遺伝子－遺伝子相関計算プロセスが、細胞クラスタを用いて行われる、請求項１８に記載のシステム。

【請求項22】

前記少なくとも１つのプロセッサが、前記相関遺伝子対に関連付けられた前記遺伝子発現データにエンリッチメントを行うようにさらに構成されている、請求項１８に記載のシステム。

【請求項23】

【請求項24】

前記遺伝子－遺伝子相関ネットワークが、細胞型特異的である、請求項１８に記載のシステム。

【請求項25】

前記少なくとも１つのプロセッサが、分子相互作用をマッピングするために前記遺伝子－遺伝子相関ネットワークを利用すること、実験設計を導いて生物学的事象を調査すること、バイオマーカーを発見すること、比較ネットワーク分析を導くこと、薬物設計を導くこと、細胞の健康状態および疾患状態を比較することによって遺伝子－遺伝子相互作用の変化を識別すること、薬物開発を導くこと、遺伝子の転写調節を予測すること、薬物効率を改善すること、または薬物耐性因子を識別することを行うようにさらに構成されている、請求項１８または２０に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、概して、ノイズ正則化プロセスを適用することによって、遺伝子－遺伝子相関のための遺伝子発現データを処理するための方法およびシステムに関する。

【背景技術】

【0002】

バルク細胞のマイクロアレイおよびＲＮＡシーケンシングから取得された遺伝子発現データを使用して、遺伝子ネットワークを構築するための遺伝子－遺伝子相関を推論することが実現されている（Ｂａｌｌｏｕｚｅｔａｌ．，ＧｕｉｄａｎｃｅｆｏｒＲＮＡ－ｓｅｑｃｏ－ｅｘｐｒｅｓｓｉｏｎｎｅｔｗｏｒｋｃｏｎｓｔｒｕｃｔｉｏｎａｎｄａｎａｌｙｓｉｓ：ｓａｆｅｔｙｉｎｎｕｍｂｅｒｓ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２０１５．３１（１３）：ｐ．２１２３－２１３０）。しかしながら、この発現データの分析結果は、細胞プール全体の平均遺伝子発現を測定することに限定されている。単一細胞ＲＮＡシーケンシング（ｓｃＲＮＡ－ｓｅｑ）技術の可用性により、単一細胞分解能レベルで遺伝子発現をプロファイリングすることが可能になり、これにより、表面的に均質な細胞集団内の不均質性を解剖して、バルク発現プロファイルでマスクされた隠れた遺伝子－遺伝子相関を明らかにすることが可能となっている（Ｋｏｌｏｄｚｉｅｊｃｚｙｋｅｔａｌ．，ＴｈｅＴｅｃｈｎｏｌｏｇｙａｎｄＢｉｏｌｏｇｙｏｆＳｉｎｇｌｅ－ＣｅｌｌＲＮＡＳｅｑｕｅｎｃｉｎｇ．ＭｏｌｅｃｕｌａｒＣｅｌｌ，２０１５．５８（４）：ｐ．６１０－６２０；Ｐａｐａｌｅｘｉｅｔａｌ．，Ｓｉｎｇｌｅ－ｃｅｌｌＲＮＡｓｅｑｕｅｎｃｉｎｇｔｏｅｘｐｌｏｒｅｉｍｍｕｎｅｃｅｌｌｈｅｔｅｒｏｇｅｎｅｉｔｙ．ＮａｔｕｒｅＲｅｖｉｅｗｓＩｍｍｕｎｏｌｏｇｙ，２０１８．１８（１）：ｐ．３５）。

【0003】

しかしながら、ドロップアウトイベントおよび高レベルのノイズなどの技術的な制限により、ｓｃＲＮＡ－ｓｅｑデータの処理には課題がある。低効率によって引き起こされるノイズを軽減し、ｓｃＲＮＡ－ｓｅｑデータの処理における真の発現レベルを推定するために、種々のアプローチが採用されている。ｓｃＲＮＡ－ｓｅｑデータ分析の第１のステップとして、多数のデータ前処理方法が提案されている。これらのデータ前処理方法は、偽陽性の遺伝子－遺伝子相関の導入など、遺伝子－遺伝子相関の推論およびその後の遺伝子共発現ネットワーク構築に影響を及ぼす可能性がある。

【0004】

遺伝子－遺伝子相関を推論し、さらに遺伝子ネットワークを構築するための遺伝子－遺伝子相関アーチファクトを効率的に減少させることができる、ｓｃＲＮＡ－ｓｅｑデータを処理するための方法およびシステムが必要であることが理解されよう。

【発明の概要】

【0005】

ｓｃＲＮＡ－ｓｅｑデータの可用性は、均質な細胞集団内の不均一性を解剖し、単一細胞分解能レベルでの遺伝子発現をプロファイリングすることによって、隠れた遺伝子－遺伝子相互作用を明らかにすることを可能にする。ｓｃＲＮＡ－ｓｅｑデータの処理における課題は、ドロップアウト（検出されない遺伝子発現）および高ノイズ（変動）などの技術的制限に起因し得る。ｓｃＲＮＡ－ｓｅｑデータの処理における真の発現レベルの推定のために、ノイズの緩和のためのデータの前処理方法が採用されている。しかしながら、これらのデータ前処理方法は、偽陽性の遺伝子－遺伝子相関が導入されることによって遺伝子－遺伝子相関推論に影響を及ぼす可能性がある。

【0006】

本出願は、遺伝子発現データを処理して、ノイズ正則化プロセスを適用して遺伝子－遺伝子相関アーチファクトを低減することによって、遺伝子－遺伝子相関を明らかにするための方法およびシステムを提供する。本開示はまた、遺伝子－遺伝子相関のためのデータ処理を改善するための方法を提供し、方法は、正規化または補完のために遺伝子発現データを処理することと、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することと、遺伝子－遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、を含む。いくつかの例示的な実施形態では、遺伝子発現データは、単一細胞遺伝子発現データである。いくつかの例示的な実施形態では、ノイズ正則化プロセスは、発現マトリックス中の細胞内の遺伝子の発現値にランダムノイズを付加することを含み、ランダムノイズは、遺伝子の発現レベルによって決定される。

【0007】

いくつかの例示的な実施形態では、ランダムノイズは、（１）発現マトリックス中の細胞のすべてにわたる遺伝子の発現分布を決定することと、（２）遺伝子の発現レベルの約０．１～約２０パーセンタイルを最大ノイズレベルと見なすことと、（３）均一分布下で０から最大ノイズレベルまでの範囲の乱数を生成することと、（４）発現マトリックス中の細胞内の遺伝子の発現値に乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される。

【0008】

いくつかの例示的な実施形態では、ランダムノイズは、（１）発現マトリックス中の細胞のすべてにわたる遺伝子の発現分布を決定することと、（２）遺伝子の発現レベルの１パーセンタイルを最大ノイズレベルと見なすことと、（３）均一分布下で０から最大ノイズレベルまでの範囲の乱数を生成することと、（４）発現マトリックス中の細胞内の遺伝子の発現値に乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される。

【0009】

いくつかの例示的な実施形態では、遺伝子－遺伝子相関計算プロセスは、細胞クラスタを用いて行われる。いくつかの例示的な実施形態では、全一意分子識別子正規化（ＮｏｒｍＵＭＩ）、正則化された負の二項回帰（ＮＢＲ）、ディープカウントオートエンコーダネットワーク（ＤＣＡ）、細胞のマルコフ親和性ベースのグラフ補完（ＭＡＧＩＣ）、または発現回復を介した単一細胞分析（ＳＡＶＥＲ）を、正規化または補完のために遺伝子発現データを処理するために使用する。いくつかの例示的な実施形態では、本出願の遺伝子－遺伝子相関のためのデータ処理を改善する方法は、相関遺伝子対に関連付けられた遺伝子発現データにエンリッチメントを行うこと、および／または相関遺伝子対に基づいて遺伝子－遺伝子相関ネットワークを構築することをさらに含み、遺伝子－遺伝子相関ネットワークは、細胞型特異的である。いくつかの例示的な実施形態では、本出願の方法は、分子相互作用をマッピングするために遺伝子－遺伝子相関ネットワークを使用すること、実験設計を導いて生物学的事象を調査すること、バイオマーカーを発見すること、比較ネットワーク分析を導くこと、薬物設計を導くこと、細胞の健康状態および疾患状態を比較することによって遺伝子－遺伝子相互作用の変化を識別すること、薬物開発を導くこと、遺伝子の転写調節を予測すること、薬物効率を改善すること、または薬物耐性因子を識別することをさらに含む。

【0010】

本開示は、少なくとも部分的に、遺伝子－遺伝子相関ネットワークを提供し、ネットワークは、本出願の遺伝子－遺伝子相関のためのデータ処理を改善するための方法を使用して取得される相関遺伝子対に基づいて構築され、本方法は、正規化または補完のために遺伝子発現データを処理することと、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することと、遺伝子－遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、を含む。

【0011】

本開示は、少なくとも部分的に、遺伝子－遺伝子相関のためのデータ処理のためのコンピュータ実装方法を提供し、方法は、遺伝子発現データを取り出すことと、正規化または補完のために遺伝子発現データを処理することと、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することと、遺伝子－遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、相関遺伝子対に基づいて遺伝子－遺伝子相関ネットワークを構築することと、を含み、遺伝子－遺伝子相関ネットワークは、細胞型特異的である。いくつかの例示的な実施形態では、遺伝子発現データは、単一細胞遺伝子発現データである。いくつかの例示的な実施形態では、ノイズ正則化プロセスは、発現マトリックス中の細胞内の遺伝子の発現値にランダムノイズを付加することを含み、ランダムノイズは、遺伝子の発現レベルによって決定される。

【0012】

【0013】

【0014】

【0015】

いくつかの例示的な実施形態では、本出願の遺伝子－遺伝子相関のためのデータ処理のためのコンピュータ実装方法は、相関遺伝子対に関連付けられた遺伝子発現データにエンリッチメントを行うことをさらに含む。いくつかの例示的な実施形態では、本出願のコンピュータ実装方法は、分子相互作用をマッピングするために遺伝子－遺伝子相関ネットワークを使用すること、実験設計を導いて生物学的事象を調査すること、バイオマーカーを発見すること、比較ネットワーク分析を導くこと、薬物設計を導くこと、細胞の健康状態および疾患状態を比較することによって遺伝子－遺伝子相互作用の変化を識別すること、薬物開発を導くこと、遺伝子の転写調節を予測すること、薬物効率を改善すること、または薬物耐性因子を識別することをさらに含む。

【0016】

本開示は、少なくとも部分的に、遺伝子－遺伝子相関のためのデータ処理のためのコンピュータベースのシステムを提供し、システムは、遺伝子発現データを記憶するように構成されたデータベースと、命令を記憶するように構成されたメモリと、メモリに結合された少なくとも１つのプロセッサであって、少なくとも１つのプロセッサが、遺伝子発現データを取り出すことと、正規化または補完のために遺伝子発現データを処理することと、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することと、遺伝子－遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、相関遺伝子対に基づいて遺伝子－遺伝子相関ネットワークを構築することと、を行うように構成されている、少なくとも１つのプロセッサと、遺伝子－遺伝子相関のデータ処理に関するクエリを受信し、相関遺伝子対および構築された遺伝子－遺伝子相関ネットワークの結果を表示することができるユーザインターフェースと、を含む。いくつかの例示的な実施形態では、遺伝子発現データは、単一細胞遺伝子発現データであり、遺伝子－遺伝子相関ネットワークは、細胞型特異的である。いくつかの例示的な実施形態では、ノイズ正則化プロセスは、発現マトリックス中の細胞内の遺伝子の発現値にランダムノイズを付加することを含み、ランダムノイズは、遺伝子の発現レベルによって決定される。

【0017】

【0018】

【0019】

【0020】

いくつかの例示的な実施形態では、少なくとも１つのプロセッサは、分子相互作用をマッピングするために遺伝子－遺伝子相関ネットワークに遺伝子－遺伝子相関ネットワークを利用すること、実験設計を導いて生物学的事象を調査すること、バイオマーカーを発見すること、比較ネットワーク分析を導くこと、薬物設計を導くこと、細胞の健康状態および疾患状態を比較することによって遺伝子－遺伝子相互作用の変化を識別すること、薬物開発を導くこと、遺伝子の転写調節を予測すること、薬物効率を改善すること、または薬物耐性因子を識別することを行うようにさらに構成される。

【0021】

本発明のこれらおよび他の態様は、以下の説明および添付の図面と併せて検討することで、よりよく理解され、理解されるであろう。以下の説明は、その種々の実施形態および多数の具体的な詳細を示すが、例証としてであって、限定としてではない。多くの置換、修正、追加、または再配置は、本発明の範囲内で行われ得る。

【図面の簡単な説明】

【0022】

【図1】例示的な実施形態による、改良された遺伝子－遺伝子相関のためのデータ処理のためのコンピュータベースのシステムの図を示しており、データベース、メモリ、少なくとも１つのプロセッサ、およびユーザインターフェースを含む。

【図2】例示的な実施形態による、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用するためのフローチャートを示す。

【図3】例示的な実施形態による、種々のデータ前処理方法のためのベンチマークデータセットとして使用された、ヒト細胞アトラスプレビューデータセット（ＨｕｍａｎＣｅｌｌＡｔｌａｓＰｒｅｖｉｅｗＤａｔａｓｅｔ）からの骨髄ｓｃＲＮＡ－ｓｅｑデータを示す。完全なデータセットには、２１個の細胞クラスタにグループ化され得る３７８，０００個の骨髄細胞が含まれており、すべての主要な免疫細胞型をカバーしている。

【図4】例示的な実施形態によるベンチマークフレームワークの概要を示す。例示的な実施形態では、５つの代表的なデータ前処理方法、例えば、ＮｏｒｍＵＭＩ、ＮＢＲ、ＤＣＡ、ＭＡＧＩＣ、およびＳＡＶＥＲを、単一細胞発現データマトリックス、例えば、骨髄単一細胞発現データに適用した。経路１は、得られたマトリックスから直接計算された遺伝子－遺伝子相関を示す。経路２は、ノイズ正則化ステップが付加されることを示しており、遺伝子発現レベル（赤色領域）によって決定されたランダムノイズが、遺伝子－遺伝子相関計算に進む前に発現マトリックスに適用される。タンパク質－タンパク質相互作用（ＰＰＩ）における導出された遺伝子－遺伝子相関のエンリッチメントおよび方法間の一貫性を評価した。

【図5A】例示的な実施形態による、５つのデータ前処理方法を使用してｓｃＲＮＡ－ｓｅｑデータを処理する場合のアーチファクトの観測を示す。図５Ａは、例示的な実施形態によるこれらの方法間で、相関の分布が異なることを示す。ラインは中央値を示す。

【図5B】例示的な実施形態による、５つのデータ前処理方法を使用してｓｃＲＮＡ－ｓｅｑデータを処理する場合のアーチファクトの観測を示す。図５Ｂは、例示的な実施形態による各方法についてのタンパク質－タンパク質相互作用における上位相関遺伝子対のエンリッチメントを示す。Ｘ軸は、上位ｎ個の遺伝子対を示す。Ｙ軸は、ＳＴＲＩＮＧタンパク質－タンパク質相互作用（ＰＰＩ）データベースに現れるｎ個の遺伝子対の画分を示す。

【図5C】例示的な実施形態による、５つのデータ前処理方法を使用してｓｃＲＮＡ－ｓｅｑデータを処理する場合のアーチファクトの観測を示す。図５Ｃは、例示的な実施形態による、相関性の高い遺伝子対を推論する方法の間で一貫性が低かったことを示す。

【図5D】例示的な実施形態による、５つのデータ前処理方法を使用してｓｃＲＮＡ－ｓｅｑデータを処理する場合のアーチファクトの観測を示す。図５Ｄは、例示的な実施形態による、無作為にサンプリングされた遺伝子対のエンリッチメントを示す。

【図6】例示的な実施形態による、異なるデータ前処理方法を適用した後の、ＭＢ２１Ｄ１およびＯＧＴの遺伝子対、例えば、陰性遺伝子対照対の発現値の散布図を示す。５つの代表的なデータ前処理方法、例えば、ＮｏｒｍＵＭＩ、ＮＢＲ、ＤＣＡ、ＭＡＧＩＣ、およびＳＡＶＥＲを分析に適用した。

【図7A】例示的な実施形態による、５つの代表的な前処理方法、例えば、ＮｏｒｍＵＭＩ、ＮＢＲ、ＤＣＡ、ＭＡＧＩＣ、またはＳＡＶＥＲについての疑似相関を低減するためにノイズ正則化を適用した結果を示す。図７Ａは、例示的な実施形態による各方法にノイズ正則化を適用した後の相関分布の結果を示す。異なる色は、異なる方法を示す。

【図7B】例示的な実施形態による、５つの代表的な前処理方法、例えば、ＮｏｒｍＵＭＩ、ＮＢＲ、ＤＣＡ、ＭＡＧＩＣ、またはＳＡＶＥＲについての疑似相関を低減するためにノイズ正則化を適用した結果を示す。図７Ｂは、例示的な実施形態による、ノイズ正則化を適用した後のタンパク質－タンパク質相互作用における上位相関遺伝子対のエンリッチメントを示す。Ｘ軸は、上位ｎ個の遺伝子対を示す。Ｙ軸は、ＳＴＲＩＮＧタンパク質－タンパク質相互作用（ＰＰＩ）データベースに現れるｎ個の遺伝子対の画分を示す。異なる色は、異なる方法を示す。実線の誤差バーは、１０回の反復に基づく９９％信頼区間を示す。

【図7C】例示的な実施形態による、５つの代表的な前処理方法、例えば、ＮｏｒｍＵＭＩ、ＮＢＲ、ＤＣＡ、ＭＡＧＩＣ、またはＳＡＶＥＲについての疑似相関を低減するためにノイズ正則化を適用した結果を示す。図７Ｃは、例示的な実施形態による、相関性の高い遺伝子対を推論する際にノイズ正則化を適用した後の方法間の一貫性を示す。

【図8A】例示的な実施形態による、ｓｃＲＮＡ－ｓｅｑデータから推論される遺伝子－遺伝子相関ネットワークを示す。図８Ａは、例示的な実施形態による、ノイズ正則化を適用する前および後に構築された相関ネットワークにおける各遺伝子の次数（Ｄｅｇｒｅｅ）およびページランク（Ｐａｇｅｒａｎｋ）の比較を示す。

【図8B】例示的な実施形態による、ｓｃＲＮＡ－ｓｅｑデータから推論される遺伝子－遺伝子相関ネットワークを示す。図８Ｂは、例示的な実施形態による、ノイズ正則化を適用する前および後に構築された相関ネットワークにおける各遺伝子の次数（Ｄｅｇｒｅｅ）およびページランク（Ｐａｇｅｒａｎｋ）の比較を示す。

【図8C】例示的な実施形態による、ｓｃＲＮＡ－ｓｅｑデータから推論される遺伝子－遺伝子相関ネットワークを示す。図８Ｃは、例示的な実施形態による改善された遺伝子－遺伝子相関を有するネットワーク構築を示す。ｓｃＲＮＡ－ｓｅｑデータは、ＮＢＲおよびノイズ正則化を適用することによって処理した。タンパク質－タンパク質相互作用には存在しなかったリンクは除去された。

【図9】例示的な実施形態による、ノイズ正則化を適用する前後のリアクトーム経路における上位相関遺伝子対のエンリッチメントを示す。Ｘ軸は、上位ｎ個の遺伝子対を示す。Ｙ軸は、リアクトームデータベースの同じ経路に現れるｎ個の遺伝子対の画分を示す。破線および実線はそれぞれノイズ正則化の前後を表している。

【図10】例示的な実施形態による、異なるパーセンタイルでの最大ノイズを試験することによって最適なノイズレベルを決定した結果を示す。

【図11】例示的な実施形態による、遺伝子発現レベルの約０～１パーセンタイルの範囲のランダムノイズの生成、および発現マトリックスへのランダムノイズの付加を示す。

【発明を実施するための形態】

【0023】

高スループット遺伝子発現データの可用性により、遺伝子発現データからの統計的推論を通じて、例えば、データを中心とした統計的視点に立ち、大規模に遺伝子調節ネットワークを構築することが可能である。種々の統計的ネットワーク推論方法、例えば、推論アルゴリズムが、相互作用を推定するために使用されている。推論される遺伝子調節ネットワークは、調節因子とその潜在的な標的との間の調節相互作用、例えば、遺伝子－遺伝子相互作用、または複合体中の潜在的なタンパク質－タンパク質相互作用に関する情報を提供する。これらの推論されるネットワークは、大規模な遺伝子発現データから得られた分子相互作用の統計的に有意な予測を表す（Ｅｍｍｅｒｔ－Ｓｔｒｅｉｂｅｔａｌ．，Ｇｅｎｅｒｅｇｕｌａｔｏｒｙｎｅｔｗｏｒｋｓａｎｄｔｈｅｉｒａｐｐｌｉｃａｔｉｏｎｓ：ｕｎｄｅｒｓｔａｎｄｉｎｇｂｉｏｌｏｇｉｃａｌａｎｄｍｅｄｉｃａｌｐｒｏｂｌｅｍｓｉｎｔｅｒｍｓｏｆｎｅｔｗｏｒｋｓ．ＦｒｏｎｔｉｅｒｓｉｎＣｅｌｌａｎｄＤｅｖｅｌｏｐｍｅｎｔａｌＢｉｏｌｏｇｙ，２０１４．２（３８））。

【0024】

推論される遺伝子調節ネットワークは、分子相互作用の因果マップとしての役割、実験設計の指針、バイオマーカーの発見、比較ネットワーク分析の指針、または薬物設計の指針としての役割など、生物学的および生物医学的問題を解決するのに役立つように使用され得る（Ｅｍｍｅｒｔ－Ｓｔｒｅｉｂｅｔａｌ．）。さらに、構築されたネットワークを使用して、下流の相互作用を識別し、薬物開発のための時間を潜在的に節約し得る細胞の健康状態および疾患状態を比較することによって遺伝子－遺伝子相互作用の変化を識別するなど、さらなる下流分析を行うための指針を提供することができる。

【0025】

推論される遺伝子調節ネットワークは、分子相互作用に関する新規の生物学的仮説を導出するため、または遺伝子の転写調節を予測するためなど、分子相互作用の因果マップとして機能することによって、生物学的および生物医学的問題を解決するのに役立つように使用され得る。予測されたリンクは、分子間の実際の物理的結合事象に対応すると想定されているため、この情報を使用して、生物学的事象を調査するための実験室的な実験を導くことができる。加えて、これらの推論されたネットワークを使用して、診断、予測、または予後目的のためにバイオマーカーを発見または研究することができる。例えば、がんは、個々の遺伝子ではなく、種々の経路に関連する複雑な障害であるため、ネットワークベースのバイオマーカーを、がんの診断目的のための統計的尺度として使用することができる。さらに、より推論される遺伝子調節ネットワークが利用可能になると、異なる生理学的条件または疾患条態にわたる遺伝子－遺伝子相互作用の変化を理解するための比較ネットワーク分析を導くことが可能になる（Ｅｍｍｅｒｔ－Ｓｔｒｅｉｂｅｔａｌ．）。したがって、これらの推論されたネットワークは、薬物効率の改善または薬物耐性因子の識別などの合理的な薬物のより効率的な設計を導くことができる。

【0026】

遺伝子－遺伝子共発現ネットワークは、遺伝子発現データから推論された、例えば単一細胞ＲＮＡシーケンシング（ｓｃＲＮＡ－ｓｅｑ）データから推論された遺伝子－遺伝子相関から構築される遺伝子調節ネットワークと見なすことができる。遺伝子－遺伝子共発現ネットワークは、異なる生理学的、疾患または治療条件から構築することができる。異なる条件下で構築された遺伝子－遺伝子共発現ネットワークを比較することにより、異なる生理学的条件または疾患条態にわたる遺伝子相互作用の変化を理解し、異なる条件下でかかる表現型を分析することができる。例えば、２つの遺伝子の発現は、１つの細胞型において高度に相関し得るが、他の細胞型においては無関係である。ｓｃＲＮＡ－ｓｅｑデータは、異種細胞集団中の異なる細胞型の全トランスクリプトームを偏りなく捕捉することができる。これにより、特定の細胞型に特異的な遺伝子－遺伝子相関を明らかにすることができる。

【0027】

遺伝子発現は、転写因子およびシグナル伝達分子のネットワークによって調節される。ｓｃＲＮＡ－ｓｅｑデータは、各細胞が生物学的事象の異なるタイプまたは段階を表す独立したアイデンティティであるため、分化の動態を明らかにし、遺伝子転写を定量化することによって、細胞および組織の不均一性を理解するための重要な情報を提供することができる。相関発現、特に遺伝子間の共発現は、可視化および解釈のためのネットワークを構築するために有益であり得る（Ｓｔｕａｒｔｅｔａｌ．，ＡＧｅｎｅ－ＣｏｅｘｐｒｅｓｓｉｏｎＮｅｔｗｏｒｋｆｏｒＧｌｏｂａｌＤｉｓｃｏｖｅｒｙｏｆＣｏｎｓｅｒｖｅｄＧｅｎｅｔｉｃＭｏｄｕｌｅｓ．Ｓｃｉｅｎｃｅ，２００３．３０２（５６４３）：ｐ．２４９－２５５）。ｓｃＲＮＡ－ｓｅｑデータの分析は、異なる文脈下での生物学的プロセスの理解を向上させるために、各細胞を異なる細胞型または系統に分類することができるため、生物学的発見を促進することができる。したがって、単一細胞発現データから明らかになる遺伝子－遺伝子相関は、細胞型特異的モジュールを発見し、より包括的なネットワークを構築する可能性を有する。

【0028】

ｓｃＲＮＡ－ｓｅｑデータを分析して、異なる臓器および疾患条態下で大規模な調節ネットワークを推論するために、単一細胞データに特異的に適合させた相関メトリックを開発した。遺伝子の生物学的関連性の偏りのない定量化をグラフ理論ツールを使用して計算して、臓器機能の主要なプレーヤーおよび疾患の要因を特定した（Ｉａｃｏｎｏｅｔａｌ．，Ｓｉｎｇｌｅ－ｃｅｌｌｔｒａｎｓｃｒｉｐｔｏｍｉｃｓｕｎｖｅｉｌｓｇｅｎｅｒｅｇｕｌａｔｏｒｙｎｅｔｗｏｒｋｐｌａｓｔｉｃｉｔｙ．ＧｅｎｏｍｅＢｉｏｌｏｇｙ，２０１９．２０（１）：ｐ．１１０）。合成遺伝子相互作用のための遺伝子－遺伝子対を調べることによって、ゲノムスケール遺伝子相互作用マップを構築した。遺伝子相互作用プロファイルに基づくネットワークにより、コヒーレントサブセットにおける類似の生物学的プロセスをクラスタリングすることで機能的マップを明らかにした（Ｃｏｓｔａｎｚｏ，Ｍ．，ｅｔａｌ．，ＴｈｅＧｅｎｅｔｉｃＬａｎｄｓｃａｐｅｏｆａＣｅｌｌ．Ｓｃｉｅｎｃｅ，２０１０．３２７（５９６４）：ｐ．４２５－４３１）。ここで、相関性の高いプロファイルは、遺伝子機能を定義する特定の経路を示している。

【0029】

しかしながら、ドロップアウトイベント（例えば、ｓｃＲＮＡ－ｓｅｑによって検出されない遺伝子発現）、高レベルのノイズ（変動）、および非常に大きなデータ量などの技術的制限に起因するｓｃＲＮＡ－ｓｅｑデータの利用には、課題が存在している。加えて、各細胞内に存在する転写物のごく一部のみが、ｓｃＲＮＡ－ｓｅｑでシーケンシングされており、これは、低発現遺伝子および中発現遺伝子の信頼性の低い定量化につながる。多くの割合の遺伝子、例えば遺伝子集団の９０％を超える遺伝子は、低い捕捉およびシーケンシング効率に起因して、ゼロまたは低いリードカウントを有する。観測されたゼロカウントの多くは真のゼロ発現を反映しているが、このカウントの大部分は技術的な制限によるものである可能性がある（Ｈｕａｎｇｅｔａｌ．，ＳＡＶＥＲ：ｇｅｎｅｅｘｐｒｅｓｓｉｏｎｒｅｃｏｖｅｒｙｆｏｒｓｉｎｇｌｅ－ｃｅｌｌＲＮＡｓｅｑｕｅｎｃｉｎｇ．ＮａｔｕｒｅＭｅｔｈｏｄｓ，２０１８．１５（７）：ｐ．５３９－５４２）。さらに、観測されたシーケンシング深度は、細胞間で劇的に変化し得る。シーケンシング中の細胞溶解、逆転写効率、および分子サンプリングの変動もまた、変動に寄与し得る（Ｈｉｃｋｓｅｔａｌ．，Ｍｉｓｓｉｎｇｄａｔａａｎｄｔｅｃｈｎｉｃａｌｖａｒｉａｂｉｌｉｔｙｉｎｓｉｎｇｌｅ－ｃｅｌｌＲＮＡ－ｓｅｑｕｅｎｃｉｎｇｅｘｐｅｒｉｍｅｎｔｓ．Ｂｉｏｓｔａｔｉｓｔｉｃｓ，２０１７．１９（４）：ｐ．５６２－５７８）。

【0030】

低効率によって引き起こされるノイズを軽減し、発現正規化およびドロップアウト補完を含む、ｓｃＲＮＡ－ｓｅｑデータの処理における真の発現レベルを推定するために、種々のデータ前処理方法が採用されている。真の生物学的シグナルを保持しながら技術ノイズを除去するために、データの正規化がしばしば必要とされている。ｓｃＲＮＡ－ｓｅｑの高いドロップアウト率とは、転写産物の検出に技術的な制限があるために、カウントがゼロである遺伝子の割合が大きいことを指す（Ｓｖｅｎｓｓｏｎｅｔａｌ．，Ｐｏｗｅｒａｎａｌｙｓｉｓｏｆｓｉｎｇｌｅ－ｃｅｌｌＲＮＡ－ｓｅｑｕｅｎｃｉｎｇｅｘｐｅｒｉｍｅｎｔｓ．ＮａｔｕｒｅＭｅｔｈｏｄｓ，２０１７．１４：ｐ．３８１；Ｚｉｅｇｅｎｈａｉｎｅｔａｌ．，ＣｏｍｐａｒａｔｉｖｅＡｎａｌｙｓｉｓｏｆＳｉｎｇｌｅ－ＣｅｌｌＲＮＡＳｅｑｕｅｎｃｉｎｇＭｅｔｈｏｄｓ．ＭｏｌｅｃｕｌａｒＣｅｌｌ，２０１７．６５（４）：ｐ．６３１－６４３．ｅ４）。ドロップアウトを処理して真の遺伝子発現を回復するために、種々のデータ補完法を使用して、細胞クラスタリング、差異的に発現された遺伝子の検出、および軌道分析などのｓｃＲＮＡ－ｓｅｑデータを前処理することができる（Ｔｉａｎｅｔａｌ．，ＢｅｎｃｈｍａｒｋｉｎｇｓｉｎｇｌｅｃｅｌｌＲＮＡ－ｓｅｑｕｅｎｃｉｎｇａｎａｌｙｓｉｓｐｉｐｅｌｉｎｅｓｕｓｉｎｇｍｉｘｔｕｒｅｃｏｎｔｒｏｌｅｘｐｅｒｉｍｅｎｔｓ．ＮａｔｕｒｅＭｅｔｈｏｄｓ，２０１９．１６（６）：ｐ．４７９－４８７）。

【0031】

偽の遺伝子－遺伝子相関に関する補完法の適用には課題がある。これらの方法は、遺伝子ネットワークをリバースエンジニアリングして遺伝子－遺伝子相関を測定するために設計されているためである。Ａｎｄｒｅｗｓらは、小さなシミュレーションデータセット上で複数の補完法を試験し、ドロップアウト補完が偽陽性の遺伝子－遺伝子相関を生成することを発見した（Ａｎｄｒｅｗｓ，Ｔ．ａｎｄＭ．Ｈｅｍｂｅｒｇ，Ｆａｌｓｅｓｉｇｎａｌｓｉｎｄｕｃｅｄｂｙｓｉｎｇｌｅ－ｃｅｌｌｉｍｐｕｔａｔｉｏｎ［ｖｅｒｓｉｏｎ１；ｐｅｅｒｒｅｖｉｅｗ：４ａｐｐｒｏｖｅｄｗｉｔｈｒｅｓｅｒｖａｔｉｏｎｓ］．Ｆ１０００Ｒｅｓｅａｒｃｈ，２０１８，７（１７４０））。データの前処理のための代表的なｓｃＲＮＡ－ｓｅｑ正規化／補完法の一部は、データの過剰な平滑化または過剰な適合に起因して疑似相関または膨張した相関が導入されることで、遺伝子－遺伝子相関の推論に影響を与える。これらの方法では、共発現が予想されない遺伝子対について相関アーチファクトが導入される可能性がある。偽のシグナルおよび相関アーチファクトがデータ処理に導入され得るので、これらの方法から最も高い相関を有する取得された遺伝子対は、タンパク質－タンパク質相互作用における弱いエンリッチメントを有し得る。

【0032】

機械学習では、特定の条件下でノイズをデータに付加することで、過剰な適合を減らし、結果の堅牢性を高めることができる（Ｂｉｓｈｏｐ，ＴｒａｉｎｉｎｇｗｉｔｈｎｏｉｓｅｉｓｅｑｕｉｖａｌｅｎｔｔｏＴｉｋｈｏｎｏｖｒｅｇｕｌａｒｉｚａｔｉｏｎ．Ｎｅｕｒａｌｃｏｍｐｕｔａｔｉｏｎ，１９９５．７（１）：ｐ．１０８－１１６；Ｎｅｅｌａｋａｎｔａｎｅｔａｌ．，Ａｄｄｉｎｇｇｒａｄｉｅｎｔｎｏｉｓｅｉｍｐｒｏｖｅｓｌｅａｒｎｉｎｇｆｏｒｖｅｒｙｄｅｅｐｎｅｔｗｏｒｋｓ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１５１１．０６８０７，２０１５；Ｓｍｉｌｋｏｖｅｔａｌ．，Ｓｍｏｏｔｈｇｒａｄ：ｒｅｍｏｖｉｎｇｎｏｉｓｅｂｙａｄｄｉｎｇｎｏｉｓｅ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７０６．０３８２５，２０１７）。

【0033】

本開示は、遺伝子－遺伝子相関を推論し、さらに遺伝子ネットワークを構築するための遺伝子－遺伝子相関アーチファクトを効率的に低減し得る新規のノイズ正則化方法を利用したｓｃＲＮＡ－ｓｅｑデータを処理するための方法およびシステムを提供することによって、前述の要求を満たすための方法およびシステムを提供する。本出願のノイズ正則化方法を適用した後に導出された遺伝子－遺伝子相関を使用して、遺伝子共発現ネットワークを構築することができる。結果として得られたネットワークは、ネットワークの構築の信頼性を確認するために、複数のレベルで検証された。タンパク質－タンパク質相互作用データベースにおける既知の相互作用を使用して、推論される生物学的ネットワークの質を評価した。

【0034】

いくつかの例示的な実施形態では、本出願のノイズ正則化方法は、各遺伝子の発現レベルに対して均一に分布したノイズを付加することによって、前処理されたｓｃＲＮＡ－ｓｅｑデータを処理するために実施される。本出願のノイズ正則化方法を付加することにより得られた遺伝子－遺伝子相関を使用して、遺伝子－遺伝子相関におけるアーチファクトを低減することにより、遺伝子共発現ネットワークを再構築することができる。いくつかの例示的な実施形態では、免疫細胞モジュールなどの複数の既知の細胞モジュールが正常に明らかにされた。これは、本出願のノイズ正則化方法の不在下では見えなかったものである。いくつかの例示的な実施形態では、本出願のノイズ正則化方法が付加された場合、細胞型マーカー遺伝子は、ネットワークトポロジー特性においてより高く評価され、例えば、次数およびページランクのより高い値で評価され、それぞれの細胞クラスタにおけるそれらの重要な役割が特定された。本出願のノイズ正則化方法は、発現データの過剰な平滑化または過剰な適合を低減することによって、データ処理の堅牢性を増加させる利点を提供する。

【0035】

いくつかの例示的な実施形態では、本出願は、遺伝子－遺伝子相関のためのデータ処理を改善するためのコンピュータ実装方法を提供し、本方法は、正規化または補完のために遺伝子発現データを処理することと、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することと、遺伝子－遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、を含む。いくつかの例示的な実施形態では、本出願は、遺伝子－遺伝子相関のためのデータ処理のためのコンピュータベースのシステムを提供し、システムは、遺伝子発現データを記憶するように構成されたデータベースと、命令を記憶するように構成されたメモリと、メモリに結合された少なくとも１つのプロセッサであって、少なくとも１つのプロセッサが、遺伝子発現データを取り出すことと、正規化または補完のために遺伝子発現データを処理することと、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することと、遺伝子－遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、相関遺伝子対に基づいて遺伝子－遺伝子相関ネットワークを構築することと、を行うように構成されている、少なくとも１つのプロセッサと、遺伝子－遺伝子相関のデータ処理に関するクエリを受信し、相関遺伝子対および構築された遺伝子－遺伝子相関ネットワークの結果を表示することができるユーザインターフェースと、を含む。

【0036】

図１に示すように、遺伝子－遺伝子相関のためのデータ処理のための本出願の例示的なコンピュータベースのシステムは、１つ以上のデータベース、１つ以上のプロセッサを含む中央処理装置（ＣＰＵ）、命令を記憶するためのＣＰＵに結合されたメモリ、およびユーザインターフェースを含む。いくつかの例示的な実施形態では、本出願のコンピュータベースのシステムは、データ正規化または補完のためのアルゴリズムおよび種々のレポートをさらに含む。いくつかの例示的な実施形態では、データベースは、遺伝子発現データ、ゲノムデータ、またはタンパク質－タンパク質相互作用データを含む。いくつかの例示的な実施形態では、ユーザインターフェースは、データ処理のためのクエリを受信し、相関遺伝子対を表示し、または遺伝子－遺伝子相関ネットワークを表示し得る。

【0037】

【0038】

いくつかの例示的な実施形態では、細胞ｊにおける遺伝子ｉの発現値は、Ｖとして表され、ランダムノイズは、（ｉ）種々のデータ前処理方法を適用した後の遺伝子ｉの発現分布を計算することと、（ｉｉ）Ｍとして表される遺伝子ｉの発現値の１パーセンタイルを決定することであって、Ｍがノイズレベルの最大値として使用される、決定することと、（ｉｉｉ）０～Ｍの範囲の一様分布乱数を生成し、この乱数をＶに付加することと、によって決定され得る。

【0039】

いくつかの例示的な実施形態では、ランダムノイズが生成され、Ｖ、例えば、特定の方法によって処理される発現マトリックス中の細胞ｊにおける遺伝子ｉの発現値に付加され、ランダムノイズは、（１）すべての細胞にわたる遺伝子ｉの発現分布を決定することと、（２）Ｍとして表される遺伝子ｉ発現の１パーセンタイルを最大ノイズレベルと見なすことと、（３）Ｍがゼロに等しい場合、０．１を最大ノイズレベルとして使用することと、（４）均一分布下で０～Ｍの範囲の乱数を生成することと、（５）Ｖに乱数を付加してノイズ正則化発現マトリックスを取得することと、によって決定される。

【0040】

いくつかの例示的な実施形態では、ノイズ正則化プロセスは、特定のｓｃＲＮＡ－ｓｅｑ前処理方法によって処理される発現マトリックスを取得することを含み、この発現マトリックスは、ｍ個の細胞におけるｎ個の遺伝子の発現を含有していた。Ｖが細胞ｊにおける遺伝子ｉの発現値であると仮定すると、ランダムノイズが生成され、Ｖに付加され、ランダムノイズは、図２の例示的なフローチャートに示すように、以下の手順、すなわち、（１）すべての細胞にわたる遺伝子ｉの発現分布を決定することと、（２）遺伝子ｉの発現分布からの第１のパーセンタイルを、Ｍとして表される遺伝子ｉの最大ノイズレベルと見なし、Ｍが最小値ｍより小さい場合、ｍを最大ノイズレベルとして使用することと、（３）均一分布下で０～Ｍの範囲の乱数を生成することと、（４）この乱数をＶに付加してノイズ正則化発現値を取得することと、（５）発現マトリックス中のすべての項目について、この手順を繰り返すことと、によって決定される。

【0041】

本明細書に開示される例示的な実施形態は、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することによって、遺伝子－遺伝子相関のための遺伝子発現データの処理を改善するためのコンピュータ実装方法を提供することで、前述の要求を満たす。

【0042】

いくつかの例示的な実施形態では、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することによって、遺伝子－遺伝子相関のための遺伝子発現データのデータ処理を改善するためのコンピュータ実装方法が提供される。これらは、遺伝子－遺伝子相関を推論し、さらに遺伝子ネットワークを構築するための遺伝子－遺伝子相関アーチファクトを効率的に低減するという長年のニーズを満たすものである。

【0043】

「ａ」という用語は、「少なくとも１つ」を意味すると理解されるべきであり、「約」および「およそ」という用語は、当業者によって理解されるように、標準的な変動を可能にすると理解されるべきであり、範囲が提供される場合、エンドポイントが含まれる。

【0044】

本明細書で使用される場合、「含む（ｉｎｃｌｕｄｅ）」、「含む（ｉｎｃｌｕｄｅｓ）」、および「含む（ｉｎｃｌｕｄｉｎｇ）」という用語は、非限定的であることを意味し、それぞれ、「含む（ｃｏｍｐｒｉｓｅ）」、「含む（ｃｏｍｐｒｉｓｅｓ）」、および「含む（ｃｏｍｐｒｉｓｉｎｇ）」を意味すると理解される。

【0045】

いくつかの例示的な実施形態では、本開示は、遺伝子－遺伝子相関のためのデータ処理を改善するためのコンピュータ実装方法を提供し、正規化または補完のために遺伝子発現データを処理することと、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することと、遺伝子－遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、を含む。いくつかの例示的な実施形態では、ノイズ正則化プロセスは、遺伝子－遺伝子相関計算プロセスを適用する前に適用される。いくつかの例示的な実施形態では、遺伝子発現データは、単一細胞遺伝子発現データである。

【0046】

本明細書で使用される場合、「遺伝子－遺伝子相関」という用語は、試料全体にわたって同様の発現パターンを示す対の遺伝子を意味する。２つの遺伝子が共発現すると、これらの２つの遺伝子の発現レベルはともに上昇し、下降する。共発現遺伝子は、多くの場合、同じ生物学的経路に関与し、同じ転写因子によって概して調節され、または別様で機能的に関連している。

【0047】

本明細書で使用される場合、「正規化」という用語は、データセットを編成して冗長性を低減し、データの整合性を向上させるプロセスを指し、調整値を整合させるか、または特定の分布に適合させるための調整を付加することを含む。正規化プロセスは、体系的な変動（例えば、実験条件の変動性、機械パラメータ）を除去し、サンプル間の偏りのない比較を可能にし得る。

【0048】

本明細書で使用される場合、「補完」という用語は、欠落データを置換された値で置き換えるプロセスを意味する。欠落データは、例えば、結果の代表性に影響を与える可能性のある効率の低下を生じさせることによって、相当量のバイアスが導入されるという問題を引き起こす可能性がある。補完には、欠落データを他の利用可能な情報に基づいて推定値で置き換えるプロセスが含まれ、これにより、標準的な技術を使用してデータセットの分析を可能にすることができる。

【0049】

例示的な実施形態
本明細書に開示される実施形態は、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することによって、遺伝子－遺伝子相関のための遺伝子発現データの処理を改善する方法を提供する。

【0050】

いくつかの例示的な実施形態では、本開示は、遺伝子－遺伝子相関アーチファクトを低減するためのデータ処理を改善するための方法を提供し、これには、正規化または補完のためにｓｃＲＮＡ－ｓｅｑデータを処理することと、ノイズ正則化プロセスを正規化または補完された遺伝子発現データに適用することと、遺伝子－遺伝子相関計算プロセスを適用して相関遺伝子対を取得することとが含まれ、ノイズ正則化プロセスは、発現マトリックス中の細胞内の遺伝子の発現値にランダムノイズを付加することを含む。

【0051】

【0052】

一部の特定の例示的な実施形態では、ランダムノイズは、（１）発現マトリックス中の細胞のすべてにわたる遺伝子の発現分布を決定することと、（２）約０．１～約２０パーセンタイル、約０．１パーセンタイル、約０．５パーセンタイル、約１パーセンタイル、約１．５パーセンタイル、約２パーセンタイル、約３パーセンタイル、約４パーセンタイル、約５パーセンタイル、約７パーセンタイル、約１０パーセンタイル、約１５パーセンタイル、約２０パーセンタイル、または約２５パーセンタイルの遺伝子の発現レベルを最大ノイズレベルと見なすことと、（３）均一分布下で、０から最大ノイズレベルまでの範囲の乱数を生成することと、（４）発現マトリックス中の細胞内の遺伝子の発現値に乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定され、本出願のコンピュータ実装方法は、相関遺伝子対に基づいて遺伝子－遺伝子相関ネットワークを構築することをさらに含む。

【0053】

いくつかの例示的な実施形態では、本出願のコンピュータ実装方法は、分子相互作用をマッピングするために遺伝子－遺伝子相関ネットワークを使用すること、実験設計を導いて生物学的事象を調査すること、バイオマーカーを発見すること、比較ネットワーク分析を導くこと、薬物設計を導くこと、細胞の健康状態および疾患状態を比較することによって遺伝子－遺伝子相互作用の変化を識別すること、薬物開発を導くこと、遺伝子の転写調節を予測すること、薬物効率を改善すること、薬物耐性因子を識別すること、さらなる下流分析を行うための指針を提供すること、分子相互作用に関する新規の生物学的仮説を導出すること、がんの診断目的のための統計的尺度を提供すること、異なる生理学的または疾患状態にわたる遺伝子－遺伝子相互作用の変化を理解するための比較ネットワーク分析を導くこと、異なる条件下で特定の表現型を分析するための遺伝子－遺伝子相互作用の変化を理解すること、遺伝子転写を定量するための分化の動態を明らかにすること、または診断、予測、もしくは予測目的のためのバイオマーカーを発見することをさらに含む。

【0054】

本方法またはシステムは、遺伝子－遺伝子相関のための遺伝子発現データの処理を改善するための上記の方法またはシステムのいずれかに限定されないことが理解される。本明細書で提供される方法ステップの数字および／または文字による連続した標識は、方法またはその任意の実施形態を特定の指示された順序に限定することを意味しない。特許、特許出願、公開特許出願、アクセッション番号、技術論文、および学術論文を含む種々の公表文献が、本明細書に引用される。これらの引用文献の各々は、参照により、その全体およびすべての目的のために、本明細書に組み込まれる。別段記載されない限り、本明細書で使用される技術および科学用語はすべて、本発明が属する技術分野の当業者によって概して理解される意味と同じ意味を有する。

【0055】

本開示は、本開示をより詳細に説明するために提供される以下の実施例を参照することにより、より完全に理解されるであろう。これらは、本開示の範囲を限定するものとして解釈されるべきではない。

【実施例】

【0056】

データベースおよび方法
ｓｃＲＮＡ－ｓｅｑデータセットの取得
骨髄ｓｃＲＮＡ－ｓｅｑデータをヒト細胞アトラスデータポータル（ＨｕｍａｎＣｅｌｌＡｔｌａｓＤａｔａＰｏｒｔａｌ）（ｈｔｔｐｓ：／／ｐｒｅｖｉｅｗ．ｄａｔａ．ｈｕｍａｎｃｅｌｌａｔｌａｓ．ｏｒｇ／）から取り出した。取り出されたデータセットは、１０×プラットフォームによる３７８，０００個の免疫細胞のプロファイリングデータを含む。計算負荷を低減するために、元のデータセットから５０，０００個の細胞を無作為にサンプリングした。続いて、１００個未満の細胞（０．２％）で発現された遺伝子をさらにフィルタリングした。出力では、１２，６００個の遺伝子が最終的なベンチマークデータセットに残った。クラスタリングまたは次元削減などの単一細胞分析を、ＳｅｕｒａｔＲパッケージＶｅｒｓｉｏｎ３．０を使用して行った。

【0057】

データの正規化または補完
データの正規化または補完のために、データの前処理ステップで複数の方法が適用され、これには、全一意分子識別子正規化（ＮｏｒｍＵＭＩ）、正則化された負の二項回帰（ＮＢＲ；Ｈａｆｅｍｅｉｓｔｅｒｅｔａｌ．，Ｎｏｒｍａｌｉｚａｔｉｏｎａｎｄｖａｒｉａｎｃｅｓｔａｂｉｌｉｚａｔｉｏｎｏｆｓｉｎｇｌｅ－ｃｅｌｌＲＮＡ－ｓｅｑｄａｔａｕｓｉｎｇｒｅｇｕｌａｒｉｚｅｄｎｅｇａｔｉｖｅｂｉｎｏｍｉａｌｒｅｇｒｅｓｓｉｏｎ．ｂｉｏＲｘｉｖ，２０１９：ｐ．５７６８２７）、ディープカウントオートエンコーダ（ＤＣＡ）ネットワーク（Ｅｒａｓｌａｎｅｔａｌ．，Ｓｉｎｇｌｅ－ｃｅｌｌＲＮＡ－ｓｅｑｄｅｎｏｉｓｉｎｇｕｓｉｎｇａｄｅｅｐｃｏｕｎｔａｕｔｏｅｎｃｏｄｅｒ．ＮａｔｕｒｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ，２０１９．１０（１）：ｐ．３９０）、細胞のマルコフ親和性ベースのグラフ補完（ＭＡＧＩＣ；ｖａｎＤｉｊｋ，ｅｔａｌ．，ＲｅｃｏｖｅｒｉｎｇＧｅｎｅＩｎｔｅｒａｃｔｉｏｎｓｆｒｏｍＳｉｎｇｌｅ－ＣｅｌｌＤａｔａＵｓｉｎｇＤａｔａＤｉｆｆｕｓｉｏｎ．Ｃｅｌｌ，２０１８．１７４（３）：ｐ．７１６－７２９．ｅ２７）、または発現回復を介した単一細胞分析（ＳＡＶＥＲ；Ｈｕａｎｇｅｔａｌ．）が含まれる。ＮＢＲ、ＳＡＶＥＲ、およびＤＣＡは、ツールの指示に従ってデフォルトパラメータで実行された。ＭＡＧＩＣは、主成分の数ｎｐｃａ＝３０、マルコフ親和性行列の累乗ｔ＝６、最近傍の数ｋ＝３０のパラメータを使用して実行された。ＮｏｒｍＵＭＩおよびＮＢＲは、正規化法である。ＤＣＡ、ＭＡＧＩＣ、ＳＡＶＥＲの方法は補完法である。

【0058】

遺伝子－遺伝子相関計算
各遺伝子対のスピアマン相関を、それぞれ、クラスタ０からクラスタ９までなどの各クラスタ内の細胞内で計算した。遺伝子が１％を超える細胞またはそのクラスタ内の５０個の細胞のいずれか大きい方で発現している場合、その遺伝子は１つのクラスタで発現しているとみなされる。一方のクラスタ内の遺伝子対の相関は、両方の遺伝子がクラスタ内で発現されたときに、有効な相関としてみなされた。１０個のクラスタ（クラスタ０～９）で最も効果的な相関が、特定の遺伝子対の最終的な相関として記録された。

【0059】

タンパク質－タンパク質相互作用によるデータエンリッチメント
ヒトタンパク質－タンパク質相互作用（ＰＰＩ）データを、ＳＴＲＩＮＧデータベースから取り出した（Ｓｚｋｌａｒｃｚｙｋ，ｅｔａｌ．，ＳＴＲＩＮＧｖ１０：ｐｒｏｔｅｉｎ－ｐｒｏｔｅｉｎｉｎｔｅｒａｃｔｉｏｎｎｅｔｗｏｒｋｓ，ｉｎｔｅｇｒａｔｅｄｏｖｅｒｔｈｅｔｒｅｅｏｆｌｉｆｅ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ，２０１４．４３（Ｄ１）：ｐ．Ｄ４４７－Ｄ４５２）。各方法のスピアマン相関係数によって遺伝子対をランク付けした。次いで、高いランクを有する遺伝子対（上位ｎ個の遺伝子対）を取得し、タンパク質－タンパク質相互作用データベースに現れる対の画分をカウントした。

【0060】

ノイズ正則化
ノイズ正則化をデータ処理に適用した。遺伝子発現レベルによって決定されるランダムノイズを発現マトリックスに付加してから相関計算に進む。ランダムノイズが生成され、Ｖ、例えば、特定の方法によって処理される発現マトリックス中の細胞ｊにおける遺伝子ｉの発現値に付加される。ランダムノイズは、（１）すべての細胞にわたる遺伝子ｉの発現分布を決定することと、（２）Ｍとして表される遺伝子ｉ発現の１パーセンタイルを最大ノイズレベルと見なすことと、（３）Ｍがゼロに等しい場合、０．１を最大ノイズレベルとして使用することと、（４）均一分布下で０～Ｍの範囲の乱数を生成することと、（５）Ｖに乱数を付加してノイズ正則化発現マトリックスを取得することと、によって生成される。

【0061】

ネットワーク構築
各遺伝子対のスピアマン相関を、各クラスタ内の細胞内で計算した。各クラスタ内で、遺伝子対は、それらのスピアマン相関によってランク付けされた。基本的な細胞機能にはハウスキーピング遺伝子が必要であるため、組織型または細胞型に関係なくすべての細胞で発現することが期待される。細胞型特異的相互作用モジュールを構築するために、ハウスキーピング遺伝子をネットワーク構築物から除去した。除去されたハウスキーピング遺伝子のリストには、Ｅｉｓｅｎｂｅｒｇらから入手したハウスキーピング遺伝子リストが含まれていた（Ｅｉｓｅｎｂｅｒｇｅｔａｌ．，Ｈｕｍａｎｈｏｕｓｅｋｅｅｐｉｎｇｇｅｎｅｓ，ｒｅｖｉｓｉｔｅｄ．ＴｒｅｎｄｓｉｎＧｅｎｅｔｉｃｓ，２０１３．２９（１０）：ｐ．５６９－５７４）。さらに、典型的なハウスキーピング遺伝子、例えば、ＡＣＴＢ、Ｂ２Ｍ、およびリボソーム、ＴＣＡ、リアクトーム由来の細胞骨格遺伝子、ならびにｍｔＤＮＡをコードする遺伝子を、除去されたハウスキーピング遺伝子のリストに付加した。ハウスキーピング遺伝子を除去した後、各クラスタから上位１，０００にランク付けされた遺伝子対を取得し、まとめてドラフトネットワークを構築した。ネットワーク内の各ノードの重要度は、ＣｓａｒｄｉらによるｉｇｒａｐｈＲパッケージを使用した次数およびページランクの値によって測定された（Ｃｓａｒｄｉｅｔａｌ．，Ｔｈｅｉｇｒａｐｈｓｏｆｔｗａｒｅｐａｃｋａｇｅｆｏｒｃｏｍｐｌｅｘｎｅｔｗｏｒｋｒｅｓｅａｒｃｈ．ＩｎｔｅｒＪｏｕｒｎａｌ，ＣｏｍｐｌｅｘＳｙｓｔｅｍｓ，２００６．１６９５（５）：ｐ．１－９）。続いて、ＳＴＲＩＮＧデータベースのタンパク質－タンパク質相互作用を参照していないリンクを削除することにより、ネットワークをクリーンアップした。最終的なネットワークは、ＳｈａｎｎｏｎらによるＣｙｔｏｓｃａｐｅ（Ｓｈａｎｎｏｎｅｔａｌ．，Ｃｙｔｏｓｃａｐｅ：ＡＳｏｆｔｗａｒｅＥｎｖｉｒｏｎｍｅｎｔｆｏｒＩｎｔｅｇｒａｔｅｄＭｏｄｅｌｓｏｆＢｉｏｍｏｌｅｃｕｌａｒＩｎｔｅｒａｃｔｉｏｎＮｅｔｗｏｒｋｓ．ＧｅｎｏｍｅＲｅｓｅａｒｃｈ，２００３．１３（１１）：ｐ．２４９８－２５０４）と、ＯｎｏらによるＲｐａｃｋａｇｅＲＣｙ３（Ｏｎｏｅｔａｌ．，ＣｙＲＥＳＴ：ＴｕｒｂｏｃｈａｒｇｉｎｇＣｙｔｏｓｃａｐｅＡｃｃｅｓｓｆｏｒＥｘｔｅｒｎａｌＴｏｏｌｓｖｉａａＲＥＳＴｆｕｌＡＰＩ．Ｆ１０００Ｒｅｓｅａｒｃｈ，２０１５．４：ｐ．４７８－４７８）を使用して可視化された。ネットワークレイアウトは、ＡｇｇらによるＥｎｔＯｐｔＬａｙｏｕｔＣｙｔｏｓｃａｐｅプラグインを使用して生成された（Ａｇｇｅｔａｌ．，ＴｈｅＥｎｔＯｐｔＬａｙｏｕｔＣｙｔｏｓｃａｐｅｐｌｕｇ－ｉｎｆｏｒｔｈｅｅｆｆｉｃｉｅｎｔｖｉｓｕａｌｉｚａｔｉｏｎｏｆｍａｊｏｒｐｒｏｔｅｉｎｃｏｍｐｌｅｘｅｓｉｎｐｒｏｔｅｉｎ－ｐｒｏｔｅｉｎｉｎｔｅｒａｃｔｉｏｎａｎｄｓｉｇｎａｌｉｎｇｎｅｔｗｏｒｋｓ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２０１９）。

【0062】

実施例１．代表的な正規化／補完法を使用したデータの前処理
複数の代表的な正規化／補完法を、遺伝子－遺伝子相関推論に対するそれらの影響に焦点を当ててベンチマークした。グローバルスケーリング正規化方法は、全発現によって各細胞の遺伝子発現を正規化することにより、データ操作が最も少ないものであった。通常、この方法の後には対数変換とｚスコアスケーリングが続く。対数変換およびｚスコアスケーリングはランクベースの相関を変更しないため、合計ＵＭＩ正規化のみを比較対象に含めた（ＮｏｒｍＵＭＩと称される）。「正則化された負の二項回帰」（ＮＢＲと称される）を利用して、ｓｃＲＮＡ－ｓｅｑデータの分散を正規化し、安定化させるフレームワークを含めた。これは、生物学的不均一性を維持しながら、技術的ノイズの影響を除去することができる。異なる補完方法論的カテゴリを表す３つの追加の方法も含まれており、例えば、（ｉ）ＭＡＧＩＣは、類似の細胞にわたる共有情報を利用してノイズを除去し、ドロップアウト値を記入するデータ平滑化アプローチであり、（ｉｉ）ＳＡＶＥＲは、負の二項分布仮定の下で各遺伝子の発現をモデル化し、真の発現の後方分布を出力するモデルベースのアプローチであり、（ｉｉｉ）ＤＣＡは、ｓｃＲＮＡ－ｓｅｑデータの複雑性および非線形性を捕捉し、遺伝子発現を再構築するための深層学習ベースのオートエンコーダである。

【0063】

これらの５つの例示的な正規化／補完法、例えば、ＮｏｒｍＵＭＩ、ＮＢＲ、ＤＣＡ、ＭＡＧＩＣ、およびＳＡＶＥＲは、前処理法から導出される遺伝子－遺伝子相関を比較することにより、ヒト細胞アトラスプロジェクト（ＨｕｍａｎＣｅｌｌＡｔｌａｓＰｒｏｊｅｃｔ）（Ｒｅｇｅｖｅｔａｌ．，ＴｈｅＨｕｍａｎＣｅｌｌＡｔｌａｓ．ｅＬｉｆｅ，２０１７．６：ｐ．ｅ２７０４１）の骨髄ｓｃＲＮＡ－ｓｅｑデータに適用された。ＮｏｒｍＵＭＩを除く他の４つの方法では、共発現が予想されない遺伝子対について相関アーチファクトが導入されることによって、遺伝子－遺伝子相関を著しく増大させることが示された。これらの方法で相関が最も高い遺伝子対は、タンパク質－タンパク質相互作用における弱いエンリッチメントを有した。これは、データの前処理に導入された偽のシグナルおよび相関アーチファクトが存在する可能性があることを示唆している。過剰な平滑化または過剰な適合により、偽のシグナルがデータの前処理によって導入される可能性がある。

【0064】

実施例２．単一細胞内の遺伝子－遺伝子相関の計算
ヒト細胞アトラスプレビューデータセットからの実際の骨髄ｓｃＲＮＡ－ｓｅｑデータを、種々のデータ前処理方法のためのベンチマークデータセット（Ｒｅｇｅｖｅｔａｌ．）として使用した。完全なデータセットは、図３および表１に示すように、２１個の細胞クラスタにグループ化され得る３７８，０００個の骨髄細胞を含有し、すべての主要な免疫細胞型をカバーした。元のデータセットから５０，０００個の細胞を無作為にサンプリングした。０．２％未満（１００個の細胞）で発現する遺伝子は、このサブセットから除外された。最終的なデータセットには１２，６００個の遺伝子が含まれており、７９００万を超える可能性のある遺伝子対が得られた。

【表1】

【0065】

ベンチマークフレームワークの概要を図４に示す。図４に示すように、５つの代表的なデータ前処理方法、例えば、ＮｏｒｍＵＭＩ、ＮＢＲ、ＤＣＡ、ＭＡＧＩＣ、およびＳＡＶＥＲを、単一細胞発現データマトリックス、例えば、骨髄単一細胞発現データに適用した。得られたマトリックス（経路１として示される）から直接、遺伝子－遺伝子相関を計算した。タンパク質－タンパク質相互作用における導出された遺伝子－遺伝子相関のエンリッチメントおよび方法間の一貫性を評価した。データ前処理手順により人工的な相関関係を導入できることが発見された。（経路２として示される）ノイズ正則化ステップを導入し、遺伝子発現レベル（赤色領域）によって決定されるランダムノイズを発現マトリックスに適用した後、相関計算に移行した。このノイズ正則化ステップは、疑似相関を効果的に低減するものであり、改善された遺伝子－遺伝子相関メトリックを使用して遺伝子共発現ネットワークを構築することができる。

【0066】

２つの遺伝子の発現は、１つの細胞型では高度に相関し得るが、他の細胞型では無関係である。異なる細胞型にわたる遺伝子－遺伝子相関を捕捉するために、ＣＤ４Ｔ細胞、ＣＤ８Ｔ細胞、ナチュラルキラー細胞、Ｂ細胞、前Ｂ細胞、ＣＤ１４＋単球、ＦＣＧＲ３Ａ＋単球、赤血球、顆粒球－マクロファージ前駆体、および造血幹細胞を含むベンチマークデータセットにおいて、１０個の最大クラスタ内、例えば、クラスタ当たり５００個を超える細胞内で遺伝子－遺伝子スピアマン相関を計算した（図３および図４）。遺伝子の各対について、１０個のクラスタの中で最も高い相関を最終相関として記録した。

【0067】

実施例３．データの前処理方法を用いたアーチファクトの観測
５つの代表的なデータ前処理方法、例えば、ＮｏｒｍＵＭＩ、ＮＢＲ、ＤＣＡ、ＭＡＧＩＣ、およびＳＡＶＥＲを、ヒト細胞アトラスプロジェクトからの骨髄ｓｃＲＮＡ－ｓｅｑデータに適用した。異なる方法によって処理された５つの異なるデータマトリックスにおける全体的な遺伝子－遺伝子相関の分布を比較した。遺伝子対の大部分は何の関連も有していないと予想されたため、相関分布は０でピークに達すると予想された。図５Ａに示すように、ＮｏｒｍＵＭＩでは、０でピークに達する相関分布が生成された。しかしながら、他の４つの方法では、図５Ａに示すように、スピアマン相関係数に関してはるかに高い中央値相関が生じた（ＮｏｒｍＵＭＩ ρ＝０．０２３、ＮＢＲ ρ＝０．８３９、ＭＡＧＩＣ ρ＝０．７８９、ＤＣＡ ρ＝０．７７０、ＳＡＶＥＲ ρ＝０．１６６）。

【0068】

２つの遺伝子間の相互作用にアクセスして、特定のデータ前処理方法を適用した後、より高い相関が、２つの遺伝子間の機能的または物理的相互作用のいずれかのより高い確率を反映するかどうかを明らかにした。共発現遺伝子によってコードされるタンパク質は、ランダムなタンパク質対よりも互いに相互作用する頻度が高い。結果として生じるより高い相関が真である場合、共発現遺伝子は、タンパク質－タンパク質相互作用データベースにおいて相対的により高いエンリッチメントを有するはずであり、一方、疑似相関は、エンリッチメントを弱めるはずである。５，７７２，１５７個の相互作用遺伝子対を含有するＳＴＲＩＮＧデータベース（Ｓｚｋｌａｒｃｚｙｋｅｔａｌ．）を使用して、上位ランクの共発現遺伝子対におけるタンパク質－タンパク質相互作用エンリッチメントを評価した。各方法からの上位遺伝子対（相関順位による）を選択した。これらの対のうち、ＳＴＲＩＮＧデータベースと重複する部分を、図５Ｂに示すように計算した。結果として、ＮｏｒｍＵＭＩが、上位１００個および１０，０００個の遺伝子対のＳＴＲＩＮＧとそれぞれ８０％および４７％の重複を示し、最も高いタンパク質－タンパク質相互作用エンリッチメントを有したことが示された。対照的に、ＮＢＲ由来の上位遺伝子対は、予想されるＳＴＲＩＮＧとの重複よりも低かった（２％未満）が、ＭＡＧＩＣおよびＤＣＡは、１１％～２２％の範囲の類似したタンパク質－タンパク質相互作用エンリッチメントを有していた。ＳＡＶＥＲは相対的に優れた結果を示したが、エンリッチメントはＮｏｒｍＵＭＩの半分に過ぎなかった。

【0069】

遺伝子対を無作為にサンプリングし、ランダム対をＰＰＩと重ね合わせて、バックグラウンドエンリッチメントレベルを推定した（図５Ｄ）。推定バックグラウンドエンリッチメントレベルは約３．６％であり、ＮＢＲのＰＰＩエンリッチメントがバックグラウンドよりもさらに低かったことを示している。この簡便な方法は、物理的相互作用と遺伝子共発現とを直接関連付けるが、方法のすべてで同じ仮定が行われている場合、結果はデータ前処理方法間の有用な比較も提供する。

【0070】

図５Ａ～５Ｃは、データ前処理方法を使用して遺伝子発現データを処理した場合の、疑似遺伝子－遺伝子相関などのアーチファクトを観測した結果を示す。相関の分布は、図５Ａに示すように、これらの方法間で異なっていた。ＮｏｒｍＵＭＩは０に近い中心分布を有し、ＮＢＲ、ＤＣＡ、ＭＡＧＩＣは明確な膨張相関分布を有していた。ラインは中央値を示す。図５Ｂは、各方法のタンパク質－タンパク質相互作用における上位相関遺伝子対のエンリッチメントを示す。Ｘ軸は、上位ｎ個の遺伝子対を示す。Ｙ軸は、ＳＴＲＩＮＧタンパク質－タンパク質相互作用データベースに現れるｎ個の遺伝子対の画分を示す。ＮｏｒｍＵＭＩのエンリッチメント度は最も高く、次いで、ＳＡＶＥＲ、ＭＡＧＩＣ、ＤＣＡ、ＮＢＲが高い。図５Ｃは、相関性の高い遺伝子対を推論する方法の間で一貫性が低かったことを示している。下側の三角形は、方法間の上位５０００個の遺伝子対の重複を示している。これは、ＮｏｒｍＵＭＩとＤＣＡとの間で最も重複度が高かった。両方の方法で上位５，０００位にランクインしたのは、わずか３０個の遺伝子対であった。上側の三角形では、方法間の共有対の正確なランクを比較し、低い一致度が示された。

【0071】

５つのデータ前処理手順から導出された相関性の高い遺伝子対の一貫性を比較した。各方法からの上位５，０００個の遺伝子対について、一対一の比較を実施した。結果として、方法間の遺伝子対の重複が最小限であることが示された。例えば、上位５，０００個の対のうち、１つの遺伝子対のみが、ＮｏｒｍＵＭＩおよびＮＢＲによって共有された。最も重複したのは、ＮｏｒｍＵＭＩとＤＣＡとの間であり、２つの方法によって共有される遺伝子対は３０個のみであった（図５Ｃの下側の三角形）。各方法における重複対のランクをさらに比較した。結果として、これらの方法による明確に定義されたか、または明確な関係が存在しなかったことが示された（図５Ｃの上側の三角形）。このアプローチは、完全な定量的結果をもたらさなかったにもかかわらず、これらのデータ前処理方法から導出される高い相関はアーチファクトである可能性が高いことが示された。

【0072】

実施例４．陰性対照遺伝子対としての無関係な遺伝子
陰性対照遺伝子対を使用して、疑似相関の潜在的な原因を調査した。陰性対照遺伝子対は、以下の基準、すなわち、（ｉ）２つの遺伝子は、ＳＴＲＩＮＧデータベース内で相互作用する対として現れてはならず、（ｉｉ）２つの遺伝子は、いかなる遺伝子オントロジー（ＧＯ）タームも共有してはならず（Ａｓｈｂｕｒｎｅｒｅｔａｌ．，Ｇｅｎｅｏｎｔｏｌｏｇｙ：ｔｏｏｌｆｏｒｔｈｅｕｎｉｆｉｃａｔｉｏｎｏｆｂｉｏｌｏｇｙ．ＴｈｅＧｅｎｅＯｎｔｏｌｏｇｙＣｏｎｓｏｒｔｉｕｍ．Ｎａｔｕｒｅｇｅｎｅｔｉｃｓ，２０００．２５（１）：ｐ．２５－２９；ＴｈｅＧｅｎｅＯｎｔｏｌｏｇｙＣｏｎｓｏｒｔｉｕｍ，ＴｈｅＧｅｎｅＯｎｔｏｌｏｇｙＲｅｓｏｕｒｃｅ：２０ｙｅａｒｓａｎｄｓｔｉｌｌｇｏｉｎｇｓｔｒｏｎｇ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ，２０１８．４７（Ｄ１）：ｐ．Ｄ３３０－Ｄ３３８）、（ｉｉｉ）２つの遺伝子は、同じ染色体上にあってはならないという基準により定義した。

【0073】

異なるデータ前処理方法を適用した後の、ＭＢ２１Ｄ１およびＯＧＴの遺伝子対、例えば、陰性遺伝子対照対の発現値の散布図を図６に示している。これら２つの遺伝子の相関を示す既存の証拠は存在しなかった。クラスタ２中の６５３４個の細胞のうちの３個のみが、元の発現マトリックスにおいて両方の遺伝子において非ゼロ発現値を有していた。５つの代表的なデータ前処理方法、例えば、ＮｏｒｍＵＭＩ、ＮＢＲ、ＤＣＡ、ＭＡＧＩＣ、およびＳＡＶＥＲを分析に適用した。陰性対照遺伝子対の１つであるＭＢ２１Ｄ１およびＯＧＴは、細胞クラスタ＃２においてＮＢＲ（ρ＝０．８４３）、ＤＣＡ（ρ＝０．８２８）、またはＭＡＧＩＣ（ρ＝０．７３９）処理方法を適用した後に高い相関を有していた。可視化により、これらの相関アーチファクトがデータの過剰な平滑化によって引き起こされ得ることが示唆された。

【0074】

５つの方法のうち、ＮｏｒｍＵＭＩは、生データからゼロカウントを維持する唯一の方法であった。ＮｏｒｍＵＭＩを用いた解析では、６，５３４個の細胞のうち６，１１０個の細胞（９３．５％）が両方の遺伝子においてゼロ値を有し、３個の細胞（０．０４％）が両方の遺伝子において非ゼロ値を有し、１．３％および５．２％の細胞がそれぞれＭＢ２１Ｄ１およびＯＧＴについて非ゼロ値を有していた。他の４つの方法では、元の発現マトリックスからゼロが大きく変化した。これらの手順を適用した後、処理されたデータのすべては、特に元のデータ内の「二重ゼロ領域」において、ある程度の過剰な平滑化が生じ、図６に示すような相関アーチファクトが作成された。ＮＢＲは補完法ではなく、ゼロ値を最小限にシフトしただけであるが、調整された１細胞当たりの大きさが異なるため、人工的なランク相関が導入された。

【0075】

実施例５．ノイズ正則化方法を適用した疑似相関の低減
擬似相関を低減するためにノイズ正則化方法を適用した。前処理方法、例えば、ＮｏｒｍＵＭＩ、ＮＢＲ、ＤＣＡ、ＭＡＧＩＣ、およびＳＡＶＥＲによって処理された発現マトリックスの各項目にランダムノイズを付加した。一例として、細胞ｊにおける遺伝子ｉの発現値は、Ｖとして示される。ノイズは、以下のステップ、すなわち、（ｉ）種々のデータ前処理方法を適用した後の遺伝子ｉの発現分布を計算することと、（ｉｉ）Ｍとして表される遺伝子ｉの発現値の１パーセンタイルを決定することであって、Ｍがノイズレベルの最大値として使用される、決定することと、（ｉｉｉ）０～Ｍの範囲の一様分布乱数を生成し、この乱数をＶに付加することと、によって生成された。

【0076】

このノイズ正則化方法を各前処理方法に適用した後、遺伝子－遺伝子相関を再計算した。図７Ａは、例示的な実施形態による、各方法にノイズ正則化を適用した後の、スピアマン相関分析、例えば、相関分布の結果を示している。異なる色は、異なる方法を示している。結果は、相関の分布に関して図７Ａに示すように、５つの方法すべてにおける相関中央値が０にシフトすることを示しており、これは、ノイズ正則化の適用により相関の膨張が低減されていることを示している。

【0077】

図７Ｂは、例示的な実施形態による、ノイズ正則化を適用した後のタンパク質－タンパク質相互作用における上位相関遺伝子対のエンリッチメントを示している。Ｘ軸は、上位ｎ個の遺伝子対を示している。Ｙ軸は、ＳＴＲＩＮＧタンパク質－タンパク質相互作用データベースに現れるｎ個の遺伝子対の画分を示している。異なる色は、異なる方法を示している。実線の誤差バーは、１０回の反復に基づく９９％信頼区間を示す。すべての方法において、上位相関遺伝子におけるタンパク質－タンパク質相互作用エンリッチメントの実質的な改善が見られた。ＮＢＲは、以前には、タンパク質－タンパク質相互作用において最も低いエンリッチメント度を有していた。しかしながら、ノイズ正則化法を適用した後、ＮＢＲはタンパク質－タンパク質相互作用において最も高いエンリッチメント度を示している。ＮＢＲにおける上位１００個、１，０００個および１０，０００個の相関遺伝子対において、遺伝子対の９９．０％、９６．８％および６７．７％をタンパク質－タンパク質相互作用データベースにおいて見い出すことができ、それぞれ９９．０倍、５０．９倍および３１．６倍の改善に対応する。ＤＣＡは、以前の結果において、平均して約１２％のタンパク質－タンパク質相互作用エンリッチメントを有していた。ノイズ正則化後、ＤＣＡは、上位１００個の対で約９７．６％、上位１０，０００個の対で約５５．８％のエンリッチメントを有し、これは約５倍の改善に対応する。以前に最高のエンリッチメント度を示したＮｏｒｍＵＭＩはまた、約１．１～１．３倍の改善を示した。ノイズ正則化のこれらの結果が堅牢かつ再現性があるかどうかを試験するために、手順を異なるランダムシードで１０回繰り返して、ランダムノイズを生成した。タンパク質－タンパク質相互作用のエンリッチメント性能は、各反復の間で安定していた。多くの点におけるＮＢＲの標準偏差は０．１％未満であった（誤差バーは、図７Ｂにおける９９％信頼区間を表す）。

【0078】

図７Ｃは、相関性の高い遺伝子対を推論する際にノイズ正則化を適用した後の方法間の一貫性を示している。異なる方法間には、より多くの重複遺伝子対が存在した。上位５，０００個の遺伝子対のうち、ＮｏｒｍＵＭＩとＮＢＲとの間には２，８５１個（５７％）の重複した対が存在し（図７Ｃの下側の三角形）、重複した遺伝子対との間に有意な相関が存在した（スピアマン相関＝０．５０、Ｐ値＝１．７７ｅ－１８１、図７Ｃの上側の三角形）。他の方法の中でも、特に高度にランク付けされた遺伝子間においても、ある程度の一致度が示された。図５Ｃに示すようなノイズ正則化を適用せずに生成した結果と比較して、図７Ｃに示すように、異なる方法間での一致度が高かった。例えば、５０％超の遺伝子対が、ノイズ正則化を適用した後、ＮｏｒｍＵＭＩとＮＢＲとの間で共有された。

【0079】

実施例６．ｓｃＲＮＡ－ｓｅｑデータから推論される遺伝子－遺伝子相関ネットワーク
ｓｃＲＮＡ－ｓｅｑから明らかになった遺伝子－遺伝子相関を使用して、細胞型特異的モジュールを明らかにする、より包括的なネットワークを再構築することができる。先の実施例に記載されている本出願のＮＢＲおよびノイズ正則化の組み合わせにより、すべての方法の中で最も高いタンパク質－タンパク質相互作用エンリッチメントが生成された。したがって、先の実施例で説明したように、本出願のＮＢＲおよびノイズ正則化をｓｃＲＮＡ－ｓｅｑデータに適用することによって導出された遺伝子－遺伝子相関を使用して、遺伝子－遺伝子相関ネットワークを再構築した。

【0080】

ハウスキーピング遺伝子は、典型的には、基本的かつ一般的な細胞機能を反映するので、細胞型特異的相互作用により焦点を当てるために、リンクを伴うハウスキーピング遺伝子をネットワーク構築物から除去した。最も高い相関を有する上位１，０００個の遺伝子対を各クラスタ（クラスタ＃０～クラスタ＃９）から取得し、ネットワークを再構築した。次数、ページランク、グラフ理論からの２つのアルゴリズムを使用して、ネットワーク内の各遺伝子の重要度を測定した。ネットワーク内の遺伝子の次数の値は、遺伝子が有するリンク（相互作用）の数に等しい（Ｂｏｎｄｙｅｔａｌ．，ＧｒａｐｈＴｈｅｏｒｙ．２００８：ＳｐｒｉｎｇｅｒＰｕｂｌｉｓｈｉｎｇＣｏｍｐａｎｙ，Ｉｎｃｏｒｐｏｒａｔｅｄ．６５４）。重要な遺伝子は、より多くの遺伝子とつながる傾向があるため、重要な遺伝子は、相対的に高い次数の値を有するはずである。リンクの量に加えて、ページランクは、遺伝子に対する全体的な人気度を測定することによって、遺伝子へのリンクの質を評価するものと考えられている（Ｐａｇｅｅｔａｌ：Ｂｒｉｎｇｉｎｇｏｒｄｅｒｔｏｔｈｅｗｅｂ．１９９９，ＳｔａｎｆｏｒｄＩｎｆｏＬａｂ）。

【0081】

ノイズ正則化なしに構築されたネットワークと比較して、ノイズ正則化を付加して構築されたネットワークは、トポロジー構造において生物学的機能をより良く示すことができる。さらに、次数またはページランクの値が高い遺伝子も免疫系において重要な機能を有する傾向がある。例えば、ＬＹＺ、ＣＤ７９Ｂ、およびＮＫＧ７は、それぞれ、単球、Ｂ細胞、およびナチュラルキラー細胞のための重要なマーカー遺伝子である。これらの３つの遺伝子は、ノイズ正則化されたネットワーク内のページランクおよび次数の高い値を有していた。対照的に、図８Ａおよび図８Ｂに示すように、ノイズ正則化が適用されない場合、ＣＤ７９ＢおよびＮＫＧ７は、ネットワーク内に全く存在しなかった。さらに、既知のタンパク質－タンパク質相互作用情報を使用して、ネットワークをさらに改善した（Ｃｈｅｎｇｅｔａｌ．，ＩｎｆｅｒｒｉｎｇＴｒａｎｓｃｒｉｐｔｉｏｎａｌＩｎｔｅｒａｃｔｉｏｎｓｂｙｔｈｅＯｐｔｉｍａｌＩｎｔｅｇｒａｔｉｏｎｏｆＣｈＩＰ－ｃｈｉｐａｎｄＫｎｏｃｋ－ｏｕｔＤａｔａ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓａｎｄｂｉｏｌｏｇｙｉｎｓｉｇｈｔｓ，２００９．３：ｐ．１２９－１４０；Ｓａｙｙｅｄ－Ａｈｍａｄｅｔａｌ．，Ｔｒａｎｓｃｒｉｐｔｉｏｎａｌｒｅｇｕｌａｔｏｒｙｎｅｔｗｏｒｋｒｅｆｉｎｅｍｅｎｔａｎｄｑｕａｎｔｉｆｉｃａｔｉｏｎｔｈｒｏｕｇｈｋｉｎｅｔｉｃｍｏｄｅｌｉｎｇ，ｇｅｎｅｅｘｐｒｅｓｓｉｏｎｍｉｃｒｏａｒｒａｙｄａｔａａｎｄｉｎｆｏｒｍａｔｉｏｎｔｈｅｏｒｙ．ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ，２００７．８（１）：ｐ．２０）。ＳＴＲＩＮＧタンパク質－タンパク質相互作用データベースに見い出され得る遺伝子－遺伝子相関のみを保持した。続いて、ＥｎｔＯｐｔＬａｙｏｕｔ（Ａｇｇｅｔａｌ．）を適用した。ＥｎｔＯｐｔＬａｙｏｕｔは、ネットワーク内の種々のモジュールを効率的に可視化するネットワークアルゴリズムである。

【0082】

最終的なネットワークにより、図８Ｃに示すように、ベンチマークデータセット内の細胞型と一致する複数の細胞型関連モジュールが明らかになった。このネットワークにより、明確な免疫細胞型関連モジュールが形成された。例えば、右上隅部は、Ｂ細胞および前Ｂ細胞モジュールを表しており、ＣＤ７８ＡおよびＣＤ７９Ｂは、よりページランクが高い（図８Ｃのノードサイズ）と評価された。同様に、右下隅部はナチュラルキラー細胞モジュールを表しており、中間右側領域はＴ細胞、ならびに細胞傷害性ＣＤ８Ｔ細胞からナチュラルキラー細胞への移行を表した。結果として、ノイズ正則化を実施した後、ｓｃＲＮＡ－ｓｅｑデータを使用して、生物学において存在するネットワークをよりよく反映する遺伝子－遺伝子共発現ネットワークを再構築し得ることが示された。

【0083】

図８Ａ～８Ｃは、ｓｃＲＮＡ－ｓｅｑデータから推論される遺伝子－遺伝子相関ネットワークを示している。図８Ａおよび図８Ｂは、ノイズ正則化を適用する前および後に構築された相関ネットワークにおける各遺伝子の次数およびページランクの比較を示している。一方のネットワークで提示され、他方のネットワークでは存在しない遺伝子は、非提示のネットワークでゼロ値が割り当てられた。ＮＫＧ７、ＣＤ７９Ｂ、またはＨＢＢなどの細胞型マーカー遺伝子は、ノイズ正則化後に相対的に高い次数およびページランクを有していた。図８Ｃは、改善された遺伝子－遺伝子相関を有するネットワーク構築を示している。ｓｃＲＮＡ－ｓｅｑデータは、ＮＢＲおよびノイズ正則化を適用することによって処理した。さらに、タンパク質－タンパク質相互作用には存在しなかったリンクは除去された。図８Ｃに示すように、ノードサイズは、遺伝子のページランクに比例する。ＣＤ７９Ａ、ＣＤ７９Ｂ、ＮＫＧ７、ＧＮＬＹ、ＬＹＺ、またはＳＴＭＮ１などの細胞型マーカー遺伝子は、高いページランクを有し、異なる細胞型におけるそれらの重要度を示している。細胞型関連遺伝子はまた、細胞型特異的モジュールを形成した。図９は、ノイズ正則化を適用する前後のリアクトーム経路における上位相関遺伝子対のエンリッチメントを示している。Ｘ軸は、上位ｎ個の遺伝子対を示している。Ｙ軸は、リアクトームデータベースの同じ経路に現れるｎ個の遺伝子対の画分を示している。破線および実線はそれぞれノイズ正則化の前後を表している。

【0084】

実施例７．最適なノイズレベルの決定
ノイズ正則化の間に付加される最適なノイズレベルを、各遺伝子の発現レベルと比較して決定した。各遺伝子の発現レベルの０．１、１、２、５、１０、または２０パーセンタイルなどの異なるノイズレベルを、５つの代表的なデータ前処理方法、例えば、ＮｏｒｍＵＭＩ、ＮＢＲ、ＤＣＡ、ＭＡＧＩＣ、およびＳＡＶＥＲを適用することによって試験した。結果は、図１０に示すように、１パーセンタイルが５つの方法すべてで最高のタンパク質－タンパク質相互作用エンリッチメントを最適に生成したことを示している。続いて、図１１に示すように、遺伝子発現レベルの約０～１パーセンタイルの範囲のランダムノイズを生成し、発現マトリックスに付加した。このノイズ正則化プロセスは、より信頼性の高い遺伝子－遺伝子関係を生成することによって、上位遺伝子対間の偽の相関を有意に低減した。

【0085】

図１１に示すように、ノイズ正則化プロセスは、特定のｓｃＲＮＡ－ｓｅｑ前処理方法によって処理される発現マトリックスを取得することを含み、この発現マトリックスは、ｍ個の細胞におけるｎ個の遺伝子の発現を含有していた。Ｖが細胞ｊにおける遺伝子ｉの発現値であると仮定すると、以下の手順、すなわち、（１）すべての細胞にわたる遺伝子ｉの発現分布を決定することと、（２）遺伝子ｉの発現分布からの第１のパーセンタイルを、Ｍとして表される遺伝子ｉの最大ノイズレベルと見なすことと（Ｍが最小値ｍより小さい場合、ｍが最大ノイズレベルとして使用される）、（３）均一分布下で０～Ｍの範囲の乱数を生成することと、（４）この乱数をＶに付加して、ノイズ正則化発現値を取得することと、（５）発現マトリックスのすべての項目についてこの手順を繰り返すことと、により、ランダムノイズが生成され、Ｖに付加される。
以下に、本開示に含まれる技術思想を付記する。
［付記１］遺伝子－遺伝子相関のためのデータ処理を改善するための方法であって、
正規化または補完のために遺伝子発現データを処理することと、
ノイズ正則化プロセスを前記正規化または補完された遺伝子発現データに適用することと、
遺伝子－遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、を含む、方法。
［付記２］前記遺伝子発現データが、単一細胞遺伝子発現データである、付記１に記載の方法。
［付記３］前記ノイズ正則化プロセスが、発現マトリックス中の細胞内の遺伝子の発現値にランダムノイズを付加することを含む、付記１に記載の方法。
［付記４］前記ランダムノイズが、前記遺伝子の発現レベルによって決定される、付記３に記載の方法。
［付記５］前記ランダムノイズが、
前記発現マトリックス中の前記細胞のすべてにわたる前記遺伝子の発現分布を決定することと、
前記遺伝子の発現レベルの約０．１～約２０パーセンタイルを最大ノイズレベルと見なすことと、
均一分布下で０から前記最大ノイズレベルまでの範囲の乱数を生成することと、
前記発現マトリックス中の前記細胞内の前記遺伝子の前記発現値に前記乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される、付記３に記載の方法。
［付記６］前記ランダムノイズが、
前記発現マトリックス中の前記細胞のすべてにわたる前記遺伝子の発現分布を決定することと、
前記遺伝子の発現レベルの１パーセンタイルを最大ノイズレベルと見なすことと、
均一分布下で０から前記最大ノイズレベルまでの範囲の乱数を生成することと、
前記発現マトリックス中の前記細胞内の前記遺伝子の前記発現値に前記乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される、付記３に記載の方法。
［付記７］前記遺伝子－遺伝子相関計算プロセスが、細胞クラスタ内で行われる、付記１に記載の方法。
［付記８］前記相関遺伝子対に関連付けられた前記遺伝子発現データにエンリッチメントを行うことをさらに含む、付記１に記載の方法。
［付記９］全一意分子識別子正規化（ＮｏｒｍＵＭＩ）、正則化された負の二項回帰（ＮＢＲ）、ディープカウントオートエンコーダネットワーク（ＤＣＡ）、細胞のマルコフ親和性ベースのグラフ補完（ＭＡＧＩＣ）、または発現回復を介した単一細胞分析（ＳＡＶＥＲ）が、正規化または補完のために遺伝子発現データを処理するために使用される、付記１または３または４または５または６に記載の方法。
［付記１０］前記相関遺伝子対に基づいて遺伝子－遺伝子相関ネットワークを構築することをさらに含む、付記１または３または４または５または６に記載の方法。
［付記１１］前記遺伝子－遺伝子相関ネットワークが、細胞型特異的である、付記１０に記載の方法。
［付記１２］分子相互作用をマッピングするために前記遺伝子－遺伝子相関ネットワークを使用すること、実験設計を導いて生物学的事象を調査すること、バイオマーカーを発見すること、比較ネットワーク分析を導くこと、薬物設計を導くこと、細胞の健康状態および疾患状態を比較することによって遺伝子－遺伝子相互作用の変化を識別すること、薬物開発を導くこと、遺伝子の転写調節を予測すること、薬物効率を改善すること、または薬物耐性因子を識別することをさらに含む、付記１０に記載の方法。
［付記１３］前記ネットワークが、相関遺伝子対に基づいて構築され、前記相関遺伝子対が、付記１に記載の方法を使用して取得される、遺伝子－遺伝子相関ネットワーク。
［付記１４］遺伝子－遺伝子相関のためのデータ処理のためのコンピュータ実装方法であって、
遺伝子発現データを取り出すこと、
正規化または補完のために前記遺伝子発現データを処理すること、
ノイズ正則化プロセスを前記正規化または補完された遺伝子発現データに適用すること、
遺伝子－遺伝子相関計算プロセスを適用して相関遺伝子対を取得し、前記相関遺伝子対に基づいて遺伝子－遺伝子相関ネットワークを構築すること、を含む、方法。
［付記１５］前記遺伝子発現データが、単一細胞遺伝子発現データである、付記１４に記載の方法。
［付記１６］前記ノイズ正則化プロセスが、発現マトリックス中の細胞内の遺伝子の発現値にランダムノイズを付加することを含む、付記１４に記載の方法。
［付記１７］前記ランダムノイズが、前記遺伝子の発現レベルによって決定される、付記１６に記載の方法。
［付記１８］前記ランダムノイズが、
前記発現マトリックス中の前記細胞のすべてにわたる前記遺伝子の発現分布を決定することと、
前記遺伝子の発現レベルの約０．１～約２０パーセンタイルを最大ノイズレベルと見なすことと、
均一分布下で０から前記最大ノイズレベルまでの範囲の乱数を生成することと、
前記発現マトリックス中の前記細胞内の前記遺伝子の前記発現値に前記乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される、付記１６に記載の方法。
［付記１９］前記ランダムノイズが、
前記発現マトリックス中の前記細胞のすべてにわたる前記遺伝子の発現分布を決定することと、
前記遺伝子の発現レベルの１パーセンタイルを最大ノイズレベルと見なすことと、
均一分布下で０から前記最大ノイズレベルまでの範囲の乱数を生成することと、
前記発現マトリックス中の前記細胞内の前記遺伝子の前記発現値に前記乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される、付記１６に記載の方法。
［付記２０］前記遺伝子－遺伝子相関計算プロセスが、細胞クラスタ内で行われる、付記１４に記載の方法。
［付記２１］前記相関遺伝子対に関連付けられた前記遺伝子発現データにエンリッチメントを行うことをさらに含む、付記１４に記載の方法。
［付記２２］全一意分子識別子正規化（ＮｏｒｍＵＭＩ）、正則化された負の二項回帰（ＮＢＲ）、ディープカウントオートエンコーダネットワーク（ＤＣＡ）、細胞のマルコフ親和性ベースのグラフ補完（ＭＡＧＩＣ）、または発現回復を介した単一細胞分析（ＳＡＶＥＲ）が、正規化または補完のために遺伝子発現データを処理するために使用される、付記１４または１６または１７または１８または１９に記載の方法。
［付記２３］前記遺伝子－遺伝子相関ネットワークが、細胞型特異的である、付記１４に記載の方法。
［付記２４］分子相互作用をマッピングするために前記遺伝子－遺伝子相関ネットワークを使用すること、実験設計を導いて生物学的事象を調査すること、バイオマーカーを発見すること、比較ネットワーク分析を導くこと、薬物設計を導くこと、細胞の健康状態および疾患状態を比較することによって遺伝子－遺伝子相互作用の変化を識別すること、薬物開発を導くこと、遺伝子の転写調節を予測すること、薬物効率を改善すること、または薬物耐性因子を識別することをさらに含む、付記１４または１６または１７または１８または１９に記載の方法。
［付記２５］遺伝子－遺伝子ネットワークを生成するためのシステムであって、
遺伝子発現データを記憶するように構成されたデータベースと、
命令を記憶するように構成されたメモリと、
前記メモリに結合された少なくとも１つのプロセッサであって、前記少なくとも１つのプロセッサが、
前記遺伝子発現データを取り出すことと、
正規化または補完のために前記遺伝子発現データを処理することと、
ノイズ正則化プロセスを前記正規化または補完された遺伝子発現データに適用することと、
遺伝子－遺伝子相関計算プロセスを適用して相関遺伝子対を取得することと、
前記相関遺伝子対に基づいて遺伝子－遺伝子相関ネットワークを構築することと、を行うための命令を実行するように構成されている、少なくとも１つのプロセッサと、
前記プロセッサに結合され、遺伝子－遺伝子相関のためのクエリを受信し、前記相関遺伝子対および前記構築された遺伝子－遺伝子相関ネットワークの結果を表示することができるユーザインターフェースと、を含む、システム。
［付記２６］前記遺伝子発現データが、単一細胞遺伝子発現データである、付記２５に記載のシステム。
［付記２７］前記ノイズ正則化プロセスが、発現マトリックス中の細胞内の遺伝子の発現値にランダムノイズを付加することを含む、付記２５に記載のシステム。
［付記２８］前記ランダムノイズが、前記遺伝子の発現レベルによって決定される、付記２７に記載のシステム。
［付記２９］前記ランダムノイズが、
前記発現マトリックス中の前記細胞のすべてにわたる前記遺伝子の発現分布を決定することと、
前記遺伝子の発現レベルの約０．１～約２０パーセンタイルを最大ノイズレベルと見なすことと、
均一分布下で０から前記最大ノイズレベルまでの範囲の乱数を生成することと、
前記発現マトリックス中の前記細胞内の前記遺伝子の前記発現値に前記乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される、付記２７に記載のシステム。
［付記３０］前記ランダムノイズが、
前記発現マトリックス中の前記細胞のすべてにわたる前記遺伝子の発現分布を決定することと、
前記遺伝子の発現レベルの１パーセンタイルを最大ノイズレベルと見なすことと、
均一分布下で０から前記最大ノイズレベルまでの範囲の乱数を生成することと、
前記発現マトリックス中の前記細胞内の前記遺伝子の前記発現値に前記乱数を付加して、ノイズ正則化発現マトリックスを取得することと、によって決定される、付記２７に記載のシステム。
［付記３１］前記遺伝子－遺伝子相関計算プロセスが、細胞クラスタを用いて行われる、付記２５に記載のシステム。
［付記３２］前記少なくとも１つのプロセッサが、前記相関遺伝子対に関連付けられた前記遺伝子発現データにエンリッチメントを行うようにさらに構成されている、付記２５に記載のシステム。
［付記３３］全一意分子識別子正規化（ＮｏｒｍＵＭＩ）、正則化された負の二項回帰（ＮＢＲ）、ディープカウントオートエンコーダネットワーク（ＤＣＡ）、細胞のマルコフ親和性ベースのグラフ補完（ＭＡＧＩＣ）、または発現回復を介した単一細胞分析（ＳＡＶＥＲ）が、正規化または補完のために遺伝子発現データを処理するために使用される、付記２５または２７または２８または２９または３０に記載のシステム。
［付記３４］前記遺伝子－遺伝子相関ネットワークが、細胞型特異的である、付記２５に記載のシステム。
［付記３５］前記少なくとも１つのプロセッサが、分子相互作用をマッピングするために前記遺伝子－遺伝子相関ネットワークを利用すること、実験設計を導いて生物学的事象を調査すること、バイオマーカーを発見すること、比較ネットワーク分析を導くこと、薬物設計を導くこと、細胞の健康状態および疾患状態を比較することによって遺伝子－遺伝子相互作用の変化を識別すること、薬物開発を導くこと、遺伝子の転写調節を予測すること、薬物効率を改善すること、または薬物耐性因子を識別することを行うようにさらに構成されている、付記２５または２７または２８または２９または３０に記載のシステム。

【図1】