IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ラボラトリー コーポレイション オブ アメリカ ホールディングスの特許一覧

特許7179766バイオマーカー識別のためのシステムおよび方法
<>
  • 特許-バイオマーカー識別のためのシステムおよび方法 図1
  • 特許-バイオマーカー識別のためのシステムおよび方法 図2
  • 特許-バイオマーカー識別のためのシステムおよび方法 図3
  • 特許-バイオマーカー識別のためのシステムおよび方法 図4
  • 特許-バイオマーカー識別のためのシステムおよび方法 図5
  • 特許-バイオマーカー識別のためのシステムおよび方法 図6
  • 特許-バイオマーカー識別のためのシステムおよび方法 図7A
  • 特許-バイオマーカー識別のためのシステムおよび方法 図7B
  • 特許-バイオマーカー識別のためのシステムおよび方法 図8
  • 特許-バイオマーカー識別のためのシステムおよび方法 図9
  • 特許-バイオマーカー識別のためのシステムおよび方法 図10
  • 特許-バイオマーカー識別のためのシステムおよび方法 図11
  • 特許-バイオマーカー識別のためのシステムおよび方法 図12
  • 特許-バイオマーカー識別のためのシステムおよび方法 図13
  • 特許-バイオマーカー識別のためのシステムおよび方法 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-18
(45)【発行日】2022-11-29
(54)【発明の名称】バイオマーカー識別のためのシステムおよび方法
(51)【国際特許分類】
   G16B 40/00 20190101AFI20221121BHJP
【FI】
G16B40/00
【請求項の数】 21
(21)【出願番号】P 2019561803
(86)(22)【出願日】2018-05-11
(65)【公表番号】
(43)【公表日】2020-07-27
(86)【国際出願番号】 US2018032187
(87)【国際公開番号】W WO2018209165
(87)【国際公開日】2018-11-15
【審査請求日】2021-05-06
(31)【優先権主張番号】62/505,536
(32)【優先日】2017-05-12
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/523,382
(32)【優先日】2017-06-22
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】511172461
【氏名又は名称】ラボラトリー コーポレイション オブ アメリカ ホールディングス
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ジェッセン, ウォルター ジョセフ
【審査官】岡北 有平
(56)【参考文献】
【文献】米国特許第08788444(US,B2)
【文献】米国特許出願公開第2014/0172398(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00 - 99/00
(57)【特許請求の範囲】
【請求項1】
バイオマーカーを識別するための方法であって、
1つまたは複数の所定の用語と関連付けられたデータベース用語を識別するためのクエリを使用して生物医学的テキスト、科学論文の摘要、または生物情報学的データの1つまたは複数の公開情報源をコンピューティングデバイスによってデータマイニングすることと、
各々の前記識別されたデータベース用語と前記1つまたは複数の所定の用語との間の関連付けを、前記コンピューティングデバイスによって、スコアすることと、
前記識別されたデータベース用語を、前記コンピューティングデバイスによって、スクラブすることであって、目的の「実際の」データベース用語ではない申し立てられたデータベース用語を取り除いて、目的の「実際の」データベース用語のみを含むサブセットaを生成することと、
各々の前記識別されたデータベース用語と前記1つまたは複数の所定の用語との前記関連付けの前記スコアに基づいて、サブセットaのサブセットbを、前記コンピューティングデバイスによって、決定することと、
所定の順番でアルゴリズムの組合せを使用して前記サブセットb内のデータベース用語、相互作用、および追加のデータベース用語を含む相互作用ネットワークモデルを、前記コンピューティングデバイスによって、開発することであって、前記相互作用ネットワークモデルが、前記相互作用および前記追加のデータベース用語を特定の組織または臓器に限定する、組織または臓器特有のパラメータを含む事前設定パラメータで開発されることと、
前記サブセットb内のデータベース用語および前記相互作用ネットワークモデル内の前記追加のデータベース用語のランキングに基づいて前記相互作用ネットワークモデルから候補バイオマーカーを、前記コンピューティングデバイスによって、識別することと、
を含み、前記相互作用ネットワークモデルを前記開発することが、
成長アルゴリズムを前記サブセットb内のデータベース用語に適用することであって、前記追加のデータベース用語を含む5~50個のノードのアップストリームを構築し、相関関係および発現関係は前記成長アルゴリズムにおいて除外されることと、
成長アルゴリズムを前記サブセットb内のデータベース用語に適用することであって、前記追加のデータベース用語を含む5~50個のノードのダウンストリームを構築し、前記相関関係および発現関係は前記成長アルゴリズムにおいて除外されることと、
直接接続アルゴリズムを使用して、直接接続された所与の事前設定パラメータであり得るすべてのノードを接続することであって、コアネットワークを作成し、前記相関関係および発現関係は前記直接接続アルゴリズムにおいて除外されることと、
ノード間の最短経路を見つけるためのアルゴリズムを前記コアネットワークに適用することであって、直接接続および1つの追加のステップが存在する接続を識別し、前記相関関係および発現関係は前記最短経路を見つけるための前記アルゴリズムにおいて除外されることと、
前記事前設定パラメータが与えられると直接接続され得る前記コアネットワーク内のすべてのノードに直接接続アルゴリズムを適用することであって、前記相関関係および発現関係は前記直接接続アルゴリズムにおいて除外されることと、
前記最短経路を見つけるための前記アルゴリズムを前記コアネットワークに適用することであって、直接接続および1つの追加のステップが存在する接続を識別し、前記相関関係および発現関係は前記最短経路を見つけるための前記アルゴリズムに含まれることと、
を含む、方法。
【請求項2】
記識別されたデータベース用語の名称、前記識別されたデータベース用語の識別子または記号、および識別された各データベース用語と前記1つまたは複数の所定の用語との前記関連付けの前記スコアを含む前記サブセットbのリストを、前記コンピューティングデバイスによって、生成することと、
をさらに含む、請求項1に記載の方法。
【請求項3】
統計学的プロセスを使用して、前記相互作用ネットワークモデルを、前記コンピューティングデバイスによって、認証することをさらに含み、前記認証することが、前記サブセットb内のデータベース用語とヒトの遺伝子疾患の関連付けを含む独立した第三者データソース内の前記追加のデータベース用語との濃縮を示す統計値を使用することを含む、請求項1に記載の方法。
【請求項4】
第1のデータセットと第2のデータセットとの間の共通集合を、前記コンピューティングデバイスによって、識別することであって、前記第1のデータセットが、前記サブセットb内のデータベース用語および前記相互作用ネットワークモデルからの前記追加のデータベース用語のリストおよび既存の認証されたアッセイを有する既知の検査分析物のリストを含むことと、
前記第1のデータセットと前記第2のデータセットとの前記共通集合を含む基準に基づいて前記サブセットb内のデータベース用語および前記候補バイオマーカーとしての前記追加のデータベース用語を、前記コンピューティングデバイスによって、ランク付けすることと、
をさらに含む、請求項1に記載の方法。
【請求項5】
前記基準が、「バイオマーカー」として1人または複数の治療学の専門家によって独立して推奨されたそれらのデータベース用語である、ランク1候補バイオマーカーと、前記データマイニングすることによって識別された遺伝子またはタンパク質および前記相互作用ネットワークモデルの構成要素などのそれらのデータベース用語である、ランク2候補バイオマーカーと、ランク1またはランク2候補バイオマーカーではないそれらのデータベース用語である、ランク3候補バイオマーカーと、を含む、請求項に記載の方法。
【請求項6】
前記データマイニングすることにおいて発見されなかった前記1つまたは複数の所定の用語と関連付けられる1つまたは複数の追加の用語を識別することと、
前記コンピューティングデバイスによって、前記1つまたは複数の追加の用語をサブセットbにインポートすることと、
をさらに含み、前記相互作用ネットワークモデルが、前記サブセットb内の前記データベース用語および前記1つまたは複数の追加の用語、相互作用、ならびに追加のデータベース用語を含む、請求項1に記載の方法。
【請求項7】
前記1つまたは複数の追加の用語が、前記データベース用語を含む1つまたは複数の生物学的経路に関わる化学物質または小分子を含む、請求項に記載の方法。
【請求項8】
1つまたは複数のプロセッサによって実行されると、
1つまたは複数の所定の用語と関連付けられたデータベース用語を識別するためのクエリを使用して、生物医学的テキスト、科学論文の摘要、または生物情報学的データの1つまたは複数の公開情報源をデータマイニングすることと、
各々の前記識別されたデータベース用語と前記1つまたは複数の所定の用語との間の関連付けをスコアすることと、
前記識別されたデータベース用語をスクラブすることであって、目的の「実際の」データベース用語ではない申し立てられたデータベース用語を取り除いて、目的の「実際の」データベース用語のみを含むサブセットaを生成することと、
各々の前記識別されたデータベース用語と前記1つまたは複数の所定の用語との前記関連付けの前記スコアに基づいて前記サブセットaのサブセットbを決定することと、
所定の順番でアルゴリズムの組合せを使用して前記サブセットb内のデータベース用語、相互作用、および追加のデータベース用語を含む相互作用ネットワークモデルを開発することであって、前記相互作用ネットワークモデルが、前記相互作用および前記追加のデータベース用語を特定の組織または臓器に限定する、組織または臓器特有のパラメータを含む事前設定パラメータで開発され、前記相互作用ネットワークモデルを前記開発することが、
成長アルゴリズムを前記サブセットb内のデータベース用語に適用することであって、前記追加のデータベース用語を含む5~50個のノードのアップストリームを構築し、相関関係および発現関係は前記成長アルゴリズムにおいて除外されることと、
成長アルゴリズムを前記サブセットb内のデータベース用語に適用することであって、前記追加のデータベース用語を含む5~50個のノードのダウンストリームを構築し、前記相関関係および発現関係は前記成長アルゴリズムにおいて除外されることと、
直接接続アルゴリズムを使用して、直接接続された所与の事前設定パラメータであり得るすべてのノードを接続することであって、コアネットワークを作成し、前記相関関係および発現関係は前記直接接続アルゴリズムにおいて除外されることと、
ノード間の最短経路を見つけるためのアルゴリズムを前記コアネットワークに適用することであって、直接接続および1つの追加のステップが存在する接続を識別し、前記相関関係および発現関係は前記最短経路を見つけるための前記アルゴリズムにおいて除外されることと、
前記事前設定パラメータが与えられると直接接続され得る前記コアネットワーク内のすべてのノードに直接接続アルゴリズムを適用することであって、前記相関関係および発現関係は前記直接接続アルゴリズムにおいて除外されることと、
前記最短経路を見つけるための前記アルゴリズムを前記コアネットワークに適用することであって、直接接続および1つの追加のステップが存在する接続を識別し、前記相関関係および発現関係は前記最短経路を見つけるための前記アルゴリズムに含まれることと、
を含むことと、
前記サブセットb内のデータベース用語および前記相互作用ネットワークモデル内の前記追加のデータベース用語のランキングに基づいて前記相互作用ネットワークモデルから候補バイオマーカーを識別することと、
を含む方法を前記1つまたは複数のプロセッサに実行させる命令が記憶された、非一時的機械可読記憶媒体。
【請求項9】
前記方法が、
記識別されたデータベース用語の名称と、前記識別されたデータベース用語の識別子または記号と、前記識別された各データベース用語と前記1つまたは複数の所定の用語との前記関連付けの前記スコアとを含む前記サブセットbのリストを生成することと、
をさらに含む、請求項に記載の非一時的機械可読記憶媒体。
【請求項10】
前記方法が、統計学的プロセスを用いて前記相互作用ネットワークモデルを認証することをさらに含み、前記認証することが、前記サブセットb内のデータベース用語とヒトの遺伝子疾患の関連付けを含む独立した第三者データソース内の前記追加のデータベース用語との濃縮を示すために統計値を使用することを含む、請求項に記載の非一時的機械可読記憶媒体。
【請求項11】
前記方法が、
第1のデータセットと第2のデータセットとの間の共通集合を識別することであって、前記第1のデータセットが、前記サブセットb内のデータベース用語および前記相互作用ネットワークモデルからの前記追加のデータベース用語のリストと既存の認証されたアッセイを有する既知の検査分析物のリストとを含むことと、
前記第1のデータセットと前記第2のデータセットとの前記共通集合を含む基準に基づいて前記サブセットb内のデータベース用語および前記候補バイオマーカーとしての前記追加のデータベース用語をランク付けすることと、
をさらに含む、請求項に記載の非一時的機械可読記憶媒体。
【請求項12】
前記基準が、「バイオマーカー」として1人または複数の治療学の専門家によって独立して推奨されたそれらのデータベース用語である、ランク1候補バイオマーカーと、前記データマイニングすることによって識別された遺伝子またはタンパク質および前記相互作用ネットワークモデルの構成要素などのそれらのデータベース用語である、ランク2候補バイオマーカーと、ランク1またはランク2候補バイオマーカーではないそれらのデータベース用語である、ランク3候補バイオマーカーとを含む、請求項1に記載の非一時的機械可読記憶媒体。
【請求項13】
前記方法が、
前記データマイニングすることにおいて発見されなかった前記1つまたは複数の所定の用語と関連付けられる1つまたは複数の追加の用語を識別することと、
前記1つまたは複数の追加の用語をサブセットbにインポートすることと、
をさらに含み、前記相互作用ネットワークモデルが、前記データベース用語および前記サブセットb内の1つまたは複数の追加の用語、相互作用、ならびに追加のデータベース用語を含む、請求項に記載の非一時的機械可読記憶媒体。
【請求項14】
前記1つまたは複数の追加の用語が、前記データベース用語を含む1つまたは複数の生物学的経路に関わる化学物質または小分子を含む、請求項1に記載の非一時的機械可読記憶媒体。
【請求項15】
1つまたは複数のプロセッサおよび非一時的機械可読記憶媒体と、
1つまたは複数の所定の用語と関連付けられたデータベース用語を識別するためのクエリを使用して生物医学的テキスト、科学論文の摘要、または生物情報学的データの1つまたは複数の公開情報源をデータマイニングするためのプログラム命令と、
各々の前記識別されたデータベース用語と前記1つまたは複数の所定の用語との間の関連付けをスコアするためのプログラム命令と、
前記識別されたデータベース用語をスクラブして目的の「実際の」データベース用語ではない申し立てられたデータベース用語を取り除いて、目的の「実際の」データベース用語のみを含むサブセットaを生成するためのプログラム命令と、
各々の前記識別されたデータベース用語と前記1つまたは複数の所定の用語との前記関連付けの前記スコアに基づいて前記サブセットaのサブセットbを決定するためのプログラム命令と、
所定の順番でアルゴリズムの組合せを使用して前記サブセットb内のデータベース用語、相互作用、および追加のデータベース用語を含む相互作用ネットワークモデルを開発するためのプログラム命令であって、前記相互作用ネットワークモデルが、前記相互作用および前記追加のデータベース用語を特定の組織または臓器に限定する、組織または臓器特有のパラメータを含む事前設定パラメータで開発され、前記相互作用ネットワークモデルを前記開発することが、
成長アルゴリズムを前記サブセットb内のデータベース用語に適用することであって、前記追加のデータベース用語を含む5~50個のノードのアップストリームを構築し、相関関係および発現関係は前記成長アルゴリズムにおいて除外されることと、
成長アルゴリズムを前記サブセットb内のデータベース用語に適用することであって、前記追加のデータベース用語を含む5~50個のノードのダウンストリームを構築し、前記相関関係および発現関係は前記成長アルゴリズムにおいて除外されることと、
直接接続アルゴリズムを使用して、直接接続された所与の事前設定パラメータであり得るすべてのノードを接続することであって、コアネットワークを作成し、前記相関関係および発現関係は前記直接接続アルゴリズムにおいて除外されることと、
ノード間の最短経路を見つけるためのアルゴリズムを前記コアネットワークに適用することであって、直接接続および1つの追加のステップが存在する接続を識別し、前記相関関係および発現関係は前記最短経路を見つけるための前記アルゴリズムにおいて除外されることと、
前記事前設定パラメータが与えられると直接接続され得る前記コアネットワーク内のすべてのノードに直接接続アルゴリズムを適用することであって、前記相関関係および発現関係は前記直接接続アルゴリズムにおいて除外されることと、
前記最短経路を見つけるための前記アルゴリズムを前記コアネットワークに適用することであって、直接接続および1つの追加のステップが存在する接続を識別し、前記相関関係および発現関係は前記最短経路を見つけるための前記アルゴリズムに含まれることと、
を含む、プログラム命令と、
前記サブセットb内のデータベース用語および前記相互作用ネットワークモデル内の前記追加のデータベース用語のランキングに基づいて前記相互作用ネットワークモデルから候補バイオマーカーを識別するためのプログラム命令と、
を含むシステムであって、前記プログラム命令が、前記1つまたは複数のプロセッサによって実行するために前記非一時的機械可読記憶媒体に記憶された、システム。
【請求項16】
記識別されたデータベース用語の名称、前記識別されたデータベース用語の識別子または記号、および各識別されたデータベース用語と前記1つまたは複数の所定の用語との前記関連付けの前記スコアを含む前記サブセットbのリストを生成するためのプログラム命令と、
をさらに含む、請求項1に記載のシステム。
【請求項17】
前記サブセットb内のデータベース用語およびヒトの遺伝子疾患の関連付けを含む独立した第三者データソース内の前記追加のデータベース用語の濃縮を示すために統計値を使用する前記相互作用ネットワークモデルを認証するためのプログラム命令をさらに含む、請求項1に記載のシステム。
【請求項18】
第1のデータセットと第2のデータセットとの間の共通集合を識別するためのプログラム命令であって、前記第1のデータセットが、前記サブセットb内のデータベース用語および前記相互作用ネットワークモデルからの前記追加のデータベース用語のリストと既存の認証されたアッセイを有する既知の検査分析物のリストとを含む、プログラム命令と、
前記第1のデータセットと前記第2のデータセットとの前記共通集合を含む基準に基づいて前記サブセットb内のデータベース用語および前記候補バイオマーカーとしての前記追加のデータベース用語をランク付けするためのプログラム命令と、
をさらに含む、請求項1に記載のシステム。
【請求項19】
前記基準が、「バイオマーカー」として1人または複数の治療学の専門家によって独立して推奨されたそれらのデータベース用語である、ランク1候補バイオマーカーと、前記データマイニングすることによって識別された遺伝子またはタンパク質および前記相互作用ネットワークモデルの構成要素などのそれらのデータベース用語である、ランク2候補バイオマーカーと、ランク1またはランク2候補バイオマーカーではないそれらのデータベース用語である、ランク3候補バイオマーカーと、を含む、請求項1に記載のシステム。
【請求項20】
前記データマイニングすることにおいて発見されなかった前記1つまたは複数の所定の用語と関連付けられる1つまたは複数の追加の用語を識別するためのプログラム命令と、
前記1つまたは複数の追加の用語をサブセットbにインポートするためのプログラム命令と、
をさらに含む請求項1に記載のシステムであって、前記相互作用ネットワークモデルが、前記データベース用語および前記サブセットb内の1つまたは複数の追加の用語、相互作用、および追加のデータベース用語を含む、システム。
【請求項21】
前記1つまたは複数の追加の用語が、前記データベース用語を含む1つまたは複数の生物学的経路に関わる化学物質または小分子を含む、請求項2に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本出願は、2017年6月22日に出願された“SYSTEMS AND METHODS FOR BIOMARKER IDENTIFICATION”と題する米国仮出願番号第62/523,382号、および2017年5月12日に出願された“SYSTEMS AND METHODS FOR BIOMARKER IDENTIFICATION”と題する米国仮出願番号第62/505,536号に基づく優先権および利益を主張しており、これら仮出願の全体の内容は、すべての目的のために参考として本明細書中に援用される。
【0002】
発明の分野
本発明は、バイオマーカー識別のためのシステムおよび方法に関し、詳細には、関連付けおよび知識ベースのシステムおよびプロセスからバイオマーカーを識別するためのシステムおよび方法に関する。
【背景技術】
【0003】
背景
「バイオマーカー」という用語は、一般に、生物系と、化学的、物理的、または生物学的でもよい、潜在的危険性との間の応答を反映して測定することができる任意の物質、構造、またはプロセスを指す。測定される応答は、機能的および生理学的、細胞レベルにおける生化学的、あるいは分子間相互作用でもよい。バイオマーカーの例には、基礎化学を通した脈拍および血圧から血液および他の組織のより複雑な臨床検査までのあらゆるものが含まれる。脈拍および血圧などの従来の医学的兆候は、臨床業務における使用の長い歴史を有し、がんのための腫瘍マーカーなどの今日のバイオマーカーは単に、我々が再現性よく測定することを現代の実験科学が可能にする客観的な、定量化可能な医学的兆候である。バイオマーカー、具体的には分子または遺伝子バイオマーカー、の使用は、幾分新しく、この業務に対する最良の手法は、まだ開発中であり、改良中である。任意の所与の測定可能なバイオマーカーと特定の病状などの潜在的危険性との間の関係を判定することが、重要な課題である。
【0004】
バイオマーカーを識別するための従来の技法を改良するために、研究者の第一目標は、特にハイスループットな技法を用いて分子バイオマーカーのためのゲノム規模でのスクリーニングを最適化し、異なるタイプのオミクスデータに基づいて鑑別分析を実行し、生物情報学を使用してオミクスデータを解釈することであった。具体的には、様々な種類の「-オミクス」(たとえばゲノミクス、トランスクリプトオミクスおよびプロテオミクス)データの蓄積は、疾患リスクを予測するおよび/または疾患発症および進行を確認することができる潜在的分子バイオマーカーを識別することを可能にする。オミクスデータに基づいて識別された分子バイオマーカーは、いくらかの成功を収めたが、分子バイオマーカーの多くは、信頼できず、再現性も低く、1つのデータセットから識別されたバイオマーカーは、時に、同じ疾患の別のデータセットでは機能しない。分子バイオマーカーが、一般に、互いに機能的に独立していると想定されるが、多数の疾患、特に複雑な疾患、は、個別の遺伝子の突然変異ではなく生物系の調節不全の結果として良好に認識されるため、この現象は生じる。したがって、高い精度のバイオマーカー識別のための改良された技法が必要とされている。
【発明の概要】
【課題を解決するための手段】
【0005】
簡単な要旨
様々な実施形態において、1つまたは複数の所定の用語と関連付けられたデータベース用語を識別するためのクエリを使用して、生物医学的テキスト、科学論文の摘要、または生物情報学的データの1つまたは複数の公開情報源をデータマイニングすることと、各々の識別されたデータベース用語と1つまたは複数の所定の用語との間の関連付けをスコアすることと、各々の識別されたデータベース用語と1つまたは複数の所定の用語との関連付けのスコアに基づいてサブセットbを決定することと、所定の順番でアルゴリズムの組合せを使用してサブセットb内のデータベース用語、相互作用、および追加のデータベース用語を含む相互作用ネットワークモデルを開発することと、サブセットb内のデータベース用語および相互作用ネットワークモデル内の追加のデータベース用語のランキングに基づいて相互作用ネットワークモデルから候補バイオマーカーを識別することとを含む、コンピュータで実装される方法が提供される。相互作用ネットワークモデルは、相互作用および追加のデータベース用語を特定の組織または臓器に限定する、組織または臓器特有のパラメータを含む事前設定パラメータで開発され得る。
【0006】
いくつかの態様によれば、コンピュータで実装される方法は、識別されたデータベース用語をスクラブすることであって、目的の「実際の」データベース用語ではない申し立てられたデータベース用語を取り除いて、目的の「実際の」データベース用語のみを含むサブセットaを生成することと、識別されたデータベース用語の名称、識別されたデータベース用語の識別子もしくは記号、および識別された各データベース用語と1つまたは複数の所定の用語との間の関連付けのスコアを含むサブセットbのリストを生成することと、をさらに含む。
【0007】
いくつかの実施形態では、相互作用ネットワークモデルを開発することは、以下のことを含む:成長アルゴリズムをサブセットb内のデータベース用語に適用することであって、追加のデータベース用語を含む5~50個のノードのアップストリームを構築し、相関関係および発現関係は成長アルゴリズムにおいて除外されることと、成長アルゴリズムをサブセットb内のデータベース用語に適用することであって、追加のデータベース用語を含む5~50個のノードのダウンストリームを構築し、相関関係および発現関係は成長アルゴリズムにおいて除外されることと、直接接続アルゴリズムを使用して、直接接続された所与の事前設定パラメータでもよいすべてのノードを接続することであって、コアネットワークを作成し、相関関係および発現関係は直接接続アルゴリズムにおいて除外されることと、ダイクストラの最短経路アルゴリズムをコアネットワークに適用することであって、直接接続および1つの追加のステップが存在する接続を識別し、相関関係および発現関係がダイクストラの最短経路アルゴリズムにおいて除外されることと、事前設定パラメータが与えられると直接接続され得るコアネットワーク内のすべてのノードに直接接続アルゴリズムを適用することであって、相関関係および発現関係は直接接続アルゴリズムにおいて除外されることと、ダイクストラの最短経路アルゴリズムをコアネットワークに適用することであって、直接接続および1つの追加のステップが存在する接続を識別し、相関関係および発現関係がダイクストラの最短経路アルゴリズムにおいて含まれること。
【0008】
他の態様によれば、コンピュータで実装される方法は、第1のデータセットと第2のデータセットとの間の共通集合を識別することであって、第1のデータセットは、サブセットb内のデータベース用語および相互作用ネットワークモデルからの追加のデータベース用語のリストと既存の認証されたアッセイを有する既知の検査分析物のリストとを含むことと、第1のデータセットと第2のデータセットとの間の共通集合を含む基準に基づいてサブセットb内のデータベース用語および候補バイオマーカーとしての追加のデータベース用語をランク付けすることとをさらに含む。
【0009】
必要に応じて、基準は、以下を含む:「バイオマーカー」として1人または複数の治療学の専門家または公開された業界ガイダンスによって独立して推奨されるそれらのデータベース用語である、ランク1候補バイオマーカーと、データマイニングすることによって識別された遺伝子またはタンパク質および相互作用ネットワークモデルの構成要素などのそれらのデータベース用語である、ランク2候補バイオマーカーと、ランク1またはランク2候補バイオマーカーではないそれらのデータベース用語である、ランク3候補バイオマーカー。
【0010】
必要に応じて、本方法は、データマイニングすることにおいて発見されなかった1つまたは複数の所定の用語と関連付けられることになる1つまたは複数の追加の用語を識別することと、1つまたは複数の追加の用語をサブセットbにインポートすることと、をさらに含む。相互作用ネットワークモデルは、データベース用語およびサブセットb内の1つまたは複数の追加の用語と、相互作用と、追加のデータベース用語とを含み得る。ある種の実施形態では、1つまたは複数の追加の用語は、データベース用語を含む1つまたは複数の生物学的経路に関わる化学物質または小分子を含む。
【0011】
他の実施形態において、1つまたは複数のプロセッサによって実行されると、1つまたは複数の所定の用語と関連付けられたデータベース用語を識別するためのクエリを使用して、生物医学的テキスト、科学論文の摘要、または生物情報学的データの1つまたは複数の公開情報源をデータマイニングすることと、各々の識別されたデータベース用語と1つまたは複数の所定の用語との間の関連付けをスコアすることと、識別されたデータベース用語をスクラブすることであって、目的の「実際の」データベース用語ではない申し立てられたデータベース用語を取り除いて、目的の「実際の」データベース用語のみを含むサブセットaを生成することと、各々の識別されたデータベース用語と1つまたは複数の所定の用語との関連付けのスコアに基づいてサブセットaのサブセットbを決定することと、所定の順番でアルゴリズムの組合せを使用してサブセットb内のデータベース用語、相互作用、および追加のデータベース用語を含む相互作用ネットワークモデルを開発することと、サブセットb内のデータベース用語および相互作用ネットワークモデル内の追加のデータベース用語のランキングに基づいて相互作用ネットワークモデルから候補バイオマーカーを識別することと、を含む方法を1つまたは複数のプロセッサに実行させる命令が記憶された非一時的機械可読記憶媒体が提供される。相互作用ネットワークモデルは、相互作用および追加のデータベース用語を特定の組織または臓器に限定する、組織または臓器特有のパラメータを含む事前設定パラメータで開発され得る。
【0012】
さらに他の実施形態では、1つまたは複数のプロセッサおよび非一時的機械可読記憶媒体と、1つまたは複数の所定の用語と関連付けられたデータベース用語を識別するためのクエリを使用して生物医学的テキスト、科学論文の摘要、または生物情報学的データの1つまたは複数の公開情報源をデータマイニングするためのプログラム命令と、各々の識別されたデータベース用語と1つまたは複数の所定の用語との間の関連付けをスコアするためのプログラム命令と、識別されたデータベース用語をスクラブして目的の「実際の」データベース用語ではない申し立てられたデータベース用語を取り除いて目的の「実際の」データベース用語のみを含むサブセットaを生成するためのプログラム命令と、各々の識別されたデータベース用語と1つまたは複数の所定の用語との関連付けのスコアに基づいてサブセットaのサブセットbを決定するためのプログラム命令と、所定の順番でアルゴリズムの組合せを使用してサブセットb内のデータベース用語、相互作用、および追加のデータベース用語を含む相互作用ネットワークモデルを開発するためのプログラム命令と、サブセットb内のデータベース用語および相互作用ネットワークモデル内の追加のデータベース用語のランキングに基づいて相互作用ネットワークモデルから候補バイオマーカーを識別するためのプログラム命令と、を含むシステムが提供される。プログラム命令は、1つまたは複数のプロセッサによって実行するために非一時的機械可読記憶媒体に記憶される。相互作用ネットワークモデルは、相互作用および追加のデータベース用語を特定の組織または臓器に限定する、組織または臓器特有のパラメータを含む事前設定パラメータで開発され得る。
【0013】
本発明は、以下の非限定的図面を見ると、よりよく理解される。
【図面の簡単な説明】
【0014】
図1図1は、本発明の様々な態様による関連付け(たとえば、遺伝子/タンパク質疾患または遺伝子/タンパク質用語関連付け)ベースのシステムおよびプロセスを使用するバイオマーカーを識別するための例示的流れを示す。
【0015】
図2図2は、本発明のいくつかの態様によるサブセットb内のデータベース用語の例示的リストを示す。
【0016】
図3図3は、本発明の様々な態様による知識ベースのシステムおよびプロセスを使用してバイオマーカーを識別するための例示的流れを示す。
【0017】
図4図4は、本発明の様々な態様による例示的マルチノード相互作用ネットワークを示す。
【0018】
図5図5は、本発明の様々な態様によるバイオマーカー分析の例示的流れを示す。
【0019】
図6図6は、本発明の様々な態様により実装されるコンピューティングシステムの例示的アーキテクチャを示す。
【0020】
図7A図7Aおよび7Bは、本発明の様々な態様による生データマイニング結果および遺伝子セット間の論理的関係のベン図を示す。
図7B図7Aおよび7Bは、本発明の様々な態様による生データマイニング結果および遺伝子セット間の論理的関係のベン図を示す。
【0021】
図8図8は、本発明の様々な態様による利用可能な、認証されたアッセイの内訳を示す。
【0022】
図9図9は、本発明の様々な態様による潜在的バイオマーカーのための適応症遺伝子セット間の論理的関係のベン図を示す。
【0023】
図10図10は、本発明の様々な態様によるマイニングおよびモデリングからのデータのベン図を示す。
【0024】
図11図11は、本発明の様々な態様による例示的マルチノード相互作用ネットワークを示す。
【0025】
図12図12は、本発明の様々な態様によるモデル認証にさらなる確実性を与える、既知の生物学的経路を強調した例示的マルチノード相互作用ネットワークを示す。
【0026】
図13図13は、本発明の様々な態様による利用可能な検査のベン図を示す。
【0027】
図14図14は、本発明の様々な態様による候補バイオマーカーのベン図を示す。
【発明を実施するための形態】
【0028】
詳細な説明
I.導入
様々な実施形態において、本発明は関連付けおよび知識ベースのシステムおよびプロセスからバイオマーカーを識別するための方法を対象とする。分子バイオマーカーを識別するための従来の手法は、一般に、閾値を設定することまたはそれらのシーケンシング読取りの全デノボアセンブリを実行することによって、差次的に発現した遺伝子を検出し、発現が閾値を超えて変化するそれらの遺伝子は、ゲノム/トランスクリプトームに対する分子バイオマーカーとして使用される。残念ながら、遺伝子発現データにおいて継承されるノイズは、任意に設定された閾値などで信頼性のある差次的に発現した遺伝子を検出することを困難な仕事にする。したがって、より信頼性のある差次的遺伝子を検出するための統計学的技法、たとえばノンパラメトリック手法および経験的ベイジアン方法、が提案されており、それらの手法の多くは、統計学的検査に基づく。しかしながら、これらの手法は、時間がかかりすぎ、1つのデータセットから識別されたバイオマーカーは、時に、同じ疾患の別のデータセットでは機能しない。
【0029】
これらの問題に対処するために、本発明は、関連付けベースのシステムおよび知識ベースのシステムの両方と1つまたは複数のバイオマーカーを識別するためのプロセスとを実装するシステムおよび方法を対象とする。たとえば、本開示の1つの例示的実施形態は、1つまたは複数の所定の用語と関連付けられたデータベース用語を識別するためのクエリを使用して、生物医学的テキスト、科学論文の摘要、または生物情報学的データの1つまたは複数の公開情報源をデータマイニングすることと、各々の識別されたデータベース用語と1つまたは複数の所定の用語との間の関連付けをスコアすることと、各々の識別されたデータベース用語と1つまたは複数の所定の用語との関連付けのスコアに基づいてサブセットbを決定することと、所定の順番でアルゴリズムの組合せを使用してサブセットb内のデータベース用語を含む相互作用ネットワークモデルを開発することと、相互作用ネットワークモデル内のデータベース用語のランキングに基づいて相互作用ネットワークモデルから候補バイオマーカーを識別することと、を含むコンピュータで実装される方法を対象とする。
【0030】
分子バイオマーカーの識別に関して、本明細書では、いくつかの実施形態が開示されるが、これは限定的であることを意図されていない。分子バイオマーカーの識別に加えて、本明細書で開示される教示はまた、化学的、物理的、または生物学的でもよい、生物系と潜在的危険性との間の応答を反映して測定することができる他のバイオマーカーにも適用することができる。たとえば、細胞または生化学的バイオマーカー、たとえば、前立腺特有の抗原、クレアチンキナーゼ、ジストロフィンタンパク質など、は、個人の健康の状態、疾患発症および進行、あるいは実験的治療が機能しているかどうかを決定するものとして識別され得る。
II.バイオマーカーを識別するための技法
【0031】
図1、3、および5は、本発明の実施形態によるバイオマーカーを識別するために実行される処理を示す簡略化された流れ図である。図1、3、および5のステップは、たとえば、図6のシステム環境において実装され得る。本明細書に記載のように、図1、3、および5の流れ図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータプログラム製品の可能な実装形態のアーキテクチャ、機能性、および動作を示す。これに関連して、流れ図またはブロック図の各ブロックは、指定された論理機能を実装するための1つまたは複数の実行可能な命令を含む、コードのモジュール、セグメント、または一部を表し得る。いくつかの代替実装形態において、ブロックに示された機能は、図中に示された順番以外で生じ得ることにも留意されたい。たとえば、連続して示された2つのブロックは、実際には、実質的に同時に実行されてもよく、またはこれらのブロックは、時に、関与する機能性に応じて、逆の順番で実行されてもよい。ブロック図および/または流れ図の各ブロック、ならびにブロック図および/または流れ図のブロックの組合せは、指定された機能または活動、あるいは専用ハードウェアおよびコンピュータ命令の組合せを実行する専用ハードウェアベースのシステムによって実装され得ることにも留意されたい。
【0032】
図1は、関連付け(たとえば、遺伝子/タンパク質疾患または遺伝子/タンパク質用語関連付け)ベースのシステムおよびプロセスを使用して、バイオマーカーを識別するためのプロセスを示す簡略化された流れ図100を示す。ステップ105において、生物医学的テキスト(たとえば、論文審査のある学術専門誌)、科学論文の摘要、または生物情報学的データの1つまたは複数の公開情報源が、1つまたは複数の所定の用語(すなわち、クエリ用語)と関連付けられたデータベース用語(たとえば、タンパク質、遺伝子、生化学物質、細胞構成要素、遺伝子の部分などの他の生体分子、遺伝子の非コード部分、siRNA、miRNA、ホルモン、ステロイド、ペプチドなど)を識別するためのクエリを使用して、データマイニングされる。1つまたは複数の所定の用語は、肺がんなどの目的の特定の疾患および/またはタバコの煙など目的の疾患のリスク要因のクエリ用語でもよい。ある種の実施形態では、クエリが、「クエリ用語」、「関連付けワード」、および「データベース用語」のうちの1つまたは複数を含む生物医学的テキストの1つまたは複数の公開情報源内のR1、R2、R3およびR4文章(Rは関連性を表す)を識別および列挙するために、PolySearchと呼ばれるウェブベースのツールなどのウェブサーバを使用して、生成される。
【0033】
たとえば、R4文章は、データベース用語のうちのただ1つを含む文章でもよく、統計学的正規化のみに使用される。R3文章は、データベース用語ならびにクエリ用語のうちの1つを有する文章でもよい。R2文章は、データベース用語のうちの1つ、クエリ用語のうちの1つ、ならびに少なくとも1つの関連付けワードを有する文章でもよい。R1文章は、R2文章と同じでもよいが、加えて、R1文章は、パターン認識基準に合格する必要があり得る。例示的関連付けワードは、たとえば、クエリ用語とデータベース用語との間の関連付けを開発するワードを含み得る:患者(patients)、治療(treatment)、リスク(risk)、関連付けられた(associated)、役割(role)、抗原(antigen)、関連付け(association)、常染色体(autosomal)、バイオマーカー(biomarker)、引き起こす(cause)、引き起こされた(caused)、減衰(decline)、不足(deficiency)、不足した(deficient)、削除された(deleted)、診断された(diagnosed)、診断(diagnosis)、顕性(dominant)、上昇させる(elevate)など。しかしながら、関連付けベースのシステムおよびプロセスを使用してバイオマーカーを識別する主目標を修正箇所が変更しないことを条件として、この識別および列挙プロセスの修正箇所は、受け入れ可能になり得、前述のプロセスに類似のステップを含むおよび/またはステップの削減または追加を含む(たとえば、R3文章のみを使用して(データベース用語およびクエリ用語の両方の発生))修正箇所を含み得るが、これらに限定されないことが、当業者には理解されよう。
【0034】
ステップ110において、各識別されたデータベース用語と1つまたは複数の所定の用語との間の関連付けがスコアされる。たとえば、関連性ルールおよびパターン認識が、関連付けの強さをスコアするために、遺伝子もしくはタンパク質などの識別されたデータベース用語および/または1つもしくは複数の所定の用語を含む文章、パラグラフ、または摘要内で使用され得る。いくつかの実施形態では、スコアすることは、「クエリ用語」-「関連付けワード」-「データベース用語」パターンを識別するためにパターン認識を使用して実行され、ワードの定義された数(たとえば、距離)は、「クエリワード」と「関連付けワード」との間である、および/または、ワードの定義された数(たとえば、距離)は、「クエリワード」と、「関連付けワード」と、「データベース用語」との間である。ある種の実施形態では、スコアは、集合的にR1、R2、R3およびR4文章のそれぞれについて計算された関連付け値の合計である。スコアの生成および個別の関連付け値の計算を目的として、R1文章は、たとえば50、の値を与えられてもよく、R2文章は、たとえば25、の値を与えられてもよく、R3文章は、たとえば5、の値を与えられてもよく、R4文章は、たとえば1、の値を与えられてもよい。各タイプの文章について提供される関連付け値は、バイオマーカーの識別のより高い精度を実現するように調整することができる重みである。
【0035】
ステップ115において、識別されたデータベース用語は、目的の「実際の」データベース用語ではない申し立てられたデータベース用語(たとえば、クエリからの「誤検出」結果)を取り除いて目的の「実際の」データベース用語、たとえば認証された遺伝子またはタンパク質、のみを含むサブセットaを生成するために、スクラブされる。ある種の実施形態では、このスクラブは、マッピングアプリケーションを使用した、遺伝子またはタンパク質識別子および記号に対する遺伝子またはタンパク質の名称などのデータベース用語のマッピングを含む。データキュレーションが、「実際の」遺伝子またはタンパク質ではないすべての申し立てられた遺伝子またはタンパク質を取り除くために、マッピングアプリケーションによってマップされることができなかったそれらの遺伝子またはタンパク質に実行され得る。
【0036】
ステップ120において、識別およびスクラブされたデータベース用語のサブセットaのサブセットbが、各識別されたデータベース用語と1つまたは複数の所定の用語との間の関連付けのスコアに基づいて決定される。たとえば、サブセットbは、1つまたは複数の所定の用語(すなわち、最も高いスコアを付けられた関連付けを有するそれらの遺伝子またはタンパク質)に関連付けられているものとして識別された上位30、50、75、または100のデータベース用語を分離するためのスコア閾値を割り当てることによって、決定され得る。この目的は、図3に関して説明される適応症モデルを構築するためのシードとして使用することができるクエリ用語とデータベース用語との間の30~100のスコアの高い関連付けを識別することである。
【0037】
ステップ125では、サブセットb内のすべてのデータベース用語のリストが生成される。ある種の実施形態では、このリストは、遺伝子またはタンパク質の名称などのデータベース用語の名称と、遺伝子またはタンパク質の識別子または記号と、各識別された遺伝子またはタンパク質と1つまたは複数の所定の用語との間の関連付けのスコアとを含む。図2は、本発明の様々な態様によるサブセットb内のデータベース用語205の例示的リスト200を示す。ある種の実施形態では、プロセスは、データマイニングにおいて発見されなかった1つまたは複数の所定の用語と関連付けられることになる1つまたは複数の追加の用語を識別することと、1つまたは複数の追加の用語をサブセットbにインポートすることとをさらに含む。たとえば、当分野の専門家または科学者は、事前知識に基づいて1つまたは複数の追加の用語を提供してもよく、あるいは、1つまたは複数の追加の用語は、ステップ105で実行されたクエリとは異なるデータベースクエリ(たとえば、イントラネットクエリまたはウェブクエリ)を使用して、見つけることができる。ある種の実施形態では、1つまたは複数の追加の用語は、データベース用語を含む1つまたは複数の生物学的経路に関わる化学物質または小分子を含む。
【0038】
図3は、知識ベースのシステムおよびプロセスを使用してバイオマーカーを識別するためのプロセスを示す簡略化された流れ図300を示す。ステップ305で、サブセットb内のデータベース用語、相互作用、および追加のデータベース用語を含む、相互作用ネットワークモデル(たとえば、遺伝子/タンパク質-遺伝子/タンパク質相互作用モデル)が、ダイクストラの最短経路アルゴリズム(またはノード間の最短経路を見つけるための類似のアルゴリズム)、直接接続アルゴリズム(たとえば、ネットワーク内の既存のノード間の直接接続を識別するアルゴリズム)、成長アルゴリズムなど、所定の順番のアルゴリズムの組合せを使用して、開発される。ある種の実施形態では、相互作用およびネットワークに追加されるデータベース用語(たとえば、遺伝子/タンパク質)は、所与の組織、組織のセット(たとえば、肺組織)、あるいはモデル化されている1つまたは複数の所定の用語に関連する臓器(たとえば、腎臓)に限定される。具体的には、サブセットb内の遺伝子またはタンパク質のペアが選択され、このペアの両方の遺伝子またはタンパク質と直接相互作用する1つまたは複数の組織/臓器特有の遺伝子またはタンパク質が、識別され得る。直接相互作用の識別は、同業者による審査を受けた研究データに基づいてもよく、ペアの両方の遺伝子またはタンパク質での1つまたは複数の組織/臓器特有の遺伝子またはタンパク質の方向、機構および効果を指定することができる。これらの「遺伝子またはタンパク質のサブネットワーク」が、アルゴリズムで繰り返し構築されて、大きなマルチノード遺伝子/タンパク質-遺伝子/タンパク質相互作用ネットワークを形成する。
【0039】
様々な実施形態において、相互作用ネットワークモデル(たとえば、遺伝子/タンパク質-遺伝子/タンパク質相互作用モデル)が、事前設定パラメータ、たとえば、組織/臓器特有のパラメータおよび排他的間接的相互作用パラメータ、を用いて開発される。最初に、成長アルゴリズムが、遺伝子/タンパク質アップストリームなどの追加のデータベース用語(相関関係および発現関係を除く)を含む、5~50個のノード、たとえば25個のノード、を構築するために、サブセットb内のデータベース用語に適用され得る。加えて、成長アルゴリズムが、遺伝子/タンパク質ダウンストリームなどの追加のデータベース用語(相関関係および発現関係を除く)を含む5~50個のノード、たとえば25個のノード、を構築するために、サブセットb内のデータベース用語に適用され得る。その後、直接接続アルゴリズム(たとえば、ネットワーク内の既存のノード間の直接接続を識別するアルゴリズム)が、事前設定パラメータ(相関関係および発現関係を除く)が与えられると直接接続され得るすべてのノードを接続するために使用され得る。このプロセスは、それらのデータベース用語と相互作用する組織/臓器特有の接続およびノードと共にモデル化されている疾患またはクエリ用語に関連付けられた(すなわち、データマイニングからの)データベース用語に基づいてコアネットワークを作成する。本質的に、これらのステップは、追加のデータベース用語あるいは疾患またはクエリ用語に高度に関連付けられているものとして前に識別された(すなわち、図1に関して論じるデータマイニングからの)データベース用語または遺伝子/タンパク質の周りの追加のデータベース用語または遺伝子/タンパク質相互作用の「近傍」を構築する。
【0040】
コアネットワークが作成された後は、ダイクストラの最短経路アルゴリズム(またはノード間の最短経路を見つけるための類似のアルゴリズム)が、直接接続および1つの追加のステップが存在する接続(相関関係および発現関係を除く)を識別するために適用され得る。その後、直接接続アルゴリズムが、事前設定パラメータが与えられると直接接続され得る(相関関係および発現関係を除く)すべてのノードを接続するために適用され得る。その後、ダイクストラの最短経路アルゴリズム(またはノード間の最短経路を見つけるための類似のアルゴリズム)が、直接接続および1つの追加のステップが存在する接続(相関関係および発現関係を含む)を識別するために適用され得る。直接の物理的接続のみが識別されるとき、相関関係および発現関係の除外は、より大きなモデル関連性を可能にする。このプロセスの最後のステップの間の相関関係および発現関係の包含は、モデル内の他のノードに対する未決定の物理的相互作用とバイオマーカーの統合に対する敏感性を可能にする。
【0041】
ステップ310で、接続を行わない個別のノードならびに小分画ネットワークは放棄され、単一の大きなマルチノード相互作用ネットワークが保持される。図4は、本発明の様々な態様による各識別されたペア410の両方の遺伝子またはタンパク質と直接相互作用する1つまたは複数の組織/臓器特有の遺伝子またはタンパク質405を含む例示的マルチノード相互作用ネットワーク400を示す。ステップ315で、相互作用ネットワークモデルは、それが疾患生態を正確にシミュレーションすることを確実にするように認証される。ある種の実施形態では、認証は、サブセットb内のデータベース用語とヒトの遺伝子疾患の関連付けを含む独立した第三者のデータソース内の相互作用ネットワークモデルからの遺伝子/タンパク質などの追加のデータベース用語との濃縮(たとえば、有意の過剰提示)を明示するための統計値を使用して、実行され得る。これは、第三者データソースにおいて目録に載せられた疾患遺伝子リストに対するモデル遺伝子リストの濃縮P値を得るための超幾何学的検査を使用して、行われ得る。
【0042】
ステップ320で、相互作用ネットワークモデルが、統計学的に認証され得る場合、プロセスは継続する。ある種の実施形態では、相互作用ネットワークモデルが実証した、すなわち独立した第三者データソースにおいてモデル化されている疾患またはクエリ用語に関連付けられた遺伝子/タンパク質で相互作用ネットワークモデルが強化された、場合、次いで、相互作用ネットワークモデルは、既知アッセイの構成要素であり、(1)モデル化された適応症のバイオマーカーとして1人または複数の治療学の専門家から推奨された遺伝子/タンパク質、(2)(図1に関して説明されるようなデータマイニングからの)モデル化された適応症と有意に関連付けられた遺伝子/タンパク質、あるいは(3)モデル構築中に追加された遺伝子/タンパク質のいずれかである、遺伝子/タンパク質ノードを識別するために使用される。ステップ325で、相互作用ネットワークモデルが、統計学的に認証され得ない場合、相互作用ネットワークモデルは放棄され、プロセスは、ステップ305でもう一度やり直すことができる。たとえば、相互作用ネットワークモデルが疾患生態を表す確実性が存在せず、したがって、相互作用ネットワークモデルが放棄される。いくつかの実施形態では、プロセスは、変更されたパラメータを使用してモデル化することによって、ステップ305でもう一度やり直すことができる。しかしながら、ある場合には、問題はモデル化ではなく、正確なモデルを構築するための証拠/データの欠如である。
【0043】
図5は、バイオマーカー分析のためのプロセスを示す簡略化された流れ図500を示す。ステップ505で、サブセットb内のデータベース用語および相互作用ネットワークモデル内の追加のデータベース用語は、候補バイオマーカーとしてランク付けされる。ある種の実施形態では、段階的プロセスが、候補バイオマーカーの確実性スコアを提供するために使用され得る。段階的プロセスは、2つのデータセット:相互作用ネットワークモデルからの遺伝子/タンパク質などのデータベース用語(たとえば、サブセットb内のデータベース用語および追加のデータベース用語)のリストと既存の認証されたアッセイを有する既知の検査分析物のリストとの間の共通集合を識別すること、ならびに、以下の基準に基づいてデータベース用語をランク付けすることを含み得る:モデル化された相互作用ネットワークのための「バイオマーカー」としての1人または複数の治療学の専門家または公開された業界ガイダンスによって独立して推奨された遺伝子またはタンパク質などのそれらのデータベース用語である、ランク1候補バイオマーカー(すなわち最も高い確実性の候補)。ランク2候補バイオマーカー(すなわち、確実性がより低い候補)は、2つの基準を満たす:(1)それらはデータマイニングを介して識別される、ならびに、(2)それらはモデルの構成要素である(すなわち、モデル化プロセスを通して放棄されていない)。ランク3候補バイオマーカー(すなわち、確実性が最も低い候補)は、ランク1またはランク2ではない遺伝子またはタンパク質などのそれらのデータベース用語である。
【0044】
ステップ510で、既存の、認証されたアッセイに対してマップしない各々の結果として生じるデータベース用語について、データベース用語は、生物学的認証、臨床的有用性、およびアッセイ開発を必要とすることになる、潜在的バイオマーカーと考えることができる。ステップ515で、既存の、認証されたアッセイにマップしない、結果として生じるデータベース用語関連付けのそれぞれについて、特定の疾患のバイオマーカーとして最大の可能性を有する候補バイオマーカー(たとえば、上位10、15、20、または25の遺伝子またはタンパク質)が、候補バイオマーカーとして、モデル内のデータベース用語のランクに基づいて識別される。
III.システム環境
【0045】
図6は、本発明のいくつかの実施形態として実装されたコンピューティングシステム600の例示的アーキテクチャである。コンピューティングシステム600は、適切なコンピューティングシステムの単に一例であり、本発明の使用または機能性の範囲に関する制限を示唆することは意図されていない。また、コンピューティングシステム600は、コンピューティングシステム600内に示された構成要素の任意の1つまたは組合せに関する依存または要件を有するものとして解釈されるべきではない。
【0046】
図6に示すように、コンピューティングシステム600は、コンピューティングデバイス605を含む。コンピューティングデバイス605は、クラウド環境内などのネットワークインフラストラクチャ上に存在することができ、または別個の独立したコンピューティングデバイス(たとえば、サービスプロバイダのコンピューティングデバイス)でもよい。コンピューティングデバイス605は、バス610、プロセッサ615、記憶デバイス620、システムメモリ(ハードウェアデバイス)625、1つまたは複数の入力デバイス630、1つまたは複数の出力デバイス635、および通信インターフェース640を含み得る。
【0047】
バス610は、コンピューティングデバイス105の構成要素の間の通信を可能にする。たとえば、バス610は、メモリバスまたはメモリコントローラと、周辺バスと、様々なバスアーキテクチャのいずれかを使用してコンピューティングデバイス605の様々な他の構成要素に、そのような構成要素から、そのような構成要素の間でデータおよび/または電力を転送するための1つまたは複数のワイヤードまたはワイヤレス通信リンクまたは経路を提供するローカルバスとを含む、いくつかのタイプのバス構造体のうちのいずれかでもよい。
【0048】
プロセッサ615は、本発明の機能性、ステップ、および/またはパフォーマンスを実装するためのコンピューティングデバイス605の様々な他の構成要素のうちの1つまたは複数の構成要素の動作およびパフォーマンスを制御するためのプログラム命令など、コンピュータ可読プログラム命令を解釈および実行するように動作可能な処理回路を含む、1つまたは複数の従来のプロセッサ、マイクロプロセッサ、または特殊な専用プロセッサでもよい。ある種の実施形態では、プロセッサ615は、コンピュータ可読プログラム命令によって動作可能なように実装され得る、本発明のプロセス、ステップ、機能、および/または動作を解釈および実行する。たとえば、プロセッサ615は、生物医学的テキスト(たとえば、論文審査のある学術専門誌)、科学論文の摘要、または生物情報学的データの1つまたは複数の公開情報源を含む参照データセットからデータベース用語のリストをデータマイニングする、たとえば、問い合わせるおよび/または他の方法で取得もしくは生成する、ことができ、スクラブされた識別されたデータベース用語のサブセットbをスコアに基づいて決定することができ、サブセットbのリストを生成することができる。プロセッサ615はさらに、スクラブされた識別されたデータベース用語のサブセットbをアルゴリズムで使用して相互作用ネットワークモデルを開発し、相互作用ネットワークモデルから候補バイオマーカーを識別することができる。実施形態において、サブセットbのリスト、相互作用ネットワークモデル、および、プロセッサ615によって開発された候補バイオマーカーのリストは、記憶デバイス620に記憶することができる。
【0049】
記憶デバイス620は、磁気および/または光記録媒体およびそれらの対応するドライブなど、非一時的機械可読記憶媒体などの、但しこれらに限定されない、取り外し可能な/取り外し不可能な、揮発性/不揮発性コンピュータ可読媒体を含み得る。ドライブおよびそれらの関連するコンピュータ可読媒体は、コンピュータ可読プログラム命令、データ構造体、プログラムモジュール、および本発明の異なる態様によるコンピューティングデバイス605の動作のための他のデータの記憶を行う。実施形態において、記憶デバイス620は、オペレーティングシステム645、アプリケーションプログラム650、および本発明の態様によるプログラムデータ655を記憶することができる。
【0050】
システムメモリ625は、たとえば、フラッシュメモリなどの非一時的機械可読記憶媒体、読取り専用メモリ(「ROM」)などの永久メモリ、ランダムアクセスメモリ(「RAM」)などの半永久メモリ、任意の他の適切なタイプの非一時的ストレージ構成要素、またはその任意の組合せを含む、1つまたは複数の記憶媒体を含み得る。いくつかの実施形態では、起動中など、コンピューティングデバイス605の様々な他の構成要素の間での情報の転送を助ける基本ルーチンを含む入力/出力システム660(BIOS)が、ROMに記憶され得る。加えて、プロセッサ615にアクセス可能なおよび/またはプロセッサ615によって現在操作されている、オペレーティングシステム645の少なくとも一部、プログラムモジュール、アプリケーションプログラム650、および/またはプログラムデータ655など、データおよび/またはプログラムモジュール665は、RAMに含まれ得る。実施形態において、プログラムモジュール665および/またはアプリケーションプログラム650は、クエリデバイスまたはウェブクローラ、Dikstraの最短経路などのアルゴリズム、直接接続アルゴリズム、相互作用ネットワークモデルを構築するための成長アルゴリズム、比較ツール、ならびに、たとえば、プロセッサ615の実行のための命令およびデータを提供する、既知の分析抗原およびアッセイの、1つまたは複数のデータベースを含み得る。
【0051】
1つまたは複数の入力デバイス630は、タッチパッド、ダイヤル、クリックホイール、スクロールホイール、タッチスクリーン、1つまたは複数のボタン(たとえば、キーボード)、マウス、ゲームコントローラ、トラックボール、マイクロホン、カメラ、近接センサ、光検出器、モーションセンサ、生体センサ、およびその組合せなどの、但しこれらに限定されない、オペレータがコンピューティングデバイス605に情報を入力することを可能にする1つまたは複数の機構を含み得る。1つまたは複数の出力デバイス635は、オーディオスピーカ、ヘッドホン、オーディオライン出力端子、画像表示、アンテナ、赤外線ポート、触覚フィードバック、プリンタ、またはその組合せなどの、但しこれらに限定されない、オペレータに情報を出力する1つまたは複数の機構を含み得る。
【0052】
通信インターフェース640は、モバイルデバイス、または、たとえば、ネットワーク化された環境、たとえばクラウド環境、内のサーバなどの他のコンピューティングデバイスなど、リモートデバイスまたはシステムとコンピューティングデバイス605が通信することを可能にする任意のトランシーバのような機構(たとえば、ネットワークインターフェース、ネットワークアダプタ、モデム、またはその組合せ)を含み得る。たとえば、コンピューティングデバイス605は、通信インターフェース640を使用して、1つまたは複数のローカルエリアネットワーク(LAN)および/または1つまたは複数のワイドエリアネットワーク(WAN)を介して、リモートデバイスまたはシステムに接続され得る。
【0053】
本明細書で論じるように、コンピューティングシステム600は、バイオマーカーを識別するように構成され得る。具体的には、コンピューティングデバイス605は、システムメモリ625などの非一時的機械可読記憶媒体に含まれるプログラム命令を実行するプロセッサ615に応答してタスク(たとえば、プロセス、ステップ、方法および/または機能)を実行することができる。プログラム命令は、データ記憶デバイス620などの別のコンピュータ可読媒体(たとえば、非一時的機械可読記憶媒体)から、あるいは通信インターフェース640またはクラウド環境内のもしくはその外のサーバを介して別のデバイスから、システムメモリ625に読み込まれ得る。実施形態において、オペレータは、本発明の態様により、タスクのパフォーマンスを円滑にするおよび/またはそのようなタスクの最終結果を実現するために、1つまたは複数の入力デバイス630および/または1つまたは複数の出力デバイス635を介して、コンピューティングデバイス605と対話することができる。追加のまたは代替実施形態では、ハードワイヤード回路が、本発明の異なる態様と一致して、タスク、たとえば、ステップ、方法および/または機能、を実装するためのプログラム命令の代わりに、またはそのようなプログラム命令と組み合わせて、使用され得る。したがって、本明細書で開示されるステップ、方法および/または機能は、ハードウェア回路およびソフトウェアの任意の組合せで実装することができる。
【実施例
【0054】
IV.実施例
本明細書で論じられる実施形態の範囲を制限することを意図することなく、様々な実施形態において実装されるシステムおよび方法は、以下の例を参照することによって、よりよく理解することができる。
(実施例1)
【0055】
以下の実施例の目的は、以下のことを識別するために、データマイニングおよび適応症モデル化を実行することであった:(1)慢性閉塞性肺疾患(COPD:chronic obstructive pulmonary disease)、心臓血管疾患(CVD:cardiovascular disease)、肺がん(LC:lung cancer)またはタバコの煙(TS:tobacco smoke)に関連する遺伝子、(2)肺内の疾患適応症およびタバコの煙に共に関連するコーヴァンス翻訳バイオマーカー解決法(TBS: Translational Biomarker Solution)群に既存のアッセイを有する候補バイオマーカー、ならびに、(3)肺内の疾患適応症およびタバコの煙に共に関連するアッセイ開発(すなわちTBSによって現在提供されていない検査)のための潜在的バイオマーカー。
関連性の基準
【0056】
この手法は、R1、R2、R3およびR4文章(Rは関連性を表す)を識別および列挙するために、ウェブサーバを使用してクエリ用語、関連付けワードおよびデータベース用語を見つけようと試みた。R4文章は、データベース用語のうちの1つだけを含む文章として定義され、統計学的正規化のためにのみ使用される。R3文章は、データベース用語のうちの1つならびにクエリワードを有する文章として定義された。R2文章は、データベース用語のうちの1つ、クエリ用語のうちの1つ、ならびに少なくとも1つの関連付けワードを有する文章として定義された。R1文章は、R2文章と同じものとして定義されたが、加えて、R1文章は、パターン認識基準に合格する必要があった。パターン認識システムは、ルールに基づいたものであり、タンパク質-タンパク質相互作用を取り出するために伝統的に使用された。集合的に、R1、R2、R3およびR4文章カウントのzスコアは、関連性インデックス(RI:Relevancy Index)スコアを生成するために使用された。RIスコアの生成およびZスコアの計算を目的として、R1文章は50の値を与えられ、R2文章=25、R3文章=5、ならびにR4文章=1であった。RIスコアは、R1、R2、R3およびR4文章の合計である。
データマイニングパラメータ
【0057】
最初に、メドライン(データベース=PubMed)が、遺伝子疾患または遺伝子用語関連付けについてデータマイニングされた。具体的には、3つの疾患適応症が調査された:CVD、COPD、およびLC。COPDについては、同義語キーワードは、以下を含んだ:慢性閉塞性肺疾患(chronic obstructive pulmonary disease);COAD;COLD-慢性閉塞性肺疾患(chronic obstructive lung disease);COPD;COPD-慢性閉塞性肺疾患(chronic obstructive pulmonary disease);慢性閉塞性気道疾患(chronic obstructive airways disease);慢性閉塞性肺疾患(chronic obstructive lung disease);慢性気流制限(chronic airflow limitation);慢性気道疾患(chronic airway disease);慢性気道閉塞(chronic airway obstruction);慢性不可逆気道閉塞(chronic irreversible airway obstruction);慢性閉塞性気道疾患(chronic obstructive airway disease);肺疾患、慢性閉塞性(pulmonary disease, chronic obstructive)。CVについては、同義語キーワードは、以下を含んだ:心臓血管疾患(cardiovascular disease);循環系障害(circulatory system disorder);心臓血管系疾患(cardiovascular system diseases);循環障害(circulatory disorders);循環疾患(circulatory disease);循環系疾患(circulatory system diseases);循環系の疾患(diseases of the circulatory system);循環系の障害(disorder of the circulatory system);循環障害(circulatory disorder)。LCについては、同義語キーワードは、以下を含んだ:肺がん(lung cancer);肺のがん(cancer of lung);肺のがん(cancer of the lung);がん 肺臓(cancer, lung);がん 肺(cancer, pulmonary);肺がん(複数)(lung cancers);悪性肺新生物(malignant lung neoplasm);悪性肺腫瘍(malignant lung tumor);肺の悪性新生物(malignant neoplasm of the lung);肺の悪性腫瘍(malignant tumor of the lung);肺の悪性新生物(malignant neoplasm of lung);肺の悪性腫瘍(malignant tumor of lung);肺がん(pulmonary cancer);肺がん(複数)(pulmonary cancers)。メドライン(データベース=PubMed)はまた、用語「タバコの煙(tobacco smoke)」に関連する遺伝子についてデータマイニングされた。
【0058】
すべての疾患適応症クエリは、フィルタワードを含んだ:欠如(absence);アクティビティ(activity);変更する(alter);変更された(altered);変更している(altering);変更する(alters);抗体(複数)(antibodies);抗体(antibody);抗原(antigen);抗原(複数)(antigens);関連付けられた(associated);関連付け(association);関連付け(association);常染色体(autosomal);バイオマーカー(biomarker);バイオマーカー(複数)(biomarkers);引き起こす(cause);引き起こされた(caused);引き起こす(causes);引き起こしている(causing);減衰(decline);減衰された(declined);不足(deficiency);不足した(deficient);削除された(deleted);診断された(diagnosed);診断(diagnosis);顕性(dominant);上昇させる(elevate);上昇させられた(elevated);酵素(enzyme);発現した(expressed);発現(expression);遺伝子(gene);遺伝子(複数)(genes);関わる(involve);関わった(involved);関わっている(involving);欠いている(lacking);導く(lead);導いている(leading);導く(leads);導かれた(led);つながり(linkage);つながれた(linked);遺伝子座(locus);マーカー(marker);マーカー(複数)(markers);mRNA(mRNA);mRNA(複数)(mRNAs);突然変異された(mutated);突然変異(mutation);突然変異(複数)(mutations);観測する(observe);観測された(observed);観測する(observes);観測している(observing);多型の(polymorphic);多型(polymorphism);多型(複数)(polymorphisms);生み出す(produce);生み出された(produced);生み出す(produced);製造(production);タンパク質(protein);タンパク質(複数)(proteins);劣性(recessive);規則(regulation);関係する(relate);関係した(related);関係する(relates);関係している(relating);役割(role);役割(複数)(roles);SNP(SNP);SNP(複数)(SNPs)。加えて、テキストワードクエリは、以下のフィルタワードを含んだ:遺伝子(gene);遺伝子(複数)(genes);タンパク質(protein);タンパク質(複数)(proteins)。現在の結果および関係する結果の両方を確保するために、ならびにデータマイニング時間を最適化するために、すべてのクエリは、5000摘要を限度として、過去5年間に限定された。
データマイニング結果
【0059】
結果として生じたデータセットのCOPD、CV、LCおよびTSの4つすべては、整理およびキュレートされた。具体的には、遺伝子名称が、遺伝子記号をEntrez遺伝子IDに迅速にマップするように設計されたカスタムビルドアプリケーションである疾患関連遺伝子記号mappeR(DAGR:Disease Associated Gene symbol mappeR)を使用して、Entrez遺伝子IDおよび遺伝子記号にマップされた。マニュアルキュレーションが、DAGRによってマップされ得なかったそれらの関連付けに実行された。RIスコア閾値は、数百の異なるモデルの開発を通して経験的に割り当てられた。目標は、適応症モデルを構築するためのシードとして30~50個の高スコアの遺伝子/タンパク質関連付けを使用することであった。特定の結果が表1に示されている。
【表1】
【0060】
所与の条件と関連付けられた多数の遺伝子は、別の条件と重複した。図7Aおよび7Bで、ベン図700および750は、関連付けが疾患適応症およびタバコの煙の両方に限定されたとき、すべての条件の生データマイニング結果(すなわち、遺伝子セット)の間の論理的関係および結果として生じる論理的関係を示す。番号705は、各条件710と関連付けられた関連性の高い遺伝子を示す。図7Aは、比較された生データマイニング結果を示し、破線715は、COPD、CVDまたはLCおよびTSの共通集合にあるそれらの遺伝子を示す。数720は、表1に示された遺伝子疾患または遺伝子用語関連付けの結果として生じる遺伝子数である。図7Bは、示された疾患およびタバコの煙の両方に特有の遺伝子セットの間の論理的関係を示す。
疾患相互作用ネットワークモデル構築
【0061】
公開された、同業者による審査を受けた研究に基づく疾患モデル(たとえば、遺伝子/タンパク質-遺伝子/タンパク質相互作用ネットワーク)は、次世代シーケンシング、変異、CNV、マイクロアレイ、メタボリック、SAGE、プロテオミクス、siRNA、マイクロRNA、およびスクリーニングデータの機能的分析のための統合されたソフトウェアスイートを使用して疾患生態をシミュレーションするために構築された。このステップは、たとえば標準のダイクストラの最短経路アルゴリズム(またはノード間の最短経路を見つけるための類似のアルゴリズム)を使用して、各方向における初期オブジェクトのペアの間の最短経路(すなわち、できるだけ少数の指示された1ステップ相互作用を有する)を計算するアルゴリズムを使用することを含んだ。結果として生じる出力は、各遺伝子セットの単一の相互作用ネットワークであった。各相互作用ネットワークモデルは、組織特有に生成された:COPD、LCおよびTSモデルは、肺組織内の分子および/または関係のみを使用して、構築され、そして、CVDモデルは、心臓血管系内の分子および/または関係のみを使用して、構築された。
【0062】
モデルは、それらの間の遺伝子/タンパク質および相互作用を含んだ(たとえば、図4を参照)。これらの遺伝子/タンパク質は、初期オブジェクトもしくは「シード」(すなわち、データマイニングを介して識別された遺伝子/タンパク質)と初期オブジェクトをつなぐ2次遺伝子との両方を含んだ。適応症モデル化は、調査中の適応症に直接関連付けられた遺伝子の周りの特定の組織/臓器においてタンパク質-タンパク質相互作用「近傍」をシミュレーションする。本明細書で論じるように、モデルが、ダイクストラの最短経路アルゴリズム(またはノード間の最短経路を見つけるための類似のアルゴリズム)を使用し、アルゴリズムで開発された。プロセスは、以下のように実行された:シードペアが、両方のシードと物理的に相互作用する組織/臓器特有の遺伝子/タンパク質を介してつながれた。相互作用は、同業者による審査を受けた研究データに基づき、方向、機構および効果を指定する。これらの「トリプレット」は、異なる遺伝子セットについて何度も構築され、次いで、他のトリプレットとの重複に基づいてつなぎ合わされた。接続を行わない個別のノードは放棄され、ならびに、小分画ネットワークおよび単一の大きなマルチノードネットワークは保持された。この大きな、マルチノードネットワークは、数十年の研究データから蓄積された統合された生物医学的知識に基づくので、疾患生態をシミュレーションする疾患相互作用ネットワークモデルである。
モデル認証
【0063】
適応症モデル化は、モデル化が疾患生態を正確にシミュレーションすることを確実にするための認証を含む反復プロセスである。統計学的手法は、モデルを認証するためおよび独立した第三者データソース内でモデルから遺伝子の濃縮を検証するために取られる。独立した第三者データソースは、メンデルの、複雑な、環境の疾患を含む、様々な専門家がキュレートしたデータベースおよびテキストマイニングで導出された関連付けからヒトの遺伝子疾患の関連付けを統合する。統合は、遺伝子および疾患語彙マッピングを用いて、独立した第三者データソース関連付けタイプオントロジを使用することによって、実行された。使用された検査は、データセットがいくつかの生物学的特性の有意の過剰提示を示すかどうかを評価するための濃縮分析であった。TSモデルは疾患を表さないので、認証のための類似の統計学的手法が使用されたが、化学的-遺伝子/タンパク質相互作用に関するマニュアルでキュレートされた情報を提供する異なる公開された入手可能なデータベースが使用された。認証の特定の結果が、表2に示されている。
【表2】
【0064】
疾患相互作用ネットワークモデルが認証された後は、関連付けのための各適応症が、タバコの煙でフィルタリングされた。これは、データマイニングを介して識別された適応症遺伝子セットについて図7Aおよび7Bに示されたのと類似の方式で行われた。具体的には、所与の疾患相互作用ネットワークモデルおよびTSモデルの両方に存在するそれらの遺伝子が識別された。結果として生じた遺伝子セットは、肺の中の疾患およびタバコの煙の両方と関連付けられた遺伝子を含んだ。フィルタリングされると、各条件遺伝子セットは、次いで、ランク付けされた。
候補バイオマーカーのランク付け
【0065】
段階的プロセスが、候補バイオマーカーの確実性スコアを提供するために使用された。ランク1候補バイオマーカー(すなわち、確実性が最も高い候補)は、モデル化された相互作用ネットワークのための「バイオマーカー」として1人または複数の治療学の専門家によって独立して推奨されたそれらの遺伝子またはタンパク質であった。ランク2候補バイオマーカー(すなわち、確実性がより低い候補)は、データマイニングによって識別されたそれらの遺伝子またはタンパク質および相互作用ネットワークモデルの構成要素、たとえば、示された疾患およびタバコの煙の両方に特有の、およびメドラインデータマイニング(図7Aおよび7B)を介して相互作用ネットワークモデル内で識別された、遺伝子またはタンパク質、であった。ランク3候補バイオマーカー(すなわち、確実性が最も低い候補)は、ランク1またはランク2ではない遺伝子またはタンパク質、たとえば、トリプレット(図4)に基づくモデル化を介して取得された追加の遺伝子またはタンパク質、であった。
候補バイオマーカー識別
【0066】
構築された相互作用ネットワークモデルからのすべての遺伝子/タンパク質ノードは、それらの対応するEntrez遺伝子IDにマップされ、コーヴァンス翻訳バイオマーカー解決法(TBS)群において既存の、認証されたアッセイを識別するために使用された。TBSは、可溶性バイオマーカーおよびフローサイトメトリアッセイの両方を提供するので、各条件について利用可能な検査の数は、これに応じて、分類された。図8は、各条件の利用可能な、有効なTBSアッセイの内訳800を示す。濃い色の領域805は、可溶性アッセイの一意の分析物の数を識別し、薄い色の領域810は、フローサイトメトリアッセイの一意の分析物の数を識別する。可溶性検査およびフローサイトメトリ検査の両方を有する分析物の数は、円で囲まれた、重なった陰影のある領域815に示され、すべての条件(インターフェロンガンマ(IFNG)、インターロイキン2(IL2)、腫瘍壊死因子(TNF:tumor necrosis factor)およびインターロイキン4(IL4)(COPDおよびLC))に亘って同じである。合計11個のみの分析物が検査のTBSカタログ内で可溶性とフローとの間で共用されることに留意されたい。検査の合計および一意の数が、各領域の上に示されている。2つの検査カウントの理由は、多数の分析物が複数の検査によって分析され得ることである。
潜在的バイオマーカー識別
【0067】
既存のTBSアッセイにマップしない、結果として生じる遺伝子関連付けの各々は、アッセイ開発を必要とすることになる潜在的バイオマーカーと考えられ得る。これらは、疾患適応症およびタバコの煙の両方に関連付けられたメドラインデータマイニングを介して識別された遺伝子であり、相互作用ネットワークモデルの構成要素である。潜在的バイオマーカーは、コンテキストおよびユーティリティの両方についてTBS科学者によって再検討されるべきである。図9では、ベン図900が、潜在的バイオマーカーのための適応症遺伝子セットの間の論理的関係を示す。これらは、利用可能なTBS検査にマップしないメドラインデータマイニングを介して識別された遺伝子である。
(実施例2)
【0068】
以下の実施例の目標は、次のものを識別するためにデータマイニングおよび適応症モデル化を実行することであった:(1)腎臓線維症に関連付けられた遺伝子と、(2)既存のアッセイを有する候補バイオマーカーと、(3)腎臓線維症に関連付けられたアッセイ開発(すなわち、現在提供されていないアッセイ)のための潜在的バイオマーカー。
関連性の基準
【0069】
手法は、R1、R2、R3およびR4文章(Rは関連性を表す)を識別および列挙するために、ウェブサーバを使用してクエリ用語、関連付けワードおよびデータベース用語を見つけることを試みた。R4文章は、データベース用語のうちの1つだけを含む文章として定義され、統計学的正規化のためにのみ使用される。R3文章は、データベース用語のうちの1つならびにクエリワードを有する文章として定義された。R2文章は、データベース用語のうちの1つ、クエリ用語のうちの1つ、ならびに少なくとも1つの関連付けワードを有する文章として定義された。R1文章は、R2文章と同じものとして定義されたが、加えて、R1文章は、パターン認識基準に合格する必要があった。パターン認識システムは、ルールに基づき、タンパク質-タンパク質相互作用を推論するために従来使用された。集合的に、R1、R2、R3およびR4文章カウントのzスコアは、関連性インデックス(RI)スコアを生成するために使用された。RIスコアの生成およびZスコアの計算を目的として、R1文章は50の値を与えられ、R2文章=25、R3文章=5およびR4文章=1であった。RIスコアは、R1、R2、R3およびR4文章の合計である。
データマイニングパラメータ
【0070】
最初に、メドライン(データベース=PubMed)が、遺伝子疾患または遺伝子用語関連付けについてデータマイニングされた。具体的には、疾患、腎臓または腎臓線維症が調査された。すべての疾患適応症クエリは、以下のフィルタワードを含んだ:欠如(absence);アクティビティ(activity);変更する(alter);変更された(altered);変更している(altering);変更する(alters);抗体(複数)(antibodies);抗体(antibody);抗原(antigen);抗原(複数)(antigens);関連付けられた(associated);関連付け(association);関連付け(association);常染色体(autosomal);バイオマーカー(biomarker);バイオマーカー(複数)(biomarkers);引き起こす(cause);引き起こされた(caused);引き起こす(causes);引き起こしている(causing);減衰(decline);減衰された(declined);不足(deficiency);不足した(deficient);削除された(deleted);診断された(diagnosed);診断(diagnosis);顕性(dominant);上昇させる(elevate);上昇させられた(elevated);酵素(enzyme);発現した(expressed);発現(expression);遺伝子(gene);遺伝子(複数)(genes);関わる(involve);関わった(involved);関わっている(involving);欠いている(lacking);導く(lead);導いている(leading);導く(leads);導かれた(led);つながり(linkage);つながれた(linked);遺伝子座(locus);マーカー(marker);マーカー(複数)(markers);mRNA(mRNA);mRNA(複数)(mRNAs);突然変異された(mutated);突然変異(mutation);突然変異(複数)(mutations);観測する(observe);観測された(observed);観測する(observes);観測している(observing);多型の(polymorphic);多型(polymorphism);多型(複数)(polymorphisms);生み出す(produce);生み出された(produced);生み出す(produced);製造(production);タンパク質(protein);タンパク質(複数)(proteins);劣性(recessive);規則(regulation);関係する(relate);関係した(related);関係する(relates);関係している(relating);役割(role);役割(複数)(roles);SNP(SNP);SNP(複数)(SNPs)。加えて、テキストワードクエリは、以下のフィルタワードを含んだ:遺伝子(gene);遺伝子(複数)(genes);タンパク質(protein);タンパク質(複数)(proteins)。現在のおよび関係する結果の両方を確保するために、ならびにデータマイニング時間を最適化するために、すべてのクエリは、5000摘要を限度として、過去5年に限定された。結果は、腎臓または腎臓線維症に関連付けられたPubMed内の、同業者による審査を受けた公開された文献から遺伝子/タンパク質を識別した。その後、テキストパターン認識が使用されてR1、R2、R3およびR4文章カウントのzスコアを最終的に計算し、各々の識別された遺伝子/タンパク質の関連付けの強さを測定するためのRIスコアを生成した。
データマイニング結果
【0071】
腎臓線維症の識別された遺伝子/タンパク質の、結果として生じたデータセットは、整理およびキュレートされた。具体的には、遺伝子名称は、Entrez遺伝子IDに遺伝子記号を迅速にマップするように設計されたカスタムビルドアプリケーションである、疾患関連遺伝子記号mappeR(DAGR)を使用して、Entrez遺伝子IDおよび遺伝子記号にマップされた。マニュアルキュレーションが、DAGRによってマップされることができなかったそれらの関連付けで実行された。RIスコア閾値は、数百の異なるモデルの開発を通して経験的に割り当てられた。目標は、適応症モデルを構築するためのシードとして40~60個の高スコアの遺伝子/タンパク質関連付けを使用することであった。具体的には、57個の関連性の高い遺伝子/タンパク質が、データマイニングから識別された。
疾患相互作用ネットワークモデル構築
【0072】
公開された、同業者による審査を受けた研究に基づく疾患モデル(たとえば、遺伝子/タンパク質-遺伝子/タンパク質相互作用ネットワーク)が、次世代シーケンシング、変異、CNV、マイクロアレイ、メタボリック、SAGE、プロテオミクス、siRNA、マイクロRNA、およびスクリーニングデータの機能的分析のための統合されたソフトウェアスイートを使用して疾患生態をシミュレーションするために構築された。このステップは、たとえば標準のダイクストラの最短経路アルゴリズム(またはノード間の最短経路を見つけるための類似のアルゴリズム)を使用して、各方向における初期オブジェクトのペアの間の最短経路(すなわち、できる限り少数の指示された1つのステップの相互作用を有する)を計算するアルゴリズムを使用することを含んだ。結果として生じる出力は、腎臓線維症に関連する遺伝子セットのための単一の相互作用ネットワークであった。相互作用ネットワークモデルは、組織/臓器特有に生成された:モデルは、腎臓内の分子および/または関係を使用して、構築された。
【0073】
モデルは、それらの間の遺伝子/タンパク質および相互作用を含んだ。これらの遺伝子/タンパク質は、初期オブジェクトまたは「シード」(すなわち、組織/臓器ベースのモデル化手法を使用して26個の遺伝子/タンパク質に究極的に限定された、データマイニングから識別された57個の関連性の高い遺伝子/タンパク質)とモデル単独によって識別された54個の二次遺伝子/タンパク質との両方を含んだ(たとえば、図10に示されたマイニングおよびモデル化からのデータのベン図を参照)。加えて、公開された、同業者による審査を受けた研究によって腎臓線維症に関わると知られた、遺伝子/タンパク質ではなく化学物質または小分子である(コルチコステロンおよびアルドステロン[コルチコステロンは、ミネラルコルチコイドアルドステロンに対する前駆体分子、生体内のナトリウムおよびカリウムレベルの主要な恒常性モジュレータのうちの1つ、である])2つの潜在的候補検査/バイオマーカーが、モデルに含まれた。
【0074】
適応症モデル化は、調査中の適応症に直接関連付けられた遺伝子の周囲の特定の組織/臓器におけるタンパク質-タンパク質-化学物質(小分子)相互作用「近傍」をシミュレーションする。本明細書で論じるように、モデルは、ダイクストラの最短経路アルゴリズム(またはノード間の最短経路を見つけるための類似のアルゴリズム)を使用して、アルゴリズムで開発された。プロセスは、以下のように実行された:シードペアが、両方のシードと物理的に相互作用する組織特有の遺伝子/タンパク質または化学物質を介してつながれた。相互作用は、同業者による審査を受けた研究データに基づき、方向、機構および効果を指定する。これらの「トリプレット」は、異なる遺伝子セットについて何度も構築され、次いで、他のトリプレットとの重複部分に基づいてつなぎ合わされた。図11に示すように、接続を行わない個別のノードならびに小分画ネットワークが放棄され、単一の大きなマルチノードネットワークが保持された(データマイニングから浮き彫りにされた26個の遺伝子/タンパク質のうちの上位10個を有する)。この大きな、マルチノードネットワークは、数十年の研究データから蓄積された統合された生物医学的知識に基づくので、疾患生態をシミュレーションする疾患相互作用ネットワークモデルである。
モデル認証
【0075】
適応症モデル化は、モデル化が疾患生態を正確にシミュレーションすることを確実にするための認証を含む反復プロセスである。モデルを認証するために、および独立した第三者データソースにおいてモデルから遺伝子の濃縮を検証するために、統計学的手法が取られる。独立した第三者データソースは、メンデルの、複雑な、環境の疾患を含む、様々な専門家がキュレートしたデータベースおよびテキストマイニングで導出された関連付けからヒトの遺伝子疾患の関連付けを統合する。統合は、遺伝子および疾患語彙マッピングを用いて、および独立した第三者データソース関連付けタイプオントロジを使用することによって、実行された。使用された検査は、いくつかの生物学的特性の有意の過剰提示をデータセットが示すかどうかを評価するための濃縮分析であった。図12に示すように、適応症モデル化は、適応症モデル化において化学物質または小分子コルチコステロンおよびアルドステロンを含むことからの潜在的な有益な効果を示す、上皮細胞において信号を送るレニンアンジオテンシン-アルドステロンシステムおよびアルドステロンの構成要素を含む既知の生物学的経路の多くを正確にとらえた。
候補バイオマーカーのランク付け
【0076】
段階的プロセスが、候補バイオマーカーの確実性スコアを提供するために使用された。ランク1候補バイオマーカー(すなわち、確実性が最も高い候補)は、モデル化される相互作用ネットワークのための「バイオマーカー」として1人または複数の治療学の専門家によって独立して推奨されたそれらの遺伝子、タンパク質、または化学物質であった。ランク2候補バイオマーカー(すなわち、確実性がより低い候補)は、データマイニングによって識別されたそれらの遺伝子、タンパク質、または化学物質、ならびに、相互作用ネットワークモデルの構成要素、たとえば、メドラインデータマイニングを介しておよび相互作用ネットワークモデルにおいて識別された腎臓線維症の示された疾患に特有の遺伝子またはタンパク質、であった。ランク3候補バイオマーカー(すなわち、確実性が最も低い候補)は、ランク1もしくはランク2ではない遺伝子またはタンパク質、たとえば、トリプレットに基づくモデル化を介して取得された追加の遺伝子またはタンパク質(図11)、であった。
候補検査/バイオマーカー識別
【0077】
構築された相互作用ネットワークモデルからのすべての遺伝子/タンパク質ノードが、それらの対応するEntrez遺伝子IDにマップされ、コーヴァンス翻訳バイオマーカー解決法(TBS)群、コーヴァンスセントラルラボ(CLS:コーヴァンス Central Labs)、およびLabCorp(LCA)において既存の、認証されたアッセイを識別するために使用された。図13は、3つの群の間の利用可能な検査の数を示す。図14は、各バイオマーカーのための割り当てられた決定された確実性ランクを有する3つの群の間で検査された識別されたバイオマーカーの数を示す。図14は、コルチコステロンおよびアルドステロンを示さないが、LCAおよびCLSは、両方について検査することができることに留意されたい。
潜在的バイオマーカー識別
【0078】
既存のアッセイにマップしない、結果として生じる遺伝子関連付けの各々は、アッセイ開発を必要とすることになる潜在的バイオマーカーと考えてもよい。これらは、腎臓線維症に関連付けられたメドラインデータマイニングを介して識別された遺伝子である。潜在的バイオマーカーは、コンテキストおよびユーティリティの両方について分野の専門家または科学者によって再検討されるべきである。
【0079】
本発明が詳しく説明されたが、本発明の趣旨および範囲内の修正形態が当業者には容易に明らかとなろう。本発明の態様と、様々な実施形態の部分と、前述のおよび/または添付の特許請求の範囲内の様々な特徴とは、全体としてまたは部分的に、組み合わせるまたは置き換えることができることを理解されたい。様々な実施形態の前述の説明において、別の実施形態を参照するそれらの実施形態は、他の実施形態と適切に組み合わせられ得ることが、当業者には理解されよう。さらに、前述の説明は、単に例であり、本発明を制限することは意図されていないことが、当業者には理解されよう。
本発明は、以下の項目を提供する。
(項目1)
バイオマーカーを識別するための方法であって、
1つまたは複数の所定の用語と関連付けられたデータベース用語を識別するためのクエリを使用して生物医学的テキスト、科学論文の摘要、または生物情報学的データの1つまたは複数の公開情報源をコンピューティングデバイスによってデータマイニングすることと、
各々の前記識別されたデータベース用語と前記1つまたは複数の所定の用語との間の関連付けを、前記コンピューティングデバイスによって、スコアすることと、
各々の前記識別されたデータベース用語と前記1つまたは複数の所定の用語との前記関連付けの前記スコアに基づいてサブセットbを、前記コンピューティングデバイスによって、決定することと、
所定の順番でアルゴリズムの組合せを使用して前記サブセットb内のデータベース用語、相互作用、および追加のデータベース用語を含む相互作用ネットワークモデルを、前記コンピューティングデバイスによって、開発することであって、前記相互作用ネットワークモデルが、前記相互作用および前記追加のデータベース用語を特定の組織または臓器に限定する、組織または臓器特有のパラメータを含む事前設定パラメータで開発されることと、
前記サブセットb内のデータベース用語および前記相互作用ネットワークモデル内の前記追加のデータベース用語のランキングに基づいて前記相互作用ネットワークモデルから候補バイオマーカーを、前記コンピューティングデバイスによって、識別することと、
を含む、方法。
(項目2)
前記識別されたデータベース用語を、前記コンピューティングデバイスによって、スクラブすることであって、目的の「実際の」データベース用語ではない申し立てられたデータベース用語を取り除いて、目的の「実際の」データベース用語のみを含むサブセットaを生成することと、
前記識別されたデータベース用語の名称、前記識別されたデータベース用語の識別子または記号、および識別された各データベース用語と前記1つまたは複数の所定の用語との前記関連付けの前記スコアを含む前記サブセットbのリストを、前記コンピューティングデバイスによって、生成することと、
をさらに含む、項目1に記載の方法。
(項目3)
統計学的プロセスを使用して、前記相互作用ネットワークモデルを、前記コンピューティングデバイスによって、認証することをさらに含む、項目1に記載の方法。
(項目4)
前記認証することが、前記サブセットb内のデータベース用語とヒトの遺伝子疾患の関連付けを含む独立した第三者データソース内の前記追加のデータベース用語との濃縮を示す統計値を使用することを含む、項目3に記載の方法。
(項目5)
前記相互作用ネットワークモデルを前記開発することが、
成長アルゴリズムを前記サブセットb内のデータベース用語に適用することであって、前記追加のデータベース用語を含む5~50個のノードのアップストリームを構築し、相関関係および発現関係は前記成長アルゴリズムにおいて除外されることと、
成長アルゴリズムを前記サブセットb内のデータベース用語に適用することであって、前記追加のデータベース用語を含む5~50個のノードのダウンストリームを構築し、前記相関関係および発現関係は前記成長アルゴリズムにおいて除外されることと、
直接接続アルゴリズムを使用して、直接接続された所与の事前設定パラメータであり得るすべてのノードを接続することであって、コアネットワークを作成し、前記相関関係および発現関係は前記直接接続アルゴリズムにおいて除外されることと、
ノード間の最短経路を見つけるためのアルゴリズムを前記コアネットワークに適用することであって、直接接続および1つの追加のステップが存在する接続を識別し、前記相関関係および発現関係は前記最短経路を見つけるための前記アルゴリズムにおいて除外されることと、
前記事前設定パラメータが与えられると直接接続され得る前記コアネットワーク内のすべてのノードに直接接続アルゴリズムを適用することであって、前記相関関係および発現関係は前記直接接続アルゴリズムにおいて除外されることと、
前記最短経路を見つけるための前記アルゴリズムを前記コアネットワークに適用することであって、直接接続および1つの追加のステップが存在する接続を識別し、前記相関関係および発現関係は前記最短経路を見つけるための前記アルゴリズムに含まれることと、
を含む、項目1に記載の方法。
(項目6)
第1のデータセットと第2のデータセットとの間の共通集合を、前記コンピューティングデバイスによって、識別することであって、前記第1のデータセットが、前記サブセットb内のデータベース用語および前記相互作用ネットワークモデルからの前記追加のデータベース用語のリストおよび既存の認証されたアッセイを有する既知の検査分析物のリストを含むことと、
前記第1のデータセットと前記第2のデータセットとの前記共通集合を含む基準に基づいて前記サブセットb内のデータベース用語および前記候補バイオマーカーとしての前記追加のデータベース用語を、前記コンピューティングデバイスによって、ランク付けすることと、
をさらに含む、項目1に記載の方法。
(項目7)
前記基準が、「バイオマーカー」として1人または複数の治療学の専門家によって独立して推奨されたそれらのデータベース用語である、ランク1候補バイオマーカーと、前記データマイニングすることによって識別された遺伝子またはタンパク質および前記相互作用ネットワークモデルの構成要素などのそれらのデータベース用語である、ランク2候補バイオマーカーと、ランク1またはランク2候補バイオマーカーではないそれらのデータベース用語である、ランク3候補バイオマーカーと、を含む、項目6に記載の方法。
(項目8)
前記データマイニングすることにおいて発見されなかった前記1つまたは複数の所定の用語と関連付けられる1つまたは複数の追加の用語を識別することと、
前記コンピューティングデバイスによって、前記1つまたは複数の追加の用語をサブセットbにインポートすることと、
をさらに含み、前記相互作用ネットワークモデルが、前記サブセットb内の前記データベース用語および前記1つまたは複数の追加の用語、相互作用、ならびに追加のデータベース用語を含む、項目1に記載の方法。
(項目9)
前記1つまたは複数の追加の用語が、前記データベース用語を含む1つまたは複数の生物学的経路に関わる化学物質または小分子を含む、項目8に記載の方法。
(項目10)
1つまたは複数のプロセッサによって実行されると、
1つまたは複数の所定の用語と関連付けられたデータベース用語を識別するためのクエリを使用して、生物医学的テキスト、科学論文の摘要、または生物情報学的データの1つまたは複数の公開情報源をデータマイニングすることと、
各々の前記識別されたデータベース用語と前記1つまたは複数の所定の用語との間の関連付けをスコアすることと、
前記識別されたデータベース用語をスクラブすることであって、目的の「実際の」データベース用語ではない申し立てられたデータベース用語を取り除いて、目的の「実際の」データベース用語のみを含むサブセットaを生成することと、
各々の前記識別されたデータベース用語と前記1つまたは複数の所定の用語との前記関連付けの前記スコアに基づいて前記サブセットaのサブセットbを決定することと、
所定の順番でアルゴリズムの組合せを使用して前記サブセットb内のデータベース用語、相互作用、および追加のデータベース用語を含む相互作用ネットワークモデルを開発することであって、前記相互作用ネットワークモデルが、前記相互作用および前記追加のデータベース用語を特定の組織または臓器に限定する、組織または臓器特有のパラメータを含む事前設定パラメータで開発されることと、
前記サブセットb内のデータベース用語および前記相互作用ネットワークモデル内の前記追加のデータベース用語のランキングに基づいて前記相互作用ネットワークモデルから候補バイオマーカーを識別することと、
を含む方法を前記1つまたは複数のプロセッサに実行させる命令が記憶された、非一時的機械可読記憶媒体。
(項目11)
前記方法が、
前記識別されたデータベース用語をスクラブすることであって、目的の「実際の」データベース用語ではない申し立てられたデータベース用語を取り除いて、目的の「実際の」データベース用語のみを含むサブセットaを生成することと、
前記識別されたデータベース用語の名称と、前記識別されたデータベース用語の識別子または記号と、前記識別された各データベース用語と前記1つまたは複数の所定の用語との前記関連付けの前記スコアとを含む前記サブセットbのリストを生成することと、
をさらに含む、項目10に記載の非一時的機械可読記憶媒体。
(項目12)
前記方法が、統計学的プロセスを用いて前記相互作用ネットワークモデルを認証することをさらに含む、項目10に記載の非一時的機械可読記憶媒体。
(項目13)
前記認証することが、前記サブセットb内のデータベース用語とヒトの遺伝子疾患の関連付けを含む独立した第三者データソース内の前記追加のデータベース用語との濃縮を示すために統計値を使用することを含む、項目12に記載の非一時的機械可読記憶媒体。
(項目14)
前記相互作用ネットワークモデルを前記開発することが、
成長アルゴリズムを前記サブセットb内のデータベース用語に適用することであって、前記追加のデータベース用語を含む5~50個のノードのアップストリームを構築し、相関関係および発現関係は前記成長アルゴリズムにおいて除外されることと、
成長アルゴリズムを前記サブセットb内のデータベース用語に適用することであって、前記追加のデータベース用語を含む5~50個のノードのダウンストリームを構築し、前記相関関係および発現関係は前記成長アルゴリズムにおいて除外されることと、
直接接続アルゴリズムを使用して所与の事前設定パラメータが与えられると直接接続され得るすべてのノードを接続することであって、コアネットワークを作成し、前記相関関係および発現関係は前記直接接続アルゴリズムにおいて除外されることと、
ノード間の最短経路を見つけるためのアルゴリズムを前記コアネットワークに適用することであって、直接接続および1つの追加のステップが存在する接続を識別し、前記相関関係および発現関係は前記最短経路を見つけるための前記アルゴリズムにおいて除外されることと、
前記事前設定パラメータが与えられると直接接続され得る前記コアネットワーク内のすべてのノードに直接接続アルゴリズムを適用することであって、前記相関関係および発現関係は前記直接接続アルゴリズムにおいて除外されることと、
前記最短経路を見つけるための前記アルゴリズムを前記コアネットワークに適用することであって、直接接続および1つの追加のステップが存在する接続を識別し、前記相関関係および発現関係は前記最短経路を見つけるための前記アルゴリズムに含まれることと、
を含む、項目10に記載の非一時的機械可読記憶媒体。
(項目15)
前記方法が、
第1のデータセットと第2のデータセットとの間の共通集合を識別することであって、前記第1のデータセットが、前記サブセットb内のデータベース用語および前記相互作用ネットワークモデルからの前記追加のデータベース用語のリストと既存の認証されたアッセイを有する既知の検査分析物のリストとを含むことと、
前記第1のデータセットと前記第2のデータセットとの前記共通集合を含む基準に基づいて前記サブセットb内のデータベース用語および前記候補バイオマーカーとしての前記追加のデータベース用語をランク付けすることと、
をさらに含む、項目10に記載の非一時的機械可読記憶媒体。
(項目16)
前記基準が、「バイオマーカー」として1人または複数の治療学の専門家によって独立して推奨されたそれらのデータベース用語である、ランク1候補バイオマーカーと、前記データマイニングすることによって識別された遺伝子またはタンパク質および前記相互作用ネットワークモデルの構成要素などのそれらのデータベース用語である、ランク2候補バイオマーカーと、ランク1またはランク2候補バイオマーカーではないそれらのデータベース用語である、ランク3候補バイオマーカーとを含む、項目15に記載の非一時的機械可読記憶媒体。
(項目17)
前記方法が、
前記データマイニングすることにおいて発見されなかった前記1つまたは複数の所定の用語と関連付けられる1つまたは複数の追加の用語を識別することと、
前記1つまたは複数の追加の用語をサブセットbにインポートすることと、
をさらに含み、前記相互作用ネットワークモデルが、前記データベース用語および前記サブセットb内の1つまたは複数の追加の用語、相互作用、ならびに追加のデータベース用語を含む、項目10に記載の非一時的機械可読記憶媒体。
(項目18)
前記1つまたは複数の追加の用語が、前記データベース用語を含む1つまたは複数の生物学的経路に関わる化学物質または小分子を含む、項目17に記載の非一時的機械可読記憶媒体。
(項目19)
1つまたは複数のプロセッサおよび非一時的機械可読記憶媒体と、
1つまたは複数の所定の用語と関連付けられたデータベース用語を識別するためのクエリを使用して生物医学的テキスト、科学論文の摘要、または生物情報学的データの1つまたは複数の公開情報源をデータマイニングするためのプログラム命令と、
各々の前記識別されたデータベース用語と前記1つまたは複数の所定の用語との間の関連付けをスコアするためのプログラム命令と、
前記識別されたデータベース用語をスクラブして目的の「実際の」データベース用語ではない申し立てられたデータベース用語を取り除いて、目的の「実際の」データベース用語のみを含むサブセットaを生成するためのプログラム命令と、
各々の前記識別されたデータベース用語と前記1つまたは複数の所定の用語との前記関連付けの前記スコアに基づいて前記サブセットaのサブセットbを決定するためのプログラム命令と、
所定の順番でアルゴリズムの組合せを使用して前記サブセットb内のデータベース用語、相互作用、および追加のデータベース用語を含む相互作用ネットワークモデルを開発するためのプログラム命令であって、前記相互作用ネットワークモデルが、前記相互作用および前記追加のデータベース用語を特定の組織または臓器に限定する、組織または臓器特有のパラメータを含む事前設定パラメータで開発される、プログラム命令と、
前記サブセットb内のデータベース用語および前記相互作用ネットワークモデル内の前記追加のデータベース用語のランキングに基づいて前記相互作用ネットワークモデルから候補バイオマーカーを識別するためのプログラム命令と、
を含むシステムであって、前記プログラム命令が、前記1つまたは複数のプロセッサによって実行するために前記非一時的機械可読記憶媒体に記憶された、システム。
(項目20)
前記識別されたデータベース用語をスクラブして目的の「実際の」データベース用語ではない申し立てられたデータベース用語を取り除いて、目的の「実際の」データベース用語のみを含むサブセットaを生成するためのプログラム命令と、
前記識別されたデータベース用語の名称、前記識別されたデータベース用語の識別子または記号、および各識別されたデータベース用語と前記1つまたは複数の所定の用語との前記関連付けの前記スコアを含む前記サブセットbのリストを生成するためのプログラム命令と、
をさらに含む、項目19に記載のシステム。
(項目21)
前記サブセットb内のデータベース用語およびヒトの遺伝子疾患の関連付けを含む独立した第三者データソース内の前記追加のデータベース用語の濃縮を示すために統計値を使用する前記相互作用ネットワークモデルを認証するためのプログラム命令をさらに含む、項目19に記載のシステム。
(項目22)
前記相互作用ネットワークモデルを前記開発することが、
成長アルゴリズムを前記サブセットb内のデータベース用語に適用することであって、前記追加のデータベース用語を含む5~50個のノードのアップストリームを構築し、相関関係および発現関係は前記成長アルゴリズムにおいて除外されることと、
成長アルゴリズムを前記サブセットb内のデータベース用語に適用することであって、前記追加のデータベース用語を含む5~50個のノードのダウンストリームを構築し、前記相関関係および発現関係は前記成長アルゴリズムにおいて除外されることと、
直接接続アルゴリズムを使用して、事前設定パラメータが与えられると直接接続され得るすべてのノードを接続することであって、コアネットワークを作成し、前記相関関係および発現関係は前記直接接続アルゴリズムにおいて除外されることと、
ノード間の最短経路を見つけるためのアルゴリズムを前記コアネットワークに適用することであって、直接接続および1つの追加のステップが存在する接続を識別し、前記相関関係および発現関係は前記最短経路を見つけるための前記アルゴリズムにおいて除外されることと、
前記事前設定パラメータが与えられると直接接続され得る前記コアネットワーク内のすべてのノードに直接接続アルゴリズムを適用することであって、前記相関関係および発現関係は前記直接接続アルゴリズムにおいて除外されることと、
前記最短経路を見つけるための前記アルゴリズムを前記コアネットワークに適用することであって、直接接続および1つの追加のステップが存在する接続を識別し、前記相関関係および発現関係は前記最短経路を見つけるための前記アルゴリズムに含まれることと、
を含む、項目19に記載のシステム。
(項目23)
第1のデータセットと第2のデータセットとの間の共通集合を識別するためのプログラム命令であって、前記第1のデータセットが、前記サブセットb内のデータベース用語および前記相互作用ネットワークモデルからの前記追加のデータベース用語のリストと既存の認証されたアッセイを有する既知の検査分析物のリストとを含む、プログラム命令と、
前記第1のデータセットと前記第2のデータセットとの前記共通集合を含む基準に基づいて前記サブセットb内のデータベース用語および前記候補バイオマーカーとしての前記追加のデータベース用語をランク付けするためのプログラム命令と、
をさらに含む、項目19に記載のシステム。
(項目24)
前記基準が、「バイオマーカー」として1人または複数の治療学の専門家によって独立して推奨されたそれらのデータベース用語である、ランク1候補バイオマーカーと、前記データマイニングすることによって識別された遺伝子またはタンパク質および前記相互作用ネットワークモデルの構成要素などのそれらのデータベース用語である、ランク2候補バイオマーカーと、ランク1またはランク2候補バイオマーカーではないそれらのデータベース用語である、ランク3候補バイオマーカーと、を含む、項目19に記載のシステム。
(項目25)
前記データマイニングすることにおいて発見されなかった前記1つまたは複数の所定の用語と関連付けられる1つまたは複数の追加の用語を識別するためのプログラム命令と、
前記1つまたは複数の追加の用語をサブセットbにインポートするためのプログラム命令と、
をさらに含む項目19に記載のシステムであって、前記相互作用ネットワークモデルが、前記データベース用語および前記サブセットb内の1つまたは複数の追加の用語、相互作用、および追加のデータベース用語を含む、システム。
(項目26)
前記1つまたは複数の追加の用語が、前記データベース用語を含む1つまたは複数の生物学的経路に関わる化学物質または小分子を含む、項目25に記載のシステム。
図1
図2
図3
図4
図5
図6
図7A
図7B
図8
図9
図10
図11
図12
図13
図14