(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-13
(45)【発行日】2023-09-22
(54)【発明の名称】錯体分子下部構造識別システム、装置及び方法
(51)【国際特許分類】
G16C 20/20 20190101AFI20230914BHJP
【FI】
G16C20/20
(21)【出願番号】P 2020568247
(86)(22)【出願日】2019-06-11
(86)【国際出願番号】 US2019036449
(87)【国際公開番号】W WO2019241178
(87)【国際公開日】2019-12-19
【審査請求日】2022-05-17
(32)【優先日】2018-06-11
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2018-10-29
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2018-11-21
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】522242018
【氏名又は名称】メルク・シャープ・アンド・ドーム・エルエルシー
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】フリードマン,アーサー
(72)【発明者】
【氏名】バッチ,アンスマン
(72)【発明者】
【氏名】ユー,シャン
(72)【発明者】
【氏名】カンシラ,マーク
【審査官】橋沼 和樹
(56)【参考文献】
【文献】特開2007-312776(JP,A)
【文献】米国特許出願公開第2016/0153060(US,A1)
【文献】米国特許出願公開第2013/0337456(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16C 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
選択分子の下部構造を識別するためのシステムであって、前記システムは、
a)マイクロプロセッサ、
b)メモリ、
c)前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
(i)(A)前記選択分子内の一組の最小切断可能ユニット、(B)前記選択分子内の前記一組の最小切断可能ユニットを接続する一組の結合、(C)各最小切断可能ユニットの分子量、及び(D)前記選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを表す選択分子データを受信し前記メモリ内に格納すること、
(ii)前記選択分子データに基づき、前記選択分子の最小切断可能ユニットグラフデータ構造を生成し前記メモリ内に格納することであって、前記最小切断可能ユニットグラフデータ構造には前記選択分子のMCUグラフを表すMCUグラフデータが取り込まれ、前記MCUグラフは複数のMCUグラフ頂点及び複数のMCUグラフ辺を有し、各MCUグラフ頂点は前記選択分子の最小切断可能ユニットに対応し、各MCUグラフ辺は前記選択分子内の結合接続最小切断可能ユニットに対応する、前記選択分子の最小切断可能ユニットグラフデータ構造を生成し格納すること、
(iii)前記MCUグラフデータに基づき、線グラフデータ構造を生成し前記メモリ内に格納することであって、前記線グラフデータ構造には前記MCUグラフの線グラフを表す線グラフデータが取り込まれ、前記線グラフは複数のLG頂点及び複数のLG辺を有し、各LG頂点は前記MCUグラフ内のMCUグラフ辺に対応し、各LG辺は前記MCUグラフ辺により連結される前記MCUグラフ内の一対のMCUグラフ頂点に対応する、前記線グラフデータ構造を生成し格納すること、
(iv)前記線グラフの複数の誘導連結サブグラフを判断するために、前記線グラフデータ構造内の前記線グラフデータに対してグラフトラバースアルゴリズムを実行することであって、各誘導連結サブグラフは、前記線グラフ内のLG頂点及びLG辺の接続サブセットと、LG頂点及びLG辺の前記接続サブセットの物理的配置とを含み、これらは併せて、前記一組の最小切断可能ユニット及び結合の接続サブセットと、前記選択分子内の最小切断可能ユニット及び結合の前記接続サブセットの相対位置とに一意的に対応する、前記グラフトラバースアルゴリズムを実行すること、
(v)前記線グラフデータ構造内に表される誘導連結サブグラフ毎に、分子量フィールド、頂点データフィールド及び辺データフィールドを含むICS記録
をデータベース内に生成することであって、前記頂点データフィールドには前記誘導連結サブグラフ内のあらゆるLG頂点の頂点位置を指示するように構成された頂点値が取り込まれ、前記辺データフィールドには前記LG頂点に対する前記誘導連結サブグラフ内のあらゆるLG辺
の辺位置を指示するように構成された辺値が取り込まれる、前記ICS記録を生成すること、及び
(vi)前記線グラフデータ構造内のICS記録毎に、前記選択分子の前記選択分子データと前記ICS記録内の前記頂点値及び前記辺値とに基づき前記ICS記録の前記誘導連結サブグラフの全分子量を計算し前記分子量フィールド内に格納すること、をさせるプログラム命令を含む前記メモリ内のアプリケーションプログラム、
d)エンドユーザとの通信のためのユーザインターフェース、及び
e)前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
(i)前記エンドユーザから照会分子量を受信すること、
(ii)前記照会分子量に整合する全分子量を前記分子量フィールド内に有するICS記録を識別するために前記照会分子量に基づき前記データベースを検索すること、及び
(iii)前記識別されたICS記録の前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値を前記エンドユーザにより操作されるディスプレイデバイス上の提示のために前記ユーザインターフェースへ送
信させる前記ユーザインターフェース内のプログラム命令、を含むシステム。
【請求項2】
前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
a)前記線グラフの誘導連結サブグラフのグラフィック表現を生成するために前記頂点データフィールド内の前記頂点値、前記辺データフィールド内の前記辺値、及び前記選択分子データを使用すること、及び
b)前記グラフィック表現を前記エンドユーザにより操作される前記ディスプレイデバイスへ送
信させる前記ユーザインターフェース内のプログラム命令をさらに含む請求項1に記載のシステム。
【請求項3】
前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
c)前記分子量の規定公差を受信すること、
d)前記データベースの前記検索のための
一範囲の分子量を計算し定義するために前記規定公差を使用すること、
e)前記
一範囲の分子量内に入る前記分子量フィールド内の全分子量を有する前記データベース内の各ICS記録を識別するために前記照会分子量及び前記
一範囲に基づき前記データベースを検索すること、及び
f)前記識別されたICS記録毎に、前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値を前記エンドユーザへ提示するために前記ユーザインターフェースへ送信することをさせるプログラム命令を前記アプリケーションプログラム内にさらに含む請求項1に記載のシステム。
【請求項4】
前記選択分子データは、連結リスト、又は配列、又は隣接行列、又はグラフィック画像ファイル、又は化学図ファイル、又はスプレッドシートファイル、又はテキストファイル、又はCSVファイル、又は.CDXファイル、.CDXMLファイル、又は.MOLファイル、又は.SDMファイル、CADファイル、又はバイナリデータファイル内に格納された情報を解析することにより受信される、請求項1に記載のシステム。
【請求項5】
前記一組の最小切断可能ユニット及び結合の前記接続サブセットは、前記選択分子の代謝物、又は前記選択分子の異化生成物、又は前記選択分子の気相断片化、又は前記選択分子の分解剤、又は前記選択分子の下部構造である、請求項1に記載のシステム。
【請求項6】
前記MCUグラフデー
タは配列、隣接行列、隣接リスト、結合行列又は結合リストである、請求項1に記載のシステム。
【請求項7】
前記線グラフデータ構造は配列、隣接行列、隣接リスト、結合行列又は結合リストである、請求項1に記載のシステム。
【請求項8】
前記グラフトラバースアルゴリズムは、深さ優先検索アルゴリズム、又は幅優先検索アルゴリズム、又は逆検索アルゴリズム、又はツリー検索アルゴリズム、又はこれらの2つ以上の組み合わせである、請求項1に記載のシステム。
【請求項9】
前記選択分子は小分子である、請求項1に記載のシステム。
【請求項10】
前記選択分子は巨大分子である、請求項1に記載のシステム。
【請求項11】
前記巨大分子は、蛋白質、核酸、オリゴヌクレオチド、ポリヌクレオチド、多糖又は合成高分子である、請求項10に記載のシステム。
【請求項12】
a)前記選択分子データは、(A)各最小切断可能ユニット内の一組の基本ユニット、(B)前記最小切断可能ユニット内の前記一組の基本ユニットを連結する一組の基本結合、(C)各基本ユニットの基本分子量、及び(D)前記最小切断可能ユニットのMCU接続プロファイルであって前記最小切断可能ユニット内の前記基本ユニットと前記基本結合との相対位置及びその間の接続を指示するMCU接続プロファイルを表す基本組成データを含み、
b)前記データベース内に生成される前記ICS記録はさらに、1つ又は複数の基本ユニット識別子が取り込まれる基本ユニットフィールドを含み、
c)前記アプリケーションプログラムはさらに、前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
(i)前記エンドユーザから照会基本ユニットを受信すること、
(ii)前記照会基本ユニットに整合する前記基本ユニットフィールド内の基本ユニット識別子を有するICS記録を識別するために前記照会基本ユニットに基づき前記データベースを検索すること、
(iii)前記識別されたICS記録の前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値を前記エンドユーザにより操作されるディスプレイデバイス上の提示のために前記ユーザインターフェースへ送信することをさせるプログラム命令を含む、請求項1に記載のシステム。
【請求項13】
マイクロプロセッサを使用して選択分子の下部構造を含むデータベースを生成するためのシステムであって、前記システムは、
a)メモリ、
b)マイクロプロセッサ、
c)前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、(A)選択分子内の一組の最小切断可能ユニット、(B)選択分子内の一組の最小切断可能ユニットを接続する一組の結合、(C)各最小切断可能ユニットの分子量、及び(D)選択分子内の最小切断可能ユニット及び結合の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを表す選択分子データを受信及び格納させる前記メモリ内の入力モジュール、
d)前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、前記選択分子データに基づき前記選択分子
の最小切断可能ユニットグラフデータ構造を前記メモリ内に生成させる前記メモリ内のMCUグラフモジュールであって、前記最小切断可能ユニットグラフデータ構造には前記選択分子のMCUグラフを表すMCUグラフデータが取り込まれ、前記MCUグラフは複数のMCUグラフ頂点及び複数のMCUグラフ辺を有し、各MCUグラフ頂点は前記選択分子の最小切断可能ユニットに対応し、各MCUグラフ辺は選択分子内の結合接続最小切断可能ユニットに対応する、MCUグラフモジュール、
e)前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、前MCUグラフの線グラフを表す線グラフデータが取り込まれる線グラフデータ構造を生成させ前記メモリ内に格納させる前記メモリ内の線グラフモジュールであって、前記線グラフは複数のLG頂点及び複数のLG辺を有し、各LG頂点は前記MCUグラフ内のMCUグラフ辺に対応し、各LG辺は前記MCUグラフ辺により連結されるMCUグラフ内の一対のMCUグラフ頂点に対応する、線グラフモジュール、
f)前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、前記線グラフの複数の誘導連結サブグラフを判断するために前記線グラフデータ構造内の前記線グラフデータに対してグラフトラバースアルゴリズムを実行させる前記メモリ内のグラフトラバースモジュールであって、各誘導連結サブグラフは、前記線グラフ内のLG頂点及びLG辺の接続サブセットと、LG頂点及びLG辺の前記接続サブセットの物理的配置とを含み、これらは併せて、一組の最小切断可能ユニット及び結合の接続サブセットと、前記選択分子内の前記最小切断可能ユニット及び結合の前記接続サブセットの相対位置とに一意的に対応する、グラフトラバースモジュール、
g)前記マイクロプロセッサにより実行されると前記マイクロプロセッサに:
(i)前記線グラフデータ構造内に表される誘導連結サブグラフ毎に、分子量フィールド、頂点データフィールド及び辺データフィールドを含むICS記録を前記データベース内に生成することであって、前記頂点データフィールドには前記誘導連結サブグラフ内のあらゆるLG頂点の頂点位置を指示するように構成された頂点値が取り込まれ、前記辺データフィールドには前記LG頂点に対する前記誘導連結サブグラフ内のあらゆるLG辺
の辺位置を指示するように構成された辺値が取り込まれる、前記ICS記録を生成すること、及び
(ii)前記線グラフデータ構造内のICS記録毎に、前記選択分子の前記選択分子データと前記ICS記録内の前記頂点値及び前記辺値とに基づき前記ICS記録の前記誘導連結サブグラフの全分子量を計算し前記分子量フィールド内に格納すること、をさせる前記メモリ内のサブグラフデータベース生成器を含む、システム。
【請求項14】
前記選択分子データは、連結リスト、又は配列、又は隣接行列、又はグラフィック画像ファイル、又は化学図ファイル、又はスプレッドシートファイル、又はテキストファイル、又はCSVファイル、又は.CDXファイル、.CDXMLファイル、又は.MOLファイル、又は.SDMファイル、CADファイル、又はバイナリデータファイル内に格納された情報を解析することにより受信される、請求項13に記載のシステム。
【請求項15】
前記一組の最小切断可能ユニット及び結合の前記接続サブセットは前記選択分子の代謝物、又は前記選択分子の異化生成物、又は前記選択分子の気相断片化、又は前記選択分子の分解剤、又は前記選択分子の下部構造である、請求項13に記載のシステム。
【請求項16】
前記MCUグラフデー
タは配列、隣接行列、隣接リスト、結合行列又は結合リストである、請求項13に記載のシステム。
【請求項17】
前記線グラフデータ構造は配列、隣接行列、隣接リスト、結合行列又は結合リストである、請求項10に記載のシステム。
【請求項18】
前記グラフトラバースアルゴリズムは深さ優先検索アルゴリズム、又は幅優先検索アルゴリズム、又は逆検索アルゴリズム、又はツリー検索アルゴリズム、又はこれらの2つ以上の組み合わせである、請求項13に記載のシステム。
【請求項19】
a)エンドユーザとの通信のためのユーザインターフェース、及び
b)前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
(i)前記エンドユーザから照会分子量を受信すること、
(ii)前記照会分子量に整合する全分子量を前記分子量フィールド内に有するICS記録を識別するために前記照会分子量に基づき前記データベースを検索すること、及び
(iii)前記識別されたICS記録の前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値を前記エンドユーザにより操作されるディスプレイデバイス上の提示のために前記ユーザインターフェースへ送信することをさせるプログラム命令を前記メモリ内に有する検索エンジンをさらに含む請求項13に記載のシステム。
【請求項20】
前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
a)前記線グラフの誘導連結サブグラフのグラフィック表現を生成するために前記頂点データフィールド内の前記頂点値、前記辺データフィールド内の前記辺値、及び前記選択分子データを使用すること、及び
b)前記グラフィック表現を前記エンドユーザにより操作され
るディスプレイデバイスへ送
信させる前記ユーザインターフェース内のプログラム命令をさらに含む請求項13に記載のシステム。
【請求項21】
前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
a)前記分子量の規定公差を受信すること、
b)前記データベースの検索の一範囲の分子量を計算し定義するために前記規定公差を使用すること、
c)前記
一範囲の分子量内に入る前記分子量フィールド内の全分子量を有する前記データベース内の各ICS記録を識別するため
に照会分子量及び前記
一範囲に基づき前記データベースを検索すること、及び
d)前記識別されたICS記録毎に、前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値を前記エンドユーザへ提示するため
にユーザインターフェースへ送
信させ
るアプリケーションプログラム内のプログラム命令をさらに含む請求項13に記載のシステム。
【請求項22】
前記グラフトラバースアルゴリズムは、深さ優先検索アルゴリズム、幅優先検索アルゴリズム、逆検索アルゴリズム、ツリー検索アルゴリズム、又はこれらの2つ以上の組み合わせである、請求項13に記載のシステム。
【請求項23】
前記選択分子は小分子である、請求項13に記載のシステム。
【請求項24】
前記選択分子は巨大分子である、請求項13に記載のシステム。
【請求項25】
前記
選択分子は、蛋白質、核酸、オリゴヌクレオチド、ポリヌクレオチド、多糖又は合成高分子である、請求項13に記載のシステム。
【請求項26】
マイクロプロセッサ及びメモリデバイスを使用して選択分子の下部構造を識別する方法であって、前記方法は、
a)前記マイクロプロセッサにより、(A)前記選択分子内の一組の最小切断可能ユニット、(B)前記選択分子内の前記一組の規定最小切断可能ユニットを接続する一組の結合、(C)各最小切断可能ユニットの分子量、及び(D)前記選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを表す選択分子データを受信しメ前記モリデバイス内に格納すること、
b)前記マイクロプロセッサにより、前記選択分子データに基づき、前記選択分子の最小切断可能ユニットグラフデータ構造を生成し前記メモリデバイス内に格納することであって、前記最小切断可能ユニットグラフデータ構造には前記選択分子のMCUグラフを表すMCUグラフデータが取り込まれ、前記MCUグラフは複数のMCUグラフ頂点及び複数のMCUグラフ辺を有し、各MCUグラフ頂点は前記選択分子の最小切断可能ユニットに対応し、各MCUグラフ辺は選択分子内の結合接続最小切断可能ユニットに対応する、前記選択分子の最小切断可能ユニットグラフデータ構造を生成し格納すること
c)前記マイクロプロセッサにより、前記MCUグラフデータに基づき、線グラフデータ構造を生成し前記メモリデバイス内に格納することであって、前記線グラフデータ構造には前記MCUグラフの線グラフを表す線グラフデータが取り込まれ、前記線グラフは複数のLG頂点及び複数のLG辺を有し、各LG頂点は前記MCUグラフ内のMCUグラフ辺に対応し、各LG辺は前記MCUグラフ辺により連結されるMCUグラフ内の一対のMCUグラフ頂点に対応する、前記線グラフデータ構造を生成し格納すること、
d)前記線グラフの複数の誘導連結サブグラフを判断するために前記線グラフデータ構造内の前記線グラフデータに対してグラフトラバースアルゴリズムを前記マイクロプロセッサ上で実行することであって、各誘導連結サブグラフは、前記線グラフ内のLG頂点及びLG辺の接続サブセットと、LG頂点及びLG辺の前記接続サブセットの物理的配置とを含み、これらは併せて、前記一組の最小切断可能ユニット及び結合の接続サブセットと、前記選択分子内の前記最小切断可能ユニット及び結合の前記接続サブセットの相対位置とに一意的に対応する、前記グラフトラバースアルゴリズムを実行すること、
e)前記マイクロプロセッサにより、前記線グラフデータ構造内に表される誘導連結サブグラフ毎に、分子量フィールド、頂点データフィールド及び辺データフィールドを含むICS記録
をデータベース内に生成することであって、前記頂点データフィールドには前記誘導連結サブグラフ内のあらゆるLG頂点の頂点位置を指示するように構成された頂点値が取り込まれ、前記辺データフィールドには前記LG頂点に対する前記誘導連結サブグラフ内のあらゆるLG辺
の辺位置を指示するように構成された辺値が取り込まれる、前記ICS記録を生成すること、及び
f)前記マイクロプロセッサにより、前記線グラフデータ構造内のICS記録毎に、前記選択分子の前記選択分子データと前記ICS記録内の前記頂点値及び前記辺値とに基づき前記ICS記録の前記誘導連結サブグラフの全分子量を計算し前記分子量フィールド内に格納することを含む方法。
【請求項27】
前記グラフトラバースアルゴリズムは、深さ優先検索アルゴリズム、又は幅優先検索アルゴリズム、又は逆検索アルゴリズム、又はツリー検索アルゴリズム、又はこれらの2つ以上の組み合わせである、請求項26に記載の方法。
【請求項28】
a)マイクロプロセッサにより照会分子量を受信すること、
b)前記マイクロプロセッサにより、前記照会分子量に整合する全分子量を前記分子量フィールド内に有するICS記録を識別するために前記照会分子量に基づき前記データベースを検索すること、及び
c)前記識別されたICS記録の前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値の表現を
ディスプレイデバイスへ送信すること、をさらに含む請求項26に記載の方法。
【請求項29】
a)前記マイクロプロセッサにより、前記選択分子の前記接続プロファイル、前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値に基づき前記線グラフの誘導連結サブグラフのグラフィック表現を生成すること、及び
b)前記グラフィック表現を前記ディスプレイデバイスへ送信すること、をさらに含む請求項28に記載の方法。
【請求項30】
前記選択分子は小分子である、請求項26に記載の方法。
【請求項31】
前記選択分子は巨大分子である、請求項26に記載の方法。
【請求項32】
前記
選択分子は、蛋白質、核酸、オリゴヌクレオチド、ポリヌクレオチド、多糖又は合成高分子である、請求項26に記載の方法。
【請求項33】
前記一組の最小切断可能ユニット及び結合の前記接続サブセットは、前記選択分子の代謝物、又は前記選択分子の異化生成物、又は前記選択分子の気相断片化、又は前記選択分子の分解剤、又は前記選択分子の下部構造である、請求項26に記載の方法。
【請求項34】
選択分子の下部構造を識別することを容易にするためにデータベースを生成するためのシステムであって、前記システムは
a)マイクロプロセッサ、
b)メモリデバイス、及び
c)前記マイクロプロセッサに、
(i)(A)前記選択分子の最小切断可能ユニット、(B)前記選択分子の各最小切断可能ユニットの分子量、及び(C)前記選択分子の最小切断可能ユニットを接続する結合のタイプを識別する前記選択分子の化学線図と注釈とを表すデータを受信すること、
(ii)前記選択分子の最小切断可能ユニットグラフ隣接行列を生成することであって、前記最小切断可能ユニットグラフ隣接行列は複数の記録を有し、各記録は、一対の頂点に対応し、そして辺が前記対の間に存在する場合には第1の値又は辺が前記対の間に存在しない場合には第2の値が割り当てられるフィールドを有し、各頂点は前記選択分子の最小切断可能ユニットに対応し、辺は前記選択分子の最小切断可能ユニットを接続する結合を表す、前記選択分子の最小切断可能ユニットグラフ隣接行列を生成すること、
(iii)前記最小切断可能ユニットグラフ隣接行列から線グラフ隣接行列を生成することであって、前記線グラフ隣接行列は複数の頂点を有し、各頂点は、最前記小結合可能ユニットグラフ隣接行列の一対の辺に対応し、そして終点が前記対の辺の間に存在する場合には前記第1の値又は終点が前記対の辺の間に存在しない場合には前記第2の値が割り当てられるフィールドを有し、前記線グラフ隣接行列は前記辺により接続された終点に基づき前記最小切断可能ユニットグラフ隣接行列の各辺の頂点を有し、頂点は前記選択分子の前記最小切断可能ユニット間の結合を表す、前記線グラフ隣接行列を生成すること、
(iv)前記最小切断可能ユニット隣接行列から「辺対頂点」隣接行列を生成することであって、前記「辺対頂点」隣接行列は複数の要素を有し、各要素は、前記最小切断可能ユニットグラフ隣接行列の辺及び頂点に対応し、そして、前記辺及び前記頂点が互いに接続される場合は前記第1の値又は前記辺及び前記頂点が互いに接続されない場合は前記第2の値が割り当てられるフィールドを有し、前記頂点は前記選択分子の最小切断可能ユニットを表し、前記辺は前記選択分子の前記最小切断可能ユニットを接続する結合を表す、前記「辺対頂点」隣接行列を生成すること、
(v)前記選択分子の複数の誘導連結サブグラフを判断するためにグラフトラバースアルゴリズムを使用することにより前記線グラフ隣接行列及び前記「辺対頂点」グラフ隣接行列をトラバースすることであって、各誘導連結サブグラフは
、線グラフ内のLG頂点及びLG辺の接続サブセットと、LG頂点及びLG辺の前記接続サブセットの物理的配置とを含み、これらは併せて
、一組の最小切断可能ユニット及び結合の接続サブセットと、前記選択分子内の前記最小切断可能ユニット及び結合の前記接続サブセットの相対位置とに一意的に対応する、前記線グラフ隣接行列及び前記「辺対頂点」グラフ隣接行列をトラバースすること、及び
(vi)前記誘導連結サブグラフの各誘導連結サブグラフの分子量を計算し前記データベース内に格納することであって、各誘導連結サブグラフの前記分子量は前記誘導連結サブグラフのあらゆる頂点の前記分子量を取り出し加算することにより計算される、前記誘導連結サブグラフの各誘導連結サブグラフの分子量を計算し格納すること、をさせる前記メモリデバイス上のプログラム命令を含む、システム。
【請求項35】
マイクロプロセッサ及びメモリデバイスを使用して選択分子の下部構造を識別することを容易にするためにデータベースを生成するためのシステムであって、前記システムは、
a)(A)選択分子の最小切断可能ユニット、(B)選択分子の各最小切断可能ユニットの分子量、及び(C)選択分子の最小切断可能ユニットを接続する結合のタイプを識別する選択分子の化学線図と注釈とを受信する、グラフィック入力モジュール、
b)前記マイクロプロセッサに前記選択分子の最小切断可能ユニットグラフ隣接行列を生成させるために前記マイクロプロセッサにより実行可能な前記メモリデバイス上の行列生成器モジュールであって、前記最小切断可能ユニットグラフ隣接行列は複数の記録を有し、各記録は、一対の頂点に対応し、そして辺が前記対の間に存在する場合には第1の値又は辺が前記対の間に存在しない場合には第2の値が割り当てられるフィールドを有し、各頂点は前記選択分子の最小切断可能ユニットに対応し、辺は前記選択分子の最小切断可能ユニットを接続する結合を表する、行列生成器モジュール、
c)前記マイクロプロセッサに前記最小切断可能ユニットグラフ隣接行列から線グラフ隣接行列を生成させるために前記マイクロプロセッサにより実行可能な前記メモリデバイス上の線グラフ行列生成器モジュールであって、前記線グラフ隣接行列は複数の頂点を有し、各頂点は、最前記小結合可能ユニットグラフ隣接行列の一対の辺に対応し、そして終点が前記対の辺の間に存在する場合には前記第1の値又は終点が前記対の辺の間に存在しない場合には前記第2の値が割り当てられるフィールドを有し、前記線グラフ隣接行列は、前記辺により接続された終点に基づき前記最小切断可能ユニットグラフ隣接行列の各辺の頂点を有し、頂点は前記選択分子の前記最小切断可能ユニット間の結合を表す、線グラフ行列生成器モジュール、
d)前記マイクロプロセッサに前記最小切断可能ユニットグラフ隣接行列から「辺対頂点」行列を生成させるために前記マイクロプロセッサにより実行可能な前記メモリデバイス上の「辺対頂点」行列生成器モジュールであって、「辺対頂点」行列は複数の要素を有し、各要素は、前記最小切断可能ユニットグラフ隣接行列の辺及び頂点に対応し、そして、前記辺及び前記頂点が互いに接続される場合は前記第1の値又は前記辺及び前記頂点が互いに接続されない場合は前記第2の値が割り当てられるフィールドを有し、前記頂点は前記選択分子の最小切断可能ユニットを表し前記辺は前記選択分子の前記最小切断可能ユニットを接続する結合を表す、「辺対頂点」行列生成器モジュール、
e)前記マイクロプロセッサに、前記線グラフ隣接行列及び前記「辺対頂点」行列内の前記値割り当てに基づき、前記線グラフ隣接行列の誘導連結サブグラフを生成しデータベース内に格納するために深さ優先又は幅優先検索を使用することにより前記隣接行列及び前記「辺対頂点」行列をトラバースさせる前記マイクロプロセッサにより実行可能なグラフトラバースエンジン、及び
f)前記マイクロプロセッサに、各誘導連結サブグラフの分子量を計算させ前記データベース内に格納させる前記マイクロプロセッサにより実行可能な分子量計算器モジュールであって、各誘導連結サブグラフの前記分子量は前記誘導連結サブグラフのあらゆる頂点の前記分子量を取り出し加算することにより計算される、分子量計算器モジュールを含むシステム。
【請求項36】
マイクロプロセッサを使用することにより選択分子の下部構造を識別するための方法であって、前記方法は、
a)(A)前記選択分子の最小切断可能ユニット、(B)前記選択分子の各最小切断可能ユニットの分子量、及び(C)前記選択分子の最小切断可能ユニットを接続する結合のタイプを識別する前記選択分子の化学線図と注釈とを受信するためにグラフィック入力モジュールを前記マイクロプロセッサ上で実行すること、
b)前記選択分子の最小切断可能ユニットグラフ隣接行列を生成するために行列生成器モジュールを前記マイクロプロセッサ上で実行することであって、前記最小切断可能ユニットグラフ隣接行列は複数の記録を有し、各記録は、一対の頂点に対応し、そして辺が前記対の間に存在する場合には第1の値又は辺が前記対の間に存在しない場合には第2の値が割り当てられるフィールドを有し、各頂点は前記選択分子の最小切断可能ユニットに対応し、辺は前記選択分子の最小切断可能ユニットを接続する結合を表する、前記行列生成器モジュールを実行すること、
c)前記最小切断可能ユニットグラフ隣接行列から線グラフ隣接行列を生成するために線グラフ行列生成器モジュールを前記マイクロプロセッサ上で実行することであって、前記線グラフ隣接行列は複数の頂点を有し、各頂点は、最前記小結合可能ユニットグラフ隣接行列の一対の辺に対応し、そして終点が前記対の辺の間に存在する場合には前記第1の値又は終点が前記対の辺の間に存在しない場合には前記第2の値が割り当てられるフィールドを有し、前記線グラフ隣接行列は、前記辺により接続された終点に基づき前記最小切断可能ユニットグラフ隣接行列の各辺の頂点を有し、頂点は前記選択分子の前記最小切断可能ユニット間の結合を表す、前記線グラフ行列生成器モジュールを実行すること、
d)前記最小切断可能ユニット隣接行列から「辺対頂点」行列を生成するために「辺対頂点」行列生成器モジュールを前記マイクロプロセッサ上で実行することであって、前記「辺対頂点」行列は複数の要素を有し、各要素は、前記最小切断可能ユニットグラフ隣接行列の辺及び頂点に対応し、そして、前記辺及び前記頂点が互いに接続される場合は前記第1の値又は前記辺及び前記頂点が互いに接続されない場合は前記第2の値が割り当てられるフィールドを有し、前記頂点は前記選択分子の最小切断可能ユニットを表し前記辺は前記選択分子の前記最小切断可能ユニットを接続する結合を表す、前記「辺対頂点」行列生成器モジュールを実行すること、
e)前記線グラフ隣接行列の誘導連結サブグラフを生成し格納するためにグラフィック検索を使用することにより前記線グラフ隣接行列及び前記「辺対頂点」行列をトラバースするグラフトラバースエンジンを前記マイクロプロセッサ上で実行すること、及び
f)前記グラフトラバースエンジンにより生成された各誘導連結サブグラフの分子量を計算
しデータベース内に格納する分子量計算器モジュールを前記マイクロプロセッサ上で実行することであって、各誘導連結サブグラフの前記分子量は前記誘導連結サブグラフのあらゆる頂点の前記分子量を取り出し加算することにより計算される、前記分子量計算器モジュールを実行すること、を含む方法。
【請求項37】
選択分子の化学的下部構造を識別するためにマイクロプロセッサを使用してコンピュータシステムのメモリ内のデータベースを生成し検索するための装置であって、前記装置は、
a)前記メモリ内に格納された入力モジュール、
b)前記メモリ内に格納されたデータベース生成モジュール、及び
c)前記メモリ内に格納された検索エンジンを含み、
d)前記入力モジュールは、前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、(A)前記選択分子内の一組の最小切断可能ユニット、(B)前記選択分子内の一組の最小切断可能ユニットを接続する一組の結合、(C)各最小切断可能ユニットの分子量、及び(D)前記選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを表す選択分子データを受信させ前記メモリ内に格納させるプログラム命令を含み、
e)前記データベース生成モジュールは、前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
(i)前記選択分子データに基づき、前記選択分子のV2V隣接行列を生成し前記メモリ内に格納することであって、前記V2V隣接行列は複数のV2Vベクトルを含み、前記複数のV2Vベクトルには
、一対の頂点が選択分子内の結合により互いに接続されるかどうかを前記選択分子内の頂点の対毎に識別するために1組の選択されたV2V値が取り込まれる、前記選択分子のV2V隣接行列を生成し格納すること、
(ii)前記V2V隣接行列に基づき前記選択分子の「辺対頂点」(E2V)隣接行列を生成し前記メモリ内に格納することであって、前記E2V隣接行列は複数のE2Vベクトルを含み、前記複数のE2Vベクトルには
、各辺頂点対
の辺及び頂点が前記選択分子内で互いに直接接続されるかどうかを前記V2V隣接行列内の辺頂点対毎に識別するために選択された1組のE2V値が取り込まれる、前記選択分子の「辺対頂点」(E2V)隣接行列を生成し格納すること、及び
(iii)前記E2V隣接行列内のデータに基づき「辺対辺」(E2E)隣接行列を生成し前記メモリ内に格納することであって、前記E2E隣接行列は複数のE2Eベクトルを含み、前記複数のE2Eベクトルには、前記各辺対が前記選択分子内で頂点により互いに直接接続されるかどうかを前記選択分子内の辺対毎に識別するために選択された1組のE2E値が取り込まれる、前記「辺対辺」(E2E)隣接行列を生成し格納すること、
(iv)前記E2Eグラフのあらゆる誘導連結サブグラフ、前記あらゆる誘導連結サブグラフ内のあらゆる頂点の頂点位置、及び前記あらゆる誘導連結サブグラフ内のあらゆる辺の辺位置を判断するために、前記E2V隣接行列内の前記E2V値及び前記E2E隣接行列内のE2E値に対してグラフ横断アルゴリズムを実行すること、
(v)前記E2Eグラフの前記あらゆる誘導連結サブグラフに関し、分子量フィールド、頂点データフィールド及び辺データフィールドを含むICS記録を前記データベース内に生成することであって、前記頂点データフィールドには前記誘導連結サブグラフ内の前記あらゆる頂点の前記頂点位置を指示するように構成された頂点値が取り込まれ、前記辺データフィールドには前記誘導連結サブグラフ内の前記あらゆる辺の前記辺位置を指示するように構成された辺値が取り込まれる、前記ICS記録を生成すること、
(vi)前記ICS記録の前記誘導連結サブグラフの全分子量を計算し各ICS記録の前記分子量フィールド内に格納するために、前記接続プロファイル、前記選択分子の要素の前記一組の分子量、及びあらゆる誘導連結サブグラフの前記ICS記録を使用することをさせるプログラム命令を含み、及び
f)前記検索エンジンは前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
(i)規定分子量を受信すること、
(ii)前記分子量フィールド内の前記全分子量が前記規定分子量に等しい少なくとも1つのICS記録を発見するために前記データベースを検索すること、及び
(iii)前記少なくとも1つのICS記録の前記頂点データフィールドの前記頂点値及び前記辺データフィールドの前記辺値をディスプレイデバイスへ送信することをさせるプログラム命令を含む、装置。
【請求項38】
前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、前記少なくとも1つのICS記録の前記誘導連結サブグラフのグラフィック表現を生成し前記ディスプレイデバイス上に表示するために前記少なくとも1つのICS記録の接続プロファイル、要素
のリスト、前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の辺値を取り出し使用することをさせるプログラム命令を含む前記メモリ内に格納された視覚化器モジュールをさらに含む請求項37に記載の装置。
【請求項39】
前記グラフィック表現は、
a)化学構造線図、又は
b)MCUグラフ線図、又は
c)「頂点対頂点」(V2V)グラフ線図、又は
d)「辺対辺」(E2E)グラフ線図、又は
e)「辺対頂点」(E2V)グラフ線図、又は
f)線グラフ線図、又は
g)これらの線図のうちの2つ以上の組み合わせを含む、請求項38に記載の装置。
【請求項40】
前記データベース生成モジュールの制御下で前記マイクロプロセッサにより実行される前記グラフ横断アルゴリズムは、
a)深さ優先検索アルゴリズム、又は
b)幅優先探索アルゴリズム、又は
c)逆検索アルゴリズム、又は
d)ツリー検索アルゴリズム、又は
e)これらグラフトラバースアルゴリズムのうちの2つ以上の任意の組み合わせを含む、請求項37に記載の装置。
【請求項41】
前記検索エンジンはさらに、前記マイクロプロセッサにより実行されるとマイクロプロセッサに、
a)前記分子量の規定公差を受信すること、
b)前記データベースの検索の一範囲の分子量を計算し定義するために前記規定公差を使用すること、及び
c)前記分子量フィールド内の前記全分子量が前記
一範囲の分子量内に入る前記少なくとも前記1つのICS記録を発見するために前記データベースを検索すること、をさせるプログラム命令を含む、請求項37に記載の装置。
【請求項42】
規定MCUの一組のMCU特性を含む前記メモリ内に格納されたMCUライブラリをさらに含む請求項37に記載の装置であって、前記一組のMCU特性は、
a)前記規定MCU内の構成要素のリスト、又は
b)前記規定MCUの構成要素の分子量、又は
c)規定MCUの化学構造、又は
d)前記規定MCUの一般名、又は
e)これらのうちの2つ以上の任意の組み合わせを含む、装置。
【請求項43】
前記E2Eグラフ前記誘導連結サブグラフのそれぞれは、辺及び頂点の連結集合と、辺及び頂点の前記連結集合の物理的配置とを有し、これらは、要素の連結集合、前記選択分子の代謝物、又は前記選択分子の異化生成物、又は前記選択分子の気相断片化、又は前記選択分子の分解剤、又は前記選択分子の下部構造の要素の前記連結集合の物理的配置とに一意的に対応する、請求項37に記載の装置。
【請求項44】
前記選択分子は小分子である請求項37に記載の装置。
【請求項45】
前記選択分子は巨大分子である、請求項37に記載の装置。
【請求項46】
前記巨大分子は、蛋白質、核酸、オリゴヌクレオチド、ポリヌクレオチド、多糖又は合成高分子である、請求項45に記載の装置。
【請求項47】
選択分子の化学的下部構造を識別するためにコンピュータシステムのメモリ内のデータベースを生成し検索するための装置であって、前記装置は、
a)マイクロプロセッサ、
b)前記メモリ内に格納された入力モジュール、及び
c)前記メモリ内に格納されたデータベース生成モジュール、を含み
d)前記入力モジュールは、前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、(A)前記選択分子内の一組の最小切断可能ユニット、(B)前記選択分子内の一組の最小切断可能ユニットを接続する一組の結合、(C)各最小切断可能ユニットの分子量、及び(D)前記選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを表す選択分子データを受信させ前記メモリ内に格納させるプログラム命令を含み、
e)前記データベース生成モジュールは、前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
(i)前記接続プロファイルに基づき前記選択分子の「辺対頂点」(E2V)グラフを生成し前記メモリ内に格納することであって、前記E2Vグラフは複数のE2Vベクトルを含み、前記複数のE2Eベクトルには
、各辺頂点対
の辺及
び頂点が前記選択分子の前記接続プロファイル内で互いに直接接続されるかどうかを前記選択分子内の辺頂点対毎に識別するために選択された1組のE2V値が取り込まれる、前記選択分子の「辺対頂点」(E2V)グラフを生成し格納すること、
(ii)前記E2Vグラフ内のデータに基づき「辺対辺」(E2E)グラフを生成し前記メモリ内に格納することであって、前記E2Eグラフは複数のE2Eベクトルを含み、
前記複数のE2Eベクトルには、前記各辺対が前記選択分子の前記接続プロファイル内で頂点により互いに直接接続されるかどうかを前記選択分子内の辺対毎に識別するために選択された1組のE2E値が取り込まれる、前記「辺対辺」(E2E)グラフを生成し格納すること、
(iii)前記E2Eグラフのあらゆる誘導連結サブグラフ、前記あらゆる誘導連結サブグラフ内のあらゆる頂点の頂点位置、及び前記あらゆる誘導連結サブグラフ内のあらゆる辺の辺位置を判断するために、前記E2Vグラフ及び前記E2Eグラフ両方に対してグラフ横断アルゴリズムを実行すること、
(iv)前記E2Eグラフの前記あらゆる誘導連結サブグラフに関し、分子量フィールド、頂点データフィールド及び辺データフィールドを含むICS記録を前記データベース内に生成することであって、前記頂点データフィールドには前記誘導連結サブグラフ内の前記あらゆる頂点の前記頂点位置を指示するように構成された頂点値が取り込まれ、前記辺データフィールドには前記誘導連結サブグラフ内の前記あらゆる辺の前記辺位置を指示するように構成された辺値が取り込まれる、前記ICS記録を生成すること、及び
(v)前記ICS記録の前記誘導連結サブグラフの全分子量を計算し各ICS記録の前記分子量フィールド内に格納するために、前記接続プロファイル、前記選択分子の要素の前記一組の分子量、及びあらゆる誘導連結サブグラフの前記ICS記録を使用すること、をさせるプログラム命令を含む、装置。
【請求項48】
前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
a)規定分子量から受信すること、
b)前記分子量フィールド内の前記全分子量が前記規定分子量に等しい少なくとも1つのICS記録を発見するために前記データベースを検索すること、及び
c)前記少なくとも1つのICS記録の頂点データフィールドの頂点値及び辺データフィールドの辺値をディスプレイデバイスへ送信すること、をさせるプログラム命令を有する前記メモリ内に格納された検索エンジンをさらに含む請求項47に記載の装置。
【請求項49】
前記検索エンジンはさらに、前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
a)前記分子量の規定公差を受信すること、
b)前記データベースの前記検索の一範囲の分子量を計算し定義するために前記規定公差を使用すること、及び
c)前記分子量フィールド内前記の全分子量が前記
一範囲の分子量内に入る前記少なくとも1つのICS記録を発見するために前記データベースを検索すること、をさせるプログラム命令を含む、請求項48に記載の装置。
【請求項50】
前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、前記少なくとも1つのICS記録の前記誘導連結サブグラフのグラフィック表現を生成
しディスプレイデバイス上に表示するために前記少なくとも1つのICS記録の接続プロファイル、要素
のリスト、前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の辺値を取り出し使用することをさせるプログラム命令を含む前記メモリ内に格納された視覚化器モジュール、をさらに含む請求項47に記載の装置。
【請求項51】
前記
誘導連結サブグラフのグラフィック表現は、
a)化学構造線図、又は
b)MCUグラフ線図、又は
c)「頂点対頂点」(V2V)グラフ線図、又は
d)「辺対辺」(E2E)グラフ線図、又は
e)「辺対頂点」(E2V)グラフ線図、又は
f)線グラフ線図、又は
g)これらのうちの2つ以上の組み合わせを含む、請求項47に記載の装置。
【請求項52】
前記データベース生成モジュールの制御下で前記マイクロプロセッサにより実行される前記グラフ横断アルゴリズムは、
a)深さ優先検索アルゴリズム、又は
b)幅優先探索アルゴリズム、又は
c)逆検索アルゴリズム、又は
d)ツリー検索アルゴリズム、又は
e)これらのうちの2つ以上のうちの任意の組み合わせを含む、請求項47に記載の装置。
【請求項53】
規定MCUの一組のMCU特性を含む前記メモリ内に格納されたMCUライブラリをさらに含む請求項47に記載の装置であって、前記一組のMCU特性は、
a)前記規定MCU内の構成要素のリスト、又は
b)前記規定MCUの構成要素の分子量、又は
c)前記規定MCUの化学構造、又は
d)前記規定MCUの一般名、又は
e)これらのうちの2つ以上の任意の組み合わせを含む装置。
【請求項54】
前記E2Eグラフ前記誘導連結サブグラフのそれぞれは、辺及び頂点の連結集合と、辺及び頂点の前記連結集合の物理的配置とを有し、これらは、要素の連結集合と、前記選択分子の代謝物、又は前記選択分子の異化生成物、又は前記選択分子の気相断片化、又は前記選択分子の分解剤、又は前記選択分子の下部構造の要素の前記連結集合の物理的配置とに一意的に対応する、請求項47に記載の装置。
【請求項55】
前記選択分子は小分子である、請求項47に記載の装置。
【請求項56】
前記選択分子は巨大分子である、請求項47に記載の装置。
【請求項57】
前記
選択分子は、蛋白質、核酸、オリゴヌクレオチド、ポリヌクレオチド、多糖又は合成高分子である、請求項47に記載の装置。
【請求項58】
選択分子の化学的下部構造の一組の構成要素及び前記構成要素の物理的配置を記述する情報を発見しディスプレイデバイスへ送信するためにデータベースを検索するための装置であって、前記装置は、
a)マイクロプロセッサ、
b)それぞれが分子量フィールド、頂点データフィールド及び辺データフィールドを含む複数のICS記録を含むデータベースへの電子ユーザインターフェースであって、前記頂点データフィールドには前記選択分子の接
続プロファイルを表す線グラフの誘導連結サブグラフ内のあらゆる頂点の頂点位置を指示するように構成された頂点値が取り込まれ、前記辺データフィールドには前記誘導連結サブグラフ内のあらゆる辺の辺位置を指示するように構成された辺値が取り込められる、電子ユーザインターフェース、
c)前記マイクロプロセッサに規定分子量を受信させるように構成された入力モジュール、
d)前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、前記分子量フィールド内
の全分子量が前記規定分子量に等しい少なくとも1つのICS記録を発見するために前記データベースへの電子インターフェースを使用させるプログラム命令を有する検索エンジン、及び
e)前記マイクロプロセッサが前記少なくとも1つのICS記録の前記頂点データフィールドの前記頂点値及び前記辺データフィールドの前記辺値を前記ディスプレイデバイスへ送信するように構成され
たメモリ内に格納された出力モジュール、を含む装置。
【請求項59】
前記検索エンジンはさらに、前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
a)前記分子量の規定公差を受信すること、
b)前記データベースの前記検索の一範囲の分子量を計算し定義するために前記規定公差を使用すること、及び
c)前記分子量フィールド内の前記全分子量が前記
一範囲の分子量内に入る前記少なくとも1つのICS記録を発見するために前記データベースを検索すること、をさせるプログラム命令を含む、請求項58に記載の装置。
【請求項60】
a)前記選択分子の接続プロファイル、
b)前記選択分子の要素のリスト、及び
c)前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、前記少なくとも1つのICS記録の前記誘導連結サブグラフのグラフィック表現を生成し前記ディスプレイデバイス上に表示するために前記少なくとも1つのICS記録の接続プロファイル、要素の前記リスト、前記頂点データフィールド内の前記頂点値及び前記辺データフィールド内の前記辺値を使用することをさせるプログラム命令を含む前記メモリ内に格納された視覚化器モジュール、をさらに含む請求項58に記載の装置。
【請求項61】
前記グラフィック表現は、
a)化学構造線図、又は
b)MCUグラフ線図、又は
c)「頂点対頂点」(V2V)グラフ線図、又は
d)「辺対辺」(E2E)グラフ線図、又は
e)「辺対頂点」(E2V)グラフ線図、又は
f)線グラフ線図、又は
g)これらの線図のうちの2つ以上の組み合わせを含む、請求項60に記載の装置。
【請求項62】
a)前記データベース、
b)前記マイクロプロセッサにより実行されると前記マイクロプロセッサに、
(i)前記接続プロファイルに基づき前記選択分子の「辺対頂点」(E2V)グラフを生成し前記メモリ内に格納することであって、前記E2Vグラフは複数のE2Vベクトルを含み、前記複数のE2Eベクトルには
、各辺頂点対
の辺及
び頂点が前記選択分子の前記接続プロファイル内で互いに直接接続されるかどうかを前記選択分子内の辺頂点対毎に識別するために選択された1組のE2V値が取り込まれる、前記選択分子の「辺対頂点」(E2V)グラフを生成し格納すること、及び
(ii)前記E2Vグラフ内のデータに基づき「辺対辺」(E2E)グラフを生成し前記メモリ内に格納することであって、前記E2Eグラフは複数のE2Eベクトルを含み、前記複数のE2Eベクトルには、前記各辺対が前記選択分子の前記接続プロファイル内で頂点により互いに直接接続されるかどうかを前記選択分子内の辺対毎に識別するために選択された1組のE2E値が取り込まれる、前記「辺対辺」(E2E)グラフを生成し格納すること、
(iii)前記E2Eグラフのあらゆる誘導連結サブグラフ、前記あらゆる誘導連結サブグラフ内のあらゆる頂点の頂点位置、及び前記あらゆる誘導連結サブグラフ内のあらゆる辺の辺位置を判断するために、前記E2Vグラフ及び前記E2Eグラフ両方に対してグラフ横断アルゴリズムを実行すること、
(iv)前記E2Eグラフの前記あらゆる誘導連結サブグラフに関し、分子量フィールド、頂点データフィールド及び辺データフィールドを含むICS記録を前記データベース内に生成することであって、前記頂点データフィールドには前記誘導連結サブグラフ内の前記あらゆる頂点の前記頂点位置を指示するように構成された頂点値が取り込まれ、前記辺データフィールドには前記誘導連結サブグラフ内の前記あらゆる辺の前記辺位置を指示するように構成された辺値が取り込まれる、前記ICS記録を生成すること、及び
(v)前記ICS記録の前記誘導連結サブグラフの全分子量を計算し各ICS記録の前記分子量フィールド内に格納するために、前記接続プロファイル、前記選択分子の要素の前記一組の分子量、及びあらゆる誘導連結サブグラフの前記ICS記録を使用すること
をさせるプログラム命令を前記メモリ内に格納されたデータベース生成モジュールをさらに含む請求項58に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
発明の分野
本発明は、錯体分子(特に生体分子などの巨大分子)の下部構造を識別するためのシステム、装置及び方法に関する。
【背景技術】
【0002】
発明の背景
医薬化合物の下部構造(代謝物など)を識別し特徴付けることは、創薬の重要部分であり、その生物活性に影響を与え、その結果、生体利用率が低下され毒性が増強された代謝物をしばしば生じる。このような代謝物の構造を理解すること、及び、代謝変換の特定部位を定義することは、例えば安定性及び毒性問題を克服するために主化合物又は薬候補の合成最適化を誘導する際に有用である。
【0003】
現在の代謝物識別(MetID:metabolite identification)手法は、その構造の予備知識無しには生体マトリックスから治療用蛋白質及びペプチド(TPP:therapeutic protein and peptide)などの巨大分子の代謝物を系統的に特徴付けることができなかった。MASSCAP、SEQUEST及びMassMetaSiteなどのいくつかの既製の小分子MetIDソフトウェアは、小分子薬及び小さな直鎖ペプチドの代謝物を特徴付けるのに有用であるが、このソフトウェアはより大きな生体分子(巨大非直鎖ペプチド/タンパク質など)のMetIDとは十分には適合してこなかった。以下の少なくとも3つの理由がある:(i)大抵の小分子MetIDソフトウェアは巨大分子のモノアイソトピックピークを正しく逆畳み込み(deconvolute)することができなく、正しくない入力質量値を生じる、(ii)大抵の小分子MetIDソフトウェアは小分子薬用に設計された原子ベースアルゴリズムを使用し、TPPなどの典型的な巨大生体分子の原子の数は通常、小分子のものより1~2桁高く、このような原子ベースアルゴリズムの大きな計算複雑性を導入する、(iii)巨大分子は従来の小分子ソフトウェアにおいては一般的に考慮されない独特な代謝過程を有するので小分子MetIDに有用な情報(シトクロムP450代謝経路又は質量欠損フィルタなど)は巨大分子に適用しない。
【0004】
分子の原子ベース表現に伴う計算複雑性はコンピュータ解析を妨げ得る。所与のコンピュータ内のRAMの量に依存して、1000万を越える代謝物を有する分子の代謝物のすべてを識別するために必要とされる処理はコンピュータを完全にダウンさせる可能性が高いだろう。1ギガバイトのRAMは本発明者らの経験では約100万の下部構造を扱い得る。所与の複合巨大分子の理論的代謝物の数はしばしば1000万を越える。
【0005】
加えて、蛋白質構造を解析するための従来のソフトウェア(例えばプロテオミクスベースソフトウェア)は、通常、アミド及び二硫化物結合切断を計算するが、予期しない修飾形態(+オキシ、+P、+Metなど)、非天然アミノ酸、生体内二硫化物スクランブル、非天然鎖及び非特異性蛋白質切断を含む巨大分子(TPPなど)の完全な予測不能代謝プロファイルに対処することができなかった。
【0006】
したがって、非線形ペプチド及び巨大分子を解読することができるシステム及び処理、並びに生体マトリクス中の蛋白質バックグラウンドから治療用ペプチド又は蛋白質などの巨大分子の代謝物を差別化することを容易にするだけでなく当該の代謝物の構造の解明も容易にするシステム及び方法論の著しい必要性がある。巨大分子代謝物の構造を生成し表示するシステム及び処理の著しい必要性もある。
【発明の概要】
【課題を解決するための手段】
【0007】
発明の概要
本発明のいくつかの実施形態は、分子の下部構造(代謝物など)、特に、識別し特徴づけるのがこれまで困難であった生体分子などの巨大分子の下部構造を識別するためのシステム、装置及び方法を提供することにより上述の必要性に対処する。実際、データ解釈は現在のペプチド/タンパク質代謝物識別のボトルネックであり且つボトルネックであり続ける。
【0008】
本発明はすべてのタイプの分子の下部構造を識別するのに適用可能であり且つ有用である。選択分子は巨大分子、高分子、又は小分子であり得る。巨大分子は、限定しないが、ペプチド、ポリペプチド、抗体、蛋白質、酵素、免疫グロブリン、脂質、核酸、炭水化物、オリゴヌクレオチド、ポリヌクレオチド、多糖、及び高分子などのアミノ酸ベース分子を含む。選択分子はまた共役分子及び交差結合分子であり得る。
【0009】
小分子は、自然発生か人為的に生成された(例えば化学合成を介し)かにかかわらず比較的低い分子量を有する有機分子を含む。本発明のいくつかの実施形態は、動物、好適には哺乳動物、より好適には人間において局所的又は系統的効果を生じるという点で、生物学的に活性である小分子を解析するのに有用である。いくつかの実施形態では、小分子は約900ダルトン以下の分子量を有する。
【0010】
一般的に、本発明のいくつかの実施形態は、錯体分子の代謝物及び他の下部構造を識別しそしてこのような代謝物及び他の下部構造の関連化学構造を判断するために化学者及び生化学者などの科学者により使用され得る。したがって、本発明のいくつかの実施形態は薬剤開発及び設計において極めて有用であると考えられ得る。
【0011】
本明細書で使用されるように、すべてのアミノ酸3文字及び1文字指定は、当該技術領域において標準的である指定に準拠し、次のように列挙される:
アラニンAla A、アルギニンArg R、アスパラギンAsn N、アスパラギン酸Asp D、システインCys C、グルタミン酸Glu E、グルタミンGln Q、グリシンGly G、ヒスチジンHis H、イソロイシンIle I、ロイシンLeu L、リジンLys K、メチオニンMet M、フェニルアラニンPhe F、プロリンPro P、セリンSer S、トレオニンThr T、トリプトファンTrp W、チロシンTyr Y、バリンVal V
【0012】
本発明の例示的システム、装置及び方法は、小分子MetID手法及び小分子トップダウンプロテオミクス(Top Down proteomics)手法を組み合わせ、そして所与の分子の下部構造(代謝物など)の網羅的プールを識別及び格納するためだけでなくまた識別された代謝物の構造的特徴付けと代謝物の化学構造又は構成の視覚化とを提供するために速く且つ効率的やり方を提供する。本発明の例示的システム、装置及び方法は、コンピュータシステムが識別するために必要とされる検索時間を著しく改善することにより従来のコンピュータシステムの動作を改善し、そして錯体分子の下部構造及び代謝物を特徴付ける。本発明のいくつかの実施形態に従って動作するように構成されたコンピュータシステムは、数週又は数か月かかるであろう従来のコンピュータ化方法と比較してほんの数時間で何億もの下部構造を識別し特徴付けし得る。下部構造は、コンピュータメモリなどの電子媒体内に格納され、コンピュータモニタ上に表示され、さらなる解析のために別のコンピュータシステムへ印刷又は送信され得る。本発明により可能にされる著しく低減された処理時間は薬剤設計及び開発の技術を進展させる際に貴重且つ実用的役割を果たすことになる。
【0013】
下部構造が属する分子は「選択分子」と呼ばれる。本発明は選択分子を表すための独特なシステムを採用する。具体的には、選択分子は、最小切断可能ユニット(minimum cleavable unit)グラフ(MCUグラフ)と呼ばれるグラフにより表される規定最小切断可能ユニット(本明細書ではMCUと呼ばれる)の観点で説明される。そのようにしてMCUグラフはコンピュータシステムのメモリ内のデータ構造内に格納されるデータにより表される。本明細書で列挙される最小切断可能ユニットはいかなる切断(cut/cleavage)(代謝過程の無い)も発生することが許容されない分子の一部分である。最小切断可能ユニットは選択分子の隣接代謝切断部位間の原子団を含み得る。一例として、蛋白質又はペプチド分子の最小切断可能ユニットは例えば単一アミノ酸又は一続きのアミノ酸を含み得る。例えば、環状ペプチドの最小切断可能ユニットは環状ペプチドの中核領域を含み得る。最小切断可能ユニット手法は当該分子をより単純なやり方で(例えば複合蛋白質構造を直鎖ペプチド領域に変換することを試みることにより複合蛋白質構造の複雑性を低減することにより)定義することを容易にする。最小切断可能ユニット手法は、MCU内に切断を有する代謝物をたどることを無くすモジュールをユーザが定義することを許容し、したがって機能的ではない。
【0014】
選択分子は、所与の研究のゴールとどのようにMCUが定義されるかに依存して多くの異なるMCUグラフを有し得る。例えば、研究のゴールがアミド結合切断により生成されるすべての代謝物を識別することであれば、MCUは、単一アミノ酸を越えるさらなる代謝をユーザが考慮しないので各個々のアミノ酸残基として定義される。別の例として、研究のゴールが環状ペプチドの活性代謝物を識別することであれば、活性代謝物は無傷環状領域を有しなければならないのでペプチドの環状領域もまたMCUとして含まれるだろう、そしてさらなる代謝は環状領域内で考慮される必要はない。
【0015】
研究者及び科学者は、MCUグラフから導出される線グラフが代謝物などの下部構造を識別する分子の効率的やり方であることをこれまで認識できなかった。本発明者らは、線グラフが下部構造識別システム、装置及び方法として特に有用であるということを発見した。重要なことには、本発明者らは、MCUグラフの線グラフの誘導連結サブグラフ(induced connected subgraph)の世界は対応MCUグラフにより表される分子の下部構造及び代謝物の全世界を完全にそして一意的に表すということを認識した。換言すれば、MCUグラフの線グラフの一組の誘導連結サブグラフと対応MCUグラフにより表される分子の一組の代謝物との間には1対1の関係がある。この関係は、選択分子の代謝物の全世界を識別するアルゴリズムを使用することを許容するので実用的である。このアルゴリズムの実用化は、選択分子の代謝物の全世界を識別するために使用されるコンピュータシステムの機能を著しく改善する。
【0016】
本発明の一実施形態の動作の第1段階において、ユーザは、(A)選択分子の一組の最小切断可能ユニット、(B)選択分子内の一組の最小切断可能ユニットを接続する一組の結合、(C)各最小切断可能ユニットの分子量、及び(D)選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを含む選択分子データを入力する。選択分子データは、選択分子のMCUグラフ又は選択分子の別の表現の形式(MCUの識別子、MCUを接続する結合のタイプ、及びMCUの分子量を含む頂点注釈及び辺注釈を有する化学構造又は図などの形式)で提供され得る。本システムは選択分子のMCUグラフデータ構造に取り込むためにこの入力を使用する。好適なMCUグラフデータ構造は配列、隣接行列、隣接リスト、結合行列又は結合リストを含み得る。
【0017】
MCUグラフデータ構造に基づき、本システムは、選択分子の異なる表現(すなわち線グラフ)を生成し、線グラフを表すデータを線グラフデータ構造(以下にさらに詳細に説明されるように本発明の下部構造識別処理において特に役立つ)内に格納する。好適な線グラフデータ構造はまた隣接行列、隣接リスト、結合行列又は結合リストを含む。
【0018】
次に、本システムは、選択分子の完全な一組の誘導連結サブグラフ(ICS)のデータ構造を識別するために、好適なグラフトラバースアルゴリズム(
図27に示す)を使用することにより線グラフデータ構造をトラバースする。好適なグラフトラバースアルゴリズムは深さ優先検索アルゴリズム、又は幅優先検索アルゴリズム,又は逆方向検索アルゴリズム、又はツリー検索アルゴリズム、又はこれらの2つ以上の組み合わせを含む。ICS毎に、本システムは、分子量フィールド、頂点データフィールド及び辺データフィールドを含むICS記録を生成し取り込む。次に、本システムは、各誘導連結サブグラフに対応する全分子量を計算し、この分子量を、各記録がこの分子量によりその後に検索され発見され得るように各ICS記録の頂点及び辺データと一緒に分子量フィールド内に格納する。各ICS記録内に格納されたデータは選択分子の下部構造を表す。いくつかの実施形態では、本システムはまた、選択分子の下部構造へ変換されるべき選択分子に関し発生する必要があるだろう生体変換(すなわち壊された共有結合)の数を計算し各ICS記録内に格納するように構成され得る。
【0019】
第2段階の動作では、本システムはユーザ(第1のユーザであってもなくてもよい)から分子量を受信し、入力される分子量は実験によりユーザにより予め判断される又は質量分析計などの別のソース又は別のデバイスから取得されるかのいずれかである。本システムは、照会分子量に整合する分子量を有するICS記録を発見するために、データベース内に格納されICS分子量、頂点配列値及び辺配列値を含むICS記録を検索し、発見されれば、ICS記録内の情報をユーザへ表示、印刷、又は送信する。任意選択的に、本システムはまた、各記録内の頂点及び辺データに基づき整合誘導連結サブグラフの構造のグラフィック表現を表示、印刷、又は送信し得る。好適には、所与の照会分子量に整合する下部構造は、整合する下部構造へ変換されるべき選択分子に関し発生する必要があるだろう生体変換の数に従ってランク順に列挙及び/又は表示される。
【0020】
本下部構造識別システム、装置及び方法は選択分子の代謝物及び選択分子の他の下部構造を識別するために有用である。例えば、無傷蛋白質を特徴付けるために、気相断片化(gas fragmentation)技術が前駆体蛋白質イオンの断片化イオンを取得するためにしばしば行われる。各断片化イオンは前駆体イオンの下部構造と見做され得る。前駆体蛋白質イオンの構造を正しく特徴付けるために、各断片化イオンの構造がその質量又は分子量値に基づき正しく割り当てられる必要がある。本発明のシステム、装置及び方法は断片化イオンの質量値と気相状態のそれらの構造との間の関係を構築するために適用され得る。
【0021】
一態様では、本発明は、選択分子の下部構造を識別するためのシステムであって、a)マイクロプロセッサ、b)メモリ、c)メモリ内のアプリケーションプログラム、d)エンドユーザとの通信のためのユーザインターフェースを含むシステムを提供する。アプリケーションプログラムは、マイクロプロセッサにより実行されるとマイクロプロセッサに、(i)(A)選択分子内の一組の最小切断可能ユニット、(B)選択分子内の一組の最小切断可能ユニットを接続する一組の結合、(C)各最小切断可能ユニットの分子量、及び(D)選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを表す選択分子データを受信しメモリ内に格納すること、(ii)選択分子データに基づき、選択分子の最小切断可能ユニットグラフデータ構造を生成しメモリ内に格納することであって、最小切断可能ユニットグラフデータ構造には選択分子のMCUグラフを表すMCUグラフデータが取り込まれ、MCUグラフは複数のMCUグラフ頂点及び複数のMCUグラフ辺を有し、各MCUグラフ頂点は選択分子の最小切断可能ユニットに対応し、各MCUグラフ辺は選択分子内の結合接続最小切断可能ユニットに対応する、生成し格納すること、(iii)MCUグラフデータに基づき、線グラフデータ構造を生成しメモリ内に格納することであって、線グラフデータ構造にはMCUグラフの線グラフを表す線グラフデータが取り込まれ、線グラフは複数の線グラフ(LG)頂点及び複数の線グラフ(LG)辺を有し、各LG頂点はMCUグラフ内のMCUグラフ辺に対応し、各LG辺は前記MCUグラフ辺により連結されるMCUグラフ内の一対のMCUグラフ頂点に対応する、生成し格納すること、及び(iv)線グラフの複数の誘導連結サブグラフを判断するために、線グラフデータ構造内の線グラフデータに対してグラフトラバースアルゴリズムを実行することをさせるプログラム命令を含む。各誘導連結サブグラフは、線グラフ内のLG頂点及びLG辺の接続サブセットと、LG頂点及びLG辺の前記接続サブセットの物理的配置とを含み、LG頂点及びLG辺の接続サブセット並びにその物理的配置は併せて、一組の最小切断可能ユニット及び結合の接続サブセットと選択分子内の最小切断可能ユニット及び結合の前記接続サブセットの相対位置とに一意的に対応する。
【0022】
アプリケーションプログラムはさらに、線グラフデータ構造内に表される誘導連結サブグラフ毎に、分子量フィールド、頂点データフィールド及び辺データフィールドを含むICS記録をデータベース内に生成するプログラム命令を含み、頂点データフィールドには誘導連結サブグラフ内のあらゆるLG頂点の頂点位置を指示するように構成された頂点値が取り込まれ、辺データフィールドにはLG頂点に対する誘導連結サブグラフ内のあらゆるLG辺の辺位置を指示するように構成された辺値が取り込まれる。線グラフデータ構造内のICS記録毎に、アプリケーションプログラムは、選択分子の選択分子データとICS記録内の頂点値及び辺値とにより提供される基本分子量に基づき当該ICS記録の誘導連結サブグラフの全分子量を計算し分子量フィールド内に格納する。好適には、本システムはまた、選択分子を当該ICS記録の頂点データ、辺データ及び分子量により表される下部構造へ変換するために必要とされるだろう生体変換の数(すなわち生体変換カウント)を計算し各ICS記録内に格納する。生体変換カウントを他のデータと一緒に各ICS記録内に格納することは、生体変換カウントに従って検索結果を検索及び/又はランク付けすることを許容する。
【0023】
ユーザインターフェースは、マイクロプロセッサにより実行されるとマイクロプロセッサに、(i)エンドユーザから照会分子量を受信すること、(ii)照会分子量に整合する全分子量を分子量フィールド内に有するICS記録を識別するために照会分子量に基づきデータベースを検索すること、及び(iii)識別されたICS記録の頂点データフィールド内の頂点値及び辺データフィールド内の辺値をエンドユーザにより操作されるディスプレイデバイス上の提示のためにユーザインターフェースへ送信することをさせるプログラム命令を含む。
【0024】
本発明のいくつかの実施形態では、本システムはさらに、マイクロプロセッサにより実行されるとマイクロプロセッサに、a)線グラフの誘導連結サブグラフのコンピュータシステムメモリからグラフィック表現をコンピュータシステムのメモリ内に生成するために頂点データフィールド内の頂点値、辺データフィールド内の辺値、及び選択分子データを使用すること、及び(ii)グラフィック表現をエンドユーザにより操作されるディスプレイデバイスへ送信することをさせるプログラム命令をユーザインターフェース内に含む。
【0025】
本発明のいくつかの追加実施形態では、本システムはさらに、マイクロプロセッサにより実行されるとマイクロプロセッサに、a)分子量の規定公差を受信すること、b)データベースの検索のための一定範囲の分子量を計算し定義するために規定公差を使用すること、c)規定範囲の分子量内に入る分子量フィールド内の全分子量を有するデータベース内の各ICS記録を識別するために照会分子量及びこの範囲に基づきデータベースを検索すること、及びd)前記識別されたICS記録毎に、頂点データフィールド内の頂点値及び辺データフィールド内の辺値をエンドユーザのディスプレイデバイス上でエンドユーザへ提示するためにユーザインターフェースへ送信することをさせるプログラム命令をアプリケーションプログラム内に含む。好適には、アプリケーションプログラムのプログラム命令はさらに、最小数の生体変換を必要とする誘導連結サブグラフが最初に(すなわち、リストの最上位に、そしてより多くの数の生体変換を必要とする整合誘導連結サブグラフの前に)表示されるように検査結果を生体変換カウントの昇順にランク付けし表示するように構成される。
【0026】
本発明のいくつかの実施形態では、選択分子データは、連結リスト、配列、又は隣接行列、又はグラフィック画像ファイル、又は化学図ファイル(例えばCambridge Soft(登録商標)からのChemDraw(登録商標)ファイル、PerkinElmer, Inc., Waltham, MA, USA)、又はスプレッドシートファイル、テキストファイル、又はCSVファイル、又は.CDXファイル、.CDXMLファイル、又は.MOLファイル、又は.SDMファイル、CADファイル、又はバイナリデータファイル、又は.SMIファイル、.HELMファイル、又は.CHELMファイル、又は.XHELMファイルとしてコンピュータシステムのメモリ内に格納された情報を解析するように構成されるアプリケーション内の命令を実行することにより取得される。
【0027】
一組の最小切断可能ユニット及び結合の接続サブセットは、選択分子の代謝物、又は選択分子の異化生成物、又は選択分子の気相断片化、又は選択分子の分解剤、又は選択分子の下部構造である。
【0028】
本発明のいくつかの実施形態では、a)選択分子データは、以下を表す基本組成データを含む:(A)各最小切断可能ユニット内の一組の基本ユニット、(B)最小切断可能ユニット内の一組の基本ユニットを連結する一組の基本結合、(C)各基本ユニットの基本分子量、及び(D)最小切断可能ユニットのMCU接続プロファイルであって、最小切断可能ユニット内の基本ユニットと基本結合との相対位置及びその間の接続を指示するMCU接続プロファイル。これらの実施形態では、データベース内に生成されるICS記録はさらに、1つ又は複数の基本ユニット識別子が取り込まれる基本ユニットフィールドを含む。アプリケーションプログラムはさらに、マイクロプロセッサにより実行されるとマイクロプロセッサに、(a)エンドユーザから照会基本ユニットを受信すること、(ii)照会基本ユニットに整合する基本ユニットフィールド内の基本ユニット識別子を有するICS記録を識別するために照会基本ユニットに基づきデータベースを検索すること、(iii)識別されたICS記録の頂点データフィールド内の頂点値及び辺データフィールド内の辺値をエンドユーザにより操作されるディスプレイデバイス上の提示のためにユーザインターフェースへ送信することをさせるプログラム命令を含む。
【0029】
別の態様では、本発明は、マイクロプロセッサを使用して選択分子の下部構造を識別することを容易にするためにデータベースを生成するためのシステムを提供する。本システムは、a)メモリ、b)マイクロプロセッサ、c)(A)選択分子内の一組の最小切断可能ユニット、(B)選択分子内の一組の最小切断可能ユニットを接続する一組の結合、(C)各最小切断可能ユニットの分子量、及び(D)選択分子内の最小切断可能ユニット及び結合の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを表す選択分子データを受信し格納する入力モジュール、d)選択分子データに基づき選択分子の最小切断可能ユニットグラフデータ構造をメモリ内に生成するように構成されたMCUグラフモジュールであって、最小切断可能ユニットグラフデータ構造には選択分子のMCUグラフを表すMCUグラフデータが取り込まれ、MCUグラフは複数のMCUグラフ頂点及び複数のMCUグラフ辺を有し、各MCUグラフ頂点は選択分子の最小切断可能ユニットに対応し、各MCUグラフ辺は選択分子内の結合接続最小切断可能ユニットに対応する、MCUグラフモジュール、e)MCUグラフの線グラフを表す線グラフデータが取り込まれる線グラフデータ構造を生成しメモリ内に格納するように構成された線グラフモジュールであって、線グラフは複数のLG頂点及び複数のLG辺を有し、各LG頂点はMCUグラフ内のMCUグラフ辺に対応し、各LG辺は前記MCUグラフ辺により連結されるMCUグラフ内の一対のMCUグラフ頂点に対応する、線グラフモジュール、f)線グラフの複数の誘導連結サブグラフを判断するために、線グラフデータ構造内の線グラフデータに対してグラフトラバースアルゴリズムを実行するように構成されたグラフトラバースモジュールであって、各誘導連結サブグラフは、線グラフ内のLG頂点及びLG辺の接続サブセットと、LG頂点及びLG辺の前記接続サブセットの物理的配置とを含み、これらは併せて、一組の最小切断可能ユニット及び結合の接続サブセットと、選択分子内の最小切断可能ユニット及び結合の前記接続サブセットの相対位置とに一意的に対応する、グラフトラバースモジュール、及びg)サブグラフデータベース生成器であって、(i)線グラフデータ構造内に表される誘導連結サブグラフ毎に、分子量フィールド、頂点データフィールド及び辺データフィールドを含むICS記録をデータベース内に生成し、頂点データフィールドには誘導連結サブグラフ内のあらゆるLG頂点の頂点位置を指示するように構成された頂点値が取り込まれ、辺データフィールドにはLG頂点に対する誘導連結サブグラフ内のあらゆるLG辺の辺位置を指示するように構成された辺値が取り込まれ、及び(ii)線グラフデータ構造内のICS記録毎に、選択分子の選択分子データと第2のICS記録内の頂点値及び辺値とに基づき当該ICS記録の誘導連結サブグラフの全分子量を計算し分子量フィールド内に格納する、サブグラフデータベース生成器を含む。
【0030】
本システムはさらに、エンドユーザとの通信のためのメモリ内のユーザインターフェースとメモリ内の検索エンジンとを含み、ユーザインターフェースと検索エンジンの両方は、マイクロプロセッサにより実行されるとマイクロプロセッサに、(i)エンドユーザから照会分子量を受信すること、(ii)照会分子量に整合する全分子量を分子量フィールド内に有するICS記録を識別するために照会分子量に基づきデータベースを検索すること、及び(iii)識別されたICS記録の頂点データフィールド内の頂点値及び辺データフィールド内の辺値をエンドユーザにより操作されるディスプレイデバイス上の提示のためにユーザインターフェースへ送信することをさせるプログラム命令を有する。
【0031】
本発明のいくつかの実施形態では、ユーザインターフェースはさらに、マイクロプロセッサにより実行されるとマイクロプロセッサに、a)線グラフの誘導連結サブグラフのグラフィック表現を生成するために頂点データフィールド内の頂点値、辺データフィールド内の辺値、及び選択分子データを使用すること、及びb)グラフィック表現をエンドユーザにより操作されるディスプレイデバイスへ送信することをさせるプログラム命令を含む。
【0032】
本発明のいくつかの実施形態では、アプリケーションプログラムはさらに、マイクロプロセッサにより実行されるとマイクロプロセッサに、a)分子量の規定公差を受信すること、b)データベースの検索のための一定範囲の分子量を計算し定義するために規定公差を使用すること、c)規定範囲の分子量内に入る分子量フィールド内の全分子量を有するデータベース内の各ICS記録を識別するために照会分子量及びこの範囲に基づきデータベースを検索すること、及びd)前記識別されたICS記録毎に、頂点データフィールド内の頂点値及び辺データフィールド内の辺値をエンドユーザへ提示するためにユーザインターフェースへ送信することをさせるプログラム命令を含む。
【0033】
別の態様では、本発明は、マイクロプロセッサ及びメモリデバイスを使用して選択分子の下部構造を識別することを容易にするためにデータベースを生成する方法を提供する。本方法は、a)(A)選択分子内の一組の最小切断可能ユニット、(B)選択分子内の一組の最小切断可能ユニットを接続する一組の結合、(C)各最小切断可能ユニットの分子量、及び(D)選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを表す選択分子データを受信しメモリデバイス内に格納する工程、b)選択分子データに基づき、選択分子の最小切断可能ユニットグラフデータ構造を生成しメモリデバイス内に格納する工程であって、最小切断可能ユニットグラフデータ構造には選択分子のMCUグラフを表すMCUグラフデータが取り込まれ、MCUグラフは複数のMCUグラフ頂点及び複数のMCUグラフ辺を有し、各MCUグラフ頂点は選択分子の最小切断可能ユニットに対応し、各MCUグラフ辺は選択分子内の結合接続最小切断可能ユニットに対応する、工程、c)MCUグラフデータに基づき、線グラフデータ構造を生成しメモリデバイス内に格納する工程であって、線グラフデータ構造にはMCUグラフの線グラフを表す線グラフデータが取り込まれ、線グラフは複数のLG頂点及び複数のLG辺を有し、各LG頂点はMCUグラフ内のMCUグラフ辺に対応し、各LG辺は前記MCUグラフ辺により連結されるMCUグラフ内の一対のMCUグラフ頂点に対応する、工程、d)線グラフの複数の誘導連結サブグラフを判断するために、線グラフデータ構造内の線グラフデータに対してグラフトラバースアルゴリズムをマイクロプロセッサ上で実行する工程であって、各誘導連結サブグラフは線グラフ内のLG頂点及びLG辺の接続サブセットとLG頂点及びLG辺の前記接続サブセットの物理的配置とを含み、これらは併せて、一組の最小切断可能ユニット及び結合の接続サブセットと、選択分子内の最小切断可能ユニット及び結合の前記接続サブセットの相対位置とに一意的に対応する、工程を含む。線グラフデータ構造内に表される誘導連結サブグラフ毎に、本方法はさらに、e)分子量フィールド、頂点データフィールド及び辺データフィールドを含むICS記録をデータベース内に生成する工程であって、頂点データフィールドには誘導連結サブグラフ内のあらゆるLG頂点の頂点位置を指示するように構成された頂点値が取り込まれ、辺データフィールドにはLG頂点に対する誘導連結サブグラフ内のあらゆるLG辺の辺位置を指示するように構成された辺値が取り込まれる、工程、及び(f)線グラフデータ構造内のICS記録毎に、選択分子の選択分子データとICS記録内の頂点値及び辺値とに基づき当該ICS記録の誘導連結サブグラフの全分子量を計算し分子量フィールド内に格納する工程を含む。
【0034】
本発明のいくつかの実施形態では、本方法はさらに、a)選択分子の接続プロファイル、頂点データフィールド内の頂点値及び辺データフィールド内の辺値に基づき線グラフの誘導連結サブグラフのグラフィック表現をマイクロプロセッサにより生成すること、及びb)グラフィック表現をディスプレイデバイスへ送信することを含む。
【0035】
追加態様では、本発明は、隣接行列を使用して選択分子の下部構造を識別することを容易にするためにデータベースを生成するためのシステムを提供する。この態様では、本システムは、a)マイクロプロセッサ、b)メモリデバイス及びc)プログラム命令を含み、プログラム命令はマイクロプロセッサに、(i)(A)選択分子の最小切断可能ユニット、(B)選択分子の各最小切断可能ユニットの分子量、及び(C)選択分子の最小切断可能ユニットを接続する結合のタイプを識別する選択分子の化学線図と注釈とを表すデータを受信すること、(ii)選択分子の最小切断可能ユニットグラフ隣接行列を生成することであって、最小切断可能ユニットグラフ隣接行列は複数の記録を有し、各記録は、一対の頂点に対応し、そして辺がこの対の間に存在する場合には第1の値又は辺がこの対の間に存在しない場合には第2の値が割り当てられるフィールドを有し、各頂点は選択分子の最小切断可能ユニットに対応し、辺は選択分子の最小切断可能ユニットを接続する結合を表す、生成すること、(iii)最小切断可能ユニットグラフ隣接行列から線グラフ隣接行列を生成することであって、線グラフ隣接行列は複数の頂点を有し、各頂点は、最小切断可能ユニットグラフ隣接行列の一対の辺に対応し、そして終点がこの対の辺の間に存在する場合には第1の値又は終点がこの対の辺の間に存在しない場合には第2の値が割り当てられるフィールドを有し、線グラフ隣接行列は、辺により接続された終点に基づき最小切断可能ユニットグラフ隣接行列の各辺の頂点を有し、頂点は選択分子の最小切断可能ユニット間の結合を表す、生成すること、(iv)最小切断可能ユニット隣接行列から「辺対頂点」隣接行列を生成することであって、「辺対頂点」隣接行列は複数の要素を有し、各要素は、最小切断可能ユニットグラフ隣接行列の辺及び頂点に対応しそして、辺及び頂点が互いに接続される場合は第1の値又は辺及び頂点が互いに接続されない場合は第2の値が割り当てられるフィールドを有し、頂点は選択分子の最小切断可能ユニットを表し辺は選択分子の最小切断可能ユニットを接続する結合を表す、生成すること、(v)選択分子の複数の誘導連結サブグラフを判断するためにグラフトラバースアルゴリズムを使用することにより線グラフ隣接行列及び「辺対頂点」グラフ隣接行列をトラバースすることであって、各誘導連結サブグラフは、線グラフ内のLG頂点及びLG辺の接続サブセットと、LG頂点及びLG辺の前記接続サブセットの物理的配置とを含み、これらは併せて、一組の最小切断可能ユニット及び結合の接続サブセットと、選択分子内の最小切断可能ユニット及び結合の前記接続サブセットの相対位置とに一意的に対応する、トラバースすること、及び(vi)誘導連結サブグラフの各誘導連結サブグラフの分子量を計算し前記データベース内に格納することであって、各誘導連結サブグラフの分子量は誘導連結サブグラフのあらゆる頂点の分子量を取り出し加算することにより計算される、計算し格納することをさせる。
【0036】
別の態様では、本発明はマイクロプロセッサを使用して選択分子の下部構造を識別することを容易にするためにデータベースを生成するためのシステムを提供する。本システムは、a)(A)選択分子の最小切断可能ユニット、(B)選択分子の各最小切断可能ユニットの分子量、及び(C)選択分子の最小切断可能ユニットを接続する結合のタイプを識別する選択分子の化学線図と注釈とを受信するように構成されたグラフィック入力モジュール、b)選択分子の最小切断可能ユニットグラフ隣接行列を生成する行列生成器モジュールであって、最小切断可能ユニットグラフ隣接行列は複数の記録を有し、各記録は、一対の頂点に対応し、そして辺がこの対の間に存在する場合には第1の値又は辺がこの対の間に存在しない場合には第2の値が割り当てられるフィールドを有し、各頂点は選択分子の最小切断可能ユニットに対応し、辺は選択分子の最小切断可能ユニットを接続する結合を表す、行列生成器モジュール、c)最小切断可能ユニットグラフ隣接行列から線グラフ隣接行列を生成する線グラフ行列生成器モジュールであって、線グラフ隣接行列は複数の頂点を有し、各頂点は、最小切断可能ユニットグラフ隣接行列の一対の辺に対応し、そして終点がこの対の辺の間に存在する場合には第1の値又は終点がこの対の辺の間に存在しない場合には第2の値が割り当てられるフィールドを有し、線グラフ隣接行列は、辺により接続された終点に基づき最小切断可能ユニットグラフ隣接行列の各辺の頂点を有し、頂点は選択分子の最小切断可能ユニット間の結合を表す、線グラフ行列生成器モジュール、d)最小切断可能ユニット隣接行列から「辺対頂点」行列を生成する「辺対頂点」行列生成器モジュールであって、「辺対頂点」行列は複数の要素を有し、各要素は、最小切断可能ユニットグラフ隣接行列の辺及び頂点に対応し、そして、辺及び頂点が互いに接続される場合は第1の値又は辺及び頂点が互いに接続されない場合は第2の値が割り当てられるフィールドを有し、頂点は選択分子の最小切断可能ユニットを表し、辺は選択分子の最小切断可能ユニットを接続する結合を表す、「辺対頂点」行列生成器モジュール、e)線グラフ隣接行列及び「辺対頂点」行列内の値割り当てに基づき、線グラフ隣接行列の誘導連結サブグラフを生成しデータベース内に格納するために深さ優先又は幅優先検索を使用することにより隣接行列及び「辺対頂点」行列をトラバースするグラフトラバースエンジン、及びf)各誘導連結サブグラフの分子量を計算しデータベース内に格納する分子量計算器モジュールであって、各誘導連結サブグラフの分子量は誘導連結サブグラフのあらゆる頂点の分子量を取り出し加算することにより計算される、分子量計算器モジュールを含む。
【0037】
さらに別の態様では、本発明は、マイクロプロセッサを使用して選択分子の下部構造を識別する方法を提供する。本方法は、a)(A)選択分子の最小切断可能ユニット、(B)選択分子の各最小切断可能ユニットの分子量、及び(C)選択分子の最小切断可能ユニットを接続する結合のタイプを識別する選択分子の化学線図と注釈とを受信するためにグラフィック入力モジュールをマイクロプロセッサ上で実行すること、b)選択分子の最小切断可能ユニットグラフ隣接行列を生成するために行列生成器をマイクロプロセッサ上で実行することであって、最小切断可能ユニットグラフ隣接行列は複数の記録を有し、各記録は、一対の頂点に対応し、そして辺がこの対の間に存在する場合には第1の値又は辺がこの対の間に存在しない場合には第2の値が割り当てられるフィールドを有し、各頂点は選択分子の最小切断可能ユニットに対応し、辺は選択分子の最小切断可能ユニットを接続する結合を表す、実行すること、c)最小切断可能ユニットグラフ隣接行列から線グラフ隣接行列を生成するために線グラフ行列生成器モジュールをマイクロプロセッサ上で実行することであって、線グラフ隣接行列は複数の頂点を有し、各頂点は、最小切断可能ユニットグラフ隣接行列の一対の辺に対応し、そして終点がこの対の辺の間に存在する場合には第1の値又は終点がこの対の辺の間に存在しない場合には第2の値が割り当てられるフィールドを有し、線グラフ隣接行列は、辺により接続された終点に基づき最小切断可能ユニットグラフ隣接行列の各辺の頂点を有し、頂点は選択分子の最小切断可能ユニット間の結合を表す、実行すること、d)最小切断可能ユニット隣接行列から「辺対頂点」行列を生成するために「辺対頂点」行列生成器モジュールをマイクロプロセッサ上で実行することであって、「辺対頂点」行列は複数の要素を有し、各要素は、最小切断可能ユニットグラフ隣接行列の辺及び頂点に対応し、そして、辺及び頂点が互いに接続される場合は第1の値又は辺及び頂点が互いに接続されない場合は第2の値が割り当てられるフィールドを有し、頂点は選択分子の最小切断可能ユニットを表し辺は選択分子の最小切断可能ユニットを接続する結合を表す、実行すること、e)線グラフ隣接行列の誘導連結サブグラフを生成し格納するためにグラフィック検索を使用することにより線グラフ隣接行列及び「辺対頂点」行列をトラバースするグラフトラバースエンジンをマイクロプロセッサ上で実行すること、及び、f)グラフトラバースエンジンにより生成された各誘導連結サブグラフの分子量を計算しデータベース内に格納する分子量計算器モジュールをマイクロプロセッサ上で実行することであって、各誘導連結サブグラフの分子量は誘導連結サブグラフのあらゆる頂点の分子量を取り出し加算することにより計算される、実行することを含む。
【0038】
さらに別の態様では、本発明は、選択分子の化学的下部構造を識別するためにマイクロプロセッサを使用してコンピュータシステムのメモリ内のデータベースを生成し検索するための装置を提供する。本装置は、メモリ内に格納されるa)入力モジュール、b)データベース生成モジュール及びc)検索エンジンを含む。
【0039】
入力モジュールは、マイクロプロセッサにより実行されるとマイクロプロセッサに、(A)選択分子内の一組の最小切断可能ユニット、(B)選択分子内の一組の最小切断可能ユニットを接続する一組の結合、(C)各最小切断可能ユニットの分子量、及び(D)選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを表す選択分子データを受信させメモリ内に格納させるプログラム命令を含む。
【0040】
データベース生成モジュールは、マイクロプロセッサにより実行されるとマイクロプロセッサに、(i)選択分子データに基づき、選択分子のV2V隣接行列を生成しメモリ内に格納することであって、V2V隣接行列は複数のV2Vベクトルを含み、複数のV2Vベクトルには、前記一対の頂点が選択分子内の結合により互いに接続されるかどうかを選択分子内の頂点の対毎に識別するために1組の選択されたV2V値が取り込まれる、生成しメモリ内に格納すること、(ii)V2V隣接行列に基づき選択分子の「辺対頂点」(E2V)隣接行列を生成しメモリ内に格納することであって、E2V隣接行列は複数のE2Vベクトルを含み、複数のE2Vベクトルには、前記各辺頂点対の辺及び頂点が選択分子内で互いに直接接続されるかどうかをV2V隣接行列内の辺頂点対毎に識別するために選択された1組のE2V値が取り込まれる、生成しメモリ内に格納すること、(iii)E2V隣接行列内のデータに基づき「辺対辺」(E2E)隣接行列を生成しメモリ内に格納することであって、E2E隣接行列は複数のE2Eベクトルを含み、複数のE2Eベクトルには、前記各辺対が選択分子内で頂点により互いに直接接続されるかどうかを選択分子内の辺対毎に識別するために選択された1組のE2E値が取り込まれる、生成しメモリ内に格納すること、(iv)E2Eグラフのあらゆる誘導連結サブグラフ、前記あらゆる誘導連結サブグラフ内のあらゆる頂点の頂点位置、及び前記あらゆる誘導連結サブグラフ内のあらゆる辺の辺位置を判断するために、E2V隣接行列内のE2V値及びE2E隣接行列内のE2E値に対してグラフ横断アルゴリズムを実行すること、(v)E2Eグラフの前記あらゆる誘導連結サブグラフに関し、分子量フィールド、頂点データフィールド及び辺データフィールドを含むICS記録をデータベース内に生成することであって、頂点データフィールドには誘導連結サブグラフ内の前記あらゆる頂点の頂点位置を指示するように構成された頂点値が取り込まれ、辺データフィールドには誘導連結サブグラフ内の前記あらゆる辺の辺位置を指示するように構成された辺値が取り込まれる、生成すること、及び(vi)当該ICS記録の誘導連結サブグラフの全分子量を計算し各ICS記録の分子量フィールド内に格納するために接続プロファイル、選択分子の要素の一組の分子量、及びあらゆる誘導連結サブグラフのICS記録を使用することをさせるプログラム命令を含む。
【0041】
検索エンジンは、マイクロプロセッサにより実行されるとマイクロプロセッサに、(i)規定分子量を受信すること、(ii)分子量フィールド内の全分子量が規定分子量に等しい少なくとも1つのICS記録を発見するためにデータベースを検索すること、及び(iii)前記少なくとも1つのICS記録の頂点データフィールドの頂点値及び辺データフィールドの辺値をディスプレイデバイスへ送信することをさせるプログラム命令を含む。
【0042】
本発明のいくつかの実施形態では、本装置はさらに、マイクロプロセッサにより実行されるとマイクロプロセッサに、前記少なくとも1つのICS記録の誘導連結サブグラフのグラフィック表現を生成しディスプレイデバイス上に表示するために前記少なくとも1つのICS記録の接続プロファイル、要素のリスト、頂点データフィールド内の頂点値及び辺データフィールド内の辺値を取り出し使用することをさせるプログラム命令を含むメモリ内に格納された視覚化器モジュールを含む。
【0043】
本発明のいくつかの実施形態では、本装置はさらに、規定MCUの一組のMCU特性を含むメモリ内に格納されたMCUライブラリを含み、一組のMCU特性は、a)規定MCU内の構成要素のリスト、b)規定MCUの構成要素の分子量、c)規定MCUの化学構造、d)規定MCUの一般名、又はe)これらのうちの2つ以上の任意の組み合わせを含む。
【0044】
本発明のいくつかの実施形態では、E2Eグラフの誘導連結サブグラフのそれぞれは、辺及び頂点の連結集合と、辺及び頂点の前記連結集合の物理的配置とを有し、これらは併せて、要素の連結集合と、選択分子の代謝物、又は選択分子の異化生成物、又は選択分子の気相断片化、又は選択分子の分解剤、又は選択分子の下部構造の要素の前記連結集合の物理的配置とに一意的に対応する。
【0045】
さらに別の態様では、本発明は、マイクロプロセッサを使用して選択分子の化学的下部構造を識別することを容易にするためにデータベースをコンピュータシステムのメモリ内に生成するための装置であって、a)メモリ内に格納された入力モジュール及びii)メモリ内に格納されたデータベース生成モジュールを含む装置を提供する。
【0046】
入力モジュールは、マイクロプロセッサにより実行されるとマイクロプロセッサに、(A)選択分子内の一組の最小切断可能ユニット、(B)選択分子内の一組の最小切断可能ユニットを接続する一組の結合、(C)各最小切断可能ユニットの分子量、及び(D)選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを表す選択分子データを受信させメモリ内に格納させるプログラム命令を含む。
【0047】
データベース生成モジュールは、マイクロプロセッサにより実行されるとマイクロプロセッサに、(i)接続プロファイルに基づき選択分子の「辺対頂点」(E2V)グラフを生成しメモリ内に格納することであって、E2Vグラフは複数のE2Vベクトルを含み、複数のE2Eベクトルには、前記各辺頂点対の辺及び頂点が選択分子の接続プロファイル内で互いに直接接続されるかどうかを選択分子内の辺頂点対毎に識別するために選択された1組のE2V値が取り込まれる、生成し格納すること、(ii)E2Vグラフ内のデータに基づき「辺対辺」(E2E)グラフを生成しメモリ内に格納することであって、E2Eグラフは複数のE2Eベクトルを含み、複数のE2Eベクトルには、前記各辺対が選択分子の接続プロファイル内で頂点により互いに直接接続されるかどうかを選択分子内の辺対毎に識別するために選択された1組のE2E値が取り込まれる、生成し格納すること、(iii)E2Eグラフのあらゆる誘導連結サブグラフ、前記あらゆる誘導連結サブグラフ内のあらゆる頂点の頂点位置、及び前記あらゆる誘導連結サブグラフ内のあらゆる辺の辺位置を判断するためにE2Vグラフ及びE2Eグラフ両方に対してグラフ横断アルゴリズムを実行すること、(iv)E2Eグラフの前記あらゆる誘導連結サブグラフに関し、分子量フィールド、頂点データフィールド及び辺データフィールドを含むICS記録をデータベース内に生成することであって、頂点データフィールドには誘導連結サブグラフ内の前記あらゆる頂点の頂点位置を指示するように構成された頂点値が取り込まれ、辺データフィールドには誘導連結サブグラフ内の前記あらゆる辺の辺位置を指示するように構成された辺値が取り込まれる、生成すること、(v)当該ICS記録の誘導連結サブグラフの全分子量を計算し各ICS記録の分子量フィールド内に格納するために、接続プロファイル、選択分子の要素の一組の分子量、及びあらゆる誘導連結サブグラフのICS記録を使用することをさせるプログラム命令を含む。
【0048】
本発明のいくつかの実施形態では、本装置はさらに、マイクロプロセッサにより実行されるとマイクロプロセッサに、前記少なくとも1つのICS記録の誘導連結サブグラフのグラフィック表現を生成しディスプレイデバイス上に表示するために前記少なくとも1つのICS記録の接続プロファイル、要素のリスト、頂点データフィールド内の頂点値及び辺データフィールド内の辺値を取り出し使用することをさせるプログラム命令を含むメモリ内に格納された視覚化器モジュールを含む。
【0049】
別の態様では、本発明は、マイクロプロセッサを使用して、選択分子の化学的下部構造の一組の構成要素及び前記構成要素の物理的配置を記述する情報を発見しディスプレイデバイスへ送信するためにデータベースを検索するための装置を提供する。本装置は、a)複数のICS記録を含むデータベースへの電子インターフェースであって、各ICS記録は分子量フィールド、頂点データフィールド及び辺データフィールドを含み、頂点データフィールドには選択分子の接続性プロファイルを表す線グラフの誘導連結サブグラフ内のあらゆる頂点の頂点位置を指示するように構成された頂点値が取り込まれ、辺データフィールドには誘導連結サブグラフ内のあらゆる辺の辺位置を指示するように構成された辺値が取り込まれる、電子インターフェース、b)マイクロプロセッサに規定分子量を受信させるように構成された入力モジュール、c)マイクロプロセッサにより実行されるとマイクロプロセッサに、分子量フィールド内の全分子量が規定分子量に等しい少なくとも1つのICS記録を発見するためにデータベースへの電子インターフェースを使用させるプログラム命令を有する検索エンジン、及びd)前記少なくとも1つのICS記録の頂点データフィールドの頂点値及び辺データフィールドの辺値をディスプレイデバイスへ送信するように構成されたメモリ内に格納された出力モジュールを含む。
【0050】
本装置のいくつかの実施形態では、検索エンジンはさらに、マイクロプロセッサにより実行されるとマイクロプロセッサに、a)分子量の規定公差を受信すること、b)データベースの検索のための一定範囲の分子量を計算し定義するために規定公差を使用すること、及びc)分子量フィールド内の全分子量が規定範囲の分子量内に入る少なくとも1つのICS記録を発見するためにデータベースを検索することをさせるプログラム命令を含む。
【0051】
本発明のいくつかの実施形態では、本装置はさらに、a)選択分子の接続プロファイル、b)選択分子の要素のリスト、及びc)マイクロプロセッサにより実行されるとマイクロプロセッサに、前記少なくとも1つのICS記録の誘導連結サブグラフのグラフィック表現を生成しディスプレイデバイス上に表示するために前記少なくとも1つのICS記録の接続プロファイル、要素のリスト、頂点データフィールド内の頂点値及び辺データフィールド内の辺値を使用することをさせるプログラム命令を含むメモリ内に格納された視覚化器モジュールを含む。
【0052】
本発明のいくつかの実施形態では、グラフィック表現は、a)化学構造線図、又はb)MCUグラフ線図、又はc)「頂点対頂点」(V2V)グラフ線図、又はd)「辺対辺」(E2E)グラフ線図、又はe)「辺対頂点」(E2V)グラフ線図、又はf)線グラフ線図、又はg)これらのうちの2つ以上の組み合わせを含む。
【0053】
本発明のいくつかの追加実施形態では、本装置はさらに、データベース、及びマイクロプロセッサにより実行されるとマイクロプロセッサに、i)接続プロファイルに基づき選択分子の「辺対頂点」(E2V)グラフを生成しメモリ内に格納することであって、E2Vグラフは複数のE2Vベクトルを含み、複数のE2Eベクトルには、前記各辺頂点対の辺及び頂点が選択分子の接続プロファイル内で互いに直接接続されるかどうかを選択分子内の辺頂点対毎に識別するために選択された1組のE2V値が取り込まれる、生成し格納すること及び(ii)E2Vグラフ内のデータに基づき「辺対辺」(E2E)グラフを生成しメモリ内に格納することであって、E2Eグラフは複数のE2Eベクトルを含み、複数のE2Eベクトルには、前記各辺対が選択分子の接続プロファイル内で頂点により互いに直接接続されるかどうかを選択分子内の辺対毎に識別するために選択された1組のE2E値が取り込まれる、生成し格納すること、(iii)E2Eグラフのあらゆる誘導連結サブグラフ、前記あらゆる誘導連結サブグラフ内のあらゆる頂点の頂点位置、及び前記あらゆる誘導連結サブグラフ内のあらゆる辺の辺位置を判断するために、E2Vグラフ及びE2Eグラフ両方に対してグラフ横断アルゴリズムを実行すること、(iv)E2Eグラフの前記あらゆる誘導連結サブグラフに関し、分子量フィールド、頂点データフィールド及び辺データフィールドを含むICS記録をデータベース内に生成することであって、頂点データフィールドには誘導連結サブグラフ内の前記あらゆる頂点の頂点位置を指示するように構成された頂点値が取り込まれ、辺データフィールドには誘導連結サブグラフ内の前記あらゆる辺の辺位置を指示するように構成された辺値が取り込まれる、生成すること、及び(v)当該ICS記録の誘導連結サブグラフの全分子量を計算し各ICS記録の分子量フィールド内に格納するために、接続プロファイル、選択分子の要素の一組の分子量、及びあらゆる誘導連結サブグラフのICS記録を使用することをさせるプログラム命令を含むメモリ内に格納されたデータベース生成モジュールを含む。
【図面の簡単な説明】
【0054】
図面の簡単な説明
【
図1】本発明の一実施形態におけるデータの流れを一例として示す高レベル流れ図を示す。
【
図2】本発明の別の実施形態におけるデータの流れを一例として示す高レベル全体流れ図を示し、ここで、様々なタイプのグラフを表すデータ構造は隣接行列である。
【
図3】本発明のいくつかの実施形態により導出される誘導連結サブグラフの各誘導連結サブグラフに関連する生体変換カウントを計算し誘導連結サブグラフ(ICS)データベース内に格納するアルゴリズムを一例として示す高レベル流れ図を示す。
【
図4】本発明の例示的実施形態に従って動作するように構成された錯体分子下部構造識別システムのアーキテクチャの例を示す高レベルブロック図を示す。
【
図5】本発明のいくつかの実施形態によるデータベース内に格納され得る例示的誘導連結サブグラフ(ICS)記録を示す。
【
図6】本発明の一実施形態に従って選択分子の代謝物の化学構造を判断するためにマイクロプロセッサにより行われる工程を本発明の一実施形態従って示す流れ図である。
【
図7】本発明の一実施形態によるMCUグラフを生成するためのアルゴリズムを示す流れ図である。
【
図8】本発明の一実施形態によるMCUグラフの線グラフを生成するためのアルゴリズムを示す流れ図である。
【
図9A】
図7の処理により生成され得る選択された仮想分子の最小切断可能ユニットグラフを示す。
【
図9B】本発明の実施形態に従って生成される選択された仮想分子の例示的MCUグラフデータ構造を示す。
【
図9C】選択された仮想分子を表すために生成され得る例示的線グラフを示す。
【
図9D】例示的線グラフデータ構造すなわち
図9Cに示す線グラフの隣接行列(E2E)を示す。
【
図9E】仮想選択分子の線グラフデータ構造をトラバースすることにより生成され得る2つの例示的誘導連結サブグラフの高レベル線図である。
【
図10A】リラグルチド分子のMCUグラフを示す。
【
図10B】リラグルチド(人インクリチングルカゴン状ペプチド-1(GLP-1)受容体作用薬の派生物)のMCUグラフの対応線グラフである。
【
図11】本発明のシステム、装置及び方法が働き得る二硫化物架橋結合を有する例示的選択分子ペプチドAの化学構造である。
【
図12A】本発明の実施形態に従って生成されるペプチドAのMCUグラフを示す。
【
図12B】本発明の実施形態に従って生成されるペプチドAのMCUグラフを示す。
【
図12C】本発明の実施形態に従って生成されるペプチドAのMCUグラフデータ構造(隣接行列)を示す。
【
図13A】ペプチドAのMCUグラフの線グラフである。
【
図13B】本発明に従って生成される対応線グラフデータ構造を示す。
【
図14】ペプチドAのMCUグラフから生成される「辺対頂点」データ構造を示す。
【
図15A】本発明の実施形態に従って生成されるデータベース内に格納された例示的ICS記録(分子量フィールド、頂点配列フィールド及び辺配列フィールドを含む)を示す。
【
図15B】本発明の実施形態に従って生成されるデータベース内に格納された例示的ICS記録(分子量フィールド、頂点配列フィールド及び辺配列フィールドを含む)を示す。
【
図16】選択分子の下部構造を識別するために誘導連結サブグラフのデータベースを検索する際の本発明の一実施形態による工程を示す流れ図である。
【
図17A】本発明の実施形態に従って生成されるペプチドAの下部構造のMCUグラフを示す。
【
図17B】
図17AのMCUグラフ内に描写された下部構造に対応する化学構造を示す。
【
図18A】本発明の実施形態に従って生成されるペプチドAの2つの下部構造のMCUグラフを示す。
【
図18B】
図18AのMCUグラフ内に描写された下部構造に対応する化学構造を示す。
【
図19A】本発明の実施形態に従って生成されるペプチドAの2つの下部構造のMCUグラフを示す。
【
図19B】
図19AのMCUグラフ内に描写された下部構造に対応する化学構造を示す。
【
図20A】本発明の実施形態に従って生成されるペプチドAの2つの下部構造のMCUグラフを示す。
【
図20B】
図20AのMCUグラフ内に描写された下部構造に対応する化学構造を示す。
【
図21A】本発明の実施形態に従って生成されるペプチドAの2つの下部構造のMCUグラフを示す。
【
図21B】
図21AのMCUグラフ内に描写された下部構造に対応する化学構造を示す。
【
図22A】
図6の処理が働き得るインスリンデテミールの化学構造を示す。
【
図22B】本発明の実施形態に従って生成されるインスリンデテミールのMCUグラフである。
【
図22C】本発明の実施形態に従って生成されるインスリンデテミールのMCUグラフである。
【
図23】本発明に従って生成されるインスリンデテミールのMCUグラフデータ構造を示す。
【
図24】インスリンデテミールのMCUグラフデータ構造に対応する線グラフである。
【
図25】本発明の実施形態に従って生成されるインスリンデテミールの線グラフデータ構造を示す。
【
図26】本発明の実施形態によるMCUグラフデータ構造から生成される「辺対頂点」データ構造を示す。
【
図27】本発明の実施形態によるMCUグラフ隣接行列内に格納されたMCUグラフデータから下部構造データベースを取り込むための例示的MatLabコードプログラム命令を示す。
【
図28】
図27に示す例示的コードにより行われるアルゴリズムを示す流れ図を示す。
【
図29】ネズミ腎臓膜培養におけるインスリンデテミールの潜在的代謝物の実験的アイソトープ包絡線であり、1076.2866Th([M+5H])におけるモノアイソトピックm/zと5376.3965Daの分子量とを有する。
【
図30A】本発明の実施形態に従って生成される例示的データベースエントリ(ICS記録)を示す。
【
図30B】本発明の実施形態に従って生成される例示的データベースエントリ(ICS記録)を示す。
【
図30C】本発明の実施形態に従って生成される例示的データベースエントリ(ICS記録)を示す。
【
図30D】本発明の実施形態に従って生成される例示的データベースエントリ(ICS記録)を示す。
【
図31A】インスリンデテミールの線グラフデータ構造の誘導連結サブグラフのMCUグラフを示す。
【
図31B】インスリンデテミールの線グラフデータ構造の誘導連結サブグラフのMCUグラフを示す。
【
図31C】
図30Aに示される頂点配列及び辺配列に対応する誘導連結サブグラフのMCUグラフを示す。
【
図31D】
図30Bに示される頂点配列及び辺配列に対応する誘導連結サブグラフのMCUグラフを示す。
【
図31E】
図30Cに示される頂点配列及び辺配列に対応する誘導連結サブグラフのMCUグラフを示す。
【
図31F】
図30Dに示される頂点配列及び辺配列に対応する誘導連結サブグラフのMCUグラフを示す。
【
図32A】
図6及び16に説明された本発明の実施形態に従って生成されたインスリンデテミールの4つの代謝物の提案化学構造を示す。
【
図32B】
図6及び16に説明された本発明の実施形態に従って生成されたインスリンデテミールの4つの代謝物の提案化学構造を示す。
【
図33A】
図6及び16に説明された本発明の実施形態に従って生成されたインスリンデテミールの4つの代謝物の提案化学構造を示す。
【
図33B】
図6及び16に説明された本発明の実施形態に従って生成されたインスリンデテミールの4つの代謝物の提案化学構造を示す。
【
図34A】
図31Fに示す構造(インスリンデテミールの代謝物)の代謝切断マップである。
【
図34B】
図31Fに示す代謝物のMS/MS y
2-y
7イオンスペクトルである。
【
図34C】
図31Fに示すインスリンデテミール代謝物のMS/MS断片化マップである。
【発明を実施するための形態】
【0055】
例示的実施形態の詳細な説明
一般的に、本発明のいくつかの実施形態は、錯体分子の下部構造(錯体分子の代謝物など)を識別するとともにこの錯体分子の下部構造の関連化学構造を判断するために化学者及び生化学者などの科学者により使用され得る。本発明のいくつかの実施形態は薬剤開発及び設計において有用であり得る。
【0056】
図1は本発明の一実施形態におけるデータの流れを一例として示す高レベル流れ図を示す。
図1に示すように、第1のユーザは、選択分子データ(選択分子の規定MCU、MCUの分子量及び選択分子の接続プロファイルの一組を含む)を本システムへ供給するために第1のエンドユーザコンピュータシステム115及び入力モジュール125を使用する。接続プロファイルは、最小切断可能ユニットと結合との相対位置と、選択分子内のMCUと結合との任意の接続とを示す。MCUグラフデータ構造生成器130は、MCUグラフデータ構造を生成し、そして選択分子のMCUグラフを表すデータをこれに取り込む。MCUグラフデータ構造生成器130はMCUグラフデータを本システムに付随するメモリデバイス(
図1に示さず)内に格納する。線グラフデータ構造生成器135はMCUグラフデータ構造からMCUグラフデータを取り出す。次に、線グラフデータ構造生成器135は、線グラフデータ構造を生成するためにそして線グラフデータ構造に取り込むためにこのMCUグラフデータを使用する。
【0057】
グラフトラバースモジュール140は、グラフデータ構造内の線グラフデータにより表される線グラフから導出され得る誘導連結サブグラフのすべてを表す誘導連結サブグラフデータ147を生成するためにグラフデータ構造内のデータをトラバースするために、好適なグラフトラバースアルゴリズムを使用する。サブグラフデータベース生成器145は、サブグラフデータベース150を構築してこれに取り込むために誘導連結サブグラフデータ147及び選択分子データ(特に分子量)を使用する。サブグラフデータベース150は複数のICS記録を含み、各ICS記録は、誘導連結サブグラフの頂点データを有する1つの頂点データフィールド、誘導連結サブグラフの辺データを有する辺データフィールド、誘導連結サブグラフの分子量が取り込まれる分子量フィールド、並びに選択分子を各ICS記録内の頂点フィールド、辺フィールド及び分子量フィールド内に格納される値により表される下部構造へ変換するために必要とされる生体変換の数(以下に定義される)を表す値が取り込まれる生体変換カウントフィールドを含む。サブグラフデータベース生成器145は、エンドユーザにより供給される選択分子データ内のMCUの分子量に基づき各誘導連結サブグラフの分子量を計算する。
【0058】
図1に示すように、生体変換カウントはサブグラフデータベース生成器145に付随する生体変換プロセッサ149により計算され得、生体変換プロセッサ149は、
図3に描写されるとともに以下にさらに詳細に説明されるアルゴリズムなどの生体変換カウントアルゴリズムを行うように構成される。
図5は本発明のいくつかの実施形態によるサブグラフデータベース150内に格納され得る例示的誘導連結サブグラフ(ICS)記録を示す。
【0059】
サブグラフデータベース150が構築された後(何百万の記録を含み得る)、第2のユーザは、所与の照会分子量(又は所与の範囲の分子量)に基づきデータベース150を検索するために第2のエンドユーザコンピュータシステム160及びユーザインターフェース165を使用し得る。照会分子量(又は、一定範囲の分子量)は、照会分子量に等しい又は指定範囲の分子量内に入る分子量を有する記録のすべての記録の頂点データ及び辺データを本システムにサブグラフデータベース150から取り出させる検索エンジン170へ渡される。視覚化器175は、第2のユーザにより操作されるディスプレイデバイス162へユーザインターフェース165を介し送信される識別された誘導連結サブグラフのグラフィック表現を生成するために頂点データ及び辺データを使用する。好ましいいくつかの実施態様では、照会質量(又は範囲)に整合する2つ以上の誘導連結サブグラフが存在すれば、視覚化器175及びユーザインターフェース165は、それぞれの生体変換フィールド内の値に従って、整合誘導連結サブグラフをランク付けしそして整合誘導連結サブグラフをランク順で表示するように動作する。第1のエンドユーザコンピュータシステム及び第2のエンドユーザコンピュータシステムは、いくつかの実施形態では、同じコンピュータシステムを含み得るということに留意すべきである。換言すれば、本システムは、同じコンピュータシステムがシステムのデータベース生成機能とデータベース検索機能との両方を開始するために使用されるように構成され得る。
【0060】
図2は本発明の別の実施形態におけるデータの流れを一例として示す高レベル全体流れ図を示し、ここで、様々なタイプのグラフを表すデータ構造は隣接行列である。
図2に示すように、全体データ流れは、「頂点対頂点」(V2V:vertex to vertex)隣接行列生成器230がV2Vグラフデータを生成し格納するために選択分子データを使用し、「辺対辺」(E2E:edge-to-edge)グラフ隣接行列生成器235がE2Eグラフデータを生成し格納するためにV2Vグラフデータを使用し、「辺対頂点」(E2V:edge-to-vertex)グラフ隣接行列生成器237がE2Vグラフデータを生成し格納するためにV2Vグラフデータを使用するということを除いて
図1に示すシステム内の全体データ流れとほぼ同じである。
【0061】
図3は辺配列データにより表されるとともにシステムにより生成される誘導連結サブグラフの各誘導連結サブグラフに関連する生体変換カウントを計算しICSデータベース内に格納するためのアルゴリズムを一例として示す高レベル流れ図を示す。本開示の目的のために、「生体変換」は2つのMCU間の共有結合の破壊として定義される。
【0062】
しばしば、複数の代謝物は、検索照会内に規定された公差範囲(例えば所与の検索質量を中心とする±5ppm以内の範囲、±2ppm内の±4ppm以内の範囲、又は他のある制限された範囲)に依存して検索内の所与の照会質量に整合することになる。このような場合、選択分子から生成される可能性がより高い代謝物が検索結果内の戻された代謝物のリストの最上位に表示される(すなわち、選択分子から生成される可能性がより低い代謝物を表示する前に表示される)ように、検索において戻される代謝物のリストをフィルタリングする(又は、少なくとも優先順位付けする)ことがしばしば効率的であり且つ望ましい。代謝物は通常、酵素的に生成されるので、そして酵素は通常、一度に1つの結合を加水分解するので、代謝物が人体内又は実験室内で生成されるかにかかわらず、選択分子内の最小数の結合を破壊することにより生成され得る代謝物もまた当該の選択分子から生成される可能性が最も高い代謝物であるということを仮定することが合理的である。同様な連続的断片化処理が気相断片化中に発生する。1つの結合が一度に壊れ、最も弱い結合が最初に破壊し、次の最も弱い結合の破壊が続く、等々である。
【0063】
したがって、本発明のいくつかの実施形態と特にサブグラフデータベース生成器は、ICSデータベース内に表される誘導連結サブグラフ(すなわち代謝物)毎に、選択分子を当該の特定代謝物へ変換するために必要とされる生体変換(又は壊れた共有結合)の数をカウントしICSデータベース内に格納するように構成された生体変換プロセッサ(一組のコンピュータプログラム命令など)を含み得る。加えて、検索エンジンは、検索結果内の代謝物を取り出しランク順に表示するために、照会質量と共に、格納された生体変換カウントを使用するように適切に構成され、より低い生体変換カウント値を有する代謝物は最も高い生体変換カウント値を有する代謝物より高くランク付けされる。いくつかの実施形態では、本システムはまた、規定最大数の生体変換より多い生体変換を必要とする代謝物が検索結果からフィルタリングされユーザのディスプレイデバイス上に提示されないように、検索結果をフィルタリングするように構成され得る。
【0064】
例えば、選択分子は直鎖ペプチドAN-T-G-F-AN-G-Gであり、照会質量に整合する代謝物の1つはAN-T-G-Fであり、照会質量に整合する代謝物の別の1つはT-G-F-ANである。明らかに、選択分子からAN-T-G-F代謝物を取得するためには単一の破壊された結合を必要とし、一方、T-G-F-AN代謝物を取得するためには2つの破壊された結合を必要とする。この状況では、検索照会モジュールのユーザインターフェースはAN-T-G-F代謝物をT-G-F-AN代謝物より高くランク付けするだろう。
【0065】
本発明のいくつかの実施形態は、選択分子から生成され得るあらゆる下部構造を表すICS記録を含むICSデータベースを生成するように構成される。各ICS記録は少なくとも1つの頂点配列、辺配列及び生体変換カウントフィールドを含む。したがって、
図3に示すように、ICSデータベース内に表される各下部構造の生体変換の数をカウントし格納するための1つのアルゴリズムは次のように進むだろう:
工程305-ICSデータベース内の第1のICS記録を選択する、
工程310-選択されたICS記録内の辺配列を識別する、
工程315-辺配列内のすべての0を識別することにより喪失辺を識別する、
工程320-その初期値を零に設定することにより、選択されたICS記録の生体変換カウントフィールドを初期化する、
工程325-辺配列内の喪失辺毎に、喪失辺が下部構造内の少なくとも1つの頂点に隣接すれば、生体変換カウントフィールド内の値を1だけ増分する、
工程330-ICSデータベース内の次のICS記録を選択する、及び
工程335-生体変換カウント値が計算されICSデータベース内のあらゆるICS記録内に格納されてしまうまで工程310~330を繰り返す。
【0066】
あるケースにおいては、選択分子の構造が切断頂点により分離された2つの単量体(単量体A及び単量体B)を含む。切断頂点を跨ぐこのような選択分子の下部構造又は代謝物に関し、生体変換の数は、選択分子を単量体Aに変換するために必要とされる生体変換の数と選択分子を単量体Bに変換するために必要とされる生体変換の数との合計である。
【0067】
次に、このアルゴリズムに従って生体変換カウントフィールド内に格納された値は、生成される可能性が最も高い下部構造がエンドユーザへ列挙又は表示されるただ一つの下部構造であるように、又は生成される可能性が最も高い下部構造がリストの最上位に(すなわち生成される可能性が最も低い下部構造の前に)列挙又は表示されるように検索結果をランク付け及び/又はフィルタリングするために本発明のいくつかの実施形態により使用され得る。
【0068】
図4は本発明の例示的実施形態に従って動作するように構成された錯体分子下部構造識別システムのアーキテクチャの一例を示す高レベルブロック図を示す。錯体分子下部構造識別システム405は、汎用又は特殊コンピュータシステム(例えばパーソナルコンピュータシステム、ノートブックコンピュータ、ラップトップ又はハンドヘルドコンピューターシステム、タブレット、インターネット使用可能スマートフォン又は携帯情報端末コンピュータデバイス、又はこれらのもののうちの1つ又は複数の任意の組み合わせを含む)上で実現され得る。通常、錯体分子下部構造識別システム405は、中央処理ユニット(CPU)又はマイクロプロセッサ425、一次メモリ410(ランダムアクセスメモリ(又はRAM)とも呼ばれる)及び不揮発性二次メモリ格納領域420(例えばハードドライブ、フラッシュドライブ又はCD-ROMドライブ)を含む。
図4に示すように、錯体分子下部構造識別システム405はまた、他のコンピュータシステム、プリンタなどの周辺装置、及び/又はデータ通信ネットワークとのデータ通信を提供するために例えば有線イーサーネットローカルエリアネットワークアダプタ、802.11、a/g/n WiFiアダプタ、ユニバーサルシリアルバス(USB)アダプタ、及び/又はブルートゥース無線データ通信アダプタなどのネットワークインターフェース430を含み得る。アプリケーションプログラム412を含むコードなどのプログラムコード及び選択分子データ485などのプログラムデータは、不揮発性二次格納領域420から一次メモリ410へロード(すなわちRAM内へロード)され、そして、実行のためにマイクロプロセッサ425へ提供され得る。アプリケーションプログラム412の制御下で動作することにより、マイクロプロセッサ425は、結果を生成し、そして他のコンピュータシステム、他のコンピュータプログラム、及び/又は他のデータ通信ネットワークへのその後のアクセス、表示、出力及び/又は送信のために二次メモリ格納領域420内に格納し得る。
【0069】
アプリケーションプログラム412内のソフトウェアモジュールの制御下でマイクロプロセッサ425により行われた下部構造識別子処理の結果は、アプリケーションプログラム412内のユーザインターフェースモジュール460の制御下で動作する1つ又は複数のエンドユーザ入力デバイス495(例えばキーボード、マウス、スタイラス、タッチスクリーンなど)及び1つ又は複数のエンドユーザ出力デバイス498(例えばディスプレイデバイス、プリンタ、タブレットディスプレイ画面又はスマートフォンディスプレイ画面など)を介し錯体分子下部構造識別システム405と相互作用する人間ユーザにより必要に応じ視認、ナビゲート、及び修正され得るように、二次メモリ格納領域420内に格納される。二次メモリ格納領域420及びそれが含むデータは、
図4に示すようにマイクロプロセッサ425、一次メモリ410、アプリケーションプログラム412、及びソフトウェアモジュール435、440、445、450、455、460、465、470、475、480と同じ物理的マシン内へ組み込まれ得る。しかし、二次メモリ格納領域420内に示されるデータ及び/又はデータベースのいくつか又はすべてはまた、請求される発明の範囲から逸脱することなく分散配置の別個のコンピュータシステム上に存在し得る。
【0070】
ネットワークインターフェース430は、処理されるべき追加入力データ(
図4に示さず)並びに処理を行うために有用又は必要と思われる複数の電子ファイル及び文書を含む又は生成するリモートサーバ及びマシン(例えば質量分光デバイス)に対する接続を確立するために採用され得る。ネットワークインターフェース430はまた、本発明の錯体分子下部構造識別システム405にアクセスしそれを使用したい他の人間ユーザにより操作されるリモート端末及びリモートコンピュータシステム(図示せず)へ接続を提供し得る。
【0071】
一次メモリ410は、限定しないが、1つ又は複数のローカル若しくはリモート、固定若しくは着脱可能、恒久的若しくは一時的、磁気的若しくは光学的ランダムアクセスメモリ(RAM)領域、キャッシュメモリ領域、又はディスクドライブを含み得、本明細書において説明される錯体分子の下部構造を識別する方法を行うためにマイクロプロセッサ425の機能を制御するための複数のプログラムモジュールを含む。これらのモジュールの各モジュールは、従来のプログラミング言語でソースコードとして書かれたコンピュータソフトウエアプログラム、手順、又は処理を含み得、マイクロプロセッサ425による実行のために提示され得る。ソースコード並びにオブジェクト及びバイトコードの様々な実施形態が、コンピュータ可読ストレージ媒体(DVD、CDROM、フロッピーディスク又はメモリカードなど)上に格納され、伝送媒体又は搬送波上で具現化され得る。
【0072】
アプリケーションプログラム412は以下に論述される一群のコンピュータソフトウエアプログラムモジュール435、440、445、450、455、460、465、470、475、480を含む。各コンピュータソフトウエアプログラムモジュールは、様々なタイプの入力データ(選択分子データ485など)を受信するために、そして本明細書において説明される識別子処理に関連するMCUグラフ、線グラフ、誘導連結サブグラフ、下部構造視覚化、生体変換データ、辺データ及び頂点データを生成、格納、送信、及び表示するために以下に説明されるアルゴリズムを実行するために、必要に応じマイクロプロセッサ425に多様な特定タスクを行わすプログラム命令を含む。これらのソフトウェアモジュールは、柔軟であり、そして限定しないが化学構造図ファイル、画像及び他の電子文書、グラフ、レイアウト及びスキーマを含む多種多様なタイプの入力及び出力を受信、処理、及び出力するように構成され得る。次に、アプリケーションプログラム412内のコンピューターソフトウェアモジュール435、440、445、450、455、460、465、470、475、480の各コンピューターソフトウェアモジュールの目的及び機能について以下にさらに詳細に説明する。
【0073】
アプリケーションプログラム412は、入力モジュール435、MCUグラフデータ構造生成器モジュール440、線グラフデータ構造生成器モジュール445、グラフトラバースモジュール450、サブグラフデータベース生成器モジュール455、ユーザインターフェースモジュール460、検索エンジンモジュール465、視覚化器モジュール470、生体変換演算処理モジュール475、及び1つ又は複数の追加データ処理モジュール480を含む。入力モジュール435は、マイクロプロセッサ425により実行されると(A)選択分子の一組の規定最小切断可能ユニット、(B)選択分子内の一組の規定最小切断可能ユニットを接続する一組の結合、(C)各最小切断可能ユニットの分子量、及び(D)選択された分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを表す選択分子データ485をマイクロプロセッサ425に受信させ二次メモリ格納領域420内に格納させるプログラム命令を含む。入力モジュール435はまた、マイクロプロセッサ425により実行されると選択分子の化学線図で表されるデータをマイクロプロセッサ425に受信、走査、解析及び/又は格納させるプログラム命令を含み得、化学線図は、(A)選択分子の最小切断可能ユニット、(B)選択分子の各最小切断可能ユニットの分子量、及び(C)選択分子の最小切断可能ユニットを接続する結合のタイプを識別する注釈を含む。
【0074】
MCUグラフデータ構造生成器440は、MCUグラフデータ構造(その例は
図9Dに示される)を生成させ、それに選択分子のMCUグラフを表すデータを取り込ませる。MCUグラフデータ構造生成器440は通常、MCUグラフデータを二次メモリ格納領域420内に、又は錯体分子下部構造識別システム405へ接続される又はそれへ関連付けられる他のメモリ格納領域(
図4に示さず)内に格納することになる。線グラフデータ構造生成器445はMCUグラフデータ構造からMCUグラフデータを取り出す。次に線グラフデータ構造生成器445は、線グラフデータ構造を生成するために、そして線グラフデータ構造に取り込むためにMCUグラフデータを使用する。線グラフデータ構造はまた、二次メモリ格納領域420内に、又は錯体分子下部構造識別システム405へ接続される又はそれへ関連付けられる他のメモリ格納領域(
図4に示さず)内に格納される。
【0075】
グラフトラバースモジュール450はそして、線グラフデータ構造の線グラフデータにより表される線グラフから導出され得る誘導連結サブグラフのすべてを表す誘導連結サブグラフデータ147を生成するために線グラフデータ構造内のデータをトラバースするために、好適なグラフトラバースアルゴリズムを使用する。サブグラフデータベース生成器455は、二次メモリ格納領域420内に格納されるサブグラフデータベース490を構築しこれを取り込むために誘導連結サブグラフデータ147及び選択分子データ485(特に分子量)を使用する。
図4に示すように、サブグラフデータベース490は複数のICS記録を含む、各ICS記録は、少なくとも、誘導連結サブグラフの頂点データを有する1つの頂点データフィールド、誘導連結サブグラフの辺データを有する辺データフィールド、誘導連結サブグラフの分子量が取り込まれる分子量フィールド、並びに選択分子を各ICS記録内の頂点フィールド、辺フィールド及び分子量フィールド内に格納された値により表される下部構造へ変換するために必要とされる生体変換の数(上に定義された)を表す値が取り込まれる生体変換カウントフィールドを含む。サブグラフデータベース生成器455は、エンドユーザにより供給される選択分子データ485内のMCUの分子量に基づき各誘導連結サブグラフの分子量を計算する。生体変換プロセッサ475は
図3に示され上に詳細に説明されたアルゴリズムに従って各誘導連結サブグラフの生体変換を判断する。
【0076】
サブグラフデータベース490が、第1のユーザにより構築された後、第2のユーザ(又は第1のユーザ)は、所与の照会分子量(又は所与の範囲の分子量)に基づきサブグラフデータベース490を検索するためにユーザインターフェース460を活性化するために1つ又は複数のエンドユーザ入力デバイス495を操作し得る。照会分子量(又は一定の範囲の重み付け)は検索エンジン465へ渡され、検索エンジン465は、照会分子量に等しい又は指定範囲の分子量内に入る分子量を有する記録のすべての記録の頂点データ及び辺データをシステムにサブグラフデータベース490から取り出させる。したがって、ユーザインターフェースモジュール460及び検索エンジンモジュール465は併せて、マイクロプロセッサ425により実行されると、(i)エンドユーザから照会分子量を受信し、(ii)照会分子量に整合する全分子量を分子量フィールド内に有するICS記録を識別するために照会分子量に基づきサブグラフデータベース490を検索し、(iii)識別されたICS記録の頂点データフィールド内の頂点値及び辺データフィールド内の辺値をエンドユーザにより操作されるエンドユーザ出力デバイス498(例えばディスプレイモニタ)上の提示のためにユーザインターフェース460へ送信することをマイクロプロセッサ425にさせるプログラム命令を含む。
【0077】
視覚化器モジュール470は、マイクロプロセッサ425により実行されると、第2のユーザにより操作されるエンドユーザ出力装置498へユーザインターフェース460を介し送信される識別された誘導連結サブグラフのグラフィック表現を生成するためにサブグラフデータベース490内の識別されたICS記録の頂点データ及び辺データを使用することをマイクロプロセッサ425にさせるプログラム命令を含む。好ましいいくつかの実施態様では、照会質量(又は範囲)に整合する2つ以上の誘導連結サブグラフが存在すれば、視覚化器モジュール470及びユーザインターフェース460内のプログラム命令は、それぞれの生体変換フィールド内の値に従って、整合誘導連結サブグラフをランク付けするように、そして整合誘導連結サブグラフをランク順でエンドユーザ出力デバイス498上に表示するように動作する。
【0078】
追加データ処理モジュール480は例えば、ICS記録を生成し、編成し、これをサブグラフデータベース490へ格納することとそれから取り出すこととを容易にする例えばデータベース管理プログラム(図示せず)を含み得る。Oracle Corporation, Redwood Shores, Californiaにより提供されるようなフラットファイルシステム、階層型データベース、リレーショナルデータベース又は分散型データベースを含む任意のタイプのデータベース管理プログラムが利用され得る。
【0079】
いくつかの実施形態では、錯体分子下部構造識別システム405は、Internet及びWorld Wide Webを含み得るデータ通信ネットワーク(図示せず)上でInternet Explorerなどの標準的ウェブブラウザを使用することによりクライアントコンピュータデバイスと通信するように構成されたサーバとして働くことができる。このような実施形態では、錯体分子下部構造識別システム405は、Microsoft Corporation, Redmond, Washingtonから入手可能な例えばInternet Information Services(IIS)を含む多くの利用可能ウェブサーバアプリケーション又はプログラムのうちの任意の1つを使用することにより実現され得る。
【0080】
図5は本発明のいくつかの実施形態によるデータベース内に格納され得る例示的誘導連結サブグラフ(ICS)記録を示す。
図5に示すように、二次メモリ格納領域420のサブグラフデータベース490内の各ICS記録は、選択分子の各誘導連結サブグラフに関連する複数の異なるデータフィールドを含み得る。複数の異なるデータフィールドは限定しないが、各誘導連結サブグラフの規定識別子を格納するための分子識別子フィールド505、各誘導連結サブグラフの規定識別子を格納するための下部構造識別子フィールド510、各誘導連結サブグラフの頂点データ及び辺データを格納するための誘導連結サブグラフフィールド515(通常は一組の配列)、誘導連結サブグラフの全分子量を格納するための分子量フィールド520、各誘導連結サブグラフの生体変換カウントを格納するための生体変換カウントフィールド525、基本組成データを格納するための基本組成フィールド530、及び誘導連結サブグラフの各誘導連結サブグラフに関連する他の特性を格納するための1つ又は複数の他のフィールド535を含む。
【0081】
図6は、本発明の実施形態に関する、選択分子の代謝物を識別する機能を行うために一次メモリ440内に格納されマイクロプロセッサ425により実行され得る処理又はコンピュータプログラムの工程又は機能を表す。
【0082】
本開示の目的及び利便性のために、
図6に示す処理は、選択分子の代謝物を識別するために選択分子のグラフィック表現のデータ構造を利用する本発明のシステムの動作の第1段階と見做され得る。一般的に、
図6は選択分子のMCUグラフ及び線グラフのデータ構造が生成される処理を示す。線グラフデータ構造は、選択分子の下部構造を表す誘導連結サブグラフのデータ構造を生成するためにグラフトラバースアルゴリズムを使用することによりトラバースされる。
【0083】
図6に示す処理の工程が本開示において説明される際、例示的選択分子に関する工程の結果が示される
図7~15が参照されることになる。
【0084】
ここで
図6に移ると、本発明の下部構造ID処理600は、その結果が選択分子の網羅的な一組の下部構造を提供する多くの工程を含む。仮想選択分子の構造が
図9Aに示される。工程605において、本システムは選択分子データを含む選択分子の表現を受信する。選択分子データは、選択分子内の最小切断可能ユニット、選択分子内の最小切断可能ユニットを接続する結合、各最小切断可能ユニットの分子量、及び選択分子の接続プロファイルであって最小切断可能ユニットと結合とその間の接続との相対位置を指示する接続プロファイルを含む。選択分子の表現はMCUグラフの形式であり得る。
図9Aは本発明に従って受信され得る仮想分子の例示的MCUグラフを示す。
図9AのMCUグラフの各頂点1、2、3、4及び5は仮想分子の最小切断可能ユニットを表す。
図9AのMCUグラフの頂点を接続する黒線により表される各辺は選択分子の最小切断可能ユニットを接続する結合を表す。
【0085】
本発明の代替実施態様では、本処理の第1の工程において、選択分子の受信された表現は、MCUグラフではなく、むしろ選択分子の構造、化学式、図、又は他の好適な表現を含む化学線図ファイルである。この場合、本システムは、工程615において、分子の化学構造及びユーザ定義MCUに基づき又は選択分子データに基づき選択分子のMCUグラフ及び対応MCUグラフデータ構造を生成する。
MCUグラフは、分子のChemDrawファイル、化学表ファイル又はHELM表現(Hierarchical Editing Language for Compl)などの化学線図ファイルから生成され得る。化学線図ファイルはまた、簡略化分子入力行エントリシステム(SMILES:simplified molecular-input line-entry system)を使用することにより生成され得る。
【0086】
図7に示すように、仮想選択分子のMCUグラフは以下のように生成され得る:工程705において、頂点を選択分子の各最小切断可能ユニットへ割り当てる。工程710において、識別子又は値を各頂点へ割り当てる。この識別子又は値は例えば数値であり得る。
図9Aに示すように、仮想選択分子は5個の頂点を有する。頂点は数値1、2、3、4、及び5を割り当てられる。工程715において、選択分子のMCUを接続する各結合の辺を追加する。選択仮想分子のMCUグラフの辺は頂点を接続する黒線により表される。
【0087】
本システムにより生成されるMCUグラフデータ構造は好適には隣接行列又は隣接リストである。
図9Aに表される選択仮想分子の例示的MCUグラフ隣接行列が
図9Bに表示される。MCUグラフの隣接行列は「頂点対頂点」行列(V2V)である。「頂点対頂点」行列は、本発明の例示的実施形態ではn基本構成要素又はn最小切断可能ユニットの選択分子のn×n行列として構成されるデータ構造を含む。行列内の各スロットは、2つの頂点が互いに接続されていれば又は隣接していれば1の数値を含み、2つの頂点の間に隣接性がなければ0の数値を含む。選択仮想分子のV2V行列の行及び列の両方は対応するMCUグラフ内に存在する5つの頂点を表すために1~5で標記される。一例として、
図9Bに示すように、頂点1及び頂点2は行列の行1内及び列2内の「1」より表されるように、隣接している。一方で、頂点1及び5は行列の行1内及び列5内に記載の「0」より表されるように、隣接していない。
【0088】
図6に戻ると、工程620では、本システムは選択分子の線グラフを表すためにMCUグラフデータ構造から線グラフデータ構造(「結合グラフデータ構造」又は「辺グラフデータ構造」としても知られる)を生成する。理解を容易にするために、仮想分子MCUグラフ隣接行列に対応する線グラフが
図9Cに描写される。一般的に、線グラフ符号化処理は、(i)線グラフの各頂点が選択分子のMCU間の共有結合を表すようにそして(ii)線グラフの2つの頂点は対応共有結合がMCUグラフ内の同じMCUから起これば辺により接続されるようにされる。
【0089】
図8の流れ図により示されるように、線グラフを生成するためのアルゴリズムは次のように進む:工程805において、線グラフの頂点は、各辺により接続された終点に基づき、仮想選択分子のMCUグラフ内の辺から構築される。線グラフの各頂点は、対応MCUグラフの頂点へ割り当てられた値に基づき一意的指標(例えば数値)が割り当てられる。線グラフの頂点はMCUの辺に対応する。選択仮想分子の線グラフに関して、
図9Cの頂点Aは
図9AのMCUグラフの頂点1、2を接続する辺に対応し、頂点Bは
図9AのMCUグラフの頂点1、3を接続する辺に対応し、
図9Cの頂点Cは
図9AのMCUグラフの頂点1、4を接続する辺に対応し、
図9Cの頂点Dは
図9AのMCUグラフの頂点2、5を接続する辺に対応する。
図9Cの頂点Eは
図9AのMCUグラフの頂点4、3を接続する辺に対応し、
図9Cの頂点Fは
図9AのMCUグラフの頂点4及び5を接続する辺に対応する。
【0090】
本発明のシステムにより生成される線グラフデータ構造は好適には線グラフ隣接行列又は隣接リストである。本発明の一実施形態では、線グラフデータ構造は、上述の線グラフデータ構造生成器445(
図4に示す)のような線グラフデータ構造生成プログラム又は「辺対頂点」(E2V)行列生成プログラムなどのようなコンピュータコードにより自動的に生成される。
【0091】
通常、線グラフの2つのタイプの隣接行列(すなわち「辺対辺」行列及び「辺対頂点」行列)がある。行列毎に、零及び1(0,1)表記法が選択分子の構成要素間の接続(「1」で指定される)又はその欠如(「0」で指定される)を記述するために使用され得る。(0,1)表記法は行列に関して使用され得る表記法の一例に過ぎない。どこに接続が存在するか又は存在しないかを表現するために多くの他の表記法が選択され使用される可能性があるということが理解されることになる。選択分子の構成要素間の接続の存在と欠如とを区別することを可能にするいかなる表記法も好適に採用され得る。
【0092】
「辺対辺」行列は、本発明の例示的実施形態ではn基本構成要素又はn最小切断可能ユニットの選択分子のn×n行列として構成されるデータ構造を含む。行列内の各スロットは、辺E1及び辺E2が隣接すれば1の数値をそして2つの間に隣接性がなければ0(零)の数値を含む。
【0093】
「辺対頂点」行列は、本発明の例示的実施形態ではn基本構成要素又はn最小切断可能ユニットの選択分子のn×n行列として構成されるデータ構造を含む。行列内の各スロットは辺及び所与の頂点が隣接すれば1の数値をそして2つの間に隣接性がなければ0(零)の数値を含む。
【0094】
図9Aに表される選択された仮想分子のMCUグラフ及びMCUグラフデータ構造に対応する例示的線グラフ隣接行列(E2E)が
図9Dに記載される。選択分子ペプチドAの本発明による例示的E2V行列が
図14に記載される。E2V行列は13×12行列であり、1~13と番号付けされた行は
図12AのペプチドA MCUグラフ及び
図12CのMCUグラフデータ構造内の辺を表し、1~12と番号付けされた列は
図12AのペプチドA MCUグラフ及び
図12Cのデータ構造の頂点を表す。
【0095】
工程625において、本システムは、マイクロプロセッサにより実行されると線グラフの誘導連結グラフを生成し格納するために線グラフのE2E及びE2Vの行列をトラバースするグラフトラバースアルゴリズムの工程をマイクロプロセッサに行わすプログラム命令を含むグラフトラバースプログラムを使用する。
図9Eは
図9AのMCUグラフにより表された選択された仮想分子の2つの誘導連結サブグラフの高レベル表現を示す。
【0096】
本発明の一実施形態では、グラフィック検索は深さ優先検索である。本処理は次のように進む:最初に、線グラフデータ構造の個々の頂点が接続構成要素として追加される。次に、任意の接続構成要素に関して、(i)その頂点指標はその構成頂点の最小指標として定義され、(ii)その隣接頂点が識別され、(iii)現在の接続構成要素と現在の接続構成要素の指標を越える指標を有するその隣接頂点の各隣接頂点との和集合として定義される新しい接続構成要素が接続構成要素のリストへ追加され、(iv)検索(線グラフ隣接行列をトラバースする)はすべての接続構成要素が列挙されてしまうまで帰納的に進む。無限ループの無いことは非減少頂点指標の方向の検索の特定方向により保証される。
【0097】
接続構成要素(誘導連結サブグラフ)が列挙されると、本システムは、工程630において、誘導連結サブグラフ記録(ICS記録)を生成し二次メモリ内のデータベース(例えば
図4に示され上に説明されたサブグラフデータベース490など)内に格納する。ICS記録は分子量フィールド、頂点データフィールド及び辺データフィールドを含む。
図15A及び15Bは、本発明のいくつかの実施形態に従って選択分子ペプチドAの各ICS記録内に格納される可能性がある分子量データ、頂点データ及び辺データの例を示す。
【0098】
図6の工程635において、本システムは、各誘導連結サブグラフに対応する全分子量を計算し、この分子量をデータベース内のICS記録の分子量フィールド内に格納する。工程630、635の完了時、すべての誘導連結サブグラフが列挙され格納されており、そして対応分子量は計算されており、好適には1つ又は複数のデータベース内に格納される。これで、本発明の代謝物識別処理の第1段階(下部構造データベース構築段階と呼ばれ得る)を完了する。
【0099】
重要なことには、本発明者らは、
図9Aに示されるMCUグラフなどのMCUグラフのあらゆる誘導連結サブグラフはMCUグラフにより表される選択分子の下部構造であるということを認識した。実際、
図9Aに示すMCUグラフなどのMCUグラフの各誘導連結サブグラフに対応する複数の下部構造がある。複数の下部構造はMCUグラフの誘導連結サブグラフを書き出すことにより説明されない。したがって、MCUグラフの誘導連結サブグラフのプールは
図9AのMCUグラフなどのMCUグラフにより表される分子の下部構造のプールを過小評価する。
【0100】
しかし、本発明者らは、選択分子の線グラフのデータ構造により表される線グラフの誘導連結サブグラフのリストは選択分子の下部構造の全プールを完全に且つ一意的に表すということも認識した。この特性は、選択分子の代謝物の全プールの識別を容易にするアルゴリズムに至り、これにより、錯体分子の下部構造のすべてを識別するために採用される従来のコンピュータシステムの動作を改善するので新規且つ実用的である。
【0101】
図10Aは選択分子リラグルチドの化学構造を示す。
図10Bはリラグルチドの対応MCUグラフを示す。
図10Bに示すように、この例におけるユーザ定義MCUはアミノ酸残基である。この例では単一アミノ酸を越えるいかなる代謝物にも関心がないので、MCUグラフの各頂点は頂点Bを例外としてアミノ酸残基である。頂点Bは脂肪酸鎖を表す。この例では、これ以上のいかなる代謝も発生することが許されなかった。したがって、頂点BもまたMCUである。
【0102】
図10Aに記載の表現の構築ブロックは原子であり、
図10BのMCUグラフの構築ブロックはMCUである。
図10Aの原子ベース表現の1つの利点は構造の化学的詳細を露呈するということである。しかし、欠点は原子ベース表現の複雑性は原子ベース表現が下部構造データベース及び理論的代謝物データベースを計算する際の使用にはしばしば複雑過ぎるということである。MCU表現は、ユーザが化学構造の重要でない詳細を無視することを可能にすることによりこの問題を克服する。
【0103】
図11はペプチドA(2つのジスルフィド結合を含む12のアミノ酸ペプチド)の化学構造を示す。
【0104】
図12A及び12Bは本発明の実施形態に従って生成されるペプチドAのMCUグラフを示す。この場合、ペプチドAのMCUはアミノ酸として選択される。したがって、アミノ酸レベルを越える切断は許容されない。
図12Aに示すように、分子内に12のアミノ酸、したがってMCUグラフ内に12の頂点があり、丸囲み文字により表される。MCUグラフはすべての頂点を他の頂点へ接続する太黒線により
図12Aにおいて表される13の辺を含む。
【0105】
図12Bは丸囲み文字の代わりに丸囲み数字により表された頂点を有するペプチドAの別のMCUグラフである。
【0106】
ペプチドAのMCUグラフデータ構造が
図12Cに記載される。このデータ構造は12の頂点の各頂点の行と各行の12列とを含む12×12隣接行列を含む。各頂点間の結合の有無は1,0表記法を使用して指定され、ここで、1は結合又は接続の存在を表し、0は結合又は接続の欠如を表す。例えば、頂点1は頂点2へ接続される(したがって列2内の1)が、いかなる他の頂点へも接続されなく、したがって零が残り11列の各列内に列挙される。追加例として、頂点2は頂点1、3及び7へ接続され、したがって頂点2に対応する行のそれぞれの列の各列内に1が列挙される。
【0107】
図13Aは本発明の実施形態に従って生成され得るペプチドAの線グラフを示す。線グラフの頂点は円として表され、1~12に番号付けされる。理解を容易にするために、頂点は単一文字アミノ酸と単量体AのMCUグラフの所与の辺の終点を表すペプチド内の位置とを含む。対応MCUグラフデータ構造が
図13Bに記載される。対応E2V行列データ構造が
図14に記載される。E2V行列において、辺は行1~13として表され、頂点は列1~12として表される。
【0108】
図15A及び15Bは、本発明の実施形態に従って生成されるサブグラフデータベース内に格納されたICS記録の例示的データ(分子量フィールド、頂点配列フィールド及び辺配列フィールドを含む)を示す。ICS記録はペプチドAの線グラフの誘導連結サブグラフを表す。
図15Aの行3及び4に示すように、ICS記録のうちの2つは、同じ分子量であるが頂点データフィールド内の異なる頂点値及び辺データフィールド内の異なる辺値を示す。したがって、本発明の実施形態により生成されるサブグラフデータベースの構成は、同じ分子量を有するICS(したがって選択分子の下部構造)を本システムが区別することを可能にする。
【0109】
図16は本発明の一実施形態に従って行われる例示的検索処理の工程を示す流れ図を示す。検索は本発明の動作の第1段階と非同期で行われ得る。検索処理は、動作の第1段階において生成された格納された誘導連結サブグラフ記録のデータベースを利用する。工程1605において、本システムは照会分子量を受信する。工程1610及び1615において、本システムは、照会分子量に整合する分子量フィールド値を有する誘導連結サブグラフ記録(すなわち、照会分子量の指定範囲、好適には照会分子量の5ppm以内、より好適には照会分子量の4ppm以内、そしてより好適には照会分子量の2ppm以内に入る分子量フィールド内の分子量を有する記録)を識別するために照会分子量を使用して工程630及び635において生成された格納された誘導連結サブグラフ記録のデータベースを検索する。いくつかの実施形態では、誘導連結サブグラフ記録の検索は、本発明の動作の第1段階中にサブグラフデータベース内に格納されたICS記録からデータをマイクロプロセッサに検索し取り出させるように構成されたプログラム命令を含む検索エンジンモジュール(すなわちコンピュータプログラム)により行われ得る。照会分子量は通常、選択分子の下部構造の実験的に観測された又は既知の分子量である。照会分子量は質量分光分析及び特に差分質量分光分析などの技術を使用して生成され得る。
【0110】
工程1615において、本システムは、データベース内の識別された誘導連結サブグラフ記録の頂点データフィールドから頂点値をそして辺データフィールドから辺値をユーザへ表示する。この工程は、識別されたICS記録から頂点値及び辺値をエンドユーザにより操作されるディスプレイデバイス上の提示のためにユーザインターフェースへ送信することにより達成される。
【0111】
本発明の追加実施形態において、本システムは、線グラフの誘起連結サブグラフのグラフィック表現を生成するために、そしてこのグラフィック表現を、エンドユーザにより操作されるディスプレイデバイスへ送信するために、頂点データフィールド内の頂点値、辺データフィールド内の辺値、及び選択分子データを使用し得る。
図16の工程1620を参照。グラフィック表現は誘導連結サブグラフ記録により表される下部構造のMCUグラフ又は化学構造線図であり得る。工程1620において説明されたグラフィック表現を表示することはユーザがグラフィック表現を見たいかどうか又は線グラフの誘導連結サブグラフの頂点値及び辺値を受信する(又は、呈示される)ことに満足するかどうかに依存する任意選択工程であるということに留意すべきである。
【0112】
図17AはペプチドAの線グラフの誘導連結サブグラフ(ICS)により表されたグラフィック表現(すなわちMCUグラフ)を示す。下部構造は192.0569ダルトンの分子量を有する。
図17Bは
図17AのMCUグラフにより表された下部構造の対応化学構造を示す。
【0113】
図18A及び19AはペプチドAの線グラフのICSにより表されたグラフィック表現(すなわちMCUグラフ)を示す。MCUグラフは220.0882ダルトンの分子量を有するペプチドAの下部構造を表す。
図18B及び19Bは
図18A及び19AのMCUグラフにより表された下部構造の対応化学構造をそれぞれ示す。
【0114】
図20A及び21AはペプチドAの線グラフのICSにより表されたグラフィック表現(すなわちMCUグラフ)を示す。MCUグラフは1271.42ダルトンの分子量を有するペプチドAの下部構造を表す。
図20B及び21Bは
図20A及び21AのMCUグラフにより表された下部構造の対応化学構造をそれぞれ示す。
【0115】
図22Aは別の選択分子(すなわちインスリンデテミール)の化学構造を示す。
図22B及び22CはインスリンデテミールのMCUグラフを描写する。
図22BのMCUグラフでは、MCUは単一アミノ酸残基及び基本組成を含む。基本組成(C
12H
26O
1)は円で囲まれたZにより指定される。
図22Cは円で囲まれたXにより指定された分子の一部が単一MCUへ抽象化されたということを示す。分子の抽出領域を有する切断に興味が無いユーザは、本発明により生成されるだろう下部構造のプールを好適に調整するためにこの手法を使用し得る。
【0116】
図23は本発明に従って生成されたインスリンデテミールのMCUグラフデータ構造を示す。隣接行列は50×51行列である。
【0117】
図24はインスリンデテミールの
図22Bにおいて表されるMCUグラフの線グラフを示す。線グラフは割り当てられた数値により指定される52の頂点を有する。
【0118】
図25は
図23に記載のMCUグラフデータ構造から生成されたインスリンデテミールの線グラフデータ構造を示す。データ構造は52×52隣接行列である。
【0119】
図26は
図23に示すMCUグラフデータ構造から本発明に従って生成された「辺対頂点」データ構造を描写する。
【0120】
図27は下部構造データベースにMCUグラフ隣接行列内に格納されたMCUグラフデータを取り込むグラフ横断アルゴリズムを行うように構成された例示的MatLabコードプログラム命令を示す。
図27に示すように、本コードはMCUグラフ隣接行列データ構造E2V内に格納されたデータ及び線グラフ隣接行列データ構造J内に格納されたデータを入力データとして受け取る。後者は前者から導出され得るということに留意されたい。したがって、
図27に示すMatLabコードにより表されるアルゴリズムは、ICSデータベースに取り込むためにMCUグラフ隣接行列データ構造からのデータだけを必要とするように書かれ得る。
【0121】
図28は
図27に示す例示的コードにより行われるアルゴリズムを示す流れ図を示す。
図28に示すように、サブグラフデータベースを取り込むためにグラフデータ構造をトラバースするためのアルゴリズムは以下の工程を含む:最初に、工程2805において、構造内に存在する各個々の辺を表すデータをデータベースへ追加する。次に、工程2810において、データベース内に存在する辺毎に、当該辺の娘下部構造のすべての娘下部構造をデータベースへ再帰的に追加する。次に、工程2815において、データベース内の下部構造(すなわち親下部構造)毎に、その隣下部構造を識別し、各隣下部構造を1つずつ親構造へ追加し、工程2820において、データベースへ追加するべきこれ以上の下部構造が無くなるまで工程2810、2815、2820を繰り返す。
【0122】
図29はネズミ腎臓膜培養におけるインスリンデテミールの潜在的代謝物の実験的アイソトープ包絡線であり、1076.2866Th([M+5H])におけるモノアイソトピックm/zと5376.3965Daの分子量とを有する。この分子量は
図16に示す流れ図により示されたアルゴリズムに従ってICS記録のデータベースを検索するために照会分子量として使用された。データベースのバイナリサーチが、照会分子に2ppm以内で整合した分子量を有するICS記録を識別するために行われた。
【0123】
図30A~30Dは、インスリンデテミールの誘導連結サブグラフを表す頂点配列及び辺配列を含むデータベースのバイナリサーチにおいて生成される4つの例示的データベースエントリ(ICS記録)を示す。ICSのうちの3つは5376.4044の分子量を有し、1つのICSは5376.3945の分子量を有した。
【0124】
図31A及び31Bはインスリンデテミールの線グラフデータ構造の誘導連結サブグラフのMCUグラフを示す。
【0125】
図31C~31Fは
図30A~30Dに示す頂点配列及び辺配列に対応する4つの誘導連結グラフのMCUグラフをそれぞれ示す。
【0126】
図32A、32B、33A及び33Bは
図30A~30Dに示す頂点配列及び辺配列に対応する4つの誘導連結グラフの提案化学構造をそれぞれ示す。
【0127】
図34Aは
図31Fに示す構造(インスリンデテミールの代謝物)の代謝切断マップである。
図34Bは
図31Fに示す代謝物の構造を検証するために生成されたMS/MS y
2-y
7イオンスペクトルである。MS/MS生成y
2-y
7イオン系列は
図31C、31D、31Fに示す構造ではなく
図31Fに記載の構造に一致する。
図34Cは
図31Fに示すインスリンデテミール代謝物のMS/MS断片化マップである。
図34Cでは、代謝切断部位、異性体切断部位、保持MCU、離脱MCU、y
nイオン、及びb
nイオンが次のように表される:
【0128】
【0129】
本発明は特定例を参照して詳細に説明されたが、様々な修正が本発明の範囲から逸脱することなくなされ得るということが当業者にとって明らかになる。したがって、本発明の範囲は、本明細書で説明される例ではなく以下に提示される特許請求の範囲により制限されるべきである。