(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-08-15
(54)【発明の名称】機械学習を用いたタンパク質同定技術および関連するシステムと方法
(51)【国際特許分類】
G16B 40/00 20190101AFI20220805BHJP
G01N 21/64 20060101ALI20220805BHJP
G01N 33/68 20060101ALI20220805BHJP
【FI】
G16B40/00
G01N21/64 F
G01N33/68
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021573337
(86)(22)【出願日】2020-06-12
(85)【翻訳文提出日】2022-01-19
(86)【国際出願番号】 US2020037541
(87)【国際公開番号】W WO2020252345
(87)【国際公開日】2020-12-17
(32)【優先日】2019-06-12
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】516144164
【氏名又は名称】クアンタム-エスアイ インコーポレイテッド
【氏名又は名称原語表記】QUANTUM-SI INCORPORATED
(74)【代理人】
【識別番号】100105957
【氏名又は名称】恩田 誠
(74)【代理人】
【識別番号】100068755
【氏名又は名称】恩田 博宣
(74)【代理人】
【識別番号】100142907
【氏名又は名称】本田 淳
(74)【代理人】
【識別番号】100152489
【氏名又は名称】中村 美樹
(72)【発明者】
【氏名】マイヤー、マイケル
(72)【発明者】
【氏名】リード、ブライアン
(72)【発明者】
【氏名】チャン、ジーズオ
(72)【発明者】
【氏名】ラシード、サブリナ
(72)【発明者】
【氏名】パリー、ブラッドリー ロバート
【テーマコード(参考)】
2G043
2G045
【Fターム(参考)】
2G043AA04
2G043BA16
2G043CA04
2G043DA02
2G043DA06
2G043EA01
2G043NA01
2G043NA05
2G045AA34
2G045AA35
2G045FB13
2G045JA01
(57)【要約】
本明細書では、タンパク質配列決定装置によって収集されたデータを用いてポリペプチドを同定するためのシステムおよび技術について説明する。タンパク質配列決定装置は、試薬がポリペプチドのアミノ酸との結合相互作用中の発光標識による検出された発光から得られたデータを収集してもよい。発光は、発光標識に励起エネルギーが適用された結果であってもよい。装置は、ポリペプチドを同定するべく使用され得る出力を得るべく、学習済み機械学習モデルへの入力としてデータを提供してもよい。出力は、ポリペプチド内の複数の位置のそれぞれについて、その位置に1つまたは複数のそれぞれのアミノ酸が存在するという1つまたは複数の尤度を示してもよい。出力は、タンパク質を同定するアミノ酸配列に照合されてもよい。
【特許請求の範囲】
【請求項1】
ポリペプチドを同定するための方法であって、少なくとも1つのコンピュータハードウェアプロセッサを用いて前記方法は、
前記ポリペプチドのアミノ酸との1つまたは複数の試薬の結合相互作用に関するデータにアクセスする工程と、
前記ポリペプチド内の複数の位置のそれぞれについて、1つまたは複数のそれぞれのアミノ酸がその位置に存在するという1つまたは複数の尤度を示す出力を得るべく、学習済み機械学習モデルへの入力として前記データを提供する工程と、
前記学習済み機械学習モデルから得られた出力に基づき、前記ポリペプチドを同定する工程と、
を備えている、ポリペプチドを同定するための方法。
【請求項2】
前記1つまたは複数のそれぞれのアミノ酸がその位置に存在するという前記1つまたは複数の尤度は、
第1アミノ酸がその位置に存在するという第1尤度と、および
第2アミノ酸がその位置に存在するという第2尤度と、
を備えている、請求項1に記載の方法。
【請求項3】
前記ポリペプチドを同定する工程は、前記得られた出力を、それぞれのタンパク質に関連する複数のアミノ酸配列のうちの1つに照合する工程を備えている、
請求項1または請求項2のいずれかに記載の方法。
【請求項4】
前記得られた出力を、それぞれのタンパク質を同定する前記複数のアミノ酸配列のうちの1つに照合する工程は、
前記得られた出力に基づき、隠れマルコフモデル(HMM)を生成する工程と、
前記隠れマルコフモデルHMMを、前記複数のアミノ酸配列のうちの1つに照合する工程と、
を備えている、
請求項3に記載の方法。
【請求項5】
前記機械学習モデルは、
ガウス混合モデル(GMM)と、
複数のクラスタを備えているクラスタリングモデルであって、前記クラスタの各々は1つまたは複数のアミノ酸に関連付けられている、前記クラスタリングモデルと、
深層学習モデルと、
畳み込みニューラルネットワークと、または
コネクショニスト時間分類(CTC)適合ニューラルネットワークと、
のうちの1つを備えている、
請求項1に記載の方法。
【請求項6】
前記学習済み機械学習モデルは、教師付き学習アルゴリズムを学習データに適用することで生成される、
請求項1に記載の方法。
【請求項7】
前記学習済み機械学習モデルは、半教師付き学習アルゴリズムを学習データに適用することで生成される、
請求項1に記載の方法。
【請求項8】
前記学習済み機械学習モデルは、教師なし学習アルゴリズムを適用することで生成される、
請求項1に記載の方法。
【請求項9】
前記学習済み機械学習モデルは、前記ポリペプチド内の前記複数の位置のうちの少なくともいくつかの位置ごとに、複数のアミノ酸のそれぞれについて、そのアミノ酸がその位置に存在するという確率を示す確率分布を出力するように構成されている、
請求項1に記載の方法。
【請求項10】
前記1つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用の前記データは、パルス持続時間値を備えており、
各パルス持続時間値は、結合相互作用について検出されたシグナルパルスの持続時間を示す、
請求項1に記載の方法。
【請求項11】
前記1つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用の前記データは、パルス同士間持続時間値を備えており、
各パルス同士間持続時間値は、結合相互作用について検出された連続するシグナルパルス同士間の時間の持続時間を示す、
請求項1に記載の方法。
【請求項12】
前記1つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用の前記データは、1つまたは複数のパルス持続時間値と、および1つまたは複数のパルス同士間持続時間値とを備えている、
請求項1に記載の方法。
【請求項13】
前記学習済み機械学習モデルへの入力として前記データを提供する工程はさらに、
各部分が前記結合相互作用のそれぞれの1つに対応するべく、前記データの複数の部分を同定する工程と、
前記データの各部分に対応する出力を得るべく、前記複数の部分のそれぞれを前記学習済み機械学習モデルへの入力として提供する工程と、
を備えている、
請求項1に記載の方法。
【請求項14】
前記データの前記部分に対応する前記出力は、1つまたは複数のそれぞれのアミノ酸が前記複数の位置のそれぞれの1つに存在するという1つまたは複数の尤度を示す、
請求項13に記載の方法。
【請求項15】
前記データの前記複数の部分を同定する工程は、
1つまたは複数の前記アミノ酸の切断に対応する前記データ内の1つまたは複数の点を同定する工程と、
前記1つまたは複数のアミノ酸の前記切断に対応する前記同定された1つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、請求項13に記載の方法。
【請求項16】
前記データの前記複数の部分を同定する工程は、前記データの離散ウェーブレット変換を生成する工程を備えている、
請求項13に記載の方法。
【請求項17】
前記データの前記複数の部分を同定する工程は、
前記データから、前記結合相互作用の少なくとも1つの特性に関する要約統計量の値を決定する工程と、
前記データの中で、前記少なくとも1つの特性の値が前記要約統計量の前記値から閾値量だけ逸脱している1つまたは複数の点を同定する工程と、
前記同定された1つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、請求項13に記載の方法。
【請求項18】
前記1つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用に関する前記データは、1つまたは複数の発光標識による検出された発光から得られたデータを備えている、
請求項1に記載の方法。
【請求項19】
前記1つまたは複数の発光標識による検出された発光から得られた前記データは、波長値を備えており、
各波長値は、結合相互作用中に放出された光の波長を示す、
請求項18に記載の方法。
【請求項20】
前記1つまたは複数の発光標識による検出された発光から得られた前記データは、発光寿命値を備えている、
請求項18に記載の方法。
【請求項21】
前記1つまたは複数の発光標識による検出された発光から得られた前記データは、発光強度値を備えている、
請求項18に記載の方法。
【請求項22】
前記発光は一連の光パルスに反応し、
前記データは、少なくともいくつかの前記光パルスのそれぞれについて、前記光パルス後の時間期間の一部である複数の時間区間のそれぞれで検出された光子のそれぞれの数を備えている、
請求項18に記載の方法。
【請求項23】
前記学習済み機械学習モデルへの入力として前記データを提供する工程は、複数の列を有するデータ構造に前記データを配置する工程を備えており、
第1列は、前記一連の光パルスのうちの第1光パルス後の第1時間期間の一部である第1および第2時間区間のそれぞれにおける光子のそれぞれの数を保持しており、
第2列は、前記一連の光パルスのうちの第2光パルス後の第2時間期間の一部である第1および第2時間区間のそれぞれにおける光子のそれぞれの数を保持する、
請求項1に記載の方法。
【請求項24】
前記1つまたは複数の発光標識は、前記1つまたは複数の試薬のうちの少なくとも1つに関連付けられている、
請求項18に記載の方法。
【請求項25】
前記1つまたは複数の発光標識は、前記ポリペプチドの前記アミノ酸の少なくともいくつかに関連付けられている、
請求項18に記載の方法。
【請求項26】
前記複数の位置は、前記ポリペプチド内の少なくとも1つの相対的位置を備えている、
請求項1に記載の方法。
【請求項27】
ポリペプチドを同定するためのシステムであって、前記システムは、
少なくとも1つのプロセッサと、および
前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに方法を実行させる命令を格納する、少なくとも1つの非一時的なコンピュータ可読記憶媒体と、
を備えており、前記方法は、
前記ポリペプチドのアミノ酸との1つまたは複数の試薬の結合相互作用に関するデータにアクセスする工程と、
前記ポリペプチド内の複数の位置のそれぞれについて、1つまたは複数のそれぞれのアミノ酸がその位置に存在するという1つまたは複数の尤度を示す出力を得るべく、学習済み機械学習モデルへの入力として前記データを提供する工程と、
前記学習済み機械学習モデルから得られた出力に基づき、前記ポリペプチドを同定する工程と、
を備えている、ポリペプチドを同定するためのシステム。
【請求項28】
前記1つまたは複数のそれぞれのアミノ酸がその位置に存在するという前記1つまたは複数の尤度は、
第1アミノ酸がその位置に存在するという第1尤度と、および
第2アミノ酸がその位置に存在するという第2尤度と、
を備えている、請求項27に記載のシステム。
【請求項29】
前記ポリペプチドを同定する工程は、前記得られた出力を、それぞれのタンパク質に関連する複数のアミノ酸配列のうちの1つに照合する工程を備えている、
請求項27または請求項28のいずれかに記載のシステム。
【請求項30】
前記得られた出力を、それぞれのタンパク質を同定する前記複数のアミノ酸配列のうちの1つに照合する工程は、
前記得られた出力に基づき、隠れマルコフモデル(HMM)を生成する工程と、
前記隠れマルコフモデルHMMを、前記複数のアミノ酸配列のうちの1つに照合する工程と、
を備えている、
請求項29に記載のシステム。
【請求項31】
前記機械学習モデルは、
ガウス混合モデル(GMM)と、
複数のクラスタを備えているクラスタリングモデルであって、前記クラスタの各々は1つまたは複数のアミノ酸に関連付けられている、前記クラスタリングモデルと、
深層学習モデルと、
畳み込みニューラルネットワークと、または
コネクショニスト時間分類(CTC)適合ニューラルネットワークと、
のうちの1つを備えている、
請求項27に記載のシステム。
【請求項32】
前記学習済み機械学習モデルは、教師付き学習アルゴリズムを学習データに適用することで生成される、
請求項27に記載のシステム。
【請求項33】
前記学習済み機械学習モデルは、半教師付き学習アルゴリズムを学習データに適用することで生成される、
請求項27に記載のシステム。
【請求項34】
前記学習済み機械学習モデルは、教師なし学習アルゴリズムを適用することで生成される、
請求項27に記載のシステム。
【請求項35】
前記学習済み機械学習モデルは、前記ポリペプチド内の前記複数の位置のうちの少なくともいくつかの位置ごとに、複数のアミノ酸のそれぞれについて、そのアミノ酸がその位置に存在するという確率を示す確率分布を出力するように構成されている、
請求項27に記載のシステム。
【請求項36】
前記1つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用の前記データは、パルス持続時間値を備えており、
各パルス持続時間値は、結合相互作用について検出されたシグナルパルスの持続時間を示す、
請求項27に記載のシステム。
【請求項37】
前記1つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用の前記データは、パルス同士間持続時間値を備えており、
各パルス同士間持続時間値は、結合相互作用について検出された連続するシグナルパルス同士間の時間の持続時間を示す、
請求項27に記載のシステム。
【請求項38】
前記1つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用の前記データは、1つまたは複数のパルス持続時間値と、および1つまたは複数のパルス同士間持続時間値とを備えている、
請求項27に記載のシステム。
【請求項39】
前記学習済み機械学習モデルへの入力として前記データを提供する工程はさらに、
各部分が前記結合相互作用のそれぞれの1つに対応するべく、前記データの複数の部分を同定する工程と、および
前記データの各部分に対応する出力を得るべく、前記複数の部分のそれぞれを前記学習済み機械学習モデルへの入力として提供する工程と、
を備えている、
請求項27に記載のシステム。
【請求項40】
前記データの前記部分に対応する前記出力は、1つまたは複数のそれぞれのアミノ酸が前記複数の位置のそれぞれの1つに存在するという1つまたは複数の尤度を示す、
請求項39に記載のシステム。
【請求項41】
前記データの前記複数の部分を同定する工程は、
1つまたは複数の前記アミノ酸の切断に対応する前記データ内の1つまたは複数の点を同定する工程と、
前記1つまたは複数のアミノ酸の前記切断に対応する前記同定された1つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、請求項39に記載のシステム。
【請求項42】
前記データの前記複数の部分を同定する工程は、前記データの離散ウェーブレット変換を生成する工程を備えている、
請求項39に記載のシステム。
【請求項43】
前記データの前記複数の部分を同定する工程は、
前記データから、前記結合相互作用の少なくとも1つの特性に関する要約統計量の値を決定する工程と、
前記データの中で、前記少なくとも1つの特性の値が前記要約統計量の前記値から閾値量だけ逸脱している1つまたは複数の点を同定する工程と、
前記同定された1つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、
請求項39に記載のシステム。
【請求項44】
前記1つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用に関する前記データは、1つまたは複数の発光標識による検出された発光から得られたデータを備えている、
請求項27に記載のシステム。
【請求項45】
前記1つまたは複数の発光標識による検出された発光から得られた前記データは、波長値を備えており、
各波長値は、結合相互作用中に放出された光の波長を示す、
請求項44に記載のシステム。
【請求項46】
前記1つまたは複数の発光標識による検出された発光から得られた前記データは、発光寿命値を備えている、
請求項44に記載のシステム。
【請求項47】
前記1つまたは複数の発光標識による発光を検出した前記データは、発光強度値を備えている、
請求項44に記載のシステム。
【請求項48】
前記発光は一連の光パルスに反応し、
前記データは、少なくともいくつかの前記光パルスのそれぞれについて、前記光パルス後の時間期間の一部である複数の時間区間のそれぞれで検出された光子のそれぞれの数を備えている、
請求項44に記載のシステム。
【請求項49】
前記学習済み機械学習モデルへの入力として前記データを提供する工程は、複数の列を有するデータ構造に前記データを配置する工程を備えており、
第1列は、前記一連の光パルスのうちの第1光パルス後の第1時間期間の一部である第1および第2時間区間のそれぞれにおける光子のそれぞれの数を保持しており、
第2列は、前記一連の光パルスのうちの第2光パルス後の第2時間期間の一部である第1および第2時間区間のそれぞれにおける光子のそれぞれの数を保持する、
請求項27に記載のシステム。
【請求項50】
前記1つまたは複数の発光標識は、前記1つまたは複数の試薬のうちの少なくとも1つに関連付けられている、
請求項44に記載のシステム。
【請求項51】
前記1つまたは複数の発光標識は、前記ポリペプチドの前記アミノ酸の少なくともいくつかに関連付けられている、
請求項44に記載のシステム。
【請求項52】
前記複数の位置は、前記ポリペプチド内の少なくとも1つの相対的位置を備えている、
請求項27に記載のシステム。
【請求項53】
少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに方法を実行させる命令を格納した少なくとも1つの非一時的なコンピュータ可読記憶媒体であって、前記方法は
ポリペプチドのアミノ酸との1つまたは複数の試薬の結合相互作用に関するデータにアクセスする工程と、
前記ポリペプチド内の複数の位置のそれぞれについて、1つまたは複数のそれぞれのアミノ酸がその位置に存在するという1つまたは複数の尤度を示す出力を得るべく、学習済み機械学習モデルへの入力として前記データを提供する工程と、
前記学習済み機械学習モデルから得られた出力に基づき、前記ポリペプチドを同定する工程と、
を備えている、少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項54】
前記1つまたは複数のそれぞれのアミノ酸がその位置に存在するという前記1つまたは複数の尤度は、
第1アミノ酸がその位置に存在するという第1尤度と、および
第2アミノ酸がその位置に存在するという第2尤度と、
を備えている、
請求項53に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項55】
前記ポリペプチドを同定する工程は、前記得られた出力を、それぞれのタンパク質に関連する複数のアミノ酸配列のうちの1つに照合する工程を備えている、
請求項53または請求項54のいずれかに記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項56】
前記得られた出力を、それぞれのタンパク質を規定する前記複数のアミノ酸配列のうちの1つに照合する工程は、
前記得られた出力に基づき、隠れマルコフモデル(HMM)を生成する工程と、
前記隠れマルコフモデルHMMを、前記複数のアミノ酸配列のうちの1つに照合する工程と、
を備えている、請求項55に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項57】
前記機械学習モデルは、
ガウス混合モデル(GMM)と、
複数のクラスタを備えているクラスタリングモデルであって、前記クラスタの各々は1つまたは複数のアミノ酸に関連付けられている、前記クラスタリングモデルと、
深層学習モデルと、
畳み込みニューラルネットワークと、または
コネクショニスト時間分類(CTC)適合ニューラルネットワークと、
のうちの1つを備えている、
請求項53に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項58】
前記学習済み機械学習モデルは、教師付き学習アルゴリズムを学習データに適用する工程で生成される、
請求項53に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項59】
前記学習済み機械学習モデルは、半教師付き学習アルゴリズムを学習データに適用する工程で生成される、
請求項53に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項60】
前記学習済み機械学習モデルは、教師なし学習アルゴリズムを適用する工程で生成される、
請求項53に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項61】
前記学習済み機械学習モデルは、前記ポリペプチド内の前記複数の位置のうちの少なくともいくつかの位置ごとに、複数のアミノ酸のそれぞれについて、そのアミノ酸がその位置に存在するという確率を示す確率分布を出力するように構成されている、
請求項53に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項62】
前記1つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用の前記データは、パルス持続時間値を備えており、
各パルス持続時間値は、結合相互作用について検出されたシグナルパルスの持続時間を示す、
請求項53に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項63】
前記1つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用の前記データは、パルス同士間持続時間値を備えており、
各パルス同士間持続時間値は、結合相互作用について検出された連続するシグナルパルス同士間の時間の持続時間を示す、
請求項53に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項64】
前記1つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用の前記データは、1つまたは複数のパルス持続時間値と、および1つまたは複数のパルス同士間持続時間値とを備えている、
請求項53に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項65】
前記学習済み機械学習モデルへの入力として前記データを提供する工程はさらに、
各部分が前記結合相互作用のそれぞれの1つに対応するべく、前記データの複数の部分を同定する工程と、
前記データのそれぞれの1つの部分に対応する出力を得るべく、前記複数の部分のそれぞれを前記学習済み機械学習モデルへの入力として提供する工程と、
を備えている、
請求項53に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項66】
前記データの前記部分に対応する前記出力は、1つまたは複数のそれぞれのアミノ酸が前記複数の位置のそれぞれの1つに存在するという1つまたは複数の尤度を示す、
請求項65に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項67】
前記データの前記複数の部分を同定する工程は、
1つまたは複数の前記アミノ酸の切断に対応する前記データ内の1つまたは複数の点を同定する工程と、
前記1つまたは複数のアミノ酸の前記切断に対応する前記同定された1つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、
請求項65に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項68】
前記データの前記複数の部分を同定する工程は、前記データの離散ウェーブレット変換を生成する工程を備えている、
請求項65に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項69】
前記データの前記複数の部分を同定する工程は、
前記データから、前記結合相互作用の少なくとも1つの特性に関する要約統計量の値を決定する工程と、
前記データの中で、前記少なくとも1つの特性の値が前記要約統計量の前記値から閾値量だけ逸脱している1つまたは複数の点を同定する工程と、
前記同定された1つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、請求項65に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項70】
前記1つまたは複数の試薬と前記ポリペプチドのアミノ酸との結合相互作用に関する前記データは、1つまたは複数の発光標識による検出された発光から得られたデータを備えている、
請求項53に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項71】
前記1つまたは複数の発光標識による検出された発光から得られた前記データは、波長値を備えており、
各波長値は、結合相互作用中に放出される光の波長を示す、
請求項70に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項72】
前記1つまたは複数の発光標識による検出された発光から得られた前記データは、発光寿命値を備えている、
請求項70に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項73】
前記1つまたは複数の発光標識による検出された発光から得られた前記データは、発光強度値を備えている、
請求項70に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項74】
前記発光は一連の光パルスに反応し、
前記データは、少なくともいくつかの前記光パルスのそれぞれについて、前記光パルス後の時間期間の一部である複数の時間区間のそれぞれで検出された光子のそれぞれの数を備えている、
請求項70に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項75】
前記学習済み機械学習モデルへの入力として前記データを提供する工程は、複数の列を有するデータ構造に前記データを配置する工程を備えており、
第1列は、前記一連の光パルスのうちの第1光パルス後の第1時間期間の一部である第1および第2時間区間のそれぞれにおける光子のそれぞれの数を保持しており
第2列は、前記一連の光パルスのうちの第2光パルス後の第2時間期間の一部である第1および第2時間区間のそれぞれにおける光子のそれぞれの数を保持する、
請求項53に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項76】
前記1つまたは複数の発光標識は、前記1つまたは複数の試薬のうちの少なくとも1つに関連付けられている、
請求項70に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項77】
前記1つまたは複数の発光標識は、前記ポリペプチドの前記アミノ酸の少なくともいくつかに関連付けられている、
請求項70に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項78】
前記複数の位置は、前記ポリペプチド内の少なくとも1つの相対的位置を備えている、
請求項53に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項79】
ポリペプチドのアミノ酸を同定するための機械学習モデルを学習する方法であって、少なくとも1つのコンピュータハードウェアプロセッサを用いて前記方法は、
1つまたは複数の試薬とアミノ酸との結合相互作用について得られた学習データにアクセスする工程と、
前記ポリペプチドのアミノ酸を同定するための学習済み機械学習モデルを得るべく、前記学習データとしてのデータを用いて前記機械学習モデルを学習する工程と、
を備えている、機械学習モデルを学習する方法。
【請求項80】
前記機械学習モデルは混合モデルを備えている、
請求項79に記載の方法。
【請求項81】
前記混合モデルは、ガウス混合モデル(GMM)を備えている、
請求項80に記載の方法。
【請求項82】
前記機械学習モデルは、深層学習モデルを備えている、
請求項79に記載の方法。
【請求項83】
前記深層学習モデルは、畳み込みニューラルネットワークを備えている、
請求項82に記載の方法。
【請求項84】
前記深層学習モデルは、コネクショニスト時間分類(CTC)適合ニューラルネットワークを備えている、
請求項82に記載の方法。
【請求項85】
前記学習データを用いて前記機械学習モデルを学習する工程は、前記学習データに教師付き学習アルゴリズムを適用する工程を備えている、
請求項79に記載の方法。
【請求項86】
前記学習データを用いて前記機械学習モデルを学習する工程は、前記学習データに半教師付き学習アルゴリズムを適用する工程を備えている、
請求項79に記載の方法。
【請求項87】
前記学習データを用いて前記機械学習モデルを学習する工程は、前記学習データに教師なし学習アルゴリズムを適用する工程を備えている、
請求項79に記載の方法。
【請求項88】
前記機械学習モデルはクラスタリングモデルを備えており、
前記機械学習モデルを学習する工程は、前記クラスタリングモデルの複数のクラスタを同定する工程を備えており、
前記複数のクラスタの各々は1つまたは複数のアミノ酸に関連付けられる、
請求項79に記載の方法。
【請求項89】
前記1つまたは複数の試薬とアミノ酸との結合相互作用の前記データは、パルス持続時間値を備えており、
各パルス持続時間値は、結合相互作用について検出されたシグナルパルスの持続時間を示す、
請求項79に記載の方法。
【請求項90】
前記1つまたは複数の試薬とアミノ酸との結合相互作用について得られた前記データは、パルス同士間持続時間値を備えており、
各パルス同士間持続時間値は、結合相互作用について検出された連続するシグナルパルス同士間の時間の持続時間を示す、
請求項79に記載の方法。
【請求項91】
前記1つまたは複数の試薬とアミノ酸との結合相互作用について得られた前記データは、1つまたは複数のパルス継続時間値と、および1つまたは複数のパルス同士間継続時間値とを備えている、
請求項79に記載の方法。
【請求項92】
前記方法はさらに、前記ポリペプチド内の複数の位置のそれぞれについて、1つまたは複数のそれぞれのアミノ酸がその位置に存在するという1つまたは複数の尤度を出力するように、前記機械学習モデルを学習する工程を備えている、
請求項79に記載の方法。
【請求項93】
前記機械学習モデルを学習する工程は、
各部分が前記結合相互作用のそれぞれの1つに対応するように、前記データの複数の部分を同定する工程と、
前記データのそれぞれの1つの部分に対応する出力を得るべく、前記複数の部分のそれぞれの1つを前記機械学習モデルへの入力として提供する工程と、
前記複数の部分に対応する出力を用いて前記機械学習モデルを学習する工程と、
を備えている、請求項79に記載の方法。
【請求項94】
前記データの部分に対応する出力は、1つまたは複数のそれぞれのアミノ酸が複数の位置のそれぞれの1つに存在するという1つまたは複数の尤度を示す、
請求項93に記載の方法。
【請求項95】
前記データの前記複数の部分を同定する工程は、
1つまたは複数の前記アミノ酸の切断に対応する前記データ内の1つまたは複数の点を同定する工程と、
前記1つまたは複数のアミノ酸の前記切断に対応する前記同定された1つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、請求項93に記載の方法。
【請求項96】
前記データの前記複数の部分を同定する工程は、
前記データから、前記結合相互作用の少なくとも1つの特性に関する要約統計量の値を決定する工程と、
前記データの中で、前記少なくとも1つの特性の値が前記要約統計量の値から閾値量だけ逸脱している1つまたは複数の点を同定する工程と、
前記同定された1つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、請求項93に記載の方法。
【請求項97】
前記1つまたは複数の試薬とアミノ酸との結合相互作用の前記データは、1つまたは複数の発光標識による検出された発光から得られたデータを備えている、
請求項79に記載の方法。
【請求項98】
前記1つまたは複数の発光標識による検出された発光から得られた前記データは、発光寿命値を備えている、
請求項97に記載の方法。
【請求項99】
前記1つまたは複数の発光標識による検出された発光から得られた前記データは、発光強度値を備えている、
請求項97に記載の方法。
【請求項100】
前記1つまたは複数の発光標識による検出された発光から得られた前記データは、波長値を備えており、
各波長値は、結合相互作用中に放出される光の波長を示す、
請求項97に記載の方法。
【請求項101】
前記発光は一連の光パルスに反応し、
前記データは、少なくともいくつかの前記光パルスのそれぞれについて、前記光パルス後の時間期間の一部である複数の時間区間のそれぞれで検出された光子のそれぞれの数を備えている、
請求項97に記載の方法。
【請求項102】
前記機械学習モデルを学習する工程は、複数の列を有するデータ構造に前記データを配置することで、前記機械学習モデルへの入力として前記データを提供する工程を備えており、
第1列は、前記一連の光パルスのうちの第1光パルス後の第1時間期間の一部である第1および第2時間区間のそれぞれにおける光子のそれぞれの数を保持しており
第2列は、前記一連の光パルスのうちの第2光パルス後の第2時間期間の一部である第1および第2時間区間のそれぞれにおける光子のそれぞれの数を保持する、
請求項101に記載の方法。
【請求項103】
前記機械学習モデルを学習する工程は、複数の行を有するデータ構造に前記データを配置することで、前記機械学習モデルへの入力として前記データを提供する工程を備えており、
各行は、少なくともいくつかの光パルスに対応するそれぞれの時間区間における光子の数を保持する、
請求項101に記載の方法。
【請求項104】
前記機械学習モデルへの入力として前記データを提供する工程は、前記データを画像に配置する工程を備えており、
前記画像の第1画素は、前記少なくともいくつかのパルスの第1パルス後の第1時間期間の第1時間区間で検出された光子の第1数を指定する、
請求項101に記載の方法。
【請求項105】
前記画像の第2画素は、前記少なくともいくつかのパルスの前記第1パルス後の前記第1時間期間の第2時間区間で検出された光子の第2数を指定する、
請求項104に記載の方法。
【請求項106】
前記画像の第2画素は、前記少なくともいくつかのパルスの第2パルス後の第2時間期間の第1時間区間における光子の第2数を指定する、
請求項104に記載の方法。
【請求項107】
前記学習済み機械学習モデルへの入力として前記データを提供する工程は、画像内に前記データを配置する工程を備えており、
前記画像の各画素は、前記少なくともいくつかのパルスのうちのパルス後の時間期間のそれぞれの時間区間で検出された光子の数を指定する、
請求項101に記載の方法。
【請求項108】
前記1つまたは複数の発光標識は、前記1つまたは複数の試薬のうちの少なくとも1つに関連付けられている、
請求項97に記載の方法。
【請求項109】
前記発光標識は、前記アミノ酸のうちの少なくともいくつかに関連付けられている、
請求項97に記載の方法。
【請求項110】
前記学習データは、前記1つまたは複数の試薬と単一分子のアミノ酸との結合相互作用を表す、
請求項79に記載の方法。
【請求項111】
前記学習データは、前記1つまたは複数の試薬と複数分子のアミノ酸との結合相互作用を表す、
請求項79に記載の方法。
【請求項112】
前記1つまたは複数の試薬とアミノ酸との結合相互作用の前記データは、結合相互作用について検出されたシグナルパルスの少なくとも1つの特性の分布を記述する1つまたは複数のパラメータを備えている、
請求項79に記載の方法。
【請求項113】
前記1つまたは複数の試薬とアミノ酸との結合相互作用の前記データは、結合相互作用について検出されたシグナルパルスの少なくとも1つの特性から導出された1つまたは複数のパラメータを備えている、
請求項79に記載の方法。
【請求項114】
ポリペプチドのアミノ酸を同定するための機械学習モデルを学習するためのシステムであって、前記システムは、
少なくとも1つのプロセッサと、および
前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに方法を実行させる命令を格納した少なくとも1つの非一時的なコンピュータ可読記憶媒体とを備えており、前記方法は、
1つまたは複数の試薬とアミノ酸との結合相互作用について得られた学習データにアクセスする工程と、
前記ポリペプチドの前記アミノ酸を同定するための学習済み機械学習モデルを得るべく、前記学習データとしてのデータを用いて前記機械学習モデルを学習する工程と、
を備えている、システム。
【請求項115】
前記機械学習モデルは、混合モデルを備えている、
請求項114に記載のシステム。
【請求項116】
前記混合モデルは、ガウス混合モデル(GMM)を備えている、
請求項115に記載のシステム。
【請求項117】
前記機械学習モデルは、深層学習モデルを備えている、
請求項114に記載のシステム。
【請求項118】
前記深層学習モデルは、畳み込みニューラルネットワークを備えている、
請求項117に記載のシステム。
【請求項119】
前記深層学習モデルは、コネクショニスト時間分類(CTC)適合ニューラルネットワークを備えている、
請求項117に記載のシステム。
【請求項120】
前記学習データを用いて前記機械学習モデルを学習する工程は、前記学習データに教師付き学習アルゴリズムを適用する工程を備えている、
請求項114に記載のシステム。
【請求項121】
前記学習データを用いて前記機械学習モデルを学習する工程は、前記学習データに半教師付き学習アルゴリズムを適用する工程を備えている、
請求項114に記載のシステム。
【請求項122】
前記学習データを用いて前記機械学習モデルを学習する工程は、前記学習データに教師なし学習アルゴリズムを適用する工程を備えている、
請求項114に記載のシステム。
【請求項123】
前記機械学習モデルはクラスタリングモデルを備えており、
前記機械学習モデルを学習する工程は、前記クラスタリングモデルの複数のクラスタを同定する工程を備えており、
前記複数のクラスタの各々は、1つまたは複数のアミノ酸に関連付けられている、
請求項114に記載のシステム。
【請求項124】
前記1つまたは複数の試薬とアミノ酸との結合相互作用の前記データは、パルス持続時間値を備えており、
各パルス持続時間値は、結合相互作用について検出されたシグナルパルスの持続時間を示す、
請求項114に記載のシステム。
【請求項125】
前記1つまたは複数の試薬とアミノ酸との結合相互作用について得られた前記データは、パルス同士間持続時間値を備えており、
各パルス同士間持続時間値は、結合相互作用について検出された連続するシグナルパルス同士間の時間の持続時間を示す、
請求項114に記載のシステム。
【請求項126】
前記1つまたは複数の試薬とアミノ酸との結合相互作用について得られた前記データは、1つまたは複数のパルス持続時間値と、および1つまたは複数のパルス同士間持続時間値とを備えている、
請求項114に記載のシステム。
【請求項127】
前記命令は前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサにさらに、
前記ポリペプチド内の複数の位置のそれぞれについて、前記1つまたは複数のそれぞれのアミノ酸がその位置に存在するという1つまたは複数の尤度を出力するように、前記機械学習モデルを学習する工程を実行させる、
請求項114に記載のシステム。
【請求項128】
前記機械学習モデルを学習する工程は、
各部分が前記結合相互作用のうちのそれぞれの1つに対応するべく、前記データの複数の部分を同定する工程と、
前記データのそれぞれの1つの部分に対応する出力を得るべく、前記複数の部分のそれぞれの1つを前記機械学習モデルへの入力として提供する工程と、
前記複数の部分に対応する出力を用いて前記機械学習モデルを学習する工程と、
を備えている、請求項114に記載のシステム。
【請求項129】
前記データの部分に対応する前記出力は、前記1つまたは複数のそれぞれのアミノ酸が複数の位置のそれぞれの1つに存在するという1つまたは複数の尤度を示す、
請求項128に記載のシステム。
【請求項130】
前記データの前記複数の部分を同定する工程は、
1つまたは複数のアミノ酸の切断に対応する前記データ内の1つまたは複数の点を同定する工程と、
前記1つまたは複数のアミノ酸の前記切断に対応する前記同定された1つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、請求項128に記載のシステム。
【請求項131】
前記データの前記複数の部分を同定する工程は、
前記データから、前記結合相互作用の少なくとも1つの特性に関する要約統計量の値を決定する工程と、
前記データの中で、前記少なくとも1つの特性の値は、前記要約統計量の前記値から閾値量だけ逸脱している1つまたは複数の点を同定する工程と、
前記同定された1つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、請求項128に記載のシステム。
【請求項132】
前記1つまたは複数の試薬とアミノ酸との結合相互作用に関する前記データは、1つまたは複数の発光標識による検出された発光から得られたデータを備えている、
請求項114に記載のシステム。
【請求項133】
前記1つまたは複数の発光標識による検出された発光から得られた前記データは、発光寿命値を備えている、
請求項132に記載のシステム。
【請求項134】
前記1つまたは複数の発光標識による検出された発光から得られた前記データは、発光強度値を備えている、
請求項132に記載のシステム。
【請求項135】
前記1つまたは複数の発光標識による検出された発光から得られた前記データは、波長値を備えており、
各波長値は、結合相互作用中に放出される光の波長を示す、
請求項132に記載のシステム。
【請求項136】
前記発光は一連の光パルスに応答し、
前記データは、少なくともいくつかの前記光パルスのそれぞれについて、前記光パルス後の時間期間の一部である複数の時間区間のそれぞれで検出された光子のそれぞれの数を備えている、
請求項132に記載のシステム。
【請求項137】
前記機械学習モデルを学習する工程は、複数の列を有するデータ構造に前記データを配置することで、前記機械学習モデルへの入力として前記データを提供する工程を備えており、
第1列は、前記一連の光パルスのうちの第1光パルス後の第1時間期間の一部である第1および第2時間区間のそれぞれにおける光子のそれぞれの数を保持しており、
第2列は、前記一連の光パルスのうちの第2光パルス後の第2時間期間の一部である第1および第2時間区間のそれぞれにおける光子のそれぞれの数を保持する、
請求項136に記載のシステム。
【請求項138】
前記機械学習モデルを学習する工程は、複数の行を有するデータ構造に前記データを配置することで、前記機械学習モデルへの入力として前記データを提供する工程を備えており、
各行は、少なくともいくつかの光パルスに対応するそれぞれの時間区間における光子の数を保持する、
請求項136に記載のシステム。
【請求項139】
前記機械学習モデルへの入力として前記データを提供する工程は、前記データを画像に配置する工程を備えており、
前記画像の第1画素は、前記少なくともいくつかのパルスの第1パルス後の第1時間期間の第1時間区間で検出された光子の第1数を指定する、
請求項136に記載のシステム。
【請求項140】
前記画像の第2画素は、前記少なくともいくつかのパルスの前記第1パルス後の前記第1時間期間の第2時間区間で検出された光子の第2数を指定する、
請求項139に記載のシステム。
【請求項141】
前記画像の第2画素は、前記少なくともいくつかのパルスの第2パルス後の第2時間期間の第1時間区間における光子の第2数を指定する、
請求項139に記載のシステム。
【請求項142】
前記学習済み機械学習モデルへの入力として前記データを提供する工程は、画像内に前記データを配置する工程を備えており、
前記画像の各画素は、前記少なくともいくつかのパルスのうちのパルス後の時間期間のそれぞれの時間区間で検出された光子の数を指定する、
請求項139に記載のシステム。
【請求項143】
前記1つまたは複数の発光標識は、前記1つまたは複数の試薬のうちの少なくとも1つに関連付けられている、
請求項132に記載のシステム。
【請求項144】
前記発光標識は、少なくともいくつかの前記アミノ酸に関連付けられている、
請求項132に記載のシステム。
【請求項145】
前記学習データは、前記1つまたは複数の試薬と単一分子のアミノ酸との結合相互作用を表す、
請求項114に記載のシステム。
【請求項146】
前記学習データは、前記1つまたは複数の試薬と複数分子のアミノ酸との結合相互作用を表す、
請求項114に記載のシステム。
【請求項147】
前記1つまたは複数の試薬とアミノ酸との結合相互作用の前記データは、結合相互作用について検出されたシグナルパルスの少なくとも1つの特性の分布を記述する1つまたは複数のパラメータを備えている、
請求項114に記載のシステム。
【請求項148】
前記1つまたは複数の試薬とアミノ酸との結合相互作用の前記データは、結合相互作用について検出されたシグナルパルスの少なくとも1つの特性から導出された1つまたは複数のパラメータを備えている、
請求項114に記載のシステム。
【請求項149】
少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに方法を実行させる命令を記憶した少なくとも1つの非一時的なコンピュータ可読記憶媒体であって、前記方法は、
1つまたは複数の試薬とアミノ酸との結合相互作用について得られた学習データにアクセスする工程と、
ポリペプチドのアミノ酸を同定するための学習済み機械学習モデルを得るべく、前記学習データとしてのデータを用いて機械学習モデルを学習する工程と、
を備えている、少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項150】
前記機械学習モデルは、混合モデルを備えている、
請求項149に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項151】
前記混合モデルは、ガウス混合モデル(GMM)を備えている、
請求項150に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項152】
前記機械学習モデルは、深層学習モデルを備えている、
請求項149に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項153】
前記深層学習モデルは、畳み込みニューラルネットワークを備えている、
請求項152に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項154】
前記深層学習モデルは、コネクショニスト時間分類(CTC)適合ニューラルネットワークを備えている、
請求項152に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項155】
前記学習データを用いて前記機械学習モデルを学習する工程は、前記学習データに教師付き学習アルゴリズムを適用する工程を備えている、
請求項149に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項156】
前記学習データを用いて前記機械学習モデルを学習する工程は、前記学習データに半教師付き学習アルゴリズムを適用する工程を備えていること、
請求項149に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項157】
前記学習データを用いて前記機械学習モデルを学習する工程は、前記学習データに教師なし学習アルゴリズムを適用する工程を備えている、
請求項149に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項158】
前記機械学習モデルはクラスタリングモデルを備えており、
前記機械学習モデルを学習する工程は、前記クラスタリングモデルの複数のクラスタを同定する工程を備えており、
前記複数のクラスタの各々は1つまたは複数のアミノ酸に関連付けられている、
請求項149に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項159】
前記1つまたは複数の試薬とアミノ酸との結合相互作用の前記データは、パルス持続時間値を備えており、
各パルス持続時間値は、結合相互作用について検出されたシグナルパルスの持続時間を示す、
請求項149に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項160】
前記1つまたは複数の試薬とアミノ酸との結合相互作用について得られた前記データは、パルス同士間持続時間値を備えており、
各パルス同士間持続時間値は、結合相互作用について検出された連続するシグナルパルス同士間の時間の持続時間を示す、
請求項149に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項161】
前記1つまたは複数の試薬とアミノ酸との結合相互作用について得られた前記データは、1つまたは複数のパルス持続時間値と、および1つまたは複数のパルス同士間持続時間値とを備えている、
請求項149に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項162】
前記命令は、少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサにさらに、
前記ポリペプチド内の複数の位置のそれぞれについて、1つまたは複数のそれぞれのアミノ酸がその位置に存在するという1つまたは複数の尤度を出力するように、前記機械学習モデルを学習する工程を実行させる、
請求項149に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項163】
前記機械学習モデルを学習する工程は、
各部分が前記結合相互作用のそれぞれの1つに対応するように、前記データの複数の部分を同定する工程と、
前記データの各部分に対応する出力を得るべく、前記複数の部分のそれぞれ1つを前記機械学習モデルへの入力として提供する工程と、
前記複数の部分に対応する出力を用いて前記機械学習モデルを学習する工程と、
を備えている、
請求項149に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項164】
前記データの部分に対応する出力は、1つまたは複数のそれぞれのアミノ酸が複数の位置のそれぞれの1つに存在するという1つまたは複数の尤度を示す、
請求項163に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項165】
前記データの前記複数の部分を同定する工程は、
1つまたは複数の前記アミノ酸の切断に対応する前記データ内の1つまたは複数の点を同定する工程と、
前記1つまたは複数のアミノ酸の前記切断に対応する前記同定された1つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、
請求項163に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項166】
前記データの前記複数の部分を同定する工程は、
前記データから、前記結合相互作用の少なくとも1つの特性に関する要約統計量の値を決定する工程と、
前記データの中で、前記少なくとも1つの特性の値が前記要約統計量の前記値から閾値量だけ逸脱している1つまたは複数の点を同定する工程と、
前記同定された1つまたは複数の点に基づき、前記データの前記複数の部分を同定する工程と、
を備えている、
請求項163に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項167】
前記1つまたは複数の試薬とアミノ酸との結合相互作用に関する前記データは、1つまたは複数の発光標識による検出された発光から得られたデータを備えている、
請求項149に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項168】
前記1つまたは複数の発光標識による検出された発光から得られた前記データは、発光寿命値を備えている、
請求項167に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項169】
前記1つまたは複数の発光標識による検出された発光から得られた前記データは、発光強度値を備えている、
請求項167に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項170】
前記1つまたは複数の発光標識によって検出された発光から得られた前記データは、波長値を備えており、
各波長値は、結合相互作用中に放出される光の波長を示す、
請求項167に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項171】
前記発光は一連の光パルスに応答し、
前記データは、少なくともいくつかの前記光パルスのそれぞれについて、前記光パルス後の時間期間の一部である複数の時間区間のそれぞれにおいて検出された光子のそれぞれの数を備えている、
請求項167に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項172】
前記機械学習モデルを学習する工程は、複数の列を有するデータ構造に前記データを配置することで、前記機械学習モデルへの入力として前記データを提供する工程を備えており、
第1列は、前記一連の光パルスのうちの第1光パルス後の第1時間期間の一部である第1および第2時間区間のそれぞれにおける光子の数を保持し、かつ
第2列は、前記一連の光パルスのうちの第2光パルス後の第2時間期間の一部である第1および第2時間区間のそれぞれにおける光子のそれぞれの数を保持する、
請求項171に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項173】
前記機械学習モデルを学習する工程は、前記データを、複数の行を有するデータ構造に配置することで前記機械学習モデルへの入力として提供する工程を備えており、
各行は、少なくともいくつかの光パルスに対応するそれぞれの時間区間における光子の数を保持する、
請求項171に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項174】
前記機械学習モデルへの入力として前記データを提供する工程は、前記データを画像に配置する工程を備えており、
前記画像の第1画素は、前記少なくともいくつかのパルスの第1パルス後の第1時間期間の第1時間区間で検出された光子の第1数を指定する、
請求項171に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項175】
前記画像の第2画素は、前記少なくともいくつかのパルスの前記第1パルス後の第1時間期間の第2時間区間で検出された光子の第2数を指定する、
請求項174に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項176】
前記画像の第2画素は、前記少なくともいくつかのパルスの第2パルス後の第2時間期間の第1時間区間における光子の第2数を指定する、
請求項174に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項177】
前記学習済み機械学習モデルへの入力として前記データを提供する工程は、画像内に前記データを配置する工程を備えており、
前記画像の各画素は、前記少なくともいくつかのパルスのうちのパルス後の時間期間のそれぞれの時間区間で検出された光子の数を指定する、
請求項171に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項178】
前記1つまたは複数の発光標識は、前記1つまたは複数の試薬のうちの少なくとも1つに関連付けられている、
請求項167に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項179】
発光標識は、前記アミノ酸の少なくともいくつかに関連付けられている、
請求項149に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項180】
前記学習データは、前記1つまたは複数の試薬と単一分子のアミノ酸との結合相互作用を表す、
請求項149に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項181】
前記学習データは、前記1つまたは複数の試薬と複数分子のアミノ酸との結合相互作用を表す、
請求項149に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項182】
前記1つまたは複数の試薬とアミノ酸との結合相互作用の前記データは、結合相互作用について検出されたシグナルパルスの少なくとも1つの特性の分布を記述する1つまたは複数のパラメータを備えている、
請求項149に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【請求項183】
前記1つまたは複数の試薬とアミノ酸との結合相互作用の前記データは、結合相互作用について検出されたシグナルパルスの少なくとも1つの特性から導出される1つまたは複数のパラメータを備えている、
請求項149に記載の少なくとも1つの非一時的なコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に、タンパク質の同定(identification)に関する。
【背景技術】
【0002】
プロテオミクスは、生物学的システムの研究において、ゲノミクスおよびトランスクリプトミクスを補完する重要かつ必要なものとして浮上している。個々の生物のプロテオミクス分析は、細胞処理および応答パターンへの洞察を提供し、それは改善された診断および治療戦略につながる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】米国特許出願公開第2017/276686号明細書
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、タンパク質の構造、組成、および修飾は複雑であるので、タンパク質の同定には課題がある。
【課題を解決するための手段】
【0005】
本明細書には、タンパク質配列決定(protein sequencing。シークエンシング)装置によって収集されたデータを使用してタンパク質を同定するためのシステムおよび技術が記載されている。タンパク質配列決定装置は、タンパク質のアミノ酸との試薬の結合相互作用に関するデータを収集してもよい。例えば、データは、発光標識(luminescent label。発光ラベル)への励起エネルギーの適用から生じる発光から検出されたデータを備えてもよい。装置は、ポリペプチドの同定に使用できる出力を得るべく、学習済み機械学習モデルへの入力としてデータを提供してもよい。出力は、ポリペプチド内の複数の位置(location。場所)のそれぞれについて、その位置に1つまたは複数のそれぞれのアミノ酸が存在するという1つまたは複数の尤度(likelihood。可能性)を示してもよい。出力は、タンパク質を同定するアミノ酸配列に照合(matched)されてもよい。
【0006】
いくつかの側面によれば、ポリペプチドを同定するための方法が提供され、この方法は、少なくとも1つのコンピュータハードウェアプロセッサを使用して、1つまたは複数の試薬とポリペプチドのアミノ酸との結合相互作用に関するデータにアクセスする工程と、データを学習済み機械学習モデルへの入力として提供して、ポリペプチド内の複数の位置のそれぞれについて、1つまたは複数のそれぞれのアミノ酸がその位置に存在するという1つまたは複数の尤度を示す出力を得る工程と、学習済み機械学習モデルから得られた出力に基づきポリペプチドを同定する工程とを備えている。
【0007】
いくつかの態様によれば、ポリペプチドを同定するためのシステムが提供され、このシステムは、少なくとも1つのプロセッサと、少なくとも1つのプロセッサによって実行されたときに、1つまたは複数の試薬とポリペプチドのアミノ酸との結合相互作用に関するデータにアクセスする工程を備えている方法を、少なくとも1つのプロセッサに実行させる命令を記憶した少なくとも1つの非一時的なコンピュータ可読(読取可能な)記憶媒体とを備える。学習済み機械学習モデルへの入力としてデータを提供して、ポリペプチド内の複数の位置のそれぞれについて、1つまたは複数のそれぞれのアミノ酸がその位置に存在するという1つまたは複数の尤度を示す出力を得る工程と、学習済み機械学習モデルから得られた出力に基づきポリペプチドを同定する工程とを備えている。
【0008】
いくつかの側面によれば、少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに方法を実行させる命令を格納した少なくとも1つの非一時的なコンピュータ可読記憶媒体が提供され、この方法は、1つまたは複数の試薬とポリペプチドのアミノ酸との結合相互作用に関するデータにアクセスする工程を備えている。学習済み機械学習モデルへの入力としてデータを提供して、ポリペプチド内の複数の位置のそれぞれについて、1つまたは複数のそれぞれのアミノ酸がその位置に存在するという1つまたは複数の尤度を示す出力を得る工程と、学習済み機械学習モデルから得られた出力に基づきポリペプチドを同定する工程と、を備えている。
【0009】
いくつかの側面によれば、ポリペプチドのアミノ酸を同定するための機械学習モデルを学習する方法が提供され、この方法は、少なくとも1つのコンピュータハードウェアプロセッサを使用して、1つまたは複数の試薬とアミノ酸との結合相互作用について得られた学習データにアクセスすることを実行する工程と、学習データを使用して機械学習モデルを学習して、ポリペプチドのアミノ酸を同定するための学習済み機械学習モデルを得る工程とを備えている。
【0010】
いくつかの態様によれば、ポリペプチドのアミノ酸を同定するための機械学習モデルを学習するためのシステムが提供され、このシステムは、少なくとも1つのプロセッサと、少なくとも1つのプロセッサによって実行されたときに、1つまたは複数の試薬とアミノ酸との結合相互作用について得られた学習データにアクセスする工程と、学習データを使用して機械学習モデルを学習してポリペプチドのアミノ酸を同定するための学習済み機械学習モデルを得る工程とを、少なくとも1つのプロセッサに実行させる命令を記憶した少なくとも1つの非一時的なコンピュータ可読記憶媒体とを備える。
【0011】
いくつかの態様によれば、少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに、1つまたは複数の試薬とアミノ酸との結合相互作用について得られた学習データにアクセスする工程と、学習データを用いて機械学習モデルを学習して、ポリペプチドのアミノ酸を同定するための学習済み機械学習モデルを得る工程とを実行させる命令を格納した少なくとも1つの非一時的なコンピュータ可読記憶媒体が提供される。
【0012】
上述の装置および方法の実施形態は、上述または以下にさらに詳細に記載された側面、特徴、および行為の任意の適切な組み合わせで実施することができる。本教示のこれらおよび他の側面、実施形態、および特徴は、添付の図面と併せて以下の説明からより完全に理解することができる。
【0013】
本願発明の様々な側面および実施形態について、以下の図を参照して説明する。図は、必ずしも縮尺通りに描かれていないことを理解されたい。複数の図に登場する項目は、それらが登場するすべての図において同じ参照番号で示される。わかりやすくするべく、すべての構成要素がすべての図面にラベル付けされているわけではない。
【図面の簡単な説明】
【0014】
【
図1A】本明細書に記載の技術のいくつかの実施形態に従って、1種類(タイプ)以上のアミノ酸に選択的結合(selectively bind)する標識酵素および標識アプタマーを備えている、標識アフィニティ試薬(labeled affinity reagent。標識された親和性試薬)の構成例を示す。
【
図1B】本明細書に記載の技術のいくつかの実施形態に従った、標識アフィニティ試薬を用いたポリペプチド配列決定の分解ベースの処理を示す。
【
図1C】本明細書に記載の技術のいくつかの実施形態に従った、標識ポリペプチドを用いたポリペプチド配列決定の処理を示す図。
【
図2A】本明細書に記載の技術のいくつかの実施形態に従って、発光標識で標識アフィニティ試薬同士間の会合(association)イベントからの発光によって生成される一連のシグナルパルスを検出することによるポリペプチド配列決定を示す図。
【
図2B】本明細書に記載の技術のいくつかの実施形態に従って、発光標識で標識アフィニティ試薬同士間の会合イベントからの発光によって生成される一連のシグナルパルスを検出することによるポリペプチド配列決定を示す図。
【
図2C】本明細書に記載の技術のいくつかの実施形態に従った、反復的な末端アミノ酸検出および切断(cleavage。開裂)によるポリペプチド配列決定の例を示す図。
【
図2D】本明細書に記載の技術のいくつかの実施形態に従って、それぞれが異なるタイプの末端アミノ酸に選択的結合して切断する標識エキソペプチダーゼを用いて、リアルタイムでポリペプチド配列決定を行う例を示す。
【
図3】本明細書に記載の技術のいくつかの実施形態に従って、標識アフィニティ試薬および標識非特異的なエキソペプチダーゼとの末端アミノ酸の結合相互作用を評価することで、リアルタイムでポリペプチド配列を決定する例を示す。
【
図4】本明細書に記載された技術のいくつかの実施形態に従って、末端および内部アミノ酸と、標識アフィニティ試薬および標識非特異的エキソペプチダーゼとの結合相互作用を評価することで、リアルタイムでポリペプチド配列を決定する例を示す図。
【
図5A】本明細書に記載された技術のいくつかの実施形態に従って、本明細書に記載された技術の側面が実装され得る例示的なシステムを示す。
【
図5B】本明細書に記載の技術のいくつかの実施形態に従って、
図5Aに示すタンパク質配列決定装置502の構成要素を示す。
【
図5C】本明細書に記載の技術のいくつかの実施形態に従って、
図5Aに示すタンパク質配列決定装置502の構成要素を示す。
【
図6A】本明細書に記載の技術のいくつかの実施形態に従って、アミノ酸を同定するための機械学習モデルを学習するための例示的な処理。
【
図6B】本明細書に記載の技術のいくつかの実施形態に従って、ポリペプチドを同定するべく
図6Aの処理から得られた機械学習モデルを使用するための例示的な処理。
【
図7】本明細書に記載された技術のいくつかの実施形態に従って、機械学習モデルに入力を提供するための例示的な処理。
【
図8】本明細書に記載の技術のいくつかの実施形態に従って、ポリペプチドを同定する際に使用するための機械学習モデルから得られる出力の例である。
【
図9A】本明細書に記載の技術のいくつかの実施形態に従って、アミノ酸との試薬の結合相互作用から得られる可能性のある例示的なデータである。
【
図9B】本明細書に記載の技術のいくつかの実施形態に従って、
図9Aのデータを配置するための例示的なデータ構造を示す図。
【
図10A】本明細書に記載の技術のいくつかの実施形態に従って、機械学習モデルのクラスタを同定するためのクラスタ化されたデータ点のプロットを示す。
【
図10B】本明細書に記載の技術のいくつかの実施形態に従って、
図10Aのクラスタ化されたデータ点から同定されたクラスタのプロットを示す。
【
図10C】本明細書に記載されている技術のいくつかの実施形態に従って、
図10Aのクラスタのそれぞれに対する例示的なガウス混合モデル(GMM)のプロットを示している。
【
図11】本明細書に記載された技術のいくつかの実施形態に従って、アミノ酸を同定するための例示的な畳み込みニューラルネットワーク(CNN)の構造である。
【
図12】本明細書に記載の技術のいくつかの実施形態に従った、アミノ酸を同定するための例示的なコネクショニスト時間分類(CTC)適合モデルのブロック図。
【
図13】本明細書に記載の技術のいくつかの実施形態を実施するべく使用することができる例示的なコンピューティング装置のブロック図。
【
図14A】本明細書に記載の技術のいくつかの実施形態に従って、シグナルトレースのウェーブレット係数を計算することで関心領域(ROI)を同定するための例示的なアプローチを示す図。
【
図14B】本明細書に記載の技術のいくつかの実施形態に従って、シグナルトレースのウェーブレット係数を計算することで関心領域(ROI)を同定するための例示的なアプローチを示す図。
【
図14C】本明細書に記載の技術のいくつかの実施形態に従って、シグナルトレースのウェーブレット係数を計算することで関心領域(ROI)を同定するための例示的なアプローチを示す図。
【
図15】本明細書に記載の技術のいくつかの実施形態に従って、上述のウェーブレットアプローチを使用して関心領域ROIを同定する方法のフローチャート。
【
図16A】本明細書に記載の技術のいくつかの実施形態に従って、既知のアフィニティ試薬から生成されたデータを、パラメータ化された分布にフィッティング(適合)させるための例示的なアプローチを示す図。
【
図16B】本明細書に記載の技術のいくつかの実施形態に従って、既知のアフィニティ試薬から生成されたデータを、パラメータ化された分布にフィッティングさせるための例示的なアプローチを示す図。
【
図17A-B】本明細書に記載された技術のいくつかの実施形態に従って、パルス持続時間値を3つの指数関数の和にフィッティングさせるアプローチを示しており、フィッティングされた各分布は共通の指数関数を備えている。
【
図18】本明細書に記載の技術のいくつかの実施形態に従って、サンプルウェルからの発光を測定することで得られるデータを表す多数のシグナルトレースを描いている。
【
図19A】本明細書に記載の技術のいくつかの実施形態に従った、3つのアミノ酸についてのシグナルトレースに基づきガウス混合モデルGMMベースの機械学習モデルを学習する処理を示す図。
【
図19B】本明細書に記載の技術のいくつかの実施形態に従った、3つのアミノ酸についてのシグナルトレースに基づきガウス混合モデルGMMベースの機械学習モデルを学習する処理を示す図。
【
図19C】本明細書に記載の技術のいくつかの実施形態に従った、3つのアミノ酸についてのシグナルトレースに基づきガウス混合モデルGMMベースの機械学習モデルを学習する処理を示す図。
【
図19D】本明細書に記載の技術のいくつかの実施形態に従った、3つのアミノ酸についてのシグナルトレースに基づきガウス混合モデルGMMベースの機械学習モデルを学習する処理を示す図。
【
図19E】本明細書に記載の技術のいくつかの実施形態に従った、3つのアミノ酸についてのシグナルトレースに基づきガウス混合モデルGMMベースの機械学習モデルを学習する処理を示す図。
【
図20A】本明細書に記載の技術のいくつかの実施形態に従った、アミノ酸を同定するための2段階のアプローチを描いている。
【
図20B】本明細書に記載の技術のいくつかの実施形態に従った、アミノ酸を同定するための2段階のアプローチを描いている。
【
図20C】本明細書に記載の技術のいくつかの実施形態に従った、アミノ酸を同定するための2段階のアプローチを描いている。
【
図20D】本明細書に記載の技術のいくつかの実施形態に従った、アミノ酸を同定するための2段階のアプローチを描いている。
【発明を実施するための形態】
【0015】
本発明者らは、機械学習技術を用いてタンパク質を同定するタンパク質同定システムを開発した。いくつかの実施形態では、タンパク質同定システムは以下によって動作する。(1)リアルタイムタンパク質配列決定装置を使用して、タンパク質のポリペプチドに関するデータを収集し、(2)機械学習モデルおよび収集されたデータを使用して、特定のアミノ酸がそれぞれの位置でポリペプチドの一部である確率を同定し、(3)同定された確率を、「確率的指紋」(フィンガープリント)として使用して、タンパク質を同定する。いくつかの実施形態では、アミノ酸に選択的結合する試薬を用いて、タンパク質のポリペプチドに関するデータを得ることができる。一例として、試薬および/またはアミノ酸は、励起エネルギーの印加に応答して発光する発光標識(例えば、発光分子)で標識されていてもよい。この例では、タンパク質配列決定装置は、サンプル中のアミノ酸との試薬の結合相互作用中、タンパク質(例えば、ポリペプチド)のサンプルに励起エネルギーを印加してもよい。いくつかの実施形態では、配列決定装置内の1つまたは複数のセンサ(例えば、光検出器、電気センサ、および/または任意の他の適切なタイプのセンサ)が、結合相互作用を検出してもよい。次いで、検出された発光から収集および/または導出されたデータが、機械学習モデルに提供されてもよい。
【0016】
本発明者らは、従来のタンパク質同定システムの中には、ポリペプチドを同定するべく、ポリペプチド中の各アミノ酸の同定を必要とするものがあることを認識した。しかし、ポリペプチド内の各アミノ酸を正確に同定することは困難である。例えば、第1標識試薬が第1アミノ酸に選択的結合する相互作用から収集されたデータは、第2標識試薬が第2アミノ酸に選択的結合する相互作用から収集されたデータとは、2つのアミノ酸を区別するのに十分な違いがない場合がある。本発明者らは、従来のタンパク質同定システムとは異なり、タンパク質中の各アミノ酸の同定を必要としない(妨げるものではない)タンパク質同定システムを開発することで、この問題を解決した。
【0017】
本明細書で言及されるように、ポリペプチドは、タンパク質のポリペプチド、タンパク質の改変版、変異タンパク質、融合タンパク質、またはその断片を含み得る。いくつかの実施形態は、特定のタイプのタンパク質に限定されない。ポリペプチドは、1つまたは複数のペプチド(「ペプチド断片」とも呼ばれる)を備えていてもよい。
【0018】
本明細書に記載されているいくつかの実施形態は、本発明者らが従来のタンパク質同定システムについて認識していた上述の問題点のすべてに対処する。しかし、本明細書に記載されたすべての実施形態が、これらの問題のすべてに対処するわけではないことを理解すべきである。また、本明細書に記載の技術の実施形態は、従来のタンパク質同定システムの上述の問題に対処する以外の目的で使用することができることを理解すべきである。
【0019】
いくつかの実施形態では、タンパク質同定システムは、1つまたは複数の試薬とポリペプチドのアミノ酸との結合相互作用(例えば、検出された発光、電気シグナル、および/または任意の他のタイプのシグナル)のデータに(例えば、配列決定装置のセンサ部によって)アクセスしてもよい。タンパク質同定システムは、アクセスされたデータを(前処理ありまたは前処理なしで)機械学習モデルへの入力として提供し、それぞれの出力を得てもよい。出力は、ポリペプチド内の複数の位置のそれぞれについて、1つまたは複数のそれぞれのアミノ酸がその位置に存在するという1つまたは複数の尤度を示してもよい。いくつかの実施形態では、1つまたは複数のそれぞれのアミノ酸がその位置に存在するという1つまたは複数の尤度は、第1アミノ酸がその位置に存在するという第1尤度、および第2アミノ酸がその位置に存在するという第2尤度を備えている。複数の位置は、ポリペプチド内の相対的位置(例えば、他の出力との相対的位置)および/またはポリペプチド内の絶対的な位置を備えてもよい。出力は、例えば、複数の位置のそれぞれについて、その位置に異なる種類(タイプ)のアミノ酸が存在するという確率を同定してもよい。タンパク質同定システムは、機械学習モデルの出力を使用して、ポリペプチドを同定してもよい。
【0020】
いくつかの実施形態では、タンパク質同定システムは、ポリペプチドが対応するタンパク質を同定することで、ポリペプチドを同定するように構成されてもよい。例えば、タンパク質同定システムは、ポリペプチドを、予め決定されたタンパク質のセット(例えば、既知のタンパク質のデータベースを保存したもの)からのタンパク質に照合(マッチング)してもよい。いくつかの実施形態では、タンパク質同定システムは、得られた出力を、それぞれのタンパク質に関連する複数のアミノ酸配列のうちの1つに照合することで、ポリペプチドが対応するタンパク質を同定するように構成されてもよい。一例として、タンパク質同定システムは、UniProtデータベースおよび/またはHuman Proteome Project(HPP)データベースに格納されているアミノ酸配列に出力を照合してもよい。いくつかの実施形態では、タンパク質同定システムは、(1)機械学習モデルから得られた出力に基づき隠れマルコフモデル(HMM)を生成し、(2)隠れマルコフモデルHMMをアミノ酸配列に照合することで、出力をアミノ酸配列に照合するように構成されてもよい。一例として、タンパク質同定システムは、UniProtデータベースから、隠れマルコフモデルHMMが最も密接に一致するアミノ酸配列を、一致するアミノ酸配列として同定(特定)してもよい。一致したアミノ酸配列は、ポリペプチドが部分を形成するタンパク質を同定してもよい。いくつかの実施形態では、タンパク質同定システムは、機械学習モデルから得られた出力に基づき、得られた出力をデータベース内の複数のアミノ酸配列に照合することで、ポリペプチドを同定するように構成されてもよい。例えば、タンパク質同定システムは、機械学習モデルから得られた出力が、データベース内の第1アミノ酸配列および第2アミノ酸配列に一致すると判定してもよい。いくつかの実施形態では、タンパク質同定システムは、ポリペプチドがデータベース内のそれぞれの1つまたは複数のアミノ酸配列に整列する尤度を同定することで、学習済み機械学習モデルから得られた出力に基づきポリペプチドを同定するように構成されてもよい。例えば、タンパク質同定システムは、ポリペプチドが第1アミノ酸配列に整列する確率が50%であり、ポリペプチドが第2アミノ酸配列に整列する確率が50%であると判定してもよい。
【0021】
いくつかの実施形態では、タンパク質同定システムは、ポリペプチドが一部である可能性がある1つまたは複数のタンパク質を排除することで、学習済み機械学習モデルから得られた出力に基づきポリペプチドを同定するように構成されてもよい。タンパク質同定システムは、機械学習モデルから得られた出力を用いて、ポリペプチドが1つまたは複数のタンパク質の一部であることはあり得ないと判定し、その結果、候補タンパク質のセットからタンパク質(複数可)を排除するように構成されてもよい。例えば、タンパク質同定システムは、以下のようにしてもよい。(1)機械学習モデルから得られた出力を使用して、ポリペプチドが1つまたは複数のアミノ酸のセットを備えていることを決定し、(2)データベース(例えば、Uniprotおよび/またはHPP)から、アミノ酸のセットを含まないアミノ酸配列を排除する、ことができる。
【0022】
いくつかの実施形態では、タンパク質同定システムは、ポリペプチドの1つまたは複数の部分(例えば、ペプチド)の配列を得るべく、配列決定デノボ(de novo)によってポリペプチドを同定するように構成されてもよい。タンパク質同定システムは、機械学習モデルの出力を使用して、ポリペプチドのペプチド配列を得るように構成されてもよい。いくつかの実施形態では、タンパク質同定システムは、機械学習モデルから得られた出力に基づき、ポリペプチドのアミノ酸配列の一部または全部を決定することで、ポリペプチドを同定するように構成されてもよい。いくつかの例では、タンパク質同定システムは、決定された配列の1つまたは複数の位置でアミノ酸を同定しないことがある。例えば、タンパク質同定システムは、アミノ酸配列中の1つまたは複数の位置のアミノ酸が同定されないポリペプチドのアミノ酸配列の一部または全部を決定してもよい。いくつかの実施形態では、タンパク質同定システムは、アミノ酸配列の各位置またはその一部のアミノ酸を同定してもよい。いくつかの実施形態では、タンパク質同定システムは、ポリペプチドのアミノ酸配列の複数の部分を決定することで、機械学習モデルから得られた出力に基づきポリペプチドを同定するように構成されてもよい。いくつかの実施形態では、タンパク質同定システムは、ポリペプチドのアミノ酸配列の非連続部分を決定してもよい。例えば、タンパク質同定システムは、アミノ酸配列の第1部分と、第1部分がアミノ酸配列中の少なくとも1つのアミノ酸によって第2部分から分離されている、アミノ酸配列の第2部分とを決定してもよい。いくつかの例では、タンパク質同定システムは、ポリペプチドのアミノ酸配列の連続した部分を決定してもよい。例えば、タンパク質同定システムは、アミノ酸配列の第1部分と、第1部分と第2部分が連続しているアミノ酸配列の第2部分とを決定してもよい。いくつかの例では、タンパク質同定システムは、ポリペプチドのアミノ酸配列の連続した部分と連続していない部分の両方を決定してもよい。例えば、タンパク質同定システムは、以下のようなアミノ酸配列の3つの部分を決定してもよい。(1)第1および第2部分が連続した部分であり、(2)第3部分が第1および第2部分からアミノ酸配列中の少なくとも1つのアミノ酸によって分離されている。
【0023】
いくつかの実施形態では、タンパク質同定システムは、ポリペプチドに発生するアミノ酸配列の自然なパターンを同定することで、ペプチドの配列を得るように構成されてもよい。例えば、タンパク質同定システムは、同定されたアミノ酸配列が、(例えば、データベース内の)アミノ酸配列の自然なパターンに適合することを決定するように構成されてもよい。いくつかの実施形態では、タンパク質同定システムは、アミノ酸の学習済みパターンを同定することで、ペプチドの配列を得るように構成されてもよい。例えば、タンパク質同定システムは、1つまたは複数のタンパク質データベース(例えば、Uniprotデータベースおよび/またはHPPデータベース)からアミノ酸のパターンを学習してもよい。また、タンパク質同定システムは、どのペプチドのアミノ酸配列パターンが発生しやすいかを学習し、その情報を用いてペプチドの配列を取得するように構成されていてもよい。
【0024】
いくつかの実施形態では、機械学習モデルは、ポリペプチド内の複数の位置のそれぞれについて、複数のアミノ酸のそれぞれについて、そのアミノ酸がその位置に存在するという確率を示す確率分布を出力するように構成されてもよい。一例として、機械学習モデルは、ポリペプチド内の15個の位置のそれぞれについて、20種類のアミノ酸のそれぞれがポリペプチド内の位置に存在するという確率を出力してもよい。いくつかの実施形態では、機械学習モデルが出力を生成するように構成されているポリペプチド内の位置は、ポリペプチドのアミノ酸配列における実際の位置に必ずしも対応していなくてもよい。一例として、機械学習モデルが出力を生成する第1位置は、ポリペプチドのアミノ酸配列における第2位置に対応してもよく、機械学習モデルが出力を生成する第2位置は、ポリペプチドのアミノ酸配列における第5アミノ酸の位置に対応してもよい。
【0025】
いくつかの実施形態では、試薬(複数可)とポリペプチドのアミノ酸との結合相互作用を記述するデータは、複数の光強度値(例えば、経時的に測定された値)を備えてもよい。そのような経時的に測定された光強度値を示すデータは、本明細書では「シグナルトレース」と呼ばれ、シグナルトレースの例示的な例は、以下でさらに説明される。場合によっては、試薬とポリペプチドのアミノ酸との結合相互作用を記述するデータは、1つまたは複数の光パルス持続時間、パルス幅、パルス強度、パルス同士間(インターパルス)持続時間、またはそれらの組み合わせなど、シグナルトレースの特性を記述する値を備えてもよい。例えば、パルス持続時間値は、試薬とアミノ酸との結合相互作用について検出されたシグナルパルスの持続時間を示すことができ、一方、パルス同士間持続時間値は、結合相互作用について検出された連続するシグナルパルス同士間の時間の持続時間を示すことができる。
【0026】
いくつかの実施形態では、タンパク質同定システムは、以下のように1つまたは複数のタンパク質および/またはポリペプチドを同定するように構成されてもよい。最初に、試薬(複数可)とタンパク質/ポリペプチドのアミノ酸との結合相互作用を記述するデータを、以下のようにして、学習済み機械学習モデルに入力してもよい。(1)データの複数の部分を同定し、各部分は結合相互作用のそれぞれの1つに対応し、(2)複数の部分のそれぞれを学習済み機械学習モデルへの入力として提供し、その部分に対応する出力を得る。データの各部分に対応する機械学習モデルによって生成される出力は、1つまたは複数のそれぞれのアミノ酸がポリペプチドのそれぞれの位置に存在するという1つまたは複数の尤度を示してもよい。出力は、場合によっては、データの単一の部分に基づき、ポリペプチド内の単一の位置に対する尤度を示すことがある。他のケースでは、出力は、データの単一の部分がポリペプチド内の2つ以上の位置に関連付けられていることを示す場合がある。これは、その部分によって表される連続した同一のアミノ酸が存在するため(例えば、ホモポリマー)、または、その部分によって表される複数の区別できないアミノ酸が存在するという可能性があるためである。後者の場合、出力は、ポリペプチド内の2つ以上の位置に存在するアミノ酸の特定の数および/または同一性の確率的な不確実性から構成されていてもよい。
【0027】
いくつかの実施形態では、タンパク質同定システムは、以下のように、それぞれが結合相互作用の1つに対応するデータの複数の部分を同定するように構成されてもよい。(1)(例えば、ポリペプチドからの)1つまたは複数のアミノ酸の切断(cleavage。開裂)に対応するデータ内の1つまたは複数の点を同定する工程と、(2)1つまたは複数のアミノ酸の切断に対応する同定された1つまたは複数の点(point)に基づき、データの複数の部分を同定する工程と、を備えている。いくつかの実施形態では、タンパク質同定システムは、以下の方法で、データの複数の部分を同定するように構成されてもよい。(1)データから、発光標識による結合相互作用の1つまたは複数の特性(例えば、パルス持続時間、パルス同士間持続時間、発光強度、および/または発光寿命)に関する要約統計量(summary statistic)の値を決定する工程と、(2)少なくとも1つの特性の値が要約統計量の値(例えば、平均値)から閾値量(threshold amount)だけ逸脱するデータ内の1つまたは複数の点を同定する工程と、同定された1つまたは複数の点に基づきデータの複数の部分を同定する工程とを備えている。
【0028】
いくつかの実施形態では、試薬(複数可)とポリペプチドのアミノ酸との結合相互作用に関するデータは、1つまたは複数の発光標識(例えば、結合相互作用に起因する)による検出された発光を備えてもよい。いくつかの実施形態では、発光標識は、試薬に関連付けられてもよい。一例として、発光標識(複数可)は、試薬(複数可)に連結された分子であってもよい。いくつかの実施形態では、発光標識は、ポリペプチドの少なくともいくつかのアミノ酸に関連付けられてもよい。一例として、発光標識(複数可)は、1つまたは複数のクラスのアミノ酸に連結された分子であってもよい。
【0029】
いくつかの実施形態では、結合相互作用のデータは、相互作用中に生成されてもよい。例えば、配列決定装置センサは、結合相互作用が発生したときにそれを検出し、検出された相互作用からデータを生成してもよい。いくつかの実施形態では、結合相互作用のデータは、相互作用の前および/または後に生成されてもよい。例えば、配列(シーケンス)装置センサは、結合相互作用が発生する前および/または後に情報を収集し、収集した情報を用いてデータを生成してもよい。いくつかの実施形態では、結合相互作用のデータは、結合相互作用の前、中、および後に生成されてもよい。
【0030】
いくつかの実施形態では、結合相互作用のデータは、発光標識(単数または複数)による発光の発光強度値および/または発光寿命値を備えてもよい。いくつかの実施形態では、データは、発光標識(複数可)による発光の波長値を備えてもよい。いくつかの実施形態では、データは、1つまたは複数の発光パルス持続時間値、1つまたは複数の発光パルス同士間持続時間値、1つまたは複数の発光寿命値、1つまたは複数の発光輝度値、および/または1つまたは複数の発光波長値を備えてもよい。
【0031】
いくつかの実施形態では、発光標識は、例えば一連の励起光パルスを備えている励起光に応答して発光することができる。一例として、レーザエミッターは、発光標識を発光させるレーザ光を適用してもよい。発光標識の発光から収集されたデータは、複数の励起光パルスのそれぞれについて、励起光パルス後の時間期間(タイムピリオド)の一部である複数の時間区間(タイムインターバル、時間間隔)のそれぞれで検出された光子の数を備えてもよい。発光から収集されたデータは、上述したように、シグナルトレースを形成してもよい。
【0032】
いくつかの実施形態では、タンパク質同定システムは、機械学習モデルへの入力としてデータを提供するべく、データをデータ構造に配列するように構成されてもよい。いくつかの実施形態では、データ構造は以下を備えてもよい。(1)一連の光パルスにおける第1光パルス後の第1時間期間の一部である第1および第2時間区間のそれぞれにおける光子のそれぞれの数を保持する第1列、および(2)一連の光パルスにおける第2光パルス後の第2時間期間の一部である第1および第2時間区間のそれぞれにおける光子のそれぞれの数を保持する第2列。いくつかの実施形態では、データ構造は、行のそれぞれが、光パルスに対応するそれぞれの時間区間における光子の数を保持する行を備えてもよい。いくつかの実施形態では、行と列を入れ替えてもよい。一例として、いくつかの実施形態では、データ構造は以下を備えてもよい。(1)一連の光パルスにおける第1光パルス後の第1時間期間の一部である第1および第2時間区間のそれぞれにおける光子のそれぞれの数を保持する第1列、および(2)一連の光パルスにおける第2光パルス後の第2時間期間の一部である第1および第2時間区間のそれぞれにおける光子のそれぞれの数を保持する第2列。この例では、データ構造は、列のそれぞれが、光パルスに対応するそれぞれの時間区間における光子の数を保持する列を備えてもよい。
【0033】
いくつかの実施形態では、タンパク質同定システムは、試薬(複数)とポリペプチドのアミノ酸との結合相互作用のデータを、データを画像に配置することで、学習済み機械学習モデルに入力するように構成されてもよく、画像の各画素は、複数の光パルスのうちの光パルス後の時間期間のそれぞれの時間区間で検出された光子の数を指定する。いくつかの実施形態では、タンパク質同定システムは、画像内にデータを配置することで、学習済み機械学習モデルへの入力としてデータを提供するように構成されてもよく、画像の第1画素は、複数のパルスの第1パルス後の第1時間期間の第1時間区間で検出された光子の第1数を指定する。いくつかの実施形態では、画像の第2画素は、複数のパルスの第1パルス後の第1時間期間の第2時間区間で検出された光子の第2数を指定する。いくつかの実施形態では、画像の第2画素は、複数のパルスの第2パルス後の第2時間期間の第1時間区間における光子の第2数を指定する。
【0034】
いくつかの実施形態では、試薬(複数可)とポリペプチドのアミノ酸との結合相互作用のデータは、電気センサ(例えば、電流計、電圧センサなど)によって検出された電気シグナルを備えてもよい。一例として、タンパク質配列決定装置は、試薬(複数可)とポリペプチドのアミノ酸との結合相互作用に起因する電気シグナルを検出する1つまたは複数の電気センサを備えてもよい。タンパク質同定システムは、結合相互作用について検出された電気パルスの持続時間であるパルス持続時間値を決定し、結合相互作用について検出された連続する電気パルス同士間の持続時間であるパルス同士間持続時間値を決定するように構成されてもよい。
【0035】
いくつかの実施形態では、試薬とポリペプチドのアミノ酸との結合相互作用のデータは、ナノポアセンサを用いて検出することができる。1つまたは複数のプローブ(例えば、電気プローブ)がナノポアに埋め込まれてもよい。プローブは、試薬とポリペプチドのアミノ酸との結合相互作用に起因するシグナル(例えば、電気シグナル)を検出してもよい。一例として、ナノポアセンサは、試薬とポリペプチドのアミノ酸との結合相互作用に起因する電圧および/または電流の変化を測定する生物学的ナノポアであってもよい。別の例として、ナノポアセンサは、試薬(複数可)とポリペプチドのアミノ酸との結合相互作用に起因する電圧および/または電流の変化を測定する固体ナノポアであってもよい。ナノポアセンサの例は、「Nano pore Sequencing Technology: A Review」、International Journal of Advances in Scientific Research、Vol.3、August 2017に掲載されており、「The Evolution of Nanopore Sequencing」、Frontiers in Genetics、Vol.5、January 2015に掲載されており、これらはいずれも参照によって本明細書に組み込まれる。いくつかの実施形態では、アフィニティ試薬(親和性試薬)は、ClpSタンパク質によるものであってもよい。例えば、アフィニティ試薬は、Agrobacterium tumefaciensまたはSynechococcus elongates由来のClpS1またはClpS2タンパク質であってもよい。別の例では、アフィニティ試薬は、大腸菌、Caulobacter crescentus、またはPlasmodium falciparum由来のClspSタンパク質であってもよい。いくつかの実施形態では、アフィニティ試薬は、核酸アプタマーであってもよい。
【0036】
本明細書に記載されている技術の側面は、本明細書に記載されている機械学習技術が、様々な技術によって得られたデータを用いて適用され得るので、試薬とポリペプチドのアミノ酸との結合相互作用のデータを得る特定の技術に限定されないことを理解すべきである。
【0037】
上述のタンパク質同定システムに加えて、タンパク質を同定する際に使用する機械学習モデルを学習するためのシステムの実施形態も本明細書に記載されている。学習システムは、1つまたは複数の試薬とアミノ酸との結合相互作用について得られた学習データにアクセスするように構成されてもよい。学習システムは、ポリペプチドのアミノ酸を同定するための学習済み機械学習モデルを得るべく、学習データを使用して機械学習モデルを学習してもよい。学習済み機械学習モデルが上述のようにタンパク質同定システムに提供される場合、タンパク質同定システムおよび学習システムは、同じシステムであってもよいし、異なるシステムであってもよい。
【0038】
いくつかの実施形態では、学習システムは、学習データに教師付き学習を適用することで機械学習モデルを学習するように構成されてもよい。一例として、複数のデータセットのそれぞれが、データセットに対応する結合相互作用に関与するアミノ酸でラベル付けされている学習データが、学習システムに入力されてもよい。いくつかの実施形態では、学習システムは、教師なし学習アルゴリズムを学習データに適用することで、機械学習モデルを学習するように構成されてもよい。一例として、学習システムは、データの分類のためのクラスタを同定してもよい。クラスタの各々は、1つまたは複数のアミノ酸に関連付けられてもよい。いくつかの実施形態では、学習システムは、半教師付き学習アルゴリズムを学習データに適用することで、機械学習モデルを学習するように構成されてもよい。教師なし学習アルゴリズムは、ラベル付けされていない学習データをラベル付けするべく使用されてもよい。その後、ラベル付けされた学習データを使用して、ラベル付けされた学習データに教師付き学習アルゴリズムを適用することで、機械学習モデルを学習してもよい。
【0039】
いくつかの実施形態では、学習データは、1つまたは複数のパルス持続時間値、1つまたは複数のパルス同士間持続時間値、および/または1つまたは複数の発光寿命値を備えてもよい。
【0040】
いくつかの実施形態では、機械学習モデルは、それぞれが1つまたは複数のアミノ酸に関連付けられた複数のグループ(例えば、クラスタまたはクラス)を備えてもよい。学習システムは、クラスのアミノ酸(複数可)を区別するべく、各クラスの機械学習モデルを学習するように構成されてもよい。一例として、学習システムは、クラスに関連付けられた複数の異なるアミノ酸を表すクラスのそれぞれについて、混合モデル(例えば、ガウス混合モデル(GMM))を学習してもよい。機械学習モデルは、データをクラスに分類して、クラスに関連付けられたアミノ酸のそれぞれが、データによって表される結合相互作用に関与している尤度の表示を出力してもよい。いくつかの実施形態では、機械学習モデルは、クラスタリングモデルを備えてもよく、各クラスは、クラスタリングモデルのクラスタによって定義される。クラスタリングモデルのクラスタの各々は、1つまたは複数のアミノ酸に関連付けられてもよい。
【0041】
いくつかの実施形態では、機械学習モデルは、深層学習モデルであってもよく、またはそれを備えてもよい。いくつかの実施形態では、深層学習モデルは、畳み込みニューラルネットワーク(CNN)であってもよい。一例として、畳み込みニューラルネットワークは、一連の入力データに基づきアミノ酸を同定するように学習されてもよい。いくつかの実施形態では、深層学習モデルは、コネクショニスト時間分類(CTC)適合ニューラルネットワークであってもよい。コネクショニスト時間分類CTC適合ニューラルネットワークは、入力データセットに基づきアミノ酸配列を出力するように学習されてもよい。一例として、コネクショニスト時間分類CTC適合ニューラルネットワークは、アミノ酸配列を同定する文字列を出力してもよい。
【0042】
いくつかの実施形態では、学習システムは、試薬(複数可)とポリペプチドのアミノ酸との結合相互作用を記述するデータに基づき、以下の方法で機械学習モデルを学習するように構成されてもよい。(1)データの複数の部分を同定し、各部分は結合相互作用のそれぞれの1つに対応し、(2)複数の部分のそれぞれを機械学習モデルへの入力として提供して、データのそれぞれの1つの部分に対応する出力を取得し、(3)複数の部分に対応する出力を使用して機械学習モデルを学習する。いくつかの実施形態では、データの部分に対応する出力は、1つまたは複数のそれぞれのアミノ酸が複数の位置のそれぞれの1つに存在するという1つまたは複数の尤度を示す。
【0043】
いくつかの実施形態では、試薬(複数可)とアミノ酸との結合相互作用について得られた学習データは、1つまたは複数の発光標識による検出された発光のデータを備えている。いくつかの実施形態では、発光標識は、試薬に関連付けられていてもよい。一例として、発光標識は、試薬に連結された分子であってもよい。いくつかの実施形態では、発光標識(複数可)は、少なくともいくつかのアミノ酸に関連付けられてもよい。例として、発光標識(複数可)は、1つまたは複数のクラスのアミノ酸に連結される分子であってもよい。
【0044】
いくつかの実施形態では、発光標識による検出された発光から得られた学習データは、発光寿命値、発光強度値、および/または波長値を備えてもよい。波長値は、発光標識によって放出される光の波長(例えば、結合相互作用中)を示してもよい。いくつかの実施形態では、発光は一連の光パルスに応答し、データは、少なくともいくつかの光パルスのそれぞれについて、光パルス後の時間期間の一部である複数の時間区間のそれぞれで検出された光子のそれぞれの数(「カウント」(計数)とも呼ばれる)を備えている。
【0045】
いくつかの実施形態では、学習システムは、データを、第1列が、一連の光パルスにおける第1光パルス後の第1時間期間(タイムピリオド)の一部である第1および第2時間区間(タイムインターバル)のそれぞれにおける光子のそれぞれの数を保持し、第2列が、一連の光パルスにおける第2光パルス後の第2時間期間の一部である第1および第2時間区間のそれぞれにおける光子のそれぞれの数を保持する、複数の列を有するデータ構造に配置することで、機械学習モデルに入力としてデータを提供することで、機械学習モデルを学習するように構成されてもよい。いくつかの実施形態では、学習システムは、少なくともいくつかの光パルスに対応するそれぞれの時間区間における光子の数を行のそれぞれが保持する複数の行を有するデータ構造にデータを配置することで、機械学習モデルへの入力としてデータを提供することで、機械学習モデルを学習するように構成されてもよい。いくつかの実施形態では、データ構造の行は、列と交換されてもよい。
【0046】
いくつかの実施形態では、学習システムは、画像内にデータを配置することで、機械学習モデルへの入力としてデータを提供するように構成されてもよく、画像の各画素は、複数の光パルスのうちの1つの光パルス後の時間期間(タイムピリオド)のそれぞれの時間区間(タイムインターバル)で検出された光子の数を指定する。いくつかの実施形態では、学習システムは、画像内にデータを配置することで、機械学習モデルへの入力としてデータを提供するように構成されてもよく、画像の第1画素は、複数の光パルスのうちの第1パルス後の第1時間期間の第1時間区間で検出された光子の第1数を指定している。いくつかの実施形態では、画像の第2画素は、複数のパルスの第1パルス後の第1時間期間の第2時間区間で検出された光子の第2数を指定する。いくつかの実施形態では、画像の第2画素は、複数のパルスの第2パルス後の第2時間期間の第1時間区間における光子の第2数を指定する。
【0047】
いくつかの実施形態では、試薬とアミノ酸との結合相互作用の学習データは、既知のタンパク質の電気センサ(例えば、電流計、および/または電圧センサ)によって検出された検出電気シグナルを備えてもよい。一例として、タンパク質配列決定装置は、試薬とアミノ酸との結合相互作用に起因する電気シグナルを検出する1つまたは複数の電気センサを備えてもよい。
【0048】
いくつかの実施形態は、ポリペプチドのアミノ酸の同定に機械学習技術を利用しなくてもよい。タンパク質同定システムは、試薬とアミノ酸との結合相互作用に関するデータにアクセスし、アクセスしたデータを使用してポリペプチドを同定するように構成されてもよい。一例として、タンパク質同定システムは、特定のアミノ酸に選択的結合する試薬を使用してもよい。この試薬は、「タイト結合(バインディング)プローブ」と呼ばれることもある。タンパク質同定システムは、結合相互作用の1つまたは複数の特性(例えば、パルス持続時間、パルス同士間持続時間)の値を使用して、どの試薬が結合相互作用に関与したかを決定することで、アミノ酸を同定してもよい。いくつかの実施形態では、タンパク質同定システムは、アミノ酸に選択的結合する試薬に関連する発光標識を同定することで、アミノ酸を同定するように構成されてもよい。一例として、タンパク質同定システムは、パルス持続時間値、および/または、パルス同士間持続時間値を用いて、アミノ酸を同定してもよい。別の例として、タンパク質同定システムが発光標識の発光を検出する実施形態において、タンパク質同定システムは、発光強度値、および/または発光の発光寿命値を用いてアミノ酸を同定してもよい。
【0049】
いくつかの実施形態では、タンパク質同定システムは、機械学習技術を用いて1つまたは複数のアミノ酸の第1セットを同定し、機械学習技術を用いずに1つまたは複数のアミノ酸の第2セットを同定するように構成されてもよい。いくつかの実施形態では、タンパク質同定システムは、第1セットのアミノ酸の複数のものに結合する試薬を使用するように構成されてもよい。これらの試薬は、本明細書では、「弱結合プローブ」と呼ばれることがある。タンパク質同定システムは、第1セットからアミノ酸を同定するべく、本明細書に記載の機械学習技術を使用するように構成されてもよい。タンパク質同定システムは、第2セットのアミノ酸に対してタイト結合プローブを使用するように構成されてもよい。タンパク質同定システムは、機械学習技術を使用せずに、第2セットからアミノ酸を同定するように構成されてもよい。一例として、タンパク質同定システムは、パルス持続時間値、パルス同士間持続時間値、発光強度値、発光寿命値、波長値、および/またはそれらから得られる値に基づき、第2セットからアミノ酸を同定してもよい。
【0050】
本技術は、主にタンパク質の同定を参照して本明細書に記載されているが、いくつかの実施形態では、本技術はヌクレオチドの同定に使用されてもよい。一例として、本明細書に記載された技術は、DNAおよび/またはRNAサンプルを同定するべく使用されてもよい。タンパク質同定システムは、アフィニティ試薬を同定すべき核酸サンプルと混合する分解反応中の発光標識による検出された発光から得られたデータにアクセスしてもよい。タンパク質同定システムは、アクセスされたデータを(前処理の有無にかかわらず)機械学習モデルへの入力として提供し、それぞれの出力を得てもよい。出力は、核酸の複数の位置のそれぞれについて、1つまたは複数のそれぞれのヌクレオチドが核酸の位置に組み込まれたという1つまたは複数の尤度を示してもよい。いくつかの実施形態では、1つまたは複数のそれぞれのヌクレオチドが核酸の位置に組み込まれたという1つまたは複数の尤度は、第1ヌクレオチドがその位置に存在するという第1尤度、および第2ヌクレオチドがその位置に存在するという第2尤度を備えている。一例として、出力は、複数の位置のそれぞれについて、異なるヌクレオチドがその位置に存在するという確率を同定してもよい。タンパク質同定システムは、機械学習モデルの出力を使用して、核酸を同定してもよい。
【0051】
いくつかの実施形態では、タンパク質同定システムは、得られた出力を、それぞれの核酸に関連する複数のヌクレオチド配列のうちの1つに一致させるように構成されてもよい。一例として、タンパク質同定システムは、出力をGenBankデータベースに格納されているヌクレオチド配列に照合してもよい。いくつかの実施形態では、タンパク質同定システムは、(1)機械学習モデルから得られた出力に基づき隠れマルコフモデルHMMを生成し、(2)隠れマルコフモデルHMMをヌクレオチド配列に照合することで、出力をヌクレオチド配列に照合するように構成されてもよい。一例として、タンパク質同定システムは、GenBankデータベースから、隠れマルコフモデルHMMが最も密接に一致するヌクレオチド配列を、一致するヌクレオチド配列として同定してもよい。一致したヌクレオチド配列は、同定されるべき核酸の同一性(identity。身元)を同定してもよい。
【0052】
[試薬を用いた配列決定]
上述したように、タンパク質同定システムは、タンパク質および/またはポリペプチドのアミノ酸との試薬の結合相互作用を記述するデータに基づき、1つまたは複数のタンパク質および/またはポリペプチドを同定するように構成されてもよい。このセクションでは、そのようなデータを生成するための例示的なアプローチを説明する。
【0053】
いくつかの実施形態では、ポリペプチドを、1種類以上のアミノ酸に選択的結合する標識(labeled。標識された)アフィニティ試薬に接触させてもよい。アフィニティ試薬は、本明細書で「試薬」と呼ばれることもある。いくつかの実施形態では、標識アフィニティ試薬は、末端アミノ酸に選択的結合してもよい。本明細書で使用されるように、いくつかの実施形態では、末端アミノ酸は、ポリペプチドのアミノ末端アミノ酸またはポリペプチドのカルボキシ末端アミノ酸を指してもよい。いくつかの実施形態では、標識アフィニティ試薬は、1種類の末端アミノ酸に他の種類の末端アミノ酸よりも選択的結合する。いくつかの実施形態では、標識アフィニティ試薬は、同じタイプの内部アミノ酸よりも1つのタイプの末端アミノ酸に選択的結合する。さらに他の実施形態では、標識アフィニティ試薬は、ポリペプチドの任意の位置で1種類のアミノ酸に選択的結合し、例えば、末端アミノ酸および内部アミノ酸と同じ種類のアミノ酸に結合する。
【0054】
本明細書で使用されるように、アミノ酸の「タイプ」は、20種類の天然に存在するアミノ酸の1つ、そのタイプのサブセット、20種類の天然に存在するアミノ酸の1つの修飾バリアント、またはその未修飾および/または修飾バリアントのサブセットを指すことがある。修飾されたアミノ酸バリアントの例には、限定されないが、翻訳後に修飾されたバリアント、化学的に修飾されたバリアント、非天然アミノ酸、およびセレノシステインやピロリジンなどのタンパク質生成アミノ酸が含まれる。いくつかの実施形態では、アミノ酸の種類のサブセットは、1つまたは複数の類似した生化学的特性を有する1つまたは複数のアミノ酸および20個以下のアミノ酸を備えてもよい。一例として、いくつかの実施形態では、アミノ酸の種類は、荷電側鎖(例えば、正および/または負の荷電側鎖)を有するアミノ酸、極性側鎖(例えば、極性非荷電側鎖)を有するアミノ酸、非極性側鎖(例えば、非極性脂肪族および/または芳香族側鎖)を有するアミノ酸、ならびに疎水性側鎖を有するアミノ酸から選択される1種類を指す。
【0055】
いくつかの実施形態では、データは、アフィニティ試薬の発光標識の検出された発光(例えば、ルミネセンス)から収集される。いくつかの実施形態では、標識付けまたはタグ付けされたアフィニティ試薬は、(1)1種類以上のアミノ酸に選択的結合するアフィニティ試薬、および(2)アフィニティ試薬に関連する発光を有する発光標識を備えている。このようにして、発光(例えば、発光寿命、発光強度、および本明細書に記載される他の発光特性)は、ポリペプチドのアミノ酸を同定するためのアフィニティ試薬の選択的結合に特徴的であり得る。いくつかの実施形態では、複数の種類の標識アフィニティ試薬が使用されてもよく、各種類は、複数の中から一意に同定できる発光を有する発光標識を備えている。適切な発光標識は、フルオロフォア染料などの発光分子を備えてもよい。
【0056】
いくつかの実施形態では、アミノ酸の発光標識の検出された発光(例えば、ルミネセンス)からデータが収集される。いくつかの実施形態では、標識アミノ酸は、(1)アミノ酸と、および(2)アミノ酸に関連する発光を有する発光標識とを備えている。発光は、ポリペプチドのアミノ酸を同定するべく使用されてもよい。いくつかの実施形態では、複数の種類のアミノ酸が標識されてもよく、各発光標識は、複数の種類の中から一意に同定可能な発光を有する。
【0057】
本明細書で使用されるように、用語「選択的(selective)」および「特異的(specific)」(およびその変形、例えば、selectively、specially、selectivity、specificity)は、優先的な結合相互作用を指すことがある。例として、いくつかの実施形態では、1種類のアミノ酸に選択的結合する標識アフィニティ試薬は、別の種類のアミノ酸よりも1種類のアミノ酸に優先的に結合する。選択的結合相互作用は、1種類のアミノ酸(例えば、1種類の末端アミノ酸)と他の種類のアミノ酸(例えば、他の種類の末端アミノ酸)とを、典型的には約10~100倍以上(例えば、約1,000~10,000倍以上)に同定する。いくつかの実施形態では、標識アフィニティ試薬は、他のタイプのアミノ酸に有意に結合することなく、約10-6M未満(例えば、約10-7M未満、約10-8M未満、約10-9M未満、約10-10M未満、約10-11M未満、約10-12M未満、10-16M程度まで)の解離定数(KD)で1つのタイプのアミノ酸に選択的結合する。いくつかの実施形態では、標識アフィニティ試薬は、約100nM未満、約50nM未満、約25nM未満、約10nM未満、または約1nM未満のKDで、1種類のアミノ酸(例えば、1種類の末端アミノ酸)に選択的結合する。いくつかの実施形態では、標識アフィニティ試薬は、約50nMのKDで1種類のアミノ酸に選択的結合する。
【0058】
図1Aは、本明細書に記載の技術のいくつかの実施形態に従って、標識アフィニティ試薬の様々な例示の構成および使用を示す。いくつかの実施形態では、標識アフィニティ試薬100は、発光標識110(例えば、ラベル)と、ポリペプチド120の1つまたは複数の種類の末端アミノ酸に選択的結合するアフィニティ試薬(点描の形状として示される)とを備える。いくつかの実施形態では、アフィニティ試薬は、末端位置または末端位置と内部位置の両方において、1種類のアミノ酸またはサブセット(例えば、20種類の一般的な種類のアミノ酸よりも少ない)の種類のアミノ酸に選択的であってもよい。
【0059】
本明細書に記載されているように、アフィニティ試薬は、別の分子に対する1つの分子(例えば、別のタイプのアミノ酸に対する1つのタイプのアミノ酸)に選択的または特異的に結合することができる任意の生体分子であってもよい。アフィニティ試薬には、一例として、タンパク質および核酸が含まれる。いくつかの実施形態では、アフィニティ試薬は、抗体または抗体の抗原結合部分、または酵素生体分子、例えばペプチダーゼ、リボザイム、アプタザイム、またはアミノアシル-tRNAシンテターゼおよび2016年9月2日に出願された「MOLECULES AND METHODS FOR ITERATIVE POLYPEPTIDE ANALYSIS AND PROCESSING」と題された米国特許出願第15/255,433号に記載されている関連分子を備えているtRNAシンテターゼなどであってもよい。ペプチダーゼは、プロテアーゼまたはプロテイナーゼとも呼ばれ、ペプチド結合の加水分解を触媒する酵素であってもよい。ペプチダーゼは、ポリペプチドをより短い断片に消化し、一般的に、ポリペプチド鎖を内部および末端でそれぞれ切断するエンドペプチダーゼおよびエキソペプチダーゼに分類され得る。いくつかの実施形態では、アフィニティ試薬は、「The N-end rule pathway:From Recognition by N-recognins, to Destruction by AAA+ Proteases」、Biochimica et Biophysica Acta (BBA) - Molecular Cell Research, Vol.1823, Issue 1, January 2012掲載に記載されているように、原核生物および真核生物のN-デグロン経路に関与するN-レコグニンであってもよい。
【0060】
いくつかの実施形態では、標識アフィニティ試薬100は、エキソペプチダーゼまたはエンドペプチダーゼ活性を不活性化するように改変されたペプチダーゼを備えている。このようにして、標識アフィニティ試薬100は、ポリペプチドからアミノ酸を切断することもなく、選択的結合する。いくつかの実施形態では、エキソペプチダーゼまたはエンドペプチダーゼ活性を不活性化するように改変されていないペプチダーゼを使用してもよい。一例として、いくつかの実施形態では、標識アフィニティ試薬は、標識エキソペプチダーゼ101を備えている。
【0061】
いくつかの実施形態では、タンパク質配列決定方法は、ポリペプチドの末端での反復的な検出および切断を備えてもよい。いくつかの実施形態では、標識エキソペプチダーゼ101は、アミノ酸の検出および切断の両方の工程を行う単一の試薬として使用されてもよい。一般的に描かれているように、いくつかの実施形態では、標識エキソペプチダーゼ101は、ポリペプチドからN末端またはC末端のアミノ酸をそれぞれ選択的結合して切断するような、アミノペプチダーゼまたはカルボキシペプチダーゼ活性を有する。特定の実施形態において、標識エキソペプチダーゼ101は、本明細書に記載されているように、標識エキソペプチダーゼ101が非切断標識アフィニティ試薬100として使用するための選択的結合特性を保持するように、当業者によって触媒的に不活性化されてもよいことが理解されるべきである。いくつかの実施形態では、標識アフィニティ試薬は、結合誘導性ルミネセンスを有する標識(ラベル)を備えている。標識アフィニティ試薬とアミノ酸との結合相互作用は、試薬が標識されている発光標識の発光を誘導することができる。
【0062】
いくつかの実施形態では、配列決定は、ポリペプチド末端を、末端アミノ酸の検出および末端アミノ酸の切断の繰り返しサイクルにさらすことを備えてもよい。一例として、タンパク質配列決定装置は、ポリペプチドを1つまたは複数の標識アフィニティ試薬に接触させることで、ポリペプチドのアミノ酸配列に関するデータを収集してもよい。
【0063】
図1Bは、本明細書に記載の技術のいくつかの実施形態に従った、標識アフィニティ試薬を用いた配列決定(シーケンシング)の例を示す。いくつかの実施形態では、配列決定は、リンカー122を介して固体支持体の表面130に固定化された(例えば、サンプルウェルの底面または側壁面に固定化された)ポリペプチド121を提供することを備えている。いくつかの実施形態では、ポリペプチド121は、一方の末端(例えば、アミノ末端アミノ酸)において、他方の末端が末端アミノ酸の検出および切断のために自由であるように固定化されてもよい。したがって、いくつかの実施形態では、試薬は、ポリペプチド121の固定化されていない(例えば、自由な)末端の末端アミノ酸に相互作用する。このようにして、ポリペプチド121は、検出と切断のサイクルを繰り返しても固定化されたままである。この目的のために、いくつかの実施形態では、リンカー122は、検出および切断に使用される所望の条件のセットに従って設計されてもよく、例えば、化学的切断条件でポリペプチド121の表面130からの離脱を制限するべく設計されてもよい。
【0064】
いくつかの実施形態では、配列決定は、ポリペプチド121を、1つまたは複数のタイプの末端アミノ酸に選択的結合する1つまたは複数の標識アフィニティ試薬に接触させる工程(1)を備えている。示されるように、いくつかの実施形態では、標識アフィニティ試薬104は、末端アミノ酸に選択的結合することでポリペプチド121と相互作用する。いくつかの実施形態では、工程(1)は、ポリペプチド121の末端アミノ酸(例えば、遊離の末端アミノ酸)に選択的結合しない1つまたは複数の標識アフィニティ試薬のいずれかを除去することをさらに備えている。いくつかの実施形態では、配列決定は、ポリペプチド121の末端アミノ酸を除去する工程(2)を備えている。いくつかの実施形態では、工程(2)は、ポリペプチド121から標識アフィニティ試薬104(例えば、末端アミノ酸に選択的結合する1つまたは複数の標識アフィニティ試薬のいずれか)を除去することを備えている。
【0065】
いくつかの実施形態では、配列決定(シーケンシング)は、末端アミノ酸の切断後にポリペプチド121を洗浄する工程(3)を備えている。いくつかの実施形態では、洗浄は、プロテアーゼ140を除去することを備えている。いくつかの実施形態では、洗浄は、ポリペプチド121を中性pH条件(例えば、酸性または塩基性条件による化学的切断の後)に戻すことを備えている。いくつかの実施形態では、配列決定は、工程(1)~(3)を複数のサイクルで繰り返すことを備えている。
【0066】
図1Cは、本明細書に記載の技術のいくつかの実施形態に従った、標識タンパク質サンプルを用いた配列決定の一例を示す。
図1Cの例示的な実施形態に示されるように、標識タンパク質サンプルは、標識アミノ酸を有するポリペプチド140を備えている。いくつかの実施形態では、標識ポリペプチド140は、発光標識(発光ラベル)で標識1つまたは複数のアミノ酸を有するポリペプチドを備えている。いくつかの実施形態では、ポリペプチド140の1つまたは複数の種類のアミノ酸が標識されていてもよく、ポリペプチド140の1つまたは複数の他の種類のアミノ酸は標識されていなくてもよい。いくつかの実施形態では、ポリペプチド140のすべてのアミノ酸が標識されていてもよい。
【0067】
いくつかの実施形態では、配列決定は、1つまたは複数の試薬との接触の繰り返しサイクルにさらされる、標識ポリペプチドの発光を検出することを備えている。
図1Cの例示的な実施形態では、配列決定は、ポリペプチド140を、ポリペプチド140の1つまたは複数のアミノ酸に結合する試薬142に接触させる工程を備えている。一例として、試薬142は、標識ポリペプチドの末端アミノ酸に相互作用してもよい。いくつかの実施形態では、配列決定は、ポリペプチド140を試薬142に接触させた後に、末端アミノ酸を除去する工程を備えている。いくつかの実施形態では、試薬142は、ポリペプチド140に接触した後に、末端アミノ酸を切断してもよい。試薬142とポリペプチド142の標識アミノ酸との相互作用は、タンパク質配列決定装置によって検出され得る1つまたは複数の発光(例えば、パルス)を生じさせる。
【0068】
発光を生じさせる上述の処理は、
図2Aにさらに示されている。例示的なシグナルトレース(I)が、シグナルの変化に対応する時間に、異なる関連イベントを描写する一連のパネル(II)とともに示されている。図示されているように、アフィニティ試薬(点描の形状)とポリペプチドの末端に存在するアミノ酸(ストリング上のビーズとして示されている)との間の会合イベントは、受け取られた励起光の測定値であるシグナルトレースの大きさに変化をもたらし、それは一定の期間持続する。
【0069】
上述したように、発光標識で標識アフィニティ試薬は、アフィニティ試薬に印加される励起光に反応して発光することがある。アフィニティ試薬がアミノ酸に会合すると、この光はアミノ酸の近くで発せられる可能性がある。その後、アフィニティ試薬がアミノ酸に結合しなくなっても、その発光標識が励起光に反応して発光することがあるが、この光は異なる空間的位置から発せられているので、結合時に発せられた光と同じ強度で測定できない(あるいは全く測定できない)可能性がある。その結果、アミノ酸から放出された光を測定することで、シグナルトレース内で会合イベントを同定することができる。
【0070】
例えば、
図2Aのパネル(A)および(B)に示すように、アフィニティ試薬と、ポリペプチドの末端に露出した第1アミノ酸(例えば、第1末端アミノ酸)との間の2つの異なる会合イベントは、それぞれ別々の発光を生じる。各会合イベントは、光の「パルス」を生成し、これはシグナルトレース(I)で測定され、会合イベントの持続時間中にわたって持続するシグナルの大きさの変化によって特徴付けられる。パネル(A)および(B)の会合イベント同士間の持続時間は、ポリペプチドがアフィニティ試薬と検出可能に会合しない時間の持続時間に対応し得る。
【0071】
パネル(C)および(D)は、アフィニティ試薬と、ポリペプチドの末端に露出した第2アミノ酸(例えば、第2末端アミノ酸)との間の異なる会合イベントを描いている。本明細書に記載されているように、ポリペプチドの末端で「露出」しているアミノ酸は、ポリペプチドにまだ付着しているアミノ酸であり、分解中に先行する末端アミノ酸が除去されると(例えば、単独で、または1つまたは複数の追加アミノ酸とともに)末端アミノ酸になる。したがって、一連のパネル(II)の第1および第2アミノ酸は、ポリペプチドの末端に露出した連続したアミノ酸の例示的な例を提供し、第2アミノ酸は第1アミノ酸の除去時に末端アミノ酸になった。
【0072】
一般的に描かれているように、パネル(C)および(D)の関連イベントは、シグナルトレース(I)で測定され、パネル(A)および(B)のものよりも相対的に短い時間持続する大きさの変化によって特徴付けられる、異なる光パルスを生成し、パネル(C)および(D)の関連イベント同士間の時間持続は、パネル(A)および(B)のものよりも相対的に短い。上述したように、いくつかの実施形態では、シグナルのそのような特徴的な変化を使用して、異なるタイプのアミノ酸を同定することができるシグナルトレース(I)の特徴的なパターンを決定することができる。
【0073】
いくつかの実施形態では、1つの特徴的なパターンから別のパターンへの移行は、アミノ酸の切断を示している。本明細書で使用されるように、いくつかの実施形態では、アミノ酸切断とは、ポリペプチドの末端から少なくとも1つのアミノ酸を除去すること(例えば、ポリペプチドから少なくとも1つの末端アミノ酸を除去すること)を指す。いくつかの実施形態では、アミノ酸切断は、特徴的なパターン同士間の時間継続に基づく推論によって決定される。いくつかの実施形態では、アミノ酸の切断は、標識切断試薬がポリペプチドの末端のアミノ酸に関連することで生じるシグナルの変化を検出することで決定される。分解中にポリペプチドの末端からアミノ酸が順次切断されると、一連の大きさの変化、すなわち一連のシグナルパルスが検出される。いくつかの実施形態では、シグナルパルスデータは、
図2Bに示されるように分析することができる。
【0074】
いくつかの実施形態では、シグナルデータの1つまたは複数のパラメータに閾値を適用することで、シグナルパルス情報を抽出するべくシグナルトレースを分析することができる。例えば、パネル(III)には、例示的なシグナルトレース(I)のシグナルデータに適用される閾値マグニチュードレベル(「ML」)が描かれている。いくつかの実施形態では、MLは、或る時点で検出されたシグナルと、所定のデータセットについて決定されたベースラインとの間の最小差である。いくつかの実施形態では、シグナルパルス(「sp」)は、MLを超える大きさの変化を示し、或る期間持続するデータの各部分に割り当てられる。いくつかの実施形態では、シグナルパルスがその部分に割り当てられるかどうかを決定するべく、MLを満たすデータの部分に閾値の持続時間を適用することができる。例えば、実験的なアーチファクトは、所望の信頼性でシグナルパルスを割り当てるのに十分な時間持続しない、MLを超える大きさの変化を生じさせることがある(例えば、アミノ酸タイプを非差別的に同定し得る一時的な関連イベント、観察領域への拡散または観察領域内での試薬の付着などの非特異的検出イベント)。したがって、いくつかの実施形態では、閾値マグニチュードレベルおよび閾値時間継続時間に基づき、シグナルトレースからパルスが同定され得る。
【0075】
抽出されたシグナルパルス情報は、例示のために例示のシグナルトレース(I)を重ね合わせたパネル(III)に示されている。いくつかの実施形態では、シグナルパルスの大きさのピークは、MLを超えて持続する持続時間にわたって検出された大きさを平均化することで決定される。いくつかの実施形態では、本明細書で使用される「シグナルパルス」または「パルス」は、ベースラインを超えて持続するシグナルデータの変化(例えば、例示的なシグナルトレース(I)で示されるような生のシグナルデータ)、またはそこから抽出されたシグナルパルス情報(例えば、パネル(IV)で示されるような処理済みのシグナルデータ)を指すことができることを理解されたい。
【0076】
パネル(IV)は、例示のシグナルトレース(I)から抽出されたパルス情報を示す。いくつかの実施形態では、シグナルパルス情報を分析して、一連のシグナルパルスにおける異なる特性パターンに基づき、配列内の異なるタイプのアミノ酸を同定することができる。例えば、パネル(IV)に示すように、シグナルパルス情報は、第1特性パターン(「CP1」)に基づく第1タイプのアミノ酸と、第2特性パターン(「CP2」)に基づく第2タイプのアミノ酸とを示している。例を挙げると、早い時点で検出された2つのシグナルパルスは、CP1に基づきポリペプチドの末端の第1アミノ酸を示す情報を提供し、遅い時点で検出された2つのシグナルパルスは、CP2に基づきポリペプチドの末端の第2アミノ酸を示す情報を提供する。
【0077】
また、パネル(IV)に示すように、各シグナルパルスは、アフィニティ試薬と特徴的なパターンのアミノ酸との間の会合イベントに対応するパルス持続時間(「pd」)を備えている。いくつかの実施形態では、パルス持続時間は、結合の解離速度に特徴的である。また、図のように、特徴的なパターンの各シグナルパルスは、特徴的なパターンの別のシグナルパルスから、パルス同士間持続時間(インターパルスデュアレーション。「ipd」)によって分離される。いくつかの実施形態では、パルス同士間持続時間は、結合の会合速度の特徴である。いくつかの実施形態では、大きさの変化(「ΔM」)は、ベースラインとシグナルパルスのピークとの間の差に基づき、シグナルパルスについて決定することができる。いくつかの実施形態では、パルス持続時間に基づき特性パターンが決定される。いくつかの実施形態では、特性パターンは、パルス持続時間およびパルス同士間持続時間に基づき決定される。いくつかの実施形態では、特徴的なパターンは、パルス持続時間、パルス同士間持続時間(インターパルス持続時間)、および大きさの変化のうちのいずれか1つまたは複数に基づき決定される。
【0078】
したがって、
図2A~
図2Bに示されるように、いくつかの実施形態では、ポリペプチド配列決定は、発光標識で標識アフィニティ試薬間の会合イベントからの発光によって生成される一連のシグナルパルスを検出することで実行され得る。一連のシグナルパルスを分析して、一連のシグナルパルスにおける特徴的なパターンを決定し、特徴的なパターンの時間経過を用いて、ポリペプチドのアミノ酸配列を決定することができる。
【0079】
いくつかの実施形態では、タンパク質またはポリペプチドを複数のより小さなポリペプチドに消化し、これらのより小さなポリペプチドの1つまたは複数から配列情報を得ることができる(例えば、ポリペプチドの末端アミノ酸を順次評価し、そのアミノ酸を除去して末端の次のアミノ酸を露出させることを備えている方法を使用する)。いくつかの実施形態では、ペプチド配列決定の方法は、ポリペプチドの末端を、末端アミノ酸の検出および末端アミノ酸の切断の反復サイクルにさらすことを備えてもよい。
【0080】
反復的な末端アミノ酸検出および切断によるポリペプチド配列決定の非限定的な例は、
図2Cに描かれている。いくつかの実施形態では、ポリペプチド配列決定は、連鎖群(linkage group)252を介して固体支持体の表面254に固定化されている(例えば、サンプルウェルの底面または側壁面に取り付けられている)ポリペプチド250を提供することを備えている。いくつかの実施形態では、連鎖群252は、ポリペプチド250の官能化された末端と、表面254の相補的な官能部位との間の共有結合または非共有結合によって形成される。例えば、いくつかの実施形態では、連鎖群252は、ポリペプチド250のビオチン部分(例えば、本開示に従って官能化されたもの)と表面254のアビジンタンパク質との間の非共有結合によって形成される。いくつかの実施形態では、連鎖群252は、核酸を備えている。
【0081】
いくつかの実施形態では、ポリペプチド250は、他方の末端端が、配列決定反応における末端アミノ酸の検出および切断のために自由であるように、一方の末端端で官能化部位を介して表面254に固定化される。したがって、いくつかの実施形態では、特定のポリペプチド配列決定反応で使用される試薬は、ポリペプチド250の非固定化(例えば、遊離)末端の末端アミノ酸に優先的に相互作用する。このようにして、ポリペプチド250は、検出と切断のサイクルを繰り返しても固定化されたままである。この目的のために、いくつかの実施形態では、連鎖群252は、検出および切断に使用される所望の条件のセットに従って、例えば、表面254からのポリペプチド250の剥離を制限するように設計されてもよい。ポリペプチドを官能化するための適切なリンカー組成物および技術(例えば、ポリペプチドを表面に固定化するべく使用され得る)は、本明細書の別の位置で詳細に記載されている。
【0082】
いくつかの実施形態では、
図2Cに示すように、ポリペプチド配列決定は、(1)ポリペプチド250を、1つまたは複数のタイプの末端アミノ酸に会合する1つまたは複数のアフィニティ試薬に接触させることで進めることができる。示すように、いくつかの実施形態では、標識アフィニティ試薬256は、末端アミノ酸に会合することでポリペプチド250と相互作用する。
【0083】
いくつかの実施形態では、本方法は、標識アフィニティ試薬256を検出することで、ポリペプチド250のアミノ酸(末端アミノ酸または内部アミノ酸)を同定することをさらに備えている。いくつかの実施形態では、検出することは、標識アフィニティ試薬256からの発光を検出することを備えている。いくつかの実施形態では、発光は標識アフィニティ試薬256と一意に関連付けられており、それによって発光は標識アフィニティ試薬256が選択的結合するアミノ酸の種類に関連付けられている。このように、いくつかの実施形態では、アミノ酸の種類は、標識アフィニティ試薬256の1つまたは複数の発光特性を決定することで同定される。
【0084】
いくつかの実施形態では、ポリペプチド配列決定は、(2)ポリペプチド250を、ポリペプチド250の末端アミノ酸に結合して切断するエキソペプチダーゼ258に接触させることで、末端アミノ酸を除去することで進行する。エキソペプチダーゼ258によって末端アミノ酸が除去されると、(3)ポリペプチド250(n-1個のアミノ酸を有する)を、末端アミノ酸の認識および切断の追加のサイクルにかけることで、ポリペプチドの配列決定が進む。いくつかの実施形態では、工程(1)~(3)は、例えば、動的ペプチド配列決定反応のように、同じ反応混合物中で起こる。いくつかの実施形態では、工程(1)~(3)は、エドマン分解によるペプチド配列決定など、当技術分野で知られている他の方法を用いて実施されてもよい。
【0085】
エドマン分解では、ポリペプチドの末端アミノ酸を修飾して切断するサイクルが繰り返され、連続して切断された各アミノ酸が同定されてポリペプチドのアミノ酸配列が決定される。
図2Cを参照すると、従来のエドマン分解によるペプチド配列決定は、(1)ポリペプチド250を、1種類以上の末端アミノ酸に選択的結合する1種類以上のアフィニティ試薬に接触させることで行うことができる。いくつかの実施形態では、工程(1)は、ポリペプチド250に選択的結合しない1つまたは複数の標識アフィニティ試薬のいずれかを除去することをさらに備えている。いくつかの実施形態では、工程(2)は、末端アミノ酸をイソチオシアネート(例えば、PITC)に接触させて、イソチオシアネート修飾末端アミノ酸を形成することで、ポリペプチド250の末端アミノ酸(例えば、遊離末端アミノ酸)を修飾することを備えている。いくつかの実施形態では、イソチオシアネート修飾された末端アミノ酸は、未修飾の末端アミノ酸よりも切断試薬(例えば、化学的または酵素的切断試薬)による除去に影響を受けやすい。
【0086】
いくつかの実施形態では、エドマン分解は、(2)ポリペプチド250を、イソチオシアネート修飾された末端アミノ酸に特異的に結合して切断するエキソペプチダーゼ258に接触させることで、末端アミノ酸を除去することで進行する。いくつかの実施形態では、エキソペプチダーゼ258は、修飾されたシステインプロテアーゼを備えている。いくつかの実施形態では、エキソペプチダーゼ258は、Trypanosoma cruzi(例えば、Borgo, et al. (2015) Protein Science 24:571-579参照)由来のシステインプロテアーゼなどの、修飾されたシステインプロテアーゼを備えている。さらに他の実施形態では、工程(2)は、イソチオシアネート修飾された末端アミノ酸を切断するのに十分な化学的(例えば、酸性、塩基性)条件にポリペプチド250を供することで、末端アミノ酸を除去することを備えている。いくつかの実施形態では、エドマン分解は、(3)末端アミノ酸の切断後にポリペプチド250を洗浄することで進行する。いくつかの実施形態では、洗浄は、エキソペプチダーゼ258を除去することを備えている。いくつかの実施形態では、洗浄は、ポリペプチド250を中性pH条件(例えば、酸性または塩基性条件による化学的切断の後)に戻すことを備えている。いくつかの実施形態では、エドマン分解による配列決定は、工程(1)~(3)を複数のサイクルで繰り返すことを備えている。
【0087】
いくつかの実施形態では、ペプチド配列決定(シーケンシング)は、動的ペプチド配列決定反応において実施することができる。いくつかの実施形態では、
図2Cを再び参照すると、工程(1)および工程(2)を実行するべく必要な試薬は、単一の反応混合物内で組み合わされる。例えば、いくつかの実施形態では、工程(1)および工程(2)は、1つの反応混合物を別の反応混合物に交換することなく、また、従来のエドマン分解のような洗浄工程を経ることなく行うことができる。したがって、この実施形態では、単一の反応混合物は、標識アフィニティ試薬256およびエキソペプチダーゼ258を備えている。いくつかの実施形態では、エキソペプチダーゼ258は、標識アフィニティ試薬256の濃度よりも低い濃度で混合物中に存在する。いくつかの実施形態では、エキソペプチダーゼ258は、標識アフィニティ試薬256の結合親和性よりも小さい結合親和性でポリペプチド250に結合する。
【0088】
図2Dは、一組の標識エキソペプチダーゼ200を用いたポリペプチド配列決定の例を示しており、各標識エキソペプチダーゼは、異なるタイプの末端アミノ酸に選択的結合して切断するようになっている。
【0089】
図2Dの例に示されるように、標識エキソペプチダーゼ200は、第1発光標識を含むリジン特異的エキソペプチダーゼ、第2発光標識を含むグリシン特異的エキソペプチダーゼ、第3発光標識を含むアスパラギン酸特異的エキソペプチダーゼ、および第4発光標識を含むロイシン特異的エキソペプチダーゼを含む。いくつかの実施形態では、標識各エキソペプチダーゼ200は、それぞれのアミノ酸がポリペプチドのアミノ末端またはカルボキシ末端に存在する場合にのみ、選択的結合して切断することができる。したがって、このアプローチによる配列決定は、ペプチドの一方の末端から他方の末端に向かって進行するので、標識エキソペプチダーゼ200は、セットのすべての試薬がアミノペプチダーゼまたはカルボキシペプチダーゼ活性のいずれかを有するように設計または選択される。
【0090】
図2Dにさらに示すように、処理201は、標識エキソペプチダーゼ200を用いたリアルタイム配列(シーケンス)反応を模式的に示す。パネル(I)~(IX)は、ポリペプチドの末端での反復的な検出および切断を含むイベントの進行を、各パネルに描かれたイベントの下に示された、それに対応するシグナルトレースに関連して示す。例示のために、「KLDG...」という任意に選択されたアミノ酸配列を持つポリペプチドが示されている(一方の末端から他方の末端に向かって進む)。
【0091】
パネル(I)は、ポリペプチドがサンプルウェルの底面または側壁面などの固体支持体の表面に固定化されている、配列決定反応の開始を描いている。いくつかの実施形態では、本願発明に係る配列決定方法は、リアルタイムでの単一分子(single molecule)配列決定を含む。いくつかの実施形態では、複数の単一分子配列決定反応が、サンプルウェルのアレイで同時に行われる。そのような実施形態では、ポリペプチドの固定化は、単一分子分析のためにポリペプチドをサンプルウェル内に固定することで、サンプルウェルからのポリペプチドの拡散を防止する。
【0092】
パネル(II)は、標識アフィニティ試薬のセット200からのリジン特異的エキソペプチダーゼが、ポリペプチドの末端リジン残基に選択的結合する、検出イベントを示す。パネル(I)および(II)の下のシグナルトレースに示すように、シグナルは、シグナル強度の増加を表示することで、この結合イベントを示し、これは、センサ(例えば、光検出器)で検出され得る。パネル(III)は、末端アミノ酸に選択的結合した後、標識ペプチダーゼが末端アミノ酸を切断することを示している。その結果、これらの構成要素は、発光検出のための観察領域から自由に拡散し、パネル(III)の下のトレースに示すように、シグナル強度の低下によってシグナル出力に報告される。パネル(IV)から(IX)は、パネル(I)から(III)で説明した処理に類似して進行する。すなわち、標識エキソペプチダーゼが、対応する末端アミノ酸に結合し、切断して、それぞれ対応するシグナル出力の増加および減少を生じる。
【0093】
図2A~
図2Dの例は、末端アミノ酸、内部アミノ酸、および修飾アミノ酸の認識を備えている。シグナルトレースは、これらのタイプのアミノ酸の任意の組み合わせだけでなく、各タイプを個別に認識することを可能にし得ることが理解され得る。例えば、末端アミノ酸および次の内部アミノ酸は、1つまたは複数のアフィニティ試薬と同時に相互作用し、アミノ酸のペアを示す光を生成してもよい。
【0094】
いくつかの態様では、本願は、アフィニティ試薬および標識非特異的なエキソペプチダーゼとの末端アミノ酸の結合相互作用を評価することで、リアルタイムでポリペプチド配列を決定する方法を提供する。いくつかの実施形態では、アフィニティ試薬は、標識されていてもよい(例えば、発光標識で)。いくつかの実施形態では、アフィニティ試薬は、標識されていなくてもよい。アフィニティ試薬の例を本明細書に記載する。
図3は、離散的な結合イベントがシグナルトレース300のシグナルパルスを生じさせる配列決定方法の一例を示す。
図3の挿入パネルは、この方法によるリアルタイム配列決定の一般的なスキームを示している。図示されているように、標識アフィニティ試薬310は、末端アミノ酸(ここではリジンとして示されている)に選択的結合し、解離し、これによって、センサによって検出され得るシグナルトレース300の一連のパルスが生じる。いくつかの実施形態では、試薬は、結合の目標特性を持つように設計することができる。一例として、試薬は、パルス持続時間、パルス同士間持続時間、発光強度、および/または発光寿命の目標値を達成するように設計することができる。
【0095】
本明細書に記載されているパルスの数、パルス持続時間の値、および/またはパルス同士間持続時間の値は、例示のためのものである。いくつかの実施形態は、本明細書に記載されたパルスの特定の数、パルス継続時間値、および/またはパルス同士間継続時間値に限定されない。さらに、本明細書に記載されているアミノ酸は、例示を目的としている。いくつかの実施形態は、特定のアミノ酸に限定されるものではない。
【0096】
挿入パネルに示すように、配列決定反応混合物は、標識アフィニティ試薬310のものとは異なる発光標識を含む標識非特異的エキソペプチダーゼ320をさらに備えている。いくつかの実施形態では、標識非特異的エキソペプチダーゼ320は、標識アフィニティ試薬310の濃度よりも低い濃度で混合物中に存在する。いくつかの実施形態では、標識非特異的エキソペプチダーゼ320は、ほとんどまたはすべてのタイプの末端アミノ酸を切断するような幅広い特異性を示す。
【0097】
シグナルトレース300の進行によって示されるように、いくつかの実施形態では、標識非特異的エキソペプチダーゼ320による末端アミノ酸の切断がシグナルパルスを生じさせ、これらのイベントは標識アフィニティ試薬310の結合パルスよりも低い頻度で生じる。シグナルトレース300にさらに示されているように、いくつかの実施形態では、複数の標識アフィニティ試薬が使用されてもよく、それぞれが診断パルスパターンを有し、対応する末端アミノ酸を同定するべく使用されてもよい。
【0098】
図4は、
図3のアプローチについて説明および図示した方法を、末端および内部の両方の位置で1種類のアミノ酸(ここではリジンとして示す)に選択的結合して解離する標識アフィニティ試薬410を使用することで変更した、配列決定の例示的な手法を示す(
図4、挿入パネル)。前述のアプローチで説明したように、選択的結合は、シグナルトレース400に一連のパルスを生じさせる。しかし、このアプローチでは、一連のパルスは、ポリペプチド全体のアミノ酸の種類の数によって決定される可能性のある速度で発生する。したがって、いくつかの実施形態では、結合イベントに対応するパルスのレートは、ポリペプチドに現在存在するコグネートアミノ酸の数を診断することになる。
【0099】
従来のアプローチと同様に、標識非特異的ペプチダーゼ420は、例えば、切断イベント同士の間に最適な時間窓を与えるべく、標識アフィニティ試薬410よりも比較的低い濃度で存在するであろう(
図4、挿入パネル)。いくつかの実施形態では、標識非特異的ペプチダーゼ420の一意に同定可能な発光標識が、切断イベントが発生したときに示すことができる。ポリペプチドが反復的な切断を受けると、標識アフィニティ試薬410による結合に対応するパルスレートは、末端アミノ酸が標識非特異的ペプチダーゼ420によって切断するたびに、段階的に低下するであろう。この概念はプロット401によって示されており、このプロットは一般にパルスレートを時間の関数として描いており、時間内の切断イベントは矢印で示されている。このように、いくつかの実施形態では、パルスパターンおよび/または切断イベント同士間で検出されたパターン内で発生するパルスレートに基づき、このアプローチでアミノ酸を同定し、それによってポリペプチドを配列することができる。
【0100】
[タンパク質同定のための機械学習技術]
図5Aは、説明した技術の側面が実施され得るシステム500を示す。システム500は、タンパク質配列決定装置502、モデル学習システム504、およびデータストア506を備えており、これらの各々はネットワーク508に接続されている。
【0101】
いくつかの実施形態では、タンパク質配列決定装置502は、(例えば、
図1~
図4を参照して上述したような)タンパク質のポリペプチドの配列決定から得られたデータを、保存のためにデータストア506に送信するように構成されてもよい。タンパク質配列決定装置502によって収集され得るデータの例は、本明細書に記載されている。タンパク質配列決定装置502は、ネットワーク508を介してモデル学習システム504から機械学習モデルを取得するように構成されてもよい。いくつかの実施形態では、タンパク質配列決定装置502は、学習済み機械学習モデルを使用してポリペプチドを同定するように構成されてもよい。タンパク質配列決定装置502は、(1)ポリペプチドのアミノ酸配列決定から収集されたデータにアクセスする工程と、(2)学習済み機械学習モデルへの入力としてデータを提供して出力を得る工程と、および(3)対応する出力を使用してポリペプチドを同定する工程と、の方法で未知のポリペプチドを同定するように構成されてもよい。タンパク質配列決定装置502の構成要素は、
図5B~
図5Cを参照して本明細書に記載されている。
【0102】
図5Aに示される例示的なシステム500は、単一のタンパク質配列決定装置を示しているが、いくつかの実施形態では、システム500は、複数のタンパク質配列決定装置を備えてもよい。
【0103】
いくつかの実施形態では、モデル学習システム504は、データストア506に格納されたデータにアクセスし、アクセスされたデータを使用して、ポリペプチドを同定する際に使用する機械学習モデルを学習するように構成されたコンピューティング装置であってもよい。いくつかの実施形態では、モデル学習システム504は、複数のタンパク質配列決定装置のそれぞれについて別個の機械学習モデルを学習するように構成されてもよい。例として、モデル学習システム504は、以下を行ってもよい。(1)アミノ酸配列決定から第1タンパク質配列決定装置によって収集されたデータを使用して、第1タンパク質配列決定装置のための第1機械学習モデルを学習し、(2)アミノ酸配列決定から第2タンパク質配列決定装置によって収集されたデータを使用して、第2タンパク質配列決定装置のための第2機械学習モデルを学習する。それぞれの装置のための別個の機械学習モデルは、それぞれのタンパク質配列決定装置の固有の特性に合わせてもよい。いくつかの実施形態では、モデル学習システム504は、単一の学習済み機械学習モデルを複数のタンパク質配列決定装置に提供するように構成されてもよい。一例として、モデル学習システム504は、複数のタンパク質配列決定装置によって実行されるアミノ酸配列決定から収集されたデータを集約し、単一の機械学習モデルを学習してもよい。単一の機械学習モデルは、装置のばらつきに起因するモデルパラメータを緩和するべく、複数のタンパク質配列決定装置に対して正規化されてもよい。
【0104】
いくつかの実施形態では、モデル学習システム504は、以前に学習済み機械学習モデルを定期的に更新するように構成されてもよい。いくつかの実施形態では、モデル学習システム504は、新しい学習データを使用して機械学習モデルの1つまたは複数のパラメータの値を更新することで、以前に学習済みモデルを更新するように構成されてもよい。いくつかの実施形態では、モデル学習システム504は、以前に取得された学習データと新しい学習データとの組み合わせを使用して新しい機械学習モデルを学習することで、機械学習モデルを更新するように構成されてもよい。
【0105】
モデル学習システム504は、異なるタイプのイベントのいずれか1つに応答して機械学習モデルを更新するように構成されてもよい。例えば、いくつかの実施形態では、モデル学習システム504は、ユーザコマンドに応答して機械学習モデルを更新するように構成されてもよい。一例として、モデル学習システム504は、ユーザが学習処理の実行を命令することができるユーザインタフェースを提供してもよい。いくつかの実施形態では、モデル学習システム504は、例えば、ソフトウェアコマンドに応答して、機械学習モデルを自動的に(すなわち、ユーザコマンドに応答せずに)更新するように構成されてもよい。別の例として、いくつかの実施形態では、モデル学習システム504は、1つまたは複数の条件を検出することに応答して、機械学習モデルを更新するように構成されてもよい。例えば、モデル学習システム504は、或る期間の満了を検出することに応答して、機械学習モデルを更新してもよい。別の例として、モデル学習システム504は、閾値量の新しい学習データを受け取ることに応答して、機械学習モデルを更新してもよい。
【0106】
いくつかの実施形態では、モデル学習システム504は、ラベル付けされた学習データに教師付き学習学習アルゴリズムを適用することで、機械学習モデルを学習するように構成されてもよい。一例として、モデル学習システム504は、確率的勾配降下法を用いて深層学習モデル(例えば、ニューラルネットワーク)を学習するように構成されてもよい。別の例として、モデル学習システム504は、コスト関数を最適化することでSVMの決定境界を同定するべく、サポートベクターマシン(SVM)を学習してもよい。いくつかの実施形態では、モデル学習システム504は、教師なし学習アルゴリズムを学習データに適用することで、機械学習モデルを学習するように構成されてもよい。一例として、モデル学習システム504は、k-meansクラスタリングを実行することで、クラスタリングモデルのクラスタを同定してもよい。いくつかの実施形態では、モデル学習システム504は、半教師付き学習アルゴリズムを学習データに適用することで、機械学習モデルを学習するように構成されてもよい。一例として、モデル学習システム504は、(1)教師なし学習アルゴリズム(例えば、クラスタリング)を学習データに適用することで、ラベル付けされていない学習データセットをラベル付けし、(2)ラベル付けされた学習データに教師あり学習アルゴリズムを適用する、ようにしてもよい。
【0107】
いくつかの実施形態では、機械学習モデルは、深層学習モデル(例えば、ニューラルネットワーク)を備えてもよい。一例として、深層学習モデルは、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、多層パーセプトロン、オートエンコーダおよび/またはコネクショニスト時間分類CTC適合ニューラルネットワークモデルを備えてもよい。いくつかの実施形態では、機械学習モデルは、クラスタリングモデルを備えてもよい。一例として、クラスタリングモデルは、複数のクラスタを備えてもよく、クラスタの各々は、1つまたは複数のアミノ酸に関連付けられている。
【0108】
いくつかの実施形態では、機械学習モデルは、1つまたは複数の混合モデルを備えてもよい。モデル学習システム504は、機械学習モデルのグループ(例えば、クラスまたはグループ)のそれぞれについて、混合モデルを学習するように構成されてもよい。一例として、機械学習モデルは、6つの異なるグループを備えてもよい。モデル学習システム504は、グループのそれぞれについて、ガウス混合モデル(GMM)を学習してもよい。モデル学習システム504は、それぞれのグループに関連するアミノ酸(複数可)を含む結合相互作用の学習データを使用して、それぞれのグループについてガウス混合モデルGMMを学習してもよい。機械学習モデルの前述の例は非限定的な例であり、本明細書に記載された技術の側面はこの点では限定されないので、他の実施形態では任意の他の適切なタイプの機械学習モデルが使用されてもよいことが理解されるべきである。
【0109】
いくつかの実施形態では、データストア506は、データを格納するためのシステムであってもよい。いくつかの実施形態では、データストア506は、1つまたは複数のコンピュータ(例えば、サーバ)によってホストされる1つまたは複数のデータベースを備えてもよい。いくつかの実施形態では、データストア506は、1つまたは複数の物理的記憶装置を備えてもよい。一例として、物理的記憶装置は、1つまたは複数のソリッドステートドライブ、ハードディスクドライブ、フラッシュドライブ、および/または光学ドライブを備えてもよい。いくつかの実施形態では、データストア506は、データを格納する1つまたは複数のファイルを備えてもよい。一例として、データストア506は、データを格納する1つまたは複数のテキストファイルを備えてもよい。別の例として、データストア506は、1つまたは複数のXMLファイルを備えてもよい。いくつかの実施形態では、データストア506は、コンピューティング装置のストレージ(例えば、ハードドライブ)であってもよい。いくつかの実施形態では、データストア506は、クラウドストレージシステムであってもよい。
【0110】
いくつかの実施形態では、ネットワーク508は、無線ネットワーク、有線ネットワーク、またはそれらの任意の適切な組み合わせであってもよい。一例として、ネットワーク508は、インターネットのようなワイドエリアネットワーク(WAN)であってもよい。いくつかの実施形態では、ネットワーク508は、ローカルエリアネットワーク(LAN)であってもよい。ローカルエリアネットワークは、タンパク質配列決定装置502、モデル学習システム504、およびデータストア506の間の有線および/または無線接続によって形成されてもよい。いくつかの実施形態は、本明細書に記載される任意の特定のタイプのネットワークに限定されない。
【0111】
図5Bは、本明細書に記載の技術のいくつかの実施形態による、
図5Aに示すタンパク質配列決定装置502の構成要素を示す。タンパク質配列決定装置502は、1つまたは複数の励起源502A、1つまたは複数のウェル502B、1つまたは複数のセンサ502C、およびタンパク質同定システム502Dを備えている。
【0112】
いくつかの実施形態では、励起源(複数可)502Aは、複数の異なるウェル502Bに励起エネルギー(例えば、光のパルス)を印加するように構成される。いくつかの実施形態では、励起源(複数可)502Aは、1つまたは複数の発光器であってもよい。一例として、励起源(複数可)502Aは、レーザ光のパルスを放出する1つまたは複数のレーザ発光器を備えてもよい。別の例として、励起源(複数可)502Aは、光のパルスを放出する1つまたは複数の発光ダイオード(LED)光源を備えてもよい。いくつかの実施形態では、励起源(複数可)502Aは、放射線を生成する1つまたは複数の装置であってもよい。一例として、励起源(複数可)502Aは、紫外線(UV)光線を放出してもよい。
【0113】
いくつかの実施形態では、励起源(複数可)502Aは、ウェル502Bに印加される励起パルスを生成するように構成されてもよい。いくつかの実施形態では、励起パルスは、光のパルス(例えば、レーザ光)であってもよい。励起源(複数可)502Aは、励起パルスをウェル502Bに向けるように構成されてもよい。いくつかの実施形態では、励起源(複数可)502Aは、それぞれのウェルに励起パルスを繰り返し印加するように構成されてもよい。一例として、励起源(複数可)502Aは、100MHzの周波数でレーザパルスを放出してもよい。発光標識に光パルスを印加すると、発光標識が発光してもよい。一例として、発光標識は、印加された光パルスの1つまたは複数の光子を吸収し、それに応答して、1つまたは複数の光子を放出してもよい。発光標識(例えば、発光分子)の種類によって、励起エネルギーの印加に対する反応が異なる場合がある。例として、異なるタイプの発光標識は、光のパルスに応答して異なる数の光子を放出し、および/または光のパルスに応答して異なる周波数で光子を放出することがある。
【0114】
いくつかの実施形態では、ウェル(複数可)502Bのそれぞれは、検体の1つまたは複数のサンプル(例えば、タンパク質ポリペプチドのサンプル)を保持するように構成された容器を備えてもよい。いくつかの実施形態では、1つまたは複数の試薬とポリペプチドのアミノ酸との結合相互作用が、(例えば、
図1~
図4を参照して上述したように)ウェル(複数の)502Bで行われてもよい。試薬(複数可)は、発光標識で標識(標識付け)されていてもよい。励起源502Aによって印加された励起エネルギーに応答して、発光標識は光を放出してもよい。
【0115】
図5Bの例示的な実施形態に示すように、いくつかの実施形態では、ウェル(複数可)502Bは、ウェルのマトリクスに配置されてもよい。マトリックス内の各ウェルは、検体の1つまたは複数のサンプルを保持するように構成された容器を備えてもよい。いくつかの実施形態では、ウェル(複数可)502Bは、
図5Bに図示されたものとは異なる配置で配置されてもよい。一例として、ウェル(複数可)502Bは、中心軸の周りに放射状に配置されてもよい。いくつかの実施形態は、ウェル(複数可)502Bの特定の配置に限定されない。
【0116】
いくつかの実施形態では、センサ(複数可)502Cは、ウェル(複数可)502Bからの(例えば、発光標識による)発光を検出するように構成されてもよい。いくつかの実施形態では、センサ(複数可)502Cは、検出された発光を電気シグナルに変換するように構成された1つまたは複数の光検出器であってもよい。一例として、センサ(複数可)502Cは、発光を電気電圧または電流に変換してもよい。電気的な電圧または電流は、さらにデジタルシグナルに変換されてもよい。生成されたシグナルは、ポリペプチドの同定のために(例えば、タンパク質同定システム502によって)使用されてもよい。いくつかの実施形態では、センサ(複数可)502Cによって生成されたシグナルは、発光の様々な特性の値を得るべく処理されてもよい。一例として、シグナルは、発光の強度、発光の持続時間、発光同士間の持続時間、および発光の寿命の値を得るべく処理されてもよい。
【0117】
いくつかの実施形態では、センサ(複数可)502Cは、測定期間にわたって発光標識による発光を測定するように構成されてもよい。一例として、センサ(複数可)502Cは、10msの測定期間にわたって光子の数を測定してもよい。いくつかの実施形態において、発光標識は、それぞれの確率での励起に応じて光子を放出してもよい。一例として、発光標識は、10,000回の励起につき、1個の光子を放出することができる。発光標識が10msの測定期間内に100万回励起された場合、この例では、約100個の光子がセンサ(複数可)502Cによって検出される可能性がある。異なる発光標識は、異なる確率で光子を放出してもよい。いくつかの実施形態は、本明細書に記載された値が例示目的であるので、本明細書に記載された光子放出の特定の確率に限定されない。
【0118】
いくつかの実施形態では、センサ(複数可)502Cは、励起パルス(例えば、レーザパルス)の印加後の時間期間(タイムピリオド)の複数の時間区間(タイムインターバル)のそれぞれにおいて検出された光子の数(「光子カウント」)を決定するように構成されてもよい。本明細書では、時間区間を「interval」、「bin」(ビン)、または「time bin」(時間ビン)と呼ぶこともある。一例として、センサ(複数可)502Cは、励起パルスの印加後、約3nsの第1時間区間で検出された光子の数と、レーザパルスの印加後、約3nsの第2時間区間で検出された光子の数とを決定してもよい。いくつかの実施形態では、各時間区間は実質的に同じ持続時間を有していてもよい。いくつかの実施形態では、各時間区間は、異なる持続時間を有してもよい。いくつかの実施形態では、センサ(複数可)502Cは、励起パルスの印加後の時間期間の2、3、4、5、6、または7つの時間区間で検出された光子の数を決定するように構成されてもよい。いくつかの実施形態は、センサ(複数可)502Cが検出された光子の数を決定するように構成される時間区間の任意の数に限定されない。
【0119】
いくつかの実施形態では、タンパク質同定システム502Dは、センサ(複数可)502Cによって収集されたデータに基づきポリペプチドを同定するように構成されたコンピューティング装置であってもよい。タンパク質同定システム502Dは、ポリペプチドを同定するべくタンパク質同定システム502Dによって使用される機械学習モデルを備えている。いくつかの実施形態では、学習済み機械学習モデルは、
図5Aを参照して上述したモデル学習システム504から得られてもよい。タンパク質同定システム502Dによって使用され得る機械学習モデルの例は、本明細書に記載されている。いくつかの実施形態では、タンパク質同定システム502Dは、ポリペプチドを同定する際に使用するための出力を得るべく、センサ(複数可)502Cによって収集されたデータを使用して、機械学習モデルへの入力を生成するように構成されてもよい。
【0120】
いくつかの実施形態では、タンパク質同定システム502Dは、センサ(複数可)502Cによって収集されたデータを処理して、機械学習モデルへの入力として提供するためのデータを(追加の前処理を伴ってまたは伴わずに)生成するように構成されてもよい。一例として、タンパク質同定システム502Dは、センサ(複数可)502Cによって検出された結合相互作用の1つまたは複数の特性の値を決定することで、機械学習モデルへの入力として提供するデータを生成してもよい。結合相互作用の例示的な特性は、本明細書に記載されている。いくつかの実施形態では、タンパク質同定システム502Dは、データをデータ構造(例えば、行列または画像)に配置することで、機械学習モデルへの入力として提供するデータを生成するように構成されてもよい。一例として、タンパク質同定システム502Dは、1つまたは複数の励起パルス(例えば、レーザパルス)の印加後の時間区間で検出された光子カウントを同定してもよい。タンパク質同定システム502Dは、光子カウントを、機械学習モデルに入力するためのデータ構造に配列するように構成されてもよい。一例として、タンパク質同定システム502Dは、励起パルスに続く光子カウント(計数)を行列の列または行に配列してもよい。別の例として、タンパク質同定システム502Dは、機械学習モデルに入力するための画像を生成してもよく、画像の画素は、それぞれの光子カウントを指定する。
【0121】
いくつかの実施形態では、タンパク質同定システム502Dは、発光標識による発光の強度の指標を決定するように構成されてもよく、これは、本明細書では「発光強度」と呼ばれてもよい。発光強度は、励起エネルギー(例えば、レーザパルス)の印加に応答して発光標識が単位時間当たりに放出する光子の数であってもよい。一例として、タンパク質同定システム502Dが、励起パルスの印加後の10nsの測定時間期間に全5個の光子が検出されたと判定した場合、タンパク質同定システム502Dは、発光強度の値を0.5光子/nsと判定してもよい。いくつかの実施形態では、タンパク質同定システム502Dは、複数の励起パルスの各々の印加後に検出された光子の総数に基づき、発光強度の表示を決定するように構成されてもよい。いくつかの実施形態では、タンパク質同定システム502Dは、複数の励起パルスの印加後に検出された光子の平均数を、発光強度の指示に決定してもよい。
【0122】
いくつかの実施形態では、タンパク質同定システム502Dは、発光標識による発光の寿命の指標を決定するように構成されてもよく、これは、本明細書で「発光寿命」と呼ばれてもよい。発光寿命は、光子放出の確率が時間とともに減衰する速度であってもよい。一例として、タンパク質同定システム502Dが、励起パルスの印加後の時間期間の2つの区間で検出された光子の数を決定する場合、タンパク質同定システム502Dは、第1区間の光子の数に対する第2区間の光子の数の比を、光子放出の経時的な減衰の指標と決定してもよい。
【0123】
いくつかの実施形態では、タンパク質同定システム502Dは、試薬とアミノ酸との結合相互作用について検出された1つまたは複数のシグナルパルスのそれぞれの持続時間の指標を決定するように構成されてもよい。シグナルパルスの持続時間は、本明細書では、「パルス持続時間」とも呼ばれることがある。例えば、試薬とアミノ酸との結合相互作用中、試薬および/またはアミノ酸が標識されている発光標識は、1つまたは複数の光のパルスを放出してもよい。いくつかの実施形態では、タンパク質同定システム502Dは、光パルスの持続時間をパルス持続時間値として決定するように構成されてもよい。一例として、上述した
図3は、標識試薬310とアミノ酸(K)との結合相互作用中に放出される一連の光のパルスを示している。タンパク質同定システム502Dは、パルス持続時間値を、
図3に示されるアミノ酸(K)を含む結合相互作用のための光のパルスの持続時間に決定するように構成されてもよい。いくつかの実施形態では、タンパク質同定システム502Dは、パルス持続時間値を、電気センサ(例えば、電圧センサ)によって検出された電気パルスの持続時間に決定するように構成されてもよい。いくつかの実施形態は、パルス持続時間を検出する特定の技術に限定されない。
【0124】
いくつかの実施形態では、タンパク質同定システム502Dは、試薬とアミノ酸との結合相互作用について検出された連続するシグナルパルス同士間の時間の持続時間の指標を決定するように構成されてもよい。連続するシグナルパルス同士間の時間の持続時間は、本明細書では、「パルス同士間持続時間」(インターパルスデュアレーション)とも呼ばれることがある。それぞれの結合相互作用中に、発光標識は複数のパルスを発光してもよい。いくつかの実施形態では、タンパク質同定システム502Dは、パルス同士間持続時間の値を、2つの連続する光のパルスの間の時間の持続時間と決定するように構成されてもよい。一例として、タンパク質同定システム502Dは、パルス同士間持続時間値を、
図3に示すアミノ酸(K)と試薬の結合相互作用のための光パルス同士間の時間の持続時間と決定してもよい。いくつかの実施形態では、タンパク質同定システム502Dは、パルス同士間持続時間値を、電気センサ(例えば、電圧センサ)によって検出された電気パルス同士間の持続時間に決定するように構成されてもよい。いくつかの実施形態は、パルス持続時間を検出する特定の技術に限定されない。
【0125】
いくつかの実施形態では、タンパク質同定システム502Dは、本明細書に記載される結合相互作用の1つまたは複数の特性から決定される1つまたは複数のパラメータの値を決定するように構成されてもよい。いくつかの実施形態では、タンパク質同定システム502Dは、特性の値のセットにわたる要約統計を決定するように構成されてもよい。一例として、システムは、パルス持続時間値、パルス同士間持続時間値、発光強度値、発光寿命値、及び/又は波長値のセットの平均値、中央値、標準偏差、及び/又は範囲を決定してもよい。いくつかの実施形態では、タンパク質同定システム502Dは、結合反応の平均パルス持続時間値を決定するように構成されてもよい。一例として、タンパク質同定システム502Dは、
図3に示すアミノ酸(K)の結合相互作用の平均パルス持続時間値を、結合相互作用中に放出される光パルスの平均持続時間と決定してもよい。いくつかの実施形態では、タンパク質同定システム502Dは、結合反応の平均パルス同士間持続時間値を決定するように構成されてもよい。一例として、タンパク質同定システム502Dは、
図3に示すアミノ酸(K)の結合相互作用についての平均パルス同士間持続時間値を、結合相互作用中に放出された連続する光パルス同士間の持続時間の平均値と決定してもよい。いくつかの実施形態では、パラメータは、試薬および/または発光標識の特性を備えてもよい。いくつかの実施形態では、特性は、特性の値を用いた試薬および/または発光標識の速度定数を備えてもよい。一例として、システムは、パルス持続時間および/またはパルス同士間持続時間の値を用いて、結合親和性(K
D)、結合のオン率(k
on)、および/または結合のオフ率(k
off)を決定してもよい。
【0126】
いくつかの実施形態では、タンパク質同定システム502Dは、パルス持続時間とパルス同士間持続時間との比、発光寿命と発光強度との比、および/または、特性の値から決定され得る他の値を示す値を決定するように構成されてもよい。
【0127】
いくつかの実施形態では、タンパク質同定システム502Dは、提供された入力に応答して、学習済み機械学習モデルから出力を得るように構成されてもよい。タンパク質同定システム502Dは、ポリペプチドを同定するべく出力を使用するように構成されてもよい。いくつかの実施形態では、出力は、ポリペプチド内の複数の位置のそれぞれについて、1つまたは複数のアミノ酸がポリペプチド内の位置に存在するという1つまたは複数の尤度を示してもよい。一例として、出力は、位置のそれぞれについて、20個の天然に存在するアミノ酸のそれぞれがその位置に存在するという尤度を示してもよい。いくつかの実施形態において、タンパク質同定システム502Dは、尤度を正規化するように構成されてもよく、正規化されてもよく正規化されなくてもよい。いくつかの実施形態では、正規化された尤度は、「確率」または「正規化された尤度」と呼ばれてもよい。いくつかの実施形態では、確率の合計は1になってもよい。例えば、或る位置に4つのアミノ酸が存在することの尤度は、5、5、5、5であってもよい。この例の確率(または正規化された尤度)は、0.25、0.25、0.25、および0.25であってもよい。
【0128】
いくつかの実施形態では、ポリペプチド内の複数の位置のそれぞれについて、出力は、アミノ酸のそれぞれについて、そのアミノ酸がその位置に存在するという確率を示す確率分布であってもよい。また、各アミノ酸について、他のアミノ酸との相対的位置関係の確率を示してもよいし、ポリペプチド内のアミノ酸の絶対的な位置関係の確率を示してもよい。各位置について、例えば、出力は、20個のアミノ酸のそれぞれについて、そのアミノ酸がその位置に存在するという確率を示す値を指定する。いくつかの実施形態では、タンパク質同定システム502Dは、ポリペプチドのアミノ酸配列を同定する出力を得るように構成されてもよい。一例として、機械学習モデルの出力は、ポリペプチドの一部を形成するアミノ酸の鎖を同定する文字列であってもよい。
【0129】
いくつかの実施形態では、タンパク質同定システム502Dは、機械学習モデルから得られた出力を使用して、ポリペプチドを同定するように構成されてもよい。いくつかの実施形態では、タンパク質同定システム502Dは、機械学習モデルから得られた出力を、タンパク質のデータベース内のタンパク質に照合するように構成されてもよい。いくつかの実施形態では、タンパク質同定システム502Dは、それぞれのタンパク質を指定する既知のアミノ酸配列のデータストアにアクセスしてもよい。タンパク質同定システム502Dは、機械学習モデルからの出力が最もよく一致するアミノ酸配列をデータストアから同定することで、機械学習モデルの出力をタンパク質に一致させるように構成されてもよい。一例として、出力が、ポリペプチド内の位置に様々なアミノ酸が存在するという尤度を示している場合、システムは、データストア内の配列から、出力が最も密接に整合するアミノ酸配列を同定してもよい。タンパク質同定システム502Dは、同定されたアミノ酸配列によって指定されたそれぞれのタンパク質を、そのタンパク質であると同定してもよい。
【0130】
いくつかの実施形態では、タンパク質同定システム502Dは、機械学習システムから得られた出力に基づき隠れマルコフモデル(HMM)を生成し、既知のアミノ酸配列に対して隠れマルコフモデルHMMを照合するように構成されてもよい。タンパク質同定システム502Dは、隠れマルコフモデルHMMが照合されたアミノ酸配列に関連するタンパク質を同定してもよい。別の例として、機械学習システムの出力は、アミノ酸配列を同定してもよい。タンパク質同定システム502Dは、機械学習システムの出力によって同定されたアミノ酸配列に最も近く一致するアミノ酸配列をデータストアから選択してもよい。タンパク質同定システム502Dは、機械学習システムの出力によって同定されたアミノ酸配列との不一致が最も少ない既知のアミノ酸配列を決定することで、最密一致を決定してもよい。タンパク質同定システム502Dは、タンパク質を、データストアから選択されたアミノ酸配列に関連するものとして同定してもよい。
【0131】
いくつかの実施形態では、タンパク質同定システム502Dは、タンパク質配列決定装置502を較正するように構成されてもよい。いくつかの実施形態では、タンパク質同定システム502Dは、機械学習モデルを学習することでタンパク質配列決定装置502を較正するように構成されてもよい。タンパク質同定システム502Dは、モデル学習システム504を参照して説明したアプローチのうちの1つまたは複数を使用して、機械学習モデルを学習するように構成されてもよい。
【0132】
いくつかの実施形態では、タンパク質同定システム502Dは、1つまたは複数の既知のポリペプチド(例えば、アミノ酸配列(複数可)が一部または全体のいずれかで既知である)に関連するデータを使用して機械学習モデルを学習することで、タンパク質配列決定装置502を較正するように構成されてもよい。既知のポリペプチド配列に関連するデータを用いて学習を実行することで、タンパク質同定システム502Dは、異なるアミノ酸および/またはタンパク質をより正確に区別する出力を提供する機械学習モデルを得ることができる。いくつかの実施形態では、タンパク質同定システム502Dは、アミノ酸配列が一部または全体のいずれかで知られているポリペプチドのアミノ酸との試薬の結合相互作用中の発光標識による検出された発光から得られたデータを使用するように構成されてもよい。いくつかの実施形態では、タンパク質同定システム502Dは、機械学習モデルが出力を生成するべく使用することができる1つまたは複数のグループ(例えば、クラスおよび/またはクラスタ)を同定するべく、データに学習アルゴリズムを適用するように構成されてもよい。
【0133】
いくつかの実施形態では、機械学習モデルは、クラスタリングモデルを備えてもよく、タンパク質同定システム502Dは、クラスタリングモデルのクラスタを同定するべく教師なし学習アルゴリズム(例えば、k-means)を適用することで、タンパク質配列決定装置502を較正するように構成されてもよい。次に、同定されたクラスタは、未知のポリペプチドを同定する際に使用するための出力を生成するべく、機械学習モデルによって使用されてもよい。一例として、タンパク質同定システム502Dは、機械学習モデルに入力されたデータに対する出力を生成するべく、機械学習モデルによって使用され得る、クラスタのセントロイドを同定してもよい。別の例として、タンパク質同定システム502Dは、アミノ酸の異なるグループ間の境界を同定してもよい(例えば、パルス持続時間、パルス同士間持続時間、波長、発光強度、発光寿命、及び/又は、これら及び/又は他の特性から導出される他の値に基づいて)。そして、境界に対するデータ点の相対的位置は、機械学習モデルによって、機械学習モデルへのそれぞれの入力に対する出力を生成するべく使用されてもよい。
【0134】
いくつかの実施形態では、タンパク質同定システム502Dは、ウェル502Bのそれぞれについてタンパク質配列決定装置502を較正するように構成されてもよい。タンパク質同定システム502Dは、個々のウェルについて、個々のウェルで行われた結合相互作用について得られたデータを用いて、それぞれの機械学習モデルを学習するように構成されてもよい。これによって、個々のウェル502Bに合わせて微調整されたタンパク質配列決定装置502が提供されることになる。いくつかの実施形態では、タンパク質同定システム502Dは、複数のウェルに対してタンパク質配列決定装置502を較正するように構成されてもよい。タンパク質同定システム502Dは、配列決定装置(シーケンサ)の複数のウェルにわたって行われた結合相互作用について得られたデータを用いて、機械学習モデルを学習するように構成されてもよい。いくつかの実施形態では、タンパク質同定システム502Dは、複数のウェルに対して使用され得る一般化モデルを得るように構成されてもよい。一般化されたモデルは、個々のウェルから得られたデータの特異性を平均化または他の方法で平滑化してもよく、複数のウェルにわたって良好な性能を有してもよいが、特定のウェルに合わせたモデルは、特定のウェルから得られた将来のデータでは良好な性能を示しても、複数の異なるウェルからの将来のデータでは良好な性能を示さなくてもよい。
【0135】
いくつかの実施形態では、タンパク質同定システム502Dは、個々のウェルから得られたデータを使用して、複数のウェルのために作成された一般化されたモデルを、特定の個々のウェルに適応させるように構成されてもよい。一例として、タンパク質同定システム502Dは、ウェルにおける結合相互作用について得られたデータに基づき、それぞれのウェルに対する一般化モデルのクラスタセントロイドを修正してもよい。
【0136】
複数のウェルについて単一のモデルを較正することは、個々のウェルからより少ないデータを必要とするという利点を有し、したがって、較正に使用するためのデータを収集するべく、個々のウェルについて個別のモデルを学習するべく必要とされるよりも少ない実行時間を必要とする場合がある。一般化されたモデルを使用することの別の利点は、単一のモデルを格納することが、タンパク質配列決定装置502の各ウェルに対して個別のモデルを格納するべく必要とされるよりも、より少ないメモリを必要とし得ることである。
【0137】
較正は、任意の適切な時間に実行されてもよい。例えば、較正は、タンパク質配列決定装置502を最初に使用する前に、新しい標識のセットを使用する際に、タンパク質配列決定装置502が使用される環境条件が変化した際に、またはタンパク質配列決定装置502の構成要素の老化を考慮するべく使用期間の後に、望ましいかもしれない。較正はまた、装置のボタンを押すか、他の装置から装置に較正コマンドを送信するなど、ユーザからの要求に応じて、またはソフトウェアコマンドに応じて、スケジュールに基づいてまたは必要に応じて自動的に実行されてもよい。
【0138】
図5Cは、タンパク質配列決定装置502のウェル502B部分の例示的なウェルを示している。
図5Cの例示された例では、ウェルは、配列決定されているタンパク質のサンプル502Fと、サンプル502Fのアミノ酸に結合する試薬502Gとを保持している。
【0139】
いくつかの実施形態では、タンパク質のサンプル502Fは、タンパク質の1つまたは複数のポリペプチドを備えてもよい。ポリペプチド(複数可)は、
図5Cに示されるように、ウェルの表面に固定化されてもよい。いくつかの実施形態では、サンプル502Fのデータは、サンプル502Fの末端アミノ酸との1つまたは複数の試薬502Gの連続した結合および切断の相互作用に基づき、センサ(複数可)によって収集されてもよい。いくつかの実施形態では、試薬502Gは、実質的に同時にサンプル502Fのアミノ酸に結合してもよい。いくつかの実施形態では、複数の種類の試薬が、アミノ酸のすべてまたはサブセットに結合するように設計されてもよい。アミノ酸に結合する1つまたは複数の試薬の組み合わせは、ポリペプチドを同定するべく使用することができる結合相互作用の特性の検出値(例えば、発光強度、発光寿命、パルス持続時間、パルス同士間持続時間、波長、および/またはそれに由来する任意の値)をもたらしてもよい。いくつかの実施形態では、試薬(例えば、分子)の組み合わせのそれぞれは、異なる特性を有していてもよい。一例として、試薬の各々は、異なる結合親和性(K
D)、結合率(k
on)、および/または結合オフ率(k
off)を有していてもよい。別の例として、試薬および/またはアミノ酸に関連する発光標識は、異なる蛍光特性を有していてもよい。試薬および試薬とアミノ酸との結合相互作用の例は、
図1~
図4を参照して本明細書に記載されている。
【0140】
いくつかの実施形態では、試薬502Gは、発光標識でタグ付けされてもよい。試薬は、
図1~
図4を参照して上述したように、1つまたは複数のアミノ酸に選択的結合するように設計されてもよい。いくつかの実施形態では、ポリペプチド502Fの1つまたは複数のアミノ酸は、発光標識でタグ付けされてもよい。一例として、1つまたは複数の種類のアミノ酸が発光標識でタグ付けされてもよい。励起源(複数可)502Aは、1つまたは複数の試薬502Gとポリペプチド502Fのアミノ酸との間で結合相互作用が起こる際に、励起エネルギー(例えば、光パルス)をウェルに印加してもよい。励起エネルギーの印加によって、試薬502Gおよび/またはアミノ酸がタグ付けされている発光標識による発光が生じてもよい。発光は、センサ502Cによって検出され、データを生成してもよい。次いで、データは、本明細書に記載されるように、ポリペプチドを同定するべく使用されてもよい。
【0141】
図5A~
図5Cの例示的な実施形態は、発光標識による発光の検出から得られる結合相互作用データの使用を説明しているが、いくつかの実施形態では、他の技術を用いて結合相互作用データを得てもよい。いくつかの実施形態では、タンパク質配列決定装置は、結合相互作用について検出された電気シグナルの検出から得られた結合相互作用データにアクセスするように構成されてもよい。例えば、タンパク質配列決定装置は、結合相互作用に敏感な電圧シグナルを検出する電気シグナルを備えてもよい。タンパク質同定システム502Dは、電圧シグナルを使用して、パルス持続時間値および/またはパルス同士間持続時間値を決定するように構成されてもよい。いくつかの実施形態は、試薬とアミノ酸の結合相互作用を検出する特定の技術に限定されない。
【0142】
図6Aは、本明細書に記載の技術のいくつかの実施形態による、ポリペプチドを同定するための機械学習モデルを学習するための例示的な処理600を示す。処理600は、任意の適切なコンピューティング装置(複数可)によって実行されてもよい。一例として、処理600は、
図5Aを参照して説明したモデル学習システム504によって実行されてもよい。処理600は、本明細書に記載の機械学習モデルを学習するべく実行されてもよい。一例として、処理600は、
図10A~
図10Cを参照して説明したようなクラスタリングモデルおよび/またはガウス混合モデル(GMM)を学習するべく実行されてもよい。別の例として、処理600は、
図11を参照して説明した畳み込みニューラルネットワーク(CNN)1100を学習するべく実行されてもよい。別の例として、処理600は、
図12を参照して記述されたコネクショニスト時間分類(CTC)適合ニューラルネットワークモデル1200を学習するべく実行されてもよい。
【0143】
いくつかの実施形態では、機械学習モデルは、クラスタリングモデルであってもよい。いくつかの実施形態では、モデルの各クラスタは、1つまたは複数のアミノ酸に関連付けられてもよい。例示的な例として、クラスタリングモデルは、5つのクラスタを備えてもよく、各クラスタは、アミノ酸のそれぞれのセットに関連付けられる。例えば、第1クラスタは、アラニン、イソロイシン、ロイシン、メチオニン、およびバリンに関連付けられてもよく、第2クラスタは、アスパラギン、システイン、グルタミン、セリン、およびスレオニンに関連付けられてもよく、第3クラスタは、アルギニン、ヒスチジン、およびリジンに関連付けられてもよく、第4クラスタは、アスパラギン酸およびグルタミン酸に関連付けられてもよく、第5クラスタは、フェニルアラニン、トリプトファン、およびチロシンに関連付けられてもよい。クラスタおよび関連するアミノ酸の例示番号は、例示の目的で本明細書に記載されている。いくつかの実施形態は、任意の特定の数のクラスタまたは本明細書に記載された特定のセットのアミノ酸との関連に限定されない。
【0144】
いくつかの実施形態では、機械学習モデルは、深層学習モデルであってもよい。いくつかの実施形態では、深層学習モデルは、ニューラルネットワークであってもよい。一例として、機械学習モデルは、畳み込みニューラルネットワークCNNへの入力として提供されたデータセットに対して、ポリペプチドの1つまたは複数のアミノ酸を同定する出力を生成する畳み込みニューラルネットワーク(CNN)であってもよい。別の例として、機械学習モデルは、コネクショニスト時間分類CTCにフィッティング(適合)したニューラルネットワークであってもよい。いくつかの実施形態では、深層学習モデルの一部が別々に学習されてもよい。一例として、深層学習モデルは、入力データを1つまたは複数の特徴量の値で符号化する第1部分と、ポリペプチドの1つまたは複数のアミノ酸を同定する出力を生成するべく、入力として特徴量の値を受け取る第2部分とを有していてもよい。
【0145】
いくつかの実施形態では、機械学習モデルは、複数のグループ(例えば、クラスまたはクラスタ)を備えてもよく、機械学習モデルは、各グループに対する別個のモデルを備えてもよい。いくつかの実施形態では、各グループのモデルは、混合モデルであってもよい。一例として、モデルは、グループに関連するアミノ酸がポリペプチド内の位置に存在するという尤度を決定するための、グループのそれぞれに対するガウス混合モデル(GMM)を備えてもよい。それぞれのグループについてのガウス混合モデルGMMの各構成要素分布は、それぞれのグループに関連するアミノ酸を表してもよい。一例として、上記の例で説明した第1クラスタのためのガウス混合モデルGMMは、アラニンのための第1分布、イソロイシンのための第2分布、ロイシンのための第3分布、メチオニンのための第4分布、およびスレオニンのための第5分布の5つの構成要素分布を備えてもよい。
【0146】
処理600はブロック602で始まり、処理600を実行するシステムは、試薬がポリペプチドのアミノ酸に結合相互作用中の発光標識による発光から得られた学習データにアクセスする。いくつかの実施形態では、データは、タンパク質配列決定装置(例えば、装置502)の1つまたは複数のウェルにおける試薬とアミノ酸との結合相互作用のための1つまたは複数のセンサ(例えば、
図5Bを参照して説明したセンサ(複数)502C)によって収集されてもよい。いくつかの実施形態では、発光は、1つまたは複数の光パルス(例えば、レーザパルス)に応答して放出されてもよい。
【0147】
いくつかの実施形態では、システムは、センサ(複数可)によって収集されたデータから結合相互作用の1つまたは複数の特性の値を決定することで、学習データにアクセスするように構成されてもよい。結合性相互作用の特性の例は、本明細書に記載されている。いくつかの実施形態では、システムは、機械学習モデルの入力特徴として結合相互作用の1つまたは複数の特性を使用するように構成されてもよい。いくつかの実施形態では、システムは、光パルスのそれぞれの後の時間期間の複数の時間区間で検出された光子の数にアクセスすることで、学習データにアクセスするように構成されてもよい。いくつかの実施形態では、システムは、その例示的な例が本明細書に記載されている、1つまたは複数のデータ構造(例えば、行列、または画像)にデータを配置するように構成されてもよい。
【0148】
次に、処理600はブロック604に進み、システムは、ブロック602でアクセスされた学習データを使用して機械学習モデルを学習する。
いくつかの実施形態では、ブロック602でアクセスされたデータはラベルなしであってもよく、システムは、機械学習モデルを学習するべく、教師なし学習アルゴリズムを学習データに適用するように構成されてもよい。いくつかの実施形態では、機械学習モデルはクラスタリングモデルであってもよく、システムは、教師なし学習アルゴリズムを学習データに適用して、クラスタリングモデルのクラスタを同定するように構成されてもよい。各クラスタは、1つまたは複数のアミノ酸に関連付けられてもよい。一例として、システムは、ブロック602でアクセスされた学習データを使用して、クラスタ(例えば、クラスタセントロイド)を同定するべくk-meansクラスタリングを実行してもよい。
【0149】
いくつかの実施形態では、システムは、教師付き学習を実行するように構成されてもよい。システムは、ブロック602でアクセスされたデータに関連する1つまたは複数の所定のアミノ酸を指定する情報を使用して、モデルを学習するように構成されてもよい。いくつかの実施形態では、システムは、(1)ブロック602でアクセスされたデータを機械学習モデルへの入力として提供して、1つまたは複数のアミノ酸を同定する出力を得る工程と、および(2)出力によって同定されたアミノ酸と所定のアミノ酸との間の差に基づき機械学習モデルを学習する工程と、の方法で機械学習モデルを学習するように構成されてもよい。一例として、システムは、決定された差に基づき、機械学習モデルの1つまたは複数のパラメータを更新するように構成されてもよい。いくつかの実施形態では、1つまたは複数のアミノ酸を指定する情報は、ブロック602で得られたデータのラベルであってもよい。いくつかの実施形態では、ブロック602で得られたデータの一部分が機械学習モデルへの入力として提供されてもよく、データの一部分に対応する機械学習モデルの出力が、データの一部分に対するラベルと比較されてもよい。順に、機械学習モデルの1つまたは複数のパラメータは、機械学習モデルの出力と、機械学習モデルへの入力として提供されたデータの部分に対するラベルとの間の差に基づき更新されてもよい。この差は、現在のパラメータセットで構成された場合に、機械学習モデルがラベルを再現するのにどの程度の性能を発揮するかの尺度を提供してもよい。一例として、機械学習モデルのパラメータは、確率的勾配降下法および/またはニューラルネットワークの学習に適した他の反復的最適化技術を用いて更新されてもよい。
【0150】
いくつかの実施形態では、システムは、半教師付き学習アルゴリズムを学習データに適用するように構成されてもよい。モデル学習システム504は、(1)教師なし学習アルゴリズム(例えば、クラスタリング)を学習データに適用することで、ラベル付けされていない学習データセットをラベル付けし、(2)ラベル付けされた学習データに教師あり学習アルゴリズムを適用する、ということを行ってもよい。一例として、システムは、ブロック602でアクセスされた学習データにk-meansクラスタリングを適用して、データをクラスタリングしてもよい。その後、システムは、クラスタメンバーシップに基づく分類でデータセットをラベル付けしてもよい。次に、システムは、確率的勾配降下アルゴリズムおよび/または任意の他の反復最適化技術をラベル付けされたデータに適用することで、機械学習モデルを学習してもよい。
【0151】
いくつかの実施形態では、機械学習モデルは、データ入力を複数のグループ(例えば、クラスまたはクラスタ)に分類してもよく、各グループは1つまたは複数のアミノ酸に関連付けられる。いくつかの実施形態では、システムは、各グループについてモデルを学習するように構成されてもよい。いくつかの実施形態では、システムは、各グループについて混合モデルを学習するように構成されてもよい。システムは、それぞれのグループに関連するアミノ酸を含む結合相互作用について得られた学習データを使用して、それぞれのグループについて混合モデルを学習するように構成されてもよい。一例として、システムは、例えば、期待値最小化または他の任意の適切な最尤または近似最尤アルゴリズムを使用して、それぞれのグループに関連するアミノ酸(複数可)が関与する結合相互作用について得られた学習データに基づき、ガウス混合モデルGMMの構成要素分布のパラメータを同定することで、それぞれのグループについてガウス混合モデル(GMM)を学習してもよい。
【0152】
ブロック604で機械学習モデルを学習した後、処理600はブロック606に進み、システムが学習済み機械学習モデルを格納する。システムは、機械学習モデルの1つまたは複数の学習済みパラメータの値(複数可)を格納してもよい。一例として、機械学習モデルは、1つまたは複数のセントロイドを有するクラスタリングモデルを備えてもよい。システムは、セントロイドの同定情報(例えば、座標)を格納してもよい。別の例として、機械学習モデルは、機械学習モデルのグループのための混合モデル(例えば、ガウス混合モデルGMM)を備えてもよい。システムは、構成要素(コンポーネント)モデルを定義するパラメータを格納してもよい。別の例として、機械学習モデルは、1つまたは複数のニューラルネットワークを備えてもよい。システムは、ニューラルネットワークの学習済み重みの値を記憶してもよい。いくつかの実施形態では、システムは、本明細書に記載の技術に従ってポリペプチドを同定する際に使用するべく、学習済み機械学習モデルを保存するように構成されてもよい。
【0153】
いくつかの実施形態では、システムは、新しい学習データを使用して機械学習モデルを更新するべく、新しいデータを取得するように構成されてもよい。いくつかの実施形態では、システムは、新しい学習データを使用して新しい機械学習モデルを学習することで、機械学習モデルを更新するように構成されてもよい。一例として、システムは、新しい学習データを用いて新しい機械学習モデルを学習してもよい。いくつかの実施形態では、システムは、機械学習モデルの1つまたは複数のパラメータを更新するべく、新しい学習データを使用して機械学習モデルを再学習することで、機械学習モデルを更新するように構成されてもよい。一例として、モデルによって生成された出力(複数可)および対応する入力データは、以前に得られた学習データとともに学習データとして使用されてもよい。いくつかの実施形態では、システムは、アミノ酸を同定するデータおよび出力(例えば、
図6Bを参照して後述する処理610を実行することから得られる)を使用して、学習済み機械学習モデルを反復的に更新するように構成されてもよい。一例として、システムは、第1学習済み機械学習モデル(例えば、教師モデル)に入力データを提供し、1つまたは複数のアミノ酸を同定する出力を得るように構成されてもよい。その後、システムは、入力データおよび対応する出力を使用して機械学習モデルを再学習し、第2学習済み機械学習モデル(例えば、学生(Student)モデル)を取得してもよい。
【0154】
いくつかの実施形態では、システムは、タンパク質配列決定装置(例えば、タンパク質配列決定装置502)の各ウェルについて別個の機械学習モデルを学習するように構成されてもよい。機械学習モデルは、ウェルから得られたデータを使用して、それぞれのウェルに対して学習されてもよい。機械学習モデルは、ウェルの特性に合わせて調整されてもよい。いくつかの実施形態では、システムは、配列決定装置(シーケンサ)の複数のウェルにおいてアミノ酸を同定するべく使用されるべき、一般化された機械学習モデルを学習するように構成されてもよい。一般化された機械学習モデルは、複数のウェルから集約されたデータを用いて学習されてもよい。
【0155】
図6Bは、本明細書に記載の技術のいくつかの実施形態による、ポリペプチドを同定するべく処理600から得られた学習済み機械学習モデルを使用するための例示的な処理610を示す。処理610は、任意の適切なコンピューティング装置によって実行されてもよい。一例として、処理610は、
図5Bを参照して上述したタンパク質同定システム502Dによって実行されてもよい。
【0156】
処理610は、ブロック612で始まり、システムは、試薬とポリペプチドのアミノ酸との結合相互作用からの発光標識による発光から得られたデータにアクセスする。いくつかの実施形態では、データは、タンパク質配列決定装置(例えば、装置502)によって実行されるアミノ酸配列決定中に、1つまたは複数のセンサ(例えば、光検出器(複数可))によって収集されたデータから得られてもよい。一例として、システムは、センサ(複数可)によって収集されたデータを処理して、データを生成してもよい。
【0157】
いくつかの実施形態では、データは、センサ(複数可)によって収集されたデータから決定された結合相互作用の1つまたは複数の特性の値およびそれから決定された値を備えてもよい。プロパティおよびそこから決定されるパラメータの例は、本明細書に記載されている。いくつかの実施形態では、発光は、一連の光パルスに反応してもよい。データは、光パルス後の1つまたは複数の時間区間で検出された光子の数を備えてもよい。一例として、データは、
図9Aを参照して後述するデータ900であってもよい。いくつかの実施形態では、システムは、データを、
図9Bを参照して以下に説明するデータ構造910に配列するように構成されてもよい。
【0158】
いくつかの実施形態では、ブロック612は、シグナルトレースなどのアクセスされたデータに対して1つまたは複数のシグナル処理動作を実行する工程を備えてもよい。シグナル処理動作は、例えば、1つまたは複数のフィルタリングおよび/またはサブサンプリング動作を備えてもよく、これによって、ノイズに起因するデータ内の観測されたパルスを除去することができる。
【0159】
次に、処理600はブロック614に進み、システムは、ブロック606でアクセスされたデータを、学習済み機械学習モデルへの入力として提供する。いくつかの実施形態では、システムは、データを入力として提供し、ポリペプチドのアミノ酸を同定する出力を得るように構成されてもよい。一例として、システムは、ブロック612で得られたデータを、コネクショニスト時間分類CTCに適合したニューラルネットワークモデルへの入力として提供し、ポリペプチドのアミノ酸配列を同定する出力(例えば、一連の文字)を取得してもよい。いくつかの実施形態では、システムは、データを複数の部分に分割し、部分のそれぞれのデータを、学習済み機械学習モデルへの別個の入力として提供して、対応する出力を得るように構成されてもよい(例えば、
図7を参照して以下に説明するように)。一例として、システムは、試薬とポリペプチドのアミノ酸とのそれぞれの結合相互作用に関連するデータの部分を同定してもよい。
【0160】
次に、処理600はブロック616に進み、システムが機械学習モデルからの出力を取得する。いくつかの実施形態では、システムは、ポリペプチド内の複数の位置のそれぞれについて、1つまたは複数のそれぞれのアミノ酸がポリペプチド内の位置に存在するという1つまたは複数の尤度を示す出力を得るように構成されてもよい。一例として、出力は、各位置について、20個のアミノ酸のそれぞれがその位置に存在するという尤度を示してもよい。機械学習システムから得られる出力の例示描写は、
図8を参照して以下に説明される。
【0161】
いくつかの実施形態では、システムは、機械学習モデルに提供されたデータの複数の部分のそれぞれについて出力を得るように構成されてもよい。データのそれぞれの部分についての出力は、ポリペプチド内の特定の位置に存在するアミノ酸を示してもよい。いくつかの実施形態では、出力は、データの部分に関連するポリペプチド内の位置に1つまたは複数のそれぞれのアミノ酸が存在するという尤度を示してもよい。一例として、機械学習モデルへの入力として提供されたデータの一部に対応する出力は、複数のアミノ酸のそれぞれについて、そのアミノ酸がポリペプチド内のそれぞれの位置に存在するという確率を指定する確率分布であってもよい。
【0162】
いくつかの実施形態では、システムは、データの部分に関連するポリペプチド内の位置に存在するアミノ酸を同定するように構成されてもよい。一例として、システムは、機械学習モデルに提供されたデータに対する出力に基づき、アミノ酸を指定する分類を決定してもよい。いくつかの実施形態では、システムは、それぞれのアミノ酸がポリペプチド内の位置に存在するという尤度に基づき、アミノ酸を同定するように構成されてもよい。一例として、システムは、ポリペプチド内の位置に存在するという尤度が最も高い、それぞれのアミノ酸の1つであるアミノ酸を同定してもよい。いくつかの実施形態では、システムは、機械学習モデルを使用せずに、結合相互作用の1つまたは複数の特性および/または他のパラメータの値(複数可)に基づき、アミノ酸を同定するように構成されてもよい。一例として、システムは、データの部分のパルス持続時間および/またはパルス同士間持続時間が、特定のタイプのタンパク質に選択的結合する試薬に関連付けられていると判定し、その位置に存在するアミノ酸がそのタイプのアミノ酸であると同定してもよい。
【0163】
いくつかの実施形態では、システムは、ポリペプチドのアミノ酸を同定する単一の出力を得るように構成されてもよい。一例として、システムは、ポリペプチドのアミノ酸を同定する一連の文字を受け取ってもよい。別の例として、システムは、ポリペプチド内の複数の位置のそれぞれについて一連の値を受け取ってもよい。一連の各値は、それぞれのアミノ酸がポリペプチドのそれぞれの位置に存在するという尤度を示してもよい。
【0164】
いくつかの実施形態では、システムは、機械学習モデルから得られた出力を正規化するように構成されてもよい。いくつかの実施形態では、システムは、機械学習モデルから一連の値を受け取るように構成されてもよく、各値は、それぞれのアミノ酸がポリペプチド内のそれぞれの位置に存在するという尤度を示す。システムは、一連の値を正規化するように構成されてもよい。いくつかの実施形態では、システムは、ソフトマックス関数を適用して、合計が1になる確率値のセットを得ることで、一連の値を正規化するように構成されてもよい。一例として、システムは、ニューラルネットワークから一連の出力値を受け取り、その値にソフトマックス関数を適用して、合計が1になる一連の確率値を得るように構成されてもよい。いくつかの実施形態では、システムは、複数のモデル(例えば、ガウス混合モデルGMM)から出力を受け取るように構成されてもよく、各モデルは、アミノ酸のそれぞれのセットに関連付けられている。各モデルからの出力は、モデルに関連付けられたアミノ酸のセットのそれぞれについて、そのアミノ酸がポリペプチド内の位置に存在するという尤度を示す値であってもよい。システムは、出力を得るべく、すべての複数のモデルから受け取った値を正規化するように構成されてもよい。一例として、システムは、(1)第1ガウス混合モデルGMMから第1セットのアミノ酸の確率値の第1セットを受け取り、第2ガウス混合モデルGMMから第2セットのアミノ酸の確率値を受け取り、(2)確率値の共同の第1および第2セットにソフトマックス関数を適用して、正規化された出力を得ることができる。この例では、正規化された出力は、第1および第2セットのアミノ酸の各アミノ酸について、そのアミノ酸がポリペプチド内の位置に存在するという確率を示し、ここで、確率値の合計は1になる。
【0165】
ブロック616で学習済み機械学習モデルから出力を得た後、処理610はブロック618に進み、システムは機械学習モデルから得られた出力を使用してポリペプチドを同定する。いくつかの実施形態では、システムは、ブロック616で得られた出力を、データストア(例えば、タンパク質配列決定装置502によってアクセス可能な)に格納されているアミノ酸配列および関連するタンパク質の既知のセットのうちの1つに照合するように構成されてもよい。システムは、出力が照合されたアミノ酸配列に関連するタンパク質の一部であるポリペプチドを同定してもよい。一例として、データストアは、ヒトゲノムからのアミノ酸配列のデータベース(例えば、UniProtおよび/またはHPPデータベース)であってもよい。
【0166】
いくつかの実施形態では、システムは、(1)出力に基づき隠れマルコフモデル(HMM)を生成し、(2)隠れマルコフモデルHMMを使用して、複数のアミノ酸配列の中からデータが最も密接に整列するアミノ酸配列を同定することで、出力をアミノ酸配列に一致させるように構成されてもよい。いくつかの実施形態では、出力は、ポリペプチド内の複数の位置のそれぞれについて、それぞれのアミノ酸がその位置に存在するという尤度を示してもよい。機械学習モデルからの出力の例示描写は、
図8を参照して以下に説明される。システムは、隠れマルコフモデルHMMのパラメータの値を決定するべく出力を使用するように構成されてもよい。一例として、隠れマルコフモデルHMMの各状態は、ポリペプチド内の位置を表していてもよい。隠れマルコフモデルHMMは、アミノ酸が異なる位置に存在するという確率を備えてもよい。いくつかの実施形態では、隠れマルコフモデルHMMは、挿入率および欠失率を備えてもよい。いくつかの実施形態では、挿入率および欠失率は、予め設定された値であってもよい(隠れマルコフモデルHMMにおいて)。いくつかの実施形態では、システムは、ブロック616で機械学習モデルから得られた出力に基づき、挿入率および欠失率の値を決定するように構成されてもよい。いくつかの実施形態では、システムは、1つまたは複数の以前のポリペプチド同定処理の結果に基づき、挿入率および欠失率を決定するように構成されてもよい。一例として、システムは、1つまたは複数の以前のポリペプチド同定および/または処理610を実行して得られた機械学習モデルの出力に基づき、挿入率および欠失率を決定してもよい。
【0167】
いくつかの実施形態では、システムは、(1)機械学習モデルから得られた出力に基づきアミノ酸の配列を決定すること、および(2)アミノ酸の配列に基づきポリペプチドを同定することで、機械学習モデルから得られた出力を使用してポリペプチドを同定するように構成されてもよい。決定されたアミノ酸の配列は、ポリペプチドの一部分(例えば、ペプチド)であってもよい。いくつかの実施形態では、出力は、ポリペプチド内の複数の位置のそれぞれについて、それぞれのアミノ酸がその位置に存在するという尤度を示してもよい。システムは、(1)位置のそれぞれについて、その位置に存在するという尤度が最も高いそれぞれのアミノ酸の1つを同定し、(2)アミノ酸の配列を、位置について同定されたアミノ酸のセットであると決定することで、アミノ酸の配列を決定するように構成されてもよい。一例として、システムは、20種類のアミノ酸のうち、アラニン(A)がポリペプチドの第1位置に存在するという尤度が最大であり、グルタミン酸(E)がポリペプチドの第2位置に存在するという尤度が最大であり、アスパラギン酸(D)が第3位置に存在するという尤度が最大であると決定することができる。この例では、システムは、アミノ酸の配列の少なくとも一部を、アラニン(A)、グルタミン酸(E)、およびアスパラギン酸(D)であると決定してもよい。いくつかの実施形態では、システムは、アミノ酸配列を、タンパク質を同定するアミノ酸配列のセットからの1つに照合することで、決定されたアミノ酸配列に基づきポリペプチドを同定するように構成されてもよい。一例として、システムは、決定されたアミノ酸配列を、Uniprotおよび/またはHPPデータベースからの配列に照合し、ポリペプチドを、照合された配列に関連するタンパク質の一部であると同定してもよい。
【0168】
いくつかの実施形態では、システムは、決定されたアミノ酸の配列を事前に選択されたパネルに照合することで、ブロック618の機械学習モデルから得られた出力を使用して、ポリペプチドを同定してもよい。システムが決定されたアミノ酸の配列を既知のポリペプチドのデータベースからの配列に一致させるアプローチとは対照的に、いくつかのケースでは、システムは、例えば、そのようなデータベースのサブセットであり得る事前選択されたパネルに配列を一致させてもよい。例えば、ポリペプチドは、臨床的に重要であることが知られているポリペプチドのセットの1つである可能性があり、その結果、すべての可能なポリペプチドを含むデータベース全体を検索するよりも、決定されたアミノ酸の配列をポリペプチドのセットの1つに一致させる方が、より正確および/またはより効率的である可能性がある。いくつかの実施形態では、機械学習モデルへの入力データは、予め選択されたポリペプチドのパネルの1つであることが知られているポリペプチドと相互作用するアフィニティ試薬からの発光を測定することで生成されてもよい。すなわち、データを生成するための実験手順は、データを生成するべく使用されるポリペプチドが、機械学習モデルによる照合(マッチング)のために考慮されるポリペプチドのセットの1つであることを保証してもよい。
【0169】
いくつかの実施形態では、システムは、ブロック618で機械学習モデルから得られた出力を使用して、複数のポリペプチドに対する相対確率のリストを生成してもよい。上述のように特定のポリペプチドを同定するのではなく、複数のポリペプチドのリストを、それぞれが正しい一致である確率とともに生成することが好ましい場合がある。いくつかの実施形態では、特定のタンパク質がサンプルに存在すること、および/または特定のタンパク質がサンプルの少なくともいくつかの閾値分数(threshold fraction)を構成することの信頼性スコアなど、データの側面に関連する信頼性スコアが、そのような確率に基づき生成されてもよい。
【0170】
いくつかの実施形態では、システムは、ブロック618で機械学習モデルから得られた出力を使用して、ポリペプチドのバリアントを同定してもよい。特に、いくつかのケースでは、システムは、最も尤度の高い配列が参照配列(例えば、データベース内の配列)のバリアントであると判定してもよい。そのような変種は、ポリペプチドの自然発生または天然の変種、および/または、アミノ酸が修飾された(例えば、リン酸化された)ポリペプチドを含むことができる。このように、ブロック618において、複数の参照配列の変種は、参照配列自体の検討に加えて、機械学習モデルからの出力に一致するように検討されてもよい。
【0171】
図7は、本明細書に記載の技術のいくつかの実施形態による、機械学習モデルに入力を提供するための例示的な処理700を示す。処理700は、任意の適切なコンピューティング装置によって実行されてもよい。一例として、処理700は、
図5Bを参照して上述したタンパク質同定システム502Dによって実行されてもよい。処理700は、
図6Bを参照して上述した処理610のブロック616の一部として実行されてもよい。
【0172】
処理700を実行する前に、処理700を実行するシステムは、試薬とアミノ酸との結合相互作用からの発光標識による検出された発光から得られたデータにアクセスしてもよい。一例として、システムは、
図6Bを参照して上述した処理610のブロック612で実行されるようにデータにアクセスしてもよい。
【0173】
処理700はブロック702で始まり、システムはデータの一部(部分。本明細書では関心領域(ROI)とも呼ばれる)を同定する。いくつかの実施形態では、システムは、それぞれの結合相互作用に対応するデータの部分を同定するように構成されてもよい。一例として、同定されたデータの各部分は、試薬とポリペプチドのアミノ酸とのそれぞれの結合相互作用からのデータを備えてもよい。いくつかの実施形態では、システムは、ポリペプチドからのアミノ酸の切断に対応するデータ点を同定することで、データの部分を同定するように構成されてもよい。
図1~
図3を参照して上述したように、タンパク質配列決定装置は、ポリペプチド(例えば、
図5Cに示すポリペプチド502F)の末端からアミノ酸を反復的に検出して切断することで、サンプルを配列してもよい。いくつかの実施形態では、切断は、それぞれの発光標識でタグ付けされた切断試薬によって行われてもよい。システムは、切断試薬がタグ付けされている発光標識による発光に対応するデータ点を同定することで、データの部分を同定するように構成されてもよい。一例として、システムは、1つまたは複数の発光強度、発光寿命値、パルス持続時間値、パルス同士間持続時間値、および/または光子区間(bin)カウントを同定してもよい。そして、システムは、同定されたデータ点に基づき、データを部分に分割してもよい。いくつかの実施形態では、切断はタグのない切断試薬によって実行されてもよい。システムは、切断の期間に対応するデータ点を同定することで、データの部分を同定するように構成されてもよい。そして、システムは、同定されたデータ点に基づき、データを部分にセグメント化してもよい。
【0174】
いくつかの実施形態では、システムは、発光の時間期間同士間の時間区間を同定することでデータの部分を同定するように構成されてもよい。一例として、システムは、光パルスが放出される2つの期間同士間の時間区間を同定してもよい。システムは、同定された時間区間に基づき、それぞれの結合相互作用に対応するデータの部分を同定するように構成されてもよい。一例として、システムは、発光(例えば、光パルス)同士間の時間区間の持続時間が閾値の持続時間を超えるかどうかを判定することで、連続する結合相互作用同士間の境界を同定してもよい。システムは、同定された時間区間から決定された境界に基づき、データを部分にセグメント化してもよい。
【0175】
いくつかの実施形態では、システムは、(1)データの要約統計値を追跡し、(2)要約統計値が逸脱する点に基づきデータの部分を同定することで、それぞれの結合相互作用に対応するデータの部分を同定するように構成されてもよい。いくつかの実施形態では、データは、各点が特定の時点で取得された1つまたは複数のパラメータの値を表す時系列データであってもよい。システムは、以下のように構成されてもよい。(1)データ内の要約統計量を時間に関して追跡し、(2)要約統計量が閾値量(threshold amount)で逸脱するデータ点を同定し、(3)同定された点に基づきデータの部分を同定する。一例として、システムは、データの時間に対する移動平均パルス持続時間値を追跡してもよい。システムは、平均パルス持続時間値が閾値量で増加する点に基づき、結合相互作用を伴う反応に対応する1つまたは複数の点を同定してもよい。別の例として、システムは、データ中の時間に対する移動する平均発光強度値を追跡してもよい。システムは、平均発光強度値が閾値量で増加する点に基づき、結合相互作用に対応する1つまたは複数の点を同定してもよい。
【0176】
いくつかの実施形態では、システムは、データを同じ大きさの部分に分割することで、データの部分を同定するように構成されてもよい。いくつかの実施形態では、データは複数のフレームを備えてもよく、各フレームは、励起パルスの印加後の時間期間における1つまたは複数の時間区間のそれぞれで検出された光子の数を備えている。システムは、データを同じサイズのフレームの部分に分割することで、データの部分を同定するように構成されてもよい。一例として、システムは、データを、1000個、5000個、10,000個、50,000個、100,000個、1,000,000個、および/または1000個から1,000,000個の間の任意の適切な数のフレーム部分に分割してもよい。いくつかの実施形態では、システムは、2つの結合相互作用同士間の遷移を決定することに基づき、データをフレームに分割するように構成されてもよい。一例として、システムは、2つの結合相互作用同士間の遷移を示す区間(bin)内の光子カウントの値を同定してもよい。システムは、データ内の同定された遷移に基づき、フレームを部分に割り当ててもよい。いくつかの実施形態では、システムは、各部分のサイズを縮小するように構成されてもよい。一例として、システムは、データの部分のストライド(例えば、10フレームまたは100フレームごと)について、1つまたは複数の要約統計を決定してもよい。
【0177】
いくつかの実施形態では、システムは、シグナルトレースのウェーブレット変換を実行し、ウェーブレット変換から生成されたウェーブレット係数に基づき、シグナルの部分の前縁および/または後縁を同定することで、データの部分を同定するように構成されてもよい。この処理については、
図14A~
図14Cおよび
図15に関連して、以下でより詳細に説明する。
【0178】
いくつかの実施形態では、時間期間の一部である時間区間は、非オーバーラップである。他の実施形態では、時間期間の一部である時間区間は、互いに重なっていてもよい。つの時間区間の重複領域の光子カウントは、両方の時間区間の光子カウントに追加されてもよい。重複する時間区間のデータは、隣接する時間区間のデータに統計的に依存していてもよい。いくつかの実施形態では、そのような依存性は、データ(例えば、学習データ)を処理するべく使用されてもよい。一例として、統計的依存性は、データを正則化および/または平滑化するべく使用されてもよい。
【0179】
ブロック702でデータの部分を同定した後、処理700はブロック704に進み、システムは同定された部分に基づき機械学習モデルに入力を提供する。いくつかの実施形態では、システムは、検出された結合相互作用の1つまたは複数の特性の値を決定するように構成されてもよい。これらの値は、パルス持続時間、パルス同士間持続時間、波長、発光強度、発光寿命値、単位時間当たりのパルスカウント、またはそれらの組み合わせなど、任意の数のパルスパラメータを備えてもよい。これらの値は、平均値、中位値、最頻値として表すこともできるし、データの所定の部分について複数の測定されたパルスパラメータを提供することで表すこともできる。例えば、ブロック704における機械学習モデルへの入力は、データの同定された部分についての平均パルス持続時間を備えているかもしれない。
【0180】
いくつかの実施形態では、機械学習モデルへの入力のための値は、ブロック702で同定されたデータの一部分から導出された任意のパラメータを備えてもよい。そのように導出されたパラメータは、例えば、適切な関数および/または分布を測定値にフィッティング(適合)させてパルスパラメータにすることを備えてもよい。例えば、ブロック702で同定されたデータの一部について測定された異なるパルス持続時間の範囲は、指数関数、ガウス分布、ポアソン分布にフィッティング(適合)されてもよく、それらの関数または分布を記述する値は、ブロック704で機械学習モデルに入力されてもよい。このように、値は、例えば、ブロック702で同定されたデータの一部で観測された異なるパルスの数を特徴づけるガウス分布の平均と分散を備えてもよい。複数の指数関数をパルスパラメータにフィッティング(適合)させる例は、
図16A~
図16Bおよび
図17A~
図17Bに関連して以下でさらに説明される。
【0181】
ブロック704において値がどのように計算されるかにかかわらず、これらの値はまた、ブロック704において機械学習モデルへの入力として提供されてもよい。決定された値は、機械学習モデルに入力されるそれぞれの結合相互作用の特徴セットを形成してもよい。いくつかの場合、データの部分は1つまたは複数のフレームに対応してもよく、決定された値は、フレーム(複数可)の特徴セットを形成してもよい。
【0182】
いくつかの実施形態では、システムは、結合相互作用の特性の値および/または特性から決定されたパラメータの値を決定することなく、機械学習モデルへの入力としてデータの同定された各部分を提供するように構成されてもよい。一例として、システムは、データが分割されたフレームの各セット(例えば、それぞれが1つまたは複数の区間(ビン)カウントを備えている)を、機械学習モデルへの入力として提供してもよい。
【0183】
次に、処理700はブロック706に進み、システムは、学習済み機械学習モデルに入力されたデータの各部分に対応する出力を取得する。いくつかの実施形態では、各出力は、ポリペプチド内のそれぞれの位置に対応してもよい。一例として、出力は、タンパク質のポリペプチド内の位置に対応してもよい。いくつかの実施形態では、各出力は、ポリペプチド内の位置に1つまたは複数のアミノ酸が存在するという尤度を示してもよい。例示的な例として、
図8に示された機械学習システムの出力の描写800における行のそれぞれは、データの同定された部分の1つに対応する機械学習モデルの出力であってもよい。いくつかの実施形態では、各出力は、機械学習モデルに入力されたデータの部分に対応するそれぞれの結合相互作用に関与するアミノ酸を同定してもよい。いくつかの実施形態では、システムは、ブロック706で得られた出力を使用して、ポリペプチドを同定するように構成されてもよい。一例として、システムは、
図6Bを参照して上述した処理610のブロック618で実行されたように、ポリペプチドを同定するべく出力を使用してもよい。
【0184】
図8は、本明細書に記載の技術のいくつかの実施形態による、機械学習モデルから得られた出力を描写する表800を示す。一例として、
図8に描かれた出力は、
図6Bを参照して上述した処理610のブロック616で得られてもよい。
【0185】
図8の例示的な表800において、機械学習システムから得られた出力は、ポリペプチド(例えば、タンパク質の)における複数の位置804のそれぞれについて、それぞれのアミノ酸802がその位置に存在するという確率を備えている。
図8の例示的な描写800では、出力は、20個のアミノ酸についての確率を備えている。表800の各列は、20個のアミノ酸のそれぞれ1つに対応する。各アミノ酸には、
図8におけるそれぞれの一文字の略語が付されている(例えば、A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W)。表800の各行は、20個のアミノ酸のそれぞれが、ポリペプチド内のいずれかの位置に存在するという確率を規定している。一例として、番号1でインデックスされた位置については、アスパラギン酸(D)がその位置に存在するという確率が50%であり、グルタミン酸(E)がその位置に存在するという確率が50%であることが出力される。別の例として、数字10で示される位置では、グルタミン酸(D)がその位置に存在するという確率が30%、グリシン(G)がその位置に存在するという確率が5%、リジン(K)がその位置に存在するという確率が25%、アスパラギン(N)がその位置に存在するという確率が40%であることが出力される。
【0186】
図8の例示的な実施形態は、ポリペプチド内の15の位置における20のアミノ酸に対する尤度を示しているが、いくつかの実施形態は、任意の数の位置またはアミノ酸に限定されない。いくつかの実施形態は、本明細書に記載の技術の側面がこの点において限定されないので、ポリペプチド内の任意の数の位置に対する尤度を備えてもよい。いくつかの実施形態は、本明細書に記載の技術の側面がこの点で限定されないように、任意の数のアミノ酸に対する尤度を備えてもよい。
【0187】
図9Aは、本明細書に記載の技術のいくつかの実施形態に従って、発光標識による発光から得られ得るデータ900の一例を示す。一例として、データ900は、
図5A~
図5Cを参照して上述したタンパク質配列決定装置502のセンサ(複数可)502Cによって得られてもよい。
【0188】
データ900は、励起光パルス後の複数の時間区間のそれぞれで検出された光子の数を示す。光子(フォトン)の数は、本明細書では、「光子カウント」とも呼ばれる。
図9Aに示す例では、データ900は、3つの励起光パルス後の時間区間で検出された光子の数を備えている。
図9Aに例示された例では、データ900は以下を備えている。(1)第1励起光パルス後の時間期間902の第1時間区間902A、第2時間区間902B、および第3時間区間902Cで検出された光子の数、(2)第2励起光パルス後の時間期間904の第1時間区間904A、第2時間区間904B、および第3時間区間904Cで検出された光子の数、および(3)第3励起光パルス後の時間期間906の第1時間区間906A、第2時間区間906B、および第3時間区間906Cで検出された光子の数である。
【0189】
いくつかの実施形態では、励起光のパルス後の時間期間の時間区間のそれぞれは、等しいまたは実質的に等しい持続時間であってもよい。いくつかの実施形態では、励起光のパルス後の時間期間における時間区間は、変化する持続時間を有してもよい。いくつかの実施形態では、データは、励起光の各パルス後の固定数の時間区間で検出された光子の数を備えてもよい。データは、励起光のパルス後の各時間期間に3つの時間区間を備えているが、本明細書に記載された技術の側面はこの点で限定されないので、データは任意の適切な数の時間区間にビン(bin。区間)化されてもよい。また、
図9Aの例では、3つの励起光パルスに続く3つの時間期間のデータを示しているが、本明細書に記載された技術の側面がこの点に限定されないように、データ900は、任意の適切な数の励起光パルス後の時間期間に収集されたデータを備えてもよい。また、
図9Aの例では、時間期間の区間同士がばらばらであることを示しているが、いくつかの実施形態では、区間同士が重なっていてもよい。
【0190】
図9Bは、本明細書に記載の技術のいくつかの実施形態による、機械学習モデルへの入力として提供され得る
図9Aからのデータ900の例示的な配置を示す。一例として、データ構造910は、アミノ酸を同定する出力を得るための深層学習モデル(例えば、ニューラルネットワーク)への入力として生成されてもよい。
【0191】
図9Bに示されているように、データ900からの光子の数は、複数の系列の値を備えているデータ構造910に配置されてもよい。いくつかの実施形態では、データ構造910は、行列を符号化する2次元のデータ構造(例えば、配列、連結リストのセットなど)であってもよい。一連の値のそれぞれは、行列の行または列を形成してもよい。理解されるかもしれないが、データ構造910は、画像の値を格納するものと考えられ、画像の各「画素」は、対応する励起光パルス後の特定の時間期間におけるそれぞれの時間区間に対応し、画素の値は、その時間区間中に検出された光子の数を示している。
【0192】
図9Bに示された例では、データ構造910は、複数の系列のデータを列に備えている。各列は、本明細書では、「フレーム」とも呼ばれることがある。データ構造910は以下を備えている。(1)励起光の第1パルス後の時間期間902の時間区間902A~902Cで検出された光子の数N
11、N
12、N
13を指定する第1フレーム、(2)励起光の第2パルス後の時間期間904の時間区間904A~904Cで検出された光子の数N
21、N
22、N
23を指定する第2フレーム、および(3)励起光の第3パルス後の時間期間906の時間区間906A~906Cで検出された光子数N
31、N
32、N
33を指定する第3フレームを備えている。
図9Bに示された例では3つのフレームを示しているが、本明細書に記載された技術の側面はこの点において限定されないので、データ構造910は、任意の適切な数のフレームからのデータを保持してもよい。
【0193】
図9Bに示す例では、データ構造910は、複数の系列のデータを行に備えている。各行は、励起光の各パルスについて、特定の区間(ビン)で検出された光子の数を指定する。データ構造910は、以下を備えている第1系列(一連)の値を備えている。(1)励起光の第1パルス後の時間期間902における第1時間区間(インターバル)902Aの光子数N
11、(2)励起光の第2パルス後の時間期間904における第1時間区間904Aの光子数N
21、および(3)励起光の第3パルス後の時間期間906における第1時間区間906Aの光子数N
31を備えている。データ構造910は、以下を備えている第2系列(一連)の値を備えている。(1)励起光の第1パルス後の時間期間902における第2時間区間902Bの光子数N
12、(2)励起光の第2パルス後の時間期間904における第2時間区間904Bの光子数N
22、および(3)励起光の第3パルス後の時間期間906における第2時間区間906Bの光子数N
32を備えている。データ構造910は、以下を備えている第3系列(一連)の値を備えている。(1)励起光の第1パルス後の時間期間902における第3時間区間902Cの光子数N
13、(2)励起光の第2パルス後の時間期間904における第3時間区間904Cの光子数N
23、および(3)励起光の第3パルス後の時間期間906における第3時間区間906Cの光子数N
33を備えている。
【0194】
図10A~
図10Cは、本明細書に記載の技術のいくつかの実施形態による、機械学習システムを学習するための工程を示す。一例として、
図10A~
図10Cは、機械学習システムを学習するための工程を示す。
図10A~
図10Cは、
図5Aを参照して上述したモデル学習システム504によって、
図6Aを参照して上述した処理600の一部として実行され得る、機械学習モデルを学習する様々な工程を図示する。
【0195】
図10Aは、試薬とアミノ酸との結合相互作用からの発光標識による検出された発光からアクセスされたデータのクラスタリングのプロット1000を示す図である。
図10Aの例では、プロット1000は、6つのクラスタ同士間でのデータのクラスタリングの結果を示している。いくつかの実施形態では、システム(例えば、モデル学習システム504)は、データ点をクラスタリングして、クラスタ(例えば、セントロイドおよび/またはクラスタ同士間の境界)を同定するように構成されてもよい。いくつかの実施形態では、クラスタリングは、クラスタリングモデルを学習するべく、
図6Aを参照して説明した処理600の一部として実行されてもよい。一例として、システムは、反復アルゴリズム(例えば、k-means)をデータ点に適用して、
図10Aの例に示すクラスタリング結果を得てもよい。
【0196】
いくつかの実施形態では、データクラスタは、アミノ酸の既知の配列を有する既知のペプチドを配列し、既知のアミノ酸のそれぞれに対応するデータ(例えば、パルス持続時間およびパルス同士間持続時間データ)を生成することで同定されてもよい。この処理を何度も繰り返して、評価対象となる様々なパルス特性に関して、特定の既知のアミノ酸のデータがどこに集まっているかを理解することができる。
【0197】
図10Bは、
図10Aのプロット1000に示されたクラスタ化された点から同定されたクラスタ(例えば、クラスタのセントロイドの座標)のプロット1010を示す。一例として、プロット1010に示されるセントロイドの各々は、それぞれのクラスタ内のデータ点の平均パルス持続時間およびパルス同士間持続時間の値であると決定されてもよい。
図10Aの例では、各セントロイドは、異なるアミノ酸のセットに関連付けられている。プロット1010は、(1)アミノ酸A、I、L、M、およびVに関連付けられた第1セントロイド、(2)アミノ酸N、C、Q、S、およびTに関連付けられた第2セントロイド、(3)アミノ酸R、H、およびKに関連付けられた第3セントロイド、(4)アミノ酸DおよびEに関連付けられた第4セントロイド、(5)F、W、およびYに関連付けられた第5セントロイド、および(6)アミノ酸GおよびPに関連付けられた第6セントロイドを示している。
【0198】
図10Cは、プロット1000および1010に示されたクラスタのそれぞれについて、ガウス混合モデル(GMM)を学習した結果のプロット1020を示す。プロット1020に示される各同心円は、同等の確率の境界をマークしている。いくつかの実施形態では、それぞれのクラスタについて学習済みガウス混合モデルGMMモデルの各構成要素は、それぞれのクラスタに関連するアミノ酸を表す。次に、それぞれのクラスタに対して学習済みガウス混合モデルGMMモデルを有するクラスタリングモデルは、
図6Bを参照して上述したように、ポリペプチドを同定するべく使用されてもよい。一例として、未知のポリペプチドのアミノ酸との試薬の結合相互作用からの発光標識による検出された発光からアクセスされたデータが、モデルに入力されてもよい。いくつかの実施形態では、機械学習モデルへの各入力は、ポリペプチドのそれぞれの位置に存在するアミノ酸との試薬のそれぞれの結合相互作用に対応してもよい。データの一部は、プロット1020に示されるクラスタの1つに分類されてもよく、クラスタに対して学習済みガウス混合モデルGMMは、クラスタに関連付けられた1つまたは複数のアミノ酸がポリペプチド内の位置に存在するという尤度を決定するべく使用されてもよい。いくつかの実施形態では、システムは、共同確率空間においてガウス混合モデルGMMから得られた尤度を正規化するように構成されてもよい。一例として、システムは、ガウス混合モデルGMMから得られた尤度にソフトマックス関数を適用して、複数のアミノ酸のそれぞれに対する確率値を得て、その確率値の合計が1になるようにしてもよい。
【0199】
図10Cに示すようにクラスタのそれぞれについてガウス混合モデルGMMを学習する代わりに、いくつかの実施形態では、単一のガウス混合モデルGMMをクラスタのすべてについてガウシアンの混合物にフィッティング(適合)させてもよい。いくつかのケースでは、そのようなフィッティングは、クラスタの数およびそれらのセントロイドがどこに位置するかなど、同定されたクラスタの特性に基づいてもよい。あるいは、データ点のそれぞれについてラベルが知られている場合、各クラスタの測定された分散およびセントロイドを用いて、単一のガウス混合モデルGMMのパラメータを直接初期化してもよい。
【0200】
図10A~
図10Cの例では、各クラスタに対するガウス混合モデルGMMモデルの使用を説明しているが、実施形態はこの点で限定されないので、いくつかの実施形態では別のタイプのモデルを使用してもよい。一例として、サポートベクターマシン(SVM)が、クラスタのそれぞれについて学習されてもよく(または、単一のSVMが、一緒にすべてのクラスタについて学習されてもよい)、データの一部を、クラスタに関連する複数のアミノ酸のうちの1つとして分類するべく使用されてもよい。別の例として、ニューラルネットワークが、クラスタのそれぞれについて学習され(または、単一のニューラルネットワークが、一緒にすべてのクラスタについて学習されてもよい)、クラスタに関連するアミノ酸のそれぞれが、ポリペプチド内の位置に存在するという尤度を得るべく使用されてもよい。
【0201】
ガウス混合モデルGMMモデルを使用して機械学習モデルを学習し、機械学習モデルを利用して1つまたは複数のアミノ酸を同定する上述の処理は、
図18および
図19A~
図19Eによってさらに説明される。
図18は、上述のようにサンプルウェルからの発光を測定することで得られたデータを表す多数のシグナルトレースを示している。
図18の例では、アフィニティ試薬とペプチドのN末端位置に存在する3つの異なるアミノ酸残基との相互作用によって生成されたシグナルトレースが示されている:4つのシグナルトレースの第1列は、「F」アミノ酸との相互作用によって生成されたことが知られており、第2列は「W」アミノ酸によって、第3列は「Y」アミノ酸によって生成されたことが知られている。その結果、これらのシグナルトレースは、
図6に関連して上述したような機械学習モデルの学習に使用することができる。一般的に、
図18に示された少数のシグナルトレースよりも多くのシグナルトレースが、機械学習モデルを学習するための入力として使用されてもよい。
【0202】
図19A~19Eは、
図18に示すような3つのアミノ酸についてのシグナルトレースに基づき、ガウス混合モデルGMMベースの機械学習モデルを学習する処理を示す。
図19Aは、いくつかの実施形態による、F、W、またはYのいずれかの既知のアミノ酸とのアフィニティ試薬の相互作用から生成されたシグナルトレースから得られたデータを描いている。特に、
図19Aに示すデータは、シグナルトレースからのパルスの特性を描いており、各シグナルトレースのパルスの平均特性がデータ点で表されている。例えば、Yアミノ酸のデータ点(暗い円)は、Yアミノ酸との反応から生成されたことが知られているシグナルトレースのパルスの平均パルス持続時間および平均パルス同士間持続時間を表している。
【0203】
図19Bに示すように、そして上述したように、既知のアミノ酸に対応する各データセットに対応するクラスタを同定することで、そのようなデータに対してガウス混合モデルGMMを生成してもよい。これらの3つのクラスタは、
図19Aに示されたデータについて
図19Bに示されており、
図19Cにこれらのデータ点なしで示されている。
【0204】
一旦学習されると、
図19Bおよび
図19Cで表されるガウス混合モデルGMMを備えている機械学習モデルは、
図19Dに示されているようなラベルのないデータに適用されてもよい。
図19Dの例では、多数の異なるアミノ酸から(またはそれに関連するアフィニティ試薬から)生成された可能性のあるデータを備えているシグナルトレースが描かれている。
図7に関連して上述したように、データの部分は、異なる相互作用によって生成された可能性のある部分を同定するべく、パルス特性などに基づき同定することができる。これらの部分(またはその特性)の各々は、学習済み機械学習モデルに入力されて、どのアミノ酸が各部分に関連するかを決定してもよい。
図19Eに示すように、これによって、平均パルス持続時間および平均パルス同士間持続時間によって定義される二次元空間内の位置が各部分について決定されてもよい。これによって、空間内の各位置に関連する可能性が最も高いアミノ酸が、学習済み機械学習モデルに基づき決定され得る。例えば、
図19Eに示すように、第3部分は、Fアミノ酸に関連する可能性が高いと判定される場合がある。
【0205】
図20A~
図20Dは、いくつかの実施形態による、アミノ酸を同定するための代替の2工程アプローチを示す。
図20A~
図20Dの例では、第1クラスタリングモデルを開発して、アフィニティ試薬から生成されたデータの特徴的な特性を同定し、それによってこれらの試薬を互いに区別できるようにしてもよい。この手法は、複数のアフィニティ試薬がシグナルトレース内で同時にデータを生成する場合に有益である。その後、データのどの部分が様々なアフィニティ試薬によって生成されたデータを備えていると判定されるかに基づき、追加のクラスタリングモデルを適用することができる。
【0206】
図20Aに示すように、シグナルトレースが分析され、図中で適宜ラベル付けされた5つの部分を備えていると判定される。これらの部分の少なくとも一部が複数のアフィニティ試薬によって生成されたデータを備えている場合、単一のアフィニティ試薬からのデータで学習済み機械学習モデルは、データのそのような部分を正確に分類しない可能性がある。よって、最初に、シグナルトレース内のすべての部分からのデータに基づき、第1クラスタリングモデルが開発される。この第1クラスタリングモデルは、
図20Bに表されており、これは、第1部分~第5部分の全てのパルスについての発光寿命およびパルス強度を示している。第1クラスタリングモデルは、それによって、アフィニティ試薬の特徴的な特性を同定することができる。-
図20Bに示すように、2つの異なるアフィニティ試薬からのデータを表す2つの異なるクラスタが同定される。
【0207】
続いて、
図20Cに示すように、
図20Aに示したデータの5つの部分のそれぞれからのパルスについてのパルス寿命および強度データを別々に配列してもよい。このデータを配置する際には、第1クラスタリングモデルからのパルスのクラスタリング割り当てが利用される。注目すべきこととして、いくつかの部分、すなわち、第1部分、第3部分、第4部分、および第5部分からのパルスは、第1クラスタリングモデルの2つのクラスタの両方からのデータを備えている。対照的に、第2部分のみが主に1つのクラスタからのデータを備えている。
【0208】
第1クラスタリングモデルを利用して各部分にどのクラスタが存在するかを同定することで、どのクラスタが存在するかに基づき、異なるガウス混合モデルGMMモデルを選択することができる。例えば、第1部分、第3部分、第4部分、および第5部分のデータは、第1クラスタリングモデルの各クラスタに対応するアフィニティ試薬の特性について特別に学習済みガウス混合モデルGMMモデルに基づき、アミノ酸を割り当ててもよい。この結果は、第1クラスタからのデータ点の平均パルス持続時間を、第2クラスタからのデータ点の平均パルス持続時間に対してプロットした
図20Dに示されている(第3部分のデータ点は、
図20Dに示される可視領域内に示されていない)。このように、各部分は適切に分類され得る。対照的に、第2部分は、代わりに、それぞれの結合剤の特性のみに基づき学習済み別々のガウス混合モデルGMMモデルによって分類されてもよい。
【0209】
図11は、本明細書に記載の技術のいくつかの実施形態による、アミノ酸を同定するための畳み込みニューラルネットワーク(CNN)1100の構造例を示す。いくつかの実施形態では、畳み込みニューラルネットワークCNN1100は、
図6Aを参照して上述した処理600を実行することで学習されてもよい。いくつかの実施形態では、処理600から得られた学習済み畳み込みニューラルネットワークCNN1100は、
図6Bを参照して上述した処理610を実行するべく使用されてもよい。
【0210】
図11の例示的な実施形態では、畳み込みニューラルネットワークCNN1100は、入力1102Aを受け取る。いくつかの実施形態では、入力1102Aは、光パルス後の時間区間の光子の数を指定するフレームの集合体であってもよい。いくつかの実施形態では、入力1102Aは、
図9Bを参照して上述したデータ構造910のようなデータ構造に配置されてもよい。
図11の例示的な実施形態では、入力1102Aは、2×1000の入力マトリクスを形成する、2つの時間区間のデータの1000フレームを備えている。いくつかの実施形態では、入力1102Aは、(例えば、処理700中に同定された)アミノ酸と試薬の結合相互作用に関連するフレームのセットを備えてもよい。いくつかの実施形態では、入力1102Aは、検出された結合相互作用の1つまたは複数の特性(例えば、パルス持続時間、パルス同士間持続時間、波長、発光強度、および/または発光寿命)の値、および/または、特性から導出された1つまたは複数のパラメータの値であってもよい。
【0211】
いくつかの実施形態では、畳み込みニューラルネットワークCNN1100は、入力1102Aが1つまたは複数のフィルタで畳み込まれる1つまたは複数の畳込層1102を備えている。
図11の例示的な実施形態では、入力1102Aは、第1畳込層において、16個の2×50フィルタの第1シリーズで畳み込まれる。16個のフィルタによる畳み込みの結果、16×951の出力1102Bが得られる。いくつかの実施形態では、畳み込みニューラルネットワークCNN1100は、第1畳込層の後にプーリング層を備えてもよい。一例として、畳み込みニューラルネットワークCNN1100は、第1畳込層の出力のウィンドウ内の最大値を取ってプーリングを行い、出力1102Bを得てもよい。
【0212】
図11の例示的な実施形態では、第1畳込層の出力1102Bは、次に、第2畳込層において1つまたは複数のフィルタの第2セットと畳み込まれる。出力1102Bは、1つまたは複数の1×6フィルタのセットで畳み込まれ、出力1102Cを得る。いくつかの実施形態では、畳み込みニューラルネットワークCNN1100は、第2畳込層の後にプーリング層(例えば、最大プーリング層)を備えてもよい。
【0213】
図11の例示的な実施形態では、畳み込みニューラルネットワークCNN1100は、畳込層1102の出力を平坦化して、平坦化された出力1106Aを生成する平坦化工程1104を備えている。いくつかの実施形態では、畳み込みニューラルネットワークCNN1100は、8×946の出力行列を1次元のベクトルに変換することで、出力1102Cを平坦化するように構成されてもよい。
図11の例示的な実施形態では、8×43の出力1102Cは、1×7568のベクトル1106Aに変換される。ベクトル1106Aは、可能な各クラスに対するスコアを生成するべく、完全連結層に入力されてもよい。
図11の例示的な実施形態では、可能なクラスは、20個の共通のアミノ酸、および空白(-)である。次に、ソフトマックス演算1106を完全連結層の出力に対して実行して、出力1110を得る。いくつかの実施形態では、ソフトマックス演算1106は、クラスのそれぞれに対するスコアをそれぞれの確率に変換してもよい。次いで、argmax演算1108が出力1110に対して実行され、分類を得る。argmax演算1108は、出力1110において最も高い確率を有するクラスを選択してもよい。一例として、出力は、入力1102Aによって表される時間期間中に、試薬との結合反応を行っているアミノ酸を同定してもよい。別の例として、出力は、空白(-)の分類を出力することで、その期間中に試薬とアミノ酸との結合相互作用がなかったことを同定してもよい。
【0214】
図12は、本明細書に記載の技術のいくつかの実施形態による、ポリペプチドのアミノ酸を同定するためのコネクショニスト時間分類(CTC)適合ニューラルネットワークモデル1200の一例を示す。いくつかの実施形態では、コネクショニスト時間分類CTC適合ニューラルネットワークモデル1200は、
図6Aを参照して上述した処理600を実行することで学習されてもよい。いくつかの実施形態では、処理600から得られた学習済みコネクショニスト時間分類CTC適合ニューラルネットワークモデル1200は、
図6Bを参照して上述した処理610を実行するべく使用されてもよい。
【0215】
図12の例示的な実施形態では、モデル1200は、タンパク質配列決定装置(例えば、タンパク質配列決定装置502)によって収集されたデータを受け取るように構成される。一例として、モデル1200は、タンパク質配列決定装置502のタンパク質同定システム502Dによって使用される機械学習モデルであってもよい。データは、試薬がアミノ酸に相互作用中の発光標識による検出された発光からアクセスされてもよい。いくつかの実施形態では、データは、
図9Bを参照して上述したように、光子および/またはフレームの数の複数の系列として配置されてもよい。いくつかの実施形態では、タンパク質配列決定装置1220によって収集されたデータの一部は、モデル1200への一連の入力として提供されてもよい。一例として、モデル1200は、400個の光パルスのそれぞれの後の2つの時間区間で検出された光子の数を指定する2×400の第1入力を受け取るように構成されてもよい。
【0216】
図12の例示的な実施形態では、モデル1200は、特徴抽出器1204を備えている。いくつかの実施形態では、特徴抽出器は、学習済みオートエンコーダのエンコーダであってもよい。オートエンコーダは、学習されてもよく、オートエンコーダからのデコーダは、特徴抽出器1204として実装されてもよい。エンコーダは、入力を1つまたは複数の特徴値1206としてエンコードするように構成されてもよい。
【0217】
図12の例示的な実施形態では、特徴抽出器1204によって決定された特徴値1206は、各可能なクラスに対する一連の確率値を示す確率行列1210を出力する予測器1208に入力される。
図12の例示的な実施形態では、クラスは、試薬が結合することができるアミノ酸(例えば、20の一般的なアミノ酸、および空白(-))を備えている。一例として、予測器1208は、クラスのそれぞれについて、一連の50個の確率値を示す21×50のマトリクスを出力してもよい。確率行列1210は、タンパク質配列決定装置1220によって収集されたデータに対応するアミノ酸配列を同定する出力1230を生成するべく使用されてもよい。いくつかの実施形態では、アミノ酸配列は、確率行列1210から決定されてもよい。一例として、アミノ酸配列の出力1230を得るべく、ビームサーチを実行してもよい。いくつかの実施形態では、出力は、それぞれのタンパク質を指定する複数のアミノ酸配列のうちの1つに照合されてもよい(例えば、処理610のブロック618で実行されるように)。一例として、出力は、複数のアミノ酸配列のセットから、タンパク質の複数の配列の隠れマルコフモデルHMMに最も密接に整列するアミノ酸配列を選択するべく使用される隠れマルコフモデル(HMM)を生成するべく使用されてもよい。
【0218】
いくつかの実施形態では、特徴抽出器1204は、予測器1208とは別に学習されてもよい。一例として、特徴抽出器1204は、オートエンコーダを学習することで得られてもよい。その後、オートエンコーダからのエンコーダを特徴抽出器1204として使用してもよい。いくつかの実施形態では、予測器1208は、コネクショニスト時間分類CTC損失関数1212を用いて別個に学習されてもよい。コネクショニスト時間分類CTC損失関数1212は、予測器1208を学習して、出力1230を生成するのに使用できる出力を生成してもよい。
【0219】
いくつかの実施形態では、複数の確率行列を組み合わせてもよい。第2入力は、タンパク質配列決定装置1220によって得られたデータからアクセスされてもよい。第2入力は、タンパク質配列決定装置1220によって得られたデータの第2部分であってもよい。いくつかの実施形態では、第2入力は、タンパク質配列決定装置1220によって得られたデータにおいて、いくつかの点だけシフトすることで得られてもよい。一例として、第2入力は、配列決定装置(シーケンサ)(420)から得られたデータにおける8点をシフトすることで得られる400×2の第2入力行列であってもよい。第2入力に対応する確率行列は、予測器1208から得られ、第1入力に対応する第1確率行列と組み合わされてもよい。一例として、第2確率行列は、第1確率行列に追加されてもよい。別の例として、第2確率行列をシフトして、第1確率行列に追加してもよい。その後、結合された確率行列は、アミノ酸配列を同定する出力1230を得るべく使用されてもよい。
【0220】
いくつかの実施形態では、特徴抽出器1204は、ニューラルネットワークであってもよい。いくつかの実施形態では、ニューラルネットワークは、畳み込みニューラルネットワーク(CNN)であってもよい。いくつかの実施形態では、畳み込みニューラルネットワークCNNは、1つまたは複数の畳込層および1つまたは複数のプーリング層を備えてもよい。畳み込みニューラルネットワークCNNは、タンパク質配列決定装置1220からの入力がフィルタのセットで畳み込まれる第1畳込層を備えてもよい。一例として、入力は、16×400×2の出力を生成するべく、1×1のストライドを使用して、16個の10×2フィルタのセットと畳み込まれてもよい。活性化関数は、第1畳込層の出力に適用されてもよい。一例として、ReLU活性化関数を第1畳込層の出力に適用してもよい。いくつかの実施形態では、畳み込みニューラルネットワークCNNは、第1畳込層の後に第1プーリング層を備えてもよい。いくつかの実施形態では、畳み込みニューラルネットワークCNNは、第1畳込層の出力にmaxpool演算を適用してもよい。例として、1×1のストライドを有する2×2フィルタを16×400×2の出力に適用して200×1の出力を得てもよい。
【0221】
いくつかの実施形態では、畳み込みニューラルネットワークCNNは第2畳込層を備えていてもよい。第2畳込層は、第1プーリング層の出力を入力として受け取ってもよい。一例として、第2畳込層は、第1プーリング層の200×1の出力を入力として受け取ってもよい。第2畳込層では、第2フィルタセットによる畳み込みを行ってもよい。例として、第2畳込層では、200×1の入力を、ストライドが1×1の16個の10×1フィルタの第2セットで畳み込み、16×200の出力を生成してもよい。活性化関数は、第2畳込層の出力に適用されてもよい。一例として、ReLU活性化関数が第2畳込層の出力に適用されてもよい。いくつかの実施形態では、畳み込みニューラルネットワークCNNは、第2畳込層の後に、第2プーリング層を備えてもよい。いくつかの実施形態では、畳み込みニューラルネットワークCNNは、第2畳込層の出力にmaxpool演算を適用してもよい。例として、4×1のストライドを有する4×1フィルタを第2畳込層の16×200の出力に適用して、16×50の出力を得てもよい。
【0222】
いくつかの実施形態では、特徴抽出器1204は、リカレントニューラルネットワーク(RNN)であってもよい。一例として、特徴抽出器1204は、タンパク質配列決定装置1220から受け取られたデータを1つまたは複数の特徴の値として符号化するように学習済みRNNであってもよい。いくつかの実施形態では、特徴抽出器1204は、長短期記憶(LSTM)ネットワークであってもよい。いくつかの実施形態では、特徴抽出器1204は、ゲーテッドリカレントユニット(GRU)ネットワークであってもよい。
【0223】
いくつかの実施形態では、予測器1208は、ニューラルネットワークであってもよい。いくつかの実施形態では、ニューラルネットワークは、GRUネットワークであってもよい。いくつかの実施形態では、GRUネットワークは、双方向であってもよい。一例として、GRUネットワークは、GRUネットワークへの入力として提供される特徴抽出器1204の16×50の出力を受け取ってもよい。一例として、GRUネットワークは、50×128の出力を生成する64の隠れ層を有してもよい。いくつかの実施形態では、GRUネットワークは、tanh活性化関数を使用してもよい。いくつかの実施形態では、予測器1208は、完全連結層を備えてもよい。GRUネットワークの出力は、21×50の出力行列を生成する完全連結層への入力として提供されてもよい。21×50行列は、各可能な出力クラスに対する一連の値を備えてもよい。いくつかの実施形態では、予測器1208は、完全連結層の出力にソフトマックス関数を適用して、確率行列1210を得るように構成されてもよい。
【0224】
図7に関連して上述したように、学習済み機械学習モデルに入力される値を同定するべく、シグナルトレースの部分が同定されてもよい。各部分、または関心領域(ROI)は、関心領域ROI内で生成されるシグナルの特性が試薬を示すという点で、特定の発光試薬に関連付けられてもよい。例えば、
図3では、K、F、Qと示された3つの関心領域ROIが切断イベント同士間に同定されている。したがって、これらの関心領域ROIを同定することは、学習済み機械学習モデルに入力するべく各関心領域ROIから特徴を抽出する前に、
図7の方法のように、データの一部を選択する最初の工程を表すことができる。
【0225】
関心領域ROIを同定するための例示的なアプローチが、
図14A~
図14Cに示されている。説明の目的で、
図14Aは、上述したような多数のパルス(測定された発光)を備えている例示的なシグナルトレースを描いている。一般に、このようなシグナルトレースは、それぞれが特定のアフィニティ試薬によって生成されたパルスに対応する多数の関心領域ROIを備えていることができる。以下でさらに説明するアプローチでは、シグナルトレースの一部または全部にウェーブレット変換を適用して、
図14Bに描かれている複数のウェーブレット係数を生成してもよい。これらのウェーブレット係数は、
図14Bの様々な特徴の位置を、
図14Aのパルスの対応する変化と比較することで注目され得るように、元のシグナルトレースの特性を表す。
【0226】
図14Cに示すように、ウェーブレット係数は、候補関心領域ROIを同定するべく分析されてもよい。
図14Cの暗い縦棒は、関心領域ROIの開始または終了がその位置に存在する可能性があることを示すウェーブレット係数の測定値を表している。場合によっては、後述するように、候補関心領域ROIをさらに分析して、候補が実際の関心領域ROIである可能性がどの程度高いかという信頼度の測定値に基づき、いくつかの候補関心領域ROIを除外してもよい。
【0227】
図15は、いくつかの実施形態による、上記で概説したウェーブレットアプローチを使用して関心領域ROIを同定する方法のフローチャートである。方法1500は、例えば、
図7の方法700におけるブロック702で利用されてもよく、この方法では、各部分について機械学習モデルにデータを提供する前に、データの部分(関心領域ROI)が同定される。
【0228】
方法1500は、パルスを備えているシグナルトレースの一部または全部のウェーブレット分解が実行される行為1502で始まる。いくつかの実施形態では、ウェーブレット分解は、離散ウェーブレット変換(DWT)を備えてもよく、これは任意の適切なレベルの分解まで実行されてもよい。いくつかの実施形態において、行為1502は、少なくとも10、または10と20の間、または15と20の間、または17と18の間の分解レベルを有する係数を生成する工程を備えてもよい。いくつかの実施形態では、分解レベルは、シグナルトレースの1つまたは複数の特性(例えば、フレーム持続時間、パルス同士間持続時間など)に基づき動的に選択されてもよい。
【0229】
いくつかの実施形態によれば、行為1502において実行されるウェーブレット分解は、Haar、Daubechies、biorthogonal、coiflet、またはsymletを備えているがこれらに限定されない、任意の適切な離散ウェーブレットおよび/またはウェーブレットファミリーを使用して実行されてもよい。
【0230】
ウェーブレット変換は、シグナルトレースにおける測定値(フレーム)の数よりも少ない数の係数を生成する可能性があるので、ウェーブレット係数とシグナルトレースとの間で比較される値の数が同じになるように、生成されたウェーブレット係数同士の間に追加のデータ値を生成するべく、行為1502において1つまたは複数の操作が実行されてもよい。例えば、データ値は、任意の適切な補間方法または手法を介して、ウェーブレット係数同士間の補間によって生成されてもよい。例えば、データ値は、最近傍補間を介して、線形補間を介して、多項式補間を介して、スプライン補間を介して、またはそれらの組み合わせを介して、生成されてもよい。
【0231】
行為1502においてウェーブレット係数がどのように計算されるかにかかわらず、また、上述したように追加のデータ値が生成されるか否かにかかわらず、行為1504において、ウェーブレット係数に基づき縁(エッジ)が検出される。以降の説明では、行為1504は、ウェーブレット係数に基づき実行される演算を備えているものとして説明するが、この説明は、行為1502におけるウェーブレット変換から生成されたウェーブレット係数のセットのみにも、補間されたデータ値に組み合わせたウェーブレット係数の組み合わせにも適用可能であることが理解されるであろう。
【0232】
いくつかの実施形態では、エッジは、行為1504におけるウェーブレット係数の傾きを測定することで検出されてもよい。例えば、係数内の1つまたは複数の隣接する値にわたる平均傾斜が計算されてもよく、平均傾斜が適切な閾値を上回るときにエッジが検出されてもよい。いくつかの実施形態では、閾値はゼロであってもよく、すなわち、係数の傾きがゼロからゼロ以上になったときにエッジが検出されてもよく、係数の傾きが負でゼロに向かって上昇したときにもエッジが検出されてもよい。これによって、関心領域ROIのリーディングエッジとフォールディングエッジを検出することができる場合がある。
【0233】
いくつかの実施形態では、検出されたエッジの大きさは、行為1504で計算されてもよい。マグニチュードは、例えば、検出されたエッジにすぐ隣接するウェーブレット係数の傾きの大きさであってもよい。したがって、急速に上昇するエッジは、よりゆっくりと上昇するエッジとは異なる大きさを有するものとして同定されてもよい。
【0234】
行為1506では、行為1504で検出されたエッジに基づき、1つまたは複数の候補関心領域ROIがシグナルトレース内で同定されてもよい。いくつかの実施形態では、候補関心領域ROIは、開始エッジと終了エッジとの間の領域として同定されてもよい。例えば、
図14Cの例では、同定された最初の2つのエッジは、第1関心領域ROIの開始および終了であると考えられてもよく、それによって、領域1405が候補関心領域ROIとして同定されることができる。
【0235】
いくつかの実施形態によれば、行為1506は、パルスについてのパルス持続時間の有意な変化が候補関心領域ROI内で発生するかどうかを判定する有意差検定を備えてもよい。パルス持続時間の変化が何らかの尺度で有意であることが判明した場合、候補関心領域ROIを、それぞれが異なるパルス持続時間を示す2つ以上の関心領域ROIに分割してもよい。例えば、候補関心領域ROI内の時間位置および/またはパルス位置が、関心領域ROIを2つの新しい関心領域ROIに分割する点として同定されてもよい(したがって、新しい第1関心領域ROIが分割点で終了し、新しい第2関心領域ROIが分割点で開始してもよい)。この処理は、関心領域ROIを分割した後、最初の関心領域ROIを分割することで生成された新しい関心領域ROIを検査し、再び分割するなど、再帰的に行われてもよい。また、このアプローチは、パルス持続時間のみの使用に限定されるものではないので、関心領域ROI候補を分割するかどうかを決定するべく、任意のパルス特性を検査してもよいことが理解されるであろう。
【0236】
行為1506において検出されたエッジから候補関心領域ROIがどのように同定されるかにかかわらず、行為1508において、候補関心領域ROIは任意にスコアリングされ、低スコアの関心領域ROIは検討から除外されてもよい。行為1508は、それによって、行為1506で同定されたが、実際の関心領域ROIを表している可能性が低いスプリアス(spurious)関心領域ROIのカリング(culling)を可能にしてもよい。
【0237】
いくつかの実施形態によれば、行為1508において、各関心領域ROIに対してスコアリング関数の値を計算してもよい。スコアリング関数は、候補関心領域ROIの前縁および/または後縁におけるウェーブレット係数の平均傾斜、関心領域ROI内のウェーブレット係数の平均または中央値の振幅、関心領域ROI内のパルスレート、シグナルトレース全体内のノイズレベルの推定値、シグナルトレース全体内のパルスレート、またはこれらの組み合わせを備えているが、これらに限定されないいくつかの変数の関数であってもよい。
【0238】
いくつかの実施形態によれば、スコアリング関数は、i番目の候補関心領域ROIの信頼性スコアCiを計算するべく、以下の形式をとることができる。
【0239】
【0240】
ここで、Eiは、候補関心領域ROIの前縁および後縁におけるウェーブレット係数の傾きの平均であり、Miは、関心領域ROI内のウェーブレット係数の振幅の中央値であり、Priは、関心領域ROI内のパルスレートであり、Ntは、シグナルトレース全体内のノイズレベルの推定値(例えば、シグナルトレースの全ウェーブレットエントロピー)であり、PRは、シグナルトレース全体内のパルスレートである。
【0241】
いくつかの実施形態によれば、行為1508は、計算されたスコアが閾値を下回る関心領域ROIを除外する工程を備えてもよい。例えば、スコアが上の式によって与えられる場合、或る閾値を下回るスコアを持つ候補関心領域ROIは、その後の検討から除外されてもよい。
【0242】
図7に関連して上述したように、機械学習モデルへの入力用の値は、パルスパラメータにフィッティング(適合)する分布を記述するパラメータを備えている、データの一部から得られる任意のパラメータを備えてもよい。さらに、機械学習モデルの学習中に、既知のアフィニティ試薬から生成されたデータを適切な分布に当てはめて、機械学習モデルが、アフィニティ試薬が示す分布のパラメータに基づきアフィニティ試薬を認識するように学習させてもよい。
【0243】
図16A~
図16Bは、いくつかの実施形態にしたがって、この方法で適用され得る2つの例示的なアプローチを示している。
図16Aの例では、既知のアミノ酸に関連するアフィニティ試薬に対応するシグナルトレースの一部のパルス持続時間が、べき乗則分布にフィッティングされる。暗い線1601は、関連するシグナルトレースデータが示すパルス持続時間の分布を表し、明るい線1602は、Cおよびaが定数であり、xがパルス持続時間である、べき乗則Cx
aによって記述される線を表す。このようにして機械学習モデルを学習することで、各アフィニティ試薬は、Cおよびaの独自の値(または値の独自の分布)に関連付けられてもよい。
【0244】
図16Aとそれに続く議論によって示されるアプローチは、単一のパルス持続時間値(または他のパルスパラメータ)が、特定のアフィニティ試薬によって生成される測定値のタイプを完全には表さない可能性に基づいている。むしろ、各アフィニティ試薬は、当然、パルスパラメータ値の範囲を生成する可能性がある。しかし、その範囲の特性は、アフィニティ試薬ごとに異なる可能性があり、したがって、分布は、特定の値ではなく、試薬の特性である。
【0245】
図16Bは、指数関数の和(指数状態とも呼ばれる)を用いて、所定のアフィニティ試薬によって生成されたデータを表現する例である。
図16Bに示すように、既知のアミノ酸に関連するアフィニティ試薬に対応するシグナルトレースの一部のパルス持続時間が、指数関数の和にフィッティングされる。暗い線1611は、関連するシグナルトレースデータによって示されるパルス持続時間の分布を表し、中度灰色の線1612は、指数関数の合計によって記述される線を表す。これらの指数関数は、薄い灰色の線1615および1616として図示されている。数学的には、指数関数の和は、以下のように与えられることがある。
【0246】
【0247】
ここで、a
iおよびb
iは、i番目の指数関数の値である。
図16Bに描かれたケースでは、したがって、データ1611にフィッティングする可能性のある値は、a
1、a
2、b
1、およびb
2である。
【0248】
図17A~
図17Bは、いくつかの実施形態による、パルス持続時間値が3つの指数関数の和にフィッティングするアプローチを示しており、フィッティングした各分布は共通の指数関数を備えている。
図17A~
図17Bの例では、3つの指数関数の合計が、2つの例示的なジペプチドFAおよびYAのそれぞれのパルス持続時間分布にフィッティングされる。指数関数の和は、上式のように与えられてもよく、ここでは、a
0およびb
0の同じ値が各分布のフィッティングに使用され、残りの値a
1、a
2、b
1、およびb
2が各分布に対して別々にフィッティングされる。特に、
図17Aは、データ1701が指数関数1705、1715、1716の和1702にフィッティングする様子を描いており、関数1705は共通の指数関数である。
図17Bは、データ1711が、指数関数1705、1718および1719の和1712にフィッティングされる様子を描いている。
【0249】
図17A~
図17Bのアプローチは、値a
0およびb
0によって表される共通の状態が、すべてのジペプチドに存在するという分布の共通構成要素を表すという利点を有し得る。この共通構成要素は、例えば、測定装置に固有のノイズ、および/または、シグナルトレースを生成するためのアフィニティ試薬の使用に固有のノイズを表している可能性がある。
【0250】
いくつかの実施形態によれば、このアプローチを用いた機械学習モデルの学習は、以下のように構成される。まず、システムのダイナミクスを、パルス持続時間の関数である3構成要素システムとしてモデル化する。
【0251】
【0252】
ここで、αの値はすべてのジペプチドに共通であるが、残りのパラメータA,B,C,β0およびβ1は、インデックスnで参照される特定のジペプチドに固有である。
関数G(x)は、観測されたパルス持続時間の範囲で合計が1になるように制約されることがある。
【0253】
【0254】
ここで、d0とd1は、観測されたパルスの持続時間の下限と上限である。
機械学習モデルの学習中、G(x)のパラメータは、モデルの負の対数尤度を最小化することで決定されてもよい。
【0255】
【0256】
即ち、上記負の対数尤度を最小化する。ここで、p(n)は、モデルのパラメータが与えられたときのデータの観測確率である。
【0257】
【0258】
ここで、X(n)は、学習データとして観測されたパルス幅の集合である。
タンパク質の同定を行う場合、このモデルを適用するには、すべてのnに対してp(n)を計算する。Σln(p(n))の値が最も大きいnで表されるジペプチドをモデル予測とすることができる。
【0259】
指数関数の和を用いてパルス持続時間の分布をモデル化する上述の例は、特定のアフィニティ試薬および/またはジペプチドによって生成されたデータのパルス特性を記述する一例として提供されていることが理解されるであろう。他のアプローチは、異なるパルス特性の複数の分布に依存してもよく、様々な機械学習技術を適用して、複数の分布からのパラメータに基づきタンパク質を同定する機械学習モデルを学習してもよい。
【0260】
いくつかの実施形態では、分布は、観察されたパルスを生成するべくタンパク質と相互作用する特定のアフィニティ試薬が与えられた場合に、特定のパルス特性または特性を測定する確率に基づいてもよい。いくつかの実施形態では、分布は、観察されたパルスが観察されたときに特定の末端ジペプチドが存在する場合に、特定のパルス特性または特性を測定する確率に基づいてもよい。特定のアフィニティ試薬は、或るジペプチドとの相互作用時に、別のジペプチドとの相互作用時に、異なるパルス特性の分布を生じることがあるので、上記の2つのケースは、必ずしも同一ではない。同様に、同じジペプチドが、或るアフィニティ試薬と別のアフィニティ試薬との相互作用時に、異なるパルス特性を生じさせることもある。
【0261】
このように、本発明の少なくとも1つの実施形態のいくつかの側面を説明してきたが、様々な変更、修正、および改良が当業者に容易に生じることが理解されよう。
そのような変更、修正、および改良は、本開示の一部であることが意図され、本発明の精神および範囲内であることが意図される。さらに、本発明の利点が示されているが、本明細書に記載された技術のすべての実施形態が、記載されたすべての利点を備えているわけではないことを理解すべきである。いくつかの実施形態は、本明細書で有利であると説明されたいかなる特徴も実施しない場合があり、いくつかの例では、説明された特徴のうちの1つまたは複数が、さらなる実施形態を達成するべく実施される場合がある。したがって、前述の説明および図面は、例示に過ぎない。
【0262】
例えば、ペプチド、ポリペプチドおよび/またはタンパク質などの生物学的ポリマーを配列決定するための技術が本明細書に記載されている。記載されている技術は、アミノ酸の任意の適切なポリマーに適用することができ、配列決定、アミノ酸の同定などに関する本明細書のあらゆる言及は、特定のポリマーに関して限定的であると見なすべきではないことが理解されるであろう。よって、本明細書でタンパク質、ポリペプチド、ペプチドなどに言及しているのは、別段の指示がない限り、例示的な例として提供されており、そのような言及は、明示的に同定されていない他のアミノ酸のポリマーにも同様に適用できることが理解されるであろう。さらに、DNAおよび/またはRNAを備えているがこれらに限定されない、任意の生物学的ポリマーが本明細書に記載された技術を用いて配列決定され得る。
【0263】
さらに、本明細書で使用される、ポリペプチドまたはタンパク質に関する「シークエンシング」(配列決定)、「シーケンス決定」(配列決定)、「配列を決定する」などの用語は、ポリペプチドまたはタンパク質の完全な配列情報だけでなく、部分的な配列情報の決定を備えている。すなわち、この用語には、対象分子についての配列比較、指紋(フィンガープリント)、確率的指紋などのレベルの情報に加えて、関心領域内の対象分子の各アミノ酸の明示的な同定および順序付けることが含まれる。いくつかの実施形態では、用語は、ポリペプチドの単一のアミノ酸を同定する工程を備えている。さらに他の実施形態では、ポリペプチドの2つ以上のアミノ酸が同定される。本明細書で使用されるように、いくつかの実施形態では、アミノ酸に関連して、「同定する」(identifying。特定する。識別する)、「同一性を決定する」(determining the identity)などの用語は、アミノ酸の発現同一性の決定だけでなく、アミノ酸の発現同一性の確率の決定も備えている。例えば、いくつかの実施形態では、アミノ酸は、そのアミノ酸が特定の型である確率(例えば、0%から100%)を決定することで、または複数の特定の型のそれぞれについて確率を決定することで、同定される。したがって、いくつかの実施形態では、本明細書で使用される「アミノ酸配列」、「ポリペプチド配列」、および「タンパク質配列」という用語は、ポリペプチドまたはタンパク質の材料自体を指すことがあり、特定のポリペプチドまたはタンパク質を生化学的に特徴づける特定の配列情報(例えば、或る末端から別の末端へのアミノ酸の順序を表す文字の連続)に限定されない。
【0264】
いくつかの実施形態では、本明細書に記載されたシステムおよび技術は、1つまたは複数のコンピューティング装置を使用して実装することができる。しかしながら、実施形態は、任意の特定のタイプのコンピューティング装置で動作するように限定されるものではない。さらなる例示として、
図13は、例示的なコンピューティング装置1300のブロック図である。コンピューティング装置1300は、1つまたは複数のプロセッサ1302と、1つまたは複数の有形の非一時的なコンピュータ可読記憶媒体(例えば、メモリ1304)とを備えてもよい。メモリ1304は、実行されると上述の機能のいずれかを実装するコンピュータプログラム命令を、有形の非一時的なコンピュータ記録可能な媒体に格納してもよい。プロセッサ(複数可)1302は、メモリ1304に結合されてもよく、機能性を実現および実行させるべく、そのようなコンピュータプログラム命令を実行してもよい。
【0265】
コンピューティング装置1300はまた、コンピューティング装置が他のコンピューティング装置と(例えば、ネットワークを介して)通信することができるネットワーク入力/出力(I/O)インタフェース1306を備えてもよく、さらに、コンピューティング装置がユーザに出力を提供し、ユーザから入力を受け取ることができる1つまたは複数のユーザI/Oインタフェース1308を備えてもよい。ユーザI/Oインタフェースは、キーボード、マウス、マイクロフォン、ディスプレイ装置(例えば、モニタまたはタッチスクリーン)、スピーカ、カメラ、および/または他の様々なタイプのI/O装置などの装置を備えてもよい。
【0266】
上述の実施形態は、多数の方法のいずれかで実施することができる。一例として、実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わせを使用して実装することができる。ソフトウェアで実装する場合、ソフトウェアコードは、単一のコンピューティング装置に設けられているか、複数のコンピューティング装置に分散されているかに関わらず、任意の適切なプロセッサ(例えば、マイクロプロセッサ)またはプロセッサの集合体上で実行することができる。上述した機能を実行する任意の構成要素または構成要素の集まりは、上述した機能を制御する1つまたは複数のコントローラとして一般的に考えることができることを理解すべきである。1つまたは複数のコントローラは、専用のハードウェア、または上述の機能を実行するべくマイクロコードまたはソフトウェアを使用してプログラムされた汎用ハードウェア(例えば、1つまたは複数のプロセッサ)など、数多くの方法で実装することができる。
【0267】
この点において、本明細書に記載された実施形態の一実装は、少なくとも1つのコンピュータ可読記憶媒体(例えば、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、または他の有形の非一時的なコンピュータ可読記憶媒体)であって、1つまたは複数のプロセッサで実行されると、1つまたは複数の実施形態の上述の機能を実行するコンピュータプログラム(すなわち、複数の実行可能な命令)がエンコードされている。コンピュータ可読記憶媒体(可読媒体)は、その上に格納されたプログラムが、本明細書で述べた技術の側面を実装するべく任意のコンピューティング装置にロードできるように、輸送可能であってもよい。さらに、実行されると上述の機能のいずれかを実行するコンピュータプログラムへの言及は、ホストコンピュータ上で実行されるアプリケーションプログラムに限定されないことを理解すべきである。むしろ、本明細書では、コンピュータプログラムおよびソフトウェアという用語は、本明細書で議論した技術の側面を実装するべく1つまたは複数のプロセッサをプログラムするべく採用することができる任意のタイプのコンピュータコード(例えば、アプリケーションソフトウェア、ファームウェア、マイクロコード、またはコンピュータ命令の他の形態)を参照するべく、一般的な意味で使用されている。
【0268】
本開示の様々な特徴および態様は、単独で、2つ以上の任意の組み合わせで、または前述で説明した実施形態で具体的に説明されていない様々な配置で使用することができ、したがって、その適用は、前述の説明に記載された、または図面に図示された構成要素の詳細および配置に限定されない。一例として、一実施形態で説明した側面は、他の実施形態で説明した側面と任意の方法で組み合わせることができる。
【0269】
また、本明細書に開示された概念は、その例が提供されている方法として具現化されてもよい。方法の一部として実行される行為は、任意の適切な方法で順序付けられてもよい。したがって、図示とは異なる順序で行為が実行される実施形態が構築されてもよく、これには、例示の実施形態では連続した行為として示されていても、いくつかの行為を同時に実行することが含まれる。
【0270】
さらに、いくつかの行為は、「ユーザ」によって行われるものとして説明されている。「ユーザ」は単一の個人である必要はなく、いくつかの実施形態では、「ユーザ」に起因する行為は、個人のチームおよび/またはコンピュータ支援ツールもしくは他の機構と組み合わせた個人によって実行されてもよいことを理解すべきである。
【0271】
請求項において、請求項要素を修正するべく「第1」、「第2」、「第3」などの序数詞を使用することは、それ自体、或る請求項要素の別の請求項要素に対する優先順位、先行順位、または方法の行為が実行される時間的順序を意味するものではなく、或る名称を有する或る請求項要素を、同じ名称を有する別の請求項要素(ただし、序数詞を使用する場合)と区別するための標識(ラベル)として使用されるに過ぎない。
【0272】
また、本明細書で使用されているフレーズや用語は、説明のためのものであり、限定的なものとみなされるべきではない。本明細書における「including」(含む、備える)、「comprising」(含む、備える)、「有する」(having)、「containing」(含む、備える)、「involving」(含む、備える)、およびそれらの変形の使用は、その後に列挙された項目およびそれらの等価物、ならびに追加の項目を包含することを意味する。
【0273】
「approximately」(およそ、約)および「about」(およそ、約)という用語は、いくつかの実施形態では目標値の±20%以内、いくつかの実施形態では目標値の±10%以内、いくつかの実施形態では目標値の±5%以内、さらにいくつかの実施形態では目標値の±2%以内を意味するべく使用されてもよい。「approximately」(およそ、約)および「about」(およそ、約)という用語は、目標値を備えてもよい。「実質的に等しい」という用語は、いくつかの実施形態では互いに±20%以内、いくつかの実施形態では互いに±10%以内、いくつかの実施形態では互いに±5%以内、さらにいくつかの実施形態では互いに±2%以内である値を指すべく使用されてもよい。
【0274】
「実質的に」という用語は、いくつかの実施形態では比較尺度の±20%以内、いくつかの実施形態では±10%以内、いくつかの実施形態では±5%以内、さらにいくつかの実施形態では±2%以内である値を指すべく使用されてもよい。例えば、第2方向に「実質的に」垂直な第1方向とは、いくつかの実施形態では第2方向と90°の角度を作ることの±20%以内、いくつかの実施形態では第2方向と90°の角度を作ることの±10%以内、いくつかの実施形態では第2方向と90°の角度を作ることの±5%以内、さらにいくつかの実施形態では第2方向と90°の角度を作ることの±2%以内である第1方向を指すことがある。
【国際調査報告】