(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-28
(54)【発明の名称】高親和性結合剤を識別及び生成するための実験並びに機械学習技術
(51)【国際特許分類】
G16B 40/20 20190101AFI20240521BHJP
G16B 15/30 20190101ALI20240521BHJP
G16B 35/10 20190101ALI20240521BHJP
G16B 35/20 20190101ALI20240521BHJP
【FI】
G16B40/20
G16B15/30
G16B35/10
G16B35/20
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023570180
(86)(22)【出願日】2022-05-26
(85)【翻訳文提出日】2024-01-10
(86)【国際出願番号】 US2022031110
(87)【国際公開番号】W WO2022251480
(87)【国際公開日】2022-12-01
(32)【優先日】2021-05-28
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】516326438
【氏名又は名称】エックス デベロップメント エルエルシー
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100126480
【氏名又は名称】佐藤 睦
(72)【発明者】
【氏名】グルビシチ,アイヴァン
(72)【発明者】
【氏名】ナガタニ,レイ
(72)【発明者】
【氏名】ケ,ランス,コー ティン
(72)【発明者】
【氏名】ワイツ,アンドリュー
(72)【発明者】
【氏名】ユング,ケネス
(72)【発明者】
【氏名】ポプリン,ライアン
(57)【要約】
【課題】本開示は、任意の所与の分子標的に結合することができる結合剤を識別するためのプロセスを反復的に改善するための、インビトロ実験及びインシリコ計算及び機械学習に基づく技術に関する。
【解決手段】特に、本開示の態様は、標的に結合するアプタマーについての配列データを取得することであって、配列データが、第1のシグナル対ノイズ比を有する、配列データを取得することと、検索プロセスによって、配列データから導出される第1のアプタマー配列のセットを生成することと、標的に結合する後続のアプタマーについての後続の配列データを取得することであって、後続のアプタマーが、第1のアプタマー配列のセットから合成されたアプタマーを含み、後続の配列データが第1のシグナル対ノイズ比よりも大きい第2のシグナル対ノイズ比を有する、後続の配列データを取得することと、線形機械学習モデルによって、後続の配列データから導出される第2のアプタマー配列のセットを生成することと、第2のアプタマー配列のセットを出力することと、に関する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
方法であって、
標的に結合する初期アプタマーライブラリの各固有のアプタマーについての初期配列データを取得することであって、前記初期配列データが、第1のシグナル対ノイズ比を有する、前記初期配列データを取得することと、
検索プロセスによって、所与の問題の初期解として、第1のアプタマー配列のセットを生成することであって、前記第1のアプタマー配列のセットが、前記初期配列データから導出される、前記第1のアプタマー配列のセットを生成することと、
前記標的に結合する後続のアプタマーライブラリの各固有のアプタマーについての後続の配列データを取得することであって、前記後続のアプタマーライブラリが、前記第1のアプタマー配列のセットから合成されたアプタマーを含み、前記後続の配列データが、前記第1のシグナル対ノイズ比よりも大きい第2のシグナル対ノイズ比を有する、前記後続の配列データを取得することと、
線形機械学習モデルによって、前記所与の問題の最終解として、第2のアプタマー配列のセットを生成することであって、前記第2のアプタマー配列のセットが、前記後続の配列データから導出される、前記第2のアプタマー配列のセットを生成することと、
前記第2のアプタマー配列のセットを出力することと、を含む、方法。
【請求項2】
前記検索プロセスが、
(a)アプタマー配列の初期集団を取得することであって、前記初期集団が、前記初期配列データからの配列のサブセット、前記初期配列データからの前記配列とは異なる配列のプールからの配列、又はそれらの組み合わせである、前記初期集団を取得することと、
(b)前記初期集団を非線形機械学習モデルに入力することと、
(c)前記非線形機械学習モデルによって、前記初期集団の各アプタマー配列の適合度スコアを推定することであって、前記適合度スコアが、所与のアプタマー配列が前記所与の問題に関する解として、どの程度良好に機能するかの尺度である、前記適合度スコアを推定することと、
(d)各アプタマー配列についての前記適合度スコアに基づいて、前記初期集団からアプタマー配列の対を選択することと、
(e)子孫を生成するために、前記アプタマー配列の前記対の間でヌクレオチドを交換することによって、アプタマー配列の各対を交配させることと、
(f)アプタマー配列の各対からの前記子孫を新しい集団に追加することと、
(g)新しい集団の配列を作成するために、停止基準が満たされるまで、ステップ(b)~(f)を繰り返すことと、
前記停止基準を満たすことに応答して、前記第1のアプタマー配列のセットとして、ステップ(f)からの最新の新しい集団を出力することと、を含む、請求項1に記載の方法。
【請求項3】
前記初期集団の各アプタマー配列の前記適合度スコアを前記推定することが、前記非線形機械学習モデルによって、前記初期集団の各アプタマー配列の前記適合度スコアについての不確実性スコアを生成することを含み、
前記不確実性スコアが、前記非線形機械学習モデルによる適合度スコアの推定における不確実性の定量化であり、
前記初期集団からのアプタマー配列の対が、各アプタマー配列についての前記適合度スコア及び不確実性スコアに基づいて選択される、請求項2に記載の方法。
【請求項4】
前記線形機械学習モデルによって、前記第2のアプタマー配列のセットを前記生成することが、
独立変数と従属変数との間の関係を定量化するために、前記後続の配列データを使用して、線形回帰分析を実行することと、
前記独立変数と前記従属変数との間の前記関係に基づいて、従属値の値に対する各独立値の寄与を判定することと、
前記従属値の前記値に対する各独立値の前記寄与に基づいて、前記第2のアプタマー配列のセットを識別することと、
前記第2のアプタマー配列のセットを出力することと、を含む、請求項2に記載の方法。
【請求項5】
前記非線形機械学習モデルが、(i)前記初期配列データからの配列のサブセットを含む第1の訓練データのセットと、(ii)第1の目的関数と、を使用して学習された10,000個以上のパラメータを含み、
前記線形機械学習モデルが、(i)後続の配列データからの配列のサブセットを含む第2の訓練データのセットと、(ii)第2の目的関数と、を使用して学習された10,000個未満のパラメータを含み、
前記第2の目的関数が、損失関数の線形等式及び/又は不等式制約の下で線形プログラミングによって、最適化され、
正則化回帰が、少なくとも1つの係数を0に制約することによって、前記第2の目的関数に適用される、請求項4に記載の方法。
【請求項6】
前記第2のアプタマー配列のセットを使用して、最終のアプタマーのセットを合成することと、
ハイスループット又はロースループット親和性アッセイを使用して、前記標的に結合すること及び前記所与の問題を解決することが可能である前記最終のアプタマーのセットからの1つ以上のアプタマーを検証することと、
前記標的に結合すること及び前記所与の問題を解決することが可能であるとして検証された前記1つ以上のアプタマーを使用して、生物製剤を合成することとを更に含む、請求項1に記載の方法。
【請求項7】
前記標的に結合し、前記所与の問題を解決することができる潜在的治療候補に関するクエリを受信することと、
前記クエリを潜在的に満たすものとして、前記初期アプタマーライブラリを獲得することと、
前記第2のアプタマー配列のセットを使用して、最終のアプタマーのセットを合成することと、
ハイスループット又はロースループット親和性アッセイを使用して、前記標的に結合すること及び前記所与の問題を解決することが可能である前記最終のアプタマーのセットからの1つ以上のアプタマーを検証することと、
前記1つ以上のアプタマーを検証すると、かつ前記クエリに応答して、結果としての前記1つ以上のアプタマーについてのアプタマー配列を前記クエリに提供することと、を更に含む、請求項1に記載の方法。
【請求項8】
非一時的機械可読記憶媒体で有形に具現化されたコンピュータプログラム製品であって、1つ以上のデータプロセッサに、アクションを実施させるように構成された命令を含め、前記アクションが、
標的に結合する初期アプタマーライブラリの各固有のアプタマーについての初期配列データを取得することであって、前記初期配列データが第1のシグナル対ノイズ比を有する、前記初期配列データを取得することと、
検索プロセスによって、所与の問題の初期解として、第1のアプタマー配列のセットを生成することであって、前記第1のアプタマー配列のセットが前記初期配列データから導出される、前記第1のアプタマー配列のセットを生成することと、
前記標的に結合する後続のアプタマーライブラリの各固有のアプタマーについての後続の配列データを取得することであって、前記後続のアプタマーライブラリが、前記第1のアプタマー配列のセットから合成されたアプタマーを含み、前記後続の配列データが、前記第1のシグナル対ノイズ比よりも大きい第2のシグナル対ノイズ比を有する、前記後続の配列データを取得することと、
線形機械学習モデルによって、前記所与の問題の最終解として、第2のアプタマー配列のセットを生成することであって、前記第2のアプタマー配列のセットが、前記後続の配列データから導出される、前記第2のアプタマー配列のセットを生成することと、
前記第2のアプタマー配列のセットを出力することと、を含む、コンピュータプログラム製品。
【請求項9】
前記検索プロセスが、
(a)アプタマー配列の初期集団を取得することであって、前記初期集団が、前記初期配列データからの配列のサブセット、前記初期配列データからの前記配列とは異なる配列のプールからの配列、又はそれらの組み合わせである、前記初期集団を取得することと、
(b)前記初期集団を非線形機械学習モデルに入力することと、
(c)前記非線形機械学習モデルによって、前記初期集団の各アプタマー配列の適合度スコアを推定することであって、前記適合度スコアが、所与のアプタマー配列が前記所与の問題に関する解として、どの程度良好に機能するかの尺度である、前記適合度スコアを推定することと、
(d)各アプタマー配列についての前記適合度スコアに基づいて、前記初期集団からアプタマー配列の対を選択することと、
(e)子孫を生成するために、前記アプタマー配列の前記対の間でヌクレオチドを交換することによって、アプタマー配列の各対を交配させることと、
(f)アプタマー配列の各対からの前記子孫を新しい集団に追加することと、
(g)新しい集団の配列を作成するために、停止基準が満たされるまで、ステップ(b)~(f)を繰り返すことと、
前記停止基準を満たすことに応答して、前記第1のアプタマー配列のセットとして、ステップ(f)からの最新の新しい集団を出力することと、を含む、請求項8に記載のコンピュータプログラム製品。
【請求項10】
前記初期集団の各アプタマー配列の前記適合度スコアを前記推定することが、前記非線形機械学習モデルによって、前記初期集団の各アプタマー配列の前記適合度スコアについての不確実性スコアを生成することを含み、
前記不確実性スコアが、前記非線形機械学習モデルによる適合度スコアの推定における不確実性の定量化であり、
前記初期集団からのアプタマー配列の対が、各アプタマー配列についての前記適合度スコア及び不確実性スコアに基づいて選択される、請求項9に記載のコンピュータプログラム製品。
【請求項11】
前記線形機械学習モデルによって、前記第2のアプタマー配列のセットを前記生成することが、
独立変数と従属変数との間の関係を定量化するために、前記後続の配列データを使用して、線形回帰分析を実行することと、
前記独立変数と前記従属変数との間の前記関係に基づいて、従属値の値に対する各独立値の寄与を判定することと、
前記従属値の前記値に対する各独立値の前記寄与に基づいて、前記第2のアプタマー配列のセットを識別することと、
前記第2のアプタマー配列のセットを出力することと、を含む、請求項9に記載のコンピュータプログラム製品。
【請求項12】
前記非線形機械学習モデルが、(i)前記初期配列データからの配列のサブセットを含む第1の訓練データのセットと、(ii)第1の目的関数と、を使用して学習された10,000個以上のパラメータを含み、
前記線形機械学習モデルが、(i)後続の配列データからの配列のサブセットを含む第2の訓練データのセットと、(ii)第2の目的関数と、を使用して学習された10,000個未満のパラメータを含み、
前記第2の目的関数が、損失関数の線形等式及び/又は不等式制約の下で線形プログラミングによって、最適化され、
正則化回帰が、少なくとも1つの係数を0に制約することによって、前記第2の目的関数に適用される、請求項11に記載のコンピュータプログラム製品。
【請求項13】
前記アクションが、
前記第2のアプタマー配列のセットを使用して、最終のアプタマーのセットを合成することと、
ハイスループット又はロースループット親和性アッセイを使用して、前記標的に結合すること及び前記所与の問題を解決することが可能である前記最終のアプタマーのセットからの1つ以上のアプタマーを検証することと、
前記標的に結合すること及び前記所与の問題を解決することが可能であるとして検証された1つ以上のアプタマーを使用して、生物製剤を合成することと、を更に含む、請求項8に記載のコンピュータプログラム製品。
【請求項14】
前記アクションが、
前記標的に結合し、前記所与の問題を解決することができる潜在的治療候補に関するクエリを受信することと、
前記クエリを潜在的に満たすものとして、前記初期アプタマーライブラリを獲得することと、
前記第2のアプタマー配列のセットを使用して、最終のアプタマーのセットを合成することと、
ハイスループット又はロースループット親和性アッセイを使用して、前記標的に結合すること及び前記所与の問題を解決することが可能である前記最終のアプタマーのセットからの1つ以上のアプタマーを検証することと、
前記1つ以上のアプタマーを検証すると、かつ前記クエリに応答して、結果としての前記1つ以上のアプタマーについてのアプタマー配列を前記クエリに提供することと、を更に含む、請求項1に記載のコンピュータプログラム製品。
【請求項15】
システムであって、
1つ以上のデータプロセッサと、
前記1つ以上のデータプロセッサ上で実行されたときに、前記1つ以上のデータプロセッサにアクションを実施させる命令を含む、非一時的コンピュータ可読記憶媒体と、を備え、前記アクションが、
標的に結合する初期アプタマーライブラリの各固有のアプタマーについての初期配列データを取得することであって、前記初期配列データが、第1のシグナル対ノイズ比を有する、前記初期配列データを取得することと、
検索プロセスによって、所与の問題の初期解として、第1のアプタマー配列のセットを生成することであって、前記第1のアプタマー配列のセットが、前記初期配列データから導出される、記第1のアプタマー配列のセットを生成することと、
前記標的に結合する後続のアプタマーライブラリの各固有のアプタマーについての後続の配列データを取得することであって、前記後続のアプタマーライブラリが、前記第1のアプタマー配列のセットから合成されたアプタマーを含み、前記後続の配列データが、前記第1のシグナル対ノイズ比よりも大きい第2のシグナル対ノイズ比を有する、前記後続の配列データを取得することと、
線形機械学習モデルによって、前記所与の問題の最終解として、第2のアプタマー配列のセットを生成することであって、前記第2のアプタマー配列のセットが、前記後続の配列データから導出される、前記第2のアプタマー配列のセットを生成することと、
前記第2のアプタマー配列のセットを出力することと、を含む、システム。
【請求項16】
前記検索プロセスが、
(a)アプタマー配列の初期集団を取得することであって、前記初期集団が、前記初期配列データからの配列のサブセット、前記初期配列データからの前記配列とは異なる配列のプールからの配列、又はそれらの組み合わせである、前記初期集団を取得することと、
(b)前記初期集団を非線形機械学習モデルに入力することと、
(c)前記非線形機械学習モデルによって、前記初期集団の各アプタマー配列の適合度スコアを推定することであって、前記適合度スコアが、所与のアプタマー配列が前記所与の問題に関する解として、どの程度良好に機能するかの尺度である、前記適合度スコアを推定することと、
(d)各アプタマー配列についての前記適合度スコアに基づいて、前記初期集団からアプタマー配列の対を選択することと、
(e)子孫を生成するために、前記アプタマー配列の前記対の間でヌクレオチドを交換することによって、アプタマー配列の各対を交配させることと、
(f)アプタマー配列の各対からの前記子孫を新しい集団に追加することと、
(g)新しい集団の配列を作成するために、停止基準が満たされるまで、ステップ(b)~(f)を繰り返すことと、
前記停止基準を満たすことに応答して、前記第1のアプタマー配列のセットとして、ステップ(f)からの最新の新しい集団を出力することと、を含む、請求項15に記載のシステム。
【請求項17】
前記初期集団の各アプタマー配列の前記適合度スコアを前記推定することが、前記非線形機械学習モデルによって、前記初期集団の各アプタマー配列の前記適合度スコアについての不確実性スコアを生成することを含み、
前記不確実性スコアが、前記非線形機械学習モデルによる適合度スコアの推定における不確実性の定量化であり、
前記初期集団からのアプタマー配列の対が、各アプタマー配列についての前記適合度スコア及び不確実性スコアに基づいて選択される、請求項15に記載のシステム。
【請求項18】
前記線形機械学習モデルによって、前記第2のアプタマー配列のセットを前記生成することが、
独立変数と従属変数との間の関係を定量化するために、前記後続の配列データを使用して、線形回帰分析を実行することと、
前記独立変数と前記従属変数との間の前記関係に基づいて、従属値の値に対する各独立値の寄与を判定することと、
前記従属値の前記値に対する各独立値の前記寄与に基づいて、前記第2のアプタマー配列のセットを識別することと、
前記第2のアプタマー配列のセットを出力することと、を含む、請求項15に記載のシステム。
【請求項19】
前記非線形機械学習モデルが、(i)前記初期配列データからの配列のサブセットを含む第1の訓練データのセットと、(ii)第1の目的関数と、を使用して学習された10,000個以上のパラメータを含み、
前記線形機械学習モデルが、(i)後続の配列データからの配列のサブセットを含む第2の訓練データのセットと、(ii)第2の目的関数と、を使用して学習された10,000個未満のパラメータを含み、
前記第2の目的関数が、損失関数の線形等式及び/又は不等式制約の下で線形プログラミングによって、最適化され、
正則化回帰が、少なくとも1つの係数を0に制約することによって、前記第2の目的関数に適用される、請求項18に記載のシステム。
【請求項20】
前記アクションが、
前記標的に結合し、前記所与の問題を解決することができる潜在的治療候補に関するクエリを受信することと、
前記クエリを潜在的に満たすものとして、前記初期アプタマーライブラリを獲得することと、
前記第2のアプタマー配列のセットを使用して、最終のアプタマーのセットを合成することと、
ハイスループット又はロースループット親和性アッセイを使用して、前記標的に結合すること及び前記所与の問題を解決することが可能である前記最終のアプタマーのセットからの1つ以上のアプタマーを検証することと、
前記1つ以上のアプタマーを検証すると、かつ前記クエリに応答して、結果としての前記1つ以上のアプタマーについてのアプタマー配列を前記クエリに提供することと、を更に含む、請求項15に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
(優先権の主張)
本出願は、2021年5月28日出願の米国特許出願第17/333,272号の利益及び優先権を主張し、この米国特許出願は、全ての目的のために参照によりその全体が本明細書に組み込まれる。
【0002】
(発明の分野)
本開示は、アプタマーの開発に関し、特に、任意の所与の分子標的に結合することができる結合剤を識別するためのプロセスを反復的に改善するためのインビトロ実験及びインシリコ計算及び機械学習に基づく技術に関する。
【背景技術】
【0003】
アプタマーは、一本鎖オリゴヌクレオチドの短い配列(例えば、異種塩基を含む核酸として特徴付けられる任意のもの)である。一本鎖オリゴヌクレオチドの糖骨格は酸として機能し、A(アデニン)、T(チミン)、C(シトシン)、G(グアニン)は塩基を指す。アプタマーは、酸又は塩基のいずれかへの修飾を含み得る。アプタマーは、高い結合親和性で特定の標的(例えば、タンパク質、タンパク質複合体、ペプチド、炭水化物、無機分子、代謝産物などの有機分子、細胞など)に選択的に結合することが示されている。更に、アプタマーは、所与のアプタマーが1つの標的に対して高い結合親和性を示し得るが、多くの他の標的に対して低い結合親和性を示し得るという点で、高度に特異的であり得る。したがって、アプタマーは、(例えば)診断プロセスを容易にするために疾患シグネチャ標的に結合すること、治療を効果的に送達するために治療標的に結合すること(例えば、アプタマーに連結される治療薬又は細胞毒性剤)、精製を容易にするために混合物内の標的分子に結合すること、その生物学的影響を中和するために標的に結合することなどに使用することができる。しかしながら、アプタマーの有用性は、それが標的に効果的に結合する程度に依存する。
【0004】
しばしば、反復実験プロセス(例えば、指数関数的濃縮によるリガンドの系統的進化(Systematic Evolution of Ligands by EXponential Enrichment、SELEX))が、高い親和性で標的分子に選択的に結合するアプタマーを識別するために使用される。反復実験プロセスでは、オリゴヌクレオチド鎖(アプタマー)の核酸ライブラリを標的分子とともにインキュベートする。次いで、標的結合オリゴヌクレオチド鎖を未結合鎖から分離し、ポリメラーゼ連鎖反応(polymerase chain reaction、PCR)を介して増幅して、オリゴヌクレオチド鎖の新しいプールを播種する。この選択プロセスは、得られたオリゴヌクレオチド鎖が標的分子に対して最も高い親和性を有することを確実にするために、漸増的に厳密な条件で数ラウンド(例えば、6~15回)継続される。
【0005】
核酸ライブラリは、典型的には、1014~1015個のランダムオリゴヌクレオチド鎖(アプタマー)を含む。しかしながら、考えられるおよそ10の24乗(1024)個の異なるアプタマーが存在する。候補アプタマーのこの全空間を探索することは非現実的である。しかしながら、現在の実験が全空間のほんの一部であることを考慮すると、現状では最適なアプタマー選択が現在達成されていない可能性が高い。特に、アプタマーが複数の異なる標的と結合する程度を評価することが重要である場合、アプタマーのより小さい部分のみが標的間の結合親和性の所望の組み合わせを有することになるため、このことが特に当てはまる。したがって、SELEXプロセスが導入されて以来、アプタマーに対する実質的な研究が進行しているが、新しい標的が提案される度に10の24乗(1024)個の異なるアプタマーを実験的に評価するためには、莫大な量の資源と時間がかかる。特に、高親和性で標的分子に選択的に結合するアプタマー及びその誘導体を識別するために、拡張可能な機械学習モデリング技術を用いて現在の実験限界を改善する必要がある。
【発明の概要】
【0006】
様々な実施形態では、標的に結合する初期アプタマーライブラリの各固有のアプタマーについての初期配列決定データを取得することであって、初期配列データが、第1のシグナル対ノイズ比を有する、初期配列決定データを取得することと、検索プロセスによって、所与の問題の初期解として、第1のアプタマー配列のセットを生成することであって、第1のアプタマー配列のセットが初期配列決定データから導出される、第1のアプタマー配列のセットを生成することと、標的に結合する後続のアプタマーライブラリの各固有のアプタマーについての後続の配列決定データを取得することであって、後続のアプタマーライブラリが、第1のアプタマー配列のセットから合成されたアプタマーを含み、後続の配列データが、第1のシグナル対ノイズ比よりも大きい第2のシグナル対ノイズ比を有する、後続の配列決定データを取得することと、線形機械学習モデルによって、所与の問題の最終解として、第2のアプタマー配列のセットを生成することであって、第2のアプタマー配列のセットが、後続の配列決定データから導出される、第2のアプタマー配列のセットを生成することと、第2のアプタマー配列のセットを出力することと、を含む、方法が提供されている。
【0007】
いくつかの実施形態では、検索プロセスが、(a)アプタマー配列の初期集団を取得することであって、初期集団が、初期配列データからの配列のサブセット、初期配列データからの配列とは異なる配列のプールからの配列、又はそれらの組み合わせである、初期集団を取得することと、(b)初期集団を非線形機械学習モデルに入力することと、(c)非線形機械学習モデルによって、初期集団の各アプタマー配列の適合度スコアを推定することであって、適合度スコアが、所与のアプタマー配列が所与の問題に関する解として、どの程度良好に機能するかの尺度である、適合度スコアを推定することと、(d)各アプタマー配列についての適合度スコアに基づいて、初期集団からアプタマー配列の対を選択することと、(e)子孫を生成するために、アプタマー配列の対の間でヌクレオチドを交換することによって、アプタマー配列の各対を交配させることと、(f)アプタマー配列の各対からの子孫を新しい集団に追加することと、(g)新しい集団の配列を作成するために、停止基準が満たされるまで、ステップ(b)~(f)を繰り返すことと、停止基準を満たすことに応答して、第1のアプタマー配列のセットとして、ステップ(f)からの最新の新しい集団を出力することと、を含む、方法が提供される。
【0008】
いくつかの実施形態では、初期集団の各アプタマー配列の適合度スコアを推定することが、非線形機械学習モデルによって、初期集団の各アプタマー配列の適合度スコアについての不確実性スコアを生成することを含み、不確実性スコアが、非線形機械学習モデルによる適合度スコアの推定における不確実性の定量化であり、初期集団からのアプタマー配列の対が、各アプタマー配列についての適合度スコア及び不確実性スコアに基づいて選択される。
【0009】
いくつかの実施形態では、線形機械学習モデルによって、第2のアプタマー配列のセットを生成することが、後続の配列決定データを使用して、独立変数と従属変数との間の関係を定量化するために線形回帰分析を実行することと、独立変数と従属変数との間の関係に基づいて、従属値の値に対する各独立値の寄与を判定することと、従属値の値に対する各独立値の寄与に基づいて、第2のアプタマー配列のセットを識別すること、第2のアプタマー配列のセットを出力することと、を含む。
【0010】
いくつかの実施形態では、非線形機械学習モデルが、(i)初期配列データからの配列のサブセットを含む第1の訓練データのセットと、(ii)第1の目的関数と、を使用して学習された10,000個以上のパラメータを含み、線形機械学習モデルが、(i)後続の配列データからの配列のサブセットを含む第2の訓練データのセットと、(ii)第2の目的関数と、を使用して学習された10,000個未満のパラメータを含み、第2の目的関数が、損失関数の線形等式及び/又は不等式制約の下で、線形プログラミングによって、最適化され、正則化回帰が、少なくとも1つの係数を0に制約することによって、第2の目的関数に適用される。
【0011】
いくつかの実施形態では、本方法は、第2のアプタマー配列のセットを使用して、最終のアプタマーのセットを合成することと、ハイスループット又はロースループット親和性アッセイを使用して、標的に結合すること及び所与の問題を解決することが可能である最終のアプタマーのセットからの1つ以上のアプタマーを検証することと、標的に結合すること及び所与の問題を解決することが可能であるとして検証された1つ以上のアプタマーを使用して、生物製剤を合成することとを更に含む。
【0012】
いくつかの実施形態では、本方法は、標的に結合し、所与の問題を解決することができる潜在的治療候補に関するクエリを受信することと、クエリを潜在的に満たすものとして、初期アプタマーライブラリを獲得することと、第2のアプタマー配列のセットを使用して、最終のアプタマーのセットを合成することと、ハイスループット又はロースループット親和性アッセイを使用して、標的に結合すること及び所与の問題を解決することが可能である最終のアプタマーのセットからの1つ以上のアプタマーを検証することと、1つ以上のアプタマーを検証すると、かつクエリに応答して、結果としての1つ以上のアプタマーについてのアプタマー配列をクエリに提供することと、を更に含む。
【0013】
様々な実施形態では、標的に結合する初期アプタマーライブラリの各固有のアプタマーについての初期配列データを取得することと、初期配列データ内の第1のシグナル対ノイズ比を測定することと、第1のシグナル対ノイズ比に基づいて、初期配列データから導出された第1のアプタマー配列のセットを生成するための第1の機械学習システムをプロビジョニング(供給)することであって、プロビジョニングすることが、1つ以上のアルゴリズム又はモデルを選択又は修正すること、既存のアルゴリズム又はモデルの1つ以上のモデルパラメータを修正すること、既存のアルゴリズム又はモデルの1つ以上のハイパーパラメータを修正すること、初期配列データを追加データで増強すること、1つ以上のアルゴリズム又は既存のアルゴリズムに対して訓練、試験、又は検証アプローチを選択又は修正すること、1つ以上のアルゴリズム又は既存のアルゴリズムの目的関数又は損失関数を修正すること、あるいはそれらの任意の組み合わせを含む、第1の機械学習システムをプロビジョニングすることと、第1の機械学習システムによって、所与の問題の初期解として、第1のアプタマー配列のセットを生成することと、標的に結合する後続のアプタマーライブラリの各固有のアプタマーについての後続の配列データを取得することであって、後続のアプタマーライブラリが、第1のアプタマー配列のセットから合成されたアプタマーを含む、後続の配列データを取得することと、後続の配列データ内の第2のシグナル対ノイズ比を測定することと、第2のシグナル対ノイズ比に基づいて、後続の配列データから導出された第2のアプタマー配列のセットを生成するための第2の機械学習システムをプロビジョニングすることであって、プロビジョニングすることが、1つ以上のアルゴリズム又はモデルを選択又は修正すること、既存のアルゴリズム又はモデルの1つ以上のモデルパラメータを修正すること、既存のアルゴリズム又はモデルの1つ以上のハイパーパラメータを修正すること、初期配列データを追加データで増強すること、1つ以上のアルゴリズム又は既存のアルゴリズムに対して訓練、試験、又は検証アプローチを選択又は修正すること、1つ以上のアルゴリズム又は既存のアルゴリズムの目的関数又は損失関数を修正すること、あるいはそれらの任意の組み合わせを含む、第2の機械学習システムをプロビジョニングすることと、第2の機械学習システムによって、所与の問題の最終解として、第2のアプタマー配列のセットを生成することと、第2のアプタマー配列のセットを出力することと、を含む。
【0014】
いくつかの実施形態では、初期アプタマーライブラリが、1つ以上の一本鎖DNA(デオキシリボ核酸)又はRNA(リボ核酸)ライブラリから合成された第1の異種核酸(Xeno nucleic acid、XNA)アプタマーライブラリから、結合選択プロセスを使用して判定され、第1のシグナル対ノイズ比を測定することが、(i)初期アプタマーライブラリ中の固有のアプタマーの数を定量化し、初期アプタマーライブラリ中の各固有のアプタマーのコピーの数を定量化し、各固有のアプタマーについての初期配列データのシーケンシング深度を判定することと、(ii)固有のアプタマーの数の定量化、各固有のアプタマーのコピーの定量化、及び各固有のアプタマーについての初期配列データのシーケンシング深度に基づいて、第1のシグナル対ノイズ比を定量化することと、を含み、結合選択プロセスを使用して、第1のアプタマー配列のセットから合成された第2のXNAアプタマーライブラリから、後続のアプタマーライブラリが判定され、第2のシグナル対ノイズ比を測定することが、(i)後続のアプタマーライブラリ中の固有のアプタマーの数を定量化し、後続のアプタマーライブラリ中の各固有のアプタマーのコピーの数を定量化し、各固有のアプタマーについての後続の配列データのシーケンシング深度を判定することと、(ii)固有のアプタマーの数の定量化、各固有のアプタマーのコピーの定量化、及び各固有のアプタマーについての後続の配列データのシーケンシング深度に基づいて、第2のシグナル対ノイズ比を定量化することと、を含む。
【0015】
いくつかの実施形態では、第1の機械学習システムのためにプロビジョニングされた1つ以上のアルゴリズム又はモデルが、第1の機械学習モデル及び検索アルゴリズムを含み、第1の機械学習モデルが、(i)初期配列データからの配列のサブセットを含む第1の訓練データのセットと、(ii)第1の目的関数とを使用して学習されたモデルパラメータを含み、プロビジョニングすることが、第1の機械学習アルゴリズム又はモデル及び検索アルゴリズムを選択すること、又は修正することと、第1の機械学習アルゴリズム又はモデルのモデルパラメータを修正することと、第1の機械学習アルゴリズム又はモデルの1つ以上のハイパーパラメータを修正することと、第1の訓練データのセットを生成するために初期配列データを追加データで増強することと、第1の機械学習アルゴリズムに対する訓練、試験、又は検証アプローチを選択又は修正することと、第1の機械学習アルゴリズムの目的関数又は損失関数を修正することと、あるいはそれらの任意の組み合わせ、を含む。
【0016】
いくつかの実施形態では、第1のアプタマー配列のセットを生成することが、(a)アプタマー配列の初期集団を取得することであって、初期集団が、初期配列データからの配列のサブセット、初期配列データからの配列とは異なる配列のプールからの配列、又はそれらの組み合わせである、初期集団を取得することと、(b)初期集団を第1の機械学習モデルに入力することと、(c)第1の機械学習モデルによって、初期集団の各アプタマー配列の適合度スコアを推定することであって、適合度スコアが、所与のアプタマー配列が所与の問題に関する解として、どの程度良好に機能するかの尺度である、適合度スコアを推定することと、(d)検索アルゴリズムによって、各アプタマー配列についての適合度スコアに基づいて、初期集団からアプタマー配列の対を選択することと、(e)子孫を生成するために、検索アルゴリズムによって、クロスオーバーポイントまで、アプタマー配列の対の間でヌクレオチドを交換することによって、アプタマー配列の各対を交配させることと、(f)アプタマー配列の各対からの子孫を新しい集団に追加することと、(g)新しい集団の配列を作成するために、停止基準が満たされるまで、ステップ(b)~(f)を繰り返すことと、停止基準を満たすことに応答して、第1のアプタマー配列のセットとして、ステップ(f)からの最新の新しい集団を出力することと、を含む。
【0017】
いくつかの実施形態では、第2の機械学習システムのためにプロビジョニングされた1つ以上のアルゴリズム又はモデルが、第2の機械学習モデルを含み、第2の機械学習モデルが、(i)後続の配列データからの配列のサブセットを含む第2の訓練データのセットと、(ii)第2の目的関数とを使用して学習されたモデルパラメータを含み、プロビジョニングすることが、第2の機械学習アルゴリズム又はモデルを選択すること、又は修正することと、第2の機械学習アルゴリズム又はモデルのモデルパラメータを修正することと、第2の機械学習アルゴリズム又はモデルの1つ以上のハイパーパラメータを修正することと、第2の訓練データのセットを生成するために後続の配列データを追加データで増強することと、第2の機械学習アルゴリズムに対する訓練、試験、又は検証アプローチを選択又は修正することと、第2の機械学習アルゴリズムの目的関数又は損失関数を修正することと、あるいはそれらの任意の組み合わせ、を含む。
【0018】
いくつかの実施形態では、第2のアプタマー配列のセットを生成することが、後続の配列データを使用して、第2の機械学習モデルによって、独立変数と従属変数との間の関係を定量化するために回帰分析を実行することと、第2の機械学習モデルによって、独立変数と従属変数との間の関係に基づいて、従属値の値に対する各独立値の寄与を判定することと、第2の機械学習モデルによって、従属値の値に対する各独立値の寄与に基づいて、第2のアプタマー配列のセットを識別することと、第2の機械学習モデルによって、第2のアプタマー配列のセットを出力することと、を含む。
【0019】
いくつかの実施形態では、本方法は、第2のアプタマー配列のセットを使用して最終のアプタマーのセットを合成することと、ハイスループット又はロースループット親和性アッセイを使用して、標的に結合すること及び所与の問題を解決することが可能である最終のアプタマーのセットからの1つ以上のアプタマーを検証することと、標的に結合すること及び所与の問題を解決することが可能であるとして検証された1つ以上のアプタマーを使用して、生物製剤を合成することとを、更に含む。
【0020】
いくつかの実施形態では、本方法は、標的に結合し、所与の問題を解決することができる潜在的治療候補に関するクエリを受信することと、クエリを潜在的に満たすものとして、初期アプタマーライブラリを獲得することと、第2のアプタマー配列のセットを使用して、最終のアプタマーのセットを合成することと、ハイスループット又はロースループット親和性アッセイを使用して、標的に結合すること及び所与の問題を解決することが可能である最終のアプタマーのセットからの1つ以上のアプタマーを検証することと、1つ以上のアプタマーを検証すると、かつクエリに応答して、結果としての1つ以上のアプタマーについてのアプタマー配列をクエリに提供することと、を更に含む。
【0021】
本開示のいくつかの実施形態は、1つ以上のデータプロセッサを含むシステムを含む。いくつかの実施形態では、システムが、1つ以上のデータプロセッサ上で実行されたときに、1つ以上のデータプロセッサに、本明細書に開示された1つ以上の方法の一部若しくは全部及び/又は1つ以上のプロセスの一部又は全部を実施させる命令を含む、非一時的コンピュータ可読記憶媒体を含む。本開示のいくつかの実施形態は、非一時的機械可読記憶媒体で明確に具現化されたコンピュータプログラム製品を含み、1つ以上のデータプロセッサに、本明細書に開示された1つ以上の方法の一部若しくは全部及び/又は1つ以上のプロセスの一部若しくは全部を実施させるように構成された命令を含む。
【0022】
用いられている用語及び表現は、説明の用語として使用され、限定するものではなく、示され、説明された特徴の任意の均等物、又はその一部分を除外するそのような用語及び表現の使用における意図は存在しないが、特許請求の範囲の本発明の範囲内で様々な修正が可能であることが認識される。したがって、特許請求される本発明は、実施形態及び任意選択的な特徴により具体的に開示されているが、本明細書に開示される概念の修正及び変形が、当業者によって行われ得、そのような修正及び変形は、添付の特許請求の範囲によって定義される本発明の範囲内にあるとみなされることを理解されたい。
【図面の簡単な説明】
【0023】
本開示は、以下の非限定的な図を考慮してより良好に理解されるであろう。
【
図1】様々な実施形態による、分子標的の高親和性結合剤を戦略的に識別する及び生成するためのパイプラインのブロック図を示す。
【
図2】様々な実施形態による、アプタマーを開発するための機械学習モデリングシステムを示す。
【
図3】様々な実施形態によるアプタマー開発プラットフォームのブロック図を示す。
【
図4】様々な実施形態による、アプタマー開発の例示的な流れを示す。
【
図5】様々な実施形態による、事前定義されたパイプラインを使用したアプタマー開発の例示的な流れを示す。
【
図6】様々な実施形態による、動的パイプラインを使用したアプタマー開発の例示的な流れを示す。
【
図7】様々な実施形態による例示的なコンピューティングデバイスを示す。
【0024】
添付図では、同様の構成要素及び/又は特徴は、同じ参照符号を有し得る。更に、同じタイプの様々な構成要素は、同様の構成要素間を区別するダッシュ及び第2の符号による参照符号に従って区別され得る。本明細書において第1の参照符号のみが使用される場合、説明は、第2の参照符号にかかわらず、同じ第1の参照番号を有する同様の構成要素のうちのいずれか1つに適用可能である。
【発明を実施するための形態】
【0025】
以下の説明は、好ましい例示的な実施形態のみを提供し、本開示の範囲、適用性、又は構成を限定することを意図されない。むしろ、好ましい例示的な実施形態の以下の説明は、様々な実施形態を実装するための有効な説明を当業者に提供することになる。添付の特許請求の範囲に記載の趣旨及び範囲から逸脱することなく、要素の機能及び配置において様々な変更がなされ得ることが理解される。
【0026】
具体的な詳細は、実施形態の完全な理解を提供するために、以下の説明に与えられる。しかしながら、これらの具体的な詳細なしで実施形態が実施され得ることが理解されるであろう。例えば、回路、システム、ネットワーク、プロセス、及び他の構成要素は、不必要な詳細で実施形態を不明瞭化しないために、ブロック図の形態で構成要素として示され得る。他の事例では、周知の回路、プロセス、アルゴリズム、構造、及び技術は、実施形態を不明瞭化することを回避するために、不必要な詳細なしで示され得る。
【0027】
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として描示されるプロセスとして説明され得ることに留意されたい。フローチャート又は図は、順次プロセスとして動作を説明し得るが、動作の多くは、並列又は同時に実施され得る。加えて、動作の順番は、再配置され得る。プロセスは、その動作が完了したときに終了するが、図に含まれていない追加のステップを有し得る。プロセスは、方法、機能、手順、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応するとき、その終了は、呼び出し関数又はメイン関数への関数のリターンに対応し得る。
【0028】
I.序論
分子標的(例えば、VEGF、HER2)の高親和性及び高特異性結合剤(例えば、モノクローナル抗体、核酸アプタマーなど)の識別は、多くのタイプの疾患(例えば、腫瘍学、感染症、免疫/炎症など)の治療を劇的に変化させた。しかしながら、潜在的な配列の大きな検索空間(例えば、平均的なアプタマー又はモノクローナル抗体CDR-H3結合ループについて1024の潜在的な配列)及び候補の結合親和性を評価するための方法論の比較的ロースループット(例えば、1週間当たり数十~数千)を考慮すると、最適な結合剤選択が現在達成されていない可能性が高い。選択に基づくアプローチ(例えば、ファージディスプレイ、SELEXなど)は、数百万~数兆の候補のライブラリのうちで結合剤を潜在的に識別することができるが、これらのアプローチにはいくつかの弱点として、(i)出力がバイナリである-ライブラリ中の比較的強い結合剤が実際に強い結合剤であるかどうかを知ることが困難であり、(ii)データはノイズが多い-結合は、同じ相対頻度を有する利用可能な標的に遭遇するあらゆる候補に依存し、これからの分散は、多くの偽陰性及びいくつかの偽陽性をもたらし得る、(iii)容量は、総検索空間よりもはるかに小さく-ファージディスプレイ(最大候補約109)及びSELEX(最大候補約1014)検索空間は、総可能検索空間よりもはるかに小さい(加えて、検索される総配列空間の部分を特徴付けることは一般に困難である(又は高価である))。
【0029】
これらの課題に対処するために、「ループにおける実験」プロセスにおいて計算及び機械学習技術を適用して、検索空間を低減し、より良好な結合剤を設計する努力がなされてきた。例えば、以下の計算及び機械学習技術が、分子標的の生存可能な高親和性/高特異性結合剤の発見を増加させるために試みられてきた、それらは、(i)物理学に基づくモデルからの予測を介して結合する可能性がより高いライブラリの識別、(ii)選択データの入力及びより可能性の高い結合剤(モノクローナル抗体及び核酸アプタマーについて)の設計/識別、並びに(iii)商業化及び治療可能性に影響を及ぼす親和性以外の他の因子に対処する、ことである。しかしながら、今日まで、これらの計算及び機械学習技術は、より良好な特性を有する著しく異なる配列を設計する際に限られた成功しか収めておらず、ましてや、ロースループット特徴付けに適切な配列の小さなセットに整列させるのに十分な予測力を伴うものではない。特に、第2のカテゴリの技術は、計算モデル及び機械学習モデルを訓練するために使用される訓練配列とは著しく異なる候補を識別又は設計するのに十分なデータを入力しようとするのに苦労することが多い。
【0030】
これらの制限及び他に対処するために、標的に結合することが実験的に見出されたインビトロアプタマー配列からインシリコアプタマー配列を誘導するアプタマー開発システムが本明細書に開示される。例えば、例示的な実施形態では、所定の開発プロセスは、標的に結合する初期アプタマーライブラリの各固有アプタマーについての初期配列決定データを取得することであって、初期配列データが第1のシグナル対ノイズ比を有する、初期配列決定データを取得することと、検索プロセスによって、所与の問題の初期解として、第1のアプタマー配列のセットを生成することであって、第1のアプタマー配列のセットが初期配列決定データから導出される、第1のアプタマー配列のセットを生成することと、標的に結合する後続のアプタマーライブラリの各固有のアプタマーについての後続の配列決定データを取得することであって、後続のアプタマーライブラリが、第1のアプタマー配列のセットから合成されたアプタマーを含み、後続の配列データが、第1のシグナル対ノイズ比よりも大きい第2のシグナル対ノイズ比を有する、後続の配列決定データを取得することと、線形機械学習モデルによって、所与の問題の最終解として、第2のアプタマー配列のセットを生成することであって、第2のアプタマー配列のセットが、後続の配列決定データから導出される、第2のアプタマー配列のセット生成することと、第2のアプタマー配列のセットを出力することと、を含む、方法が提供されている。様々なインビトロアプタマー配列内のシグナル対ノイズ比は、インシリコアプタマー配列を導出するアプタマー開発システム内でプロビジョニングされる機械学習技術のタイプに関する決定を駆動するための測定基準として使用される。有利には、配列のデータセット中のノイズが少ないほど、試料内ドメイン(訓練データの近くにとどまる)の配列を識別又は設計することから試料外ドメイン(訓練データから更に離れている)に移行するために、アプタマー開発システムの構成要素を提供することに対する信頼性が高くなる。
【0031】
例示的な代替実施形態では、動的開発プロセスは、標的に結合する初期アプタマーライブラリの各固有のアプタマーについての初期配列データを得ることと、初期配列データ内の第1のシグナル対ノイズ比を測定することと、第1のシグナル対ノイズ比に基づいて、初期配列データから導出された第1のアプタマー配列のセットを生成するための第1の機械学習システムをプロビジョニングすることであって、プロビジョニングすることが、1つ以上のアルゴリズム又はモデルを選択又は修正すること、既存のアルゴリズム又はモデルの1つ以上のモデルパラメータを修正すること、既存のアルゴリズム又はモデルの1つ以上のハイパーパラメータを修正すること、初期配列データを追加データで増強すること、1つ以上のアルゴリズム又は既存のアルゴリズムに対して訓練、試験、又は検証アプローチを選択又は修正すること、1つ以上のアルゴリズム又は既存のアルゴリズムの目的関数又は損失関数を修正すること、あるいはそれらの任意の組み合わせを含む、第1の機械学習システムをプロビジョニングすることと、第1の機械学習システムによって、所与の問題の初期解として、第1のアプタマー配列のセットを生成することと、標的に結合する後続のアプタマーライブラリの各固有のアプタマーについての後続の配列データを取得することであって、後続のアプタマーライブラリが、第1のアプタマー配列のセットから合成されたアプタマーを含む、後続の配列データを取得することと、後続の配列データ内の第2のシグナル対ノイズ比を測定することと、第2のシグナル対ノイズ比に基づいて、後続の配列データから導出された第2のアプタマー配列のセットを生成するための第2の機械学習システムをプロビジョニングすることであって、プロビジョニングすることが、1つ以上のアルゴリズム又はモデルを選択又は修正すること、既存のアルゴリズム又はモデルの1つ以上のモデルパラメータを修正すること、既存のアルゴリズム又はモデルの1つ以上のハイパーパラメータを修正すること、初期配列データを追加データで増強すること、1つ以上のアルゴリズム又は既存のアルゴリズムに対して訓練、試験、又は検証アプローチを選択又は修正すること、1つ以上のアルゴリズム又は既存のアルゴリズムの目的関数又は損失関数を修正すること、あるいはそれらの任意の組み合わせを含む、第2の機械学習システムをプロビジョニングすることと、第2の機械学習システムによって、所与の問題の最終解として、第2のアプタマー配列のセットを生成することと、第2のアプタマー配列のセットを出力することと、を含む。様々なインビトロアプタマー配列内のシグナル対ノイズ比は、インシリコアプタマー配列を導出するアプタマー開発システム内で提供される機械学習技術のタイプに関する決定を駆動するための測定基準として使用される。有利には、この場合、シグナル対ノイズ比は、各実験後に測定され、機械学習システムは、インビトロアプタマー配列の現在のデータセットにおけるノイズに最良に対処するように動的に提供される。
【0032】
本明細書で使用される場合、「実質的に」、「およそ」、及び「約」という用語は、当業者によって理解されるように、必ずしも完全に指定されたものである必要はないが、大部分であるとして定義される(完全に指定されたものを含む)。任意の開示された実施形態では、「実質的に」、「およそ」、又は「約」という用語は、指定されたものの[パーセンテージ]内で置換され得、パーセンテージは、0.1、1、5、及び10パーセントを含む。
【0033】
本明細書で使用される場合、アクションが何かに「基づいている」とき、これは、アクションが何かの少なくとも一部に少なくとも部分的に基づくことを意味する。
【0034】
本明細書に開示される技術は、アプタマーではなく他の生物学的材料(例えば、モノクローナル抗体などの他の結合剤)を評価するために適用され得ることが理解されよう。例えば、代替的又は追加的に、本明細書に説明された技術は、任意のタイプの生物学的材料(例えば、E.coliなどの生物の全部又は一部、あるいは生物から生成されるか、生物の成分を含有するか、又はバイオテクノロジを使用することによってヒト、動物、又は微生物から導出される、生物製剤)及び標的を評価し、評価に基づいて、それから別のタイプの生物学的材料を導出するために使用され得る。
【0035】
II.分子標的の高親和性結合剤を識別及び生成するためのパイプライン
図1は、分子標的の高親和性結合剤を戦略的に識別する及び生成するためのパイプライン100のブロック図を示す。本明細書で使用される場合、「結合親和性」という用語は、天然結合状態と未結合状態との間の自由エネルギー差を意味し、これは天然結合状態の安定性を測定する(例えば、アプタマーと標的との間の引力の強度の測定)。本明細書で使用される場合、「高い結合親和性」は、アプタマーと標的との間のより強い分子間力の結果であり、結合部位でのより長い滞留時間をもたらす(より高い「オン」速度、より低い「オフ」速度)。高親和性結合をもたらす因子には、基底状態にある分子の表面と電荷相補性(すなわち、アプタマーと標的との間のより強い分子間力)との間の良好な適合が含まれる。これらの同じ因子はまた、一般的に、標的に対する高い結合特異性を提供し、これは、所定の分子標的に結合し得る強力な治療候補を開発することを目的とするスクリーニングアプローチを単純化するために使用され得る。本明細書中で使用される場合、「結合特異性」という用語は、他の標的に対する1つの標的への結合の親和性を意味する。本明細書で使用される場合、「高い結合特異性」という用語は、1つの標的への結合の親和性が他の標的と比較してより強いことを意味する。本明細書に記載される様々な態様は、結合親和性に基づいて所与の分子標的に結合することができる強力な治療候補としてアプタマーを設計し、検証する。しかしながら、アプタマーの設計及び検証は、結合親和性及び/又は結合特異性の評価を含み得ることが理解されるべきである。
【0036】
様々な実施形態では、パイプライン100は、任意の所与の分子標的に結合することができる結合剤を識別するためのプロセスを反復的に改善するために、インビトロ実験及びインシリコ計算及び機械学習に基づく技術を実装する。ブロック105において、インビトロ結合選択(例えば、ファージディスプレイ又はSELEX)が行われ、ここで、所与の分子標的(例えば、目的のタンパク質)は、数十兆の異なる潜在的結合剤(例えば、1014~1015核酸アプタマーのライブラリ)に曝露され、分離プロトコルが使用されて非結合アプタマーが除去され(例えば、フロースルー)、結合アプタマーが所与の標的から溶出される。結合アプタマー及び非結合アプタマーを配列決定して、どのアプタマーが所与の標的に結合するか及び結合しないかを識別する。この結合選択プロセスは、任意の数のサイクル(例えば、1~3サイクル)にわたって繰り返されて、潜在的な結合剤の絶対数を、数十兆個の異なる潜在的な結合剤から、所与の標的に対してあるレベルの結合(特異的及び非特異的)を有すると識別された数百万又は数兆個の結合剤110まで低減させ得る。
【0037】
ブロック110において、ブロック105から得られた結合アプタマー(及び任意選択的に非結合アプタマー)の配列を使用して、高度にパラメータ化された機械学習アルゴリズム(すなわち、10,000、30,000、50,000、又は75,000以上のパラメータ計数)を訓練し、解決されている問題(例えば、高親和性での標的への結合)に基づいてアプタマーの配列の適合度(品質)をランク付けすることができる適合度関数を学習する。機械学習アルゴリズムは、コードで実装され、機械学習モデルを生成するためにデータ上で実行される手順である。機械学習モデルは、訓練中に機械学習アルゴリズムによって何が学習されたのかを表す。言い換えれば、機械学習モデルは、訓練データに対して機械学習アルゴリズムを実行した後に記憶されるデータ構造であり、予測を行うのに必要な規則、変数、及び任意の他のアルゴリズム固有のデータ構造を表す。訓練における結合アプタマーの多様な配列(例えば、数百万又は数兆の結合剤)を有する大きなデータセットの使用は、アルゴリズムが、所与の問題に対するアプタマー候補の適合度を推定するために必要とされるパラメータの全てを学習することを可能にする。そうでなければ、多数のパラメータ及び次元を有するが、小さいデータセットを有するという問題は、過剰適合をもたらし、これは、学習された関数が、データポイントの限定されたセットにあまりにも密接に適合し、アルゴリズムが訓練されたデータセットに対してのみ機能し、学習されたパラメータを無意味にすることを意味する。次いで、ブロック105からの大きなデータセットに対して訓練されたモデルは、インビトロ結合選択において必ずしも発見されていない配列を入力として取り、所与の問題を解くためにそれらの入力配列に対する適合度を推定することができる。したがって、標的に結合し、インビトロ実験段階で調査された1014~1015個の核酸アプタマーから、少なくとも1024個の核酸アプタマーまで、所与の問題を解決することができるアプタマーの検索空間を、必要とされるアルゴリズムの複雑さ及び計算能力に応じて、人工的に増加させる。
【0038】
それにもかかわらず、高度にパラメータ化された機械学習アルゴリズムを使用してアプタマーの追加又は代替配列の適合度を推定することに関連する課題がある。学習中に、アルゴリズムの出力は、訓練セット内の入力が与えられた場合にほぼ標的値になることができる。この能力はそれ自体有用であるが、高度にパラメータ化された機械学習アルゴリズムを使用する目的は、一般化すること、すなわち、訓練セット内にない入力が与えられた場合に、アルゴリズムの出力に標的値を近似させることである。良好な一般化は、訓練されたモデルが、アルゴリズムを訓練するために使用される訓練配列とは著しく異なるアプタマー候補を識別又は設計することを可能にする。典型的には、良好な一般化は、(i)アルゴリズムへの入力が標的に関する十分な情報を含み、その結果、所望の精度で正しい出力を入力に関連付ける数学関数が存在すること、(ii)学習されている関数(入力を正しい出力に関連付ける)が、ある意味で滑らかである(入力の小さな変化が、ほとんどの場合、出力の小さな変化を生成するはずである)こと、(iii)訓練セットが十分に大きく、ユーザが一般化することを望む全てのケースのセットのサブセットを表すこと、及び(iv)アルゴリズムへの入力に制限されたノイズがあることを必要とする。
【0039】
ブロック105から取得された結合アプタマー(及び任意選択的に非結合アプタマー)の配列は、配列中の大量のノイズ(所与の標的に対する非特異的結合又は低親和性結合を有するアプタマーの配列)のために、低いシグナル対ノイズ比(及び低い標識品質)を有することになる。本質的に、シグナル対ノイズ比は、ハイ/ロースループット特性評価又は検証でアッセイしたときに、所望の結合特性を有する試験されたアプタマーの割合である。典型的には、機械学習アルゴリズムは、訓練データの2つの異なる部分、すなわち、基礎となる一般化可能な真理(シグナル)と、そのデータセットに固有のランダム性(ノイズ)とをモデル化する。それらの部分の両方をフィッティングすることは、訓練セット精度を増加させることができるが、シグナルをフィッティングすることはまた、テストセット精度又は一般化(及び現実世界の性能)を増加させ、一方、ノイズをフィッティングすることは、テストセット精度及び現実世界の性能の両方を減少させる(オーバーフィッティングを引き起こす)。したがって、L1(ラッソ回帰)、L2(リッジ回帰)、ドロップアウトなどの従来の正則化技術は、アルゴリズムがノイズに適合することをより困難にし、したがってアルゴリズムがシグナルに適合し、より正確に一般化する可能性をより高くするために、訓練において実装され得る。
【0040】
しかしながら、従来の正則化技術は次元削減につながる可能性があり、これは、機械学習モデルがより低次元のデータセット(例えば、より少ないパラメータ)を使用して構築されることを意味する。これは、出力における高いバイアス誤差(アンダーフィッティングとして知られる)につながり得る。これらの課題及び他の課題を克服するために、本開示の態様は、インシリコ計算及び機械学習に基づく技術(例えば、ニューラルネットのアンサンブル、遺伝的検索プロセス、正則化回帰モデル、線形最適化など)の組み合わせを、様々なインビトロ実験技術(例えば、結合選択、SELEXなど)と組み合わせて使用して、より良好な特性を有する著しく異なる配列を識別又は設計する一方で、ロースループットの特徴付け又は検証に適した小さな配列のセット(例えば、数十~数百)に対して整列させるのに十分な予測力を維持することを対象とする。いくつかの事例では、様々な技術が、所定のアーキテクチャ(例えば、
図1に示され、本明細書に記載される例示的なアーキテクチャ)を介してパイプライン100において実装されて、各段階の入力として使用される配列の絶対数を減少させる一方で、シグナル対ノイズ比(例えば、ノイズを減少させ)及び標識品質を受動的に増加させ、最終的に任意の所与の分子標的に対する最高品質の結合剤(例えば、最高親和性)を予測する。
【0041】
他の例では、本技術は、動的アーキテクチャを介してパイプライン100において実装され、シグナル対ノイズ比及び標識品質を動的に増加させながら(ノイズを減少させながら)各段階の入力として使用される配列の絶対数を減少させ、最終的に任意の所与の分子標的に対する最高品質の結合剤を予測する。シグナル対ノイズ比及び標識品質の能動的な増加は、(i)各段階において訓練データセット内のノイズの量を測定すること、(ii)入力配列の測定されたノイズの量及び標識品質に最適に対処するためにアーキテクチャを動的に変更するために、様々な段階においてパイプライン100の構成要素をプロビジョニングすることによって実装される。本明細書で使用される場合、「プロビジョニング」という用語は、アプタマー開発用途のための性能を保証するためのソフトウェア(例えば、アルゴリズム及びモデル)及びハードウェアリソース(例えば、CPU、記憶媒体、及びネットワーク)の選択、展開、及びランタイム管理を意味する。プロビジョニングは、様々な段階で使用されているアルゴリズム又はモデルを修正すること(例えば、ニューラルネットワークを実装すること対回帰モデルを実装すること)、1つ以上のモデルパラメータを修正すること(例えば、様々な接続から重みを追加又は除去すること)、1つ以上のハイパーパラメータを修正すること(例えば、隠れ層を追加又は除去すること)、入力配列又はデータの訓練セットを増強すること(例えば、配列を人工的に操作して、シグナルを増加させるか、又はデータの訓練セットからのノイズを低減すること)、訓練/試験/検証アプローチを修正すること(例えば、アンサンブルベースの学習アプローチ対伝達学習アプローチを使用すること)、所与のアルゴリズムの目的関数又は損失関数を修正すること(例えば、平均二乗誤差損失対平均二乗対数誤差損失を使用すること)、又はそれらの任意の組み合わせを含む。
【0042】
図1に戻って参照すると、いくつかの事例では、ブロック115で使用される高度にパラメータ化された機械学習アルゴリズム(すなわち、10,000、30,000、50,000、又は75,000以上のパラメータ計数)は、ニューラルネットワークなどの一連のアルゴリズムである。一連のアルゴリズムは、柔軟性を増加させ、利用可能な訓練データの量に比例してスケーリングすることができる。この柔軟性の欠点は、アルゴリズムが確率的訓練アルゴリズムを介して学習することであり、これは、アルゴリズムが特定の訓練データセット(何らかの固定分布からのランダムサンプルであると推定される)及び訓練ランの初期条件など(例えば、擬似乱数発生器のシード)の両方に敏感であることを意味する。追加的に、現代のGPU(おそらくTPU)は決定論的であることが保証されないので、たとえランダムシードが設定されたとしても制御することが困難なランダム性も存在する。これは、アルゴリズムがオーバーフィッティングを受け、最終予測(例えば、アプタマーの追加又は代替配列についての適合度スコアの予測)を行うことになるときに高い分散を有し得ることを意味する。この分散を克服するために、いくつかの事例では、高度にパラメータ化された機械学習アルゴリズムが、複数のニューラルネットワークからの予測を組み合わせるためにアンサンブルベースの手法を使用して訓練された一連の複数のニューラルネットワークとしてプロビジョニングされる。複数のニューラルネットワークからの予測を組み合わせることは、単一の訓練されたニューラルネットワークモデルの分散に対抗し、一般化誤差(サンプル外誤差としても知られ、これは、アルゴリズムが以前に見られなかったデータについての結果値をどれだけ正確に予測することができるかの尺度である)を低減することができる。例えば、一般化誤差は、通常、バイアス及び分散に分解され、バイアスは、より表現的なモデル(例えば、より多くのパラメータを有するニューラルネット)によって(大まかに)低減されるが、モデルの柔軟性を増加させることは、オーバーフィッティングをもたらし得る。分散は、アンサンブル又はより大きなデータセットによって(大まかに)低減される。したがって、例えば、ランダムフォレストは、非常に柔軟なモデル(決定木)のアンサンブルであり、コンポーネントモデルの低いバイアスは、通常、高い分散解をもたらし、したがって、これは、各々がデータのランダムサブセットに(任意選択的に他の技術とともに)適合する木のアンサンブルを使用することによって打ち消すことができる。ニューラルネットワークのアンサンブルの結果は、訓練データの詳細、訓練方式の選択、及び単一の訓練実行に固有のランダム性にあまり敏感でない予測である。
【0043】
次いで、訓練された高度にパラメータ化された機械学習モデル(例えば、ニューラルネットワークのアンサンブル)を検索プロセスにおいて使用して、適合度スコアを予測し、所与の標的に潜在的に結合することができるアプタマー120の何千もの他の配列を識別することができる。いくつかの事例では、検索プロセスは、遺伝的アルゴリズムを使用する遺伝的検索プロセスであり、これは自然選択のプロセスを模倣し、ここで、次世代の子孫(例えば、所与の標的に結合する可能性が最も高いアプタマー)を産生するために、最も適合した個体(例えば、所与の標的に結合する可能性が最も高いアプタマー)が生殖のために選択される。親がより良好な適合度を有する場合、それらの子孫は親よりも良好であり、生存するより良好な機会を有する。このプロセスは反復し続け、最後に、最も適合した個体(例えば、所与の標的に結合する最良の可能性を有するアプタマー120の数千の配列)を有する世代が見出され得る。特定の事例では、遺伝的アルゴリズムは、高度にパラメータ化された機械学習モデル予測に対する経験的標識の分散が劇的に増加することを知って、訓練データセットから離れた限られた数のヌクレオチド編集に制約される。
【0044】
ブロック125において、アプタマー120の識別又は設計された配列は、アプタマーを合成するために使用され得、アプタマーは、後続の結合選択のために使用される。例えば、所与の分子標的を合成アプタマーに曝露し、分離プロトコルを使用して非結合アプタマーを除去し(例えば、フロースルー)、結合アプタマーを所与の標的から溶出する、その後のインビトロ結合選択(例えば、ファージディスプレイ又はSELEX)を実行し得る。結合アプタマー及び非結合アプタマーを配列決定して、どのアプタマーが所与の標的に結合するか及び結合しないかを識別する。この結合選択プロセスは、識別/設計されたアプタマーのうちのどれが所与の標的に実際に結合するかを検証するために、任意の数のサイクル(例えば、1~3サイクル)にわたって繰り返され得る。いくつかの事例では、溶出又はフロースルー中の所与の候補配列のコピーの正確な計数を可能にするために、固有分子識別子(Unique Molecular Identifier、UMI)を使用してその後の結合選択を行う。配列多様性はこの段階で低減されるので、所与の標的と相互作用し、シグナル対ノイズ比(及び標識品質)を改善するための各アプタマーのより多くのコピーが存在し得る。
【0045】
ブロック130において、ブロック125から取得された結合アプタマー(及び任意選択的に非結合アプタマー)の配列を使用して線形アルゴリズムを訓練して、所与の標的に潜在的に結合することができるアプタマー135の何百もの追加配列又は代替配列を識別する。いくつかの事例では、線形アルゴリズムは、複数の正則化回帰モデルを得るために、正則化技術(すなわち、モデルを2つ以上の独立変数(共変量又は予測子又は特徴-全て同じもの)に当てはめる)を使用して学習された重回帰アルゴリズムである。線形アルゴリズムは、高度にパラメータ化されたアルゴリズムよりも表現力が低いが、この段階における改善されたシグナル対ノイズ比は、線形アルゴリズムが、一般化においてより良好でありながら、依然としてシグナルを捕捉することを可能にする。線形最適化などの最適化技術をこの段階で使用して、異なる相対適合度スコア(したがって親和性)を有するアプタマー135の数百の追加配列又は代替配列を識別することができる。線形最適化(線形計画法とも呼ばれる)は、その要件が線形関係によって表されるモデル(例えば、回帰モデル)において最良の結果(所与の標的に対する最高の結合親和性など)を達成するための計算方法である。より具体的には、線形最適化は、線形等式制約及び線形不等式制約条件として、線形目的関数を改善して、異なる相対適合度スコア(最も高い結合親和性を有するものを含む)を有するアプタマー135の数百の追加配列又は代替配列を出力する。ブロック115において使用される高度にパラメータ化された機械学習モデル及び検索プロセスとは異なり、回帰モデルによるより良好な一般化に起因して、線形最適化のプロセスにおいて訓練データから逸脱することにおけるより大きな信頼度が存在する。結果として、線形最適化は、訓練データセットから離れた限られた数のヌクレオチド編集に制約されない場合がある。
【0046】
ブロック140において、アプタマー135の識別又は設計された配列は、アプタマーを設計するために使用され得、アプタマーは、その後、所与の標的への結合について、ハイスループット結合選択(例えば、SELEX)又はロースループット親和性アッセイ(例えば、バイオレイヤ干渉法(biolayer interferometry、BLI))のいずれかにおいて特徴付けられ、又は検証される。ブロック105~140におけるプロセスは、配列の絶対数を減少させ、シグナル対ノイズ比を増加させるために、1回実施され得るか、又はその一部若しくは全体が任意の回数繰り返され得、これは最終的に、所与の分子標的に結合することができる(例えば、阻害/活性化様式で目的の標的に結合するか、又はT細胞などの標的に薬物/治療薬を送達する)強力な治療候補のセットをもたらす。
図1及び本明細書の説明は、数兆個の配列から数千個の配列、数百個の配列に及ぶことを説明しているが、これらの数は単に例解目的で提供されていることが理解されるであろう。一般に、パイプライン100は、高度にパラメータ化されたアルゴリズムを訓練するために大きなデータセット(例えば、セプテリオン、1兆、10億、又は100万であり得る実験配列の大きな絶対数)で開始するようにプロビジョニングされ、潜在的な治療候補としてのロースループット特徴付け及び検証のために、実験配列の絶対数を最終的に小さなデータセット(例えば、数百、数十、又はそれ未満であり得る実験配列の小さな絶対数)に整列するより管理可能な数に最終的に絞り込むことを理解されたい。
【0047】
III.結合剤の配列を識別/設計するためのモデリングシステム
図2は、分子標的の高親和性結合剤(例えば、ユーザによって提起されたクエリに回答するアプタマー、ペプチド、タンパク質、又はペプチド模倣薬)を識別又は設計するための機械学習モデリングシステム200の態様を例解するブロック図を示している。
図2に示されるように、この例における機械学習モデリングシステム200によって実行される予測は、複数の段階、すなわち予測モデル訓練段階205、1つ以上の配列若しくはアプタマー識別段階210、任意選択的な計数予測段階215、及び任意選択的な分析予測段階220を含む。予測モデル訓練段階205は、他の段階(本明細書では、個々にモデル225と称される場合もあり、又は集合的にモデル225と称される場合もある)によって使用される1つ以上のモデル225a~225n(「n」は任意の自然数を表す)を構築及び訓練する。例えば、モデル225は、選択プロセスによって実験的に判定されたアプタマーではないが、選択プロセスによって実験的に判定されたアプタマーに基づいて識別又は設計される、アプタマーの配列を生成するために1つ以上の異なるタイプのモデルを含むことができる。モデル225は、所与の標的に対する高親和性結合剤を識別又は設計するために、
図1に関して説明されるパイプライン100において使用され得る。モデル225はまた、導出されたアプタマーのための予測された配列に対する結合計数を予測するためのモデルを含むことができる。モデル225はまた、導出されたアプタマーのための予測された配列に対する結合親和性などの分析を予測するためのモデルを含むことができる。更に他のタイプの予測モデルは、本開示による他の例で実装され得る。
【0048】
モデル225は、ニューラルネットワーク、畳み込みニューラルネットワーク(convolutional neural network、「CNN」)、例えば、インセプションニューラルネットワーク、残差ニューラルネットワーク(「Resnet」)、若しくはMOUNTAIN VIEW、CALIFORNIAのGOOGLE LLCによって提供されたNASNET、又はリカレントニューラルネットワーク、例えば、長短期記憶(long short-term memory、「LSTM」)モデル若しくはゲート付き回帰型ユニット(gated recurrent unit、「GRU」)モデルなどの、機械学習モデルであり得る。モデル225は、サポートベクターマシン、決定木、三次元CNN(three-dimensional CNN、「3DCNN」)、回帰モデル、線形回帰モデル、リッジ回帰モデル、ロジスティック回帰モデル、動的タイムワーピング(dynamic time warping、「DTW」)技術、隠れマルコフモデル(hidden Markov model、「HMM」)など、又はこのような技術の1つ以上の組み合わせ、例えば、CNN-HMM若しくはMCNN(マルチスケール畳み込みニューラルネットワーク)などの、アプタマー配列についての導出されたアプタマー、配列計数又は分析についての予測配列を予測するために訓練された任意の他の好適な機械学習モデルであり得る。機械学習モデリングシステム200は、アプタマー配列予測、アプタマー計数予測、及び/又は分析予測のために、同じタイプのモデル又は異なるタイプのモデルのうちの1つ以上を採用し得る。
【0049】
この例では、様々なモデル225を訓練するために、各モデル225のための訓練サンプル230が取得又は生成される。特定のモデル225についての訓練サンプル230は、
図1に関して記載されるような配列データ、及び配列データに対応する任意選択的な標識235を含み得る。例えば、アプタマー配列を識別又は設計するために利用されるモデル225について、入力は、アプタマー配列自体又はアプタマー配列に関連する配列データから抽出された特徴であり得、任意選択的な標識235は、アプタマー配列について計算された適合度スコア(各アプタマー配列が所与の問題をどの程度良好に解決するかの尺度)を含み得る。例えば、アプタマー配列に対する計数若しくは結合親和性を予測するために利用されるモデル225について、入力は、配列に関連する初期配列データ及び/又は配列データから抽出された配列及び計数特徴を含むことができ、任意選択的な標識235は、計数若しくは結合親和性についてのパラメータを示す特徴、又は配列データの計数若しくは結合親和性についての確率を示すベクトルを含むことができる。
【0050】
いくつかの事例では、訓練プロセスは、モデル225のための目的関数(例えば、回帰又は分類損失)を最大化又は最小化するモデル225のためのパラメータのセットを見つけるための反復演算を含む。各反復は、パラメータのセットを使用する目的関数の値が、前の反復におけるパラメータの別のセットを使用する目的関数の値よりも小さく又は大きくなるように、モデル225のパラメータのセットを求めることを含むことができる。目的関数は、モデル225を使用して予測される出力と訓練サンプル230内に含有される任意選択的な標識235との間の差を測定するように構築され得る。パラメータのセットが識別されると、モデル225は、訓練されており、設計される際の予測のために試験、検証、及び/又は利用され得る。
【0051】
訓練サンプル230に加えて、他の補助情報もまた、モデル225の訓練プロセスを改良するために採用され得る。例えば、モデル225によって予測された配列若しくはアプタマー、計数、及び分析が配列論理240に違反しないことを確実にするために、配列論理240を予測モデル訓練段階205に組み込むことができる。例えば、結合親和性(アプタマーと標的との間の結合相互作用の強度)は、選択プロセスのサイクル後にアプタマー-標的錯体のプール中にアプタマーをより多くの数で存在させ得る特性である。この関係は、結合親和性変数が増加すると予測カウントが増加し(この特性を表すために)、結合親和性変数が減少すると予測カウントが減少するように、配列論理240で表すことができる。更に、アプタマー配列は、概して、異なるヌクレオチド間にユニークな論理を有する。例えば、アプタマーに対するGC含有量は、典型的には、60%以下である。GC含有量とアプタマー配列との間のこのユニークな論理的関係は、アプタマー配列予測を容易にするために利用され得る。
【0052】
本明細書に提示される本開示のいくつかの態様によると、結合親和性と計数との間の論理的関係が、モデル225を訓練するための最適化問題に対する1つ以上の制約として定式化され得る。結合親和性及び計数制約を考慮に入れて訓練することができるように、制約の違反にペナルティを課す訓練損失関数を構築することができる。代替的に、又は追加的に、現在の特徴及び予測出力の時間的依存性を説明する有向グラフなどの構造は、モデル225の特徴及び予測を調節又は洗練するために使用され得る。例示的な実装態様では、特徴は、初期配列データから抽出され、有向グラフに示されるように選択配列データからの特徴と組み合わされ得る。この方式で生成された特徴は、初期ライブラリと選択プロセスのサイクル後のアプタマー配列の後続のプールとの間の時間的、したがって、論理的関係を本質的に組み込み得る。したがって、これらの特徴を使用して訓練されたモデル225は、配列特性、選択サイクル、アプタマー配列、及びヌクレオチド間の論理的関係を捕捉し得る。
【0053】
本明細書で説明される訓練メカニズムは、主にモデル225を訓練することに焦点を当てているが、これらの訓練メカニズムは、他のデータセットから訓練された既存のモデル225を微調整するためにも利用され得る。例えば、いくつかの場合では、モデル225は、既存のアプタマー配列ライブラリを使用して事前に訓練されている場合がある。これらの場合、モデル225は、初期配列データ、実験的に導出された選択配列データ、及び本明細書で考察される他の補助情報を含む訓練サンプル230を使用して再訓練することができる。
【0054】
予測モデル訓練段階205は、訓練された非線形又は高度にパラメータ化されたモデル245、訓練された線形モデル又は最小パラメータを有するモデル250、任意選択的に訓練された計数予測モデル255、及び任意選択的に訓練された分析予測モデル260を含む訓練されたモデル225を出力する。訓練された非線形又は高パラメータ化モデル245及び訓練された線形モデル又は最小パラメータを有するモデル250は、初期配列データ270(例えば、ランダム配列データ)、実験的選択プロセス(例えば、
図1に関して記載されるブロック105~140)の間に識別された選択配列データ275、又はそれらの組み合わせのサブセット又は全てに基づいて配列265を識別又は設計するために、配列識別段階210において使用され得る。訓練された計数予測モデル255を計数予測段階215で使用して、初期配列データ270及び/又は実験的選択プロセス(例えば、
図1について説明されたブロック105、125、及び140)中に識別された初期配列データ270及び/又は選択配列データ275に基づいて識別された配列に対して計数予測280を生成し得る。訓練された分析予測モデル260を、分析予測段階220で使用して、初期配列データ270及び/又は実験的選択プロセス(例えば、
図1について説明されたブロック105、125及び140)中に識別された選択配列データ275に基づいて予測された配列に対して分析予測285(例えば、標的に結合する、又は標的に結合しないなどのバイナリ分類器)を生成し得る。いくつかの事例では、識別又は設計された配列265、計数予測280、分析予測285、又はそれらの任意の組み合わせは、結果290として、ユーザによって提示されたクエリに提供され得る。例えば、所与の標的に結合する上位100個のアプタマーについてのクエリに応答して、結果290は、所与の標的に対する最高の計数又は結合親和性を有する100個のアプタマーについての配列の同一性を含み得る。次いで、
図1に関して記載されるように、結果290は、潜在的な治療候補として結果290を特徴付けるか又は検証するためのロースループットアッセイにおいて使用されるアプタマーを合成するために使用され得る。
【0055】
図3は、分子標的の高親和性結合剤を戦略的に識別する及び生成するためのアプタマー開発プラットフォーム300のブロック図を示す。様々な実施形態では、アプタマー開発プラットフォーム300は、任意の所与の分子標的に結合することができる結合剤を識別するためのプロセスを反復的に改善するために、インビトロ実験及びインシリコ計算及び機械学習に基づく技術を実装する。アプタマー開発プラットフォーム300の様々な構成要素は、分子標的の高親和性結合剤を識別する及び生成するために開発されたパイプラインに従って実行される(
図1に関して記載されるように)。インシリコ計算及び機械学習に基づく技術は、機械学習モデリングシステムの少なくとも一部として訓練及び展開される(
図2に関して説明されるように)。
【0056】
様々な実施形態では、アプタマー開発プラットフォーム300は、ライブラリ内の各候補アプタマー配列が、ハイスループット結合選択プロセスでクエリ(例えば、1つ以上の標的との結合親和性又は1つ以上の標的を機能的に阻害することができること)に基づいて評価されるアプタマー発見のためのスクリーニングベースの技術を実装する。本明細書で記載されるように、アプタマー開発プラットフォーム300は、増強されたアプタマー発見のための機械学習ベースの技術を実装し、クエリを満たす、ライブラリ内の候補アプタマー配列は、クエリを潜在的に満たす追加の又は代替の候補アプタマー配列を識別するように、1つ以上の機械学習モデルを訓練するために使用される。アプタマー開発プラットフォーム300は、アプタマー検証のためにスクリーニングベースの技術を更に実装して、ハイスループット又はロースループット仕様において、識別されたアプタマー候補配列がクエリを満たす(例えば、1つ以上の標的に結合又は阻害する)ことを検証又は確認する。理解されるはずであるように、検証に対する識別を通じたスクリーニングからのこれらの技術は、任意の数のクエリを最終的に評価するために、順次又は並列に1つ以上の閉ループプロセスで繰り返され得る。
【0057】
アプタマー開発プラットフォーム300は、ブロック305において、1つ以上の一本鎖DNA(デオキシリボ核酸)又はRNA(リボ核酸)(ssDNA[一本鎖DNA]又はssRNA[一本鎖RNA])ライブラリを取得することを含む。1つ以上のssDNA又はssRNAライブラリは、サードパーティ(例えば、外部ベンダー)から取得するか、又は社内で合成し得、1つ以上のライブラリの各々は、典型的には、最大1017の異なる固有の配列を含む。ブロック310において、1つ以上のライブラリのssDNA又はssRNAが転写されて、ゼノ核酸(XNA)アプタマーライブラリが合成される。XNAアプタマー配列(例えば、トレオース核酸[TNA]、1,5-アンヒドロヘキシトール核酸[HNA]、シクロヘキセン核酸[CeNA]、グリコール核酸[GNA]、ロックド核酸[LNA]、ペプチド核酸[PNA]、FANA[フルオロアラビノ核酸])は、天然核酸DNA及びRNAとは異なる糖骨格を有する合成核酸類似体である。XNAは、これらのポリマーがヌクレアーゼによって容易に認識及び分解されないため、アプタマー配列のために選択され得、したがって、インビボ用途によく適している。XNAアプタマー配列は、酵素又は化学合成を通じて、インビトロで合成され得る。例えば、アプタマーのXNAライブラリは、ssDNAライブラリ中のオリゴヌクレオチド鎖の一部又は全てのプライマー伸長、酵素増幅のための固定プライマーアニーリング部位を有するアプタマー配列への隣接、及び1012~1017個のアプタマー配列を含むXNAアプタマーライブラリを作製するためのその後のPCR増幅によって作製され得る。
【0058】
いくつかの事例では、XNAアプタマーライブラリは、下流機械学習プロセスにおける適用のために処理され得る。特定の事例では、アプタマー配列が、1つ以上の機械学習モデルにおける訓練データ、試験データ、又は確認データとして使用するために処理される。他の例では、アプタマー配列は、1つ以上の訓練された機械学習モデルにおける実際の実験データとして使用するために処理される。いずれの事例も、アプタマー配列は、各アプタマーの配列及び任意選択的に計数メトリックの表現を含む初期配列データを生成するために処理され得る。配列の表現は、アプタマー内のヌクレオチドの順番に関する情報を維持する配列中の各ヌクレオチドのワンホットエンコーディングを含み得る。配列の表現は、追加的又は代替的に、一連のカテゴリ識別子を含み得、各カテゴリは、特定のヌクレオチドを表す。計数メトリックは、XNAアプタマーライブラリ内の各アプタマーの計数を含み得る。
【0059】
ブロック315において、XNAアプタマーライブラリ内のアプタマーは、ハイスループットアプタマー選択のためのモノクローナル区画(例えば、モノクローナルビーズ又は区画化された液滴)に分割される。例えば、アプタマーは、標的のためのビーズベースの捕捉システムを生成するために、ビーズに取り付けられ得る。各ビーズは、モノクローナルビーズのライブラリを生成する固有のアプタマー配列に取り付けられ得る。モノクローナルビーズのライブラリは、ポリスチレン、磁気、ガラスビーズなどであり得るビーズへの配列の配列特異的分割及び共有結合によって生成され得る。いくつかの事例では、配列特異的分割は、ビーズの表面上にコーティングされた共有結合化学物質との相互作用のためのアミン修飾ヌクレオチドを有する捕捉オリゴヌクレオチドとのXNAアプタマーのハイブリダイゼーションを含む。特定の事例では、共有結合化学物質は、N-ヒドロキシスクシンイミド(N-hydroxysuccinimide、NHS)修飾PEG、塩化シアヌル、イソチオシアネート、ニトロフェニルクロロホルメート、ヒドラジン、又はそれらの任意の組み合わせを含む。いくつかの事例では、UMIをアプタマーに付着させて、溶出又はフロースルーにおける所与の候補配列のコピーの正確な計数を可能にする。
【0060】
ブロック320において、標的(例えば、タンパク質、タンパク質複合体、ペプチド、炭水化物、無機分子、細胞など)が取得される。標的は、ユーザ(例えば、クライアント又は顧客)によってもたらされたクエリの結果として取得され得る。例えば、ユーザは、所与の標的に対して最高の結合親和性を有する100個のアプタマー、又は所与の標的の活性を阻害する最大の能力を有する20個のアプタマーの識別に関するクエリを提起し得る。いくかの事例では、標的は、蛍光プローブなどの標識でタグ付けされる。ブロック325において、ビーズベースの捕捉システムが標識化された標的とインキュベートされて、アプタマーが、標的と結合し、アプタマー-標的錯体を形成することを可能にする。
【0061】
ブロック330において、アプタマー-標的錯体を有するビーズは、分離プロトコルを使用して非結合アプタマーを有するビーズから分離される。いくつかの事例では、分離プロトコルは、非結合アプタマーを有するビーズからアプタマー-標的錯体を有するビーズを分離するための蛍光活性化細胞選別システム(fluorescence-activated cell sorting system、FACS)を含む。例えば、ビーズベースの捕捉システムの懸濁液は、液体の狭い急速流動流の中心に同伴され得る。流れは、それらの直径に対してビーズ間に分離が存在するように配置され得る。振動機構は、ビーズの流れを個々の液滴(例えば、液滴当たり1つのビーズ)に砕く。流れが液滴に砕ける前に、流れは、蛍光測定ステーションを通過し、アプタマー-標的錯体の一部である蛍光標識が測定される。帯電リングは、流れが液滴に砕ける地点に配置され得る。電荷は、先行の蛍光測定に基づいてリング上に配置され得、反対の電荷は、流れから砕けるときに液滴上に捕捉される。次いで、荷電液滴は、それらの電荷に基づいて、液滴を容器内に分流させる静電偏向システムを通って落下し得る(例えば、アプタマー-標的錯体を含むビーズを有する液滴が1つの容器内に入り、非結合アプタマーを含むビーズを有する液滴が異なる容器に入る)。いくつかの事例では、電荷は、流れに直接印加され、離脱する液滴は、流れと同じ符号の電荷を保持する。液滴が分裂した後、流れはニュートラルに戻り得る。
【0062】
ブロック335において、アプタマー-標的錯体からのアプタマーが、ビーズ及び標的から溶出し、酵素又は化学プロセスによって増幅されて、任意選択的に、選択の後続ラウンドのために調製される(ブロック310~330、例えば、SELEXプロトコルを繰り返す)。溶出条件のストリンジェンシを増加させて、最も強固に結合する配列又は最も親和性が高い配列を識別することができる。いくつかの事例では、アプタマーが分離及び増幅されると、アプタマーは、配列及び任意選択的に各アプタマーの計数を識別するために配列決定され得る。任意選択的に、分離された非結合アプタマーは、酵素的又は化学的プロセスによって増幅される。いくつかの事例では、非結合アプタマーが増幅されると、非結合アプタマーを配列決定して、各非結合アプタマーに対する配列及び任意選択的に計数を識別し得る。非結合アプタマーの配列及び計数は、どのアプタマーが最も弱い結合を有するかについての情報を提供し得(例えば、機械学習モデルの訓練において使用され得る)、これは、結合することが見出されたアプタマーの結果を補足又は検証し得る。アプタマーが、非結合について計数が高く、結合について計数が低い場合、アプタマーは、弱い結合親和性を有すると判定され、検証され得る。特定のアプタマーが結合及び非結合の両方について有意な数を有する場合、アプタマーは、いくつかの他の理由(例えば、同じタイプのアプタマー間の結合部位についての競合)のために制限され得る。
【0063】
ブロック340において、ステップ310~330の選択プロセスを経た各アプタマーに対する分離プロトコル(例えば、バイナリ分類器又はマルチクラス分類器)に基づいて実施される配列、計数、及び/又は分析を含むデータセットは、下流機械学習プロセスにおける適用のために処理される。処理は、プラットフォーム300のコントローラ/コンピュータによって実行される。データセットは、結合アプタマー(アプタマー-標的錯体を形成したもの)、非結合アプタマー(アプタマー-標的錯体を形成しなかったもの)、又はそれらの組み合わせからの配列、計数、及び/又は分析を含み得る。一般に、異なるタイプの結合剤(例えば、アゴニスト、アンタゴニスト、アロステリックなど)が存在し、それらは、訓練、試験、及び/又は実験分析中に異なるタイプの結合剤を区別するように構成され得る特徴となる。いくつかの事例では、各アプタマーに対する配列、計数、及び/又は分析は、1つ以上の機械学習モデルにおける訓練データ、試験データ、又は確認データとして使用するために処理される。他の事例では、各アプタマーに対する配列、計数、及び/又は分析は、1つ以上の訓練された機械学習モデルにおける実際の実験データとして使用するために処理される。いずれの事例でも、各アプタマーに対する配列、計数、及び/又は分析が、各アプタマーの配列の表現、計数メトリック、分析メトリック、又はそれらの任意の組み合わせを含む選択配列データを生成するために処理され得る。配列の表現は、アプタマー内のヌクレオチドの順番に関する情報を維持する配列中の各ヌクレオチドのワンホットエンコーディングを含み得る。配列の表現は、追加的又は代替的に、配列及び/又はアプタマーに関する他の特徴、例えば、翻訳後修飾、結合部位、酵素活性部位、局所二次構造、kmer又は特定のkmerに対して識別された特性などを含み得る。配列の表現は、追加的又は代替的に、一連のカテゴリ識別子を含み得、各カテゴリは、特定のヌクレオチドを表す。計数メトリックは、標的への曝露後に検出されたアプタマーの計数(例えば、インキュベーション中、及び潜在的には他のアプタマーの存在下で)を含み得る。いくつかの事例では、計数メトリックは、各選択ラウンドにおける標的への曝露後に検出されたアプタマーの計数を含む。分析指標には、標的を機能的に阻害した、標的を機能的に阻害しなかった、標的に結合された、又は標的に結合されなかったなどのバイナリ分類器、所与の問題に関して、所与のアプタマー配列が解決策としてどのようにうまく機能するかを示す尺度である、適合度スコア、及び/又は、機能阻害のレベル又は結合親和性のための勾配スケールなどのマルチクラス分類器が含まれ得る。
【0064】
いくつかの事例では、ブロック340における処理は、(i)データセット内のノイズの量を測定することと、(ii)測定されたノイズの量及び入力配列の標識品質に最適に対処するためにプラットフォーム300のアーキテクチャを動的に変更する構成要素をプロビジョニングすることと、を更に含む。本明細書で考察されるように、データセット内のノイズが少ないほど、サンプル内ドメイン(訓練データの近くに留まる)の配列を識別又は設計することからサンプル外ドメイン(訓練データから更に離れる)に進むように、プラットフォーム300の構成要素をプロビジョニング及び構成するための信頼性が高くなる。特定の事例では、ノイズの量は、シグナル対ノイズ比として表される。シグナル対ノイズ比は、シグナルのレベル対ノイズのレベルを測定するために使用され、シグナル対ノイズ比が大きいほどシグナル品質が高いことを意味する。比についてのシグナル及びノイズ値は、ブロック310からのXNAアプタマーライブラリとブロック335から取得されたデータセットとの間の差異、又はブロック335から取得されたデータセットとブロック345(a)~345(n)から取得された配列の推定セットとの間の差異(例えば、配列の様々なセットが互いにどれだけ離れているか、かつ距離が大きいほどノイズの可能性が大きい)に基づく測定を含む種々の技術を使用して定量化され得る。コントローラ/コンピュータは、判定されたシグナル対ノイズ比(及び暗黙的に配列の多様性)に基づいて、アルゴリズム及びモデルを選択及び最適化することができる。例えば、コントローラ/コンピュータは、ブロック345a~nで使用されているアルゴリズム又はモデルを修正し、1つ以上のモデルパラメータを修正し、1つ以上のハイパーパラメータを修正し、入力配列又はデータの訓練セットを増大させ、訓練/試験/検証アプローチを修正し、所与のアルゴリズムの目的関数又は損失関数を修正し、あるいはそれらの任意の組み合わせを修正することができる。
【0065】
ブロック345a~nにおいて、1つ以上の機械学習アルゴリズムが、初期配列データ(ブロック310からの)、選択配列データ(ブロック335からの)、又はブロック340で処理されたそれらの組み合わせを使用してコントローラ/コンピュータによって訓練されて、1つ以上の訓練された機械学習モデルを生成する。1つ以上の機械学習モデルは、回帰モデル(例えば、線形、決定木、ランダムフォレスト、ニューラルネットワークネットワークなど)若しくは分類モデル(例えば、ロジスティック回帰、サポートベクターマシン、決定木、ランダムフォレスト、ニューラルネットワークなど)などの教師ありモデル、又はクラスタリングモデル(例えば、k平均、密度ベース、平均シフトなど)若しくは次元削減モデル(例えば、主成分分析など)などの教師なしモデルを含み得る。いくつかの事例(例えば、345(a))では、機械学習モデルは、フィードフォワードニューラルネットワーク、リカレントニューラルネットワーク、畳み込みニューラルネットワーク、又はニューラルネットワークのアンサンブルなどのニューラルネットワークを含む。他の事例(例えば、345(b))では、機械学習モデルは、回帰モデル又は正則化回帰モデルなどの線形モデルを含む。機械学習アルゴリズムは、初期配列データ及び選択配列データのセットに基づいて、訓練データ、試験データ、及び検証データを使用して訓練されて、適合度スコアを予測し、アプタマー配列(例えば、選択プロセスによって実験的に判定されないが、選択プロセスによって実験的に判定されたアプタマーに基づいて識別されるアプタマー)及び任意選択的な計数及び/又は識別されたアプタマー配列についての分析を識別し得る。平均二乗誤差(Mean Square Error、MSE)、尤度損失、又は対数損失(交差エントロピ損失)などの目的関数又は損失関数が、1つ以上の機械学習モデルの各々を訓練するために使用され得る。いくつかの事例では、機械学習アルゴリズムは、初期配列データ及び/又は選択配列データを使用して、適合度を予測するため及びアプタマー配列を識別するために訓練され得る。別の機械学習アルゴリズムは、初期配列データ及び/又は選択配列データを使用して、識別されたアプタマー配列についての結合計数を予測するために訓練され得る。別の機械学習アルゴリズムは、初期配列データ及び/又は選択配列データを使用して、識別されたアプタマー配列に対する結合親和性などの分析を予測するために訓練され得る。
【0066】
次いで、訓練された機械学習モデルを使用して、適合度スコアを予測し、アプタマー配列並びに任意選択的な計数及び/又は識別されたアプタマー配列の分析を識別する。例えば、選択プロセスによってクエリを満たすと実験的に判定されたアプタマーのサブセット(例えば、標的との高い結合親和性を有するアプタマー又は標的との高い結合親和性に主に起因する予測された計数)が識別され、選択プロセスによってクエリを満たさないと実験的に判定されたアプタマーから分離され得る。次いで、クエリを満足させるために選択プロセスによって実験的に判定されたアプタマーのサブセットについての配列、選択プロセスによって実験的に判定されたアプタマーのサブセットからの配列とは異なる配列のプール(例えば、配列のランダムプール又は配列の関連ライブラリからプールされた配列)からの配列、又はそれらの組み合わせを、1つ以上の機械学習モデルに入力して、適合度スコアを予測し、インシリコで導出されたアプタマー配列(例えば、実験的に選択されたアプタマーの誘導体であるアプタマー配列を識別し、任意選択的に、導出されたアプタマー配列についての計数及び分析を行うことができる。任意選択的に、選択プロセスによってクエリを満たさないと実験的に判定されたアプタマーのサブセットはまた、インシリコで、導出されたアプタマー配列(例えば、実験的に選択されたアプタマーの誘導体であるアプタマー配列)、並びに任意選択的に、導出されたアプタマー配列に対する計数及び分析を識別することを補助するために、1つ以上の機械学習モデルに入力され得る。
【0067】
いくつかの事例では、アプタマー配列の識別又は設計を改善するために、検索アルゴリズム(例えば、遺伝的アルゴリズム)又は最適化アルゴリズム(例えば、線形最適化)などの1つ以上の異なるタイプのアルゴリズムの適用を含む追加の技術が、1つ以上の機械学習モデルと組み合わせて使用される。例えば、選択プロセスによってクエリを満たすと実験的に判定されたアプタマーのサブセットを識別し、選択プロセスによってクエリを満たさないと実験的に判定されたアプタマーから分離することができる。アプタマーのこのサブセット、選択プロセスによって実験的に判定されたアプタマーのサブセットからの配列とは異なる配列のプールからの配列、又はそれらの組み合わせは、遺伝的アルゴリズムのための学習された適合度関数として訓練された機械学習モデルを実装する遺伝的検索プロセスにおいて使用され得る。アプタマーのサブセットを、訓練された機械学習モデルに入力することができ、これを使用して、適合度スコアを予測し、インシリコでアプタマー配列を交配のために識別する。更に、訓練された機械学習モデル(例えば、ニューラルネットワークからのアンサンブル)は、結合剤としてのアプタマー配列の予測された適合度スコアに関する不確実性スコアを提供するように構成され得、不確実性スコアは、適合度スコアの少なくとも一部として、又は各識別されたアプタマー配列についてのフィルタとして、遺伝的検索プロセスにおいて使用され得る。不確実性スコアは、訓練された機械学習モデルの予測の不確実性を定量化する不確実性定量化プロセス(例えば、ガウスプロセス、モンテカルロドロップアウト、非ベイズ型プロセスなど)を使用して判定される。
【0068】
遺伝的アルゴリズムでは、クエリを満たすために選択プロセスによって実験的に判定された配列のサブセット、選択プロセスによって実験的に判定されたアプタマーのサブセットからの配列とは異なる配列のプールからの配列、又はそれらの組み合わせが初期集団として役立ち、適合度関数(すなわち、訓練された機械学習モデル)を使用して、各アプタマー配列がどの程度適合するか(例えば、各配列が結合剤として他の配列と競合する能力)を判定する。適合度関数は、各配列についての適合度スコアを推定又は予測する。各配列が再生のために選択される確率は、その適合度スコアに基づき、任意選択的に、各予測適合度スコアについて訓練された機械学習モデルによって生成された不確実性スコアを考慮に入れ得る。その後、配列の対が、それらの適合度スコアに基づいて選択される。高い適合度を有する配列は、再生のために選択される機会がより多い。子孫は、クロスオーバーポイントに達するまで、親配列の遺伝子(例えば、ヌクレオチド)をそれらの間で交換することによって作製される。新しい子孫を集団に加え、集団が収束する(前の世代と有意に異なる子孫を生成しない)まで、プロセスを繰り返すことができる。次いで、遺伝的アルゴリズムが、所与の標的に結合するための解又は配列のセットを識別又は設計したことが判定され得る。特定の事例では、形成された特定の新しい子孫は、低いランダム確率で有する変異に供され得る。これは、配列中のヌクレオチドのいくつかがランダムに変化し得ることを意味する。いくつかの事例では、遺伝的アルゴリズムは、クロスオーバーポイント及び/又は突然変異を、訓練データセットから離れた限られた数の編集に制御するように制約される。
【0069】
ブロック350において、訓練された機械学習モデルの出力(識別されたアプトマー配列の識別されたアプタマー、適合度スコア、任意選択的な計数及び/又は分析)は、データ構造(例えば、データベーステーブル)内のインシリコのいくつか又は全て(例えば、標的に対する増加した結合親和性を実証する予測された計数、又は標的に対する減少した結合親和性を実証する予測された計数などの正及び負のアプタマーデータ)の記録をトリガし得る。いくつかの事例では、識別されたアプタマー配列は、クエリ(すなわち、所与の問題)、クエリの焦点でありアプタマー配列の識別の基礎である1つ以上の標的、アプタマー配列について予測された計数、適合度スコア、アプタマー配列について予測された分析、又はそれらの任意の組み合わせを含む追加の情報と関連してデータ構造に記録される。
【0070】
追加的に、又は代替として、訓練された機械学習モデルの出力は、ブロック310~335における後続の結合選択、又はブロック355における実験的試験若しくは検証をトリガして、導出されたアプタマーを、所与の分子標的に結合することができる強力な治療候補として確認することができる。ブロック350において実行されるアクションは、分子標的の高親和性結合剤を戦略的に識別する及び生成するためにアプタマー開発プラットフォーム300によって実行されるパイプラインによって指示される。例えば、
図1に例解されるパイプライン100に従って、アプタマー開発プラットフォーム300は、(i)ブロック305~335における結合選択の第1のラウンド、(ii)ブロック340及び345(a)における第1の訓練された機械学習モデル(例えば、ニューラルネットワークのアンサンブル)への導出されたアプタマーの処理及び入力、(iii)ブロック310~335における結合選択の第2のラウンド、(iv)ブロック340及び345(b)における第2の訓練された機械学習モデル(例えば、回帰モデル)への導出されたアプタマーの処理及び入力、並びに(v)所与の分子標的に結合することができる強力な治療候補としての導出されたアプタマーを確認するためのブロック355における実験的試験又は検証を実施し得る。更に、ブロック350において実行されるアクションは、シグナル対ノイズ比、アプタマー配列の適合度スコア、アプタマー配列の不確実性スコア、標的に対する結合親和性の増加を示す予測された計数、標的に対する結合親和性の減少を示す予測された計数、アプタマー配列の絶対計数、又はそれらの任意の組み合わせを含む1つ以上の因子によって動的に決定され得る。例えば、シグナル対ノイズ比が所定の閾値を達成した場合、その後の結合選択及び機械学習識別又は設計を回避することができ、プロセスは、ブロック355における実験的試験又は検証に進むことができる。
【0071】
ブロック355において、標的との結合親和性及び/又は1つ以上の他の標的との結合親和性などの分析を実験的に測定するために、インシリコアプタマー配列のいくつか又は全てに対して実験的試験又は検証が実行される。実験的試験は、ユーザからの入力を条件とし得る。例えば、ユーザデバイスは、インシリコアプタマー配列が、インシリコアプタマー配列を修正するために(例えば、アプタマーを除去又は追加することによって)、並びに/又は別のデバイス及び/若しくは他のシステムに送信される実験命令通信を生成するために、入力を受信するように構成された入力成分とともに識別される。実験は、インシリコアプタマー配列の各々を生成することを含み得る。次いで、これらのアプタマーは、ロースループット又はハイスループットアッセイを仕様して、個々の又はバルク実験のいずれかでウェット実験室で検証され得る。例えば、ユーザは、単一のアプタマー(例えば、オリゴヌクレオチド)にアクセスすることができる。単一のアプタマーは、Twist Biosciences、Agilent、IDTなどのアプタマー源によって提供され得る。アプタマーは、生化学アッセイを実施するために使用され得る(例えば、ゲルシフト、表面血漿共鳴、生体層干渉法など)。いくつかの事例では、単一のプール内の複数のアプタマーが、同等のSELEXプロトコル(例えば、ブロック310~335)を再実行して、濃縮アプタマーを識別するために使用され得る。結果は、計算実験が確認されたか否かを判定するために評価され得る。いくつかの事例では、選択は、特定の配列を検証するためにデジタル形式(すなわち、配列ごとに機能的出力を与えるもの)で実行され得る。いくつかの事例では、検証された配列は、一対の配列及び親和性メトリックが正規化及び較正の両方を行われ得るため、訓練セットを更新するために使用され得る。
【0072】
理解されるように、
図3に関して説明されたアプタマー開発プラットフォーム300は、ステップ310~335が、1つ以上のクエリと関連して複数の標的に対する複数のモノクローナルビーズを生成するために並列に実行される、アプタマー発見のために使用され得る。追加的に又は代替的に、
図3に関して説明されたアプタマー開発プラットフォーム300は、ステップ310~335が、複数のモノクローナルビーズを、1つ以上のクエリに関連する複数の標的に対して生成するために並列に実行され、識別されたアプタマー配列についてアプタマー配列及び任意選択的な計数及び/又は分析を並列に識別する、アプタマー発見のために使用され得る。予測を行うために訓練及び使用される機械学習モデルは、実験及びエンドデバイス又はシステム上に存在する分散型データを使用して機械学習モデルを訓練する連合学習などの、分散型又は共同学習アプローチを使用する他の機械学習モデルからの結果を用いて更新され得る。例えば、中央又は一次モデルは、実行される全ての実験からの結果を用いて更新又は訓練され得、中央又は一次モデルの更新/訓練の結果は、開発された二次モデルに伝搬され得る(例えば、情報がサイトカインaに対して取得された場合、システムは、サイトカインbを識別するためにプロセスを潜在的に洗練するためにその情報を使用し得る)。
【0073】
IV.結合剤についての配列を識別又は設計するためのモデリングプロセス及び技術
図4は、機械学習モデリングシステム及びアプタマー開発プラットフォーム(例えば、
図2及び
図3に関して記載された機械学習モデリングシステム200及びアプタマー開発プラットフォーム300)を使用してアプタマーを開発するための処理の例を例解する簡略化されたフローチャート400である。プロセス400は、1つ以上の一本鎖DNA又はRNA(ssDNA又はssRNA)ライブラリが取得される、ブロック405で始まる。1つ以上のssDNA又はssRNAライブラリは、複数のssDNA又はssRNA配列を含む。ブロック410において、XNAアプタマーライブラリは、1つ以上のssDNA又はssRNAライブラリから合成される。XNAアプタマーライブラリを構成するXNAアプタマー配列は、インビトロで、酵素又は化学合成を含む転写アッセイを用いて合成され得る。XNAアプタマーライブラリは、複数のアプタマー配列を含む。本明細書に開示される技術は、XNAアプタマーではなく他のアプタマーを評価するために適用され得ることが理解されるであろう。例えば、代替的又は追加的に、本明細書に説明される技術は、核酸の任意のタイプの配列(例えば、DNA及びRNA)と標的のエピトープとの間の相互作用を評価するために使用され得る。したがって、以下のブロックは、XNAライブラリを構築するのではなく、アプタマー配列の入力としてDNA又はRNAアプタマーライブラリを合成し得る。
【0074】
ブロック415において、XNAアプタマーライブラリ(任意選択的にさDNA又はRNAライブラリ)内の複数のアプタマーは、モノクローナル区画に分割され、モノクローナル区画は、組み合われると、区画ベースの捕捉システムを確立する。各モノクローナル区画は、複数のアプタマーからの固有のアプタマーを含む。いくつかの事例では、1つ以上のモノクローナル区画は、1つ以上のモノクローナルビーズである。いくつかの事例では、各モノクローナル区画又は固有のアプタマーは、区画及び/又はモノクローナル区画と関連付けられたアプタマーの識別を追跡するための固有のバーコード(例えば、ヌクレオチドの固有の配列などの固有の分子識別子)を含む。ブロック420において、区画ベースの捕捉システムが、1つ以上の標的を捕捉するために使用される。捕捉することは、1つ以上の標的が1つ以上のモノクローナル区画内の固有のアプタマーに結合することを含む。いくつかの事例では、1つ以上の標的は、ユーザから受信されたクエリに基づいて識別される。本明細書で使用される場合、アクションが何かに「基づいている」とき、これは、アクションが何かの少なくとも一部に少なくとも部分的に基づくことを意味する。ブロック425において、固有のアプタマーに結合した1つ以上の標的を含む区画ベースの捕捉システムの1つ以上のモノクローナル区画は、固有のアプタマーに結合した1つ以上の標的を含まない区画ベースの捕捉システムのモノクローナル区画の残部から分離される。いくつかの事例では、1つ以上のモノクローナル区画は、蛍光活性化細胞選別システムを使用して、モノクローナル区画の残部から分離される。
【0075】
ブロック430において、固有のアプタマーは、1つ以上のモノクローナル区画及び/又は1つ以上の標的の各々から溶出される。ブロック435において、1つ以上のモノクローナル区画の各々からの固有のアプタマーは、酵素又は化学プロセスによって増幅される。ブロック440において、1つ以上のモノクローナル区画の各々からの固有のアプタマー(例えば、結合したアプタマー)が配列決定される。配列決定は、シーケンサを使用して、1つ以上のモノクローナル区画のそれぞれから固有のアプタマーの配列決定データ及び任意選択的に分析データを生成することを含む。1つ以上のモノクローナル区画のそれぞれからの固有のアプタマーの分析データは、固有のアプタマーが1つ以上の標的に結合したことを示し得る。いくつかの事例では、配列決定は、1つ以上のモノクローナル区画の各々からの固有のアプタマーに対する計数データを生成することを更に含む。いくつかの事例では、配列決定は、モノクローナル区画(例えば、非結合アプタマー)の残部からの固有のアプタマーの配列を更に含む。配列決定は、シーケンサを使用して、配列決定データを生成し、任意選択的に、モノクローナル区画の残部の各々からの固有のアプタマーに関するデータを分析することを更に含む。
【0076】
ブロック445において、第1の機械学習アルゴリズム(例えば、ニューラルネットワーク又はニューラルネットワークのアンサンブルなどの高度にパラメトリックな機械学習アルゴリズム)を訓練して、第1の訓練された機械学習モデルを生成するために、(ブロック440からの)選択配列データ並びに任意選択的に計数及び分析データが使用される。その後、アプタマー配列は、第1の訓練された機械学習モデルによって、所与の問題の初期解として識別される。識別は、(ブロック440からの)選択配列データからの配列のサブセット、選択配列データからの配列とは異なる配列のプールからの配列、又はそれらの組み合わせを第1の訓練された機械学習モデルに入力すること、第1の訓練された機械学習モデルによって、各入力配列の適合度スコア(適合度スコアは、所与の配列が所与の問題に関して解としていかに良好に機能するかの尺度である)を推定すること、及び各配列について推定された適合度スコアに基づいて所与の問題を満たすアプタマー配列を識別することを含み得る。場合によっては、アプタマー配列の識別を改善するために、検索アルゴリズム(例えば、遺伝的アルゴリズム)又は最適化アルゴリズム(例えば、線形最適化)などの1つ以上の異なるタイプのアルゴリズムの適用を含む追加の技術が、第1の訓練された機械学習モデルと組み合わせて使用される。例えば、第1の訓練された機械学習モデルによって識別されたアプタマー配列は、本明細書に詳細に記載されるように、遺伝的アルゴリズムを使用して進化させて、所与の問題を満たすアプタマー配列を識別又は設計することができる。
【0077】
任意選択的に、ブロック450において、識別されたアプタマー配列の計数又は分析が、1つ以上の予測モデルによって予測される。ブロック455において、識別されたアプタマー配列並びに任意選択的に予測された分析データ及び/又は計数データは、1つ以上の標的と関連してデータ構造に記録される。
【0078】
ブロック460において、別のXNAアプタマーライブラリ(任意選択的にDNAライブラリ又はRNAライブラリ)が、識別されたアプタマー配列から合成される。別のXNAアプタマーライブラリ(任意選択的にDNA又はRNAライブラリ)内のアプタマーは、モノクローナル区画に分割され、モノクローナル区画は、組み合わされると、別の区画ベースの捕捉システムを確立する。各モノクローナル区画は、複数のアプタマーからの固有のアプタマーを含む。ブロック465において、別の区画ベースの捕捉システムは、1つ以上の標的を捕捉するために使用される。捕捉は、1つ以上のモノクローナル区画内の固有のアプタマー配列に結合する1つ以上の標的を含む。その後、ブロック425~440に関連して同様に説明されるように、固有のアプタマーに結合した1つ以上の標的を含む区画ベースの捕捉システムの1つ以上のモノクローナル区画は、固有のアプタマーに結合した1つ以上の標的を含まない別の区画ベースの捕捉システムのモノクローナル区画の残部から分離される。次いで、固有のアプタマーは、1つ以上のモノクローナル区画及び/又は1つ以上の標的のそれぞれから溶出され、酵素的又は化学的プロセスによって増幅され、配列決定される。
【0079】
ブロック470において、(ブロック440からの)選択配列データ、(ブロック465からの)選択配列データ、又はそれらの組み合わせの一部又は全部が、第2の機械学習アルゴリズム(例えば、回帰アルゴリズムなどの線形機械学習アルゴリズム)を訓練して第2の訓練された機械学習モデルを生成するために使用される。その後、アプタマー配列は、第2の訓練された機械学習モデルによって、所与の問題の最終解として識別される。識別は、(ブロック440からの)選択配列データからの配列のサブセット、(ブロック465からの)選択配列データからの配列のサブセット、選択配列データからの配列とは異なる配列のプールからの配列、又はそれらの組み合わせを第2の訓練された機械学習モデルに入力すること、第2の訓練された機械学習モデルによって、各入力配列の適合度スコア(適合度スコアは、所与の配列が所与の問題に関して解としてどの程度良好に機能するかの尺度である)を推定すること、及び各配列について推定された適合度スコアに基づいて所与の問題を満たすアプタマー配列を識別することを含み得る。いくつかの事例では、検索アルゴリズム(例えば、遺伝的アルゴリズム)又は最適化アルゴリズム(例えば、線形最適化)などの1つ以上の異なるタイプのアルゴリズムの適用を含む追加の技術が、第2の訓練された機械学習モデルと組み合わせて使用されて、導出されたアプタマーの配列の識別又は設計を改善する。例えば、第2の訓練された機械学習モデルによるアプタマー配列の識別は、本明細書に詳細に記載されるように、所与の問題を満たすアプタマー配列を識別又は設計するための最適化アルゴリズムを使用して最適化され得る。
【0080】
任意選択的に、ブロック475において、識別されたアプタマー配列の計数又は分析が、1つ以上の予測モデルによって予測される。ブロック480において、識別されたアプタマー配列並びに任意選択的に予測された分析データ及び/又は計数データは、1つ以上の標的と関連してデータ構造に記録される。
【0081】
ブロック485において、所与の問題の最終解として識別されたアプタマー配列を使用してアプタマーを合成し、次いでこれを、標的に結合して所与の問題を解決することができるアプタマーとして試験又は検証する。
【0082】
図5は、所定のパイプライン、機械学習モデリングシステム、及びアプタマー開発プラットフォーム(例えば、
図1~
図3に関して記載されるパイプライン100、機械学習モデリングシステム200、及びアプタマー開発プラットフォーム300)を使用してアプタマーを開発するための処理の例を例解する簡略化されたフローチャート500である。プロセス500は、ブロック505で始まり、ここで、標的に結合し得る潜在的治療候補に関するクエリが受信される。例えば、ユーザは、所与の標的に対して最高の結合親和性を有する100個のアプタマー、又は所与の標的の活性を阻害する最大の能力を有する100個のアプタマーの識別に関するクエリを提起し得る。ブロック510において、第1のXNAアプタマーライブラリは、
図4に描示されるフローチャート400に関して詳細に記載されるように、1つ以上の一本鎖DNA又はRNA(ssDNA又はssRNA)ライブラリから合成される。ブロック515において、
図4に描示されるフローチャート400に関して詳細に説明されるように、結合選択プロセス(例えば、SELEX)を使用して、クエリを潜在的に満たす初期アプタマーライブラリが取得される。初期アプタマーライブラリは、標的に結合するアプタマーを含む。ブロック520において、初期配列データは、標的に結合する初期アプタマーライブラリの各固有のアプタマーについて得られる。
図4に描示されるフローチャート400に関する詳細な説明のように、配列決定は、シーケンサを使用して、1つ以上のモノクローナル区画のそれぞれから固有のアプタマーの配列決定データ及び任意選択的に分析データを生成することを含む。初期配列データは、第1のシグナル対ノイズ比を有する。第1のシグナル対ノイズ比は、(i)ブロック515において固有のアプタマーの数を定量化し、ブロック515において各固有のアプタマーのコピーの数を定量化し、ブロック520において各固有のアプタマーについての配列決定データのシーケンシング深度(シーケンシング深度(リード深度としても知られる)は、アプタマー中の所与のヌクレオチドが実験において読み取られた回数を表す)を判定し、(ii)固有のアプタマーの数の定量化、各固有のアプタマーのコピーの定量化、及び各固有のアプタマーについての配列決定データのシーケンシング深度に基づいて第1のシグナル対ノイズ比を定量化することによって測定され得る。
【0083】
ブロック525において、非線形機械学習アルゴリズムは、初期配列データからの配列のサブセットを含む訓練データの第1のセット(例えば、ブロック520からの配列データの80%のみであり得る訓練分割)を使用して訓練される。訓練は、非線形機械学習アルゴリズムのための目的関数(例えば、回帰又は分類損失)を最大化又は最小化する非線形機械学習アルゴリズムのためのパラメータのセットを見つけるための反復演算を含む。各反復は、パラメータのセットを使用する損失関数の値が、前の反復におけるパラメータの別のセットを使用する損失関数の値よりも小さくなるように、アルゴリズムのパラメータのセットを求めることを含むことができる。目的関数は、非線形機械学習アルゴリズムを使用して予測された出力と、訓練データの第1のセットに含まれる任意選択的な標識との間の差を測定するように構築され得る。パラメータのセットが識別されると、非線形機械学習アルゴリズムは訓練されており、設計されたアプタマー配列の識別のための非線形機械学習モデルとして試験、検証、及び/又は利用することができる。特定の事例では、非線形機械学習モデルは、(i)初期配列データからの配列のサブセットを含む第1の訓練データのセット、及び(ii)第1の目的関数を使用して学習された10,000、30,000、50,000、又は75,000個以上のパラメータを含む。特定の事例では、非線形機械学習モデルは、ニューラルネットワーク又はニューラルネットワークのアンサンブルを含む。
【0084】
ブロック530において、第1のアプタマー配列のセットが、検索プロセスを使用して、所与の問題に対する初期解として生成される。第1のアプタマー配列のセットは、初期配列データから導出される。導出とは、初期配列データで訓練されたモデルが、完全に新しい(デノボ)配列を識別するか、又は初期配列データから配列を進化させるために使用されることを意味する。いくつかの事例では、検索プロセスは、(a)アプタマー配列の初期集団を取得することを含む。初期集団は、初期配列データからの配列のサブセット(例えば、配列データのわずか20%であり得る生産分割)、初期配列データからの配列とは異なる配列のプール(例えば、完全にランダムな配列のプール)からの配列、又はそれらの組み合わせである。検索プロセスは更に、(b)初期集団を非線形機械学習モデルに入力することと、(c)非線形機械学習モデルによって、初期集団の各アプタマー配列の適合度スコアを推定することであって、適合度スコアが、所与のアプタマー配列が所与の問題に関する解として、どの程度良好に機能するかの尺度である、適合度スコアを推定することと、(d)各アプタマー配列についての適合度スコアに基づいて、初期集団からアプタマー配列の対を選択することと、(e)子孫を生成するために、アプタマー配列の対の間でヌクレオチドを交換することによって、アプタマー配列の各対を交配させることと、(f)アプタマー配列の各対からの子孫を新しい集団に追加することと、(g)新しい集団の配列を作成するために、停止基準が満たされるまで、ステップ(b)~(f)を繰り返すことと、停止基準を満たすことに応答して、第1のアプタマー配列のセットとして、ステップ(f)からの最新の新しい集団を出力することと、を含む。
【0085】
いくつかの事例では、初期集団の各アプタマー配列の適合度スコアを推定することは、非線形機械学習モデルによって、初期集団の各アプタマー配列の適合度スコアに対する不確実性スコアを生成することと、を含む。不確実性スコアは、非線形機械学習モデルによる適合度スコアの推定における不確実性の定量化である。不確実性スコアは、(1)ステップ(c)において、適合度スコアを計算し、検索アルゴリズムが適合度ランドスケープを通してどのステップを取るかをガイドするために適合度関数とともに、及び/又は(2)ステップ(d)、(e)、及び/若しくは(f)において、ブロック535に進むためにアプタマーが選択されるフィルタとして、使用され得る。特定の事例では、初期集団からのアプタマー配列の対は、各アプタマー配列についての適合度スコア及び不確実性スコアに基づいて選択される。ステップ(f)は、各アプタマー配列についての適合度スコアに基づいて、新たな集団に交配された配列のいくつかを追加することを更に含み得る。ステップ(e)は、交配された子孫又は配列のうちの1つ以上を変異させることを、更に含み得る。変異は、交配された子孫又は配列中のヌクレオチドのうちの1つ以上をランダムに変化させることを含む。いくつかの事例では、遺伝的アルゴリズムは、初期配列データから離れた限られた数の編集に対してクロスオーバーポイント及び/又は突然変異を制御するように制約される。ステップ(g)における停止基準は、(i)世代数が最大世代数に達する、(ii)実行時間が最大時間量に達した後、(iii)現在の集団における最良点に対する適合度関数の値が適合度限界以下であるとき、(iv)最大世代数にわたる適合度関数値の平均相対変化が関数許容範囲未満であるとき、(v)所与の期間に対して目的関数に改善がない、(vi)最大世代数にわたる適合度関数値の平均相対変化が関数許容範囲未満である、又はそれらの任意の組み合わせであり得る。
【0086】
ブロック535において、第2のXNAアプタマーライブラリは、
図4に描示されるフローチャート400に関して詳細に記載されるように、第1のアプタマー配列のセットから合成される。ブロック540において、
図4に描示されるフローチャート400に関して詳細に説明されるように、結合選択プロセス(例えば、SELEX)を使用して、クエリを潜在的に満たす後続のアプタマーライブラリが取得される。後続のアプタマーライブラリは、標的に結合するアプタマーを含む。ブロック545において、後続の配列データは、標的に結合する後続のアプタマーライブラリの各固有のアプタマーについて取得される。
図4に描示されるフローチャート400に関する詳細な説明のように、配列決定は、シーケンサを使用して、1つ以上のモノクローナル区画のそれぞれから固有のアプタマーの配列決定データ及び任意選択的に分析データを生成することを含む。後続の配列データは、第2のシグナル対ノイズ比を有する。特定の事例では、第2のシグナル対ノイズ比は、第1のシグナル対ノイズ比よりも大きい。第2のシグナル対ノイズ比は、(i)ブロック540において固有のアプタマーの数を定量化し、ブロック540において各固有のアプタマーのコピーの数を定量化し、ブロック545において各固有のアプタマーについての配列決定データのシーケンシング深度(シーケンシング深度(リード深度としても知られる)は、アプタマー中の所与のヌクレオチドが実験において読み取られた回数を表す)を判定し、(ii)固有のアプタマーの数の定量化、各固有のアプタマーのコピーの定量化、及び各固有のアプタマーについての配列決定データのシーケンシング深度に基づいて第2のシグナル対ノイズ比を定量化することによって測定され得る。
【0087】
ブロック550において、線形機械学習アルゴリズムは、後続の配列データからの配列のサブセットを含む第2の訓練データのセットを使用して訓練される。訓練は、線形機械学習アルゴリズムのための目的関数(例えば、回帰又は分類損失)を最大化又は最小化する線形機械学習アルゴリズムのためのパラメータのセットを見つけるための反復演算を含む。各反復は、パラメータのセットを使用する損失関数の値が、前の反復におけるパラメータの別のセットを使用する損失関数の値よりも小さくなるように、アルゴリズムのパラメータのセットを求めることを含むことができる。目的関数は、線形機械学習アルゴリズムを使用して予測された出力と、第2の訓練データのセットに含まれる任意選択的な標識との間の差を測定するように構築することができる。パラメータのセットが識別されると、線形機械学習アルゴリズムが訓練され、設計されたアプタマー配列の識別のための非線形機械学習モデルとして試験、検証、及び/又は利用することができる。特定の事例では、線形機械学習モデルは、(i)後続の配列データからの配列のサブセットを含む第2の訓練データのセット、及び(ii)第2の目的関数を使用して学習された10,000、30,000、50,000、又は75,000未満のパラメータを含む。
【0088】
ブロック555において、第2のアプタマー配列のセットが、線形機械学習モデルによって、所与の問題の最終解として生成される。第2のアプタマー配列のセットは、後続の配列データから導出される。導出とは、後続の配列データで訓練されたモデルが、完全に新しい(デノボ)配列を識別するか、又は後続の配列データから配列を進化させるために使用されることを意味する。いくつかの事例では、線形機械学習モデルによって、第2のアプタマー配列のセットを生成することが、後続の配列データを使用して、独立変数と従属変数との間の関係を定量化するために線形回帰分析を実行することと、独立変数と従属変数との間の関係に基づいて、従属値の値に対する各独立値の寄与を判定することと、従属値の値に対する各独立値の寄与に基づいて、第2のアプタマー配列のセットを識別すること(例えば、適合度スコアを予測し、所与の適合度閾値を満たすアプタマー配列を識別すること)と、第2のアプタマー配列のセットを出力することと、を含む。第2の目的関数は、損失関数の線形等式及び/又は不等式制約下で、線形プログラミングによって最適化され得る。追加的又は代替的に、正則化回帰は、少なくとも1つの係数を0に制約することによって、第2の目的関数に適用され得る。
【0089】
ブロック560において、第2のアプタマー配列のセットが出力される。例えば、第2のアプタマー配列のセットは、局所的に提示(例えば、表示)され得るか、又は別のデバイスに送信され得る。第2のアプタマー配列のセットは、標的の識別子とともに出力され得る。いくつかの事例では、第2のアプタマー配列のセットは、エンドユーザ又は記憶媒体デバイスに出力される。いくつかの事例では、第2のアプタマー配列のセットは、クエリに対する結果としてエンドユーザ又は記憶媒体デバイスに出力される。任意選択的なブロック565において、最終のアプタマーのセットは、第2のアプタマー配列のセットを使用して合成され、最終のアプタマーのセットからの1つ以上のアプタマーは、標的に結合することができ、所与の問題を解決することができるものとして検証される。(例えば、所定の結合親和性で結合する。検証は、結合選択アッセイ(例えば、ファージディスプレイ)などのハイスループット親和性アッセイ又はBLIなどのロースループット親和性アッセイを使用して実行され得る。いくつかの事例では、所定の結合親和性は、Kd、Ki、又はIC50≦250nM(ΔGbind≦-9kcal/mol)として定義される高い結合親和性であり、これは、アプタマーと標的との間のより強い分子間力の結果であり、結合部位におけるより長い滞留時間をもたらす(より高い「オン」速度、より低い「オフ」速度)。任意選択的なブロック570において、1つ以上のアプタマーを検証すると、クエリに応答して、1つ以上のアプタマーについてのアプタマー配列が、クエリに対する結果として提供され得る。任意選択的なブロック575において、生物製剤は、標的に結合し、所与の問題を解決することができるとして検証された1つ以上のアプタマーを使用して合成される。生物製剤は、新規薬物、治療ツール、薬物送達デバイス、疾患の診断、バイオイメージング、分析試薬、ハザード検出、食品検査などとして使用され得る。任意選択的なブロック580において、生物製剤を用いて対象に治療が施与される。
【0090】
図6は、動的パイプライン、機械学習モデリングシステム、及びアプタマー開発プラットフォーム(例えば、
図1~
図3に関して記載されるパイプライン100、機械学習モデリングシステム200、及びアプタマー開発プラットフォーム300)を使用してアプタマーを開発するための処理の例を例解する簡略化されたフローチャート600である。プロセス600はブロック605で始まり、ここで、初期配列データが、標的に結合する初期アプタマーライブラリの各固有のアプタマーについて取得される。初期配列データは、
図4に描示されるフローチャート400に関して詳細に記載されるように、1つ以上のモノクローナル区画の各々からの固有のアプタマーについての配列決定データ及び任意選択的に分析データを生成するために、シーケンサを使用して取得され得る。初期配列データは、
図5に描示されるフローチャート500に関して説明されるように、クエリを受信することに応答して取得され得る。いくつかの事例では、初期アプタマーライブラリは、結合選択プロセスを使用して、1つ以上の一本鎖DNA又はRNAライブラリから合成された第1のXNAアプタマーライブラリから判定される。ブロック610において、第1のシグナル対ノイズ比が初期配列データ内で測定される。第1のシグナル対ノイズ比は、(i)固有のアプタマーの数を定量化し、各固有のアプタマーのコピーの数を定量化し、各固有のアプタマーについての配列決定データのシーケンシング深度(シーケンシング深度(リード深度としても知られる)は、アプタマー中の所与のヌクレオチドが実験において読み取られた回数を表す)を判定し、(ii)固有のアプタマーの数の定量化、各固有のアプタマーのコピーの定量化、及び各固有のアプタマーについての配列決定データのシーケンシング深度に基づいて第1のシグナル対ノイズ比を定量化することによって測定され得る。
【0091】
ブロック615において、第1の機械学習システムは、初期配列データから導出される第1のアプタマー配列のセットを生成するために、第1のシグナル対ノイズ比に基づいてプロビジョニングされる。プロビジョニングすることは、1つ以上のアルゴリズム又はモデルを選択又は修正すること、既存のアルゴリズム又はモデルの1つ以上のモデルパラメータを修正すること、既存のアルゴリズム又はモデルの1つ以上のハイパーパラメータを修正すること、初期配列データを追加データで増強すること、1つ以上のアルゴリズム又は既存のアルゴリズムに対して訓練、試験、又は検証アプローチを選択又は修正すること、1つ以上のアルゴリズム又は既存のアルゴリズムの目的関数又は損失関数を修正すること、あるいはそれらの任意の組み合わせを含む。いくつかの事例では、第1の機械学習システムのためにプロビジョニングされる1つ以上のアルゴリズム又はモデルは、第1の機械学習モデル(例えば、ニューラルネットワークモデル)及び検索アルゴリズムを含む。第1の機械学習モデルは、
図5に描示されるフローチャート500に関して記載されるように、(i)初期配列データからの配列のサブセットを含む第1の訓練データのセットと、(ii)第1の目的関数を使用して学習されたモデルパラメータと、を含み得る。そのような事例では、プロビジョニングは、第1の機械学習アルゴリズム又はモデル及び検索アルゴリズムを選択又は修正すること、第1の機械学習アルゴリズム又はモデルのモデルパラメータを修正すること、第1の機械学習アルゴリズム又はモデルの1つ以上のハイパーパラメータを修正すること、追加データで初期配列データを増補して第1の訓練データセットを生成すること、第1の機械学習アルゴリズムのための訓練、試験、又は検証アプローチを選択又は修正すること、第1の機械学習アルゴリズムの目的関数又は損失関数を修正すること、又はそれらの任意の組み合わせを含む。
【0092】
ブロック620において、第1のアプタマー配列のセットが、第1の機械学習システムを使用して、所与の問題に対する初期解として生成される。第1のアプタマー配列のセットは、初期配列データから導出される。いくつかの事例では、第1のアプタマー配列のセットを生成することは、アプタマー配列の初期集団を第1の機械学習システムに入力することと、第1の機械学習システムを適用することによって、第1のアプタマー配列のセットを識別することと、第1の機械学習システムによって、第1のアプタマー配列のセットを出力することと、を含む。いくつかの事例では、初期集団は、初期配列データからの配列、初期配列データからの配列とは異なる配列のプールからの配列、又はそれらの組み合わせのサブセットである。いくつかの事例では、第1の機械学習システムは、検索アルゴリズムにおける適合度関数として第1の機械学習モデルを使用することによって適用される。識別することは、第1の機械学習モデルによって、各入力配列についての適合度スコアを予測すること、及び検索アルゴリズムによって、各入力配列について予測された適合度スコアに基づいて入力配列を第1のアプタマー配列のセットに進化させることを含み得る。
【0093】
いくつかの事例では、第1のアプタマー配列のセットを生成することは、(a)アプタマー配列の初期集団を得ることを含む。初期集団は、初期配列データからの配列のサブセット(例えば、配列データのわずか20%であり得る生産分割)、初期配列データからの配列とは異なる配列のプール(例えば、完全にランダムな配列のプール)からの配列、又はそれらの組み合わせである。生成することは、更に、(b)初期集団を第1の機械学習モデルに入力することと、(c)第1の機械学習モデルによって、初期集団の各アプタマー配列の適合度スコアを推定することであって、適合度スコアが、所与のアプタマー配列が所与の問題に関する解として、どの程度良好に機能するかの尺度である、適合度スコアを推定することと、(d)各アプタマー配列についての適合度スコアに基づいて、初期集団からアプタマー配列の対を選択することと、(e)子孫を生成するために、アプタマー配列の対の間でヌクレオチドを交換することによって、アプタマー配列の各対を交配させることと、(f)アプタマー配列の各対からの子孫を新しい集団に追加することと、(g)新しい集団の配列を作成するために、停止基準が満たされるまで、ステップ(b)~(f)を繰り返すことと、停止基準を満たすことに応答して、第1のアプタマー配列のセットとして、ステップ(f)からの最新の新しい集団を出力することと、を含む。
【0094】
ブロック625において、標的に結合する後続のアプタマーライブラリの各固有のアプタマーについて、後続の配列データが得られる。後続のアプタマーライブラリは、第1のアプタマー配列のセットから合成されたアプタマーを含む。後続の配列データは、
図4に描示されるフローチャート400に関して詳細に記載されるように、1つ以上のモノクローナル区画の各々からの固有のアプタマーについての配列決定データ及び任意選択的に分析データを生成するために、シーケンサを使用して取得され得る。いくつかの事例では、後続のアプタマーライブラリは、第1のアプタマー配列のセットから合成された第2のXNAアプタマーライブラリから、結合選択プロセスを使用して判定される。ブロック630において、第2のシグナル対ノイズ比が後続の配列データ内で測定される。第2のシグナル対ノイズ比は、(i)固有のアプタマーの数を定量化し、各固有のアプタマーのコピーの数を定量化し、各固有のアプタマーについての配列決定データのシーケンシング深度(シーケンシング深度(リード深度としても知られる)は、アプタマー中の所与のヌクレオチドが実験において読み取られた回数を表す)を判定し、(ii)固有のアプタマーの数の定量化、各固有のアプタマーのコピーの定量化、及び各固有のアプタマーについての配列決定データのシーケンシング深度に基づいて第2のシグナル対ノイズ比を定量化することによって測定され得る。
【0095】
ブロック635において、第2の機械学習システムは、後続の配列データから導出される第2のアプタマー配列のセットを生成するために、第2のシグナル対ノイズ比に基づいてプロビジョニングされる。プロビジョニングすることは、1つ以上のアルゴリズム又はモデルを選択又は修正すること、既存のアルゴリズム又はモデルの1つ以上のモデルパラメータを修正すること、既存のアルゴリズム又はモデルの1つ以上のハイパーパラメータを修正すること、初期配列データを追加データで増強すること、1つ以上のアルゴリズム又は既存のアルゴリズムに対して訓練、試験、又は検証アプローチを選択又は修正すること、1つ以上のアルゴリズム又は既存のアルゴリズムの目的関数又は損失関数を修正すること、あるいはそれらの任意の組み合わせを含む。いくつかの事例では、第2の機械学習システムのためにプロビジョニングされる1つ以上のアルゴリズム又はモデルは、第2の機械学習モデル(例えば、回帰モデル)を含む。第2の機械学習モデルは、
図5に描示されるフローチャート500に関して記載されるように、(i)後続の配列データからの配列のサブセットを含む訓練データの第2のセットと、(ii)第2の目的関数を使用して学習されたモデルパラメータと、を含み得る。そのような事例では、プロビジョニングすることは、第2の機械学習アルゴリズム又はモデルを選択又は修正すること、第2の機械学習アルゴリズム又はモデルのモデルパラメータを修正すること、第2の機械学習アルゴリズム又はモデルの1つ以上のハイパーパラメータを修正すること、後続の配列データを追加データで補強して第2の訓練データのセットを生成すること、第2の機械学習アルゴリズムのための訓練、試験、又は検証アプローチを選択又は修正すること、第2の機械学習アルゴリズムの目的関数又は損失関数を修正すること、あるいはそれらの任意の組み合わせを含む。
【0096】
ブロック640において、第2のアプタマー配列のセットが、第2の機械学習システムを使用して、所与の問題に対する最終解として生成される。第2のアプタマー配列のセットは、後続の配列データから導出される。いくつかの事例では、第2の機械学習モデルによって、第2のアプタマー配列のセットを生成することは、第2の機械学習モデルによって、独立変数と従属変数との間の関係を定量化するために、後続の配列データを使用して、回帰分析を実行すること、を含む。第2の機械学習モデルによって、独立変数と従属変数との間の関係に基づいて、従属値の値に対する各独立値の寄与を判定することと、第2の機械学習モデルによって、従属値の値に対する各独立値の寄与に基づいて、第2のアプタマー配列のセットを識別することと、第2の機械学習モデルによって、第2のアプタマー配列のセットを出力することと、を含む。第2の目的関数は、損失関数の線形等式及び/又は不等式制約下で、線形プログラミングによって最適化され得る。追加的又は代替的に、正則化回帰は、少なくとも1つの係数を0に制約することによって、第2の目的関数に適用され得る。追加的に、又は代替的に、第2の機械学習システムは、検索アルゴリズムを更に含み、第2の機械学習モデル及び検索アルゴリズムは、第1の機械学習システムに関して記載されたように、第2のアプタマー配列のセットを出力するために併せて使用される。
【0097】
ブロック645において、第2のアプタマー配列のセットが出力される。例えば、第2のアプタマー配列のセットは、局所的に提示(例えば、表示)され得るか、又は別のデバイスに送信され得る。第2のアプタマー配列のセットは、標的の識別子とともに出力され得る。いくつかの事例では、第2のアプタマー配列のセットは、エンドユーザ又は記憶媒体デバイスに出力される。いくつかの事例では、第2のアプタマー配列のセットは、クエリに対する結果としてエンドユーザ又は記憶媒体デバイスに出力される。任意選択的なブロック650において、最終のアプタマーのセットは、第2のアプタマー配列のセットを使用して合成され、最終のアプタマーのセットからの1つ以上のアプタマーは、標的に結合することができ、所与の問題を解決することができるものとして検証される(例えば、所定の結合親和性で結合する)。検証は、結合選択アッセイ(例えば、SELEX)などのハイスループット親和性アッセイ又はBLIなどのロースループット親和性アッセイを使用して実行することができる。いくつかの事例では、所定の結合親和性は、Kd、Ki、又はIC50≦250nM(ΔGbind≦-9kcal/mol)として定義される高い結合親和性であり、これは、アプタマーと標的との間のより強い分子間力の結果であり、結合部位におけるより長い滞留時間をもたらす(より高い「オン」速度、より低い「オフ」速度)。任意選択的なブロック655において、1つ以上のアプタマーを検証すると、クエリに応答して、1つ以上のアプタマーについてのアプタマー配列が、クエリに対する結果として提供され得る。任意選択的なブロック660において、生物製剤は、標的に結合し、所与の問題を解決することができるとして検証された1つ以上のアプタマーを使用して合成される。生物製剤は、新規薬物、治療ツール、薬物送達デバイス、疾患の診断、バイオイメージング、分析試薬、ハザード検出、食品検査などとして使用され得る。任意選択的なブロック665において、生物製剤を用いて対象に治療が施与される。
【0098】
図7は、本開示による、システムとの使用に好適な例示的なコンピューティングデバイス700、並びにアプタマー及び生物製剤を開発するか、又はクエリに対する結果を提供するための方法を例解する。例示的なコンピューティングデバイス700は、1つ以上の通信バス715を使用して、メモリ710及びコンピューティングデバイス700の他の構成要素と通信するプロセッサ505を含む。プロセッサ705は、メモリ710に記憶されたプロセッサ実行可能命令を実行して、
図4、
図5、又は
図6に関して上記に説明された例示的な方法400、500、又は600の一部又は全部などの異なる例による、アプタマー若しくは生物製剤を開発するか、又はクエリに対する結果を提供するための1つ以上の方法を実施するように構成されている。この例では、メモリ710は、
図1~
図6に関して上で考察されるように、機械学習アルゴリズム又はモデル720及びアプタマー識別725のプロビジョニングを提供するプロセッサ実行可能命令を記憶する(例えば、プラットフォーム300のコントローラ/コンピュータ)。
【0099】
この例では、コンピューティングデバイス700はまた、ユーザ入力を受け入れるために、キーボード、マウス、タッチスクリーン、マイクロフォンなどの、1つ以上のユーザ入力デバイス730も含む。コンピューティングデバイス700はまた、ユーザインターフェース又はアプタマー配列のディスプレイなどのユーザに視覚的出力を提供するためのディスプレイ735を含む。コンピューティングデバイス700はまた、通信インターフェース740を含む。いくつかの例では、通信インターフェース740は、ローカルエリアネットワーク(local area network、「LAN」)、インターネットなどの広域ネットワーク(wide area network、「WAN」)、メトロポリタンエリアネットワーク(metropolitan area network、「MAN」)、ポイントツーポイント又はピアツーピア接続などを含む、1つ以上のネットワークを使用する通信を可能にし得る。他のデバイスとの通信は、任意の好適なネットワークプロトコルを使用して達成され得る。例えば、1つの好適なネットワークプロトコルは、インターネットプロトコル(Internet Protocol、「IP」)、伝送制御プロトコル(Transmission Control Protocol、「TCP」)、ユーザデータグラムプロトコル(User Datagram Protocol、「UDP」)、又はTCP/IP若しくはUDP/IPなどの、それらの組み合わせを含み得る。
【0100】
V.追加の考慮事項
具体的な詳細は、実施形態の完全な理解を提供するために、上記の説明に与えられている。しかしながら、これらの具体的な詳細なしで実施形態が実施され得ることが理解される。例えば、回路は、不必要な詳細で実施形態を不明瞭化しないために、ブロック図で示され得る。他の事例では、周知の回路、プロセス、アルゴリズム、構造、及び技術は、実施形態を不明瞭化することを回避するために、不必要な詳細なしで示され得る。
【0101】
上記に説明された技術、ブロック、ステップ、及び手段の実装は、様々な方式で行われ得る。例えば、これらの技術、ブロック、ステップ、及び手段は、ハードウェア、ソフトウェア、又はそれらの組み合わせで実装され得る。ハードウェア実装の場合、処理ユニットは、1つ以上の特定用途向け集積回路(application specific integrated circuit、ASIC)、デジタル信号プロセッサ(digital signal processor、DSP)、デジタル信号処理デバイス(digital signal processing device、DSPD)、プログラマブル論理デバイス(programmable logic device、PLD)、フィールドプログラマブルゲートアレイ(field programmable gate array、FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、上記に説明された機能を実施するように設計された他の電子ユニット、及び/又はそれらの組み合わせの中に実装され得る。
【0102】
また、実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として描示されるプロセスとして説明され得ることに留意されたい。フローチャートは、順次プロセスとして動作を説明し得るが、動作の多くは、並列又は同時に実施され得る。加えて、動作の順番は、再配置され得る。プロセスは、その動作が完了したときに終了するが、図に含まれていない追加のステップを有し得る。プロセスは、方法、機能、手順、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応するとき、その終了は、呼び出し関数又はメイン関数への関数のリターンに対応する。
【0103】
更に、実施形態は、ハードウェア、ソフトウェア、スクリプト言語、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、及び/又はそれらの任意の組み合わせによって実装され得る。ソフトウェア、ファームウェア、ミドルウェア、スクリプト言語、及び/又はマイクロコードに実装されるとき、必要なタスクを実施するためのプログラムコード又はコードセグメントは、記憶媒体などの機械可読媒体に記憶され得る。コードセグメント又は機械実行可能命令は、手順、機能、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、スクリプト、クラス、又は命令、データ構造、及び/若しくはプログラムステートメントの任意の組み合わせを表し得る。コードセグメントは、情報、データ、引数、パラメータ、及び/又はメモリ内容を渡す及び/又は受信することによって、別のコードセグメント又はハードウェア回路に結合され得る。情報、引数、パラメータ、データなどは、メモリ共有、メッセージ通過、チケット通過、ネットワーク伝送などを含む任意の好適な手段を介して渡されるか、転送されるか、又は送信され得る。
【0104】
ファームウェア及び/又はソフトウェア実装では、方法論は、本明細書に説明される機能を実施するモジュール(例えば、手順、機能など)を用いて実装され得る。命令を有形で具現化する任意の機械可読媒体が、本明細書に説明される方法論を実装する際に使用され得る。例えば、ソフトウェアコードは、メモリ内に記憶され得る。メモリは、プロセッサ内又はプロセッサの外部に実装され得る。本明細書で使用される場合、「メモリ」という用語は、任意のタイプの長期、短期、揮発性、不揮発性、又は他の記憶媒体を指し、任意の特定のタイプのメモリ若しくはメモリの数、又はメモリが記憶される媒体のタイプに限定されるものではない。
【0105】
更に、本明細書に開示されるように、「記憶媒体」、「記憶」、又は「メモリ」という用語は、読み出し専用メモリ(read only memory、ROM)、ランダムアクセスメモリ(random access memory、RAM)、磁気RAM、コアメモリ、磁気ディスク記憶媒体、光学記憶媒体、フラッシュメモリデバイス、及び/又は情報を記憶するための他の機械可読媒体を含む、データを記憶するための1つ以上のメモリを表し得る。「機械可読媒体」という用語は、限定されるものではないが、ポータブル若しくは固定記憶デバイス、光学記憶デバイス、無線チャネル、並びに/又は命令及び/若しくはデータを含有若しくは担持する、記憶することができる様々な他の記憶媒体を含む。
【0106】
本開示の原理は、特定の装置及び方法と関連して上記に説明されてきたが、この説明は、単に例としてなされ、本開示の範囲に対する限定ではないことを明確に理解されたい。
【国際調査報告】