IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラッグシップ・パイオニアリング・イノベーションズ・ブイアイ,エルエルシーの特許一覧

<>
  • 特許-最適化のためのコンフォーマル推論 図1A
  • 特許-最適化のためのコンフォーマル推論 図1B
  • 特許-最適化のためのコンフォーマル推論 図1C
  • 特許-最適化のためのコンフォーマル推論 図1D
  • 特許-最適化のためのコンフォーマル推論 図1E
  • 特許-最適化のためのコンフォーマル推論 図1F
  • 特許-最適化のためのコンフォーマル推論 図1G
  • 特許-最適化のためのコンフォーマル推論 図1H
  • 特許-最適化のためのコンフォーマル推論 図1I
  • 特許-最適化のためのコンフォーマル推論 図2
  • 特許-最適化のためのコンフォーマル推論 図3
  • 特許-最適化のためのコンフォーマル推論 図4
  • 特許-最適化のためのコンフォーマル推論 図5
  • 特許-最適化のためのコンフォーマル推論 図6
  • 特許-最適化のためのコンフォーマル推論 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-06-17
(45)【発行日】2025-06-25
(54)【発明の名称】最適化のためのコンフォーマル推論
(51)【国際特許分類】
   G16B 40/20 20190101AFI20250618BHJP
   G16B 30/00 20190101ALI20250618BHJP
【FI】
G16B40/20
G16B30/00
【請求項の数】 23
(21)【出願番号】P 2022546359
(86)(22)【出願日】2021-01-29
(65)【公表番号】
(43)【公表日】2023-03-23
(86)【国際出願番号】 US2021015848
(87)【国際公開番号】W WO2021155245
(87)【国際公開日】2021-08-05
【審査請求日】2024-01-17
(31)【優先権主張番号】62/967,941
(32)【優先日】2020-01-30
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】521353768
【氏名又は名称】フラッグシップ・パイオニアリング・イノベーションズ・ブイアイ,エルエルシー
【氏名又は名称原語表記】FLAGSHIP PIONEERING INNOVATIONS VI,LLC
(74)【代理人】
【識別番号】100087941
【弁理士】
【氏名又は名称】杉本 修司
(74)【代理人】
【識別番号】100112829
【弁理士】
【氏名又は名称】堤 健郎
(74)【代理人】
【識別番号】100142608
【弁理士】
【氏名又は名称】小林 由佳
(74)【代理人】
【識別番号】100155963
【弁理士】
【氏名又は名称】金子 大輔
(74)【代理人】
【識別番号】100154771
【弁理士】
【氏名又は名称】中田 健一
(74)【代理人】
【識別番号】100150566
【弁理士】
【氏名又は名称】谷口 洋樹
(74)【代理人】
【識別番号】100213470
【弁理士】
【氏名又は名称】中尾 真二
(74)【代理人】
【識別番号】100220489
【弁理士】
【氏名又は名称】笹沼 崇
(74)【代理人】
【識別番号】100187469
【弁理士】
【氏名又は名称】橋詰 由子
(74)【代理人】
【識別番号】100225026
【弁理士】
【氏名又は名称】古後 亜紀
(72)【発明者】
【氏名】ギブソン・モリー・クリサン
(72)【発明者】
【氏名】ヤン・ケビン・カイチュアン
(72)【発明者】
【氏名】バラノフ・マキシム
(72)【発明者】
【氏名】ビーム・アンドリュー・レーン
【審査官】塩田 徳彦
(56)【参考文献】
【文献】Isidro Cortes-Ciriano, Andreas Bender,Deep Confidence: A Computationally Efficient Framework for Calculating Reliable Errors for Deep Neural Networks,[online],2018年09月18日,DOI:https://doi.org/10.1021/acs.jcim.8b00542,[検索日 2024.09.12],取得先<URL:https://arxiv.org/abs/1809.09060>
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
(57)【特許請求の範囲】
【請求項1】
生体高分子配列の設計を最適化するコンピュータ実施方法であって、
複数の観測生体高分子配列及び各観測生体高分子配列に対応するラベル付き生体高分子配列を使用して機械学習モデルをトレーニングすることと、
複数の生体高分子配列候補を決定して、前記機械学習モデルに基づいて前記ラベル付き生体高分子配列の最高予測値を有するものを観測することと、
各生体高分子配列候補について、前記生体高分子配列候補が前記ラベル付き生体高分子配列の前記最高予測値を有する尤度を表すコンフォーマル推論区間を特定することと、
前記コンフォーマル推論区間と前記ラベル付き生体高分子配列の前記最高予測値との最適化された線形結合を有する少なくとも1つの生体高分子配列候補を選択することと、
を含む、コンピュータ実施方法。
【請求項2】
前記コンフォーマル推論区間は、中心値及び区間範囲を含む、請求項1に記載のコンピュータ実施方法。
【請求項3】
前記中心値は平均値である、請求項2に記載のコンピュータ実施方法。
【請求項4】
前記機械学習モデルは、前記観測生体高分子配列及びそれらのラベルを使用して微調整されたニューラルネットワークである、請求項1に記載のコンピュータ実施方法。
【請求項5】
前記コンフォーマル推論区間を特定することは、観測生体高分子配列の第2のセットに基づく、請求項4に記載のコンピュータ実施方法。
【請求項6】
前記コンフォーマル推論区間を特定することは、
前記観測生体高分子配列の第2のセット及び前記生体高分子配列の第2のセットの各々に対応する、対応するラベル付き生体高分子配列について、前記機械学習モデルの各出力に基づいて残差区間を計算することと、
前記機械学習モデルの各出力について、メトリック空間内の前記観測生体高分子配列の複数の最近傍配列への平均距離を計算することと、
前記平均距離と定数との和に対する前記残差の比率に基づいてコンフォーマルスコアを計算することと、
を更に含む、請求項5に記載のコンピュータ実施方法。
【請求項7】
前記少なくとも1つの生体高分子配列候補を選択することは、
メトリック空間中の複数の最近傍配列への前記メトリック空間中の平均距離を計算することと、
前記少なくとも1つの生体高分子配列候補及び前記平均距離に基づいて信頼区間を生成することと、
前記生成された信頼区間に基づいて前記少なくとも1つの生体高分子配列候補を選択することと、
を含む、請求項5に記載のコンピュータ実施方法。
【請求項8】
前記特定されたコンフォーマル推論区間は少なくとも50%且つ多くとも99%である、請求項1に記載のコンピュータ実施方法。
【請求項9】
前記少なくとも1つの選択された生体高分子配列候補は、アミノ酸配列、核酸配列、及び炭水化物配列の少なくとも1つを含む、請求項1に記載のコンピュータ実施方法。
【請求項10】
前記核酸配列はデオキシリボ核酸(DNA)配列又はリボ核酸(RNA)配列である、請求項9に記載のコンピュータ実施方法。
【請求項11】
前記最高予測値は、前記生体高分子配列の機能値であり、前記機能は、生体高分子配列の結合親和性、結合特異性、触媒活性、酵素活性、蛍光性、可溶性、熱安定性、構造、免疫原性、及び機能性質の1つ又は複数である、請求項1に記載のコンピュータ実施方法。
【請求項12】
前記少なくとも1つの生体高分子配列候補を選択することは、前記特定されたコンフォーマル推論区間を分解しないベイズ最適化と比較して増大した性能を有する、請求項1に記載のコンピュータ実施方法。
【請求項13】
生体高分子配列の設計を最適化するコンピュータ実施方法であって、
複数の観測配列から初期サンプルのラベル付き生体高分子配列を近似するようにモデルをトレーニングすることと、
前記トレーニングされたモデルによって生成されたラベル付き生体高分子配列及び各観測配列のコンフォーマル区間を有する、前記複数の観測配列の特定のバッチについて、前記複数の観測配列から、前記トレーニングされたモデルによって生成された前記ラベル付き高分子配列と前記コンフォーマル区間との組合せを最適化する少なくとも1つの配列を選ぶことと、
残りの配列の前記コンフォーマル区間を再計算することと、
を含む、コンピュータ実施方法。
【請求項14】
複数のバッチの各々について、前記少なくとも1つの配列を選ぶこと及び前記コンフォーマル区間を再計算することを繰り返すことを更に含む、請求項13に記載のコンピュータ実施方法。
【請求項15】
並列に実行するバッチ実験の最適数を識別することを更に含む、請求項13に記載のコンピュータ実施方法。
【請求項16】
前記識別することは、ウェットラボリソースの最適化に基づく、請求項15に記載のコンピュータ実施方法。
【請求項17】
データの分布に基づいて設計を最適化するコンピュータ実施方法であって、
複数の観測データ及び各観測データに対応するラベル付きデータを使用して機械学習モデルをトレーニングすることと、
複数のデータ候補を決定して、前記機械学習モデルに基づいて前記ラベル付きデータの最高予測値を有するものを観測することと、
各データ候補について、前記データ候補が前記ラベル付きデータの前記最高予測値を有する尤度を表すコンフォーマル推論区間を特定することと、
前記コンフォーマル推論区間と前記ラベル付きデータの前記最高予測値との最適化された線形結合を有する少なくとも1つのデータ候補を選択することであって、前記少なくとも1つの選択されたデータ候補が、少なくとも1つの選択された生体高分子配列候補に対応する、選択することと、
を含む、コンピュータ実施方法。
【請求項18】
前記少なくとも1つの選択された生体高分子配列候補を合成する手段に前記少なくとも1つの選択された生体高分子配列候補を提供することを更に含む、請求項1~17の何れか1項に記載のコンピュータ実施方法。
【請求項19】
前記少なくとも1つの選択された生体高分子配列候補は合成される、請求項18に記載のコンピュータ実施方法。
【請求項20】
前記少なくとも1つの選択された生体高分子配列候補を合成することを更に含む、請求項1~19の何れか1項に記載のコンピュータ実施方法。
【請求項21】
定性的化学アッセイ又は定量的化学アッセイにおいて前記少なくとも1つの選択された生体高分子配列候補をアッセイすることを更に含む、請求項18又は20に記載のコンピュータ実施方法。
【請求項22】
生体高分子配列の設計を最適化する命令を記憶した非一時的コンピュータ可読媒体であって、前記命令は、プロセッサによって実行されると、前記プロセッサに、
複数の観測生体高分子配列及び各観測生体高分子配列に対応するラベル付き生体高分子配列を使用して機械学習モデルをトレーニングすることと、
複数の生体高分子配列候補を決定して、前記機械学習モデルに基づいて前記ラベル付き生体高分子配列の最高予測値を有するものを観測することと、
各生体高分子配列候補について、前記生体高分子配列候補が前記ラベル付き生体高分子配列の前記最高予測値を有する尤度を表すコンフォーマル推論区間を特定することと、
前記コンフォーマル推論区間と前記ラベル付き生体高分子配列の前記最高予測値との最適化された線形結合を有する少なくとも1つの生体高分子配列候補を選択することと、
を行わせる、非一時的コンピュータ可読媒体。
【請求項23】
生体高分子配列の設計を最適化するシステムであって、
プロセッサと、
コンピュータコード命令を記憶したメモリと、
を備え、前記プロセッサ及び前記メモリは、前記コンピュータコード命令を用いて、前記システムに、
複数の観測生体高分子配列及び各観測生体高分子配列に対応するラベル付き生体高分子配列を使用して機械学習モデルをトレーニングすることと、
複数の生体高分子配列候補を決定して、前記機械学習モデルに基づいて前記ラベル付き生体高分子配列の最高予測値を有するものを観測することと、
各生体高分子配列候補について、前記生体高分子配列候補が前記ラベル付き生体高分子配列の前記最高予測値を有する尤度を表すコンフォーマル推論区間を特定することと、
前記コンフォーマル推論区間と前記ラベル付き生体高分子配列の前記最高予測値との最適化された線形結合を有する少なくとも1つの生体高分子配列候補を選択することと、
を行わせるように構成される、システム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願
本願は、2020年1月30日付けで出願された米国特許出願第62/967,941号の利益を主張するものである。上記出願の教示全体は参照により本明細書に援用される。
【背景技術】
【0002】
機械学習は一般に、所与のタスクを実行するためにコンピュータ実施方法が利用することができる統計モデルを採用する。多くの場合、機械学習法によって採用される統計モデルは、パターンを検出し、上記パターンを使用して将来の挙動を予測する。機械学習法によって採用される統計モデル及びニューラルネットワークは典型的には、現実世界のデータを用いてトレーニングされ、機械学習法は上記現実世界のデータを利用して、将来の挙動を予測する。
【発明の概要】
【発明が解決しようとする課題】
【0003】
したがって、より少ないトレーニングデータを使用してデータのよりよい予測を提供する改良された機械学習モデルが必要とされている。正確な機能推定及び十分に較正された不確実性は、ベイズ最適化(BO)にとって重要である。BOの最も理論的な保証は、ガウス過程(GP)事前から導出される代理を用いて目的関数をモデリングする方法について確立される。GP事前は、生体高分子配列等の離散した高次元組み合わせ空間にはあまり適さない。ニューラルネットワーク(NN)を代理関数として使用することにより、より正確な機能推定を得ることができる。NNを使用することにより、任意の複雑なモデルが可能になり、GP事前仮定をなくすことができ、且つ低データBOレジームで有益である容易な事前トレーニングが可能になる。しかしながら、NNにおける不確実性の完全ベイズ処理は扱いにくいままであり、最近の結果は、近似推論が、真の事後をあまりはんえいしない推定に繋がり得ることを示している。コンフォーマル推論最適化(CI-OPT:Conformal Inference Optimization)は、コンフォーマル推論を特定のBO取得関数における事後不確実性の代わりとして使用して計算された信頼区間を使用する。現在の方法は、取り扱いにくいことに起因してコンフォーマル推論をBOと組み合わせないが、本出願人は、合成最適化タスク、標準BOデータセット、及び現実正解のタンパク質データセットで有効である最適化に適した性質を有するコンフォーマルスコア付け関数を開示する。
【課題を解決するための手段】
【0004】
一態様では、生体高分子配列の設計を最適化するコンピュータ実施方法は、観測生体高分子配列及び各観測生体高分子配列に対応するラベル付き生体高分子配列を使用して機械学習モデルをトレーニングすることを含むことができる。ラベル付き配列は、対象となる何らかの性質を測定する実数が関連付けられた配列である。本方法は、生体高分子配列候補を決定して、機械学習モデルに基づいてラベル付き生体高分子配列の最高予測値を有するものを観測することを更に含むことができる。生体高分子配列候補は、既知の配列(例えば先に直面した配列、先に観測された配列、又は自然配列)又は新たに設計された配列の何れかを含むことができる。本方法は、各生体高分子配列候補について、生体高分子配列候補がラベル付き生体高分子配列の予測値を有する尤度を表すコンフォーマル推論区間を特定することを更に含むことができる。本方法は、コンフォーマル推論区間とラベル付き生体高分子配列の予測値との最適化された線形結合を有する少なくとも1つの生体高分子配列候補を選択することを更に含むことができる。
【0005】
一態様では、ラベル付き配列の値は、上述したようにラベルとして使用される数である。したがって、配列の予測値は配列の予測ラベルである。機械学習分野の当業者ならば、ラベルのそのような定義を理解することができる。配列又はデータ点は機械学習入力(x)であり、予測/測定/最適化はラベル(y)である。
【0006】
態様では、コンフォーマル推論区間は、中心値及び区間範囲を含む。中心値は平均値であることができる。
【0007】
態様では、機械学習モデルは、観測生体高分子配列及びそれらのラベルを使用して微調整されたニューラルネットワークである。微調整されたニューラルネットワークは、より小さなデータセットへの初期重みとしてそれらの重みを使用する大きなデータセットで事前トレーニングされるニューラルネットワークである。微調整は、トレーニングを加速させることができ、小さなデータセットサイズを克服することができる。一態様では、コンフォーマル推論区間を特定することは、観測生体高分子配列の第2のセットに基づく。配列の第2のセットは、コンフォーマルスコアの調整に使用されるシーケンスのセットである。
【0008】
一態様では、コンフォーマル推論区間を特定することは、観測生体高分子配列の第2のセット及び生体高分子配列の第2のセットの各々に対応する、対応するラベル付き生体高分子配列について、機械学習モデルの各出力に基づいて残差区間を計算することを更に含むことができる。コンフォーマル推論区間を特定することは、機械学習モデルの各出力について、メトリック空間内の観測生体高分子配列の複数の最近傍配列への平均距離を計算することを更に含むことができる。コンフォーマル推論区間を特定することは、平均距離と定数との和に対する残差の比率に基づいてコンフォーマルスコアを計算することを更に含むことができる。後述するように、メトリック空間は、可能な配列のセットである。メトリックの一例はレーベンシュタイン距離であることができる。態様では、定数は各反復で変わることができる。
【0009】
一態様では、少なくとも1つの生体高分子配列候補を選択することは、メトリック空間中の複数の最近傍配列へのメトリック空間中の平均距離を計算することと、少なくとも1つの生体高分子配列候補及び平均距離に基づいて信頼区間を生成することと、信頼区間に基づいて少なくとも1つの生体高分子配列候補を選択することとを含む。
【0010】
態様では、コンフォーマル区間は少なくとも50%且つ多くとも99%であることができる。生体高分子配列は、アミノ酸配列、核酸配列、及び炭水化物配列の少なくとも1つを含むことができる。核酸配列はデオキシリボ核酸(DNA)配列又はリボ核酸(RNA)配列であることができる。アミノ酸配列は、例えば酵素、成長因子、サイトカイン、ホルモン、シグナリングタンパク質、コンフォーマルタンパク質、運動タンパク質、抗体(免疫グロブリン系分子及び代替分子足場(alternative molecular scaffold)の両方を含む)、並びに融合タンパク質及び共役を含む上記の組合せ等の全てのタンパク質を含む任意の配列であることができる。
【0011】
一態様では、高分子配列の設計を最適化するコンピュータ実施方法及び対応するシステムは、複数の観測配列から初期サンプルのラベル付き生体高分子配列を近似するようにモデルをトレーニングすることを含むことができる。本方法は、トレーニングされたモデルによって生成されたラベル付き生体高分子配列及び各観測配列のコンフォーマル区間を有する、複数の観測配列の特定のバッチについて、複数の観測配列から、トレーニングされたモデルによって生成されたラベル付き高分子配列とコンフォーマル区間との組合せを最適化する少なくとも1つの配列を選ぶことを更に含むことができる。本方法は、残りの配列のコンフォーマル区間を再計算することを更に含むことができる。
【0012】
態様では、本方法は、複数のバッチの各々について、少なくとも1つの配列を選ぶこと及びコンフォーマル区間を再計算することを繰り返すことを更に含むことができる。態様では、本方法は、並列に実行するバッチ実験の最適数を識別することを更に含むことができる。態様では、識別することは、ウェットラボリソースの最適化に基づくことができる。
【0013】
一態様では、コンピュータ実施方法は、メトリック空間内のデータ点及び各観測データ点に対応する機能値を使用して機械学習モデルをトレーニングすることを含むことができる。機能値は、データ点の対象となる何らかの性質を測定する実数である。本方法は、データ点候補を決定して、機械学習モデルに基づいて最高予測機能値を有するものを観測することを更に含むことができる。データ点候補は、既知のデータ点(例えば先に直面したデータ点、先に観測されたデータ点、又は自然のデータ点)又は新たに設計されたデータ点を含むことができる。本方法は、各データ点候補について、データ点候補がデータ点の予測機能値を有する尤度を表すコンフォーマル推論区間を特定することを更に含むことができる。本方法は、コンフォーマル推論区間とデータ点の予測機能値のとの最適な線形結合を有する少なくとも1つのデータ点候補を選択することを更に含むことができる。当業者ならば、画像、ビデオ、オーディオ、他のメディア、及び機械学習モデルによって解釈することができる他のデータを含むことができることを認識することができる。
【0014】
一態様では、コンピュータ実施方法及び対応するシステムは、複数の観測データ点から初期サンプルの機能値データ点を近似するようにモデルをトレーニングすることを含むことができる。本方法は、トレーニングされたモデルによって生成された機能値及び各観測データ点のコンフォーマル区間を有する、複数の観測データ点のうちの特定のバッチについて、複数のデータ点から、トレーニングされたモデルによって生成されたラベル付きデータ点とコンフォーマル区間との組合せを最適化する少なくとも1つの配列を選ぶことを更に含むことができる。本方法は、残りのデータ点のコンフォーマル区間を再計算することを更に含むことができる。
【0015】
態様では、データの分布に基づいて設計を最適化するコンピュータ実施方法は、複数の観測データ及び各観測データに対応するラベル付きデータを使用して機械学習モデルをトレーニングすることを含む。本方法は、複数のデータ候補を決定して、機械学習モデルに基づいてラベル付きデータの最高予測値を有するものを観測することを更に含むことができる。本方法は、各データ候補について、データ候補がラベル付きデータの予測値を有する尤度を表すコンフォーマル推論区間を特定することを更に含むことができる。本方法は、コンフォーマル推論区間とラベル付きデータの予測値との最適化された線形結合を有する少なくとも1つのデータ候補を選択することを更に含むことができる。
【0016】
態様では、上記方法は、選択された生体高分子配列を合成する手段に少なくとも1つの選択された生体高分子配列を提供することを更に含み、任意選択的に少なくとも1つの選択された生体高分子配列は合成される。
【0017】
態様では、本方法は、少なくとも1つの選択された生体高分子配列を合成することを更に含む。
【0018】
態様では、本方法は、少なくとも1つの選択された生体高分子配列をアッセイする(定性的又は定量的化学アッセイ)ことを更に含む。
【0019】
態様では、非一時的コンピュータ可読媒体が、生体高分子配列の設計を最適化する命令を記憶するように構成される。命令は、プロセッサによって実行されると、プロセッサに、複数の観測生体高分子配列及び各観測生体高分子配列に対応するラベル付き生体高分子配列を使用して機械学習モデルをトレーニングすることと、複数の生体高分子配列候補を決定して、機械学習モデルに基づいてラベル付き生体高分子配列の最高予測値を有するものを観測することと、各生体高分子配列候補について、生体高分子配列候補がラベル付き生体高分子配列の予測値を有する尤度を表すコンフォーマル推論区間を特定することと、コンフォーマル推論区間とラベル付き生体高分子配列の予測値との最適化された線形結合を有する少なくとも1つの生体高分子配列候補を選択することとを行わせる。
【0020】
態様では、生体高分子配列の設計を最適化するシステムは、プロセッサと、コンピュータコード命令を記憶したメモリとを含む。プロセッサ及びメモリは、コンピュータコード命令を用いて、システムに、複数の観測生体高分子配列及び各観測生体高分子配列に対応するラベル付き生体高分子配列を使用して機械学習モデルをトレーニングすることと、複数の生体高分子配列候補を決定して、機械学習モデルに基づいてラベル付き生体高分子配列の最高予測値を有するものを観測することと、各生体高分子配列候補について、生体高分子配列候補がラベル付き生体高分子配列の予測値を有する尤度を表すコンフォーマル推論区間を特定することと、コンフォーマル推論区間とラベル付き生体高分子配列の予測値との最適化された線形結合を有する少なくとも1つの生体高分子配列候補を選択することとを行わせるように構成される。
【0021】
態様では、本明細書に開示されるのは、先行クレームの何れか1つに記載の方法によって取得可能である、1つ又は複数の選択された生体高分子配列である。
【0022】
態様では、1つ又は複数の選択された生体高分子配列は、化学合成のin vitro方法によって製造される。他の態様では、1つ又は複数の選択された生体高分子配列は、細菌系、真菌系、又は動物(例えば昆虫又は哺乳類)系等の例えば細胞に基づく系を使用して生合成によって製造される。例えば、幾つかの態様では、1つ又は複数の選択された生体高分子配列は、1つ又は複数の選択されたポリペプチド配列である。特定のより具体的な態様では、1つ又は複数の選択されたポリペプチド配列は、例えばペプチド合成機において化学合成によって製造される。他のより具体的な態様では、1つ又は複数の選択された生体高分子配列は生物系によって合成され、これは例えば、1つ又は複数の核酸配列(発現ベクター中の)を生物系(例えば宿主細胞又は転写及び翻訳系等のin vitro翻訳系)に提供するステップと、1つ又は複数の選択されたポリペプチド配列の合成を促進する条件下で生物系を培養するステップと、合成された1つ又は複数の選択されたポリペプチド配列を系から単離するステップとからなる。
【0023】
態様では、組成物は、任意選択的に薬学的に許容可能な賦形剤を含む1つ又は複数の選択された高分子配列を含む。
【0024】
態様では、方法は、先行クレームの何れか1つに記載の組成物又は選択された生体高分子配列をテスト化合物、生体流体、細胞、組織、臓器、又は生物の1つ又は複数と接触させることを含む。
【0025】
特許又は出願ファイルは、カラーで実行される少なくとも1つの図面を含む。カラー図面を有するこの特許又は特許出願公開のコピーは、要求され、必要料金が支払われた上で特許庁により提供される。
【0026】
上記は、添付図面に示される態様例の以下のより具体的な説明から明らかになり、添付図面中、様々な図全体を通して同様の参照文字は同じ部分を指す。図面は必ずしも一定の縮尺ではなく、代わりに態様を例示することに重点が置かれている。
【図面の簡単な説明】
【0027】
図1A】2つの合成タスクでの順次最適化の結果を示すグラフである。
図1B】2つの合成タスクでの順次最適化の結果を示すグラフである。
図1C】タンパク質データセットでの順次最適化の結果を示すグラフである。
図1D】タンパク質データセットでのバッチ最適化の同様の結果を示すグラフである。
図1E】タンパク質データセットでの順次最適化の結果を示すグラフである。
図1F】タンパク質データセットでのバッチ最適化の同様の結果を示すグラフである。
図1G】GP事後、ニューラルネットワーク残差推定器を用いたコンフォーマル推論、及びスケールドk最近傍を用いたコンフォーマル推論から計算された不確実性を比較する。
図1H】GP事後、ニューラルネットワーク残差推定器を用いたコンフォーマル推論、及びスケールドk最近傍を用いたコンフォーマル推論から計算された不確実性を比較する。
図1I】GP事後、ニューラルネットワーク残差推定器を用いたコンフォーマル推論、及びスケールドk最近傍を用いたコンフォーマル推論から計算された不確実性を比較する。
図2】本開示におけるような配列空間において最近傍を使用して微調整ニューラルネットワークからの予測の信頼区間を計算する一態様例を示す流れ図である。
図3】上記コンフォーマル区間を使用してバッチ最適化する方法の一態様例を有する流れ図である。
図4】本開示の一態様例を示す流れ図である。
図5】本開示の一態様例を示す流れ図である。
図6】本発明の態様を実施し得るコンピュータネットワーク又は同様のデジタル処理環境を示す。
図7図6のコンピュータシステムにおけるコンピュータ(例えばクライアントプロセッサ/デバイス又はサーバコンピュータ)の内部構造例の図である。
【発明を実施するための形態】
【0028】
態様例の説明は以下である。
【0029】
ベイズ最適化(BO)は、ブラックボックス関数を最適化する、普及している技法である。BOの用途には特に、実験的設計、ハイパーパラメータ調整、及び制御システムがある。従来のBO法は、目的関数又は真関数の観測によって誘導される事後からの十分に較正された不確実性に頼る。目的関数は、最適化すべき性質である。例えば、システムが生体高分子を最適化している場合、目的関数は生体高分子の性質を最適化し得る。不確実性を使用して決定をガイドすることにより、BOは特に低データ状況で強力になる。Riquelmeらによる“Deep Bayesian Bandits Showdown:An Empirical Comparison of Bayesian Deep Networks for Thompson Sampling”,arXiv preprint arXiv:1802.09127,(2018)(以下「Riquelme」)に示される等の現在の実施態様は、正確な機能推定及び十分に較正された不確実性の両方が、現実世界の問題での強力な性能にとって重要であることを示す。
【0030】
BOの最も理論的な保証は、ガウス過程(GP)事前から導出される代理を用いて目的関数をモデリングする方法について確立される。関数がGP事前から大きく違反する場合、生成される事後確率は真関数の不良な推定であり得、誤較正された不確実性であり得、又はそれら両方であり得る。これは、特に設計空間が離散し、組み合わせ(例えばタンパク質配列等の生体高分子配列)である場合、重要であり、その理由は、大半のGP事前は低次元連続空間に向けて設計され、これらのタイプの空間の良好な代理ではないことがあるためである。
【0031】
より正確な機能推定を得る一方法は、代理関数としてニューラルネットワークを使用することである。代理関数は、目的/真関数をモデリングする関数である。任意の複雑なモデルを可能にし、GP事前仮定をなくすことに加えて、ニューラルネットワークの使用により事前トレーニングが可能になり、これは低データBOレジームにおいて特に有益であることができる。しかしながら、ハミルトニアンモンテカルロを使用して事後を推定する等のニューラルネットワークにおける不確実性の完全ベイズ処理は、計算的に扱いにくいままであり、最近の結果では、近似的推論が、真の事後をあまり反映しない推定を生成し得ることが示されている。一代替は、代理関数としてニューラルネットワークの上にベイズ線形回帰を使用することである。Riquelmeの方法は、BOタスクでの異なる近似ベイズ不確実性定量化法の性能を比較する。
【0032】
コンフォーマル推論は集合的に、不確実性定量化法の一ファミリを指す。コンフォーマル推論法は、データが交換可能であるという仮定の下で有効な較正済み予測区間を提供する。当業者ならば、交換可能データが、各インデックスの任意の置換で方程式p(x,x,...x)=p(xs1,xs2,...,xsn)と一致することを認識することができる。GPモデル等のベイズ法とは異なり、コンフォーマル推論は、データ又は目的関数についての強力な根本的仮定に頼らない。コンフォーマル推論は、任意の機械学習モデルの上に適用することもでき、それにより、ベイズ推論が適さない大きな事前トレーニング済みモデル等の近代の深層学習技術の上に有効な予測区間を構築できるようになる。
【0033】
本開示の一態様では、方法及び対応するシステムは、ベイズ最適化法と共にコンフォーマル信頼区間を採用する。ベイズ最適化法とのコンフォーマル信頼区間の組合せは、以下、コンフォーマル推論最適化(CI-OPT)と呼ばれる。CI-OPTは、特定のBO取得関数における事後不確実性のドロップイン置換としてコンフォーマル推論を使用して計算される信頼区間を採用する。
【0034】
高レベルにおいて、解くべき問題は、ある決定セット
【数1】
にわたるある関数f(x)の最大を見つけることが最初の目標であることとして説明することができる。真関数f(x)は未知であるが、関数評価は既知である。しかし、上記関数評価はノイジーである可能性がある。より有価値な関数評価は、計算が高価であり、したがって、可能な限り少ない関数評価でfを最大化することが望まれる。例えば、fがタンパク質配列の適合性を表す関数であると考える。さらに、クエリ点のバッチを並列評価することは、同じクエリを順次評価するよりも計算的にはるかに安価であり得る。
【0035】
Shahriariらによる“Taking the Human out of the Loop:A Review of Bayesian Optimization”,Proceedings of the IEEE,104(1):148-175(2015)(以下「Shahriari」)に更に記載されるように、現在のベイズ最適化手法及び方法は、事前をfに配置することによって開始された。時間ステップt+1において、恐らくはノイジーな、場所X={x,...,x}における前の観測Y={y,...,y}は、fの事後分布を誘導する。取得関数a(x,t)は、プロキシ最適化xt+1=argmaxa(x|D,t)を介してXにおけるどの点を次に問い合わせるかを決定し、D={X,y}である。取得関数はfにわたる事後を使用して、前のクエリから得られた情報の利用と高い不確実性を有する領域の利用とをバランスさせる。
【0036】
ガウス過程は、関数事前の一般的な選択である(例えばWilliamsら“Gaussian processes for machine learning,”Volume 2.MIT press Cambridge,MA,2006)(以下「Williams」)参照)。GPは、ランダム変数のあらゆる有限サブセットが多変量ガウス分布を有するようなランダム変数の無限の集まりである。GPモデルは、未知の真関数がGP事前から導出され、次いでGPモデルが観測を使用して関数にわたる事後を計算すると仮定する。GPモデルの主要な利点は、事後の単純な閉形式解があることであり、それにより、GPモデルはベイズ最適化の最も普及している理論的ツールの1つになっている。各ステップにおけるGP事後は閉形式で周辺化されて、予測平均μ(x)及び標準偏差σ(x)に到達し、
【数2】
である。
【0037】
顕著な取得関数は以下を含む。
a)Jonesらによる“Efficient Global Optimization of Expensive Black-Box Functions”,Journal of Global optimization,13(4):455-492,1998(以下「Jones」)に示されるように、期待される改良:
【数3】
式中、f(x)はDで観測される最良(例えば最大)評価であり、
a)Srinivasらによる“Gaussian Process Optimization in the Bandit Setting:No Regret and Experimental Design.”,arXiv preprint arXiv:0912.3995,2009(以下「Srinivas」)に示されるように、ガウス過程信頼上限(GP-UCB)は、
UCB(x|D,t)=μ(x)+βσ(x) (式2)
であり、式中、βは、探索と活用との間のトレードオフを制御する調整可能なハイパーパラメータであり、
a)Contalらによる“Gaussian Process Optimization with Mutual Information”,International Conference on Machine Learning,pp.253-261,2014(以下「Contal」)に示されるように、GP-UCBよりも過剰探索を受けにくいガウス過程相互情報(GP-MI):
【数4】
式中、αは調整可能ハイパーパラメータであり、
【数5】
である。
【0038】
より一般的には、観測は厳密に順次の代わりにバッチで問い合わせ得る。バッチ設定では、時間t+1において、Bアイテムx,...,xr+B-1のセットは、場所X={x,...,x}における(恐らくはノイジーな)前の観測y={y,...,y}に基づいて問い合わせに選択される。一般に、Bはあらゆる反復において適応的に選ぶことができる(例えばDesautelsらによる“Parallelizing exploration-exploitation tradeoffs in gaussian process bandit optimization”,Journal of Machine Learning Research,15:3873-3923,2014(以下「Desautels」)参照)が、この例では、バッチサイズが固定される設定を探索する。多くのバッチベイズ最適化法は、取得関数での不確実性を使用して、概ね多様なバッチを生成する。
【0039】
例えば、Desautelsの方法は、まるで選択がその平均事後値であるように問い合わせられ観測されるように、バッチ内の各選択後にtを更新することによってクエリをバッチするGP-UCB取得関数を一般化する。代替的には、Wilsonによる“Maximizing Acquisition Functions for Bayesian Optimization”,Advances in Neural Information Processing Systems,pp.9884-9895,2018(以下「Wilson」及びDe Palmaらによる“Sampling Acquisition Functions for Batch Bayesian Optimization”,arXiv preprint arXiv:1903.09434,2019(以下「De Palma」)に示されるように、取得関数は、GP事後からサンプリングされて、多様なバッチを生成することができる。
【0040】
コンフォーマル推論は、Saundersらによる“Transduction with Confidence and Credibility”,1999(以下「Saunders」)に示されるように、任意の土台となる機械学習モデルの厳密な有限サンプル1-ε予測区間を提供する補助方法である。交換可能サンプル
【数6】
、所望の信頼水準ε、及び何らかのコンフォーマルスコア付け関数
【数7】
を所与として、コンフォーマル推論法はC(z)、C(z)、...、C(z)を評価し、次いでcを(1-ε)パーセンタイルスコアに設定する。したがって、C(z)<cである場合、テスト例z
【数8】
から導出された確率1-εである。一連のランダム変数z、z、z、...は、インデックスの任意の有限置換σについてP(z,z,z,...)=P(zσ(1),zσ(2),zσ(3),...)である場合、交換可能である。
【0041】
Papadopoulosらによる“Regression Conformal Prediction With Nearest Neighbours”,Journal of Artificial Intelligence Research,40:815-840,2011(以下「Papadopoulos」)に示されるように、コンフォーマル回帰は、不均一分散信頼区間を見つけることを目的としている。一例では、Ztr={Xtr,Ytr}でトレーニングされたリグレッサ
【数9】
及び所望の有意水準ε∈(0,1)を考える。次いで、以下の形態:
【数10】
のコンフォーマル関数Cを使用して、理想的にはhのトレーニングに使用されたデータとは互いに素であるコンフォーマルトレーニングセットZ={X,Y}(Ztrと互いに素)中の各要素のコンフォーマルスコアを計算することができ、式中、g(x)は、予測可能である真関数f(x)の予期される困難さを測定する関数であり、βはgへの感度を制御するハイパーパラメータである。Cから、コンフォーマル推論法は、Z中のアイテムの較正コンフォーマルスコアcを計算することができ、cを(1-ε)パーセンタイル較正スコアとする。すると、新しいサンプルxの予測領域は
Γ(x)=h(x)±c[g(x)+β] (式5)
であり、1-εの確率でyを含む。特に、生成される区間は任意のgについて有効であるが、有用であるにはあまりに広すぎ得、又は均一でありすぎ得る。
【0042】
最適化に適した性質を有する例示的なコンフォーマルスコア付け関数Cについてここで説明する。コンフォーマル予測区間(例えば95%コンフォーマル区間)は、ベイズ最適化式手順でtのドロップイン置換として使用することができる。しかしながら、当業者ならば、他のコンフォーマル区間を使用することも可能なことを理解することができる。一例では、50%~99%の範囲(端数を包含する)のコンフォーマル区間を使用することができる。
【0043】
ステップtにおいて、リグレッサhは{X,y}、コンフォーマルスコア付け関数g、感度パラメータβ、及び95パーセンタイル較正スコアcでトレーニングされる。次いで方程式
μt,CI(x)=h(x) (式6)
及び
【数11】
が、UCB(式2)又はMI(式3)取得関数におけるμ及びσに代入される。
【0044】
gを選ぶことは、探索と活用をバランスした区間の誘導にとって極めて重要である。理想的には、区間は、密にサンプリングされた領域ほど狭い幅であるべきである。例えば、一般的な方法では、gは、x、y∈Zについて残差|h(x)-y|を予測するようにトレーニングされたモデルである。このgは基本的に、区間がどこで狭い又は広い幅であるべきかを直接学習するためにZを使用するが、
【数12】
の特定の領域をアンダーサンプリングすることによって生じる認識論的不確実性を明示的に考慮しない。したがって、gは、Xtr中のxのk最近傍への平均距離
【数13】
として設定することができ、式中、xtr,iはトレーニングセット中のxのi番目の最近傍である。実際には、コンフォマルトレーニング中のgのスケーリングは、区間の安定性を改善し、新規のコンフォーマルスコア付け関数である。
【数14】
【0045】
直感的に、これはガウス過程事後における不確実性の2つのソースに関連することができる。残差|h(x)-y|は等分散性ノイズ分散に類似し、一方、gkNNはハード閾値処理された静止GP共分散関数に類似する。換言すれば、式9は、不均一分散不確実性を明示的に推定するコンフォーマルスコアを含む。
【0046】
図1G図1Eは、GP事後、ニューラルネットワーク残差推定器を用いたコンフォーマル推論、及びスケールドk最近傍(式9)を用いたコンフォーマル推論から計算された不確実性を比較する。陰影付き領域は、GPでは±2標準偏差(図1G)であり、コンフォーマル推論では95%(図1H及び図1I)である。
【0047】
図1Gは、GP事後から計算された不確実性を示す(周辺尤度を最大化することによって推定されるハイパーパラメータである二乗指数カーネル)。図1H及び図1Iは、シグモイド非線形性を用いて3層全結合ニューラルネットワークの上に較正にトレーニングセットを使用してコンフォーマル推論から計算された不確実性を示す。図1Hは、gにニューラルネットワーク残差推定器を用いて生成されたコンフォーマル区間を示す。図1Iは、両コンフォーマルプロットにk=5、β=0.001と共にgに式9を使用して生成されたコンフォーマル区間を示す。gにニューラルネットワーク残差推定器を使用することにより、Xtrの密にサンプリングされた領域でより広い予測区間になり、これはZ=Ztrを設定することによって悪化する問題である。それらの区間を取得関数で使用すると、不確実性への重みが増大するにつれて局所最適で詰まる可能性がより高いオプティマイザになる。
【0048】
最近傍は、トレーニングセットにおけるメトリック空間中のxへの距離によって決定することができる。メトリック空間は、可能な配列又はデータ点のセットである。メトリックの一例はレーベンシュタイン距離であることができる。
【0049】
コンフォーマルスコアを使用して問い合わせるアイテムを選択することは、GPモデルの交換可能データの仮定に違反する。さらに、最適化ランの開始時等の小データレジームでは、較正スコアはZtrで計算される必要があり得る。したがって、両方とも、厳密な有限サンプルカバレッジ保証を有さない予測区間になる。しかしながら、これらの区間は、最適化中、探索と活用とのトレードオフに有用なままである。
【0050】
換言すれば、本出願人の方法は、(1)配列空間における最近傍を使用して微調整されたニューラルネットワークからの予測のコンフォーマル区間を計算することと、(2)(1)において計算されたコンフォーマル区間を使用して、バッチ最適化を実行することとを含む。
【0051】
図2は、本開示におけるように配列空間における最近傍を使用して微調整されたニューラルネットワークからの予測のコンフォーマル区間を計算する一態様例を示す。コンフォーマル区間を計算するために、方法は以下を使用する:
a)f(x):微調整されたニューラルネットワーク、
b)X:f(x)の微調整に使用される配列、
c)X:コンフォーマルスコアの調整に使用される配列(202)、
d)y:Xに対応する真関数値(204)、
e)n:考慮する最近傍数、
f)b:ハイパーパラメータ、
g)アルファ:所望の信頼値、及び
h)Xtest:予測する新たな配列。
【0052】
次いで、X、yにおける各x、yについて、方法は残差を計算する:r=|f(x)-y|(206)。Xにおける各xについて、方法は、Xにおけるn最近傍への平均距離を計算し、それをdに割り当てる(208)。Xにおけるxについて、コンフォーマルスコアを計算する:
【数15】
(210)。方法は次いでカットオフスコアを計算する:ガンマ=スコアsの(1-アルファ)パーセンタイル(212)。Xtestにおける各xについて、方法はX:d_testにおけるn最近傍への平均距離を計算する(214)。したがって、Xtestの(1-アルファ)信頼区間はf(xtest±2×ガンマ×(dtest+ベータ)である(216)。
【0053】
図3は、上記コンフォーマル区間を使用してバッチを最適化する方法の一態様例を示す。方法は以下を使用する:
a)B:バッチサイズ、
b)N:反復数、
c)ninit:初期サンプル数、
d)X:可能な配列、及び
e)C:定数。
【0054】
次いで、方法はXからのninit配列を評価して、出力yを決定し(302)、yを近似するようにf(x)へのモデルをトレーニングする(304)。XをX及びXとして使用して、コンフォーマル推論計算から、方法はXの残りのコンフォーマル区間を取得する(306)。Bにおける各bについて、方法は、Xにおける、f(x)+Cinterval(x)を最大化するxを選び(308)、まるで選ばれたxが観測されたかのようにコンフォーマル区間を再計算する(310)。次いで、方法は、308又は310がまだ評価していない任意のbがBに残っているか否かを判断する(312)。bが残っている場合、方法はBにおける未評価bを用いて繰り返す。その他の場合、方法は、それ以上の反復が求められるか否かを判断し(314)、N反復後、方法は終了する(316)。
【0055】
上記方法は一般のデータ及びデータ点に使用することができるが、本出願人は、上記方法が生体高分子配列の設計の最適化に使用することができることに触れている。生体高分子配列の例には、アミノ酸配列、ヌクレオチド配列、及び炭水化物配列がある。
【0056】
アミノ酸配列は、正準アミノ酸、非正準アミノ酸、又はそれらの組合せを含むことができ、Lアミノ酸及び/又はDアミノ酸を更に含むことができる。アミノ酸配列は、アミノ酸誘導体及び/又は修飾アミノ酸を含むこともできる。アミノ酸修飾の非限定的な例には、アミノ酸リンカー、アシル化、アセチル化、アミド化、メチル化、末端修飾因子(例えば環化修飾)、及びN-メチル-α-アミノ基置換がある。
【0057】
ヌクレオチド配列は、天然由来のリボヌクレオチド又はデオキシリボヌクレオチドモノマー及び非天然由来のヌクレオチド誘導体及びその類似体を含むことができる。したがって、ヌクレオチドは、例えば、天然由来の塩基(例えばA、G、C、又はT)を含むヌクレオチド及び修飾塩基を含むヌクレオチド(例えば7-デアザグアノシン、イノシン、又は5-メチルdCTP及び5-ヒドロキシメチルシトシン等のメチル化ヌクレオチド)を含むことができる。
【0058】
モデルが解析する上記生体高分子配列(例えばアミノ酸配列)の性質(例えば機能値)の例は、生体高分子配列の結合親和性、結合特異性、触媒(例えば酵素)活性、蛍光性、可溶性、熱安定性、構造、免疫原性、及び任意の他の機能性質である。
【0059】
本明細書において記載されるのは、アミノ酸配列(又はアミノ酸配列をコードする核酸配列)等のタンパク質又はポリペプチド情報を含む入力データを評価して、入力データに基づいて1つ又は複数の特定の機能又は特性を予測するデバイス、ソフトウェア、システム、及び方法である。アミノ酸配列(例えばタンパク質)の特定の機能又は特性の説明は、以前から分子生物学の目標である。したがって、本明細書において記載のデバイス、ソフトウェア、システム、及び方法は、人工知能又は機械学習技法の能力をポリペプチド又はタンパク質解析に利用して、構造及び/又は機能についての予測を行う。本明細書において記載される機械学習技法は、標準の非ML手法と比較して、予測能力が増大したモデルを生成できるようにする。
【0060】
幾つかの態様では、入力データは、タンパク質又はポリペプチドの一次アミノ酸配列を含む。幾つかの場合、モデルは、一次アミノ酸配列を含むラベル付きデータセットを使用してトレーニングされる。例えば、データセットは、蛍光強度に基づいてラベル付けられた蛍光タンパク質のアミノ酸配列を含むことができる。しかしながら、他の性質に基づいてラベリングされた他のタイプのタンパク質も同様に採用することができる。したがって、モデルは、機械学習法を使用してこのデータセットでトレーニングされて、アミノ酸配列入力の蛍光強度の予測を生成することができる。幾つかの態様では、入力データは、一次アミノ酸配列に加えて、例えば、表面電荷、疎水性表面エリア、実測又は予測の溶解性、又は他の関連情報等の情報を含む。幾つかの態様では、入力データは、複数のタイプ又はカテゴリのデータを含む多次元入力データを含む。
【0061】
幾つかの態様では、本明細書において記載のデバイス、ソフトウェア、システム、及び方法は、データ拡張を利用して、予測モデルの性能を強化する。データ拡張は、トレーニングデータセットの、類似するが異なる例又は変形を使用したトレーニングを伴う。一例として、画像分類では、画像データは、画像の向きをわずかに変更すること(例えば、わずかな回転)により拡張することができる。幾つかの態様では、データ入力(例えば、一次アミノ酸配列)は、一次アミノ酸配列へのランダム変異及び/又は生物学的情報に基づく変異(biologically informed mutation)、多重配列アラインメント、アミノ酸相互作用のコンタクトマップ、及び/又は三次タンパク質構造により拡張される。追加の拡張戦略には、選択的スプライシング転写からの公知及び予測のアイソフォームの使用がある。例えば、入力データは、同じ機能又は特性に対応する選択的スプライシング転写のアイソフォームを含むことにより拡張することができる。したがって、アイソフォーム又は変異についてのデータは、予測される機能又は特性にあまり影響しない一次配列の部分又は特徴を識別できるようにすることができる。これにより、モデルは、例えば、安定性等の予測されるタンパク質特性を強化し、低減し、又は影響しないアミノ酸変異等の情報を考慮に入れることができる。例えば、データ入力は、機能に影響しないことが公知である位置におけるランダム置換アミノ酸を有する配列を含むことができる。これにより、このデータでトレーニングされたモデルは、それらの特定の変異に関して、予測される機能が不変であることを学習することができる。
【0062】
本明細書において記載のデバイス、ソフトウェア、システム、及び方法は、多種多様な予測の生成に使用することができる。予測は、タンパク質の機能及び/又は特性(例えば、酵素活性、結合特性、安定性等)を含むことができる。タンパク質安定性は、例えば、熱安定性、酸化安定性、又は血清安定性等の種々の尺度に従って予測することができる。幾つかの態様では、予測は、例えば、二次構造、三次タンパク質構造、四次構造、又はそれらの任意の組合せ等の1つ又は複数の構造特徴を含む。二次構造は、アミノ酸又はポリペプチド内のアミノ酸の配列が、アルファヘリックス構造、ベータシート構造、それとも無秩序若しくはループ構造を有するかの指示を含むことができる。三次構造は、三次元空間におけるアミノ酸又はポリペプチドの部分の場所又は位置を含むことができる。四次構造は、1つのタンパク質を形成する複数のポリペプチドの場所又は位置を含むことができる。幾つかの態様では、予測は1つ又は複数の機能を含む。ポリペプチド又はタンパク質の機能は、代謝反応、DNA複製、構造の提供、輸送、抗原認識、細胞内又は細胞外シグナリング、及び他の機能カテゴリを含む種々のカテゴリに属することができる。幾つかの態様では、予測は、例えば、触媒効率(例えば、特異性定数kcat/K)又は触媒特異性等の酵素機能を含む。
【0063】
幾つかの態様では、予測は、タンパク質又はポリペプチドの酵素機能を含む。幾つかの態様では、タンパク質機能は酵素機能である。酵素は、種々の酵素反応を実行することができ、転移酵素(例えば、官能基をある分子から別の分子に移す)、酸素還元酵素(例えば、酸化還元反応を触媒する)、加水分解酵素(例えば、加水分解を介して化学結合を開裂させる)、脱離酵素(例えば、二重結合を生成する)、リガーゼ(例えば、共有結合を介して2つの分子を連結する)、及び異性化酵素(例えば、分子内のある異性体から別の異性体への構造変化を触媒する)として分類することができる。
【0064】
幾つかの態様では、タンパク質機能は、酵素機能、結合(例えばDNA/RNA結合、タンパク質結合、抗体-抗原結合等)、免疫機能(例えば抗体、サイトカイン、チェックポイント分子等)、収縮(例えばアクチン、ミオシン)、及び他の機能を含む。幾つかの態様では、出力は、例えば、酵素機能又は結合の動力学等のタンパク質機能に関連する値を含む。そのような出力は、親和性、特異性、及び反応速度についての尺度を含むことができる。
【0065】
幾つかの態様では、本明細書において記載の機械学習法は、教師あり機械学習を含む。教師あり機械学習は分類及び回帰を含む。幾つかの態様では、機械学習法は教師なし機械学習を含む。教師なし機械学習は、クラスタリング、オートエンコード、変分オートエンコード、タンパク質言語モデル(例えば、モデルが、前のアミノ酸へのアクセスが与えられる場合、配列中の次のアミノ酸を予測する)、及び相関ルールマイニングを含む。
【0066】
幾つかの態様では、予測は、バイナリ、マルチラベル、又はマルチクラス分類等の分類を含む。分類は一般に、入力パラメータに基づいて離散クラス又はラベルの予測に使用される。バイナリ分類は、入力に基づいてポリペプチド又はタンパク質が属するのが2つのグループのいずれであるかを予測する。幾つかの態様では、バイナリ分類は、タンパク質又はポリペプチド配列の特性又は機能についての陽性予測又は陰性予測を含む。幾つかの態様では、バイナリ分類は、例えば、ある親和性レベルを超えたDNA配列への結合、動力学パラメータのある域値を超えた反応の触媒、又は特定の溶融温度を超えた熱安定性を示すこと等の域値処理を受ける任意の定量的読み出し値を含む。バイナリ分類の例には、ポリペプチド配列が自己蛍光を示し、セリンプロテアーゼであり、又はGPIアンカー膜貫通タンパク質であることの陽性/陰性予測がある。幾つかの態様では、分類はマルチクラス分類である。例えば、マルチクラス分類は、入力ポリペプチドを2つ超のグループの1つに分類することができる。代替的には、予測はマルチラベル分類を含むことができる。マルチクラス分類は、入力を相互に排他的なカテゴリの1つに分類し、一方、マルチラベル分類は、入力を複数のラベル又はグループに分類する。例えば、マルチラベル分類は、ポリペプチドを細胞内タンパク質(細胞外と比して)及びプロテアーゼの両方としてラベリングし得る。比較により、マルチクラス分類は、アミノ酸をアルファヘリックス、ベータシート、又は無秩序/ループペプチド配列の1つに属するものとして分類することを含み得る。
【0067】
幾つかの態様では、予測は、例えば、自己蛍光の強度又はタンパク質の安定性等の連続した変数又は値を提供する回帰を含む。幾つかの態様では、予測は、本明細書において記載の特性又は機能のいずれかの連続した変数又は値を含む。一例として、連続した変数又は値は、特定の基質細胞外マトリックス成分のマトリックスメタロプロテアーゼの標的特異性を示すことができる。追加の例には、標的分子結合親和性(例えばDNA結合)、酵素の反応速度、又は熱安定性等の種々の定量的読み出し値がある。
【0068】
上述した方法の有効性を示すために、2つの合成ベイズ最適化タスク及び2つの経験的に決定されたタンパク質適合度データセットでの最近傍コンフォーマルスコアを用いるCI-OPTとガウス過程に基づく最適化との比較を考える。タンパク質データセットは、従来のカーネルを使用した任意のGPが強く誤指定されることが予期される高次元離散空間を有する。
【0069】
以下は、以下評価される方法の概説である。
a)GPは、ガウス過程代理関数及びUCB又はMI取得関数のいずれかを用いたベイズ最適化である。
b)GP-CI:ガウス過程を使用して、式6に従ってμt,CIを計算し、コンフォーマル推論を使用して、式7及び式9に従ってσt,CIを計算する、UCB又はMI取得関数のいずれかを用いたCI-OPTである。
c)NN-CI:ニューラルネットワークを使用して、式6に従ってμt,CIを計算し、コンフォーマル推論を使用して、式7及び式9に従ってσt,CIを計算する、UCB又はMI取得関数のいずれかを用いたCI-OPTである。
【0070】
ブラニン(Branin)又はブラニンホー(Branin-Hoo)関数は、2D正方形[-5,10]×[0,15]に3つの大域最適を有する一般的なブラックボックス最適化ベンチマークである。一例のブラックボックス最適化ベンチマークは、数値安定性のために概ね平均0及び分散1を有するように正規化された出力を有する、Balandatらによる“Botorch:Programmable Bayesian Optimization in pytorch”,arXiv preprint arXiv:1910.06403,2019(以下「Botorch」又は「Balandat」)に記載されている。
【0071】
ハルトマン(Hartmann)関数は、もう一つの一般的なブラックボックス最適化ベンチマークである。Botorch文献に従って、6D版が[0,1]において評価される。ハルトマン関数は6つの局所最大及び1つの大域最大を有する。
【0072】
GB1データセットは、Wuらによる“Adaptation In Protein Fitness Landscapes Is Facilitated By Indirect Paths”,Elife,5:e16965,2016(以下「Wu」)に記載のように、合計で160,000個の配列のタンパク質GドメインB1の4部位部位飽和ライブラリ中の大半の配列の実測適合値を含む。欠けた配列について、Wuによって帰属された値を使用することができる。データセットは、位置とアミノ酸との間の非線形相互作用を捕捉するように設計される。
【0073】
FITCデータセットは、フルオレセインイソチオシアネート(FITC)への十分に研究されたscFv抗体の数千のバリアントの結合親和性Adams(2016)からなる。変異はCDR1H及びCDR3H領域で行った。結合定数kが低いほど、結合が強いことを示し、したがってこの場合、タスクは-logkを最大化することである。
【0074】
合成タスクの場合、UCB取得関数及びGP代理モデル又はニューラルネットワーク代理モデルを使用したCI-OPTが、同じGPモデルを使用したGP-UCBと比較される。Botorchにおけるデフォルト(例えば、ノイズ及び長さスケールで強い事前と共にν=2.5を有するマテルン(Matern)カーネル)に従った合成タスクでのGP及びGP-UCBは、Botorchにおける再パラメータ化実施を使用して実行される。ニューラルネットワークは、ReLU活性化と接続された次元256の2つの隠れ層を含んだ。重みは、arXiv preprint arXiv:1412.6980(以下「Adam」又は「Kingma」)におけるKingmaらによるAdam、即ち確率的最適化法を使用して最適化され、L重み減衰は1e-3に設定される。
【0075】
各ランで、方法は10個のランダムに選択された観測を用いて初期化される。異なる初期化を用いて実験を64回繰り返す。コンフォーマル推論はβ=1e-2、ユークリッド距離、及び5最近傍を使用する。GPは各反復で再トレーニングされる。ニューラルネットはまず、1000のミニバッチでトレーニングされ、次いで各観測後、追加の100個のミニバッチを用いて微調整される。
【0076】
幾つかの現実世界のタンパク質データセットを使用した有効性のシステム及び方法の実証について更に以下説明する。タンパク質タスクでは、MI取得関数を使用したCI-OPTは、順次且つバッチ設定下のGP-MIと比較される。タンパク質タスクでのGPは、周辺尤度を最大化するように選ばれたハイパーパラメータを有する二乗指数カーネルを使用する。CI-OPTは、Rivesによる“Biological Structure and Function Emerge from Scaling Unsupervised Learning to 250 Million Protein Sequences”,bioRxiv,pp.622803,2019(以下「Rives」)に開示されるようにUniProtからのタンパク質で事前トレーニングされ、次いで観測で微調整された、Vaswaniによる“Attention is All You Need”,Advances in Neural Information Processing Systems,pp.5998-6008,2017(以下「Vaswani」)に記載のように、トランスフォーマ言語モデルを使用する。両データセットで、CI-OPTはハミング距離及び5最近傍を採用して、コンフォーマルスコアを計算する。CI-OPT及び貪欲法は、初期点を変えて10回繰り返され、一方、GPは25回繰り返される。
【0077】
生物学的最適化問題では、目標は可能な限り迅速に良好な報酬を見つけることであるが、通常、途中、不良な報酬に繋がる入力を評価するペナルティがないため、更に以下説明するように、方法は、平均後悔の代わりに反復tで各方法によって見つけられた最大報酬を比較することによって評価される。
【0078】
図1A及び図1Bは、2つの合成タスクでの順次最適化の結果を示すグラフである。2Dブラニンタスクでは、GP-UCB、GP-CI、及びNN-CIは全て迅速に大域最大を見つける。6Dハルトマンタスクでは、GP-CIはGP-UCBと互角であるが、NN-CIの性能は下がる。しかしながら、これらの結果は、ニューラルネットワークのハイパーパラメータを調整しない状態でニューラルネットワークを使用した結果であった。
【0079】
図1C及び図1Eは、タンパク質データセットでの順次最適化の結果を示すグラフである。これらの高次元離散空間では、NN-CIは一貫して、GPに基づく方法を上回る。この性能は、事前トレーニングされたニューラルネットワークがGPよりもはるかに正確であること及びGP不確実性が誤較正され、それらの理論上の利点をなくすことの両方に起因する。
【0080】
図1D及び図1Fは、タンパク質データセットでのバッチ最適化での同様の結果を示すグラフである。大きなバッチでの最適化は、各バッチが、取得関数を最大化するために探索と活用とをバランスさせなければならないため、極めて難しい。ここでGB1に使用されたバッチサイズ100は、ベイズ最適化実験で典型的に見られるバッチサイズよりもはるかに大きい。例えば、Wilsonは最大で16のバッチサイズを考慮する。しかしながら、100はタンパク質工学実験では現実的なバッチサイズである。
【0081】
コンフォーマル推論最適化は、回帰の最近傍に基づくコンフォーマルスコアによって誘導される予測区間を、ブラックボックス関数最適化での信頼上限に基づく取得関数でのGP事後不確実性のドロップイン置換として使用する。この方法は、GPに基づく従来のBO法よりも最適化ループにおいて事前トレーニングされた大きなニューラルネットワークを利用することにより適する。CI-OPTは、合成タスクでのGPに基づくベイズ最適化と互角であり、2つの異なるタンパク質最適化データセットではGPに基づく方法を上回る。
【0082】
図4は、本開示の一態様例を示す流れ図400である。一態様では、生体高分子配列の設計を最適化するコンピュータ実施方法は、観測生体高分子配列及び各観測生体高分子配列に対応するラベル付き生体高分子配列を使用して機械学習モデルをトレーニングすること(402)を含むことができる。ラベル付き配列は、対象となる何らかの性質を測定する実数が関連付けられた配列である。方法は、生体高分子配列候補を決定して、機械学習モデルに基づいてラベル付き生体高分子配列の最高予測値を有するものを観測すること(404)を更に含むことができる。生体高分子配列候補は、既知の配列(例えば先に直面した配列、先に観測された配列、又は自然配列)又は新たに設計された配列の何れかを含むことができる。方法は、各生体高分子配列候補について(408)、生体高分子配列候補がラベル付き生体高分子配列の予測値を有する尤度を表すコンフォーマル推論区間を特定すること(406)を更に含むことができる。方法は、コンフォーマル推論区間とラベル付き生体高分子配列の予測値との最適化された線形結合を有する少なくとも1つの生体高分子配列候補を選択すること(410)を更に含むことができる。一態様では、ラベル付き配列の値は、上述したようにラベルとして使用される数である。したがって、配列の予測値は配列の予測ラベルである。機械学習分野の当業者ならば、ラベルのそのような定義を理解することができる。配列又はデータ点は機械学習入力(x)であり、予測/測定/最適化はラベル(y)である。
【0083】
図5は、本開示の一態様例を示す流れ図500である。一態様では、高分子配列の設計を最適化するコンピュータ実施方法及び対応するシステムは、複数の観測配列から初期サンプルのラベル付き生体高分子配列を近似するようにモデルをトレーニングする(502)。方法は、複数の観測配列の特定のバッチについて、複数の観測配列から、トレーニングされたモデルによって生成されたラベル付き高分子配列とコンフォーマル区間との組合せを最適化する少なくとも1つの配列を選ぶこと(504)を更に含むことができる。バッチは、トレーニングされたモデルによって生成されたラベル付き生体高分子配列及び各観測配列のコンフォーマル区間を有する。バッチ全体が解析されていない場合(506)、方法は次の配列を選ぶ(504)。バッチ全体が解析された場合(506)、方法は、残りの配列のコンフォーマル区間を再計算することを更に含むことができる(508)。
【0084】
図6は、本発明の態様を実施し得るコンピュータネットワーク又は同様のデジタル処理環境を示す。
【0085】
クライアントコンピュータ/デバイス50及びサーバコンピュータ60は、アプリケーションプログラム等を実行する処理、記憶、及び入出力デバイスを提供する。クライアントコンピュータ/デバイス50は、通信ネットワーク70を通して、他のクライアントデバイス/プロセス50及びサーバコンピュータ60を含む他の計算デバイスにリンクすることもできる。通信ネットワーク70は、リモートアクセスネットワーク、グローバルネットワーク(例えばインターネット)、コンピュータの世界規模の集まり、ローカルエリア又はワイドエリアネットワーク、及び現在各プロトコル(TCP/IP、Bluetooth(登録商標)等)を使用して互いと通信するゲートウェイの一部であることができる。他の電子デバイス/コンピュータネットワークアーキテクチャも適する。
【0086】
図7は、図6のコンピュータシステムにおけるコンピュータ(例えばクライアントプロセッサ/デバイス50又はサーバコンピュータ60)の内部構造例の図である。各コンピュータ50、60はシステムバス79を含み、バスは、コンピュータ又は処理システムの構成要素間でのデータ転送に使用されるハードワイヤ線のセットである。システムバス79は基本的に、要素間の情報転送を可能にする、コンピュータシステムの異なる要素(例えばプロセッサ、ディスクストレージ、メモリ、入出力ポート、ネットワークポート等)を接続する共有コンジットである。システムバス79に取り付けられるのは、種々の入力及び出力デバイス(例えばキーボード、マウス、ディスプレイ、プリンタ、スピーカ等)をコンピュータ50、60に接続するためのI/Oデバイスインターフェース82である。ネットワークインターフェース86は、コンピュータがネットワーク(例えば図5のネットワーク70)に取り付けられた種々の他のデバイスに接続できるようにする。メモリ90は、本発明の一態様の実施に使用されるコンピュータソフトウェア命令92及びデータ94(例えば先に詳述したベイズ最適化モジュール及びコンフォーマル推論モジュールコード)の揮発性記憶を提供する。ディスクストレージ95は、本発明の一態様の実施に使用されるコンピュータソフトウェア命令92及びデータ94の不揮発性記憶を提供する。中央演算処理装置84もシステムバス79に取り付けられ、コンピュータ命令の実行を提供する。
【0087】
一態様では、プロセッサルーチン92及びデータ94は、本発明のシステムのソフトウェア命令の少なくとも一部分を提供する非一時的コンピュータ可読媒体(全般的に92と参照される)を含むコンピュータプログラム製品(例えば、1つ又は複数のフラッシュメモリ等のリムーバブル記憶媒体、DVD-ROM、CD-ROM、ディスケット、テープ等)である。コンピュータプログラム製品92は、当技術分野で周知のように、任意の適したソフトウェアインストール手順によってインストールすることができる。別の態様では、ソフトウェア命令の少なくとも一部分は、ケーブル通信及び/又はワイヤレス通信を経由してダウンロードすることもできる。他の態様では、本発明のプログラムは、伝播媒体での伝播信号(例えば無線波、マイクロ波、赤外線波、レーザ波、音波、又はインターネット等のグローバルネットワーク若しくは他のネットワークを経由して伝播する電波)で実施されるコンピュータプログラム伝播信号製品である。そのようなキャリア媒体又は信号は、本発明のルーチン/プログラム92のソフトウェア命令の少なくとも一部分を提供するために採用し得る。
【0088】
本明細書に記載された特許、公開出願、及び引用文献の全ての教示は全体的に、参照により援用される。
【0089】
態様例が具体的に示され記載されたが、添付の特許請求の範囲により包含される態様の範囲から逸脱せずに、形態及び細部の種々の変更を行い得ることが当業者には理解されよう。
なお、本発明は、態様として以下の内容を含む。
〔態様1〕
生体高分子配列の設計を最適化するコンピュータ実施方法であって、
複数の観測生体高分子配列及び各観測生体高分子配列に対応するラベル付き生体高分子配列を使用して機械学習モデルをトレーニングすることと、
複数の生体高分子配列候補を決定して、前記機械学習モデルに基づいて前記ラベル付き生体高分子配列の最高予測値を有するものを観測することと、
各生体高分子配列候補について、前記生体高分子配列候補が前記ラベル付き生体高分子配列の前記予測値を有する尤度を表すコンフォーマル推論区間を特定することと、
前記コンフォーマル推論区間と前記ラベル付き生体高分子配列の前記予測値との最適化された線形結合を有する少なくとも1つの生体高分子配列候補を選択することと、
を含む、コンピュータ実施方法。
〔態様2〕
前記コンフォーマル推論区間は、中心値及び区間範囲を含む、態様1に記載のコンピュータ実施方法。
〔態様3〕
前記中心値は平均値である、態様2に記載のコンピュータ実施方法。
〔態様4〕
前記機械学習モデルは、前記観測生体高分子配列及びそれらのラベルを使用して微調整されたニューラルネットワークである、態様1に記載のコンピュータ実施方法。
〔態様5〕
前記コンフォーマル推論区間を特定することは、観測生体高分子配列の第2のセットに基づく、態様4に記載のコンピュータ実施方法。
〔態様6〕
前記コンフォーマル推論区間を特定することは、
前記観測生体高分子配列の第2のセット及び前記生体高分子配列の第2のセットの各々に対応する、対応するラベル付き生体高分子配列について、前記機械学習モデルの各出力に基づいて残差区間を計算することと、
前記機械学習モデルの各出力について、メトリック空間内の前記観測生体高分子配列の複数の最近傍配列への平均距離を計算することと、
前記平均距離と定数との和に対する前記残差の比率に基づいてコンフォーマルスコアを計算することと、
を更に含む、態様5に記載のコンピュータ実施方法。
〔態様7〕
前記少なくとも1つの生体高分子配列候補を選択することは、
メトリック空間中の複数の最近傍配列への前記メトリック空間中の平均距離を計算することと、
前記少なくとも1つの生体高分子配列候補及び前記平均距離に基づいて信頼区間を生成することと、
前記信頼区間に基づいて少なくとも1つの生体高分子配列候補を選択することと、
を含む、態様5に記載のコンピュータ実施方法。
〔態様8〕
前記コンフォーマル区間は少なくとも50%且つ多くとも99%である、態様1に記載の方法。
〔態様9〕
前記生体高分子配列は、アミノ酸配列、核酸配列、及び炭水化物配列の少なくとも1つを含む、態様1に記載の方法。
〔態様10〕
前記核酸配列はデオキシリボ核酸(DNA)配列又はリボ核酸(RNA)配列である、態様9に記載の方法。
〔態様11〕
前記予測値は、前記生体高分子配列の機能値であり、前記機能は、生体高分子配列の結合親和性、結合特異性、触媒活性、酵素活性、蛍光性、可溶性、熱安定性、構造、免疫原性、及び機能性質の1つ又は複数である、態様1に記載の方法。
〔態様12〕
前記少なくとも1つの生体高分子配列候補を選択することは、前記特定されたコンフォーマル推論区間を分解しないベイズ最適化と比較して増大した性能を有する、態様1に記載の方法。
〔態様13〕
生体高分子配列の設計を最適化するコンピュータ実施方法であって、
複数の観測配列から初期サンプルのラベル付き生体高分子配列を近似するようにモデルをトレーニングすることと、
トレーニングされたモデルによって生成されたラベル付き生体高分子配列及び各観測配列のコンフォーマル区間を有する、前記複数の観測配列の特定のバッチについて、前記複数の観測配列から、前記トレーニングされたモデルによって生成された前記ラベル付き高分子配列と前記コンフォーマル区間との組合せを最適化する少なくとも1つの配列を選ぶことと、
残りの配列の前記コンフォーマル区間を再計算することと、
を含む、コンピュータ実施方法。
〔態様14〕
複数のバッチの各々について、前記少なくとも1つの配列を選ぶこと及び前記コンフォーマル区間を再計算することを繰り返すことを更に含む、態様13に記載のコンピュータ実施方法。
〔態様15〕
並列に実行するバッチ実験の最適数を識別することを更に含む、態様13に記載の方法。
〔態様16〕
識別することは、ウェットラボリソースの最適化に基づく、態様15に記載の方法。
〔態様17〕
データの分布に基づいて設計を最適化するコンピュータ実施方法であって、
複数の観測データ及び各観測データに対応するラベル付きデータを使用して機械学習モデルをトレーニングすることと、
複数のデータ候補を決定して、前記機械学習モデルに基づいて前記ラベル付きデータの最高予測値を有するものを観測することと、
各データ候補について、前記データ候補が前記ラベル付きデータの前記予測値を有する尤度を表すコンフォーマル推論区間を特定することと、
前記コンフォーマル推論区間と前記ラベル付きデータの前記予測値との最適化された線形結合を有する少なくとも1つのデータ候補を選択することと、
を含む、コンピュータ実施方法。
〔態様18〕
前記選択された生体高分子配列を合成する手段に前記少なくとも1つの選択された生体高分子配列を提供することを更に含む、態様1~17の何れか1態様に記載の方法。
〔態様19〕
前記少なくとも1つの選択された生体高分子配列は合成される、態様18に記載の方法。
〔態様20〕
前記少なくとも1つの選択された生体高分子配列を合成することを更に含む、態様1~19の何れか1態様に記載の方法。
〔態様21〕
例えば定性的又は定量的化学アッセイにおいて前記少なくとも1つの選択された生体高分子配列をアッセイすることを更に含む、態様18又は20に記載の方法。
〔態様22〕
生体高分子配列の設計を最適化する命令を記憶した非一時的コンピュータ可読媒体であって、前記命令は、プロセッサによって実行されると、前記プロセッサに、
複数の観測生体高分子配列及び各観測生体高分子配列に対応するラベル付き生体高分子配列を使用して機械学習モデルをトレーニングすることと、
複数の生体高分子配列候補を決定して、前記機械学習モデルに基づいて前記ラベル付き生体高分子配列の最高予測値を有するものを観測することと、
各生体高分子配列候補について、前記生体高分子配列候補が前記ラベル付き生体高分子配列の前記予測値を有する尤度を表すコンフォーマル推論区間を特定することと、
前記コンフォーマル推論区間と前記ラベル付き生体高分子配列の前記予測値との最適化された線形結合を有する少なくとも1つの生体高分子配列候補を選択することと、
を行わせる、非一時的コンピュータ可読媒体。
〔態様23〕
生体高分子配列の設計を最適化するシステムであって、
プロセッサと、
コンピュータコード命令を記憶したメモリと、
を備え、前記プロセッサ及び前記メモリは、前記コンピュータコード命令を用いて、前記システムに、
複数の観測生体高分子配列及び各観測生体高分子配列に対応するラベル付き生体高分子配列を使用して機械学習モデルをトレーニングすることと、
複数の生体高分子配列候補を決定して、前記機械学習モデルに基づいて前記ラベル付き生体高分子配列の最高予測値を有するものを観測することと、
各生体高分子配列候補について、前記生体高分子配列候補が前記ラベル付き生体高分子配列の前記予測値を有する尤度を表すコンフォーマル推論区間を特定することと、
前記コンフォーマル推論区間と前記ラベル付き生体高分子配列の前記予測値との最適化された線形結合を有する少なくとも1つの生体高分子配列候補を選択することと、
を行わせるように構成される、システム。
〔態様24〕
態様1~21の何れか1態様に記載の方法によって取得可能である、1つ又は複数の選択された生体高分子配列。
〔態様25〕
前記1つ又は複数の選択された生体高分子配列は、1つ又は複数の選択されたポリペプチド配列の合成を促進する条件下で、前記1つ又は複数の選択されたポリペプチド配列をコードする1つ又は複数の核酸を含む宿主細胞を培養し、前記1つ又は複数の選択されたポリペプチド配列を単離する方法によって製造された前記1つ又は複数の選択されたポリペプチド配列である、態様24に記載の1つ又は複数の選択された生体高分子配列。
〔態様26〕
前記1つ又は複数の選択された生体高分子配列は、薬学的に許容可能な賦形剤を含む、態様24又は25に記載の1つ又は複数の選択された生体高分子配列を含む組成物。
〔態様27〕
態様24~26の何れか1態様に記載の組成物又は選択された生体高分子配列をテスト化合物、生体流体、細胞、組織、臓器、又は生物の1つ又は複数と接触させることを含む方法。
図1A
図1B
図1C
図1D
図1E
図1F
図1G
図1H
図1I
図2
図3
図4
図5
図6
図7