特許7698654 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ フラッグシップ・パイオニアリング・イノベーションズ・ブイアイ，エルエルシーの特許一覧

特許7698654最適化のためのコンフォーマル推論

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
1D
1E
1F
1G
1H
1I
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-06-17

(45)【発行日】2025-06-25

(54)【発明の名称】最適化のためのコンフォーマル推論

(51)【国際特許分類】

G16B 40/20 20190101AFI20250618BHJP

G16B 30/00 20190101ALI20250618BHJP

【ＦＩ】

G16B40/20

G16B30/00

【請求項の数】 23

(21)【出願番号】P 2022546359

(86)(22)【出願日】2021-01-29

(65)【公表番号】

(43)【公表日】2023-03-23

(86)【国際出願番号】 US2021015848

(87)【国際公開番号】W WO2021155245

(87)【国際公開日】2021-08-05

【審査請求日】2024-01-17

(31)【優先権主張番号】62/967,941

(32)【優先日】2020-01-30

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】521353768

【氏名又は名称】フラッグシップ・パイオニアリング・イノベーションズ・ブイアイ，エルエルシー

【氏名又は名称原語表記】ＦＬＡＧＳＨＩＰＰＩＯＮＥＥＲＩＮＧＩＮＮＯＶＡＴＩＯＮＳＶＩ，ＬＬＣ

(74)【代理人】

【識別番号】100087941

【弁理士】

【氏名又は名称】杉本修司

(74)【代理人】

【識別番号】100112829

【弁理士】

【氏名又は名称】堤健郎

(74)【代理人】

【識別番号】100142608

【弁理士】

【氏名又は名称】小林由佳

(74)【代理人】

【識別番号】100155963

【弁理士】

【氏名又は名称】金子大輔

(74)【代理人】

【識別番号】100154771

【弁理士】

【氏名又は名称】中田健一

(74)【代理人】

【識別番号】100150566

【弁理士】

【氏名又は名称】谷口洋樹

(74)【代理人】

【識別番号】100213470

【弁理士】

【氏名又は名称】中尾真二

(74)【代理人】

【識別番号】100220489

【弁理士】

【氏名又は名称】笹沼崇

(74)【代理人】

【識別番号】100187469

【弁理士】

【氏名又は名称】橋詰由子

(74)【代理人】

【識別番号】100225026

【弁理士】

【氏名又は名称】古後亜紀

(72)【発明者】

【氏名】ギブソン・モリー・クリサン

(72)【発明者】

【氏名】ヤン・ケビン・カイチュアン

(72)【発明者】

【氏名】バラノフ・マキシム

(72)【発明者】

【氏名】ビーム・アンドリュー・レーン

【審査官】塩田徳彦

(56)【参考文献】

【文献】Isidro Cortes-Ciriano, Andreas Bender，Deep Confidence: A Computationally Efficient Framework for Calculating Reliable Errors for Deep Neural Networks，[online]，2018年09月18日，DOI:https://doi.org/10.1021/acs.jcim.8b00542，［検索日 2024.09.12］，取得先＜ＵＲＬ：https://arxiv.org/abs/1809.09060＞

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１６Ｂ５／００－９９／００

(57)【特許請求の範囲】

【請求項1】

生体高分子配列の設計を最適化するコンピュータ実施方法であって、
複数の観測生体高分子配列及び各観測生体高分子配列に対応するラベル付き生体高分子配列を使用して機械学習モデルをトレーニングすることと、
複数の生体高分子配列候補を決定して、前記機械学習モデルに基づいて前記ラベル付き生体高分子配列の最高予測値を有するものを観測することと、
各生体高分子配列候補について、前記生体高分子配列候補が前記ラベル付き生体高分子配列の前記最高予測値を有する尤度を表すコンフォーマル推論区間を特定することと、
前記コンフォーマル推論区間と前記ラベル付き生体高分子配列の前記最高予測値との最適化された線形結合を有する少なくとも１つの生体高分子配列候補を選択することと、
を含む、コンピュータ実施方法。

【請求項2】

前記コンフォーマル推論区間は、中心値及び区間範囲を含む、請求項１に記載のコンピュータ実施方法。

【請求項3】

前記中心値は平均値である、請求項２に記載のコンピュータ実施方法。

【請求項4】

前記機械学習モデルは、前記観測生体高分子配列及びそれらのラベルを使用して微調整されたニューラルネットワークである、請求項１に記載のコンピュータ実施方法。

【請求項5】

前記コンフォーマル推論区間を特定することは、観測生体高分子配列の第２のセットに基づく、請求項４に記載のコンピュータ実施方法。

【請求項6】

前記コンフォーマル推論区間を特定することは、
前記観測生体高分子配列の第２のセット及び前記生体高分子配列の第２のセットの各々に対応する、対応するラベル付き生体高分子配列について、前記機械学習モデルの各出力に基づいて残差区間を計算することと、
前記機械学習モデルの各出力について、メトリック空間内の前記観測生体高分子配列の複数の最近傍配列への平均距離を計算することと、
前記平均距離と定数との和に対する前記残差の比率に基づいてコンフォーマルスコアを計算することと、
を更に含む、請求項５に記載のコンピュータ実施方法。

【請求項7】

前記少なくとも１つの生体高分子配列候補を選択することは、
メトリック空間中の複数の最近傍配列への前記メトリック空間中の平均距離を計算することと、
前記少なくとも１つの生体高分子配列候補及び前記平均距離に基づいて信頼区間を生成することと、
前記生成された信頼区間に基づいて前記少なくとも１つの生体高分子配列候補を選択することと、
を含む、請求項５に記載のコンピュータ実施方法。

【請求項8】

前記特定されたコンフォーマル推論区間は少なくとも５０％且つ多くとも９９％である、請求項１に記載のコンピュータ実施方法。

【請求項9】

前記少なくとも１つの選択された生体高分子配列候補は、アミノ酸配列、核酸配列、及び炭水化物配列の少なくとも１つを含む、請求項１に記載のコンピュータ実施方法。

【請求項10】

前記核酸配列はデオキシリボ核酸（ＤＮＡ）配列又はリボ核酸（ＲＮＡ）配列である、請求項９に記載のコンピュータ実施方法。

【請求項11】

前記最高予測値は、前記生体高分子配列の機能値であり、前記機能値は、生体高分子配列の結合親和性、結合特異性、触媒活性、酵素活性、蛍光性、可溶性、熱安定性、構造、免疫原性、及び機能性質の１つ又は複数である、請求項１に記載のコンピュータ実施方法。

【請求項12】

前記少なくとも１つの生体高分子配列候補を選択することは、前記特定されたコンフォーマル推論区間を分解しないベイズ最適化と比較して増大した性能を有する、請求項１に記載のコンピュータ実施方法。

【請求項13】

生体高分子配列の設計を最適化するコンピュータ実施方法であって、
複数の観測配列から初期サンプルのラベル付き生体高分子配列を近似するようにモデルをトレーニングすることと、
前記トレーニングされたモデルによって生成されたラベル付き生体高分子配列及び各観測配列のコンフォーマル区間を有する、前記複数の観測配列の特定のバッチについて、前記複数の観測配列から、前記トレーニングされたモデルによって生成された前記ラベル付き高分子配列と前記コンフォーマル区間との組合せを最適化する少なくとも１つの配列を選ぶことと、
残りの配列の前記コンフォーマル区間を再計算することと、
を含む、コンピュータ実施方法。

【請求項14】

複数のバッチの各々について、前記少なくとも１つの配列を選ぶこと及び前記コンフォーマル区間を再計算することを繰り返すことを更に含む、請求項１３に記載のコンピュータ実施方法。

【請求項15】

並列に実行するバッチ実験の最適数を識別することを更に含む、請求項１３に記載のコンピュータ実施方法。

【請求項16】

前記識別することは、ウェットラボリソースの最適化に基づく、請求項１５に記載のコンピュータ実施方法。

【請求項17】

データの分布に基づいて設計を最適化するコンピュータ実施方法であって、
複数の観測データ及び各観測データに対応するラベル付きデータを使用して機械学習モデルをトレーニングすることと、
複数のデータ候補を決定して、前記機械学習モデルに基づいて前記ラベル付きデータの最高予測値を有するものを観測することと、
各データ候補について、前記データ候補が前記ラベル付きデータの前記最高予測値を有する尤度を表すコンフォーマル推論区間を特定することと、
前記コンフォーマル推論区間と前記ラベル付きデータの前記最高予測値との最適化された線形結合を有する少なくとも１つのデータ候補を選択することであって、前記少なくとも１つの選択されたデータ候補が、少なくとも１つの選択された生体高分子配列候補に対応する、選択することと、
を含む、コンピュータ実施方法。

【請求項18】

前記少なくとも１つの選択された生体高分子配列候補を合成する手段に前記少なくとも１つの選択された生体高分子配列候補を提供することを更に含む、請求項１～１７の何れか１項に記載のコンピュータ実施方法。

【請求項19】

前記少なくとも１つの選択された生体高分子配列候補は合成される、請求項１８に記載のコンピュータ実施方法。

【請求項20】

前記少なくとも１つの選択された生体高分子配列候補を合成することを更に含む、請求項１～１９の何れか１項に記載のコンピュータ実施方法。

【請求項21】

定性的化学アッセイ又は定量的化学アッセイにおいて前記少なくとも１つの選択された生体高分子配列候補をアッセイすることを更に含む、請求項１８又は２０に記載のコンピュータ実施方法。

【請求項22】

生体高分子配列の設計を最適化する命令を記憶した非一時的コンピュータ可読媒体であって、前記命令は、プロセッサによって実行されると、前記プロセッサに、
複数の観測生体高分子配列及び各観測生体高分子配列に対応するラベル付き生体高分子配列を使用して機械学習モデルをトレーニングすることと、
複数の生体高分子配列候補を決定して、前記機械学習モデルに基づいて前記ラベル付き生体高分子配列の最高予測値を有するものを観測することと、
各生体高分子配列候補について、前記生体高分子配列候補が前記ラベル付き生体高分子配列の前記最高予測値を有する尤度を表すコンフォーマル推論区間を特定することと、
前記コンフォーマル推論区間と前記ラベル付き生体高分子配列の前記最高予測値との最適化された線形結合を有する少なくとも１つの生体高分子配列候補を選択することと、
を行わせる、非一時的コンピュータ可読媒体。

【請求項23】

生体高分子配列の設計を最適化するシステムであって、
プロセッサと、
コンピュータコード命令を記憶したメモリと、
を備え、前記プロセッサ及び前記メモリは、前記コンピュータコード命令を用いて、前記システムに、
複数の観測生体高分子配列及び各観測生体高分子配列に対応するラベル付き生体高分子配列を使用して機械学習モデルをトレーニングすることと、
複数の生体高分子配列候補を決定して、前記機械学習モデルに基づいて前記ラベル付き生体高分子配列の最高予測値を有するものを観測することと、
各生体高分子配列候補について、前記生体高分子配列候補が前記ラベル付き生体高分子配列の前記最高予測値を有する尤度を表すコンフォーマル推論区間を特定することと、
前記コンフォーマル推論区間と前記ラベル付き生体高分子配列の前記最高予測値との最適化された線形結合を有する少なくとも１つの生体高分子配列候補を選択することと、
を行わせるように構成される、システム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願
本願は、２０２０年１月３０日付けで出願された米国特許出願第６２／９６７，９４１号の利益を主張するものである。上記出願の教示全体は参照により本明細書に援用される。

【背景技術】

【0002】

機械学習は一般に、所与のタスクを実行するためにコンピュータ実施方法が利用することができる統計モデルを採用する。多くの場合、機械学習法によって採用される統計モデルは、パターンを検出し、上記パターンを使用して将来の挙動を予測する。機械学習法によって採用される統計モデル及びニューラルネットワークは典型的には、現実世界のデータを用いてトレーニングされ、機械学習法は上記現実世界のデータを利用して、将来の挙動を予測する。

【発明の概要】

【発明が解決しようとする課題】

【0003】

したがって、より少ないトレーニングデータを使用してデータのよりよい予測を提供する改良された機械学習モデルが必要とされている。正確な機能推定及び十分に較正された不確実性は、ベイズ最適化（ＢＯ）にとって重要である。ＢＯの最も理論的な保証は、ガウス過程（ＧＰ）事前から導出される代理を用いて目的関数をモデリングする方法について確立される。ＧＰ事前は、生体高分子配列等の離散した高次元組み合わせ空間にはあまり適さない。ニューラルネットワーク（ＮＮ）を代理関数として使用することにより、より正確な機能推定を得ることができる。ＮＮを使用することにより、任意の複雑なモデルが可能になり、ＧＰ事前仮定をなくすことができ、且つ低データＢＯレジームで有益である容易な事前トレーニングが可能になる。しかしながら、ＮＮにおける不確実性の完全ベイズ処理は扱いにくいままであり、最近の結果は、近似推論が、真の事後をあまりはんえいしない推定に繋がり得ることを示している。コンフォーマル推論最適化（ＣＩ－ＯＰＴ：ＣｏｎｆｏｒｍａｌＩｎｆｅｒｅｎｃｅＯｐｔｉｍｉｚａｔｉｏｎ）は、コンフォーマル推論を特定のＢＯ取得関数における事後不確実性の代わりとして使用して計算された信頼区間を使用する。現在の方法は、取り扱いにくいことに起因してコンフォーマル推論をＢＯと組み合わせないが、本出願人は、合成最適化タスク、標準ＢＯデータセット、及び現実正解のタンパク質データセットで有効である最適化に適した性質を有するコンフォーマルスコア付け関数を開示する。

【課題を解決するための手段】

【0004】

一態様では、生体高分子配列の設計を最適化するコンピュータ実施方法は、観測生体高分子配列及び各観測生体高分子配列に対応するラベル付き生体高分子配列を使用して機械学習モデルをトレーニングすることを含むことができる。ラベル付き配列は、対象となる何らかの性質を測定する実数が関連付けられた配列である。本方法は、生体高分子配列候補を決定して、機械学習モデルに基づいてラベル付き生体高分子配列の最高予測値を有するものを観測することを更に含むことができる。生体高分子配列候補は、既知の配列（例えば先に直面した配列、先に観測された配列、又は自然配列）又は新たに設計された配列の何れかを含むことができる。本方法は、各生体高分子配列候補について、生体高分子配列候補がラベル付き生体高分子配列の予測値を有する尤度を表すコンフォーマル推論区間を特定することを更に含むことができる。本方法は、コンフォーマル推論区間とラベル付き生体高分子配列の予測値との最適化された線形結合を有する少なくとも１つの生体高分子配列候補を選択することを更に含むことができる。

【0005】

一態様では、ラベル付き配列の値は、上述したようにラベルとして使用される数である。したがって、配列の予測値は配列の予測ラベルである。機械学習分野の当業者ならば、ラベルのそのような定義を理解することができる。配列又はデータ点は機械学習入力（ｘ）であり、予測／測定／最適化はラベル（ｙ）である。

【0006】

態様では、コンフォーマル推論区間は、中心値及び区間範囲を含む。中心値は平均値であることができる。

【0007】

態様では、機械学習モデルは、観測生体高分子配列及びそれらのラベルを使用して微調整されたニューラルネットワークである。微調整されたニューラルネットワークは、より小さなデータセットへの初期重みとしてそれらの重みを使用する大きなデータセットで事前トレーニングされるニューラルネットワークである。微調整は、トレーニングを加速させることができ、小さなデータセットサイズを克服することができる。一態様では、コンフォーマル推論区間を特定することは、観測生体高分子配列の第２のセットに基づく。配列の第２のセットは、コンフォーマルスコアの調整に使用されるシーケンスのセットである。

【0008】

一態様では、コンフォーマル推論区間を特定することは、観測生体高分子配列の第２のセット及び生体高分子配列の第２のセットの各々に対応する、対応するラベル付き生体高分子配列について、機械学習モデルの各出力に基づいて残差区間を計算することを更に含むことができる。コンフォーマル推論区間を特定することは、機械学習モデルの各出力について、メトリック空間内の観測生体高分子配列の複数の最近傍配列への平均距離を計算することを更に含むことができる。コンフォーマル推論区間を特定することは、平均距離と定数との和に対する残差の比率に基づいてコンフォーマルスコアを計算することを更に含むことができる。後述するように、メトリック空間は、可能な配列のセットである。メトリックの一例はレーベンシュタイン距離であることができる。態様では、定数は各反復で変わることができる。

【0009】

一態様では、少なくとも１つの生体高分子配列候補を選択することは、メトリック空間中の複数の最近傍配列へのメトリック空間中の平均距離を計算することと、少なくとも１つの生体高分子配列候補及び平均距離に基づいて信頼区間を生成することと、信頼区間に基づいて少なくとも１つの生体高分子配列候補を選択することとを含む。

【0010】

態様では、コンフォーマル区間は少なくとも５０％且つ多くとも９９％であることができる。生体高分子配列は、アミノ酸配列、核酸配列、及び炭水化物配列の少なくとも１つを含むことができる。核酸配列はデオキシリボ核酸（ＤＮＡ）配列又はリボ核酸（ＲＮＡ）配列であることができる。アミノ酸配列は、例えば酵素、成長因子、サイトカイン、ホルモン、シグナリングタンパク質、コンフォーマルタンパク質、運動タンパク質、抗体（免疫グロブリン系分子及び代替分子足場（ａｌｔｅｒｎａｔｉｖｅｍｏｌｅｃｕｌａｒｓｃａｆｆｏｌｄ）の両方を含む）、並びに融合タンパク質及び共役を含む上記の組合せ等の全てのタンパク質を含む任意の配列であることができる。

【0011】

一態様では、高分子配列の設計を最適化するコンピュータ実施方法及び対応するシステムは、複数の観測配列から初期サンプルのラベル付き生体高分子配列を近似するようにモデルをトレーニングすることを含むことができる。本方法は、トレーニングされたモデルによって生成されたラベル付き生体高分子配列及び各観測配列のコンフォーマル区間を有する、複数の観測配列の特定のバッチについて、複数の観測配列から、トレーニングされたモデルによって生成されたラベル付き高分子配列とコンフォーマル区間との組合せを最適化する少なくとも１つの配列を選ぶことを更に含むことができる。本方法は、残りの配列のコンフォーマル区間を再計算することを更に含むことができる。

【0012】

態様では、本方法は、複数のバッチの各々について、少なくとも１つの配列を選ぶこと及びコンフォーマル区間を再計算することを繰り返すことを更に含むことができる。態様では、本方法は、並列に実行するバッチ実験の最適数を識別することを更に含むことができる。態様では、識別することは、ウェットラボリソースの最適化に基づくことができる。

【0013】

一態様では、コンピュータ実施方法は、メトリック空間内のデータ点及び各観測データ点に対応する機能値を使用して機械学習モデルをトレーニングすることを含むことができる。機能値は、データ点の対象となる何らかの性質を測定する実数である。本方法は、データ点候補を決定して、機械学習モデルに基づいて最高予測機能値を有するものを観測することを更に含むことができる。データ点候補は、既知のデータ点（例えば先に直面したデータ点、先に観測されたデータ点、又は自然のデータ点）又は新たに設計されたデータ点を含むことができる。本方法は、各データ点候補について、データ点候補がデータ点の予測機能値を有する尤度を表すコンフォーマル推論区間を特定することを更に含むことができる。本方法は、コンフォーマル推論区間とデータ点の予測機能値のとの最適な線形結合を有する少なくとも１つのデータ点候補を選択することを更に含むことができる。当業者ならば、画像、ビデオ、オーディオ、他のメディア、及び機械学習モデルによって解釈することができる他のデータを含むことができることを認識することができる。

【0014】

一態様では、コンピュータ実施方法及び対応するシステムは、複数の観測データ点から初期サンプルの機能値データ点を近似するようにモデルをトレーニングすることを含むことができる。本方法は、トレーニングされたモデルによって生成された機能値及び各観測データ点のコンフォーマル区間を有する、複数の観測データ点のうちの特定のバッチについて、複数のデータ点から、トレーニングされたモデルによって生成されたラベル付きデータ点とコンフォーマル区間との組合せを最適化する少なくとも１つの配列を選ぶことを更に含むことができる。本方法は、残りのデータ点のコンフォーマル区間を再計算することを更に含むことができる。

【0015】

態様では、データの分布に基づいて設計を最適化するコンピュータ実施方法は、複数の観測データ及び各観測データに対応するラベル付きデータを使用して機械学習モデルをトレーニングすることを含む。本方法は、複数のデータ候補を決定して、機械学習モデルに基づいてラベル付きデータの最高予測値を有するものを観測することを更に含むことができる。本方法は、各データ候補について、データ候補がラベル付きデータの予測値を有する尤度を表すコンフォーマル推論区間を特定することを更に含むことができる。本方法は、コンフォーマル推論区間とラベル付きデータの予測値との最適化された線形結合を有する少なくとも１つのデータ候補を選択することを更に含むことができる。

【0016】

態様では、上記方法は、選択された生体高分子配列を合成する手段に少なくとも１つの選択された生体高分子配列を提供することを更に含み、任意選択的に少なくとも１つの選択された生体高分子配列は合成される。

【0017】

態様では、本方法は、少なくとも１つの選択された生体高分子配列を合成することを更に含む。

【0018】

態様では、本方法は、少なくとも１つの選択された生体高分子配列をアッセイする（定性的又は定量的化学アッセイ）ことを更に含む。

【0019】

態様では、非一時的コンピュータ可読媒体が、生体高分子配列の設計を最適化する命令を記憶するように構成される。命令は、プロセッサによって実行されると、プロセッサに、複数の観測生体高分子配列及び各観測生体高分子配列に対応するラベル付き生体高分子配列を使用して機械学習モデルをトレーニングすることと、複数の生体高分子配列候補を決定して、機械学習モデルに基づいてラベル付き生体高分子配列の最高予測値を有するものを観測することと、各生体高分子配列候補について、生体高分子配列候補がラベル付き生体高分子配列の予測値を有する尤度を表すコンフォーマル推論区間を特定することと、コンフォーマル推論区間とラベル付き生体高分子配列の予測値との最適化された線形結合を有する少なくとも１つの生体高分子配列候補を選択することとを行わせる。

【0020】

態様では、生体高分子配列の設計を最適化するシステムは、プロセッサと、コンピュータコード命令を記憶したメモリとを含む。プロセッサ及びメモリは、コンピュータコード命令を用いて、システムに、複数の観測生体高分子配列及び各観測生体高分子配列に対応するラベル付き生体高分子配列を使用して機械学習モデルをトレーニングすることと、複数の生体高分子配列候補を決定して、機械学習モデルに基づいてラベル付き生体高分子配列の最高予測値を有するものを観測することと、各生体高分子配列候補について、生体高分子配列候補がラベル付き生体高分子配列の予測値を有する尤度を表すコンフォーマル推論区間を特定することと、コンフォーマル推論区間とラベル付き生体高分子配列の予測値との最適化された線形結合を有する少なくとも１つの生体高分子配列候補を選択することとを行わせるように構成される。

【0021】

態様では、本明細書に開示されるのは、先行クレームの何れか１つに記載の方法によって取得可能である、１つ又は複数の選択された生体高分子配列である。

【0022】

態様では、１つ又は複数の選択された生体高分子配列は、化学合成のｉｎｖｉｔｒｏ方法によって製造される。他の態様では、１つ又は複数の選択された生体高分子配列は、細菌系、真菌系、又は動物（例えば昆虫又は哺乳類）系等の例えば細胞に基づく系を使用して生合成によって製造される。例えば、幾つかの態様では、１つ又は複数の選択された生体高分子配列は、１つ又は複数の選択されたポリペプチド配列である。特定のより具体的な態様では、１つ又は複数の選択されたポリペプチド配列は、例えばペプチド合成機において化学合成によって製造される。他のより具体的な態様では、１つ又は複数の選択された生体高分子配列は生物系によって合成され、これは例えば、１つ又は複数の核酸配列（発現ベクター中の）を生物系（例えば宿主細胞又は転写及び翻訳系等のｉｎｖｉｔｒｏ翻訳系）に提供するステップと、１つ又は複数の選択されたポリペプチド配列の合成を促進する条件下で生物系を培養するステップと、合成された１つ又は複数の選択されたポリペプチド配列を系から単離するステップとからなる。

【0023】

態様では、組成物は、任意選択的に薬学的に許容可能な賦形剤を含む１つ又は複数の選択された高分子配列を含む。

【0024】

態様では、方法は、先行クレームの何れか１つに記載の組成物又は選択された生体高分子配列をテスト化合物、生体流体、細胞、組織、臓器、又は生物の１つ又は複数と接触させることを含む。

【0025】

特許又は出願ファイルは、カラーで実行される少なくとも１つの図面を含む。カラー図面を有するこの特許又は特許出願公開のコピーは、要求され、必要料金が支払われた上で特許庁により提供される。

【0026】

上記は、添付図面に示される態様例の以下のより具体的な説明から明らかになり、添付図面中、様々な図全体を通して同様の参照文字は同じ部分を指す。図面は必ずしも一定の縮尺ではなく、代わりに態様を例示することに重点が置かれている。

【図面の簡単な説明】

【0027】

【図1A】２つの合成タスクでの順次最適化の結果を示すグラフである。

【図1B】２つの合成タスクでの順次最適化の結果を示すグラフである。

【図1C】タンパク質データセットでの順次最適化の結果を示すグラフである。

【図1D】タンパク質データセットでのバッチ最適化の同様の結果を示すグラフである。

【図1E】タンパク質データセットでの順次最適化の結果を示すグラフである。

【図1F】タンパク質データセットでのバッチ最適化の同様の結果を示すグラフである。

【図1G】ＧＰ事後、ニューラルネットワーク残差推定器を用いたコンフォーマル推論、及びスケールドｋ最近傍を用いたコンフォーマル推論から計算された不確実性を比較する。

【図1H】ＧＰ事後、ニューラルネットワーク残差推定器を用いたコンフォーマル推論、及びスケールドｋ最近傍を用いたコンフォーマル推論から計算された不確実性を比較する。

【図1I】ＧＰ事後、ニューラルネットワーク残差推定器を用いたコンフォーマル推論、及びスケールドｋ最近傍を用いたコンフォーマル推論から計算された不確実性を比較する。

【図2】本開示におけるような配列空間において最近傍を使用して微調整ニューラルネットワークからの予測の信頼区間を計算する一態様例を示す流れ図である。

【図3】上記コンフォーマル区間を使用してバッチ最適化する方法の一態様例を有する流れ図である。

【図4】本開示の一態様例を示す流れ図である。

【図5】本開示の一態様例を示す流れ図である。

【図6】本発明の態様を実施し得るコンピュータネットワーク又は同様のデジタル処理環境を示す。

【図7】図６のコンピュータシステムにおけるコンピュータ（例えばクライアントプロセッサ／デバイス又はサーバコンピュータ）の内部構造例の図である。

【発明を実施するための形態】

【0028】

態様例の説明は以下である。

【0029】

ベイズ最適化（ＢＯ）は、ブラックボックス関数を最適化する、普及している技法である。ＢＯの用途には特に、実験的設計、ハイパーパラメータ調整、及び制御システムがある。従来のＢＯ法は、目的関数又は真関数の観測によって誘導される事後からの十分に較正された不確実性に頼る。目的関数は、最適化すべき性質である。例えば、システムが生体高分子を最適化している場合、目的関数は生体高分子の性質を最適化し得る。不確実性を使用して決定をガイドすることにより、ＢＯは特に低データ状況で強力になる。Ｒｉｑｕｅｌｍｅらによる“ＤｅｅｐＢａｙｅｓｉａｎＢａｎｄｉｔｓＳｈｏｗｄｏｗｎ：ＡｎＥｍｐｉｒｉｃａｌＣｏｍｐａｒｉｓｏｎｏｆＢａｙｅｓｉａｎＤｅｅｐＮｅｔｗｏｒｋｓｆｏｒＴｈｏｍｐｓｏｎＳａｍｐｌｉｎｇ”，ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１８０２．０９１２７，（２０１８）（以下「Ｒｉｑｕｅｌｍｅ」）に示される等の現在の実施態様は、正確な機能推定及び十分に較正された不確実性の両方が、現実世界の問題での強力な性能にとって重要であることを示す。

【0030】

ＢＯの最も理論的な保証は、ガウス過程（ＧＰ）事前から導出される代理を用いて目的関数をモデリングする方法について確立される。関数がＧＰ事前から大きく違反する場合、生成される事後確率は真関数の不良な推定であり得、誤較正された不確実性であり得、又はそれら両方であり得る。これは、特に設計空間が離散し、組み合わせ（例えばタンパク質配列等の生体高分子配列）である場合、重要であり、その理由は、大半のＧＰ事前は低次元連続空間に向けて設計され、これらのタイプの空間の良好な代理ではないことがあるためである。

【0031】

より正確な機能推定を得る一方法は、代理関数としてニューラルネットワークを使用することである。代理関数は、目的／真関数をモデリングする関数である。任意の複雑なモデルを可能にし、ＧＰ事前仮定をなくすことに加えて、ニューラルネットワークの使用により事前トレーニングが可能になり、これは低データＢＯレジームにおいて特に有益であることができる。しかしながら、ハミルトニアンモンテカルロを使用して事後を推定する等のニューラルネットワークにおける不確実性の完全ベイズ処理は、計算的に扱いにくいままであり、最近の結果では、近似的推論が、真の事後をあまり反映しない推定を生成し得ることが示されている。一代替は、代理関数としてニューラルネットワークの上にベイズ線形回帰を使用することである。Ｒｉｑｕｅｌｍｅの方法は、ＢＯタスクでの異なる近似ベイズ不確実性定量化法の性能を比較する。

【0032】

コンフォーマル推論は集合的に、不確実性定量化法の一ファミリを指す。コンフォーマル推論法は、データが交換可能であるという仮定の下で有効な較正済み予測区間を提供する。当業者ならば、交換可能データが、各インデックスの任意の置換で方程式ｐ（ｘ_１，ｘ_２，．．．ｘ_ｎ）＝ｐ（ｘ_ｓ１，ｘ_ｓ２，．．．，ｘ_ｓｎ）と一致することを認識することができる。ＧＰモデル等のベイズ法とは異なり、コンフォーマル推論は、データ又は目的関数についての強力な根本的仮定に頼らない。コンフォーマル推論は、任意の機械学習モデルの上に適用することもでき、それにより、ベイズ推論が適さない大きな事前トレーニング済みモデル等の近代の深層学習技術の上に有効な予測区間を構築できるようになる。

【0033】

本開示の一態様では、方法及び対応するシステムは、ベイズ最適化法と共にコンフォーマル信頼区間を採用する。ベイズ最適化法とのコンフォーマル信頼区間の組合せは、以下、コンフォーマル推論最適化（ＣＩ－ＯＰＴ）と呼ばれる。ＣＩ－ＯＰＴは、特定のＢＯ取得関数における事後不確実性のドロップイン置換としてコンフォーマル推論を使用して計算される信頼区間を採用する。

【0034】

高レベルにおいて、解くべき問題は、ある決定セット

【数1】

にわたるある関数ｆ（ｘ）の最大を見つけることが最初の目標であることとして説明することができる。真関数ｆ（ｘ）は未知であるが、関数評価は既知である。しかし、上記関数評価はノイジーである可能性がある。より有価値な関数評価は、計算が高価であり、したがって、可能な限り少ない関数評価でｆを最大化することが望まれる。例えば、ｆがタンパク質配列の適合性を表す関数であると考える。さらに、クエリ点のバッチを並列評価することは、同じクエリを順次評価するよりも計算的にはるかに安価であり得る。

【0035】

Ｓｈａｈｒｉａｒｉらによる“ＴａｋｉｎｇｔｈｅＨｕｍａｎｏｕｔｏｆｔｈｅＬｏｏｐ：ＡＲｅｖｉｅｗｏｆＢａｙｅｓｉａｎＯｐｔｉｍｉｚａｔｉｏｎ”，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ，１０４（１）：１４８－１７５（２０１５）（以下「Ｓｈａｈｒｉａｒｉ」）に更に記載されるように、現在のベイズ最適化手法及び方法は、事前をｆに配置することによって開始された。時間ステップｔ＋１において、恐らくはノイジーな、場所Ｘ_ｔ＝｛ｘ_１，．．．，ｘ_ｔ｝における前の観測Ｙ_ｔ＝｛ｙ_１，．．．，ｙ_ｔ｝は、ｆの事後分布を誘導する。取得関数ａ（ｘ，ｔ）は、プロキシ最適化ｘ_ｔ＋１＝ａｒｇｍａｘ_ｘａ（ｘ｜Ｄ_ｔ，ｔ）を介してＸにおけるどの点を次に問い合わせるかを決定し、Ｄ_ｔ＝｛Ｘ_ｔ，ｙ_ｔ｝である。取得関数はｆにわたる事後を使用して、前のクエリから得られた情報の利用と高い不確実性を有する領域の利用とをバランスさせる。

【0036】

ガウス過程は、関数事前の一般的な選択である（例えばＷｉｌｌｉａｍｓら“Ｇａｕｓｓｉａｎｐｒｏｃｅｓｓｅｓｆｏｒｍａｃｈｉｎｅｌｅａｒｎｉｎｇ，”Ｖｏｌｕｍｅ２．ＭＩＴｐｒｅｓｓＣａｍｂｒｉｄｇｅ，ＭＡ，２００６）（以下「Ｗｉｌｌｉａｍｓ」）参照）。ＧＰは、ランダム変数のあらゆる有限サブセットが多変量ガウス分布を有するようなランダム変数の無限の集まりである。ＧＰモデルは、未知の真関数がＧＰ事前から導出され、次いでＧＰモデルが観測を使用して関数にわたる事後を計算すると仮定する。ＧＰモデルの主要な利点は、事後の単純な閉形式解があることであり、それにより、ＧＰモデルはベイズ最適化の最も普及している理論的ツールの１つになっている。各ステップにおけるＧＰ事後は閉形式で周辺化されて、予測平均μ_ｔ（ｘ）及び標準偏差σ_ｔ（ｘ）に到達し、

【数2】

である。

【0037】

顕著な取得関数は以下を含む。
ａ）Ｊｏｎｅｓらによる“ＥｆｆｉｃｉｅｎｔＧｌｏｂａｌＯｐｔｉｍｉｚａｔｉｏｎｏｆＥｘｐｅｎｓｉｖｅＢｌａｃｋ－ＢｏｘＦｕｎｃｔｉｏｎｓ”，ＪｏｕｒｎａｌｏｆＧｌｏｂａｌｏｐｔｉｍｉｚａｔｉｏｎ，１３（４）：４５５－４９２，１９９８（以下「Ｊｏｎｅｓ」）に示されるように、期待される改良：

【数3】

式中、ｆ（ｘ^＊）はＤ_ｔで観測される最良（例えば最大）評価であり、
ａ）Ｓｒｉｎｉｖａｓらによる“ＧａｕｓｓｉａｎＰｒｏｃｅｓｓＯｐｔｉｍｉｚａｔｉｏｎｉｎｔｈｅＢａｎｄｉｔＳｅｔｔｉｎｇ：ＮｏＲｅｇｒｅｔａｎｄＥｘｐｅｒｉｍｅｎｔａｌＤｅｓｉｇｎ．”，ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：０９１２．３９９５，２００９（以下「Ｓｒｉｎｉｖａｓ」）に示されるように、ガウス過程信頼上限（ＧＰ－ＵＣＢ）は、
ａ_ＵＣＢ（ｘ｜Ｄ_ｔ，ｔ）＝μ_ｔ（ｘ）＋β_ｔσ_ｔ（ｘ）（式２）
であり、式中、β_ｔは、探索と活用との間のトレードオフを制御する調整可能なハイパーパラメータであり、
ａ）Ｃｏｎｔａｌらによる“ＧａｕｓｓｉａｎＰｒｏｃｅｓｓＯｐｔｉｍｉｚａｔｉｏｎｗｉｔｈＭｕｔｕａｌＩｎｆｏｒｍａｔｉｏｎ”，ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，ｐｐ．２５３－２６１，２０１４（以下「Ｃｏｎｔａｌ」）に示されるように、ＧＰ－ＵＣＢよりも過剰探索を受けにくいガウス過程相互情報（ＧＰ－ＭＩ）：

【数4】

式中、αは調整可能ハイパーパラメータであり、

【数5】

である。

【0038】

より一般的には、観測は厳密に順次の代わりにバッチで問い合わせ得る。バッチ設定では、時間ｔ＋１において、Ｂアイテムｘ_ｒ，．．．，ｘ_{ｒ＋Ｂ－１}のセットは、場所Ｘ_ｔ＝｛ｘ_１，．．．，ｘ_ｔ｝における（恐らくはノイジーな）前の観測ｙ_ｔ＝｛ｙ_１，．．．，ｙ_ｔ｝に基づいて問い合わせに選択される。一般に、Ｂはあらゆる反復において適応的に選ぶことができる（例えばＤｅｓａｕｔｅｌｓらによる“Ｐａｒａｌｌｅｌｉｚｉｎｇｅｘｐｌｏｒａｔｉｏｎ－ｅｘｐｌｏｉｔａｔｉｏｎｔｒａｄｅｏｆｆｓｉｎｇａｕｓｓｉａｎｐｒｏｃｅｓｓｂａｎｄｉｔｏｐｔｉｍｉｚａｔｉｏｎ”，ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，１５：３８７３－３９２３，２０１４（以下「Ｄｅｓａｕｔｅｌｓ」）参照）が、この例では、バッチサイズが固定される設定を探索する。多くのバッチベイズ最適化法は、取得関数での不確実性を使用して、概ね多様なバッチを生成する。

【0039】

例えば、Ｄｅｓａｕｔｅｌｓの方法は、まるで選択がその平均事後値であるように問い合わせられ観測されるように、バッチ内の各選択後にｔを更新することによってクエリをバッチするＧＰ－ＵＣＢ取得関数を一般化する。代替的には、Ｗｉｌｓｏｎによる“ＭａｘｉｍｉｚｉｎｇＡｃｑｕｉｓｉｔｉｏｎＦｕｎｃｔｉｏｎｓｆｏｒＢａｙｅｓｉａｎＯｐｔｉｍｉｚａｔｉｏｎ”，ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ，ｐｐ．９８８４－９８９５，２０１８（以下「Ｗｉｌｓｏｎ」及びＤｅＰａｌｍａらによる“ＳａｍｐｌｉｎｇＡｃｑｕｉｓｉｔｉｏｎＦｕｎｃｔｉｏｎｓｆｏｒＢａｔｃｈＢａｙｅｓｉａｎＯｐｔｉｍｉｚａｔｉｏｎ”，ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１９０３．０９４３４，２０１９（以下「ＤｅＰａｌｍａ」）に示されるように、取得関数は、ＧＰ事後からサンプリングされて、多様なバッチを生成することができる。

【0040】

コンフォーマル推論は、Ｓａｕｎｄｅｒｓらによる“ＴｒａｎｓｄｕｃｔｉｏｎｗｉｔｈＣｏｎｆｉｄｅｎｃｅａｎｄＣｒｅｄｉｂｉｌｉｔｙ”，１９９９（以下「Ｓａｕｎｄｅｒｓ」）に示されるように、任意の土台となる機械学習モデルの厳密な有限サンプル１－ε予測区間を提供する補助方法である。交換可能サンプル

【数6】

、所望の信頼水準ε、及び何らかのコンフォーマルスコア付け関数

【数7】

を所与として、コンフォーマル推論法はＣ（ｚ_１）、Ｃ（ｚ_２）、．．．、Ｃ（ｚ_ｎ）を評価し、次いでｃ_Ｓを（１－ε）パーセンタイルスコアに設定する。したがって、Ｃ（ｚ_＊）＜ｃ_Ｓである場合、テスト例ｚ_＊が

【数8】

から導出された確率１－εである。一連のランダム変数ｚ_１、ｚ_２、ｚ_３、．．．は、インデックスの任意の有限置換σについてＰ（ｚ_１，ｚ_２，ｚ_３，．．．）＝Ｐ（ｚ_σ（１），ｚ_σ（２），ｚ_σ（３），．．．）である場合、交換可能である。

【0041】

Ｐａｐａｄｏｐｏｕｌｏｓらによる“ＲｅｇｒｅｓｓｉｏｎＣｏｎｆｏｒｍａｌＰｒｅｄｉｃｔｉｏｎＷｉｔｈＮｅａｒｅｓｔＮｅｉｇｈｂｏｕｒｓ”，ＪｏｕｒｎａｌｏｆＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＲｅｓｅａｒｃｈ，４０：８１５－８４０，２０１１（以下「Ｐａｐａｄｏｐｏｕｌｏｓ」）に示されるように、コンフォーマル回帰は、不均一分散信頼区間を見つけることを目的としている。一例では、Ｚ_ｔｒ＝｛Ｘ_ｔｒ，Ｙ_ｔｒ｝でトレーニングされたリグレッサ

【数9】

及び所望の有意水準ε∈（０，１）を考える。次いで、以下の形態：

【数10】

のコンフォーマル関数Ｃを使用して、理想的にはｈのトレーニングに使用されたデータとは互いに素であるコンフォーマルトレーニングセットＺ_ｃ＝｛Ｘ_ｃ，Ｙ_ｃ｝（Ｚ_ｔｒと互いに素）中の各要素のコンフォーマルスコアを計算することができ、式中、ｇ（ｘ）は、予測可能である真関数ｆ（ｘ）の予期される困難さを測定する関数であり、βはｇへの感度を制御するハイパーパラメータである。Ｃから、コンフォーマル推論法は、Ｚ_ｃ中のアイテムの較正コンフォーマルスコアｃを計算することができ、ｃ_Ｓを（１－ε）パーセンタイル較正スコアとする。すると、新しいサンプルｘ_＊の予測領域は
Γ（ｘ_＊）＝ｈ（ｘ_＊）±ｃ_ｓ［ｇ（ｘ_＊）＋β］（式５）
であり、１－εの確率でｙ_＊を含む。特に、生成される区間は任意のｇについて有効であるが、有用であるにはあまりに広すぎ得、又は均一でありすぎ得る。

【0042】

最適化に適した性質を有する例示的なコンフォーマルスコア付け関数Ｃについてここで説明する。コンフォーマル予測区間（例えば９５％コンフォーマル区間）は、ベイズ最適化式手順でｔのドロップイン置換として使用することができる。しかしながら、当業者ならば、他のコンフォーマル区間を使用することも可能なことを理解することができる。一例では、５０％～９９％の範囲（端数を包含する）のコンフォーマル区間を使用することができる。

【0043】

ステップｔにおいて、リグレッサｈは｛Ｘ_ｔ，ｙ_ｔ｝、コンフォーマルスコア付け関数ｇ、感度パラメータβ、及び９５パーセンタイル較正スコアｃ_Ｓでトレーニングされる。次いで方程式
μ_ｔ，ＣＩ（ｘ_＊）＝ｈ（ｘ_＊）（式６）
及び

【数11】

が、ＵＣＢ（式２）又はＭＩ（式３）取得関数におけるμ_ｔ及びσ_ｔに代入される。

【0044】

ｇを選ぶことは、探索と活用をバランスした区間の誘導にとって極めて重要である。理想的には、区間は、密にサンプリングされた領域ほど狭い幅であるべきである。例えば、一般的な方法では、ｇは、ｘ、ｙ∈Ｚ_ｃについて残差｜ｈ（ｘ）－ｙ｜を予測するようにトレーニングされたモデルである。このｇは基本的に、区間がどこで狭い又は広い幅であるべきかを直接学習するためにＺ_ｃを使用するが、

【数12】

の特定の領域をアンダーサンプリングすることによって生じる認識論的不確実性を明示的に考慮しない。したがって、ｇは、Ｘ_ｔｒ中のｘのｋ最近傍への平均距離

【数13】

として設定することができ、式中、ｘ_ｔｒ，ｉはトレーニングセット中のｘのｉ番目の最近傍である。実際には、コンフォマルトレーニング中のｇのスケーリングは、区間の安定性を改善し、新規のコンフォーマルスコア付け関数である。

【数14】

【0045】

直感的に、これはガウス過程事後における不確実性の２つのソースに関連することができる。残差｜ｈ（ｘ）－ｙ｜は等分散性ノイズ分散に類似し、一方、ｇ_ｋＮＮはハード閾値処理された静止ＧＰ共分散関数に類似する。換言すれば、式９は、不均一分散不確実性を明示的に推定するコンフォーマルスコアを含む。

【0046】

図１Ｇ～図１Ｅは、ＧＰ事後、ニューラルネットワーク残差推定器を用いたコンフォーマル推論、及びスケールドｋ最近傍（式９）を用いたコンフォーマル推論から計算された不確実性を比較する。陰影付き領域は、ＧＰでは±２標準偏差（図１Ｇ）であり、コンフォーマル推論では９５％（図１Ｈ及び図１Ｉ）である。

【0047】

図１Ｇは、ＧＰ事後から計算された不確実性を示す（周辺尤度を最大化することによって推定されるハイパーパラメータである二乗指数カーネル）。図１Ｈ及び図１Ｉは、シグモイド非線形性を用いて３層全結合ニューラルネットワークの上に較正にトレーニングセットを使用してコンフォーマル推論から計算された不確実性を示す。図１Ｈは、ｇにニューラルネットワーク残差推定器を用いて生成されたコンフォーマル区間を示す。図１Ｉは、両コンフォーマルプロットにｋ＝５、β＝０．００１と共にｇに式９を使用して生成されたコンフォーマル区間を示す。ｇにニューラルネットワーク残差推定器を使用することにより、Ｘ_ｔｒの密にサンプリングされた領域でより広い予測区間になり、これはＺ_ｃ＝Ｚ_ｔｒを設定することによって悪化する問題である。それらの区間を取得関数で使用すると、不確実性への重みが増大するにつれて局所最適で詰まる可能性がより高いオプティマイザになる。

【0048】

最近傍は、トレーニングセットにおけるメトリック空間中のｘへの距離によって決定することができる。メトリック空間は、可能な配列又はデータ点のセットである。メトリックの一例はレーベンシュタイン距離であることができる。

【0049】

コンフォーマルスコアを使用して問い合わせるアイテムを選択することは、ＧＰモデルの交換可能データの仮定に違反する。さらに、最適化ランの開始時等の小データレジームでは、較正スコアはＺ_ｔｒで計算される必要があり得る。したがって、両方とも、厳密な有限サンプルカバレッジ保証を有さない予測区間になる。しかしながら、これらの区間は、最適化中、探索と活用とのトレードオフに有用なままである。

【0050】

換言すれば、本出願人の方法は、（１）配列空間における最近傍を使用して微調整されたニューラルネットワークからの予測のコンフォーマル区間を計算することと、（２）（１）において計算されたコンフォーマル区間を使用して、バッチ最適化を実行することとを含む。

【0051】

図２は、本開示におけるように配列空間における最近傍を使用して微調整されたニューラルネットワークからの予測のコンフォーマル区間を計算する一態様例を示す。コンフォーマル区間を計算するために、方法は以下を使用する：
ａ）ｆ（ｘ）：微調整されたニューラルネットワーク、
ｂ）Ｘ_ｔ：ｆ（ｘ）の微調整に使用される配列、
ｃ）Ｘ_ｃ：コンフォーマルスコアの調整に使用される配列（２０２）、
ｄ）ｙ_ｃ：Ｘ_ｃに対応する真関数値（２０４）、
ｅ）ｎ：考慮する最近傍数、
ｆ）ｂ：ハイパーパラメータ、
ｇ）アルファ：所望の信頼値、及び
ｈ）Ｘ_ｔｅｓｔ：予測する新たな配列。

【0052】

次いで、Ｘ_ｃ、ｙ_ｃにおける各ｘ、ｙについて、方法は残差を計算する：ｒ＝｜ｆ（ｘ）－ｙ｜（２０６）。Ｘ_ｃにおける各ｘについて、方法は、Ｘ_ｔにおけるｎ最近傍への平均距離を計算し、それをｄに割り当てる（２０８）。Ｘ_ｃにおけるｘについて、コンフォーマルスコアを計算する：

【数15】

（２１０）。方法は次いでカットオフスコアを計算する：ガンマ＝スコアｓの（１－アルファ）パーセンタイル（２１２）。Ｘ_ｔｅｓｔにおける各ｘについて、方法はＸ_ｔ：ｄ＿ｔｅｓｔにおけるｎ最近傍への平均距離を計算する（２１４）。したがって、Ｘ_ｔｅｓｔの（１－アルファ）信頼区間はｆ（ｘ_ｔｅｓｔ±２×ガンマ×（ｄ_ｔｅｓｔ＋ベータ）である（２１６）。

【0053】

図３は、上記コンフォーマル区間を使用してバッチを最適化する方法の一態様例を示す。方法は以下を使用する：
ａ）Ｂ：バッチサイズ、
ｂ）Ｎ：反復数、
ｃ）ｎ_ｉｎｉｔ：初期サンプル数、
ｄ）Ｘ：可能な配列、及び
ｅ）Ｃ：定数。

【0054】

次いで、方法はＸからのｎ_ｉｎｉｔ配列を評価して、出力ｙを決定し（３０２）、ｙを近似するようにｆ（ｘ）へのモデルをトレーニングする（３０４）。ＸをＸ_ｔ及びＸ_ｃとして使用して、コンフォーマル推論計算から、方法はＸの残りのコンフォーマル区間を取得する（３０６）。Ｂにおける各ｂについて、方法は、Ｘにおける、ｆ（ｘ）＋Ｃ^＊ｉｎｔｅｒｖａｌ（ｘ）を最大化するｘを選び（３０８）、まるで選ばれたｘが観測されたかのようにコンフォーマル区間を再計算する（３１０）。次いで、方法は、３０８又は３１０がまだ評価していない任意のｂがＢに残っているか否かを判断する（３１２）。ｂが残っている場合、方法はＢにおける未評価ｂを用いて繰り返す。その他の場合、方法は、それ以上の反復が求められるか否かを判断し（３１４）、Ｎ反復後、方法は終了する（３１６）。

【0055】

上記方法は一般のデータ及びデータ点に使用することができるが、本出願人は、上記方法が生体高分子配列の設計の最適化に使用することができることに触れている。生体高分子配列の例には、アミノ酸配列、ヌクレオチド配列、及び炭水化物配列がある。

【0056】

アミノ酸配列は、正準アミノ酸、非正準アミノ酸、又はそれらの組合せを含むことができ、Ｌアミノ酸及び／又はＤアミノ酸を更に含むことができる。アミノ酸配列は、アミノ酸誘導体及び／又は修飾アミノ酸を含むこともできる。アミノ酸修飾の非限定的な例には、アミノ酸リンカー、アシル化、アセチル化、アミド化、メチル化、末端修飾因子（例えば環化修飾）、及びＮ－メチル－α－アミノ基置換がある。

【0057】

ヌクレオチド配列は、天然由来のリボヌクレオチド又はデオキシリボヌクレオチドモノマー及び非天然由来のヌクレオチド誘導体及びその類似体を含むことができる。したがって、ヌクレオチドは、例えば、天然由来の塩基（例えばＡ、Ｇ、Ｃ、又はＴ）を含むヌクレオチド及び修飾塩基を含むヌクレオチド（例えば７－デアザグアノシン、イノシン、又は５－メチルｄＣＴＰ及び５－ヒドロキシメチルシトシン等のメチル化ヌクレオチド）を含むことができる。

【0058】

モデルが解析する上記生体高分子配列（例えばアミノ酸配列）の性質（例えば機能値）の例は、生体高分子配列の結合親和性、結合特異性、触媒（例えば酵素）活性、蛍光性、可溶性、熱安定性、構造、免疫原性、及び任意の他の機能性質である。

【0059】

本明細書において記載されるのは、アミノ酸配列（又はアミノ酸配列をコードする核酸配列）等のタンパク質又はポリペプチド情報を含む入力データを評価して、入力データに基づいて１つ又は複数の特定の機能又は特性を予測するデバイス、ソフトウェア、システム、及び方法である。アミノ酸配列（例えばタンパク質）の特定の機能又は特性の説明は、以前から分子生物学の目標である。したがって、本明細書において記載のデバイス、ソフトウェア、システム、及び方法は、人工知能又は機械学習技法の能力をポリペプチド又はタンパク質解析に利用して、構造及び／又は機能についての予測を行う。本明細書において記載される機械学習技法は、標準の非ＭＬ手法と比較して、予測能力が増大したモデルを生成できるようにする。

【0060】

幾つかの態様では、入力データは、タンパク質又はポリペプチドの一次アミノ酸配列を含む。幾つかの場合、モデルは、一次アミノ酸配列を含むラベル付きデータセットを使用してトレーニングされる。例えば、データセットは、蛍光強度に基づいてラベル付けられた蛍光タンパク質のアミノ酸配列を含むことができる。しかしながら、他の性質に基づいてラベリングされた他のタイプのタンパク質も同様に採用することができる。したがって、モデルは、機械学習法を使用してこのデータセットでトレーニングされて、アミノ酸配列入力の蛍光強度の予測を生成することができる。幾つかの態様では、入力データは、一次アミノ酸配列に加えて、例えば、表面電荷、疎水性表面エリア、実測又は予測の溶解性、又は他の関連情報等の情報を含む。幾つかの態様では、入力データは、複数のタイプ又はカテゴリのデータを含む多次元入力データを含む。

【0061】

幾つかの態様では、本明細書において記載のデバイス、ソフトウェア、システム、及び方法は、データ拡張を利用して、予測モデルの性能を強化する。データ拡張は、トレーニングデータセットの、類似するが異なる例又は変形を使用したトレーニングを伴う。一例として、画像分類では、画像データは、画像の向きをわずかに変更すること（例えば、わずかな回転）により拡張することができる。幾つかの態様では、データ入力（例えば、一次アミノ酸配列）は、一次アミノ酸配列へのランダム変異及び／又は生物学的情報に基づく変異（ｂｉｏｌｏｇｉｃａｌｌｙｉｎｆｏｒｍｅｄｍｕｔａｔｉｏｎ）、多重配列アラインメント、アミノ酸相互作用のコンタクトマップ、及び／又は三次タンパク質構造により拡張される。追加の拡張戦略には、選択的スプライシング転写からの公知及び予測のアイソフォームの使用がある。例えば、入力データは、同じ機能又は特性に対応する選択的スプライシング転写のアイソフォームを含むことにより拡張することができる。したがって、アイソフォーム又は変異についてのデータは、予測される機能又は特性にあまり影響しない一次配列の部分又は特徴を識別できるようにすることができる。これにより、モデルは、例えば、安定性等の予測されるタンパク質特性を強化し、低減し、又は影響しないアミノ酸変異等の情報を考慮に入れることができる。例えば、データ入力は、機能に影響しないことが公知である位置におけるランダム置換アミノ酸を有する配列を含むことができる。これにより、このデータでトレーニングされたモデルは、それらの特定の変異に関して、予測される機能が不変であることを学習することができる。

【0062】

本明細書において記載のデバイス、ソフトウェア、システム、及び方法は、多種多様な予測の生成に使用することができる。予測は、タンパク質の機能及び／又は特性（例えば、酵素活性、結合特性、安定性等）を含むことができる。タンパク質安定性は、例えば、熱安定性、酸化安定性、又は血清安定性等の種々の尺度に従って予測することができる。幾つかの態様では、予測は、例えば、二次構造、三次タンパク質構造、四次構造、又はそれらの任意の組合せ等の１つ又は複数の構造特徴を含む。二次構造は、アミノ酸又はポリペプチド内のアミノ酸の配列が、アルファヘリックス構造、ベータシート構造、それとも無秩序若しくはループ構造を有するかの指示を含むことができる。三次構造は、三次元空間におけるアミノ酸又はポリペプチドの部分の場所又は位置を含むことができる。四次構造は、１つのタンパク質を形成する複数のポリペプチドの場所又は位置を含むことができる。幾つかの態様では、予測は１つ又は複数の機能を含む。ポリペプチド又はタンパク質の機能は、代謝反応、ＤＮＡ複製、構造の提供、輸送、抗原認識、細胞内又は細胞外シグナリング、及び他の機能カテゴリを含む種々のカテゴリに属することができる。幾つかの態様では、予測は、例えば、触媒効率（例えば、特異性定数ｋ_ｃａｔ／Ｋ_Ｍ）又は触媒特異性等の酵素機能を含む。

【0063】

幾つかの態様では、予測は、タンパク質又はポリペプチドの酵素機能を含む。幾つかの態様では、タンパク質機能は酵素機能である。酵素は、種々の酵素反応を実行することができ、転移酵素（例えば、官能基をある分子から別の分子に移す）、酸素還元酵素（例えば、酸化還元反応を触媒する）、加水分解酵素（例えば、加水分解を介して化学結合を開裂させる）、脱離酵素（例えば、二重結合を生成する）、リガーゼ（例えば、共有結合を介して２つの分子を連結する）、及び異性化酵素（例えば、分子内のある異性体から別の異性体への構造変化を触媒する）として分類することができる。

【0064】

幾つかの態様では、タンパク質機能は、酵素機能、結合（例えばＤＮＡ／ＲＮＡ結合、タンパク質結合、抗体－抗原結合等）、免疫機能（例えば抗体、サイトカイン、チェックポイント分子等）、収縮（例えばアクチン、ミオシン）、及び他の機能を含む。幾つかの態様では、出力は、例えば、酵素機能又は結合の動力学等のタンパク質機能に関連する値を含む。そのような出力は、親和性、特異性、及び反応速度についての尺度を含むことができる。

【0065】

幾つかの態様では、本明細書において記載の機械学習法は、教師あり機械学習を含む。教師あり機械学習は分類及び回帰を含む。幾つかの態様では、機械学習法は教師なし機械学習を含む。教師なし機械学習は、クラスタリング、オートエンコード、変分オートエンコード、タンパク質言語モデル（例えば、モデルが、前のアミノ酸へのアクセスが与えられる場合、配列中の次のアミノ酸を予測する）、及び相関ルールマイニングを含む。

【0066】

幾つかの態様では、予測は、バイナリ、マルチラベル、又はマルチクラス分類等の分類を含む。分類は一般に、入力パラメータに基づいて離散クラス又はラベルの予測に使用される。バイナリ分類は、入力に基づいてポリペプチド又はタンパク質が属するのが２つのグループのいずれであるかを予測する。幾つかの態様では、バイナリ分類は、タンパク質又はポリペプチド配列の特性又は機能についての陽性予測又は陰性予測を含む。幾つかの態様では、バイナリ分類は、例えば、ある親和性レベルを超えたＤＮＡ配列への結合、動力学パラメータのある域値を超えた反応の触媒、又は特定の溶融温度を超えた熱安定性を示すこと等の域値処理を受ける任意の定量的読み出し値を含む。バイナリ分類の例には、ポリペプチド配列が自己蛍光を示し、セリンプロテアーゼであり、又はＧＰＩアンカー膜貫通タンパク質であることの陽性／陰性予測がある。幾つかの態様では、分類はマルチクラス分類である。例えば、マルチクラス分類は、入力ポリペプチドを２つ超のグループの１つに分類することができる。代替的には、予測はマルチラベル分類を含むことができる。マルチクラス分類は、入力を相互に排他的なカテゴリの１つに分類し、一方、マルチラベル分類は、入力を複数のラベル又はグループに分類する。例えば、マルチラベル分類は、ポリペプチドを細胞内タンパク質（細胞外と比して）及びプロテアーゼの両方としてラベリングし得る。比較により、マルチクラス分類は、アミノ酸をアルファヘリックス、ベータシート、又は無秩序／ループペプチド配列の１つに属するものとして分類することを含み得る。

【0067】

幾つかの態様では、予測は、例えば、自己蛍光の強度又はタンパク質の安定性等の連続した変数又は値を提供する回帰を含む。幾つかの態様では、予測は、本明細書において記載の特性又は機能のいずれかの連続した変数又は値を含む。一例として、連続した変数又は値は、特定の基質細胞外マトリックス成分のマトリックスメタロプロテアーゼの標的特異性を示すことができる。追加の例には、標的分子結合親和性（例えばＤＮＡ結合）、酵素の反応速度、又は熱安定性等の種々の定量的読み出し値がある。

【0068】

上述した方法の有効性を示すために、２つの合成ベイズ最適化タスク及び２つの経験的に決定されたタンパク質適合度データセットでの最近傍コンフォーマルスコアを用いるＣＩ－ＯＰＴとガウス過程に基づく最適化との比較を考える。タンパク質データセットは、従来のカーネルを使用した任意のＧＰが強く誤指定されることが予期される高次元離散空間を有する。

【0069】

以下は、以下評価される方法の概説である。
ａ）ＧＰは、ガウス過程代理関数及びＵＣＢ又はＭＩ取得関数のいずれかを用いたベイズ最適化である。
ｂ）ＧＰ－ＣＩ：ガウス過程を使用して、式６に従ってμ_ｔ，ＣＩを計算し、コンフォーマル推論を使用して、式７及び式９に従ってσ_ｔ，ＣＩを計算する、ＵＣＢ又はＭＩ取得関数のいずれかを用いたＣＩ－ＯＰＴである。
ｃ）ＮＮ－ＣＩ：ニューラルネットワークを使用して、式６に従ってμ_ｔ，ＣＩを計算し、コンフォーマル推論を使用して、式７及び式９に従ってσ_ｔ，ＣＩを計算する、ＵＣＢ又はＭＩ取得関数のいずれかを用いたＣＩ－ＯＰＴである。

【0070】

ブラニン（Ｂｒａｎｉｎ）又はブラニンホー（Ｂｒａｎｉｎ－Ｈｏｏ）関数は、２Ｄ正方形［－５，１０］×［０，１５］に３つの大域最適を有する一般的なブラックボックス最適化ベンチマークである。一例のブラックボックス最適化ベンチマークは、数値安定性のために概ね平均０及び分散１を有するように正規化された出力を有する、Ｂａｌａｎｄａｔらによる“Ｂｏｔｏｒｃｈ：ＰｒｏｇｒａｍｍａｂｌｅＢａｙｅｓｉａｎＯｐｔｉｍｉｚａｔｉｏｎｉｎｐｙｔｏｒｃｈ”，ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１９１０．０６４０３，２０１９（以下「Ｂｏｔｏｒｃｈ」又は「Ｂａｌａｎｄａｔ」）に記載されている。

【0071】

ハルトマン（Ｈａｒｔｍａｎｎ）関数は、もう一つの一般的なブラックボックス最適化ベンチマークである。Ｂｏｔｏｒｃｈ文献に従って、６Ｄ版が［０，１］^６において評価される。ハルトマン関数は６つの局所最大及び１つの大域最大を有する。

【0072】

ＧＢ１データセットは、Ｗｕらによる“ＡｄａｐｔａｔｉｏｎＩｎＰｒｏｔｅｉｎＦｉｔｎｅｓｓＬａｎｄｓｃａｐｅｓＩｓＦａｃｉｌｉｔａｔｅｄＢｙＩｎｄｉｒｅｃｔＰａｔｈｓ”，Ｅｌｉｆｅ，５：ｅ１６９６５，２０１６（以下「Ｗｕ」）に記載のように、合計で１６０，０００個の配列のタンパク質ＧドメインＢ１の４部位部位飽和ライブラリ中の大半の配列の実測適合値を含む。欠けた配列について、Ｗｕによって帰属された値を使用することができる。データセットは、位置とアミノ酸との間の非線形相互作用を捕捉するように設計される。

【0073】

ＦＩＴＣデータセットは、フルオレセインイソチオシアネート（ＦＩＴＣ）への十分に研究されたｓｃＦｖ抗体の数千のバリアントの結合親和性Ａｄａｍｓ（２０１６）からなる。変異はＣＤＲ１Ｈ及びＣＤＲ３Ｈ領域で行った。結合定数ｋ_Ｄが低いほど、結合が強いことを示し、したがってこの場合、タスクは－ｌｏｇｋ_Ｄを最大化することである。

【0074】

合成タスクの場合、ＵＣＢ取得関数及びＧＰ代理モデル又はニューラルネットワーク代理モデルを使用したＣＩ－ＯＰＴが、同じＧＰモデルを使用したＧＰ－ＵＣＢと比較される。Ｂｏｔｏｒｃｈにおけるデフォルト（例えば、ノイズ及び長さスケールで強い事前と共にν＝２．５を有するマテルン（Ｍａｔｅｒｎ）カーネル）に従った合成タスクでのＧＰ及びＧＰ－ＵＣＢは、Ｂｏｔｏｒｃｈにおける再パラメータ化実施を使用して実行される。ニューラルネットワークは、ＲｅＬＵ活性化と接続された次元２５６の２つの隠れ層を含んだ。重みは、ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１４１２．６９８０（以下「Ａｄａｍ」又は「Ｋｉｎｇｍａ」）におけるＫｉｎｇｍａらによるＡｄａｍ、即ち確率的最適化法を使用して最適化され、Ｌ^２重み減衰は１ｅ^－３に設定される。

【0075】

各ランで、方法は１０個のランダムに選択された観測を用いて初期化される。異なる初期化を用いて実験を６４回繰り返す。コンフォーマル推論はβ＝１ｅ^－２、ユークリッド距離、及び５最近傍を使用する。ＧＰは各反復で再トレーニングされる。ニューラルネットはまず、１０００のミニバッチでトレーニングされ、次いで各観測後、追加の１００個のミニバッチを用いて微調整される。

【0076】

幾つかの現実世界のタンパク質データセットを使用した有効性のシステム及び方法の実証について更に以下説明する。タンパク質タスクでは、ＭＩ取得関数を使用したＣＩ－ＯＰＴは、順次且つバッチ設定下のＧＰ－ＭＩと比較される。タンパク質タスクでのＧＰは、周辺尤度を最大化するように選ばれたハイパーパラメータを有する二乗指数カーネルを使用する。ＣＩ－ＯＰＴは、Ｒｉｖｅｓによる“ＢｉｏｌｏｇｉｃａｌＳｔｒｕｃｔｕｒｅａｎｄＦｕｎｃｔｉｏｎＥｍｅｒｇｅｆｒｏｍＳｃａｌｉｎｇＵｎｓｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇｔｏ２５０ＭｉｌｌｉｏｎＰｒｏｔｅｉｎＳｅｑｕｅｎｃｅｓ”，ｂｉｏＲｘｉｖ，ｐｐ．６２２８０３，２０１９（以下「Ｒｉｖｅｓ」）に開示されるようにＵｎｉＰｒｏｔからのタンパク質で事前トレーニングされ、次いで観測で微調整された、Ｖａｓｗａｎｉによる“ＡｔｔｅｎｔｉｏｎｉｓＡｌｌＹｏｕＮｅｅｄ”，ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ，ｐｐ．５９９８－６００８，２０１７（以下「Ｖａｓｗａｎｉ」）に記載のように、トランスフォーマ言語モデルを使用する。両データセットで、ＣＩ－ＯＰＴはハミング距離及び５最近傍を採用して、コンフォーマルスコアを計算する。ＣＩ－ＯＰＴ及び貪欲法は、初期点を変えて１０回繰り返され、一方、ＧＰは２５回繰り返される。

【0077】

生物学的最適化問題では、目標は可能な限り迅速に良好な報酬を見つけることであるが、通常、途中、不良な報酬に繋がる入力を評価するペナルティがないため、更に以下説明するように、方法は、平均後悔の代わりに反復ｔで各方法によって見つけられた最大報酬を比較することによって評価される。

【0078】

図１Ａ及び図１Ｂは、２つの合成タスクでの順次最適化の結果を示すグラフである。２Ｄブラニンタスクでは、ＧＰ－ＵＣＢ、ＧＰ－ＣＩ、及びＮＮ－ＣＩは全て迅速に大域最大を見つける。６Ｄハルトマンタスクでは、ＧＰ－ＣＩはＧＰ－ＵＣＢと互角であるが、ＮＮ－ＣＩの性能は下がる。しかしながら、これらの結果は、ニューラルネットワークのハイパーパラメータを調整しない状態でニューラルネットワークを使用した結果であった。

【0079】

図１Ｃ及び図１Ｅは、タンパク質データセットでの順次最適化の結果を示すグラフである。これらの高次元離散空間では、ＮＮ－ＣＩは一貫して、ＧＰに基づく方法を上回る。この性能は、事前トレーニングされたニューラルネットワークがＧＰよりもはるかに正確であること及びＧＰ不確実性が誤較正され、それらの理論上の利点をなくすことの両方に起因する。

【0080】

図１Ｄ及び図１Ｆは、タンパク質データセットでのバッチ最適化での同様の結果を示すグラフである。大きなバッチでの最適化は、各バッチが、取得関数を最大化するために探索と活用とをバランスさせなければならないため、極めて難しい。ここでＧＢ１に使用されたバッチサイズ１００は、ベイズ最適化実験で典型的に見られるバッチサイズよりもはるかに大きい。例えば、Ｗｉｌｓｏｎは最大で１６のバッチサイズを考慮する。しかしながら、１００はタンパク質工学実験では現実的なバッチサイズである。

【0081】

コンフォーマル推論最適化は、回帰の最近傍に基づくコンフォーマルスコアによって誘導される予測区間を、ブラックボックス関数最適化での信頼上限に基づく取得関数でのＧＰ事後不確実性のドロップイン置換として使用する。この方法は、ＧＰに基づく従来のＢＯ法よりも最適化ループにおいて事前トレーニングされた大きなニューラルネットワークを利用することにより適する。ＣＩ－ＯＰＴは、合成タスクでのＧＰに基づくベイズ最適化と互角であり、２つの異なるタンパク質最適化データセットではＧＰに基づく方法を上回る。

【0082】

図４は、本開示の一態様例を示す流れ図４００である。一態様では、生体高分子配列の設計を最適化するコンピュータ実施方法は、観測生体高分子配列及び各観測生体高分子配列に対応するラベル付き生体高分子配列を使用して機械学習モデルをトレーニングすること（４０２）を含むことができる。ラベル付き配列は、対象となる何らかの性質を測定する実数が関連付けられた配列である。方法は、生体高分子配列候補を決定して、機械学習モデルに基づいてラベル付き生体高分子配列の最高予測値を有するものを観測すること（４０４）を更に含むことができる。生体高分子配列候補は、既知の配列（例えば先に直面した配列、先に観測された配列、又は自然配列）又は新たに設計された配列の何れかを含むことができる。方法は、各生体高分子配列候補について（４０８）、生体高分子配列候補がラベル付き生体高分子配列の予測値を有する尤度を表すコンフォーマル推論区間を特定すること（４０６）を更に含むことができる。方法は、コンフォーマル推論区間とラベル付き生体高分子配列の予測値との最適化された線形結合を有する少なくとも１つの生体高分子配列候補を選択すること（４１０）を更に含むことができる。一態様では、ラベル付き配列の値は、上述したようにラベルとして使用される数である。したがって、配列の予測値は配列の予測ラベルである。機械学習分野の当業者ならば、ラベルのそのような定義を理解することができる。配列又はデータ点は機械学習入力（ｘ）であり、予測／測定／最適化はラベル（ｙ）である。

【0083】

図５は、本開示の一態様例を示す流れ図５００である。一態様では、高分子配列の設計を最適化するコンピュータ実施方法及び対応するシステムは、複数の観測配列から初期サンプルのラベル付き生体高分子配列を近似するようにモデルをトレーニングする（５０２）。方法は、複数の観測配列の特定のバッチについて、複数の観測配列から、トレーニングされたモデルによって生成されたラベル付き高分子配列とコンフォーマル区間との組合せを最適化する少なくとも１つの配列を選ぶこと（５０４）を更に含むことができる。バッチは、トレーニングされたモデルによって生成されたラベル付き生体高分子配列及び各観測配列のコンフォーマル区間を有する。バッチ全体が解析されていない場合（５０６）、方法は次の配列を選ぶ（５０４）。バッチ全体が解析された場合（５０６）、方法は、残りの配列のコンフォーマル区間を再計算することを更に含むことができる（５０８）。

【0084】

図６は、本発明の態様を実施し得るコンピュータネットワーク又は同様のデジタル処理環境を示す。

【0085】

クライアントコンピュータ／デバイス５０及びサーバコンピュータ６０は、アプリケーションプログラム等を実行する処理、記憶、及び入出力デバイスを提供する。クライアントコンピュータ／デバイス５０は、通信ネットワーク７０を通して、他のクライアントデバイス／プロセス５０及びサーバコンピュータ６０を含む他の計算デバイスにリンクすることもできる。通信ネットワーク７０は、リモートアクセスネットワーク、グローバルネットワーク（例えばインターネット）、コンピュータの世界規模の集まり、ローカルエリア又はワイドエリアネットワーク、及び現在各プロトコル（ＴＣＰ／ＩＰ、Ｂｌｕｅｔｏｏｔｈ（登録商標）等）を使用して互いと通信するゲートウェイの一部であることができる。他の電子デバイス／コンピュータネットワークアーキテクチャも適する。

【0086】

図７は、図６のコンピュータシステムにおけるコンピュータ（例えばクライアントプロセッサ／デバイス５０又はサーバコンピュータ６０）の内部構造例の図である。各コンピュータ５０、６０はシステムバス７９を含み、バスは、コンピュータ又は処理システムの構成要素間でのデータ転送に使用されるハードワイヤ線のセットである。システムバス７９は基本的に、要素間の情報転送を可能にする、コンピュータシステムの異なる要素（例えばプロセッサ、ディスクストレージ、メモリ、入出力ポート、ネットワークポート等）を接続する共有コンジットである。システムバス７９に取り付けられるのは、種々の入力及び出力デバイス（例えばキーボード、マウス、ディスプレイ、プリンタ、スピーカ等）をコンピュータ５０、６０に接続するためのＩ／Ｏデバイスインターフェース８２である。ネットワークインターフェース８６は、コンピュータがネットワーク（例えば図５のネットワーク７０）に取り付けられた種々の他のデバイスに接続できるようにする。メモリ９０は、本発明の一態様の実施に使用されるコンピュータソフトウェア命令９２及びデータ９４（例えば先に詳述したベイズ最適化モジュール及びコンフォーマル推論モジュールコード）の揮発性記憶を提供する。ディスクストレージ９５は、本発明の一態様の実施に使用されるコンピュータソフトウェア命令９２及びデータ９４の不揮発性記憶を提供する。中央演算処理装置８４もシステムバス７９に取り付けられ、コンピュータ命令の実行を提供する。

【0087】

一態様では、プロセッサルーチン９２及びデータ９４は、本発明のシステムのソフトウェア命令の少なくとも一部分を提供する非一時的コンピュータ可読媒体（全般的に９２と参照される）を含むコンピュータプログラム製品（例えば、１つ又は複数のフラッシュメモリ等のリムーバブル記憶媒体、ＤＶＤ－ＲＯＭ、ＣＤ－ＲＯＭ、ディスケット、テープ等）である。コンピュータプログラム製品９２は、当技術分野で周知のように、任意の適したソフトウェアインストール手順によってインストールすることができる。別の態様では、ソフトウェア命令の少なくとも一部分は、ケーブル通信及び／又はワイヤレス通信を経由してダウンロードすることもできる。他の態様では、本発明のプログラムは、伝播媒体での伝播信号（例えば無線波、マイクロ波、赤外線波、レーザ波、音波、又はインターネット等のグローバルネットワーク若しくは他のネットワークを経由して伝播する電波）で実施されるコンピュータプログラム伝播信号製品である。そのようなキャリア媒体又は信号は、本発明のルーチン／プログラム９２のソフトウェア命令の少なくとも一部分を提供するために採用し得る。

【0088】

本明細書に記載された特許、公開出願、及び引用文献の全ての教示は全体的に、参照により援用される。

【0089】

態様例が具体的に示され記載されたが、添付の特許請求の範囲により包含される態様の範囲から逸脱せずに、形態及び細部の種々の変更を行い得ることが当業者には理解されよう。
なお、本発明は、態様として以下の内容を含む。
〔態様１〕
生体高分子配列の設計を最適化するコンピュータ実施方法であって、
複数の観測生体高分子配列及び各観測生体高分子配列に対応するラベル付き生体高分子配列を使用して機械学習モデルをトレーニングすることと、
複数の生体高分子配列候補を決定して、前記機械学習モデルに基づいて前記ラベル付き生体高分子配列の最高予測値を有するものを観測することと、
各生体高分子配列候補について、前記生体高分子配列候補が前記ラベル付き生体高分子配列の前記予測値を有する尤度を表すコンフォーマル推論区間を特定することと、
前記コンフォーマル推論区間と前記ラベル付き生体高分子配列の前記予測値との最適化された線形結合を有する少なくとも１つの生体高分子配列候補を選択することと、
を含む、コンピュータ実施方法。
〔態様２〕
前記コンフォーマル推論区間は、中心値及び区間範囲を含む、態様１に記載のコンピュータ実施方法。
〔態様３〕
前記中心値は平均値である、態様２に記載のコンピュータ実施方法。
〔態様４〕
前記機械学習モデルは、前記観測生体高分子配列及びそれらのラベルを使用して微調整されたニューラルネットワークである、態様１に記載のコンピュータ実施方法。
〔態様５〕
前記コンフォーマル推論区間を特定することは、観測生体高分子配列の第２のセットに基づく、態様４に記載のコンピュータ実施方法。
〔態様６〕
前記コンフォーマル推論区間を特定することは、
前記観測生体高分子配列の第２のセット及び前記生体高分子配列の第２のセットの各々に対応する、対応するラベル付き生体高分子配列について、前記機械学習モデルの各出力に基づいて残差区間を計算することと、
前記機械学習モデルの各出力について、メトリック空間内の前記観測生体高分子配列の複数の最近傍配列への平均距離を計算することと、
前記平均距離と定数との和に対する前記残差の比率に基づいてコンフォーマルスコアを計算することと、
を更に含む、態様５に記載のコンピュータ実施方法。
〔態様７〕
前記少なくとも１つの生体高分子配列候補を選択することは、
メトリック空間中の複数の最近傍配列への前記メトリック空間中の平均距離を計算することと、
前記少なくとも１つの生体高分子配列候補及び前記平均距離に基づいて信頼区間を生成することと、
前記信頼区間に基づいて少なくとも１つの生体高分子配列候補を選択することと、
を含む、態様５に記載のコンピュータ実施方法。
〔態様８〕
前記コンフォーマル区間は少なくとも５０％且つ多くとも９９％である、態様１に記載の方法。
〔態様９〕
前記生体高分子配列は、アミノ酸配列、核酸配列、及び炭水化物配列の少なくとも１つを含む、態様１に記載の方法。
〔態様１０〕
前記核酸配列はデオキシリボ核酸（ＤＮＡ）配列又はリボ核酸（ＲＮＡ）配列である、態様９に記載の方法。
〔態様１１〕
前記予測値は、前記生体高分子配列の機能値であり、前記機能は、生体高分子配列の結合親和性、結合特異性、触媒活性、酵素活性、蛍光性、可溶性、熱安定性、構造、免疫原性、及び機能性質の１つ又は複数である、態様１に記載の方法。
〔態様１２〕
前記少なくとも１つの生体高分子配列候補を選択することは、前記特定されたコンフォーマル推論区間を分解しないベイズ最適化と比較して増大した性能を有する、態様１に記載の方法。
〔態様１３〕
生体高分子配列の設計を最適化するコンピュータ実施方法であって、
複数の観測配列から初期サンプルのラベル付き生体高分子配列を近似するようにモデルをトレーニングすることと、
トレーニングされたモデルによって生成されたラベル付き生体高分子配列及び各観測配列のコンフォーマル区間を有する、前記複数の観測配列の特定のバッチについて、前記複数の観測配列から、前記トレーニングされたモデルによって生成された前記ラベル付き高分子配列と前記コンフォーマル区間との組合せを最適化する少なくとも１つの配列を選ぶことと、
残りの配列の前記コンフォーマル区間を再計算することと、
を含む、コンピュータ実施方法。
〔態様１４〕
複数のバッチの各々について、前記少なくとも１つの配列を選ぶこと及び前記コンフォーマル区間を再計算することを繰り返すことを更に含む、態様１３に記載のコンピュータ実施方法。
〔態様１５〕
並列に実行するバッチ実験の最適数を識別することを更に含む、態様１３に記載の方法。
〔態様１６〕
識別することは、ウェットラボリソースの最適化に基づく、態様１５に記載の方法。
〔態様１７〕
データの分布に基づいて設計を最適化するコンピュータ実施方法であって、
複数の観測データ及び各観測データに対応するラベル付きデータを使用して機械学習モデルをトレーニングすることと、
複数のデータ候補を決定して、前記機械学習モデルに基づいて前記ラベル付きデータの最高予測値を有するものを観測することと、
各データ候補について、前記データ候補が前記ラベル付きデータの前記予測値を有する尤度を表すコンフォーマル推論区間を特定することと、
前記コンフォーマル推論区間と前記ラベル付きデータの前記予測値との最適化された線形結合を有する少なくとも１つのデータ候補を選択することと、
を含む、コンピュータ実施方法。
〔態様１８〕
前記選択された生体高分子配列を合成する手段に前記少なくとも１つの選択された生体高分子配列を提供することを更に含む、態様１～１７の何れか１態様に記載の方法。
〔態様１９〕
前記少なくとも１つの選択された生体高分子配列は合成される、態様１８に記載の方法。
〔態様２０〕
前記少なくとも１つの選択された生体高分子配列を合成することを更に含む、態様１～１９の何れか１態様に記載の方法。
〔態様２１〕
例えば定性的又は定量的化学アッセイにおいて前記少なくとも１つの選択された生体高分子配列をアッセイすることを更に含む、態様１８又は２０に記載の方法。
〔態様２２〕
生体高分子配列の設計を最適化する命令を記憶した非一時的コンピュータ可読媒体であって、前記命令は、プロセッサによって実行されると、前記プロセッサに、
複数の観測生体高分子配列及び各観測生体高分子配列に対応するラベル付き生体高分子配列を使用して機械学習モデルをトレーニングすることと、
複数の生体高分子配列候補を決定して、前記機械学習モデルに基づいて前記ラベル付き生体高分子配列の最高予測値を有するものを観測することと、
各生体高分子配列候補について、前記生体高分子配列候補が前記ラベル付き生体高分子配列の前記予測値を有する尤度を表すコンフォーマル推論区間を特定することと、
前記コンフォーマル推論区間と前記ラベル付き生体高分子配列の前記予測値との最適化された線形結合を有する少なくとも１つの生体高分子配列候補を選択することと、
を行わせる、非一時的コンピュータ可読媒体。
〔態様２３〕
生体高分子配列の設計を最適化するシステムであって、
プロセッサと、
コンピュータコード命令を記憶したメモリと、
を備え、前記プロセッサ及び前記メモリは、前記コンピュータコード命令を用いて、前記システムに、
複数の観測生体高分子配列及び各観測生体高分子配列に対応するラベル付き生体高分子配列を使用して機械学習モデルをトレーニングすることと、
複数の生体高分子配列候補を決定して、前記機械学習モデルに基づいて前記ラベル付き生体高分子配列の最高予測値を有するものを観測することと、
各生体高分子配列候補について、前記生体高分子配列候補が前記ラベル付き生体高分子配列の前記予測値を有する尤度を表すコンフォーマル推論区間を特定することと、
前記コンフォーマル推論区間と前記ラベル付き生体高分子配列の前記予測値との最適化された線形結合を有する少なくとも１つの生体高分子配列候補を選択することと、
を行わせるように構成される、システム。
〔態様２４〕
態様１～２１の何れか１態様に記載の方法によって取得可能である、１つ又は複数の選択された生体高分子配列。
〔態様２５〕
前記１つ又は複数の選択された生体高分子配列は、１つ又は複数の選択されたポリペプチド配列の合成を促進する条件下で、前記１つ又は複数の選択されたポリペプチド配列をコードする１つ又は複数の核酸を含む宿主細胞を培養し、前記１つ又は複数の選択されたポリペプチド配列を単離する方法によって製造された前記１つ又は複数の選択されたポリペプチド配列である、態様２４に記載の１つ又は複数の選択された生体高分子配列。
〔態様２６〕
前記１つ又は複数の選択された生体高分子配列は、薬学的に許容可能な賦形剤を含む、態様２４又は２５に記載の１つ又は複数の選択された生体高分子配列を含む組成物。
〔態様２７〕
態様２４～２６の何れか１態様に記載の組成物又は選択された生体高分子配列をテスト化合物、生体流体、細胞、組織、臓器、又は生物の１つ又は複数と接触させることを含む方法。

【図1A】