特表2025-502815 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ イルミナ　インコーポレイテッドの特許一覧

特表2025-502815病原性を予測するためのタンパク質言語モデルのためのマスクパターン

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2025-01-28

(54)【発明の名称】病原性を予測するためのタンパク質言語モデルのためのマスクパターン

(51)【国際特許分類】

G16B 30/10 20190101AFI20250121BHJP

【ＦＩ】

G16B30/10

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024539695

(86)(22)【出願日】2022-12-23

(85)【翻訳文提出日】2024-06-28

(86)【国際出願番号】 US2022082368

(87)【国際公開番号】W WO2023129897

(87)【国際公開日】2023-07-06

(31)【優先権主張番号】63/294,813

(32)【優先日】2021-12-29

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/294,816

(32)【優先日】2021-12-29

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/294,820

(32)【優先日】2021-12-29

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/294,827

(32)【優先日】2021-12-29

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/294,828

(32)【優先日】2021-12-29

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/294,830

(32)【優先日】2021-12-29

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/975,536

(32)【優先日】2022-10-27

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/975,547

(32)【優先日】2022-10-27

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】500358711

【氏名又は名称】イルミナインコーポレイテッド

(74)【代理人】

【識別番号】100108453

【弁理士】

【氏名又は名称】村山靖彦

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100133400

【弁理士】

【氏名又は名称】阿部達彦

(72)【発明者】

【氏名】トビアス・ハンプ

(72)【発明者】

【氏名】アナスタシア・スザンナ・ダグマー・ディートリヒ

(72)【発明者】

【氏名】ジェフリー・マーク・イード

(72)【発明者】

【氏名】イビン・ウ

(72)【発明者】

【氏名】カイ－ハウ・ファー

(57)【要約】

開示される技術は、クエリ残基配列を複数の非クエリ残基配列に整列させる多重配列アラインメントにアクセスすることと、多重配列アラインメントにおける第１の位置セットにある第１の残基セットに周期的間隔のマスクセットを適用することと、第１の位置セットにある周期的間隔のマスクセット、及び周期的間隔のマスクセットが適用されない、多重配列アラインメントにおける第２の位置セットにある第２の残基セットを含む、多重配列アラインメントの一部分をトリミングすることと、に関する。第１の残基セットが、クエリ残基配列における関心対象位置にある関心対象残基を含む。

【特許請求の範囲】

【請求項1】

バリアント病原性予測のコンピュータ実装方法であって、
クエリ残基配列を複数の非クエリ残基配列に整列させる多重配列アラインメントにアクセスすることと、
前記多重配列アラインメントにおける第１の位置セットにある第１の残基セットに周期的間隔のマスクセットを適用することであって、前記第１の残基セットが、前記クエリ残基配列における関心対象位置にある関心対象残基を含む、適用することと、
前記多重配列アラインメントの一部分をトリミングすることであって、前記多重配列アラインメントの一部分が、
（ｉ）前記第１の位置セットにある前記周期的間隔のマスクセットと、
（ｉｉ）前記周期的間隔のマスクセットが適用されない、前記多重配列アラインメントにおける第２の位置セットにある第２の残基セットと、を含む、トリミングすることと、
前記多重配列アラインメントの前記一部分に基づいて、前記関心対象位置にあるバリアントについての病原性予測を生成することと、を含む、コンピュータ実装方法。

【請求項2】

前記多重配列アラインメントが、位置ごとの次元に沿って、かつ配列ごとの次元に沿って、前記クエリ残基配列を前記複数の非クエリ残基配列に整列させる、請求項１に記載のコンピュータ実装方法。

【請求項3】

前記周期的間隔のマスクセットが、前記多重配列アラインメントにおける配列のウィンドウ内の配列ごとの次元に沿って適用される、請求項２に記載のコンピュータ実装方法。

【請求項4】

前記周期的間隔のマスクセットが、前記多重配列アラインメントにおける前記配列のウィンドウにわたる位置のウィンドウ内の位置ごとの次元に沿って適用される、請求項３に記載のコンピュータ実装方法。

【請求項5】

前記一部分が、所定の幅及び所定の高さを有する、請求項１に記載のコンピュータ実装方法。

【請求項6】

前記一部分が、前記一部分の前記所定の幅より小さい幅を有する多重配列アラインメントを補償するためにパディングされる、請求項５に記載のコンピュータ実装方法。

【請求項7】

前記周期的間隔のマスクセットが、前記配列ごとの次元に沿って、周期的間隔のマスクサブセットに分散される、請求項２に記載のコンピュータ実装方法。

【請求項8】

前記周期的間隔のマスクサブセットが、配列のウィンドウ内の配列に対応する、請求項７に記載のコンピュータ実装方法。

【請求項9】

前記周期的間隔のマスクセットが、パターンを有する、請求項１に記載のコンピュータ実装方法。

【請求項10】

前記一部分のパディングを最小化するために、前記トリミングに使用されるトリミングウィンドウを右シフトすることを更に含む、請求項９に記載のコンピュータ実装方法。

【請求項11】

前記一部分の前記パディングを最小化するために、前記トリミングウィンドウを左シフトすることを更に含む、請求項１０に記載のコンピュータ実装方法。

【請求項12】

前記関心対象位置を前記一部分の中央列に位置付けるようにトリミングウィンドウを構成することを更に含む、請求項１に記載のコンピュータ実装方法。

【請求項13】

前記関心対象位置を前記中心列に隣接して位置付けるように前記トリミングウィンドウを構成することを更に含む、請求項１２に記載のコンピュータ実装方法。

【請求項14】

前記一部分において、前記第１の位置セットにある前記周期的間隔のマスクセットを、学習されたマスク埋め込みで置換することと、前記一部分において、前記第２の位置セットにある前記第２の残基セットを、学習された残基埋め込みで置換することとを更に含む、請求項１に記載のコンピュータ実装方法。

【請求項15】

前記一部分において、前記第１の位置セットにある前記周期的間隔のマスクセット、及び前記第２の位置セットにある前記第２の残基セットを、学習された位置埋め込みで置換することを更に含む、請求項１４に記載のコンピュータ実装方法。

【請求項16】

学習されたマスク埋め込み、前記学習された残基埋め込み、及び前記学習された位置埋め込みを用いて前記一部分を複数のチャンクにチャンク化することを更に含む、請求項１５に記載のコンピュータ実装方法。

【請求項17】

前記複数のチャンクを集約として処理することと、前記一部分の代替表現を生成することと、を更に含む、請求項１６に記載のコンピュータ実装方法。

【請求項18】

前記バリアントについての前記病原性予測を、前記バリアントの対数確率と、対応する参照アミノ酸の対数確率からアミノ酸単位の予測にわたって評価されたエントロピーを引いたものとの間の差に基づいて生成することを更に含む、請求項１に記載のコンピュータ実装方法。

【請求項19】

メモリに結合された１つ以上のプロセッサを含むシステムであって、前記メモリには、バリアント病原性を予測するためのコンピュータ命令がロードされ、前記コンピュータ命令が、前記１つ以上のプロセッサ上で実行されると、
クエリ残基配列を複数の非クエリ残基配列に整列させる多重配列アラインメントにアクセスすることと、
前記多重配列アラインメントにおける第１の位置セットにある第１の残基セットに周期的間隔のマスクセットを適用することであって、前記第１の残基セットが、前記クエリ残基配列における関心対象位置にある関心対象残基を含む、適用することと、
前記多重配列アラインメントの一部分をトリミングすることであって、前記多重配列アラインメントの一部分が、
（ｉ）前記第１の位置セットにある前記周期的間隔のマスクセットと、
（ｉｉ）前記周期的間隔のマスクセットが適用されない、前記多重配列アラインメントにおける第２の位置セットにある第２の残基セットと、を含む、トリミングすることと、
前記多重配列アラインメントの前記一部分に基づいて、前記関心対象位置にあるバリアントについての病原性予測を生成することと、を含む、アクションを実施する、システム。

【請求項20】

バリアント病原性を予測するためのコンピュータプログラム命令が記録された非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令が、プロセッサ上で実行されると、
クエリ残基配列を複数の非クエリ残基配列に整列させる多重配列アラインメントにアクセスすることと、
前記多重配列アラインメントにおける第１の位置セットにある第１の残基セットに周期的間隔のマスクセットを適用することであって、前記第１の残基セットが、前記クエリ残基配列における関心対象位置にある関心対象残基を含む、適用することと、
前記多重配列アラインメントの一部分をトリミングすることであって、前記多重配列アラインメントの一部分が、
（ｉ）前記第１の位置セットにある前記周期的間隔のマスクセットと、
（ｉｉ）前記周期的間隔のマスクセットが適用されない、前記多重配列アラインメントにおける第２の位置セットにある第２の残基セットと、を含む、トリミングすることと、
前記多重配列アラインメントの前記一部分に基づいて、前記関心対象位置にあるバリアントについての病原性予測を生成することと、を含む、アクションを実施する、非一時的コンピュータ可読記憶媒体。

【請求項21】

コンピュータ実装方法であって、
多重配列アラインメント（ＭＳＡ）にアクセスすることであって、前記ＭＳＡが、ｐ個の行及びｒ個の列を有し、前記ｐ個の行が、ｐ個のタンパク質配列に対応し、前記ｒ個の列が、ｒ個の残基位置に対応する、アクセスすることと、
マスクグリッドにアクセスすることであって、前記マスクグリッドが、ｍ個のマスク分布を有し、前記ｍ個のマスク分布の各々が、前記マスクグリッド内の第１の残基位置からの変動オフセットで始まるｋ個の順序位置にｋ個の周期的間隔のマスクを有する、アクセスすることと、
前記ｍ個のマスク分布を前記ｐ個のタンパク質配列中のｍ個のタンパク質配列に適用して、マスクされた残基及びマスクされていない残基を含む、部分的にマスクされたＭＳＡを生成することであって、ｐ＞ｍである、生成することと、
前記マスクされた残基及び前記マスクされていない残基を、学習された埋め込みに変換し、前記学習された埋め込みを残基位置埋め込みと連結して、前記部分的にマスクされたＭＳＡの埋め込まれた表現を生成することと、
前記埋め込まれた表現を一連のチャンクにチャンク化し、前記一連のチャンク内のチャンクをスタックに連結し、前記スタックを前記埋め込まれた表現の圧縮された表現に変換することであって、前記圧縮された表現が、ｍ個の行及びｒ個の列を有する、変換することと、
前記圧縮された表現の前記ｍ個の行及び前記ｒ個の列にわたって軸方向アテンションを反復的に適用し、適用された前記軸方向アテンションをインターリーブして、前記圧縮された表現の更新された表現を生成することであって、前記更新された表現が、ｍ個の行及びｒ個の列を有する、生成することと、
前記更新された表現から、ｋ個の更新された表現タイルを集約することであって、前記ｋ個の更新された表現タイルの各々が、前記マスクされた残基に対応する、前記更新された表現の更新された表現特徴を含み、前記ｋ個の更新された表現タイルの各々が、ｍ個の行及びｋ個の列を有し、所与の更新された表現タイルの前記ｋ個の列内の所与の列が、前記更新された表現特徴のそれぞれのサブセットを含み、前記それぞれのサブセットが、前記ｋ個の順序位置内の所与の順序位置に位置し、前記所与の順序位置が、前記所与の列によって表される、集約することと、
前記埋め込まれた表現から、前記ｋ個の更新された表現タイルに対応するｋ個の埋め込みタイルを集約することであって、前記ｋ個の埋め込みタイルの各々が、前記マスクされた残基の変換である、前記一連のチャンクのうちの第１のチャンク内の埋め込み特徴を含み、前記ｋ個の埋め込みタイルの各々が、ｍ個の行及びｋ個の列を有し、所与の埋め込みタイルの前記ｋ個の列内の所与の列が、前記埋め込み特徴のそれぞれのサブセットを含み、前記それぞれのサブセットが、前記ｋ個の順序位置内の所与の順序位置に位置し、前記所与の順序位置が、前記所与の列によって表される、集約することと、
ｋ個のブールタイルを前記ｋ個の埋め込みタイルに適用して、ｋ個のブール化埋め込みタイルを生成することであって、前記ｋ個のブールタイルの各々が、ｍ個の行及びｋ個の列を有し、前記ｋ個のブールタイルの各々が、前記ｋ個の埋め込みタイルのうちの対応する１つにおける前記ｋ個の列のうちの対応する１つの隠蔽を引き起こすとともに、前記ｋ個の埋め込みタイルのうちの前記対応する１つにおける前記ｋ個の列のうちの他のものの表出を引き起こし、前記ｋ個のブール化埋め込みタイルの各々が、ｍ個の行及びｋ個の列を有する、生成することと、
前記ｋ個のブール化埋め込みタイルを前記ｋ個の更新された表現タイルと連結して、ｋ個の連結されたタイルを生成し、前記ｋ個の連結されたタイルを前記ｋ個の連結されたタイルのｋ個の圧縮されたタイル表現に変換することであって、前記ｋ個の圧縮されたタイル表現の各々が、ｍ個の行及びｋ個の列を有する、変換することと、
前記ｋ個の圧縮されたタイル表現に自己アテンションを反復的に適用して、前記ｋ個のブールタイルによって表出される前記ｋ個の埋め込みタイルにおける埋め込み特徴に対応する前記ｋ個の圧縮されたタイル表現における圧縮されたタイル特徴の解釈を生成することと、
前記ｋ個のブールタイルによって隠蔽される前記ｋ個の埋め込みタイルにおける埋め込み特徴に対応する解釈された特徴を前記解釈から集約して、前記解釈の集約された表現を生成することであって、前記集約された表現が、ｍ個の行及びｋ個の列を有する、生成することと、
前記集約された表現を前記マスクされた残基の同一性に変換することと、を含む、コンピュータ実装方法。

【請求項22】

ワンホットエンコーディングスキームを使用して、２０個の天然由来の残基、ギャップ残基、及びマスクを、それぞれのワンホットエンコードされたベクトルに変換することを更に含む、請求項２１に記載のコンピュータ実装方法。

【請求項23】

前記それぞれのワンホットエンコードされたベクトルに対するそれぞれの学習された埋め込みを生成するようにニューラルネットワークを訓練することを更に含む、請求項２２に記載のコンピュータ実装方法。

【請求項24】

前記マスクされた残基及び前記マスクされていない残基が、前記それぞれのワンホットエンコードされたベクトルを前記それぞれの学習された埋め込みにマッピングするルックアップテーブルに基づいて、前記学習された埋め込みに変換される、請求項２３に記載のコンピュータ実装方法。

【請求項25】

前記チャンクが、チャネル次元に沿って前記スタックに連結される、請求項２１に記載のコンピュータ実装方法。

【請求項26】

前記スタックが、線形射影を通じて前記スタックを処理することによって前記圧縮された表現に変換される、請求項２１に記載のコンピュータ実装方法。

【請求項27】

前記線形射影が、複数の一次元（１Ｄ）畳み込みフィルタを使用する、請求項２６に記載のコンピュータ実装方法。

【請求項28】

前記集約された表現が、表出出力ヘッドを通じて前記集約された表現を処理することによって、前記マスクされた残基の同一性に変換される、請求項２１に記載のコンピュータ実装方法。

【請求項29】

ｐ＝ｍである、請求項２１に記載のコンピュータ実装方法。

【請求項30】

前記ｋ個のブールタイルの各々が、前記ｋ個の埋め込みタイルのうちの前記対応する１つにおける前記ｋ個の列のうちの前記対応する１つの隠蔽を引き起こすとともに、前記ｋ個の埋め込みタイルのうちの前記対応する１つにおける前記ｋ個の列のうちの他のもののうちの少なくともいくつかの表出を引き起こす、請求項２１に記載のコンピュータ実装方法。

【請求項31】

前記ｋ個のブールタイルの各々が、前記ｋ個の埋め込みタイルのうちの前記対応する１つにおける前記ｋ個の列のうちの対応するサブセットの隠蔽を引き起こすとともに、前記ｋ個の埋め込みタイルのうちの前記対応する１つにおける前記ｋ個の列のうちの他のもののうちの少なくともいくつかの表出を引き起こす、請求項２１に記載のコンピュータ実装方法。

【請求項32】

システムであって、
複数のマスクされた残基を有する多重配列アラインメント（ＭＳＡ）を記憶するメモリと、前記ＭＳＡを一連のチャンクにチャンク化するように構成されたチャンク化論理と、
前記一連のチャンクの表現に注目し、第１のアテンション出力を生成するように構成された第１のアテンション論理と、
前記複数のマスクされた残基中のマスクされた残基に対応する前記第１のアテンション出力における特徴を含む第１の集約された出力を生成するように構成された第１の集約論理と、
前記第１の集約された出力と、サブセットごとに、前記マスクされた残基の所与のサブセットを隠蔽することと前記マスクされた残基の残りのサブセットを表出させることとを交互に行うブールマスクとに基づいて、通知された出力を生成するように構成されたマスク表出論理と、
前記通知された出力に注目し、
前記ブールマスクによって表出されたマスクされた残基に基づいて、第２のアテンション出力を生成するように構成された第２のアテンション論理と、
前記ブールマスクによって隠蔽されたマスクされた残基に対応する前記第２のアテンション出力における特徴を含む第２の集約された出力を生成するように構成された第２の集約論理と、
前記第２の集約された出力に基づいて、前記マスクされた残基の特定を生成するように構成された出力論理と、を含む、システム。

【請求項33】

前記第１のアテンション論理が、軸方向アテンションを使用する、請求項３２に記載のシステム。

【請求項34】

前記第２のアテンション論理が、自己アテンションを使用する、請求項３２に記載のシステム。

【請求項35】

コンピュータ実装方法であって、
多重配列アラインメント（ＭＳＡ）にアクセスすることであって、前記ＭＳＡが、ｐ個の行及びｒ個の列を有し、前記ｐ個の行が、ｐ個のタンパク質配列に対応し、前記ｒ個の列が、ｒ個の残基位置に対応する、アクセスすることと、
マスクグリッドにアクセスすることであって、前記マスクグリッドが、ｍ個のマスク分布を有し、前記ｍ個のマスク分布の各々が、ｋ個の順序位置にｋ個の周期的間隔のマスクを有する、アクセスすることと、
前記ｍ個のマスク分布を前記ｐ個のタンパク質配列中のｍ個のタンパク質配列に適用して、マスクされた残基及びマスクされていない残基を含む、部分的にマスクされたＭＳＡを生成することであって、ｐ＞ｍである、生成することと、
前記マスクされた残基及び前記マスクされていない残基を学習された埋め込みに変換することと、
前記学習された埋め込みを残基位置埋め込みと連結して、前記部分的にマスクされたＭＳＡの埋め込まれた表現を生成することと、
前記埋め込まれた表現を一連のチャンクにチャンク化し、前記一連のチャンク内のチャンクをスタックに連結し、前記スタックを前記埋め込まれた表現の圧縮された表現に変換することと、
前記圧縮された表現のｍ個の行及びｒ個の列にわたって軸方向アテンションを反復的に適用し、適用された前記軸方向アテンションをインターリーブして、前記圧縮された表現の更新された表現を生成することと、
前記更新された表現から、ｋ個の更新された表現タイルを集約することであって、前記ｋ個の更新された表現タイルの各々が、前記マスクされた残基に対応する、前記更新された表現の更新された表現特徴を含む、集約することと、
前記埋め込まれた表現から、前記ｋ個の更新された表現タイルに対応するｋ個の埋め込みタイルを集約することであって、前記ｋ個の埋め込みタイルの各々が、前記マスクされた残基の変換である、前記一連のチャンクのうちの第１のチャンクにおける埋め込み特徴を含む、集約することと、
ｋ個のブールタイルを前記ｋ個の埋め込みタイルに適用して、ｋ個のブール化埋め込みタイルを生成することであって、前記ｋ個のブールタイルの各々が、前記ｋ個の埋め込みタイルのうちの対応する１つにおけるｋ個の列のうちの対応する１つの隠蔽を引き起こすとともに、前記ｋ個の埋め込みタイルのうちの前記対応する１つにおける前記ｋ個の列のうちの他のものの表出を引き起こす、生成することと、
前記ｋ個のブール化埋め込みタイルを前記ｋ個の更新された表現タイルと連結して、ｋ個の連結されたタイルを生成し、前記ｋ個の連結されたタイルを前記ｋ個の連結されたタイルのｋ個の圧縮されたタイル表現に変換することと、
前記ｋ個の圧縮されたタイル表現に自己アテンションを反復的に適用して、前記ｋ個のブールタイルによって表出される前記ｋ個の埋め込みタイルにおける埋め込み特徴に対応する前記ｋ個の圧縮されたタイル表現における圧縮されたタイル特徴の解釈を生成することと、
前記ｋ個のブールタイルによって隠蔽される前記ｋ個の埋め込みタイルにおける埋め込み特徴に対応する解釈された特徴を前記解釈から集約して、前記解釈の集約された表現を生成することと、前記集約された表現を前記マスクされた残基の同一性に変換することと、を含む、コンピュータ実装方法。

【請求項36】

前記ｍ個のマスク分布のうちの少なくともいくつかの前記ｋ個の周期的間隔のマスクが、マスクグリッド内の第１の残基位置からの変動オフセットで開始する、請求項３５に記載のコンピュータ実装方法。

【請求項37】

前記ｍ個のマスク分布のうちの少なくともいくつかの前記ｋ個の周期的間隔のマスクが、前記第１の残基位置からの同じオフセットで開始する、請求項３６に記載のコンピュータ実装方法。

【請求項38】

前記圧縮された表現が、ｍ個の行及びｒ個の列を有する、請求項３５に記載のコンピュータ実装方法。

【請求項39】

前記ｋ個の更新された表現タイルの各々が、ｍ個の行及びｋ個の列を有し、所与の更新された表現タイルの前記ｋ個の列内の所与の列が、前記更新された表現特徴のそれぞれのサブセットを含み、前記それぞれのサブセットが、前記ｋ個の順序位置内の所与の順序位置に位置し、前記所与の順序位置が、前記所与の列によって表される、請求項３５に記載のコンピュータ実装方法。

【請求項40】

前記ｋ個の埋め込みタイルの各々が、ｍ個の行及びｋ個の列を有し、所与の埋め込みタイルの前記ｋ個の列内の所与の列が、前記埋め込み特徴のそれぞれのサブセットを含み、前記それぞれのサブセットが、前記ｋ個の順序位置内の所与の順序位置に位置し、前記所与の順序位置が、前記所与の列によって表される、請求項３５に記載のコンピュータ実装方法。

【発明の詳細な説明】

【技術分野】

【0001】

（優先権出願）
本出願は、以下の利益及び優先権を主張する。
２０２２年１０月２７日に出願された「ＭＡＳＫＰＡＴＴＥＲＮＦＯＲＰＲＯＴＥＩＮＬＡＮＧＵＡＧＥＭＯＤＥＬＳ」と題する米国特許出願第１７／９７５，５３６号（代理人整理番号ＩＬＬＭ１０６３－２／ＩＰ－２２９６－ＵＳ１）、
２０２２年１０月２７日に出願された「ＰＡＴＨＯＧＥＮＩＣＩＴＹＬＡＮＧＵＡＧＥＭＯＤＥＬ」と題する米国特許出願第１７／９７５，５４７号（代理人整理番号ＩＬＬＭ１０６３－３／ＩＰ－２２９６－ＵＳ２）、
２０２１年１２月２９日に出願された「ＰＥＲＩＯＤＩＣＭＡＳＫＰＡＴＴＥＲＮＦＯＲＲＥＶＥＬＡＴＩＯＮＬＡＮＧＵＡＧＥＭＯＤＥＬＳ」と題する米国特許仮出願第６３／２９４，８１３号（代理人整理番号ＩＬＬＭ１０６３－１／ＩＰ－２２９６－ＰＲＶ）、
２０２１年１２月２９日に出願された「ＣＬＡＳＳＩＦＹＩＮＧＭＩＬＬＩＯＮＳＯＦＶＡＲＩＡＮＴＳＯＦＵＮＣＥＲＴＡＩＮＳＩＧＮＩＦＩＣＡＮＣＥＵＳＩＮＧＰＲＩＭＡＴＥＳＥＱＵＥＮＣＩＮＧＡＮＤＤＥＥＰＬＥＡＲＮＩＮＧ」と題する米国特許仮出願第６３／２９４，８１６号（代理人整理番号ＩＬＬＭ１０６４－１／ＩＰ－２２９７－ＰＲＶ）、
２０２１年１２月２９日に出願された「ＩＤＥＮＴＩＦＹＩＮＧＧＥＮＥＳＷＩＴＨＤＩＦＦＥＲＥＮＴＩＡＬＳＥＬＥＣＴＩＶＥＣＯＮＳＴＲＡＩＮＴＢＥＴＷＥＥＮＨＵＭＡＮＳＡＮＤＮＯＮＨＵＭＡＮＰＲＩＭＡＴＥＳ」と題する米国特許仮出願第６３／２９４，８２０号（代理人整理番号ＩＬＬＭ１０６５－１／ＩＰ－２２９８－ＰＲＶ）、
２０２１年１２月２９日に出願された「ＤＥＥＰＬＥＡＲＮＩＮＧＮＥＴＷＯＲＫＦＯＲＥＶＯＬＵＴＩＯＮＡＲＹＣＯＮＳＥＲＶＡＴＩＯＮ」と題する米国特許仮出願第６３／２９４，８２７号（代理人整理番号ＩＬＬＭ１０６６－１／ＩＰ－２２９９－ＰＲＶ）、
２０２１年１２月２９日に出願された「ＩＮＴＥＲ－ＭＯＤＥＬＰＲＥＤＩＣＴＩＯＮＳＣＯＲＥＲＥＣＡＬＩＢＲＡＴＩＯＮ」と題する米国特許仮出願第６３／２９４，８２８号（代理人整理番号ＩＬＬＭ１０６７－１／ＩＰ－２３０１－ＰＲＶ）、及び
２０２１年１２月２９日に出願された「ＳＰＥＣＩＥＳ－ＤＩＦＦＥＲＥＮＴＩＡＢＬＥＥＶＯＬＵＴＩＯＮＡＲＹＰＲＯＦＩＬＥＳ」と題する米国特許仮出願第６３／２９４，８３０号（代理人整理番号ＩＬＬＭ１０６８－１／ＩＰ－２３０２－ＰＲＶ）。

【0002】

優先権出願は、本明細書に完全に記載されているかのように、その全体が参照により本明細書に組み込まれる。

【0003】

（技術分野）
開示される技術は、人工知能型コンピュータ及びデジタルデータ処理システム、並びに知能（すなわち、知識ベースのシステム、推論システム、及び知識取得システム）を模倣するための対応するデータ処理方法及び製品に関し、不確実性を伴う推論のためのシステム（例えば、ファジーロジックシステム）、適応システム、機械学習システム、及び人工ニューラルネットワークを含む。詳細には、開示される技術は、順序付きデータを分析するためにニューラルネットワークを使用することに関する。

【0004】

（組み込み）
以下は、本明細書に完全に記載されているかのように、全ての目的のために参照により組み込まれる。
Ｓｕｎｄａｒａｍ，Ｌ．ｅｔａｌ．Ｐｒｅｄｉｃｔｉｎｇｔｈｅｃｌｉｎｉｃａｌｉｍｐａｃｔｏｆｈｕｍａｎｍｕｔａｔｉｏｎｗｉｔｈｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ．Ｎａｔ．Ｇｅｎｅｔ．５０，１１６１－１１７０（２０１８）、
Ｊａｇａｎａｔｈａｎ，Ｋ．ｅｔａｌ．Ｐｒｅｄｉｃｔｉｎｇｓｐｌｉｃｉｎｇｆｒｏｍｐｒｉｍａｒｙｓｅｑｕｅｎｃｅｗｉｔｈｄｅｅｐｌｅａｒｎｉｎｇ．Ｃｅｌｌ１７６，５３５－５４８（２０１９）、
同時に出願された「ＰＡＴＨＯＧＥＮＩＣＩＴＹＬＡＮＧＵＡＧＥＭＯＤＥＬ」と題する米国特許出願（代理人整理番号ＩＬＬＭ１０６３－３／ＩＰ－２２９６－ＵＳ２）、
２０１７年１０月１６日に出願された「ＴＲＡＩＮＩＮＧＡＤＥＥＰＰＡＴＨＯＧＥＮＩＣＩＴＹＣＬＡＳＳＩＦＩＥＲＵＳＩＮＧＬＡＲＧＥ－ＳＣＡＬＥＢＥＮＩＧＮＴＲＡＩＮＩＮＧＤＡＴＡ」と題する米国特許出願第６２／５７３，１４４号（代理人整理番号ＩＬＬＭ１０００－１／ＩＰ－１６１１－ＰＲＶ）、
２０１７年１０月１６日に出願された「ＰＡＴＨＯＧＥＮＩＣＩＴＹＣＬＡＳＳＩＦＩＥＲＢＡＳＥＤＯＮＤＥＥＰＣＯＮＶＯＬＵＴＩＯＮＡＬＮＥＵＲＡＬＮＥＴＷＯＲＫＳ（ＣＮＮｓ）」と題する米国特許出願第６２／５７３，１４９号（代理人整理番号ＩＬＬＭ１０００－２／ＩＰ－１６１２－ＰＲＶ）、
２０１７年１０月１６日に出願された「ＤＥＥＰＳＥＭＩ－ＳＵＰＥＲＶＩＳＥＤＬＥＡＲＮＩＮＧＴＨＡＴＧＥＮＥＲＡＴＥＳＬＡＲＧＥ－ＳＣＡＬＥＰＡＴＨＯＧＥＮＩＣＴＲＡＩＮＩＮＧＤＡＴＡ」と題する米国特許出願第６２／５７３，１５３号（代理人整理番号ＩＬＬＭ１０００－３／ＩＰ－１６１３－ＰＲＶ）、
２０１７年１１月７日に出願された「ＰＡＴＨＯＧＥＮＩＣＩＴＹＣＬＡＳＳＩＦＩＣＡＴＩＯＮＯＦＧＥＮＯＭＩＣＤＡＴＡＵＳＩＮＧＤＥＥＰＣＯＮＶＯＬＵＴＩＯＮＡＬＮＥＵＲＡＬＮＥＴＷＯＲＫＳ（ＣＮＮｓ）」と題する米国特許出願第６２／５８２，８９８号（代理人整理番号ＩＬＬＭ１０００－４／ＩＰ－１６１８－ＰＲＶ）、
２０１８年１０月１５日に出願された「ＤＥＥＰＬＥＡＲＮＩＮＧ－ＢＡＳＥＤＴＥＣＨＮＩＱＵＥＳＦＯＲＴＲＡＩＮＩＮＧＤＥＥＰＣＯＮＶＯＬＵＴＩＯＮＡＬＮＥＵＲＡＬＮＥＴＷＯＲＫＳ」と題する米国特許出願第１６／１６０，９０３号（代理人整理番号ＩＬＬＭ１０００－５／ＩＰ－１６１１－ＵＳ）、
２０１８年１０月１５日に出願された「ＤＥＥＰＣＯＮＶＯＬＵＴＩＯＮＡＬＮＥＵＲＡＬＮＥＴＷＯＲＫＳＦＯＲＶＡＲＩＡＮＴＣＬＡＳＳＩＦＩＣＡＴＩＯＮ」と題する米国特許出願第１６／１６０，９８６号（代理人整理番号ＩＬＬＭ１０００－６／ＩＰ－１６１２－ＵＳ）、
２０１８年１０月１５日に出願された「ＳＥＭＩ－ＳＵＰＥＲＶＩＳＥＤＬＥＡＲＮＩＮＧＦＯＲＴＲＡＩＮＩＮＧＡＮＥＮＳＥＭＢＬＥＯＦＤＥＥＰＣＯＮＶＯＬＵＴＩＯＮＡＬＮＥＵＲＡＬＮＥＴＷＯＲＫＳ」と題する米国特許出願第１６／１６０，９６８号（代理人整理番号ＩＬＬＭ１０００－７／ＩＰ－１６１３－ＵＳ）、
２０１８年１０月１５日に出願された「ＤＥＥＰＬＥＡＲＮＩＮＧ－ＢＡＳＥＤＳＰＬＩＣＥＳＩＴＥＣＬＡＳＳＩＦＩＣＡＴＩＯＮ」と題する米国特許出願第１６／１６０，９７８号（代理人整理番号ＩＬＬＭ１００１－４／ＩＰ－１６８０－ＵＳ）、
２０１９年５月８日に出願された「ＤＥＥＰＬＥＡＲＮＩＮＧ－ＢＡＳＥＤＴＥＣＨＮＩＱＵＥＳＦＯＲＰＲＥ－ＴＲＡＩＮＩＮＧＤＥＥＰＣＯＮＶＯＬＵＴＩＯＮＡＬＮＥＵＲＡＬＮＥＴＷＯＲＫＳ」と題する米国特許出願第１６／４０７，１４９号（代理人整理番号ＩＬＬＭ１０１０－１／ＩＰ－１７３４－ＵＳ）、
２０２１年４月１５日に出願された「ＤＥＥＰＣＯＮＶＯＬＵＴＩＯＮＡＬＮＥＵＲＡＬＮＥＴＷＯＲＫＳＴＯＰＲＥＤＩＣＴＶＡＲＩＡＮＴＰＡＴＨＯＧＥＮＩＣＩＴＹＵＳＩＮＧＴＨＲＥＥ－ＤＩＭＥＮＳＩＯＮＡＬ（３Ｄ）ＰＲＯＴＥＩＮＳＴＲＵＣＴＵＲＥＳ」と題する米国特許出願第１７／２３２，０５６号（代理人整理番号ＩＬＬＭ１０３７－２／ＩＰ－２０５１－ＵＳ）、
２０２１年４月１５日に出願された「ＭＵＬＴＩ－ＣＨＡＮＮＥＬＰＲＯＴＥＩＮＶＯＸＥＬＩＺＡＴＩＯＮＴＯＰＲＥＤＩＣＴＶＡＲＩＡＮＴＰＡＴＨＯＧＥＮＩＣＩＴＹＵＳＩＮＧＤＥＥＰＣＯＮＶＯＬＵＴＩＯＮＡＬＮＥＵＲＡＬＮＥＴＷＯＲＫＳ」と題する米国特許出願第６３／１７５，４９５号（代理人整理番号ＩＬＬＭ１０４７－１／ＩＰ－２１４２－ＰＲＶ）、
２０２１年４月１６日に出願された「ＥＦＦＩＣＩＥＮＴＶＯＸＥＬＩＺＡＴＩＯＮＦＯＲＤＥＥＰＬＥＡＲＮＩＮＧ」と題する米国特許出願第６３／１７５，７６７号（代理人整理番号ＩＬＬＭ１０４８－１／ＩＰ－２１４３－ＰＲＶ）、
２０２１年９月７日に出願された「ＡＲＴＩＦＩＣＩＡＬＩＮＴＥＬＬＩＧＥＮＣＥ－ＢＡＳＥＤＡＮＡＬＹＳＩＳＯＦＰＲＯＴＥＩＮＴＨＲＥＥ－ＤＩＭＥＮＳＩＯＮＡＬ（３Ｄ）ＳＴＲＵＣＴＵＲＥＳ」と題する米国特許出願第１７／４６８，４１１号（代理人整理番号ＩＬＬＭ１０３７－３／ＩＰ－２０５１Ａ－ＵＳ）、
２０２１年１０月６日に出願された「ＰＲＯＴＥＩＮＳＴＲＵＣＴＵＲＥ－ＢＡＳＥＤＰＲＯＴＥＩＮＬＡＮＧＵＡＧＥＭＯＤＥＬＳ」と題する米国特許仮出願第６３／２５３，１２２号（代理人整理番号ＩＬＬＭ１０５０－１／ＩＰ－２１６４－ＰＲＶ）、
２０２１年１１月１９日に出願された「ＰＲＥＤＩＣＴＩＮＧＶＡＲＩＡＮＴＰＡＴＨＯＧＥＮＩＣＩＴＹＦＲＯＭＥＶＯＬＵＴＩＯＮＡＲＹＣＯＮＳＥＲＶＡＴＩＯＮＵＳＩＮＧＴＨＲＥＥ－ＤＩＭＥＮＳＩＯＮＡＬ（３Ｄ）ＰＲＯＴＥＩＮＳＴＲＵＣＴＵＲＥＶＯＸＥＬＳ」と題する米国特許仮出願第６３／２８１，５７９号（代理人整理番号ＩＬＬＭ１０６０－１／ＩＰ－２２７０－ＰＲＶ）、及び
２０２１年１１月１９日に出願された「ＣＯＭＢＩＮＥＤＡＮＤＴＲＡＮＳＦＥＲＬＥＡＲＮＩＮＧＯＦＡＶＡＲＩＡＮＴＰＡＴＨＯＧＥＮＩＣＩＴＹＰＲＥＤＩＣＴＯＲＵＳＩＮＧＧＡＰＥＤＡＮＤＮＯＮ－ＧＡＰＥＤＰＲＯＴＥＩＮＳＡＭＰＬＥＳ」と題する米国特許仮出願第６３／２８１，５９２号（代理人整理番号ＩＬＬＭ１０６１－１／ＩＰ－２２７１－ＰＲＶ）。

【背景技術】

【0005】

本セクションで考察される主題は、単に本セクションにおける言及の結果として、先行技術であると想定されるべきではない。同様に、本セクションで言及した問題、又は背景として提供された主題と関連付けられた問題は、先行技術において以前に認識されていると想定されるべきではない。本セクションの主題は、単に異なるアプローチを表し、それ自体はまた、特許請求される技術の実施態様に対応し得る。

【0006】

利用可能な生物学的配列データの急増は、配列データからタンパク質の三次元構造、生物学的機能、適合性、及び進化歴を推測する複数の計算アプローチにつながった。Ｔｒａｎｓｆｏｒｍｅｒアーキテクチャに基づくモデルのような、いわゆるタンパク質言語モデルは、周囲のアミノ酸を考慮して、配列中のマスクされたアミノ酸を埋めるマスクされた言語モデリングオブジェクトを使用することによって、タンパク質配列のラージアンサンブルに対して訓練されてきた。

【0007】

タンパク質言語モデルは、長距離依存性を捕捉し、タンパク質配列の豊富な表現を学習し、複数のタスクに採用され得る。例えば、タンパク質言語モデルは、教師なしの方式で単一の配列から構造的接触を予測することができる。

【0008】

タンパク質配列は、祖先タンパク質に由来し、類似の構造及び機能を共有する相同タンパク質のファミリーに分類され得る。相同タンパク質の多重配列アラインメント（multiple sequence alignment、ＭＳＡ）の分析は、機能的及び構造的制約についての重要な情報を提供する。アミノ酸部位を表すＭＳＡカラムの統計は、進化の間に保存される機能的残基を特定する。ＭＳＡカラム間のアミノ酸使用の相関は、機能的セクター及び構造的接触についての重要な情報を含む。

【0009】

言語モデルは、最初、自然言語処理のために開発され、単純であるが強力な原理に基づいて動作し、言語モデルは、標準化された試験における文章完成タスクに類似して、文章中の欠けている単語を埋めるように学習することによって言語理解を獲得する。言語モデルは、大規模なテキストコーパスにわたってこの原理を適用することによって、強力な推論能力を開発する。Ｔｒａｎｓｆｏｒｍｅｒからの双方向エンコーダ表現（Bidirectional Encoder Representations from Transformers、ＢＥＲＴ）モデルは、アテンションが学習システムの主要構成要素であるニューラルネットワークのクラスである、Ｔｒａｎｓｆｏｒｍｅｒを使用して、この原理をインスタンス化した。Ｔｒａｎｓｆｏｒｍｅｒでは、入力文章中の各トークンは、ニューラルネットワーク内のニューロンの中間出力に対応する活性化パターンを交換することによって、全ての他のトークンに「参加」し得る。

【0010】

ＭＳＡＴｒａｎｓｆｏｒｍｅｒのようなタンパク質言語モデルは、進化的に関連する配列のＭＳＡから推論を実施するように訓練されている。ＭＳＡＴｒａｎｓｆｏｒｍｅｒは、エピスタシスを組み込むために、配列（「行」）ごとのアテンションを部位（「列」）ごとのアテンションでインターリーブする。エピスタシスは、特定のタンパク位置の共進化につながる。１つの部位における変異の効果は、変異に影響を及ぼす他の部位における変異の存在又は非存在に依存する。ＭＳＡＴｒａｎｓｆｏｒｍｅｒにおける行アテンションヘッドの組み合わせは、最先端の教師なし構造的接触予測につながった。

【0011】

タンパク質配列及び配列保存データからミスセンスバリアントの病原性を予測するために、バリアント効果予測のためのエンドツーエンド深層学習アプローチが適用される（Ｓｕｎｄａｒａｍ，Ｌ．ｅｔａｌ．Ｐｒｅｄｉｃｔｉｎｇｔｈｅｃｌｉｎｉｃａｌｉｍｐａｃｔｏｆｈｕｍａｎｍｕｔａｔｉｏｎｗｉｔｈｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ．Ｎａｔ．Ｇｅｎｅｔ．５０，１１６１－１１７０（２０１８）を参照されたい。本明細書では「ＰｒｉｍａｔｅＡＩ」と称される）。ＰｒｉｍａｔｅＡＩは、異種間情報を使用するデータ増強を用いて既知の病原性のバリアントで訓練した深層ニューラルネットワークを使用する。特に、ＰｒｉｍａｔｅＡＩは、野生型及び変異タンパク質の配列を使用して、差異を比較し、訓練した深層ニューラルネットワークを使用して変異の病原性を決定する。病原性予測のためにタンパク質配列を利用するこのようなアプローチは、真円度問題及び以前の知識への過剰適合を回避することができるので、有望である。深層ニューラルネットワークを効果的に訓練するのに十分な数のデータと比較して、ＣｌｉｎＶａｒにおいて利用可能な臨床データの数は比較的少ない。このデータ不足を克服するために、ＰｒｉｍａｔｅＡＩは、一般的なヒトバリアント及び霊長類由来のバリアントを良性データとして使用し、トリヌクレオチド文脈に基づいて、ラベルなしデータの変異レート整合サンプルを未知のデータとして使用した。

【0012】

バリアント病原性予測のためにタンパク質言語モデル及びＭＳＡを使用する機会が生じる。より正確なバリアント病原性予測が得られ得る。

【図面の簡単な説明】

【0013】

図面では、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は必ずしも縮尺通りではなく、その代わりに、開示された技術の原理を例示することを強調している。以下の説明において、開示された技術の様々な実施態様は、以下の図面を参照して説明される。

【図1】開示される技術の様々な態様を示す高レベル図であり、特に、マスクされたＭＳＡを生成し、開示されるＰｒｉｍａｔｅＡＩ言語モデルを通じてマスクされたＭＳＡを処理して、表現型予測を生成することを例示する。

【図2】開示される周期的間隔のマスクグリッドをＭＳＡに適用し、開示される部分的にマスクされたＭＳＡを生成する一実施態様を示す。

【図3】２０個の残基ワンホットベクトル、ギャップ残基ワンホットベクトル、及びマスクワンホットベクトルに対して定義されるワンホットトークンの一実施態様を示す。

【図4】２０個の残基チャネル埋め込みセット、ギャップチャネル埋め込みセット、及びマスクチャネル埋め込みセットに対して定義されるチャネル埋め込みの一実施態様を例示する。

【図5】開示される技術の様々な実施態様による、ＭＳＡのトリミング、パディング、及びマスキングを示す。

【図6】開示されるＭＳＡ表現を生成する一実施態様を図示する。

【図7】開示されるＰｒｉｍａｔｅＡＩ言語モデルの例示的なアーキテクチャを例示する。

【図8】開示されるマスク表出の詳細を示す。

【図9】ＰｒｉｍａｔｅＡＩ言語モデルの様々な構成要素を示す。

【図10】開示されるＰｒｉｍａｔｅＡＩ言語モデルによって使用される開示される表出出力ヘッドの一実施態様を示す。

【図11】開示される技術の一実施態様による、ＰｒｉｍａｔｅＡＩ言語モデルの論理フローのコンピュータ実装方法である。

【図12】開示される技術の一実施態様による、ＰｒｉｍａｔｅＡＩ言語モデルを実装するように構成されるシステムである。

【図13】他の言語モデルを有する開示されるＰｒｉｍａｔｅＡＩ言語モデルの言語モデル化部分の性能評価を示す。

【図14】開示されるＰｒｉｍａｔｅＡＩ言語モデルの第１位の訓練正確度を図示する。

【図15】開示されるＰｒｉｍａｔｅＡＩ言語モデルのコンパイル及びランタイム実行のために使用され得るコンピュータシステムである。

【図16】ＵｎｉＲｅｆ５０ＨＨｂｌｉｔｓＭＳＡとヒトＨＨｂｌｉｔｓＭＳＡとの間の比較を例示する。

【図17】勾配事前標準化を伴うＬＡＭＢオプティマイザを使用するＰｒｉｍａｔｅＡＩ言語モデルの訓練を例示する。

【発明を実施するための形態】

【0014】

以下の考察は、開示される技術を当業者が作製及び使用することを可能にするために提示され、特定の用途及びその要件に関連して提供される。開示される実施態様に対する種々の修正は、当業者には容易に明らかとなり、本明細書で定義される一般原理は、開示される技術の趣旨及び範囲から逸脱することなく、その他の実施態様及び用途に適用され得る。したがって、開示される技術は、示される実施態様に限定されることを意図するものではなく、本明細書に開示される原理及び特徴と一致する最も広い範囲を与えられるものである。

【0015】

様々な実施態様の詳細な説明は、添付の図面と併せて読むと、より良く理解することができる。図が様々な実施態様の機能ブロックの図を示す限りにおいて、機能ブロックは、必ずしもハードウェア回路間の分割を示すものではない。したがって、例えば、機能ブロック（例えば、モジュール、プロセッサ、又はメモリ）のうちの１つ以上は、単一のハードウェア（例えば、汎用信号プロセッサ又はランダムアクセスメモリのブロック、ハードディスクなど）又は複数のハードウェアに実装されてもよい。同様に、プログラムは、スタンドアロンプログラムであってもよく、オペレーティングシステム内のサブルーチンとして組み込まれてもよく、インストールされたソフトウェアパッケージ内の機能である等でもよい。様々な実施態様は、図面に示された配置及び手段に限定されないことを理解されたい。

【0016】

モジュールとして指定された図の処理エンジン及びデータベースは、ハードウェア又はソフトウェアで実装することができ、図に示されるように、正確に同じブロックで分割される必要はない。いくつかのモジュールは、異なるプロセッサ、コンピュータ若しくはサーバ上に実装されてもよく、又は多数の異なるプロセッサ、コンピュータ若しくはサーバの中で広がることもできる。

【0017】

加えて、モジュールの一部は、達成される機能に影響を及ぼすことなく、図に示されるものとは並行して、又は異なる順序で操作され得ることが理解されるであろう。図のモジュールはまた、方法におけるフローチャートステップと考えることができる。また、モジュールは、必ずしもメモリ内に隣接して配置された全てのコードを有する必要はない。コードのいくつかの部分は、他のモジュール又は他の機能からのコードが間に配置された状態で、コードの他の部分から分離することができる。

【0018】

序論
開示されるＰｒｉｍａｔｅＡＩ言語モデルは、配列に対する訓練のためにマスクされた言語モデリング目的を使用する。訓練中、配列中の異なる位置にある残基がマスクトークンで置換され、ＰｒｉｍａｔｅＡＩ言語モデルは、それらの位置にある元の残基を予測するように訓練される。

【0019】

マスクされた言語モデリングは、大量のラベルなしデータに対する訓練を可能にする。空欄を埋める多重配列アラインメント（multiple sequence alignment、ＭＳＡ）Ｔｒａｎｓｆｏｒｍｅｒは、訓練中にＭＳＡにおける複数のマスクされた場所を同時に分類する。マスク場所の数が多いほど、最適化を知らせるより多くのマスクされた言語モデリング（masked language modelling、ＭＬＭ）勾配を追加し得、それによって、より高い学習率及びより速い訓練を可能にする。

【0020】

しかしながら、マスク場所における分類が、他のマスク場所における残基の予測された値に依存するため、空欄を埋める病原性予測は、従来のＭＬＭとは基本的に異なる。分類スコアは、多くの場合、他のマスク場所における残基の全ての可能な組み合わせにわたる条件付き予測の平均であり得る。

【0021】

ＰｒｉｍａｔｅＡＩ言語モデルは、予測を行う前に他のマスク場所でマスクされたトークンを表出させることによって、この平均化を回避する。ＰｒｉｍａｔｅＡＩ言語モデルは、従来のＭＳＡＴｒａｎｓｆｏｒｍｅｒよりも訓練のために５０倍少ない計算を必要としながら、最先端の臨床性能及びノイズ除去正確度を達成する。以下で論じられる、開示される技術の様々な態様は、訓練計算における５０倍の低減に寄与する。そのような態様の例は、周期的間隔のマスクグリッド、マスク表出、及びＰｒｉｍａｔｅＡＩ言語モデルのアーキテクチャを含む。

【0022】

ＰｒｉｍａｔｅＡＩ言語モデルは、空欄を埋める残基分類のためのＭＳＡＴｒａｎｓｆｏｒｍｅｒと考えられ得る。一実施態様では、ＰｒｉｍａｔｅＡＩ言語モデルは、教師なしＭＬＭオブジェクトを最小化するために、ＵｎｉＲｅｆ５０タンパク質のＭＳＡ上でエンドツーエンドで訓練される。ＰｒｉｍａｔｅＡＩ言語モデルは、ＰｒｉｍａｔｅＡＩ三次元（３Ｄ）ランク損失への入力として機能する、代替及び参照残基についての分類スコアを出力する。

【0023】

表現型予測
図１は、開示される技術の様々な態様を示す高レベル図１００であり、特に、マスクされたＭＳＡ１４０を生成し、開示されるＰｒｉｍａｔｅＡＩ言語モデル（例えば、表現型予測器１５０又は病原性言語モデル）を通じてマスクされたＭＳＡ１４０を処理して、表現型予測１６０を生成することを例示する。

【0024】

一実施態様では、ＭＳＡデータセット１１０は、ＵｎｉＣｌｕｓｔ３０データベースを検索することによって取り出されるＵｎｉＲｅｆ５０データベース内の各配列についての多重配列アラインメント（ＭＳＡ）１２０を含む。ＭＳＡ１２０は、標的タンパク質に対する複数の相同タンパク質配列のアラインメントである。ＭＳＡ１２０から、相同性の程度が推測され、配列間の進化的関係が研究され得る。実際のタンパク質配列は、挿入、欠失、及び置換を有する可能性が高いため、配列は、全ての配列にわたってレーベンシュタイン距離様メトリックを最小化することによって整列される。いくつかの実施態様では、ヒューリスティックアラインメントスキームが使用される。例えば、ＪａｃｋＨＭＭＥＲ及びＨＨｂｌｉｔｓのようなツールは、検索及びアラインメントステップを反復的に実施することによって戻される配列の数及び多様性を増加させ得る。

【0025】

変異に対するタンパク質の電気機械的感受性によって有意に影響される最近の祖先を有する生物における変異の差異に起因して、近くの進化を組み込むことは困難である。これを回避するために、開示される技術によって使用されるＭＳＡは、クエリ配列と整列する多様なタンパク質を含む。多くの種からの多様な配列を使用することは、差異が自然選択によってより高度に決定されるため、予測に対する電気機械的感受性の影響を低減する。

【0026】

いくつかの実施態様では、ＭＳＡデータセット１１０は、タンパク質相同性検出ソフトウェアＨＨｂｌｉｔｓを使用することによって作成される、２６，０００，０００個のＭＳＡを含み得る。他の実施態様では、ＨＨｂｌｉｔｓを使用して、１９，０７１個のヒトタンパク質について追加のＭＳＡセットが生成され得る。当業者は、開示される技術が、任意の数のＭＳＡを検索、生成、及び別様に活用（又は使用）することができることを理解するであろう。

【0027】

いくつかの実施態様では、クエリ配列が希少アミノ酸を保有するＵｎｉＲｅｆ５０ＭＳＡは、ＭＳＡデータセット１１０から排除され、それによって、２０個の最も豊富な残基を含むＭＳＡデータセット１１０内のＭＳＡのみを保持し得る。他の実施態様では、２０個の最も一般的な残基及びギャップを含む非クエリ配列のみが、ＭＳＡに含まれ得、これは、結果的に、クエリ配列に対する欠失を表す。

【0028】

いくつかの実施態様では、ＰｒｉｍａｔｅＡＩ言語モデルへの入力として提供されるＭＳＡは、１０２４個の配列の固定サイズを有し得る。１０２４個の配列のうち、１０２３個までの非クエリ配列は、ＭＳＡ深度が１０２４よりも大きい場合、フィルタリングされた配列からランダムにサンプリングされ得る。ＭＳＡ深度が１０２４未満である場合、ＭＳＡは、入力を埋めるためにゼロでパディングされ得る。ＭＳＡ深度は、ＭＳＡにおけるタンパク質配列の数を指す。例えば、１０２４個の配列の固定入力ＭＳＡ深度を有するＭＳＡ変換器が訓練され得る。これは、モデルに入力されるテンソルが固定形状を有するため、モデルの処理を容易にする。フルＭＳＡ深度が１０２４未満である場合、パディングが、そのサイズを１０２４に増加させように追加され得る。フルＭＳＡ深度が１０２４を超える場合、１０２３個の配列がフルＭＳＡ深度からランダムにサンプリングされ得る。１つのクエリ配列は、残りのＭＳＡが１０２４の深度を有するように維持され得る（１０２３個のランダムにサンプリングされた配列及び１つのクエリ配列）。

【0029】

マスキング論理１３０は、１つ以上のマスクをＭＳＡ１２０に適用し、マスクされたＭＳＡ１４０を生成し得る。マスクは、周期的、非周期的、規則的、又は不規則的な様式で配置され得る。マスクは、周期的間隔のマスク又はマスクの規則的なグリッド若しくはアレイに限定されない。マスクは、不規則な形状であってもよく、直線状又は曲線状であってもよく、不規則で不均一な間隔のパターンで配置されてもよい。マスクは、隣接するマスク間の距離が固定又は同じである場合、形状が規則的である。隣接するマスク間の距離が変化すると、マスクが不規則な形状になる。

【0030】

表現型予測器１５０（例えば、ＰｒｉｍａｔｅＡＩ言語モデル）は、マスクされたＭＳＡ１４０を処理し、表現型予測１６０を生成し得る。一実施態様では、表現型予測１６０は、マスクされたＭＳＡ１４０におけるマスクされた残基の同一性を出力する。他の実施態様では、表現型予測１６０は、バリアント病原性予測、タンパク質コンタクトマップ生成、タンパク質機能性予測などのために使用され得る。

【0031】

本出願の一部分は、タンパク質を「配列」、「残基配列」、「アミノ酸配列」、及び「アミノ酸の鎖」と互換的に呼ぶことに留意されたい。また、本出願の一部分は、「アミノ酸」及び「残基」を互換的に使用することに留意されたい。更に、本出願の一部分は、「周期的間隔のマスクセット」、「周期的間隔のマスク」、「マスクグリッド」、「周期的間隔のマスクグリッド」、「周期的マスクパターン」、及び「固定マスクパターン」を互換的に使用することに留意されたい。

【0032】

図に示される配列は、アミノ酸残基を含むタンパク質配列である。他の実施態様では、配列は、代わりに、ＤＮＡ、ＲＮＡ、炭水化物、脂質、又は任意の他の直鎖状若しくは分岐状バイオポリマーを含み得る。

【0033】

図１を使用して高レベルで開示された技術を説明してきたが、次に、開示される周期的間隔のマスクグリッド、マスキング論理１３０の特定の実施態様について考察する。

【0034】

周期的間隔のマスクグリッド
図２は、開示される周期的間隔のマスクグリッド２１０をＭＳＡ２２０に適用し、開示される部分的にマスクされたＭＳＡ２３０を生成する一実施態様を示す。

【0035】

周期的間隔のマスクグリッド２１０の列は、残基位置に対応する。残基位置は、本明細書では順序位置とも呼ばれる。例えば、図２では、周期的間隔のマスクグリッド２１０は、９つの残基位置に対応する９つの列を有する（すなわち、ｒ＝９）。

【0036】

周期的間隔のマスクグリッド２１０は、マスクである要素（又はユニット又はトークン）を有する。図２では、そのようなマスク要素は、黒く塗りつぶされた「？」記号を有するボックスによって図示されている。周期的間隔のマスクグリッド２１０はまた、マスクではない要素（又はユニット若しくはトークン）を有する。図２では、そのような非マスク要素は、斜線パターンで塗りつぶされたボックスによって図示されている。

【0037】

周期的間隔のマスクグリッド２１０の行は、マスクである要素と、マスクではない要素とを含む。周期的間隔のマスクグリッド２１０の行は、本明細書ではマスク分布と呼ばれる。例えば、図２では、５つのマスク分布１～５（すなわち、ｍ個のマスク分布、ｍ＝５）が存在する。

【0038】

各マスク分布は、ｋ個の周期的間隔のマスクを有する。例えば、図２では、マスク分布１～４は、各々、３つのマスク（すなわち、ｋ＝３）を有し、マスク分布５は、２つのマスクを有する（すなわち、ｋ＝２）。

【0039】

マスク分布におけるｋ個の周期的間隔のマスクは、周期的間隔のマスクグリッド２１０内の第１の残基位置からの変動オフセットで始まるｋ個の順序位置にある。例えば、図２では、第１のマスク分布のｋ個の周期的間隔のマスクは、第３、第６、及び第９の順序位置に位置し、周期的間隔のマスクグリッド２１０内の第１の残基位置から２のオフセットで始まる。第２のマスク分布のｋ個の周期的間隔のマスクは、第１、第４、及び第７の順序位置に位置し、周期的間隔のマスクグリッド２１０内の第１の残基位置からゼロのオフセットで始まる。第３のマスク分布のｋ個の周期的間隔のマスクは、第２、第５、及び第８の順序位置に位置し、周期的間隔のマスクグリッド２１０内の第１の残基位置から１のオフセットで始まる。第４のマスク分布のｋ個の周期的間隔のマスクは、第３、第６、及び第９の順序位置に位置し、周期的間隔のマスクグリッド２１０内の第１の残基位置から２のオフセットで始まる。第５のマスク分布のｋ個の周期的間隔のマスクは、第４及び第７の順序位置に位置し、周期的間隔のマスクグリッド２１０内の第１の残基位置から３のオフセットで始まる。

【0040】

周期的間隔のマスクグリッド２１０内のマスクは、マスクがそれらの間に規則的な間隔を有し、規則的な間隔で繰り返す、すなわち、マスクが規則的間隔の繰り返しであるため、周期的である。周期的間隔のマスクグリッド２１０内のマスクもまた、マスクが順序付きパターンを有するため、周期的である。

【0041】

周期的間隔のマスクグリッド２１０内のマスクは、格子パターン、対角線パターン、六角形パターン、ダイヤモンドパターン、長方形パターン、正方形パターン、三角形パターン、凸パターン、凹パターン、及び／又は多角形パターンを有し得る。

【0042】

一実施態様では、周期的間隔のマスクグリッド２１０内のマスク分布の各々のｋ個の周期的間隔のマスクは、同じストライドを有する（例えば、図２ではストライド＝３）。別の実施態様では、周期的間隔のマスクグリッド２１０内のマスク分布にわたるｋ個の周期的間隔のマスクは、対角線パターンを有する。他の実施態様では、ストライドは、１６などの任意の数、又は８～６４の範囲内、又はその範囲内若しくはその範囲の部分範囲内の任意の数であり得る。本明細書で使用される場合、「ストライド」という用語は、隣接するマスク間の距離を指す。

【0043】

他の実施態様では、周期的間隔のマスクグリッド２１０内のマスクは、準周期的であり、それにより、マスクは、順序付きパターンを有するが、マスクは、精密に規則的な間隔で繰り返されない。

【0044】

次に、図３及び図４を参照して、ＰｒｉｍａｔｅＡＩ言語モデルによる処理のためにマスクがどのようにエンコードされるかの詳細を考察する。図３及び図４を説明した後、考察は、図２に戻り、開示される部分的にマスクされたＭＳＡがどのように生成されるかを考察することになる。

【0045】

マスク
マスクトークンは、マスクを定義する。マスクトークンは、マスクトークンが適用されるＭＳＡ内の元の残基を隠蔽又は置換するように構成されている。マスクトークンは、マスクトークンが、２０個の天然由来の残基を定義するために使用される２０個の残基トークンとは異なるという意味で、特別又は補助トークンである。マスクトークンはまた、ギャップ残基を定義するために使用されるギャップ残基トークンとは異なる。ギャップ残基は、その同一性が解明されていない（又は未知である）残基であり、したがって、ギャップ残基は、２１個の既知の残基のいずれにも確実には分類されない。ギャップ残基は、ギャップ残基トークンによってエンコードされる。

【0046】

マスクトークンは、マスクトークンを第２２の残基としてエンコードするように２０個の残基トークン及びギャップ残基トークンを定義する同じエンコーディング論理によって定義され得る。

【0047】

図３は、２０個の残基ワンホットベクトル３０１、３０２、３０３、３０４、３０５、３０６、３０７、３０８、３０９、３１０、３１１、３１２、３１３、３１４、３１５、３１６、３１７、３１８、３１９、及び３２０、ギャップ残基ワンホットベクトル３２１、並びにマスクワンホットベクトル３２２に対して定義されるワンホットトークン３００の一実施態様を示す。ワンホットトークン３００は、ビットのうちの１つがホット（すなわち、１）であるが、他が０である、２２ビットのバイナリベクトルでエンコードされる。いくつかの実施態様では、ワンホットエンコーダ（図示せず）がワンホットトークン３００を生成する。

【0048】

図４は、２０個の残基チャネル埋め込みセット４０１、４０２、４０３、４０４、４０５、４０６、４０７、４０８、４０９、４１０、４１１、４１２、４１３、４１４、４１５、４１６、４１７、４１８、４１９、及び４２０、ギャップチャネル埋め込みセット４２１、並びにマスクチャネル埋め込みセット４２２に対して定義されるチャネル埋め込み４００（又は学習された埋め込み）の一実施態様を例示する。チャネル埋め込み４００は、２１個の既知の残基に及ぶ。チャネル埋め込みセット４２１は、ギャップ残基に及ぶ。マスクチャネル埋め込みセット４２２は、マスク残基に及ぶ。チャネル埋め込み４００は、高さ次元、幅次元、及び深さ次元を有するテンソルであり、各チャネル埋め込みセットは、Ｎ個のチャネル埋め込みを含み得、Ｎは、９４などの整数である。

【0049】

いくつかの実施態様では、埋め込み生成器（図示せず（例えば、多層パーセプトロン））が、チャネル埋め込み４００を生成する。

【0050】

いくつかの実施態様では、埋め込み生成器は、チャネル埋め込み４００を学習及び生成するためにＰｒｉｍａｔｅＡＩ言語モデルとともに訓練され得る。推論中に、ルックアップテーブルは、ワンホットトークン３００とチャネル埋め込み４００との間のマッピングを記憶し得る。ルックアップテーブルは、残基トークン、ギャップトークン、及びマスクトークンを対応するチャネル埋め込みと置換するために、推論中にアクセスされ得る。

【0051】

他の実施態様では、マスクトークン（例えば、ワンホット又はチャネル埋め込み）のエンコーディングは、様々な因子に応じて変動し得る。例としては、マスクの場所（すなわち、残基位置）、マスクが適用される残基型、マスクが適用される配列型、マスクが適用される配列番号、及びマスクが適用される配列の種型が挙げられる。

【0052】

他の実施態様では、マスクトークンは、他のスキームを使用してエンコードされ得る。例としては、定量又は数値データ型、定性データ型、離散データ型、連続データ型（下限及び上限を有する）、整数データ型（下限及び上限を有する）、公称データ型、順序又はランク付きデータ型、カテゴリデータ型、間隔データ型、及び比率データ型が挙げられる。例えば、エンコーディングは、複数ビット、０と１との間の実数値、浮動小数点数などの連続値、０と２５６との間の赤、緑、青（Red,Green,Blue、ＲＧＢ）値、ＣＳＳカラーの１６進値（例えば、＃Ｆ０Ｆ８ＦＦ）、ＣＳＳカラーのカテゴリカルカラー値、他のＣＳＳプロパティグループ及びプロパティのそれぞれの値、特定の寸法のサイズ（例えば、高さ及び幅）、異なる値及びデータ型のセットなどに基づくか、又はそれらの任意の組み合わせに基づき得る。

【0053】

ここで、考察は、図２に戻り、開示される部分的にマスクされたＭＳＡがどのように生成されるかを考察する。

【0054】

部分的にマスクされたＭＳＡ
ＭＳＡ２２０は、ｐ個の行及びｒ個の列を有する。ｐ個の列は、ｐ個のタンパク質配列に対応する。ｒ個の列は、ｒ個の残基位置に対応する（例えば、図２ではｒ＝１６）。周期的間隔のマスクグリッド２１０は、ＭＳＡ２２０とは異なる数の行及び列（すなわち、異なる形状）を有し得る。いくつかの実施態様では、周期的間隔のマスクグリッド２１０は、ＭＳＡ２２０と同じ数の行及び列（すなわち、同じ形状）を有し得る。

【0055】

周期的間隔のマスクグリッド２１０は、ＭＳＡ２２０上の任意の場所に適用（又はオーバーレイ）され得る（２１２）。例えば、周期的間隔のマスクグリッド２１０は、周期的間隔のマスクグリッド２１０が、関心対象位置２１６（赤色）に関心対象残基２１４（赤色）を含むＭＳＡ２２０の特定の列を中心とするように適用され得る。別の例では、周期的間隔のマスクグリッド２１０は、周期的間隔のマスクグリッド２１０が、関心対象位置２１６に関心対象残基２１４を含むＭＳＡ２２０の特定の行（例えば、図２の配列１のようなクエリ配列）に配置されるように、適用され得る。

【0056】

一実施態様では、周期的間隔のマスクグリッド２１０は、配列２２２（例えば、図２では５つの配列）のウィンドウに及ぶ、ＭＳＡ２２０内の配列サブセットに適用される。いくつかの実施態様では、周期的間隔のマスクグリッド２１０は、左隣接様式又は右隣接様式でＭＳＡ２２０上に適用され得る。他の実施態様では、周期的間隔のマスクグリッド２１０は、ＭＳＡ２２０の部分（例えば、象限）を同時に又は順次横断して、部分ごとにＭＳＡ２２０上に適用され得る。

【0057】

周期的間隔のマスクグリッド２１０の非マスク要素がオーバーレイされるＭＳＡ２２０の残基は、不変のままであり、本明細書ではマスクされていない残基と呼ばれる。逆に、周期的間隔のマスクグリッド２１０のマスク要素がオーバーレイされるＭＳＡ２２０の残基は、マスクトークンに変化し、本明細書ではマスクされた残基と呼ばれる。

【0058】

マスクされていない残基及びマスクされた残基の組み合わせ又は集約は、部分的にマスクされたＭＳＡ２３０を形成する。部分的にマスクされたＭＳＡ２３０は、マスクされていないいくつかの残基及びマスクされているいくつかの残基を含むＭＳＡとして定義され得る。部分的にマスクされたＭＳＡ２３０はまた、マスクされた残基を含むいくつかの配列、及びいかなるマスクされた残基も含まないいくつかの配列を含む、ＭＳＡとして定義され得る。

【0059】

部分的にマスクされたＭＳＡ２３０の一部分（又はパッチ）は、トリミング（又は選択若しくは抽出）されて、トリミングされた部分２３２を生成し得る（図２の青色の破線の輪郭）。いくつかの実施態様では、トリミングされた部分２３２は、（ｉ）配列２２２のウィンドウ内のマスクされた残基と、（ｉｉ）トリミングされた部分２３２の境界と一致する（又はそれを画定する）近傍内のマスクされた残基に連続的に隣接するいくつかのマスクされていない残基と、（ｉｉｉ）配列２２２のウィンドウを越えて延在し、いかなるマスクされた残基も含まないいくつかの追加の配列の一部分と、を含み得る。

【0060】

ＭＳＡトリミング、パディング、及びマスキング
図５は、開示される技術の様々な実施態様による、ＭＳＡ５００のトリミング、パディング、及びマスキングを示す。図５では、クエリ配列における関心対象位置における関心対象残基が、Ｘによって示され、マスク場所が、黒色の塗りつぶしによって示され、パディングが、灰色の塗りつぶしによって示され、トリミング領域が、黒色の破線によって示される。これらの例では、マスクストライドが３であり、トリミングウィンドウ幅が６残基である。

【0061】

パネルＡでは、ＭＳＡエッジから離れて、関心対象位置は、トリミング領域の中心の右側にある。パネルＢでは、トリミング領域は、ＭＳＡエッジを越えることを回避するために関心対象位置の右にシフトされる。パネルＣでは、短いタンパク質のためのＭＳＡが、トリミング領域を埋めるためにパディングされる。パネルＤでは、トリミング領域は、パディングを最小化するために関心対象位置の右にシフトされ、ＭＳＡは、トリミング領域を埋めるためにパディングされる。

【0062】

いくつかの実施態様では、関心対象位置は、訓練中にクエリ配列内の位置からランダムにサンプリングされるか、又は推論中にユーザによって選択される。関心対象位置に関する情報を最大化するために、いくつかの実施態様では、関心対象位置が中心になるように、２５６個の残基のサイズを有するトリミングウィンドウが選択される。しかしながら、トリミングウィンドウは、関心対象位置がＭＳＡのエッジの近くにある場合、ゼロをパディングすることを回避し、関心対象位置に関する情報を増加させるためにシフトされ得る。クエリ配列がトリミングウィンドウよりも短い場合、ウィンドウサイズを埋めるためにゼロがパディングされ得る。

【0063】

いくつかの実施態様では、タンパク質長Ｌがクエリ配列より短い場合、より小さい確率ρ_{ｓａｍｐｌｅ}が、訓練中にサンプリングされるＭＳＡに割り当てられ、例えば、

【0064】

【数1】

である。この割り当ては、訓練に使用されるＵｎｉＲｅｆ５０タンパク質及びヒトタンパク質に対する長さの分布を再平衡化し、パディングに対する計算の浪費も防止する。

【0065】

訓練に使用されるＵｎｉＲｅｆ５０タンパク質は、多くの場合、短い配列を有するが、それに対して、ヒトタンパク質の大部分は、長い配列を有する。図１６は、ＵｎｉＲｅｆ５０ＨＨｂｌｉｔｓＭＳＡとヒトＨＨｂｌｉｔｓＭＳＡとの間の比較を例示する。ＵｎｉＲｅｆ５０ＨＨｂｌｉｔｓＭＳＡにおけるタンパク質の多くは、短い配列を有するが、一方で、ＭＳＡのうちの少数のヒトタンパク質のみが短い。したがって、短い及び長いタンパク質のサンプリングされた分布がヒトタンパク質の分布により近くなるように、訓練中のより長いＵｎｉＲｅｆ５０タンパク質のサンプリングが増加し得る。長い配列のＵｎｉＲｅｆ５０タンパク質のサンプリングを増加させることは、計算効率も増加させる。短い配列のＵｎｉＲｅｆ５０タンパク質のみを入力として使用する場合、入力は、固定入力形状までパディングされることになり、これは、訓練プロセス中の計算が、モデル最適化に勾配を追加するのではなくパディングに浪費されることを意味する。

【0066】

ＭＳＡの第１の配列に含まれることになる非クエリ配列をサンプリングする確率もまた、調整され得る（例えば、ｆ＝３２）。一実施態様では、周期的間隔のマスクグリッド２１０は、第１の配列におけるギャップの発生にペナルティを科すように適用される。非クエリ配列がマスクされる確率ρ_ｍａｓｋは、ギャップトークンの数の増加とともに減少し、例えば、

【0067】

【数2】

である。かなりの数のギャップを有する配列のダウンサンプリングは、ＭＳＡにおける欠落データの画分を低減する。

【0068】

ＭＳＡ表現
図６は、開示されるＭＳＡ表現を生成する（６００）一実施態様を図示する。パネルＡは、ＭＳＡ２２０を示す。パネルＢは、部分的にマスクされたＭＳＡ２３０を示す。この例では、周期的間隔のマスクグリッド２１０は、ＭＳＡ２２０の最初の４つの配列に適用され、３のストライドを有する。部分的にマスクされたＭＳＡ２３０は、周期的間隔のマスクグリッド２１０をＭＳＡ２２０に適用した結果として生成される。パネルＣでは、部分的にマスクされたＭＳＡ２３０におけるマスクされていない残基及びマスクされた残基が、チャネル埋め込み４００のうちの対応するもので置換される。一実施態様では、チャネル埋め込み４００のうちの対応するものは、残基列のための位置埋め込みと合計される。位置埋め込みは、ＰｒｉｍａｔｅＡＩ言語モデルの訓練中に学習及び生成され得る。チャネル埋め込み４００のうちの対応するものと位置埋め込みとの合計が、チャンク６４０に分割される。パネルＤでは、チャンク６４０は、チャネル次元でスタック６６０に連結され、次いで、線形射影（６７０）されて、ＭＳＡ表現６８０を形成する。いくつかの実施態様では、線形射影６７０は、複数の一次元（１Ｄ）畳み込みフィルタを使用する。

【0069】

チャネル埋め込み４００はまた、本明細書では、学習された埋め込みとも呼ばれる。一実施態様では、部分的にマスクされたＭＳＡ２３０内のマスクされた残基及びマスクされていない残基は、マスクされた残基及びマスクされていない残基に対応する学習された埋め込みを記憶するルックアップテーブルを使用することによって、学習された埋め込みに変換される。

【0070】

位置埋め込みはまた、本明細書では、残基位置埋め込みとも呼ばれる。チャネル埋め込み４００のうちの対応するもの及び位置埋め込みの合計は、本明細書では、部分的にマスクされたＭＳＡ２３０の埋め込まれた表現とも呼ばれる。学習された埋め込みは、埋め込まれた表現を生成するために残基位置埋め込みと連結される。

【0071】

埋め込まれた表現は、一連のチャンク６４０にチャンク化される。一連のチャンク内のチャンクは、スタック６６０に連結される。

【0072】

ＭＳＡ表現６８０は、本明細書では、埋め込まれた表現の射影（又は圧縮）された表現とも呼ばれる。射影された表現は、ｍ個の行及びｒ個の列を有する。スタック６６０は、一実施態様によると、畳み込み演算を使用することによって射影された表現に変換される。射影された表現は、この段階ではデータを小さくする意味で圧縮されるわけではないことに留意されたい。行をスタックしなかった場合、射影された表現は、埋め込まれた表現と比較して「圧縮」又は「小さく」され、これが、行スタッキングが計算要件を低下させる理由である。しかしながら、射影された表現は、特徴次元に関してモデル入力よりも小さくない。

【0073】

一実施態様では、固定マスクパターンは、ＭＳＡの最初の３２個の配列に適用される。ＭＳＡトークンは、学習された９６チャネル埋め込みによってエンコードされ、これは、層正規化の前に残基列について学習された９６チャネル位置埋め込みと合計される。計算要件を低減するために、ＭＳＡ内の１０２４個の配列に対する埋め込みは、配列軸に沿って周期的間隔で、各々が３２個の配列を含む３２個のチャンクに分割される。次いで、これらのチャンクは、チャネル次元において連結され、線形射影によって混合される。本出願の文脈では、チャンクは、ＭＳＡの異なる非重複行と呼ばれ得る。他の実施態様では、ＭＳＡは、列ごと、又は何らかの他の不規則なパターンなどの、他の方式で「チャンク化」され得る。

【0074】

ＰｒｉｍａｔｅＡＩ言語モデル
図７は、ＰｒｉｍａｔｅＡＩ言語モデルの例示的なアーキテクチャ７００を例示する。ＰｒｉｍａｔｅＡＩ言語モデルは、軸方向アテンションブロック７１０（例えば、１２個の軸方向アテンションブロック）のカスケードを含む。軸方向アテンションブロック７１０のカスケードは、ＭＳＡ表現６８０を入力として受け取り、更新されたＭＳＡ表現７２０を出力として生成する。各軸方向アテンションブロックは、結合された行方向ゲート付き自己アテンション層７１２と、結合された列方向ゲート付き自己アテンション層７１４と、遷移層７１６とを追加する残基を含む。

【0075】

一実施態様では、結合された行方向ゲート付き自己アテンション層７１２内に１２個のヘッドが存在する。一実施態様では、結合された列方向ゲート付き自己アテンション層７１４内に１２個のヘッドが存在する。各ヘッドは、６４個のチャネルを生成し、１２個のヘッドにわたってチャネルを合計する（７６８）。一実施態様では、遷移層７１６は、ＧＥＬＵ活性化のために最大３０７２個のチャネルを射影する。

【0076】

本技術は、三角形アテンションの代わりに、結合されたアテンションを含むように、修正された軸方向ゲート付き自己アテンションを開示した。三角形アテンションは、高い計算コストを有する。結合されたアテンションは、非パディング行にわたる、キーと値との間のドット積類似性の合計を、非パディング行の数の平方根によって除算したものであり、これは、計算負荷を実質的に低減する。

【0077】

次に、開示されるマスク表出について考察する。

【0078】

マスク表出
マスク表出は、軸方向アテンションブロック７１０のカスケードの後に他のマスク場所における未知の値を表出させる。マスク表出は、マスク部位と整列した特徴を集める。行内の各マスクされた残基に対して、マスク表出は、その行内の他のマスクされた場所にある埋め込まれた標的トークンを表出させる。

【0079】

マスク表出は、更新されたＭＳＡ表現７２０としての更新された７６８チャネルＭＳＡ表現を、マスクトークンの位置をラベル付けするブールマスク７７０によって示される場所における９６チャネル標的の埋め込まれた表現（トークン埋め込み）６９０と組み合わせる。ストライド１６を有する固定マスクパターンであるブールマスク７７０は、マスクトークン場所におけるＭＳＡ表現及び標的トークン埋め込みから特徴を収集するために行方向に適用される。

【0080】

特徴収集は、行の長さを２５６から１６に低減し、これは、マスク表出に続くアテンションブロックの計算コストを劇的に減少させる。収集されたＭＳＡ表現の各行内の各場所について、行は、収集された標的トークン埋め込みからの対応する行と連結され、その場所もまた、標的トークン埋め込みにおいてマスクされる。ＭＳＡ表現及び部分的に表出した標的埋め込みは、チャネル次元において連結され、線形射影によって混合される。

【0081】

マスク表出７３０の後、ここで通知されたＭＳＡ表現７４０は、残りの行方向ゲート付き自己アテンション層（例えば、行方向ゲート付き自己アテンション層７５０及び行方向ゲート付き自己アテンション層７５６）並びに遷移層７５４を通じて伝播される。ＰｒｉｍａｔｅＡＩ言語モデルへの入力として提供されるＭＳＡ表現６８０からの他の位置について残基が既知であるため、アテンションは、マスク場所における特徴にのみ適用される。したがって、アテンションは、マスク表出から新しい情報が存在するマスク場所に適用されることのみを必要とする。図７の繰り返しループ７５２によって示されるように、場合によっては、遷移層７５４及び行方向ゲート付き自己アテンション層７５６が４回繰り返され得る。

【0082】

自己アテンションによるマスク表出の解釈の後、マスクされた収集演算７６０は、標的トークン埋め込みがマスクされたままである位置において、結果として生じるＭＳＡ表現から特徴を収集する。収集されたＭＳＡ表現７７２は、出力ヘッド７８０によって、アミノ酸及びギャップトークン語彙における２１個の候補についての予測７９０に変換される。出力ヘッド７８０は、遷移層及びパーセプトロンを含む。

【0083】

図８は、開示されるマスク表出の詳細８００を示す。マスク表出は、その後の訓練中により多くの情報を可能にし、関心対象の各残基を予測する正確度を改善する。

【0084】

第１のステップは、ドットによってマークされたマスク場所８０２、８６０における全てのトークンを収集すること（８０４、８３０、８６２）である。収集という用語は、本明細書では集約という用語と互換的に使用される。これは、更新されたＭＳＡ表現７２０、周期的間隔のマスクグリッド２１０、及び埋め込まれた表現（埋め込みトークン）６９０内のトークンに対して行われる。

【0085】

図８では、破線及び色は、ＭＳＡタイル８０６及び埋め込みタイル８４４がどのように選択されるかを示す。特徴収集は、行の長さを２５６から１６（図８では６から２）に低減し、これは、マスク表出に続くアテンションブロックの計算コストを劇的に減少させる。収集された表現の各々は、行内のマスクの数だけタイル化又は複製／クローン化される（８０８、８３０、８６６）。図８に示される例では、１行当たり２つのマスクが存在する。したがって、それぞれ、クローニング８０８及び８６６の結果として、クローン化されたＭＳＡタイル８１０及び埋め込みタイル８７０におけるクローンとして連結される２つのタイルが存在する。

【0086】

マスク表出８３０は、単一の位置にあるマスクを除いたタイル内の全てのマスクの除去である。収集されたマスクの上部タイルは、第１の関心対象位置８３４においてマスクされ、全ての他の関心対象位置８３６においてマスクされない。第２のタイルは、第２の関心位置８３８においてマスクされ、他の全ての関心位置８３２においてマスクされない。マスク表出は、行内の各マスクされた位置について行内の他のトークンを表出させる。いくつかの実施態様では、位置は、訓練及び推論の両方において同じ方式でマスクされる。これは、推論中に関心対象位置をマスクするだけに変更するよりも高い性能をもたらす。入力内の関心対象の位置の場所は、例えば、関心対象の場所がマスクの中心にあるとき、ＰｒｉｍａｔｅＡＩ言語モデルによって処理される入力内により多くのＭＳＡの隣接列が含まれるため、入力情報を最大化するように選択される。

【0087】

次に、マスク表出８３０後の残りのマスクが埋め込みタイル８４４に適用されて（８６８）、クローン化されマスクされた埋め込みタイル８７０を生成する。クローン化されマスクされた埋め込みタイル８７０は、クローン化されたＭＳＡタイル８１０と連結されて（８７２）、連結タイル８７３を生成する。連結されたタイル８７３は、線形射影されて（８７４）、通知されたＭＳＡ表現７４０を生成する。

【0088】

ＰｒｉｍａｔｅＡＩ言語モデル構成要素及び訓練
図９は、一実施態様による、ＰｒｉｍａｔｅＡＩ言語モデルの様々な構成要素９００を示す。構成要素は、結合された行方向ゲート付き自己アテンション、行方向ゲート付き自己アテンション、及び列方向ゲート付き自己アテンションを含み得る。ＰｒｉｍａｔｅＡＩ言語モデルはまた、結合されたアテンションを使用し得る。軸方向アテンションは、入力の行及び列ごとに独立したアテンションマップを作成する。ＭＳＡにおける配列は、通常、類似の三次元構造を有する。直接結合分析は、この事実を利用して構造的接触情報を学習する。この共有構造を活用するために、ＭＳＡ内の配列間で行アテンションマップを結合することが有益である。追加の利点として、結合されたアテンションは、行アテンションのメモリフットプリントを低減する。

【0089】

再計算を伴う実施態様では、結合されたアテンションは、行アテンションのメモリフットプリントをＯ（ＭＬ^２）からＯ（Ｌ^２）に低減する。Ｍを行数とし、ｄを隠れた次元とし、Ｑ_ｍ、Ｋ_ｍを入力のｍ番目の行に対するクエリ及びキーの行列とする。結合された行アテンションは、ソフトマックスが適用される前に、以下のように定義される。

【0090】

【数3】

【0091】

最終モデルは、平方根正規化を使用する。他の実施態様では、モデルは、平均正規化を使用し得る。そのような実施態様では、分母１（Ｍ，ｄ）は、標準的なスケーリングされたドット積アテンションにおける正規化定数

【0092】

【数4】

である。そのような実施態様では、結合された行アテンションの場合、入力配列の数とともにアテンション重みが線形にスケーリングすることを防止するために、２つの正規化関数、すなわち、

【0093】

【数5】

（平均正規化）及び

【0094】

【数6】

（平方根正規化）が使用される。

【0095】

図９では、次元は、配列ｓ＝３２、残基、ｒ＝２５６、アテンションヘッド、ｈ＝１２、並びにチャネル、ｃ＝６４及びｃ_ＭＳＡ＝７６８について示されている。

【0096】

一実施態様では、ＰｒｉｍａｔｅＡＩ言語モデルは、４つのＡ１００グラフィック処理ユニット（graphical processing unit、ＧＰＵ）上で訓練され得る。オプティマイザステップは、８０ＭＳＡのバッチサイズのためのものであり、バッチを４０ＧＢのＡ１００メモリに適合させるために、４つの勾配集約に分割される。ＰｒｉｍａｔｅＡＩ言語モデルは、以下のパラメータ：β＿１＝０．９、β＿２＝０．９９９、∈＝１０－６、及び０．０１の重み減衰を使用して、ＬＡＭＢオプティマイザで訓練される。勾配は、ＬＡＭＢオプティマイザを適用する前に、それらのグローバルＬ２ノルムによる除算によって事前正規化される。訓練は、確率０．１によるドロップアウトによって正規化され、これは、アクティブ化の後、かつ残基接続の前に適用される。

【0097】

図１７は、勾配事前標準化を伴うＬＡＭＢオプティマイザを使用するＰｒｉｍａｔｅＡＩ言語モデルの訓練を例示する。残基ブロックは、収束を加速し、ＰｒｉｍａｔｅＡＩ言語モデルを可能にする同一性演算として開始される。「ＡｄａｍＷ」は、重み減衰を伴うＡＤＡＭオプティマイザを指し、「ＲｅＺｅＲＯ」は、ゼロ冗長性オプティマイザを指し、「ＬＲ」は、勾配事前正規化を伴うＬＡＭＢオプティマイザを指す。ＬａｒｇｅＢａｔｃｈＯｐｔｉｍｉｚａｔｉｏｎｆｏｒＤｅｅｐＬｅａｒｎｉｎｇＴｒａｉｎｉｎｇＢＥＲＴｉｎ７６ｍｉｎｕｔｅｓ，ＹａｎｇＹｏｕ，ＪｉｎｇＬｉ，ＳａｓｈａｎｋＲｅｄｄｉ，ｅｔａｌ．，ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ（ＩＣＬＲ）２０２０を参照されたい。例示されるように、勾配事前標準化を伴うＬＡＭＢオプティマイザは、ＡＤＡＭＷオプティマイザ及びゼロ冗長性オプティマイザの使用と比較して、より良好な性能（例えば、より少ない訓練反復にわたるより高い正確度レート）を示し、学習レートの範囲に対してより効果的である。

【0098】

軸方向ドロップアウトは、残留接続の前に自己アテンションブロックに適用され得る。列方向アテンションにおけるソフトマックス後空間ゲーティングの後に、列方向ドロップアウトが続き、一方で、行方向アテンションにおけるソフトマックス後空間ゲーティングの後に、行方向ドロップアウトが続く。ソフトマックス後空間ゲーティングは、ソフトマックスによって生成された指数関数的に正規化されたスコア又は確率に対する変調を可能にする。

【0099】

一実施態様では、ＰｒｉｍａｔｅＡＩ言語モデルは、１００，０００個のパラメータ更新のために訓練され得る。学習率は、最初の５，０００ステップにわたって、η＝５×１０^－６からη＝５×１０^－４のピーク値まで線形に増加し、次いで、η＝１０^－４まで線形に減衰する。自動混合精度（Automatic mixed precision、ＡＭＰ）は、訓練及び推論中に３２ビット精度から１６ビット精度までの好適な演算をキャストするために適用され得る。これは、性能に影響を与えることなく、スループットを増加させ、メモリ消費を低減する。加えて、ゼロ冗長性オプティマイザは、複数のＧＰＵにわたってオプティマイザ状態をシャーディングすることによって、メモリ使用量を低減した。

【0100】

表出出力ヘッド
図１０は、開示されるＰｒｉｍａｔｅＡＩ言語モデルによって使用され得る表出出力ヘッド７８０の一実施態様を示す。収集されたＭＳＡ表現７７２は、出力ヘッド７８０によって、ギャップトークンを含むアミノ酸語彙内の２１個の候補の予測７９０に変換され得る。一実施態様では、アミノ酸語彙が列挙され得、アミノ酸列挙は、学習された埋め込みの辞書にインデックス付けするために使用される。他の実施態様では、アミノ酸のワンホット埋め込みが使用され、線形射影と組み合わせられ得る。いくつかの実施態様では、表出出力ヘッド７８０は、遷移層１００２と、ゲート１００４と、層正規化ブロック１００６と、線形ブロック１００８と、ＧＥＬＵブロック１０１０と、別の線形ブロック１０１２と、を備え得る。次元は、チャネルｃ_ＭＳＡ＝７６８、及び語彙サイズ、ｖ＝２１について示されている。

【0101】

方法
図１１は、開示される技術の一実施態様による、ＰｒｉｍａｔｅＡＩ言語モデルの論理フローのコンピュータ実装方法１１００である。

【0102】

アクション１１０２では、多重配列アラインメント（ＭＳＡ）２２０がアクセスされ得る。ＭＳＡは、ｐ個の行及びｒ個の列を有し得る。ｐ個の行は、ｐ個のタンパク質配列に対応し得る。ｒ個の列は、ｒ個の残基位置に対応し得る。

【0103】

アクション１１０４では、周期的間隔のマスクグリッド２１０がアクセスされ得る。周期的間隔のマスクグリッド２１０は、ｍ個のマスク分布を有し得る。ｍ個のマスク分布の各々は、マスクグリッド内の第１の残基位置からの様々なオフセットで始まるｋ個の順序位置にｋ個の周期的間隔のマスクを有し得る。

【0104】

アクション１１０６では、ｍ個のマスク分布が、ｐ個のタンパク質配列中のｍ個のタンパク質配列に適用されて、マスクされた残基及びマスクされていない残基を含む部分的にマスクされたＭＳＡ２３０を生成し得、ｐ＞ｍである。様々な実施態様では、ｐ＞＝ｍである。

【0105】

アクション１１０８では、マスクされた残基及びマスクされていない残基は、チャネル埋め込み４００（又は学習された埋め込み）に変換され得、チャネル埋め込み４００（又は学習された埋め込み）は、部分的にマスクされたＭＳＡ２３０の埋め込まれた表現（埋め込みトークン）６９０を生成するために、残基位置埋め込みと連結され得る。

【0106】

アクション１１１０では、埋め込まれた表現（埋め込みトークン）６９０が、一連のチャンク６４０にチャンク化（又は分割）され得、一連のチャンク６４０中のチャンクが、スタック６５０に連結され得、スタック６５０が、埋め込まれた表現（埋め込みトークン）６９０のＭＳＡ表現６８０としての圧縮された表現に変換され得る。ＭＳＡ表現６８０としての圧縮された表現は、ｍ個の行及びｒ個の列を有し得る。

【0107】

アクション１１１２では、軸方向アテンション（例えば、軸方向アテンションブロック７１０による）は、圧縮された表現のｍ個の行及びｒ個の列にわたって反復的に（又は連続的に）適用され得、適用された軸方向アテンションは、ＭＳＡ表現６８０として圧縮された表現の（又はそれからの）更新されたＭＳＡ表現７２０を生成するためにインターリーブされ得る（遷移層を用いて）。更新されたＭＳＡ表現７２０は、ｍ個の行及びｒ個の列を有し得る。

【0108】

アクション１１１４では、ｋ個の更新された表現タイル（例えば、クローン化されたＭＳＡタイル８１０）が、更新されたＭＳＡ表現７２０から集約され得る。ｋ個の更新された表現タイル（例えば、クローン化されたＭＳＡタイル８１０）の各々は、マスクされた残基に対応する、更新されたＭＳＡ表現７２０の更新された表現特徴を含み得る。ｋ個の更新された表現タイルの各々は、ｍ個の行及びｋ個の列を有し得る。ＭＳＡタイル８０６の所与の更新された表現タイルのｋ個の列中の所与の列は、更新された表現特徴のそれぞれのサブセットを含み得る。それぞれのサブセットは、ｋ個の順序位置における所与の順序位置に位置し得る。所与の順序位置は、所与の列によって表され得る。

【0109】

アクション１１１６では、ｋ個の更新された表現タイル（例えば、クローン化されたＭＳＡタイル８１０）に対応するｋ個の埋め込みタイル８７０は、埋め込まれた表現（埋め込みトークン）６９０から集約され得る。ｋ個の埋め込みタイル８４４の各々は、マスクされた残基の変換である、一連のチャンクのうちの第１のチャンクにおける埋め込み特徴を含み得る。ｋ個の埋め込みタイルの各々は、ｍ個の行及びｋ個の列を有し得る。所与の埋め込みタイルのｋ個の列における所与の列は、埋め込み特徴のそれぞれのサブセットを含み得る。それぞれのサブセットは、ｋ個の順序位置における所与の順序位置に位置し得る。所与の順序位置は、所与の列によって表され得る。

【0110】

アクション１１１８では、ｋ個のブールタイル（例えば、第１の関心対象点８３４及び第２の関心対象点８３８にある）は、ｋ個の埋め込みタイルに適用されて、ｋ個のブール化（部分的に表出した）埋め込みタイルを生成し得る。ｋ個のブールタイルの各々は、ｍ個の行及びｋ個の列を有し得る。ｋ個のブールタイルの各々は、ｋ個の埋め込みタイルのうちの対応する１つにおけるｋ個の列のうちの対応する１つの隠蔽を引き起こし得るとともに、ｋ個の埋め込みタイルのうちの対応する１つにおけるｋ個の列における他のものの表出を引き起こし得る。ｋ個のブール化埋め込みタイルの各々は、ｍ個の行及びｋ個の列を有し得る。

【0111】

アクション１１２０では、ｋ個のブール化（部分的に表出した）埋め込みタイル８７０は、ｋ個の連結されたタイル８７３を生成するために、ｋ個の更新された表現タイル（例えば、クローン化されたＭＳＡタイル８１０）と連結され得、ｋ個の連結されたタイル８７３は、ｋ個の連結されたタイル８７３のｋ個の圧縮されたタイル表現（通知されたＭＳＡ表現７４０）に変換され得る。ｋ個の圧縮されたタイル表現の各々は、ｍ個の行及びｋ個の列を有し得る。

【0112】

アクション１１２２では、自己アテンション（例えば、行方向ゲート付き自己アテンション層７５０、遷移層７５４、及び行方向ゲート付き自己アテンション層７５６）は、ｋ個の圧縮されたタイル表現７４０に反復的に適用されて、ｋ個のブールタイルによって表出されるｋ個の埋め込みタイルにおける埋め込み特徴に対応するｋ個の圧縮されたタイル表現における圧縮されたタイル特徴の解釈を生成し得る。

【0113】

アクション１１２４では、ｋ個のブールタイルによって隠蔽されるｋ個の埋め込みタイルにおける埋め込み特徴に対応する解釈された特徴が、解釈から集約されて、解釈の集約された表現（収集されたＭＳＡ表現７７２）を生成し得る。集約された表現は、ｍ個の行及びｋ個の列を有し得る。

【0114】

アクション１１２６では、収集されたＭＳＡ表現７７２は、マスクされた残基の同一性（例えば、予測７９０）に変換されている可能性がある。

【0115】

システム
図１２は、開示される技術の一実施態様による、ＰｒｉｍａｔｅＡＩ言語モデルを実装するように構成されるシステム１２００である。

【0116】

メモリ１２０２は、複数のマスクされた残基を有する多重配列アラインメント（ＭＳＡ）を記憶し得る。

【0117】

チャンク化論理１２０４は、ＭＳＡを一連のチャンクにチャンク化するように構成され得る。

【0118】

第１のアテンション論理１２０６は、一連のチャンクの表現に注目し、第１のアテンション出力を生成するように構成され得る。

【0119】

第１の集約論理１２０８は、複数のマスクされた残基中のマスクされた残基に対応する第１のアテンション出力における特徴を含む第１の集約された出力を生成するように構成され得る。特徴は、一実施態様では、ＭＳＡにおけるアミノ酸のワンホットエンコーディングなどの、ＭＳＡの要素を含む。

【0120】

マスク表出論理１２１０は、第１の集約された出力と、サブセットごとに、マスクされた残基の所与のサブセットを隠蔽することとマスクされた残基の残りのサブセットを表出させることとを交互に行うブールマスクとに基づいて、通知された出力を生成するように構成され得る。

【0121】

第２のアテンション論理１２１２は、通知された出力に注目し、ブールマスクによって表出された、マスクされた残基に基づいて、第２のアテンション出力を生成するように構成され得る。

【0122】

第２の集約論理１２１４は、ブールマスクによって隠蔽されたマスクされた残基に対応する第２のアテンション出力における特徴を含む第２の集約された出力を生成するように構成され得る。

【0123】

出力論理１２１６は、第２の集約された出力に基づいて、マスクされた残基の特定を生成するように構成され得る。

【0124】

要約すると、いくつかの実施形態では、システムは、多重配列アラインメント（ＭＳＡ）をチャンクにチャンク化（又は分割）するチャンク化論理と、チャンクの表現に注目し、第１のアテンション出力を生成する、第１のアテンション論理と、複数のマスクされた残基中のマスクされた残基に対応する第１のアテンション出力における特徴を含む第１の集約された出力を生成する、第１の集約論理と、第１の集約された出力及びブールマスクとに基づいて、通知された出力を生成する、マスク表出論理と、通知された出力に注目し、ブールマスクによって表出された、マスクされた残基に基づいて、第２のアテンション出力を生成する、第２のアテンション論理と、ブールマスクによって隠蔽されたマスクされた残基に対応する第２のアテンション出力における特徴を含む第２の集約された出力を生成する、第２の集約論理と、第２の集約された出力に基づいて、マスクされた残基の特定を生成する、出力論理と、を備える。

【0125】

発明性及び非自明性の客観的な指標
図１３は、ＥＶＥ（Ｊ．Ｆｒａｚｅｒｅｔａｌ．，Ｄｉｓｅａｓｅｖａｒｉａｎｔｐｒｅｄｉｃｔｉｏｎｗｉｔｈｄｅｅｐｇｅｎｅｒａｔｉｖｅｍｏｄｅｌｓｏｆｅｖｏｌｕｔｉｏｎａｒｙｄａｔａ．Ｎａｔｕｒｅ５９９，９１－９５（２０２１）（ＥｖｏｌｕｔｉｏｎａｒｙｍｏｄｅｌｏｆＶａｒｉａｎｔＥｆｆｅｃｔ）「ＥＶＥ^＊」でラベル付けされている）モデルの複製されたＶＡＥ部分及びそれらの合算スコア（「ＰｒｉｍａｔｅＡＩＬＭ＋ＥＶＥ^＊－ｏｎｌｙ」でラベル付けされている）と比較した、ＰｒｉｍａｔｅＡＩ言語モデル（language model、ＬＭ）の言語モデリング部分の性能評価１３００を示す。性能は、競合的教師なし方法（ＥＳＭｌｖ、ＳＩＦＴ、ＬＩＳＴ－Ｓ２）の選択と更に比較される。左上から開始する時計回り方向において、個々のパネルは、ＤＤＤ対ＵＫＢＢ、Ａｓｓａｙｓ、ＣｌｉｎＶａｒ、ＡＳＤ、ＣＨＤ、ＤＤＤ、及びＵＫＢＢについての評価に対応する。Ａｓｓａｙｓ及びＵＫＢＢについては、要約統計量は、スコアと病原性の実験的尺度、すなわち、平均表現型（ＵＫＢＢ）又はアッセイスコア（Ａｓｓａｙ）との間の相関の絶対値（｜ｃｏｒｒ｜）に関して与えられる。ＤＤＤについて、本発明者らは、全てのデータセットにわたる対照及び症例分布についてのウィルコクソン順位和のＰ値を計算する。ＣｌｉｎＶａｒについて、本発明者らは、全ての遺伝子にわたって平均化されたＡＵＣを測定する。

【0126】

評価データセット
飽和突然変異誘発アッセイ
ＰｒｉｍａｔｅＡＩ言語モデルの性能を、以下の９つの遺伝子：アミロイド－ベータ、ＹＡＰ１、ＭＳＨ２、ＳＹＵＡ、ＶＫＯＲ１、ＰＴＥＮ、ＢＲＣＡ１、ＴＰ５３、及びＡＤＲＢ２について深層変異スキャンアッセイを使用して比較する。ＴＰＭＴ、ＲＡＳＨ、ＣＡＬＭ１、ＵＢＥ２Ｉ、ＳＵＭ０１、ＴＰＫ１、及びＭＡＰＫ１を含む、いくつかの分類子の予測スコアが利用できない遺伝子の数個のアッセイは、評価分析から除外される。ＫＲＡＳ（異なる転写配列に起因する）、ＳＬＣＯ１Ｂ１（１３７バリアントのみ）、及びアミロイド－ベータのアッセイもまた、除外される。ＰｒｉｍａｔｅＡＩ言語モデルの性能は、各アッセイについて個々にモデル予測スコアとアッセイスコアとの間の絶対スピアマン順位相関を計算し、次いで、全てのアッセイにわたって平均をとることによって評価される。

【0127】

ＵＫＢｉｏｂａｎｋ
ＵＫＢｉｏｂａｎｋ（ＵＫＢＢ）データセットは、１００個の遺伝子にわたって６１個の表現型を含む。全ての方法の共通のバリアントについて評価することは、数を、４２個の遺伝子にわたって４１個の表現型に低減する。遺伝子／表現型の各対について、予測された病原性スコアと定量的表現型スコアとの間の絶対スピアマン順位相関を計算する。少なくとも１０個のバリアントを有する遺伝子／表現型対のみを評価に含めた（１６個の遺伝子にわたって１４個の表現型）。これにより、評価がこの閾値の選択に対してロバストであることが確認された。

【0128】

ＣｌｉｎＶａｒ
ＣｌｉｎＶａｒミスセンスバリアントの臨床ラベルを良性又は病原性として分類する際のＰｒｉｍａｔｅＡＩ言語モデルの性能をベンチマークする。「良性」及び「良性である可能性が高い」とラベル付けされたバリアントは、両方、良性とみなされ、「病原性」及び「病原性である可能性が高い」ラベル付けされたバリアント（両方、病原性とみなされる）についても同じである。高品質のラベルを確保するために、１つ星以上のレビューステータス（「提供された基準、単一の提出者」、「提供された基準、複数の提出者、矛盾なし」、「専門家パネルによってレビューされた」、「診療ガイドライン」を含む）を有するＣｌｉｎＶａｒバリアントのみを含める。これは、バリアントの数を、病原性については３６，７０５から２２，１６５に、良性クラスについては４１，９８６から３９，５６０に低減した。各遺伝子について、レシーバー動作特性曲線下面積を計算し、次いで、全遺伝子にわたる平均ＡＵＣを報告する。

【0129】

ＤＤＤ／ＡＳＤ／ＣＨＤデノボミスセンスバリアント
臨床設定における深層学習ネットワークの性能を評価するために、自閉症スペクトラム障害（autism spectrum disorder、ＡＳＤ）及び発達障害（developmental disorder、ＤＤＤ）を含む、知的障害に関する公開された研究からのデノボ変異を得る。ＡＳＤは、少なくとも１つのデノボミスセンス（de novo missense、ＤＮＭ）変異を有する２，１２７人の患者を含んでいた。まとめると、合計３，１３５個のＤＮＭ変異が存在する。これは、少なくとも１つのＤＮＭバリアント及び合計５５８個のＤＮＭバリアントを有する５１７人の患者まで、全ての方法がそれらのバリアントについての予測を有することを要求した後、低減した。ＤＤＤでは、１７，９５２人の患者が少なくとも１つのデノボミスセンスバリアントを有し（合計２６，８８０個のバリアント）、全ての方法の予測の利用可能性を要求した後、５，８７２人の患者（６，３９８個のバリアント）まで低減した。１，３４２人の患者からの１，８３９個のデノボミスセンスバリアントからなる、先天性心疾患（congenital heart disorder、ＣＨＤ）を有する患者からのＤＮＭバリアントセットが得られる（全ての方法の予測の利用可能性を要求した後、２９９人の患者からの３１４個のバリアントまで低減する）。罹患患者由来のデノボバリアントの全３つのデータセットについて、健常対照由来のＤＮＭバリアントの共有セットが使用され、これは、少なくとも１つのＤＮＭバリアントを有する１，２１５人の健常対照由来の１，８２３個のＤＮＭバリアントを含み、複数の研究から収集された。それは、全ての方法のバリアント予測スコアの利用可能性を要求した後、２５０個のバリアント（２３５人の患者）まで低減された。ＤＮＭの各疾患セットについて、マン－ホイットニーＵ検定を適用して、各分類子が患者のＤＮＭセットを対照のＤＮＭセットからどの程度良好に区別し得るかを評価する。

【0130】

比較のための方法
他の方法からの予測を、機能性予測のデータベースｄｂＮＳＦＰ４．２ａからダウンロードした順位スコアを使用して評価した。共通バリアントの数の劇的な低減を回避するために、不完全なスコアセットを有する方法（ｈｇ３８における７１，０００，０００個の考えられるミスセンスバリアントのうち６７個未満を有する方法）は、広く採用されていることに起因してＰｏｌｙｐｈｅｎ２を除いて、除去される。本発明者らは、比較のために以下の方法（方法の略語）を含めた。
ＢａｙｅｓＤｅｌ＿ｎｏＡＦ（ＢａｙｅｓＤｅｌ）、ＣＡＤＤ＿ｒａｗ（ＣＡＤＤ）、ＤＡＮＮ、ＤＥＯＧＥＮ２、ＬＩＳＴ－Ｓ２、Ｍ－ＣＡＰ、ＭｕｔａｔｉｏｎＴａｓｔｅｒ＿ｃｏｎｖｅｒｔｅｄ（ＭｕｔａｔｉｏｎＴａｓｔｅｒ）、ＰＲＯＶＥＡＮ＿ｃｏｎｖｅｒｔｅｄ（ＰＲＯＶＥＡＮ）、Ｐｏｌｙｐｈｅｎ２＿ＨＶＡＲ（Ｐｏｌｙｐｈｅｎ２、Ｐｏｌｙｐｈｅｎ２ＨＤＩＶよりも良好な性能に起因して）、ＰｒｉｍａｔｅＡＩ、Ｒｅｖｅｌ（ＲＥＶＥＬ）、ＳＩＦＴ＿ｃｏｎｖｅｒｔｅｄ（ＳＩＦＴ）、ＶＥＳＴ４、ｆａｔｈｍｍ－ＭＫＬ＿ｃｏｄｉｎｇ（ｆａｔｈｍｍ－ＭＫＬ、所与のベンチマークに対するｆａｔｈｍｍモデルの中で最高性能）。

【0131】

より多くのタンパク質へのＥＶＥの適用
元の刊行物において、ＥＶＥは、ＣｌｉｎＶａｒにおける疾患関連遺伝子の小さいセットにのみ適用される。開示される言語モデルベースの訓練データセットを生成するために、ＥＶＥの予測を可能な限り多くのタンパク質に拡張することが不可欠である。ＥＶＥソースコードが利用できないことに起因して、同様の方法のＤｅｅｐＳｅｑｕｅｎｃｅを適用し、ガウス混合モデルを適合させることによってＤｅｅｐＳｅｑｕｅｎｃｅスコアをＥＶＥスコアに変換する。ＵｎｉＲｅｆ１００の最新バージョンが使用されるが、他の点では、ＥＶＥで説明されるアラインメント深度及び配列カバレッジフィルタリングステップに従う。１８，９２０個のタンパク質における少なくとも１つの予測、及び７１．２Ｍ個の考えられるミスセンスバリアントのうちの合計５０．２Ｍ個の予測されるバリアントが達成される。開示される複製を検証するために、複製されたＥＶＥモデルを、ＥＶＥから公開されたバリアントを使用して評価する。複製されたＥＶＥモデルからのスコアは、全てのベンチマーキングデータセットに対して、公開されたＥＶＥソフトウェアと同等の性能をもたらし、例えば、両方法は、Ａｓｓａｙに対して０．４１平均絶対相関及びＵＫＢＢに対して０．２２平均絶対相関を達成する。

【0132】

病原性予測について、他の配列のみのモデルに対するＰｒｉｍａｔｅＡＩ言語モデルのベンチマーキング
ＰｒｉｍａｔｅＡＩ言語モデルは、タンパク質配列をモデル化するように訓練されただけであるが、病原性予測因子として驚くほど良好に機能する方法のクラスに分類される。それらは、それ自体で全体的に最良の性能を達成しないにもかかわらず、より多様なデータを組み込む分類器において重要な特徴又は構成要素となる。図１３は、病原性予測について、他のそのような配列のみの方法：ＥＳＭｌｖ、ＥＶＥ、ＬＩＳＴ－Ｓ２、及びＳＩＦＴに対するＰｒｉｍａｔｅＡＩ言語モデルの評価性能を要約する。本発明者らの言語モデルは、訓練時間の１／５０のみを使用するアッセイを除いて、全ての試験データセットに対して別の言語モデルＥＳＭｌｖよりも性能が優れている。これは、ＰｒｉｍａｔｅＡＩＬＭが、アッセイのいかなる微調整にも依存しないため、特に印象的である。

【0133】

ＰｒｉｍａｔｅＡＩ言語モデルとＥＶＥとの組み合わせ
言語モデルは、タンパク質の全領域をモデル化するように訓練される。ＥＶＥは、各ヒトタンパク質及び全ての類似配列について別個のモデルを訓練する。このこと、並びにモデルアーキテクチャ及び訓練アルゴリズムにおける違いは、モデルがそれらの入力から別個の特徴を抽出することを示唆している。したがって、本発明者らは、ＥＶＥ及び本発明者らの言語モデルからのスコアが相補的であり、スコアを組み合わせることが性能の改善をもたらし得ることを予想した。本発明者らは、単にそれらの病原性スコアの平均をとることが、２つの方法単独のいずれよりも既に良好に機能することを見出した。より精巧な組み合わせ、例えば、リッジ回帰を使用することは、いかなる更なる改善にもつながらなかった。得られた性能を図１３に示し、合算スコアは、ＰｒｉｍａｔｅＡＩＬＭと比較して（又は複製されたＥＶＥと比較して）アッセイにおける平均相関において６．６％（又は６．８％）の性能向上、ＣｌｉｎＶａｒにおける１．４％（又は１．７％）の平均ＡＵＣの改善、並びにＤＤＤについては１１％（２９％）、ＡＳＤについては３％（２６％）、及びＣＨＤについては１７％（２３％）のＰ値の増加につながる。

【0134】

第１位の訓練正確度
図１４は、ＰｒｉｍａｔｅＡＩ言語モデルの第１位の訓練正確度１４００を図示する。６つのＰｒｉｍａｔｅＡＩ言語モデルネットワークのアンサンブルを、訓練データサンプリング及びモデルパラメータ初期化のための異なるランダムシードを用いて訓練した。訓練中のそれらの第１位の正確度を、ＵｎｉＲｅｆ５０ＭＳＡにおけるクエリ配列及び全ての配列のマスク場所について、図１４に示す。クエリ配列についての第１位の正確度は、クエリ配列がギャップトークンを含まないため、全ての配列についてのものよりもはるかに低く、これは、ギャップトークンが、多くの場合、ＭＳＡにおいて長く連続したセグメントを形成するため、残基よりも予測するのが容易である。クエリ配列に対するＰｒｉｍａｔｅＡＩ言語モデルの正確度は、訓練によって改善し続ける。いくつかの実施態様では、収束は、ＰｒｉｍａｔｅＡＩ言語モデルの各層に補助損失を追加することによって加速され得る。

【0135】

エントロピー及び病原性スコア
ＰｒｉｍａｔｅＡＩ言語モデルのスコアは、そのスコアが必要とされるたびにモデルを再実行するのではなく、将来の参照のために作表され得る。例えば、ＰｒｉｍａｔｅＡＩ言語モデルの空欄を埋める予測は、１９，０７１個のヒトタンパク質における全ての部位にある関心対象の場所について提供され得、１０８，２８６，１６０個の位置にある２，０５７，４３７，０４０個のバリアントについての予測を合計する。当業者は、例えば、ここに含まれなかった少数のヒトタンパク質が含まれた場合、これらの数が変化することを理解するであろう。いくつかの実施態様では、ＰｒｉｍａｔｅＡＩ言語モデルは、個々のモデルスコアよりも高い性能を有する平均スコアを生成するためにアンサンブルされ得る。例えば、各予測は、６つのモデルのアンサンブルによって行うことができ、各モデルは、ヒトＭＳＡにおける配列のサンプリング及び順序付けのための異なるランダムシードを有する少なくとも４つの推論に寄与する。推論ロジットは、ランダムシードによってグループ化された予測の平均をとり、次いで、その平均の平均をとることによって平均化され得る。

【0136】

バリアントの病原性予測は、参照アミノ酸及び代替アミノ酸のロジットの相対値を使用して評価され得るか、又は代替アミノ酸のロジット値から参照アミノ酸のロジット値を減算することによって評価され得る。確率は、ギャップトークンを無視して全ての考えられる残基にわたって正規化され、その結果、Σ_ｒｐ_ｒ＝１であり、ｒ番目の残基の確率ｐ_ｒは、アンサンブルされたロジットから得られる。ｌｏｇ差は、バリアントアミノ酸が参照アミノ酸と比較される可能性がどの程度低いかを捕捉する。しかしながら、スコアは、他の１８個の考えられるアミノ酸の予測を考慮せず、これは、タンパク質部位保存の言語モデル内部推定、及び言語モデルの収束についての情報を含む。ｒ番目の残基の確率ｐ_ｒを有するアミノ酸予測Ｓ＝－Σ_ｒｐ_ｒｌｏｇ（ｐ_ｒ）にわたって評価されるエントロピーを使用して、病原性スコアへのバリアント非依存的な部位依存的寄与を捕捉した。具体的には、所与の部位における代替残基についてのスコアｓ_ａｌｔは、その部位におけるａｌｔ及び参照ロジットの通常の対数差から所与の部位におけるアミノ酸にわたるエントロピーを引いたものによって与えられ、すなわち、ｓ_ａｌｔ＝ｌｏｇ（ｐ_ａｌｔ）－ｌｏｇ（ｐ_ｒｅｆ）－Ｓである。

【0137】

エントロピー項は、全てのアミノ酸にわたる確率が単一の項によって支配されるときは常に小さく、モデルが残基について不確実であり、複数の残基に高い値を割り当てるときは常に大きい。物理的には、この場合、部位は、保存性が低く、突然変異し易い。これは、より少ない病原性シグナルにつながるはずである。エントロピーによるスコアの調整は、アミノ酸保存のモデル内部推定を組み込む。残基と参照との間の所与の対数差は、それが高度に保存された部位と関連付けられているときは常に、より病原性であると考えられることになる。スコア調整は、追加的に、非常に不十分に訓練されたモデルと関連付けられた収束の欠如を組み込む。

【0138】

本明細書で使用される場合、「論理」（例えば、マスキング論理）は、本明細書に説明される方法ステップを実施するためにコンピュータ使用可能プログラムコードを備えた非一時的コンピュータ可読記憶媒体を含むコンピュータ製品の形態で実装され得る。「論理」は、メモリと、そのメモリに結合され、例示的な方法ステップを実行するように動作する少なくとも１つのプロセッサと、を含む装置の形態で実装され得る。「論理」は、本明細書に記載の方法工程のうちの１つ以上を実行するための手段の形態で実装され得る。この手段は、（ｉ）ハードウェアモジュール、（ｉｉ）１つ以上のハードウェアプロセッサ上で実行されるソフトウェアモジュール、又は（ｉｉｉ）ハードウェア及びソフトウェアモジュールの組み合わせ、を含むことができ、（ｉ）～（ｉｉｉ）のいずれかが、本明細書に記載の特定の技術を実施し、ソフトウェアモジュールは、コンピュータ可読記憶媒体（又は複数のそのような媒体）に記憶される。一実施態様では、論理は、データ処理機能を実装する。論理は、機能を指定するコンピュータプログラムを備えた汎用、シングルコア又はマルチコアのプロセッサ、コンピュータプログラムを備えたデジタル信号プロセッサ、構成ファイルを有するＦＰＧＡなどの構成可能論理、ステートマシンなどの特殊目的回路、又はこれらの任意の組み合わせであり得る。また、コンピュータプログラム製品は、論理のコンピュータプログラム及び構成ファイル部分を具現化することができる。

【0139】

コンピュータシステム
図１５は、ＰｒｉｍａｔｅＡＩ言語モデルのコンパイル及びランタイム実行のために使用され得るコンピュータシステム１５００である。コンピュータシステム１５００は、バスサブシステム１５５５を介して多数の周辺デバイスと通信する少なくとも１つの中央処理ユニット（central processing unit、ＣＰＵ）１５７２を含む。これらの周辺デバイスは、例えば、メモリデバイス及びファイル記憶サブシステム１５３６を含む記憶サブシステム１５１５、ユーザインターフェース入力デバイス１５３８、ユーザインターフェース出力デバイス１５７６、並びにネットワークインターフェースサブシステム１５７４を含み得る。入力デバイス及び出力デバイスは、コンピュータシステム１５００とのユーザ対話を可能にする。ネットワークインターフェースサブシステム１５７４は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む外部ネットワークへのインターフェースを提供する。

【0140】

一実施態様では、表現型予測器１５０（例えば、ＰｒｉｍａｔｅＡＩ言語モデル）は、記憶サブシステム１５１５及びユーザインターフェース入力デバイス１５３８に通信可能にリンクされている。

【0141】

ユーザインターフェース入力デバイス１５３８は、キーボード、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム及びマイクロフォンなどのオーディオ入力デバイス、並びに他のタイプの入力デバイスを含むことができる。一般に、用語「入力デバイス」の使用は、コンピュータシステム１５００に情報を入力するための全ての可能なタイプのデバイス及び方式を含むことを意図している。

【0142】

ユーザインターフェース出力デバイス１５７６は、ディスプレイサブシステム、プリンタ、ファックス装置、又はオーディオ出力デバイスなどの非視覚ディスプレイを含むことができる。ディスプレイサブシステムは、ＬＥＤディスプレイ、陰極線管（Cathode Ray Tube、ＣＲＴ）、液晶ディスプレイ（Liquid Crystal Display、ＬＣＤ）などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他の機構を含むことができる。ディスプレイサブシステムはまた、オーディオ出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、用語「出力デバイス」の使用は、コンピュータシステム１５００からユーザ又は別のマシン若しくはコンピュータシステムに情報を出力するための、全ての可能なタイプのデバイス及び方式を含むことを意図している。

【0143】

記憶サブシステム１５１５は、本明細書に説明されるモジュール及び方法のうちのいくつか又は全ての機能を提供するプログラミング及びデータ構築物を記憶する。これらのソフトウェアモジュールは、一般にプロセッサ１５７８によって実行される。

【0144】

プロセッサ１５７８は、グラフィック処理ユニット（ＧＰＵ）、フィールドプログラマブルゲートアレイ（field-programmable gate array、ＦＰＧＡ）、特定用途向け集積回路（application-specific integrated circuit、ＡＳＩＣ）、及び／又は粗粒化再構成可能構造（coarse-grained reconfigurable architecture、ＣＧＲＡ）であることができる。プロセッサ１５７８は、ＧｏｏｇｌｅＣｌｏｕｄＰｌａｔｆｏｒｍ（商標）、Ｘｉｌｉｎｘ（商標）及びＣｉｒｒａｓｃａｌｅ（商標）などの深層学習クラウドプラットフォームによってホスティングすることができる。プロセッサ１５７８の例は、ＧｏｏｇｌｅのＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＴＰＵ）（商標）、ＧＸ４ＲａｃｋｍｏｕｎｔＳｅｒｉｅｓ（商標）、ＧＸ１５ＲａｃｋｍｏｕｎｔＳｅｒｉｅｓ（商標）のようなラックマウントソリューション、ＮＶＩＤＩＡＤＧＸ－１（商標）、ＭｉｃｒｏｓｏｆｔのＳｔｒａｔｉｘＶＦＰＧＡ（商標）、ＧｒａｐｈｃｏｒｅのＩｎｔｅｌｌｉｇｅｎｔＰｒｏｃｅｓｓｏｒＵｎｉｔ（ＩＰＵ）（商標）、Ｓｎａｐｄｒａｇｏｎｐｒｏｃｅｓｓｏｒｓ（商標）を有するＱｕａｌｃｏｍｍのＺｅｒｏｔｈＰｌａｔｆｏｒｍ（商標）、ＮＶＩＤＩＡのＶｏｌｔａ（商標）、ＮＶＩＤＩＡのＤＲＩＶＥＰＸ（商標）、ＮＶＩＤＩＡのＪＥＴＳＯＮＴＸ１／ＴＸ２ＭＯＤＵＬＥ（商標）、ＩｎｔｅｌのＮｉｒｖａｎａ（商標）、ＭｏｖｉｄｉｕｓＶＰＵ（商標）、ＦｕｊｉｔｓｕＤＰＩ（商標）、ＡＲＭのＤｙｎａｍｉｃＩＱ（商標）、ＩＢＭＴｒｕｅＮｏｒｔｈ（商標）、ＴｅｓｔａＶ１００ｓ（商標）を有するＬａｍｂｄａＧＰＵＳｅｒｖｅｒ、及び他のものを含む。

【0145】

記憶サブシステム１５１５で使用されるメモリサブシステム１５２２は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ（random access memory、ＲＡＭ）１５３２と、固定命令が記憶された読み取り専用メモリ（read only memory、ＲＯＭ）１５３４とを含むいくつかのメモリを含むことができる。ファイル記憶サブシステム１５３６は、プログラム及びデータファイルのための永続的な記憶装置を提供することができ、ハードディスクドライブ、関連する取り外し可能な媒体を伴うフロッピーディスクドライブ、ＣＤ－ＲＯＭドライブ、光学ドライブ、又は取り外し可能な媒体カートリッジを含むことができる。特定の実施態様の機能を実施するモジュールは、記憶サブシステム１５１５内のファイル記憶サブシステム１５３６によって、又はプロセッサによってアクセス可能な他のマシン内に記憶することができる。

【0146】

バスサブシステム１５５５は、コンピュータシステム１５００の様々な構成要素及びサブシステムを、意図されるように互いに通信させるための機構を提供する。バスサブシステム１５５５は、単一のバスとして概略的に示されているが、バスサブシステムの代替の実施態様は、複数のバスを使用することができる。

【0147】

コンピュータシステム１５００自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、緩くネットワーク化されたコンピュータの緩く分散したセット、又は任意の他のデータ処理システム若しくはユーザデバイスを含む様々なタイプのものであり得る。コンピュータ及びネットワークは絶え間なく変化する性質のものであるため、図１５に示されるコンピュータシステム１５００の説明は、本発明の好ましい実施態様を例示する目的のための特定の実施例としてのみ意図される。コンピュータシステム１５００の多くの他の構成は、図１５に図示されるコンピュータシステムよりも多くの又は少ない構成要素を有することができる。

【0148】

条項
開示された技術は、システム、方法、又は製品として実施することができる。実施態様の１つ以上の特徴を、塩基実施態様と組み合わせることができる。相互に排他的でない実施態様は、組み合わせ可能であると教示されている。実施態様の１つ以上の特徴を他の実施態様と組み合わせることができる。本開示は、これらの選択肢をユーザに定期的に知らせる。これらの選択肢を繰り返す列挙のいくつかの実施態様からの省略は、前述のセクションで教示されている組み合わせを制限するものとして解釈されるべきではない。これらの記載は、以下の実施のそれぞれに参照することにより本明細書に組み込まれる。

【0149】

開示される技術、又はその要素の１つ以上の実施態様及び条項は、示された方法ステップを実行するためのコンピュータ使用可能なプログラムコードを備えた非一時的コンピュータ可読記憶媒体を含むコンピュータ製品の形態で実装することができる。更に、開示される技術、又はその要素の１つ以上の実施態様及び条項は、メモリと、メモリに結合され、例示的な方法ステップを実行するように動作する少なくとも１つのプロセッサと、を含む装置の形態で実装することができる。更に、別の態様では、開示される技術又はその要素の１つ以上の実施態様及び条項は、本明細書に記載の方法ステップのうちの１つ以上を実行するための手段の形態で実装することができ、この手段は、（ｉ）ハードウェアモジュール、（ｉｉ）１つ以上のハードウェアプロセッサ上で実行されるソフトウェアモジュール、又は（ｉｉｉ）ハードウェア及びソフトウェアモジュールの組み合わせ、を含むことができ、（ｉ）～（ｉｉｉ）のいずれかが、本明細書に記載の特定の技術を実施し、ソフトウェアモジュールは、コンピュータ可読記憶媒体（又は複数のそのような媒体）に記憶される。

【0150】

このセクションで説明される条項は、特徴として組み合わせることができる。簡潔性の目的で、特徴の組み合わせは、個別に列挙されず、特徴の各ベースセットで繰り返されない。読者は、このセクションに記載される条項で特定された特徴が、本出願の他のセクションにおける実施態様として特定された基本特徴のセットと容易に組み合わせることができる方法を理解するであろう。開示される技術のこれら及び他の特徴、態様、及び利点は、添付の図面に関連して読まれるべき、その例示的な実施態様の以下の詳細な説明から明らかになるであろう。これらの条項は、相互排他的、網羅的、又は制限的であることを意味せず、開示される技術は、これらの条項に限定されず、むしろ、特許請求される技術及びその均等物の範囲内の全ての可能な組み合わせ、修正、及び変形を包含する。

【0151】

このセクションで説明される条項の他の実施態様は、このセクションに説明される条項のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションに記載される条項の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行してこのセクションに記載される条項のいずれかを行うように動作可能な１つ以上のプロセッサとを含むシステムを含むことができる。

【0152】

本発明者らは、以下の項目を開示する。

【0153】

条項セット１
条項１．バリアント病原性予測のコンピュータ実装方法であって、
クエリ残基配列を複数の非クエリ残基配列に整列させる多重配列アラインメントにアクセスすることと、
多重配列アラインメントにおける第１の位置セットにある第１の残基セットに周期的間隔のマスクセットを適用することであって、第１の残基セットが、クエリ残基配列における関心対象位置にある関心対象残基を含む、適用することと、
多重配列アラインメントの一部分をトリミングすることであって、多重配列アラインメントの一部分が、
（ｉ）第１の位置セットにある周期的間隔のマスクセットと、
（ｉｉ）周期的間隔のマスクセットが適用されない、多重配列アラインメントにおける第２の位置セットにある第２の残基セットと、を含む、トリミングすることと、
多重配列アラインメントの一部分に基づいて、関心対象位置にあるバリアントについての病原性予測を生成することと、を含む、アクションを実施する、非一時的コンピュータ可読記憶媒体。

【0154】

条項２．多重配列アラインメントが、位置ごとの次元に沿って、かつ配列ごとの次元に沿って、クエリ残基配列を複数の非クエリ残基配列に整列させる、条項１に記載のコンピュータ実装方法。

【0155】

条項３．周期的間隔のマスクセットが、多重配列アラインメントにおける配列のウィンドウ内の配列ごとの次元に沿って適用される、条項２に記載のコンピュータ実装方法。

【0156】

条項４．周期的間隔のマスクセットが、多重配列アラインメントにおける配列のウィンドウにわたる位置のウィンドウ内の位置ごとの次元に沿って適用される、条項３に記載のコンピュータ実装方法。

【0157】

条項５．一部分が、多重配列アラインメントにわたる位置のウィンドウに及ぶ、条項４に記載のコンピュータ実装方法。

【0158】

条項６．一部分が、多重配列アラインメントにおける配列サブセットにわたる位置のウィンドウに及ぶ、条項４に記載のコンピュータ実装方法。

【0159】

条項７．一部分が、所定の幅及び所定の高さを有する、条項１に記載のコンピュータ実装方法。

【0160】

条項８．一部分が、一部分の所定の幅より小さい幅を有する多重配列アラインメントを補償するためにパディングされる、条項７に記載のコンピュータ実装方法。

【0161】

条項９．一部分が、一部分の所定の高さより小さい高さを有する多重配列アラインメントを補償するためにパディングされる、条項７に記載のコンピュータ実装方法。

【0162】

条項１０．周期的間隔のマスクセットが、配列ごとの次元に沿って、周期的間隔のマスクサブセットに分散される、条項２に記載のコンピュータ実装方法。

【0163】

条項１１．周期的間隔のマスクサブセットが、配列のウィンドウ内の配列に対応する、条項１０に記載のコンピュータ実装方法。

【0164】

条項１２．配列のウィンドウ内の所与の配列に対応する周期的間隔のマスクサブセットにおける連続マスクが、所与の配列におけるマスクされていない残基によって離隔されている、条項１１に記載のコンピュータ実装方法。

【0165】

条項１３．連続マスクが離隔されている、マスクされていない残基の数が、配列のウィンドウ内の配列にわたって同じである、条項１２に記載のコンピュータ実装方法。

【0166】

条項１４．連続マスクが離隔されている、マスクされていない残基の数が、配列のウィンドウ内の配列にわたって変動する、条項１２に記載のコンピュータ実装方法。

【0167】

条項１５．対応する周期的間隔のマスクサブセットが開始する所与の配列における開始位置が、配列のウィンドウ内の配列間で変動する、条項１２に記載のコンピュータ実装方法。

【0168】

条項１６．開始位置が、配列のウィンドウ内の配列にわたる対角線パターンに従う、条項１２に記載のコンピュータ実装方法。

【0169】

条項１７．開始位置が、配列のウィンドウ内の配列にわたって少なくとも１回繰り返すように開始する対角線パターンに従う、条項１４に記載のコンピュータ実装方法。

【0170】

条項１８．開始位置が、配列のウィンドウ内の配列にわたって少なくとも１回繰り返す対角線パターンに従う、条項１７に記載のコンピュータ実装方法。

【0171】

条項１９．周期的間隔のマスクセットが、パターンを有する、条項１に記載のコンピュータ実装方法。

【0172】

条項２０．パターンが、対角線パターンである、条項１９に記載のコンピュータ実装方法。

【0173】

条項２１．パターンが、六角形パターンである、条項１９に記載のコンピュータ実装方法。

【0174】

条項２２．パターンが、ダイヤモンドパターンである、条項１９に記載のコンピュータ実装方法。

【0175】

条項２３．パターンが、長方形パターンである、条項１９に記載のコンピュータ実装方法。

【0176】

条項２４．パターンが、正方形パターンである、条項１９に記載のコンピュータ実装方法。条項２５．パターンが、三角形パターンである、条項１９に記載のコンピュータ実装方法。

【0177】

条項２６．パターンが、凸パターンである、条項１９に記載のコンピュータ実装方法。

【0178】

条項２７．パターンが、凹パターンである、条項１９に記載のコンピュータ実装方法。

【0179】

条項２８．パターンが、多角形パターンである、条項１９に記載のコンピュータ実装方法。

【0180】

条項２９．一部分のパディングを最小化するために、トリミングに使用されるトリミングウィンドウを右シフトすることを更に含む、条項１９に記載のコンピュータ実装方法。

【0181】

条項３０．一部分のパディングを最小化するために、トリミングウィンドウを左シフトすることを更に含む、条項２９に記載のコンピュータ実装方法。

【0182】

条項３１．関心対象位置を一部分の中央列に位置付けるようにトリミングウィンドウを構成することを更に含む、条項１に記載のコンピュータ実装方法。

【0183】

条項３２．関心対象位置を中心列に隣接して位置付けるようにトリミングウィンドウを構成することを更に含む、条項３１に記載のコンピュータ実装方法。

【0184】

条項３３．一部分において、第１の位置セットにある周期的間隔のマスクセットを、学習されたマスク埋め込みで置換することと、一部分において、第２の位置セットにある第２の残基セットを、学習された残基埋め込みで置換することとを更に含む、条項１に記載のコンピュータ実装方法。

【0185】

条項３４．ワンホットエンコーディング生成器が、学習されたマスク埋め込み及び学習された残基埋め込みを生成する、条項３３に記載のコンピュータ実装方法。

【0186】

条項３５．学習されたマスク埋め込み及び学習された残基埋め込みが、ルックアップテーブルから選択される、条項３４に記載のコンピュータ実装方法。

【0187】

条項３６．一部分において、第１の位置セットにある周期的間隔のマスクセット、及び第２の位置セットにある第２の残基セットを、学習された位置埋め込みで置換することを更に含む、条項１に記載のコンピュータ実装方法。

【0188】

条項３７．学習されたマスク埋め込み、学習された残基埋め込み、及び学習された位置埋め込みを用いて一部分を複数のチャンクにチャンク化することを更に含む、条項３６に記載のコンピュータ実装方法。

【0189】

条項３８．複数のチャンクを集約として処理することと、一部分の代替表現を生成することと、を更に含む、条項３７に記載のコンピュータ実装方法。

【0190】

条項３９．線形射影層が、１×１畳み込みのフィルタバンクを使用して、複数のチャンクを集約として処理し、一部分の代替表現を生成する、条項３８に記載のコンピュータ実装方法。

【0191】

条項４０．アテンションブロックのカスケードを通じて一部分の代替表現を処理して、一部分の更新された代替表現を生成することを更に含む、条項３９に記載のコンピュータ実装方法。

【0192】

条項４１．アテンションブロックのカスケードにおけるアテンションブロックが、自己アテンションを使用する、条項４０に記載のコンピュータ実装方法。

【0193】

条項４２．アテンションブロックの各々が、結合された行方向ゲート自己アテンションと、それに続く列方向ゲート付き自己アテンションと、それに続く遷移論理と、を含む、条項４１に記載のコンピュータ実装方法。

【0194】

条項４３．アテンションブロックが、クロスアテンションを使用する、条項４０に記載のコンピュータ実装方法。

【0195】

条項４４．マスク表出ブロックが、一部分の更新された代替表現を処理し、一部分の通知された代替表現を生成する、条項４０に記載のコンピュータ実装方法。

【0196】

条項４５．マスク表出ブロックが、行内のマスクされた場所と整列した特徴を収集し、行内のマスクごとに、行内の他のマスクされた場所に埋め込まれた標的トークンを表出させる、条項４４に記載のコンピュータ実装方法。

【0197】

条項４６．マスク収集ブロックが、一部分の通知された代替表現を処理し、一部分の収集された代替表現を生成する、条項４４に記載のコンピュータ実装方法。

【0198】

条項４７．マスク収集ブロックが、標的埋め込みがマスクされたままである特徴を収集する遷移論理及び行方向ゲート付き自己アテンションブロックのカスケードを通じて、通知された代替表現を処理する、条項４６に記載のコンピュータ実装方法。

【0199】

条項４８．出力ブロックが、一部分の収集された代替表現を処理し、周期的間隔のマスクセットによってマスクされた残基の同一性を予測する、条項４７に記載のコンピュータ実装方法。

【0200】

条項４９．出力ブロックは、遷移論理及びパーセプトロン論理を含む、条項４８に記載のコンピュータ実装方法。

【0201】

条項５０．周期的間隔のマスクサブセットを配列のウィンドウ内の非配列に適用する確率は、（１－非配列内のギャップトークンの数）＾２に比例する、条項４８に記載のコンピュータ実装方法。

【0202】

条項５１．バリアントについての病原性予測を、バリアントの対数確率と、対応する参照アミノ酸の対数確率からアミノ酸単位の予測にわたって評価されたエントロピーを引いたものとの間の差に基づいて生成することを更に含む、条項１に記載のコンピュータ実装方法。

【0203】

条項セット２
条項１．コンピュータ実装方法であって、
多重配列アラインメント（ＭＳＡ）にアクセスすることであって、ＭＳＡが、ｐ個の行及びｒ個の列を有し、ｐ個の行が、ｐ個のタンパク質配列に対応し、ｒ個の列が、ｒ個の残基位置に対応する、アクセスすることと、
マスクグリッドにアクセスすることであって、マスクグリッドが、ｍ個のマスク分布を有し、ｍ個のマスク分布の各々が、マスクグリッド内の第１の残基位置からの変動オフセットで始まるｋ個の順序位置にｋ個の周期的間隔のマスクを有する、アクセスすることと、
ｍ個のマスク分布をｐ個のタンパク質配列中のｍ個のタンパク質配列に適用して、マスクされた残基及びマスクされていない残基を含む、部分的にマスクされたＭＳＡを生成することであって、ｐ＞ｍである、生成することと、マスクされた残基及びマスクされていない残基を、学習された埋め込みに変換し、学習された埋め込みを残基位置埋め込みと連結して、部分的にマスクされたＭＳＡの埋め込まれた表現を生成することと、
埋め込まれた表現を一連のチャンクにチャンク化し、一連のチャンク内のチャンクをスタックに連結し、スタックを埋め込まれた表現の圧縮された表現に変換することであって、圧縮された表現が、ｍ個の行及びｒ個の列を有する、変換することと、圧縮された表現のｍ個の行及びｒ個の列にわたって軸方向アテンションを反復的に適用し、適用された軸方向アテンションをインターリーブして、圧縮された表現の更新された表現を生成することであって、更新された表現が、ｍ個の行及びｒ個の列を有する、生成することと、更新された表現から、ｋ個の更新された表現タイルを集約することであって、ｋ個の更新された表現タイルの各々が、マスクされた残基に対応する、更新された表現の更新された表現特徴を含み、ｋ個の更新された表現タイルの各々が、ｍ個の行及びｋ個の列を有し、所与の更新された表現タイルのｋ個の列内の所与の列が、更新された表現特徴のそれぞれのサブセットを含み、それぞれのサブセットが、ｋ個の順序位置内の所与の順序位置に位置し、所与の順序位置が、所与の列によって表される、集約することと、埋め込まれた表現から、ｋ個の更新された表現タイルに対応するｋ個の埋め込みタイルを集約することであって、ｋ個の埋め込みタイルの各々が、マスクされた残基の変換である一連のチャンクのうちの第１のチャンク内の埋め込み特徴を含み、ｋ個の埋め込みタイルの各々が、ｍ個の行及びｋ個の列を有し、所与の埋め込みタイルのｋ個の列内の所与の列が、埋め込み特徴のそれぞれのサブセットを含み、それぞれのサブセットが、ｋ個の順序位置内の所与の順序位置に位置し、所与の順序位置が、所与の列によって表される、集約することと
ｋ個のブールタイルをｋ個の埋め込みタイルに適用して、ｋ個のブール化埋め込みタイルを生成することであって、ｋ個のブールタイルの各々が、ｍ個の行及びｋ個の列を有し、ｋ個のブールタイルの各々が、ｋ個の埋め込みタイルのうちの対応する１つにおけるｋ個の列のうちの対応する１つの隠蔽を引き起こすとともに、ｋ個の埋め込みタイルのうちの対応する１つにおけるｋ個の列のうちの他のものの表出を引き起こし、ｋ個のブール化埋め込みタイルの各々が、ｍ個の行及びｋ個の列を有する、生成することと、
ｋ個のブール化埋め込みタイルをｋ個の更新された表現タイルと連結して、ｋ個の連結されたタイルを生成し、ｋ個の連結されたタイルをｋ個の連結されたタイルのｋ個の圧縮されたタイル表現に変換することであって、ｋ個の圧縮されたタイル表現の各々が、ｍ個の行及びｋ個の列を有する、変換することと、
ｋ個の圧縮されたタイル表現に自己アテンションを反復的に適用して、ｋ個のブールタイルによって表出されるｋ個の埋め込みタイルにおける埋め込み特徴に対応するｋ個の圧縮されたタイル表現における圧縮されたタイル特徴の解釈を生成することと、
ｋ個のブールタイルによって隠蔽されるｋ個の埋め込みタイルにおける埋め込み特徴に対応する解釈された特徴を解釈から集約して、解釈の集約された表現を生成することであって、集約された表現が、ｍ個の行及びｋ個の列を有する、生成することと、
集約された表現をマスクされた残基の同一性に変換することと、を含む、コンピュータ実装方法。

【0204】

条項２．ワンホットエンコーディングスキームを使用して、２０個の天然由来の残基、ギャップ残基、及びマスクを、それぞれのワンホットエンコードされたベクトルに変換することを更に含む、条項１に記載のコンピュータ実装方法。

【0205】

条項３．それぞれのワンホットエンコードされたベクトルに対するそれぞれの学習された埋め込みを生成するようにニューラルネットワークを訓練することを更に含む、条項２に記載のコンピュータ実装方法。

【0206】

条項４．マスクされた残基及びマスクされていない残基が、それぞれのワンホットエンコードされたベクトルをそれぞれの学習された埋め込みにマッピングするルックアップテーブルに基づいて、学習された埋め込みに変換される、条項３に記載のコンピュータ実装方法。

【0207】

条項５．残基位置埋め込みは、残基が、ｐタンパク質配列内に配置される順序を指定する、条項４に記載のコンピュータ実装方法。

【0208】

条項６．チャンクが、チャネル次元に沿ってスタックに連結される、条項１に記載のコンピュータ実装方法。

【0209】

条項７．スタックが、線形射影を通じてスタックを処理することによって圧縮された表現に変換される、条項１に記載のコンピュータ実装方法。

【0210】

条項８．線形射影が、複数の一次元（１Ｄ）畳み込みフィルタを使用する、条項７に記載のコンピュータ実装方法。

【0211】

条項９．ｋ個の連結されたタイルが、線形射影を通じてｋ個の連結されたタイルを処理することによって、ｋ個の圧縮されたタイル表現に変換される、条項８に記載のコンピュータ実装方法。

【0212】

条項１０．集約された表現が、表出出力ヘッドを通じて集約された表現を処理することによって、マスクされた残基の同一性に変換される、条項１に記載のコンピュータ実装方法。

【0213】

条項１１．ｐ＝ｍである、条項１に記載のコンピュータ実装方法。

【0214】

条項１２．ｋ個のブールタイルの各々が、ｋ個の埋め込みタイルのうちの対応する１つにおけるｋ個の列のうちの対応する１つの隠蔽を引き起こすとともに、ｋ個の埋め込みタイルのうちの対応する１つにおけるｋ個の列のうちの他のもののうちの少なくともいくつかの表出を引き起こす、条項１に記載のコンピュータ実装方法。

【0215】

条項１３．ｋ個のブールタイルの各々が、ｋ個の埋め込みタイルのうちの対応する１つにおけるｋ個の列のうちの対応するサブセットの隠蔽を引き起こすとともに、ｋ個の埋め込みタイルのうちの対応する１つにおけるｋ個の列のうちの他のもののうちの少なくともいくつかの表出を引き起こす、条項１に記載のコンピュータ実装方法。

【0216】

条項１４．ｍ個のマスク分布のうちの少なくともいくつかのｋ個の周期的間隔のマスクが、第１の残基位置からの同じオフセットで開始する、条項１に記載のコンピュータ実装方法。

【0217】

条項１５．システムであって、
複数のマスクされた残基を有する多重配列アラインメント（ＭＳＡ）を記憶するメモリと、ＭＳＡを一連のチャンクにチャンク化するように構成されたチャンク化論理と、
一連のチャンクの表現に注目し、第１のアテンション出力を生成するように構成された第１のアテンション論理と、
複数のマスクされた残基中のマスクされた残基に対応する第１のアテンション出力における特徴を含む第１の集約された出力を生成するように構成された第１の集約論理と、
第１の集約された出力と、サブセットごとに、マスクされた残基の所与のサブセットを隠蔽することとマスクされた残基の残りのサブセットを表出させることとを交互に行うブールマスクとに基づいて、通知された出力を生成するように構成されたマスク表出論理と、通知された出力に注目し、ブールマスクによって表出された、マスクされた残基に基づいて、第２のアテンション出力を生成するように構成された第２のアテンション論理と、
ブールマスクによって隠蔽されたマスクされた残基に対応する第２のアテンション出力における特徴を含む第２の集約された出力を生成するように構成された第２の集約論理と、
第２の集約された出力に基づいて、マスクされた残基の特定を生成するように構成された出力論理と、を含む、システム。

【0218】

条項１６．第１のアテンション論理が、軸方向アテンションを使用する、条項１５に記載のシステム。

【0219】

条項１７．第２のアテンション論理が、自己アテンションを使用する、条項１５に記載のシステム。

【0220】

条項１８．コンピュータ実装方法であって、
多重配列アラインメント（ＭＳＡ）にアクセスすることであって、ＭＳＡが、ｐ個の行及びｒ個の列を有し、ｐ個の行が、ｐ個のタンパク質配列に対応し、ｒ個の列が、ｒ個の残基位置に対応する、アクセスすることと、
マスクグリッドにアクセスすることであって、マスクグリッドが、ｍ個のマスク分布を有し、ｍ個のマスク分布の各々が、ｋ個の順序位置にｋ個の周期的間隔のマスクを有する、アクセスすることと、ｍ個のマスク分布をｐ個のタンパク質配列中のｍ個のタンパク質配列に適用して、マスクされた残基及びマスクされていない残基を含む、部分的にマスクされたＭＳＡを生成することであって、ｐ＞ｍである、生成することと、マスクされた残基及びマスクされていない残基を、学習された埋め込みに変換し、学習された埋め込みを残基位置埋め込みと連結して、部分的にマスクされたＭＳＡの埋め込まれた表現を生成することと、
埋め込まれた表現を一連のチャンクにチャンク化し、一連のチャンク内のチャンクをスタックに連結し、スタックを埋め込まれた表現の圧縮された表現に変換することと、
圧縮された表現のｍ個の行及びｒ個の列にわたって軸方向アテンションを反復的に適用し、適用された軸方向アテンションをインターリーブして、圧縮された表現の更新された表現を生成することと、
更新された表現から、ｋ個の更新された表現タイルを集約することであって、ｋ個の更新された表現タイルの各々が、マスクされた残基に対応する、更新された表現の更新された表現特徴を含む、集約することと、
埋め込まれた表現から、ｋ個の更新された表現タイルに対応するｋ個の埋め込みタイルを集約することであって、ｋ個の埋め込みタイルの各々が、マスクされた残基の変換である、一連のチャンクのうちの第１のチャンクにおける埋め込み特徴を含む、集約することと、ｋ個のブールタイルをｋ個の埋め込みタイルに適用して、ｋ個のブール化埋め込みタイルを生成することであって、ｋ個のブールタイルの各々が、ｋ個の埋め込みタイルのうちの対応する１つにおけるｋ個の列のうちの対応する１つの隠蔽を引き起こすとともに、ｋ個の埋め込みタイルのうちの対応する１つにおけるｋ個の列のうちの他のものの表出を引き起こす、生成することと、
ｋ個のブール化埋め込みタイルをｋ個の更新された表現タイルと連結して、ｋ個の連結されたタイルを生成し、ｋ個の連結されたタイルをｋ個の連結されたタイルのｋ個の圧縮されたタイル表現に変換することと、
ｋ個の圧縮されたタイル表現に自己アテンションを反復的に適用して、ｋ個のブールタイルによって表出されるｋ個の埋め込みタイルにおける埋め込み特徴に対応するｋ個の圧縮されたタイル表現における圧縮されたタイル特徴の解釈を生成することと、
ｋ個のブールタイルによって隠蔽されるｋ個の埋め込みタイルにおける埋め込み特徴に対応する解釈された特徴を解釈から集約して、解釈の集約された表現を生成することと、集約された表現をマスクされた残基の同一性に変換することと、を含む、コンピュータ実装方法。

【0221】

条項１９．ｍ個のマスク分布のうちの少なくともいくつかのｋ個の周期的間隔のマスクが、マスクグリッド内の第１の残基位置からの変動オフセットで開始する、条項１８に記載のコンピュータ実装方法。

【0222】

条項２０．ｍ個のマスク分布のうちの少なくともいくつかのｋ個の周期的間隔のマスクが、第１の残基位置からの同じオフセットで開始する、条項１９に記載のコンピュータ実装方法。

【0223】

条項２１．圧縮された表現が、ｍ個の行及びｒ個の列を有する、条項１８に記載のコンピュータ実装方法。

【0224】

条項２２．更新された表現が、ｍ個の行及びｒ個の列を有する、条項１８に記載のコンピュータ実装方法。

【0225】

条項２３．ｋ個の更新された表現タイルの各々が、ｍ個の行及びｋ個の列を有し、所与の更新された表現タイルのｋ個の列内の所与の列が、更新された表現特徴のそれぞれのサブセットを含み、それぞれのサブセットが、ｋ個の順序位置内の所与の順序位置に位置し、所与の順序位置が、所与の列によって表される、条項１８に記載のコンピュータ実装方法。

【0226】

条項２４．ｋ個の埋め込みタイルの各々が、ｍ個の行及びｋ個の列を有し、所与の埋め込みタイルのｋ個の列内の所与の列が、埋め込み特徴のそれぞれのサブセットを含み、それぞれのサブセットが、ｋ個の順序位置内の所与の順序位置に位置し、所与の順序位置が、所与の列によって表される、条項１８に記載のコンピュータ実装方法。

【0227】

条項２５．ｋ個のブールタイルの各々が、ｍ個の行及びｋ個の列を有する、条項１８に記載のコンピュータ実装方法。

【0228】

条項２６．ｋ個のブール化埋め込みタイルの各々が、ｍ個の行及びｋ個の列を有する、条項１８に記載のコンピュータ実装方法。

【0229】

条項２７．ｋ個の圧縮されたタイル表現の各々が、ｍ個の行及びｋ個の列を有する、条項１８に記載のコンピュータ実装方法。

【0230】

条項２８．集約された表現が、ｍ個の行及びｋ個の列を有する、条項１８に記載のコンピュータ実装方法。

【0231】

条項セット３
条項１．バリアント病原性予測のコンピュータ実装方法であって、
クエリ残基配列を複数の非クエリ残基配列に整列させる多重配列アラインメントにアクセスすることと、
多重配列アラインメントにおける第１の位置セットにある第１の残基セットに周期的間隔のマスクセットを適用することであって、第１の残基セットが、クエリ残基配列における関心対象位置にある関心対象残基を含む、適用することと、
多重配列アラインメントの一部分をトリミングすることであって、多重配列アラインメントの一部分が、
（ｉ）第１の位置セットにある周期的間隔のマスクセットと、
（ｉｉ）周期的間隔のマスクセットが適用されない、多重配列アラインメントにおける第２の位置セットにある第２の残基セットと、を含む、トリミングすることと、
多重配列アラインメントの一部分に基づいて、関心対象位置にあるバリアントについての病原性予測を生成することと、を含む、コンピュータ実装方法。

【0232】

【0233】

【0234】

【0235】

条項５．一部分が、多重配列アラインメントにわたる位置のウィンドウに及ぶ、条項４に記載のコンピュータ実装方法。

【0236】

条項６．一部分が、多重配列アラインメントにおける配列サブセットにわたる位置のウィンドウに及ぶ、条項４に記載のコンピュータ実装方法。

【0237】

条項７．一部分が、所定の幅及び所定の高さを有する、条項１に記載のコンピュータ実装方法。

【0238】

【0239】

【0240】

【0241】

条項１１．周期的間隔のマスクサブセットが、配列のウィンドウ内の配列に対応する、条項１０に記載のコンピュータ実装方法。

【0242】

【0243】

【0244】

【0245】

【0246】

条項１６．開始位置が、配列のウィンドウ内の配列にわたる対角線パターンに従う、条項１２に記載のコンピュータ実装方法。

【0247】

【0248】

【0249】

条項１９．周期的間隔のマスクセットが、パターンを有する、条項１に記載のコンピュータ実装方法。

【0250】

条項２０．パターンが、対角線パターンである、条項１９に記載のコンピュータ実装方法。

【0251】

条項２１．パターンが、六角形パターンである、条項１９に記載のコンピュータ実装方法。

【0252】

条項２２．パターンが、ダイヤモンドパターンである、条項１９に記載のコンピュータ実装方法。

【0253】

条項２３．パターンが、長方形パターンである、条項１９に記載のコンピュータ実装方法。

【0254】

【0255】

条項２６．パターンが、凸パターンである、条項１９に記載のコンピュータ実装方法。

【0256】

条項２７．パターンが、凹パターンである、条項１９に記載のコンピュータ実装方法。

【0257】

条項２８．パターンが、多角形パターンである、条項１９に記載のコンピュータ実装方法。

【0258】

【0259】

【0260】

【0261】

【0262】

【0263】

【0264】

【0265】

【0266】

【0267】

【0268】

【0269】

【0270】

【0271】

【0272】

条項４３．アテンションブロックが、クロスアテンションを使用する、条項４０に記載のコンピュータ実装方法。

【0273】

【0274】

【0275】

【0276】

【0277】

【0278】

条項４９．出力ブロックは、遷移論理及びパーセプトロン論理を含む、条項４８に記載のコンピュータ実装方法。

【0279】

【0280】

【0281】

条項セット４
条項１．コンピュータ実装方法であって、
多重配列アラインメント（ＭＳＡ）にアクセスすることであって、ＭＳＡが、ｐ個の行及びｒ個の列を有し、ｐ個の行が、ｐ個のタンパク質配列に対応し、ｒ個の列が、ｒ個の残基位置に対応する、アクセスすることと、
マスクグリッドにアクセスすることであって、マスクグリッドが、ｍ個のマスク分布を有し、ｍ個のマスク分布の各々が、マスクグリッド内の第１の残基位置からの変動オフセットで始まるｋ個の順序位置にｋ個の周期的間隔のマスクを有する、アクセスすることと、
ｍ個のマスク分布をｐ個のタンパク質配列中のｍ個のタンパク質配列に適用して、マスクされた残基及びマスクされていない残基を含む、部分的にマスクされたＭＳＡを生成することであって、ｐ＞ｍである、生成することと、マスクされた残基及びマスクされていない残基を、学習された埋め込みに変換し、学習された埋め込みを残基位置埋め込みと連結して、部分的にマスクされたＭＳＡの埋め込まれた表現を生成することと、
埋め込まれた表現を一連のチャンクにチャンク化し、一連のチャンク内のチャンクをスタックに連結し、スタックを埋め込まれた表現の圧縮された表現に変換することであって、圧縮された表現が、ｍ個の行及びｒ個の列を有する、変換することと、圧縮された表現のｍ個の行及びｒ個の列にわたって軸方向アテンションを反復的に適用し、適用された軸方向アテンションをインターリーブして、圧縮された表現の更新された表現を生成することであって、更新された表現が、ｍ個の行及びｒ個の列を有する、生成することと、更新された表現から、ｋ個の更新された表現タイルを集約することであって、ｋ個の更新された表現タイルの各々が、マスクされた残基に対応する、更新された表現の更新された表現特徴を含み、ｋ個の更新された表現タイルの各々が、ｍ個の行及びｋ個の列を有し、所与の更新された表現タイルのｋ個の列内の所与の列が、更新された表現特徴のそれぞれのサブセットを含み、それぞれのサブセットが、ｋ個の順序位置内の所与の順序位置に位置し、所与の順序位置が、所与の列によって表される、集約することと、埋め込まれた表現から、ｋ個の更新された表現タイルに対応するｋ個の埋め込みタイルを集約することであって、ｋ個の埋め込みタイルの各々が、マスクされた残基の変換である一連のチャンクのうちの第１のチャンク内の埋め込み特徴を含み、ｋ個の埋め込みタイルの各々が、ｍ個の行及びｋ個の列を有し、所与の埋め込みタイルのｋ個の列内の所与の列が、埋め込み特徴のそれぞれのサブセットを含み、それぞれのサブセットが、ｋ個の順序位置内の所与の順序位置に位置し、所与の順序位置が、所与の列によって表される、集約することと
ｋ個のブールタイルをｋ個の埋め込みタイルに適用して、ｋ個のブール化埋め込みタイルを生成することであって、ｋ個のブールタイルの各々が、ｍ個の行及びｋ個の列を有し、ｋ個のブールタイルの各々が、ｋ個の埋め込みタイルのうちの対応する１つにおけるｋ個の列のうちの対応する１つの隠蔽を引き起こすとともに、ｋ個の埋め込みタイルのうちの対応する１つにおけるｋ個の列のうちの他のものの表出を引き起こし、ｋ個のブール化埋め込みタイルの各々が、ｍ個の行及びｋ個の列を有する、生成することと、
ｋ個のブール化埋め込みタイルをｋ個の更新された表現タイルと連結して、ｋ個の連結されたタイルを生成し、ｋ個の連結されたタイルをｋ個の連結されたタイルのｋ個の圧縮されたタイル表現に変換することであって、ｋ個の圧縮されたタイル表現の各々が、ｍ個の行及びｋ個の列を有する、変換することと、
ｋ個の圧縮されたタイル表現に自己アテンションを反復的に適用して、ｋ個のブールタイルによって表出されるｋ個の埋め込みタイルにおける埋め込み特徴に対応するｋ個の圧縮されたタイル表現における圧縮されたタイル特徴の解釈を生成することと、
ｋ個のブールタイルによって隠蔽されるｋ個の埋め込みタイルにおける埋め込み特徴に対応する解釈された特徴を解釈から集約して、解釈の集約された表現を生成することであって、集約された表現が、ｍ個の行及びｋ個の列を有する、生成することと、
集約された表現をマスクされた残基の同一性に変換することと、を含む、コンピュータ実装方法。

【0282】

【0283】

【0284】

【0285】

条項５．残基位置埋め込みは、残基が、ｐタンパク質配列内に配置される順序を指定する、条項４に記載のコンピュータ実装方法。

【0286】

条項６．チャンクが、チャネル次元に沿ってスタックに連結される、条項１に記載のコンピュータ実装方法。

【0287】

条項７．スタックが、線形射影を通じてスタックを処理することによって圧縮された表現に変換される、条項１に記載のコンピュータ実装方法。

【0288】

条項８．線形射影が、複数の一次元（１Ｄ）畳み込みフィルタを使用する、条項７に記載のコンピュータ実装方法。

【0289】

【0290】

【0291】

条項１１．ｐ＝ｍである、条項１に記載のコンピュータ実装方法。

【0292】

【0293】

【0294】

【0295】

【0296】

条項１６．第１のアテンション論理が、軸方向アテンションを使用する、条項１５に記載のシステム。

【0297】

条項１７．第２のアテンション論理が、自己アテンションを使用する、条項１５に記載のシステム。

【0298】

【0299】

条項１９．
ｍ個のマスク分布のうちの少なくともいくつかのｋ個の周期的間隔のマスクが、マスクグリッド内の第１の残基位置からの変動オフセットで開始する、条項１８に記載のコンピュータ実装方法。

【0300】

【0301】

条項２１．圧縮された表現が、ｍ個の行及びｒ個の列を有する、条項１８に記載のコンピュータ実装方法。

【0302】

条項２２．更新された表現が、ｍ個の行及びｒ個の列を有する、条項１８に記載のコンピュータ実装方法。

【0303】

【0304】

【0305】

条項２５．ｋ個のブールタイルの各々が、ｍ個の行及びｋ個の列を有する、条項１８に記載のコンピュータ実装方法。

【0306】

条項２６．ｋ個のブール化埋め込みタイルの各々が、ｍ個の行及びｋ個の列を有する、条項１８に記載のコンピュータ実装方法。

【0307】

条項２７．ｋ個の圧縮されたタイル表現の各々が、ｍ個の行及びｋ個の列を有する、条項１８に記載のコンピュータ実装方法。

【0308】

条項２８．集約された表現が、ｍ個の行及びｋ個の列を有する、条項１８に記載のコンピュータ実装方法。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12】

【図13】

【図14】

【図15】

【図16】

【図17】

【手続補正書】

【提出日】2024-07-02

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

【請求項3】

【請求項4】

【請求項5】

前記一部分が、所定の幅及び所定の高さを有する、請求項１～４のいずれか一項に記載のコンピュータ実装方法。

【請求項6】

【請求項7】

【請求項8】

前記周期的間隔のマスクサブセットが、配列のウィンドウ内の配列に対応する、請求項７に記載のコンピュータ実装方法。

【請求項9】

前記周期的間隔のマスクセットが、パターンを有する、請求項１～８のいずれか一項に記載のコンピュータ実装方法。

【請求項10】

【請求項11】

【請求項12】

前記関心対象位置を前記一部分の中央列に位置付けるようにトリミングウィンドウを構成することを更に含む、請求項１～１１のいずれか一項に記載のコンピュータ実装方法。

【請求項13】

【請求項14】

前記一部分において、前記第１の位置セットにある前記周期的間隔のマスクセットを、学習されたマスク埋め込みで置換することと、前記一部分において、前記第２の位置セットにある前記第２の残基セットを、学習された残基埋め込みで置換することとを更に含む、請求項１～１３のいずれか一項に記載のコンピュータ実装方法。

【請求項15】

【請求項16】

【請求項17】

【請求項18】

前記バリアントについての前記病原性予測を、前記バリアントの対数確率と、対応する参照アミノ酸の対数確率からアミノ酸単位の予測にわたって評価されたエントロピーを引いたものとの間の差に基づいて生成することを更に含む、請求項１～１７のいずれか一項に記載のコンピュータ実装方法。

【請求項19】

【請求項20】

バリアント病原性を予測するためのコンピュータプログラム命令が記録された非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令が、プロセッサ上で実行されると、
クエリ残基配列を複数の非クエリ残基配列に整列させる多重配列アラインメントにアクセスすることと、
前記多重配列アラインメントにおける第１の位置セットにある第１の残基セットに周期的間隔のマスクセットを適用することであって、前記第１の残基セットが、前記クエリ残基配列における関心対象位置にある関心対象残基を含む、適用することと、
前記多重配列アラインメントの一部分をトリミングすることであって、前記多重配列アラインメントの一部分が、
（ｉ）前記第１の位置セットにある前記周期的間隔のマスクセットと、
（ｉｉ）前記周期的間隔のマスクセットが適用されない、前記多重配列アラインメントにおける第２の位置セットにある第２の残基セットと、を含む、トリミングすることと、
前記多重配列アラインメントの前記一部分に基づいて、前記関心対象位置にあるバリアントについての病原性予測を生成することと、を含む、アクションを実施する、非一時的コンピュータ可読記憶媒体。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版