IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ イルミナ インコーポレイテッドの特許一覧

特表2025-502815病原性を予測するためのタンパク質言語モデルのためのマスクパターン
<>
  • 特表-病原性を予測するためのタンパク質言語モデルのためのマスクパターン 図1
  • 特表-病原性を予測するためのタンパク質言語モデルのためのマスクパターン 図2
  • 特表-病原性を予測するためのタンパク質言語モデルのためのマスクパターン 図3
  • 特表-病原性を予測するためのタンパク質言語モデルのためのマスクパターン 図4
  • 特表-病原性を予測するためのタンパク質言語モデルのためのマスクパターン 図5
  • 特表-病原性を予測するためのタンパク質言語モデルのためのマスクパターン 図6
  • 特表-病原性を予測するためのタンパク質言語モデルのためのマスクパターン 図7
  • 特表-病原性を予測するためのタンパク質言語モデルのためのマスクパターン 図8
  • 特表-病原性を予測するためのタンパク質言語モデルのためのマスクパターン 図9
  • 特表-病原性を予測するためのタンパク質言語モデルのためのマスクパターン 図10
  • 特表-病原性を予測するためのタンパク質言語モデルのためのマスクパターン 図11
  • 特表-病原性を予測するためのタンパク質言語モデルのためのマスクパターン 図12
  • 特表-病原性を予測するためのタンパク質言語モデルのためのマスクパターン 図13
  • 特表-病原性を予測するためのタンパク質言語モデルのためのマスクパターン 図14
  • 特表-病原性を予測するためのタンパク質言語モデルのためのマスクパターン 図15
  • 特表-病原性を予測するためのタンパク質言語モデルのためのマスクパターン 図16
  • 特表-病原性を予測するためのタンパク質言語モデルのためのマスクパターン 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-01-28
(54)【発明の名称】病原性を予測するためのタンパク質言語モデルのためのマスクパターン
(51)【国際特許分類】
   G16B 30/10 20190101AFI20250121BHJP
【FI】
G16B30/10
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024539695
(86)(22)【出願日】2022-12-23
(85)【翻訳文提出日】2024-06-28
(86)【国際出願番号】 US2022082368
(87)【国際公開番号】W WO2023129897
(87)【国際公開日】2023-07-06
(31)【優先権主張番号】63/294,813
(32)【優先日】2021-12-29
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/294,816
(32)【優先日】2021-12-29
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/294,820
(32)【優先日】2021-12-29
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/294,827
(32)【優先日】2021-12-29
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/294,828
(32)【優先日】2021-12-29
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/294,830
(32)【優先日】2021-12-29
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/975,536
(32)【優先日】2022-10-27
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/975,547
(32)【優先日】2022-10-27
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】トビアス・ハンプ
(72)【発明者】
【氏名】アナスタシア・スザンナ・ダグマー・ディートリヒ
(72)【発明者】
【氏名】ジェフリー・マーク・イード
(72)【発明者】
【氏名】イビン・ウ
(72)【発明者】
【氏名】カイ-ハウ・ファー
(57)【要約】
開示される技術は、クエリ残基配列を複数の非クエリ残基配列に整列させる多重配列アラインメントにアクセスすることと、多重配列アラインメントにおける第1の位置セットにある第1の残基セットに周期的間隔のマスクセットを適用することと、第1の位置セットにある周期的間隔のマスクセット、及び周期的間隔のマスクセットが適用されない、多重配列アラインメントにおける第2の位置セットにある第2の残基セットを含む、多重配列アラインメントの一部分をトリミングすることと、に関する。第1の残基セットが、クエリ残基配列における関心対象位置にある関心対象残基を含む。
【特許請求の範囲】
【請求項1】
バリアント病原性予測のコンピュータ実装方法であって、
クエリ残基配列を複数の非クエリ残基配列に整列させる多重配列アラインメントにアクセスすることと、
前記多重配列アラインメントにおける第1の位置セットにある第1の残基セットに周期的間隔のマスクセットを適用することであって、前記第1の残基セットが、前記クエリ残基配列における関心対象位置にある関心対象残基を含む、適用することと、
前記多重配列アラインメントの一部分をトリミングすることであって、前記多重配列アラインメントの一部分が、
(i)前記第1の位置セットにある前記周期的間隔のマスクセットと、
(ii)前記周期的間隔のマスクセットが適用されない、前記多重配列アラインメントにおける第2の位置セットにある第2の残基セットと、を含む、トリミングすることと、
前記多重配列アラインメントの前記一部分に基づいて、前記関心対象位置にあるバリアントについての病原性予測を生成することと、を含む、コンピュータ実装方法。
【請求項2】
前記多重配列アラインメントが、位置ごとの次元に沿って、かつ配列ごとの次元に沿って、前記クエリ残基配列を前記複数の非クエリ残基配列に整列させる、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記周期的間隔のマスクセットが、前記多重配列アラインメントにおける配列のウィンドウ内の配列ごとの次元に沿って適用される、請求項2に記載のコンピュータ実装方法。
【請求項4】
前記周期的間隔のマスクセットが、前記多重配列アラインメントにおける前記配列のウィンドウにわたる位置のウィンドウ内の位置ごとの次元に沿って適用される、請求項3に記載のコンピュータ実装方法。
【請求項5】
前記一部分が、所定の幅及び所定の高さを有する、請求項1に記載のコンピュータ実装方法。
【請求項6】
前記一部分が、前記一部分の前記所定の幅より小さい幅を有する多重配列アラインメントを補償するためにパディングされる、請求項5に記載のコンピュータ実装方法。
【請求項7】
前記周期的間隔のマスクセットが、前記配列ごとの次元に沿って、周期的間隔のマスクサブセットに分散される、請求項2に記載のコンピュータ実装方法。
【請求項8】
前記周期的間隔のマスクサブセットが、配列のウィンドウ内の配列に対応する、請求項7に記載のコンピュータ実装方法。
【請求項9】
前記周期的間隔のマスクセットが、パターンを有する、請求項1に記載のコンピュータ実装方法。
【請求項10】
前記一部分のパディングを最小化するために、前記トリミングに使用されるトリミングウィンドウを右シフトすることを更に含む、請求項9に記載のコンピュータ実装方法。
【請求項11】
前記一部分の前記パディングを最小化するために、前記トリミングウィンドウを左シフトすることを更に含む、請求項10に記載のコンピュータ実装方法。
【請求項12】
前記関心対象位置を前記一部分の中央列に位置付けるようにトリミングウィンドウを構成することを更に含む、請求項1に記載のコンピュータ実装方法。
【請求項13】
前記関心対象位置を前記中心列に隣接して位置付けるように前記トリミングウィンドウを構成することを更に含む、請求項12に記載のコンピュータ実装方法。
【請求項14】
前記一部分において、前記第1の位置セットにある前記周期的間隔のマスクセットを、学習されたマスク埋め込みで置換することと、前記一部分において、前記第2の位置セットにある前記第2の残基セットを、学習された残基埋め込みで置換することとを更に含む、請求項1に記載のコンピュータ実装方法。
【請求項15】
前記一部分において、前記第1の位置セットにある前記周期的間隔のマスクセット、及び前記第2の位置セットにある前記第2の残基セットを、学習された位置埋め込みで置換することを更に含む、請求項14に記載のコンピュータ実装方法。
【請求項16】
学習されたマスク埋め込み、前記学習された残基埋め込み、及び前記学習された位置埋め込みを用いて前記一部分を複数のチャンクにチャンク化することを更に含む、請求項15に記載のコンピュータ実装方法。
【請求項17】
前記複数のチャンクを集約として処理することと、前記一部分の代替表現を生成することと、を更に含む、請求項16に記載のコンピュータ実装方法。
【請求項18】
前記バリアントについての前記病原性予測を、前記バリアントの対数確率と、対応する参照アミノ酸の対数確率からアミノ酸単位の予測にわたって評価されたエントロピーを引いたものとの間の差に基づいて生成することを更に含む、請求項1に記載のコンピュータ実装方法。
【請求項19】
メモリに結合された1つ以上のプロセッサを含むシステムであって、前記メモリには、バリアント病原性を予測するためのコンピュータ命令がロードされ、前記コンピュータ命令が、前記1つ以上のプロセッサ上で実行されると、
クエリ残基配列を複数の非クエリ残基配列に整列させる多重配列アラインメントにアクセスすることと、
前記多重配列アラインメントにおける第1の位置セットにある第1の残基セットに周期的間隔のマスクセットを適用することであって、前記第1の残基セットが、前記クエリ残基配列における関心対象位置にある関心対象残基を含む、適用することと、
前記多重配列アラインメントの一部分をトリミングすることであって、前記多重配列アラインメントの一部分が、
(i)前記第1の位置セットにある前記周期的間隔のマスクセットと、
(ii)前記周期的間隔のマスクセットが適用されない、前記多重配列アラインメントにおける第2の位置セットにある第2の残基セットと、を含む、トリミングすることと、
前記多重配列アラインメントの前記一部分に基づいて、前記関心対象位置にあるバリアントについての病原性予測を生成することと、を含む、アクションを実施する、システム。
【請求項20】
バリアント病原性を予測するためのコンピュータプログラム命令が記録された非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令が、プロセッサ上で実行されると、
クエリ残基配列を複数の非クエリ残基配列に整列させる多重配列アラインメントにアクセスすることと、
前記多重配列アラインメントにおける第1の位置セットにある第1の残基セットに周期的間隔のマスクセットを適用することであって、前記第1の残基セットが、前記クエリ残基配列における関心対象位置にある関心対象残基を含む、適用することと、
前記多重配列アラインメントの一部分をトリミングすることであって、前記多重配列アラインメントの一部分が、
(i)前記第1の位置セットにある前記周期的間隔のマスクセットと、
(ii)前記周期的間隔のマスクセットが適用されない、前記多重配列アラインメントにおける第2の位置セットにある第2の残基セットと、を含む、トリミングすることと、
前記多重配列アラインメントの前記一部分に基づいて、前記関心対象位置にあるバリアントについての病原性予測を生成することと、を含む、アクションを実施する、非一時的コンピュータ可読記憶媒体。
【請求項21】
コンピュータ実装方法であって、
多重配列アラインメント(MSA)にアクセスすることであって、前記MSAが、p個の行及びr個の列を有し、前記p個の行が、p個のタンパク質配列に対応し、前記r個の列が、r個の残基位置に対応する、アクセスすることと、
マスクグリッドにアクセスすることであって、前記マスクグリッドが、m個のマスク分布を有し、前記m個のマスク分布の各々が、前記マスクグリッド内の第1の残基位置からの変動オフセットで始まるk個の順序位置にk個の周期的間隔のマスクを有する、アクセスすることと、
前記m個のマスク分布を前記p個のタンパク質配列中のm個のタンパク質配列に適用して、マスクされた残基及びマスクされていない残基を含む、部分的にマスクされたMSAを生成することであって、p>mである、生成することと、
前記マスクされた残基及び前記マスクされていない残基を、学習された埋め込みに変換し、前記学習された埋め込みを残基位置埋め込みと連結して、前記部分的にマスクされたMSAの埋め込まれた表現を生成することと、
前記埋め込まれた表現を一連のチャンクにチャンク化し、前記一連のチャンク内のチャンクをスタックに連結し、前記スタックを前記埋め込まれた表現の圧縮された表現に変換することであって、前記圧縮された表現が、m個の行及びr個の列を有する、変換することと、
前記圧縮された表現の前記m個の行及び前記r個の列にわたって軸方向アテンションを反復的に適用し、適用された前記軸方向アテンションをインターリーブして、前記圧縮された表現の更新された表現を生成することであって、前記更新された表現が、m個の行及びr個の列を有する、生成することと、
前記更新された表現から、k個の更新された表現タイルを集約することであって、前記k個の更新された表現タイルの各々が、前記マスクされた残基に対応する、前記更新された表現の更新された表現特徴を含み、前記k個の更新された表現タイルの各々が、m個の行及びk個の列を有し、所与の更新された表現タイルの前記k個の列内の所与の列が、前記更新された表現特徴のそれぞれのサブセットを含み、前記それぞれのサブセットが、前記k個の順序位置内の所与の順序位置に位置し、前記所与の順序位置が、前記所与の列によって表される、集約することと、
前記埋め込まれた表現から、前記k個の更新された表現タイルに対応するk個の埋め込みタイルを集約することであって、前記k個の埋め込みタイルの各々が、前記マスクされた残基の変換である、前記一連のチャンクのうちの第1のチャンク内の埋め込み特徴を含み、前記k個の埋め込みタイルの各々が、m個の行及びk個の列を有し、所与の埋め込みタイルの前記k個の列内の所与の列が、前記埋め込み特徴のそれぞれのサブセットを含み、前記それぞれのサブセットが、前記k個の順序位置内の所与の順序位置に位置し、前記所与の順序位置が、前記所与の列によって表される、集約することと、
k個のブールタイルを前記k個の埋め込みタイルに適用して、k個のブール化埋め込みタイルを生成することであって、前記k個のブールタイルの各々が、m個の行及びk個の列を有し、前記k個のブールタイルの各々が、前記k個の埋め込みタイルのうちの対応する1つにおける前記k個の列のうちの対応する1つの隠蔽を引き起こすとともに、前記k個の埋め込みタイルのうちの前記対応する1つにおける前記k個の列のうちの他のものの表出を引き起こし、前記k個のブール化埋め込みタイルの各々が、m個の行及びk個の列を有する、生成することと、
前記k個のブール化埋め込みタイルを前記k個の更新された表現タイルと連結して、k個の連結されたタイルを生成し、前記k個の連結されたタイルを前記k個の連結されたタイルのk個の圧縮されたタイル表現に変換することであって、前記k個の圧縮されたタイル表現の各々が、m個の行及びk個の列を有する、変換することと、
前記k個の圧縮されたタイル表現に自己アテンションを反復的に適用して、前記k個のブールタイルによって表出される前記k個の埋め込みタイルにおける埋め込み特徴に対応する前記k個の圧縮されたタイル表現における圧縮されたタイル特徴の解釈を生成することと、
前記k個のブールタイルによって隠蔽される前記k個の埋め込みタイルにおける埋め込み特徴に対応する解釈された特徴を前記解釈から集約して、前記解釈の集約された表現を生成することであって、前記集約された表現が、m個の行及びk個の列を有する、生成することと、
前記集約された表現を前記マスクされた残基の同一性に変換することと、を含む、コンピュータ実装方法。
【請求項22】
ワンホットエンコーディングスキームを使用して、20個の天然由来の残基、ギャップ残基、及びマスクを、それぞれのワンホットエンコードされたベクトルに変換することを更に含む、請求項21に記載のコンピュータ実装方法。
【請求項23】
前記それぞれのワンホットエンコードされたベクトルに対するそれぞれの学習された埋め込みを生成するようにニューラルネットワークを訓練することを更に含む、請求項22に記載のコンピュータ実装方法。
【請求項24】
前記マスクされた残基及び前記マスクされていない残基が、前記それぞれのワンホットエンコードされたベクトルを前記それぞれの学習された埋め込みにマッピングするルックアップテーブルに基づいて、前記学習された埋め込みに変換される、請求項23に記載のコンピュータ実装方法。
【請求項25】
前記チャンクが、チャネル次元に沿って前記スタックに連結される、請求項21に記載のコンピュータ実装方法。
【請求項26】
前記スタックが、線形射影を通じて前記スタックを処理することによって前記圧縮された表現に変換される、請求項21に記載のコンピュータ実装方法。
【請求項27】
前記線形射影が、複数の一次元(1D)畳み込みフィルタを使用する、請求項26に記載のコンピュータ実装方法。
【請求項28】
前記集約された表現が、表出出力ヘッドを通じて前記集約された表現を処理することによって、前記マスクされた残基の同一性に変換される、請求項21に記載のコンピュータ実装方法。
【請求項29】
p=mである、請求項21に記載のコンピュータ実装方法。
【請求項30】
前記k個のブールタイルの各々が、前記k個の埋め込みタイルのうちの前記対応する1つにおける前記k個の列のうちの前記対応する1つの隠蔽を引き起こすとともに、前記k個の埋め込みタイルのうちの前記対応する1つにおける前記k個の列のうちの他のもののうちの少なくともいくつかの表出を引き起こす、請求項21に記載のコンピュータ実装方法。
【請求項31】
前記k個のブールタイルの各々が、前記k個の埋め込みタイルのうちの前記対応する1つにおける前記k個の列のうちの対応するサブセットの隠蔽を引き起こすとともに、前記k個の埋め込みタイルのうちの前記対応する1つにおける前記k個の列のうちの他のもののうちの少なくともいくつかの表出を引き起こす、請求項21に記載のコンピュータ実装方法。
【請求項32】
システムであって、
複数のマスクされた残基を有する多重配列アラインメント(MSA)を記憶するメモリと、前記MSAを一連のチャンクにチャンク化するように構成されたチャンク化論理と、
前記一連のチャンクの表現に注目し、第1のアテンション出力を生成するように構成された第1のアテンション論理と、
前記複数のマスクされた残基中のマスクされた残基に対応する前記第1のアテンション出力における特徴を含む第1の集約された出力を生成するように構成された第1の集約論理と、
前記第1の集約された出力と、サブセットごとに、前記マスクされた残基の所与のサブセットを隠蔽することと前記マスクされた残基の残りのサブセットを表出させることとを交互に行うブールマスクとに基づいて、通知された出力を生成するように構成されたマスク表出論理と、
前記通知された出力に注目し、
前記ブールマスクによって表出されたマスクされた残基に基づいて、第2のアテンション出力を生成するように構成された第2のアテンション論理と、
前記ブールマスクによって隠蔽されたマスクされた残基に対応する前記第2のアテンション出力における特徴を含む第2の集約された出力を生成するように構成された第2の集約論理と、
前記第2の集約された出力に基づいて、前記マスクされた残基の特定を生成するように構成された出力論理と、を含む、システム。
【請求項33】
前記第1のアテンション論理が、軸方向アテンションを使用する、請求項32に記載のシステム。
【請求項34】
前記第2のアテンション論理が、自己アテンションを使用する、請求項32に記載のシステム。
【請求項35】
コンピュータ実装方法であって、
多重配列アラインメント(MSA)にアクセスすることであって、前記MSAが、p個の行及びr個の列を有し、前記p個の行が、p個のタンパク質配列に対応し、前記r個の列が、r個の残基位置に対応する、アクセスすることと、
マスクグリッドにアクセスすることであって、前記マスクグリッドが、m個のマスク分布を有し、前記m個のマスク分布の各々が、k個の順序位置にk個の周期的間隔のマスクを有する、アクセスすることと、
前記m個のマスク分布を前記p個のタンパク質配列中のm個のタンパク質配列に適用して、マスクされた残基及びマスクされていない残基を含む、部分的にマスクされたMSAを生成することであって、p>mである、生成することと、
前記マスクされた残基及び前記マスクされていない残基を学習された埋め込みに変換することと、
前記学習された埋め込みを残基位置埋め込みと連結して、前記部分的にマスクされたMSAの埋め込まれた表現を生成することと、
前記埋め込まれた表現を一連のチャンクにチャンク化し、前記一連のチャンク内のチャンクをスタックに連結し、前記スタックを前記埋め込まれた表現の圧縮された表現に変換することと、
前記圧縮された表現のm個の行及びr個の列にわたって軸方向アテンションを反復的に適用し、適用された前記軸方向アテンションをインターリーブして、前記圧縮された表現の更新された表現を生成することと、
前記更新された表現から、k個の更新された表現タイルを集約することであって、前記k個の更新された表現タイルの各々が、前記マスクされた残基に対応する、前記更新された表現の更新された表現特徴を含む、集約することと、
前記埋め込まれた表現から、前記k個の更新された表現タイルに対応するk個の埋め込みタイルを集約することであって、前記k個の埋め込みタイルの各々が、前記マスクされた残基の変換である、前記一連のチャンクのうちの第1のチャンクにおける埋め込み特徴を含む、集約することと、
k個のブールタイルを前記k個の埋め込みタイルに適用して、k個のブール化埋め込みタイルを生成することであって、前記k個のブールタイルの各々が、前記k個の埋め込みタイルのうちの対応する1つにおけるk個の列のうちの対応する1つの隠蔽を引き起こすとともに、前記k個の埋め込みタイルのうちの前記対応する1つにおける前記k個の列のうちの他のものの表出を引き起こす、生成することと、
前記k個のブール化埋め込みタイルを前記k個の更新された表現タイルと連結して、k個の連結されたタイルを生成し、前記k個の連結されたタイルを前記k個の連結されたタイルのk個の圧縮されたタイル表現に変換することと、
前記k個の圧縮されたタイル表現に自己アテンションを反復的に適用して、前記k個のブールタイルによって表出される前記k個の埋め込みタイルにおける埋め込み特徴に対応する前記k個の圧縮されたタイル表現における圧縮されたタイル特徴の解釈を生成することと、
前記k個のブールタイルによって隠蔽される前記k個の埋め込みタイルにおける埋め込み特徴に対応する解釈された特徴を前記解釈から集約して、前記解釈の集約された表現を生成することと、前記集約された表現を前記マスクされた残基の同一性に変換することと、を含む、コンピュータ実装方法。
【請求項36】
前記m個のマスク分布のうちの少なくともいくつかの前記k個の周期的間隔のマスクが、マスクグリッド内の第1の残基位置からの変動オフセットで開始する、請求項35に記載のコンピュータ実装方法。
【請求項37】
前記m個のマスク分布のうちの少なくともいくつかの前記k個の周期的間隔のマスクが、前記第1の残基位置からの同じオフセットで開始する、請求項36に記載のコンピュータ実装方法。
【請求項38】
前記圧縮された表現が、m個の行及びr個の列を有する、請求項35に記載のコンピュータ実装方法。
【請求項39】
前記k個の更新された表現タイルの各々が、m個の行及びk個の列を有し、所与の更新された表現タイルの前記k個の列内の所与の列が、前記更新された表現特徴のそれぞれのサブセットを含み、前記それぞれのサブセットが、前記k個の順序位置内の所与の順序位置に位置し、前記所与の順序位置が、前記所与の列によって表される、請求項35に記載のコンピュータ実装方法。
【請求項40】
前記k個の埋め込みタイルの各々が、m個の行及びk個の列を有し、所与の埋め込みタイルの前記k個の列内の所与の列が、前記埋め込み特徴のそれぞれのサブセットを含み、前記それぞれのサブセットが、前記k個の順序位置内の所与の順序位置に位置し、前記所与の順序位置が、前記所与の列によって表される、請求項35に記載のコンピュータ実装方法。
【発明の詳細な説明】
【技術分野】
【0001】
(優先権出願)
本出願は、以下の利益及び優先権を主張する。
2022年10月27日に出願された「MASK PATTERN FOR PROTEIN LANGUAGE MODELS」と題する米国特許出願第17/975,536号(代理人整理番号ILLM1063-2/IP-2296-US1)、
2022年10月27日に出願された「PATHOGENICITY LANGUAGE MODEL」と題する米国特許出願第17/975,547号(代理人整理番号ILLM1063-3/IP-2296-US2)、
2021年12月29日に出願された「PERIODIC MASK PATTERN FOR REVELATION LANGUAGE MODELS」と題する米国特許仮出願第63/294,813号(代理人整理番号ILLM1063-1/IP-2296-PRV)、
2021年12月29日に出願された「CLASSIFYING MILLIONS OF VARIANTS OF UNCERTAIN SIGNIFICANCE USING PRIMATE SEQUENCING AND DEEP LEARNING」と題する米国特許仮出願第63/294,816号(代理人整理番号ILLM1064-1/IP-2297-PRV)、
2021年12月29日に出願された「IDENTIFYING GENES WITH DIFFERENTIAL SELECTIVE CONSTRAINT BETWEEN HUMANS AND NONHUMAN PRIMATES」と題する米国特許仮出願第63/294,820号(代理人整理番号ILLM1065-1/IP-2298-PRV)、
2021年12月29日に出願された「DEEP LEARNING NETWORK FOR EVOLUTIONARY CONSERVATION」と題する米国特許仮出願第63/294,827号(代理人整理番号ILLM1066-1/IP-2299-PRV)、
2021年12月29日に出願された「INTER-MODEL PREDICTION SCORE RECALIBRATION」と題する米国特許仮出願第63/294,828号(代理人整理番号ILLM1067-1/IP-2301-PRV)、及び
2021年12月29日に出願された「SPECIES-DIFFERENTIABLE EVOLUTIONARY PROFILES」と題する米国特許仮出願第63/294,830号(代理人整理番号ILLM1068-1/IP-2302-PRV)。
【0002】
優先権出願は、本明細書に完全に記載されているかのように、その全体が参照により本明細書に組み込まれる。
【0003】
(技術分野)
開示される技術は、人工知能型コンピュータ及びデジタルデータ処理システム、並びに知能(すなわち、知識ベースのシステム、推論システム、及び知識取得システム)を模倣するための対応するデータ処理方法及び製品に関し、不確実性を伴う推論のためのシステム(例えば、ファジーロジックシステム)、適応システム、機械学習システム、及び人工ニューラルネットワークを含む。詳細には、開示される技術は、順序付きデータを分析するためにニューラルネットワークを使用することに関する。
【0004】
(組み込み)
以下は、本明細書に完全に記載されているかのように、全ての目的のために参照により組み込まれる。
Sundaram,L.et al.Predicting the clinical impact of human mutation with deep neural networks.Nat.Genet.50,1161-1170(2018)、
Jaganathan,K.et al.Predicting splicing from primary sequence with deep learning.Cell 176,535-548(2019)、
同時に出願された「PATHOGENICITY LANGUAGE MODEL」と題する米国特許出願(代理人整理番号ILLM1063-3/IP-2296-US2)、
2017年10月16日に出願された「TRAINING A DEEP PATHOGENICITY CLASSIFIER USING LARGE-SCALE BENIGN TRAINING DATA」と題する米国特許出願第62/573,144号(代理人整理番号ILLM1000-1/IP-1611-PRV)、
2017年10月16日に出願された「PATHOGENICITY CLASSIFIER BASED ON DEEP CONVOLUTIONAL NEURAL NETWORKS (CNNs)」と題する米国特許出願第62/573,149号(代理人整理番号ILLM 1000-2/IP-1612-PRV)、
2017年10月16日に出願された「DEEP SEMI-SUPERVISED LEARNING THAT GENERATES LARGE-SCALE PATHOGENIC TRAINING DATA」と題する米国特許出願第62/573,153号(代理人整理番号ILLM1000-3/IP-1613-PRV)、
2017年11月7日に出願された「PATHOGENICITY CLASSIFICATION OF GENOMIC DATA USING DEEP CONVOLUTIONAL NEURAL NETWORKS(CNNs)」と題する米国特許出願第62/582,898号(代理人整理番号ILLM 1000-4/IP-1618-PRV)、
2018年10月15日に出願された「DEEP LEARNING-BASED TECHNIQUES FOR TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS」と題する米国特許出願第16/160,903号(代理人整理番号ILLM1000-5/IP-1611-US)、
2018年10月15日に出願された「DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION」と題する米国特許出願第16/160,986号(代理人整理番号ILLM1000-6/IP-1612-US)、
2018年10月15日に出願された「SEMI-SUPERVISED LEARNING FOR TRAINING AN ENSEMBLE OF DEEP CONVOLUTIONAL NEURAL NETWORKS」と題する米国特許出願第16/160,968号(代理人整理番号ILLM1000-7/IP-1613-US)、
2018年10月15日に出願された「DEEP LEARNING-BASED SPLICE SITE CLASSIFICATION」と題する米国特許出願第16/160,978号(代理人整理番号ILLM1001-4/IP-1680-US)、
2019年5月8日に出願された「DEEP LEARNING-BASED TECHNIQUES FOR PRE-TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS」と題する米国特許出願第16/407,149号(代理人整理番号ILLM1010-1/IP-1734-US)、
2021年4月15日に出願された「DEEP CONVOLUTIONAL NEURAL NETWORKS TO PREDICT VARIANT PATHOGENICITY USING THREE-DIMENSIONAL(3D)PROTEIN STRUCTURES」と題する米国特許出願第17/232,056号(代理人整理番号ILLM 1037-2/IP-2051-US)、
2021年4月15日に出願された「MULTI-CHANNEL PROTEIN VOXELIZATION TO PREDICT VARIANT PATHOGENICITY USING DEEP CONVOLUTIONAL NEURAL NETWORKS」と題する米国特許出願第63/175,495号(代理人整理番号ILLM 1047-1/IP-2142-PRV)、
2021年4月16日に出願された「EFFICIENT VOXELIZATION FOR DEEP LEARNING」と題する米国特許出願第63/175,767号(代理人整理番号ILLM 1048-1/IP-2143-PRV)、
2021年9月7日に出願された「ARTIFICIAL INTELLIGENCE-BASED ANALYSIS OF PROTEIN THREE-DIMENSIONAL(3D)STRUCTURES」と題する米国特許出願第17/468,411号(代理人整理番号ILLM 1037-3/IP-2051A-US)、
2021年10月6日に出願された「PROTEIN STRUCTURE-BASED PROTEIN LANGUAGE MODELS」と題する米国特許仮出願第63/253,122号(代理人整理番号ILLM1050-1/IP-2164-PRV)、
2021年11月19日に出願された「PREDICTING VARIANT PATHOGENICITY FROM EVOLUTIONARY CONSERVATION USING THREE-DIMENSIONAL(3D)PROTEIN STRUCTURE VOXELS」と題する米国特許仮出願第63/281,579号(代理人整理番号ILLM1060-1/IP-2270-PRV)、及び
2021年11月19日に出願された「COMBINED AND TRANSFER LEARNING OF A VARIANT PATHOGENICITY PREDICTOR USING GAPED AND NON-GAPED PROTEIN SAMPLES」と題する米国特許仮出願第63/281,592号(代理人整理番号ILLM1061-1/IP-2271-PRV)。
【背景技術】
【0005】
本セクションで考察される主題は、単に本セクションにおける言及の結果として、先行技術であると想定されるべきではない。同様に、本セクションで言及した問題、又は背景として提供された主題と関連付けられた問題は、先行技術において以前に認識されていると想定されるべきではない。本セクションの主題は、単に異なるアプローチを表し、それ自体はまた、特許請求される技術の実施態様に対応し得る。
【0006】
利用可能な生物学的配列データの急増は、配列データからタンパク質の三次元構造、生物学的機能、適合性、及び進化歴を推測する複数の計算アプローチにつながった。Transformerアーキテクチャに基づくモデルのような、いわゆるタンパク質言語モデルは、周囲のアミノ酸を考慮して、配列中のマスクされたアミノ酸を埋めるマスクされた言語モデリングオブジェクトを使用することによって、タンパク質配列のラージアンサンブルに対して訓練されてきた。
【0007】
タンパク質言語モデルは、長距離依存性を捕捉し、タンパク質配列の豊富な表現を学習し、複数のタスクに採用され得る。例えば、タンパク質言語モデルは、教師なしの方式で単一の配列から構造的接触を予測することができる。
【0008】
タンパク質配列は、祖先タンパク質に由来し、類似の構造及び機能を共有する相同タンパク質のファミリーに分類され得る。相同タンパク質の多重配列アラインメント(multiple sequence alignment、MSA)の分析は、機能的及び構造的制約についての重要な情報を提供する。アミノ酸部位を表すMSAカラムの統計は、進化の間に保存される機能的残基を特定する。MSAカラム間のアミノ酸使用の相関は、機能的セクター及び構造的接触についての重要な情報を含む。
【0009】
言語モデルは、最初、自然言語処理のために開発され、単純であるが強力な原理に基づいて動作し、言語モデルは、標準化された試験における文章完成タスクに類似して、文章中の欠けている単語を埋めるように学習することによって言語理解を獲得する。言語モデルは、大規模なテキストコーパスにわたってこの原理を適用することによって、強力な推論能力を開発する。Transformerからの双方向エンコーダ表現(Bidirectional Encoder Representations from Transformers、BERT)モデルは、アテンションが学習システムの主要構成要素であるニューラルネットワークのクラスである、Transformerを使用して、この原理をインスタンス化した。Transformerでは、入力文章中の各トークンは、ニューラルネットワーク内のニューロンの中間出力に対応する活性化パターンを交換することによって、全ての他のトークンに「参加」し得る。
【0010】
MSA Transformerのようなタンパク質言語モデルは、進化的に関連する配列のMSAから推論を実施するように訓練されている。MSA Transformerは、エピスタシスを組み込むために、配列(「行」)ごとのアテンションを部位(「列」)ごとのアテンションでインターリーブする。エピスタシスは、特定のタンパク位置の共進化につながる。1つの部位における変異の効果は、変異に影響を及ぼす他の部位における変異の存在又は非存在に依存する。MSA Transformerにおける行アテンションヘッドの組み合わせは、最先端の教師なし構造的接触予測につながった。
【0011】
タンパク質配列及び配列保存データからミスセンスバリアントの病原性を予測するために、バリアント効果予測のためのエンドツーエンド深層学習アプローチが適用される(Sundaram,L.et al.Predicting the clinical impact of human mutation with deep neural networks.Nat.Genet.50,1161-1170(2018)を参照されたい。本明細書では「PrimateAI」と称される)。PrimateAIは、異種間情報を使用するデータ増強を用いて既知の病原性のバリアントで訓練した深層ニューラルネットワークを使用する。特に、PrimateAIは、野生型及び変異タンパク質の配列を使用して、差異を比較し、訓練した深層ニューラルネットワークを使用して変異の病原性を決定する。病原性予測のためにタンパク質配列を利用するこのようなアプローチは、真円度問題及び以前の知識への過剰適合を回避することができるので、有望である。深層ニューラルネットワークを効果的に訓練するのに十分な数のデータと比較して、ClinVarにおいて利用可能な臨床データの数は比較的少ない。このデータ不足を克服するために、PrimateAIは、一般的なヒトバリアント及び霊長類由来のバリアントを良性データとして使用し、トリヌクレオチド文脈に基づいて、ラベルなしデータの変異レート整合サンプルを未知のデータとして使用した。
【0012】
バリアント病原性予測のためにタンパク質言語モデル及びMSAを使用する機会が生じる。より正確なバリアント病原性予測が得られ得る。
【図面の簡単な説明】
【0013】
図面では、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は必ずしも縮尺通りではなく、その代わりに、開示された技術の原理を例示することを強調している。以下の説明において、開示された技術の様々な実施態様は、以下の図面を参照して説明される。
図1】開示される技術の様々な態様を示す高レベル図であり、特に、マスクされたMSAを生成し、開示されるPrimateAI言語モデルを通じてマスクされたMSAを処理して、表現型予測を生成することを例示する。
図2】開示される周期的間隔のマスクグリッドをMSAに適用し、開示される部分的にマスクされたMSAを生成する一実施態様を示す。
図3】20個の残基ワンホットベクトル、ギャップ残基ワンホットベクトル、及びマスクワンホットベクトルに対して定義されるワンホットトークンの一実施態様を示す。
図4】20個の残基チャネル埋め込みセット、ギャップチャネル埋め込みセット、及びマスクチャネル埋め込みセットに対して定義されるチャネル埋め込みの一実施態様を例示する。
図5】開示される技術の様々な実施態様による、MSAのトリミング、パディング、及びマスキングを示す。
図6】開示されるMSA表現を生成する一実施態様を図示する。
図7】開示されるPrimateAI言語モデルの例示的なアーキテクチャを例示する。
図8】開示されるマスク表出の詳細を示す。
図9】PrimateAI言語モデルの様々な構成要素を示す。
図10】開示されるPrimateAI言語モデルによって使用される開示される表出出力ヘッドの一実施態様を示す。
図11】開示される技術の一実施態様による、PrimateAI言語モデルの論理フローのコンピュータ実装方法である。
図12】開示される技術の一実施態様による、PrimateAI言語モデルを実装するように構成されるシステムである。
図13】他の言語モデルを有する開示されるPrimateAI言語モデルの言語モデル化部分の性能評価を示す。
図14】開示されるPrimateAI言語モデルの第1位の訓練正確度を図示する。
図15】開示されるPrimateAI言語モデルのコンパイル及びランタイム実行のために使用され得るコンピュータシステムである。
図16】UniRef50 HHblits MSAとヒトHHblits MSAとの間の比較を例示する。
図17】勾配事前標準化を伴うLAMBオプティマイザを使用するPrimateAI言語モデルの訓練を例示する。
【発明を実施するための形態】
【0014】
以下の考察は、開示される技術を当業者が作製及び使用することを可能にするために提示され、特定の用途及びその要件に関連して提供される。開示される実施態様に対する種々の修正は、当業者には容易に明らかとなり、本明細書で定義される一般原理は、開示される技術の趣旨及び範囲から逸脱することなく、その他の実施態様及び用途に適用され得る。したがって、開示される技術は、示される実施態様に限定されることを意図するものではなく、本明細書に開示される原理及び特徴と一致する最も広い範囲を与えられるものである。
【0015】
様々な実施態様の詳細な説明は、添付の図面と併せて読むと、より良く理解することができる。図が様々な実施態様の機能ブロックの図を示す限りにおいて、機能ブロックは、必ずしもハードウェア回路間の分割を示すものではない。したがって、例えば、機能ブロック(例えば、モジュール、プロセッサ、又はメモリ)のうちの1つ以上は、単一のハードウェア(例えば、汎用信号プロセッサ又はランダムアクセスメモリのブロック、ハードディスクなど)又は複数のハードウェアに実装されてもよい。同様に、プログラムは、スタンドアロンプログラムであってもよく、オペレーティングシステム内のサブルーチンとして組み込まれてもよく、インストールされたソフトウェアパッケージ内の機能である等でもよい。様々な実施態様は、図面に示された配置及び手段に限定されないことを理解されたい。
【0016】
モジュールとして指定された図の処理エンジン及びデータベースは、ハードウェア又はソフトウェアで実装することができ、図に示されるように、正確に同じブロックで分割される必要はない。いくつかのモジュールは、異なるプロセッサ、コンピュータ若しくはサーバ上に実装されてもよく、又は多数の異なるプロセッサ、コンピュータ若しくはサーバの中で広がることもできる。
【0017】
加えて、モジュールの一部は、達成される機能に影響を及ぼすことなく、図に示されるものとは並行して、又は異なる順序で操作され得ることが理解されるであろう。図のモジュールはまた、方法におけるフローチャートステップと考えることができる。また、モジュールは、必ずしもメモリ内に隣接して配置された全てのコードを有する必要はない。コードのいくつかの部分は、他のモジュール又は他の機能からのコードが間に配置された状態で、コードの他の部分から分離することができる。
【0018】
序論
開示されるPrimateAI言語モデルは、配列に対する訓練のためにマスクされた言語モデリング目的を使用する。訓練中、配列中の異なる位置にある残基がマスクトークンで置換され、PrimateAI言語モデルは、それらの位置にある元の残基を予測するように訓練される。
【0019】
マスクされた言語モデリングは、大量のラベルなしデータに対する訓練を可能にする。空欄を埋める多重配列アラインメント(multiple sequence alignment、MSA)Transformerは、訓練中にMSAにおける複数のマスクされた場所を同時に分類する。マスク場所の数が多いほど、最適化を知らせるより多くのマスクされた言語モデリング(masked language modelling、MLM)勾配を追加し得、それによって、より高い学習率及びより速い訓練を可能にする。
【0020】
しかしながら、マスク場所における分類が、他のマスク場所における残基の予測された値に依存するため、空欄を埋める病原性予測は、従来のMLMとは基本的に異なる。分類スコアは、多くの場合、他のマスク場所における残基の全ての可能な組み合わせにわたる条件付き予測の平均であり得る。
【0021】
PrimateAI言語モデルは、予測を行う前に他のマスク場所でマスクされたトークンを表出させることによって、この平均化を回避する。PrimateAI言語モデルは、従来のMSA Transformerよりも訓練のために50倍少ない計算を必要としながら、最先端の臨床性能及びノイズ除去正確度を達成する。以下で論じられる、開示される技術の様々な態様は、訓練計算における50倍の低減に寄与する。そのような態様の例は、周期的間隔のマスクグリッド、マスク表出、及びPrimateAI言語モデルのアーキテクチャを含む。
【0022】
PrimateAI言語モデルは、空欄を埋める残基分類のためのMSA Transformerと考えられ得る。一実施態様では、PrimateAI言語モデルは、教師なしMLMオブジェクトを最小化するために、UniRef50タンパク質のMSA上でエンドツーエンドで訓練される。PrimateAI言語モデルは、PrimateAI三次元(3D)ランク損失への入力として機能する、代替及び参照残基についての分類スコアを出力する。
【0023】
表現型予測
図1は、開示される技術の様々な態様を示す高レベル図100であり、特に、マスクされたMSA140を生成し、開示されるPrimateAI言語モデル(例えば、表現型予測器150又は病原性言語モデル)を通じてマスクされたMSA140を処理して、表現型予測160を生成することを例示する。
【0024】
一実施態様では、MSAデータセット110は、UniClust30データベースを検索することによって取り出されるUniRef50データベース内の各配列についての多重配列アラインメント(MSA)120を含む。MSA120は、標的タンパク質に対する複数の相同タンパク質配列のアラインメントである。MSA120から、相同性の程度が推測され、配列間の進化的関係が研究され得る。実際のタンパク質配列は、挿入、欠失、及び置換を有する可能性が高いため、配列は、全ての配列にわたってレーベンシュタイン距離様メトリックを最小化することによって整列される。いくつかの実施態様では、ヒューリスティックアラインメントスキームが使用される。例えば、JackHMMER及びHHblitsのようなツールは、検索及びアラインメントステップを反復的に実施することによって戻される配列の数及び多様性を増加させ得る。
【0025】
変異に対するタンパク質の電気機械的感受性によって有意に影響される最近の祖先を有する生物における変異の差異に起因して、近くの進化を組み込むことは困難である。これを回避するために、開示される技術によって使用されるMSAは、クエリ配列と整列する多様なタンパク質を含む。多くの種からの多様な配列を使用することは、差異が自然選択によってより高度に決定されるため、予測に対する電気機械的感受性の影響を低減する。
【0026】
いくつかの実施態様では、MSAデータセット110は、タンパク質相同性検出ソフトウェアHHblitsを使用することによって作成される、26,000,000個のMSAを含み得る。他の実施態様では、HHblitsを使用して、19,071個のヒトタンパク質について追加のMSAセットが生成され得る。当業者は、開示される技術が、任意の数のMSAを検索、生成、及び別様に活用(又は使用)することができることを理解するであろう。
【0027】
いくつかの実施態様では、クエリ配列が希少アミノ酸を保有するUniRef50 MSAは、MSAデータセット110から排除され、それによって、20個の最も豊富な残基を含むMSAデータセット110内のMSAのみを保持し得る。他の実施態様では、20個の最も一般的な残基及びギャップを含む非クエリ配列のみが、MSAに含まれ得、これは、結果的に、クエリ配列に対する欠失を表す。
【0028】
いくつかの実施態様では、PrimateAI言語モデルへの入力として提供されるMSAは、1024個の配列の固定サイズを有し得る。1024個の配列のうち、1023個までの非クエリ配列は、MSA深度が1024よりも大きい場合、フィルタリングされた配列からランダムにサンプリングされ得る。MSA深度が1024未満である場合、MSAは、入力を埋めるためにゼロでパディングされ得る。MSA深度は、MSAにおけるタンパク質配列の数を指す。例えば、1024個の配列の固定入力MSA深度を有するMSA変換器が訓練され得る。これは、モデルに入力されるテンソルが固定形状を有するため、モデルの処理を容易にする。フルMSA深度が1024未満である場合、パディングが、そのサイズを1024に増加させように追加され得る。フルMSA深度が1024を超える場合、1023個の配列がフルMSA深度からランダムにサンプリングされ得る。1つのクエリ配列は、残りのMSAが1024の深度を有するように維持され得る(1023個のランダムにサンプリングされた配列及び1つのクエリ配列)。
【0029】
マスキング論理130は、1つ以上のマスクをMSA120に適用し、マスクされたMSA140を生成し得る。マスクは、周期的、非周期的、規則的、又は不規則的な様式で配置され得る。マスクは、周期的間隔のマスク又はマスクの規則的なグリッド若しくはアレイに限定されない。マスクは、不規則な形状であってもよく、直線状又は曲線状であってもよく、不規則で不均一な間隔のパターンで配置されてもよい。マスクは、隣接するマスク間の距離が固定又は同じである場合、形状が規則的である。隣接するマスク間の距離が変化すると、マスクが不規則な形状になる。
【0030】
表現型予測器150(例えば、PrimateAI言語モデル)は、マスクされたMSA140を処理し、表現型予測160を生成し得る。一実施態様では、表現型予測160は、マスクされたMSA140におけるマスクされた残基の同一性を出力する。他の実施態様では、表現型予測160は、バリアント病原性予測、タンパク質コンタクトマップ生成、タンパク質機能性予測などのために使用され得る。
【0031】
本出願の一部分は、タンパク質を「配列」、「残基配列」、「アミノ酸配列」、及び「アミノ酸の鎖」と互換的に呼ぶことに留意されたい。また、本出願の一部分は、「アミノ酸」及び「残基」を互換的に使用することに留意されたい。更に、本出願の一部分は、「周期的間隔のマスクセット」、「周期的間隔のマスク」、「マスクグリッド」、「周期的間隔のマスクグリッド」、「周期的マスクパターン」、及び「固定マスクパターン」を互換的に使用することに留意されたい。
【0032】
図に示される配列は、アミノ酸残基を含むタンパク質配列である。他の実施態様では、配列は、代わりに、DNA、RNA、炭水化物、脂質、又は任意の他の直鎖状若しくは分岐状バイオポリマーを含み得る。
【0033】
図1を使用して高レベルで開示された技術を説明してきたが、次に、開示される周期的間隔のマスクグリッド、マスキング論理130の特定の実施態様について考察する。
【0034】
周期的間隔のマスクグリッド
図2は、開示される周期的間隔のマスクグリッド210をMSA220に適用し、開示される部分的にマスクされたMSA230を生成する一実施態様を示す。
【0035】
周期的間隔のマスクグリッド210の列は、残基位置に対応する。残基位置は、本明細書では順序位置とも呼ばれる。例えば、図2では、周期的間隔のマスクグリッド210は、9つの残基位置に対応する9つの列を有する(すなわち、r=9)。
【0036】
周期的間隔のマスクグリッド210は、マスクである要素(又はユニット又はトークン)を有する。図2では、そのようなマスク要素は、黒く塗りつぶされた「?」記号を有するボックスによって図示されている。周期的間隔のマスクグリッド210はまた、マスクではない要素(又はユニット若しくはトークン)を有する。図2では、そのような非マスク要素は、斜線パターンで塗りつぶされたボックスによって図示されている。
【0037】
周期的間隔のマスクグリッド210の行は、マスクである要素と、マスクではない要素とを含む。周期的間隔のマスクグリッド210の行は、本明細書ではマスク分布と呼ばれる。例えば、図2では、5つのマスク分布1~5(すなわち、m個のマスク分布、m=5)が存在する。
【0038】
各マスク分布は、k個の周期的間隔のマスクを有する。例えば、図2では、マスク分布1~4は、各々、3つのマスク(すなわち、k=3)を有し、マスク分布5は、2つのマスクを有する(すなわち、k=2)。
【0039】
マスク分布におけるk個の周期的間隔のマスクは、周期的間隔のマスクグリッド210内の第1の残基位置からの変動オフセットで始まるk個の順序位置にある。例えば、図2では、第1のマスク分布のk個の周期的間隔のマスクは、第3、第6、及び第9の順序位置に位置し、周期的間隔のマスクグリッド210内の第1の残基位置から2のオフセットで始まる。第2のマスク分布のk個の周期的間隔のマスクは、第1、第4、及び第7の順序位置に位置し、周期的間隔のマスクグリッド210内の第1の残基位置からゼロのオフセットで始まる。第3のマスク分布のk個の周期的間隔のマスクは、第2、第5、及び第8の順序位置に位置し、周期的間隔のマスクグリッド210内の第1の残基位置から1のオフセットで始まる。第4のマスク分布のk個の周期的間隔のマスクは、第3、第6、及び第9の順序位置に位置し、周期的間隔のマスクグリッド210内の第1の残基位置から2のオフセットで始まる。第5のマスク分布のk個の周期的間隔のマスクは、第4及び第7の順序位置に位置し、周期的間隔のマスクグリッド210内の第1の残基位置から3のオフセットで始まる。
【0040】
周期的間隔のマスクグリッド210内のマスクは、マスクがそれらの間に規則的な間隔を有し、規則的な間隔で繰り返す、すなわち、マスクが規則的間隔の繰り返しであるため、周期的である。周期的間隔のマスクグリッド210内のマスクもまた、マスクが順序付きパターンを有するため、周期的である。
【0041】
周期的間隔のマスクグリッド210内のマスクは、格子パターン、対角線パターン、六角形パターン、ダイヤモンドパターン、長方形パターン、正方形パターン、三角形パターン、凸パターン、凹パターン、及び/又は多角形パターンを有し得る。
【0042】
一実施態様では、周期的間隔のマスクグリッド210内のマスク分布の各々のk個の周期的間隔のマスクは、同じストライドを有する(例えば、図2ではストライド=3)。別の実施態様では、周期的間隔のマスクグリッド210内のマスク分布にわたるk個の周期的間隔のマスクは、対角線パターンを有する。他の実施態様では、ストライドは、16などの任意の数、又は8~64の範囲内、又はその範囲内若しくはその範囲の部分範囲内の任意の数であり得る。本明細書で使用される場合、「ストライド」という用語は、隣接するマスク間の距離を指す。
【0043】
他の実施態様では、周期的間隔のマスクグリッド210内のマスクは、準周期的であり、それにより、マスクは、順序付きパターンを有するが、マスクは、精密に規則的な間隔で繰り返されない。
【0044】
次に、図3及び図4を参照して、PrimateAI言語モデルによる処理のためにマスクがどのようにエンコードされるかの詳細を考察する。図3及び図4を説明した後、考察は、図2に戻り、開示される部分的にマスクされたMSAがどのように生成されるかを考察することになる。
【0045】
マスク
マスクトークンは、マスクを定義する。マスクトークンは、マスクトークンが適用されるMSA内の元の残基を隠蔽又は置換するように構成されている。マスクトークンは、マスクトークンが、20個の天然由来の残基を定義するために使用される20個の残基トークンとは異なるという意味で、特別又は補助トークンである。マスクトークンはまた、ギャップ残基を定義するために使用されるギャップ残基トークンとは異なる。ギャップ残基は、その同一性が解明されていない(又は未知である)残基であり、したがって、ギャップ残基は、21個の既知の残基のいずれにも確実には分類されない。ギャップ残基は、ギャップ残基トークンによってエンコードされる。
【0046】
マスクトークンは、マスクトークンを第22の残基としてエンコードするように20個の残基トークン及びギャップ残基トークンを定義する同じエンコーディング論理によって定義され得る。
【0047】
図3は、20個の残基ワンホットベクトル301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、及び320、ギャップ残基ワンホットベクトル321、並びにマスクワンホットベクトル322に対して定義されるワンホットトークン300の一実施態様を示す。ワンホットトークン300は、ビットのうちの1つがホット(すなわち、1)であるが、他が0である、22ビットのバイナリベクトルでエンコードされる。いくつかの実施態様では、ワンホットエンコーダ(図示せず)がワンホットトークン300を生成する。
【0048】
図4は、20個の残基チャネル埋め込みセット401、402、403、404、405、406、407、408、409、410、411、412、413、414、415、416、417、418、419、及び420、ギャップチャネル埋め込みセット421、並びにマスクチャネル埋め込みセット422に対して定義されるチャネル埋め込み400(又は学習された埋め込み)の一実施態様を例示する。チャネル埋め込み400は、21個の既知の残基に及ぶ。チャネル埋め込みセット421は、ギャップ残基に及ぶ。マスクチャネル埋め込みセット422は、マスク残基に及ぶ。チャネル埋め込み400は、高さ次元、幅次元、及び深さ次元を有するテンソルであり、各チャネル埋め込みセットは、N個のチャネル埋め込みを含み得、Nは、94などの整数である。
【0049】
いくつかの実施態様では、埋め込み生成器(図示せず(例えば、多層パーセプトロン))が、チャネル埋め込み400を生成する。
【0050】
いくつかの実施態様では、埋め込み生成器は、チャネル埋め込み400を学習及び生成するためにPrimateAI言語モデルとともに訓練され得る。推論中に、ルックアップテーブルは、ワンホットトークン300とチャネル埋め込み400との間のマッピングを記憶し得る。ルックアップテーブルは、残基トークン、ギャップトークン、及びマスクトークンを対応するチャネル埋め込みと置換するために、推論中にアクセスされ得る。
【0051】
他の実施態様では、マスクトークン(例えば、ワンホット又はチャネル埋め込み)のエンコーディングは、様々な因子に応じて変動し得る。例としては、マスクの場所(すなわち、残基位置)、マスクが適用される残基型、マスクが適用される配列型、マスクが適用される配列番号、及びマスクが適用される配列の種型が挙げられる。
【0052】
他の実施態様では、マスクトークンは、他のスキームを使用してエンコードされ得る。例としては、定量又は数値データ型、定性データ型、離散データ型、連続データ型(下限及び上限を有する)、整数データ型(下限及び上限を有する)、公称データ型、順序又はランク付きデータ型、カテゴリデータ型、間隔データ型、及び比率データ型が挙げられる。例えば、エンコーディングは、複数ビット、0と1との間の実数値、浮動小数点数などの連続値、0と256との間の赤、緑、青(Red,Green,Blue、RGB)値、CSSカラーの16進値(例えば、#F0F8FF)、CSSカラーのカテゴリカルカラー値、他のCSSプロパティグループ及びプロパティのそれぞれの値、特定の寸法のサイズ(例えば、高さ及び幅)、異なる値及びデータ型のセットなどに基づくか、又はそれらの任意の組み合わせに基づき得る。
【0053】
ここで、考察は、図2に戻り、開示される部分的にマスクされたMSAがどのように生成されるかを考察する。
【0054】
部分的にマスクされたMSA
MSA220は、p個の行及びr個の列を有する。p個の列は、p個のタンパク質配列に対応する。r個の列は、r個の残基位置に対応する(例えば、図2ではr=16)。周期的間隔のマスクグリッド210は、MSA220とは異なる数の行及び列(すなわち、異なる形状)を有し得る。いくつかの実施態様では、周期的間隔のマスクグリッド210は、MSA220と同じ数の行及び列(すなわち、同じ形状)を有し得る。
【0055】
周期的間隔のマスクグリッド210は、MSA220上の任意の場所に適用(又はオーバーレイ)され得る(212)。例えば、周期的間隔のマスクグリッド210は、周期的間隔のマスクグリッド210が、関心対象位置216(赤色)に関心対象残基214(赤色)を含むMSA220の特定の列を中心とするように適用され得る。別の例では、周期的間隔のマスクグリッド210は、周期的間隔のマスクグリッド210が、関心対象位置216に関心対象残基214を含むMSA220の特定の行(例えば、図2の配列1のようなクエリ配列)に配置されるように、適用され得る。
【0056】
一実施態様では、周期的間隔のマスクグリッド210は、配列222(例えば、図2では5つの配列)のウィンドウに及ぶ、MSA220内の配列サブセットに適用される。いくつかの実施態様では、周期的間隔のマスクグリッド210は、左隣接様式又は右隣接様式でMSA220上に適用され得る。他の実施態様では、周期的間隔のマスクグリッド210は、MSA220の部分(例えば、象限)を同時に又は順次横断して、部分ごとにMSA220上に適用され得る。
【0057】
周期的間隔のマスクグリッド210の非マスク要素がオーバーレイされるMSA220の残基は、不変のままであり、本明細書ではマスクされていない残基と呼ばれる。逆に、周期的間隔のマスクグリッド210のマスク要素がオーバーレイされるMSA220の残基は、マスクトークンに変化し、本明細書ではマスクされた残基と呼ばれる。
【0058】
マスクされていない残基及びマスクされた残基の組み合わせ又は集約は、部分的にマスクされたMSA230を形成する。部分的にマスクされたMSA230は、マスクされていないいくつかの残基及びマスクされているいくつかの残基を含むMSAとして定義され得る。部分的にマスクされたMSA230はまた、マスクされた残基を含むいくつかの配列、及びいかなるマスクされた残基も含まないいくつかの配列を含む、MSAとして定義され得る。
【0059】
部分的にマスクされたMSA230の一部分(又はパッチ)は、トリミング(又は選択若しくは抽出)されて、トリミングされた部分232を生成し得る(図2の青色の破線の輪郭)。いくつかの実施態様では、トリミングされた部分232は、(i)配列222のウィンドウ内のマスクされた残基と、(ii)トリミングされた部分232の境界と一致する(又はそれを画定する)近傍内のマスクされた残基に連続的に隣接するいくつかのマスクされていない残基と、(iii)配列222のウィンドウを越えて延在し、いかなるマスクされた残基も含まないいくつかの追加の配列の一部分と、を含み得る。
【0060】
MSAトリミング、パディング、及びマスキング
図5は、開示される技術の様々な実施態様による、MSA500のトリミング、パディング、及びマスキングを示す。図5では、クエリ配列における関心対象位置における関心対象残基が、Xによって示され、マスク場所が、黒色の塗りつぶしによって示され、パディングが、灰色の塗りつぶしによって示され、トリミング領域が、黒色の破線によって示される。これらの例では、マスクストライドが3であり、トリミングウィンドウ幅が6残基である。
【0061】
パネルAでは、MSAエッジから離れて、関心対象位置は、トリミング領域の中心の右側にある。パネルBでは、トリミング領域は、MSAエッジを越えることを回避するために関心対象位置の右にシフトされる。パネルCでは、短いタンパク質のためのMSAが、トリミング領域を埋めるためにパディングされる。パネルDでは、トリミング領域は、パディングを最小化するために関心対象位置の右にシフトされ、MSAは、トリミング領域を埋めるためにパディングされる。
【0062】
いくつかの実施態様では、関心対象位置は、訓練中にクエリ配列内の位置からランダムにサンプリングされるか、又は推論中にユーザによって選択される。関心対象位置に関する情報を最大化するために、いくつかの実施態様では、関心対象位置が中心になるように、256個の残基のサイズを有するトリミングウィンドウが選択される。しかしながら、トリミングウィンドウは、関心対象位置がMSAのエッジの近くにある場合、ゼロをパディングすることを回避し、関心対象位置に関する情報を増加させるためにシフトされ得る。クエリ配列がトリミングウィンドウよりも短い場合、ウィンドウサイズを埋めるためにゼロがパディングされ得る。
【0063】
いくつかの実施態様では、タンパク質長Lがクエリ配列より短い場合、より小さい確率ρsampleが、訓練中にサンプリングされるMSAに割り当てられ、例えば、
【0064】
【数1】
である。この割り当ては、訓練に使用されるUniRef50タンパク質及びヒトタンパク質に対する長さの分布を再平衡化し、パディングに対する計算の浪費も防止する。
【0065】
訓練に使用されるUniRef50タンパク質は、多くの場合、短い配列を有するが、それに対して、ヒトタンパク質の大部分は、長い配列を有する。図16は、UniRef50 HHblits MSAとヒトHHblits MSAとの間の比較を例示する。UniRef50 HHblits MSAにおけるタンパク質の多くは、短い配列を有するが、一方で、MSAのうちの少数のヒトタンパク質のみが短い。したがって、短い及び長いタンパク質のサンプリングされた分布がヒトタンパク質の分布により近くなるように、訓練中のより長いUniRef50タンパク質のサンプリングが増加し得る。長い配列のUniRef50タンパク質のサンプリングを増加させることは、計算効率も増加させる。短い配列のUniRef50タンパク質のみを入力として使用する場合、入力は、固定入力形状までパディングされることになり、これは、訓練プロセス中の計算が、モデル最適化に勾配を追加するのではなくパディングに浪費されることを意味する。
【0066】
MSAの第1の配列に含まれることになる非クエリ配列をサンプリングする確率もまた、調整され得る(例えば、f=32)。一実施態様では、周期的間隔のマスクグリッド210は、第1の配列におけるギャップの発生にペナルティを科すように適用される。非クエリ配列がマスクされる確率ρmaskは、ギャップトークンの数の増加とともに減少し、例えば、
【0067】
【数2】
である。かなりの数のギャップを有する配列のダウンサンプリングは、MSAにおける欠落データの画分を低減する。
【0068】
MSA表現
図6は、開示されるMSA表現を生成する(600)一実施態様を図示する。パネルAは、MSA220を示す。パネルBは、部分的にマスクされたMSA230を示す。この例では、周期的間隔のマスクグリッド210は、MSA220の最初の4つの配列に適用され、3のストライドを有する。部分的にマスクされたMSA230は、周期的間隔のマスクグリッド210をMSA220に適用した結果として生成される。パネルCでは、部分的にマスクされたMSA230におけるマスクされていない残基及びマスクされた残基が、チャネル埋め込み400のうちの対応するもので置換される。一実施態様では、チャネル埋め込み400のうちの対応するものは、残基列のための位置埋め込みと合計される。位置埋め込みは、PrimateAI言語モデルの訓練中に学習及び生成され得る。チャネル埋め込み400のうちの対応するものと位置埋め込みとの合計が、チャンク640に分割される。パネルDでは、チャンク640は、チャネル次元でスタック660に連結され、次いで、線形射影(670)されて、MSA表現680を形成する。いくつかの実施態様では、線形射影670は、複数の一次元(1D)畳み込みフィルタを使用する。
【0069】
チャネル埋め込み400はまた、本明細書では、学習された埋め込みとも呼ばれる。一実施態様では、部分的にマスクされたMSA230内のマスクされた残基及びマスクされていない残基は、マスクされた残基及びマスクされていない残基に対応する学習された埋め込みを記憶するルックアップテーブルを使用することによって、学習された埋め込みに変換される。
【0070】
位置埋め込みはまた、本明細書では、残基位置埋め込みとも呼ばれる。チャネル埋め込み400のうちの対応するもの及び位置埋め込みの合計は、本明細書では、部分的にマスクされたMSA230の埋め込まれた表現とも呼ばれる。学習された埋め込みは、埋め込まれた表現を生成するために残基位置埋め込みと連結される。
【0071】
埋め込まれた表現は、一連のチャンク640にチャンク化される。一連のチャンク内のチャンクは、スタック660に連結される。
【0072】
MSA表現680は、本明細書では、埋め込まれた表現の射影(又は圧縮)された表現とも呼ばれる。射影された表現は、m個の行及びr個の列を有する。スタック660は、一実施態様によると、畳み込み演算を使用することによって射影された表現に変換される。射影された表現は、この段階ではデータを小さくする意味で圧縮されるわけではないことに留意されたい。行をスタックしなかった場合、射影された表現は、埋め込まれた表現と比較して「圧縮」又は「小さく」され、これが、行スタッキングが計算要件を低下させる理由である。しかしながら、射影された表現は、特徴次元に関してモデル入力よりも小さくない。
【0073】
一実施態様では、固定マスクパターンは、MSAの最初の32個の配列に適用される。MSAトークンは、学習された96チャネル埋め込みによってエンコードされ、これは、層正規化の前に残基列について学習された96チャネル位置埋め込みと合計される。計算要件を低減するために、MSA内の1024個の配列に対する埋め込みは、配列軸に沿って周期的間隔で、各々が32個の配列を含む32個のチャンクに分割される。次いで、これらのチャンクは、チャネル次元において連結され、線形射影によって混合される。本出願の文脈では、チャンクは、MSAの異なる非重複行と呼ばれ得る。他の実施態様では、MSAは、列ごと、又は何らかの他の不規則なパターンなどの、他の方式で「チャンク化」され得る。
【0074】
PrimateAI言語モデル
図7は、PrimateAI言語モデルの例示的なアーキテクチャ700を例示する。PrimateAI言語モデルは、軸方向アテンションブロック710(例えば、12個の軸方向アテンションブロック)のカスケードを含む。軸方向アテンションブロック710のカスケードは、MSA表現680を入力として受け取り、更新されたMSA表現720を出力として生成する。各軸方向アテンションブロックは、結合された行方向ゲート付き自己アテンション層712と、結合された列方向ゲート付き自己アテンション層714と、遷移層716とを追加する残基を含む。
【0075】
一実施態様では、結合された行方向ゲート付き自己アテンション層712内に12個のヘッドが存在する。一実施態様では、結合された列方向ゲート付き自己アテンション層714内に12個のヘッドが存在する。各ヘッドは、64個のチャネルを生成し、12個のヘッドにわたってチャネルを合計する(768)。一実施態様では、遷移層716は、GELU活性化のために最大3072個のチャネルを射影する。
【0076】
本技術は、三角形アテンションの代わりに、結合されたアテンションを含むように、修正された軸方向ゲート付き自己アテンションを開示した。三角形アテンションは、高い計算コストを有する。結合されたアテンションは、非パディング行にわたる、キーと値との間のドット積類似性の合計を、非パディング行の数の平方根によって除算したものであり、これは、計算負荷を実質的に低減する。
【0077】
次に、開示されるマスク表出について考察する。
【0078】
マスク表出
マスク表出は、軸方向アテンションブロック710のカスケードの後に他のマスク場所における未知の値を表出させる。マスク表出は、マスク部位と整列した特徴を集める。行内の各マスクされた残基に対して、マスク表出は、その行内の他のマスクされた場所にある埋め込まれた標的トークンを表出させる。
【0079】
マスク表出は、更新されたMSA表現720としての更新された768チャネルMSA表現を、マスクトークンの位置をラベル付けするブールマスク770によって示される場所における96チャネル標的の埋め込まれた表現(トークン埋め込み)690と組み合わせる。ストライド16を有する固定マスクパターンであるブールマスク770は、マスクトークン場所におけるMSA表現及び標的トークン埋め込みから特徴を収集するために行方向に適用される。
【0080】
特徴収集は、行の長さを256から16に低減し、これは、マスク表出に続くアテンションブロックの計算コストを劇的に減少させる。収集されたMSA表現の各行内の各場所について、行は、収集された標的トークン埋め込みからの対応する行と連結され、その場所もまた、標的トークン埋め込みにおいてマスクされる。MSA表現及び部分的に表出した標的埋め込みは、チャネル次元において連結され、線形射影によって混合される。
【0081】
マスク表出730の後、ここで通知されたMSA表現740は、残りの行方向ゲート付き自己アテンション層(例えば、行方向ゲート付き自己アテンション層750及び行方向ゲート付き自己アテンション層756)並びに遷移層754を通じて伝播される。PrimateAI言語モデルへの入力として提供されるMSA表現680からの他の位置について残基が既知であるため、アテンションは、マスク場所における特徴にのみ適用される。したがって、アテンションは、マスク表出から新しい情報が存在するマスク場所に適用されることのみを必要とする。図7の繰り返しループ752によって示されるように、場合によっては、遷移層754及び行方向ゲート付き自己アテンション層756が4回繰り返され得る。
【0082】
自己アテンションによるマスク表出の解釈の後、マスクされた収集演算760は、標的トークン埋め込みがマスクされたままである位置において、結果として生じるMSA表現から特徴を収集する。収集されたMSA表現772は、出力ヘッド780によって、アミノ酸及びギャップトークン語彙における21個の候補についての予測790に変換される。出力ヘッド780は、遷移層及びパーセプトロンを含む。
【0083】
図8は、開示されるマスク表出の詳細800を示す。マスク表出は、その後の訓練中により多くの情報を可能にし、関心対象の各残基を予測する正確度を改善する。
【0084】
第1のステップは、ドットによってマークされたマスク場所802、860における全てのトークンを収集すること(804、830、862)である。収集という用語は、本明細書では集約という用語と互換的に使用される。これは、更新されたMSA表現720、周期的間隔のマスクグリッド210、及び埋め込まれた表現(埋め込みトークン)690内のトークンに対して行われる。
【0085】
図8では、破線及び色は、MSAタイル806及び埋め込みタイル844がどのように選択されるかを示す。特徴収集は、行の長さを256から16(図8では6から2)に低減し、これは、マスク表出に続くアテンションブロックの計算コストを劇的に減少させる。収集された表現の各々は、行内のマスクの数だけタイル化又は複製/クローン化される(808、830、866)。図8に示される例では、1行当たり2つのマスクが存在する。したがって、それぞれ、クローニング808及び866の結果として、クローン化されたMSAタイル810及び埋め込みタイル870におけるクローンとして連結される2つのタイルが存在する。
【0086】
マスク表出830は、単一の位置にあるマスクを除いたタイル内の全てのマスクの除去である。収集されたマスクの上部タイルは、第1の関心対象位置834においてマスクされ、全ての他の関心対象位置836においてマスクされない。第2のタイルは、第2の関心位置838においてマスクされ、他の全ての関心位置832においてマスクされない。マスク表出は、行内の各マスクされた位置について行内の他のトークンを表出させる。いくつかの実施態様では、位置は、訓練及び推論の両方において同じ方式でマスクされる。これは、推論中に関心対象位置をマスクするだけに変更するよりも高い性能をもたらす。入力内の関心対象の位置の場所は、例えば、関心対象の場所がマスクの中心にあるとき、PrimateAI言語モデルによって処理される入力内により多くのMSAの隣接列が含まれるため、入力情報を最大化するように選択される。
【0087】
次に、マスク表出830後の残りのマスクが埋め込みタイル844に適用されて(868)、クローン化されマスクされた埋め込みタイル870を生成する。クローン化されマスクされた埋め込みタイル870は、クローン化されたMSAタイル810と連結されて(872)、連結タイル873を生成する。連結されたタイル873は、線形射影されて(874)、通知されたMSA表現740を生成する。
【0088】
PrimateAI言語モデル構成要素及び訓練
図9は、一実施態様による、PrimateAI言語モデルの様々な構成要素900を示す。構成要素は、結合された行方向ゲート付き自己アテンション、行方向ゲート付き自己アテンション、及び列方向ゲート付き自己アテンションを含み得る。PrimateAI言語モデルはまた、結合されたアテンションを使用し得る。軸方向アテンションは、入力の行及び列ごとに独立したアテンションマップを作成する。MSAにおける配列は、通常、類似の三次元構造を有する。直接結合分析は、この事実を利用して構造的接触情報を学習する。この共有構造を活用するために、MSA内の配列間で行アテンションマップを結合することが有益である。追加の利点として、結合されたアテンションは、行アテンションのメモリフットプリントを低減する。
【0089】
再計算を伴う実施態様では、結合されたアテンションは、行アテンションのメモリフットプリントをO(ML)からO(L)に低減する。Mを行数とし、dを隠れた次元とし、Q、Kを入力のm番目の行に対するクエリ及びキーの行列とする。結合された行アテンションは、ソフトマックスが適用される前に、以下のように定義される。
【0090】
【数3】
【0091】
最終モデルは、平方根正規化を使用する。他の実施態様では、モデルは、平均正規化を使用し得る。そのような実施態様では、分母1(M,d)は、標準的なスケーリングされたドット積アテンションにおける正規化定数
【0092】
【数4】
である。そのような実施態様では、結合された行アテンションの場合、入力配列の数とともにアテンション重みが線形にスケーリングすることを防止するために、2つの正規化関数、すなわち、
【0093】
【数5】
(平均正規化)及び
【0094】
【数6】
(平方根正規化)が使用される。
【0095】
図9では、次元は、配列s=32、残基、r=256、アテンションヘッド、h=12、並びにチャネル、c=64及びcMSA=768について示されている。
【0096】
一実施態様では、PrimateAI言語モデルは、4つのA100グラフィック処理ユニット(graphical processing unit、GPU)上で訓練され得る。オプティマイザステップは、80MSAのバッチサイズのためのものであり、バッチを40GBのA100メモリに適合させるために、4つの勾配集約に分割される。PrimateAI言語モデルは、以下のパラメータ:β_1=0.9、β_2=0.999、∈=10-6、及び0.01の重み減衰を使用して、LAMBオプティマイザで訓練される。勾配は、LAMBオプティマイザを適用する前に、それらのグローバルL2ノルムによる除算によって事前正規化される。訓練は、確率0.1によるドロップアウトによって正規化され、これは、アクティブ化の後、かつ残基接続の前に適用される。
【0097】
図17は、勾配事前標準化を伴うLAMBオプティマイザを使用するPrimateAI言語モデルの訓練を例示する。残基ブロックは、収束を加速し、PrimateAI言語モデルを可能にする同一性演算として開始される。「AdamW」は、重み減衰を伴うADAMオプティマイザを指し、「ReZeRO」は、ゼロ冗長性オプティマイザを指し、「LR」は、勾配事前正規化を伴うLAMBオプティマイザを指す。Large Batch Optimization for Deep Learning Training BERT in 76 minutes,Yang You,Jing Li,Sashank Reddi,et al.,International Conference on Learning Representations(ICLR)2020を参照されたい。例示されるように、勾配事前標準化を伴うLAMBオプティマイザは、ADAMWオプティマイザ及びゼロ冗長性オプティマイザの使用と比較して、より良好な性能(例えば、より少ない訓練反復にわたるより高い正確度レート)を示し、学習レートの範囲に対してより効果的である。
【0098】
軸方向ドロップアウトは、残留接続の前に自己アテンションブロックに適用され得る。列方向アテンションにおけるソフトマックス後空間ゲーティングの後に、列方向ドロップアウトが続き、一方で、行方向アテンションにおけるソフトマックス後空間ゲーティングの後に、行方向ドロップアウトが続く。ソフトマックス後空間ゲーティングは、ソフトマックスによって生成された指数関数的に正規化されたスコア又は確率に対する変調を可能にする。
【0099】
一実施態様では、PrimateAI言語モデルは、100,000個のパラメータ更新のために訓練され得る。学習率は、最初の5,000ステップにわたって、η=5×10-6からη=5×10-4のピーク値まで線形に増加し、次いで、η=10-4まで線形に減衰する。自動混合精度(Automatic mixed precision、AMP)は、訓練及び推論中に32ビット精度から16ビット精度までの好適な演算をキャストするために適用され得る。これは、性能に影響を与えることなく、スループットを増加させ、メモリ消費を低減する。加えて、ゼロ冗長性オプティマイザは、複数のGPUにわたってオプティマイザ状態をシャーディングすることによって、メモリ使用量を低減した。
【0100】
表出出力ヘッド
図10は、開示されるPrimateAI言語モデルによって使用され得る表出出力ヘッド780の一実施態様を示す。収集されたMSA表現772は、出力ヘッド780によって、ギャップトークンを含むアミノ酸語彙内の21個の候補の予測790に変換され得る。一実施態様では、アミノ酸語彙が列挙され得、アミノ酸列挙は、学習された埋め込みの辞書にインデックス付けするために使用される。他の実施態様では、アミノ酸のワンホット埋め込みが使用され、線形射影と組み合わせられ得る。いくつかの実施態様では、表出出力ヘッド780は、遷移層1002と、ゲート1004と、層正規化ブロック1006と、線形ブロック1008と、GELUブロック1010と、別の線形ブロック1012と、を備え得る。次元は、チャネルcMSA=768、及び語彙サイズ、v=21について示されている。
【0101】
方法
図11は、開示される技術の一実施態様による、PrimateAI言語モデルの論理フローのコンピュータ実装方法1100である。
【0102】
アクション1102では、多重配列アラインメント(MSA)220がアクセスされ得る。MSAは、p個の行及びr個の列を有し得る。p個の行は、p個のタンパク質配列に対応し得る。r個の列は、r個の残基位置に対応し得る。
【0103】
アクション1104では、周期的間隔のマスクグリッド210がアクセスされ得る。周期的間隔のマスクグリッド210は、m個のマスク分布を有し得る。m個のマスク分布の各々は、マスクグリッド内の第1の残基位置からの様々なオフセットで始まるk個の順序位置にk個の周期的間隔のマスクを有し得る。
【0104】
アクション1106では、m個のマスク分布が、p個のタンパク質配列中のm個のタンパク質配列に適用されて、マスクされた残基及びマスクされていない残基を含む部分的にマスクされたMSA230を生成し得、p>mである。様々な実施態様では、p>=mである。
【0105】
アクション1108では、マスクされた残基及びマスクされていない残基は、チャネル埋め込み400(又は学習された埋め込み)に変換され得、チャネル埋め込み400(又は学習された埋め込み)は、部分的にマスクされたMSA230の埋め込まれた表現(埋め込みトークン)690を生成するために、残基位置埋め込みと連結され得る。
【0106】
アクション1110では、埋め込まれた表現(埋め込みトークン)690が、一連のチャンク640にチャンク化(又は分割)され得、一連のチャンク640中のチャンクが、スタック650に連結され得、スタック650が、埋め込まれた表現(埋め込みトークン)690のMSA表現680としての圧縮された表現に変換され得る。MSA表現680としての圧縮された表現は、m個の行及びr個の列を有し得る。
【0107】
アクション1112では、軸方向アテンション(例えば、軸方向アテンションブロック710による)は、圧縮された表現のm個の行及びr個の列にわたって反復的に(又は連続的に)適用され得、適用された軸方向アテンションは、MSA表現680として圧縮された表現の(又はそれからの)更新されたMSA表現720を生成するためにインターリーブされ得る(遷移層を用いて)。更新されたMSA表現720は、m個の行及びr個の列を有し得る。
【0108】
アクション1114では、k個の更新された表現タイル(例えば、クローン化されたMSAタイル810)が、更新されたMSA表現720から集約され得る。k個の更新された表現タイル(例えば、クローン化されたMSAタイル810)の各々は、マスクされた残基に対応する、更新されたMSA表現720の更新された表現特徴を含み得る。k個の更新された表現タイルの各々は、m個の行及びk個の列を有し得る。MSAタイル806の所与の更新された表現タイルのk個の列中の所与の列は、更新された表現特徴のそれぞれのサブセットを含み得る。それぞれのサブセットは、k個の順序位置における所与の順序位置に位置し得る。所与の順序位置は、所与の列によって表され得る。
【0109】
アクション1116では、k個の更新された表現タイル(例えば、クローン化されたMSAタイル810)に対応するk個の埋め込みタイル870は、埋め込まれた表現(埋め込みトークン)690から集約され得る。k個の埋め込みタイル844の各々は、マスクされた残基の変換である、一連のチャンクのうちの第1のチャンクにおける埋め込み特徴を含み得る。k個の埋め込みタイルの各々は、m個の行及びk個の列を有し得る。所与の埋め込みタイルのk個の列における所与の列は、埋め込み特徴のそれぞれのサブセットを含み得る。それぞれのサブセットは、k個の順序位置における所与の順序位置に位置し得る。所与の順序位置は、所与の列によって表され得る。
【0110】
アクション1118では、k個のブールタイル(例えば、第1の関心対象点834及び第2の関心対象点838にある)は、k個の埋め込みタイルに適用されて、k個のブール化(部分的に表出した)埋め込みタイルを生成し得る。k個のブールタイルの各々は、m個の行及びk個の列を有し得る。k個のブールタイルの各々は、k個の埋め込みタイルのうちの対応する1つにおけるk個の列のうちの対応する1つの隠蔽を引き起こし得るとともに、k個の埋め込みタイルのうちの対応する1つにおけるk個の列における他のものの表出を引き起こし得る。k個のブール化埋め込みタイルの各々は、m個の行及びk個の列を有し得る。
【0111】
アクション1120では、k個のブール化(部分的に表出した)埋め込みタイル870は、k個の連結されたタイル873を生成するために、k個の更新された表現タイル(例えば、クローン化されたMSAタイル810)と連結され得、k個の連結されたタイル873は、k個の連結されたタイル873のk個の圧縮されたタイル表現(通知されたMSA表現740)に変換され得る。k個の圧縮されたタイル表現の各々は、m個の行及びk個の列を有し得る。
【0112】
アクション1122では、自己アテンション(例えば、行方向ゲート付き自己アテンション層750、遷移層754、及び行方向ゲート付き自己アテンション層756)は、k個の圧縮されたタイル表現740に反復的に適用されて、k個のブールタイルによって表出されるk個の埋め込みタイルにおける埋め込み特徴に対応するk個の圧縮されたタイル表現における圧縮されたタイル特徴の解釈を生成し得る。
【0113】
アクション1124では、k個のブールタイルによって隠蔽されるk個の埋め込みタイルにおける埋め込み特徴に対応する解釈された特徴が、解釈から集約されて、解釈の集約された表現(収集されたMSA表現772)を生成し得る。集約された表現は、m個の行及びk個の列を有し得る。
【0114】
アクション1126では、収集されたMSA表現772は、マスクされた残基の同一性(例えば、予測790)に変換されている可能性がある。
【0115】
システム
図12は、開示される技術の一実施態様による、PrimateAI言語モデルを実装するように構成されるシステム1200である。
【0116】
メモリ1202は、複数のマスクされた残基を有する多重配列アラインメント(MSA)を記憶し得る。
【0117】
チャンク化論理1204は、MSAを一連のチャンクにチャンク化するように構成され得る。
【0118】
第1のアテンション論理1206は、一連のチャンクの表現に注目し、第1のアテンション出力を生成するように構成され得る。
【0119】
第1の集約論理1208は、複数のマスクされた残基中のマスクされた残基に対応する第1のアテンション出力における特徴を含む第1の集約された出力を生成するように構成され得る。特徴は、一実施態様では、MSAにおけるアミノ酸のワンホットエンコーディングなどの、MSAの要素を含む。
【0120】
マスク表出論理1210は、第1の集約された出力と、サブセットごとに、マスクされた残基の所与のサブセットを隠蔽することとマスクされた残基の残りのサブセットを表出させることとを交互に行うブールマスクとに基づいて、通知された出力を生成するように構成され得る。
【0121】
第2のアテンション論理1212は、通知された出力に注目し、ブールマスクによって表出された、マスクされた残基に基づいて、第2のアテンション出力を生成するように構成され得る。
【0122】
第2の集約論理1214は、ブールマスクによって隠蔽されたマスクされた残基に対応する第2のアテンション出力における特徴を含む第2の集約された出力を生成するように構成され得る。
【0123】
出力論理1216は、第2の集約された出力に基づいて、マスクされた残基の特定を生成するように構成され得る。
【0124】
要約すると、いくつかの実施形態では、システムは、多重配列アラインメント(MSA)をチャンクにチャンク化(又は分割)するチャンク化論理と、チャンクの表現に注目し、第1のアテンション出力を生成する、第1のアテンション論理と、複数のマスクされた残基中のマスクされた残基に対応する第1のアテンション出力における特徴を含む第1の集約された出力を生成する、第1の集約論理と、第1の集約された出力及びブールマスクとに基づいて、通知された出力を生成する、マスク表出論理と、通知された出力に注目し、ブールマスクによって表出された、マスクされた残基に基づいて、第2のアテンション出力を生成する、第2のアテンション論理と、ブールマスクによって隠蔽されたマスクされた残基に対応する第2のアテンション出力における特徴を含む第2の集約された出力を生成する、第2の集約論理と、第2の集約された出力に基づいて、マスクされた残基の特定を生成する、出力論理と、を備える。
【0125】
発明性及び非自明性の客観的な指標
図13は、EVE(J.Frazer et al.,Disease variant prediction with deep generative models of evolutionary data.Nature 599,91-95(2021)(Evolutionary model of Variant Effect)「EVE」でラベル付けされている)モデルの複製されたVAE部分及びそれらの合算スコア(「PrimateAI LM+EVE-only」でラベル付けされている)と比較した、PrimateAI言語モデル(language model、LM)の言語モデリング部分の性能評価1300を示す。性能は、競合的教師なし方法(ESMlv、SIFT、LIST-S2)の選択と更に比較される。左上から開始する時計回り方向において、個々のパネルは、DDD対UKBB、Assays、ClinVar、ASD、CHD、DDD、及びUKBBについての評価に対応する。Assays及びUKBBについては、要約統計量は、スコアと病原性の実験的尺度、すなわち、平均表現型(UKBB)又はアッセイスコア(Assay)との間の相関の絶対値(|corr|)に関して与えられる。DDDについて、本発明者らは、全てのデータセットにわたる対照及び症例分布についてのウィルコクソン順位和のP値を計算する。ClinVarについて、本発明者らは、全ての遺伝子にわたって平均化されたAUCを測定する。
【0126】
評価データセット
飽和突然変異誘発アッセイ
PrimateAI言語モデルの性能を、以下の9つの遺伝子:アミロイド-ベータ、YAP1、MSH2、SYUA、VKOR1、PTEN、BRCA1、TP53、及びADRB2について深層変異スキャンアッセイを使用して比較する。TPMT、RASH、CALM1、UBE2I、SUM01、TPK1、及びMAPK1を含む、いくつかの分類子の予測スコアが利用できない遺伝子の数個のアッセイは、評価分析から除外される。KRAS(異なる転写配列に起因する)、SLCO1B1(137バリアントのみ)、及びアミロイド-ベータのアッセイもまた、除外される。PrimateAI言語モデルの性能は、各アッセイについて個々にモデル予測スコアとアッセイスコアとの間の絶対スピアマン順位相関を計算し、次いで、全てのアッセイにわたって平均をとることによって評価される。
【0127】
UK Biobank
UK Biobank(UKBB)データセットは、100個の遺伝子にわたって61個の表現型を含む。全ての方法の共通のバリアントについて評価することは、数を、42個の遺伝子にわたって41個の表現型に低減する。遺伝子/表現型の各対について、予測された病原性スコアと定量的表現型スコアとの間の絶対スピアマン順位相関を計算する。少なくとも10個のバリアントを有する遺伝子/表現型対のみを評価に含めた(16個の遺伝子にわたって14個の表現型)。これにより、評価がこの閾値の選択に対してロバストであることが確認された。
【0128】
ClinVar
ClinVarミスセンスバリアントの臨床ラベルを良性又は病原性として分類する際のPrimateAI言語モデルの性能をベンチマークする。「良性」及び「良性である可能性が高い」とラベル付けされたバリアントは、両方、良性とみなされ、「病原性」及び「病原性である可能性が高い」ラベル付けされたバリアント(両方、病原性とみなされる)についても同じである。高品質のラベルを確保するために、1つ星以上のレビューステータス(「提供された基準、単一の提出者」、「提供された基準、複数の提出者、矛盾なし」、「専門家パネルによってレビューされた」、「診療ガイドライン」を含む)を有するClinVarバリアントのみを含める。これは、バリアントの数を、病原性については36,705から22,165に、良性クラスについては41,986から39,560に低減した。各遺伝子について、レシーバー動作特性曲線下面積を計算し、次いで、全遺伝子にわたる平均AUCを報告する。
【0129】
DDD/ASD/CHDデノボミスセンスバリアント
臨床設定における深層学習ネットワークの性能を評価するために、自閉症スペクトラム障害(autism spectrum disorder、ASD)及び発達障害(developmental disorder、DDD)を含む、知的障害に関する公開された研究からのデノボ変異を得る。ASDは、少なくとも1つのデノボミスセンス(de novo missense、DNM)変異を有する2,127人の患者を含んでいた。まとめると、合計3,135個のDNM変異が存在する。これは、少なくとも1つのDNMバリアント及び合計558個のDNMバリアントを有する517人の患者まで、全ての方法がそれらのバリアントについての予測を有することを要求した後、低減した。DDDでは、17,952人の患者が少なくとも1つのデノボミスセンスバリアントを有し(合計26,880個のバリアント)、全ての方法の予測の利用可能性を要求した後、5,872人の患者(6,398個のバリアント)まで低減した。1,342人の患者からの1,839個のデノボミスセンスバリアントからなる、先天性心疾患(congenital heart disorder、CHD)を有する患者からのDNMバリアントセットが得られる(全ての方法の予測の利用可能性を要求した後、299人の患者からの314個のバリアントまで低減する)。罹患患者由来のデノボバリアントの全3つのデータセットについて、健常対照由来のDNMバリアントの共有セットが使用され、これは、少なくとも1つのDNMバリアントを有する1,215人の健常対照由来の1,823個のDNMバリアントを含み、複数の研究から収集された。それは、全ての方法のバリアント予測スコアの利用可能性を要求した後、250個のバリアント(235人の患者)まで低減された。DNMの各疾患セットについて、マン-ホイットニーU検定を適用して、各分類子が患者のDNMセットを対照のDNMセットからどの程度良好に区別し得るかを評価する。
【0130】
比較のための方法
他の方法からの予測を、機能性予測のデータベースdbNSFP4.2aからダウンロードした順位スコアを使用して評価した。共通バリアントの数の劇的な低減を回避するために、不完全なスコアセットを有する方法(hg38における71,000,000個の考えられるミスセンスバリアントのうち67個未満を有する方法)は、広く採用されていることに起因してPolyphen2を除いて、除去される。本発明者らは、比較のために以下の方法(方法の略語)を含めた。
BayesDel_noAF(BayesDel)、CADD_raw(CADD)、DANN、DEOGEN2、LIST-S2、M-CAP、MutationTaster_converted(MutationTaster)、PROVEAN_converted(PROVEAN)、Polyphen2_HVAR(Polyphen2、Polyphen2 HDIVよりも良好な性能に起因して)、PrimateAI、Revel(REVEL)、SIFT_converted(SIFT)、VEST4、fathmm-MKL_coding(fathmm-MKL、所与のベンチマークに対するfathmmモデルの中で最高性能)。
【0131】
より多くのタンパク質へのEVEの適用
元の刊行物において、EVEは、ClinVarにおける疾患関連遺伝子の小さいセットにのみ適用される。開示される言語モデルベースの訓練データセットを生成するために、EVEの予測を可能な限り多くのタンパク質に拡張することが不可欠である。EVEソースコードが利用できないことに起因して、同様の方法のDeepSequenceを適用し、ガウス混合モデルを適合させることによってDeepSequenceスコアをEVEスコアに変換する。UniRef100の最新バージョンが使用されるが、他の点では、EVEで説明されるアラインメント深度及び配列カバレッジフィルタリングステップに従う。18,920個のタンパク質における少なくとも1つの予測、及び71.2M個の考えられるミスセンスバリアントのうちの合計50.2M個の予測されるバリアントが達成される。開示される複製を検証するために、複製されたEVEモデルを、EVEから公開されたバリアントを使用して評価する。複製されたEVEモデルからのスコアは、全てのベンチマーキングデータセットに対して、公開されたEVEソフトウェアと同等の性能をもたらし、例えば、両方法は、Assayに対して0.41平均絶対相関及びUKBBに対して0.22平均絶対相関を達成する。
【0132】
病原性予測について、他の配列のみのモデルに対するPrimateAI言語モデルのベンチマーキング
PrimateAI言語モデルは、タンパク質配列をモデル化するように訓練されただけであるが、病原性予測因子として驚くほど良好に機能する方法のクラスに分類される。それらは、それ自体で全体的に最良の性能を達成しないにもかかわらず、より多様なデータを組み込む分類器において重要な特徴又は構成要素となる。図13は、病原性予測について、他のそのような配列のみの方法:ESMlv、EVE、LIST-S2、及びSIFTに対するPrimateAI言語モデルの評価性能を要約する。本発明者らの言語モデルは、訓練時間の1/50のみを使用するアッセイを除いて、全ての試験データセットに対して別の言語モデルESMlvよりも性能が優れている。これは、PrimateAI LMが、アッセイのいかなる微調整にも依存しないため、特に印象的である。
【0133】
PrimateAI言語モデルとEVEとの組み合わせ
言語モデルは、タンパク質の全領域をモデル化するように訓練される。EVEは、各ヒトタンパク質及び全ての類似配列について別個のモデルを訓練する。このこと、並びにモデルアーキテクチャ及び訓練アルゴリズムにおける違いは、モデルがそれらの入力から別個の特徴を抽出することを示唆している。したがって、本発明者らは、EVE及び本発明者らの言語モデルからのスコアが相補的であり、スコアを組み合わせることが性能の改善をもたらし得ることを予想した。本発明者らは、単にそれらの病原性スコアの平均をとることが、2つの方法単独のいずれよりも既に良好に機能することを見出した。より精巧な組み合わせ、例えば、リッジ回帰を使用することは、いかなる更なる改善にもつながらなかった。得られた性能を図13に示し、合算スコアは、PrimateAI LMと比較して(又は複製されたEVEと比較して)アッセイにおける平均相関において6.6%(又は6.8%)の性能向上、ClinVarにおける1.4%(又は1.7%)の平均AUCの改善、並びにDDDについては11%(29%)、ASDについては3%(26%)、及びCHDについては17%(23%)のP値の増加につながる。
【0134】
第1位の訓練正確度
図14は、PrimateAI言語モデルの第1位の訓練正確度1400を図示する。6つのPrimateAI言語モデルネットワークのアンサンブルを、訓練データサンプリング及びモデルパラメータ初期化のための異なるランダムシードを用いて訓練した。訓練中のそれらの第1位の正確度を、UniRef50 MSAにおけるクエリ配列及び全ての配列のマスク場所について、図14に示す。クエリ配列についての第1位の正確度は、クエリ配列がギャップトークンを含まないため、全ての配列についてのものよりもはるかに低く、これは、ギャップトークンが、多くの場合、MSAにおいて長く連続したセグメントを形成するため、残基よりも予測するのが容易である。クエリ配列に対するPrimateAI言語モデルの正確度は、訓練によって改善し続ける。いくつかの実施態様では、収束は、PrimateAI言語モデルの各層に補助損失を追加することによって加速され得る。
【0135】
エントロピー及び病原性スコア
PrimateAI言語モデルのスコアは、そのスコアが必要とされるたびにモデルを再実行するのではなく、将来の参照のために作表され得る。例えば、PrimateAI言語モデルの空欄を埋める予測は、19,071個のヒトタンパク質における全ての部位にある関心対象の場所について提供され得、108,286,160個の位置にある2,057,437,040個のバリアントについての予測を合計する。当業者は、例えば、ここに含まれなかった少数のヒトタンパク質が含まれた場合、これらの数が変化することを理解するであろう。いくつかの実施態様では、PrimateAI言語モデルは、個々のモデルスコアよりも高い性能を有する平均スコアを生成するためにアンサンブルされ得る。例えば、各予測は、6つのモデルのアンサンブルによって行うことができ、各モデルは、ヒトMSAにおける配列のサンプリング及び順序付けのための異なるランダムシードを有する少なくとも4つの推論に寄与する。推論ロジットは、ランダムシードによってグループ化された予測の平均をとり、次いで、その平均の平均をとることによって平均化され得る。
【0136】
バリアントの病原性予測は、参照アミノ酸及び代替アミノ酸のロジットの相対値を使用して評価され得るか、又は代替アミノ酸のロジット値から参照アミノ酸のロジット値を減算することによって評価され得る。確率は、ギャップトークンを無視して全ての考えられる残基にわたって正規化され、その結果、Σ=1であり、r番目の残基の確率pは、アンサンブルされたロジットから得られる。log差は、バリアントアミノ酸が参照アミノ酸と比較される可能性がどの程度低いかを捕捉する。しかしながら、スコアは、他の18個の考えられるアミノ酸の予測を考慮せず、これは、タンパク質部位保存の言語モデル内部推定、及び言語モデルの収束についての情報を含む。r番目の残基の確率pを有するアミノ酸予測S=-Σlog(p)にわたって評価されるエントロピーを使用して、病原性スコアへのバリアント非依存的な部位依存的寄与を捕捉した。具体的には、所与の部位における代替残基についてのスコアsaltは、その部位におけるalt及び参照ロジットの通常の対数差から所与の部位におけるアミノ酸にわたるエントロピーを引いたものによって与えられ、すなわち、salt=log(palt)-log(pref)-Sである。
【0137】
エントロピー項は、全てのアミノ酸にわたる確率が単一の項によって支配されるときは常に小さく、モデルが残基について不確実であり、複数の残基に高い値を割り当てるときは常に大きい。物理的には、この場合、部位は、保存性が低く、突然変異し易い。これは、より少ない病原性シグナルにつながるはずである。エントロピーによるスコアの調整は、アミノ酸保存のモデル内部推定を組み込む。残基と参照との間の所与の対数差は、それが高度に保存された部位と関連付けられているときは常に、より病原性であると考えられることになる。スコア調整は、追加的に、非常に不十分に訓練されたモデルと関連付けられた収束の欠如を組み込む。
【0138】
本明細書で使用される場合、「論理」(例えば、マスキング論理)は、本明細書に説明される方法ステップを実施するためにコンピュータ使用可能プログラムコードを備えた非一時的コンピュータ可読記憶媒体を含むコンピュータ製品の形態で実装され得る。「論理」は、メモリと、そのメモリに結合され、例示的な方法ステップを実行するように動作する少なくとも1つのプロセッサと、を含む装置の形態で実装され得る。「論理」は、本明細書に記載の方法工程のうちの1つ以上を実行するための手段の形態で実装され得る。この手段は、(i)ハードウェアモジュール、(ii)1つ以上のハードウェアプロセッサ上で実行されるソフトウェアモジュール、又は(iii)ハードウェア及びソフトウェアモジュールの組み合わせ、を含むことができ、(i)~(iii)のいずれかが、本明細書に記載の特定の技術を実施し、ソフトウェアモジュールは、コンピュータ可読記憶媒体(又は複数のそのような媒体)に記憶される。一実施態様では、論理は、データ処理機能を実装する。論理は、機能を指定するコンピュータプログラムを備えた汎用、シングルコア又はマルチコアのプロセッサ、コンピュータプログラムを備えたデジタル信号プロセッサ、構成ファイルを有するFPGAなどの構成可能論理、ステートマシンなどの特殊目的回路、又はこれらの任意の組み合わせであり得る。また、コンピュータプログラム製品は、論理のコンピュータプログラム及び構成ファイル部分を具現化することができる。
【0139】
コンピュータシステム
図15は、PrimateAI言語モデルのコンパイル及びランタイム実行のために使用され得るコンピュータシステム1500である。コンピュータシステム1500は、バスサブシステム1555を介して多数の周辺デバイスと通信する少なくとも1つの中央処理ユニット(central processing unit、CPU)1572を含む。これらの周辺デバイスは、例えば、メモリデバイス及びファイル記憶サブシステム1536を含む記憶サブシステム1515、ユーザインターフェース入力デバイス1538、ユーザインターフェース出力デバイス1576、並びにネットワークインターフェースサブシステム1574を含み得る。入力デバイス及び出力デバイスは、コンピュータシステム1500とのユーザ対話を可能にする。ネットワークインターフェースサブシステム1574は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む外部ネットワークへのインターフェースを提供する。
【0140】
一実施態様では、表現型予測器150(例えば、PrimateAI言語モデル)は、記憶サブシステム1515及びユーザインターフェース入力デバイス1538に通信可能にリンクされている。
【0141】
ユーザインターフェース入力デバイス1538は、キーボード、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム及びマイクロフォンなどのオーディオ入力デバイス、並びに他のタイプの入力デバイスを含むことができる。一般に、用語「入力デバイス」の使用は、コンピュータシステム1500に情報を入力するための全ての可能なタイプのデバイス及び方式を含むことを意図している。
【0142】
ユーザインターフェース出力デバイス1576は、ディスプレイサブシステム、プリンタ、ファックス装置、又はオーディオ出力デバイスなどの非視覚ディスプレイを含むことができる。ディスプレイサブシステムは、LEDディスプレイ、陰極線管(Cathode Ray Tube、CRT)、液晶ディスプレイ(Liquid Crystal Display、LCD)などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他の機構を含むことができる。ディスプレイサブシステムはまた、オーディオ出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、用語「出力デバイス」の使用は、コンピュータシステム1500からユーザ又は別のマシン若しくはコンピュータシステムに情報を出力するための、全ての可能なタイプのデバイス及び方式を含むことを意図している。
【0143】
記憶サブシステム1515は、本明細書に説明されるモジュール及び方法のうちのいくつか又は全ての機能を提供するプログラミング及びデータ構築物を記憶する。これらのソフトウェアモジュールは、一般にプロセッサ1578によって実行される。
【0144】
プロセッサ1578は、グラフィック処理ユニット(GPU)、フィールドプログラマブルゲートアレイ(field-programmable gate array、FPGA)、特定用途向け集積回路(application-specific integrated circuit、ASIC)、及び/又は粗粒化再構成可能構造(coarse-grained reconfigurable architecture、CGRA)であることができる。プロセッサ1578は、Google Cloud Platform(商標)、Xilinx(商標)及びCirrascale(商標)などの深層学習クラウドプラットフォームによってホスティングすることができる。プロセッサ1578の例は、GoogleのTensor Processing Unit(TPU)(商標)、GX4 Rackmount Series(商標)、GX15 Rackmount Series(商標)のようなラックマウントソリューション、NVIDIA DGX-1(商標)、MicrosoftのStratix V FPGA(商標)、GraphcoreのIntelligent Processor Unit(IPU)(商標)、Snapdragon processors(商標)を有するQualcommのZeroth Platform(商標)、NVIDIAのVolta(商標)、NVIDIAのDRIVE PX(商標)、NVIDIAのJETSON TX1/TX2 MODULE(商標)、IntelのNirvana(商標)、Movidius VPU(商標)、Fujitsu DPI(商標)、ARMのDynamicIQ(商標)、IBM TrueNorth(商標)、Testa V100s(商標)を有するLambda GPU Server、及び他のものを含む。
【0145】
記憶サブシステム1515で使用されるメモリサブシステム1522は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ(random access memory、RAM)1532と、固定命令が記憶された読み取り専用メモリ(read only memory、ROM)1534とを含むいくつかのメモリを含むことができる。ファイル記憶サブシステム1536は、プログラム及びデータファイルのための永続的な記憶装置を提供することができ、ハードディスクドライブ、関連する取り外し可能な媒体を伴うフロッピーディスクドライブ、CD-ROMドライブ、光学ドライブ、又は取り外し可能な媒体カートリッジを含むことができる。特定の実施態様の機能を実施するモジュールは、記憶サブシステム1515内のファイル記憶サブシステム1536によって、又はプロセッサによってアクセス可能な他のマシン内に記憶することができる。
【0146】
バスサブシステム1555は、コンピュータシステム1500の様々な構成要素及びサブシステムを、意図されるように互いに通信させるための機構を提供する。バスサブシステム1555は、単一のバスとして概略的に示されているが、バスサブシステムの代替の実施態様は、複数のバスを使用することができる。
【0147】
コンピュータシステム1500自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、緩くネットワーク化されたコンピュータの緩く分散したセット、又は任意の他のデータ処理システム若しくはユーザデバイスを含む様々なタイプのものであり得る。コンピュータ及びネットワークは絶え間なく変化する性質のものであるため、図15に示されるコンピュータシステム1500の説明は、本発明の好ましい実施態様を例示する目的のための特定の実施例としてのみ意図される。コンピュータシステム1500の多くの他の構成は、図15に図示されるコンピュータシステムよりも多くの又は少ない構成要素を有することができる。
【0148】
条項
開示された技術は、システム、方法、又は製品として実施することができる。実施態様の1つ以上の特徴を、塩基実施態様と組み合わせることができる。相互に排他的でない実施態様は、組み合わせ可能であると教示されている。実施態様の1つ以上の特徴を他の実施態様と組み合わせることができる。本開示は、これらの選択肢をユーザに定期的に知らせる。これらの選択肢を繰り返す列挙のいくつかの実施態様からの省略は、前述のセクションで教示されている組み合わせを制限するものとして解釈されるべきではない。これらの記載は、以下の実施のそれぞれに参照することにより本明細書に組み込まれる。
【0149】
開示される技術、又はその要素の1つ以上の実施態様及び条項は、示された方法ステップを実行するためのコンピュータ使用可能なプログラムコードを備えた非一時的コンピュータ可読記憶媒体を含むコンピュータ製品の形態で実装することができる。更に、開示される技術、又はその要素の1つ以上の実施態様及び条項は、メモリと、メモリに結合され、例示的な方法ステップを実行するように動作する少なくとも1つのプロセッサと、を含む装置の形態で実装することができる。更に、別の態様では、開示される技術又はその要素の1つ以上の実施態様及び条項は、本明細書に記載の方法ステップのうちの1つ以上を実行するための手段の形態で実装することができ、この手段は、(i)ハードウェアモジュール、(ii)1つ以上のハードウェアプロセッサ上で実行されるソフトウェアモジュール、又は(iii)ハードウェア及びソフトウェアモジュールの組み合わせ、を含むことができ、(i)~(iii)のいずれかが、本明細書に記載の特定の技術を実施し、ソフトウェアモジュールは、コンピュータ可読記憶媒体(又は複数のそのような媒体)に記憶される。
【0150】
このセクションで説明される条項は、特徴として組み合わせることができる。簡潔性の目的で、特徴の組み合わせは、個別に列挙されず、特徴の各ベースセットで繰り返されない。読者は、このセクションに記載される条項で特定された特徴が、本出願の他のセクションにおける実施態様として特定された基本特徴のセットと容易に組み合わせることができる方法を理解するであろう。開示される技術のこれら及び他の特徴、態様、及び利点は、添付の図面に関連して読まれるべき、その例示的な実施態様の以下の詳細な説明から明らかになるであろう。これらの条項は、相互排他的、網羅的、又は制限的であることを意味せず、開示される技術は、これらの条項に限定されず、むしろ、特許請求される技術及びその均等物の範囲内の全ての可能な組み合わせ、修正、及び変形を包含する。
【0151】
このセクションで説明される条項の他の実施態様は、このセクションに説明される条項のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションに記載される条項の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行してこのセクションに記載される条項のいずれかを行うように動作可能な1つ以上のプロセッサとを含むシステムを含むことができる。
【0152】
本発明者らは、以下の項目を開示する。
【0153】
条項セット1
条項1.バリアント病原性予測のコンピュータ実装方法であって、
クエリ残基配列を複数の非クエリ残基配列に整列させる多重配列アラインメントにアクセスすることと、
多重配列アラインメントにおける第1の位置セットにある第1の残基セットに周期的間隔のマスクセットを適用することであって、第1の残基セットが、クエリ残基配列における関心対象位置にある関心対象残基を含む、適用することと、
多重配列アラインメントの一部分をトリミングすることであって、多重配列アラインメントの一部分が、
(i)第1の位置セットにある周期的間隔のマスクセットと、
(ii)周期的間隔のマスクセットが適用されない、多重配列アラインメントにおける第2の位置セットにある第2の残基セットと、を含む、トリミングすることと、
多重配列アラインメントの一部分に基づいて、関心対象位置にあるバリアントについての病原性予測を生成することと、を含む、アクションを実施する、非一時的コンピュータ可読記憶媒体。
【0154】
条項2.多重配列アラインメントが、位置ごとの次元に沿って、かつ配列ごとの次元に沿って、クエリ残基配列を複数の非クエリ残基配列に整列させる、条項1に記載のコンピュータ実装方法。
【0155】
条項3.周期的間隔のマスクセットが、多重配列アラインメントにおける配列のウィンドウ内の配列ごとの次元に沿って適用される、条項2に記載のコンピュータ実装方法。
【0156】
条項4.周期的間隔のマスクセットが、多重配列アラインメントにおける配列のウィンドウにわたる位置のウィンドウ内の位置ごとの次元に沿って適用される、条項3に記載のコンピュータ実装方法。
【0157】
条項5.一部分が、多重配列アラインメントにわたる位置のウィンドウに及ぶ、条項4に記載のコンピュータ実装方法。
【0158】
条項6.一部分が、多重配列アラインメントにおける配列サブセットにわたる位置のウィンドウに及ぶ、条項4に記載のコンピュータ実装方法。
【0159】
条項7.一部分が、所定の幅及び所定の高さを有する、条項1に記載のコンピュータ実装方法。
【0160】
条項8.一部分が、一部分の所定の幅より小さい幅を有する多重配列アラインメントを補償するためにパディングされる、条項7に記載のコンピュータ実装方法。
【0161】
条項9.一部分が、一部分の所定の高さより小さい高さを有する多重配列アラインメントを補償するためにパディングされる、条項7に記載のコンピュータ実装方法。
【0162】
条項10.周期的間隔のマスクセットが、配列ごとの次元に沿って、周期的間隔のマスクサブセットに分散される、条項2に記載のコンピュータ実装方法。
【0163】
条項11.周期的間隔のマスクサブセットが、配列のウィンドウ内の配列に対応する、条項10に記載のコンピュータ実装方法。
【0164】
条項12.配列のウィンドウ内の所与の配列に対応する周期的間隔のマスクサブセットにおける連続マスクが、所与の配列におけるマスクされていない残基によって離隔されている、条項11に記載のコンピュータ実装方法。
【0165】
条項13.連続マスクが離隔されている、マスクされていない残基の数が、配列のウィンドウ内の配列にわたって同じである、条項12に記載のコンピュータ実装方法。
【0166】
条項14.連続マスクが離隔されている、マスクされていない残基の数が、配列のウィンドウ内の配列にわたって変動する、条項12に記載のコンピュータ実装方法。
【0167】
条項15.対応する周期的間隔のマスクサブセットが開始する所与の配列における開始位置が、配列のウィンドウ内の配列間で変動する、条項12に記載のコンピュータ実装方法。
【0168】
条項16.開始位置が、配列のウィンドウ内の配列にわたる対角線パターンに従う、条項12に記載のコンピュータ実装方法。
【0169】
条項17.開始位置が、配列のウィンドウ内の配列にわたって少なくとも1回繰り返すように開始する対角線パターンに従う、条項14に記載のコンピュータ実装方法。
【0170】
条項18.開始位置が、配列のウィンドウ内の配列にわたって少なくとも1回繰り返す対角線パターンに従う、条項17に記載のコンピュータ実装方法。
【0171】
条項19.周期的間隔のマスクセットが、パターンを有する、条項1に記載のコンピュータ実装方法。
【0172】
条項20.パターンが、対角線パターンである、条項19に記載のコンピュータ実装方法。
【0173】
条項21.パターンが、六角形パターンである、条項19に記載のコンピュータ実装方法。
【0174】
条項22.パターンが、ダイヤモンドパターンである、条項19に記載のコンピュータ実装方法。
【0175】
条項23.パターンが、長方形パターンである、条項19に記載のコンピュータ実装方法。
【0176】
条項24.パターンが、正方形パターンである、条項19に記載のコンピュータ実装方法。条項25.パターンが、三角形パターンである、条項19に記載のコンピュータ実装方法。
【0177】
条項26.パターンが、凸パターンである、条項19に記載のコンピュータ実装方法。
【0178】
条項27.パターンが、凹パターンである、条項19に記載のコンピュータ実装方法。
【0179】
条項28.パターンが、多角形パターンである、条項19に記載のコンピュータ実装方法。
【0180】
条項29.一部分のパディングを最小化するために、トリミングに使用されるトリミングウィンドウを右シフトすることを更に含む、条項19に記載のコンピュータ実装方法。
【0181】
条項30.一部分のパディングを最小化するために、トリミングウィンドウを左シフトすることを更に含む、条項29に記載のコンピュータ実装方法。
【0182】
条項31.関心対象位置を一部分の中央列に位置付けるようにトリミングウィンドウを構成することを更に含む、条項1に記載のコンピュータ実装方法。
【0183】
条項32.関心対象位置を中心列に隣接して位置付けるようにトリミングウィンドウを構成することを更に含む、条項31に記載のコンピュータ実装方法。
【0184】
条項33.一部分において、第1の位置セットにある周期的間隔のマスクセットを、学習されたマスク埋め込みで置換することと、一部分において、第2の位置セットにある第2の残基セットを、学習された残基埋め込みで置換することとを更に含む、条項1に記載のコンピュータ実装方法。
【0185】
条項34.ワンホットエンコーディング生成器が、学習されたマスク埋め込み及び学習された残基埋め込みを生成する、条項33に記載のコンピュータ実装方法。
【0186】
条項35.学習されたマスク埋め込み及び学習された残基埋め込みが、ルックアップテーブルから選択される、条項34に記載のコンピュータ実装方法。
【0187】
条項36.一部分において、第1の位置セットにある周期的間隔のマスクセット、及び第2の位置セットにある第2の残基セットを、学習された位置埋め込みで置換することを更に含む、条項1に記載のコンピュータ実装方法。
【0188】
条項37.学習されたマスク埋め込み、学習された残基埋め込み、及び学習された位置埋め込みを用いて一部分を複数のチャンクにチャンク化することを更に含む、条項36に記載のコンピュータ実装方法。
【0189】
条項38.複数のチャンクを集約として処理することと、一部分の代替表現を生成することと、を更に含む、条項37に記載のコンピュータ実装方法。
【0190】
条項39.線形射影層が、1×1畳み込みのフィルタバンクを使用して、複数のチャンクを集約として処理し、一部分の代替表現を生成する、条項38に記載のコンピュータ実装方法。
【0191】
条項40.アテンションブロックのカスケードを通じて一部分の代替表現を処理して、一部分の更新された代替表現を生成することを更に含む、条項39に記載のコンピュータ実装方法。
【0192】
条項41.アテンションブロックのカスケードにおけるアテンションブロックが、自己アテンションを使用する、条項40に記載のコンピュータ実装方法。
【0193】
条項42.アテンションブロックの各々が、結合された行方向ゲート自己アテンションと、それに続く列方向ゲート付き自己アテンションと、それに続く遷移論理と、を含む、条項41に記載のコンピュータ実装方法。
【0194】
条項43.アテンションブロックが、クロスアテンションを使用する、条項40に記載のコンピュータ実装方法。
【0195】
条項44.マスク表出ブロックが、一部分の更新された代替表現を処理し、一部分の通知された代替表現を生成する、条項40に記載のコンピュータ実装方法。
【0196】
条項45.マスク表出ブロックが、行内のマスクされた場所と整列した特徴を収集し、行内のマスクごとに、行内の他のマスクされた場所に埋め込まれた標的トークンを表出させる、条項44に記載のコンピュータ実装方法。
【0197】
条項46.マスク収集ブロックが、一部分の通知された代替表現を処理し、一部分の収集された代替表現を生成する、条項44に記載のコンピュータ実装方法。
【0198】
条項47.マスク収集ブロックが、標的埋め込みがマスクされたままである特徴を収集する遷移論理及び行方向ゲート付き自己アテンションブロックのカスケードを通じて、通知された代替表現を処理する、条項46に記載のコンピュータ実装方法。
【0199】
条項48.出力ブロックが、一部分の収集された代替表現を処理し、周期的間隔のマスクセットによってマスクされた残基の同一性を予測する、条項47に記載のコンピュータ実装方法。
【0200】
条項49.出力ブロックは、遷移論理及びパーセプトロン論理を含む、条項48に記載のコンピュータ実装方法。
【0201】
条項50.周期的間隔のマスクサブセットを配列のウィンドウ内の非配列に適用する確率は、(1-非配列内のギャップトークンの数)^2に比例する、条項48に記載のコンピュータ実装方法。
【0202】
条項51.バリアントについての病原性予測を、バリアントの対数確率と、対応する参照アミノ酸の対数確率からアミノ酸単位の予測にわたって評価されたエントロピーを引いたものとの間の差に基づいて生成することを更に含む、条項1に記載のコンピュータ実装方法。
【0203】
条項セット2
条項1.コンピュータ実装方法であって、
多重配列アラインメント(MSA)にアクセスすることであって、MSAが、p個の行及びr個の列を有し、p個の行が、p個のタンパク質配列に対応し、r個の列が、r個の残基位置に対応する、アクセスすることと、
マスクグリッドにアクセスすることであって、マスクグリッドが、m個のマスク分布を有し、m個のマスク分布の各々が、マスクグリッド内の第1の残基位置からの変動オフセットで始まるk個の順序位置にk個の周期的間隔のマスクを有する、アクセスすることと、
m個のマスク分布をp個のタンパク質配列中のm個のタンパク質配列に適用して、マスクされた残基及びマスクされていない残基を含む、部分的にマスクされたMSAを生成することであって、p>mである、生成することと、マスクされた残基及びマスクされていない残基を、学習された埋め込みに変換し、学習された埋め込みを残基位置埋め込みと連結して、部分的にマスクされたMSAの埋め込まれた表現を生成することと、
埋め込まれた表現を一連のチャンクにチャンク化し、一連のチャンク内のチャンクをスタックに連結し、スタックを埋め込まれた表現の圧縮された表現に変換することであって、圧縮された表現が、m個の行及びr個の列を有する、変換することと、圧縮された表現のm個の行及びr個の列にわたって軸方向アテンションを反復的に適用し、適用された軸方向アテンションをインターリーブして、圧縮された表現の更新された表現を生成することであって、更新された表現が、m個の行及びr個の列を有する、生成することと、更新された表現から、k個の更新された表現タイルを集約することであって、k個の更新された表現タイルの各々が、マスクされた残基に対応する、更新された表現の更新された表現特徴を含み、k個の更新された表現タイルの各々が、m個の行及びk個の列を有し、所与の更新された表現タイルのk個の列内の所与の列が、更新された表現特徴のそれぞれのサブセットを含み、それぞれのサブセットが、k個の順序位置内の所与の順序位置に位置し、所与の順序位置が、所与の列によって表される、集約することと、埋め込まれた表現から、k個の更新された表現タイルに対応するk個の埋め込みタイルを集約することであって、k個の埋め込みタイルの各々が、マスクされた残基の変換である一連のチャンクのうちの第1のチャンク内の埋め込み特徴を含み、k個の埋め込みタイルの各々が、m個の行及びk個の列を有し、所与の埋め込みタイルのk個の列内の所与の列が、埋め込み特徴のそれぞれのサブセットを含み、それぞれのサブセットが、k個の順序位置内の所与の順序位置に位置し、所与の順序位置が、所与の列によって表される、集約することと
k個のブールタイルをk個の埋め込みタイルに適用して、k個のブール化埋め込みタイルを生成することであって、k個のブールタイルの各々が、m個の行及びk個の列を有し、k個のブールタイルの各々が、k個の埋め込みタイルのうちの対応する1つにおけるk個の列のうちの対応する1つの隠蔽を引き起こすとともに、k個の埋め込みタイルのうちの対応する1つにおけるk個の列のうちの他のものの表出を引き起こし、k個のブール化埋め込みタイルの各々が、m個の行及びk個の列を有する、生成することと、
k個のブール化埋め込みタイルをk個の更新された表現タイルと連結して、k個の連結されたタイルを生成し、k個の連結されたタイルをk個の連結されたタイルのk個の圧縮されたタイル表現に変換することであって、k個の圧縮されたタイル表現の各々が、m個の行及びk個の列を有する、変換することと、
k個の圧縮されたタイル表現に自己アテンションを反復的に適用して、k個のブールタイルによって表出されるk個の埋め込みタイルにおける埋め込み特徴に対応するk個の圧縮されたタイル表現における圧縮されたタイル特徴の解釈を生成することと、
k個のブールタイルによって隠蔽されるk個の埋め込みタイルにおける埋め込み特徴に対応する解釈された特徴を解釈から集約して、解釈の集約された表現を生成することであって、集約された表現が、m個の行及びk個の列を有する、生成することと、
集約された表現をマスクされた残基の同一性に変換することと、を含む、コンピュータ実装方法。
【0204】
条項2.ワンホットエンコーディングスキームを使用して、20個の天然由来の残基、ギャップ残基、及びマスクを、それぞれのワンホットエンコードされたベクトルに変換することを更に含む、条項1に記載のコンピュータ実装方法。
【0205】
条項3.それぞれのワンホットエンコードされたベクトルに対するそれぞれの学習された埋め込みを生成するようにニューラルネットワークを訓練することを更に含む、条項2に記載のコンピュータ実装方法。
【0206】
条項4.マスクされた残基及びマスクされていない残基が、それぞれのワンホットエンコードされたベクトルをそれぞれの学習された埋め込みにマッピングするルックアップテーブルに基づいて、学習された埋め込みに変換される、条項3に記載のコンピュータ実装方法。
【0207】
条項5.残基位置埋め込みは、残基が、pタンパク質配列内に配置される順序を指定する、条項4に記載のコンピュータ実装方法。
【0208】
条項6.チャンクが、チャネル次元に沿ってスタックに連結される、条項1に記載のコンピュータ実装方法。
【0209】
条項7.スタックが、線形射影を通じてスタックを処理することによって圧縮された表現に変換される、条項1に記載のコンピュータ実装方法。
【0210】
条項8.線形射影が、複数の一次元(1D)畳み込みフィルタを使用する、条項7に記載のコンピュータ実装方法。
【0211】
条項9.k個の連結されたタイルが、線形射影を通じてk個の連結されたタイルを処理することによって、k個の圧縮されたタイル表現に変換される、条項8に記載のコンピュータ実装方法。
【0212】
条項10.集約された表現が、表出出力ヘッドを通じて集約された表現を処理することによって、マスクされた残基の同一性に変換される、条項1に記載のコンピュータ実装方法。
【0213】
条項11.p=mである、条項1に記載のコンピュータ実装方法。
【0214】
条項12.k個のブールタイルの各々が、k個の埋め込みタイルのうちの対応する1つにおけるk個の列のうちの対応する1つの隠蔽を引き起こすとともに、k個の埋め込みタイルのうちの対応する1つにおけるk個の列のうちの他のもののうちの少なくともいくつかの表出を引き起こす、条項1に記載のコンピュータ実装方法。
【0215】
条項13.k個のブールタイルの各々が、k個の埋め込みタイルのうちの対応する1つにおけるk個の列のうちの対応するサブセットの隠蔽を引き起こすとともに、k個の埋め込みタイルのうちの対応する1つにおけるk個の列のうちの他のもののうちの少なくともいくつかの表出を引き起こす、条項1に記載のコンピュータ実装方法。
【0216】
条項14.m個のマスク分布のうちの少なくともいくつかのk個の周期的間隔のマスクが、第1の残基位置からの同じオフセットで開始する、条項1に記載のコンピュータ実装方法。
【0217】
条項15.システムであって、
複数のマスクされた残基を有する多重配列アラインメント(MSA)を記憶するメモリと、MSAを一連のチャンクにチャンク化するように構成されたチャンク化論理と、
一連のチャンクの表現に注目し、第1のアテンション出力を生成するように構成された第1のアテンション論理と、
複数のマスクされた残基中のマスクされた残基に対応する第1のアテンション出力における特徴を含む第1の集約された出力を生成するように構成された第1の集約論理と、
第1の集約された出力と、サブセットごとに、マスクされた残基の所与のサブセットを隠蔽することとマスクされた残基の残りのサブセットを表出させることとを交互に行うブールマスクとに基づいて、通知された出力を生成するように構成されたマスク表出論理と、通知された出力に注目し、ブールマスクによって表出された、マスクされた残基に基づいて、第2のアテンション出力を生成するように構成された第2のアテンション論理と、
ブールマスクによって隠蔽されたマスクされた残基に対応する第2のアテンション出力における特徴を含む第2の集約された出力を生成するように構成された第2の集約論理と、
第2の集約された出力に基づいて、マスクされた残基の特定を生成するように構成された出力論理と、を含む、システム。
【0218】
条項16.第1のアテンション論理が、軸方向アテンションを使用する、条項15に記載のシステム。
【0219】
条項17.第2のアテンション論理が、自己アテンションを使用する、条項15に記載のシステム。
【0220】
条項18.コンピュータ実装方法であって、
多重配列アラインメント(MSA)にアクセスすることであって、MSAが、p個の行及びr個の列を有し、p個の行が、p個のタンパク質配列に対応し、r個の列が、r個の残基位置に対応する、アクセスすることと、
マスクグリッドにアクセスすることであって、マスクグリッドが、m個のマスク分布を有し、m個のマスク分布の各々が、k個の順序位置にk個の周期的間隔のマスクを有する、アクセスすることと、m個のマスク分布をp個のタンパク質配列中のm個のタンパク質配列に適用して、マスクされた残基及びマスクされていない残基を含む、部分的にマスクされたMSAを生成することであって、p>mである、生成することと、マスクされた残基及びマスクされていない残基を、学習された埋め込みに変換し、学習された埋め込みを残基位置埋め込みと連結して、部分的にマスクされたMSAの埋め込まれた表現を生成することと、
埋め込まれた表現を一連のチャンクにチャンク化し、一連のチャンク内のチャンクをスタックに連結し、スタックを埋め込まれた表現の圧縮された表現に変換することと、
圧縮された表現のm個の行及びr個の列にわたって軸方向アテンションを反復的に適用し、適用された軸方向アテンションをインターリーブして、圧縮された表現の更新された表現を生成することと、
更新された表現から、k個の更新された表現タイルを集約することであって、k個の更新された表現タイルの各々が、マスクされた残基に対応する、更新された表現の更新された表現特徴を含む、集約することと、
埋め込まれた表現から、k個の更新された表現タイルに対応するk個の埋め込みタイルを集約することであって、k個の埋め込みタイルの各々が、マスクされた残基の変換である、一連のチャンクのうちの第1のチャンクにおける埋め込み特徴を含む、集約することと、k個のブールタイルをk個の埋め込みタイルに適用して、k個のブール化埋め込みタイルを生成することであって、k個のブールタイルの各々が、k個の埋め込みタイルのうちの対応する1つにおけるk個の列のうちの対応する1つの隠蔽を引き起こすとともに、k個の埋め込みタイルのうちの対応する1つにおけるk個の列のうちの他のものの表出を引き起こす、生成することと、
k個のブール化埋め込みタイルをk個の更新された表現タイルと連結して、k個の連結されたタイルを生成し、k個の連結されたタイルをk個の連結されたタイルのk個の圧縮されたタイル表現に変換することと、
k個の圧縮されたタイル表現に自己アテンションを反復的に適用して、k個のブールタイルによって表出されるk個の埋め込みタイルにおける埋め込み特徴に対応するk個の圧縮されたタイル表現における圧縮されたタイル特徴の解釈を生成することと、
k個のブールタイルによって隠蔽されるk個の埋め込みタイルにおける埋め込み特徴に対応する解釈された特徴を解釈から集約して、解釈の集約された表現を生成することと、集約された表現をマスクされた残基の同一性に変換することと、を含む、コンピュータ実装方法。
【0221】
条項19.m個のマスク分布のうちの少なくともいくつかのk個の周期的間隔のマスクが、マスクグリッド内の第1の残基位置からの変動オフセットで開始する、条項18に記載のコンピュータ実装方法。
【0222】
条項20.m個のマスク分布のうちの少なくともいくつかのk個の周期的間隔のマスクが、第1の残基位置からの同じオフセットで開始する、条項19に記載のコンピュータ実装方法。
【0223】
条項21.圧縮された表現が、m個の行及びr個の列を有する、条項18に記載のコンピュータ実装方法。
【0224】
条項22.更新された表現が、m個の行及びr個の列を有する、条項18に記載のコンピュータ実装方法。
【0225】
条項23.k個の更新された表現タイルの各々が、m個の行及びk個の列を有し、所与の更新された表現タイルのk個の列内の所与の列が、更新された表現特徴のそれぞれのサブセットを含み、それぞれのサブセットが、k個の順序位置内の所与の順序位置に位置し、所与の順序位置が、所与の列によって表される、条項18に記載のコンピュータ実装方法。
【0226】
条項24.k個の埋め込みタイルの各々が、m個の行及びk個の列を有し、所与の埋め込みタイルのk個の列内の所与の列が、埋め込み特徴のそれぞれのサブセットを含み、それぞれのサブセットが、k個の順序位置内の所与の順序位置に位置し、所与の順序位置が、所与の列によって表される、条項18に記載のコンピュータ実装方法。
【0227】
条項25.k個のブールタイルの各々が、m個の行及びk個の列を有する、条項18に記載のコンピュータ実装方法。
【0228】
条項26.k個のブール化埋め込みタイルの各々が、m個の行及びk個の列を有する、条項18に記載のコンピュータ実装方法。
【0229】
条項27.k個の圧縮されたタイル表現の各々が、m個の行及びk個の列を有する、条項18に記載のコンピュータ実装方法。
【0230】
条項28.集約された表現が、m個の行及びk個の列を有する、条項18に記載のコンピュータ実装方法。
【0231】
条項セット3
条項1.バリアント病原性予測のコンピュータ実装方法であって、
クエリ残基配列を複数の非クエリ残基配列に整列させる多重配列アラインメントにアクセスすることと、
多重配列アラインメントにおける第1の位置セットにある第1の残基セットに周期的間隔のマスクセットを適用することであって、第1の残基セットが、クエリ残基配列における関心対象位置にある関心対象残基を含む、適用することと、
多重配列アラインメントの一部分をトリミングすることであって、多重配列アラインメントの一部分が、
(i)第1の位置セットにある周期的間隔のマスクセットと、
(ii)周期的間隔のマスクセットが適用されない、多重配列アラインメントにおける第2の位置セットにある第2の残基セットと、を含む、トリミングすることと、
多重配列アラインメントの一部分に基づいて、関心対象位置にあるバリアントについての病原性予測を生成することと、を含む、コンピュータ実装方法。
【0232】
条項2.多重配列アラインメントが、位置ごとの次元に沿って、かつ配列ごとの次元に沿って、クエリ残基配列を複数の非クエリ残基配列に整列させる、条項1に記載のコンピュータ実装方法。
【0233】
条項3.周期的間隔のマスクセットが、多重配列アラインメントにおける配列のウィンドウ内の配列ごとの次元に沿って適用される、条項2に記載のコンピュータ実装方法。
【0234】
条項4.周期的間隔のマスクセットが、多重配列アラインメントにおける配列のウィンドウにわたる位置のウィンドウ内の位置ごとの次元に沿って適用される、条項3に記載のコンピュータ実装方法。
【0235】
条項5.一部分が、多重配列アラインメントにわたる位置のウィンドウに及ぶ、条項4に記載のコンピュータ実装方法。
【0236】
条項6.一部分が、多重配列アラインメントにおける配列サブセットにわたる位置のウィンドウに及ぶ、条項4に記載のコンピュータ実装方法。
【0237】
条項7.一部分が、所定の幅及び所定の高さを有する、条項1に記載のコンピュータ実装方法。
【0238】
条項8.一部分が、一部分の所定の幅より小さい幅を有する多重配列アラインメントを補償するためにパディングされる、条項7に記載のコンピュータ実装方法。
【0239】
条項9.一部分が、一部分の所定の高さより小さい高さを有する多重配列アラインメントを補償するためにパディングされる、条項7に記載のコンピュータ実装方法。
【0240】
条項10.周期的間隔のマスクセットが、配列ごとの次元に沿って、周期的間隔のマスクサブセットに分散される、条項2に記載のコンピュータ実装方法。
【0241】
条項11.周期的間隔のマスクサブセットが、配列のウィンドウ内の配列に対応する、条項10に記載のコンピュータ実装方法。
【0242】
条項12.配列のウィンドウ内の所与の配列に対応する周期的間隔のマスクサブセットにおける連続マスクが、所与の配列におけるマスクされていない残基によって離隔されている、条項11に記載のコンピュータ実装方法。
【0243】
条項13.連続マスクが離隔されている、マスクされていない残基の数が、配列のウィンドウ内の配列にわたって同じである、条項12に記載のコンピュータ実装方法。
【0244】
条項14.連続マスクが離隔されている、マスクされていない残基の数が、配列のウィンドウ内の配列にわたって変動する、条項12に記載のコンピュータ実装方法。
【0245】
条項15.対応する周期的間隔のマスクサブセットが開始する所与の配列における開始位置が、配列のウィンドウ内の配列間で変動する、条項12に記載のコンピュータ実装方法。
【0246】
条項16.開始位置が、配列のウィンドウ内の配列にわたる対角線パターンに従う、条項12に記載のコンピュータ実装方法。
【0247】
条項17.開始位置が、配列のウィンドウ内の配列にわたって少なくとも1回繰り返すように開始する対角線パターンに従う、条項14に記載のコンピュータ実装方法。
【0248】
条項18.開始位置が、配列のウィンドウ内の配列にわたって少なくとも1回繰り返す対角線パターンに従う、条項17に記載のコンピュータ実装方法。
【0249】
条項19.周期的間隔のマスクセットが、パターンを有する、条項1に記載のコンピュータ実装方法。
【0250】
条項20.パターンが、対角線パターンである、条項19に記載のコンピュータ実装方法。
【0251】
条項21.パターンが、六角形パターンである、条項19に記載のコンピュータ実装方法。
【0252】
条項22.パターンが、ダイヤモンドパターンである、条項19に記載のコンピュータ実装方法。
【0253】
条項23.パターンが、長方形パターンである、条項19に記載のコンピュータ実装方法。
【0254】
条項24.パターンが、正方形パターンである、条項19に記載のコンピュータ実装方法。条項25.パターンが、三角形パターンである、条項19に記載のコンピュータ実装方法。
【0255】
条項26.パターンが、凸パターンである、条項19に記載のコンピュータ実装方法。
【0256】
条項27.パターンが、凹パターンである、条項19に記載のコンピュータ実装方法。
【0257】
条項28.パターンが、多角形パターンである、条項19に記載のコンピュータ実装方法。
【0258】
条項29.一部分のパディングを最小化するために、トリミングに使用されるトリミングウィンドウを右シフトすることを更に含む、条項19に記載のコンピュータ実装方法。
【0259】
条項30.一部分のパディングを最小化するために、トリミングウィンドウを左シフトすることを更に含む、条項29に記載のコンピュータ実装方法。
【0260】
条項31.関心対象位置を一部分の中央列に位置付けるようにトリミングウィンドウを構成することを更に含む、条項1に記載のコンピュータ実装方法。
【0261】
条項32.関心対象位置を中心列に隣接して位置付けるようにトリミングウィンドウを構成することを更に含む、条項31に記載のコンピュータ実装方法。
【0262】
条項33.一部分において、第1の位置セットにある周期的間隔のマスクセットを、学習されたマスク埋め込みで置換することと、一部分において、第2の位置セットにある第2の残基セットを、学習された残基埋め込みで置換することとを更に含む、条項1に記載のコンピュータ実装方法。
【0263】
条項34.ワンホットエンコーディング生成器が、学習されたマスク埋め込み及び学習された残基埋め込みを生成する、条項33に記載のコンピュータ実装方法。
【0264】
条項35.学習されたマスク埋め込み及び学習された残基埋め込みが、ルックアップテーブルから選択される、条項34に記載のコンピュータ実装方法。
【0265】
条項36.一部分において、第1の位置セットにある周期的間隔のマスクセット、及び第2の位置セットにある第2の残基セットを、学習された位置埋め込みで置換することを更に含む、条項1に記載のコンピュータ実装方法。
【0266】
条項37.学習されたマスク埋め込み、学習された残基埋め込み、及び学習された位置埋め込みを用いて一部分を複数のチャンクにチャンク化することを更に含む、条項36に記載のコンピュータ実装方法。
【0267】
条項38.複数のチャンクを集約として処理することと、一部分の代替表現を生成することと、を更に含む、条項37に記載のコンピュータ実装方法。
【0268】
条項39.線形射影層が、1×1畳み込みのフィルタバンクを使用して、複数のチャンクを集約として処理し、一部分の代替表現を生成する、条項38に記載のコンピュータ実装方法。
【0269】
条項40.アテンションブロックのカスケードを通じて一部分の代替表現を処理して、一部分の更新された代替表現を生成することを更に含む、条項39に記載のコンピュータ実装方法。
【0270】
条項41.アテンションブロックのカスケードにおけるアテンションブロックが、自己アテンションを使用する、条項40に記載のコンピュータ実装方法。
【0271】
条項42.アテンションブロックの各々が、結合された行方向ゲート自己アテンションと、それに続く列方向ゲート付き自己アテンションと、それに続く遷移論理と、を含む、条項41に記載のコンピュータ実装方法。
【0272】
条項43.アテンションブロックが、クロスアテンションを使用する、条項40に記載のコンピュータ実装方法。
【0273】
条項44.マスク表出ブロックが、一部分の更新された代替表現を処理し、一部分の通知された代替表現を生成する、条項40に記載のコンピュータ実装方法。
【0274】
条項45.マスク表出ブロックが、行内のマスクされた場所と整列した特徴を収集し、行内のマスクごとに、行内の他のマスクされた場所に埋め込まれた標的トークンを表出させる、条項44に記載のコンピュータ実装方法。
【0275】
条項46.マスク収集ブロックが、一部分の通知された代替表現を処理し、一部分の収集された代替表現を生成する、条項44に記載のコンピュータ実装方法。
【0276】
条項47.マスク収集ブロックが、標的埋め込みがマスクされたままである特徴を収集する遷移論理及び行方向ゲート付き自己アテンションブロックのカスケードを通じて、通知された代替表現を処理する、条項46に記載のコンピュータ実装方法。
【0277】
条項48.出力ブロックが、一部分の収集された代替表現を処理し、周期的間隔のマスクセットによってマスクされた残基の同一性を予測する、条項47に記載のコンピュータ実装方法。
【0278】
条項49.出力ブロックは、遷移論理及びパーセプトロン論理を含む、条項48に記載のコンピュータ実装方法。
【0279】
条項50.周期的間隔のマスクサブセットを配列のウィンドウ内の非配列に適用する確率は、(1-非配列内のギャップトークンの数)^2に比例する、条項48に記載のコンピュータ実装方法。
【0280】
条項51.バリアントについての病原性予測を、バリアントの対数確率と、対応する参照アミノ酸の対数確率からアミノ酸単位の予測にわたって評価されたエントロピーを引いたものとの間の差に基づいて生成することを更に含む、条項1に記載のコンピュータ実装方法。
【0281】
条項セット4
条項1.コンピュータ実装方法であって、
多重配列アラインメント(MSA)にアクセスすることであって、MSAが、p個の行及びr個の列を有し、p個の行が、p個のタンパク質配列に対応し、r個の列が、r個の残基位置に対応する、アクセスすることと、
マスクグリッドにアクセスすることであって、マスクグリッドが、m個のマスク分布を有し、m個のマスク分布の各々が、マスクグリッド内の第1の残基位置からの変動オフセットで始まるk個の順序位置にk個の周期的間隔のマスクを有する、アクセスすることと、
m個のマスク分布をp個のタンパク質配列中のm個のタンパク質配列に適用して、マスクされた残基及びマスクされていない残基を含む、部分的にマスクされたMSAを生成することであって、p>mである、生成することと、マスクされた残基及びマスクされていない残基を、学習された埋め込みに変換し、学習された埋め込みを残基位置埋め込みと連結して、部分的にマスクされたMSAの埋め込まれた表現を生成することと、
埋め込まれた表現を一連のチャンクにチャンク化し、一連のチャンク内のチャンクをスタックに連結し、スタックを埋め込まれた表現の圧縮された表現に変換することであって、圧縮された表現が、m個の行及びr個の列を有する、変換することと、圧縮された表現のm個の行及びr個の列にわたって軸方向アテンションを反復的に適用し、適用された軸方向アテンションをインターリーブして、圧縮された表現の更新された表現を生成することであって、更新された表現が、m個の行及びr個の列を有する、生成することと、更新された表現から、k個の更新された表現タイルを集約することであって、k個の更新された表現タイルの各々が、マスクされた残基に対応する、更新された表現の更新された表現特徴を含み、k個の更新された表現タイルの各々が、m個の行及びk個の列を有し、所与の更新された表現タイルのk個の列内の所与の列が、更新された表現特徴のそれぞれのサブセットを含み、それぞれのサブセットが、k個の順序位置内の所与の順序位置に位置し、所与の順序位置が、所与の列によって表される、集約することと、埋め込まれた表現から、k個の更新された表現タイルに対応するk個の埋め込みタイルを集約することであって、k個の埋め込みタイルの各々が、マスクされた残基の変換である一連のチャンクのうちの第1のチャンク内の埋め込み特徴を含み、k個の埋め込みタイルの各々が、m個の行及びk個の列を有し、所与の埋め込みタイルのk個の列内の所与の列が、埋め込み特徴のそれぞれのサブセットを含み、それぞれのサブセットが、k個の順序位置内の所与の順序位置に位置し、所与の順序位置が、所与の列によって表される、集約することと
k個のブールタイルをk個の埋め込みタイルに適用して、k個のブール化埋め込みタイルを生成することであって、k個のブールタイルの各々が、m個の行及びk個の列を有し、k個のブールタイルの各々が、k個の埋め込みタイルのうちの対応する1つにおけるk個の列のうちの対応する1つの隠蔽を引き起こすとともに、k個の埋め込みタイルのうちの対応する1つにおけるk個の列のうちの他のものの表出を引き起こし、k個のブール化埋め込みタイルの各々が、m個の行及びk個の列を有する、生成することと、
k個のブール化埋め込みタイルをk個の更新された表現タイルと連結して、k個の連結されたタイルを生成し、k個の連結されたタイルをk個の連結されたタイルのk個の圧縮されたタイル表現に変換することであって、k個の圧縮されたタイル表現の各々が、m個の行及びk個の列を有する、変換することと、
k個の圧縮されたタイル表現に自己アテンションを反復的に適用して、k個のブールタイルによって表出されるk個の埋め込みタイルにおける埋め込み特徴に対応するk個の圧縮されたタイル表現における圧縮されたタイル特徴の解釈を生成することと、
k個のブールタイルによって隠蔽されるk個の埋め込みタイルにおける埋め込み特徴に対応する解釈された特徴を解釈から集約して、解釈の集約された表現を生成することであって、集約された表現が、m個の行及びk個の列を有する、生成することと、
集約された表現をマスクされた残基の同一性に変換することと、を含む、コンピュータ実装方法。
【0282】
条項2.ワンホットエンコーディングスキームを使用して、20個の天然由来の残基、ギャップ残基、及びマスクを、それぞれのワンホットエンコードされたベクトルに変換することを更に含む、条項1に記載のコンピュータ実装方法。
【0283】
条項3.それぞれのワンホットエンコードされたベクトルに対するそれぞれの学習された埋め込みを生成するようにニューラルネットワークを訓練することを更に含む、条項2に記載のコンピュータ実装方法。
【0284】
条項4.マスクされた残基及びマスクされていない残基が、それぞれのワンホットエンコードされたベクトルをそれぞれの学習された埋め込みにマッピングするルックアップテーブルに基づいて、学習された埋め込みに変換される、条項3に記載のコンピュータ実装方法。
【0285】
条項5.残基位置埋め込みは、残基が、pタンパク質配列内に配置される順序を指定する、条項4に記載のコンピュータ実装方法。
【0286】
条項6.チャンクが、チャネル次元に沿ってスタックに連結される、条項1に記載のコンピュータ実装方法。
【0287】
条項7.スタックが、線形射影を通じてスタックを処理することによって圧縮された表現に変換される、条項1に記載のコンピュータ実装方法。
【0288】
条項8.線形射影が、複数の一次元(1D)畳み込みフィルタを使用する、条項7に記載のコンピュータ実装方法。
【0289】
条項9.k個の連結されたタイルが、線形射影を通じてk個の連結されたタイルを処理することによって、k個の圧縮されたタイル表現に変換される、条項8に記載のコンピュータ実装方法。
【0290】
条項10.集約された表現が、表出出力ヘッドを通じて集約された表現を処理することによって、マスクされた残基の同一性に変換される、条項1に記載のコンピュータ実装方法。
【0291】
条項11.p=mである、条項1に記載のコンピュータ実装方法。
【0292】
条項12.k個のブールタイルの各々が、k個の埋め込みタイルのうちの対応する1つにおけるk個の列のうちの対応する1つの隠蔽を引き起こすとともに、k個の埋め込みタイルのうちの対応する1つにおけるk個の列のうちの他のもののうちの少なくともいくつかの表出を引き起こす、条項1に記載のコンピュータ実装方法。
【0293】
条項13.k個のブールタイルの各々が、k個の埋め込みタイルのうちの対応する1つにおけるk個の列のうちの対応するサブセットの隠蔽を引き起こすとともに、k個の埋め込みタイルのうちの対応する1つにおけるk個の列のうちの他のもののうちの少なくともいくつかの表出を引き起こす、条項1に記載のコンピュータ実装方法。
【0294】
条項14.m個のマスク分布のうちの少なくともいくつかのk個の周期的間隔のマスクが、第1の残基位置からの同じオフセットで開始する、条項1に記載のコンピュータ実装方法。
【0295】
条項15.システムであって、
複数のマスクされた残基を有する多重配列アラインメント(MSA)を記憶するメモリと、MSAを一連のチャンクにチャンク化するように構成されたチャンク化論理と、
一連のチャンクの表現に注目し、第1のアテンション出力を生成するように構成された第1のアテンション論理と、
複数のマスクされた残基中のマスクされた残基に対応する第1のアテンション出力における特徴を含む第1の集約された出力を生成するように構成された第1の集約論理と、
第1の集約された出力と、サブセットごとに、マスクされた残基の所与のサブセットを隠蔽することとマスクされた残基の残りのサブセットを表出させることとを交互に行うブールマスクとに基づいて、通知された出力を生成するように構成されたマスク表出論理と、通知された出力に注目し、ブールマスクによって表出された、マスクされた残基に基づいて、第2のアテンション出力を生成するように構成された第2のアテンション論理と、
ブールマスクによって隠蔽されたマスクされた残基に対応する第2のアテンション出力における特徴を含む第2の集約された出力を生成するように構成された第2の集約論理と、
第2の集約された出力に基づいて、マスクされた残基の特定を生成するように構成された出力論理と、を含む、システム。
【0296】
条項16.第1のアテンション論理が、軸方向アテンションを使用する、条項15に記載のシステム。
【0297】
条項17.第2のアテンション論理が、自己アテンションを使用する、条項15に記載のシステム。
【0298】
条項18.コンピュータ実装方法であって、
多重配列アラインメント(MSA)にアクセスすることであって、MSAが、p個の行及びr個の列を有し、p個の行が、p個のタンパク質配列に対応し、r個の列が、r個の残基位置に対応する、アクセスすることと、
マスクグリッドにアクセスすることであって、マスクグリッドが、m個のマスク分布を有し、m個のマスク分布の各々が、k個の順序位置にk個の周期的間隔のマスクを有する、アクセスすることと、m個のマスク分布をp個のタンパク質配列中のm個のタンパク質配列に適用して、マスクされた残基及びマスクされていない残基を含む、部分的にマスクされたMSAを生成することであって、p>mである、生成することと、マスクされた残基及びマスクされていない残基を、学習された埋め込みに変換し、学習された埋め込みを残基位置埋め込みと連結して、部分的にマスクされたMSAの埋め込まれた表現を生成することと、
埋め込まれた表現を一連のチャンクにチャンク化し、一連のチャンク内のチャンクをスタックに連結し、スタックを埋め込まれた表現の圧縮された表現に変換することと、
圧縮された表現のm個の行及びr個の列にわたって軸方向アテンションを反復的に適用し、適用された軸方向アテンションをインターリーブして、圧縮された表現の更新された表現を生成することと、
更新された表現から、k個の更新された表現タイルを集約することであって、k個の更新された表現タイルの各々が、マスクされた残基に対応する、更新された表現の更新された表現特徴を含む、集約することと、
埋め込まれた表現から、k個の更新された表現タイルに対応するk個の埋め込みタイルを集約することであって、k個の埋め込みタイルの各々が、マスクされた残基の変換である、一連のチャンクのうちの第1のチャンクにおける埋め込み特徴を含む、集約することと、k個のブールタイルをk個の埋め込みタイルに適用して、k個のブール化埋め込みタイルを生成することであって、k個のブールタイルの各々が、k個の埋め込みタイルのうちの対応する1つにおけるk個の列のうちの対応する1つの隠蔽を引き起こすとともに、k個の埋め込みタイルのうちの対応する1つにおけるk個の列のうちの他のものの表出を引き起こす、生成することと、
k個のブール化埋め込みタイルをk個の更新された表現タイルと連結して、k個の連結されたタイルを生成し、k個の連結されたタイルをk個の連結されたタイルのk個の圧縮されたタイル表現に変換することと、
k個の圧縮されたタイル表現に自己アテンションを反復的に適用して、k個のブールタイルによって表出されるk個の埋め込みタイルにおける埋め込み特徴に対応するk個の圧縮されたタイル表現における圧縮されたタイル特徴の解釈を生成することと、
k個のブールタイルによって隠蔽されるk個の埋め込みタイルにおける埋め込み特徴に対応する解釈された特徴を解釈から集約して、解釈の集約された表現を生成することと、集約された表現をマスクされた残基の同一性に変換することと、を含む、コンピュータ実装方法。
【0299】
条項19.
m個のマスク分布のうちの少なくともいくつかのk個の周期的間隔のマスクが、マスクグリッド内の第1の残基位置からの変動オフセットで開始する、条項18に記載のコンピュータ実装方法。
【0300】
条項20.m個のマスク分布のうちの少なくともいくつかのk個の周期的間隔のマスクが、第1の残基位置からの同じオフセットで開始する、条項19に記載のコンピュータ実装方法。
【0301】
条項21.圧縮された表現が、m個の行及びr個の列を有する、条項18に記載のコンピュータ実装方法。
【0302】
条項22.更新された表現が、m個の行及びr個の列を有する、条項18に記載のコンピュータ実装方法。
【0303】
条項23.k個の更新された表現タイルの各々が、m個の行及びk個の列を有し、所与の更新された表現タイルのk個の列内の所与の列が、更新された表現特徴のそれぞれのサブセットを含み、それぞれのサブセットが、k個の順序位置内の所与の順序位置に位置し、所与の順序位置が、所与の列によって表される、条項18に記載のコンピュータ実装方法。
【0304】
条項24.k個の埋め込みタイルの各々が、m個の行及びk個の列を有し、所与の埋め込みタイルのk個の列内の所与の列が、埋め込み特徴のそれぞれのサブセットを含み、それぞれのサブセットが、k個の順序位置内の所与の順序位置に位置し、所与の順序位置が、所与の列によって表される、条項18に記載のコンピュータ実装方法。
【0305】
条項25.k個のブールタイルの各々が、m個の行及びk個の列を有する、条項18に記載のコンピュータ実装方法。
【0306】
条項26.k個のブール化埋め込みタイルの各々が、m個の行及びk個の列を有する、条項18に記載のコンピュータ実装方法。
【0307】
条項27.k個の圧縮されたタイル表現の各々が、m個の行及びk個の列を有する、条項18に記載のコンピュータ実装方法。
【0308】
条項28.集約された表現が、m個の行及びk個の列を有する、条項18に記載のコンピュータ実装方法。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
【手続補正書】
【提出日】2024-07-02
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
バリアント病原性予測のコンピュータ実装方法であって、
クエリ残基配列を複数の非クエリ残基配列に整列させる多重配列アラインメントにアクセスすることと、
前記多重配列アラインメントにおける第1の位置セットにある第1の残基セットに周期的間隔のマスクセットを適用することであって、前記第1の残基セットが、前記クエリ残基配列における関心対象位置にある関心対象残基を含む、適用することと、
前記多重配列アラインメントの一部分をトリミングすることであって、前記多重配列アラインメントの一部分が、
(i)前記第1の位置セットにある前記周期的間隔のマスクセットと、
(ii)前記周期的間隔のマスクセットが適用されない、前記多重配列アラインメントにおける第2の位置セットにある第2の残基セットと、を含む、トリミングすることと、
前記多重配列アラインメントの前記一部分に基づいて、前記関心対象位置にあるバリアントについての病原性予測を生成することと、を含む、コンピュータ実装方法。
【請求項2】
前記多重配列アラインメントが、位置ごとの次元に沿って、かつ配列ごとの次元に沿って、前記クエリ残基配列を前記複数の非クエリ残基配列に整列させる、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記周期的間隔のマスクセットが、前記多重配列アラインメントにおける配列のウィンドウ内の配列ごとの次元に沿って適用される、請求項2に記載のコンピュータ実装方法。
【請求項4】
前記周期的間隔のマスクセットが、前記多重配列アラインメントにおける前記配列のウィンドウにわたる位置のウィンドウ内の位置ごとの次元に沿って適用される、請求項3に記載のコンピュータ実装方法。
【請求項5】
前記一部分が、所定の幅及び所定の高さを有する、請求項1~4のいずれか一項に記載のコンピュータ実装方法。
【請求項6】
前記一部分が、前記一部分の前記所定の幅より小さい幅を有する多重配列アラインメントを補償するためにパディングされる、請求項5に記載のコンピュータ実装方法。
【請求項7】
前記周期的間隔のマスクセットが、前記配列ごとの次元に沿って、周期的間隔のマスクサブセットに分散される、請求項2に記載のコンピュータ実装方法。
【請求項8】
前記周期的間隔のマスクサブセットが、配列のウィンドウ内の配列に対応する、請求項7に記載のコンピュータ実装方法。
【請求項9】
前記周期的間隔のマスクセットが、パターンを有する、請求項1~8のいずれか一項に記載のコンピュータ実装方法。
【請求項10】
前記一部分のパディングを最小化するために、前記トリミングに使用されるトリミングウィンドウを右シフトすることを更に含む、請求項9に記載のコンピュータ実装方法。
【請求項11】
前記一部分の前記パディングを最小化するために、前記トリミングウィンドウを左シフトすることを更に含む、請求項10に記載のコンピュータ実装方法。
【請求項12】
前記関心対象位置を前記一部分の中央列に位置付けるようにトリミングウィンドウを構成することを更に含む、請求項1~11のいずれか一項に記載のコンピュータ実装方法。
【請求項13】
前記関心対象位置を前記中心列に隣接して位置付けるように前記トリミングウィンドウを構成することを更に含む、請求項12に記載のコンピュータ実装方法。
【請求項14】
前記一部分において、前記第1の位置セットにある前記周期的間隔のマスクセットを、学習されたマスク埋め込みで置換することと、前記一部分において、前記第2の位置セットにある前記第2の残基セットを、学習された残基埋め込みで置換することとを更に含む、請求項1~13のいずれか一項に記載のコンピュータ実装方法。
【請求項15】
前記一部分において、前記第1の位置セットにある前記周期的間隔のマスクセット、及び前記第2の位置セットにある前記第2の残基セットを、学習された位置埋め込みで置換することを更に含む、請求項14に記載のコンピュータ実装方法。
【請求項16】
学習されたマスク埋め込み、前記学習された残基埋め込み、及び前記学習された位置埋め込みを用いて前記一部分を複数のチャンクにチャンク化することを更に含む、請求項15に記載のコンピュータ実装方法。
【請求項17】
前記複数のチャンクを集約として処理することと、前記一部分の代替表現を生成することと、を更に含む、請求項16に記載のコンピュータ実装方法。
【請求項18】
前記バリアントについての前記病原性予測を、前記バリアントの対数確率と、対応する参照アミノ酸の対数確率からアミノ酸単位の予測にわたって評価されたエントロピーを引いたものとの間の差に基づいて生成することを更に含む、請求項1~17のいずれか一項に記載のコンピュータ実装方法。
【請求項19】
メモリに結合された1つ以上のプロセッサを含むシステムであって、前記メモリには、バリアント病原性を予測するためのコンピュータ命令がロードされ、前記コンピュータ命令が、前記1つ以上のプロセッサ上で実行されると、
クエリ残基配列を複数の非クエリ残基配列に整列させる多重配列アラインメントにアクセスすることと、
前記多重配列アラインメントにおける第1の位置セットにある第1の残基セットに周期的間隔のマスクセットを適用することであって、前記第1の残基セットが、前記クエリ残基配列における関心対象位置にある関心対象残基を含む、適用することと、
前記多重配列アラインメントの一部分をトリミングすることであって、前記多重配列アラインメントの一部分が、
(i)前記第1の位置セットにある前記周期的間隔のマスクセットと、
(ii)前記周期的間隔のマスクセットが適用されない、前記多重配列アラインメントにおける第2の位置セットにある第2の残基セットと、を含む、トリミングすることと、
前記多重配列アラインメントの前記一部分に基づいて、前記関心対象位置にあるバリアントについての病原性予測を生成することと、を含む、アクションを実施する、システム。
【請求項20】
バリアント病原性を予測するためのコンピュータプログラム命令が記録された非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令が、プロセッサ上で実行されると、
クエリ残基配列を複数の非クエリ残基配列に整列させる多重配列アラインメントにアクセスすることと、
前記多重配列アラインメントにおける第1の位置セットにある第1の残基セットに周期的間隔のマスクセットを適用することであって、前記第1の残基セットが、前記クエリ残基配列における関心対象位置にある関心対象残基を含む、適用することと、
前記多重配列アラインメントの一部分をトリミングすることであって、前記多重配列アラインメントの一部分が、
(i)前記第1の位置セットにある前記周期的間隔のマスクセットと、
(ii)前記周期的間隔のマスクセットが適用されない、前記多重配列アラインメントにおける第2の位置セットにある第2の残基セットと、を含む、トリミングすることと、
前記多重配列アラインメントの前記一部分に基づいて、前記関心対象位置にあるバリアントについての病原性予測を生成することと、を含む、アクションを実施する、非一時的コンピュータ可読記憶媒体。
【国際調査報告】