(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-11
(45)【発行日】2024-12-19
(54)【発明の名称】標的免疫療法のためのペプチド変異ポリシー
(51)【国際特許分類】
G16B 30/00 20190101AFI20241212BHJP
G16B 40/00 20190101ALI20241212BHJP
【FI】
G16B30/00
G16B40/00
(21)【出願番号】P 2023561305
(86)(22)【出願日】2022-04-04
(86)【国際出願番号】 US2022023281
(87)【国際公開番号】W WO2022216592
(87)【国際公開日】2022-10-13
【審査請求日】2023-11-16
(32)【優先日】2021-04-05
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-04-01
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】504080663
【氏名又は名称】エヌイーシー ラボラトリーズ アメリカ インク
【氏名又は名称原語表記】NEC Laboratories America, Inc.
(74)【代理人】
【識別番号】100123788
【氏名又は名称】宮崎 昭夫
(74)【代理人】
【識別番号】100127454
【氏名又は名称】緒方 雅昭
(72)【発明者】
【氏名】ミン、 レンチャン
(72)【発明者】
【氏名】グラフ、 ハンス ペーター
(72)【発明者】
【氏名】ハン、 リゴン
【審査官】塩田 徳彦
(56)【参考文献】
【文献】特開2020-077206(JP,A)
【文献】特表2022-545252(JP,A)
【文献】特表2020-536553(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
(57)【特許請求の範囲】
【請求項1】
機械学習モデルを訓練するための、コンピュータに実装された方法であって、
ペプチド配列とタンパク質とを含む状態をベクトルとして埋め込む(304)ことと、
報酬としてのタンパク質によるペプチド配列の提示スコアを使用して、前記ペプチド配列中のアミノ酸に対する改変を含む作用を予測する(306)ことと、
前記状態と前記報酬とを使用して、前記提示スコアを増加させる改変を生成するために変異ポリシーモデルを訓練する(308)ことと
と、
前記提示スコアを生成するスコアリングモデルを訓練することとを含み、
前記提示スコアが、ペプチド-タンパク質結合親和性と抗原プロセシングスコアとの組み合わせを表す方法。
【請求項2】
前記変異ポリシー
モデルの訓練は、クリッピング項、報酬項、および探索項を含む損失関数を最小化することを含む、請求項1に記載の方法。
【請求項3】
前記状態の埋め込みは、双方向の長短期記憶(LSTM)ニューラルネットワークを用いて行われる、請求項1に記載の方法。
【請求項4】
前記タンパク質が、主要組織適合複合体(MHC)タンパク質である、請求項1に記載の方法。
【請求項5】
機械学習モデルを訓練するシステムであって、
ハードウェアプロセッサ(410)と、
コンピュータプログラムを記憶するメモリ(440)とを有し、
前記コンピュータプログラムは、前記ハードウェアプロセッサによって実行されると、前記ハードウェアプロセッサに、
ペプチド配列とタンパク質とを含む状態をベクトルとして埋め込む(304)手順と、
報酬としてのタンパク質によるペプチド配列の提示スコアを使用して、前記ペプチド配列中のアミノ酸に対する改変を含む作用を予測する(306)手順と、
前記状態と前記報酬とを使用して、前記提示スコアを増加させる改変を生成するために変異ポリシーモデルを訓練する(308)手順と
、
前記提示スコアを生成するスコアリングモデルを訓練する手順とを実行させ、
前記提示スコアが、ペプチド-タンパク質結合親和性と抗原プロセシングスコアとの組み合わせを表すシステム。
【請求項6】
前記コンピュータプログラムは、前記ハードウェアプロセッサに、クリッピング項、報酬項、および探索項を含む損失関数を最小化することによって、前記変異ポリシー
モデルを訓練する手順を実行させる、請求項
5に記載のシステム。
【請求項7】
前記コンピュータプログラムは、前記ハードウェアプロセッサに、双方向の長短期記憶(LSTM)ニューラルネットワークを用いて、前記状態を埋め込む手順を実行させる、請求項
5に記載のシステム。
【請求項8】
前記タンパク質が、主要組織適合複合体(MHC)タンパク質である、請求項
5に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願情報
本出願は、2022年4月1日に出願された米国非仮特許出願第17/711,658号および2021年4月5日に出願された米国仮特許出願第63/170,727号の優先権を主張し、その全体が参照により本明細書に組み込まれる。
【背景技術】
【0002】
技術分野
本発明は免疫療法に関し、より詳細には、ペプチド配列の改変および改変ペプチド配列の結合親和性の予測に関する。
【0003】
関連技術の説明
ペプチド-MHC(主要組織適合複合体)タンパク質相互作用は、細胞媒介性免疫、免疫応答の制御、移植拒絶反応に関与している。MHCタンパク質と与えられたペプチドとの間の結合相互作用スコアを予測する計算ツールは存在するが、既存の結合ペプチドから新たな特定特性を持つ新たな結合ペプチドを生成するツールは不足している。
【発明の概要】
【0004】
機械学習モデルの学習方法は、ペプチド配列とタンパク質とを含む状態をベクトルとして埋め込むことを含む。報酬としてのタンパク質によるペプチド配列の提示スコアを使用して、ペプチド配列中のアミノ酸に対する改変を含む作用が予測される。変異ポリシーモデルは、状態と報酬とを使用して、提示スコアを増加させる改変を生成するために訓練される。
【0005】
治療法を開発する方法は、提示スコアに基づいて入力ペプチドに改変を生成するペプチド変異ポリシーモデルを訓練することを含む。ウイルス病原体または腫瘍を標的とするペプチドライブラリから既知のペプチドがサンプリングされる。MHCタンパク質による閾値以上の提示スコアを有する新たなペプチドを生成するために、ペプチド変異ポリシーを使用して、既知のペプチドが変異させられる。新たなペプチドを用いたMHCタンパク質に関連する病原体の治療法が開発される。
【0006】
機械学習モデルを訓練するシステムは、ハードウェアプロセッサとメモリとを含む。メモリは、コンピュータプログラムを記憶しており、このコンピュータプログラムは、ハードウェアプロセッサによって実行されると、ハードウェアプロセッサに、ペプチド配列とタンパク質とを含む状態をベクトルとして埋め込む手順と、報酬としてのタンパク質によるペプチド配列の提示スコアを使用して、ペプチド配列中のアミノ酸に対する改変を含む作用を予測する手順と、状態と報酬とを使用して、提示スコアを増加させる改変を生成するために変異ポリシーモデルを訓練する)手順とを実行させる。
【0007】
これらおよび他の特徴および利点は、添付図面と関連して読まれる、その例示的実施形態の以下の詳細な説明から明らかになるであろう。
【図面の簡単な説明】
【0008】
本開示は、以下の図を参照して、好ましい実施形態の以下の説明において詳細を提供する。
【0009】
【
図1】本発明の一実施形態による、ペプチドと主要組織適合複合体(MHC)との結合の図である。
【0010】
【
図2】本発明の一実施形態による、病原体または腫瘍に対応するペプチドに基づく変異ペプチドを用いて患者の治療法を開発する方法のブロック/フロー図である。
【0011】
【
図3】本発明の一実施形態による、強化学習を用いたペプチド変異ポリシーモデルの訓練方法のブロック/フロー図である。
【0012】
【
図4】本発明の一実施形態による、強化学習を用いてペプチド変異ポリシーモデルを訓練することができ、そのようなモデルを用いてペプチドを変異させることができる演算装置のブロック図である。
【0013】
【
図5】本発明の実施形態による、機械学習モデルの一部として使用可能なニューラルネットワークアーキテクチャの図である。
【0014】
【
図6】本発明の実施形態による、機械学習モデルの一部として使用可能な深層ニューラルネットワークアーキテクチャの図である。
【発明を実施するための形態】
【0015】
ペプチドと主要組織適合性複合体(MHC)との相互作用は、細胞媒介免疫、免疫応答の制御、移植拒絶反応において役割を果たしている。ペプチドとタンパク質との結合を予測することは、ワクチンやその他の医薬品に使用される可能性のあるペプチドの探索や設計の指針となる。既知のペプチドのライブラリがあれば、変異ポリシーを使って新たなペプチド配列を生成することができる。得られた変異ペプチドは、ペプチドライブラリから閾値数以内のアミノ酸差である可能性がある。ペプチドのライブラリがウイルスや腫瘍サンプルのような特定の病原体に由来する場合、変異ペプチドは特定の病原体や腫瘍を標的にするために使用することができる。これにより、例えば、個人の特定のがんを特定し、そのがんを標的とすることが可能になる。
【0016】
このように、特定のゲノム(例えば、ウイルスや腫瘍細胞から配列決定されたもの)が与えられた場合、ペプチド配列を抽出して、病原体を一意に特定するペプチドのライブラリを作成することができる。このライブラリを標的とすることで、細胞表面に存在するMHCに結合するペプチドを生成することができ、病原体や腫瘍細胞を殺すための免疫反応を引き起こすことができる。
【0017】
そのために、深層ニューラルネットワークを訓練データセットを用いて訓練し、MHC対立遺伝子配列とペプチド配列とからペプチド提示スコアを予測することができる。ペプチド提示スコアは、例えば、ペプチド-MHC結合親和性と抗原プロセシングスコアとの組み合わせとすることができる。
【0018】
訓練されたペプチド提示モデルに基づいて、深層強化学習は、高い提示スコアを持つペプチドを生成するために使用されても良い。変異ポリシーによって、生成されたペプチドを提供されたターゲットペプチドライブラリに近づけることができる。事前に訓練された提示スコア予測モデルは、ランダムペプチドから始まる報酬関数を定義するために使用しても良い。深層強化学習システムは、与えられたランダムペプチドを提示スコアの高いペプチドに変換することで、優れたペプチド変異ポリシーを学習するように訓練しても良い。
【0019】
ペプチドのバッチをターゲットライブラリからランダムにサンプリングし、変異ポリシーネットワークを用いてターゲットライブラリ中のペプチドを変異させることができる。変異ペプチドが開始ペプチドとのアミノ酸差の閾値数に達した時点で変異プロセスを停止し、変異ペプチドを出力しても良い。ポリシーネットワークは、類似性制約を用いてターゲットライブラリ用に微調整しても良い。
【0020】
ターゲットライブラリの各ペプチドは、類似性制約を満たす複数の変異ペプチドを生成しても良い。出力された変異ペプチドはランク付けされ、上位にランクされた変異ペプチドは、免疫療法のために病原体や腫瘍を標的とする薬剤候補として使用しても良い。
【0021】
このプロセスに強化学習システムを適用する場合、「状態」は与えられたMHC対立遺伝子配列およびペプチド配列であると解釈しても良く、「作用」はペプチド配列の編集であると解釈しても良い。このような編集は、ペプチド配列の決定された位置にある現在のアミノ酸を新たなアミノ酸に置き換えても良い。
【0022】
アミノ酸配列は、ニューラルネットワークモデルの畳み込み層と全結合層とを使って埋め込み、対立遺伝子表現を生成しても良い。双方向の長短期記憶(LSTM)層は、アミノ酸の埋め込みをさらに処理して、ペプチド表現を得ても良い。そして、深層ポリシーネットワークは、状態が与えられたときの様々な作用の条件付き確率を学習しても良い。各時刻ステップにおいて、作用に基づく変異ペプチドのペプチド提示スコアが閾値よりも増加した場合、正の報酬値が割り当てられ、そうでない場合、負の報酬値が割り当てられても良い。
【0023】
次に
図1を参照すると、ペプチド-MHCタンパク質結合の図が示されている。ペプチド102はMHCタンパク質104と結合しているように示されており、図の相補的な二次元界面は、これらの三次元構造の相補的な形状を示唆している。MHCタンパク質104は細胞表面106に付着している可能性がある。
【0024】
MHCは、免疫系が使用する細胞表面タンパク質を暗号化するDNA鎖上の領域である。MHC分子は免疫系で使用され、白血球と他の細胞との相互作用に寄与する。例えば、MHCタンパク質は、移植を行う際の臓器の適合性に影響を与えるし、ワクチンの製造にも重要である。
【0025】
一方、ペプチドはタンパク質の一部である。病原体がMHCタンパク質に認識されるペプチドを提示すると、免疫系は病原体を破壊する反応を引き起こす。このように、MHCタンパク質と結合するペプチド構造を見つけることで、病原体そのものを体内に持ち込むことなく、免疫反応を意図的に引き起こすことができる。特に、MHCタンパク質104とよく結合する既存のペプチドが与えられた場合、新規のペプチド102は、所望の特性や属性に従って自動的に特定される可能性がある。
【0026】
次に
図2を参照すると、病気を治療する方法が示されている。ブロック202は、ペプチドpとMHCタンパク質mとを入力として受け入れ、ペプチドpとタンパク質mとの間の結合親和性を表す出力スコアr(p,m)、特に、ペプチドpがタンパク質mによって細胞表面に提示される確率を表す出力スコアr(p,m)を生成する、ペプチドスコアリングモデルを訓練する。場合によっては、スコアリングモデルは既製のモデルで、事前に訓練されていても良い。場合によっては、提示スコアは抗原プロセシング予測値と結合親和性予測値の合成スコアであることがあり、前者は抗原プロセシングタンパク質複合体に関連するトランスポーターによってペプチドが小胞体に送達され、そこでペプチドがMHCタンパク質に結合できる確率を予測する。
【0027】
ブロック204は、ペプチド配列がどのように改変されるかを導く変異ポリシーネットワークを訓練する。詳細は後述するが、このポリシーネットワークは強化学習システムをガイドし、ペプチドとMHCタンパク質とを入力とし、ペプチドの改変または「変異」を出力する。ポリシーネットワークは、MHCタンパク質に対する変異ペプチドの提示スコアを向上させる目的で変異を選択する。
【0028】
ブロック206は、問題の病原体に関連するペプチドのライブラリをサンプリングする。場合によっては、このサンプリングはランダムに行われても良い。場合によっては、ライブラリ中のすべてのペプチドを評価しても良い。ブロック208は、次に、サンプリングされたペプチドを変異ポリシーネットワークに従って変異させ、サンプリングされたペプチドとは、例えば、最大でも所定のアミノ酸数だけ異なる新たな変異ペプチドを生成する。ブロック210は、これらの変異ペプチドを提示スコアに従ってランク付けし、より良い結合はより高いランクに対応する。
【0029】
病原体のMHCタンパク質によく結合する変異ペプチドを特定した後、ブロック212は、そのペプチドに基づく治療法を生成する。ブロック214では、開発された治療法を用いて、例えば、病原体のMHCタンパク質に結合し、患者の免疫系が病原体を標的とするように促す、特定されたペプチドを含む薬剤を投与することにより、患者を治療する。
【0030】
この枠組みでは、ペプチドはアミノ酸p=<o1,o2, ... , ol>の配列として表すことができる。ここで、oは天然アミノ酸の集合の1つで、lは配列の長さで、例えば8と15との間である。強化学習エージェントが、高い提示ペプチド生成のためのペプチド変異環境を探索する。このように、一対の入力(p,m)が与えられると、強化学習エージェントは、ペプチドを繰り返し変異させ、その結果の提示スコアを観察することによって、ペプチド変異環境を探索し、利用する。これによりエージェントは、変異ポリシーπ(・)を学習し、与えられたペプチドのアミノ酸を反復的に変異させ、高い提示スコアを生成する。こうして、ペプチド変異環境と変異ポリシーネットワークとが決定される。
【0031】
ペプチド変異環境では、強化学習エージェントが試行錯誤的にペプチド変異を行い、変異ポリシーネットワークのパラメータを調整することで、変異ポリシーを徐々に洗練させることができる。学習中、強化学習エージェントはペプチドを変異させ続け、その提示スコアを報酬シグナルとして決定する。報酬はエージェントの変異行動を強化するのに役立ち、高い提示スコアを生み出す変異行動が奨励される。
【0032】
変異環境には、状態空間、作用空間、報酬関数が含まれる。この状態には、現在の変異ペプチドとMHCタンパク質とが含まれる。作用と報酬とはそれぞれ、強化学習エージェントが取りうる変異作用を表し、その結果、変異ペプチドの新たな提示スコアが得られる。
【0033】
環境の状態は、ある組(p,m)の時刻tにおけるstと定義することができる。MHCタンパク質は、例えば34個のアミノ酸からなる擬似配列として表すことができ、各アミノ酸は、例えば4.0Åの距離で結合ペプチドと接触する可能性がある。長さlのペプチドおよびMHCタンパク質では、状態stはタプルst=(Ep,Em)として表される。ここで、EpおよびEmはそれぞれペプチドとMHCタンパク質の符号化行列である。状態s0は、ライブラリからペプチド配列をサンプリングし、MHCクラスIタンパク質を使用することで初期化されても良い。訓練中、適切なペプチド配列とMHCタンパク質とを使用することができる。終末状態sTは、最大時間ステップTを有する状態、または所定の閾値σよりも大きな提示スコアを有する状態として定義することができる。終末状態sTに達すると、ペプチドの変異を停止することができる。
【0034】
あるアミノ酸を別のアミノ酸に置き換えてペプチドを最適化するために、多離散作用空間を定義することができる。ある時点tで、ペプチドptが与えられると、強化学習エージェントの作用は、置換されるアミノ酸oiの位置を決定し、その位置の新たなアミノ酸のタイプを予測することである。報酬関数は強化学習エージェントの最適化を導き、末端の状態のみがペプチド変異環境から報酬を受け取ることができる。最終的な報酬は、ペプチドpTが終末状態sTにあるとき、r(pT,m)として決定されても良い。
【0035】
ブロック204で変異ポリシーを学習するために、強化学習エージェントは、変異ペプチドの提示スコアを最大化することを目標に、入力ペプチド配列のアミノ酸を、各ステップで1アミノ酸ずつ変異させることを学習する。ペプチドとMHCタンパク質との両方を分散埋め込み空間に符号化し、埋め込み空間と変異ポリシーとの間のマッピングを勾配降下最適化によって学習しても良い。
【0036】
ペプチド配列およびMHCタンパク質内のアミノ酸を表現するために、複数の符号化方法が使用されても良い。各アミノ酸は、ブロック置換行列(BLOSUM)からの符号化ベクトル
【数1】
とワンホット行列からの
【数2】
と学習可能な埋め込み行列からの
【数3】
とを連結することによって表すことができる。したがって、
【数4】
ここで
【数5】
となる。これにより、ペプチド-MHCタンパク質に対する良好な結合予測性能が得られる。ペプチドpとMHCタンパク質mの符号化行列E
pとE
mとはそれぞれ
【数6】
と
【数7】
とで表される。Mは、利用可能なアミノ酸の数である。
【0037】
ペプチド配列p中の各アミノ酸o
iは、例えば1層の双方向のLSTM
【数8】
を用いて、連続潜在ベクトル
【数9】
に埋め込むことができる。ここで
【数10】
および
【数11】
はi番目のアミノ酸の隠れ状態ベクトルであり、
【数12】
および
【数13】
はi番目のアミノ酸のメモリ細胞状態であり、
【数14】
および
【数15】
および
【数16】
および
【数17】
はランダムな値で初期化され、
【数18】
および
【数19】
はそれぞれLSTMの順方向と逆方向との学習可能なパラメータである。ペプチド配列の埋め込みは、両端の隠しベクトルの連結として定義することができる。
【数20】
【0038】
MHCタンパク質を連続的な潜伏ベクトルに埋め込むために、符号化行列E
mはベクトル
【数21】
に平坦化される。連続的な潜在埋め込み
【数22】
は次のように学習されても良い。
【数23】
ここで、ReLU(・)は整流化線形単位活性化関数であり、
【数24】
は学習可能なパラメータ行列である。
【0039】
各時間ステップtにおいて、ペプチド配列p
tは、潜在埋め込み
【数25】
および
【数26】
を用いて1つのアミノ酸の変異を予測することによって最適化され得る。具体的には、アミノ酸o
iは、置換されるアミノ酸としてp
tから選択することができる。ペプチド配列の各アミノ酸o
iについて、置換のスコアは次のように予測されても良い。
【数27】
ここで
【数28】
はo
iの隠れ潜在ベクトルであり、
【数29】
および
【数30】
はそれぞれ学習可能なベクトルおよび行列である。アミノ酸o
iが他のアミノ酸に置き換わる可能性は、
【数31】
とMHCタンパク質
【数32】
との文脈を見ることで測定できる。置換されるアミノ酸は、正規化されたスコアの分布からサンプリングして決定することができる。o
iに代わるアミノ酸の種類は、次のように決定されても良い。
【数33】
ここで、
【数34】
は学習可能な行列であり、ソフトマックス(・)は20次元ベクトルを20種類のアミノ酸に対する確率に変換する。アミノ酸の種類は、元のアミノ酸の種類o
iを除いたアミノ酸の種類の確率分布からサンプリングして決定することができる。
【0040】
変異ポリシーの学習の目的関数は、次のように定義できる。
【数35】
ここで、
【数36】
は、時間ステップtに関する期待値(例えば、全ての時間ステップにわたる平均)であり、θは、ポリシーネットワークの学習可能なパラメータの集合であり、
【数37】
は、現在のポリシーπ
θの下での作用と前のポリシー
【数38】
の下での作用との間の確率比である。比率r
t(θ)は、r
tが区間[1-∈,1+∈]の外側に移動しないようにクリップされる。
【数39】
は時間ステップtにおけるアドバンテージであり、一般化されたアドバンテージ推定量を用いて計算され、選択された作用が他の作用よりも平均的にどれだけ優れているかを測定する。
【数40】
ここで、γ∈(0,1)は将来の報酬の重要性を決定する割引係数であり、
【数41】
は時間差誤差であり、V(s
t)は価値関数であり、λ∈(0,1)はV(s
t)の偏りと分散とのバランスをとるためのパラメータである。
【0041】
価値関数V(s
t)は、多層パーセプトロンを用いて、MHC埋め込み
【数42】
とペプチド埋め込み
【数43】
とから、現在の状態s
tの将来の戻り値を予測することができる。V(・)の目的関数は次のように定義できる。
【数44】
ここで
【数45】
は報酬の価値である。最終報酬のみが使用されるため(例えば、r
i=0∀i≠T)、
【数46】
は
【数47】
として計算することができる。エントロピーの正則化損失H(θ)は、ポリシーの探索を奨励するために使用することもできる。
【0042】
訓練を安定させ、性能を向上させるために、既存のデータからエキスパートポリシーπ
eptを導き出すことができる。十分な結合ペプチドデータを持つ各MHCタンパク質mについて、長さlのペプチドのアミノ酸分布<p
1(o|m),p
2(o|m),...,p
l(o|m)>が決定されても良い。ペプチドpが与えられると、Iの位置は次のように選択され得る。
【数48】
ここで、
【数49】
は位置iの最もポピュラーなアミノ酸である。つまり
【数50】
である。
【0043】
位置を決定した後、アミノ酸を分布
【数51】
からサンプリングすることができる。実験データのないMHCタンパク質の場合、例えばブロック置換行列を用いて、データのあるMHCすべてから距離を計算し、最も類似したMHCのアミノ酸分布から作用をサンプリングすることができる。
【0044】
エキスパートポリシーは、ポリシーネットワークの事前学習に使用できる。事前学習の目的関数は、以下のクロスエントロピー損失を最小化することができる。
【数52】
ここで、Sは状態空間を表し、
【数53】
および
【数54】
はそれぞれf
cとf
dとでパラメータ化され、変異の位置とアミノ酸とを選択するためのポリシーネットワークである。ポリシーネットワークの事前学習に加えて、エキスパートポリシーを使って訓練開始時に作用をサンプリングし、その軌跡をエキスパート作用を使ってポリシーネットワークを更新することができる。
【0045】
生成されるペプチドの多様性を高めるために、非決定論的なポリシーを用いて多様な作用を生成することができる。このようなポリシーは、広い状態空間の探索を増やし、それによって多様な良い作用を見つけることができる。
【0046】
探索を促進するために、エントロピー正則化を目的関数に含めることができる。ポリシーの多様な作用の学習を明示的に実施するために、多様性を促進する経験バッファを使用して、適格なペプチドをもたらす可能性のある軌跡を保存することができる。各反復で、適格なペプチドの変異軌道の訪問された状態-作用のペアをバッファに加えることができる。作用の頻度が低い状態-作用のペアは維持し、頻度の高い作用のペアはバッファが頻度の高い作用に支配されないように削除することができる。作用の頻度が低い状態-作用のペアをバッファから一括してサンプリングすることができる。
【0047】
そして、高い報酬を誘発する可能性のある、頻度の低い作用を再現するようにポリシーネットワークを奨励するために、頻度の低い作用を持つ状態-作用のペアのバッチに対して定義されたクロスエントロピー損失L
Bを、最終的な目的関数に含めることができる。
【数55】
ここで、Hはポリシーネットワークのエントロピーであり、α
1、α
2、α
3は予め決められた係数である。
【0048】
次に
図3を参照すると、ブロック204におけるポリシーモデルの訓練に関する追加の詳細が示されている。ブロック302は、例えば異なる符号化の混合物を用いてアミノ酸を符号化する。ブロック304は、双方向LSTMを用いて(例えばライブラリの)ペプチド配列を埋め込み、平坦化符号化行列を用いてMHCタンパク質を連続潜在ベクトルに埋め込む。
【0049】
ブロック306は、変異作用の報酬を予測するために、現在の変異ポリシーを使用する。作用は上述のように選択することができ、報酬は事前に訓練された提示スコアモデルが示す結合強度に基づいて計算することができる。ブロック308は、変異ポリシーが最も高い報酬をもたらす傾向のある変異作用を示すように、報酬に基づいて変異ポリシーを訓練することができる。
【0050】
次に
図4を参照すると、本発明の実施形態による、例示的な演算装置400が示されている。演算装置400は、分類器の強化を実行するように構成されている。
【0051】
演算装置400は、限定されないが、コンピュータ、サーバ、ラックベースのサーバ、ブレードサーバ、ワークステーション、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、モバイル演算装置、ウェアラブル演算装置、ネットワーク機器、ウェブ機器、分散演算システム、プロセッサベースのシステム、および/または利用者電子装置など、本書に記載される機能を実行できる任意のタイプの計算またはコンピュータ装置として具現化することができる。さらにまたは代替的に、演算装置400は、1つまたは複数のコンピュートスレッド、メモリスレッド、または他のラック、スレッド、演算シャーシ、または物理的に分解された演算装置の他の構成要素として具現化されてもよい。
【0052】
図4に示すように、演算装置400は、例示的に、プロセッサ410、入力/出力サブシステム420、メモリ430、データ記憶装置440、および通信サブシステム450、および/またはサーバまたは同様の演算装置に一般的に見られる他の構成要素およびデバイスを含んでいる。もちろん、演算装置400は、他の実施形態において、サーバコンピュータに一般的に見られるような他のまたは追加の構成要素(例えば、様々な入力/出力デバイス)を含んでもよい。さらに、いくつかの実施形態では、例示的な構成要素の1つ以上が、別の構成要素に組み込まれるか、さもなければ、別の構成要素の一部を形成することができる。例えば、メモリ430、またはその一部は、いくつかの実施形態において、プロセッサ410に組み込まれてもよい。
【0053】
プロセッサ410は、本明細書に記載された機能を実行することができる任意のタイプのプロセッサとして具現化することができる。プロセッサ410は、シングルプロセッサ、マルチプロセッサ、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、シングルまたはマルチコアプロセッサ、デジタル信号プロセッサ、マイクロコントローラ、またはその他のプロセッサやプロセスシング/制御回路として具現化されてもよい。
【0054】
メモリ430は、本明細書に記載された機能を実行することができる任意のタイプの揮発性または不揮発性メモリまたははデータストレージとして具現化され得る。動作中、メモリ430は、オペレーティングシステム、アプリケーション、プログラム、ライブラリ、およびドライバなど、演算装置400の動作中に使用される様々なデータおよびソフトウェアを格納することができる。メモリ430は、I/Oサブシステム420を介してプロセッサ410と通信可能に結合され、プロセッサ410、メモリ430、および演算装置400の他の構成要素との入出力動作を容易にするための回路および/または構成要素として具現化され得る。例えば、I/Oサブシステム420は、メモリコントローラハブ、入力/出力制御ハブ、プラットフォームコントローラハブ、集積制御回路、ファームウェアデバイス、通信リンク(例えば、ポイントツーポイントリンク、バスリンク、ワイヤ、ケーブル、ライトガイド、プリント回路基板トレースなど)および/または、入力/出力操作を容易にするための他の構成要素およびサブシステムとして具現化されてもよく、さもなければ、これらを含んでいても良い。いくつかの実施形態では、I/Oサブシステム420は、システムオンチップ(SOC)の一部を形成し、プロセッサ410、メモリ430、および演算装置400の他の構成要素と共に、単一の集積回路チップに組み込まれてもよい。
【0055】
データ記憶装置440は、例えば、メモリ装置および回路、メモリカード、ハードディスクドライブ、ソリッドステートドライブ、または他のデータ記憶装置など、データの短期または長期記憶用に構成された任意のタイプの装置またはデバイスとして具現化することができる。データ記憶装置440は、変異ポリシーモデルを訓練するためのプログラムコード440Aと変異ポリシーモデルに従ってペプチド配列を変異させるためのプログラムコード440Bとを格納することができる。演算装置400の通信サブシステム450は、ネットワークを介して演算装置400と他のリモート装置との間の通信を可能にすることができる、任意のネットワークインタフェースコントローラまたは他の通信回路、装置、またはその集合体として具現されることができる。通信サブシステム450は、任意の1つ以上の通信技術(例えば、有線または無線通信)および関連するプロトコル(例えば、イーサネット、InfiniBand(登録商標)、Bluetooth(登録商標)、Wi-Fi(登録商標)、WiMAX(登録商標)など)を使用してそのような通信を実現するように構成され得る。
【0056】
図示のように、演算装置400は、1つ以上の周辺装置460も含むことができる。周辺装置460は、任意の数の追加の入出力装置、インタフェース装置、および/または他の周辺装置を含んでもよい。例えば、いくつかの実施形態では、周辺装置460は、ディスプレイ、タッチスクリーン、グラフィック回路、キーボード、マウス、スピーカシステム、マイク、ネットワークインタフェース、および/または他の入力/出力装置、インタフェース装置、および/または周辺装置を含むことができる。
【0057】
もちろん、演算装置400は、当業者が容易に思いつくように、他の要素(図示せず)を含むこともでき、また、特定の要素を省略することもできる。例えば、様々な他のセンサ、入力装置および/または出力装置は、当業者によって容易に理解されるように、同じものの特定の実装に依存して、演算装置400に含まれることが可能である。例えば、様々なタイプの無線および/または有線の入力および/または出力装置を使用することができる。さらに、プロセッサ、コントローラ、メモリなどを追加して、様々な構成で利用することも可能である。処理システム400のこれらおよび他の変形例は、本明細書に提供される本発明の教示を考慮すれば、当業者によって容易に企図されるものである。
【0058】
次に
図5と
図6とを参照すると、例示的なニューラルネットワークアーキテクチャが示されており、これらは本モデルの一部を実装するために使用することができる。ニューラルネットワークは汎化されたシステムであり、追加的な経験的データにさらされることでその機能と精度が向上する。ニューラルネットワークは、経験的データにさらされることによって学習される。訓練中、ニューラルネットワークは、入力される経験的データに適用される複数の重みを記憶し、調整する。調整された重みをデータに適用することで、データがクラスの集合からあらかじめ定義された特定のクラスに属することを識別したり、入力されたデータが各クラスに属する確率を出力したりすることができる。
【0059】
一連の例から得られた経験的データ(訓練データとも呼ばれる)は、値の文字列としてフォーマットされ、ニューラルネットワークの入力に供給される。各例は、既知の結果または出力と関連付けられる。各列は、(x,y)の組として表され、xは入力データ、yは既知の出力を表す。入力データには様々なデータタイプがあり、複数の異なる値が含まれていても良い。ネットワークは、例の入力データを構成する各値に対して1つの入力ノードを持つことができ、各入力値には別々の重みを適用することができる。入力データは、例えば、構築され訓練されるニューラルネットワークのアーキテクチャに応じて、ベクトル、配列、または文字列としてフォーマットすることができる。
【0060】
ニューラルネットワークは、入力データから生成されたニューラルネットワーク出力を例の既知の値と比較し、記憶された重みを調整して出力値と既知の値の差を最小にすることで「学習」する。調整は、逆伝搬を通じて記憶された重みに対して行うことができ、出力値に対する重みの影響は、数学的勾配を計算し、出力を最小差にシフトさせる方法で重みを調整することによって決定される。勾配降下法と呼ばれるこの最適化は、訓練がどのように行われるかの非限定的な例である。訓練に使用されなかった既知の値を持つ例のサブセットは、ニューラルネットワークの精度をテストし、検証するために使用することができる。
【0061】
運用中、訓練されたニューラルネットワークは、汎化によって、以前に訓練や検証に使用されなかった新たなデータに使用することができる。調整されたニューラルネットワークの重みは、新たなデータに適用することができ、重みは訓練例から開発された関数を推定する。重みによって捕捉される推定関数のパラメータは、統計的推論に基づいている。
【0062】
レイヤードニューラルネットワークでは、ノードは層の形で配置される。例示的な単純ニューラルネットワークは、ソースノード522の入力層520と、出力ノードとしても機能する1つまたは複数の計算ノード532を有する単一の計算層530とを有し、入力例が分類され得る各可能なカテゴリに対して単一の計算ノード532が存在する。入力層520は、入力データ510のデータ値512の数に等しい数のソースノード522を有することができる。入力データ510のデータ値512は列ベクトルとして表すことができる。計算層530の各計算ノード532は、入力ノード520に供給された入力データ510から重み付けされた値の線形結合を生成し、合計に微分可能な非線形活性化関数を適用する。例示的な単純ニューラルネットワークは、線形分離可能な例(例えば、パターン)に対して分類を実行することができる。
【0063】
多層パーセプトロンなどの深層ニューラルネットワークは、ソースノード522の入力層520、1つまたは複数の計算ノード532を有する1つまたは複数の計算層530、および入力例が分類される可能性のあるカテゴリごとに1つの出力ノード542がある出力層540を有することができる。入力層520は、入力データ510のデータ値512の数に等しい数のソースノード522を有することができる。計算層530の計算ノード532は、ソースノード522と出力ノード542との間にあり、直接観察されないため、隠れ層とも呼ばれる。計算層の各ノード532,542は、前の層のノードから出力された値から重み付けされた値の線形結合を生成し、線形結合の範囲にわたって微分可能な非線形活性化関数を適用する。各前のノードからの値に適用される重みは、例えばw1,w2,...wn-i,wnで表すことができる。出力層は、入力されたデータに対するネットワークの全体的な応答を提供する。深層ニューラルネットワークは、計算レイヤの各ノードが前のレイヤのすべてのノードに接続されている完全接続の場合もあれば、レイヤ間の接続が他の構成になっている場合もある。ノード間のリンクが欠落している場合、ネットワークは部分的に接続されていると呼ばれる。
【0064】
深層ニューラルネットワークの訓練には、各ノードの重みを固定し、入力をネットワークに伝搬させるフォワードフェーズと、エラー値をネットワークに逆伝搬させ、重み値を更新するバックワードフェーズの2つのフェーズがある。
【0065】
1つ以上の計算(隠れ)層530の計算ノード532は、特徴空間を生成する入力データ512に対して非線形変換を実行する。クラスやカテゴリは、元のデータ空間よりも特徴空間の方がより簡単に分離できるかもしれない。
【0066】
本明細書に記載する実施形態は、完全にハードウェアであってもよく、完全にソフトウェアであってもよく、または、ハードウェア要素とソフトウェア要素との両方を含むものであってもよい。好ましい実施形態では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むがこれらに限定されないソフトウェアで実施される。
【0067】
実施形態は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するためのプログラムコードを提供する、コンピュータ使用可能またはコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを格納、通信、伝搬、またはトランスポートする任意の装置を含むことができる。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体システム(または装置またはデバイス)、または伝搬媒体とすることができる。媒体は、半導体または固体ステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスクおよび光ディスクなどのコンピュータ読み取り可能な記憶媒体を含むことができる。
【0068】
各コンピュータプログラムは、本明細書に記載する手順を実行するために、記憶媒体または装置がコンピュータによって読み取られるときに、コンピュータの操作を構成し制御するために、汎用または特殊目的のプログラム可能コンピュータによって読み取り可能な、機械読み取り可能な記憶媒体または装置(例えば、プログラムメモリまたは磁気ディスク)に実体的に記憶することができる。本発明のシステムはまた、コンピュータプログラムで構成された、コンピュータ読み取り可能な記憶媒体で実施されるものと考えることができ、その場合、構成された記憶媒体は、コンピュータを特定の所定の方法で動作させて、本明細書に記載する機能を実行させる。
【0069】
プログラムコードを記憶および/または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも1つのプロセッサを含んでもよい。メモリ要素は、プログラムコードの実際の実行中に採用されるローカルメモリ、バルクストレージ、および実行中にバルクストレージからコードが検索される回数を減らすために少なくとも何らかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力/出力またはI/O装置(キーボード、ディスプレイ、ポインティング装置などを含むが、これらに限定されない)は、直接または介在するI/Oコントローラを介してシステムに結合され得る。
【0070】
ネットワークアダプタは、データ処理システムが、介在するプライベートまたはパブリックネットワークを介して他のデータ処理システムまたはリモートプリンタまたはストレージデバイスに結合されるようになることを可能にするために、システムに結合されることもできる。モデム、ケーブルモデム、イーサネットカードは、現在利用可能なネットワークアダプタの種類のほんの一部に過ぎない。
【0071】
本明細書で採用されるように、「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、1つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェアまたはそれらの組み合わせを指すことができる。有用な実施形態では、ハードウェアプロセッササブシステムは、1つまたは複数のデータ処理要素(例えば、論理回路、処理回路、命令実行デバイスなど)を含むことができる。1つまたは複数のデータ処理要素は、中央処理ユニット、画像処理ユニットおよび/または別個のプロセッサまたはコンピューティング要素ベースのコントローラ(たとえば、論理ゲートなど)に含めることができる。ハードウェアプロセッササブシステムは、1つ以上のオンボードメモリ(例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリなど)を含むことができる。いくつかの実施形態では、ハードウェアプロセッササブシステムは、オンボードまたはオフボードにすることができるか、またはハードウェアプロセッササブシステム(例えば、ROM、RAM、基本入出力システム(BIOS)など)によって使用するために専用にすることができる1つ以上のメモリを含むことができる。
【0072】
ある実施形態では、ハードウェアプロセッササブシステムは、1つ以上のソフトウェア要素を含むことができ、実行することができる。1つ以上のソフトウェア要素は、特定の結果を達成するために、オペレーティングシステムおよび/または1つ以上のアプリケーションおよび/または特定のコードを含むことができる。
【0073】
他の実施形態では、ハードウェアプロセッササブシステムは、指定された結果を達成するために1つまたは複数の電子処理機能を実行する専用の専用回路を含むことができる。そのような回路は、1つまたは複数のアプリケーション専用集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、および/またはプログラマブルロジックアレイ(PLA)を含むことができる。
【0074】
ハードウェアプロセッササブシステムのこれらおよび他の変形もまた、本発明の実施形態に従って企図される。
【0075】
明細書において、本発明の「一実施形態」または「一実施形態」、およびその他の変形例への言及は、実施形態に関連して説明した特定の特徴、構造、特性などが、本発明の少なくとも一実施形態に含まれることを意味する。したがって、本明細書中の各所に現れる「一実施形態において」または「一実施形態において」という表現、および他の任意の変形は、必ずしもすべてが同じ実施形態を指すとは限らない。しかしながら、本明細書で提供される本発明の教示を考慮して、1つ以上の実施形態の特徴を組み合わせることができることは理解されるであろう。
【0076】
例えば「A/B」の場合、「Aおよび/またはB」、「AとBとの少なくとも1つ」のような、以下の「/」、「および/または」、「少なくとも1つ」のいずれかの使用は、第1のリストされた選択肢(A)のみの選択、または第2のリストされた選択肢(B)のみの選択、または両方の選択肢(AおよびB)の選択を包含すると意図していると理解されよう。さらなる例として、「A、B、および/またはC」および「A、B、およびCの少なくとも1つ」の場合、かかる表現は、第1のリストされた選択肢(A)のみの選択、または第2のリストされた選択肢(B)のみの選択、または第3のリストされた選択肢(C)のみの選択、または第1および第2のリストされた選択肢(AおよびB)のみの選択、第1および第3のリストされた選択肢(AおよびC)のみの選択、第2および第3のリストされた選択肢(BおよびC)のみの選択、または3つすべての選択肢(AおよびBおよびC)の選択を包含すると意図されている。このことは、記載された項目の数だけ拡張することができる。
【0077】
上記は、あらゆる点で例示的かつ例示的であるが、制限的なものではないと理解され、ここに開示された発明の範囲は、詳細な説明からではなく、特許法によって許される全幅に従って解釈された請求項から決定されるものである。本明細書に示され説明された実施形態は、本発明の例示に過ぎず、当業者は、本発明の範囲及び精神から逸脱することなく、様々な修正を実施することができることを理解されたい。当業者であれば、本発明の範囲と精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。このように、特許法が要求する詳細さと特殊性をもって本発明の側面を説明したが、特許状によって請求され、保護されることを望むものは、添付の特許請求の範囲に記載されているとおりである。