IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌイーシー ラボラトリーズ アメリカ インクの特許一覧

特表2024-513884訓練データのための少数クラス例の生成
<>
  • 特表-訓練データのための少数クラス例の生成 図1
  • 特表-訓練データのための少数クラス例の生成 図2
  • 特表-訓練データのための少数クラス例の生成 図3
  • 特表-訓練データのための少数クラス例の生成 図4
  • 特表-訓練データのための少数クラス例の生成 図5
  • 特表-訓練データのための少数クラス例の生成 図6
  • 特表-訓練データのための少数クラス例の生成 図7
  • 特表-訓練データのための少数クラス例の生成 図8
  • 特表-訓練データのための少数クラス例の生成 図9
  • 特表-訓練データのための少数クラス例の生成 図10
  • 特表-訓練データのための少数クラス例の生成 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-27
(54)【発明の名称】訓練データのための少数クラス例の生成
(51)【国際特許分類】
   G06N 3/094 20230101AFI20240319BHJP
【FI】
G06N3/094
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023561304
(86)(22)【出願日】2022-04-04
(85)【翻訳文提出日】2023-11-09
(86)【国際出願番号】 US2022023280
(87)【国際公開番号】W WO2022216591
(87)【国際公開日】2022-10-13
(31)【優先権主張番号】63/170,697
(32)【優先日】2021-04-05
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/711,617
(32)【優先日】2022-04-01
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】504080663
【氏名又は名称】エヌイーシー ラボラトリーズ アメリカ インク
【氏名又は名称原語表記】NEC Laboratories America, Inc.
(74)【代理人】
【識別番号】100123788
【弁理士】
【氏名又は名称】宮崎 昭夫
(74)【代理人】
【識別番号】100127454
【弁理士】
【氏名又は名称】緒方 雅昭
(72)【発明者】
【氏名】ミン、 レンチャン
(72)【発明者】
【氏名】グラフ、 ハンス、 ペーター
(72)【発明者】
【氏名】ハン、 リゴン
(57)【要約】
モデルを訓練するための方法及びシステムは、エンコーダのモデルを用いて訓練ペプチド配列をエンコードする(203)ことを含む。生成器のモデルを用いて新規のペプチド配列が生成される(202)。エンコーダのモデル、生成器のモデル及び弁別器のモデルは、結合配列と非結合配列のそれぞれのクロスエントロピー損失を伴う学習投影ベクトルを含む訓練ペプチド配列であると弁別器が誤解する新規のペプチドを生成器のモデルに生成させるように、訓練される(206)。
【選択図】図3
【特許請求の範囲】
【請求項1】
モデルを訓練するコンピュータで実施する方法であって、
エンコーダのモデルを用いて訓練ペプチド配列をエンコードし(203)、
生成器のモデルを用いて新規のペプチド配列を生成し(202)、
結合配列と非結合配列のそれぞれのクロスエントロピー損失を伴う学習投影ベクトルを含む訓練ペプチド配列であると弁別器が誤解する新規のペプチドを前記生成器のモデルに生成させるように、前記エンコーダのモデル、前記生成器のモデル及び前記弁別器のモデルを訓練する(206)、コンピュータで実施する方法。
【請求項2】
前記生成器のモデルは、複数の焼戻しソフトマックス出力ユニットを用いてアミノ酸表現を出力する、請求項1に記載のコンピュータで実施する方法。
【請求項3】
前記新規のペプチドの配列を生成することは、前記生成器に対する入力として多変量単位変量ガウス分布をサンプリングすることを含む、請求項1に記載のコンピュータで実施する方法。
【請求項4】
pが訓練ペプチド配列に対応し、qが前記生成器のモデルによって生成されたペプチド配列に対応し、
【数1】
が前記訓練ペプチド配列及び生成されたペプチド配列の埋め込みを表し、
【数2】
が前記生成器のモデルによって生成された前記ペプチド配列の埋め込みを表し、
【数3】
が埋め込み関数であり、
【数4】
が訓練され生成された配列であり、P及びQがそれぞれ訓練され生成された分布であるとき、前記クロスエントロピー損失が
【数5】
を含む、請求項1に記載のコンピュータで実施する方法。。
【請求項5】
前記エンコーダのモデルは、訓練中に訓練データセットからのペプチド配列をベクトルに埋め込む、請求項1に記載の方法。
【請求項6】
前記エンコーダのモデルを訓練することは、カーネルの最大平均不一致正則化項を最小化することを含む、請求項5に記載の方法。
【請求項7】
前記訓練データセットが、主要組織適合性複合体に対する結合ペプチド配列及び非結合ペプチド配列を含む、請求項5に記載の方法。
【請求項8】
前記生成器が、前記エンコーダからの結合クラスラベル及びサンプリングされた潜在コードベクトルをペプチド特徴表現行列に変換し、前記行列の各列がアミノ酸に対応する、請求項5に記載の方法。
【請求項9】
前記エンコーダのモデル、前記生成器のモデル及び前記弁別器のモデルを訓練することは、ワッサースタインメトリックに基づく損失関数を用いる、請求項1に記載の方法。
【請求項10】
治療法を開発するためのコンピュータで実施する方法であって、
ウイルス病原体または腫瘍に関係する主要組織適合性複合体(MHC)タンパク質に関連する結合ペプチド配列を生成するために、敵対的生成ネットワーク(GAN)のモデルを訓練し(302)、
前記訓練されたGANを用いて新規の結合ペプチド配列を生成し(304)、
前記新規の結合ペプチド配列を用いるMHCタンパク質に関連する、ウイルス病原体または腫瘍の治療法を開発する(306)、方法。
【請求項11】
前記開発された治療法を用いて、人の前記ウイルス病原体または腫瘍を治療することをさらに含む、請求項10に記載の方法。
【請求項12】
モデルを訓練するためのシステムであって、
ハードウェアプロセッサ(910)と、
コンピュータプログラムを保存するメモリ(940)と、
を有し、前記コンピュータプログラムが前記ハードウェアプロセッサによって実行されると、ハードウェアプロセッサに、
エンコーダのモデルを用いて訓練ペプチド配列をエンコードし(203)、
生成器のモデルを用いて新規のペプチド配列を生成し(202)、
結合配列と非結合配列のそれぞれのクロスエントロピー損失を伴う学習投影ベクトルを含む訓練ペプチド配列であると弁別器が誤解する新規のペプチドを前記生成器のモデルに生成させるように、前記エンコーダのモデル、前記生成器のモデル及び前記弁別器のモデルを訓練する(206)ことを実行させる、システム。
【請求項13】
前記生成器のモデルは、複数の焼戻しソフトマックス出力ユニットを用いてアミノ酸表現を出力する、請求項12に記載のシステム。
【請求項14】
前記コンピュータプログラムは、前記ハードウェアプロセッサに、前記生成器に対する入力として多変量単位変量ガウス分布をサンプリングさせることをさらに含む、請求項12に記載のシステム。
【請求項15】
pが訓練ペプチド配列に対応し、qが前記生成器のモデルによって生成されたペプチド配列に対応し、
【数6】
が前記訓練ペプチド配列及び生成されたペプチド配列の埋め込みを表し、
【数7】
が前記生成器のモデルによって生成された前記ペプチド配列の埋め込みを表し、
【数8】
が埋め込み関数であり、
【数9】
が訓練され生成された配列であり、P及びQがそれぞれ訓練され生成された分布であるとき、前記クロスエントロピー損失が
【数10】
を含む、請求項12に記載のシステム。
【請求項16】
前記エンコーダのモデルは、訓練中に訓練データセットからのペプチド配列をベクトルに埋め込む、請求項12に記載のシステム。
【請求項17】
前記コンピュータプログラムは、前記ハードウェアプロセッサに、さらに前記エンコーダのモデルを訓練させるために、カーネルの最大平均不一致正則化項を最小化させる、請求項16に記載のシステム。
【請求項18】
前記訓練データセットが、主要組織適合性複合体に対する結合ペプチド配列及び非結合ペプチド配列を含む、請求項17に記載のシステム。
【請求項19】
前記生成器が、前記エンコーダからの結合クラスラベル及びサンプリングされた潜在コードベクトルをペプチド特徴表現行列に変換し、前記行列の各列がアミノ酸に対応する、請求項12に記載のシステム。
【請求項20】
前記コンピュータプログラムは、前記ハードウェアプロセッサに、さらにワッサースタインメトリックに基づく損失関数を用いて、前記エンコーダのモデル、前記生成器のモデル及び前記弁別器のモデルを訓練させる、請求項12に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
この出願は、2021年4月5日に出願された米国仮特許出願第63/170,697号及び2022年4月1日に出願された米国特許出願第17/711,617号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
【0002】
本発明は、ニューラルネットワークの訓練に関し、より詳細には、ニューラルネットワークの訓練データを拡張するための少数クラス例を生成することに関する。
【背景技術】
【0003】
ペプチド-MHC(Major Histocompatibility Complex:主要組織適合性複合体)タンパク質の相互作用は、細胞性免疫、免疫反応の制御及び移植による拒絶反応に関与している。MHCタンパク質と特定のペプチドとの間の結合相互作用スコアを予測するための計算ツールは存在するが、既存の結合ペプチドから新たに指定された特性を有する新規の結合ペプチドを生成するためのツールは不足している。
【発明の概要】
【0004】
モデルを訓練するための方法は、エンコーダのモデルを用いて訓練ペプチド配列をエンコードすることを含む。新規のペプチド配列は生成器のモデルを用いて生成される。エンコーダのモデル、生成器のモデル及び弁別器のモデルは、結合配列と非結合配列のそれぞれのクロスエントロピー損失を伴う学習投影ベクトルを含む訓練ペプチド配列であると弁別器が誤解する新規のペプチドを生成器モデルに生成させるように訓練される。
【0005】
治療法を開発する方法には、ウイルス病原体または腫瘍に関係する主要組織適合性複合体(MHC)タンパク質に関連する結合ペプチド配列を生成するために、敵対的生成ネットワーク(generative adversarial network:GAN)モデルを訓練することが含まれる。新規の結合ペプチド配列は、訓練されたGANを用いて生成される。新規の結合ペプチド配列を用いるMHCタンパク質に関連する、ウイルス病原体または腫瘍の治療法が開発される。
【0006】
モデルを訓練するためのシステムは、ハードウェアプロセッサと、コンピュータプログラムを格納するメモリとを含む。ハードウェアプロセッサによって実行されると、コンピュータプログラムは、ハードウェアプロセッサに、エンコーダのモデルを用いて訓練ペプチド配列をエンコードさせ、生成器のモデルを用いて新規のペプチド配列を生成させ、結合配列と非結合配列のそれぞれのクロスエントロピー損失を伴う学習投影ベクトルを含む訓練ペプチド配列であると弁別器が誤解する新規のペプチドを生成器のモデルに生成させるように、エンコーダのモデル、生成器のモデル及び弁別器のモデルを訓練させる。
【0007】
これら及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。
【0008】
本開示では、後述するように、以下の図面を参照しながら好ましい実施形態について詳細に説明する。
【図面の簡単な説明】
【0009】
図1図1は、本原理の一実施形態による、ペプチドと主要組織適合性複合体(MHC)との間の結合を示す図である。
【0010】
図2図2は、本発明の一実施形態による、結合ペプチド配列を生成するように訓練できる敵対的生成ネットワーク(GAN)のブロック図である。
【0011】
図3図3は、本発明の一実施形態による、所定の病原体に対する治療法を開発し、投薬するための方法のブロック/フロー図である。
【0012】
図4図4は、本発明の一実施形態による、所定のMHCタンパク質に結合できるペプチド配列を生成するようにGANを訓練するための方法のブロック/フロー図である。
【0013】
図5図5は、本発明の一実施形態による、例示的なペプチド配列の弁別器のニューラルネットワークアーキテクチャのブロック図である。
【0014】
図6図6は、本発明の一実施形態による、例示的なペプチド配列の分類器のニューラルネットワークアーキテクチャのブロック図である。
【0015】
図7図7は、本発明の一実施形態による、例示的なペプチド配列の生成器のニューラルネットワークアーキテクチャのブロック図である。
【0016】
図8図8は、本発明の一実施形態による、特定の主要組織適合性複合体に対する新規の結合ペプチドを生成することで開発された治療法を用いて治療されている患者の図である。
【0017】
図9図9は、本発明の一実施形態による、モデルを訓練し、新規の結合ペプチド配列を生成するためのプログラムコードを含むコンピューティング装置のブロック図である。
【0018】
図10図10は、本発明の一実施形態による、1つまたは複数のモデルを実現するために使用可能な例示的なニューラルネットワークアーキテクチャの図である。
【0019】
図11図11は、本発明の一実施形態による、1つまたは複数のモデルを実現するために使用可能な例示的なニューラルネットワークアーキテクチャの図である。
【発明を実施するための形態】
【0020】
ペプチドと主要組織適合性複合体(MHC)とのタンパク質の相互作用は、細胞性免疫、免疫反応の制御及び移植による拒絶反応に関与している。回帰ベースの方法及びニューラルネットワークベースの方法を含む機械学習システムは、MHCタンパク質と所定のペプチドの間の結合相互作用スコアの予測を生成できる。本明細書に記載される機械学習システムは、1つまたは複数の開始ペプチドに基づいて、MHCタンパク質との強い結合相互作用スコアを有する新規のペプチドを生成する。
【0021】
このような生成システムは、提供された結合ペプチドが、条件付き敵対的生成ネットワーク(GAN)等の生成モデルを訓練するのに十分であるとみなせる。但し、結合ペプチドの数が非結合ペプチドの数よりも大幅に少ない等の、提供された訓練データセットに不均衡がある場合でも、新規の結合ペプチドを生成してもよい。
【0022】
追加の少数クラスの訓練例を導入することで、訓練データセットを拡張できる。結合ペプチドを生成するための具体的な用途について本明細書で詳細に説明するが、本明細書で説明する訓練データセットの拡張は、視覚的な製品の欠陥分類や異常検出等の、識別されるカテゴリの訓練データが少ない様々な異なる用途に適用できることを理解されたい。
【0023】
新規の結合ペプチドは、MHC結合ペプチドと非結合ペプチドの両方を含むデータセットを用いて訓練された、深層生成システムを用いて生成される。条件付きGANは、予め定義されたペプチドのセットの結合スコアを予測する代わりに、焼戻し(tempering)ソフトマックスユニットを備えた生成器及びデュアルクラスラベル投影を備えたMHC結合ペプチドで訓練される。
【0024】
条件付きワッサースタイン(Wasserstein)GANは、MHCのための結合ペプチド配列と非結合ペプチド配列の両方を含むデータセットを用いて訓練される。条件付きワッサースタインGANには生成器と弁別器とが含まれており、該生成器は、サンプリングされた潜在コードベクトルz及びサンプリングされたラベルyを、生成されるペプチド配列に変換する深層ニューラルネットワークである。
【0025】
ここで図1を参照すると、図1には、ペプチド-MHCタンパク質結合の図が示されている。ペプチド102は、MHCタンパク質104と結合して示されており、図の互いに補完する二次元の接触面は、これらの三次元構造の互いに補完する形状を示唆している。MHCタンパク質104は細胞表面106に付着していてもよい。
【0026】
MHCは、免疫系で使用される細胞表面タンパク質をコード化するDNA鎖の領域である。MHC分子は免疫系によって使用され、白血球と他の細胞との相互作用に寄与する。MHCタンパク質は、例えば移植を行う際の臓器の適合性に影響を与え、ワクチンの作成にも重要である。
【0027】
一方、ペプチドはタンパク質の一部である。病原体がMHCタンパク質で認識されるペプチドを提示すると、免疫系は該病原体を破壊するための反応を起こす。したがって、MHCタンパク質に結合するペプチド構造を見つけることで、病原体そのものを体内に導入することなく、免疫反応を意図的に起こすことができる可能性がある。特に、MHCタンパク質104とうまく結合する既存のペプチドがあれば、所望の特性及び属性に従って新規のペプチド102を自動的に特定できる。
【0028】
本原理は、結合ペプチドの生成に特に焦点を当てて説明するが、ペプチド配列の継続的な結合親和性の予測、ペプチド配列の天然処理されたペプチドの予測、ペプチド配列のT細胞エピトープの予測等を含むように容易に拡張できる。用途の多様化は、以下で詳しく説明する、クロスエントロピー損失項を最適化するための様々な監視信号を提供することが含まれる。
【0029】
さらに、本発明の原理は、結合ペプチドの生成に限定されず、他の用途において他の少数クラス例を生成するように拡張することもできる。例えば、少数クラスの製品画像は、製品の検査や異常検出のために生成されることがある。そのようなタスクの場合、入力訓練データには画像が含まれることがあり、生成器のアーキテクチャはその入力フォーマットに対応するように変更されてもよい。
【0030】
ここで図2を参照すると、図2には、例示的なGAN200が示されている。GAN200は、生成器202及び弁別器204を含む。生成器202は訓練データセットの候補を生成し、弁別器204は、生成された候補と、提供された訓練データセット201からの真のサンプルとを識別しようと試みる。エンコーダ203は、訓練データセットの配列を埋め込み空間におけるベクトルに変換する。該エンコーダは、ブロック置換または事前訓練されたアミノ酸埋め込みスキームを用いて、アミノ酸の配列を、例えばアミノ酸に対応する行列の各列を有する特徴表現行列に変換できる。エンコーダ203及び生成器202は、弁別器を欺くように共に訓練される。
【0031】
生成器202は、弁別器204の誤り率が高くなるように訓練され、弁別器204は、生成された候補を識別する際の誤り率が低くなるように訓練される。訓練器206は、損失関数を用いて、生成器202と弁別器204の訓練を実行する。ワッサースタインGANでは、損失関数がワッサースタインメトリックに基づいている。
【0032】
ペプチド生成のコンテキストでは、訓練データセット201に、MHCと相互作用する結合ペプチド配列と非結合ペプチド配列の両方を含むことができる。生成器202は、多変量単位分散ガウス分布からのサンプリングされた潜在コードベクトルz及びサンプリングされた結合クラスラベル(例えば、「結合」の場合は1、「非結合」の場合は0)を、各列がアミノ酸に対応するペプチド特徴表現行列に変換する深層ニューラルネットワークであってもよい。
【0033】
弁別器204は、畳み込み層と、入力表現層及びスカラー値を出力する出力層との間の全結合層とを有する深層ニューラルネットワークであってもよい。弁別器204のパラメータは、訓練データセット201におけるサンプリングされたペプチド配列から生成されたペプチド配列を識別するために更新されてもよい。生成器202のパラメータは、弁別器204を欺くために更新される。
【0034】
各クラス(例えば、「結合」及び「非結合」)に関する2つのクロスエントロピー損失を伴う2つの投影ベクトルを同時に学習するために、デュアル投影GANを用いることができる。これは、一方の損失が訓練データにおける実際の結合/非結合ペプチドと訓練データにおける実際の非結合/結合ペプチドとを識別し、他方の損失が生成された結合/非結合ペプチドと生成された非結合/結合ペプチドとを識別する、生成されたデータ例とそれに関連付けられたラベルとの間の相互情報を最大化することと同等である。生成器202は、クラス毎にこれら2つのクロスエントロピー損失を最小化するように更新される。
【0035】
非ネガティブのスカラー重みλ(x)は、弁別器の損失のバランスをとるために、2つのクロスエントロピー損失に関連する各データポイントxについて学習される。λ(x)の大きな値にペナルティを課すために、-0.5log(λ(x))のペナルティ項を追加してもよい。データとラベルのペアは、結合分布PXYから得られる
【数1】
で表すことができる。ここで、xはペプチド配列であり、yはラベルである。生成器202は、実際の分布がPで示され、生成された分布がQで示される、実際のデータの分布と一致するようにラベルで条件付けされた正規分布からサンプルz~Pzを変換するように訓練される。弁別器204は、結合分布PXY及びQXYから抽出されたサンプルを識別するために学習する。
【0036】
弁別器及び生成器の損失項は、以下の目的関数のように書くことができる。
【数2】
ここで、
【数3】
はアクティベーションであり、
【数4】
はアクティベーション前の弁別器の出力である。活性化関数は、
【数5】
である。この活性化関数を用いると、最適な弁別器のロジットを以下の2つの方法で分解できる。
【数6】
【0037】
投影弁別器のロジックは以下で導出できる。
【数7】
ここで、
【数8】
はイメージ埋め込み関数であり、vyはクラスyの埋め込みであり、
【数9】
は残差項の集まりである。項vyは、実際のクラス埋め込みと生成されたクラス埋め込みとの差
【数10】
で表現できる。
【0038】
したがって、投影弁別器は、パラメータ
【数11】
を単一のvyに結び付けることができる。埋め込みを結び付けることは、カテゴリ決定境界の学習問題を、より単純なプロセスである、各クラスの相対変換ベクトルの学習に変えることができる。一般性を失うことなく、項
【数12】
は線形関数
【数13】
であると見なすことができる。ソフトプラス関数は
【数14】
で近似できるが、x+及びx-が誤って分類された場合に大きな損失が生じる。したがって、学習は次の手順を交互に実行してもよい。
【数15】
パラメータを結び付けることで、GANはラベルのマッチングを明確にすることなく、データのマッチングを直接実行し、
【数16】
に合わせることができる。
【0039】
項vyは、内在する
【数17】
との差を埋め合わせる必要があるが、その特性を明確にするために、クラス埋め込みを分離することが可能であり、条件付き分布
【数18】
を学習するために
【数19】
をそれぞれ用いてもよい。これはソフトマックス関数を用いて実行可能であり、クロスエントロピー損失は以下のように表現できる。
【数20】
ここで、p及びqは実際の結合ペプチド及び生成された結合ペプチドを用いた条件付き分布または損失関数に対応し、項
【数21】
は実際のサンプルの埋め込みと生成されたサンプルの埋め込みを表し、
【数22】
は埋め込み関数であり、
【数23】
は残差項の集まりであり、
【数24】
は実際の及び生成された配列(P及びQは実際の及び生成された分布である)であり、yはデータラベルである。分類器
【数25】
は実際のデータと生成されたデータで訓練され。弁別器の損失
【数26】
及び生成器の損失
【数27】
は上述したように訓練される。
【数28】
の両方は、パラメータ
【数29】
を含み、
【数30】
はどちらも
【数31】
を含む。
【0040】
データのマッチング及びラベルのマッチングは、モデルによって重み付けされる。2つの損失
【数32】
の間にゲートを追加してもよい。λの定義によってシステムの動作が変わる。バリアントには、指数関数的減衰モデル、スカラー値モデル及びならしモデルが含まれる。例えば、λは減衰係数
【数33】
で定義できる。ここで、tは訓練の反復であり、Tは訓練の反復の最大数である。
【0041】
スカラー値の実施形態において、
【数34】
が1として初期化された学習可能なパラメータである場合、λ>0である限りクラスの分離を実施できる。ペナルティ項
【数35】
を使用してもよい。
【0042】
ならし実施形態において、ならし等分散重みがデータポイント毎に学習される。項
【数36】
は、サンプル毎の重みを生成するxの関数になる。ペナルティを追加することも可能である。損失項にミニバッチ期待値における非線形性が含まれる場合、任意のタイプの線形化を適用してもよい。
【0043】
ソフトマックスは、生成器202の最後の出力層で使用可能であり、エントロピー正則化法を利用して焼戻しソフトマックスユニットにおける温度を暗黙的に制御できる。順方向パスにおいて、ストレートスルー推定量を用いて「結合」または「非結合」ラベルを有する個別のアミノ酸配列(ペプチド等)を出力できる。逆方向パスにおいて、継続的な勾配計算を容易にするために温度を利用できる。訓練の開始時では、より均一なアミノ酸放出確率分布を促すために、エントロピー正則化に対してより小さいペナルティ係数が設定される。訓練の後半では、より大きなペナルティ係数をエントロピー正則化に対して使用し、より多くのピークを有するアミノ酸放出確率分布を促すことができる。
【0044】
重み付きフレームワークにおいて弁別器204及び生成器202を更新することに加えて、エンコーダは、入力ペプチド配列xを潜在埋め込みコード空間zにマッピングするように訓練される。入力ペプチド配列の集めれた潜在コードは、カーネルの最大平均不一致正則化項を最小化することで多変量単位分散ガウス分布に従うようにできる。各埋め込みコードzは、元のペプチド配列xを再構成するために生成器202に供給され、エンコーダ及び生成器202は、再構成誤差としてクロスエントロピー損失を最小化することで更新される。
【0045】
訓練中に、m個の結合ペプチド配列が訓練セット201からランダムにサンプリングされる。m個のペプチドの潜在コードの凸結合は、ランダムにサンプリングされた係数を使用して計算できる。ここで、
【数37】
であり、Kはユーザ指定のハイパーパラメータである。凸結合は、重みの合計が1に等しいポジティブ重み付き線形結合である。生成器202は結合ペプチドを生成し、エンコーダ及び生成器202は、結合クラスの分類器
【数38】
が、生成されたペプチドを正しく分類し、弁別器204がそれを実際のデータとして分類するように更新される。
【0046】
ここで図3を参照すると、図3には、治療法を開発するための方法が示されている。ブロック302は、結合ペプチドと非結合ペプチドの両方を含む訓練データセットを用いて、新規の結合ペプチド配列を生成するようにGAN200を訓練する。生成器202は、ブロック304において、訓練されたGAN200から、病原体の所定のMHCタンパク質に対する新規の結合ペプチドを生成できる。病原体のMHCタンパク質にうまく結合するペプチドを特定すると、ブロック306は、そのペプチドに基づいた治療法を生成する。ブロック308は、例えば、病原体のMHCタンパク質に結合し、患者の免疫系が病原体を標的とすることを促す、特定されたペプチドを含む薬剤を投与することで、開発された治療法を用いて患者を治療する。
【0047】
ここで図4を参照すると、図4には、ブロック302の訓練に関する追加の詳細が示されている。ブロック402は、訓練データセットを生成する。訓練データセットは、ペプチド配列のセットを含むことが可能であり、それらはMHCタンパク質に対して結合または非結合としてそれぞれラベル付けされる。ブロック403は、ペプチド配列xを潜在空間zに埋め込まれたベクトルに変換するために、エンコーダを訓練する。上述したように、エンコーダは、入力ペプチド配列xを、多変量単位分散ガウス分布にするために、カーネルの最大平均不一致正則化項を最小化することを含む空間zにマッピングする。エンコーダの訓練は、再構成誤差がクロスエントロピー損失を最小限に抑制するのに役立つように使用されるため、生成器202の訓練と並行して実行される。
【0048】
ブロック404は、訓練されたエンコーダを用いて訓練データセットのペプチド配列をベクトルとしてエンコードする。これらのベクトルは、次に、生成器202に対する入力として使用される。ブロック408は、GAN200のデュアル投影ベクトルを学習する。GANの目的関数は、クラス毎の2つのクロスエントロピー損失と、弁別器の損失とクロスエントロピー損失のバランスを取る、データ固有の適応重みとを用いて最適化される。生成器202は、クロスエントロピー損失を最小限に抑制するため、焼戻しソフトマックス出力で更新される。ブロック403、404及び408にわたるこの訓練は、結合ペプチドを生成するために使用される結合配列埋め込みの凸結合を用いてブロック410で反復される。エンコーダ及び生成器202は、弁別器204及び分類器を欺くように更新される。反復の最大数に到達すると、反復処理を停止する。
【0049】
ここで図5を参照すると、図5には、弁別器204の例示的なアーキテクチャが示されている。ペプチド配列は、一連の埋め込みアミノ酸502として入力され、畳み込み層504及び1つまたは複数の全結合層506によって処理される。最後の全結合層の出力は、入力アミノ酸502が訓練データセット201内に存在する「実際の」配列を表すか、または生成器202で生成された配列を表すかを示すラベルである。
【0050】
ここで図6を参照すると、図6には、分類器の例示的なアーキテクチャが示されている。弁別器204と同様に、ペプチド配列は一連の埋め込まれたアミノ酸502として入力される。入力アミノ酸502は、畳み込み層604及び1つまたは複数の全結合層606によって処理され、所定のペプチド配列がMHCタンパク質と結合するか否かを識別するように訓練される。最後の全結合層の出力は、入力アミノ酸502が結合配列を表すか非結合配列を表すかを示すラベルである。
【0051】
ここで図7を参照すると、図7には、生成器700の例示的なアーキテクチャが示されている。ブロック702は、ランダムノイズベクトルzとクラスyを生成器に対する入力としてサンプリングする。このベクトルは、ゼロ平均及び単位対角分散を有する多変量ガウス分布からサンプリングすることが可能であり、結合クラスラベルを固定できる。
【0052】
サンプリングされたベクトル及びクラスは、入力をペプチド配列の表現に変換するように訓練された1つまたは複数の全結合層704によって処理される。一連の出力の焼戻しソフトマックスユニット706は、全結合層704の出力を処理し、ペプチド配列を形成するそれぞれのアミノ酸502を生成する。
【0053】
ここで図8を参照すると、図8には、患者802の治療が示されている。治療システム804は、GAN200によって生成されたペプチド配列に基づいた治療を施す。特に、患者102の病原体または腫瘍に対応する結合ペプチドが生成される。この結合ペプチドは、患者102に提供される治療の一部として使用することが可能であり、ペプチドは病原体または腫瘍細胞のMHCタンパク質と結合し、患者の自己免疫系が該病原体または該腫瘍を特定して除去するのを助ける。
【0054】
治療の実施は、治療システム804の接続を支援できる医療専門家806によって監督されてもよい。医療専門家806は、また結合ペプチドの特定に使用されるMHCタンパク質を単離するための診断ツールを使用して、病原体または腫瘍の特定に関与してもよい。
【0055】
ここで図9を参照すると、図9には、本発明の一実施形態による、例示的なコンピューティング装置900が示されている。コンピューティング装置900は、分類器拡張を実行するように構成されている。
【0056】
コンピューティング装置900は、コンピュータ、サーバ、ラックベースのサーバ、ブレードサーバ、ワークステーション、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、モバイルコンピューティング装置、ウェアラブルコンピューティング装置、ネットワークアプライアンス、Webアプライアンス、分散コンピューティングシステム、プロセッサベースのシステム及び/または家庭用電化製品を含むがこれらに限定されない、本明細書に記載された機能を実行できる任意のタイプの計算装置またはコンピュータ装置で具現化される。追加または代替として、コンピューティング装置900は、1つまたは複数の計算スレッド、メモリスレッドまたは他のラック、スレッド、計算シャーシ、あるいは物理的に分散されたコンピューティング装置の他のコンポーネントで具現化されてもよい。
【0057】
図9で示すように、コンピューティング装置400は、プロセッサ910、I/Oサブシステム920、メモリ930、データ記憶装置940、通信サブシステム950及び/またはサーバまたは同様の計算で一般的に見られる他のコンポーネント及び装置を例示的に含む。コンピューティング装置900は、他の実施形態において、サーバコンピュータに一般的に見られるコンポーネント(例えば、様々な入力/出力装置)等、他のコンポーネントまたは追加のコンポーネントを含んでいてもよい。さらに、いくつかの実施形態において、例示的な構成要素のうちの1つまたは複数を、別の構成要素に組み込むか、または別の構成要素の一部を形成してもよい。例えば、メモリ930またはその一部は、いくつかの実施形態において、プロセッサ910に組み込まれていてもよい。
【0058】
プロセッサ910は、本明細書に記載の機能を実行できる任意のタイプのプロセッサで具現化してもよい。プロセッサ910は、単一のプロセッサ、複数のプロセッサ、中央処理装置(CPU)、グラフィックス処理装置(GPU)、シングルまたはマルチコアプロセッサ、デジタル信号プロセッサ、マイクロコントローラまたは他のプロセッサまたは処理/制御回路で具現化してもよい。
【0059】
メモリ930は、本明細書に記載の機能を実行できる任意のタイプの揮発性または不揮発性メモリまたはデータ記憶装置で具現化してもよい。動作中、メモリ930は、オペレーティングシステム、アプリケーション、プログラム、ライブラリ及びドライバ等、コンピューティング装置900の動作中に使用される様々なデータ及びソフトウェアを格納できる。メモリ930は、I/Oサブシステム920を介してプロセッサ910に通信可能に接続され、これはプロセッサ910、メモリ930及びコンピューティング装置900の他のコンポーネントとの入出力動作を容易にする回路及び/またはコンポーネントで具現化される。例えば、I/Oサブシステム920は、メモリコントローラハブ、入力/出力制御ハブ、プラットフォームコントローラハブ、統合制御回路、ファームウェア装置、通信リンク(例えば、ポイントツーポイントリンク、バスリンク、ワイヤ、ケーブル、ライトガイド、プリント回路基板トレース等)及び/または入出力操作を容易にするその他のコンポーネント及びサブシステムで具現化されてもよく、あるいは含んでいてもよい。いくつかの実施形態において、I/Oサブシステム920は、システムオンチップ(SOC)の一部を形成してもよく、プロセッサ910、メモリ930及びコンピューティング装置900の他の構成要素と共に、単一の集積回路チップに組み込まれていてもよい。
【0060】
データ記憶装置940は、例えば、メモリ装置及び回路、メモリカード、ハードディスクドライブ、ソリッドステートドライブまたはその他のデータ記憶装置等、データの短期または長期の記憶のために構成された任意のタイプの装置または複数の装置で具現化できる。データ記憶装置940は、モデル訓練用のプログラムコード940A及び結合ペプチドを生成するためのプログラムコード940Bを格納できる。コンピューティング装置900の通信サブシステム950は、ネットワークを介してコンピューティング装置900と他のリモート装置との間の通信を可能にする、任意のネットワークインタフェースコントローラまたは他の通信回路、装置、若しくはそれらの集合で具現化される。通信サブシステム950は、任意の1つまたは複数の通信技術(例えば、有線または無線通信)及び関連するプロトコル(例えば、イーサネット、InfiniBand(登録商標)、Bluetooth(登録商標)、Wi-Fi(登録商標)、WiMAXなど)を用いて、そのような通信を行うように構成される。
【0061】
示されるように、コンピューティング装置900は、1つまたは複数の周辺装置960を含んでいてもよい。周辺装置960は、任意の数の追加の入力/出力装置、インタフェース装置及び/または他の周辺装置を含んでいてもよい。例えば、幾つかの実施形態において、周辺装置960は、ディスプレイ、タッチスクリーン、グラフィック回路、キーボード、マウス、スピーカシステム、マイクロフォン、ネットワークインタフェース及び/または他の入出力装置、インタフェース装置、ビデオキャプチャ装置及び/または周辺機器を含んでいてもよい。
【0062】
もちろん、コンピューティング装置900は、当業者であれば容易に思いつくような他の要素(図示せず)を含むことも、特定の要素を省略することもできる。例えば、当業者には容易に理解されるように、特定の実施に応じて、様々な他のセンサ、入力装置及び/または出力装置をコンピューティング装置900に含んでいてもよい。例えば、様々なタイプの無線及び/または有線入力及び/または出力装置を利用できる。さらに、様々な構成の追加のプロセッサ、コントローラ、メモリ等を利用することもできる。処理システム900のこれら及び他の変形例は、本明細書で提供される本発明の教示を考慮すれば、当業者に容易に考えられる。
【0063】
ここで図10及び11を参照すると、図10及び11には、本モデルの一部を実施するために用いることができる例示的なニューラルネットワークアーキテクチャが示されている。ニューラルネットワークは、追加の経験的データにさらされることで機能及び精度が向上する一般化されたシステムである。ニューラルネットワークは、経験的データにさらされることで訓練される。訓練中、ニューラルネットワークは、入力される経験的データに適用される複数の重みを保存し、調整する。調整された重みをデータに適用することで、データがクラスのセットから個別の予め定義されたクラスに属するものとして特定される、あるいは入力されたデータがクラスのそれぞれに属する確率が出力される。
【0064】
訓練データとしても知られる、複数の例のセットからの経験的データは、数値の文字列としてフォーマットされ、ニューラルネットワークの入力に供給される。各例は、既知の結果または出力に関連付けられている。各例は、ペア(x,y)として表すことができる。ここで、xは入力データを表し、yは既知の出力を表す。入力データには、様々な異なるタイプのデータが含まれ、複数の異なる値が含まれる。ネットワークは、例の入力データを構成する値のそれぞれに1つの入力ノードを有することが可能であり、各入力値に対して個別に重みを適用できる。例えば、入力データは、構築され、訓練されるニューラルネットワークのアーキテクチャに応じて、ベクトル、配列または文字列としてフォーマットされる。
【0065】
ニューラルネットワークは、入力データから生成されたニューラルネットワークの出力を既知の複数の例の値と比較し、保存された重みを調整して出力値と既知の値との差を最小化することで「学習」する。調整は、保存された重みに対して逆伝播を通じて行われ、出力値に対する重みの影響は、数学的な勾配を計算し、出力を最小の差の方へシフトさせる方法で重みを調整することで判定できる。勾配降下法と呼ばれるこの最適化は、訓練を実施する方法の非限定的な一例である。訓練に使用されなかった既知の値を有する複数の例のサブセットを用いて、ニューラルネットワークの精度をテスト及び検証できる。
【0066】
動作中、訓練されたニューラルネットワークは、一般化による訓練または検証で先に使用されなかった新規のデータに対して使用できる。ニューラルネットワークの調整された重みは新規のデータに適用可能であり、その重みは訓練例から展開された関数を推定する。重みによって取得される推定された関数のパラメータは、統計的推論に基づいている。
【0067】
層状のニューラルネットワークでは、複数のノードが層の形式で配置される。例示的でシンプルなニューラルネットワークは、ソースノード1022の入力層1020と、出力ノードとしても機能する1つまたは複数の計算ノード1032を有する単一の計算層1030とを有し、入力例が分類可能なカテゴリ毎に単一の計算ノード1032が存在する。入力層1020は、入力データ1010におけるデータ値1012の数と等しい数のソースノード1022を有することができる。入力データ1010におけるデータ値1012は、列ベクトルとして表すことができる。計算層1030の各計算ノード1032は、入力ノード1020に供給された入力データ1010から重み付けされた値の線形結合を生成し、その和に微分可能な非線形活性化関数を適用する。例示的でシンプルなニューラルネットワークは、線形分離可能な例(例えば、パターン)に対して分類を実行できる。
【0068】
多層パーセプトロン等の深層ニューラルネットワークは、ソースノード1022の入力層1020と、1つ以上の計算ノード1032を有する1つ以上の計算層1030と、入力例を分類できる、考えられるカテゴリ毎に単一の出力ノード1042が存在する、出力層1040とを有する。入力層1020は、入力データ1010におけるデータ値1012の数と等しい数のソースノード1022を有することができる。計算層1030の計算ノード1032は、ソースノード1022と出力ノード1042の間にあり、直接観察されないため、隠れ層とも呼ばれる。計算層の各ノード1032、1042は、前の層のノードから出力された値から重み付けされた値の線形結合を生成し、線形結合の範囲にわたって微分可能な非線形活性化関数を適用する。前の各ノードからの値に適用される重みは、例えば、w1,w2,...wn-1,wnで表すことができる。出力層は、入力データに対するネットワークの全体的な応答を提供する。深層ニューラルネットワークは、計算層の各ノードが前の層の他の全てのノードに接続される全結合にすることも可能であり、層間のコネクションに他の構成を有することもできる。ノード間のリンクが欠落している場合、ネットワークは部分的に接続されていると見なされる。
【0069】
深層ニューラルネットワークの訓練には、各ノードの重みが固定され、入力がネットワークを介して伝播する順方向フェーズと、誤差の値がネットワークを介して逆方向に伝播され、重みの値が更新される逆方向フェーズの2つのフェーズが含まれる。
【0070】
1つまたは複数の計算(隠れ)層1030の計算ノード1032は、特徴空間を生成する入力データ1012に対して非線形変換を実行する。クラスまたはカテゴリは、元のデータ空間よりも特徴空間の方が簡単に分離できる。
【0071】
本明細書に記載する実施形態は、全てハードウェアで実現してもよく、全てソフトウェアで実現してもよく、ハードウェアとソフトウェアの両方の要素を含んでいてもよい。好ましい実施形態において、本発明は、ファームウェア、常駐ソフトウェア、マイクロコード等を含むが、これらに限定されないソフトウェアでも実現可能である。
【0072】
実施形態には、コンピュータもしくは任意の命令実行システムによって使用される、または関連して使用されるプログラムコードを提供する、コンピュータで使用可能な、またはコンピュータで読み取り可能な媒体からアクセスできる、コンピュータプログラム製品を含んでもいてよい。コンピュータで使用可能な、またはコンピュータで読み取り可能な媒体には、命令実行システム、機器、もしくは装置によって使用される、または関連して使用されるプログラムを格納、伝達、伝搬または転送する任意の機器を含んでいてもよい。該媒体は、磁気媒体、光学媒体、電子媒体、電磁気媒体、赤外線媒体または半導体システム(または機器もしくは装置)、あるいは伝搬媒体であってもよい。該媒体には、半導体または固体メモリ、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスク及び光ディスク等のコンピュータで読み取り可能な媒体を含んでいてもよい。
【0073】
各コンピュータプログラムは、汎用または特別な目的を持つプログラム可能なコンピュータで読み取ることができる、機械で読み取り可能な記録媒体または装置(例えば、プログラムメモリまたは磁気ディスク)に格納される。該コンピュータプログラムは、記録媒体または装置から本明細書に記載された手順を実行するコンピュータで読み出される、該コンピュータの設定及び制御動作のためのものである。本発明のシステムには、本明細書に記載した機能を実行する、特定の及び事前に定義された方法をコンピュータに動作させるように構成されたコンピュータプログラムを含む、コンピュータで読み取り可能な記録媒体も考慮される。
【0074】
プログラムコードを格納及び/または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接または間接的に接続された少なくとも1つのプロセッサを備えていてもよい。このメモリ要素には、処理の実行中にバルクメモリ装置からコードが検索される回数を減らすために、プログラムコードの実際の実行中に用いられるローカルメモリ、バルクメモリ装置及び少なくともいくつかのプログラムコードを一時的に記憶するキャッシュメモリを備えていてもよい。入出力またはI/O装置(限定されるものではないが、キーボード、ディスプレイ、ポインティング装置等を含む)は、直接またはI/Oコントローラを介してシステムに接続されてもよい。
【0075】
ネットワークアダプタは、データ処理システムが、プライベートネットワークまたは公衆ネットワークを介して、他のデータ処理システムまたはリモートプリンタもしくはメモリ装置に接続されることを可能にするために、上記システムと接続されていてもよい。モデム、ケーブルモデム及びイーサネット(登録商標)カードは、現在利用可能なタイプのネットワークアダプタのほんの一例である。
【0076】
本明細書で用いる「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、1つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェアまたはそれらの組み合わせを指すことができる。有用な実施形態において、ハードウェアプロセッササブシステムは、1つまたは複数のデータ処理要素(例えば、論理回路、処理回路、命令実行装置等)を含むことができる。1つまたは複数のデータ処理要素は、中央処理装置、グラフィックス処理装置及び/または個別のプロセッサまたはコンピューティング要素ベースのコントローラ(例えば、論理ゲート等)を含めることができる。ハードウェアプロセッササブシステムは、1つ以上のオンボードメモリ(例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリ等)を含むことができる。任意の実施形態において、ハードウェアプロセッササブシステムは、オンボードまたはオフボードとすることができる、またはハードウェアプロセッササブシステム(例えば、ROM、RAM、基本入出力システム(BIOS)等)で用いるための専用の1つ以上のメモリを含むことができる。
【0077】
いくつかの実施形態において、ハードウェアプロセッササブシステムは、1つまたは複数のソフトウェア要素を含み、実行することができる。1つまたは複数のソフトウェア要素は、オペレーティングシステム及び/または1つまたは複数のアプリケーション及び/または特定の結果を達成するための特定のコードを含むことができる。
【0078】
他の実施形態において、ハードウェアプロセッササブシステムは、指定された結果を達成するために1つまたは複数の電子処理機能を実行する専用回路を含むことができる。そのような回路は、1つまたは複数の特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)及び/またはプログラマブルロジックアレイ(PLA)を含むことができる。
【0079】
ハードウェアプロセッササブシステムのこれら及び他の変形例もまた、本発明の実施形態によって考えられる。
【0080】
本明細書では本発明の「一実施形態」または「一実施形態」、並びにその他の変形形態に言及し、実施形態に関連して説明した特定の機能、構成、特徴などが、本発明の少なくとも1つの実施形態に含まれることを意味する。したがって、「一実施形態において」または「一実施形態において」という語句の出現、並びに本明細書全体を通して様々な場所に出現する任意の他の変形形態は、必ずしも全てが同じ実施形態を参照しているわけではない。しかしながら、本明細書で提供される本発明の教示が与えられると、1つまたは複数の実施形態の特徴を組み合わせることができることを理解されたい。
【0081】
例えば、「A/B」、「A及び/またはB」、並びに「A及びBのうちの少なくとも1つ」の場合における「/」、「及び/または」、並びに「うちの少なくとも1つ」のうちのいずれかの使用は、第1に挙げた選択肢(A)のみの選択、第2に挙げた選択肢(B)のみの選択、または両方の選択肢(A及びB)の選択を含むことを意図したものと理解すべきである。さらに例を挙げれば、「A、B及び/またはC」、並びに「A、B及びCのうちの少なくとも1つ」の場合、このような表現法は、第1に挙げた選択肢(A)のみの選択、第2に挙げた選択肢(B)のみの選択、第3に挙げた選択肢(C)のみの選択、第1及び第2に挙げた選択肢(A及びB)のみの選択、第1及び第3に挙げた選択肢(A及びC)のみの選択、第2及び第3に挙げた選択肢(B及びC)のみの選択、または3つの選択肢全て(A及びB及びC)の選択を含むことを意図したものである。上述した例は、列挙される多数の項目に応じて拡大適用される。
【0082】
上記は、あらゆる観点において説明的かつ典型的であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
【国際調査報告】