(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-12-19
(54)【発明の名称】ワクチンを設計するためのシステムおよび方法
(51)【国際特許分類】
G16B 40/20 20190101AFI20221212BHJP
G06N 3/02 20060101ALI20221212BHJP
G06N 20/00 20190101ALI20221212BHJP
C07K 14/005 20060101ALN20221212BHJP
【FI】
G16B40/20
G06N3/02
G06N20/00
C07K14/005
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022523426
(86)(22)【出願日】2020-10-20
(85)【翻訳文提出日】2022-05-25
(86)【国際出願番号】 US2020056507
(87)【国際公開番号】W WO2021080990
(87)【国際公開日】2021-04-29
(32)【優先日】2019-10-21
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】517055195
【氏名又は名称】サノフィ パスツール インコーポレイテッド
(74)【代理人】
【識別番号】100127926
【氏名又は名称】結田 純次
(74)【代理人】
【識別番号】100140132
【氏名又は名称】竹林 則幸
(72)【発明者】
【氏名】アルマハン・ワシーム・ナイク
(72)【発明者】
【氏名】マリオ・バロ
【テーマコード(参考)】
4H045
【Fターム(参考)】
4H045AA50
4H045CA01
4H045EA31
(57)【要約】
ワクチンを設計するためのシステムは、1つまたはそれ以上のプロセッサと、1つまたはそれ以上のプロセッサによって実行されると1つまたはそれ以上のプロセッサが1つまたはそれ以上の動作を行う実行可能コンピュータ命令を記憶する、コンピュータ記憶装置とを含む。1つまたはそれ以上の動作は、1つまたはそれ以上の分子配列を表す出力データを生成するように構成された複数のドライバモデルを第1の時系列データセットに適用することを含む。1つまたはそれ以上の動作は、複数のドライバモデルのそれぞれについてドライバモデルを訓練することを含む。1つまたはそれ以上の動作は、1つまたはそれ以上の学習済みトランスレーショナル反応に基づいて、複数のドライバモデルのうちの学習済みドライバモデルのセットを選択することを含む。1つまたはそれ以上の動作は、第2のトランスレーショナル反応データに基づいて、学習済みドライバモデルのセットのうちの学習済みドライバモデルのサブセットを選択することを含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ワクチンを設計するための方法であって:
1つまたはそれ以上の分子配列を表す出力データを生成するように構成された複数のドライバモデルを第1の時系列データセットに適用する工程であって、該第1の時系列データセットは、1つまたはそれ以上の分子配列と、該1つまたはそれ以上の分子配列のそれぞれについてその分子配列を天然抗原として含む病原株の1つまたはそれ以上の循環期間とを示す、工程と;
複数のドライバモデルのそれぞれについて:
i)ドライバモデルから、受けた第1の時系列データセットに基づいた1つまたはそれ以上の予測分子配列を表す出力データを受けること;
ii)予測された1つまたはそれ以上の分子配列を表す出力データに、分子配列に対する生体反応を複数のトランスレーショナル軸について予測するように構成されたトランスレーショナルモデルを適用して、複数のトランスレーショナル軸の特定のトランスレーショナル軸に対応する1つまたはそれ以上の第1のトランスレーショナル反応を表す第1のトランスレーショナル反応データを、出力データの1つまたはそれ以上の予測分子配列に基づいて生成すること;
iii)ドライバモデルの1つまたはそれ以上のパラメータを第1のトランスレーショナル反応データに基づいて調整すること;および
iv)工程i~iiiをある反復回数だけ繰り返して、特定のトランスレーショナル軸に対応する1つまたはそれ以上の学習済みトランスレーショナル反応を表す学習済みトランスレーショナル反応データを生成すること;
によってドライバモデルを訓練する工程と、
1つまたはそれ以上の学習済みトランスレーショナル反応に基づいて、複数のドライバモデルのうちの学習済みドライバモデルのセットを選択する工程と;
学習済みドライバモデルのセットのうちの学習済みドライバモデルごとに:
第2の時系列データセットに学習済みドライバモデルを適用して、1つまたはそれ以上の予測分子配列を特定の季節について表す学習済み出力データを生成する工程と;
最終出力データにトランスレーショナルモデルを適用して、1つまたはそれ以上の第2のトランスレーショナル反応を複数のトランスレーショナル軸の各トランスレーショナル軸について表す第2のトランスレーショナル反応データを生成する工程と;
該第2のトランスレーショナル反応データに基づいて、学習済みドライバモデルのセットのうちの学習済みドライバモデルのサブセットを選択する工程と
を含む、前記方法。
【請求項2】
複数のドライバモデルのうちの少なくとも1つは、リカレントニューラルネットワークを含む、請求項1に記載の方法。
【請求項3】
複数のドライバモデルのうちの少なくとも1つは、長短記憶リカレントニューラルネットワークを含む、請求項1に記載の方法。
【請求項4】
受けた第1の時系列データセットに基づいた1つまたはそれ以上の予測分子配列を表す出力データは、複数の発症季節のそれぞれの抗原を表す出力データを含む、請求項1に記載の方法。
【請求項5】
複数の発症季節のそれぞれの抗原を表す出力データは、特定の季節に循環しているすべての病原株にわたって最大化集約生物学的反応を生成する分子配列を予測することによって決定される抗原を含む、請求項4に記載の方法。
【請求項6】
複数の発症季節のそれぞれの抗原を表す出力データは、特定の季節に循環している最大数のウイルスに対して効果的に免疫する反応を生成する分子配列を予測することによって決定される抗原を含む、請求項4に記載の方法。
【請求項7】
複数のトランスレーショナル軸は:フェレット抗体フォレンジックス(AF)軸、フェレット赤血球凝集阻害(HAI)軸、マウスAF軸、マウスHAI軸、ヒトレプリカAF軸、ヒトAF軸、またはヒトHAI軸のうちの少なくとも1つを含む、請求項1に記載の方法。
【請求項8】
反復回数は、所定の反復回数に基づいている、請求項1に記載の方法。
【請求項9】
反復回数は、所定の誤差値に基づいている、請求項1に記載の方法。
【請求項10】
1つまたはそれ以上の第1のトランスレーショナル反応は:予測フェレットHAI力価、予測フェレットAF力価、予測マウスAF力価、予測マウスHAI力価、予測ヒトレプリカAF力価、予測ヒトAF力価、または予測ヒトHAI力価のうちの少なくとも1つを含む、請求項1に記載の方法。
【請求項11】
複数のドライバモデルのうちの学習済みドライバモデルのセットを選択する工程は:
複数のドライバモデルの各ドライバモデルをドライバモデルのクラスに割り当てることであって、各クラスは、そのドライバモデルを訓練するために使用される複数のトランスレーショナル軸のうちの特定のトランスレーショナル軸に関連付けられていること;および
複数のドライバモデルのドライバモデルごとに、そのドライバモデルの1つまたはそれ以上の学習済みトランスレーショナル反応を、そのドライバモデルと同じクラスに割り当てられた少なくとも1つの他のドライバモデルの1つまたはそれ以上の学習済みトランスレーショナル反応と比較すること
を含む、請求項1に記載の方法。
【請求項12】
学習済みドライバモデルのサブセットの学習済みドライバモデルごとに:
その学習済みドライバモデルに対応する第2のトランスレーショナル反応データを観察された実験反応データと比較することによって、その学習済みドライバモデルを検証する工程と;
その学習済みドライバモデルを検証する工程に応じて、その学習済みドライバモデルに対応する学習済み出力データによって表される1つまたはそれ以上の分子配列を含むワクチンを生成する工程と
をさらに含む、請求項1に記載の方法。
【請求項13】
ワクチンを設計するためのシステムであって:
1つまたはそれ以上のプロセッサと;
実行可能コンピュータ命令を記憶するコンピュータ記憶装置とを含み、コンピュータ命令が1つまたはそれ以上のプロセッサによって実行されると、該1つまたはそれ以上のプロセッサが:
1つまたはそれ以上の分子配列を表す出力データを生成するように構成された複数のドライバモデルを第1の時系列データセットに適用する動作であって、該第1の時系列データセットは、1つまたはそれ以上の分子配列と、該1つまたはそれ以上の分子配列のそれぞれについてその分子配列を天然抗原として含む病原株の1つまたはそれ以上の循環期間とを示す、動作と;
複数のドライバモデルのそれぞれについて:
i)ドライバモデルから、受けた第1の時系列データセットに基づいた1つまたはそれ以上の予測分子配列を表す出力データを受けること;
ii)予測された1つまたはそれ以上の分子配列を表す出力データに、分子配列に対する生体反応を複数のトランスレーショナル軸について予測するように構成されたトランスレーショナルモデルを適用して、複数のトランスレーショナル軸の特定のトランスレーショナル軸に対応する1つまたはそれ以上の第1のトランスレーショナル反応を表す第1のトランスレーショナル反応データを、出力データの1つまたはそれ以上の予測分子配列に基づいて生成すること;
iii)ドライバモデルの1つまたはそれ以上のパラメータを第1のトランスレーショナル反応データに基づいて調整すること;および
iv)工程i~iiiをある反復回数だけ繰り返して、特定のトランスレーショナル軸に対応する1つまたはそれ以上の学習済みトランスレーショナル反応を表す学習済みトランスレーショナル反応データを生成すること;
によってドライバモデルを訓練する動作と、
1つまたはそれ以上の学習済みトランスレーショナル反応に基づいて、複数のドライバモデルのうちの学習済みドライバモデルのセットを選択する動作と;
学習済みドライバモデルのセットのうちの学習済みドライバモデルごとに:
第2の時系列データセットに学習済みドライバモデルを適用して、1つまたはそれ以上の予測分子配列を特定の季節について表す学習済み出力データを生成する動作と;
最終出力データにトランスレーショナルモデルを適用して、1つまたはそれ以上の第2のトランスレーショナル反応を複数のトランスレーショナル軸の各トランスレーショナル軸について表す第2のトランスレーショナル反応データを生成する動作と;
該第2のトランスレーショナル反応データに基づいて、学習済みドライバモデルのセットのうちの学習済みドライバモデルのサブセットを選択する動作と
を含む動作を行う、前記システム。
【請求項14】
複数のドライバモデルのうちの少なくとも1つは、リカレントニューラルネットワークを含む、請求項13に記載のシステム。
【請求項15】
複数のドライバモデルのうちの少なくとも1つは、長短記憶リカレントニューラルネットワークを含む、請求項13に記載のシステム。
【請求項16】
受けた第1の時系列データセットに基づいた1つまたはそれ以上の予測分子配列を表す出力データは、複数の発症季節のそれぞれの抗原を表す出力データを含む、請求項13に記載のシステム。
【請求項17】
複数の発症季節のそれぞれの抗原を表す出力データは、特定の季節に循環しているすべての病原株にわたって最大化集約生物学的反応を生成する分子配列を予測することによって決定される抗原を含む、請求項16に記載のシステム。
【請求項18】
複数の発症季節のそれぞれの抗原を表す出力データは、特定の季節に循環している最大数のウイルスに対して効果的に免疫する反応を生成する分子配列を予測することによって決定される抗原を含む、請求項16に記載のシステム。
【請求項19】
複数のトランスレーショナル軸は:フェレット抗体フォレンジックス(AF)軸、フェレット赤血球凝集阻害(HAI)軸、マウスAF軸、マウスHAI軸、ヒトレプリカAF軸、ヒトAF軸、またはヒトHAI軸のうちの少なくとも1つを含む、請求項13に記載のシステム。
【請求項20】
反復回数は、所定の反復回数に基づいている、請求項13に記載のシステム。
【請求項21】
反復回数は、所定の誤差値に基づいている、請求項13に記載のシステム。
【請求項22】
1つまたはそれ以上の第1のトランスレーショナル反応は:予測フェレットHAI力価、予測フェレットAF力価、予測マウスAF力価、予測マウスHAI力価、予測ヒトレプリカAF力価、予測ヒトAF力価、または予測ヒトHAI力価のうちの少なくとも1つを含む、請求項13に記載のシステム。
【請求項23】
複数のドライバモデルのうちの学習済みドライバモデルのセットを選択する動作は:
複数のドライバモデルの各ドライバモデルをドライバモデルのクラスに割り当てる動作であって、各クラスは、そのドライバモデルを訓練するために使用される複数のトランスレーショナル軸のうちの特定のトランスレーショナル軸に関連付けられている、動作と;
複数のドライバモデルのドライバモデルごとに、そのドライバモデルの1つまたはそれ以上の学習済みトランスレーショナル反応を、そのドライバモデルと同じクラスに割り当てられた少なくとも1つの他のドライバモデルの1つまたはそれ以上の学習済みトランスレーショナル反応と比較する動作と
を含む、請求項13に記載のシステム。
【請求項24】
動作はさらに、学習済みドライバモデルのサブセットの学習済みドライバモデルごとに:
その学習済みドライバモデルに対応する第2のトランスレーショナル反応データを観察された実験反応データと比較することによって、その学習済みドライバモデルを検証することと;
その学習済みドライバモデルを検証する動作に応じて、その学習済みドライバモデルに対応する学習済み出力データによって表される1つまたはそれ以上の分子配列を含むワクチンを生成することと
を含む、請求項13に記載のシステム。
【請求項25】
システムであって:
コンピュータ実行可能命令を含むコンピュータ可読メモリと;
1つまたはそれ以上の分子配列を予測するように訓練された少なくとも1つの機械学習モデルを含む実行可能ロジックを実行するように構成された、少なくとも1つのプロセッサとを含み、ここで、該少なくとも1つのプロセッサは、該少なくとも1つのプロセッサがコンピュータ実行可能命令を実行しているときに:
1つまたはそれ以上の分子配列と、該1つまたはそれ以上の分子配列のそれぞれについてその分子配列を天然抗原として含む病原株の1つまたはそれ以上の循環期間とを示す、時系列データを受けることと;
機械学習モデルに含まれる実行可能なロジックの1つまたはそれ以上の部分を記憶する1つまたはそれ以上のデータ構造を介して時系列データを処理して、1つまたはそれ以上の分子配列を時系列データに基づいて予測することと
を含む動作を行うように構成される、前記システム。
【請求項26】
時系列データに基づいて1つまたはそれ以上の分子配列を予測することは、予測された1つまたはそれ以上の分子配列が将来の使用のために付与する1つまたはそれ以上の免疫学的特性を予測することを含む、請求項25に記載のシステム。
【請求項27】
1つまたはそれ以上の分子配列を時系列データに基づいて予測することは、時系列データのすべての病原株にわたって最大化集約生物学的反応を生成する1つまたはそれ以上の分子配列を予測することを含む、請求項25に記載のシステム。
【請求項28】
1つまたはそれ以上の分子配列を時系列データに基づいて予測することは、時系列データの最大数の病原株を効果的にカバーする生物学的反応を生成する1つまたはそれ以上の分子配列を予測することを含む、請求項25に記載のシステム。
【請求項29】
予測された1つまたはそれ以上の分子配列は、時系列データの1つまたはそれ以上の循環期間に続く期間中に循環する病原株に対するワクチンを設計するために使用される、請求項25に記載のシステム。
【請求項30】
機械学習モデルは、リカレントニューラルネットワークを含む、請求項25に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2019年10月21日に出願された米国特許仮出願第62/924,096号の優先権を主張し、この出願の内容全体は、参照により本明細書に組み込まれる。
【0002】
本開示は、一般に、ワクチンを生成するためのシステムおよび方法に関する。
【背景技術】
【0003】
哺乳類の免疫系では、環境病原体から身体を防御するために、2つの一般的な機構が用いられる。病原体由来の分子に遭遇すると、免疫反応が活性化して、その病原体から確実に防御するようになる。
【0004】
第1の免疫系機構は、非特異的(または自然)炎症反応である。自然免疫系は、病原体には存在するが身体自体には存在しない特定の分子を認識するようである。
【0005】
第2の免疫系機構は、特異もしくは獲得(または適応)免疫反応である。生得的反応は、それぞれの傷害や感染に対して基本的に同じである。対照的に、獲得反応は、病原体中の分子または病原体由来の分子に応じて特異的に生じる。免疫系は、自己タンパク質と非自己(たとえば、病原体または病原体由来)タンパク質との構造の違いを認識し、それに反応する。免疫系が非自己と認識するタンパク質は、抗原と呼ばれる。病原体は通常、多数の非常に複雑な抗原を発現する。獲得免疫系は2つの機能を活用する;第1は、病原体に存在する、抗原と呼ばれる多くの異なる分子に応じて免疫グロブリン(抗体)を生成することである。第2には、感染細胞として他の細胞が識別するための、細胞表面に提示される処理された形の抗原に結合する受容体をリクルートすることである。
【0006】
まとめると、獲得免疫は、Bリンパ球およびTリンパ球(または簡単に、B細胞およびT細胞)と呼ばれる特殊な免疫細胞によって媒介される。獲得免疫は、抗原構造を特異的に記憶している。同じ抗原に繰り返し曝露されると、反応が増大し、これにより、その特定の病原体に対する誘導防御のレベルが上昇し得る。B細胞は、その機能を抗体の作用によって生成し、媒介する。B細胞依存性の免疫反応は、抗体が体液中に見出されるので「液性免疫」と呼ばれる。T細胞依存性の免疫反応は、エフェクター活性がエフェクターT細胞の局所的な作用によって直接媒介されるので、「細胞媒介性免疫」と呼ばれる。エフェクターT細胞の局所作用は、T細胞と活性化マクロファージなどの二次エフェクター細胞との間の相乗的な相互作用によって増幅される。その結果、病原体は死滅し、病気を引き起こすことが防止される。
【0007】
病原体と同様に、ワクチンは、ワクチン接種部位で自然免疫反応が開始し、二次リンパ組織で長期記憶細胞を生じさせ得る抗原特異的T細胞およびB細胞が活性化することによって、機能する。ワクチンが接種部位の細胞と、ならびにT細胞およびB細胞と的確に相互作用することは、ワクチンが最終的に成功するのに重要である。
【0008】
候補抗原が機能的で効果的なワクチンとなり得るか否かを判断する際には、候補抗原は通常、厳格な試験プロトコルおよび評価プロトコルを経る必要がある。従来、候補抗原は、インビトロアッセイ、エクスビボアッセイによって、また様々な動物モデル(たとえば、マウスモデル、フェレットモデルなど)を用いることによって、候補抗原が評価されるプロセスにより前臨床試験されている。
【0009】
生物学的反応を測定するのに使用できるアッセイの1つの例示的なタイプは、赤血球凝集阻害アッセイ(HAI)である。HAIでは、血球凝集というプロセスを適用し、このプロセスでは、赤血球(RBC)表面のシアル酸受容体が、インフルエンザウイルス(および他のいくつかのウイルス)の表面に見られるヘマグルチニン糖タンパク質と結合し、血球凝集と呼ばれる、相互結合した赤血球とウイルス粒子からなるネットワーク、または格子構造を作成する。この血球凝集は、ウイルス粒子に対して濃度依存的に起きる。HAIは、体内の病原体標的細胞上の同様のシアル酸受容体に結合するウイルスの能力に関して代理として行われる物理的測定法である。別のウイルスに対するヒトまたは動物の免疫反応で生じた抗ウイルス抗体の導入(この別のウイルスは、アッセイでRBCに結合させるために用いたウイルスと遺伝的に類似していることも異なっていることもある)。これらの抗体は、ウイルスと赤血球の相互作用を妨害し、ウイルスの濃度を、アッセイで赤血球凝集が観察されるときの濃度を変えるのに十分なだけ変化させる。HAIの目標の1つは、抗血清中の、または抗体を含む他のサンプル中の抗体の濃度を、アッセイにおいて赤血球凝集を誘発する抗体の能力に対して特徴付けることであり得る。赤血球凝集を防止する抗体の最高希釈度は、HAI力価(すなわち、評価反応)と呼ばれる。
【0010】
生物学的反応を測定する別の手法は、ヒトまたは動物の免疫反応によって誘発される、より大きい可能性のある抗体のセットを測定することである。このセットは、HAIアッセイにおいて赤血球凝集に必ずしも影響を及ぼす能力がない。この測定のための一般的な手法では、酵素結合免疫吸着アッセイ(ELISA)技法を活用しており、ウイルス抗原(たとえば、ヘマグルチニン)が固体表面に固定化された後に抗血清からの抗体が抗原に結合される。読み取りでは、抗血清からの抗体、またはそれ自体が抗血清の抗体に結合する他の抗体のいずれかに複合化した、外因性酵素の基質の触媒作用を測定する。基質の触媒作用により、容易に検出可能な生成物が生じる。この種のインビトロアッセイには、多くのバリエーションがある。このようなバリエーションの1つは、抗体フォレンジックス(AF)と呼ばれている;これは、単一の血清サンプルを多くの抗原と同時に比べられるようにする多重化ビーズアレイ技法である。これらの測定法では、ヘマグルチニン分子によるシアル酸結合への干渉により特異的に関連すると理解されているHAI力価と比較した、濃度および総抗体認識の特性を明らかにする。したがって、抗血清の抗体は、場合によって、測定値が、1つのウイルスのヘマグルチニン分子の対応するHAI力価よりも、別のウイルスのヘマグルチニン分子と比べて比例的に高い、または低い可能性がある;言い換えると、これら2つの測定値AFおよびHAIは、一般に直線的に関連していない。
【0011】
現在のところ、従来の候補抗原試験は、あらかじめ考えた「防御的」免疫反応の誘発を条件付きの前提として、実施されるだけである。すなわち、ある動物またはアッセイが候補抗原に対して適切な反応を実証できない場合、その候補抗原は通常、「選択範囲を狭められる」(すなわち、生産的な候補として放棄される)。たとえば、インフルエンザ抗原は逐次選択プロトコルを用いて試験されることが多く、この場合、抗原が大規模生産しやすいことを確実にするために、抗原はまずインビトロアッセイによって評価される。抗原がこれらの要件を満たすことを条件として、抗原は次に、たとえばマウスの免疫化によって評価されて、マウスから防御免疫反応を誘発するための抗原の能力が測定される。この反応は通常、抗原自体に対して、また、防御することが望ましい他の様々なウイルス株および/またはウイルス株構成要素に対して、保護的であることが予想される。その後、保護反応を示唆すると理解されるものを以前に実証している、マウスまたはその他の以前の測定値を条件として、フェレットも同様に評価される。ヒトについての評価の最後から2番目に、ヒト免疫系レプリカまたは非ヒト霊長類などのエクスビボプラットフォームが評価される;再び、前の工程での成功が条件となる。
【発明の概要】
【課題を解決するための手段】
【0012】
一態様では、ワクチンを設計するためのシステムが提供される。システムは、1つまたはそれ以上のプロセッサを含む。システムは、1つまたはそれ以上のプロセッサによって実行されると1つまたはそれ以上のプロセッサが1つまたはそれ以上の動作を行う実行可能コンピュータ命令を記憶する、コンピュータ記憶装置を含む。1つまたはそれ以上の動作は、1つまたはそれ以上の分子配列を表す出力データを生成するように構成された複数のドライバモデルを第1の時系列データセットに適用する動作を含み、第1の時系列データセットは、1つまたはそれ以上の分子配列と、1つまたはそれ以上の分子配列のそれぞれについてその分子配列を天然抗原として含む病原株の1つまたはそれ以上の循環期間とを示す。1つまたはそれ以上の動作は、複数のドライバモデルのそれぞれについて:i)ドライバモデルから、受けた第1の時系列データセットに基づいた1つまたはそれ以上の予測分子配列を表す出力データを受けること;ii)予測された1つまたはそれ以上の分子配列を表す出力データに、分子配列に対する生体反応を複数のトランスレーショナル軸について予測するように構成されたトランスレーショナルモデルを適用して、複数のトランスレーショナル軸の特定のトランスレーショナル軸に対応する1つまたはそれ以上の第1のトランスレーショナル反応を表す第1のトランスレーショナル反応データを、出力データの1つまたはそれ以上の予測分子配列に基づいて生成すること;iii)ドライバモデルの1つまたはそれ以上のパラメータを第1のトランスレーショナル反応データに基づいて調整すること;およびiv)工程i~iiiをある反復回数だけ繰り返して、特定のトランスレーショナル軸に対応する1つまたはそれ以上の学習済みトランスレーショナル反応を表す学習済みトランスレーショナル反応データを生成すること;によって、ドライバモデルを訓練する動作を含む。1つまたはそれ以上の動作は、1つまたはそれ以上の学習済みトランスレーショナル反応に基づいて、複数のドライバモデルのうちの学習済みドライバモデルのセットを選択する動作を含む。1つまたはそれ以上の動作は、学習済みドライバモデルのセットのうちの学習済みドライバモデルごとに:第2の時系列データセットに学習済みドライバモデルを適用して、1つまたはそれ以上の予測分子配列を特定の季節について表す学習済み出力データを生成する動作と;最終出力データにトランスレーショナルモデルを適用して、1つまたはそれ以上の第2のトランスレーショナル反応を複数のトランスレーショナル軸の各トランスレーショナル軸について表す第2のトランスレーショナル反応データを生成する動作と;第2のトランスレーショナル反応データに基づいて、学習済みドライバモデルのセットのうちの学習済みドライバモデルのサブセットを選択する動作とを含む。
【0013】
複数のドライバモデルのうちの少なくとも1つは、リカレントニューラルネットワークを含み得る。複数のドライバモデルの少なくとも1つは、長短記憶リカレントニューラルネットワークを含む。
【0014】
受けた第1の時系列データセットに基づいた1つまたはそれ以上の予測分子配列を表す出力データは、複数の発症季節のそれぞれの抗原を表す出力データを含み得る。複数の発症季節のそれぞれの抗原を表す出力データは、特定の季節に循環しているすべての病原株にわたって最大化集約生物学的反応を生成する分子配列を予測することによって決定される抗原を含み得る。複数の発症季節のそれぞれの抗原を表す出力データは、特定の季節に循環している最大数のウイルスに対して効果的に免疫する反応を生成する分子配列を予測することによって決定される抗原を含み得る。
【0015】
複数のトランスレーショナル軸は:フェレット抗体フォレンジックス(AF)軸、フェレット赤血球凝集阻害(HAI)軸、マウスAF軸、マウスHAI軸、ヒトレプリカAF軸、ヒトAF軸、またはヒトHAI軸のうちの少なくとも1つを含み得る。反復回数は、所定の反復回数に基づいている。反復回数は、所定の誤差値に基づいている。1つまたはそれ以上の第1のトランスレーショナル反応は:予測フェレットHAI力価、予測フェレットAF力価、予測マウスAF力価、予測マウスHAI力価、予測ヒトレプリカAF力価、予測ヒトAF力価、または予測ヒトHAI力価のうちの少なくとも1つを含み得る。
【0016】
複数のドライバモデルのうちの学習済みドライバモデルのセットを選択する動作は、複数のドライバモデルの各ドライバモデルをドライバモデルのクラスに割り当てる動作を含み、各クラスは、そのドライバモデルを訓練するために使用される複数のトランスレーショナル軸のうちの特定のトランスレーショナル軸に関連付けられている。複数のドライバモデルのうちの学習済みドライバモデルのセットを選択する動作は、複数のドライバモデルのドライバモデルごとに、そのドライバモデルの1つまたはそれ以上の学習済みトランスレーショナル反応を、そのドライバモデルと同じクラスに割り当てられた少なくとも1つの他のドライバモデルの1つまたはそれ以上の学習済みトランスレーショナル反応と比較する動作を含み得る。
【0017】
動作はさらに、学習済みドライバモデルのサブセットの学習済みドライバモデルごとに:その学習済みドライバモデルに対応する第2のトランスレーショナル反応データを観察された実験反応データと比較することによって、その学習済みドライバモデルを検証することと;その学習済みドライバモデルを検証する動作に応じて、その学習済みドライバモデルに対応する学習済み出力データによって表される1つまたはそれ以上の分子配列を含むワクチンを生成することとを含み得る。
【0018】
一態様では、システムが提供される。システムは、コンピュータ実行可能命令を含むコンピュータ可読メモリを含む。システムは、1つまたはそれ以上の分子配列を予測するように訓練された少なくとも1つの機械学習モデルを含む実行可能ロジックを実行するように構成された、少なくとも1つのプロセッサを含み、少なくとも1つのプロセッサは、少なくとも1つのプロセッサがコンピュータ実行可能命令を実行しているときに、1つまたはそれ以上の動作を行うように構成される。1つまたはそれ以上の動作は、1つまたはそれ以上の分子配列と、1つまたはそれ以上の分子配列のそれぞれについてその分子配列を天然抗原として含む病原株の1つまたはそれ以上の循環期間とを示す、時系列データを受けることを含む。1つまたはそれ以上の動作は、機械学習モデルに含まれる実行可能なロジックの1つまたはそれ以上の部分を記憶する1つまたはそれ以上のデータ構造を介して時系列データを処理して、1つまたはそれ以上の分子配列を時系列データに基づいて予測することを含む。
【0019】
時系列データに基づいて1つまたはそれ以上の分子配列を予測することは、予測された1つまたはそれ以上の分子配列が将来の使用のために付与する1つまたはそれ以上の免疫学的特性を予測することを含み得る。1つまたはそれ以上の分子配列を時系列データに基づいて予測することは、時系列データのすべての病原株にわたって最大化集約生物学的反応を生成する1つまたはそれ以上の分子配列を予測することを含み得る。1つまたはそれ以上の分子配列を時系列データに基づいて予測することは、時系列データの最大数の病原株を効果的にカバーする生物学的反応を生成する1つまたはそれ以上の分子配列を予測することを含み得る。予測された1つまたはそれ以上の分子配列は、時系列データの1つまたはそれ以上の循環期間に続く期間中に循環する病原株に対するワクチンを設計するために使用される。
【0020】
機械学習モデルは、リカレントニューラルネットワークを含み得る。
【0021】
上記およびその他の態様、構成、ならびに実施態様は、方法、装置、システム、構成要素、プログラム製品、ビジネスを行う方法、機能を実行するための手段または工程として表現され、さらに他の方法で表現され、また、特許請求の範囲を含む以下の説明から明らかになろう。
【0022】
本開示の実施態様では、以下の利点のうちの1つまたはそれ以上を提供することができる。従来の技法と比較すると、ワクチンは、将来の発症季節の少なくとも1つの病原株に対する生物学的反応量に関して、その将来の発症季節により多くの保護を付与するように設計される。従来の技術と比較した場合、ワクチンは、その将来の発症季節の複数の病原株に対する有効なカバレッジの幅に関して、より多くの保護を与える(すなわち、将来の発症季節のいくつかの病原株に対する有効な免疫学的反応を誘発する)ように、将来の発症季節に対して設計される。従来の技法とは異なり、頻繁に観察される株よりも多くの株と交差反応するので「より多くの防御」を与え得る、まれにしか観察されない株が評価され、また、その株のワクチン接種効果が予測される。
【0023】
上記およびその他の態様、構成、および実施態様は、方法、装置、システム、構成要素、プログラム製品、機能を実行するための手段または工程として表現され、さらに他の方法で表現される。
【0024】
上記およびその他の態様、構成、および実施態様は、特許請求の範囲を含む以下の説明から明らかになろう。
【図面の簡単な説明】
【0025】
【
図1】ワクチンを設計するためのシステムの一例を示す図である。
【
図2A】ワクチンを設計するシステムを設計するための方法のフロー図である。
【
図2B】ワクチンを設計するシステムを設計するための方法のフロー図である。
【
図3】ワクチンを設計する方法のフローチャートである。
【
図4】ワクチンを設計するために1つまたはそれ以上のドライバモデルを訓練する方法のフローチャートである。
【
図5】ワクチンを設計するための従来の技法と比較してトランスレーショナル軸ごとの改善を示す図表である。
【
図6】機械学習技法を使用して生物学的反応を予測するためのシステムの一例を示す図である。
【
図7】機械学習技法を使用して生物学的反応を予測するための方法の一例を示すフローチャートである。
【
図8】生物学的反応を予測するための機械学習モデルを訓練するのに使用されるデータの一例である。
【
図9】生物学的反応を予測するための機械学習モデルを訓練する一例のフロー図である。
【発明を実施するための形態】
【0026】
候補ワクチン(CV)、および/または組換えタンパク質として発現されるその抗原を選択する従来の方法は、一般にいくつかの仮定に依拠し得る。説明のための一例として、インフルエンザの場合、CVを選択する従来の方法では、以下を仮定することができる:(1)所与の発症季節に関して、「支配株」があること;(2)ナイーブフェレットがインフルエンザドリフトの正確なモデルであること(すなわち、フェレットの交差反応性が、抗原としての1つのCVが他の循環インフルエンザ株に対する保護を与えるか否かを実証する);および(3)フェレット交差反応性の獲得は、ヒトワクチン有効性の獲得を確実に予知するものになり得ること。これらの仮定に基づくと、CVを選択する従来の方法には以下の解決策があり得る:(1)支配株に対して防御するCVを選択する;(2)たとえばフェレットHAIを用いて防御の相関関係を確立する;および(3)フェレットの臨床分離株の交差反応性を評価する。さらに、CVを選択する従来の方法は通常、ワクチン推奨の年の前年に流行していたCVを選択することと、選択されたCVを他の頻繁に観察される病原株と照らし合わせて(通常はフェレットを用いて)評価することとを含む。
【0027】
これらの仮定は、1年に1~10個の病原性分離株が観察された50年以上前には、効果的なCVV選択を促進し得たが、これらの仮定は、数千個の病原性分離株が観察され報告される現在の発症季節には効果的なCVVの選択を促進することができない。これは、フェレット評価を数千の病原体分離株に拡大することが困難であり得るからである。その結果、場合によっては、たとえば季節性インフルエンザワクチンの現在の選択では通常、達成されるワクチン効果(すなわち、ワクチン接種されていない集団と比較した、ワクチン接種された集団の症例探索個人における重症疾患の減少率)は50%未満になる。
【0028】
本明細書に記載のシステムおよび方法は、従来のCV選択技法の前述の欠点のうちの1つまたはそれ以上を軽減するために使用することができる。本開示に記載のシステムおよび方法によれば、初期の複数の機械学習モデル(本明細書ではドライバモデルとも呼ばれる)のサブセットが、少なくとも1つのトランスレーショナル軸において優れていると予測される1つまたはそれ以上の分子配列(たとえば、抗原配列)を選択するために使用される。トランスレーショナル軸は、たとえば、抗原に対するヒトまたは非ヒトモデルの生物学的反応の評価基準(たとえば、特定の抗原に曝露されたマウスの、結果として生じるHAI力価、または収集されたヒト血清の、結果として生じるHAI力価など)を表すことができる。ドライバモデルのサブセットは、合理的に使用するために、まず初期の複数のドライバモデルのうちの各ドライバモデルをトランスレーショナル軸の1つのクラスに割り当てることによって選択され、トランスレーショナル軸の各クラスは、複数のトランスレーショナル軸(たとえば、以下のうちの少なくとも1つ:フェレットAF、フェレットHAI、マウスAF、マウスHAI、ヒトレプリカAF、ヒトAF、またはヒトHAI)のうちの1つのトランスレーショナル軸に対応する。
【0029】
いくつかの実施態様では、各ドライバモデルは、複数の分子配列を表す時系列データと、分子配列ごとの、その分子配列を天然抗原として含む病原株の循環期間とに基づいて、特定の発症季節に循環しているすべての病原株中で極大(たとえば、最大化)生物学的反応(たとえば、最大化マウスHAI力価)を生成するか、または特定の発症季節に循環している最大数の病原株を効果的にカバーする反応を生成する、分子配列を予測するように訓練される。いくつかの実施態様では、ドライバモデルごとに、分子配列に対する生物学的反応を複数のトランスレーショナル軸について予測するように構成されたトランスレーショナルモデルが、そのドライバモデルに割り当てられたトランスレーショナル軸クラスに対応する1つまたはそれ以上のトランスレーショナル反応を表すトランスレーショナル反応データの形でフィードバックを提供するために使用される。
【0030】
このプロセスは、何回かの反復にわたって実施され、反復ごとに、ドライバモデルは、トランスレーショナルモデルからのフィードバックに基づいて、1つまたはそれ以上のパラメータ(しばしば重みおよびバイアスと呼ばれる)を更新する。その回数の反復後、学習済みドライバモデルのセットが選択される。選択された学習済みドライバモデルのセットは、トランスレーショナル軸のクラスごとに、そのクラスのトランスレーショナル軸についてトランスレーショナルモデルによって予測された所望の(しばしば:最高の)集約(たとえば、平均化)生物学的反応(たとえば、免疫反応)をもたらす分子配列を予測した学習済みドライバモデルを含み得る。学習済みドライバモデルのセットのうちの学習済みドライバモデルごとに、その学習済みドライバモデルによって予測された抗原は、次に、その抗原に対する反応をトランスレーショナル軸ごとに予測するトランスレーショナルモデルに適用される。
【0031】
次に、学習済みドライバモデルのセットのうちの学習済みドライバモデルのサブセットが選択される。学習済みドライバモデルのサブセットを選択することは、トランスレーショナル軸ごとに、そのトランスレーショナル軸についてトランスレーショナルモデルによって予測された特定の病原性季節のすべての病原株にわたって最高の集約生物学的反応を誘発する抗原を予測した、学習済みドライバモデルのセットのうちの学習済みドライバモデルを選択することを含み得る。学習済みドライバモデルのサブセットのうちの各学習済みドライバモデルは、ヒトまたは非ヒト実験からの観察データを使用して検証される。学習済みドライバモデルが検証された場合、その学習済みドライバモデルは、その検証された学習済みドライバモデルによって予測された抗原に基づいてワクチンを設計するために使用される。
【0032】
図面では、デバイス、モジュール、命令ブロックおよびデータ要素を表すものなどの、概略的な要素の特定の配置または順序が、説明を容易にするために示されている。しかし、図面中の概略的要素の特定の順序または配置は、処理の特定の順序もしくはシーケンス、または処理の分離が必要であることを暗示するものではないことが当業者には理解されるはずである。さらに、図面に概略的な要素が含まれることは、そのような要素がすべての実施態様で必要であること、あるいはそのような要素によって表される構成が、いくつかの実施態様において他の要素に含まれない、または他の要素と組み合わされないことを暗示するものではない。
【0033】
さらに、図面で、実線もしくは破線または矢印などの連結要素が、2つ以上の他の概略要素間の連結、関係、または関連を説明するために使用されている場合、そのような連結要素が何もないことは、連結、関係、または関連が存在できないことを暗示するものではない。言い換えると、要素間のいくつかの連結、関係、または関連は、開示内容を不明瞭にしないようにするために、図面に示されていない。加えて、図示しやすくするために、単一の連結要素が、要素間の複数の連結、関係、または関連を表すのに用いられる。たとえば、連結要素が信号、データ、または命令の通信を表す場合、このような要素は、必要とされる、通信に影響を与えるための1つまたはそれ以上の信号経路(たとえば、バス)を表すことが当業者には理解されるはずである。
【0034】
次に、添付の図面に例が示されている実施態様を詳細に参照する。以下の詳細な説明では、記載された様々な実施態様の完全な理解をもたらすために、多数の具体的な詳細が示される。しかし、記載された様々な実施態様は、これらの具体的な詳細がなくても実施できることが当業者には明らかであろう。他の例では、よく知られている方法、手順、構成要素、回路、およびネットワークは、実施態様の態様を不必要に不明瞭にしないようにするために、詳細に説明されていない。
【0035】
以下で、それぞれが互いに独立して、または他の構成の任意の組み合わせとともに使用できる、いくつかの構成について説明する。しかし、どの個々の構成も、上で論じた問題のどれにも対処しない、または、上で論じた問題の1つにしか対処しないことがある。上で論じた問題のいくつかは、本明細書に記載された構成のいずれによっても完全には解決されないことがある。見出しが設けられていても、ある特定の見出しに関連するデータが、その見出しを持つセクションで見つからなくて本明細書のどこか他の場所で見つかることもある。
【0036】
図1は、ワクチンを設計するためのシステム100の一例を示す。システム100は、コンピュータプロセッサ110を含む。コンピュータプロセッサ110は、コンピュータ可読メモリ111、およびコンピュータ可読命令112を含む。システム100はまた、機械学習システム150を含む。機械学習システム150は、機械学習モデル120を含む。機械学習システム150は、コンピュータプロセッサ110と別個であっても、コンピュータプロセッサ110と統合されていてもよい。
【0037】
コンピュータ可読メモリ111(またはコンピュータ可読媒体)は、ローカル技法環境に適している任意のデータ記憶技術型を、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光学メモリデバイスおよびシステム、固定メモリ、取り外し可能メモリ、ディスクメモリ、フラッシュメモリ、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、電子消去可能プログラム可能読み取り専用メモリ(EEPROM)などをこれらだけには限らないが含めて、含み得る。一実施態様では、コンピュータ可読メモリ111は、実行可能命令を有するコードセグメントを含む。
【0038】
いくつかの実施態様では、コンピュータプロセッサ110は、汎用プロセッサを含む。いくつかの実施態様では、コンピュータプロセッサ110は、中央処理ユニット(CPU)を含む。いくつかの実施態様では、コンピュータプロセッサ110は、少なくとも1つの特定用途向け集積回路(ASIC)を含む。コンピュータプロセッサ110はまた、汎用プログラマブルマイクロプロセッサ、専用プログラマブルマイクロプロセッサ、デジタル信号プロセッサ(DSP)、プログラマブルロジックアレイ(PLA)、フィールドプログラマブルゲートアレイ(FPGA)、専用電子回路など、またはこれらの組み合わせを含み得る。コンピュータプロセッサ110は、コンピュータ実行可能命令112などのプログラムコード手段を実行するように構成される。いくつかの実施態様では、コンピュータプロセッサ110は、機械学習モデル120を実行するように構成される。
【0039】
コンピュータプロセッサ110は、時系列データセット161を受けるように構成される。時系列データセット161は、1つまたはそれ以上の分子配列と、1つまたはそれ以上の分子配列のそれぞれについてその分子配列を天然抗原として含む病原株の1つまたはそれ以上の循環期間とを表すデータを含み得る。説明のための一例として、時系列データセット161は、A/SINGAPORE/INFIMH160019/2016、A/MISSOURI/37/2017、A/KENYA/105/2017、A/MIYAZAKI/89/2017、A/ETHIOPIA/1877/201、A/OSORNO/60580/2017、A/BRISBANE/1059/2017およびA/VICTORIA/11/2017について、分子配列および循環期間(たとえば特定の月、特定の発症季節など)を示し得る。8つの病原株しか記載されていないが、時系列データセット161は、数十億の病原株に対応する分子配列情報および循環期間を含み得る。時系列データセット161は、データベース(クラウドベース環境を含む)との有線通信または無線通信、光ファイバ通信、ユニバーサルシリアルバス(USB)、読み出し専用メモリ(CD-ROM)などの、1つまたはそれ以上の手段を介して取得される。
【0040】
機械学習システム150では、機械学習モデル120を訓練するために機械学習技法を適用し、入力データに適用されると、機械学習モデルは、特定のブールプロパティ、スカラープロパティの推定値、またはベクトル(すなわち、複数のスカラーの順序付き組み合わせ)の推定値を入力データ項目が有する確率などの、関連するプロパティを入力データ項目が有するか否かの標示を生成する。
【0041】
機械学習モデル120の訓練の一部として、機械学習システム150は、当該のプロパティを有すると判定された入力データ項目の正の訓練セットを特定することによって、入力データの訓練セットを形成することができ、いくつかの実施態様では、当該のプロパティを欠いている入力データ項目の負の訓練セットを形成する。
【0042】
機械学習システム150は、訓練セットの入力データから構成値を抽出し、これらの構成は、入力データ項目が関連するプロパティを有するか否かに潜在的に関連するとみなされる変数である。入力データの構成の順序付きリストは、本明細書では入力データの構成ベクトルと呼ばれる。いくつかの実施態様では、機械学習システム150は、次元削減を適用して(たとえば、線形判別分析(LDA)、主成分分析(PCA)、ニューラルネットワークからの学習された深層構成などによって)、入力データの構成ベクトルのデータ量をより小さい、より代表的なデータのセットに低減する。
【0043】
いくつかの実施態様では、機械学習システム150は、機械学習モデル120を訓練するために教師あり機械学習を使用し、正の訓練セットおよび負の訓練セットの構成ベクトルが入力となる。線形サポートベクターマシン(線形SVM)、他のアルゴリズムのブースト(たとえば、AdaBoost)、ニューラルネットワーク、ロジスティック回帰、ナイーブベイズ、記憶ベース学習、ランダムフォレスト、バギングツリー、決定木、ブーストツリー、またはブーストスタンプなどの、様々な機械学習技法がいくつかの実施態様で使用される。機械学習モデル120は、入力データ項目から抽出された構成ベクトルに適用されると、入力データ項目が、ブールのはい/いいえ推定値、確率を表すスカラー値、複数のプロパティを表すスカラー値のベクトル、または複数のプロパティの別々の、かつ経験的ではない固定数を表すスカラー値のノンパラメトリック分布などの、当該のプロパティを有するか否かの標示を出力し、この標示は、ヒルベルト空間または同様の無限次元空間で明示的または暗黙的に表現される。
【0044】
いくつかの実施態様では、検証セットは、訓練セット中の入力データ以外の、当該のプロパティを有しているか欠いているかがすでに判定されている追加の入力データから形成される。機械学習システム150では、学習済みの機械学習モデル120を検証セットのデータに適用して、機械学習モデル120の精度を定量化する。精度測定に適用される一般的な測定基準に含まれるのは:精度=TP/(TP+FP)および再現度=TP/(TP+FN)であり、ここで、精度とは、機械学習モデル120が予測した総数(TP+FPすなわち偽陽性)のうち、機械学習モデル120が(TPすなわち真陽性を)いくつ正しく予測したかであり、再現度とは、当該のプロパティを有していた入力データ項目の総数(TP+FNすなわち偽陰性)のうち、機械学習モデル120が(TPを)いくつ正しく予測したかである。Fスコア(Fスコア=2×PR/(P+R))は、精度と再現度を単一の評価基準に統一するものである。いくつかの実施態様では、機械学習システム150は、モデル120が十分に正確であることの精度測定標示、または何回か行われた訓練ラウンド、などの停止条件が生じるまで、機械学習モデル120を反復して再トレーニングする。
【0045】
いくつかの実施態様では、機械学習モデル120は、ニューラルネットワークを含む。いくつかの実施態様では、ニューラルネットワークは、リカレントニューラルネットワークRNNを含む。RNNは一般に、ノード間の接続が有向グラフを時系列に沿って形成する人工ニューラルネットワークのクラスを記述し、これにより、時間的な動的挙動を示すことができる。フィードフォワードニューラルネットワークとは異なり、RNNは、入力シーケンスを処理するために、その内部状態(メモリ)を使用することができる。いくつかの実施態様では、RNNは、長短記憶(LSTM)アーキテクチャを含む。LSTMとは、フィードバック接続を有し、かつ、単一のデータ点(画像など)を処理するだけでなく、データのシーケンス全体(音声またはビデオなど)を処理できるRNNアーキテクチャのことを指す。機械学習モデル120は、畳み込みニューラルネットワーク、ラジアル基底関数ニューラルネットワーク、物理ニューラルネットワーク(たとえば、光ニューラルネットワーク)などの、他の種類のニューラルネットワークを含み得る。機械学習モデル120を設計および訓練する例示的な方法について、後で
図2A~4を参照してより詳細に論じる。
【0046】
機械学習モデル120は、受けた時系列データセット161に基づいて、1つまたはそれ以上の分子配列と、予測された1つまたはそれ以上の分子配列が将来の使用のためにどんな免疫学的特性を付与するかとを予測するように構成される。説明のための一例として、受けた時系列データセット161が、複数の病原株を表すデータを含み、各病原株が、2014年1月1日から2018年12月31日の間の1つまたはそれ以上の時点に循環していることが判明していると仮定する。機械学習モデル120は、2019年1月1日から2019年5月31日の間に循環するすべてのウイルス中の最大化集約生物学的反応(たとえば、最大化平均ヒトHAI力価)を、2014年1月1日から2018年12月31日の間の1つまたはそれ以上の時点に循環していることが判明している病原株に基づいて生成する、1つまたはそれ以上の分子配列(たとえば抗原)を予測することができる。加えて、または別法として、機械学習モデル120は、2019年1月1日から2019年5月31日の間に循環する最大数のウイルスを、2014年1月1日から2018年12月31日の間の1つまたはそれ以上の時点に循環していることが判明している病原株に基づいて効果的にカバーする(たとえば、有効にワクチン接種する)、生物学的反応を生成する1つまたはそれ以上の分子配列を予測することができる。予測された1つまたはそれ以上の分子配列は、将来(先の例の2019年1月1日から2019年5月31日までなど)の間に循環するウイルスに対するワクチンを設計するために使用することができる。
【0047】
図2A~2Bは、ワクチンを設計するシステムを設計するためのアーキテクチャ200のフロー図を示す。アーキテクチャ200は、複数のドライバモデル210、トランスレーショナルモデル220、およびフィードバック選択モジュール230を含む。まず、複数のドライバモデル210が起動される。複数のドライバモデル210のそれぞれは、
図1の機械学習モデル120を参照して論じたように、1つまたはそれ以上の分子配列(たとえば、抗原)を表すデータと、分子配列のそれぞれが使用のためにどんな免疫学的特性を与えるかについての予測とを生成するように構成される。図示の実施態様では、複数のドライバモデル210は、第1のドライバモデル210a、第2のドライバモデル210b、第3のドライバモデル210c、第4のドライバモデル210d、第5のドライバモデル210e、第6のドライバモデル210f、第7のドライバモデル210g、第8のドライバモデル210h、第9のドライバモデル210i、および第10のドライバモデル210jを含む。10個のドライバモデルが図示されているが、複数のドライバモデル210は、もっと多い、または少ないドライバモデル(たとえば、5個のドライバモデル、30個のドライバモデル、100個のドライバモデルなど)を含み得る。ドライバモデルのうちの1つまたはそれ以上は、たとえば、
図1を参照して以前に説明したRNNであり得る。
【0048】
トランスレーショナルモデル220は、複数のトランスレーショナル軸について、分子配列に対する生物学的反応を予測するように構成される。図示の実施態様では、トランスレーショナルモデル220は、フェレットHAIトランスレーショナル軸220a、フェレットAFトランスレーショナル軸220b、マウスHAI軸220c、マウスAFトランスレーショナル軸220d、およびヒトレプリカAFトランスレーショナル軸220eを含む。特定のトランスレーショナル軸が図示されているが、実施態様は、これらの特定のトランスレーショナル軸に限定されない。たとえば、トランスレーショナルモデルは、加えて、または別法として、ヒトHAIトランスレーショナル軸、ヒトAFトランスレーショナル軸、ヒトレプリカHAI軸、またはこれらの組み合わせをとりわけ含み得る。トランスレーショナルモデル220のいくつかの実施態様については、後で
図6~9を参照してより詳細に論じる。
【0049】
図2Aを参照すると、複数のドライバモデル210のうちのドライバモデルのそれぞれが、トランスレーショナルモデル220の特定のトランスレーショナル軸に割り当てられている。図示の実施態様では、第1のドライバモデル210aおよび第3のドライバモデル210cは、フェレットHAIトランスレーショナル軸220aに割り当てられ、第2のドライバモデル210bおよび第6のドライバモデル210fは、フェレットAFトランスレーショナル軸220bに割り当てられ、第4のドライバモデル210dおよび第8のドライバモデル210hはマウスHAIトランスレーショナル軸220cに割り当てられ、第5のドライバモデル210eおよび第9のドライバモデル210iはマウスAFトランスレーショナル軸220dに割り当てられ、第7のドライバモデル210gおよび第10のドライバモデル210jはヒトレプリカAFトランスレーショナル軸220eに割り当てられている。
【0050】
複数のドライバモデル210の各ドライバモデルは、第1の時系列データセット201を受ける。第1の時系列データセット201は、複数の分子配列と、複数の分子配列のうちの少なくとも1つを天然抗原として含む病原株の循環期間とを含み得る。説明のための一例として、第1の時系列データセット201は、2014年1月1日から2018年12月31日の間の期間(「発症時期」とも呼ばれる)に循環していた、観察されたすべての病原株の分子配列および循環期間を含み得る。受けた第1の時系列データセット201に基づいて、複数のドライバモデル220の各ドライバモデルは、1つまたはそれ以上の分子配列を表す出力データを生成することができる。たとえば、出力データは、発症時期の発症季節ごとに分子配列(抗原など)を表すことができる。発症季節ごとに、分子配列は、その発症季節の循環しているすべてのウイルスにわたって最大化集約生物学的反応を生成する分子配列を、および/または、その発症季節の循環している最大数のウイルスを効果的にカバーする(たとえば、有効にワクチン接種する)反応を生成する分子配列を、その発症季節に先立つ1つまたはそれ以上の発症季節からの時系統データに基づいて予測することによって、決定することができる。
【0051】
トランスレーショナルモデル220は、複数のドライバモデル210の各ドライバモデルから出力データを受けること、ならびに、複数のドライバモデル210のドライバモデルごとに、そのドライバモデルに割り当てられた特定のトランスレーショナル軸に対応する1つまたはそれ以上のトランスレーショナル反応を表す第1のトランスレーショナル反応データを生成することができる。図示の例では、トランスレーショナルモデル220は、第1のドライバモデル210aから、予測された1つまたはそれ以上の分子配列を表す出力データを受け、フェレットHAIトランスレーショナル軸220aに応じて、各発症季節に循環するすべての病原株にわたって1つまたはそれ以上の分子配列のうちの分子配列ごとに、フェレットHAI力価を予測することができる。(すなわち、特定の発症季節の病原株ごとに、予測分子配列によって免疫された後にその病原株に曝露されるフェレットの免疫反応を予測する)。
【0052】
複数のドライバモデル210の各ドライバモデルに対応する第1のトランスレーショナル反応データは、フィードバック選択モジュール230で受けられ、このモジュールは、各発症季節の予測反応を閾値反応と比較する。たとえば、フィードバック選択モジュール230は、ドライバモデルごとに各発症季節のすべてのウイルスにわたって予測生物学的反応を集約(たとえば、平均)し、その集約反応を閾値集約反応と比較し、その比較に基づいて誤差値を生成することができる。加えて、または別法として、フィードバック選択モジュール230は、ドライバモデルごとに、効果的にワクチン接種されたウイルスの数を発症季節ごとに閾値数と比較し、その比較に基づいて誤差値を生成することができる。次いで、フィードバック選択モジュール230により各ドライバモデルが、各発症季節の誤差値に基づいて、1つまたはそれ以上のパラメータ(ドライバモデルの重みおよびバイアスなど)を調整することになり得る。このプロセスは、何回かの反復のために繰り返される。反復回数は、設定反復回数であっても、閾誤差値に基づいて決定されてもよい(すなわち、プロセスは、閾誤差値を超えるまで継続する)。したがって、ある高いレベルで:(1)各ドライバモデルは、発症時期の特定の発症季節について、先行する発症季節の病原株に基づき、その特定の発症季節の病原株に対して免疫するために使用予定の1つまたはそれ以上の分子配列を予測することができ;(2)各ドライバモデルの動作は、発症季節ごとに評価され;(3)各ドライバモデルのパラメータは、各発症季節中のモデルの動作に基づいて調整される。
【0053】
その回数の反復後、ドライバモデル(ここでは、学習済みドライバモデルと呼ばれることもある)のそれぞれの動作は、そのドライバモデルと同じトランスレーショナル軸に割り当てられた他のドライバモデルと比較され、最高の動作を示すドライバモデルが選択されて、学習済みドライバモデルの選択セット240が生成される。たとえば、その回数の反復後、第1のドライバモデル210aによって予測された分子配列の集約予測フェレットHAI力価は、第3のドライバモデルによって予測された分子配列の集約予測フェレットHAI力価と比較され、フィードバック選択モジュール230は、発症時期の発症季節の全部または一部にわたって最高集約予測フェレットHAI力価(または効果的にワクチン接種されている病原株の最大数)に対応する、ドライバモデルを選択することができる。図示の実施態様では、ドライバモデルの選択セット240は、第1のドライバモデル210a、第2のドライバモデル210b、第5のドライバモデル210e、第7のドライバモデル210g、および第10のドライバモデル210jを含む。
【0054】
図2Bを参照すると、ドライバモデルの選択セット240のそれぞれは、第2の時系列データセット202を受け、この第2の時系列データセット202に基づいて、特定の発症季節についての1つまたはそれ以上の分子配列を表す学習済み出力データを生成する。第1の時系列データセット201と同様に、第2の時系列データセット202は、所定の発症時期に循環していたすべての観察病原株の分子配列および循環期間を表すデータを含み得る。第2の時系列データセット202の発症時期は、第1の時系列データセット201の発症時期と同じであることも異なることもある。ドライバモデルの選択セット240のうちのドライバモデルのそれぞれは、1つまたはそれ以上の発症季節についての1つまたはそれ以上の分子配列(たとえば、抗原)を予測することができる。いくつかの実施態様では、予測された1つまたはそれ以上の分子配列は、一時的な期間の発症季節のうちの1つ(たとえば、最新の発症季節)についてのものである。説明のための一例として、受けられた第2の時系列データセット202が、各病原株が2014年1月1日から2018年4月31日の間の1つまたはそれ以上の時点に循環していることが判明している、複数の病原株を表すデータを含むと仮定する。ドライバモデルの選択セット240のうちのドライバモデルのそれぞれは、2017年10月1日から2019年4月31日の間に循環するすべてのウイルスにわたって最大化集約生物学的反応を、先行する2014年1月1日から2017年9月30日の間の発症季節に循環していることが判明している病原株に基づいて生成する、1つまたはそれ以上の分子配列(たとえば、抗原)を予測することができる。加えて、または別法として、ドライバモデルの選択セット240のうちのドライバモデルのそれぞれは、2017年10月01日から2018年4月31日の間に循環しているウイルスの最大数を、先行する2014年1月1日から2017年9月30日の間の発症季節に循環していることが判明している病原株に基づいて有効にカバーする(たとえば、有効にワクチン接種する)生物学的反応を生成する、1つまたはそれ以上の分子配列を予測することができる。
【0055】
トランスレーショナルモデル220は、ドライバモデルの選択セット240のうちのドライバモデルのそれぞれから学習済み出力データを受け、その学習済み出力データに基づいて、ドライバモデルごとに第2のトランスレーショナル反応データを生成する。第2のトランスレーショナル反応データは、ドライバモデルごとに、そのドライバモデルの1つまたはそれ以上の予測分子配列に基づいて、トランスレーショナルモデル220のすべてのトランスレーショナル軸にわたる1つまたはそれ以上のトランスレーショナル反応を表す。説明のための一例として、トランスレーショナルモデル220は、1つまたはそれ以上の分子配列を表す第1のドライバモデル210aから学習済み出力データを受けることができる。トランスレーショナルモデル220は、すべての株にわたって第1のドライバモデル210aによって予測された1つまたはそれ以上の分子配列について、フェレットHAI力価、フェレットAF力価、マウスHAI力価、マウスAF力価、およびヒトレプリカAF力価を予測することができる。ドライバモデルの選択セット240のうちのドライバモデルごとの第2のトランスレーショナル反応データは、フィードバック選択モジュール230で受けられる。フィードバック選択モジュール230は、各ドライバモデルの動作をトランスレーショナル軸ごとに比較して、また、各軸において、または軸の組み合わせにおいて最高の動作をするドライバモデルを選択して、ドライバモデルの選択サブセット250を生成することができる。説明のための前の例を用いて、フェレットHAI軸220aに関して、フィードバック選択モジュール230は、ドライバモデルの選択セット240のうちのドライバモデルのそれぞれによって予測された1つまたはそれ以上の分子配列について、2019年1月1日から2019年5月31日の間に循環するすべての病原株にわたって集約HAI力価を比較することができる。次いで、フィードバック選択モジュール230は、すべての病原株にわたって最高集約HAI力価を有することが判明しているドライバモデルを選択することができる。図示の実施態様では、ドライバモデルの選択サブセット250は、第2のドライバモデル210bおよび第10のドライバモデル210jを含む。ドライバモデルの選択サブセット250のうちの1つまたはそれ以上は、
図1を参照して前に論じた機械学習モデル120に含まれる。
【0056】
次に、ドライバモデルの選択サブセット250のうちのドライバモデルのそれぞれは、実世界の実験による観察に基づいて検証される。たとえば、第2のドライバモデル210bに対応する第2のトランスレーショナル反応データは、ヒトHAI実験(またはフェレットHAI実験、マウスHAI実験など)で観察される生物学的反応と比較され、このヒトHAI実験では、ヒト被験者が、第2のドライバ210bによって予測された1つまたはそれ以上の分子配列でワクチン接種され、2017年10月1日から2018年4月31日の間に循環している病原株のうちの1つまたはそれ以上に曝露される。予測反応および観察反応は、フィードバック選択モジュール230によって比較されて誤差値が生成され、フィードバック選択モジュール230は、その誤差値に基づいて、第2のドライバモデル210bに対応するトランスレーショナル軸のうちの1つまたはそれ以上(たとえば、第2のドライバモデル210bがそのフェレットHAIトランスレーショナル軸220aでの動作に基づいて選択された場合には、フェレットHAIトランスレーショナル軸220a)がヒトの反応の良好な、または不良の予測器であるか否かを判定することができる。誤差値が誤差閾値を満たす場合には、第2のドライバモデル210bによって予測された1つまたはそれ以上の分子配列は、少なくとも2017年10月1日から2018年4月31日の間の発症季節、または、さらにはその発症季節に続く発症季節に対するワクチンを設計するために使用することができる。たとえば、実世界のフェレットHAI実験が第2のドライバモデル210bを検証するために使用された場合、決定された誤差値は、トランスレーショナルモデル220もしくは第2のドライバモデル210b、またはその両方のパラメータを調整するために使用することができる。
【0057】
図3は、ワクチンを設計するための方法300のフローチャートを示す。例示の目的で、方法300は、
図2A~2Bを参照して以前に説明したアーキテクチャ200によって実行されるとして説明される。この方法は、複数のドライバモデルを第1の時系列データセットに適用すること(ブロック310)、第1の時系列データセットを用いて各ドライバモデルを訓練すること(ブロック320)、学習済みドライバモデルのセットを選択すること(ブロック330)、学習済みドライバモデルのうちの選択セットを第2の時系列データセットに適用すること(ブロック340)、および学習済みドライバモデルのサブセットを選択すること(ブロック350)を含む。
【0058】
ブロック310で、複数のドライバモデル210の各ドライバモデルは、第1の時系列データセット201を受ける。受けた第1の時系列データセット201に基づいて、複数のドライバモデル220の各ドライバモデルは、1つまたはそれ以上の分子配列を表す出力データを生成することができる。
【0059】
ブロック320で、ドライバモデル210のそれぞれについて、ドライバモデルは、そのドライバモデルに割り当てられたトランスレーショナルモデル220のトランスレーショナル軸を使用して訓練される。
図4は、ワクチンを設計するための1つまたはそれ以上のドライバモデルを訓練する方法400のフローチャートを示す。
図4を参照すると、方法400は、複数のドライバモデル210の各ドライバモデルから出力データを受けること(ブロック410)、トランスレーショナルモデル220を出力データに適用して、第1のトランスレーショナル反応データを複数のドライバモデル210のドライバモデルごとに、そのドライバモデルに割り当てられたトランスレーショナル軸に応じて生成すること(ブロック420)、複数のドライバモデル210のドライバモデルごとに、そのドライバモデルの1つまたはそれ以上のパラメータを、そのドライバモデルに対応する第1のトランスレーショナル反応データに基づいて調整すること(ブロック430)、およびブロック410~430をある反復回数だけ繰り返すこと(ブロック440)を含む。
【0060】
ブロック330で、ドライバモデルの選択セット240が、トランスレーショナルモデル220のトランスレーショナル軸ごとに、そのトランスレーショナル軸に割り当てられたドライバモデルの動作に基づいて生成される。たとえば、その回数の反復後、第1のドライバモデル210aによって予測された分子配列の集約予測フェレットHAI力価は、第3のドライバモデル210cによって予測された分子配列の集約予測フェレットHAI力価と比較され、フィードバック選択モジュール230は、最高集約予測フェレットHAI力価(または効果的にワクチン接種された病原株の最大数)に対応するドライバモデルを選択することができる。
【0061】
ブロック340で、ドライバモデルの選択セット240のそれぞれは、第2の時系列データセット202を受け、第2の時系列データセット202に基づいて、特定の発症季節についての1つまたはそれ以上の分子配列を表す学習済み出力データを生成する。
【0062】
ブロック350で、トランスレーショナルモデル220は、ドライバモデルの選択セット240のうちのドライバモデルのそれぞれから学習済み出力データを受け、この学習済み出力データに基づいて、ドライバモデルごとに第2のトランスレーショナル反応データを生成する。第2のトランスレーショナル反応データは、ドライバモデルごとに、トランスレーショナルモデル220のすべてのトランスレーショナル軸にわたる1つまたはそれ以上のトランスレーショナル反応を、そのドライバモデルの予測された1つまたはそれ以上の分子配列に基づいて表す。説明のための一例として、トランスレーショナルモデル220は、1つまたはそれ以上の分子配列を表す第1のドライバモデル210aから学習済み出力データを受けることができる。トランスレーショナルモデル220は、第1のドライバモデル210aによって予測された1つまたはそれ以上の分子配列について、フェレットHAI力価、フェレットAF力価、マウスHAI力価、マウスAF力価、およびヒトレプリカAF力価を予測することができる。ドライバモデルの選択セット240のうちのドライバモデルごとの第2のトランスレーショナル反応データは、フィードバック選択モジュール230で受けられる。フィードバック選択モジュール230は、各ドライバモデルの動作をトランスレーショナル軸ごとに比較し、各軸において最高の動作をするドライバモデルを選択して、ドライバモデルの選択サブセット250を生成することができる。
【0063】
図5は、ワクチンを設計するための従来の技法と比較したトランスレーショナル軸ごとの改善を表す図表を示す。例示的な実験で、5つの異なるワクチン候補が、先に説明したプロセスの特定のインスタンス(株のA/MISSOURI/37/2017、A/OSORNO/60580/2017、A/MIYAZAKI/89/2017、A/ETHIOPIA/1877/2017、およびA/KENYA/105/2017それぞれと同種である、略語MO/17、OS/17、MI/17、ET/17、およびKE/17で参照される)によって選択され、次に、従来通りに選択されたCVのA/SINGAPORE/INFIMH160019/2016について、5つの異なるトランスレーショナル軸(x軸と交差して表示)と対照して評価された。本明細書に記載のシステムおよび方法によって選択された5つの異なるCVのそれぞれが、トランスレーショナル軸のそれぞれにラベル付けされたマーカーとして表示されており、見やすくするために各トランスレーショナル軸内で少しずらしてある。Y軸は、トランスレーショナル軸ごとに、Global Initiative on Sharing All Influenza Data(GISAID)グローバルデータベースにおいて2018年4月15日現在で報告されている2018年3月の臨床分離株の割合(後で「季節性代理株」と呼ばれる)を示し、これらの臨床分離株は、H3N2の2018年3月現在の標準治療(SOC)であった従来選択のCV(A/SINGAPORE/INFIMH160019/2016)よりも、特定の抗原によってより良く保護されると予測された。たとえば、最も左の列(フェレットHAI)は、A/MISSOURI/37/2017が、これらの季節性代理株すべてに対して従来選択されていたCVよりも一様に高いHAI力価を有しているフェレットの抗体を高めることをトランスレーショナルモデルが予測したことを示す。別の例として、最も右の列(ヒト血清抗体フォレンジックス(AF))では、A/ETHIOPIA/1877/2017およびA/OSORNO/60580/2017は、従来選択されているCVに対して非劣性であると予測された。これらの結果は、まとめると、これら5つの候補が、異なるトランスレーショナル軸によって評価されると、多様で異なる誘発免疫反応の非劣性パターンを示すはずであることを示唆した。
【0064】
例示的トランスレーショナルモデル:
図6は、本開示の1つまたはそれ以上の実施形態による、機械学習技法を使用して生物学的反応を予測するためのシステム600の一例を示す。システム600は、先に論じたように、トランスレーショナルモデルとして使用することができる。システム600は、コンピュータプロセッサ610を含む。コンピュータプロセッサ610は、コンピュータ可読メモリ611、およびコンピュータ可読命令612を含む。システム600はまた、機械学習システム650を含む。機械学習システム650は、機械学習モデル620を含む。機械学習システム650は、コンピュータプロセッサ610と別個であることも一体化されていることもある。
【0065】
コンピュータ可読メモリ611(またはコンピュータ可読媒体)は、ローカル技法環境に適している任意のデータ記憶技術型を、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光学メモリデバイスおよびシステム、固定メモリ、取り外し可能メモリ、ディスクメモリ、フラッシュメモリ、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、電子消去可能プログラム可能読み取り専用メモリ(EEPROM)などをこれらだけには限らないが含めて、含み得る。いくつかの実施態様では、コンピュータ可読メモリ611は、実行可能命令を有するコードセグメントを含む。
【0066】
いくつかの実施態様では、コンピュータプロセッサ610は、汎用プロセッサを含む。いくつかの実施態様では、コンピュータプロセッサ610は、中央処理ユニット(CPU)を含む。いくつかの実施態様では、コンピュータプロセッサ610は、少なくとも1つの特定用途向け集積回路(ASIC)を含む。コンピュータプロセッサ610はまた、汎用プログラマブルマイクロプロセッサ、専用プログラマブルマイクロプロセッサ、デジタル信号プロセッサ(DSP)、プログラマブルロジックアレイ(PLA)、フィールドプログラマブルゲートアレイ(FPGA)、専用電子回路など、またはこれらの組み合わせを含み得る。コンピュータプロセッサ610は、コンピュータ実行可能命令612などのプログラムコード手段を実行するように構成される。いくつかの実施態様では、コンピュータプロセッサ610は、機械学習モデル620を実行するように構成される。
【0067】
コンピュータプロセッサ610は、第1の分子配列の第1の分子配列データ661と、第2の分子配列の第2の分子配列データ662とを取得するように構成される。第1の分子配列データ661は、候補抗原(たとえば、接種株)のアミノ酸配列データを含み得る。候補抗原は、たとえば、H3N1ウイルスに対応し得る。第2の分子配列データ662は、防御することが求められている既知のウイルス株のアミノ酸配列データを含み得る。たとえば、第2の分子配列は、2001年に発生した既知のウイルス株とすることができる。いくつかの実施態様では、後で
図9を参照してさらに詳細に説明するように、コンピュータプロセッサ610はまた、第1および第2の分子配列に関連する非ヒト生物学的反応データを受けるようにも構成される。非ヒト生物学的反応データは、たとえば、第1の分子配列を接種された後の第2の分子配列に対する非ヒトモデル(たとえば、マウス、フェレット、ヒト免疫系レプリカなど)の生物学的反応の尺度となる、生物学的反応読み出し(たとえば、抗体価)を含み得る。後で
図9を参照してさらに詳細に論じるように、いくつかの実施態様では、コンピュータプロセッサ610は、第1の分子配列データ661および第2の分子配列データ662をアミノ酸ミスマッチとしてコード化することができる。前述のデータは、データベース(クラウドベース環境を含む)との有線通信または無線通信、光ファイバ通信、ユニバーサルシリアルバス(USB)、読み出し専用メモリ(CD-ROM)などの、1つまたはそれ以上の手段を介して取得される。
【0068】
機械学習システム650では、機械学習モデル620を訓練するために機械学習技法を適用し、入力データに適用されると、機械学習モデルは、特定のブールプロパティ、またはスカラープロパティの推定値を入力データ項目が有する確率などの、関連するプロパティを入力データ項目が有するか否かの標示を生成する。
【0069】
機械学習モデル620の訓練の一部として、機械学習システム650は、当該のプロパティを有すると判定された入力データ項目の正の訓練セットを特定することによって、入力データの訓練セットを形成することができ、いくつかの実施態様では、当該のプロパティを欠いている入力データ項目の負の訓練セットを形成する。
【0070】
機械学習システム650は、訓練セットの入力データから構成値を抽出し、これらの構成は、入力データ項目が関連するプロパティを有するか否かに潜在的に関連するとみなされる変数である。入力データの構成の順序付きリストは、本明細書では入力データの構成ベクトルと呼ばれる。いくつかの実施態様では、機械学習システム650は、次元削減を適用して(たとえば、線形判別分析(LDA)、主成分分析(PCA)、ニューラルネットワークからの学習された深層構成などによって)、入力データの構成ベクトルのデータ量をより小さい、より代表的なデータのセットに低減する。
【0071】
いくつかの実施態様では、機械学習システム650は、機械学習モデル620を訓練するために教師あり機械学習を使用し、正の訓練セットおよび負の訓練セットの構成ベクトルが入力となる。線形サポートベクターマシン(線形SVM)、他のアルゴリズムのブースト(たとえば、AdaBoost)、ニューラルネットワーク、ロジスティック回帰、ナイーブベイズ、記憶ベース学習、ランダムフォレスト、バギングツリー、決定木、ブーストツリー、またはブーストスタンプなどの、様々な機械学習技法がいくつかの実施態様で使用される。機械学習モデル620は、入力データ項目から抽出された構成ベクトルに適用されると、入力データ項目が、ブールのはい/いいえ推定値、確率を表すスカラー値、複数のプロパティを表すスカラー値のベクトル、または複数のプロパティの別々の、かつ経験的ではない固定数を表すスカラー値のノンパラメトリック分布などの、当該のプロパティを有するか否かの標示を出力し、この標示は、ヒルベルト空間または同様の無限次元空間で明示的または暗黙的に表現される。
【0072】
いくつかの実施態様では、検証セットは、訓練セット中の入力データ以外の、当該のプロパティを有しているか欠いているかがすでに判定されている追加の入力データから形成される。機械学習システム650では、学習済みの機械学習モデル620を検証セットのデータに適用して、機械学習モデル620の精度を定量化する。精度測定に適用される一般的な測定基準に含まれるのは:精度=TP/(TP+FP)および再現度=TP/(TP+FN)であり、ここで、精度とは、機械学習モデル620が予測した総数(TP+FPすなわち偽陽性)のうち、機械学習モデル620が(TPすなわち真陽性を)いくつ正しく予測したかであり、再現度とは、当該のプロパティを有していた入力データ項目の総数(TP+FNすなわち偽陰性)のうち、機械学習モデル620が(TPを)いくつ正しく予測したかである。Fスコア(Fスコア=2×PR/(P+R))は、精度と再現度を単一の評価基準に統一するものである。いくつかの実施態様では、機械学習システム650は、モデル620が十分に正確であることの精度測定標示、または何回か行われた訓練ラウンド、などの停止条件が生じるまで、機械学習モデル620を反復して再トレーニングする。
【0073】
いくつかの実施態様では、機械学習モデル620は、ニューラルネットワークを含む。いくつかの実施態様では、ニューラルネットワークは、畳み込みニューラルネットワークを含む。機械学習モデル620は、リカレントニューラルネットワーク、ラジアル基底関数ニューラルネットワーク、物理ニューラルネットワーク(たとえば、光ニューラルネットワーク)などの、他の種類のニューラルネットワークを含み得る。本開示の1つまたはそれ以上の実施態様による、機械学習モデルを訓練する具体的な方法については、後で
図8~9を参照してより詳細に論じる。
【0074】
機械学習モデル620は、受けたデータに基づいて、第2の分子配列に対する生物学的反応663を予測するように構成される。たとえば、第1の分子配列データ661が、ワクチン接種として使用予定の候補抗原のアミノ酸配列を表し、第2の分子配列データ662が、2012年に循環していたことが知られているウイルス株のアミノ酸配列を表すと仮定する。機械学習モデル620は、ヒト免疫系が第1の分子配列(すなわち、候補抗原)を接種されていた場合に、第2の分子配列(たとえば、既知のウイルス株)に遭遇後にヒト免疫系が生成する生物学的反応(たとえば、抗体価)を予測することができる。
【0075】
図7は、本開示の1つまたはそれ以上の実施態様による、機械学習技法を使用して生物学的反応を予測するための方法700の一例を示すフローチャートである。例示の目的で、方法700は、
図6を参照して以前に論じた機械学習技法を使用して生物学的反応を予測するための、システム600によって実行されるとして説明される。方法700は、第1の分子配列の第1の配列データを受けること(ブロック710)、第2の分子配列の第2の配列データを受けること(ブロック720)、および第2の分子配列に対する生物学的反応を予測すること(ブロック730)を含む。
【0076】
ブロック710で、コンピュータプロセッサ710は、第1の分子配列の第1の分子配列データ161を受ける。先に示したように、第1の分子配列データ161は、候補抗原(たとえば、接種株)のアミノ酸配列データを含み得る。たとえば、候補抗原は、H3N1ウイルスに対応することができる。
【0077】
ブロック720で、コンピュータプロセッサ720は、第2の分子配列の第2の分子配列データ662を受ける。第2の分子配列データ662は、防御することが求められている既知のウイルス株のアミノ酸配列データを含み得る。たとえば、第2の分子配列は、2001年に発生した既知のウイルス株とすることができる。
【0078】
いくつかの実施態様では、方法700はさらに、第1の分子配列データ661および第2の分子配列データ662をアミノ酸ミスマッチとしてコード化することを含む。たとえば、第1の分子配列と第2の分子配列の類似している領域同士が比較され、「1」の値が領域内のそれぞれの非一致アミノ酸対に対してコード化され、「0」の値が領域内のそれぞれの一致アミノ酸対に対してコード化される。こうして、分子配列間で類似している領域内の位置にある非マッチングアミノ酸によって画成される、第1の分子配列と第2の分子配列の間の非類似度が機械学習モデル620に提供される。
【0079】
いくつかの実施態様では、方法700はさらに、第1および第2の分子配列に関連する非ヒト生物学的反応データを受けることを含む。非ヒト生物学的反応データは、たとえば、第1の分子配列を接種された後の第2の分子配列に対する非ヒトモデル(たとえば、マウス、フェレット、レプリカヒト免疫系など)の生物学的反応の尺度となる、生物学的反応読み出し(たとえば、抗体価)を含み得る。
【0080】
ブロック730で、機械学習モデル620は、受けたデータに基づいて、第2の分子配列に対する生物学的反応を予測する。たとえば、機械学習モデル620は、ヒト免疫系が第1の分子配列(すなわち、候補抗原)を接種されていた場合に、ヒト免疫系が第2の分子配列(すなわち、既知のウイルス株)に遭遇後に生成する生物学的反応(たとえば、抗体価)を予測することができる。いくつかの実施態様では、機械学習モデル620は、第2の分子配列に対する非ヒト生物学的反応を予測するように構成される。たとえば、機械学習モデルは、動物の免疫系(たとえば、マウス、フェレットなど)が第1の分子配列を接種されていた場合に、第2の分子配列に遭遇後に動物の免疫系が生成する抗体価を予測することができる。
【0081】
生物学的反応を予測するための機械学習モデルを訓練する方法:
次に、生物学的反応を予測するための機械学習モデル620を訓練する方法について説明する。
図8は、本開示の1つまたはそれ以上の実施態様による、生物学的反応を予測するための機械学習モデルを訓練するのに使用されるデータの一例を示す。図示のように、数千(または数百万、数十億など)の実験によるデータが使用されて、たとえば、フェレット、マウス、およびインビトロヒト免疫系レプリカ(たとえば、MIMIC(登録商標))のモデルからの、生物学的反応読み出しデータおよびウイルス配列データからなる包括的リポジトリが構築される。図示の実施形態では、データは、抗原配列データと、ウイルス配列データと、血球凝集阻害アッセイ(HAI)および抗体フォレンジックス(AF)によって評価された生物学的反応の読み出しとを含む。ウイルス配列データは、既知のウイルス株のパネル(「読み出し」パネルと呼ばれる)を含む。実験は、「サイクル」と呼ばれるバッチに分けられる(たとえば、サイクル1およびサイクル2)。各サイクルにおいて、モデル系は、選択された分子配列(たとえば、H3タンパク質、ワクチン製剤など)でチャレンジされ、「読み出し」ウイルス株のパネル(「読み出しパネル」と呼ばれる)に対する免疫反応を生成する能力が評価される。ウイルス読み出しパネルは、画成された期間(たとえば、1950年から2016年)中に循環していたインフルエンザ株の広範なサンプリングを表すように選択される。
【0082】
モデル実験とヒトの結果を関連付けるために、ヒト血清が「読み出し」パネルと比べられる。図示の例では、モデル系で試験された抗原-株/読み出し-株のすべての対に関して、対応する対がヒト血清測定値中に必ずしもあるとは限らない。これは、ヒトのサンプルが、サイクルのそれぞれに用いられる年の全期間をカバーしていない期間中にワクチン接種を受けた人から収集されることがあるからである。したがって、機械学習モデルは、ヒト血清で試験された抗原および読み出しのみに制限され、ヒト読み出し力価のベクトルが、機械学習モデルのための標的ベクトルとして選択される。ヒトAF読み出しは、接種後に被験者が抗体陽転するのに通常十分な時期である、接種後21日目に採取されたヒト血清からとすることができる。
【0083】
前述の実験から得られたデータを使用して、モデルが、生物学的反応を予測するように訓練される。いくつかの実施態様では、線形モデルが使用される。
【0084】
図9は、本開示の1つまたはそれ以上の実施態様による、生物学的反応を予測するための機械学習モデルを訓練する一例のフロー図である。図示のように、データ行列900が最初に準備され、各行が、抗原株および「読み出し」株のH3領域などの、一対のウイルス抗原に対応する。行列の列(または構成)は、フェレットモデルAF読み出し力価902およびマウスモデルAF読み出し力価903の専用列を含む。いくつかの実施態様では、欠損力価データは、列の平均値で入力される。しかし、任意の数の標準的な方法が、欠損力価データを入力するために使用される。シーケンス列901は、選択領域内の抗原株と「読み出し」株の間のアミノ酸配列差(SeqDiff)表現を表し、選択領域は、図示の例では抗原株および「読み出し」株のH3領域を含む。SeqDiffは、H3アミノ酸配列アラインメントの各位置において、そのアミノ酸が、抗原株と「読み出し」株の間で同じであるか異なっているかを検査することによって作成される。2つの株間のアミノ酸が同じではない場合、「1」がコード化される。2つの株間のアミノ酸が同じである場合、「0」がコード化される。2つの配列をアミノ酸のミスマッチとしてコード化すると、タンパク質ハミング距離評価基準を実質的に作成することができ、これは一般に、対応するアミノ酸が異なっている位置の数を反映している。いくつかの実施態様では、訓練セット全体にわたり一貫して「0」である列は、破棄される。各行の列901、902、903は、線形回帰を用いて、対応するヒト力価904と関連付けられる。
【0085】
読み出し力価を含む列902、903は、たとえば、線形回帰モデルを適合させる前にzスコア変換される。zスコアは、平均がゼロで標準偏差が1の線形変換されたデータ値を表すことができ、観察値が平均より上または下である標準偏差がいくつかを示すことができる。SeqDiff表現のコード化が疎であり得るので、場合によっては、SeqDiffベクトルの次元を5成分に低減するために主成分分析(PCA)が使用される。PCAとは、直交変換を使用して、相関する可能性のある変数の観測値のセットを、主成分と呼ばれる線形相関性のない変数の値のセットに変換する統計手順のことを指す。PCAは、ばらつきを強調し、データセット中の強いパターンを強調し、大きい変数セットを小さいセットへと、より大きいセットのかなり多くの情報を失うことなく低減するために、使用される。線形モデルは、マウス力価とフェレット力価と配列データとの相対的能力をより良く理解してヒトの反応を予測するために、データの様々な組み合わせで訓練される。
【0086】
先に説明したように、機械学習モデルは、生物学的反応を予測するための線形モデルとして構築されるが、データ構成とヒトの生物学的反応の間に非線形の関係が存在する可能性がある。それに応じて、前述の実験のデータを用いて、ディープニューラルネットワークを使用するモデル、または他の非線形モデルが構築され、このモデルは、1)前述の線形モデルと比較された場合、データの非線形関係を活用して相対的に正確な予測を行うこと、および2)動物とヒトの両方の力価について同時に予測を行うことができる。すべての力価を一緒に予測すると、免疫反応の強いシグナルが抗原株および「読み出し」株のタンパク質配列に直接コードされるという認識を利用することができる。ヒトと動物の両方の力価を配列だけから予測するようにモデルを訓練することによって、機械学習モデルは、種にまたがって免疫原性を駆動する配列-機能関係を探索するように強制される。統計学の用語では、これは「借用強度」と呼ばれ、モデルに、ある種のモデル(たとえば、フェレットモデル)で利用可能な大量のデータをより良く活用して、ヒトの反応についてより頑健な予測を生成させることができる。この方策では、より多くのウイルス抗原と、13000を超える例示的な行を持つデータマトリックスの構築とに対応することができる。線形モデルと同様に、ウイルス株と読み出し株の対ごとのH3領域のSeqDiff表現が、入力データとして使用される。
【0087】
いくつかの実施態様において、ターゲットベクトルは線形モデルのヒト力価であるが、非線形ニューラルネットワークモデルは、たとえば、7つの出力列(フェレットHAIおよびAF力価、マウスHAIおよびAF力価、MIMIC AF、ヒトHAI、ヒトAF)のマルチターゲット回帰問題を表すことができる。HAI実験の検出限界は通常40(または、希釈度で表すと1:40)であり得るので、この値を下回る測定値はすべて40に設定される。同様に、AFの測定値が10000を下回る場合には、10000に設定される。HAIはlog2(力価/10)で表され、AFはlog2(力価)で表される。ヒトデータおよびヒトレプリカデータには、測定が接種時(Day0)および血清変換後(Day21)に行われる場合に、追加レベルの複雑さがあり得る。したがって、ヒトおよびヒトレプリカの力価は、Day21/Day0のlog2倍の変化として表される。力価の値がターゲットベクトルに欠落している場合には、その値がゼロに設定され、ニューラルネットワークの損失関数が、その位置ではマスクされる。これにより、欠落した値についての予測が訓練中のモデルの適合性には寄与しないことを保証することができる。
【0088】
いくつかの実施態様では、relu活性化を伴う2つの128ノード緻密層と、7ノード緻密出力層とを有するニューラルネットワークが使用される。データの一部分(たとえば、データの15パーセント)がテストセットとしてランダムに除外され、ニューラルネットワークは、多数(たとえば、400、500、1000など)のエポックが訓練される。いくつかの実施態様では、以下のパラメータが使用される:学習率=0.001;重み減衰=0.0001;バッチサイズ=128。
【0089】
いくつかの実施態様では、L2損失関数が、ヒトレプリカ、ヒトAF、およびヒトHAIターゲットベクトルに対して使用される。一般に、L2損失関数は、推定ターゲット値と既存ターゲット値の二乗差を最小化する。いくつかの実施態様では、Huber損失関数が、フェレットデータおよびマウスデータに対して使用される。一般に、Huber損失関数はロバスト回帰で使用され、少なくともいくつかの事例では、L2損失関数よりもデータの外れ値に影響されにくい可能性がある。モデルをさらに付勢するために、明示的な重み付け手法が使用されて、誤分類されたヒトのサンプルに追加のペナルティが適用される。たとえば、訓練の各エポックにおける各ターゲット損失が以下の重みに乗じられる:フェレットHAI=0.8;フェレットAF=1;マウスHAI=1;マウスAF=1;ヒトHAI=2;ヒトAF=2;MIMIC=1.5。
【0090】
上記の説明では、例示の目的で、病原株を場合によりインフルエンザ株の文脈で説明しているが、病原という用語は、あらゆる感染病原体を包含するように広義に解釈される。たとえば、病原株はとりわけ、ウイルス株、細菌株、原生動物株、プリオン株、ウイロイド株、または真菌株を指し得る。病原株は、呼吸器合胞体ウイルス、および他のパラミクソウイルスに対応し得る。病原株はとりわけ、百日咳、ジフテリア、または破傷風などに対応し得る。
【0091】
上記の説明では、場合によりインフルエンザ季節との関連で発症季節を説明しているが、発症季節という用語は、あらゆる個別時間間隔を包含するように広義に解釈される。たとえば、発症季節はとりわけ、特定の月、特定の週、特定の一連の週、特定の一連の月、特定の一連の日を指し得る。さらに、連続する発症季節は、一定のこともあれば、変化することもある。たとえば、2つの連続する発症季節が、両方とも長さが1カ月であることがあり、あるいは、一方の発症季節は長さが1カ月であり、第2の発症季節は長さが4日であることがある。
【0092】
上記の説明では、フェレットHAI力価およびマウスAF力価などの、特定のトランスレーショナル軸/生物学的反応について説明したが、諸実施態様は、そのように限定されない。たとえば、1つの生物学的反応/トランスレーショナル軸は、特定の抗原および/または抗原断片のパネル(たとえば、タンパク質アレイ、ファージディスプレイライブラリなど)に対する親和性および/または結合活性などの抗体特徴付け、抗薬物抗体、免疫補完相互作用(たとえば、食作用、炎症、膜攻撃)を判定するためなどの機能プロファイリング、抗体依存性細胞傷害(ADCC)または同様のFc媒介エフェクター機能、形成された免疫複合体のプロファイリング(たとえば、受容体結合プロファイル)、免疫沈降アッセイ、またはこれらの組み合わせ、に対応することができる。1つの生物学的反応/トランスレーショナル軸は、1つのターゲットに他の抗体、または抗血清が結合する、抗体の競合に対応することができる。1つの生物学的反応/トランスレーショナル軸は、前述の抗体特徴付けのものと、機能アッセイ(マイクロ中和アッセイ、血球凝集阻害、およびノイラミニダーゼ阻害など)、結合アッセイ(血球凝集アッセイなど)、酵素反応アッセイ(酵素結合レクチンアッセイ(ELLA)など)、リガンド結合アッセイ(シアル酸誘導体およびその模倣物の結合など)、および蛍光読み出しアッセイ(20-(4-メチルウンベリフェリル)-a-D-N-アセチルノイラミン酸(MUNANA)開裂など)とに対応できる、抗血清特徴付けに対応することができる。
【0093】
1つの生物学的反応/トランスレーショナル軸は、以下の:レトロウイルス感染を介する形質移入もしくは内因性発現、またはCRISPRなどによるホストゲノム修飾、二体間の体液移行、またはこれらの組み合わせ、のうちの1つまたはそれ以上によって達成される受身移入および/または外因性発現もしくは移入によって、モノクローナル抗体またはポリクローナル抗体のいずれかを活用するインビボ評価に対応することができる。1つの生物学的反応/トランスレーショナル軸は、抗原性を評価するための免疫化により上昇した免疫のインビボ評価に対応することができる。1つの生物学的反応/トランスレーショナル軸は、主要組織適合性複合体(MHC)クラスIおよびクラスII上の線状ペプチド抗原の結合/親和性測定などの特徴付けに対応すること、さらには、T細胞による認識のための生産的T細胞エピトープディスプレイを評価することにも対応することができる。1つの生物学的反応/トランスレーショナル軸は、認識されているエピトープを特定するための抗原断片のパネル(たとえば、タンパク質アレイ、ファージディスプレイライブラリなど)に対する親和性などの特徴付けに対応することができる。1つの生物学的反応/トランスレーショナル軸は、T細胞反応および/または介在する反応を判定するなどのために、エクスビボおよび/またはインビトロで機能プロファイリングに対応することができる。1つの生物学的反応/トランスレーショナル軸は、適応反応に関連したT細胞(たとえば、αβまたはγδT細胞)の自然感染および/またはチャレンジおよび/または免疫化に応じて、増殖(たとえば、組織コンパートメント内の存在量)のインビボおよび/またはインサイツ測定に対応することができる。1つの生物学的反応/トランスレーショナル軸は、他のエピトープとの競合によって測定される自然感染および/またはチャレンジおよび/または免疫化に応じて、適応反応に関連したT細胞(たとえば、αβまたはγδT細胞)による認識の特異性のインビトロおよび/またはエクスビボ測定に対応することができる。
【0094】
1つの生物学的反応/トランスレーショナル軸は、防御予定の病原体、または偽型ウイルスもしくは細菌などの代理による組織形成、組織修復、または組織侵入に対する、形態学的または生理学的変化のインサイツ、エクスビボおよび/またはインビボ評価に対応することができる。1つの生物学的反応/トランスレーショナル軸は、たとえば、年齢、性別、虚弱性、名目上の血清状態、人種、ハプロタイプ、地理的位置などのバイオマーカーによって特徴付けられる、他の抗原および/または生理学的状態に対するインサイツ、エクスビボタンパク質、遺伝子発現および/または非コードRNAレベルの違いに対応することができる。1つの生物学的反応/トランスレーショナル軸は、ヒト、または、マウス、ラット、ウサギ、フェレット、モルモット、ブタ、ウシ、ニワトリ、ヒツジ、イルカ、コウモリ、イヌ、ネコ、ゼブラフィッシュおよび他の硬骨魚類、ならびにサルおよび類人猿のような非ヒト霊長類など、これらだけには限らないが、モデル生物において自然に生じる、または伝染による感染に対する、防御、伝染、または他の総体的生理反応のインサイツ評価に対応することができる。
【0095】
ヒトの対照チャレンジ試験を含む、ホモタイプおよび/またはヘテロタイプの感染病原体による意図的な感染(すなわちチャレンジ)に対する反応に関して、1つの生物学的反応/トランスレーショナル軸は、血液または組織に存在するタンパク質または代謝物のインサイツ、エクスビボおよび/またはインビボ評価に対応することができ、このタンパク質はサイトカイン、ホルモンまたはシグナル分子であり得、代謝物はビタミン、補因子または他の代謝副産物であり得る。1つの生物学的反応/トランスレーショナル軸は、免疫反応の影響を受ける、または免疫反応に影響を及ぼすことがあるマイクロバイオームのインサイツ、エクスビボ、および/またはインビボ評価に対応することができる。1つの生物学的反応/トランスレーショナル軸は、抗原単独、または自然免疫細胞(ナチュラルキラー(NK)細胞、樹状細胞(DC)、好中球、マクロファージ、単球など)と組み合わせた抗原でのチャレンジに応じて、機能的プロファイリングエクスビボ、インビトロ表現型、および/または機能的T細胞反応プロファイリング(受容体発現、サイトカイン生成、細胞傷害能)に対応することができる。1つの生物学的反応/トランスレーショナル軸は、先述の技法または方法を用いて収集または生成されたサンプルを用いて行われる、エピジェネティック解析に対応することができる。
【0096】
上記の説明では、生物学的反応を予測する機械学習モデルを訓練するためのいくつかの方法およびデータについて説明したが、他の方法およびデータも使用される。たとえば、ニューラルネットワークモデルは、先に説明したモデルよりも多い層、または少ない層を含むことができ、それぞれの層は、もっと多いノード、または少ないノードを有し得る。
【0097】
上述の説明において、諸実施態様は、実施態様ごとに異なり得る多数の特定の細部に関して説明された。したがって、本明細書および図面は、限定的な意味ではなく、例示的なものとしてみなされるべきである。本開示の範囲と、本出願人らが本開示の範囲であるとするものとの唯一かつ排他的なインジケータは、本出願に由来する請求項の組の、その後の任意の修正を含むそのような請求項に由来する特定の形式での、文字通りの、かつ同等の範囲である。このような特許請求の範囲に含まれる用語について本明細書に明示されているあらゆる定義が、請求項に使用されるそのような用語の意味を規定するものとする。加えて、前述の説明または添付の特許請求の範囲で「さらに含む」という用語が使用される場合、この語句の後に続くものは、追加の工程もしくはエンティティ、または以前に引用された工程もしくはエンティティのサブ工程/サブエンティティであり得る。
【国際調査報告】