(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-12-20
(54)【発明の名称】生物学的反応を予測するためのシステムおよび方法
(51)【国際特許分類】
G16B 30/00 20190101AFI20221213BHJP
C12N 15/33 20060101ALN20221213BHJP
C12N 15/11 20060101ALN20221213BHJP
C12M 1/34 20060101ALN20221213BHJP
【FI】
G16B30/00
C12N15/33
C12N15/11 Z
C12M1/34 F
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022523427
(86)(22)【出願日】2020-10-20
(85)【翻訳文提出日】2022-05-25
(86)【国際出願番号】 US2020056525
(87)【国際公開番号】W WO2021080999
(87)【国際公開日】2021-04-29
(32)【優先日】2019-10-21
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】517055195
【氏名又は名称】サノフィ パスツール インコーポレイテッド
(74)【代理人】
【識別番号】100127926
【氏名又は名称】結田 純次
(74)【代理人】
【識別番号】100140132
【氏名又は名称】竹林 則幸
(72)【発明者】
【氏名】アルマハン・ワシーム・ナイク
(72)【発明者】
【氏名】マリオ・バロ
(72)【発明者】
【氏名】ダスティン・ホロウェイ
(72)【発明者】
【氏名】コンスタンティン・ゼルドヴィッチ
(72)【発明者】
【氏名】トッド・ストラグネル
(72)【発明者】
【氏名】フィリップ・デーヴィッドソン
(72)【発明者】
【氏名】ウィリアム・ワレン
【テーマコード(参考)】
4B029
【Fターム(参考)】
4B029AA07
4B029BB13
4B029BB20
4B029FA01
(57)【要約】
システムおよび方法は、機械学習技法を適用して生物学的反応を予測することができる。方法のうちの1つは、生物学的反応を予測するように訓練された少なくとも1つの機械学習モデルを含む実行可能ロジックを実行する、少なくとも1つのプロセッサによって実施される。この方法は、第1の分子配列の第1の配列データを受ける工程と、第2の分子配列の第2の配列データを受ける工程と、受けた第1および第2の配列データに少なくとも部分的に基づいて、第2の分子配列の生物学的反応を予測する工程とを含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
生物学的反応を予測するためのデータ処理システムであって:
コンピュータ実行可能命令を含むコンピュータ可読メモリと;
生物学的反応を予測するように訓練された少なくとも1つの機械学習モデルを含む実行可能ロジックを実行するように構成された、少なくとも1つのプロセッサとを含み、ここで、該少なくとも1つのプロセッサは、該少なくとも1つのプロセッサがコンピュータ実行可能命令を実行しているときに:
第1の分子配列の第1の配列データを受けること;
第2の分子配列の第2の配列データを受けること;および
受けた第1および第2の配列データに少なくとも部分的に基づいて、第2の分子配列の生物学的反応を予測すること
を含む動作を行う、前記データ処理システム。
【請求項2】
動作はさらに、第1の分子配列および第2の分子配列に対応する非ヒト生物学的反応データを受けること;および
生物学的反応を、さらに非ヒト生物学的反応データに少なくとも部分的に基づいて予測することを含む、請求項1に記載のシステム。
【請求項3】
動作はさらに、第1の配列データおよび第2の配列データをアミノ酸のミスマッチとしてコード化することを含む、請求項1に記載のシステム。
【請求項4】
第1の分子配列は候補抗原を含む、請求項1に記載のシステム。
【請求項5】
第2の分子配列は既知のウイルス株を含む、請求項1に記載のシステム。
【請求項6】
生物学的反応を予測することは、ヒト生物学的反応を予測することを含む、請求項1に記載のシステム。
【請求項7】
生物学的反応を予測することは、少なくとも1つのヒト生物学的反応および少なくとも1つの非ヒト生物学的反応を予測することを含む、請求項1に記載のシステム。
【請求項8】
機械学習モデルはディープニューラルネットワークを含む、請求項1に記載のシステム。
【請求項9】
生物学的反応は抗体価を含む、請求項1に記載のシステム。
【請求項10】
生物学的反応を予測するように訓練された少なくとも1つの機械学習モデルを含む実行可能ロジックを実行する、少なくとも1つのプロセッサによって実施されるコンピュータ実装方法であって:
第1の分子配列の第1の配列データを受ける工程と;
第2の分子配列の第2の配列データを受ける工程と;
受けた第1および第2の配列データに少なくとも部分的に基づいて、第2の分子配列の生物学的反応を予測する工程と
を含む、前記コンピュータ実装方法。
【請求項11】
第1の分子配列および第2の分子配列に対応する非ヒト生物学的反応データを受ける工程と;
生物学的反応を、さらに非ヒト生物学的反応データに少なくとも部分的に基づいて予測する工程とを、さらに含む、請求項10に記載の方法。
【請求項12】
第1の配列データおよび第2の配列データをアミノ酸のミスマッチとしてコード化する工程をさらに含む、請求項10に記載の方法。
【請求項13】
第1の分子配列は候補抗原を含む、請求項10に記載の方法。
【請求項14】
第2の分子配列は既知のウイルス株を含む、請求項10に記載の方法。
【請求項15】
生物学的反応を予測する工程は、ヒト生物学的反応を予測する工程を含む、請求項10に記載の方法。
【請求項16】
生物学的反応を予測する工程は、少なくとも1つのヒト生物学的反応および少なくとも1つの非ヒト生物学的反応を予測する工程を含む、請求項10に記載の方法。
【請求項17】
機械学習モデルはディープニューラルネットワークを含む、請求項10に記載の方法。
【請求項18】
生物学的反応は抗体価を含む、請求項10に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2019年10月21日に出願された米国特許仮出願第62/924,079号の優先権を主張し、この出願の内容全体は、参照により本明細書に組み込まれる。
【0002】
本開示は、生物学的反応を予測するためのシステムおよび方法に関する。
【背景技術】
【0003】
哺乳類の免疫系では、環境病原体から身体を防御するために、2つの一般的な機構が用いられる。病原体由来の分子に遭遇すると、免疫反応が活性化して、その病原体から確実に防御するようになる。
【0004】
第1の免疫系機構は、非特異的(または自然)炎症反応である。自然免疫系は、病原体には存在するが身体自体には存在しない特定の分子を認識するようである。
【0005】
第2の免疫系機構は、特異もしくは獲得(または適応)免疫反応である。生得的反応は、それぞれの傷害や感染に対して基本的に同じである。対照的に、獲得反応は、病原体中の分子または病原体由来の分子に応じて特異的に生じる。免疫系は、自己タンパク質と非自己(たとえば、病原体または病原体由来)タンパク質との構造の違いを認識し、それに反応する。免疫系が非自己と認識するタンパク質は、抗原と呼ばれる。病原体は通常、多数の非常に複雑な抗原を発現する。獲得免疫系は2つの機能を活用する;第1は、病原体に存在する、抗原と呼ばれる多くの異なる分子に応じて免疫グロブリン(抗体)を生成することである。第2には、感染細胞として他の細胞が識別するための、細胞表面に提示される処理された形の抗原に結合する受容体をリクルートすることである。
【0006】
まとめると、獲得免疫は、Bリンパ球およびTリンパ球(または簡単に、B細胞およびT細胞)と呼ばれる特殊な免疫細胞によって媒介される。獲得免疫は、抗原構造を特異的に記憶している。同じ抗原に繰り返し曝露されると、反応が増大し、これにより、その特定の病原体に対する誘導防御のレベルが上昇し得る。B細胞は、その機能を抗体の作用によって生成し、媒介する。B細胞依存性の免疫反応は、抗体が体液中に見出されるので「液性免疫」と呼ばれる。T細胞依存性の免疫反応は、エフェクター活性がエフェクターT細胞の局所的な作用によって直接媒介されるので、「細胞媒介性免疫」と呼ばれる。エフェクターT細胞の局所作用は、T細胞と活性化マクロファージなどの二次エフェクター細胞との間の相乗的な相互作用によって増幅される。その結果、病原体は死滅し、病気を引き起こすことが防止される。
【0007】
病原体と同様に、ワクチンは、ワクチン接種部位で自然免疫反応が開始し、二次リンパ組織で長期記憶細胞を生じさせ得る抗原特異的T細胞およびB細胞が活性化することによって、機能する。ワクチンが接種部位の細胞と、ならびにT細胞およびB細胞と的確に相互作用することは、ワクチンが最終的に成功するのに重要である。
【0008】
候補抗原が機能的で効果的なワクチンとなり得るか否かを判断する際には、候補抗原は通常、厳格な試験プロトコルおよび評価プロトコルを経る必要がある。従来、候補抗原は、インビトロアッセイ、エクスビボアッセイによって、また様々な動物モデル(たとえば、マウスモデル、フェレットモデルなど)を用いることによって、候補抗原が評価されるプロセスにより前臨床試験されている。
【0009】
生物学的反応を測定するのに使用できるアッセイの1つの例示的なタイプは、赤血球凝集阻害アッセイ(HAI)である。HAIでは、血球凝集というプロセスを適用し、このプロセスでは、赤血球(RBC)表面のシアル酸受容体が、インフルエンザウイルス(および他のいくつかのウイルス)の表面に見られるヘマグルチニン糖タンパク質と結合し、血球凝集と呼ばれる、相互結合した赤血球とウイルス粒子からなるネットワーク、または格子構造を作成する。この血球凝集は、ウイルス粒子に対して濃度依存的に起きる。HAIは、体内の病原体標的細胞上の同様のシアル酸受容体に結合するウイルスの能力に関して代理として行われる物理的測定法である。別のウイルスに対するヒトまたは動物の免疫反応で生じた抗ウイルス抗体の導入(この別のウイルスは、アッセイでRBCに結合させるために用いたウイルスと遺伝的に類似していることも異なっていることもある)。これらの抗体は、ウイルスと赤血球の相互作用を妨害し、ウイルスの濃度を、アッセイで赤血球凝集が観察されるときの濃度を変えるのに十分なだけ変化させる。HAIの目標の1つは、抗血清中の、または抗体を含む他のサンプル中の抗体の濃度を、アッセイにおいて赤血球凝集を誘発する抗体の能力に対して特徴付けることであり得る。赤血球凝集を防止する抗体の最高希釈度は、HAI力価(すなわち、評価反応)と呼ばれる。
【0010】
生物学的反応を測定する別の例示的な手法は、ヒトまたは動物の免疫反応によって誘発される、より大きい可能性のある抗体のセットを測定することである。このセットは、HAIアッセイにおいて赤血球凝集に必ずしも影響を及ぼす能力がない。この測定のための一般的な手法では、酵素結合免疫吸着アッセイ(ELISA)技法を活用しており、ウイルス抗原(たとえば、ヘマグルチニン)が固体表面に固定化された後に抗血清からの抗体が抗原に結合される。読み取りでは、抗血清からの抗体、またはそれ自体が抗血清の抗体に結合する他の抗体のいずれかに複合化した、外因性酵素の基質の触媒作用を測定する。基質の触媒作用により、容易に検出可能な生成物が生じる。この種のインビトロアッセイには、多くのバリエーションがある。このようなバリエーションの1つは、抗体フォレンジックス(AF)と呼ばれている;これは、単一の血清サンプルを多くの抗原と同時に比べられるようにする多重化ビーズアレイ技法である。これらの測定法では、ヘマグルチニン分子によるシアル酸結合への干渉により特異的に関連すると理解されているHAI力価と比較した、濃度および総抗体認識の特性を明らかにする。したがって、抗血清の抗体は、場合によって、測定値が、1つのウイルスのヘマグルチニン分子の対応するHAI力価よりも、別のウイルスのヘマグルチニン分子と比べて比例的に高い、または低い可能性がある;言い換えると、これら2つの測定値AFおよびHAIは、一般に直線的に関連していない。
【0011】
生物学的反応を測定するためのさらなる例示的な手法は、ノイラミニダーゼ(NA)阻害剤に対するウイルスの感受性を測定することである(NAIアッセイ)。たとえば、NA阻害剤に対するインフルエンザウイルスの感受性を評価するために、2’-(4-メチルウンベリフェリル)-α-D-N-アセチルノイラミン酸(MUNANA)基質を切断して蛍光生成物4-メチルウンベリフェロン(4-MU)を放出するNA酵素に基づく、蛍光ベースのアッセイが使用される。それゆえに、蛍光量がNA酵素の活性量と直接関連している。したがって、インフルエンザウイルスNAに対するNA阻害剤の阻害効果は、一般にIC(50)と呼ばれる値で与えられる、NA酵素活性を50%低下させるのに必要なNA阻害剤の濃度に基づいて判定される。それによって、NAの酵素部位に対する抗血清中の諸抗体の濃度および特性は、これらの抗体の存在下でのNA酵素活性の低下として測定される。
【0012】
現在のところ、従来の候補抗原試験は、あらかじめ考えた「防御的」免疫反応の誘発を条件付きの前提として、実施されるだけである。すなわち、ある動物またはアッセイが候補抗原に対して適切な反応を実証できない場合、その候補抗原は通常、「選択範囲を狭められる」(すなわち、生産的な候補として放棄される)。たとえば、インフルエンザ抗原は逐次選択プロトコルを用いて試験されることが多く、この場合、抗原が大規模生産しやすいことを確実にするために、抗原はまずインビトロアッセイによって評価される。抗原がこれらの要件を満たすことを条件として、抗原は次に、たとえばマウスの免疫化によって評価されて、マウスから防御免疫反応を誘発するための抗原の能力が測定される。この反応は通常、抗原自体に対して、また、防御することが望ましい他の様々なウイルス株および/またはウイルス株構成要素に対して、保護的であることが予想される。その後、保護反応を示唆すると理解されるものを以前に実証している、マウスまたはその他の以前の測定値を条件として、フェレットも同様に評価される。ヒトについての評価の最後から2番目に、ヒト免疫系レプリカまたは非ヒト霊長類などのエクスビボプラットフォームが評価される;再び、前の工程での成功が条件となる。
【発明の概要】
【課題を解決するための手段】
【0013】
一態様では、生物学的反応を予測するためのデータ処理システムが提供される。システムは、コンピュータ実行可能命令を含むコンピュータ可読メモリを含む。システムは、生物学的反応を予測するように訓練された少なくとも1つの機械学習モデルを含む実行可能ロジックを実行するように構成された、少なくとも1つのプロセッサを含み、ここで、少なくとも1つのプロセッサは、少なくとも1つのプロセッサがコンピュータ実行可能命令を実行しているときに、1つまたはそれ以上の動作を行う。1つまたはそれ以上の動作は、第1の分子配列の第1の配列データを受けることを含む。1つまたはそれ以上の動作は、第2の分子配列の第2の配列データを受けることを含む。1つまたはそれ以上の動作は、受けた第1および第2の配列データに少なくとも部分的に基づいて、第2の分子配列の生物学的反応を予測することを含む。
【0014】
1つまたはそれ以上の動作は、第1の分子配列および第2の分子配列に対応する非ヒト生物学的反応データを受けることを含み得る。1つまたはそれ以上の動作は、生物学的反応を、非ヒト生物学的反応データに少なくとも部分的にさらに基づいて予測することを含み得る。1つまたはそれ以上の動作は、第1の配列データおよび第2の配列データをアミノ酸のミスマッチとしてコード化することを含み得る。
【0015】
第1の分子配列は候補抗原を含み得る。第2の分子配列は既知のウイルス株を含み得る。
【0016】
生物学的反応を予測することは、ヒト生物学的反応を予測することを含み得る。生物学的反応を予測することは、少なくとも1つのヒト生物学的反応および少なくとも1つの非ヒト生物学的反応を予測することを含み得る。生物学的反応は抗体価を含み得る。機械学習モデルはディープニューラルネットワークを含み得る。
【0017】
上記およびその他の態様、構成、ならびに実施態様は、方法、装置、システム、構成要素、プログラム製品、ビジネスを行う方法、機能を実行するための手段または工程として表現され、さらに他の方法で表現され、また、特許請求の範囲を含む以下の説明から明らかになろう。
【0018】
本開示の実施態様では、以下の利点を提供することができる。機械学習技法が、偽陽性および偽陰性の発生率が減少するように、機械学習モデルを訓練して生物学的反応を予測するために使用される。記載されたシステムおよび方法の少なくともいくつかは、従来の技術と比較した場合に、たとえば、データの次元を減少させることによって、本質的な疎データを効率的に処理するために使用される。記載されたシステムおよび方法の少なくともいくつかでは、受けたデータの非線形関係を活用して、予測精度を従来の技術と比べて向上させることができる。記載されたシステムおよび方法の少なくともいくつかは、ヒトの生物学的反応と非ヒトの生物学的反応を同時に予測するために使用される。記載されたシステムおよび方法の少なくともいくつかは、実験的に観察されていない結果を予測するために使用される。
【0019】
上記およびその他の態様、構成、実施態様、および利点は、方法、装置、システム、構成要素、プログラム製品、機能を実行するための手段または工程として表現され、さらに他の方法で表現される。
【0020】
上記およびその他の態様、構成、および実施態様は、特許請求の範囲を含む以下の説明から明らかになろう。
【図面の簡単な説明】
【0021】
【
図1】本開示の1つまたはそれ以上の実施形態による、機械学習技法を使用して生物学的反応を予測するためのシステムの一例を示す図である。
【
図2】本開示の1つまたはそれ以上の実施形態による、生物学的反応を予測するための方法の一例を示すフローチャートである。
【
図3】本開示の1つまたはそれ以上の実施形態による、生物学的反応を予測するための機械学習モデルを訓練するのに使用されるデータの一例である。
【
図4】本開示の1つまたはそれ以上の実施形態による、生物学的反応を予測するための機械学習モデルを訓練する一例のフロー図である。
【
図5】生物学的反応を予測するために開発されたトランスレーショナルモデルの実験結果を示す図である。
【発明を実施するための形態】
【0022】
ワクチン候補を解析するための逐次選択プロトコルを設計する上で、いくつかの重要な仮定があり得る。1つの仮定は、アッセイがますます「トランスレーショナル」になることであり得、それによって、ヒトの反応との類似性の定性的尺度が仮定される。たとえば、マウスは、様々な態様(たとえば、寿命、サイズ、臓器サイズ、免疫系設計など)に関して、ヒトとは生理学的に隔たっている。インフルエンザの場合では、フェレットは一般に、インフルエンザ感染に対する生理学的反応(たとえば、くしゃみ、感染など)の反復発生の多くの態様について、典型的なベンチマーク標準として確立されている。別の仮定は、ヒトと隔たった評価における不満足な反応が、必然的にヒトにおける不満足な反応を示すこととすることができる。また、ヒトと隔たった評価における良好な反応は、よりヒトに類似している状態での良好な反応を示している可能性があるとも仮定される。
【0023】
残念ながら、従来の逐次選択プロトコルでは、ヒトでは有効であり得てもフェレットモデルまたはマウスモデルでは必要な反応を誘発できない(偽陰性)多くの抗原を廃棄することになりかねない。逆に、従来の逐次選択プロトコルでは、動物では良好に機能するが最終的にヒトでは不満足な反応を生じさせる(偽陽性)抗原を選択することになりかねない。
【0024】
本開示に記載のシステムおよび方法は、従来の逐次選択プロトコルの前述の欠点の少なくともいくつかを克服するために使用される。たとえば、本開示に記載のシステムおよび方法は、機械学習技法を使用して、毒素または他の異物(たとえば、インフルエンザ抗原)に対する動物およびヒトの反応などの生物学的反応を予測するように機械学習モデルを訓練することができる。動物実験またはインビトロ実験のうちの少なくとも1つからのウイルス配列データおよび生物学的反応読み出しが、このような予測を行うための機械学習モデルを訓練するために使用される。したがって、機械学習モデルの出力は、第1の分子配列(たとえば、候補抗原/接種株)が、ヒトまたは非ヒト種において、他の分子配列(たとえば、既知のウイルス株)に対してこれらの種を十分に防御する生物学的反応を生じさせるために使用できるかどうかに関しての洞察を提供することができる。
【0025】
図面では、デバイス、モジュール、命令ブロックおよびデータ要素を表すものなどの、概略的な要素の特定の配置または順序が、説明を容易にするために示されている。しかし、図面中の概略的要素の特定の順序または配置は、処理の特定の順序もしくはシーケンス、または処理の分離が必要であることを暗示するものではないことが当業者には理解されるはずである。さらに、図面に概略的な要素が含まれることは、そのような要素がすべての実施形態で必要であること、あるいはそのような要素によって表される構成が、いくつかの実施形態において他の要素に含まれない、または他の要素と組み合わされないことを暗示するものではない。
【0026】
さらに、図面で、実線もしくは破線または矢印などの連結要素が、2つ以上の他の概略要素間の連結、関係、または関連を説明するために使用されている場合、そのような連結要素が何もないことは、連結、関係、または関連が存在できないことを暗示するものではない。言い換えると、要素間のいくつかの連結、関係、または関連は、開示内容を不明瞭にしないようにするために、図面に示されていない。加えて、図示しやすくするために、単一の連結要素が、要素間の複数の連結、関係、または関連を表すのに用いられる。たとえば、連結要素が信号、データ、または命令の通信を表す場合、このような要素は、必要とされる、通信に影響を与えるための1つまたはそれ以上の信号経路(たとえば、バス)を表すことが当業者には理解されるはずである。
【0027】
次に、添付の図面に例が示されている実施形態を詳細に参照する。以下の詳細な説明では、記載された様々な実施形態の完全な理解をもたらすために、多数の具体的な詳細が示される。しかし、記載された様々な実施形態は、これらの具体的な詳細がなくても実施できることが当業者には明らかであろう。他の例では、よく知られている方法、手順、構成要素、回路、およびネットワークは、実施形態の態様を不必要に不明瞭にしないようにするために、詳細に説明されていない。
【0028】
以下で、それぞれが互いに独立して、または他の構成の任意の組み合わせとともに使用できる、いくつかの構成について説明する。しかし、どの個々の構成も、上で論じた問題のどれにも対処しない、または、上で論じた問題の1つにしか対処しないことがある。上で論じた問題のいくつかは、本明細書に記載された構成のいずれによっても完全には解決されないことがある。見出しが設けられていても、ある特定の見出しに関連するデータが、その見出しを持つセクションで見つからなくて本明細書のどこか他の場所で見つかることもある。
【0029】
生物学的反応を予測するためのシステムおよび方法
図1は、本開示の1つまたはそれ以上の実施形態による、機械学習技法を使用して生物学的反応を予測するためのシステム100の一例を示す。システム100は、コンピュータプロセッサ110を含む。コンピュータプロセッサ110は、コンピュータ可読メモリ111、およびコンピュータ可読命令112を含む。システム100はまた、機械学習システム150を含む。機械学習システム150は、機械学習モデル120を含む。機械学習システム150は、コンピュータプロセッサ110と別個であっても、コンピュータプロセッサ110と統合されていてもよい。
【0030】
コンピュータ可読メモリ111(またはコンピュータ可読媒体)は、ローカル技法環境に適している任意のデータ記憶技術型を、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光学メモリデバイスおよびシステム、固定メモリ、取り外し可能メモリ、ディスクメモリ、フラッシュメモリ、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、電子消去可能プログラム可能読み取り専用メモリ(EEPROM)などをこれらだけには限らないが含めて、含み得る。いくつかの実施態様では、コンピュータ可読メモリ111は、実行可能命令を有するコードセグメントを含む。
【0031】
いくつかの実施態様では、コンピュータプロセッサ110は、汎用プロセッサを含む。いくつかの実施態様では、コンピュータプロセッサ110は、中央処理ユニット(CPU)を含む。いくつかの実施態様では、コンピュータプロセッサ110は、少なくとも1つの特定用途向け集積回路(ASIC)を含む。コンピュータプロセッサ110はまた、汎用プログラマブルマイクロプロセッサ、専用プログラマブルマイクロプロセッサ、デジタル信号プロセッサ(DSP)、プログラマブルロジックアレイ(PLA)、フィールドプログラマブルゲートアレイ(FPGA)、専用電子回路など、またはこれらの組み合わせを含み得る。コンピュータプロセッサ110は、コンピュータ実行可能命令112などのプログラムコード手段を実行するように構成される。いくつかの実施態様では、コンピュータプロセッサ110は、機械学習モデル120を実行するように構成される。
【0032】
コンピュータプロセッサ110は、第1の分子配列の第1の分子配列データ161と、第2の分子配列の第2の分子配列データ162とを取得するように構成される。第1の分子配列データ161は、候補抗原(たとえば、接種株)のアミノ酸配列データを含み得る。候補抗原は、たとえば、H3N1ウイルスに対応し得る。第2の分子配列データ162は、防御することが求められている既知のウイルス株のアミノ酸配列データを含み得る。たとえば、第2の分子配列は、2001年に発生した既知のウイルス株とすることができる。いくつかの実施態様では、後で
図4を参照してさらに詳細に説明するように、コンピュータプロセッサ110はまた、第1および第2の分子配列に関連する非ヒト生物学的反応データを受けるようにも構成される。非ヒト生物学的反応データは、たとえば、第1の分子配列を接種された後の第2の分子配列に対する非ヒトモデル(たとえば、マウス、フェレット、ヒト免疫系レプリカなど)の生物学的反応の尺度となる、生物学的反応読み出し(たとえば、抗体価)を含み得る。後で
図4を参照してさらに詳細に論じるように、いくつかの実施態様では、コンピュータプロセッサ110は、第1の分子配列データ161および第2の分子配列データ162をアミノ酸ミスマッチとしてコード化することができる。前述のデータは、データベース(クラウドベース環境を含む)との有線通信または無線通信、光ファイバ通信、ユニバーサルシリアルバス(USB)、読み出し専用メモリ(CD-ROM)などの、1つまたはそれ以上の手段を介して取得される。
【0033】
機械学習システム150では、機械学習モデル120を訓練するために機械学習技法を適用し、入力データに適用されると、機械学習モデルは、特定のブールプロパティ、またはスカラープロパティの推定値を入力データ項目が有する確率などの、関連するプロパティを入力データ項目が有するか否かの標示を生成する。
【0034】
機械学習モデル120の訓練の一部として、機械学習システム150は、当該のプロパティを有すると判定された入力データ項目の正の訓練セットを特定することによって、入力データの訓練セットを形成することができ、いくつかの実施態様では、当該のプロパティを欠いている入力データ項目の負の訓練セットを形成する。
【0035】
機械学習システム150は、訓練セットの入力データから構成値を抽出し、これらの構成は、入力データ項目が関連するプロパティを有するか否かに潜在的に関連するとみなされる変数である。入力データの構成の順序付きリストは、本明細書では入力データの構成ベクトルと呼ばれる。いくつかの実施態様では、機械学習システム150は、次元削減を適用して(たとえば、線形判別分析(LDA)、主成分分析(PCA)、ニューラルネットワークからの学習された深層構成などによって)、入力データの構成ベクトルのデータ量をより小さい、より代表的なデータのセットに低減する。
【0036】
いくつかの実施態様では、機械学習システム150は、機械学習モデル120を訓練するために教師あり機械学習を使用し、正の訓練セットおよび負の訓練セットの構成ベクトルが入力となる。線形サポートベクターマシン(線形SVM)、他のアルゴリズムのブースト(たとえば、AdaBoost)、ニューラルネットワーク、ロジスティック回帰、ナイーブベイズ、記憶ベース学習、ランダムフォレスト、バギングツリー、決定木、ブーストツリー、またはブーストスタンプなどの、様々な機械学習技法がいくつかの実施態様で使用される。機械学習モデル120は、入力データ項目から抽出された構成ベクトルに適用されると、入力データ項目が、ブールのはい/いいえ推定値、確率を表すスカラー値、複数のプロパティを表すスカラー値のベクトル、または複数のプロパティの別々の、かつ経験的ではない固定数を表すスカラー値のノンパラメトリック分布などの、当該のプロパティを有するか否かの標示を出力し、この標示は、ヒルベルト空間または同様の無限次元空間で明示的または暗黙的に表現される。
【0037】
いくつかの実施態様では、検証セットは、訓練セット中の入力データ以外の、当該のプロパティを有しているか欠いているかがすでに判定されている追加の入力データから形成される。機械学習システム150では、学習済みの機械学習モデル120を検証セットのデータに適用して、機械学習モデル120の精度を定量化する。精度測定に適用される一般的な測定基準に含まれるのは:精度=TP/(TP+FP)および再現度=TP/(TP+FN)であり、ここで、精度とは、機械学習モデル120が予測した総数(TP+FPすなわち偽陽性)のうち、機械学習モデル120が(TPすなわち真陽性を)いくつ正しく予測したかであり、再現度とは、当該のプロパティを有していた入力データ項目の総数(TP+FNすなわち偽陰性)のうち、機械学習モデル120が(TPを)いくつ正しく予測したかである。Fスコア(Fスコア=2×PR/(P+R))は、精度と再現度を単一の評価基準に統一するものである。いくつかの実施態様では、機械学習システム150は、モデル120が十分に正確であることの精度測定標示、または何回か行われた訓練ラウンド、などの停止条件が生じるまで、機械学習モデル120を反復して再トレーニングする。
【0038】
いくつかの実施態様では、機械学習モデル120は、ニューラルネットワークを含む。いくつかの実施態様では、ニューラルネットワークは、畳み込みニューラルネットワークを含む。機械学習モデル120は、リカレントニューラルネットワーク、ラジアル基底関数ニューラルネットワーク、物理ニューラルネットワーク(たとえば、光ニューラルネットワーク)などの、他の種類のニューラルネットワークを含み得る。本開示の1つまたはそれ以上の実施態様による、機械学習モデルを訓練する具体的な方法については、後で
図3~4を参照してより詳細に論じる。
【0039】
機械学習モデル120は、受けたデータに基づいて、第2の分子配列に対する生物学的反応163を予測するように構成される。たとえば、第1の分子配列データ161が、ワクチン接種として使用予定の候補抗原のアミノ酸配列を表し、第2の分子配列データ162が、2012年に循環していたことが知られているウイルス株のアミノ酸配列を表すと仮定する。機械学習モデル120は、ヒト免疫系が第1の分子配列(すなわち、候補抗原)を接種されていた場合に、第2の分子配列(たとえば、既知のウイルス株)に遭遇後にヒト免疫系が生成する生物学的反応(たとえば、抗体価)を予測することができる。
【0040】
図2は、本開示の1つまたはそれ以上の実施態様による、機械学習技法を使用して生物学的反応を予測するための方法200の一例を示すフローチャートである。例示の目的で、方法200は、
図1を参照して以前に論じた機械学習技法を使用して生物学的反応を予測するための、システム100によって実行されるとして説明される。方法200は、第1の分子配列の第1の配列データを受けること(ブロック210)、第2の分子配列の第2の配列データを受けること(ブロック220)、および第2の分子配列に対する生物学的反応を予測すること(ブロック230)を含む。
【0041】
ブロック210で、コンピュータプロセッサ110は、第1の分子配列の第1の分子配列データ161を受ける。先に示したように、第1の分子配列データ161は、候補抗原(たとえば、接種株)のアミノ酸配列データを含み得る。たとえば、候補抗原は、H3N1ウイルスに対応することができる。
【0042】
ブロック220で、コンピュータプロセッサ110は、第2の分子配列の第2の分子配列データ162を受ける。第2の分子配列データ162は、防御することが求められている既知のウイルス株のアミノ酸配列データを含み得る。たとえば、第2の分子配列は、2001年に発生した既知のウイルス株とすることができる。
【0043】
いくつかの実施態様では、方法200はさらに、第1の分子配列データ161および第2の分子配列データ162をアミノ酸ミスマッチとしてコード化することを含む。たとえば、第1の分子配列と第2の分子配列の類似している領域同士が比較され、「1」の値が領域内のそれぞれの非一致アミノ酸対に対してコード化され、「0」の値が領域内のそれぞれの一致アミノ酸対に対してコード化される。こうして、分子配列間で類似している領域内の位置にある非マッチングアミノ酸によって画成される、第1の分子配列と第2の分子配列の間の非類似度が機械学習モデル120に提供される。
【0044】
いくつかの実施態様では、方法200はさらに、第1および第2の分子配列に関連する非ヒト生物学的反応データを受けることを含む。非ヒト生物学的反応データは、たとえば、第1の分子配列を接種された後の第2の分子配列に対する非ヒトモデル(たとえば、マウス、フェレット、レプリカヒト免疫系など)の生物学的反応の尺度となる、生物学的反応読み出し(たとえば、抗体価)を含み得る。
【0045】
ブロック230で、機械学習モデル120は、受けたデータに基づいて、第2の分子配列に対する生物学的反応を予測する。たとえば、機械学習モデル120は、ヒト免疫系が第1の分子配列(すなわち、候補抗原)を接種されていた場合に、ヒト免疫系が第2の分子配列(すなわち、既知のウイルス株)に遭遇後に生成する生物学的反応(たとえば、抗体価)を予測することができる。いくつかの実施態様では、機械学習モデル120は、第2の分子配列に対する非ヒト生物学的反応を予測するように構成される。たとえば、機械学習モデルは、動物の免疫系(たとえば、マウス、フェレットなど)が第1の分子配列を接種されていた場合に、第2の分子配列に遭遇後に動物の免疫系が生成する抗体価を予測することができる。
【0046】
生物学的反応を予測するための機械学習モデルを訓練する方法
次に、生物学的反応を予測するための機械学習モデル120を訓練する方法について説明する。
図3は、本開示の1つまたはそれ以上の実施態様による、生物学的反応を予測するための機械学習モデルを訓練するのに使用されるデータの一例を示す。図示のように、数千(または数百万、数十億など)の実験によるデータが使用されて、たとえば、フェレット、マウス、およびインビトロヒト免疫系レプリカ(たとえば、MIMIC(登録商標))のモデルからの、生物学的反応読み出しデータおよびウイルス配列データからなる包括的リポジトリが構築される。図示の実施形態では、データは、抗原配列データと、ウイルス配列データと、血球凝集阻害アッセイ(HAI)および抗体フォレンジックス(AF)によって評価された生物学的反応の読み出しとを含む。ウイルス配列データは、既知のウイルス株のパネル(「読み出し」パネルと呼ばれる)を含む。実験は、「サイクル」と呼ばれるバッチに分けられる(たとえば、サイクル1およびサイクル2)。各サイクルにおいて、モデル系は、選択された分子配列(たとえば、H3タンパク質、ワクチン製剤など)でチャレンジされ、「読み出し」ウイルス株のパネル(「読み出しパネル」と呼ばれる)に対する免疫反応を生成する能力が評価される。ウイルス読み出しパネルは、画成された期間(たとえば、1950年から2016年)中に循環していたインフルエンザ株の広範なサンプリングを表すように選択される。
【0047】
モデル実験とヒトの結果を関連付けるために、ヒト血清が「読み出し」パネルと比べられる。図示の例では、モデル系で試験された抗原-株/読み出し-株のすべての対に関して、対応する対がヒト血清測定値中に必ずしもあるとは限らない。これは、ヒトのサンプルが、サイクルのそれぞれに用いられる年の全期間をカバーしていない期間中にワクチン接種を受けた人から収集されることがあるからである。したがって、機械学習モデルは、ヒト血清で試験された抗原および読み出しのみに制限され、ヒト読み出し力価のベクトルが、機械学習モデルのための標的ベクトルとして選択される。ヒトAF読み出しは、接種後に被験者が抗体陽転するのに通常十分な時期である、接種後21日目に採取されたヒト血清からとすることができる。
【0048】
前述の実験から得られたデータを使用して、モデルが、生物学的反応を予測するように訓練される。いくつかの実施態様では、線形モデルが使用される。
【0049】
図4は、本開示の1つまたはそれ以上の実施態様による、生物学的反応を予測するための機械学習モデルを訓練する一例のフロー図である。図示のように、データ行列400が最初に準備され、各行が、抗原株および「読み出し」株のH3領域などの、一対のウイルス抗原に対応する。行列の列(または構成)は、フェレットモデルAF読み出し力価402およびマウスモデルAF読み出し力価403の専用列を含む。いくつかの実施態様では、欠損力価データは、列の平均値で入力される。しかし、任意の数の標準的な方法が、欠損力価データを入力するために使用される。シーケンス列401は、選択領域内の抗原株と「読み出し」株の間のアミノ酸配列差(SeqDiff)表現を表し、選択領域は、図示の例では抗原株および「読み出し」株のH3領域を含む。SeqDiffは、H3アミノ酸配列アラインメントの各位置において、そのアミノ酸が、抗原株と「読み出し」株の間で同じであるか異なっているかを検査することによって作成される。2つの株間のアミノ酸が同じではない場合、「1」がコード化される。2つの株間のアミノ酸が同じである場合、「0」がコード化される。2つの配列をアミノ酸のミスマッチとしてコード化すると、タンパク質ハミング距離評価基準を実質的に作成することができ、これは一般に、対応するアミノ酸が異なっている位置の数を反映している。いくつかの実施態様では、訓練セット全体にわたり一貫して「0」である列は、破棄される。各行の列401、402、403は、線形回帰を用いて、対応するヒト力価404と関連付けられる。
【0050】
読み出し力価を含む列402、403は、たとえば、線形回帰モデルを適合させる前にzスコア変換される。zスコアは、平均がゼロで標準偏差が1の線形変換されたデータ値を表すことができ、観察値が平均より上または下である標準偏差がいくつかを示すことができる。SeqDiff表現のコード化が疎であり得るので、場合によっては、SeqDiffベクトルの次元を5成分に低減するために主成分分析(PCA)が使用される。PCAとは、直交変換を使用して、相関する可能性のある変数の観測値のセットを、主成分と呼ばれる線形相関性のない変数の値のセットに変換する統計手順のことを指す。PCAは、ばらつきを強調し、データセット中の強いパターンを強調し、大きい変数セットを小さいセットへと、より大きいセットのかなり多くの情報を失うことなく低減するために、使用される。線形モデルは、マウス力価とフェレット力価と配列データとの相対的能力をより良く理解してヒトの反応を予測するために、データの様々な組み合わせで訓練される。
【0051】
先に説明したように、機械学習モデルは、生物学的反応を予測するための線形モデルとして構築されるが、データ構成とヒトの生物学的反応の間に非線形の関係が存在する可能性がある。それに応じて、前述の実験のデータを用いて、ディープニューラルネットワークを使用するモデル、または他の非線形モデルが構築され、このモデルは、1)前述の線形モデルと比較された場合、データの非線形関係を活用して相対的に正確な予測を行うこと、および2)動物とヒトの両方の力価について同時に予測を行うことができる。すべての力価を一緒に予測すると、免疫反応の強いシグナルが抗原株および「読み出し」株のタンパク質配列に直接コードされるという認識を利用することができる。ヒトと動物の両方の力価を配列だけから予測するようにモデルを訓練することによって、機械学習モデルは、種にまたがって免疫原性を駆動する配列-機能関係を探索するように強制される。統計学の用語では、これは「借用強度」と呼ばれ、モデルに、ある種のモデル(たとえば、フェレットモデル)で利用可能な大量のデータをより良く活用して、ヒトの反応についてより頑健な予測を生成させることができる。この方策では、より多くのウイルス抗原と、13000を超える例示的な行を持つデータマトリックスの構築とに対応することができる。線形モデルと同様に、ウイルス株と読み出し株の対ごとのH3領域のSeqDiff表現が、入力データとして使用される。
【0052】
いくつかの実施態様において、ターゲットベクトルは線形モデルのヒト力価であるが、非線形ニューラルネットワークモデルは、たとえば、7つの出力列(フェレットHAIおよびAF力価、マウスHAIおよびAF力価、MIMIC AF、ヒトHAI、ヒトAF)のマルチターゲット回帰問題を表すことができる。HAI実験の検出限界は通常40(または、希釈度で表すと1:40)であり得るので、この値を下回る測定値はすべて40に設定される。同様に、AFの測定値が10000を下回る場合には、10000に設定される。HAIはlog2(力価/10)で表され、AFはlog2(力価)で表される。ヒトデータおよびヒトレプリカデータには、測定が接種時(Day0)および血清変換後(Day21)に行われる場合に、追加レベルの複雑さがあり得る。したがって、ヒトおよびヒトレプリカの力価は、Day21/Day0のlog2倍の変化として表される。力価の値がターゲットベクトルに欠落している場合には、その値がゼロに設定され、ニューラルネットワークの損失関数が、その位置ではマスクされる。これにより、欠落した値についての予測が訓練中のモデルの適合性には寄与しないことを保証することができる。
【0053】
いくつかの実施態様では、relu活性化を伴う2つの128ノード緻密層と、7ノード緻密出力層とを有するニューラルネットワークが使用される。データの一部分(たとえば、データの15パーセント)がテストセットとしてランダムに除外され、ニューラルネットワークは、多数(たとえば、400、500、1000など)のエポックが訓練される。いくつかの実施態様では、以下のパラメータが使用される:学習率=0.001;重み減衰=0.0001;バッチサイズ=128。
【0054】
いくつかの実施態様では、L2損失関数が、ヒトレプリカ、ヒトAF、およびヒトHAIターゲットベクトルに対して使用される。一般に、L2損失関数は、推定ターゲット値と既存ターゲット値の二乗差を最小化する。いくつかの実施態様では、Huber損失関数が、フェレットデータおよびマウスデータに対して使用される。一般に、Huber損失関数はロバスト回帰で使用され、少なくともいくつかの事例では、L2損失関数よりもデータの外れ値に影響されにくい可能性がある。モデルをさらに付勢するために、明示的な重み付け手法が使用されて、誤分類されたヒトのサンプルに追加のペナルティが適用される。たとえば、訓練の各エポックにおける各ターゲット損失が以下の重みに乗じられる:フェレットHAI=0.8;フェレットAF=1;マウスHAI=1;マウスAF=1;ヒトHAI=2;ヒトAF=2;MIMIC=1.5。
【0055】
実験結果:
図5は、生物学的反応を予測するために開発されたトランスレーショナルモデルの実験結果を示す。抗原配列および抗体誘導抗原配列の配列位置ごとのミスマッチ(1/0)を用いて、前記抗体が抗原ノイラミニダーゼ酵素を阻害するかどうかを回帰によって予測する配列デルタモデルが開発された。42個のNA変異体に対して4つの標準治療(SOC)ノイラミニダーゼ抗原によって誘導されたマウス血清抗体のNAIの測定値と、血清-NA変異体部分ごとに得られた正規化IC50計算とが、モデルの訓練に使用された。先に示されたように、このモデルは、1または0によってコード化された血清SOC-バリアント抗原対の間の配列ミスマッチなどの構成を含む。線形回帰が配列構成に適用されて、抗体-抗原NAIが正規化IC50として予測された。
図5に示されるように、ほとんどのNA配列変化が、負の係数によって明らかなように、SOC抗体NAIを(SOC NAに対して)低減させ、活性部位に隣接する可能性が約2倍あり、モデルが正確な生物学的機能を捉えていることを示唆した。
【0056】
上記の説明では、いくつかの候補抗原、およびそれらの関連する生物学的反応をインフルエンザの文脈で説明しているが、抗原という用語は、体内の免疫反応(たとえば、抗体の産生)を誘発するあらゆる毒素または異物を包含するように広義に解釈されると理解される。たとえば、抗原はとりわけ、ウイルス株、細菌株、原生動物株、プリオン株、ウイロイド株、または真菌株に対応し得る。たとえば、候補抗原は、呼吸器合胞体ウイルス、および他のパラミクソウイルスに対応し得る。候補抗原はとりわけ、百日咳抗原、ジフテリア抗原、および破傷風抗原を含み得る。
【0057】
上記の説明では、HAI力価およびAF力価などの特定の生物学的反応について説明しているが、他の生物学的反応も用いられる。たとえば、1つの生物学的反応は、特定の抗原および/または抗原断片のパネル(たとえば、タンパク質アレイ、ファージディスプレイライブラリなど)に対する親和性および/または結合活性などの抗体特徴付け、抗薬物抗体、免疫補完相互作用(たとえば、食作用、炎症、膜攻撃)を判定するためなどの機能プロファイリング、抗体依存性細胞傷害(ADCC)または同様のFc媒介エフェクター機能、形成された免疫複合体のプロファイリング(たとえば、受容体結合プロファイル)、免疫沈降アッセイ、NA酵素阻害またはこれらの組み合わせ、に対応することができる。1つの生物学的反応は、1つのターゲットに他の抗体、または抗血清が結合する、抗体の競合に対応することができる。1つの生物学的反応は、前述の抗体特徴付けのものと、機能アッセイ(マイクロ中和アッセイ、血球凝集阻害、およびノイラミニダーゼ阻害など)、結合アッセイ(血球凝集アッセイなど)、酵素反応アッセイ(酵素結合レクチンアッセイ(ELLA)など)、リガンド結合アッセイ(シアル酸誘導体およびその模倣物の結合など)、および蛍光読み出しアッセイ(20-(4-メチルウンベリフェリル)-a-D-N-アセチルノイラミン酸(MUNANA)開裂など)とに対応できる、抗血清特徴付けに対応することができる。
【0058】
1つの生物学的反応は、以下の:レトロウイルス感染を介する形質移入もしくは内因性発現、またはCRISPRなどによるホストゲノム修飾、二体間の体液移行、またはこれらの組み合わせ、のうちの1つまたはそれ以上によって達成される受身移入および/または外因性発現もしくは移入によって、モノクローナル抗体またはポリクローナル抗体のいずれかを活用するインビボ評価に対応することができる。1つの生物学的反応は、抗原性を評価するための免疫化により上昇した免疫のインビボ評価に対応することができる。1つの生物学的反応は、主要組織適合性複合体(MHC)クラスIおよびクラスII上の線状ペプチド抗原の結合/親和性測定などの特徴付けに対応すること、さらには、T細胞による認識のための生産的T細胞エピトープディスプレイを評価することにも対応することができる。1つの生物学的反応は、認識されているエピトープを特定するための抗原断片のパネル(たとえば、タンパク質アレイ、ファージディスプレイライブラリなど)に対する親和性などの特徴付けに対応することができる。1つの生物学的反応は、T細胞反応および/または介在する反応を判定するなどのために、エクスビボおよび/またはインビトロで機能プロファイリングに対応することができる。1つの生物学的反応は、適応反応に関連したT細胞(たとえば、αβまたはγδT細胞)の自然感染および/またはチャレンジおよび/または免疫化に応じて、増殖(たとえば、組織コンパートメント内の存在量)のインビボおよび/またはインサイツ測定に対応することができる。1つの生物学的反応は、他のエピトープとの競合によって測定される自然感染および/またはチャレンジおよび/または免疫化に応じて、適応反応に関連したT細胞(たとえば、αβまたはγδT細胞)による認識の特異性のインビトロおよび/またはエクスビボ測定に対応することができる。
【0059】
1つの生物学的反応は、防御予定の病原体、または偽型ウイルスもしくは細菌などの代理による組織形成、組織修復、または組織侵入に対する、形態学的または生理学的変化のインサイツ、エクスビボおよび/またはインビボ評価に対応することができる。1つの生物学的反応は、たとえば、年齢、性別、虚弱性、名目上の血清状態、人種、ハプロタイプ、地理的位置などのバイオマーカーによって特徴付けられる、他の抗原および/または生理学的状態に対するインサイツ、エクスビボタンパク質、遺伝子発現および/または非コードRNAレベルの違いに対応することができる。1つの生物学的反応は、ヒト、または、マウス、ラット、ウサギ、フェレット、モルモット、ブタ、ウシ、ニワトリ、ヒツジ、イルカ、コウモリ、イヌ、ネコ、ゼブラフィッシュおよび他の硬骨魚類、ならびにサルおよび類人猿のような非ヒト霊長類など、これらだけには限らないが、モデル生物において自然に生じる、または伝染による感染に対する、防御、伝染、または他の総体的生理反応のインサイツ評価に対応することができる。
【0060】
ヒトの対照チャレンジ試験を含む、ホモタイプおよび/またはヘテロタイプの感染病原体による意図的な感染(すなわちチャレンジ)に対する反応に関して、1つの生物学的反応は、血液または組織に存在するタンパク質または代謝物のインサイツ、エクスビボおよび/またはインビボ評価に対応することができ、このタンパク質はサイトカイン、ホルモンまたはシグナル分子であり得、代謝物はビタミン、補因子または他の代謝副産物であり得る。1つの生物学的反応は、免疫反応の影響を受ける、または免疫反応に影響を及ぼすことがあるマイクロバイオームのインサイツ、エクスビボ、および/またはインビボ評価に対応することができる。1つの生物学的反応は、抗原単独、または自然免疫細胞(ナチュラルキラー(NK)細胞、樹状細胞(DC)、好中球、マクロファージ、単球など)と組み合わせた抗原でのチャレンジに応じて、機能的プロファイリングエクスビボ、インビトロ表現型、および/または機能的T細胞反応プロファイリング(受容体発現、サイトカイン生成、細胞傷害能)に対応することができる。1つの生物学的反応は、先述の技法または方法を用いて収集または生成されたサンプルを用いて行われる、エピジェネティック解析に対応することができる。
【0061】
上記の説明では、生物学的反応を予測する機械学習モデルを訓練するためのいくつかの方法およびデータについて説明したが、他の方法およびデータも使用される。たとえば、ニューラルネットワークモデルは、先に説明したモデルよりも多い層、または少ない層を含むことができ、それぞれの層は、もっと多いノード、または少ないノードを有し得る。
【0062】
上述の説明において、本発明の実施形態は、実施態様ごとに異なり得る多数の特定の細部に関して説明された。したがって、本明細書および図面は、限定的な意味ではなく、例示的なものとしてみなされるべきである。本発明の範囲と、本出願人らが本発明の範囲であるとするものとの唯一かつ排他的なインジケータは、本出願に由来する請求項の組の、その後の任意の修正を含むそのような請求項に由来する特定の形式での、文字通りの、かつ同等の範囲である。このような特許請求の範囲に含まれる用語について本明細書に明示されているあらゆる定義が、請求項に使用されるそのような用語の意味を規定するものとする。加えて、前述の説明または添付の特許請求の範囲で「さらに含む」という用語が使用される場合、この語句の後に続くものは、追加の工程もしくはエンティティ、または以前に引用された工程もしくはエンティティのサブ工程/サブエンティティであり得る。
【国際調査報告】