(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-21
(54)【発明の名称】データモデリングにおける関連する生物物理学的属性に基づいて機能を予測するための方法およびシステム
(51)【国際特許分類】
G16B 40/20 20190101AFI20240214BHJP
G16B 15/30 20190101ALI20240214BHJP
【FI】
G16B40/20
G16B15/30
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023549563
(86)(22)【出願日】2022-02-11
(85)【翻訳文提出日】2023-10-06
(86)【国際出願番号】 US2022016157
(87)【国際公開番号】W WO2022177825
(87)【国際公開日】2022-08-25
(32)【優先日】2021-02-19
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】509012625
【氏名又は名称】ジェネンテック, インコーポレイテッド
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】コージンツェフ, アレクサンダー
(72)【発明者】
【氏名】シュロータウアー, ティルマン セバスチャン
(72)【発明者】
【氏名】スン ハン チャン, ラウル アグスティン
(57)【要約】
治療用タンパク質の予測子のセットに基づいて機能的応答を予測するための方法およびシステムが提供され得る。例えば、方法は、入力データを受信することであって、入力データが、予測子のセットと、第1の治療用タンパク質試料のセットから取得された予測子のセットに関連付けられた対応する測定された機能的応答とに関連する第1の入力データと、予測子のセットと、機能的応答の予測のための第2の治療用タンパク質試料のセットとに関する第2の入力データと、を含み、予測子のセットが、所定の基準に基づいて治療用タンパク質の関連する生物物理学的属性の組み合わせとして選択された、入力データを受信することと、第1の入力データを用いて機械学習モデルを訓練することと、機械学習モデルおよび予測子のセットを使用して、第2の入力データに基づいて第2の治療用タンパク質試料のセットの機能的応答を予測することと、を含みうる。
【選択図】
図3
【特許請求の範囲】
【請求項1】
入力データを受信することであって、前記入力データが、
a)予測子のセットと、第1の治療用タンパク質試料のセットから取得された予測子のセットに関連付けられた対応する測定された機能的応答とに関連する第1の入力データと、
b)前記予測子のセットと、機能的応答の予測のための第2の治療用タンパク質試料のセットとに関する第2の入力データと
を含み、
前記予測子のセットが、所定の基準に基づいて治療用タンパク質の関連する生物物理学的属性の組み合わせとして選択された、入力データを受信することと、
前記第1の入力データを用いて機械学習モデルを訓練することと、
前記機械学習モデルおよび前記予測子のセットを使用して、前記第2の入力データに基づいて前記第2の治療用タンパク質試料のセットの機能的応答を予測することと、
予測された前記機能的応答を含む出力を返すことと
を含む、方法。
【請求項2】
前記治療用タンパク質試料が抗体試料であり、前記機能的応答が、抗体依存性細胞媒介性細胞傷害(ADCC)応答、補体依存性細胞傷害(CDC)応答、Fcガンマ受容体(FcyR)結合または補体C1q結合であり、前記治療用タンパク質の関連する生物物理学的属性が、抗体の脱フコシル化度および抗体の1つまたは複数のさらなるグリコシル化属性を含む、請求項1に記載の方法。
【請求項3】
前記抗体の1つまたは複数のさらなるグリコシル化属性が、ガラクトシル化、シアリル化、グリカン鎖長、グリカン構成要素タイプ、およびN-グリカン鎖を欠く抗体の形態、またはそれらの任意の組み合わせを含む、請求項2に記載の方法。
【請求項4】
前記抗体の1つまたは複数のさらなるグリコシル化属性が、抗体の2つのグリコシル化属性を含む、請求項2に記載の方法。
【請求項5】
前記抗体の1つまたは複数のさらなるグリコシル化属性が、抗体のガラクトシル化およびシアリル化を含む、請求項2に記載の方法。
【請求項6】
前記抗体試料がモノクローナル抗体試料を含む、請求項2に記載の方法。
【請求項7】
前記機械学習モデルを訓練することが、前記治療用タンパク質の関連する生物物理学的属性の複数の組み合わせから前記予測子のセットを選択することを含む、請求項1に記載の方法。
【請求項8】
前記予測子のセットを選択することが、繰り返しのランダムサブサンプリング検証を含む、請求項7に記載の方法。
【請求項9】
前記予測子のセットを選択することが、前記第1の入力データの所定の分割を使用する交差検証を含む、請求項7に記載の方法。
【請求項10】
前記機械学習モデルを訓練することが、前記機械学習モデルが前記第1の入力データおよび前記予測子のセットを使用して所定の閾値を満たすモデル性能を有すると決定された場合、前記機械学習モデルを選択することを含む、請求項1に記載の方法。
【請求項11】
前記予測された機能的応答に基づいて、前記第2の治療用タンパク質試料のセットから治療候補を選択することをさらに含む、請求項1に記載の方法。
【請求項12】
前記治療候補の治療有効性を検証することをさらに含む、請求項11に記載の方法。
【請求項13】
前記治療候補を含む治療組成物を開発することをさらに含む、請求項11に記載の方法。
【請求項14】
前記機械学習モデルが、部分最小二乗、ランダムフォレスト、サポートベクターマシン、ナイーブベイズ、KNN、一般化加法モデル、ロジスティック回帰、勾配ブースティング、またはLassoに基づくモデルである、請求項1に記載の方法。
【請求項15】
前記機械学習モデルが、部分最小二乗、ランダムフォレスト、またはサポートベクターマシンに基づくモデルである、請求項1に記載の方法。
【請求項16】
1つまたは複数のデータセットを取得するためのデータソースであって、前記1つまたは複数のデータセットが、
a)予測子のセットと、第1の治療用タンパク質試料のセットから取得された予測子のセットに関連付けられた対応する測定された機能的応答とに関連する第1の入力データと、
b)前記予測子のセットと、機能的応答の予測のための第2の治療用タンパク質試料のセットとに関する第2の入力データと
を含み、
前記予測子のセットが、所定の基準に基づいて治療用タンパク質の関連する生物物理学的属性の組み合わせとして選択された、データソースと、
前記データソースに通信可能に接続され、前記データセットを受信するように構成されたコンピューティング装置であって、前記コンピューティング装置が、命令を含む非一時的コンピュータ可読記憶媒体であって、前記命令が、1つまたは複数のデータプロセッサ上で実行されると、前記1つまたは複数のデータプロセッサに、
前記第1の入力データを用いて機械学習モデルを訓練することと、
前記機械学習モデルおよび前記予測子のセットを使用して、前記第2の入力データに基づいて前記第2の治療用タンパク質試料のセットの機能的応答を予測することと、
予測された前記機能的応答を含む出力を返すことと
を含む、方法を実行させる、非一時的コンピュータ可読記憶媒体を備えるコンピューティング装置と
を備える、システム。
【請求項17】
前記治療用タンパク質試料が抗体試料であり、前記機能的応答が、抗体依存性細胞媒介性細胞傷害(ADCC)応答、補体依存性細胞傷害(CDC)応答、Fcガンマ受容体(FcyR)結合または補体C1q結合であり、前記治療用タンパク質の関連する生物物理学的属性が、抗体の脱フコシル化度および抗体の1つまたは複数のグリコシル化属性を含む、請求項16に記載のシステム。
【請求項18】
前記機械学習モデルを訓練することが、前記治療用タンパク質の関連する生物物理学的属性の複数の組み合わせから前記予測子のセットを選択することを含む、請求項16に記載のシステム。
【請求項19】
前記予測子のセットを選択することが、繰り返しのランダムサブサンプリング検証を含む、請求項18に記載のシステム。
【請求項20】
前記予測子のセットを選択することが、前記第1の入力データの所定の分割を使用する交差検証を含む、請求項18に記載のシステム。
【請求項21】
前記機械学習モデルを訓練することが、前記機械学習モデルが前記第1の入力データおよび前記予測子のセットを使用して所定の閾値を満たすモデル性能を有すると決定された場合、前記機械学習モデルを選択することを含む、請求項16に記載のシステム。
【請求項22】
前記第1の治療用タンパク質試料のセットまたは前記第2の治療用タンパク質試料のセットが抗体試料を含む、請求項16に記載のシステム。
【請求項23】
前記方法が、前記予測された機能的応答に基づいて、前記第2の治療用タンパク質試料のセットから治療候補を選択することをさらに含む、請求項16に記載のシステム。
【請求項24】
前記機械学習モデルが、部分最小二乗、ランダムフォレスト、またはサポートベクターマシンに基づくモデルである、請求項16に記載のシステム。
【請求項25】
1つまたは複数のデータプロセッサに、単一細胞データセットに基づいて関心のある細胞を選択するための方法を実行させるように構成された命令を含む、非一時的機械可読記憶媒体に有形に具現化されたコンピュータプログラム製品であって、前記方法が、
入力データを受信することであって、前記入力データが、
a)予測子のセットと、第1の治療用タンパク質試料のセットから取得された予測子のセットに関連付けられた対応する測定された機能的応答とに関連する第1の入力データと、
b)前記予測子のセットと、機能的応答の予測のための第2の治療用タンパク質試料のセットとに関する第2の入力データと
を含み、
前記予測子のセットが、所定の基準に基づいて治療用タンパク質の関連する生物物理学的属性の組み合わせとして選択された、入力データを受信することと、
前記第1の入力データを用いて機械学習モデルを訓練することと、
前記機械学習モデルおよび前記予測子のセットを使用して、前記第2の入力データに基づいて前記第2の治療用タンパク質試料のセットの機能的応答を予測することと、
予測された前記機能的応答を含む出力を返すことと
を含む、コンピュータプログラム製品。
【請求項26】
前記治療用タンパク質試料が抗体試料であり、前記機能的応答が、抗体依存性細胞媒介性細胞傷害(ADCC)応答、補体依存性細胞傷害(CDC)応答、Fcガンマ受容体(FcyR)結合または補体C1q結合であり、前記治療用タンパク質の関連する生物物理学的属性が、抗体の脱フコシル化度および抗体の1つまたは複数のグリコシル化属性を含む、請求項25に記載のコンピュータプログラム製品。
【請求項27】
前記機械学習モデルを訓練することが、前記治療用タンパク質の関連する生物物理学的属性の複数の組み合わせから前記予測子のセットを選択することを含む、請求項25に記載のコンピュータプログラム製品。
【請求項28】
前記予測子のセットを選択することが、繰り返しのランダムサブサンプリング検証を含む、請求項27に記載のコンピュータプログラム製品。
【請求項29】
前記予測子のセットを選択することが、前記第1の入力データの所定の分割を使用する交差検証を含む、請求項27に記載のコンピュータプログラム製品。
【請求項30】
前記機械学習モデルを訓練することが、前記機械学習モデルが前記第1の入力データおよび前記予測子のセットを使用して所定の閾値を満たすモデル性能を有すると決定された場合、前記機械学習モデルを選択することを含む、請求項25に記載のコンピュータプログラム製品。
【請求項31】
前記第1の治療用タンパク質試料のセットまたは前記第2の治療用タンパク質試料のセットが抗体試料を含む、請求項25に記載のコンピュータプログラム製品。
【請求項32】
前記方法が、前記予測された機能的応答に基づいて、前記第2の治療用タンパク質試料のセットから治療候補を選択することをさらに含む、請求項25に記載のコンピュータプログラム製品。
【請求項33】
前記機械学習モデルが、部分最小二乗、ランダムフォレスト、またはサポートベクターマシンに基づくモデルである、請求項25に記載のコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
相互参照
本出願は、2021年2月19日に出願された「Methods and Systems for Predicting Function Based on Related Biophysical Attributes in Data Modeling」と題する米国仮特許出願第63/151,527号の優先権を主張し、その全体が参照により本明細書に組み込まれる。
【0002】
分野
本明細書では、抗体などのタンパク質の機能的応答の改善された予測のための方法およびシステムが提供される。より具体的には、抗体の関連する機能的応答を予測するために複数の生物物理学的属性を使用するための方法およびシステムが提供される。
【背景技術】
【0003】
背景
生物物理学的属性を機能アッセイに相関させるための従来のデータモデリング手法は、ただ1つの生物物理学的属性からのデータを使用して、単一の生物物理学的属性と機能との間の線形関係に依存してきた。この従来の手法は、同様に示されているか、または関心のある機能を潜在的に調節し得る複数の他の生物物理学的属性の寄与する影響を無視することが多く、生物物理学的属性自体の間の相互作用効果の調査に使用するのに手間がかかる。生物物理学的属性などの複数の予測子を使用して機能的応答をより正確に予測する改善された方法を開発する必要性が依然として存在する。
【発明の概要】
【0004】
概要
治療用タンパク質の予測子のセットに基づいて機能的応答を予測するための方法およびシステムが提供され得る。例えば、方法は、予測子のセットと、第1の治療用タンパク質試料のセットから取得された予測子のセットに関連付けられた対応する測定された機能的応答とに関連する第1の入力データと、予測子のセットと、機能的応答の予測のための第2の治療用タンパク質試料のセットとに関する第2の入力データと、を含み、予測子のセットが、所定の基準に基づいて治療用タンパク質の関連する生物物理学的属性の組み合わせとして選択された、入力データを受信することと、第1の入力データを用いて機械学習モデルを訓練することと、を含みうる。本方法は、機械学習モデルおよび予測子のセットを使用して、第2の入力データに基づいて第2の治療用タンパク質試料のセットの機能的応答を予測することと、予測された機能的応答を含む出力を返すことと、をさらに含みうる。例えば、治療用タンパク質試料は、抗体試料とすることができ、機能的応答は、抗体依存性細胞媒介性細胞傷害(ADCC)応答、補体依存性細胞傷害(CDC)応答、Fcガンマ受容体(FcyR)結合または補体C1q結合とすることができ、治療用タンパク質の関連する生物物理学的属性は、抗体のアフコシル化度および抗体の1つまたは複数のさらなるグリコシル化属性を含む。
【0005】
様々な実施形態では、システムは、1つまたは複数のデータセットを取得するためのデータソースであって、1つまたは複数のデータセットが、a)予測子のセットと、第1の治療用タンパク質試料のセットから取得された予測子のセットに関連付けられた対応する測定された機能的応答とに関連する第1の入力データと、b)予測子のセットと、機能的応答の予測のための第2の治療用タンパク質試料のセットとに関する第2の入力データと、を含み、予測子のセットが、所定の基準に基づいて治療用タンパク質の関連する生物物理学的属性の組み合わせとして選択された、データソースと、データソースに通信可能に接続され、データセットを受信するように構成されたコンピューティング装置であって、コンピューティング装置が、命令を含む非一時的コンピュータ可読記憶媒体であって、命令が、1つまたは複数のデータプロセッサ上で実行されると、1つまたは複数のデータプロセッサに、第1の入力データを用いて機械学習モデルを訓練することと、機械学習モデルおよび予測子のセットを使用して、第2の入力データに基づいて第2の治療用タンパク質試料のセットの機能的応答を予測することと、予測された機能的応答を含む出力を返すことと、を含む、方法を実行させる、非一時的コンピュータ可読記憶媒体を備えるコンピューティング装置と、を備えることができる。
【0006】
様々な実施形態では、1つまたは複数のデータプロセッサに、単一細胞データセットに基づいて関心のある細胞を選択するための方法を実行させるように構成された命令を含む、非一時的機械可読記憶媒体に有形に具現化されたコンピュータプログラム製品であって、方法が、入力データを受信することであって、入力データが、a)予測子のセットと、第1の治療用タンパク質試料のセットから取得された予測子のセットに関連付けられた対応する測定された機能的応答とに関連する第1の入力データと、b)予測子のセットと、機能的応答の予測のための第2の治療用タンパク質試料のセットとに関する第2の入力データと、を含み、予測子のセットが、所定の基準に基づいて治療用タンパク質の関連する生物物理属性の組み合わせとして選択された、入力データを受信することと、第1の入力データを用いて機械学習モデルを訓練することと、機械学習モデルおよび予測子のセットを使用して、第2の入力データに基づいて第2の治療用タンパク質試料のセットの機能的応答を予測することと、予測された機能的応答を含む出力を返すことと、を含む、コンピュータプログラム製品を提供することができる。
【0007】
使用された用語および表現は、限定ではなく説明の用語として使用され、そのような用語および表現の使用において、示されて説明された特徴のいかなる均等物またはその一部も除外する意図はないが、特許請求の範囲に記載された実施形態の範囲内で様々な変更が可能であることが認識される。したがって、特許請求される本実施形態は、実施形態および任意の特徴として具体的に開示されているが、本明細書に開示される概念の変更および変形は、当業者によって使用されてもよく、そのような修正および変形は、添付の特許請求の範囲内にあると見なされることを理解されたい。
【図面の簡単な説明】
【0008】
本開示は、以下の添付の図面と併せて説明される:
【0009】
【
図1】様々な実施形態にかかる、関連する生物物理学的属性の選択された組み合わせに基づいて機能的活性を予測するための一般的な概略的ワークフローの非限定的な例示的な実施形態を示している。
【0010】
【
図2】様々な実施形態にかかる、関連する機能的応答を予測するために複数の生物物理学的属性を使用するためのモデルを開発するための非限定的な例示的プロセスを示している。
【0011】
【
図3】様々な実施形態にかかる、関連する生物物理学的属性の選択された組み合わせに基づいて機能的活性を予測するための一般的な概略的ワークフロー300の非限定的な例示的な実施形態を示している。
【0012】
【
図4A】比較された全ての変数の相関プロットを示すグラフの非限定的な例示的な実施形態を示している。
【0013】
【
図4B】試料内の変動を示し、予測子間の相関をさらに決定するグラフの非限定的な例示的な実施形態を示している。
【0014】
【
図5】可変重要度ランキングのためのモデルに対する各予測子の相対寄与度を計算することによる予測子のランキングを示すグラフの非限定的な例示的な実施形態を示している。
【0015】
【
図6】特徴選択方法からの結果を示すグラフの非限定的な例示的な実施形態を示している。この特徴選択方法は、計算上の負担がかかり、より厳密な繰り返しのランダムサブサンプリング検証により、予測子の全ての可能な組み合わせを実行する。
【0016】
【
図7】特徴選択方法からの結果を示すグラフの非限定的な例示的な実施形態を示している。この特徴選択方法は、予備的な中程度の検証から繰り返しのランダムサブサンプリング検証まで、上位の実行予測子サブセットのグループのみを実行する。
【0017】
【
図8A-8B】残差分析(
図8A)および回復分析(
図8B)におけるモデル性能検証を示すグラフの非限定的な例示的な実施形態を示している。
【0018】
【
図9】様々な実施形態にかかる、関連する生物物理学的属性に基づいて機能的活性を予測する方法を示すフローチャートである。
【0019】
【
図10】様々な実施形態にかかる、関連する生物物理学的属性に基づいて機能的活性を予測するためのシステムの非限定的な例示的な実施形態を示している。
【0020】
【
図11】様々な実施形態にかかる、本明細書で提供される方法を実行するように構成されたコンピュータシステムを示す非限定的な例のブロック図である。
【発明を実施するための形態】
【0021】
詳細な説明
I.概要
構造-機能関係のモデリングへの機械学習の適用は、1つの生物学的に関連する機能的応答に対する修飾された構造的属性などの複数の生物物理学的属性の複合的および相乗的効果を考慮して、生物学的治療薬の生物学的複雑性に固有の困難な課題に対処するのに役立つ。生物学的治療薬は、製造およびその後の加工を通して異なる構造的修飾を受けやすく、製造されたロットを含む分子の集団の下流に存在する個々の修飾された構造的属性の分布をもたらす。生物学的治療薬の品質を保証するために、製造プロセス制御は、重要な修飾の同様の分布を有する生物学的治療薬ロットの再現可能な生産を保証しようとする。しかしながら、許容可能な修飾レベルに適切な限界を設定するために、科学者は、修飾または不純物の特定の範囲内(または特定の限界未満)で、生物学的治療薬製品が安全且つ有効な機能プロファイルを維持することを最初に実証しなければならない。
【0022】
科学者は、この目標を以下のいくつかの方法で達成する:動物モデルからの研究を活用すること、信用できる事前知識を研究すること、臨床曝露レベルを参照すること、および重要な修飾のレベルを生物学的に関連するインビトロ機能的特徴付けと相関させることによって。単一のロットに存在する修飾の異なる分布が存在するが、製造ロット間のそれらの分布の多様性が低いため、異なる個々の修飾された構造的属性と生物学的に関連する関数との有意な定量的関係をデコンボリュートすることは困難である。これは、ほとんどの生物学的に関連するインビトロ機能が複数の構造的属性によって有意に影響を受け、相加的または相乗的に協働して作用するという事実によってさらに複雑になる。科学者は、いくつかの修飾された構造変異体を生成または単離することができるが、そうすることで、それらは、組み合わされたときに異なる構造修飾の相乗効果を依然として組み込むことができない単変量構造-機能影響のモデリングを促進するだけである。
【0023】
本明細書に記載されるように、この生物学的および分析的問題に対する独特に適した解決策は、機械学習モデリングの使用によって提供され、これは生物学的修飾次元に由来する複雑さを低減し、生物学的治療薬の全体的構造特性評価プロファイルに基づいて関連する定量的関係を引き出す。
【0024】
例えば、モノクローナルヒト抗体(mAb)などの治療用抗体の臨床的および商業的製造中に、プロセスおよび品質管理を確実にするために、治療用抗体の生物物理学的および機能的特徴が慎重にモニタされ得る。モニタリングにおいて収集されたこのデータは、個々の構造的属性を使用して生物学的に関連する機能的応答を予測し、したがって放出の許容基準の計算を導くために活用され得る。治療用抗体の1つの構造的属性が治療用抗体の特定の機能的応答に非常に大きな影響を及ぼす場合、そのような単変量相関は、強力な予測モデルとして役立つことができる。しかしながら、複数の構造的属性が同様の規模で生物学的に関連する機能的応答に影響を及ぼす場合、単一の構造的属性と関連する機能的応答との間の単変量相関はあまり有用ではない。
【0025】
本明細書に記載の方法およびシステムは、個々の分子からのデータのより大きなセットおよび類似のクラスの複数の分子のセット(例えば、CHO由来IgG1治療薬などの抗体)からのデータの複数の生物物理学的属性(例えば、構造的属性)などの複数の予測子を活用して、堅牢な線形および非線形モデルを生成することができる。様々な実施形態では、本明細書に記載の方法およびシステムは、主成分分析を同時に実行して、予測子と応答との間および互いとの関係を視覚化および近似定量化することができ、したがって、関係に基づいて機能的応答を予測するための関連する予測子を識別および選択することができる。
【0026】
様々な実施形態では、本明細書中に記載される方法およびシステムは、抗体のインビトロ抗体依存性細胞傷害(ADCC)応答などの治療用タンパク質の機能的応答を予測するために適用され得る。例えば、インビトロADCCと、アフコシル化グリカン種のレベルとの相関、および抗体またはその断片の1つまたは複数の他の生物物理学的属性が使用されて、ADCC応答、したがって抗体またはその断片の治療有効性を予測することができる。
【0027】
治療用糖タンパク質(例えば、抗体)などのタンパク質の非限定的な生物物理学的属性には、Fc N-グリカン構造、Fc領域のグリカン種(例えば、高度にガラクトシル化された形態、高マンノースの形態)、Fc領域の全体的なグリコシル化の程度、およびFc中の特定の翻訳後修飾の存在を含みうるが、これらに限定されない。本明細書に記載の方法およびシステムが使用されて、アフコシル化グリカン種またはFc領域の他のグリカン種などの複数の生物物理学的属性、Fc領域の全体的なグリコシル化の程度、およびFc上の特定の翻訳後修飾の存在、またはそれらの任意の組み合わせに基づいて、ADCC応答などの機能的応答を予測することができる。
【0028】
様々な実施形態によれば、治療用タンパク質または抗体は、二重特異性などの多価IgG様分子、または2つの抗原を結合することができる二重標的化操作されたFab断片などの操作されたFab断片を含みうる。
【0029】
様々な実施形態では、治療用タンパク質または抗体の機能的応答には、例えば、抗体依存性細胞媒介性細胞傷害(ADCC)応答、補体依存性細胞傷害(CDC)応答、Fcガンマ受容体(FcyR)結合または補体C1q結合、および、例えば、グリコシル化属性、Fc(VSNK)中の脱アミド化、低分子量または高分子量形態を含む、治療用タンパク質または抗体の関連する生物物理学的属性を含みうる。例えば、グリコシル化属性は、アフコシル化度、ガラクトシル化、シアリル化、グリカン鎖長、グリカン構成要素タイプ、およびN-グリカン鎖を欠く抗体の形態、またはそれらの任意の組み合わせを含みうる。
【0030】
様々な実施形態によれば、治療用タンパク質または抗体の機能的応答は、例えば、薬物動態学的クリアランスまたは新生児型Fc受容体(FcRn)結合を含むことができ、治療用タンパク質または抗体の関連する生物物理学的属性は、例えば、FcまたはFabの荷電変異体における部位特異的修飾を含みうる。
【0031】
様々な実施形態によれば、治療用タンパク質または抗体の機能的応答は、例えば、細胞ベースの免疫効力または活性および標的結合を含み得、治療用タンパク質または抗体の関連する生物物理学的属性は、例えば、CDRの部位特異的修飾、荷電およびサイズ変異体、ジスルフィドの誤対合および遊離チオールを含みうる。
【0032】
様々な実施形態によれば、治療用タンパク質または抗体の機能的応答は、例えば、免疫原性を含み得、治療用タンパク質または抗体の関連する生物物理学的属性は、例えば、二重特異性抗体における軽鎖または半抗体のクリッピング、サイズ形態、または誤対合を含みうる。
【0033】
例えば、生物学的治療薬の後期技術開発など、大量の生物物理学的および機能的特性評価データが既に利用可能である場合、そのような方法およびシステムは、製品知識の向上を可能にし、製造管理のための仕様の設定、ならびに治療開発のための治療候補の識別および選択にさえ寄与することができる。
【0034】
本開示は、例えば、抗体などの治療用タンパク質のADCC応答などの関連する機能的応答を予測するために複数の生物物理学的属性を使用するための様々な例示的な実施形態を記載する。しかしながら、本開示は、これらの例示的な実施形態および用途、または例示的な実施形態および用途が本明細書で動作するまたは説明される様式に限定されない。さらに、図は、簡略化されたまたは部分的な図を示すことがあり、図の要素の寸法は、誇張されているか、または比例していないことがある。
【0035】
II.定義
本明細書で使用される用語は、特定の実施形態を説明するためのものに過ぎず、限定することを意図するものではないことを理解するべきである。
【0036】
別段の定義がない限り、本明細書で使用される全ての技術用語、表記および他の科学技術用語または専門用語は、特許請求の範囲に記載された主題が関係する技術分野における当業者によって一般的に理解されるのと同じ意味を有することを意図する。場合によっては、一般的に理解される意味を有する用語は、明確性および/または容易な参照のために本明細書に定義され、本明細書にそのような定義を含めることは、必ずしも、当該技術分野において一般に理解されるものに対する実質的な相違を表すと解釈されるべきではない。一般に、化学、生化学、分子生物学、薬理学および毒物学に関連して利用される命名法およびその技術は、本明細書に記載されており、当該技術分野において周知であり、一般的に使用されるものである。
【0037】
本明細書で使用される、単数形の「a」、「an」、および「the」は、文脈が明確にそうでないと示さない限りは、複数形を同様に含むことが意図されている。本明細書で使用される「および/または」という用語は、関連する列挙された項目のうちの1つまたは複数のあらゆる可能な組み合わせを指し、それらを包含することも理解されたい。本明細書で使用される場合、「含む(includes)」、「含む(including)」、「備える(comprises)」および/または「備える(comprising)」という用語は、記載された特徴、整数、ステップ、動作、要素、構成要素および/または単位の存在を指定するが、1つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素、単位および/またはそれらのグループの存在または追加を排除するものではないことがさらに理解されるべきである。
【0038】
本開示全体を通じて、様々な態様が範囲形式で提示される。範囲形式での記載は、便宜および簡潔性のためのものに過ぎず、本開示に対する柔軟性のない限定と解釈されるべきではないことを理解されたい。したがって、範囲の記載は、全ての可能な部分範囲ならびにその範囲内の個々の数値を具体的に開示していると見なされるべきである。例えば、値の範囲が提供されている場合、その範囲の上限と下限との間の各介在値、およびその記述された範囲内の他の任意の記述されたまたは介在する値が本開示に包含されることが理解される。これらのより小さい範囲の上限および下限は、独立してより小さい範囲に含まれてもよく、また、記述された範囲内の任意の具体的に除外された限界にもしたがって、本開示に包含される。記述された範囲が限界の一方または双方を含む場合、それらの含まれる限界のいずれかまたは双方を除外した範囲もまた、本開示に含まれる。これは、範囲の幅にかかわらず適用される。
【0039】
本明細書で使用される場合、「抗体」という用語は、IgG、IgM、IgA、IgDおよびIgEなどの任意の免疫学的結合剤、ならびに抗原結合活性を保持する抗体CDRドメインを含むポリペプチドを広く指すことを意図している。したがって、「抗体」という用語は、抗原結合領域を有する任意の抗体分子を指すために使用され、Fab’、Fab、F(ab’)2、単一ドメイン抗体(DAB)、Fv、scFv(一本鎖Fv)などの抗体断片、ならびに抗体CDR、CDRを表示する足場ドメイン(例えば、アンチカリン)またはナノボディを有するポリペプチドを含む。
【0040】
本明細書で使用される場合、「Fc」または結晶化可能なフラグメントという用語は、Fc受容体と呼ばれる細胞表面受容体および補体系のいくつかのタンパク質と相互作用する抗体のフラグメントを指す。Fcは、比較的一定であり、所与の抗体のアイソタイプをコード化する。このFc領域はまた、抗体依存性補体沈着、細胞性細胞傷害性、細胞性トロゴサイトーシスおよび細胞性食作用などのプロセスを介してさらなる機能的能力を付与することができる。抗原結合フラグメントとも呼ばれる「Fab」という用語は、同族抗原の所与のエピトープの結合を可能にするパラトープを有する抗体分子の可変部分を指す。抗体分子のFab部分のアミノ酸およびヌクレオチド配列は、超可変性である。
【0041】
本明細書で使用される場合、抗体依存性細胞媒介性細胞傷害とも呼ばれる「抗体依存性細胞傷害(ADCC)」という用語は、免疫系のエフェクター細胞が、その膜表面抗原が特異的抗体によって結合されている標的細胞を能動的に溶解する細胞媒介性免疫防御の機構である。これは、体液性免疫応答の一部としての抗体が感染を制限および抑制するように作用することができる機構の1つである。
【0042】
本明細書で使用される場合、「生物物理学的属性」という用語は、抗体分子(その断片を含む)などの生物学的分子の生物物理学的アッセイから決定される任意の値を指すことができる。例えば、抗体分子などの糖タンパク質の生物物理学的属性は、任意の翻訳後修飾、グリカン構造、または荷電およびサイズ種、フコシル化グリカン種または他のグリカン種(例えば、ガラクトシル化グリカン種、マンノース型、シアリル化種など)、全体的なグリコシル化の程度、および特定の翻訳後修飾の存在、またはそれらの任意の組み合わせを含みうる。抗体分子の生物物理学的属性は、フコシル化グリカン種またはFc領域の他のグリカン種のような、抗体分子のFc領域などの特定の領域の修飾または構造とすることができる。
【0043】
本明細書で使用されるタンパク質のフコシル化形態は、少なくともフコース部分を有するグリカン構造を指す。本明細書で使用されるタンパク質のアフコシル化形態は、フコース部分を欠くグリカン構造を指す。本明細書で使用されるタンパク質のガラクトシル化形態は、少なくともガラクトース単糖部分を有するグリカン構造を指す。本明細書で使用されるタンパク質のマンノース形態は、少なくともマンノース部分を有するグリカン構造を指す。本明細書で使用されるタンパク質のシアリル化形態は、少なくともシアリル化部分を有するグリカン構造を指す。
【0044】
本明細書で使用される場合、「グリカン」は、少なくとも3つの糖などの糖残基のモノマーまたはポリマーとすることができ、直鎖または分岐鎖とすることができる糖を指す。「グリカン」は、天然糖残基(例えば、グルコース、N-アセチルグルコサミン、N-アセチルノイラミン酸、ガラクトース、マンノース、フコース、ヘキソース、アラビノース、リボース、キシロースなど)および/または修飾糖(例えば、2’-フルオロリボース、2’-デオキシリボース、ホスホマンノース、6’スルホN-アセチルグルコサミンなど)を含みうる。「グリカン」という用語は、糖残基のホモポリマーおよびヘテロポリマーを含む。「グリカン」という用語はまた、複合糖質(例えば、糖タンパク質、糖脂質、プロテオグリカンなど)のグリカン成分を包含する。この用語はまた、複合糖質から切断または別様に放出されたグリカンを含む遊離グリカンを包含する。
【0045】
本明細書で使用される場合、「糖タンパク質」という用語は、抗体などの1つまたは複数の糖部分(すなわち、グリカン)に共有結合したペプチド骨格を含むタンパク質を指す。糖部分は、単糖、二糖、オリゴ糖および/または多糖の形態であり得る。糖部分は、糖残基の単一の非分枝鎖を含んでもよく、または1つまたは複数の分枝鎖を含んでもよい。糖タンパク質は、O結合型糖部分および/またはN結合型糖部分を含みうる。
【0046】
本明細書で使用される「CDR(相補性決定領域)」という用語は、T細胞受容体またはB細胞受容体のアミノ酸配列の一部であり、抗原に結合すると予測される相補性決定領域を指す。
【0047】
本明細書で使用される「約」という用語は、容易に知られるそれぞれの値についての通常の誤差範囲を含むように指す。本明細書における「約」に続く値またはパラメータへの言及は、その値またはパラメータ自体を対象とする実施形態を含む(且つ説明する)。例えば、「約X」に言及する記載は、「X」の記載を含む。様々な実施形態では、「約」は、当業者によって理解されるように、±15%、±10%、±5%、または±1%を指し得る。
【0048】
さらに、「と結合された」もしくは「と通信可能に結合された」という用語または類似の語が本明細書で使用される場合、1つの要素は、1つまたは複数の有線通信リンク、1つまたは複数の無線通信リンク、1つまたは複数の光通信リンク、またはそれらの組み合わせにより、別の要素と直接的に、間接的に、またはその双方で通信することが可能であり得る。さらに、要素のリスト(例えば、要素a、b、c)が参照される場合、そのような参照は、それ自体で列挙された要素のいずれか1つ、列挙された要素の全てよりも少ない要素の任意の組み合わせ、および/または列挙された要素の全ての組み合わせを含むことが意図される。
【0049】
本明細書で使用される場合、「実質的に」は、意図された目的のために機能するのに十分であることを意味する。したがって、「実質的に」という用語は、当業者によって予想されるが、全体的な性能にそれほど影響しないような、絶対的または完全な状態、寸法、測定値、結果などからの微細な、僅かな変動を可能にする。数値、または数値として表され得るパラメータもしくは特性に関して使用される場合、「実質的に」とは、10パーセント以内を意味する。
【0050】
本明細書で使用される場合、「複数のもの(ones)」という用語は、2つ以上のものを意味する。
【0051】
本明細書で使用される場合、「複数」または「グループ」という用語は、2、3、4、5、6、7、8、9、10、またはそれより多い数とすることができる。
【0052】
本明細書で使用される場合、「のうちの少なくとも1つ」という語句は、項目のリストとともに使用される場合、列挙された項目のうちの1つまたは複数の異なる組み合わせが使用されてもよく、リスト内の項目のうちの1つのみが必要とされてもよいことを意味する。項目は、特定の物体、物、ステップ、動作、プロセス、またはカテゴリであり得る。換言すれば、「のうちの少なくとも1つ」は、リストから項目の任意の組み合わせまたは任意の数の項目が使用されてもよいが、リスト内の項目の全てが必要とされるわけではない場合があることを意味する。例えば、限定されないが、「項目A、項目B、または項目Cのうちの少なくとも1つ」または「項目A、項目B、および項目Cのうちの少なくとも1つ」は、項目A;項目Aおよび項目B;項目B;項目A、項目B、および項目C;項目Bおよび項目C;または項目AおよびCを意味し得る。場合によっては、「項目A、項目B、または項目Cのうちの少なくとも1つ」または「項目A、項目B、および項目Cのうちの少なくとも1つ」は、これらに限定されないが、項目Aのうちの2つ、項目Bのうちの1つ、および項目Cのうちの10個;項目Bのうちの4つおよび項目Cのうちの7つ;またはいくつかの他の適切な組み合わせを意味し得る。
【0053】
「個体」、「被験者」、または「患者」は、哺乳動物である。哺乳動物としては、家畜動物(例えば、ウシ、ヒツジ、ネコ、イヌ、およびウマ)、霊長類(例えば、ヒトおよび非ヒト霊長類、例えば、サル)、ウサギ、およびげっ歯類(例えば、マウスおよびラット)が含まれるが、これらに限定されない。特定の態様では、個体または被験者は、ヒトである。
【0054】
本文献のセクションおよびサブセクション間の見出しおよび小見出しは、読みやすさを改善するために含まれるに過ぎず、特徴がセクションおよびサブセクションをまたいで組み合わされ得ないことを示唆するものではない。したがって、セクションおよびサブセクションは、別個の実施形態を説明しない。
【0055】
本開示の様々な実施形態は、1つまたは複数のデータプロセッサを含むシステムを含む。様々な実施形態では、システムは、1つまたは複数のデータプロセッサ上で実行されると1つまたは複数のデータプロセッサに、本書に開示された1つまたは複数の方法の一部または全部および/または1つまたは複数のプロセスの一部または全部を実行させる、命令を含む非一時的コンピュータ可読記憶媒体を含む。本開示の様々な実施形態は、1つまたは複数のデータプロセッサに、本明細書に開示された1つまたは複数の方法の一部または全部および/または1つまたは複数のプロセスの一部または全部を実行させるように構成された命令を含む非一時的機械可読記憶媒体において有形に具現化された、コンピュータプログラム製品を含む。
【0056】
この説明は、例示的な実施形態のみを提供し、本開示の範囲、適用可能性または構成を限定することを意図しない。むしろ、例示的な実施形態の以下の説明は、様々な実施形態を実装するための可能な説明を当業者に提供する。添付の特許請求の範囲に記載の趣旨および範囲から逸脱することなく、要素の機能および配置に様々な変更が加えられ得ることが理解される。
【0057】
実施形態の完全な理解を提供するために、以下の説明において具体的な詳細が与えられる。しかしながら、これらの具体的な詳細なしで実施形態が実施され得ることが理解されよう。例えば、回路、システム、ネットワーク、プロセス、および他の構成要素は、実施形態を不必要に詳細に不明瞭にしないために、ブロック図形式の構成要素として示されてもよい。様々な例では、実施形態を不明瞭にすることを避けるために、周知の回路、プロセス、アルゴリズム、構造、および技術が不必要な詳細なしに示されてもよい。
【0058】
特許出願、特許公報、およびUniProtKB/Swiss-Prot受託番号を含む、本明細書に引用される全ての参考文献は、各個々の参考文献が参照により組み込まれると具体的且つ個別に指示されているかのように、参照によりそれらの全体が本明細書に組み込まれる。
【0059】
III.生物物理学的属性に基づく機能的活性の予測
本明細書に記載の様々な方法およびシステムの実施形態は、ADCC応答または所望の標的、例えば所望の抗原への結合などの関連する機能的応答を予測するために、複数の生物物理学的属性を使用することを可能にする。例えば、本明細書に記載の方法およびシステムが使用されて、1つまたは複数の統計モデルおよび機械学習モデルを活用して、生物物理学的属性と機能的特性評価データとの間の相関を識別し、入力として測定された生物物理学的属性を取り、予測された機能的特性評価を出力する予測モデルを構築し得る。本明細書に記載の実施形態は、高感度且つ再現性があることができ、機能的応答のより正確な予測を可能にすることができる。
【0060】
III.A.ワークフロー
図1は、様々な実施形態にかかる、関連する生物物理学的属性の選択された組み合わせに基づいて機能的活性を予測するための一般的な概略的ワークフローの非限定的な例示的な実施形態を示している。ワークフロー100は、それが
図1に示されたものよりも多いか少ないかにかかわらず、特徴の様々な組み合わせを含みうる。したがって、
図1は、可能なワークフローの一例を単に示している。ワークフロー100は、例えば、
図10に関して説明したシステム1000または同様のシステムを使用して実装され得る。
【0061】
様々な実施形態では、ワークフロー100は、自動化され得る。ワークフロー100は、ステップ110において、入力データを受信することを含みうる。入力データは、予測子のセット(例えば、生物物理学的属性)および第1の治療用タンパク質(例えば、抗体)試料のセットから取得された予測子のセットに関連する対応する機能的応答(例えば、測定された抗体依存性細胞傷害(ADCC)応答)に関する第1の入力データを含みうる。第1の入力データは、モデルを訓練するための同じ試料のセットの生物物理学的属性データと機能データとの間の相関を有するラベル付きデータを含みうる。
【0062】
入力データは、第1の入力データによって訓練されたモデルを使用して機能的応答の予測のための第2の治療用タンパク質(例えば、抗体)試料のセットに関する第2の入力データをさらに含みうる。第2の入力データは、ラベル化されていないデータとすることができ、ADCC応答などの機能的応答の予測のための生物物理学的属性データを含みうる。
【0063】
「予測子」データとも呼ばれる生物物理学的属性データは、研究開発、プロセス検証、またはGMP試験から取得され得、例えば、標識放出グリカン親水性相互作用液体クロマトグラフィ(HILIC)分析、非還元および還元キャピラリ電気泳動ドデシル硫酸ナトリウム(CE-SDS)、イオン交換クロマトグラフィ、サイズ排除クロマトグラフィ、および撮像キャピラリ等電点電気泳動(iCIEF)などの複数の物理的アッセイから取得され得る。
【0064】
機能データは、「応答」データとも呼ばれ、研究開発、プロセス検証、またはGMP試験から取得されることもでき、複数の分子特異的またはプラットフォーム細胞ベースのインビトロ活性アッセイから得ることができる。
【0065】
ワークフロー100は、ステップ120において、第1の入力データを用いてモデルを訓練することを含みうる。第1の入力データ、例えば、選択された予測子のサブセット(グリカン、荷電種およびサイズ種、ペプチド修飾を含むがこれらに限定されない予測子から選択される)および関心のある機能的応答(効力、受容体結合、ADCC応答を含むがこれらに限定されない)を含むラベル付きデータは、モデルを訓練するためにワークフロー100に最初に入力され得る。
【0066】
モデルは、ユーザ選択モデル、または回帰および分類統計モデルもしくは機械学習モデルなどの自動選択モデルとすることができる。モデルの非限定的な例は、部分最小二乗、ランダムフォレスト、サポートベクターマシン、ナイーブベイズ、k近傍法(KNN)、一般化加法モデル、ロジスティック回帰、勾配ブースティング、Lasso、またはそれらの任意の組み合わせもしくは修正に基づくモデルを含みうる。適切なモデルの選択は、以下のステップのうちの1つまたは複数のショットガン手法とすることができ、それは、統計モデルおよび機械学習モデルをそれらの最良の使用(例えば、小さいまたは大きい試料サイズ、強い非線形挙動など)に基づいてグループに分類すること、データセットのパラメータ(例えば、試料サイズ、線形対非線形挙動など)を分析すること、データセットの基準に最もよく適合するモデルのグループを選択すること、および/または特徴選択ステップにおいてこのグループ内の全てのモデルの性能を比較することを含む。
【0067】
訓練ステップ120は、例えば、いくつかまたは全ての変数の相関を視覚化すること、試料分布を決定すること、訓練に使用される予測子のサブセットを識別すること、予測子の識別されたサブセットに関連付けられたデータによってモデルを訓練すること、およびモデルを検証することなど、
図2に詳述されているような1つまたは複数のステップを含みうる。
図2は、一連の接続されたステップを示しているが、訓練ステップ120を実行する際に、
図2に示す各ステップが存在しなくてもよいことに留意されたい。
【0068】
ワークフロー100は、ステップ130において、第1の入力データおよび第2の入力データに基づいて未知または未決定の機能的応答を有する試料の機能的応答を予測するために訓練されたモデルを使用することを含みうる。第2の入力データは、第2の治療用タンパク質(例えば、抗体)試料のセットに関し、第2の治療用タンパク質(例えば、抗体)試料のセットの機能的応答の予測のための第1の入力データによって訓練されたモデルに入力され得る。例えば、第1の入力データは、特徴選択および応答から選択された予測子のサブセットに基づくデータを含むクリーニングされたデータセットを含み、データは、予測子および応答の既知の値を有する試料に関連する。第2の入力データは、選択された予測子のサブセットについての測定値(これらは完全に訓練されたモデルによって予測されるため、応答値は必要とされない)を含む予測用の所望の試料に関する。ステップ130における予測の出力は、第2の入力データにおける予測のための所望の試料の機能的応答の予測値とすることができる。
【0069】
ワークフロー100は、ステップ140において、予測された機能的応答に基づいて出力を返すことを含みうる。出力は、所定の基準を満たす予測された機能的応答を有する抗体治療候補を選択するために使用され得る。候補は、それらの機能的応答および治療的価値を確認するために実験によって検証され得、治療薬開発に使用され得る。
【0070】
様々な実施形態によれば、ADCC応答などの関連する機能的応答を予測するために複数の生物物理学的属性を使用するためのモデルを開発するための非限定的な例示的プロセスを示すために、一般的且つ例示的な概略ワークフロー200が
図2に提供される。ワークフロー200の1つまたは複数のステップは、例えば
図1の訓練ステップ120を含むワークフロー100の1つまたは複数のステップに組み込まれ得る。
【0071】
様々な実施形態では、ワークフロー200は、自動化され得る。ワークフロー200は、それが
図2に示されたものよりも多いか少ないかにかかわらず、特徴の様々な組み合わせを含みうる。したがって、
図2は、可能なワークフローの一例を単に示している。ワークフロー200は、例えば、
図10に関して説明したシステム1000または同様のシステムを使用して実装され得る。
【0072】
様々な実施形態では、ワークフロー200は、逐次データ前処理、主成分分析、特徴選択、ならびに回帰もしくは分類統計モデルもしくは機械学習モデル、またはそれらの組み合わせもしくは修正などのユーザ選択モデルの訓練および検証のうちの1つまたは複数を含みうる。
【0073】
ワークフロー200は、ステップ210において、データ前処理を含みうる。予測子および応答についての値を含む生データは、このステップにおいて、予測子および応答についての欠落値を有する試料(例えば、応答ではなく予測子のみの値を有する試料、または予測子ではなく応答のみの値を有する試料)の省略または補完によって、特に、予測子のセットに関連する生データ、および第1の治療用タンパク質(例えば、抗体)試料のセットから取得された予測子のセットに関連する対応する測定された抗体依存性細胞傷害性(ADCC)応答について、受信およびクリーニングされ得る。
【0074】
ワークフロー200は、ステップ220において、生物物理学的属性と機能的応答との間の相関を視覚化し、データ前処理ステップ210からのクリーニングされたデータを使用して試料分布を決定することを含みうる。このステップが使用されて、分子データセットからより多くの情報、例えば、試料分布(異常値を識別する可能性)および予測子間の共線を収集することができる。
【0075】
例えば、相関プロット分析が使用されて、1つまたは複数の予測子および機能的応答(例えば、抗体のFc領域におけるアフコシル化の和、抗体のFc領域におけるガラクトシル化の和、抗体のFc領域におけるマンノースの和、抗体のFc領域におけるシアル化の和、およびADCC)または変数の組み合わせを含む、比較された変数間の相関を視覚化することができる。相関プロットの入力は、全ての予測子および所望の応答を含む完全にクリーニングされたデータセット(予測子および応答の値が欠落した試料の省略または補完)である。
【0076】
例えば、主成分分析(PCA)が実行されて、試料内の変動を視覚化し、任意の比較された予測子またはそれらの組み合わせ(例えば、抗体のFc領域におけるアフコシル化の和、ガラクトシル化の和、抗体のFc領域におけるマンノースの和、抗体のFc領域におけるシアリル化の和)間の相関をさらに決定することができる。PCAのための入力は、例えば、予測子のみを含み応答を含まない完全にクリーニングされたデータセットとすることができる。
【0077】
ワークフロー200は、ステップ230において、予測子のサブセットを選択することを含みうる。予測子のサブセットは、所定の性能基準を満たすと予測または決定される予測子の組み合わせ、例えば、上位1、2、3、4、5、または任意の所定の上位ランクの予測子の組み合わせを含みうる。予測子のサブセットは、少なくともまたは最大で2、3、4、5、6、7、9、10個の予測子の組み合わせを含みうる。予測子のサブセットは、アミノ酸完全性、オリゴマー状態およびグリコシル化パターンなどの抗体またはその断片の任意の生物物理学的属性から選択され得る。所望の実施形態では、予測子のサブセットは、グリカン種の不均一性、全体的なグリコシル化の程度、および抗体またはその断片のFc領域における特定の翻訳後修飾の存在などのグリコシル化パターンの任意の属性から選択され得る。
【0078】
様々な実施形態では、予測子の初期セットの全ての可能な組み合わせは、繰り返しのランダムサブサンプリング検証を受けることができ、それによって予測子の初期セットに関連するデータは、モデルを構築するために使用される訓練セットと、モデルを検証するために使用される試験セットとに分割される。訓練されたモデルは、そのモデルの予測の二乗平均平方根誤差(RMSEP)を計算するために実際の測定値と直接比較される試験セット試料応答の値を予測する。これは、予測子のセットの全ての組み合わせに対するランダム訓練および試験セットの分割のユーザ定義の反復回数によって実行される。所定の基準を満たす性能のために、予測子のサブセットが選択され得る。例えば、最良の平均予測精度(最低平均RMSEP)を有するモデルを生成する予測子のサブセットは、次に前進するために自動的に選択される。
【0079】
様々な実施形態によれば、予測子の初期セットの組み合わせの数は、予測子の初期セットの全ての組み合わせに対して予備k倍交差検証を実行することによって最初に低減される。ランダム化された訓練分割および試験セット分割の異なる反復で複数のモデルを訓練および検証するのではなく、データは、異なるグループの予め定義されたk値に一度だけ分割され、例えば、予め定義されたk値は、5または10であるか、またはk値に基づくデータ試料の各訓練/試験グループがより広いデータセットを統計的に表すのに十分な大きさであるように選択された任意の値である。1つを除く全てのグループは、モデルを適合させるための訓練セットとして使用され、次いで残りのグループを試験セットとして使用して評価される。このプロセスは、各グループが試験セットとして1回機能するまで実行され得、試験セットの予測のための平均性能が報告される。同様に、予測子のサブセットは、予測された性能に基づいて所定の基準を満たす性能のために選択され得る。
【0080】
様々な実施形態では、ステップ230の入力は、全ての予測子および所望の応答を含む完全にクリーニングされたデータセット(例えば、5倍交差検証を介した特徴重要度ランキングおよび予備的特徴選択のための完全なデータ、または繰り返しのランダムサブサンプリングを介した完全な特徴選択のための訓練/試験分割データ)である。様々な実施形態では、このステップ230の出力は、応答を予測するために構築されたモデルに対する各予測子の相対寄与度、およびモデルに使用する選択された予測子のサブセット(例えば、未確認試料に対して最良の予測性能を有するモデルを訓練する予測子のデータサブセット)のランク付けされた順序である。
【0081】
ワークフロー200は、ステップ240において、モデル性能の検証を含みうる。様々な実施形態では、このステップ240の入力は、例えば、ステップ230における特徴選択からの予測子の選択されたサブセットに関連付けられたデータと、予測子の選択されたサブセットに対応する応答とを含み、続いて訓練/試験分割データに分割される、クリーニングされたデータセットである。様々な実施形態では、このステップ240の出力は、所望の試料の機能的応答の予測における誤差の範囲の統計的に健全な推定値(例えば、経験的規則および許容差間隔)である。
【0082】
図3は、様々な実施形態にかかる、関連する生物物理学的属性の選択された組み合わせに基づいて機能的活性を予測するための一般的な概略的ワークフロー300の非限定的な例示的な実施形態を示している。ワークフロー300は、それが
図3に示されたものよりも多いか少ないかにかかわらず、特徴の様々な組み合わせを含みうる。したがって、
図3は、可能なワークフローの一例を単に示している。ワークフロー300は、例えば、
図10に関して説明したシステム1000または同様のシステムを使用して実装され得る。
【0083】
様々な実施形態では、ワークフロー300は、自動化され得る。例えば、自動化ワークフロー300は、プログラミング言語Rを使用して構築され得、R用の任意の統合開発環境を使用して実行され得る。様々な実施形態では、予測モデリングは、回帰および分類問題のための予測モデルを作成するプロセスを単純化する関数のセットを含みうるソフトウェアパッケージを使用して実行される。
【0084】
様々な実施形態では、ワークフロー300は、多変量部分最小二乗(PLS)回帰モデルを利用する。このパッケージは、予測子の数が試料の数よりも多い場合に効率的とすることができるカーネルアルゴリズムを実装することができる。さらに、例えば、予測子が高度に共線的である場合、PLSは、堅牢とすることができ、これは、相関する生物物理学的属性間の場合とすることができる。
【0085】
例えば、複数のグリカン属性の影響を調べるために、複数のCHO由来IgG1モノクローナル抗体(mAb)にわたる親水性相互作用クロマトグラフィ(HILIC)グリカンデータ(治療用mAb 1、2、3)を使用して、2-AB HILICグリカン分析によって取得されたグリカン種の相対面積パーセントが使用されて、インビトロADCC機能的応答をモデリングした。異なる分子にわたるインビトロADCC機能的応答に対するグリカン構造の翻訳の影響を調べるために、各分子について個別に、ならびに組み合わせてモデリングが行われた。モデリングは、
図3に記載されているような例示的なワークフローにしたがった。
【0086】
図4~
図9は、3分子(治療用mAb 1、2、3)データセットを使用して構築されたモデルを用いた例におけるADCC応答などの関連する機能的応答を予測するために複数の生物物理学的属性を使用するための非限定的な例示的な実施形態を示すグラフである。このデータセットを使用して、ワークフローの各可能な構成要素は、
図3および以下に詳細に概説される。ここでも、
図3は、関連する生物物理学的属性の選択された組み合わせに基づいて機能的活性を予測するための例示的なワークフローとして機能し、したがって、そこに示される各構成要素は、全ての実施形態について含まれる必要はないことに留意されたい。
【0087】
図3のワークフロー300は、ステップ310において、対応する機能的応答によってラベル付けされた予測子の初期セットに関連するデータを含む生データを受信することを含みうる。例えば、生データは、3つのIgG1治療薬(治療用mAb 1、2、3)を含む3つのチャイニーズハムスター卵巣(CHO)由来抗体分子の組み合わせからのHILICグリカンデータサム(3つの抗体分子のFc領域におけるアシアロ-アガラクト-フコシル化バイアンテナ型オリゴ糖の和(G0F)、アフコシル化の和、ガラクトシル化の和、マンノースの和、およびシアリル化の和)およびADCC機能結果を含むデータセットとすることができる。
【0088】
ステップ310において、所望の予測子(例えば、HILICグリカン構造の相対面積パーセント値)および応答(例えば、インビトロADCC正規化パーセント値)を含むデータが.csvファイルとしてRスクリプトにロードされた。このファイルは、ユーザによって手動で生成され、フォーマット命令がスクリプトに含まれる。データがロードされた後、ユーザは、実行したいモデルのタイプを定義した。
【0089】
ワークフロー300は、ステップ320において、データクリーニングを含みうる。ステップ320は、所望のデータをフォーマットし、ロードすることを含みうる。様々な実施形態では、生の入力データはまた、ユーザの好みに応じて、欠落データを省略するか、またはその場所の予測子の平均値に影響を与えることによってクリーニングされ得る。本明細書で使用される場合、「data1.0」は、相関プロット、PCA分析(応答はここではコードによって除去される)、特徴ランク付け、および/または特徴選択のための予測子および応答の完全にクリーニングされたデータセットに対応する。
【0090】
ワークフロー300は、ステップ330において、クリーニングされたデータおよび試料分布における異なる変数間の相関を視覚化することを含みうる。本明細書に提示される例は、データクリーニングのための全ての欠落データを省略した。クリーニングされたデータが使用されて、比較した全ての変数の相関プロットをグラフ化し(
図4A)、主成分分析(PCA)を実行して試料内の変動を視覚化し、予測子間の相関をさらに決定した(
図4B)。
図4Aは、比較した変数(予測子および応答を含む)の相関を示している。
図4Bは、最初の2つの主成分(PC)がx軸およびy軸によって表され、データ内の分散の大部分を示すPCAバイプロットを示している。これらのPCは、予測子の線形結合であり、プロットでは矢印として表されている。
【0091】
ワークフロー300は、ステップ340において、変数の重要度の決定および特徴の選択を含みうる。ステップ340において、予測の二乗平均平方根誤差(RMSEP)を使用して測定された、どの予測子のサブセットが最も正確な予測モデルを訓練するかを識別および選択するための特徴選択を実行するために、クリーニングされたデータが使用された。本明細書で使用される場合、「data2.0」は、予測子の最適なサブセットのデータセット、およびモデルを検証し、未確認試料(訓練/試験分割データ)の予測性能を推定し、所望の試料(全データ)を予測するために使用される完全なモデルを訓練するために使用される応答に対応する。
【0092】
最初に、各予測値を、可変重要度ランキングのためのモデルに対する各予測値の相対的寄与度を計算することによってランク付けした(
図5)。
【0093】
可変重要度ランキングの後、2つの異なる方法によって特徴選択を行った。第1の方法による特徴選択は、計算の労力および時間を犠牲にしてより徹底的であり(
図6の上部)、一方、第2の方法による特徴選択は、より網羅的でないことを犠牲にしてより効率的である(
図7の上部)。
【0094】
第1の特徴選択方法では、予測子の全ての可能な組み合わせが繰り返しのランダムサブサンプリング検証を受け、それによってデータは、モデルを構築するために使用される訓練セットと、モデルを検証するために使用される試験セットとに分割される。訓練されたモデルは、そのモデルのRMSEPを計算するために実際の測定値と直接比較される試験セット試料応答の値を予測する。これは、予測子の全ての組み合わせに対するランダム訓練および試験セットの分割のユーザ定義の反復回数によって実行される。次いで、最良の平均予測精度(最低平均RMSEP)を有するモデルを生成する予測子のサブセットが、前進するように自動的に選択される。予測子の全ての組み合わせがユーザ定義の反復回数に対してランダムサブサンプリング検証を受けるため、この方法は、計算的に負担がかかる可能性がある。
【0095】
第2の特徴選択方法では、予測子の組み合わせごとに予備的な5倍の交差検証を実行することによって、予測子の組み合わせの数が最初に削減される。ランダム化された訓練および試験セットの分割の異なる反復で複数のモデルを訓練および検証するのではなく、データは、5つの異なるグループに1回だけ分割される。1つを除く全てのグループは、モデルを適合させるための訓練セットとして使用され、次いで残りのグループを試験セットとして使用して評価される。このプロセスは、各グループが試験セットとして1回機能するまで実行され、試験セットの予測のための平均性能が報告される。
【0096】
単一のモデルを訓練および検証するために1つのデータ分割のみが使用されることを考えると、第2の特徴選択方法におけるこのプロセスは、第1の特徴選択方法における繰り返しのランダムサブサンプリング検証よりもはるかに短い時間で済み得る。5倍交差検証の予測子サブセットの最も性能の高いパーセンテージは、自動的に繰り返しのランダムサブサンプリング検証に進む。
【0097】
5つのHILICグリカン予測子を含む3分子データセットに対して同一のハードウェアを使用して
図3のワークフローを実行した場合、第1の特徴選択方法は、21分31秒かかり、第2の特徴選択方法による特徴選択は、1分54秒かかった。特定の用途の要件または制約に応じて、いずれかの特徴選択方法が本明細書に記載の方法およびシステムにおいて使用され得る。
【0098】
どちらの特徴選択方法を使用しても、予測子の同じ最適なサブセットを識別することができた。より多くの予測子を使用すると、これらの予測子の可能な組み合わせの総数が大幅に増加する可能性があり、第1または第2の特徴選択方法における計算時間も増加する可能性がある。
【0099】
ワークフロー300は、ステップ350において、特徴選択データをクリーニングすることを含みうる。ワークフロー300は、ステップ370においてそのクリーニングされたデータを訓練データおよびモデル性能検証のための試験データに分割するための分割方法を選択することによって、ステップ360において、データ分割選択をモデリングすることを含みうる。
【0100】
ワークフロー300は、ステップ370において、モデル性能の検証を含みうる。いずれかの特徴選択方法を使用して予測子の最適なサブセットが選択された後、この選択された最適なサブセットからのデータに対して繰り返しのランダムサブサンプリングが使用されて、未確認試料を予測する際にこのデータ全体に構築された単一のモデルの性能を推定した(
図6および
図7の下部における性能検証)。
【0101】
ステップ370において、繰り返しのランダムサブサンプリングにおけるモデル性能は、全ての予測された試験セット試料(
図8A)の残差分析によって複合される。ここで、残差は、測定されたADCC値と予測されたADCC値との間の差であり、モデル予測が真値からどれだけ離れていたかの直接的な測定値である。理想的なモデルの残差プロットは、ゼロに近い点の密度が高く(予測値と測定値との差が小さい)、ゼロに関して対称である(等分散)。残差の等分散性は、モデルが点を一様に予測していること、すなわち、実際の応答値の大きさに関係なく等しく機能することを意味する。
【0102】
ワークフロー300は、ステップ380において、訓練されたモデルの性能の予測を含みうる。ステップ380において、繰り返しのランダムサブサンプリング後のモデルの予測精度は、各試料の予測の相対誤差を捕捉し、誤差が確立された許容範囲内に適合するかどうか、典型的には80~120%の回復を確認するために、%回復(予測値/測定値*100)を介して報告され得る。正規分布した値のセットの場合、値の95%は、平均値の2つの標準偏差内に入り、値の99%は、平均値の2.5標準偏差内に入る。経験則として知られるこの統計的近似は、%復元値の大部分(値の95%および99%)が含まれる推定値範囲、換言すれば、ADCCのモデル予測の大部分がデータ内の試料の実際の測定値からどれだけ離れているかの近似を報告することによって、所望の試料のモデル性能を予測するために利用され得る。
【0103】
したがって、3分子モデルの予測力は、80~120%の回復範囲(99%信頼区間)内にある。アッセイ認定のために一般的に受け入れられている範囲内で一貫して予測する能力は、以前のグリカンおよびADCCデータが類似フォーマットのより新たな分子実体について制限されているかまたは利用できない状況(例えば、IgG1 mAb)におけるこのモデルの有用性を裏付ける。
【0104】
値の母集団は、性能予測が真とすることができるように正規分布されることが望ましい。したがって、確率密度プロットによる定性分析が実行され、予測された全ての試験セット試料の%回復の値が正規分布していることを確認した(
図8B)。
図8Bはまた、回収率(予測ADCC/測定ADCC*100に等しい)が約80%から約120%であることを示している。
【0105】
無効にされた試料(例えば、未確認データ)に対する応答の予測に対する最終モデルの性能を推定した後、実際のモデルは、最適な予測子の完全なデータに対する訓練によって構築される(訓練/試験分割なし)。予測は、最終モデルを訓練するために使用されたものと同じセットの測定された予測子を有する任意の試料に対して行われ得る。
【0106】
3つの分子(治療用mAb 1、2、3)を使用するモデルの分析に加えて、
図4~
図9に詳述したように、3分子データの組み合わせからいくつかの他のモデルが生成された。これらの各モデルについての検証メトリックが表1に提示されている。表1において、キーは以下のとおりである:G0Fの和(G0F+G0F-N)=S.G0F、アフコシル化の和(G0-N+G0+G1)=S.A.、ガラクトシル化の和(G1F+G2F+G1)=S.G.、マンノースの和(M5+M6+M7+M8)=S.M.、シアリル化の和(G1S1F+G2S1F+G2S2F)=S.S.注:繰り返しのランダムサブサンプリングが訓練セットと試験セットの分割の100回の反復にわたって行われ(全データの80/20分割)、[括弧]内の項は、治療用mAb 1の単一の外れ値が除去されたデータに対応する。
【表1】
【0107】
図3のこのデータモデリングワークフローの性能が、以下の一般的に使用されるデータ分析技術:応答と強く線形相関する既知の属性を使用した線形回帰と比較された。この場合、アフコシル化対ADCC応答の和が使用された(表2)。
【0108】
PLSモデルは、値の範囲がほぼ同一である治療用mAb 1+2+3を除く全ての場合において、線形回帰と比較して99%の回収率をカバーするより小さい値の範囲を有する。重要なことに、PLSモデルにおける個々の分子の全ては、予測された試料の回収率値の99%について80~120%以内の回収率で安全であるが、治療用mAb 1および3は、線形回帰においてこの閾値から有意に逸脱している。
【0109】
表2に示すように、PLSモデルは、応答挙動の大部分を決定付ける強い単変量線形相関を有するデータセットにおいて線形回帰(括弧内に示す)と同様に機能するが、相関が非線形に挙動する場合、または複数の予測子と応答との間に有意な相関がある場合にははるかに優れた機能を果たす。どちらの方法でも、PLSモデルは、より堅牢であり、最終的にはこのようなデータ分析に使用するのにより実用的である。ほとんどの場合、モデルの予測精度の成功の閾値は、ユーザおよび分析の文脈によって定義されることに留意する価値がある。
【0110】
表2に示す場合、80%から120%の%回収率範囲が許容誤差レベルとして使用されたが、これは、この範囲が分析アッセイの適格性において一般に許容される誤差のマージンであるためである。このメトリックを使用して、本発明者らは、PLSモデルが未確認試料の大部分(99%)を十分に(80~120%以内の回収率で)予測すると推定することができる。
【表2】
【0111】
最後に、ランダムフォレストモデルおよびサポートベクターマシン(2つの広く使用されている機械学習アルゴリズム)と比較したPLSモデルの性能が試験された(表3)。このデータセット(サイズ、複雑さなど)の文脈内では、平均RMSEPを比較した場合、PLSモデルは、他のモデルと同等に良好にまたはより良好に機能したが、より複雑な機械学習アルゴリズムは、より小さいデータセットでは性能が不十分になる傾向があるため、これは予想される。
【表3】
注:全てのモデルは、3分子データベースを使用して構築され、全てのモデルは、80/20の訓練/試験分割によって繰り返しのランダムサブサンプリングのために100回の反復を使用する。
【0112】
III.B.方法
様々な実施形態によれば、関連する生物物理学的属性に基づいて機能的活性を予測するための様々な例示的な方法が提供される。本方法は、ワークフロー100、200または300の1つまたは複数の特徴を(任意の組み合わせで交換可能に)組み込むことができ、例えば、
図10または
図11に例示されるように、コンピュータソフトウェアもしくはハードウェア、またはそれらの組み合わせを介して実装され得る。本方法は、標的結合の候補を検出するためのエンジンの組み合わせを含みうるコンピューティング装置/システム上で実装されることもできる。様々な実施形態では、コンピューティング装置/システムは、直接接続を介して、またはインターネット接続を介して、データソース、データモデリング分析器、および表示装置のうちの1つまたは複数に通信可能に接続され得る。
【0113】
ここで
図9を参照すると、様々な実施形態にかかる、関連する生物物理学的属性に基づいて機能的活性を予測するための非限定的な例示的方法900を示すフローチャートが示されている。方法900は、ステップ902において、入力データを受信することを含みうる。入力データは、予測子のセットに関する第1の入力データと、第1の治療用タンパク質(例えば、抗体)試料のセットから取得された予測子のセットに関連する対応する測定された機能的応答(例えば、測定された抗体依存性細胞傷害(ADCC)応答)とを含みうる。入力データは、予測子のセットと、機能的応答(例えば、ADCC応答)の予測のための第2の治療用タンパク質(例えば、抗体)試料のセットとに関する第2の入力データをさらに含みうる。様々な実施形態では、予測子のセットは、抗体のアフコシル化度および抗体の1つまたは複数のさらなるグリコシル化属性との組み合わせなどの所定の基準に基づいて、治療用タンパク質の関連する生物物理学的属性の組み合わせとして選択された。例えば、抗体の1つまたは複数のさらなるグリコシル化属性は、ガラクトシル化、シアリル化、グリカン鎖長、グリカン構成要素型、高分子量型、およびN-グリカン鎖を欠く抗体の形態、またはそれらの任意の組み合わせを含む。第1の治療用タンパク質(例えば、抗体)試料のセットまたは第2の治療用タンパク質(例えば、抗体)試料のセットは、モノクローナル抗体試料を含みうる。
【0114】
方法900は、ステップ904において、第1の入力データを用いて機械学習モデルを訓練することを含みうる。ステップ904は、治療用タンパク質の関連する生物物理学的属性、例えば、抗体のアフコシル化度および/または抗体の1つもしくは複数のさらなるグリコシル化属性の複数の組み合わせから予測子のセットを選択することを含み得る。予測子のセットを選択することは、5倍交差検証などの、第1の入力データの所定の分割を使用した繰り返しのランダムサブサンプリング検証または交差検証を含みうる。
【0115】
ステップ904は、機械学習モデルを選択することをさらに含みうる。機械学習モデルは、第1の入力データおよび予測子のセットを使用して、機械学習モデルが所定の閾値を満たすモデル性能を有すると決定された場合に選択され得る。機械学習モデルは、例えば、部分最小二乗、ランダムフォレスト、サポートベクターマシン、ナイーブベイズ、KNN、一般化加法モデル、ロジスティック回帰、勾配ブースティング、またはLassoに基づくモデルとすることができる。
【0116】
方法900は、ステップ906において、第2の入力データに基づいて第2の治療用タンパク質(例えば、抗体)試料のセットの機能的応答(例えば、ADCC応答)を予測することを含みうる。予測は、機械学習モデルおよび予測子のセットを使用して行われ得る。
【0117】
方法900は、ステップ908において、予測されたADCC応答を含む出力を返すことを含みうる。方法900は、さらに、予測された機能的応答(例えば、予測されるADCC応答)に基づいて第2の治療用タンパク質(例えば、抗体)試料のセットから治療候補を選択することを含みうる。方法900は、治療候補の治療有効性を検証することをさらに含みうる。方法900は、治療候補を含む治療組成物を開発することをさらに含みうる。予測エンジン1012は、機械学習モデルおよび予測子のセットを使用してADCC応答を予測することができる。
【0118】
III.C.システム
様々な実施形態では、関連する生物物理学的属性の選択された組み合わせに基づいて、またはワークフロー100、200、もしくは300に例示されているように、機能的活動を予測するための任意の方法は、
図10に記載されているように、ソフトウェア、ハードウェア、ファームウェア、またはそれらの組み合わせを介して実装され得る。
図10は、様々な実施形態にかかる、関連する生物物理学的属性の選択された組み合わせに基づいて機能的活性を予測するように構成された非限定的な例示的システムを示している。システム1000は、それが
図10に示されている特徴よりも多いかまたは少ない特徴であるかにかかわらず、特徴の様々な組み合わせを含みうる。したがって、
図10は、可能なシステムの一例を単に示している。
【0119】
システム1000は、データ収集ユニット1002、データ記憶ユニット1004、コンピューティング装置/分析サーバ1006、ディスプレイ1014、および検証ユニット1016を含む。データ収集ユニット1002は、シリアルバスを介して(双方とも統合機器プラットフォームを形成する場合)、またはネットワーク接続を介して(双方とも分散/別個の装置である場合)、データ記憶ユニット1004に通信可能に接続され得、データセットをデータ記憶ユニットに送信することができる。生成されたデータセットは、その後の処理のためにデータ記憶ユニット1004に記憶される。様々な実施形態では、処理および分析の前に、1つまたは複数の生データセットは、データ記憶ユニット1004に記憶されることもできる。したがって、様々な実施形態では、データ記憶ユニット1004は、治療用タンパク質(例えば、抗体)試料のいくつかのセットに対応する本明細書の様々な実施形態のデータセットを記憶するように構成され得る。様々な実施形態では、処理されたデータセットは、さらに下流の分析のためにリアルタイムでコンピューティング装置/分析サーバ1006に供給され得る。
【0120】
データ記憶ユニット1004は、コンピューティング装置/分析サーバ1006に通信可能に接続され得る。様々な実施形態では、データ記憶ユニット1004およびコンピューティング装置/分析サーバ1006は、統合装置の一部とすることができる。様々な実施形態では、データ記憶ユニット1004は、コンピューティング装置/分析サーバ1006とは異なる装置によってホストされ得る。様々な実施形態では、データ記憶ユニット1004およびコンピューティング装置/分析サーバ1006は、分散ネットワークシステムの一部とすることができる。様々な実施形態では、コンピューティング装置/分析サーバ1006は、「ハードワイヤード」物理ネットワーク接続(例えば、インターネット、LAN、WAN、VPNなど)または無線ネットワーク接続(例えば、Wi-Fi、WLANなど)のいずれかとすることができるネットワーク接続を介してデータ記憶ユニット1004に通信可能に接続され得る。コンピューティング装置/分析サーバ1006は、様々な実施形態によれば、ワークステーション、メインフレームコンピュータ、分散コンピューティングノード(「クラウドコンピューティング」または分散ネットワーキングシステムの一部)、パーソナルコンピュータ、モバイル装置などとすることができる。コンピューティング装置/分析サーバ1006は、クライアントコンピューティング装置とすることができる。様々な実施形態では、コンピューティング装置/分析サーバ1006は、データ収集ユニット1002、データ記憶ユニット1004、ディスプレイ1014、および検証ユニット1016の動作を制御するために使用され得るウェブブラウザ(例えば、INTERNET EXPLORER(商標)、FIREFOX(商標)、SAFARI(商標)など)を有するパーソナルコンピューティング装置とすることができる。
【0121】
コンピュータ装置/分析サーバ1006などのコンピューティングシステムは、様々な実施形態にかかる、1つもしくは複数の特徴選択エンジン1008、1つもしくは複数の訓練エンジン1010、および/または1つもしくは複数の予測エンジン1012をホストするように構成されている。特徴選択エンジン1008は、抗体のアフコシル化度および抗体の1つまたは複数のグリコシル化属性の複数の組み合わせから予測子のセットを選択するように構成されている。様々な実施形態では、抗体の1つまたは複数のグリコシル化属性は、ガラクトシル化、シアリル化、グリカン鎖長、グリカン構成要素型、高分子量形態、およびN-グリカン鎖を欠く抗体の形態、またはそれらの任意の組み合わせを含む。訓練エンジン1010は、例えば、第1の入力データを用いて機械学習モデルを訓練するように構成され得る。予測エンジン1012は、第2の入力データに基づいて第2の治療用タンパク質(例えば、抗体)試料のセットのADCC応答を予測するように構成され得る。予測エンジン1012は、機械学習モデルおよび予測子のセットを使用してADCC応答を予測することができる。予測エンジン1012は、機能的応答の予測に基づいて第2の治療用タンパク質(例えば、抗体)試料のセットから治療候補を選択するようにさらに構成され得る。システム1000は、選択された候補の所望の機能的応答を検証するように構成された検証ユニット1016をさらに備える。
【0122】
コンピューティング装置/分析サーバ1006がデータ記憶ユニット1004からデータを受信および処理している間、または処理が完了した後、結果の出力は、コンピューティング装置/分析サーバ1006に通信可能に接続されたディスプレイ1014に結果または要約として表示され得る。ディスプレイ1014は、クライアントコンピューティング装置またはクライアント端末とすることができる。ディスプレイ1014は、データ収集ユニット1002、データ記憶ユニット1004、特徴選択エンジン1008、訓練エンジン1010、予測エンジン1012、およびディスプレイ1014の動作の動作を制御するために使用され得るウェブブラウザ(例えば、INTERNET EXPLORER(商標)、FIREFOX(商標)、SAFARI(商標)など)を有するパーソナルコンピューティング装置とすることができる。
【0123】
様々なエンジンは、特定の用途またはシステムアーキテクチャの要件に応じて、単一のエンジン、構成要素またはモジュールに組み合わせられ得るか、または折り畳まれ得ることを理解されたい。エンジン1008/1010/1012は、特定のアプリケーションまたはシステムアーキテクチャによって必要に応じて追加のエンジンまたは構成要素を備えることができる。
【0124】
IV.コンピュータ実装システム
様々な実施形態では、関連する生物物理学的属性の選択された組み合わせに基づいて、またはワークフロー100、200、もしくは300に例示されているように、機能的活動を予測するための任意の方法は、
図10または
図11に記載されているように、ソフトウェア、ハードウェア、ファームウェア、またはそれらの組み合わせを介して実装され得る。
【0125】
すなわち、
図10に示すように、本明細書に開示される方法は、コンピュータシステム1000(例えば、コンピューティング装置/分析サーバ)などのコンピュータシステム上で実装され得る。コンピュータシステム1000は、直接接続またはネットワーク接続(例えば、LAN、WAN、インターネットなど)を介してデータ記憶ユニット1004およびディスプレイシステム1014に通信可能に接続され得るコンピューティング装置/分析サーバ1006を含みうる。
図10に示すコンピュータシステム1000は、特定のアプリケーションまたはシステムアーキテクチャによって必要に応じて追加のエンジンまたは構成要素を備えることができることを理解されたい。
【0126】
図11は、本教示の実施形態が実装され得るコンピュータシステム1100を示すブロック図である。本教示の様々な実施形態では、コンピュータシステム1100は、情報を通信するためのバス1102または他の通信機構と、情報を処理するためのバス1102に結合されたプロセッサ1104とを含みうる。様々な実施形態では、コンピュータシステム1100はまた、プロセッサ1104によって実行される命令を決定するためにバス1102に結合された、ランダムアクセスメモリ(RAM)1106または他の動的記憶装置とすることができるメモリを含みうる。メモリはまた、プロセッサ1104によって実行される命令の実行中に一時変数または他の中間情報を記憶するために使用され得る。様々な実施形態では、コンピュータシステム1100は、プロセッサ1104のための静的情報および命令を記憶するためにバス1102に結合された読み出し専用メモリ(ROM)1108または他の静的記憶装置をさらに含みうる。磁気ディスクまたは光ディスクなどの記憶装置1110が設けられ、情報および命令を記憶するためにバス1102に結合され得る。
【0127】
様々な実施形態では、プロセッサ1104は、コンピュータユーザに情報を表示するために、バス1102を介して、陰極線管(CRT)または液晶ディスプレイ(LCD)などのディスプレイ1012に結合され得る。英数字および他のキーを含む入力装置1114は、プロセッサ1104への情報およびコマンド選択の通信のためにバス1002に結合され得る。別の種類のユーザ入力装置は、プロセッサ1104に方向情報およびコマンド選択を通信し、ディスプレイ1112上のカーソル移動を制御するための、マウス、トラックボール、またはカーソル方向キーなどのカーソル制御装置1116である。
【0128】
本教示の特定の実装と一致して、結果は、メモリ1106に含まれる1つまたは複数の命令の1つまたは複数のシーケンスを実行するプロセッサ1104に応答して、コンピュータシステム1100によって提供され得る。そのような命令は、記憶装置1110などの別のコンピュータ可読媒体またはコンピュータ可読記憶媒体からメモリ1106に読み込まれ得る。メモリ1106に含まれる命令のシーケンスの実行は、プロセッサ1104に本明細書に記載されるプロセスを実行させることができる。様々な実施形態では、本教示を実装するために、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて、ハードワイヤード回路が使用され得る。したがって、本教示の実装は、ハードウェア回路とソフトウェアとの特定の組み合わせに限定されない。
【0129】
本明細書で使用される「コンピュータ可読媒体」(例えば、データストア、データストレージなど)または「コンピュータ可読記憶媒体」という用語は、実行のためにプロセッサ1104に命令を提供することに関与する任意の媒体を指す。そのような媒体は、不揮発性媒体、揮発性媒体、および伝送媒体を含むがこれらに限定されない多くの形態をとることができる。不揮発性媒体の例は、これに限定されないが、メモリ1106などのダイナミックメモリを含みうる。伝送媒体の例は、これらに限定されないが、バス1102を備えるワイヤを含む、同軸ケーブル、銅線、および光ファイバを含みうる。
【0130】
コンピュータ可読媒体の一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、または他の任意の磁気媒体、CD-ROM、他の任意の光学媒体、パンチカード、紙テープ、孔のパターンを有する他の任意の物理媒体、RAM、PROM、およびEPROM、フラッシュEPROM、他のメモリチップまたはカートリッジ、またはコンピュータが読み取ることができる他の任意の有形媒体を含む。
【0131】
コンピュータ可読媒体に加えて、命令またはデータは、実行のためにコンピュータシステム1100のプロセッサ1104に1つまたは複数の命令のシーケンスを提供するために、通信装置またはシステムに含まれる伝送媒体上の信号として提供され得る。例えば、通信装置は、命令およびデータを示す信号を有するトランシーバを含み得る。命令およびデータは、1つまたは複数のプロセッサに、本明細書の開示に概説される機能を実装させるように構成されている。データ通信伝送接続の代表的な例は、これらに限定されないが、電話モデム接続、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、赤外線データ接続、NFC接続などを含みうる。
【0132】
本明細書に記載されるフローチャート、図、および付随する開示は、コンピュータシステム1000をスタンドアロン装置として使用して、またはクラウドコンピューティングネットワークなどの分散ネットワークもしくは共有コンピュータ処理リソース上で実装され得ることを理解されたい。
【0133】
本明細書に記載の方法論は、用途に応じて様々な手段によって実装され得る。例えば、これらの方法は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの任意の組み合わせで実装されてもよい。ハードウェア実装の場合、処理ユニットは、1つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジック装置(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子装置、本明細書に記載された機能を実行するように設計された他の電子ユニット、および/またはそれらの組み合わせ内に実装され得る。
【0134】
様々な実施形態では、本教示の方法は、R、C、C++、Pythonなどのような従来のプログラミング言語において記述されたファームウェアおよび/またはソフトウェアプログラムおよびアプリケーションとして実装されてもよい。ファームウェアおよび/またはソフトウェアとして実装される場合、本明細書に記載される実施形態は、コンピュータに上述した方法を実行させるためのプログラムが記憶された非一時的コンピュータ可読媒体上に実装され得る。本明細書に記載の様々なエンジンは、コンピュータシステム1100などのコンピュータシステム上に提供され得、それによってプロセッサ1104は、メモリ構成要素1106/1108/1110および入力装置1114を介して提供されるユーザ入力のいずれか一方またはそれらの組み合わせによって提供される命令にしたがって、これらのエンジンによって提供される分析および決定を実行することを理解されたい。
【0135】
本明細書で使用される「コンピュータ可読媒体」(例えば、データストア、データストレージなど)または「コンピュータ可読記憶媒体」という用語は、実行のためにプロセッサ1104に命令を提供することに関与する任意の媒体を指す。そのような媒体は、不揮発性媒体、揮発性媒体、および伝送媒体を含むがこれらに限定されない多くの形態をとることができる。不揮発性媒体の例は、これらに限定されないが、記憶装置1110などの光学、固体、磁気ディスクを含みうる。揮発性媒体の例は、これに限定されないが、メモリ1106などのダイナミックメモリを含みうる。伝送媒体の例は、これらに限定されないが、バス1102を備えるワイヤを含む、同軸ケーブル、銅線、および光ファイバを含みうる。
【0136】
コンピュータ可読媒体の一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、または任意の他の磁気媒体、CD-ROM、任意の他の光学媒体、パンチカード、紙テープ、孔のパターンを有する任意の他の物理媒体、RAM、PROM、およびEPROM、フラッシュEPROM、任意の他のメモリチップまたはカートリッジ、またはコンピュータが読み取ることができる任意の他の有形媒体を含む。
【0137】
コンピュータ可読媒体に加えて、命令またはデータは、実行のためにコンピュータシステム1100のプロセッサ1104に1つまたは複数の命令のシーケンスを提供するために、通信装置またはシステムに含まれる伝送媒体上の信号として提供され得る。例えば、通信装置は、命令およびデータを示す信号を有するトランシーバを含み得る。命令およびデータは、1つまたは複数のプロセッサに、本明細書の開示に概説される機能を実装させるように構成されている。データ通信伝送接続の代表的な例は、これらに限定されないが、電話モデム接続、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、赤外線データ接続、NFC接続などを含みうる。
【0138】
本明細書に記載の方法論、フローチャート、図、および付随する開示は、コンピュータシステム1200をスタンドアロン装置として使用して、またはクラウドコンピューティングネットワークなどの共有コンピュータ処理リソースの分散ネットワーク上で実装され得ることを理解されたい。
【0139】
本明細書に記載の方法論は、用途に応じて様々な手段によって実装され得る。例えば、これらの方法は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの任意の組み合わせで実装されてもよい。ハードウェア実装の場合、処理ユニットは、1つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジック装置(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子装置、本明細書に記載された機能を実行するように設計された他の電子ユニット、および/またはそれらの組み合わせ内に実装され得る。
【0140】
デジタル処理装置
様々な実施形態では、本明細書に記載のシステムおよび方法は、デジタル処理装置またはその使用を含みうる。様々な実施形態では、デジタル処理装置は、装置の機能を実行する1つまたは複数のハードウェア中央処理装置(CPU)または汎用グラフィックス処理装置(GPGPU)を含みうる。様々な実施形態では、デジタル処理装置は、実行可能命令を実行するように構成されたオペレーティングシステムをさらに備える。様々な実施形態では、デジタル処理装置は、任意にコンピュータネットワークに接続され得る。様々な実施形態では、デジタル処理装置は、ワールドワイドウェブにアクセスするようにインターネットに任意に接続され得る。様々な実施形態では、デジタル処理装置は、任意にクラウドコンピューティングインフラストラクチャに接続され得る。様々な実施形態では、デジタル処理装置は、任意にイントラネットに接続され得る。様々な実施形態では、デジタル処理装置は、任意にデータ記憶装置に接続され得る。
【0141】
様々な実施形態によれば、適切なデジタル処理装置は、非限定的な例として、サーバコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、サブノートブックコンピュータ、ネットブックコンピュータ、ネットパッドコンピュータ、ハンドヘルドコンピュータ、インターネット機器、モバイルスマートフォン、タブレットコンピュータ、および携帯情報端末を含みうる。当業者は、多くのスマートフォンが本明細書に記載のシステムにおける使用に適していることを認識するであろう。当業者であれば、選択されたテレビ、ビデオプレーヤ、および任意のコンピュータネットワーク接続を有するデジタル音楽プレーヤが、本明細書に記載のシステムにおける使用に適していることも認識するであろう。適切なタブレットコンピュータには、当業者に知られている、ブックレット、スレート、およびコンバーチブル構成を有するものが含まれる。
【0142】
様々な実施形態では、デジタル処理装置は、実行可能命令を実行するように構成されたオペレーティングシステムを含む。オペレーティングシステムは、例えば、装置のハードウェアを管理し、アプリケーションの実行のためのサービスを提供する、プログラムおよびデータを含むソフトウェアとすることができる。当業者であれば、適切なサーバオペレーティングシステムは、非限定的な例として、FreeBSD、OpenBSD、Net-BSD、Linux、Apple(登録商標)Mac OS X Server(登録商標)、Oracle(登録商標)Solaris(登録商標)、Windows Server(登録商標)、およびNovell(登録商標)NetWare(登録商標)を含むことを認識するであろう。当業者であれば、適切なパーソナルコンピュータオペレーティングシステムは、非限定的な例として、Microsoft(登録商標)Windows(登録商標)、Apple(登録商標)Mac OS X(登録商標)、UNIX(登録商標)、およびGNU/Linux(登録商標)などのUNIX系オペレーティングシステムを含むことを認識するであろう。様々な実施形態では、オペレーティングシステムは、クラウドコンピューティングによって提供される。当業者であれば、適切なモバイルスマートフォンのオペレーティングシステムは、非限定的な例として、Nokia(登録商標)Symbian(登録商標)OS、Apple(登録商標)iOS(登録商標)、Research In Motion(登録商標)Black-Berry OS(登録商標)、Google(登録商標)Android(登録商標)、Microsoft(登録商標)Windows Phone(登録商標)OS、Microsoft(登録商標)Windows Mobile(登録商標)OS、Linux(登録商標)、およびPalm(登録商標)WebOS(登録商標)を含むことも認識するであろう。
【0143】
様々な実施形態では、装置は、ストレージおよび/またはメモリ装置を含む。ストレージおよび/またはメモリ装置は、一時的または永続的にデータまたはプログラムを記憶するために使用される1つまたは複数の物理装置である。様々な実施形態では、装置は、揮発性メモリであり、記憶された情報を維持するために電力を必要とする。様々な実施形態では、装置は、不揮発性メモリであり、デジタル処理装置に電力が供給されていないときに記憶された情報を保持する。様々な実施形態では、不揮発性メモリは、フラッシュメモリを含む。様々な実施形態では、不揮発性メモリは、ダイナミックランダムアクセスメモリ(DRAM)を含む。様々な実施形態では、不揮発性メモリは、強誘電体ランダムアクセスメモリ(FRAM)を含む。様々な実施形態では、不揮発性メモリは、相変化ランダムアクセスメモリ(PRAM)を含む。様々な実施形態では、装置は、非限定的な例として、CD-ROM、DVD、フラッシュメモリ装置、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、およびクラウドコンピューティングベースのストレージを含む記憶装置である。様々な実施形態では、ストレージおよび/またはメモリ装置は、本明細書に開示されているものなどの装置の組み合わせである。
【0144】
様々な実施形態では、デジタル処理装置は、視覚情報をユーザに送信するためのディスプレイを含む。様々な実施形態では、ディスプレイは、陰極線管(CRT)である。様々な実施形態では、ディスプレイは、液晶ディスプレイ(LCD)である。様々な実施形態では、ディスプレイは、薄膜トランジスタ液晶ディスプレイ(TFT-LCD)である。様々な実施形態では、ディスプレイは、有機発光ダイオード(OLED)ディスプレイである。様々な実施形態では、OLEDディスプレイは、パッシブマトリクスOLED(PMOLED)またはアクティブマトリクスOLED(AMOLED)ディスプレイである。様々な実施形態では、ディスプレイは、プラズマディスプレイである。様々な実施形態では、ディスプレイは、ビデオプロジェクタである。様々な実施形態では、ディスプレイは、本明細書に開示されるような装置の組み合わせである。
【0145】
様々な実施形態では、デジタル処理装置は、ユーザから情報を受信するための入力装置を含む。様々な実施形態では、入力装置は、キーボードである。様々な実施形態では、入力装置は、非限定的な例として、マウス、トラックボール、トラックパッド、ジョイスティック、ゲームコントローラ、またはスタイラスを含むポインティング装置である。様々な実施形態では、入力装置は、タッチスクリーンまたはマルチタッチスクリーンである。様々な実施形態では、入力装置は、音声または他の音声入力を取り込むためのマイクロフォンである。様々な実施形態では、入力装置は、動きまたは視覚入力を取り込むためのビデオカメラまたは他のセンサである。様々な実施形態では、入力装置は、Kinect、Leap Motionなどである。様々な実施形態では、入力装置は、本明細書に開示されるような装置の組み合わせである。
【0146】
非一時的コンピュータ可読記憶媒体
様々な実施形態では、上述したように、本明細書において開示されるシステムおよび方法は、任意にネットワーク化されたデジタル処理装置のオペレーティングシステムによって実行可能な命令を含むプログラムによって符号化された1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得、本明細書の方法はその上で実行され得る。様々な実施形態では、コンピュータ可読記憶媒体は、デジタル処理装置の有形の構成要素である。様々な実施形態では、コンピュータ可読記憶媒体は、任意に、デジタル処理装置から取り外し可能である。様々な実施形態では、コンピュータ可読記憶媒体は、非限定的な例として、CD-ROM、DVD、フラッシュメモリ装置、ソリッドステートメモリ、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、クラウドコンピューティングシステムおよびサービスなどを含む。様々な実施形態では、プログラムおよび命令は、媒体上に永続的に、実質的に永続的に、半永久的に、または非一時的に符号化される。
【0147】
コンピュータプログラム
様々な実施形態では、本明細書に開示されるシステムおよび方法は、少なくとも1つのコンピュータプログラムを含むか、または少なくとも1つのコンピュータプログラムを使用することができる。コンピュータプログラムは、指定されたタスクを実行するように記述された、デジタル処理装置のCPUにおいて実行可能な一連の命令を含む。コンピュータ可読命令は、特定のタスクを実行する、または特定の抽象データ型を実装する、関数、オブジェクト、アプリケーションプログラミングインターフェース(API)、データ構造などのプログラムモジュールとして実装されてもよい。当業者は、コンピュータプログラムが様々な言語の様々なバージョンで記述され得ることを認識するであろう。
【0148】
コンピュータ可読命令の機能は、様々な環境において所望に応じて組み合わされ、または分散されてもよい。様々な実施形態では、コンピュータプログラムは、1つの命令シーケンスを含む。様々な実施形態では、コンピュータプログラムは、複数の命令シーケンスを含む。様々な実施形態では、コンピュータプログラムは、1つの場所から提供される。様々な実施形態では、コンピュータプログラムは、複数の場所から提供される。様々な実施形態では、コンピュータプログラムは、1つまたは複数のソフトウェアモジュールを含む。様々な実施形態では、コンピュータプログラムは、部分的または全体的に、1つまたは複数のウェブアプリケーション、1つまたは複数のモバイルアプリケーション、1つまたは複数のスタンドアロンアプリケーション、1つまたは複数のウェブブラウザプラグイン、拡張機能、アドイン、もしくはアドオン、またはそれらの組み合わせを含む。
【0149】
ウェブアプリケーション
様々な実施形態では、コンピュータプログラムは、ウェブアプリケーションを含む。当業者は、ウェブアプリケーションが、様々な実施形態において、1つまたは複数のソフトウェアフレームワークおよび1つまたは複数のデータベースシステムを利用することを認識するであろう。様々な実施形態では、ウェブアプリケーションは、Microsoft(登録商標).NETまたはRuby on Rails(RoR)などのソフトウェアフレームワーク上に作成される。様々な実施形態では、ウェブアプリケーションは、非限定的な例として、リレーショナル、非リレーショナル、オブジェクト指向、連想、およびXMLデータベースシステムを含む1つまたは複数のデータベースシステムを利用する。
【0150】
様々な実施形態では、適切なリレーショナルデータベースシステムは、非限定的な例として、Microsoft(登録商標)SQL Server、mySQL(商標)、およびOracle(登録商標)を含む。当業者はまた、ウェブアプリケーションが、様々な実施形態において、1つまたは複数の言語の1つまたは複数のバージョンで記述されていることを認識するであろう。ウェブアプリケーションは、1つまたは複数のマークアップ言語、プレゼンテーション定義言語、クライアントサイドスクリプト言語、サーバ側コーディング言語、データベース照会言語、またはそれらの組み合わせにおいて記述され得る。様々な実施形態では、ウェブアプリケーションは、ハイパーテキストマークアップ言語(HTML)、拡張可能ハイパーテキストマークアップ言語(XHTML)、または拡張可能マークアップ言語(XML)などのマークアップ言語である程度記述される。様々な実施形態では、ウェブアプリケーションは、カスケーディングスタイルシート(CSS)などのプレゼンテーション定義言語においてある程度記述される。
【0151】
様々な実施形態では、ウェブアプリケーションは、非同期JavascriptおよびXML(AJAX)、Flash(登録商標)アクションスクリプト、Javascript、またはSilverlight(登録商標)などのクライアント側スクリプト言語においてある程度記述される。様々な実施形態では、ウェブアプリケーションは、アクティブサーバページ(ASP)、ColdFusion(登録商標)、Perl、Java(商標)、JavaServer Page(JSP)、ハイパーテキストプリプロセッサ(PHP)、Python(商標)、Ruby、Tel、Smalltalk、WebDNA(登録商標)、またはGroovyなどのサーバ側コーディング言語である程度記述される。様々な実施形態では、ウェブアプリケーションは、構造化照会言語(SQL)などのデータベース照会言語である程度記述される。様々な実施形態では、ウェブアプリケーションは、IBM(登録商標)Lotus Domino(登録商標)などの企業サーバ製品を統合する。様々な実施形態では、ウェブアプリケーションは、メディアプレーヤ要素を含む。様々な実施形態では、メディアプレーヤ要素は、非限定的な例として、Adobe(登録商標)Flash(登録商標)、HTML 5、Apple(登録商標)QuickTime(登録商標)、Microsoft(登録商標)Silverlight(登録商標)、Java(商標)、およびUnity(登録商標)を含む多くの適切なマルチメディア技術のうちの1つまたは複数を利用する。
【0152】
モバイルアプリケーション
様々な実施形態では、コンピュータプログラムは、モバイルデジタル処理装置に提供されるモバイルアプリケーションを含む。様々な実施形態では、モバイルアプリケーションは、製造時にモバイルデジタル処理装置に提供される。様々な実施形態では、モバイルアプリケーションは、本明細書に記載のコンピュータネットワークを介してモバイルデジタル処理装置に提供される。
【0153】
モバイルアプリケーションは、当業者に知られているハードウェア、言語、および開発環境を使用して、当業者に知られている技術によって作成され得る。当業者は、モバイルアプリケーションがいくつかの言語で記述され得ることを認識するであろう。適切なプログラミング言語は、非限定的な例として、C、C++、C#、Objective-C、Java(商標)、JavaScript、Pascal、Object Pascal、Rust、Python(商標)、Ruby、VB.NET、WML、およびCSSを含むかもしくは含まないXHTML/HTML、またはそれらの組み合わせを含む。
【0154】
適切なモバイルアプリケーション開発環境は、いくつかのソースから入手可能である。市販の開発環境は、非限定的な例として、AirplaySDK、alcheMo、Appcelera-tor(登録商標)、Celsius、Bedrock、Flash Lite、NET Compact Frame work、Rhomobile、およびWorkLight Mobile Platformを含む。非限定的な例として、Lazarus、Mobi-Flex、MoSync、およびPhonegapを含む他の開発環境がコストなしで利用可能である。また、モバイル装置製造業者は、非限定的な例として、iPhoneおよびiPad(iOS)SDK、Android(商標)SDK、Blackberry(登録商標)SDK、BREW SDK、Palm(登録商標)OS SDK、Symbian SDK、webOS SDK、およびWindows(登録商標)Mobile SDKを含むソフトウェア開発者キットを配布する。
【0155】
当業者であれば、非限定的な例として、Apple(登録商標)App Store、Google(登録商標)Play、Chrome WebStore、BlackBerry(登録商標)App World、Palm装置用App Store、webOS用App Catalog、Windows(登録商標)Marketplace for Mobile、Nokia(登録商標)装置用Ovi Store、Samsung(登録商標)App、およびNin-tendo DSi Shopを含むいくつかの商用フォーラムが、モバイルアプリケーションの配布に利用可能であることを認識するであろう。
【0156】
スタンドアロンアプリケーション
様々な実施形態では、コンピュータプログラムは、独立したコンピュータプロセスとして実行されるプログラムであり、例えばプラグインではない既存のプロセスへのアドオンではないスタンドアロンアプリケーションを含む。当業者は、スタンドアロンアプリケーションがしばしばコンパイルされることを認識するであろう。コンパイラは、プログラミング言語で記述されたソースコードを、アセンブリ言語または機械語などのバイナリオブジェクトコードに変換するコンピュータプログラムである。適切なコンパイル済みプログラミング言語は、非限定的な例として、Rust、C、C++、Objective-C、COBOL、Delphi、Eiffel、Java(商標)、Lisp、Python(商標)、Visual Basic、およびVB.NET、またはそれらの組み合わせを含む。コンパイルは、実行可能なプログラムを作成するために、少なくとも部分的に、形成されることが多い。様々な実施形態では、コンピュータプログラムは、1つまたは複数の実行可能なコンパイルされたアプリケーションを含む。
【0157】
ウェブブラウザプラグイン
様々な実施形態では、コンピュータプログラムは、ウェブブラウザプラグイン(例えば、拡張など)を含む。コンピューティングにおいて、プラグインは、より大きなソフトウェアアプリケーションに特定の機能を追加する1つまたは複数のソフトウェアコンポーネントである。ソフトウェアアプリケーションのメーカは、プラグインをサポートして、サードパーティ開発者がアプリケーションを拡張する能力を作成し、容易に新たな機能を追加することをサポートし、アプリケーションのサイズを縮小することを可能にする。サポートされている場合、プラグインは、ソフトウェアアプリケーションの機能をカスタマイズすることを可能にする。例えば、プラグインは、ビデオを再生し、対話性を生成し、ウイルスをスキャンし、特定のファイルタイプを表示するためにウェブブラウザにおいて一般的に使用されている。当業者は、Adobe(登録商標)Flash(登録商標)Player、Microsoft(登録商標)Silver-light(登録商標)、およびApple(登録商標)QuickTime(登録商標)を含むいくつかのウェブブラウザプラグインに精通している。様々な実施形態では、ツールバーは、1つまたは複数のウェブブラウザ拡張機能、アドイン、またはアドオンを含む。様々な実施形態では、ツールバーは、1つまたは複数の探索バー、ツールバンド、またはデスクバンドを含む。
【0158】
当業者は、非限定的な例として、C++、Delphi、Java(商標)、PHP、Python(商標)、およびVB.NET、またはそれらの組み合わせを含む、様々なプログラミング言語でのプラグインの開発を可能にするいくつかのプラグインフレームワークが利用可能であることを認識するであろう。
【0159】
ウェブブラウザ(インターネットブラウザとも呼ばれる)は、ワールドワイドウェブ上の情報リソースを検索、提示、および横断するために、ネットワーク接続デジタル処理装置によって使用するように設計されたソフトウェアアプリケーションである。適切なウェブブラウザは、非限定的な例として、Microsoft(登録商標)Internet Explorer(登録商標)、Mozilla(登録商標)Fire fox(登録商標)、Google(登録商標)Chrome、Apple(登録商標)Safari(登録商標)、Opera Soft ware(登録商標)Opera(登録商標)、およびKDE Konquerorを含む。様々な実施形態では、ウェブブラウザは、モバイルウェブブラウザである。モバイルウェブブラウザ(マイクロブラウザ、ミニ-ブラウザ、およびワイヤレスブラウザとも呼ばれる)は、非限定的な例として、ハンドヘルドコンピュータ、タブレットコンピュータ、ネットブックコンピュータ、サブノートブックコンピュータ、スマートフォン、および携帯情報端末(PDA)を含むモバイルデジタル処理装置で使用するために設計されている。適切なモバイルウェブブラウザの例は、これらに限定されるわけではないが、Google(登録商標)Android(登録商標)ブラウザ、RIM BlackBerry(登録商標)ブラウザ、Apple(登録商標)Safari(登録商標)、Palm(登録商標)Blazer、Palm(登録商標)WebOS(登録商標)ブラウザ、Mozilla(登録商標)Firefox(登録商標)for mobile、Microsoft(登録商標)Internet Explorer(登録商標)Mobile、Amazon(登録商標)Kindle(登録商標)Basic Web、Nokia(登録商標)ブラウザ、Opera Software(登録商標)Opera(登録商標)Mobile、およびSony PSP(商標)ブラウザを含む。
【0160】
ソフトウェアモジュール
様々な実施形態では、本明細書に開示されるシステムおよび方法は、ソフトウェア、サーバおよび/またはデータベースモジュールを含むか、または本明細書に開示される様々な実施形態にかかる方法にそれらの使用を組み込む。ソフトウェアモジュールは、当業者に知られている機械、ソフトウェア、および言語を使用して、当業者に知られている技術によって作成され得る。本明細書において開示されるソフトウェアモジュールは、多数の方法で実装される。様々な実施形態では、ソフトウェアモジュールは、ファイル、コードセクション、プログラミングオブジェクト、プログラミング構造、またはそれらの組み合わせを含む。さらに様々な実施形態では、ソフトウェアモジュールは、複数のファイル、複数のコードセクション、複数のプログラミングオブジェクト、複数のプログラミング構造、またはそれらの組み合わせを含む。様々な実施形態では、1つまたは複数のソフトウェアモジュールは、非限定的な例として、ウェブアプリケーション、モバイルアプリケーション、およびスタンドアロンアプリケーションを含む。様々な実施形態では、ソフトウェアモジュールは、1つのコンピュータプログラムまたはアプリケーション内にある。様々な実施形態では、ソフトウェアモジュールは、2つ以上のコンピュータプログラムまたはアプリケーションにある。様々な実施形態では、ソフトウェアモジュールは、1つのマシン上でホストされる。様々な実施形態では、ソフトウェアモジュールは、2つ以上のマシン上でホストされる。様々な実施形態では、ソフトウェアモジュールは、クラウドコンピューティングプラットフォーム上でホストされる。様々な実施形態では、ソフトウェアモジュールは、1つの場所の1つまたは複数のマシン上でホストされる。様々な実施形態では、ソフトウェアモジュールは、2つ以上の場所の1つまたは複数のマシン上でホストされる。
【0161】
データベース
様々な実施形態では、本明細書に開示されるシステムおよび方法は、1つまたは複数のデータベースを含むか、または本明細書に開示される様々な実施形態にかかる方法におけるその使用を組み込む。当業者は、多くのデータベースがユーザ、クエリ、トークン、および結果情報の記憶および取得に適していることを認識するであろう。様々な実施形態では、適切なデータベースは、非限定的な例として、リレーショナルデータベース、非リレーショナルデータベース、オブジェクト指向データベース、オブジェクトデータベース、エンティティ-リレーションシップモデルデータベース、連想データベース、およびXMLデータベースを含む。さらなる非限定的な例は、SQL、Postgr-eSQL、MySQL、Oracle、DB2、およびSybaseを含む。様々な実施形態では、データベースは、インターネットベースである。さらなるウェブにおいて、適切なウェブブラウザは、非限定的な例として、Microsoft(登録商標)Internet Explorer(登録商標)、Mozilla(登録商標)Fire fox(登録商標)、Google(登録商標)Chrome、Apple(登録商標)Safari(登録商標)、Opera Soft ware(登録商標)Opera(登録商標)、およびKDE Konquerorを含む。様々な実施形態では、ウェブブラウザは、モバイルウェブブラウザである。モバイルウェブブラウザ(マイクロブラウザ、ミニ-ブラウザ、およびワイヤレスブラウザとも呼ばれる)は、非限定的な例として、ハンドヘルドコンピュータ、タブレットコンピュータ、ネットブックコンピュータ、サブノートブックコンピュータ、スマートフォン、および携帯情報端末(PDA)を含むモバイルデジタル処理装置で使用するために設計されている。適切なモバイルウェブブラウザの例は、これらに限定されるわけではないが、Google(登録商標)Android(登録商標)ブラウザ、RIM BlackBerry(登録商標)ブラウザ、Apple(登録商標)Safari(登録商標)、Palm(登録商標)Blazer、Palm(登録商標)WebOS(登録商標)ブラウザ、Mozilla(登録商標)Firefox(登録商標)for mobile、Microsoft(登録商標)Internet Explorer(登録商標)Mobile、Amazon(登録商標)Kindle(登録商標)Basic Web、Nokia(登録商標)ブラウザ、Opera Software(登録商標)Opera(登録商標)Mobile、およびSony PSP(商標)ブラウザを含む。
【0162】
様々な実施形態では、データベースは、ウェブベースである。様々な実施形態では、データベースは、クラウドコンピューティングベースである。他の実施形態では、データベースは、1つまたは複数のローカルコンピュータ記憶装置に基づく。
【0163】
データセキュリティ
様々な実施形態では、本明細書に開示されるシステムおよび方法は、不正アクセスを防止するための1つまたは複数の特徴を含む。セキュリティ手段は、例えば、ユーザのデータを保護することができる。様々な実施形態では、データは暗号化される。様々な実施形態では、システムへのアクセスは、多要素認証およびアクセス制御層を必要とする。様々な実施形態では、システムへのアクセスは、2段階認証(例えば、ウェブベースのインターフェース)を必要とする。様々な実施形態では、2ステップ認証は、ユーザに、ユーザ名およびパスワードに加えて、ユーザの電子メールまたは携帯電話に送信されたアクセスコードを入力することを要求する。様々な事例では、ユーザは、適切なユーザ名およびパスワードの入力に失敗した後、アカウントからロックアウトされる。本明細書に開示されるシステムおよび方法はまた、様々な実施形態において、ユーザのゲノムおよび任意のゲノムにわたるユーザの検索の匿名性を保護するための機構を含みうる。
【0164】
本教示は、様々な実施形態に関連して説明されているが、本教示がそのような実施形態に限定されることは意図されていない。逆に、本教示は、当業者によって理解されるように、様々な代替、変更、および均等物を包含する。
【0165】
様々な実施形態を説明する際に、本明細書は、特定の一連のステップとして方法および/またはプロセスを提示している場合がある。しかしながら、方法またはプロセスが本明細書に記載の特定の順序のステップに依存しない限り、方法またはプロセスは、記載の特定の順序のステップに限定されるべきではない。当業者が理解するように、他の一連のステップが可能であり得る。したがって、本明細書に記載されたステップの特定の順序は、特許請求の範囲に対する限定として解釈されるべきではない。さらに、方法および/またはプロセスに関する特許請求の範囲は、記載された順序でそれらのステップを実行することに限定されるべきではなく、当業者は、配列が変更されてもよく、依然として様々な実施形態の趣旨および範囲内にあることを容易に理解することができる。
【0166】
実施形態の記載
実施形態1:、a)予測子のセットと、第1の治療用タンパク質試料のセットから取得された予測子のセットに関連付けられた対応する測定された機能的応答とに関連する第1の入力データと、b)予測子のセットと、機能的応答の予測のための第2の治療用タンパク質試料のセットとに関する第2の入力データと、を含み、予測子のセットが、所定の基準に基づいて治療用タンパク質の関連する生物物理学的属性の組み合わせとして選択された、入力データを受信することと、第1の入力データを用いて機械学習モデルを訓練することと、機械学習モデルおよび予測子のセットを使用して、第2の入力データに基づいて第2の治療用タンパク質試料のセットの機能的応答を予測することと、予測された機能的応答を含む出力を返すことと、を含む、方法。
【0167】
実施形態2:治療用タンパク質試料が抗体試料であり、機能的応答が、抗体依存性細胞媒介性細胞傷害(ADCC)応答、補体依存性細胞傷害(CDC)応答、Fcガンマ受容体(FcyR)結合または補体C1q結合であり、治療用タンパク質の関連する生物物理学的属性が、抗体のアフコシル化度および抗体の1つまたは複数のさらなるグリコシル化属性を含む、実施形態1に記載の方法。
【0168】
実施形態3:抗体の1つまたは複数のさらなるグリコシル化属性が、ガラクトシル化、シアリル化、グリカン鎖長、グリカン構成要素タイプ、およびN-グリカン鎖を欠く抗体の形態、またはそれらの任意の組み合わせを含む、実施形態2に記載の方法。
【0169】
実施形態4:抗体の1つまたは複数のさらなるグリコシル化属性が、抗体の2つのグリコシル化属性を含む、実施形態2または3に記載の方法。
【0170】
実施形態5:抗体の1つまたは複数のさらなるグリコシル化属性が、抗体のガラクトシル化およびシアリル化を含む、実施形態2から4のいずれか1つに記載の方法。
【0171】
実施形態6:抗体試料がモノクローナル抗体試料を含む、実施形態2から5のいずれか1つに記載の方法。
【0172】
実施形態7:機械学習モデルを訓練することが、治療用タンパク質の関連する生物物理学的属性の複数の組み合わせから予測子のセットを選択することを含む、実施形態1から6のいずれか1つに記載の方法。
【0173】
実施形態8:予測子のセットを選択することが、繰り返しのランダムサブサンプリング検証を含む、実施形態7に記載の方法。
【0174】
実施形態9:予測子のセットを選択することが、第1の入力データの所定の分割を使用する交差検証を含む、実施形態7または8に記載の方法。
【0175】
実施形態10:機械学習モデルを訓練することが、機械学習モデルが第1の入力データおよび予測子のセットを使用して所定の閾値を満たすモデル性能を有すると決定された場合、機械学習モデルを選択することを含む、実施形態1から9のいずれか1つに記載の方法。
【0176】
実施形態11:予測された機能的応答に基づいて、第2の治療用タンパク質試料のセットから治療候補を選択することをさらに含む、実施形態1から11のいずれか1つに記載の方法。
【0177】
実施形態12:治療候補の治療有効性を検証することをさらに含む、実施形態11のいずれか1つに記載の方法。
【0178】
実施形態13:治療候補を含む治療組成物を開発することをさらに含む、実施形態11または12のいずれか1つに記載の方法。
【0179】
実施形態14:機械学習モデルが、部分最小二乗、ランダムフォレスト、サポートベクターマシン、ナイーブベイズ、KNN、一般化加法モデル、ロジスティック回帰、勾配ブースティング、またはLassoに基づくモデルである、実施形態1から13のいずれか1つに記載の方法。
【0180】
実施形態15:機械学習モデルが、部分最小二乗、ランダムフォレスト、またはサポートベクターマシンに基づくモデルである、実施形態1から14のいずれか1つに記載の方法。
【0181】
実施形態16:1つまたは複数のデータセットを取得するためのデータソースであって、1つまたは複数のデータセットが、a)予測子のセットと、第1の治療用タンパク質試料のセットから取得された予測子のセットに関連付けられた対応する測定された機能的応答とに関連する第1の入力データと、b)予測子のセットと、機能的応答の予測のための第2の治療用タンパク質試料のセットとに関する第2の入力データと、を含み、予測子のセットが、所定の基準に基づいて治療用タンパク質の関連する生物物理学的属性の組み合わせとして選択された、データソースと、データソースに通信可能に接続され、データセットを受信するように構成されたコンピューティング装置であって、コンピューティング装置が、命令を含む非一時的コンピュータ可読記憶媒体であって、命令が、1つまたは複数のデータプロセッサ上で実行されると、1つまたは複数のデータプロセッサに、第1の入力データを用いて機械学習モデルを訓練することと、機械学習モデルおよび予測子のセットを使用して、第2の入力データに基づいて第2の治療用タンパク質試料のセットの機能的応答を予測することと、予測された機能的応答を含む出力を返すことと、を含む、方法を実行させる、非一時的コンピュータ可読記憶媒体を備えるコンピューティング装置と、を備える、システム。
【0182】
実施形態17:前記治療用タンパク質試料が抗体試料であり、前記機能的応答が、抗体依存性細胞媒介性細胞傷害(ADCC)応答、補体依存性細胞傷害(CDC)応答、Fcガンマ受容体(FcyR)結合または補体C1q結合であり、前記治療用タンパク質の関連する生物物理学的属性が、抗体のアフコシル化度および抗体の1つまたは複数のグリコシル化属性を含む、実施形態16に記載のシステム。
【0183】
実施形態18:機械学習モデルを訓練することが、治療用タンパク質の関連する生物物理学的属性の複数の組み合わせから予測子のセットを選択することを含む、実施形態16または17に記載のシステム。
【0184】
実施形態19:予測子のセットを選択することが、繰り返しのランダムサブサンプリング検証を含む、実施形態18に記載のシステム。
【0185】
実施形態20:予測子のセットを選択することが、第1の入力データの所定の分割を使用する交差検証を含む、実施形態18または19に記載のシステム。
【0186】
実施形態21:機械学習モデルを訓練することが、機械学習モデルが第1の入力データおよび予測子のセットを使用して所定の閾値を満たすモデル性能を有すると決定された場合、機械学習モデルを選択することを含む、実施形態16から20のいずれか1つに記載のシステム。
【0187】
実施形態22:第1の治療用タンパク質試料のセットまたは第2の治療用タンパク質試料のセットが抗体試料を含む、実施形態16から21のいずれか1つに記載のシステム。
【0188】
実施形態23:方法が、予測された機能的応答に基づいて、第2の治療用タンパク質試料のセットから治療候補を選択することをさらに含む、実施形態16から22のいずれか1つに記載のシステム。
【0189】
実施形態24:機械学習モデルが、部分最小二乗、ランダムフォレスト、またはサポートベクターマシンに基づくモデルである、実施形態16から23のいずれか1つに記載のシステム。
【0190】
実施形態25:1つまたは複数のデータプロセッサに、単一細胞データセットに基づいて関心のある細胞を選択するための方法を実行させるように構成された命令を含む、非一時的機械可読記憶媒体に有形に具現化されたコンピュータプログラム製品であって、方法が、入力データを受信することであって、前記入力データが、a)予測子のセットと、第1の治療用タンパク質試料のセットから取得された予測子のセットに関連付けられた対応する測定された機能的応答とに関連する第1の入力データと、b)予測子のセットと、機能的応答の予測のための第2の治療用タンパク質試料のセットとに関する第2の入力データと、を含み、予測子のセットが、所定の基準に基づいて治療用タンパク質の関連する生物物理属性の組み合わせとして選択された、入力データを受信することと、第1の入力データを用いて機械学習モデルを訓練することと、機械学習モデルおよび予測子のセットを使用して、第2の入力データに基づいて第2の治療用タンパク質試料のセットの機能的応答を予測することと、予測された機能的応答を含む出力を返すことと、を含む、コンピュータプログラム製品。
【0191】
実施形態26:治療用タンパク質試料が抗体試料であり、機能的応答が、抗体依存性細胞媒介性細胞傷害(ADCC)応答、補体依存性細胞傷害(CDC)応答、Fcガンマ受容体(FcyR)結合または補体C1q結合であり、治療用タンパク質の関連する生物物理学的属性が、抗体のアフコシル化度および抗体の1つまたは複数のグリコシル化属性を含む、実施形態25に記載のコンピュータプログラム製品。
【0192】
実施形態27:機械学習モデルを訓練することが、治療用タンパク質の関連する生物物理学的属性の複数の組み合わせから予測子のセットを選択することを含む、実施形態25または26に記載のコンピュータプログラム製品。
【0193】
実施形態28:予測子のセットを選択することが、繰り返しのランダムサブサンプリング検証を含む、実施形態27に記載のコンピュータプログラム製品。
【0194】
実施形態29:予測子のセットを選択することが、第1の入力データの所定の分割を使用する交差検証を含む、実施形態27または28に記載のコンピュータプログラム製品。
【0195】
実施形態30:機械学習モデルを訓練することが、機械学習モデルが第1の入力データおよび予測子のセットを使用して所定の閾値を満たすモデル性能を有すると決定された場合、機械学習モデルを選択することを含む、実施形態25から29のいずれか1つに記載のコンピュータプログラム製品。
【0196】
実施形態31:第1の治療用タンパク質試料のセットまたは第2の治療用タンパク質試料のセットが抗体試料を含む、実施形態25から30のいずれか1つに記載のコンピュータプログラム製品。
【0197】
実施形態32:方法が、予測された機能的応答に基づいて、第2の治療用タンパク質試料のセットから治療候補を選択することをさらに含む、実施形態25から31のいずれか1つに記載のコンピュータプログラム製品。
【0198】
実施形態33:機械学習モデルが、部分最小二乗、ランダムフォレスト、またはサポートベクターマシンに基づくモデルである、実施形態25から32のいずれか一項に記載のコンピュータプログラム製品。
【国際調査報告】