IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アディマブ, エルエルシーの特許一覧

特表2024-542017抗体ライブラリーのインテリジェント構築のためのシステム及び方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-13
(54)【発明の名称】抗体ライブラリーのインテリジェント構築のためのシステム及び方法
(51)【国際特許分類】
   G16B 40/20 20190101AFI20241106BHJP
   G16B 35/10 20190101ALI20241106BHJP
【FI】
G16B40/20
G16B35/10
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024525610
(86)(22)【出願日】2022-10-26
(85)【翻訳文提出日】2024-04-30
(86)【国際出願番号】 US2022047888
(87)【国際公開番号】W WO2023076390
(87)【国際公開日】2023-05-04
(31)【優先権主張番号】63/274,394
(32)【優先日】2021-11-01
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】513010789
【氏名又は名称】アディマブ, エルエルシー
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ジェイン, トゥーシャー
(72)【発明者】
【氏名】バスケス, マキシミリアーノ
(72)【発明者】
【氏名】バーロウ, カイル アンドリュー
(57)【要約】
ライブラリーに含めるための配列選択を知らせる機械学習を用いて抗体ライブラリーを構築するためのシステム及び方法をここに示す。この技術は、(i)配列から生物物理学的特性及び生化学的特性を予測する機械学習モデル及び統計モデルの訓練及び使用と、(ii)配列から開発可能性を予測しかつ新規な配列を生成するための機械学習モデルの訓練及び使用と、を含む。特定の実施形態において、システム及び方法は、指定された配列及び/または長さの多様性を有するライブラリーを個別に設計することによって、抗体(及び/または抗体をコードするポリヌクレオチド)のライブラリーを生成する。得られるライブラリーは、例えば、治療薬の開発において有用である。
【特許請求の範囲】
【請求項1】
抗体ライブラリーを構築する(例えば、設計する)ためのシステムであって、
コンピューティングデバイスのプロセッサと、
命令が格納されたメモリと、を備え、
前記命令は、前記プロセッサによって実行されるとき、前記プロセッサに、以下の(i)、(ii)、(iii)、(iv)、(v)、(vi)、及び(vii)すなわち
(i)入力配列及び特徴付けデータを使用して第1の機械学習モデルを開発する(例えば、訓練する)こと(例えば、(a)個々の相補性決定領域(CDR)及び/またはフレームワーク領域(FR)の多特異性及び疎水性を予測するよう、アミノ酸係数を導出するロジスティック回帰モデルを訓練すること、及び/または、(b)1つ以上の生物物理学的特性及び/または1つ以上の化学的安定特性を配列から予測するよう、樹木モデル(例えば、ランダムフォレストまたはXGBoost)を訓練すること、及び/または、(c)1つ以上の生物物理学的特性及び/または1つ以上の化学的安定特性を配列から予測するよう、ニューラルネットワークを含む深層学習モデルを訓練すること(例えば、前記モデルは、入力層、複数の中間特徴抽出層、及び最終出力層を含む)、及び/または、(d)低バイアスの配列を選択するよう、バイアスを評価する統計モデルを作成すること、及び/または、(e)特定の位置及び領域(例えば、H1、H2、H3、L1、L2、L3、HFR、LFR)における配列モチーフの関数として化学修飾のリスクを予測するよう、階層的統計を開発すること)、
(ii)(i)における前記第1の機械学習モデルを使用して、望ましいセグメント(例えば、好ましい予測発現エンリッチメントのセグメント)を予測し、新規の及び/または予め生成されたセグメントのプールからのセグメントの選択を可能にすること、
(iii)(i)における前記第1の機械学習モデルを訓練する際の選択及び/または使用の前に、一連の入力配列を処理することであって、(a)前記配列を改変することによってケミカルライアビリティサイトを除去すること、(b)CDR H3について、前記配列をセグメントに分割してVDJ組換えを模倣すること、(c)CDR L3について、前記配列をセグメントに分割してVJ組換えを模倣すること、及び(d)V-領域及びCDR(H1、H2、L3)に、生殖細胞系列からの変異の数で注釈を付すことのうちの1つ以上を含む、前記一連の入力配列を前記処理すること、
(iv)生物物理学的特性及び/または生化学的特性の予測のための機械学習モデルを訓練すること(例えば、好ましい生物物理学的特性(例えば、低い多特異性、低い疎水性、及び/または高発現)についてソートされた一連の入力配列に関するデータを使用すること)、
(v)(iv)における生物物理学的特性及び/または生化学的特性の予測のための前記機械学習モデルを使用して、配列から1つ以上の生物物理学的特性及び/または生化学的特性(例えば、多特異性、疎水性、融解温度、SECモノマー百分率、保持時間、化学的安定性データ、及び/または配列のエンリッチメントまたはディプリーションの尺度)を予測すること、
(vi)異なる種に対する特定の生殖細胞系列について対象の配列にわたってジョイント配列確率分布を学習するよう、自己回帰深層学習ニューラルネットワークモデルを開発(例えば、訓練)すること、及び
(vii)(vi)における前記ニューラルネットワークモデルを使用して、入力された一連の配列から配列の組成及び/または相関を取り込み、合成ライブラリーにおいて考慮するための新規な配列またはセグメントを生成すること、のうちの1つ以上を実行させる、前記システム。
【請求項2】
抗体ライブラリーを構築するためのシステムであって、
コンピューティングデバイスのプロセッサと、
命令が格納されたメモリと、を備え、
前記命令は、前記プロセッサによって実行されるとき、前記プロセッサに、1つ以上の機械学習モデルにより一連の入力配列を処理させて、最終的な抗体ライブラリー配列のコレクションを生成させる、前記システム。
【請求項3】
前記命令は、前記プロセッサに、(i)前記一連の入力配列からの各入力配列を処理させ、さらに(ii)前記入力配列の各々について、第1のモデル(例えば、グラフ畳み込みネットワーク(GCN))によって予測されるような、前記配列の1つ以上の構造的に重要な特性の残基当たりの予測を処理させ、前記命令は、前記プロセッサに、(i)及び(ii)を第2のモデルにおける入力として処理させて、前記第2のモデルの出力として、(iii)1つ以上の生物物理学的特性(例えば、疎水性相互作用クロマトグラフィーの保持時間(HIC RT)及び/または多特異性試薬(PSR)スコア及び/またはPSR結合カテゴリ)及び/または(iv)1つ以上の化学的安定特性(例えば、Asn脱アミド、Asp異性化、及び/またはMet酸化)を、前記入力配列の各々について予測させ、ここで、各配列を前記最終的な抗体ライブラリーに含めることまたは前記最終的な抗体ライブラリーから排除することは、前記第2のモデルの出力に少なくとも部分的に基づく、請求項2に記載のシステム。
【請求項4】
前記第1のモデルにより予測される前記残基当たりの予測は、(i)溶媒露出度(SASA)の尺度、(ii)電荷パッチの尺度、(iii)疎水性パッチの尺度、及び(iv)Cα/Cβ座標予測からなる群から選択される1つ以上を含む、請求項3に記載のシステム。
【請求項5】
前記第2のモデルは、ディープコンボリューション及び/または再帰型ネットワーク(例えば、生物物理学的特性の予測のための)を含む、請求項3または4に記載のシステム。
【請求項6】
前記第2のモデルは、ツリーに基づく分類モデル(例えば、化学的安定性の予測のための)を含む、請求項3~5のいずれか1項に記載のシステム。
【請求項7】
抗体ライブラリーを構築する(例えば、設計する)ための方法であって、
コンピューティングデバイスのプロセッサを用いて以下の(i)、(ii)、(iii)、(iv)、(v)、(vi)、及び(vii)すなわち
(i)入力配列及び特徴付けデータを使用して第1の機械学習モデルを開発する(例えば、訓練する)こと[(例えば、(a)個々の相補性決定領域(CDR)及び/またはフレームワーク領域(FR)の多特異性及び疎水性を予測するよう、アミノ酸係数を導出するロジスティック回帰モデルを訓練すること、及び/または、(b)1つ以上の生物物理学的特性及び/または1つ以上の化学的安定特性を配列から予測するよう、樹木モデル(例えば、ランダムフォレストまたはXGBoost)を訓練すること、及び/または、(c)1つ以上の生物物理学的特性及び/または1つ以上の化学的安定特性を配列から予測するよう、ニューラルネットワークを含む深層学習モデルを訓練すること(例えば、前記モデルは、入力層、複数の中間特徴抽出層、及び最終出力層を含む)、及び/または、(d)低バイアスの配列を選択するよう、バイアスを評価する統計モデルを作成すること、及び/または、(e)特定の位置及び領域(例えば、H1、H2、H3、L1、L2、L3、HFR、LFR)]における配列モチーフの関数として化学修飾のリスクを予測するよう、階層的統計を開発すること)、
(ii)(i)における前記第1の機械学習モデルを使用して、望ましいセグメント(例えば、好ましい予測発現エンリッチメントのセグメント)を予測し、新規の及び/または予め生成されたセグメントのプールからのセグメントの選択を可能にすること、
(iii)(i)における前記第1の機械学習モデルを訓練する際の選択及び/または使用の前に、一連の入力配列を処理することであって、(a)前記配列を改変することによってケミカルライアビリティサイトを除去すること、(b)CDR H3について、前記配列をセグメントに分割してVDJ組換えを模倣すること、(c)CDR L3について、前記配列をセグメントに分割してVJ組換えを模倣すること、及び(d)V-領域及びCDR(H1、H2、L3)に、生殖細胞系列からの変異の数で注釈を付すことのうちの1つ以上を含む、前記前記一連の入力配列を前記処理すること、
(iv)生物物理学的特性及び/または生化学的特性の予測のための機械学習モデルを訓練すること(例えば、好ましい生物物理学的特性(例えば、低い多特異性、低い疎水性、及び/または高発現)についてソートされた一連の入力配列に関するデータを使用すること)、
(v)(iv)における生物物理学的特性及び/または生化学的特性の予測のための前記機械学習モデルを使用して、配列から1つ以上の生物物理学的特性及び/または生化学的特性(例えば、多特異性、疎水性、融解温度、SECモノマー百分率、保持時間、化学的安定性データ、及び/または配列のエンリッチメントまたはディプリーションの尺度)を予測すること、
(vi)異なる種に対する特定の生殖細胞系列について対象の配列にわたってジョイント配列確率分布を学習するよう、自己回帰深層学習ニューラルネットワークモデルを開発(例えば、訓練)すること、及び
(vii)(vi)における前記ニューラルネットワークモデルを使用して、入力された一連の配列から配列の組成及び/または相関を取り込み、合成ライブラリーにおいて考慮するための新規な配列またはセグメントを生成すること、のうちの1つ以上を実行する、前記方法。
【請求項8】
抗体ライブラリーを構築する(例えば、設計する)ための方法であって、
1つ以上の機械学習モデルを用いて、コンピューティングデバイスのプロセッサにより一連の入力配列を処理して、最終的な抗体ライブラリー配列のコレクションを生成することを含む、前記方法。
【請求項9】
(i)前記一連の入力配列からの各入力配列を、第2のモデルにおける入力として処理することを含み、さらに(ii)前記入力配列の各々について、第1のモデル(例えば、グラフ畳み込みネットワーク(GCN))によって予測されるような、前記配列の1つ以上の構造的に重要な特性の残基当たりの予測を処理し、前記第2のモデルの出力として、(iii)1つ以上の生物物理学的特性(例えば、疎水性相互作用クロマトグラフィーの保持時間(HIC RT)及び/または多特異性試薬(PSR)スコア及び/またはPSR結合カテゴリ)及び/または(iv)1つ以上の化学的安定特性(例えば、Asn脱アミド、Asp異性化、及び/またはMet酸化)を、前記入力配列の各々について予測することを含み、ここで、各配列を前記最終的な抗体ライブラリーに含めることまたは前記最終的な抗体ライブラリーから排除することは、前記第2のモデルの出力に少なくとも部分的に基づく、請求項8に記載の方法。
【請求項10】
前記第1のモデルにより予測される前記残基当たりの予測は、(i)溶媒露出度(SASA)の尺度、(ii)電荷パッチの尺度、(iii)疎水性パッチの尺度、及び(iv)Cα/Cβ座標予測からなる群から選択される1つ以上を含む、請求項9に記載の方法。
【請求項11】
前記第2のモデルは、ディープコンボリューション及び/または再帰型ネットワーク(例えば、生物物理学的特性の予測のための)を含む、請求項9または10に記載の方法。
【請求項12】
前記第2のモデルは、ツリーに基づく分類モデル(例えば、化学的安定性の予測のための)を含む、請求項9~11のいずれか1項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年11月1日に出願の米国仮特許出願第63/274,394号の優先権及び利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
【背景技術】
【0002】
抗体は、研究用ツールとしてかつ診断及び治療用途において非常に重要である。しかしながら、有用な抗体の特定は困難であり、しかも一旦特定されても、抗体は、ヒトの治療用途に適するものとなるには、多くの場合、相当な再設計を必要とする。
【0003】
従って、非免疫原性(例えば、よりヒト)であり、望ましい特性(例えば、広範な抗原を認識する能力など)を有する候補抗体を系統的に示している、方向性を持った多様性がある、より小さな抗体(すなわち、合成可能で物理的に実現可能な抗体)のライブラリーが必要とされている。このようなライブラリーを得るには、広範な種々の抗原を認識するのに十分な多様性のレベルを維持しながら、ライブラリーに示される配列の多様性を制限していく(例えば、合成及び物理的な実現を可能にするために、オーバーサンプリングの可能性がある一方、非ヒト配列の導入を制限していく)という相反する目的のバランスを取ることが必要になる。
【0004】
従って、(a)容易に合成することができ、(b)物理的に実現することができ、そしてある場合には、オーバーサンプリングすることができ、(c)免疫前(すなわち、ネガティブ選択前)のヒトレパートリーによって認識される全ての抗原を認識するのに十分な多様性を有し、(d)ヒトにおいて非免疫原性であり(すなわち、ヒト起源の配列を含み)、かつ/または(e)天然に存在するヒト抗体を代表するCDR長及び配列多様性、ならびにフレームワーク多様性を有する、抗体で占められている抗体ライブラリーを構築する方法が必要である。
【発明の概要】
【課題を解決するための手段】
【0005】
ライブラリーに含めるための配列選択を知らせる機械学習を用いて抗体ライブラリーを構築するためのシステム及び方法を本明細書に示す。この技術は、(i)配列から生物物理学的特性及び生化学的特性を予測する機械学習モデル及び統計モデルの訓練及び使用と、(ii)配列から開発可能性を予測しかつ新規な配列を生成するための機械学習モデルの訓練及び使用と、を含む。特定の実施形態において、システム及び方法は、指定された配列及び/または長さの多様性を有するライブラリーを個別に設計することによって、抗体(及び/または抗体をコードするポリヌクレオチド)のライブラリーを生成する。得られるライブラリーは、例えば、治療薬の開発において有用である。
【0006】
一態様において、本発明は、抗体ライブラリーを構築する(例えば、設計する)ためのシステムに関する。該システムは、コンピューティングデバイスのプロセッサと、命令が格納されたメモリと、を備え、該命令は、該プロセッサによって実行されると、該プロセッサに以下の(i)、(ii)、(iii)、(iv)、(v)、(vi)、及び(vii)のうちの1つ以上を実行させる。(i)入力配列及び特徴付けデータを使用して第1の機械学習モデルを開発する(例えば、訓練する)(例えば、(a)個々の相補性決定領域(CDR)及び/またはフレームワーク領域(FR)の多特異性及び疎水性を予測するよう、アミノ酸係数を導出するロジスティック回帰モデルを訓練し、かつ/または、(b)1つ以上の生物物理学的特性及び/または1つ以上の化学的安定特性を配列から予測するよう、樹木モデル(例えば、ランダムフォレストまたはXGBoost)を訓練し、かつ/または、(c)1つ以上の生物物理学的特性及び/または1つ以上の化学的安定特性を配列から予測するよう、ニューラルネットワークを含む深層学習モデルを訓練し(例えば、モデルは、入力層、複数の中間特徴抽出層、及び最終出力層を含む)、かつ/または、(d)低バイアスの配列を選択するよう、バイアスを評価する統計モデルを作成し、かつ/または、(e)特定の位置及び領域(例えば、H1、H2、H3、L1、L2、L3、HFR、LFR)における配列モチーフの関数として化学修飾のリスクを予測するよう、階層的統計を開発する)。(ii)(i)における第1の機械学習モデルを使用して、望ましいセグメント(例えば、好ましい予測発現エンリッチメントのセグメント)を予測し、新規の及び/または予め生成されたセグメントのプールからのセグメントの選択を可能にする。(iii)(i)における第1の機械学習モデルを訓練する際の選択及び/または使用の前に、一連の入力配列を処理する(ここで、一連の入力配列を処理することは、(a)配列を改変することによってケミカルライアビリティサイトを除去すること、(b)CDR H3について、配列をセグメントに分割してVDJ組換えを模倣すること、(c)CDR L3について、配列をセグメントに分割してVJ組換えを模倣すること、及び(d)V-領域及びCDR(H1、H2、L3)に、生殖細胞系列からの変異の数で注釈を付すことのうちの1つ以上を含む)。(iv)生物物理学的特性及び/または生化学的特性の予測のための機械学習モデルを訓練する(例えば、好ましい生物物理学的特性(例えば、低い多特異性、低い疎水性、及び/または高発現)についてソートされた一連の入力配列に関するデータを使用する)。(v)(iv)における生物物理学的特性及び/または生化学的特性の予測のための機械学習モデルを使用して、配列から1つ以上の生物物理学的特性及び/または生化学的特性(例えば、多特異性、疎水性、融解温度、SECモノマー百分率、保持時間、化学的安定性データ、及び/または配列のエンリッチメントまたはディプリーションの尺度)を予測する。(vi)異なる種に対する特定の生殖細胞系列について対象の配列にわたってジョイント配列確率分布を学習するよう、自己回帰深層学習ニューラルネットワークモデルを開発(例えば、訓練)する。(vii)(vi)におけるニューラルネットワークモデルを使用して、入力された一連の配列から配列の組成及び/または相関を取り込み、合成ライブラリーにおいて考慮するための新規な配列またはセグメントを生成する。
【0007】
別の態様において、本発明は、抗体ライブラリーを構築するためのシステムに関する。該システムは、コンピューティングデバイスのプロセッサと、命令が格納されたメモリと、を備え、該命令は、該プロセッサによって実行されると、該プロセッサに、1つ以上の機械学習モデルにより一連の入力配列を処理させて、最終的な抗体ライブラリー配列のコレクションを生成させる。
【0008】
特定の実施形態において、命令は、プロセッサに、(i)一連の入力配列からの各入力配列を処理させ、さらに(ii)入力配列の各々について、第1のモデル(例えば、グラフ畳み込みネットワーク(GCN))によって予測されるような、配列の1つ以上の構造的に重要な特性の残基当たりの予測を処理させ、該命令は、該プロセッサに、(i)及び(ii)を第2のモデルにおける入力として処理させて、第2のモデルの出力として、(iii)1つ以上の生物物理学的特性(例えば、疎水性相互作用クロマトグラフィーの保持時間(HIC RT)及び/または多特異性試薬(PSR)スコア及び/またはPSR結合カテゴリ)及び/または(iv)1つ以上の化学的安定特性(例えば、Asn脱アミド、Asp異性化、及び/またはMet酸化)を、入力配列の各々について予測させる。ここで、各配列を最終的な抗体ライブラリーに含めることまたは最終的な抗体ライブラリーから排除することは、第2のモデルの出力に少なくとも部分的に基づく。
【0009】
特定の実施形態において、第1のモデルにより予測される残基当たりの予測は、(i)溶媒露出度(SASA)の尺度、(ii)電荷パッチの尺度、(iii)疎水性パッチの尺度、及び(iv)Cα/Cβ座標予測からなる群から選択される1つ以上を含む。
【0010】
特定の実施形態において、第2のモデルは、ディープコンボリューション及び/または再帰型ネットワーク(例えば、生物物理学的特性の予測のための)を含む。
【0011】
特定の実施形態において、第2のモデルは、ツリーに基づく分類モデル(例えば、化学的安定性の予測のための)を含む。
【0012】
一態様において、本発明は、抗体ライブラリーを構築する(例えば、設計する)ための方法に関する。該方法は、コンピューティングデバイスのプロセッサを用いて以下の(i)、(ii)、(iii)、(iv)、(v)、(vi)、及び(vii)のうちの1つ以上を実行することを含む。(i)入力配列及び特徴付けデータを使用して第1の機械学習モデルを開発する(例えば、訓練する)こと(例えば、(a)個々の相補性決定領域(CDR)及び/またはフレームワーク領域(FR)の多特異性及び疎水性を予測するよう、アミノ酸係数を導出するロジスティック回帰モデルを訓練すること、及び/または、(b)1つ以上の生物物理学的特性及び/または1つ以上の化学的安定特性を配列から予測するよう、樹木モデル(例えば、ランダムフォレストまたはXGBoost)を訓練すること、及び/または、(c)1つ以上の生物物理学的特性及び/または1つ以上の化学的安定特性を配列から予測するよう、ニューラルネットワークを含む深層学習モデルを訓練すること(例えば、モデルは、入力層、複数の中間特徴抽出層、及び最終出力層を含む)、及び/または、(d)低バイアスの配列を選択するよう、バイアスを評価する統計モデルを作成すること、及び/または、(e)特定の位置及び領域(例えば、H1、H2、H3、L1、L2、L3、HFR、LFR)における配列モチーフの関数として化学修飾のリスクを予測するよう、階層的統計を開発すること)。(ii)(i)における第1の機械学習モデルを使用して、望ましいセグメント(例えば、好ましい予測発現エンリッチメントのセグメント)を予測し、新規の及び/または予め生成されたセグメントのプールからのセグメントの選択を可能にすること。(iii)(i)における第1の機械学習モデルを訓練する際の選択及び/または使用の前に、一連の入力配列を処理すること(ここで、一連の入力配列を処理することは、(a)配列を改変することによってケミカルライアビリティサイトを除去すること、(b)CDR H3について、配列をセグメントに分割してVDJ組換えを模倣すること、(c)CDR L3について、配列をセグメントに分割してVJ組換えを模倣すること、及び(d)V-領域及びCDR(H1、H2、L3)に、生殖細胞系列からの変異の数を付すことのうちの1つ以上を含む)。(iv)生物物理学的特性及び/または生化学的特性の予測のための機械学習モデルを訓練すること(例えば、好ましい生物物理学的特性(例えば、低い多特異性、低い疎水性、及び/または高発現)についてソートされた一連の入力配列に関するデータを使用すること)。(v)(iv)における生物物理学的特性及び/または生化学的特性の予測のための機械学習モデルを使用して、配列から1つ以上の生物物理学的特性及び/または生化学的特性(例えば、多特異性、疎水性、融解温度、SECモノマー百分率、保持時間、化学的安定性データ、及び/または配列のエンリッチメントまたはディプリーションの尺度)を予測すること。(vi)異なる種に対する特定の生殖細胞系列について対象の配列にわたってジョイント配列確率分布を学習するよう、自己回帰深層学習ニューラルネットワークモデルを開発(例えば、訓練)すること。(vii)(vi)におけるニューラルネットワークモデルを使用して、入力された一連の配列から配列の組成及び/または相関を取り込み、合成ライブラリーにおいて考慮するための新規な配列またはセグメントを生成すること。
【0013】
別の態様において、本発明は、抗体ライブラリーを構築する(例えば、設計する)ための方法に関する。該方法は、1つ以上の機械学習モデルを用いて、コンピューティングデバイスのプロセッサにより一連の入力配列を処理して、最終的な抗体ライブラリー配列のコレクションを生成することを含む。
【0014】
特定の実施形態において、方法は、(i)一連の入力配列からの各入力配列を、第2のモデルにおける入力として処理することを含み、さらに(ii)入力配列の各々について、第1のモデル(例えば、グラフ畳み込みネットワーク(GCN))によって予測されるような、配列の1つ以上の構造的に重要な特性の残基当たりの予測を処理し、第2のモデルの出力として、(iii)1つ以上の生物物理学的特性(例えば、疎水性相互作用クロマトグラフィーの保持時間(HIC RT)及び/または多特異性試薬(PSR)スコア及び/またはPSR結合カテゴリ)及び/または(iv)1つ以上の化学的安定特性(例えば、Asn脱アミド、Asp異性化、及び/またはMet酸化)を、入力配列の各々について予測することを含み、ここで、各配列を最終的な抗体ライブラリーに含めることまたは最終的な抗体ライブラリーから排除することは、第2のモデルの出力に少なくとも部分的に基づく。
【0015】
特定の実施形態において、第1のモデルにより予測される残基当たりの予測は、(i)溶媒露出度(SASA)の尺度、(ii)電荷パッチの尺度、(iii)疎水性パッチの尺度、及び(iv)Cα/Cβ座標予測からなる群から選択される1つ以上を含む。
【0016】
特定の実施形態において、第2のモデルは、ディープコンボリューション及び/または再帰型ネットワーク(例えば、生物物理学的特性の予測のための)を含む。
【0017】
特定の実施形態において、第2のモデルは、ツリーに基づく分類モデル(例えば、化学的安定性の予測のための)を含む。
【0018】
本開示の上述した目的、態様、特徴、及び利点ならびにその他の目的、態様、特徴、及び利点は、添付図面とともに以下の説明を参照することによって、より明らかになり、よりよく理解されるようになる。
【図面の簡単な説明】
【0019】
図1】例示的な実施形態による、抗体配列ライブラリーの情報に基づく構築のための例示的な方法のブロックフロー図である。
【0020】
図2】例示的な実施形態による、配列からの開発可能性を予測するための深層学習モジュールの概略図である。
【0021】
図3】例示的な実施形態による、VHH H3ライブラリー設計において特定のCDR H3配列をマッチングするための例を示すチャートである。
【0022】
図4A】例示的な実施形態による、CDR H1及びH2ライブラリー設計において使用される例示的な配列生成手順を示す図である。
【0023】
図4B】例示的な実施形態による、Vλ L3ライブラリー設計において使用される例示的な配列生成手順を示す図である。
【0024】
図5】例示的な実施形態による、
【数1】
L3配列設計の方法において
【数2】
の計算に使用される例示的な分布を示すチャートである。
【0025】
図6】本明細書に記載のシステム、方法、及びアーキテクチャを提供する際に使用するためのネットワーク環境の概略図である。
【0026】
図7】本明細書に記載の技術を実施するために使用することができるコンピューティングデバイス及びモバイルコンピューティングデバイスを示す概略図である。
【0027】
図8A】配列データから構造特性を予測するための例示的な機械学習方法におけるステップを示す概略図である。
図8B】配列データから構造特性を予測するための例示的な機械学習方法におけるステップを示す概略図である。
【0028】
図9】例示的な実施形態による、モデルにおける生物物理学的特性について構造的に重要なメトリクスの予測を使用して、治療薬について重要な開発可能特性を予測する方法のブロック図である。
【0029】
図10A】例示的な実施形態による、構造記述子の残基レベル予測のためのグラフ畳み込みモデルの使用を示す概略図である。
図10B】例示的な実施形態による、構造記述子の残基レベル予測のためのグラフ畳み込みモデルの使用を示す概略図である。
【0030】
図11】例示的な実施形態に従って個々の残基予測を合計することにより計算される総合的なSAPスコアを示すグラフである(ここで予測は、同じ入力配列についてAlphaFold2モデルから得られたものと同等である)。
【0031】
図12】例示的な実施形態に従って個々の残基予測を合計することにより計算された総合的なSCMスコアを示すグラフである。
【0032】
図13】例示的な実施形態による、予測された正味電荷パッチのモルワイデ投影の概略図である。
【0033】
図14】例示的な実施形態による、疎水性及び多特異性の予測のための畳み込みモデル及び再帰モデルの使用を示す概略図である。
【発明を実施するための形態】
【0034】
本開示の特徴及び利点は、図面とともに以下に記載される詳細な説明からより明らかになる。図面を通じて、同じ参照記号は、互いに対応する要素を示している。図面において、同じ参照番号は、通常、同一の、機能的に類似の、及び/または構造的に類似の要素を示している。
【0035】
特許請求の範囲に記載された発明のシステム、アーキテクチャ、装置、方法、及びプロセスは、本明細書に記載の実施形態からの情報を用いて開発される変形物及び変形法ならびに改変物及び改変法を包含すると考えられる。本明細書に記載のシステム、アーキテクチャ、装置、方法、及びプロセスの改変及び/または修飾を行うことは、本明細書の意図するところである。
【0036】
本明細書を通じて、物品、装置、システム、及びアーキテクチャが特定の要素を有する、含む、または備えると記載し、あるいは、プロセス及び方法が特定のステップを有する、含む、または備えると記載している場合、その記載された要素から本質的になる、または、その記載された要素からなる本発明の物品、装置、システム、及びアーキテクチャがさらに存在し、また、その記載された処理ステップから本質的になる、または、その記載された処理ステップからなる本発明のプロセス及び方法が、さらに存在することは、意図するところである。
【0037】
ステップの順序または特定の行為を行う順序は、本発明が実施可能である限り、本質的なことではないと解すべきである。さらに、2つ以上のステップまたは行為を同時に行ってもよい。
【0038】
本明細書における(例えば「背景技術」の節における)任意の刊行物の言及は、ここに提示される請求項のいずれについても、その刊行物が先行技術となることを認めるものではない。「背景技術」の節は、明確さの目的で提示しており、いかなる請求項に関しても先行技術の説明として意図するものではない。
【0039】
本明細書で参照する文書は、参照により本明細書に組み込まれる。特定の用語の意味に矛盾が生じる場合、発明の詳細な説明に示される意味が優先する。
【0040】
見出しを読者の便宜のために付けているが、見出しの存在及び/または配置は、本明細書に記載する主題の範囲を限定しようとするものではない。
【0041】
セクションI 天然または合成のレパートリーにおいて配列のパターン、相関、及び使用頻度を学習するための訓練用配列のセット
本明細書に示されるシステム及び方法で使用される配列は、インターナルディスカバリー(ナイーブ、LCBS(軽鎖バッチシャッフル)、あらかじめ作られたAFFMAT(親和性成熟)、オリゴ系リード特異的AFFMAT)、特許及び臨床配列、または文献NGS(次世代シーケンシング)データセットに由来し得る。一旦、出発点となる配列のセットが得られると、CDR(相補性決定領域)及びライブラリーの性質に応じて、それらを後処理することができる。例示的な後処理ステップのリストは、以下を含む。
1)以下の方法で配列を修飾することによりケミカルライアビリティサイト(chemical liability site)を排除する。
a.露出したMetをLeuで置き換える。
b.N(G、S、T)をQ(G、S、T)で置き換え、したがって、潜在的なAsn脱アミドモチーフを除く。
c.D(G、S、T)をE(G、S、T)で置き換える(これはAsp異性化モチーフを除くことになる)。
d.N-gly部位中のAsnをAspで置換し、従ってN-結合グリコシル化モチーフを除く(これらは、他の因子の中でも宿主細胞依存性に起因する潜在的なマイナス要素と考えられる)。
e.断片化モチーフDPをEPで置き換える。そして、
f.(訓練された機械学習モデルによって)改変のリスクが高いと予測されるN、D、またはMのアミノ酸を置き換えるか、または、その周囲の配列コンテキストを変異させて、(機械学習モデルによっても予測されるように)改変リスクを低下させる。
2)CDR H3については、配列をセグメントに分割してVDJ組換えを模倣する。
a.セグメントは、既知のV、D、及びJ遺伝子由来のセグメントの予め生成されたライブラリーとのマッチングに基づくことができる。
b.IgBlast,Immcantation(Vander Heiden JA,Yaari G,Bioinformatics,30,1930,2014 PMID:24618469、Gupta NT,Vander Heiden JA,Bioinformatics,31,3356,2015,PMID:26069265)などのプログラムの出力の解析及び分析から推測される。そして、
c.インハウスソフトウェアから新規に推測される。
3)CDR L3については、配列をセグメントに分割してVJ組換えを模倣する。
a.セグメントは、文献またはIMGTデータベースからの既知のV-及びJ-遺伝子とのマッチングに基づく。
4)さらに、V-領域及びCDR(H1、H2、L3)に以下の注釈を付ける。
a.生殖細胞系列からの変異の数、及び
b.公表された結晶構造の分析に基づく、優先的に抗原に接触する残基または露出した残基に関する生殖細胞系列からの突然変異の数。
【0042】
異なるライブラリー設計のためのモデルを訓練するのに使用される配列の例は、以下を含む。
1)ヒト生殖細胞系列についての可変領域配列データ(以下から得られる)、
a)OAS(Observed Antibody Space)配列データベース(Kovaltsuk A,The Journal of Immunology,201,2502,2018,PMID:30217829)、
b)プライマリーディスカバリーならびに対をなす重鎖及び軽鎖配列についての親和性成熟からのヒト生殖細胞系列由来の内部データ、
c)対をなす重鎖及び軽鎖配列についての文献、特許などからの臨床抗体データ、
2)IMGTからのヒトV、D、及びJ-遺伝子情報、
3)NGSからのラクダ科動物についての可変領域配列データ、
a)McCoy LE,PLoS Pathogens,10,e1004552,2014,PMID:25522326からのラマ配列、
b)Li X,PLoS ONE,11,e0161801,2016,PMID:27588755からのフタコブラクダ配列、及び
c)文献、特許などからの臨床抗体データ。
4)ラクダ科動物のV、D、及びJ-遺伝子情報は、以下のものである。
a)アルパカ、ラマ、及びフタコブラクダに関するIMGTからのV遺伝子、
b)アルパカ、ラマに関するIMGTからのJ-遺伝子、及びLiang Z,Frontiers of Agricultural Science and Engineering,2,249,2015からのフタコブラクダに関するJ-遺伝子、及び
c)アルパカに関するIMGTからのD-遺伝子、及びIgScout(Safonova Y,Frontiers in Immunology,10,1,2019,PMID:31134072)を用いてNGSデータから内部的に推測されたラマ及びフタコブラクダに関するD-遺伝子、ならびにLiang Z,Frontiers of Agricultural Science and Engineering,2,249,2015からのフタコブラクダに関するD-遺伝子。
【0043】
セクションII 構造特性を配列から直接予測するための機械学習
X線結晶解析、cryo-EMなどの実験技法から、またはAlphaFold、IgFold、またはSchrodinger Discovery Studioなどの相同性モデリングソフトウェアから、3D構造を得ることは、時間がかかり得るので、本明細書では、配列入力からのダウンストリーム開発可能性予測に重要な構造特性を予測するための機械学習モデルを提示する。
1)機械モデル(複数可)を開発するための3D構造データは、以下から得ることができる。
a)公的に寄託されている、または内部で得られるProtein Data Bank(PDB)の構造、及び/または
b)公的に入手可能なソースからの、または内部のソフトウェアパイプライン及びアルゴリズムを介して生成されるホモロジーモデル。
2)内部で開発された独自のアルゴリズムまたは公開された方法(例えば、SAP Chennamsetty et al.,J.Phys.Chem.,2014、SCM Agrawal et al.,mAbs,2016)の内部での実施行為を、上記3D構造データと共に使用して、入力構造における各残基について記述子を生成する。さらに、これらの記述子の値を、残基タイプ、抗体領域、またはそれらの組み合わせに基づいて集約し、より高いレベルの記述子を生成することができる。
【0044】
項目1)における3D構造の配列は、上記の項目2)における一連の記述子を予測することを目的とする機械学習モデルへの入力データとして働く。
【0045】
図8A及び図8Bは、配列データから構造特性を予測するための例示的な機械学習方法におけるステップを示す。
【0046】
タンパク質構造はグラフとして表すことができるため、グラフ畳み込みネットワーク(GCN)アーキテクチャを使用して、配列から構造特性を予測することができる。GCNは、以下の工程を含む。
1)ネットワーク重みWを、各アミノ酸タイプ、位置、またはそれらの組み合わせ(いわゆるノード重み)毎に個別に学習する。そして
2)中心残基Cijに対する隣接残基の影響を表すよう、重みをさらに学習する(いわゆるエッジ重み)。
3)ノード重み及びエッジ重みは、f(バイアス項bを含む)で示される数学的演算により組み合わすことができ、配列内の各残基についての記述子または追加の特徴を生成することができる(xで示される)。
4)ネットワークの学習能力を向上させ、複数の長さスケールにわたって特性を学習させることを可能にするために、上記パラメータの独立したセットを各ステップで学習することができる。
5)複雑な関係をネットワークに学習させるために、複数のそのような層を重ねて、深層学習モデルを構築することができる。各層を、図8Bの概略図において「アテンションブロック」として示す。
6)非線形活性化による密結合層を実施し、そこにおいて、最終的に各残基について構造記述子を予測するため、位置固有の重みを学習する。
【0047】
モデルによって学習することができ次いで入力として配列のみを用いて予測できる構造記述子の例は、以下の通りである。
1)各残基についての溶媒露出度、
2)公開されたまたは決定された疎水性/親水性傾向のセットを用いて計算される、複数の長さのスケールに対する、各残基の周りの疎水性の度合い、
3)CHARMM、AMBERなどの異なる力場から割り当てられる電荷を使用して計算され、異なるpHで計算され、複数の長さスケールにわたる、各残基の周りの正、負、及び全電荷の度合い、及び
4)入力訓練データを共通の参照フレームにアラインした後に得られる主鎖及び側鎖についての構造座標の計算。
【0048】
配列からのこれらの記述子の予測は、次いで、抗体について実験的に観察される開発可能性特性を予測するためのダウンストリームタスク及び他の機械学習モデルへの入力として働くことができる。
【0049】
入力構造についての配列を、一貫した番号付けスキームを用いてアラインし、ワンホットエンコーディングスキーム、アミノ酸特性スケールを用いる生物物理学的特徴及び生化学的特徴の付加、位置特異的スコアリング行列、及び予め訓練された配列埋め込みを用いて、数値に変換した。
【0050】
25倍モンテカルロ交差検証を使用して、それぞれ80%及び20%の訓練と検証の分割によりモデルを訓練した。モデルの訓練は、10エポックを超える試験セットに対して改善が見られない場合には、早期の終了を伴う最大200エポックについて実施した。
【0051】
予測される出力記述子は異なるスケールの値を有するので、前処理ステップを行うことができ、各記述子についての分布が、残基毎に平均を差し引くことにより、中心に置かれるようにすることができる。さらに、元の分布の分散または四分位範囲で割るなど、大きさをスケーリングするための種々の戦略を使用した。
【0052】
配列から構造記述子を予測するための深層学習モデルの例示的な擬似コードは、以下の通りである。
【数3】
【数4】
【0053】
セクションIII 開発能力機械学習のための入力訓練データ
生物物理学的特性及び生化学的特性を予測するための機械学習モデルを訓練するための入力配列は、以下の例示的な例に由来し得る:
1)個々の配列に関するデータであって、配列が、
a)内部ライブラリーを用いるディスカバリエフォートと、
b)臨床抗体、特許からの配列などの文献から作成された配列に関するデータと、に由来する配列に関するデータ;
2)配列のプールまたはコレクションに関するデータ、例えば、
a)好ましい生物物理学的特性(例えば、低い多特異性、低い疎水性、高発現など)についてソートされたライブラリー群に関するNGSシーケンシングに関するデータ;及び
b)既知の入力配列または組成の違いを有するライブラリーのポリクローナルアセスメントに関するデータ。
【0054】
上記配列に関する生物物理学的データ及び生化学的データは、例えば、以下を含み得る。
1)PSR(多特異性試薬)及びAC-SINS(アフィニティキャプチャー自己相互作用ナノ粒子分光法)を用いる多特異性測定値、
2)HIC(疎水性相互作用クロマトグラフィー)保持時間を用いて測定した疎水性、
3)融解温度、
4)SEC(サイズ排除クロマトグラフィー)モノマー百分率及び保持時間、
5)脱アミド、異性化、酸化、及びトリプシンペプチドマッピングを用いる断片化を特定するための異なるストレス条件下での化学的安定性データ、及び
6)互いにまたは以下の入力頻度と比較されるポジティブ選択またはネガティブ選択された群における配列エンリッチメントまたはディプリーション。
【数5】
式中、特性は、発現、多特異性などであり得、pは、群中の配列または配列モチーフの頻度である。
【0055】
セクションIV 配列開発可能性のための機械学習モデル及び統計モデル
特定の実施形態では、以下の機械学習モデルを、入力配列及び特徴付けデータに基づいて、上述のように開発する。
a.個々の位置、CDR及びFRについて多特異性及び疎水性を予測するためアミノ酸係数を導き出すロジスティック回帰モデル、
b.配列から生物物理学的特性を予測するためのランダムフォレスト及びXGBoostなどの樹木モデル、
c.配列から生物物理学的特性を予測するためニューラルネットワークを用いる深層学習モデル、
d.低バイアスの配列を選択するためバイアスを評価する統計モデル、及び
e.抗体配列中の位置、領域、または任意の場所におけるモチーフ(ここで、「モチーフ」は、修飾される可能性のあるアミノ酸及びそれにすぐ続くN+1アミノ酸として定義される)の事前の実験的に観察された修飾の速度(複数可)に基づいて、特定の位置及び領域(CDRH1、CDRH2、CDRH3、CDRL1、CDRL2、CDRL3、HFR、LFR)における配列モチーフの関数として化学修飾のリスクを予測するための階層的統計。統計は階層的である。事前の観察が十分である対象の予測に最も特異的な統計を使用するからである。
【0056】
これらの機械学習モデルの各々について、以下により詳細に説明する。
【0057】
a.ロジスティック回帰
ロジスティック回帰は、例えば、Jain T,Bioinformatics,33,3758,2017,PMID:28961999に記載の方法を用いて行うことができる。これらのモデルからの結果は、HICにおける遅れた保持時間、高い多特異性、発現などの低い開発可能性特性を予測するための領域特異的アミノ酸係数である。以下の式を用いる。
【数6】
式中、
【数7】
は、Jain T,Bioinformatics,33,3758,2017,PMID:28961999に記載されるように決定されるかまたは3D構造などから決定される、残基タイプiについての領域Rにおける溶媒露出側鎖面積の合計である。領域特異的アミノ酸係数
【数8】
を、データに対するロジスティック回帰を用いて推定する(ここで
【数9】
は、望ましい開発可能特性を有する配列の尤度を示す)。上記の式は、代わりに、Rに対する外部和を個々の位置に対する外部和と置き換えることによって、位置特異的係数を推定するように変更することができる。
【0058】
係数
【数10】
の点推定値の代わりに、一般化加法モデル(GAM)も、連続スプラインまたは多項式係数に適合するよう検討した。
【0059】
b.ツリーに基づく回帰モデル及び分類モデル
対象の特性またはメトリックを考慮し、回帰法及び分類法(例えば、ランダムフォレストまたはXGBoostなどのツリーに基づく方法)を、ニューラルネットワークまたは他の機械学習モデルを訓練するための入力として用いて、新規な配列、配列のセグメント、及び/または配列内の個々のアミノ酸のそのような特性を予測するようにする。この例では、
【数11】
ここで、配列(またはセグメント)記述子は、以下の1つ以上を含む。
1)配列長またはセグメント長、
2)ロジスティック回帰からの疎水性スコア、
3)ロジスティック回帰からの多特異性スコア、
4)ニューラルネットワーク予測からの溶媒露出度、
5)局所構造特性、例えば、隣接するアミノ酸のc-α原子間の距離あるいはタンパク質骨格φまたはψねじれなど(このような局所構造特性は、実験による構造予測及び/または構造予測(例えば、AlphaFold、IgFoldなどのツールによる予測、または訓練されたニューラルネットワークポジションによる原子位置の直接予測)によって決定される)、
6)正荷電残基(Arg、Lys、His)の数、負荷電残基(Asp、Glu)の数、及び総荷電残基の数、
7)芳香族残基(Phe、Tyr、Trp)の数、脂肪族残基(Ala、Leu、Val、Ile、Met、Cys)の数、及び極性残基(Asn、Gln、Thr、Ser、His、Gly)の数。特定のアミノ酸(例えば、Gly、Hisなど)は、個々にまたはアミノ酸のクラスの部分として考慮し、以下について考慮する。
8)「モチーフ」アミノ酸(対象とするアミノ酸の直後のN+1アミノ酸)が何であるか、モチーフアミノ酸のクラス(それが関連するクラスを含む)、モチーフアミノ酸のタンパク質立体配座柔軟性、サイズ、化学的特性、または生物物理学的特性、
9)アミノ酸周囲の隣接する一次構造コンテキスト、例えば、対象とする残基の前のX1個のアミノ酸(例えば、10)の配列、及び、後のX2個のアミノ酸(例えば、10)の配列、
10)抗体配列内のアミノ酸の位置、例えば、Chothiaまたは他の番号付けスキーム(その構造位置に従ってアミノ酸を列挙するもの)により決定されるアミノ酸の位置、
11)相補性決定領域(CDR)内のアミノ酸の位置、
12)フレームワークまたはCDR配列に関連する構造コンホメーション、例えばカノニカル構造クラスタリングにより決定されるもの(例えば、9CDRL3長におけるL95位のプロリン)、
13)最も近い野生型の生殖細胞系列、及びその野生型の抗体配列の起源の種、
14)最も近い野生型生殖細胞系列の抗体配列から離れた変異の数、
15)予測される対象の出力特性の実験的観察に基づく過去の統計、例えば、限定されないが、特定の位置または領域における観察された修飾率。
【0060】
疎水性スコア及び多特異性スコアの例示的な計算を以下のように行う。
1)上述したグラフ畳み込みモデルからの配列中の各残基に関する溶媒露出度を計算するか、または既知の一連の構造に対する計算によって生成されたデータベースから事前に計算された値
【数12】
に対してルックアップを実行する。
2)配列中の特定の種類のアミノ酸の数
【数13】
をカウントする。そして
3)
【数14】
または
【数15】
を係数
【数16】
で乗算し、値を合計して、対象とする配列について最終スコアを得る。
【0061】
c.配列から開発可能性を予測するための深層学習モデル
対象の特性またはメトリックを考慮して、新規な配列またはセグメントについてそのような特性を予測するよう、深層学習ニューラルネットワーク法を訓練する。これらのモデルは、図2の概略図に示すように、入力層、複数の中間特徴抽出層、及び最終出力層を含むことができる。
【0062】
異なる長さの入力配列を、ニューラルネットワークへの入力のために同じ長さに処理する。これは、一貫した番号付けスキームを用いて配列をアラインすることによって、または適切な数の挿入で配列をライトパディングすることによって行うことができる。次いで、配列を、ワンホットエンコーディングスキームと、アミノ酸特性スケール、位置特異的スコアリング行列、及び予め訓練された配列埋め込みを使用する生物物理学的特徴及び生化学的特徴の付加と、を使用して、数値に変換する。上流の機械学習モデル/モジュール(例えば、本明細書に記載するグラフ畳み込みモデルなど)からの出力として計算される記述子も、配列から計算することができ、モデル入力に追加することができる。
【0063】
モデル入力は、入力層における鎖情報を加算または減算することによって、異なるモダリティに適合させることができる。特徴抽出層は、畳み込み、回帰(長・短記憶(LSTM)ユニット、ゲート付き再帰ユニット(GRU)を用いる)、セルフアテンション、及び/または密結合層のうちの1つ以上を含み得る。
【0064】
1つの例示的な実施例では、10倍交差検証を用いてモデルを訓練した。この実施例では、モデルの訓練を、10エポックを超える試験セットに対して改善が見られない場合には、早期の終了を伴う最大300エポックについて実施した。
【0065】
開発可能性を予測する深層学習モデルのための例示的な擬似コードは、以下の通りである。
【数17】
【0066】
d.低バイアスの配列を特定するための統計モデル
統計学的アプローチ及びデータマイニングアプローチをここに示す。これらは、ライブラリー中の多様性の複数のソースにわたって同等に対をなす配列または配列モチーフを特定するためのものである。異なる多様性の理想的分布または目標とする分布を考慮して、提案されるモチーフを、例えば、Kullback-Leiblerダイバージェンスメトリックを使用して、その分布が低バイアスとマッチするそれらの能力について評価する。モチーフは、ある位置における単一のアミノ酸、異なる位置におけるアミノ酸の組み合わせ、または配列全体とすることができる。所定のモチーフについてのKullback-Leiblerダイバージェンスメトリックは、以下のように計算できる。
【数18】
式中、iは多様性のタイプを示し、P(i)は多様性iの理想的なまたは目標とする確率分布であり、P(i|モチーフ)は配列を与えた多様性の条件付き確率である。KL(モチーフ)の値は、高いほど、P(i)からのP(i|モチーフ)のより大きなずれを示す。ゼロのKL(モチーフ)値は、ターゲットと条件付き分布との間の完全なマッチを示し、これは、配列またはモチーフによって導入されるバイアスがないことを示す。
【0067】
セクションV 配列のパターン及び組成に関する機械学習モデル
自己回帰深層学習ニューラルネットワークモデルを、キュレートした入力訓練配列のセットにおける配列パターンを学習するために実施することができる。セットは、所望の基準または特性、例えば種及び生殖細胞系列、好ましい開発可能性プロファイルなど、に従って分類された配列から構成することができる。目的は、以下のように、対象とする配列にわたるジョイント配列確率分布を学習することである。
【数19】
一例では、入力配列を、両側に1つの挿入でパディングする。これらの挿入は、モデルに入力配列の開始及び終了を示すトークンとして働き、次いで、新規な配列生成を開始し、配列生成の終了を検出するための生成ステップにおいて使用することができる。パディングされた配列は、ワンホットエンコーディングスキームを用いて数値に変換する(アミノ酸特性スケールを用いる生物物理学的特徴及び生化学的特徴を必要に応じて付加する)。複数のアーキテクチャを、長・短記憶(LSTM)ユニット、ゲート付き再帰ユニット(GRU)、高密度ニューロン、畳み込みユニット、及び/またはセルフアテンションモジュールを含む中間層を使用することによって検討してもよい。
【0068】
1つの例示的な実施例では、入力配列データを3:1の割合で訓練:検証セットに分割した。この実施例では、モデルの訓練を、10エポックを超える試験セットに対して改善が見られない場合には、早期の終了を伴う最大300エポックについて実施した。
【0069】
訓練されたモデルは、続いて、入力シード配列、例えば、英数字(アミノ酸記号以外)、ハイフン、または長さ1の他の記号で開始することによって、生成モードで実行することができる。例えば、図4の例示的な概略図において、これは、ハイフン「-」であり、H1が始まるときと終わるときとにモデルを教示するための人工的構築物として働く。このシード配列は、モデルによって予測される確率からサンプリングされたアミノ酸を付加することにより更新される。生成プロセスは、挿入物が予測される場合に終了し、これはサンプリングされた配列に終了を示す。加えて、生成された配列の確率は、合成ライブラリーについて配列を優先順位付けするのに使用するため、記憶させることもできる。これにより、対象とする生殖細胞系列に特異的な配列のセットが得られる。
【0070】
セクションVI セグメントを得ること及びレパートリーにおけるその使用頻度を推定すること
上記で詳述したV-、D-及びJ-遺伝子のコレクションまたはサブセットを用い、候補セグメントを、ヌクレオチド欠失、ヌクレオチド付加、ニブリングなどの方法を用いて生成することができる。データから新規にセグメントを推定するため、長さ0~Lまでの任意の配列にマッチングするワイルドカード配列を、プレースホルダとして追加することができる。
【0071】
ツリーに基づく枝刈りアルゴリズム(例えば、設計アルゴリズムに対するマッチ)を使用して、セグメントのプールを天然レパートリー配列と照合することができる。例は、国際特許出願公開WO2009/036379号及びWO2012/009568に提示され、その内容は、参照によりその全体が本明細書に組み込まれる。各セグメントの使用頻度は、配列のターゲットプールをマッチングする際のその使用に基づいて更新する。
【0072】
レパートリー内の対象配列に最大限マッチングする複数のセグメントの組み合わせについて、各セグメントの使用頻度は、例えば、マッチングする組み合わせの数の逆数だけ増加し得る。
【0073】
いくつかのセグメントタイプがワイルドカードである場合、ワイルドカードにマッチングする対象配列の部分は、新規のセグメントとして抽出してもよく、その使用頻度を、上述のように更新してもよい。
【0074】
セクションVII (i)特定される配列と、(ii)第1のモデルによって予測される配列の1つ以上の構造的に重要な特性と、の両方を、第2のモデルへの入力として使用する(第2のモデルは、例えば、構造情報の代わりに(例えば、ソフトウェア生成構造なしで)、組成物の化学的安定性、多特異性、及び疎水性を予測するためのものである)
ここで見いだされることは、(i)特定される配列と、(ii)第1のモデルによって予測される配列の1つ以上の構造的に重要な特性と、を使用して、開発可能性特性(例えば、配列組成物の化学的安定性、多特異性、及び疎水性など)を予測し、それによって、合成ライブラリーに含める考慮のための新規な配列またはセグメントを生成することが可能であるということである。特定の実施形態では、予測される構造的に重要な特性を、構造自体の代わりに(例えば、AlphaFoldまたは類似のソフトウェアによって予測されるようなソフトウェアにより決定される構造の代わりに)使用することができる。以下は、例示的な実施例であり、どのようにしてこの「モデルをモデルに入力する」というコンセプトを使って配列組成物の化学的安定性、多特異性、及び疎水性を予測する能力を向上させるかを示している。
【0075】
図9は、例示的な実施形態による、モデルにおける生物物理学的特性について構造的に重要なメトリクスの予測を使用して、治療薬について重要な開発可能特性を予測する方法のブロック図である。左に示しているのは、深層グラフ畳み込みネットワークであり、これは、配列からの構造記述子を提供し、例えば、SASA、電荷パッチ、疎水性パッチ、及びCα/Cβ座標の残基当たりの予測を提供する。右上に示しているのは、ディープコンボリューション及び再帰型ネットワークであって、生物物理学的特性の予測(例えば、疎水性相互作用クロマトグラフィーの保持時間(HIC RT)及び多特異性試薬(PSR)結合カテゴリー(例えば、高い対低い)についてのFv配列からの予測)のためのディープコンボリューション及び再帰型ネットワークである。配列からの構造記述子は、生物物理学的特性の予測のためのディープコンボリューション及び再帰型ネットワークにおける入力として示されている。右下に示しているのは、化学的安定特性(例えば、Asn脱アミド、Asp異性化、及びMet酸化など)の予測のためのツリーに基づく分類モデルである。この場合も、配列からの構造記述子は、化学的安定特性の予測のためのツリーに基づく分類モデルにおける入力として示されている。
【0076】
図10A及び図10Bは、例示的な実施形態による、構造記述子の残基レベル予測のためのグラフ畳み込みネットワーク(GCN)の使用を示す概略図である。配列は、構造記述子の予測(例えば、SASA、電荷パッチ、疎水性パッチ、及びCα/Cβ座標の残基ごとの予測)のための入力として使用される。
【0077】
図10Aは、分子を、ノードとしての残基及び空間的隣接物間のエッジを有するグラフとして表現している。特徴を学習し、自己残基特徴と隣接残基特徴との組み合わせとして残基レベルの構造/生物物理学的特性を予測するよう、グラフ畳み込みネットワーク(GCN)を訓練することができる。中央残基に関する学習された特徴と、重み付けされた学習された隣接特徴とを連結し、次いで、ダウンサンプリング畳み込みを非線形で行って、次の層に対する特徴出力を生成する。
【0078】
図10Bは、例示的なグラフ畳み込みアーキテクチャ及び訓練データの概要である。この例では、ブロック間で共有される4つのアテンション重み行列がある。最終層は、出力(例えば、溶媒露出度(SASA)(これはタンパク質の折り畳み及び安定性を決定するための重要な特徴である))を予測するよう、学習された特徴上の異なるセットの重みを学習する。
【0079】
図11は、総合的な空間凝集傾向(SAP)スコアを示すグラフであり、このスコアは、上記の方法に従って個々の残基予測を合計することによって計算されており、その予測は、同じ入力配列についてAlphaFold2モデルから得られるものと同等である。
【0080】
図12は、上記の方法に従って、個々の残基予測を合計することにより計算された総合的なスコアリングカード法(SCM)スコアを示すグラフである。
【0081】
図13は、上記の方法を用いて予測された正味電荷パッチのモルワイデ投影の概略図である。GCNモデルは、単一のモデルにおいて特性及びCα/Cβ座標予測の両方を生成する。図13に示す例は、大きな負のパッチの存在が貧溶解性と相関することを示している。
【0082】
図14は、例示的な実施形態による、疎水性及び多特異性の予測のための畳み込みモデル及び再帰モデルの使用を示す概略図である。N-merペプチド配列中のパターンは、局所的情報または「特徴」を表している。N-merペプチド間の相互作用は、より長い長さスケールにわたって情報を獲得し、さらに配列に沿って分離されたペプチド間の情報を獲得する。図14の概略図において、入力層Iは、「入力Fv」(抗体フラグメント配列)を使用し、これは、ワンホットエンコーディング、例えば、既存のアミノ酸特性スケール、及び上記のようなGCNからの残基レベルの構造/生物物理学的特性の予測を実施する。次のステップは、特徴抽出であり、ここで、ネットワークアーキテクチャの畳み込み層は、例えば、ペンタ-ペプチドに対する別個の特徴を学習し、そして再帰層は、線状の配列全体に対する特徴を学習する。次のステップは、抽出された特徴をHC及びLCにわたって組み合わせることである。密結合層は、前の層からのパターンを大域的に組み合わせることを学習する。出力層は、本明細書でさらに詳細に説明するように、予測、例えば、HIC RTまたはPSRスコア/カテゴリを生成する。
【実施例
【0083】
セクションVIII
a.VHH H3ライブラリー設計
1.セグメント選択のための開発可能性モデル
H3多様性がヒト免疫前レパートリーを反映するよう合成されたFc-リンカー-VHライブラリーを、FACS(蛍光活性化細胞選別)を使用して発現及び多特異性について選別した。入力ライブラリー、高発現群及び低発現群、ならびに高多特異性群及び低多特異性群を、NGSを用いて配列決定した。上記のセクションIIに概説されるように、NGS配列におけるセグメント観察の頻度を使用して、セグメントについてエンリッチメントスコア、
【数20】
及び
【数21】
を計算した。セクションIVに記載されるようなツリーに基づく機械学習モデルを開発し(例えば、訓練し)、所望のセグメントの予測を可能にして、新規のセグメント及び事前生成セグメントのプールからの選択を可能にした。
2.セグメント使用頻度を推定し、新規のセグメントを推定する
【0084】
予め生成されたセグメントは、セクションIに記載したように、V、D、及びJ-遺伝子データに基づいて得た。新規のセグメント推定のために、セクションIに詳述したような配列のコレクションを、上記セクションVIのマッチングアルゴリズムと共に使用した。
【0085】
ラクダ科動物H3配列をマッチングするための手順は、概ね以下のとおりである。
1)D-及びJ-遺伝子のコレクションを用いて、候補D-及びJ-セグメントを生成した。
2)ワイルドカードN1セグメントは、長さ1~9までの任意の配列とマッチングする。
3)ワイルドカードN2セグメントは、長さ0~7までの任意の配列とマッチングする。
【0086】
McCoy LE,PLoS Pathogens,10,e1004552,2014,PMID:25522326及びLi X,PLoS ONE,11,e0161801,2016,PMID:27588755からのCDR H3配列を、上記セクションVIに記載した方法を使用して、セグメントの上記プールとマッチングさせ、D-及びJ-セグメントへのマッチングについて以下のメトリックを最大化した。
【数22】
式中、Matchは、それぞれのセグメントに対する完全な一致の全長であり、Lenは、一致したセグメントの全長である。次いで、D-及びJ-セグメントによってマッチングされなかったCDR H3の部分を使用して、候補N1及びN2セグメントを特定した。
【0087】
以下の基準を用いて上記プロセスから生じるマッチを排除した。
1)D-及びJ-セグメントに対するミスマッチの数が、D-またはJ-セグメントの長さの25%より大きいこと、
2)ミスマッチの総数が5より大きいこと。そして、
3)最後の位置においてAspもしくはAsnあるいは最後から2番目の位置においてAsnをもたらす最大マッチは、適切なマッチが上に列挙した他の制約を受けていると分かるまで排除する。
【0088】
Sを最大化する複数の実行可能なD-及びJ-セグメントの場合、マッチにおいて特定された各セグメントは、マッチの数Nに対して逆に重み付けした。
【0089】
この手順からの結果は、D-及びJ-遺伝子のコレクションから生成された候補D-及びJ-セグメントに関する使用頻度重みPのリストである。さらに、この手順は、N1セグメント及びN2セグメントの新規な候補のリストを、それらの使用頻度重みPと共に生成する。
【数23】
【0090】
CDR H3配列AAEPSGGSWPRYEYNFをマッチングするための実施例を図3に示す。これは、スコアSについて式中x=2の値を用いている。
3.最終ライブラリーのためのセグメント選択
【0091】
以下の工程を行って最終ライブラリーのためのセグメント選択を完了した。
1)前のステップからの候補セグメントを、セグメント開発可能性についての機械学習モデルに入力し、それらの予測エンリッチメントスコア
【数24】
を得た。
2)入力と比較して予測ディプリーションが40%以上であるすべてのセグメントをフィルタリングした(すなわち
【数25】
のみ保持した)。
3)総合的な重要度を、マッチングからの使用頻度重みと予測発現エンリッチメントとの積として割り当て、以下を設計する。
【数26】
4)セグメントの層化抽出を以下によって行った。
a)4つのセグメントタイプの各々について、長さの重要度に基づき、各長さごとにセグメント数を選択する。
【数27】
【数28】
式中、tは、セグメントのタイプ(N1、D、N2、またはJ)を表し、Total_tは、最終設計において選択すべきタイプtのセグメントの総数を表す。そして、
b)次に、各長さ内で、重要度スコア
【数29】
によって上位セグメント
【数30】
を選択する。
【0092】
この方法でセグメントを選択した後、代表的なコンビナトリアルライブラリーをインシリコでサンプリングした。このライブラリーを、予測された生物物理学的特徴(例えば、多特異性及び疎水性)について、上記のモデルを用いて評価した。さらに、天然レパートリー由来の配列も、これらの特性について評価し、新規な合成デザインとの比較を行った。
【0093】
なお、VHH抗体(またはナノボディ)のライブラリー設計に関して本明細書に開示される原理及び実施例は、他の抗体部分(例えば、軽鎖フレームワーク領域(LC FR)、軽鎖相補性決定領域(LC CDR)、重鎖フレームワーク領域(HC FR)、及びその他)を含むライブラリー設計に応用できる。本明細書で使用される用語VHHは、重鎖のみの抗体、例えば、ラクダ科動物の重鎖のみの抗体の抗原結合フラグメント(すなわち、可変ドメイン)を指す。
【0094】
b.VλL3ライブラリー設計についての実施例
セクションIに詳細に示すように、ヒトVλ生殖細胞系の配列を、内部データベース及び外部ソース(例えば、OAS配列データベース、文献、及び特許出願)から収集した。
【0095】
観察された配列を左及び右の断片に分割して、CDR L3に対するV-J組換えを模倣した。モデルを、CDR L3のコレクション、個々の左配列、及び右配列について、上に概説した方法を用いて構築した。
【0096】
入力された配列セット中の配列の組成及び相関を取り込むためにモデルを生成した後、生成したモデルを生成モードで実行して、合成ライブラリー中で考慮するための新規な配列またはセグメントを生成した。例示的な配列生成を図4Bに示す。図4Bのサンプリング処理におけるTの値を、増加(減少)させて、モデルの訓練に使用する配列セットからより近い(より遠い)配列を生成することができる。
【0097】
生殖細胞系列特異的配列の最終選択を以下の方法で行った。
1)生成モデルから生成された配列の確率を得る。
2)上記のセクションIVに詳述されるように、ロジスティック回帰モデルまたはニューラルネットワークモデルを用いて得られるCDR特異的アミノ酸係数に基づいて、多特異性スコア及び疎水性スコアを評価する。多特異性スコア及び疎水性スコアを、5%の増分でパーセンタイル順位に変換した(より低い数値が好ましい特性を示す)。
3)セクションIVに記載されるように、ニューラルネットワークまたはツリーに基づく回帰または分類モデルからの配列における化学修飾の確率を評価する。
4)生成された配列に関して、配列全体にわたって及び優先的抗原接触残基にわたって、生殖細胞系列からの突然変異の数を計算する。
5)生成モデルからの配列確率、変異情報、ならびに予測される多特異性スコア、疎水性スコア、及び化学的安定性スコア(例えば、開発可能性順位)を、配列の優先度スコアに変換する。そして、
6)その優先度スコアに基づいて上位配列を選択するかまたはランダムサンプルを抽出する。
【0098】
最終ライブラリーにおいて必要とされる、生殖細胞系列多様性、長さ分布などの因子に基づいて、生殖細胞系列特異的ライブラリーからの、優先順位を付けられた、割合が異なる配列を、最終合成ライブラリーのために一緒にプールすることができる。
【0099】
c.CDR H1 H2ライブラリー設計に関する実施例
上記セクションIに詳細に示したように、ヒトIGHV3系生殖細胞系列からの配列を、外部ソース(例えば、OAS配列データベース)、内部データベース、文献、及び特許出願から収集した。ラマ及びラクダ科動物のNGSデータセットからの配列を、文献研究から処理した。
【0100】
これらの配列を再番号付けし、CDR H1及びH2配列を抽出した。パターンを学習するモデルを訓練し、モデルを生成モードで実行するための後続のプロセスを、VλL3ライブラリー設計のプロセスの後に行う。
【0101】
例えば、生殖細胞系列特異的モデルを、上記で概説した方法を使用して、CDR H1及びH2のコレクションのために構築した。
【0102】
入力される配列セット中の配列の組成及び相関を取り込むたのモデルを生成した後、生成したモデルを生成モードで実行して、合成ライブラリー中で考慮するための新規な配列を生成した。例示的な配列生成を図4Aに示す。図4Aのサンプリング処理におけるTの値を、増加(減少)させて、モデルの訓練に使用する配列セットからより近い(より遠い)配列を生成することができる。
【0103】
生殖細胞系列特異的配列の最終選択を以下の方法で行った。
7)生成モデルから生成された配列の確率を得る。
8)上記のセクションIIIに詳述するように、ロジスティック回帰モデルまたはニューラルネットワークモデルを用いて得られるCDR特異的アミノ酸係数に基づいて、多特異性スコア及び疎水性スコアを評価する。多特異性スコア及び疎水性スコアを、5%の増分でパーセンタイル順位に変換した(より低い数値が好ましい特性を示す)。
9)生成された配列に関して、配列全体にわたって及び優先的抗原接触残基にわたって、生殖細胞系列からの突然変異の数を計算する。
10)生成モデルからの配列確率、変異情報、及び開発可能性順位を、配列の優先度スコアに変換する。そして、
11)その優先度スコアに基づいて上位配列を選択するかまたはランダムサンプルを抽出する。
【0104】
最終ライブラリーにおいて必要とされる、生殖細胞系列多様性、長さ分布などの因子に基づいて、生殖細胞系列特異的ライブラリーからの、優先順位を付けられた、割合の異なる配列を、最終合成ライブラリーのために一緒にプールすることができる。
【0105】
パターンを学習するモデルを訓練し、モデルを生成モードで実行するための後続のプロセスを、上述したVλL3ライブラリー設計のプロセスの後に行う。
【0106】
d.VκL3配列の設計に関する実施例
適切な開発可能性特性ならびに公知の重鎖及び軽鎖配列を有する抗体に関するデータを収集し、アラインし、再番号付けし、生殖細胞系列情報で注釈付けた。続いて、CDR L3を抽出し、位置L89~L97のアミノ酸を表にした。
【0107】
上記のセクションIVdの表記を参照すると、各多様性セットiは、ヒト重鎖生殖細胞系列
【数31】
に属する配列に対応した。ターゲット分布P(i)を、生殖細胞系列に属する配列
【数32】
の頻度として設定した。Vκ生殖細胞系ファミリーに属するCDR L3について、Kullback-LeiblerダイバージェンスをL3位置及びアミノ酸の関数として計算した。例えば、Vk1-39の位置L91におけるアラニンのKLダイバージェンスの計算は、モチーフを(L91A,Vκ1-39)として定義することによって以下のように開始する。
【数33】
【0108】
【数34】
の計算に使用する分布の例を図5に示す。図5のドットのサイズは、
【数35】
で示すモチーフの確率に比例する。KLダイバージェンスは、複数の位置及びそれらの位置のアミノ酸をカバーするより高次のモチーフについても同様に定義することができる。
【0109】
全ての位置における単一アミノ酸の選択に対するKL計算によって、2次元の表が得られる。表では、行が位置を示し、列がアミノ酸を示し、KLメトリックが数値となっている。追加の2次元の表も構築した。表は、同じ行及び列を有するが、各位置で見られるアミノ酸の数を含む。
【0110】
これらの表を用いて、以下の手順により、CDR L3配列のより大きなセットから配列を選択した。
1.表形式のカウント及び計算されたKLスコアから、選択した個々のアミノ酸が低出現または高KLスコアの位置にある配列をフィルタリングする。例えば、まれなまたは高度に偏った選択をフィルタリングする。そして、
2.残りの配列を、KLスコアと配列中の表形式の位置特異的アミノ酸の数とを合計することによってスコア化する。配列を、以下の2つの計算されたメトリックによって優先順位付けする。
a.計数の降順による上位配列、及び
b.昇順の合計KLスコアの上位配列。
【0111】
基準2a及び2bから生じる異なる割合の配列を使用して、ライブラリー中の所望の数の配列を選択することができる。
【0112】
ソフトウェア、コンピュータシステム、及びネットワーク環境
本明細書に記載の特定の実施形態は、コンピュータプロセッサによって実行されるソフトウェア命令の形態であるコンピュータアルゴリズムを利用する。特定の実施形態では、ソフトウェア命令は、機械学習モジュールを含み、本明細書では人工知能ソフトウェアとも呼ばれる。本明細書で使用される場合、機械学習モジュールは、コンピュータにより実行されるプロセス(例えば、ソフトウェア機能)を指し、これは、所与の入力に対して1つ以上の出力値を決定するために、1つ以上の特定の機械学習アルゴリズム(例えば、人工ニューラルネットワーク(ANN)、畳み込みニューラルネットワーク(CNN)、ランダムフォレスト、決定木、サポートベクトルマシンなど)を実行する。特定の実施形態では、入力は英数字データを含み、これは、例えば、数字、単語、句、または長い文字列を含むことができる。特定の実施形態では、1つ以上の出力値は、数値、単語、句、または他の英数字列を表す値を含む。特定の実施形態では、1つ以上の出力値は、1つ以上の応答文字列(例えば、データベースから選択される)を特定するものを含む。
【0113】
例えば、機械学習モジュールは、テキスト文字列(例えば、人間のユーザによって入力された)を入力として受け取り、様々な出力を生成することができる。例えば、機械学習モジュールは、入力英数字列(複数可)を自動的に分析し、例えば、自然言語理解(NLU)におけるように、テキストのコンテンツ(例えば、インテント)を分類する出力値を決定することができる。特定の実施形態では、テキスト文字列を分析して、出力英数字文字列を生成しかつ/または取り出す。例えば、機械学習モジュールは、自然言語処理(NLP)ソフトウェアであってもよい(または自然言語処理(NLP)ソフトウェアを含んでもよい)。
【0114】
特定の実施形態では、機械学習法を実行する機械学習モジュールを、例えば、本明細書に記載されるデータのカテゴリを含むデータセットを使用して訓練する。そのような訓練を使用して、機械学習モジュールによって実行される機械学習アルゴリズムの様々なパラメータ(例えば、ニューラルネットワーク内の層に関連する重みなど)を決定することができる。特定の実施形態では、例えば、特定の応答文字列を特定するなどの特定のタスクを達成するよう、機械学習モジュールを訓練したら、決定されたパラメータの値を固定し、(例えば、不変、静的)機械学習モジュールを使用して、新しいデータ(例えば、訓練データとは異なる)を処理し、そのパラメータに対するさらなる更新を伴わずに(例えば、機械学習モジュールは、フィードバック及び/または更新を受け取らない)、その訓練されたタスクを達成する。特定の実施形態では、機械学習モジュールは、例えば、精度のユーザによる検討に基づいて、フィードバックを受け取ってもよく、そのようなフィードバックを追加の訓練データとして用いて、機械学習モジュールを動的に更新してもよい。特定の実施形態では、2つ以上の機械学習モジュールを組み合わせて、単一のモジュール及び/または単一のソフトウェアアプリケーションとして実行することができる。特定の実施形態では、2つ以上の機械学習モジュールもまた、例えば、別個のソフトウェアアプリケーションとして、別個に実行してもよい。機械学習モジュールは、ソフトウェア及び/またはハードウェアであり得る。例えば、機械学習モジュールを完全にソフトウェアとして実行してもよいし、あるいは、ANNモジュール(例えばCNN)の特定の機能を専用ハードウェアを介して(例えば、特定用途向け集積回路(ASIC)を介して)実行してもよい。
【0115】
図6は、本明細書で説明されるようなシステム、方法、及びアーキテクチャを提供するためのネットワーク環境600の実行を示し、説明する。ここで図6を参照して、例示的なクラウドコンピューティング環境600のブロック図を示し、概要を説明する。クラウドコンピューティング環境600は、1つ以上のリソースプロバイダ602a、602b、602c(一括して602)を含み得る。各リソースプロバイダ602は、コンピューティングリソースを含み得る。ある実施態様では、コンピューティングリソースは、データを処理するために使用される任意のハードウェア及び/またはソフトウェアを含み得る。例えば、コンピューティングリソースは、アルゴリズム、コンピュータプログラム、及び/またはコンピュータアプリケーションを実行することができるハードウェア及び/またはソフトウェアを含み得る。ある実施態様では、例示的なコンピューティングリソースは、ストレージ及び検索機能を備えたアプリケーションサーバ及び/またはデータベースを含み得る。各リソースプロバイダ602は、クラウドコンピューティング環境600内の任意の他のリソースプロバイダ602に接続され得る。ある実施態様では、リソースプロバイダ602は、コンピュータネットワーク608を通じて接続され得る。各リソースプロバイダ602は、コンピュータネットワーク608を通じて、1つ以上のコンピューティングデバイス604a、604b、604c(一括して604)に接続され得る。
【0116】
クラウドコンピューティング環境600は、リソースマネージャ606を含み得る。リソースマネージャ606は、コンピュータネットワーク608を通じて、リソースプロバイダ602及びコンピューティングデバイス604に接続され得る。ある実施態様では、リソースマネージャ606は、1つ以上のリソースプロバイダ602による1つ以上のコンピューティングデバイス604へのコンピューティングリソースの提供を容易にし得る。リソースマネージャ606は、特定のコンピューティングデバイス604からコンピューティングリソースについての要求を受け取り得る。リソースマネージャ606は、コンピューティングデバイス604によって要求されるコンピューティングリソースを提供する能力を有する1つ以上のリソースプロバイダ602を特定し得る。リソースマネージャ606は、コンピューティングリソースを提供するリソースプロバイダ602を選択し得る。リソースマネージャ606は、リソースプロバイダ602と特定のコンピューティングデバイス604との間の接続を容易にし得る。ある実施態様では、リソースマネージャ606は、特定のリソースプロバイダ602と特定のコンピューティングデバイス604との間の接続を確立し得る。ある実施態様では、リソースマネージャ606は、特定のコンピューティングデバイス604を、要求されるコンピューティングリソースを有する特定のリソースプロバイダ602にリダイレクトし得る。
【0117】
図7は、本開示で説明される技術を実行するために使用することができるコンピューティングデバイス700及びモバイルコンピューティングデバイス750の例を示す。コンピューティングデバイス700は、様々な形態のデジタルコンピュータ(例えば、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなど)を代表することを意図している。モバイルコンピューティングデバイス750は、様々な形態のモバイルデバイス(例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、及び他の類似のコンピューティングデバイスなど)を代表することを意図している。ここに示すコンポーネント、それらの接続及び関係、ならびにそれらの機能は、例にすぎないことを意味し、限定的であることを意味しない。
【0118】
コンピューティングデバイス700は、プロセッサ702、メモリ704、記憶装置706、メモリ704及び複数の高速拡張ポート710に接続する高速インタフェース708、ならびに低速拡張ポート714及び記憶装置706に接続する低速インタフェース712を備える。プロセッサ702、メモリ704、記憶装置706、高速インタフェース708、高速拡張ポート710、及び低速インタフェース712の各々は、様々なバスにより相互接続され、必要に応じて共通のマザーボード上にまたは他の形式において搭載され得る。プロセッサ702は、コンピューティングデバイス700内での実行のための命令を処理することができる。命令には、メモリ704または記憶装置706に格納される命令が含まれ、これは、外部入力/出力デバイス(例えば、高速インタフェース708に接続されたディスプレイ716など)にGUIに対しグラフィカル情報を表示する。他の実施態様では、複数のメモリ及び複数のタイプのメモリと共に、複数のプロセッサ及び/または複数のバスを、必要に応じて使用してもよい。また、複数のコンピューティングデバイスを接続して、各デバイスが必要な動作の一部(例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)を提供してもよい。したがって、用語を本明細書で使用して、複数の機能が「プロセッサ」によって実行されると記載する場合、これは、複数の機能が任意の数のコンピューティングデバイス(1つまたは複数)の任意の数のプロセッサ(1つまたは複数)によって実行される実施形態を包含する。さらに、1つの機能が「プロセッサ」によって実行されると記載する場合、これは、その機能が任意の数のコンピューティングデバイス(1つまたは複数)の任意の数のプロセッサ(1つまたは複数)によって実行される実施形態を包含する(例えば、分散コンピューティングシステムにおいて)。
【0119】
メモリ704は、コンピューティングデバイス700内で情報を記憶する。ある実施態様では、メモリ704は、単数または複数の揮発性メモリユニットである。ある実施態様では、メモリ704は、単数または複数の不揮発性メモリユニットである。メモリ704は、磁気ディスクまたは光学ディスクなど、別の形態のコンピュータ可読媒体でもあり得る。
【0120】
記憶装置706は、コンピューティングデバイス700に対して大容量記憶を行う能力を有する。ある実施態様において、記憶装置706は、コンピュータ可読媒体であり得、またはコンピュータ可読媒体を含み得る。媒体は、例えば、フロッピー(登録商標)ディスクデバイス、ハードディスクデバイス、光学ディスクデバイス、もしくはテープデバイス、フラッシュメモリもしくは他の類似のソリッドステートメモリデバイス、ストレージエリアネットワークもしくは他の構成におけるデバイスを含むデバイスのアレイなどである。命令は、情報担体に記憶され得る。命令は、1つ以上の処理デバイス(例えば、プロセッサ702)によって実行されるとき、上記で説明した方法など、1つ以上の方法を実行する。命令はまた、コンピュータ可読媒体または機械可読媒体などの1つ以上の記憶装置(例えば、メモリ704、記憶装置706、またはプロセッサ702上のメモリ)に記憶され得る。
【0121】
高速インタフェース708は、コンピューティングデバイス700に対して帯域幅集中型オペレーションを管理し、一方、低速インタフェース712は、より低い帯域幅集中型オペレーションを管理する。そのような機能の割り当ては、一例にすぎない。ある実施態様において、高速インタフェース708は、メモリ704、ディスプレイ716(例えば、グラフィックプロセッサまたはアクセラレータを通じて)、及び様々な拡張カード(図示しない)を受け入れ得る高速拡張ポート710に接続される。この実施態様において、低速インタフェース712は、記憶装置706及び低速拡張ポート714に接続される。様々な通信ポート(例えば、USB、Bluetooth(登録商標)、イーサネット(登録商標)、無線イーサネット(登録商標))を含み得る低速拡張ポート714は、例えば、ネットワークアダプタを通じて、キーボード、ポインティングデバイス、スキャナなどの1つ以上の入力/出力デバイス、またはスイッチもしくはルータなどネットワーキングデバイスに接続され得る。
【0122】
コンピューティングデバイス700は、図に示すように、いくつかの異なる形態で実施され得る。例えば、それは、標準サーバ720として、またはそのようなサーバのグループにおいて複数回、実施され得る。加えて、それは、ラップトップコンピュータ722などのパーソナルコンピュータにおいて実施され得る。それはまた、ラックサーバシステム724の一部として実施され得る。代わりに、コンピューティングデバイス700からのコンポーネントは、モバイルコンピューティングデバイス750などのモバイルデバイス(図示しない)における他のコンポーネントと組み合わされ得る。そのようなデバイスの各々は、コンピューティングデバイス700及びモバイルコンピューティングデバイス750のうちの1つ以上を含み得、システム全体は、相互に通信する複数のコンピューティングデバイスから構成され得る。
【0123】
モバイルコンピューティングデバイス750は、他のコンポーネントの中で、プロセッサ752、メモリ764、ディスプレイ754などの入力/出力デバイス、通信インタフェース766、及び送受信機768を含む。またモバイルコンピューティングデバイス750には、追加の記憶を提供するため、マイクロドライブまたは他のデバイスなどの記憶装置が設けられ得る。プロセッサ752、メモリ764、ディスプレイ754、通信インタフェース766、及び送受信機768の各々は、様々なバスにより相互接続され、コンポーネントのいくつかは、必要に応じて共通のマザーボード上にまたは他の形態で搭載され得る。
【0124】
プロセッサ752は、モバイルコンピューティングデバイス750内で命令(メモリ764に記憶された命令を含む)を実行することができる。プロセッサ752は、別個で複数のアナログプロセッサ及びデジタルプロセッサを含むチップのチップセットとして実装され得る。プロセッサ752は、例えば、ユーザインタフェースの制御、モバイルコンピューティングデバイス750によって実行されるアプリケーション、及びモバイルコンピューティングデバイス750による無線通信など、モバイルコンピューティングデバイス750の他のコンポーネントの調整に対応し得る。
【0125】
プロセッサ752は、制御インタフェース758及びディスプレイ754に接続されたディスプレイインタフェース756を通じてユーザと通信し得る。ディスプレイ754は、例えば、TFTディスプレイ(薄膜-トランジスタ液晶ディスプレイ)もしくはOLED(有機発光ダイオード)ディスプレイ、または他の適切なディスプレイ技術であり得る。ディスプレイインタフェース756は、グラフィカル情報及び他の情報をユーザに提供するようにディスプレイ754を駆動するための適切な回路を含み得る。制御インタフェース758は、ユーザからコマンドを受け取り得、プロセッサ752へ送るためにそれらを変換し得る。加えて、外部インタフェース762は、他のデバイスとのモバイルコンピューティングデバイス750の短距離通信を可能にするように、プロセッサ752との通信を可能にし得る。外部インタフェース762は、ある実施態様では、例えば、有線通信を提供し得、他の実施態様では、無線通信を提供し得、複数のインタフェースも使用され得る。
【0126】
メモリ764は、モバイルコンピューティングデバイス750内で情報を記憶する。メモリ764は、単数または複数のコンピュータ可読媒体、単数または複数の揮発性メモリユニット、または単数または複数の不揮発性メモリユニットのうちの1つ以上として実装することができる。拡張メモリ774も設けることができ、それは、拡張インタフェース772を通じてモバイルコンピューティングデバイス750に接続することができ、拡張インタフェース772は、例えば、シム(シングル・インライン・メモリー・モジュール)カードインタフェースを含み得る。拡張メモリ774は、モバイルコンピューティングデバイス750に対して追加の記憶スペースを提供し得、あるいは、モバイルコンピューティングデバイス750に対してアプリケーションもしくは他の情報も記憶し得る。特に、拡張メモリ774は、上述したプロセスを実施または補完する命令を含み得、セキュア情報も含み得る。したがって、例えば、拡張メモリ774は、モバイルコンピューティングデバイス750のためのセキュリティモジュールとして提供され得、モバイルコンピューティングデバイス750の安全な使用を可能にする命令でプログラムされ得る。加えて、ハッキングできない方式においてシムカードに識別情報を配置することなど、追加の情報と共に、シムカードを介してセキュアアプリケーションが提供され得る。
【0127】
メモリは、例えば、以下で述べるように、フラッシュメモリ及び/またはNVRAMメモリ(不揮発性ランダムアクセスメモリ)を含み得る。ある実施形態において、命令は、情報担体に記憶される。命令は、1つ以上の処理デバイス(例えば、プロセッサ752)によって実行されるとき、上述したような方法などの、1つ以上の方法を実行する。命令はまた、1つ以上のコンピュータ可読媒体または機械可読媒体などの1つ以上の記憶装置(例えば、メモリ764、拡張メモリ774、またはプロセッサ752上のメモリ)に記憶され得る。ある実施態様において、命令は、送受信機768または外部インタフェース762を通じて、伝播信号により受け取ることができる。
【0128】
モバイルコンピューティングデバイス750は、必要な場合、デジタル信号処理回路を含み得る、通信インタフェース766を通じて無線で通信し得る。通信インタフェース766は、とりわけ、GSM(登録商標)ボイスコール(グローバルシステムフォーモバイルコミュニケーション)、SMS(ショートメッセージサービス)、EMS(エンハンストメッセージングサービス)、またはMMSメッセージング(マルチメディアメッセージングサービス)、CDMA(符号分割多重アクセス)、TDMA(時分割多重アクセス)、PDC(パーソナルデジタルセルラー)、WCDMA(登録商標)(ワイドバンド符号分割多重アクセス)、CDMA2000、またはGPRS(ジェネラルパケットラジオサービス)など、様々なモードまたはプロトコル下での通信に対応し得る。そのような通信は、例えば、無線周波数により送受信機768を通じて行われ得る。加えて、Bluetooth(登録商標)、Wi-Fi(商標)、または他のそのような送受信機(図示しない)などにより、短距離通信が行われ得る。加えて、GPS(グローバルポジショニングシステム)受信機モジュール770により、追加のナビゲーションデータ及び位置関連無線データをモバイルコンピューティングデバイス750に送ることができ、そのようなデータは、必要に応じてモバイルコンピューティングデバイス750上で稼働するアプリケーションによって使用され得る。
【0129】
モバイルコンピューティングデバイス750も、音声コーデック760を使用して聴覚的に通信し得、音声コーデック760は、ユーザから発話された情報を受け取り得、それを使用可能なデジタル情報に変換し得る。音声コーデック760は同様に、例えば、モバイルコンピューティングデバイス750のハンドセットにおいて、スピーカなどを通じてユーザに対する可聴音を生成し得る。そのような音は、ボイステレフォンコールからの音を含み得、記録された音(例えば、ボイスメッセージ、ミュージックファイルなど)を含み得、モバイルコンピューティングデバイス750上で動作するアプリケーションによって生成された音をも含み得る。
【0130】
モバイルコンピューティングデバイス750は、図に示すように、いくつかの異なる形式において実装され得る。例えば、それは、携帯電話760として実装され得る。それはまた、スマートフォン782、パーソナルデジタルアシスタント、または他の類似のモバイルデバイスの一部として実装され得る。
【0131】
ここで説明されるシステム及び技術の様々な実施態様は、デジタル電子回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/またはそれらの組み合わせにおいて実現することができる。これら様々な実施態様は、1つ以上のコンピュータプログラムにおける実施を含み得る。コンピュータプログラムは、プログラム可能なシステム上で実行可能かつ/または翻訳処理可能であり、そのようなシステムは、少なくとも1つのプログラム可能なプロセッサを備え、そのようなプロセッサは、特定用途または一般用途向けであり得、ストレージシステム、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスからデータ及び命令を受け取り、それらにデータ及び命令を送るようにそれらに接続され得る。
【0132】
それらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)は、プログラム可能プロセッサに対する機械命令を含み、高レベル手続き型プログラミング言語及び/またはオブジェクト指向プログラミング言語、及び/またはアセンブリ/機械言語において実行することができる。本明細書で使用される機械可読媒体及びコンピュータ可読媒体という用語は、プログラム可能なプロセッサに機械命令及び/またはデータを提供するために使用される任意のコンピュータプログラム製品、装置、及び/またはデバイス(例えば、磁気ディスク、光学ディスク、メモリ、プログラマブル論理回路(PLD))を指し、これは、機械可読信号として機械命令を受け取る機械可読媒体を含む。機械可読信号という用語は、プログラム可能なプロセッサに機械命令及び/またはデータを提供するために使用される任意の信号を指す。
【0133】
ユーザとのやりとりを行うために、本明細書に記載のシステム及び技術を、コンピュータ上で実施することができ、そのようなコンピュータは、ユーザに情報を表示するための表示デバイス(例えばCRT(陰極線管)またはLCD(液晶画面)モニタ)ならびにユーザがそれによってコンピュータへの入力を行うことができるキーボード及びポインティングデバイス(例えば、マウスやトラックボール)を有する。同様に、ユーザとのインタラクションを行うために、その他の種類のデバイスが使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形式の知覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、または触知的フィードバック)であり得、ユーザからの入力は、音響入力、発話入力、または触知的入力を含む、任意の形式において受け取ることができる。
【0134】
本明細書で説明されるシステム及び技術は、コンピューティングシステムにおいて実施することができる。そのようなコンピューティングシステムは、バックエンドコンポーネント(例えば、データサーバとして)を含むもの、あるいは、ミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含むもの、あるいは、フロントエンドコンポーネントを含むもの(例えば、ユーザがここで説明されるシステム及び技術の実施態様とインタラクトすることができるグラフィカルユーザインタフェースまたはウェブブラウザを有するクライアントコンピュータ)、あるいはバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むものである。システムのコンポーネントは、任意の形式またはデジタルデータ通信の媒体(例えば、通信ネットワーク)によって相互接続され得る。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットを含む。
【0135】
コンピューティングシステムは、クライアント及びサーバを含み得る。クライアント及びサーバは一般的に、相互にリモートであり、典型的には、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、それぞれのコンピュータ上で動作し、クライアントとサーバとの関係を互いに有するコンピュータプログラムにより生じる。
【0136】
ある実装形態では、本明細書に説明される特定のモジュールが、分離され、組み合わされ、または単一または組み合わされたモジュールに組み込まれ得る。図に示されるモジュールはいずれも、本明細書に記載されるシステムを図示するソフトウェアアーキテクチャに限定することを意図するものではない。
【0137】
本明細書に記載の異なる実施態様の要素を組み合わせて、上記に具体的に記載されていない他の実施態様を作ることができる。要素は、それらの動作に悪影響を与えることなく、本明細書に記載されているプロセス、コンピュータプログラム、データベースなどから除外してもよい。さらに、図示した論理フローは、望ましい結果を達成するために、示されている特定の順序または連続した順序を必要とするものではない。本明細書で説明する機能を実行するために、様々な個別の要素を1つ以上の個別の要素に組み合わせることができる。
【0138】
本発明を、特定の好ましい実施形態を参照して具体的に示し、説明してきたが、当業者に明らかなとおり、添付の特許請求の範囲に規定される本発明の主旨及び範囲から逸脱することなく、形態及び詳細の様々な変更が行われてもよい。
図1
図2
図3
図4A
図4B
図5
図6
図7
図8A
図8B
図9
図10A
図10B
図11
図12
図13
図14
【国際調査報告】