(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-05
(45)【発行日】2024-07-16
(54)【発明の名称】情報処理システム、情報処理方法、プログラム、及び、抗原結合分子或いはタンパク質を製造する方法
(51)【国際特許分類】
G16B 40/20 20190101AFI20240708BHJP
【FI】
G16B40/20
(21)【出願番号】P 2021524948
(86)(22)【出願日】2020-06-08
(86)【国際出願番号】 JP2020022576
(87)【国際公開番号】W WO2020246617
(87)【国際公開日】2020-12-10
【審査請求日】2023-06-07
(31)【優先権主張番号】P 2019106814
(32)【優先日】2019-06-07
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000003311
【氏名又は名称】中外製薬株式会社
(74)【代理人】
【識別番号】100088155
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100128381
【氏名又は名称】清水 義憲
(74)【代理人】
【識別番号】100144440
【氏名又は名称】保坂 一之
(72)【発明者】
【氏名】寺本 礼仁
(72)【発明者】
【氏名】目次 正一
(72)【発明者】
【氏名】角崎 太郎
(72)【発明者】
【氏名】坂 晃一郎
(72)【発明者】
【氏名】古賀 光
(72)【発明者】
【氏名】三瓶 全次郎
【審査官】鈴木 和樹
(56)【参考文献】
【文献】米国特許出願公開第2019/0065677(US,A1)
【文献】特表2005-526518(JP,A)
【文献】米国特許出願公開第2011/0312505(US,A1)
【文献】国際公開第2018/227167(WO,A1)
【文献】国際公開第2006/004182(WO,A1)
【文献】特開2020-077206(JP,A)
【文献】Derek M Mason et al.,Deep learning enables therapeutic antibody optimization in mammalian cells by deciphering high-dimensional protein sequence space,[online],2019年06月02日,[令和6年3月1日検索],<URL:https://www.biorxiv.org/content/10.1101/617860v3>,DOI:https://doi.org/10.1101/617860
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
G06N 3/04
20/00
(57)【特許請求の範囲】
【請求項1】
複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む第1配列を表す第1配列情報に基づく機械学習により生成された第1学習済みモデルに基づいて、前記第1配列情報が表す第1配列を構成する構成単位の少なくとも1つを変異させた少なくとも一つの仮想配列情報を生成する配列生成部と、
前記仮想配列情報を、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む第2配列を表す第2配列情報、及び、当該第2配列が表す抗原結合分子或いはタンパク質についての特性評価の結果に基づく機械学習によって得られた第2学習済みモデルに入力し、前記第2学習済みモデルの演算処理を実行することで
、入力した仮想配列情報が表す配列の抗原結合分子或いはタンパク質についての特性評価の予測値を推定する推定部と、
を備え
、
前記第1学習済みモデルは、抗原結合分子或いはタンパク質の特性評価の複数の特性から選択された1以上の特性が当該特性の選択条件を充足する前記抗原結合分子或いはタンパク質についての前記第1配列情報に基づいて、当該第1配列情報が表す第1配列の特徴を学習したものである、
情報処理システム。
【請求項2】
前記推定部により推定された予測値
が高い順に優先して前記仮想配列情報を出力する出力部
を備える請求項1に記載の情報処理システム。
【請求項3】
前記配列生成部は複数の仮想配列情報を出力し、
前記出力部は、前記第2学習済みモデルに入力された複数の前記仮想配列情報のうち、
前記予測値が高い順に優先して少なくとも1つの
仮想配列情報
を出力する、
請求項2に記載の情報処理システム。
【請求項4】
前記特性評価の結果は、親和性評価の評価結果情報を含む、
請求項1から3のいずれか一項に記載の情報処理システム。
【請求項5】
前記特性評価
の結果は、次世代シーケンサで解析された、異なる複数の抗原結合分子の各々の配列の一部或いは全部を含む第2配列
の個数に基づく出現頻度
と、前記特性評価間の当該出現頻度の変化率
とのいずれか
を含む、
請求項1から
4のいずれか一項に記載の情報処理システム。
【請求項6】
前記予測値は、入力された仮想配列情報に対
して、標的抗原との親和性を表す尤度に基づく、
請求項
5に記載の情報処理システム。
【請求項7】
前記抗原結合分子の前記第1配列情報は、次世代シーケンサで解析された配列の個数に基づく出現頻度が所定の閾値より高い抗体を示す、
請求項1から6のいずれか一項に記載の情報処理システム。
【請求項8】
前記
第2配列情報により示される抗原結合分子が2以上の異なる配列を含む抗原結合分子であって、
次世代シーケンサで解析された、当該抗原結合分子を構成する異なる複数の配列の
それぞれの個数に基づく出現頻度に基づいて、前記複数の配列を組み合わせた抗原結合分子を推定する配列推定部
を備える請求項1から
7のいずれか一項に記載の情報処理システム。
【請求項9】
前記特性評価は、前記抗原結合分子の親和性評価、物性評価、薬理活性評価、安全性評価、動態評価、又は、製造適性評価の少なくとも1つである、
請求項1から
8のいずれか一項に記載の情報処理システム。
【請求項10】
予め設定された配列上の部位であって1以上の前記構成単位から構成される部位について、少なくとも1つの前記構成単位を変更することで、前記仮想配列情報を生成する、
請求項1から
9のいずれか一項に記載の情報処理システム。
【請求項11】
複数の前記部位は、抗体の重鎖可変領域、軽鎖可変領域又は定常領域のいずれかの配列中に含まれる、
請求項
10に記載の情報処理システム。
【請求項12】
前記第1学習済みモデルを生成する配列学習部および前記第2学習済みモデルを生成する特性予測学習部を備える
請求項1から
9のいずれか一項に記載の情報処理システム。
【請求項13】
前記第
1配列情報は、当該第1配列情報が表す第1配列の抗原結合分子或いはタンパク質についての特性評価の結果に応じて選択された配列情報である、
請求項1から
12のいずれか一項に記載の情報処理システム。
【請求項14】
前記配列生成部は、前記第1学習済みモデルに基づいて生成された配列を表す配列情報、及び、当該配列が表す抗原結合分子或いはタンパク質についての特性評価の結果に基づく機械学習によって、新たな仮想配列情報を生成し、
前記推定部は、前記新たな仮想配列情報を前記第2学習済みモデルに入力し、入力した新たな仮想配列情報が表す配列の抗原結合分子或いはタンパク質についての特性評価の予測値を推定する
請求項1から
13のいずれか一項に記載の情報処理システム。
【請求項15】
前記配列学習部は、深層学習モデル又は確率モデルを用いて前記機械学習を行う、
請求項
12に記載の情報処理システム。
【請求項16】
前記配列学習部は、深層学習モデルを用いて前記機械学習を行い、
前記深層学習モデルとして、Long short―term memory(LSTM)、再帰型ニューラルネットワーク(RNN)、Gated Recurrent Unit(GRU)、Generative Adversarial Network(GAN)、又は、Variational Autoencoder(VAE)のいずれかを用いて前記機械学習を行う、
請求項
15に記載の情報処理システム。
【請求項17】
前記配列学習部は、確率モデルを用いて前記機械学習を行い、前記確率モデルとして、隠れマルコフモデル(HMM)、又はマルコフモデル(MM)のいずれかを用いて前記機械学習を行う、
請求項
15に記載の情報処理システム。
【請求項18】
前記配列学習部は、文字列、数値ベクトル、又は、配列を構成する構成単位の物性量のいずれかで表された前記第1配列情報に基づいて、前記機械学習を行う、
請求項
12又は請求項
15から請求項
17のいずれか一項に記載の情報処理システム。
【請求項19】
情報処理システムにおける情報処理方法であって、
複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む第1配列を表す第1配列情報に基づく機械学習により生成された第1学習済みモデルに基づいて、前記第1配列情報が表す第1配列を構成する構成単位の少なくとも1つを変異させた少なくとも一つの仮想配列情報を生成する配列生成過程と、
前記仮想配列情報を、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む第2配列を表す第2配列情報、及び、当該第2配列が表す抗原結合分子或いはタンパク質についての特性評価の結果に基づく機械学習によって得られた第2学習済みモデルに入力し、前記第2学習済みモデルの演算処理を実行することで
、入力した仮想配列情報が表す配列の抗原結合分子或いはタンパク質についての特性評価の予測値を推定する推定過程と、
を有
し、
前記第1学習済みモデルは、抗原結合分子或いはタンパク質の特性評価の複数の特性から選択された1以上の特性が当該特性の選択条件を充足する前記抗原結合分子或いはタンパク質についての前記第1配列情報に基づいて、当該第1配列情報が表す第1配列の特徴を学習したものである、
情報処理方法。
【請求項20】
前記推定過程により推定された予測値
が高い順に優先して前記仮想配列情報を出力する出力過程を有する、
請求項
19に記載の情報処理方法。
【請求項21】
前記配列生成過程で、複数の仮想配列情報を出力し、
前記出力過程で、前記第2学習済みモデルに入力された複数の前記仮想配列情報のうち、
前記予測値が高い順に優先して少なくとも1つの
仮想配列情報
を出力する、
請求項
20に記載の情報処理方法。
【請求項22】
情報処理システムのコンピュータに、
複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む第1配列を表す第1配列情報に基づく機械学習により生成された第1学習済みモデルに基づいて、前記第1配列情報が表す第1配列を構成する構成単位の少なくとも1つを変異させた少なくとも一つの仮想配列情報を生成する配列生成手順と、
前記仮想配列情報を、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む第2配列を表す第2配列情報、及び、当該第2配列が表す抗原結合分子或いはタンパク質についての特性評価の結果に基づく機械学習によって得られた第2学習済みモデルに入力し、前記第2学習済みモデルの演算処理を実行することで
、入力した仮想配列情報が表す配列の抗原結合分子或いはタンパク質についての特性評価の予測値を推定する推定手順と、
を実行させ
、
前記第1学習済みモデルは、抗原結合分子或いはタンパク質の特性評価の複数の特性から選択された1以上の特性が当該特性の選択条件を充足する前記抗原結合分子或いはタンパク質についての前記第1配列情報に基づいて、当該第1配列情報が表す第1配列の特徴を学習したものである、
プログラム。
【請求項23】
請求項
22に記載のプログラムであって、
さらに、
前記第1配列情報に基づいて機械学習を行うことで前記第1学習済みモデルを生成する配列学習手順
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理方法、プログラム、及び、抗原結合分子或いはタンパク質を製造する方法に関する。
本願は、2019年6月7日に日本に出願された特願2019-106814号について優先権を主張し、その内容をここに援用する。
【背景技術】
【0002】
近年、医薬分野において、機械学習の情報処理技術が活用されている。
例えば、特許文献1に記載の技術では、機械学習エンジンは、様々な抗体を示す親和性情報、及び抗原に対する抗体の親和性を用いて訓練される。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、医薬分野の機械学習では、訓練後の学習済みモデルを用いて、所望の抗原結合分子の配列等の情報を予測し、その情報を提供することが求められている。
【0005】
本発明は、上記の課題を解決すべくなされたもので、その目的は、所望の抗原結合分子或いはタンパク質の情報を提供することができる情報処理システム、情報処理方法、プログラム、及び、抗原結合分子或いはタンパク質を製造する方法を提供することにある。
【課題を解決するための手段】
【0006】
本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、複数の抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習を行うことで、前記配列の特徴を学習した学習済みモデルを生成する配列学習部と、前記学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも1つを変異させた仮想配列情報を生成する配列生成部と、を備える情報処理システムである。
【0007】
また、本発明の一態様は、複数のタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習を行うことで、前記配列の特徴を学習した学習済みモデルを生成する配列学習部と、前記学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも1つを変異させた仮想配列情報を生成する配列生成部と、を備える情報処理システムである。
【0008】
また、本発明の一態様は、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該配列が表す抗原結合分子或いはタンパク質についての特性評価の結果に基づいて機械学習を行うことで、第2学習済みモデルを生成する学習部を備え、上記の学習済みモデルである第1学習済みモデルに基づいて生成された仮想配列情報を第2学習済みモデルに入力し、前記第2学習済みモデルの演算処理を実行することで、入力した仮想配列情報が表す配列の抗原結合分子或いはタンパク質についての特性評価の予測値を推定する推定部を備える情報処理システムである。
【0009】
また、本発明の一態様は、情報処理システムにおける情報処理方法であって、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習を行うことで、前記配列情報の特徴を学習した学習済みモデルを生成する配列学習過程と、前記学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも1つを変異させた仮想配列情報を生成する配列生成過程と、を有する情報処理方法である。
【0010】
また、本発明の一態様は、情報処理システムのコンピュータに、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習を行うことで学習済みモデルを生成する配列学習手順、前記学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも1つを変異させた仮想配列情報を生成する配列生成手順、を実行させるためのプログラムである。
【0011】
また、本発明の一態様は、上記情報処理システムを用いて、特性評価の予測値を推定された仮想配列が表す抗原結合分子或いはタンパク質を製造する方法である。
【発明の効果】
【0012】
本発明によれば、所望の抗原結合分子或いはタンパク質の情報を提供することができる。
【図面の簡単な説明】
【0013】
【
図1】第1実施形態に係る情報処理システムの一例を示す概要図である。
【
図2】本実施形態に係る一連のパニングの一例を説明するための説明図である。
【
図3】本実施形態に係るユーザ端末の一例を示すブロック図である。
【
図4】本実施形態に係る画面フローの一例を示す図である。
【
図5】本実施形態に係る次世代シーケンサの一例を示すブロック図である。
【
図6】本実施形態に係るサーバの一例を示すブロック図である。
【
図7】本実施形態に係る実験情報の一例を示す図である。
【
図8】本実施形態に係る実験属性情報の一例を示す図である。
【
図9】本実施形態に係るデータセットの一例を示す図である。
【
図10】本実施形態に係るデータセットの別の一例を示す図である。
【
図11】本実施形態に係る学習データセットの一例を示す図である。
【
図12】本実施形態に係る予測対象配列情報の一例を示す図である。
【
図13】本実施形態に係る特性評価情報の一例を示す図である。
【
図14】本実施形態に係る学習処理の一例を説明する説明図である。
【
図15】本実施形態に係るLSTMの構造を表す概念図である。
【
図16】本実施形態に係る仮想配列生成部の動作の一例を示すフローチャートである。
【
図17】本実施形態に係るサーバの動作の一例を示すフローチャートである。
【
図18】本実施形態に係るサーバの動作の別の一例を示すフローチャートである。
【
図19】第2実施形態に係るサーバの一例を示すブロック図である。
【
図20】本実施形態に係るデータセットの一例を示す図である。
【
図21】本実施形態に係るデータセットの別の一例を示す図である。
【
図22】第3実施形態に係るサーバの一例を示すブロック図である。
【
図23】本実施形態に係る学習モデルの概要を示す図である。
【
図24】第4実施形態に係るユーザ端末の一例を示すブロック図である。
【
図25】本実施形態に係るサーバの一例を示すブロック図である。
【
図26】本実施形態に係る配列情報の一例を示す図である。
【
図27】本実施形態に係る特性情報の一例を示す図である。
【
図28】本実施形態に係るセンサグラムの一例を示す図である。
【
図29】本実施形態に係る予測対象配列情報の一例を示す図である。
【
図30】本実施形態に係る評価結果情報の一例を示す図である。
【
図31】本実施形態に係る学習処理の一例を説明する説明図である。
【
図32】本実施形態に係る評価処理の一例を説明する説明図である。
【
図33】本実施形態に係るサーバの動作の一例を示すフローチャートである。
【
図34】本実施形態に係るサーバの動作の別の一例を示すフローチャートである。
【
図35】第5実施形態に係るサーバの一例を示すブロック図である。
【
図36】実施例に係る情報処理システムの動作の一例を示すフローチャートである。
【
図37】実施形態に係るサーバのハードウェア構成の一例を示すブロック図である。
【
図38】第4、第5実施形態に係る構造解析情報の一例を示す図である。
【
図39】実施例に係る配列と特性の関係を示す図である。
【
図40】実施例に係る配列の特性の予測精度を示す図である。
【
図41】実施例に係る訓練配列と仮想配列との類似性を示す図である。
【
図42】実施例に係る訓練配列と仮想配列との類似性を示す別の図である。
【
図43A】実施例に係る配列の特性の予測値と実測値の相関を示す図である。
【
図43B】実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。
【
図43C】実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。
【
図43D】実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。
【
図43E】実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。
【
図43F】実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。
【
図43G】実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。
【
図43H】実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。
【
図43I】実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。
【
図44A】他実施例に係る配列の特性の予測値と実測値の相関を示す図である。
【
図44B】他実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。
【
図44C】他実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。
【
図44D】他実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。
【
図44E】他実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。
【
図44F】他実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。
【
図44G】他実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。
【
図44H】他実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。
【
図44I】他実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。
【
図45】実施例に係る配列の特性が向上していることを説明するための図である。
【発明を実施するための形態】
【0014】
<用語等>
以下の定義および詳細な説明は、本明細書において説明する本開示の理解を容易にするために提供される。
【0015】
・アミノ酸
本明細書において、たとえば、Ala/A、Leu/L、Arg/R、Lys/K、Asn/N、Met/M、Asp/D、Phe/F、Cys/C、Pro/P、Gln/Q、Ser/S、Glu/E、Thr/T、Gly/G、Trp/W、His/H、Tyr/Y、Ile/I、Val/Vと表されるように、アミノ酸は1文字コードまたは3文字コード、またはその両方で表記されている。
【0016】
・アミノ酸の改変
抗原結合分子のアミノ酸配列中のアミノ酸の改変のためには、部位特異的変異誘発法(Kunkelら(Proc. Natl. Acad. Sci. USA (1985) 82, 488-492))やOverlap extension PCR等の公知の方法が適宜採用され得る。また、天然のアミノ酸以外のアミノ酸に置換するアミノ酸の改変方法として、複数の公知の方法もまた採用され得る(Annu. Rev. Biophys. Biomol. Struct. (2006) 35, 225-249、Proc. Natl. Acad. Sci. U.S.A. (2003) 100 (11), 6353-6357)。例えば、終止コドンの1つであるUAGコドン(アンバーコドン)の相補的アンバーサプレッサーtRNAに非天然アミノ酸が結合されたtRNAが含まれる無細胞翻訳系システム(Clover Direct(Protein Express))等も好適に用いられる。
【0017】
・抗原
本明細書において「抗原」は抗原結合ドメインが結合するエピトープを含む限りその構造は特定の構造に限定されない。ある態様において、抗原は4アミノ酸以上のペプチド、またはポリペプチド、またはタンパク質である。
上記の抗原の例示には、細胞膜に発現する膜型分子、および細胞から細胞外に分泌される可溶型分子が含まれる。
【0018】
・抗原結合ドメイン
本明細書において、「抗原結合ドメイン」は目的とする抗原に結合するかぎりどのような構造のドメインも使用され得る。そのようなドメインの例として、例えば、抗体の重鎖および軽鎖の可変領域、生体内に存在する細胞膜タンパクであるAvimerに含まれる35アミノ酸程度のAドメインと呼ばれるモジュール(国際公開WO2004/044011、WO2005/040229)、細胞膜に発現する糖タンパク質であるfibronectin中のタンパク質に結合するドメインである10Fn3ドメインを含むAdnectin(国際公開WO2002/032925)、ProteinAの58アミノ酸からなる3つのヘリックスの束(bundle)を構成するIgG結合ドメインをscaffoldとするAffibody(国際公開WO1995/001937)、33アミノ酸残基を含むターンと2つの逆並行ヘリックスおよびループのサブユニットが繰り返し積み重なった構造を有するアンキリン反復(ankyrin repeat:AR)の分子表面に露出する領域であるDARPins(Designed Ankyrin Repeat proteins)(国際公開WO2002/020565)、好中球ゲラチナーゼ結合リポカリン(neutrophil gelatinase-associated lipocalin(NGAL))等のリポカリン分子において高度に保存された8つの逆並行ストランドが中央方向にねじれたバレル構造の片側を支える4つのループ領域であるAnticalin等(国際公開WO2003/029462)、ヤツメウナギ、ヌタウナギなど無顎類の獲得免疫システムとしてイムノグロブリンの構造を有さない可変性リンパ球受容体(variable lymphocyte receptor(VLR))のロイシン残基に富んだリピート(leucine-rich-repeat(LRR))モジュールが繰り返し積み重なった馬てい形の構造の内部の並行型シート構造のくぼんだ領域(国際公開WO2008/016854)が好適に挙げられる。
本開示の抗原結合ドメインの好適な例として、抗体の重鎖および軽鎖の可変領域を含む抗原結合ドメインが挙げられる。こうした抗原結合ドメインの例としては、「scFv(single chain Fv)」、「単鎖抗体(single chain antibody)」、「Fv」、「scFv2(single chain Fv 2)」、「Fab」または「F(ab')2」等が好適に挙げられる。
【0019】
・抗原結合分子
本開示において、抗原結合ドメインを含む抗原結合分子は最も広義な意味として使用されており、具体的には、それらが抗原結合ドメインを含む限り、様々な分子型が含まれる。抗原結合分子は、抗原結合ドメインのみからなる分子であっても良く、抗原結合ドメイン及び他のドメインを含む分子であっても良い。例えば、抗原結合分子が抗原結合ドメインとFc領域が結合した分子で有る場合、例として、完全抗体や抗体断片が挙げられる。抗体には、単一のモノクローナル抗体(アゴニストおよびアンタゴニスト抗体を含む)、ヒト抗体、ヒト化抗体、キメラ抗体等が含まれ得る。既存の安定なα/βバレルタンパク質構造等の立体構造が scaffold(土台)として用いられ、その一部分の構造のみが抗原結合ドメインの構築のためにライブラリ化されたスキャフォールド分子も、本開示の抗原結合分子に含まれ得る。
【0020】
・抗体
本明細書において、抗体とは、天然のものであるかまたは部分的もしくは完全合成により製造された免疫グロブリンの全長もしくは免疫グロブリンの部分配列を含む抗原結合分子をいう。抗体はそれが天然に存在する血漿や血清等の天然資源や抗体を産生するハイブリドーマ細胞の培養上清から単離され得るし、または遺伝子組換え等の手法を用いることによって部分的にもしくは完全に合成され得る。抗体の例としては免疫グロブリンのアイソタイプおよびそれらのアイソタイプのサブクラスが好適に挙げられる。ヒトの免疫グロブリンとして、IgG1、IgG2、IgG3、IgG4、IgA1、IgA2、IgD、IgE、IgMの9種類のクラス(アイソタイプ)が知られている。本開示の抗体には、これらのアイソタイプのうちIgG1、IgG2、IgG3、IgG4が含まれ得る。ヒトIgG1、ヒトIgG2、ヒトIgG3、ヒトIgG4定常領域としては、遺伝子多型による複数のアロタイプ配列がSequences of proteins of immunological interest, NIH Publication No.91-3242 に記載されているが、本開示においてはそのいずれであっても良い。特にヒトIgG1の配列としては、EUナンバリングで表される356-358位のアミノ酸配列がDELであってもEEMであってもよい。また、ヒトIgκ(Kappa)定常領域とヒトIgλ (Lambda)定常領域としては、遺伝子多型による複数のアロタイプ配列がSequences of proteins of immunological interest, NIH Publication No.91-3242に記載されているが、本開示においてはそのいずれであっても良い。
【0021】
・EUナンバリングおよびKabatナンバリング
本開示で使用されている方法によると、抗体のCDRとFRに割り当てられるアミノ酸位置はKabatにしたがって規定される(Sequences of Proteins of Immunological Interest(National Institute of Health, Bethesda, Md., 1987年および1991年)。本明細書において、抗原結合分子が抗体または抗原結合断片である場合、可変領域のアミノ酸はKabatナンバリングにしたがい、定常領域のアミノ酸はKabatのアミノ酸位置に準じたEUナンバリングにしたがって表される。
【0022】
・可変領域
用語「可変領域」または「可変ドメイン」は、抗体を抗原へと結合させることに関与する、抗体の重鎖または軽鎖のドメインのことをいう。天然型抗体の重鎖および軽鎖の可変ドメイン(それぞれVHおよびVL)は、通常、各ドメインが4つの保存されたフレームワーク領域 (FR) および3つの超可変領域 (HVR) を含む、類似の構造を有する。(例えば、Kindt et al. Kuby Immunology, 6th ed., W.H. Freeman and Co., page 91 (2007) 参照。)1つのVHまたはVLドメインで、抗原結合特異性を与えるに充分であろう。さらに、ある特定の抗原に結合する抗体は、当該抗原に結合する抗体からのVHまたはVLドメインを使ってそれぞれVLまたはVHドメインの相補的ライブラリをスクリーニングして、単離されてもよい。例えばPortolano et al., J. Immunol. 150:880-887 (1993); Clarkson et al., Nature 352:624-628 (1991) 参照。
【0023】
・超可変領域
本明細書で用いられる用語「超可変領域」または「HVR」は、配列において超可変であり(「相補性決定領域」または「CDR」(complementarity determining region))、および/または構造的に定まったループ(「超可変ループ」)を形成し、および/または抗原接触残基(「抗原接触」)を含む、抗体の可変ドメインの各領域のことをいう。通常、抗体は6つのHVRを含む:VHに3つ(H1、H2、H3)、およびVLに3つ(L1、L2、L3)である。本明細書での例示的なHVRは、以下のものを含む:
(a) アミノ酸残基26-32 (L1)、50-52 (L2)、91-96 (L3)、26-32 (H1)、53-55 (H2)、および96-101 (H3)のところで生じる超可変ループ (Chothia and Lesk, J. Mol. Biol. 196:901-917 (1987));
(b) アミノ酸残基24-34 (L1)、50-56 (L2)、89-97 (L3)、31-35b (H1)、50-65 (H2)、 および95-102 (H3)のところで生じるCDR (Kabat et al., Sequences of Proteins of Immunological Interest, 5th Ed. Public Health Service, National Institutes of Health, Bethesda, MD (1991));
(c) アミノ酸残基27c-36 (L1)、46-55 (L2)、89-96 (L3)、30-35b (H1)、47-58 (H2)、および93-101 (H3) のところで生じる抗原接触 (MacCallum et al. J. Mol. Biol. 262: 732-745 (1996));ならびに、
(d) HVRアミノ酸残基46-56 (L2)、47-56 (L2)、48-56 (L2)、49-56 (L2)、26-35 (H1)、26-35b (H1)、49-65 (H2)、93-102 (H3)、および94-102 (H3)を含む、(a)、(b)、および/または(c)の組合せ。
別段示さない限り、HVR残基および可変ドメイン中の他の残基(例えば、FR残基)は、本明細書では上記のKabatらにしたがって番号付けされる。
【0024】
・フレームワーク
「フレームワーク」または「FR」は、超可変領域 (HVR) 残基以外の、可変ドメイン残基のことをいう。可変ドメインのFRは、通常4つのFRドメイン:FR1、FR2、FR3、およびFR4からなる。それに応じて、HVRおよびFRの配列は、通常次の順序でVH(またはVL)に現れる:FR1-H1(L1)-FR2-H2(L2)-FR3-H3(L3)-FR4。
【0025】
・Fc領域
Fc領域は、抗体重鎖の定常領域に由来するアミノ酸配列を含む。Fc領域は、EUナンバリングで表されるおよそ216位のアミノ酸における、パパイン切断部位のヒンジ領域のN末端から、当該ヒンジ、CH2およびCH3ドメインを含める抗体の重鎖定常領域の部分である。Fc領域は、ヒトIgG1から取得され得るが、IgGの特定のサブクラスに限定されるものでもない。当該Fc領域の好適な例として、後述されるようにpH酸性域におけるFcRnに対する結合活性を有するFc領域が挙げられる。また当該Fc領域の好適な例として、後述されるようにFcγレセプターに対する結合活性を有するFc領域が挙げられる。そのようなFc領域の非限定な一態様として、ヒトIgG1(配列番号:XX)、IgG2(配列番号:XX)、IgG3(配列番号:XX)、またはIgG4(配列番号:XX)で表されるFc領域が例示される。
【0026】
・低分子化抗体
本開示で使用される抗体は、抗体の全長分子に限られず、低分子化抗体またはその修飾物であってもよい。低分子化抗体は、全長抗体(例えば、whole IgG等のwhole antibody)の一部分が欠損している抗体断片を含み、抗原に対する結合活性を有していれば特に限定されない。本開示の低分子化抗体は、全長抗体の一部分であれば特に限定されないが、重鎖可変領域(VH)又は/及び軽鎖可変領域(VL)を含んでいることが好ましい。VHまたはVLのアミノ酸配列は、置換、欠失、付加及び/又は挿入がされていてもよい。さらに抗原に対する結合活性を有する限り、VH又は/及びVLの一部を欠損させてもよい。又、可変領域はキメラ化やヒト化されていてもよい。抗体断片の具体例としては、例えば、Fab、Fab'、F(ab')2、Fvなどを挙げることができる。また、低分子化抗体の具体例としては、例えば、Fab、Fab'、F(ab')2、Fv、scFv(single chain Fv)、Diabody、sc(Fv)2(single chain (Fv)2)などを挙げることができる。これら抗体の多量体(例えば、ダイマー、トリマー、テトラマー、ポリマー)も、本開示の低分子化抗体に含まれる。
Diabodyは、遺伝子融合により構築された二価(bivalent)の低分子化抗体を指す(Holligerら(Proc. Natl. Acad. Sci. U.S.A. 90, 6444-6448 (1993)、欧州公開公報EP404097、およびPCT公開公報WO1993/011161等)。Diabodyは、2本のポリペプチド鎖から構成されるダイマーであり、通常、ポリペプチド鎖は各々、同じ鎖中でVL及びVHが、互いに結合できない位に短い、例えば、5残基程度のリンカーにより結合されている。同一ポリペプチド鎖上にコードされるVLとVHとは、その間のリンカーが短いため単鎖可変領域フラグメントを形成することが出来ず二量体を形成するため、Diabodyは2つの抗原結合部位を有することとなる。
scFvは、抗体のH鎖可変領域とL鎖可変領域とを連結することにより得られる。このscFvにおいて、H鎖可変領域とL鎖可変領域は、リンカー、好ましくはペプチドリンカーを介して連結される(Hustonら(Proc. Natl. Acad. Sci. U.S.A. (1988) 85, 5879-5883)。scFvにおけるH鎖可変領域およびL鎖可変領域は、本明細書に抗体として記載されたもののいずれの抗体由来であってもよい。可変領域を連結するペプチドリンカーとしては、特に制限はないが、例えば3から25残基程度からなる任意の一本鎖ペプチド、また、後述のペプチドリンカー等を用いることができる。
sc(Fv)2は、2つのVH及び2つのVLをリンカー等で結合して一本鎖にした低分子化抗体である(Hudsonら(J. Immunol. Methods (1999) 231, 177-189)。sc(Fv)2は、例えば、scFvをリンカーで結ぶことによって作製できる。
また2つのVH及び2つのVLが、一本鎖ポリペプチドのN末端側を基点としてVH、VL、VH、VL([VH]リンカー[VL]リンカー[VH]リンカー[VL])の順に並んでいる抗体が好ましい。2つのVHと2つのVLの順序は特に上記配置に限定されず、どのような順序で並べられていてもよい。例えば以下のような配置も挙げることができる。
-[VL]リンカー[VH]リンカー[VH]リンカー[VL]
-[VH]リンカー[VL]リンカー[VL]リンカー[VH]
-[VH]リンカー[VH]リンカー[VL]リンカー[VL]
-[VL]リンカー[VL]リンカー[VH]リンカー[VH]
-[VL]リンカー[VH]リンカー[VL]リンカー[VH]
抗体の可変領域を結合するリンカーとしては、前記の抗原結合分子の項で記載されたリンカーと同様のリンカーが使用され得る。例えば、本開示において特に好ましいsc(Fv)2の態様としては、例えば、以下のsc(Fv)2を挙げることができる。
-[VH]ペプチドリンカー(15アミノ酸)[VL]ペプチドリンカー(15アミノ酸)[VH]ペプチドリンカー(15アミノ酸)[VL]
4つの抗体可変領域を結合する場合には、通常、3つのリンカーが必要となるが、全て同じリンカーを用いてもよいし、異なるリンカーを用いてもよい。
このような低分子化抗体を得るには、抗体を酵素、例えば、パパイン、ペプシンなどで処理し、抗体断片を生成させるか、もしくはこれらの抗体断片または低分子化抗体をコードするDNAを構築し、これを発現ベクターに導入した後、適当な宿主細胞で発現させればよい(例えば、Co, M. S. et al., J. Immunol. (1994) 152, 2968-2976 ; Better, M. and Horwitz, A. H., Methods Enzymol. (1989) 178, 476-496 ; Pluckthun, A. and Skerra, A., Methods Enzymol. (1989) 178, 497-515 ; Lamoyi, E., Methods Enzymol. (1986) 121, 652-663 ; Rousseaux, J. et al., Methods Enzymol. (1986) 121, 663-669 ; Bird, R. E. and Walker, B. W., Trends Biotechnol. (1991) 9, 132-137参照)。
【0027】
・単ドメイン抗体
本発明の抗原結合ドメインの好適な例の一つとして、単ドメイン抗体(sdAb)が挙げられる。
本明細書で用語「単ドメイン抗体」は、そのドメイン単独で抗原結合活性を発揮は、できるかぎりその構造は限定されない。IgG抗体等で例示される通常の抗体は、VHとVLのペアリングにより可変領域を形成された状態では抗原結合活性を示すのに対し、単ドメイン抗体は他のドメインとペアリングすることなく、単ドメイン抗体自身のドメイン構造単独で抗原結合活性を発揮できると知られている。単ドメイン抗体は通常比較的に低分子量を有し、単量体の形態で存在する。
単ドメイン抗体の例として、それだけに限定されないが、例えば、ラクダ科の動物のVHH、サメのVNARのような、先天的に軽鎖を欠如する抗原結合分子、または抗体のVHドメインのすべてもしくは一部分またはVLドメインのすべてもしくは一部分を含む抗体断片が挙げられる。抗体のVH/VLドメインのすべてもしくは一部分を含む抗体断片である単ドメイン抗体の例として、それだけに限定されないが、例えば、米国特許第6,248,516号B1等に記載されているようなヒト抗体VHまたはヒト抗体VLから出発して人工的に作製された単ドメイン抗体が挙げられる。本発明のいくつかの実施態様において、1つの単ドメイン抗体は3つのCDR(CDR1、CDR2及びCDR3)を有する。
単ドメイン抗体は、単ドメイン抗体を産生できる動物から、または単ドメイン抗体を産生できる動物を免疫することにより取得し得る。単ドメイン抗体を産生できる動物の例として、それだけに限定されないが、例えば、ラクダ科動物、単ドメイン抗体を産生できる遺伝子が導入された遺伝子導入動物(transgenic animals)が挙げられる。ラクダ科動物はラクダ、ラマ、アルパカ、ヒトコブラクダおよびグアナコ等を含む。単ドメイン抗体を産生できる遺伝子が導入された遺伝子導入動物の例として、それだけに限定されないが、国際公開WO2015/143414号、米国特許公開US2011/0123527号A1に記載の遺伝子導入動物が挙げられる。動物から取得した単ドメイン抗体のフレームワーク配列をヒトジャームライン配列あるいはそれに類似した配列とすることで、ヒト化した単ドメイン抗体を取得することも出来る。ヒト化した単ドメイン抗体(例えば、ヒト化VHH)はまた、本発明の単ドメイン抗体の一実施態様である。「ヒト化単ドメイン抗体」は、非ヒトCDRからのアミノ酸残基およびヒトFRからのアミノ酸残基を含む、キメラ単ドメイン抗体のことをいう。ある態様では、ヒト化単ドメイン抗体は、すべてのもしくは実質的にすべてのCDRは非ヒト抗体のものに対応し、かつ、すべてのもしくは実質的にすべてのFRはヒト抗体のものに対応する。ヒト化抗体において、FR中の残基の一部がヒト抗体のものと対応しない場合も、実質的にすべてのFRはヒト抗体のものに対応する一例として考えられる。たとえば、単ドメイン抗体の一態様であるVHHをヒト化する場合、FR中の残基の一部をヒト抗体のものと対応しない残基にする必要がある(C Vinckeら、The Journal of Biological Chemistry 284, 3273-3284.)。
また、単ドメイン抗体は、単ドメイン抗体を含むポリペプチドライブラリから、ELISA、パニング等により取得し得る。単ドメイン抗体を含むポリペプチドライブラリの例として、それだけに限定されないが、例えば、各種動物若しくはヒトから取得したナイーブ抗体ライブラリ(例:Methods in Molecular Biology 2012 911 (65-78)、Biochimica et Biophysica Acta - Proteins and Proteomics 2006 1764:8 (1307-1319))、各種動物を免疫することで取得した抗体ライブラリ(例:Journal of Applied Microbiology 2014 117:2 (528-536))、または各種動物若しくはヒトの抗体遺伝子より作製した合成抗体ライブラリ(例:Journal of Biomolecular Screening 2016 21:1 (35-43)、Journal of Biological Chemistry 2016 291:24 (12641-12657)、AIDS 2016 30:11 (1691-1701))が挙げられる。
【0028】
・ライブラリ
本明細書において「ライブラリ」とは互いに配列の異なる複数の抗原結合ドメインを含む抗原結合分子、または/および互いに配列の異なる複数の抗原結合ドメインを含む抗原結合分子をコードする核酸若しくはポリヌクレオチドをいう。ライブラリ中に含まれる抗原結合ドメインを含む抗原結合分子、または/および抗原結合ドメインを含む抗原結合分子をコードする核酸の配列は単一の配列ではなく、互いに配列の異なる複数の抗原結合分子または/および互いに配列の異なる複数の抗原結合分子をコードする核酸である。
本開示における一つの実施形態では、本開示の抗原結合分子と異種ポリペプチドとの融合ポリペプチドが作製され得る。ある実施形態では、融合ポリペプチドはウイルスコートタンパク質、例えばpIII、pVIII、pVII、pIX、Soc、Hoc、gpD、pVIおよびその変異体からなる群から選択されるウイルスコートタンパク質の少なくとも一部と融合され得る。
ある実施形態では、本開示の抗原結合分子は、ScFv、Fab断片、F(ab)2またはF(ab')2であり得るため、別の一つの実施形態では、これらの抗原結合分子と異種ポリペプチドとの融合ポリペプチドであって互いに配列の異なる複数の融合ポリペプチドから主としてなるライブラリが提供される。具体的には、これらの抗原結合分子とウイルスコートタンパク質、例えばpIII、pVIII、pVII、pIX、Soc、Hoc、gpD、pVIおよびその変異体からなる群から選択されるウイルスコートタンパク質の少なくとも一部と融合された融合ポリペプチドであって互いに配列の異なる複数の融合ポリペプチドから主としてなるライブラリが提供される。本開示の抗原結合分子はさらに二量体化ドメインを含み得る。ある実施形態では、前記二量体化ドメインは抗体の重鎖または軽鎖の可変領域とウイルスコートタンパク質の少なくとも一部との間に存在し得る。この二量体化ドメインには、二量体化配列の少なくとも1つ、および/または1つまたは複数のシステイン残基を含む配列が含まれ得る。この二量体化ドメインは、好ましくは重鎖可変領域または定常領域のC末端と連結され得る。二量体化ドメインは、前記抗体可変領域がウイルスのコートタンパク質成分との融合ポリペプチド成分として作製されている(二量体化ドメインの後ろにアンバー終止コドンを有さない)かどうかによって、または、前記抗体可変領域が主にウイルスコートタンパク質成分を含まずに作製されている(例えば、二量体化ドメインの後にアンバー終止コドンを有する)かどうかによって、様々な構造をとることが可能である。前記抗体可変領域が主にウイルスのコートタンパク質成分との融合ポリペプチドとして作製されるときは、1つまたは複数のジスルフィド結合および/または単一の二量体化配列によって二価提示がもたらされる。本開示のライブラリの非限定的な一態様としては、1.2×108以上の多様性を有するライブラリが、即ち、1.2×108以上のお互いに配列の異なる複数の抗原結合ドメインを含む抗原結合分子、または互いに配列の異なる複数の抗原結合ドメインを含む抗原結合分子をコードする核酸を含むライブラリが挙げられる。
本明細書においては、「互いに配列の異なる複数の抗原結合ドメインを含む抗原結合分子」という記載における「互いに配列の異なる」との用語は、ライブラリ中の個々の抗原結合分子の配列が相互に異なることを意味する。すなわち、ライブラリ中における互いに異なる配列の数は、ライブラリ中の配列の異なる独立クローンの数が反映され、「ライブラリサイズ」と指称される場合もある。通常のファージディスプレイライブラリでは106から1012であり、リボゾームディスプレイ法等の公知の技術を適用することによってライブラリサイズを1014まで拡大することが可能である。しかしながら、ファージライブラリのパンニング選択時に使用されるファージ粒子の実際の数は、通常、ライブラリサイズよりも10ないし10,000倍大きい。この過剰倍数は、「ライブラリ当量数」とも呼ばれるが、同じアミノ酸配列を有する個々のクローンが10ないし10,000存在し得ることを表す。よって本開示における「互いに配列の異なる」との用語はライブラリ当量数が除外されたライブラリ中の個々の抗原結合分子の配列が相互に異なること、より具体的には互いに配列の異なる抗原結合分子が106から1014分子、好ましくは107から1012分子、さらに好ましくは108から1011、特に好ましくは108から1010存在することを意味する。
また、本開示の、互いに配列の異なる複数の抗原結合ドメインを含む抗原結合分子、または/および互いに配列の異なる複数の抗原結合ドメインを含む抗原結合分子をコードする核酸から主としてなるライブラリという記載における「複数の」との用語は、例えば本開示の抗原結合分子、融合ポリペプチド、ポリヌクレオチド分子、ベクターまたはウイルスは、通常、その物質の2つ以上の種類の集合を指す。例えば、ある2つ以上の物質が特定の形質に関して互いに異なるならば、その物質には2種類以上が存在することを表す。例としては、アミノ酸配列中の特定のアミノ酸部位でアミノ酸変異が観察される変異体が挙げられ得る。例えば、特定のアミノ酸部位のアミノ酸以外は実質的に同じ、好ましくは同一の配列である2つ以上の抗原結合分子がある場合、抗原結合分子は複数個存在する。他の例では、特定のアミノ酸部位のアミノ酸をコードする塩基以外は実質的に同じ、好ましくは同一の配列である2つ以上のポリヌクレオチド分子があるならば、ポリヌクレオチド分子は複数個存在する。
【0029】
(実験手法の定義)
[特性評価]
本開示の一態様として、抗原結合分子の配列情報、及び、当該抗原結合分子の特性評価の評価結果情報に基づいて、機械学習を行うことで学習済みモデルを生成する。抗原結合分子の特性評価の非限定な一態様として、抗原結合分子の親和性評価、薬理活性評価、物性評価、動態評価、安全性評価が例示されるがこれらの評価に限定されるものではない。
【0030】
・親和性評価
抗原結合分子の親和性評価の手法は特に限定されないが、抗原結合分子と抗原の結合活性を測定することで評価することができる。結合活性(binding activity)」は、分子(例えば、抗体)の1個またはそれ以上の結合部位と、分子の結合パートナー(例えば、抗原)との間の、非共有結合的な相互作用の合計の強度のことをいう。ここで、「結合活性(binding activity)」は、ある結合対のメンバー(例えば、抗体と抗原)の間の1:1相互作用に厳密に限定されない。例えば、結合対のメンバーが1価での1:1相互作用を反映する場合、結合活性は固有の結合アフィニティ(「アフィニティ」)のことをいう。結合対のメンバーが、1価での結合および多価での結合の両方が可能である場合、結合活性は、これらの結合力の総和となる。分子XのそのパートナーYに対する結合活性は、一般的に、解離定数 (KD) または「単位リガンド量当たりのアナライト結合量」により表すことができる。結合活性は、本明細書に記載のものを含む、当該技術分野において知られた通常の方法によって測定され得る。標的組織特異的な化合物の濃度以外の条件については当業者が適宜決定することが可能である。特定の態様において、本明細書で提供される抗原結合分子は抗体であり、抗体の結合活性(binding activity)は、≦1μM、≦100nM、≦10nM、≦1nM、≦0.1nM、≦0.01nMまたは≦0.001nM(例えば、10-8M以下、例えば10-8M~10-13M、例えば10-9M~10-13M)の解離定数 (KD) である。
【0031】
一態様において、抗体の結合活性(binding activity)は表面プラズモン共鳴分析法を測定原理とする例えばBIACORE(商標登録)T200またはBIACORE(商標登録)4000(GE Healthcare, Uppsala, Sweden)を用いたリガンド捕捉法が用いられる。機器操作にはBIACORE(商標登録)Control Softwareが用いられる。一態様においてアミンカップリングキット(GE Healthcare, Uppsala, Sweden)を供給元の指示にしたがって使用し、カルボキシメチルデキストランをコーティングしたセンサーチップ(GE Healthcare, Uppsala, Sweden)にリガンド捕捉用分子、たとえば抗タグ抗体、抗IgG抗体、プロテインAなど、を固相化する。リガンド捕捉分子は適切なpHの10 mM酢酸ナトリウム溶液を用いて希釈され、適切な流速および注入時間で注入される。結合活性測定は0.05%ポリソルベート20(その他の名称としてTween(商標登録)-20)含有緩衝液を測定用緩衝液として使用し、流速は10- 30 μL/分、測定温度は好ましくは25℃や37℃で測定される。リガンド捕捉用分子に抗体をリガンドとして捕捉させて測定を実施する場合は、抗体を注入して目的量を捕捉させたのち、測定用緩衝液を用いて調製された抗原およびまたはFc受容体の段階希釈物(アナライト)が注入される。リガンド捕捉用分子に抗原およびまたはFc受容体をリガンドとして捕捉させて測定を実施する場合は、抗原およびまたはFc受容体を注入して目的量を捕捉させたのち、測定用緩衝液を用いて調製された抗体の段階希釈物(アナライト)が注入される。
【0032】
一態様において、測定結果はBIACORE(登録商標)Evaluation Softwareを用いて解析される。速度論的パラメータ(kinetics parameter)算出は1:1 Bindingのモデルを用いて、結合および解離のセンサグラムを同時にフィッティングすることによって実施され、結合速度 (konもしくはka) 、解離速度 (koffもしくはkd) 、平衡解離定数 (KD)が計算され得る。結合活性が弱い、特に解離が早く速度論的パラメータ算出が困難な場合はSteady stateモデルを用いて平衡解離定数 (KD)を計算しても良い。結合活性の他のパラメータとしては、特定の濃度のアナライトの結合量(RU)をリガンドの捕捉量(RU)で除して「単位リガンド量当たりのアナライト結合量」も算出され得る。
【0033】
抗原結合活性の値として、抗原が可溶型分子の場合はKD(解離速度定数)を用いることが可能であり、抗原が膜型分子の場合は見かけのkd(Apparent dissociation rate constant:見かけの解離速度定数)を用いることが可能である。kd(解離速度定数)、および、見かけのKD(見かけの解離速度定数)は、当業者公知の方法で測定することが可能であり、例えばBiacore(GE healthcare)、フローサイトメーター等を用いることが可能である。
【0034】
特性評価の異なる一態様として、ディスプレイライブラリによる抗原結合分子の選択手法が挙げられる。一態様において、ファージディスプレイを用いたパニングが挙げられる。親和性評価を例に挙げると、複数の異なる抗原結合分子が提示されたファージライブラリを調製し、標的抗原と調製したファージを接触させた後に、未結合のファージの洗浄操作をすることで、標的抗原と相互作用する抗原結合分子を提示したファージを濃縮することが可能である。濃縮後のファージに含まれる抗原結合分子をコードする核酸配列を解析することで、標的抗原に親和性のある配列を同定することが可能である。 また一態様において、哺乳細胞ディスプレイを用いたパニングが挙げられる。当該ディスプレイシステムを用いた薬理活性評価を例に挙げると、複数の異なる抗原結合分子を含むライブラリを標的とする哺乳細胞に発現させ、それが同じ細胞に示す作用に応じてレポーター活性等を変化させることで、望む薬理活性を有する抗原結合分子遺伝子を有する細胞をフローサイトメーター等で単離することが可能である。また、当該ディスプレイシステムを用いた物性評価を例に挙げると、複数の異なる抗原結合分子を含むライブラリを標的とする哺乳細胞に発現させ、その発現量を抗原結合分子に対して特異的な抗体で染色することで、安定的に高発現できる抗原結合分子遺伝子を有する細胞をフローサイトメーター等で単離することが可能である。 パニングによる抗原結合分子の特性評価には、前記ファージや哺乳細胞を用いる手法に限られるものではなく、抗原結合分子を提示できる限り様々な手法を利用することが可能であり、例えばリボソームに提示させる手法、mRNAに提示させる手法、ファージ以外のウイルスに提示させる手法、大腸菌等の細菌に提示させる手法等が例示させるがこれらに限定されるものではない。
特性評価の異なる一態様として、個体に由来する免疫細胞から抗体遺伝子配列を取得する方法、または血清から抗体蛋白質配列を取得する方法が挙げられる。免疫細胞から抗体遺伝子配列を抽出する親和性評価を例に挙げると、標的抗原蛋白質を個体に投与することで免疫感作を誘導し、標的抗原に対して結合する抗体遺伝子を有する免疫細胞から遺伝子を抽出することで、標的抗原に親和性のある配列を同定することが可能である。
免疫感作を引き起こす抗原には、前記蛋白質を用いる手法に限られるものではなく、当該蛋白質をコードする遺伝子や当該蛋白質を発現する細胞を利用することが可能である。
また、対象とする個体は、ヒト、マウス、ラット、ハムスター、ウサギ、サル、ニワトリ、ラクダ、ラマ、アルパカが挙げられるが、これらに限定されるものではない。
また、前記核酸配列や出現頻度を解析する手法として、各抗原結合分子の核酸配列を有する遺伝子組み換え生物をクローニングし、キャピラリー電気泳動を利用したサンガー法で解析する手法や、次世代シークエンサーを用いて解析する手法が挙げられるが、これらに限定させるものではない。
前記核酸配列を解析する場合において、出現頻度に基づき特性の強弱を判断することも可能である。例えば濃縮後の核酸配列の解析により出現頻度の高い配列がコードする抗原結合分子は当該特性が高く、濃縮後に出現頻度の低い配列がコードする抗原結合分子は、出現頻度が高い配列がコードする抗原結合分子よりも特性が低いと推定することが可能である。
また、前記ディスプレイライブラリや個体に由来する抗原結合分子情報を取得する手法は様々な特性評価に応用可能であり、前記に限定されるものではない。
【0035】
・薬理活性評価
抗原結合分子の薬理活性評価の手法は特に限定されないが、例えば抗原結合分子が示す中和活性、アゴニスト活性、または細胞傷害活性を測定することで評価することができる。薬理活性評価として細胞傷害活性評価を例に挙げた場合、抗体依存性細胞介在性細胞傷害(antibody-dependent cell-mediated cytotoxicity:ADCC)活性、補体依存性細胞傷害(complement-dependent cytotoxicity:CDC)活性、T細胞による細胞傷害(T-cell-dependent cytotoxicity: TDCC)活性および抗体依存性細胞貪食(Antibody-Dependent Cellular Phagocytosis:ADCP)活性等が例示される。CDC活性とは補体系による細胞傷害活性を意味する。またADCC活性とは、標的細胞の細胞膜に発現された膜型分子に結合する抗原結合ドメインを含む抗原結合分子のFc領域に、免疫細胞等が当該免疫細胞に発現したFcγレセプターを介して結合し、当該免疫細胞が標的細胞に傷害を与える活性を意味する。またTDCC活性とは、標的細胞の細胞膜に発現された膜型分子に結合する抗原結合ドメイン、およびT細胞上のT細胞レセプター(TCR)複合体の構成サブユニットのいずれかに対する抗原結合ドメイン、特にCD3 epsilon鎖に結合する抗原結合ドメインを含むbi-specific抗体を用いることで標的細胞とT細胞を接近させることにより、T細胞が標的細胞に障害を与える活性を意味する。目的の抗原結合分子がADCC活性、CDC活性、TDCC活性またはADCP活性を有するか否かは公知の方法により測定され得る。
また中和活性とは、ウイルスや毒素など、細胞に対して生物学的活性を有するリガンドの当該生物学的活性を阻害する活性をいう。即ち、中和活性を有する物質とは、当該リガンド又は当該リガンドが結合するレセプターに結合し、当該リガンドとレセプターの結合を阻害する物質をさす。中和活性によりリガンドとの結合を阻止されたレセプターは、当該レセプターを通じた生物学的活性を発揮することができなくなる。抗原結合分子が抗体である場合、このような中和活性を有する抗体は一般に中和抗体と呼ばれ、前記リガンドとレセプターの結合の阻害活性を測定することで中和活性を測定することが可能である。細胞に対して生物学的活性を有するリガンドはウイルスや毒素などに限定されず、サイトカインやケモカインなどの内在性リガンドがレセプターに結合することで惹起する生理作用を阻害活性も中和活性として理解される。また、中和活性はリガンドとレセプターの結合を阻害する場合に限らず、生物学的活性を有するタンパク質の機能を阻害する活性も中和活性として理解され、前記タンパク質の機能として酵素活性が例示され得る。
【0036】
・物性評価
抗原結合分子の物性評価の手法は特に限定されないが、例えば熱安定性、化学安定性、溶解性、粘性、光安定性、長期保存安定性、非特異的吸着性が例示され、例示した種々の物性評価は当業者公知の方法により測定され得る。評価方法は特に限定されないが、例えば熱安定性、化学安定性、光安定性、機械刺激に対する安定性、長期保存安定性等の安定性評価は、安定性評価の目的とする熱処理、低pH環境への暴露、光暴露、機械による攪拌、長期保存等の処理前と処理後において、当該抗原結合分子の分解や化学的修飾、会合化を測定することにより評価することができる。そのような安定性評価を実施する測定法の非限定な一態様として、イオン交換クロマトグラフィークロマトグラフィー法やサイズ排除クロマトグラフィーなどのクロマトグラフィーを用いる手法、質量分析法、電気泳動法が挙げられるがこれらに限定されず、当業者公知の様々な手法により測定することができる。
また上記以外の物性評価として、ポリエチレングリコール沈殿法によるタンパク質の溶解度の評価や、小角X線散乱法による粘性の評価、Extra Cellular Matrix(ECM)への結合評価に基づく非特異的結合評価等が例示されるが、これらに限定されるものではない。
また物性評価として、タンパク質発現量評価、精製用樹脂や精製用リガンドへの結合評価、表面電荷の評価などについても、当業者公知の手法により測定できる限り評価することが可能である。
【0037】
・動態評価
抗原結合分子の動態評価の手法は特に限定されないが、マウス、ラット、サル、イヌなどの動物に投与し、投与後の血中の抗原結合分子の量を経時的に測定することで評価が可能であり、当業者においてPharmacokinetics(PK)評価として広く公知の手法により評価可能である。PKを直接評価する手法以外に、抗原結合分子の表面電荷や等電点等をソフトウェア上で計算することにより抗原結合分子のアミノ酸配列から動態の挙動を予測することも可能である。
【0038】
・安全性評価
抗原結合分子の安全性評価の手法は特に限定されないが、ISPRI Web-Based Immunogenicity Screening (EpiVax)等の免疫原性予測ツール、抗原結合分子の断片ペプチドのHLA結合評価、MAPPs(MHC-Associated Peptide Proteomics)またはT細胞増殖評価などを用いたT細胞エピトープの検出および免疫原性の評価が挙げられる。また、リウマトイド因子(RF)との結合、PBMCやwhole bloodを用いた免疫反応の評価、血小板凝集評価など当業者公知の手法により測定できる限り評価することが可能である。
【0039】
(機械学習に用いられている用語、手法(LSTM, RF)の定義)
RNN (Recurrent Neural Network) とは複数のニューラルネットを接続したニューラルネットである。ペプチド配列への適用例はMuller AT et al. (J Chem Inf Model. 2018 Feb 26;58(2):472-479.)にある。
LSTM (Long Short Term Memory) はRNNの特殊な形であり、優れた長期記憶を持つようにしたものであるRNNである。
GRU(Gated Recurrent Unit)はRNNの特殊な形であり、長期記憶に相当するニューロンが存在するRNNである。GANとは敵対的ネットワークで、正確に分類しようとするモデルと欺こうとするサンプルを生成するモデルの両者を利用することにより、より正確な分類を目指す機械学習である。
VAE (Variational AutoEncoder) とは、変分法に基づき、ニューラルネットにおいて、入力層と出力層に同じデータを用いて教師あり学習させたものである。
Flow深層生成モデルとは、可逆な変数変換によりデータの分布を対数尤度に基づいて学習するモデルである。
ガウス過程は、ある入力に対して予測値のみならず、予測値の分布も出力する機械学習である。予測値の分布は予測値の信頼度と捉えられる。また、ベイズ最適化はガウス過程の予測結果に基づき、予測精度をよくする点をサンプリング(実測)し、新規実測値も含めて予測モデルをアップデートし、より高精度な予測を行う手法である。また予測モデルのアップデートは繰り返し行うことが可能である。
【0040】
・確率モデル(HMM、MM)
MM (Markov Model) とは、複数の状態とその間の遷移確率が与えられたモデルである。前の状態の情報のみで次の状態への遷移確率が決まる。
HMM (Hidden Markov Model) とは、複数の状態とその間の遷移確率が与えられ、かつ各々の状態で別の量を状態毎に定義された確率で出力するモデルである。前の状態の情報のみで次の状態への遷移確率が決まる。
【0041】
・アミノ酸の認識手法(文字列、数値ベクトル、物性量で表された配列情報)
抗体配列の機械学習手法への入力として、配列を文字列と捉えて文字列入力する方法がまず考えられる。また、配列中の各ポジションに対して、その位置のアミノ酸の物性量(分子量、電荷、疎水度、側鎖の体積等)を用いて、配列の文字を数値に変換して入力する方法も考えられる。また、各アミノ酸の周囲ではどのアミノ酸が出現しやすいかの統計を用いて(Doc2Vec法)、配列全長の文字列を数値に変換して入力する方法も考えられる。
例えば、Doc2Vec法を用いる場合、コンピュータは、対象のアミノ酸配列を文章とみなす。コンピュータは、アミノ酸配列を配列順に従って、前から順に、アミノ酸を予め定めた個数(例えば3個であるが、3個以外でもよい)ずつの組に分割する。コンピュータは、分割後の各組について、アミノ酸を表す文字を連ねた文字列を、単語として生成する。コンピュータは、アミノ酸の組が連なった各アミノ酸配列を、単語が順に連なった文章としてDoc2Vec法を用いて、ベクトル空間にマッピングする。このように、コンピュータは、配列を文章とみなし、配列中のアミノ酸の組を単語とみなして、文書解析に用いる手法を用いて、配列を解析してもよい。
【0042】
(第1実施形態)
以下、図面を参照して、本発明の第1実施形態について詳しく説明する。
本実施形態では、
図1の情報処理システム1では、サーバ30は、抗原結合分子の配列を表す配列情報に基づいて機械学習を行うことで、配列学習済みモデル(「第1学習済みモデル」の一例)を生成する。配列学習済みモデルは、入力された配列情報が表す配列の特徴を学習し、学習の結果、予測対象配列情報(「仮想配列情報」の一例)を出力する学習済みモデルである。予測対象配列情報が表す予測対象配列は、学習に用いられた抗原結合分子の配列の少なくとも1つにおいて、その配列を構成するアミノ酸の少なくとも1つを変異させた仮想配列である。
これにより、情報処理システム1は、抗原結合分子に関して、その一部のアミノ酸を変異させた仮想配列を、生成させることができる。例えば、配列学習済みモデルは、望ましい性質を持った抗原結合分子の配列情報を用いて学習される。この場合、サーバ30は、その望ましい性質を持つ可能性の高い仮想配列を、例えば多数、仮想配列群として生成できる。なお、本実施形態では、特性評価として、抗原を用いたパニングによって抗原と結合した頻度を用いる例について説明する。パニングについては後述する。
【0043】
<情報処理システム>
図1は、第1実施形態に係る情報処理システム1の一例を示す概略図である。
情報処理システム1は、ユーザ端末10、次世代シーケンサ20、及び、サーバ30を具備する。また、ユーザ端末10、次世代シーケンサ20、及び、サーバ30は、ネットワークNWを介して接続されている。ネットワークNWは、例えば、LAN(Local Area Network)、又はインターネット等の情報通信ネットワークである。情報通信ネットワークは、有線又は無線のネットワークでも良いし、種々のネットワークを組み合わせたネットワークであっても良い。また、ユーザ端末10、次世代シーケンサ20、及び、サーバ30は、HDD(ハードディスクトライブ)やUSBメモリ等の記憶媒体等を介して、データをやり取りしてもよい。
【0044】
ユーザ端末10は、例えば、ユーザが入出力を行うパーソナルコンピュータである。ユーザ端末10は、タブレット端末やスマートフォン等の携帯型端末であっても良い。
次世代シーケンサ20は、DNA(デオキシリボ核酸)の塩基配列を解析する装置である。
サーバ30は、サーバ等の情報処理装置である。サーバ30は、次世代シーケンサ20による解析結果を示す解析結果情報を用いて学習を行う。サーバ30は、ユーザ端末10からの入力情報と学習結果とに基づいて、ユーザ端末10へ出力情報を送信する。
【0045】
例えば、次世代シーケンサ20は、複数の抗体と標的抗原のパニング(「親和性評価」の一例)において、試料に含まれる抗体の各々を測定して解析し、各抗体の塩基配列を表す配列情報、及びその出現頻度(「親和性評価の評価結果情報」の一例;リード数とも呼ばれる)を含む解析結果情報を出力する。出現頻度とは、標的抗原と結合する抗体の配列の中で、次世代シーケンサ20で解析された配列の全体数(総リード数)を母数としたときの各配列の数の割合である。ただし、本発明はこれに限らず、出現頻度は、次世代シーケンサ20で解析された配列の数であってもよい。
【0046】
サーバ30は、ネットワークNW又は記憶媒体を介して解析結果情報を受信し、解析結果情報に含まれる配列情報及び出現頻度に応じて、望ましい性質を持った配列群を学習データセットとして生成(取得の一例)する。サーバ30は、その学習データセットに基づいて学習し、望ましい性質を持った配列の特徴が学習された配列学習済みモデルを記憶する。サーバ30は、記憶された配列学習済みモデルに基づいて、望ましい性質の配列の特徴を持つ新しい仮想配列群を、予測対象配列として生成する。
【0047】
その後、サーバ30は、生成した各予測対象配列を表す予測対象配列情報について、後述する特性予測学習済みモデル(「第2学習済みモデル」の一例)を用いて、標的抗原との親和性情報(「標的抗原との親和性を表す親和性情報」の一例)を表す予測スコアを予測する。親和性情報は、抗体が、標的抗原に結合するか(結合抗体であるか)又は結合しないか(非結合抗体であるか)を示す情報である。
サーバ30は、予測した予測スコアに応じて、標的抗原と結合すると予想される抗体について、その候補を表す候補抗体情報を、ユーザ端末10へ送信する。ユーザ端末10は、受信した予測スコアに応じた候補抗体情報を表示する。
【0048】
これにより、情報処理システム1は、標的抗原との特性を推定する配列情報をランダムに生成する場合に比べて、より特性が高くなると推定される配列に絞り込んだ配列情報を多く生成することができる。従って、情報処理システム1は、より処理時間又は処理負荷を軽減しつつ、所望の抗体の情報を提供することができる。
【0049】
<親和性評価(パニング)>
図2は、本実施形態に係る一連のパニングの一例を説明するための説明図である。
一連のパニングの中で、繰り返される各パニング(図中では「結合試験」)について説明する。なお、一連のパニングにおける、m(m=1~M:mは自然数)回目のパニングを、m回目のラウンドのパニング、又は、ラウンドmのパニングとも称する。各パニングは、次の4ステップ(P1)~(P4)を経て行われる。
(P1)標的抗原と抗体との反応
(P2)標的抗原と結合しなかった抗体(図中では「非結合抗体」)の洗浄
(P3)標的抗原と結合した抗体(図中では「結合抗体」)の溶出
(P4)溶出した抗体を作製する際に鋳型となるDNAの増幅
ここで、抗体は、既存の各種抗体ディスプレイ手法により、上述したDNAと1対1に対応付けされる。
【0050】
1回目のパニング(ラウンド1)において、複数の抗体の集合(以下、「抗体ライブラリ」とも称する)がパニングに供される。このラウンド1での集合は、予め用意されている。2回目以降のラウンドにおいて、前のラウンドにおいて標的抗原と結合したと判定された結合抗体(「標的抗原と親和性がある抗体」の一例)の集合が、パニングに供される。換言すれば、2回目以降のラウンドにおいて、前のラウンドにおいて標的抗原とは結合しなかったと判定された非結合抗体(「親和性が低いと評価された抗体」の一例)の集合が、パニングに供されない。より、具体的には、2回目以降のラウンドに供される抗体(直前のラウンドにおける結合抗体)は、直前のラウンドで増幅されたDNAを用いて作製される。なお、一連のパニングは、例えば、予め定められた回数のラウンドだけ、パニングが繰り返されると終了する。ただし、本発明はこれに限らず、一連のパニングは、結合抗体が少なくなった場合や、実験者の判断による場合に終了しても良い。
【0051】
各パニングでは、実験条件(「評価条件」の一例)が設定される。実験条件は、標的抗原と抗体との反応において変更可能な条件である。実験条件は、標的抗原条件、抗体条件、及び、反応が行われる場に存在する溶液の条件、標的抗原と抗体の反応時間及び反応温度、などである。
標的抗原条件は、例えば、標的抗原の濃度や、標的抗原の分子情報である。標的抗原の濃度は、標的抗原と抗体が反応する場(反応溶液中)における、標的抗原の濃度を示す。標的抗原の分子情報は、例えば、試料名、アミノ酸配列などである。
抗体条件は、例えば、抗体ディスプレイ手法や抗体の由来、ドメイン種、ジャームラインである。抗体ディスプレイ手法は、パニングに供される抗体の抗体ディスプレイ手法を示す。抗体の由来は、パニングに供される抗体の由来を示し、例えば、ヒト、マウス、ラット、ハムスター、ウサギ、サル、ニワトリ、ラクダ、ラマ、アルパカ 、人工合成である。ドメイン種は、例えば、重鎖、軽鎖である。
溶液の条件は、例えば、バッファー(溶液)の組成である。「バッファー組成」は反応溶液の溶液組成、水素イオン指数(pH)等の溶液の条件である。
反応時間は標的抗原と抗体とが溶液中で共存する時間を示す。反応温度は、標的抗原と抗体とが溶液中で共存する際の溶液の設定温度を示す。
なお、
図2の例では、ラウンド1の実験条件が条件1、ラウンド2の実験条件が条件2である。これらの実験条件を示す実験属性情報は、サーバ30において、パニングごとに管理できる。ただし、実験条件は、一連のラウンドで同一であってもよく、この場合、
図2の条件1、2、・・・、N、N+1、・・・は、同一の実験条件となる。
【0052】
各パニングにおいて、ステップ(P3)の後、抗体のDNAは、増幅された後、次世代シーケンサ20によって塩基配列が解析される。次世代シーケンサ20は、解析結果として、複数の抗体の各々について、抗体の塩基配列を示す配列情報、及び、抗体の評価結果情報を出力する。評価結果情報には、例えば、各抗体について、ラウンドごとの出現頻度、及び、ラウンド間の出現頻度の変化率が含まれる。サーバ30上で塩基配列はアミノ酸配列に変換される。
ここで、1つの抗体は、重鎖(H鎖)の部分と軽鎖(L鎖)の部分が組み合わされて構成される。 解析結果情報において、1つの抗体の配列情報は、重鎖(H鎖)部分のアミノ酸配列(「重鎖配列」とも称する)、又は、軽鎖(L鎖)部分のアミノ酸配列(「軽鎖配列」とも称する)がそれぞれに測定され、解析される。換言すれば、次世代シーケンサ20は、抗体の重鎖配列と軽鎖配列の組合せを特定できない場合でも、重鎖配列と軽鎖配列を特定できている。次世代シーケンサ20は、重鎖配列を示す配列情報及び評価結果情報と、軽鎖配列を示す配列情報及び評価結果情報と、を区分して出力する。
ただし、本発明は、これに限らず、次世代シーケンサ20は、重鎖と軽鎖を一括測定し、重鎖配列及び軽鎖配列を示す配列情報と評価結果情報を出力してもよい。
【0053】
図2は、ラウンド1のパニングの解析結果情報として、次世代シーケンサ20が、結合抗体の配列情報として、重鎖配列A、重鎖配列B、軽鎖配列C、及び、軽鎖配列Dを出力することを示す。また、
図2は、ラウンド1のパニングの結果情報として、重鎖配列Aの出現頻度A1、重鎖配列Bの出現頻度B1、軽鎖配列Cの出現頻度C1、及び、軽鎖配列Dの出現頻度D1を出力することを示す。
【0054】
上記において、次世代シーケンサ20は、一連のパニングから得られる配列情報及び評価結果情報に基づいて、結合抗体の塩基配列を決定する。
なお、パニングは、
図2の一連のパニングを1回のセットとして、複数のセットについて、各一連のパニングが行われても良い。例えば、全セットの一連のパニングは、標的抗原が同じである。少なくとも1セットの一連のパニングは、他の一連のパニングに対して、抗体ライブラリ及び実験条件の少なくとも一つが異なる。
【0055】
サーバ30は、一連のパニングにおいて、ラウンド1~Mのパニングの各々について、学習データセットを取得し、これらの学習データセットに基づいた学習する。ここで、学習データセットには、少なくとも1回のラウンドの学習データセット、つまり、ラウンドIのパニング後の配列に関する学習データセット、が含まれる。
【0056】
また、一連のパニングでは、あるラウンド(例えば、N+1回目)のパニングは、先のラウンド(例えば、N回目)のパニングにおいて出現した抗体(親和性がある抗体の一例)と標的抗原とを用いて、パニングが行われる。ここで、出現した抗体とは、予め定めた閾値より出現頻度が高い抗体であっても良いし、出現頻度が予め定めた順位より上位の抗体であっても良い。
このように、一連のパニングでは、先のラウンドのパニングにおいて出現した抗体に対して、標的抗原を用いて後のパニングが行われる。情報処理システム1は、これらのパニングの学習データセットを取得して、学習する。
【0057】
これにより、一連のパニングの学習データセットがない場合と比較して、出現頻度の高い抗体の学習データセットを多くできる。したがって、情報処理システム1は、出現頻度の高い抗体の特徴を、より顕著にすることができる。又は、情報処理システム1は、全てのパニングにおいて大量の種類の抗体を用いたパニングの学習データセットを学習する場合と比較して、抗体の種類を絞り込んでいくことができる。 これにより、情報処理システム1は、処理時間又は処理負荷を軽減することができる。
【0058】
<ユーザ端末>
図3は、本実施形態に係るユーザ端末10の一例を示すブロック図である。
ユーザ端末10は、通信部11、入力部12、記憶部13、処理部14、及び表示部15を含んで構成される。
【0059】
通信部11は、ネットワークNWを介して各種通信を行う通信モジュールである。通信部11は、例えば、サーバ30との間で、各種通信を行う。
入力部12は、例えば、キーボードやタッチパネルなどの入力装置である。入力部12は、ユーザ操作に基づく入力情報を受け付ける。入力部12は、受け付けた入力情報を処理部14に出力する。
記憶部13は、例えば、ハードディスクドライブ、メモリなどの記憶装置である。記憶部13は、ファームウェアやアプリケーションプログラムなど、処理部14が実行するための各種プログラム、及び、処理部14が実行した処理の結果などを記憶する。
【0060】
処理部14は、中央演算装置(CPU)などのプロセッサである。処理部14は、例えば、入力部12から入力された入力情報などの各種情報を、通信部11を介して、サーバ30へ送信する。サーバ30は、入力情報と出力情報の対応情報(例えば、学習済みモデル、テーブル)を予め記憶し、入力情報に対して出力情報を生成する。処理部14は、サーバ30が生成した出力情報を、通信部11を介して受信する。処理部14は、受信した出力情報を、表示部15に表示(出力の一例)させる。
なお、処理部14は、記憶部13が対応情報を記憶する場合には、入力情報に対して対応情報を読み出し、出力情報を生成し、表示部15に表示部させても良い。
【0061】
表示部15は、例えば、有機エレクトロルミネッセンスディスプレイ、液晶ディスプレイなどのディスプレイである。表示部15は、処理部14が生成する表示情報に従って、表示を行う。
【0062】
<ユーザ端末における画面フロー>
図4は、本実施形態に係る画面フローの一例を示す図である。
この図は、表示部15が表示する画面フローの一例である。画面D11は、入力部12が入力情報を受け付ける画面である。画面D12は、分類基準を設定する画面であり、ボタンBT111を押下すると表示される。画面D12は、画面D11の項目を入力後、検索ボタンが押下された後、処理部14が出力情報を表示させた画面である。
【0063】
画面D11において、入力部12は、入力情報として、例えば、標的抗原情報(図中の「標的抗原」)、実験情報(図中の「実験」)、実験抗体情報(図中の「抗体」)、実験属性情報(図中の「実験条件」)、分類基準情報(図中の「分類基準」)、注目位置情報(図中の「注目位置」)、及び、変異情報の少なくとも1つを受け付ける。ここで、標的抗原情報は、標的抗原を特定可能な情報である。標的抗原情報は、例えば、標的抗原の名称であるが、抗原の配列や抗原の識別子であっても良い。実験情報は、一連のパニング(「パニンググループ」とも称する)又はラウンド(1回のパニング)を識別する情報や実験の内容を示す情報など、実験を特定可能な情報である。実験抗体情報は、パニングに供される抗体の集合を特定可能な情報である。実験抗体情報は、例えば、ラウンド1のパニングに供される抗体ライブラリを識別する名称などである。ただし、本発明はこれに限らず、実験抗体情報は、1又は複数の抗体の名称やアミノ酸配列であっても良い。
実験属性情報は、パニングにおいて評価ごとに変更可能な条件を示す情報である。実験属性情報は、例えば、上述した実験条件や各実験により得られた溶出ファージの感染タイター(cfu)を示す情報である。
【0064】
分類基準情報(親和性評価での親和性に関する基準の一例)は、学習段階において、抗体が結合抗体であるか、又は、非結合抗原であるかを分類する分類基準を示す情報である。実験段階において、パニングを例とする特性評価実験で単離された配列群の中には望みの特性を有していない配列も含まれることがある。ユーザが入力した分類基準情報が設定されることで、サーバ30は、学習段階において、次世代シーケンサ20が解析した抗体について、再度、結合抗体であるか、非結合抗体であるか、を分類できる。これにより、サーバ30は、実験段階で誤って結合抗体と判定された抗体を、学習段階で非結合抗体と判定できる場合がある。この場合、情報処理システム1は、結合抗体の精度を上げることができ、分類精度を向上できる。
分類基準情報は、出現頻度又はラウンド間の出現頻度の変化率の閾値である。これらの閾値は、ラウンドごとに設定されても良いし、一連のパニングごとに設定されても良い。
【0065】
また、分類基準情報には、複数の候補(図中の基準1、基準2、基準3)の情報(分類基準候補情報とも称する)が含まれている。なお、各基準1、2、3では、3個の閾値が入力されている。閾値は、ラウンド毎の出現頻度、又は、ラウンド間の出現頻度の変化率を設定可能である。学習段階では、複数の分類基準候補情報が示す各基準で抗体が分類され、第一および第二の学習済みモデルが生成される。このうち、サーバ30は、これらの第一および第二の学習済みモデルのうち、精度の高い(解析結果情報の再現性が高い)学習済みモデルを選択する。このように、サーバ30は、結合抗体と非結合抗原を分類する分類基準についても、複数の候補を検証する。これにより、情報処理システム1は、分類基準を固定する場合と比較して、分類精度を向上できる。
【0066】
注目位置情報は、抗体でのアミノ酸の位置(ポジション)を示す情報である。注目位置情報は、学習対象となる配列情報を、抗体での特定の位置のみの配列情報に絞り込むために用いられる。例えば、注目位置情報は、抗体の可変領域のうち、標的抗原との結合に重要であると想定されるアミノ酸の位置を示す情報である。
ユーザが入力した注目位置情報が設定されることで、サーバ30は、配列情報を、注目位置情報が示す一部の配列情報に絞り込んで(第一および第二の学習モデルで)学習を行う。これにより、情報処理システム1は、配列情報を注目部分に短くできるので、全配列を学習する場合と比較して、学習による処理時間や処理負荷を軽減することができる。また、注目位置情報が設定できるので、分類精度の良い部分で、学習することができる。
なお、注目位置情報は、コンピュータからの入力により自動で設定されてもよい。
【0067】
変異情報は、抗体でのアミノ酸の位置(ポジション)を示す情報である。変異情報は、予測スコアを算出する抗体の配列(「予測対象配列」と称する)について、配列情報を変化させる部分を絞り込むために用いられる。変異情報は、例えば、他の親和性評価において、解離定数が改善したポジションや、標的抗原の構造情報などに基づいて、標的抗原との結合に重要であると想定されるアミノ酸の位置を示す情報である。
なお、変異情報は、ユーザから入力された位置であってもよいし、コンピュータから入力された位置であってもよい。
【0068】
画面D12において、処理部14は、出力情報として、標的抗原情報(図中の「標的抗原」)、標的抗原に結合する抗体の候補を表す候補抗体情報(図中の「抗体候補」)、及び、標的抗原との結合の度合いを示す予測スコアを表示させている。処理部14は、候補抗体情報について、その結合の度合いの高いもの(例えば、上位20位)を、度合いの高い順序で、表示部15に表示させる。すなわち、表示部15は、標的抗原との結合の度合いに応じて、候補抗体情報を出力する。
なお、予測スコアは、結合する確率であっても良いし、出現頻度の値そのものであっても良いし、出現頻度の最大値で正規化された値であっても良い。また、出現頻度に何らかの演算を行って得られる値であっても良い。
【0069】
以下、
図4の画面のユースケースについて説明する。
画面D11において、ユーザは、基本設定として、少なくとも、標的抗原情報又は実験情報のいずれかを設定する。標的抗原情報又は実験情報のいずれかの設定は、必須であるが、その他の項目の設定は任意である。ユーザは、実験情報として、パニンググループ又はラウンドから、一又は複数の組み合わせを指定することができる。
画面D11において、ユーザは、検索条件として、抗体情報、又は実験抗体情報を設定できる。画面D11で検索条件が設定された場合、画面D12には、設定された検索条件を満たす候補抗体情報が出力される。
【0070】
画面D11において、ユーザは、画面D11の分類基準情報の設定として、複数の分類基準の各々を、編集又は追加することができる。ユーザは、各基準を指定して、カテゴリ(出現頻度又は変化率)、ラウンド回数、及び、カテゴリの閾値を設定できる。
画面D11において、ユーザは、注目位置の設定として、注目位置情報を設定できる。
画面D11において、ユーザは、予測対象の検索条件の設定として、変異情報を設定できる。画面D11で変異情報が設定された場合、画面D12には、変異情報が示す位置でアミノ酸配列が異なる候補抗体情報が出力される。換言すれば、この場合、画面D12には、変異情報が示す位置以外では、アミノ酸配列が同じ候補抗体情報が出力される。
【0071】
<次世代シーケンサ>
図5は、本実施形態に係る次世代シーケンサ20の一例を示すブロック図である。
次世代シーケンサ20は、通信部21、入力部22、記憶部23、塩基配列測定部24、制御部25、及び表示部26を含んで構成される。
【0072】
通信部21は、ネットワークNWを介して各種通信を行う通信モジュールである。通信部21は、例えば、サーバ30との間で、各種通信を行う。ただし、本発明はこれに限らず、次世代シーケンサ20は、通信部21に代えて或いは加えて、記憶媒体にデータを出力する出力ポートを備えてもよい。
入力部22は、例えば、キーボードやタッチパネルなどの入力装置である。入力部22は、ユーザ操作に基づく入力情報を受け付ける。入力部22は、受け付けた入力情報を制御部25に出力する。
記憶部23は、例えば、ハードディスクドライブ、メモリなどの記憶装置である。記憶部23は、ファームウェアやアプリケーションプログラムなど、制御部25が実行するための各種プログラム、及び、制御部25が実行した処理の結果などを記憶する。
【0073】
塩基配列測定部24は、塩基配列を測定するシーケンサである。塩基配列測定部24には、パニングの結果の試料が配置される。塩基配列測定部24は、制御部25の命令に従って、配置された試料から、その試料に含まれる塩基配列を測定する。塩基配列測定部24は、測定結果を、制御部25へ出力する。
【0074】
制御部25は、中央演算装置(CPU)などのプロセッサである。制御部25は、例えば、入力部22からの入力に基づいて塩基配列測定部24を制御することで、次世代シーケンシングの制御を行う。制御部25は、塩基配列測定部24による測定結果を解析することで、試料に含まれる抗体の各々について、配列情報を算出する。この配列情報は、各抗体の重鎖配列又は軽鎖配列の配列情報である。
制御部25は、入力部22から入力された入力情報、算出した配列情報及び出現頻度が対応づけられた解析結果情報(
図7、
図8参照)、及び算出した配列情報が対応づけられた解析結果情報を生成する。ここで、入力情報には、例えば、一連のパニングを識別するパニンググループID、パニングに供された標的抗原情報、ラウンドの回数を示すラウンド回数、各ラウンドでの測定された抗体を示す測定抗体情報、一連のパニングでの実験条件情報が含まれる。
制御部25は、1又は複数のパニングについての解析結果情報を、通信部21を介してサーバ30へ送信する。また、制御部25は、各種操作画面や情報の入力画面、次世代シーケンシングの進捗に関する各種情報などを、表示部26に表示させる。
なお、入力情報には、塩基配列測定部24の制御に用いる設定情報が含まれても良い。また、各配列情報の出現頻度は、サーバ30によって解析結果情報を用いて算出される。ただし、本発明はこれに限らず、次世代シーケンサ20や他のコンピュータが、解析結果情報を用いて、各配列情報の出現頻度を算出してもよい。
【0075】
表示部26は、例えば、有機エレクトロルミネッセンスディスプレイ、液晶ディスプレイなどのディスプレイである。表示部26は、制御部25が生成する表示情報に従って、表示を行う。
【0076】
<サーバ>
図6は、本実施形態に係るサーバ30の一例を示すブロック図である。
サーバ30は、通信部31、記憶部32、及び処理部33を含んで構成される。
【0077】
通信部31は、ネットワークNWを介して各種通信を行う通信モジュールである。通信部31は、例えば、ユーザ端末10又は次世代シーケンサ20との間で各種通信を行う。
記憶部32は、例えば、ハードディスクドライブ、メモリなどの記憶装置である。記憶部32は、ファームウェアやアプリケーションプログラムなど、処理部33が実行するための各種プログラム、及び、処理部33が実行した処理の結果などを記憶する。
処理部33は、中央演算装置(CPU)などのプロセッサである。処理部33は、例えば、通信部31から入力された入力情報と記憶部32に記憶する情報に基づいて、入力情報に対する出力情報を生成する。通信部31は、生成した出力情報を、通信部31を介して、ユーザ端末10へ送信する。
【0078】
具体的には、処理部33は、次世代シーケンサ20からの解析結果情報を、通信部31を介して取得し、データセットとして記憶部32に記憶する。この際、処理部33は、取得した情報に含まれる塩基配列を、対応するアミノ酸配列に変換する。処理部33は、記憶したデータセットに基づいて学習データセットを生成し、生成した学習データセットに基づいて学習する。
例えば、処理部33は、まず、所望の出現頻度(例えば閾値以上)の配列情報を選択する。処理部33は、選択した配列情報の配列の特徴を学習することで、配列学習済みモデルを生成する。次に、処理部33は、パニンググループID又は標的抗原情報ごとに、配列情報、及び、ラウンド回数ごとの出現頻度或いはラウンド間の出現頻度の変化率に応じた結合判定情報を、学習データセットとして学習する。処理部33は、学習結果として、特性予測学習済みモデルを生成する。
処理部33は、配列の特徴を学習した配列学習済みモデルと、予測スコアを予測するための特性予測学習済みモデルを、学習結果として記憶部32に記憶する。
【0079】
処理部33は、ユーザ端末10からの入力情報(例えば、標的抗原情報、実験情報、実験抗体情報、実験属性情報、分類基準情報、注目位置情報、及び、変異情報)を、通信部31を介して取得する。処理部33は、配列学習済みモデルを用いて、予測対象配列情報を生成する。処理部33は、予測対象配列情報を、特性予測学習済みモデルへ入力して、予測スコアを出力する。処理部33は、予測スコアに応じて、標的抗原に結合する抗体の候補を表す候補抗体情報を生成する。処理部33は、生成した候補抗体情報を、通信部31を介してユーザ端末10へ送信する。
【0080】
<サーバの記憶部>
記憶部32について、詳細を説明する。記憶部32は、実験情報記憶部321、データセット記憶部322、分類基準記憶部323、学習データセット記憶部324、注目位置情報記憶部325、学習結果記憶部326、変異情報記憶部327、配列記憶部328、及び、特性評価情報記憶部329を含んで構成される。
【0081】
実験情報記憶部321は、実験情報(
図7参照)及び実験属性情報(
図8参照)を記憶する。これらの情報は、次世代シーケンサ20からの解析結果情報に含まれ、処理部33によって入力される。
データセット記憶部322は、一連のパニングで測定された抗体ごとに、配列情報、及び評価結果情報(ラウンドごとの出現頻度及びラウンド間の出現頻度の変化率)を、データセットとして記憶する。ここで、データセット記憶部322は、重鎖配列についてのデータセット(
図9参照)と軽鎖配列についてのデータセット(
図10参照)を区別して記憶する。これらのデータセットは、次世代シーケンサ20からの解析結果情報に含まれ、処理部33によって入力される。
入力するデータセットは必ずしも重鎖配列と軽鎖配列の両方を入力する必要はなく、重鎖配列のみ、軽鎖配列のみのデータセットでもよい。また、重鎖配列と軽鎖配列を一度に読んだデータセットでもよい連結させた1つの結合配列として入力することも可能である。
【0082】
分類基準記憶部323(基準記憶部の一例)は、分類基準情報を記憶する。上述のとおり、分類基準情報には、複数の分類基準候補情報が含まれている。この情報は、ユーザ端末10からの入力情報に含まれ、処理部33によって設定される。ただし、本発明はこれに限らず、分類基準情報(複数の分類基準候補情報)は、予め分類基準記憶部323に設定されていても良い。
学習データセット記憶部324は、重鎖配列と軽鎖配列の組み合わせを含む抗体ごとに、その配列情報、及び評価結果情報(ラウンドごとの出現頻度及びラウンド間の出現頻度の変化率)に応じた結合判定情報を、学習データセットとして記憶する。ただし、学習データセット記憶部324は、重鎖配列と軽鎖配列を別々に、その配列情報、及び評価結果情報に応じた結合判定情報を、学習データセットとして記憶してもよい。
【0083】
注目位置情報記憶部325は、注目位置情報を記憶する。この情報は、ユーザ端末10からの入力情報に含まれ、処理部33によって設定される。
学習結果記憶部326は、予測対象配列生成部PAにより生成された配列学習済みモデルと、学習部334により生成された特性予測学習済みモデルを記憶する。
変異情報記憶部327は、変異情報を記憶する。この情報は、ユーザ端末10からの入力情報に含まれ、処理部33によって設定される。
配列記憶部328は、予測対象配列のアミノ酸配列を示す予測対象配列情報を記憶する。この予測対象配列情報は、処理部33により、配列学習済みモデルを用いて生成され、設定される。
特性評価情報記憶部329は、予測対象配列の各々について、処理部33が特性予測学習済みモデルを用いて予測した予測スコアを関連付けて記憶する。
【0084】
以下、記憶部32が記憶する実験情報、実験属性情報、データセット、学習データセット、及び、予測対象配列情報の一例について、
図7~
図12を用いて説明する。
【0085】
図7は、本実施形態に係る実験情報の一例を示す図である。
この図に示す一例では、実験情報は、パニンググループを識別するパニンググループIDごとに、標的抗原情報、抗体ライブラリ、データセット、実験条件ID、ラウンド2実験条件ID、及び、ラウンド3実験条件IDの各項目が対応付けられたリレーショナルデータベースである。ここで、抗体ライブラリは、実験抗体情報の一つであり、ラウンド1で供した抗体ライブラリを示す。データセットは、パニンググループIDで識別されるパニングについて、解析結果情報に基づくデータセットのファイルを示す。実験条件IDは、実験属性情報を識別する識別情報であり、ラウンド1の実験条件を示す。ラウンド2実験条件ID、ラウンド3実験条件IDは、それぞれ、ラウンド2の実験条件を示す実験条件IDであり、ラウンド3の実験条件を示す実験条件IDである。
この図に示す一例では、「パニンググループID」が“P1”の一連のパニングでは、「標的抗原」が“抗原1”、「抗体ライブラリ」が“ライブラリ1”であることを示す。また、“P1”の一連のパニングについて、データセットのファイルのうち、重鎖配列のファイルが“H12345.csv”であり、軽鎖配列のファイルが“L54321.csv”であることを示す。また、“P1”の一連のパニングでは、ラウンド1の実験条件が“条件1”であり、ラウンド2の実験条件が“条件2”、ラウンド3の実験条件が“条件3”であることを示している。
【0086】
図8は、本実施形態に係る実験属性情報の一例を示す図である。
この図に示す一例では、実験属性情報は、実験条件IDごとに、抗体ディスプレイ手法、抗体の由来、標的抗原の濃度、バッファーの組成、反応時間、反応温度の各項目が対応付けられたデータベースである。なお、データベースは、リレーショナルデータベースである一例を示すが、本発明はこれに限らず、CSVファイル等のテキストファイルやNoSQLであってもよい(以下、同じ)。
この図に示す一例では、「実験条件ID」が“P1”の実験条件は、「抗体ディスプレイ手法」が“ファージ”、「抗体の由来」が“マウス”、「標的抗原の濃度」が“1(nM)”、「バッファー組成」が“組成A”、「反応時間」が“T0”で、「反応温度」が“t1”であることを示している。
なお、上述のように、バッファー組成は、水素イオン指数であっても良い。
【0087】
図9は、本実施形態に係るデータセットの一例を示す図である。
この図のデータセットは、パニンググループIDが“P1”と対応付けられ、ファイル名が“H12345.csv”である。つまり、この図のデータセットは、“P1”の一連のパニングにおける解析結果情報から生成され、重鎖配列の抗体のデータセットであることを示す。
この図に示す一例では、データセットは、配列IDごとに、抗体の配列情報(H1、H2、・・・、H35a、H35b、H36、・・・)、ラウンド1での出現頻度、ラウンド2での出現頻度、ラウンド3での出現頻度、変化率(1→2)、変化率(2→3)の各項目が対応付けられたデータベースである。ここで、「配列ID」は、抗体の配列を識別するための識別子を示す。
【0088】
「H1」、「H2」、「H35a」、「H35b」、「H36」は、Kabatナンバリングに基づき抗体重鎖の可変領域におけるアミノ酸の位置を表し、「H」は重鎖であることを示している。
変化率(N→N+1)は、ラウンドNとラウンドN+1の間での出現頻度 の変化の割合を示し、この図の一例では、ラウンドN+1の出現頻度をラウンドNの出現頻度で除した値である。なお、変化率は、サーバ30が算出しても良い。
この図に示す一例では、 「配列ID」が“VH001”で識別される抗体は、そのアミノ酸配列について、ポジション「H1」のアミノ酸が“M(メチオニン)”、ポジション「H2」のアミノ酸が“E(グルタミン酸)”、ポジション「H35a」のアミノ酸が“P(プロリン)”、ポジション「H35b」のアミノ酸が“S(セリン)”、ポジション「H36」のアミノ酸が“Q(グルタミン)”であることを示す。また、“VH001”で識別される抗体は、評価結果情報として、「ラウンド1での出現頻度」が“10”、「ラウンド2での出現頻度」が“25”、「ラウンド3での出現頻度」が“50”、「変化率(1→2)」が“2.50”、「変化率(2→3)」が“2.00”であることを示す。
【0089】
図10は、本実施形態に係るデータセットの別の一例を示す図である。
この図のデータセットは、パニンググループIDが“P1”と対応付けられ、ファイル名が“L54321.csv”である。つまり、この図のデータセットは、“P1”の一連のパニングにおける解析結果情報から生成され、軽鎖配列の抗体のデータセットであることを示す。
この図に示す一例では、データセットは、配列IDごとに、抗体の配列情報(L1、L2、・・・、L27、・・・)、ラウンド1での出現頻度、ラウンド2での出現頻度、ラウンド3での出現頻度、変化率(1→2)、変化率(2→3)の各項目が対応付けられたデータベースである。
【0090】
「L1」、「L2」、「L27」は、抗体でのアミノ酸の位置が予め対応付けられている。これらの項目の各々は、抗体軽鎖の可変領域における位置を示し、その値(図中では英字)はその位置に位置するアミノ酸を表す。なお、
図10と
図9のデータセットでは、抗体の配列情報が、抗体重鎖の可変領域における位置を示すものか、抗体軽鎖の可変領域における位置を示すものかで異なる。
この図に示す一例では、「配列ID」が“VL001”で識別される抗体は、そのアミノ酸配列について、ポジション「L1」のアミノ酸が“M”、ポジション「L2」のアミノ酸が“F(フェニルアラニン)”、ポジション「L27」のアミノ酸が“A(アラニン)”であることを示す。また、“VL001”で識別される抗体は、評価結果情報として、「ラウンド1での出現頻度」が“8”、「ラウンド2での出現頻度」が“20”、「ラウンド3での出現頻度」が“40”、「変化率(1→2)」が“2.50”、「変化率(2→3)」が“2.00”であることを示す。
【0091】
図11は、本実施形態に係る学習データセットの一例を示す図である。
学習データセットは、パニングループID及び分類基準候補情報ごとに、記憶されている。この図の学習データセットは、パニングループIDが“P1”、分類基準候補情報が“基準1”の学習データセットの集合である。
この図に示す一例では、データセットは、配列IDごとに、抗体の配列情報(H1、H2、・・・、H35a、H35b、H36、・・・、L1、L2、・・・、L27、・・・)、ラウンド1での出現頻度、ラウンド2での出現頻度、ラウンド3での出現頻度、変化率(1→2)、変化率(2→3)、及び、結合判定情報の各項目が対応付けられたデータベースである。結合判定情報は、“基準1”の下で、抗体が結合抗体であるか非結合抗体であるかを示す。
この図に示す一例では、「予測対象配列ID」が“VHL0001”で識別される抗体は、そのアミノ酸配列について、ポジション「H1」のアミノ酸が“M”、ポジション「H2」のアミノ酸が“E”、ポジション「H35a」のアミノ酸が“P”、ポジション「H35b」のアミノ酸が“S”、ポジション「H36」のアミノ酸が“Q”、ポジション「L1」のアミノ酸が“M”、ポジション「L2」のアミノ酸が“F”、ポジション「L27」のアミノ酸が“A”であり、「結合判定」が“結合”(結合抗体)であることを示す。
【0092】
サーバ30は、結合配列の特徴を学習した配列学習済みモデルによって、
図12のようなその特徴を有する仮想配列群を生成する。
上記により、結合配列群を定義する。配列学習済みモデルは、望ましい配列群では、どのポジションのどのアミノ酸が出現しやすいか、そのポジション以前のアミノ酸群が何かによりそのポジションのアミノ酸には何が出現しやすいか、を学習した学習済みモデルである。サーバ30は、配列学習済みモデルに基づき、望ましい性質を持つと思われる多くの配列を生成する。
【0093】
図12は、本実施形態に係る予測対象配列情報の一例を示す図である。
予測対象配列情報は、予測対象配列を示す情報である。
この図に示す一例では、予測対象配列情報は、配列IDごとに、抗体の配列情報(H1、H2、・・・、H35a、H35b、H36、・・・、L1、L2、・・・、L27、・・・)が対応付けられたデータベースである。
この図に示す一例では、「予測対象配列ID」が“V000001”で識別される抗体は、予測スコアを算出する抗体であり、そのアミノ酸配列について、ポジション「H1」のアミノ酸が“M”、ポジション「H2」のアミノ酸が“E”、ポジション「H35a」のアミノ酸が“D(アスパラギン酸)”、ポジション「H35b」のアミノ酸が“S”、ポジション「H36」のアミノ酸が“R(アルギニン)”、ポジション「L1」のアミノ酸が“M”、ポジション「L2」のアミノ酸が“F”、ポジション「L27」のアミノ酸が“A”であることを示す。
この図に示す一例では、例えば、変異情報として、H35a、H36が入力された場合の予測対象配列情報である。つまり、複数の予測抗体配列の間で、配列情報のうちH35a、H36が示す位置ではアミノ酸が異なるが、他の位置ではアミノ酸が同一である。
【0094】
図13は、本実施形態に係る特性評価情報の一例を示す図である。
特性評価情報は、学習結果と予測対象配列とを用いて、予測対象配列の特性を予測する場合の予測の結果を示す情報である。
この図に示す一例では、特性評価情報は、配列IDごとに、予測スコアが対応付けられたデータベースである。予測スコアは、標的抗原と結合する確率や強さを示す情報である。
この図に示す一例では、「予測対象配列ID」が“V000001”で識別される抗体の「予測スコア」は、まだ予測が行われていないため、空欄となっている。
【0095】
<サーバの処理部>
図6に戻って、処理部33について、詳細を説明する。
処理部33は、情報取得部331、推定部332、分類部333、予測対象配列生成部PA、学習部334、制御部335、及び、出力処理部336を含んで構成される。
【0096】
情報取得部331は、次世代シーケンサ20からの解析結果情報から、実験情報(
図7参照)及び実験属性情報(
図8参照)を取得し、これらの情報を実験情報記憶部321に記憶させる。情報取得部331は、次世代シーケンサ20からの解析結果情報から、配列情報を取得する。情報取得部331は、解析結果情報中の配列情報毎に出現頻度を算出し、配列情報及び出現頻度をデータセットとして生成する。ここで、情報取得部331は、データセットを、重鎖配列と軽鎖配列で区分する。具体的には、情報取得部331は、重鎖配列を示す配列情報及び評価結果情報を、重鎖配列の抗体のデータセット(
図9参照)とし、そのファイルを実験情報(例えばパニンググループID)と関連付けて、データセット記憶部322に記憶させる。情報取得部331は、軽鎖配列を示す配列情報及び評価結果情報を、軽鎖配列の抗体のデータセット(
図10参照)とし、そのファイルを実験情報と関連付けて、データセット記憶部322に記憶させる。
【0097】
情報取得部331は、ユーザ端末10から分類基準情報を取得した場合には、その分類基準情報を、分類基準記憶部323に記憶させる。情報取得部331は、ユーザ端末10から注目位置情報を取得した場合には、その注目位置情報を、注目位置情報記憶部325に記憶させる。情報取得部331は、ユーザ端末10から変異情報を取得した場合には、その変異情報を、変異情報記憶部327に記憶させる。
【0098】
推定部332は、一連のパニングでのラウンド回数と出現頻度に基づいて、重鎖配列と軽鎖配列の組み合わせを推定する。推定部332は、推定した組み合わせの重鎖配列と軽鎖配列を含む抗体が存在したと推定する。
具体的には、推定部332は、例えば、重鎖配列と軽鎖配列の各組み合わせについて、ラウンド回数ごとの出現頻度の相関係数を算出する。推定部332は、相関係数の最も高い組み合わせについて、その組み合わせの重鎖配列と軽鎖配列を含む抗体が存在したと推定する。推定部332は、相関係数の最も高い組み合わせの重鎖配列と軽鎖配列を除き、それ以外の重鎖配列と軽鎖配列の各組み合わせについて、ラウンド回数ごとの出現頻度の相関係数を算出して、推定部332の上記処理を繰り返す。
このように、推定部332は、一連のパニングにおいて、複数回のラウンドでの出現頻度の相関関係によって、重鎖配列と軽鎖配列の組み合わせを推定する。これにより、情報処理システム1は、パニングしない場合と比較して、より精度良く抗体(重鎖配列と軽鎖配列の組み合わせ)を推定できる。
【0099】
推定部332は、存在すると推定した抗体が含む、重鎖配列と軽鎖配列の組み合わせ(「存在抗体配列」とも称する)を、データセット記憶部322に記憶させる。 なお、推定部332は、例えば、ラウンド回数ごとの出現頻度の相関関数に代えて、ラウンド間の出現率の変化率、又は出現率の差の相関係数を算出しても良い。推定部332は、例えば、ラウンド回数ごとの出現頻度、ラウンド間の出現率の変化率、又は出現率の差の相関係数のいずれかが同一(略同一を含む)である重鎖配列と軽鎖配列について、その重鎖配列と軽鎖配列を含む抗体が存在したと推定しても良い。
【0100】
ただし、本発明はこれに限らず、処理部33は、別の手法で重鎖配列と軽鎖配列の組み合わせを推定してもよい。
また、処理部33は、組合せを推定しなくてもよく、その場合、推定部332を備えなくてもよい。例えば、処理部33は、重鎖配列のみの解析、軽鎖配列のみの解析を行ってもよい。その場合、処理部33は、重鎖配列(又は軽鎖配列)を、存在抗体配列として、データセット記憶部322に記憶させてもよい。
また、解析結果情報に抗体全体の配列情報が含まれる場合、処理部33は、解析結果情報に含まれる抗体全体の配列情報を、存在抗体配列として、データセット記憶部322に記憶させる。例えば、情報取得部331は、次世代シーケンサ20が重鎖配列と軽鎖配列を一度に読みこむことができる場合、解析結果情報として、重鎖配列と軽鎖配列の組み合わせた配列の配列情報を取得し、データセット記憶部322に記憶させる。
【0101】
分類部333は、分類基準記憶部323の分類基準情報から、複数の分類基準候補情報を読み出す。分類部333は、各分類基準候補情報が示す分類基準に従って、存在抗体配列が示す抗体について、結合抗体であるか又は非結合抗体であるかを分類する。
具体的には、分類部333は、存在抗体配列のラウンドごとの出現頻度(又はラウンド間の出現頻度の変化率)が、分類基準情報の出現頻度(又は変化率)の閾値以上であるか否かを判定する。分類部333は、存在抗体配列の出現頻度(又は変化率)が閾値以上と判定した場合、存在抗体配列が示す抗体を結合抗体であると判定する。一方、それ以外の場合(存在抗体配列の出現頻度(又は変化率)が閾値より小さい場合)、分類部333は、存在抗体配列が示す抗体を非結合抗体であると判定する。
【0102】
ここで、分類部333は、ある分類基準情報において、複数の項目毎に閾値が設定されている場合(
図4参照)、それらの全ての項目が閾値以上と判定した場合、存在抗体配列が示す抗体を結合抗体であると判定する。
図4の一例の場合、分類部333は、基準1において、ラウンド1の出現頻度がX1以上、ラウンド1とラウンド2の出現頻度の変化率がY1以上、ラウンド1とラウンド3の出現頻度の変化率がZ1以上、である場合に、存在抗体配列が示す抗体を結合抗体であると判定する。それ以外の場合、分類部333は、存在抗体配列が示す抗体を非結合抗体であると判定する。
【0103】
なお、各ラウンドについて、存在抗体配列の出現頻度(又は変化率)は、重鎖配列もしくは軽鎖配列の出現頻度のいずれか一方(例えば、重鎖配列の出現頻度、軽鎖配列の出現頻度、出現頻度の最低値、又は出現頻度の最高値)であるが、重鎖配列と軽鎖配列の平均値などであっても良い。また、分類部333は、分類基準候補情報を追加しても良い。例えば、分類部333は、他の分類基準候補情報に含まれる閾値を、予め定めた値だけ変動させた値を閾値として、新たな分類基準候補情報を追加する。
【0104】
分類部333は、分類基準候補情報ごとに、結合抗体であると判定された存在抗体配列と、その評価結果情報(出現頻度及びその変化率)と、分類結果を示す結合判定情報と、を学習データセットとして学習データセット記憶部324に記憶させる。結合判定情報は、結合抗体であるか、又は非結合抗体であるかを表す。つまり、結合判定情報は、抗体が標的抗原に結合するか、又は結合しないか(非結合であるか)を示す情報である。
なお、結合判定情報は、存在抗体配列のラウンドごとの出現頻度(又はラウンド間の出現頻度の変化率)から分類基準情報の出現頻度(又は変化率)の閾値を差し引いた値でも良いし、分散や標準偏差に基づく値であってもよい。
【0105】
<予測対象配列の生成処理>
以下、予測対象配列生成部PAが行う予測対象配列の生成処理について説明する。
予測対象配列生成部PAは、配列選択部PA1、配列学習部PA2、及び仮想配列生成部PA3を含んで構成される。
配列選択部PA1は、学習データセット記憶部324から、分類基準候補情報ごとに、学習データセットを読み出す。配列選択部PA1は、注目位置情報記憶部325に注目情報が記憶されている場合、注目情報を読み出す。配列選択部PA1は、学習データセットの示す配列情報のうち、注目情報が示す位置の配列情報を取り出す。配列学習部PA2は、配列選択部PA1が取り出した配列情報(以下、「対象配列情報」、とも称する)と結合判定情報を含む、学習データセットを、学習処理に用いる。なお、配列学習部PA2は、注目位置情報記憶部325に注目情報が記憶されていない場合、全ての位置の配列情報を対象配列情報とし、対象配列情報と結合判定情報を含む学習データセットを、学習処理に用いる。
【0106】
配列選択部PA1は、分類基準候補情報ごとの学習処理の結果に基づいて、精度の高い分類基準を決定する。配列選択部PA1は、精度の高い分類基準の学習データセットを、選択する。
以下、配列選択部PA1が、学習モデルとして、LSTM(Long Short-Term Memory)を用いる学習処理について、詳細を説明する。ただし、本発明はこれに限らず、学習処理には他の学習モデルが用いられてもよい。
【0107】
<学習処理>
図14は、本実施形態に係る配列学習部PA2が行う学習処理の一例を説明する説明図である。
学習処理に用いられるLSTMは、入力層、中間層、出力層の3層から構成される。
図14に示す例では、入力層をX
1、X
2、・・・X
M、中間層をA
1、A
2、・・・A
M、出力層をh
1、h
2、・・・h
Mで表す。入力層の各入力は、学習データセットにおける各ポジションのアミノ酸のうち、注目位置情報が示すポジションのアミノ酸である。なお、注目位置情報は、例えば、抗体における部位であって、配列上、連続する位置である。ただし、本発明はこれに限らず、連続しない位置を含んでいてもよい。注目位置情報が存在しない場合には、入力層の各入力は、学習データセットの全てのポジションのアミノ酸となる。
【0108】
t番目(t=0、1、2、・・・、M)の中間層Atには、入力層Xtからの入力情報とt-1番目の中間層At-1からの出力情報が入力される。
各中間層Atに対して、複数のパラメータが記憶される。パラメータは、例えば、中間層内に存在する入力ゲート、入力判断ゲート、忘却ゲート、及び、出力ゲートの処理に係るパラメータである。なお、パラメータは予め記憶部32に記憶される。
中間層Atは、入力層Xtからの入力情報と中間層At-1からの出力情報が入力された場合に、記憶部32に記憶されたパラメータに基づいて、出力層htの値を算出して出力する。
【0109】
LSTMの学習処理が行われる場合、入力層X
tには、配列情報のt番目の配列のアミノ酸情報が入力される。アミノ酸情報は、20個の成分を有するベクトルであり、各成分は、20種類のアミノ酸の1つに対応する。例えば、そのベクトルの第4成分は、アミノ酸の種類「E」に対応する。本図のように、配列情報において、ポジションH2のアミノ酸が「E」である場合、第4成分のみが「1」で、それ以外の成分が「0」のベクトルとなる。なお、入力層X
0には、中間層A
0に対して、出力層h
0の値を出力させる命令(図中の「START」)が入力される。この命令は、アミノ酸配列の出力開始を示す情報でもある。
LSTMから出力された出力層h
tのベクトル値h
tは、配列情報のt+1番目のアミノ酸情報と比較される。比較の結果、その差を少なくするように、中間層A
tのパラメータが更新される。なお、出力層h
Mの値は、アミノ酸配列の終了を示す情報(
図14では“END”で示される)とされる。
【0110】
図14に示す例は、
図11の配列IDが“VHL0001”で識別される配列をLSTMに学習させるときに入力されるデータを示す。入力層「X
1」にはポジションH1のアミノ酸“M”が入力される。入力層「X
2」にはポジションH2のアミノ酸である“E”が入力される。入力層「X
M」にはポジションL107aにアミノ酸がないことを示す情報(“-”)が入力される。一方、学習時には、出力層「h
0」から出力された値は、ポジションH1のアミノ酸“M”と比較され、出力層「h
1」から出力された値は、ポジションH2のアミノ酸“E”と比較される。
以上の学習処理によって、学習後のLSTMでは、中間層A
tから出力層h
tに対して、配列上、t+1番目に位置するアミノ酸情報が出力される。 LSTMは基準毎に用意され、基準毎のLSTMに対して、当該基準の学習データセットを用いて学習処理が行われる。
【0111】
<実行処理:仮想配列の生成>
学習処理後のLSTMを用いて、仮想配列を出力する実行処理について説明する。
この実行処理が行われる場合には、LSTMの出力層ht-1のベクトル値ht-1は、入力層Xtに入力される。LSTMは、配列上、次の順番となるアミノ酸を、順次、出力層htから出力できる。ここで、出力層ht-1のベクトル値ht-1は、入力層Xtに入力される場合には、ベクトルの全成分の値で、ht-1の20種類のアミノ酸の出現確率に従って1つのアミノ酸が選択され、そのアミノ酸に対応するベクトル成分を「1」、それ以外の成分を「0」としたベクトルが入力される。一例として、大量の仮想配列群を生成する際に、「各ポジションでモデル上設定された確率に従いアミノ酸を選択して1配列を生成する」ことを非常に多数回(数百万~数千万)繰り返している。このように、出力層ht-1のベクトル値ht-1に対して、対応するアミノ酸が1つに決定されたベクトルを、以下では、確定ベクトル値ht-1とも称する。
確定ベクトル値ht-1が表すアミノ酸は、配列情報におけるt番目のアミノ酸情報(構成要素)となる。つまり、確定ベクトル値ht-1が表すアミノ酸を、t=1からtの順序に並べた配列は、仮想配列として出力される。ここで、仮想配列は、学習データセットの配列情報の特徴を有する配列である。このように、学習データセットの配列情報の特徴を学習し、仮想配列を出力する学習済みモデルを、配列学習済みモデルという。
【0112】
<実行処理:予測スコアの予測>
学習処理後のLSTMを用いて、予測スコアを出力する実行処理について説明する。
LSTMは、結合判定が「結合」である学習データセットの配列情報のみで学習される。実行処理が行われる場合には、入力層Xt(t≧1)には、入力された配列情報のうち、t番目のアミノ酸情報として、ベクトル値xtが入力される。入力層X0には、アミノ酸配列の出力開始を示す情報(「START」)が入力される。出力層htからは、ベクトル値htが出力される。
【0113】
ベクトル値htは、入力層Xtにt番目のアミノ酸情報が入力された場合において、t+1番目のアミノ酸情報の予測値を表す。LSTMは、結合判定が「結合」であった配列情報のみで学習しているので、この予測値は、結合判定が「結合」となる可能性の高い予測値である。よって、ベクトル値ht-1とベクトル値xtとの内積は、t番目のアミノ酸情報において、配列全体の結合判定が「結合」となる尤度Pを算出するための情報である。確率Ptを、t=1からt=Mまで、掛け合わせた値、尤度P=P1×P2×P3×・・・×PMが、入力された配列情報に対して、標的抗原との親和性を表す予測スコアとなる。
このように、入力された配列情報に対して、予測スコアを出力する学習済みモデルを、特性予測学習済みモデルという。
【0114】
なお、本実施形態では、情報処理システム1は、配列学習済みモデルと特性予測学習済みモデルに同じLSTMを用いるので、各モデル個別に学習処理を行う場合と比較して、学習処理を軽減できる。ただし、本発明はこれに限らず、配列学習済みモデル又は特性予測学習済みモデルは、学習に用いられる学習データセットが異なっていてもよいし、学習モデルが異なってもよい。特性予測学習済みモデルは、ガウス過程であってもよく、ガウス過程による予測スコアは予測の信頼度であってもよい。
【0115】
<LSTMの中間層>
図15は、上記各実施形態に係るLSTMの構造を表す概念図である。
この図は、
図14のLSTMの一部であり、t番目の中間層A
tの内部構造の一例を表す。この図において、中間層A
tには、中間層A
t-1から入力情報として、t-1番目のセル状態C
t-1、及び、出力層h
t-1から出力されるベクトル値値h
t-1が入力される。また、中間層A
tには、入力層X
tからベクトル値x
tが入力される。
【0116】
LSTMのパラメータとして、Wf、bf、Wi、bi、Wc、bc、Wo、boは、記憶部32に記憶されている。中間層Atにおいて、入力されたCt-1、値ht-1、及び値xtに対して、記憶部32に記憶されたパラメータWf、bf、Wi、bi、Wc、bc、Wo、boを用いて、次の式(1)のft、式(2)のit、式(3)のC~(チルダ)t、式(5)のotが算出される。式(4)のCtは、算出されたft、it、C~(チルダ)tを用いて算出され、ベクトル値htは、Ctとotを用いて算出される。このベクトル値htは、出力層htから、出力される。
【0117】
【0118】
ここで、σは、シグモイド関数を表す。
学習処理では、t-1番目の出力層ht-1から出力されたベクトル値ht-1と、配列情報のt番目のベクトル値xtと、が比較される。比較の結果、ベクトル値ht-1とベクトル値xtの誤差を小さくするように、パラメータWf、bf、Wi、bi、Wc、bc、Wo、boは、新たな値に更新される。
なお、更新後のパラメータは、記憶部32に記憶される。また、パラメータWf、bfは、入力ゲートの処理に係るパラメータである。パラメータWi、biは、入力判断ゲートの処理に係るパラメータである。パラメータWc、bcは、忘却ゲートの処理に係るパラメータである。パラメータWo、boは、出力ゲートの処理に係るパラメータである。
【0119】
<学習済みモデルの選択>
図6に戻って、配列選択部PA1は、学習処理を行う際、まず学習データセットから、結合判定が「結合」である学習データセットを読み出す。配列選択部PA1は、読み出した学習データセットを学習処理に用いる学習データセットと、特性予測学習済みモデルを評価する評価処理に用いる評価データセットに分ける。本実施形態においては、特性予測学習モデルは、分類基準候補情報の数だけ存在するが、いずれの特性予測学習モデルに対しても、上述した学習データセットを用いて学習処理を行い、評価データセットを用いて評価処理を行う。
配列選択部PA1は、続いて、学習処理に用いる学習データセットを、訓練データセットと検証データセットに分割する。例えば、配列選択部PA1は、学習データセットを複数個のグループ(G1、G2・・・GN)に分ける。各グループに含まれる学習データセットは同程度の個数になるようにする。配列選択部PA1は、複数のグループのうち、1グループ(例えば、Gk)を検証に用いるグループ(検証グループ)とする。つまり、配列選択部PA1は、検証グループに含まれる学習用データセットを、検証データセットとする。配列選択部PA1は、残りのグループに含まれる学習データセットを訓練データセットとして設定する。
【0120】
配列学習部PA2は、訓練データセットを用いて、LSTMの学習処理を行うことで、特性予測学習済みモデルを生成する。学習処理後、配列学習部PA2は、LSTMの検証を行う。配列学習部PA2は、検証データセットの配列情報を、特性予測学習済みモデルに入力する。配列学習部PA2は、特性予測学習済みモデルから出力される予測スコアを、特性推定情報としてを取得する。配列学習部PA2は、特性推定情報と、入力した配列情報に対応する特性情報とを比較し、特性推定情報と特性情報とのずれを所定の方法で求める。所定の方法とは、例えば、評価データセットの全データに対する平均絶対誤差を算出する方法である。
なお、特性情報と特性推定情報とのずれを求める方法は上述した方法に限られない。例えば、平均二乗誤差、二乗平均平方根誤差、決定係数などを求める方法であってもよい。
【0121】
配列学習部PA2は、検証グループを変更し、上述した訓練及び検証を繰り返す。繰り返しの回数は、分割したグループの数と一致する。また、1度検証グループに区分されたグループは、再度検証グループには区分されない。すなわち、例えば、学習データセットをG1~GNのN個のグループに分割した場合、訓練及び検証はN回行われる。また、各グループは、検証グループに1度含まれ、上述した検証処理に用いられる。
配列学習部PA2は、N回の訓練及び検証が終了後、得られたN個のずれを用いて、LSTMの全学習データセットを用いた訓練の評価を行う。具体的には、配列学習部PA2は、N個のずれの平均を算出する。配列学習部PA2は、求めた平均が所定の閾値以下でない場合には、上記の学習をやり直す。この時、配列学習部PA2は、中間層全体に関するパラメータを変更する。配列学習部PA2は、求めた平均が所定の閾値以下である場合には、学習が終了したと判定し、訓練及び検証を終了する。
【0122】
なお、配列学習部PA2は、上述したような検証グループを入れ替える方法以外の方法で訓練及び検証を行ってもよい。例えば、配列学習部PA2は、検証グループを入れ替えなくてもよい。また、配列学習部PA2は、グループに含まれる学習データセットが1つになるようにしてもよい。この場合、上述したグループの数Nは学習データセットの数と一致する。
本実施形態では、入力データに対して特性推定情報を出力するものを、特性予測学習済みモデルと呼ぶ。
【0123】
配列選択部PA1は、評価データセットの各データセットについて、結合判定情報と特性推定情報から、AUC(Area Under an ROC Curve)を算出する。配列選択部PA1は、全ての分類基準候補情報の各々について、学習処理及び評価処理を行うことで、分類基準候補情報の各々の特性予測学習済みモデルについて、AUCを算出する。配列選択部PA1は、AUCの値が最も高い分類基準候補情報(「選択分類基準情報」とも称する)、及び、その分類基準候補情報の特性予測学習済みモデルを、パニンググループIDと対応付けて学習結果記憶部326に記憶させる。 配列学習部PA2は、配列選択部PA1が生成した選択学習済みモデルのうち、少なくともLSTMの部分(
図14)を、配列学習済みモデルとして学習結果記憶部326に記憶させる。
【0124】
仮想配列生成部PA3は、配列学習済みモデルを用いて、仮想配列を複数生成し、生成した複数の仮想配列からなる群を、予測対象配列情報とする。仮想配列の配列情報は、選択分類基準情報に対応付けられた学習データセットについて、その配列情報の特徴を有しつつ、配列情報の1又は複数の位置のアミノ酸が変更された配列情報である。
【0125】
具体的には、
図14のLSTMは、学習の結果、配列学習済みモデルとして、各ポジションで、どのアミノ酸がどの確率で発生するかの条件付き確率を学習できている。仮想配列生成部PA3は、その確率に応じて配列を多数回生成する。具体的には、仮想配列生成部PA3は、ポジション1では、アミノ酸配列を生成する場合、学習した20種類のアミノ酸の出現確率に基づき新規仮想配列のアミノ酸を生成する。ポジション2では学習したアミノ酸(AA)の条件付き出現確率 P(AA
2 |AA
1)に基づき、ポジション1のアミノ酸に依存しながら新規仮想配列のアミノ酸を生成する。ポジション3ではポジション1および2のアミノ酸に依存しながらアミノ酸を生成する。以降は、学習によって決められた、次式に基づき、次のポジションのアミノ酸を逐次的に発生させ、新規仮想配列全長を生成する。この新規仮想配列生成を非常に多数回実行する。例えば、次式の条件付確率は、確率P
T+1で表される
【0126】
【0127】
ここで、配列生成部PA3は、変異情報記憶部327に変異情報が記憶されている場合には、配列学習済みモデルに対して、変異情報が示す変異位置(配列情報の要素)以外の位置のアミノ酸を固定して入力し、変異位置のアミノ酸を、配列学習済みモデルから出力されたアミノ酸とすることで、予測対象配列情報を生成する。具体的には、配列生成部PA3は、変異位置がt番目の場合、t番目のアミノ酸を、確定ベクトル値h
t-1が表すアミノ酸に置き換えることで、予測対象配列情報を生成する。
これにより、情報処理システム1は、結合する可能性が高く、変異させたい位置のアミノ酸だけを変更した予測対象配列情報を生成できる。
配列生成部PA3は、生成した予測対象配列情報を、配列記憶部328に記憶させる(
図12参照)。
【0128】
図16は、本実施形態に係る仮想配列生成部PA3の動作の一例を示すフローチャートである。
(ステップS1)仮想配列生成部PA3は、配列学習済みモデルに対して、アミノ酸配列の開始を示す情報を入力することで、予測対象配列の生成を指示する。
【0129】
(ステップS2)仮想配列生成部PA3は、配列学習済みモデルの出力層h0からアミノ酸情報としてベクトル値h0を出力し、確定ベクトル値h0をベクトル値x1として入力層X1へ入力する。仮想配列生成部PA3は、配列学習済みモデルの出力層ht-1からアミノ酸情報としてベクトル値ht-1を出力し、確定ベクトル値ht-1をベクトル値xtとして入力層Xtへ入力することを、tの昇順に繰り返す。仮想配列生成部PA3は、出力層hMからアミノ酸配列の終了を示す情報が出力された場合、処理を終了する。仮想配列生成部PA3は、確定ベクトル値h0からhM-1が表すアミノ酸を、順に並べ、並べた配列を予測対象配列として生成する。
【0130】
(ステップS3)仮想配列生成部PA3は、ステップS1で生成した予測対象配列を示す情報を予測対象配列情報として、配列記憶部328に記憶させる。
(ステップS4)仮想配列生成部PA3は、終了条件を充足するか否かを判定する。この終了条件は、予め設定された条件であり、予測対象配列群を生成する処理を終了する条件である。例えば、終了条件は、ステップS2で生成した予測対象配列が予め定めた個数以上になることである。ただし、終了条件は他の条件でもよく、例えば、全く同じ配列の予測対象配列が所定数生成された場合でもよいし、類似の予測対象配列が所定数生成された場合でもよい。類似の予測対象配列とは、例えば、予測スコアが閾値以上の配列である。また例えば、類似の予測対象配列とは、例えば、上述のDoc2Vec法で、各予測対象配列をベクトル空間にマッピングした場合に、互いの距離が所定値よりも短い配列である。
終了条件が充足されない場合(No)、仮想配列生成部PA3は、再度、ステップS1に戻って、予測対象配列を生成する。一方、終了条件が充足される場合(Yes)、仮想配列生成部PA3は、
図16の処理を終了する。 以上の
図16の処理により、仮想配列生成部PA3は、複数の予測対象配列を生成する。
【0131】
図6に戻って、学習部334は、配列選択部PA1が生成した選択学習済みモデルを複製し、特性予測学習済みモデルとして学習結果記憶部326に記憶させる。
なお、学習部334は、
図14のLSTMに対して、選択分類基準情報に対応付けられた学習データセット(
図11)を用いて、学習処理を行うことで、特性予測学習済みモデルを生成してもよい。例えば、学習部334は、配列情報と結合判定情報を用いて、深層学習等の教師あり学習で学習処理を行ってもよい。この場合、学習部334は、結合判定が「結合」である学習データセットに加えて或いは一部に代えて、結合判定が「結合」でない学習データセットを用いて学習処理を行ってもよい。
【0132】
制御部335は、入力された配列情報に対して、特性予測学習済みモデルを用いて、予測スコア(尤度)を出力する。つまり、制御部335は、入力された配列情報の抗体について、特性予測学習済みモデルが対応するパニンググループIDでパニングに供された標的抗原との予測スコアを予測する。
例えば、制御部335は、配列記憶部328から、予測対象配列情報を読み出す。制御部335は、読み出した予測対象配列情報を入力データとして、特性予測学習済みモデルに入力し、予測スコアを出力する。制御部335は、予測対象配列情報と予測した予測スコアを、予測対象抗体情報として特性評価情報記憶部329に記憶させる。例えば、制御部335は、
図12の予測対象抗体情報に対して、予測対象配列情報に対応する予測スコアを記憶させる。
【0133】
出力処理部336は、予測対象抗体情報の予測スコアに応じて、予測対象抗体情報の予測対象配列情報を、候補抗体情報として出力する。候補抗体情報とは、標的抗原と親和性の高い抗体の候補を示す。
具体的には、出力処理部336は、特性評価情報記憶部329から予測対象抗体情報を読み出し、予測スコアの高い順序で並び変える。出力処理部336は、予測スコアの高い順序で順序付けされた予測対象配列情報を、候補抗体情報として生成する。出力処理部336は、生成した候補抗体情報を、通信部31を介して、ネットワークNWを経由でユーザ端末10へ送信する。なお、出力処理部336は、予測対象抗体情報をユーザ端末10へ送信し、ユーザ端末10(処理部14)は、受信した予測対象抗体情報を予測スコアの高い順序で並び変えて表示部15に表示してもよい。
【0134】
なお、出力処理部336は、ユーザ端末10で標的抗原又は実験情報(
図4参照)が指定されている場合、実験情報(
図7)の標的抗原から、指定された標的抗原又は実験条件に対応付けられたパニンググループIDを選択する。また、出力処理部336は、ユーザ端末10で実験条件が指定されている場合、指定された実験条件(
図8)を満たす実験条件IDを選択し、選択した実験条件IDに実験情報(
図7)で対応付けられたパニンググループIDを選択する。
出力処理部336は、選択したパニンググループIDに対応する予測対象抗体情報(
図12)を抽出する。出力処理部336は、抽出した予測対象抗体情報を予測スコアの高い順序で並び変え、ユーザ端末10へ送信する。
【0135】
<動作について>
図17は、本実施形態に係るサーバ30の動作の一例を示すフローチャートである。この図は、学習段階(学習処理及び評価処理)におけるサーバ30の動作を示す。
【0136】
(ステップS101)情報取得部331は、ユーザ端末10から、各種情報を取得する。情報取得部331は、取得した情報を記憶部32に記憶させる。その後、ステップS102へ進む。
(ステップS102)情報取得部331は、次世代シーケンサ20から解析結果情報を取得する。情報取得部331は、ステップS101で取得した解析結果情報を、データセットとしてデータセット記憶部322に記憶させる。その後、ステップS103に進む。
【0137】
(ステップS103)推定部332は、ステップS102で記憶させたデータセットに基づき、重鎖配列と軽鎖配列との組み合わせとして、存在抗体配列を推定する。推定部332は、推定した存在抗体配列をデータセット記憶部322に記憶させる。その後、ステップS104に進む。
(ステップS104)分類部333は、各分類基準候補情報が示す分類基準に従って、ステップS103で記憶させた存在抗体配列が示す抗体について、結合抗体であるか又は非結合抗体であるかを分類する。分類部333は、分類基準候補情報ごとに、存在抗体配列と、分類結果を示す結合判定情報とを含む学習データセットを生成し、生成した学習データセットを学習データセット記憶部324に記憶させる。その後、ステップS105に進む。
【0138】
(ステップS105)予測対象配列生成部PAは、ステップS104で記憶させた学習データセットに基づいて、分類基準候補情報ごとに学習処理を行って特性予測学習済みモデルを生成する。予測対象配列生成部PAは、生成した特性予測学習済みモデルの精度を評価する評価処理を行う。その後、ステップS106へ進む。
(ステップS106)予測対象配列生成部PAは、ステップS105で生成された特性予測学習済みモデルについて、ステップS105の評価処理の評価結果に基づいて、特性予測学習済みモデルを選択する。予測対象配列生成部PAは、選択した選択学習済みモデル及び同じLSTMを有する配列学習済みモデルを、学習結果記憶部326に記憶させる。その後、本図の動作を終了する。
【0139】
図18は、本実施形態に係るサーバ30の動作の別の一例を示すフローチャートである。この図は、実行段階におけるサーバ30の動作を示す。実行段階とは、情報処理システム1が、学習データセットで学習した後、選択学習済みモデルを用いて予測等を行う段階を示す。
【0140】
(ステップS201)予測対象配列生成部PAは、
図17のステップS106で記憶された配列学習済みモデルを読み出し、特性予測学習済みモデルを用いて予測対象配列情報を生成する。その後、ステップS205へ進む。
(ステップS202)制御部335は、ステップS201で生成した予測対象配列について、
図17のステップS106で記憶された特性予測学習済みモデルを用いて、予測スコアを予測する。その後、ステップS203へ進む。
(ステップS203)出力処理部336は、ステップS202で予測した予測スコアに応じて、予測対象抗体情報の予測対象配列情報を、候補抗体情報として出力する。出力された候補抗体情報は、ユーザ端末10で表示される。その後、本図の動作を終了する。
【0141】
<まとめ>
以上説明したように、情報処理システム1では、配列学習部PA2(「配列学習部」の一例)は、複数の配列に基づいて、LSTMを用いた学習処理(「機械学習」の一例)を行うことで、配列情報が表す配列の特徴を学習した配列学習済みモデル(「第1学習済みモデル」の一例)を生成する。ここで、学習処理に用いられる複数の配列は、結合判定結果が「結合」である抗体の配列である。よって、配列学習済みモデルは、結合すると判定される可能性の高い配列の特徴を学習している。
仮想配列生成部PA3(「配列生成部」の一例)は、抗原結合分子の配列情報が表す配列を構成するアミノ酸(「構成単位」の一例)の少なくとも1つを変異させた予測対象配列を表す予測対象配列情報(「仮想配列情報」の一例)を生成する。
【0142】
このように、情報処理システム1は、結合判定結果が「結合」である配列に基づいて学習処理を行うので、配列学習済みモデルから、結合すると判定される可能性の高い配列又はアミノ酸を予測できる。
なお、学習処理に用いられる複数の配列は、標的抗原と結合したと判定された結合抗体の配列、配列選択部PA1が算出したAUCの値が最も高い選択学習済みモデルの学習処理に用いられた抗体の配列である。ただし本発明はこれに限らず、各特性や分類基準に応じて、予め定めた特性を持つ配列(例えば、特性値が閾値以上或いは以下の配列)であってもよい。また、標的抗原と結合したと判定された結合抗体は、1回のラウンドでパニングの結果、標的抗原と結合したと判定された結合抗原でもよいし、2回目以降のラウンドでパニングに供された結合抗体であってもよいし、2回目以降のラウンドでパニングの結果、標的抗原と結合したと判定された結合抗原でもよい。
【0143】
また、配列学習済みモデルが学習する配列の特徴は、アミノ酸(「構成単位」の一例)の配列中の位置、及び、アミノ酸同士の前後関係を含む特徴である。
これにより、情報処理システム1は、学習に用いる抗原結合分子のアミノ酸の配列について、位置的特徴、及び、前後関係の特徴を学習することができる。この場合、情報処理システム1は、同様の位置的特徴、及び、前後関係の特徴を持つ配列を表す予測対象配列情報を生成できる。
【0144】
仮想配列生成部PA3は、設定された配列上の部位であって1以上のアミノ酸から構成される部位について、少なくとも1つのアミノ酸を変更することで、予測対象配列情報を生成する。
これにより、情報処理システム1は、設定された部位を変更した予測対象配列情報を生成できる。例えば、ユーザは、変更したい部位を設定することで、その部位を変更した予測対象配列情報を知ることができる。
【0145】
設定された配列上の部位は、抗体の重鎖可変領域、軽鎖可変領域又は定常領域のいずれかの配列中に含まれる。
これにより、情報処理システム1は、抗体の重鎖可変領域、軽鎖可変領域又は定常領域のいずれかの配列中に含まれる部位を変更し、変更した予測対象配列情報を生成できる。例えば、ユーザは、抗体の重鎖可変領域、軽鎖可変領域又は定常領域のいずれかの配列中に含まれる部位を設定することで、その部位を変更した予測対象配列情報を知ることができる。
【0146】
学習に用いられる配列情報は、その配列情報が表す配列の抗原結合分子或いはタンパク質についての特性評価の結果に応じて選択された配列情報である。
これにより、情報処理システム1は、同様の特性評価の結果となる可能性の高い予測対象配列情報を生成できる。ユーザは、例えば、所望の特性評価の結果を設定することで、その特性評価の結果となる予測対象配列情報を知ることができる。
【0147】
また、情報処理システム1では、配列選択部PA1(「配列学習部」の一例:学習部334であってもよい)は、複数の抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該配列が表す抗原結合分子についての特性評価の結果に基づいて学習処理を行うことで、特性予測学習済みモデル(「第2学習済みモデル」:選択学習済みモデルであってもよい)を生成する。
制御部335(「推定部」の一例)は、特性予測学習済みモデルの演算処理を実行することで、入力した予測対象配列情報が表す配列の抗原結合分子についての特性評価の予測スコアを推定する。また、情報処理システム1では、制御部335(「推定部」の一例)は、上記配列学習済みモデルに基づいて生成された予測対象配列情報(「仮想配列情報」の一例)を選択学習済みモデルに入力し、選択学習済みモデルの演算処理を実行することで、入力した予測対象配列情報が表す配列の抗原結合分子についての特性評価の予測スコア(「特性評価の予測値」の一例)を予測する(「取得する」の一例)。
これにより、情報処理システム1は、生成した予測対象配列情報各々について、その特性評価(例えば親和性)の予測スコアを予想できる。
【0148】
また、出力処理部336(「出力部」の一例)は、制御部335が推定した予測スコアに応じて、予測対象配列情報及び予測スコアに基づく出力を行う。
これにより、情報処理システム1は、例えば、特性評価の結果が高くなる順に優先して、予測対象配列を出力できる。
【0149】
また、情報処理システム1では、仮想配列生成部PA3は、変異情報として設定された配列上の変異位置において、変異位置の配列を構成するアミノ酸を変更することで、予測対象配列情報を生成する。
これにより、情報処理システム1は、変異位置を設定することができ、その変異位置のアミノ酸を変更した仮想配列を生成できる。よって、情報処理システム1は、全ての位置を変異させる場合と比較して、配列の候補を少なくすることができる。また例えば、情報処理システム1は、結合等の特性において重要であると想定される変異位置において、その変異位置のアミノ酸を変更した仮想配列を生成できる。よって、情報処理システム1は、配列の候補を絞った上で重要な変異が行われた配列を生成でき、所望の配列を効率良く生成できる。
【0150】
また、情報処理システム1では、設定された配列上の変異位置が、抗体の重鎖可変領域、軽鎖可変領域又は定常領域のいずれかの配列中に含まれる。
これにより、情報処理システム1は、例えば可変領域のうち、重鎖可変領域又は軽鎖可変領域に、結合等の特性において重要であると想定される変異位置がある場合に、その変異位置のアミノ酸を変更した仮想配列を生成できる。また、情報処理システム1は、例えば定常領域に、結合等の特性において重要であると想定される変異位置がある場合に、その変異位置のアミノ酸を変更した仮想配列を生成できる。
【0151】
また、情報処理システム1では、出力処理部336(「出力部」の一例)は、選択学習済みモデルに入力された複数の予測対象配列情報のうち、少なくとも1つの予測対象配列情報を、予測スコアに応じて出力する。
これにより、情報処理システム1は、生成した予測対象配列情報について、例えば予測スコアが高いものを優先して出力することができる。なお、優先して出力することには、優先度の高いもののみを出力すること、優先度の高いものを先頭に出力すること、優先度の高いものの表示態様を低いものとは別にして出力すること、優先度の高いものをリコメンドすることが含まれる。
【0152】
また、情報処理システム1では、配列選択部PA1(「配列取得部」の一例)は、配列情報、及び解析結果情報或いは結合判定情報(「評価結果情報」の一例)に応じて、複数の配列を選択する。配列学習部PA2は、選択された複数の配列について、当該配列の順序に応じた学習処理を行うことで配列学習済みモデルを生成する。ここで、LSTM法を用いた学習処理は、配列の順序が考慮された機械学習である。
これにより、情報処理システム1は、抗原結合分子において、配列の順序による性質が考慮された仮想配列を生成できる。
【0153】
また、情報処理システム1では、配列選択部PA1は、解析結果情報又は結合判定情報の値が所定値よりも高く、「結合」したと判定された複数の配列を選択する。配列学習部PA2は、選択された複数の配列について、当該配列を入力及び出力として学習処理を行うことで配列学習済みモデルを生成する。ここで、本実施形態のLSTM法を用いた学習処理は、配列を入力及び出力とした機械学習である。
これにより、情報処理システム1は、結合する可能性の高い配列を予測して出力できる。例えば、教師ありモデルを用いた機械学習で、出力が配列でない場合(例えば、出力が特性評価値である場合)には、さらに、特性評価値の高い配列を得るための演算によって、配列を生成する必要がある。これに対して、情報処理システム1は、配列学習済みモデルの出力が配列であるので、さらなる演算を行うことなく、結合する可能性の高い配列を、直ちに得ることができる。
【0154】
また、情報処理システム1では、仮想配列生成部PA3は、深層学習モデルを用いて機械学習を行う。ここで、仮想配列生成部PA3は、深層学習モデルとして、LSTMに代えて或いは加えて、再帰型ニューラルネットワーク(RNN)、Gated Recurrent Unit(GRU)、Generative Adversarial Network(GAN)、又は、Variational Autoencoder(VAE)、又は、Flow深層生成モデルのいずれかを用いて学習処理を行ってもよい。
【0155】
また、情報処理システム1では、仮想配列生成部PA3は、LSTMに代えて或いは加えて、確率モデルを用いて機械学習を行ってもよい。ここで、仮想配列生成部PA3は、確率モデルとして、隠れマルコフモデル(HMM)、又はマルコフモデル(MM)のいずれかを用いて機械学習を行う。
【0156】
また、情報処理システム1では、仮想配列生成部PA3は、配列を構成する構成単位がアミノ酸の出現確率で表された配列情報に基づいて、機械学習を行う。
これにより、情報処理システム1は、配列情報の構成単位を、複数のアミノ酸の候補についての確率で処理でき、配列情報の構成単位に多様性を持たせることができる。
【0157】
(第2実施形態)
以下、図面を参照しながら本発明の第2実施形態について説明する。
本実施形態では、2以上の異なる複数の標的分子に対して結合する抗原結合分子について、候補抗体情報を出力する場合について説明する。2以上の異なる複数の標的分子に対して結合する抗原結合分子とは、当該抗原結合分子中の1の抗原結合ドメインが1の標的抗原以外の異なる標的抗原にも結合し得ることを意味する。2以上の異なる複数の標的分子に対して結合する抗原結合分子は、上述した抗原結合分子のライブラリを用いて2以上の異なる複数の標的分子との親和性評価を行うことで選抜することが可能である。2以上の異なる標的が存在する条件下で親和性評価を行うことで、2以上の異なる複数の標的分子が存在する場合に結合する抗原結合分子の選抜が可能である。また2以上の異なる複数の標的分子を選抜する別態様として、2以上の異なる複数の標的分子に対して結合するものの、異なる複数の標的分子に同時に結合しない抗原結合分子の選抜も可能である。異なる複数の標的分子に同時に結合しない抗原結合分子を選抜する手法の非限定な手法としては、以下の手法が挙げられる。1の標的分子(標的分子A)を用いてパニングを実施し、続いて前記標的抗原と異なる標的分子(標的分子B)を用いてパニングを実施することで、標的分子A, Bに結合する抗原結合分子の選抜が可能である。続いて、標的分子Aに対してパニングを実施する際に、標的Bをパニング反応液中に過剰に添加することにより、標的分子Aに対して結合活性の阻害効果が認められた抗原結合分子が当該標的分子A、Bに対して同時に結合しない抗原結合分子と推定することができる。前記異なる複数の標的分子は異なるタンパク質抗原であっても良いし、また低分子化合物であっても良い。また、2以上の異なる複数の標的分子に対して結合する抗原結合分子の選抜は抗原結合分子のライブラリを用いた手法に限定されず、異なる複数の抗原結合分子を含む限り使用することが可能である。
【0158】
本実施形態に係る情報処理システム1aは、実験条件が互いに異なる複数セットのパニングとして、小分子が存在する一連のパニング、及び、小分子が存在しない一連のパニングの両方を行う。本実施形態では、実験条件情報には、標的抗原の濃度がある所定の濃度であることと、バッファー溶液の組成として、小分子がある所定の濃度であることと(小分子が存在するか否か)を示す情報が含まれる。 所定の濃度とは、予め定めた値又は範囲内の濃度である。
情報処理システム1aの概略図は、第1実施形態の情報処理システム1(
図1)において、サーバ30をサーバ30aに代えたものである。ユーザ端末10及び次世代シーケンサ20は、第1実施形態と同様の構成を備えるので、説明を省略する。以降、第1実施形態と同様の構成には、同一の符号を付与してここでの説明を省略する。
【0159】
図19は、第2実施形態に係るサーバ30aの一例を示すブロック図である。
サーバ30aは、通信部31、記憶部32a、及び、処理部33を含んで構成される。記憶部32aは、第1実施形態の記憶部32(
図6)と比較して、データセット記憶部322a、分類基準記憶部323aが異なる。ここで、データセット記憶部322aの基本的な機能は、データセット記憶部322と同様である。以下では、データセット記憶部322aがデータセット記憶部322と異なる機能について説明をする。
【0160】
また、本実施形態では、3セットの一連のパニングを行う例を示す。3セットは、“P1”、“P2”、“P3”のパニンググループIDと対応付けられる。ここで“P1”のパニンググループの実験条件は、標的抗原及び小分子がそれぞれある所定の濃度で存在する条件である。また、“P2”の実験条件は、標的抗原が存在せず、かつ、小分子がある所定の濃度で存在する条件である。また、“P3”の実験条件は、標的抗原がある所定の濃度で存在し、かつ、小分子が存在しない条件である。各実験条件には、上記の条件のほか、
図8に示したような条件が含まれるが、これらはパニング間で同一又は略同一である。
【0161】
図20は、本実施形態に係るデータセットの一例を示す図である。
この図のデータセットは、パニンググループIDが“P1、P2、P3”と対応付けられ、ファイル名が“H23456.csv”である。つまり、この図のデータセットは、3セット(“P1”、“P2”、“P3”)の一連のパニングにおける解析結果情報から生成され、重鎖配列の抗体のデータセットであることを示す。
この図に示す一例では、データセットは、配列IDごとに、抗体の配列情報、P1・ラウンド1での出現頻度、P2・ラウンド1での出現頻度、P3・ラウンド1での出現頻度の各項目が対応付けられたデータベースである。
【0162】
図20の例では、「配列ID」が“VH001”に対応する、「抗体重鎖の配列情報」は、ポジション「H1」のアミノ酸が“M”、ポジション「H2」のアミノ酸が“E”、ポジション「H35a」のアミノ酸が“P”、ポジション「H35b」のアミノ酸が“S”、ポジション「H36」のアミノ酸が“Q”であることを示す。また、「配列ID」が“VH001”に対応する、「抗体重鎖の評価結果情報」は、「P1、ラウンド1出現頻度」が“0.516”、「P2、ラウンド1出現頻度」が“0”、「P3、ラウンド1出現頻度」が“0.001”であることを示す。
【0163】
図21は、本実施形態に係るデータセットの別の一例を示す図である。
この図のデータセットは、パニンググループIDが“P1、P2、P3”と対応付けられ、ファイル名が“L65432.csv”である。つまり、この図のデータセットは、3セット(“P1”、“P2”、“P3”)の一連のパニングにおける解析結果情報から生成され、軽鎖配列の抗体のデータセットであることを示す。
この図に示す一例では、データセットは、配列IDごとに、抗体の配列情報、P1・ラウンド1での出現頻度、P2・ラウンド1での出現頻度、P3・ラウンド1での出現頻度の各項目が対応付けられたデータベースである。
なお、
図20と
図21のデータセットでは、抗体の配列情報が、抗体重鎖の可変領域における位置を示すものか、抗体軽鎖の可変領域における位置を示すものかで異なる。
【0164】
図21の例では、「配列ID」が“VL001”に対応する、「抗体軽鎖の配列情報」は、ポジション「L1」のアミノ酸が“M”、ポジション「L2」のアミノ酸が“F”、ポジション「L27」のアミノ酸が“A”であることを示す。また、「配列ID」が“VL001”に対応する、「抗体軽鎖の評価結果情報」は、「P1、ラウンド1出現頻度」が“0.050”、「P2、ラウンド1出現頻度」が“0”、「P3、ラウンド1出現頻度」が“0.01”であることを示す。
【0165】
次に、分類基準記憶部323aについて説明する。ここで、分類基準記憶部323aの基本的な機能は、分類基準記憶部323と同様である。以下では、分類基準記憶部323aが分類基準記憶部323と異なる機能について説明をする。
【0166】
分類基準記憶部323aは、分類基準情報を記憶する。分類基準情報は、複数の分類基候補情報が含まれる。各分類基準候補情報(
図4の基準1、2、3に相当)は、3個の閾値が入力される。本実施形態では、3個の閾値は、3つのパニンググループの出現頻度(又は出現頻度の変化率)であって、ラウンド数が同じラウンド(「ラウンドA」とする)の出現頻度(又は変化率)を設定可能である。つまり、閾値は、P1・ラウンドA(P1A)の出現頻度、P2・ラウンドA(P2A)の出現頻度、P3・ラウンドA(P3A)の出現頻度、及びこれらの出現頻度の変化率を設定可能である。例えば、基準は、「P1Aの出現頻度がX4以上、P1AとP2Aの出現頻度の変化率(P1Aの出現頻度/P2Aの出現頻度)がY4以上、P1AとP3Aの出現頻度の変化率(P1Aの出現頻度/P3Aの出現頻度)がZ4以上」、となる。
また、本実施形態では、閾値としてP2又はP3の出現頻度を用いる場合、判定基準は閾値以下を結合抗体として判定するものとなる。この場合、基準は、例えば「P1Aの出現頻度がX5以上、P2Aの出現頻度がY5以下、P3Aの出現頻度がZ5以下」となる。
【0167】
分類基準情報を上述したように設定することで、小分子依存性抗体についても、本実施形態における処理部33は、第1実施形態における処理部33と同様の処理によって、候補抗体を出力することができる。
【0168】
<まとめ>
以上説明したように、本実施形態に係る情報処理システム1aでは、配列学習部PA2(「配列学習部」の一例)は、複数の抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて、LSTMを用いた学習処理(「機械学習」の一例)を行うことで、配列情報が表す配列の特徴を学習した配列学習済みモデル(「第1学習済みモデル」の一例)を生成する。
ここで、結合判定情報は、結合判定結果が「結合」である抗体の配列であって、小分子依存性抗体の配列である。ただし、学習処理に用いられる複数の配列は、出現頻度又はパニング間の出現頻度の変化率である。また、学習処理に用いられる複数の配列は、標的抗原と結合したと判定された結合抗体、配列選択部PA1が算出したAUCの値が最も高い選択学習済みモデルの学習処理に用いられた抗体の配列あって、小分子依存性抗体の配列であってもよい。
仮想配列生成部PA3(「配列生成部」の一例)は、抗原結合分子の配列情報が表す配列を構成するアミノ酸(「構成単位」の一例)の少なくとも1つを変異させた予測対象配列を表す予測対象配列情報を生成する。
このように、情報処理システム1aは、小分子が介在する場合に結合判定結果が「結合」である配列に基づいて学習処理を行うので、配列学習済みモデルから、小分子が介在する場合に結合すると判定される可能性の高い配列又はアミノ酸を予測できる。
【0169】
(第3実施形態)
以下、図面を参照しながら本発明の第3実施形態について説明する。
本実施形態では、特性予測学習モデルとして隠れマルコフモデルが用いられる場合について説明する。
【0170】
情報処理システム1bの概略図は、第1実施形態の情報処理システム1において、サーバ30をサーバ30bに代えたものである。ユーザ端末10及び次世代シーケンサ20は、第1実施形態と同様の構成を備えるので、説明を省略する。以降、第1実施形態と同様の構成には、同一の符号を付与してここでの説明を省略する。
【0171】
図22は、第3実施形態に係る情報処理システム1bのサーバ30bの一例を示すブロック図である。
サーバ30bは、通信部31、記憶部32b、及び、処理部33bを含んで構成される。記憶部32bは、第1実施形態の記憶部32(
図6)と比較して、注目位置情報記憶部325が存在せず、学習結果記憶部326bが異なる。ここで、学習結果記憶部326bの基本的な機能は、学習結果記憶部326と同様である。学習結果記憶部326bは、学習結果記憶部326と比べて記憶する特性予測学習モデルが異なる。また、処理部33bは、第1実施形態の処理部33(
図6)と比較して、配列選択部PA1b、配列学習部PA2b及び学習部334bが異なる。配列選択部PA1b、配列学習部PA2b及び学習部334bの基本的な機能は、それぞれ配列選択部PA1、配列学習部PA2及び学習部334と同様である。以下、配列選択部PA1bが配列選択部PA1と異なる機能、配列学習部PA2bが配列学習部PA2と異なる機能、及び、学習部334bが学習部334と異なる機能について説明をする。
【0172】
図23は、本実施形態に係る特性予測学習モデルの概要を示す図である。ここでは、特性予測学習モデルとして隠れマルコフモデルを用いる例を説明する。また、本実施形態では、1つの抗体のアミノ酸配列は1つ1つのアミノ酸が連続したものとみなす。
【0173】
図23に示す例では、各状態は四角、ひし形、及び丸で表す。また、各状態間の遷移方向を矢印で示す。各矢印には、遷移元の状態から遷移先の状態への状態遷移確率が対応付けられる。
【0174】
各状態は所定の識別子で識別される。四角で表される状態は、あるポジションにアミノ酸が存在する状態(以下、「存在状態」とも称する)を示す。存在状態の識別子はmを用いる。また、当該識別子の添え字はポジションの番号を示す。例えば、m
1は第1ポジションにアミノ酸が存在する状態を示す。また、m
0は、状態遷移の開始を示す状態、m
M+1は、状態遷移の終了を示す状態である。また、存在状態は、それぞれの状態における20種類のアミノ酸の出現確率を示す情報が対応付けられる。
図23に示す例では、当該状態に対応付けられた上記情報が、各存在状態の下に示されている。
ひし形で表される状態は、あるポジションと次のポジションの間にアミノ酸が挿入されている状態(以下、「挿入状態」とも称する)存在を示す。挿入状態の識別子はiを用いる。また、当該識別子の添え字は挿入されるポジションの番号を示す。例えば、i
1は第1ポジションの後にアミノ酸が挿入されている状態を示す。また、挿入状態は、存在状態と同様に、それぞれの状態における20種類のアミノ酸の出現確率を示す情報が対応付けられる。
丸で表される状態は、あるポジションのアミノ酸が欠失している状態(以下、「欠失状態」とも称する)を示す。欠失状態の識別子はdを用いる。また、当該識別子の添え字はアミノ酸が欠失しているポジションの番号を示す。例えば、d
1は第1ポジションのアミノ酸が欠失している状態を示す。欠失状態は、上記2つの状態と異なり、アミノ酸の出現確率を示す情報は対応付けられない。
【0175】
抗体のアミノ酸配列は、状態m0から状態mM+1まで状態遷移を行う中で、各ポジションで出現した(又は挿入された)アミノ酸をならべたものとして生成される(以下、状態遷移の仕方を「状態遷移ルート」とも称する)。状態遷移ルートは、状態の遷移順、及び、存在状態又は挿入状態において出現したアミノ酸の情報を含む。
アミノ酸配列が、ある1つの状態遷移ルートをたどって生成される場合、当該ルートをたどって当該アミノ酸が生成される確率(生起確率)が算出される。ここで生起確率は、状態遷移ルート上の全ての状態遷移確率、及び状態遷移ルート上で出現した全アミノ酸の出現確率の積である。
あるアミノ酸配列は、複数の状態遷移ルートで生成される。そこで、あるアミノ酸配列の生起確率は、当該配列を生成可能な、複数の状態遷移ルートの生起確率の和として算出される。
【0176】
続いて、配列学習部PA2bが行う学習について説明する。
配列選択部PA1bは、学習データセット記憶部324から、分類基準候補情報ごとに、学習データセットを読み出す。配列選択部PA1bは、学習データセットのうち、結合判定情報が結合抗体である学習データセット(「部分学習データセット」と称する)を、配列学習部PA2bが行う学習に用いる。
配列選択部PA1bは、部分学習データセットを第1実施形態と同様に、学習データセット(訓練データセットと検証データセット)、評価データセットに分割する。
配列学習部PA2bは、訓練データセットの配列情報を用いて訓練する。ここで、配列学習部PA2bは、存在状態又は挿入状態それぞれのアミノ酸の出現確率と、状態間の遷移確率を学習する。
本実施形態においては、特性推定情報は、アミノ酸配列の生起確率である。特性推定情報は、アミノ酸配列の生起確率に基づく値、生起確率に所定の演算を行った値などであってもよい。
【0177】
配列学習部PA2bは、検証データセットを用いて、学習結果を検証する。配列学習部PA2bは、検証データセットと学習結果とに基づいて、検証データセットに含まれるアミノ酸配列を隠れマルコフモデルに入力し、その配列の尤度を算出する。配列学習部PA21bは、評価データに含まれるアミノ酸配列ごとに、結合配列群の尤度と非結合配列群の尤度差を求め、その値に基づく数値を精度情報とする。
【0178】
配列学習部PA2bは、検証グループを変更し、上述した訓練及び検証を繰り返す。この処理は第1実施形態の処理と同様なので、ここでの説明を省略する。
配列学習部PA2bは、繰り返すごとに得られる精度情報の平均を算出する。配列学習部PA2bは、求めた平均値が所定の閾値以下でない場合には、上記の学習をやり直す。配列学習部PA2bは、求めた平均値が所定の閾値以下の場合には、学習結果を学習結果記憶部326に記憶させる。なお、算出する値は、平均値でなくてもよい。例えば、精度情報の分散や標準偏差などであってもよい。本実施形態において、特性予測学習モデルに隠れマルコフモデルを用いる例では、隠れマルコフモデルであって、学習の結果、入力データに対して特性推定情報を出力するものを特性予測学習済みモデルと呼ぶ。
【0179】
配列選択部PA1bは、複数の特性予測学習済みモデルから最適な学習モデルを選択する。具体的には、配列選択部PA1bは、評価データセットの各データセットについて、結合判定情報と親和性情報から、AUC(Area Under an ROC Curve)を算出する。配列選択部PA1bは、全ての分類基準候補情報の各々について、学習処理及び評価処理を行うことで、分類基準候補情報の各々の隠れマルコフモデルについて、AUCを算出する。配列選択部PA1bは、AUCの値が最も高い分類基準候補情報(「選択分類基準情報」とも称する)、及び、その分類基準候補情報の隠れマルコフモデル(「選択学習済みモデル」とも称する)を、パニンググループIDと対応付けて学習結果記憶部326bに記憶させる。
【0180】
学習部334bは、配列選択部PA1bが生成した選択学習済みモデルを複製し、予測スコアを算出するための特性予測学習済みモデルとして学習結果記憶部326bに記憶させる。なお、学習部334は、
図23の隠れマルコフモデルに対して、選択分類基準情報に対応付けられた学習データセットを用いて、学習処理を行うことで、予測スコアを算出するための特性予測学習済みモデルを生成してもよい。また、学習部334bは、結合判定が「結合」である学習データセットに加えて或いは一部に代えて、結合判定が「結合」でない学習データセットを用いて学習処理を行ってもよい。
【0181】
<まとめ>
以上説明したように、本実施形態に係る情報処理システム1bでは、配列学習部PA2b(「配列学習部」の一例)は、複数の配列に基づいて、隠れマルコフモデルを用いた学習処理(「機械学習」の一例)を行うことで、配列情報が表す配列の特徴を学習した配列学習済みモデル(「第1学習済みモデル」の一例)を生成する。仮想配列生成部PA3(「配列生成部」の一例)は、抗原結合分子の配列情報が表す配列を構成するアミノ酸(「構成単位」の一例)の少なくとも1つを変異させた予測対象配列を表す予測対象配列情報(「仮想配列情報」の一例)を生成する。
このように、情報処理システム1bは、結合判定結果が「結合」である配列に基づいて学習処理を行うので、隠れマルコフモデルの配列学習済みモデルから、結合すると判定される可能性の高い配列又はアミノ酸を予測できる。
【0182】
また、情報処理システム1bでは、配列選択部PA1b(「配列学習部」の一例:学習部334bであってもよい)は、複数の抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該配列が表す抗原結合分子についての特性評価の結果に基づいて学習処理を行うことで、特性予測学習済みモデル(「第2学習済みモデル」:選択学習済みモデルであってもよい)を生成する。
【0183】
上述のように、仮想配列生成部PA3(「配列生成部」の一例)は、隠れマルコフモデルの配列学習済みモデルを用いて、抗原結合分子の配列情報が表す配列を構成するアミノ酸(「構成単位」の一例)の少なくとも1つを変異させた仮想配列を表す予測対象配列情報を生成してもよい。
この場合、情報処理システム1bは、隠れマルコフモデルを用いた機械学習の場合でも、より特性の高い仮想配列を、生成できる。
【0184】
また、情報処理システム1bでは、制御部335(「推定部」の一例)は、仮想配列生成部PA3により生成された複数の予測対象配列情報を、特性予測学習済みモデル(隠れマルコフモデル;「第2学習済みモデル」の一例)に入力し、特性予測学習済みモデルの演算処理を実行することで、複数の仮想配列各々についての親和性の予測スコア(「特性評価の予測値」の一例)を予測する(「取得する」の一例)。
これにより、情報処理システム1bは、生成した仮想配列各々について、隠れマルコフモデルを用いて、その親和性の予測スコアを予想できる。
【0185】
(第4実施形態)
以下、図面を参照しながら本発明の第4実施形態について説明する。
本実施形態では、特性評価として、抗原結合分子に関する複数の特性を用いる例を説明する。また、本実施形態では、配列学習済みモデル(「第1学習済みモデル」)の学習モデルとしてLSTM、特性予測学習済みモデル(「第2学習済みモデル」:選択学習済みモデルであってもよい)の学習モデルとしてランダムフォレスト(Random Forest)が用いられる場合について説明する。
【0186】
本実施形態に係る情報処理システム1cの概略図は、第1実施形態の情報処理システム1(
図1参照)において、次世代シーケンサ20を除き、ユーザ端末10及びサーバ30をそれぞれユーザ端末10c及びサーバ30cに代えたものである。以降、第1実施形態と同様の構成には、同一の符号を付与してここでの説明を省略する。
【0187】
本実施形態では、特性評価として、抗原結合分子に関する複数の特性を用いる例を説明する。情報処理システム1cでは、ユーザ端末10cで選択された一又は複数の特性情報について、ユーザ端末10cで設定された選択条件を充足する配列情報が選択される。ここで、選択条件とは、例えば、特性情報が示す特性が良い(例えば特性値が閾値より高い)という条件であり、特性情報毎に設定可能な条件である。
サーバ30cは、選択された配列情報に基づいて機械学習を行うことで、配列学習済みモデル(「第1学習済みモデル」の一例)を生成する。この機械学習は、学習モデルとして、第1実施形態で説明したLSTM(
図14)を用いて行われる。
このように、配列学習済みモデルは、ユーザが選択した特性情報について、ユーザが設定した選択条件を充足する配列情報を用いて学習される。すなわち、サーバ30は、各特性情報の選択条件を充足する配列群を、望ましい性質を持った配列群として、学習に用いることができる。この場合、サーバ30は、特性情報毎の選択条件を充足する可能性の高い仮想配列を、例えば多数、仮想配列群として生成できる。
また、本実施形態では、予測スコアを予測するための特性予測学習済みモデル(「第2学習済みモデル」の一例)の学習モデルとしてランダムフォレストが用いられる場合について説明する。
【0188】
<情報処理システム>
以下、本実施形態について詳細を説明する。
情報処理システム1cでは、サーバ30cは、ユーザ端末10cから入力される抗体(抗原結合分子の一例) のアミノ酸配列を示す配列情報、及び、当該抗体の特性を示す特性情報と、を用いて学習を行う。サーバ30cは、ユーザ端末10cからの入力情報と学習結果に基づいて、ユーザ端末10cへ出力情報を送信する。
【0189】
例えば、ユーザ端末10cは、抗体の特性情報として、抗原に対する活性に関する特性を示す特性情報、抗体の物性に関する特性を示す特性情報が入力される。ユーザ端末10cは、配列情報と特性情報とを対応付けた情報をサーバ30cに送信する。また、ユーザ端末10cは、学習に用いる配列情報を選択するための条件として、一又は複数の特性毎の選択条件が入力される。ユーザ端末10cは、予測対象配列情報を生成するために必要な情報(テンプレート配列情報、変異条件情報)が入力される。ユーザ端末10cは、入力された情報をサーバ30cに送信する。
【0190】
ユーザ端末10cは、1つ以上の特性の特性情報と、配列情報とを対応付けて、サーバ30cに送信する。例えば、同一の配列情報に対して、2つの特性情報を個別に対応付けて送信してもよい。この場合、サーバ30cは、これまでに配列情報を受信している場合には、新たに受信した特性情報についても、既に受信済みの配列情報に対して対応付ける。
【0191】
テンプレート配列情報は、予測対象配列情報を生成する際の、テンプレートとなるアミノ酸配列を示す情報である。後述するように、本実施形態では、予測対象配列は、例えば、テンプレートとなるアミノ酸配列に対し変異を導入することで生成される。このとき、テンプレート配列情報は、変異が導入される元となる配列(「テンプレート配列」とも称する)を示す。また、テンプレート配列は、特性情報に対応付けられた配列情報に含まれる配列のうちの1つである。
変異条件情報は、テンプレート配列に対し変異を導入する際の条件を示す情報である。変異条件情報は、例えば、予測対象配列の1つを生成する際に、テンプレート配列に導入される変異の上限数を示す情報を含む。
【0192】
サーバ30cは、ネットワークNW又は記憶媒体を介して、配列情報、選択条件、及び特性情報を受信し、受信した情報を記憶する。
サーバ30cは、特性情報毎の選択条件を充足する配列情報に基づいて学習し、配列学習済みモデルを生成して記憶する。サーバ30cは、特性毎に、配列情報と特性情報とに基づいて学習し、特性予測学習済みモデルを生成して記憶する。
【0193】
サーバ30cは、ネットワークNW又は記憶媒体を介して、予測対象配列情報を生成するために必要な情報を受信して記憶する。サーバ30cは、記憶した配列情報のうち、特性情報が選択条件を充足する配列情報に基づいて機械学習を行うことで、配列学習済みモデルを生成する。サーバ30cは、その配列学習済みモデルに基づいて、予測対象配列情報を生成して、記憶させる。
一方、サーバ30cは、記憶した配列情報、及び特性情報に基づいて機械学習を行うことで、特性予測学習済みモデルを生成する。サーバ30cは、その特性予測学習済みモデルに基づいて、入力された予測対象配列情報に対して、一又は複数の特性スコア(特性評価情報の一例)を、特性ごとに予測する。ここで、一又は複数の特性スコアは、選択条件に用いられた特性情報の特性スコアである。
サーバ30cは、予測した一又は複数の特性スコアに応じて、標的抗原と結合すると予想される抗体について、その候補を示す候補抗体情報を、ユーザ端末10cに送信する。
ユーザ端末10cは、受信した特性スコアに応じた候補抗体情報を表示する。
【0194】
これにより、情報処理システム1cは、抗原結合分子の特性情報がない場合と比較して、医薬品として開発される際に考慮する特性についても考慮した抗原結合分子の候補を提示することができる。これにより、情報処理システム1cは、所望の抗原結合分子情報を提示することができる。
【0195】
<ユーザ端末>
図24は、本実施形態に係るユーザ端末10cの一例を示すブロック図である。
ユーザ端末10cは、通信部11、入力部12、記憶部13、処理部14c、及び表示部15を含んで構成される。
処理部14cの基本的な機能は、第1実施形態の処理部14(
図3)と基本的な機能は同様である。以下では、処理部14cが処理部14と異なる機能について説明する。
【0196】
処理部14cは、例えば、入力部12から入力された入力情報(例えば、1つ以上の特性情報、配列情報、テンプレート配列情報、変異条件情報)などの各種情報を、通信部11cを介して、サーバ30cへ送信する。サーバ30cは、入力情報と出力情報の対応情報(例えば、学習済みモデル、テーブル)を予め記憶し、入力情報に対して出力情報を生成する。処理部14cは、サーバ30cが生成した出力情報を、通信部11cを介して受信する。処理部14cは、受信した出力情報を、表示部15に表示(出力の一例)させる。
なお、処理部14cは、記憶部13が対応情報を記憶する場合には、入力情報に対して対応情報を読み出し、出力情報を生成し、表示部15に表示部させても良い。
【0197】
<サーバ>
図25は、本実施形態に係るサーバ30cの一例を示すブロック図である。
サーバ30cは、通信部31c、記憶部32c、及び、処理部33cを含んで構成される。それぞれの基本的な機能は、第1実施形態のサーバ30(
図6)と同様である。以下では、通信部31c、記憶部32c、及び、処理部33cが、通信部31、記憶部32、及び、処理部33と異なる機能について説明する。
【0198】
通信部31cは、ネットワークNWを介して各種通信を行う通信モジュールである。通信部31cは、例えば、ユーザ端末10cとの間で各種通信を行う。
【0199】
<サーバの記憶部>
記憶部32cは、学習データセット記憶部324c、学習結果記憶部326c、変異情報記憶部327c、配列記憶部328c、及び、特性評価情報記憶部329cを含んで構成される。
【0200】
学習データセット記憶部324cは、配列情報(
図26参照)及び、特性情報(
図27、
図28参照)を記憶する。これらの情報は、ユーザ端末10cからの入力情報に含まれ、処理部33cによって入力される。
学習結果記憶部326cは、学習部334cによる学習結果として、配列学習済みモデルと特性予測学習モデルを記憶する。
変異情報記憶部327cは、変異情報を記憶する。変異情報は、例えば、ユーザ端末10cからの入力情報に含まれるテンプレート配列情報や変異条件情報であり、処理部33cによって入力される。また、変異情報は、予測対象配列生成部PAcによる処理の結果である変異位置を示す変異位置情報を含む。予測対象配列生成部PAcによる処理の詳細は後述する。ただし、本発明はこれに限らず、変異情報は、予め変異情報記憶部327cに設定されていても良い。
特性評価情報記憶部329cは、予測対象配列(
図29参照)の各々について、処理部33cが特性予測学習済みモデルを用いて予測した予測スコアを関連付けた特性評価情報(
図30参照)を記憶する。
【0201】
以下、記憶部32cが記憶する配列情報、特性情報、予測対象配列情報、及び、特性評価情報の一例について、
図26~
図30を用いて説明する。
【0202】
図26は、本実施形態に係る配列情報の一例を示す図である。
この図に示す一例では、配列情報は、配列ID、抗体の配列情報(H1、H2、・・・、H35a、H35b、H36、・・・H113、L1、L2・・・L107、L107a)の各項目が対応付けられている。ここで、「配列ID」は、抗体の配列を識別するための識別子を示す。「H1」、「H2」、「H35a」、「H35b」、「H36」、「H113」、「L1」、「L2」、「L107」、「L107a」は、抗体でのアミノ酸の位置が予め対応付けられている。
【0203】
この図に示す一例では、 「配列ID」が“S000001”で識別される抗体は、そのアミノ酸配列について、ポジション「H1」のアミノ酸が“M”、ポジション「H2」のアミノ酸が“E”、ポジション「H35a」のアミノ酸が“P”、ポジション「H35b」のアミノ酸が“S”、ポジション「H36」のアミノ酸が“Q”、ポジション「H113」のアミノ酸が“K(リシン)”、ポジション「L1」のアミノ酸が“M”、ポジション「L2」のアミノ酸が“F”、ポジション「L107」のアミノ酸が“I(イソロイシン)”、ポジション「L107a」のアミノ酸が“-(なし)”であることを示す。
【0204】
図27は、本実施形態に係る特性情報の一例を示す図である。
この図に示す一例では、特性情報は、配列ID、KD、発現量、自己重合、センサグラム、構造情報の各項目が対応付けられている。ここで、「KD」は、抗体の解離定数を示す。「発現量」は、抗体を作成した際の発現量を示す。「自己重合」は、抗体の自己重合度を示す。「センサグラム」は、標的抗原と抗体との相互作用を、SPR(表面プラズモン共鳴)を用いて測定した結果を示すデータ(センサグラム)を示す。
【0205】
この図に示す一例では、「配列ID」が“S000001”で識別される配列の特性は、「KD」が“1.00E-08”であり、「発現量」が“3.20E-01”であり、「自己重合」が“9.92E-01”であり、「センサグラム」が“SG000001.jpg”に示されるデータであることを示す。
なお、配列によっては、特性を示す項目(KD、発現量、自己重合、センサグラムなど)の全てについて、その特性情報が存在しなくてもよい。例えば、この図に示す一例において、「配列ID」が“S000002”で識別される配列情報は、「センサグラム」の項目については、その特性情報が存在しない。
【0206】
図28は、本実施形態に係るセンサグラムの一例を示す図である。
図28におけるセンサグラムは、
図27の特性情報のうち、センサグラムの項目で示されるデータの一例である。
この図に示す一例は、条件の異なる3つの時間帯における、標的抗原と抗体との相互作用をSPRで測定した結果を示す図である。この図において、横軸が経過時間、縦軸が結合の強さを示す。時間帯1では、抗体と抗原との反応が中性の反応溶液下で行われ結合が飽和に達するまでの時間帯を示す。時間帯2は、結合が飽和に達したあと、溶液条件を変更しないまま、結合が維持されている時間帯を示す。時間帯3は、反応溶液のpHを酸性に変化させた後、結合していた抗体と抗原とが解離していく時間帯を示す。
【0207】
図29は、本実施形態に係る予測対象配列情報の一例を示す図である。
この図に示す一例は、予測対象配列情報は、予測対象配列ID、抗体の配列情報(H1、H2、・・・、H35a、H35b、H36、・・・H113、L1、L2・・・L107、L107a)の各項目が対応付けられている。予測対象配列IDは、予測対象配列を識別するための識別子である。また、抗体の配列情報は、
図26の抗体の配列情報と同じものを示す。
この図に示す一例では、 「予測対象配列ID」が“V000001”で識別される抗体は、そのアミノ酸配列について、ポジション「H1」のアミノ酸が“M”、ポジション「H2」のアミノ酸が“E”、ポジション「H35a」のアミノ酸が“D(アスパラギン酸)”、ポジション「H35b」のアミノ酸が“S”、ポジション「H36」のアミノ酸が“R(アルギニン)”、ポジション「H113」のアミノ酸が“K”、ポジション「L1」のアミノ酸が“M”、ポジション「L2」のアミノ酸が“F”、ポジション「L107」のアミノ酸が“I”、ポジション「L107a」のアミノ酸が“-(なし)”であることを示す。
【0208】
図30は、本実施形態に係る評価結果情報の一例を示す図である。
この図に示す一例は、評価結果情報は、予測対象配列ID、KD、発現量、自己重合、センサグラムの各項目が対応付けられている。ここで、「KD」は、抗体の解離定数の評価結果を示す。「発現量」は、抗体を作成した際の発現量の評価結果を示す。「自己重合」は、抗体の自己重合度の評価結果を示す。「センサグラム」は、標的抗原と抗体と相互作用に関する、センサグラムの評価結果を示す。
この図に示す例では、「予測対象配列ID」が“V000001”で識別される配列の評価結果は、「KD」が“1.12E-08”であり、「発現量」が“8.70E-01”であり、「自己重合」が“9.87E-01”であることを示す。また、「センサグラム」はまだ評価結果が得られていないため、各項目は空欄である。
センサグラムの評価値とは、センサグラムのグラフ形状をスコアリングした値である。一例では、グラフの最大値が高いほど良い点が付く項、ある一定時間後にグラフの減衰が急激であるほど良い点が付く項などの値を加算した値が評価スコアである。
【0209】
<サーバの処理部>
図25に戻って、処理部33cについて、詳細を説明する。
処理部33cは、中央演算装置(CPU)などのプロセッサである。処理部33cは、例えば、通信部31cから入力された入力情報と記憶部32cに記憶する情報に基づいて、入力情報に対する出力情報を生成する。処理部33cは、生成した出力情報を、通信部31cを介して、ユーザ端末10c送信する。
【0210】
具体的には、処理部33cは、ユーザ端末10cから、抗体のアミノ酸配列を示す配列情報と、抗体の特性を示す特性情報とを、通信部31cを介して取得し、取得した情報を学習データセットとして記憶部32cに記憶する。
【0211】
その後、処理部33cは、ユーザが選択した特性の特性情報を有する学習データセットを選択する。処理部33cは、選択した学習データセットについて、配列情報と当該特性の特性情報とに基づいて学習し、特性予測学習済みモデルを生成する。処理部33cは、生成した配列学習済みモデルと特性予測学習済みモデルを記憶部32cに記憶させる。
【0212】
処理部33cは、ユーザ端末10cからの入力情報を、通信部31cを介して取得する。入力情報は、例えば、変異情報などである。処理部33cは、これらの入力情報と、記憶部32cに記憶された情報と学習結果に基づいて、標的抗原との結合の度合いに応じて、標的抗原に結合する抗体の候補を表す候補抗体情報を生成する。処理部33cは、生成した候補抗体情報を、通信部31cを介してユーザ端末10cへ送信する。
【0213】
<処理部の構成>
図25では、処理部33cは、情報取得部331c、予測対象配列生成部PAc、学習部334c、制御部335c、及び、出力処理部336cを含んで構成される。
情報取得部331cは、ユーザ端末10cより受信する情報から、配列情報(
図26参照)と、特性情報(
図27参照)を取得し、これらの情報を、学習データセット記憶部324cに記憶させる。また、情報取得部331cは、ユーザ端末10cより受信する情報から、変異情報を取得し、変異情報記憶部327cに記憶させる。
【0214】
予測対象配列生成部PAc及び学習部334cは、学習データセット記憶部324cから、配列情報と1又は複数の特性情報とを対応付けた情報を取得する。なお、予測対象配列生成部PAc及び学習部334cは、当該特性の特性情報が存在しない配列情報については、その情報を取得しない。予測対象配列生成部PAc及び学習部334cは、取得した情報を学習データセットとして、それぞれ、配列の特徴を学習するための学習処理、予測スコアを予測するための学習処理及び評価処理に用いる。ここで、配列の特徴を学習するための学習処理では、特性毎の選択条件を充足する配列情報が用いられる。
【0215】
<予測対象配列を生成するための学習処理>
予測対象配列生成部PAcは、学習データセットを選択する。予測対象配列生成部PAcは、予測対象配列を生成するための学習処理(配列の特徴を学習するための学習処理)として、第1実施形態で説明したLSTMを学習モデルとして、選択した学習データセットの配列情報に基づいて学習処理を行う。
ここで、学習データセットに関して、例えば、ユーザは、抗原結合分子の特性評価の特性から、1又は複数の特性を選択し、各特性の選択条件を設定する。ここで、特性評価として、原結合分子の親和性評価、薬理活性評価、物性評価、動態評価、安全性評価が例示される。例えば、親和性評価の特性として結合活性、薬理活性評価の特性として薬理活性が例示され、物性評価の特性として熱安定性、化学安定性、溶解性、粘性、光安定性、長期保存安定性、或いは非特異的吸着性が例示される。配列選択部PA1は、学習データセットのうち、特性情報が選択条件を充足するものを選択する。
予測対象配列生成部PAcは、選択した学習データセットの配列情報に基づいて、配列の特徴を学習するための学習処理を行うことで、配列学習済みモデルを生成する。
【0216】
例えば、ユーザは、親和性評価、薬理活性評価、物性評価、動態評価、或いは安全性評価の特性のいずれか或いはこれらの組み合わせから、1又は複数の特性を選択し、各特性の選択条件を設定してもよい。この場合、予測対象配列生成部PAcは、学習データセットのうち、特性情報が親和性評価、薬理活性評価、物性評価、動態評価、或いは安全性評価の特性のいずれか或いはこれらの組み合わせについて選択条件を充足するものを選択する。予測対象配列生成部PAcは、選択した学習データセットの配列情報に基づいて、配列の特徴を学習するための学習処理を行うことで、配列学習済みモデルを生成する。
【0217】
[選択条件]
各特性に設定可能な選択条件は、例えば、下記条件である。
特性が結合活性の場合、選択条件は、結合の強度が高い(例えば、KD(解離速度定数)が閾値以上)という条件である。結合の強度は、上述のとおり、分子(例えば、抗体)の1個またはそれ以上の結合部位と、分子の結合パートナー(例えば、抗原)との間の、非共有結合的な相互作用の合計の強度である。
【0218】
特性が抗原結合分子の熱安定性、化学安定性等の安定性の場合、選択条件は、安定性が高い(閾値以上)という条件である。安定性は安定性を測定する評価方法により異なるが、熱安定性の指標である変性中点(Tm)を指標に判断が可能であり、Tmが高いと熱安定性が高いと推定される。また、安定性評価の目的とする熱処理、低pH環境への暴露、光暴露、機械による攪拌、長期保存等の処理前と処理後において、当該抗原抗体分子の分解や化学的修飾、会合化を測定することにより評価することができ、当該抗原結合分子の分解や化学修飾、会合化が少ない場合安定性が高いと推定される。また、特性がExtra Cellular Matrix(ECM)への結合評価に基づく非特異的結合評価の場合、選択条件は、EMCへの結合強度が低い(閾値以下)という条件である。ECMへの結合強度が低い場合に非特異的結合が少ないと推定される。
タンパク質発現量は、当該抗原結合分子をコードする遺伝子を発現細胞に導入し、発現細胞を一定期間培養した後に培養上清中の抗原結合分子の濃度を測定することにより発現量を測定することが可能であり、培養上清中の抗原結合分子の濃度が高い場合に「発現量が高い」と推定される。この場合、選択条件は、その濃度が高い(閾値以上)という条件である。
【0219】
<予測スコアを予測するための学習処理>
学習部334cは、予測スコアを予測するための学習処理として、学習データセットの配列情報を入力変数とし、特徴情報を出力変数とした学習処理を行う。
具体的には、学習部334cは、ユーザが選択した特性の特性情報の値を有する学習データセットを選択する。学習部334cは、選択した学習データセットの配列情報と特性情報とに基づいて学習し、特性予測学習済みモデルを生成する。なお、特性予測学習済みモデルを生成するために用いられる配列情報は、各特性が選択条件を充足しない配列情報が含まれる。これにより、特性予測学習済みモデルは、各特性が選択条件を充足せず、特性が悪い(例えば特性値の低い)予測スコアも、精度良く予測できる。ただし、特性予測学習済みモデルを生成するために用いられる配列情報は、各特性が選択条件を充足しない配列情報が含まれなくてもよい。
【0220】
予測対象配列生成部PAcは、配列学習済みモデルの学習モデルとしてLSTMを用いた機械学習を行う。一方、学習部334cは、特性予測学習済みモデルの学習モデルとしてランダムフォレストを用いた機械学習を行う。このように、予測対象配列生成部PAcと学習部334cが用いる学習モデルは、種類が異なっていてもよい。
【0221】
以下、学習部334cが、特性予測学習済みモデルの学習モデルとしてランダムフォレストを用いる学習処理及び評価処理について、詳細を説明する。ただし、本発明はこれに限らず、学習処理及び評価処理の特性予測学習モデルには、他の学習モデルが用いられても良い。
【0222】
<学習処理と評価処理>
図31は、本実施形態に係る学習処理の一例を説明する説明図である。
図31は、特性予測学習済みモデルを生成するための学習処理の一例であり、特性情報が数値で表現可能である場合の学習処理の一例を示す。
図31では、学習データセットをハッチングした丸印で示す。
学習部334cは、学習データセットDSから、例えばランダムに、所定の数(例えば100個)の学習データセット(以下、「サブセット」とも称する)を抽出する。学習部334cは、この抽出を、予め定められた回数(例えば、K回)繰り返すことで、K個のサブセットSS1~SSKを生成する。学習部334cは、サブセットSSk(k=1~K)ごとに、決定木Treek(k=1~K)を生成する。
ここで、学習部cは、対象配列情報の各々(配列の要素)、つまり、各位置のアミノ酸の情報を独立変数として設定する。学習部334cは、特性情報を従属変数として設定する。学習部334cは、設定した独立変数と従属変数について、サブセットを用いて、決定木を生成する(「学習する」の一例)。
【0223】
図31において、決定木は、複数のノード(白丸)と、ノードをつなぐ辺(矢印)から構成されている。2つのノードが矢印で結ばれる場合、矢印の元にあるノードを親ノード、矢印の先にあるノードを子ノードと称する。各ノードは、高々1個の親ノードを有する。また、親ノードを有しないノードを根ノードと称する。
実行段階において、推定対象の入力データ(抗体の予測対象配列情報)は、根ノードから、子ノードを有しないいずれかのノード(以降、「葉ノード」とも称する)まで、矢印の方向に従って、分類される。各入力データがどの矢印を経由するかは、各ノードに対応付けられる判定基準に従う。判定基準は、学習の結果、独立変数、つまり、各位置のアミノ酸の情報に対応付けられる。例えば、あるノードの判定基準は、配列情報が「H95a」の位置のアミノ酸の情報の基準であり、このアミノ酸がL(ロイシン)なら右の矢印、I(イソロイシン)なら左の矢印に進む、という基準である。
【0224】
葉ノードは、次の子ノードが存在しないので、判定基準は対応付けられない。各葉ノードでは、ノードを辿った入力データが示す抗体について、特性推定情報が対応付けられる。特性推定情報は、各葉ノードに到達した入力データについての、特性情報の推定結果である。各決定木Treekにおいて、葉ノードに対応付けられる特性推定情報は、サブセットSSkで決定される。
特性推定情報は、学習段階において、各葉ノードに分類された学習データセットに基づいて求められる。例えば、特性推定情報は、各葉ノードに到達した学習データセットに含まれる特性情報の統計値に基づく値である。特性推定情報は、例えば、特性情報の平均値である。なお、特性推定情報は、特性情報の最大値、最小値などであってもよいし、平均値、最大値、最小値、標準偏差などに基づいて求められる値であってもよい。
【0225】
次に、学習部334cは、生成した複数の決定木Tree1~TreeKについて、評価処理を行う。
図32は、本実施形態に係る評価処理の一例を説明する説明図である。
図32は、
図31と同様、特性情報が数値で表現可能ある場合の学習処理の一例を示す。
学習部334cは、学習データセットDSから、サブセットSS1~SSKのいずれにも含まれない学習データセット(「評価データセット」とも称する)を、1又は複数選択する。
図32は、2個の評価データセットTDが選択された場合の図である。
【0226】
学習部334cは、評価データセットTDの各データセットについて、その配列情報を各決定木Tree1~TreeKに入力し、K個の特性推定情報T1~TKを取得する。学習部334cは、特性推定情報T1~TKに基づく代表値を、特性評価情報として算出する。代表値とは、例えば、特性推定情報T1~TKの平均値であるが、本発明はこれに限らず、最大値又は最小値であってもよい。学習部334cは、評価データセットTDの各データセットについて、特性情報と特性推定情報とを比較し、特性情報と特性推定情報とのずれを所定の方法で求める。所定の方法は、例えば、評価データセットTDの全データに対する平均絶対誤差を算出する方法である。学習部334cは、所定の方法で求めた特性情報と特性推定情報とのずれが、所定の範囲内に収まるか否かを判定する。学習部334cは、ずれが所定の範囲内に収まる場合は、学習が終了したと判定し、学習処理及び評価処理を終了する。学習部334cは、ずれが所定の範囲内に収まらない場合には、学習を再度やり直す。
【0227】
なお、特性情報と特性推定情報とのずれを求める方法は上述した方法に限られない。例えば、平均二乗誤差、二乗平均平方根誤差、決定係数などを求める方法であってもよい。
本実施形態では、特性情報が数値で表現可能である場合、決定木Tree1~TreeKの集合で、入力データに対して特性推定情報T1~TKに基づく特性評価情報を出力するものを、学習済みモデルと呼ぶ。
【0228】
特性予測学習済みモデルを生成するための学習において、学習部334cは、特性情報が画像の場合には、予め記憶部32cに記憶される方法に従って、画像の特徴量を抽出し、抽出した特徴量を特性情報として上述した処理を行う。また、抽出した特徴量が優れているか否かの判定基準についても予め記憶部32cに記憶される。特徴量の抽出や判定基準は、例えば既知の機械学習を用いた方法を用いる。
また、画像がグラフなどの場合、特徴量として、グラフの傾きやグラフの近似曲線を示す関数の係数などを算出する。例えば
図28に示すようなグラフの場合、各時間帯における近似曲線を算出し、その近似曲線を示す関数の係数を特徴量として求める。例えば、この図に示す例の場合、時間帯1、時間帯2では、直線に近似した場合の傾きを特徴量とする。また、時間帯3の場合、指数関数に近似することで、その半減期を特徴量とする。
【0229】
予測対象配列生成部PAc及び学習部334cは、それぞれ、学習後、配列学習済みモデル及び特性予測学習済みモデルを学習結果記憶部326cに記憶させる。
【0230】
<予測対象配列の生成処理>
以下、予測対象配列生成部PAcが行う予測対象配列の生成処理について説明する。
予測対象配列生成部PAcは、配列選択部PA1c、配列学習部PA2c、及び仮想配列生成部PA3cを含んで構成される。
配列選択部PA1cは、配列学習済みモデルを生成するための学習において学習データセット記憶部324cに記憶された情報と、変異情報記憶部327cに記憶されたテンプレート配列情報とに基づいて、テンプレート配列の抗体よりも優れた特性を示す抗体の配列情報を取得する。例えば、配列選択部PA1cは、変異情報記憶部327cからテンプレート配列情報を読み出す。また、配列選択部PA1cは、学習データセット記憶部324cから、テンプレート配列情報と一致する配列情報を選択する。配列選択部PA1cは、選択した配列情報に対応付けられている特性情報(以下、「基準特性情報」とも称する)を取得する。配列選択部PA1cは、選択条件として、学習データセット記憶部324cに記憶された特性情報のうち、基準特性情報よりも優れた特性を示す特性情報(以下、「改善特性情報」とも称する)を選択する。ここで、「優れた特性を示す」とは、所定の特性の項目について、基準特性情報よりも、特性情報が優れていることを示す。優れているか否かの判定基準は、予め記憶部32cに記憶される判定基準に従う。配列選択部PA1cは、改善特性情報に対応する配列情報を、変異情報記憶部327cに記憶させる。
ただし、この例では、配列選択部PA1cは、テンプレートより特性値がよい配列群を選択しているが、さらに、テンプレートより特性値がα倍よい配列群、もしくは特性値が上位N(Nは自然数)個の配列を選択して、改善特性情報に対応する配列情報としてもよい。
【0231】
配列学習部PA2cは、変異情報記憶部327cから、改善特性情報に対応する配列情報を取得する。配列学習部PA2cは、取得した配列情報を用いて機械学習を行う。学習処理については、第1実施形態と同様であるので、ここでは説明を省略する。機械学習の結果、配列学習部PA2cは、配列学習済みモデルを生成する。
仮想配列生成部PA3cは、配列学習部PA2cが生成した配列学習済みモデルを用いて、予測対象配列を生成する。予測対象配列の生成方法についても、第1実施形態と同様であるので、ここでは説明を省略する(
図16参照)。仮想配列生成部PA3cは、生成した予測対象配列情報を、配列記憶部328cに記憶させる。
【0232】
<予測スコアの予測>
制御部335cは、配列記憶部328cから、予測対象配列情報を読み出す。制御部335cは、読み出した予測対象配列情報を入力データとして、特性予測学習済みモデルに入力し、予測スコアを出力する。制御部335cは、予測対象配列情報と予測した予測スコアを、特性評価情報として特性評価情報記憶部329cに記憶させる。例えば、制御部335cは、
図29の予測対象配列情報に対して、予測対象配列情報に対応する予測スコアを記憶させる。なお、特性予測学習済みモデルは、ガウス過程であってもよく、ガウス過程による予測スコアは予測の信頼度であってもよい。
また、制御部335cは、例えば、出力される複数の特性を用いて推定される特性であって、学習時には含まれていない特性についても、その特性評価情報を求めることができる。このような特性は、例えば、抗体の粘性や、抗体のヒト化の可能性を示す情報である。これらの特性評価情報の推定方法は、予め定められ記憶部32cに記憶される。
【0233】
出力処理部336cは、予測対象配列情報の予測スコアに応じて、予測対象配列情報を、候補抗体情報として出力する。候補抗体情報とは、特性の高い抗体の候補を示す。
具体的には、例えば、出力処理部336cは、特性評価情報記憶部329cから特性評価情報を読み出し、予測スコアの高い順序で順序付けを行う。予測スコアは特性ごとに複数存在するので、順序付けの結果も特性ごとに複数存在する。出力処理部336cは、予測対象配列情報の特性ごとの順序の結果を総合して、特性全体の順序付けを行う。特性全体の順序付けは例えば、特性ごとの順序を平均した値に基づいて行う。なお、特性全体の順序付けの方法は上述した方法には限らない。例えば、特性毎の順序の和や、順序に対応する所定の点数の和などであってもよい。また、特性ごとに重み付けを行い、候補抗体情報を決定しても良い。すなわち、重視したい特性に重み付けを行うことで、当該特性が優れた配列がより候補抗体情報に決定されやすくなる。
【0234】
出力処理部336cは、特性全体の高い順序で順序付けされた予測対象配列情報を、候補抗体情報として生成する。出力処理部336cは、生成した候補抗体情報を、通信部31cを介して、ネットワークNWを経由でユーザ端末10cへ送信する。なお、出力処理部336cは、予測対象抗体情報をユーザ端末10cへ送信し、ユーザ端末10c(処理部14c)は、受信した予測対象抗体情報を上述した方法で並び変えて表示部15に表示してもよい。
【0235】
<動作について>
図33は、本実施形態に係るサーバ30cの動作の一例を示すフローチャートである。この図は、学習段階(学習処理及び評価処理)におけるサーバ30cの動作を示す。
【0236】
(ステップS301)情報取得部331cは、ユーザ端末10cから、各種情報を取得する。情報取得部331cは取得した情報を記憶部32cに記憶させる。その後、ステップS311へ進む。ステップS311~S313の処理は、選択条件ごとに行われる。これらの処理が、予測対象配列を生成するための学習処理S31である。
(ステップS311)配列選択部PA1cは、ステップS301で記憶された学習データセットのうち選択条件を充足する学習データセットについて、それらの配列情報として、改善特性情報に対応する配列情報を選択する。その後、ステップS312へ進む。
【0237】
(ステップS312)配列学習部PA2cは、ステップS311で選択された配列情報を用いて、予測対象配列を生成するための学習処理を行う。その後、ステップS313へ進む。
(ステップS313)配列学習部PA2cは、ステップS312の学習処理によって生成された配列学習済みモデルを、学習結果記憶部326cに記憶させる。その後、ステップS321へ進む。ステップS321~S323の処理は、1又は複数の特性ごとに行われる。これらの処理が、予測スコアを予測するための学習処理S32である。
【0238】
(ステップS321)学習部334cは、ステップS301で記憶された学習データセットのうち、選択条件の1又は複数の特性(改善特性情報の特性)の値を有する学習データセットの配列情報と特性情報を選択する。その後、ステップS322に進む(ステップS322)学習部334cは、ステップS321で選択された学習データセットを用いて、1又は複数の特性ごとの予測スコアを予測するための学習処理を行う。その後、ステップS323へ進む。
(ステップS323)学習部334cは、ステップS322の学習処理によって生成された特性予測学習済みモデルを、学習結果記憶部326cに記憶させる。その後、本図の動作を終了する。
【0239】
図34は、本実施形態に係るサーバ30cの動作の別の一例を示すフローチャートである。この図は、実行段階におけるサーバ30の動作を示す。実行段階とは、情報処理システム1cが、学習データセットで学習した後、配列学習済みモデルを用いて予測対象配列を生成し、また、特性予測学習済みモデルを用いて予測スコアを予測する段階である。
【0240】
(ステップS401)仮想配列生成部PA3cは、
図33のステップS313で生成された配列学習済みモデルを用いて、予測対象配列情報を生成する。予測対象配列生成部PA3cは、生成した予測対象配列情報を配列記憶部328cに記憶させる。その後、ステップS402へ進む。
【0241】
(ステップS402)制御部335cは、ステップS401で生成された予測対象配列情報について、
図33のステップS323で生成された特性予測学習済みモデルを用いて、予測スコアを予測する。その後、ステップS403へ進む。
(ステップS403)出力処理部336cは、ステップS402で予測された1又は複数の予測スコアに応じて、特性全体の順序付けを行う。出力処理部336cは、特性全体の順序付けに基づいて、予測対象配列情報を候補抗体情報として出力する。出力された候補抗体情報は、ユーザ端末10cで表示される。その後、本図の動作を終了する。
【0242】
以上説明したように、本実施形態による情報処理システム1cでは、配列学習部PA2c(「配列学習部」の一例)は、複数の配列に基づいて、LSTMを用いた学習処理(「機械学習」の一例)を行うことで、配列情報が表す配列の特徴を学習した配列学習済みモデル(「第1学習済みモデル」の一例)を生成する。
ここで、学習処理に用いられる複数の配列は、ユーザに選択された各特性情報について、設定された選択条件を充足する配列である。
仮想配列生成部PA3cは、抗原結合分子の配列情報が表す配列を構成するアミノ酸(「構成単位」の一例)の少なくとも1つを変異させた仮想配列を表す予測対象配列情報(「仮想配列情報」の一例)を生成する。
これにより、情報処理システム1cは、選択された各特性情報について、設定された選択条件を充足する可能性の高い仮想配列を生成できる。
【0243】
また、情報処理システム1cでは、制御部335(「推定部」の一例)は、配列学習済みモデルに基づいて生成された予測対象配列情報を、選択学習済みモデル(決定木;「第2学習済みモデル」の一例)に入力し、選択学習済みモデルの演算処理を実行することで、入力した予測対象配列情報が表す配列の抗原結合分子についての特性評価の予測スコア(「特性評価の予測値」の一例)を予測する(「取得する」の一例)。
これにより、情報処理システム1cは、生成した予測対象配列情報各々について、決定木を用いて、その特性評価(例えば親和性)の予測スコアを予想できる。
【0244】
(第5実施形態)
以下、図面を参照しながら本発明の第5実施形態について説明する。
本実施形態では、情報処理システム1dは、予測した予測対象配列の抗体(例えば、候補抗体情報が示す抗体)に対して実際に特性を測定する。情報処理システム1dは、その抗体の配列を表す配列情報と測定した特性を示す特性情報に基づいて、配列学習済みモデル又は特性予測学習済みモデルに対して、さらなる機械学習を行う。情報処理システム1dは、さらなる機械学習を行った配列学習済みモデルを用いて、新たな予測対象配列情報を生成する。
本実施形態では、情報処理システム1dは、これらの一連の処理を繰り返す。即ち、本実施形態では、情報処理システム1dは、学習データセットに基づいた学習、学習結果に基づく予測対象配列の生成、候補配列情報が示す抗体を用いた測定、測定結果と配列情報とを学習データセットに追加、を1つのサイクルとし、このサイクルを繰り返し行う。
【0245】
本実施形態に係る情報処理システム1dの概略図は、第4実施形態の情報処理システム1cにおいて、サーバ30cをサーバ30dに代えたものである。ユーザ端末10dは、第4実施形態と同様の構成を備えるので、説明を省略する。以降、第4実施形態と同様の構成には、同一の符号を付与してここでの説明を省略する。
【0246】
図35は、第5実施形態に係るサーバ30dの一例を示すブロック図である。
サーバ30dは、通信部31c、記憶部32d、及び、処理部33dを含んで構成される。
【0247】
記憶部32dは、第4実施形態の記憶部32c(
図25)と比較して、学習データセット記憶部324dが学習データセット記憶部324cと異なる。ここで、学習データセット記憶部324dの基本的な機能は学習データセット記憶部324cとそれぞれ同様である。以下では、学習データセット記憶部324dが学習データセット記憶部324cと異なる機能について説明をする。
【0248】
学習データセット記憶部324dは、配列情報及び特性情報を記憶する。これらの情報は、ユーザ端末10cからの入力情報に含まれ、処理部33dによって入力される。ここで、配列情報は、予測対象配列生成部PAdが予測したのが何サイクル目かを示す、サイクル数情報を含む。
【0249】
<処理部の構成>
図35の処理部33dは、第4実施形態の処理部33c(
図25)と比較して、学習部334d、予測対象配列生成部PAd、及び制御部335dが、それぞれ、学習部334c、予測対象配列生成部PAc、及び制御部335cと異なる。ここで、学習部334d、予測対象配列生成部PAd、及び制御部335dの基本的な機能は、それぞれ、学習部334c、予測対象配列生成部PAc、制御部335cとそれぞれ同様である。以下では、学習部334d、予測対象配列生成部PAd、制御部335dが、それぞれ、学習部334c、予測対象配列生成部PAc、制御部335cと異なる機能について説明をする。
【0250】
予測対象配列生成部PAd及び学習部334dは、学習データセット記憶部324dから配列情報及び1又は複数の特性情報を取得する。予測対象配列生成部PAd及び学習部334dは、当該特性の特性情報が存在しない配列情報については、その情報を取得しない。予測対象配列生成部PAd及び学習部334dは、取得した情報のうちの一部を学習データセットとして、それぞれ、配列の特徴を学習するための学習処理、予測スコアを予測するための学習処理及び評価処理に用いる。ここで、配列の特徴を学習するための学習処理では、特性毎の選択条件を充足する配列情報が用いられる。
【0251】
<情報処理システム1dの動作>
図36は、本実施形態に係る情報処理システム1dの動作の一例を示すフローチャートである。
図36では、
図33、
図34の処理と同様の処理については、同じ符号が付されている。
(ステップS301)情報取得部331cは、ユーザ端末10cから、各種情報を取得する。情報取得部331cは取得した情報を記憶部32dに記憶させる。その後、ステップS31へ進む。
(ステップS31)配列選択部PA1d及び配列選択部PA1dは、
図33の予測対象配列を生成するための学習処理S31(選択条件ごとに行われるステップS311~S313の処理)を行うことで、配列学習済みモデルを生成する。その後、ステップS32へ進む。
(ステップS32)学習部334dは、
図33の予測スコアを予測するための学習処理S32(1又は複数の特性ごとに行われる処理ステップS321~S323の処理)を行うことで、特性予測学習済みモデルを生成する。その後、ステップS401へ進む。
【0252】
(ステップS401)仮想配列生成部PA3dは、ステップS31で生成された配列学習済みモデルを用いて、予測対象配列情報を生成する。仮想配列生成部PA3dは、生成した予測対象配列情報を配列記憶部328cに記憶させる。その後、ステップS402へ進む。
(ステップS402)制御部335dは、ステップS401で生成された予測対象配列情報について、
図33のステップS323で生成された特性予測学習済みモデルを用いて、予測スコアを予測する。その後、ステップS403へ進む。
(ステップS403)出力処理部336cは、ステップS402で予測された1又は複数の予測スコアに応じて、特性全体の順序付けを行う。出力処理部336cは、特性全体の順序付けに基づいて、予測対象配列情報を候補抗体情報として出力する。出力された候補抗体情報は、ユーザ端末10cで表示される
【0253】
(ステップS501)制御部335dは、例えばユーザ端末10cからの入力に応じて、追加特性評価を行うか否かを判定する。追加特性評価では、さらに、複数の抗体と標的抗原のパニングが行われ、その解析結果情報が次世代シーケンサ20から出力される。追加特性評価では、好ましくは、候補抗体情報が示す抗体の候補が含まれる抗体ライブラリが用いられる。追加特性評価を行うと判定された場合(Yes)、ステップS502へ進み、追加特性評価を行わないと判定された場合(No)、本図の動作を終了する。
(ステップS502)追加の特性評価が行われ、その結果、次世代シーケンサ20は、解析結果情報を出力する。この解析結果情報には、好ましくは、抗体として、候補抗体情報が示す抗体の候補が含まれる。その後、ステップS503へ進む。
【0254】
(ステップS503)情報取得部331dは、ユーザ端末10cから、各種情報を取得する。情報取得部331cは取得した情報を、ステップS301又は前のステップS503で記憶した情報に追加して、記憶部32dに記憶させる。この情報には、ステップS502で出力された解析結果情報として、配列情報及び1又は複数の特性情報が含まれる。その後、ステップS504へ進む。
(ステップS504)制御部335dは、例えばユーザ端末10cからの入力に応じて、追加学習処理を行うか否かを判定する。追加学習処理を行うと判定された場合(Yes)、ステップS31へ戻り、追加学習処理を行わないと判定された場合(No)、本図の動作を終了する。
【0255】
ここで、配列選択部PA1d及び学習部334dは、それぞれ、取得した情報のうち、学習データセットに含む情報を次のように選択する。配列選択部PA1d及び学習部334dは、学習データセットの上限数を、記憶部32dから取得する。上限数は、例えば、第1サイクルにおいて学習に用いた学習データセットの数である。上限数は、学習処理毎(配列の特徴を学習するための学習処理、予測スコアを予測するための学習処理)、つまり、学習済みモデル毎(配列学習済みモデル、特性予測学習済みモデル)に、予め定められ記憶部32dに記憶されている。
配列選択部PA1d及び学習部334dは、上限数以下の数の学習データセットであって、少なくとも2回の異なるサイクルの学習データセットを用いて学習する。換言すれば、学習データセットの全体に対して、前の回の学習データセットの比率が少なくなる。これにより、情報処理システム1dは、直近のパニングによる特性評価を反映しつつ、前の回の特性評価の影響を徐々に減らすことができる。この場合、情報処理システム1dは、学習済みモデルから出力される予測対象配列や予測スコアを、大きく発散させず、収束させることができる場合がある。
【0256】
例えば、配列選択部PA1d及び学習部334dは、それぞれ、配列情報を参照し、現在のサイクルに近いサイクルで生成された配列を優先的に学習データセットとして取得する。配列選択部PA1d及び学習部334dは、それぞれ、あるサイクル(第Mサイクルとする)において生成された配列について、全てを学習データセットとして含むと上限数を超過する場合には、その中から学習データセットとして含む配列と含まない配列とを選択する。配列選択部PA1d及び学習部334dは、それぞれ、例えば、第Mサイクルで生成した配列を、当該配列に対応する特性情報に基づいて、順位付けを行う。順位付けの方法は、例えば、特性ごとに順位付けを行い、その順位の平均に基づいて行う。なお、順位付けの方法はこれには限られない。また、配列選択部PA1d及び学習部334dは、同じ方法で、各サイクルの学習データセットを選択してもよいし、一方が選択した学習データセットを他方が用いてもよい。
配列選択部PA1d及び学習部334dは、それぞれ、順位付けの結果に基づいて、特性の優れた上位の配列を学習データセットに含む配列として取得する。学習部334dは、学習データセットの数が上限数に達するまで上記の処理を行う。
【0257】
配列学習部PA2d及び学習部334dは、それぞれ、取得した学習データセットに基づいて、学習処理を行う。学習処理については、第4実施形態において述べた方法と同様であるので、ここでは説明を省略する。学習部334dは、学習結果を学習結果記憶部326cに記憶させる。
なお、選択条件は、サイクル毎に異なってもよく、ユーザは、サイクル毎に、特性を選択し、選択した各特性の選択条件を設定できてもよい。例えば、後のサイクルの選択条件は、前のサイクルの選択条件よりも、厳しくてもよいし(例えば、より高い特性値)、逆に、緩くてもよい(例えば、より低い特性値)。また、後のサイクルの選択条件の特性は、前のサイクルの選択条件の特性と、一部又は全部が異なっていてもよい。
【0258】
予測対象配列生成部PAdは、予測対象配列情報を生成する。この際、予測対象配列生成部PAdは、一部の予測対象配列情報を、変異情報記憶部327cから取得する情報に基づいて生成する。この方法については、第4実施形態の方法と同様の方法であるので、ここでは説明を省略する。
【0259】
なお、予測対象配列生成部PAdは、生成した各予測対象配列情報に対して、その予測対象配列情報を生成した生成日時やサイクル回数を対応付けてもよい。この場合、出力処理部336cやユーザ端末10は、各予測対象配列情報を生成した順序、又は、生成したサイクルの順序或いはサイクル毎に、出力することができる。また、出力処理部336cやユーザ端末10は、予測対象配列情報を生成日やサイクル回数ごとに分類して、分類ごとに異なる態様で、各予測対象配列情報を出力してもよい。例えば、ユーザ端末10は、最新のサイクルで生成した各予測対象配列情報に対して、新しいことを示す文字列や画像(例えば「NEW」)を付して表示する。
また、予測対象配列生成部PAdは、予測対象配列として、これまでのサイクルに含まれていない配列を生成してもよい。ここでは、ベイズ最適化を用いる例を説明する。
【0260】
ベイズ最適化は、形状がわからない関数(例えば、ここでは抗体のアフィニティ)の最大値を求めるための手法。トレーニング時の入力は各抗体配列およびアフィニティで、トレーニング後にテストデータとして新規仮想配列を入力した際に、獲得関数を出力する。獲得関数は、例えば、現時点までのデータから推測される不確実度も踏まえて想定される、その配列のアフィニティレンジの最大値である。獲得関数として信頼性上限関数(upper confidence bound) および期待改善度(expected improvement) が考えられる。獲得関数が高い配列を選択して実験提案することができる。抗体ではないが Saito et al., ACS Synth Biol. 2018 Sep 21;7(9):2014-2022.が一例。利用可能なアルゴリズムとしては、GP-UCBおよびトンプソンサンプリングがある。
【0261】
以上説明したように、本実施形態による情報処理システム1dでは、出力処理部336c(「出力部」の一例)は、選択学習済みモデル(「第2学習済みモデル」の一例)に入力された複数の予測対象配列情報のうち、少なくとも1つの予測対象配列情報(候補抗体情報)を、予測スコアに応じて出力する。
出力処理部336cが出力した予測対象配列情報に基づいて、予測対象配列情報が示す抗体について、追加特性評価が行われ、その解析結果情報が学習データセットとして記憶される。配列学習部PA2d(「配列学習部」の一例)は、出力処理部336cが出力した予測対象配列情報に基づいて、さらなる機械学習を行うことで、新たな配列学習済みモデルを生成する。
学習部334d(「学習部」の一例)は、出力処理部336cが出力した予測対象配列情報、及び、当該予測対象配列情報が表す抗原結合分子の結合判定情報(「特性評価の評価結果情報」の一例)に基づいて、さらなる機械学習を行うことで、選択学習済みモデル(又は特性予測学習済みモデル:「第2学習済みモデル」)を生成する。
これにより、情報処理システム1dは、特性の高い予測対象配列情報とその結合判定情報を用いて、さらなる機械学習をすることができる。また、情報処理システム1dは、学習データセットとして、結合性の強い配列情報の割合や数を増やすことができる場合がある。この場合、情報処理システム1は、より特性の高い仮想配列を、生成できる。
また、情報処理システム1dは、変異位置を設定しているので、当該変異位置のアミノ酸を変異させた配列情報のうち、より特性の高い仮想配列の配列情報を生成することができる。この場合、情報処理システム1dは、変異位置のアミノ酸を変異させた配列情報を、より特性の高い仮想配列の配列情報に、収束させていくことができる場合がある。
【0262】
(ハードウェア構成)
図37は、実施形態に係るサーバ30のハードウェア構成の一例を示すブロック図である。
サーバ30は、CPU901、記憶媒体インターフェイス部902、記憶媒体903、入力部904、出力部905、ROM906、RAM907、補助記憶部908、及びインターフェイス部909を含んで構成される。CPU901、記憶媒体インターフェイス部902、記憶媒体903、入力部904、出力部905、ROM906、RAM907、補助記憶部908、及びインターフェイス部909とは、バスを介して相互に接続される。
なお、ここで言うCPU901は、プロセッサ一般のことを示すものであって、狭義のいわゆるCPUと呼ばれるデバイスのことだけではなく、例えばGPUやDSP等も含む。また、ここで言うCPU901は、一つのプロセッサで実現されることに限られず、同じ、または異なる種類の複数のプロセッサを組み合わせることで実現されても良い。
【0263】
CPU901は、補助記憶部908、ROM906およびRAM907が記憶するプログラムを読み出して実行し、また、補助記憶部908、ROM906およびRAM907が記憶する各種データを読み出し、補助記憶部908、RAM907に対して各種データを書き込むことにより、サーバ30を制御する。また、CPU901は、記憶媒体インターフェイス部902を介して記憶媒体903が記憶する各種データを読み出し、また、記憶媒体903に各種データを書き込む。記憶媒体903は、光磁気ディスク、フレキシブルディスク、フラッシュメモリなどの可搬記憶媒体であり、各種データを記憶する。
記憶媒体インターフェイス部902は、記憶媒体903の読み書きを行うインターフェイスである。
【0264】
入力部904は、マウス、キーボード、タッチパネル、音量調整ボタン、電源ボタン、設定ボタン、赤外線受信部などの入力装置である。
出力部905は、表示部、スピーカなどの出力装置である。
ROM906、RAM907は、サーバ30の各機能部を動作させるためのプログラムや各種データを記憶する。
補助記憶部908は、ハードディスクドライブ、フラッシュメモリなどであり、サーバ30の各機能部を動作させるためのプログラム、各種データを記憶する。
インターフェイス部909は、通信インターフェイスを有し、無線通信や有線通信によりネットワークNWに接続される。
【0265】
例えば、
図6におけるサーバ30の機能構成における処理部33は、
図35に示すハードウェア構成におけるCPU901に対応する。また、例えば、
図6におけるサーバ30の機能構成における記憶部32は、
図35に示すハードウェア構成におけるROM906、RAM907または補助記憶部908、またはそれらの何れかの組み合わせに対応する。また、例えば、
図6におけるサーバ30の機能構成における通信部31は、
図35に示すハードウェア構成におけるインターフェイス部909に対応する。
【0266】
また、ユーザ端末10、及び次世代シーケンサ20についても、同様のハードウェア構成を具備するので、ここではユーザ端末10、次世代シーケンサ20のハードウェア構成については説明を省略する。
【0267】
なお、上述した第1~第3実施形態では、サーバ30(30a、30b)が、標的抗原と親和性がある抗体の候補を示す候補抗体情報を出力する例を説明した。サーバ30(30a、30b)は、上述した方法で記憶した情報に基づいて、ある配列を有する抗体に対し、最良の評価結果情報が得られる実験条件を出力しても良い。サーバ30(30a、30b)は、上述した方法によって、実験条件が異なるラウンドごとに学習モデルを有する。そこで、サーバ30(30a、30b)は、実験条件も学習データセットとして取得する。サーバ30(30a、30b)は、配列毎に、実験条件、学習モデル、及び評価結果情報を対応付ける。サーバ30(30a、30b)は、対応付けた情報に基づいて、既存の学習モデルを用いて、学習を行う。このとき、サーバ30(30a、30b)は、学習モデルと評価結果情報を独立変数とし、実験条件を従属変数として設定する。サーバ30(30a、30b)は、学習結果と、入力された配列情報とに基づいて、最良の評価結果情報を出力する実験条件を決定し、当該情報を出力する。
これにより、パニングを行う際の実験条件を最適化することができ、より親和性が高いと評価される抗体の特徴をより顕著にすることができる。このように、情報処理システム1(1a、1b)は、処理時間又は処理負荷を軽減することができる。したがって、情報処理システム1(1a、1b)は、所望の抗体情報を提供できる。
【0268】
また、上述した第1~第3実施形態では、予測対象配列を結合配列の配列情報と変異情報とに基づいて生成する例を説明したが、予測対象配列の生成方法はこれに限られない。例えば、結合配列の配列情報に基づいて生成しても良い。このとき、予測対象配列生成部PA(PAb、PAc、PAdも同様。以下同じ)は、結合配列の各ポジションについて、アミノ酸の出現確率を求める。予測対象配列生成部PAは、ポジションごとに、出現確率が所定の閾値以上であるアミノ酸の情報を求める。予測対象配列生成部PAは、ポジションごとに、上記アミノ酸のいずれかをあてはめることで、予測対象配列を生成する。
【0269】
また、上述した第1~第3実施形態では、複数のパニングから取得した学習データセットを用いて学習する例を説明したが、これには限られない。1回のパニングから取得した学習データセットを用いて学習を行ってもよい。この場合、分類基準情報は、例えば、当該パニングにおける出現頻度の閾値となる。
【0270】
また、上述した第1~第3実施形態では、次世代シーケンサ20が、抗体重鎖の配列情報と、抗体軽鎖の配列情報とを別々に出力し、サーバ30が抗体重鎖と抗体軽鎖の組み合わせを推定する例について説明したが、本発明はこれには限られない。例えば、次世代シーケンサ20が、抗体重鎖及び軽鎖の含む配列情報を取得できる場合には、抗体重鎖と抗体軽鎖の組み合わせは既に決まっているので、上述した組み合わせ推定処理を行わない。
【0271】
また、上述した第1~第3実施形態では、重鎖配列(又は軽鎖配列)を、存在抗体配列として、データセット記憶部322に記憶させてもよい。例えば、サーバ30は、重鎖配列(又は軽鎖配列)を、存在抗体配列として、データセット記憶部322に記憶させてもよい。この場合、サーバ30は、重鎖配列(又は軽鎖配列)に基づいて学習処理を行うことで、配列学習済みモデルを生成する。サーバ30は、重鎖配列(又は軽鎖配列)及び出現確率に基づいて学習処理を行うことで、特性予測学習済みモデルを生成する。
サーバ30は、配列学習済みモデルを用いて、重鎖配列(又は軽鎖配列)を表す予測対象配列情報を生成する。サーバ30は、生成した予測対象配列情報の各々を、特性予測学習済みモデルへ入力し、重鎖配列(又は軽鎖配列)を表す予測対象配列情報毎に予測スコアを予測する。
一方、サーバ30は、予測対象配列情報が表す重鎖配列(又は軽鎖配列)について、その重鎖配列(又は軽鎖配列)と組み合う軽鎖配列(又は重鎖配列)を推定する。推定は、上述の推定部332が行う手法でもよいし、その他の手法でもよい。また、その重鎖配列(又は軽鎖配列)と組み合う軽鎖配列(又は重鎖配列)は、ユーザが選択してもよい。サーバ30は、予測対象配列情報が表す重鎖配列(又は軽鎖配列)と、その重鎖配列(又は軽鎖配列)と組み合うと推定された軽鎖配列(又は重鎖配列)と、を組み合わせて候補抗体情報を生成してもよい。
【0272】
また、上述した第1~第3実施形態では、各パニングにおいて次世代シーケンサ20から取得した全ての配列に基づいて、学習を行う例を説明したが、これには限られない。例えば、取得した配列情報に基づき、配列情報を複数のクラスタに分類し、クラスタごとに学習を行っても良い。
【0273】
また、上述した第1~第3実施形態では、情報処理システムは、親和性評価の一例として、パニングを用いる評価について説明した。しかし、本発明はこれに限らず、親和性評価は、標的抗原と抗体との親和性を評価するものであればよく、パニング以外の評価を用いても良い。
また、上述した第1~第3実施形態では、情報処理システムは、評価結果情報の一例として、抗体の出現頻度を用いる場合について説明した。しかし、本発明はこれに限らず、評価結果情報として、パニングごとの各配列の出現頻度、パニングごとの、各ポジションのアミノ酸の出現頻度、などである。
【0274】
また、上述した第1~第3実施形態では、配列選択部PA1(PA1b、PA1c、PA1dも同様。以下、これらを代表してPA1と記載す)及び学習部334(334b、334c、334dも同様。以下、これらを代表して334と記載す)は、評価処理を行う際、算出したAUCに基づいて、選択分類基準情報と選択学習済みモデルを決定する例を説明したが、これには限られない。例えば、解離定数(KD)と親和性情報との相関に基づいて決定してもよい。具体的には、まず、評価データセットとして、予めKD既知の配列を用意する(既知のKDを「既知KD」とも称する)。また、記憶部32(32a、32b)は、親和性情報とKDとの対応情報を記憶する。配列選択部PA1及び学習部334は、評価データセットを用いて、各配列について、親和性情報を算出する。配列選択部PA1及び学習部334は、算出した親和性情報と、親和性情報とKDとの対応情報とに基づいて、親和性情報をKDに変換する(変換したKDを「算出KD」とも称する)。配列選択部PA1及び学習部334は、学習済みモデル毎に、算出KDと既知KDとの組について、相関係数を算出する。配列選択部PA1及び学習部334は、相関係数の最も高い分類基準候補情報、及び当該分類基準候補情報に対応する学習済みモデルを、それぞれ選択分類基準情報、選択学習済みモデルとして、パニンググループIDを対応付けて、学習結果記憶部326に記憶させる。
【0275】
また、上記各実施形態では、配列選択部PA1、配列学習部PA2、及び学習部334がLSTMや隠れマルコフモデルを用いて学習処理を行う例を説明したが、これには限られない。例えば、配列選択部PA1、配列学習部PA2、及び学習部334は、第4、第5実施形態で説明したランダムフォレストを用いてもよい。
例えば、配列学習部PA2は、教師なし学習の学習モデルを用いることで、仮想配列生成部PA3は、早く多くの配列を生成できる。具体的には、配列学習部PA2は、教師なし学習によって、特性値に基づいて配列情報を分類する配列学習済みモデルを生成する。仮想配列生成部PA3は、配列と同分類に属する配列を生成することで、同様の特性を持つ予測対象配列を生成することができる。
なお、教示ありモデルの場合、配列学習部PA2は、配列情報と特性評価の結果のデータセットで、機械学習を行う。この場合、仮想配列生成部PA3は、生成した配列情報を教示ありモデルに入力し、教示ありモデルから出力された特性評価値が高い配列情報を選択し、予測対象配列情報とする。ここで、例えば、仮想配列生成部PA3は、各構成要素のアミノ酸をランダムに生成し、生成したアミノ酸を並べた配列を示す配列情報を、教示ありモデルに入力する配列情報として生成してもよい。また、特性評価値が高い配列情報とは、特性評価値が閾値よりも高い配列情報であってもよいし、特性評価値が高い方から上位にある配列情報であってもよい。
【0276】
また、上述した第4、第5実施形態では、サーバ30c(30d)が、配列情報として抗体のアミノ酸を示す文字を並べた文字列として扱い学習や予測を行う例を説明したが、配列情報はこれに限られない。例えば、サーバ30c(30d)は、抗体のアミノ酸配列を、当該配列を構成する個々のアミノ酸の物性量の集合に変換して扱っても良い。すなわち、サーバ30c(30d)は、アミノ酸配列の文字列をユーザ端末10cから受け入れる。サーバ30c(30d)は、文字列と物性量とを対応付けた情報に基づいて物性量に変換する。
【0277】
ここで、アミノ酸の物性量とは、アミノ酸の物理科学的または生化学的な特性を示す数値であり、例えば、AAindexに登録された特性量である。具体的には、アミノ酸の物性量とは、アミノ酸の体積、原子数、側鎖の長さ、表面積、電荷、疎水度、タンパク質においてよく出現する領域(内部か表面か)、取りやすい2次構造の種類、βストランド形成時の角度、水溶時のエネルギー変化、融点、熱容量、及び、NMRデータなどである。サーバ30c(30d)は、個々のアミノ酸ごとに、所定の組み合わせの物性量(「ポジション物性量群」とも称する)を配列情報として取得する。すなわち、配列情報は、抗体を構成するアミノ酸の数だけ、ポジション物性量をあわせた情報(物性量群)である。
【0278】
物性量の組み合わせに関する情報(どの物性量の組み合わせを用いるか示す情報)は、予めサーバ30c(30d)に記憶されてもよいし、ユーザ端末10cから入力され、サーバ30c(30d)が記憶する情報であってもよい。また、物性量の組み合わせは、特性ごとに異なるものであっても良い。
また、アミノ酸配列を構成する個々のアミノ酸に対応する物性量の情報は、サーバ30c(30d)に記憶されなくてもよい。例えば、ユーザ端末10cに記憶され予め物性量群として変換されてもよい。この場合、サーバ30c(30d)は、配列情報として変換済みの物性量群を受け入れる。また、例えば、アミノ酸配列を構成する個々のアミノ酸に対応する物性量の情報はネットワークNWからサーバ30c(30d)やユーザ端末10cが取得するものであってもよい。
また、サーバ30c(30d)は、アミノ酸配列を物性量に変換する前に、所定の方法を用いて縮約してもよい。例えば、所定の方法は、自己相関関数を用いる方法などである。
【0279】
サーバ30c(30d)は、制御部335cが予測対象配列の特性スコアを予測する場合も、同様にアミノ酸配列を一度特性量に変換する。制御部335cは、変換した特性量と学習結果とに基づいて、特性スコアを予測する。
【0280】
また、サーバ30c(30d)は、アミノ酸配列から立体構造を推定し、推定した立体構造に基づいた情報(「構造情報」とも称する)を配列情報としてもよい。構造情報とは、疎水性領域、正電荷領域、負電荷領域を示す情報である。これらの情報は、3次元的に表現されるものであってもよいし、2次元に射影され表現されるものであってもよい。
【0281】
図38は、構造情報の一例を示す情報である。
この図に示す一例は、抗体の立体構造の解析計算結果に基づいて、抗体分子表面の性質(疎水性領域、正電荷領域、負電荷領域)を球面上に投影した図である。中心は、抗原との結合面を示す。この図において、1~6で示される領域は、表面が疎水性領域であることを示す。また、7~9で示される領域は、表面が正電荷領域であることを示す。また、10で示される領域は、表面が負電荷領域であることを示す。
サーバ30c(30d)は、アミノ酸の構造情報から、所定の方法を用いて特徴量を抽出する。例えば、特徴量とは、抗体分子表面の性質の位置や領域の大きさなどを示す情報である。サーバ30c(30d)は、抽出した特徴量と特性情報とに基づいて学習を行う。なお、構造情報の推定は予めユーザ端末10cで行われてもよい。また、配列情報をネットワークNWに送信し、対応する構造情報をネットワークNWからユーザ端末10c又はサーバ30cが受信するものであってもよい。
【0282】
また、上述した第4、第5実施形態では、抗原に対する特性情報を用いる例を使用したが、これには限られない。例えば、他の抗原に対する特性情報を用いてもよい。この特性情報は、抗体の物性に関する特性情報である。
【0283】
また、上述した第4、第5実施形態では、学習や予測に用いる特性(特性情報)について、限定しなかったが、用いる特性(特性情報)を限定してもよい。例えば、これらの情報はユーザ端末10cのユーザによって入力され、サーバ30c(30d)に送信されてもよい。
【0284】
また、上述した第4、第5実施形態では、特性ごとに学習を行い、学習済みモデルを作成する例について説明したが、これには限らない。例えば、複数の特性についてまとめて学習を行い、1つの学習済みモデルを作成してもよい。この場合、当該学習済みモデルからは、複数の特性に関する特性評価情報が出力される。
【0285】
また、上述した各実施形態では、予測対象配列生成部PAがLSTMを用いて予測対象配列を生成する例を説明したが、これには限られない。例えば、予測対象配列生成部PAが、取得した配列情報に基づいて、変異を導入する位置を特定してもよい。以下、この方法について説明する。
【0286】
上述した第1~第3実施形態では、予測対象配列生成部PAは、選択分類基準情報に対応付けられた学習データセット(
図11)から、結合判定が「結合」である学習データセットを読み出す。予測対象配列生成部PAは、読み出した学習データセットの配列情報から、1又は複数の位置のアミノ酸を変更することで、予測対象配列情報を生成する。ただし、本発明はこれに限らず、予測対象配列生成部PAは、ランダムに予測対象配列情報を生成してもよい。
また、予測対象配列生成部PAは、変異情報記憶部327に変異情報が記憶されている場合には、読み出した学習データセットの配列情報から、変異情報が示す位置(配列情報の要素)のアミノ酸を変更することで、予測対象配列情報を生成する。
これにより、情報処理システム1は、結合する可能性が高く、変異させたい位置のアミノ酸だけを変更した予測対象配列情報を生成できる。
予測対象配列生成部PAは、生成した予測対象配列情報を、配列記憶部328に記憶させる。
【0287】
上述した第4、第5実施形態では、配列選択部PA1c(PA1d)及び配列学習部PA2c(PA2d)は、改善特性情報が示す配列の配列情報を、学習データセット記憶部324c(324d)に記憶された配列情報から取得する。配列選択部PA1、配列学習部PA2、及び学習部334は、取得した配列情報のアミノ酸配列と、テンプレート配列情報のアミノ酸配列とを比較し、アミノ酸配列の変異位置を特定する。配列選択部PA1、配列学習部PA2、及び学習部334は、特定した変異位置を示す変異位置情報を変異情報の1つとして、変異情報記憶部327cに記憶させる。
【0288】
予測対象配列生成部PAc(PAd)は、テンプレート配列情報と、変異情報とに基づいて、予測対象配列情報を生成する。例えば、配列選択部PA1c(PA1d)は、変異情報記憶部327cから、テンプレート配列情報、変異位置情報、及び、変異条件情報を読み出す。配列選択部PA1c(PA1d)は、変異位置情報が示す変異位置の数が、変異条件情報が示す変異の上限数より多い否かを判定する。配列選択部PA1c(PA1d)は、変異位置の数が上限数以下の場合は、全ての変異位置を変異導入箇所と判定する。配列選択部PAc(PA1d)1は、変異位置の数が上限数より多い場合には、変異位置の中から上限数の変異導入位置をランダムに選択する。配列選択部PA1c(PA1d)は、テンプレート配列情報から、変異導入位置が示すアミノ酸を変更することで、予測対象配列情報を生成する。配列選択部PA1c(PA1dは、生成した予測対象配列情報を、配列記憶部328cに記憶させる。
【0289】
また、上述した方法では、サーバ30cが変異導入場所を決定する場合を説明したが、これには限られない。例えば、ユーザ端末10cのユーザによって、特定の変異導入位置を示す変異情報が入力され、サーバ30c(30d)に送信されてもよい。この場合、サーバ30c(30d)は、受信した変異情報を変異情報記憶部327cに記憶する。また、サーバ30c(30d)は当該変異導入位置を含むように変異導入位置を決定する。
【0290】
また、上述した第4、第5実施形態では、候補抗体情報を出力する際、サーバ30c(30d)が、特性ごとの順序付けに基づいて、候補抗体情報を決定する例を説明したがこれには限られない。例えば、複数の特性を用いた候補抗体情報の決定をユーザ端末10cが行っても良い。この場合、サーバ30cは、特性ごとの順位付けの結果(予測対象配列と特性ごとの順位付けの結果)を、ユーザ端末10cに送信する。
【0291】
また、上述した第4、第5実施形態では、サーバ30c(30d)が予測対象配列を生成する例を説明したが、これには限られない。例えば、ユーザ端末10cのユーザによって予測対象配列が入力され、サーバ30c(30d)に送信されてもよい。
【0292】
また、上述した第4、第5実施形態では、LSTMの学習時に中間層全体に関するパラメータをサーバ30c(30d)が予め記憶し、再学習時にはサーバ30c(30d)が適宜当該パラメータを変更する例を説明したが、これには限られない。例えば、ユーザ端末10cのユーザによって、各パラメータが入力されてもよい。この場合、例えば、サーバ30c(30d)は、必要に応じて中間層全体に関するパラメータをユーザ端末10cに要求する情報を送信する。ユーザ端末10cは、受信した情報を表示部15に表示し、ユーザ端末10cのユーザから入力される情報をサーバ30c(30d)に送信する。サーバ30c(30d)は、受信した情報に基づいて、当該パラメータを決定する。
【0293】
また、上述した第4、第5実施形態では、学習データセットに用いる配列情報及び特性情報を、サイクル数に応じて決定する例を説明したが、これには限られない。例えば、特定の特性が優れた配列情報及び特性情報を優先的に学習データセットとしてもよい。この場合、サーバ30cは、重視する特性を示す情報を記憶部32cに記憶するか、またはユーザ端末10cから受信する。
また、例えば、サーバ30cは、配列情報と特性情報を取得した日時を示す情報に基づいて、学習データセットに用いる配列情報及び特性情報を決定してもよい。具体的には、サーバ30cは、学習データセットに用いる配列情報及び特性情報を、取得した日時が最新のものから所定の上限数まで取得する。ここで取得した日時とは、サーバ30cが各情報を取得した日時であってもよいし、実際に測定などを行って特性情報を取得した日時であってもよい。
また、例えば、サーバ30cは、それまでに取得した全ての配列情報と特性情報に基づいて学習を行っても良い。このとき、サーバ30cは、サイクル数に応じた重み付けを行ってもよい。すなわち、より新しいサイクルで生成された配列情報とそれに対応する特性情報については、より重要視するようにしてもよい。
【0294】
また、上述した各実施形態において、抗原結合分子の例として抗体を用いる例を説明したが、抗原結合分子はこれには限られない。すなわち、抗原結合分子は最も広義な意味として使用される。具体的には、抗原結合分子は、抗原に対する結合活性を示す限り、様々な分子型を含む。例えば、抗原結合分子が抗原結合ドメインとFc領域が結合した分子で有る場合、例として、完全抗体や抗体断片が挙げられる。抗体には、単一のモノクローナル抗体(アゴニストおよびアンタゴニスト抗体を含む)、ヒト抗体、ヒト化抗体、キメラ抗体等が含まれ得る。また抗体の断片として使用される場合としては、抗原結合ドメインおよび抗原結合断片(例えば、VHH, Fab、F(ab’)2、scFvおよびFv)が好適に挙げられ得る。既存の安定なα/βバレルタンパク質構造等の立体構造がscaffold(土台)として用いられ、その一部分の構造のみが抗原結合ドメインの構築のためにライブラリ化されたスキャフォールド分子も、本開示の抗原結合分子に含まれ得る。
【0295】
また、上述した第1~第3実施形態では、ユーザ端末10、次世代シーケンサ20、及びサーバ30がネットワークNWを介して接続される例を説明したが、これには限られない。例えば、サーバ30と次世代シーケンサ20とが同一のものであっても良い。また、ユーザ端末10とサーバ30とが同一のものであっても良い。また、サーバ30は、次世代シーケンサから取得した塩基配列をアミノ酸配列に変換する例を説明したが、これには限られない。例えば、塩基配列をアミノ酸配列に変換する処理を行う変換装置が、サーバ30の外部に存在してもよい。この場合、変換装置は、次世代シーケンサ20から入力された情報について、塩基配列をアミノ酸配列に変換し、変換した情報を、サーバ30に出力する。また、次世代シーケンサ20は、次世代シーケンサには限られない。例えば、他のシーケンサであってもよい。
【0296】
また、上述した第4、第5実施形態では、ユーザ端末10c、サーバ30c(30d)がネットワークNWを介して接続される例を説明したが、これには限られない。例えば、サーバ30cとユーザ端末10cとが同一のものであっても良い。また、例えば、サーバ30c(30d)の学習処理を行う装置が、サーバ30c(30d)の外部に備えられても良い。また、例えば、サーバ30c(30d)の予測処理を行う装置が、サーバ30c(30d)の外部に備えられても良い。
【0297】
また、上記各実施形態において、予測対象配列生成部PAと学習部334は、確定ベクトル値ht-1を生成するため、出現確率に従って1つのアミノ酸を選択する。例えば、予測対象配列生成部PAと学習部334は、出現確率が40%のアミノ酸は、10回に4回選択されるように出力する。
これにより、予測対象配列生成部PAと学習部334は、各ポジションにおいて、例えば最大値となる1つのアミノ酸を選択する場合と比較して、様々なアミノ酸を出現させることができ、多様な予測対象配列又は候補抗体情報を出力できる。
【0298】
なお、上述した各実施形態では、予測対象配列生成部PAと学習部334は、別の装置に備えられてもよい。また、配列選択部PA1、配列学習部PA2(PA2b、PA2c、PA2dも同様。以下、これらを代表してPA2と記載する)、仮想配列生成部PA3(PA3b、PA3c、PA3dも同様。以下、これらを代表してPA3と記載す)は、それぞれ、別の装置に備えられてもよい。
また、上述した各実施形態では、サーバ30(30a、30b、30c、30dも同様。以下、これらを代表して30と記載す)は、分類部333を備えず、配列選択部PA1は、LSTMを生成しなくてもよい。この場合、配列選択部PA1は、学習データセットのうち、特性値が所定条件を充足する学習データセットの配列情報を選択する。配列学習部PA2は、配列選択部PA1が選択した配列情報に基づいて学習処理を行うことで、配列学習済みモデルを生成する。また、サーバ30は、学習部334bを備えなくてもよい。この場合、サーバ30では、仮想配列生成部PA3が生成した予測対象配列の一部或いは全部を、候補抗体情報として生成する。出力処理部336は、生成された候補抗体情報を出力する。また、サーバ30は、推定部332を備えなくてもよい。
【0299】
上記実施形態において、機械学習で仮想配列群を生成し、それらに対する予測スコア等の値を予測する意義として、ファージディスプレイ実験ではうまく発現せず、結合実験が難しい配列が存在する点がある。実験が難しい配列に対する評価を、コンピュータにより実行可能となる利点がある。
【0300】
上記実施形態において、LSTMで仮想配列群を生成する意義として、単純な列挙では、組み合わせ数の爆発が起こり、高性能コンピュータでも扱えない場合もある。例えば、HchとLchの合計20ポジションを19種類のアミノ酸に網羅的に振った場合、19の20乗=3.76×10の25乗の超大量の組合せがあり、全てをコンピュータで評価することは、非常に困難である。そのために、上記実施形態では、LSTMを用いることにより、「良い性質をもつ」配列を学習し、「良い性質を持つ可能性が高い」配列群を生成することが重要となっている。
【0301】
[実施例]
以下、第1実施形態に係る実施例について説明する。ある抗原Kに対し、ファージディスプレイライブラリをパニングした場合について、配列情報を取得した。配列情報は、次世代シークエンサー(NGS:Next Generation Sequencing)で解析した解析結果情報に含まれる。解析結果情報の配列情報は、パニング後であるため、抗原Kに結合する抗体群の配列情報である。
このパニング後の配列情報が示す配列群を用いて、LSTMに対して学習処理を行い、学習処理後のLSTMを用いて、結合する可能性が高い仮想配列群を、予測対象配列として生成させた。
【0302】
図39は、本実施例に係る配列と特性の関係を示す図である。
図39の横軸は、配列の種類であり、縦軸は特性値である。特性値は、アフィニティを表す解離定数(KD)の負の常用対数(-log
10(KD))である。
図39には、「ML top」の配列群と「NGS top」の配列群の各々について、各配列と特性値の関係をプロットした。「ML top」の配列群は、学習処理後のLSTMを用いて生成された予測対象配列のうち、尤度P(予測スコア)が上位10位以内となった配列の配列群である。「NGS top」の配列群は、次世代シークエンサーの解析結果情報に含まれる出現頻度が上位10以内となった配列の配列群である。
図39には、「ML top」の配列群と「NGS top」の配列群の各々の特性値(-log
10(KD))に対して、箱ひげ図を示した。
【0303】
「ML top」の配列群と「NGS top」の配列群を比較すると、「ML top」の配列群の方が、「NGS top」の配列群よりも特性値が高い。つまり、予測対象配列は、次世代シークエンサーで解析した配列よりも、強い結合能を持つ配列であることが分かる。このように、サーバ30は、学習処理後のLSTMを用いることにより、次世代シーケンサ20で解析した配列(学習処理に用いた配列)よりも、強い結合能を持つ仮想配列群(予測対象配列)が生成できた。また、尤度Pによる予測抗体配列のスコア付けが有効であることが分かった。
【0304】
図40は、本実施例に係る配列の特性の予測精度を示す図である。
図40の縦軸は、アフィニティの予測値を示し、尤度Pの負の常用対数(-log
10(P))である(
図40では、-log
10(likelihood)で表す)。
図40の横軸は、アフィニティの実測値を示し、解離定数(KD)の負の常用対数(-log
10(KD))である。
図40には、学習処理後のLSTMを用いて生成された予測対象配列の一部について、予測値(縦軸)と実測値(横軸)をプロットした。この図では、予測値と実測値の相関係数の絶対値は、0.576であった。また、この図が示すように、尤度Pが大きいほど(負の常用対数(- log
10(P))であるため、縦軸の値が低くなるほど)、アフィニティが強くなった(横軸の値が高くなった)。つまり、強い結合の配列を予測するという観点で、情報処理システム1(サーバ30)は、高い予測精度が得られた。そして、結合能の高い配列では、尤度Pを指標にして仮想配列群(予測対象配列)を生成することで、結合能の高い配列を予想できる。
【0305】
図40において、鎖線で表された「NGS freq top」は、パニング後の次世代シークエンサーから得られた最高頻度の配列の解離定数(KD)を示す。点線で表された「Control」は、パニング用配列群を作成するためのテンプレート配列の解離定数(KD)を示す。この図の通り、情報処理システム1は、パニング後に最も濃縮された配列よりも強い結合の配列を、LSTMにて予測対象配列として生成できている。以上のように、第1実施形態に係るLSTMにより、強い結合能を持つ仮想配列群が生成できており、かつ尤度Pによる予測抗体配列のスコア付けは、有効である。
【0306】
以下、第3実施形態に係る実施例について説明する。
図41は、本実施例に係る訓練配列と仮想配列との類似性を示す図である。訓練配列とは、LSTMの訓練に用いた配列であり、訓練データセットの配列である。
図41の縦軸は、反応溶液のペーハーが酸性の場合における解離速度(酸性koff)の負の常用対数であり、
図41では、ペーハーがpH5.8(酸性)の場合の解離速度の常用対数(-log
10(koff pH5.8))である。
図41の横軸は、反応溶液のペーハーが中性の場合における解離定数(中性KD)の負の常用対数(-log
10(KD))である。
【0307】
図41(a)は、各訓練配列について、特性値(実測値)をプロットしたものである。これらの配列は、-log
10(KD)>9かつlog
10(koff)<2を満たす251個の配列をプロットしたものである。中性KD及び酸性koffは、実測値である。
図41(b)は、LSTMが生成した各配列について、特性値(予測値)をプロットしたものである。
図41(a)で示した訓練データセットを用いて機械学習(LSTM)を行った場合に、学習済みモデルから出力された1000種類の仮想配列群をプロットしたものである。中性KD及び酸性koffは、予測値である。
図41(c)は、
図41(a)で示した配列が含む変異残基をリスト化し、それをランダムにシャッフルさせて組み合わせて生成させた新たな1000種類の仮想配列群をプロットしたものである。中性KD及び酸性koffは、予測値である。
【0308】
図41(a)と(c)を比較すると、
図41(c)では、
図41(a)の訓練配列とは、酸性koffのレンジが大きく異なった配列が生成されてしまった。その理由は、シャッフルさせた場合には、「相乗効果で中性KD及び酸性koffが改善する」変異の組合せが破壊され、片方だけ変異が採用されたりするためと考えられる。一方、
図41(b)では、
図41(c)の場合と比較して、
図41(a)の訓練配列とは、酸性koffのレンジが類似する配列が生成されていた。このように、LSTMを用いた仮想配列群(予測対象配列)は、変異位置の配列をランダムに変更した場合と比較して、訓練配列の性状を、より強く示している。
【0309】
図42は、本実施例に係る訓練配列と仮想配列との類似性を示す別の図である。
図42の横軸は主成分分析における第1主成分であり、縦軸は第2主成分である。主成分分析では、各配列を、Doc2Vec法を用いてベクトル空間にマッピングして行った。ここで、Doc2Vec法で用いたモデルは、タンパク質配列のデータベースであるUniprot(http://www.uniprot.org/)の配列を用いて学習処理が行われたモデルを用いた。
図42(a)は、各訓練(Train)配列について、各主成分の値をプロットしたものである。これらの配列は、
図41(a)にプロットされた配列と同じ配列である。
図42(b)は、LSTMが生成した各配列について各主成分の値をプロットしたものである。これら配列は、
図41(b)にプロットされた配列と同じ配列である。
図42(c)は、変異位置の配列をランダムに変更した各配列について、各主成分の値をプロットしたものである。これら配列は、
図41(c)にプロットされた配列と同じ配列である。
【0310】
図42(a)~(c)において、数値ベクトルは実在するアミノ酸配列の特徴を示したベクトルであるため、近しいアミノ酸配列は似たベクトルとして表現される。
図42(a)と(b)を比較すると、
図42(c)と比べて、各配列の値が近い値となった。つまり、LSTMが生成した各配列は、訓練に用いたアミノ酸質配列と近しいことが分かった。一方、
図42(a)と(c)を比較すると、
図42(b)と比べて、各配列の値が近くない値となった。つまり、LSTMが生成した各配列は、訓練に用いたアミノ酸配列と近くないことが分かった。これにより、LSTMが生成した各配列は、元の訓練配列とアミノ酸配列が近しく、訓練配列の特徴を反映していることが分かる。
【0311】
図43A~
図43Iは、実施例に係る配列の特性の予測値と実測値の相関を示す図である。変異配列と実験量(実測値)の組み合わせを、それぞれの実験量の種類ごとにリスト化し、学習データセットとした。変異配列とは、抗原結合が確認されているテンプレート配列に対して少数の変異を導入することにより、結合および物性の改善を期待した配列である。変異配列には、アミノ酸配列を文字列としたデータを用いた。
実験量の種類は、解離定数(KD)、解離速度(koff)、発現量, SEC(サイズ排除クロマトグラフィー)によるモノマー%、SECのモノマーピークの半値幅、ECM(Extra Cellular Matrix)結合量、熱加速試験での抗体キャプチャー量、熱加速試験での抗原結合量、アフィニティスコアとした。
SECによるモノマー%とは、そのアミノ酸配列の抗体分子がモノマーとして存在する割合である。SECのモノマーピークの半値幅は、クロマトグラフィーによる分子流出量を縦軸とし時間(分子量)を横軸とした場合の半値幅である。ECM結合量とは、目的とした抗原ではない細胞外マトリックスに特異的あるいは非特異的に結合する量である。熱加速試験での抗体キャプチャー量とは、高温条件(50℃)と冷蔵保存(4℃)に一定期間保管したサンプルを表面プラズモン共鳴(SPR)測定に供し、冷蔵保存条件と比較して高温条件のサンプルがセンサーチップ上のキャプチャー分子で何%固定化されるかの値であり、主に抗原結合部位以外の安定性の指標となる。熱加速試験での抗原結合量とは高温条件(50℃)と冷蔵保存(4℃)に一定期間保管したサンプルを表面プラズモン共鳴(SPR)測定に供し、冷蔵保存条件と比較して高温条件のサンプルのキャプチャー量当たりの抗原結合量が何%であるかの値であり、主に抗原結合の安定性の指標になる。アフィニティスコアは、pH7.4での結合の強さとpH5.8での解離の速さがバランスよく良いことの指標として、ビアコアを用いて解析した生データから定義したものである。具体的には、アフィニティスコアは、ビアコアのセンサグラムの形状から、「中性で急速に結合する度合スコア」「中性で安定的に結合が継続する度合スコア」「酸性で急速な解離が起こる度合いスコア」の3項のスコアに適切な係数を乗算し和を取ったものである。
【0312】
学習データセットは、2019年4月26日に中外社内の抗体データベースから引き出した。実験量の種類ごとの学習データセットを用いて、ランダムフォレストを用いた機械学習を行って、学習済みモデルを生成した。実験量の予測値は、生成された学習済みモデルを用いて予測された。ここで、精度評価のために、Out of bag 法によりトレーニングサンプルとテストサンプルを分けて評価している。その結果、
図43A~
図43Iの結果を得た。
【0313】
図43Aは、解離定数(KD)の予測値と実測値の相関を示す図である。
図43Bは、解離速度(koff)の予測値と実測値の相関を示す図である。
図43Cは、発現量の予測値と実測値の相関を示す図である。
図43Dは、SECによるモノマー%の予測値と実測値の相関を示す図である。
図43Eは、SECのモノマーピークの半値幅の予測値と実測値の相関を示す図である。
図43Fは、ECM結合量の予測値と実測値の相関を示す図である。
図43Gは、熱加速試験での抗体キャプチャー量の予測値と実測値の相関を示す図である。
図43Hは、熱加速試験での抗原結合量の予測値と実測値の相関を示す図である。
図43Iはアフィニティスコアの予測値と実測値の相関を示す図である。
【0314】
図43A~
図43Iにおいて、正規化相関(CC:Correlation Coefficient)と順位相関(Spearman Correlation Coefficient)は、図中に示す値となった。
図43A~
図43Iの分布、正規化相関、又は選択的正規化相関から、各特性(実験量の種類)の予測値と実測値に相関があることが分かった。つまり、上記実施形態による予測値は、精度が良いことが裏付けられた。
【0315】
図44A~
図44Iは、他実施例に係る配列の特性の予測値と実測値の相関を示す図である。本実施例では、変異配列には、アミノ酸配列をDoc2Vec法により数値ベクトルに変換したデータを用いた。このように、本実施例と
図43A~
図43Iの実施例を比較すると、変異配列のアミノ酸配列を、数値ベクトルとしたのか、文字列としたのかが異なる。
【0316】
図44Aは、解離定数(KD)の予測値と実測値の相関を示す図である。
図44Bは、解離速度(koff)の予測値と実測値の相関を示す図である。
図44Cは、発現量の予測値と実測値の相関を示す図である。
図44Dは、SECによるモノマー%の予測値と実測値の相関を示す図である。
図44Eは、SECのモノマーピークの半値幅の予測値と実測値の相関を示す図である。
図44Fは、ECM結合量の予測値と実測値の相関を示す図である。
図44Gは、熱加速試験での抗体キャプチャー量の予測値と実測値の相関を示す図である。
図44Hは、熱加速試験での抗原結合量の予測値と実測値の相関を示す図である。
図44Iはアフィニティスコアの予測値と実測値の相関を示す図である。
【0317】
図44A~
図44Iにおいて、正規化相関(CC:Correlation Coefficient)と選択的正規化相関(Selective Correlation Coefficient)は、図中に示す値となった。
図44A~
図44Iの分布、正規化相関、又は選択的正規化相関から、各特性(実験量の種類)の予測値と実測値に相関があることが分かった。つまり、上記実施形態による予測値は、精度が良いことが裏付けられた。
【0318】
図45は、本実施例に係る配列の特性が向上していることを説明するための図である。特性は、アフィニティスコアであり、その値が大きいほど結合力が強く、その値が小さいほど結合力が弱いことを表す。縦軸は、密度関数(density)であり、出現頻度(配列の個数)を表す。
本実施例では、2,636種の変異配列およびアフィニティスコアの組を学習データセットとして、LSTMに対して学習処理を行い、学習処理後のLSTMを用いて仮想配列群を、予測対象配列として生成させた。その予測対象配列について、random forest法でアフィニティスコアの予測値が良い配列を、81種類生成した。この81種類の配列は、上述の実施形態において、予測スコアが閾値以上の予測対象配列であり、その配列の情報が候補抗体情報である。
【0319】
「affinity score for training set」のグラフは、学習用データセットの2,636配列について、アフィニティスコアの分布を表している。一方、「affinity score for predicted sequences」は、生成した81種類の配列(予測対象配列のうち予測スコアが閾値以上の配列)について、アフィニティスコアの分布を表している。
これらの分布を比較すると、学習用データセットの配列よりも、予測された配列(81種類の配列)の方が、アフィニティスコアの値が大きい方に、より多く分布していることが分かる。つまり、予測された配列は、学習用データセットの配列と比較して、アフィニティの分布が改善していることが分かる。
なお、上記実施形態において、予測対象配列について、random forest法に代えて又は加えて、gradient boosting(勾配ブースティング)法を用いて、アフィニティスコアの予測値が良い配列を生成してもよい。この場合、生成した配列についても、
図45と同様の分布を得ることができた。
このように、
図45は、第3実施形態に係るLSTMにより、強い結合能を持つ仮想配列群が生成できており、本実施形態の手法が有効である。
【0320】
[付記]
(1)本発明の一態様は、複数の抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習を行うことで、前記配列の特徴を学習した学習済みモデルを生成する配列学習部と、前記学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも1つを変異させた仮想配列情報を生成する配列生成部と、を備える情報処理システムである。
【0321】
構成単位とは、配列を構成する要素であって、分子を構成する要素である。構成単位は、例えば配列情報がアミノ酸配列の配列情報の場合にはアミノ酸である。構成単位は、例えば配列情報が塩基酸配列の配列情報の場合には塩基である。
【0322】
(2)本発明の一態様は、複数のタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習を行うことで、前記配列の特徴を学習した学習済みモデルを生成する配列学習部と、前記学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも1つを変異させた仮想配列情報を生成する配列生成部と、を備える情報処理システムである。
つまり、上記各実施形態において、抗原結合分子は、タンパク質であってもよい。
【0323】
(3)本発明の一態様は、上記情報処理システムにおいて、前記配列の特徴は、前記構成単位の配列中の位置、及び、前記構成単位同士の前後関係を含む特徴である。
【0324】
(4)本発明の一態様は、上記情報処理システムにおいて、前記配列生成部は、予め設定された配列上の部位であって1以上の前記構成単位から構成される部位について、少なくとも1つの前記構成単位を変更することで、前記仮想配列情報を生成する。
つまり、上記各実施形態において、サーバ30は、複数のアミノ酸の位置で特定される部位を設定し、その部位の中に属するアミノ酸の少なくとも1つを変更してもよい。
【0325】
(5)本発明の一態様は、上記情報処理システムにおいて、複数の前記部位は、抗体の重鎖可変領域、軽鎖可変領域又は定常領域のいずれかの配列中に含まれる。
【0326】
(6)本発明の一態様は、上記情報処理システムにおいて、前記配列情報は、当該配列情報が表す配列の抗原結合分子或いはタンパク質についての特性評価の結果に応じて選択された配列情報である。
【0327】
(7)本発明の一態様は、上記情報処理システムにおいて、前記配列学習部は、深層学習モデル又は確率モデルを用いて前記機械学習を行う。
【0328】
(8)本発明の一態様は、上記情報処理システムにおいて、前記配列学習部は、深層学習モデルを用いて前記機械学習を行い、前記深層学習モデルとして、Long short―term memory(LSTM)、再帰型ニューラルネットワーク(RNN)、Gated Recurrent Unit(GRU)、Generative Adversarial Network(GAN)、又は、Variational Autoencoder(VAE)、又は、Flow深層生成モデルのいずれかを用いて前記機械学習を行う。
【0329】
(9)本発明の一態様は、上記情報処理システムにおいて、前記配列学習部は、確率モデルを用いて前記機械学習を行い、前記確率モデルとして、隠れマルコフモデル(HMM)、又はマルコフモデル(MM)のいずれかを用いて前記機械学習を行う。
【0330】
(10)本発明の一態様は、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該配列が表す抗原結合分子或いはタンパク質についての特性評価の結果に基づいて機械学習を行うことで、第2学習済みモデルを生成する学習部を備え、上記(1)から(9)のいずれか一項に記載の学習済みモデルである第1学習済みモデルに基づいて生成された仮想配列情報を第2学習済みモデルに入力し、前記第2学習済みモデルの演算処理を実行することで、入力した仮想配列情報が表す配列の抗原結合分子或いはタンパク質についての特性評価の予測値を推定する推定部を備える情報処理システムである。
【0331】
(11)本発明の一態様は、上記情報処理システムにおいて、前記推定部により推定された予測値に応じて、仮想配列情報及び前記予測値に基づく出力を行う出力部を備える。
【0332】
(12)本発明の一態様は、上記情報処理システムにおいて、前記第1学習済みモデルを生成するための前記配列学習部は、前記仮想配列情報に基づいて機械学習を行うことで、新たな前記学習済みモデルを生成し、及び/又は、前記第2学習済みモデルを生成するための前記学習部は、前記仮想配列情報、及び、当該仮想配列情報が表す配列の抗原結合分子或いはタンパク質の特性評価の結果に基づいて機械学習を行うことで、新たな前記第2学習済みモデルを生成する。
【0333】
(13)本発明の一態様は、上記情報処理システムにおいて、前記学習部は、文字列、数値ベクトル、又は、配列を構成する構成単位の物性量のいずれかで表された前記配列情報に基づいて、前記機械学習を行う。
【0334】
(14)本発明の一態様は、上記情報処理システムにおいて、前記配列情報は、アミノ酸配列、または、核酸配列を表す。
【0335】
(15)本発明の一態様は、上記情報処理システムにおいて、前記配列情報は、抗体の抗原結合ドメインの配列を含む配列を表す。
【0336】
(16)本発明の一態様は、上記情報処理システムにおいて、前記配列情報は、抗体の定常領域の配列を含む配列を表す。
【0337】
(17)本発明の一態様は、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習を行うことで学習済みモデルを生成する配列学習部と、前記学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも1つを変異させた仮想配列情報を生成する配列生成部と、を備える情報処理装置である。
【0338】
(18)本発明の一態様は、情報処理システムにおける情報処理方法であって、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習を行うことで、前記配列情報の特徴を学習した学習済みモデルを生成する配列学習過程と、前記学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも1つを変異させた仮想配列情報を生成する配列生成過程と、を有する情報処理方法である。
【0339】
(19)本発明の一態様は、情報処理システムのコンピュータに、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習を行うことで学習済みモデルを生成する配列学習手順、前記学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも1つを変異させた仮想配列情報を生成する配列生成手順、を実行させるためのプログラムである。
【0340】
(20)本発明の一態様は、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習が行われることで生成され、前記学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも1つを変異させるために用いられる、学習済みモデルである。
【0341】
(21)本発明の一態様は、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習が行われることで生成された学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも1つを変異させた仮想配列を有する抗原結合分子或いはタンパク質である。
【0342】
(22)本発明の一態様は、上記(10)から上記(16)のいずれかに記載の情報処理システムを用いて、特性評価の予測値を推定された仮想配列が表す抗原結合分子或いはタンパク質を製造する方法である。
【0343】
(A1)本発明の一態様は、上記情報処理システムにおいて、前記特性評価は、異なる複数の抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報の出現頻度に基づいて行われる。
【0344】
(A2)本発明の一態様は、上記情報処理システムにおいて、前記配列情報の出現頻度は、異なる複数の抗原結合分子から選択された抗原結合分子であって、特性評価に基づくスクリーニング(例えば、パニング)の結果に応じて選択された抗原結合分子(例えば、結合抗体)の配列を表す配列情報の出現頻度である。
【0345】
(A3)本発明の一態様は、上記情報処理システムにおいて、前記配列情報の出現頻度は、異なる複数の抗原結合分子から選択された抗原結合分子であって、特性評価に基づくスクリーニング(例えば、パニング)の結果に応じて選択された抗原結合分子(例えば、結合抗体)について、スクリーニング前後の出現確率(例えば、ラウンド間の変化率)に応じて選択される。
【0346】
(A4)本発明の一態様は、上記情報処理システムにおいて、前記特性評価は、異なる複数の抗原結合分子から、1以上の特性評価に基づくスクリーニング(例えば、ラウンド、パニング)後の出現頻度の比較に基づいて行われる。
【0347】
(A5)本発明の一態様は、上記情報処理システムにおいて、前記抗原結合分子が2以上の異なる配列(例えば重鎖配列と軽鎖配列)を含む抗原結合分子であって、配列推定部(例えば、推定部332)は、当該抗原結合分子を構成する異なる複数の配列の出現頻度に基づいて、前記複数の配列を組み合わせた抗原結合分子を推定する。
【0348】
(A6)本発明の一態様は、上記情報処理システムにおいて、前記特性評価は、前記抗原結合分子と標的となる分子である標的分子との親和性評価である。
【0349】
(A7)本発明の一態様は、上記情報処理システムにおいて、前記親和性評価は、前記抗原結合分子と、2以上の異なる標的分子との親和性評価である。
【0350】
(A8)本発明の一態様は、上記情報処理システムにおいて、前記抗原結合分子は、2以上の異なる標的分子に結合可能な抗原結合分子である。
【0351】
(A9)本発明の一態様は、上記情報処理システムにおいて、前記親和性評価は、2以上の異なる標的分子が存在する場合における、前記抗原結合分子との親和性評価である。
【0352】
(A10)本発明の一態様は、上記情報処理システムにおいて、前記抗原結合分子は、2以上の異なる標的分子に対して、同時に結合しない抗原結合分子である。
【0353】
(A11)本発明の一態様は、上記情報処理システムにおいて、前記異なる複数の抗原結合分子は、複数の抗原結合分子を含むである。
【0354】
(A12)本発明の一態様は、上記情報処理システムは、異なる複数の抗原結合分子の配列を表す配列情報を取得する配列情報取得部(例えば、次世代シーケンサ20)を備える。
【0355】
(A13)本発明の一態様は、上記情報処理システムにおいて、前記配列情報取得部として、次世代シーケンサ(例えば、次世代シーケンサ20)が用いられる。
【0356】
(B1)本発明の一態様は、上記情報処理システムにおいて、前記特性評価は、前記抗原結合分子の親和性評価、物性評価、薬理活性評価、安全性評価、動態評価、又は、製造適性評価のいずれかである。
【0357】
(B2)本発明の一態様は、上記情報処理システムにおいて、前記特性評価は、前記抗原結合分子の親和性評価、物性評価、薬理活性評価、安全性評価、動態評価、又は、製造適性評価の少なくとも2つである。
【0358】
(B3)本発明の一態様は、上記情報処理システムは、前記抗原結合分子の親和性評価、物性評価、薬理活性評価、安全性評価、動態評価、又は、製造適性評価の結果に基づく評価値を出力する出力部(例えば、出力処理部336)を備える。
【0359】
(B4)本発明の一態様は、上記情報処理システムにおいて、前記出力部により出力される評価値は、特性評価の際に取得される画像データに基づく評価値である。
【0360】
(B5)本発明の一態様は、上記情報処理システムにおいて、前記出力部により出力される評価値は、特性評価の際に取得される時系列データに基づく評価値である。
【0361】
(C1)本発明の一態様は、複数の抗原結合分子と標的抗原の特性評価に関し、前記抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗原結合分子の前記特性評価の評価結果情報に応じた学習データセットを取得する学習データセット取得部と、前記学習データセットに基づいて学習する学習部と、前記学習部による学習結果に基づいて、入力された入力配列情報が示す抗原結合分子について、当該抗原結合分子と前記標的抗原との特性評価を表す特性評価情報を予測する制御部と、予測された特性評価情報に応じて、前記標的抗原と特性がある抗原結合分子の候補を表す候補抗原結合分子情報を出力する出力部と、を備え、前記学習データセット取得部は、第1の前記特性評価において前記標的抗原との特性があると評価された抗原結合分子についての第2の前記特性評価関する前記学習データセットを取得する、情報処理システムである。
【0362】
(C2)本発明の一態様は、複数の抗原結合分子と標的抗原の特性評価に関し、前記抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗原結合分子の前記特性評価の評価結果情報に応じた学習データセットを取得する学習データセット取得部と、前記学習データセットに基づいて学習する学習部と、前記学習部による学習結果に基づいて、入力された入力配列情報が示す抗原結合分子について、当該抗原結合分子と前記標的抗原との特性評価を表す特性評価情報を予測する制御部と、予測された特性評価情報に応じて、前記標的抗原と特性がある抗原結合分子の候補を表す候補抗原結合分子情報を出力する出力部と、を備え、前記学習データセットには、前記配列情報ごとの出現頻度に基づく情報が含まれる、情報処理システムである。
【0363】
本発明の一態様は、上記情報処理システムにおいて、前記学習データセットには、前記複数の抗原結合分子を含む測定対象に対して、前記抗原結合分子ごとに測定された前記評価結果情報が含まれる。また、本発明の一態様は、上記情報処理システムにおいて、前記学習データセットには、シーケンサ装置によって測定された前記配列情報と前記評価結果情報の組が含まれる。また、本発明の一態様は、上記情報処理システムにおいて、前記学習データセットには、シーケンサ装置によって測定された前記配列情報と前記評価結果情報の組が含まれ、前記シーケンサ装置は、前記複数の抗原結合分子を含む測定対象に対して、前記抗原結合分子ごとに前記配列情報及び前記評価結果情報を測定する。また、本発明の一態様は、上記情報処理システムにおいて、前記学習データセットには、前記抗原結合分子の解離を示す解離情報を測定せずに、測定された前記抗原結合分子の出現頻度に基づく評価結果情報が含まれる。
【0364】
(C3)本発明の一態様は、上記情報処理システムにおいて、前記学習データセット取得部は、第1の前記特性評価に関する第1の前記学習データセットと、第2の前記特性評価に関する第2の前記学習データセットと、を取得し、前記第2の特性評価における複数の抗原結合分子には、前記第1の特性評価において、前記標的抗原との特性があると評価された抗原結合分子が含まれる。
【0365】
(C4)本発明の一態様は、上記情報処理システムにおいて、前記第2の特性評価における複数の抗原結合分子は、前記第1の特性評価における複数の抗体から、前記第1の特性評価において前記標的抗原との特性が低いと評価された抗原結合分子のうち少なくとも一種類の抗原結合分子が除かれた、又は、当該抗体の種類が減らされたものである。
【0366】
(C5)本発明の一態様は、上記情報処理システムにおいて、前記第2学習データセットの前記配列情報は、前記第1学習データセットの前記配列情報から、少なくとも一種類の抗原結合分子の配列を表す配列情報が除かれたものである。
【0367】
(C6)本発明の一態様は、上記情報処理システムにおいて、前記学習データセット取得部は、前記評価結果情報として、前記標的抗原と結合した前記抗原結合分子の数を示す出現頻度情報を取得し、前記推定部は、入力された入力配列情報が示す抗原結合分子について、当該抗原結合分子の前記標的抗原における前記出現頻度情報を予測し、前記出力部は、予測された出現頻度情報に応じて、前記候補抗体情報を出力し、前記第2の特性評価における複数の抗原結合分子には、前記第1の特性評価での出現頻度情報に基づいて、前記標的抗原との親和性があると評価された抗原結合分子が含まれる。
【0368】
(C7)本発明の一態様は、上記情報処理システムにおいて、前記学習データセット取得部は、前記特性評価での評価条件を示す評価条件情報、前記抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、前記評価結果情報に応じた学習データセットを取得する。
【0369】
(C8)本発明の一態様は、上記情報処理システムにおいて、一連の特性評価での各特性評価について、前記一連の特性評価での繰り返し回数と、当該繰り返し回数の特性評価での特性に関する基準を記憶する基準記憶部と、繰り返し回数ごとに、前記評価結果情報と前記基準に応じた特性判定情報を生成する分類部と、を備え、前記学習データセット取得部は、前記抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗原結合分子の前記特性判定情報に応じた前記学習データセットを取得する。
【0370】
(C9)本発明の一態様は、上記情報処理システムにおいて、前記抗体の重鎖部分の配列を表す重鎖配列情報、及び当該重鎖部分の前記評価結果情報と、前記抗体の軽鎖部分の配列を表す軽鎖配列情報、及び当該軽鎖部分の前記評価結果情報と、を記憶するデータセット記憶部と、前記重鎖部分の前記評価結果情報と前記軽鎖部分の前記評価結果情報に基づいて、前記重鎖部分と前記軽鎖部分の組み合わせを推定する組み合わせ推定部と、を備え、学習データセット取得部は、前記組み合わせを含む抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗原結合分子の前記特性評価の評価結果情報に応じた学習データセットを取得する。
【0371】
(C10)本発明の一態様は、複数の抗原結合分子と標的抗原の特性評価に関し、シーケンサ装置から前記抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗原結合分子の前記特性評価の評価結果情報に応じた学習データセットを取得する学習データセット取得部と、前記標的抗原と抗原結合分子との特性の度合いとして、当該抗原結合分子と前記標的抗原との特性を推定するための機械学習を行った学習済みの学習器に、入力する入力配列情報を生成する配列情報生成部と、前記配列情報生成部が生成した前記入力配列情報を、前記学習器に入力し、前記学習済みの学習器の演算処理を実行することで、前記前記標的抗原と抗原結合分子との特性の度合いを示す特性評価情報を当該学習器から取得する推定部と、予測された特性評価情報に応じて、前記標的抗原と特性がある抗原結合分子の候補を表す候補抗原結合分子情報を出力する出力部と、を備え、前記配列情報生成部は、前記標的抗原と特性がある前記抗原結合分子の配列情報に基づいて、当該配列情報に含まれるアミノ酸配列のうち1つ以上のアミノ酸を変異させることによって、前記入力配列情報を生成する、情報処理システムである。
【0372】
(C11)本発明の一態様は、複数の抗体と標的抗原の親和性評価に関し、前記抗体の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗体の前記親和性評価の評価結果情報に応じた学習データセットを取得する学習データセット取得ステップと、前記学習データセットに基づいて学習する学習ステップと、前記学習ステップでの学習結果に基づいて、入力された入力配列情報が示す抗体について、当該抗体と前記標的抗原との親和性を表す親和性情報を予測する制御ステップと、予測された親和性情報に応じて、前記標的抗原と親和性がある抗体の候補を表す候補抗体情報を出力する出力ステップと、を含み、前記学習データセット取得ステップで、第1の前記親和性評価に関する第1の前記学習データセットと、第2の前記親和性評価に関する第2の前記学習データセットと、を取得し、前記第2の親和性評価における複数の抗体には、前記第1の親和性評価において、前記標的抗原との親和性があると評価された抗体が含まれる、情報処理方法である。
【0373】
(C12)本発明の一態様は、複数の抗体と標的抗原の親和性評価に関し、前記抗体の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗体の前記親和性評価の評価結果情報に応じた学習データセットを取得する学習データセット取得部と、前記学習データセットに基づいて学習する学習部と、を備え、前記学習データセット取得部は、第1の前記親和性評価に関する第1の前記学習データセットと、第2の前記親和性評価に関する第2の前記学習データセットと、を取得し、前記第2の親和性評価における複数の抗体には、前記第1の親和性評価において、前記標的抗原との親和性があると評価された抗体が含まれる、情報処理装置である。
【0374】
(C13)本発明の一態様は、複数の抗体と標的抗原の親和性評価に関し、前記抗体の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗体の前記親和性評価の評価結果情報に応じた学習データセットを用いた学習結果を記憶部から読み出し、当該学習結果に基づいて、入力された入力配列情報が示す抗体について、当該抗体と前記標的抗原との親和性を表す親和性情報を予測する制御部と、予測された親和性情報に応じて、前記標的抗原と親和性がある抗体の候補を表す候補抗体情報を出力する出力部と、を備え、前記学習データセットには、第1の前記親和性評価に関する第1の前記学習データセットと、第2の前記親和性評価に関する第2の前記学習データセットと、が含まれ、前記第2の親和性評価における複数の抗体には、前記第1の親和性評価において、前記標的抗原との親和性があると評価された抗体が含まれる、情報処理装置である。
【0375】
(C14)本発明の一態様は、1又は複数のコンピュータに、複数の抗体と標的抗原の親和性評価に関し、前記抗体の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗体の前記親和性評価の評価結果情報に応じた学習データセットを取得する学習データセット取得手順、前記学習データセットに基づいて学習する学習手順、を実行させ、前記学習データセット取得手順で、第1の前記親和性評価に関する第1の前記学習データセットと、第2の前記親和性評価に関する第2の前記学習データセットと、を取得し、前記第2の親和性評価における複数の抗体には、前記第1の親和性評価において、前記標的抗原との親和性があると評価された抗体が含まれる、プログラムである。
【0376】
(C15)本発明の一態様は、1又は複数のコンピュータに、複数の抗体と標的抗原の親和性評価に関し、前記抗体の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗体の前記親和性評価の評価結果情報に応じた学習データセットを用いた学習結果を記憶部から読み出し、当該学習結果に基づいて、入力された入力配列情報が示す抗体について、当該抗体と前記標的抗原との親和性を表す親和性情報を予測する制御手順、予測された親和性情報に応じて、前記標的抗原と親和性がある抗体の候補を表す候補抗体情報を出力する出力手順、を実行させ、前記学習データセットには、第1の前記親和性評価に関する第1の前記学習データセットと、第2の前記親和性評価に関する第2の前記学習データセットと、が含まれ、前記第2の親和性評価における複数の抗体には、前記第1の親和性評価において、前記標的抗原との親和性があると評価された抗体が含まれる、プログラムである。
【0377】
(C16)本発明の一態様は、複数の抗体と標的抗原の親和性評価に関し、前記抗体の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗体の前記親和性評価の評価結果情報に応じた学習データセット学習データセットを用いて学習され、入力された入力配列情報が示す抗体について、当該抗体と標的抗原との親和性を表す親和性情報を予測させ、予測された親和性情報に応じて、前記標的抗原と親和性がある抗体の候補を表す候補抗体情報を出力させるよう、コンピュータを機能させるための学習済みモデルである。
【0378】
(C17)本発明の一態様は、複数の抗原結合分子と標的抗原の特性評価に関し、前記抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗原結合分子の前記特性評価の評価結果情報に応じた学習データセットを取得する学習データセット取得ステップと、前記学習データセットに基づいて学習する学習ステップと、前記学習ステップによる学習結果に基づいて、入力された入力配列情報が示す抗原結合分子について、当該抗原結合分子と前記標的抗原との特性評価を表す特性評価情報を予測する制御ステップと、予測された特性評価情報に応じて、前記標的抗原と特性がある抗原結合分子の候補を表す候補抗原結合分子情報を出力する出力ステップと、を備え、前記学習データセット取得ステップは、第1の前記特性評価において前記標的抗原との特性があると評価された抗原結合分子の第2の前記特性評価関する前記学習データセットを取得する、スクリーニング方法である。
【0379】
(C18)本発明の一態様は、複数の抗原結合分子と標的抗原の特性評価に関し、前記抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗原結合分子の前記特性評価の評価結果情報に応じた学習データセットを取得する学習データセット取得部と、前記学習データセットに基づいて学習する学習部と、前記学習部による学習結果に基づいて、入力された入力配列情報が示す抗原結合分子について、当該抗原結合分子と前記標的抗原との特性評価を表す特性評価情報を予測する制御部と、予測された特性評価情報に応じて、前記標的抗原と特性がある抗原結合分子の候補を表す候補抗原結合分子情報を出力する出力部と、を備え、前記学習データセット取得部は、第1の前記特性評価において前記標的抗原との特性があると評価された抗原結合分子の第2の前記特性評価関する前記学習データセットを取得する、情報処理装置において、前記出力部が出力する抗原結合分子である。
【0380】
(D1)本発明の一態様は、標的抗原に結合する抗原結合分子のアミノ酸配列に関する配列情報と、前記抗原結合分子の特性について、第1種類の前記特性を示す第1特性情報と、第2種類の前記特性を示す第2特性情報と、を取得する情報取得部と、前記配列情報と前記第1特性情報と前記第2特性情報に基づいて学習する学習部と、前記学習部が学習する学習結果に基づいて、入力された入力配列情報が示す抗原結合分子に対して、前記第1種類の特性を示す第1特性評価情報と、前記第2種類の特性を示す第2特性評価情報と、を予測する予測部と、前記予測部が予測した前記第1特性評価情報と前記第2特性評価情報に応じて、前記特性がある抗原結合分子の候補を表す候補抗原結合分子情報を出力する出力部と、を備える、情報処理システムである。
【0381】
(D2)本発明の一態様は、上記情報処理システムにおいて、前記学習部は、前記配列情報と前記第1特性情報に基づく学習結果である第1学習済みモデルと、前記配列情報と前記第2特性情報に基づく学習結果である第2学習済みモデルと、を生成し、前記予測部は、前記第1学習済みモデルに基づいて第1特性評価情報を予測し、前記第2学習済みモデルに基づいて第2特性評価情報を予測する。
【0382】
(D3)本発明の一態様は、上記情報処理システムにおいて、前記第1特性情報は、前記標的抗原と前記抗原結合分子との活性を示す活性情報であり、前記第2特性情報は、前記抗原結合分子の物性を示す物性情報である。
【0383】
(D4)本発明の一態様は、上記情報処理システムにおいて、前記第1特性情報と前記第2特性情報は、前記標的抗原と前記抗原結合分子との結合活性を示す結合活性情報、前記標的抗原と前記抗原結合分子との薬理活性を示す薬理活性情報、或いは、前記抗原結合分子の安定性を示す安定性情報のうち、少なくとも2つの情報である。
【0384】
(D5)本発明の一態様は、上記情報処理システムにおいて、前記第1特性情報と前記第2特性情報は、複数種類の前記結合活性情報、複数種類の前記薬理活性情報、又は、複数種類の前記安定性情報である。
【0385】
(D6)本発明の一態様は、上記情報処理システムにおいて、前記アミノ酸配列の少なくとも一部が互いに異なる第1配列情報と第2配列情報に基づいて、前記第1配列情報について、配列上の位置を選択し、選択した前記配列上の位置のアミノ酸を変異させることで、前記入力配列情報を生成する配列情報生成部を更に備える。
【0386】
(D7)本発明の一態様は、上記情報処理システムにおいて、配列情報生成部は、予め定めた個数以下の前記配列上の位置を選択し、選択した前記配列上の位置のアミノ酸を変異させる。
【0387】
(D8)本発明の一態様は、上記情報処理システムにおいて、前記配列情報生成部は、生成した前記入力配列情報について、選択した前記配列上の位置とは異なる位置について、当該位置のアミノ酸を変異させることで、さらなる前記入力配列情報を生成する。
【0388】
(D9)本発明の一態様は、上記情報処理システムにおいて、前記第1配列情報は、複数の配列情報であり、前記配列情報生成部は、生成した前記入力配列情報と前記第1配列情報に基づいて、前記第1配列情報について、配列上の位置を選択し、選択した前記配列上の位置のアミノ酸を変異させることで、さらなる前記入力配列情報を生成する。
【0389】
(D10)本発明の一態様は、上記情報処理システムにおいて、前記配列情報は、前記抗原結合分子のアミノ酸配列を表す文字列情報、前記抗原結合分子のアミノ酸配列に含まれるアミノ酸の物性量を示す物性量情報、及び、前記抗原結合分子のアミノ酸配列に基づく立体構造の特性を示す立体構造情報のうち、少なくとも1つを含む、
【0390】
(D11)本発明の一態様は、標的抗原に結合する抗原結合分子のアミノ酸配列に関する配列情報と、前記抗原結合分子の特性を示す特性情報と、を取得する情報取得部と、前記特性の種類ごとに、前記配列情報と前記特性情報とに基づいて学習する学習部と、前記学習部が学習する学習結果に基づいて、入力された入力配列情報が示す抗原結合分子について、前記特性の種類ごとの、当該抗原結合分子の特性評価を表す特性評価情報を予測する予測部と、前記予測部が予測した特性評価情報であって、前記特性の種類ごとの複数の前記特性評価情報に応じて、前記特性がある抗原結合分子の候補を表す候補抗原結合分子情報を出力する出力部と、を備える、情報処理装置である。
【0391】
(D12)本発明の一態様は、標的抗原に結合する抗原結合分子のアミノ酸配列に関する配列情報と、前記抗原結合分子の特性を示す特性情報と、を取得する情報取得部と、前記特性の種類ごとに、前記配列情報と前記特性情報とに基づいて学習する学習部と、を備える、情報処理装置である。
【0392】
(D13)本発明の一態様は、標的抗原に結合する抗原結合分子のアミノ酸配列に関する配列情報と、前記抗原結合分子の特性を示す特性情報と、に基づいて、前記特性の種類ごとに学習した学習結果を読み出し、前記学習部が学習する学習結果に基づいて、入力された入力配列情報が示す抗原結合分子について、前記特性の種類ごとの、当該抗原結合分子の特性評価を表す特性評価情報を予測する予測部と、前記予測部が予測した特性評価情報であって、前記特性の種類ごとの複数の前記特性評価情報に応じて、前記特性がある抗原結合分子の候補を表す候補抗原結合分子情報を出力する出力部と、を備える、情報処理装置である。
【0393】
(D14)本発明の一態様は、情報処理部が、標的抗原に結合する抗原結合分子のアミノ酸配列に関する配列情報と、前記抗原結合分子の特性を示す特性情報と、を取得する情報取得ステップと、学習部が、前記特性の種類ごとに、前記配列情報と前記特性情報とに基づいて学習する学習ステップと、予測部が、前記学習ステップで学習する学習結果に基づいて、入力された入力配列情報が示す抗原結合分子について、前記特性の種類ごとの、当該抗原結合分子の特性評価を表す特性評価情報を予測する予測ステップと、出力部が、前記予測ステップで予測した特性評価情報であって、前記特性の種類ごとの複数の前記特性評価情報に応じて、前記特性がある抗原結合分子の候補を表す候補抗原結合分子情報を出力する出力ステップと、を含む、情報処理方法である。
【0394】
(D15)本発明の一態様は、コンピュータに、標的抗原に結合する抗原結合分子のアミノ酸配列に関する配列情報と、前記抗原結合分子の特性を示す特性情報と、を取得する情報取得ステップと、前記特性の種類ごとに、前記配列情報と前記特性情報とに基づいて学習する学習ステップと、前記学習ステップで学習する学習結果に基づいて、入力された入力配列情報が示す抗原結合分子について、前記特性の種類ごとの、当該抗原結合分子の特性評価を表す特性評価情報を予測する予測ステップと、前記予測ステップで予測した特性評価情報であって、前記特性の種類ごとの複数の前記特性評価情報に応じて、前記特性がある抗原結合分子の候補を表す候補抗原結合分子情報を出力する出力ステップと、を実行させるための、プログラムである。
【0395】
(D16)本発明の一態様は、標的抗原に結合する抗原結合分子のアミノ酸配列に関する配列情報と、前記抗原結合分子の特性を示す特性情報とに応じて、前記特性の種類ごとに学習され、入力された入力配列情報が示す抗原結合分子について、前記特性の種類ごとの、当該抗原結合分子の特性評価を表す特性評価情報を出力させるよう、コンピュータを機能させるための学習済みモデルである。
【0396】
(E1)本発明の一態様は、上記情報処理システムにおいて、前記抗原結合分子は、タンパク質である。
【0397】
(E2)本発明の一態様は、上記情報処理システムにおいて、前記抗原結合分子は、抗体である。
【0398】
(E3)本発明の一態様は、上記情報処理システムにおいて、前記抗原結合分子は、ペプチドである。
【0399】
また、上述した各実施形態における情報処理システム1(1a~1d)の一部、例えば、処理部33(33a~33d)などをコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、情報処理システム1(1a~1d)に内蔵されたコンピュータシステムであって、OS(Operating System)や周辺機器等のハードウェアを含むものとする。
【0400】
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【0401】
また、上述した実施形態における情報処理システム1(1a~1d)の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。処理部33(33a~33d)の各機能部は個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
【0402】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0403】
1、1a、1b、1c、1d・・・情報処理システム
10、10c・・・ユーザ端末、11・・・通信部、12・・・入力部、13・・・記憶部、14、14c・・・処理部、15・・・表示部
20・・・次世代シーケンサ、21・・・通信部、22・・・入力部、23・・・記憶部、24・・・塩基配列測定部、25・・・制御部、26・・・表示部
30、30a、30b、30c、30d・・・サーバ、31、31c・・・通信部、32、32a、32c、32d・・・記憶部、321・・・実験情報記憶部、322、322a・・・データセット記憶部、323、323a・・・分類基準記憶部、324、324c、324d・・・学習データセット記憶部、325・・・注目位置情報記憶部、326、326b、326c、326d・・・学習結果記憶部、327、327c・・・変異情報記憶部、328、328c・・・配列記憶部、329、329c・・・特性評価情報記憶部、33、33b、33c・・・処理部、331、331c・・・情報取得部、332・・・推定部、333・・・分類部、334、334b、334c、334d・・・学習部、PA、PAc・・・予測対象配列生成部、PA1、PA1b、PAc、PAd・・・配列選択部、PA2、PA2b、PA2c、PA2d・・・配列学習部、PA3、PA3b、PA3c、PA3d・・・仮想配列生成部、335、335c、335d・・・制御部、336、336c・・・出力処理部、
901・・・CPU、902・・・記憶媒体インターフェイス部、903・・・記憶媒体、904・・・入力部、905・・・出力部、906・・・ROM、907・・・RAM、908・・・補助記憶部、909・・・インターフェイス部
【産業上の利用可能性】
【0404】
本発明は、例えば、創薬、物質の予測、抗体の予測、抗原の予測、配列の予測、又は特性予測等において、利用することができる。