特許7516368 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 中外製薬株式会社の特許一覧

特許7516368情報処理システム、情報処理方法、プログラム、及び、抗原結合分子或いはタンパク質を製造する方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43A
43B
43C
43D
43E
43F
43G
43H
43I
44A
44B
44C
44D
44E
44F
44G
44H
44I
45

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-07-05

(45)【発行日】2024-07-16

(54)【発明の名称】情報処理システム、情報処理方法、プログラム、及び、抗原結合分子或いはタンパク質を製造する方法

(51)【国際特許分類】

G16B 40/20 20190101AFI20240708BHJP

【ＦＩ】

G16B40/20

【請求項の数】 23

(21)【出願番号】P 2021524948

(86)(22)【出願日】2020-06-08

(86)【国際出願番号】 JP2020022576

(87)【国際公開番号】W WO2020246617

(87)【国際公開日】2020-12-10

【審査請求日】2023-06-07

(31)【優先権主張番号】P 2019106814

(32)【優先日】2019-06-07

(33)【優先権主張国・地域又は機関】JP

(73)【特許権者】

【識別番号】000003311

【氏名又は名称】中外製薬株式会社

(74)【代理人】

【識別番号】100088155

【弁理士】

【氏名又は名称】長谷川芳樹

(74)【代理人】

【識別番号】100128381

【弁理士】

【氏名又は名称】清水義憲

(74)【代理人】

【識別番号】100144440

【弁理士】

【氏名又は名称】保坂一之

(72)【発明者】

【氏名】寺本礼仁

(72)【発明者】

【氏名】目次正一

(72)【発明者】

【氏名】角崎太郎

(72)【発明者】

【氏名】坂晃一郎

(72)【発明者】

【氏名】古賀光

(72)【発明者】

【氏名】三瓶全次郎

【審査官】鈴木和樹

(56)【参考文献】

【文献】米国特許出願公開第２０１９／００６５６７７（ＵＳ，Ａ１）

【文献】特表２００５－５２６５１８（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１１／０３１２５０５（ＵＳ，Ａ１）

【文献】国際公開第２０１８／２２７１６７（ＷＯ，Ａ１）

【文献】国際公開第２００６／００４１８２（ＷＯ，Ａ１）

【文献】特開２０２０－０７７２０６（ＪＰ，Ａ）

【文献】Derek M Mason et al.，Deep learning enables therapeutic antibody optimization in mammalian cells by deciphering high-dimensional protein sequence space，［online］，2019年06月02日，［令和６年３月１日検索］，＜URL：https://www.biorxiv.org/content/10.1101/617860v3＞，DOI：https://doi.org/10.1101/617860

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１６Ｂ５／００－９９／００

Ｇ０６Ｎ３／０４

２０／００

(57)【特許請求の範囲】

【請求項1】

複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む第１配列を表す第１配列情報に基づく機械学習により生成された第１学習済みモデルに基づいて、前記第１配列情報が表す第１配列を構成する構成単位の少なくとも１つを変異させた少なくとも一つの仮想配列情報を生成する配列生成部と、
前記仮想配列情報を、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む第２配列を表す第２配列情報、及び、当該第２配列が表す抗原結合分子或いはタンパク質についての特性評価の結果に基づく機械学習によって得られた第２学習済みモデルに入力し、前記第２学習済みモデルの演算処理を実行することで、入力した仮想配列情報が表す配列の抗原結合分子或いはタンパク質についての特性評価の予測値を推定する推定部と、
を備え、
前記第１学習済みモデルは、抗原結合分子或いはタンパク質の特性評価の複数の特性から選択された１以上の特性が当該特性の選択条件を充足する前記抗原結合分子或いはタンパク質についての前記第１配列情報に基づいて、当該第１配列情報が表す第１配列の特徴を学習したものである、
情報処理システム。

【請求項2】

前記推定部により推定された予測値が高い順に優先して前記仮想配列情報を出力する出力部
を備える請求項１に記載の情報処理システム。

【請求項3】

前記配列生成部は複数の仮想配列情報を出力し、
前記出力部は、前記第２学習済みモデルに入力された複数の前記仮想配列情報のうち、前記予測値が高い順に優先して少なくとも１つの仮想配列情報を出力する、
請求項２に記載の情報処理システム。

【請求項4】

前記特性評価の結果は、親和性評価の評価結果情報を含む、
請求項１から３のいずれか一項に記載の情報処理システム。

【請求項5】

前記特性評価の結果は、次世代シーケンサで解析された、異なる複数の抗原結合分子の各々の配列の一部或いは全部を含む第２配列の個数に基づく出現頻度と、前記特性評価間の当該出現頻度の変化率とのいずれかを含む、
請求項１から４のいずれか一項に記載の情報処理システム。

【請求項6】

前記予測値は、入力された仮想配列情報に対して、標的抗原との親和性を表す尤度に基づく、
請求項５に記載の情報処理システム。

【請求項7】

前記抗原結合分子の前記第１配列情報は、次世代シーケンサで解析された配列の個数に基づく出現頻度が所定の閾値より高い抗体を示す、
請求項１から６のいずれか一項に記載の情報処理システム。

【請求項8】

前記第２配列情報により示される抗原結合分子が２以上の異なる配列を含む抗原結合分子であって、次世代シーケンサで解析された、当該抗原結合分子を構成する異なる複数の配列のそれぞれの個数に基づく出現頻度に基づいて、前記複数の配列を組み合わせた抗原結合分子を推定する配列推定部
を備える請求項１から７のいずれか一項に記載の情報処理システム。

【請求項9】

前記特性評価は、前記抗原結合分子の親和性評価、物性評価、薬理活性評価、安全性評価、動態評価、又は、製造適性評価の少なくとも１つである、
請求項１から８のいずれか一項に記載の情報処理システム。

【請求項10】

予め設定された配列上の部位であって１以上の前記構成単位から構成される部位について、少なくとも１つの前記構成単位を変更することで、前記仮想配列情報を生成する、
請求項１から９のいずれか一項に記載の情報処理システム。

【請求項11】

複数の前記部位は、抗体の重鎖可変領域、軽鎖可変領域又は定常領域のいずれかの配列中に含まれる、
請求項１０に記載の情報処理システム。

【請求項12】

前記第１学習済みモデルを生成する配列学習部および前記第２学習済みモデルを生成する特性予測学習部を備える
請求項１から９のいずれか一項に記載の情報処理システム。

【請求項13】

前記第１配列情報は、当該第１配列情報が表す第１配列の抗原結合分子或いはタンパク質についての特性評価の結果に応じて選択された配列情報である、
請求項１から１２のいずれか一項に記載の情報処理システム。

【請求項14】

前記配列生成部は、前記第１学習済みモデルに基づいて生成された配列を表す配列情報、及び、当該配列が表す抗原結合分子或いはタンパク質についての特性評価の結果に基づく機械学習によって、新たな仮想配列情報を生成し、
前記推定部は、前記新たな仮想配列情報を前記第２学習済みモデルに入力し、入力した新たな仮想配列情報が表す配列の抗原結合分子或いはタンパク質についての特性評価の予測値を推定する
請求項１から１３のいずれか一項に記載の情報処理システム。

【請求項15】

前記配列学習部は、深層学習モデル又は確率モデルを用いて前記機械学習を行う、
請求項１２に記載の情報処理システム。

【請求項16】

前記配列学習部は、深層学習モデルを用いて前記機械学習を行い、
前記深層学習モデルとして、Ｌｏｎｇｓｈｏｒｔ―ｔｅｒｍｍｅｍｏｒｙ（ＬＳＴＭ）、再帰型ニューラルネットワーク（ＲＮＮ）、ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ（ＧＲＵ）、ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ（ＧＡＮ）、又は、ＶａｒｉａｔｉｏｎａｌＡｕｔｏｅｎｃｏｄｅｒ（ＶＡＥ）のいずれかを用いて前記機械学習を行う、
請求項１５に記載の情報処理システム。

【請求項17】

前記配列学習部は、確率モデルを用いて前記機械学習を行い、前記確率モデルとして、隠れマルコフモデル（ＨＭＭ）、又はマルコフモデル（ＭＭ）のいずれかを用いて前記機械学習を行う、
請求項１５に記載の情報処理システム。

【請求項18】

前記配列学習部は、文字列、数値ベクトル、又は、配列を構成する構成単位の物性量のいずれかで表された前記第１配列情報に基づいて、前記機械学習を行う、
請求項１２又は請求項１５から請求項１７のいずれか一項に記載の情報処理システム。

【請求項19】

情報処理システムにおける情報処理方法であって、
複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む第１配列を表す第１配列情報に基づく機械学習により生成された第１学習済みモデルに基づいて、前記第１配列情報が表す第１配列を構成する構成単位の少なくとも１つを変異させた少なくとも一つの仮想配列情報を生成する配列生成過程と、
前記仮想配列情報を、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む第２配列を表す第２配列情報、及び、当該第２配列が表す抗原結合分子或いはタンパク質についての特性評価の結果に基づく機械学習によって得られた第２学習済みモデルに入力し、前記第２学習済みモデルの演算処理を実行することで、入力した仮想配列情報が表す配列の抗原結合分子或いはタンパク質についての特性評価の予測値を推定する推定過程と、
を有し、
前記第１学習済みモデルは、抗原結合分子或いはタンパク質の特性評価の複数の特性から選択された１以上の特性が当該特性の選択条件を充足する前記抗原結合分子或いはタンパク質についての前記第１配列情報に基づいて、当該第１配列情報が表す第１配列の特徴を学習したものである、
情報処理方法。

【請求項20】

前記推定過程により推定された予測値が高い順に優先して前記仮想配列情報を出力する出力過程を有する、
請求項１９に記載の情報処理方法。

【請求項21】

前記配列生成過程で、複数の仮想配列情報を出力し、
前記出力過程で、前記第２学習済みモデルに入力された複数の前記仮想配列情報のうち、前記予測値が高い順に優先して少なくとも１つの仮想配列情報を出力する、
請求項２０に記載の情報処理方法。

【請求項22】

情報処理システムのコンピュータに、
複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む第１配列を表す第１配列情報に基づく機械学習により生成された第１学習済みモデルに基づいて、前記第１配列情報が表す第１配列を構成する構成単位の少なくとも１つを変異させた少なくとも一つの仮想配列情報を生成する配列生成手順と、
前記仮想配列情報を、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む第２配列を表す第２配列情報、及び、当該第２配列が表す抗原結合分子或いはタンパク質についての特性評価の結果に基づく機械学習によって得られた第２学習済みモデルに入力し、前記第２学習済みモデルの演算処理を実行することで、入力した仮想配列情報が表す配列の抗原結合分子或いはタンパク質についての特性評価の予測値を推定する推定手順と、
を実行させ、
前記第１学習済みモデルは、抗原結合分子或いはタンパク質の特性評価の複数の特性から選択された１以上の特性が当該特性の選択条件を充足する前記抗原結合分子或いはタンパク質についての前記第１配列情報に基づいて、当該第１配列情報が表す第１配列の特徴を学習したものである、
プログラム。

【請求項23】

請求項２２に記載のプログラムであって、
さらに、前記第１配列情報に基づいて機械学習を行うことで前記第１学習済みモデルを生成する配列学習手順
を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理システム、情報処理方法、プログラム、及び、抗原結合分子或いはタンパク質を製造する方法に関する。
本願は、２０１９年６月７日に日本に出願された特願２０１９－１０６８１４号について優先権を主張し、その内容をここに援用する。

【背景技術】

【0002】

近年、医薬分野において、機械学習の情報処理技術が活用されている。
例えば、特許文献１に記載の技術では、機械学習エンジンは、様々な抗体を示す親和性情報、及び抗原に対する抗体の親和性を用いて訓練される。

【先行技術文献】

【特許文献】

【0003】

【文献】国際公開第２０１８／１３２７５２号

【発明の概要】

【発明が解決しようとする課題】

【0004】

ところで、医薬分野の機械学習では、訓練後の学習済みモデルを用いて、所望の抗原結合分子の配列等の情報を予測し、その情報を提供することが求められている。

【0005】

本発明は、上記の課題を解決すべくなされたもので、その目的は、所望の抗原結合分子或いはタンパク質の情報を提供することができる情報処理システム、情報処理方法、プログラム、及び、抗原結合分子或いはタンパク質を製造する方法を提供することにある。

【課題を解決するための手段】

【0006】

本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、複数の抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習を行うことで、前記配列の特徴を学習した学習済みモデルを生成する配列学習部と、前記学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも１つを変異させた仮想配列情報を生成する配列生成部と、を備える情報処理システムである。

【0007】

また、本発明の一態様は、複数のタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習を行うことで、前記配列の特徴を学習した学習済みモデルを生成する配列学習部と、前記学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも１つを変異させた仮想配列情報を生成する配列生成部と、を備える情報処理システムである。

【0008】

また、本発明の一態様は、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該配列が表す抗原結合分子或いはタンパク質についての特性評価の結果に基づいて機械学習を行うことで、第２学習済みモデルを生成する学習部を備え、上記の学習済みモデルである第１学習済みモデルに基づいて生成された仮想配列情報を第２学習済みモデルに入力し、前記第２学習済みモデルの演算処理を実行することで、入力した仮想配列情報が表す配列の抗原結合分子或いはタンパク質についての特性評価の予測値を推定する推定部を備える情報処理システムである。

【0009】

また、本発明の一態様は、情報処理システムにおける情報処理方法であって、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習を行うことで、前記配列情報の特徴を学習した学習済みモデルを生成する配列学習過程と、前記学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも１つを変異させた仮想配列情報を生成する配列生成過程と、を有する情報処理方法である。

【0010】

また、本発明の一態様は、情報処理システムのコンピュータに、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習を行うことで学習済みモデルを生成する配列学習手順、前記学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも１つを変異させた仮想配列情報を生成する配列生成手順、を実行させるためのプログラムである。

【0011】

また、本発明の一態様は、上記情報処理システムを用いて、特性評価の予測値を推定された仮想配列が表す抗原結合分子或いはタンパク質を製造する方法である。

【発明の効果】

【0012】

本発明によれば、所望の抗原結合分子或いはタンパク質の情報を提供することができる。

【図面の簡単な説明】

【0013】

【図1】第１実施形態に係る情報処理システムの一例を示す概要図である。

【図2】本実施形態に係る一連のパニングの一例を説明するための説明図である。

【図3】本実施形態に係るユーザ端末の一例を示すブロック図である。

【図4】本実施形態に係る画面フローの一例を示す図である。

【図5】本実施形態に係る次世代シーケンサの一例を示すブロック図である。

【図6】本実施形態に係るサーバの一例を示すブロック図である。

【図7】本実施形態に係る実験情報の一例を示す図である。

【図8】本実施形態に係る実験属性情報の一例を示す図である。

【図9】本実施形態に係るデータセットの一例を示す図である。

【図10】本実施形態に係るデータセットの別の一例を示す図である。

【図11】本実施形態に係る学習データセットの一例を示す図である。

【図12】本実施形態に係る予測対象配列情報の一例を示す図である。

【図13】本実施形態に係る特性評価情報の一例を示す図である。

【図14】本実施形態に係る学習処理の一例を説明する説明図である。

【図15】本実施形態に係るＬＳＴＭの構造を表す概念図である。

【図16】本実施形態に係る仮想配列生成部の動作の一例を示すフローチャートである。

【図17】本実施形態に係るサーバの動作の一例を示すフローチャートである。

【図18】本実施形態に係るサーバの動作の別の一例を示すフローチャートである。

【図19】第２実施形態に係るサーバの一例を示すブロック図である。

【図20】本実施形態に係るデータセットの一例を示す図である。

【図21】本実施形態に係るデータセットの別の一例を示す図である。

【図22】第３実施形態に係るサーバの一例を示すブロック図である。

【図23】本実施形態に係る学習モデルの概要を示す図である。

【図24】第４実施形態に係るユーザ端末の一例を示すブロック図である。

【図25】本実施形態に係るサーバの一例を示すブロック図である。

【図26】本実施形態に係る配列情報の一例を示す図である。

【図27】本実施形態に係る特性情報の一例を示す図である。

【図28】本実施形態に係るセンサグラムの一例を示す図である。

【図29】本実施形態に係る予測対象配列情報の一例を示す図である。

【図30】本実施形態に係る評価結果情報の一例を示す図である。

【図31】本実施形態に係る学習処理の一例を説明する説明図である。

【図32】本実施形態に係る評価処理の一例を説明する説明図である。

【図33】本実施形態に係るサーバの動作の一例を示すフローチャートである。

【図34】本実施形態に係るサーバの動作の別の一例を示すフローチャートである。

【図35】第５実施形態に係るサーバの一例を示すブロック図である。

【図36】実施例に係る情報処理システムの動作の一例を示すフローチャートである。

【図37】実施形態に係るサーバのハードウェア構成の一例を示すブロック図である。

【図38】第４、第５実施形態に係る構造解析情報の一例を示す図である。

【図39】実施例に係る配列と特性の関係を示す図である。

【図40】実施例に係る配列の特性の予測精度を示す図である。

【図41】実施例に係る訓練配列と仮想配列との類似性を示す図である。

【図42】実施例に係る訓練配列と仮想配列との類似性を示す別の図である。

【図43A】実施例に係る配列の特性の予測値と実測値の相関を示す図である。

【図43B】実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。

【図43C】実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。

【図43D】実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。

【図43E】実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。

【図43F】実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。

【図43G】実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。

【図43H】実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。

【図43I】実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。

【図44A】他実施例に係る配列の特性の予測値と実測値の相関を示す図である。

【図44B】他実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。

【図44C】他実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。

【図44D】他実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。

【図44E】他実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。

【図44F】他実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。

【図44G】他実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。

【図44H】他実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。

【図44I】他実施例に係る配列の別の特性の予測値と実測値の相関を示す図である。

【図45】実施例に係る配列の特性が向上していることを説明するための図である。

【発明を実施するための形態】

【0014】

＜用語等＞
以下の定義および詳細な説明は、本明細書において説明する本開示の理解を容易にするために提供される。

【0015】

・アミノ酸
本明細書において、たとえば、Ala/A、Leu/L、Arg/R、Lys/K、Asn/N、Met/M、Asp/D、Phe/F、Cys/C、Pro/P、Gln/Q、Ser/S、Glu/E、Thr/T、Gly/G、Trp/W、His/H、Tyr/Y、Ile/I、Val/Vと表されるように、アミノ酸は1文字コードまたは3文字コード、またはその両方で表記されている。

【0016】

・アミノ酸の改変
抗原結合分子のアミノ酸配列中のアミノ酸の改変のためには、部位特異的変異誘発法（Kunkelら（Proc. Natl. Acad. Sci. USA (1985) 82, 488-492））やOverlap extension PCR等の公知の方法が適宜採用され得る。また、天然のアミノ酸以外のアミノ酸に置換するアミノ酸の改変方法として、複数の公知の方法もまた採用され得る（Annu. Rev. Biophys. Biomol. Struct. (2006) 35, 225-249、Proc. Natl. Acad. Sci. U.S.A. (2003) 100 (11), 6353-6357）。例えば、終止コドンの１つであるUAGコドン（アンバーコドン）の相補的アンバーサプレッサーtRNAに非天然アミノ酸が結合されたtRNAが含まれる無細胞翻訳系システム（Clover Direct（Protein Express））等も好適に用いられる。

【0017】

・抗原
本明細書において「抗原」は抗原結合ドメインが結合するエピトープを含む限りその構造は特定の構造に限定されない。ある態様において、抗原は４アミノ酸以上のペプチド、またはポリペプチド、またはタンパク質である。
上記の抗原の例示には、細胞膜に発現する膜型分子、および細胞から細胞外に分泌される可溶型分子が含まれる。

【0018】

・抗原結合ドメイン
本明細書において、「抗原結合ドメイン」は目的とする抗原に結合するかぎりどのような構造のドメインも使用され得る。そのようなドメインの例として、例えば、抗体の重鎖および軽鎖の可変領域、生体内に存在する細胞膜タンパクであるAvimerに含まれる35アミノ酸程度のAドメインと呼ばれるモジュール（国際公開WO2004/044011、WO2005/040229）、細胞膜に発現する糖タンパク質であるfibronectin中のタンパク質に結合するドメインである10Fn3ドメインを含むAdnectin（国際公開WO2002/032925）、ProteinAの58アミノ酸からなる3つのヘリックスの束（bundle）を構成するIgG結合ドメインをscaffoldとするAffibody（国際公開WO1995/001937）、33アミノ酸残基を含むターンと2つの逆並行ヘリックスおよびループのサブユニットが繰り返し積み重なった構造を有するアンキリン反復（ankyrin repeat：AR）の分子表面に露出する領域であるDARPins（Designed Ankyrin Repeat proteins）（国際公開WO2002/020565）、好中球ゲラチナーゼ結合リポカリン（neutrophil gelatinase-associated lipocalin（NGAL））等のリポカリン分子において高度に保存された8つの逆並行ストランドが中央方向にねじれたバレル構造の片側を支える4つのループ領域であるAnticalin等（国際公開WO2003/029462）、ヤツメウナギ、ヌタウナギなど無顎類の獲得免疫システムとしてイムノグロブリンの構造を有さない可変性リンパ球受容体（variable lymphocyte receptor（VLR））のロイシン残基に富んだリピート（leucine-rich-repeat（LRR））モジュールが繰り返し積み重なった馬てい形の構造の内部の並行型シート構造のくぼんだ領域（国際公開WO2008/016854）が好適に挙げられる。
本開示の抗原結合ドメインの好適な例として、抗体の重鎖および軽鎖の可変領域を含む抗原結合ドメインが挙げられる。こうした抗原結合ドメインの例としては、「scFv（single chain Fv）」、「単鎖抗体（single chain antibody）」、「Fv」、「scFv2（single chain Fv 2）」、「Fab」または「F(ab')2」等が好適に挙げられる。

【0019】

・抗原結合分子
本開示において、抗原結合ドメインを含む抗原結合分子は最も広義な意味として使用されており、具体的には、それらが抗原結合ドメインを含む限り、様々な分子型が含まれる。抗原結合分子は、抗原結合ドメインのみからなる分子であっても良く、抗原結合ドメイン及び他のドメインを含む分子であっても良い。例えば、抗原結合分子が抗原結合ドメインとFc領域が結合した分子で有る場合、例として、完全抗体や抗体断片が挙げられる。抗体には、単一のモノクローナル抗体（アゴニストおよびアンタゴニスト抗体を含む）、ヒト抗体、ヒト化抗体、キメラ抗体等が含まれ得る。既存の安定なα/βバレルタンパク質構造等の立体構造が scaffold（土台）として用いられ、その一部分の構造のみが抗原結合ドメインの構築のためにライブラリ化されたスキャフォールド分子も、本開示の抗原結合分子に含まれ得る。

【0020】

・抗体
本明細書において、抗体とは、天然のものであるかまたは部分的もしくは完全合成により製造された免疫グロブリンの全長もしくは免疫グロブリンの部分配列を含む抗原結合分子をいう。抗体はそれが天然に存在する血漿や血清等の天然資源や抗体を産生するハイブリドーマ細胞の培養上清から単離され得るし、または遺伝子組換え等の手法を用いることによって部分的にもしくは完全に合成され得る。抗体の例としては免疫グロブリンのアイソタイプおよびそれらのアイソタイプのサブクラスが好適に挙げられる。ヒトの免疫グロブリンとして、IgG1、IgG2、IgG3、IgG4、IgA1、IgA2、IgD、IgE、IgMの9種類のクラス（アイソタイプ）が知られている。本開示の抗体には、これらのアイソタイプのうちIgG1、IgG2、IgG3、IgG4が含まれ得る。ヒトIgG1、ヒトIgG2、ヒトIgG3、ヒトIgG4定常領域としては、遺伝子多型による複数のアロタイプ配列がSequences of proteins of immunological interest, NIH Publication No.91-3242 に記載されているが、本開示においてはそのいずれであっても良い。特にヒトIgG1の配列としては、EUナンバリングで表される356-358位のアミノ酸配列がDELであってもEEMであってもよい。また、ヒトIgκ(Kappa)定常領域とヒトIgλ (Lambda)定常領域としては、遺伝子多型による複数のアロタイプ配列がSequences of proteins of immunological interest, NIH Publication No.91-3242に記載されているが、本開示においてはそのいずれであっても良い。

【0021】

・EUナンバリングおよびKabatナンバリング
本開示で使用されている方法によると、抗体のCDRとFRに割り当てられるアミノ酸位置はKabatにしたがって規定される（Sequences of Proteins of Immunological Interest（National Institute of Health, Bethesda, Md., 1987年および1991年）。本明細書において、抗原結合分子が抗体または抗原結合断片である場合、可変領域のアミノ酸はKabatナンバリングにしたがい、定常領域のアミノ酸はKabatのアミノ酸位置に準じたEUナンバリングにしたがって表される。

【0022】

・可変領域
用語「可変領域」または「可変ドメイン」は、抗体を抗原へと結合させることに関与する、抗体の重鎖または軽鎖のドメインのことをいう。天然型抗体の重鎖および軽鎖の可変ドメイン（それぞれVHおよびVL）は、通常、各ドメインが4つの保存されたフレームワーク領域 (FR) および3つの超可変領域 (HVR) を含む、類似の構造を有する。（例えば、Kindt et al. Kuby Immunology, 6th ed., W.H. Freeman and Co., page 91 (2007) 参照。）1つのVHまたはVLドメインで、抗原結合特異性を与えるに充分であろう。さらに、ある特定の抗原に結合する抗体は、当該抗原に結合する抗体からのVHまたはVLドメインを使ってそれぞれVLまたはVHドメインの相補的ライブラリをスクリーニングして、単離されてもよい。例えばPortolano et al., J. Immunol. 150:880-887 (1993)； Clarkson et al., Nature 352:624-628 (1991) 参照。

【0023】

・超可変領域
本明細書で用いられる用語「超可変領域」または「HVR」は、配列において超可変であり（「相補性決定領域」または「CDR」(complementarity determining region)）、および／または構造的に定まったループ（「超可変ループ」）を形成し、および／または抗原接触残基（「抗原接触」）を含む、抗体の可変ドメインの各領域のことをいう。通常、抗体は6つのHVRを含む：VHに3つ（H1、H2、H3）、およびVLに3つ（L1、L2、L3）である。本明細書での例示的なHVRは、以下のものを含む：
(a) アミノ酸残基26-32 (L1)、50-52 (L2)、91-96 (L3)、26-32 (H1)、53-55 (H2)、および96-101 (H3)のところで生じる超可変ループ (Chothia and Lesk, J. Mol. Biol. 196:901-917 (1987))；
(b) アミノ酸残基24-34 (L1)、50-56 (L2)、89-97 (L3)、31-35b (H1)、50-65 (H2)、および95-102 (H3)のところで生じるCDR (Kabat et al., Sequences of Proteins of Immunological Interest, 5th Ed. Public Health Service, National Institutes of Health, Bethesda, MD (1991))；
(c) アミノ酸残基27c-36 (L1)、46-55 (L2)、89-96 (L3)、30-35b (H1)、47-58 (H2)、および93-101 (H3) のところで生じる抗原接触 (MacCallum et al. J. Mol. Biol. 262: 732-745 (1996))；ならびに、
(d) HVRアミノ酸残基46-56 (L2)、47-56 (L2)、48-56 (L2)、49-56 (L2)、26-35 (H1)、26-35b (H1)、49-65 (H2)、93-102 (H3)、および94-102 (H3)を含む、(a)、(b)、および／または(c)の組合せ。
別段示さない限り、HVR残基および可変ドメイン中の他の残基（例えば、FR残基）は、本明細書では上記のKabatらにしたがって番号付けされる。

【0024】

・フレームワーク
「フレームワーク」または「FR」は、超可変領域 (HVR) 残基以外の、可変ドメイン残基のことをいう。可変ドメインのFRは、通常4つのFRドメイン：FR1、FR2、FR3、およびFR4からなる。それに応じて、HVRおよびFRの配列は、通常次の順序でVH（またはVL）に現れる：FR1-H1(L1)-FR2-H2(L2)-FR3-H3(L3)-FR4。

【0025】

・Fc領域
Fc領域は、抗体重鎖の定常領域に由来するアミノ酸配列を含む。Fc領域は、EUナンバリングで表されるおよそ216位のアミノ酸における、パパイン切断部位のヒンジ領域のN末端から、当該ヒンジ、CH2およびCH3ドメインを含める抗体の重鎖定常領域の部分である。Fc領域は、ヒトIgG1から取得され得るが、IgGの特定のサブクラスに限定されるものでもない。当該Fc領域の好適な例として、後述されるようにpH酸性域におけるFcRnに対する結合活性を有するFc領域が挙げられる。また当該Fc領域の好適な例として、後述されるようにFcγレセプターに対する結合活性を有するFc領域が挙げられる。そのようなFc領域の非限定な一態様として、ヒトIgG1（配列番号：XX）、IgG2（配列番号：XX）、IgG3（配列番号：XX）、またはIgG4（配列番号：XX）で表されるFc領域が例示される。

【0026】

・低分子化抗体
本開示で使用される抗体は、抗体の全長分子に限られず、低分子化抗体またはその修飾物であってもよい。低分子化抗体は、全長抗体（例えば、whole IgG等のwhole antibody）の一部分が欠損している抗体断片を含み、抗原に対する結合活性を有していれば特に限定されない。本開示の低分子化抗体は、全長抗体の一部分であれば特に限定されないが、重鎖可変領域（VH）又は/及び軽鎖可変領域（VL）を含んでいることが好ましい。VHまたはVLのアミノ酸配列は、置換、欠失、付加及び/又は挿入がされていてもよい。さらに抗原に対する結合活性を有する限り、VH又は/及びVLの一部を欠損させてもよい。又、可変領域はキメラ化やヒト化されていてもよい。抗体断片の具体例としては、例えば、Fab、Fab'、F(ab')2、Fvなどを挙げることができる。また、低分子化抗体の具体例としては、例えば、Fab、Fab'、F(ab')2、Fv、scFv（single chain Fv）、Diabody、sc(Fv)2（single chain (Fv)2）などを挙げることができる。これら抗体の多量体（例えば、ダイマー、トリマー、テトラマー、ポリマー）も、本開示の低分子化抗体に含まれる。
Diabodyは、遺伝子融合により構築された二価（bivalent）の低分子化抗体を指す（Holligerら（Proc. Natl. Acad. Sci. U.S.A. 90, 6444-6448 (1993)、欧州公開公報EP404097、およびPCT公開公報WO1993/011161等）。Diabodyは、2本のポリペプチド鎖から構成されるダイマーであり、通常、ポリペプチド鎖は各々、同じ鎖中でVL及びVHが、互いに結合できない位に短い、例えば、5残基程度のリンカーにより結合されている。同一ポリペプチド鎖上にコードされるVLとVHとは、その間のリンカーが短いため単鎖可変領域フラグメントを形成することが出来ず二量体を形成するため、Diabodyは2つの抗原結合部位を有することとなる。
scFvは、抗体のH鎖可変領域とL鎖可変領域とを連結することにより得られる。このscFvにおいて、H鎖可変領域とL鎖可変領域は、リンカー、好ましくはペプチドリンカーを介して連結される（Hustonら（Proc. Natl. Acad. Sci. U.S.A. (1988) 85, 5879-5883）。scFvにおけるH鎖可変領域およびL鎖可変領域は、本明細書に抗体として記載されたもののいずれの抗体由来であってもよい。可変領域を連結するペプチドリンカーとしては、特に制限はないが、例えば３から２５残基程度からなる任意の一本鎖ペプチド、また、後述のペプチドリンカー等を用いることができる。
sc(Fv)2は、2つのVH及び2つのVLをリンカー等で結合して一本鎖にした低分子化抗体である（Hudsonら（J. Immunol. Methods (1999) 231, 177-189）。sc(Fv)2は、例えば、scFvをリンカーで結ぶことによって作製できる。
また２つのVH及び２つのVLが、一本鎖ポリペプチドのN末端側を基点としてVH、VL、VH、VL（［VH］リンカー［VL］リンカー［VH］リンカー［VL］）の順に並んでいる抗体が好ましい。2つのVHと2つのVLの順序は特に上記配置に限定されず、どのような順序で並べられていてもよい。例えば以下のような配置も挙げることができる。
－［VL］リンカー［VH］リンカー［VH］リンカー［VL］
－［VH］リンカー［VL］リンカー［VL］リンカー［VH］
－［VH］リンカー［VH］リンカー［VL］リンカー［VL］
－［VL］リンカー［VL］リンカー［VH］リンカー［VH］
－［VL］リンカー［VH］リンカー［VL］リンカー［VH］
抗体の可変領域を結合するリンカーとしては、前記の抗原結合分子の項で記載されたリンカーと同様のリンカーが使用され得る。例えば、本開示において特に好ましいsc(Fv)2の態様としては、例えば、以下のsc(Fv)2を挙げることができる。
－［VH］ペプチドリンカー(15アミノ酸)［VL］ペプチドリンカー(15アミノ酸)［VH］ペプチドリンカー(15アミノ酸)［VL］
4つの抗体可変領域を結合する場合には、通常、3つのリンカーが必要となるが、全て同じリンカーを用いてもよいし、異なるリンカーを用いてもよい。
このような低分子化抗体を得るには、抗体を酵素、例えば、パパイン、ペプシンなどで処理し、抗体断片を生成させるか、もしくはこれらの抗体断片または低分子化抗体をコードするDNAを構築し、これを発現ベクターに導入した後、適当な宿主細胞で発現させればよい（例えば、Co, M. S. et al., J. Immunol. (1994) 152, 2968-2976 ; Better, M. and Horwitz, A. H., Methods Enzymol. (1989) 178, 476-496 ; Pluckthun, A. and Skerra, A., Methods Enzymol. (1989) 178, 497-515 ; Lamoyi, E., Methods Enzymol. (1986) 121, 652-663 ; Rousseaux, J. et al., Methods Enzymol. (1986) 121, 663-669 ; Bird, R. E. and Walker, B. W., Trends Biotechnol. (1991) 9, 132-137参照）。

【0027】

・単ドメイン抗体
本発明の抗原結合ドメインの好適な例の一つとして、単ドメイン抗体（sdAb）が挙げられる。
本明細書で用語「単ドメイン抗体」は、そのドメイン単独で抗原結合活性を発揮は、できるかぎりその構造は限定されない。IgG抗体等で例示される通常の抗体は、VHとVLのペアリングにより可変領域を形成された状態では抗原結合活性を示すのに対し、単ドメイン抗体は他のドメインとペアリングすることなく、単ドメイン抗体自身のドメイン構造単独で抗原結合活性を発揮できると知られている。単ドメイン抗体は通常比較的に低分子量を有し、単量体の形態で存在する。
単ドメイン抗体の例として、それだけに限定されないが、例えば、ラクダ科の動物のVHH、サメのＶＮＡＲのような、先天的に軽鎖を欠如する抗原結合分子、または抗体のVHドメインのすべてもしくは一部分またはVLドメインのすべてもしくは一部分を含む抗体断片が挙げられる。抗体のVH／VLドメインのすべてもしくは一部分を含む抗体断片である単ドメイン抗体の例として、それだけに限定されないが、例えば、米国特許第6,248,516号B1等に記載されているようなヒト抗体VHまたはヒト抗体VLから出発して人工的に作製された単ドメイン抗体が挙げられる。本発明のいくつかの実施態様において、1つの単ドメイン抗体は3つのCDR（CDR1、CDR2及びCDR3）を有する。
単ドメイン抗体は、単ドメイン抗体を産生できる動物から、または単ドメイン抗体を産生できる動物を免疫することにより取得し得る。単ドメイン抗体を産生できる動物の例として、それだけに限定されないが、例えば、ラクダ科動物、単ドメイン抗体を産生できる遺伝子が導入された遺伝子導入動物（transgenic animals）が挙げられる。ラクダ科動物はラクダ、ラマ、アルパカ、ヒトコブラクダおよびグアナコ等を含む。単ドメイン抗体を産生できる遺伝子が導入された遺伝子導入動物の例として、それだけに限定されないが、国際公開WO2015/143414号、米国特許公開US2011/0123527号A1に記載の遺伝子導入動物が挙げられる。動物から取得した単ドメイン抗体のフレームワーク配列をヒトジャームライン配列あるいはそれに類似した配列とすることで、ヒト化した単ドメイン抗体を取得することも出来る。ヒト化した単ドメイン抗体（例えば、ヒト化VHH）はまた、本発明の単ドメイン抗体の一実施態様である。「ヒト化単ドメイン抗体」は、非ヒトCDRからのアミノ酸残基およびヒトFRからのアミノ酸残基を含む、キメラ単ドメイン抗体のことをいう。ある態様では、ヒト化単ドメイン抗体は、すべてのもしくは実質的にすべてのCDRは非ヒト抗体のものに対応し、かつ、すべてのもしくは実質的にすべてのFRはヒト抗体のものに対応する。ヒト化抗体において、ＦＲ中の残基の一部がヒト抗体のものと対応しない場合も、実質的にすべてのＦＲはヒト抗体のものに対応する一例として考えられる。たとえば、単ドメイン抗体の一態様であるＶＨＨをヒト化する場合、ＦＲ中の残基の一部をヒト抗体のものと対応しない残基にする必要がある（C Vinckeら、The Journal of Biological Chemistry 284, 3273-3284.）。
また、単ドメイン抗体は、単ドメイン抗体を含むポリペプチドライブラリから、ELISA、パニング等により取得し得る。単ドメイン抗体を含むポリペプチドライブラリの例として、それだけに限定されないが、例えば、各種動物若しくはヒトから取得したナイーブ抗体ライブラリ（例：Methods in Molecular Biology 2012 911 (65-78)、Biochimica et Biophysica Acta - Proteins and Proteomics 2006 1764:8 (1307-1319)）、各種動物を免疫することで取得した抗体ライブラリ（例：Journal of Applied Microbiology 2014 117:2 (528-536)）、または各種動物若しくはヒトの抗体遺伝子より作製した合成抗体ライブラリ（例：Journal of Biomolecular Screening 2016 21:1 (35-43)、Journal of Biological Chemistry 2016 291:24 (12641-12657)、AIDS 2016 30:11 (1691-1701)）が挙げられる。

【0028】

・ライブラリ
本明細書において「ライブラリ」とは互いに配列の異なる複数の抗原結合ドメインを含む抗原結合分子、または/および互いに配列の異なる複数の抗原結合ドメインを含む抗原結合分子をコードする核酸若しくはポリヌクレオチドをいう。ライブラリ中に含まれる抗原結合ドメインを含む抗原結合分子、または/および抗原結合ドメインを含む抗原結合分子をコードする核酸の配列は単一の配列ではなく、互いに配列の異なる複数の抗原結合分子または/および互いに配列の異なる複数の抗原結合分子をコードする核酸である。
本開示における一つの実施形態では、本開示の抗原結合分子と異種ポリペプチドとの融合ポリペプチドが作製され得る。ある実施形態では、融合ポリペプチドはウイルスコートタンパク質、例えばpIII、pVIII、pVII、pIX、Soc、Hoc、gpD、pVIおよびその変異体からなる群から選択されるウイルスコートタンパク質の少なくとも一部と融合され得る。
ある実施形態では、本開示の抗原結合分子は、ScFv、Fab断片、F(ab)₂またはF(ab')₂であり得るため、別の一つの実施形態では、これらの抗原結合分子と異種ポリペプチドとの融合ポリペプチドであって互いに配列の異なる複数の融合ポリペプチドから主としてなるライブラリが提供される。具体的には、これらの抗原結合分子とウイルスコートタンパク質、例えばpIII、pVIII、pVII、pIX、Soc、Hoc、gpD、pVIおよびその変異体からなる群から選択されるウイルスコートタンパク質の少なくとも一部と融合された融合ポリペプチドであって互いに配列の異なる複数の融合ポリペプチドから主としてなるライブラリが提供される。本開示の抗原結合分子はさらに二量体化ドメインを含み得る。ある実施形態では、前記二量体化ドメインは抗体の重鎖または軽鎖の可変領域とウイルスコートタンパク質の少なくとも一部との間に存在し得る。この二量体化ドメインには、二量体化配列の少なくとも1つ、および/または1つまたは複数のシステイン残基を含む配列が含まれ得る。この二量体化ドメインは、好ましくは重鎖可変領域または定常領域のC末端と連結され得る。二量体化ドメインは、前記抗体可変領域がウイルスのコートタンパク質成分との融合ポリペプチド成分として作製されている（二量体化ドメインの後ろにアンバー終止コドンを有さない）かどうかによって、または、前記抗体可変領域が主にウイルスコートタンパク質成分を含まずに作製されている（例えば、二量体化ドメインの後にアンバー終止コドンを有する）かどうかによって、様々な構造をとることが可能である。前記抗体可変領域が主にウイルスのコートタンパク質成分との融合ポリペプチドとして作製されるときは、1つまたは複数のジスルフィド結合および/または単一の二量体化配列によって二価提示がもたらされる。本開示のライブラリの非限定的な一態様としては、1.2×10⁸以上の多様性を有するライブラリが、即ち、1.2×10⁸以上のお互いに配列の異なる複数の抗原結合ドメインを含む抗原結合分子、または互いに配列の異なる複数の抗原結合ドメインを含む抗原結合分子をコードする核酸を含むライブラリが挙げられる。
本明細書においては、「互いに配列の異なる複数の抗原結合ドメインを含む抗原結合分子」という記載における「互いに配列の異なる」との用語は、ライブラリ中の個々の抗原結合分子の配列が相互に異なることを意味する。すなわち、ライブラリ中における互いに異なる配列の数は、ライブラリ中の配列の異なる独立クローンの数が反映され、「ライブラリサイズ」と指称される場合もある。通常のファージディスプレイライブラリでは10⁶から10¹²であり、リボゾームディスプレイ法等の公知の技術を適用することによってライブラリサイズを10¹⁴まで拡大することが可能である。しかしながら、ファージライブラリのパンニング選択時に使用されるファージ粒子の実際の数は、通常、ライブラリサイズよりも10ないし10,000倍大きい。この過剰倍数は、「ライブラリ当量数」とも呼ばれるが、同じアミノ酸配列を有する個々のクローンが10ないし10,000存在し得ることを表す。よって本開示における「互いに配列の異なる」との用語はライブラリ当量数が除外されたライブラリ中の個々の抗原結合分子の配列が相互に異なること、より具体的には互いに配列の異なる抗原結合分子が10⁶から10¹⁴分子、好ましくは10⁷から10¹²分子、さらに好ましくは10⁸から10¹¹、特に好ましくは10⁸から10¹⁰存在することを意味する。
また、本開示の、互いに配列の異なる複数の抗原結合ドメインを含む抗原結合分子、または／および互いに配列の異なる複数の抗原結合ドメインを含む抗原結合分子をコードする核酸から主としてなるライブラリという記載における「複数の」との用語は、例えば本開示の抗原結合分子、融合ポリペプチド、ポリヌクレオチド分子、ベクターまたはウイルスは、通常、その物質の2つ以上の種類の集合を指す。例えば、ある2つ以上の物質が特定の形質に関して互いに異なるならば、その物質には2種類以上が存在することを表す。例としては、アミノ酸配列中の特定のアミノ酸部位でアミノ酸変異が観察される変異体が挙げられ得る。例えば、特定のアミノ酸部位のアミノ酸以外は実質的に同じ、好ましくは同一の配列である2つ以上の抗原結合分子がある場合、抗原結合分子は複数個存在する。他の例では、特定のアミノ酸部位のアミノ酸をコードする塩基以外は実質的に同じ、好ましくは同一の配列である2つ以上のポリヌクレオチド分子があるならば、ポリヌクレオチド分子は複数個存在する。

【0029】

（実験手法の定義）
［特性評価］
本開示の一態様として、抗原結合分子の配列情報、及び、当該抗原結合分子の特性評価の評価結果情報に基づいて、機械学習を行うことで学習済みモデルを生成する。抗原結合分子の特性評価の非限定な一態様として、抗原結合分子の親和性評価、薬理活性評価、物性評価、動態評価、安全性評価が例示されるがこれらの評価に限定されるものではない。

【0030】

・親和性評価
抗原結合分子の親和性評価の手法は特に限定されないが、抗原結合分子と抗原の結合活性を測定することで評価することができる。結合活性（binding activity）」は、分子（例えば、抗体）の１個またはそれ以上の結合部位と、分子の結合パートナー（例えば、抗原）との間の、非共有結合的な相互作用の合計の強度のことをいう。ここで、「結合活性（binding activity）」は、ある結合対のメンバー（例えば、抗体と抗原）の間の１：１相互作用に厳密に限定されない。例えば、結合対のメンバーが１価での１：１相互作用を反映する場合、結合活性は固有の結合アフィニティ（「アフィニティ」）のことをいう。結合対のメンバーが、１価での結合および多価での結合の両方が可能である場合、結合活性は、これらの結合力の総和となる。分子XのそのパートナーYに対する結合活性は、一般的に、解離定数 (KD) または「単位リガンド量当たりのアナライト結合量」により表すことができる。結合活性は、本明細書に記載のものを含む、当該技術分野において知られた通常の方法によって測定され得る。標的組織特異的な化合物の濃度以外の条件については当業者が適宜決定することが可能である。特定の態様において、本明細書で提供される抗原結合分子は抗体であり、抗体の結合活性（binding activity）は、≦1μM、≦100nM、≦10nM、≦1nM、≦0.1nM、≦0.01nMまたは≦0.001nM（例えば、10^-8M以下、例えば10^-8M～10^-13M、例えば10^-9M～10^-13M）の解離定数 (KD) である。

【0031】

一態様において、抗体の結合活性（binding activity）は表面プラズモン共鳴分析法を測定原理とする例えばBIACORE（商標登録）T200またはBIACORE（商標登録）4000（GE Healthcare, Uppsala, Sweden）を用いたリガンド捕捉法が用いられる。機器操作にはBIACORE（商標登録）Control Softwareが用いられる。一態様においてアミンカップリングキット（GE Healthcare, Uppsala, Sweden）を供給元の指示にしたがって使用し、カルボキシメチルデキストランをコーティングしたセンサーチップ（GE Healthcare, Uppsala, Sweden）にリガンド捕捉用分子、たとえば抗タグ抗体、抗IgG抗体、プロテインAなど、を固相化する。リガンド捕捉分子は適切なpHの10 mM酢酸ナトリウム溶液を用いて希釈され、適切な流速および注入時間で注入される。結合活性測定は0.05％ポリソルベート20（その他の名称としてTween（商標登録）-20）含有緩衝液を測定用緩衝液として使用し、流速は10- 30 μL/分、測定温度は好ましくは25℃や37℃で測定される。リガンド捕捉用分子に抗体をリガンドとして捕捉させて測定を実施する場合は、抗体を注入して目的量を捕捉させたのち、測定用緩衝液を用いて調製された抗原およびまたはFc受容体の段階希釈物（アナライト）が注入される。リガンド捕捉用分子に抗原およびまたはFc受容体をリガンドとして捕捉させて測定を実施する場合は、抗原およびまたはFc受容体を注入して目的量を捕捉させたのち、測定用緩衝液を用いて調製された抗体の段階希釈物（アナライト）が注入される。

【0032】

一態様において、測定結果はBIACORE（登録商標）Evaluation Softwareを用いて解析される。速度論的パラメータ（kinetics parameter）算出は1:1 Bindingのモデルを用いて、結合および解離のセンサグラムを同時にフィッティングすることによって実施され、結合速度 (konもしくはka) 、解離速度 (koffもしくはkd) 、平衡解離定数 (KD)が計算され得る。結合活性が弱い、特に解離が早く速度論的パラメータ算出が困難な場合はSteady stateモデルを用いて平衡解離定数 (KD)を計算しても良い。結合活性の他のパラメータとしては、特定の濃度のアナライトの結合量（RU）をリガンドの捕捉量（RU）で除して「単位リガンド量当たりのアナライト結合量」も算出され得る。

【0033】

抗原結合活性の値として、抗原が可溶型分子の場合はKD（解離速度定数）を用いることが可能であり、抗原が膜型分子の場合は見かけのkd（Apparent dissociation rate constant：見かけの解離速度定数）を用いることが可能である。kd（解離速度定数）、および、見かけのKD（見かけの解離速度定数）は、当業者公知の方法で測定することが可能であり、例えばBiacore（GE healthcare）、フローサイトメーター等を用いることが可能である。

【0034】

特性評価の異なる一態様として、ディスプレイライブラリによる抗原結合分子の選択手法が挙げられる。一態様において、ファージディスプレイを用いたパニングが挙げられる。親和性評価を例に挙げると、複数の異なる抗原結合分子が提示されたファージライブラリを調製し、標的抗原と調製したファージを接触させた後に、未結合のファージの洗浄操作をすることで、標的抗原と相互作用する抗原結合分子を提示したファージを濃縮することが可能である。濃縮後のファージに含まれる抗原結合分子をコードする核酸配列を解析することで、標的抗原に親和性のある配列を同定することが可能である。また一態様において、哺乳細胞ディスプレイを用いたパニングが挙げられる。当該ディスプレイシステムを用いた薬理活性評価を例に挙げると、複数の異なる抗原結合分子を含むライブラリを標的とする哺乳細胞に発現させ、それが同じ細胞に示す作用に応じてレポーター活性等を変化させることで、望む薬理活性を有する抗原結合分子遺伝子を有する細胞をフローサイトメーター等で単離することが可能である。また、当該ディスプレイシステムを用いた物性評価を例に挙げると、複数の異なる抗原結合分子を含むライブラリを標的とする哺乳細胞に発現させ、その発現量を抗原結合分子に対して特異的な抗体で染色することで、安定的に高発現できる抗原結合分子遺伝子を有する細胞をフローサイトメーター等で単離することが可能である。パニングによる抗原結合分子の特性評価には、前記ファージや哺乳細胞を用いる手法に限られるものではなく、抗原結合分子を提示できる限り様々な手法を利用することが可能であり、例えばリボソームに提示させる手法、mRNAに提示させる手法、ファージ以外のウイルスに提示させる手法、大腸菌等の細菌に提示させる手法等が例示させるがこれらに限定されるものではない。
特性評価の異なる一態様として、個体に由来する免疫細胞から抗体遺伝子配列を取得する方法、または血清から抗体蛋白質配列を取得する方法が挙げられる。免疫細胞から抗体遺伝子配列を抽出する親和性評価を例に挙げると、標的抗原蛋白質を個体に投与することで免疫感作を誘導し、標的抗原に対して結合する抗体遺伝子を有する免疫細胞から遺伝子を抽出することで、標的抗原に親和性のある配列を同定することが可能である。
免疫感作を引き起こす抗原には、前記蛋白質を用いる手法に限られるものではなく、当該蛋白質をコードする遺伝子や当該蛋白質を発現する細胞を利用することが可能である。
また、対象とする個体は、ヒト、マウス、ラット、ハムスター、ウサギ、サル、ニワトリ、ラクダ、ラマ、アルパカが挙げられるが、これらに限定されるものではない。
また、前記核酸配列や出現頻度を解析する手法として、各抗原結合分子の核酸配列を有する遺伝子組み換え生物をクローニングし、キャピラリー電気泳動を利用したサンガー法で解析する手法や、次世代シークエンサーを用いて解析する手法が挙げられるが、これらに限定させるものではない。
前記核酸配列を解析する場合において、出現頻度に基づき特性の強弱を判断することも可能である。例えば濃縮後の核酸配列の解析により出現頻度の高い配列がコードする抗原結合分子は当該特性が高く、濃縮後に出現頻度の低い配列がコードする抗原結合分子は、出現頻度が高い配列がコードする抗原結合分子よりも特性が低いと推定することが可能である。
また、前記ディスプレイライブラリや個体に由来する抗原結合分子情報を取得する手法は様々な特性評価に応用可能であり、前記に限定されるものではない。

【0035】

・薬理活性評価
抗原結合分子の薬理活性評価の手法は特に限定されないが、例えば抗原結合分子が示す中和活性、アゴニスト活性、または細胞傷害活性を測定することで評価することができる。薬理活性評価として細胞傷害活性評価を例に挙げた場合、抗体依存性細胞介在性細胞傷害（antibody-dependent cell-mediated cytotoxicity：ADCC）活性、補体依存性細胞傷害（complement-dependent cytotoxicity：CDC）活性、T細胞による細胞傷害（T-cell-dependent cytotoxicity: TDCC）活性および抗体依存性細胞貪食（Antibody-Dependent Cellular Phagocytosis：ADCP）活性等が例示される。CDC活性とは補体系による細胞傷害活性を意味する。またADCC活性とは、標的細胞の細胞膜に発現された膜型分子に結合する抗原結合ドメインを含む抗原結合分子のFc領域に、免疫細胞等が当該免疫細胞に発現したFcγレセプターを介して結合し、当該免疫細胞が標的細胞に傷害を与える活性を意味する。またＴＤＣＣ活性とは、標的細胞の細胞膜に発現された膜型分子に結合する抗原結合ドメイン、およびT細胞上のT細胞レセプター（TCR）複合体の構成サブユニットのいずれかに対する抗原結合ドメイン、特にCD3 epsilon鎖に結合する抗原結合ドメインを含むbi-specific抗体を用いることで標的細胞とＴ細胞を接近させることにより、Ｔ細胞が標的細胞に障害を与える活性を意味する。目的の抗原結合分子がADCC活性、ＣＤＣ活性、TDCC活性またはADCP活性を有するか否かは公知の方法により測定され得る。
また中和活性とは、ウイルスや毒素など、細胞に対して生物学的活性を有するリガンドの当該生物学的活性を阻害する活性をいう。即ち、中和活性を有する物質とは、当該リガンド又は当該リガンドが結合するレセプターに結合し、当該リガンドとレセプターの結合を阻害する物質をさす。中和活性によりリガンドとの結合を阻止されたレセプターは、当該レセプターを通じた生物学的活性を発揮することができなくなる。抗原結合分子が抗体である場合、このような中和活性を有する抗体は一般に中和抗体と呼ばれ、前記リガンドとレセプターの結合の阻害活性を測定することで中和活性を測定することが可能である。細胞に対して生物学的活性を有するリガンドはウイルスや毒素などに限定されず、サイトカインやケモカインなどの内在性リガンドがレセプターに結合することで惹起する生理作用を阻害活性も中和活性として理解される。また、中和活性はリガンドとレセプターの結合を阻害する場合に限らず、生物学的活性を有するタンパク質の機能を阻害する活性も中和活性として理解され、前記タンパク質の機能として酵素活性が例示され得る。

【0036】

・物性評価
抗原結合分子の物性評価の手法は特に限定されないが、例えば熱安定性、化学安定性、溶解性、粘性、光安定性、長期保存安定性、非特異的吸着性が例示され、例示した種々の物性評価は当業者公知の方法により測定され得る。評価方法は特に限定されないが、例えば熱安定性、化学安定性、光安定性、機械刺激に対する安定性、長期保存安定性等の安定性評価は、安定性評価の目的とする熱処理、低pH環境への暴露、光暴露、機械による攪拌、長期保存等の処理前と処理後において、当該抗原結合分子の分解や化学的修飾、会合化を測定することにより評価することができる。そのような安定性評価を実施する測定法の非限定な一態様として、イオン交換クロマトグラフィークロマトグラフィー法やサイズ排除クロマトグラフィーなどのクロマトグラフィーを用いる手法、質量分析法、電気泳動法が挙げられるがこれらに限定されず、当業者公知の様々な手法により測定することができる。
また上記以外の物性評価として、ポリエチレングリコール沈殿法によるタンパク質の溶解度の評価や、小角X線散乱法による粘性の評価、Extra Cellular Matrix(ECM)への結合評価に基づく非特異的結合評価等が例示されるが、これらに限定されるものではない。
また物性評価として、タンパク質発現量評価、精製用樹脂や精製用リガンドへの結合評価、表面電荷の評価などについても、当業者公知の手法により測定できる限り評価することが可能である。

【0037】

・動態評価
抗原結合分子の動態評価の手法は特に限定されないが、マウス、ラット、サル、イヌなどの動物に投与し、投与後の血中の抗原結合分子の量を経時的に測定することで評価が可能であり、当業者においてPharmacokinetics（PK）評価として広く公知の手法により評価可能である。PKを直接評価する手法以外に、抗原結合分子の表面電荷や等電点等をソフトウェア上で計算することにより抗原結合分子のアミノ酸配列から動態の挙動を予測することも可能である。

【0038】

・安全性評価
抗原結合分子の安全性評価の手法は特に限定されないが、ISPRI Web-Based Immunogenicity Screening (EpiVax)等の免疫原性予測ツール、抗原結合分子の断片ペプチドのHLA結合評価、MAPPs（MHC-Associated Peptide Proteomics）またはT細胞増殖評価などを用いたT細胞エピトープの検出および免疫原性の評価が挙げられる。また、リウマトイド因子(RF)との結合、PBMCやwhole bloodを用いた免疫反応の評価、血小板凝集評価など当業者公知の手法により測定できる限り評価することが可能である。

【0039】

（機械学習に用いられている用語、手法（LSTM, RF）の定義）
RNN (Recurrent Neural Network) とは複数のニューラルネットを接続したニューラルネットである。ペプチド配列への適用例はMuller AT et al. (J Chem Inf Model. 2018 Feb 26;58(2):472-479.)にある。
LSTM (Long Short Term Memory) はRNNの特殊な形であり、優れた長期記憶を持つようにしたものであるRNNである。
GRU(Gated Recurrent Unit)はRNNの特殊な形であり、長期記憶に相当するニューロンが存在するRNNである。GANとは敵対的ネットワークで、正確に分類しようとするモデルと欺こうとするサンプルを生成するモデルの両者を利用することにより、より正確な分類を目指す機械学習である。
VAE (Variational AutoEncoder) とは、変分法に基づき、ニューラルネットにおいて、入力層と出力層に同じデータを用いて教師あり学習させたものである。
Flow深層生成モデルとは、可逆な変数変換によりデータの分布を対数尤度に基づいて学習するモデルである。
ガウス過程は、ある入力に対して予測値のみならず、予測値の分布も出力する機械学習である。予測値の分布は予測値の信頼度と捉えられる。また、ベイズ最適化はガウス過程の予測結果に基づき、予測精度をよくする点をサンプリング（実測）し、新規実測値も含めて予測モデルをアップデートし、より高精度な予測を行う手法である。また予測モデルのアップデートは繰り返し行うことが可能である。

【0040】

・確率モデル（ＨＭＭ、MM）
MM (Markov Model) とは、複数の状態とその間の遷移確率が与えられたモデルである。前の状態の情報のみで次の状態への遷移確率が決まる。
HMM (Hidden Markov Model) とは、複数の状態とその間の遷移確率が与えられ、かつ各々の状態で別の量を状態毎に定義された確率で出力するモデルである。前の状態の情報のみで次の状態への遷移確率が決まる。

【0041】

・アミノ酸の認識手法（文字列、数値ベクトル、物性量で表された配列情報）
抗体配列の機械学習手法への入力として、配列を文字列と捉えて文字列入力する方法がまず考えられる。また、配列中の各ポジションに対して、その位置のアミノ酸の物性量（分子量、電荷、疎水度、側鎖の体積等）を用いて、配列の文字を数値に変換して入力する方法も考えられる。また、各アミノ酸の周囲ではどのアミノ酸が出現しやすいかの統計を用いて（Doc2Vec法）、配列全長の文字列を数値に変換して入力する方法も考えられる。
例えば、Doc2Vec法を用いる場合、コンピュータは、対象のアミノ酸配列を文章とみなす。コンピュータは、アミノ酸配列を配列順に従って、前から順に、アミノ酸を予め定めた個数（例えば３個であるが、３個以外でもよい）ずつの組に分割する。コンピュータは、分割後の各組について、アミノ酸を表す文字を連ねた文字列を、単語として生成する。コンピュータは、アミノ酸の組が連なった各アミノ酸配列を、単語が順に連なった文章としてDoc2Vec法を用いて、ベクトル空間にマッピングする。このように、コンピュータは、配列を文章とみなし、配列中のアミノ酸の組を単語とみなして、文書解析に用いる手法を用いて、配列を解析してもよい。

【0042】

（第１実施形態）
以下、図面を参照して、本発明の第１実施形態について詳しく説明する。
本実施形態では、図１の情報処理システム１では、サーバ３０は、抗原結合分子の配列を表す配列情報に基づいて機械学習を行うことで、配列学習済みモデル（「第１学習済みモデル」の一例）を生成する。配列学習済みモデルは、入力された配列情報が表す配列の特徴を学習し、学習の結果、予測対象配列情報（「仮想配列情報」の一例）を出力する学習済みモデルである。予測対象配列情報が表す予測対象配列は、学習に用いられた抗原結合分子の配列の少なくとも１つにおいて、その配列を構成するアミノ酸の少なくとも１つを変異させた仮想配列である。
これにより、情報処理システム１は、抗原結合分子に関して、その一部のアミノ酸を変異させた仮想配列を、生成させることができる。例えば、配列学習済みモデルは、望ましい性質を持った抗原結合分子の配列情報を用いて学習される。この場合、サーバ３０は、その望ましい性質を持つ可能性の高い仮想配列を、例えば多数、仮想配列群として生成できる。なお、本実施形態では、特性評価として、抗原を用いたパニングによって抗原と結合した頻度を用いる例について説明する。パニングについては後述する。

【0043】

＜情報処理システム＞
図１は、第１実施形態に係る情報処理システム１の一例を示す概略図である。
情報処理システム１は、ユーザ端末１０、次世代シーケンサ２０、及び、サーバ３０を具備する。また、ユーザ端末１０、次世代シーケンサ２０、及び、サーバ３０は、ネットワークＮＷを介して接続されている。ネットワークＮＷは、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、又はインターネット等の情報通信ネットワークである。情報通信ネットワークは、有線又は無線のネットワークでも良いし、種々のネットワークを組み合わせたネットワークであっても良い。また、ユーザ端末１０、次世代シーケンサ２０、及び、サーバ３０は、ＨＤＤ（ハードディスクトライブ）やＵＳＢメモリ等の記憶媒体等を介して、データをやり取りしてもよい。

【0044】

ユーザ端末１０は、例えば、ユーザが入出力を行うパーソナルコンピュータである。ユーザ端末１０は、タブレット端末やスマートフォン等の携帯型端末であっても良い。
次世代シーケンサ２０は、ＤＮＡ（デオキシリボ核酸）の塩基配列を解析する装置である。
サーバ３０は、サーバ等の情報処理装置である。サーバ３０は、次世代シーケンサ２０による解析結果を示す解析結果情報を用いて学習を行う。サーバ３０は、ユーザ端末１０からの入力情報と学習結果とに基づいて、ユーザ端末１０へ出力情報を送信する。

【0045】

例えば、次世代シーケンサ２０は、複数の抗体と標的抗原のパニング（「親和性評価」の一例）において、試料に含まれる抗体の各々を測定して解析し、各抗体の塩基配列を表す配列情報、及びその出現頻度（「親和性評価の評価結果情報」の一例；リード数とも呼ばれる）を含む解析結果情報を出力する。出現頻度とは、標的抗原と結合する抗体の配列の中で、次世代シーケンサ２０で解析された配列の全体数（総リード数）を母数としたときの各配列の数の割合である。ただし、本発明はこれに限らず、出現頻度は、次世代シーケンサ２０で解析された配列の数であってもよい。

【0046】

サーバ３０は、ネットワークＮＷ又は記憶媒体を介して解析結果情報を受信し、解析結果情報に含まれる配列情報及び出現頻度に応じて、望ましい性質を持った配列群を学習データセットとして生成（取得の一例）する。サーバ３０は、その学習データセットに基づいて学習し、望ましい性質を持った配列の特徴が学習された配列学習済みモデルを記憶する。サーバ３０は、記憶された配列学習済みモデルに基づいて、望ましい性質の配列の特徴を持つ新しい仮想配列群を、予測対象配列として生成する。

【0047】

その後、サーバ３０は、生成した各予測対象配列を表す予測対象配列情報について、後述する特性予測学習済みモデル（「第２学習済みモデル」の一例）を用いて、標的抗原との親和性情報（「標的抗原との親和性を表す親和性情報」の一例）を表す予測スコアを予測する。親和性情報は、抗体が、標的抗原に結合するか（結合抗体であるか）又は結合しないか（非結合抗体であるか）を示す情報である。
サーバ３０は、予測した予測スコアに応じて、標的抗原と結合すると予想される抗体について、その候補を表す候補抗体情報を、ユーザ端末１０へ送信する。ユーザ端末１０は、受信した予測スコアに応じた候補抗体情報を表示する。

【0048】

これにより、情報処理システム１は、標的抗原との特性を推定する配列情報をランダムに生成する場合に比べて、より特性が高くなると推定される配列に絞り込んだ配列情報を多く生成することができる。従って、情報処理システム１は、より処理時間又は処理負荷を軽減しつつ、所望の抗体の情報を提供することができる。

【0049】

＜親和性評価（パニング）＞
図２は、本実施形態に係る一連のパニングの一例を説明するための説明図である。
一連のパニングの中で、繰り返される各パニング（図中では「結合試験」）について説明する。なお、一連のパニングにおける、ｍ（ｍ＝１～Ｍ：ｍは自然数）回目のパニングを、ｍ回目のラウンドのパニング、又は、ラウンドｍのパニングとも称する。各パニングは、次の４ステップ（Ｐ１）～（Ｐ４）を経て行われる。
（Ｐ１）標的抗原と抗体との反応
（Ｐ２）標的抗原と結合しなかった抗体（図中では「非結合抗体」）の洗浄
（Ｐ３）標的抗原と結合した抗体（図中では「結合抗体」）の溶出
（Ｐ４）溶出した抗体を作製する際に鋳型となるＤＮＡの増幅
ここで、抗体は、既存の各種抗体ディスプレイ手法により、上述したＤＮＡと１対１に対応付けされる。

【0050】

１回目のパニング（ラウンド１）において、複数の抗体の集合（以下、「抗体ライブラリ」とも称する）がパニングに供される。このラウンド１での集合は、予め用意されている。２回目以降のラウンドにおいて、前のラウンドにおいて標的抗原と結合したと判定された結合抗体（「標的抗原と親和性がある抗体」の一例）の集合が、パニングに供される。換言すれば、２回目以降のラウンドにおいて、前のラウンドにおいて標的抗原とは結合しなかったと判定された非結合抗体（「親和性が低いと評価された抗体」の一例）の集合が、パニングに供されない。より、具体的には、２回目以降のラウンドに供される抗体（直前のラウンドにおける結合抗体）は、直前のラウンドで増幅されたＤＮＡを用いて作製される。なお、一連のパニングは、例えば、予め定められた回数のラウンドだけ、パニングが繰り返されると終了する。ただし、本発明はこれに限らず、一連のパニングは、結合抗体が少なくなった場合や、実験者の判断による場合に終了しても良い。

【0051】

各パニングでは、実験条件（「評価条件」の一例）が設定される。実験条件は、標的抗原と抗体との反応において変更可能な条件である。実験条件は、標的抗原条件、抗体条件、及び、反応が行われる場に存在する溶液の条件、標的抗原と抗体の反応時間及び反応温度、などである。
標的抗原条件は、例えば、標的抗原の濃度や、標的抗原の分子情報である。標的抗原の濃度は、標的抗原と抗体が反応する場（反応溶液中）における、標的抗原の濃度を示す。標的抗原の分子情報は、例えば、試料名、アミノ酸配列などである。
抗体条件は、例えば、抗体ディスプレイ手法や抗体の由来、ドメイン種、ジャームラインである。抗体ディスプレイ手法は、パニングに供される抗体の抗体ディスプレイ手法を示す。抗体の由来は、パニングに供される抗体の由来を示し、例えば、ヒト、マウス、ラット、ハムスター、ウサギ、サル、ニワトリ、ラクダ、ラマ、アルパカ、人工合成である。ドメイン種は、例えば、重鎖、軽鎖である。
溶液の条件は、例えば、バッファー（溶液）の組成である。「バッファー組成」は反応溶液の溶液組成、水素イオン指数（ｐＨ）等の溶液の条件である。
反応時間は標的抗原と抗体とが溶液中で共存する時間を示す。反応温度は、標的抗原と抗体とが溶液中で共存する際の溶液の設定温度を示す。
なお、図２の例では、ラウンド１の実験条件が条件１、ラウンド２の実験条件が条件２である。これらの実験条件を示す実験属性情報は、サーバ３０において、パニングごとに管理できる。ただし、実験条件は、一連のラウンドで同一であってもよく、この場合、図２の条件１、２、・・・、Ｎ、Ｎ＋１、・・・は、同一の実験条件となる。

【0052】

各パニングにおいて、ステップ（Ｐ３）の後、抗体のＤＮＡは、増幅された後、次世代シーケンサ２０によって塩基配列が解析される。次世代シーケンサ２０は、解析結果として、複数の抗体の各々について、抗体の塩基配列を示す配列情報、及び、抗体の評価結果情報を出力する。評価結果情報には、例えば、各抗体について、ラウンドごとの出現頻度、及び、ラウンド間の出現頻度の変化率が含まれる。サーバ３０上で塩基配列はアミノ酸配列に変換される。
ここで、１つの抗体は、重鎖（Ｈ鎖）の部分と軽鎖（Ｌ鎖）の部分が組み合わされて構成される。解析結果情報において、１つの抗体の配列情報は、重鎖（Ｈ鎖）部分のアミノ酸配列（「重鎖配列」とも称する）、又は、軽鎖（Ｌ鎖）部分のアミノ酸配列（「軽鎖配列」とも称する）がそれぞれに測定され、解析される。換言すれば、次世代シーケンサ２０は、抗体の重鎖配列と軽鎖配列の組合せを特定できない場合でも、重鎖配列と軽鎖配列を特定できている。次世代シーケンサ２０は、重鎖配列を示す配列情報及び評価結果情報と、軽鎖配列を示す配列情報及び評価結果情報と、を区分して出力する。
ただし、本発明は、これに限らず、次世代シーケンサ２０は、重鎖と軽鎖を一括測定し、重鎖配列及び軽鎖配列を示す配列情報と評価結果情報を出力してもよい。

【0053】

図２は、ラウンド１のパニングの解析結果情報として、次世代シーケンサ２０が、結合抗体の配列情報として、重鎖配列Ａ、重鎖配列Ｂ、軽鎖配列Ｃ、及び、軽鎖配列Ｄを出力することを示す。また、図２は、ラウンド１のパニングの結果情報として、重鎖配列Ａの出現頻度Ａ１、重鎖配列Ｂの出現頻度Ｂ１、軽鎖配列Ｃの出現頻度Ｃ１、及び、軽鎖配列Ｄの出現頻度Ｄ１を出力することを示す。

【0054】

上記において、次世代シーケンサ２０は、一連のパニングから得られる配列情報及び評価結果情報に基づいて、結合抗体の塩基配列を決定する。
なお、パニングは、図２の一連のパニングを１回のセットとして、複数のセットについて、各一連のパニングが行われても良い。例えば、全セットの一連のパニングは、標的抗原が同じである。少なくとも１セットの一連のパニングは、他の一連のパニングに対して、抗体ライブラリ及び実験条件の少なくとも一つが異なる。

【0055】

サーバ３０は、一連のパニングにおいて、ラウンド１～Ｍのパニングの各々について、学習データセットを取得し、これらの学習データセットに基づいた学習する。ここで、学習データセットには、少なくとも1回のラウンドの学習データセット、つまり、ラウンドＩのパニング後の配列に関する学習データセット、が含まれる。

【0056】

また、一連のパニングでは、あるラウンド（例えば、Ｎ＋１回目）のパニングは、先のラウンド（例えば、Ｎ回目）のパニングにおいて出現した抗体（親和性がある抗体の一例）と標的抗原とを用いて、パニングが行われる。ここで、出現した抗体とは、予め定めた閾値より出現頻度が高い抗体であっても良いし、出現頻度が予め定めた順位より上位の抗体であっても良い。
このように、一連のパニングでは、先のラウンドのパニングにおいて出現した抗体に対して、標的抗原を用いて後のパニングが行われる。情報処理システム１は、これらのパニングの学習データセットを取得して、学習する。

【0057】

これにより、一連のパニングの学習データセットがない場合と比較して、出現頻度の高い抗体の学習データセットを多くできる。したがって、情報処理システム１は、出現頻度の高い抗体の特徴を、より顕著にすることができる。又は、情報処理システム１は、全てのパニングにおいて大量の種類の抗体を用いたパニングの学習データセットを学習する場合と比較して、抗体の種類を絞り込んでいくことができる。これにより、情報処理システム１は、処理時間又は処理負荷を軽減することができる。

【0058】

＜ユーザ端末＞
図３は、本実施形態に係るユーザ端末１０の一例を示すブロック図である。
ユーザ端末１０は、通信部１１、入力部１２、記憶部１３、処理部１４、及び表示部１５を含んで構成される。

【0059】

通信部１１は、ネットワークＮＷを介して各種通信を行う通信モジュールである。通信部１１は、例えば、サーバ３０との間で、各種通信を行う。
入力部１２は、例えば、キーボードやタッチパネルなどの入力装置である。入力部１２は、ユーザ操作に基づく入力情報を受け付ける。入力部１２は、受け付けた入力情報を処理部１４に出力する。
記憶部１３は、例えば、ハードディスクドライブ、メモリなどの記憶装置である。記憶部１３は、ファームウェアやアプリケーションプログラムなど、処理部１４が実行するための各種プログラム、及び、処理部１４が実行した処理の結果などを記憶する。

【0060】

処理部１４は、中央演算装置（ＣＰＵ）などのプロセッサである。処理部１４は、例えば、入力部１２から入力された入力情報などの各種情報を、通信部１１を介して、サーバ３０へ送信する。サーバ３０は、入力情報と出力情報の対応情報（例えば、学習済みモデル、テーブル）を予め記憶し、入力情報に対して出力情報を生成する。処理部１４は、サーバ３０が生成した出力情報を、通信部１１を介して受信する。処理部１４は、受信した出力情報を、表示部１５に表示（出力の一例）させる。
なお、処理部１４は、記憶部１３が対応情報を記憶する場合には、入力情報に対して対応情報を読み出し、出力情報を生成し、表示部１５に表示部させても良い。

【0061】

表示部１５は、例えば、有機エレクトロルミネッセンスディスプレイ、液晶ディスプレイなどのディスプレイである。表示部１５は、処理部１４が生成する表示情報に従って、表示を行う。

【0062】

＜ユーザ端末における画面フロー＞
図４は、本実施形態に係る画面フローの一例を示す図である。
この図は、表示部１５が表示する画面フローの一例である。画面Ｄ１１は、入力部１２が入力情報を受け付ける画面である。画面Ｄ１２は、分類基準を設定する画面であり、ボタンＢＴ１１１を押下すると表示される。画面Ｄ１２は、画面Ｄ１１の項目を入力後、検索ボタンが押下された後、処理部１４が出力情報を表示させた画面である。

【0063】

画面Ｄ１１において、入力部１２は、入力情報として、例えば、標的抗原情報（図中の「標的抗原」）、実験情報（図中の「実験」）、実験抗体情報（図中の「抗体」）、実験属性情報（図中の「実験条件」）、分類基準情報（図中の「分類基準」）、注目位置情報（図中の「注目位置」）、及び、変異情報の少なくとも１つを受け付ける。ここで、標的抗原情報は、標的抗原を特定可能な情報である。標的抗原情報は、例えば、標的抗原の名称であるが、抗原の配列や抗原の識別子であっても良い。実験情報は、一連のパニング（「パニンググループ」とも称する）又はラウンド（１回のパニング）を識別する情報や実験の内容を示す情報など、実験を特定可能な情報である。実験抗体情報は、パニングに供される抗体の集合を特定可能な情報である。実験抗体情報は、例えば、ラウンド１のパニングに供される抗体ライブラリを識別する名称などである。ただし、本発明はこれに限らず、実験抗体情報は、１又は複数の抗体の名称やアミノ酸配列であっても良い。
実験属性情報は、パニングにおいて評価ごとに変更可能な条件を示す情報である。実験属性情報は、例えば、上述した実験条件や各実験により得られた溶出ファージの感染タイター（ｃｆｕ）を示す情報である。

【0064】

分類基準情報（親和性評価での親和性に関する基準の一例）は、学習段階において、抗体が結合抗体であるか、又は、非結合抗原であるかを分類する分類基準を示す情報である。実験段階において、パニングを例とする特性評価実験で単離された配列群の中には望みの特性を有していない配列も含まれることがある。ユーザが入力した分類基準情報が設定されることで、サーバ３０は、学習段階において、次世代シーケンサ２０が解析した抗体について、再度、結合抗体であるか、非結合抗体であるか、を分類できる。これにより、サーバ３０は、実験段階で誤って結合抗体と判定された抗体を、学習段階で非結合抗体と判定できる場合がある。この場合、情報処理システム１は、結合抗体の精度を上げることができ、分類精度を向上できる。
分類基準情報は、出現頻度又はラウンド間の出現頻度の変化率の閾値である。これらの閾値は、ラウンドごとに設定されても良いし、一連のパニングごとに設定されても良い。

【0065】

また、分類基準情報には、複数の候補（図中の基準１、基準２、基準３）の情報（分類基準候補情報とも称する）が含まれている。なお、各基準１、２、３では、３個の閾値が入力されている。閾値は、ラウンド毎の出現頻度、又は、ラウンド間の出現頻度の変化率を設定可能である。学習段階では、複数の分類基準候補情報が示す各基準で抗体が分類され、第一および第二の学習済みモデルが生成される。このうち、サーバ３０は、これらの第一および第二の学習済みモデルのうち、精度の高い（解析結果情報の再現性が高い）学習済みモデルを選択する。このように、サーバ３０は、結合抗体と非結合抗原を分類する分類基準についても、複数の候補を検証する。これにより、情報処理システム１は、分類基準を固定する場合と比較して、分類精度を向上できる。

【0066】

注目位置情報は、抗体でのアミノ酸の位置（ポジション）を示す情報である。注目位置情報は、学習対象となる配列情報を、抗体での特定の位置のみの配列情報に絞り込むために用いられる。例えば、注目位置情報は、抗体の可変領域のうち、標的抗原との結合に重要であると想定されるアミノ酸の位置を示す情報である。
ユーザが入力した注目位置情報が設定されることで、サーバ３０は、配列情報を、注目位置情報が示す一部の配列情報に絞り込んで（第一および第二の学習モデルで）学習を行う。これにより、情報処理システム１は、配列情報を注目部分に短くできるので、全配列を学習する場合と比較して、学習による処理時間や処理負荷を軽減することができる。また、注目位置情報が設定できるので、分類精度の良い部分で、学習することができる。
なお、注目位置情報は、コンピュータからの入力により自動で設定されてもよい。

【0067】

変異情報は、抗体でのアミノ酸の位置（ポジション）を示す情報である。変異情報は、予測スコアを算出する抗体の配列（「予測対象配列」と称する）について、配列情報を変化させる部分を絞り込むために用いられる。変異情報は、例えば、他の親和性評価において、解離定数が改善したポジションや、標的抗原の構造情報などに基づいて、標的抗原との結合に重要であると想定されるアミノ酸の位置を示す情報である。
なお、変異情報は、ユーザから入力された位置であってもよいし、コンピュータから入力された位置であってもよい。

【0068】

画面Ｄ１２において、処理部１４は、出力情報として、標的抗原情報（図中の「標的抗原」）、標的抗原に結合する抗体の候補を表す候補抗体情報（図中の「抗体候補」）、及び、標的抗原との結合の度合いを示す予測スコアを表示させている。処理部１４は、候補抗体情報について、その結合の度合いの高いもの（例えば、上位２０位）を、度合いの高い順序で、表示部１５に表示させる。すなわち、表示部１５は、標的抗原との結合の度合いに応じて、候補抗体情報を出力する。
なお、予測スコアは、結合する確率であっても良いし、出現頻度の値そのものであっても良いし、出現頻度の最大値で正規化された値であっても良い。また、出現頻度に何らかの演算を行って得られる値であっても良い。

【0069】

以下、図４の画面のユースケースについて説明する。
画面Ｄ１１において、ユーザは、基本設定として、少なくとも、標的抗原情報又は実験情報のいずれかを設定する。標的抗原情報又は実験情報のいずれかの設定は、必須であるが、その他の項目の設定は任意である。ユーザは、実験情報として、パニンググループ又はラウンドから、一又は複数の組み合わせを指定することができる。
画面Ｄ１１において、ユーザは、検索条件として、抗体情報、又は実験抗体情報を設定できる。画面Ｄ１１で検索条件が設定された場合、画面Ｄ１２には、設定された検索条件を満たす候補抗体情報が出力される。

【0070】

画面Ｄ１１において、ユーザは、画面Ｄ１１の分類基準情報の設定として、複数の分類基準の各々を、編集又は追加することができる。ユーザは、各基準を指定して、カテゴリ（出現頻度又は変化率）、ラウンド回数、及び、カテゴリの閾値を設定できる。
画面Ｄ１１において、ユーザは、注目位置の設定として、注目位置情報を設定できる。
画面Ｄ１１において、ユーザは、予測対象の検索条件の設定として、変異情報を設定できる。画面Ｄ１１で変異情報が設定された場合、画面Ｄ１２には、変異情報が示す位置でアミノ酸配列が異なる候補抗体情報が出力される。換言すれば、この場合、画面Ｄ１２には、変異情報が示す位置以外では、アミノ酸配列が同じ候補抗体情報が出力される。

【0071】

＜次世代シーケンサ＞
図５は、本実施形態に係る次世代シーケンサ２０の一例を示すブロック図である。
次世代シーケンサ２０は、通信部２１、入力部２２、記憶部２３、塩基配列測定部２４、制御部２５、及び表示部２６を含んで構成される。

【0072】

通信部２１は、ネットワークＮＷを介して各種通信を行う通信モジュールである。通信部２１は、例えば、サーバ３０との間で、各種通信を行う。ただし、本発明はこれに限らず、次世代シーケンサ２０は、通信部２１に代えて或いは加えて、記憶媒体にデータを出力する出力ポートを備えてもよい。
入力部２２は、例えば、キーボードやタッチパネルなどの入力装置である。入力部２２は、ユーザ操作に基づく入力情報を受け付ける。入力部２２は、受け付けた入力情報を制御部２５に出力する。
記憶部２３は、例えば、ハードディスクドライブ、メモリなどの記憶装置である。記憶部２３は、ファームウェアやアプリケーションプログラムなど、制御部２５が実行するための各種プログラム、及び、制御部２５が実行した処理の結果などを記憶する。

【0073】

塩基配列測定部２４は、塩基配列を測定するシーケンサである。塩基配列測定部２４には、パニングの結果の試料が配置される。塩基配列測定部２４は、制御部２５の命令に従って、配置された試料から、その試料に含まれる塩基配列を測定する。塩基配列測定部２４は、測定結果を、制御部２５へ出力する。

【0074】

制御部２５は、中央演算装置（ＣＰＵ）などのプロセッサである。制御部２５は、例えば、入力部２２からの入力に基づいて塩基配列測定部２４を制御することで、次世代シーケンシングの制御を行う。制御部２５は、塩基配列測定部２４による測定結果を解析することで、試料に含まれる抗体の各々について、配列情報を算出する。この配列情報は、各抗体の重鎖配列又は軽鎖配列の配列情報である。
制御部２５は、入力部２２から入力された入力情報、算出した配列情報及び出現頻度が対応づけられた解析結果情報（図７、図８参照）、及び算出した配列情報が対応づけられた解析結果情報を生成する。ここで、入力情報には、例えば、一連のパニングを識別するパニンググループＩＤ、パニングに供された標的抗原情報、ラウンドの回数を示すラウンド回数、各ラウンドでの測定された抗体を示す測定抗体情報、一連のパニングでの実験条件情報が含まれる。
制御部２５は、１又は複数のパニングについての解析結果情報を、通信部２１を介してサーバ３０へ送信する。また、制御部２５は、各種操作画面や情報の入力画面、次世代シーケンシングの進捗に関する各種情報などを、表示部２６に表示させる。
なお、入力情報には、塩基配列測定部２４の制御に用いる設定情報が含まれても良い。また、各配列情報の出現頻度は、サーバ３０によって解析結果情報を用いて算出される。ただし、本発明はこれに限らず、次世代シーケンサ２０や他のコンピュータが、解析結果情報を用いて、各配列情報の出現頻度を算出してもよい。

【0075】

表示部２６は、例えば、有機エレクトロルミネッセンスディスプレイ、液晶ディスプレイなどのディスプレイである。表示部２６は、制御部２５が生成する表示情報に従って、表示を行う。

【0076】

＜サーバ＞
図６は、本実施形態に係るサーバ３０の一例を示すブロック図である。
サーバ３０は、通信部３１、記憶部３２、及び処理部３３を含んで構成される。

【0077】

通信部３１は、ネットワークＮＷを介して各種通信を行う通信モジュールである。通信部３１は、例えば、ユーザ端末１０又は次世代シーケンサ２０との間で各種通信を行う。
記憶部３２は、例えば、ハードディスクドライブ、メモリなどの記憶装置である。記憶部３２は、ファームウェアやアプリケーションプログラムなど、処理部３３が実行するための各種プログラム、及び、処理部３３が実行した処理の結果などを記憶する。
処理部３３は、中央演算装置（ＣＰＵ）などのプロセッサである。処理部３３は、例えば、通信部３１から入力された入力情報と記憶部３２に記憶する情報に基づいて、入力情報に対する出力情報を生成する。通信部３１は、生成した出力情報を、通信部３１を介して、ユーザ端末１０へ送信する。

【0078】

具体的には、処理部３３は、次世代シーケンサ２０からの解析結果情報を、通信部３１を介して取得し、データセットとして記憶部３２に記憶する。この際、処理部３３は、取得した情報に含まれる塩基配列を、対応するアミノ酸配列に変換する。処理部３３は、記憶したデータセットに基づいて学習データセットを生成し、生成した学習データセットに基づいて学習する。
例えば、処理部３３は、まず、所望の出現頻度（例えば閾値以上）の配列情報を選択する。処理部３３は、選択した配列情報の配列の特徴を学習することで、配列学習済みモデルを生成する。次に、処理部３３は、パニンググループＩＤ又は標的抗原情報ごとに、配列情報、及び、ラウンド回数ごとの出現頻度或いはラウンド間の出現頻度の変化率に応じた結合判定情報を、学習データセットとして学習する。処理部３３は、学習結果として、特性予測学習済みモデルを生成する。
処理部３３は、配列の特徴を学習した配列学習済みモデルと、予測スコアを予測するための特性予測学習済みモデルを、学習結果として記憶部３２に記憶する。

【0079】

処理部３３は、ユーザ端末１０からの入力情報（例えば、標的抗原情報、実験情報、実験抗体情報、実験属性情報、分類基準情報、注目位置情報、及び、変異情報）を、通信部３１を介して取得する。処理部３３は、配列学習済みモデルを用いて、予測対象配列情報を生成する。処理部３３は、予測対象配列情報を、特性予測学習済みモデルへ入力して、予測スコアを出力する。処理部３３は、予測スコアに応じて、標的抗原に結合する抗体の候補を表す候補抗体情報を生成する。処理部３３は、生成した候補抗体情報を、通信部３１を介してユーザ端末１０へ送信する。

【0080】

＜サーバの記憶部＞
記憶部３２について、詳細を説明する。記憶部３２は、実験情報記憶部３２１、データセット記憶部３２２、分類基準記憶部３２３、学習データセット記憶部３２４、注目位置情報記憶部３２５、学習結果記憶部３２６、変異情報記憶部３２７、配列記憶部３２８、及び、特性評価情報記憶部３２９を含んで構成される。

【0081】

実験情報記憶部３２１は、実験情報（図７参照）及び実験属性情報（図８参照）を記憶する。これらの情報は、次世代シーケンサ２０からの解析結果情報に含まれ、処理部３３によって入力される。
データセット記憶部３２２は、一連のパニングで測定された抗体ごとに、配列情報、及び評価結果情報（ラウンドごとの出現頻度及びラウンド間の出現頻度の変化率）を、データセットとして記憶する。ここで、データセット記憶部３２２は、重鎖配列についてのデータセット（図９参照）と軽鎖配列についてのデータセット（図１０参照）を区別して記憶する。これらのデータセットは、次世代シーケンサ２０からの解析結果情報に含まれ、処理部３３によって入力される。
入力するデータセットは必ずしも重鎖配列と軽鎖配列の両方を入力する必要はなく、重鎖配列のみ、軽鎖配列のみのデータセットでもよい。また、重鎖配列と軽鎖配列を一度に読んだデータセットでもよい連結させた１つの結合配列として入力することも可能である。

【0082】

分類基準記憶部３２３（基準記憶部の一例）は、分類基準情報を記憶する。上述のとおり、分類基準情報には、複数の分類基準候補情報が含まれている。この情報は、ユーザ端末１０からの入力情報に含まれ、処理部３３によって設定される。ただし、本発明はこれに限らず、分類基準情報（複数の分類基準候補情報）は、予め分類基準記憶部３２３に設定されていても良い。
学習データセット記憶部３２４は、重鎖配列と軽鎖配列の組み合わせを含む抗体ごとに、その配列情報、及び評価結果情報（ラウンドごとの出現頻度及びラウンド間の出現頻度の変化率）に応じた結合判定情報を、学習データセットとして記憶する。ただし、学習データセット記憶部３２４は、重鎖配列と軽鎖配列を別々に、その配列情報、及び評価結果情報に応じた結合判定情報を、学習データセットとして記憶してもよい。

【0083】

注目位置情報記憶部３２５は、注目位置情報を記憶する。この情報は、ユーザ端末１０からの入力情報に含まれ、処理部３３によって設定される。
学習結果記憶部３２６は、予測対象配列生成部ＰＡにより生成された配列学習済みモデルと、学習部３３４により生成された特性予測学習済みモデルを記憶する。
変異情報記憶部３２７は、変異情報を記憶する。この情報は、ユーザ端末１０からの入力情報に含まれ、処理部３３によって設定される。
配列記憶部３２８は、予測対象配列のアミノ酸配列を示す予測対象配列情報を記憶する。この予測対象配列情報は、処理部３３により、配列学習済みモデルを用いて生成され、設定される。
特性評価情報記憶部３２９は、予測対象配列の各々について、処理部３３が特性予測学習済みモデルを用いて予測した予測スコアを関連付けて記憶する。

【0084】

以下、記憶部３２が記憶する実験情報、実験属性情報、データセット、学習データセット、及び、予測対象配列情報の一例について、図７～図１２を用いて説明する。

【0085】

図７は、本実施形態に係る実験情報の一例を示す図である。
この図に示す一例では、実験情報は、パニンググループを識別するパニンググループＩＤごとに、標的抗原情報、抗体ライブラリ、データセット、実験条件ＩＤ、ラウンド２実験条件ＩＤ、及び、ラウンド３実験条件ＩＤの各項目が対応付けられたリレーショナルデータベースである。ここで、抗体ライブラリは、実験抗体情報の一つであり、ラウンド１で供した抗体ライブラリを示す。データセットは、パニンググループＩＤで識別されるパニングについて、解析結果情報に基づくデータセットのファイルを示す。実験条件ＩＤは、実験属性情報を識別する識別情報であり、ラウンド１の実験条件を示す。ラウンド２実験条件ＩＤ、ラウンド３実験条件ＩＤは、それぞれ、ラウンド２の実験条件を示す実験条件ＩＤであり、ラウンド３の実験条件を示す実験条件ＩＤである。
この図に示す一例では、「パニンググループＩＤ」が“Ｐ１”の一連のパニングでは、「標的抗原」が“抗原１”、「抗体ライブラリ」が“ライブラリ１”であることを示す。また、“Ｐ１”の一連のパニングについて、データセットのファイルのうち、重鎖配列のファイルが“Ｈ１２３４５．ｃｓｖ”であり、軽鎖配列のファイルが“Ｌ５４３２１．ｃｓｖ”であることを示す。また、“Ｐ１”の一連のパニングでは、ラウンド１の実験条件が“条件１”であり、ラウンド２の実験条件が“条件２”、ラウンド３の実験条件が“条件３”であることを示している。

【0086】

図８は、本実施形態に係る実験属性情報の一例を示す図である。
この図に示す一例では、実験属性情報は、実験条件ＩＤごとに、抗体ディスプレイ手法、抗体の由来、標的抗原の濃度、バッファーの組成、反応時間、反応温度の各項目が対応付けられたデータベースである。なお、データベースは、リレーショナルデータベースである一例を示すが、本発明はこれに限らず、ＣＳＶファイル等のテキストファイルやＮｏＳＱＬであってもよい（以下、同じ）。
この図に示す一例では、「実験条件ＩＤ」が“Ｐ１”の実験条件は、「抗体ディスプレイ手法」が“ファージ”、「抗体の由来」が“マウス”、「標的抗原の濃度」が“１（ｎＭ）”、「バッファー組成」が“組成Ａ”、「反応時間」が“Ｔ０”で、「反応温度」が“ｔ１”であることを示している。
なお、上述のように、バッファー組成は、水素イオン指数であっても良い。

【0087】

図９は、本実施形態に係るデータセットの一例を示す図である。
この図のデータセットは、パニンググループＩＤが“Ｐ１”と対応付けられ、ファイル名が“Ｈ１２３４５．ｃｓｖ”である。つまり、この図のデータセットは、“Ｐ１”の一連のパニングにおける解析結果情報から生成され、重鎖配列の抗体のデータセットであることを示す。
この図に示す一例では、データセットは、配列ＩＤごとに、抗体の配列情報（Ｈ１、Ｈ２、・・・、Ｈ３５ａ、Ｈ３５ｂ、Ｈ３６、・・・）、ラウンド１での出現頻度、ラウンド２での出現頻度、ラウンド３での出現頻度、変化率（１→２）、変化率（２→３）の各項目が対応付けられたデータベースである。ここで、「配列ＩＤ」は、抗体の配列を識別するための識別子を示す。

【0088】

「Ｈ１」、「Ｈ２」、「Ｈ３５ａ」、「Ｈ３５ｂ」、「Ｈ３６」は、Kabatナンバリングに基づき抗体重鎖の可変領域におけるアミノ酸の位置を表し、「H」は重鎖であることを示している。
変化率（Ｎ→Ｎ＋１）は、ラウンドＮとラウンドＮ＋１の間での出現頻度の変化の割合を示し、この図の一例では、ラウンドＮ＋１の出現頻度をラウンドＮの出現頻度で除した値である。なお、変化率は、サーバ３０が算出しても良い。
この図に示す一例では、「配列ＩＤ」が“ＶＨ００１”で識別される抗体は、そのアミノ酸配列について、ポジション「Ｈ１」のアミノ酸が“Ｍ（メチオニン）”、ポジション「Ｈ２」のアミノ酸が“Ｅ（グルタミン酸）”、ポジション「Ｈ３５ａ」のアミノ酸が“Ｐ（プロリン）”、ポジション「Ｈ３５ｂ」のアミノ酸が“Ｓ（セリン）”、ポジション「Ｈ３６」のアミノ酸が“Ｑ（グルタミン）”であることを示す。また、“ＶＨ００１”で識別される抗体は、評価結果情報として、「ラウンド１での出現頻度」が“１０”、「ラウンド２での出現頻度」が“２５”、「ラウンド３での出現頻度」が“５０”、「変化率（１→２）」が“２．５０”、「変化率（２→３）」が“２．００”であることを示す。

【0089】

図１０は、本実施形態に係るデータセットの別の一例を示す図である。
この図のデータセットは、パニンググループＩＤが“Ｐ１”と対応付けられ、ファイル名が“Ｌ５４３２１．ｃｓｖ”である。つまり、この図のデータセットは、“Ｐ１”の一連のパニングにおける解析結果情報から生成され、軽鎖配列の抗体のデータセットであることを示す。
この図に示す一例では、データセットは、配列ＩＤごとに、抗体の配列情報（Ｌ１、Ｌ２、・・・、Ｌ２７、・・・）、ラウンド１での出現頻度、ラウンド２での出現頻度、ラウンド３での出現頻度、変化率（１→２）、変化率（２→３）の各項目が対応付けられたデータベースである。

【0090】

「Ｌ１」、「Ｌ２」、「Ｌ２７」は、抗体でのアミノ酸の位置が予め対応付けられている。これらの項目の各々は、抗体軽鎖の可変領域における位置を示し、その値（図中では英字）はその位置に位置するアミノ酸を表す。なお、図１０と図９のデータセットでは、抗体の配列情報が、抗体重鎖の可変領域における位置を示すものか、抗体軽鎖の可変領域における位置を示すものかで異なる。
この図に示す一例では、「配列ＩＤ」が“ＶＬ００１”で識別される抗体は、そのアミノ酸配列について、ポジション「Ｌ１」のアミノ酸が“Ｍ”、ポジション「Ｌ２」のアミノ酸が“Ｆ（フェニルアラニン）”、ポジション「Ｌ２７」のアミノ酸が“Ａ（アラニン）”であることを示す。また、“ＶＬ００１”で識別される抗体は、評価結果情報として、「ラウンド１での出現頻度」が“８”、「ラウンド２での出現頻度」が“２０”、「ラウンド３での出現頻度」が“４０”、「変化率（１→２）」が“２．５０”、「変化率（２→３）」が“２．００”であることを示す。

【0091】

図１１は、本実施形態に係る学習データセットの一例を示す図である。
学習データセットは、パニングループＩＤ及び分類基準候補情報ごとに、記憶されている。この図の学習データセットは、パニングループＩＤが“Ｐ１”、分類基準候補情報が“基準１”の学習データセットの集合である。
この図に示す一例では、データセットは、配列ＩＤごとに、抗体の配列情報（Ｈ１、Ｈ２、・・・、Ｈ３５ａ、Ｈ３５ｂ、Ｈ３６、・・・、Ｌ１、Ｌ２、・・・、Ｌ２７、・・・）、ラウンド１での出現頻度、ラウンド２での出現頻度、ラウンド３での出現頻度、変化率（１→２）、変化率（２→３）、及び、結合判定情報の各項目が対応付けられたデータベースである。結合判定情報は、“基準１”の下で、抗体が結合抗体であるか非結合抗体であるかを示す。
この図に示す一例では、「予測対象配列ＩＤ」が“ＶＨＬ０００１”で識別される抗体は、そのアミノ酸配列について、ポジション「Ｈ１」のアミノ酸が“Ｍ”、ポジション「Ｈ２」のアミノ酸が“Ｅ”、ポジション「Ｈ３５ａ」のアミノ酸が“Ｐ”、ポジション「Ｈ３５ｂ」のアミノ酸が“Ｓ”、ポジション「Ｈ３６」のアミノ酸が“Ｑ”、ポジション「Ｌ１」のアミノ酸が“Ｍ”、ポジション「Ｌ２」のアミノ酸が“Ｆ”、ポジション「Ｌ２７」のアミノ酸が“Ａ”であり、「結合判定」が“結合”（結合抗体）であることを示す。

【0092】

サーバ３０は、結合配列の特徴を学習した配列学習済みモデルによって、図１２のようなその特徴を有する仮想配列群を生成する。
上記により、結合配列群を定義する。配列学習済みモデルは、望ましい配列群では、どのポジションのどのアミノ酸が出現しやすいか、そのポジション以前のアミノ酸群が何かによりそのポジションのアミノ酸には何が出現しやすいか、を学習した学習済みモデルである。サーバ３０は、配列学習済みモデルに基づき、望ましい性質を持つと思われる多くの配列を生成する。

【0093】

図１２は、本実施形態に係る予測対象配列情報の一例を示す図である。
予測対象配列情報は、予測対象配列を示す情報である。
この図に示す一例では、予測対象配列情報は、配列ＩＤごとに、抗体の配列情報（Ｈ１、Ｈ２、・・・、Ｈ３５ａ、Ｈ３５ｂ、Ｈ３６、・・・、Ｌ１、Ｌ２、・・・、Ｌ２７、・・・）が対応付けられたデータベースである。
この図に示す一例では、「予測対象配列ＩＤ」が“Ｖ０００００１”で識別される抗体は、予測スコアを算出する抗体であり、そのアミノ酸配列について、ポジション「Ｈ１」のアミノ酸が“Ｍ”、ポジション「Ｈ２」のアミノ酸が“Ｅ”、ポジション「Ｈ３５ａ」のアミノ酸が“Ｄ（アスパラギン酸）”、ポジション「Ｈ３５ｂ」のアミノ酸が“Ｓ”、ポジション「Ｈ３６」のアミノ酸が“Ｒ（アルギニン）”、ポジション「Ｌ１」のアミノ酸が“Ｍ”、ポジション「Ｌ２」のアミノ酸が“Ｆ”、ポジション「Ｌ２７」のアミノ酸が“Ａ”であることを示す。
この図に示す一例では、例えば、変異情報として、Ｈ３５ａ、Ｈ３６が入力された場合の予測対象配列情報である。つまり、複数の予測抗体配列の間で、配列情報のうちＨ３５ａ、Ｈ３６が示す位置ではアミノ酸が異なるが、他の位置ではアミノ酸が同一である。

【0094】

図１３は、本実施形態に係る特性評価情報の一例を示す図である。
特性評価情報は、学習結果と予測対象配列とを用いて、予測対象配列の特性を予測する場合の予測の結果を示す情報である。
この図に示す一例では、特性評価情報は、配列ＩＤごとに、予測スコアが対応付けられたデータベースである。予測スコアは、標的抗原と結合する確率や強さを示す情報である。
この図に示す一例では、「予測対象配列ＩＤ」が“Ｖ０００００１”で識別される抗体の「予測スコア」は、まだ予測が行われていないため、空欄となっている。

【0095】

＜サーバの処理部＞
図６に戻って、処理部３３について、詳細を説明する。
処理部３３は、情報取得部３３１、推定部３３２、分類部３３３、予測対象配列生成部ＰＡ、学習部３３４、制御部３３５、及び、出力処理部３３６を含んで構成される。

【0096】

情報取得部３３１は、次世代シーケンサ２０からの解析結果情報から、実験情報（図７参照）及び実験属性情報（図８参照）を取得し、これらの情報を実験情報記憶部３２１に記憶させる。情報取得部３３１は、次世代シーケンサ２０からの解析結果情報から、配列情報を取得する。情報取得部３３１は、解析結果情報中の配列情報毎に出現頻度を算出し、配列情報及び出現頻度をデータセットとして生成する。ここで、情報取得部３３１は、データセットを、重鎖配列と軽鎖配列で区分する。具体的には、情報取得部３３１は、重鎖配列を示す配列情報及び評価結果情報を、重鎖配列の抗体のデータセット（図９参照）とし、そのファイルを実験情報（例えばパニンググループＩＤ）と関連付けて、データセット記憶部３２２に記憶させる。情報取得部３３１は、軽鎖配列を示す配列情報及び評価結果情報を、軽鎖配列の抗体のデータセット（図１０参照）とし、そのファイルを実験情報と関連付けて、データセット記憶部３２２に記憶させる。

【0097】

情報取得部３３１は、ユーザ端末１０から分類基準情報を取得した場合には、その分類基準情報を、分類基準記憶部３２３に記憶させる。情報取得部３３１は、ユーザ端末１０から注目位置情報を取得した場合には、その注目位置情報を、注目位置情報記憶部３２５に記憶させる。情報取得部３３１は、ユーザ端末１０から変異情報を取得した場合には、その変異情報を、変異情報記憶部３２７に記憶させる。

【0098】

推定部３３２は、一連のパニングでのラウンド回数と出現頻度に基づいて、重鎖配列と軽鎖配列の組み合わせを推定する。推定部３３２は、推定した組み合わせの重鎖配列と軽鎖配列を含む抗体が存在したと推定する。
具体的には、推定部３３２は、例えば、重鎖配列と軽鎖配列の各組み合わせについて、ラウンド回数ごとの出現頻度の相関係数を算出する。推定部３３２は、相関係数の最も高い組み合わせについて、その組み合わせの重鎖配列と軽鎖配列を含む抗体が存在したと推定する。推定部３３２は、相関係数の最も高い組み合わせの重鎖配列と軽鎖配列を除き、それ以外の重鎖配列と軽鎖配列の各組み合わせについて、ラウンド回数ごとの出現頻度の相関係数を算出して、推定部３３２の上記処理を繰り返す。
このように、推定部３３２は、一連のパニングにおいて、複数回のラウンドでの出現頻度の相関関係によって、重鎖配列と軽鎖配列の組み合わせを推定する。これにより、情報処理システム１は、パニングしない場合と比較して、より精度良く抗体（重鎖配列と軽鎖配列の組み合わせ）を推定できる。

【0099】

推定部３３２は、存在すると推定した抗体が含む、重鎖配列と軽鎖配列の組み合わせ（「存在抗体配列」とも称する）を、データセット記憶部３２２に記憶させる。なお、推定部３３２は、例えば、ラウンド回数ごとの出現頻度の相関関数に代えて、ラウンド間の出現率の変化率、又は出現率の差の相関係数を算出しても良い。推定部３３２は、例えば、ラウンド回数ごとの出現頻度、ラウンド間の出現率の変化率、又は出現率の差の相関係数のいずれかが同一（略同一を含む）である重鎖配列と軽鎖配列について、その重鎖配列と軽鎖配列を含む抗体が存在したと推定しても良い。

【0100】

ただし、本発明はこれに限らず、処理部３３は、別の手法で重鎖配列と軽鎖配列の組み合わせを推定してもよい。
また、処理部３３は、組合せを推定しなくてもよく、その場合、推定部３３２を備えなくてもよい。例えば、処理部３３は、重鎖配列のみの解析、軽鎖配列のみの解析を行ってもよい。その場合、処理部３３は、重鎖配列（又は軽鎖配列）を、存在抗体配列として、データセット記憶部３２２に記憶させてもよい。
また、解析結果情報に抗体全体の配列情報が含まれる場合、処理部３３は、解析結果情報に含まれる抗体全体の配列情報を、存在抗体配列として、データセット記憶部３２２に記憶させる。例えば、情報取得部３３１は、次世代シーケンサ２０が重鎖配列と軽鎖配列を一度に読みこむことができる場合、解析結果情報として、重鎖配列と軽鎖配列の組み合わせた配列の配列情報を取得し、データセット記憶部３２２に記憶させる。

【0101】

分類部３３３は、分類基準記憶部３２３の分類基準情報から、複数の分類基準候補情報を読み出す。分類部３３３は、各分類基準候補情報が示す分類基準に従って、存在抗体配列が示す抗体について、結合抗体であるか又は非結合抗体であるかを分類する。
具体的には、分類部３３３は、存在抗体配列のラウンドごとの出現頻度（又はラウンド間の出現頻度の変化率）が、分類基準情報の出現頻度（又は変化率）の閾値以上であるか否かを判定する。分類部３３３は、存在抗体配列の出現頻度（又は変化率）が閾値以上と判定した場合、存在抗体配列が示す抗体を結合抗体であると判定する。一方、それ以外の場合（存在抗体配列の出現頻度（又は変化率）が閾値より小さい場合）、分類部３３３は、存在抗体配列が示す抗体を非結合抗体であると判定する。

【0102】

ここで、分類部３３３は、ある分類基準情報において、複数の項目毎に閾値が設定されている場合（図４参照）、それらの全ての項目が閾値以上と判定した場合、存在抗体配列が示す抗体を結合抗体であると判定する。図４の一例の場合、分類部３３３は、基準１において、ラウンド１の出現頻度がＸ１以上、ラウンド１とラウンド２の出現頻度の変化率がＹ１以上、ラウンド１とラウンド３の出現頻度の変化率がＺ１以上、である場合に、存在抗体配列が示す抗体を結合抗体であると判定する。それ以外の場合、分類部３３３は、存在抗体配列が示す抗体を非結合抗体であると判定する。

【0103】

なお、各ラウンドについて、存在抗体配列の出現頻度（又は変化率）は、重鎖配列もしくは軽鎖配列の出現頻度のいずれか一方（例えば、重鎖配列の出現頻度、軽鎖配列の出現頻度、出現頻度の最低値、又は出現頻度の最高値）であるが、重鎖配列と軽鎖配列の平均値などであっても良い。また、分類部３３３は、分類基準候補情報を追加しても良い。例えば、分類部３３３は、他の分類基準候補情報に含まれる閾値を、予め定めた値だけ変動させた値を閾値として、新たな分類基準候補情報を追加する。

【0104】

分類部３３３は、分類基準候補情報ごとに、結合抗体であると判定された存在抗体配列と、その評価結果情報（出現頻度及びその変化率）と、分類結果を示す結合判定情報と、を学習データセットとして学習データセット記憶部３２４に記憶させる。結合判定情報は、結合抗体であるか、又は非結合抗体であるかを表す。つまり、結合判定情報は、抗体が標的抗原に結合するか、又は結合しないか（非結合であるか）を示す情報である。
なお、結合判定情報は、存在抗体配列のラウンドごとの出現頻度（又はラウンド間の出現頻度の変化率）から分類基準情報の出現頻度（又は変化率）の閾値を差し引いた値でも良いし、分散や標準偏差に基づく値であってもよい。

【0105】

＜予測対象配列の生成処理＞
以下、予測対象配列生成部ＰＡが行う予測対象配列の生成処理について説明する。
予測対象配列生成部ＰＡは、配列選択部ＰＡ１、配列学習部ＰＡ２、及び仮想配列生成部ＰＡ３を含んで構成される。
配列選択部ＰＡ１は、学習データセット記憶部３２４から、分類基準候補情報ごとに、学習データセットを読み出す。配列選択部ＰＡ１は、注目位置情報記憶部３２５に注目情報が記憶されている場合、注目情報を読み出す。配列選択部ＰＡ１は、学習データセットの示す配列情報のうち、注目情報が示す位置の配列情報を取り出す。配列学習部ＰＡ２は、配列選択部ＰＡ１が取り出した配列情報（以下、「対象配列情報」、とも称する）と結合判定情報を含む、学習データセットを、学習処理に用いる。なお、配列学習部ＰＡ２は、注目位置情報記憶部３２５に注目情報が記憶されていない場合、全ての位置の配列情報を対象配列情報とし、対象配列情報と結合判定情報を含む学習データセットを、学習処理に用いる。

【0106】

配列選択部ＰＡ１は、分類基準候補情報ごとの学習処理の結果に基づいて、精度の高い分類基準を決定する。配列選択部ＰＡ１は、精度の高い分類基準の学習データセットを、選択する。
以下、配列選択部ＰＡ１が、学習モデルとして、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）を用いる学習処理について、詳細を説明する。ただし、本発明はこれに限らず、学習処理には他の学習モデルが用いられてもよい。

【0107】

＜学習処理＞
図１４は、本実施形態に係る配列学習部ＰＡ２が行う学習処理の一例を説明する説明図である。
学習処理に用いられるＬＳＴＭは、入力層、中間層、出力層の３層から構成される。図１４に示す例では、入力層をＸ_１、Ｘ_２、・・・Ｘ_Ｍ、中間層をＡ_１、Ａ_２、・・・Ａ_Ｍ、出力層をｈ_１、ｈ_２、・・・ｈ_Ｍで表す。入力層の各入力は、学習データセットにおける各ポジションのアミノ酸のうち、注目位置情報が示すポジションのアミノ酸である。なお、注目位置情報は、例えば、抗体における部位であって、配列上、連続する位置である。ただし、本発明はこれに限らず、連続しない位置を含んでいてもよい。注目位置情報が存在しない場合には、入力層の各入力は、学習データセットの全てのポジションのアミノ酸となる。

【0108】

ｔ番目（ｔ＝０、１、２、・・・、Ｍ）の中間層Ａ_ｔには、入力層Ｘ_ｔからの入力情報とｔ－１番目の中間層Ａ_ｔ－１からの出力情報が入力される。
各中間層Ａ_ｔに対して、複数のパラメータが記憶される。パラメータは、例えば、中間層内に存在する入力ゲート、入力判断ゲート、忘却ゲート、及び、出力ゲートの処理に係るパラメータである。なお、パラメータは予め記憶部３２に記憶される。
中間層Ａ_ｔは、入力層Ｘ_ｔからの入力情報と中間層Ａ_ｔ－１からの出力情報が入力された場合に、記憶部３２に記憶されたパラメータに基づいて、出力層ｈ_ｔの値を算出して出力する。

【0109】

ＬＳＴＭの学習処理が行われる場合、入力層Ｘ_ｔには、配列情報のｔ番目の配列のアミノ酸情報が入力される。アミノ酸情報は、２０個の成分を有するベクトルであり、各成分は、２０種類のアミノ酸の１つに対応する。例えば、そのベクトルの第４成分は、アミノ酸の種類「Ｅ」に対応する。本図のように、配列情報において、ポジションＨ２のアミノ酸が「Ｅ」である場合、第４成分のみが「１」で、それ以外の成分が「０」のベクトルとなる。なお、入力層Ｘ_０には、中間層Ａ_０に対して、出力層ｈ_０の値を出力させる命令（図中の「ＳＴＡＲＴ」）が入力される。この命令は、アミノ酸配列の出力開始を示す情報でもある。
ＬＳＴＭから出力された出力層ｈ_ｔのベクトル値ｈ_ｔは、配列情報のｔ＋１番目のアミノ酸情報と比較される。比較の結果、その差を少なくするように、中間層Ａ_ｔのパラメータが更新される。なお、出力層ｈ_Ｍの値は、アミノ酸配列の終了を示す情報（図１４では“ＥＮＤ”で示される）とされる。

【0110】

図１４に示す例は、図１１の配列ＩＤが“ＶＨＬ０００１”で識別される配列をＬＳＴＭに学習させるときに入力されるデータを示す。入力層「Ｘ_１」にはポジションＨ１のアミノ酸“Ｍ”が入力される。入力層「Ｘ_２」にはポジションＨ２のアミノ酸である“Ｅ”が入力される。入力層「Ｘ_Ｍ」にはポジションＬ１０７ａにアミノ酸がないことを示す情報（“－”）が入力される。一方、学習時には、出力層「ｈ_０」から出力された値は、ポジションＨ１のアミノ酸“Ｍ”と比較され、出力層「ｈ_１」から出力された値は、ポジションＨ２のアミノ酸“Ｅ”と比較される。
以上の学習処理によって、学習後のＬＳＴＭでは、中間層Ａ_ｔから出力層ｈ_ｔに対して、配列上、ｔ＋１番目に位置するアミノ酸情報が出力される。ＬＳＴＭは基準毎に用意され、基準毎のＬＳＴＭに対して、当該基準の学習データセットを用いて学習処理が行われる。

【0111】

＜実行処理：仮想配列の生成＞
学習処理後のＬＳＴＭを用いて、仮想配列を出力する実行処理について説明する。
この実行処理が行われる場合には、ＬＳＴＭの出力層ｈ_ｔ－１のベクトル値ｈ_ｔ－１は、入力層Ｘ_ｔに入力される。ＬＳＴＭは、配列上、次の順番となるアミノ酸を、順次、出力層ｈ_ｔから出力できる。ここで、出力層ｈ_ｔ－１のベクトル値ｈ_ｔ－１は、入力層Ｘ_ｔに入力される場合には、ベクトルの全成分の値で、ｈ_ｔ－１の２０種類のアミノ酸の出現確率に従って１つのアミノ酸が選択され、そのアミノ酸に対応するベクトル成分を「１」、それ以外の成分を「０」としたベクトルが入力される。一例として、大量の仮想配列群を生成する際に、「各ポジションでモデル上設定された確率に従いアミノ酸を選択して１配列を生成する」ことを非常に多数回（数百万～数千万）繰り返している。このように、出力層ｈ_ｔ－１のベクトル値ｈ_ｔ－１に対して、対応するアミノ酸が１つに決定されたベクトルを、以下では、確定ベクトル値ｈ_ｔ－１とも称する。
確定ベクトル値ｈ_ｔ－１が表すアミノ酸は、配列情報におけるｔ番目のアミノ酸情報（構成要素）となる。つまり、確定ベクトル値ｈ_ｔ－１が表すアミノ酸を、ｔ＝１からｔの順序に並べた配列は、仮想配列として出力される。ここで、仮想配列は、学習データセットの配列情報の特徴を有する配列である。このように、学習データセットの配列情報の特徴を学習し、仮想配列を出力する学習済みモデルを、配列学習済みモデルという。

【0112】

＜実行処理：予測スコアの予測＞
学習処理後のＬＳＴＭを用いて、予測スコアを出力する実行処理について説明する。
ＬＳＴＭは、結合判定が「結合」である学習データセットの配列情報のみで学習される。実行処理が行われる場合には、入力層Ｘ_ｔ（ｔ≧１）には、入力された配列情報のうち、ｔ番目のアミノ酸情報として、ベクトル値ｘ_ｔが入力される。入力層Ｘ_０には、アミノ酸配列の出力開始を示す情報（「ＳＴＡＲＴ」）が入力される。出力層ｈ_ｔからは、ベクトル値ｈ_ｔが出力される。

【0113】

ベクトル値ｈ_ｔは、入力層Ｘ_ｔにｔ番目のアミノ酸情報が入力された場合において、ｔ＋１番目のアミノ酸情報の予測値を表す。ＬＳＴＭは、結合判定が「結合」であった配列情報のみで学習しているので、この予測値は、結合判定が「結合」となる可能性の高い予測値である。よって、ベクトル値ｈ_ｔ－１とベクトル値ｘ_ｔとの内積は、ｔ番目のアミノ酸情報において、配列全体の結合判定が「結合」となる尤度Ｐを算出するための情報である。確率Ｐ_ｔを、ｔ＝１からｔ＝Ｍまで、掛け合わせた値、尤度Ｐ＝Ｐ_１×Ｐ_２×Ｐ_３×・・・×Ｐ_Mが、入力された配列情報に対して、標的抗原との親和性を表す予測スコアとなる。
このように、入力された配列情報に対して、予測スコアを出力する学習済みモデルを、特性予測学習済みモデルという。

【0114】

なお、本実施形態では、情報処理システム１は、配列学習済みモデルと特性予測学習済みモデルに同じＬＳＴＭを用いるので、各モデル個別に学習処理を行う場合と比較して、学習処理を軽減できる。ただし、本発明はこれに限らず、配列学習済みモデル又は特性予測学習済みモデルは、学習に用いられる学習データセットが異なっていてもよいし、学習モデルが異なってもよい。特性予測学習済みモデルは、ガウス過程であってもよく、ガウス過程による予測スコアは予測の信頼度であってもよい。

【0115】

＜ＬＳＴＭの中間層＞
図１５は、上記各実施形態に係るＬＳＴＭの構造を表す概念図である。
この図は、図１４のＬＳＴＭの一部であり、ｔ番目の中間層Ａ_ｔの内部構造の一例を表す。この図において、中間層Ａ_ｔには、中間層Ａ_ｔ－１から入力情報として、ｔ－１番目のセル状態Ｃ_ｔ－１、及び、出力層ｈ_ｔ－１から出力されるベクトル値値ｈ_ｔ－１が入力される。また、中間層Ａ_ｔには、入力層Ｘ_ｔからベクトル値ｘ_ｔが入力される。

【0116】

ＬＳＴＭのパラメータとして、Ｗ_ｆ、ｂ_ｆ、Ｗ_ｉ、ｂ_ｉ、Ｗ_ｃ、ｂ_ｃ、Ｗ_o、ｂ_oは、記憶部３２に記憶されている。中間層Ａ_ｔにおいて、入力されたＣ_ｔ－１、値ｈ_ｔ－１、及び値ｘ_ｔに対して、記憶部３２に記憶されたパラメータＷ_ｆ、ｂ_ｆ、Ｗ_ｉ、ｂ_ｉ、Ｗ_ｃ、ｂ_ｃ、Ｗ_o、ｂ_oを用いて、次の式（１）のｆ_ｔ、式（２）のｉ_ｔ、式（３）のＣ～（チルダ）_ｔ、式（５）のｏ_ｔが算出される。式（４）のＣ_ｔは、算出されたｆ_ｔ、ｉ_ｔ、Ｃ～（チルダ）_ｔを用いて算出され、ベクトル値ｈ_ｔは、Ｃ_ｔとｏ_ｔを用いて算出される。このベクトル値ｈ_ｔは、出力層ｈ_ｔから、出力される。

【0117】

【数1】

【0118】

ここで、σは、シグモイド関数を表す。
学習処理では、ｔ－１番目の出力層ｈ_ｔ－１から出力されたベクトル値ｈ_ｔ－１と、配列情報のｔ番目のベクトル値ｘ_ｔと、が比較される。比較の結果、ベクトル値ｈ_ｔ－１とベクトル値ｘ_ｔの誤差を小さくするように、パラメータＷ_ｆ、ｂ_ｆ、Ｗ_ｉ、ｂ_ｉ、Ｗ_ｃ、ｂ_ｃ、Ｗ_o、ｂ_oは、新たな値に更新される。
なお、更新後のパラメータは、記憶部３２に記憶される。また、パラメータＷ_ｆ、ｂ_ｆは、入力ゲートの処理に係るパラメータである。パラメータＷ_ｉ、ｂ_ｉは、入力判断ゲートの処理に係るパラメータである。パラメータＷ_ｃ、ｂ_ｃは、忘却ゲートの処理に係るパラメータである。パラメータＷ_o、ｂ_oは、出力ゲートの処理に係るパラメータである。

【0119】

＜学習済みモデルの選択＞
図６に戻って、配列選択部ＰＡ１は、学習処理を行う際、まず学習データセットから、結合判定が「結合」である学習データセットを読み出す。配列選択部ＰＡ１は、読み出した学習データセットを学習処理に用いる学習データセットと、特性予測学習済みモデルを評価する評価処理に用いる評価データセットに分ける。本実施形態においては、特性予測学習モデルは、分類基準候補情報の数だけ存在するが、いずれの特性予測学習モデルに対しても、上述した学習データセットを用いて学習処理を行い、評価データセットを用いて評価処理を行う。
配列選択部ＰＡ１は、続いて、学習処理に用いる学習データセットを、訓練データセットと検証データセットに分割する。例えば、配列選択部ＰＡ１は、学習データセットを複数個のグループ（Ｇ１、Ｇ２・・・ＧＮ）に分ける。各グループに含まれる学習データセットは同程度の個数になるようにする。配列選択部ＰＡ１は、複数のグループのうち、１グループ（例えば、Ｇｋ）を検証に用いるグループ（検証グループ）とする。つまり、配列選択部ＰＡ１は、検証グループに含まれる学習用データセットを、検証データセットとする。配列選択部ＰＡ１は、残りのグループに含まれる学習データセットを訓練データセットとして設定する。

【0120】

配列学習部ＰＡ２は、訓練データセットを用いて、ＬＳＴＭの学習処理を行うことで、特性予測学習済みモデルを生成する。学習処理後、配列学習部ＰＡ２は、ＬＳＴＭの検証を行う。配列学習部ＰＡ２は、検証データセットの配列情報を、特性予測学習済みモデルに入力する。配列学習部ＰＡ２は、特性予測学習済みモデルから出力される予測スコアを、特性推定情報としてを取得する。配列学習部ＰＡ２は、特性推定情報と、入力した配列情報に対応する特性情報とを比較し、特性推定情報と特性情報とのずれを所定の方法で求める。所定の方法とは、例えば、評価データセットの全データに対する平均絶対誤差を算出する方法である。
なお、特性情報と特性推定情報とのずれを求める方法は上述した方法に限られない。例えば、平均二乗誤差、二乗平均平方根誤差、決定係数などを求める方法であってもよい。

【0121】

配列学習部ＰＡ２は、検証グループを変更し、上述した訓練及び検証を繰り返す。繰り返しの回数は、分割したグループの数と一致する。また、１度検証グループに区分されたグループは、再度検証グループには区分されない。すなわち、例えば、学習データセットをＧ１～ＧＮのＮ個のグループに分割した場合、訓練及び検証はＮ回行われる。また、各グループは、検証グループに１度含まれ、上述した検証処理に用いられる。
配列学習部ＰＡ２は、Ｎ回の訓練及び検証が終了後、得られたＮ個のずれを用いて、ＬＳＴＭの全学習データセットを用いた訓練の評価を行う。具体的には、配列学習部ＰＡ２は、Ｎ個のずれの平均を算出する。配列学習部ＰＡ２は、求めた平均が所定の閾値以下でない場合には、上記の学習をやり直す。この時、配列学習部ＰＡ２は、中間層全体に関するパラメータを変更する。配列学習部ＰＡ２は、求めた平均が所定の閾値以下である場合には、学習が終了したと判定し、訓練及び検証を終了する。

【0122】

なお、配列学習部ＰＡ２は、上述したような検証グループを入れ替える方法以外の方法で訓練及び検証を行ってもよい。例えば、配列学習部ＰＡ２は、検証グループを入れ替えなくてもよい。また、配列学習部ＰＡ２は、グループに含まれる学習データセットが１つになるようにしてもよい。この場合、上述したグループの数Ｎは学習データセットの数と一致する。
本実施形態では、入力データに対して特性推定情報を出力するものを、特性予測学習済みモデルと呼ぶ。

【0123】

配列選択部ＰＡ１は、評価データセットの各データセットについて、結合判定情報と特性推定情報から、ＡＵＣ（ＡｒｅａＵｎｄｅｒａｎＲＯＣＣｕｒｖｅ）を算出する。配列選択部ＰＡ１は、全ての分類基準候補情報の各々について、学習処理及び評価処理を行うことで、分類基準候補情報の各々の特性予測学習済みモデルについて、ＡＵＣを算出する。配列選択部ＰＡ１は、ＡＵＣの値が最も高い分類基準候補情報（「選択分類基準情報」とも称する）、及び、その分類基準候補情報の特性予測学習済みモデルを、パニンググループＩＤと対応付けて学習結果記憶部３２６に記憶させる。配列学習部ＰＡ２は、配列選択部ＰＡ１が生成した選択学習済みモデルのうち、少なくともＬＳＴＭの部分（図１４）を、配列学習済みモデルとして学習結果記憶部３２６に記憶させる。

【0124】

仮想配列生成部ＰＡ３は、配列学習済みモデルを用いて、仮想配列を複数生成し、生成した複数の仮想配列からなる群を、予測対象配列情報とする。仮想配列の配列情報は、選択分類基準情報に対応付けられた学習データセットについて、その配列情報の特徴を有しつつ、配列情報の１又は複数の位置のアミノ酸が変更された配列情報である。

【0125】

具体的には、図１４のＬＳＴＭは、学習の結果、配列学習済みモデルとして、各ポジションで、どのアミノ酸がどの確率で発生するかの条件付き確率を学習できている。仮想配列生成部ＰＡ３は、その確率に応じて配列を多数回生成する。具体的には、仮想配列生成部ＰＡ３は、ポジション１では、アミノ酸配列を生成する場合、学習した２０種類のアミノ酸の出現確率に基づき新規仮想配列のアミノ酸を生成する。ポジション２では学習したアミノ酸(AA)の条件付き出現確率 P(AA₂ |AA₁)に基づき、ポジション１のアミノ酸に依存しながら新規仮想配列のアミノ酸を生成する。ポジション３ではポジション１および２のアミノ酸に依存しながらアミノ酸を生成する。以降は、学習によって決められた、次式に基づき、次のポジションのアミノ酸を逐次的に発生させ、新規仮想配列全長を生成する。この新規仮想配列生成を非常に多数回実行する。例えば、次式の条件付確率は、確率Ｐ_Ｔ＋１で表される

【0126】

【数2】

【0127】

ここで、配列生成部ＰＡ３は、変異情報記憶部３２７に変異情報が記憶されている場合には、配列学習済みモデルに対して、変異情報が示す変異位置（配列情報の要素）以外の位置のアミノ酸を固定して入力し、変異位置のアミノ酸を、配列学習済みモデルから出力されたアミノ酸とすることで、予測対象配列情報を生成する。具体的には、配列生成部ＰＡ３は、変異位置がｔ番目の場合、ｔ番目のアミノ酸を、確定ベクトル値ｈ_ｔ－１が表すアミノ酸に置き換えることで、予測対象配列情報を生成する。
これにより、情報処理システム１は、結合する可能性が高く、変異させたい位置のアミノ酸だけを変更した予測対象配列情報を生成できる。
配列生成部ＰＡ３は、生成した予測対象配列情報を、配列記憶部３２８に記憶させる（図１２参照）。

【0128】

図１６は、本実施形態に係る仮想配列生成部ＰＡ３の動作の一例を示すフローチャートである。
（ステップＳ１）仮想配列生成部ＰＡ３は、配列学習済みモデルに対して、アミノ酸配列の開始を示す情報を入力することで、予測対象配列の生成を指示する。

【0129】

（ステップＳ２）仮想配列生成部ＰＡ３は、配列学習済みモデルの出力層ｈ_０からアミノ酸情報としてベクトル値ｈ_０を出力し、確定ベクトル値ｈ_０をベクトル値ｘ_１として入力層Ｘ_１へ入力する。仮想配列生成部ＰＡ３は、配列学習済みモデルの出力層ｈ_ｔ－１からアミノ酸情報としてベクトル値ｈ_ｔ－１を出力し、確定ベクトル値ｈ_ｔ－１をベクトル値ｘ_ｔとして入力層Ｘ_ｔへ入力することを、ｔの昇順に繰り返す。仮想配列生成部ＰＡ３は、出力層ｈ_Ｍからアミノ酸配列の終了を示す情報が出力された場合、処理を終了する。仮想配列生成部ＰＡ３は、確定ベクトル値ｈ_０からｈ_Ｍ－１が表すアミノ酸を、順に並べ、並べた配列を予測対象配列として生成する。

【0130】

（ステップＳ３）仮想配列生成部ＰＡ３は、ステップＳ１で生成した予測対象配列を示す情報を予測対象配列情報として、配列記憶部３２８に記憶させる。
（ステップＳ４）仮想配列生成部ＰＡ３は、終了条件を充足するか否かを判定する。この終了条件は、予め設定された条件であり、予測対象配列群を生成する処理を終了する条件である。例えば、終了条件は、ステップＳ２で生成した予測対象配列が予め定めた個数以上になることである。ただし、終了条件は他の条件でもよく、例えば、全く同じ配列の予測対象配列が所定数生成された場合でもよいし、類似の予測対象配列が所定数生成された場合でもよい。類似の予測対象配列とは、例えば、予測スコアが閾値以上の配列である。また例えば、類似の予測対象配列とは、例えば、上述のDoc2Vec法で、各予測対象配列をベクトル空間にマッピングした場合に、互いの距離が所定値よりも短い配列である。
終了条件が充足されない場合（Ｎｏ）、仮想配列生成部ＰＡ３は、再度、ステップＳ１に戻って、予測対象配列を生成する。一方、終了条件が充足される場合（Ｙｅｓ）、仮想配列生成部ＰＡ３は、図１６の処理を終了する。以上の図１６の処理により、仮想配列生成部ＰＡ３は、複数の予測対象配列を生成する。

【0131】

図６に戻って、学習部３３４は、配列選択部ＰＡ１が生成した選択学習済みモデルを複製し、特性予測学習済みモデルとして学習結果記憶部３２６に記憶させる。
なお、学習部３３４は、図１４のＬＳＴＭに対して、選択分類基準情報に対応付けられた学習データセット（図１１）を用いて、学習処理を行うことで、特性予測学習済みモデルを生成してもよい。例えば、学習部３３４は、配列情報と結合判定情報を用いて、深層学習等の教師あり学習で学習処理を行ってもよい。この場合、学習部３３４は、結合判定が「結合」である学習データセットに加えて或いは一部に代えて、結合判定が「結合」でない学習データセットを用いて学習処理を行ってもよい。

【0132】

制御部３３５は、入力された配列情報に対して、特性予測学習済みモデルを用いて、予測スコア（尤度）を出力する。つまり、制御部３３５は、入力された配列情報の抗体について、特性予測学習済みモデルが対応するパニンググループＩＤでパニングに供された標的抗原との予測スコアを予測する。
例えば、制御部３３５は、配列記憶部３２８から、予測対象配列情報を読み出す。制御部３３５は、読み出した予測対象配列情報を入力データとして、特性予測学習済みモデルに入力し、予測スコアを出力する。制御部３３５は、予測対象配列情報と予測した予測スコアを、予測対象抗体情報として特性評価情報記憶部３２９に記憶させる。例えば、制御部３３５は、図１２の予測対象抗体情報に対して、予測対象配列情報に対応する予測スコアを記憶させる。

【0133】

出力処理部３３６は、予測対象抗体情報の予測スコアに応じて、予測対象抗体情報の予測対象配列情報を、候補抗体情報として出力する。候補抗体情報とは、標的抗原と親和性の高い抗体の候補を示す。
具体的には、出力処理部３３６は、特性評価情報記憶部３２９から予測対象抗体情報を読み出し、予測スコアの高い順序で並び変える。出力処理部３３６は、予測スコアの高い順序で順序付けされた予測対象配列情報を、候補抗体情報として生成する。出力処理部３３６は、生成した候補抗体情報を、通信部３１を介して、ネットワークＮＷを経由でユーザ端末１０へ送信する。なお、出力処理部３３６は、予測対象抗体情報をユーザ端末１０へ送信し、ユーザ端末１０（処理部１４）は、受信した予測対象抗体情報を予測スコアの高い順序で並び変えて表示部１５に表示してもよい。

【0134】

なお、出力処理部３３６は、ユーザ端末１０で標的抗原又は実験情報（図４参照）が指定されている場合、実験情報（図７）の標的抗原から、指定された標的抗原又は実験条件に対応付けられたパニンググループＩＤを選択する。また、出力処理部３３６は、ユーザ端末１０で実験条件が指定されている場合、指定された実験条件（図８）を満たす実験条件ＩＤを選択し、選択した実験条件ＩＤに実験情報（図７）で対応付けられたパニンググループＩＤを選択する。
出力処理部３３６は、選択したパニンググループＩＤに対応する予測対象抗体情報（図１２）を抽出する。出力処理部３３６は、抽出した予測対象抗体情報を予測スコアの高い順序で並び変え、ユーザ端末１０へ送信する。

【0135】

＜動作について＞
図１７は、本実施形態に係るサーバ３０の動作の一例を示すフローチャートである。この図は、学習段階（学習処理及び評価処理）におけるサーバ３０の動作を示す。

【0136】

（ステップＳ１０１）情報取得部３３１は、ユーザ端末１０から、各種情報を取得する。情報取得部３３１は、取得した情報を記憶部３２に記憶させる。その後、ステップＳ１０２へ進む。
（ステップＳ１０２）情報取得部３３１は、次世代シーケンサ２０から解析結果情報を取得する。情報取得部３３１は、ステップＳ１０１で取得した解析結果情報を、データセットとしてデータセット記憶部３２２に記憶させる。その後、ステップＳ１０３に進む。

【0137】

（ステップＳ１０３）推定部３３２は、ステップＳ１０２で記憶させたデータセットに基づき、重鎖配列と軽鎖配列との組み合わせとして、存在抗体配列を推定する。推定部３３２は、推定した存在抗体配列をデータセット記憶部３２２に記憶させる。その後、ステップＳ１０４に進む。
（ステップＳ１０４）分類部３３３は、各分類基準候補情報が示す分類基準に従って、ステップＳ１０３で記憶させた存在抗体配列が示す抗体について、結合抗体であるか又は非結合抗体であるかを分類する。分類部３３３は、分類基準候補情報ごとに、存在抗体配列と、分類結果を示す結合判定情報とを含む学習データセットを生成し、生成した学習データセットを学習データセット記憶部３２４に記憶させる。その後、ステップＳ１０５に進む。

【0138】

（ステップＳ１０５）予測対象配列生成部ＰＡは、ステップＳ１０４で記憶させた学習データセットに基づいて、分類基準候補情報ごとに学習処理を行って特性予測学習済みモデルを生成する。予測対象配列生成部ＰＡは、生成した特性予測学習済みモデルの精度を評価する評価処理を行う。その後、ステップＳ１０６へ進む。
（ステップＳ１０６）予測対象配列生成部ＰＡは、ステップＳ１０５で生成された特性予測学習済みモデルについて、ステップＳ１０５の評価処理の評価結果に基づいて、特性予測学習済みモデルを選択する。予測対象配列生成部ＰＡは、選択した選択学習済みモデル及び同じＬＳＴＭを有する配列学習済みモデルを、学習結果記憶部３２６に記憶させる。その後、本図の動作を終了する。

【0139】

図１８は、本実施形態に係るサーバ３０の動作の別の一例を示すフローチャートである。この図は、実行段階におけるサーバ３０の動作を示す。実行段階とは、情報処理システム１が、学習データセットで学習した後、選択学習済みモデルを用いて予測等を行う段階を示す。

【0140】

（ステップＳ２０１）予測対象配列生成部ＰＡは、図１７のステップＳ１０６で記憶された配列学習済みモデルを読み出し、特性予測学習済みモデルを用いて予測対象配列情報を生成する。その後、ステップＳ２０５へ進む。
（ステップＳ２０２）制御部３３５は、ステップＳ２０１で生成した予測対象配列について、図１７のステップＳ１０６で記憶された特性予測学習済みモデルを用いて、予測スコアを予測する。その後、ステップＳ２０３へ進む。
（ステップＳ２０３）出力処理部３３６は、ステップＳ２０２で予測した予測スコアに応じて、予測対象抗体情報の予測対象配列情報を、候補抗体情報として出力する。出力された候補抗体情報は、ユーザ端末１０で表示される。その後、本図の動作を終了する。

【0141】

＜まとめ＞
以上説明したように、情報処理システム１では、配列学習部ＰＡ２（「配列学習部」の一例）は、複数の配列に基づいて、ＬＳＴＭを用いた学習処理（「機械学習」の一例）を行うことで、配列情報が表す配列の特徴を学習した配列学習済みモデル（「第１学習済みモデル」の一例）を生成する。ここで、学習処理に用いられる複数の配列は、結合判定結果が「結合」である抗体の配列である。よって、配列学習済みモデルは、結合すると判定される可能性の高い配列の特徴を学習している。
仮想配列生成部ＰＡ３（「配列生成部」の一例）は、抗原結合分子の配列情報が表す配列を構成するアミノ酸（「構成単位」の一例）の少なくとも１つを変異させた予測対象配列を表す予測対象配列情報（「仮想配列情報」の一例）を生成する。

【0142】

このように、情報処理システム１は、結合判定結果が「結合」である配列に基づいて学習処理を行うので、配列学習済みモデルから、結合すると判定される可能性の高い配列又はアミノ酸を予測できる。
なお、学習処理に用いられる複数の配列は、標的抗原と結合したと判定された結合抗体の配列、配列選択部ＰＡ１が算出したＡＵＣの値が最も高い選択学習済みモデルの学習処理に用いられた抗体の配列である。ただし本発明はこれに限らず、各特性や分類基準に応じて、予め定めた特性を持つ配列（例えば、特性値が閾値以上或いは以下の配列）であってもよい。また、標的抗原と結合したと判定された結合抗体は、１回のラウンドでパニングの結果、標的抗原と結合したと判定された結合抗原でもよいし、２回目以降のラウンドでパニングに供された結合抗体であってもよいし、２回目以降のラウンドでパニングの結果、標的抗原と結合したと判定された結合抗原でもよい。

【0143】

また、配列学習済みモデルが学習する配列の特徴は、アミノ酸（「構成単位」の一例）の配列中の位置、及び、アミノ酸同士の前後関係を含む特徴である。
これにより、情報処理システム１は、学習に用いる抗原結合分子のアミノ酸の配列について、位置的特徴、及び、前後関係の特徴を学習することができる。この場合、情報処理システム１は、同様の位置的特徴、及び、前後関係の特徴を持つ配列を表す予測対象配列情報を生成できる。

【0144】

仮想配列生成部ＰＡ３は、設定された配列上の部位であって１以上のアミノ酸から構成される部位について、少なくとも１つのアミノ酸を変更することで、予測対象配列情報を生成する。
これにより、情報処理システム１は、設定された部位を変更した予測対象配列情報を生成できる。例えば、ユーザは、変更したい部位を設定することで、その部位を変更した予測対象配列情報を知ることができる。

【0145】

設定された配列上の部位は、抗体の重鎖可変領域、軽鎖可変領域又は定常領域のいずれかの配列中に含まれる。
これにより、情報処理システム１は、抗体の重鎖可変領域、軽鎖可変領域又は定常領域のいずれかの配列中に含まれる部位を変更し、変更した予測対象配列情報を生成できる。例えば、ユーザは、抗体の重鎖可変領域、軽鎖可変領域又は定常領域のいずれかの配列中に含まれる部位を設定することで、その部位を変更した予測対象配列情報を知ることができる。

【0146】

学習に用いられる配列情報は、その配列情報が表す配列の抗原結合分子或いはタンパク質についての特性評価の結果に応じて選択された配列情報である。
これにより、情報処理システム１は、同様の特性評価の結果となる可能性の高い予測対象配列情報を生成できる。ユーザは、例えば、所望の特性評価の結果を設定することで、その特性評価の結果となる予測対象配列情報を知ることができる。

【0147】

また、情報処理システム１では、配列選択部ＰＡ１（「配列学習部」の一例：学習部３３４であってもよい）は、複数の抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該配列が表す抗原結合分子についての特性評価の結果に基づいて学習処理を行うことで、特性予測学習済みモデル（「第２学習済みモデル」：選択学習済みモデルであってもよい）を生成する。
制御部３３５（「推定部」の一例）は、特性予測学習済みモデルの演算処理を実行することで、入力した予測対象配列情報が表す配列の抗原結合分子についての特性評価の予測スコアを推定する。また、情報処理システム１では、制御部３３５（「推定部」の一例）は、上記配列学習済みモデルに基づいて生成された予測対象配列情報（「仮想配列情報」の一例）を選択学習済みモデルに入力し、選択学習済みモデルの演算処理を実行することで、入力した予測対象配列情報が表す配列の抗原結合分子についての特性評価の予測スコア（「特性評価の予測値」の一例）を予測する（「取得する」の一例）。
これにより、情報処理システム１は、生成した予測対象配列情報各々について、その特性評価（例えば親和性）の予測スコアを予想できる。

【0148】

また、出力処理部３３６（「出力部」の一例）は、制御部３３５が推定した予測スコアに応じて、予測対象配列情報及び予測スコアに基づく出力を行う。
これにより、情報処理システム１は、例えば、特性評価の結果が高くなる順に優先して、予測対象配列を出力できる。

【0149】

また、情報処理システム１では、仮想配列生成部ＰＡ３は、変異情報として設定された配列上の変異位置において、変異位置の配列を構成するアミノ酸を変更することで、予測対象配列情報を生成する。
これにより、情報処理システム１は、変異位置を設定することができ、その変異位置のアミノ酸を変更した仮想配列を生成できる。よって、情報処理システム１は、全ての位置を変異させる場合と比較して、配列の候補を少なくすることができる。また例えば、情報処理システム１は、結合等の特性において重要であると想定される変異位置において、その変異位置のアミノ酸を変更した仮想配列を生成できる。よって、情報処理システム１は、配列の候補を絞った上で重要な変異が行われた配列を生成でき、所望の配列を効率良く生成できる。

【0150】

また、情報処理システム１では、設定された配列上の変異位置が、抗体の重鎖可変領域、軽鎖可変領域又は定常領域のいずれかの配列中に含まれる。
これにより、情報処理システム１は、例えば可変領域のうち、重鎖可変領域又は軽鎖可変領域に、結合等の特性において重要であると想定される変異位置がある場合に、その変異位置のアミノ酸を変更した仮想配列を生成できる。また、情報処理システム１は、例えば定常領域に、結合等の特性において重要であると想定される変異位置がある場合に、その変異位置のアミノ酸を変更した仮想配列を生成できる。

【0151】

また、情報処理システム１では、出力処理部３３６（「出力部」の一例）は、選択学習済みモデルに入力された複数の予測対象配列情報のうち、少なくとも１つの予測対象配列情報を、予測スコアに応じて出力する。
これにより、情報処理システム１は、生成した予測対象配列情報について、例えば予測スコアが高いものを優先して出力することができる。なお、優先して出力することには、優先度の高いもののみを出力すること、優先度の高いものを先頭に出力すること、優先度の高いものの表示態様を低いものとは別にして出力すること、優先度の高いものをリコメンドすることが含まれる。

【0152】

また、情報処理システム１では、配列選択部ＰＡ１（「配列取得部」の一例）は、配列情報、及び解析結果情報或いは結合判定情報（「評価結果情報」の一例）に応じて、複数の配列を選択する。配列学習部ＰＡ２は、選択された複数の配列について、当該配列の順序に応じた学習処理を行うことで配列学習済みモデルを生成する。ここで、ＬＳＴＭ法を用いた学習処理は、配列の順序が考慮された機械学習である。
これにより、情報処理システム１は、抗原結合分子において、配列の順序による性質が考慮された仮想配列を生成できる。

【0153】

また、情報処理システム１では、配列選択部ＰＡ１は、解析結果情報又は結合判定情報の値が所定値よりも高く、「結合」したと判定された複数の配列を選択する。配列学習部ＰＡ２は、選択された複数の配列について、当該配列を入力及び出力として学習処理を行うことで配列学習済みモデルを生成する。ここで、本実施形態のＬＳＴＭ法を用いた学習処理は、配列を入力及び出力とした機械学習である。
これにより、情報処理システム１は、結合する可能性の高い配列を予測して出力できる。例えば、教師ありモデルを用いた機械学習で、出力が配列でない場合（例えば、出力が特性評価値である場合）には、さらに、特性評価値の高い配列を得るための演算によって、配列を生成する必要がある。これに対して、情報処理システム１は、配列学習済みモデルの出力が配列であるので、さらなる演算を行うことなく、結合する可能性の高い配列を、直ちに得ることができる。

【0154】

また、情報処理システム１では、仮想配列生成部ＰＡ３は、深層学習モデルを用いて機械学習を行う。ここで、仮想配列生成部ＰＡ３は、深層学習モデルとして、ＬＳＴＭに代えて或いは加えて、再帰型ニューラルネットワーク（ＲＮＮ）、ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ（ＧＲＵ）、ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ（ＧＡＮ）、又は、ＶａｒｉａｔｉｏｎａｌＡｕｔｏｅｎｃｏｄｅｒ（ＶＡＥ）、又は、Flow深層生成モデルのいずれかを用いて学習処理を行ってもよい。

【0155】

また、情報処理システム１では、仮想配列生成部ＰＡ３は、ＬＳＴＭに代えて或いは加えて、確率モデルを用いて機械学習を行ってもよい。ここで、仮想配列生成部ＰＡ３は、確率モデルとして、隠れマルコフモデル（ＨＭＭ）、又はマルコフモデル（ＭＭ）のいずれかを用いて機械学習を行う。

【0156】

また、情報処理システム１では、仮想配列生成部ＰＡ３は、配列を構成する構成単位がアミノ酸の出現確率で表された配列情報に基づいて、機械学習を行う。
これにより、情報処理システム１は、配列情報の構成単位を、複数のアミノ酸の候補についての確率で処理でき、配列情報の構成単位に多様性を持たせることができる。

【0157】

（第２実施形態）
以下、図面を参照しながら本発明の第２実施形態について説明する。
本実施形態では、２以上の異なる複数の標的分子に対して結合する抗原結合分子について、候補抗体情報を出力する場合について説明する。２以上の異なる複数の標的分子に対して結合する抗原結合分子とは、当該抗原結合分子中の１の抗原結合ドメインが１の標的抗原以外の異なる標的抗原にも結合し得ることを意味する。２以上の異なる複数の標的分子に対して結合する抗原結合分子は、上述した抗原結合分子のライブラリを用いて２以上の異なる複数の標的分子との親和性評価を行うことで選抜することが可能である。２以上の異なる標的が存在する条件下で親和性評価を行うことで、２以上の異なる複数の標的分子が存在する場合に結合する抗原結合分子の選抜が可能である。また２以上の異なる複数の標的分子を選抜する別態様として、２以上の異なる複数の標的分子に対して結合するものの、異なる複数の標的分子に同時に結合しない抗原結合分子の選抜も可能である。異なる複数の標的分子に同時に結合しない抗原結合分子を選抜する手法の非限定な手法としては、以下の手法が挙げられる。１の標的分子（標的分子A）を用いてパニングを実施し、続いて前記標的抗原と異なる標的分子（標的分子B）を用いてパニングを実施することで、標的分子A, Bに結合する抗原結合分子の選抜が可能である。続いて、標的分子Aに対してパニングを実施する際に、標的Bをパニング反応液中に過剰に添加することにより、標的分子Aに対して結合活性の阻害効果が認められた抗原結合分子が当該標的分子A、Bに対して同時に結合しない抗原結合分子と推定することができる。前記異なる複数の標的分子は異なるタンパク質抗原であっても良いし、また低分子化合物であっても良い。また、２以上の異なる複数の標的分子に対して結合する抗原結合分子の選抜は抗原結合分子のライブラリを用いた手法に限定されず、異なる複数の抗原結合分子を含む限り使用することが可能である。

【0158】

本実施形態に係る情報処理システム１ａは、実験条件が互いに異なる複数セットのパニングとして、小分子が存在する一連のパニング、及び、小分子が存在しない一連のパニングの両方を行う。本実施形態では、実験条件情報には、標的抗原の濃度がある所定の濃度であることと、バッファー溶液の組成として、小分子がある所定の濃度であることと（小分子が存在するか否か）を示す情報が含まれる。所定の濃度とは、予め定めた値又は範囲内の濃度である。
情報処理システム１ａの概略図は、第１実施形態の情報処理システム１（図１）において、サーバ３０をサーバ３０ａに代えたものである。ユーザ端末１０及び次世代シーケンサ２０は、第１実施形態と同様の構成を備えるので、説明を省略する。以降、第１実施形態と同様の構成には、同一の符号を付与してここでの説明を省略する。

【0159】

図１９は、第２実施形態に係るサーバ３０ａの一例を示すブロック図である。
サーバ３０ａは、通信部３１、記憶部３２ａ、及び、処理部３３を含んで構成される。記憶部３２ａは、第１実施形態の記憶部３２（図６）と比較して、データセット記憶部３２２ａ、分類基準記憶部３２３ａが異なる。ここで、データセット記憶部３２２ａの基本的な機能は、データセット記憶部３２２と同様である。以下では、データセット記憶部３２２ａがデータセット記憶部３２２と異なる機能について説明をする。

【0160】

また、本実施形態では、３セットの一連のパニングを行う例を示す。３セットは、“Ｐ１”、“Ｐ２”、“Ｐ３”のパニンググループＩＤと対応付けられる。ここで“Ｐ１”のパニンググループの実験条件は、標的抗原及び小分子がそれぞれある所定の濃度で存在する条件である。また、“Ｐ２”の実験条件は、標的抗原が存在せず、かつ、小分子がある所定の濃度で存在する条件である。また、“Ｐ３”の実験条件は、標的抗原がある所定の濃度で存在し、かつ、小分子が存在しない条件である。各実験条件には、上記の条件のほか、図８に示したような条件が含まれるが、これらはパニング間で同一又は略同一である。

【0161】

図２０は、本実施形態に係るデータセットの一例を示す図である。
この図のデータセットは、パニンググループＩＤが“Ｐ１、Ｐ２、Ｐ３”と対応付けられ、ファイル名が“Ｈ２３４５６．ｃｓｖ”である。つまり、この図のデータセットは、３セット（“Ｐ１”、“Ｐ２”、“Ｐ３”）の一連のパニングにおける解析結果情報から生成され、重鎖配列の抗体のデータセットであることを示す。
この図に示す一例では、データセットは、配列ＩＤごとに、抗体の配列情報、Ｐ１・ラウンド１での出現頻度、Ｐ２・ラウンド１での出現頻度、Ｐ３・ラウンド１での出現頻度の各項目が対応付けられたデータベースである。

【0162】

図２０の例では、「配列ＩＤ」が“ＶＨ００１”に対応する、「抗体重鎖の配列情報」は、ポジション「Ｈ１」のアミノ酸が“Ｍ”、ポジション「Ｈ２」のアミノ酸が“Ｅ”、ポジション「Ｈ３５ａ」のアミノ酸が“Ｐ”、ポジション「Ｈ３５ｂ」のアミノ酸が“Ｓ”、ポジション「Ｈ３６」のアミノ酸が“Ｑ”であることを示す。また、「配列ＩＤ」が“ＶＨ００１”に対応する、「抗体重鎖の評価結果情報」は、「Ｐ１、ラウンド１出現頻度」が“０．５１６”、「Ｐ２、ラウンド１出現頻度」が“０”、「Ｐ３、ラウンド１出現頻度」が“０．００１”であることを示す。

【0163】

図２１は、本実施形態に係るデータセットの別の一例を示す図である。
この図のデータセットは、パニンググループＩＤが“Ｐ１、Ｐ２、Ｐ３”と対応付けられ、ファイル名が“Ｌ６５４３２．ｃｓｖ”である。つまり、この図のデータセットは、３セット（“Ｐ１”、“Ｐ２”、“Ｐ３”）の一連のパニングにおける解析結果情報から生成され、軽鎖配列の抗体のデータセットであることを示す。
この図に示す一例では、データセットは、配列ＩＤごとに、抗体の配列情報、Ｐ１・ラウンド１での出現頻度、Ｐ２・ラウンド１での出現頻度、Ｐ３・ラウンド１での出現頻度の各項目が対応付けられたデータベースである。
なお、図２０と図２１のデータセットでは、抗体の配列情報が、抗体重鎖の可変領域における位置を示すものか、抗体軽鎖の可変領域における位置を示すものかで異なる。

【0164】

図２１の例では、「配列ＩＤ」が“ＶＬ００１”に対応する、「抗体軽鎖の配列情報」は、ポジション「Ｌ１」のアミノ酸が“Ｍ”、ポジション「Ｌ２」のアミノ酸が“Ｆ”、ポジション「Ｌ２７」のアミノ酸が“Ａ”であることを示す。また、「配列ＩＤ」が“ＶＬ００１”に対応する、「抗体軽鎖の評価結果情報」は、「Ｐ１、ラウンド１出現頻度」が“０．０５０”、「Ｐ２、ラウンド１出現頻度」が“０”、「Ｐ３、ラウンド１出現頻度」が“０．０１”であることを示す。

【0165】

次に、分類基準記憶部３２３ａについて説明する。ここで、分類基準記憶部３２３ａの基本的な機能は、分類基準記憶部３２３と同様である。以下では、分類基準記憶部３２３ａが分類基準記憶部３２３と異なる機能について説明をする。

【0166】

分類基準記憶部３２３ａは、分類基準情報を記憶する。分類基準情報は、複数の分類基候補情報が含まれる。各分類基準候補情報（図４の基準１、２、３に相当）は、３個の閾値が入力される。本実施形態では、３個の閾値は、３つのパニンググループの出現頻度（又は出現頻度の変化率）であって、ラウンド数が同じラウンド（「ラウンドＡ」とする）の出現頻度（又は変化率）を設定可能である。つまり、閾値は、Ｐ１・ラウンドＡ（Ｐ１Ａ）の出現頻度、Ｐ２・ラウンドＡ（Ｐ２Ａ）の出現頻度、Ｐ３・ラウンドＡ（Ｐ３Ａ）の出現頻度、及びこれらの出現頻度の変化率を設定可能である。例えば、基準は、「Ｐ１Ａの出現頻度がＸ４以上、Ｐ１ＡとＰ２Ａの出現頻度の変化率（Ｐ１Ａの出現頻度／Ｐ２Ａの出現頻度）がＹ４以上、Ｐ１ＡとＰ３Ａの出現頻度の変化率（Ｐ１Ａの出現頻度／Ｐ３Ａの出現頻度）がＺ４以上」、となる。
また、本実施形態では、閾値としてＰ２又はＰ３の出現頻度を用いる場合、判定基準は閾値以下を結合抗体として判定するものとなる。この場合、基準は、例えば「Ｐ１Ａの出現頻度がＸ５以上、Ｐ２Ａの出現頻度がＹ５以下、Ｐ３Ａの出現頻度がＺ５以下」となる。

【0167】

分類基準情報を上述したように設定することで、小分子依存性抗体についても、本実施形態における処理部３３は、第１実施形態における処理部３３と同様の処理によって、候補抗体を出力することができる。

【0168】

＜まとめ＞
以上説明したように、本実施形態に係る情報処理システム１ａでは、配列学習部ＰＡ２（「配列学習部」の一例）は、複数の抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて、ＬＳＴＭを用いた学習処理（「機械学習」の一例）を行うことで、配列情報が表す配列の特徴を学習した配列学習済みモデル（「第１学習済みモデル」の一例）を生成する。
ここで、結合判定情報は、結合判定結果が「結合」である抗体の配列であって、小分子依存性抗体の配列である。ただし、学習処理に用いられる複数の配列は、出現頻度又はパニング間の出現頻度の変化率である。また、学習処理に用いられる複数の配列は、標的抗原と結合したと判定された結合抗体、配列選択部ＰＡ１が算出したＡＵＣの値が最も高い選択学習済みモデルの学習処理に用いられた抗体の配列あって、小分子依存性抗体の配列であってもよい。
仮想配列生成部ＰＡ３（「配列生成部」の一例）は、抗原結合分子の配列情報が表す配列を構成するアミノ酸（「構成単位」の一例）の少なくとも１つを変異させた予測対象配列を表す予測対象配列情報を生成する。
このように、情報処理システム１ａは、小分子が介在する場合に結合判定結果が「結合」である配列に基づいて学習処理を行うので、配列学習済みモデルから、小分子が介在する場合に結合すると判定される可能性の高い配列又はアミノ酸を予測できる。

【0169】

（第３実施形態）
以下、図面を参照しながら本発明の第３実施形態について説明する。
本実施形態では、特性予測学習モデルとして隠れマルコフモデルが用いられる場合について説明する。

【0170】

情報処理システム１ｂの概略図は、第１実施形態の情報処理システム１において、サーバ３０をサーバ３０ｂに代えたものである。ユーザ端末１０及び次世代シーケンサ２０は、第１実施形態と同様の構成を備えるので、説明を省略する。以降、第１実施形態と同様の構成には、同一の符号を付与してここでの説明を省略する。

【0171】

図２２は、第３実施形態に係る情報処理システム１ｂのサーバ３０ｂの一例を示すブロック図である。
サーバ３０ｂは、通信部３１、記憶部３２ｂ、及び、処理部３３ｂを含んで構成される。記憶部３２ｂは、第１実施形態の記憶部３２（図６）と比較して、注目位置情報記憶部３２５が存在せず、学習結果記憶部３２６ｂが異なる。ここで、学習結果記憶部３２６ｂの基本的な機能は、学習結果記憶部３２６と同様である。学習結果記憶部３２６ｂは、学習結果記憶部３２６と比べて記憶する特性予測学習モデルが異なる。また、処理部３３ｂは、第１実施形態の処理部３３（図６）と比較して、配列選択部ＰＡ１ｂ、配列学習部ＰＡ２ｂ及び学習部３３４ｂが異なる。配列選択部ＰＡ１ｂ、配列学習部ＰＡ２ｂ及び学習部３３４ｂの基本的な機能は、それぞれ配列選択部ＰＡ１、配列学習部ＰＡ２及び学習部３３４と同様である。以下、配列選択部ＰＡ１ｂが配列選択部ＰＡ１と異なる機能、配列学習部ＰＡ２ｂが配列学習部ＰＡ２と異なる機能、及び、学習部３３４ｂが学習部３３４と異なる機能について説明をする。

【0172】

図２３は、本実施形態に係る特性予測学習モデルの概要を示す図である。ここでは、特性予測学習モデルとして隠れマルコフモデルを用いる例を説明する。また、本実施形態では、１つの抗体のアミノ酸配列は１つ１つのアミノ酸が連続したものとみなす。

【0173】

図２３に示す例では、各状態は四角、ひし形、及び丸で表す。また、各状態間の遷移方向を矢印で示す。各矢印には、遷移元の状態から遷移先の状態への状態遷移確率が対応付けられる。

【0174】

各状態は所定の識別子で識別される。四角で表される状態は、あるポジションにアミノ酸が存在する状態（以下、「存在状態」とも称する）を示す。存在状態の識別子はｍを用いる。また、当該識別子の添え字はポジションの番号を示す。例えば、ｍ_１は第１ポジションにアミノ酸が存在する状態を示す。また、ｍ_０は、状態遷移の開始を示す状態、ｍ_Ｍ＋１は、状態遷移の終了を示す状態である。また、存在状態は、それぞれの状態における２０種類のアミノ酸の出現確率を示す情報が対応付けられる。図２３に示す例では、当該状態に対応付けられた上記情報が、各存在状態の下に示されている。
ひし形で表される状態は、あるポジションと次のポジションの間にアミノ酸が挿入されている状態（以下、「挿入状態」とも称する）存在を示す。挿入状態の識別子はｉを用いる。また、当該識別子の添え字は挿入されるポジションの番号を示す。例えば、ｉ_１は第１ポジションの後にアミノ酸が挿入されている状態を示す。また、挿入状態は、存在状態と同様に、それぞれの状態における２０種類のアミノ酸の出現確率を示す情報が対応付けられる。
丸で表される状態は、あるポジションのアミノ酸が欠失している状態（以下、「欠失状態」とも称する）を示す。欠失状態の識別子はｄを用いる。また、当該識別子の添え字はアミノ酸が欠失しているポジションの番号を示す。例えば、ｄ_１は第１ポジションのアミノ酸が欠失している状態を示す。欠失状態は、上記２つの状態と異なり、アミノ酸の出現確率を示す情報は対応付けられない。

【0175】

抗体のアミノ酸配列は、状態ｍ_０から状態ｍ_Ｍ＋１まで状態遷移を行う中で、各ポジションで出現した（又は挿入された）アミノ酸をならべたものとして生成される（以下、状態遷移の仕方を「状態遷移ルート」とも称する）。状態遷移ルートは、状態の遷移順、及び、存在状態又は挿入状態において出現したアミノ酸の情報を含む。
アミノ酸配列が、ある１つの状態遷移ルートをたどって生成される場合、当該ルートをたどって当該アミノ酸が生成される確率（生起確率）が算出される。ここで生起確率は、状態遷移ルート上の全ての状態遷移確率、及び状態遷移ルート上で出現した全アミノ酸の出現確率の積である。
あるアミノ酸配列は、複数の状態遷移ルートで生成される。そこで、あるアミノ酸配列の生起確率は、当該配列を生成可能な、複数の状態遷移ルートの生起確率の和として算出される。

【0176】

続いて、配列学習部ＰＡ２ｂが行う学習について説明する。
配列選択部ＰＡ１ｂは、学習データセット記憶部３２４から、分類基準候補情報ごとに、学習データセットを読み出す。配列選択部ＰＡ１ｂは、学習データセットのうち、結合判定情報が結合抗体である学習データセット（「部分学習データセット」と称する）を、配列学習部ＰＡ２ｂが行う学習に用いる。
配列選択部ＰＡ１ｂは、部分学習データセットを第１実施形態と同様に、学習データセット（訓練データセットと検証データセット）、評価データセットに分割する。
配列学習部ＰＡ２ｂは、訓練データセットの配列情報を用いて訓練する。ここで、配列学習部ＰＡ２ｂは、存在状態又は挿入状態それぞれのアミノ酸の出現確率と、状態間の遷移確率を学習する。
本実施形態においては、特性推定情報は、アミノ酸配列の生起確率である。特性推定情報は、アミノ酸配列の生起確率に基づく値、生起確率に所定の演算を行った値などであってもよい。

【0177】

配列学習部ＰＡ２ｂは、検証データセットを用いて、学習結果を検証する。配列学習部ＰＡ２ｂは、検証データセットと学習結果とに基づいて、検証データセットに含まれるアミノ酸配列を隠れマルコフモデルに入力し、その配列の尤度を算出する。配列学習部ＰＡ２１ｂは、評価データに含まれるアミノ酸配列ごとに、結合配列群の尤度と非結合配列群の尤度差を求め、その値に基づく数値を精度情報とする。

【0178】

配列学習部ＰＡ２ｂは、検証グループを変更し、上述した訓練及び検証を繰り返す。この処理は第１実施形態の処理と同様なので、ここでの説明を省略する。
配列学習部ＰＡ２ｂは、繰り返すごとに得られる精度情報の平均を算出する。配列学習部ＰＡ２ｂは、求めた平均値が所定の閾値以下でない場合には、上記の学習をやり直す。配列学習部ＰＡ２ｂは、求めた平均値が所定の閾値以下の場合には、学習結果を学習結果記憶部３２６に記憶させる。なお、算出する値は、平均値でなくてもよい。例えば、精度情報の分散や標準偏差などであってもよい。本実施形態において、特性予測学習モデルに隠れマルコフモデルを用いる例では、隠れマルコフモデルであって、学習の結果、入力データに対して特性推定情報を出力するものを特性予測学習済みモデルと呼ぶ。

【0179】

配列選択部ＰＡ１ｂは、複数の特性予測学習済みモデルから最適な学習モデルを選択する。具体的には、配列選択部ＰＡ１ｂは、評価データセットの各データセットについて、結合判定情報と親和性情報から、ＡＵＣ（ＡｒｅａＵｎｄｅｒａｎＲＯＣＣｕｒｖｅ）を算出する。配列選択部ＰＡ１ｂは、全ての分類基準候補情報の各々について、学習処理及び評価処理を行うことで、分類基準候補情報の各々の隠れマルコフモデルについて、ＡＵＣを算出する。配列選択部ＰＡ１ｂは、ＡＵＣの値が最も高い分類基準候補情報（「選択分類基準情報」とも称する）、及び、その分類基準候補情報の隠れマルコフモデル（「選択学習済みモデル」とも称する）を、パニンググループＩＤと対応付けて学習結果記憶部３２６ｂに記憶させる。

【0180】

学習部３３４ｂは、配列選択部ＰＡ１ｂが生成した選択学習済みモデルを複製し、予測スコアを算出するための特性予測学習済みモデルとして学習結果記憶部３２６ｂに記憶させる。なお、学習部３３４は、図２３の隠れマルコフモデルに対して、選択分類基準情報に対応付けられた学習データセットを用いて、学習処理を行うことで、予測スコアを算出するための特性予測学習済みモデルを生成してもよい。また、学習部３３４ｂは、結合判定が「結合」である学習データセットに加えて或いは一部に代えて、結合判定が「結合」でない学習データセットを用いて学習処理を行ってもよい。

【0181】

＜まとめ＞
以上説明したように、本実施形態に係る情報処理システム１ｂでは、配列学習部ＰＡ２ｂ（「配列学習部」の一例）は、複数の配列に基づいて、隠れマルコフモデルを用いた学習処理（「機械学習」の一例）を行うことで、配列情報が表す配列の特徴を学習した配列学習済みモデル（「第１学習済みモデル」の一例）を生成する。仮想配列生成部ＰＡ３（「配列生成部」の一例）は、抗原結合分子の配列情報が表す配列を構成するアミノ酸（「構成単位」の一例）の少なくとも１つを変異させた予測対象配列を表す予測対象配列情報（「仮想配列情報」の一例）を生成する。
このように、情報処理システム１ｂは、結合判定結果が「結合」である配列に基づいて学習処理を行うので、隠れマルコフモデルの配列学習済みモデルから、結合すると判定される可能性の高い配列又はアミノ酸を予測できる。

【0182】

また、情報処理システム１ｂでは、配列選択部ＰＡ１ｂ（「配列学習部」の一例：学習部３３４ｂであってもよい）は、複数の抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該配列が表す抗原結合分子についての特性評価の結果に基づいて学習処理を行うことで、特性予測学習済みモデル（「第２学習済みモデル」：選択学習済みモデルであってもよい）を生成する。

【0183】

上述のように、仮想配列生成部ＰＡ３（「配列生成部」の一例）は、隠れマルコフモデルの配列学習済みモデルを用いて、抗原結合分子の配列情報が表す配列を構成するアミノ酸（「構成単位」の一例）の少なくとも１つを変異させた仮想配列を表す予測対象配列情報を生成してもよい。
この場合、情報処理システム１ｂは、隠れマルコフモデルを用いた機械学習の場合でも、より特性の高い仮想配列を、生成できる。

【0184】

また、情報処理システム１ｂでは、制御部３３５（「推定部」の一例）は、仮想配列生成部ＰＡ３により生成された複数の予測対象配列情報を、特性予測学習済みモデル（隠れマルコフモデル；「第２学習済みモデル」の一例）に入力し、特性予測学習済みモデルの演算処理を実行することで、複数の仮想配列各々についての親和性の予測スコア（「特性評価の予測値」の一例）を予測する（「取得する」の一例）。
これにより、情報処理システム１ｂは、生成した仮想配列各々について、隠れマルコフモデルを用いて、その親和性の予測スコアを予想できる。

【0185】

（第４実施形態）
以下、図面を参照しながら本発明の第４実施形態について説明する。
本実施形態では、特性評価として、抗原結合分子に関する複数の特性を用いる例を説明する。また、本実施形態では、配列学習済みモデル（「第１学習済みモデル」）の学習モデルとしてＬＳＴＭ、特性予測学習済みモデル（「第２学習済みモデル」：選択学習済みモデルであってもよい）の学習モデルとしてランダムフォレスト（ＲａｎｄｏｍＦｏｒｅｓｔ）が用いられる場合について説明する。

【0186】

本実施形態に係る情報処理システム１ｃの概略図は、第１実施形態の情報処理システム１（図１参照）において、次世代シーケンサ２０を除き、ユーザ端末１０及びサーバ３０をそれぞれユーザ端末１０ｃ及びサーバ３０ｃに代えたものである。以降、第１実施形態と同様の構成には、同一の符号を付与してここでの説明を省略する。

【0187】

本実施形態では、特性評価として、抗原結合分子に関する複数の特性を用いる例を説明する。情報処理システム１ｃでは、ユーザ端末１０ｃで選択された一又は複数の特性情報について、ユーザ端末１０ｃで設定された選択条件を充足する配列情報が選択される。ここで、選択条件とは、例えば、特性情報が示す特性が良い（例えば特性値が閾値より高い）という条件であり、特性情報毎に設定可能な条件である。
サーバ３０ｃは、選択された配列情報に基づいて機械学習を行うことで、配列学習済みモデル（「第１学習済みモデル」の一例）を生成する。この機械学習は、学習モデルとして、第１実施形態で説明したＬＳＴＭ（図１４）を用いて行われる。
このように、配列学習済みモデルは、ユーザが選択した特性情報について、ユーザが設定した選択条件を充足する配列情報を用いて学習される。すなわち、サーバ３０は、各特性情報の選択条件を充足する配列群を、望ましい性質を持った配列群として、学習に用いることができる。この場合、サーバ３０は、特性情報毎の選択条件を充足する可能性の高い仮想配列を、例えば多数、仮想配列群として生成できる。
また、本実施形態では、予測スコアを予測するための特性予測学習済みモデル（「第２学習済みモデル」の一例）の学習モデルとしてランダムフォレストが用いられる場合について説明する。

【0188】

＜情報処理システム＞
以下、本実施形態について詳細を説明する。
情報処理システム１ｃでは、サーバ３０ｃは、ユーザ端末１０ｃから入力される抗体（抗原結合分子の一例）のアミノ酸配列を示す配列情報、及び、当該抗体の特性を示す特性情報と、を用いて学習を行う。サーバ３０ｃは、ユーザ端末１０ｃからの入力情報と学習結果に基づいて、ユーザ端末１０ｃへ出力情報を送信する。

【0189】

例えば、ユーザ端末１０ｃは、抗体の特性情報として、抗原に対する活性に関する特性を示す特性情報、抗体の物性に関する特性を示す特性情報が入力される。ユーザ端末１０ｃは、配列情報と特性情報とを対応付けた情報をサーバ３０ｃに送信する。また、ユーザ端末１０ｃは、学習に用いる配列情報を選択するための条件として、一又は複数の特性毎の選択条件が入力される。ユーザ端末１０ｃは、予測対象配列情報を生成するために必要な情報（テンプレート配列情報、変異条件情報）が入力される。ユーザ端末１０ｃは、入力された情報をサーバ３０ｃに送信する。

【0190】

ユーザ端末１０ｃは、１つ以上の特性の特性情報と、配列情報とを対応付けて、サーバ３０ｃに送信する。例えば、同一の配列情報に対して、２つの特性情報を個別に対応付けて送信してもよい。この場合、サーバ３０ｃは、これまでに配列情報を受信している場合には、新たに受信した特性情報についても、既に受信済みの配列情報に対して対応付ける。

【0191】

テンプレート配列情報は、予測対象配列情報を生成する際の、テンプレートとなるアミノ酸配列を示す情報である。後述するように、本実施形態では、予測対象配列は、例えば、テンプレートとなるアミノ酸配列に対し変異を導入することで生成される。このとき、テンプレート配列情報は、変異が導入される元となる配列（「テンプレート配列」とも称する）を示す。また、テンプレート配列は、特性情報に対応付けられた配列情報に含まれる配列のうちの１つである。
変異条件情報は、テンプレート配列に対し変異を導入する際の条件を示す情報である。変異条件情報は、例えば、予測対象配列の１つを生成する際に、テンプレート配列に導入される変異の上限数を示す情報を含む。

【0192】

サーバ３０ｃは、ネットワークＮＷ又は記憶媒体を介して、配列情報、選択条件、及び特性情報を受信し、受信した情報を記憶する。
サーバ３０ｃは、特性情報毎の選択条件を充足する配列情報に基づいて学習し、配列学習済みモデルを生成して記憶する。サーバ３０ｃは、特性毎に、配列情報と特性情報とに基づいて学習し、特性予測学習済みモデルを生成して記憶する。

【0193】

サーバ３０ｃは、ネットワークＮＷ又は記憶媒体を介して、予測対象配列情報を生成するために必要な情報を受信して記憶する。サーバ３０ｃは、記憶した配列情報のうち、特性情報が選択条件を充足する配列情報に基づいて機械学習を行うことで、配列学習済みモデルを生成する。サーバ３０ｃは、その配列学習済みモデルに基づいて、予測対象配列情報を生成して、記憶させる。
一方、サーバ３０ｃは、記憶した配列情報、及び特性情報に基づいて機械学習を行うことで、特性予測学習済みモデルを生成する。サーバ３０ｃは、その特性予測学習済みモデルに基づいて、入力された予測対象配列情報に対して、一又は複数の特性スコア（特性評価情報の一例）を、特性ごとに予測する。ここで、一又は複数の特性スコアは、選択条件に用いられた特性情報の特性スコアである。
サーバ３０ｃは、予測した一又は複数の特性スコアに応じて、標的抗原と結合すると予想される抗体について、その候補を示す候補抗体情報を、ユーザ端末１０ｃに送信する。
ユーザ端末１０ｃは、受信した特性スコアに応じた候補抗体情報を表示する。

【0194】

これにより、情報処理システム１ｃは、抗原結合分子の特性情報がない場合と比較して、医薬品として開発される際に考慮する特性についても考慮した抗原結合分子の候補を提示することができる。これにより、情報処理システム１ｃは、所望の抗原結合分子情報を提示することができる。

【0195】

＜ユーザ端末＞
図２４は、本実施形態に係るユーザ端末１０ｃの一例を示すブロック図である。
ユーザ端末１０ｃは、通信部１１、入力部１２、記憶部１３、処理部１４ｃ、及び表示部１５を含んで構成される。
処理部１４ｃの基本的な機能は、第１実施形態の処理部１４（図３）と基本的な機能は同様である。以下では、処理部１４ｃが処理部１４と異なる機能について説明する。

【0196】

処理部１４ｃは、例えば、入力部１２から入力された入力情報（例えば、１つ以上の特性情報、配列情報、テンプレート配列情報、変異条件情報）などの各種情報を、通信部１１ｃを介して、サーバ３０ｃへ送信する。サーバ３０ｃは、入力情報と出力情報の対応情報（例えば、学習済みモデル、テーブル）を予め記憶し、入力情報に対して出力情報を生成する。処理部１４ｃは、サーバ３０ｃが生成した出力情報を、通信部１１ｃを介して受信する。処理部１４ｃは、受信した出力情報を、表示部１５に表示（出力の一例）させる。
なお、処理部１４ｃは、記憶部１３が対応情報を記憶する場合には、入力情報に対して対応情報を読み出し、出力情報を生成し、表示部１５に表示部させても良い。

【0197】

＜サーバ＞
図２５は、本実施形態に係るサーバ３０ｃの一例を示すブロック図である。
サーバ３０ｃは、通信部３１ｃ、記憶部３２ｃ、及び、処理部３３ｃを含んで構成される。それぞれの基本的な機能は、第１実施形態のサーバ３０（図６）と同様である。以下では、通信部３１ｃ、記憶部３２ｃ、及び、処理部３３ｃが、通信部３１、記憶部３２、及び、処理部３３と異なる機能について説明する。

【0198】

通信部３１ｃは、ネットワークＮＷを介して各種通信を行う通信モジュールである。通信部３１ｃは、例えば、ユーザ端末１０ｃとの間で各種通信を行う。

【0199】

＜サーバの記憶部＞
記憶部３２ｃは、学習データセット記憶部３２４ｃ、学習結果記憶部３２６ｃ、変異情報記憶部３２７ｃ、配列記憶部３２８ｃ、及び、特性評価情報記憶部３２９ｃを含んで構成される。

【0200】

学習データセット記憶部３２４ｃは、配列情報（図２６参照）及び、特性情報（図２７、図２８参照）を記憶する。これらの情報は、ユーザ端末１０ｃからの入力情報に含まれ、処理部３３ｃによって入力される。
学習結果記憶部３２６ｃは、学習部３３４ｃによる学習結果として、配列学習済みモデルと特性予測学習モデルを記憶する。
変異情報記憶部３２７ｃは、変異情報を記憶する。変異情報は、例えば、ユーザ端末１０ｃからの入力情報に含まれるテンプレート配列情報や変異条件情報であり、処理部３３ｃによって入力される。また、変異情報は、予測対象配列生成部ＰＡｃによる処理の結果である変異位置を示す変異位置情報を含む。予測対象配列生成部ＰＡｃによる処理の詳細は後述する。ただし、本発明はこれに限らず、変異情報は、予め変異情報記憶部３２７ｃに設定されていても良い。
特性評価情報記憶部３２９ｃは、予測対象配列（図２９参照）の各々について、処理部３３ｃが特性予測学習済みモデルを用いて予測した予測スコアを関連付けた特性評価情報（図３０参照）を記憶する。

【0201】

以下、記憶部３２ｃが記憶する配列情報、特性情報、予測対象配列情報、及び、特性評価情報の一例について、図２６～図３０を用いて説明する。

【0202】

図２６は、本実施形態に係る配列情報の一例を示す図である。
この図に示す一例では、配列情報は、配列ＩＤ、抗体の配列情報（Ｈ１、Ｈ２、・・・、Ｈ３５ａ、Ｈ３５ｂ、Ｈ３６、・・・Ｈ１１３、Ｌ１、Ｌ２・・・Ｌ１０７、Ｌ１０７ａ）の各項目が対応付けられている。ここで、「配列ＩＤ」は、抗体の配列を識別するための識別子を示す。「Ｈ１」、「Ｈ２」、「Ｈ３５ａ」、「Ｈ３５ｂ」、「Ｈ３６」、「Ｈ１１３」、「Ｌ１」、「Ｌ２」、「Ｌ１０７」、「Ｌ１０７ａ」は、抗体でのアミノ酸の位置が予め対応付けられている。

【0203】

この図に示す一例では、「配列ＩＤ」が“Ｓ０００００１”で識別される抗体は、そのアミノ酸配列について、ポジション「Ｈ１」のアミノ酸が“Ｍ”、ポジション「Ｈ２」のアミノ酸が“Ｅ”、ポジション「Ｈ３５ａ」のアミノ酸が“Ｐ”、ポジション「Ｈ３５ｂ」のアミノ酸が“Ｓ”、ポジション「Ｈ３６」のアミノ酸が“Ｑ”、ポジション「Ｈ１１３」のアミノ酸が“Ｋ（リシン）”、ポジション「Ｌ１」のアミノ酸が“Ｍ”、ポジション「Ｌ２」のアミノ酸が“Ｆ”、ポジション「Ｌ１０７」のアミノ酸が“Ｉ（イソロイシン）”、ポジション「Ｌ１０７ａ」のアミノ酸が“－（なし）”であることを示す。

【0204】

図２７は、本実施形態に係る特性情報の一例を示す図である。
この図に示す一例では、特性情報は、配列ＩＤ、KD、発現量、自己重合、センサグラム、構造情報の各項目が対応付けられている。ここで、「KD」は、抗体の解離定数を示す。「発現量」は、抗体を作成した際の発現量を示す。「自己重合」は、抗体の自己重合度を示す。「センサグラム」は、標的抗原と抗体との相互作用を、ＳＰＲ（表面プラズモン共鳴）を用いて測定した結果を示すデータ（センサグラム）を示す。

【0205】

この図に示す一例では、「配列ＩＤ」が“Ｓ０００００１”で識別される配列の特性は、「KD」が“１．００Ｅ－０８”であり、「発現量」が“３．２０Ｅ－０１”であり、「自己重合」が“９．９２Ｅ－０１”であり、「センサグラム」が“ＳＧ０００００１．ｊｐｇ”に示されるデータであることを示す。
なお、配列によっては、特性を示す項目（KD、発現量、自己重合、センサグラムなど）の全てについて、その特性情報が存在しなくてもよい。例えば、この図に示す一例において、「配列ＩＤ」が“Ｓ０００００２”で識別される配列情報は、「センサグラム」の項目については、その特性情報が存在しない。

【0206】

図２８は、本実施形態に係るセンサグラムの一例を示す図である。
図２８におけるセンサグラムは、図２７の特性情報のうち、センサグラムの項目で示されるデータの一例である。
この図に示す一例は、条件の異なる３つの時間帯における、標的抗原と抗体との相互作用をＳＰＲで測定した結果を示す図である。この図において、横軸が経過時間、縦軸が結合の強さを示す。時間帯１では、抗体と抗原との反応が中性の反応溶液下で行われ結合が飽和に達するまでの時間帯を示す。時間帯２は、結合が飽和に達したあと、溶液条件を変更しないまま、結合が維持されている時間帯を示す。時間帯３は、反応溶液のｐＨを酸性に変化させた後、結合していた抗体と抗原とが解離していく時間帯を示す。

【0207】

図２９は、本実施形態に係る予測対象配列情報の一例を示す図である。
この図に示す一例は、予測対象配列情報は、予測対象配列ＩＤ、抗体の配列情報（Ｈ１、Ｈ２、・・・、Ｈ３５ａ、Ｈ３５ｂ、Ｈ３６、・・・Ｈ１１３、Ｌ１、Ｌ２・・・Ｌ１０７、Ｌ１０７ａ）の各項目が対応付けられている。予測対象配列ＩＤは、予測対象配列を識別するための識別子である。また、抗体の配列情報は、図２６の抗体の配列情報と同じものを示す。
この図に示す一例では、「予測対象配列ＩＤ」が“Ｖ０００００１”で識別される抗体は、そのアミノ酸配列について、ポジション「Ｈ１」のアミノ酸が“Ｍ”、ポジション「Ｈ２」のアミノ酸が“Ｅ”、ポジション「Ｈ３５ａ」のアミノ酸が“Ｄ（アスパラギン酸）”、ポジション「Ｈ３５ｂ」のアミノ酸が“Ｓ”、ポジション「Ｈ３６」のアミノ酸が“Ｒ（アルギニン）”、ポジション「Ｈ１１３」のアミノ酸が“Ｋ”、ポジション「Ｌ１」のアミノ酸が“Ｍ”、ポジション「Ｌ２」のアミノ酸が“Ｆ”、ポジション「Ｌ１０７」のアミノ酸が“Ｉ”、ポジション「Ｌ１０７ａ」のアミノ酸が“－（なし）”であることを示す。

【0208】

図３０は、本実施形態に係る評価結果情報の一例を示す図である。
この図に示す一例は、評価結果情報は、予測対象配列ＩＤ、KD、発現量、自己重合、センサグラムの各項目が対応付けられている。ここで、「KD」は、抗体の解離定数の評価結果を示す。「発現量」は、抗体を作成した際の発現量の評価結果を示す。「自己重合」は、抗体の自己重合度の評価結果を示す。「センサグラム」は、標的抗原と抗体と相互作用に関する、センサグラムの評価結果を示す。
この図に示す例では、「予測対象配列ＩＤ」が“Ｖ０００００１”で識別される配列の評価結果は、「KD」が“１．１２Ｅ－０８”であり、「発現量」が“８．７０Ｅ－０１”であり、「自己重合」が“９．８７Ｅ－０１”であることを示す。また、「センサグラム」はまだ評価結果が得られていないため、各項目は空欄である。
センサグラムの評価値とは、センサグラムのグラフ形状をスコアリングした値である。一例では、グラフの最大値が高いほど良い点が付く項、ある一定時間後にグラフの減衰が急激であるほど良い点が付く項などの値を加算した値が評価スコアである。

【0209】

＜サーバの処理部＞
図２５に戻って、処理部３３ｃについて、詳細を説明する。
処理部３３ｃは、中央演算装置（ＣＰＵ）などのプロセッサである。処理部３３ｃは、例えば、通信部３１ｃから入力された入力情報と記憶部３２ｃに記憶する情報に基づいて、入力情報に対する出力情報を生成する。処理部３３ｃは、生成した出力情報を、通信部３１ｃを介して、ユーザ端末１０ｃ送信する。

【0210】

具体的には、処理部３３ｃは、ユーザ端末１０ｃから、抗体のアミノ酸配列を示す配列情報と、抗体の特性を示す特性情報とを、通信部３１ｃを介して取得し、取得した情報を学習データセットとして記憶部３２ｃに記憶する。

【0211】

その後、処理部３３ｃは、ユーザが選択した特性の特性情報を有する学習データセットを選択する。処理部３３ｃは、選択した学習データセットについて、配列情報と当該特性の特性情報とに基づいて学習し、特性予測学習済みモデルを生成する。処理部３３ｃは、生成した配列学習済みモデルと特性予測学習済みモデルを記憶部３２ｃに記憶させる。

【0212】

処理部３３ｃは、ユーザ端末１０ｃからの入力情報を、通信部３１ｃを介して取得する。入力情報は、例えば、変異情報などである。処理部３３ｃは、これらの入力情報と、記憶部３２ｃに記憶された情報と学習結果に基づいて、標的抗原との結合の度合いに応じて、標的抗原に結合する抗体の候補を表す候補抗体情報を生成する。処理部３３ｃは、生成した候補抗体情報を、通信部３１ｃを介してユーザ端末１０ｃへ送信する。

【0213】

＜処理部の構成＞
図２５では、処理部３３ｃは、情報取得部３３１ｃ、予測対象配列生成部ＰＡｃ、学習部３３４ｃ、制御部３３５ｃ、及び、出力処理部３３６ｃを含んで構成される。
情報取得部３３１ｃは、ユーザ端末１０ｃより受信する情報から、配列情報（図２６参照）と、特性情報（図２７参照）を取得し、これらの情報を、学習データセット記憶部３２４ｃに記憶させる。また、情報取得部３３１ｃは、ユーザ端末１０ｃより受信する情報から、変異情報を取得し、変異情報記憶部３２７ｃに記憶させる。

【0214】

予測対象配列生成部ＰＡｃ及び学習部３３４ｃは、学習データセット記憶部３２４ｃから、配列情報と１又は複数の特性情報とを対応付けた情報を取得する。なお、予測対象配列生成部ＰＡｃ及び学習部３３４ｃは、当該特性の特性情報が存在しない配列情報については、その情報を取得しない。予測対象配列生成部ＰＡｃ及び学習部３３４ｃは、取得した情報を学習データセットとして、それぞれ、配列の特徴を学習するための学習処理、予測スコアを予測するための学習処理及び評価処理に用いる。ここで、配列の特徴を学習するための学習処理では、特性毎の選択条件を充足する配列情報が用いられる。

【0215】

＜予測対象配列を生成するための学習処理＞
予測対象配列生成部ＰＡｃは、学習データセットを選択する。予測対象配列生成部ＰＡｃは、予測対象配列を生成するための学習処理（配列の特徴を学習するための学習処理）として、第１実施形態で説明したＬＳＴＭを学習モデルとして、選択した学習データセットの配列情報に基づいて学習処理を行う。
ここで、学習データセットに関して、例えば、ユーザは、抗原結合分子の特性評価の特性から、１又は複数の特性を選択し、各特性の選択条件を設定する。ここで、特性評価として、原結合分子の親和性評価、薬理活性評価、物性評価、動態評価、安全性評価が例示される。例えば、親和性評価の特性として結合活性、薬理活性評価の特性として薬理活性が例示され、物性評価の特性として熱安定性、化学安定性、溶解性、粘性、光安定性、長期保存安定性、或いは非特異的吸着性が例示される。配列選択部ＰＡ１は、学習データセットのうち、特性情報が選択条件を充足するものを選択する。
予測対象配列生成部ＰＡｃは、選択した学習データセットの配列情報に基づいて、配列の特徴を学習するための学習処理を行うことで、配列学習済みモデルを生成する。

【0216】

例えば、ユーザは、親和性評価、薬理活性評価、物性評価、動態評価、或いは安全性評価の特性のいずれか或いはこれらの組み合わせから、１又は複数の特性を選択し、各特性の選択条件を設定してもよい。この場合、予測対象配列生成部ＰＡｃは、学習データセットのうち、特性情報が親和性評価、薬理活性評価、物性評価、動態評価、或いは安全性評価の特性のいずれか或いはこれらの組み合わせについて選択条件を充足するものを選択する。予測対象配列生成部ＰＡｃは、選択した学習データセットの配列情報に基づいて、配列の特徴を学習するための学習処理を行うことで、配列学習済みモデルを生成する。

【0217】

［選択条件］
各特性に設定可能な選択条件は、例えば、下記条件である。
特性が結合活性の場合、選択条件は、結合の強度が高い（例えば、KD（解離速度定数）が閾値以上）という条件である。結合の強度は、上述のとおり、分子（例えば、抗体）の１個またはそれ以上の結合部位と、分子の結合パートナー（例えば、抗原）との間の、非共有結合的な相互作用の合計の強度である。

【0218】

特性が抗原結合分子の熱安定性、化学安定性等の安定性の場合、選択条件は、安定性が高い（閾値以上）という条件である。安定性は安定性を測定する評価方法により異なるが、熱安定性の指標である変性中点（Tm）を指標に判断が可能であり、Tmが高いと熱安定性が高いと推定される。また、安定性評価の目的とする熱処理、低pH環境への暴露、光暴露、機械による攪拌、長期保存等の処理前と処理後において、当該抗原抗体分子の分解や化学的修飾、会合化を測定することにより評価することができ、当該抗原結合分子の分解や化学修飾、会合化が少ない場合安定性が高いと推定される。また、特性がExtra Cellular Matrix(ECM)への結合評価に基づく非特異的結合評価の場合、選択条件は、EMCへの結合強度が低い（閾値以下）という条件である。ECMへの結合強度が低い場合に非特異的結合が少ないと推定される。
タンパク質発現量は、当該抗原結合分子をコードする遺伝子を発現細胞に導入し、発現細胞を一定期間培養した後に培養上清中の抗原結合分子の濃度を測定することにより発現量を測定することが可能であり、培養上清中の抗原結合分子の濃度が高い場合に「発現量が高い」と推定される。この場合、選択条件は、その濃度が高い（閾値以上）という条件である。

【0219】

＜予測スコアを予測するための学習処理＞
学習部３３４ｃは、予測スコアを予測するための学習処理として、学習データセットの配列情報を入力変数とし、特徴情報を出力変数とした学習処理を行う。
具体的には、学習部３３４ｃは、ユーザが選択した特性の特性情報の値を有する学習データセットを選択する。学習部３３４ｃは、選択した学習データセットの配列情報と特性情報とに基づいて学習し、特性予測学習済みモデルを生成する。なお、特性予測学習済みモデルを生成するために用いられる配列情報は、各特性が選択条件を充足しない配列情報が含まれる。これにより、特性予測学習済みモデルは、各特性が選択条件を充足せず、特性が悪い（例えば特性値の低い）予測スコアも、精度良く予測できる。ただし、特性予測学習済みモデルを生成するために用いられる配列情報は、各特性が選択条件を充足しない配列情報が含まれなくてもよい。

【0220】

予測対象配列生成部ＰＡｃは、配列学習済みモデルの学習モデルとしてＬＳＴＭを用いた機械学習を行う。一方、学習部３３４ｃは、特性予測学習済みモデルの学習モデルとしてランダムフォレストを用いた機械学習を行う。このように、予測対象配列生成部ＰＡｃと学習部３３４ｃが用いる学習モデルは、種類が異なっていてもよい。

【0221】

以下、学習部３３４ｃが、特性予測学習済みモデルの学習モデルとしてランダムフォレストを用いる学習処理及び評価処理について、詳細を説明する。ただし、本発明はこれに限らず、学習処理及び評価処理の特性予測学習モデルには、他の学習モデルが用いられても良い。

【0222】

＜学習処理と評価処理＞
図３１は、本実施形態に係る学習処理の一例を説明する説明図である。図３１は、特性予測学習済みモデルを生成するための学習処理の一例であり、特性情報が数値で表現可能である場合の学習処理の一例を示す。
図３１では、学習データセットをハッチングした丸印で示す。
学習部３３４ｃは、学習データセットＤＳから、例えばランダムに、所定の数（例えば１００個）の学習データセット（以下、「サブセット」とも称する）を抽出する。学習部３３４ｃは、この抽出を、予め定められた回数（例えば、Ｋ回）繰り返すことで、Ｋ個のサブセットＳＳ１～ＳＳＫを生成する。学習部３３４ｃは、サブセットＳＳｋ（ｋ＝１～Ｋ）ごとに、決定木Ｔｒｅｅｋ（ｋ＝１～Ｋ）を生成する。
ここで、学習部ｃは、対象配列情報の各々（配列の要素）、つまり、各位置のアミノ酸の情報を独立変数として設定する。学習部３３４ｃは、特性情報を従属変数として設定する。学習部３３４ｃは、設定した独立変数と従属変数について、サブセットを用いて、決定木を生成する（「学習する」の一例）。

【0223】

図３１において、決定木は、複数のノード（白丸）と、ノードをつなぐ辺（矢印）から構成されている。２つのノードが矢印で結ばれる場合、矢印の元にあるノードを親ノード、矢印の先にあるノードを子ノードと称する。各ノードは、高々１個の親ノードを有する。また、親ノードを有しないノードを根ノードと称する。
実行段階において、推定対象の入力データ（抗体の予測対象配列情報）は、根ノードから、子ノードを有しないいずれかのノード（以降、「葉ノード」とも称する）まで、矢印の方向に従って、分類される。各入力データがどの矢印を経由するかは、各ノードに対応付けられる判定基準に従う。判定基準は、学習の結果、独立変数、つまり、各位置のアミノ酸の情報に対応付けられる。例えば、あるノードの判定基準は、配列情報が「Ｈ９５ａ」の位置のアミノ酸の情報の基準であり、このアミノ酸がＬ（ロイシン）なら右の矢印、Ｉ（イソロイシン）なら左の矢印に進む、という基準である。

【0224】

葉ノードは、次の子ノードが存在しないので、判定基準は対応付けられない。各葉ノードでは、ノードを辿った入力データが示す抗体について、特性推定情報が対応付けられる。特性推定情報は、各葉ノードに到達した入力データについての、特性情報の推定結果である。各決定木Ｔｒｅｅｋにおいて、葉ノードに対応付けられる特性推定情報は、サブセットＳＳｋで決定される。
特性推定情報は、学習段階において、各葉ノードに分類された学習データセットに基づいて求められる。例えば、特性推定情報は、各葉ノードに到達した学習データセットに含まれる特性情報の統計値に基づく値である。特性推定情報は、例えば、特性情報の平均値である。なお、特性推定情報は、特性情報の最大値、最小値などであってもよいし、平均値、最大値、最小値、標準偏差などに基づいて求められる値であってもよい。

【0225】

次に、学習部３３４ｃは、生成した複数の決定木Ｔｒｅｅ１～ＴｒｅｅＫについて、評価処理を行う。
図３２は、本実施形態に係る評価処理の一例を説明する説明図である。図３２は、図３１と同様、特性情報が数値で表現可能ある場合の学習処理の一例を示す。
学習部３３４ｃは、学習データセットＤＳから、サブセットＳＳ１～ＳＳＫのいずれにも含まれない学習データセット（「評価データセット」とも称する）を、１又は複数選択する。図３２は、２個の評価データセットＴＤが選択された場合の図である。

【0226】

学習部３３４ｃは、評価データセットＴＤの各データセットについて、その配列情報を各決定木Ｔｒｅｅ１～ＴｒｅｅＫに入力し、Ｋ個の特性推定情報Ｔ１～ＴＫを取得する。学習部３３４ｃは、特性推定情報Ｔ１～ＴＫに基づく代表値を、特性評価情報として算出する。代表値とは、例えば、特性推定情報Ｔ１～ＴＫの平均値であるが、本発明はこれに限らず、最大値又は最小値であってもよい。学習部３３４ｃは、評価データセットＴＤの各データセットについて、特性情報と特性推定情報とを比較し、特性情報と特性推定情報とのずれを所定の方法で求める。所定の方法は、例えば、評価データセットＴＤの全データに対する平均絶対誤差を算出する方法である。学習部３３４ｃは、所定の方法で求めた特性情報と特性推定情報とのずれが、所定の範囲内に収まるか否かを判定する。学習部３３４ｃは、ずれが所定の範囲内に収まる場合は、学習が終了したと判定し、学習処理及び評価処理を終了する。学習部３３４ｃは、ずれが所定の範囲内に収まらない場合には、学習を再度やり直す。

【0227】

なお、特性情報と特性推定情報とのずれを求める方法は上述した方法に限られない。例えば、平均二乗誤差、二乗平均平方根誤差、決定係数などを求める方法であってもよい。
本実施形態では、特性情報が数値で表現可能である場合、決定木Ｔｒｅｅ１～ＴｒｅｅＫの集合で、入力データに対して特性推定情報Ｔ１～ＴＫに基づく特性評価情報を出力するものを、学習済みモデルと呼ぶ。

【0228】

特性予測学習済みモデルを生成するための学習において、学習部３３４ｃは、特性情報が画像の場合には、予め記憶部３２ｃに記憶される方法に従って、画像の特徴量を抽出し、抽出した特徴量を特性情報として上述した処理を行う。また、抽出した特徴量が優れているか否かの判定基準についても予め記憶部３２ｃに記憶される。特徴量の抽出や判定基準は、例えば既知の機械学習を用いた方法を用いる。
また、画像がグラフなどの場合、特徴量として、グラフの傾きやグラフの近似曲線を示す関数の係数などを算出する。例えば図２８に示すようなグラフの場合、各時間帯における近似曲線を算出し、その近似曲線を示す関数の係数を特徴量として求める。例えば、この図に示す例の場合、時間帯１、時間帯２では、直線に近似した場合の傾きを特徴量とする。また、時間帯３の場合、指数関数に近似することで、その半減期を特徴量とする。

【0229】

予測対象配列生成部ＰＡｃ及び学習部３３４ｃは、それぞれ、学習後、配列学習済みモデル及び特性予測学習済みモデルを学習結果記憶部３２６ｃに記憶させる。

【0230】

＜予測対象配列の生成処理＞
以下、予測対象配列生成部ＰＡｃが行う予測対象配列の生成処理について説明する。
予測対象配列生成部ＰＡｃは、配列選択部ＰＡ１ｃ、配列学習部ＰＡ２ｃ、及び仮想配列生成部ＰＡ３ｃを含んで構成される。
配列選択部ＰＡ１ｃは、配列学習済みモデルを生成するための学習において学習データセット記憶部３２４ｃに記憶された情報と、変異情報記憶部３２７ｃに記憶されたテンプレート配列情報とに基づいて、テンプレート配列の抗体よりも優れた特性を示す抗体の配列情報を取得する。例えば、配列選択部ＰＡ１ｃは、変異情報記憶部３２７ｃからテンプレート配列情報を読み出す。また、配列選択部ＰＡ１ｃは、学習データセット記憶部３２４ｃから、テンプレート配列情報と一致する配列情報を選択する。配列選択部ＰＡ１ｃは、選択した配列情報に対応付けられている特性情報（以下、「基準特性情報」とも称する）を取得する。配列選択部ＰＡ１ｃは、選択条件として、学習データセット記憶部３２４ｃに記憶された特性情報のうち、基準特性情報よりも優れた特性を示す特性情報（以下、「改善特性情報」とも称する）を選択する。ここで、「優れた特性を示す」とは、所定の特性の項目について、基準特性情報よりも、特性情報が優れていることを示す。優れているか否かの判定基準は、予め記憶部３２ｃに記憶される判定基準に従う。配列選択部ＰＡ１ｃは、改善特性情報に対応する配列情報を、変異情報記憶部３２７ｃに記憶させる。
ただし、この例では、配列選択部ＰＡ１ｃは、テンプレートより特性値がよい配列群を選択しているが、さらに、テンプレートより特性値がα倍よい配列群、もしくは特性値が上位Ｎ（Ｎは自然数）個の配列を選択して、改善特性情報に対応する配列情報としてもよい。

【0231】

配列学習部ＰＡ２ｃは、変異情報記憶部３２７ｃから、改善特性情報に対応する配列情報を取得する。配列学習部ＰＡ２ｃは、取得した配列情報を用いて機械学習を行う。学習処理については、第１実施形態と同様であるので、ここでは説明を省略する。機械学習の結果、配列学習部ＰＡ２ｃは、配列学習済みモデルを生成する。
仮想配列生成部ＰＡ３ｃは、配列学習部ＰＡ２ｃが生成した配列学習済みモデルを用いて、予測対象配列を生成する。予測対象配列の生成方法についても、第１実施形態と同様であるので、ここでは説明を省略する（図１６参照）。仮想配列生成部ＰＡ３ｃは、生成した予測対象配列情報を、配列記憶部３２８ｃに記憶させる。

【0232】

＜予測スコアの予測＞
制御部３３５ｃは、配列記憶部３２８ｃから、予測対象配列情報を読み出す。制御部３３５ｃは、読み出した予測対象配列情報を入力データとして、特性予測学習済みモデルに入力し、予測スコアを出力する。制御部３３５ｃは、予測対象配列情報と予測した予測スコアを、特性評価情報として特性評価情報記憶部３２９ｃに記憶させる。例えば、制御部３３５ｃは、図２９の予測対象配列情報に対して、予測対象配列情報に対応する予測スコアを記憶させる。なお、特性予測学習済みモデルは、ガウス過程であってもよく、ガウス過程による予測スコアは予測の信頼度であってもよい。
また、制御部３３５ｃは、例えば、出力される複数の特性を用いて推定される特性であって、学習時には含まれていない特性についても、その特性評価情報を求めることができる。このような特性は、例えば、抗体の粘性や、抗体のヒト化の可能性を示す情報である。これらの特性評価情報の推定方法は、予め定められ記憶部３２ｃに記憶される。

【0233】

出力処理部３３６ｃは、予測対象配列情報の予測スコアに応じて、予測対象配列情報を、候補抗体情報として出力する。候補抗体情報とは、特性の高い抗体の候補を示す。
具体的には、例えば、出力処理部３３６ｃは、特性評価情報記憶部３２９ｃから特性評価情報を読み出し、予測スコアの高い順序で順序付けを行う。予測スコアは特性ごとに複数存在するので、順序付けの結果も特性ごとに複数存在する。出力処理部３３６ｃは、予測対象配列情報の特性ごとの順序の結果を総合して、特性全体の順序付けを行う。特性全体の順序付けは例えば、特性ごとの順序を平均した値に基づいて行う。なお、特性全体の順序付けの方法は上述した方法には限らない。例えば、特性毎の順序の和や、順序に対応する所定の点数の和などであってもよい。また、特性ごとに重み付けを行い、候補抗体情報を決定しても良い。すなわち、重視したい特性に重み付けを行うことで、当該特性が優れた配列がより候補抗体情報に決定されやすくなる。

【0234】

出力処理部３３６ｃは、特性全体の高い順序で順序付けされた予測対象配列情報を、候補抗体情報として生成する。出力処理部３３６ｃは、生成した候補抗体情報を、通信部３１ｃを介して、ネットワークＮＷを経由でユーザ端末１０ｃへ送信する。なお、出力処理部３３６ｃは、予測対象抗体情報をユーザ端末１０ｃへ送信し、ユーザ端末１０ｃ（処理部１４ｃ）は、受信した予測対象抗体情報を上述した方法で並び変えて表示部１５に表示してもよい。

【0235】

＜動作について＞
図３３は、本実施形態に係るサーバ３０ｃの動作の一例を示すフローチャートである。この図は、学習段階（学習処理及び評価処理）におけるサーバ３０ｃの動作を示す。

【0236】

（ステップＳ３０１）情報取得部３３１ｃは、ユーザ端末１０ｃから、各種情報を取得する。情報取得部３３１ｃは取得した情報を記憶部３２ｃに記憶させる。その後、ステップＳ３１１へ進む。ステップＳ３１１～Ｓ３１３の処理は、選択条件ごとに行われる。これらの処理が、予測対象配列を生成するための学習処理Ｓ３１である。
（ステップＳ３１１）配列選択部ＰＡ１ｃは、ステップＳ３０１で記憶された学習データセットのうち選択条件を充足する学習データセットについて、それらの配列情報として、改善特性情報に対応する配列情報を選択する。その後、ステップＳ３１２へ進む。

【0237】

（ステップＳ３１２）配列学習部ＰＡ２ｃは、ステップＳ３１１で選択された配列情報を用いて、予測対象配列を生成するための学習処理を行う。その後、ステップＳ３１３へ進む。
（ステップＳ３１３）配列学習部ＰＡ２ｃは、ステップＳ３１２の学習処理によって生成された配列学習済みモデルを、学習結果記憶部３２６ｃに記憶させる。その後、ステップＳ３２１へ進む。ステップＳ３２１～Ｓ３２３の処理は、１又は複数の特性ごとに行われる。これらの処理が、予測スコアを予測するための学習処理Ｓ３２である。

【0238】

（ステップＳ３２１）学習部３３４ｃは、ステップＳ３０１で記憶された学習データセットのうち、選択条件の１又は複数の特性（改善特性情報の特性）の値を有する学習データセットの配列情報と特性情報を選択する。その後、ステップＳ３２２に進む（ステップＳ３２２）学習部３３４ｃは、ステップＳ３２１で選択された学習データセットを用いて、１又は複数の特性ごとの予測スコアを予測するための学習処理を行う。その後、ステップＳ３２３へ進む。
（ステップＳ３２３）学習部３３４ｃは、ステップＳ３２２の学習処理によって生成された特性予測学習済みモデルを、学習結果記憶部３２６ｃに記憶させる。その後、本図の動作を終了する。

【0239】

図３４は、本実施形態に係るサーバ３０ｃの動作の別の一例を示すフローチャートである。この図は、実行段階におけるサーバ３０の動作を示す。実行段階とは、情報処理システム１ｃが、学習データセットで学習した後、配列学習済みモデルを用いて予測対象配列を生成し、また、特性予測学習済みモデルを用いて予測スコアを予測する段階である。

【0240】

（ステップＳ４０１）仮想配列生成部ＰＡ３ｃは、図３３のステップＳ３１３で生成された配列学習済みモデルを用いて、予測対象配列情報を生成する。予測対象配列生成部ＰＡ３ｃは、生成した予測対象配列情報を配列記憶部３２８ｃに記憶させる。その後、ステップＳ４０２へ進む。

【0241】

（ステップＳ４０２）制御部３３５ｃは、ステップＳ４０１で生成された予測対象配列情報について、図３３のステップＳ３２３で生成された特性予測学習済みモデルを用いて、予測スコアを予測する。その後、ステップＳ４０３へ進む。
（ステップＳ４０３）出力処理部３３６ｃは、ステップＳ４０２で予測された１又は複数の予測スコアに応じて、特性全体の順序付けを行う。出力処理部３３６ｃは、特性全体の順序付けに基づいて、予測対象配列情報を候補抗体情報として出力する。出力された候補抗体情報は、ユーザ端末１０ｃで表示される。その後、本図の動作を終了する。

【0242】

以上説明したように、本実施形態による情報処理システム１ｃでは、配列学習部ＰＡ２ｃ（「配列学習部」の一例）は、複数の配列に基づいて、ＬＳＴＭを用いた学習処理（「機械学習」の一例）を行うことで、配列情報が表す配列の特徴を学習した配列学習済みモデル（「第１学習済みモデル」の一例）を生成する。
ここで、学習処理に用いられる複数の配列は、ユーザに選択された各特性情報について、設定された選択条件を充足する配列である。
仮想配列生成部ＰＡ３ｃは、抗原結合分子の配列情報が表す配列を構成するアミノ酸（「構成単位」の一例）の少なくとも１つを変異させた仮想配列を表す予測対象配列情報（「仮想配列情報」の一例）を生成する。
これにより、情報処理システム１ｃは、選択された各特性情報について、設定された選択条件を充足する可能性の高い仮想配列を生成できる。

【0243】

また、情報処理システム１ｃでは、制御部３３５（「推定部」の一例）は、配列学習済みモデルに基づいて生成された予測対象配列情報を、選択学習済みモデル（決定木；「第２学習済みモデル」の一例）に入力し、選択学習済みモデルの演算処理を実行することで、入力した予測対象配列情報が表す配列の抗原結合分子についての特性評価の予測スコア（「特性評価の予測値」の一例）を予測する（「取得する」の一例）。
これにより、情報処理システム１ｃは、生成した予測対象配列情報各々について、決定木を用いて、その特性評価（例えば親和性）の予測スコアを予想できる。

【0244】

（第５実施形態）
以下、図面を参照しながら本発明の第５実施形態について説明する。
本実施形態では、情報処理システム１ｄは、予測した予測対象配列の抗体（例えば、候補抗体情報が示す抗体）に対して実際に特性を測定する。情報処理システム１ｄは、その抗体の配列を表す配列情報と測定した特性を示す特性情報に基づいて、配列学習済みモデル又は特性予測学習済みモデルに対して、さらなる機械学習を行う。情報処理システム１ｄは、さらなる機械学習を行った配列学習済みモデルを用いて、新たな予測対象配列情報を生成する。
本実施形態では、情報処理システム１ｄは、これらの一連の処理を繰り返す。即ち、本実施形態では、情報処理システム１ｄは、学習データセットに基づいた学習、学習結果に基づく予測対象配列の生成、候補配列情報が示す抗体を用いた測定、測定結果と配列情報とを学習データセットに追加、を１つのサイクルとし、このサイクルを繰り返し行う。

【0245】

本実施形態に係る情報処理システム１ｄの概略図は、第４実施形態の情報処理システム１ｃにおいて、サーバ３０ｃをサーバ３０ｄに代えたものである。ユーザ端末１０ｄは、第４実施形態と同様の構成を備えるので、説明を省略する。以降、第４実施形態と同様の構成には、同一の符号を付与してここでの説明を省略する。

【0246】

図３５は、第５実施形態に係るサーバ３０ｄの一例を示すブロック図である。
サーバ３０ｄは、通信部３１ｃ、記憶部３２ｄ、及び、処理部３３ｄを含んで構成される。

【0247】

記憶部３２ｄは、第４実施形態の記憶部３２ｃ（図２５）と比較して、学習データセット記憶部３２４ｄが学習データセット記憶部３２４ｃと異なる。ここで、学習データセット記憶部３２４ｄの基本的な機能は学習データセット記憶部３２４ｃとそれぞれ同様である。以下では、学習データセット記憶部３２４ｄが学習データセット記憶部３２４ｃと異なる機能について説明をする。

【0248】

学習データセット記憶部３２４ｄは、配列情報及び特性情報を記憶する。これらの情報は、ユーザ端末１０ｃからの入力情報に含まれ、処理部３３ｄによって入力される。ここで、配列情報は、予測対象配列生成部ＰＡｄが予測したのが何サイクル目かを示す、サイクル数情報を含む。

【0249】

＜処理部の構成＞
図３５の処理部３３ｄは、第４実施形態の処理部３３ｃ（図２５）と比較して、学習部３３４ｄ、予測対象配列生成部ＰＡｄ、及び制御部３３５ｄが、それぞれ、学習部３３４ｃ、予測対象配列生成部ＰＡｃ、及び制御部３３５ｃと異なる。ここで、学習部３３４ｄ、予測対象配列生成部ＰＡｄ、及び制御部３３５ｄの基本的な機能は、それぞれ、学習部３３４ｃ、予測対象配列生成部ＰＡｃ、制御部３３５ｃとそれぞれ同様である。以下では、学習部３３４ｄ、予測対象配列生成部ＰＡｄ、制御部３３５ｄが、それぞれ、学習部３３４ｃ、予測対象配列生成部ＰＡｃ、制御部３３５ｃと異なる機能について説明をする。

【0250】

予測対象配列生成部ＰＡｄ及び学習部３３４ｄは、学習データセット記憶部３２４ｄから配列情報及び１又は複数の特性情報を取得する。予測対象配列生成部ＰＡｄ及び学習部３３４ｄは、当該特性の特性情報が存在しない配列情報については、その情報を取得しない。予測対象配列生成部ＰＡｄ及び学習部３３４ｄは、取得した情報のうちの一部を学習データセットとして、それぞれ、配列の特徴を学習するための学習処理、予測スコアを予測するための学習処理及び評価処理に用いる。ここで、配列の特徴を学習するための学習処理では、特性毎の選択条件を充足する配列情報が用いられる。

【0251】

＜情報処理システム１ｄの動作＞
図３６は、本実施形態に係る情報処理システム１ｄの動作の一例を示すフローチャートである。図３６では、図３３、図３４の処理と同様の処理については、同じ符号が付されている。
（ステップＳ３０１）情報取得部３３１ｃは、ユーザ端末１０ｃから、各種情報を取得する。情報取得部３３１ｃは取得した情報を記憶部３２ｄに記憶させる。その後、ステップＳ３１へ進む。
（ステップＳ３１）配列選択部ＰＡ１ｄ及び配列選択部ＰＡ１ｄは、図３３の予測対象配列を生成するための学習処理Ｓ３１（選択条件ごとに行われるステップＳ３１１～Ｓ３１３の処理）を行うことで、配列学習済みモデルを生成する。その後、ステップＳ３２へ進む。
（ステップＳ３２）学習部３３４ｄは、図３３の予測スコアを予測するための学習処理Ｓ３２（１又は複数の特性ごとに行われる処理ステップＳ３２１～Ｓ３２３の処理）を行うことで、特性予測学習済みモデルを生成する。その後、ステップＳ４０１へ進む。

【0252】

（ステップＳ４０１）仮想配列生成部ＰＡ３ｄは、ステップＳ３１で生成された配列学習済みモデルを用いて、予測対象配列情報を生成する。仮想配列生成部ＰＡ３ｄは、生成した予測対象配列情報を配列記憶部３２８ｃに記憶させる。その後、ステップＳ４０２へ進む。
（ステップＳ４０２）制御部３３５ｄは、ステップＳ４０１で生成された予測対象配列情報について、図３３のステップＳ３２３で生成された特性予測学習済みモデルを用いて、予測スコアを予測する。その後、ステップＳ４０３へ進む。
（ステップＳ４０３）出力処理部３３６ｃは、ステップＳ４０２で予測された１又は複数の予測スコアに応じて、特性全体の順序付けを行う。出力処理部３３６ｃは、特性全体の順序付けに基づいて、予測対象配列情報を候補抗体情報として出力する。出力された候補抗体情報は、ユーザ端末１０ｃで表示される

【0253】

（ステップＳ５０１）制御部３３５ｄは、例えばユーザ端末１０ｃからの入力に応じて、追加特性評価を行うか否かを判定する。追加特性評価では、さらに、複数の抗体と標的抗原のパニングが行われ、その解析結果情報が次世代シーケンサ２０から出力される。追加特性評価では、好ましくは、候補抗体情報が示す抗体の候補が含まれる抗体ライブラリが用いられる。追加特性評価を行うと判定された場合（Ｙｅｓ）、ステップＳ５０２へ進み、追加特性評価を行わないと判定された場合（Ｎｏ）、本図の動作を終了する。
（ステップＳ５０２）追加の特性評価が行われ、その結果、次世代シーケンサ２０は、解析結果情報を出力する。この解析結果情報には、好ましくは、抗体として、候補抗体情報が示す抗体の候補が含まれる。その後、ステップＳ５０３へ進む。

【0254】

（ステップＳ５０３）情報取得部３３１ｄは、ユーザ端末１０ｃから、各種情報を取得する。情報取得部３３１ｃは取得した情報を、ステップＳ３０１又は前のステップＳ５０３で記憶した情報に追加して、記憶部３２ｄに記憶させる。この情報には、ステップＳ５０２で出力された解析結果情報として、配列情報及び１又は複数の特性情報が含まれる。その後、ステップＳ５０４へ進む。
（ステップＳ５０４）制御部３３５ｄは、例えばユーザ端末１０ｃからの入力に応じて、追加学習処理を行うか否かを判定する。追加学習処理を行うと判定された場合（Ｙｅｓ）、ステップＳ３１へ戻り、追加学習処理を行わないと判定された場合（Ｎｏ）、本図の動作を終了する。

【0255】

ここで、配列選択部ＰＡ１ｄ及び学習部３３４ｄは、それぞれ、取得した情報のうち、学習データセットに含む情報を次のように選択する。配列選択部ＰＡ１ｄ及び学習部３３４ｄは、学習データセットの上限数を、記憶部３２ｄから取得する。上限数は、例えば、第１サイクルにおいて学習に用いた学習データセットの数である。上限数は、学習処理毎（配列の特徴を学習するための学習処理、予測スコアを予測するための学習処理）、つまり、学習済みモデル毎（配列学習済みモデル、特性予測学習済みモデル）に、予め定められ記憶部３２ｄに記憶されている。
配列選択部ＰＡ１ｄ及び学習部３３４ｄは、上限数以下の数の学習データセットであって、少なくとも２回の異なるサイクルの学習データセットを用いて学習する。換言すれば、学習データセットの全体に対して、前の回の学習データセットの比率が少なくなる。これにより、情報処理システム１ｄは、直近のパニングによる特性評価を反映しつつ、前の回の特性評価の影響を徐々に減らすことができる。この場合、情報処理システム１ｄは、学習済みモデルから出力される予測対象配列や予測スコアを、大きく発散させず、収束させることができる場合がある。

【0256】

例えば、配列選択部ＰＡ１ｄ及び学習部３３４ｄは、それぞれ、配列情報を参照し、現在のサイクルに近いサイクルで生成された配列を優先的に学習データセットとして取得する。配列選択部ＰＡ１ｄ及び学習部３３４ｄは、それぞれ、あるサイクル（第Ｍサイクルとする）において生成された配列について、全てを学習データセットとして含むと上限数を超過する場合には、その中から学習データセットとして含む配列と含まない配列とを選択する。配列選択部ＰＡ１ｄ及び学習部３３４ｄは、それぞれ、例えば、第Ｍサイクルで生成した配列を、当該配列に対応する特性情報に基づいて、順位付けを行う。順位付けの方法は、例えば、特性ごとに順位付けを行い、その順位の平均に基づいて行う。なお、順位付けの方法はこれには限られない。また、配列選択部ＰＡ１ｄ及び学習部３３４ｄは、同じ方法で、各サイクルの学習データセットを選択してもよいし、一方が選択した学習データセットを他方が用いてもよい。
配列選択部ＰＡ１ｄ及び学習部３３４ｄは、それぞれ、順位付けの結果に基づいて、特性の優れた上位の配列を学習データセットに含む配列として取得する。学習部３３４ｄは、学習データセットの数が上限数に達するまで上記の処理を行う。

【0257】

配列学習部ＰＡ２ｄ及び学習部３３４ｄは、それぞれ、取得した学習データセットに基づいて、学習処理を行う。学習処理については、第４実施形態において述べた方法と同様であるので、ここでは説明を省略する。学習部３３４ｄは、学習結果を学習結果記憶部３２６ｃに記憶させる。
なお、選択条件は、サイクル毎に異なってもよく、ユーザは、サイクル毎に、特性を選択し、選択した各特性の選択条件を設定できてもよい。例えば、後のサイクルの選択条件は、前のサイクルの選択条件よりも、厳しくてもよいし（例えば、より高い特性値）、逆に、緩くてもよい（例えば、より低い特性値）。また、後のサイクルの選択条件の特性は、前のサイクルの選択条件の特性と、一部又は全部が異なっていてもよい。

【0258】

予測対象配列生成部ＰＡｄは、予測対象配列情報を生成する。この際、予測対象配列生成部ＰＡｄは、一部の予測対象配列情報を、変異情報記憶部３２７ｃから取得する情報に基づいて生成する。この方法については、第４実施形態の方法と同様の方法であるので、ここでは説明を省略する。

【0259】

なお、予測対象配列生成部ＰＡｄは、生成した各予測対象配列情報に対して、その予測対象配列情報を生成した生成日時やサイクル回数を対応付けてもよい。この場合、出力処理部３３６ｃやユーザ端末１０は、各予測対象配列情報を生成した順序、又は、生成したサイクルの順序或いはサイクル毎に、出力することができる。また、出力処理部３３６ｃやユーザ端末１０は、予測対象配列情報を生成日やサイクル回数ごとに分類して、分類ごとに異なる態様で、各予測対象配列情報を出力してもよい。例えば、ユーザ端末１０は、最新のサイクルで生成した各予測対象配列情報に対して、新しいことを示す文字列や画像（例えば「ＮＥＷ」）を付して表示する。
また、予測対象配列生成部ＰＡｄは、予測対象配列として、これまでのサイクルに含まれていない配列を生成してもよい。ここでは、ベイズ最適化を用いる例を説明する。

【0260】

ベイズ最適化は、形状がわからない関数（例えば、ここでは抗体のアフィニティ）の最大値を求めるための手法。トレーニング時の入力は各抗体配列およびアフィニティで、トレーニング後にテストデータとして新規仮想配列を入力した際に、獲得関数を出力する。獲得関数は、例えば、現時点までのデータから推測される不確実度も踏まえて想定される、その配列のアフィニティレンジの最大値である。獲得関数として信頼性上限関数(upper confidence bound) および期待改善度(expected improvement) が考えられる。獲得関数が高い配列を選択して実験提案することができる。抗体ではないが Saito et al., ACS Synth Biol. 2018 Sep 21;7(9):2014-2022.が一例。利用可能なアルゴリズムとしては、GP-UCBおよびトンプソンサンプリングがある。

【0261】

以上説明したように、本実施形態による情報処理システム１ｄでは、出力処理部３３６ｃ（「出力部」の一例）は、選択学習済みモデル（「第２学習済みモデル」の一例）に入力された複数の予測対象配列情報のうち、少なくとも１つの予測対象配列情報（候補抗体情報）を、予測スコアに応じて出力する。
出力処理部３３６ｃが出力した予測対象配列情報に基づいて、予測対象配列情報が示す抗体について、追加特性評価が行われ、その解析結果情報が学習データセットとして記憶される。配列学習部ＰＡ２ｄ（「配列学習部」の一例）は、出力処理部３３６ｃが出力した予測対象配列情報に基づいて、さらなる機械学習を行うことで、新たな配列学習済みモデルを生成する。
学習部３３４ｄ（「学習部」の一例）は、出力処理部３３６ｃが出力した予測対象配列情報、及び、当該予測対象配列情報が表す抗原結合分子の結合判定情報（「特性評価の評価結果情報」の一例）に基づいて、さらなる機械学習を行うことで、選択学習済みモデル（又は特性予測学習済みモデル：「第２学習済みモデル」）を生成する。
これにより、情報処理システム１ｄは、特性の高い予測対象配列情報とその結合判定情報を用いて、さらなる機械学習をすることができる。また、情報処理システム１ｄは、学習データセットとして、結合性の強い配列情報の割合や数を増やすことができる場合がある。この場合、情報処理システム１は、より特性の高い仮想配列を、生成できる。
また、情報処理システム１ｄは、変異位置を設定しているので、当該変異位置のアミノ酸を変異させた配列情報のうち、より特性の高い仮想配列の配列情報を生成することができる。この場合、情報処理システム１ｄは、変異位置のアミノ酸を変異させた配列情報を、より特性の高い仮想配列の配列情報に、収束させていくことができる場合がある。

【0262】

（ハードウェア構成）
図３７は、実施形態に係るサーバ３０のハードウェア構成の一例を示すブロック図である。
サーバ３０は、ＣＰＵ９０１、記憶媒体インターフェイス部９０２、記憶媒体９０３、入力部９０４、出力部９０５、ＲＯＭ９０６、ＲＡＭ９０７、補助記憶部９０８、及びインターフェイス部９０９を含んで構成される。ＣＰＵ９０１、記憶媒体インターフェイス部９０２、記憶媒体９０３、入力部９０４、出力部９０５、ＲＯＭ９０６、ＲＡＭ９０７、補助記憶部９０８、及びインターフェイス部９０９とは、バスを介して相互に接続される。
なお、ここで言うＣＰＵ９０１は、プロセッサ一般のことを示すものであって、狭義のいわゆるＣＰＵと呼ばれるデバイスのことだけではなく、例えばＧＰＵやＤＳＰ等も含む。また、ここで言うＣＰＵ９０１は、一つのプロセッサで実現されることに限られず、同じ、または異なる種類の複数のプロセッサを組み合わせることで実現されても良い。

【0263】

ＣＰＵ９０１は、補助記憶部９０８、ＲＯＭ９０６およびＲＡＭ９０７が記憶するプログラムを読み出して実行し、また、補助記憶部９０８、ＲＯＭ９０６およびＲＡＭ９０７が記憶する各種データを読み出し、補助記憶部９０８、ＲＡＭ９０７に対して各種データを書き込むことにより、サーバ３０を制御する。また、ＣＰＵ９０１は、記憶媒体インターフェイス部９０２を介して記憶媒体９０３が記憶する各種データを読み出し、また、記憶媒体９０３に各種データを書き込む。記憶媒体９０３は、光磁気ディスク、フレキシブルディスク、フラッシュメモリなどの可搬記憶媒体であり、各種データを記憶する。
記憶媒体インターフェイス部９０２は、記憶媒体９０３の読み書きを行うインターフェイスである。

【0264】

入力部９０４は、マウス、キーボード、タッチパネル、音量調整ボタン、電源ボタン、設定ボタン、赤外線受信部などの入力装置である。
出力部９０５は、表示部、スピーカなどの出力装置である。
ＲＯＭ９０６、ＲＡＭ９０７は、サーバ３０の各機能部を動作させるためのプログラムや各種データを記憶する。
補助記憶部９０８は、ハードディスクドライブ、フラッシュメモリなどであり、サーバ３０の各機能部を動作させるためのプログラム、各種データを記憶する。
インターフェイス部９０９は、通信インターフェイスを有し、無線通信や有線通信によりネットワークＮＷに接続される。

【0265】

例えば、図６におけるサーバ３０の機能構成における処理部３３は、図３５に示すハードウェア構成におけるＣＰＵ９０１に対応する。また、例えば、図６におけるサーバ３０の機能構成における記憶部３２は、図３５に示すハードウェア構成におけるＲＯＭ９０６、ＲＡＭ９０７または補助記憶部９０８、またはそれらの何れかの組み合わせに対応する。また、例えば、図６におけるサーバ３０の機能構成における通信部３１は、図３５に示すハードウェア構成におけるインターフェイス部９０９に対応する。

【0266】

また、ユーザ端末１０、及び次世代シーケンサ２０についても、同様のハードウェア構成を具備するので、ここではユーザ端末１０、次世代シーケンサ２０のハードウェア構成については説明を省略する。

【0267】

なお、上述した第１～第３実施形態では、サーバ３０（３０ａ、３０ｂ）が、標的抗原と親和性がある抗体の候補を示す候補抗体情報を出力する例を説明した。サーバ３０（３０ａ、３０ｂ）は、上述した方法で記憶した情報に基づいて、ある配列を有する抗体に対し、最良の評価結果情報が得られる実験条件を出力しても良い。サーバ３０（３０ａ、３０ｂ）は、上述した方法によって、実験条件が異なるラウンドごとに学習モデルを有する。そこで、サーバ３０（３０ａ、３０ｂ）は、実験条件も学習データセットとして取得する。サーバ３０（３０ａ、３０ｂ）は、配列毎に、実験条件、学習モデル、及び評価結果情報を対応付ける。サーバ３０（３０ａ、３０ｂ）は、対応付けた情報に基づいて、既存の学習モデルを用いて、学習を行う。このとき、サーバ３０（３０ａ、３０ｂ）は、学習モデルと評価結果情報を独立変数とし、実験条件を従属変数として設定する。サーバ３０（３０ａ、３０ｂ）は、学習結果と、入力された配列情報とに基づいて、最良の評価結果情報を出力する実験条件を決定し、当該情報を出力する。
これにより、パニングを行う際の実験条件を最適化することができ、より親和性が高いと評価される抗体の特徴をより顕著にすることができる。このように、情報処理システム１（１ａ、１ｂ）は、処理時間又は処理負荷を軽減することができる。したがって、情報処理システム１（１ａ、１ｂ）は、所望の抗体情報を提供できる。

【0268】

また、上述した第１～第３実施形態では、予測対象配列を結合配列の配列情報と変異情報とに基づいて生成する例を説明したが、予測対象配列の生成方法はこれに限られない。例えば、結合配列の配列情報に基づいて生成しても良い。このとき、予測対象配列生成部ＰＡ（ＰＡｂ、ＰＡｃ、ＰＡｄも同様。以下同じ）は、結合配列の各ポジションについて、アミノ酸の出現確率を求める。予測対象配列生成部ＰＡは、ポジションごとに、出現確率が所定の閾値以上であるアミノ酸の情報を求める。予測対象配列生成部ＰＡは、ポジションごとに、上記アミノ酸のいずれかをあてはめることで、予測対象配列を生成する。

【0269】

また、上述した第１～第３実施形態では、複数のパニングから取得した学習データセットを用いて学習する例を説明したが、これには限られない。１回のパニングから取得した学習データセットを用いて学習を行ってもよい。この場合、分類基準情報は、例えば、当該パニングにおける出現頻度の閾値となる。

【0270】

また、上述した第１～第３実施形態では、次世代シーケンサ２０が、抗体重鎖の配列情報と、抗体軽鎖の配列情報とを別々に出力し、サーバ３０が抗体重鎖と抗体軽鎖の組み合わせを推定する例について説明したが、本発明はこれには限られない。例えば、次世代シーケンサ２０が、抗体重鎖及び軽鎖の含む配列情報を取得できる場合には、抗体重鎖と抗体軽鎖の組み合わせは既に決まっているので、上述した組み合わせ推定処理を行わない。

【0271】

また、上述した第１～第３実施形態では、重鎖配列（又は軽鎖配列）を、存在抗体配列として、データセット記憶部３２２に記憶させてもよい。例えば、サーバ３０は、重鎖配列（又は軽鎖配列）を、存在抗体配列として、データセット記憶部３２２に記憶させてもよい。この場合、サーバ３０は、重鎖配列（又は軽鎖配列）に基づいて学習処理を行うことで、配列学習済みモデルを生成する。サーバ３０は、重鎖配列（又は軽鎖配列）及び出現確率に基づいて学習処理を行うことで、特性予測学習済みモデルを生成する。
サーバ３０は、配列学習済みモデルを用いて、重鎖配列（又は軽鎖配列）を表す予測対象配列情報を生成する。サーバ３０は、生成した予測対象配列情報の各々を、特性予測学習済みモデルへ入力し、重鎖配列（又は軽鎖配列）を表す予測対象配列情報毎に予測スコアを予測する。
一方、サーバ３０は、予測対象配列情報が表す重鎖配列（又は軽鎖配列）について、その重鎖配列（又は軽鎖配列）と組み合う軽鎖配列（又は重鎖配列）を推定する。推定は、上述の推定部３３２が行う手法でもよいし、その他の手法でもよい。また、その重鎖配列（又は軽鎖配列）と組み合う軽鎖配列（又は重鎖配列）は、ユーザが選択してもよい。サーバ３０は、予測対象配列情報が表す重鎖配列（又は軽鎖配列）と、その重鎖配列（又は軽鎖配列）と組み合うと推定された軽鎖配列（又は重鎖配列）と、を組み合わせて候補抗体情報を生成してもよい。

【0272】

また、上述した第１～第３実施形態では、各パニングにおいて次世代シーケンサ２０から取得した全ての配列に基づいて、学習を行う例を説明したが、これには限られない。例えば、取得した配列情報に基づき、配列情報を複数のクラスタに分類し、クラスタごとに学習を行っても良い。

【0273】

また、上述した第１～第３実施形態では、情報処理システムは、親和性評価の一例として、パニングを用いる評価について説明した。しかし、本発明はこれに限らず、親和性評価は、標的抗原と抗体との親和性を評価するものであればよく、パニング以外の評価を用いても良い。
また、上述した第１～第３実施形態では、情報処理システムは、評価結果情報の一例として、抗体の出現頻度を用いる場合について説明した。しかし、本発明はこれに限らず、評価結果情報として、パニングごとの各配列の出現頻度、パニングごとの、各ポジションのアミノ酸の出現頻度、などである。

【0274】

また、上述した第１～第３実施形態では、配列選択部ＰＡ１（ＰＡ１ｂ、ＰＡ１ｃ、ＰＡ１ｄも同様。以下、これらを代表してＰＡ１と記載す）及び学習部３３４（３３４ｂ、３３４ｃ、３３４ｄも同様。以下、これらを代表して３３４と記載す）は、評価処理を行う際、算出したＡＵＣに基づいて、選択分類基準情報と選択学習済みモデルを決定する例を説明したが、これには限られない。例えば、解離定数（KD）と親和性情報との相関に基づいて決定してもよい。具体的には、まず、評価データセットとして、予めKD既知の配列を用意する（既知のKDを「既知KD」とも称する）。また、記憶部３２（３２ａ、３２ｂ）は、親和性情報とKDとの対応情報を記憶する。配列選択部ＰＡ１及び学習部３３４は、評価データセットを用いて、各配列について、親和性情報を算出する。配列選択部ＰＡ１及び学習部３３４は、算出した親和性情報と、親和性情報とKDとの対応情報とに基づいて、親和性情報をKDに変換する（変換したKDを「算出KD」とも称する）。配列選択部ＰＡ１及び学習部３３４は、学習済みモデル毎に、算出KDと既知KDとの組について、相関係数を算出する。配列選択部ＰＡ１及び学習部３３４は、相関係数の最も高い分類基準候補情報、及び当該分類基準候補情報に対応する学習済みモデルを、それぞれ選択分類基準情報、選択学習済みモデルとして、パニンググループＩＤを対応付けて、学習結果記憶部３２６に記憶させる。

【0275】

また、上記各実施形態では、配列選択部ＰＡ１、配列学習部ＰＡ２、及び学習部３３４がＬＳＴＭや隠れマルコフモデルを用いて学習処理を行う例を説明したが、これには限られない。例えば、配列選択部ＰＡ１、配列学習部ＰＡ２、及び学習部３３４は、第４、第５実施形態で説明したランダムフォレストを用いてもよい。
例えば、配列学習部ＰＡ２は、教師なし学習の学習モデルを用いることで、仮想配列生成部ＰＡ３は、早く多くの配列を生成できる。具体的には、配列学習部ＰＡ２は、教師なし学習によって、特性値に基づいて配列情報を分類する配列学習済みモデルを生成する。仮想配列生成部ＰＡ３は、配列と同分類に属する配列を生成することで、同様の特性を持つ予測対象配列を生成することができる。
なお、教示ありモデルの場合、配列学習部ＰＡ２は、配列情報と特性評価の結果のデータセットで、機械学習を行う。この場合、仮想配列生成部ＰＡ３は、生成した配列情報を教示ありモデルに入力し、教示ありモデルから出力された特性評価値が高い配列情報を選択し、予測対象配列情報とする。ここで、例えば、仮想配列生成部ＰＡ３は、各構成要素のアミノ酸をランダムに生成し、生成したアミノ酸を並べた配列を示す配列情報を、教示ありモデルに入力する配列情報として生成してもよい。また、特性評価値が高い配列情報とは、特性評価値が閾値よりも高い配列情報であってもよいし、特性評価値が高い方から上位にある配列情報であってもよい。

【0276】

また、上述した第４、第５実施形態では、サーバ３０ｃ（３０ｄ）が、配列情報として抗体のアミノ酸を示す文字を並べた文字列として扱い学習や予測を行う例を説明したが、配列情報はこれに限られない。例えば、サーバ３０ｃ（３０ｄ）は、抗体のアミノ酸配列を、当該配列を構成する個々のアミノ酸の物性量の集合に変換して扱っても良い。すなわち、サーバ３０ｃ（３０ｄ）は、アミノ酸配列の文字列をユーザ端末１０ｃから受け入れる。サーバ３０ｃ（３０ｄ）は、文字列と物性量とを対応付けた情報に基づいて物性量に変換する。

【0277】

ここで、アミノ酸の物性量とは、アミノ酸の物理科学的または生化学的な特性を示す数値であり、例えば、ＡＡｉｎｄｅｘに登録された特性量である。具体的には、アミノ酸の物性量とは、アミノ酸の体積、原子数、側鎖の長さ、表面積、電荷、疎水度、タンパク質においてよく出現する領域（内部か表面か）、取りやすい２次構造の種類、βストランド形成時の角度、水溶時のエネルギー変化、融点、熱容量、及び、ＮＭＲデータなどである。サーバ３０ｃ（３０ｄ）は、個々のアミノ酸ごとに、所定の組み合わせの物性量（「ポジション物性量群」とも称する）を配列情報として取得する。すなわち、配列情報は、抗体を構成するアミノ酸の数だけ、ポジション物性量をあわせた情報（物性量群）である。

【0278】

物性量の組み合わせに関する情報（どの物性量の組み合わせを用いるか示す情報）は、予めサーバ３０ｃ（３０ｄ）に記憶されてもよいし、ユーザ端末１０ｃから入力され、サーバ３０ｃ（３０ｄ）が記憶する情報であってもよい。また、物性量の組み合わせは、特性ごとに異なるものであっても良い。
また、アミノ酸配列を構成する個々のアミノ酸に対応する物性量の情報は、サーバ３０ｃ（３０ｄ）に記憶されなくてもよい。例えば、ユーザ端末１０ｃに記憶され予め物性量群として変換されてもよい。この場合、サーバ３０ｃ（３０ｄ）は、配列情報として変換済みの物性量群を受け入れる。また、例えば、アミノ酸配列を構成する個々のアミノ酸に対応する物性量の情報はネットワークＮＷからサーバ３０ｃ（３０ｄ）やユーザ端末１０ｃが取得するものであってもよい。
また、サーバ３０ｃ（３０ｄ）は、アミノ酸配列を物性量に変換する前に、所定の方法を用いて縮約してもよい。例えば、所定の方法は、自己相関関数を用いる方法などである。

【0279】

サーバ３０ｃ（３０ｄ）は、制御部３３５ｃが予測対象配列の特性スコアを予測する場合も、同様にアミノ酸配列を一度特性量に変換する。制御部３３５ｃは、変換した特性量と学習結果とに基づいて、特性スコアを予測する。

【0280】

また、サーバ３０ｃ（３０ｄ）は、アミノ酸配列から立体構造を推定し、推定した立体構造に基づいた情報（「構造情報」とも称する）を配列情報としてもよい。構造情報とは、疎水性領域、正電荷領域、負電荷領域を示す情報である。これらの情報は、３次元的に表現されるものであってもよいし、２次元に射影され表現されるものであってもよい。

【0281】

図３８は、構造情報の一例を示す情報である。
この図に示す一例は、抗体の立体構造の解析計算結果に基づいて、抗体分子表面の性質（疎水性領域、正電荷領域、負電荷領域）を球面上に投影した図である。中心は、抗原との結合面を示す。この図において、１～６で示される領域は、表面が疎水性領域であることを示す。また、７～９で示される領域は、表面が正電荷領域であることを示す。また、１０で示される領域は、表面が負電荷領域であることを示す。
サーバ３０ｃ（３０ｄ）は、アミノ酸の構造情報から、所定の方法を用いて特徴量を抽出する。例えば、特徴量とは、抗体分子表面の性質の位置や領域の大きさなどを示す情報である。サーバ３０ｃ（３０ｄ）は、抽出した特徴量と特性情報とに基づいて学習を行う。なお、構造情報の推定は予めユーザ端末１０ｃで行われてもよい。また、配列情報をネットワークＮＷに送信し、対応する構造情報をネットワークＮＷからユーザ端末１０ｃ又はサーバ３０ｃが受信するものであってもよい。

【0282】

また、上述した第４、第５実施形態では、抗原に対する特性情報を用いる例を使用したが、これには限られない。例えば、他の抗原に対する特性情報を用いてもよい。この特性情報は、抗体の物性に関する特性情報である。

【0283】

また、上述した第４、第５実施形態では、学習や予測に用いる特性（特性情報）について、限定しなかったが、用いる特性（特性情報）を限定してもよい。例えば、これらの情報はユーザ端末１０ｃのユーザによって入力され、サーバ３０ｃ（３０ｄ）に送信されてもよい。

【0284】

また、上述した第４、第５実施形態では、特性ごとに学習を行い、学習済みモデルを作成する例について説明したが、これには限らない。例えば、複数の特性についてまとめて学習を行い、１つの学習済みモデルを作成してもよい。この場合、当該学習済みモデルからは、複数の特性に関する特性評価情報が出力される。

【0285】

また、上述した各実施形態では、予測対象配列生成部ＰＡがＬＳＴＭを用いて予測対象配列を生成する例を説明したが、これには限られない。例えば、予測対象配列生成部ＰＡが、取得した配列情報に基づいて、変異を導入する位置を特定してもよい。以下、この方法について説明する。

【0286】

上述した第１～第３実施形態では、予測対象配列生成部ＰＡは、選択分類基準情報に対応付けられた学習データセット（図１１）から、結合判定が「結合」である学習データセットを読み出す。予測対象配列生成部ＰＡは、読み出した学習データセットの配列情報から、１又は複数の位置のアミノ酸を変更することで、予測対象配列情報を生成する。ただし、本発明はこれに限らず、予測対象配列生成部ＰＡは、ランダムに予測対象配列情報を生成してもよい。
また、予測対象配列生成部ＰＡは、変異情報記憶部３２７に変異情報が記憶されている場合には、読み出した学習データセットの配列情報から、変異情報が示す位置（配列情報の要素）のアミノ酸を変更することで、予測対象配列情報を生成する。
これにより、情報処理システム１は、結合する可能性が高く、変異させたい位置のアミノ酸だけを変更した予測対象配列情報を生成できる。
予測対象配列生成部ＰＡは、生成した予測対象配列情報を、配列記憶部３２８に記憶させる。

【0287】

上述した第４、第５実施形態では、配列選択部ＰＡ１ｃ（ＰＡ１ｄ）及び配列学習部ＰＡ２ｃ（ＰＡ２ｄ）は、改善特性情報が示す配列の配列情報を、学習データセット記憶部３２４ｃ（３２４ｄ）に記憶された配列情報から取得する。配列選択部ＰＡ１、配列学習部ＰＡ２、及び学習部３３４は、取得した配列情報のアミノ酸配列と、テンプレート配列情報のアミノ酸配列とを比較し、アミノ酸配列の変異位置を特定する。配列選択部ＰＡ１、配列学習部ＰＡ２、及び学習部３３４は、特定した変異位置を示す変異位置情報を変異情報の１つとして、変異情報記憶部３２７ｃに記憶させる。

【0288】

予測対象配列生成部ＰＡｃ（ＰＡｄ）は、テンプレート配列情報と、変異情報とに基づいて、予測対象配列情報を生成する。例えば、配列選択部ＰＡ１ｃ（ＰＡ１ｄ）は、変異情報記憶部３２７ｃから、テンプレート配列情報、変異位置情報、及び、変異条件情報を読み出す。配列選択部ＰＡ１ｃ（ＰＡ１ｄ）は、変異位置情報が示す変異位置の数が、変異条件情報が示す変異の上限数より多い否かを判定する。配列選択部ＰＡ１ｃ（ＰＡ１ｄ）は、変異位置の数が上限数以下の場合は、全ての変異位置を変異導入箇所と判定する。配列選択部ＰＡｃ（ＰＡ１ｄ）１は、変異位置の数が上限数より多い場合には、変異位置の中から上限数の変異導入位置をランダムに選択する。配列選択部ＰＡ１ｃ（ＰＡ１ｄ）は、テンプレート配列情報から、変異導入位置が示すアミノ酸を変更することで、予測対象配列情報を生成する。配列選択部ＰＡ１ｃ（ＰＡ１ｄは、生成した予測対象配列情報を、配列記憶部３２８ｃに記憶させる。

【0289】

また、上述した方法では、サーバ３０ｃが変異導入場所を決定する場合を説明したが、これには限られない。例えば、ユーザ端末１０ｃのユーザによって、特定の変異導入位置を示す変異情報が入力され、サーバ３０ｃ（３０ｄ）に送信されてもよい。この場合、サーバ３０ｃ（３０ｄ）は、受信した変異情報を変異情報記憶部３２７ｃに記憶する。また、サーバ３０ｃ（３０ｄ）は当該変異導入位置を含むように変異導入位置を決定する。

【0290】

また、上述した第４、第５実施形態では、候補抗体情報を出力する際、サーバ３０ｃ（３０ｄ）が、特性ごとの順序付けに基づいて、候補抗体情報を決定する例を説明したがこれには限られない。例えば、複数の特性を用いた候補抗体情報の決定をユーザ端末１０ｃが行っても良い。この場合、サーバ３０ｃは、特性ごとの順位付けの結果（予測対象配列と特性ごとの順位付けの結果）を、ユーザ端末１０ｃに送信する。

【0291】

また、上述した第４、第５実施形態では、サーバ３０ｃ（３０ｄ）が予測対象配列を生成する例を説明したが、これには限られない。例えば、ユーザ端末１０ｃのユーザによって予測対象配列が入力され、サーバ３０ｃ（３０ｄ）に送信されてもよい。

【0292】

また、上述した第４、第５実施形態では、ＬＳＴＭの学習時に中間層全体に関するパラメータをサーバ３０ｃ（３０ｄ）が予め記憶し、再学習時にはサーバ３０ｃ（３０ｄ）が適宜当該パラメータを変更する例を説明したが、これには限られない。例えば、ユーザ端末１０ｃのユーザによって、各パラメータが入力されてもよい。この場合、例えば、サーバ３０ｃ（３０ｄ）は、必要に応じて中間層全体に関するパラメータをユーザ端末１０ｃに要求する情報を送信する。ユーザ端末１０ｃは、受信した情報を表示部１５に表示し、ユーザ端末１０ｃのユーザから入力される情報をサーバ３０ｃ（３０ｄ）に送信する。サーバ３０ｃ（３０ｄ）は、受信した情報に基づいて、当該パラメータを決定する。

【0293】

また、上述した第４、第５実施形態では、学習データセットに用いる配列情報及び特性情報を、サイクル数に応じて決定する例を説明したが、これには限られない。例えば、特定の特性が優れた配列情報及び特性情報を優先的に学習データセットとしてもよい。この場合、サーバ３０ｃは、重視する特性を示す情報を記憶部３２ｃに記憶するか、またはユーザ端末１０ｃから受信する。
また、例えば、サーバ３０ｃは、配列情報と特性情報を取得した日時を示す情報に基づいて、学習データセットに用いる配列情報及び特性情報を決定してもよい。具体的には、サーバ３０ｃは、学習データセットに用いる配列情報及び特性情報を、取得した日時が最新のものから所定の上限数まで取得する。ここで取得した日時とは、サーバ３０ｃが各情報を取得した日時であってもよいし、実際に測定などを行って特性情報を取得した日時であってもよい。
また、例えば、サーバ３０ｃは、それまでに取得した全ての配列情報と特性情報に基づいて学習を行っても良い。このとき、サーバ３０ｃは、サイクル数に応じた重み付けを行ってもよい。すなわち、より新しいサイクルで生成された配列情報とそれに対応する特性情報については、より重要視するようにしてもよい。

【0294】

また、上述した各実施形態において、抗原結合分子の例として抗体を用いる例を説明したが、抗原結合分子はこれには限られない。すなわち、抗原結合分子は最も広義な意味として使用される。具体的には、抗原結合分子は、抗原に対する結合活性を示す限り、様々な分子型を含む。例えば、抗原結合分子が抗原結合ドメインとＦｃ領域が結合した分子で有る場合、例として、完全抗体や抗体断片が挙げられる。抗体には、単一のモノクローナル抗体（アゴニストおよびアンタゴニスト抗体を含む）、ヒト抗体、ヒト化抗体、キメラ抗体等が含まれ得る。また抗体の断片として使用される場合としては、抗原結合ドメインおよび抗原結合断片（例えば、ＶＨＨ，Ｆａｂ、Ｆ（ａｂ’）２、ｓｃＦｖおよびＦｖ）が好適に挙げられ得る。既存の安定なα／βバレルタンパク質構造等の立体構造がｓｃａｆｆｏｌｄ（土台）として用いられ、その一部分の構造のみが抗原結合ドメインの構築のためにライブラリ化されたスキャフォールド分子も、本開示の抗原結合分子に含まれ得る。

【0295】

また、上述した第１～第３実施形態では、ユーザ端末１０、次世代シーケンサ２０、及びサーバ３０がネットワークＮＷを介して接続される例を説明したが、これには限られない。例えば、サーバ３０と次世代シーケンサ２０とが同一のものであっても良い。また、ユーザ端末１０とサーバ３０とが同一のものであっても良い。また、サーバ３０は、次世代シーケンサから取得した塩基配列をアミノ酸配列に変換する例を説明したが、これには限られない。例えば、塩基配列をアミノ酸配列に変換する処理を行う変換装置が、サーバ３０の外部に存在してもよい。この場合、変換装置は、次世代シーケンサ２０から入力された情報について、塩基配列をアミノ酸配列に変換し、変換した情報を、サーバ３０に出力する。また、次世代シーケンサ２０は、次世代シーケンサには限られない。例えば、他のシーケンサであってもよい。

【0296】

また、上述した第４、第５実施形態では、ユーザ端末１０ｃ、サーバ３０ｃ（３０ｄ）がネットワークＮＷを介して接続される例を説明したが、これには限られない。例えば、サーバ３０ｃとユーザ端末１０ｃとが同一のものであっても良い。また、例えば、サーバ３０ｃ（３０ｄ）の学習処理を行う装置が、サーバ３０ｃ（３０ｄ）の外部に備えられても良い。また、例えば、サーバ３０ｃ（３０ｄ）の予測処理を行う装置が、サーバ３０ｃ（３０ｄ）の外部に備えられても良い。

【0297】

また、上記各実施形態において、予測対象配列生成部ＰＡと学習部３３４は、確定ベクトル値ｈ_ｔ－１を生成するため、出現確率に従って１つのアミノ酸を選択する。例えば、予測対象配列生成部ＰＡと学習部３３４は、出現確率が４０％のアミノ酸は、１０回に４回選択されるように出力する。
これにより、予測対象配列生成部ＰＡと学習部３３４は、各ポジションにおいて、例えば最大値となる１つのアミノ酸を選択する場合と比較して、様々なアミノ酸を出現させることができ、多様な予測対象配列又は候補抗体情報を出力できる。

【0298】

なお、上述した各実施形態では、予測対象配列生成部ＰＡと学習部３３４は、別の装置に備えられてもよい。また、配列選択部ＰＡ１、配列学習部ＰＡ２（ＰＡ２ｂ、ＰＡ２ｃ、ＰＡ２ｄも同様。以下、これらを代表してＰＡ２と記載する）、仮想配列生成部ＰＡ３（ＰＡ３ｂ、ＰＡ３ｃ、ＰＡ３ｄも同様。以下、これらを代表してＰＡ３と記載す）は、それぞれ、別の装置に備えられてもよい。
また、上述した各実施形態では、サーバ３０（３０ａ、３０ｂ、３０ｃ、３０ｄも同様。以下、これらを代表して３０と記載す）は、分類部３３３を備えず、配列選択部ＰＡ１は、ＬＳＴＭを生成しなくてもよい。この場合、配列選択部ＰＡ１は、学習データセットのうち、特性値が所定条件を充足する学習データセットの配列情報を選択する。配列学習部ＰＡ２は、配列選択部ＰＡ１が選択した配列情報に基づいて学習処理を行うことで、配列学習済みモデルを生成する。また、サーバ３０は、学習部３３４ｂを備えなくてもよい。この場合、サーバ３０では、仮想配列生成部ＰＡ３が生成した予測対象配列の一部或いは全部を、候補抗体情報として生成する。出力処理部３３６は、生成された候補抗体情報を出力する。また、サーバ３０は、推定部３３２を備えなくてもよい。

【0299】

上記実施形態において、機械学習で仮想配列群を生成し、それらに対する予測スコア等の値を予測する意義として、ファージディスプレイ実験ではうまく発現せず、結合実験が難しい配列が存在する点がある。実験が難しい配列に対する評価を、コンピュータにより実行可能となる利点がある。

【0300】

上記実施形態において、ＬＳＴＭで仮想配列群を生成する意義として、単純な列挙では、組み合わせ数の爆発が起こり、高性能コンピュータでも扱えない場合もある。例えば、HchとLchの合計20ポジションを19種類のアミノ酸に網羅的に振った場合、19の20乗＝3.76×10の25乗の超大量の組合せがあり、全てをコンピュータで評価することは、非常に困難である。そのために、上記実施形態では、ＬＳＴＭを用いることにより、「良い性質をもつ」配列を学習し、「良い性質を持つ可能性が高い」配列群を生成することが重要となっている。

【0301】

［実施例］
以下、第１実施形態に係る実施例について説明する。ある抗原Ｋに対し、ファージディスプレイライブラリをパニングした場合について、配列情報を取得した。配列情報は、次世代シークエンサー（ＮＧＳ：ＮｅｘｔＧｅｎｅｒａｔｉｏｎＳｅｑｕｅｎｃｉｎｇ)で解析した解析結果情報に含まれる。解析結果情報の配列情報は、パニング後であるため、抗原Ｋに結合する抗体群の配列情報である。
このパニング後の配列情報が示す配列群を用いて、ＬＳＴＭに対して学習処理を行い、学習処理後のＬＳＴＭを用いて、結合する可能性が高い仮想配列群を、予測対象配列として生成させた。

【0302】

図３９は、本実施例に係る配列と特性の関係を示す図である。図３９の横軸は、配列の種類であり、縦軸は特性値である。特性値は、アフィニティを表す解離定数（KD）の負の常用対数（-log₁₀(KD)）である。
図３９には、「ＭＬｔｏｐ」の配列群と「ＮＧＳｔｏｐ」の配列群の各々について、各配列と特性値の関係をプロットした。「ＭＬｔｏｐ」の配列群は、学習処理後のＬＳＴＭを用いて生成された予測対象配列のうち、尤度Ｐ（予測スコア）が上位１０位以内となった配列の配列群である。「ＮＧＳｔｏｐ」の配列群は、次世代シークエンサーの解析結果情報に含まれる出現頻度が上位１０以内となった配列の配列群である。
図３９には、「ＭＬｔｏｐ」の配列群と「ＮＧＳｔｏｐ」の配列群の各々の特性値（-log₁₀(KD)）に対して、箱ひげ図を示した。

【0303】

「ＭＬｔｏｐ」の配列群と「ＮＧＳｔｏｐ」の配列群を比較すると、「ＭＬｔｏｐ」の配列群の方が、「ＮＧＳｔｏｐ」の配列群よりも特性値が高い。つまり、予測対象配列は、次世代シークエンサーで解析した配列よりも、強い結合能を持つ配列であることが分かる。このように、サーバ３０は、学習処理後のＬＳＴＭを用いることにより、次世代シーケンサ２０で解析した配列（学習処理に用いた配列）よりも、強い結合能を持つ仮想配列群（予測対象配列）が生成できた。また、尤度Ｐによる予測抗体配列のスコア付けが有効であることが分かった。

【0304】

図４０は、本実施例に係る配列の特性の予測精度を示す図である。図４０の縦軸は、アフィニティの予測値を示し、尤度Ｐの負の常用対数（-log₁₀(Ｐ)）である（図４０では、-log₁₀(likelihood)で表す）。図４０の横軸は、アフィニティの実測値を示し、解離定数（KD）の負の常用対数（-log₁₀(KD)）である。
図４０には、学習処理後のＬＳＴＭを用いて生成された予測対象配列の一部について、予測値（縦軸）と実測値（横軸）をプロットした。この図では、予測値と実測値の相関係数の絶対値は、0.576であった。また、この図が示すように、尤度Ｐが大きいほど（負の常用対数（- log₁₀(Ｐ)）であるため、縦軸の値が低くなるほど）、アフィニティが強くなった（横軸の値が高くなった）。つまり、強い結合の配列を予測するという観点で、情報処理システム１（サーバ３０）は、高い予測精度が得られた。そして、結合能の高い配列では、尤度Ｐを指標にして仮想配列群（予測対象配列）を生成することで、結合能の高い配列を予想できる。

【0305】

図４０において、鎖線で表された「ＮＧＳｆｒｅｑｔｏｐ」は、パニング後の次世代シークエンサーから得られた最高頻度の配列の解離定数（KD）を示す。点線で表された「Ｃｏｎｔｒｏｌ」は、パニング用配列群を作成するためのテンプレート配列の解離定数（KD）を示す。この図の通り、情報処理システム１は、パニング後に最も濃縮された配列よりも強い結合の配列を、ＬＳＴＭにて予測対象配列として生成できている。以上のように、第１実施形態に係るＬＳＴＭにより、強い結合能を持つ仮想配列群が生成できており、かつ尤度Ｐによる予測抗体配列のスコア付けは、有効である。

【0306】

以下、第３実施形態に係る実施例について説明する。
図４１は、本実施例に係る訓練配列と仮想配列との類似性を示す図である。訓練配列とは、ＬＳＴＭの訓練に用いた配列であり、訓練データセットの配列である。図４１の縦軸は、反応溶液のペーハーが酸性の場合における解離速度（酸性koff）の負の常用対数であり、図４１では、ペーハーがｐＨ５．８（酸性）の場合の解離速度の常用対数（-log₁₀(koff pH5.8)）である。図４１の横軸は、反応溶液のペーハーが中性の場合における解離定数（中性KD）の負の常用対数（-log₁₀(KD)）である。

【0307】

図４１（ａ）は、各訓練配列について、特性値（実測値）をプロットしたものである。これらの配列は、-log₁₀(KD)>9かつlog₁₀(koff)<2を満たす251個の配列をプロットしたものである。中性KD及び酸性koffは、実測値である。
図４１（ｂ）は、ＬＳＴＭが生成した各配列について、特性値（予測値）をプロットしたものである。図４１（ａ）で示した訓練データセットを用いて機械学習（ＬＳＴＭ）を行った場合に、学習済みモデルから出力された1000種類の仮想配列群をプロットしたものである。中性KD及び酸性koffは、予測値である。図４１（ｃ）は、図４１（a）で示した配列が含む変異残基をリスト化し、それをランダムにシャッフルさせて組み合わせて生成させた新たな1000種類の仮想配列群をプロットしたものである。中性KD及び酸性koffは、予測値である。

【0308】

図４１（ａ）と（ｃ）を比較すると、図４１（ｃ）では、図４１（ａ）の訓練配列とは、酸性koffのレンジが大きく異なった配列が生成されてしまった。その理由は、シャッフルさせた場合には、「相乗効果で中性KD及び酸性koffが改善する」変異の組合せが破壊され、片方だけ変異が採用されたりするためと考えられる。一方、図４１（ｂ）では、図４１（ｃ）の場合と比較して、図４１（ａ）の訓練配列とは、酸性koffのレンジが類似する配列が生成されていた。このように、ＬＳＴＭを用いた仮想配列群（予測対象配列）は、変異位置の配列をランダムに変更した場合と比較して、訓練配列の性状を、より強く示している。

【0309】

図４２は、本実施例に係る訓練配列と仮想配列との類似性を示す別の図である。図４２の横軸は主成分分析における第１主成分であり、縦軸は第２主成分である。主成分分析では、各配列を、Doc2Vec法を用いてベクトル空間にマッピングして行った。ここで、Doc2Vec法で用いたモデルは、タンパク質配列のデータベースであるUniprot（http://www.uniprot.org/）の配列を用いて学習処理が行われたモデルを用いた。
図４２（ａ）は、各訓練（Train）配列について、各主成分の値をプロットしたものである。これらの配列は、図４１（ａ）にプロットされた配列と同じ配列である。
図４２（ｂ）は、ＬＳＴＭが生成した各配列について各主成分の値をプロットしたものである。これら配列は、図４１（ｂ）にプロットされた配列と同じ配列である。
図４２（ｃ）は、変異位置の配列をランダムに変更した各配列について、各主成分の値をプロットしたものである。これら配列は、図４１（ｃ）にプロットされた配列と同じ配列である。

【0310】

図４２（ａ）～（ｃ）において、数値ベクトルは実在するアミノ酸配列の特徴を示したベクトルであるため、近しいアミノ酸配列は似たベクトルとして表現される。
図４２（ａ）と（ｂ）を比較すると、図４２（ｃ）と比べて、各配列の値が近い値となった。つまり、ＬＳＴＭが生成した各配列は、訓練に用いたアミノ酸質配列と近しいことが分かった。一方、図４２（ａ）と（ｃ）を比較すると、図４２（ｂ）と比べて、各配列の値が近くない値となった。つまり、ＬＳＴＭが生成した各配列は、訓練に用いたアミノ酸配列と近くないことが分かった。これにより、ＬＳＴＭが生成した各配列は、元の訓練配列とアミノ酸配列が近しく、訓練配列の特徴を反映していることが分かる。

【0311】

図４３Ａ～図４３Ｉは、実施例に係る配列の特性の予測値と実測値の相関を示す図である。変異配列と実験量（実測値）の組み合わせを、それぞれの実験量の種類ごとにリスト化し、学習データセットとした。変異配列とは、抗原結合が確認されているテンプレート配列に対して少数の変異を導入することにより、結合および物性の改善を期待した配列である。変異配列には、アミノ酸配列を文字列としたデータを用いた。
実験量の種類は、解離定数（KD）、解離速度（koff）、発現量, SEC（サイズ排除クロマトグラフィー）によるモノマー%、SECのモノマーピークの半値幅、ECM（Extra Cellular Matrix）結合量、熱加速試験での抗体キャプチャー量、熱加速試験での抗原結合量、アフィニティスコアとした。
SECによるモノマー%とは、そのアミノ酸配列の抗体分子がモノマーとして存在する割合である。SECのモノマーピークの半値幅は、クロマトグラフィーによる分子流出量を縦軸とし時間（分子量）を横軸とした場合の半値幅である。ECM結合量とは、目的とした抗原ではない細胞外マトリックスに特異的あるいは非特異的に結合する量である。熱加速試験での抗体キャプチャー量とは、高温条件(50℃)と冷蔵保存（４℃）に一定期間保管したサンプルを表面プラズモン共鳴（SPR）測定に供し、冷蔵保存条件と比較して高温条件のサンプルがセンサーチップ上のキャプチャー分子で何％固定化されるかの値であり、主に抗原結合部位以外の安定性の指標となる。熱加速試験での抗原結合量とは高温条件(50℃)と冷蔵保存（４℃）に一定期間保管したサンプルを表面プラズモン共鳴（SPR）測定に供し、冷蔵保存条件と比較して高温条件のサンプルのキャプチャー量当たりの抗原結合量が何%であるかの値であり、主に抗原結合の安定性の指標になる。アフィニティスコアは、pH7.4での結合の強さとpH5.8での解離の速さがバランスよく良いことの指標として、ビアコアを用いて解析した生データから定義したものである。具体的には、アフィニティスコアは、ビアコアのセンサグラムの形状から、「中性で急速に結合する度合スコア」「中性で安定的に結合が継続する度合スコア」「酸性で急速な解離が起こる度合いスコア」の３項のスコアに適切な係数を乗算し和を取ったものである。

【0312】

学習データセットは、2019年4月26日に中外社内の抗体データベースから引き出した。実験量の種類ごとの学習データセットを用いて、ランダムフォレストを用いた機械学習を行って、学習済みモデルを生成した。実験量の予測値は、生成された学習済みモデルを用いて予測された。ここで、精度評価のために、Out of bag 法によりトレーニングサンプルとテストサンプルを分けて評価している。その結果、図４３Ａ～図４３Ｉの結果を得た。

【0313】

図４３Ａは、解離定数（KD）の予測値と実測値の相関を示す図である。
図４３Ｂは、解離速度（koff）の予測値と実測値の相関を示す図である。
図４３Ｃは、発現量の予測値と実測値の相関を示す図である。
図４３Ｄは、SECによるモノマー%の予測値と実測値の相関を示す図である。
図４３Ｅは、SECのモノマーピークの半値幅の予測値と実測値の相関を示す図である。
図４３Ｆは、ECM結合量の予測値と実測値の相関を示す図である。
図４３Ｇは、熱加速試験での抗体キャプチャー量の予測値と実測値の相関を示す図である。
図４３Ｈは、熱加速試験での抗原結合量の予測値と実測値の相関を示す図である。
図４３Ｉはアフィニティスコアの予測値と実測値の相関を示す図である。

【0314】

図４３Ａ～図４３Ｉにおいて、正規化相関（CC：Correlation Coefficient）と順位相関（Spearman Correlation Coefficient）は、図中に示す値となった。
図４３Ａ～図４３Ｉの分布、正規化相関、又は選択的正規化相関から、各特性（実験量の種類）の予測値と実測値に相関があることが分かった。つまり、上記実施形態による予測値は、精度が良いことが裏付けられた。

【0315】

図４４Ａ～図４４Ｉは、他実施例に係る配列の特性の予測値と実測値の相関を示す図である。本実施例では、変異配列には、アミノ酸配列をDoc2Vec法により数値ベクトルに変換したデータを用いた。このように、本実施例と図４３Ａ～図４３Ｉの実施例を比較すると、変異配列のアミノ酸配列を、数値ベクトルとしたのか、文字列としたのかが異なる。

【0316】

図４４Ａは、解離定数（KD）の予測値と実測値の相関を示す図である。
図４４Ｂは、解離速度（koff）の予測値と実測値の相関を示す図である。
図４４Ｃは、発現量の予測値と実測値の相関を示す図である。
図４４Ｄは、SECによるモノマー%の予測値と実測値の相関を示す図である。
図４４Ｅは、SECのモノマーピークの半値幅の予測値と実測値の相関を示す図である。
図４４Ｆは、ECM結合量の予測値と実測値の相関を示す図である。
図４４Ｇは、熱加速試験での抗体キャプチャー量の予測値と実測値の相関を示す図である。
図４４Ｈは、熱加速試験での抗原結合量の予測値と実測値の相関を示す図である。
図４４Ｉはアフィニティスコアの予測値と実測値の相関を示す図である。

【0317】

図４４Ａ～図４４Ｉにおいて、正規化相関（CC：Correlation Coefficient）と選択的正規化相関（Selective Correlation Coefficient）は、図中に示す値となった。
図４４Ａ～図４４Ｉの分布、正規化相関、又は選択的正規化相関から、各特性（実験量の種類）の予測値と実測値に相関があることが分かった。つまり、上記実施形態による予測値は、精度が良いことが裏付けられた。

【0318】

図４５は、本実施例に係る配列の特性が向上していることを説明するための図である。特性は、アフィニティスコアであり、その値が大きいほど結合力が強く、その値が小さいほど結合力が弱いことを表す。縦軸は、密度関数（density）であり、出現頻度（配列の個数）を表す。
本実施例では、2,636種の変異配列およびアフィニティスコアの組を学習データセットとして、ＬＳＴＭに対して学習処理を行い、学習処理後のＬＳＴＭを用いて仮想配列群を、予測対象配列として生成させた。その予測対象配列について、random forest法でアフィニティスコアの予測値が良い配列を、81種類生成した。この81種類の配列は、上述の実施形態において、予測スコアが閾値以上の予測対象配列であり、その配列の情報が候補抗体情報である。

【0319】

「affinity score for training set」のグラフは、学習用データセットの2,636配列について、アフィニティスコアの分布を表している。一方、「affinity score for predicted sequences」は、生成した81種類の配列（予測対象配列のうち予測スコアが閾値以上の配列）について、アフィニティスコアの分布を表している。
これらの分布を比較すると、学習用データセットの配列よりも、予測された配列（81種類の配列）の方が、アフィニティスコアの値が大きい方に、より多く分布していることが分かる。つまり、予測された配列は、学習用データセットの配列と比較して、アフィニティの分布が改善していることが分かる。
なお、上記実施形態において、予測対象配列について、random forest法に代えて又は加えて、gradient boosting（勾配ブースティング）法を用いて、アフィニティスコアの予測値が良い配列を生成してもよい。この場合、生成した配列についても、図４５と同様の分布を得ることができた。
このように、図４５は、第３実施形態に係るＬＳＴＭにより、強い結合能を持つ仮想配列群が生成できており、本実施形態の手法が有効である。

【0320】

［付記］
（１）本発明の一態様は、複数の抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習を行うことで、前記配列の特徴を学習した学習済みモデルを生成する配列学習部と、前記学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも１つを変異させた仮想配列情報を生成する配列生成部と、を備える情報処理システムである。

【0321】

構成単位とは、配列を構成する要素であって、分子を構成する要素である。構成単位は、例えば配列情報がアミノ酸配列の配列情報の場合にはアミノ酸である。構成単位は、例えば配列情報が塩基酸配列の配列情報の場合には塩基である。

【0322】

（２）本発明の一態様は、複数のタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習を行うことで、前記配列の特徴を学習した学習済みモデルを生成する配列学習部と、前記学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも１つを変異させた仮想配列情報を生成する配列生成部と、を備える情報処理システムである。
つまり、上記各実施形態において、抗原結合分子は、タンパク質であってもよい。

【0323】

（３）本発明の一態様は、上記情報処理システムにおいて、前記配列の特徴は、前記構成単位の配列中の位置、及び、前記構成単位同士の前後関係を含む特徴である。

【0324】

（４）本発明の一態様は、上記情報処理システムにおいて、前記配列生成部は、予め設定された配列上の部位であって１以上の前記構成単位から構成される部位について、少なくとも１つの前記構成単位を変更することで、前記仮想配列情報を生成する。
つまり、上記各実施形態において、サーバ３０は、複数のアミノ酸の位置で特定される部位を設定し、その部位の中に属するアミノ酸の少なくとも１つを変更してもよい。

【0325】

（５）本発明の一態様は、上記情報処理システムにおいて、複数の前記部位は、抗体の重鎖可変領域、軽鎖可変領域又は定常領域のいずれかの配列中に含まれる。

【0326】

（６）本発明の一態様は、上記情報処理システムにおいて、前記配列情報は、当該配列情報が表す配列の抗原結合分子或いはタンパク質についての特性評価の結果に応じて選択された配列情報である。

【0327】

（７）本発明の一態様は、上記情報処理システムにおいて、前記配列学習部は、深層学習モデル又は確率モデルを用いて前記機械学習を行う。

【0328】

（８）本発明の一態様は、上記情報処理システムにおいて、前記配列学習部は、深層学習モデルを用いて前記機械学習を行い、前記深層学習モデルとして、Ｌｏｎｇｓｈｏｒｔ―ｔｅｒｍｍｅｍｏｒｙ（ＬＳＴＭ）、再帰型ニューラルネットワーク（ＲＮＮ）、ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ（ＧＲＵ）、ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ（ＧＡＮ）、又は、ＶａｒｉａｔｉｏｎａｌＡｕｔｏｅｎｃｏｄｅｒ（ＶＡＥ）、又は、Flow深層生成モデルのいずれかを用いて前記機械学習を行う。

【0329】

（９）本発明の一態様は、上記情報処理システムにおいて、前記配列学習部は、確率モデルを用いて前記機械学習を行い、前記確率モデルとして、隠れマルコフモデル（ＨＭＭ）、又はマルコフモデル（ＭＭ）のいずれかを用いて前記機械学習を行う。

【0330】

（１０）本発明の一態様は、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該配列が表す抗原結合分子或いはタンパク質についての特性評価の結果に基づいて機械学習を行うことで、第２学習済みモデルを生成する学習部を備え、上記（１）から（９）のいずれか一項に記載の学習済みモデルである第１学習済みモデルに基づいて生成された仮想配列情報を第２学習済みモデルに入力し、前記第２学習済みモデルの演算処理を実行することで、入力した仮想配列情報が表す配列の抗原結合分子或いはタンパク質についての特性評価の予測値を推定する推定部を備える情報処理システムである。

【0331】

（１１）本発明の一態様は、上記情報処理システムにおいて、前記推定部により推定された予測値に応じて、仮想配列情報及び前記予測値に基づく出力を行う出力部を備える。

【0332】

（１２）本発明の一態様は、上記情報処理システムにおいて、前記第１学習済みモデルを生成するための前記配列学習部は、前記仮想配列情報に基づいて機械学習を行うことで、新たな前記学習済みモデルを生成し、及び／又は、前記第２学習済みモデルを生成するための前記学習部は、前記仮想配列情報、及び、当該仮想配列情報が表す配列の抗原結合分子或いはタンパク質の特性評価の結果に基づいて機械学習を行うことで、新たな前記第２学習済みモデルを生成する。

【0333】

（１３）本発明の一態様は、上記情報処理システムにおいて、前記学習部は、文字列、数値ベクトル、又は、配列を構成する構成単位の物性量のいずれかで表された前記配列情報に基づいて、前記機械学習を行う。

【0334】

（１４）本発明の一態様は、上記情報処理システムにおいて、前記配列情報は、アミノ酸配列、または、核酸配列を表す。

【0335】

（１５）本発明の一態様は、上記情報処理システムにおいて、前記配列情報は、抗体の抗原結合ドメインの配列を含む配列を表す。

【0336】

（１６）本発明の一態様は、上記情報処理システムにおいて、前記配列情報は、抗体の定常領域の配列を含む配列を表す。

【0337】

（１７）本発明の一態様は、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習を行うことで学習済みモデルを生成する配列学習部と、前記学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも１つを変異させた仮想配列情報を生成する配列生成部と、を備える情報処理装置である。

【0338】

（１８）本発明の一態様は、情報処理システムにおける情報処理方法であって、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習を行うことで、前記配列情報の特徴を学習した学習済みモデルを生成する配列学習過程と、前記学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも１つを変異させた仮想配列情報を生成する配列生成過程と、を有する情報処理方法である。

【0339】

（１９）本発明の一態様は、情報処理システムのコンピュータに、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習を行うことで学習済みモデルを生成する配列学習手順、前記学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも１つを変異させた仮想配列情報を生成する配列生成手順、を実行させるためのプログラムである。

【0340】

（２０）本発明の一態様は、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習が行われることで生成され、前記学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも１つを変異させるために用いられる、学習済みモデルである。

【0341】

（２１）本発明の一態様は、複数の抗原結合分子或いはタンパク質の各々の配列の一部或いは全部を含む配列を表す配列情報に基づいて機械学習が行われることで生成された学習済みモデルに基づいて、前記配列情報が表す配列を構成する構成単位の少なくとも１つを変異させた仮想配列を有する抗原結合分子或いはタンパク質である。

【0342】

（２２）本発明の一態様は、上記（１０）から上記（１６）のいずれかに記載の情報処理システムを用いて、特性評価の予測値を推定された仮想配列が表す抗原結合分子或いはタンパク質を製造する方法である。

【0343】

（Ａ１）本発明の一態様は、上記情報処理システムにおいて、前記特性評価は、異なる複数の抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報の出現頻度に基づいて行われる。

【0344】

（Ａ２）本発明の一態様は、上記情報処理システムにおいて、前記配列情報の出現頻度は、異なる複数の抗原結合分子から選択された抗原結合分子であって、特性評価に基づくスクリーニング（例えば、パニング）の結果に応じて選択された抗原結合分子（例えば、結合抗体）の配列を表す配列情報の出現頻度である。

【0345】

（Ａ３）本発明の一態様は、上記情報処理システムにおいて、前記配列情報の出現頻度は、異なる複数の抗原結合分子から選択された抗原結合分子であって、特性評価に基づくスクリーニング（例えば、パニング）の結果に応じて選択された抗原結合分子（例えば、結合抗体）について、スクリーニング前後の出現確率（例えば、ラウンド間の変化率）に応じて選択される。

【0346】

（Ａ４）本発明の一態様は、上記情報処理システムにおいて、前記特性評価は、異なる複数の抗原結合分子から、１以上の特性評価に基づくスクリーニング（例えば、ラウンド、パニング）後の出現頻度の比較に基づいて行われる。

【0347】

（Ａ５）本発明の一態様は、上記情報処理システムにおいて、前記抗原結合分子が２以上の異なる配列（例えば重鎖配列と軽鎖配列）を含む抗原結合分子であって、配列推定部（例えば、推定部３３２）は、当該抗原結合分子を構成する異なる複数の配列の出現頻度に基づいて、前記複数の配列を組み合わせた抗原結合分子を推定する。

【0348】

（Ａ６）本発明の一態様は、上記情報処理システムにおいて、前記特性評価は、前記抗原結合分子と標的となる分子である標的分子との親和性評価である。

【0349】

（Ａ７）本発明の一態様は、上記情報処理システムにおいて、前記親和性評価は、前記抗原結合分子と、２以上の異なる標的分子との親和性評価である。

【0350】

（Ａ８）本発明の一態様は、上記情報処理システムにおいて、前記抗原結合分子は、２以上の異なる標的分子に結合可能な抗原結合分子である。

【0351】

（Ａ９）本発明の一態様は、上記情報処理システムにおいて、前記親和性評価は、２以上の異なる標的分子が存在する場合における、前記抗原結合分子との親和性評価である。

【0352】

（Ａ１０）本発明の一態様は、上記情報処理システムにおいて、前記抗原結合分子は、２以上の異なる標的分子に対して、同時に結合しない抗原結合分子である。

【0353】

（Ａ１１）本発明の一態様は、上記情報処理システムにおいて、前記異なる複数の抗原結合分子は、複数の抗原結合分子を含むである。

【0354】

（Ａ１２）本発明の一態様は、上記情報処理システムは、異なる複数の抗原結合分子の配列を表す配列情報を取得する配列情報取得部（例えば、次世代シーケンサ２０）を備える。

【0355】

（Ａ１３）本発明の一態様は、上記情報処理システムにおいて、前記配列情報取得部として、次世代シーケンサ（例えば、次世代シーケンサ２０）が用いられる。

【0356】

（Ｂ１）本発明の一態様は、上記情報処理システムにおいて、前記特性評価は、前記抗原結合分子の親和性評価、物性評価、薬理活性評価、安全性評価、動態評価、又は、製造適性評価のいずれかである。

【0357】

（Ｂ２）本発明の一態様は、上記情報処理システムにおいて、前記特性評価は、前記抗原結合分子の親和性評価、物性評価、薬理活性評価、安全性評価、動態評価、又は、製造適性評価の少なくとも２つである。

【0358】

（Ｂ３）本発明の一態様は、上記情報処理システムは、前記抗原結合分子の親和性評価、物性評価、薬理活性評価、安全性評価、動態評価、又は、製造適性評価の結果に基づく評価値を出力する出力部（例えば、出力処理部３３６）を備える。

【0359】

（Ｂ４）本発明の一態様は、上記情報処理システムにおいて、前記出力部により出力される評価値は、特性評価の際に取得される画像データに基づく評価値である。

【0360】

（Ｂ５）本発明の一態様は、上記情報処理システムにおいて、前記出力部により出力される評価値は、特性評価の際に取得される時系列データに基づく評価値である。

【0361】

（Ｃ１）本発明の一態様は、複数の抗原結合分子と標的抗原の特性評価に関し、前記抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗原結合分子の前記特性評価の評価結果情報に応じた学習データセットを取得する学習データセット取得部と、前記学習データセットに基づいて学習する学習部と、前記学習部による学習結果に基づいて、入力された入力配列情報が示す抗原結合分子について、当該抗原結合分子と前記標的抗原との特性評価を表す特性評価情報を予測する制御部と、予測された特性評価情報に応じて、前記標的抗原と特性がある抗原結合分子の候補を表す候補抗原結合分子情報を出力する出力部と、を備え、前記学習データセット取得部は、第１の前記特性評価において前記標的抗原との特性があると評価された抗原結合分子についての第２の前記特性評価関する前記学習データセットを取得する、情報処理システムである。

【0362】

（Ｃ２）本発明の一態様は、複数の抗原結合分子と標的抗原の特性評価に関し、前記抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗原結合分子の前記特性評価の評価結果情報に応じた学習データセットを取得する学習データセット取得部と、前記学習データセットに基づいて学習する学習部と、前記学習部による学習結果に基づいて、入力された入力配列情報が示す抗原結合分子について、当該抗原結合分子と前記標的抗原との特性評価を表す特性評価情報を予測する制御部と、予測された特性評価情報に応じて、前記標的抗原と特性がある抗原結合分子の候補を表す候補抗原結合分子情報を出力する出力部と、を備え、前記学習データセットには、前記配列情報ごとの出現頻度に基づく情報が含まれる、情報処理システムである。

【0363】

本発明の一態様は、上記情報処理システムにおいて、前記学習データセットには、前記複数の抗原結合分子を含む測定対象に対して、前記抗原結合分子ごとに測定された前記評価結果情報が含まれる。また、本発明の一態様は、上記情報処理システムにおいて、前記学習データセットには、シーケンサ装置によって測定された前記配列情報と前記評価結果情報の組が含まれる。また、本発明の一態様は、上記情報処理システムにおいて、前記学習データセットには、シーケンサ装置によって測定された前記配列情報と前記評価結果情報の組が含まれ、前記シーケンサ装置は、前記複数の抗原結合分子を含む測定対象に対して、前記抗原結合分子ごとに前記配列情報及び前記評価結果情報を測定する。また、本発明の一態様は、上記情報処理システムにおいて、前記学習データセットには、前記抗原結合分子の解離を示す解離情報を測定せずに、測定された前記抗原結合分子の出現頻度に基づく評価結果情報が含まれる。

【0364】

（Ｃ３）本発明の一態様は、上記情報処理システムにおいて、前記学習データセット取得部は、第１の前記特性評価に関する第１の前記学習データセットと、第２の前記特性評価に関する第２の前記学習データセットと、を取得し、前記第２の特性評価における複数の抗原結合分子には、前記第１の特性評価において、前記標的抗原との特性があると評価された抗原結合分子が含まれる。

【0365】

（Ｃ４）本発明の一態様は、上記情報処理システムにおいて、前記第２の特性評価における複数の抗原結合分子は、前記第１の特性評価における複数の抗体から、前記第１の特性評価において前記標的抗原との特性が低いと評価された抗原結合分子のうち少なくとも一種類の抗原結合分子が除かれた、又は、当該抗体の種類が減らされたものである。

【0366】

（Ｃ５）本発明の一態様は、上記情報処理システムにおいて、前記第２学習データセットの前記配列情報は、前記第１学習データセットの前記配列情報から、少なくとも一種類の抗原結合分子の配列を表す配列情報が除かれたものである。

【0367】

（Ｃ６）本発明の一態様は、上記情報処理システムにおいて、前記学習データセット取得部は、前記評価結果情報として、前記標的抗原と結合した前記抗原結合分子の数を示す出現頻度情報を取得し、前記推定部は、入力された入力配列情報が示す抗原結合分子について、当該抗原結合分子の前記標的抗原における前記出現頻度情報を予測し、前記出力部は、予測された出現頻度情報に応じて、前記候補抗体情報を出力し、前記第２の特性評価における複数の抗原結合分子には、前記第１の特性評価での出現頻度情報に基づいて、前記標的抗原との親和性があると評価された抗原結合分子が含まれる。

【0368】

（Ｃ７）本発明の一態様は、上記情報処理システムにおいて、前記学習データセット取得部は、前記特性評価での評価条件を示す評価条件情報、前記抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、前記評価結果情報に応じた学習データセットを取得する。

【0369】

（Ｃ８）本発明の一態様は、上記情報処理システムにおいて、一連の特性評価での各特性評価について、前記一連の特性評価での繰り返し回数と、当該繰り返し回数の特性評価での特性に関する基準を記憶する基準記憶部と、繰り返し回数ごとに、前記評価結果情報と前記基準に応じた特性判定情報を生成する分類部と、を備え、前記学習データセット取得部は、前記抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗原結合分子の前記特性判定情報に応じた前記学習データセットを取得する。

【0370】

（Ｃ９）本発明の一態様は、上記情報処理システムにおいて、前記抗体の重鎖部分の配列を表す重鎖配列情報、及び当該重鎖部分の前記評価結果情報と、前記抗体の軽鎖部分の配列を表す軽鎖配列情報、及び当該軽鎖部分の前記評価結果情報と、を記憶するデータセット記憶部と、前記重鎖部分の前記評価結果情報と前記軽鎖部分の前記評価結果情報に基づいて、前記重鎖部分と前記軽鎖部分の組み合わせを推定する組み合わせ推定部と、を備え、学習データセット取得部は、前記組み合わせを含む抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗原結合分子の前記特性評価の評価結果情報に応じた学習データセットを取得する。

【0371】

（Ｃ１０）本発明の一態様は、複数の抗原結合分子と標的抗原の特性評価に関し、シーケンサ装置から前記抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗原結合分子の前記特性評価の評価結果情報に応じた学習データセットを取得する学習データセット取得部と、前記標的抗原と抗原結合分子との特性の度合いとして、当該抗原結合分子と前記標的抗原との特性を推定するための機械学習を行った学習済みの学習器に、入力する入力配列情報を生成する配列情報生成部と、前記配列情報生成部が生成した前記入力配列情報を、前記学習器に入力し、前記学習済みの学習器の演算処理を実行することで、前記前記標的抗原と抗原結合分子との特性の度合いを示す特性評価情報を当該学習器から取得する推定部と、予測された特性評価情報に応じて、前記標的抗原と特性がある抗原結合分子の候補を表す候補抗原結合分子情報を出力する出力部と、を備え、前記配列情報生成部は、前記標的抗原と特性がある前記抗原結合分子の配列情報に基づいて、当該配列情報に含まれるアミノ酸配列のうち１つ以上のアミノ酸を変異させることによって、前記入力配列情報を生成する、情報処理システムである。

【0372】

（Ｃ１１）本発明の一態様は、複数の抗体と標的抗原の親和性評価に関し、前記抗体の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗体の前記親和性評価の評価結果情報に応じた学習データセットを取得する学習データセット取得ステップと、前記学習データセットに基づいて学習する学習ステップと、前記学習ステップでの学習結果に基づいて、入力された入力配列情報が示す抗体について、当該抗体と前記標的抗原との親和性を表す親和性情報を予測する制御ステップと、予測された親和性情報に応じて、前記標的抗原と親和性がある抗体の候補を表す候補抗体情報を出力する出力ステップと、を含み、前記学習データセット取得ステップで、第１の前記親和性評価に関する第１の前記学習データセットと、第２の前記親和性評価に関する第２の前記学習データセットと、を取得し、前記第２の親和性評価における複数の抗体には、前記第１の親和性評価において、前記標的抗原との親和性があると評価された抗体が含まれる、情報処理方法である。

【0373】

（Ｃ１２）本発明の一態様は、複数の抗体と標的抗原の親和性評価に関し、前記抗体の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗体の前記親和性評価の評価結果情報に応じた学習データセットを取得する学習データセット取得部と、前記学習データセットに基づいて学習する学習部と、を備え、前記学習データセット取得部は、第１の前記親和性評価に関する第１の前記学習データセットと、第２の前記親和性評価に関する第２の前記学習データセットと、を取得し、前記第２の親和性評価における複数の抗体には、前記第１の親和性評価において、前記標的抗原との親和性があると評価された抗体が含まれる、情報処理装置である。

【0374】

（Ｃ１３）本発明の一態様は、複数の抗体と標的抗原の親和性評価に関し、前記抗体の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗体の前記親和性評価の評価結果情報に応じた学習データセットを用いた学習結果を記憶部から読み出し、当該学習結果に基づいて、入力された入力配列情報が示す抗体について、当該抗体と前記標的抗原との親和性を表す親和性情報を予測する制御部と、予測された親和性情報に応じて、前記標的抗原と親和性がある抗体の候補を表す候補抗体情報を出力する出力部と、を備え、前記学習データセットには、第１の前記親和性評価に関する第１の前記学習データセットと、第２の前記親和性評価に関する第２の前記学習データセットと、が含まれ、前記第２の親和性評価における複数の抗体には、前記第１の親和性評価において、前記標的抗原との親和性があると評価された抗体が含まれる、情報処理装置である。

【0375】

（Ｃ１４）本発明の一態様は、１又は複数のコンピュータに、複数の抗体と標的抗原の親和性評価に関し、前記抗体の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗体の前記親和性評価の評価結果情報に応じた学習データセットを取得する学習データセット取得手順、前記学習データセットに基づいて学習する学習手順、を実行させ、前記学習データセット取得手順で、第１の前記親和性評価に関する第１の前記学習データセットと、第２の前記親和性評価に関する第２の前記学習データセットと、を取得し、前記第２の親和性評価における複数の抗体には、前記第１の親和性評価において、前記標的抗原との親和性があると評価された抗体が含まれる、プログラムである。

【0376】

（Ｃ１５）本発明の一態様は、１又は複数のコンピュータに、複数の抗体と標的抗原の親和性評価に関し、前記抗体の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗体の前記親和性評価の評価結果情報に応じた学習データセットを用いた学習結果を記憶部から読み出し、当該学習結果に基づいて、入力された入力配列情報が示す抗体について、当該抗体と前記標的抗原との親和性を表す親和性情報を予測する制御手順、予測された親和性情報に応じて、前記標的抗原と親和性がある抗体の候補を表す候補抗体情報を出力する出力手順、を実行させ、前記学習データセットには、第１の前記親和性評価に関する第１の前記学習データセットと、第２の前記親和性評価に関する第２の前記学習データセットと、が含まれ、前記第２の親和性評価における複数の抗体には、前記第１の親和性評価において、前記標的抗原との親和性があると評価された抗体が含まれる、プログラムである。

【0377】

（Ｃ１６）本発明の一態様は、複数の抗体と標的抗原の親和性評価に関し、前記抗体の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗体の前記親和性評価の評価結果情報に応じた学習データセット学習データセットを用いて学習され、入力された入力配列情報が示す抗体について、当該抗体と標的抗原との親和性を表す親和性情報を予測させ、予測された親和性情報に応じて、前記標的抗原と親和性がある抗体の候補を表す候補抗体情報を出力させるよう、コンピュータを機能させるための学習済みモデルである。

【0378】

（Ｃ１７）本発明の一態様は、複数の抗原結合分子と標的抗原の特性評価に関し、前記抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗原結合分子の前記特性評価の評価結果情報に応じた学習データセットを取得する学習データセット取得ステップと、前記学習データセットに基づいて学習する学習ステップと、前記学習ステップによる学習結果に基づいて、入力された入力配列情報が示す抗原結合分子について、当該抗原結合分子と前記標的抗原との特性評価を表す特性評価情報を予測する制御ステップと、予測された特性評価情報に応じて、前記標的抗原と特性がある抗原結合分子の候補を表す候補抗原結合分子情報を出力する出力ステップと、を備え、前記学習データセット取得ステップは、第１の前記特性評価において前記標的抗原との特性があると評価された抗原結合分子の第２の前記特性評価関する前記学習データセットを取得する、スクリーニング方法である。

【0379】

（Ｃ１８）本発明の一態様は、複数の抗原結合分子と標的抗原の特性評価に関し、前記抗原結合分子の各々の配列の一部或いは全部を含む配列を表す配列情報、及び、当該抗原結合分子の前記特性評価の評価結果情報に応じた学習データセットを取得する学習データセット取得部と、前記学習データセットに基づいて学習する学習部と、前記学習部による学習結果に基づいて、入力された入力配列情報が示す抗原結合分子について、当該抗原結合分子と前記標的抗原との特性評価を表す特性評価情報を予測する制御部と、予測された特性評価情報に応じて、前記標的抗原と特性がある抗原結合分子の候補を表す候補抗原結合分子情報を出力する出力部と、を備え、前記学習データセット取得部は、第１の前記特性評価において前記標的抗原との特性があると評価された抗原結合分子の第２の前記特性評価関する前記学習データセットを取得する、情報処理装置において、前記出力部が出力する抗原結合分子である。

【0380】

（Ｄ１）本発明の一態様は、標的抗原に結合する抗原結合分子のアミノ酸配列に関する配列情報と、前記抗原結合分子の特性について、第１種類の前記特性を示す第１特性情報と、第２種類の前記特性を示す第２特性情報と、を取得する情報取得部と、前記配列情報と前記第１特性情報と前記第２特性情報に基づいて学習する学習部と、前記学習部が学習する学習結果に基づいて、入力された入力配列情報が示す抗原結合分子に対して、前記第１種類の特性を示す第１特性評価情報と、前記第２種類の特性を示す第２特性評価情報と、を予測する予測部と、前記予測部が予測した前記第１特性評価情報と前記第２特性評価情報に応じて、前記特性がある抗原結合分子の候補を表す候補抗原結合分子情報を出力する出力部と、を備える、情報処理システムである。

【0381】

（Ｄ２）本発明の一態様は、上記情報処理システムにおいて、前記学習部は、前記配列情報と前記第１特性情報に基づく学習結果である第１学習済みモデルと、前記配列情報と前記第２特性情報に基づく学習結果である第２学習済みモデルと、を生成し、前記予測部は、前記第１学習済みモデルに基づいて第１特性評価情報を予測し、前記第２学習済みモデルに基づいて第２特性評価情報を予測する。

【0382】

（Ｄ３）本発明の一態様は、上記情報処理システムにおいて、前記第１特性情報は、前記標的抗原と前記抗原結合分子との活性を示す活性情報であり、前記第２特性情報は、前記抗原結合分子の物性を示す物性情報である。

【0383】

（Ｄ４）本発明の一態様は、上記情報処理システムにおいて、前記第１特性情報と前記第２特性情報は、前記標的抗原と前記抗原結合分子との結合活性を示す結合活性情報、前記標的抗原と前記抗原結合分子との薬理活性を示す薬理活性情報、或いは、前記抗原結合分子の安定性を示す安定性情報のうち、少なくとも２つの情報である。

【0384】

（Ｄ５）本発明の一態様は、上記情報処理システムにおいて、前記第１特性情報と前記第２特性情報は、複数種類の前記結合活性情報、複数種類の前記薬理活性情報、又は、複数種類の前記安定性情報である。

【0385】

（Ｄ６）本発明の一態様は、上記情報処理システムにおいて、前記アミノ酸配列の少なくとも一部が互いに異なる第１配列情報と第２配列情報に基づいて、前記第１配列情報について、配列上の位置を選択し、選択した前記配列上の位置のアミノ酸を変異させることで、前記入力配列情報を生成する配列情報生成部を更に備える。

【0386】

（Ｄ７）本発明の一態様は、上記情報処理システムにおいて、配列情報生成部は、予め定めた個数以下の前記配列上の位置を選択し、選択した前記配列上の位置のアミノ酸を変異させる。

【0387】

（Ｄ８）本発明の一態様は、上記情報処理システムにおいて、前記配列情報生成部は、生成した前記入力配列情報について、選択した前記配列上の位置とは異なる位置について、当該位置のアミノ酸を変異させることで、さらなる前記入力配列情報を生成する。

【0388】

（Ｄ９）本発明の一態様は、上記情報処理システムにおいて、前記第１配列情報は、複数の配列情報であり、前記配列情報生成部は、生成した前記入力配列情報と前記第１配列情報に基づいて、前記第１配列情報について、配列上の位置を選択し、選択した前記配列上の位置のアミノ酸を変異させることで、さらなる前記入力配列情報を生成する。

【0389】

（Ｄ１０）本発明の一態様は、上記情報処理システムにおいて、前記配列情報は、前記抗原結合分子のアミノ酸配列を表す文字列情報、前記抗原結合分子のアミノ酸配列に含まれるアミノ酸の物性量を示す物性量情報、及び、前記抗原結合分子のアミノ酸配列に基づく立体構造の特性を示す立体構造情報のうち、少なくとも１つを含む、

【0390】

（Ｄ１１）本発明の一態様は、標的抗原に結合する抗原結合分子のアミノ酸配列に関する配列情報と、前記抗原結合分子の特性を示す特性情報と、を取得する情報取得部と、前記特性の種類ごとに、前記配列情報と前記特性情報とに基づいて学習する学習部と、前記学習部が学習する学習結果に基づいて、入力された入力配列情報が示す抗原結合分子について、前記特性の種類ごとの、当該抗原結合分子の特性評価を表す特性評価情報を予測する予測部と、前記予測部が予測した特性評価情報であって、前記特性の種類ごとの複数の前記特性評価情報に応じて、前記特性がある抗原結合分子の候補を表す候補抗原結合分子情報を出力する出力部と、を備える、情報処理装置である。

【0391】

（Ｄ１２）本発明の一態様は、標的抗原に結合する抗原結合分子のアミノ酸配列に関する配列情報と、前記抗原結合分子の特性を示す特性情報と、を取得する情報取得部と、前記特性の種類ごとに、前記配列情報と前記特性情報とに基づいて学習する学習部と、を備える、情報処理装置である。

【0392】

（Ｄ１３）本発明の一態様は、標的抗原に結合する抗原結合分子のアミノ酸配列に関する配列情報と、前記抗原結合分子の特性を示す特性情報と、に基づいて、前記特性の種類ごとに学習した学習結果を読み出し、前記学習部が学習する学習結果に基づいて、入力された入力配列情報が示す抗原結合分子について、前記特性の種類ごとの、当該抗原結合分子の特性評価を表す特性評価情報を予測する予測部と、前記予測部が予測した特性評価情報であって、前記特性の種類ごとの複数の前記特性評価情報に応じて、前記特性がある抗原結合分子の候補を表す候補抗原結合分子情報を出力する出力部と、を備える、情報処理装置である。

【0393】

（Ｄ１４）本発明の一態様は、情報処理部が、標的抗原に結合する抗原結合分子のアミノ酸配列に関する配列情報と、前記抗原結合分子の特性を示す特性情報と、を取得する情報取得ステップと、学習部が、前記特性の種類ごとに、前記配列情報と前記特性情報とに基づいて学習する学習ステップと、予測部が、前記学習ステップで学習する学習結果に基づいて、入力された入力配列情報が示す抗原結合分子について、前記特性の種類ごとの、当該抗原結合分子の特性評価を表す特性評価情報を予測する予測ステップと、出力部が、前記予測ステップで予測した特性評価情報であって、前記特性の種類ごとの複数の前記特性評価情報に応じて、前記特性がある抗原結合分子の候補を表す候補抗原結合分子情報を出力する出力ステップと、を含む、情報処理方法である。

【0394】

（Ｄ１５）本発明の一態様は、コンピュータに、標的抗原に結合する抗原結合分子のアミノ酸配列に関する配列情報と、前記抗原結合分子の特性を示す特性情報と、を取得する情報取得ステップと、前記特性の種類ごとに、前記配列情報と前記特性情報とに基づいて学習する学習ステップと、前記学習ステップで学習する学習結果に基づいて、入力された入力配列情報が示す抗原結合分子について、前記特性の種類ごとの、当該抗原結合分子の特性評価を表す特性評価情報を予測する予測ステップと、前記予測ステップで予測した特性評価情報であって、前記特性の種類ごとの複数の前記特性評価情報に応じて、前記特性がある抗原結合分子の候補を表す候補抗原結合分子情報を出力する出力ステップと、を実行させるための、プログラムである。

【0395】

（Ｄ１６）本発明の一態様は、標的抗原に結合する抗原結合分子のアミノ酸配列に関する配列情報と、前記抗原結合分子の特性を示す特性情報とに応じて、前記特性の種類ごとに学習され、入力された入力配列情報が示す抗原結合分子について、前記特性の種類ごとの、当該抗原結合分子の特性評価を表す特性評価情報を出力させるよう、コンピュータを機能させるための学習済みモデルである。

【0396】

（Ｅ１）本発明の一態様は、上記情報処理システムにおいて、前記抗原結合分子は、タンパク質である。

【0397】

（Ｅ２）本発明の一態様は、上記情報処理システムにおいて、前記抗原結合分子は、抗体である。

【0398】

（Ｅ３）本発明の一態様は、上記情報処理システムにおいて、前記抗原結合分子は、ペプチドである。

【0399】

また、上述した各実施形態における情報処理システム１（１ａ～１ｄ）の一部、例えば、処理部３３（３３ａ～３３ｄ）などをコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、情報処理システム１（１ａ～１ｄ）に内蔵されたコンピュータシステムであって、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）や周辺機器等のハードウェアを含むものとする。

【0400】

また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

【0401】

また、上述した実施形態における情報処理システム１（１ａ～１ｄ）の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。処理部３３（３３ａ～３３ｄ）の各機能部は個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

【0402】

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

【符号の説明】

【0403】

１、１ａ、１ｂ、１ｃ、１ｄ・・・情報処理システム
１０、１０ｃ・・・ユーザ端末、１１・・・通信部、１２・・・入力部、１３・・・記憶部、１４、１４ｃ・・・処理部、１５・・・表示部
２０・・・次世代シーケンサ、２１・・・通信部、２２・・・入力部、２３・・・記憶部、２４・・・塩基配列測定部、２５・・・制御部、２６・・・表示部
３０、３０ａ、３０ｂ、３０ｃ、３０ｄ・・・サーバ、３１、３１ｃ・・・通信部、３２、３２ａ、３２ｃ、３２ｄ・・・記憶部、３２１・・・実験情報記憶部、３２２、３２２ａ・・・データセット記憶部、３２３、３２３ａ・・・分類基準記憶部、３２４、３２４ｃ、３２４ｄ・・・学習データセット記憶部、３２５・・・注目位置情報記憶部、３２６、３２６ｂ、３２６ｃ、３２６ｄ・・・学習結果記憶部、３２７、３２７ｃ・・・変異情報記憶部、３２８、３２８ｃ・・・配列記憶部、３２９、３２９ｃ・・・特性評価情報記憶部、３３、３３ｂ、３３ｃ・・・処理部、３３１、３３１ｃ・・・情報取得部、３３２・・・推定部、３３３・・・分類部、３３４、３３４ｂ、３３４ｃ、３３４ｄ・・・学習部、ＰＡ、ＰＡｃ・・・予測対象配列生成部、ＰＡ１、ＰＡ１ｂ、ＰＡｃ、ＰＡｄ・・・配列選択部、ＰＡ２、ＰＡ２ｂ、ＰＡ２ｃ、ＰＡ２ｄ・・・配列学習部、ＰＡ３、ＰＡ３ｂ、ＰＡ３ｃ、ＰＡ３ｄ・・・仮想配列生成部、３３５、３３５ｃ、３３５ｄ・・・制御部、３３６、３３６ｃ・・・出力処理部、
９０１・・・ＣＰＵ、９０２・・・記憶媒体インターフェイス部、９０３・・・記憶媒体、９０４・・・入力部、９０５・・・出力部、９０６・・・ＲＯＭ、９０７・・・ＲＡＭ、９０８・・・補助記憶部、９０９・・・インターフェイス部

【産業上の利用可能性】

【0404】

本発明は、例えば、創薬、物質の予測、抗体の予測、抗原の予測、配列の予測、又は特性予測等において、利用することができる。

【図1】