IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 中外製薬株式会社の特許一覧

特許7611464情報処理システム、情報処理方法、情報処理プログラム、および分子化合物の製造方法
<>
  • 特許-情報処理システム、情報処理方法、情報処理プログラム、および分子化合物の製造方法 図1
  • 特許-情報処理システム、情報処理方法、情報処理プログラム、および分子化合物の製造方法 図2
  • 特許-情報処理システム、情報処理方法、情報処理プログラム、および分子化合物の製造方法 図3
  • 特許-情報処理システム、情報処理方法、情報処理プログラム、および分子化合物の製造方法 図4
  • 特許-情報処理システム、情報処理方法、情報処理プログラム、および分子化合物の製造方法 図5
  • 特許-情報処理システム、情報処理方法、情報処理プログラム、および分子化合物の製造方法 図6
  • 特許-情報処理システム、情報処理方法、情報処理プログラム、および分子化合物の製造方法 図7
  • 特許-情報処理システム、情報処理方法、情報処理プログラム、および分子化合物の製造方法 図8
  • 特許-情報処理システム、情報処理方法、情報処理プログラム、および分子化合物の製造方法 図9
  • 特許-情報処理システム、情報処理方法、情報処理プログラム、および分子化合物の製造方法 図10
  • 特許-情報処理システム、情報処理方法、情報処理プログラム、および分子化合物の製造方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-12-25
(45)【発行日】2025-01-09
(54)【発明の名称】情報処理システム、情報処理方法、情報処理プログラム、および分子化合物の製造方法
(51)【国際特許分類】
   G06N 20/00 20190101AFI20241226BHJP
   G16C 20/30 20190101ALI20241226BHJP
【FI】
G06N20/00 130
G16C20/30
【請求項の数】 24
(21)【出願番号】P 2024565990
(86)(22)【出願日】2023-12-21
(86)【国際出願番号】 JP2023045988
【審査請求日】2024-11-07
【早期審査対象出願】
(73)【特許権者】
【識別番号】000003311
【氏名又は名称】中外製薬株式会社
(74)【代理人】
【識別番号】100088155
【弁理士】
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100128381
【弁理士】
【氏名又は名称】清水 義憲
(74)【代理人】
【識別番号】100144440
【弁理士】
【氏名又は名称】保坂 一之
(72)【発明者】
【氏名】吉村 大
(72)【発明者】
【氏名】白井 和英
(72)【発明者】
【氏名】寺本 礼仁
(72)【発明者】
【氏名】滝沢 秀季
【審査官】今城 朋彬
(56)【参考文献】
【文献】特表2004-507718(JP,A)
【文献】特開2020-077206(JP,A)
【文献】特開2022-150078(JP,A)
【文献】特開2021-110974(JP,A)
【文献】米国特許出願公開第2019/0065677(US,A1)
【文献】中国特許出願公開第111814821(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
G16C 20/30
(57)【特許請求の範囲】
【請求項1】
少なくとも一つのプロセッサを備え、
前記少なくとも一つのプロセッサが、
複数の第1分子のそれぞれについて、該第1分子に関する複数の特徴量を示す訓練データを取得し、
複数の第2分子のそれぞれについて、該第2分子に関する前記複数の特徴量を示すテストデータを取得し、
前記複数の特徴量のそれぞれについて、前記訓練データにおける確率分布である第1確率分布と前記テストデータにおける確率分布である第2確率分布とに基づく指標を算出し、
前記複数の特徴量のそれぞれの前記指標に基づいて、前記複数の特徴量のうちの1以上の特徴量を、機械学習に基づいて分子の特性値を予測する予測モデルの入力パラメータとして用いられる1以上の入力特徴量として選択する、
情報処理システム。
【請求項2】
前記少なくとも一つのプロセッサが、
前記複数の特徴量のそれぞれについて、前記第1確率分布と前記第2確率分布との間の距離である分布間距離を前記指標として算出し、
前記複数の特徴量のそれぞれの前記分布間距離に基づいて、前記複数の特徴量から前記1以上の入力特徴量を選択する、
請求項1に記載の情報処理システム。
【請求項3】
前記少なくとも一つのプロセッサが、所定の基準より前記分布間距離が小さい前記1以上の特徴量を前記1以上の入力特徴量として選択する、
請求項2に記載の情報処理システム。
【請求項4】
前記少なくとも一つのプロセッサが、前記分布間距離としてWasserstein距離を算出する、
請求項2または3に記載の情報処理システム。
【請求項5】
前記少なくとも一つのプロセッサが、
前記複数の特徴量のそれぞれの前記分布間距離に基づいて、前記複数の特徴量の一部を除外し、残った前記1以上の特徴量を前記1以上の入力特徴量として選択する、
請求項2または3に記載の情報処理システム。
【請求項6】
前記少なくとも一つのプロセッサが、
前記複数の特徴量のそれぞれの前記分布間距離に基づいて前記複数の特徴量から除外される特徴量の個数を変更しながら、前記訓練データを用いた前記機械学習による仮予測モデルの生成と該仮予測モデルの評価指標の算出とを、残った1以上の前記特徴量に基づいて実行する評価処理を繰り返し、
複数の前記評価指標に基づいて、前記複数の特徴量から除外される特徴量の個数を除外数として決定し、
前記複数の特徴量のそれぞれの前記分布間距離に基づいて、前記複数の特徴量から前記除外数の分の前記特徴量を除外して、前記1以上の入力特徴量を選択する、
請求項5に記載の情報処理システム。
【請求項7】
前記複数の特徴量がN個の特徴量であり、ここで、Nは2以上の自然数であり、
前記少なくとも一つのプロセッサが、
前記N個の特徴量から除外される特徴量の個数をnに設定し、ここで、nは自然数であり、
前記N個の特徴量のそれぞれの前記分布間距離に基づいて前記複数の特徴量からn個の特徴量を除外し、
前記訓練データを用いた前記機械学習による第1仮予測モデルの生成と該第1仮予測モデルの評価指標の算出とを、(N-n)個の特徴量に基づいて実行する評価処理を行い、
前記(N-n)個の特徴量のそれぞれの前記分布間距離に基づいて、前記(N-n)個の特徴量から更にn個の特徴量を除外し、
前記訓練データを用いた前記機械学習による第2仮予測モデルの生成と該第2仮予測モデルの評価指標の算出とを、(N-2n)個の特徴量に基づいて実行する評価処理を行う、
請求項6に記載の情報処理システム。
【請求項8】
前記少なくとも一つのプロセッサが、最も高い前記評価指標が得られた前記個数を前記除外数として決定する、または、最も低い前記評価指標が得られた前記個数を前記除外数として決定する、
請求項に記載の情報処理システム。
【請求項9】
前記少なくとも一つのプロセッサが、
前記複数の特徴量のそれぞれの前記分布間距離に基づいて前記複数の特徴量から選択される特徴量の個数を変更しながら、前記訓練データを用いた前記機械学習による仮予測モデルの生成と該仮予測モデルの評価指標の算出とを、選択された1以上の前記特徴量に基づいて実行する評価処理を繰り返し、
複数の前記評価指標に基づいて、前記複数の特徴量から選択される特徴量の個数を選択数として決定し、
前記複数の特徴量のそれぞれの前記分布間距離に基づいて、前記複数の特徴量から前記選択数の分の前記特徴量を前記1以上の入力特徴量として選択する、
請求項2または3に記載の情報処理システム。
【請求項10】
前記複数の特徴量がN個の特徴量であり、ここで、Nは2以上の自然数であり、
前記少なくとも一つのプロセッサが、
前記N個の特徴量から選択される特徴量の個数をmに設定し、ここで、mは自然数であり、
前記N個の特徴量のそれぞれの前記分布間距離に基づいて前記複数の特徴量からm個の特徴量を選択し、
前記訓練データを用いた前記機械学習による第1仮予測モデルの生成と該第1仮予測モデルの評価指標の算出とを、m個の特徴量に基づいて実行する評価処理を行い、
前記m個の特徴量のそれぞれの前記分布間距離に基づいて、前記m個の特徴量に更にm個の特徴量を追加し、
前記訓練データを用いた前記機械学習による第2仮予測モデルの生成と該第2仮予測モデルの評価指標の算出とを、2m個の特徴量に基づいて実行する評価処理を行う、
請求項9に記載の情報処理システム。
【請求項11】
前記少なくとも一つのプロセッサが、最も高い前記評価指標が得られた前記個数を前記選択数として決定する、または、最も低い前記評価指標が得られた前記個数を前記選択数として決定する、
請求項10に記載の情報処理システム。
【請求項12】
前記少なくとも一つのプロセッサが、交差検証によって前記評価処理を実行する、
請求項に記載の情報処理システム。
【請求項13】
前記少なくとも一つのプロセッサが、前記訓練データの前記1以上の入力特徴量を用いた前記機械学習を実行して、前記予測モデルを生成する、
請求項1~のいずれか一項に記載の情報処理システム。
【請求項14】
前記少なくとも一つのプロセッサが、
前記特性値が未知である対象分子について前記1以上の入力特徴量を取得し、
前記取得された1以上の入力特徴量を前記生成された予測モデルに入力することで得られる前記対象分子の前記特性値を出力する、
請求項13に記載の情報処理システム。
【請求項15】
前記少なくとも一つのプロセッサが、
前記特性値が未知である複数の対象分子のそれぞれについて前記1以上の入力特徴量を取得し、
前記複数の対象分子のそれぞれについて、前記取得された1以上の入力特徴量を前記生成された予測モデルに入力して、該対象分子の前記特性値を該予測モデルから取得し、
前記複数の対象分子のそれぞれの前記特性値に基づいて、前記複数の対象分子のうち少なくとも一つの対象分子を選択し、
前記選択された少なくとも一つの対象分子の情報を出力する、
請求項13に記載の情報処理システム。
【請求項16】
前記第1分子および前記第2分子のそれぞれが、核酸、ペプチド、環状ペプチド、タンパク質、抗体、および、低分子化合物のうちから選択される一つである、
請求項1~のいずれか一項に記載の情報処理システム。
【請求項17】
前記少なくとも一つのプロセッサが、
前記複数の第2分子のうちの少なくとも一つの第2分子のそれぞれについて前記1以上の入力特徴量を取得し、
前記少なくとも一つの第2分子のそれぞれについて、前記取得された1以上の入力特徴量を前記生成された予測モデルに入力することで得られる該第2分子の前記特性値を出力する、
請求項13に記載の情報処理システム。
【請求項18】
前記少なくとも一つのプロセッサが、
前記複数の第2分子のそれぞれについて前記1以上の入力特徴量を取得し、
前記複数の第2分子のそれぞれについて、前記取得された1以上の入力特徴量を前記生成された予測モデルに入力して、該第2分子の前記特性値を該予測モデルから取得し、
前記複数の第2分子のそれぞれの前記特性値に基づいて、前記複数の第2分子のうち少なくとも一つの第2分子を候補分子として選択し、
前記選択された少なくとも一つの候補分子の情報を出力する、
請求項13に記載の情報処理システム。
【請求項19】
前記特性値が、親和性、薬理活性、物性、動態、および安全性のうち少なくとも一項から選択される特性値である、
請求項1~3のいずれか一項に記載の情報処理システム。
【請求項20】
前記第1分子および第2分子が抗原結合分子であり、
前記特性値が、前記抗原結合分子の抗原に対する結合能についての値である、
請求項1~3のいずれか一項に記載の情報処理システム。
【請求項21】
少なくとも一つのプロセッサを備える情報処理システムによって実行される情報処理方法であって、
複数の第1分子のそれぞれについて、該第1分子に関する複数の特徴量を示す訓練データを取得するステップと、
複数の第2分子のそれぞれについて、該第2分子に関する前記複数の特徴量を示すテストデータを取得するステップと、
前記複数の特徴量のそれぞれについて、前記訓練データにおける確率分布である第1確率分布と前記テストデータにおける確率分布である第2確率分布とに基づく指標を算出するステップと、
前記複数の特徴量のそれぞれの前記指標に基づいて、前記複数の特徴量のうちの1以上の特徴量を、機械学習に基づいて分子の特性値を予測する予測モデルの入力パラメータとして用いられる1以上の入力特徴量として選択するステップと、
を含む情報処理方法。
【請求項22】
複数の第1分子のそれぞれについて、該第1分子に関する複数の特徴量を示す訓練データを取得するステップと、
複数の第2分子のそれぞれについて、該第2分子に関する前記複数の特徴量を示すテストデータを取得するステップと、
前記複数の特徴量のそれぞれについて、前記訓練データにおける確率分布である第1確率分布と前記テストデータにおける確率分布である第2確率分布とに基づく指標を算出するステップと、
前記複数の特徴量のそれぞれの前記指標に基づいて、前記複数の特徴量のうちの1以上の特徴量を、機械学習に基づいて分子の特性値を予測する予測モデルの入力パラメータとして用いられる1以上の入力特徴量として選択するステップと、
をコンピュータに実行させる情報処理プログラム。
【請求項23】
請求項15に記載の情報処理システムにより出力された前記少なくとも一つの対象分子の前記情報に基づいて、前記少なくとも一つの対象分子の分子配列を有する分子化合物を生成する生成ステップを含む、分子化合物の製造方法。
【請求項24】
請求項18に記載の情報処理システムにより出力された前記少なくとも一つの候補分子の前記情報に基づいて、前記少なくとも一つの候補分子の分子配列を有する分子化合物を生成する生成ステップを含む、分子化合物の製造方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の一側面は、情報処理システム、情報処理方法、情報処理プログラム、および分子化合物の製造方法に関する。
【背景技術】
【0002】
特許文献1には、抗原と親和性を有する抗体のアミノ酸配列を同定する方法が記載されている。この方法は、抗原との高い親和性を有する抗体の提案アミノ酸配列について機械学習エンジンに問い合わせるステップと、該機械学習エンジンから該提案アミノ酸配列を取得するステップとを含む。
【0003】
非特許文献1には、訓練データおよびテストデータの特徴量を選択する手法が記載されている。この手法では、敵対的分類器(adversarial classifier)による訓練データとテストデータとの分類のスコアが所定の閾値よりも高い場合に、その分類における重要度が高い特徴量を除外した上で敵対的分類器が再び訓練される。スコアがその閾値より低くなった場合に、残った特徴量を用いて予測モデルが訓練される。
【先行技術文献】
【特許文献】
【0004】
【文献】国際公開第2018/132752号
【非特許文献】
【0005】
【文献】Pan, Jing, et al. "Adversarial validation approach to concept drift problem in user targeting automation systems at uber." arXiv:2004.03045 (2020).
【発明の概要】
【発明が解決しようとする課題】
【0006】
分子の特性を予測するための機械学習モデルの精度を向上させることが望まれている。
【課題を解決するための手段】
【0007】
本開示の一側面に係る情報処理システムは少なくとも一つのプロセッサを備える。少なくとも一つのプロセッサは、複数の第1分子のそれぞれについて、該第1分子に関する複数の特徴量を示す訓練データを取得し、複数の第2分子のそれぞれについて、該第2分子に関する複数の特徴量を示すテストデータを取得し、複数の特徴量のそれぞれについて、訓練データにおける確率分布である第1確率分布とテストデータにおける確率分布である第2確率分布とに基づく指標を算出し、複数の特徴量のそれぞれの指標に基づいて、複数の特徴量のうちの1以上の特徴量を、機械学習に基づいて分子の特性値を予測する予測モデルの入力パラメータとして用いられる1以上の入力特徴量として選択する。
【0008】
本開示の一側面に係る情報処理方法は、少なくとも一つのプロセッサを備える情報処理システムによって実行される。この情報処理方法は、複数の第1分子のそれぞれについて、該第1分子に関する複数の特徴量を示す訓練データを取得するステップと、複数の第2分子のそれぞれについて、該第2分子に関する複数の特徴量を示すテストデータを取得するステップと、複数の特徴量のそれぞれについて、訓練データにおける確率分布である第1確率分布とテストデータにおける確率分布である第2確率分布とに基づく指標を算出するステップと、複数の特徴量のそれぞれの指標に基づいて、複数の特徴量のうちの1以上の特徴量を、機械学習に基づいて分子の特性値を予測する予測モデルの入力パラメータとして用いられる1以上の入力特徴量として選択するステップとを含む。
【0009】
本開示の一側面に係る情報処理プログラムは、複数の第1分子のそれぞれについて、該第1分子に関する複数の特徴量を示す訓練データを取得するステップと、複数の第2分子のそれぞれについて、該第2分子に関する複数の特徴量を示すテストデータを取得するステップと、複数の特徴量のそれぞれについて、訓練データにおける確率分布である第1確率分布とテストデータにおける確率分布である第2確率分布とに基づく指標を算出するステップと、複数の特徴量のそれぞれの指標に基づいて、複数の特徴量のうちの1以上の特徴量を、機械学習に基づいて分子の特性値を予測する予測モデルの入力パラメータとして用いられる1以上の入力特徴量として選択するステップとをコンピュータに実行させる。
【0010】
このような側面においては、訓練データおよびテストデータの双方における個々の特徴量の傾向に基づいて、機械学習に基づく予測モデルの入力パラメータとして用いられる特徴量が入力特徴量として選択される。このように特徴量を選択することで、分子の特性を予測するための機械学習モデル(予測モデル)の精度を向上させることができる。
【発明の効果】
【0011】
本開示の一側面によれば、分子の特性を予測するための機械学習モデルの精度を向上させることができる。
【図面の簡単な説明】
【0012】
図1】入力特徴量の選択を説明するための図である。
図2】情報処理システムの機能構成の例を示す図である。
図3】情報処理システムとして機能するコンピュータのハードウェア構成の例を示す図である。
図4】訓練データの例を示す図である。
図5】情報処理システムにより実行される処理の例を示すフローチャートである。
図6】入力特徴量を選択する処理の例を示すフローチャートである。
図7】交差検証を説明するための図である。
図8】交差検証の一例を示すフローチャートである。
図9】入力特徴量を選択する処理の別の例を示すフローチャートである。
図10】第1検証例の結果を示す図である。
図11】第2検証例の結果を示す図である。
【発明を実施するための形態】
【0013】
以下、添付図面を参照しながら本開示での様々な例を詳細に説明する。図面の説明において同一または同等の要素には同一の符号を付し、重複する説明を省略する。
【0014】
[システムの概要]
本開示に係る情報処理システムは、機械学習に基づいて分子の特性値を予測する予測モデルの入力パラメータとして用いられる該分子の1以上の特徴量を選択するコンピュータシステムである。本開示では、入力パラメータとして用いられる特徴量を「入力特徴量」という。情報処理システムは、入力特徴量の候補である複数の特徴量から一部の特徴量を除外し、残った1以上の特徴量を1以上の入力特徴量として選択する。特徴量の個数は次元数ともいわれる。複数の特徴量から1以上の入力特徴量を選択する処理は、特徴量の次元数を削減する処理であるともいえる。
【0015】
一例では、情報処理システムは選択された1以上の入力特徴量を用いた機械学習を実行してその予測モデルを生成する。この処理は機械学習の学習フェーズに相当する。一例では、情報処理システムは、特性値が未知である分子の1以上の入力特徴量を、生成された予測モデルに入力して、該分子の特性値を予測する。本開示では、情報処理システムによって特性値が予測される分子を「対象分子」ともいう。情報処理システムは、複数の対象分子のそれぞれの特性値を予測し、予測された各特性値に基づいて該複数の対象分子から少なくとも一つの対象分子を選択するスクリーニングを実行してもよい。このような特性値の予測は機械学習の予測フェーズまたは運用フェーズに相当する。学習フェーズおよび予測フェーズでは、情報処理システムは、選択された1以上の入力特徴量を用いて予測モデルを生成および利用する。
【0016】
機械学習とは、与えられた情報に基づいて反復的に学習することで、法則またはルールを自律的に見つけ出す手法をいう。機械学習によって生成される予測モデルは、アルゴリズムおよびデータ構造を用いて構築される機械学習モデルであり、学習済みモデルともいわれる。一例では、予測モデルは、畳み込みニューラルネットワーク(CNN)などのニューラルネットワークによって構築される。
【0017】
本開示において、特徴量とは、分子の特徴を定量的に表す数値をいう。一例では、個々の分子について複数の特徴量が設定される。個々の特徴量は、分子を構成する複数の構成単位間の関係についての特徴を表してもよいし、該複数の構成単位の配列に関する特徴を表してもよいし、特定の構成単位についての特徴を表してもよい。
【0018】
本開示において、特性値とは、分子の特性を定量的に表す数値をいう。例えば、特性値は、分子の結合能、親和性、薬理活性、物性、動態、または安全性に関する様々な特性を表し得る。
【0019】
情報処理システムは入力特徴量を選択する。分子に関する訓練データを用いた機械学習によって予測モデルが生成される。この予測モデルに基づいて、テストデータで示される分子の特性の予測値が算出される。本開示において、生成される予測モデルは「特性予測モデル」ともいわれる。
【0020】
本開示では、訓練データによって示される個々の分子を「第1分子」という。テストデータによって示される個々の分子を「第2分子」という。第1分子と第2分子との間で、モダリティが同一であっても異なってもよい。一例として、第1分子は抗体であり、第2分子も抗体である。別の例として、第1分子は環状ペプチドであり、第2分子も環状ペプチドである。更に別の例として、リガンドとタンパク質との相互作用エネルギーを特徴量として用いて親和性を予測する場合には、第1分子が低分子で第2分子が環状ペプチドであってもよい。
【0021】
第1分子群は複数の第1分子から成る。訓練データは、複数の第1分子のそれぞれについて、該第1分子に関する複数の特徴量を含む。第2分子群は複数の第2分子から成る。テストデータは、複数の第2分子のそれぞれについて、該第2分子に関する複数の特徴量を含む。第1分子群に含まれる複数の第1分子は、互いにモダリティが同一であっても異なってもよい。第2分子群に含まれる複数の第2分子は、互いにモダリティが同一であっても異なってもよい。
【0022】
一例として、分子が抗体である場合には、抗体配列を示す訓練データが用いられる。このように配列情報を有する分子の場合には、第1分子群が訓練用配列群と言い換えられてもよく、第2分子群が予測用配列群と言い換えられてもよい。
【0023】
訓練データは複数の第1分子のそれぞれについて、該第1分子の複数の特徴量と、該第1分子の少なくとも一つの特性値とを含む。テストデータは、複数の第2分子のそれぞれについて、該第2分子の複数の特徴量を含む。訓練データとテストデータとの間で傾向が異なる特徴量が相対的に多いと、予測モデルの精度が低下する。本開示において、情報処理システムは、訓練データとテストデータとの間で傾向が異なる特徴量が機械学習および予測モデルに影響を及ぼさないように、1以上の入力特徴量を選択する。一例では、情報処理システムは、訓練データとテストデータとの間で傾向の違いが相対的に小さい特徴量を選択する。一例では、情報処理システムは、訓練データとテストデータとの間で傾向が大きく異なる特徴量を除く。
【0024】
一例では、情報処理システムは、複数の特徴量のそれぞれについて、訓練データにおける確率分布である第1確率分布とテストデータにおける確率分布である第2確率分布との間の距離である分布間距離を、選択指標として算出する。或る一つの特徴量の確率分布とは、該特徴量が取る値ごとの確率を表す分布をいう。確率分布は特徴量の傾向を示すので、第1確率分布と第2確率分布との違いが相対的に大きい特徴量は、訓練データとテストデータとの間で傾向が異なる特徴量であるといえる。選択指標とは、入力特徴量を選択するための指標をいう。
【0025】
図1は入力特徴量の選択を説明するための図である。この例では、情報処理システムはQ個の特徴量のそれぞれについて、訓練データにおける第1確率分布210と、テストデータにおける第2確率分布220との間の距離である分布間距離を選択指標として算出する。情報処理システムは、第1確率分布210および第2確率分布220との違いが相対的に大きい特徴量(例えば特徴量F,F,F)を除外し、残った特徴量(例えば特徴量F,F,F)を入力特徴量として選択する。選択された個々の入力特徴量は、第1確率分布210および第2確率分布220の違いが相対的に小さく、傾向が相対的に類似する特徴量である。したがって、その入力特徴量に基づく機械学習によって生成される予測モデルは、対象分子の特性値を高精度に予測し得る。
【0026】
[システムの構成]
図2は一例に係る情報処理システム10の機能構成を示す図である。この例では、情報処理システム10は、機械学習のために用いられる訓練データを記憶するデータベース20にアクセスする。データベース20は情報処理システム10とは別のコンピュータシステム内に設けられてもよいし、情報処理システム10の構成要素であってもよい。一例では、情報処理システム10はインターネット、イントラネットなどの通信ネットワークを介してデータベース20にアクセスする。
【0027】
情報処理システム10は機能モジュールとして特徴量選択部11、学習部12、および予測部13を備える。特徴量選択部11は、複数の特徴量から1以上の入力特徴量を選択する機能モジュールである。学習部12は、選択された1以上の入力特徴量に基づく機械学習によって予測モデル30を生成する機能モジュールである。予測部13は、生成された予測モデル30を用いて対象分子に関する予測を実行する機能モジュールである。
【0028】
図3は、情報処理システム10として機能するコンピュータ100のハードウェア構成の例を示す図である。例えば、コンピュータ100はプロセッサ101、主記憶部102、補助記憶部103、通信制御部104、入力装置105、および出力装置106を備える。プロセッサ101はオペレーティングシステムおよびアプリケーション・プログラムを実行する。主記憶部102は例えばROMおよびRAMで構成される。補助記憶部103は例えばハードディスクまたはフラッシュメモリで構成され、一般に主記憶部102よりも大量のデータを記憶する。通信制御部104は例えばネットワークカードまたは無線通信モジュールで構成される。入力装置105は例えばキーボード、マウス、タッチパネルなどで構成される。出力装置106は例えばモニタおよびスピーカで構成される。
【0029】
情報処理システム10の各機能モジュールは、補助記憶部103に予め記憶される情報処理プログラム110により実現される。具体的には、各機能モジュールは、プロセッサ101または主記憶部102の上に情報処理プログラム110を読み込ませてプロセッサ101にその情報処理プログラム110を実行させることで実現される。プロセッサ101はその情報処理プログラム110に従って、通信制御部104、入力装置105、または出力装置106を動作させ、主記憶部102または補助記憶部103におけるデータの読み出しおよび書き込みを行う。処理に必要なデータ、予測モデル、またはデータベースは主記憶部102または補助記憶部103内に格納されてもよい。
【0030】
情報処理プログラム110は、例えば、CD-ROM、DVD-ROM、半導体メモリなどの、非一時的でコンピュータ読み出し可能な記録媒体(non-transitory computer-readable storage medium)に記録された上で提供されてもよい。あるいは、情報処理プログラム110は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。
【0031】
情報処理システム10は一つのコンピュータ100で構成されてもよいし、複数のコンピュータ100で構成されてもよい。複数のコンピュータ100が用いられる場合には、これらのコンピュータ100がインターネットやイントラネットなどの通信ネットワークを介して接続されることで、論理的に一つの情報処理システム10が構築される。
【0032】
図4は、データベース20に記憶される訓練データの例を示す図である。訓練データは複数の分子に対応する複数のデータレコードによって構成される。一例では、個々のデータレコードはデータ項目として、個々の分子を一意に特定する識別子である分子IDと、分子の複数の特徴量と、分子の特性値とを含む。分子がタンパク質である場合には、訓練データとして用いられる複数の特徴量は、例えばタスク評価タンパク質埋め込み法(Tasks Assessing Protein Embeddings method(TAPE))によって取得されてよい。図4の例では、データベース20は、それぞれがQ個の特徴量(すなわち、Q次元の特徴量)を示すR個のデータレコードを記憶する。特徴量の次元数Qは10未満でもよいし、十、百、千、または万のオーダでもよい。情報処理システム10はQ個の特徴量から一部の特徴量を除外し、残った1以上の特徴量を1以上の入力特徴量として選択する。図4の例では分子の特性値として物性値を示すが、特性値は物性値に限られない。
【0033】
[システムの動作]
図5は情報処理システム10により実行される処理の例を処理フローS1として示すフローチャートである。処理フローS1は本開示に係る情報処理方法の一例である。ステップS10では、特徴量選択部11が、機械学習のために用いる1以上の入力特徴量を、訓練データによって示される複数の特徴量から選択する。一例では、特徴量選択部11は、一部の特徴量を選択または除外した場合の評価指標を、選択または除外される特徴量を変更しながら複数の場合について算出する。そして、特徴量選択部11は、評価指標が所定の条件を満たす場合における特徴量のセットを入力特徴量として選択する。ステップS20では、学習部12が、選択された1以上の入力特徴量に基づく機械学習を実行して予測モデル30を生成する。ステップS30では、予測部13がその予測モデル30を用いた予測を実行する。ステップS10は学習フェーズの前処理に相当し、ステップS20は学習フェーズに相当し、ステップS30は予測フェーズに相当する。ステップS10において選択された1以上の入力特徴量がステップS20,S30において使用される。
【0034】
(入力特徴量の選択)
図6は、入力特徴量を選択する処理の例、すなわちステップS10の例を詳細に示すフローチャートである。
【0035】
ステップS11では、特徴量選択部11が訓練データおよびテストデータをデータベース20から取得する。訓練データは、複数の第1分子のそれぞれについて、該第1分子に関する複数の特徴量を含む。テストデータは、複数の第2分子のそれぞれについて、該第2分子に関する複数の特徴量を含む。
【0036】
ステップS12では、特徴量選択部11が複数の特徴量のそれぞれについて、訓練データにおける第1確率分布とテストデータにおける第2確率分布とに基づいて、入力特徴量を選択するための指標である選択指標を算出する。一例では、特徴量選択部11は各特徴量について、第1確率分布と第2確率分布との間の距離である分布間距離を選択指標として算出する。分布間距離は第1確率分布と第2確率分布との差異の程度を示す。特徴量選択部11は分布間距離として積分確率距離(Integral Probability Metrics(IPMs))を用いてもよい。IPMsの例として、特徴量選択部11はWasserstein距離、最大平均差異(Maximum Mean Discrepancy(MMD))、またはDudley Metricを分布間距離として算出してもよい。
【0037】
特徴量選択部11は、選択指標を算出するために、第1確率分布および第2確率分布を算出してもよい。或る一つの特徴量をFとし、訓練データのデータレコード数をjとし、テストデータのデータレコード数をkとする。特徴量選択部11はこの特徴量Fについて、j個の値の確率分布を第1確率分布として算出し、k個の値の確率分布を第2確率分布として算出してもよい。
【0038】
ステップS13では、特徴量選択部11が特徴量の除外数nを初期設定する。除外数nは、複数の特徴量のそれぞれの選択指標に基づいて複数の特徴量から除外される特徴量の個数である。除外数nは特徴量の次元の削減数ともいえる。特徴量選択部11は後の処理において除外数nを変更する。除外数nがインクリメントされる場合には、削減数nの初期値は0でもよいし、1以上の値でもよい。除外数nがデクリメントされる場合には、削減数nの初期値は、{(特徴量の総数)-1}でもよいし、より小さい数でもよい。
【0039】
ステップS14では、特徴量選択部11が各特徴量の選択指標に基づいて、複数の特徴量からn個の特徴量を除外する。Wasserstein距離などの分布間距離を用いる場合には、特徴量選択部11はその分布間距離の降順にn個の特徴量を除外する。すなわち、特徴量選択部11は第1確率分布と第2確率分布との差異が相対的に大きいn個の特徴量を除外する。
【0040】
ステップS15では、特徴量選択部11がその除外処理の後に残った1以上の特徴量に基づいて仮予測モデルを生成および評価する。本開示では仮予測モデルの生成および評価を「評価処理」ともいう。仮予測モデルは、学習部12によって生成されて予測部13によって用いられる予測モデル30ではなく、1以上の入力特徴量を選択するために一時的に用いられる機械学習モデル(学習済みモデル)である。特徴量選択部11は評価処理の方法として、交差検証を用いてもよいし、ホールドアウト法を用いてもよい。
【0041】
ステップS15の一例として交差検証を説明する。交差検証では、特徴量選択部11は訓練データを複数のグループに分割し、該複数のグループのうちの一つを検証データとして選択し、残りのグループを狭義の訓練データとして選択する。分割された個々のグループは「フォールド(fold)」ともいわれる。検証データと狭義の訓練データとの一つの組合せは「スプリット(split)」ともいわれる。特徴量選択部11は狭義の訓練データを用いて仮予測モデルを生成し、検証データを用いて該仮予測モデルを評価する。特徴量選択部11は検証データとして用いるグループ(フォールド)を変更しながら、仮予測モデルの生成および評価を実行して、個々のスプリットについて仮予測モデルの評価指標を算出する。特徴量選択部11は、複数のスプリットから得られた複数の評価指標の統計量を、1回の交差検証の評価指標として得る。
【0042】
図7は交差検証を説明するための図である。この図に示す例では、特徴量選択部11は訓練データを5個のグループに分割する。1回目のスプリットについては、特徴量選択部11はグループ「Fold 1」を検証データとして選択し、残りの4グループを狭義の訓練データとして選択する。特徴量選択部11は狭義の訓練データを用いた機械学習によって仮予測モデルを生成し、検証データを用いて該仮予測モデルの評価指標Eを算出する。特徴量選択部11は検証データを変更しながら2回目~5回目のスプリットについて仮予測モデルの生成および評価を実行し、これらのスプリットについて4個の評価指標E,E,E,Eを算出する。特徴量選択部11は5個の評価指標E~Eの統計量を、1回の交差検証の最終的な評価指標として求める。統計量の例として平均値および中央値が挙げられるが、統計量はこれらに限定されない。
【0043】
図8は交差検証の一例を示すフローチャートである。ステップS151では、特徴量選択部11が交差検証のスプリットを設定する。特徴量選択部11はデータベース20から取得した訓練データを複数のグループに分割し、該複数のグループのうちの一つを検証データとして選択し、残りのグループを狭義の訓練データとして選択する。
【0044】
ステップS152では、特徴量選択部11が、除外処理の後に残った1以上の特徴量に基づく機械学習を実行して仮予測モデルを生成する。特徴量選択部11は、狭義の訓練データを用いた機械学習(教師あり学習)を実行して仮予測モデルを生成する。特徴量選択部11は、除外されたn個の特徴量を用いることなく、残った1以上の特徴量を入力パラメータ(例えば入力ベクトル)として機械学習モデルに入力する。一例では、特徴量選択部11は機械学習モデルによって算出された予測値と正解(ラベル)との誤差に基づくバックプロパゲーション(誤差逆伝播法)を実行して、機械学習モデル内のパラメータ群を更新する。学習部12は所与の終了条件を満たすまでその処理を繰り返して仮予測モデルを得る。その終了条件は、狭義の訓練データのすべてのデータレコードを処理することであってもよい。
【0045】
ステップS153では、特徴量選択部11が、残った1以上の特徴量に基づいて仮予測モデルの評価指標を算出する。この評価指標は、仮予測モデルが分子の特性値をどのくらい精度良く算出できるかを示す値である。特徴量選択部11は検証データの各データレコードについて、除外されたn個の特徴量を用いることなく、残った1以上の特徴量を入力パラメータ(例えば入力ベクトル)として仮予測モデルに入力する。仮予測モデルは各データレコードについて、入力パラメータに基づいて特性値を算出する。以下では、仮予測モデルにより算出される特性値を予測特性値ともいう。
【0046】
特徴量選択部11は検証データの個々のデータレコードについての予測特性値および正解(ラベル)に基づいて、仮予測モデルの評価指標を算出する。この処理での正解(ラベル)は、検証データとして用いられた訓練データに含まれる特性値である。例えば、特徴量選択部11は評価指標として、予測特性値と正解との平均二乗誤差を算出してもよいし、予測特性値と正解との相関の程度を示す相関係数を算出してもよい。
【0047】
ステップS154に示すように、実行していないスプリットが存在する場合には(ステップS154においてNO)、処理はステップS151に戻る。繰り返されるステップS151では、特徴量選択部11は、検証データとして用いるグループ(フォールド)を変更して次のスプリットを設定する。繰り返されるステップS152では、特徴量選択部11は、残った1以上の特徴量に基づいて、狭義の訓練データを用いた機械学習(教師あり学習)を実行して仮予測モデルを生成する。繰り返されるステップS153では、特徴量選択部11は、残った1以上の特徴量に基づいて仮予測モデルの評価指標を算出する。
【0048】
すべてのスプリットを処理した場合には(ステップS154においてYES)、処理はステップS155に進む。ステップS155では、特徴量選択部11は個々のスプリットの評価指標の統計量を、交差検証の最終的な評価指標として算出する。例えば、特徴量選択部11は平均二乗誤差の平均値または相関係数の平均値を最終的な評価指標として算出する。
【0049】
図6に戻って、ステップS16では、特徴量選択部11が除外数nを変更するか否かを判定する。除外数nの変更はインクリメントでもデクリメントでもよい。
【0050】
一例では、特徴量選択部11は、除外処理により除外される特徴量の個数、または、除外処理により除外されなかった特徴量の個数に基づいて、除外数nをインクリメントするか否かを判定する。例えば、特徴量選択部11は、除外処理の後に残る特徴量の個数である有効次元数が所定の閾値以上である場合にはnをインクリメントすると判定し、有効次元数が該閾値未満である場合にはnをインクリメントしないと判定する。あるいは、特徴量選択部11は、有効次元数が所定の閾値より大きい場合にはnをインクリメントすると判定し、有効次元数が該閾値以下である場合にはnをインクリメントしないと判定する。別の例では、特徴量選択部11は、除外処理により除外される特徴量の個数が所定の閾値以下である場合にはnをインクリメントすると判定し、該特徴量の個数が該閾値より大きい場合にはnをインクリメントしないと判定する。あるいは、特徴量選択部11は、除外処理により除外される特徴量の個数が所定の閾値より小さい場合にはnをインクリメントすると判定し、該特徴量の個数が該閾値以上である場合にはnをインクリメントしないと判定する。
【0051】
一例では、特徴量選択部11は、除外処理により除外される特徴量の個数、または、除外処理により除外されなかった特徴量の個数に基づいて、除外数nをデクリメントするか否かを判定する。例えば、特徴量選択部11は、除外処理の後に残る特徴量の個数である有効次元数が所定の閾値以下である場合にはnをデクリメントすると判定し、有効次元数が該閾値より大きい場合にはnをデクリメントしないと判定する。あるいは、特徴量選択部11は、有効次元数が所定の閾値未満である場合にはnをデクリメントすると判定し、有効次元数が該閾値以上である場合にはnをデクリメントしないと判定する。別の例では、特徴量選択部11は、除外処理より除外される特徴量の個数が所定の閾値以上である場合にはnをデクリメントすると判定し、該特徴量の個数が該閾値より小さい場合にはnをデクリメントしないと判定する。あるいは、特徴量選択部11は、除外処理より除外される特徴量の個数が所定の閾値より大きい場合にはnをデクリメントすると判定し、該特徴量の個数が該閾値以下である場合にはnをデクリメントしないと判定する。
【0052】
除外数nを変更する場合には(ステップS16においてYES)、処理はステップS17に進む。ステップS17では、特徴量選択部11が除外数nを所定の数だけ変更する。この変更はインクリメントまたはデクリメントである。所定の数は任意の自然数である。例えば、特徴量選択部11は除外数nを1、2、3、4、5、6、7、8、9、または10だけ増やす。別の例として、特徴量選択部11は、除外される特徴量の個数をnの初期値と同じ数だけ増やす。あるいは、特徴量選択部11は除外数nを1、2、3、4、5、6、7、8、9、または10だけ減らす。ステップS17の後に処理はステップS14に戻る。繰り返されるステップS14では、特徴量選択部11が各特徴量の選択指標に基づいて、複数の特徴量からn個の特徴量を除外する。繰り返されるステップS15では、特徴量選択部11が、残った1以上の特徴量に基づいて仮予測モデルを生成および評価する。特徴量選択部11は除外数nを徐々に増やしながらまたは減らしながら、個々の除外数nについて仮予測モデルの最終的な評価指標を算出する。
【0053】
除外数nを変更しない場合には(ステップS16においてNO)、処理はステップS18に進む。ステップS18では、特徴量選択部11が複数の特徴量から1以上の入力特徴量を選択する。一例では、特徴量選択部11は個々の除外数について得られた最終的な評価指標に基づいて、最終的な除外数nFINALを決定する。特徴量選択部11は、最も良い最終的な評価指標が得られた除外数を除外数nFINALとして決定してもよい。例えば、特徴量選択部11は、最も高い最終的な評価指標、あるいは最も低い最終的な評価指標が得られた除外数を除外数nFINALとして決定してもよい。その例として、特徴量選択部11は、平均二乗誤差の統計量が評価指標である場合には、最も低い最終的な評価指標が得られた除外数を除外数nFINALとして決定してもよい。また、特徴量選択部11は、相関係数の統計量が評価指標である場合には、最も高い最終的な評価指標が得られた除外数を除外数nFINALとして決定してもよい。すなわち、特徴量選択部11は、平均二乗誤差の統計量が最も小さい除外数n、または相関係数の統計量が最も高い除外数を除外数nFINALとして決定してもよい。あるいは、特徴量選択部11は、複数の特徴量のすべてを用いた場合よりも最終的な評価指標が高い1以上の除外数のうちの一つを除外数nFINALとして決定してもよい。あるいは、特徴量選択部11は、複数の特徴量のすべてを用いた場合と比較したときの最終的な評価指標の低下幅が所定の閾値未満である1以上の除外数のうちの一つを除外数nFINALとして決定してもよい。特徴量選択部11は各特徴量の選択指標に基づいて、複数の特徴量から、nFINAL個の特徴量を除外する。Wasserstein距離などの分布間距離を用いる場合には、特徴量選択部11はその分布間距離の降順にnFINAL個の特徴量を除外し、残った1以上の特徴量を1以上の入力特徴量として選択する。この場合、特徴量選択部11は、最終的な評価指標に基づいて決定された所定の基準より分布間距離が小さい1以上の特徴量を1以上の入力特徴量として選択する。所定の基準は、情報処理システム10のユーザまたは管理者によって決定されてもよいし、機械学習などの任意の手法によって自動的に決定されてもよい。
【0054】
上述したように、特徴量選択部11は、複数の特徴量のそれぞれの選択指標に基づいて、複数の特徴量の一部を除外する。特徴量選択部11は、その除外処理の後に残った1以上の特徴量を1以上の入力特徴量として選択する。一例では、特徴量選択部11は複数の特徴量のそれぞれについて、第1確率分布と第2確率分布との間の距離である分布間距離を算出し、複数の特徴量のそれぞれの分布間距離に基づいて、複数の特徴量から1以上の入力特徴量を選択する。一例では、特徴量選択部11は複数の特徴量のそれぞれについて、第1確率分布と第2確率分布との間の距離である分布間距離を選択指標として算出し、複数の特徴量のそれぞれの分布間距離が相対的に小さい特徴量を入力特徴量として選択する。
【0055】
上述したように、一例では、特徴量選択部11は、複数の特徴量のそれぞれの選択指標に基づいて複数の特徴量から除外される特徴量の個数を変更しながら、仮予測モデルの生成と該仮予測モデルの評価指標の算出とを、残った1以上の特徴量に基づいて実行する評価処理を繰り返す(ステップS14~S17の繰り返し)。特徴量選択部11は交差検証によって評価処理を実行し得る。特徴量選択部11はその繰り返しによって得られた複数の評価指標に基づいて除外数を決定する(ステップS18)。特徴量選択部11は、複数の特徴量のそれぞれの選択指標に基づいて、複数の特徴量から除外数nFINALの分の特徴量を除外して、1以上の入力特徴量を選択する(ステップS18)。
【0056】
図9を参照しながら、入力特徴量を選択する処理の別の例を説明する。図9はその例をステップS10Aとして詳細に示すフローチャートである。ステップS10AはステップS10の変形であるともいえる。ステップS10Aは、特徴量の除外数nに代えて特徴量の選択数mを変化させながら仮予測モデルの生成および評価を繰り返す点で、ステップS10と異なる。以下では、その違いについて特に説明する。
【0057】
ステップS10の場合と同様に、特徴量選択部11はステップS11,S12の処理を実行する。
【0058】
ステップS13Aでは、特徴量選択部11が選択量の選択数mを初期設定する。選択数mは、複数の特徴量のそれぞれの選択指標に基づいて複数の特徴量から選択される特徴量の個数である。選択数mがインクリメントされる場合には、選択数mの初期値は1でもよいし、2以上の値でもよい。選択数mがデクリメントされる場合には、選択数mの初期値は特徴量の総数でもよいし、より小さい数でもよい。
【0059】
ステップS14Aでは、特徴量選択部11が各特徴量の選択指標に基づいて、複数の特徴量からm個の特徴量を選択する。Wasserstein距離などの分布間距離を用いる場合には、特徴量選択部11はその分布間距離の昇順にm個の特徴量を選択する。すなわち、特徴量選択部11は第1確率分布と第2確率分布との差異が相対的に小さいm個の特徴量を選択する。
【0060】
ステップS15Aでは、特徴量選択部11が選択された1以上の特徴量に基づいて仮予測モデルを生成および評価する。すなわち、特徴量選択部11は評価処理を実行する。「選択された1以上の特徴量」は、ステップS10における「残った1以上の特徴量」と実質的に同じである。したがって、ステップS15Aでも、図8に示すような交差検証が実行され得る。
【0061】
ステップS16Aでは、特徴量選択部11が選択数mを変更するか否かを判定する。選択数mの変更はインクリメントでもデクリメントでもよい。
【0062】
一例では、特徴量選択部11は、選択された特徴量の個数、または、選択されなかった特徴量の個数に基づいて、選択数mをインクリメントするか否かを判定する。別の例では、特徴量選択部11は、選択された特徴量の個数、または、選択されなかった特徴量の個数に基づいて、選択数mをデクリメントするか否かを判定する。
【0063】
選択数mを変更する場合には(ステップS16AにおいてYES)、処理はステップS17Aに進む。ステップS17Aでは、特徴量選択部11が選択数mを所定の数だけ変更する。この変更はインクリメントまたはデクリメントである。所定の数は任意の自然数である。例えば、特徴量選択部11は選択数mを1、2、3、4、5、6、7、8、9、または10だけ増やす。別の例として、特徴量選択部11は、選択される特徴量の個数をmの初期値と同じ数だけ増やす。あるいは、特徴量選択部11は選択数mを1、2、3、4、5、6、7、8、9、または10だけ減らす。ステップS17Aの後に処理はステップS14Aに戻る。繰り返されるステップS14Aでは、特徴量選択部11が各特徴量の選択指標に基づいて、複数の特徴量からm個の特徴量を選択する。繰り返されるステップS15Aでは、特徴量選択部11が、選択された1以上の特徴量に基づいて仮予測モデルを生成および評価する。特徴量選択部11は選択数mを徐々に増やしながらまたは減らしながら、個々の選択数mについて仮予測モデルの最終的な評価指標を算出する。
【0064】
選択数mを変更しない場合には(ステップS16AにおいてNO)、処理はステップS18に進む。ステップS18では、特徴量選択部11が複数の特徴量から1以上の入力特徴量を選択する。一例では、特徴量選択部11は個々の選択数について得られた最終的な評価指標に基づいて、最終的な選択数mFINALを決定する。特徴量選択部11は各特徴量の選択指標に基づいて、複数の特徴量から、mFINAL個の特徴量を選択する。Wasserstein距離などの分布間距離を用いる場合には、特徴量選択部11はその分布間距離の昇順にmFINAL個の特徴量を入力特徴量として選択する。すなわち、特徴量選択部11は、最終的な評価指標に基づいて決定された所定の基準より分布間距離が小さい1以上の特徴量を1以上の入力特徴量として選択する。上述したように、所定の基準は人によってまたは自動的に決定され得る。
【0065】
上述したように、特徴量選択部11は、複数の特徴量のそれぞれの選択指標に基づいて複数の特徴量から選択される特徴量の個数を変更しながら、仮予測モデルの生成と該仮予測モデルの評価指標の算出とを、選択された1以上の特徴量に基づいて実行する評価処理を繰り返す(ステップS14A~S17Aの繰り返し)。特徴量選択部11は交差検証によってその評価処理を実行し得る。特徴量選択部11はその繰り返しによって得られた複数の評価指標に基づいて1以上の入力特徴量を選択する。
【0066】
(学習フェーズ)
選択された1以上の入力特徴量に基づいて予測モデル30を生成する処理、すなわちステップS20について説明する。学習部12は、特徴量選択部11によって取得された訓練データの1以上の入力特徴量を用いた機械学習(教師あり学習)を実行して、予測モデル30を生成する。この機械学習では、特徴量選択部11は除外されたnFINAL個の特徴量を用いることなく、訓練データの1以上の入力特徴量を入力パラメータ(例えば入力ベクトル)として機械学習モデルに入力する。一例では、特徴量選択部11は機械学習モデルによって算出された予測値と正解(ラベル)との誤差に基づくバックプロパゲーション(誤差逆伝播法)を実行して、機械学習モデル内のパラメータ群を更新する。学習部12は所与の終了条件を満たすまでその処理を繰り返して予測モデル30を得る。その終了条件は、訓練データ(第1分子群)のすべてのデータレコードを処理することであってもよい。生成される予測モデル30は、最適であると推定される計算モデルであり、“現実に最適である計算モデル”とは限らないことに留意されたい。
【0067】
(予測フェーズ)
予測モデル30を用いた予測、すなわちステップS30について説明する。予測部13は1以上の対象分子のそれぞれについて1以上の入力特徴量を取得する。各対象分子は、情報処理システム10のユーザによる入力操作または選択操作によって指定された分子であり得る。予測部13は各対象分子について、所定のデータベースから入力特徴量を読み出してもよいし、ユーザ端末などの他のコンピュータから入力特徴量を受信してもよい。予測部13は対象分子の1以上の入力特徴量を予測モデル30に入力する。対象分子について、1以上の入力特徴量に加えて1以上の別の特徴量を取得した場合には、予測部13は該1以上の別の特徴量を用いることなく、1以上の入力特徴量を入力パラメータ(例えば入力ベクトル)として予測モデル30に入力する。予測モデル30はその入力特徴量に基づいて該対象分子の特性値を算出し、予測部13はその特性値を予測モデル30から取得する。予測部13は予測モデル30をこのように用いて、1以上の対象分子のそれぞれについて特性値を取得する。
【0068】
予測部13は1以上の対象分子のそれぞれの特性値を予測結果として出力してもよい。複数の対象分子のそれぞれについて特性値を取得した場合には、予測部13はこれらの特性値に基づいて、複数の対象分子のうち少なくとも一つの対象分子を選択してもよい。例えば、予測部13は特性値が所定の基準を満たす対象分子を選択する。このような選択はスクリーニングともいえる。予測部13は選択された少なくとも一つの対象分子の情報を予測結果として出力してもよい。その情報は、対象分子の名称、構造、配列情報、および特性値のうちの少なくとも一つを含んでもよい。
【0069】
ステップS30において、予測部13は複数の第2分子のうちの少なくとも一つの第2分子を対象分子として処理し得る。予測部13は、それぞれの対象分子について1以上の入力特徴量を取得し、それぞれの対象分子について、取得された1以上の入力特徴量を生成された予測モデルに入力することで得られる該対象分子の特性値を出力してもよい。複数の第2分子のそれぞれについて特性値を取得した場合には、予測部13はこれらの特性値に基づいて、複数の第2分子のうち少なくとも一つの対象分子を候補分子として選択し、選択された少なくとも一つの候補分子の情報を出力してもよい。
【0070】
予測部13は予測結果を補助記憶部103などの記憶装置に格納してもよいし、出力装置106上に予測結果を表示してもよいし、ユーザ端末などの他のコンピュータに予測結果を送信してもよい。
【0071】
[分子化合物の製造方法]
予測フェーズにおいて出力された少なくとも一つの対象分子または候補分子の情報に基づいて、該少なくとも一つの対象分子または候補分子の分子配列を有する分子化合物が生成されてもよい。
【0072】
分子化合物が抗体である場合には、例えば米国特許第4816567号に記載されるとおり、抗体は組み換えの方法または構成を用いて製造され得る。製造方法の一例は、その明細書に記載されている候補分子化合物である抗体の発現に好適な条件下で、該抗体をコードする核酸を含む宿主細胞を培養することまたは該抗体を宿主細胞(または宿主細胞培養培地)から回収することを含む、抗体を作製する方法である。抗体をコードする、単離された核酸は、抗体のVLを含むアミノ酸配列および/またはVHを含むアミノ酸配列(例えば、抗体の軽鎖および/または重鎖)をコードしてもよい。このような核酸を含む宿主細胞は、(1)抗体のVLを含むアミノ酸配列および抗体のVHを含むアミノ酸配列をコードする核酸を含むベクター、または、(2)抗体のVLを含むアミノ酸配列をコードする核酸を含む第一のベクターと抗体のVHを含むアミノ酸配列をコードする核酸を含む第二のベクターを含む(例えば、宿主細胞は形質転換されている)。一例では、宿主細胞は真核性である(例えば、チャイニーズハムスター卵巣(CHO)細胞、またはリンパ系の細胞(例えば、Y0、NS0、Sp2/0細胞))。抗体をコードするベクターのクローニングまたは発現に好適な宿主細胞は、原核細胞または真核細胞を含む。例えば、抗体は、特にグリコシル化およびFcエフェクタ機能が必要とされない場合は、細菌を用いて製造されてもよい。細菌での抗体断片およびポリペプチドの発現に関しては、例えば、米国特許第5648237号、第5789199号、および第5840523号を参照できる。加えて、大腸菌における抗体断片の発現に関しては“Charlton, Methods in Molecular Biology, Vol. 248 (B.K.C. Lo, ed., Humana Press, Totowa, NJ, 2003), pp.245-254”を参照できる。発現後、抗体は細菌細胞ペーストから可溶性フラクション中に単離されてもよく、更に精製されてもよい。
【0073】
分子化合物がペプチド化合物または環状ペプチド化合物である場合には、このような化合物は、液相合成法により、または、Fmoc合成、Boc合成などを用いた固相合成法により、あるいはこれらの組み合わせにより製造され得る。固相合成法とは、化合物を固体に結合させ、該固体の樹脂上で該化合物と試薬とを化学反応させて、目的の化合物を合成する方法である。ペプチドの固相合成法は、固体の樹脂に所望のアミノ酸またはペプチドを結合させ、固体の樹脂に結合したアミノ酸またはペプチドに対して更に所望のアミノ酸またはペプチドを順次連結することでペプチド鎖を伸長し、ペプチドを合成する方法である。この固体の樹脂に結合されたペプチドを固体の樹脂から切り離すことで、目的のペプチドが得られる。
【0074】
[分子]
分子は低分子(低分子化合物)でも、中分子(中分子化合物)でも、高分子(高分子化合物)でもよい。本開示において、低分子または低分子化合物とは、分子量が500g/mol未満の化合物をいう。本開示において、中分子または中分子化合物とは、分子量が500g/mol以上かつ30000g/mol未満の化合物をいう。本開示において、高分子または高分子化合物とは、分子量が30000g/mol以上の化合物をいう。
【0075】
分子は生体分子でも非生体分子でもよい。分子は核酸、ペプチド、環状ペプチド、タンパク質、または抗体などの抗原結合分子でもよいし、標的分子に結合する分子(標的分子結合分子)でもよい。分子は、薬物の候補となる分子でもよい。分子がペプチド、環状ペプチド、タンパク質、または抗体である場合には、分子の構成単位はアミノ酸である。分子が核酸である場合には、分子の構成単位はヌクレオシド又はヌクレオチドである。
【0076】
本開示において、所望の特性とは、薬物候補に適した新しい対象物に求められる特性であり、任意に設定されてよい。特性の例として、所定の生体内ターゲットに対する結合能、薬理活性、物性、動態、および安全性が例示されるが、これらに限定されるものではない。物性の例として熱安定性、化学安定性、溶解性、粘性、光安定性、長期保存安定性、非特異的吸着性、脂溶性、および膜透過性が挙げられる。一例として、分子がmRNA(messenger-RNA)であれば、特性はタンパク質の翻訳力である。分子が、抗原結合分子のような、標的分子に結合する分子である場合には、特性は標的分子に対する結合能であってもよい。
【0077】
・抗原結合分子
本開示において、抗原結合ドメインを含む抗原結合分子は最も広義な意味として使用される。具体的には、抗原結合ドメインを含む限り、抗原結合分子は様々な分子型を含む。抗原結合分子は、抗原結合ドメインのみからなる分子であってもよいし、抗原結合ドメインと他のドメインとを含む分子であってもよい。例えば、抗原結合分子が、抗原結合ドメインとFc領域とが結合した分子である場合には、例として完全抗体および抗体断片が挙げられる。抗体は、単一のモノクローナル抗体(アゴニストおよびアンタゴニスト抗体を含む)、ヒト抗体、ヒト化抗体、キメラ抗体などを含み得る。既存の安定なα/βバレルタンパク質構造などの立体構造がscaffold(土台)として用いられ、その一部分の構造のみが抗原結合ドメインの構築のためにライブラリ化されたスキャフォールド分子も、本開示の抗原結合分子に含まれ得る。
【0078】
・結合能評価
標的分子結合分子の標的分子への結合能評価の手法は特に限定されない。結合能評価は、標的分子結合分子の標的分子に対する結合を定量評価することで可能である。標的分子は例えば標的タンパクである。標的分子結合分子は例えば抗原結合分子であり、標的分子は例えば抗原である。例えば、標的分子が抗原である場合には、抗原結合分子と抗原との結合活性を測定することで評価を実施できる。結合活性(binding activity)は、分子(例えば抗体)の1以上の結合部位と、分子の結合パートナ(例えば抗原)との間の、非共有結合的な相互作用の合計の強度をいう。ここで、「結合活性」は、ある結合対のメンバ(例えば、抗体と抗原)の間の1:1相互作用に厳密に限定されない。例えば、結合対のメンバが1価での1:1相互作用を反映する場合、結合活性は固有の結合親和性(単に「親和性」(affinity)と呼ばれることもある)のことをいう。結合対のメンバが1価での結合および多価での結合の両方を可能である場合には、結合活性はこれらの結合力の総和となる。分子XのパートナYに対する結合活性は、一般的に、解離定数(KD)または「単位リガンド量当たりのアナライト結合量」により表される。例えば、オクテット値は結合能の指標の一つであり、単位リガンド量当たりのアナライト結合量として測定される。結合活性は、本明細書に記載のものを含む、当該技術分野において知られた通常の方法によって測定され得る。標的組織特異的な化合物の濃度以外の条件については当業者が適宜決定することが可能である。
【0079】
一態様において、抗体の結合活性は表面プラズモン共鳴分析法を測定原理とする、例えば、BIACORE(商標登録)T200またはBIACORE(商標登録)4000(GE Healthcare,Uppsala,Sweden)を用いたリガンド捕捉法が用いられる。
【0080】
一態様において、測定結果はBIACORE(登録商標) Evaluation Softwareを用いて解析される。速度論的パラメータ(kinetics parameter)の算出は1:1Bindingのモデルを用いて、結合および解離のセンサグラムを同時にフィッティングすることによって実施される。この処理により、結合速度(konもしくはka)、解離速度(koffもしくはkd)、および平衡解離定数(KD)が計算され得る。
【0081】
抗原結合活性の値として、抗原が可溶型分子の場合にはKD(解離速度定数)を用いることが可能であり、抗原が膜型分子の場合には見かけのkd(Apparent dissociation rate constant:見かけの解離速度定数)を用いることが可能である。kd(解離速度定数)、および、見かけのKD(見かけの解離速度定数)は、当業者に公知の方法で測定され得る。例えば、Biacore(GE healthcare)、フローサイトメーターなどが用いられ得る。
【0082】
特性評価の別の態様として、ディスプレイライブラリによる抗原結合分子の選択手法が挙げられる。一態様において、ファージディスプレイを用いたパニングが挙げられる。親和性評価を例に挙げると、複数の異なる抗原結合分子が提示されたファージライブラリを調製し、標的抗原と調製したファージとを接触させた後に、未結合のファージの洗浄操作をすることで、標的抗原と相互作用する抗原結合分子を提示したファージを濃縮することが可能である。濃縮後のファージに含まれる抗原結合分子をコードする核酸配列を解析することで、標的抗原に親和性のある配列を同定することが可能である。一態様において、哺乳細胞ディスプレイを用いたパニングが挙げられる。そのディスプレイシステムを用いた薬理活性評価では、複数の異なる抗原結合分子を含むライブラリを、標的とする哺乳細胞に発現させ、それが同じ細胞に示す作用に応じてレポーター活性などを変化させることで、望む薬理活性を有する抗原結合分子遺伝子を有する細胞をフローサイトメーターなどで単離できる。そのディスプレイシステムを用いた物性評価では、複数の異なる抗原結合分子を含むライブラリを、標的とする哺乳細胞に発現させ、その発現量を抗原結合分子に対して特異的な抗体で染色することで、安定的に高発現できる抗原結合分子遺伝子を有する細胞をフローサイトメーターなどで単離できる。パニングによる抗原結合分子の特性評価は、上記のファージまたは哺乳細胞を用いる手法に限られるものではなく、抗原結合分子を提示できる限り様々な手法が用いられてよい。例えば、リボソームに提示させる手法、mRNAに提示させる手法、ファージ以外のウイルスに提示させる手法、大腸菌等の細菌に提示させる手法などでもよい。
【0083】
特性評価の別の態様として、個体に由来する免疫細胞から抗体遺伝子配列を取得する方法、または血清から抗体蛋白質配列を取得する方法が挙げられる。免疫細胞から抗体遺伝子配列を抽出する親和性評価では、標的抗原蛋白質を個体に投与することで免疫感作を誘導し、標的抗原に対して結合する抗体遺伝子を有する免疫細胞から遺伝子を抽出することで、標的抗原に親和性のある配列を同定できる。
【0084】
免疫感作を引き起こす抗原については、上記の蛋白質を用いる手法の他に、該蛋白質をコードする遺伝子または該蛋白質を発現する細胞を利用する手法が用いられてもよい。
【0085】
対象とする個体の例として、ヒト、マウス、ラット、ハムスタ、ウサギ、サル、ニワトリ、ラクダ、ラマ、およびアルパカが挙げられるが、これらに限定されるものではない。
【0086】
上記の核酸配列または出現頻度を解析する手法として、各抗原結合分子の核酸配列を有する遺伝子組み換え生物をクローニングし、キャピラリ電気泳動を利用したサンガー法で解析する手法と、次世代シークエンサを用いて解析する手法とが挙げられるが、これらに限定させるものではない。
【0087】
上記の核酸配列を解析する場合において、出現頻度に基づき特性の強弱が判断されてもよい。例えば、濃縮後の核酸配列の解析により出現頻度の高い配列がコードする抗原結合分子はその特性が高いと推定され得る。一方、濃縮後に出現頻度の低い配列がコードする抗原結合分子は、出現頻度が高い配列がコードする抗原結合分子よりも特性が低いと推定され得る。
【0088】
上記のディスプレイライブラリ、または個体に由来する抗原結合分子情報を取得する手法は、上述した評価以外の様々な特性評価に応用可能である。
【0089】
・薬理活性評価
分子の薬理活性評価の手法は特に限定されない。例えば分子が示す中和活性、アゴニスト活性、または細胞傷害活性を測定することで、その薬理活性を評価できる。薬理活性評価の一種である細胞傷害活性評価の例として、抗体依存性細胞介在性細胞傷害(antibody-dependent cell-mediated cytotoxicity:ADCC)活性、補体依存性細胞傷害(complement-dependent cytotoxicity:CDC)活性、T細胞による細胞傷害(T-cell-dependent cytotoxicity:TDCC)活性、および抗体依存性細胞貪食(Antibody-Dependent Cellular Phagocytosis:ADCP)活性が挙げられる。CDC活性とは補体系による細胞傷害活性をいう。ADCC活性とは、標的細胞の細胞膜に発現された膜型分子に結合する抗原結合ドメインを含む抗原結合分子のFc領域に、免疫細胞に発現したFcγレセプタを介して該免疫細胞が結合し、該免疫細胞が標的細胞に傷害を与える活性をいう。TDCC活性とは、標的細胞の細胞膜に発現された膜型分子に結合する抗原結合ドメインと、T細胞上のT細胞レセプタ(TCR)複合体の構成サブユニットとのいずれかに対する抗原結合ドメイン(特にCD3 epsilon鎖に結合する抗原結合ドメイン)を含むbi-specific抗体を用いることで標的細胞とT細胞とを接近させることにより、T細胞が標的細胞に障害を与える活性をいう。目的の抗原結合分子がADCC活性、CDC活性、TDCC活性、またはADCP活性を有するか否かは公知の方法により測定され得る。
【0090】
中和活性とは、細胞に対して生物学的活性を有するリガンド(例えばウイルスまたは毒素)の該生物学的活性を阻害する活性をいう。すなわち、中和活性を有する物質とは、リガンドにまたは該リガンドが結合するレセプタに結合し、該リガンドとレセプタとの結合を阻害する物質をいう。中和活性によりリガンドとの結合を阻止されたレセプタは、該レセプタを通じた生物学的活性を発揮できなくなる。中和活性はリガンドとレセプタとの結合を阻害する場合に限らず、生物学的活性を有するタンパク質の機能を阻害する活性も中和活性として理解される。上記のタンパク質の機能として酵素活性が例示され得る。
【0091】
・物性評価
一例として、熱安定性、化学安定性、光安定性、機械刺激に対する安定性、長期保存安定性などの安定性評価は、該安定性評価の目的とする熱処理、低pH環境への暴露、光暴露、機械による攪拌、長期保存などの処理の前および後において、分子の分解、化学的修飾、および会合化を測定することにより実施できる。そのような安定性評価を実施するための測定法の例として、イオン交換クロマトグラフィ法、サイズ排除クロマトグラフィなどのクロマトグラフィを用いる手法と、質量分析法と、電気泳動法とが挙げられる。他の測定法が用いられてもよい。
【0092】
物性評価の他の例として、ポリエチレングリコール沈殿法によるタンパク質の溶解度の評価と、小角X線散乱法による粘性の評価と、Extra Cellular Matrix(ECM)への結合評価に基づく非特異的結合評価とが挙げられる。
【0093】
物性評価の更に別の例として、タンパク質発現量評価と、精製用樹脂または精製用リガンドへの結合評価、および表面電荷の評価が挙げられる。
【0094】
・動態評価
分子の動態評価は、マウス、ラット、サル、イヌなどの動物に該分子を投与し、投与後の血中の分子の量を経時的に測定することで実施され得る。あるいは、動態評価は、Pharmacokinetics(PK)評価により実施され得る。PKを直接に評価する以外の手法として、分子の表面電荷、等電点などをソフトウェア上で計算することにより分子のアミノ酸配列から動態の挙動を予測してもよい。
【0095】
・安全性評価
分子の安全性評価の例として、ISPRI Web-Based Immunogenicity Screening(EpiVax)などの免疫原性予測ツールと、抗原結合分子の断片ペプチドのHLA結合評価と、MAPPs(MHC-Associated Peptide Proteomics)と、T細胞増殖評価などを用いたT細胞エピトープの検出および免疫原性の評価とが挙げられる。安全性評価は、リウマトイド因子(RF)との結合、PBMCおよびwhole bloodを用いた免疫反応の評価、血小板凝集評価などのような手法により測定できる限り、実施可能である。
【0096】
一例では、情報処理システム10を含む創薬システムにより、特定の生理活性(例えば、特定のタンパク質との結合)のような所定の特性を有する新しい対象物を生成するための方法が提供される。薬物の例として、低分子医薬品、中分子医薬品、生物薬剤、細胞、核酸医薬品、バイオ医薬品、または、他の活性剤のような潜在的活性剤が含まれる。対象物は所望のまたは定義された生物活性を有する分子構造を含む。その生物活性は、例えば、他のタンパク質よりも優先的に特定のタンパク質と結合することでもよい。薬物候補となる分子は生体分子または化合物が含み、例えば、核酸、ペプチド、環状ペプチド、タンパク質、抗体、標的分子結合分子、高分子化合物、中分子化合物、低分子化合物などの種々の分子を包含する。
【0097】
創薬システムは、薬剤のターゲットと相互作用する分子の選定装置、リード分子の創出装置などを含んでもよい。創薬システムは、例えば、WO2020/246617の開示を含んで構成される情報処理システムであってもよい。
【0098】
創薬システムは分子設計装置を含んでもよい。分子設計装置は、所望の特性を有する分子の候補を探索し、特定した候補分子の情報を出力する。創薬システムは、分子設計装置から出力された候補分子の情報を用いて、薬物候補に適した新しい対象物を選択する。
【0099】
[検証例]
(第1検証例)
次に、本開示に係る情報処理システムの検証例について説明する。
【0100】
第1検証例では、複数の抗体配列のそれぞれの結合力の実測値を示すデータセットを用いて、本開示に係る情報処理システムの有効性を検証した。そのデータセットは、MarvelD3とCD3とを抗原とする二重特異性抗体(バイスペシフィック抗体)の配列と結合能の特性値とから構成される。第1検証例においては、MarvelD3を抗原として想定して、抗体の結合能を向上させることを題材とした。結合能の特性値としてオクテット値(Octet Value)を用いた。
【0101】
MarvelD3は、4回膜貫通構造を有する密着結合蛋白質である。第1検証例では、MarvelD3を抗がん薬の標的候補として設定した。がん抗原とT cell上の抗原とを架橋する二重特異性抗体の開発は、がん治療への適用が期待される。第1検証例では、学習された予測モデルを、リード抗体からより優れた特性を持つ抗MarvelD3配列の候補を定める際に用いた。
【0102】
第1検証例では、抗体配列のオクテット値の測定を複数回行い、抗体配列と測定により得られた抗体配列のオクテット値とを予測モデルへの入力として用いた。バッチ測定により、1回の測定では、典型的には100個以内の抗体配列のオクテット値が取得される。
【0103】
測定に係る抗体を次の手順で取得した。まず、予め設計された重鎖または軽鎖をエンコードするプラスミドを準備し、Expi293F細胞を用いて組み換え抗体を一過性に発現させた。培養上清からプロテインAを用いて抗体を捕獲し、その抗体を緩衝液に溶出させた。溶出させた緩衝液を還元条件で混合することでMarvelD3/CD3二重特異性抗体を調製した。この調製では、同じ重鎖間で電荷斥力を印加して選択的重鎖ヘテロ二量化を実行した。280nm吸光度により緩衝液における抗体の濃度を決定した。その後、二重特異性抗体を含む緩衝液に対してイオン交換クロマトグラフィを行って、目的とするMarvelD3/CD3抗体が準備できたことを確認した。
【0104】
オクテット値の測定のためにオクテットHTXシステムを用いた。CD81タンパク質とヒトMarvelD3タンパク質とを表面に持つ Extracellular vesiclesを、抗CD81抗体を用いてセンサーチップ上に捕獲した。0.1%BSAを含むD-PBS(-)溶液における600秒間のベースラインステップの後で、抗体20nMを含む同じ緩衝液での会合応答と解離応答とを、それぞれ900秒間および1500秒間測定した。抗体の結合能は、ベースラインステップと会合段階の終期との間での波長の変異として現れる。測定は、ベースラインステップ、会合、および解離の各段階において、温度30°Cの環境下で、毎分1000回の振動速度でサンプルプレートを振動させて行った。
【0105】
具体的な方法を説明する。まず、1144個の抗体配列を訓練用配列群として抽出した。次に、訓練用配列群を示す訓練データを用いて結合力を予測する特性予測モデルを作成した。そして、アミノ酸改変候補の組合せにて作成され実測値を有さない仮想的な196608個の配列で構成される仮想配列群を予測用配列群として特性予測モデルに入力した。予測用配列群に含まれる各抗体配列についての特性予測モデルの予測値に基づいて予測用配列群をスクリーニングし、結合力が高い抗体配列を選抜できるかを検証した。
【0106】
特性予測モデルの作成に際し、タンパク質言語モデルTAPEを用いて、各抗体配列をVH領域およびVL領域ごとに768次元のベクトル化し、それらを結合した1536次元のベクトルデータを各抗体配列の特徴量として定めた。
【0107】
本発明の有効性を検証するために、1536次元の特徴量から予測モデル生成に用いるための入力特徴量を、下記の2種類の方法で選択した。そして、選択された特徴量を用いて特性予測モデルを構築した場合に、そのモデルによって選抜された抗体配列の結合力の高低を比較した。第1の方法は、LightGBM(Light Gradient-Boosting Machine)を用いる。第1の方法は、訓練用配列群と予測用配列群とを判別するクラス分類モデルを作成し、そのモデルから得られる特徴量重要度(Feature importance)に基づいて1536次元の特徴量における各次元の重要度を算出する。そして、第1の方法は、重要度が低い特徴量から、すなわち、訓練用配列群と予測用配列群とで差異が少ないと推定される特徴量から順番に10個ずつ増やすように特徴量を選択する。第2の方法は、訓練用配列群と予測用配列群とのそれぞれが有する特徴量の各次元についてWasserstein距離で分布間距離を定義する。第2の方法は、Wasserstein距離が小さい特徴量から、すなわち訓練用配列群と予測用配列群との間で分布が相対的に類似する特徴量から順番に増やすように特徴量を選択する。第1および第2の手法のそれぞれによって段階的に選択された特徴量の各セットに対して、平均二乗誤差を指標として用いる交差検証法を適用し、訓練用配列群に対する予測性能が最も高くなる特徴量セットを同定した。そして、その特徴量セットを用いて、LightGBMによる結合力を対象とした特性予測の性能を評価した。
【0108】
図10は、特徴量選択を実施せずすべての特徴量を入力特徴量として使用する場合(Baseline)と、クラス分類モデルから得られる特徴量重要度を用いて選択した特徴量を使用する場合(Classifier)と、Wasserstein距離を用いて選択した特徴量を使用する場合(Wasserstein)とのそれぞれについて、結合力の予測値が大きい順に上位16個の抗体配列を予測用配列群から選択したときの、該選択された抗体配列の実測値の分布を示す。図10は、Wasserstein距離を用いて選択された特徴量を使用する場合には、すべての特徴量を使用する場合、および特徴量重要度を用いて選択された特徴量を使用する場合と比較して、結合力の実測値がより高い抗体配列をスクリーニングできたことを示す。すなわち、図10は本開示に係る情報処理システム(特徴量選択手法)が有効であることを示す。
【0109】
(第2検証例)
次に、第2検証例について説明する。第2検証例では、公共データセットのダウンロード機能などを提供するプラットフォームであるTherapeutics Data Commonsを用いてダウンロードされた、9982個の低分子化合物の溶解度のデータセットであるAqSolDBを用いて、本開示に係る情報処理システムの有効性を検証した。全化合物からランダムに抽出された1000個を第1分子群として用いて、溶解度を予測する特性予測モデルを作成した。次に、残りの8982個を第2分子群として用いて、特性予測モデルの予測値に基づき第2分子群をスクリーニングした。そして、溶解度の実測値が高い分子を選抜できるかを検証した。この検証に関しては、ランダムに分子を抽出するときの乱数の種を10通りに設定し、その検証を10回実施した。検証では上記のステップS10Aに従って特徴量を選択した。ステップS11においては、MolCLR(Molecular Contrastive Learning of Representations via Graph Neural Networks)を使用して抽出した2048次元の特徴量を含む訓練データおよびテストデータを取得した。ステップS12,S14Aにおいては、各特徴量の選択指標として、Wasserstein距離と、第1分子群と第2分子群とを分類するモデルの特徴量重要度とをそれぞれ使用して、該2種類の選択指標を比較した。ステップS13Aにおいては、特徴量の選択数mの初期値を18に設定した。ステップS15Aにおいては、仮予測モデルの性能を評価する方法として交差検証法を使用し、その性能を評価する指標として平均二乗誤差を使用し、教師あり学習の手法としてLightGBM(Light Gradient-Boosting Machine)を使用した。ステップS16Aにおいては、特徴量の選択数mが2048未満である場合にステップS17Aに進み、その選択数mが2048である場合にステップS18に進むと判定した。ステップS17Aでは、特徴量の選択数mを10だけインクリメントした。ステップS18においては、仮予測モデルの平均二乗誤差の平均値が最小となる場合の特徴量セットを入力特徴量として選択した。
【0110】
図11は、特徴量選択を実施せずすべての特徴量を入力特徴量として使用する場合(Baseline)と、特徴量の選択指標として特徴量重要度を用いて選択した特徴量を入力特徴量として使用する場合(Classifier)と、特徴量の選択指標としてWasserstein距離を用いて選択した特徴量を入力特徴量として使用する場合(Wasserstein)とのそれぞれについて、溶解度の予測値が大きい順に上位100個の化合物を選択したときの、選択された化合物の溶解度の実測値の平均値の分布を示す。図11は、Wasserstein距離を用いて選択された特徴量を使用する場合には、すべての特徴量を使用する場合、および特徴量重要度を用いて選択した特徴量を使用する場合と比較して、溶解度の実測値がより高い化合物をスクリーニングできたことを示す。すなわち、図11は本開示に係る情報処理システム(特徴量選択手法)が有効であることを示す。
【0111】
[変形例]
以上、本開示に係る技術をその様々な例に基づいて詳細に説明した。しかし、本開示は上記の例に限定されるものではない。本開示に係る技術については、その要旨を逸脱しない範囲で様々な変形が可能である。
【0112】
上記の例では情報処理システム10が特徴量選択部11に加えて学習部12および予測部13を備えるが、情報処理システムは学習部および予測部の少なくとも一方を備えなくてもよい。予測モデルはコンピュータシステム間で移植可能である。したがって、情報処理システムによって生成された予測モデルが別のコンピュータシステムで用いられてもよい。あるいは、別のコンピュータシステムが、情報処理システムによって選択された1以上の入力特徴量を用いた機械学習によって予測モデルを生成し、情報処理システムがその予測モデルを用いて予測フェーズを実行してもよい。
【0113】
情報処理システムは、クライアント-サーバシステムにおけるサーバとして構築されてもよいし、スタンドアロンのコンピュータに実装されてもよい。あるいは、情報処理システムは、訓練データおよびテストデータを記憶するデータベースに通信ネットワークを介してアクセス可能なユーザ端末に実装されてもよい。
【0114】
少なくとも一つのプロセッサにより実行される方法の処理手順は上記の例に限定されない。例えば、上述したステップまたは処理の一部が省略されてもよいし、別の順序で各ステップが実行されてもよい。また、上述したステップのうちの任意の2以上のステップが組み合わされてもよいし、ステップの一部が修正又は削除されてもよい。あるいは、上記の各ステップに加えて他のステップが実行されてもよい。
【0115】
本開示における二つの数値の大小関係の比較では、「以上」および「よりも大きい」という二つの基準のどちらが用いられてもよく、「以下」および「未満」の二つの基準のうちのどちらが用いられてもよい。
【0116】
本開示において、「少なくとも一つのプロセッサが、第1の処理を実行し、第2の処理を実行し、…第nの処理を実行する。」との表現、またはこれに対応する表現は、第1の処理から第nの処理までのn個の処理を実行するプロセッサが途中で変わる場合を含む概念を示す。すなわち、この表現は、n個の処理のすべてが同じプロセッサで実行される場合と、n個の処理においてプロセッサが任意の方針で変わる場合との双方を含む概念を示す。
【0117】
本開示において、範囲を示す「~」は、その両端の値を含む表現である。例えば、「A~B」はA以上でありかつB以下である範囲を意味する。
【0118】
本開示において、「約」という用語は、数値と組み合わせて使用される場合にはその数値の+10%および-10%の範囲を意味する。
【0119】
本明細書で用語「および/または」は、「および/または」の前後に記載される各対象またはそれらの任意の組合せを示すために用いられる。例えば、「A、Bおよび/またはC」は、「A」、「B」、「C」の各対象のほか、組合せ「AおよびB」、「AおよびC」、「BおよびC」、ならびに「AおよびBおよびC」も含む。
【0120】
[付記]
上記の様々な例から把握されるとおり、本開示は以下に示す態様を含む。
(付記1)
少なくとも一つのプロセッサを備え、
前記少なくとも一つのプロセッサが、
複数の第1分子のそれぞれについて、該第1分子に関する複数の特徴量を示す訓練データを取得し、
複数の第2分子のそれぞれについて、該第2分子に関する前記複数の特徴量を示すテストデータを取得し、
前記複数の特徴量のそれぞれについて、前記訓練データにおける確率分布である第1確率分布と前記テストデータにおける確率分布である第2確率分布とに基づく指標を算出し、
前記複数の特徴量のそれぞれの前記指標に基づいて、前記複数の特徴量のうちの1以上の特徴量を、機械学習に基づいて分子の特性値を予測する予測モデルの入力パラメータとして用いられる1以上の入力特徴量として選択する、
情報処理システム。
(付記2)
前記少なくとも一つのプロセッサが、
前記複数の特徴量のそれぞれについて、前記第1確率分布と前記第2確率分布との間の距離である分布間距離を前記指標として算出し、
前記複数の特徴量のそれぞれの前記分布間距離に基づいて、前記複数の特徴量から前記1以上の入力特徴量を選択する、
付記1に記載の情報処理システム。
(付記3)
前記少なくとも一つのプロセッサが、所定の基準より前記分布間距離が小さい前記1以上の特徴量を前記1以上の入力特徴量として選択する、
付記2に記載の情報処理システム。
(付記4)
前記少なくとも一つのプロセッサが、前記分布間距離としてWasserstein距離を算出する、
付記2または3に記載の情報処理システム。
(付記5)
前記少なくとも一つのプロセッサが、
前記複数の特徴量のそれぞれの前記分布間距離に基づいて、前記複数の特徴量の一部を除外し、残った前記1以上の特徴量を前記1以上の入力特徴量として選択する、
付記2~4のいずれか一つに記載の情報処理システム。
(付記6)
前記少なくとも一つのプロセッサが、
前記複数の特徴量のそれぞれの前記分布間距離に基づいて前記複数の特徴量から除外される特徴量の個数を変更しながら、前記訓練データを用いた前記機械学習による仮予測モデルの生成と該仮予測モデルの評価指標の算出とを、残った1以上の前記特徴量に基づいて実行する評価処理を繰り返し、
複数の前記評価指標に基づいて、前記複数の特徴量から除外される特徴量の個数を除外数として決定し、
前記複数の特徴量のそれぞれの前記分布間距離に基づいて、前記複数の特徴量から前記除外数の分の前記特徴量を除外して、前記1以上の入力特徴量を選択する、
付記5に記載の情報処理システム。
(付記7)
前記複数の特徴量がN個の特徴量であり、ここで、Nは2以上の自然数であり、
前記少なくとも一つのプロセッサが、
前記N個の特徴量から除外される特徴量の個数をnに設定し、ここで、nは自然数であり、
前記N個の特徴量のそれぞれの前記分布間距離に基づいて前記複数の特徴量からn個の特徴量を除外し、
前記訓練データを用いた前記機械学習による第1仮予測モデルの生成と該第1仮予測モデルの評価指標の算出とを、(N-n)個の特徴量に基づいて実行する評価処理を行い、
前記(N-n)個の特徴量のそれぞれの前記分布間距離に基づいて、前記(N-n)個の特徴量から更にn個の特徴量を除外し、
前記訓練データを用いた前記機械学習による第2仮予測モデルの生成と該第2仮予測モデルの評価指標の算出とを、(N-2n)個の特徴量に基づいて実行する評価処理を行う、
付記6に記載の情報処理システム。
(付記8)
前記少なくとも一つのプロセッサが、最も高い前記評価指標が得られた前記個数を前記除外数として決定する、
付記6または7に記載の情報処理システム。
(付記9)
前記少なくとも一つのプロセッサが、最も低い前記評価指標が得られた前記個数を前記除外数として決定する、
付記6または7に記載の情報処理システム。
(付記10)
前記少なくとも一つのプロセッサが、
前記複数の特徴量のそれぞれの前記分布間距離に基づいて前記複数の特徴量から選択される特徴量の個数を変更しながら、前記訓練データを用いた前記機械学習による仮予測モデルの生成と該仮予測モデルの評価指標の算出とを、選択された1以上の前記特徴量に基づいて実行する評価処理を繰り返し、
複数の前記評価指標に基づいて、前記複数の特徴量から選択される特徴量の個数を選択数として決定し、
前記複数の特徴量のそれぞれの前記分布間距離に基づいて、前記複数の特徴量から前記選択数の分の前記特徴量を前記1以上の入力特徴量として選択する、
付記5に記載の情報処理システム。
(付記11)
前記複数の特徴量がN個の特徴量であり、ここで、Nは2以上の自然数であり、
前記少なくとも一つのプロセッサが、
前記N個の特徴量から選択される特徴量の個数をmに設定し、ここで、mは自然数であり、
前記N個の特徴量のそれぞれの前記分布間距離に基づいて前記複数の特徴量からm個の特徴量を選択し、
前記訓練データを用いた前記機械学習による第1仮予測モデルの生成と該第1仮予測モデルの評価指標の算出とを、m個の特徴量に基づいて実行する評価処理を行い、
前記m個の特徴量のそれぞれの前記分布間距離に基づいて、前記m個の特徴量に更にm個の特徴量を追加し、
前記訓練データを用いた前記機械学習による第2仮予測モデルの生成と該第2仮予測モデルの評価指標の算出とを、2m個の特徴量に基づいて実行する評価処理を行う、
付記10に記載の情報処理システム。
(付記12)
前記少なくとも一つのプロセッサが、最も高い前記評価指標が得られた前記個数を前記選択数として決定する、
付記11に記載の情報処理システム。
(付記13)
前記少なくとも一つのプロセッサが、最も低い前記評価指標が得られた前記個数を前記選択数として決定する、
付記11に記載の情報処理システム。
(付記14)
前記少なくとも一つのプロセッサが、交差検証によって前記評価処理を実行する、
付記6~13のいずれか一つに記載の情報処理システム。
(付記15)
前記少なくとも一つのプロセッサが、前記訓練データの前記1以上の入力特徴量を用いた前記機械学習を実行して、前記予測モデルを生成する、
付記1~14のいずれか一つに記載の情報処理システム。
(付記16)
前記少なくとも一つのプロセッサが、
前記特性値が未知である対象分子について前記1以上の入力特徴量を取得し、
前記取得された1以上の入力特徴量を前記生成された予測モデルに入力することで得られる前記対象分子の前記特性値を出力する、
付記15に記載の情報処理システム。
(付記17)
前記少なくとも一つのプロセッサが、
前記特性値が未知である複数の対象分子のそれぞれについて前記1以上の入力特徴量を取得し、
前記複数の対象分子のそれぞれについて、前記取得された1以上の入力特徴量を前記生成された予測モデルに入力して、該対象分子の前記特性値を該予測モデルから取得し、
前記複数の対象分子のそれぞれの前記特性値に基づいて、前記複数の対象分子のうち少なくとも一つの対象分子を選択し、
前記選択された少なくとも一つの対象分子の情報を出力する、
付記15に記載の情報処理システム。
(付記18)
前記第1分子および前記第2分子のそれぞれが、核酸、ペプチド、環状ペプチド、タンパク質、抗体、および、低分子化合物のうちから選択される一つである、
付記1~17のいずれか一つに記載の情報処理システム。
(付記19)
前記少なくとも一つのプロセッサが、
前記複数の第2分子のうちの少なくとも一つの第2分子のそれぞれについて前記1以上の入力特徴量を取得し、
前記少なくとも一つの第2分子のそれぞれについて、前記取得された1以上の入力特徴量を前記生成された予測モデルに入力することで得られる該第2分子の前記特性値を出力する、
付記15に記載の情報処理システム。
(付記20)
前記少なくとも一つのプロセッサが、
前記複数の第2分子のそれぞれについて前記1以上の入力特徴量を取得し、
前記複数の第2分子のそれぞれについて、前記取得された1以上の入力特徴量を前記生成された予測モデルに入力して、該第2分子の前記特性値を該予測モデルから取得し、
前記複数の第2分子のそれぞれの前記特性値に基づいて、前記複数の第2分子のうち少なくとも一つの第2分子を候補分子として選択し、
前記選択された少なくとも一つの候補分子の情報を出力する、
付記15に記載の情報処理システム。
(付記21)
前記特性値が、親和性、薬理活性、物性、動態、および安全性のうち少なくとも一つから選択される特性値である、
付記1~20のいずれか一つに記載の情報処理システム。
(付記22)
前記第1分子および第2分子が抗原結合分子であり、
前記特性値が、前記抗原結合分子の抗原に対する結合能についての値である、
付記1~20のいずれか一つに記載の情報処理システム。
(付記23)
少なくとも一つのプロセッサを備える情報処理システムによって実行される情報処理方法であって、
複数の第1分子のそれぞれについて、該第1分子に関する複数の特徴量を示す訓練データを取得するステップと、
複数の第2分子のそれぞれについて、該第2分子に関する前記複数の特徴量を示すテストデータを取得するステップと、
前記複数の特徴量のそれぞれについて、前記訓練データにおける確率分布である第1確率分布と前記テストデータにおける確率分布である第2確率分布とに基づく指標を算出するステップと、
前記複数の特徴量のそれぞれの前記指標に基づいて、前記複数の特徴量のうちの1以上の特徴量を、機械学習に基づいて分子の特性値を予測する予測モデルの入力パラメータとして用いられる1以上の入力特徴量として選択するステップと、
を含む情報処理方法。
(付記24)
複数の第1分子のそれぞれについて、該第1分子に関する複数の特徴量を示す訓練データを取得するステップと、
複数の第2分子のそれぞれについて、該第2分子に関する前記複数の特徴量を示すテストデータを取得するステップと、
前記複数の特徴量のそれぞれについて、前記訓練データにおける確率分布である第1確率分布と前記テストデータにおける確率分布である第2確率分布とに基づく指標を算出するステップと、
前記複数の特徴量のそれぞれの前記指標に基づいて、前記複数の特徴量のうちの1以上の特徴量を、機械学習に基づいて分子の特性値を予測する予測モデルの入力パラメータとして用いられる1以上の入力特徴量として選択するステップと、
をコンピュータに実行させる情報処理プログラム。
(付記25)
付記17に記載の情報処理システムにより出力された前記少なくとも一つの対象分子の前記情報に基づいて、前記少なくとも一つの対象分子の分子配列を有する分子化合物を生成する生成ステップを含む、分子化合物の製造方法。
(付記26)
付記20に記載の情報処理システムにより出力された前記少なくとも一つの候補分子の前記情報に基づいて、前記少なくとも一つの候補分子の分子配列を有する分子化合物を生成する生成ステップを含む、分子化合物の製造方法。
(付記27)
複数の第1分子のそれぞれについて、該第1分子に関する複数の特徴量を示す訓練データを取得するステップと、
複数の第2分子のそれぞれについて、該第2分子に関する前記複数の特徴量を示すテストデータを取得するステップと、
前記複数の特徴量のそれぞれについて、前記訓練データにおける確率分布である第1確率分布と前記テストデータにおける確率分布である第2確率分布とに基づく指標を算出するステップと、
前記複数の特徴量のそれぞれの前記指標に基づいて、前記複数の特徴量のうちの1以上の特徴量を、機械学習に基づいて分子の特性値を予測する予測モデルの入力パラメータとして用いられる1以上の入力特徴量として選択するステップと、
をコンピュータに実行させる情報処理プログラムを記憶する非一時的でコンピュータ読み出し可能な記録媒体。
【0121】
付記1,23,24,27によれば、訓練データおよびテストデータの双方における個々の特徴量の傾向に基づいて、機械学習に基づく予測モデルの入力パラメータとして用いられる特徴量が入力特徴量として選択される。このように特徴量を選択することで、分子の特性を予測するための機械学習モデル(予測モデル)の精度を向上させることができる。機械学習モデルの精度の向上は、分子の特性を精度良く予測することにつながり得る。
【0122】
付記2によれば、第1確率分布と第2確率分布との間の分布間距離に基づいて特徴量が選択される。二つの確率分布の傾向の違いを定量的に表す分布間距離を導入することで、客観的な基準で入力特徴量を選択できる。その結果、機械学習モデルの精度の更なる向上が期待できる。
【0123】
付記3によれば、分子間距離が相対的に小さい特徴量が入力特徴量として選択される。このように選択される入力特徴量は、訓練データとテストデータとの間で、相対的に類似した傾向を示す。したがって、その入力特徴量に基づく機械学習によって機械学習モデル(予測モデル)の精度を向上させることができる。
【0124】
付記4によれば、分子間距離としてWasserstein距離を導入することで、分子間距離を適切に算出できる。その結果、入力特徴量をより適切に選択することが可能になる。
【0125】
付記5によれば、入力特徴量として適切でないと推定される特徴量に着目して、入力特徴量を選択できる。
【0126】
付記6によれば、除外される特徴量の個数を変更しながら仮予測モデルの生成および評価が繰り返され、この繰り返しによって得られる複数の評価指標に基づいて除外数が動的に決定される。そして、決定された除外数の分だけ特徴量が除外されて入力特徴量が選択される。一例では、分布間距離が相対的に大きい特徴量を除外しすぎると、実際には特性値の予測に貢献し得る特徴量まで除外される可能性がある。上記のように除外数を動的に決定することで、機械学習モデルの精度を向上させるための1以上の入力特徴量を適切に選択できる。
【0127】
付記7によれば、評価処理の繰り返しにおいて除外数の増加率が一定なので、評価処理を簡易な手法で効率的に繰り返すことができる。
【0128】
付記8によれば、最も高い評価指標が得られた際の特徴量の除外数が最終的な除外数として決定される。付記9によれば、最も低い評価指標が得られた際の特徴量の除外数が最終的な除外数として決定される。したがって、機械学習モデルを精度が最も上がると見込まれる1以上の入力特徴量を選択できる。
【0129】
付記10によれば、選択される特徴量の個数を変更しながら仮予測モデルの生成および評価が繰り返され、この繰り返しによって得られる複数の評価指標に基づいて選択数が動的に決定される。そして、決定された選択数の分の入力特徴量が選択される。一例では、分布間距離が相対的に小さい特徴量を選択しすぎると、実際には特性値の予測に貢献しない特徴量まで選択される可能性がある。上記のように選択数を動的に決定することで、機械学習モデルの精度を向上させるための1以上の入力特徴量を適切に選択できる。
【0130】
付記11によれば、評価処理の繰り返しにおいて選択数の増加率が一定なので、評価処理を簡易な手法で効率的に繰り返すことができる。
【0131】
付記12によれば、最も高い評価指標が得られた際の特徴量の選択数が最終的な選択数として決定される。付記13によれば、最も低い評価指標が得られた際の特徴量の選択数が最終的な選択数として決定される。したがって、機械学習モデルを精度が最も上がると見込まれる1以上の入力特徴量を選択できる。
【0132】
付記14によれば、各評価指標を得るための各評価処理において交差検証が導入されるので、訓練データのデータ量が限られる場合でも、その限られたデータを有効に活用しつつ個々の仮予測モデルを正確に評価することができる。
【0133】
付記15によれば、訓練データおよびテストデータの双方における個々の特徴量の傾向に基づいて選択された1以上の入力特徴量を用いて、予測モデルを生成するための機械学習が実行される。したがって、精度の良い予測モデルを得ることができる。
【0134】
付記16によれば、選択された1以上の入力特徴量を用いた機械学習によって生成された予測モデルを用いることで、対象分子の特性を精度良く予測できる。
【0135】
付記17によれば、選択された1以上の入力特徴量を用いた機械学習によって生成された予測モデルを用いることで、個々の対象分子の特性を精度良く予測できる。したがって、複数の対象分子から少なくとも一つの対象分子を適切に選択できる。
【0136】
付記18によれば、核酸、ペプチド、環状ペプチド、タンパク質、抗体、および、低分子化合物の特性を予測するための機械学習モデル(予測モデル)の精度を向上させることができる。
【0137】
付記19によれば、選択された1以上の入力特徴量を用いた機械学習によって生成された予測モデルを用いることで、第2分子の特性を精度良く予測できる。
【0138】
付記20によれば、選択された1以上の入力特徴量を用いた機械学習によって生成された予測モデルを用いることで、個々の第2分子の特性を精度良く予測できる。したがって、複数の第2分子から少なくとも一つの候補分子を適切に選択できる。
【0139】
付記21によれば、分子の親和性、薬理活性、物性、動態、または安全性を予測するための機械学習モデル(予測モデル)の精度を向上させることができる。
【0140】
付記22によれば、抗原結合分子の抗原に対する結合能を予測するための機械学習モデル(予測モデル)の精度を向上させることができる。
【0141】
付記25によれば、予測モデルを用いて適切に選択された少なくとも一つの対象分子の情報に基づいて、所望の特性を有すると期待できる分子化合物を生成できる。
【0142】
付記26によれば、予測モデルを用いて適切に選択された少なくとも一つの候補分子の情報に基づいて、所望の特性を有すると期待できる分子化合物を生成できる。
【符号の説明】
【0143】
10…情報処理システム、11…特徴量選択部、12…学習部、13…予測部、20…データベース、30…予測モデル、110…情報処理プログラム、210…第1確率分布、220…第2確率分布。
【要約】
情報処理システムは少なくとも一つのプロセッサを備える。少なくとも一つのプロセッサは、複数の第1分子のそれぞれについて、該第1分子に関する複数の特徴量を示す訓練データを取得し、複数の第2分子のそれぞれについて、該第2分子に関する複数の特徴量を示すテストデータを取得し、複数の特徴量のそれぞれについて、訓練データにおける確率分布である第1確率分布とテストデータにおける確率分布である第2確率分布とに基づく指標を算出し、複数の特徴量のそれぞれの指標に基づいて、複数の特徴量のうちの1以上の特徴量を、機械学習に基づいて分子の特性値を予測する予測モデルの入力パラメータとして用いられる1以上の入力特徴量として選択する。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11