(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023114714
(43)【公開日】2023-08-18
(54)【発明の名称】情報処理装置、情報処理方法、プログラム、及び学習済みモデル
(51)【国際特許分類】
G16B 40/20 20190101AFI20230810BHJP
G16B 30/00 20190101ALI20230810BHJP
【FI】
G16B40/20
G16B30/00
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022017180
(22)【出願日】2022-02-07
(71)【出願人】
【識別番号】518190064
【氏名又は名称】株式会社COGNANO
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】山崎 寛章
(72)【発明者】
【氏名】鶴田 博文
(72)【発明者】
【氏名】前田 良太
(72)【発明者】
【氏名】松本 亮介
(72)【発明者】
【氏名】伊村 明浩
(57)【要約】
【課題】抗原と抗体との相互作用を計算的に予測する。
【解決手段】抗体のアミノ酸配列を示す情報、及び抗原のアミノ酸配列を示す情報を取得する。抗体のアミノ酸配列を示す情報と抗原のアミノ酸配列を示す情報とを学習モデルに入力することにより得られた学習モデルからの出力に基づいて、抗体と抗原との相互作用を予測する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
抗体のアミノ酸配列を示す情報、及び抗原のアミノ酸配列を示す情報を取得する取得手段と、
前記抗体のアミノ酸配列を示す情報と前記抗原のアミノ酸配列を示す情報とを学習モデルに入力することにより得られた前記学習モデルからの出力に基づいて、前記抗体と前記抗原との相互作用を予測する予測手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記学習モデルは、抗体と抗原との相互作用を示す教師データを用いて、抗体のアミノ酸配列を示す情報と抗原のアミノ酸配列を示す情報とが入力されると前記抗体と前記抗原との相互作用を示す情報を出力するように学習されていることを特徴とする、請求項1に記載の情報処理装置。
【請求項3】
前記学習モデルはニューラルネットワークであることを特徴とする、請求項1又は2に記載の情報処理装置。
【請求項4】
前記学習モデルは、前記抗体のアミノ酸配列を示す情報が入力される第1の処理層と、前記抗原のアミノ鎖配列を示す情報が入力される第2の処理層と、前記第1の処理層及び前記第2の処理層からの出力が入力され、前記抗体と前記抗原との相互作用を示す情報を出力する第3の処理層と、を含むことを特徴とする、請求項3に記載の情報処理装置。
【請求項5】
前記学習モデルからの出力に対する、前記抗原のアミノ酸配列のうちの各部分の貢献度を算出することにより、前記抗原のアミノ酸配列のうち前記相互作用に寄与している部分を推定する推定手段をさらに備えることを特徴とする、請求項1から4のいずれか1項に記載の情報処理装置。
【請求項6】
前記抗体はVHH抗体であることを特徴とする、請求項1から5のいずれか1項に記載の情報処理装置。
【請求項7】
抗体のアミノ酸配列を示す情報、及び抗原のアミノ酸配列を示す情報を取得する工程と、
前記抗体のアミノ酸配列を示す情報と前記抗原のアミノ酸配列を示す情報とを学習モデルに入力することにより得られた前記学習モデルからの出力に基づいて、前記抗体と前記抗原との相互作用を予測する工程と、
を有することを特徴とする情報処理方法。
【請求項8】
コンピュータを、請求項1から6のいずれか1項に記載の情報処理装置として機能させるためのプログラム。
【請求項9】
抗体のアミノ酸配列を示す情報、及び抗原のアミノ酸配列を示す情報に基づいて、前記抗体と前記抗原との相互作用を示す情報を出力するよう、コンピュータを機能させるための学習済みモデルであって、
前記学習済みモデルは、
入力された、前記抗体のアミノ酸配列を示す情報に対し、学習済みの重み付け係数に基づく演算を行う第1の処理層と、
入力された、前記抗原のアミノ鎖配列を示す情報に対し、学習済みの重み付け係数に基づく演算を行う第2の処理層と、
入力された、前記第1の処理層及び前記第2の処理層からの出力に対し、学習済みの重み付け係数に基づく演算を行うことで、前記抗体と前記抗原との相互作用を示す情報を出力する第3の処理層と、
を含むことを特徴とする学習済みモデル。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は情報処理装置、情報処理方法、プログラム、及び学習済みモデルに関し、特に学習モデルを用いて抗体と抗原との相互作用を予測する技術に関する。
【背景技術】
【0002】
生命現象を根本的に規定しているものは、蛋白質、核酸、及び低分子化合物などの間の相互作用である。これらの物質はアミノ酸、核酸、又はその他の分子が互いに結合したものであり、個々の分子の種類及び配列は生物学的に同定可能である。したがって、理論的には、全分子の挙動を計算することによりこれらの間の相互作用を予測可能とも思われる。しかしながら、このような計算は、天文学的なパラメーターの組み合わせが必要となるため、数ピコ秒という極めて短時間についてのシミュレートを行うだけでもスーパーコンピューターの計算資源を長時間用いることが必要であり、事実上は不可能である。
【0003】
抗原抗体反応は、上記の相互作用のうち、標的となる蛋白質に、やはり蛋白質からなる抗体が結合又は相互作用する現象を指し、獲得免疫システムの根幹をなしている。生体内で抗原決定部位と言われる特定の領域のアミノ酸配列に変異が引き起こされることで、標的蛋白質により強く結合又は相互作用する抗体が常に取捨選択される。抗原抗体間の相互作用の完全な計算が困難である現在、抗原に強く結合する抗体を取得するためには、抗原に結合する抗体を多数取得し、それぞれの抗体について実験的に抗原との相互作用が測定される。例えば、特許文献1には、抗原に対して強く結合する抗体を効率的に取得する方法が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載の方法を使用したとしても、依然として抗原に強く結合する抗体を取得するためには多くの時間を要していた。
【0006】
本発明は、抗原と抗体との相互作用を計算的に予測することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一実施形態に係る情報処理装置は以下の構成を備える。すなわち、
抗体のアミノ酸配列を示す情報、及び抗原のアミノ酸配列を示す情報を取得する取得手段と、
前記抗体のアミノ酸配列を示す情報と前記抗原のアミノ酸配列を示す情報とを学習モデルに入力することにより得られた前記学習モデルからの出力に基づいて、前記抗体と前記抗原との相互作用を予測する予測手段と、
を備える。
【発明の効果】
【0008】
抗原と抗体との相互作用を計算的に予測することができる。
【図面の簡単な説明】
【0009】
【
図1】一実施形態に係る情報処理装置の構成の一例を示す図。
【
図2】一実施形態で用いられる学習モデルのアーキテクチャ例を示す図。
【
図3】一実施形態に係る情報処理方法のフローチャートの一例を示す図。
【
図4】一実施形態に係るコンピュータの構成の一例を示す図。
【
図5】アミノ酸の貢献度を示すヒートマップの一例を示す図。
【発明を実施するための形態】
【0010】
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち二つ以上の特徴は任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。
【0011】
本発明の一実施形態に係る情報処理装置は、学習モデルを用いて抗原と抗体との相互作用を予測する。すなわち、本発明の一実施形態に係る情報処理装置は、機械学習技術を用いて抗原と抗体との相互作用を予測することができる。
【0012】
ところで、抗原決定部位はヒトでは重鎖抗体に3ヶ所、軽鎖抗体に3ヶ所あり、両者が合わさって1つの標的蛋白質に結合する1単位の抗体となる。一般的な動物では重鎖抗体と軽鎖抗体は別々の染色体の遺伝子にコードされており、これらの組み合わせを同定するには、リンパ球を1個ずつ分離して遺伝子配列を解読する必要があるため、非常にコストがかかる。一方、アルパカなど一部の動物は重鎖のみで機能する抗体を有することが知られており、このような機能的抗原結合断片はVHH抗体として知られる。一実施形態において、抗体はVHH抗体であるが、抗体がこれに限定されるわけではない。例えば、アルパカ由来のVHH抗体の代わりに、魚類のサメが持つような重鎖抗体VNARを用いて同様の手法を実施することができる。
【0013】
従来の抗体遺伝子とは異なり、リンパ球を個々に分離することなく総リンパ球から抽出した遺伝子を次世代シークエンサーで解読することにより、網羅的にこのような機能的抗原結合断片の配列を取得できる。このような手法については特許文献1に記載されている。すなわち、アルパカのような生きた動物を、抗原を投与することにより免疫し、その後リンパ球を抽出する。そして、総リンパ球に由来する重鎖抗体の遺伝子配列のまとまりをカセットとしてファージミドベクターに導入することにより、網羅的なファージディスプレイのVHHライブラリを得ることができる。こうして得られたマザーライブラリーに対し、標的となる蛋白質でファージを濃縮することでパニングライブラリーが得られる。そして、さらに次世代シークエンサー解析を組み合わせることにより、マザーライブラリーのうち標的となる蛋白質に結合するVHH抗体の配列を網羅的に得ることができる。また、この際には、よりリードカウントが多い配列がより結合力の強いクローンであると推測することができる。
【0014】
本願発明者らはこの手法をさらに発展させ、マザーライブラリー及びパニングライブラリーの中にある個々のVHHクローンの存在比をカイ二乗検定を用いて統計的に評価した。これらにより、次世代シークエンサーを用いてシーケンシングされた全クローンの濃縮度を確率値としてデータベース化することができる。さらに、各クローンを配列の類似度によりクラスタリングすると、特定の配列クラスタが特定の標的蛋白での濃縮度と強力な相関関係を示すことが見出された。このことは、標的蛋白に結合する抗体の抗原決定部位の配列において、相互のアミノ酸1次配列パターンに強い相関性を見出しうるのと同時に、ある程度の変化が許容されていることを示している。しかも、標的のエピトープによって、許容される変化の度合いが異なることも示唆された。さらには、人為的に標的蛋白のうち興味のある部分にアミノ酸変異を導入したものを用いてパニングすることで、相互作用が失われるクラスタ群が存在することを見出した。そして、標的蛋白に結合するクラスタ群から、アミノ酸変異が導入された標的蛋白に結合するクラスタ群を、特許文献1に記載の方法によりサブトラクトすることにより、標的蛋白のうち興味のある部分に結合するクラスタ群を得ることができた。このような手法により、標的抗原の興味のある部分をエピトープとするVHHクローンを網羅的に同定することが可能となった。
【0015】
抗体医薬は現代の創薬の主流を占めるようになってきており、薬として有用な抗体は標的蛋白の特定のエピトープを認識するものが多い。したがって、上記の方法は膨大なVHHクローンのデータベースの中から目的のクローンを網羅的に同定することと同義であり、従来の創薬の開発効率を飛躍的に上昇させるものである。そのうえ、興味のあるエピトープのアミノ酸配列に対応するVHH配列のクラスター内において、どのような抗原決定部位のアミノ酸の順列が最適なのかを示すデータを得ていることとなる。
【0016】
これらの知見から、本願発明者らは、以上の手法により得られたVHH配列群が、抗原と抗体との相互作用を予測する学習モデルの機械学習のために有効に使用できると考えた。すなわち、標的抗原のアミノ酸配列と、VHHクローンのアミノ酸配列の組み合わせを入力データとして用い、これらが結合することを示す情報のみならず、これらが結合しないことを示す情報も利用することで、非常に信頼性の高いラベル付けが行える。そして、検討の結果、このようなデータがディープラーニングの教師データとして極めて有用であることを見出した。
【0017】
従来当業者が得ていた蛋白質同士の相互作用を示すデータは、配列が大きく異なる様々な蛋白質について相互作用の有無を調べたものにすぎない。しかし、本願発明者らが得たVHH抗体のデータベースは、アミノ酸配列の微妙な変化を含んでおり、極めて信頼性の高いラベルを持つ。このため、データを増やすほど解像度の高いアミノ酸配列の特徴量を学習できる。このような、標的抗原又はその変異体の配列とVHH抗体配列の組み合わせの膨大なデータベースを教師データとしてることで、最終的には蛋白質同士の相互作用の法則ないし根本原理を一般的に学習できる可能性がある。
【0018】
以下、本発明の一実施形態に係る情報処理装置100について、
図1を参照して具体的に説明する。情報処理装置100は、取得部110及び予測部120を備える。情報処理装置は、
図1に示すようにさらに推定部130を備えていてもよい。
【0019】
取得部110は、抗体のアミノ酸配列を示す情報、及び抗原のアミノ酸配列を示す情報を取得する。アミノ酸配列のデータ形式は特に限定されないが、以下の実施形態では、20種類のアミノ酸の中から該当するアミノ酸の種類を示す20次元のOne-hotベクトルの配列で表現される。このようなベクトル配列は、アミノ酸配列及びその3次元構造によって規定される蛋白質の生物学的な機能を表現するために適している。
【0020】
予測部120は、抗体のアミノ酸配列を示す情報と抗原のアミノ酸配列を示す情報とを学習モデルに入力することにより得られた学習モデルからの出力に基づいて、抗体と抗原との相互作用を予測する。この学習モデルはニューラルネットワークのような深層学習モデルであってもよい。
【0021】
一実施形態で用いられる深層学習モデル(以下、単にモデルと記載する)のアーキテクチャを
図2に示す。
図2に示されるように、一実施形態で用いられるモデルは、抗体のアミノ酸配列を示す情報が入力される第1の処理層と、抗原のアミノ鎖配列を示す情報が入力される第2の処理層と、を有する。また、このモデルは、第1の処理層及び第2の処理層からの出力が入力され、抗体と抗原との相互作用を示す情報を出力する第3の処理層をさらに含む。それぞれの処理層は、入力された情報に対して、学習済みの重み付け係数に基づく演算を行うことができる。
【0022】
第1の処理層及び第2の処理層は、それぞれのアミノ酸配列のデータに対して、まず1次元の畳み込み層及びMax pooling層の処理を複数回適用する。第1の処理層及び第2の処理層は、次に、Vaswaniら(A. Vaswani et al. "Attention Is All You Need", arXiv:1706.03762)により提案されたTransformerのエンコーダ層を複数回適用する。そして、第1の処理層及び第2の処理層のTransformerのエンコーダ層の出力は、それぞれ1次元ベクトルに変換し、結合される。結合されたデータは第3の処理層に入力される
。第3の処理層において、データは多層の全結合層により処理され、最後にシグモイド関数を用いて0から1の値が出力される。予測部120は、出力値が0.5より大きければ抗体と抗原との間に相互作用があると判定し、0.5以下であれば相互作用がないと判定する。
【0023】
このようなモデルの学習は、抗体と抗原との相互作用を示す教師データを用いて行うことができる。教師データを用いた学習により、抗体のアミノ酸配列を示す情報と抗原のアミノ酸配列を示す情報とが入力されると抗体と抗原との相互作用を示す情報を出力するように、モデルを学習することにより、学習済みモデルを得ることができる。学習方法としては、例えば誤差逆伝播法を用いることができ、具体的にはモデルが出力した抗体と抗原との相互作用を示す情報と教師データが示す抗体と抗原との相互作用を示す情報との誤差を逆伝播することができる。
【0024】
図2に示すモデルは、相互作用の予測、及びさらにはエピトープ又はパラトープの同定のための特徴量を抽出するために適しており、極めて精度の高い学習を行えることが見出された。具体的には、
図2に示すモデルを用いて、抗原としてヒトIL-6タンパク質を用いて、VHH抗体との相互作用の有無を予測した。この例において、1次元の畳み込み層及びMax pooling層の処理は2回行い(N=2)、Transformerのエンコーダ層は4回適用した(M=4)。モデルの学習には、311044セットの、VHH抗体のアミノ酸配列と各VHH抗体とIL-6との相互作用を示すデータとを含む教師データを用いた。そして、別の38881セットの、VHH抗体のアミノ酸配列と各VHH抗体とIL-6との相互作用を示すデータとを含む検証データを用いて、学習後のモデルの精度を検証した。その結果、得られたモデルの正解率は99.6%であった。また、相互作用がある抗原と抗体とのペアのうち、相互作用があるとモデルが正しく予測できた割合である再現率は97.9%であつた。さらに、相互作用があるとモデルが予測した抗原と抗体とのペアのうち、実際に相互作用がある割合を示す適合率は97.9%であった。このように、得られたモデルは高い精度で抗原と抗体との相互作用の有無を予測可能であることが示された。
【0025】
推定部130は、さらに、学習モデルからの予測値に対する、抗原のアミノ酸配列内のそれぞれのアミノ酸の貢献度を算出することにより、相互作用に寄与している部分を推定することができる。貢献度は、例えば、抗原のアミノ酸配列を変異させた際における、予測部120によって予測された相互作用の変動の大きさに基づいて算出することができる。本願発明者らは、貢献度を算出するための、アミノ酸配列の仮想的な変異をベースとした独自の手法を設計及び実装した。本手法では、抗原のアミノ酸配列内の1つずつのアミノ酸に着目し、それぞれのアミノ酸について独立に貢献度の算出を行う。具体的には、i番目のアミノ酸の貢献度は、学習モデルからの予測値から、i番目のアミノ酸が異なるアミノ酸に置換された場合の学習モデルからの予測値を差し引くことにより、求めることができる。例えば、i番目のアミノ酸がAである場合、このアミノ酸の貢献度は、i番目のアミノ酸がAのときの学習モデルからの予測値から、i番目のアミノ酸をA以外の19種類のアミノ酸のそれぞれに置換した際の学習モデルからの予測値の平均値を差し引いて得られた値と定義することができる。
図5は、この手法によって算出された貢献度を用いて描かれたヒートマップである。この結果は、57番目周辺のアミノ酸が相互作用に寄与していることを示しており、この結果は次世代シークエンサーを用いた実験から妥当な結果であることが確認されている。
【0026】
一実施形態に係る、学習モデルを用いて抗原と抗体との相互作用を予測するための情報処理方法について、
図3を参照して説明する。S310において、取得部110は、上記のように抗体のアミノ酸配列を示す情報及び抗原のアミノ酸配列を示す情報を取得する。S320において、予測部120は、抗体のアミノ酸配列を示す情報と抗原のアミノ酸配列を示す情報とを学習モデルに入力することにより得られた学習モデルからの出力に基づいて、抗体と抗原との相互作用を予測する。
【0027】
図1に示される情報処理装置100が備える各処理部は、コンピュータにより実現することができる。もっとも、情報処理装置100が備える一部又は全部の処理部は、専用のハードウェアによって実現されてもよい。
【0028】
図4は、一実施形態において用いられるコンピュータの基本構成を示す。
図4においてプロセッサ410は、例えばCPUであり、コンピュータ全体の動作をコントロールする。メモリ420は、例えばRAMであり、プログラム及びデータ等を一時的に記憶する。コンピュータが読み取り可能な記憶媒体430は、例えばハードディスク又はCD-ROM等であり、プログラム及びデータ等を長期的に記憶する。本実施形態においては、記憶媒体430が格納している、各部の機能を実現するプログラムが、メモリ420へと読み出される。そして、プロセッサ410が、メモリ420上のプログラムに従って動作することにより、各部の機能が実現される。
図4に示すように、コンピュータは、外部の装置から情報を取得する入力インタフェース440と、外部の装置へと情報を出力する出力インタフェース450と、を有することができる。バス460は、上述の各部を接続し、データのやりとりを可能とする。
【0029】
発明は上記の実施形態に制限されるものではなく、発明の要旨の範囲内で、種々の変形・変更が可能である。