IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社digzymeの特許一覧

特開2024-131548処理装置、処理プログラム、処理方法及びスクリーニング方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024131548
(43)【公開日】2024-09-30
(54)【発明の名称】処理装置、処理プログラム、処理方法及びスクリーニング方法
(51)【国際特許分類】
   C12M 1/00 20060101AFI20240920BHJP
   G16C 20/50 20190101ALI20240920BHJP
   G16C 20/70 20190101ALI20240920BHJP
   C12Q 1/25 20060101ALI20240920BHJP
   G16B 30/00 20190101ALI20240920BHJP
   G16B 40/00 20190101ALI20240920BHJP
   C12N 9/00 20060101ALN20240920BHJP
【FI】
C12M1/00 A
G16C20/50 ZNA
G16C20/70
C12Q1/25
G16B30/00
G16B40/00
C12N9/00
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023041882
(22)【出願日】2023-03-16
(71)【出願人】
【識別番号】522127324
【氏名又は名称】株式会社digzyme
(74)【代理人】
【識別番号】100114188
【弁理士】
【氏名又は名称】小野 誠
(74)【代理人】
【識別番号】100151448
【弁理士】
【氏名又は名称】青木 孝博
(74)【代理人】
【識別番号】100160255
【弁理士】
【氏名又は名称】市川 祐輔
(74)【代理人】
【識別番号】100219265
【弁理士】
【氏名又は名称】鈴木 崇大
(74)【代理人】
【識別番号】100216839
【弁理士】
【氏名又は名称】大石 敏幸
(72)【発明者】
【氏名】渡来 直生
(72)【発明者】
【氏名】礒崎 達大
(72)【発明者】
【氏名】中村 祐哉
(72)【発明者】
【氏名】田村 康一
【テーマコード(参考)】
4B029
4B063
【Fターム(参考)】
4B029AA27
4B029BB16
4B029FA15
4B063QA11
4B063QA18
4B063QQ21
4B063QS39
(57)【要約】
【課題】 より有益な処理装置、処理プログラム、処理方法、及びこれらを用いた高分子化合物の変異体のスクリーニング方法を提供する。
【解決手段】 複数のアミノ酸が鎖状に配列され化学反応を触媒することが可能な高分子化合物の配列である配列情報を取得し、前記高分子化合物の配列情報に基づいて、少なくとも一つの部位において変異を有する前記高分子化合物の変異体の構造情報を生成し、前記変異体の前記構造情報が前記変異体の特性を予測するための学習済み予測モデルに入力されることによって、前記変異体の特性の予測情報を出力する。
【選択図】 図6A


【特許請求の範囲】
【請求項1】
少なくとも一つのプロセッサを具備する処理装置であって、
前記少なくとも一つのプロセッサは、
複数のアミノ酸が鎖状に配列され化学反応を触媒することが可能な高分子化合物の配列である配列情報を取得し、
前記高分子化合物の配列情報に基づいて、少なくとも一つの部位において変異を有する前記高分子化合物の変異体の構造情報を生成し、
前記変異体の前記構造情報が前記変異体の特性を予測するための学習済み予測モデルに入力されることによって、前記変異体の特性の予測情報を出力する、
ための処理を実行するように構成された、処理装置。
【請求項2】
前記高分子化合物は酵素である、請求項1に記載の処理装置。
【請求項3】
前記予測情報は、前記高分子化合物のKcat/Km、Kcat、Km、Tm値、代謝回転数、阻害定数、IC50、比活性、至適pH、pH範囲、至適温度、温度範囲、等電点、pH安定性、温度安定性、有機溶剤安定性、酸化安定性、保存安定性、基質特異性、これらのうちの少なくともいずれかに基づいて算出された算出情報、及びこれらの組み合わせのうちのいずれか一つを含む、請求項1に記載の処理装置。
【請求項4】
前記学習済み予測モデルは、高分子化合物の構造情報があらかじめ特定された学習用構造情報と、あらかじめ取得された前記学習用構造情報を有する前記高分子化合物の特性とを用いて機械学習することによって得られる、請求項1に記載の処理装置。
【請求項5】
前記配列情報は前記高分子化合物のアミノ酸配列である、請求項1に記載の処理装置。
【請求項6】
前記変異体は前記アミノ酸配列が単変異したものである、請求項5に記載の処理装置。
【請求項7】
少なくとも一つのプロセッサを具備するコンピュータにおいて前記少なくとも一つのプロセッサを、
複数のアミノ酸が鎖状に配列され化学反応を触媒することが可能な高分子化合物の配列である配列情報を取得し、
前記高分子化合物の配列情報に基づいて、少なくとも一つの部位において変異を有する前記高分子化合物の変異体の構造情報を生成し、
前記変異体の前記構造情報が前記変異体の特性を予測するための学習済み予測モデルに入力されることによって、前記変異体の特性の予測情報を出力する、
ように機能させる処理プログラム。
【請求項8】
少なくとも一つのプロセッサを具備するコンピュータにおいて前記少なくとも一つのプロセッサにより実行される処理方法であって、
複数のアミノ酸が鎖状に配列され化学反応を触媒することが可能な高分子化合物の配列である配列情報を取得する段階と、
前記高分子化合物の配列情報に基づいて、少なくとも一つの部位において変異を有する前記高分子化合物の変異体の構造情報を生成する段階と、
前記変異体の前記構造情報が前記変異体の特性を予測するための学習済み予測モデルに入力されることによって、前記変異体の特性の予測情報を出力する段階と、
を含む処理方法。
【請求項9】
複数のアミノ酸が鎖状に配列され化学反応を触媒することが可能な高分子化合物の配列である配列情報を取得する工程と、
前記高分子化合物の前記配列情報に基づいて、少なくとも一つの部位においてそれぞれ異なる変異を有する前記高分子化合物の複数の変異体の各構造情報を生成する工程と、
前記複数の変異体の各構造情報のそれぞれが、前記変異体の特定を予測するための学習済み予測モデルに入力されることによって、前記複数の変異体の各特性の予測情報を取得する工程と、
前記複数の変異体の各特性に基づいて、前記複数の変異体から少なくとも一つの所望の変異体をスクリーニングする工程と、
を含む、高分子化合物の変異体のスクリーニング方法。

【発明の詳細な説明】
【技術分野】
【0001】
本開示は、生体内において行われる化学反応を触媒することが可能な高分子化合物に関する情報を処理するための処理装置、処理プログラム、処理方法、及びこれらを用いた高分子化合物の変異体のスクリーニング方法に関する。
【0002】
従来より、高分子化合物の一つである酵素は、主に生体内において行われる化学反応を触媒する物質として知られている。このような酵素は、生体内の化学反応の把握するための実験用途のみならず、食品、飲料品、添加物、医薬品、化粧品、日用品、工業材料の製造などの工業用途等、様々な用途で利用されている。他方で、酵素は特定の基質に対して特異的に結合するとともに、温度やpHなどの影響を受けその触媒能力つまりは活性が変化する。そのため、配列が特定された酵素に対して置換、挿入、欠失、重複又はこれらの組み合わせ等の様々な変異を起こし、触媒能力に優れた酵素や、用途や反応環境により適した酵素をスクリーニングすることは極めて重要である。
【0003】
例えば、特許文献1には、「高分子基質に結合するトンネル状又は溝状の基質結合部位を有する酵素につき、基質相互作用を有する可能性のある部位のアミノ酸をアラニン置換した2種類以上の一次変異体を調製する工程と、前記一次変異体につき、変異による酵素活性の上昇の有無をスクリーニングして、変異前より酵素活性が上昇した前記一次変異体のアラニン置換部位を変異導入候補部位として選択する工程と、を備える、スクリーニング方法」が記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2010-46034号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
そこで、上記のような技術を踏まえ、本開示では、様々な実施形態により、より有益な処理装置、処理プログラム、処理方法、及びこれらを用いた高分子化合物の変異体のスクリーニング方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示の一態様によれば、「少なくとも一つのプロセッサを具備する処理装置であって、前記少なくとも一つのプロセッサは、複数のアミノ酸が鎖状に配列され化学反応を触媒することが可能な高分子化合物の配列である配列情報を取得し、前記高分子化合物の配列情報に基づいて、少なくとも一つの部位において変異を有する前記高分子化合物の構造情報を生成し、前記変異体の前記構造情報が前記変異体の特性を予測するための学習済み予測モデルに入力されることによって、前記変異体の特性の予測情報を出力する、ための処理を実行するように構成された、処理装置」が提供される。
【0007】
本開示の一態様によれば、「少なくとも一つのプロセッサを具備するコンピュータにおいて前記少なくとも一つのプロセッサを、複数のアミノ酸が鎖状に配列され化学反応を触媒することが可能な高分子化合物の配列である配列情報を取得し、前記高分子化合物の配列情報に基づいて、少なくとも一つの部位において変異を有する前記高分子化合物の変異体の構造情報を生成し、前記変異体の前記構造情報が前記変異体の特性を予測するための学習済み予測モデルに入力されることによって、前記変異体の特性の予測情報を出力する、ように機能させる処理プログラム」が提供される。
【0008】
本開示の一態様によれば、「少なくとも一つのプロセッサを具備するコンピュータにおいて前記少なくとも一つのプロセッサにより実行される処理方法であって、複数のアミノ酸が鎖状に配列され化学反応を触媒することが可能な高分子化合物の配列である配列情報を取得する段階と、前記高分子化合物の配列情報に基づいて、少なくとも一つの部位において変異を有する前記高分子化合物の変異体の構造情報を生成する段階と、前記変異体の前記構造情報が前記変異体の特性を予測するための学習済み予測モデルに入力されることによって、前記変異体の特性の予測情報を出力する段階と、を含む処理方法」が提供される。
【0009】
本開示の一態様によれば、「複数のアミノ酸が鎖状に配列され化学反応を触媒することが可能な高分子化合物の配列である配列情報を取得する工程と、前記高分子化合物の前記配列情報に基づいて、少なくとも一つの部位においてそれぞれ異なる変異を有する前記高分子化合物の複数の変異体の各構造列情報を生成する工程と、前記複数の変異体の各構造情報のそれぞれが、前記変異体の特定を予測するための学習済み予測モデルに入力されることによって、前記複数の変異体の各特性の予測情報を取得する工程と、前記複数の変異体の各特性に基づいて、前記複数の変異体から少なくとも一つの所望の変異体をスクリーニングする工程と、を含む、高分子化合物の変異体のスクリーニング方法」が提供される。
【発明の効果】
【0010】
本開示によれば、より有益な処理装置、処理プログラム、処理方法、及びこれらを用いた高分子化合物の変異体のスクリーニング方法を提供することができる。
【0011】
なお、上記効果は説明の便宜のための例示的なものであるにすぎず、限定的なものではない。上記効果に加えて、又は上記効果に代えて、本開示中に記載されたいかなる効果や当業者であれば明らかな効果を奏することも可能である。
【図面の簡単な説明】
【0012】
図1図1は、本開示の一実施形態に係る処理システム1の構成を示すブロック図である。
図2図2は、本開示の一実施形態に係る処理装置100の構成を示すブロック図である。
図3図3は、本開示の一実施形態に係る処理装置100において実行される処理フローを示す図である。
図4図4は、本開示の一実施形態に係る学習済み予測モデル生成装置200において実行される処理フローを示す図である。
図5A図5Aは、本開示の一実施形態に係る予測モデル生成装置200において学習に利用される学習用データの例を示す図である。
図5B図5Bは、本開示の一実施形態に係る予測モデル生成装置200において学習に利用される学習用データの例を示す図である。
図6A図6Aは、本開示の一実施形態に係る処理装置100において出力される予測情報の例を示す図である。
図6B図6Bは、本開示の一実施形態に係る処理装置100において出力される予測情報の例を示す図である。
図7A図7Aは、学習済み予測モデルを用いて予測された特性値と実際に測定された特性値との相関を示す図である。
図7B図7Bは、実際に学習済み予測モデルを用いて予測された予測情報の例を示す図である。
図7C図7Cは、実際に学習済み予測モデルを用いて予測された予測情報の例を示す図である。
図8A図8Aは、学習済み予測モデルを用いて予測された特性値と実際に測定された特性値との相関を示す図である。
図8B図8Bは、実際に学習済み予測モデルを用いて予測された予測情報の例を示す図である。
図8C図8Cは、実際に学習済み予測モデルを用いて予測された予測情報の例を示す図である。
【発明を実施するための形態】
【0013】
1.スクリーニング方法の概要
本開示に係るスクリーニング方法は、例えば、生体内において化学反応を触媒することが可能な高分子化合物に関して、その高分子化合物の構造情報を取得することにより開始される。このような高分子化合物はその構造に変異がもたらされると、元の高分子化合物とは異なる特性を発揮し、獲得することが可能である。したがって、次に、取得された高分子化合物の構造情報に対して、少なくとも一つの部位において変異が起きた変異後の構造情報を取得する。なお、この変異後の構造情報は、変異の部位や内容に応じて獲得できる特性が異なるため、複数取得するのが望ましい。そして、取得された変異後の構造情報を有する各高分子化合物(変異体)についてそれらが有するであろう特性を予測するために、変異後の構造情報を、それぞれ、学習済みの予測モデルに入力し、高分子化合物(変異体)ごとに特性を予測した結果である予測情報を取得する。最終的には、その予測情報に基づいて、所望の特性を有する高分子化合物(変異体)を選び出すことによってスクリーニングを行う。
【0014】
なお、本開示において、高分子化合物とは、分子量が大きい化合物であり、分子量が小さい化合物から実質的又は概念的に得られる単位の多数回の繰り返しにより構成される化合物のことを意味する。このような高分子化合物には、天然由来、人工的に合成された合成由来、及びそれらの組み合わせにより得られたもののいずれをも含む。また、このような高分子化合物には有機化合物及び無機化合物に大別されるがそのいずれをも含む。本開示では、上記の高分子化合物のうち、生体内の様々な化学反応において、その反応の基質や触媒、反応生成物として関与する高分子化合物又はそれらの変異体(天然由来及び合成由来のいずれも含む)であれば好適に利用することができる。このような高分子化合物としては、ポリペプチド、核酸及び糖質が挙げられる。
【0015】
本開示では、上記のような高分子化合物の中でも、とりわけ生体内において行われる化学反応を触媒することが可能な高分子化合物であることが望ましい。このような高分子化合物の典型としては、複数のアミノ酸が鎖状に配列された酵素が挙げられる。酵素は主にタンパク質により構成され、生体内において行われる様々な化学反応を触媒する。その際、酵素は基質に特異的に反応するとともに、その活性も酵素ごとに相違する。また、温度やpH等の条件による影響を受けてその反応速度等が変化する。
【0016】
なお、本開示においては、高分子化合物やポリペプチド、核酸、糖質、タンパク質及び酵素等の種々の表現がなされ得る場合があるが、特に天然や生体由来であることが明記されている場合を除いて、天然由来及び合成由来のいずれをも含む。また、同様に、特に明記されている場合を除いて、これらはすでに構造が既知の高分子化合物に加えて、それらの構造の少なくとも一部の部位に変異が起きた変異体も含む。このような変異は天然によりなされてもよいし、人工的に起こされてもよい。
【0017】
また、本開示においては、上記のような変異としては、変異前の高分子化合物(例えば、酵素)のうちの一つの繰り返し単位(例えば、酵素の場合であればアミノ酸)が変異した単変異のみならず、複数の単位において変異してもよい。その変異の種類としても、一又は複数の単位において、置換、挿入、欠失、重複及びこれらの組み合わせのうちのいずれであってもよい。以下においては、これらの変異のうち、酵素を構成するアミノ酸の一つが他のアミノ酸に置換された単変異を主に説明するが、当然これのみに限定されるわけではない。
【0018】
また、本開示においては、「生体内において行われる化学反応を触媒することが可能」とは、必ずしも高分子化合物が生体内の化学反応を触媒したという事実を必要とするわけではない。つまり、生体内において行われる化学反応を触媒できる可能性があればよく、実際に触媒している必要はない。したがって、実際に生成された高分子化合物又はその変異体が、生体内において利用されるのではなく、例えば食品、飲料品、添加物、医薬品、化粧品、日用品、工業材料の製造などの製造工程の一部等で利用されてもよい。
【0019】
また、本開示においては、「第1」、「第2」等の文言が用いられることがあるが、これらは必ずしも特定の順番や個数を規定するものではなく、単に両者が連結された言葉を区別するために用いているにすぎない。したがって、「第1」及び「第2」だけではなく、「第3」、「第4」等がさらに連結される場合もある。また、「第1」や「第2」が連結された言葉は、単数である必要はなく、当然複数であってもよい。例えば、「第1配列情報」及び「第2配列情報」という記載があるが、第1配列情報が複数個あってもよいし、第2配列情報が複数個あってもよい。
【0020】
また、本開示においては、特性とは、高分子化合物の物性を評価することが可能な性質であればいずれでもよい。このような特性としては、活性、耐熱性、至適pH、可溶性、粘性又は光安定性等の種々のものが挙げられる。ここで、上記のとおり、高分子化合物として酵素を利用する場合、酵素は温度やpHの条件に影響を受けて、その活性が変化する。したがって、上記の特性のうち、予測される特性としては、活性、耐熱性、至適pH又はこれらの組み合わせが好ましい。
【0021】
2.本開示に係る処理システム1の構成
図1は、本開示の一実施形態に係る処理システム1の構成を示すブロック図である。図1によれば、処理システム1は、元となる高分子化合物の構造情報を取得してその変異体の構造情報を生成するとともに、生成された変異体の構造情報に基づいて変異体の特性を予測するための処理を実行する処理装置100と、上記予測をするために用いられる学習済み予測モデルを生成するための学習済み予測モデル生成装置200と、学習済み予測モデル生成装置200において学習に用いられる学習用データ(教師データ)が格納されたデータベース300とを含む。処理システム1において、各装置が互いに有線、無線又はそれらの組み合わせによって構成された通信ネットワークを介して、互いに通信可能に連結されている。
【0022】
図2は、本開示の一実施形態に係る処理装置100の構成を示すブロック図である。図2によると、処理装置100は、プロセッサ111、メモリ112、入力インターフェイス113、出力インターフェイス114及び通信インターフェイス115を含む。これらの各構成要素は、互いに、制御ライン及びデータラインを介して互いに電気的に接続される。なお、処理装置100は、図2に示す構成要素のすべてを備える必要はなく、一部を省略して構成することも可能であるし、他の構成要素を加えることも可能である。例えば、処理装置100は、各構成要素を駆動するためのバッテリ等を含むことが可能である。
【0023】
このような処理装置100としては、ラップトップパソコン、デスクトップパソコン、スマートフォン、タブレット端末など、本開示に係る処理を実行可能な装置であればいずれでも好適に適用することが可能である。また、処理装置100は、少なくとも一部の処理をクラウド上のサーバ装置で行うことも可能である。したがって、処理装置100には、当該サーバ装置、又は操作者が操作するラップトップパソコン等の装置と当該サーバ装置との組み合わせも含む。
【0024】
処理装置100において、プロセッサ111は、メモリ112に記憶されたプログラムに基づいて処理装置100又は処理システム1の他の構成要素の制御を行う制御部として機能する。具体的には、プロセッサ111は、「複数のアミノ酸が鎖状に配列され生体内において行われる化学反応を触媒することが可能な高分子化合物の配列である配列情報を取得する処理」、「高分子化合物の配列情報に基づいて、少なくとも一つの部位において変異を有する高分子化合物の変異体の構造情報を生成する処理」、及び「変異体の前記構造情報が前記変異体の特性を予測するための学習済み予測モデルに入力されることによって、変異体の特性の予測情報を出力する処理」等を、メモリ112に記憶されたプログラムに基づいて実行する。プロセッサ111は、主に一又は複数のCPUにより構成されるが、適宜GPUやFPGAなどを組み合わせてもよい。
【0025】
メモリ112は、RAM、ROM、不揮発性メモリ、HDD等から構成され、記憶部として機能する。メモリ112は、本実施形態に係る処理システム1の様々な制御のための指示命令をプログラムとして記憶する。具体的には、メモリ112は、「複数のアミノ酸が鎖状に配列され生体内において行われる化学反応を触媒することが可能な高分子化合物の配列である配列情報を取得する処理」、「高分子化合物の配列情報に基づいて、少なくとも一つの部位において変異を有する高分子化合物の変異体の構造情報を生成する処理」、及び「変異体の前記構造情報が前記変異体の特性を予測するための学習済み予測モデルに入力されることによって、変異体の特性の予測情報を出力する処理」等、プロセッサ111が実行するためのプログラムを記憶する。また、メモリ112は、当該プログラムのほかに、上記処理に利用される各種情報(例えば、配列情報、構造情報及び予測情報等)を記憶する。
【0026】
入力インターフェイス113は、処理装置100に対する操作者の指示入力を受け付ける入力部として機能する。入力インターフェイス113の一例としては、キーボード、マウス等の各種ハードキーや、ディスプレイ装置のディスプレイに重畳して設けられ、ディスプレイの表示座標系に対応する入力座標系を有するタッチパネルが挙げられる。タッチパネルの場合、ディスプレイに入力したいコマンドに対応したアイコンが表示され、当該タッチパネルを介して操作者が指示入力を行うことで、各アイコンに対する選択が行われる。タッチパネルによる対象者の指示入力の検出方式は、静電容量式、抵抗膜式などいかなる方式であってもよい。入力インターフェイス113は、常に処理装置100に物理的に備えられる必要はなく、有線や無線ネットワークを介して必要に応じて接続されてもよい。
【0027】
出力インターフェイス114は、処理装置100によって得られた予測情報等の情報を出力するための出力部として機能する。出力インターフェイス114の一例としては、液晶パネル、有機ELディスプレイ又はプラズマディスプレイ等から構成されるディスプレイ装置等の外部装置又は外部機器と接続するためのインターフェイスが挙げられる。しかし、処理装置100そのものがディスプレイを有する場合には、当該ディスプレイが出力インターフェイスとして機能することが可能である。また、ディスプレイ装置などに対して通信インターフェイス115を介して接続されている場合には、当該通信インターフェイス115が出力インターフェイス114として機能することも可能である。
【0028】
通信インターフェイス115は、有線、無線又はそれらの組み合わせによって構成された通信ネットワークを介して他の装置(例えば、学習済み予測モデル生成装置200、データベース300、他の処理装置又はサーバ装置等)との間で、生成された学習済み予測モデルや予測情報等を送受信するための通信部として機能する。通信インターフェイス115の一例としては、USB、SCSIなどの有線通信用コネクタや、無線LAN、Bluetooth(登録商標)、赤外線などの無線通信用送受信デバイスや、プリント実装基板やフレキシブル実装基板用の各種接続端子など、様々なものが挙げられる。
【0029】
なお、学習済み予測モデルを生成するための学習済み予測モデル生成装置200の構成については特に具体的には説明しないが、処理装置100と同様に、プロセッサ、メモリ、入力インターフェイス、出力インターフェイス及び通信インターフェイス等を含む。このような装置としては、ラップトップパソコン、デスクトップパソコン、スマートフォン、タブレット端末、サーバ装置又はこれらの組み合わせが用いられる。また、同様に、データベース300の構成についても特に具体的には説明しないが、当該データベース300には、既知の高分子化合物の構造情報とその特性が対応付けられて記憶されている。
【0030】
3.本開示に係るスクリーニング工程
本開示において、高分子化合物の変異体のスクリーンに係る工程は、
(1)第1工程:元となる高分子化合物の構造情報(例えば、元となる酵素の第1配列情報)を取得する工程、
(2)第2工程:元となる高分子化合物の構造情報に基づいて、少なくとも一つの部位においてそれぞれ異なる変異を有する複数の変異体の構造情報(例えば、元となる酵素の変異体の第2配列情報(1次配列の情報)、3次元構造情報、特徴量情報など)を生成する工程、
(3)第3工程:生成された複数の変異体の構造情報のそれぞれを学習済み予測モデルに入力して各変異体の特性の予測情報を取得する工程、
(4)第4工程:取得された予測情報に基づいて所望の変異体をスクリーニングする工程
の4つの工程を少なくとも含む。なお、以下においては、高分子化合物が酵素の場合について説明するが、特にこれのみに限定されるわけではない。
【0031】
<第1工程>
まず、第1工程について説明する。第1工程は、上記のとおり、元となる高分子化合物の構造情報を取得する工程である。具体的には、元となる酵素の配列情報(第1配列情報)を取得する。これは、ユーザが、その配列が特定された酵素の配列情報をデータベース300や他の装置から処理装置100に入力することにより行われる。なお、ここでは、配列情報さえあればよく、元となる高分子化合物は、すでに活性等の特性が既知の酵素である必要はない。すなわち、その配列がシミュレーションによって生成されたものであってもよい。また、配列情報の取得の方法も、
・処理装置100が入力インターフェイス113を介してユーザの指示入力を受け付け、通信インターフェイス115を介してデータベース300や他の装置から配列情報が記憶されたファイルを受信する方法
・処理装置100が入力インターフェイス113を介してユーザによる具体的な配列情報の入力を受け付ける方法
・処理装置100が当該処理装置100に接続されたUSBメモリ等の記憶デバイスから配列情報が記憶されたファイルを受信する方法
など、種々の方法のいずれであってもよい。
【0032】
<第2工程>
次に、第2工程について説明する。第2工程は、上記のとおり、元となる高分子化合物の構造情報に基づいて、少なくとも一つの部位においてそれぞれ異なる変異を有する複数の変異体の構造情報を生成する工程である。ここで、このような構造情報としては、各変異体の一次配列である第2配列情報、各変異体の3次元構造を示す3次元構造情報、各変異体において変異をさせた場合に特性に対する影響量を示す特徴量情報、及びこれらの組み合わせの少なくともいずれかが利用される。これらの中でも、構造情報としては、特に各変異体において変異をさせた場合に特性に対する影響量を示す特徴量情報が好ましい。さらに、構造情報としては、このような特徴量の中でも、多重配列(MSA:Multiple Sequence Alignment)情報由来の特徴量、各変異体の物理特性値、各アミノ酸同士の特性差を定量化した値、及びこれらの組み合わせの少なくともいずれかがより好ましい。そして、当該工程においては、具体的には、元となる酵素の第1配列情報に基づいて、アミノ酸配列の少なくとも一部が変異した変異体の構造情報を変異体ごとに生成する。
【0033】
<第3工程>
次に、第3工程について説明する。第3工程は、上記のとおり、生成された複数の変異体の構造情報(例えば、特徴量情報)を、学習済み予測モデルにそれぞれ入力して、各変異体の特性の予測情報を取得する工程である。具体的には、生成された変異体の各構造情報を、処理装置100のメモリ112から読み出して、学習済み予測モデルに読み出した各特徴量情報を入力する。これによって、処理装置100は、学習済み予測モデルから変異体ごとに特性を示す予測情報を出力として取得する。取得した予測情報は、処理装置100のメモリ112に記憶される。
【0034】
<第4工程>
次に、第4工程について説明する。第4工程は、上記のとおり、取得された予測情報に基づいて所望の変異体をスクリーニングする工程である。具体的には、取得された予測情報を読み出して処理装置100から出力し、所望の特定を有する一又は複数の変異体を選択することにより行われる。なお、このような選択に係る処理は、例えばユーザが所望の特性をあらかじめ選択することによって処理装置100が予測情報に基づいてスクリーニングしてもよいし、処理装置100から出力インターフェイス114を介して予測情報を出力し、出力された予測情報をユーザが参照してスクリーニングしてもよい。
【0035】
以降は、スクリーニングされた変異体の構造情報に基づいて、実際にその変異体の合成を行う工程や、合成された変異体の特性を評価する工程、変異体の構造と特定をデータベース300等に記憶し学習済み予測モデルの学習に利用する工程などが行われる。
【0036】
このように、当該スクリーニング方法によれば、各変異体の配列をシミュレーションにより生成し、且つその変異体の特性を学習済み予測モデルによって予測する。実際に各変異体を合成しその特性を確認する必要がなく、所望の特性を有する変異体を効率よくスクリーニングすることが可能である。
【0037】
4.スクリーニング工程において処理装置100が行う処理
上記のスクリーニング工程において、処理装置100を含む処理システム1は、ユーザによる指示入力等や処理装置100のメモリ112に記憶されたプログラムに基づいて種々の処理を実行する。図3は、本開示の一実施形態に係る処理装置100において実行される処理フローを示す図である。具体的には、図3は、第1工程において構造が取得され、第4工程において変異体の予測結果が出力されるまでに処理装置100のプロセッサ111によって実行される処理フローを示す図である。当該処理フローは、主に処理装置100のプロセッサ111がメモリ112に記憶されたプログラムを読み出して実行することにより行われる。
【0038】
プロセッサ111は、元となる高分子化合物である酵素の構造情報(例えば、第1配列情報)を取得する(S111)。この取得は、
・プロセッサ111が入力インターフェイス113を介してユーザの指示入力を受け付け、通信インターフェイス115を介してデータベース300や他の装置か第1配列情報が記憶されたファイルを受信する、
・プロセッサ111が入力インターフェイス113を介してユーザによる具体的な第1配列情報の入力を受け付ける
・プロセッサ111が処理装置100に接続されたUSBメモリ等の記憶デバイスから第1配列情報が記憶されたファイルを読み出す
などの処理を実行することによって行われる。プロセッサ111は、取得した第1配列情報をメモリ112に記憶する。
【0039】
次に、プロセッサ111は、メモリ112から取得した第1配列情報を読み出して、第1配列情報の配列の少なくとも一部について変異が起きた変異体の構造情報(例えば、特徴量情報)を生成する(S112)。具体的には、プロセッサ111は、第1配列情報のうち、N末端からC末端に至る配列を構成する各アミノ酸のそれぞれについて、他のアミノ酸(理論上は、ヒトの場合は19種類)に置換した各配列に対して、それぞれ上記で例示した特徴量情報(多重配列情報由来の特徴量、各変異体の物理特性値、及び各アミノ酸同士の特性差を定量化した値)を算出する。したがって、「第1配列情報により示される配列の配列数」×「置換可能なアミノ酸の数」(ヒトの場合は19種類)の数だけ変異体が存在し、それぞれについて特徴量情報が生成されうる。そして、プロセッサ111は、各変異体の特徴量情報を生成すると、生成された特徴量情報をメモリ112に記憶する。なお、生成され変異体の数は、あくまで理論上の数値であり、上記に示した数の変異体が生成される必要はない。
【0040】
次に、プロセッサ111は、メモリ112から生成された特徴量情報をそれぞれ読み出して、各特徴量情報を学習済み予測モデルに入力し(S113)、出力として各変異体の特性を取得する(S114)。プロセッサ111は、各変異体の特性を取得すると、変異体ごとに対応付けてその特性をメモリ112に記憶する。学習済み予測モデルの生成の詳細については、後述する。
【0041】
次に、プロセッサ111は、メモリ112から取得された変異体の特性の予測の結果である予測情報を、出力インターフェイス114を介して出力する(S115)。具体的には、プロセッサ111は、処理装置100に接続されたディスプレイ装置や他の装置に対して予測情報を出力して、ユーザ等に対して視認可能に出力する。なお、ここで出力される予測情報の一例については、後述する。
【0042】
以上より、プロセッサ111は、図3に係る処理フローを終了する。なお、図3に示す処理フローは、第1工程から第4工程に係るスクリーニング方法を実行する一例にすぎず、当該スクリーニング方法が図3に係る処理フローのみによって行われることに限定するものではない。
【0043】
5.学習済み予測モデルの生成に係る処理
図4は、本開示の一実施形態に係る学習済み予測モデル生成装置200において実行される処理フローを示す図である。具体的には、図4は、図3のS113及びS114の特性の予測に係る処理において用いられる学習済み予測モデルの生成に係る処理フローを示す図である。当該処理フローは、主に学習済み予測モデル生成装置200のプロセッサがメモリに記憶されたプログラムを読み出して実行することにより行われる。
【0044】
図4によると、プロセッサは、通信インターフェイスを介して、既知の配列情報とそれを有する高分子化合物の特性が記憶されたデータベース300にアクセスして、各配列の学習用構造情報を学習用データとして取得する(S211)。次に、プロセッサは、通信インターフェイスを介して、取得した学習用構造情報に対応付けてデータベース300に記憶されている特性情報を同様に取得する(S212)。
【0045】
ここで、このような既知の配列情報とそれを有する高分子化合物の特性が記憶されたデータベース300の一例としては、ユーザやユーザが所属する組織において一つ一つ高分子化合物及びその特性が記憶されたデータベースを作成してもよいし、既存のデータベースを利用してもよいし、これの組み合わせを利用してもよい。このような既存のデータベースとしては、ドイツのブラウンシュヴァイク工科大学の研究所によって管理・運営されているBRENDAデータベースや、Loschmidt Laboratoriesによって管理・運営がされているFireProtデータベースやSolProtMutデータベース等を利用することができる。
【0046】
ここで、図5Aは、本開示の一実施形態に係る予測モデル生成装置200において学習に利用される学習用データの例を示す図である。具体的には、図5Aには、学習用構造情報と特性情報が少なくとも含まれる学習用データ(教師データ)の例が示されている。図5Aによると、当該学習用データには、配列コード情報、属性情報、変異体コード情報、配列情報、特徴量情報及び特性情報が少なくとも含まれる。配列コード情報は、その配列や活性等の特性が既知の酵素であって、当該酵素を識別するために付与された各酵素固有の情報である。
【0047】
属性情報は、各酵素の分類や名称等に関する情報である。これらの一例としては、国際生化学分子生物連合会(IUBMB)が勧告する命名法に従って分類され命名される。変異体コード情報は、配列コード情報により特定される各酵素において既にその特性と配列が確認されている変異体を識別するために付与された、各変異体に固有の情報である。配列情報は、変異体コード情報により識別される各変異体のアミノ酸配列を特定するための情報である。特徴量情報は、学習用構造情報として用いられる情報であって、各配列において算出された特徴量を示す情報である。特性情報は、変異体コード情報により識別される各変異体において、既知の特性を示す情報である。このような特性情報としては、活性を示すKcat/Km、Kcat、Km、Tm値、代謝回転数(Turnover数)、阻害定数(Ki)、IC50、比活性、至適pH、pH範囲、至適温度、温度範囲、等電点(pI)、pH安定性、温度安定性、有機溶剤安定性、酸化安定性、保存安定性、基質特異性、これらのうちの少なくともいずれかに基づいて算出された算出情報、又はこれらの組み合わせ等の数値や分類が記憶されている。
【0048】
図5Bは、本開示の一実施形態に係る予測モデル生成装置200において学習に利用される学習用データの例を示す図である。具体的には、図5Bには、図5Aで示される学習用データ(教師データ)に関して、実際にデータベース300から取得された学習用データの一例が示されている。なお、ここでは属性情報は必須ではないためその記載は省略する。図5Bによると、配列コード情報として任意の文字列である「A1」を有する酵素が例示されている。当該酵素は、既知の変異体として種々の変異体がデータベース300に登録されているが、その変異体を特定するための「K139A」、「R137A」、「N116A」及び「N132A」の変異体コード情報がその一例として示されている。当該変異体コードは、「K139A」を例に説明すると、139番目のリシン(K)がアラニン(A)に変異していること、つまりその変異が起きた部位をその変異の内容が示されている。さらに、これらの各変異体に関して、各変異体の具体的なアミノ酸配列が配列情報として含まれる。さらに、各変異体の特徴量情報(E1-1等)が学習用構造情報として含まれる。
【0049】
ここで、図5Bによると、各変異体の特性情報としては、「Kcat/Km」が取得されている。このKcatは「触媒定数」と呼ばれる数値であって、各酵素又はその変異体が基質で完全に飽和している状態において、単位時間あたりに反応に利用される基質分子の数を示す情報である。すなわち、当該数値が高いほど活性が高いことを意味する。またKmは最大の反応速度の半分の速度が認められる基質濃度を示す情報である。すなわち、当該数値が低いほど触媒としての酵素の活性が高く、少ない基質の量でも早い反応速度で反応することを意味する。したがって、Kcat/Kmの数値が高くなればなるほど酵素としての活性が高いことを意味する。ここでは、特性情報としてKcat/Kmを示しているが、特性情報としては、これらのみには限られない。活性を示すKcat又はKmなど各数値、Tm値、代謝回転数(Turnover数)、阻害定数(Ki)、IC50、比活性、至適pH、pH範囲、至適温度、温度範囲、等電点(pI)、又はこれらの組み合わせ等の機能特性でもよい。また、他の特性情報としては、pH安定性、温度安定性、有機溶剤安定性、酸化安定性、保存安定性、基質特異性、又はこれらの組み合わせ等の分子特性でもよい。また、例えば、元となる酵素のKcat/Kmと変異体のKcat/Kmとの比率を示すKcat/Km比などのように、上記特性から算出することにより得られた算出情報でもよい。また、当然、上記の機能特性や分子特性をさらに組み合わせたものでもよい。さらに、特性情報として用いられる具体的な情報としても、数値そのものでもあってもよいし、数値に基づいて分類した分類、元となる高分子化合物の特性との比較に基づいて分類した分類、又はこれらの組み合わせであってもよい。
【0050】
なお、図5Bは、学習用データとして用いられる情報の一例を示したに過ぎない。したがって、実際の学習には、当然に「A1」の酵素以外の酵素とその変異体の情報も用いられる。
【0051】
再び図4に戻り、上記のとおり、S211及びS212において、図5A及び図5Bに示された各学習用データが読み出されると、プロセッサは、それらを用いて変異とそれによって得られる特性のパターンの機械学習を行う(S213)。当該機械学習は、一例として、構造情報と特性情報の組を、ニューロンを組み合わせて構成されたニューラルネットワークに与え、ニューラルネットワークの出力がラベル情報と同じになるように、各ニューロンのパラメータを調整しながら学習を繰り返すことにより行われる。そして、学習済み予測モデル(例えば、ニューラルネットワークとパラメータ)を取得するステップが実行される(S214)。これにより、プロセッサは学習済み予測モデルの生成を終了する。取得された学習済み予測モデルは、通信インターフェイスを介して処理装置100に送信され、処理装置100のメモリ112に記憶されてもよい。また、予測モデル生成装置200や他の処理装置、サーバ装置等のメモリに記憶されてもよい。
【0052】
なお、学習済み予測モデルは、ランダムフォレスト、ニューラルネットワークや畳み込みニューラルネットワークを用いて生成することが可能である。しかし、これらに限らず、ニアレストネイバー法、決定木、回帰木等の機械学習を用いて生成することも可能である。
【0053】
6.処理装置100において出力される予測情報
図6A及び図6Bは、本開示の一実施形態に係る処理装置100において出力される予測情報の例を示す図である。ここでは、特にこれのみに限定するわけではないが、処理装置100によって取得された予測情報を、出力インターフェイス114を介して別途設置されたディスプレイに出力する場合を想定する。図6Aによると、当該ディスプレイに表示される予測情報としては、予測対象酵素の配列コード情報及び属性情報が含まれる(図6の「予測対象酵素:XXXX」)。これらの情報は、図3のS111において酵素の配列情報を取得するときに、当該配列情報と一緒に取得され、配列情報に対応付けてメモリ112に記憶されている情報である。また、出力情報として、図3のS111において取得された酵素の配列である第1配列情報が含まれる。なお、ここでは、「予測対象候補の配列」としてその配列を具体的に記載しているが、その配列が記憶されたリンク先の情報を表示するようにしてもよい。
【0054】
これらの情報の下部に図3のS115において取得された予測情報が具体的には含まれている。図3のS112において生成された変異体ごとに、メモリ112を参照して変異体の名称、変異体コード情報、及びその配列を示す配列情報が読み出される。また、同様に、メモリ112を参照して、各変異体の名称に対応付けて予測情報(図6Aの例では「活性」及び「耐熱性」の各情報)が読み出される。図6Aの例では、各変異体の予測情報として、活性を示すKcat/Km比の予測値が具体的に出力されるとともに、元となった高分子化合物の耐熱性と比較して「上昇」、「低下」又は「同等」のいずれかを示す矢印(「↑」、「↓」又は「→」)がそれぞれ出力されている。これらの情報を参照することによって、ユーザは所望の特性を有する変異体を効率よくスクリーニングすることが可能である。
【0055】
なお、図6Aでは変異体として4個の変異体のみが示されているが、当然予測された全ての変異体の情報が出力されてもよいし、それらの中から絞り込まれた一部の変異体の情報のみが出力されてもよい。また、図6Aに示された各情報は全てが必須の情報ではなく、例えば各変異体を特定する情報(例えば、変異体コード情報)と各予測情報があればよい。
【0056】
図6Bは、出力される予測情報の他の例を示す情報である。図6Bによると、当該予測情報には図6Aに示された予測対象酵素の配列コード情報と属性情報、及びその配列情報が表示されている。図6Bでは、これらに加えて予測情報が取得された変異体の情報が、元となった高分子化合物(酵素)の3次元構造と共に示されている。具体的には、プロセッサ111は、図3のS111において元の酵素の配列情報(第1配列情報)を取得するときに、当該配列情報の3次元構造を示す情報も一緒に取得しメモリ112に格納する。そして、図6Bにおいては、図3のS112においてメモリ112に記憶された変異部位情報に基づいて、生成された変異体において変異が生じている場所を示すマーカー12が、元となった酵素の3次元構造を示す画像11に重畳して表示される。これにより、特性の予測の対象となった変異体において変異が生じている箇所を立体的又は空間的に把握することが可能となる。
【0057】
また、図6Bでは、元となった酵素の3次元構造を示す画像11の横に、重畳して表示されている各変異体のマーカー12を絞り込むための検索ボックスが表示される。ここでは、このような検索ボックスとして、「活性の上位10位」、「活性の上位50位」、「活性が2倍以上向上」、「活性が4倍以上向上」、「活性及び耐熱性が向上」等の絞り込み条件が選択可能となっている。プロセッサ111は、入力インターフェイス113を介していずれかの絞り込み条件のユーザによる選択を受け付けると、その条件を満たす予測情報を有する変異体のみに表示するマーカー12を絞り込む。なお、あらかじめ用意した絞り込み条件により絞り込むことも可能であるが、キーワード等の入力ボックスを用意しておきここに入力された絞り込み条件に基づいて絞り込むことも可能である。
【0058】
また、図6Bにおいて特に図示はしていないものの、元となった酵素の3次元構造を示す画像11に重畳して表示されたマーカー12のうちの所望の一つの選択が受け付けられると、その変異体の詳細情報が含まれた画面に移行する。具体的には、プロセッサ111は、入力インターフェイス113を介して、いずれかのマーカー12に対するユーザの選択操作を受け付けると、メモリ112を参照して、選択されたマーカー12に対応する変異体の名称、変異が起こされる変異部位、その配列を示す配列情報及び特性の予測情報を表示する。これによって、ユーザは立体的又は空間的に変異が起きた場所を把握することが可能であり、さらにその変異によって得られた特性も効率よく把握することが可能となる。
【0059】
7.実施例
以下に、実際に学習済み予測モデルを生成し、当該学習済み予測モデルによって変異体の特性が予測できた例を示す。
【0060】
<学習済み予測モデルの生成(その1)>
学習済み予測モデルの生成には、学習用データ(教師データ)としてBRENDAデータベースに登録された酵素の構造情報(具体的には、特徴量情報)及びその変異体の特性情報を用いた。ここで、BRENDAデータベースには約1000の酵素について、EC番号という各酵素に固有の情報が振られている。当該EC番号は、「EC X1.X2.X3.X4(X1~X4は数字)」の形式で割り当てられており、X1からX4に行くほど下位の概念を示す。X1~X4はそれぞれ反応の種類及び基質によって分類される。BREDAデータベースには、このEC番号により特定される各酵素に関して、その酵素とその変異体の構造情報、酵素及び変異体が有する特性(例えば、Kcat/Km、Kcat又はKmなど各数値、Tm値、代謝回転数(Turnover数)、阻害定数(Ki)、IC50、比活性、至適pH、pH範囲、至適温度、温度範囲、等電点(pI)、pH安定性、温度安定性、基質特異性、有機溶剤安定性、酸化安定性、保存安定性、これらのうちの少なくともいずれかに基づいて算出された算出情報(例えばKcat/Km比)等)を示す情報、各酵素の分類や名称等が登録されている。したがって、学習のために、BRENDAデータベースに登録されている約1000の酵素及びその変異体(合計約8000個)のこれら情報を取得し、構造情報(配列情報)より特徴量情報を算出した。このとき、EC番号のうちX3の桁ごとに一つのグループを形成し、そのグループごとに無作為に抽出した75%の酵素については学習用データとして利用し、残りの25%については検証用データとして利用した。
【0061】
また、学習済み予測モデルにはランダムフォレストを用いて、学習用データとして取得された各情報のうち特徴量及びKcat/Km比(特性情報:元となった酵素の変異前のKcat/Kmと各変異体のKcat/Kmの比率を示す値))の組み合わせを利用して学習させた。これにより、学習済み予測モデル(その1)を生成した。
【0062】
図7Aは、学習済み予測モデルを用いて予測された特性値と実際に測定された特性値との相関を示す図である。具体的には、図7Aは、上記において生成された学習済み予測モデル(その1)に検証用データの特徴量情報を入力して、Kcat/Km比の予測値を出力させた結果の相関を示す図である。図7Aによると、横軸に学習済み予測モデル(その1)により得られたKcat/Km比の予測値が、縦軸に実際にBRENDAデータベースから取得されたKcat/Km比の実測値が、入力された特徴量情報ごとにそれぞれプロットされている。そして、この検証の結果、予測値と実測値の間の相関係数(p)としては0.68というかなり高い数値が得られた。つまり、これは学習済み予測モデルによって予測されるKcat/Km比の予測値と実測値との間にかなりの相関があり、当該予測値が変異前の各酵素及び変異体のKcat/Km比(予測情報)を予測するのに十分であることが示された。したがって、各変異体の特徴量情報を当該学習済み予測モデル(その1)に入力することによって得られたKcat/Km比の予測値に基づいて、高い特性を有する変異体を効率よくスクリーニングできることが確認できた。
【0063】
<学習済み予測モデル(その1)を用いた特性の予測の例1>
リボフラビンキナーゼの配列情報をBRENDAデータベースから取得し、図3のS112の方法に従って単変異させた各変異体の特徴量情報を生成した。そして、生成された各変異体の特徴量情報のそれぞれを上記において生成された学習済み予測モデル(その1)に入力し、予測情報としてKcat/Km比(予測値:元となったリボフラビンキナーゼの変異前のKcat/Kmと各変異体のKcat/Kmの比率を示す値)をそれぞれ取得した。そして、得られたKcat/Km比のうちのごく一部を下記表1に示す。
【表1】
【0064】
表1によれば、変異体コードごとに、得られたKcat/Km比がそれぞれ示されている。例えば、変異体コード「E235H」は235番目の部位がグルタミン酸(E)からヒスチジン(H)に変異されているが(1桁目のアルファベットが変異前のアミノ酸を示し、2桁目以降の数字がその変異が行われた部位を示し、数字の次のアルファベットが変異のアミノ酸を示す)、この場合Kcat/Km比としては「3.494」が得られたことが示されている。これによれば、とりわけE235Hの変異体コードで示された変異体において高いKcat/Km比が得られており、当該変異体が有用な変異体としてスクリーニングの候補になることが確認できた。
【0065】
図7Bは、実際に学習済み予測モデルを用いて予測された予測情報の例を示す図である。具体的には、図7Bは、上記リボフラビンキナーゼの3次元立体構造を示す。そして、各変異体において変異がされた部位に、その場所を示すマーカーが上記3次元構造の上に重畳して表示されている。ただし、ここでは、変異体ごとに得られたKcat/Km比を比較し、高いKcat/Km比が得られた変異体(上位50個)のみに絞り込んだうえで表示している。この結果によれば、上記リボフラビンキナーゼでは、タンパク質の中心及び周縁部のいずれの部位においても、高い予測値が得られた。このように予測情報を出力することにより、変異が起きた場所を立体的又は空間的に把握できただけでなく、より有用な変異体のみを効率的に確認することができた。
【0066】
<学習済み予測モデル(その1)を用いた特性の予測の例2>
フラボンシンターゼの配列情報をBRENDAデータベースから取得し、図3のS112の方法に従って単変異させた各変異体の構造情報(具体的には、特徴量情報)を生成した。そして、生成された各変異体の特徴量情報のそれぞれを上記において生成された学習済み予測モデル(その1)に入力し、予測情報としてKcat/Km比(予測値:元となったフラボンシンターゼの変異前のKcat/Kmと各変異体のKcat/Kmの比率を示す値)をそれぞれ取得した。そして、得られたKcat/Km比のうちのごく一部を下記表2に示す。
【表2】
【0067】
表2によれば、表1と同様に、変異体コードごとに、得られたKcat/Km比がそれぞれ示されている。これによれば、とりわけL361F(361番目の部位がロイシン(L)からフェニルアラニン(F)に変異)の変異体コードで示された変異体において、高いKcat/Km比が得られており、当該変異体が有用な変異体としてスクリーニングの候補になることが確認できた。
【0068】
図7Cは、実際に学習済み予測モデルを用いて予測された予測情報の例を示す図である。具体的には、図7Cは、上記フラボンシンターゼの3次元構造を示す。そして、各変異体において変異がされた部位に、その場所を示すマーカーが上記3次元構造の上に重畳して表示されている。ただし、ここでは、変異体ごとに得られたKcat/Km比を比較し、高いKcat/Km比が得られた変異体(上位50個)のみに絞り込んだうえで表示している。この結果によれば、上記フラボンシンターゼでは、タンパク質の中心及び周縁部のいずれの部位においても、高い予測値が得られた。このように予測情報を出力することにより、変異が起きた場所を立体的又は空間的に把握できただけでなく、より有用な変異体のみを効率的に確認することができた。
【0069】
<学習済み予測モデルの生成(その2)>
学習済み予測モデルの生成は、学習用データのうち特性情報としてTm値の比(元となった酵素の変異前のTm値と各変異体のTm値の比率を示す値)を用いたこと以外は、学習済み予測モデルの生成(その1)と同様の方法で生成した。したがって、学習済み予測モデルにはランダムフォレストを用いて、学習用データとして取得された各情報のうち、特徴量情報及びTm値の比(特性情報)の組み合わせを利用して学習させた。これにより、学習済み予測モデル(その2)を生成した。
【0070】
図8Aは、学習済み予測モデルを用いて予測された特性値と実際に測定された特性値との相関を示す図である。具体的には、図8Aは、上記において生成された学習済み予測モデル(その2)に検証用データのうち特徴量情報を入力して、Tm値の比の予測値を出力させた結果の相関を示す図である。図8Aによると、横軸に学習済み予測モデル(その2)により得られたTm値の比の予測値が、縦軸に実際にBRENDAデータベースから取得されたTm値の比の実測値が、入力された特徴量情報ごとにそれぞれプロットされている。そして、この検証の結果、予測値と実測値の間の相関係数(p)としては0.69というかなり高い数値が得られた。つまり、これは学習済み予測モデルによって予測されるTm値の比の予測値と実測値との間にかなりの相関があり、当該予測値が各酵素及び変異体のTm値の比(予測情報)を予測するのに十分であることが示された。したがって、各変異体の特徴量情報を当該学習済み予測モデル(その2)に入力することによって得られたTm値の比の予測値に基づいて、高い特性を有する変異体を効率よくスクリーニングできることが確認できた。
【0071】
<学習済み予測モデル(その2)を用いた特性の予測の例3>
T4ファージのエンドライシンの配列情報をFireProtデータベースから取得し、図3のS112の方法に従って単変異させた各変異体の特徴量情報を生成した。そして、生成された各変異体の特徴量情報のそれぞれを上記において生成された学習済み予測モデル(その2)に入力し、予測情報としてTm値の比(予測値:元となったT4ファージのエンドライシンの変異前のTm値と各変異体のTm値の比率を示す値)をそれぞれ取得した。そして、得られたTm値の比のうちのごく一部を下記表3に示す。
【表3】
【0072】
表3によれば、変異体コードごとに、得られたTm値の比がそれぞれ示されている。これによれば、とりわけM1E(1番目の部位がメチオニン(M)からグルタミン酸(E)に変異)の変異体コードで示された変異体において、高いTm値の比が得られており、当該変異体が有用な変異体としてスクリーニングの候補になることが確認できた。
【0073】
図8Bは、実際に学習済み予測モデルを用いて予測された予測情報の例を示す図である。具体的には、図8Bは、上記T4ファージのエンドライシンの3次元構造が示されている。そして、各変異体において変異がされた部位に、その場所を示すマーカーが上記3次元構造の上に重畳して表示されている。ただし、ここでは、変異体ごとに得られたTm値の比を比較し、高いTm値の比が得られた変異体(上位50個)のみに絞り込んだうえで表示している。この結果によれば、上記T4ファージのエンドライシンに関しては、高いTm値の比が得られた変異体において変異した部位は、ほぼ満遍なく分布することが分かった。
【0074】
図8Cは、実際に学習済み予測モデルを用いて予測された予測情報の例を示す図である。具体的には、図8Cは、図8Bと同様にT4ファージのエンドライシンの3次元構造が示されている。さらに、図8Cにおいては、図8Bにおいてマーカーが重複して表示された高いTm値の比が得られた変異体のうち、「学習済み予測モデル(その1)を用いた特性の予測の例」と同様の方法において、高いKcat/Km比が得られた変異体でさらに絞り込んだ結果が示されている。すなわち、図8Cには、高いTm値の比が得られ、且つ高いKcat/Km比が得られた変異体において変異が起きた部位が示されている。このように予測情報を出力することにより、変異が起きた場所を立体的又は空間的に把握できただけでなく、複数の特性の予測値を組み合わせることでより有用な変異体のみを効率的にスクリーニングすることができた。
【0075】
以上、本実施形態においては、高分子化合物の変異体のスクリーニング方法を提供することができる。
【0076】
8.変形例
上記においては、高分子化合物として酵素を用いた例を中心に説明した。しかし、当然に酵素のみに限らず、酵素以外のポリペプチド、核酸及び糖質など、種々の高分子化合物においても同様に本開示に係る処理を適用することが可能である。具体的には、高分子化合物の構造情報とその特性情報の組み合わせを用いて機械学習を実施することにより学習済み予測モデルを取得する。そして、同種の高分子化合物の変異体の構造情報を生成し、当該構造情報を学習済み予測モデルに入力することによって予測情報を出力として取得することが可能である。
【0077】
また、上記においては、単変異体を中心に説明したが、当然単変異体のみに限らず複数の変異が起きた複数変異体であっても同様に予測情報を取得することが可能である。具体的には、高分子化合物とその複数変異体の構造情報について、それぞれ特性情報と組み合わせて、機械学習を実施することにより学習済み予測モデルを取得する。そして、特定の高分子化合物について複数変異体の構造情報を生成し、当該構造情報を学習済み予測モデルに入力することによって予測情報を出力として取得することが可能である。
【0078】
本明細書で説明される処理及び手順は、実施形態において明示的に説明されたものによってのみならず、ソフトウェア、ハードウェア又はこれらの組み合わせによっても実現可能である。具体的には、本明細書で説明された処理及び手順は、集積回路、揮発性メモリ、不揮発性メモリ、磁気ディスク、光ストレージ等の媒体に、当該処理に相当するロジックを実装することによって実現される。また、本明細書で説明される処理及び手順は、それらの処理・手順をコンピュータプログラムとして実装し、処理装置やサーバ装置を含む各種のコンピュータに実行させることが可能である。
【0079】
本明細書中で説明される処理及び手順が単一の装置、ソフトウェア、コンポーネント、モジュールによって実行される旨が説明されたとしても、そのような処理又は手順は、複数の装置、複数のソフトウェア、複数のコンポーネント、及び/又は、複数のモジュールによって実行されるものとすることができる。また、本明細書中で説明される各種情報が単一のメモリや記憶部に格納される旨が説明されたとしても、そのような情報は、単一の装置に備えられた複数のメモリ又は複数の装置に分散して配置された複数のメモリに分散して格納されるものとすることができる。さらに、本明細書において説明されるソフトウェア及びハードウェアの要素は、それらをより少ない構成要素に統合して、又は、より多い構成要素に分解することによって実現されるものとすることができる。
【符号の説明】
【0080】
1 処理システム
100 処理装置
200 学習済み予測モデル生成装置
300 データベース


図1
図2
図3
図4
図5A
図5B
図6A
図6B
図7A
図7B
図7C
図8A
図8B
図8C