(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024165114
(43)【公開日】2024-11-28
(54)【発明の名称】学習済みのタンパク質可溶性予測モデルの可視化方法
(51)【国際特許分類】
G16B 40/00 20190101AFI20241121BHJP
C07K 1/00 20060101ALI20241121BHJP
【FI】
G16B40/00
C07K1/00
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2023080992
(22)【出願日】2023-05-16
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 第66回システム制御情報学会研究発表講演会 講演論文予稿集(講演番号:345-2)(発行日:令和4年5月16日) 一般社団法人システム制御情報学会発行 令和4年5月20日に第66回システム制御情報学会研究発表講演会にて公開 Active Enzyme Molecule 2022(酵素活性分子国際会議2022)予稿集(ポスター発表番号:P-17)(発行日:令和4年9月27日) Active Enzyme Molecule 2022実行委員会発行 Active Enzyme Molecule 2022(酵素活性分子国際会議2022)予稿集(ポスター発表番号:P-27)(発行日:令和4年9月27日) Active Enzyme Molecule 2022実行委員会発行 令和4年9月30日にActive Enzyme Molecule 2022(酵素活性分子国際会議2022)にて公開(ポスター発表番号:P-17) 令和4年9月30日にActive Enzyme Molecule 2022(酵素活性分子国際会議2022)にて公開(ポスター発表番号:P-27) 日本農芸化学会2023年度(広島大会)大会プログラム集(講演番号:2D07-08)(発行日:令和5年2月25日) 公益社団法人日本農芸化学会発行 日本農芸化学会2023年度(広島大会)大会講演要旨集(講演番号:2D07-08)(発行日:令和5年3月5日) 公益社団法人日本農芸化学会発行 日本農芸化学会2023年度(広島大会)大会講演要旨集(講演番号:3E05-01)(発行日:令和5年3月5日) 公益社団法人日本農芸化学会発行 令和5年3月15日に日本農芸化学会2023年度(広島大会)大会にて公開(講演番号:2D07-08) 令和5年3月16日に日本農芸化学会2023年度(広島大会)大会にて公開(講演番号:3E05-01)
【国等の委託研究の成果に係る記載事項】(出願人による申告)国立研究開発法人科学技術振興機構 戦略的創造研究推進事業・総括実施型研究(ERATO)浅野酵素活性分子プロジェクト 産業技術力強化法第17条の適用を受けるもの
(71)【出願人】
【識別番号】524248153
【氏名又は名称】松井 大亮
(71)【出願人】
【識別番号】515157758
【氏名又は名称】公立大学法人 富山県立大学
(74)【代理人】
【識別番号】100203253
【弁理士】
【氏名又は名称】村岡 皓一朗
(74)【代理人】
【識別番号】100179039
【弁理士】
【氏名又は名称】伊藤 洋介
(72)【発明者】
【氏名】松井 大亮
(72)【発明者】
【氏名】浅野 泰久
(72)【発明者】
【氏名】榊原 一紀
(72)【発明者】
【氏名】中村 正樹
【テーマコード(参考)】
4H045
【Fターム(参考)】
4H045AA10
4H045AA20
4H045AA30
4H045BA09
4H045DA89
4H045EA20
4H045EA50
4H045EA60
4H045FA74
(57)【要約】
【課題】学習済みのタンパク質可溶性予測モデルの形式概念分析による可視化を用いた、タンパク質の可溶性に関与するタンパク質の属性を同定する方法等の提供。
【解決手段】タンパク質の可溶性に関与するタンパク質の属性を同定する方法であって、タンパク質の属性を設定する工程、入力データから学習済みのタンパク質可溶性予測モデルにより得られた出力データに基づき、可溶性度合に関する属性を算出する工程、並びに前提部:前記タンパク質の属性、信頼度:60%以上、及び結論部:前記可溶性度合に関する属性、に当てはまるルールを抽出する工程を含む、方法。
【選択図】なし
【特許請求の範囲】
【請求項1】
タンパク質の可溶性に関与するタンパク質の属性を同定する方法であって、以下:
タンパク質の属性を設定する工程、
入力データから学習済みのタンパク質可溶性予測モデルにより得られた出力データに基づき、可溶性度合に関する属性を算出する工程、並びに
前提部:前記タンパク質の属性、
信頼度:60%以上、及び
結論部:前記可溶性度合に関する属性
に当てはまるルールを抽出する工程、
を含む、方法。
【請求項2】
前記入力データが、野生型のタンパク質のアミノ酸配列及び、前記野生型のタンパク質の1~数個のアミノ酸に変異を導入した配列のデータセットである、請求項1に記載の方法。
【請求項3】
前記タンパク質の属性が、前記変異導入前のアミノ酸、前記変異導入前のアミノ酸の性質、前記変異導入前のアミノ酸の分類、前記変異導入後のアミノ酸、前記変異導入後のアミノ酸の性質、前記変異導入後のアミノ酸の分類、アミノ酸の変異導入位置、及びアミノ酸の変異導入位置の二次構造からなる群から選択される1つ以上である、請求項1又は2に記載の方法。
【請求項4】
前記アミノ酸の性質が、親水性又は疎水性である、請求項3に記載の方法。
【請求項5】
前記アミノ酸の分類が、脂肪族、負電荷、正電荷、芳香族、又は非電荷である、請求項3又は4に記載の方法。
【請求項6】
前記アミノ酸の変異導入位置の二次構造が、αヘリックス、βシート、又はコイルである、請求項3~5のいずれか一項に記載の方法。
【請求項7】
前記可溶性度合に関する属性が、野生型のタンパク質の可溶性度合及び、前記野生型のタンパク質の1~数個のアミノ酸に変異を導入したタンパク質の可溶性度合の変化量に基づく、請求項1~6のいずれか一項に記載の方法。
【請求項8】
可溶性の向上したタンパク質の製造方法であって、請求項1~7のいずれか一項に記載の方法により同定された属性を有するようにタンパク質を改変する工程を含む、方法。
【請求項9】
可溶性の向上したタンパク質の製造方法であって、以下:
タンパク質を構成するアミノ酸のうち、アルギニン、チロシン、及びグルタミンからなる群から選択される少なくとも1つのアミノ酸を、アルギニン、チロシン、及びグルタミン以外のアミノ酸に置換する工程、
タンパク質を構成するグリシン、バリン、スレオニン、システイン、及びリシン以外のアミノ酸を、グリシン、バリン、スレオニン、システイン、又はリシンに置換する工程、及び
タンパク質のdisorder領域中の芳香族アミノ酸をグリシン、バリン、又はスレオニンに置換する工程、
からなる群から選択される1以上の工程を含む、方法。
【請求項10】
前記タンパク質を構成するアミノ酸が、前記タンパク質のアミノ酸配列の後半部分のアミノ酸である、請求項9に記載の方法。
【請求項11】
前記タンパク質のdisorder領域中の芳香族アミノ酸が親水性である、請求項9又は10に記載の方法。
【請求項12】
タンパク質の可溶性の向上方法であって、以下:
タンパク質を構成するアミノ酸のうち、アルギニン、チロシン、及びグルタミンからなる群から選択される少なくとも1つのアミノ酸を、アルギニン、チロシン、及びグルタミン以外のアミノ酸に置換する工程、
タンパク質を構成するグリシン、バリン、スレオニン、システイン、及びリシン以外のアミノ酸を、グリシン、バリン、スレオニン、システイン、又はリシンに置換する工程、及び
タンパク質のdisorder領域中の芳香族アミノ酸をグリシン、バリン、又はスレオニンに置換する工程、
からなる群から選択される1以上の工程を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習済みのタンパク質可溶性予測モデルの形式概念分析による可視化を用いた、タンパク質の可溶性に関与するタンパク質の属性を同定する方法に関する。また、本発明は、該同定方法により同定された属性を有するようにタンパク質を改変する工程を含む、可溶性の向上したタンパク質の製造方法に関する。さらに、本発明は、同定方法により同定された属性を用いた、タンパク質の可溶性の向上方法に関する。
【背景技術】
【0002】
酵素の実用化には大量生産技術が必要だが、遺伝子組換えで他の微生物や動植物の酵素を生産する場合、タンパク質が沈殿して目的の酵素を生産できないことが多かった。タンパク質の沈殿を回避する方法としては、(i)融合タンパク質として発現、(ii)培養条件の検討、(iii)他の発現系の検討、(iv)巻き戻し、(v)高発現型変異酵素の作製等が試みられてきたが、産業上利用に適した汎用性の高い方法は確立されていない(非特許文献1)。
【0003】
(v)高発現型変異酵素の作製においては、α-ヘリックス法及び、HiSol法が知られてはいるが、前者はα-ヘリックス構造を有するタンパク質に限定され、後者は相同性の高いタンパク質配列が多くある酵素に限定されるため、汎用性の高い技術とはいえない(非特許文献2)。
【0004】
発明者らは、これまで、沈殿して不溶化する酵素のアミノ酸配列の一部を別のアミノ酸に置き換えることで可溶化させ、目的の酵素を効率よく生産する方法を見出した。また、アミノ酸を置換する部位をコンピューターで予測できるプログラムも開発してきた(特許文献1)。
【0005】
しかしながら、従来方法では、タンパク質の可溶化の予測モデルの精度が約50%程度であるため、該モデルが出力した予測結果をそのまま用いても、タンパク質が可溶化するとは限らない。そのため、タンパク質の可溶化について、さらなる予測性の高い技術が望まれていた。
【先行技術文献】
【特許文献】
【0006】
【非特許文献】
【0007】
【非特許文献1】Y. Asano, et al., Protein Engineering, Design and Selection, vol.24(8), pp. 607-616, 2011.
【非特許文献2】D. Matsui, et al., Sci. Rep. 7, 9558, 2017.
【発明の概要】
【発明が解決しようとする課題】
【0008】
従って、本発明の課題は、学習済みのタンパク質可溶性予測モデルの形式概念分析による可視化を用いた、タンパク質の可溶性に関与するタンパク質の属性を同定する方法を提供することである。また、本発明の課題は、上記同定方法により同定された属性を有するようにタンパク質を改変する工程を含む、可溶性の向上したタンパク質の製造方法等を提供することでもある。
【課題を解決するための手段】
【0009】
本発明者らは、これまでに、機械学習を用いてタンパク質の可溶性を予測するモデルを構築し、一定精度の予測を実現してきた。しかしながら、機械学習では得た学習の傾向の把握が困難であるため(所謂、ブラックボックス問題)、予測モデルが得た可溶化の傾向が分からず、可溶化メカニズムの解明には至っていなかった。そこで本発明者らは、タンパク質の可溶性に関与するタンパク質の属性(特徴)を探索・同定するために、学習済みのタンパク質可溶性予測モデルの形式概念分析(学習器の特徴間の含意関係を網羅的に抽出する手法)による可視化を行うことを着想した。
【0010】
上記着想に基づいて、鋭意検討の結果、上述の学習済みの機械学習器の入出力に着目し、多様な入出力結果の組に加えて予測問題のドメイン知識を形式概念分析の属性として与えることにより、該学習器の特徴間の含意関係あるいはアソシエーションルールの枠組みで予測結果とドメイン知識との関係を可視化するという方法を見出した。これらの知見に基づいてさらに研究を重ねた結果、学習済みの機械学習器に対し、機械学習器の入出力をともに属性とする形式概念分析を適用することを特徴とする本発明(タンパク質の可溶性に関与するタンパク質の属性を同定する方法)を完成するに至った。また、本発明であるタンパク質の可溶性に関与するタンパク質の属性を同定する方法により同定した属性を所望するタンパク質が有することを特徴とする本発明(可溶性の向上したタンパク質の製造方法)も完成するに至った。
【0011】
すなわち、本発明は以下の通りのものである。
[1]タンパク質の可溶性に関与するタンパク質の属性を同定する方法であって、以下:
タンパク質の属性を設定する工程、
入力データから学習済みのタンパク質可溶性予測モデルにより得られた出力データに基づき、可溶性度合に関する属性を算出する工程、並びに
前提部:前記タンパク質の属性、
信頼度:60%以上、及び
結論部:前記可溶性度合に関する属性
に当てはまるルールを抽出する工程、
を含む、方法。
[2]前記入力データが、野生型のタンパク質のアミノ酸配列及び、前記野生型のタンパク質の1~数個のアミノ酸に変異を導入した配列のデータセットである、[1]に記載の方法。
[3]前記タンパク質の属性が、前記変異導入前のアミノ酸、前記変異導入前のアミノ酸の性質、前記変異導入前のアミノ酸の分類、前記変異導入後のアミノ酸、前記変異導入後のアミノ酸の性質、前記変異導入後のアミノ酸の分類、アミノ酸の変異導入位置、及びアミノ酸の変異導入位置の二次構造からなる群から選択される1つ以上(例:1つ、2つ、3つ、4つ、5つ、6つ、7つ、8つ)である、[1]又は[2]に記載の方法。
[4]前記アミノ酸の性質が、親水性又は疎水性である、[3]に記載の方法。
[5]前記アミノ酸の分類が、脂肪族、負電荷、正電荷、芳香族、又は非電荷である、[3]又は[4]に記載の方法。
[6]前記アミノ酸の変異導入位置の二次構造が、αヘリックス、βシート、又はコイルである、[3]~[5]のいずれか一つに記載の方法。
[7]前記可溶性度合に関する属性が、野生型のタンパク質の可溶性度合及び、前記野生型のタンパク質の1~数個のアミノ酸に変異を導入したタンパク質の可溶性度合の変化量に基づく、[1]~[6]のいずれか一つに記載の方法。
[8]可溶性の向上したタンパク質の製造方法であって、[1]~[7]のいずれか一つに記載の方法により同定された属性を有するようにタンパク質を改変する工程を含む、方法。
[9]可溶性の向上したタンパク質の製造方法であって、以下:
タンパク質を構成するアミノ酸のうち、アルギニン、チロシン、及びグルタミンからなる群から選択される少なくとも1つのアミノ酸を、アルギニン、チロシン、及びグルタミン以外のアミノ酸に置換する工程、
タンパク質を構成するグリシン、バリン、スレオニン、システイン、及びリシン以外のアミノ酸を、グリシン、バリン、スレオニン、システイン、又はリシンに置換する工程、及び
タンパク質のdisorder領域中の芳香族アミノ酸をグリシン、バリン、又はスレオニンに置換する工程、
からなる群から選択される1以上の工程を含む、方法。
[10]前記タンパク質を構成するアミノ酸が、前記タンパク質のアミノ酸配列の後半部分のアミノ酸である、[9]に記載の方法。
[11]前記タンパク質のdisorder領域中の芳香族アミノ酸が親水性である、[9]又は[10]に記載の方法。
[12]タンパク質の可溶性の向上方法であって、以下:
タンパク質を構成するアミノ酸のうち、アルギニン、チロシン、及びグルタミンからなる群から選択される少なくとも1つのアミノ酸を、アルギニン、チロシン、及びグルタミン以外のアミノ酸に置換する工程、
タンパク質を構成するグリシン、バリン、スレオニン、システイン、及びリシン以外のアミノ酸を、グリシン、バリン、スレオニン、システイン、又はリシンに置換する工程、及び
タンパク質のdisorder領域中の芳香族アミノ酸をグリシン、バリン、又はスレオニンに置換する工程、
からなる群から選択される1以上(例:1、2、3)の工程を含む、方法。
【発明の効果】
【0012】
本発明によれば、タンパク質の可溶性に関与するタンパク質の属性(特徴)を同定することができるため、同定した属性に基づいて、組換えタンパク質等の不溶性又は可溶性の設計が可能となる。また、特に、沈殿を形成するようなタンパク質について、該同定した属性に基づいて、沈殿を形成せずに可溶性タンパク質として合成し得るため、該タンパク質の生産量を向上することができる。
【図面の簡単な説明】
【0013】
【
図1】
図1は、形式概念分析における、外延と内包の組であるコンセプトの概略を示す。
【
図2】
図2は、学習データを学習させた回帰モデルによるテストデータの可溶性度合予測の結果を示す。
【
図3】
図3は、回帰モデルの可視化において、可溶性度合が上がる場合の、アミノ酸からアミノ酸の変異について纏めたものを示す。
【
図4】
図4は、回帰モデルの可視化において、可溶性度合が下がる場合の、アミノ酸からアミノ酸の変異について纏めたものを示す。
【
図5】
図5は、回帰モデルの可視化において、可溶性度合が上がる場合の、二次構造がコイルにおけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図6】
図6は、回帰モデルの可視化において、可溶性度合が上がる場合の、二次構造がβシートにおけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図7】
図7は、回帰モデルの可視化において、可溶性度合が上がる場合の、二次構造がαヘリックスにおけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図8】
図8は、回帰モデルの可視化において、可溶性度合が下がる場合の、二次構造がコイルにおけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図9】
図9は、回帰モデルの可視化において、可溶性度合が下がる場合の、二次構造がβシートにおけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図10】
図10は、回帰モデルの可視化において、可溶性度合が下がる場合の、二次構造がαヘリックスにおけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図11】
図11は、回帰モデルの可視化において、可溶性度合が上がる場合の、アミノ酸の変異位置がposition-1におけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図12】
図12は、回帰モデルの可視化において、可溶性度合が上がる場合の、アミノ酸の変異位置がposition-2におけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図13】
図13は、回帰モデルの可視化において、可溶性度合が上がる場合のアミノ酸の変異位置がposition-3におけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図14】
図14は、回帰モデルの可視化において、可溶性度合が上がる場合の、アミノ酸の変異位置がposition-4におけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図15】
図15は、回帰モデルの可視化において、可溶性度合が下がる場合の、アミノ酸の変異位置がposition-1におけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図16】
図16は、回帰モデルの可視化において、可溶性度合が下がる場合の、アミノ酸の変異位置がposition-2におけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図17】
図17は、回帰モデルの可視化において、可溶性度合が下がる場合の、アミノ酸の変異位置がposition-3におけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図18】
図18は、回帰モデルの可視化において、可溶性度合が下がる場合のアミノ酸の変異位置がposition-4におけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図19】
図19は、変異前のアミノ酸がYの場合における複数属性と可溶性度合の変化の関係を示す。
【
図20】
図20は、分類モデルの可視化において、可溶性発現確率が上がる場合のアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図21】
図21は、分類モデルの可視化において、可溶性発現確率が下がる場合のアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図22】
図22は、分類モデルの可視化において、可溶性発現確率が上がる場合の、Disorder領域がDisorder-1におけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図23】
図23は、分類モデルの可視化において、可溶性発現確率が上がる場合の、Disorder領域がDisorder-5におけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図24】
図24は、分類モデルの可視化において、可溶性発現確率が下がる場合の、Disorder領域がDisorder-1におけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図25】
図25は、分類モデルの可視化において、可溶性発現確率が下がる場合の、Disorder領域がDisorder-5におけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図26】
図26は、分類モデルの可視化において、可溶性発現確率が下がる場合の、Disorder領域がDisorder-5におけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図27】
図27は、分類モデルの可視化において、可溶性発現確率が上がる場合の、アミノ酸の変異位置がposition-2におけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図28】
図28は、分類モデルの可視化において、可溶性発現確率が上がる場合の、アミノ酸の変異位置がposition-3におけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図29】
図29は、分類モデルの可視化において、可溶性発現確率が上がる場合の、アミノ酸の変異位置がposition-4におけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図30】
図30は、分類モデルの可視化において、可溶性発現確率が下がる場合のアミノ酸の変異位置がposition-1におけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図31】
図31は、分類モデルの可視化において、可溶性発現確率が下がる場合のアミノ酸の変異位置がposition-2におけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図32】
図32は、分類モデルの可視化において、可溶性発現確率が下がる場合のアミノ酸の変異位置がposition-3におけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図33】
図33は、分類モデルの可視化において、可溶性発現確率が下がるかつアミノ酸の変異位置がposition-4におけるアミノ酸からアミノ酸の変異について纏めたものを示す。
【
図34】
図34は、変異前のアミノ酸がYの場合における複数属性と可溶性発現確率の変化の関係を示す。
【
図35】
図35は、変異前のアミノ酸がWの場合における複数属性と可溶性度合の変化の関係を示す。
【
図36】
図36は、変異前のアミノ酸がFの場合における複数属性と可溶性度合の変化の関係を示す。
【
図37】
図37は、変異後のアミノ酸がDの場合における複数属性と可溶性度合の変化の関係を示す。
【
図38】
図38は、変異後のアミノ酸がEの場合における複数属性と可溶性度合の変化の関係を示す。
【
図39】
図39は、変異後のアミノ酸がKの場合における複数属性と可溶性度合の変化の関係を示す。
【
図40】
図40は、変異前のアミノ酸がQの場合における複数属性と可溶性発現確率の変化の関係を示す。
【
図41】
図41は、変異後のアミノ酸がGの場合における複数属性と可溶性発現確率の変化の関係を示す。
【
図42】
図42は、変異後のアミノ酸がVの場合における複数属性と可溶性発現確率の変化の関係を示す。
【
図43】
図43は、変異後のアミノ酸がTの場合における複数属性と可溶性発現確率の変化の関係を示す。
【
図44】
図44は、アミノ酸置換の影響がある部位が配列上のどこに位置するのかを示す。
図44では、横軸が、その数で、縦軸が位置を示し、下からN末端、上がC末端となる。
【
図45】
図45は、上が、可溶性が増加する置換前のアミノ酸、下が、同様に可溶性が減少する置換後のアミノ酸を示す。
【
図46】
図46は、disorder領域中の芳香族アミノ酸をGに置換すると可溶性発現が増加する傾向があることを示す。
【
図47】
図47は、disorder領域中の芳香族アミノ酸をTに置換すると可溶性発現が増加する傾向があることを示す。
【発明を実施するための形態】
【0014】
1.本発明の同定方法
本発明は、学習済みのタンパク質可溶性予測モデルの形式概念分析による可視化を用いた、タンパク質の可溶性に関与するタンパク質の属性を同定する方法を提供する。より具体的には、本発明は、タンパク質の可溶性に関与するタンパク質の属性を同定する方法であって、以下:
タンパク質の属性を設定する工程、
入力データから学習済みのタンパク質可溶性予測モデルにより得られた出力データに基づき、可溶性度合いに関する属性を算出する工程、並びに
前提部:前記タンパク質の属性、
信頼度:60%以上、及び
結論部:前記可溶性度合に関する属性
に当てはまるルールを抽出する工程、
を含む、方法を提供する。
【0015】
本発明の同定方法は、機械学習(学習済みの機械学習モデル)と形式概念分析の融合による、変異予測及び可溶化メカニズムの可視化技法により構築されたものである。具体的には、以下の(C)のような工程を行う。
(C)学習が完了した機械学習器に対し、機械学習器の入出力を共に属性とする形式概念分析を適用する。すなわち、可溶性の因子と予測結果を共に属性に設定する。これにより可溶性に寄与する因子を「Aという属性を持つならば必ずBという属性も持つ」というルール形式で出力する。
【0016】
また、以下のような工程(D)を行ってもよい。
(D)(C)で得られたルールを生化学の専門家が精査し、自身の知見と合致するルールを抽出し、ルールに合致しかつ機械学習による予測値の高い変異導入を選び、生化学実験により検証する。
【0017】
さらに、学習済みの機械学習モデルの準備においては、例えば、以下のような工程を行ってもよい。
(A)タンパク質の一次構造(アミノ酸配列)データや構造情報データ並びにアミノ酸の生化学属性等をデータベースに集約する。それらを形式概念分析で形式化することにより、可溶性に影響を与えそうな属性を論理式として整理する。これにより、可溶化の因子となる属性を抽出する。
(B)抽出された属性を特徴量入力とする機械学習により、変異部位単位の可溶性予測を実現する。
【0018】
・機械学習モデル
本発明において、学習済みのタンパク質可溶性予測モデルは、後述する形式概念分析に供することができる限りその種類は特に限定されないが、例えば、ニューラルネットワーク(Neural Network)、より具体的には、多層のニューラルネットワークを有するディープラーニング(Deep Learning)を用いることができる。また、該モデルの構築についても、その方法は特に限定されず、自体公知の方法により行ってもよい。本明細書において、「ニューラルネットワーク」は、機械学習で用いられるモデルであって、シナプスの結合でネットワークを形成した人工ニューロン(ノード)で構成される、問題解決能力を有するモデル全般を意味する。ニューラルネットワークは、他のレイヤーのニューロン間の連結パターン、モデルパラメータを更新する学習過程、出力値を生成する活性化関数などによって定義される。
【0019】
ニューラルネットワークは、入力層、出力層、そして任意選択により1つ以上の中間層(「隠れ層」とも称される。)を含む。各層は1つ以上のニューロンを含み、ニューラルネットワークは、ニューロンとニューロンを連結するシナプスを含む。ニューラルネットワークで各ニューロンはシナプスを通じて入力される入力信号、重み、バイアスに対する活性化関数の関数値を出力することができる。かかる活性化関数として、例えば、ReLU関数、Tanh関数、シグモイド関数、ステップ関数、恒等関数、ソフトマックス関数、それらの派生関数などが挙げられる。機械学習モデルには、学習を通じて最適化されるモデルパラメータ、シナプス連結の重み、ニューロンのバイアスなどが含まれる。また、機械学習モデルを学習させる際には、学習前にハイパーパラメータを設定する必要がある。かかるハイパーパラメータとしては、例えば、学習率、繰り返し回数、ミニバッチの大きさなどが挙げられる。
【0020】
機械学習モデルを定義付けるモデル情報(プログラム又はデータ構造)としては、例えば、各ニューラルネットワークを構成する入力層、1つ以上の中間層、出力層のそれぞれに含まれるユニットが互いにどのように結合されるのかという結合情報や、結合されたユニット間で入出力されるデータに付与される重みやバイアスなどの各種情報が挙げられる。結合情報としては、例えば、各層に含まれるユニット数や、各ユニットの結合先のユニットの種類を指定する情報、各ユニットを実装する活性化関数、中間層のニューロン間に設けられたゲートなどの情報などが挙げられる。ゲートは、例えば、活性化関数によって返される値(例えば1または0)に応じて、ユニット間で伝達されるデータを選択的に通過させたり、重み付けたりする。
【0021】
学習データを用いた機械学習モデルの学習は、典型的には、学習データに対する損失関数を求め、その値をできるだけ小さくするパラメーター(パラメーターの最適値)を探索することであり、各学習データについての損失関数を算出し、その和を指標とする。損失関数としては、典型的には二乗和誤差が用いられるが、平均絶対誤差、平均二乗対数誤差などの他の損失関数を用いることもできる。また、パラメーターの最適値の探索は、ベイズ最適化法によるサロゲートモデリングを用いて、損失関数を近似することにより、動作を高速化して行ってもよい。高速化により、遺伝的アルゴリズムや勾配法の探索回数を数万回以上、あるいは数百万回以上行うことも可能となり、より精度が向上し得る。さらに、学習の停滞を避けるため、ミニバッチ学習やオンライン学習なども用いることができる。
【0022】
ニューラルネットワークを用いた機械学習のモデルとしては、例えば、回帰モデルと分類モデルが挙げられる。二つの違いはネットワークの予測値が連続値であるか離散値であるかどうかである。回帰は、データの特徴量の傾向をみて、連続値で予測値を出力する。分類は、あらかじめ決められた有限個のクラスがあり、データがどのクラスに入るか分類する。クラスにはそれぞれ異なる値が対応し、その値によって分類するのでネットワークの予測値が離散値となる。本発明の同定方法で用いる学習済みのタンパク質可溶性予測モデルは、例えば、タンパク質の可溶性度合をする予測する回帰モデルと、入力したタンパク質が可溶性か不溶性かの分類をする分類モデルの両方を用いてもよく、一方でもよい。
【0023】
上記ニューラルネットワークとしては、例えば、再帰型ニューラルネットワーク(RNN: Recurrent neural network)、畳み込みニューラルネットワーク(CNN: Convolutional Neural Network)等が挙げられるが、好ましくはRNNである。RNNは音声や文章、動画像といった時系列データを扱うニューラルネットワークである。RNNは、時系列内の要素の並びに特徴を持つデータを適切に取り扱い、データのパターンや性質を学習することを得意とする。RNNの特徴として、ネットワークの内部にループする経路を持っていることが挙げられる。標準のニューラルネットワークではデータの順序を処理することはできないが、RNNはループする経路があるためデータの情報を絶えずネットワーク内部で循環させることにより過去の情報を記憶し得る。そして、その記憶をもとに新たに情報の更新をする。本発明では、タンパク質の構造情報を時系列データとして扱い、RNNの特徴を利用して、タンパク質の構造の並びの特徴やパターンを学習させたモデルを用いてもよい。
【0024】
再帰型ニューラルネットワークは、理論上、過去全ての入力が出力に考慮されるが、実際に考慮されるのか過去のいくつかのデータのみである。RNNは、情報をループする回路で循環させるが、長期間循環させると情報の持つ価値がなくなってしまう場合がある。そのため、RNNでは長期にわたる情報の記憶をすることが困難となり、過去の情報を考慮することができなくなる虞がある。その問題を解決するためにゲートと記憶セルと呼ばれるものをRNNに追加してもよい。これが長・短期記憶 (Long Short-Term Memory,LSTM) と呼ばれるものである。本発明で用いる学習済みのタンパク質可溶性予測モデルは、LSTMを用いて学習させたものであってもよい。
【0025】
本発明で用いる学習済みのタンパク質可溶性予測モデルについて、学習に用いるデータは、全てを該モデルの学習に用いてもよく、あるいは一部を学習、残りを学習済みモデルの汎用性を評価するためのテストデータとして用いてもよい。学習データとテストデータとに分割する方法としては、例えば、ホールドアウト法、クロスバリデーション法、リーブワンアウト法などが挙げられる。
【0026】
学習済みのタンパク質可溶性予測モデルを構築するための学習データは、所望する予測モデルが構築される限り特に限定されないが、例えば、学習させるタンパク質のデータとして「Solubility database of all Escherichia coli proteins (eSOL)」(eSOL database developed in the Targeted Proteins Research Project, http://www.tanpaku.org/tp-esol/index.php?lang=en (accessed May. 26, 2022))や、自己の保有するデータ集を用いてもよい。
【0027】
また、本発明で用いる学習済みのタンパク質可溶性予測モデルについて、入出力データは、該予測モデルが後述する形式概念分析に適用できるものであれば特に限定されないが、例えば、タンパク質の一次構造、二次構造あるいは三次構造に関する情報等が挙げられ、出力データは、(タンパク質の)可溶性度合に関する情報等が挙げられる。より具体的には、例えば、入力データは、野生型のタンパク質のアミノ酸配列及び、野生型のタンパク質の1~数個(例:1~9個、1~5個、1~3個、1又は2個、1個)のアミノ酸に変異を導入した配列のデータセットであり、出力データが、(タンパク質の)可溶性度合(%)や(タンパク質)が可溶性か不溶性かの分類である。
【0028】
・形式概念分析
本明細書において、形式概念分析とは、数学的基礎に基づく概念構造を分析する、データ分析手法の一つである。形式概念分析は数学的に定義された概念データを思考単位として扱い、概念構造の明確化や事象の分析、データの可視化及びデータの依存関係などを明らかにするものである。以下に形式概念分析にて用いられる用語を定義する。
【0029】
(i)オブジェクト G
現象や事象などに出現する対象
(ii)属性 M
オブジェクトの持つ性質
(iii)コンテクスト K
オブジェクトと属性との関係 K = (G, M, I),I ⊆ G × M
(iv)外延 A
共通な属性集合を持つオブジェクト集合 A ⊆ G
(v)内包 B
外延集合が共通に持つ属性集合 B ⊆ M
(vi)コンセプト (A, B)
外延と内包の組
(vii)コンセプトラティス B(G, A, B)
コンセプトの完備束
【0030】
形式概念分析では、コンテクストに形式概念分析を適用することで、外延と内包の組であるコンセプトを抽出し、抽出されたコンセプトがコンセプトラティスの構成要素となる(
図1)。また、抽出されたコンセプトラティスをもとに含意関係やアソシエーションルールといった属性間の包含関係を抽出し得る。形式概念分析は、自体公知の方法、例えば、The Concept Explorer (Release 1.3)(https://conexp.sourceforge.net/)を用いた形式概念分析手法など、を行い得る。The Concept Explorer (Release 1.3)は、コンテクスト表を入力として、コンセプトラティス、含意関係、アソシエーションルールが、自動生成可能である。コンテクスト表とは、コンテクストを表に纏めた表のことを指す。
【0031】
・コンセプトラティス
コンセプトラティスでは、外延と内包の組であるコンセプトがノードとなり、含意関係を持つコンセプト同士がアークで結ばれる。属性は、コンセプトラティスの下方に向かっていくにつれて追加されていき、オブジェクトはコンセプトラティスの上方に向かっていくにつれ追加されていく。そのため、上方に位置するノードほどコンセプトの外延に含まれるオブジェクトは増え、内包に含まれる属性は減る。
【0032】
・アソシエーションルール
コンテクスト表において、ある属性AとBにおいて、「属性Aを持つオブジェクトは属性Bを持つ」というルールが成立する場合がある。これをアソシエーションルールと称する。このアソシエーションルールにおいて、属性Aを前提部、属性Bを結論部、前提部の属性をすべて持つオブジェクトのうち、結論部の属性も全て持つオブジェクトの割合を信頼度(%)と呼ぶ。特に、信頼度が100%の場合のアソシエーションルールは含意関係と称される。含意関係とアソシエーションルールにおいて、どれだけの信頼度のものを抽出すれば良いのかを判断する必要がある。本発明では、生物学における一般的な知見に基づいて、信頼度が60%以上のアソシエーションルール及び含意関係に着目して分析する。信頼度は、例えば、70%以上、75%以上、80%以上、85%以上、90%以上、95%以上のように設定してもよい。
【0033】
・形式概念分析の適用方法
形式概念分析の適用方法は、例えば、アミノ酸の性質、アミノ酸の分類、アミノ酸の分子量を属性としたコンテクス表を作成し、コンセプトラティスやアソシエーションルールを生成する方法である。
【0034】
・コンテクスト表の作成
コンテクスト表は、属性が2値で示されるため、各属性を2値化する必要がある。具体的には、以下の通りである。
【0035】
アミノ酸の性質について、例えば、表1に基づいて、親水性及び疎水性のうち、いずれであるかで各属性に分類する。
【0036】
【0037】
アミノ酸の分類について、該分類の基準は複数存在するが、例えば、Principles of biochemistry: with an extended discussion of oxygen-binding proteins / Albert L. Lehninger, David L. Nelson, Michael M. Cox. -- 2nd ed., [enl. with suppl.]. -- Worth Publishers, 1993.による非極性の脂肪族、負電荷、正電荷、芳香族、極性の非電荷の5つのアミノ酸の分類を参考に属性を決定してもよい。Lehningerによるアミノ酸の分類を表2に示す。表2をもとに、アミノ酸の性質が、脂肪族、負電荷、正電荷、芳香族、非電荷の5つのうちいずれであるかで各属性に分類する。
【0038】
【0039】
・アミノ酸の分子量
アミノ酸の分子量が、120 Da未満(mw-1)、120 Da以上140 Da未満(mw-2)、140 Da以上160 Da 未満(mw-3)、160 Da以上(mw-4)の4つのうちのいずれかであるかで、各属性を分類する。上記の属性をもとに、20個のアミノ酸をオブジェクト(A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W、Y)、合計7種類(親水性、疎水性、脂肪族、負電荷、正電荷、芳香族、非電荷、mw-1、mw-2、mw-3、mw-4)に分類した特徴を属性としてコンテクスト表を作成する。作成したコンテクスト表からコンセプトラティスを生成する。また、小規模なコンテクストの場合は、出力されたコンセプトラティスはあまり複雑ではないが、コンセプト数が増えるにつれてコンセプトラティスは複雑になっていくため、コンセプトラティスからコンセプト構造を読み取ることは困難となることがある。そのため、該場合は、コンセプトラティスから分析せずに、アソシエーションルールを用いて分析を行ってもよい。
【0040】
・アソシエーションルール
アソシエーションルールについて説明するために、形式概念分析を実行してられたルールから信頼度が60%以上かつ前提部の属性を持つオブジェクトの数が5以上であるアソシエーションルールを表3に示す。例えば、表3の一行目のルールは、「分子量が、160 Da以上のアミノ酸のうち80%は親水性の属性も持つ」ということを意味する。上述のコンセプトラティスから得られた関係において、含意関係として表したものを表4に示す。
【0041】
【0042】
【0043】
・回帰モデルの可視化
本発明の同定方法の具体的な手順について、一態様では、eSOLに記載されているタンパク質に対して網羅的に変異を導入したタンパク質の可溶性度合を学習済みのタンパク質可溶性予測モデル(回帰モデル)で予測し、予測した結果を形式概念分析することで、タンパク質の可溶性に関与するタンパク質の属性を同定する。本発明では、タンパク質のアミノ酸配列の一部位に網羅的に変異を導入し全てのアミノ酸配列を上述の回帰モデルで予測する。変異のルールとしては、ベースとなるアミノ酸配列のうち一部位を元のアミノ酸を除く19種類に変異させた19パターンの変異アミノ酸配列を変異アミノ酸配列として作成し、該回帰モデルで変異アミノ酸配列の可溶性度合を予測する。ただし、アミノ酸配列の1文字目に関しては、基本的にアミノ酸Mであるため、典型的には、該1文字目は変異させない。網羅的に変異を導入するタンパク質は、野生型のタンパク質であってもよい。また、導入する変異は、1~数個(2、3、4、5、6、7、8、9個等)であり、より具体的には、1~5個、1~3個、1又は2個、1個である。本明細書において、この予測結果について纏めたデータを変異予測データと称する場合がある。変異予測データには、タンパク質のクローン番号(JW ID)、変異導入前のアミノ酸(Before)、アミノ酸の変異導入位置(Position)、変異導入後のアミノ酸(After)、可溶性度合の予測値(Predict_sol)、可溶性度合の変化量(dif)(可溶性度合に関する属性)などが記載され得る。可溶性度合の変化量(可溶性度合に関する属性)は、変異導入前に予測したタンパク質の可溶性度合と変異導入後に予測したタンパク質の可溶性度合との差分を変化量として算出し得る。
【0044】
・形式概念分析に使用する属性
本発明の同定方法のタンパク質の属性を設定する工程において設定される属性としては、機械学習器(タンパク質可溶性予測モデル)の入出力に使用し得るものであれば特に限定されず、例えば、上述したような方法により属性を抽出し、設定してもよい。具体的には、(A)タンパク質の一次構造(アミノ酸配列)データや構造情報データ並びにアミノ酸の生化学属性等をデータベースに集約する。それらを形式概念分析で形式化することにより、可溶性に影響を与えそうな属性を論理式として整理する。これにより、可溶化の因子となる属性を抽出する。該属性の具体例としては、可溶性度合の変化量と変異導入前のアミノ酸、変異導入後のアミノ酸、変異導入前のアミノ酸の性質、変異導入後のアミノ酸の性質、変異導入前のアミノ酸の分類、変異導入後のアミノ酸の分類、アミノ酸の変異導入位置、アミノ酸の変異導入位置の二次構造などが挙げられる。形式概念分析に使用するコンテクスト表を作成するには属性を2値で与える必要がある。以下にそれぞれの属性を2値化する方法を説明する。
【0045】
・可溶性度合の変化
可溶性度合の変化は、可溶性度合が上がった(Pre-sol-up)又は可溶性度合が下がった(Pre-sol-down)の2つのうちどちらかの属性に分類する。変異予測データの可溶性度合の変化量の値が、例えば、0.055より大きければ、可溶性度合が上がったに分類し、値が-0.055より小さければ、可溶性度合が下がったに分類する。0.055という値は形式概念分析を行う上で、計算機が許容できる最低限の値のため好適に用い得るが、該値に限定されることはなく、例えば、-1~1の値の間で、適宜設定し得る。形式概念分析で全ての変異に対して分析を行おうとすると、計算機に膨大な負荷がかかり、計算機では形式概念分析を行うことができない状態になってしまう場合がある。そのため、可溶性度合の変化量に最低限の閾値を設けて、タンパク質の変異の数を削減し、計算機で処理ができる範囲までタンパク質の変異の数を削減してもよい。
【0046】
・変異導入前のアミノ酸
変異導入前のアミノ酸が、どのアミノ酸であるかで各属性に分類する。例えば、変異導入前のアミノ酸がA(アラニン)の場合、「変異導入前のアミノ酸がA(Before-A)」という属性となる。
【0047】
・変異導入後のアミノ酸
変異導入後のアミノ酸が、どのアミノ酸であるかで各属性に分類する。例えば変異導入後のアミノ酸がAの場合、「変異導入後のアミノ酸がA(After-A)」という属性となる。
【0048】
・変異導入前のアミノ酸の性質
例えば、表1に従って、変異導入前のアミノ酸を、親水性又は疎水性のいずれかの属性に分類する。例えば、変異導入前のアミノ酸が親水性の場合、「変異導入前のアミノ酸が親水性(Before-親水)」という属性となる。
【0049】
・変異導入後のアミノ酸の性質
例えば、表1に従って、変異導入後のアミノ酸を、親水性又は疎水性のいずれかの属性に分類する。例えば、変異導入後のアミノ酸が親水性の場合、「変異後のアミノ酸が親水性(After-親水)」という属性となる。
【0050】
・変異導入前のアミノ酸の分類
例えば、表2に従って、変異導入前のアミノ酸が、脂肪族、負電荷、正電荷、芳香族、非電荷の5つのうちいずれであるかで各属性に分類する。例えば、変異導入前のアミノ酸が親水性の場合、「変異導入前のアミノ酸が親水性(Before-親水)」という属性となる。
【0051】
・変異導入後のアミノ酸の分類
例えば、表2に従って、変異導入後のアミノ酸が、脂肪族、負電荷、正電荷、芳香族、非電荷の5つのうちいずれであるかで各属性に分類する。例えば、変異導入後のアミノ酸が親水性の場合、「変異後のアミノ酸が親水性(After-親水)」という属性となる。
【0052】
・アミノ酸の変異導入位置
例えば、アミノ酸の変異導入位置は、下記の数1より、アミノ酸配列に対する相対的な変異導入位置p算出し、pの値が0以上0.25未満の範囲(position-1)、0.25以上0.5未満の範囲(position-2)、0.5以上0.75未満の範囲(position-3)、0.75以上1以内の範囲(position-4)の4つのうちどれであるかで各属性に分類する。下記の数1において、「タンパク質のアミノ酸配列の最大長」とは、変異導入位置pの算出を所望するタンパク質の全長アミノ酸配列を意味し得る。本明細書において、position-1~position-2の領域を「アミノ酸配列の前半部分」、position-3~position-4の領域を「アミノ酸配列の後半部分」とも称する。
【0053】
【0054】
・アミノ酸の変異導入位置の二次構造
例えば、変異導入位置の二次構造が、αヘリックス、βシート、コイルの3つのうちいずれであるかで分類する。例えば、変異導入位置の二次構造がαヘリックスの場合、「変異導入位置の二次構造がαヘリックス(Helix)」という属性となる。
【0055】
・コンテクスト表の作成
上述したような属性をもとに、形式概念分析の入力として与える、コンテクスト表を作成する。該作成したコンテクスト表をもとに形式概念分析を行う。
【0056】
・アソシエーションルール
本発明における同定では、変異導入によって可溶性度合が変化したか否かを分析するため、得られたルールのうち、結論部に可溶性度合が上がる属性を持つルールと可溶性度合が下がる属性を持つルールの抽出を行う。また、ルールの抽出条件として、例えば、信頼度が60%以上のルールのみを抽出する。なお、信頼度は、0~100の値の間で、適宜設定し得、例えば、70%以上、75%以上、80%以上、85%以上、90%以上、95%以上のように設定してもよい。このようにして抽出したルールに基づいて、後述するような各属性と可溶性度合の変化の関係を分析する。
【0057】
・アミノ酸から(他の)アミノ酸への変異と可溶性度合の変化の関係の分析
アミノ酸から(他の)アミノ酸への変異と可溶性度合の変化の関係について、可溶性度合が上がる場合と可溶性度合が下がる場合の二つに分けて分析する。
【0058】
・アミノ酸の変異導入位置の二次構造と可溶性度合の変化の関係の分析
アミノ酸から(他の)アミノ酸への変異と可溶性度合の変化の関係について、可溶性度合が上がる場合と可溶性度合が下がる場合の二つに分けて分析する。
【0059】
・アミノ酸の変異導入位置と可溶性度合の変化の関係
アミノ酸の変異導入位置と可溶性度合の変化量の関係について、可溶性度合が上がる場合と可溶性度合が下がる場合の二つに分けて分析する。
【0060】
・複数属性と可溶性度合の変化の関係
本発明の同定方法では、アミノ酸から(他の)アミノ酸への変異において可溶性度合の変化に影響を与え得るアミノ酸の変異に着目し、複数の属性と可溶性度合の変化の関係を分析することで、可溶性度合に影響を与える要因を探索してもよい。この場合、複数の属性には上述の設定した全ての属性を使用してもよい。また、可溶性度合が上がる場合の変異のみに着目し、タンパク質の可溶性度合が上がりやすい変異の傾向のみを探索してもよい。
【0061】
・分類モデルの可視化
本発明の同定方法の具体的な手順について、一態様では、414種類の高度好熱菌サーマス・サーモフィルス由来タンパク質の可溶性発現について纏めたデータ集(富山県立大学工学部 生物工学研究センター 酵素化学工学研究室 (浅野研究室))(本明細書において、「サーマスデータ」と称する場合がある)に記載されているタンパク質に対して網羅的に変異を導入したタンパク質の可溶性発現確率を、学習済みのタンパク質可溶性予測モデル(分類モデル)で予測し、予測した結果を形式概念分析することで、タンパク質の可溶性に関与するタンパク質の属性を同定する。本発明では、タンパク質のアミノ酸配列の一部位に網羅的に変異を導入し全てのアミノ酸配列を上述の分類モデルで予測する。変異のルールとしては、ベースとなるアミノ酸配列のうち一部位を元のアミノ酸を除く19種類に変異させた19パターンの変異アミノ酸配列を変異アミノ酸配列として作成し、該分類モデルで変異アミノ酸配列の可溶性発現確率を予測する。ただし、アミノ酸配列の1文字目に関しては、基本的にアミノ酸Mであるため、典型的には、該1文字目は変異させない。網羅的に変異を導入するタンパク質は、野生型のタンパク質であってもよい。また、導入する変異は、1~数個(2、3、4、5、6、7、8、9個等)であり、より具体的には、1~5個、1~3個、1又は2個、1個である。本明細書において、この予測結果についてまとめたデータを変異予測データと称する場合がある。変異予測データには、タンパク質の名前(name)、変異導入前のアミノ酸(Before)、アミノ酸の変異導入位置(Position)、変異導入後のアミノ酸(After)、可溶性発現確率の予測値(Predict_sol)、可溶性発現確率の変化量(dif)(本発明において、該変化量も可溶性度合に関する属性に含まれる)などが記載され得る。可溶性発現確率の変化量(可溶性度合に関する属性)は、変異導入前に予測したタンパク質の可溶性発現確率と変異導入後に予測したタンパク質の可溶性発現確率との差分を変化量として算出し得る。
【0062】
・形式概念分析に使用する属性
本発明の同定方法のタンパク質の属性を設定する工程において設定される属性としては、機械学習器(タンパク質可溶性予測モデル)の入出力に使用し得るものであれば特に限定されず、例えば、上述したような方法により属性を抽出し、設定してもよい。具体的には、(A)タンパク質の一次構造(アミノ酸配列)データや構造情報データ並びにアミノ酸の生化学属性等をデータベースに集約する。それらを形式概念分析で形式化することにより、可溶性(発現)に影響を与えそうな属性を論理式として整理する。これにより、可溶化の因子となる属性を抽出する。該属性の具体例としては、可溶性発現確率の変化量と変異導入前のアミノ酸、変異導入後のアミノ酸、変異導入前のアミノ酸の性質、変異導入後のアミノ酸の性質、変異導入前のアミノ酸の分類、変異導入後のアミノ酸の分類、アミノ酸の変異導入位置、アミノ酸の変異導入位置のDisorder領域などが挙げられる。本明細書において、Disorder領域とは、タンパク質の立体構造において、構造的揺らぎが大きいことによって構造が決まらなかった領域のことを意味する。Disorder領域は、0から1の値を採り、該値が低いほど構造が安定していることを表す。Disorder領域は、自体公知の方法やタンパク質のdisorder領域の予測を行い得るサイト(例:P. Radivojac, et al., Biophys J. 2007 Mar 1;92(5):1439-56. doi: 10.1529/biophysj.106.094045やJpred4(http://www.compbio.dundee.ac.uk/jpred/)、PSIPHRED(http://bioinf.cs.ucl.ac.uk/psipred/)、NetSurfP2.0(https://services.healthtech.dtu.dk/services/NetSurfP-2.0/)、DISOPRED(http://bioinf.cs.ucl.ac.uk/disopred/)、Predictor of Natural Disordered Regions (PONDR)(http://www.pondr.com)など)を利用等して予測し得る。また、disorder領域の実測値としては、例えば、X線結晶構造解析で得られた構造情報の、B-ファクターが大きい部位(構造的揺らぎが大きい領域)を該実測値としてもよい。一態様では、本発明におけるdisorder領域は、NetSurfP2.0(https://services.healthtech.dtu.dk/services/NetSurfP-2.0/)により予測されたものである。形式概念分析に使用するコンテクスト表を作成するには属性を2値で与える必要がある。以下にそれぞれの属性を2値化する方法を説明する。
【0063】
・可溶性発現確率の変化
可溶性発現確率の変化は、可溶性発現確率が上がった(Pre-sol-up)又は可溶性発現確率が下がった(Pre-sol-down)の2つのうちどちらかの属性に分類する。変異予測データの可溶性発現確率の変化量の値が、例えば、0.002より大きければ、可溶性発現確率が上がったに分類し、値が-0.002より小さければ、可溶性発現確率が下がったに分類する。0.002という値は形式概念分析を行う上で、計算機が許容できる最低限の値のため好適に用い得るが、該値に限定されることはなく、例えば、-1~1の値の間で、適宜設定し得る。形式概念分析で全ての変異に対して分析を行おうとすると、計算機に膨大な負荷がかかり、計算機では形式概念分析を行うことができない状態になってしまう場合がある。そのため、可溶性発現確率の変化量に最低限の閾値を設けて、タンパク質の変異の数を削減し、計算機で処理ができる範囲までタンパク質の変異の数を削減してもよい。
【0064】
・変異導入前のアミノ酸
変異導入前のアミノ酸が、どのアミノ酸であるかで各属性に分類する。例えば、変異導入前のアミノ酸がA(アラニン)の場合、「変異導入前のアミノ酸がA(Before-A)」という属性となる。
【0065】
・変異導入後のアミノ酸
変異導入後のアミノ酸が、どのアミノ酸であるかで各属性に分類する。例えば変異導入後のアミノ酸がAの場合、「変異導入後のアミノ酸がA(After-A)」という属性となる。
【0066】
・変異導入前のアミノ酸の性質
例えば、表1に従って、変異導入前のアミノ酸を、親水性又は疎水性のいずれかの属性に分類する。例えば、変異導入前のアミノ酸が親水性の場合、「変異導入前のアミノ酸が親水性(Before-親水)」という属性となる。
【0067】
・変異導入後のアミノ酸の性質
例えば、表1に従って、変異導入後のアミノ酸を、親水性又は疎水性のいずれかの属性に分類する。例えば、変異導入後のアミノ酸が親水性の場合、「変異後のアミノ酸が親水性(After-親水)」という属性となる。
【0068】
・変異導入前のアミノ酸の分類
例えば、表2に従って、変異導入前のアミノ酸が、脂肪族、負電荷、正電荷、芳香族、非電荷の5つのうちいずれであるかで各属性に分類する。例えば、変異導入前のアミノ酸が親水性の場合、「変異導入前のアミノ酸が親水性(Before-親水)」という属性となる。
【0069】
・変異導入後のアミノ酸の分類
例えば、表2に従って、変異導入後のアミノ酸が、脂肪族、負電荷、正電荷、芳香族、非電荷の5つのうちいずれであるかで各属性に分類する。例えば、変異導入後のアミノ酸が親水性の場合、「変異後のアミノ酸が親水性(After-親水)」という属性となる。
【0070】
・アミノ酸の変異導入位置
例えば、アミノ酸の変異導入位置は、上述の数1より、アミノ酸配列に対する相対的な変異導入位置p算出し、pの値が0以上0.25未満の範囲(position-1)、0.25以上0.5未満の範囲(position-2)、0.5以上0.75未満の範囲(position-3)、0.75以上1以内の範囲(position-4)の4つのうちどれであるかで各属性に分類する。
【0071】
・アミノ酸の変異導入位置の二次構造
例えば、変異導入位置の二次構造が、αヘリックス、βシート、コイルの3つのうちいずれであるかで分類する。例えば、変異導入位置の二次構造がαヘリックスの場合、「変異導入位置の二次構造がαヘリックス(Helix)」という属性となる。
【0072】
・アミノ酸の変異位置のDisorder領域
例えば、アミノ酸の変異導入位置のDisorder領域の値が、0.01未満(Disorder-1)、0.01以上0.1未満(Disorder-2)、0.1以上0.3未満(Disorder-3)、0.3以上0.8未満(Disorder-4)、0.8以上(Disorder-5)の5つのうちいずれであるかで各属性を分類する。例えば、変異導入位置のDisorder領域の値が0.2の場合、「変異導入位置のDisorder領域の値が0.1以上0.3未満(Disorder-3)」という属性となる。
【0073】
・コンテクスト表の作成
上述したような属性をもとに、形式概念分析の入力として与える、コンテクスト表を作成する。該作成したコンテクスト表をもとに形式概念分析を行う。
【0074】
・アソシエーションルール
本発明における同定では、変異導入によって可溶性発現確率が変化したか否かを分析するため、得られたルールのうち、結論部に可溶性発現確率が上がる属性を持つルールと可溶性発現確率が下がる属性を持つルールの抽出を行う。また、ルールの抽出条件として、例えば、信頼度が60%以上のルールのみを抽出する。なお、信頼度は、0~100の値の間で、適宜設定し得、例えば、70%以上、75%以上、80%以上、85%以上、90%以上、95%以上のように設定してもよい。このようにして抽出したルールに基づいて、後述するような各属性と可溶性発現確率の変化の関係を分析する。
【0075】
・アミノ酸から(他の)アミノ酸への変異と可溶性発現確率の変化の関係の分析
アミノ酸から(他の)アミノ酸への変異と可溶性発現確率の変化の関係について、可溶性発現確率が上がる場合と可溶性発現確率が下がる場合の二つに分けて分析する。
【0076】
・アミノ酸の変異導入位置のdisorder領域と可溶性発現確率の変化の関係の分析
アミノ酸から(他の)アミノ酸への変異と可溶性発現確率の変化の関係について、可溶性度合が上がる場合と可溶性度合が下がる場合の二つに分けて分析する。
【0077】
・アミノ酸の変異導入位置と可溶性発現確率の変化の関係
アミノ酸の変異導入位置と可溶性発現確率の変化量の関係について、可溶性発現確率が上がる場合と可溶性度合が下がる場合の二つに分けて分析する。
【0078】
・複数属性と可溶性度合の変化の関係
本発明の同定方法では、アミノ酸から(他の)アミノ酸への変異において可溶性発現確率の変化に影響を与え得るアミノ酸の変異に着目し、複数の属性と可溶性発現確率の変化の関係を分析することで、可溶性発現確率に影響を与える要因を探索してもよい。この場合、複数の属性には上述の設定した全ての属性を使用してもよい。変異導入位置のDisorder領域については、区分が離れており、Disorder領域の値の違いがわかるDisorder-1とDisorder-5の属性のみを属性として使用してもよい。また、可溶性度合が上がる場合の変異のみに着目し、タンパク質の可溶性度合が上がりやすい変異の傾向のみを探索してもよい。
【0079】
・同定したタンパク質の可溶性に関与するタンパク質の属性
本発明の同定方法により得られたタンパク質の可溶性を上昇させるタンパク質の属性としては、例えば、以下:
(i)タンパク質を構成するアミノ酸のうち、アルギニン、チロシン、及びグルタミンからなる群から選択される少なくとも1つのアミノ酸の、アルギニン、チロシン、及びグルタミン以外のアミノ酸への置換、
(ii)タンパク質を構成するグリシン、バリン、スレオニン、システイン、及びリシン以外のアミノ酸の、グリシン、バリン、スレオニン、システイン、又はリシンへの置換、並びに
(iii)タンパク質のdisorder領域中の芳香族アミノ酸のグリシン、バリン、又はスレオニンへの置換
等が挙げられる。
【0080】
上記(i)~(iii)の置換の対象となるアミノ酸は、タンパク質のアミノ酸配列の後半部分のアミノ酸であることが好ましい。また、タンパク質のdisorder領域中の芳香族アミノ酸が親水性であることも好ましい。
【0081】
2.本発明の製造方法
本発明は、可溶性の向上したタンパク質の製造方法であって、本発明の同定方法により同定された属性を有するようにタンパク質を改変する工程を含む、方法(本明細書において、本発明の製造方法(1)ともいう)を提供する。
本発明の製造方法(1)は、本発明の同定方法により同定されたタンパク質の可溶性度合が向上するような属性(可溶性が上昇するような属性)を、製造を企図するタンパク質が有するように該タンパク質を改変し得る。具体的なタンパク質の製造や改変(変異導入等)は、自体公知の方法に基づいて、適宜設計・設定等することで行い得る。
【0082】
また、本発明は、可溶性の向上したタンパク質の製造方法であって、以下:
タンパク質を構成するアミノ酸のうち、アルギニン、チロシン、及びグルタミンからなる群から選択される少なくとも1つのアミノ酸を、アルギニン、チロシン、及びグルタミン以外のアミノ酸に置換する工程、
タンパク質を構成するグリシン、バリン、スレオニン、システイン、及びリシン以外のアミノ酸を、グリシン、バリン、スレオニン、システイン、又はリシンに置換する工程、及び
タンパク質のdisorder領域中の芳香族アミノ酸をグリシン、バリン、又はスレオニンに置換する工程、
からなる群から選択される1以上の工程を含む、方法(本明細書において、本発明の製造方法(2)ともいう)も提供する。
【0083】
本発明の製造方法(2)において、置換の対象となるアミノ酸は、タンパク質のアミノ酸配列の後半部分のアミノ酸であることが好ましい。また、タンパク質のdisorder領域中の芳香族アミノ酸が親水性であることも好ましい。
【0084】
本発明の製造方法(2)は、本発明の同定方法により同定されたようなタンパク質の可溶性度合が向上するような属性(可溶性が上昇するような属性)を、製造を企図するタンパク質が有するように該タンパク質を改変し得る。具体的なタンパク質の製造や改変(変異導入等)は、自体公知の方法に基づいて、適宜設計・設定等することで行い得る。例えば、本発明の製造方法で用いる、材料や方法は、以下のようなものである。
【0085】
大腸菌の場合、変異を導入する目的タンパク質を構成するアミノ酸配列をコードする遺伝子を保持する大腸菌の培養は、バッチ培養、連続培養等で行ってもよい。また、静置培養や振盪培養であってもよいが、振盪培養が好ましい。培地は、LB培地(Yeast extract 5.0 g/l、NaCl 10.0 g/l、Tryptone 10.0 g/l)などを使用することができる。培養方法としては、例えば、37℃で菌体濁度0.5付近まで培養し、IPTGを添加後、温度16~37℃で16~24時間培養するなどが挙げられるが、組換え大腸菌の生育が可能であれば特に限定されるものではない。大腸菌以外の異種発現宿主の場合は、それぞれの宿主で用いられている自体公知の培養方法を用いることができる。
【0086】
・タンパク質の抽出
本培養後、大腸菌等の宿主を破砕し、変異が導入された目的タンパク質を含む粗酵素液を調製することができる。本発明では、大腸菌等の宿主を集菌し、超音波破砕機などで細胞を破壊し、遠心分離で上清と封入体を含む沈殿に分離して得られる上清(可溶性画分)を粗酵素液として用い得る。本発明の製造方法で得られる変異が導入された目的タンパク質は、通常は可溶性であるため、この粗タンパク質懸濁液には所定の活性や機能を有する変異が導入された目的タンパク質が含まれる。従って、得られた粗タンパク質懸濁液を変異が導入された目的タンパク質含有液としてそのまま利用することができる。また、得られた粗タンパク質懸濁液から変異が導入された目的タンパク質を単離精製して使用することもできる。この場合、変異が導入されたタンパク質の単離精製には一般的な生化学的方法(例えば硫酸アンモニウム沈殿、ゲルクロマトグラフィー、イオン交換クロマトグラフィー、アフィニティークロマトグラフィー等)を単独で又は適宜組み合わせて用いることができる。単離精製された変異が導入された目的タンパク質は、例えば、所定のpHの緩衝液等に懸濁された状態などで利用することができる。
【0087】
大腸菌等で発現させた変異導入タンパク質の中から、天然型において得られる活性と同種の酵素活性を有するタンパク質(活性型変異酵素)を選択してもよい。活性型変異酵素の選択は、例えば、以下のように実施できる。各タンパク質が天然型において有する酵素活性を測定できる系において、得られた組換えタンパク質の酵素活性を測定することで実施できる。酵素活性の測定系は、各酵素について知られている方法を適宜利用できる。
【0088】
本発明の製造方法(1)と(2)の上記以外の必要な事項は、「1.本発明の同定方法」の内容を全て援用する。
【0089】
3.本発明の向上方法
本発明は、タンパク質の可溶性の向上方法であって、以下:
タンパク質を構成するアミノ酸のうち、アルギニン、チロシン、及びグルタミンからなる群から選択される少なくとも1つのアミノ酸を、アルギニン、チロシン、及びグルタミン以外のアミノ酸に置換する工程、
タンパク質を構成するグリシン、バリン、スレオニン、システイン、及びリシン以外のアミノ酸を、グリシン、バリン、スレオニン、システイン、又はリシンに置換する工程、及び
タンパク質のdisorder領域中の芳香族アミノ酸をグリシン、バリン、又はスレオニンに置換する工程、
からなる群から選択される1以上の工程を含む、方法を提供する。
【0090】
本発明のタンパク質の可溶性の向上方法において、置換の対象となるアミノ酸は、タンパク質のアミノ酸配列の後半部分のアミノ酸であることが好ましい。また、タンパク質のdisorder領域中の芳香族アミノ酸が親水性であることも好ましい。
【0091】
本発明のタンパク質の可溶性の向上方法は、本発明の同定方法により同定されたようなタンパク質の可溶性度合が向上するような属性(可溶性が上昇するような属性)を、所望するタンパク質が有するようにアミノ酸の置換を行い得る。具体的なアミノ酸の置換方法(変異導入方法)等は、自体公知の方法に基づいて、適宜設計・設定することで行い得る。
【0092】
本発明の向上方法の上記以外の必要な事項は、「1.本発明の同定方法」及び「2.本発明の製造方法」の内容を全て援用する。
【0093】
以下に実施例を挙げて本発明をより具体的に説明するが、本発明はこれらに何ら限定されるものではない。
【実施例0094】
実施例1:再帰型ニューラルネットワークによる可溶性予測(学習済みのタンパク質可溶性予測モデルの作成)
RNNの一種であるLSTMを使用して、後述するように、タンパク質の構造情報から可溶性度合を予測して出力する回帰モデルと、タンパク質の構造情報から「可溶性」か「不溶性」かを分類予測する分類モデルを構築した。
【0095】
・回帰モデルについて
(1)使用するデータ
学習させるタンパク質のデータとして「Solubility database of all Escherichia coli proteins (eSOL)」を使用した(eSOL database developed in the Targeted Proteins Research Project, http://www.tanpaku.org/tp-esol/index.php?lang=en (accessed May. 26, 2022))。eSOLは、再構築型の試験管内タンパク質合成系であるPURE systemを用いて、大腸菌(E. coli)の全てのタンパク質を発現させた際の凝集の度合い(可溶率)と合成量の実験結果を網羅したデータ集であり、タンパク質のデータが纏められている。データには各タンパク質のクローンID(JW_ID)や可溶性度合(Solubility)、分子量(Calculated MW)など、タンパク質に関するデータが纏められている。ネットワークの学習にはeSOLの8割を学習するための学習データとし、残りの2割を回帰モデルの予測精度検証のためのテストデータとした。eSOLにはタンパク質の二次構造が保存されていない。そのため、二次構造に関する情報を他のところから取得する必要がある。実施例1では、二次構造情報を取得する手段としてPSIPREDを使用した。PSIPREDは、PSI-BLASTの出力を解析する順伝搬のニューラルネットワークを組み込んだ二次構造予測手法の一つである。
【0096】
(2)ニューラルネットワークの構築
実施例1では、タンパク質のアミノ酸配列と二次構造情報から可溶性度合を予測する回帰モデルを作成するため、出力層にはノードを一つ置いた。出力層の活性化関数には恒等関数を用いた。この恒等関数は、下記の数2に示すように引数として受け取った値をそのまま出力する関数である。
【0097】
【0098】
(3)学習時の各種設定
・学習設定
実施例1で作成した回帰モデルの損失関数には平均二乗誤差を使用した。平均二乗誤差は損失をlとすると、以下の数3に示す式で求められる。
【0099】
【0100】
上記の式においてxNはネットワークに入力するN番目のデータを示す。dNは、入力xNにおける正解を示している。f(xN)は、xNを入力としてネットワークに入力した際の出力を示す。この関数の損失が最小となるようにネットワークの学習を行った。
【0101】
・ハイパーパラメータ
実施例1で作成したニューラルネットワークには4つのハイパーパラメータがある。表5に回帰モデルにおけるハイパーパラメータを示す。
【0102】
【0103】
・入力データ設定
アミノ酸配列と二次構造情報をそれぞれアミノ酸、二次構造1文字ごとに分割し、1文字を各時刻での入力とした。回帰モデルに20種類のアミノ酸と3種類の二次構造の組み合わせおよびダミー文字を情報として与えるため、文字を61次元のOne-hotベクトルに変換した。One-hot ベクトルとは1つの成分だけ1で、残りの成分が全て0となるベクトルのことである。例えば、アミノ酸Aを変換した場合、[1,0,0,0,...,0]といったベクトルとなり、別のアミノ酸Cでは、[0,1,0,0,...,0]といったように変換する文字の種類によって1となる成分が変わる。
【0104】
また、LSTMでミニバッチ学習を行うにはデータの長さ、つまりアミノ酸配列の長さを統一する必要がある。そこで、実施例1ではアミノ酸配列の長さを600文字に制限した。タンパク質によってはアミノ酸配列の長さが600文字に満たないものがある。その場合は、文字が600文字となるようにダミー文字Xでパディングすることで、全てのデータの長さを統一した。以上の設定によりLSTMに与える入力データの次元はB×61×nとなる。Bはバッチサイズを表している。nはアミノ酸配列長をNとした時、下記の数4を基に算出した。
【0105】
【0106】
(4)学習結果
学習データを学習させた回帰モデル(学習済みのタンパク質可溶性予測モデル)によるテストデータの可溶性度合予測の結果を
図2に示す。図の横軸は回帰モデルが出力した予測値、縦軸は正答値を示している。作成した回帰モデルの精度を評価するために、正答率を求めるルールを設けた。予測値が正答値から0.2(20%)以下の差であれば十分な予測ができているものとした。図中、破線で囲まれた領域はその範囲を示している。テストデータのうち、破線の領域の範囲に含まれる割合を正答率とした。タンパク質のアミノ酸配列と二次構造について学習させて作成した回帰モデルの予測結果では、決定係数(R2)が0.38、散布図の回帰直線の傾きが0.77、正答率が65%であった。決定係数0.38 という値は、他で作成されたeSOLに記載されているタンパク質の可溶性度合を予測する回帰モデル(Xi Han, et al., Bioinformatics, Volume 35, Issue 22, November 2019, Pages 4640-4646, https://doi.org/10.1093/bioinformatics/btz294)と同程度の予測精度であり、作成した回帰モデルは十分な精度を持つモデルであるといえる。
【0107】
・分類モデルについて
(1)使用するデータ
分類モデルを学習させるタンパク質のデータとして、富山県立大学工学部 生物工学研究センター 酵素化学工学研究室 (浅野研究室)の実験データを使用した。該データは、大腸菌発現系を検討した414種類の高度好熱菌サーマス・サーモフィルス(Thermus thermophilus)由来タンパク質の可溶性発現について纏めたデータ集である。該データ集では、タンパク質の溶解性(sol)について、-、+、++、+++の4通りのクラスで評価しており、実施例では、Solのクラスが-の場合を不溶性とし、-以外の場合を可溶性とした2値分類のモデルを作成した。また、該データの8割を学習用データとし、残りの2割を分類モデルの予測精度検証のためのテストデータとした。
【0108】
(2)ニューラルネットワークの構成
実施例では、タンパク質を「可溶性」、「不溶性」の2クラスに分類する分類モデルを作成するため、出力層にはそれぞれのクラスに対応する2つのノードを置いた。出力層の活性化関数には、ソフトマックス関数を用いた。ソフトマックス関数は、出力層のk番目のノードへの総入力をukとすると、下記の数5の式に示される関数となる。
【0109】
【0110】
上記関数の特徴として、以下の数6で示されるようになるため、各ノードの出力を確率として捉えることができる。
【0111】
【0112】
従って、ニューラルネットワークに入力されたタンパク質が可溶性である確率、不溶性である確率を出力しているといえる。分類モデルは、この確率が最大値となったクラスに入力されたタンパク質を分類する。本明細書において、タンパク質が可溶性である確率を「可溶性発現確率」と称する場合がある。
【0113】
(3)学習時の各種設定
・学習設定
実施例で作成するニューラルネットワークの損失関数には交差エントロピー誤差を使用した。交差エントロピー誤差は、損失をlとすると、下記の数7の式で求められる。
【0114】
【0115】
上記の式において、xnはネットワークに入力するn番目のデータを示す。dnは、入力xnにおける正解を示す。y(xn)は、入力をネットワークに入力した際の出力を示す。この関数の損失が最小となるようにネットワークの学習を行った。
【0116】
・ハイパーパラメータ
実施例で作成したニューラルネットワークには4つのハイパーパラメータがある。表6に分類モデルにおけるハイパーパラメータを示す。
【0117】
【0118】
・入力データ設定
アミノ酸配列をあるアミノ酸の位置から155個のアミノ酸を抜き出し、その155個のアミノ酸配列の塊を各時刻での入力とした。また、時刻が進むごとに、アミノ酸の位置を1つずつ後ろにずらしていった。分類モデルに20種類のアミノ酸およびダミー文字を情報として与えるため、文字を21次元のOne-hotベクトルに変換した。分類モデルではミニバッチ学習を行わないため、データの長さ、即ちアミノ酸配列の長さを統一する必要がない。従って、アミノ酸配列の長さの制限は行わないが、LSTMの各時刻には155の長さのアミノ酸配列を入れるため、155より短いアミノ酸配列はダミー文字Xを使用して長さを調整した。以上の設定によりLSTMに与える入力データの次元は、1×3255(21×155)×Wとなる。Wはアミノ酸配列長をNとした時、下記の数8の式を基に算出した。
【0119】
【0120】
・学習結果
学習データを学習させた分類モデル(学習済みのタンパク質可溶性予測モデル)によるテストデータの可溶性予測の結果から作成した混同行列を、以下の表7に示す。モデル評価のために混合行列から、下記の数9をもとに正解率を算出した。数9中のTP、TN、FP、FNは、それぞれ真陽性(True Positive)、真陰性(True Negative)、偽陽性(False Positive)、偽陰性(False Negative)の略であり、以下の表8のそれぞれの位置に対応している。
【0121】
【0122】
【0123】
【0124】
正解率を算出した結果、正解率は79.3%となった。従って、実施例で作成した分類モデルは、十分な予測精度を持つモデルであるといえる。
【0125】
実施例2:形式概念分析を用いた可溶性予測器の可視化(回帰モデル)
ニューラルネットワークモデルにはブラックボックス問題があり、モデルがどのような学習をしたのか説明することが困難である。そのため、実施例1で作成した回帰モデル及び分類モデルに対して形式概念分析を適用することで、これらのモデルが得た学習の傾向を分析し、説明が可能となるようモデルの可視化を試みることで、可溶性度合や可溶性発現確率を向上しやすい変異の探索を行った。
【0126】
・回帰モデルの可視化
実施例では、eSOLに記載されているタンパク質に対して網羅的に変異を導入したタンパク質の可溶性度合を学習済みのタンパク質可溶性予測モデル(回帰モデル)で予測し、予測した結果を形式概念分析することで、タンパク質の可溶性に関与するタンパク質の属性を同定した。
【0127】
(1)変異予測データ
実施例では、タンパク質のアミノ酸配列の一部位に網羅的に変異を導入し全てのアミノ酸配列を実施例1で作成した回帰モデルで予測した。変異のルールとしては、ベースとなるアミノ酸配列のうち一部位を元のアミノ酸を除く19種類に変異させた19パターンの変異アミノ酸配列を変異アミノ酸配列として作成し、該回帰モデルで変異アミノ酸配列の可溶性度合を予測した。ただし、アミノ酸配列の1文字目に関しては、基本的にアミノ酸Mであるため、該1文字目は変異させなかった。上記予測結果についてまとめたデータを、以下、「変異予測データ」と称する場合がある。変異予測データには、タンパク質のクローン番号(JW_ID)、変異導入前のアミノ酸(Before)、アミノ酸の変異導入位置(Position)、変異導入後のアミノ酸(After)、可溶性度合の予測値(Predict_sol)、可溶性度合の変化量(dif)(可溶性度合に関する属性)などを記載した。可溶性度合の変化量(可溶性度合に関する属性)は、変異導入前に予測したタンパク質の可溶性度合と変異導入後に予測したタンパク質の可溶性度合との差分を変化量として算出した。
【0128】
(2)形式概念分析に使用する属性
実施例では、形式概念分析の属性として、可溶性度合の変化量と変異導入前のアミノ酸、変異導入後のアミノ酸、変異導入前のアミノ酸の性質、変異導入後のアミノ酸の性質、変異導入前のアミノ酸の分類、変異導入後のアミノ酸の分類、アミノ酸の変異導入位置、アミノ酸の変異導入位置の二次構造を用いた。形式概念分析に使用するコンテクスト表を作成するには属性を2値で与える必要がある。以下にそれぞれの属性を2値化する方法を説明する。
【0129】
・可溶性度合の変化
可溶性度合の変化は、可溶性度合が上がった(Pre-sol-up)又は可溶性度合が下がった(Pre-sol-down)の2つのうちどちらかの属性に分類した。変異予測データの可溶性度合の変化量の値が、0.055より大きければ、可溶性度合が上がったに分類し、値が-0.055より小さければ、可溶性度合が下がったに分類した。0.055という値は形式概念分析を行う上で、計算機が許容できる最低限の値のため、該値に決定した。形式概念分析で全ての変異に対して分析を行おうとすると、計算機に膨大な負荷がかかり、計算機では形式概念分析を行うことができない状態になってしまう場合がある。そのため、可溶性度合の変化量に最低限の閾値を設けて、タンパク質の変異の数を削減し、計算機で処理ができる範囲までタンパク質の変異の数を削減した。
【0130】
・変異導入前のアミノ酸
変異導入前のアミノ酸が、どのアミノ酸であるかで各属性に分類した。例えば、変異導入前のアミノ酸がA(アラニン)の場合、「変異導入前のアミノ酸がA(Before-A)」という属性とした。
【0131】
・変異導入後のアミノ酸
変異導入後のアミノ酸が、どのアミノ酸であるかで各属性に分類した。例えば変異導入後のアミノ酸がAの場合、「変異導入後のアミノ酸がA(After-A)」という属性とした。
【0132】
・変異導入前のアミノ酸の性質
例えば、表1に従って、変異導入前のアミノ酸を、親水性又は疎水性のいずれかの属性に分類した。例えば、変異導入前のアミノ酸が親水性の場合、「変異導入前のアミノ酸が親水性(Before-親水)」という属性とした。
【0133】
・変異導入後のアミノ酸の性質
例えば、表1に従って、変異導入後のアミノ酸を、親水性又は疎水性のいずれかの属性に分類した。例えば、変異導入後のアミノ酸が親水性の場合、「変異後のアミノ酸が親水性(After-親水)」という属性とした。
【0134】
・変異導入前のアミノ酸の分類
例えば、表2に従って、変異導入前のアミノ酸が、脂肪族、負電荷、正電荷、芳香族、非電荷の5つのうちいずれであるかで各属性に分類した。例えば、変異導入前のアミノ酸が親水性の場合、「変異導入前のアミノ酸が親水性(Before-親水)」という属性とした。
【0135】
・変異導入後のアミノ酸の分類
例えば、表2に従って、変異導入後のアミノ酸が、脂肪族、負電荷、正電荷、芳香族、非電荷の5つのうちいずれであるかで各属性に分類した。例えば、変異導入後のアミノ酸が親水性の場合、「変異後のアミノ酸が親水性(After-親水)」という属性とした。
【0136】
・アミノ酸の変異導入位置
アミノ酸の変異導入位置は、上記の数1より、アミノ酸配列に対する相対的な変異導入位置p算出し、pの値が0以上0.25未満の範囲(position-1)、0.25以上0.5未満の範囲(position-2)、0.5以上0.75未満の範囲(position-3)、0.75以上1以内の範囲(position-4)の4つのうちどれであるかで各属性に分類した。上記の数1において、「タンパク質のアミノ酸配列の最大長」とは、変異導入位置pの算出を所望するタンパク質の全長アミノ酸配列を意味し得る。
【0137】
・アミノ酸の変異導入位置の二次構造
例えば、変異導入位置の二次構造が、αヘリックス、βシート、コイルの3つのうちいずれであるかで分類した。例えば、変異導入位置の二次構造がαヘリックスの場合、「変異導入位置の二次構造がαヘリックス(Helix)」という属性とした。
【0138】
(3)コンテクスト表の作成
上述したような属性をもとに、形式概念分析の入力として与える、コンテクスト表を作成した。該作成したコンテクスト表をもとに形式概念分析を行った。
【0139】
(4)アソシエーションルール
形式概念分析によって得られたアソシエーションルールの一部を表9に示す。変異導入によって可溶性度合が変化したか否かを分析するため、得られたルールのうち、結論部に可溶性度合が上がる属性を持つルールと可溶性度合が下がる属性を持つルールの抽出を行った。また、ルールの抽出条件として、例えば、信頼度が60%以上のルールのみを抽出した。抽出したルールのうち可溶性度合が上がる属性を持つルールの一部を表10に、可溶性度合が下がる属性を持つルールの一部を表11に示す。このようにして抽出したルールに基づいて、各属性と可溶性度合の変化の関係を分析した。
【0140】
【0141】
【0142】
【0143】
(5)アミノ酸から(他の)アミノ酸への変異と可溶性度合の変化の関係の分析
アミノ酸から(他の)アミノ酸への変異と可溶性度合の変化の関係について、可溶性度合が上がる場合と可溶性度合が下がる場合の二つに分けて分析した。
【0144】
・可溶性度合が上がるルールについて
可溶性度合が上がる場合における、特定のアミノ酸からアミノ酸への変異と可溶性度合の変化の関係を分析した。まず、表9のルールから前提部に変異前のアミノ酸と変異後のアミノ酸の属性を持ち、結論部に可溶性度合が上がる属性を持つルールを抽出した。その後、変異前のアミノ酸を行とし、変異後のアミノ酸を列とした表を作成し、抽出したルールに基づいて、どのアミノ酸がどのアミノ酸に変異したのかを分析し、アミノ酸からアミノ酸への変異について纏めた(
図3)。また、ルールの信頼度をもとにヒートマップ化(
図3)し、どの変異が可溶性度合に影響を与えやすいかを分析した。
【0145】
図3から、可溶性度合が上がる変異として、変異導入前のアミノ酸としてはアミノ酸Y (チロシン) 、W (トリプトファン) 、F (フェニルアラニン) 、R (アルギニン) が多く出現しており、変異導入後のアミノ酸としてはアミノ酸D (アスパラギン酸) 、E (グルタミン酸) 、K (リシン) が多く出現していることが分かった。
【0146】
図3のヒートマップの色の分布を見たとき、変異導入前のアミノ酸がアミノ酸D、E、Kの部分と変異導入前のアミノ酸がアミノ酸Y、W、R、Fの部分に色が全体的についている。その中でも変異導入前のアミノ酸がY、W、F、Rから変異導入後のアミノ酸がD、E、Kの部分の色が濃くなっていた。以上のことから、アミノ酸Y、Wのいずれかを変異させる、又はアミノ酸D、E、Kのいずれかへの変異は可溶性度合が上がりやすいと考えられた。その他に、アミノ酸Y、W、F、Rのいずれかからアミノ酸D、E、Kのいずれかへの変異も可溶性度合が上がりやすいと考えられた。
【0147】
・可溶性度合が下がるルールについて
可溶性度合が下がる場合における、特定のアミノ酸からアミノ酸への変異と可溶性度合の変化の関係を分析した。まず、表11のルールから前提部に変異導入前のアミノ酸と変異導入後のアミノ酸の属性を持ち、結論部に可溶性度合が下がる属性を持ち、結論部に可溶性度合が下がる属性を持つルールを抽出した。その後、変異導入前のアミノ酸を行とし、変異導入後のアミノ酸を列とした表を作成し、抽出したルールに基づいて、どのアミノ酸がどのアミノ酸に変異したのかを分析し、アミノ酸からアミノ酸への変異について纏めた。また、ルールの信頼度をもとにヒートマップ化し(
図4)、どの変異が可溶性度合に影響を与え易いかを分析した。
【0148】
図4から、可溶性度合が下がる変異として、変異導入前のアミノ酸としてアミノ酸D、E、Kが多く出現しており、変異後のアミノ酸としてアミノ酸Y、W、R、F、C (システイン) が多く出現していた。
【0149】
図4のヒートマップの色の分布から、変異導入前のアミノ酸がアミノ酸D、E、Kの部分と変異導入後のアミノ酸がアミノ酸Y、Wの部分が、全体的に色がついていることが分かった。その中でも、変異導入前のアミノ酸が、アミノ酸D、E、Kの部分は全体的に色が濃くなっていた。以上のことから、アミノ酸D、E、Kのいずれかを変異させる、又はアミノ酸Y、Wのいずれかへの変異は可溶性度合が下がり易いと考えられた。その他に、アミノ酸D、E、Kからアミノ酸R、F、Cへの変異も可溶性度合が下がり易いと考えられた。
【0150】
(6)アミノ酸の変異導入位置の二次構造と可溶性度合の変化の関係の分析
アミノ酸からアミノ酸の変異導入と可溶性度合の変化の関係について、可溶性度合が上がる場合と可溶性度合が下がる場合の二つに分けて分析した。
【0151】
・可溶性度合が上がるルールについて
可溶性度合が上がる場合における、アミノ酸の変異導入位置の二次構造ごとのアミノ酸から(他の)アミノ酸への変異と可溶性度合の変化の関係を分析した。まず、表10のルールから前提部に変異導入前のアミノ酸と変異導入後のアミノ酸、アミノ酸の変異導入位置の二次構造の属性を持ち、結論部に可溶性度合が上がる属性を持つルールを抽出した。その後、変異導入前のアミノ酸を行とし、変異導入後のアミノ酸を列とした表を作成し、抽出したルールに基づいて、どの二次構造上で、どのアミノ酸からアミノ酸に変異導入したのか分析した。変異導入位置の二次構造がコイルの場合のアミノ酸から(他の)アミノ酸への変異導入について
図5に纏め、変異導入位置の二次構造がβシートの場合のアミノ酸から(他の)アミノ酸への変異について
図6に纏め、変異導入位置の二次構造がαヘリックスの場合のアミノ酸から(他の)アミノ酸への変異導入について
図7に纏めた。また、ルールの信頼度をもとにヒートマップ化し(
図5~7)、どの変異が可溶性度合に影響を与え易いかを分析した。
【0152】
図5~7のそれぞれから、変異導入位置の二次構造がコイルの場合では、変異導入前のアミノ酸として、アミノ酸R、Y、Wが、変異導入後のアミノ酸として、アミノ酸G (グリシン) 、P (プロリン) 、A、D、Eが多く出現していることが分かった。変異導入位置の二次構造がβシートの場合では、変異導入前のアミノ酸として、アミノ酸Y、W、Fが、変異導入後のアミノ酸として、アミノ酸D、E、K、T (トレオニン) が多く出現していた。また、出現数は少ないが、変異導入後のアミノ酸として、アミノ酸Q (グルタミン) 、I (イソロイシン) が出現していた。変異導入位置の二次構造がαヘリックスの場合では、変異導入前のアミノ酸としてアミノ酸P、I、C、Y、Fが、変異導入後のアミノ酸としてはアミノ酸D、E、K、A、V (バリン) 、M (メチオニン) が多く出現していた。変異導入位置の二次構造ごとに可溶性度合が上がる変異として共通に出現している部分と異なる部分があり、二次構造ごとに可溶性度合が上がりやすい変異に違いがあることが分かった。
【0153】
図5~7のヒートマップの色の分布から、変異導入位置の二次構造がコイルの場合では、アミノ酸R、Y、Wからアミノ酸G、P、A、D、Eへの変異の部分が濃くなっていることが分かった。変異導入位置の二次構造がβシートの場合では、アミノ酸Y、W、Fからアミノ酸I、D、E、K、Tへの変異導入の部分が濃くなっていた。変異導入位置の二次構造がαヘリックスの場合では、アミノ酸P、I、C、Y、Fからアミノ酸A、V、D、E、Kへの変異の部分の色が濃くなっていた。
【0154】
以上のことから、どの二次構造においてもアミノ酸Yを変異、アミノ酸をアミノ酸D、E、Kのいずれかへの変異は可溶性度合が上がり易いと考えられた。二次構造ごとでは、変異導入位置の二次構造がコイルの場合は、アミノ酸Wを変異させる、または、アミノ酸Rからアミノ酸G、P、Aのいずれかへの変異は可溶性度合が上がり易いと考えられた。変異導入位置の二次構造がβシートの場合は、アミノ酸F、Wのいずれかからアミノ酸Tへの変異は可溶性度合が上がり易いと考えられた。変異導入位置の二次構造がαヘリックスの場合は、アミノ酸P、Iのいずれかからアミノ酸A、Vのいずれかへの変異は可溶性度合が上がり易いと考えられた。
【0155】
・可溶性度合が下がるルールについて
可溶性度合が下がる場合における、アミノ酸の変異導入位置の二次構造ごとのアミノ酸から(他の)アミノ酸への変異と可溶性度合の変化の関係を分析した。まず、表11のルールから前提部に変異導入前のアミノ酸と変異導入後のアミノ酸、アミノ酸の変異導入位置の二次構造の属性を持ち、結論部に可溶性度合が下がる属性を持つルールを抽出する。その後、変異導入前のアミノ酸を行とし、変異導入後のアミノ酸を列とした表を作成し、抽出したルールに基づいて、どの二次構造上で、どのアミノ酸からアミノ酸に変異したのかを分析した。変異導入位置の二次構造がコイルの場合のアミノ酸からアミノ酸への変異について
図8に纏め、変異導入位置の二次構造がβシートの場合のアミノ酸から(他の)アミノ酸への変異について
図9に纏め、変異導入位置の二次構造がαヘリックスの場合のアミノ酸から(他の)アミノ酸への変異導入について
図10に纏めた。また、ルールの信頼度をもとにヒートマップ化し(
図8~10)、どの変異が可溶性度合に影響を与え易いかを分析した。
【0156】
図8~10のそれぞれから、変異導入位置の二次構造がコイルの場合では、変異導入前のアミノ酸として、アミノ酸G、P、A、D、Eが、変異導入後のアミノ酸として、アミノ酸R、Y、Wが多く出現していることが分かった。変異導入位置の二次構造がβシートの場合では、変異導入前のアミノ酸として、アミノ酸D、E、K、Tが、変異導入後のアミノ酸として、アミノ酸Y、W、Fが多く出現していた。変異導入位置の二次構造がαヘリックスの場合では、変異導入前のアミノ酸としてアミノ酸A、V、D、E、Kが、変異導入後のアミノ酸としてはアミノ酸P、I、C、Y、F、Wが多く出現していた。変異導入位置の二次構造ごとに可溶性度合が上がる変異導入として共通に出現していた部分と異なる部分があり、二次構造ごとに可溶性度合が上がりやすい変異導入に違いがあることが分かった。
【0157】
図8~10のヒートマップの色の分布から、変異導入位置の二次構造がコイルの場合では、アミノ酸G、P、A、D、Eからアミノ酸R、Y、Wへの変異導入の部分が濃くなっていることが分かった。変異導入位置の二次構造がβシートの場合では、アミノ酸I、D、E、K、Tからアミノ酸Y、W、Fへの変異導入の部分が濃くなっていた。変異導入位置の二次構造がαヘリックスの場合では、アミノ酸P、I、C、Y、Fからアミノ酸A、V、D、E、Kへの変異導入の部分の色が濃くなっていた。
【0158】
以上のことから、どの二次構造においてもアミノ酸D、E、Kのいずれかを変異、アミノ酸のアミノ酸への変異は可溶性度合が下がり易いと考えられる。二次構造ごとでは、変異導入位置の二次構造がコイルの場合は、アミノ酸G、P、Aのいずれかをアミノ酸R、Wのいずれかへの変異は可溶性度合が下がり易いと考えられる。変異導入位置の二次構造がβシートの場合は、アミノ酸Tからアミノ酸F、Wへの変異は可溶性度合が下がり易いと考えられる。変異導入位置の二次構造がαヘリックスの場合は、アミノ酸P、Iのいずれかからアミノ酸A、Vのいずれかへの変異は可溶性度合が下がり易いと考えられる。
【0159】
(7)アミノ酸の変異導入位置と可溶性度合の変化の関係
アミノ酸の変異導入位置と可溶性度合の変化量の関係について、可溶性度合が上がる場合と可溶性度合が下がる場合の二つに分けて分析した。
【0160】
・可溶性度合が上がるルールについて
可溶性度合が上がる場合における、アミノ酸の変異導入位置ごとのアミノ酸から(他の)アミノ酸への変異と可溶性度合の変化の関係を分析した。まず、表10のルールから前提部に変異導入前のアミノ酸と変異導入後のアミノ酸、アミノ酸の変異導入位置の属性を持ち、結論部に可溶性度合が上がる属性を持つルールを抽出した。その後、変異導入前のアミノ酸を行とし、変異導入後のアミノ酸を列とした表を作成し、抽出したルールに基づいて、アミノ酸がどの位置でどのアミノ酸から(他の)アミノ酸に変異したのかを分析した。変異導入位置が、position-1の場合のアミノ酸から(他の)アミノ酸への変異について
図11に纏め、変異導入位置が、position-2の場合のアミノ酸から(他の)アミノ酸への変異について
図12に纏め、変異導入位置が、position-3の場合のアミノ酸から(他の)アミノ酸への変異について
図13に纏め、変異導入位置がposition-4の場合のアミノ酸から(他の)アミノ酸への変異について
図14に纏めた。また、ルールの信頼度をもとにヒートマップ化し(
図11~14)、どの変異が可溶性度合に影響を与え易いかを分析した。
【0161】
図11~14のそれぞれから、アミノ酸の変異導入位置ごとに可溶性度合が上がる変異導入として出現する変異導入が共通しているように見受けられた。どの変異導入位置においても、可溶性度合が上がる変異として、変異導入前のアミノ酸としてはアミノ酸Y、W、F、Rが多く出現しており、変異導入後のアミノ酸としてはアミノ酸D、E、Kが多く出現していた。これは実施例2の(5)から得られた傾向と似ており、変異導入位置ごとに可溶性度合が上がり易い変異に違いがないと考えられた。
【0162】
図11~14のヒートマップの色の分布から、変異導入前のアミノ酸がアミノ酸D、E、Kの部分と、変異導入後のアミノ酸がアミノ酸Y、Wの部分が、全体的に色がついていることが分かった。その中でも、変異導入前のアミノ酸がアミノ酸D、E、Kの部分は全体的に色が濃くなっていた。この傾向についても実施例2の(5)から得られた傾向と似ていた。
【0163】
以上のことから、アミノ酸の変異導入位置において、アミノ酸をどの位置で変異させても、可溶性度合が上がり易い変異の傾向に違いはないと考えられた。
【0164】
・可溶性度合が下がるルールについて
可溶性度合が下がる場合における、アミノ酸の変異導入位置ごとのアミノ酸から(他の)アミノ酸への変異と可溶性度合の変化の関係を分析した。まず、表11のルールから前提部に変異導入前のアミノ酸と変異導入後のアミノ酸、アミノ酸の変異導入位置の属性を持ち、結論部に可溶性度合が下がる属性を持つルールを抽出する。その後、変異導入前のアミノ酸を行とし、変異導入後のアミノ酸を列とした表を作成し、抽出したルールに基づいて、アミノ酸がどの位置でどのアミノ酸から(他の)アミノ酸に変異したのかを分析した。変異導入位置がposition-1の場合のアミノ酸から(他の)アミノ酸への変異について
図15に纏め、変異導入位置がposition-2の場合のアミノ酸から(他の)アミノ酸への変異について
図16に纏め、変異導入位置がposition-3の場合のアミノ酸から(他の)アミノ酸への変異について
図17に纏め、変異導入位置がposition-4の場合のアミノ酸から(他の)アミノ酸への変異について
図18に纏めた。また、ルールの信頼度をもとにヒートマップ化し(
図15~18)、どの変異導入が可溶性度合に影響を与え易いかを分析した。
【0165】
それぞれの図から、可溶性度合が下がる変異として、変異導入前のアミノ酸としてアミノ酸D、E、Kが多く出現しており、変異導入後のアミノ酸としてアミノ酸Y、W、R、F、C (システイン) が多く出現していることが分かった。これは実施例2の(5)から得られた傾向と似ており、変異導入位置ごとに可溶性度合が上がり易い変異に違いがないと考えられた。
【0166】
図15~18のヒートマップの色の分布から、変異導入前のアミノ酸がアミノ酸D、E、Kの部分と変異導入後のアミノ酸が、アミノ酸Y、Wの部分が、全体的に色がついていることが分かった。その中でも、変異導入前のアミノ酸がアミノ酸D、E、Kの部分は全体的に色が濃くなっていた。
【0167】
以上のことから、アミノ酸の変異導入位置においては、どの位置で変異させても、可溶性度合が下がり易い変異に違いはないと考える。
【0168】
(8)複数属性と可溶性度合の変化の関係
アミノ酸から(他の)アミノ酸への変異において可溶性度合の変化に影響を与え得るアミノ酸の変異に着目し、複数の属性と可溶性度合の変化の関係を分析することで、可溶性度合に影響を与える要因を探索した。複数の属性には実施例2の(2)にて設定した全ての属性を使用した。また、これまでの各属性と可溶性度合の変化の関係の分析結果から可溶性度合が上がる場合の変異と下がる場合の変異は対称的であると考えられるため、可溶性度合が上がる場合の変異のみに着目し、タンパク質の可溶性度合が上がりやすい変異の傾向のみを探索した。
【0169】
実施例2の(5)より、可溶性度合の変化に影響があり、可溶性度合が上がり易いと考えられるアミノ酸の変異として、変異導入前のアミノ酸がY、変異導入前のアミノ酸がW、変異導入前のアミノ酸がF、変異導入後のアミノ酸がD、変異導入後のアミノ酸がE、変異導入後のアミノ酸がKのアミノ酸の変異の属性に着目した。変異導入前又は変異導入後のアミノ酸を属性として固定し、固定した属性と特定の属性の組を前提部に含み、結論部に可溶性度合が上がる属性を持つルールを抽出した。抽出したルールから信頼度を縦軸、各属性の組み合わせの組を横軸としたグラフを作成し、固定した属性における可溶性度合が変化し易い変異導入を探索した。
【0170】
変異導入前のアミノ酸がYの場合の複数属性と可溶性度合の変化の関係を
図19、変異導入前のアミノ酸がWの場合の複数属性と可溶性度合の変化の関係を
図35、変異導入前のアミノ酸がFの場合の複数属性と可溶性度合の変化の関係を
図36、変異導入後のアミノ酸がDの場合の複数属性と可溶性度合の変化の関係を
図37、変異導入後のアミノ酸がEの場合の複数属性と可溶性度合の変化の関係を
図38、変異導入後のアミノ酸がKの場合の複数属性と可溶性度合の変化の関係を
図39に示す。
【0171】
図19、35~39のそれぞれから、多少変異導入位置ごとに違いは見られるが、ほとんどの複数属性の組において、各変異導入位置の区分ごとにおける違いが少ないことが分かるため、変異導入位置による可溶性度合の変化のし易さに違いはないと考えられる。
【0172】
変異導入前のアミノ酸Y、W、Fについて着目する。変異導入前のアミノ酸についての図を見たとき、アミノ酸Yでは、アミノ酸Yを負電荷のアミノ酸 (D、E) に変異、変異導入位置の二次構造がコイルの場合にアミノ酸Yを親水性で脂肪族のアミノ酸 (G、P) に変異、変異導入位置の二次構造がβシートの場合にアミノ酸Yを親水性で非電荷のアミノ酸 (S、T、Q、N) に変異は可溶性度合が上がり易い変異導入であることが分かった。
【0173】
アミノ酸Wでは、変異導入位置の二次構造がコイルの場合にアミノ酸Wを負電荷のアミノ酸に変異、変異導入位置の二次構造がコイルの場合にアミノ酸Wを親水性で脂肪族のアミノ酸に変異させる、変異導入位置の二次構造がβシートの場合にアミノ酸Wを親水性で非電荷のアミノ酸に変異は可溶性度合が上がり易い変異導入であることが分かった。アミノ酸Fでは、アミノ酸Fを負電荷のアミノ酸に変異、変異導入位置の二次構造がコイルの場合にアミノ酸Fを親水性で脂肪族のアミノ酸に変異導入させる、変異導入位置の二次構造がαヘリックスの場合にアミノ酸Fを親水性で正電荷のアミノ酸 (K、R、H) に変異は可溶性度合が上がり易い変異導入であることが分かった。アミノ酸Y、W、Fを芳香族のアミノ酸 (Y、W、F) として纏めて見てみると、変異の傾向がある程度共通しており、芳香族のアミノ酸は変異導入位置の二次構造がコイルの場合にアミノ酸を負電荷のアミノ酸に変異、変異導入位置の二次構造がコイルの場合にアミノ酸を親水性で脂肪族のアミノ酸に変異は可溶性度合が上がり易い変異であると考えられる。
【0174】
変異導入後のアミノ酸D、E、Kについて着目した。変異導入後のアミノ酸についての
図19、35~39から、アミノ酸Dでは、芳香族のアミノ酸をアミノ酸Dに変異、変異導入位置の二次構造がコイルの場合に正電荷をアミノ酸Dに変異、変異導入位置の二次構造がコイルの場合に疎水性の非電荷 (C、M) をアミノ酸Dに変異は可溶性度合が上がり易い変異であることが分かった。アミノ酸Eでは、芳香族をアミノ酸Eに変異、変異導入位置の二次構造がコイルの場合に正電荷をアミノ酸Eに変異導入、変異導入位置の二次構造がコイルの場合に疎水性の非電荷をアミノ酸Eに変異は可溶性度合が上がり易い変異導入であることが分かった。アミノ酸Kでは、芳香族をアミノ酸Kに変異、変異導入位置の二次構造がαヘリックの場合に正電荷をアミノ酸Kに変異、変異導入位置の二次構造がコイルの場合に疎水性の非電荷 (C、M) をアミノ酸 D に変異は可溶性度合が上がり易い変異であることが分かった。アミノ酸D、Eを負電荷として纏めて見てみると、変異の傾向がある程度共通しており、負電荷は、芳香族を負電荷に変異、変異導入位置の二次構造がコイルの場合に正電荷を負電荷に変異、変異導入位置の二次構造がコイルの場合に疎水性の非電荷を負電荷に変異は可溶性度合が上がりやすい変異導入であると考えられる。アミノ酸Kは一部の傾向が負電荷のアミノ酸と共通していない。アミノ酸Kはアミノ酸の分類としては正電荷であることと、また、アミノ酸Y、W、Fは芳香族のアミノ酸としてある程度同じ傾向であることから、アミノ酸の分類ごとに何らかの傾向の違いがあると考えられた。
【0175】
(9)
実施例2の(5)より、アミノ酸R、Y、W、Fを変異させる、又はアミノ酸をアミノ酸D、E、Kに変異させると可溶性度合が上がりやすく、アミノ酸D、E、Kを変異させる、又はアミノ酸をアミノ酸R、Y、W、Fに変異させると可溶性度合が下がり易い傾向があると考えられる。このことから、実施例で作成した回帰モデルでは、アミノ酸D、E、K、R、Y、W、Fの増減が可溶性度合に影響を与えている可能性があり、アミノ酸配列内に含まれるアミノ酸R、Y、W、F、D、E、Kの個数が可溶性度合の変化のし易さに寄与している可能性が考えられる。
【0176】
実施例2の(6)より、可溶性度合に影響を与えていると考えられるアミノ酸は変異導入位置の二次構造によって変化していた。変異導入位置の二次構造がコイルの場合、アミノ酸G、P、Aが、変異導入位置の二次構造がβシートの場合、アミノ酸T、変異導入位置の二次構造がαヘリックスの場合、アミノ酸P、Iがそれぞれ可溶性度合に影響を与えていると考えられる。このことから、実施例で作成した回帰モデルでは、二次構造とアミノ酸の特定の組み合わせが可溶性度合に影響を与えている可能性があると考えられる。
【0177】
実施例2の(7)より、可溶性度合に影響を与えている変異の傾向は変異させる位置によって変化していない可能性が考えられ、どの変異導入位置であっても実施例2の(5)で得られた傾向と似ていた。このことから、実施例で作成した回帰モデルでは、アミノ酸の変異導入位置が可溶性度合の変化のし易さに寄与してはいないと考えられた。
【0178】
実施例2の(8)より、可溶性度合が上がり易い傾向として、変異導入前のアミノ酸が芳香族のアミノ酸 (Y、W、F) である場合、変異導入位置の二次構造がコイルである場合に芳香族のアミノ酸を負電荷 (D、E) に変異させるか、変異導入位置の二次構造がコイルである場合に芳香族のアミノ酸を親水性で脂肪族のアミノ酸 (G、P) に変異させるとタンパク質が可溶化しやすい可能性がある。また、変異導入後のアミノ酸が負電荷のアミノ酸とアミノ酸Kである場合、芳香族を負電荷のアミノ酸、又はアミノ酸Kに変異させると可溶化し易い可能性がある。負電荷のみに着目した場合、変異導入位置の二次構造がコイルの場合に正電荷を負電荷に変異させるか、変異導入位置の二次構造がコイルの場合に疎水性の非電荷 (C、M) 正電荷を負電荷に変異させると可溶化し易い可能性があると考えられる。これらの傾向は実施例2の(5)~(7)から得られた傾向を組み合わせた傾向に似ていると考えられ、実施例で行った複数の属性の組み合わせによる分析では、単一の属性のみ関係からは見ることができなかった傾向を確認することができたと考えられる。
以上のことから、回帰モデルが得た複雑な可溶性メカニズムの特徴を形式概念分析によって可視化することが可能となったと考えられる。
【0179】
実施例3:形式概念分析を用いた可溶性予測器の可視化(分類モデル)
サーマスデータに記載されているタンパク質に対して網羅的に変異を導入したタンパク質の可溶性発現確率を分類モデルで予測し、予測した結果を形式概念分析することで、分類モデルの可視化を行った。
【0180】
(1)変異導入予測データ
実施例では、タンパク質のアミノ酸配列の一部位を網羅的に変異させて全てのアミノ酸配列を分類モデルで予測する。変異のルールとしては、ベースとなるアミノ酸配列のうち一部位を元のアミノ酸を除く19種類に変異させた19パターンの変異アミノ酸配列を変異アミノ酸配列として作成し、分類モデルで変異アミノ酸配列の可溶性発現確率を予測した。ただし、アミノ酸配列の1文字目に関しては、基本的にアミノ酸Mで固定のため、アミノ酸配列の1文字目は変異させなかった。実施例において、この予測結果についてまとめたデータを「変異導入予測データ」と称する場合がある。変異導入予測データには、タンパク質の名前 (name) 、変異導入前のアミノ酸 (Before) 、アミノ酸の変異導入位置 (Position) 、変異導入後のアミノ酸 (After) 、可溶性発現確率の予測値 (Predict sol) 、可溶性発現確率の変化量 (dif) などを記載した。可溶性発現確率の変化量は、変異導入前に予測したタンパク質の可溶性発現確率と変異導入後に予測したタンパク質の可溶性発現確率との差分を変化量として扱った。
【0181】
(2)形式概念分析に使用する属性
形式概念分析の属性として、可溶性発現確率の変化量と変異導入前のアミノ酸、変異導入後のアミノ酸、変異導入前のアミノ酸の性質、変異導入後のアミノ酸の性質、変異導入前のアミノ酸の分類、変異導入後のアミノ酸の分類、アミノ酸の変異導入位置、アミノ酸の変異導入位置のDisorder領域を使用した。アミノ酸の変異導入位置のDisorder領域の属性は、生化学の専門家により可溶性との関係が示唆されたものである。形式概念分析に使用するコンテクスト表を作成するには属性を2値で与える必要がある。以下にそれぞれの属性を2値化する方法を説明する。
【0182】
・可溶性発現確率の変化
可溶性発現確率の変化は可溶性発現確率が上がった (Pre-sol-up) 又は可溶性発現確率が下がった (Pre-sol-down) の2つのうち、いずれかの属性に分類した。変異導入予測データの可溶性発現確率の変化量の値が0.002より大きければ、可溶性発現確率が上がったに分類し、値が-0.002より小さければ、可溶性発現確率が下がったに分類した。0.002という値は形式概念分析を行う上で、計算機が許容できる最低限の値のため、決定した。形式概念分析で全ての変異に対して分析を行おうとすると、計算機に膨大な負荷がかかり、計算機では形式概念分析を行うことができない状態になってしまう場合がある。そのため、可溶性発現確率の変化量に最低限の閾値を設けて、タンパク質の変異の数を削減し、計算機で処理ができる範囲までタンパク質の変異の数を削減した。
【0183】
・変異導入前のアミノ酸
変異導入前のアミノ酸がどのアミノ酸であるかで各属性に分類した。例えば、変異導入前のアミノ酸がA場合、「変異導入前のアミノ酸がA (Before-A)」という属性となる。
【0184】
・変異導入後のアミノ酸
変異導入後のアミノ酸がどのアミノ酸であるかで各属性に分類した。例えば、変異導入後のアミノ酸がA場合、「変異導入後のアミノ酸がA (After-A)」という属性となる。
【0185】
・変異導入前のアミノ酸の性質
表1に従って、変異導入前のアミノ酸が、親水性又は疎水性のいずれかの属性に分類した。例えば変異導入前のアミノ酸が親水性の場合、「変異導入前のアミノ酸が親水性 (Before-親水)」という属性となる。
【0186】
・変異導入後のアミノ酸の性質
表1に従って、変異導入後のアミノ酸が、親水性又は疎水性のいずれかの属性に分類した。例えば、変異導入後のアミノ酸が親水性の場合、「変異導入後のアミノ酸が親水性 (After-親水)」という属性となる。
【0187】
・変異導入前のアミノ酸の分類
表2に従って、変異導入前のアミノ酸が、脂肪族、負電荷、正電荷、芳香族、非電荷の5つのいずれであるかで各属性に分類した。例えば、変異導入前のアミノ酸が親水性の場合、「変異導入前のアミノ酸が親水性 (Before-親水)」という属性となる。
【0188】
・変異導入後のアミノ酸の分類
表2に従って、変異導入後のアミノ酸が、脂肪族、負電荷、正電荷、芳香族、非電荷の5つのいずれであるかで各属性に分類した。例えば、変異導入後のアミノ酸が親水性の場合、「変異導入後のアミノ酸が親水性 (After-親水)」という属性となる。
【0189】
・アミノ酸の変異導入位置
アミノ酸の変異導入位置は、上述の数1より、アミノ酸配列に対する相対的な変異導入位置p算出し、pの値が0以上0.25未満の範囲(position-1)、0.25以上0.5未満の範囲(position-2)、0.5以上0.75未満の範囲(position-3)、0.75以上1以内の範囲(position-4)の4つのうちどれであるかで各属性に分類する。
【0190】
・アミノ酸の変異導入位置のDisorder領域
Disorder領域とはタンパク質の立体構造において、構造的揺らぎが大きいことによって構造が決まらなかった領域のことを意味する。値は、0から1の値を取り、値が低いほど構造が安定していることを表している。
【0191】
アミノ酸の変異導入位置のDisorder領域の値が、0.01未満(Disorder-1)、0.01以上0.1未満(Disorder-2)、0.1以上0.3未満(Disorder-3)、0.3以上0.8未満(Disorder-4)、0.8以上(Disorder-5)の5つのうちいずれであるかで各属性を分類した。例えば、変異導入位置のDisorder領域の値が0.2の場合、「変異導入位置のDisorder領域の値が0.1以上0.3未満(Disorder-3)」という属性となる。
【0192】
(3)コンテクスト表の作成
上述の属性をもとに、形式概念分析の入力として与える、コンテクスト表を作成した。該作成したコンテクスト表をもとに形式概念分析を行った。
【0193】
(4)アソシエーションルール
形式概念分析によって得られたアソシエーションルールの一部を表12に示す。実施例では、変異によって可溶性発現確率が変化したかを分析するため、得られたルールのうち、結論部に可溶性発現確率が上がる属性を持つルールと可溶性発現確率が下がる属性を持つルールの抽出を行った。また、ルールの抽出条件として、信頼度が60%以上のルールのみを抽出した。抽出したルールのうち、可溶性発現確率が上がる属性を持つルールの一部を表13に、可溶性発現確率が下がる属性を持つルールの一部を表14に示す。この抽出したルールをもとに各属性と可溶性発現確率の変化の関係を分析した。
【0194】
【0195】
【0196】
【0197】
(5)アミノ酸から(他の)アミノ酸への変異と可溶性発現確率の変化の関係の分析
アミノ酸から(他の)アミノ酸への変異と可溶性発現確率の変化の関係について、可溶性発現確率が上がる場合と可溶性発現確率が下がる場合の二つに分けて分析した。
【0198】
・可溶性発現確率が上がるルールについて
可溶性発現確率が上がる場合における、特定のアミノ酸から(他の)アミノ酸への変異導入と可溶性発現確率の変化の関係を分析した。まず、表13のルールから前提部に変異導入前のアミノ酸と変異導入後のアミノ酸の属性を持ち、結論部に可溶性発現確率が上がる属性を持つルールを抽出した。その後、変異導入前のアミノ酸を行とし、変異導入後のアミノ酸を列とした表を作成し、抽出したルールに基づいて、どのアミノ酸がどのアミノ酸に変異したのかを分析した。アミノ酸からアミノ酸への変異について
図20に纏め、ルールの信頼度をもとにヒートマップ化し(
図20)、どの変異導入が可溶性発現確率に影響を与え易いかを分析した。
【0199】
図20から、可溶性発現確率が上がる変異として、変異導入前のアミノ酸としてはアミノ酸R、Y、W、Q (グルタミン) が多く出現しており、変異導入後のアミノ酸としてはアミノ酸G、V、T、Cが多く出現していることが分かった。
図のヒートマップの色の分布から、アミノ酸Y、W、Qからアミノ酸G、V、K、Tへの変異の部分の色が濃くなっていることが分かった。
以上のことから、アミノ酸Y、W、Qのいずれかをアミノ酸G、V、K、Tのいずれかに変異させると可溶性発現確率が上がりやすいと考えられた。
【0200】
・可溶性発現確率が下がるルールについて
可溶性発現確率が下がる場合における、特定のアミノ酸から(他の)アミノ酸への変異導入と可溶性発現確率の変化の関係を分析した。まず、表14のルールから前提部に変異導入前のアミノ酸と変異導入後のアミノ酸の属性を持ち、結論部に可溶性発現確率が下がる属性を持つルールを抽出した。その後、変異導入前のアミノ酸を行とし、変異導入後のアミノ酸を列とした表を作成し、抽出したルールに基づいて、どのアミノ酸がどのアミノ酸へ変異したのかを分析した。該分析に基づいて
図21を作成し、ルールの信頼度をもとにヒートマップ化し(
図21)、どの変異が可溶性発現確率に影響を与え易いかを分析した。
【0201】
図21から、可溶性発現確率が下がる変異として、変異導入前のアミノ酸としてはアミノ酸G、K、Tが多く出現しており、変異導入後のアミノ酸としてはアミノ酸L、Y、Qが多く出現していることが分かった。
【0202】
図のヒートマップの色の分布から、アミノ酸G、V、K、Tからアミノ酸Y、W、Qへの変異の部分の色が濃くなっていることが分かった。
以上のことから、アミノ酸G、V、K、Tのいずれかをアミノ酸Y、W、Qのいずれかに変異させると可溶性発現確率が下がり易いと考えられた。
【0203】
(6)アミノ酸の変異導入位置のDisorder領域と可溶性発現確率の変化の関係の分析
アミノ酸から(他の)アミノ酸への変異と可溶性発現確率の変化の関係について、可溶性発現確率が上がる場合と可溶性発現確率が下がる場合の二つに分けて分析した。
【0204】
・可溶性発現確率が上がるルールについて
可溶性発現確率が上がる場合における、アミノ酸の変異導入位置のDisorder 領域ごとの特定のアミノ酸からアミノ酸への変異と可溶性発現確率の変化の関係を分析した。まず、表13のルールから前提部に変異導入前のアミノ酸と変異導入後のアミノ酸、アミノ酸の変異導入位置のDisorder領域の属性を持ち、結論部に可溶性発現確率が上がる属性を持つルールを抽出した。その後、変異導入前のアミノ酸を行とし、変異導入後のアミノ酸を列とした表を作成し、抽出したルールに基づいて、アミノ酸の変異導入位置のDisorder領域のどの区分でどのアミノ酸からアミノ酸に変異したのかを分析した。また、変異導入位置のDisorder領域の属性については、区分が離れており、Disorder領域の値の違いが明確に分かったDisorder-1とDisorder-5の属性に着目した。変異導入位置のDisorder領域がDisorder-1におけるアミノ酸からアミノ酸の変異について
図22に纏め、変異導入位置のDisorder領域がDisorder-5におけるアミノ酸から(他の)アミノ酸への変異について
図23に纏め、ルールの信頼度をもとにヒートマップ化し、どの変異が可溶性発現確率に影響を与え易いかを分析した。
【0205】
図22と23のそれぞれから、変異導入位置のDisorder領域がDisorder-1の場合では、変異導入前のアミノ酸として、アミノ酸Y、W、Q、Mが、変異導入後のアミノ酸として、アミノ酸G、V、Tが多く出現していることが分かった。変異導入位置のDisorder領域がDisorder-5の場合では、変異導入前のアミノ酸として、アミノ酸L、I、R、S、Qが、変異導入後のアミノ酸として、アミノ酸V、F、T、Cが多く出現していた。変異導入位置のDisorder領域ごとに可溶性発現確率が上がる変異として共通に出現している部分と異なる部分があり、Disorder領域ごとに可溶性発現確率が上がり易い変異に違いがあることが分かった。
【0206】
図22と23のヒートマップの色の分布から、変異導入位置のDisorder領域がDisorder-1の場合では、アミノ酸G、V、I、F、T、Cからアミノ酸A、L、E、Y、W、Q、Mへの変異の部分が濃くなっていることが分かった。変異導入位置のDisorder領域がDisorder-5の場合では、アミノ酸L、R、Qを変異の部分が、全体的に色がついており、その中でもアミノ酸L、R、Qからアミノ酸G、V、K、F、Tへの変異の部分が濃くなっていることが分かった。
以上のことから、どちらのDisorder領域においてもアミノ酸Qを変異させる、アミノ酸をアミノ酸G、V、Tのいずれかに変異は可溶性発現確率が上がり易いと考えられた。Disorder領域ごとでは、変異導入位置のDisorder領域がDisorder-1は、アミノ酸Y、Wのいずれかからアミノ酸G、V、Tのいずれかへの変異は可溶性発現確率が上がりやすいと考えられた。変異導入位置のDisorder領域がDisorder-5は、アミノ酸R、Lのいずれかを変異は、可溶性発現確率が上がりやすいと考えられる。
【0207】
・可溶性発現確率が下がるルールについて
可溶性発現確率が下がる場合における、アミノ酸の変異導入位置のDisorder領域ごとの特定のアミノ酸からアミノ酸への変異導入と可溶性発現確率の変化の関係を分析した。まず、表13のルールから前提部に変異導入前のアミノ酸と変異導入後のアミノ酸、アミノ酸の変異導入位置のDisorder領域の属性を持ち、結論部に可溶性発現確率が下がる属性を持つルールを抽出した。その後、変異導入前のアミノ酸を行とし、変異導入後のアミノ酸を列とした表を作成し、抽出したルールに基づいて、アミノ酸の変異導入位置のDisorder領域のどの区分でどのアミノ酸からアミノ酸に変異導入したのかを分析した。また、変異導入位置のDisorder領域の属性については、区分が離れており、Disorder領域の値の違いが明確に分かった、Disorder-1とDisorder-5の属性に着目した。変異導入位置のDisorder領域がDisorder-1におけるアミノ酸からアミノ酸の変異導入について
図24に纏め、変異導入位置のDisorder領域がDisorder-5におけるアミノ酸からアミノ酸の変異導入について
図25に纏めた。また、ルールの信頼度をもとにヒートマップ化し(
図24、25)、どの変異が可溶性発現確率に影響を与え易いかを分析した。
【0208】
図24と25のそれぞれから、変異導入位置のDisorder領域がDisorder-1の場合では、変異導入前のアミノ酸として、アミノ酸G、V、I、F、Cが、変異導入後のアミノ酸として、アミノ酸E、Y、W、Q、Mが多く出現していることが分かった。変異導入位置のDisorder領域がDisorder-5の場合では、変異導入前のアミノ酸として、アミノ酸G、V、K、F、Tが、変異導入後のアミノ酸として、アミノ酸A、L、R、Y、Qが多く出現していた。変異導入位置のDisorder領域ごとに可溶性発現確率が上がる変異として共通に出現している部分と異なる部分があり、Disorder領域ごとに可溶性発現確率が上がりやすい変異に違いがあることが分かった。
【0209】
図24と25のヒートマップの色の分布から、変異導入位置のDisorder領域がDisorder-1の場合では、アミノ酸G、V、Tからアミノ酸L、Y、W、Qへの変異の部分が濃くなっていた。変異導入位置のDisorder領域がDisorder-5の場合では、アミノ酸G、V、Tを変異の部分が、全体的に色がついており、その中でもアミノ酸G、V、K、Tからアミノ酸A、L、R、Y、Qへの変異の部分が濃くなっていた。
【0210】
以上のことから、どちらのDisorder領域においてもアミノ酸G、V、Tのいずれかからアミノ酸L、Y、Qのいずれかへの変異は、可溶性発現確率が下がり易いと考えられた。Disorder領域ごとでは、変異位置のDisorder領域がDisorder-1は、アミノ酸G、V、Tのいずれかからアミノ酸Wに変異導入は可溶性発現確率が下がりやすいと考えられた。変異導入位置のDisorder領域がDisorder-5は、アミノ酸G、V、Tのいずれかをアミノ酸Rに変異は可溶性発現確率が下がり易いと考えられた。
【0211】
(7)アミノ酸の変異導入位置と可溶性発現確率の変化の関係
アミノ酸の変異導入位置と可溶性発現確率の変化量の関係について、可溶性発現確率が上がる場合と可溶性発現確率が下がる場合の二つに分けて分析した。
【0212】
・可溶性発現確率が上がるルールについて
可溶性発現確率が上がる場合における、アミノ酸の変異導入位置ごとの特定のアミノ酸からアミノ酸への変異と可溶性発現確率の変化の関係を分析した。まず、表12のルールから前提部に変異導入前のアミノ酸と変異導入後のアミノ酸、アミノ酸の変異導入位置の属性を持ち、結論部に可溶性発現確率が上がる属性を持つルールを抽出した。その後、変異導入前のアミノ酸を行とし、変異導入後のアミノ酸を列とした表を作成し、抽出したルールに基づきアミノ酸がどの位置でどのアミノ酸からアミノ酸に変異導入したのかを分析した。変異導入位置がposition-1におけるアミノ酸から(他の)アミノ酸への変異について
図26に纏め、変異導入位置がposition-2におけるアミノ酸から(他の)アミノ酸への変異について
図27に纏め、変異導入位置がposition-1におけるアミノ酸から(他の)アミノ酸への変異について
図28に纏め、変異導入位置がposition-1におけるアミノ酸から(他の)アミノ酸への変異について
図29に纏めた。また、ルールの信頼度をもとにヒートマップ化し(
図26~29)、どの変異が可溶性発現確率に影響を与え易いかを分析した。
【0213】
図26~29のそれぞれから、変異の導入位置がposition-1の場合、変異導入前のアミノ酸として、アミノ酸E、Y、W、Q、Nが、変異導入後のアミノ酸として、アミノ酸A、K、S、Tが多く出現していることが分かった。変異導入位置がposition-2の場合、変異導入前のアミノ酸として、アミノ酸Y、W、Q、Nが、変異導入後のアミノ酸として、アミノ酸K、Tが多く出現していた。変異導入位置がposition-3の場合、変異導入前のアミノ酸として、アミノ酸Wが、変異導入後のアミノ酸として、アミノ酸G、V、I、Tが多く出現していた。変異導入位置がposition-4の場合、変異導入前のアミノ酸として、アミノ酸L、R、Y、Qが、変異導入後のアミノ酸として、アミノ酸G、V、Tが多く出現していた。
【0214】
図26~29のヒートマップの色の分布から、変異導入の位置がposition-1の場合、アミノ酸Y、W、Qを変異の部分の色が全体的に濃くなっていた。変異導入の位置がposition-2の場合、アミノ酸Y、Wを変異の部分とアミノ酸をアミノ酸K、T に変異の部分の色が濃くなっていた。変異導入の位置がposition-3の場合、アミノ酸Y、Wからアミノ酸G、V、I、Tへの変異の部分の色が濃くなっていた。変異導入の位置がposition-4の場合、アミノ酸A、L、Y、Qからアミノ酸G、V、Tへの変異導入の部分の色が濃くなっていた。
【0215】
以上のことから、どの変異導入位置においてもアミノ酸をアミノ酸Tに変異は可溶性発現確率が、上がり易いと考えられた。変異導入位置ごとでは、変異導入位置がposition-1とposition-2、つまり変異導入位置がアミノ酸配列の前半部分と変異導入位置がposition-3とposition-4、つまり変異導入位置がアミノ酸配列の後半部で大まかな違いがあり、アミノ酸配列の前半部分の場合、アミノ酸 Y、Wのいずれかに変異導入とアミノ酸をアミノ酸Kに変異が、可溶性発現確率が上がり易いと考えられた。変異導入位置がアミノ酸配列の後半部分の場合、アミノ酸をアミノ酸G、Vのいずれかに変異が、可溶性発現確率が上がり易い変異導入だと考えられた。また、変異導入位置がposition-1、つまりアミノ酸配列のN末付近と変異導入位置がposition-4、つまりアミノ酸配列のC末付近のアミノ酸Qを変異、N末付近のアミノ酸をアミノ酸 A、Sのいずれかに変異、C末付近のアミノ酸L、Rのいずれかを変異が、可溶性発現確率が上がり易いと考えられた。
【0216】
・可溶性発現確率が下がるルールについて
可溶性発現確率が下がる場合における、アミノ酸の変異導入位置ごとのアミノ酸からアミノ酸への変異と可溶性発現確率の変化の関係を分析した。まず、表14のルールから前提部に変異導入前のアミノ酸と変異導入後のアミノ酸、アミノ酸の変異導入位置の属性を持ち、結論部に可溶性発現確率が下がる属性を持つルールを抽出した。その後、変異導入前のアミノ酸を行とし、変異導入後のアミノ酸を列とした表を作成し、抽出したルールに基づきアミノ酸がどの位置でどのアミノ酸からアミノ酸に変異したのかを分析した。変異導入位置がposition-1の場合のアミノ酸からアミノ酸への変異について
図30に纏め、変異導入位置がposition-2の場合のアミノ酸からアミノ酸への変異について
図31に纏め、変異導入位置がposition-3の場合のアミノ酸からアミノ酸への変異について
図32に纏め、変異導入位置がposition-4の場合のアミノ酸からアミノ酸への変異について
図33に纏めた。また、ルールの信頼度をもとにヒートマップ化し(
図30~33)、どの変異が可溶性発現確率に影響を与え易いかを分析した。
【0217】
図30~33のそれぞれから、変異導入の位置がposition-1の場合、変異導入前のアミノ酸として、アミノ酸K、S、A、Tが、変異導入後のアミノ酸として、アミノ酸E、Y、W、Q、Mが多く出現していることが分かった。変異導入位置がposition-2の場合、変異導入前のアミノ酸として、アミノ酸 K、T、C が、変異導入後のアミノ酸として、アミノ酸E、Y、W、N、Mが多く出現していた。変異導入位置がposition-3の場合、変異導入前のアミノ酸として、アミノ酸G、K、Tが、変異導入後のアミノ酸として、アミノ酸Y、W が多く出現している。変異導入位置がposition-4の場合、変異導入前のアミノ酸として、アミノ酸G、V、Tが、変異導入後のアミノ酸として、アミノ酸A、L、R、Y、Qが多く出現していた。
【0218】
図30~33のヒートマップの色の分布から、変異導入の位置がposition-1の場合、アミノ酸S、Aを変異と、アミノ酸をアミノ酸E、Y、W、Qに変異の部分の色が全体的に濃くなっていた。変異導入の位置がposition-2の場合、アミノ酸K、T、Cを変異の部分とアミノ酸をアミノ酸E、Y、W、Mに変異の部分の色が濃くなっていた。変異導入の位置がposition-3の場合、アミノ酸G、V、K、Tからアミノ酸Y、Wへの変異の部分の色が濃くなっていた。変異導入の位置がposition-4の場合、アミノ酸G、V、Tからアミノ酸L、R、Y、Qへの変異の部分の色が濃くなっていた。
【0219】
以上のことから、どの変異導入位置においてもアミノ酸をアミノ酸Yに変異は可溶性発現確率が下がり易いと考えられた。変異導入位置ごとでは、変異導入位置がアミノ酸配列の前半部分と変異導入位置がアミノ酸配列の後半部で大まかな違いがあり、アミノ酸配列の前半部分の場合、アミノ酸Kのいずれかに変異導入とアミノ酸をアミノ酸E、Y、W、Mのいずれかに変異が、可溶性発現確率が下がりやすいと考えられた。変異導入位置がアミノ酸配列の後半部分の場合、アミノ酸Gを変異導入が、可溶性発現確率が上がりやすい変異だと考えられた。また、変異導入位置がアミノ酸配列のN末付近とアミノ酸配列のC末付近のアミノ酸をアミノ酸Qに変異、N末付近のアミノ酸をアミノ酸A、Sのいずれかに変異、C末付近のアミノ酸をアミノ酸L、Rのいずれかに変異が、可溶性発現確率が下がり易いと考えられた。
【0220】
(8)複数属性と可溶性発現確率の変化の関係
アミノ酸からアミノ酸への変異において可溶性発現確率の変化に影響を与え得るアミノ酸の変異に着目し、複数の属性と可溶性発現確率の変化の関係を分析することで、可溶性発現確率に影響を与える要因を探索した。複数の属性には実施例3の(2)設定した全ての属性を使用した。ただし、変異導入位置のDisorder領域については、区分が離れており、Disorder領域の値の違いが分かったDisorder-1とDisorder-5の属性のみを属性として使用した。また、これまでの結果から可溶性発現確率が上がる場合の変異と下がる場合の変異において、対称的であるように見受けられるため、可溶性発現確率が上がる場合の変異のみに着目し、タンパク質の可溶性発現確率が上がりやすい変異の傾向を探索した。
【0221】
実施例3の(5)より、可溶性発現確率の変化に影響があり、可溶性発現確率が上がりやすいと考えられるアミノ酸の変異として、変異導入前のアミノ酸がY、変異導入前のアミノ酸がW、変異導入前のアミノ酸がF、変異導入後のアミノ酸がD、変異導入後のアミノ酸が、変異導入後のアミノ酸がKのアミノ酸の変異に着目した。変異導入前、又は変異導入後のアミノ酸を属性として固定し、固定した属性と特定の属性の組を前提部に含み、結論部に可溶性発現確率が上がる属性を持つルールを抽出した。抽出したルールから信頼度を縦軸、各属性の組み合わせの組を横軸としたグラフを作成し、固定した属性における可溶性発現確率が変化し易い変異を探索した。
【0222】
変異導入前のアミノ酸がYの場合の複数属性と可溶性発現確率の変化の関係を
図34に、変異導入前のアミノ酸がQの場合の複数属性と可溶性発現確率の変化の関係を
図40に、変異導入後のアミノ酸がGの場合の複数属性と可溶性発現確率の変化の関係を
図41に、変異導入後のアミノ酸がVの場合の複数属性と可溶性発現確率の変化の関係を
図42に、変異導入後のアミノ酸がTの場合の複数属性と可溶性発現確率の変化の関係を
図43に示す。
【0223】
それぞれの図から、ほとんどの複数属性の組において、各変異導入位置の区分ごとにおける違いがあるため、変異導入位置による可溶性発現確率の変化のし易さに違いはあると考えられた。
【0224】
変異導入前のアミノ酸Y、Qについて着目した。変異導入前のアミノ酸についての
図40~43から、アミノ酸Yでは、変異導入位置がposition-2の場合に変異導入位置のDisorder領域がDisorder-5の場合にアミノ酸Yを疎水性で脂肪族のアミノ酸 (A、V、L、I) に変異や変異導入位置がposition-4で、変異導入位置のDisorder領域がDisorder-5の場合にアミノ酸Yを正電荷のアミノ酸 (K、R、H) に変異、変異導入位置が position-4で、変異導入位置のDisorder領域がDisorder-5の場合にアミノ酸Yを疎水性で非電荷のアミノ酸 (C、M) に変異などは可溶性発現確率が上がり易い変異であることが分かった。アミノ酸Qでは、変異導入位置がposition-4の場合にアミノ酸Qを親水性で脂肪族のアミノ酸 (G、P) に変異導入や変異導入位置がposition-1、又はposition-4で、変異導入位置のDisorder領域がDisorder-5の場合にアミノ酸Yを正電荷のアミノ酸に変異、変異導入位置がposition-1の場合にアミノ酸Qを疎水性で脂肪族のアミノ酸に変異などは可溶性発現確率が上がり易い変異であることが分かった。また、変異導入位置が position-1又はposition-4にあるアミノ酸Qを別にアミノ酸に変異させると可溶性発現確率が上がり易いと考えられた。この傾向は実施例3の(7)で得た傾向と似ていた。
【0225】
変異導入後のアミノ酸G、V、Tについて着目する。変異導入後のアミノ酸についての
図40~43から、アミノ酸Gでは、変異導入位置のDisorder領域が Disorder-1で親水性かつ芳香族のアミノ酸 (Y、W) からアミノ酸Gに変異導入や変異導入位置がposition-2で非電荷のアミノ酸 (S、T、Q、N、C、M) からアミノ酸Gに変異、変異導入位置がposition-4かつ変異導入位置のDisorder領域がDisorder-5 の場合に脂肪族のアミノ酸 (G、P、A、V、L、I) からアミノ酸Gに変異などは可溶性発現確率が上がり易い変異であることが分かった。アミノ酸Vでは、変異導入位置のDisorder領域がDisorder-1の場合に親水性で芳香族のアミノ酸からアミノ酸Vに変異や変異導入位置がposition-1で変異導入位置のDisorder領域がDisorder-5の場合に親水性で非電荷のアミノ酸 (S、T、Q、N) からアミノ酸Vに変異、変異導入位置がposition-4の場合に疎水性で脂肪族のアミノ酸に変異などは可溶性発現確率が上がり易い変異であることが分かった。アミノ酸Tでは、変異導入位置のDisorder領域がDisorder-1の場合に親水性で芳香族のアミノ酸からアミノ酸Vに変異や変異導入位置がposition-4の場合に疎水性で脂肪族のアミノ酸に変異などは可溶性発現確率が上がり易い変異であることが分かった。アミノ酸G、V、Tを纏めて見た場合、共通の変異の傾向があり、変異導入位置のDisorder領域がDisorder-1の場合に親水性で芳香族のアミノ酸からアミノ酸G、V、Tのいずれかに変異させると可溶性発現確率が上がり易いと考えられる。また、変異導入位置のDisorder領域がDisorder-5の場合では、親水性で芳香族のアミノ酸からアミノ酸G、V、Tのいずれかに変異させると可溶性発現確率が上がり易い傾向として見れなかった。
【0226】
以上のことからDisorder領域の値が小さい、親水性で芳香族のアミノ酸をアミノ酸G、V、Tのいずれかに変異導入させるとタンパク質が可溶化し易いと考える。また、この変異は変異導入位置によって傾向が変化しないと考えられた。
【0227】
(9)
実施例3の(5)より、アミノ酸Y、W、Qのいずれかからアミノ酸G、V、K、Tのいずれかに変異導入させると可溶性発現確率が上がり易く、アミノ酸G、V、K、Tのいずれかからアミノ酸Y、W、Qのいずれかに変異させると可溶性発現確率が下がり易いと考えられる。このことから、アミノ酸Y、W、Qのいずれかからアミノ酸G、V、K、Tのいずれかに変異させるとタンパク質は可溶化しやすく、実施例で作成した分類モデルでは、アミノ酸Y、W、Qはタンパク質が不溶化する要因に、アミノ酸G、V、K、Tはタンパク質が可溶化する要因にそれぞれ寄与している可能性があると考えられる。
【0228】
実施例3の(6)より、可溶性発現確率に影響を与えていると考えられるアミノ酸は変異導入位置のDisorder領域によって変化している可能性が考えられる。変異導入位置のDisorder領域がDisorder-1の場合にアミノ酸Y、Wのいずれかからアミノ酸G、V、Tのいずれかに変異、変異導入位置のDisorder領域がDisorder-5の場合にアミノ酸R、Lのいずれかを変異は可溶性発現確率が上がり易いと考えられる。このことから、実施例で作成した分類モデルでは、特定のアミノ酸タンパク質の構造形成に影響を与え、それが可溶性発現確率に影響を与えている可能性がある。また、Disorder領域に関する情報を学習に与えていないことから、タンパク質の構造形成に関する特徴をモデルは学習している可能性がある。
【0229】
実施例3の(7)より、変異導入位置によって可溶性発現確率に影響を与えている変異の傾向は変異導入位置によって変化している可能性があると考えられる。変異導入位置がアミノ酸配列の前半部分と変異導入位置がアミノ酸配列の後半部で傾向に違いがあり、アミノ酸配列の前半部分の場合にアミノ酸Y、W、Kが、変異導入位置がアミノ酸配列の後半部分の場合にアミノ酸G、Vが可溶性発現確率に影響を与えていると考えられる。また、変異導入位置がアミノ酸配列のN末付近と変異導入位置がアミノ酸配列のC末付近のアミノ酸Q、N末付近のアミノ酸A、S、C末付近のアミノ酸A、L、Rが可溶性発現確率に影響を与えていると考えられる。このことから、実施例で作成した分類モデルでは、特定のアミノ酸が特定の変異導入位置において、可溶性発現確率の変化のし易さに寄与していると考えられる。
【0230】
実施例3の(8)より、可溶性発現確率が上がり易い傾向としては、変異導入位置のDisorder領域がDisorder-1の場合に親水性で芳香族のアミノ酸からアミノ酸G、V、Tのいずれかに変異させるとタンパク質は可溶化し易いと考えられる。また、この傾向において変異導入位置による傾向の違いはない。このことから、この傾向は実施例3の(5)~(7)から得られた傾向を組み合わせた傾向に似ていると考えられ、今回行った複数の属性の組み合わせによる分析では、単一の属性のみ関係からは見ることができなかった傾向を確認することができたと考えられる。
【0231】
以上のことから、分類モデルが得た複雑な可溶性メカニズムの特徴を形式概念分析によって可視化することが可能となったと考えられる。
【0232】
実施例では、タンパク質の構造情報をもとに機械学習を行い、タンパク質の可溶性度合を予測する回帰モデルと、タンパク質の可溶性を予測する分類モデルを構築した。その後、作成した回帰モデルと分類モデルを用いてタンパク質の変異導入を仮想上で網羅的に予測し、変異導入予測データを作成した。そのデータに対して、形式概念分析を適用することで、回帰モデルと分類モデルが機械学習によって得た傾向を可視化し、タンパク質が持つ可溶性メカニズムの解明を行った。
【0233】
形式概念分析による回帰モデルの分析によって得た傾向としては、芳香族のアミノ酸 (Y、W、F) を別のアミノ酸に変異させる、又はアミノ酸を負電荷 (D、E) のアミノ酸に変異させることでタンパク質が可溶化し易いと考えられる。また、アミノ酸を変異させる位置によって、変異導入の傾向は変化していないことから、変異導入位置において、タンパク質が可溶化し易い傾向の違いはないと考えられる。このことから回帰モデルは芳香族のアミノ酸と負電荷のアミノ酸の個数が可溶性度合に影響を与えていると考えられる。一方で、形式概念分析による分類モデルの分析によって得た傾向としては、Disorder領域の値が低く、親水性で芳香族のアミノ酸をアミノ酸G、V、Tのいずれかに変異させることでタンパク質が可溶化しやすいと考えられる。作成した分類モデルには、Disorder領域に関する情報を学習に与えていないことから、タンパク質の構造形成に関する何かしらの特徴を分類モデルが獲得していると考えられる。
【0234】
実施例4:学習器が予測した変異部位の位置
本実施例に用いた、高度好熱菌サーマス・サーモフィルス(Thermus thermophilus)由来のタンパク質のアミノ酸配列を計算器に導入し、一点ずつアミノ酸を置換させた可溶性確率を算出し、上昇したものをプロットした。その結果、配列上の比較的後方に位置する傾向が見られた。
【0235】
図44は、アミノ酸置換の影響がある部位が配列上のどこに位置するのかを示し、横軸が、その数で、縦軸が位置を示し、下からN末端、上がC末端となる。
図44から、可溶性発現に関与するアミノ酸は配列上の比較的後方に位置することが理解される。
【0236】
実施例5:可溶性確率に関与するアミノ酸部位
機械学習で可溶性確率が上昇した配列のアミノ酸残基の種類を調査した。Arg、Tyr、Glnを置換することで、可溶性確率が上昇する傾向が見られた。一方、Gly、Val、Lys、Thr、Cysに置換することで、可溶性確率が上昇する傾向が見られた。
【0237】
図45は、上が、可溶性が増加する置換前のアミノ酸、下が、同様に可溶性が減少する置換後のアミノ酸を示す。
図45中、RやYは上段の図にのみ見られ、後半につれて棒グラフが高くなっていることから、これらのアミノ酸を置換することが可溶性の増加に関与していると考えられる。上のグラフではほとんど見られず、下のグラフで見られるアミノ酸があれば、それは置換後にそれらのアミノ酸に返ることが効果的だということを、構築した学習済みのタンパク質可溶性の予測モデルでの計算上示している。実線で囲ったG、V、T、C、Kは上述の効果的なものに相当し、任意のアミノ酸をこれらに置換することで効果のあるアミノ酸であることが示唆される。また、破線で囲ったR、Y、Qは、他のアミノ酸へ置換することで可溶性発現が増加することが示唆される。
【0238】
実施例6:実際の変異導入におけるGVTCへの置換の効果の検討
高度好熱菌サーマス・サーモフィルス(Thermus thermophilus)由来のタンパク質8種類(比色法や吸光度法で活性測定のしやすい酵素)(表15)をランダムに選抜し、それぞれの酵素を構成するアミノ酸配列を用いて可溶性に関与するアミノ酸残基を上位20種類、計160種類に対して、変異導入実験を行い、活性の増加の有無を確認した。なお、表15では、それぞれのタンパク質野生型酵素の配列を導入した可溶性確率を括弧内の最後に%表示する。
【0239】
【0240】
実施例1にて構築した学習済みのタンパク質可溶性予測モデルから上位20種の効果があると見い出された変異部位について、およそ33%の52種類しか、活性の増加が見られず、そのほかは検出限界以下か、活性の増加が見られないものであった。しかしながら、その中で、先に提示したアミノ酸GVTCに変異した変異型酵素に注目してみると、およそ73%の27種が活性の増加が見られた(表16)。
【0241】
【0242】
上記結果から理解されるように、実施例1にて構築した学習済みのタンパク質予測モデルという計算器を、実施例2及び3で示したように可視化して見出されたGVTCといった要素(アミノ酸)に関しては、それは生化学的にも効果のある残基を言い当てていると言える。
【0243】
実施例7:複数の属性との関係
機械学習で可溶性確率が上昇した配列のアミノ酸の性質や位置を調査した。その結果、芳香族アミノ酸をGly、Val、Thrに置換置換することで、可溶性確率が上昇する傾向が見られた。またそれらはタンパク質構造上のdisorder領域中に多く見られる傾向があった。
図46と47に示すように、disorder領域中の芳香族アミノ酸をGVTに置換すると可溶性発現が増加する傾向があることが分かった。
【0244】
実施例1~3及び4~7の結果については上述の通りであるが、実施例1~7の結果から理解される、本発明の同定方法により得られたタンパク質の可溶性を上昇させるタンパク質の属性としては、特に、以下:
(i)タンパク質を構成するアミノ酸のうち、アルギニン、チロシン、及びグルタミンからなる群から選択される少なくとも1つのアミノ酸の、アルギニン、チロシン、及びグルタミン以外のアミノ酸への置換、
(ii)タンパク質を構成するグリシン、バリン、スレオニン、システイン、及びリシン以外のアミノ酸の、グリシン、バリン、スレオニン、システイン、又はリシンへの置換、並びに
(iii)タンパク質のdisorder領域中の芳香族アミノ酸のグリシン、バリン、又はスレオニンへの置換
等が挙げられる。
【0245】
また、上記(i)~(iii)の置換の対象となるアミノ酸は、実施例4~7から理解されるように、タンパク質のアミノ酸配列の後半部分のアミノ酸であることが好ましい。また、タンパク質のdisorder領域中の芳香族アミノ酸が親水性であることも好ましい。
本発明によれば、タンパク質の可溶性に関与するタンパク質の属性を同定することができるため、同定した属性に基づいて、組換えタンパク質等の不溶性又は可溶性の設計が可能となるため有用である。また、特に、沈殿を形成するようなタンパク質について、該同定した属性に基づいて、沈殿を形成せずに可溶性タンパク質として合成し得るため、該タンパク質の生産量を向上することができるため有用である。さらに、該同定した属性を利用することで、組換え微生物での生産が困難なため実用化が難しいとされる動植物由来酵素の利用が可能となるため有用である。その上、酵素以外にもバイオ医薬品、抗体などの生産にも利用できる(新規医薬品やバイオシミラーなどへの展開)ため有用である。