(58)【調査した分野】(Int.Cl.,DB名)
前記作用Aに関連する記述子が、さらにSMR_VSA6、PEOE_VSA11、fr_ester、及びfr_aryl_methylからなる群から選択される少なくとも一種の記述子を含む、請求項1に記載の方法。
【発明を実施するための形態】
【0010】
1.対象化合物が作用Aを有するか否かを予測する方法
対象化合物が作用Aを有するか否かを予測する方法は、一実施形態において、下記ステップ:
(1)対象化合物の構造から作用Aに関連する記述子の値を生成するステップ、及び
(2)前記作用Aに関連する記述子の値を、作用Aに関連する記述子の関数として表される予測モデルに適用し、対象化合物が作用Aを有するか否かを予測するステップ
を含むことが好ましい。
【0011】
1−1.ステップ(1)
対象化合物としては、構造が特定可能なものである限り特に制限はなく、分子量が1000以下の低分子有機化合物、分子量が1000を超える高分子有機化合物(例えば、合成樹脂、タンパク質、多糖)などが挙げられる。対象化合物は、低分子有機化合物であることが好ましい。また、一実施形態において、対象化合物は単独でメディエーターとしての機能をもたない化合物であることが、予測精度の観点から好ましい。
【0012】
一実施形態において、対象化合物は、芳香環骨格を有する化合物であることが好ましい。芳香環骨格の環構成原子の数は、例えば5〜18、好ましくは5〜16、さらに好ましくは5〜14である。対象化合物中の芳香環の数は、例えば4以下、好ましくは3以下、さらに好ましくは1又は2である。芳香環骨格には、1つのベンゼン環からなる骨格、2以上(例えば、2〜4)のベンゼン環からなる骨格(ナフタレン骨格、アントラセン骨格など)、ベンゼン環と他の芳香環(含窒素芳香環、含酸素芳香環、含硫黄芳香環など)との縮合環からなる骨格(フェナントロリン骨格、ベンゾフラン骨格、ベンゾイミダゾール骨格、カルバゾール骨格など)、炭素と他の元素(窒素、酸素、硫黄など)により構成される芳香環からなる骨格(トリアジン骨格、トリアゾール骨格、ピリジン骨格など)を有するものが包含される。一実施形態において、対象化合物は、1つのベンゼン環からなる骨格を有する化合物が好ましい。また、一実施形態において、フェノチアジン骨格を有さない化合物が好ましい。
【0013】
一実施形態において、芳香環骨格を有する化合物は、電子供与性の置換基を有することが好ましい。電子供与性の置換基とはヒドロキシ基、アミノ基、及びメチル基等のことである。好ましい電子供与性の置換基は、ヒドロキシ基である。
【0014】
作用Aは、ナノカーボンによる酵素−電極間電子伝達を増強する作用である限り特に制限されない。ナノカーボンは、電子伝達機能を有する、ナノカーボンとして認識される物質であれば如何なる物質であってもよい。そのような物質は、例えば、カーボンナノチューブ、カーボンナノホーン、カーボンナノツイスト、コクーン、カーボンナノコイル、グラフェン、フラーレンなどを含む、主に炭素により構成されている炭素材料を意味する。カーボンナノチューブは、単層カーボンナノチューブであっても、二層カーボンナノチューブであっても、多層カーボンナノチューブであってもよい。一実施形態において、ナノカーボンは、カーボンナノチューブであることが好ましく、単層カーボンナノチューブであることが好ましい。
【0015】
酵素は、触媒反応に伴って電子を遊離するものが好ましい。そのような酵素としては、例えば、酸化還元酵素を挙げることができる。酸化還元酵素としては、例えば、グルコースデヒドロゲナーゼ、グルコースオキシダーゼ、乳酸オキシダーゼ、コレステロールオキシダーゼ、アルコールオキシダーゼ、ザルコシンオキシダーゼ、フルクトシルアミンオキシダーゼ、ピルビン酸オキシダーゼ、乳酸デヒドロゲナーゼ、アルコールデヒドロゲナーゼ、グリセロールオキシダーゼ、グリセロール−3−リン酸オキシダーゼ、ウリカーゼ、コリンオキシダーゼ、キサンチンオキシダーゼ、及びヒドロキシ酪酸デヒドロゲナーゼ等を挙げることができる。
【0016】
一実施形態において、酵素は、グルコースデヒドロゲナーゼであることが好ましく、フラビン結合型グルコースデヒドロゲナーゼであることが好ましく、フラビンアデニンジヌクレオチド(FAD)を補酵素とするグルコースデヒドロゲナーゼ(FADGDH)が好ましい。FADGDHは、ポリペプチドで形成される3次元構造のくぼみにFADを保持するため、そこで生成された電子を電極に伝達するためには、従来、メディエーターと呼ばれる物質を要した。これに対し、ナノカーボン(好ましくはカーボンナノチューブ、より好ましくは単層カーボンナノチューブ)を用いることにより、メディエーターを利用しなくても、電子を電極に伝達することが可能となる。
【0017】
FADGDHの種類は制限されず、任意のものを使用することができる。FADGDHの具体例としては、次の生物のいずれかに由来するものを挙げることができる:アスペルギルス・テレウス、アスペルギルス・オリゼ、アルペルギルス・ニガー、アスペルギルス・フォエチダス、アルペルギルス・アウレウス、アスペルギルス・バージカラー、アスペルギルス・カワチ、アルペルギルス・アワモリ、アグロバクテリウム・ツメファシエンス、サイトファーガ・マリノフラバ、アガリカス・ビスポラス、マクロレピオタ・ラコデス、ブルクホルデリア・セパシア、ムコール・サブチリシマス、ムコール・ギリエルモンディ、ムコール・プライニ、ムコール・ジャバニカス、ムコール・シルシネロイデス、ムコール・シルシネロイデス・エフ・シルシネロイデス、ムコール・ヒエマリス、ムコール・ヒエマリス・エフ・シルバチカス、ムコール・ダイモルフォスポラス、アブシジア・シリンドロスポラ、アブシジア・ヒアロスポラ、アクチノムコール・エレガンス、シルシネラ・シンプレックス、シルシネラ・アンガレンシス、シルシネラ・シネンシス、シルシネラ・ラクリミスポラ、シルシネラ・マイナー、シルシネラ・ムコロイデス、シルシネラ・リジダ、シルシネラ・アンベラータ、シルシネラ・ムスカエ、メタリジウム・エスピー及びコレトトリカム・エスピー。
【0018】
一実施形態において、好ましいFADGDHは、アスペルギルス・オリゼ由来のFADGDH、ムコール・ヒエマリス由来のFADGDH、ムコール・サブチリシマス由来のFADGDH、シルシネラ・シンプレックス由来のFADGDH、メタリジウム・エスピー由来のFADGDH又はコレトトリカム・エスピー由来のFADGDHであり、好ましくは配列番号1〜6のアミノ酸配列と80%以上の同一性を有し、より好ましくは配列番号1〜6のアミノ酸配列と90%以上の同一性を有し、さらに好ましくは配列番号1〜6のアミノ酸配列と95%以上の同一性を有し、グルコース脱水素活性を有するものを挙げることができる。アミノ酸配列の同一性は、市販の又は電気通信回線(インターネット)を通じて利用可能な解析ツールを用いて算出することができ、例えば、全米バイオテクノロジー情報センター(NCBI)の相同性アルゴリズムBLAST(Basic local alignment search tool)http://www.ncbi.nlm.nih.gov/BLAST/ においてデフォルト(初期設定)のパラメータを用いて、算出することができる。なお、配列番号1のアミノ酸配列は、アスペルギルス・オリゼ由来のFADGDHのものであり、配列番号2のアミノ酸配列は、ムコール・ヒエマリス由来のFADGDHのものであり、配列番号3のアミノ酸配列は、ムコール・サブチリシマス由来のFADGDHのものであり、配列番号4のアミノ酸配列は、シルシネラ・シンプレックス由来のFADGDHのものであり、配列番号5のアミノ酸配列は、メタリジウム・エスピー由来のFADGDHのものであり、配列番号6のアミノ酸配列は、コレトトリカム・エスピー由来のFADGDHのものである。
【0019】
電極としては、特に制限はなく、例えば、絶縁性基板上に金属膜(例えば、金属薄膜)又は炭素膜(例えば、炭素薄膜)が積層されたものを使用することができる。絶縁性基板は、例えば、ガラス基板又はプラスチック基板(例えば、PET基板)を使用することができる。金属膜を形成する金属の種類は、電極に使用されるものであれば特に制限されず、例えば、金、白金、及びチタン等を挙げることができる。また、炭素膜としては、例えば、カーボンペーストによる薄膜を使用することができる。
【0020】
作用Aに関連する記述子は、作用Aの有無を予測することが可能な記述子である限り、その種類及び数は特に制限されない。一実施形態において、作用Aに関連する記述子は、スパースモデリングにより抽出された記述子であることが好ましく、より具体的には、後述の追加のステップ(i)で抽出された記述子であることが好ましい。
【0021】
一実施形態において、作用Aに関連する記述子は、0〜4次元記述子から選択された少なくとも一種であることが好ましい。0次元記述子としては、例えば、C, H, O, N, ハロゲン等の原子の数、結合数、分子量等が挙げられる。1次元記述子としては、例えば、アルキル基, アリール基, アリールアルキル基, ヒドロキシ基, エステル基, アミノ基等の官能基の数、芳香環の数等が挙げられる。2次元記述子としては、例えば、SMR_VSA1〜10, PEOE_VSA1〜14, SlogP_VSA1〜12, Estate_VSA1〜11等の構造式で特徴付けられるもの等が挙げられる。3次元記述子としては、例えば、3D-MoRSE, WHIM, GETAWAY等の幾何学的に特徴付けられるもの等が挙げられる。4次元記述子としては、例えば、GRID, CoMFA, Volsurf等によって算出され、相互作用エネルギーで特徴付けられるもの等が挙げられる。
【0022】
一実施形態において、作用Aに関連する記述子は、0〜2次元記述子から選択された少なくとも一種であることが好ましい。
【0023】
作用Aに関連する記述子の数は、特に制限されないが、予測精度を高める点から、2以上が好ましく、3以上がより好ましく、4以上がさらに好ましい。また、作用Aに関連する記述子の数は、単純な予測モデルを構築する点から、10以下が好ましく、8以下がより好ましく、6以下がさらに好ましい。
【0024】
一実施形態において、作用Aに関連する記述子は、fr_Ar_OH又はファンデルワールス表面積に関する記述子又は分極率に関する記述子を含むことが好ましく、fr_Ar_OH又はSMR_VSA9を含むことがより好ましく、fr_Ar_OH又はSMR_VSA9に加えて、さらにSMR_VSA6、PEOE_VSA11、fr_ester、及びfr_aryl_methylからなる群から選択される少なくとも一種の記述子を含むことがさらに好ましく、fr_Ar_OH又はSMR_VSA9、SMR_VSA6、PEOE_VSA11、及びfr_aryl_methylを含むことが特に好ましい。また、作用Aに関連する記述子がSMR_VSA9を含む場合、さらにfr_ester、fr_aryl_methyl、SMR_VSA6、及びPEOE_VSA11を含むことも好ましい。
【0025】
記述子「fr_Ar_OH」は、芳香環に結合するヒドロキシ基の数である。
【0026】
記述子「SMR_VSA9」は、三重結合をもつ炭素、並びに、酸素原子及び芳香環に結合する芳香族炭素の総表面積(単位:Å
2)である。より詳細には、SMR_VSA9は、溶解自由エネルギー、沸点などの分子の物理化学的性質を予測するためにLABUTEによって作られたVSA型記述子の一つである(LABUTE, Paul. A widely applicable set of descriptors. Journal of Molecular Graphics and Modelling, 2000, 18.4-5: 464-477)。
【0027】
VSA型記述子は、分子中の各原子が任意の性質(数値)P
iをもつとすると、ある範囲内の性質Pをもつ表面積の合計として定義され、下記式(S1):
【数1】
で表される。ここで、V
iは各原子のファンデルワールス表面積(van der Waals surface area; VSA)であり、原子のファンデルワールス半径と標準的な結合距離から近似的に計算された値である。δ(A)は条件式Aが真のとき1、偽のとき0を返す関数である。
【0028】
VSA型記述子「P_VSAk」は、水素原子を除く全ての原子についてのV
iδ(A)の総和である。条件式AのP
iがMR(後述)のとき、このVSA型記述子はSMR_VSAkと呼ばれる。SMR_VSAkは、主に分極率を記述する。SMR_VSAkに対する範囲の境界{a
k}は、下記式(S2):
【数2】
で表される。MRとは、分子のモル屈折率(molar refractivity)を原子寄与法(下記式(S3)):
【数3】
により予測する際の原子毎の係数P
iであり、Crippenらによって3412分子の実験データから決定されたものである。MRの値は68個の原子タイプ毎に定められている。そのうち、SMR_VSA9に対応する範囲[3.80, 4.00]にある原子タイプは、下表に示す3タイプのみである。
【表1】
例えば、アンピロンの場合、ピラゾール環に結合する芳香族炭素がC20に該当し、フェノールの場合、ヒドロキシ基に隣接する芳香族炭素がC23に該当する。
【0029】
すなわち、SMR_VSA9は、それに対応する範囲[3.80, 4.00]にある原子タイプに属する原子のファンデルワールス表面積の総和ということができる。
【0030】
記述子「SMR_VSA6」は、非芳香族へテロ原子と結合する第一及び二級非芳香族炭素、並びに、芳香環に結合する窒素原子の総表面積(単位:Å
2)である。より詳細には、SMR_VSA6は、SMR_VSA9と同様、VSA型記述子の一つであり、SMR_VSA6に対応する範囲[2.75, 3.05]にある原子タイプに属する原子のファンデルワールス表面積の総和である。なお、SMR_VSA6に対応する範囲[2.75, 3.05]にある原子タイプは、下表に示す4タイプのみである。
【表2】
【0031】
記述子「PEOE_VSA11」は、0.15〜0.20の電荷(単位は電荷素量で表す)を持つ原子の総表面積(単位:Å
2)である。より詳細には、PEOE_VSA11を含むPEOE_VSAkは、SMR_VSAkと同様、VSA型記述子の一つであり、条件式AのP
iをPEOE(後述)としたときの式(S1)により定義される。PEOE_VSAkは、主に静電相互作用を記述する。PEOE_VSAkに対する範囲の境界{a
k}は、下記式(S4):
【数4】
で表される。PEOEとは、Gasteigerらによって提案された経験的原子電荷決定法により算出された原子電荷である。このGasteigerらによる推算法では原子の電気陰性度を基に原子電荷が決定される。
【0032】
記述子「fr_ester」は、エステル基の数である。
【0033】
記述子「fr_aryl_methyl」は、ヒドロキシ化を受けうるベンジル位炭素の数である。ヒドロキシ化を受けうるベンジル位炭素とは、芳香環に結合するメチル基またはエチル基またはエチレン基を構成する炭素原子のうち芳香環に直接結合している炭素原子のことを指す。ただし、エチレン基の一端に芳香環が結合し他端に非芳香族性の酸素原子または窒素原子が結合している場合、エチレン基のベンジル位炭素は、ヒドロキシ化を受けうるベンジル位炭素の数には含めない。また、芳香環に結合する基がメチル基、エチル基、エチレン基の全ての場合において、ベンジル位炭素が結合する芳香族性原子に隣接する2つの芳香族性原子のどちらもが水素原子以外と非芳香族性結合をもつなら、当該ベンジル位炭素は、ヒドロキシ化を受けうるベンジル位炭素の数には含めない。
【0034】
一実施形態において、ステップ(1)は、DRAGON、alvaDesc、CODESSA PRO、ADAPT、ADMET Predictor、CORINA Symphony、Pentacle、VolSurf+、ISIDA Fragmentor、JOELib、Molconn-Z、PowerMV、PreADMET、PaDEL-Descriptor、cinfony、Chemopy、The Chemistry Development Kit、RDKit、Open Babel、ToMoCoMD-CARDD、QuaSAR-Descriptor、Molecular Operating Environment、SYBYL(商標)-X Suite、BIOVIA(商標) Discovery Studio、BIOVIA(商標) Material Studio、QikProp、Jaguar、MacroModel、VCharge、MarvinSketch、Spartan、MOPAC(商標)、GAMESS、Gaussian(商標)、HyperChem、Q-Chem、BOSS、Firefly、Molpro、Molcas、ADF、TURBOMOLE、PQS、MPQC、Dalton、LSDalton、COLUMBUS、NWChem、PSI4、CFOUR、ACES、ORCA、SMASH、ABINIT-MP、NTChem、PAICS、Mold2等のコンピュータソフトウェアを利用して、対象化合物の構造から作用Aに関連する記述子の値を計算する方法であることが好ましい。一実施形態において、コンピュータソウトウェアは、RDKitであることが好ましい。
【0035】
1−2.ステップ(2)
作用Aに関連する記述子の関数として表される予測モデルは、対象化合物が作用Aを有するか否かを予測することが可能なモデルである限り、特に制限はない。一実施形態において、予測モデルは、機械学習により作成された予測モデルであることが好ましく、より具体的には、後述の追加のステップ(ii)で作成された予測モデルであることが好ましい。
【0036】
一実施形態において、予測モデルは、下記式(N)又は(M):
f(x)=-1.00+a×fr_Ar_OH+b×SMR_VSA6+c×PEOE_VSA11+d×fr_aryl_methyl (N) 又は
f(x)=-1.00+e×SMR_VSA9+f×fr_ester+g×fr_aryl_methyl+h×SMR_VSA6+i×PEOE_VSA11 (M)
(式中、a〜iは、機械学習により決定される数である。)
において、f(x)が0以上であれば、対象化合物が作用Aを有すると予測するモデルであることが好ましい。
【0037】
一実施形態において、予測モデルは、下記式(N1)〜(N4)及び(M1)〜(M5):
f(x)=−1.00+2.44×fr_Ar_OH (N1)
f(x)=−1.00+2.14×fr_Ar_OH+0.25×SMR_VSA6 (N2)
f(x)=−1.00+2.14×fr_Ar_OH+0.39×SMR_VSA6−0.21×PEOE_VSA11 (N3)
f(x)=−1.00+2.00×fr_Ar_OH+0.37×SMR_VSA6−0.20×PEOE_VSA11+1.43×fr_aryl_methyl (N4)
f(x)=−1.00+0.37×SMR_VSA9 (M1)
f(x)=−1.00+0.39×SMR_VSA9−1.72×fr_ester (M2)
f(x)=−1.00+0.37×SMR_VSA9−1.56×fr_ester+1.48×fr_aryl_methyl (M3)
f(x)=−1.00+0.34×SMR_VSA9−1.38×fr_ester+1.39×fr_aryl_methyl+0.17×SMR_VSA6 (M4)
f(x)=−1.00+0.34×SMR_VSA9−1.38×fr_ester+1.39×fr_aryl_methyl+0.36×SMR_VSA6−0.18×PEOE_VSA11 (M5)
のいずれかにおいて、f(x)が0以上であれば、対象化合物が作用Aを有すると予測するモデルであることが好ましく、式(N2)〜(N4)及び(M2)〜(M5)のいずれかにおいて、f(x)が0以上であれば、対象化合物が作用Aを有すると予測するモデルであることがより好ましく、式(N3)〜(N4)及び(M3)〜(M5)のいずれかにおいて、f(x)が0以上であれば、対象化合物が作用Aを有すると予測するモデルであることがさらに好ましく、式(N4)及び(M4)〜(M5)のいずれかにおいて、f(x)が0以上であれば、対象化合物が作用Aを有すると予測するモデルであることがさらにより好ましく、式(N4)又は(M5)において、f(x)が0以上であれば、対象化合物が作用Aを有すると予測するモデルであることが特に好ましい。
【0038】
式(N), (N1)〜(N4), (M), 及び(M1)〜(M5)は、f(x)が0以上であるか否かを判定するため、それぞれ、右辺をα倍(αは0以外の任意の数)した式と等価である。例えば、式(N1)は、下記式(N1’):
f(x)=-1.00×α+2.44×α×fr_Ar_OH (N1’)
と等価である。
【0039】
予測モデルの予測精度(試行回数に対する予測と実際の結果とが一致する回数の割合)は、75%以上が好ましく、80%以上がより好ましく、85%以上がさらに好ましく、90%以上がさらにより好ましく、95%以上が特に好ましく、100%が最も好ましい。
【0040】
1−3.任意の追加のステップ(i)
一実施形態において、対象化合物が作用Aを有するか否かを予測する方法は、ステップ(1)及び(2)に加えて、学習用化合物の構造から作用Aに関連する記述子を抽出するステップ(i)を含むことが好ましい。
【0041】
学習用化合物としては、作用Aの有無が確認されている化合物である限り特に制限されないが、基本骨格、官能基等が異なる複数の化合物を用いることが好ましい。なお、作用Aの有無を確認する方法は、次の方法1及び方法2のいずれかである。
<方法1>
PET基板に金を蒸着したシートを用いて、9mm
2の作用電極部位を持つ電極チップを作製する(
図1)。
図1において、「1」はPETフィルムであり、「2」は粘着シートであり、「3」は金蒸着PETフィルムであり、「4」は作用電極部位を示す。この作用電極部位に2%(w/v)のコール酸ナトリウム及び0.15%(w/v)の単層カーボンナノチューブ(SuperPureTubes、NanoIntegris社、外径1.1〜1.7nm)を含む水分散液を5μL滴下し乾燥させる。乾燥後、作用電極部位に超純水に溶解したFADGDH(配列番号2のアミノ酸配列を有する;20U/μL)を5μL滴下し乾燥させる。乾燥後、作用電極部位に、学習用化合物をエタノール又はアセトン又はリン酸ナトリウム緩衝液に溶解した溶液(1%(w/v))を5μL滴下し乾燥させる。乾燥後、作用電極部位に3%(w/v)ナフィオン液を5μL滴下し乾燥させ、カーボンナノチューブ及びFADGDHを作用電極に固定化する。電気化学アナライザー(ALS/CHI 660B、エービーエス(株)社製)の作用極に上記で作製した電極チップ、参照電極に銀/塩化銀電極、対極に白金線をセットする。この3電極を40mMリン酸ナトリウム緩衝液(pH7.4)に浸漬する。この緩衝液にグルコースを添加しない場合、又はグルコースを48mMとなるように添加する場合において、サイクリックボルタンメトリーによる測定を実施し、得られたサイクリックボルタモグラムから作用Aの有無を判定する。
<方法2>
PET基板に金を蒸着したシートを用いて、9mm
2の作用電極部位を持つ電極チップを作製する(
図1)。この作用電極部位に2%(w/v)のコール酸ナトリウム及び0.15%(w/v)の単層カーボンナノチューブ(SuperPureTubes、NanoIntegris社、外径1.1〜1.7nm)を含む水分散液を5μL滴下し乾燥させる。乾燥後、作用電極部位に超純水に溶解したFADGDH(配列番号2のアミノ酸配列を有する;20U/μL)を5μL滴下し乾燥させる。乾燥後、作用電極部位に3%(w/v)ナフィオン液を5μL滴下し乾燥させ、カーボンナノチューブ及びFADGDHを作用電極に固定化する。次に、40mMリン酸ナトリウム緩衝液(pH7.4)に学習用化合物を0.1%(w/v)添加して溶解する。電気化学アナライザー(ALS/CHI 660B)の作用極に上記で作製した電極チップ、参照電極に銀/塩化銀電極、対極に白金線をセットし、上記学習用化合物を溶解したリン酸ナトリウム緩衝液に浸漬する。この緩衝液にグルコースを添加しない(0mM)、又はグルコースを48mMとなるように添加する場合において、サイクリックボルタンメトリーによる測定を実施し、得られたサイクリックボルタモグラムから作用Aの有無を判定する。
【0042】
一実施形態において、学習用化合物には単独でメディエーターとしての機能をもつ化合物を含めないことが、予測モデルの簡潔化および予測精度の向上の観点から好ましい。
【0043】
一実施形態において、学習用化合物は、下記からなる群から選択される複数の化合物が好ましい。
【表3】
【0044】
学習用化合物の数の下限は、特に制限されないが、予測精度を高める点から、5以上が好ましく、10以上がより好ましく、15以上がさらに好ましく、20以上が特に好ましい。また、学習用化合物の上限は、特に制限されないが、データの収集性の点から、50以下が好ましく、40以下がより好ましく、30以下がさらに好ましい。
【0045】
学習用化合物には、作用Aを有する化合物及び作用Aを有さない化合物の両方が含まれることが好ましい。作用Aを有する化合物の数と作用Aを有さない化合物の数との比は、1:5〜5:1が好ましく、1:4〜4:1がより好ましい。
【0046】
作用Aを有する化合物の数と作用Aを有さない化合物の数との比が1:1と異なる場合には、比が1:1となるように学習用化合物の数を調整することが好ましい。調整方法としては、例えば、数が少ない方に対するオーバーサンプリング、数が多い方に対するアンダーサプリング、それらの組合せ等が挙げられる。オーバーサンプリングの手法としては、例えば、ランダムオーバーサンプリンング、SMOTE、SMOTE-NC、ADASYN等が挙げられる。アンダーサンプリングの手法としては、例えば、ランダムアンダーサンプリンング、ONESS、NearMiss、NCL等が挙げられる。学習用化合物の数が多くない場合には、オーバーサンプリングを用いることが好ましい。
【0047】
一実施形態において、ステップ(i)は、学習用化合物の構造から一群の記述子の値を生成し、その群からスパースモデリングを用いて作用Aに関連する記述子を抽出する方法であることが好ましい。
【0048】
一実施形態において、一群の記述子は、0〜2次元記述子から選択されることが好ましく、学習用化合物全てに対して同じ値をもつ記述子を含まないことが好ましい。
【0049】
一実施形態において、作用Aに関連する記述子を抽出する前に、一群の記述子の値を正規化することが好ましい。正規化の方法としては、例えば、標準化変換、Yeo-Johnson変換等が挙げられる。一実施形態において、Yeo-Johnson変換を実行することが好ましく、機械学習用PythonライブラリであるScikit-learnを用いてYeo-Johnson変換を実行することがより好ましい。
【0050】
スパースモデリングとしては、例えば、貪欲法、凸緩和法、確率推論などが挙げられる。貪欲法としては、例えば、直交マッチング追跡(OMP)、マッチング追跡(MP)、弱マッチング追跡(Weak MP)、閾値アルゴリズムなどが挙げられる。凸緩和法としては、例えば、基底追跡法、反復再重み付け最小二乗法(IRLS)、ホモトピー法などが挙げられる。確率推論としては、近似メッセージ伝搬法(AMP)などが挙げられる。一実施形態において、スパースモデリングは、直交マッチング追跡であることが好ましい。
【0051】
1−4.任意の追加のステップ(ii)
一実施形態において、対象化合物が作用Aを有するか否かを予測する方法は、ステップ(1)及び(2)に加えて、作用Aに関連する記述子の関数として表される予測モデルを作成するステップ(ii)を含むことが好ましい。
【0052】
一実施形態において、ステップ(ii)は、機械学習により予測モデルを作成することが好ましい。機械学習としては、例えば、サポートベクターマシン、関連ベクターマシン、ロジスティック回帰、変分ベイズロジスティック回帰、フィッシャーの線形判別分析、ベイジアンネットワーク、ニューラルネットワーク、アダブースト、ランダムフォレスト等が挙げられる。これらは単独で使用しても2つ以上を併用してもよい。データ数が少ない場合は、線形モデルを採用する方法を採用することが、過学習の防止および解釈可能性の高さの観点から好ましい。一実施形態において、機械学習は、線形サポートベクターマシン、又は変分ベイズロジスティック回帰が好ましい。また、一実施形態において、機械学習は、LibSVM、TensorFlowTM、Chainer(商標)、Jubatus(商標)、Caffe、Theano、Torch、neonTM、MXNet、The Microsoft Cognitive Toolkit、R(C)、MATLAB(商標)、Mathematica(商標)、SAS(商標)、RapidMiner(商標)、KNIME(商標)、WeKa、shogun-toolbox/shogun、Orange、Apache MahoutTM、scikit-learn、mlpy、XGBoost、Deeplearning4j等のコンピュータソフトウェアを利用して実行することが好ましい。
【0053】
一実施形態において、対象化合物が作用Aを有するか否かを予測する方法は、ステップ(1)、(2)、(i)、及び(ii)を含むことが好ましい。
【0054】
2.対象化合物が作用Aを有するか否かを予測する方法を実行するための手段を備えるシステム
対象化合物が作用Aを有するか否かを予測する方法は、上記1で記載した通りである。一実施形態において、当該方法を実行するための手段は、入力装置、主記憶装置、補助記憶装置、演算装置、出力装置、及び制御装置を含むことが好ましい。
【0055】
入力装置は、学習用化合物及び/又は対象化合物の構造を入力可能な限り特に制限されず、例えば、キーボード、マウス、タッチパネル等が挙げられる。主記憶装置は、入力装置で入力されたデータ、補助記憶装置に格納されたデータ、プログラム等を取り込み格納できる限り特に制限されず、例えば、RAM、ROM等が挙げられる。補助記憶装置は、データ、プログラム等が格納できる限り特に制限されず、例えば、ハードディスクドライブ、光ディスク、SSD等が挙げられる。制御装置は、主記憶装置に格納されたプログラムに従って、演算装置等を制御できる限り特に制限されない。出力装置は、演算装置で演算された結果を表示できる限り特に制限されず、例えば、ディスプレイ等が挙げられる。
【0056】
上記手段を含むシステムは、例えば、入力装置で入力された構造データ、及び当該構造データから作用Aに関連する記述子、予測モデル、予測結果等を作成するためのプログラムを主記憶装置に取り込んで格納し、前記データ及びプログラムを演算装置に取り込んで、制御装置から送られた演算命令に基づいて演算し、演算結果を主記憶装置に返して出力装置により出力することができる。
【0057】
3.対象化合物が作用Aを有するか否かを予測する方法を実行するためのプログラム及び記録媒体
対象化合物が作用Aを有するか否かを予測する方法は、上記1で記載した通りである。プログラムは、上記方法を実行できる限り特に制限されない。一実施形態において、プログラムは、CD(Compact Disc)-ROM、CD-R、CD-RW、DVD(Digital Versatile Disc)、DVD-RAM、BD(Blu-ray(商標)Disc)、MO(MagnetoOptical disc)、SSD、磁気テープ、各種メモリーカード(USBフラッシュメモリー、SDメモリーカード等)等のコンピュータ読み取り可能な記憶媒体に格納した状態、或いはクラウドコンピュータ等からダウンロードする形態で提供される。また、ネットワークを介して接続されたコンピュータの補助記憶装置にプログラムを格納すること、ネットワークを通じて他のコンピュータにプログラムを転送することなども可能である。
【0058】
4.ナノカーボンによる酵素−電極間電子伝達の増強剤
一実施形態において、ナノカーボンによる酵素−電極間電子伝達の増強剤は、化合物Xからなることが好ましい。化合物Xの記述子fr_Ar_OH、SMR_VSA6、PEOE_VSA11、fr_ester、及びfr_aryl_methylの値が、式(N), (N1)〜(N4), (M), 及び(M1)〜(M5)のいずれかで表されるf(x)≧0を満たすものであることが好ましく、下記式:
−1.00+2.00×fr_Ar_OH+0.37×SMR_VSA6−0.20×PEOE_VSA11+1.43×fr_aryl_methyl
≧0
を満たすものであることが特に好ましい。また、式(N1)〜(N4)及び(M1)〜(M5)のうち、2つ以上の式(例えば、式(N1)及び(N4))において、f(x)≧0を満たすものであることも好ましい。
【0059】
一実施形態において、化合物Xは、上記1で記載した対象化合物と同様の構造を有することが好ましく、単独でメディエータとしての機能をもたない化合物であることが好ましい。なお、ナノカーボン、酵素、及び電極は、上記1で記載した通りである。
【実施例】
【0060】
<学習用データ>
PET基板に金を蒸着したシートを用いて、9mm
2の作用電極部位を持つ電極チップを作製した(
図1)。
図1において、「1」はPETフィルムであり、「2」は粘着シートであり、「3」は金蒸着PETフィルムであり、「4」は作用電極部位を示す。この作用電極部位に2%(w/v)のコール酸ナトリウム及び0.15%(w/v)の単層カーボンナノチューブ(SuperPureTubes、NanoIntegris社、外径1.1〜1.7nm)を含む水分散液を5μL滴下し乾燥させた。乾燥後、作用電極部位に超純水に溶解したFADGDH(配列番号2のアミノ酸配列を有する;20U/μL)を5μL滴下し乾燥させた。乾燥後、作用電極部位に、下記の群1及び群2の化合物をエタノール又はアセトン又はリン酸ナトリウム緩衝液に溶解した溶液(1%(w/v))を5μL滴下し乾燥させた。乾燥後、作用電極部位に3%(w/v)ナフィオン液を5μL滴下し乾燥させ、カーボンナノチューブ及びFADGDHを作用電極に固定化した。
【0061】
電気化学アナライザー(ALS/CHI 660B、エービーエス(株)社製)の作用極に上記で作製した電極チップ、参照電極に銀/塩化銀電極、対極に白金線をセットした。この3電極を40mMリン酸ナトリウム緩衝液(pH7.4)に浸漬した。この緩衝液にグルコースを添加しない場合、又はグルコースを48mMとなるように添加する場合において、サイクリックボルタンメトリーによる測定を実施した。
【0062】
上記と同様に、PET基板に金を蒸着したシートを用いて、9mm
2の作用電極部位を持つ電極チップを用意した(
図1)。この作用電極部位に2%(w/v)のコール酸ナトリウム及び0.15%(w/v)の単層カーボンナノチューブ(SuperPureTubes、NanoIntegris社、外径1.1〜1.7nm)を含む水分散液を5μL滴下し乾燥させた。乾燥後、作用電極部位に超純水に溶解したFADGDH(配列番号2のアミノ酸配列を有する;20U/μL)を5μL滴下し乾燥させた。乾燥後、作用電極部位に3%(w/v)ナフィオン液を5μL滴下し乾燥させ、カーボンナノチューブ及びFADGDHを作用電極に固定化した。次に、40mMリン酸ナトリウム緩衝液(pH7.4)に、下記の群1及び群2の化合物を0.1%(w/v)添加して溶解した。電気化学アナライザー(ALS/CHI 660B)の作用極に上記で作製した電極チップ、参照電極に銀/塩化銀電極、対極に白金線をセットし、上記学習用化合物を溶解したリン酸ナトリウム緩衝液に浸漬した。この緩衝液にグルコースを添加しない(0mM)、又はグルコースを48mMとなるように添加する場合において、サイクリックボルタンメトリーによる測定を実施した。
【0063】
得られたサイクリックボルタモグラムから、群1の化合物は、カーボンナノチューブによる酵素−電極間電子伝達を増強する作用Aを有さず、群2の化合物は作用Aを有することが分かった。
【0064】
【表4】
【0065】
【表5】
【0066】
作用Aを有さない化合物として群1の化合物を含む17個の化合物を、作用Aを有する化合物として群2の化合物からなる17個の化合物を、学習用データに用いた。
【0067】
<予測モデルの作成>
作用Aの有無の予測モデルの作成は、学習用データを用いて、(1)記述子の作成、(2)作用Aに関連する記述子の抽出、及び(3)予測式の作成の3段階により行った。
【0068】
(1) 記述子の作成
Rdkit(Open-source cheminformatics; http://www.rdkit.org)を用いて、学習用データの各化合物を、化学構造式に基づいて、200種類の記述子の値を計算し、200次元ベクトルに変換した。200種類の記述子には、官能基数、トポロジー、分極性などを表す記述子が含まれる。なお、基本的で汎用性の高い記述子を優先的に用いるため、3次元記述子は除外した。また、学習用データの化合物全てに対し同じ値をもつ記述子は意味をもたないため除外した。
【0069】
(2) 作用Aに関連する記述子の抽出
学習用データの化合物の作用Aの有無を判定するために必要な記述子は、200種類のうちでも少数であるから、予測式を作成する前に、記述子の抽出を行った。記述子の抽出には、直交マッチング追跡(orthogonal matching pursuit; OMP)(MALLAT, Stephane; ZHANG, Zhifeng. Matching pursuit with time-frequency dictionaries. Courant Institute of Mathematical Sciences New York United States, 1993)を用いた。OMPはスパースモデリングの一種であり、式(1)のL
0ノルム制限付き最適化問題(Rubinstein, R., Zibulevsky, M. and Elad, M., Efficient Implementation of the K-SVD Algorithm using Batch Orthogonal Matching Pursuit Technical Report - CS Technion, April 2008)を係数ベクトルCについて解いた。
【数5】
ここで、y=(y
1,…,y
n)
Tの成分y
iは各化合物の作用Aの有(1)無(-1)を表し、X=(x
1,…,x
n)
Tは各化合物の記述子x
iを並べた行列である。このとき、式(1)を解いて得られる係数ベクトルCは、たかだかS個しか非ゼロ要素をもたないスパース(疎)なベクトルとなる。そこで、非ゼロ要素に対応する記述子を抽出し、次の予測式の作成に使用した。
【0070】
なお、OMPを行う前に、計算の安定化を目的として記述子行列Xを列、すなわち記述子ごとに標準化変換(式(2))することが一般的である。
【数6】
ここで、μ
jは列ごとの平均、σ
jは標準偏差を表す。しかし、データ数が少ない場合、外れ値が存在する場合には、標準化変換をしても変換後の分布は標準正規分布とはならない可能性がある。そこで、OMPを行う前に、より強力にデータを標準正規分布に近づけることのできるYeo-Johnson変換(YEO, In‐Kwon; JOHNSON, Richard A. A new family of power transformations to improve normality or symmetry. Biometrika, 2000, 87.4: 954-959)を列ごとに行った(式(3))。
【数7】
ここでλ
jは0≦λ
j≦2の範囲の指数パラメータであり、最尤推定により決定した。これらの処理は、機械学習用PythonライブラリであるScikit-learn(Machine Learning in Python, Pedregosa et al., JMLR 12, pp. 2825-2830, 2011)を用いて実行した。
【0071】
抽出する記述子の数Sが1のとき、fr_Ar_OHという記述子が選ばれ、Sが2のとき、さらにSMR_VSA6という記述子が選ばれ、Sが3のとき、さらにPEOE_VSA11という記述子が選ばれ、Sが4のとき、さらにfr_aryl_methylという記述子が選ばれた。或いは、抽出する記述子の数Sが1のとき、SMR_VSA9という記述子が選ばれ、Sが2のとき、さらにfr_esterという記述子が選ばれ、Sが3のとき、さらにfr_aryl_methylという記述子が選ばれ、Sが4のとき、さらにSMR_VSA6という記述子が選ばれ、Sが5のとき、さらにPEOE_VSA11という記述子が選ばれた。
【0072】
(3) 予測式の作成
既に重要な記述子がOMPにより抽出されており、単純な分類手法で十分であるため、予測式の作成には、線形カーネルによるサポートベクター分類(Support Vector Classification; SVC)(R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R. Wang, and C.-J. Lin. LIBLINEAR: A Library for Large Linear Classification, Journal of Machine Learning Research 9(2008), 1871-1874. Software available at http://www.csie.ntu.edu.tw/~cjlin/liblinear)を用いた。線形SVCでは、双対変数ベクトル
【数8】
に関する拘束付き最小化(式(4))を行った。
【数9】
ここでx
iとy
iは式(1)と同様に各化合物の記述子と作用Aの有無を表す。ただし、バイアス(切片)の効果を考慮するためにx
iの第0次元に定数項を追加した:
【数10】
このとき、最適化された双対変数ベクトルαを用い、作用Aの有無を判別する式(5)を得た。
【数11】
ここで、
【数12】
である。また、式(4)中のCは正則化係数と呼ばれるハイパーパラメータである。一つ抜き(Leave One Out)法を用いた交差検証によりCの決定を試みたが、Cを変化させてもテスト精度が変わらず安定していたため、C=1とした。これら線形SVCの計算は、Scikit-learnを用いて実行した。なお、予測式の作成に関しては、前述の抽出とは異なり、記述子に対するYeo-Johnson変換及び標準化変換は施していない。
【0073】
以上の手順により、抽出する記述子の数Sが1〜4の場合の予測式を作成した。
【表6】
【0074】
学習用化合物の作用Aの有無の予測精度は、予測式(N1)の場合91.2%であり、予測式(N2)の場合94.1%であり、予測式(N3)の場合97.1%であり、予測式(N4)の場合100%であり、予測式(M1)の場合91.2%であり、予測式(M2)の場合94.1%であり、予測式(M3)の場合97.1%であり、予測式(M4)の場合97.1%であり、予測式(M5)の場合100%であった。
【0075】
<検証用データ>
群3の化合物を検証用データに用いた。
【表7】
【0076】
群3の各化合物について、化学構造式から記述子の値を算出し、その値を予測式に適用したところ、予測式(N1)〜(N4)及び(M1)〜(M5)のいずれを用いても、群3のうち、化合物(3-1)〜(3-9)は作用Aを有し、化合物(3-10)及び(3-11)は作用Aを有さないと予測された。実際、群3の化合物を学習用データで述べたのと同様の試験に供したところ、予測通りの結果となり、予測と実際の結果は完全に一致する(予測精度が100%である)ことが分かった。