(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024068618
(43)【公開日】2024-05-20
(54)【発明の名称】標的遺伝子ベースの薬物臨床試験成功率予測モデル
(51)【国際特許分類】
G16H 70/40 20180101AFI20240513BHJP
C12Q 1/02 20060101ALN20240513BHJP
【FI】
G16H70/40
C12Q1/02
【審査請求】有
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2023130655
(22)【出願日】2023-08-10
(31)【優先権主張番号】10-2022-0147881
(32)【優先日】2022-11-08
(33)【優先権主張国・地域又は機関】KR
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (1)2022年8月11日、https://www.researchsquare.com/article/rs-1932224/v1、“Drug approval prediction based on the discrepancy between gene perturbation effects in cells and humans”
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.PYTHON
(71)【出願人】
【識別番号】523305109
【氏名又は名称】イムノバイオーム インコーポレイテッド
(71)【出願人】
【識別番号】520337569
【氏名又は名称】ポステック リサーチ アンド ビジネス デベロップメント ファウンデーション
【氏名又は名称原語表記】POSTECH RESEARCH AND BUSINESS DEVELOPMENT FOUNDATION
【住所又は居所原語表記】(Jigok-dong) 77, Cheongam-ro, Nam-gu, Pohang-si, Gyeongsangbuk-do 37673 Republic of Korea
(74)【代理人】
【識別番号】100087398
【弁理士】
【氏名又は名称】水野 勝文
(74)【代理人】
【識別番号】100128783
【弁理士】
【氏名又は名称】井出 真
(74)【代理人】
【識別番号】100128473
【弁理士】
【氏名又は名称】須澤 洋
(74)【代理人】
【識別番号】100160886
【弁理士】
【氏名又は名称】久松 洋輔
(72)【発明者】
【氏名】キム,サン ウク
(72)【発明者】
【氏名】パク,ミン ヒョク
(72)【発明者】
【氏名】キム,イン ヘ
(72)【発明者】
【氏名】パク,チャン ウク
【テーマコード(参考)】
4B063
5L099
【Fターム(参考)】
4B063QA20
4B063QQ08
4B063QR90
5L099AA01
(57)【要約】
【課題】 本願は、薬物が細胞群とヒト内の遺伝子に及ぼす影響を反映することによって、臨床試験の成敗を予測することができる。これにより、過剰な臨床試験による問題点、例えば薬物の過剰な使用などを解決することができる。
【解決手段】 本願の第1の側面は、マシンラーニングを利用して新薬の臨床試験の成功率を予測する装置において、候補新薬に対する標的遺伝子に関する情報を取得する情報取得部と、予め学習された臨床試験成功率予測モデルに前記標的遺伝子に関する情報を入力して前記候補新薬の臨床試験の成功率を予測する予測部とを含む、装置を提供する。
【選択図】
図17
【特許請求の範囲】
【請求項1】
マシンラーニングを利用して新薬の臨床試験の成功率を予測する装置において、
候補新薬に対する標的遺伝子に関する情報を取得する情報取得部と、
予め学習された臨床試験成功率予測モデルに前記標的遺伝子に関する情報を入力して前記候補新薬の臨床試験の成功率を予測する予測部と
を含む、装置。
【請求項2】
前記標的遺伝子に関する情報は、CGE(cellular gene essentiality)及び/又はOGE(organismal gene essentiality)である、請求項1に記載の装置。
【請求項3】
前記情報取得部は、タンパク質相互作用ネットワーク情報(protein interaction network)、組織発現情報(tissue expression profile)及び類似薬物規則(drug-likeness rule)構成要素情報を含む群より選択される何れか1つ以上の情報をさらに取得する、請求項1に記載の装置。
【請求項4】
前記予測部は、前記臨床試験成功率予測モデルに前記タンパク質相互作用ネットワーク情報、前記組織発現情報及び前記類似薬物規則構成要素情報を含む群より選択される何れか1つ以上の情報をさらに入力して前記候補新薬の臨床試験の成功率を予測する、請求項3に記載の装置。
【請求項5】
複数の薬物それぞれに対する前記標的遺伝子に関する情報を含み、前記複数の薬物それぞれの臨床試験の成功可否がラベリングされた学習データを利用して前記臨床試験成功率予測モデルを学習する学習部
をさらに含む、請求項1に記載の装置。
【請求項6】
前記学習部は、前記学習データを利用したモンテカルロ交差検証(Monte Carlo cross-validation)を通じて前記臨床試験成功率予測モデルを学習する、請求項4に記載の装置。
【請求項7】
前記臨床試験成功率予測モデルは、前記候補新薬が細胞群及び個体群に対して耐性摂動効果を起こす際に臨床試験の成功率を上げるように学習されたものである、請求項1に記載の装置。
【請求項8】
マシンラーニングを利用して新薬の臨床試験の成功率を予測する方法において、
(a)候補新薬に対する標的遺伝子に関する情報を取得するステップと、
(b)予め学習された臨床試験成功率予測モデルに前記標的遺伝子に関する情報を入力して前記候補新薬の臨床試験の成功率を予測するステップと
を含む、方法。
【請求項9】
前記標的遺伝子に関する情報は、CGE(cellular gene essentiality)及び/又はOGE(organismal gene essentiality)である、請求項8に記載の方法。
【請求項10】
前記ステップ(a)は、タンパク質相互作用ネットワーク情報(protein interaction network)、組織発現情報(tissue expression profile)及び類似薬物規則(drug-likeness rule)構成要素情報を含む群より選択される何れか1つ以上の情報をさらに取得する、請求項8に記載の方法。
【請求項11】
前記ステップ(b)は、前記臨床試験成功率予測モデルに前記タンパク質相互作用ネットワーク情報、前記組織発現情報及び前記類似薬物規則構成要素情報を含む群より選択される何れか1つ以上の情報をさらに入力して前記候補新薬の臨床試験の成功率を予測する、請求項10に記載の方法。
【請求項12】
(c)複数の薬物それぞれに対する前記標的遺伝子に関する情報を含み、前記複数の薬物それぞれの臨床試験の成功可否がラベリングされた学習データを利用して前記臨床試験成功率予測モデルを学習するステップ
をさらに含む、請求項8に記載の方法。
【請求項13】
前記ステップ(c)は、前記学習データを利用したモンテカルロ交差検証(Monte Carlo cross-validation)を通じて前記臨床試験成功率予測モデルを学習する、請求項12に記載の方法。
【請求項14】
前記臨床試験成功率予測モデルは、前記候補新薬が細胞群及び個体群に対して耐性摂動効果を起こす際に臨床試験の成功率を上げるように学習されたものである、請求項8に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、標的遺伝子ベースの薬物臨床試験成功率予測モデルに関する。
【背景技術】
【0002】
多くの新薬が非臨床試験は通過するが、臨床試験では安全上の問題により通過できていない。これにより、新薬開発費用は大いに増加している傾向である。また、臨床試験の失敗は、患者の生活の質を落として追加的な健康問題を引き起こし得る。
【0003】
新薬開発初期に安全な薬物標的を選定すれば臨床試験の成功率を上げることができる。既存には、遺伝的摂動(GPA;genetic perturbation)に敏感な標的遺伝子を薬物の標的にすることが深刻な副作用を引き起こす可能性が高いという仮定の下、CRISPR-Cas9ベースのゲノム編集など遺伝的摂動効果を薬物標的の安全性評価に使用してきた。このような仮定は、一部の協議における遺伝的摂動効果を起こすことのできる遺伝子が広範囲な生物学的役割及び重要なタンパク質間相互作用に関与する可能性が高いという概念に基づく仮定である。
【0004】
しかし、実際は細胞群と個体群の間での摂動効果が一致しないので、上記した仮定に基づく臨床試験は、新薬候補薬物の安全性問題による臨床失敗を引き起こし得る。特定の薬物が特定の細胞群に及ぼす摂動効果が小さいとしても、当該薬物は個体群に対して大きな摂動効果を起こす可能性があり、これは、深刻な安全性問題を起こして臨床試験の失敗に繋がることができる。
【0005】
例えば、食欲抑制剤であるシブトラミンは、細胞群の生存には大きな影響を与えなかった。しかし、当該薬は、2010年に神経毒性、心毒性など人口への深刻な副作用により市場から撤収した。実際にシブトラミンはドーパミン輸送体(SLC6A3)を抑制し、SLC6A3に対する摂動は、細胞群の生存性に影響を及ぼさないこともある。しかし、SLC6A3は、神経精神科及び心臓疾患のような深刻なヒト疾患に係わってきた。
【0006】
一方、韓国登録特許第10-2274363号において、人工知能(マシンラーニング)に基づいて医薬品工程を開発する方法を、米国登録特許第1123041号において、マシンラーニングアルゴリズムに基づいて患者にカスタマイズされた新薬又は治療方法を開発する方法について開示しているが、先行文献は臨床試験の前後過程に係わる発明を扱う文献が殆どであった。
【0007】
そこで、候補新薬の発掘と、臨床試験過程で深刻な安全性問題が引き起こされることを事前に防止することで、産業的な側面から莫大な費用と時間を節減し、患者の側面でも健康への危険の問題を引き起こさない精密な予測技術の必要性が台頭された。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】韓国登録特許第10-2274363号
【特許文献2】米国登録特許第1123041号
【発明の概要】
【発明が解決しようとする課題】
【0009】
本願は、細胞群を対象にした非臨床段階と個体群を対象にした臨床段階とで薬物の摂動効果の差を考慮し、臨床試験の成功率を予測することを目的とする。それに関し、通常の技術者にとって理解できる範囲の課題は全て含まれると解釈しなければならない。
【課題を解決するための手段】
【0010】
上記した課題を解決するために、本願の第1の側面は、マシンラーニングを利用して新薬の臨床試験の成功率を予測する装置において、候補新薬に対する標的遺伝子に関する情報を取得する情報取得部と、予め学習された臨床試験成功率予測モデルに前記標的遺伝子に関する情報を入力して前記候補新薬の臨床試験の成功率を予測する予測部とを含む、装置を提供する。
【0011】
本願の第2の側面は、マシンラーニングを利用して新薬の臨床試験の成功率を予測する方法において、候補新薬に対する標的遺伝子に関する情報を取得するステップと、予め学習された臨床試験成功率予測モデルに前記標的遺伝子に関する情報を入力して前記候補新薬の臨床試験の成功率を予測するステップとを含む、方法を提供する。
【0012】
上記した手段は例示に過ぎず、通常の技術者にとって理解できる範囲の解決手段は全て含まれると解釈しなければならない。
【発明の効果】
【0013】
本願は、薬物が細胞群とヒト内の遺伝子に及ぼす影響を反映することによって、臨床試験の成敗を予測することができる。これにより、過剰な臨床試験による問題点、例えば薬物の過剰な使用などを解決することができる。
【0014】
上記した効果は例示に過ぎず、通常の技術者にとって理解できる範囲の他の効果が存在しても良く、それが全て含まれていても良い。
【図面の簡単な説明】
【0015】
【
図1a】7,695個の標的で1,064個の未承認薬物と1,400個の承認薬物の情報をATCコードによって分類したものである。
【
図1b】薬物と薬物標的の間の関係について分析したヒストグラムである。
【
図2b】本願の一実施例に従い、CGEとOGEを承認又は未承認薬物に連動(mapping)することを示す。重要度はtwo-tailed試験により測定された。
【
図2c】本願の一実施例に係る全般的な予測過程を示すものである。
【
図2d】本願の一実施例に従い、未承認薬物(最大到達臨床段階がそれぞれ第1相、第2相及び第3相の薬物)及び承認薬物に対してOGE+CGE、OGE及びCGEを使用して臨床試験の成功率を予測した結果のAUPRCを示す。AUPRC間の差の統計的有意性は、Mann-Whitney U検定により測定された。
【
図2e】本願の一実施例に従い、CGEとOGEの相関関係における標的遺伝子の位置と数を示すものである。図面において、y軸はlog2で表している。
【
図3】本願の一実施例に従い、特定の新薬候補薬物の臨床試験成功確率を予測した結果である。結果を各候補薬物に臨床段階に沿って分類した。各臨床試験成功確率間の統計的有意性は、Mann-Whitney U検定により測定された。
【
図4a】本願の一実施例に従い、特定の新薬候補薬物の臨床試験成功確率の予測に対する精密度と再現率(recall and precision)を示す(モンテカルロ検定、1,000回)。赤い線で繋がった赤い点は、予測性能(精密度と再現率)を表す。各精密度と再現率の統計的有意性は、対応のあるT検定(paired sample t-test)により測定された。
【
図4b】本願の一実施例に従い、特定の新薬候補薬物の臨床試験成功確率の予測に対する精密度と再現率(recall and precision)を示す(モンテカルロ検定、1,000回)。赤い線で繋がった赤い点は、予測性能(精密度と再現率)を表す。各精密度と再現率の統計的有意性は、対応のあるT検定(paired sample t-test)により測定された。
【
図5a】未承認薬物(臨床第1相)及び承認薬物に対する予測性能としてOGE+CGE、OGE、並びにCGEを予測に使用した際のAUPRCを示す(モンテカルロ検定、1,000回)。各AUPRC間の統計的有意性は、Mann-Whitney U検定により測定された。
【
図5b】本願の一実施例に従い、未承認薬物(臨床第1相)及び承認薬物に対する精密度と再現率(recall and precision)を示す(モンテカルロ検定、1,000回)。赤い線で繋がった赤い点は、予測性能(精密度と再現率)を表す。各精密度と再現率の統計的有意性は、対応のあるT検定(paired sample t-test)により測定された。
【
図6a】本願の一実施例に従い、危険及び安全標的を分類する過程を示すものである。赤色は未承認薬物、青色は承認薬物に対する偏向した効果を示す標的を表し、灰色の点は未承認及び承認薬物の何れか一方に対して偏向効果を示さない標的を意味する。
【
図6b】本願の一実施例に従い、分類された各標的(薬物)を超幾何学的検査を通じて実際の臨床試験で毒性により失敗した薬物及び「Death」副作用のある薬物(MoleculeNet-ClinTox)と比較したものである。
【
図6c】本願の一実施例に従い、分類された各標的(薬物)を超幾何学的検査を通じて実際の臨床試験で毒性により失敗した薬物及び「Death」副作用のある薬物(K.M.Gayvert et al.)と比較したものである。
【
図6d】本願の一実施例に従い、分類された各標的(薬物)を超幾何学的検査を通じて実際の臨床試験で毒性により失敗した薬物及び「Death」副作用のある薬物(ADReCS)と比較したものである。
【
図6e】本願の一実施例に従い、分類された各標的(薬物)を超幾何学的検査を通じて実際の臨床試験で毒性により失敗した薬物及び「Death」副作用のある薬物(DrugCentral)と比較したものである。
【
図7a】本願の一実施例に従い、薬物承認偏向の統計的有意性の基準を緩和して危険標的と安全標的の数を増やした際、本願の方法で分類した安全薬物が実際の毒性薬物と有意に重複するのか否かを確認したものである。
【
図7b】本願の一実施例に従い、分類された各標的(薬物)を、薬物承認偏向の統計的有意性の基準を緩和した超幾何学的検査を通じて実際の臨床試験で毒性により失敗した薬物及び「Death」副作用のある薬物(MoleculeNet-ClinTox)と比較したものである。
【
図7c】本願の一実施例に従い、分類された各標的(薬物)を、薬物承認偏向の統計的有意性の基準を緩和した超幾何学的検査を通じて実際の臨床試験で毒性により失敗した薬物及び「Death」副作用のある薬物(K.M.Gayvert et al.)と比較したものである。
【
図7d】本願の一実施例に従い、分類された各標的(薬物)を、薬物承認偏向の統計的有意性の基準を緩和した超幾何学的検査を通じて実際の臨床試験で毒性により失敗した薬物及び「Death」副作用のある薬物(ADReCS)と比較したものである。
【
図7e】本願の一実施例に従い、分類された各標的(薬物)を、薬物承認偏向の統計的有意性の基準を緩和した超幾何学的検査を通じて実際の臨床試験で毒性により失敗した薬物及び「Death」副作用のある薬物(DrugCentral)と比較したものである。
【
図8a】本願の一実施例に従い、薬物対象当たりの関連薬物数と薬物承認偏向の程度を調査したものである(Spearman rho=-0.38)。相関係数はスピアマンの相関係数で(Spearman rank correlation)測定されており、x軸はlog10で数値化し、x軸値間の差の統計的有意性は、Mann-Whitney U検定により測定された。
【
図8b】本願の一実施例に従い、薬物対象当たりの関連薬物数と薬物承認偏向の程度を調査したものである(Spearman rho=-0.43)。相関係数はスピアマンの相関係数で(Spearman rank correlation)測定されており、x軸はlog10で数値化し、x軸値間の差の統計的有意性は、Mann-Whitney U検定により測定された。
【
図9a】本願の一実施例に従い、細胞群とヒトの間の遺伝的摂動効果の差に基づいて遺伝子を分類したものを示す。
【
図9b】
図9aにおいて分類した遺伝子をそれぞれN2E、N2N、E2E、E2Nに分け、各危険又は安全標的に対する濃縮程度を示すものである。
【
図10a】本願の一実施例に従い、危険及び安全標的に対するCGEの分布を示す。差の統計的有意性は、Mann-Whitney U検定により測定された。
【
図10b】本願の一実施例に従い、危険及び安全標的に対するOGEの分布を示す。差の統計的有意性は、Mann-Whitney U検定により測定された。
【
図11a】本願の一実施例に従い、Behan,Fiona M.et al.,OGEを使用して危険及び安全標的に対する濃縮程度を示すものである。
【
図11b】本願の一実施例に従い、DepMap,OGEを使用して危険及び安全標的に対する濃縮程度を示すものである。
【
図11c】本願の一実施例に従い、hPSC,OGEを使用して危険及び安全標的に対する濃縮程度を示すものである。
【
図11d】本願の一実施例に従い、CGE,pLI(ExAC)を使用して危険及び安全標的に対する濃縮程度を示すものである。
【
図11e】本願の一実施例に従い、Behan,Fiona M.et al.,pLI(ExAC)を使用して危険及び安全標的に対する濃縮程度を示すものである。
【
図11f】本願の一実施例に従い、DepMap,pLI(ExAC)を使用して危険及び安全標的に対する濃縮程度を示すものである。
【
図11g】本願の一実施例に従い、hPSC,pLI(ExAC)を使用して危険及び安全標的に対する濃縮程度を示すものである。
【
図12a】本願の一実施例に従い、薬物承認偏向の統計的有意性の閾値を緩和した際も
図11a乃至
図11gの結果と同一あるいは類似した結果が観察されるか否かを確認した結果である。
【
図12b】本願の一実施例に従い、薬物承認偏向の統計的有意性の閾値を緩和した際も
図11a乃至
図11gの結果と同一あるいは類似した結果が観察されるか否かを確認した結果である。
【
図12c】本願の一実施例に従い、薬物承認偏向の統計的有意性の閾値を緩和した際も
図11a乃至
図11gの結果と同一あるいは類似した結果が観察されるか否かを確認した結果である。
【
図12d】本願の一実施例に従い、薬物承認偏向の統計的有意性の閾値を緩和した際も
図11a乃至
図11gの結果と同一あるいは類似した結果が観察されるか否かを確認した結果である。
【
図13a】本願の一実施例に従い、CGE及びOGEの比較に基づき、臨床失敗薬物のうちそれぞれN2E、N2N、E2E、E2N遺伝子をどれ程標的にしているかを確認することで本願発明の効果を確認した結果である。
【
図13b】
図13aの臨床失敗薬物の標的遺伝子分類を各副作用(cardiotoxicity;心毒性、vascular toxicity;血管毒性、psychiatric toxicity;精神毒性、neurotoxicity;神経毒性)によって分類したものである。
【
図14a】本願の一実施例に従い、N2E遺伝子がどの遺伝的経路(又は身体にどのように係わるのか)と関連しているのかを示すものである。
【
図14b】本願の一実施例に従い、N2N遺伝子がどの遺伝的経路(又は身体にどのように係わるのか)と関連しているのかを示すものである。
【
図14c】本願の一実施例に従い、E2E遺伝子がどの遺伝的経路(又は身体にどのように係わるのか)と関連しているのかを示すものである。
【
図14d】本願の一実施例に従い、E2N遺伝子がどの遺伝的経路(又は特定の身体機能にどのように係わるのか)と関連しているのかを示すものである。
【
図15a】本願の一実施例に従い、臨床試験の成功率の予測に使用される薬物標的と化学情報の構成要素を示す。
【
図15b】本願の一実施例に従い、OGE、CGE、ネットワーク及び発現情報のうち一部又は全部を使用した臨床試験成功率予測モデルの性能を比較したものである。
【
図15c】本願の一実施例に従い、薬物標的情報(OGE+CGE+Network+Expression)、化学情報(Chemical)又は全部を使用して薬物の臨床試験の成功率を予測した結果を比較したものである。
【
図15d】本願の一実施例に従い、薬物標的情報や化学情報のみを使用して薬物臨床成功率を予測した薬物をATCコードで調査した結果である。
【
図16】本願の一実施例に従い、成功率の予測に使用される情報である薬物標的と化学情報の間の直交性によって、本願発明の効果が改善されることを確認した結果である。図面に表示されているベクターは、薬物の承認予測可能性に対する方向とその程度を表す。
【
図18】本願の一実施例に係るフローチャートである。
【発明を実施するための形態】
【0016】
以下では、添付した図面を参照しながら、本願の属する技術分野において通常の知識を有する者が容易に実施できるように本願の実施例を詳しく説明する。ところが、本願は様々な異なる形態に具現されることができ、ここで説明する実施例に限定されるものではない。そして、図面において、本願を明確に説明するために、説明とは関係ない部分は省略しており、明細書全体に亘って類似した部分に対しては類似した図面符号を付けている。
【0017】
本願の明細書全体において、ある部材が他の部材の「上に」位置しているという場合、これは、ある部材が他の部材に接している場合だけでなく、両部材の間にまた他の部材が存在する場合も含む。
【0018】
本願の明細書全体において、ある部分がある構成要素を「含む」という場合、これは、特に反対の記載がない限り、他の構成要素を除くのではなく、他の構成要素をさらに含み得ることを意味する。
【0019】
本願の明細書全体において使用する程度の用語「約」、「実質的に」などは、言及された意味に固有の製造及び物質許容誤差が提示される場合、その数値で、又はその数値に近接した意味として使用され、本願の理解を助けるために正確あるいは絶対的な数値が言及された開示内容を非良心的な侵害者が不当に利用することを防止するために使用される。本願の明細書全体において使用される程度の用語「~(する)ステップ」又は「~のステップ」は、「~のためのステップ」を意味するものではない。
【0020】
本願の明細書全体において、マーカッシュ形式の表現に含まれた「これらの組み合わせ(たち)」の用語は、マーカッシュ形式の表現に記載された構成要素からなる群より選択される1つ以上の混合又は組み合わせを意味するものであり、上記構成要素からなる群より選択される1つ以上を含むことを意味する。
【0021】
本願の明細書全体において、「A及び/又はB」の記載は、「A又はB、あるいはA及びB」を意味する。
【0022】
本願の明細書全体において、「個体」とは、候補新薬の非臨床段階以降の臨床段階で安全性評価のために薬物を適用するヒトを含む。ヒトだけでなく、薬物実験のために使用され得るマウス、ウサギ、イヌ、ウシ、ウマ、ヒツジなど適用可能な生物は全て含まれると解釈しなければならない。
【0023】
本願の明細書全体において、「臨床試験失敗(clinical test failure)」とは、特定の薬物が非臨床は通過しても個体群対象の臨床試験を通過できないことを意味し、必ずしもこれに限定されるものではなく、上記と類似した状況を全て含む。
【0024】
本願の明細書全体において、「摂動(perturbation)」又は「摂動効果」とは、ある物質や刺激によって遺伝子レベルで変化が起こることを意味する。主に環境による刺激、薬物の作用、遺伝子ノックダウン(knockdown)などによって起こり得る。例えば、薬物が作用した結果として標的遺伝子の機能が抑制されること(loss-of-function)を含む。
【0025】
本願の明細書全体において、「耐性(tolerant又はloss-of-function tolerant)」とは、摂動が起こった後も細胞群やヒトなど個体群の生存に大きな影響が及ばないことを意味する。その反対に「不耐性(intolerant又はloss-of-function intolerant)」とは、摂動による効果を細胞群やヒトなどの個体群で収容できず、生存に大きな影響が及ぶことを意味する。
【0026】
本願の明細書全体において、「類似薬物規則(drug-likeness rule)」とは、様々な化合物から薬物と類似した物質を予め選別及び予測し、このような予測結果から新薬に適した化合物を開発する際に使用される基準を意味する。その構成要素として、分子量、水素結合供与体又は受容体の数、極性表面積などがある。Lipinski(Rule of 5;Ro5)、Veber及びGhoseが提案した類似薬物規則は、低い毒性を有する好ましい薬物に対する有用な指針であると見なされてきた。
【0027】
本願の明細書全体において、「マシンラーニング(Machine Learning)」とは、コンピュータプログラムがアルゴリズムを使用して与えられたデータからパターンを探す人工知能アプリケーションを意味する。主にコンピュータがデータで学習し、経験を通じて改善するように訓練する分野を意味する。本願において使用したマシンラーニングアルゴリズムは一つの例示に過ぎず、本願発明のために使用できる全てのマシンラーニングの方法又は類型は全て含まれると解釈しなければならない。例えば、マシンラーニングの方法は、(1)教師あり学習(supervised learning)、(2)教師なし学習(unsupervised learing)、(3)強化学習(reinforcement learning)、(4)半教師あり学習(semi-supervised learning)などを含んでいても良く、さらに具体的には、ナイーブベイズ分類(Naive Bayes Classification)、ロジスティック回帰(Logistic Regression)、決定木(Decision tree)、ランダムフォレスト(Random forest)、ブースティング(XGBoost/ensemble boosting/AdaBoost/Gradient Boost/LightGBM/CatBoostなど)、パーセプトロン(Perceptron)、サポートベクターマシン(Support Vector Machine)、クアドラティック分類(Quadratic classifiers)、クラスタリング(K-means clustering、Bayesian network clusteringなど)などを全て含んでいても良いが、これに限定されるものではない。
【0028】
本願の明細書全体において、「非臨床試験」という試験は、新たに開発した新薬候補物質を個体群に使用する前に、動物や細胞群を対象に使用した場合にどのような副作用や毒性、効果などがあるのか確認する試験である。薬物が体内にどのように吸収されて分布され、排泄されるかを研究する体内動態研究と薬効薬理研究を含むが、必ずしもこれに限定されるものではなく、試験において必要な過程は全て含まれると解釈しなければならない。
【0029】
本願の明細書全体において、「臨床試験」とは、臨床試験用医薬品の安全性と有効性を証明する目的で、当該薬物の薬動/薬力/薬理/臨床的効果を確認し、異常反応を調査するためにヒトを対象に実施する試験又は研究を意味し、必ずしもこれに限定されるものではなく、試験において必要な過程は全て含まれると解釈しなければならない。
【0030】
本願の明細書全体において、「成功率」は、臨床試験の成功確率を意味するものであり、モデルの性能予測結果のAUROC下の面積として計算された。本願において設定した成功率は0.5と設定しているが、ユーザの必要に応じて正確度を保障する範囲内で成功率を異ならせて設定しても良い。
【0031】
本願の明細書全体において、「CGE(cellular gene essentiality)」及び「OGE(organismal gene essentiality)」とは、それぞれ細胞群又は個体群においてある遺伝子に対する摂動効果の程度を計算したものである。これは、本願の技術的思想において核心となる構成であり、本願は、薬物が標的に及ぼす遺伝的摂動の効果の差を基に臨床試験の成功率を予測しようとする。
【0032】
本願の明細書全体において、「タンパク質相互作用ネットワーク情報(PPIN;protein-protein interaction networks)とは、細胞内タンパク質間の物理的接触を数学的に表現したものを意味する。このような接触は非常に明確で、タンパク質間の制限された結合領域において発生し、特定の生物学的意味(特定機能)を有する。
【0033】
以下、添付された図面を参照しながら本願の具現例及び実施例を詳しく説明する。しかし、本願がこのような具現例及び実施例と図面に限定されるものではない。
【0034】
本願の第1の側面は、マシンラーニングを利用して新薬の臨床試験の成功率を予測する装置において、候補新薬に対する標的遺伝子に関する情報を取得する情報取得部と、予め学習された臨床試験成功率予測モデルに前記標的遺伝子に関する情報を入力して前記候補新薬の臨床試験の成功率を予測する予測部とを含む、装置を提供する。
【0035】
ここで、標的遺伝子に関する情報は、CGE(cellular gene essentiality)又はOGE(organismal gene essentiality)であっても良い。
【0036】
本願の第2の側面は、マシンラーニングを利用して新薬の臨床試験の成功率を予測する方法において、候補新薬に対する標的遺伝子に関する情報を取得するステップと、予め学習された臨床試験成功率予測モデルに前記標的遺伝子に関する情報を入力して前記候補新薬の臨床試験の成功率を予測するステップとを含む、方法を提供する。
【0037】
各側面において共通する部分は、全て共に適用される。
【0038】
実施例1.標的遺伝子情報を活用した成功率予測実験情報
(1)ヒトと細胞群に対する摂動効果情報の取得
臨床試験の成功率の予測において標的遺伝子情報の有用性を確認した。
【0039】
CGE情報は、ProjectSCOREデータベース(Behan,F.M.et al.Prioritization of cancer therapeutic targets using CRISPR-Cas9 screens.Nature 568,511-516(2019).)のフィットネス点数(fitness score)から類推した。フィットネス点数は、324個の細胞株に対し、全ゲノムに対するCRISPR-Cas9スクリーニングにより測定した。平均CGEが0以上である遺伝子は必須遺伝子、その反対は非必須遺伝子と見なした。
【0040】
CGEの様々な指標(metric)を確認するために、Behan,F.M.et al.のフィットネス遺伝子グループ(the group of fitness genes)、DepMap(20Q4 v2)の依存性確率(probability of dependency)、並びにhPSC(human pluripotent stem cell)のフィットネス点数を使用した。Behan,F.M.et al.が定義した汎癌コアフィットネス遺伝子(pan-cancer core fitness genes)とコアフィットネス遺伝子は必須遺伝子と、残りは非必須遺伝子と見なした。
【0041】
DepMapもCRISPR-Cas9を通じて789個の細胞株を選別し、ProjectSCOREと比較して、独立指標として細胞株に対する遺伝子の依存性確率を調査した。各遺伝子に対して789個の細胞株に亘って確率の平均を計算した。平均0.5以上の確率を有する遺伝子は必須遺伝子と、平均0.5未満の確率を有する遺伝子は非必須遺伝子と見なした。
【0042】
癌細胞株だけでなく細胞群に対する一般的な調査を行うために、Mair,B.et al.から3種類の異なる媒体条件(マウス胚線維芽細胞フィーダー細胞/mouse embryonic fibroblasts feeder cells、ラミニン/laminin、ビトロネクチン/vitronectin)においてヒト多能性幹細胞(hPSC)に対するフィットネス点数(fitness score)を得た。各hPSC細胞に対する遺伝子のフィットネス点数は、FDR(false discovery rate)で表された。パイソン(python)のscipy.stats.combine_p値を使用し、Fisherの結合確率テストを通じて各遺伝子に対する3つのフィットネス点数を結合した。結合FDRが0.01未満である遺伝子は必須遺伝子と、結合FDRが0.01以上である遺伝子は非必須遺伝子と見なした。
【0043】
OGEは、gnomADデータベース(Karczewski,K.J.et al.The mutational constraint spectrum quantified from variation in 141,456 humans.Nature 581,434-443(2020).)のLOEUF(loss-of-function observed/expected upper bound fraction)から導出された。LOEUFは、最大140,000個の人口塩基序列データから突然変異率をモデリングすることで推定しており、予想される突然変異数と遺伝子の観察された突然変異の量を比較して計算した。例えば、遺伝子の予想突然変異に比べて観察された突然変異の数が著しく減少したことを示す低いLOEUFは、負の選択(negative selection)による不耐性遺伝子摂動効果と見なされる。
【0044】
OGEは、1.996(全ての遺伝子に対するLOEUFの最大値)から各遺伝子のLOEUFを引く方法で、CGEと方向性を合わせた。Karczewski,K.J.et al.(LOEUF<0.35)によって定義された不耐性遺伝子摂動効果の基準によると、OGEが1.646以上である遺伝子はヒト集団において必須遺伝子と表示されたのに対し、OGEが1.646未満である遺伝子はヒト集団において非必須遺伝子と見なした。
【0045】
OGEの他の指標として、ExACデータベース(Lek,M.et al.Analysis of protein-coding genetic variation in 60,706 humans.Nature 536,285-291(2016).)のpLI(probability of being loss-of-function intolerance)が使用された。pLIが0.9以上である遺伝子は必須遺伝子と、pLIが0.9未満である遺伝子は非必須遺伝子と見なした。
【0046】
(2)CGE及びOGEと薬物の連動(Mapping)
ChEMBL(v30;Mendez,D.et al.ChEMBL:towards direct deposition of bioassay data.Nucleic Acids Res.47,D930-D940(2019).)データベースから、臨床試験が第1相~第4相の段階の何れか1つの段階で試験が終了した2,464個の薬物情報を使用した。第4相の段階の薬物は承認された薬物と、第1相、第2相、3相の薬物は承認されていない薬物と見なした。癌治療用薬物は固有の細胞毒性のため除外された。分子の類型は小さい分子に制限された。このような除外基準は、Nguyen et al.(Nguyen,P.A.,Born,D.A.,Deaton,A.M.,Nioi,P.&Ward,L.D.Phenotypes associated with genes encoding drug targets are predictive of clinical trial side effects.Nat.Commun.10,1579(2019).)とDuffy、Aine(Duffy、A.et al.Tissue-specific genetic features inform prediction of drug side effects in clinical trials.Sci.Adv.6,eabb6242(2020).)が定義した基準である。薬物-標的の相互作用情報は、STITCH5(Duffy,A.et al.Tissue-specific genetic features inform prediction of drug side effects in clinical trials.Sci.Adv.6,eabb6242(2020).)データベースの情報を使用した(結合相互作用点数>=700)。最後に、7,695個の標的で1,064個の未承認薬物と1,400個の承認薬物の情報を収集した(
図1a及び
図1bを参照)。薬物は、解剖学的治療化学コード(ATCコード)によって分類された。
【0047】
CGEとOGEの場合、各薬物標的に対するCGEとOGEの平均を計算して各薬物にマッピングされた。本願の一実施例において使用された全ての薬物は、90%以上の薬物標的のCGEとOGEを含むようにフィルタリングされた。
【0048】
(3)マシンラーニングの進行過程
臨床試験成功率予測モデルとしてランダムフォレスト(random forest)分類器(classifier)が使用されており、これは、パイソン(python)でScikit-learn(v0.24.2)を使用して具現された。当該分類器は基本設定として1,000個のツリーを作った。臨床試験成功率予測モデルを学習させるために、薬物の臨床段階に対する薬物のCGEとOGEを使用した。予測性能の有効な測定のために、モンテカルロ交差検証(Monte Carlo cross-validation;1,000回)を行い、データセットをランダムに学習(90%)及びテスト(10%)セットに分けた。新薬候補薬物の臨床試験の成功確率は、1,000個の交差検証を通じて試験セットに対する臨床試験成功率予測モデルが計算した確率の平均にて計算された。平均承認確率が0.5以上である薬物は承認薬物と見なされ、平均承認確率が0.5未満である薬物は未承認薬物と見なされても良い。臨床試験成功率予測モデルの予測性能を分析するために、試験セットの予測結果のAUPRC(area under the precision-recall curve)下の面積を測定した。
【0049】
実施例2.標的遺伝子情報を活用した成功率予測実験の説明
本願の出願人は、薬物の臨床試験失敗の要因は非臨床モデルと臨床個体群の間で現われる遺伝子別の反応差ということに着眼した。臨床試験失敗薬物は細胞群に対して耐性摂動効果を示すものの、実際にヒトなどの個体群に対しては不耐性摂動効果を示す遺伝子と関連している傾向があるという仮説を立てた(
図5aを参照)。ここで、細胞群に対する遺伝子摂動効果は、CRISPR-Cas9ノックアウト(knock out)を使用して測定することができる。しかし、個体群に対する遺伝子摂動効果は、上記のようなノックアウトを適用して測定することができない。その代わりに、個体群に対する遺伝子摂動効果は、大規模の個体群のエクソーム及びゲノム塩基序列分析データを使用し、遺伝子に対する機能喪失突然変異率(loss-of-function mutation rates)をモデリングすることで推定することができる。
【0050】
耐性摂動効果を示す遺伝子は個体群内で長く保存されるので、機能喪失突然変異率が小さい遺伝子は、摂動効果に対する耐性を有していないと見なしても良い。その反対に、機能喪失突然変異が多く引き起こされた遺伝子は、摂動効果に対する耐性を有すると見なしても良い。本願は、この仮定を個体群に対する薬物及び治療の安全性を評価するのに使用した。
【0051】
(1)CGE/OGE
細胞群と個体群における薬物の摂動効果の差及び臨床試験の承認の間の関連性を調べるために、本願は、一実施例として計17,662個の遺伝子を対象に細胞遺伝子必須性(cellular gene essentiality、CGE)と個体遺伝子必須性(organismal gene essentiality、OGE)を計算した(実施例1-(1)を参照)。CGEとOGEの点数が高い遺伝子は細胞群とヒトの全てに対する不耐性摂動効果を示し、必須な遺伝子であることを意味する。点数が低ければその反対を意味する。
【0052】
(2)細胞生存性検査と比較
STITCH5データベースの2,464種類の薬物(1,064種類の未承認薬物及び1,400種類の承認薬物)の7,695種類の標的を、ChEMBLデータベースを通じて薬物承認状態を整理し、薬物標的のCGE及びOGEを薬物にマッチングさせた(実施例1-(2)を参照)。未承認及び承認された薬物は非臨床試験で細胞生存性検査を通過しているため、未承認及び承認された薬物に対するCGEの中位数はランダム分布よりも有意に低かった(
図5bを参照;未承認薬物に対するCGEの中位数=-2.08、Two-tailed test P=5.3×10
-58;P=6.3×10
-81)。しかし、未承認薬物に対するOGEの中位数はランダム分布よりも有意に高く(未承認薬物に対するOGEの中位数=1.23、P=5.3×10
-36)、承認された薬物に対するOGEの中位数はランダム分布よりも有意に低かった(承認薬物に対するOGEの中位数=1.11、P=3.1×10
-33)。これは、細胞生存能力テストを通過した未承認薬物が大体ヒトに対して不耐性の影響を与えることを示す。
【0053】
薬物の臨床試験の承認が細胞群とヒト集団の間の薬物標的摂動効果の不一致と関連しているという点を考慮して、本願の出願人は、このような不一致が臨床試験において薬物承認可否を予測するのに重要な特徴になり得ると予想した。
【0054】
(3)マシンラーニング予測モデルの設立
それを確認するために、薬物標的のOGEとCGEを使用し、薬物承認確率を予測するマシンラーニング分類器として臨床試験成功率予測モデルを作った(
図5bを参照)。また、本願の出願人は、本発明に係る予測モデルを評価するために、OGE又はCGEの1つのみを使用するtwo stand-alone分類器を作った。
【0055】
薬物標的(OGE+CGE)のCGEとOGEの間の不一致を使用した本願の臨床試験成功率予測モデルのAUPRC(area under the precision-recall curve)は0.70±0.002(
図5dを参照;平均値±95%信頼区間)で、OGE又はCGEの1つのみを使用するtwo stand-alone分類器のAUPRCよりも相当高かった(0.62±0.002、0.60±0.002、Mann-Whitney U検定、P=4.4×10
-221、P=2.0×10
-275)。
【0056】
また、本願において予測した承認可能性と薬物の臨床段階の間の相関関係を評価することで本願に係る分類器の正確性を確認した。一般的に、臨床の初期段階における承認可能性は、後半段階における承認可能性よりも低い。実際に予測した結果、承認可能性が低いと予想した薬物は臨床の初期段階に、承認可能性が高いと予想した薬物は臨床の後半段階に属した(
図3を参照;実施例1-(3)を参照)。
【0057】
つまり、本願に係る臨床試験成功率予測モデルの予測性能が相当正確であり、実際の臨床試験の成功率予測にも使用できることを意味する。
【0058】
また、本願に係る臨床試験成功率予測モデルを使用すれば、臨床試験で消耗する薬物の量を減らすことができる。細胞生存能力テストで安全な薬物と判定された薬物であっても、度々ヒトに対する不耐性摂動効果により臨床試験を通過できないことがあった。本願に係る臨床試験成功率予測モデルは、最初は細胞群に対する遺伝的摂動効果により承認されると予測されたが結局承認されていない薬物など、誤った予測を大きく減らした。OGE及びCGEを活用して臨床成功率を予測した際のリコール(recall;本明細書においてリコール(recall)とは、未承認薬物のうち未承認と正確に予測された薬物の割合を意味する)は、CGEのみを活用して臨床成功率を予測した際のリコールに比べて相当少なかった(
図4aを参照;Paired sample t-test;P=2.4×10
-47)。
【0059】
また、結論的には承認されたが承認されないと誤って予測された薬物の割合も減少した。未承認薬物のうち未承認と予測された薬物の割合も、OGE及びCGEを活用して臨床成功率を予測した際の方が、CGEのみを活用して臨床成功率を予測した際と比べて予測の正確度が向上した(
図4b,
図4cを参照;P=2.5×10
-284)。
【0060】
臨床第1相において薬物承認可否を予測することは、薬物安全性の評価において、本願に係る臨床試験成功率予測モデルの(OGE及びCGEを活用)予測能力を確認するために必要である。第1相での安全性問題による薬物の失敗が最も大きな割合を占めるためである。また、健康な臨床試験志願者のための1番目の安全研究は第1相で行われる。本願の分類器が臨床第1相で承認されていないか、あるいは最終承認を受けた薬物のみで学習した場合も、OGE及びCGEを活用した際の方が、CGEのみを活用した際と比べて予測の正確度が向上し、CGEによって承認されると誤って予測された薬物の数が有意に減少した。これは、本願の分類器が個体群不耐性摂動効果であるOGEを反映して薬物安全性についてより精巧で且つ優秀な予測を行うことを示唆する(
図5a、
図5bを参照)。
【0061】
細胞群と個体群の間の薬物標的摂動効果の不一致を使用することで、本願に係る臨床試験成功率予測モデルの予測性能を大きく向上させることができた。本願発明を通じて、細胞群に耐性摂動効果を有しているものの、ヒトには不耐性摂動効果を有する多くの遺伝子を発見した。このような遺伝子を使用すれば、細胞群/ヒトの間の不一致と薬物承認の間の関連性に基づき、薬物の臨床承認可否をより精密に予測することができる。当該遺伝子は2,512個で、17,662個の遺伝子のうち約14%を占める(
図2eを参照)。また、OGEはCGE(Spearman’s rho=0.08)と弱い相関関係を示したが、これは、OGE及びCGEを共に予測に使用することが臨床試験で薬物の承認可否を予測する核心情報であることを示唆する。
【0062】
実施例3.様々な指標を活用した検証
(1)N2E、N2N、E2E、E2N
遺伝子セット(危険/安全な標的;N2E、N2N、E2E及びE2N)と安全性問題のある薬物との関連性を把握するために、臨床試験において毒性による失敗薬物、副作用による薬物、安全性問題による失敗薬物を調査した。
【0063】
2つのデータセットから臨床試験において毒性により失敗した薬物の情報を得た。MolecularNetのClinToxデータセット(Wu,Z.et al.MoleculeNet:a benchmark for molecular machine learning.Chem.Sci.9,513-530(2018).)には、毒性のために臨床試験で失敗した薬物が含まれている。他の毒性薬物データセットは、Gayvert et al.(Gayvert,K.M.,Madhukar,N.S.&Elemento,O.A Data-Driven Approach to Predicting Successes and Failures of Clinical Trials.Cell Chem.Biol.23,1294-1301(2016).)から得た。2つのデータセットから失敗した薬物又は承認された薬物の情報を得た。
【0064】
ADReCS(v3.1;Cai,M.-C.et al.ADReCS:an ontology database for aiding standardization and hierarchical classification of adverse drug reaction terms.Nucleic Acids Res.43,D907-D913(2015).)及びDrug Central(v2021;Avram,S.et al.DrugCentral 2021 supports drug discovery and repositioning.Nucleic Acids Res.49,D1160-D1169(2021).)データベースから副作用のある薬物の情報を得た。Drug Centralデータベースにおいて、薬物の副作用は、重要薬物-副作用の関係性に対する確率及び当該確率の閾値と共に提供された。重要薬物-副作用の関係性は、確率の閾値の2倍にてフィルタリングされた。副作用の性別特異性は考慮されなかった。死亡の副作用が存在する薬物は、MedDRA(Medical Dictionary For Regulatory Activities)の用語である「Death」と定義された(MedDRRA用語:「死」、MedDRA ID:10011906)。
【0065】
ChEMBLデータベース(Hunter,F.M.I.et al.Drug Safety Data Curation and Modeling in ChEMBL:Boxed Warnings and Withdrawn Drugs.Chem.Res.Toxicol.34,385-395(2021).)と、Onakpoya,I.J.et al.(Onakpoya,I.J.,Heneghan,C.J.&Aronson,J.K.Post-marketing withdrawal of 462 medicinal products because of adverse drug reactions:a systematic review of the world literature.BMC Med.14,10(2016).)の薬物安全性データキュレーションにおいて安全性問題により失敗した薬物データを得た。失敗理由は、心毒性、神経毒性など副作用が発生した臓器の種類によって分類した。ChEMBLは副作用の失敗等級を提供した。Onakpoya.,I.J.et al.などの失敗理由は手作業で分類した。
【0066】
安全性問題のある全ての薬物は、STITCH5及びPubChemPy(v1.0.4、https://pypi.org/project/PubChemPy)の外部データベース識別子に対するマッピングファイルを使用してSTITCH5識別子にマッピングされた。
【0067】
(2)危険標的及び安全標的(risky and safe targets)
危険標的と安全標的を分類し、薬物標的の危険と細胞群/ヒトの不一致の間の関係を調査した。各標的は、本願に係る方法で分類された。具体的に、承認されていない薬物と係わる薬物標的は危険標的と、承認された薬物と係わる薬物標的は安全標的と見なされた。薬物承認偏向を各薬物標的に対するフィッシャーの正確検定(Fisher’s exact test)のOR(odds ratios)とp値により測定した。p値が0.05よりも小さい場合に限って、ORがそれぞれ1よりも大きい場合は危険標的に、1よりも小さい場合は安全標的に分類されており、測定の結果、141個の危険標的と313個の安全標的の情報を得た(
図6aを参照)。
【0068】
本願の方法で分類された各標的は、実際の臨床試験で毒性により失敗した薬物(毒性薬物)及び「Death」副作用のある薬物と比較することで、本願の方法の正確度を判断した。危険標的を対象とする危険薬物は、毒性薬物と有意に重複すると示され(
図6b、
図6cを参照;超幾何学的検査;P=3.6×10
-10;P=1.2×10
-17)、安全な薬物は毒性薬物と有意に重複しなかった(P=1.0;P=0.2)。「Death」とは、死亡や深刻な負傷をもたらす深刻な副作用を意味する。本願の方法で分類した危険薬物は、実際の毒性薬物と有意に重複するのに対し(
図6d、
図6eを参照;P=1.7×10
-8;P=8.1×10
-6)、本願の方法で分類した安全薬物は、実際の毒性薬物と有意に重複しなかった(P=0.5;P=0.1)。薬物承認偏向の統計的有意性の基準を緩和して危険標的と安全標的の数を増やしても、このような結果は一貫して維持された(
図7a乃至
図7eを参照)。これは、本願に係る方法が薬物の危険有無を良く区分し、臨床試験の成功率を良く予測できることを示すものである。
【0069】
また、本願に係る発明の効果を確認するために、薬物対象当たりの関連薬物数と薬物承認偏向の程度を調査した。薬物承認に有意な偏向があるほど、関連薬物の数(
図8aを参照;Spearman rho=-0.38、P=1.6×10
-269)が多く、高い水準の薬物承認偏向が観察された(
図8bを参照;Spearman rho=-0.43、P<1.0×10
-307)。これは、本願の方法で分類された危険標的又は安全標的が、それぞれ承認されていない薬物と承認された薬物に明示的に分けられることを示すものである。従って、薬物標的の危険は、薬物承認偏向によって評価されることができる。
【0070】
(3)N2E、N2N、E2E及びE2Nと危険標的及び安全標的の連動
摂動遺伝子を危険標的及び安全標的に特徴付けるために、細胞群とヒト母集団の間の遺伝子摂動効果を比較し、17,662個の遺伝子を4個のグループに分類した(
図9aを参照)。2,512個の遺伝子が細胞群において必須ではないもののヒトにおいて必須であり(N2E)、13,835個の遺伝子が細胞群とヒトの全てにおいて必須ではなく(N2N)、402個の遺伝子は細胞群とヒトの全てにおいて必須であり(E2E)、913個の遺伝子は細胞群において必須であるもののヒトにおいて必須ではないことが確認された(E2N)。
【0071】
臨床試験における薬物標的の危険は、細胞群とヒトの間の摂動効果の不一致により説明できることが確認された。特に、危険標的は、細胞群には耐性摂動効果を示すものの、ヒト集団には不耐性摂動効果を示すN2E遺伝子と関連していた(
図9bを参照;One-tailed test;P=3.1×10
-7)。危険標的のOGEは安全標的のOGEよりも有意に高く、この差はCGEよりも有意に大きかった(
図10a,
図10bを参照;Mann-Whitney U test;P=2.0×10
-12;P=1.0×10
-1)。よって、危険標的は、個体群における摂動効果を通じて特徴付けられることができる。
【0072】
それに対し、安全標的は、細胞群とヒトの全てに対して耐性摂動効果を示すN2N遺伝子と関連しており(
図9bを参照;P=3.0×10
-10)。細胞群に対する不耐性摂動効果を示すE2E及びE2N遺伝子は、何れの標的とも関連していなかった(
図9bを参照)。これは、細胞生存性に深刻な影響を及ぼす薬物標的が非臨床段階で除外されたことを示唆する。
【0073】
CGEとOGEの様々な指標を分析することによって、危険標的はN2E遺伝子と関連しているのに対し、安全標的はN2N遺伝子と関連しているという結論をより確固に証明した。ExACデータベースのpLI(probability of being loss-of-function intolerant)によりOGEに対する分析を確張した。CGEの場合、Behan,F.M.et al.でフィットネス遺伝子(fitness gene)の種類、DepMapで依存性確率、並びにヒト多能性幹細胞(hPSC)のフィットネスコア(fitness core)を調査した。他の遺伝子必須データセットと同一の分析を通じて、危険標的及び安全標的がそれぞれN2EとN2N遺伝子において有意に豊富ということを発見した(
図11a乃至
図11gを参照)。危険標的又は安全標的の数を増やすために薬物承認偏向の統計的有意性の閾値を緩和しても、有意な結果が一貫して観察された(
図12a乃至
図12dを参照)。上記のように、危険標的又は安全標的の数を増やして偏向されていないCGEとOGEを分析に使用しても本願のような結果が導出され、本願発明の効果を強調したことを示唆する。よって、臨床試験における薬物標的の危険は、本願発明のように、細胞群と個体群の間の遺伝子摂動効果の不一致により評価することができる。
【0074】
(4)N2Eと実際の臨床失敗薬物との比較
N2E遺伝子が深刻な副作用を持つ臨床失敗薬物と共に危険な標的である可能性が高いことが確認された。200個の失敗薬物のうち、N2E遺伝子は139個の失敗薬物を対象にした(
図13aを参照;Hypergeometric test;P=4.0×10
-8)。例えば、つわりの抑制に使用されたサリドマイド(thalidomide)は奇形児の危険により回収されたが、これは、N2E遺伝子である転写因子SP1はサリドマイドによって抑制され、これにより胚芽の血管新生が撹乱されたためである。また他の例において、肥満の治療に使用されたシブトラミンは心臓麻痺と脳卒中により回収されたが、これは、シブトラミンがまた他のN2E遺伝子であるドーパミン輸送体(SLC6A3)を抑制し、これにより神経精神疾患と心不全を含む多くの疾病と関連しているためであった。
【0075】
N2E遺伝子が中枢神経系(CNS)と心血管系と係わる副作用を誘導し、市場から薬物を撤収させる可能性が高いことが確認された。このような副作用は、N2E標的のある回収薬物において良く観察された。心血管系(cardiotoxicity、vascular toxicitiy)、精神的(psychiatric)及び神経毒性(neurotoxicity)により回収された薬物は、相当数のN2E遺伝子を(
図13b;P=2.1×10
-5;P=3.2×10
-5;P=2.6×10
-3;P=2.4×10
-2)を標的にした。それに対し、N2N、E2E及びE2N遺伝子を標的とする薬物は、このような副作用を持つ回収薬物に当たらなかった。
【0076】
N2E遺伝子は相当数の神経系及び循環系経路と関連がある(
図14aを参照)。例えば、N2Eは、軸索の形成に重要な役割を果たす。軸索の形成に対する摂動効果は、神経障害を誘発する。血管新生もN2E遺伝子と関連している。心毒性は、血管新生に対する摂動効果によって誘導された。
【0077】
一方、GPCRシグナル伝達経路及び代謝関連経路は、N2N遺伝子と関連がある(
図14bを参照)。承認された小分子薬物の70%は、GPCRシグナル伝達経路を標的とする。これは、N2NがN2Eよりも標的としてより安全であり得ることを示唆する。E2EとE2Nは、RNAプロセス、DNA複製、転写など細胞生存に必須の細胞過程の経路と関連があった(
図14c乃至
図14dを参照)。
【0078】
実施例4.追加的な薬物標的情報及び化学情報を活用した成功率予測実験
本願は、非臨床試験は成功しても臨床試験は失敗する候補新薬の他の失敗原因として、薬物の化学的安全性に注目した。薬物の化学的安全性とは、薬物を構成する化学物質自体の性質に係わることであり、例えば、薬物の化学構造が標的遺伝子に到逹するまで安定的に維持されない点などを含む。本願の発明者らは、上記した標的遺伝子の情報だけでなく化学的情報を共に使用した際に臨床試験の成功率を効果的に予測できることを確認した。特に、追加薬物標的情報及び化学的情報を摂動効果と結合して使用すれば、本願に係る方法の予測性能を向上させることができた(
図15aを参照)。
【0079】
追加薬物標的情報は、タンパク質相互作用ネットワーク(Network)と組織発現情報(Expression)を使用した。研究によると、危険な薬物は、タンパク質相互作用ネットワークにおいて高い程度又は中間程度の重要度(centrality)を有する遺伝子を標的としており、このような遺伝子は、ハウスキーピング遺伝子(housekeeping genes)の発現のように組織全般に亘って高い発現水準又は広い発現を示す傾向がある。化学情報(Chemical)は、分子量、水素結合供与体又は受容体の数、極性表面積のような類似薬物規則(drug-likeness rule)から由来した情報を使用した。本願の出願人は、上記の情報を総合してOGE、CGE、ネットワーク(Network)、発現情報(Expression)、化学情報(Chemical)を全体又は一部使用するモデルを作り、それぞれ予測性能を比較した。
【0080】
OGE、CGE、ネットワーク及び発現情報(OGE+CGE+Expression+Network)を使用して薬物承認を予測する統合分類器である臨床試験成功率予測モデルのAUPRCは、OGE及びCGEを使用する場合(OGE+CGE;P=3.5×10
-146)や、ネットワーク情報(Network;P=9.4×10
-265)又は発現情報(Expression;P<1.0×10
-307)を使用する場合に比べて予測性能が遥かに向上した(
図15bを参照)。
【0081】
また、化学情報をさらに含んで使用する場合(OGE+CGE+Expression+Network+Chemical)のAUPRCは、OGE、CGE、ネットワーク及び発現情報を使用する場合(OGE+CGE+Network+Expression、P=2.3×10-107)のAUPRC又は化学情報のみ(Chemical、P=2.1×10-231)を使用する場合のAUPRCよりも有意に改善された。
【0082】
薬物標的と化学情報の間の直交性により、追加情報による薬物承認予測の改善がなされると判断される。予測において、化学的情報と薬物標的は互いに予測する情報が異なっていた。薬物標的と化学情報の間の直交性は、主成分分析(PCA)を使用して分析された。PCAにおける化学情報のベクターは、PCAにおける薬物標的情報のベクターとは異なる方向性を有していた(
図16を参照)。また、薬物標的と化学情報を統合して使用した際、薬物の承認可否を正確に予測する場合がより多かった。薬物標的情報(OGE+CGE+Network+Expression)又は化学情報(Chemical)のうち何れか1つのみを使用する分類器は、それぞれ862個及び842個の承認された薬物を正確に予測した。しかし、薬物標的情報と化学的情報を全て使用した際、正確に予測された承認された薬物の総数は1,092個に増加した(
図15cを参照)。これは、要するに、薬物標的の生物学的情報と薬物の化学的情報を統合することで薬物承認に対する正確な予測が拡大し得ることを示唆する。
【0083】
また、予測性能は、薬物が作用する機関や系(system)によって変わっても良い。薬物標的情報や化学情報のみを使用して臨床試験の成功率を予測した薬物を解剖学的治療化学コード(ATCコード)で調査した。250個の薬物と係わる心血管系(ATCコード:C)及び血液系(ATCコード:B)は、OGE、CGE、ネットワーク情報及び発現情報を通じて予測され、230個の薬物と係わる皮膚科(ATCコード:D)及び抗寄生虫剤(ATCコード:P)は、化学情報を通じて予測された(
図15dを参照)。つまり、薬物標的情報と化学情報のATCコードが互いに異なるので、より広い範囲の情報を予測に反映することができ、臨床試験の成功可否をより正確に予測することができると判断される。
【符号の説明】
【0084】
1710:取得部
1720:学習部
1730:予測部