特開2024-68618 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ イムノバイオームインコーポレイテッドの特許一覧 ▶ ポステック　リサーチ　アンド　ビジネス　デベロップメント　ファウンデーションの特許一覧

特開2024-68618標的遺伝子ベースの薬物臨床試験成功率予測モデル

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1a
1b
2a
2b
2c
2d
2e
3
4a
4b
5a
5b
6a
6b
6c
6d
6e
7a
7b
7c
7d
7e
8a
8b
9a
9b
10a
10b
11a
11b
11c
11d
11e
11f
11g
12a
12b
12c
12d
13a
13b
14a
14b
14c
14d
15a
15b
15c
15d
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024068618

(43)【公開日】2024-05-20

(54)【発明の名称】標的遺伝子ベースの薬物臨床試験成功率予測モデル

(51)【国際特許分類】

G16H 70/40 20180101AFI20240513BHJP

C12Q 1/02 20060101ALN20240513BHJP

【ＦＩ】

G16H70/40

C12Q1/02

【審査請求】有

【請求項の数】14

【出願形態】ＯＬ

(21)【出願番号】P 2023130655

(22)【出願日】2023-08-10

(31)【優先権主張番号】10-2022-0147881

(32)【優先日】2022-11-08

(33)【優先権主張国・地域又は機関】KR

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り（１）２０２２年８月１１日、ｈｔｔｐｓ：／／ｗｗｗ．ｒｅｓｅａｒｃｈｓｑｕａｒｅ．ｃｏｍ／ａｒｔｉｃｌｅ／ｒｓ－１９３２２２４／ｖ１、“Ｄｒｕｇａｐｐｒｏｖａｌｐｒｅｄｉｃｔｉｏｎｂａｓｅｄｏｎｔｈｅｄｉｓｃｒｅｐａｎｃｙｂｅｔｗｅｅｎｇｅｎｅｐｅｒｔｕｒｂａｔｉｏｎｅｆｆｅｃｔｓｉｎｃｅｌｌｓａｎｄｈｕｍａｎｓ”

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＰＹＴＨＯＮ

(71)【出願人】

【識別番号】523305109

【氏名又は名称】イムノバイオームインコーポレイテッド

(71)【出願人】

【識別番号】520337569

【氏名又は名称】ポステックリサーチアンドビジネスデベロップメントファウンデーション

【氏名又は名称原語表記】ＰＯＳＴＥＣＨＲＥＳＥＡＲＣＨＡＮＤＢＵＳＩＮＥＳＳＤＥＶＥＬＯＰＭＥＮＴＦＯＵＮＤＡＴＩＯＮ

【住所又は居所原語表記】（Ｊｉｇｏｋ－ｄｏｎｇ）７７，Ｃｈｅｏｎｇａｍ－ｒｏ，Ｎａｍ－ｇｕ，Ｐｏｈａｎｇ－ｓｉ，Ｇｙｅｏｎｇｓａｎｇｂｕｋ－ｄｏ３７６７３ＲｅｐｕｂｌｉｃｏｆＫｏｒｅａ

(74)【代理人】

【識別番号】100087398

【弁理士】

【氏名又は名称】水野勝文

(74)【代理人】

【識別番号】100128783

【弁理士】

【氏名又は名称】井出真

(74)【代理人】

【識別番号】100128473

【弁理士】

【氏名又は名称】須澤洋

(74)【代理人】

【識別番号】100160886

【弁理士】

【氏名又は名称】久松洋輔

(72)【発明者】

【氏名】キム，サンウク

(72)【発明者】

【氏名】パク，ミンヒョク

(72)【発明者】

【氏名】キム，インヘ

(72)【発明者】

【氏名】パク，チャンウク

【テーマコード（参考）】

4B063

5L099

【Ｆターム（参考）】

4B063QA20

4B063QQ08

4B063QR90

5L099AA01

(57)【要約】

【課題】本願は、薬物が細胞群とヒト内の遺伝子に及ぼす影響を反映することによって、臨床試験の成敗を予測することができる。これにより、過剰な臨床試験による問題点、例えば薬物の過剰な使用などを解決することができる。
【解決手段】本願の第１の側面は、マシンラーニングを利用して新薬の臨床試験の成功率を予測する装置において、候補新薬に対する標的遺伝子に関する情報を取得する情報取得部と、予め学習された臨床試験成功率予測モデルに前記標的遺伝子に関する情報を入力して前記候補新薬の臨床試験の成功率を予測する予測部とを含む、装置を提供する。
【選択図】図１７

【特許請求の範囲】

【請求項1】

マシンラーニングを利用して新薬の臨床試験の成功率を予測する装置において、
候補新薬に対する標的遺伝子に関する情報を取得する情報取得部と、
予め学習された臨床試験成功率予測モデルに前記標的遺伝子に関する情報を入力して前記候補新薬の臨床試験の成功率を予測する予測部と
を含む、装置。

【請求項2】

前記標的遺伝子に関する情報は、ＣＧＥ（ｃｅｌｌｕｌａｒｇｅｎｅｅｓｓｅｎｔｉａｌｉｔｙ）及び／又はＯＧＥ（ｏｒｇａｎｉｓｍａｌｇｅｎｅｅｓｓｅｎｔｉａｌｉｔｙ）である、請求項１に記載の装置。

【請求項3】

前記情報取得部は、タンパク質相互作用ネットワーク情報（ｐｒｏｔｅｉｎｉｎｔｅｒａｃｔｉｏｎｎｅｔｗｏｒｋ）、組織発現情報（ｔｉｓｓｕｅｅｘｐｒｅｓｓｉｏｎｐｒｏｆｉｌｅ）及び類似薬物規則（ｄｒｕｇ－ｌｉｋｅｎｅｓｓｒｕｌｅ）構成要素情報を含む群より選択される何れか１つ以上の情報をさらに取得する、請求項１に記載の装置。

【請求項4】

前記予測部は、前記臨床試験成功率予測モデルに前記タンパク質相互作用ネットワーク情報、前記組織発現情報及び前記類似薬物規則構成要素情報を含む群より選択される何れか１つ以上の情報をさらに入力して前記候補新薬の臨床試験の成功率を予測する、請求項３に記載の装置。

【請求項5】

複数の薬物それぞれに対する前記標的遺伝子に関する情報を含み、前記複数の薬物それぞれの臨床試験の成功可否がラベリングされた学習データを利用して前記臨床試験成功率予測モデルを学習する学習部
をさらに含む、請求項１に記載の装置。

【請求項6】

前記学習部は、前記学習データを利用したモンテカルロ交差検証（ＭｏｎｔｅＣａｒｌｏｃｒｏｓｓ－ｖａｌｉｄａｔｉｏｎ）を通じて前記臨床試験成功率予測モデルを学習する、請求項４に記載の装置。

【請求項7】

前記臨床試験成功率予測モデルは、前記候補新薬が細胞群及び個体群に対して耐性摂動効果を起こす際に臨床試験の成功率を上げるように学習されたものである、請求項１に記載の装置。

【請求項8】

マシンラーニングを利用して新薬の臨床試験の成功率を予測する方法において、
（ａ）候補新薬に対する標的遺伝子に関する情報を取得するステップと、
（ｂ）予め学習された臨床試験成功率予測モデルに前記標的遺伝子に関する情報を入力して前記候補新薬の臨床試験の成功率を予測するステップと
を含む、方法。

【請求項9】

前記標的遺伝子に関する情報は、ＣＧＥ（ｃｅｌｌｕｌａｒｇｅｎｅｅｓｓｅｎｔｉａｌｉｔｙ）及び／又はＯＧＥ（ｏｒｇａｎｉｓｍａｌｇｅｎｅｅｓｓｅｎｔｉａｌｉｔｙ）である、請求項８に記載の方法。

【請求項10】

前記ステップ（ａ）は、タンパク質相互作用ネットワーク情報（ｐｒｏｔｅｉｎｉｎｔｅｒａｃｔｉｏｎｎｅｔｗｏｒｋ）、組織発現情報（ｔｉｓｓｕｅｅｘｐｒｅｓｓｉｏｎｐｒｏｆｉｌｅ）及び類似薬物規則（ｄｒｕｇ－ｌｉｋｅｎｅｓｓｒｕｌｅ）構成要素情報を含む群より選択される何れか１つ以上の情報をさらに取得する、請求項８に記載の方法。

【請求項11】

前記ステップ（ｂ）は、前記臨床試験成功率予測モデルに前記タンパク質相互作用ネットワーク情報、前記組織発現情報及び前記類似薬物規則構成要素情報を含む群より選択される何れか１つ以上の情報をさらに入力して前記候補新薬の臨床試験の成功率を予測する、請求項１０に記載の方法。

【請求項12】

（ｃ）複数の薬物それぞれに対する前記標的遺伝子に関する情報を含み、前記複数の薬物それぞれの臨床試験の成功可否がラベリングされた学習データを利用して前記臨床試験成功率予測モデルを学習するステップ
をさらに含む、請求項８に記載の方法。

【請求項13】

前記ステップ（ｃ）は、前記学習データを利用したモンテカルロ交差検証（ＭｏｎｔｅＣａｒｌｏｃｒｏｓｓ－ｖａｌｉｄａｔｉｏｎ）を通じて前記臨床試験成功率予測モデルを学習する、請求項１２に記載の方法。

【請求項14】

前記臨床試験成功率予測モデルは、前記候補新薬が細胞群及び個体群に対して耐性摂動効果を起こす際に臨床試験の成功率を上げるように学習されたものである、請求項８に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、標的遺伝子ベースの薬物臨床試験成功率予測モデルに関する。

【背景技術】

【0002】

多くの新薬が非臨床試験は通過するが、臨床試験では安全上の問題により通過できていない。これにより、新薬開発費用は大いに増加している傾向である。また、臨床試験の失敗は、患者の生活の質を落として追加的な健康問題を引き起こし得る。

【0003】

新薬開発初期に安全な薬物標的を選定すれば臨床試験の成功率を上げることができる。既存には、遺伝的摂動（ＧＰＡ；ｇｅｎｅｔｉｃｐｅｒｔｕｒｂａｔｉｏｎ）に敏感な標的遺伝子を薬物の標的にすることが深刻な副作用を引き起こす可能性が高いという仮定の下、ＣＲＩＳＰＲ－Ｃａｓ９ベースのゲノム編集など遺伝的摂動効果を薬物標的の安全性評価に使用してきた。このような仮定は、一部の協議における遺伝的摂動効果を起こすことのできる遺伝子が広範囲な生物学的役割及び重要なタンパク質間相互作用に関与する可能性が高いという概念に基づく仮定である。

【0004】

しかし、実際は細胞群と個体群の間での摂動効果が一致しないので、上記した仮定に基づく臨床試験は、新薬候補薬物の安全性問題による臨床失敗を引き起こし得る。特定の薬物が特定の細胞群に及ぼす摂動効果が小さいとしても、当該薬物は個体群に対して大きな摂動効果を起こす可能性があり、これは、深刻な安全性問題を起こして臨床試験の失敗に繋がることができる。

【0005】

例えば、食欲抑制剤であるシブトラミンは、細胞群の生存には大きな影響を与えなかった。しかし、当該薬は、２０１０年に神経毒性、心毒性など人口への深刻な副作用により市場から撤収した。実際にシブトラミンはドーパミン輸送体（ＳＬＣ６Ａ３）を抑制し、ＳＬＣ６Ａ３に対する摂動は、細胞群の生存性に影響を及ぼさないこともある。しかし、ＳＬＣ６Ａ３は、神経精神科及び心臓疾患のような深刻なヒト疾患に係わってきた。

【0006】

一方、韓国登録特許第１０－２２７４３６３号において、人工知能（マシンラーニング）に基づいて医薬品工程を開発する方法を、米国登録特許第１１２３０４１号において、マシンラーニングアルゴリズムに基づいて患者にカスタマイズされた新薬又は治療方法を開発する方法について開示しているが、先行文献は臨床試験の前後過程に係わる発明を扱う文献が殆どであった。

【0007】

そこで、候補新薬の発掘と、臨床試験過程で深刻な安全性問題が引き起こされることを事前に防止することで、産業的な側面から莫大な費用と時間を節減し、患者の側面でも健康への危険の問題を引き起こさない精密な予測技術の必要性が台頭された。

【先行技術文献】

【特許文献】

【0008】

【特許文献1】韓国登録特許第１０－２２７４３６３号

【特許文献2】米国登録特許第１１２３０４１号

【発明の概要】

【発明が解決しようとする課題】

【0009】

本願は、細胞群を対象にした非臨床段階と個体群を対象にした臨床段階とで薬物の摂動効果の差を考慮し、臨床試験の成功率を予測することを目的とする。それに関し、通常の技術者にとって理解できる範囲の課題は全て含まれると解釈しなければならない。

【課題を解決するための手段】

【0010】

上記した課題を解決するために、本願の第１の側面は、マシンラーニングを利用して新薬の臨床試験の成功率を予測する装置において、候補新薬に対する標的遺伝子に関する情報を取得する情報取得部と、予め学習された臨床試験成功率予測モデルに前記標的遺伝子に関する情報を入力して前記候補新薬の臨床試験の成功率を予測する予測部とを含む、装置を提供する。

【0011】

本願の第２の側面は、マシンラーニングを利用して新薬の臨床試験の成功率を予測する方法において、候補新薬に対する標的遺伝子に関する情報を取得するステップと、予め学習された臨床試験成功率予測モデルに前記標的遺伝子に関する情報を入力して前記候補新薬の臨床試験の成功率を予測するステップとを含む、方法を提供する。

【0012】

上記した手段は例示に過ぎず、通常の技術者にとって理解できる範囲の解決手段は全て含まれると解釈しなければならない。

【発明の効果】

【0013】

本願は、薬物が細胞群とヒト内の遺伝子に及ぼす影響を反映することによって、臨床試験の成敗を予測することができる。これにより、過剰な臨床試験による問題点、例えば薬物の過剰な使用などを解決することができる。

【0014】

上記した効果は例示に過ぎず、通常の技術者にとって理解できる範囲の他の効果が存在しても良く、それが全て含まれていても良い。

【図面の簡単な説明】

【0015】

【図1a】７，６９５個の標的で１，０６４個の未承認薬物と１，４００個の承認薬物の情報をＡＴＣコードによって分類したものである。

【図1b】薬物と薬物標的の間の関係について分析したヒストグラムである。

【図2a】本願で使用した仮説を説明する図である。

【図2b】本願の一実施例に従い、ＣＧＥとＯＧＥを承認又は未承認薬物に連動（ｍａｐｐｉｎｇ）することを示す。重要度はｔｗｏ－ｔａｉｌｅｄ試験により測定された。

【図2c】本願の一実施例に係る全般的な予測過程を示すものである。

【図2d】本願の一実施例に従い、未承認薬物（最大到達臨床段階がそれぞれ第１相、第２相及び第３相の薬物）及び承認薬物に対してＯＧＥ＋ＣＧＥ、ＯＧＥ及びＣＧＥを使用して臨床試験の成功率を予測した結果のＡＵＰＲＣを示す。ＡＵＰＲＣ間の差の統計的有意性は、Ｍａｎｎ－ＷｈｉｔｎｅｙＵ検定により測定された。

【図2e】本願の一実施例に従い、ＣＧＥとＯＧＥの相関関係における標的遺伝子の位置と数を示すものである。図面において、ｙ軸はｌｏｇ２で表している。

【図3】本願の一実施例に従い、特定の新薬候補薬物の臨床試験成功確率を予測した結果である。結果を各候補薬物に臨床段階に沿って分類した。各臨床試験成功確率間の統計的有意性は、Ｍａｎｎ－ＷｈｉｔｎｅｙＵ検定により測定された。

【図4a】本願の一実施例に従い、特定の新薬候補薬物の臨床試験成功確率の予測に対する精密度と再現率（ｒｅｃａｌｌａｎｄｐｒｅｃｉｓｉｏｎ）を示す（モンテカルロ検定、１，０００回）。赤い線で繋がった赤い点は、予測性能（精密度と再現率）を表す。各精密度と再現率の統計的有意性は、対応のあるＴ検定（ｐａｉｒｅｄｓａｍｐｌｅｔ－ｔｅｓｔ）により測定された。

【図4b】本願の一実施例に従い、特定の新薬候補薬物の臨床試験成功確率の予測に対する精密度と再現率（ｒｅｃａｌｌａｎｄｐｒｅｃｉｓｉｏｎ）を示す（モンテカルロ検定、１，０００回）。赤い線で繋がった赤い点は、予測性能（精密度と再現率）を表す。各精密度と再現率の統計的有意性は、対応のあるＴ検定（ｐａｉｒｅｄｓａｍｐｌｅｔ－ｔｅｓｔ）により測定された。

【図5a】未承認薬物（臨床第１相）及び承認薬物に対する予測性能としてＯＧＥ＋ＣＧＥ、ＯＧＥ、並びにＣＧＥを予測に使用した際のＡＵＰＲＣを示す（モンテカルロ検定、１，０００回）。各ＡＵＰＲＣ間の統計的有意性は、Ｍａｎｎ－ＷｈｉｔｎｅｙＵ検定により測定された。

【図5b】本願の一実施例に従い、未承認薬物（臨床第１相）及び承認薬物に対する精密度と再現率（ｒｅｃａｌｌａｎｄｐｒｅｃｉｓｉｏｎ）を示す（モンテカルロ検定、１，０００回）。赤い線で繋がった赤い点は、予測性能（精密度と再現率）を表す。各精密度と再現率の統計的有意性は、対応のあるＴ検定（ｐａｉｒｅｄｓａｍｐｌｅｔ－ｔｅｓｔ）により測定された。

【図6a】本願の一実施例に従い、危険及び安全標的を分類する過程を示すものである。赤色は未承認薬物、青色は承認薬物に対する偏向した効果を示す標的を表し、灰色の点は未承認及び承認薬物の何れか一方に対して偏向効果を示さない標的を意味する。

【図6b】本願の一実施例に従い、分類された各標的（薬物）を超幾何学的検査を通じて実際の臨床試験で毒性により失敗した薬物及び「Ｄｅａｔｈ」副作用のある薬物（ＭｏｌｅｃｕｌｅＮｅｔ－ＣｌｉｎＴｏｘ）と比較したものである。

【図6c】本願の一実施例に従い、分類された各標的（薬物）を超幾何学的検査を通じて実際の臨床試験で毒性により失敗した薬物及び「Ｄｅａｔｈ」副作用のある薬物（Ｋ．Ｍ．Ｇａｙｖｅｒｔｅｔａｌ．）と比較したものである。

【図6d】本願の一実施例に従い、分類された各標的（薬物）を超幾何学的検査を通じて実際の臨床試験で毒性により失敗した薬物及び「Ｄｅａｔｈ」副作用のある薬物（ＡＤＲｅＣＳ）と比較したものである。

【図6e】本願の一実施例に従い、分類された各標的（薬物）を超幾何学的検査を通じて実際の臨床試験で毒性により失敗した薬物及び「Ｄｅａｔｈ」副作用のある薬物（ＤｒｕｇＣｅｎｔｒａｌ）と比較したものである。

【図7a】本願の一実施例に従い、薬物承認偏向の統計的有意性の基準を緩和して危険標的と安全標的の数を増やした際、本願の方法で分類した安全薬物が実際の毒性薬物と有意に重複するのか否かを確認したものである。

【図7b】本願の一実施例に従い、分類された各標的（薬物）を、薬物承認偏向の統計的有意性の基準を緩和した超幾何学的検査を通じて実際の臨床試験で毒性により失敗した薬物及び「Ｄｅａｔｈ」副作用のある薬物（ＭｏｌｅｃｕｌｅＮｅｔ－ＣｌｉｎＴｏｘ）と比較したものである。

【図7c】本願の一実施例に従い、分類された各標的（薬物）を、薬物承認偏向の統計的有意性の基準を緩和した超幾何学的検査を通じて実際の臨床試験で毒性により失敗した薬物及び「Ｄｅａｔｈ」副作用のある薬物（Ｋ．Ｍ．Ｇａｙｖｅｒｔｅｔａｌ．）と比較したものである。

【図7d】本願の一実施例に従い、分類された各標的（薬物）を、薬物承認偏向の統計的有意性の基準を緩和した超幾何学的検査を通じて実際の臨床試験で毒性により失敗した薬物及び「Ｄｅａｔｈ」副作用のある薬物（ＡＤＲｅＣＳ）と比較したものである。

【図7e】本願の一実施例に従い、分類された各標的（薬物）を、薬物承認偏向の統計的有意性の基準を緩和した超幾何学的検査を通じて実際の臨床試験で毒性により失敗した薬物及び「Ｄｅａｔｈ」副作用のある薬物（ＤｒｕｇＣｅｎｔｒａｌ）と比較したものである。

【図8a】本願の一実施例に従い、薬物対象当たりの関連薬物数と薬物承認偏向の程度を調査したものである（Ｓｐｅａｒｍａｎｒｈｏ＝－０．３８）。相関係数はスピアマンの相関係数で（Ｓｐｅａｒｍａｎｒａｎｋｃｏｒｒｅｌａｔｉｏｎ）測定されており、ｘ軸はｌｏｇ１０で数値化し、ｘ軸値間の差の統計的有意性は、Ｍａｎｎ－ＷｈｉｔｎｅｙＵ検定により測定された。

【図8b】本願の一実施例に従い、薬物対象当たりの関連薬物数と薬物承認偏向の程度を調査したものである（Ｓｐｅａｒｍａｎｒｈｏ＝－０．４３）。相関係数はスピアマンの相関係数で（Ｓｐｅａｒｍａｎｒａｎｋｃｏｒｒｅｌａｔｉｏｎ）測定されており、ｘ軸はｌｏｇ１０で数値化し、ｘ軸値間の差の統計的有意性は、Ｍａｎｎ－ＷｈｉｔｎｅｙＵ検定により測定された。

【図9a】本願の一実施例に従い、細胞群とヒトの間の遺伝的摂動効果の差に基づいて遺伝子を分類したものを示す。

【図9b】図９ａにおいて分類した遺伝子をそれぞれＮ２Ｅ、Ｎ２Ｎ、Ｅ２Ｅ、Ｅ２Ｎに分け、各危険又は安全標的に対する濃縮程度を示すものである。

【図10a】本願の一実施例に従い、危険及び安全標的に対するＣＧＥの分布を示す。差の統計的有意性は、Ｍａｎｎ－ＷｈｉｔｎｅｙＵ検定により測定された。

【図10b】本願の一実施例に従い、危険及び安全標的に対するＯＧＥの分布を示す。差の統計的有意性は、Ｍａｎｎ－ＷｈｉｔｎｅｙＵ検定により測定された。

【図11a】本願の一実施例に従い、Ｂｅｈａｎ，ＦｉｏｎａＭ．ｅｔａｌ．，ＯＧＥを使用して危険及び安全標的に対する濃縮程度を示すものである。

【図11b】本願の一実施例に従い、ＤｅｐＭａｐ，ＯＧＥを使用して危険及び安全標的に対する濃縮程度を示すものである。

【図11c】本願の一実施例に従い、ｈＰＳＣ，ＯＧＥを使用して危険及び安全標的に対する濃縮程度を示すものである。

【図11d】本願の一実施例に従い、ＣＧＥ，ｐＬＩ（ＥｘＡＣ）を使用して危険及び安全標的に対する濃縮程度を示すものである。

【図11e】本願の一実施例に従い、Ｂｅｈａｎ，ＦｉｏｎａＭ．ｅｔａｌ．，ｐＬＩ（ＥｘＡＣ）を使用して危険及び安全標的に対する濃縮程度を示すものである。

【図11f】本願の一実施例に従い、ＤｅｐＭａｐ，ｐＬＩ（ＥｘＡＣ）を使用して危険及び安全標的に対する濃縮程度を示すものである。

【図11g】本願の一実施例に従い、ｈＰＳＣ，ｐＬＩ（ＥｘＡＣ）を使用して危険及び安全標的に対する濃縮程度を示すものである。

【図12a】本願の一実施例に従い、薬物承認偏向の統計的有意性の閾値を緩和した際も図１１ａ乃至図１１ｇの結果と同一あるいは類似した結果が観察されるか否かを確認した結果である。

【図12b】本願の一実施例に従い、薬物承認偏向の統計的有意性の閾値を緩和した際も図１１ａ乃至図１１ｇの結果と同一あるいは類似した結果が観察されるか否かを確認した結果である。

【図12c】本願の一実施例に従い、薬物承認偏向の統計的有意性の閾値を緩和した際も図１１ａ乃至図１１ｇの結果と同一あるいは類似した結果が観察されるか否かを確認した結果である。

【図12d】本願の一実施例に従い、薬物承認偏向の統計的有意性の閾値を緩和した際も図１１ａ乃至図１１ｇの結果と同一あるいは類似した結果が観察されるか否かを確認した結果である。

【図13a】本願の一実施例に従い、ＣＧＥ及びＯＧＥの比較に基づき、臨床失敗薬物のうちそれぞれＮ２Ｅ、Ｎ２Ｎ、Ｅ２Ｅ、Ｅ２Ｎ遺伝子をどれ程標的にしているかを確認することで本願発明の効果を確認した結果である。

【図13b】図１３ａの臨床失敗薬物の標的遺伝子分類を各副作用（ｃａｒｄｉｏｔｏｘｉｃｉｔｙ；心毒性、ｖａｓｃｕｌａｒｔｏｘｉｃｉｔｙ；血管毒性、ｐｓｙｃｈｉａｔｒｉｃｔｏｘｉｃｉｔｙ；精神毒性、ｎｅｕｒｏｔｏｘｉｃｉｔｙ；神経毒性）によって分類したものである。

【図14a】本願の一実施例に従い、Ｎ２Ｅ遺伝子がどの遺伝的経路（又は身体にどのように係わるのか）と関連しているのかを示すものである。

【図14b】本願の一実施例に従い、Ｎ２Ｎ遺伝子がどの遺伝的経路（又は身体にどのように係わるのか）と関連しているのかを示すものである。

【図14c】本願の一実施例に従い、Ｅ２Ｅ遺伝子がどの遺伝的経路（又は身体にどのように係わるのか）と関連しているのかを示すものである。

【図14d】本願の一実施例に従い、Ｅ２Ｎ遺伝子がどの遺伝的経路（又は特定の身体機能にどのように係わるのか）と関連しているのかを示すものである。

【図15a】本願の一実施例に従い、臨床試験の成功率の予測に使用される薬物標的と化学情報の構成要素を示す。

【図15b】本願の一実施例に従い、ＯＧＥ、ＣＧＥ、ネットワーク及び発現情報のうち一部又は全部を使用した臨床試験成功率予測モデルの性能を比較したものである。

【図15c】本願の一実施例に従い、薬物標的情報（ＯＧＥ＋ＣＧＥ＋Ｎｅｔｗｏｒｋ＋Ｅｘｐｒｅｓｓｉｏｎ）、化学情報（Ｃｈｅｍｉｃａｌ）又は全部を使用して薬物の臨床試験の成功率を予測した結果を比較したものである。

【図15d】本願の一実施例に従い、薬物標的情報や化学情報のみを使用して薬物臨床成功率を予測した薬物をＡＴＣコードで調査した結果である。

【図16】本願の一実施例に従い、成功率の予測に使用される情報である薬物標的と化学情報の間の直交性によって、本願発明の効果が改善されることを確認した結果である。図面に表示されているベクターは、薬物の承認予測可能性に対する方向とその程度を表す。

【図17】本願の一実施例に係る装置図である。

【図18】本願の一実施例に係るフローチャートである。

【発明を実施するための形態】

【0016】

以下では、添付した図面を参照しながら、本願の属する技術分野において通常の知識を有する者が容易に実施できるように本願の実施例を詳しく説明する。ところが、本願は様々な異なる形態に具現されることができ、ここで説明する実施例に限定されるものではない。そして、図面において、本願を明確に説明するために、説明とは関係ない部分は省略しており、明細書全体に亘って類似した部分に対しては類似した図面符号を付けている。

【0017】

本願の明細書全体において、ある部材が他の部材の「上に」位置しているという場合、これは、ある部材が他の部材に接している場合だけでなく、両部材の間にまた他の部材が存在する場合も含む。

【0018】

本願の明細書全体において、ある部分がある構成要素を「含む」という場合、これは、特に反対の記載がない限り、他の構成要素を除くのではなく、他の構成要素をさらに含み得ることを意味する。

【0019】

本願の明細書全体において使用する程度の用語「約」、「実質的に」などは、言及された意味に固有の製造及び物質許容誤差が提示される場合、その数値で、又はその数値に近接した意味として使用され、本願の理解を助けるために正確あるいは絶対的な数値が言及された開示内容を非良心的な侵害者が不当に利用することを防止するために使用される。本願の明細書全体において使用される程度の用語「～（する）ステップ」又は「～のステップ」は、「～のためのステップ」を意味するものではない。

【0020】

本願の明細書全体において、マーカッシュ形式の表現に含まれた「これらの組み合わせ（たち）」の用語は、マーカッシュ形式の表現に記載された構成要素からなる群より選択される１つ以上の混合又は組み合わせを意味するものであり、上記構成要素からなる群より選択される１つ以上を含むことを意味する。

【0021】

本願の明細書全体において、「Ａ及び／又はＢ」の記載は、「Ａ又はＢ、あるいはＡ及びＢ」を意味する。

【0022】

本願の明細書全体において、「個体」とは、候補新薬の非臨床段階以降の臨床段階で安全性評価のために薬物を適用するヒトを含む。ヒトだけでなく、薬物実験のために使用され得るマウス、ウサギ、イヌ、ウシ、ウマ、ヒツジなど適用可能な生物は全て含まれると解釈しなければならない。

【0023】

本願の明細書全体において、「臨床試験失敗（ｃｌｉｎｉｃａｌｔｅｓｔｆａｉｌｕｒｅ）」とは、特定の薬物が非臨床は通過しても個体群対象の臨床試験を通過できないことを意味し、必ずしもこれに限定されるものではなく、上記と類似した状況を全て含む。

【0024】

本願の明細書全体において、「摂動（ｐｅｒｔｕｒｂａｔｉｏｎ）」又は「摂動効果」とは、ある物質や刺激によって遺伝子レベルで変化が起こることを意味する。主に環境による刺激、薬物の作用、遺伝子ノックダウン（ｋｎｏｃｋｄｏｗｎ）などによって起こり得る。例えば、薬物が作用した結果として標的遺伝子の機能が抑制されること（ｌｏｓｓ－ｏｆ－ｆｕｎｃｔｉｏｎ）を含む。

【0025】

本願の明細書全体において、「耐性（ｔｏｌｅｒａｎｔ又はｌｏｓｓ－ｏｆ－ｆｕｎｃｔｉｏｎｔｏｌｅｒａｎｔ）」とは、摂動が起こった後も細胞群やヒトなど個体群の生存に大きな影響が及ばないことを意味する。その反対に「不耐性（ｉｎｔｏｌｅｒａｎｔ又はｌｏｓｓ－ｏｆ－ｆｕｎｃｔｉｏｎｉｎｔｏｌｅｒａｎｔ）」とは、摂動による効果を細胞群やヒトなどの個体群で収容できず、生存に大きな影響が及ぶことを意味する。

【0026】

本願の明細書全体において、「類似薬物規則（ｄｒｕｇ－ｌｉｋｅｎｅｓｓｒｕｌｅ）」とは、様々な化合物から薬物と類似した物質を予め選別及び予測し、このような予測結果から新薬に適した化合物を開発する際に使用される基準を意味する。その構成要素として、分子量、水素結合供与体又は受容体の数、極性表面積などがある。Ｌｉｐｉｎｓｋｉ（Ｒｕｌｅｏｆ５；Ｒｏ５）、Ｖｅｂｅｒ及びＧｈｏｓｅが提案した類似薬物規則は、低い毒性を有する好ましい薬物に対する有用な指針であると見なされてきた。

【0027】

本願の明細書全体において、「マシンラーニング（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）」とは、コンピュータプログラムがアルゴリズムを使用して与えられたデータからパターンを探す人工知能アプリケーションを意味する。主にコンピュータがデータで学習し、経験を通じて改善するように訓練する分野を意味する。本願において使用したマシンラーニングアルゴリズムは一つの例示に過ぎず、本願発明のために使用できる全てのマシンラーニングの方法又は類型は全て含まれると解釈しなければならない。例えば、マシンラーニングの方法は、（１）教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、（２）教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｉｎｇ）、（３）強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）、（４）半教師あり学習（ｓｅｍｉ－ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）などを含んでいても良く、さらに具体的には、ナイーブベイズ分類（ＮａｉｖｅＢａｙｅｓＣｌａｓｓｉｆｉｃａｔｉｏｎ）、ロジスティック回帰（ＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎ）、決定木（Ｄｅｃｉｓｉｏｎｔｒｅｅ）、ランダムフォレスト（Ｒａｎｄｏｍｆｏｒｅｓｔ）、ブースティング（ＸＧＢｏｏｓｔ／ｅｎｓｅｍｂｌｅｂｏｏｓｔｉｎｇ／ＡｄａＢｏｏｓｔ／ＧｒａｄｉｅｎｔＢｏｏｓｔ／ＬｉｇｈｔＧＢＭ／ＣａｔＢｏｏｓｔなど）、パーセプトロン（Ｐｅｒｃｅｐｔｒｏｎ）、サポートベクターマシン（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）、クアドラティック分類（Ｑｕａｄｒａｔｉｃｃｌａｓｓｉｆｉｅｒｓ）、クラスタリング（Ｋ－ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇ、Ｂａｙｅｓｉａｎｎｅｔｗｏｒｋｃｌｕｓｔｅｒｉｎｇなど）などを全て含んでいても良いが、これに限定されるものではない。

【0028】

本願の明細書全体において、「非臨床試験」という試験は、新たに開発した新薬候補物質を個体群に使用する前に、動物や細胞群を対象に使用した場合にどのような副作用や毒性、効果などがあるのか確認する試験である。薬物が体内にどのように吸収されて分布され、排泄されるかを研究する体内動態研究と薬効薬理研究を含むが、必ずしもこれに限定されるものではなく、試験において必要な過程は全て含まれると解釈しなければならない。

【0029】

本願の明細書全体において、「臨床試験」とは、臨床試験用医薬品の安全性と有効性を証明する目的で、当該薬物の薬動／薬力／薬理／臨床的効果を確認し、異常反応を調査するためにヒトを対象に実施する試験又は研究を意味し、必ずしもこれに限定されるものではなく、試験において必要な過程は全て含まれると解釈しなければならない。

【0030】

本願の明細書全体において、「成功率」は、臨床試験の成功確率を意味するものであり、モデルの性能予測結果のＡＵＲＯＣ下の面積として計算された。本願において設定した成功率は０．５と設定しているが、ユーザの必要に応じて正確度を保障する範囲内で成功率を異ならせて設定しても良い。

【0031】

本願の明細書全体において、「ＣＧＥ（ｃｅｌｌｕｌａｒｇｅｎｅｅｓｓｅｎｔｉａｌｉｔｙ）」及び「ＯＧＥ（ｏｒｇａｎｉｓｍａｌｇｅｎｅｅｓｓｅｎｔｉａｌｉｔｙ）」とは、それぞれ細胞群又は個体群においてある遺伝子に対する摂動効果の程度を計算したものである。これは、本願の技術的思想において核心となる構成であり、本願は、薬物が標的に及ぼす遺伝的摂動の効果の差を基に臨床試験の成功率を予測しようとする。

【0032】

本願の明細書全体において、「タンパク質相互作用ネットワーク情報（ＰＰＩＮ；ｐｒｏｔｅｉｎ－ｐｒｏｔｅｉｎｉｎｔｅｒａｃｔｉｏｎｎｅｔｗｏｒｋｓ）とは、細胞内タンパク質間の物理的接触を数学的に表現したものを意味する。このような接触は非常に明確で、タンパク質間の制限された結合領域において発生し、特定の生物学的意味（特定機能）を有する。

【0033】

以下、添付された図面を参照しながら本願の具現例及び実施例を詳しく説明する。しかし、本願がこのような具現例及び実施例と図面に限定されるものではない。

【0034】

本願の第１の側面は、マシンラーニングを利用して新薬の臨床試験の成功率を予測する装置において、候補新薬に対する標的遺伝子に関する情報を取得する情報取得部と、予め学習された臨床試験成功率予測モデルに前記標的遺伝子に関する情報を入力して前記候補新薬の臨床試験の成功率を予測する予測部とを含む、装置を提供する。

【0035】

ここで、標的遺伝子に関する情報は、ＣＧＥ（ｃｅｌｌｕｌａｒｇｅｎｅｅｓｓｅｎｔｉａｌｉｔｙ）又はＯＧＥ（ｏｒｇａｎｉｓｍａｌｇｅｎｅｅｓｓｅｎｔｉａｌｉｔｙ）であっても良い。

【0036】

【0037】

各側面において共通する部分は、全て共に適用される。

【0038】

実施例１．標的遺伝子情報を活用した成功率予測実験情報
（１）ヒトと細胞群に対する摂動効果情報の取得
臨床試験の成功率の予測において標的遺伝子情報の有用性を確認した。

【0039】

ＣＧＥ情報は、ＰｒｏｊｅｃｔＳＣＯＲＥデータベース（Ｂｅｈａｎ，Ｆ．Ｍ．ｅｔａｌ．ＰｒｉｏｒｉｔｉｚａｔｉｏｎｏｆｃａｎｃｅｒｔｈｅｒａｐｅｕｔｉｃｔａｒｇｅｔｓｕｓｉｎｇＣＲＩＳＰＲ－Ｃａｓ９ｓｃｒｅｅｎｓ．Ｎａｔｕｒｅ５６８，５１１－５１６（２０１９）．）のフィットネス点数（ｆｉｔｎｅｓｓｓｃｏｒｅ）から類推した。フィットネス点数は、３２４個の細胞株に対し、全ゲノムに対するＣＲＩＳＰＲ－Ｃａｓ９スクリーニングにより測定した。平均ＣＧＥが０以上である遺伝子は必須遺伝子、その反対は非必須遺伝子と見なした。

【0040】

ＣＧＥの様々な指標（ｍｅｔｒｉｃ）を確認するために、Ｂｅｈａｎ，Ｆ．Ｍ．ｅｔａｌ．のフィットネス遺伝子グループ（ｔｈｅｇｒｏｕｐｏｆｆｉｔｎｅｓｓｇｅｎｅｓ）、ＤｅｐＭａｐ（２０Ｑ４ｖ２）の依存性確率（ｐｒｏｂａｂｉｌｉｔｙｏｆｄｅｐｅｎｄｅｎｃｙ）、並びにｈＰＳＣ（ｈｕｍａｎｐｌｕｒｉｐｏｔｅｎｔｓｔｅｍｃｅｌｌ）のフィットネス点数を使用した。Ｂｅｈａｎ，Ｆ．Ｍ．ｅｔａｌ．が定義した汎癌コアフィットネス遺伝子（ｐａｎ－ｃａｎｃｅｒｃｏｒｅｆｉｔｎｅｓｓｇｅｎｅｓ）とコアフィットネス遺伝子は必須遺伝子と、残りは非必須遺伝子と見なした。

【0041】

ＤｅｐＭａｐもＣＲＩＳＰＲ－Ｃａｓ９を通じて７８９個の細胞株を選別し、ＰｒｏｊｅｃｔＳＣＯＲＥと比較して、独立指標として細胞株に対する遺伝子の依存性確率を調査した。各遺伝子に対して７８９個の細胞株に亘って確率の平均を計算した。平均０．５以上の確率を有する遺伝子は必須遺伝子と、平均０．５未満の確率を有する遺伝子は非必須遺伝子と見なした。

【0042】

癌細胞株だけでなく細胞群に対する一般的な調査を行うために、Ｍａｉｒ，Ｂ．ｅｔａｌ．から３種類の異なる媒体条件（マウス胚線維芽細胞フィーダー細胞／ｍｏｕｓｅｅｍｂｒｙｏｎｉｃｆｉｂｒｏｂｌａｓｔｓｆｅｅｄｅｒｃｅｌｌｓ、ラミニン／ｌａｍｉｎｉｎ、ビトロネクチン／ｖｉｔｒｏｎｅｃｔｉｎ）においてヒト多能性幹細胞（ｈＰＳＣ）に対するフィットネス点数（ｆｉｔｎｅｓｓｓｃｏｒｅ）を得た。各ｈＰＳＣ細胞に対する遺伝子のフィットネス点数は、ＦＤＲ（ｆａｌｓｅｄｉｓｃｏｖｅｒｙｒａｔｅ）で表された。パイソン（ｐｙｔｈｏｎ）のｓｃｉｐｙ．ｓｔａｔｓ．ｃｏｍｂｉｎｅ＿ｐ値を使用し、Ｆｉｓｈｅｒの結合確率テストを通じて各遺伝子に対する３つのフィットネス点数を結合した。結合ＦＤＲが０．０１未満である遺伝子は必須遺伝子と、結合ＦＤＲが０．０１以上である遺伝子は非必須遺伝子と見なした。

【0043】

ＯＧＥは、ｇｎｏｍＡＤデータベース（Ｋａｒｃｚｅｗｓｋｉ，Ｋ．Ｊ．ｅｔａｌ．Ｔｈｅｍｕｔａｔｉｏｎａｌｃｏｎｓｔｒａｉｎｔｓｐｅｃｔｒｕｍｑｕａｎｔｉｆｉｅｄｆｒｏｍｖａｒｉａｔｉｏｎｉｎ１４１，４５６ｈｕｍａｎｓ．Ｎａｔｕｒｅ５８１，４３４－４４３（２０２０）．）のＬＯＥＵＦ（ｌｏｓｓ－ｏｆ－ｆｕｎｃｔｉｏｎｏｂｓｅｒｖｅｄ／ｅｘｐｅｃｔｅｄｕｐｐｅｒｂｏｕｎｄｆｒａｃｔｉｏｎ）から導出された。ＬＯＥＵＦは、最大１４０，０００個の人口塩基序列データから突然変異率をモデリングすることで推定しており、予想される突然変異数と遺伝子の観察された突然変異の量を比較して計算した。例えば、遺伝子の予想突然変異に比べて観察された突然変異の数が著しく減少したことを示す低いＬＯＥＵＦは、負の選択（ｎｅｇａｔｉｖｅｓｅｌｅｃｔｉｏｎ）による不耐性遺伝子摂動効果と見なされる。

【0044】

ＯＧＥは、１．９９６（全ての遺伝子に対するＬＯＥＵＦの最大値）から各遺伝子のＬＯＥＵＦを引く方法で、ＣＧＥと方向性を合わせた。Ｋａｒｃｚｅｗｓｋｉ，Ｋ．Ｊ．ｅｔａｌ．（ＬＯＥＵＦ＜０．３５）によって定義された不耐性遺伝子摂動効果の基準によると、ＯＧＥが１．６４６以上である遺伝子はヒト集団において必須遺伝子と表示されたのに対し、ＯＧＥが１．６４６未満である遺伝子はヒト集団において非必須遺伝子と見なした。

【0045】

ＯＧＥの他の指標として、ＥｘＡＣデータベース（Ｌｅｋ，Ｍ．ｅｔａｌ．Ａｎａｌｙｓｉｓｏｆｐｒｏｔｅｉｎ－ｃｏｄｉｎｇｇｅｎｅｔｉｃｖａｒｉａｔｉｏｎｉｎ６０，７０６ｈｕｍａｎｓ．Ｎａｔｕｒｅ５３６，２８５－２９１（２０１６）．）のｐＬＩ（ｐｒｏｂａｂｉｌｉｔｙｏｆｂｅｉｎｇｌｏｓｓ－ｏｆ－ｆｕｎｃｔｉｏｎｉｎｔｏｌｅｒａｎｃｅ）が使用された。ｐＬＩが０．９以上である遺伝子は必須遺伝子と、ｐＬＩが０．９未満である遺伝子は非必須遺伝子と見なした。

【0046】

（２）ＣＧＥ及びＯＧＥと薬物の連動（Ｍａｐｐｉｎｇ）
ＣｈＥＭＢＬ（ｖ３０；Ｍｅｎｄｅｚ，Ｄ．ｅｔａｌ．ＣｈＥＭＢＬ：ｔｏｗａｒｄｓｄｉｒｅｃｔｄｅｐｏｓｉｔｉｏｎｏｆｂｉｏａｓｓａｙｄａｔａ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．４７，Ｄ９３０－Ｄ９４０（２０１９）．）データベースから、臨床試験が第１相～第４相の段階の何れか１つの段階で試験が終了した２，４６４個の薬物情報を使用した。第４相の段階の薬物は承認された薬物と、第１相、第２相、３相の薬物は承認されていない薬物と見なした。癌治療用薬物は固有の細胞毒性のため除外された。分子の類型は小さい分子に制限された。このような除外基準は、Ｎｇｕｙｅｎｅｔａｌ．（Ｎｇｕｙｅｎ，Ｐ．Ａ．，Ｂｏｒｎ，Ｄ．Ａ．，Ｄｅａｔｏｎ，Ａ．Ｍ．，Ｎｉｏｉ，Ｐ．＆Ｗａｒｄ，Ｌ．Ｄ．Ｐｈｅｎｏｔｙｐｅｓａｓｓｏｃｉａｔｅｄｗｉｔｈｇｅｎｅｓｅｎｃｏｄｉｎｇｄｒｕｇｔａｒｇｅｔｓａｒｅｐｒｅｄｉｃｔｉｖｅｏｆｃｌｉｎｉｃａｌｔｒｉａｌｓｉｄｅｅｆｆｅｃｔｓ．Ｎａｔ．Ｃｏｍｍｕｎ．１０，１５７９（２０１９）．）とＤｕｆｆｙ、Ａｉｎｅ（Ｄｕｆｆｙ、Ａ．ｅｔａｌ．Ｔｉｓｓｕｅ－ｓｐｅｃｉｆｉｃｇｅｎｅｔｉｃｆｅａｔｕｒｅｓｉｎｆｏｒｍｐｒｅｄｉｃｔｉｏｎｏｆｄｒｕｇｓｉｄｅｅｆｆｅｃｔｓｉｎｃｌｉｎｉｃａｌｔｒｉａｌｓ．Ｓｃｉ．Ａｄｖ．６，ｅａｂｂ６２４２（２０２０）．）が定義した基準である。薬物－標的の相互作用情報は、ＳＴＩＴＣＨ５（Ｄｕｆｆｙ，Ａ．ｅｔａｌ．Ｔｉｓｓｕｅ－ｓｐｅｃｉｆｉｃｇｅｎｅｔｉｃｆｅａｔｕｒｅｓｉｎｆｏｒｍｐｒｅｄｉｃｔｉｏｎｏｆｄｒｕｇｓｉｄｅｅｆｆｅｃｔｓｉｎｃｌｉｎｉｃａｌｔｒｉａｌｓ．Ｓｃｉ．Ａｄｖ．６，ｅａｂｂ６２４２（２０２０）．）データベースの情報を使用した（結合相互作用点数＞＝７００）。最後に、７，６９５個の標的で１，０６４個の未承認薬物と１，４００個の承認薬物の情報を収集した（図１ａ及び図１ｂを参照）。薬物は、解剖学的治療化学コード（ＡＴＣコード）によって分類された。

【0047】

ＣＧＥとＯＧＥの場合、各薬物標的に対するＣＧＥとＯＧＥの平均を計算して各薬物にマッピングされた。本願の一実施例において使用された全ての薬物は、９０％以上の薬物標的のＣＧＥとＯＧＥを含むようにフィルタリングされた。

【0048】

（３）マシンラーニングの進行過程
臨床試験成功率予測モデルとしてランダムフォレスト（ｒａｎｄｏｍｆｏｒｅｓｔ）分類器（ｃｌａｓｓｉｆｉｅｒ）が使用されており、これは、パイソン（ｐｙｔｈｏｎ）でＳｃｉｋｉｔ－ｌｅａｒｎ（ｖ０．２４．２）を使用して具現された。当該分類器は基本設定として１，０００個のツリーを作った。臨床試験成功率予測モデルを学習させるために、薬物の臨床段階に対する薬物のＣＧＥとＯＧＥを使用した。予測性能の有効な測定のために、モンテカルロ交差検証（ＭｏｎｔｅＣａｒｌｏｃｒｏｓｓ－ｖａｌｉｄａｔｉｏｎ；１，０００回）を行い、データセットをランダムに学習（９０％）及びテスト（１０％）セットに分けた。新薬候補薬物の臨床試験の成功確率は、１，０００個の交差検証を通じて試験セットに対する臨床試験成功率予測モデルが計算した確率の平均にて計算された。平均承認確率が０．５以上である薬物は承認薬物と見なされ、平均承認確率が０．５未満である薬物は未承認薬物と見なされても良い。臨床試験成功率予測モデルの予測性能を分析するために、試験セットの予測結果のＡＵＰＲＣ（ａｒｅａｕｎｄｅｒｔｈｅｐｒｅｃｉｓｉｏｎ－ｒｅｃａｌｌｃｕｒｖｅ）下の面積を測定した。

【0049】

実施例２．標的遺伝子情報を活用した成功率予測実験の説明
本願の出願人は、薬物の臨床試験失敗の要因は非臨床モデルと臨床個体群の間で現われる遺伝子別の反応差ということに着眼した。臨床試験失敗薬物は細胞群に対して耐性摂動効果を示すものの、実際にヒトなどの個体群に対しては不耐性摂動効果を示す遺伝子と関連している傾向があるという仮説を立てた（図５ａを参照）。ここで、細胞群に対する遺伝子摂動効果は、ＣＲＩＳＰＲ－Ｃａｓ９ノックアウト（ｋｎｏｃｋｏｕｔ）を使用して測定することができる。しかし、個体群に対する遺伝子摂動効果は、上記のようなノックアウトを適用して測定することができない。その代わりに、個体群に対する遺伝子摂動効果は、大規模の個体群のエクソーム及びゲノム塩基序列分析データを使用し、遺伝子に対する機能喪失突然変異率（ｌｏｓｓ－ｏｆ－ｆｕｎｃｔｉｏｎｍｕｔａｔｉｏｎｒａｔｅｓ）をモデリングすることで推定することができる。

【0050】

耐性摂動効果を示す遺伝子は個体群内で長く保存されるので、機能喪失突然変異率が小さい遺伝子は、摂動効果に対する耐性を有していないと見なしても良い。その反対に、機能喪失突然変異が多く引き起こされた遺伝子は、摂動効果に対する耐性を有すると見なしても良い。本願は、この仮定を個体群に対する薬物及び治療の安全性を評価するのに使用した。

【0051】

（１）ＣＧＥ／ＯＧＥ
細胞群と個体群における薬物の摂動効果の差及び臨床試験の承認の間の関連性を調べるために、本願は、一実施例として計１７，６６２個の遺伝子を対象に細胞遺伝子必須性（ｃｅｌｌｕｌａｒｇｅｎｅｅｓｓｅｎｔｉａｌｉｔｙ、ＣＧＥ）と個体遺伝子必須性（ｏｒｇａｎｉｓｍａｌｇｅｎｅｅｓｓｅｎｔｉａｌｉｔｙ、ＯＧＥ）を計算した（実施例１－（１）を参照）。ＣＧＥとＯＧＥの点数が高い遺伝子は細胞群とヒトの全てに対する不耐性摂動効果を示し、必須な遺伝子であることを意味する。点数が低ければその反対を意味する。

【0052】

（２）細胞生存性検査と比較
ＳＴＩＴＣＨ５データベースの２，４６４種類の薬物（１，０６４種類の未承認薬物及び１，４００種類の承認薬物）の７，６９５種類の標的を、ＣｈＥＭＢＬデータベースを通じて薬物承認状態を整理し、薬物標的のＣＧＥ及びＯＧＥを薬物にマッチングさせた（実施例１－（２）を参照）。未承認及び承認された薬物は非臨床試験で細胞生存性検査を通過しているため、未承認及び承認された薬物に対するＣＧＥの中位数はランダム分布よりも有意に低かった（図５ｂを参照；未承認薬物に対するＣＧＥの中位数＝－２．０８、Ｔｗｏ－ｔａｉｌｅｄｔｅｓｔＰ＝５．３×１０^－５８；Ｐ＝６．３×１０^－８１）。しかし、未承認薬物に対するＯＧＥの中位数はランダム分布よりも有意に高く（未承認薬物に対するＯＧＥの中位数＝１．２３、Ｐ＝５．３×１０^－３６）、承認された薬物に対するＯＧＥの中位数はランダム分布よりも有意に低かった（承認薬物に対するＯＧＥの中位数＝１．１１、Ｐ＝３．１×１０^－３３）。これは、細胞生存能力テストを通過した未承認薬物が大体ヒトに対して不耐性の影響を与えることを示す。

【0053】

薬物の臨床試験の承認が細胞群とヒト集団の間の薬物標的摂動効果の不一致と関連しているという点を考慮して、本願の出願人は、このような不一致が臨床試験において薬物承認可否を予測するのに重要な特徴になり得ると予想した。

【0054】

（３）マシンラーニング予測モデルの設立
それを確認するために、薬物標的のＯＧＥとＣＧＥを使用し、薬物承認確率を予測するマシンラーニング分類器として臨床試験成功率予測モデルを作った（図５ｂを参照）。また、本願の出願人は、本発明に係る予測モデルを評価するために、ＯＧＥ又はＣＧＥの１つのみを使用するｔｗｏｓｔａｎｄ－ａｌｏｎｅ分類器を作った。

【0055】

薬物標的（ＯＧＥ＋ＣＧＥ）のＣＧＥとＯＧＥの間の不一致を使用した本願の臨床試験成功率予測モデルのＡＵＰＲＣ（ａｒｅａｕｎｄｅｒｔｈｅｐｒｅｃｉｓｉｏｎ－ｒｅｃａｌｌｃｕｒｖｅ）は０．７０±０．００２（図５ｄを参照；平均値±９５％信頼区間）で、ＯＧＥ又はＣＧＥの１つのみを使用するｔｗｏｓｔａｎｄ－ａｌｏｎｅ分類器のＡＵＰＲＣよりも相当高かった（０．６２±０．００２、０．６０±０．００２、Ｍａｎｎ－ＷｈｉｔｎｅｙＵ検定、Ｐ＝４．４×１０^－２２１、Ｐ＝２．０×１０^－２７５）。

【0056】

また、本願において予測した承認可能性と薬物の臨床段階の間の相関関係を評価することで本願に係る分類器の正確性を確認した。一般的に、臨床の初期段階における承認可能性は、後半段階における承認可能性よりも低い。実際に予測した結果、承認可能性が低いと予想した薬物は臨床の初期段階に、承認可能性が高いと予想した薬物は臨床の後半段階に属した（図３を参照；実施例１－（３）を参照）。

【0057】

つまり、本願に係る臨床試験成功率予測モデルの予測性能が相当正確であり、実際の臨床試験の成功率予測にも使用できることを意味する。

【0058】

また、本願に係る臨床試験成功率予測モデルを使用すれば、臨床試験で消耗する薬物の量を減らすことができる。細胞生存能力テストで安全な薬物と判定された薬物であっても、度々ヒトに対する不耐性摂動効果により臨床試験を通過できないことがあった。本願に係る臨床試験成功率予測モデルは、最初は細胞群に対する遺伝的摂動効果により承認されると予測されたが結局承認されていない薬物など、誤った予測を大きく減らした。ＯＧＥ及びＣＧＥを活用して臨床成功率を予測した際のリコール（ｒｅｃａｌｌ；本明細書においてリコール（ｒｅｃａｌｌ）とは、未承認薬物のうち未承認と正確に予測された薬物の割合を意味する）は、ＣＧＥのみを活用して臨床成功率を予測した際のリコールに比べて相当少なかった（図４ａを参照；Ｐａｉｒｅｄｓａｍｐｌｅｔ－ｔｅｓｔ；Ｐ＝２．４×１０^－４７）。

【0059】

また、結論的には承認されたが承認されないと誤って予測された薬物の割合も減少した。未承認薬物のうち未承認と予測された薬物の割合も、ＯＧＥ及びＣＧＥを活用して臨床成功率を予測した際の方が、ＣＧＥのみを活用して臨床成功率を予測した際と比べて予測の正確度が向上した（図４ｂ,図４ｃを参照；Ｐ＝２．５×１０^－２８４）。

【0060】

臨床第１相において薬物承認可否を予測することは、薬物安全性の評価において、本願に係る臨床試験成功率予測モデルの（ＯＧＥ及びＣＧＥを活用）予測能力を確認するために必要である。第１相での安全性問題による薬物の失敗が最も大きな割合を占めるためである。また、健康な臨床試験志願者のための１番目の安全研究は第１相で行われる。本願の分類器が臨床第１相で承認されていないか、あるいは最終承認を受けた薬物のみで学習した場合も、ＯＧＥ及びＣＧＥを活用した際の方が、ＣＧＥのみを活用した際と比べて予測の正確度が向上し、ＣＧＥによって承認されると誤って予測された薬物の数が有意に減少した。これは、本願の分類器が個体群不耐性摂動効果であるＯＧＥを反映して薬物安全性についてより精巧で且つ優秀な予測を行うことを示唆する（図５ａ、図５ｂを参照）。

【0061】

細胞群と個体群の間の薬物標的摂動効果の不一致を使用することで、本願に係る臨床試験成功率予測モデルの予測性能を大きく向上させることができた。本願発明を通じて、細胞群に耐性摂動効果を有しているものの、ヒトには不耐性摂動効果を有する多くの遺伝子を発見した。このような遺伝子を使用すれば、細胞群／ヒトの間の不一致と薬物承認の間の関連性に基づき、薬物の臨床承認可否をより精密に予測することができる。当該遺伝子は２，５１２個で、１７，６６２個の遺伝子のうち約１４％を占める（図２ｅを参照）。また、ＯＧＥはＣＧＥ（Ｓｐｅａｒｍａｎ’ｓｒｈｏ＝０．０８）と弱い相関関係を示したが、これは、ＯＧＥ及びＣＧＥを共に予測に使用することが臨床試験で薬物の承認可否を予測する核心情報であることを示唆する。

【0062】

実施例３．様々な指標を活用した検証
（１）Ｎ２Ｅ、Ｎ２Ｎ、Ｅ２Ｅ、Ｅ２Ｎ
遺伝子セット（危険／安全な標的；Ｎ２Ｅ、Ｎ２Ｎ、Ｅ２Ｅ及びＥ２Ｎ）と安全性問題のある薬物との関連性を把握するために、臨床試験において毒性による失敗薬物、副作用による薬物、安全性問題による失敗薬物を調査した。

【0063】

２つのデータセットから臨床試験において毒性により失敗した薬物の情報を得た。ＭｏｌｅｃｕｌａｒＮｅｔのＣｌｉｎＴｏｘデータセット（Ｗｕ，Ｚ．ｅｔａｌ．ＭｏｌｅｃｕｌｅＮｅｔ：ａｂｅｎｃｈｍａｒｋｆｏｒｍｏｌｅｃｕｌａｒｍａｃｈｉｎｅｌｅａｒｎｉｎｇ．Ｃｈｅｍ．Ｓｃｉ．９，５１３－５３０（２０１８）．）には、毒性のために臨床試験で失敗した薬物が含まれている。他の毒性薬物データセットは、Ｇａｙｖｅｒｔｅｔａｌ．（Ｇａｙｖｅｒｔ，Ｋ．Ｍ．，Ｍａｄｈｕｋａｒ，Ｎ．Ｓ．＆Ｅｌｅｍｅｎｔｏ，Ｏ．ＡＤａｔａ－ＤｒｉｖｅｎＡｐｐｒｏａｃｈｔｏＰｒｅｄｉｃｔｉｎｇＳｕｃｃｅｓｓｅｓａｎｄＦａｉｌｕｒｅｓｏｆＣｌｉｎｉｃａｌＴｒｉａｌｓ．ＣｅｌｌＣｈｅｍ．Ｂｉｏｌ．２３，１２９４－１３０１（２０１６）．）から得た。２つのデータセットから失敗した薬物又は承認された薬物の情報を得た。

【0064】

ＡＤＲｅＣＳ（ｖ３．１；Ｃａｉ，Ｍ．－Ｃ．ｅｔａｌ．ＡＤＲｅＣＳ：ａｎｏｎｔｏｌｏｇｙｄａｔａｂａｓｅｆｏｒａｉｄｉｎｇｓｔａｎｄａｒｄｉｚａｔｉｏｎａｎｄｈｉｅｒａｒｃｈｉｃａｌｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆａｄｖｅｒｓｅｄｒｕｇｒｅａｃｔｉｏｎｔｅｒｍｓ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．４３，Ｄ９０７－Ｄ９１３（２０１５）．）及びＤｒｕｇＣｅｎｔｒａｌ（ｖ２０２１；Ａｖｒａｍ，Ｓ．ｅｔａｌ．ＤｒｕｇＣｅｎｔｒａｌ２０２１ｓｕｐｐｏｒｔｓｄｒｕｇｄｉｓｃｏｖｅｒｙａｎｄｒｅｐｏｓｉｔｉｏｎｉｎｇ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．４９，Ｄ１１６０－Ｄ１１６９（２０２１）．）データベースから副作用のある薬物の情報を得た。ＤｒｕｇＣｅｎｔｒａｌデータベースにおいて、薬物の副作用は、重要薬物－副作用の関係性に対する確率及び当該確率の閾値と共に提供された。重要薬物－副作用の関係性は、確率の閾値の２倍にてフィルタリングされた。副作用の性別特異性は考慮されなかった。死亡の副作用が存在する薬物は、ＭｅｄＤＲＡ（ＭｅｄｉｃａｌＤｉｃｔｉｏｎａｒｙＦｏｒＲｅｇｕｌａｔｏｒｙＡｃｔｉｖｉｔｉｅｓ）の用語である「Ｄｅａｔｈ」と定義された（ＭｅｄＤＲＲＡ用語：「死」、ＭｅｄＤＲＡＩＤ：１００１１９０６）。

【0065】

ＣｈＥＭＢＬデータベース（Ｈｕｎｔｅｒ，Ｆ．Ｍ．Ｉ．ｅｔａｌ．ＤｒｕｇＳａｆｅｔｙＤａｔａＣｕｒａｔｉｏｎａｎｄＭｏｄｅｌｉｎｇｉｎＣｈＥＭＢＬ：ＢｏｘｅｄＷａｒｎｉｎｇｓａｎｄＷｉｔｈｄｒａｗｎＤｒｕｇｓ．Ｃｈｅｍ．Ｒｅｓ．Ｔｏｘｉｃｏｌ．３４，３８５－３９５（２０２１）．）と、Ｏｎａｋｐｏｙａ，Ｉ．Ｊ．ｅｔａｌ．（Ｏｎａｋｐｏｙａ，Ｉ．Ｊ．，Ｈｅｎｅｇｈａｎ，Ｃ．Ｊ．＆Ａｒｏｎｓｏｎ，Ｊ．Ｋ．Ｐｏｓｔ－ｍａｒｋｅｔｉｎｇｗｉｔｈｄｒａｗａｌｏｆ４６２ｍｅｄｉｃｉｎａｌｐｒｏｄｕｃｔｓｂｅｃａｕｓｅｏｆａｄｖｅｒｓｅｄｒｕｇｒｅａｃｔｉｏｎｓ：ａｓｙｓｔｅｍａｔｉｃｒｅｖｉｅｗｏｆｔｈｅｗｏｒｌｄｌｉｔｅｒａｔｕｒｅ．ＢＭＣＭｅｄ．１４，１０（２０１６）．）の薬物安全性データキュレーションにおいて安全性問題により失敗した薬物データを得た。失敗理由は、心毒性、神経毒性など副作用が発生した臓器の種類によって分類した。ＣｈＥＭＢＬは副作用の失敗等級を提供した。Ｏｎａｋｐｏｙａ．，Ｉ．Ｊ．ｅｔａｌ．などの失敗理由は手作業で分類した。

【0066】

安全性問題のある全ての薬物は、ＳＴＩＴＣＨ５及びＰｕｂＣｈｅｍＰｙ（ｖ１．０．４、ｈｔｔｐｓ：／／ｐｙｐｉ．ｏｒｇ／ｐｒｏｊｅｃｔ／ＰｕｂＣｈｅｍＰｙ）の外部データベース識別子に対するマッピングファイルを使用してＳＴＩＴＣＨ５識別子にマッピングされた。

【0067】

（２）危険標的及び安全標的（ｒｉｓｋｙａｎｄｓａｆｅｔａｒｇｅｔｓ）
危険標的と安全標的を分類し、薬物標的の危険と細胞群／ヒトの不一致の間の関係を調査した。各標的は、本願に係る方法で分類された。具体的に、承認されていない薬物と係わる薬物標的は危険標的と、承認された薬物と係わる薬物標的は安全標的と見なされた。薬物承認偏向を各薬物標的に対するフィッシャーの正確検定（Ｆｉｓｈｅｒ’ｓｅｘａｃｔｔｅｓｔ）のＯＲ（ｏｄｄｓｒａｔｉｏｓ）とｐ値により測定した。ｐ値が０．０５よりも小さい場合に限って、ＯＲがそれぞれ１よりも大きい場合は危険標的に、１よりも小さい場合は安全標的に分類されており、測定の結果、１４１個の危険標的と３１３個の安全標的の情報を得た（図６ａを参照）。

【0068】

本願の方法で分類された各標的は、実際の臨床試験で毒性により失敗した薬物（毒性薬物）及び「Ｄｅａｔｈ」副作用のある薬物と比較することで、本願の方法の正確度を判断した。危険標的を対象とする危険薬物は、毒性薬物と有意に重複すると示され（図６ｂ、図６ｃを参照；超幾何学的検査；Ｐ＝３．６×１０^－１０；Ｐ＝１．２×１０^－１７）、安全な薬物は毒性薬物と有意に重複しなかった（Ｐ＝１．０；Ｐ＝０．２）。「Ｄｅａｔｈ」とは、死亡や深刻な負傷をもたらす深刻な副作用を意味する。本願の方法で分類した危険薬物は、実際の毒性薬物と有意に重複するのに対し（図６ｄ、図６ｅを参照；Ｐ＝１．７×１０^－８；Ｐ＝８．１×１０^－６）、本願の方法で分類した安全薬物は、実際の毒性薬物と有意に重複しなかった（Ｐ＝０．５；Ｐ＝０．１）。薬物承認偏向の統計的有意性の基準を緩和して危険標的と安全標的の数を増やしても、このような結果は一貫して維持された（図７ａ乃至図７ｅを参照）。これは、本願に係る方法が薬物の危険有無を良く区分し、臨床試験の成功率を良く予測できることを示すものである。

【0069】

また、本願に係る発明の効果を確認するために、薬物対象当たりの関連薬物数と薬物承認偏向の程度を調査した。薬物承認に有意な偏向があるほど、関連薬物の数（図８ａを参照；Ｓｐｅａｒｍａｎｒｈｏ＝－０．３８、Ｐ＝１．６×１０^－２６９）が多く、高い水準の薬物承認偏向が観察された（図８ｂを参照；Ｓｐｅａｒｍａｎｒｈｏ＝－０．４３、Ｐ＜１．０×１０^－３０７）。これは、本願の方法で分類された危険標的又は安全標的が、それぞれ承認されていない薬物と承認された薬物に明示的に分けられることを示すものである。従って、薬物標的の危険は、薬物承認偏向によって評価されることができる。

【0070】

（３）Ｎ２Ｅ、Ｎ２Ｎ、Ｅ２Ｅ及びＥ２Ｎと危険標的及び安全標的の連動
摂動遺伝子を危険標的及び安全標的に特徴付けるために、細胞群とヒト母集団の間の遺伝子摂動効果を比較し、１７，６６２個の遺伝子を４個のグループに分類した（図９ａを参照）。２，５１２個の遺伝子が細胞群において必須ではないもののヒトにおいて必須であり（Ｎ２Ｅ）、１３，８３５個の遺伝子が細胞群とヒトの全てにおいて必須ではなく（Ｎ２Ｎ）、４０２個の遺伝子は細胞群とヒトの全てにおいて必須であり（Ｅ２Ｅ）、９１３個の遺伝子は細胞群において必須であるもののヒトにおいて必須ではないことが確認された（Ｅ２Ｎ）。

【0071】

臨床試験における薬物標的の危険は、細胞群とヒトの間の摂動効果の不一致により説明できることが確認された。特に、危険標的は、細胞群には耐性摂動効果を示すものの、ヒト集団には不耐性摂動効果を示すＮ２Ｅ遺伝子と関連していた（図９ｂを参照；Ｏｎｅ－ｔａｉｌｅｄｔｅｓｔ；Ｐ＝３．１×１０^－７）。危険標的のＯＧＥは安全標的のＯＧＥよりも有意に高く、この差はＣＧＥよりも有意に大きかった（図１０ａ,図１０ｂを参照；Ｍａｎｎ－ＷｈｉｔｎｅｙＵｔｅｓｔ；Ｐ＝２．０×１０^－１２；Ｐ＝１．０×１０^－１）。よって、危険標的は、個体群における摂動効果を通じて特徴付けられることができる。

【0072】

それに対し、安全標的は、細胞群とヒトの全てに対して耐性摂動効果を示すＮ２Ｎ遺伝子と関連しており（図９ｂを参照；Ｐ＝３．０×１０^－１０）。細胞群に対する不耐性摂動効果を示すＥ２Ｅ及びＥ２Ｎ遺伝子は、何れの標的とも関連していなかった（図９ｂを参照）。これは、細胞生存性に深刻な影響を及ぼす薬物標的が非臨床段階で除外されたことを示唆する。

【0073】

ＣＧＥとＯＧＥの様々な指標を分析することによって、危険標的はＮ２Ｅ遺伝子と関連しているのに対し、安全標的はＮ２Ｎ遺伝子と関連しているという結論をより確固に証明した。ＥｘＡＣデータベースのｐＬＩ（ｐｒｏｂａｂｉｌｉｔｙｏｆｂｅｉｎｇｌｏｓｓ－ｏｆ－ｆｕｎｃｔｉｏｎｉｎｔｏｌｅｒａｎｔ）によりＯＧＥに対する分析を確張した。ＣＧＥの場合、Ｂｅｈａｎ，Ｆ．Ｍ．ｅｔａｌ．でフィットネス遺伝子（ｆｉｔｎｅｓｓｇｅｎｅ）の種類、ＤｅｐＭａｐで依存性確率、並びにヒト多能性幹細胞（ｈＰＳＣ）のフィットネスコア（ｆｉｔｎｅｓｓｃｏｒｅ）を調査した。他の遺伝子必須データセットと同一の分析を通じて、危険標的及び安全標的がそれぞれＮ２ＥとＮ２Ｎ遺伝子において有意に豊富ということを発見した（図１１ａ乃至図１１ｇを参照）。危険標的又は安全標的の数を増やすために薬物承認偏向の統計的有意性の閾値を緩和しても、有意な結果が一貫して観察された（図１２ａ乃至図１２ｄを参照）。上記のように、危険標的又は安全標的の数を増やして偏向されていないＣＧＥとＯＧＥを分析に使用しても本願のような結果が導出され、本願発明の効果を強調したことを示唆する。よって、臨床試験における薬物標的の危険は、本願発明のように、細胞群と個体群の間の遺伝子摂動効果の不一致により評価することができる。

【0074】

（４）Ｎ２Ｅと実際の臨床失敗薬物との比較
Ｎ２Ｅ遺伝子が深刻な副作用を持つ臨床失敗薬物と共に危険な標的である可能性が高いことが確認された。２００個の失敗薬物のうち、Ｎ２Ｅ遺伝子は１３９個の失敗薬物を対象にした（図１３ａを参照；Ｈｙｐｅｒｇｅｏｍｅｔｒｉｃｔｅｓｔ；Ｐ＝４．０×１０^－８）。例えば、つわりの抑制に使用されたサリドマイド（ｔｈａｌｉｄｏｍｉｄｅ）は奇形児の危険により回収されたが、これは、Ｎ２Ｅ遺伝子である転写因子ＳＰ１はサリドマイドによって抑制され、これにより胚芽の血管新生が撹乱されたためである。また他の例において、肥満の治療に使用されたシブトラミンは心臓麻痺と脳卒中により回収されたが、これは、シブトラミンがまた他のＮ２Ｅ遺伝子であるドーパミン輸送体（ＳＬＣ６Ａ３）を抑制し、これにより神経精神疾患と心不全を含む多くの疾病と関連しているためであった。

【0075】

Ｎ２Ｅ遺伝子が中枢神経系（ＣＮＳ）と心血管系と係わる副作用を誘導し、市場から薬物を撤収させる可能性が高いことが確認された。このような副作用は、Ｎ２Ｅ標的のある回収薬物において良く観察された。心血管系（ｃａｒｄｉｏｔｏｘｉｃｉｔｙ、ｖａｓｃｕｌａｒｔｏｘｉｃｉｔｉｙ）、精神的（ｐｓｙｃｈｉａｔｒｉｃ）及び神経毒性（ｎｅｕｒｏｔｏｘｉｃｉｔｙ）により回収された薬物は、相当数のＮ２Ｅ遺伝子を（図１３ｂ；Ｐ＝２．１×１０^－５；Ｐ＝３．２×１０^－５；Ｐ＝２．６×１０^－３；Ｐ＝２．４×１０^－２）を標的にした。それに対し、Ｎ２Ｎ、Ｅ２Ｅ及びＥ２Ｎ遺伝子を標的とする薬物は、このような副作用を持つ回収薬物に当たらなかった。

【0076】

Ｎ２Ｅ遺伝子は相当数の神経系及び循環系経路と関連がある（図１４ａを参照）。例えば、Ｎ２Ｅは、軸索の形成に重要な役割を果たす。軸索の形成に対する摂動効果は、神経障害を誘発する。血管新生もＮ２Ｅ遺伝子と関連している。心毒性は、血管新生に対する摂動効果によって誘導された。

【0077】

一方、ＧＰＣＲシグナル伝達経路及び代謝関連経路は、Ｎ２Ｎ遺伝子と関連がある（図１４ｂを参照）。承認された小分子薬物の７０％は、ＧＰＣＲシグナル伝達経路を標的とする。これは、Ｎ２ＮがＮ２Ｅよりも標的としてより安全であり得ることを示唆する。Ｅ２ＥとＥ２Ｎは、ＲＮＡプロセス、ＤＮＡ複製、転写など細胞生存に必須の細胞過程の経路と関連があった（図１４ｃ乃至図１４ｄを参照）。

【0078】

実施例４．追加的な薬物標的情報及び化学情報を活用した成功率予測実験
本願は、非臨床試験は成功しても臨床試験は失敗する候補新薬の他の失敗原因として、薬物の化学的安全性に注目した。薬物の化学的安全性とは、薬物を構成する化学物質自体の性質に係わることであり、例えば、薬物の化学構造が標的遺伝子に到逹するまで安定的に維持されない点などを含む。本願の発明者らは、上記した標的遺伝子の情報だけでなく化学的情報を共に使用した際に臨床試験の成功率を効果的に予測できることを確認した。特に、追加薬物標的情報及び化学的情報を摂動効果と結合して使用すれば、本願に係る方法の予測性能を向上させることができた（図１５ａを参照）。

【0079】

追加薬物標的情報は、タンパク質相互作用ネットワーク（Ｎｅｔｗｏｒｋ）と組織発現情報（Ｅｘｐｒｅｓｓｉｏｎ）を使用した。研究によると、危険な薬物は、タンパク質相互作用ネットワークにおいて高い程度又は中間程度の重要度（ｃｅｎｔｒａｌｉｔｙ）を有する遺伝子を標的としており、このような遺伝子は、ハウスキーピング遺伝子（ｈｏｕｓｅｋｅｅｐｉｎｇｇｅｎｅｓ）の発現のように組織全般に亘って高い発現水準又は広い発現を示す傾向がある。化学情報（Ｃｈｅｍｉｃａｌ）は、分子量、水素結合供与体又は受容体の数、極性表面積のような類似薬物規則（ｄｒｕｇ－ｌｉｋｅｎｅｓｓｒｕｌｅ）から由来した情報を使用した。本願の出願人は、上記の情報を総合してＯＧＥ、ＣＧＥ、ネットワーク（Ｎｅｔｗｏｒｋ）、発現情報（Ｅｘｐｒｅｓｓｉｏｎ）、化学情報（Ｃｈｅｍｉｃａｌ）を全体又は一部使用するモデルを作り、それぞれ予測性能を比較した。

【0080】

ＯＧＥ、ＣＧＥ、ネットワーク及び発現情報（ＯＧＥ＋ＣＧＥ＋Ｅｘｐｒｅｓｓｉｏｎ＋Ｎｅｔｗｏｒｋ）を使用して薬物承認を予測する統合分類器である臨床試験成功率予測モデルのＡＵＰＲＣは、ＯＧＥ及びＣＧＥを使用する場合（ＯＧＥ＋ＣＧＥ；Ｐ＝３．５×１０^－１４６）や、ネットワーク情報（Ｎｅｔｗｏｒｋ；Ｐ＝９．４×１０^－２６５）又は発現情報（Ｅｘｐｒｅｓｓｉｏｎ；Ｐ＜１．０×１０^－３０７）を使用する場合に比べて予測性能が遥かに向上した（図１５ｂを参照）。

【0081】

また、化学情報をさらに含んで使用する場合（ＯＧＥ＋ＣＧＥ＋Ｅｘｐｒｅｓｓｉｏｎ＋Ｎｅｔｗｏｒｋ＋Ｃｈｅｍｉｃａｌ）のＡＵＰＲＣは、ＯＧＥ、ＣＧＥ、ネットワーク及び発現情報を使用する場合（ＯＧＥ＋ＣＧＥ＋Ｎｅｔｗｏｒｋ＋Ｅｘｐｒｅｓｓｉｏｎ、Ｐ＝２．３×１０^－１０７）のＡＵＰＲＣ又は化学情報のみ（Ｃｈｅｍｉｃａｌ、Ｐ＝２．１×１０^－２３１）を使用する場合のＡＵＰＲＣよりも有意に改善された。

【0082】

薬物標的と化学情報の間の直交性により、追加情報による薬物承認予測の改善がなされると判断される。予測において、化学的情報と薬物標的は互いに予測する情報が異なっていた。薬物標的と化学情報の間の直交性は、主成分分析（ＰＣＡ）を使用して分析された。ＰＣＡにおける化学情報のベクターは、ＰＣＡにおける薬物標的情報のベクターとは異なる方向性を有していた（図１６を参照）。また、薬物標的と化学情報を統合して使用した際、薬物の承認可否を正確に予測する場合がより多かった。薬物標的情報（ＯＧＥ＋ＣＧＥ＋Ｎｅｔｗｏｒｋ＋Ｅｘｐｒｅｓｓｉｏｎ）又は化学情報（Ｃｈｅｍｉｃａｌ）のうち何れか１つのみを使用する分類器は、それぞれ８６２個及び８４２個の承認された薬物を正確に予測した。しかし、薬物標的情報と化学的情報を全て使用した際、正確に予測された承認された薬物の総数は１，０９２個に増加した（図１５ｃを参照）。これは、要するに、薬物標的の生物学的情報と薬物の化学的情報を統合することで薬物承認に対する正確な予測が拡大し得ることを示唆する。

【0083】

また、予測性能は、薬物が作用する機関や系（ｓｙｓｔｅｍ）によって変わっても良い。薬物標的情報や化学情報のみを使用して臨床試験の成功率を予測した薬物を解剖学的治療化学コード（ＡＴＣコード）で調査した。２５０個の薬物と係わる心血管系（ＡＴＣコード：Ｃ）及び血液系（ＡＴＣコード：Ｂ）は、ＯＧＥ、ＣＧＥ、ネットワーク情報及び発現情報を通じて予測され、２３０個の薬物と係わる皮膚科（ＡＴＣコード：Ｄ）及び抗寄生虫剤（ＡＴＣコード：Ｐ）は、化学情報を通じて予測された（図１５ｄを参照）。つまり、薬物標的情報と化学情報のＡＴＣコードが互いに異なるので、より広い範囲の情報を予測に反映することができ、臨床試験の成功可否をより正確に予測することができると判断される。

【符号の説明】

【0084】

１７１０：取得部
１７２０：学習部
１７３０：予測部

【図1a】