特開2020-155088(P2020-155088A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ タタ コンサルタンシー サービシズ リミテッドの特許一覧

特開2020-155088化学情報に基づく化合物の生物学的反応の自動予測
<>
  • 特開2020155088-化学情報に基づく化合物の生物学的反応の自動予測 図000029
  • 特開2020155088-化学情報に基づく化合物の生物学的反応の自動予測 図000030
  • 特開2020155088-化学情報に基づく化合物の生物学的反応の自動予測 図000031
  • 特開2020155088-化学情報に基づく化合物の生物学的反応の自動予測 図000032
  • 特開2020155088-化学情報に基づく化合物の生物学的反応の自動予測 図000033
  • 特開2020155088-化学情報に基づく化合物の生物学的反応の自動予測 図000034
  • 特開2020155088-化学情報に基づく化合物の生物学的反応の自動予測 図000035
  • 特開2020155088-化学情報に基づく化合物の生物学的反応の自動予測 図000036
  • 特開2020155088-化学情報に基づく化合物の生物学的反応の自動予測 図000037
  • 特開2020155088-化学情報に基づく化合物の生物学的反応の自動予測 図000038
  • 特開2020155088-化学情報に基づく化合物の生物学的反応の自動予測 図000039
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2020-155088(P2020-155088A)
(43)【公開日】2020年9月24日
(54)【発明の名称】化学情報に基づく化合物の生物学的反応の自動予測
(51)【国際特許分類】
   G16C 20/10 20190101AFI20200828BHJP
【FI】
   G16C20/10
【審査請求】有
【請求項の数】15
【出願形態】OL
【外国語出願】
【全頁数】97
(21)【出願番号】特願2019-176129(P2019-176129)
(22)【出願日】2019年9月26日
(31)【優先権主張番号】201921011056
(32)【優先日】2019年3月22日
(33)【優先権主張国】IN
(71)【出願人】
【識別番号】510337621
【氏名又は名称】タタ コンサルタンシー サービシズ リミテッド
【氏名又は名称原語表記】TATA Consultancy Services Limited
(74)【代理人】
【識別番号】100137095
【弁理士】
【氏名又は名称】江部 武史
(74)【代理人】
【識別番号】100091627
【弁理士】
【氏名又は名称】朝比 一夫
(72)【発明者】
【氏名】ラマムルシ ナラヤン
(72)【発明者】
【氏名】ゲールヴァニ コネティ
(72)【発明者】
【氏名】ディパヤン ゴーシュ
(57)【要約】      (修正有)
【課題】医薬品の発見と開発における医薬品候補の成功に関して安全性と効能を備えた解決方法を提供する。
【解決手段】方法は、関連する記述子、フィンガープリント、フラグメント、最適化された構造画像セット等を含む意味のある化学情報をもたらす効果的な統計手法を使用した化学情報空間の効果的な調査/検索を行う。さらに、生物学的反応についてのロバストな予測モデル、所与の実験データについて自動化された方法で選択された化学情報を使用した腎毒性の例、および、発見および開発中の医薬品候補の失敗に対処するためにうまく採用できるアラート/ルールを提供する。
【選択図】図4
【特許請求の範囲】
【請求項1】
化合物の化学構造に関する生物学的データを受信するステップ(302)と、
関連する分子構造を使用して、前記化合物の複数の化学情報を生成するステップ(304)と、ここで、前記複数の化学情報は、複数の物理化学的および構造的記述子、複数の分子フィンガープリント(MFs)、複数の分子フラグメント、ならびに複数の2Dおよび3D構造画像を含み、
前記複数の化学情報に1つ以上の統計分析手法を適用して、フィルタリングされた化学情報を取得するステップ(306)と、ここで、前記複数の化学情報に前記1つ以上の統計分析手法を適用して、前記フィルタリングされた化学情報を取得する前記ステップは、
前記複数の物理化学的および構造的記述子を使用して、フィルタリングされた記述子セットを取得するステップ(306a)と、
前記複数の分子フィンガープリントに基づいて、複数のフィンガープリントカテゴリを生成するステップ(306b)と、ここで、第1のフィンガープリントカテゴリは、発生基準に基づいて選択される第1のフィンガープリントセットを含み、第2のフィンガープリントカテゴリは、前記複数の分子フィンガープリントにカイ2乗検定およびフィッシャーの正確検定の少なくとも1つを適用することにより選択される第2のフィンガープリントセットを含み、第3のフィンガープリントカテゴリは、前記複数の分子フィンガープリントに情報利得統計的検定を適用することにより選択される第3のフィンガープリントセットを含み、
前記複数の分子フィンガープリントおよび前記複数の分子フラグメントの組合せと前記発生基準とに基づいて選択される第4のフィンガープリントセットを含む第4のフィンガープリントカテゴリを生成するステップ(306c)と、
前記複数の2Dおよび3D構造画像に1つ以上の変形手法を実行して、最適化された構造画像セットを取得するステップ(306d)と、を含み、
前記フィルタリングされた記述子セット、前記第1のフィンガープリントセット、前記第2のフィンガープリントセット、前記第3のフィンガープリントセット、前記第4のフィンガープリントセットおよび前記最適化された構造画像セットにそれぞれ基づいて、複数のモデルを自動的に生成するステップ(308)と、
前記生物学的データおよび前記複数の化学情報に基づいて、前記複数のモデルから、最良モデルを自動的に選択および推奨するステップ(310)と、
前記複数のモデルのうちの1つ以上のユーザー選択モデルと、前記最良モデルの少なくとも1つに基づいて、前記化合物の生物学的反応を自動的に予測するステップ(312)と、を含むことを特徴とするプロセッサ実施方法。
【請求項2】
前記第1のフィンガープリントセット、前記第2のフィンガープリントセット、前記第3のフィンガープリントセット、および前記第4のフィンガープリントセットは、1つ以上のCDKフィンガープリント、1つ以上のCDK拡張フィンガープリント、1つ以上のエステートフィンガープリント、1つ以上のCDKグラフオンリーフィンガープリント、1つ以上のMACCSフィンガープリント、1つ以上のPubchemフィンガープリント、1つ以上のサブ構造フィンガープリント、1つ以上のKlekota−Rothフィンガープリント、2D−Atom−Pairフィンガープリント、1つ以上の分子フラグメント、またはこれらの組合せを含む請求項1に記載のプロセッサ実施方法。
【請求項3】
前記第1および第4のフィンガープリントセットは、タイプIフィンガープリント、タイプIIフィンガープリント、タイプIIIフィンガープリント、およびタイプIVフィンガープリントのうちの少なくとも1つを含む請求項1に記載のプロセッサ実施方法。
【請求項4】
前記第2のフィンガープリントセットは、タイプAフィンガープリントおよびタイプBフィンガープリントを含み、前記第3のフィンガープリントセットは、タイプCフィンガープリントを含む請求項1に記載のプロセッサ実施方法。
【請求項5】
前記複数の物理化学的および構造的記述子に1つ以上の統計分析手法を適用する前記ステップにより、前記複数の物理化学的および構造的記述子に固有のデータから統計的に有意なフィルタリングされた記述子セットを取得する請求項1に記載のプロセッサ実施方法。
【請求項6】
前記第1のフィンガープリントセットおよび前記第4のフィンガープリントセットの少なくとも1つにおけるタイプIフィンガープリントの存在は、前記化合物の生物学的反応、有害事象または活性の1つに対する前記タイプIフィンガープリントの寄与を示し、前記第1のフィンガープリントセットおよび前記第4のフィンガープリントセットの少なくとも1つにおけるタイプIIフィンガープリントの非存在は、前記化合物の生物学的反応、有害事象または活性の1つに対する前記タイプIIフィンガープリントの寄与を示す請求項1に記載のプロセッサ実施方法。
【請求項7】
前記第1のフィンガープリントセットおよび前記第4のフィンガープリントセットの少なくとも1つにおけるタイプIIIフィンガープリントの存在は、前記化合物の非活性、非有害事象、または非有毒性のいずれか1つにおける前記タイプIIIフィンガープリントの寄与を示し、前記第1のフィンガープリントセットおよび前記第4のフィンガープリントセットの少なくとも1つにおけるタイプIVフィンガープリントの非存在は、前記化合物の非活性、非有害事象、または非有毒性のいずれか1つにおける前記タイプIVフィンガープリントの寄与を示す請求項1に記載のプロセッサ実施方法。
【請求項8】
前記複数のモデル間で生成される第2のモデルおよび第4のモデルは、前記第1および第4のフィンガープリントセットのそれぞれと、化合物中の前記第1および第4のフィンガープリントセットの各タイプの発生とに基づいており、前記複数のモデル間の第3のモデルは、前記第2のフィンガープリントセットおよび前記第3のフィンガープリントセットにおける活性レベル、生物学的反応レベルまたは有害事象レベルの少なくとも1つの確率に基づいて生成される請求項1に記載のプロセッサ実施方法。
【請求項9】
命令を保存するメモリ(102)と、
1つ以上の通信インターフェース(106)と、
前記1つ以上の通信インターフェース(106)を介して前記メモリ(102)に接続された1つ以上のハードウェアプロセッサ(104)と、を含み、ここで、前記1つ以上のハードウェアプロセッサ(104)は、前記命令によって、
化合物の化学構造に関する生物学的データを受信し、
関連する分子構造を使用して、前記化合物の複数の化学情報を生成し、ここで、前記複数の化学情報は、複数の物理化学的および構造的記述子、複数の分子フィンガープリント、複数の分子フラグメント、および複数の2Dおよび3D構造画像を含み、
前記複数の化学情報に1つ以上の統計分析手法を適用して、フィルタリングされた化学情報を取得し、ここで、前記複数の化学情報に1つ以上の前記統計分析手法を適用して、前記フィルタリングされた化学情報を取得するステップは、
前記複数の物理化学的および構造的記述子を使用して、フィルタリングされた記述子セットを取得するステップと、
前記複数の分子フィンガープリントに基づいて、複数のフィンガープリントカテゴリを生成するステップと、ここで、第1のフィンガープリントカテゴリは、発生基準に基づいて選択される第1のフィンガープリントセットを含み、第2のフィンガープリントカテゴリは、前記複数の分子フィンガープリントにカイ2乗検定およびフィッシャーの正確検定の少なくとも1つを適用することにより選択される第2のフィンガープリントセットを含み、第3のフィンガープリントカテゴリは、前記複数の分子フィンガープリントに情報利得統計的検定を適用することにより選択される第3のフィンガープリントセットを含み、
前記複数の分子フィンガープリントおよび前記複数の分子フラグメントの組合せと前記発生基準とに基づいて選択される第4のフィンガープリントセットを含む第4のフィンガープリントカテゴリを生成するステップと、
前記複数の2Dおよび3D構造画像に対して1つ以上の変形手法を実行して、最適化された構造画像セットを取得するステップと、を含み、
前記フィルタリングされた記述子セット、前記第1のフィンガープリントセット、前記第2のフィンガープリントセット、前記第3のフィンガープリントセット、前記第4のフィンガープリントセットおよび前記最適化された構造画像セットにそれぞれ基づいて、複数のモデルを自動的に生成し、
前記生物学的データおよび前記複数の化学情報に基づいて、前記複数のモデルから、最良モデルを自動的に選択および推奨し、
前記複数のモデルのうちの1つ以上のユーザー選択モデルと、前記最良モデルの少なくとも1つに基づいて、前記化合物の生物学的反応を自動的に予測するよう、構成されていることを特徴とするシステム(100)。
【請求項10】
前記第1のフィンガープリントセット、前記第2のフィンガープリントセット、前記第3のフィンガープリントセット、および前記第4のフィンガープリントセットは、1つ以上のCDKフィンガープリント、1つ以上のCDK拡張フィンガープリント、1つ以上のエステートフィンガープリント、1つ以上のCDKグラフオンリーフィンガープリント、1つ以上のMACCSフィンガープリント、1つ以上のPubchemフィンガープリント、1つ以上のサブ構造フィンガープリント、1つ以上のKlekota−Rothフィンガープリント、2D−Atom−Pairフィンガープリント、1つ以上の分子フラグメント、またはこれらの組合せを含む請求項9に記載のシステム。
【請求項11】
前記第1および第4のフィンガープリントセットは、タイプIフィンガープリント、タイプIIフィンガープリント、タイプIIIフィンガープリント、およびタイプIVフィンガープリントのうちの少なくとも1つを含み、前記第2のフィンガープリントセットは、タイプAフィンガープリントとタイプBフィンガープリントを含み、前記第3のフィンガープリントセットは、タイプCフィンガープリントを含む請求項9に記載のシステム。
【請求項12】
前記複数の物理化学的および構造的記述子に1つ以上の統計分析手法を適用する前記ステップにより、前記複数の物理化学的および構造的記述子に固有のデータから統計的に有意なフィルタリングされた記述子セットを取得する請求項9に記載のシステム。
【請求項13】
前記第1のフィンガープリントセットおよび前記第4のフィンガープリントセットの少なくとも1つにおけるタイプIフィンガープリントの存在は、前記化合物の生物学的反応、有害事象または活性の1つに対する前記タイプIフィンガープリントの寄与を示し、前記第1のフィンガープリントセットおよび前記第4のフィンガープリントセットの少なくとも1つにおけるタイプIIフィンガープリントの非存在は、前記化合物の生物学的反応、有害事象または活性の1つに対する前記タイプIIフィンガープリントの寄与を示す請求項9に記載のシステム。
【請求項14】
前記第1のフィンガープリントセットおよび前記第4のフィンガープリントセットの少なくとも1つにおけるタイプIIIフィンガープリントの存在は、前記化合物の非活性、非有害事象、または非有毒性のいずれか1つにおける前記タイプIIIフィンガープリントの寄与を示し、前記第1のフィンガープリントセットおよび前記第4のフィンガープリントセットの少なくとも1つにおけるタイプIVフィンガープリントの非存在は、前記化合物の非活性、非有害事象、または非有毒性における前記タイプIVフィンガープリントの寄与を示す請求項12に記載のシステム。
【請求項15】
前記複数のモデル間で生成される第2のモデルおよび第4のモデルは、前記第1および第4のフィンガープリントセットのそれぞれと、化合物中の前記第1および第4のフィンガープリントセットの各タイプの発生とに基づいており、前記複数のモデル間の第3のモデルは、前記第2のフィンガープリントセットおよび前記第3のフィンガープリントセットにおける活性レベル、生物学的反応レベルまたは有害事象レベルの少なくとも1つの確率に基づいて生成される請求項12に記載のシステム。
【発明の詳細な説明】
【背景技術】
【0001】
(関連出願の相互参照と優先権)
この特許出願は、2019年3月22日に提出されたインド特許出願201921011056の優先権を主張する。
【0002】
(技術分野)
本明細書の開示は、概して、生物学的反応の予測に関する。より具体的には、本開示は、化学情報およびこれに関連するデータ分析ワークフローを使用した化合物の生物学的反応の自動予測に関する。
【0003】
(背景技術)
安全性および効能の欠如は、医薬品の発見および開発における医薬品候補の失敗に関する2つの主要な理由である。これらの失敗は、実験的観測を合理化するように、早期発見段階で、信頼性が高く容易に適用可能な予測ADMET(生物学的反応)モデル[吸収、分布、代謝、排出および有毒性]を使用して対処することができる。構造活性相関モデル(Structure-activity relationships models)は、a)インビトロまたはインビボ実験データ、b)医薬品候補の化学構造に由来する多数の構造的特徴、およびc)i)トレーニングおよび検定セットデータの選択、およびii)回帰および分類手法を実行するために採用される統計手法から典型的に生成される予測モデルのクラスの1つである。したがって、様々な実験から得られる生物学的データのモデリング、それに続く新しい化合物の反応の予測は、重要な問題である。この問題に対する信頼できる解決策は、化合物の生物学的反応、例えば、有毒性、抑制濃度(有効性)等を決定する根本的な生物学的プロセスのより良い理解を可能にし、また、医薬品の発見および開発のコストを低減する可能性を提供する。
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の生化学実験に加えて、最近、化合物の生物学的機能/反応を理解するために、また、実験データの機械学習手法の使用による洞察/学習に基づいた新しい化学物質の生物学的反応の予測のために有望なアプローチとして、計算方法(computational methods)が選択されている。「生物学的反応」という用語は、インビトロアッセイまたは細胞ベースアッセイ等における生物学的ターゲットに対する医薬品候補の有効性、化学物質の有毒性といえる。それは、化学物質、医薬品候補等へさらされたインビトロ(in vitro)、エクスビボ(ex-vivo)、インビボ(in vivo)の状態における生物学的システムによって示される反応として定義できる。化学構造に基づいて化合物の生物学的反応を予測するために様々な機械学習手法が使用されているが、新しい化合物の反応予測のためのこれらの手法の多くの適用は満足できるものではない。満足できるものではない適用性は、1)生物学的データの効果的ではない前処理、2)生物学的反応に寄与する化学情報/機能の限定的利用、3)アプローチ(アプローチは、効果的なシーケンスでの1つ以上の数学的方法の使用を含む)または研究等をモデリングするための数学的方法/アルゴリズムの不適切/非効果的な使用に起因すると考えられる。したがって、1)データセットの不均衡な性質、2)データ前処理、3)適切なアルゴリズム、ルール等を用いた化学情報の効果的な調査(exploration)について、より適切に対処する解決策を用いて、これらの制限に対処する多くの機会がある。上記の課題に対する信頼できる解決策は、a)動物および人間における化合物への生物学的反応のより良い理解、b)効果的な新しい治療法の発見、c)医薬品および化学物質に関連する有毒性のために、人類が直面する問題を最小限に抑える可能性の提供をもたらす。
【発明を解決するための手段】
【0005】
(発明の概要)
本開示の実施形態は、従来のシステム(既存の)計算アプローチにおいて本発明者らによって認識された上述の技術的問題の1つ以上に対する解決策として技術的改善を提示する。例えば、一態様では、関連する化学情報を使用した化合物の生物学的反応の自動予測のためのプロセッサ実施方法がある。
当該方法は、化合物の化学構造に関する生物学的データを受信するステップと、
関連する分子構造から、化合物の複数の化学情報を生成するステップと、ここで、複数の化学情報は、複数の物理化学的および構造的記述子、複数の分子フィンガープリント(MFs)、複数の分子フラグメント、および複数の2次元(2D)および3次元(3D)構造画像を含み、
複数の化学情報に1つ以上の統計分析手法を適用して、フィルタリングされた化学情報を取得するステップと、を含む。
複数の化学情報に1つ以上の統計分析手法を適用して、フィルタリングされた化学情報を取得するステップは、複数の物理化学的および構造的記述子を使用して、フィルタリングされた記述子セットを取得するステップと、
複数の分子フィンガープリントに基づいて、複数のフィンガープリントカテゴリを生成するステップと、ここで、第1のフィンガープリントカテゴリは、発生基準(occurrence threshold)に基づいて選択される第1のフィンガープリントセットを含み、第2のフィンガープリントカテゴリは、複数の分子フィンガープリントに、カイ2乗検定(Chi-squared test)およびフィッシャーの正確検定(Fisher’s exact test)の少なくとも1つを適用することにより選択される第2のフィンガープリントセットを含み、第3のフィンガープリントカテゴリは、複数の分子フィンガープリントに情報利得統計的検定(information gain statistical test)を適用することにより選択される第3のフィンガープリントセットを含み、
複数の分子フィンガープリントおよび複数の分子フラグメントの組合せと発生基準とに基づいて選択される第4のフィンガープリントセットを含む第4のフィンガープリントカテゴリを生成するステップと、
複数の2次元(2D)および3次元(3D)構造画像に対して1つ以上の変形手法(transformation techniques)を実行して、最適化された構造画像セットを取得するステップと、を含む。
【0006】
当該方法は、フィルタリングされた記述子セット、第1のフィンガープリントセット、第2のフィンガープリントセット、第3のフィンガープリントセット、第4のフィンガープリントセットおよび最適化された構造画像セットにそれぞれ基づいて、複数のモデルを自動的に生成するステップと、
生物学的データおよび複数の化学情報に基づいて、複数のモデルから、最良モデルを自動的に選択および推奨するステップと、
複数のモデルのうちの1つ以上のユーザー選択モデルと、最良モデルの少なくとも1つに基づいて、化合物の生物学的反応を自動的に予測するステップと、をさらに含む。
【0007】
一実施形態では、第1のフィンガープリントセット、第2のフィンガープリントセット、第3のフィンガープリントセット、および第4のフィンガープリントセットは、1つ以上のCDKフィンガープリント、1つ以上のCDK拡張フィンガープリント、1つ以上のエステートフィンガープリント、1つ以上のCDKグラフオンリーフィンガープリント、1つ以上のMACCSフィンガープリント、1つ以上のPubchemフィンガープリント、1つ以上のサブ構造フィンガープリント、1つ以上のKlekota−Rothフィンガープリント、2D−Atom−Pairフィンガープリント、1つ以上の分子フラグメント、またはこれらの組合せを含む。
【0008】
一実施形態では、第1のフィンガープリントセットは、タイプIフィンガープリント、タイプIIフィンガープリント、タイプIIIフィンガープリント、およびタイプIVフィンガープリントのうちの少なくとも1つを含む。
【0009】
一実施形態では、第2のフィンガープリントセットは、タイプAフィンガープリントおよびタイプBフィンガープリントを含む。
【0010】
一実施形態では、第3のフィンガープリントセットは、タイプCフィンガープリントを含む。
【0011】
一実施形態では、第4のフィンガープリントセットは、タイプIフィンガープリント、タイプIIフィンガープリント、タイプIIIフィンガープリント、およびタイプIVフィンガープリントのうちの少なくとも1つを含む。
【0012】
一実施形態では、複数の物理化学的および構造的記述子に1つ以上の統計分析手法を適用して、統計的に有意なフィルタリングされた記述子セットを取得するステップは、複数の物理化学的および構造的記述子に固有のデータから、ゼロまたは低分散(low variance)等を有する情報を削除するステップを含む。
【0013】
一実施形態では、第1のフィンガープリントセットおよび第4のフィンガープリントセットの少なくとも1つにおけるタイプIフィンガープリントの存在は、化合物の生物学的反応、有害事象または活性の1つ(例えば、医薬品または化学物質の有効性、有毒性等)に対するタイプIフィンガープリントの寄与を示す。
【0014】
一実施形態では、第1のフィンガープリントセットおよび第4のフィンガープリントセットの少なくとも1つにおけるタイプIIフィンガープリントの非存在は、化合物の生物学的反応、有害事象または活性の1つ(例えば、医薬品または化学物質の有効性、有毒性等)に対するタイプIIフィンガープリントの寄与を示す。
【0015】
一実施形態では、第1のフィンガープリントセットおよび第4のフィンガープリントセットの少なくとも1つにおけるタイプIIIフィンガープリントの存在は、化合物の非活性、非有害事象、または非有毒性におけるタイプIIIフィンガープリントの寄与を示す。
【0016】
一実施形態では、第1のフィンガープリントセットおよび第4のフィンガープリントセットの少なくとも1つにおけるタイプIVフィンガープリントの非存在は、化合物の非活性、非有害事象、または非有毒性におけるタイプIVフィンガープリントの寄与を示す。
【0017】
一実施形態では、複数のモデルのうちの第1のモデル(またはモデルI)は、フィルタリングされた記述子セット、第1のフィンガープリントセット、サポートベクターマシンおよびランダムフォレスト等の分類モデル、またはそれらの組合せに基づいて生成される。
【0018】
別の実施形態では、複数のモデルのうちの第2のモデル(モデルII)は、第1のフィンガープリントセットと、化合物における第1のフィンガープリントセットの各タイプの発生とに基づいて生成される。
【0019】
一実施形態では、第3のモデル(モデルIII)は、第2のフィンガープリントセットおよび第3のフィンガープリントセットにおける活性レベル、生物学的反応レベルまたは有害事象レベル(例えば、有毒および非有毒)の少なくとも1つの確率(probability)に基づいて生成される。
【0020】
一実施形態では、第4のモデル(モデルIV)は、第4のフィンガープリントセットと、化合物における第4のフィンガープリントセットの各タイプの発生とに基づいて生成される。
【0021】
一実施形態では、第5のモデル(モデルV)は、化合物の生成された2次元(2D)および3次元(3D)構造画像と、ディープニューラルネットワーク等の分類手法とに基づいて生成される。
【0022】
別の態様では、関連する化学情報を使用した化合物の生物学的反応の自動予測のためのプロセッサ実装システムがある。
当該システムは、命令を保存するメモリと、
1つ以上の通信インターフェースと、
1つ以上の通信インターフェースを介してメモリに接続された1つ以上のハードウェアプロセッサと、を含む。ここで、1つ以上のハードウェアプロセッサは、命令によって、
化合物の化学構造に関する生物学的データを受信し、
関連する分子構造を使用して、化合物の複数の化学情報を生成し、ここで、複数の化学情報は、複数の物理化学的および構造的記述子、複数の分子フィンガープリント(MF)、複数の分子フラグメント、および複数の2次元(2D)および3次元(3D)構造画像を含み、
複数の化学情報に1つ以上の統計分析手法を適用して、フィルタリングされた化学情報を取得するように、構成されている。ここで、複数の化学情報に1つ以上の統計分析手法を適用して、フィルタリングされた化学情報を取得するステップは、
複数の物理化学的および構造的記述子を使用して、フィルタリングされた記述子セットを取得するステップと、
複数の分子フィンガープリント(MF)に基づいて、複数のフィンガープリントカテゴリを生成するステップと、ここで、第1のフィンガープリントカテゴリは、発生基準に基づいて選択される第1のフィンガープリントセットを含み、第2のフィンガープリントカテゴリは、複数の分子フィンガープリント(MF)にカイ2乗検定およびフィッシャーの正確検定の少なくとも1つを適用することにより選択される第2のフィンガープリントセットを含み、第3のフィンガープリントカテゴリは、複数の分子フィンガープリント(MF)に情報利得統計的検定を適用することにより選択される第3のフィンガープリントセットを含み、
複数の分子フィンガープリント(MF)および複数の分子フラグメントの組合せと発生基準とに基づいて選択される第4のフィンガープリントセットを含む第4のフィンガープリントカテゴリを生成するステップと、
複数の2Dおよび3D構造画像に対して1つ以上の変形手法を実行して、最適化された構造画像セットを取得するステップと、を含む。
さらに、1つ以上のハードウェアプロセッサは、命令によって、フィルタリングされた記述子セット、第1のフィンガープリントセット、第2のフィンガープリントセット、第3のフィンガープリントセット、第4のフィンガープリントセットおよび最適化された構造画像セットにそれぞれ基づいて、複数のモデルを自動的に生成し、
生物学的データおよび複数の化学情報に基づいて、複数のモデルから、最良モデルを自動的に選択および推奨し、
複数のモデルのうちの1つ以上のユーザー選択モデルおよび最良モデルの少なくとも1つに基づいて、化合物の生物学的反応を自動的に予測するよう、構成されている。
【0023】
一実施形態では、第1のフィンガープリントセット、第2のフィンガープリントセット、第3のフィンガープリントセット、および第4のフィンガープリントセットは、1つ以上のCDKフィンガープリント、1つ以上のCDK拡張フィンガープリント、1つ以上のエステートフィンガープリント、1つ以上のCDKグラフオンリーフィンガープリント、1つ以上のMACCSフィンガープリント、1つ以上のPubchemフィンガープリント、1つ以上のサブ構造フィンガープリント、1つ以上のKlekota−Rothフィンガープリント、2D−Atom−Pairフィンガープリント、1つ以上の分子フラグメント、またはこれらの組合せを含む。
【0024】
一実施形態では、第1のフィンガープリントセットは、タイプIフィンガープリント、タイプIIフィンガープリント、タイプIIIフィンガープリント、およびタイプIVフィンガープリントのうちの少なくとも1つを含む。
【0025】
一実施形態では、第2のフィンガープリントセットは、タイプAフィンガープリントおよびタイプBフィンガープリントを含む。
【0026】
一実施形態では、第3のフィンガープリントセットは、タイプCフィンガープリントを含む。
【0027】
一実施形態では、第4のフィンガープリントセットは、タイプIフィンガープリント、タイプIIフィンガープリント、タイプIIIフィンガープリント、およびタイプIVフィンガープリントのうちの少なくとも1つを含む。
【0028】
一実施形態では、複数の物理化学的および構造的記述子に1つ以上の統計分析手法を適用して、統計的に有意なフィルタリングされた記述子セットを取得するステップは、1つ以上の物理化学的および構造的記述子に固有のデータから、ゼロまたは低分散等を有する情報または記述子を削除するステップを含む。
【0029】
一実施形態では、第1のフィンガープリントセットおよび第4のフィンガープリントセットの少なくとも1つにおけるタイプIフィンガープリントの存在は、化合物の生物学的反応、有害事象または活性の1つ(例えば有毒性)に対するタイプIフィンガープリントの寄与を示す。
【0030】
一実施形態では、第1のフィンガープリントセットおよび第4のフィンガープリントセットの少なくとも1つにおけるタイプIIフィンガープリントの非存在は、化合物の生物学的反応、有害事象または活性(例えば有毒性)に対するタイプIIフィンガープリントの寄与を示す。
【0031】
一実施形態では、第1のフィンガープリントセットおよび第4のフィンガープリントセットの少なくとも1つにおけるタイプIIIフィンガープリントの存在は、化合物の非活性、非有害事象、または非有毒性におけるタイプIIIフィンガープリントの寄与を示す。
【0032】
一実施形態では、第1のフィンガープリントセットおよび第4のフィンガープリントセットの少なくとも1つにおけるタイプIVフィンガープリントの非存在は、化合物の非活性、非有害事象、または非有毒性におけるタイプIVフィンガープリントの寄与を示す。
【0033】
一実施形態では、複数のモデルのうちの第1のモデル(またはモデルI)は、フィルタリングされた記述子セット、第1のフィンガープリントセット、サポートベクターマシンおよびランダムフォレスト等の分類モデル、またはそれらの組合せに基づいて生成される。
【0034】
別の実施形態では、複数のモデルのうちの第2のモデル(モデルII)は、第1のフィンガープリントセットと、化合物における第1のフィンガープリントセットの各タイプの発生とに基づいて生成される。
【0035】
一実施形態では、第3のモデル(モデルIII)は、第2のフィンガープリントセットおよび第3のフィンガープリントセットにおける活性レベル、生物学的反応レベルまたは有害事象レベル(例えば、有毒および非有毒)の1つの確率に基づいて生成される。
【0036】
一実施形態では、第4のモデル(モデルIV)は、第4のフィンガープリントセットと、化合物における第4のフィンガープリントセットの各タイプの発生とに基づいて生成される。
【0037】
一実施形態では、第5のモデル(モデルV)は、化合物の生成された2Dおよび3D構造画像と、ディープニューラルネットワーク等の分類手法とに基づいて生成される。
【0038】
さらに別の態様では、1つ以上の命令を含む1つ以上の非一時的機械可読情報記憶媒体(non-transitory machine readable information storage mediums)が提供される。
当該1つ以上の命令は、1つ以上のハードウェアプロセッサによって実行される際、
化合物の化学構造に関する生物学的データを受信するステップと、
関連する分子構造を使用して、化合物の複数の化学情報を生成するステップと、ここで、複数の化学情報は、複数の物理化学的および構造的記述子、複数の分子フィンガープリント(MF)、複数の分子フラグメント、および複数の2次元(2D)および3次元(3D)構造画像を含み、
複数の化学情報に1つ以上の統計分析手法を適用して、フィルタリングされた化学情報を取得するステップと、により、関連する化学情報を使用した化合物の生物学的反応の自動予測を可能とする。
ここで、複数の化学情報に1つ以上の統計分析手法を適用して、フィルタリングされた化学情報を取得するステップは、
複数の物理化学的および構造的記述子を使用して、フィルタリングされた記述子セットを取得するステップと、
複数の分子フィンガープリントに基づいて、複数のフィンガープリントカテゴリを生成するステップと、ここで、第1のフィンガープリントカテゴリは、発生基準に基づいて選択される第1のフィンガープリントセットを含み、第2のフィンガープリントカテゴリは、複数の分子フィンガープリントにカイ2乗検定およびフィッシャーの正確検定の少なくとも1つを適用することにより選択される第2のフィンガープリントセットを含み、第3のフィンガープリントカテゴリは、複数の分子フィンガープリントに情報利得統計的検定を適用することにより選択される第3のフィンガープリントセットを含み、
複数の分子フィンガープリントおよび複数の分子フラグメントの組合せと発生基準とに基づいて選択される第4のフィンガープリントセットを含む第4のフィンガープリントカテゴリを生成するステップと、
複数の2Dおよび3D構造画像に対して1つ以上の変形手法を実行して、最適化された構造画像セットを取得するステップと、を含む。
【0039】
当該命令は、フィルタリングされた記述子セット、第1のフィンガープリントセット、第2のフィンガープリントセット、第3のフィンガープリントセット、第4のフィンガープリントセットおよび最適化された構造画像セットにそれぞれ基づいて、複数のモデルを自動的に生成するステップと、
生物学的データおよび複数の化学情報に基づいて、複数のモデルから、最良モデルを自動的に選択および推奨するステップと、
複数のモデルのうちの1つ以上のユーザー選択モデルと、最良モデルの少なくとも1つに基づいて、化合物の生物学的反応を自動的に予測するステップと、をさらに引き起こしてもよい。
【0040】
一実施形態では、第1のフィンガープリントセット、第2のフィンガープリントセット、第3のフィンガープリントセット、および第4のフィンガープリントセットは、1つ以上のCDKフィンガープリント、1つ以上のCDK拡張フィンガープリント、1つ以上のエステートフィンガープリント、1つ以上のCDKグラフオンリーフィンガープリント、1つ以上のMACCSフィンガープリント、1つ以上のPubchemフィンガープリント、1つ以上のサブ構造フィンガープリント、1つ以上のKlekota−Rothフィンガープリント、2D−Atom−Pairフィンガープリント、1つ以上の分子フラグメント、またはこれらの組合せを含む。
【0041】
一実施形態では、第1のフィンガープリントセットは、タイプIフィンガープリント、タイプIIフィンガープリント、タイプIIIフィンガープリント、およびタイプIVフィンガープリントのうちの少なくとも1つを含む。
【0042】
一実施形態では、第2のフィンガープリントセットは、タイプAフィンガープリントおよびタイプBフィンガープリントを含む。
【0043】
一実施形態では、第3のフィンガープリントセットは、タイプCフィンガープリントを含む。
【0044】
一実施形態では、第4のフィンガープリントセットは、タイプIフィンガープリント、タイプIIフィンガープリント、タイプIIIフィンガープリント、およびタイプIVフィンガープリントのうちの少なくとも1つを含む。
【0045】
一実施形態では、複数の物理化学的および構造的記述子に1つ以上の統計分析手法を適用して、統計的に有意なフィルタリングされた記述子セットを取得するステップは、複数の物理化学的および構造的記述子に固有のデータから、ゼロまたは低分散等を有する物理化学的および構造的記述子または情報を削除するステップを含む。
【0046】
一実施形態では、第1のフィンガープリントセットおよび第4のフィンガープリントセットの少なくとも1つにおけるタイプIフィンガープリントの存在は、化合物の生物学的反応、有害事象または活性の1つ(例えば有毒性)に対するタイプIフィンガープリントの寄与を示す。
【0047】
一実施形態では、第1のフィンガープリントセットおよび第4のフィンガープリントセットの少なくとも1つにおけるタイプIIフィンガープリントの非存在は、化合物の生物学的反応、有害事象または活性の1つ(例えば有毒性)に対するタイプIIフィンガープリントの寄与を示す。
【0048】
一実施形態では、第1のフィンガープリントセットおよび第4のフィンガープリントセットの少なくとも1つにおけるタイプIIIフィンガープリントの存在は、化合物の非活性、非有害事象、または非有毒性におけるタイプIIIフィンガープリントの寄与を示す。
【0049】
一実施形態では、第1のフィンガープリントセットおよび第4のフィンガープリントセットの少なくとも1つにおけるタイプIVフィンガープリントの非存在は、化合物の非活性、非有害事象、または非有毒性におけるタイプIVフィンガープリントの寄与を示す。
【0050】
一実施形態では、複数のモデルのうちの第1のモデル(またはモデルI)は、フィルタリングされた記述子セット、第1のフィンガープリントセット、サポートベクターマシンおよびランダムフォレスト等の分類モデル、またはそれらの組合せに基づいて生成される。
【0051】
別の実施形態では、複数のモデルのうちの第2のモデル(モデルII)は、第1のフィンガープリントセットと、化合物における第1のフィンガープリントセットの各タイプの発生とに基づいて生成される。
【0052】
一実施形態では、第3のモデル(モデルIII)は、第2のフィンガープリントセットおよび第3のフィンガープリントセットにおける活性レベル、生物学的反応レベルまたは有害事象レベル(例えば、有毒および非有毒)の少なくとも1つの確率に基づいて生成される。
【0053】
一実施形態では、第4のモデル(モデルIV)は、第4のフィンガープリントセットと、化合物における第4のフィンガープリントセットの各タイプの発生とに基づいて生成される。
【0054】
一実施形態では、第5のモデル(モデルV)は、化合物の生成された2Dおよび3D構造画像と、ディープニューラルネットワーク等の分類手法とに基づいて生成される。
【0055】
前述の概要および以下の詳細な説明の両方は、例示および説明のみであり、特許請求の範囲の本発明を限定するものではないことを理解されたい。
【図面の簡単な説明】
【0056】
本開示に組み込まれ、本開示の一部を構成する添付図面は、例示的実施形態を示し、明細書とともに、開示された原理を説明する役割を果たす。
【0057】
図1図1は、本開示の一実施形態に係る、関連する化学情報を使用して化合物の生物学的反応を自動的に予測するためのシステム100の例示的なブロック図である。
【0058】
図2図2は、本開示の一実施形態に係る、化合物の生物学的反応を予測するための生物学的データを抽出するために生データを処理するフローを示す例示的なブロック図である。
【0059】
図3A図3Aは、本開示の一実施形態に係る、図1のシステムを使用して、関連する化学情報に基づいて化合物の生物学的反応を自動的に予測する方法の例示的なフロー図である。
図3B図3Bは、本開示の一実施形態に係る、図1のシステムを使用して、関連する化学情報に基づいて化合物の生物学的反応を自動的に予測する方法の例示的なフロー図である。
【0060】
図4図4は、本開示の一実施形態に係る、生物学的反応を予測するためのシステム100の例示的なシナリオを示す図である。
【0061】
図5図5は、本開示のいくつかの実施形態に係る、化合物の生物学的反応の自動予測のための高レベルのブロック図である。
【0062】
図6A図6Aは、本開示のいくつかの実施形態に係る、関連する化学情報を使用して化合物の生物学的反応を自動的に予測する方法を示すブロック図である。
図6B図6Bは、本開示のいくつかの実施形態に係る、関連する化学情報を使用して化合物の生物学的反応を自動的に予測する方法を示すブロック図である。
図6C図6Cは、本開示のいくつかの実施形態に係る、関連する化学情報を使用して化合物の生物学的反応を自動的に予測する方法を示すブロック図である。
図6D図6Dは、本開示のいくつかの実施形態に係る、関連する化学情報を使用して化合物の生物学的反応を自動的に予測する方法を示すブロック図である。
図6E図6Eは、本開示のいくつかの実施形態に係る、関連する化学情報を使用して化合物の生物学的反応を自動的に予測する方法を示すブロック図である。
【発明を実施するための形態】
【0063】
例示的実施形態は、添付図面を参照して説明される。図中、参照番号の左端の数字は、参照番号が最初に登場する図を特定する。便宜上、図面全体を通して同一の参照番号を使用して、同一または同様の部分を示す。開示された原理の実施例および特徴が本明細書で説明されているが、開示された実施形態の精神および範囲から逸脱することなく、変形、変更、および他の実施が可能である。以下の詳細な説明は例示としてのみ考慮されることを意図しており、真の範囲および精神は特許請求の範囲によって示される。
【0064】
図面、より具体的には図1図6Eを参照し、ここで、同様の参照文字は、図面全体を通して一貫して、対応する特徴を示し、また、好ましい実施形態が示され、これらの実施形態は、以下の例示的なシステムおよび/または方法の文脈において説明される。
【0065】
図1は、本開示の一実施形態に係る、関連する化学情報を使用して化合物の生物学的反応を自動的に予測するためのシステム100の例示的なブロック図である。システム100は、「予測システム」ということもでき、以下にて同じ意味で使用される。一実施形態では、システム100は、1つ以上のプロセッサ104、通信インターフェース装置または入力/出力(I/O)インターフェース106、および、1つ以上のプロセッサ104に動作可能に接続された1つ以上のデータストレージ装置またはメモリ102を備える。1つ以上のプロセッサ104は、1つ以上のソフトウェア処理モジュールおよび/またはハードウェアプロセッサである。一実施形態では、ハードウェアプロセッサは、1つ以上のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央処理装置、状態機械(state machines)、論理回路、および/または動作命令に基づいて信号を操作する任意の装置として実施可能である。他の機能の中でも、プロセッサは、メモリに保存されているコンピュータ可読命令をフェッチして実行するように構成されている。一実施形態では、装置100は、ラップトップコンピュータ、ノートブック、ハンドヘルド装置、ワークステーション、メインフレームコンピュータ、サーバ、ネットワーククラウド等の様々なコンピューティングシステムにおいて実施可能である。
【0066】
I/Oインターフェース装置106は、例えばウェブインターフェース、グラフィカルユーザーインターフェース等の様々なソフトウェアインターフェースおよびハードウェアインターフェースを含み得、LAN、ケーブル等の有線ネットワーク、およびWLAN、セルラー、衛星等のワイヤレスネットワークを含む多種多様なネットワークN/Wおよびプロトコルタイプ内の複数の通信を容易にすることができる。一実施形態では、I/Oインターフェース装置は、多数の装置を互いにまたは別のサーバに接続するための1つ以上のポートを含み得る。
【0067】
メモリ102は、例えば、スタティックランダムアクセスメモリ(SRAM)およびダイナミックランダムアクセスメモリ(DRAM)等の揮発性メモリ、および/または、読み取り専用メモリ(ROM)、消去可能プログラマブルROM、フラッシュメモリ、ハードディスク、光ディスクおよび磁気テープ等の不揮発性メモリを含む、当技術分野で知られている任意のコンピュータ可読媒体を含む。一実施形態では、データベース108は、メモリ102に保存されていてもよい。ここで、データベース108は、化合物、化学情報、生物学的反応、ルールまたはアラート、生物学的反応の予測のために生成および実行される種々のモデル、種々のフィンガープリント、画像、発生基準値、本明細書で説明される方法を実行するためのトレーニング段階および検定/検証段階でのシステムの構成詳細に関する情報を含むが、これらに限定されない。
【0068】
図1を参照しつつ、図3は、本開示の一実施形態に係る、図1のシステム100を使用して、関連する化学情報に基づいて化合物の生物学的反応を自動的に予測する方法の例示的なフロー図である。一実施形態では、システム100は、1つ以上のハードウェアプロセッサ104に動作可能に接続された1つ以上のデータストレージ装置またはメモリ102を含み、1つ以上のプロセッサ104による方法のステップの実行のための命令を保存するように構成される。本開示の方法のステップを、図1図2図4図5図6A図6E、および図3A図3Bのフロー図に示されるシステム100の構成要素を参照して説明する。本開示の一実施形態では、ステップ302で、1つ以上のハードウェアプロセッサ104は、化合物の化学構造に関する生物学的データを受信する。一実施形態では、生物学的データは、様々なソース(および/またはデータベース、以下「生データ」という)から抽出または導出され、また、報告された生物学的反応(測定単位、化合物ID、化学構造等)の不整合、重複等の異なる側面におけるデータの臨界評価(critical evaluation)が実行される。これらの不整合は、計算モデルのパフォーマンスに影響し、ドメイン駆動型前処理アプローチ(domain driven pre-processing approaches)が必要である。図1を参照しつつ、図2は、本開示の一実施形態に係る、化合物の生物学的反応を予測するための生物学的データを抽出するために生データを処理するフローを示す例示的なブロック図である。図2から分かるように、生データは、例えば、内部データベース(または専有データベースともいう)、外部データベース(または「外部サービスプロバイダー」、例えば化学分子および生物学的アッセイに対するそれらの活性のデータベースであるPubChem、オープンソースプロバイダ)、公開記事(例えば、特許出願、専門誌、文献等)、アーカイブデータ等の種々のデータベースから得られる。例えば、(生物学的または化学的)生データには、化合物の生物学的、化学的および物理的情報(例えば、有毒性プロファイル、分配係数、双極子モーメント、結合親和性、インビトロ受容体データ等)が、1つ以上のファイル形式で含まれる。そのような生データから関連情報を抽出するために、システム100は、自動化された前処理を実行し、例えば、自然言語処理手法および/またはデータマイニング手法を適用して、研究をモデリングするための最終入力生物学的データを導出することができる。自動化されたデータ前処理の例が図2に示されている。図2中、システム100は、データ処理手法によって生データを処理する。データ処理手法は、a)重複データ入力の識別とその消去、曖昧なデータ(例えば、種々のデータソースにわたって1つを超える異なるラベルを伴うもの)の消去、b)ユニットの標準化(生データのユニットは、種々のソースから得られるため、異なる可能性がある)等を含む。例えば、ソース1から得られた生データがミリグラムで指定された単位を有する一方、ソース2から得られた同一の生データがマイクログラム等で指定された単位を有する場合がある。したがって、これらのすべての制約を考慮して、システム100は生データを処理して、処理済みデータベース(例えば、図1のデータベース108)に保存される特定の形式で要求される最終入力生物学的データを取得する。
【0069】
したがって、要するに、有毒性予測のための入力データは、内部データベース、外部データベース、公開記事から抽出された情報、および自然言語処理またはデータマイニング手法等を使用するアーカイブデータリポジトリ(archived data repositories)等の種々のソースからのものとすることができる。
【0070】
入力データと称される処理済みデータは、モデリングの目的で使用できる。その後、生物学的反応/活性、例えば心毒性、腎毒性等をモデル化するために、化合物の化学情報が生成され、化合物の生物学的反応とともに使用される。例えば、特定のエンドポイントが、モデル化する必要がある腎毒性である場合、このエンドポイントに関連する化学構造、アッセイ条件、生物学的反応データ等の関連データを処理済みデータベース(例えば図1のデータベース108)から抽出する必要がある。この関連情報は、図4で示されるように、化合物活性(すなわち生物学的反応)を予測するためのモデルを生成するために使用されるステップ302で説明される化学構造(すなわち生物学的データ)を指す。ここで、化学構造(もしくは、化学情報または生物学的データ)から種々の情報が抽出される。上記の化学情報/化学構造(それらの所与のエンドポイントの活性または生物学的反応は既知)の一部は、モデル(システム100の提案モデル)のトレーニングに使用され、化学情報の他の部分は、構築済み/トレーニング済みモデルの結果を検証するために使用される。また、生物学的反応を伴うまたは伴わない外部化合物がシステム100によって受信されるときはいつでも、予測が実行され、そのような場合、トレーニング済みモデルは図4に示されるように生物学的反応予測に使用される。提案されたモデルのトレーニングについて、図6A図6Eを参照して、図3A図3Bのステップ304〜ステップ310で説明される。
【0071】
図3A図3Bへ戻って参照すると、本開示の一実施形態では、ステップ304で、1つ以上のハードウェアプロセッサ104は、関連する分子構造を使用して化合物に関する複数の化学情報を生成する。一実施形態では、複数の化学情報は、複数の物理化学的および構造的記述子(physico-chemical and structural descriptors)、複数の分子フィンガープリント、複数の分子フラグメント、ならびに複数の2次元(2D)および3次元(3D)構造画像を含む。複数の物理化学的および構造的記述子のそれぞれは、分子量、二重結合の数、溶解度等の化合物の特性を記述する連続的および離散的な特徴または変数を含む(参考文献:Todeschini, R; Consonni, V. Handbook of Molecular Descriptors; Wiley-VCH, 2000, and Karelson, M. Molecular Descriptors in QSAR/QSPR in Drug Design; Wiley Interscience: New York, 2000)。分子フィンガープリントは、所定の分子サブ構造セット、環、電荷等の構造的特徴の存在または非存在を示すバイナリ特徴を指す(参考文献:Daylight Chemical Information Systems, https://www.ics.uci.edu/~dock/manuals/DaylightTheoryManual/index.html)。分子フラグメントは、種々のルール(例えば、環状構造の一部である結合を決して破壊しない等)に基づいて結合を切断(cleaving)することによって生成される。これらの分子フラグメントは、SARpy(Thomas Ferrari, Giuseppina Gini, Nazanin Golbamaki Bakhtyari, Emilio Benfenati. “Mining Toxicity Structural Alerts from SMILES: A New Way to Derive Structure Activity Relationships” 2011 IEEE Symposium on Computational Intelligence and Data Mining (CIDM), Paris, 2011, pp. 120-127. doi: 10.1109/CIDM.2011.5949444)、およびOpen Babel(N M O'Boyle, M Banck, C A James, C Morley, T Vandermeersch, and G R Hutchison. “Open Babel: An open chemical toolbox.” J. Cheminf. (2011), 3, 33. doi:10.1186/1758-2946-3-33 and The Open Babel Package, version 2.3.1 http://openbabel.org)等のオープンソースツール、内部ルールまたはそれらの組合せを使用して生成される。2Dおよび3D構造画像は、2Dおよび/または3D平面において見られる化合物の幾何学的配置(geometrical orientation)の画像を指す。本開示では、色識別(color coding)が、化合物の化学画像の異なる要素に適用されている。例えば、画像中、「炭素原子について青色識別」、「酸素原子について赤色識別」等とされる。単結合タイプおよび二重結合タイプについて、さらに異なる色識別が提供されてもよい。原子の配置について、色識別をさらに提供することができる(例えば、2D平面の背面で視覚化された原子は黄色で表すことができる)。
【0072】
本開示の一実施形態では、ステップ306で、1つ以上のハードウェアプロセッサ104は、複数の化学情報に1つ以上の統計分析手法を適用して、フィルタリングされた化学情報を取得する。一実施形態では、複数の化学情報に1つ以上の統計分析手法を適用して、フィルタリングされた化学情報を取得するステップは、複数の物理化学的および構造的記述子を使用して、フィルタリングされた記述子セットを取得するステップ(306a)と、複数の分子フィンガープリント(MF)に基づいて、複数のフィンガープリントカテゴリを生成するステップ(306b)と、ここで、第1のフィンガープリントカテゴリは、発生基準に基づいて選択される第1のフィンガープリントセットを含み、第2のフィンガープリントカテゴリは、複数の分子フィンガープリントに、カイ2乗検定およびフィッシャーの正確検定の少なくとも1つを適用することにより選択される第2のフィンガープリントセットを含み、第3のフィンガープリントカテゴリは、複数の分子フィンガープリントに情報利得統計的検定を適用することにより選択される第3のフィンガープリントセットを含み、複数の分子フィンガープリントおよび複数の分子フラグメントの組合せと発生基準とに基づいて選択される第4のフィンガープリントセットを含む第4のフィンガープリントカテゴリを生成するステップ(306c)と、複数の2Dおよび3D構造画像に対して1つ以上の変形手法を実行して、最適化された構造画像セットを取得するステップ(306d)と、を含む。1つ以上の変形手法は、一例示的実施形態では、配置(orientation)から様々な角度までの種々のサイズへのアップスケーリングおよび/またはダウンスケーリングを含むが、これらに限定されない。
【0073】
本開示の一実施形態では、第1のフィンガープリントセット、第2のフィンガープリントセット、第3のフィンガープリントセット、および第4のフィンガープリントセットは、1つ以上のCDKフィンガープリント、1つ以上のCDK拡張フィンガープリント、1つ以上のエステートフィンガープリント、1つ以上のCDKグラフオンリーフィンガープリント、1つ以上のMACCSフィンガープリント、1つ以上のPubchemフィンガープリント、1つ以上のサブ構造フィンガープリント、1つ以上のKlekota−Rothフィンガープリント、2D−Atom−Pairフィンガープリント、1つ以上の分子フラグメント、またはこれらの組合せを含む。
【0074】
上記のステップ306a〜ステップ306dをよりよく理解するために、ステップ306a〜ステップ306dを以下の実施例で説明する。
【0075】
統計分析手法は、ゼロまたは低分散カラム(low variance columns)を消去することにより、フィルタリングされた記述子セットを取得するための化学情報(例えば、物理化学的記述子および構造的記述子)に適用され、そして、その残りは、一元配置分散分析(Annova)、ウェルチt検定等の種々の統計的測定(または特徴選択手法)を使用して選択される(図6A)。このプロセスは、a)化合物の特性を測定する、b)化合物の生物学的反応に起因し得る、c)生物学的反応にランダムに関連しない、d)ある程度、活性/生物学的反応に関して化合物を区別するために使用される、統計的に有意な変数を選択するために実行される。一例示的ケーススタディでは、システム100による1049個の化合物に対して、352個の物理化学的および構造的記述子がインハウスツールによって生成される。これらの352個の記述子を、一元配置分散分析検定(one-way analysis of variance test)からのp値を使用してフィルタリングし、統計的に有意な変数を判別できる。システム100は、さらなるモデリングのために0.15未満のp値を有する記述子を選択し、352個の生成された記述子から83個のフィルタリングされた記述子を得てもよい。
【0076】
本開示において、分子フィンガープリントおよび分子フラグメントは、それらが化合物の類似の情報または特質(attributes)を記述するため、一緒に統合される。その後、生成された分子フィンガープリントおよび分子フラグメントは、次のように、それらが含む情報に基づいて幅広いカテゴリに分割される。
【0077】
第1のフィンガープリントカテゴリは、図6Bに示されるように、発生基準(OTともいう)に基づいて選択される第1のフィンガープリントセットを含む。最小OT値は1とすることができる。第1のフィンガープリントセットは、タイプIフィンガープリント、タイプIIフィンガープリント、タイプIIIフィンガープリント、およびタイプIVフィンガープリントのうちの少なくとも1つを含む。フィンガープリントがカテゴリ1フィンガープリントとして分類されるには、発生基準といわれる化合物の最小数において発生しなければならい。例えば、フィンガープリント(MF1)が5つの化合物でのみ観察され、これらの5つの化合物すべてが有毒である場合、発生基準が5未満であれば、MF1はタイプIフィンガープリントとして分類される。発生基準が5を超える場合、カテゴリ1フィンガープリントとして分類されない。さらに、発生基準は、トレーニングデータセットの構成に応じて、カテゴリ1フィンガープリントのサブタイプごとに異なっていてもよい。
【0078】
第1のフィンガープリントセットおよび第4のフィンガープリントセットの少なくとも1つにおけるタイプIフィンガープリントの存在は、化合物の生物学的反応、有害事象または活性の1つ(例えば有毒性)に対するタイプIフィンガープリントの寄与を示す。同様に、第1のフィンガープリントセットおよび第4のフィンガープリントセットの少なくとも1つにおけるタイプIIフィンガープリントの非存在は、化合物の生物学的反応、有害事象または活性の1つ(例えば有毒性)に対するタイプIIフィンガープリントの寄与を示す。第1のフィンガープリントセットおよび第4のフィンガープリントセットの少なくとも1つにおけるタイプIIIフィンガープリントの存在は、化合物の非活性(例えば非有毒性)におけるタイプIIIフィンガープリントの寄与を示す。同様に、第1のフィンガープリントセットおよび第4のフィンガープリントセットの少なくとも1つにおけるタイプIVフィンガープリントの非存在は、化合物の非活性(例えば非有毒性)におけるタイプIVフィンガープリントの寄与を示す。種々のフィンガープリントタイプが図6B図6Dに示されている。
【0079】
第2のフィンガープリントカテゴリは、1つ以上の分子フィンガープリント(MF)に対してカイ2乗検定およびフィッシャーの正確検定の少なくとも1つを適用することにより選択される第2のフィンガープリントセットを含む。第2のフィンガープリントセットは、図6Cに示されるように、(フィッシャーの正確検定に基づいて)タイプBフィンガープリントとタイプAフィンガープリントとを含む。換言すると、一例示的実施形態では、タイプAは、カイ2乗検定を適用できるフィンガープリントであり、ユーザー定義信頼レベル(user defined confidence level)より低いp値を有する。同様に、一例示的実施形態では、タイプBは、カイ2乗検定を適用できないがフィッシャーの正確検定を使用して選択/フィルタリングされるフィンガープリントであり、ユーザー定義信頼レベルより低いp値を有する。2つの検定のいずれかにおけるより小さい変数のp値は、当該変数が、化合物の活性または生物学的反応に関連していないという仮説に対する強力な証拠を示す。例えば、1パーセント(1%または0.01のp値)レベルで自由度1を有するχ(カイ2乗)の臨界値は6.635である。フィンガープリントが、6.635未満の検定統計値を有する場合、システム100は、検討中の2つのクラス(例えば有毒性と非有毒性)の区別において、それを統計的に有意ではないと見なしてもよい。したがって、システム100は、0.01未満のp値、または6.635を超える検定統計値のフィンガープリントを選択してもよい。一例示的ケーススタディでは、424個のフィンガープリントが、2つのクラスを区別するのに統計的に有意、つまり0.01未満のp値であった。カイ2乗検定は、カールピアソン(Karl Pearson, "On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling" (PDF). Philosophical Magazine. Series 5. 50: 157-175. doi:10.1080/14786440009463897 and Fisher’s exact test from Fisher, R. A. (1922). "On the interpretation of χ2 from contingency tables, and the calculation of P". Journal of the Royal Statistical Society. 85 (1): 87-94. doi:10.2307/2340521 and Fisher, R.A. (1954). Statistical Methods for Research Workers. Oliver and Boyd. ISBN 0-05-002170-2.)から取得できる。
【0080】
第3のフィンガープリントカテゴリは、1つ以上の分子フィンガープリント(MF)についての情報利得値を計算することにより選択される第3のフィンガープリントセットを含む。第3のフィンガープリントセットは、図6Cに示されるようにタイプCフィンガープリントを含む。換言すれば、タイプCは、情報利得またはエントロピー値を使用して選択されるフィンガープリントである。このプロセスは、種々の生物学的反応/活性またはクラス(例えば有毒性および非有毒性)を区別する場合において、フィンガープリントが保有する情報内容に基づいて、フィンガープリントをランク付けする。情報利得(IG)値の範囲は0から1である。情報利得値1のフィンガープリントはクラスを明確に区別でき、IG値0のフィンガープリントはクラスを区別できない。フィンガープリントをフィルタリングするためのカットオフIG値は、ユーザーに定義されるもの、または、システム100が選択するフィンガープリントの数に基づいて動的に変化するものであってもよい。例えば、システム100は、最大情報値を持つ50個のフィンガープリントを選択するか、IG値が0.6より大きいフィンガープリントを選択できる。
【0081】
要するに、フィンガープリントは、第1フィンガープリントカテゴリのいずれのタイプにも該当しない場合、第2または第3フィンガープリントカテゴリ検定を使用して分類される。すべての分類されたフィンガープリントカテゴリまたはフィンガープリントタイプは、種々の統計的検定に基づいて選択され、モデル化されるべきエンドポイントに関する統計的に有意な情報をもたらす。
【0082】
上述のように、トレーニングセットのすべての化合物から生成されたサブ構造は、以前に生成されたフィンガープリントにまだ表されていないユニークな分子フラグメントセットを生成するように統合される。例えば、トレーニングセットから生成される分子サブ構造の1つは、4−ヨードアニリンまたはブロモベンゼンであり、それらの構造は以下の通りである。これらのサブ構造は、KlekotaRothフィンガープリントにおいても表されており、よって、化合物の同一特性をキャプチャする。したがって、これら2つの生成された分子サブ構造は、他のフィンガープリントによって既にキャプチャされているため、消去できる。その後、これらのサブ構造は、追加のフィンガープリントセットを表し、フィンガープリントと同様に、第1、第2、および第3のフィンガープリントカテゴリのサブクラスに分類される。
【0083】
第4のフィンガープリントカテゴリは、1つ以上の分子フィンガープリントおよび分子フラグメントの組合せ、ならびに発生基準に基づいて選択される第4のフィンガープリントセットを含む。分子フィンガープリントおよび分子フラグメントは「&&」(AND)演算子(operator)を使用して組み合わされる。第4のフィンガープリントセットは、図6Dに示されるように、タイプIフィンガープリント、タイプIIフィンガープリント、タイプIIIフィンガープリント、およびタイプIVフィンガープリントのうちの少なくとも1つを含む。換言すれば、上記のフィンガープリントおよびフラグメントに加えて、システム100は、図6Dに示すように「AND」演算子を使用して複数の分子フィンガープリントまたはフラグメントを組み合わせることにより、フィンガープリントの新しい組合せを生成する。例えば、2つのフィンガープリントすなわち長さ2の2つのフィンガープリントを用いて、組合せフィンガープリント(CFP1)を生成する。つまり、2つのフィンガープリントまたはフラグメントの存在を同時に確認し、化合物に両方のフィンガープリントが含まれる場合、CFP1値は1として表される。化合物が2つまたは両方のいずれも含んでいない場合、CFP1の値は0とされる。このようにして、システム100は、2以上の長さのフィンガープリント(two or more length fingerprints)のすべての可能な組合せを生成し、その後、オリジナルフィンガープリントに適用されるのと同じ分類(第1のフィンガープリントカテゴリ:タイプI、II、IIIおよびIV)を適用する。同じ例において、FP1をKlekotaRothフィンガープリントとし、そのサブ構造を下図のように示すことができる。FP2を別のPubChemフィンガープリントとし、そのサブ構造を下図のように示すことができる。今、CFP1は、任意の化合物において、FP1およびFP2で表される両方のサブ構造の存在を探すフィンガープリントを示している。両方のサブ構造が化合物において同時に発生する場合、CFP1の値はシステム100によって1として取得される。他のすべてのシナリオでは、CFP1の値は0とされる。
【0084】
一実施形態では、組合せフィンガープリントの発生基準は、ユーザー設定可能であってもよく、別の実施形態では、オリジナルフィンガープリントの発生基準と異なっていてもよい。さらに別の実施形態では、発生基準は、システム100で利用可能なトレーニングセットに基づいて変化してもよい。例えば、トレーニングセットが、100:10すなわち10:1の比率で有毒および非有毒の化合物を含む場合、発生基準は、タイプIフィンガープリントについて10と設定され、その他については、発生基準は比率に従った1が設定される。入力データ分布に基づくこの比率は、モデルがより大きなクラスの化合物に偏らないようにすることを確実にする。換言すれば、この比率は、種々の生物学的反応データセットで観察される、導入部で説明したデータ不均衡の問題に対する解決策を提示する。さらに、発生基準は、システム100の学習パターン、トレーニングセット等に従って動的に変更されてもよい。一例示的実施形態において、システム100は、タイプI発生基準がタイプIII発生基準よりも15倍大きく設定されると、モデル性能が5%改善することを学習してもよい。システム100は、タイプI発生基準を15として設定し、タイプIII発生基準を1として設定してもよい。同様に、システム100は、タイプI、II、III、およびIVフィンガープリントの発生基準の動的更新のルールを導出/学習することができる。その結果、システム100は、生成する新しい生物学的反応予測モデルのそれぞれにわたるそのルールを検証する。したがって、システム100は、a)種々の生物学的反応または有害事象予測モデルにわたる性能を観察することにより、b)発生基準の値を変更することにより、およびc)ユーザー入力から、これらのルールを学習する。
【0085】
本開示の一実施形態では、第1のフィンガープリントセット、第2のフィンガープリントセット、第3のフィンガープリントセット、および第4のフィンガープリントセットは、1つ以上のCDKフィンガープリント、1つ以上のCDK拡張フィンガープリント、1つ以上のエステートフィンガープリント、1つ以上のCDKグラフオンリーフィンガープリント、1つ以上のMACCSフィンガープリント、1つ以上のPubchemフィンガープリント、1つ以上のサブ構造フィンガープリント、1つ以上のKlekota−Rothフィンガープリント、2D−Atom−Pairフィンガープリント、1つ以上の分子フラグメント、またはこれらの組合せを含む。
【0086】
本開示の一実施形態では、システム100は、2次元および/または3次元において、化合物の構造画像を生成する。これらの画像は、すべての化合物にわたって一律に、要素、結合の種類、分子のサイズ等を特定の色で表すように色分けされる。類似の結合および周期構造(cyclical structures)のサイズおよび配置が、原子の数に応じて化合物間で異なるため、システム100は、化合物の構造画像(2Dまたは3Dであっても)に対して種々の変形を実行できる。例えば、以下に示すように、化合物xからyの構造において、ベンゼン環のサイズおよび配置は、3つの異なる医薬品らしい分子(drug like molecules)間で異なる。化合物の構造画像に対する変形は、様々な角度における2Dの回転や、元の画像を様々なサイズに拡大または縮小すること等であり、追加の画像を生成し、上述した問題のいくつかに対処することができる。
【0087】
図3Aに戻って参照すると、本開示の一実施形態において、ステップ308で、1つ以上のハードウェアプロセッサ104は、フィルタリングされた記述子セット、第1のフィンガープリントセット、第2のフィンガープリントセット、第3のフィンガープリントセット、第4のフィンガープリントセット、および最適化された構造画像セットにそれぞれ基づいて、複数のモデルを自動的に生成する。一実施形態では、複数のモデルのうちの第1のモデル(すなわちモデルI)が、フィルタリングされた記述子セット、第1のフィンガープリントセット、またはそれらの組合せに基づいて、生成される。モデルIは、例えば、サポートベクターマシンまたはランダムフォレストのいずれかの機械学習手法を使用して生成されてもよい。これらのモデルをトレーニングするために、1つ以上のカテゴリ1、カテゴリ2、およびフィルタリング/選択された記述子の組合せが使用され、モデルを構築する。このモデルは、内部検定データセット(internal test dataset)および/または検証セット(validation set)で検証および最適化される。一実施形態では、記述子、タイプI、タイプII、タイプIIIおよびタイプIVのフィンガープリント、またはそれらの組合せを使用して生成され得るモデルIを利用することにより、システム100によって生物学的反応の予測を自動的に行うことができる。別の例示的実施形態では、記述子を使用せずに、タイプI、タイプII、タイプIII、およびタイプIVのフィンガープリントのみで構築され得るモデルIを使用して、システム100によって生物学的反応の予測が自動的に行われる可能性がある。さらに別の実施形態では、システム100は化合物の半分のみを予測し、残りは1つ以上のモデルII、III、IVおよびVによって予測されてもよい。これらのモデルの1つ以上は、それまでに種々のデータセットで構築された個々のモデル(モデルI、II、III、IVおよびV)のパフォーマンスに基づいて、別のモデルよりも優先され得る。
【0088】
一実施形態では、複数のモデルのうちの第2のモデル(モデルII)は、第1のフィンガープリントセット(第1のフィンガープリントカテゴリ)、および化合物中の第1のフィンガープリントセットの各タイプの発生に基づいて生成される。これにおいて、システム100は、オリジナルフィンガープリントおよびフラグメントを用いて生成された第1のフィンガープリントセットを使用して、化合物の活性を予測する。エンドポイントについての化合物の活性または生物学的反応は、それらの値に基づいて種々のクラスに分割される。例えば、1つのクラスとしての有毒性と、別のクラスとしての非有毒性に分割される。さらに、システム100は、タイプI、II、III、およびIVフィンガープリントのそれぞれの存在および非存在を確認することにより、各化合物のクラススコアを計算する。これらのスコアに応じて、システム100は、クラスを割り当て、新しい化合物の生物学的反応を予測する。
【0089】
別の実施形態では、複数のモデルのうちの第3のモデル(モデルIII)は、第2のフィンガープリントセット、第3のフィンガープリントセット、またはそれらの組合せに基づいて生成される。第2および第3のフィンガープリントセットのそれぞれについて、確率値のセット(a set of probabilities values)が計算される。これらの確率は、データセットにおいて発生し得る様々なシナリオを表す。例えば、2クラス分類モデルでは、確率のセットは、各フィンガープリントについて、pr(活性/存在)、pr(非活性/非存在)、pr(非活性/存在)およびpr(非活性/非存在)になる。フィンガープリント(FP1)が存在する場合、化合物が活性または有毒になる確率(フィンガープリントが存在する場合の化合物が活性である確率:pr(活性/存在)すなわち確率(活性/存在))は、以下のようにトレーニングセットの値から計算される。
【0090】
また、上記の各シナリオについて計算された確率スコアが予測不能範囲外にある場合にのみ、第2および第3のフィンガープリントセットのそれぞれがモデルIIの構築に使用される。この範囲は、トレーニングセット構成からみて、誤った分類を回避するためにシステム100が必要とする信頼レベルを示す。
【0091】
一例示的実施形態において、および2つのクラス/レベル分類において、予測不能範囲は、以下のように、計算される。
nBias:トレーニングセットにおける化合物の数がより多いクラスにおける化合物の数とする。
nComp:トレーニングセットにおける化合物の総数とする。
基準(threshold):ユーザー定義のカットオフとする。
システム100は、ディストーション(distortion)=(nBias/nComp)-0.5を計算または定義する。
そして、臨界/予測不能範囲は(LB−UB)として定義される。ここで、
下限(LB):最小(基準+ディストーション,基準)
上限(UB):最大(1−基準+ディストーション,1−基準)
【0092】
さらに、予測不能範囲外の確率スコアを有する第2および第3のカテゴリフィンガープリントのそれぞれが使用され、化合物の各クラスまたは活性についてのスコアを計算する。次に、すべてのクラススコアの比較に基づいて、クラスが化合物に割り当てられる。例えば、FP1を、下記図のように構造的に表され、下記確率分布を有するフィンガープリントとする。
上記実施例の予測不能範囲が(0.25−0.89)の場合、FP1は、システム100により、モデルIIIにおいて、化合物がFP1を含む場合(つまりFP1=1)の化合物の活性を予測するために使用される。化合物がFP1を含まない場合(つまり、FP1=0)、Pr(活性|FP1=0)は予測不能範囲内であるため、FP1の確率セット、故にFP1は、システム100により、モデルIIIにおいて使用されない。別の例では、予測不能範囲が(0.4,0.6)の場合、FP1は、FP1フィンガープリントの存在および非存在の両方においてモデリングのために使用される。
【0093】
一実施形態では、続いて、システム100は、予測不能範囲を用いてフィルタリングされた第2および第3のフィンガープリントセットのすべてを使用してモデルIIIを構築する。第2および第3のフィンガープリントセットのそれぞれの確率セットを用いて、システム100は、a)化合物におけるフィンガープリントFPXの存在または非存在、b)フィンガープリントFPXの確率スコアセット、およびc)計算されたクラススコアの比較および合計を使用して、化合物のクラススコアを計算する。
【0094】
さらに別の実施形態において、複数のモデルのうちの第4のモデル(モデルIV)は、第4のフィンガープリントセット、化合物における第4のフィンガープリントセットの各タイプの発生、またはそれらの組合せに基づいて生成される。換言すると、組合せフィンガープリントが使用され、モデルIIと同様のクラススコアを割り当てる。
【0095】
さらなる実施形態において、複数のモデルのうちの第5のモデル(モデルV)は、ディープニューラルネットワークにおける最適化された構造画像セットに対して実行された分析に基づいて生成される。このモデルは、一例示的実施形態において、畳み込みディープニューラルネットワーク(convolution deep neural network)の入力として化学構造の画像を使用して生成される。生成された様々なモデルが、図6A図6Eに示されている。
【0096】
本開示の一実施形態では、ステップ310で、1つ以上のハードウェアプロセッサ104は、生物学的データおよび複数の化学情報に基づいて、複数のモデルから最良モデルを自動的に選択および推奨する。また、ステップ312で、1つ以上のハードウェアプロセッサ104は、複数のモデルのうちの1つ以上のユーザー選択モデルおよび最良モデルの少なくとも1つに基づいて、化合物の生物学的反応を自動的に予測する。「生物学的反応」という用語は、インビトロアッセイまたは細胞ベースアッセイにおける生物学的ターゲットに対する医薬品候補の有効性、化学物質の有毒性等といえる。それは、化学物質、医薬品候補等へさらされたインビトロ、エクスビボ、インビボの状態における生物学的システムによって示される反応として定義できる。一実施形態では、化合物の生物学的反応は、図6Eに示されるように、システム推奨の最良モデル(および/またはユーザー選択モデル)を使用して予測される。ここで、ユーザーは、複数のモデルのうちの推奨される最良モデルまたは複数のモデルのうちの(システム100によって推奨されない)他のモデルのうちの少なくとも1つを選択することにより、彼/彼女の入力を提供する。ユーザー選択は、システム100によってユーザーに提供される情報に基づくものでもよい。一例示的実施形態では、システム100によって提供される情報は、a)すべての構築モデルの特異性、感度、ROC曲線下面積(area under ROC curve)等、b)各構築モデルから開発されたルールまたは洞察、およびその支援情報またはそのルールを満たす若しくは満たさない化合物等であってもよい。一実施形態では、1つ以上のモデルの自動的な選択および推奨は、a)特徴選択手法を用いて生成された出力に、またはb)モデル生成についての事前定義またはユーザー定義のパラメータの最適化に、基づくものであってもよい。
【0097】
図1図3を参照しつつ、図4は、本開示の実施形態に係る、生物学的反応を予測するためのシステム100の例示的なシナリオを示している。簡潔に言うと、図4は、例えば、a)新しい実験データが利用可能になった時の、またはb)定期的な時間間隔の後の、「自動分析モジュール」による生物学的反応モデリングの自動トリガー(automatic triggering)を示している。各モデルが構築/再トレーニングされた後、「検証セット」としてマークされた化合物のセットに対する検証/確認がなされ、更新済みモデルを用いて、未知の生物学的反応を有する化合物が再分類される。
【0098】
図3A図6Eに示される)本開示の上記方法の適用は、腎毒性(renal (kidney) toxicity)を予測するために提案されたシステム100、および代表例としての生物学的反応である腎毒性の予測によってより良く理解される。腎臓は、重金属、化学物質、真菌毒素(fungal toxins)、および多数の医薬品にさらされるため、医薬品誘発腎毒性(drug induced renal toxicity)の影響を受けやすい主要なターゲット器官の1つである。腎毒性は臨床研究中にしばしば観察され、さらに腎毒性のメカニズムは現在のところよく理解されていない。前臨床医薬品開発中の腎毒性の予測は、種間変動性(interspecies variability)に起因して動物モデルの予測性が乏しいために困難な問題であり、緊急の注意が必要である。この問題に対処する別のアプローチは、腎毒性を誘発する医薬品内に存在する化学情報を調査することであり、現時点で公開されている計算モデル/ソリューションは、限られた成功しか収めていない。
【0099】
上記の例示的実施形態では、システム100は、SIDER4.1バージョンから副作用データを、また、ADRECSウェブサイト(http://bioinf.xmu.edu.cn/ADReCS/index.jsp)から医薬品副作用用語分類データ(adverse drug reaction terms classification data)を収集した。これら両方のデータ(生データ)が使用され、図2に示す種々のデータ処理手法を実行することにより、様々な医薬品化合物および医薬品らしい化合物(化合物/化学構造)についての生物学的反応プロファイル(処理済みデータ)を構築する。
【0100】
上記の例示的実施形態では、各化合物/化学構造について、SMILESは、PubChem IDを使用して抽出され、以下で説明するように様々な化学情報を生成するために使用される。
2種類の変数が生成された。
1.Padelソフトウェアバージョン2.21を使用するフィンガープリント:これらは、値「1」または「0」をとるバイナリ変数であり、構造的特徴またはサブ構造の存在または非存在を示す。
a.CDKフィンガープリント:様々なAtomコンテナ(Atom Containers)についての1024個のフィンガープリント
b.CDK拡張フィンガープリント:環特徴を記述する追加ビットでCDKを拡張する様々なAtomコンテナについての1024個の拡張フィンガープリント
c.エステートフィンガープリント:E−Stateフラグメントを使用した79ビットのフィンガープリント。E−Stateフラグメントは、[Hall, L.H. and Kier, L.B., Electro topological State Indices for Atom Types: A Novel Combination of Electronic, Topological, and Valence State Information, Journal of Chemical Information and Computer Science, 1995, 35:1039-1045]に記載されるものである。
d.CDKグラフオンリーフィンガープリント:結合次数を考慮しないCDKフィンガープリントの1024個の特殊バージョン
e.MACCSフィンガープリント:166ビットMACCSキーを生成する。そのSMARTSパターンはRDKitから取得された。
f.Pubchemフィンガープリント:分子についての881個のフィンガープリント
g.サブ構造フィンガープリント:Christian Laggnerによる官能基分類について、307個のSMARTSパターンの存在の確認。
h.Klekota−Rothフィンガープリント:生物学的活性に富む化学サブ構造に基づいた4860個のSMARTS系サブ構造フィンガープリント[Klekota, Justin and Roth, Frederick P., Chemical substructures that enrich for biological activity, Bioinformatics, 2008, 24:2518-2525]
i.2D−Atom−Pairフィンガープリント:様々なトポロジ距離(topological distances)で原子ペアのセットの存在を確認する780個のフィンガープリント
2.インハウスツールで使用する位相的(Topological)、幾何学的、構成的、かつ物理化学的記述子。
【0101】
上記の変数に加えて、ALOGPS2.1(http://www.vcclab.org/lab/alogps/)から供給された化合物のlogP値およびlogS値も分析に含まれていた。
【0102】
また、システム100は、例えば以下の様々な基準を使用して、生成された化学情報をフィルタリングする。
1.統計的に有意な構造的記述子は、カテゴリ変数、有毒性を予測するために使用される連続データが適用される一元配置分散分析検定(one-way analysis of variance test)から計算されたp値を使用して選択された。システム100は、生成された352個の記述子から、0.15未満のp値について83個の記述子のみを選択してもよい。
2.カテゴリ1のフィンガープリント(タイプI、タイプII、タイプIII、およびタイプIV)は、発生基準(OT)値を設定することにより選択される。最小OT値は1とすることができる。1のOTを使用して、システム100は、475個のタイプIフィンガープリント、12個のタイプIIフィンガープリントおよび191個のタイプIIIフィンガープリントをフィルタリングし、タイプIVフィンガープリントをフィルタリングしない。
3.残りのすべてのフィンガープリントデータからゼロでないカラムを消去した後、システムは、事前定義された基準(例えば6.635)より大きいカイ2乗値を有するフィンガープリントをタイプAフィンガープリントとして分類し、残りのフィンガープリントをタイプBフィンガープリントとして分類する。合計で、424個のタイプAおよび119個のタイプBが検討された。
上記の処理により、10,145個の生成されたフィンガープリントから1221個が選択され、352個の生成された記述子から83個が選択される。
【0103】
例示的実施形態において、システム100は、1221個のフィンガープリントデータを有する1114個の化合物(715個が有毒および399個が非有毒)および83個の記述子データを有する1049個の化合物からなる処理データを、ビット単位類似性(bitwise similarity)に基づいて、モデル構築および検証のためのトレーニングデータおよび検定データに分割できる。例示的シナリオでは、最終的なデータセットは次のように表すことができる。
トレーニングデータ:847個の化合物(548個が有毒、299個が非有毒)
検定セット:267個の化合物(167個が有毒、100個が非有毒)
上記の実施例のシステム100は、すべてのデータセットにおける有毒化合物と非有毒化合物との比率をほぼ同一に維持した。
【0104】
上記で検討した例示的ケーススタディでは、処理済みデータをトレーニングデータセットおよび検定データセットに分割し、その後のフィンガープリント選択によって、モデル構築に使用可能な以下の化学情報セットが得られた。
a)タイプI:475個のフィンガープリント
b)タイプII:12個のフィンガープリント
c)タイプIII:191個のフィンガープリント
d)タイプIV:0個のフィンガープリント
e)タイプA:424個のフィンガープリント
f)タイプB:119個のフィンガープリント
g)83個の記述子
【0105】
構築された各モデルは、精度、感度、特異性、予測パーセンテージ等の多数の測定基準に基づいて評価してもよい。それらを以下で詳細に説明する。
a) 精度:正しい予測の割合である。数学的に次のように定義できる。

b) 感度:(真陽性率、再現率(recall)、または検出確率ともいう)は、陽性として正しく識別される実際の陽性の割合(例えば、有毒として正しく識別または予測される有毒化合物のパーセンテージ)を測定する。双方向またはバイナリ分類モデル(two way or binary classification model)について、次のように定義できる。
c) 特異性:(真陰性率ともいう)は、そのように正しく識別される実際の陰性の割合(例えば、非有毒化合物として予測または識別される非有毒化合物のパーセンテージ)を測定する。双方向またはバイナリ分類モデルについて、次のように定義できる。
d) 予測パーセンテージ(%):モデルによって予測された化合物の割合を測定し、次のように定義できる。
【0106】
最終モデルは、階層的に、モデルI、II、IIIおよびIVの4つのモデルに基づいて構築された。例えば、モデルIを使用して化合物が予測されない場合、次のモデルであるモデルII〜Vに移る。(ユースケースシナリオにおける)モデルI、モデルII、モデルIIIおよびモデルIVの様々な組合せでも、最終モデルを生成できる。生物学的反応予測のための最終モデルの組合せは、検定セットにおける最高の予測パーセンテージ、良好な感度、特異性および精度に基づいて選択できる。
【0107】
ランダムフォレストとして分類子(classifier)を使用するモデルIについての結果を、以下の表1に示す。表中の予測カラムは、所与のセットから予測された化合物の総数を表す。非予測カラムは、モデルによってどのクラスにも分類されない化合物の総数を表す。予測と非予測の関係は、次のように定義できる。
同様に、正確カラム(column accurate)には、モデルによって正しく予測された化合物の数が含まれ、不正確カラム(inaccurate column)には、モデルによって誤ってまたは不正確に分類された化合物の数が含まれる。表のカラム間のその他の関係の一部は次の通りである。
予測化合物のパーセンテージが高く、感度および特異性に優れたモデルは、予測パーセンテージが低く、感度または特異性が比較的劣るモデルよりも好ましい。
表1
【0108】
この例示的実施形態では、化合物CXをビダラビン(9−β−D−アラビノフラノシルアデニン)とし、その構造を以下の図に示す。この化合物は、サブ構造のFPK1およびFPK2(KelkotaRothタイプIフィンガープリント)を含んでいてもよい。FPK1およびFPK2は、次の図のように構造的に表される。化合物CXにおけるこれらのタイプIフィンガープリント(FPK1およびFPK2)の存在は、化合物の有毒性を示すことができる。システム100は、同様の方法で、すべての第1のフィンガープリントセットの存在を確認し、各化合物についての有毒および非有毒クラススコアを計算する。クラススコアは、化合物における第1のフィンガープリントセットの各タイプの存在をカウントすることで計算できる。この例示的シナリオにおいて、CXに3個の有毒クラススコアと、0個の非有毒クラススコアを割り当ててもよい。つまり、CXは、有毒性を示す第1のフィンガープリントセットのタイプIを3個含む。したがって、CXは、モデルIIによって有毒として分類される。
【0109】
すべての化合物のモデルIIについての結果を、以下の表2に示す。
表2
【0110】
このケーススタディにおいて、システム100は、モデルIII構築用のフィンガープリントをフィルタリングするために次の値を計算する。
nBias = 548
nComp = 847
ディストーション(distortion) = (548/857) -0.5 = 0.147
上記の値、およびユーザー定義若しくはシステム定義の基準を使用して、システム100は、例えば以下について、予測不能範囲を計算する。
基準 = 0.15
下限(LB) = 最小(0.197, 0.15) = 0.15
上限(UB) = 最大(0.997, 0.85) = 0.99
したがって、予測不能範囲は(0.15−0.99)である。別のシナリオでは、基準=0.25の場合、予測不能範囲は(0.25−0.89)として計算される。続いて、システム100は、予測不能範囲の1つを使用して第2および第3のフィンガープリントセットをフィルタリングし、各化合物についての確率クラススコアを使用してモデルIIIを構築する。
【0111】
2つの異なる予測不能範囲についてのモデルIIIの結果を以下の表3に示す。
表3
【0112】
この例示的実施形態では、化合物CXを、その構造が下図に示されているN−(1−エトキシ−1−オキソ−4−フェニル−2−ブタニル)アラニルプロリンとする。この化合物は、FPP(PubChemフィンガープリント)およびFPK(KelkotaRothフィンガープリント)の存在を確認する組合せフィンガープリントCFPXを含んでいてもよい。FPPとFPKは、下記図のように構造的に表すことができる。システム100は、組合せフィンガープリント、第4のフィンガープリントセットのすべての存在を確認し、各化合物についての有毒および非有毒クラススコアを計算する。クラススコアは、有毒および非有毒とすべき化合物の確率である。それは、第4のフィンガープリントセットの各タイプの存在をカウントすることで計算できる。この例示的シナリオにおいて、CXに19個の有毒クラススコアと0個の非有毒クラススコアを割り当てることができる。つまり、CXは、有毒性を示す第4のフィンガープリントセットの19個の異なるタイプIを満たす。したがって、CXは、モデルIVによって有毒であると分類される。
【0113】
すべての化合物についてのモデルIVの結果を以下の表4に示す。
表4
【0114】
モデルIIおよびIIIの組合せモデルの結果を、以下の表5に示す。
モデルI:OT=1,モデルII:予測不能範囲(0.15,0.99)

表5
【0115】
モデルII、モデルIIIおよびモデルIVの組合せモデルの結果を以下の表6に示す。
モデル1 OT=1、モデルII:予測不能範囲(0.15,0.99)、組合せ基準:タイプI=10およびタイプIII=10
表6
【0116】
モデルI、モデルII、モデルIIIおよびモデルIVの組合せモデルについての最良の結果を、以下の表7に示す。
モデル1 OT=1;予測不能範囲(0.15,0.99):組合せ基準:タイプI=10およびタイプIII=10:ランダムフォレスト:ツリー=20、特質の数=18
表7
【0117】
特徴選択のために情報利得を使用したフィンガープリントを伴う、広範に使用されている分類手法であるサポートベクターマシン(SVM)およびランダムフォレストモデルについての最良の結果を、以下の表8に示す。
表8
【0118】
特徴選択のためにANOVA検定を使用した記述子を伴う、SVMおよびランダムフォレストモデルについての最良の結果を以下の表9に示す。
表9
【0119】
記述子およびフィンガープリントの両方を伴う、SVMモデルおよびランダムフォレストモデルについての最良の結果を、以下の表10に示す。特徴選択は、記述子にANOVAを、フィンガープリントに情報利得を使用して行われた。
表10
【0120】
SARpy v1.0、発生基準=1、原子番号の範囲=(2,18)を使用した予測結果を以下の表11に示す。
表11
【0121】
表8から表11に示す他のモデリング手法の結果と比較して、表7に示す本開示によって得られる90.26の精度は、事前定義された統計測定基準(prior defined statistical metrics)に関して観察できる本開示の技術的利点をサポートする。加えて、システム100、腎毒性を予測する上記の例示的実施形態についての本開示によって引き出され得る洞察のいくつかは、a)以下の化学構造(例えば、化学構造1)に示される1つ以上の化学サブ構造/化学構造の存在が、化合物の有毒機能性をもたらし得る、b)以下に示す1つ以上の化学構造(例えば、化学構造2)の存在が、化合物の非有毒機能性をもたらし得ることである。
化学構造1:化合物の腎毒性をもたらし得るサブ構造
化学構造2:化合物の腎毒性をもたらし得ない、または阻害し得るサブ構造
【0122】
明細書は、当業者が実施形態を再現および使用することを可能にするように、本明細書中において主題を記載する。主題の実施形態の範囲は、特許請求の範囲によって定義され、当業者に関連するまたは発生する他の修正を含むことができる。そのような他の修正は、それらが特許請求の範囲の文言と差異のない類似の要素を有する場合、またはそれらが特許請求の範囲の文言と実質的に差異のない均等の要素を備える場合、特許請求の範囲内にあることが意図されている。
【0123】
保護の範囲は、その中にメッセージを有するコンピュータ可読手段に加えて、そのようなプログラムに拡張されることを理解されたい。そのようなコンピュータ可読記憶手段は、プログラムがサーバ若しくはモバイル装置または任意の適切なプログラム可能な装置で実行される時に、当該方法の1つ以上のステップを実施するためのプログラムコード手段を含む。ハードウェア装置は、プログラム可能な任意の種類の装置、例えば、サーバ若しくはパーソナルコンピュータ等の任意の種類のコンピュータ、またはそれらの任意の組合せとすることができる。装置は、ハードウェア手段、例えば、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、またはハードウェアおよびソフトウェアの組合せ、例えば、ASICおよびFPGA、若しくは少なくとも1つのマイクロプロセッサ、およびソフトウェアモジュールが配置される少なくとも1つのメモリとし得る手段を備えていてもよい。したがって、当該手段はハードウェア手段およびソフトウェア手段の両方を備えることができる。本明細書で説明される方法の実施形態は、ハードウェアおよびソフトウェアに実装可能である。装置はソフトウェア手段を備えていてもよい。あるいは、当該実施形態は、例えば、複数のCPUを使用する異なるハードウェア装置に実装されてもよい。
【0124】
本明細書の実施形態は、ハードウェア要素およびソフトウェア要素を含むことができる。ソフトウェアに実装される実施形態は、ファームウェア、常駐ソフトウェア、マイクロコード等を備えるが、これらに限定されない。本明細書で説明される様々なモジュールによって実行される機能は、他のモジュールまたは他のモジュールの組合せに実装されてもよい。この説明の目的のために、コンピュータ使用可能またはコンピュータ可読媒体は、命令実行システム若しくは装置によって使用するためのプログラムを、または命令実行システム若しくは装置に関連して使用するためのプログラムを、含む、保存する、通信する、伝播する、または転送することができる任意の装置とすることができる。
【0125】
図示されたステップは、示された例示的実施形態を説明するために提示されており、進行中の技術開発が特定の機能が実行される方法を変えることが予想されるべきである。これらの実施例は、限定ではなく例示の目的で、本明細書に提示されている。さらに、機能構築ブロックの境界は、説明の都合上、本明細書で任意に定義されている。指定された機能とその関係が適切に実行される限り、代替の境界を定義できる。本明細書に含まれる教示に基づいて、関連技術の当業者には、(本明細書に記載のものの均等、拡張、変化、逸脱(deviations)等を含む)代替物が明らかであろう。そのような代替物は、開示された実施形態の範囲および精神に含まれる。また、「含む」、「有する」、「含有する」、および「備える」等の用語およびその他の類似の形式は、意味が同等であり、オープンエンドであることが意図されており、これらの用語のいずれか1つに続く事項は、このような事項の完全なリストであることを意味するものではなく、リストされた事項のみに限定されることを意味するものでもない。また、本明細書および添付の特許請求の範囲で使用される単数形「a」、「an」、および「the」は、文脈がそうでないことを明確に示さない限り、複数の参照を含むことに留意しなければならない。
【0126】
さらに、本開示と一致する実施形態の実装において、1つ以上のコンピュータ可読記憶媒体を利用してもよい。コンピュータ可読記憶媒体とは、プロセッサで読み取り可能な情報またはデータを保存できる任意のタイプの物理メモリを指す。したがって、コンピュータ可読記憶媒体は、本明細書に記載の実施形態と一致するステップまたは段階をプロセッサに実行させるための命令を含む、1つ以上のプロセッサによる実行のための命令を保存してもよい。「コンピュータ可読媒体」という用語は、有形のアイテムを含み、かつ搬送波および一時的な信号を除外する、つまり一時的でないと理解されるべきである。具体例には、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハードドライブ、CD ROM、DVD、フラッシュドライブ、ディスク、およびその他の既知の物理ストレージメディアが含まれる。
【0127】
本開示および実施例は例示としてのみ考慮されることを意図しており、開示される実施形態の真の範囲および精神は以下の特許請求の範囲によって示される。
図1
図2
図3A
図3B
図4
図5
図6A
図6B
図6C
図6D
図6E
【外国語明細書】