(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-28
(45)【発行日】2024-04-05
(54)【発明の名称】創薬のための医療エンティティ間の意味関係の自動的検証および強化
(51)【国際特許分類】
G16H 20/10 20180101AFI20240329BHJP
G06N 3/04 20230101ALI20240329BHJP
G06F 16/28 20190101ALI20240329BHJP
【FI】
G16H20/10
G06N3/04
G06F16/28
(21)【出願番号】P 2021570153
(86)(22)【出願日】2020-05-21
(86)【国際出願番号】 IB2020054846
(87)【国際公開番号】W WO2020245691
(87)【国際公開日】2020-12-10
【審査請求日】2022-10-21
(32)【優先日】2019-06-06
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【氏名又は名称】太佐 種一
(72)【発明者】
【氏名】スピロ、アダム
(72)【発明者】
【氏名】ヤノバー、チェン
【審査官】今井 悠太
(56)【参考文献】
【文献】特開2016-212853(JP,A)
【文献】特開2017-021412(JP,A)
【文献】米国特許出願公開第2019/0163869(US,A1)
【文献】米国特許出願公開第2014/0046696(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00-80/00
G06N 3/04
G06F 16/28
(57)【特許請求の範囲】
【請求項1】
コンピュータ・システムが実行する創薬およびドラッグ・リポジショニングのための方法であって、
薬品によって治療される症状に関する情報を含むデータベースの生成またはデータベースへの追加を行うことであって、前記情報は薬品および医薬化合物の複数の態様に関するデータに基づいて得られる、前記生成または追加を行うことと、
薬品によって治療される症状に関する前記データベース内の前記情報に基づいて意味関係を生成または追加することであって、前記生成された意味関係はセマンティック・グラフの形で表される、前記生成または追加することと、
前記セマンティック・グラフを処理するためにデノイジング・オートエンコーダを用いて前記セマンティック・グラフ内の前記意味関係のうちの新たな関係を学習することと、
新たに見出された関係を含む前記意味関係に基づいて、創薬およびドラッグ・リポジショニングに対する予測を生成することと
を含む、方法。
【請求項2】
前記データベースの生成またはデータベースへの追加は、
薬品および医薬化合物の複数の態様に関するデータを収集することと、
前記収集されたデータから関連用語を抽出することと、
前記抽出された関連用語を構造化された医学用語に対してマップすることと
によって行われる、請求項1に記載の方法。
【請求項3】
前記意味関係の生成または追加は、
マップされた前記構造化された医学用語に基づいてセマンティック・グラフの形で表される意味関係を生成することによって行われる、請求項2に記載の方法。
【請求項4】
前記生成されたセマンティック・グラフはノードと、前記ノード間のエッジとを含み、前記ノードは薬品または医薬化合物、疾患または状態、および症状のうちの少なくともいくつかを含むエンティティを表し、前記エッジは治療する関係と、副作用を起こす関係、
症状を有する関係、および適応を有する関係のうちの少なくともいくつかとを含む前記ノード間の関係を表す、請求項3に記載の方法。
【請求項5】
前記ノード間の前記関係は、前記関係の確率または前記関係に対するスコアをさらに含む、請求項4に記載の方法。
【請求項6】
薬品および医薬化合物の複数の態様に関する前記データは、音声ソース、ビデオ・ソース、薬品ラベル、医学および薬品に関するデータベース、医学論文および書籍、医療健康記録、ソーシャル・メディア、インターネット・フォーラム、および説明書(テキスト、音声、およびビデオ)を含むテキストおよび非テキスト・ソースからの構造化および非構造化データの少なくともいくつかを含む、請求項5に記載の方法。
【請求項7】
創薬およびドラッグ・リポジショニングのためのコンピュータ・システムであって、前記コンピュータ・システムはプロセッサと、前記プロセッサによってアクセス可能なメモリと、前記メモリに記憶されたコンピュータ・プログラム命令とを含み、前記コンピュータ・プログラム命令は、
薬品によって治療される症状に関する情報を含むデータベースの生成またはデータベースへの追加を行うことであって、前記情報は薬品および医薬化合物の複数の態様に関するデータに基づいて得られる、前記生成または追加を行うことと、
薬品によって治療される症状に関する前記データベース内の前記情報に基づいて意味関係を生成または追加することであって、前記生成された意味関係はセマンティック・グラフの形で表される、前記生成または追加することと、
前記セマンティック・グラフを処理するためにデノイジング・オートエンコーダを用いて前記セマンティック・グラフ内の前記意味関係のうちの新たな関係を学習することと、
新たに見出された関係を含む前記意味関係に基づいて、創薬およびドラッグ・リポジショニングに対する予測を生成することと
を行うように前記プロセッサによって実行可能である、コンピュータ・システム。
【請求項8】
前記データベースの生成またはデータベースへの追加は、
薬品および医薬化合物の複数の態様に関するデータを収集することと、
前記収集されたデータから関連用語を抽出することと、
前記抽出された関連用語を構造化された医学用語に対してマップすることと
によって行われる、請求項7に記載のコンピュータ・システム。
【請求項9】
前記意味関係の生成または追加は、
マップされた前記構造化された医学用語に基づいてセマンティック・グラフの形で表される意味関係を生成することによって行われる、請求項8に記載のコンピュータ・システム。
【請求項10】
前記生成されたセマンティック・グラフはノードと、前記ノード間のエッジとを含み、前記ノードは薬品または医薬化合物、疾患または状態、および症状のうちの少なくともいくつかを含むエンティティを表し、前記エッジは治療する関係と、副作用を起こす関係、
症状を有する関係、および適応を有する関係のうちの少なくともいくつかとを含む前記ノード間の関係を表す、請求項9に記載のコンピュータ・システム。
【請求項11】
前記ノード間の前記関係は、前記関係の確率または前記関係に対するスコアをさらに含む、請求項10に記載のコンピュータ・システム。
【請求項12】
薬品および医薬化合物の複数の態様に関する前記データは、音声ソース、ビデオ・ソース、薬品ラベル、医学および薬品に関するデータベース、医学論文および書籍、医療健康記録、ソーシャル・メディア、インターネット・フォーラム、および説明書(テキスト、音声、およびビデオ)を含むテキストおよび非テキスト・ソースからの構造化および非構造化データの少なくともいくつかを含む、請求項11に記載のコンピュータ・システム。
【請求項13】
創薬およびドラッグ・リポジショニングのためのコンピュータ・プログラムであって、請求項1から請求項6のいずれか一項に記載の方法における各ステップをコンピュータ・システムに実行させる、コンピュータ・プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、創薬においてテストされるべき新たな化合物と、ドラッグ・リパーパシングにおける既存の薬品と、既存の関係の検証との識別を提供する技術に関する。
【背景技術】
【0002】
従来、医薬品開発は出費が多いが生産性が低く、非効率的であった。疾患の治療のための新たな薬品を同定するプロセスである創薬は、費用および時間がかかるものである。候補化合物を同定する必要があり、かつ長期にわたり費用のかかるテストのフェーズを行う必要がある。
【0003】
ドラッグ・リポジショニングは、既存の薬品で治療され得るたとえば疾患などの付加的な効能を見出すプロセスであり、新規の薬品開発に必要な全費用または時間をかけずにより良好でより安全な治療を特定するための有望な手段を提供するものである。リポジショニングに対する候補は通常、市販の薬品か、または安全性以外の問題が理由で臨床試験を中断された薬品である。これらの薬品の安全性プロファイルは公知であるため、代替的効能に対する臨床試験は、新規の薬品開発よりも安価であり、おそらくはより迅速であり、かつリスクがより低い。
【0004】
創薬およびドラッグ・リポジショニングのどちらにおいても、有効である可能性が改善された化合物または既存の薬品を見出すことは望ましい。このために用いられることがある技術の1つがセマンティック・グラフである。既存のセマンティック・グラフ化ソリューションは、セマンティック医療エンティティ・グラフにおいて、たとえば「薬品」、「疾患」、「症状」、「副作用」、「遺伝子」などの医療エンティティ間にあり得る直接的関係のいくつかを考慮に入れていない。たとえば、「薬品」エンティティは通常、(それらの薬品の適応症である)「疾患」、「副作用」、または「遺伝子」と関連付けられているが、既存の方法のどれもが「薬品」と「症状」との直接的関係を考慮に入れていない。
【発明の概要】
【0005】
好ましい実施形態によって、意味関係のより高度な分解を可能にし、かつグラフ内の新たな関係のより正確な予測を可能にすることができる、関係によるセマンティック・グラフ化の強化(enrichment、エンリッチメント)を提供する技術が提供される。
【0006】
本システムおよび方法の実施形態は、意味関係のより高度な分解を可能にし、かつグラフ内の新たな関係のより正確な予測を可能にすることができる関係によるセマンティック・グラフ化の強化を提供する技術を提供してもよい。この技術は、創薬においてテストされるべき新たな化合物と、ドラッグ・リパーパシングにおける既存の薬品と、既存の関係の検証とのより迅速かつより安価な識別の能力を提供してもよい。本システムおよび方法の実施形態は、意味関係のより高度な分解を有し、かつセマンティック・グラフ内の付加的な関係のより正確な予測を可能にする、新規のタイプの直接的関係を使用してもよい。実施形態は、「薬品」-「治療する」-「症状」関係のナレッジベースを含む新たなナレッジベースを使用および強化してもよく、加えてデノイジング・オートエンコーダ(DAE:Denoising Auto-Encoder)の修正形を用いたより洗練された予測法を用いてもよい。
【0007】
たとえばある実施形態において、創薬およびドラッグ・リポジショニングのための方法は、プロセッサと、そのプロセッサによってアクセス可能なメモリと、そのメモリに記憶されかつプロセッサによって実行可能なコンピュータ・プログラム命令とを含むコンピュータ・システムにおいて実現されてもよく、この方法は、薬品によって治療される症状に関する情報を含むデータベースの生成またはデータベースへの追加を行うことであって、その情報は薬品および医薬化合物の複数の態様に関するデータに基づいて得られる、生成または追加を行うことと、コンピュータ・システムにおいて、薬品によって治療される症状に関するデータベース内の情報に基づいて意味関係を生成または追加することであって、生成された意味関係はセマンティック・グラフの形で表される、生成または追加することと、コンピュータ・システムにおいて、セマンティック・グラフを処理するためにデノイジング・オートエンコーダを用いてセマンティック・グラフ内の意味関係のうちの新たな関係を推測することと、コンピュータ・システムにおいて、新たに見出された関係を含む意味関係に基づいて、創薬およびドラッグ・リポジショニングに対する予測を生成することとを含む。
【0008】
実施形態において、データベースの生成またはデータベースへの追加は、コンピュータ・システムにおいて、薬品および医薬化合物の複数の態様に関するデータを収集することと、コンピュータ・システムにおいて、収集されたデータから関連用語を抽出することと、コンピュータ・システムにおいて、抽出された関連用語を構造化された医学用語に対してマップすることとによって行われてもよい。意味関係の生成または追加は、コンピュータ・システムにおいて、マップされた構造化された医学用語に基づいてセマンティック・グラフの形で表される意味関係を生成することによって行われてもよい。生成されたセマンティック・グラフはノードと、ノード間のエッジとを含んでもよく、ノードは薬品または医薬化合物、疾患または状態、および症状のうちの少なくともいくつかを含むエンティティを表し、エッジは治療する関係と、副作用を起こす関係、有する関係、および適応を有する関係のうちの少なくともいくつかとを含むノード間の関係を表す。ノード間の関係は、その関係の確率またはその関係に対するスコアをさらに含んでもよい。薬品および医薬化合物の複数の態様に関するデータは、音声ソース、ビデオ・ソース、薬品ラベル、医学および薬品に関するデータベース、医学論文および書籍、医療健康記録、ソーシャル・メディア、インターネット・フォーラム、および説明書(テキスト、音声、およびビデオ)を含む、テキストおよび非テキスト・ソースからの構造化および非構造化データの少なくともいくつかを含んでもよい。
【0009】
ある実施形態において、システムは、プロセッサと、そのプロセッサによってアクセス可能なメモリと、メモリに記憶されたコンピュータ・プログラム命令とを含んでもよく、そのコンピュータ・プログラム命令は、薬品によって治療される症状に関する情報を含むデータベースの生成またはデータベースへの追加を行うことであって、その情報は薬品および医薬化合物の複数の態様に関するデータに基づいて得られる、生成または追加を行うことと、薬品によって治療される症状に関するデータベース内の情報に基づいて意味関係を生成または追加することであって、生成された意味関係はセマンティック・グラフの形で表される、生成または追加することと、セマンティック・グラフを処理するためにデノイジング・オートエンコーダを用いてセマンティック・グラフ内の意味関係のうちの新たな関係を推測することと、新たに見出された関係を含む意味関係に基づいて、創薬およびドラッグ・リポジショニングに対する予測を生成することと、既存の関係を検証することとを行うようにプロセッサによって実行可能である。
【0010】
ある実施形態において、ソフトウェア・システムをテストするためのコンピュータ・プログラム製品であって、このコンピュータ・プログラム製品は、自身によって具現化されるプログラム命令を有する非一時的コンピュータ可読ストレージを含み、このプログラム命令はコンピュータによって実行可能であることで、薬品によって治療される症状に関する情報を含むデータベースの生成またはデータベースへの追加を行うことであって、その情報は薬品および医薬化合物の複数の態様に関するデータに基づいて得られる、生成または追加を行うことと、コンピュータ・システムにおいて、薬品によって治療される症状に関するデータベース内の情報に基づいて意味関係を生成または追加することであって、生成された意味関係はセマンティック・グラフの形で表される、生成または追加することと、コンピュータ・システムにおいて、セマンティック・グラフを処理するためにデノイジング・オートエンコーダを用いてセマンティック・グラフ内の意味関係のうちの新たな関係を推測することと、コンピュータ・システムにおいて、新たに見出された関係を含む意味関係に基づいて、創薬およびドラッグ・リポジショニングに対する予測を生成することとを含む方法をコンピュータに行わせる。
【0011】
1つの態様によると、創薬およびドラッグ・リポジショニングのための方法が提供され、この方法はプロセッサと、そのプロセッサによってアクセス可能なメモリと、そのメモリに記憶されかつプロセッサによって実行可能なコンピュータ・プログラム命令とを含むコンピュータ・システムにおいて実現され、この方法は、薬品によって治療される症状に関する情報を含むデータベースの生成またはデータベースへの追加を行うことであって、その情報は薬品および医薬化合物の複数の態様に関するデータに基づいて得られる、生成または追加を行うことと、コンピュータ・システムにおいて、薬品によって治療される症状に関するデータベース内の情報に基づいて意味関係を生成または追加することであって、生成された意味関係はセマンティック・グラフの形で表される、生成または追加することと、コンピュータ・システムにおいて、セマンティック・グラフを処理するためにデノイジング・オートエンコーダを用いてセマンティック・グラフ内の意味関係のうちの新たな関係を学習することと、コンピュータ・システムにおいて、新たに見出された関係を含む意味関係に基づいて、創薬およびドラッグ・リポジショニングに対する予測を生成することとを含む。
【0012】
別の態様によると、ソフトウェア・システムをテストするためのシステムが提供され、このシステムはプロセッサと、そのプロセッサによってアクセス可能なメモリと、メモリに記憶されたコンピュータ・プログラム命令とを含み、そのコンピュータ・プログラム命令は、薬品によって治療される症状に関する情報を含むデータベースの生成またはデータベースへの追加を行うことであって、その情報は薬品および医薬化合物の複数の態様に関するデータに基づいて得られる、生成または追加を行うことと、コンピュータ・システムにおいて、薬品によって治療される症状に関するデータベース内の情報に基づいて意味関係を生成または追加することであって、生成された意味関係はセマンティック・グラフの形で表される、生成または追加することと、コンピュータ・システムにおいて、セマンティック・グラフを処理するためにデノイジング・オートエンコーダを用いてセマンティック・グラフ内の意味関係のうちの新たな関係を学習することと、コンピュータ・システムにおいて、新たに見出された関係を含む意味関係に基づいて、創薬およびドラッグ・リポジショニングに対する予測を生成することとを行うようにプロセッサによって実行可能である。
【0013】
別の態様によると、ソフトウェア・システムをテストするためのコンピュータ・プログラム製品が提供され、このコンピュータ・プログラム製品は、自身によって具現化されるプログラム命令を有する非一時的コンピュータ可読ストレージを含み、このプログラム命令はコンピュータによって実行可能であることで、薬品によって治療される症状に関する情報を含むデータベースの生成またはデータベースへの追加を行うことであって、その情報は薬品および医薬化合物の複数の態様に関するデータに基づいて得られる、生成または追加を行うことと、コンピュータ・システムにおいて、薬品によって治療される症状に関するデータベース内の情報に基づいて意味関係を生成または追加することであって、生成された意味関係はセマンティック・グラフの形で表される、生成または追加することと、コンピュータ・システムにおいて、セマンティック・グラフを処理するためにデノイジング・オートエンコーダを用いてセマンティック・グラフ内の意味関係のうちの新たな関係を学習することと、コンピュータ・システムにおいて、新たに見出された関係を含む意味関係に基づいて、創薬およびドラッグ・リポジショニングに対する予測を生成することとを含む方法をコンピュータに行わせる。
【0014】
ここで以下の図面を参照して単なる例として本発明の好ましい実施形態を説明することとし、これらの図面において類似の参照番号および名称は類似の構成要素を示す。
【図面の簡単な説明】
【0015】
【
図1】本システムおよび方法の実施形態による複数の医療エンティティを有する例示的なセマンティック・グラフを示す図である。
【
図2】本システムおよび方法の実施形態による関係を示す例示的な図である。
【
図3】本システムおよび方法の実施形態による「薬品」-「治療する」-「症状」関係のデータベースを生成するプロセスを示す例示的な流れ図である。
【
図4】本システムおよび方法の実施形態によるデノイジング・オートエンコーダのプロセスを示す例示的な流れ図である。
【
図5】本システムおよび方法の実施形態によるパターンおよび関係の学習を示す例示的な図である。
【
図6】本システムおよび方法の実施形態によるエッジ値を示す例示的な図である。
【
図7】本システムおよび方法の実施形態によるネットワークの出力を示す例示的な図である。
【
図8】本明細書に記載される実施形態に関与するプロセスが実施され得るコンピュータ・システムを示す例示的なブロック図である。
【発明を実施するための形態】
【0016】
本システムおよび方法の実施形態は、意味関係のより高度な分解を可能にし、かつグラフ内の新たな関係のより正確な予測を可能にすることができる関係によるセマンティック・グラフ化の強化を提供する技術を提供してもよい。この技術は、創薬においてテストされるべき新たな化合物と、ドラッグ・リパーパシングにおける既存の薬品と、既存の関係の検証とのより迅速かつより安価な識別の能力を提供してもよい。本システムおよび方法の実施形態は、意味関係のより高度な分解を有し、かつセマンティック・グラフ内の付加的な関係のより正確な予測を可能にする新規のタイプの直接的関係を使用してもよい。実施形態は、「薬品」-「治療する」-「症状」関係を含む新たなナレッジベースを生成してもよく、加えてデノイジング・オートエンコーダ(DAE)の修正形を用いたより洗練された予測法を用いてもよい。
【0017】
図1には、複数の医療エンティティを有するセマンティック・グラフ100の例が示されている。医療エンティティは、「薬品」102A~C、「疾患」104A~C、「症状」106A~C、「副作用」(図示せず)、「遺伝子」(図示せず)などを含んでもよい。意味関係は、「治療する」(図示せず)(たとえば、薬品が疾患または症状を治療する)、「起こす」108A~B(たとえば、薬品が副作用を起こす)、「有する」110A~D(たとえば、疾患が症状を有する)、「適応を有する」112A~B(たとえば、薬品が疾患を治療することが承認される)、「標的とする」(図示せず)(たとえば、薬品がタンパク質を標的とする)などを含んでもよい。本システムおよび方法の実施形態は、たとえば「薬品」と「疾患」とのエンティティ間で、たとえば「薬品D」は「疾患Dx」に対して適応を有するなど、または薬品とタンパク質との間などにおいて、創薬またはドラッグ・リパーパシングを支援し得る新たな意味関係を発見してもよい。
【0018】
本システムおよび方法の実施形態は、薬品(またはその他の医学的な治療/手順)のリパーパシングの候補を計算的に提案したり、新たな化合物の治療機能を提案したりしてもよい。
【0019】
本システムおよび方法の実施形態は、医療エンティティのセマンティック・グラフ内の新たな関係を予測してもよい。こうした関係は、意味のある洞察(インサイト)に変換されることがある。たとえば、「薬品」-「治療する」-「疾患」の新たな関係は、既存の薬品が新たな疾患に対して適応を有し得ること(ドラッグ・リパーパシング)を意味し、「化合物」-「抑制する」-「タンパク質」は新たな創薬のプロセスを助けるかもしれない。このタスクを達成するために、実施形態は「薬品」-「治療する」-「症状」関係という以前は用いられていなかった意味関係への変換を行う新たなタイプのナレッジベースを用いてもよい。これらの新たな関係は、セマンティック・グラフに埋め込まれる知識を強化(エンリッチ)してもよく、よって医療エンティティのセマンティック・グラフ内の新たな関係の新規の予測の精度を上げることを助けてもよい。
【0020】
新たな「薬品」-「治療する」-「症状」関係。疾患に対して薬品が適応を有していても、疾患はいくつかの症状によって特徴付けられることが多い。薬品はその適応症である疾患の根本的原因を治療するものではなく、特定の症状を治療または緩和するものかもしれない(疾患修飾薬に対する対症薬)。本システムおよび方法の実施形態は、薬品と症状との直接的関係を生成および使用することによって、既存の薬品に対する新たな効能を見出すことを可能にしてもよい。各症状に対する各薬品の直接の影響が知られているときは、既存の薬品に対する新たな疾患候補を生成するため、または新たな化合物の機能を見出すために、たとえば薬品-疾患および疾患-症状の関係などの付加的なデータが使用されてもよい。同様に、実施形態は、たとえば効能、因果関係、症状などの既存の関係の検証を提供してもよい。実施形態において、「薬品」-「治療する」-「症状」関係のデータベースが生成されて、セマンティック・グラフを強化するために用いられてもよい。グラフの強化は、たとえばデノイジング・オートエンコーダ(DAE)の新規の修正形を通じて行われてもよい。DAEの入力は、セマンティック・グラフにおいてコード化されるすべての利用可能な知識を含んでもよく、出力は信頼性スコアとともにグラフ内の新たな関係に変換されてもよい。
【0021】
図2に示されるとおり、本システムおよび方法の実施形態は、「薬品」202と「症状」204との関係200を使用および実現してもよい。実施形態は、各関係に付随する確率またはスコア206も含んでもよい。実施形態はこの関係タイプに対するベースラインを生成して、グラフ内の新たな関係(すなわちエッジ)を予測するためにそれを用いてもよい。
【0022】
疾患を高レベルの均質な状態として観察する代わりに、疾患を症状のセットとして見てもよく、各薬品は実際にはこれらの症状のサブセットを治療してもよい。このアプローチは薬品の実際の影響の調査を可能にし、同じ疾患の患者であっても異なり得る関連症状の出現に基づく新たな関係のより正確な予測を可能にする。副作用を起こすこと、または既存の状態を悪化させることに加えて、薬品と症状との関係には「治療する」または「低減させる」(症状の原因を標的とすることもしないこともある)関係があり得る。薬品と症状との関係は、明確にされた薬品機構を理解するための付加的な分解層を提供してもよく、よって新たな意味関係を見出すタスクにおいて重要な役割を果たしてもよい。
【0023】
「薬品」-「治療する」-「症状」関係のナレッジベースの生成。現在、医療エンティティ間のさまざまな関連関係タイプを定めるいくつかのデータベースが存在する。たとえば、薬品と疾患との関係は、FDAによって臨床試験に基づく薬品の効能を提供することによって公表されている。疾患と症状との関係は、ときには存在する症状から疾患を同定するために用いられ(たとえば、https://symptoms.webmd.com/など)、いくつかの刊行物もこの関係タイプを調査している(たとえば、https://www.nature.com/articles/ncomms5212およびhttps://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8122734など)。他にもたとえば、疾患と表現型との関係をマップしているヒト表現型オントロジ(The Human Phenotype Ontology)(https://hpo.jax.org/)、または代謝と、遺伝子と、疾患と、薬品との関係をマップしているKEGG経路データベース(KEGG Pathway Database)(https://www.genome.jp/kegg/)などのデータベースが存在する。しかし、薬品と症状との直接的関係については公的に入手可能なリソースが限られており、薬品の副作用を記載したデータベース(たとえば、http://sideeffects.embl.de/など)はあるが、各薬品がどの症状に影響するかは記載されていない。
【0024】
実施形態は、「薬品」-「治療する」-「症状」関係のデータベースを生成してもよく、医療エンティティのセマンティック・グラフを強化するためにそれが用いられてもよい。
図3には、「薬品」-「治療する」-「症状」関係のデータベースを生成するプロセス300の例示的な流れ図が示されている。プロセス300は302から始まってもよく、ここでデータが収集されてもよい。たとえば収集されたデータは、たとえば音声およびビデオ、たとえば薬品ラベルなどのソース、医学および薬品に関するデータベース、医学論文および書籍、医療健康記録、ソーシャル・メディア、インターネット・フォーラム、説明書(テキスト、音声、およびビデオ)などの、さまざまなテキストおよび非テキスト・ソースからのさまざまな構造化および非構造化データを含んでもよい。これらのリソース(およびその他のもの)を用いて、「薬品」-「治療する」-「症状」関係の抽出、分析、および生成に用いられ得るデータのプールとなり得るものを強化してもよい。304において、たとえば薬品名、症状、疾患、およびそれらの関係などの関連用語を抽出するために、テキスト、音声、および画像分析に対する公知のプロセスが用いられてもよい。306において、たとえばMeSH用語、ICD、またはRxNormなどの構造化された医学用語およびオントロジに対して、抽出された用語がマップされてもよい。
【0025】
308において、用語間の意味関係を生成するために、(上述のデータ・ソースのコンテキストにおいて)用語が分析されてもよい。その例は以下を含んでもよい。
【0026】
薬品が特定の症状を「起こす」か、または「治療する」かどうかを理解するために用いられ得るセンチメント・テキスト分析。
【0027】
ノードが用語であり、エッジ重みが2つのノードの共起である重み付きグラフを生成するために、用語共起が用いられてもよい。ノード間の意味関係を見出すために、グラフの特徴および構造が分析されてもよい。
【0028】
たとえばword2vec(単語埋め込みを生成するために用いられる関連モデルのグループ、米国特許第9,037,464号に記載される)またはGloVe(グローバル・ベクトル(Global Vectors)、スタンフォード大学(Stanford University)による分散単語表現のためのモデル)などを用いた単語埋め込みを用いて、たとえば「薬品Aの症状Xに対する関係は、薬品Bの症状Yに対する関係と同様である」など、2つの用語の関連性を推測してもよい。
【0029】
310において、生成されたデータベースは記憶されてもよい。生成されたデータベースは薬品と症状との関係のセットを含んでもよく、各関係は影響(例、「起こす」または「治療する」)の方向と、信頼性レベルとを含む。生成されたデータベースは、「薬品」-「治療する」-「症状」関係を構造化された方式で含み、かつ上述のとおりに生成された新たなナレッジベースを含んでもよい。このナレッジベースを生成した後に、セマンティック・グラフにおいてこれらの関係がコード化されてもよい。さらに、たとえば創薬などの予測タスクのためにデノイジング・オートエンコーダ(DAE)が用いられてもよく、このDAEは以前生成されたコード化された薬品-治療する-症状の関係も用いてもよい。これらの関係もDAEを用いて強化されてもよい。
【0030】
上述のとおり、DAEは新たな関係を予測するために用いられてもよい。DAEの従来からの使用法は、入力の教師なし再構築によって単一ドメインの潜在的なコンパクト表現を生成することである。入力の一部をランダムに削除して完全な入力の再構築を試みることによって、ネットワークは入力の部分的情報から完全な入力を再構築するために入力ノード間の複雑な関係を学習する。
【0031】
本システムおよび方法の実施形態においては、DAEの修正バージョンが用いられてもよい。デノイジング・オートエンコーダ(DAE)は特定のタイプのオートエンコーダであり、ディープ・ニューラル・ネットワークのタイプであるとみなされてもよい。DAEは、自身の入力に基づいて特定のモデルを生成するために隠れ層を用いるようにトレーニングされてもよい。一般的に、オートエンコーダはたとえば教師なし機械学習などを用いて自身の入力を再構築してもよく、非構造化データから結果を得てもよい。ターゲット出力を入力と一致させて平衡に達するために、DAEは破損したバージョンの入力を受容してもよく、デノイジング技術を用いることによってクリーンな入力の再構築を試みてもよい。入力サイズのパーセンテージとしての特定の量のノイズが導入されてもよく、それによって隠れ層に、破損したバージョンからクリーンなバージョンを生成させてもよい。加えて、複数のDAEが積み重ねられて、自身の目標を達成するための反復学習を提供してもよい。
【0032】
図4に、DAE400の例示的なプロセスが示されている。402において、ただ1つのドメインからの入力ではなく、たとえば「薬品の副作用」、「薬品の効能」、「フィンガープリント」などのいくつかのドメインから入力が得られてもよい。404において、新たな関係の発見が望まれるエンティティのみの再構築が行われてもよい。たとえば前記のとおり、セマンティック・グラフ強化のあり得る実施形態は、ドラッグ・リパーパシングである。
【0033】
406において、パターンおよび関係が学習されてもよい。たとえば
図5に示されるとおり、各「薬品」102A~Cは1つ以上の数ベクトルによって表されてもよく、各エントリの値は、セマンティック・グラフにおいてコード化されたその薬品と何らかの他の医療エンティティとの意味関係を表す。たとえば
図5において、「疾患Dx1」との「適応を有する」関係112Aに対応する「薬品D1」ベクトル・エントリは「真」にセットされてもよく、「症状S2」との「(副作用を)起こす」108Aに対応する「薬品D2」ベクトル・エントリは「真」にセットされてもよく、「症状S2」との「(副作用を)起こす」108Bおよび「疾患Dx3」への「適応を有する」112Bに対応する「薬品D3」ベクトル・エントリは「真」にセットされてもよく、一方で存在しないエッジに対応するベクトル・エントリは「偽」にセットされてもよい。
【0034】
図6の例に示されるとおり、ベクトル値はバイナリ(たとえば、「適応を有する」関係112A~Bなどの「適応を有する」関係に対する「真」または「偽」など)または確率(たとえば、「副作用を起こす」関係108A~Bなどの「副作用を起こす」関係など)のいずれかであってもよいが、任意の適切なスコアであってもよい。加えて、たとえば「治療する」関係114A~Bなどの「治療する」関係がグラフ100に含まれてもよい。ネットワークの出力は、関係のサブセットまたは異なるセットであってもよく、たとえば
図7に示されるとおり、「疾患Dxに対して適応を有する」関係702A~Nの入力ノードは、出力ノード704A~Nにマップされてもよい。教師なしトレーニング・スキームを使用することによって、DAEは入力ノードから値をランダムに削除することによって、出力を回復させるために存在する関係の複雑なパターンを学習する。従来のDAEとは異なり、出力ノードは入力ノードと同一でなくてもよい。
【0035】
408において、入力ベクトルのノード間の複雑なパターンおよび関係を学習することによって、DAEはたとえば「薬品Dは疾患Dxに対して適応を有する」などの形のグラフ内の新たな関係を予測してもよい。ネットワークをトレーニングした後、そのトレーニングされたネットワークを用いて、完全な入力情報を用いた実際の最終予測を生成してもよい。新たな予測は、たとえば最終層においてSoftmax関数を用いることなどによって、それらの信頼性レベルによって検討されてもよい。Softmaxは、単一クラスのロジスティック回帰のアイデアを多クラスの世界に拡張するものである。つまり、Softmaxは小数の確率を多クラスの問題の各クラスに割り当てる。それらの小数の確率は、合計1.0になる必要がある。この付加的な制約は、トレーニングが他の場合よりも迅速に収束することを助ける。Softmaxは、出力層の直前のニューラル・ネットワーク層を通じて実施される。Softmax層は、出力層と同数のノードを有する必要がある。
【0036】
図8には、本明細書に記載される実施形態に関与するプロセスが実施され得るコンピュータ・システム800の例示的なブロック図が示されている。コンピュータ・システム800は、たとえば組み込みプロセッサ、システム・オン・チップ、パーソナル・コンピュータ、ワークステーション、サーバ・システム、およびミニコンピュータまたはメインフレーム・コンピュータなどの1つ以上のプログラムされた汎用目的コンピュータ・システムを用いて実現されてもよいし、分散型のネットワーク・コンピューティング環境において実現されてもよい。コンピュータ・システム800は、1つ以上のプロセッサ(CPU)802A~802Nと、入力/出力回路804と、ネットワーク・アダプタ806と、メモリ808とを含んでもよい。CPU802A~802Nは、本通信システムおよび方法の機能を行うためにプログラム命令を実行する。通常CPU802A~802Nは、1つ以上のたとえばINTEL CORE(R)プロセッサなどのマイクロプロセッサである。
図8に示される実施形態において、コンピュータ・システム800は単一のマルチプロセッサ・コンピュータ・システムとして実現されており、ここで複数のプロセッサ802A~802Nは、たとえばメモリ808、入力/出力回路804、およびネットワーク・アダプタ806などのシステム・リソースを共有している。しかし、本通信システムおよび方法は、コンピュータ・システム800が複数のネットワーク・コンピュータ・システムとして実現されるような実施形態も含んでおり、それらのネットワーク・コンピュータ・システムは単一プロセッサ・コンピュータ・システム、マルチプロセッサ・コンピュータ・システム、またはその混合であってもよい。
【0037】
入力/出力回路804は、コンピュータ・システム800にデータを入力するか、またはそこからデータを出力する能力を提供する。たとえば入力/出力回路は、たとえばキーボード、マウス、タッチパッド、トラックボール、スキャナ、アナログ・デジタル・コンバータなどの入力デバイスと、たとえばビデオ・アダプタ、モニタ、プリンタなどの出力デバイスと、たとえばモデムなどの入力/出力デバイスとを含んでもよい。ネットワーク・アダプタ806は、デバイス800をネットワーク810とインターフェースする。ネットワーク810は、インターネットを含むがそれに限定されない任意の公共または専用のLANまたはWANであってもよい。
【0038】
メモリ808は、コンピュータ・システム800の機能を行うためにCPU802によって実行されるプログラム命令と、CPU802によって使用および処理されるデータとを記憶する。メモリ808はたとえば、電子メモリ・デバイス、たとえばランダム・アクセス・メモリ(RAM:random-access memory)、リード・オンリ・メモリ(ROM:read-only memory)、プログラマブル・リード・オンリ・メモリ(PROM:programmable read-only memory)、電気的消去可能プログラマブル・リード・オンリ・メモリ(EEPROM:electrically erasable programmable read-only memory)、フラッシュ・メモリなど、および電気機械メモリ、たとえば磁気ディスク・ドライブ、テープ・ドライブ、光ディスク・ドライブなどを含んでもよく、それはインテグレーテッド・ドライブ・エレクトロニクス(IDE:integrated drive electronics)インターフェースまたはその変形もしくはエンハンスメント、たとえばエンハンストIDE(EIDE:enhanced IDE)もしくはウルトラダイレクト・メモリ・アクセス(UDMA:ultra-direct memory access)など、あるいは小型コンピュータ・システム・インターフェース(SCSI:small computer system interface)ベースのインターフェースまたはその変形もしくはエンハンスメント、たとえばファストSCSI、ワイドSCSI、ファスト・アンド・ワイドSCSIなど、あるいはシリアル・アドバンスト・テクノロジ・アタッチメント(SATA:Serial Advanced Technology Attachment)またはその変形もしくはエンハンスメント、あるいはファイバ・チャネル・アービトレーテッド・ループ(FC-AL:fiber channel-arbitrated loop)インターフェースを用いてもよい。
【0039】
メモリ808のコンテンツは、コンピュータ・システム800が行うようにプログラムされる機能によって変わってもよい。
図8に示される例においては、上述のプロセスの実施形態に対するルーチンおよびデータを表す例示的なメモリ・コンテンツが示されている。しかし当業者は、周知の工学的考察に基づいて、これらのルーチンがそれらのルーチンに関係するメモリ・コンテンツとともに1つのシステムまたはデバイスに含まれなくてもよく、複数のシステムまたはデバイスに分散されてもよいことを認識するだろう。本システムおよび方法は、こうした配置のいずれかおよびすべてを含んでもよい。
【0040】
図8に示される例において、メモリ808はナレッジベース812と、セマンティック・グラフ・データ814と、ナレッジベース生成ルーチン816と、セマンティック・グラフ・ルーチン818と、DAEルーチン820と、オペレーティング・システム822とを含んでもよい。ナレッジベース812は、上述のとおりの薬品、医薬化合物、症状、副作用などの間の関係に関するデータを含んでもよい。セマンティック・グラフ・データ814は、上述のとおりの薬品、化合物、症状、副作用などの間の関係のセマンティック・グラフを表すデータを含んでもよい。ナレッジベース生成ルーチン816は、上述のとおりの薬品および医薬化合物の複数の態様に関するデータからナレッジベース812を生成するためのソフトウェア・ルーチンを含んでもよい。セマンティック・グラフ・ルーチン818は、上述のとおりの医療エンティティのセマンティック・グラフの生成もしくは強化またはその両方を行うためのソフトウェア・ルーチンを含んでもよい。DAEルーチン820は、上述のとおりのDAEを用いた新たな関係の予測もしくは関係の強化またはその両方を行うためのソフトウェア・ルーチンを含んでもよい。オペレーティング・システム822は、全体的なシステム機能を提供してもよい。
【0041】
図8に示されるとおり、本通信システムおよび方法は、マルチプロセッサ、マルチタスク、マルチプロセス、もしくはマルチスレッド・コンピューティング、またはその組み合わせを提供する単数または複数のシステムにおける実施と、単一プロセッサ、単一スレッド・コンピューティングのみを提供するシステムにおける実施とを含んでもよい。マルチプロセッサ・コンピューティングは、2つ以上のプロセッサを用いて計算を行うことを伴う。マルチタスク・コンピューティングは、2つ以上のオペレーティング・システム・タスクを用いて計算を行うことを伴う。タスクとは、実行中のプログラムと、オペレーティング・システムが用いる管理情報との組み合わせを示すオペレーティング・システムの概念である。プログラムが実行されるときは常に、それに対する新たなタスクをオペレーティング・システムが作成する。タスクはプログラムをタスク番号によって識別し、それに他の管理情報を添付する点が、プログラムに対するエンベロープに似ている。Linux(R)、UNIX(R)、OS/2(R)、およびウィンドウズ(Windows)(R)を含む多くのオペレーティング・システムは、同時に多くのタスクを実行でき、マルチタスク・オペレーティング・システムと呼ばれている。マルチタスクとは、オペレーティング・システムが同時に2つ以上の実行ファイルを実行する能力のことである。各実行ファイルは自身のアドレス・スペースにおいて実行され、これはそれらの実行ファイルが自身のメモリを何ら共有できないことを意味する。任意のプログラムがシステムにおいて実行中の他のプログラムのいずれかの実行を損なうことが不可能であるため、このことは利点を有する。しかし、これらのプログラムは、オペレーティング・システムを通じて(またはファイル・システムに記憶されたファイルを読取ることによって)行う以外に任意の情報を交換することができない。タスクとプロセスという用語はしばしば交換可能に用いられるため、マルチプロセス・コンピューティングはマルチタスク・コンピューティングと類似のものであるが、いくつかのオペレーティング・システムはこれら2つの用語を区別している。
【0042】
本発明は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、もしくはコンピュータ・プログラム製品、またはその組み合わせであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を行わせるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体(または複数の媒体)を含んでもよい。コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持および記憶できる有形デバイスであり得る。
【0043】
コンピュータ可読記憶媒体は、たとえば電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、または前述の任意の好適な組み合わせなどであってもよいが、それに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的リストは以下を含む。ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(ROM)、消去可能プログラマブル・リード・オンリ・メモリ(erasable programmable read-only memory)(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM:static random access memory)、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ(CD-ROM:compact disc read-only memory)、デジタル多用途ディスク(DVD:digital versatile disk)、メモリ・スティック、フレキシブル・ディスク、機械的にコード化されたデバイス、たとえばパンチ・カードまたは記録された命令を有する溝の中の隆起構造など、および前述の任意の好適な組み合わせ。本明細書において用いられるコンピュータ可読記憶媒体は、たとえば電波もしくはその他の自由に伝播する電磁波、導波路もしくはその他の伝送媒体を通じて伝播する電磁波(例、光ファイバ・ケーブルを通過する光パルス)、またはワイヤを通じて伝送される電気信号など、それ自体が一時的信号のものであると解釈されるべきではない。
【0044】
本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスにダウンロードされ得るか、またはたとえばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、もしくは無線ネットワーク、またはその組み合わせなどのネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードされ得る。ネットワークは銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバ、またはその組み合わせを含んでもよい。各コンピューティング/処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、ネットワークからコンピュータ可読プログラム命令を受信して、そのコンピュータ可読プログラム命令をそれぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するために転送する。
【0045】
本発明の動作を実行するためのコンピュータ可読プログラム命令はアセンブラ命令、命令セット・アーキテクチャ(ISA:instruction-set-architecture)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路に対する構成データ、または1つ以上のプログラミング言語の任意の組み合わせで書かれたソース・コードもしくはオブジェクト・コードであってもよく、このプログラミング言語はオブジェクト指向プログラミング言語、たとえばSmalltalk、またはC++など、および手続き型プログラミング言語、たとえば「C」プログラミング言語または類似のプログラミング言語などを含む。コンピュータ可読プログラム命令は、すべてがユーザのコンピュータで実行されてもよいし、スタンド・アロン・ソフトウェア・パッケージとして部分的にユーザのコンピュータで実行されてもよいし、一部がユーザのコンピュータで、一部がリモート・コンピュータで実行されてもよいし、すべてがリモート・コンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN:local area network)または広域ネットワーク(WAN:wide area network)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されてもよいし、(たとえば、インターネット・サービス・プロバイダを用いてインターネットを通じて)外部コンピュータへの接続が行われてもよい。いくつかの実施形態において、たとえばプログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA:field-programmable gate arrays)、またはプログラマブル・ロジック・アレイ(PLA:programmable logic arrays)などを含む電子回路は、本発明の態様を行うために電子回路をパーソナライズするためのコンピュータ可読プログラム命令の状態情報を使用することによって、コンピュータ可読プログラム命令を実行してもよい。
【0046】
本明細書においては、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品の流れ図もしくはブロック図またはその両方を参照して、本発明の態様を説明している。流れ図もしくはブロック図またはその両方の各ブロック、および流れ図もしくはブロック図またはその両方におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実現され得ることが理解されるだろう。
【0047】
これらのコンピュータ可読プログラム命令は、汎用目的コンピュータ、特定目的コンピュータ、またはマシンを生成するためのその他のプログラマブル・データ処理装置のプロセッサに提供されることによって、そのコンピュータまたはその他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、流れ図もしくはブロック図またはその両方の単数または複数のブロックにおいて指定される機能/動作を実現するための手段を生じてもよい。これらのコンピュータ可読プログラム命令は、コンピュータ、プログラマブル・データ処理装置、もしくはその他のデバイス、またはその組み合わせに特定の方式で機能するように指示できるコンピュータ可読記憶媒体にも記憶されることによって、命令が記憶されたコンピュータ可読記憶媒体が、流れ図もしくはブロック図またはその両方の単数または複数のブロックにおいて指定される機能/動作の態様を実現する命令を含む製造物を含んでもよい。
【0048】
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにもロードされて、コンピュータに実現されるプロセスを生成するためにコンピュータ、他のプログラマブル装置、または他のデバイスにおいて一連の動作ステップを行わせることによって、そのコンピュータ、他のプログラマブル装置、または他のデバイスにおいて実行される命令が、流れ図もしくはブロック図またはその両方の単数または複数のブロックにおいて指定される機能/動作を実現してもよい。
【0049】
図面における流れ図およびブロック図は、本発明のさまざまな実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実施のアーキテクチャ、機能、および動作を示すものである。これに関して、流れ図またはブロック図の各ブロックは、指定される論理機能(単数または複数)を実現するための1つ以上の実行可能命令を含むモジュール、セグメント、または命令の一部を表してもよい。いくつかの代替的実施において、ブロック内に示される機能は、図面に示されるものとは異なる順序で起こってもよい。たとえば、連続して示される2つのブロックは、実際には実質的に同時に実行されてもよいし、関与する機能によってはこれらのブロックがときに逆の順序で実行されてもよい。加えて、ブロック図もしくは流れ図またはその両方の各ブロック、およびブロック図もしくは流れ図またはその両方のブロックの組み合わせは、指定された機能または動作を行うか、特定目的のハードウェアおよびコンピュータ命令の組み合わせを実行する特定目的のハードウェア・ベースのシステムによって実現され得ることが注目されるだろう。
【0050】
本発明の特定の実施形態を説明したが、説明された実施形態と同等の他の実施形態も存在することを当業者は理解するだろう。したがって、本発明は特定の例示される実施形態によって制限されるべきではなく、添付の請求項の範囲のみによって制限されることが理解されるべきである。