(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-06
(45)【発行日】2024-06-14
(54)【発明の名称】複数の異種のデータベースにまたがるデータ分析の共同を可能にするための共同プラットフォーム
(51)【国際特許分類】
G16H 10/00 20180101AFI20240607BHJP
G16H 70/40 20180101ALI20240607BHJP
G06Q 10/06 20230101ALI20240607BHJP
【FI】
G16H10/00
G16H70/40
G06Q10/06
(21)【出願番号】P 2023523552
(86)(22)【出願日】2021-12-03
(86)【国際出願番号】 US2021061908
(87)【国際公開番号】W WO2022120244
(87)【国際公開日】2022-06-09
【審査請求日】2023-09-14
(32)【優先日】2020-12-03
(33)【優先権主張国・地域又は機関】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】504389991
【氏名又は名称】ノバルティス アーゲー
(74)【代理人】
【識別番号】100092783
【氏名又は名称】小林 浩
(74)【代理人】
【識別番号】100095360
【氏名又は名称】片山 英二
(74)【代理人】
【識別番号】100120134
【氏名又は名称】大森 規雄
(74)【代理人】
【識別番号】100221327
【氏名又は名称】大川 亮
(72)【発明者】
【氏名】サクセナ,シドヒャンシ
(72)【発明者】
【氏名】プレッケバウム,アチム
(72)【発明者】
【氏名】スリニヴァサン,バドヒリ
(72)【発明者】
【氏名】ディール,クリスティアン
【審査官】渡邉 加寿磨
(56)【参考文献】
【文献】米国特許出願公開第2010/0332281(US,A1)
【文献】米国特許出願公開第2010/0174662(US,A1)
【文献】米国特許出願公開第2017/0091686(US,A1)
【文献】特開2002-207844(JP,A)
【文献】特開2020-52602(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G06F 16/00-16/958
G16B 5/00-99/00
G16C 10/00-99/00
G16H 10/00-80/00
G16Z 99/00
(57)【特許請求の範囲】
【請求項1】
薬剤発見および開発のために異種のデータベースにまたがる生命科学データの分析の共同を可能にするためのプラットフォームであって、前記プラットフォームは、少なくとも1つのハードウェアプロセッサと、少なくとも1つのメモリと、少なくとも1つのデータ資産に動作的に接続された少なくとも1つの通信手段とを備え、前記少なくとも1つのメモリは、前記少なくとも1つのハードウェアプロセッサによって実行されると前記プラットフォームに複数のモジュールの動作を実行させる命令を含み、前記複数のモジュールは、
検索およびグラフモジュールであって、
ユーザプロジェクトを生成することであって、前記ユーザプロジェクトが、a)人気度に基づくシステム推奨、b)検索語、フィルタ、および/または1つもしくは複数のドロップダウンメニューからの選択の指示、ならびに、c)ユーザによって入力された自然言語での少なくとも1つの科学的問題、の1つまたは複数から決定される複数の属性を備える、ユーザプロジェクトを生成することであって、前記複数の属性は、
複数の要素であって、前記ユーザプロジェクトの前記
複数の要素の間で、又は1つまたは複数の生産者プロジェクトと、新しい関係を形成するように構成される、
複数の要素を含み、前記1つまたは複数の生産者プロジェクトは、1つまたは複数の以前に生成されたユーザプロジェクトを含む、生成することと
前記ユーザプロジェクトおよび前記1つまたは複数の生産者プロジェクトに基づいて1つまたは複数の一致するデータ資産を決定することであって、データ資産は前記1つまたは複数の生産者プロジェクトにおける科学的な取り組みの結果として生み出された測定値または観測値を含む、決定することと
前記1つまたは複数の一致するデータ資産に基づいて1つまたは複数の潜在共同者を決定することであって、前記データ資産の少なくとも一部は、前記潜在共同者の1つまたは複数と以前に共有されていない、決定することと
を行うための検索およびグラフモジュールと、
前記ユーザと、前記ユーザによって選択された1つまたは複数の選択されたデータ資産に関連する1つまたは複数の選択された共同者との間の共同を連係させるための共同モジュールであって、前記選択された共同者が、前記潜在共同者のサブセットであり、前記選択されたデータ資産が、前記一致するデータ資産のサブセットであり、前記共同を連係させることが、
前記1つまたは複数の選択されたデータ資産に関連する前記選択された共同者に通知を行うことと、
前記選択された共同者に、前記ユーザプロジェクトの概要を提供することと、
前記ユーザに、前記1つまたは複数の選択されたデータ資産を検査する能力を与えることと、
前記ユーザおよび前記1つまたは複数の選択された共同者が賛同した場合、前記ユーザと前記選択された共同者との間の前記共同を最終確定することと、
を含む、共同モジュールと、
データ管理モジュールであって、
前記1つまたは複数の生産者プロジェクトの各々に関するスキーマを受け取り、
前記1つまたは複数の選択されたデータ資産からデータを受け取り、
前記受け取ったデータを、共通の規格およびオントロジーを使用して取り込み、
前記潜在共同者の1つまたは複数と共有可能な前記データ資産の少なくとも一部へのアクセスを制御し、
取り込まれたデータは、前記複数の属性を用いた前記検索およびグラフモジュールによって前記ユーザプロジェクトと比較されるために前記1つまたは複数の生産者プロジェクトとともに記憶される、データ管理モジュールと、
前記取り込まれた受け取ったデータを使用して、前記科学的問題に関係する疾患固有の推論を生成し、前記検索およびグラフモジュールを改良するために前記ユーザおよび/または前記選択された共同者からフィードバックを受け取るための洞察アプリケーションモジュールと、
を含む、
プラットフォーム。
【請求項2】
前記自然言語での前記科学的問題が、前記オントロジーに基づいて前記ユーザプロジェクトの追加的属性に構文解析される、請求項1に記載のプラットフォーム。
【請求項3】
前記ユーザプロジェクトと最も一致する前記1つまたは複数の生産者プロジェクトが、ランク付けされた順序で表示され、前記
1つまたは複数の生産者プロジェクトは、
一致する属性の数、
以前のユーザによって過去に選択された最も人気のあるデータ資産、または
科学的問題のタイプ、
の1つまたは複数に基づいてランク付けされる、請求項1に記載のプラットフォーム。
【請求項4】
前記一致するデータ資産および前記潜在共同者を決定して表示することが、
前記ユーザプロジェクトと最も一致する前記1つまたは複数の生産者プロジェクトを特定すること、をさらに含み、
前記ユーザプロジェクトおよび前記1つまたは複数の生産者プロジェクトが各々、生産者、疾患タイプ、疾患分類、連関するプロジェクト、薬剤、もしくは試験を含む追加的属性、および/またはデータ資産をさらに備えている、請求項1に記載のプラットフォーム。
【請求項5】
前記検索およびグラフモジュールが、
前記ユーザプロジェクトによって定義された1つまたは複数のスキーマに基づいて前記一致するデータ資産または前記潜在共同者を決定するように構成された量的マッチングモジュールと、
前記ユーザプロジェクトの前記属性を使用して前記一致するデータ資産または前記潜在共同者を特定するように構成された質的マッチングモジュールと、
前記量的マッチングモジュールおよび/または前記質的マッチングモジュールによって特定された前記一致するデータ資産と前記潜在共同者との最適化された組み合わせを出力するように構成された推奨モジュールと、
をさらに備えている、請求項1に記載のプラットフォーム。
【請求項6】
前記選択された共同者が、分析モデルまたは研究グループに関連する前記潜在共同者のサブセットをさらに含む、請求項1に記載のプラットフォーム。
【請求項7】
前記共同を最終確定することが、
前記ユーザおよび前記選択された共同者の間で1つまたは複数の契約を生成することと、
前記ユーザおよび前記選択された共同者の各々から賛同の指示を得ることと、
前記契約に従って前記ユーザおよび前記選択された共同者の間で電子支払いをやり取りすることと、
をさらに含む、請求項1に記載のプラットフォーム。
【請求項8】
前記受け取ったデータを、前記共通の規格および前記オントロジーを使用して取り込むことが、
前記受け取ったデータを構文解析して、既知のタグまたはインデックスを有するデータ要素を特定することと、
前記オントロジーに基づいて前記データ要素を標準的なデータタイプに変換することにより、前記データ要素の第1のセットを整合化することと、
前記データ要素の第2のセットを標準的な単位に正規化し、前記正規化を反映するように前記データ資産を更新することと、
前記取り込まれた受け取ったデータを、前記プラットフォーム上で同時並行のアクセスのために利用できる状態にすることと、
をさらに含む、請求項1に記載のプラットフォーム。
【請求項9】
前記受け取ったデータを、前記共通の規格および前記オントロジーを使用して取り込むことが、
前記データ要素を、前記既知のタグまたはインデックスに関連する既知の安全性範囲と比較することにより、前記受け取ったデータにヘルスチェックを行うこと、をさらに含む、請求項8に記載のプラットフォーム。
【請求項10】
前記受け取ったデータを、前記共通の規格および前記オントロジーを使用して取り込むことが、
前記受け取ったデータを、前記オントロジーに関連する知識ベーステンプレートのセットに基づいて編成することと、
前記受け取ったデータの論理的組み合わせを作って、前記ユーザプロジェクトに一致する1つまたは複数の使用可能パッケージを形成することと、
をさらに含む、請求項1に記載のプラットフォーム。
【請求項11】
前記受け取ったデータを、前記共通の規格および前記オントロジーを使用して取り込むことが、
データ要素のグループごとに一意のグローバル識別子を割り当てることにより、前記受け取ったデータを匿名化することと、
前記割り当てられた一意のグローバル識別子に基づいて、前記受け取ったデータを前記選択されたデータ資産にわたって再編成することと、
をさらに含む、請求項1に記載のプラットフォーム。
【請求項12】
前記受け取ったデータが、実験室検査、医療記録、または臨床試験から収集されたものである、請求項1に記載のプラットフォーム。
【請求項13】
薬剤発見および開発のための試験的分析を行うために複数の異種のデータベースにまたがる生命科学データのデータ分析の共同を可能にするための方法であって、
前記方法はコンピュータにより実行され、前記方法は、
ユーザプロジェクトを生成することであって、前記ユーザプロジェクトが、a)ユーザのプロフィール、b)前記ユーザの過去の活動、c)人気度に基づくシステム推奨、d)検索語、フィルタ、および/または1つもしくは複数のドロップダウンメニューからの選択の指示、ならびに/または、e)ユーザによって入力された自然言語での少なくとも1つの科学的問題、から決定される複数の属性を備えている、ユーザプロジェクトを生成することであって、前記複数の属性は、
複数の要素であって、前記ユーザプロジェクトの前記
複数の要素の間で、又は1つまたは複数の生産者プロジェクトと、新しい関係を形成するように構成される、
複数の要素を含み、前記1つまたは複数の生産者プロジェクトは、1つまたは複数の以前に生成されたユーザプロジェクトを含む、生成することと、
前記ユーザプロジェクトおよび前記1つまたは複数の生産者プロジェクトに基づいて1つまたは複数の一致するデータ資産を決定することであって、データ資産は前記1つまたは複数の生産者プロジェクトにおける科学的な取り組みの結果として生み出された測定値または観測値を含む、決定することと
前記1つまたは複数の一致するデータ資産に基づいて1つまたは複数の潜在共同者を決定することであって、前記データ資産の少なくとも一部は、前記潜在共同者の1つまたは複数と以前に共有されていない、決定することと
前記ユーザと、前記ユーザによって選択された1つまたは複数の選択されたデータ資産に関連する1つまたは複数の選択された共同者との間の共同を連係させることであって、前記選択された共同者が、前記潜在共同者のサブセットであり、前記選択されたデータ資産が、前記一致するデータ資産のサブセットである、共同を連係させることと、
前記1つまたは複数の選択されたデータ資産に関連する前記選択された共同者に通知を行うことと、
前記選択された共同者に、前記ユーザプロジェクトの概要を提供することと、
前記ユーザに、前記1つまたは複数の選択されたデータ資産を検査する能力を与えることと、
前記ユーザおよび前記1つまたは複数の選択された共同者が賛同した場合、前記ユーザと前記選択された共同者との間の前記共同を最終確定することと、
前記1つまたは複数の生産者プロジェクトの各々に関するスキーマを受け取ることと、
前記1つまたは複数の選択されたデータ資産からデータを受け取ることと、
前記受け取ったデータを、共通の規格およびオントロジーを使用して取り込むことと、
前記潜在共同者の1つまたは複数と共有可能な前記データ資産の少なくとも一部へのアクセスを制御することと、
ここで、取り込まれたデータは、前記複数の属性を用いた
検索およびグラフモジュールによって前記ユーザプロジェクトと比較されるために前記1つまたは複数の生産者プロジェクトとともに記憶され、
前記取り込まれた受け取ったデータを使用して、前記科学的問題に関係する疾患固有の推論を生成することと、
試験的分析を改良するために前記ユーザおよび/または前記選択された共同者からフィードバックを受け取ることと、を含む方法。
【請求項14】
前記自然言語での前記科学的問題が、前記オントロジーに基づいて前記ユーザプロジェクトの追加的属性に構文解析される、請求項13に記載の方法。
【請求項15】
前記ユーザプロジェクトと最も一致する前記1つまたは複数の生産者プロジェクトを、ランク付けされた順序で表示することをさらに含み、前記
1つまたは複数の生産者プロジェクトは、
一致する属性の数、
以前のユーザによって過去に選択された最も人気のあるデータ資産、または
科学的問題のタイプ、
の1つまたは複数に基づいてランク付けされる、請求項13に記載の方法。
【請求項16】
前記一致するデータ資産および前記潜在共同者を決定して表示することが、
前記ユーザプロジェクトと最も一致する前記1つまたは複数の生産者プロジェクトを特定すること、をさらに含み、
前記ユーザプロジェクトおよび前記1つまたは複数の生産者プロジェクトが各々、生産者、疾患タイプ、疾患分類、連関するプロジェクト、薬剤、もしくは試験を含む追加的属性、および/またはデータ資産をさらに備えている、請求項13に記載の方法。
【請求項17】
前記ユーザプロジェクトによって定義された1つまたは複数のスキーマに基づいて前記一致するデータ資産または前記潜在共同者を決定することと、
前記ユーザプロジェクトの前記属性を使用して、前記一致するデータ資産または前記潜在共同者を特定することと、
前記一致するデータ資産と前記潜在共同者との最適化された組み合わせを出力することと、
をさらに含む、請求項13に記載の方法。
【請求項18】
前記選択された共同者が、分析モジュールまたは研究グループに関連する前記潜在共同者のサブセットをさらに含む、請求項13に記載の方法。
【請求項19】
前記ユーザおよび前記選択された共同者の間で1つまたは複数の契約を生成することと、
前記ユーザおよび前記選択された共同者の各々から賛同の指示を得ることと、
前記契約に従って前記ユーザおよび前記選択された共同者の間で電子支払いをやり取りすることと、
をさらに含む、請求項13に記載の方法。
【請求項20】
前記受け取ったデータを、前記共通の規格および前記オントロジーを使用して取り込むことが、
前記受け取ったデータを構文解析して、既知のタグまたはインデックスを有するデータ要素を特定することと、
前記オントロジーに基づいて前記データ要素を標準的なデータタイプに変換することにより、前記データ要素の第1のセットを整合化することと、
前記データ要素の第2のセットを標準的な単位に正規化し、前記正規化を反映するように前記データ資産を更新することと、
前記取り込まれた受け取ったデータを、
プラットフォーム上で同時並行のアクセスのために利用できる状態にすることと、
をさらに含む、請求項13に記載の方法。
【請求項21】
前記受け取ったデータを、前記共通の規格および前記オントロジーを使用して取り込むことが、
前記データ要素を、前記既知のタグまたはインデックスに関連する既知の安全性範囲と比較することにより、前記受け取ったデータにヘルスチェックを行うこと、をさらに含む、請求項20に記載の方法。
【請求項22】
前記受け取ったデータを、前記共通の規格および前記オントロジーを使用して取り込むことが、
前記受け取ったデータを、前記オントロジーに関連する知識ベーステンプレートのセットに基づいて編成することと、
前記受け取ったデータの論理的組み合わせを作って、前記ユーザプロジェクトに一致する1つまたは複数の使用可能パッケージを形成することと、
をさらに含む、請求項13に記載の方法。
【請求項23】
前記受け取ったデータを、前記共通の規格および前記オントロジーを使用して取り込むことが、
データ要素のグループごとに一意のグローバル識別子を割り当てることにより、前記受け取ったデータを匿名化することと、
前記割り当てられた一意のグローバル識別子に基づいて、前記受け取ったデータを前記選択されたデータ資産にわたって再編成することと、
をさらに含む、請求項13に記載の方法。
【請求項24】
前記受け取ったデータが、実験室検査、医療記録、または臨床試験から収集されたものである、請求項13に記載の方法。
【請求項25】
前記1つまたは複数の一致するデータ資産は、前記ユーザプロジェクトによって定義される1つまたは複数のスキーマにさらに基づいて決定され、前記1つまたは複数のスキーマは、新しいデータ資産に適合する前記一致するデータ資産の編成構造を表す、請求項1に記載のプラットフォーム。
【請求項26】
前記1つまたは複数の一致するデータ資産は、前記ユーザプロジェクトによって定義される1つまたは複数のスキーマにさらに基づいて決定され、前記1つまたは複数のスキーマは、新しいデータ資産に適合する前記一致するデータ資産の編成構造を表す、請求項13に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願
本願は、2020年12月3日に出願された米国仮出願第63/121,093号に対する優先権の利益を請求し、同仮出願は全体が参照により本明細書に組み込まれる。
【背景技術】
【0002】
医薬品企業は、歴史的に、新しい分子を発見し、新薬を開発するために臨床試験の従来のモデルに依拠してきた。しかし、研究・開発を行うための現在の方法は費用がかかり、また新薬を開発するための時間は、いくつかの理由を挙げると、(1)新しい画期的な療法を発見することの難しさ、(2)パイプライン成長のための外部資産への依拠の増加、(3)増大する開発費用、および(4)高い失敗率、のために増大している。全人口のうち少ない部分に影響する疾患の薬剤開発は、さらに費用が多大になり得、その結果、そのような稀な疾患のための治療法および薬剤を開発する誘因が少ない。さらに、従来の研究開発方法は、多くの疾患のための有効な治療法を発見するのに要する時間が長すぎる場合もある。
【0003】
莫大な量の既存データにもかかわらず、健康管理エコシステム内の1つのエンティティであるデータの範囲は、限られており、サイロ化しており、規格化されていない。例えば、それぞれの学術研究機関や医薬品またはバイオ技術企業は、自身の試験および臨床研究データにしかアクセスできないことがあり、それらのエンティティは、いくつかの特化した分野のみで研究を行う傾向がある。病院、医師、および健康管理記録企業は、患者データへのアクセスを有することはあるが、臨床試験データへのアクセスは有さないことがある。他の有用なデータが、生活様式およびデジタル健康企業(FitBitやAppleのような)やDNAレジストリを有するエンティティによって所有されている可能性がある。
【0004】
必要とされるのは、健康管理エコシステムによってすでに開発されている莫大な量の疾患および治療に関するデータおよび大きなデータベースを、発見および臨床前作業を最適化するために活用するためのプラットフォームである。さらに必要とされるのは、インシリコ(in-silico)の薬剤送達および分析のために大きな統合されたデータセットを規格化して使用する方法、および試験に入る前に薬剤の効力と反応を予測するための手段である。これは、医薬品およびバイオ技術企業が、試験で成功する見込みが最も高く、さらに研究開発の節減を実現する資産に投資することを可能にする。また、必要とされるのは、エンティティが、研究を高速化し、費用を低減し得る連携先を見つけて交渉することを可能にする共同システムである。さらに必要とされるのは、より好適な試験およびプロトコルを設計し、より好適な試験候補を特定し、より効果の高い治療法および薬剤を製造するための方法である。またさらに必要とされるのは、高精度医療およびより多くの情報を与える臨床意思決定のための方法およびシステムである。
【発明の概要】
【0005】
本開示の1つの態様は、複数の異種のデータベースにまたがる生命科学データのデータ分析の共同を可能にするための共同プラットフォームを対象とする。少なくとも1つの例示的実施形態において、プラットフォームは、データ、人工知能(AI)モデル、ならびに異種のデータベースおよびシステムからの洞察を使用して科学的問題を解決するために使用されてよい。プラットフォームは、ユーザプロジェクトを生成するための検索およびグラフモジュールを含んでよい。ユーザプロジェクトは、a)ユーザのプロフィール、b)ユーザの過去の活動、c)人気度に基づくシステム推奨、d)検索語、フィルタ、および/または1つもしくは複数のドロップダウンメニューからの選択の指示、ならびに/または、e)ユーザによって入力された自然言語での少なくとも1つの科学的問題、から決定される複数の属性を備えてよい。検索およびグラフモジュールは、1つまたは複数の一致するデータ資産、AIモデル、および/または1つもしくは複数の潜在共同者を決定して表示するように構成されてよく、一致するデータ資産および潜在共同者は、ユーザプロジェクトおよび1つまたは複数の生産者プロジェクトに基づいて決定され、1つまたは複数の生産者プロジェクトは、1つまたは複数の以前に生成されたユーザプロジェクトを含む。プラットフォームは、ユーザと、ユーザによって選択された1つまたは複数の選択されたデータ資産に関連する1つまたは複数の選択された共同者との間の共同を連係させるための共同モジュールを含んでよく、選択された共同者は、潜在共同者のサブセットであり、選択されたデータ資産は、一致するデータ資産のサブセットである。共同を連係させることは、1つまたは複数の選択されたデータ資産に関連する選択された共同者に通知を行うことと、選択された共同者に、ユーザプロジェクトの概要を提供することと、ユーザに、1つまたは複数の選択されたデータ資産を検査する能力を与えることと、ユーザおよび1つまたは複数の選択された共同者が賛同した場合、ユーザと選択された共同者との間の共同を最終確定することと、を含んでよい。プラットフォームは、1つまたは複数の生産者プロジェクトの各々に関するスキーマを受け取り、1つまたは複数の選択されたデータ資産からデータを受け取り、受け取ったデータを、共通の規格およびオントロジーを使用して取り込むためのデータ管理モジュールを含んでよい。プラットフォームは、取り込まれた受け取ったデータを使用して、科学的問題に関係する疾患固有の推論を生成し、検索およびグラフモジュールを改良するためにユーザおよび/または選択された共同者からフィードバックを受け取るための洞察アプリケーションを含んでよい。
【0006】
本開示の別の態様は、複数の異種のデータベースにまたがる生命科学データのデータ分析の共同を可能にするための方法を対象とする。方法は、薬剤発見および開発のための試験的分析を行うことを可能にしてよい。方法は、ユーザプロジェクトを生成することであって、ユーザプロジェクトが、a)ユーザのプロフィール、b)ユーザの過去の活動、c)人気度に基づくシステム推奨、d)検索語、フィルタ、および/または1つもしくは複数のドロップダウンメニューからの選択の指示、ならびに/または、e)ユーザによって入力された自然言語での少なくとも1つの科学的問題、から決定される複数の属性を備えている、ユーザプロジェクトを生成することを含んでよい。方法は、1つまたは複数の一致するデータ資産および1つまたは複数の潜在共同者を決定して表示することであって、一致するデータ資産および潜在共同者が、ユーザプロジェクトおよび1つまたは複数の生産者プロジェクトに基づいて決定され、1つまたは複数の生産者プロジェクトが、1つまたは複数の以前に生成されたユーザプロジェクトを含む、潜在共同者を決定して表示することを含んでよい。方法は、ユーザと、ユーザによって選択された1つまたは複数の選択されたデータ資産に関連する1つまたは複数の選択された共同者との間の共同を連係させることであって、選択された共同者が潜在共同者のサブセットであり、選択されたデータ資産が一致するデータ資産のサブセットである、共同を連係させることを含んでよい。方法は、1つまたは複数の選択されたデータ資産に関連する選択された共同者に通知を行うことを含んでよい。方法は、選択された共同者に、ユーザプロジェクトの概要を提供することを含んでよい。方法は、ユーザに、1つまたは複数の選択されたデータ資産を検査する能力を与えることを含んでよい。方法は、ユーザおよび1つまたは複数の選択された共同者が賛同した場合、ユーザと選択された共同者との間の共同を最終確定することを含んでよい。方法は、1つまたは複数の生産者プロジェクトの各々に関するスキーマを受け取ることと、1つまたは複数の選択されたデータ資産からデータを受け取ることと、受け取ったデータを、共通の規格およびオントロジーを使用して取り込むことと、を含んでよい。方法は、取り込まれた受け取ったデータを使用して、科学的問題に関係する疾患固有の推論を生成することと、検索およびグラフモジュールを改良するためにユーザおよび/または選択された共同者からフィードバックを受け取ることと、を含んでよい。
【0007】
他のシステム、方法、およびコンピュータ可読媒体についても本明細書で論じられる。
【図面の簡単な説明】
【0008】
【
図1】本開示の一態様による、種々のタイプのユーザおよび情報の流れを説明する模式図である。
【
図2】本開示の一態様による、共同プラットフォームの例示的実施形態を説明する模式的ブロック図である。
【
図2A】本開示の一態様による、共同プラットフォームの代替の例示的実施形態を説明する模式的ブロック図である。
【
図3】本開示の一態様による、ユーザプロジェクトが含み得る属性のサブセットを示す木構造として描かれた例示的なプロジェクトテンプレートである。
【
図4】本開示の一態様による、消費者によって指定されたデータを使用してユーザプロジェクトを共同者とマッチングするためのコンピュータ化されたプロセスの例示的フローチャートである。
【
図5】本開示の一態様による、科学的質問を使用してユーザプロジェクトを共同者とマッチングするためのコンピュータ化されたプロセスの例示的フローチャートである。
【
図6】科学的質問を使用してデータ資産を特定するためのコンピュータ化されたプロセスの例示的フローチャートである。
【
図7】科学的質問を使用して以前のプロジェクト、潜在共同者、または追加的な科学的質問を特定するためのコンピュータ化されたプロセスの例示的フローチャートである。
【発明を実施するための形態】
【0009】
以下の詳細な説明は、添付図面を参照する。可能な場合は、同じまたは類似する部分を参照するために、同じ参照符号が図面および以下の説明で使用される。いくつかの例示的な実施形態が本明細書に記載されるが、変更、改変、および他の実装が可能である。例えば、置き換え、追加、または変更が、図面に示される構成要素およびステップに加えられてよく、また、本明細書に記載される例示的な方法は、開示される方法にステップを置き換える、順序を変更する、除去する、または追加することによって変更されてよい。そのため、以下の詳細な説明は、開示される実施形態および例に制限されない。代わりに、本発明の厳正な範囲は、添付の特許請求の範囲によって定められる。
【0010】
本開示の実施形態は、薬剤の発見および開発を目的として試験的または慣行的な分析を行うための共同プラットフォームおよびそのプラットフォームを使用する方法を対象とする。開示される実施形態は、より高速に、かつ最も高い満たされていない医療ニーズの分野におけるより高い市場アクセスの潜在性と共に、より多くの薬剤につながる洞察エンジンの作成を可能にし得る。
【0011】
図1は、種々のユーザとそれらの間の情報の流れを示す模式図を描いている。一部の実施形態では、開示されるシステムおよび方法のユーザは、医薬品企業、バイオ技術企業、学術機関、データ収集機関、人工知能(AI)開発企業、医療支払業者、非営利組織、政府機関(国勢調査局、CDC、FDA、またはその他の規制機関)等の科学集団を含み得る。ユーザは、生産者110および消費者120、の二種類の一方と見なされてよい。ここで使用される場合、生産者110は、データ資産150を生産するユーザを指すことがあり、消費者120は、データ資産150を使用して研究開発計画を実施する者を指すことがある。
【0012】
一部の実施形態では、ユーザは、その目的または観点に基づいて生産者110または消費者120のどちらの役割も取り得る。生産者110は、新しい計画のための共同者を探しているときには消費者120であり得、消費者120は、以前の研究を通じて生産されたデータ資産150を共有することによって生産者110になり得る。例えば、学術機関が、過去の計画で得たデータ資産150を提供する場合には生産者110と見なされてよく、新しいプロジェクトを開始することを望む場合には消費者120と見なされてよい。
【0013】
生産者110に移ると、生産者110と見なされるユーザは、データ資産150を作り出して、それを共同のために共同プラットフォーム200に共有するユーザであり得る。データ資産150は、すべてが同じ調査研究または臨床試験において生成されたまたはそれを記述するデータセットなどの1つまたは複数の関係するデータセットを含んでいるコンテナである。データセットは、一つの共通のプロジェクト、主題、または問題に関係するデータを含んでいる構造化ファイルであってよい。データセット内のデータは、テキスト、数字、画像、またはマルチメディアもしくはアルゴリズム、モデル、またはテンプレートであり得る、測定結果または観察結果であってよい。例えば、データセットは、1人または複数の対象者(例えば患者)に関する変数(例えば体重)とその値(例えば60kg)の集まりであってよい。データセットは、X線、CT(コンピュータ断層撮影)スキャン、MRI(磁気共鳴撮像)、および超音波などの画像または映像を含んでよい。データセットは、データセットを分析するためのアルゴリズムや計算モデルなどの分析モデルを含んでもよい。データセットは、特定の科学的問題または課題を解決するために共同することを望むエンティティである1つまたは複数の連携先に関係する情報も含んでよい。データセットは、共通の目標を持つ公的私的な共同である1つまたは複数のフォーラムに関係する情報、およびそのようなフォーラム内で交換される情報も含んでよい。データセットは、実験室検査、医療記録、臨床試験、または他の同様の科学的試みから生産され得る。データセットは、前述の種類のデータの一部またはすべてを含んでよい。データ資産150は、前述の種類のデータセットの一部またはすべてを含んでよい。
【0014】
一部の実施形態では、データ資産150は、システムおよび/またはデータベース間の迅速な転送のために、類似するデータ規格またはメタデータ定義に従ってよい。そのような統一されたデータ管理のスキームは、消費者120に属するシステムのような受け取り側システムによるデータ資産150の効率的なアンパックおよび理解を可能にする。そのような統一されたスキームはまた、既存のツールおよびアプリケーション間の相互動作性を向上させるかまたは最大にし得、そうすると、訓練およびセットアップの初期費用が最小になる。
【0015】
追加または代替として、データ資産150およびそこへの後の追加または修正は、単一のシステムで管理されてよい。本明細書で使用される場合、この単一のシステムは、単一のハードウェア(例えば、単一のデータベース)、単一の地理的場所にあるシステムもしくはサブシステムの集まり(例えば、サーバファーム)、または、各自の地理的場所に関係なく互いと相互に接続された構成要素データベースの群からなる単一の連合データベースを指し得る。そのような管理スキームは、どの修正でも対応する生産者110または消費者120まで遡ることができるように、データ資産150に透かしを入れる、および/またはデータ資産150を追跡する(例えば、ブロックチェーンを使用して)ことを可能にし得る。
【0016】
データ資産150は、消費者120がデータ資産150を使用することを選択する場合に、無料で、または消費者120によって支払うことが可能な料金で、利用可能にされてよい。それらのデータセットは生産するために莫大な金額を要した可能性があるが、生産者110は、様々な理由からそれを共同プラットフォーム200上で共有することを動機付けられる可能性がある。例えば、医薬品またはバイオ技術企業は、自身の中核事業である新薬を発見するための洞察を生成するため、または共同者(例えばAI開発企業)を見つけるために、それらのデータセットを生産することを動機付けられる可能性がある。データ収集機関は、自身の中核業務であるデータセットの販売のために、そのようなデータセットを生産することを動機付けられる可能性がある。学術機関および患者記録者は、いずれかまたは両方の理由からデータセットを生産することがある。
【0017】
一部の実施形態では、1つまたは複数のアルゴリズムおよび/または統計分析をデータセットに適用して有用な洞察を抽出することにより、分析モデルが生成されてよい。分析モデルも生産するために莫大な金額を要した可能性があるが、生産者110は、ここでも様々な理由から、それを共同プラットフォーム200上で共有することを動機付けられ得る。例えば、AI開発企業は、自社のAIモデルを医薬品またはバイオ技術企業に販売することを動機付けられ得る。医薬品またはバイオ技術企業は、内部の試験的な研究開発の結果、それらのモデルを生産することがあり得る。それら企業は、業界の利益、発表のために、またはオープンソースの取り組みを通じて分析モデルを改良するために、それらを共有してもよいと考えることがある。学術機関は、自身の研究または第3者との共同の一部として分析モデルを生産することがある。学術機関は、発表、オープンソースの取り組みを通じた改良、または資金源のためにその分析モデルを共有してもよいと考えることがある。
【0018】
一部の実施形態では、すべての分析モデルは、共同プラットフォーム200と互換性のあるプログラミング言語を使用して、または共同プラットフォームによって提供される特定のソフトウェア開発キット(SDK)を使用して構築され得、後者は、有害なアプリケーションが機能するのを阻止することができる。分析モデルは、データセット上で試験され、その性能が、精度、効率、または両方について測定されてよい。それらは、共同プラットフォーム200の管理者によって、またはその分析モデルを使用したユーザによって、手作業で点検されてもよい。
【0019】
消費者120に移ると、消費者120と見なされるユーザは、データ資産150を利用するユーザであってよい。医薬品またはバイオ技術企業および学術機関は、自身の試験的な研究開発の一部としてデータ資産150を消費することを動機付けられ得る。AI開発企業は、より好適なもしくはより多いデータで自身の分析モデルを訓練するために、またはデータセットを使用して薬剤自体を構築するための洞察を生成するために、データセットを購入することを動機付けられ得る。AIまたは機械学習を利用する分析モデルは、その分析モデルを訓練するための追加的なデータによってさらに改良される。
【0020】
開示される実施形態に従い、共同プラットフォーム200は、利用可能な生産者110および消費者120を検索して、潜在共同者130をユーザプロジェクトにマッチングしてよい。潜在共同者130は、生産者110および消費者120の集まりを含み得る。潜在共同者130が特定される方法については、下記でより詳細に説明する。
【0021】
潜在共同者130はまた、選択プロセスを経て、選択された共同者140に到達してもよい。選択された共同者140は、対応するユーザプロジェクトを開始した所有者ユーザ(例えば、消費者120)によって選択された生産者110の組み合わせを含み得る。選択された共同者140および所有者ユーザは、選択された共同者140が所有者ユーザと共同することに同意し、その共同が共同プラットフォーム200によって可能にされると、選択された共同者140によって生産されたデータ資産150へのアクセス権が与えられ得る。選択された共同者140が決定されるプロセスについては、下記でより詳細に説明する。
【0022】
図2は、共同プラットフォーム200の例示的実施形態を示す模式的ブロック図である。開示される実施形態に従って、共同プラットフォーム200は、種々の生産者110が、自身の知的財産を保護するためのアクセス制御を維持しつつ、自身のデータ資産150を共有環境によって使用させるのを可能にしてよい。加えて、共同プラットフォーム200は、生産者110が、他の生産者110、消費者120、または共同者140と共同することなく、自分自身のデータ資産150を利用してプロジェクトにアクセスし、プロジェクトを作成することを可能にしてよい。共同プラットフォーム200は、ユーザプロジェクトの成果(例えば、データセット、新しい使用事例、または新しい治療法)は共有するまたは公開することができるが、それに寄与した要素(例えば、利用されたデータ資産150、分析方法)はできないように設計されてよい。
【0023】
共同プラットフォーム200は、少なくとも1つのプロセッサ、および命令を含んでいる少なくとも1つの非一時的コンピュータ可読媒体を備えてよい。少なくとも1つのプロセッサによって実行されると、命令は、システムに、
図2に描かれるモジュールによって行われる動作などの動作を行わせることができる。プラットフォーム200は、各種モジュールを含んでよく、各モジュールは、プロセッサ内の機能単位、別個のシステム、またはそれらの任意の組み合わせとして実装されてよい。モジュールは、インターネット、イントラネット、WAN(Wide-Area Network)、MAN(Metropolitan-Area Network)、IEEE 802.11a/b/g/n規格に準拠したワイヤレスネットワーク、有線ネットワーク等を含む、1つまたは複数の公衆または私的ネットワーク接続を介して、互いと接続されてよい。さらなる実施形態では、共同プラットフォーム200またはその構成要素モジュールのいずれかは、個々にまたは任意の組み合わせで、サーバ、汎用コンピュータ、メインフレームコンピュータ、グラフィカル処理装置(GPU)などの特殊目的コンピューティングデバイス、ラップトップ、またはこれらのコンピューティングデバイスの任意の組み合わせの形態を取ってよい。共同プラットフォーム200は、スタンドアロンシステムであってもよく、またはより大きいシステムの一部でもあり得るサブシステムの一部であってもよい。
【0024】
図示のモジュールは、データ管理モジュール210、データ取り込みモジュール211、データ分析モジュール220、ワークフローライブラリ221、分析ツールキット223、検索およびグラフモジュール230、マッチングモジュール231、科学的問題変換モジュール233、共同モジュール240、洞察アプリケーション241、法的モジュール242、トランザクションモジュール243、検査モジュール244、およびプラットフォーム管理モジュール250を含む。図示されない他のモジュールおよび構成要素が共同プラットフォーム200に含まれてもよい。例えば、1つまたは複数のネットワーク化されたデータベース(図示されていない)が共同プラットフォーム200の一部であってもよく、それらは生産者110によって共有されるデータ資産150を記憶するように構成される。
【0025】
個々のモジュールに移ると、データ管理モジュール210は、データ資産150を処理し、種々のエンティティ間でそれらをつなぐように構成されてよい。共同プラットフォーム200に導入される生データ(例えば、下記で説明される構造化データ260A、非構造化データ260B、ストリーミングデータ260C)は、データ管理モジュール210を通過して、データ資産150としてパッケージされてよい。一部の実施形態では、データ管理モジュール210は、データ資産150を処理し、構造化し、つなぐのを助けるパイプライン、スキーマ、およびオントロジーを含んでよい。
【0026】
パイプラインは、1つのプロセスの出力が次のプロセスの入力となるような順序で実行される1つまたは複数のソフトウェアプロセスである。パイプラインは、パーサ、テンプレート、共有ライブラリ、および/または業務規則の1つまたは複数を含むモジュール方式で設計されてよい。パイプラインのモジュール式設計は、個々の構成要素(例えば、パーサ、テンプレート、共有ライブラリ、または業務規則)が、その他の構成要素と独立して修復または交換されることを可能にし得る。個々の構成要素の一連の修復または交換は、種々の形式またはモダリティのデータを処理するためにより好適に構成された、より成熟したパイプラインにつながり得る。
【0027】
パイプライン内で、パーサは、ネイティブ形式の入力データを受け取って、そのデータを、共同プラットフォーム200で使用するのに互換性のある1つまたは複数の形式に変換するソフトウェア構成要素である。パイプラインを使用して、データ資産150に関連する任意のデータ形式をプラットフォームに好ましいスキーマに変換してよい。
【0028】
一部の実施形態では、パイプラインは、あるステップを規格化することによってキュレーションのプロセスを容易にするのを助けるテンプレートを含んでよい。例えば、テンプレートは、ある機能または変換のセットを一般的な種類のデータに適用するように構成されてよい。さらなる実施形態では、パイプラインは、特定種類のデータを処理するためにより複雑な変換のセットが必要である場合、共有ライブラリを含んでよい。共有ライブラリは、生データを組み込むプロセスで必要に応じて呼び出され得る実行可能ライブラリとして記憶された変換のセットを含んでよい。追加または代替として、パイプラインは、業務規則を含んでよく、これは、規格化することが不可能なまたはデータ所有者(例えば、生産者の要求)に固有のカスタム論理またはアルゴリズムのセットである。
【0029】
スキーマは、データセット中のデータの構造を表す図またはモデルである。スキーマは、様々なソースからの複数のデータセットを整合化することから学習によって作成されてよい。例えば、複数の以前の試験のスキーマを再点検し、試験にまたがってデータを整合化することにより、目標臨床データスキーマが設計されてよい。例えば、スキーマは、生理学的パラメータ(例えば性別)や試験パラメータ(例えば試験期間)などの、以前の試験からの複数のスキーマの共通の構造または変数を含めることによって作成されてよい。このスキーマは次いで、新しい試験のために必要な追加的パラメータ(例えば、研究中の新しい生理学的測定値)を含むように拡張されてよい。
【0030】
別の例では、アルツハイマー病に関する複数の異なる試験からのスキーマの整合化が、患者のLDLコレステロールレベルがしばしば測定されるという知見に結びつく場合に、スキーマが設計されてよい。そのような知見から設計される新しいスキーマは、通常のバイオマーカであるアミロイド斑に加えて、LDLコレステロールレベルをアルツハイマーの潜在的なバイオマーカとして含み得る。スキーマの整合化および設計は、以前に気づかれていなかった現象のそのような反復的な発生を認識し、したがって可能性として新しい発見につながるように、人工知能や機械学習を使用して自動化されてよい。
【0031】
オントロジーは、プロパティおよびデータ間の関係を示す対象分野または領域内の概念およびカテゴリのセットである。オントロジーは、提供されることがあり、または、データを整合化し、類似するデータタイプおよび異なるデータタイプを連関させ、用語およびその属性を構造化された方式で作成することにより、開発されてもよい。
【0032】
データ管理モジュール210は、生産者110からデータ資産150を受け取り、それらを、共同プラットフォーム200の他のモジュールによってサポートされる異なるワークフローおよび分析に組み込むように構成されてよい。
【0033】
一部の実施形態では、データ資産150は、上述のように分析モデルおよびデータセットを含むことができ、データセットは、構造化データ260A、非構造化データ260B、またはストリーミングデータ260Cを含むことができる。一部の実施形態のデータセットは、画像も含んでよい。データ管理モジュール210によって受け取られる各データ資産150は、データ資産150がどのように編成されているか、またはデータ資産150を生産した以前のユーザプロジェクトがどのような特徴であったかを記述するスキーマを伴うことがある。データ管理モジュール210は、下記で説明されるようにこれらのスキーマを使用して、共同プラットフォーム200に記憶されている種々のデータ資産150をインデックス付けし、検索してよい。プラットフォーム200は、次第に増える数のデータ資産150がプラットフォーム200に組み込まれるのに伴って、スキーマを更新または修正してよく、カテゴリ、グループ、またはモダリティが、疾患または他の共通する特性にまたがってデータ資産150を連関させることができる可能性がある。スキーマは、データタイプ、グループ、属性、カテゴリ、モダリティ、またはデータ資産に関連する任意の他の個々のもしくは共通の特性に固有であり得る。例えば、スキーマは、ゲノム研究、プロテオミクス、試験タイプ、疾患分野、医療画像、または共同中に発生する任意の変数などのデータタイプに関連し得る。
【0034】
さらに、データ管理モジュール210は、一部の実施形態では、データ資産150を段階的に受け取ってよい。例えば、生産者110は、代表サンプルまたはそれらのスキーマなどの、自身のデータ資産150の一部のみを公開アクセスのために共有してよい。そして、生産者110は、選択された共同者140がプロジェクトを承諾し、協働し始めた後に、自身のデータ資産150の完全なバージョンを共有してよい。このために、データ管理モジュール210は、どの情報が潜在共同者と共有されるかを制限し、機密データがそれより先で共有されるのを防止することにより、データ資産150の様々な部分へのアクセスを制御してよい。これは、ユーザが共同プラットフォーム200に持ち込む知的財産およびデータ資産150が保護され、安全にされることを確実にし得る。
【0035】
一部の実施形態では、データ管理モジュール210は、データ資産150間でデータセットを統合することに特化するように構成されたデータ取り込みモジュール211を含んでよい。データ取り込みモジュール211は、生産者110から受け取られたデータセットを、共通の規格および関連するオントロジーを採用するように条件付けてよい。データが取り込まれるとき、そのデータのプロファイルは、知られるかまたは特定することができる。例えば、データは、特定のデータタイプ(臨床やゲノム研究など)または特定の疾患分野(アルツハイマー病や心臓病など)であり得る。それらの特定のデータタイプまたは疾患に対してプラットフォームによって使用されているスキーマおよび/またはオントロジー内の相当するフィールドに、変数がマッピングされてよい。入って来るデータセットが、共通スキーマまたはオントロジーに存在しない属性を有する場合、データフィールドがスキーマまたはオントロジーに追加されてよい。代替として、それらの認識されない属性はマッピングされなくともよい。取り込まれたデータは、データベースに記憶され、同時並行のアクセスのために消費者120および選択された共同者140に利用できる状態にされてよい。
【0036】
一部の実施形態では、類似するデータタイプおよび異なるデータタイプを連関させ、用語およびその属性を構造化された方式で作成することにより、1つまたは複数のオントロジーが開発されてよい。機械学習アルゴリズムが、過去に人間の作業者によって作られた連関を読み取り、複数のデータタイプ同士を関連付ける特定のオントロジーを提案してよい。追加または代替として、機械学習アルゴリズムは、結果として得られたオントロジーに対してユーザによって提供されたフィードバックを通じてそのような連関を学習してよい。プラットフォーム200は、次第に増える数のデータ資産150がプラットフォーム200に組み込まれるのに伴って、1つまたは複数のオントロジーを更新または修正してよい。これは、以前に知られていなかった属性およびプラットフォーム200上で生成された洞察を取り込むことにより、オントロジーの精緻化および改良を可能にする。
【0037】
一部の実施形態では、データ取り込みモジュール211は、受け取ったデータセットを構文解析して、既知のタグまたはインデックスを有するデータ要素を特定するように構成されてよい。そして、構文解析されると、データ取り込みモジュール211は、データ要素のグループ(例えばデータ要素の列)を、通常の慣行に従う標準的な単位(例えばメートル単位)に正規化し、その正規化を反映するように関連するデータ要素を更新してよい。例えば、データ取り込みモジュール211は、データ要素のグループが体重を表していることを認識し、その単位をキログラムに変換してよい。データ取り込みモジュール211はまた、ポンドの代わりにキログラムに基づくように、用量についての関連するデータ要素を更新してよい。
【0038】
データ取り込みモジュール211の別の機能は、データ要素が共通の規約に従うようにデータ要素を整合化することを含んでよい。例えば、あるデータセットは、性別を値「女性」および「男性」で示すのに対し、別のデータセットは、値「M」および「F」で性別を示すことがある。これらの場合、データ取り込みモジュール211は、「男性」および「女性」を使用するように各表示を交換してよい。異なるデータセットにまたがって整合するように保たれる限り、任意の他の表示のセットが使用されてよい。一部の実施形態では、データ要素を整合化することは、データ要素をオントロジーに基づいて標準的なデータタイプに変換することにより、各データ要素を整合させることも含んでよい。例えば、同じ変数に対応するデータ要素の列が、構文解析エラーのために、整数、倍長、またはテキスト、のデータタイプを含むことがある。それらの場合、データ取り込みモジュール211は、同じデータタイプになるようにデータ要素を変換してよい。そのような不整合性は、人間の作業者、生産者150、または機械学習アルゴリズムによって認識されることがあり、それらは、新しい不整合性を発見すると、整合しないデータ要素を自動的に変換することができる新しいカスタム規則を作製するようになされてよい。
【0039】
さらなる実施形態では、データ取り込みモジュール211は、受け取ったデータセットに「ヘルスチェック」を行うように構成されてよく、ここで、モジュールは、既知のデータ要素を特定し、そのデータ要素の値が通常のまたは既知の安全範囲内にあるかどうかを確認する。例えば、データ取り込みモジュール211は、データ要素のグループが体重を表していることを特定し、体重は普通200kg未満であることを認識することが可能であってよい。この場合、例えばキログラム単位の体重の列に300の値を有するデータ要素は、データポイントが、指定された単位にもかかわらずポンド単位と考えられることを示唆し得る。そして、データ取り込みモジュール211は、300の値を有するデータ要素を、300ポンドに相当するキログラム数である136に変換してよい。変換は、自動的に行われても、またはユーザ入力もしくは確定によって行われてもよい。一部の実施形態では、データ取り込みモジュール211は、対応するスキーマの中の事前に定義された列、または関連するタグもしくはインデックスに基づいて、データ要素を特定するように構成されてよい。一部の態様では、ヘルスチェックは、上述の体重などの変数のレベルで割り当てられてよいが、集計レベル(例えば、患者)で割り当てられてもよい。ヘルスチェックは、患者記録が、その患者のタイプに予想されるすべてのフィールドにデータを含んでいることを確認することを伴ってよい。例えば、その記録が、心血管の問題で治療を受けている患者のものである場合、その患者への投薬のリストはスタチンを含むことが予想される。予想されるデータのリストは、医療専門家もしくは研究者によって開発されるか、またはプラットフォーム上でデータから生成され得る。予想されるデータのリストは、機械学習を使用して継続的に更新されてもよい。
【0040】
さらに、データ取り込みモジュール211は、受け取ったデータセットを、同じオントロジーに関連する所定の列およびパラメータを有する知識ベーステンプレートのセットに投入するように構成されてよい。これは、受け取られたデータに、データ取り込みモジュール211が受け取ったデータを認識し、取り込むことを可能にするタグまたはラベルが無い場合に行われてよい。一部の実施形態では、データ取り込みモジュール211は、共同プラットフォーム200の1人または複数の管理者からの人手による判定および入力に基づいて、または機械学習アルゴリズムの自動的な判定に基づいて、受け取ったデータセットを投入してよい。
【0041】
一部の実施形態では、データ管理モジュール210は、データ資産150を匿名化するように構成された1つまたは複数の追加的モジュール(図示されていない)も含んでよい。データ資産150を匿名化することは、個人の特定が可能な情報を認識してデータ資産150から除去することを含んでよい。そのような情報には、例えば、姓名、社会保障番号、運転免許証番号、銀行口座番号、パスポート番号、電子メールアドレス、または第3者が特定の人物を特定することを可能にし得る任意の他の情報が含まれ得る。一部の実施形態では、データ資産150を匿名化することは、例えば顔の一部またはすべてを除去するように改変を加えて対象者を認識するのを不可能にすることにより、医療画像を匿名化することを含んでよい。一部の実施形態では、データ管理モジュール210または担当するモジュールが、データ要素の各グループ(例えば、一人の患者に対応するデータ要素のグループ)に一意のグローバル識別子を割り当て、同じ患者に関連付けられている場合にそれと同じ一意のグローバル識別子を持つ他のデータ資産150を再編成することにより、受け取ったデータセットを匿名化してよい。
【0042】
共同プラットフォーム200の個々のモジュールに戻ると、データ分析モジュール220は、ワークフローライブラリ221および分析ツールキット223を提供するように構成されてよい。ワークフローライブラリ221および分析ツールキット223は、共同者自身のデータ資産150を調査するのに使用するために、または共同を形成してユーザプロジェクトを開始するときに、選択された共同者140が利用できるようにされてよい。
【0043】
一部の実施形態では、ワークフローライブラリ221は、消費者120が頻繁に行う慣行的分析および革新的分析を捉える、事前に構築された分析テンプレートを記憶するかまたは含んでよい。一部の分析テンプレートは、機械学習アルゴリズムに基づいてもよい。一部の実施形態では、事前に構築された分析テンプレートは、消費者または共同者によって提起された科学的問題に最も適する分析方法を特定するために、少なくとも部分的に使用されてよい。事前に構築された分析テンプレートは、統計分析、ゲノムワイド関連分析(GWAS)、カイ二乗検定、回帰分析機能等に使用されるものなどの分析ツールを含んでよい。分析ツールは、免疫学、神経変性疾患、または心臓代謝疾患などの特定の疾患分野ごとにグループ化されてもよい。さらに、分析ツールは、各疾患分野の中で、発見(例えば、仮想的な概念実証インジケータ(vPOC)やグラフマイニング)、臨床前(例えば、有害事象予測子や細胞画像分析)、臨床試験(例えば、終点エクスプローラや仮想試験設計)、または市場アクセス(疾患進行マップ)などの段階ごとに編成されてもよい。
【0044】
ある実施形態では、分析ツールキット223は、プラットフォームユーザがデータをさらに分析することを可能にする。例えば、分析ツールキット223は、統計演算およびグラフィックのための統合開発環境、高水準および汎用プログラミング言語のアプリケーション、オープンソースのソフトウェアライブラリ、データフローおよび微分可能プログラミングに基づく記号数学ライブラリ、ならびにユーザがデータ資産150をさらに調査することを可能にする他のソフトウェアまたはアプリケーションに基づく要素を含んでよい。分析ツールキット223は、機械学習アルゴリズムおよび/またはソフトウェア構成要素も含んでよい。
【0045】
共同プラットフォーム200は、共同のためのユーザプロジェクトを生成し、一致するデータ資産150および潜在共同者130を判定するための検索およびグラフモジュール230も含んでよい。一部の実施形態では、検索およびグラフモジュール230は、消費者120から検索クエリを受け取ってよく、検索クエリは、消費者120が調査したい種々のパラメータまたは科学的問題を含み得る。これらのパラメータおよび科学的問題は、ユーザプロジェクトに変換されて、下記のアルゴリズムに基づいてデータ資産150とマッチングされてよい。
【0046】
一部の実施形態では、ユーザプロジェクトは、各種の属性(例えば、説明、疾患分類、使用事例分類、連関するプロジェクト、連関する薬剤、連関する臨床試験)、データセット、および分析または変換のためのコードを含んでよい。属性は、コードの行を含んでよく、またはコードを通じて投入されてもよい。例えば、あるプロジェクト内で他の属性の関数として決定される特定の属性がコードとして表されてよく、その属性は、データ資産150への適用時に自動的に投入されてよい。
【0047】
図3は、ユーザプロジェクトが含み得る属性のサブセットと、それらがどのように編成されるかを示す木構造として描かれた例示的なプロジェクトテンプレートを示す。プロジェクトは、投入されたフィールドの一部のみを有してよい。例えば、あるデータセットのプロジェクトは、「データセット」の下に示されたフィールドのみが投入されていてよい。AIモデルのプロジェクトは、「分析」の下に示されたフィールドのみが投入されていてよい。さらに、属性は、キーワード、フィルタ、自然言語、消費者120が選択するドロップダウンメニューに基づいて、または他の方法によって投入されてよい。加えて、属性は、機械学習アルゴリズムが、消費者120が提出した科学的問題を構文解析した結果、投入されてよい。
【0048】
検索およびグラフモジュール230は、生産者110からのデータ資産150にインデックス付けするために同様のプロセスを使用してよく、あるデータ資産150は、データ資産150を生産した共同を開始するために使用された対応する生産者プロジェクトと共に記憶されてよい。一部の態様では、メタデータ、スキーマ、またはデータ資産150の一部分が、対応する生産者プロジェクトと共に記憶されてよい。そのようにして、消費者120からの検索クエリがユーザプロジェクトに変換され、以前の共同およびデータ資産150が、生産者プロジェクトに関連付けられてよく、検索およびグラフモジュール230は、ユーザプロジェクトを生産者プロジェクトとマッチングすることにより、消費者120を生産者110とマッチングしてよい。次いで、マッチングされたデータ資産150の所有者が、潜在共同者130として消費者120に提示されてよい。一部の実施形態では、検索およびグラフモジュール230は、データ資産150のスキーマをプラットフォームによって必要とされるスキーマに変換し、インデックス付けしてもよい。一部の実施形態では、データ資産に関連するスキーマが、まだプラットフォーム200によって特定されていない未知のまたは新しい変数を含み得る場合、スキーマは、プラットフォーム管理者により、プラットフォームによって必要とされるスキーマに変換される必要があり得る。
【0049】
潜在共同者130への消費者120の実際のマッチングは、検索およびグラフモジュール230のマッチングモジュール231および科学的問題変換モジュール233を使用して行われてよい。これら2つのマッチングモジュールは、ユーザプロジェクトを生産者プロジェクトとマッチングし、マッチングされたデータ資産150に対応する潜在共同者130を提示するように構成されてよい。一部の実施形態では、消費者120は、特定の提供者110または消費者120を、名前または組織の提携で検索してもよい。
【0050】
マッチングモジュール231は、特定のパラメータが使用されるユーザプロジェクト同士をマッチングするために使用されてよい。第1の事例では、消費者120が、キーワード、フィルタ、またはドロップダウンメニューを提出することによってマッチングプロセスを開始してよい。消費者120の好みに基づいて種々のパラメータが提出され得るが、データ資産150間の分析モデルに関するパラメータは、生産者110のタイプ(例えば、学術機関または医薬品企業)、疾患分野、問題表明、性能要件、プライバシー等を含み得る。データセットに関するパラメータは、疾患分野、データセットのタイプ、データセットの時間スケール、母集団の指定、生産者名、プライバシー等を含み得る。
【0051】
別の事例では、消費者120が、消費者120のプロフィールに基づいてカスタマイズされるデータ資産150または生産者110の推奨される組み合わせの1つを選択してよい。例えば、マッチングモジュール231が、消費者120の過去の活動(例えば、頻繁に調査された疾患分野、以前のプロジェクト、共有されたデータ資産150、またはフォーラム投稿)を分析してよい。マッチングモジュール231は、他のユーザの活動を分析して、他のユーザによって頻繁に使用される人気のあるデータ資産150を推奨してもよい。
【0052】
さらに別の事例では、消費者120が、マッチングパネルから他のユーザやデータ資産150を選択してよく、パネルには、種々の生産者110、データ資産150、または新しい共同者を求めている他の消費者120がリストされ得る。
【0053】
マッチングモジュール231は、適応的な性質であってよい。すなわち、共同が行われるのに伴い、様々なデータ資産に関連するオントロジーおよびスキーマが更新または変化する可能性がある。加えて、共同の結果、新しいデータ資産が作成されることがある。そのため、様々なデータ資産間の連関が作成されるのに伴い、マッチングモジュールは、特定の科学的問題に関連する共同において使用するのに最も有望なデータ資産を特定してよい。マッチングモジュール231は、質的マッチングと量的マッチング、の2つの異なるアルゴリズムを使用してよい。類似する目的を特定するための他のアルゴリズムも本開示の範囲内にあるが、本明細書では列挙しない。
【0054】
一部の実施形態では、質的マッチングは、データ資産に関連するスキーマまたはメタデータ内でキーワードマッチングを利用するか、またはオントロジーのマッピングに依拠してよい。質的マッチングは、Medical Dictionary for Regulatory Activities(MedDRA)に登録されているものなどの疾患タグ、またはデータタイプ(例えば、ゲノム、介入試験、電子健康記録等)を使用してよい。例えば、過去に複数のプロジェクトで使用されている特定のデータ資産150を与えられた場合、それら過去のプロジェクトの分析が、ある疾患(例えば、多発性硬化症)の頻繁な言及を明らかにすることがある。よって、特定のデータ資産150は、多発性硬化症に関連性があるとタグ付けされてよく、ユーザが多発性硬化症を検索するときに現れてよい。特定のキーワードに対して複数のそのようなデータ資産150があるさらなる実施形態では、マッチングされたデータ資産150は、データ資産の量(例えば患者数)または一意のサンプルの数に基づいてランク付けされてよい。追加または代替として、消費者120による指定が、ユーザプロジェクトの追加的な属性として設定されてもよく、それが、1つまたは複数の質的フィルタを使用してデータ資産150とマッチングされる。
【0055】
一方、量的パラメータマッチングは、ユーザプロジェクトおよびデータ資産150のスキーマに基づいてよい。例えば、列のタイトルおよび頻度を使用して関連性を確立することができ、検索およびグラフモジュール230は、質的基準についてデータ資産150の列のタイトルを検索してよい。量的マッチングは、1つまたは複数の所望の変数を含むデータ資産を特定し、1つまたは複数の所望の変数に関連するデータの量を特定してよい。1つまたは複数の所望の変数に関連するデータをより多く有するデータ資産は、当該1つまたは複数の所望の変数を有するもののデータがより少ないデータ資産よりも高くランク付けされてよい。検索およびグラフモジュール230は、対応するデータ資産150が一致であることを示す前に、マッチングされた列に対してヘルスチェックを行ってよい。
【0056】
ある実施形態では、科学的問題がユーザによって自然言語で入力され、例えば問題変換モジュール233によってプロジェクトに変換され、潜在共同者を特定するために使用されてよい。科学的問題変換モジュール233は、自然言語処理を使用して科学的問題を構文解析し、オントロジーに基づいてユーザプロジェクトを投入するための属性を特定するように構成されてよい。
【0057】
科学的問題をユーザプロジェクトに変換する例示的方法が、下記で
図6に関して示される。単純な例として、ユーザが、ユーザインターフェース(UI)を使用して科学的問題を入力してよい。この例では、科学的問題は、「上昇したLDLはアルツハイマー病の進行と連関している」という仮定であるとする。科学的問題変換モジュール233は、自然言語処理技術を使用してこの科学的問題を構文解析し、オントロジーに基づいてユーザプロジェクトの属性を特定してよい。例えば、変換モジュール233は、この問題がアルツハイマー病に関係すると認識してよく、「進行」という語の使用に基づいて問題タイプが「疾患の進行」であると判定してよい。変換モジュール233は、「アルツハイマー」という語に基づいてこの問題が「神経科学」の疾患分野にあると判定してよい。この情報に基づいて、変換モジュール233は、ユーザプロジェクトの他のフィールドを投入するために使用されるデータを推論してよい。例えば、この例示的問題はアルツハイマー病および疾患の進行に関係するので、変換モジュール233は、潜在クラス混合(latent class mixed)モデリングまたはK平均クラスタリングなどの方法を選び得る。
【0058】
一部の態様では、科学的問題変換モジュール233は、ユーザまたは消費者120によって提示された自然言語での科学的問題を、科学的問題の分析表現であるコードに変換してよい。コードは、プラットフォームデータオントロジーおよびスキーマ、以前の科学的問題、ワークフローライブラリに記憶されている事前に構築された分析テンプレート、および以前の共同時にプラットフォーム上で生成された洞察から導出されてよい。プラットフォーム200上に組み込まれたすべてのデータ資産は、1つもしくは複数の共同、プロジェクトを表す、またはスキーマもしくはオントロジーを通じてデータ資産を1つもしくは複数の科学的問題に連関させる、同様のコードに変換されてよい。
【0059】
次いで、科学的問題変換モジュール233は、その結果得られたユーザプロジェクトを、上記のように一致するデータ資産150、潜在共同者、AIモデル、および連係先を質的に特定する際に使用するために、マッチングモジュール231に提供してよい。ユーザまたは消費者120によって提示された科学的問題と、データ資産に連関するまたは関連付けられた科学的問題との類似性に基づいて、マッチングモジュール231は一致を判定してよい。それぞれの一致は、ユーザまたは消費者120によって提示された科学的問題と1つまたは複数のデータ資産との類似度の率を表す類似度値を含んで、マッチングされたデータ資産のランク付けを可能にしてよい。
【0060】
検索およびグラフモジュール230が、生産者プロジェクトとの、したがってデータ資産150との、ユーザプロジェクトのマッチングを終了すると、マッチングされたデータ資産150に対応する潜在共同者130が、選択のために消費者120に提示される。検索およびグラフモジュール230は、ランク付けに基づいて、推奨されるマッチングされたデータ資産150を消費者120に提示してよい。そして、消費者120は、潜在共同者130のサブセットを選び、それを、次いで検索およびグラフモジュール230が共同モジュール240に中継する。
【0061】
一部の実施形態では、検索およびグラフモジュール230は、生産者プロジェクトがどれほどユーザプロジェクトと一致するかに基づいて潜在共同者をランク付けすることにより、潜在共同者130を提示してよい。例えば、検索およびグラフモジュール230は、一致する属性の数、以前のユーザによって過去に選択された最も人気のあるデータ資産、科学的問題の種類に基づいてランクを決定してよい。ランク情報は、消費者120だけに提示されてよく、個々の潜在共同者130は、消費者120によって開始された特定の検索における自身のランク付けを知らなくてよい。
【0062】
さらなる実施形態では、検索およびグラフモジュール230が、各潜在共同者130と共に、データ資産150の短い説明を表示してよい。短い説明は、データ資産150と共に対応する提供者110によって提供されても、またはそのスキーマに基づいてデータ管理モジュール210によって生成されてもよい。追加または代替として、検査モジュール244を使用して、消費者120に、マッチングされたデータ資産150への限られたアクセスが与えられてもよい。検査モジュール244は、マッチングされたデータ資産150を購入するまたはそれを使用して共同を構築する前に、事前の点検のためにマッチングされたデータ資産150の一部へのアクセスを許してよい。一部の実施形態では、マッチングされたデータ資産150の当該一部分は、公衆に利用可能にされている、または対応する生産者110によって公表が許可されていることがある。検査モジュール244は、マッチングされたデータ資産150に対して1つまたは複数のデータ品質チェックを行う、または行うために使用されてよい。データ品質チェックで、ユーザは、マッチングされたデータセットのいずれかがユーザの使用に適しているかどうかを調べるためにマッチングされたデータセットに対してクエリを実行することを許されてよい。例えば、心臓疾患に関係する問題を研究しているユーザが、データセットにクエリを行って心臓疾患に関係するパラメータが適切に投入されているかどうかを判定してよい。ある実施形態では、検査モジュール244がデータ取り込みモジュール211と統合されて、取り込まれたデータ資産に関連する以前に行われたデータ品質チェックの結果を表示してよい。
【0063】
一部の実施形態では、検索およびグラフモジュール230は、データ資産150と、最も高い一致を返す対応する潜在共同者130との最適化された組み合わせを出力するように構成された推奨モジュール(図示されていない)をさらに備えてよい。そのような最適化された組み合わせは、区別された形で消費者120に表示されてよい(例えば、共同者の選択を支援するためにハイライト表示される)。推奨モジュールは、システムのユーザによって提供された評定およびコメントを使用して、データ資産150、方法、モデル、提携先、およびプラットフォームへの他の入力を改良するまたはランク付けしてよい。
【0064】
共同プラットフォーム200は、消費者120と、潜在共同者130のプールから選択された選択共同者140との間の共同を安全かつシームレスに連係させるための共同モジュール240も備えてよい。消費者120が選択共同者140を選ぶと、共同プラットフォーム200は、通知を生成して各選択された共同者140に送信してよい。この通知は、消費者120の識別、ユーザプロジェクトの説明もしくは概要、他の選択された共同者140の識別、または消費者120と共同するか否かを決定するためにそれぞれの選択された共同者140にとって有用であり得る任意の他の情報を含んでよい。ユーザプロジェクトの説明または概要は、選択された共同者がその共同を拒否することを選ぶ可能性もあるため、機密情報がまだ共有されていないことを保証するために、消費者120によって編集または提供されてよい。
【0065】
各選択された共同者140が共同を承諾すると、共同モジュール240は、契約および支払いを記録することによってその共同を最終確定するように構成されてよい。一部の実施形態では、法的モジュール242が、選択された共同者140が消費者120と各選択された共同者140との間で1つまたは複数の契約(例えば、基本合意事項、共同研究合意、機密保持合意等)を生成できるようにしてよい。1つまたは複数の契約は、汎用的であるか、または例えばドロップダウンメニューや各選択された共同者140を誘導するプロンプトによって特定の状況に合わせて構成可能であってよい。法的モジュール242は次いで、消費者120および選択された共同者140の各々から、契約の署名済みのコピーを含み得る、承諾または拒絶の指示を得てよい。一部の実施形態では、契約は、データ資産150を使用するための料金の取り決めを含んでよく、これは、関係者間での支払いを必要とし得る。この場合、共同モジュール240は、支払い者から支払い情報を受け取り、契約に従って電子支払いをやり取りするように構成されたトランザクションモジュール243を含んでよい。トランザクションモジュール243は、クレジットカード、銀行振替、PayPal、または他の支払いタイプなどの様々な種類の支払いを受け取るように構成されてよい。トランザクションモジュール234は、法的モジュール242によって定められた取り決めに応じて1つまたは複数の共同者140または1つまたは複数の消費者120への支払いを管理するように構成されてもよい。トランザクションモジュール243は、データ資産150の支払いまたは使用に関する法的免責を提供してもよい。
【0066】
あらゆる関係者が共同に承諾し、契約を実行し、支払いをやり取りすると、共同モジュール240は、それまで制約されていた選択された共同者140に属するデータ資産150の完全な開示を許可してよい。選択された共同者140の中の提供者110も、データ資産150の完全なセットを共有してよく、ここではデータ資産150の一部のみが以前に共同プラットフォーム200にインポートされていた。そのような提供者110からのデータ資産150の新しい完全なセットは、共同の終結まで、データ管理モジュール210を通じて共同プラットフォーム200に一時的にインポートされてよい。
【0067】
一部の実施形態では、共同モジュール240は、消費者120および選択された共同者140が、様々な試験(例えば、動物実験、仮想試験、または臨床試験)を設定し管理することを可能にするように構成されてよい。例えば、共同モジュール240は、患者を募り、彼らのデータを匿名化し、そのデータを分析のために消費者120および選択された共同者140が利用できる状態にするのを支援してよい。さらなる実施形態では、共同モジュール240は、消費者120および選択された共同者140が私的および公的な財源(例えば、国立衛生研究所、ゲイツ財団、または助成金もしくは貸付金を授与する他の組織)への助成金申請を管理するのを可能にするように構成されてもよい。
【0068】
共同モジュール240は、共同プラットフォーム200の動作に基づいて決定された洞察を生成するおよび/または記憶するように構成された洞察アプリケーション241も備えてよい。
【0069】
科学的洞察は、解決される使用事例の一部として生成される。科学的洞察は、知識グラフとしてプラットフォームに記憶されてよい。例えば、上述のLDLコレステロールレベルとアルツハイマー病との間の関係の特定は、共同プラットフォーム200の使用を通じて生成される科学的洞察であり得る。洞察は、特定の洞察が有効であり、信頼できるソースから信頼できる正当な寄与者によって導出されたことを認定する人間の専門家または仲介者によって検証されてよい。消費者の洞察は、例えば、データ資産、AIモデル、潜在共同者、およびプラットフォーム上にある他のアイテムのランク付けを支援する評定および/またはコメントであり得る。消費者の洞察および/またはランク付けは、科学的問題を解決するのを助けるために使用されてよい。
【0070】
洞察の所有者/作成者は、寄与の考慮に基づいて決定されてよい。そして、そのような決定がその洞察へのアクセス可能性を支配してよい。例えば、科学的洞察は、その洞察を生成したプロジェクトの寄与者(例えば、生産者110または選択された共同者140)に割り当てられるまたは帰属されてよい。洞察は、次いで、私的な洞察としてそのプロジェクトの寄与者だけがアクセスできるようにされてよい。別の例では、公開されている臨床試験データ(例えば、clinicaltrials.govからの)を、学術誌および/または特許の特定の文献につなぐことによって洞察が生成されてよい。自然言語処理アルゴリズムを使用して、公開データを使用して仮説を検証して洞察を形成することができるように、文献や特許から仮説を抽出してよい。そのような洞察は、共同プラットフォーム200のすべてのユーザがアクセスできるようにされてよい。さらに、共同プラットフォーム200の個々のユーザ間の関係(例えば、それらのユーザが誰とつながっているか、それらのユーザがどの組織と提携しているか、どのデータ資産150をこれまでに使用したか、そのプロジェクトの一部であるか等)を特定することによって、消費者洞察が生成されてよい。そのような洞察は、進行中のプロジェクトと現在までのその進捗のグローバルブラウザとして、または新しいつながりもしくは共同を形成するためのネットワーキング手段として使用されてよい。これらの洞察は、機密/個人情報を含む可能性があるため、閲覧が部分的に制約されてもよい。
【0071】
一部の実施形態では、知識グラフ中の洞察の所有者/作成者が、自身の個人的な知識グラフをプラットフォームの共通知識グラフにつなげる(検索可能にするが、アクセス可能にはしない)ことを決定してよい。共有知識グラフは、オントロジーを改良するのを助け、また共同検索要求を作成する際に必要なフィールドを自動的に含めるのを助けることができる。
【0072】
洞察アプリケーション241は、共同のために受け取られ、取り込まれたデータ資産150を使用して、科学的問題に関係する疾患固有の推論を生成し、マッチングの適切性について、各共同者がこれまでどうであったかについて、またはプラットフォームがこれまでどうであったかについて、消費者120および選択された共同者140からフィードバックを受け取るように構成されてよい。一部の実施形態では、フィードバックは、選択された共同者140によって提供されたデータ資産150の品質に関するコメントも含んでよい。そして、洞察アプリケーション241は、推論およびフィードバックを使用して検索およびグラフモジュール230を改良してよい(例えば、ランク付けまたはインデックス付けを調節する)。
【0073】
さらに、共同プラットフォーム200は、プラットフォーム管理モジュール250を備えてよく、これは、プラットフォームを管理する(例えば、ログ記録、認証、API管理、課金/使用量報告、サービス監視)ための管理モジュールおよびその他モジュール(図示されていない)を備えてよい。プラットフォーム管理モジュール250は、共同プラットフォーム200の管理者が個々のモジュールまたは構成要素にアクセスするのを可能にするように構成された入力/出力装置または端末も備えてよい。一部の実施形態では、プラットフォーム管理モジュール250は、提供者110と消費者120が自由にアイディアを共有したり、問題を投稿したり、またはデータ資産150を公開することができるフォーラムを提供するように構成されてもよい。そのようなフォーラムは、提供者110および消費者120の間で相互作用および新しい共同が形成されるのを促進し得る。
【0074】
一部の実施形態では、共同プラットフォーム200は、共同プラットフォーム200のユーザがデータ、科学的問題、応答、または選択を入力することができるユーザインターフェース252を備えてよい。共同プラットフォームは、ユーザがデータ、選択、および他の情報を見る1つまたは複数の表示装置も備えてよい。一部の実施形態では、ユーザインターフェース252と表示装置の一方または両方が、プラットフォーム管理モジュール250の一部であるかまたはそれと機能を共有してよい。一部の実施形態では、それらはそれぞれ独立したモジュールである。
【0075】
図2Aは、追加的な構成要素を有する(そのすべてが本明細書に記載される訳ではない)共同プラットフォーム200aの代替実施形態を示す模式的ブロック図を示す。開示される実施形態に従い、共同プラットフォーム200aは、種々の生産者110が、各自の知的財産を保護するためのアクセス制御を維持しつつ、各自のデータ資産150を共有環境によって使用できるようにさせてよい。加えて、共同プラットフォーム200aは、生産者110が、さらに他の生産者110、消費者120、または共同者140と共同することなく、自身のデータ資産150を利用してプロジェクトにアクセスし、プロジェクトを作成することを可能にしてよい。共同プラットフォーム200aは、ユーザプロジェクトの成果(例えば、データセット、新しい使用事例、または新しい治療法)は共有するまたは公開することができるが、それに寄与した要素(例えば、利用されたデータ資産150、分析方法)はできないように設計されてよい。共同プラットフォーム200aは、データ管理モジュール210a、分析モジュール220a、検索およびグラフモジュール230a、共同モジュール240a、およびプラットフォーム管理モジュール150aを含んでよい。
【0076】
図4は、消費者120によって指定されたパラメータを使用してユーザプロジェクトを潜在共同者130とマッチングするためのコンピュータ化されたプロセス400の例示的フローチャートである。プロセス400は、上述のその種々の構成要素を使用して、共同プラットフォーム200によって行われてよい。
【0077】
プロセス400は、ステップ401で、消費者120が共同プラットフォーム200にアクセスすることから開始してよい。次いで、マッチングモジュール231が、ステップ412A~412Cによって表されるように、上述の3つの事例のいずれかで、検索およびグラフモジュール230を介して消費者210からパラメータを受け取ってよい。ステップ412A~412Cの各々について、マッチングモジュール231は、上述のプロセスで、受け取ったパラメータをデータ資産150とマッチングすることを試みてよい。例えば、マッチングモジュール231は、パラメータをユーザプロジェクトの属性に変換し、ユーザプロジェクトの属性を、データ資産150に関連する生産者プロジェクトの属性と比較することによって潜在データ資産150を特定し、潜在データ資産150に対応する潜在共同者130を提示してよい。
【0078】
ステップ413でマッチングが完了し、ステップ414で、消費者120が選択共同者140を選び得る。消費者120の選択を受け取ると、共同モジュール240は、ステップ415で、上述した方式で、選択された共同者140にその一致およびユーザプロジェクトを通知してよい。次に、ステップ416で、上述したように、選択された共同者140による承諾が、共同モジュール240に、その承諾を消費者120に通知させ、ステップ417で共同の最終確定に進んでよい。
【0079】
しかし、他方で、プロセス400におけるマッチングプロセスは、いくつかの異なる形でうまく行かないことがあり得る。例えば、マッチングモジュール231は、ステップ418で、ユーザプロジェクトをどのデータ資産150ともマッチングすることができないことがあり得、その時点で、検索およびグラフモジュール230は、空の結果を消費者120に通知してよい。一部の実施形態では、検索およびグラフモジュール230は、ステップ419で、異なるパラメータセットでマッチングを再度試みることを望むかどうかについて消費者120を促してもよい。消費者120による肯定的な応答は、検索およびグラフモジュール230をステップ411に戻らせてプロセス400を再開させ得る。
【0080】
別の例で、マッチングプロセスは、選択された共同者130が消費者120の共同の要求を却下する場合にうまく行かないことがある。そのような場合、共同モジュール240は、ステップ420でその拒絶を消費者120に通知し、ステップ419で、マッチングを再度試みることを望むかどうかについて消費者を促してよい。消費者120による肯定的な応答は、検索およびグラフモジュール230をステップ411に戻らせてプロセス400を再開させ得る。
【0081】
さらなる実施形態では、どちらがマッチングを開始したのかに応じて、消費者120または生産者110に、ステップ413でマッチングしたすべての潜在共同者130を拒絶する選択肢が与えられてよい。その場合、検索およびグラフモジュール230は、ステップ419で、マッチングが繰り返されるべきかどうかを促してよい。ステップ414で1つまたは複数の潜在共同者130を選択すると、プロセス400が上述のように進行することが可能となる。
【0082】
図5は、消費者120によって提出された科学的問題を使用してユーザプロジェクトを潜在共同者130とマッチングするためのコンピュータ化されたプロセス500の例示的フローチャートである。
図5に示されるステップは、
図4に示されるステップと実質的に同様であってよく、これは、潜在共同者130を特定した後のステップは、消費者120によって提出された検索クエリが科学的問題を含むかまたはパラメータのセットを含むかに関係なく同じままであるためである。
【0083】
プロセス500は、一部の実施形態では、消費者120が科学的問題を提出し得るステップ511で開始してよい。ステップ512で、科学的問題がユーザプロジェクトに変換されてよい。
図6に示されるように、科学的問題をプロジェクトに変換するプロセスでは、フィールドの一部が、記憶されている論理の使用を通じて推論されてよい。例えば、「アテローム硬化型心血管疾患のある患者のリスクは何か?」という問題では、患者が喫煙者であるか、高血圧であるか、または糖尿であるかどうかなどの因子が重要であり得ることが推論され得る。年齢、人種、性別などの他の因子が重要な危険因子であることもあり得る。また、収縮期血圧、総コレステロール、LDL、HDLなどの特定の測定値がその研究にとって重要な測定値であると推論されることもあり得る。疾患分野(例えば、神経科学、心血管)、標的酵素またはタンパク質(例えば、PCSK-9)、薬物分類(スタチン、siRNA)、分析の方法(例えば、潜在クラス混合モデリング、K平均クラスタリング)等のプロジェクトのその他の態様が、問題から推論されてもよい。
【0084】
推論は、少なくとも最初は、科学的知識を有する者によって入力された記憶データに基づいて行われてよい。推論は、1つまたは複数のデータセットに基づいて決定されてよい。推論は、プラットフォームの使用から生成された洞察に基づいて決定または更新されてもよい。
【0085】
ステップ514~521は、検索およびグラフモジュール230がどのように潜在共同者を特定したかとは関係のない共同モジュール240の機能を対象とするため、ステップ413~420と実質的に同様であってよい。しかし、一部の実施形態では、検索およびグラフモジュール230は、ステップ520で、消費者120に選択肢を提示して、消費者がマッチングを繰り返すことを望むかどうかを尋ね、ステップ521で、消費者が同じ科学的問題を使用することを望むかどうかを尋ねてよい。検索およびグラフモジュール230は次いで、消費者120からの肯定的な指示に応答してステップ513でマッチングを繰り返すか、または否定的な指示に応答してステップ511で新しい科学的問題を促してよい。
【0086】
代替または追加として、消費者120の代わりに、生産者110が、検索およびグラフモジュール230を介してマッチングを開始することが可能であってもよい。この場合、ステップ414~420または514~522は、生産者110が、消費者120の代わりに、ステップ414(またはステップ515)で最初に共同者を選択し、ステップ416および418~420(またはステップ517および519~522)で通知を受け取る者となるように変更されてよい。潜在共同者130および選択された共同者140は、この場合、他の生産者110ならびに消費者120を含み得る。
【0087】
図6は、消費者120によって提出された科学的問題を使用してデータ資産150を特定するためのコンピュータ化されたプロセス600の例示的フローチャートである。一部の実施形態では、プロセス600は、ステップ511~513の一部に対応し得、ここで、科学的問題がユーザプロジェクトに変換され、データ資産150とマッチングされる。プロセス600は、上述のその種々の構成要素を使用して、共同プラットフォーム200によって行われてよい。
【0088】
プロセス600は、一部の実施形態では、ステップ601で、ユーザ入力として科学的問題のテキストを受け取ることによって開始してよい。この科学的問題は、上記のステップ512の場合と同様に、消費者120が他人に質問をするかのような自然言語のテキストであってよい。例えば、科学的問題は、「リポタンパク質(a)レベルは冠動脈疾患の発症年齢と相関するか?」というものであり得る。この例示的科学的問題は、以降のプロセス600の説明を通じて使用されるが、問題自体、その中で伝えられる単語または意味、以下の解釈、データ、または特定の解説は、いずれも決して制限的なものであることは意図されない。
【0089】
ステップ602で、共同プラットフォーム200は、科学的問題を構文解析してコンポーネントパラメータにし、それらのコンポーネントパラメータを数学的関係になるように並べる。共同プラットフォーム200は、科学的問題を単語に分解してそれらの意味を決定するために利用可能な自然言語処理技術のいずれを使用してもよい。例えば、共同プラットフォーム200は、上記で提供された例示的科学的問題を、「リポタンパク質(a)」「相関」、「発症年齢」、および「冠動脈疾患」に分解し、これらの単語が、それぞれ、コンポーネントパラメータ、「バイオマーカ」、「関連」、「病歴」、および「疾患」を記述していることを認識してよい。
【0090】
一部の実施形態では、共同プラットフォーム200は、単語または専門用語の一般的な変化形を認識するために追加的な論理を利用してよい。さらなる実施形態では、共同プラットフォーム200は、科学的問題をユーザプロジェクトに変換するためにおよび/または
図3に示されるもののようなプロジェクトテンプレートを完成するために有用であり得る追加的なコンポーネントパラメータの値を認識し、割り当ててもよい。例えば、共同プラットフォーム200は、上記で特定された疾患「冠動脈疾患」に基づいて、上記の例示的科学的問題が、コンポーネントパラメータ「疾患分野」が「心血管」の値を取り得ることを示すことを認識してよい。
図3に見られる属性などの他のコンポーネントパラメータも、プロセス600の下で特定および考慮するために利用可能であり得る。
【0091】
さらに、共同プラットフォーム200は、自然言語処理技術を使用して、コンポーネントパラメータを並べて数学式にしてよい。例えば、共同プラットフォーム200は、上記の例示的科学的問題のコンポーネントパラメータは、
A(X,Y,Zのある患者)>0
の式に並べることができることを認識し、ここで、Aは関連付け関数であり、Xはバイオマーカであり、Yは病歴であり、Zは疾患である。ここでの式は、Xと、Yと、Zのある患者との間の相関が0より大きい(すなわち、これら3つの変数の間に正の相関がある)ことを示している。
【0092】
ステップ603で、共同プラットフォーム200は、疾患Zのコンポーネントパラメータに関連する、データ資産150内のすべての患者を特定することによって開始してよい。この検索は、この疾患が診断、病歴、および/または有害事象の中に出現した、データ資産150中のあらゆるエントリを含んでよい。一部の実施形態では、共同プラットフォーム200は、Medical Dictionary for Regulatory Activities(MedDRA)やその他の公開ディレクトリなどの外部の知識ベースを使用して、検索を、関連する疾患または関係する医療手技まで拡大してよい。例えば、上記で特定された疾患Z(冠動脈疾患)の検索は、心筋梗塞、非致命的発作、虚血性発作、心血管死、狭心症、一過性脳虚血発作等の他の疾患、ならびに、冠動脈血管形成およびステント移植、血栓溶解治療、冠動脈バイパスグラフト手術(CABG)、人工ペースメーカ手術、心臓弁手術等の関係する医療手技を含むように拡大されてよい。ステップ603の終わりに、共同プラットフォーム200は、ステップ603で特定されたすべての患者を対象コホートとして、またそれらに関連するデータを対象データセットとして、一時的に記憶してよい。
【0093】
特定された患者について、ステップ604で、共同プラットフォーム200は、対象コホートに属し、かつ特定のコンポーネントパラメータの記録を有する患者の第1のサブセットを特定してよい。例えば、共同プラットフォーム200は、対象データセットから、上記の例示的科学的問題において指定されたバイオマーカであるリポタンパク質(a)の測定値を有する患者を検索してよい。一部の実施形態では、共同プラットフォーム200は、そのバイオマーカが他のバイオマーカまたは遺伝子変異と相関するかどうかを判定し、そのバイオマーカの測定値が当該他のバイオマーカまたは遺伝子変異に関する患者の記録に基づいて推論できる患者をさらに特定するように、検索を拡大してもよい。ステップ604の終わりに、共同プラットフォーム200は、対象コホートおよび対象データセットを更新して、ここで述べられる基準に適合しない患者および対応するデータを除去してよい。
【0094】
患者の第1のサブセットから、ステップ605で、共同プラットフォーム200は、当該疾患のコンポーネントマーカに関係する共変量を特定してよい。一部の実施形態では、共同プラットフォーム200は、自然言語処理技術を使用して科学文献を構文解析して、研究者がその特定の疾患と関連することを発見している共変量を特定してよい。例えば、冠動脈疾患に関する共変量は、年齢、性別、人種、喫煙歴/状況、ボディマス指数(BMI)、血圧、LDL、および2型糖尿病、の1つまたは複数を含み得る。
【0095】
追加または代替として、共同プラットフォーム200は、データベース中のデータ資産150および以前のユーザプロジェクトを検索して、共同プラットフォーム200を使用している共同者ですでに共変量を特定した者があるかどうかを調べてよい。一部の実施形態では、共同プラットフォーム200は、信号の使用、ソース、および強度に基づく機械学習を使用して、特定された共変量の1つまたは複数を破棄してよい。例えば、最も高い信頼度を有するものだけが保持され、残りは破棄されてよい。
【0096】
それらの共変量を使用して、ステップ606で、共同プラットフォーム200は、第1のサブセット(すなわち、更新後の対象コホート)をフィルタリングして、それらの共変量に対応するデータエントリをもつ患者の第2のより小さいサブセットを特定してよい。このステップは、患者記録(すなわち、対象データセット)の中で検索するデータがステップ605で特定された共変量であることを除いて、ステップ604と同様であってよい。
【0097】
次いでステップ607で、共同プラットフォーム200は、対象コホートおよび対象データセットを更新して、共変量に関するデータを含んでいない患者はいずれも破棄し、それにより第2のサブセットとして特定されたものだけを保持してよい。一部の実施形態では、消費者120によってアクセスできないデータ資産150に属する患者も破棄されてよい。共同プラットフォーム200は次いで、結果として得られた対象データセットを、当該科学的問題にとって関連性が高い最終データ資産としてパッケージしてよい。
【0098】
一部の実施形態では、この最終データ資産は、次いで、消費者120が選択するために、種々の潜在共同者130のリストの形態で消費者120に提示されてよい。共同プラットフォーム200は次いで、上記で
図4および
図5に関して述べたように、消費者120を選択された共同者140につなげることに進んでよい。さらなる実施形態では、共同プラットフォーム200は、ステップ601で入力された科学的問題、ステップ602で特定されたコンポーネントパラメータ、およびステップ607で生成された最終データ資産をユーザプロジェクトとしてパッケージしてもよく、ここで、コンポーネントパラメータは属性に変換される。
【0099】
プロセス600中のいずれかの時に、共同プラットフォーム200は、対象コホート中の患者数が所定の閾値を下回った場合、プロセス600を終了してよい。所定の閾値は、統計的有意性をもって科学的問題に答えるために必要とされるデータ点(すなわち、患者)の最小数であってよい。所定の閾値は、ユーザもしくは消費者120によって設定されても、または関係する疾患分野の同様の科学的問題に基づく機械学習を使用して共同プラットフォーム200によって決定されてもよい。
【0100】
図7は、消費者120によって提出された科学的問題を使用して、以前のプロジェクト、潜在共同者130、または追加的な科学的問題を特定するためのコンピュータ化されたプロセス700の例示的フローチャートである。プロセス700は、上述のその種々の構成要素を使用して、共同プラットフォーム200によって行われてよい。一部の実施形態では、プロセス700は、科学的問題が潜在共同者130とマッチングされる、ステップ511~514の一部に対応してよい。
【0101】
プロセス700は、一部の実施形態では、ステップ701で、ユーザ入力として自然言語の科学的問題を受け取り、ステップ702で、その科学的問題を構文解析してコンポーネントパラメータにし、数学的関係として表すことにより、開始してよい。ステップ701および702は、上記で説明したステップ601および602と実質的に同様であってよい。
【0102】
ステップ703で、共同プラットフォーム200は、機械学習アルゴリズムを使用して、関心対象となり得る追加的な科学的問題を生成してよい。一部の実施形態では、これは、特定されたコンポーネントパラメータを使用して、以前に他の消費者120によって提出された他の科学的問題を特定することを含んでよい。ここで特定される他の科学的問題は、元々入力された科学的問題に対して特定されたものと同様のコンポーネントパラメータを含んでよい。共同プラットフォーム200は次いで、対応する対象データセットの重複、または例えば洞察アプリケーション241によって受け取られる、ユーザからのフィードバックに基づいて、関連性の高い科学的問題のリストを作成してよい。
【0103】
ステップ704で、共同プラットフォーム200は、関連性の高い科学的問題のリストを消費者120に提供し、消費者120によって選ばれた、関連性のある科学的問題の選択を受け取ってよい。他の実施形態では、共同プラットフォーム200は、ユーザ入力の代わりにまたはそれに加えて、所定数の最も関連性の高い科学的問題を選択してよい。例えば、上記のプロセス600の場合に受け取られた例示的科学的問題の代替の科学的問題は、「アルツハイマー病のある患者において、リポタンパク質(a)レベルは冠動脈疾患の発症年齢と相関があるか?」を含み得る。
【0104】
ステップ705で、共同プラットフォーム200は、関連性のある科学的問題の選択に基づいてコンポーネントパラメータおよび数学的関係を更新してよい。コンポーネントパラメータおよび対応する数学的関係の追加的なセットが、選択された科学的問題を説明するために生成されてよい。例えば、上記のステップ602(およびしたがって702)で「冠動脈疾患」として特定された疾患のコンポーネントパラメータは、ステップ705で、「冠動脈疾患 AND アルツハイマー」を含むように更新されてよい。疾患分野に関するものなどの、共同プラットフォーム200によって自動的に特定される他のコンポーネントパラメータが、「心血管、神経科学」をも含むように更新されてよい。
【0105】
ステップ702および705の両方から、共同プラットフォーム200は、ステップ706および/または707のいずれかに進んでよい。ステップ706で、共同プラットフォーム200は、上述のステップ603~607と同じように、関連性のあるデータ資産150を特定してよい。ここで、複数のデータ資産150が特定され得、各々は、ステップ702および705で特定または更新されたコンポーネントパラメータの異なるセットに基づいている。
【0106】
ステップ707で、共同プラットフォーム200は、科学的問題(すなわち、元々入力された科学的問題および/または関連性のある科学的問題)に関連性のある以前のプロジェクトまたは潜在共同者130を特定してよい。例えば、共同プラットフォーム200は、コンポーネントパラメータの同様のセットを含んでいる完了したユーザプロジェクトまたは科学的問題の記録を調べてよい。ここで、特定されたユーザプロジェクトに関与した関係者も、潜在共同者130として特定されてよい。一部の実施形態では、共同プラットフォーム200は、コンポーネントパラメータの同様のセットを求めて生産者110および消費者120のユーザプロフィールを検索することによっても、潜在共同者130を特定してよい。ユーザプロフィールは、共同プラットフォームに記憶されているプロフィール、著者のオンライン公開データベース、および/またはLinkedInプロフィールなどの他の公開および私的プロフィールを含み得る。
【0107】
一部の実施形態では、共同プラットフォーム200は、特定されたユーザプロジェクトの消費者120または生産者110がそのような共有を許可する場合、そのようにして特定されたユーザプロジェクトおよび潜在共同者130のリストを消費者120と共有してもよい。この機能は、上述した
図5のステップ515と同様であってよい。またこれも上記のステップ515で述べたように、ユーザプロジェクトおよび潜在共同者130のリストを受け取った消費者120は次いで、共同者(すなわち、選択された共同者140)および/またはユーザプロジェクトを選択し、共同するために次のステップに進んでよい。一部の実施形態では、共同プラットフォーム200は、上記のステップ706で特定されたデータ資産150のリストを消費者120に提供してよく、それに応答して、消費者120が、所望のデータ資産150を選択し、それへのアクセスを購入または取得してよい。
【0108】
一部の実施形態では、共同プラットフォーム200は、消費者120の要求に応じて、または関連性のある新しい科学的問題が選択されなくなるまで、ステップ703~705を複数回繰り返してよい。これらのステップは、共同プラットフォーム200が、消費者120のクエリを自動的に強化し、それにより、将来の研究主題のためのアイディアや消費者の科学的問題を精緻化するための手段を提供する。
【0109】
本開示は、その特定の実施形態を参照して示され、説明されたが、本開示は変更なしで他の環境で実施可能であることが理解されるであろう。前述の説明は、説明の目的のために提示された。それは徹底的なものではなく、開示された通りの形態または実施形態に限定されない。開示された実施形態の詳細および実施の検討から、変更および適合が当業者に明らかになろう。加えて、開示された実施形態の態様は、メモリに記憶されるものとして説明されるが、当業者は、それらの態様は、二次記憶装置、例えば、ハードディスクもしくはCD ROM、または他の形態のRAMもしくはROM、USB媒体、DVD、Blu-ray(登録商標)、または他の光学ドライブ媒体などの他の種類のコンピュータ可読媒体に記憶されることも可能であることを認識するであろう。
【0110】
ここに書かれた説明および開示された方法に基づくコンピュータプログラムは、経験のある開発者の技量内にある。様々なプログラムまたはプログラムモジュールが、当業者に知られている技術のいずれかを使用して作成され得、または既存ソフトウェアとの関係で設計され得る。例えば、プログラムセクションまたはプログラムモジュールは、.Net Framework、.Net Compact Framework(およびVisual Basic、C等の関係する言語)、Java(登録商標)、C++、Objective-C、HTML、HTML/AJAXの組み合わせ、XML、または含められたJavaアプレットを有するHTMLにおいて、またはそれらを用いて設計され得る。
【0111】
さらに、例示的な実施形態が本明細書に記載されたが、同等の要素、変更、省略、組み合わせ(例えば、様々な実施形態にまたがる態様の)、適合および/または改変を有するありとあらゆる実施形態の範囲は、本開示に基づいて当業者によって認識されるであろう。特許請求の範囲における限定事項は、特許請求の範囲で用いられる文言に基づいて広く解釈されるべきであり、本明細書に記載された例に限定されるべきではなく、または本願の実行時に限定されるべきでもない。例は、非排他的に解釈されるべきである。さらに、開示された方法のステップは、ステップの順序を変更するおよび/またはステップを挿入もしくは削除することを含む任意の方式で変更されてよい。したがって、詳細な説明および例は例示的なものとのみ解釈されるべきであり、真の範囲および主旨は、以下の特許請求の範囲およびその同等物の全範囲によって示されることが意図される。
なお、本発明には以下の態様が含まれることを付記する。
[態様1]
薬剤発見および開発のために異種のデータベースにまたがる生命科学データの分析の共同を可能にするためのプラットフォームであって、前記プラットフォームは、少なくとも1つのハードウェアプロセッサと、少なくとも1つのメモリと、少なくとも1つのデータ資産に動作的に接続された少なくとも1つの通信手段とを備え、前記プラットフォームが、
検索およびグラフモジュールであって、
ユーザプロジェクトを生成することであって、前記ユーザプロジェクトが、a)人気度に基づくシステム推奨、b)検索語、フィルタ、および/または1つもしくは複数のドロップダウンメニューからの選択の指示、ならびに、c)ユーザによって入力された自然言語での少なくとも1つの科学的問題、の1つまたは複数から決定される複数の属性を備える、ユーザプロジェクトを生成することと、
1つまたは複数の一致するデータ資産および1つまたは複数の潜在共同者を決定して表示することであって、前記一致するデータ資産および潜在共同者は、前記ユーザプロジェクトおよび1つまたは複数の生産者プロジェクトに基づいて決定され、前記1つまたは複数の生産者プロジェクトは、1つまたは複数の以前に生成されたユーザプロジェクトを含む、決定して表示することと
を行うための検索およびグラフモジュールと、
前記ユーザと、前記ユーザによって選択された1つまたは複数の選択されたデータ資産に関連する1つまたは複数の選択された共同者との間の共同を連係させるための共同モジュールであって、前記選択された共同者が、前記潜在共同者のサブセットであり、前記選択されたデータ資産が、前記一致するデータ資産のサブセットであり、前記共同を連係させることが、
前記1つまたは複数の選択されたデータ資産に関連する前記選択された共同者に通知を行うことと、
前記選択された共同者に、前記ユーザプロジェクトの概要を提供することと、
前記ユーザに、前記1つまたは複数の選択されたデータ資産を検査する能力を与えることと、
前記ユーザおよび前記1つまたは複数の選択された共同者が賛同した場合、前記ユーザと前記選択された共同者との間の前記共同を最終確定することと、
を含む、共同モジュールと、
データ管理モジュールであって、
前記1つまたは複数の生産者プロジェクトの各々に関するスキーマを受け取り、
前記1つまたは複数の選択されたデータ資産からデータを受け取り、
前記受け取ったデータを、共通の規格およびオントロジーを使用して取り込む
ためのデータ管理モジュールと、
前記取り込まれた受け取ったデータを使用して、前記科学的問題に関係する疾患固有の推論を生成し、前記検索およびグラフモジュールを改良するために前記ユーザおよび/または前記選択された共同者からフィードバックを受け取るための洞察アプリケーションと、
を備えるプラットフォーム。
[態様2]
前記自然言語での前記科学的問題が、前記オントロジーに基づいて前記ユーザプロジェクトの追加的属性に構文解析される、態様1に記載のプラットフォーム。
[態様3]
前記ユーザプロジェクトと最も一致する前記1つまたは複数の生産者プロジェクトが、ランク付けされた順序で表示され、前記プロジェクトは、
一致する属性の数、
以前のユーザによって過去に選択された最も人気のあるデータ資産、または
科学的問題のタイプ、
の1つまたは複数に基づいてランク付けされる、態様1に記載のプラットフォーム。
[態様4]
前記一致するデータ資産および前記潜在共同者を決定して表示することが、
前記ユーザプロジェクトと最も一致する前記1つまたは複数の生産者プロジェクトを特定すること、をさらに含み、
前記ユーザプロジェクトおよび前記1つまたは複数の生産者プロジェクトが各々、生産者、疾患タイプ、疾患分類、連関するプロジェクト、薬剤、もしくは試験を含む追加的属性、および/またはデータ資産をさらに備えている、態様1に記載のプラットフォーム。
[態様5]
前記検索およびグラフモジュールが、
前記ユーザプロジェクトによって定義された1つまたは複数のスキーマに基づいて前記一致するデータ資産または前記潜在共同者を決定するように構成された量的マッチングモジュールであって、前記1つまたは複数のスキーマが、前記一致するデータ資産の編成構造を表す、量的マッチングモジュールと、
前記ユーザプロジェクトの前記属性を使用して前記一致するデータ資産または前記潜在共同者を特定するように構成された質的マッチングモジュールと、
前記量的マッチングモジュールおよび/または前記質的マッチングモジュールによって特定された前記一致するデータ資産と前記潜在共同者との最適化された組み合わせを出力するように構成された推奨モジュールと、
をさらに備えている、態様1に記載のプラットフォーム。
[態様6]
前記選択された共同者が、分析モデルまたは研究グループに関連する前記潜在共同者のサブセットをさらに含む、態様1に記載のプラットフォーム。
[態様7]
前記共同を最終確定することが、
前記ユーザおよび前記選択された共同者の間で1つまたは複数の契約を生成することと、
前記ユーザおよび前記選択された共同者の各々から賛同の指示を得ることと、
前記契約に従って前記ユーザおよび前記選択された共同者の間で電子支払いをやり取りすることと、
をさらに含む、態様1に記載のプラットフォーム。
[態様8]
前記受け取ったデータを、前記共通の規格および前記オントロジーを使用して取り込むことが、
前記受け取ったデータを構文解析して、既知のタグまたはインデックスを有するデータ要素を特定することと、
前記オントロジーに基づいて前記データ要素を標準的なデータタイプに変換することにより、前記データ要素の第1のセットを整合化することと、
前記データ要素の第2のセットを標準的な単位に正規化し、前記正規化を反映するように前記データ資産を更新することと、
前記取り込まれた受け取ったデータを、前記プラットフォーム上で同時並行のアクセスのために利用できる状態にすることと、
をさらに含む、態様1に記載のプラットフォーム。
[態様9]
前記受け取ったデータを、前記共通の規格および前記オントロジーを使用して取り込むことが、
前記データ要素を、前記既知のタグまたはインデックスに関連する既知の安全性範囲と比較することにより、前記受け取ったデータにヘルスチェックを行うこと、をさらに含む、態様8に記載のプラットフォーム。
[態様10]
前記受け取ったデータを、前記共通の規格および前記オントロジーを使用して取り込むことが、
前記受け取ったデータを、前記オントロジーに関連する知識ベーステンプレートのセットに基づいて編成することと、
前記受け取ったデータの論理的組み合わせを作って、前記ユーザプロジェクトに一致する1つまたは複数の使用可能パッケージを形成することと、
をさらに含む、態様1に記載のプラットフォーム。
[態様11]
前記受け取ったデータを、前記共通の規格および前記オントロジーを使用して取り込むことが、
データ要素のグループごとに一意のグローバル識別子を割り当てることにより、前記受け取ったデータを匿名化することと、
前記割り当てられた一意のグローバル識別子に基づいて、前記受け取ったデータを前記選択されたデータ資産にわたって再編成することと、
をさらに含む、態様1に記載のプラットフォーム。
[態様12]
前記受け取ったデータが、実験室検査、医療記録、または臨床試験から収集されたものである、態様1に記載のプラットフォーム。
[態様13]
薬剤発見および開発のための試験的分析を行うために複数の異種のデータベースにまたがる生命科学データのデータ分析の共同を可能にするための方法であって、
ユーザプロジェクトを生成することであって、前記ユーザプロジェクトが、a)ユーザのプロフィール、b)前記ユーザの過去の活動、c)人気度に基づくシステム推奨、d)検索語、フィルタ、および/または1つもしくは複数のドロップダウンメニューからの選択の指示、ならびに/または、e)ユーザによって入力された自然言語での少なくとも1つの科学的問題、から決定される複数の属性を備えている、ユーザプロジェクトを生成することと、
1つまたは複数の一致するデータ資産および1つまたは複数の潜在共同者を決定して表示することであって、前記一致するデータ資産および潜在共同者は、前記ユーザプロジェクトおよび1つまたは複数の生産者プロジェクトに基づいて決定され、前記1つまたは複数の生産者プロジェクトは、1つまたは複数の以前に生成されたユーザプロジェクトを含む、潜在共同者を決定して表示することと、
前記ユーザと、前記ユーザによって選択された1つまたは複数の選択されたデータ資産に関連する1つまたは複数の選択された共同者との間の共同を連係させることであって、前記選択された共同者が、前記潜在共同者のサブセットであり、前記選択されたデータ資産が、前記一致するデータ資産のサブセットである、共同を連係させることと、
前記1つまたは複数の選択されたデータ資産に関連する前記選択された共同者に通知を行うことと、
前記選択された共同者に、前記ユーザプロジェクトの概要を提供することと、
前記ユーザに、前記1つまたは複数の選択されたデータ資産を検査する能力を与えることと、
前記ユーザおよび前記1つまたは複数の選択された共同者が賛同した場合、前記ユーザと前記選択された共同者との間の前記共同を最終確定することと、
前記1つまたは複数の生産者プロジェクトの各々に関するスキーマを受け取ることと、
前記1つまたは複数の選択されたデータ資産からデータを受け取ることと、
前記受け取ったデータを、共通の規格およびオントロジーを使用して取り込むことと、
前記取り込まれた受け取ったデータを使用して、前記科学的問題に関係する疾患固有の推論を生成することと、
検索およびグラフモジュールを改良するために前記ユーザおよび/または前記選択された共同者からフィードバックを受け取ることと、を含む方法。
[態様14]
前記自然言語での前記科学的問題が、前記オントロジーに基づいて前記ユーザプロジェクトの追加的属性に構文解析される、態様13に記載の方法。
[態様15]
前記ユーザプロジェクトと最も一致する前記1つまたは複数の生産者プロジェクトを、ランク付けされた順序で表示することをさらに含み、前記プロジェクトは、
一致する属性の数、
以前のユーザによって過去に選択された最も人気のあるデータ資産、または
科学的問題のタイプ、
の1つまたは複数に基づいてランク付けされる、態様13に記載の方法。
[態様16]
前記一致するデータ資産および前記潜在共同者を決定して表示することが、
前記ユーザプロジェクトと最も一致する前記1つまたは複数の生産者プロジェクトを特定すること、をさらに含み、
前記ユーザプロジェクトおよび前記1つまたは複数の生産者プロジェクトが各々、生産者、疾患タイプ、疾患分類、連関するプロジェクト、薬剤、もしくは試験を含む追加的属性、および/またはデータ資産をさらに備えている、態様13に記載の方法。
[態様17]
前記ユーザプロジェクトによって定義された1つまたは複数のスキーマに基づいて前記一致するデータ資産または前記潜在共同者を決定することであって、前記1つまたは複数のスキーマが、前記一致するデータ資産の編成構造を表す、決定することと、
前記ユーザプロジェクトの前記属性を使用して、前記一致するデータ資産または前記潜在共同者を特定することと、
量的マッチングモジュールおよび/または質的マッチングモジュールによって特定された前記一致するデータ資産と前記潜在共同者との最適化された組み合わせを出力することと、
をさらに含む、態様13に記載の方法。
[態様18]
前記選択された共同者が、分析モジュールまたは研究グループに関連する前記潜在共同者のサブセットをさらに含む、態様13に記載の方法。
[態様19]
前記ユーザおよび前記選択された共同者の間で1つまたは複数の契約を生成することと、
前記ユーザおよび前記選択された共同者の各々から賛同の指示を得ることと、
前記契約に従って前記ユーザおよび前記選択された共同者の間で電子支払いをやり取りすることと、
をさらに含む、態様13に記載の方法。
[態様20]
前記受け取ったデータを、前記共通の規格および前記オントロジーを使用して取り込むことが、
前記受け取ったデータを構文解析して、既知のタグまたはインデックスを有するデータ要素を特定することと、
前記オントロジーに基づいて前記データ要素を標準的なデータタイプに変換することにより、前記データ要素の第1のセットを整合化することと、
前記データ要素の第2のセットを標準的な単位に正規化し、前記正規化を反映するように前記データ資産を更新することと、
前記取り込まれた受け取ったデータを、前記プラットフォーム上で同時並行のアクセスのために利用できる状態にすることと、
をさらに含む、態様13に記載の方法。
[態様21]
前記受け取ったデータを、前記共通の規格および前記オントロジーを使用して取り込むことが、
前記データ要素を、前記既知のタグまたはインデックスに関連する既知の安全性範囲と比較することにより、前記受け取ったデータにヘルスチェックを行うこと、をさらに含む、態様20に記載の方法。
[態様22]
前記受け取ったデータを、前記共通の規格および前記オントロジーを使用して取り込むことが、
前記受け取ったデータを、前記オントロジーに関連する知識ベーステンプレートのセットに基づいて編成することと、
前記受け取ったデータの論理的組み合わせを作って、前記ユーザプロジェクトに一致する1つまたは複数の使用可能パッケージを形成することと、
をさらに含む、態様13に記載の方法。
[態様23]
前記受け取ったデータを、前記共通の規格および前記オントロジーを使用して取り込むことが、
データ要素のグループごとに一意のグローバル識別子を割り当てることにより、前記受け取ったデータを匿名化することと、
前記割り当てられた一意のグローバル識別子に基づいて、前記受け取ったデータを前記選択されたデータ資産にわたって再編成することと、
をさらに含む、態様13に記載の方法。
[態様24]
前記受け取ったデータが、実験室検査、医療記録、または臨床試験から収集されたものである、態様13に記載の方法。
【符号の説明】
【0112】
110 生産者
120 消費者
150 データ資産
200 共同プラットフォーム
130 潜在共同者
140 選択された共同者
210 データ管理モジュール
211 データ取り込みモジュール
220 データ分析モジュール
221 ワークフローライブラリ
223 分析ツールキット
230 検索およびグラフモジュール
231 マッチングモジュール
233 科学的問題変換モジュール
240 共同モジュール
241 洞察アプリケーション
242 法的モジュール
243 トランザクションモジュール
244 検査モジュール
250 プラットフォーム管理モジュール
260A 構造化データ
260B 非構造化データ
260C ストリーミングデータ
200a 共同プラットフォーム
210a データ管理モジュール
220a 分析モジュール
230a 検索およびグラフモジュール
240a 共同モジュール
150a プラットフォーム管理モジュール