IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ メディデータ ソリューションズ インクの特許一覧

特開2025-23887電子データをキャプチャーしたデータセットを標準データ集計モデル(SDTM)データセットに変換するシステムおよび方法
<>
  • 特開-電子データをキャプチャーしたデータセットを標準データ集計モデル(SDTM)データセットに変換するシステムおよび方法 図1
  • 特開-電子データをキャプチャーしたデータセットを標準データ集計モデル(SDTM)データセットに変換するシステムおよび方法 図2
  • 特開-電子データをキャプチャーしたデータセットを標準データ集計モデル(SDTM)データセットに変換するシステムおよび方法 図3
  • 特開-電子データをキャプチャーしたデータセットを標準データ集計モデル(SDTM)データセットに変換するシステムおよび方法 図4
  • 特開-電子データをキャプチャーしたデータセットを標準データ集計モデル(SDTM)データセットに変換するシステムおよび方法 図5
  • 特開-電子データをキャプチャーしたデータセットを標準データ集計モデル(SDTM)データセットに変換するシステムおよび方法 図6
  • 特開-電子データをキャプチャーしたデータセットを標準データ集計モデル(SDTM)データセットに変換するシステムおよび方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025023887
(43)【公開日】2025-02-19
(54)【発明の名称】電子データをキャプチャーしたデータセットを標準データ集計モデル(SDTM)データセットに変換するシステムおよび方法
(51)【国際特許分類】
   G06F 18/213 20230101AFI20250212BHJP
   G06N 3/045 20230101ALI20250212BHJP
   G16H 10/20 20180101ALI20250212BHJP
【FI】
G06F18/213
G06N3/045
G16H10/20
【審査請求】有
【請求項の数】24
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024104875
(22)【出願日】2024-06-28
(31)【優先権主張番号】18/351,384
(32)【優先日】2023-07-12
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.PYTHON
(71)【出願人】
【識別番号】522315046
【氏名又は名称】メディデータ ソリューションズ インク
【氏名又は名称原語表記】MEDIDATA SOLUTIONS, INC.
【住所又は居所原語表記】350 Hudson Street, 9th Floor New York, New York, United States of America
(74)【代理人】
【識別番号】100134430
【弁理士】
【氏名又は名称】加藤 卓士
(72)【発明者】
【氏名】エリック・ヤング
(72)【発明者】
【氏名】ローラ・カッツ
(57)【要約】      (修正有)
【課題】電子データ収集(EDC)データセットを標準データ集計モデル(SDTM)データセットに変換する方法を提供する。
【解決手段】この方法は、EDCデータセットのEDCフィールド名を含むメタデータを処理して、特定の次元数のベクトルを生成するステップを含む。そのベクトルは、埋め込みモデルで処理され、より小さい次元の埋め込みベクトルが生成される。埋め込みベクトルは予測モデルにおいて処理され、EDCフィールド名のクラス予測を生成する。クラスはSDTMフィールド名に対応する。EDCフィールド名は、EDCフィールド名のクラス予測に基づいてSDTMフィールド名と対応付けられる。埋め込みモデルは学習されたシャムニューラルネットワークから得られる。
【選択図】図1
【特許請求の範囲】
【請求項1】
電子データ収集(EDC)データセットを標準データ集計モデル(SDTM)データセットに変換する変換方法であって、
EDCデータセットのEDCフィールド名を含むメタデータを処理して、次元数n1(n1は整数)のベクトルを生成するステップと、
埋め込みモデルにおいて次元数n1のベクトルを処理して、次元数n2の埋め込みベクトルを生成する(n2は整数であり、n1よりも小さい)ステップと、
前記埋め込みベクトルを予測モデルで処理し、SDTMフィールド名に対応する、前記EDCフィールド名のクラス予測を生成するステップと、

前記EDCフィールド名のクラス予測に少なくとも部分的に基づいて、EDCフィールド名のそれぞれを前記SDTMフィールド名に対応付けるステップと、
を含み、
前記埋め込みモデルは、第1埋め込みサブネットワークおよび第2埋め込みサブネットワークを含む、トレーニングされたシャムニューラルネットワークから得られる変換方法。
【請求項2】
前記SDTMフィールド名のサブセットに事前にマッピングされた前記EDCフィールド名のサブセットに基づいて、前記シャムニューラルネットワークをトレーニングするステップをさらに含む請求項1に記載の変換方法。
【請求項3】
前記EDCフィールド名のサブセットを、マニュアルでキュレートする請求項2に記載の変換方法。
【請求項4】
前記第1埋め込みサブネットワークおよび前記第2埋め込みサブネットワークにそれぞれ入力される、次元数n1のベクトルのペアを生成するステップをさらに含む、請求項2に記載の変換方法。
【請求項5】
前記第1埋め込みサブネットワークおよび前記第2埋め込みサブネットワークによって、前記埋め込みベクトルを生成するために長短期記憶ニューラルネットワークで次元数n1のベクトルを処理するステップをさらに含む、請求項4に記載の変換方法。
【請求項6】
前記シャム型ニューラルネットワークの外部レイヤにおいて、前記第1埋め込みサブネットワークおよび前記第2埋め込みサブネットワークによってそれぞれ生成された埋め込みベクトルの各ペア間の距離を決定するステップをさらに含む請求項4に記載の変換方法。
【請求項7】
前記SDTMフィールド名のサブセットに事前にマッピングされたメタデータのサブセットを使用して、分類モデルをトレーニングするステップと、
トレーニングされた分類モデルを予測モデルとして使用するステップと、
をさらに含み、
前記メタデータのサブセットは、分類モデルに入力される前に埋め込みモデルによって処理される請求項2に記載の変換方法。
【請求項8】
前記マッピングに少なくとも部分的に基づいて、前記EDCデータセットをSDTMデータセットに変換するステップをさらに含む、請求項1に記載の方法。
【請求項9】
電子データ収集(EDC)データセットを標準データ集計モデル(SDTM)データセットに変換する変換システムであって、
前記1つまたは複数のプロセッサが実行可能な命令を記憶するメモリとの間で通信可能な1つまたは複数のプロセッサを有するコンピュータを含み、
前記命令は、
EDC データセットのEDCフィールド名を含むメタデータを処理して、次元数n1のベクトルを生成する(n1は整数)ステップと、
埋め込みモデルにおいて次元数n1のベクトルを処理して、次元数n2の埋め込みベクトルを生成する(n2は整数であり、n1よりも小さい)ステップと、
前記埋め込みベクトルを予測モデルで処理し、SDTMフィールド名に対応する、前記EDCフィールド名のクラス予測を生成するステップと、

前記EDCフィールド名のクラス予測に少なくとも部分的に基づいて、EDCフィールド名のそれぞれを前記SDTMフィールド名に対応付けるステップと、
を実行する命令であり、
前記埋め込みモデルは、第1埋め込みサブネットワークおよび第2埋め込みサブネットワークを含む、訓練されたシャムニューラルネットワークから得られる変換システム。
【請求項10】
前記SDTMフィールド名のサブセットに事前にマッピングされた前記EDCフィールド名のサブセットに基づいて、前記シャムニューラルネットワークをトレーニングするステップをさらに含む請求項9に記載の変換システム。
【請求項11】
前記EDCフィールド名のサブセットは、マニュアルでキュレートされる請求項10に記載の変換システム。
【請求項12】
前記命令は、前記第1埋め込みサブネットワークおよび前記第2埋め込みサブネットワークにそれぞれ入力される、次元数n1のベクトルのペアを生成するステップをさらに実行する命令である請求項10に記載の変換システム。
【請求項13】
前記命令は、
前記第1埋め込みサブネットワークおよび前記第2埋め込みサブネットワークによって、前記埋め込みベクトルを生成するために長短期記憶ニューラルネットワークで次元数n1のベクトルを処理するステップをさらに実行する、請求項12に記載の変換システム。
【請求項14】
前記命令は、
前記シャム型ニューラルネットワークの外部レイヤにおいて、前記第1埋め込みサブネットワークおよび前記第2埋め込みサブネットワークによってそれぞれ生成された埋め込みベクトルの各ペアの間の距離を決定するステップをさらに実行する、請求項12に記載の変換システム。
【請求項15】
前記命令は、
SDTMフィールド名のサブセットに事前にマッピングされたメタデータのサブセットを使用して、分類モデルをトレーニングするステップと、
トレーニングされた分類モデルを予測モデルとして使用するステップと、
をさらに実行し、
前記メタデータのサブセットは、分類モデルに入力される前に埋め込みモデルによって処理される請求項10に記載の変換システム。
【請求項16】
前記命令は、
前記マッピングに少なくとも部分的に基づいて、前記EDCデータセットをSDTMデータセットに変換するステップをさらに実行する請求項9に記載の変換システム。
【請求項17】
コンピュータの1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに、電子データキャプチャ(EDC)データセットを標準データ集計モデル(SDTM)データセットに変換する方法を実行させる命令を記憶した不揮発性のコンピュータ可読媒体であって、
前記方法は、
EDC データセットのEDCフィールド名を含むメタデータを処理して、次元数n1のベクトルを生成する(n1は整数)ステップと、
埋め込みモデルにおいて次元数n1のベクトルを処理して、次元数n2の埋め込みベクトルを生成する(n2は整数であり、n1よりも小さい)ステップと、
前記埋め込みベクトルを予測モデルで処理し、SDTMフィールド名に対応する、前記EDCフィールド名のクラス予測を生成するステップと、
前記EDCフィールド名のクラス予測に少なくとも部分的に基づいて、EDCフィールド名のそれぞれを前記SDTMフィールド名に対応付けるステップと、
を含み、
前記埋め込みモデルは、第1埋め込みサブネットワークおよび第2埋め込みサブネットワークを含む、トレーニングされたシャムニューラルネットワークから得られるコンピュータ可読媒体。
【請求項18】
前記方法は、
前記SDTMフィールド名のサブセットに事前にマッピングされた前記EDCフィールド名のサブセットに基づいて、前記シャムニューラルネットワークをトレーニングするステップをさらに含む請求項17に記載のコンピュータ可読媒体。
【請求項19】
前記EDCフィールド名のサブセットは、マニュアルでキュレートされる、請求項18に記載のコンピュータ可読媒体。
【請求項20】
前記方法は、前記第1埋め込みサブネットワークおよび前記第2埋め込みサブネットワークにそれぞれ入力される、次元数n1のベクトルのペアを生成するステップをさらに含む請求項18に記載のコンピュータ可読媒体。
【請求項21】
前記方法は、
前記第1埋め込みサブネットワークおよび前記第2埋め込みサブネットワークによって、前記埋め込みベクトルを生成するために長短期記憶ニューラルネットワークで次元数n1のベクトルを処理するステップをさらに含む、請求項20に記載のコンピュータ可読媒体。
【請求項22】
前記方法は、
前記シャム型ニューラルネットワークの外部レイヤにおいて、前記第1埋め込みサブネットワークおよび前記第2埋め込みサブネットワークによってそれぞれ生成された埋め込みベクトルの各ペアの間の距離を決定するステップをさらに含む、請求項20に記載のコンピュータ可読媒体。
【請求項23】
前記SDTMフィールド名のサブセットに事前にマッピングされたメタデータのサブセットを使用して、分類モデルをトレーニングするステップと、
トレーニングされた分類モデルを予測モデルとして使用するステップと、
をさらに含み、
前記メタデータのサブセットは、分類モデルに入力される前に埋め込みモデルによって処理される請求項18に記載のコンピュータ可読媒体。
【請求項24】
前記マッピングに少なくとも部分的に基づいて、前記EDCデータセットをSDTMデータセットに変換することをさらに含む請求項17に記載のコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は一般に、臨床試験データのEDC(Electronic Data Capture)フィールドをSDTM(Study Data Tabulation Model)にマッピングすること、およびEDCデータセットをSDTMデータセットに変換することに関する。
【背景技術】
【0002】
臨床試験は、高度に洗練されたプロトコルと複数の多様なデータソース、大量のデータ、分散化、複雑化する適応デザインによって膨大化している。ある試算によると、第III相試験で収集されたデータポイントは、過去10年間で3倍に増加し、平均360万に達しており、試験の複雑化が、ますます広範なソースから発生するデータ量の拡大を促している。
【0003】
電子データ収集(Electronic Data Capture:EDC)システムは、データの収集と管理のために臨床試験で広く使用されている。EDCシステムには、従来の紙ベースのデータ収集方法に代わって、データ収集の時点で直接データ入力ができるソフトウェアアプリケーションが含まれる。臨床試験開始前に、臨床試験プロトコルはEDCシステム内の電子症例報告書(eCRF)を設計するために使用される。eCRFには、治験データを入力するための構造化されたフォーマットが含まれている。この設計には、患者の人口統計、病歴、治療割り当て、検査結果、有害事象、転帰など、治験実施計画書で指定されたデータを収集するために必要な全てのフィールドが含まれている。
【0004】
臨床データ管理における重要な進歩は、標準データ集計モデル(Standard Data Tabulation Model:SDTM)に臨床データをマッピングすることによる標準化である。SDTMは、米国食品医薬品局(FDA)などの規制当局に製品申請の一部として提出されるヒト臨床試験データ集計および非臨床試験データ集計の標準構造を定義している。これにより、異なる臨床試験間の臨床データの取り扱いや比較が効率化された。
【発明の概要】
【発明が解決しようとする課題】
【0005】
EDCのフィールドをSDTMにマッピングすることは、いくつかの理由から困難な技術的問題となる可能性がある。EDCシステムは主にデータ収集用に設計されており、フィールドは臨床データ入力や施設管理のニーズに合わせて編成されている。有害事象、人口統計、その他の臨床エンドポイントの収集に関連するフィールドなどのEDCフィールドは、試験または企業特有の方法で指定されることがあるため、SDTM標準に容易にマッピングすることはできない。一方、SDTMはFDAなどの規制当局にデータを提出するために設計されており、Clinical Data Interchange Standards Consortium(CDISC)によって設定された標準的な構造と用語に従っている。構造と用語の違いにより、EDCとSDTMの直接的なマッピングは困難である。さらに、異なるEDCシステムの設計と使用方法には大きなばらつきがある。同じ種類のデータであっても、システムによって取り込み方が異なったり、同じ治療薬であっても試験が異なったりすることがある。このばらつきがマッピングプロセスを複雑にしている。
【0006】
そのため、電子データ収集(EDC)システムからSDTMにデータをマッピングする従来のプロセスでは、一般に、注釈付き症例報告書(CRF)を読み取り、データをSDTM形式に変換するスクリプトを作成するプログラマーが関与する必要がある。さらに、臨床試験で使用されるEDCシステムは、多くの場合、試験の実施を容易にするために設計されており、SDTMへのマッピングは二次的な優先事項となっている。したがって、このような従来のアプローチでは、EDCシステムのデータをSDTMにマッピングするプロセスは非常に手間がかかり、多くの場合、再現性がない。
【0007】
このような問題に対処するため、EDCを標準化する試みが行われてきた。一旦、ある試験のマッピングが存在すれば、将来の全ての試験は基本的に同じパターンに従うことになる。しかし、EDCの標準化には、柔軟性の喪失、一般的な標準の確立の難しさ、そして最も重要な点として、SDTM形式で提出されたことのないレガシー試験のマッピングには適用できないなどの欠点がある。
【0008】
EDCのフィールドをSDTMにマッピングするための実用的な機械学習(ML)ソリューションを構築する際の障壁の1つは、トレーニングデータが相対的に不足していることである。最大手の製薬会社でさえ、アルゴリズムの学習に利用できる臨床試験は数千件に過ぎない。
【課題を解決するための手段】
【0009】
開示された実施形態では、シャムネットワークを使用して、電子データキャプチャ(EDC)メタデータベースの埋め込みを生成することができ、機械学習(ML)分類器をこれらの埋め込みに使用して、関連する標準データ集計モデル(SDTM)フィールドを予測することができる。シャムニューラルネットワーク(Siamese neural network)は、類似のデータポイントが、非類似のデータポイントよりも、ユークリッド距離のような距離メトリックに基づいて近い、より低次元の埋め込みを持つように訓練される。これにより、各フィールドの低次元埋め込みを他の全てのフィールドと比較できるサブネットワークを学習することができる。開示された実施形態では、これにより、N個のデータ点をO(N2)組に拡張し、そこから分類器ニューラルネットワークを訓練することができる。この埋め込みを取得した後、低次元表現を使用して最終的な予測モデルを生成し、EDCフォームのフィールドをSDTMドメインに分類することができる。
【0010】
開示された実施形態では、レガシー臨床試験をSDTM形式に大規模にマッピングすることが可能である。これにより、解析前にデータセットをマニュアルで整合させるオーバーヘッドを必要とせずに、臨床試験を横断的に解析できるようになり、レガシーデータの価値が大幅に向上する。
【0011】
開示された実施形態では、シャムニューラルネットワークが、EDCシステムで通常指定されるフォームフィールド間の類似性を計算するために使用される。これらの類似度メトリクスは、最終的な分類のために、さらなる機械学習段階に投入することができる。この出力は、EDCデータをSDTMにスケールマッピングするため、および/またはマッピング推奨を提供するツールを駆動するために使用することができる。
【0012】
一態様において、開示される実施形態は、電子データ収集(EDC)データセットを標準データ集計モデル(SDTM)データセットに変換する方法、システム、およびコンピュータ可読媒体を提供する。この方法には、EDCデータセットのメタデータを処理することが含まれ、メタデータはEDCフィールド名を含み、次元数n1のベクトルを生成する(ここでn1は整数である)。この方法にはさらに、埋め込みモデルにおいて、次元数n1のベクトルを処理して、次元数n2の埋め込みベクトルを生成することが含まれる(ここで、n2は整数であり、n1よりも小さい)。この方法にはさらに、予測モデルにおいて、埋め込みベクトルを処理して、EDCフィールド名のクラス予測を生成することが含まれる(ここで、クラスはSDTMフィールド名に対応する)。この方法はさらに、EDCフィールド名のクラス予測に少なくとも部分的に基づいて、EDCフィールド名とSDTMフィールド名とをそれぞれマッピングすることを含む。埋め込みモデルは、第1埋め込みサブネットワークと第2埋め込みサブネットワークとを含む、訓練されたシャムニューラルネットワークから得られる。
【0013】
実施形態は、以下の特徴の1つ以上を単独で、または組み合わせて含むことができる。
【0014】
この方法には、SDTMフィールド名のサブセットにあらかじめマッピングされたEDCフィールド名のサブセットに基づいてシャムニューラルネットワークをトレーニングすることがさらに含まれる。EDCフィールド名のサブセットは、マニュアルでキュレートしてもよい。本方法は、第1埋め込みサブネットワークおよび第2埋め込みサブネットワークにそれぞれ入力される、次元数n1のベクトルのペアを生成することをさらに含むことができる。本方法は、第1埋め込みサブネットワークおよび第2埋め込みサブネットワークによって、次元数n1のベクトルを長短期記憶ニューラルネットワークで処理して、埋め込みベクトルを生成することをさらに含み得る。
【0015】
本方法は、シャムニューラルネットワークの外部レイヤにおいて、第1埋め込みサブネットワークおよび第2埋め込みサブネットワークによってそれぞれ生成された埋め込みベクトルの各ペアの間の距離を決定することをさらに含み得る。この方法は、第1埋め込みサブネットワークおよび第2埋め込みサブネットワークによって出力された埋め込みベクトルの決定された距離に、バッチ正規化およびアクティベーション関数のうちの少なくとも1つを適用することと、適用することによって得られた結果を、第1埋め込みサブネットワークおよび第2埋め込みサブネットワークにバックプロパゲートすることと、をさらに含み得る。シャムネットワークおよびそのサブネットワークには、異なるニューラルネットワーク層、アクティベーション関数、および距離メトリックを含む、様々なアーキテクチャを使用することができる。本方法は、SDTMフィールド名のサブセットに事前にマッピングされたEDCフィールド名のサブセットを使用して分類モデルをトレーニングすること(EDCフィールド名のサブセットは、分類モデルに入力される前に埋め込みモデルによって処理される)、およびトレーニングされた分類モデルを予測モデルとして使用することをさらに含むことができる。この方法は、マッピングに少なくとも部分的に基づいてEDCデータセットをSDTMデータセットに変換することをさらに含む。
【図面の簡単な説明】
【0016】
図1】開示された実施形態による、電子データキャプチャ(EDC)データセットを標準データ集計モデル(SDTM)データセットに変換するシステムのブロック図である。
図2】開示された実施形態による、EDCからSDTMへのフィールドマッピングシステムのブロック図である。
図3】シャムニューラルネットワーク埋め込みモデルを用いて埋め込みモデルを生成するサブシステムのブロック図である。
図4】シャムニューラルネットワークによって生成された埋め込みモデルを用いてML分類モデルを学習するサブシステムのブロック図である。
図5】シャムニューラルネットワーク埋め込みモデルとペア生成部のブロック図である。
図6】予測ラベルを評価する3つの方法を用いた開示手法の総合精度とマクロF1スコアを、2つの先行アプローチと比較した表である。
図7】クラスごとの訓練サンプル数に対する精度のプロットである。
【発明を実施するための形態】
【0017】
以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
【0018】
[第1実施形態]
以下の詳細な説明では、本発明の実施形態を十分に理解するために、多数の具体的な詳細を記載する。しかしながら、当業者であれば、本発明の実施形態はこれらの具体的な詳細がなくても実施できることが理解されよう。他の例では、周知の方法、手順、構成要素、および回路は、本発明を不明瞭にしないように詳細には記載されていない。
【0019】
開示された実施形態では、シャムニューラルネットワークは、標準データ集計モデル(SDTM)エントリ(本明細書では「SDTMフィールド」と呼ぶ)にマッピングされる電子データキャプチャ(EDC)フィールド間の類似性を計算するために使用される。その結果、類似度メトリックは、同じSDTMフィールドにマッピングされるEDCフィールドが、離れているフィールドよりも距離(例えば、ユークリッド距離)が近い低次元の埋め込みを生成する。この低次元の埋め込みは、埋め込みを実際の予測に変換するために、二次的な分類アルゴリズムに供給される。
【0020】
図1は、電子データ収集(EDC)データセット110を標準データ集計モデル(SDTM)データセット120に変換するシステム100のブロック図である。EDCデータセット110は、EDCシステム130からの出力によって生成される。EDCシステム130は、臨床試験施設などの多くのソースからEDCデータを受信することができる。データの変換を可能にするために、EDC-SDTMフィールドマッピングシステム140は、EDCフィールド名や、フィールドの説明、フィールドが記録されているユニット、どのフォームとフィールドIDがフィールドに関連付けられているかなどの他のメタデータを含むメタデータをEDCデータセット110から取得し、EDCフィールドをSDTMの標準化されたフィールドにマッピングする。
【0021】
フィールドマッピングの結果は、EDC-SDTMデータ変換システム150に出力される。変換システム150は、フィールドマッピングを使用して、EDCデータセット110をSDTMデータセット120の標準形式に変換する。データが変換されると、SDTMデータセット120はSDTMデータ配信システム160に出力され、SDTMデータ配信システム160はSDTMデータセット120の送信を制御する。例えば、SDTMデータセット120はSDTMデータ配信システム160に受信され、SDTMデータ配信システム160は、例えばクラウドベースのネットワーク170を介して、データをさまざまなSDTMベースのシステムに送信する。実施形態では、SDTMデータセット120は、米国食品医薬品局(FDA)などの規制当局に送信される場合がある。
【0022】
臨床試験データのEDCデータセットを標準化したSDTMフォーマットを持つデータセットに変換することは技術的な問題である。なぜなら、EDCデータセットのフィールドが標準化されたSDTMフィールドに正確にマッピングされるように、複雑な方法論とツールを開発、実装、維持管理する必要があるからである。EDCフィールドのマッピングを実行し、EDCデータセットをSDTMデータセットに変換する根本的な動機は、法的要件や規制要件に起因しているかもしれないが、マッピングと変換を実現する実際のプロセスには、以下でさらに詳しく説明するように、多数の技術的課題に対処することが含まれる。
【0023】
図2は、EDCからSDTMへのフィールドマッピングを実行するためのニューラルネットワークベースのシステム200のブロック図である。開示される実施形態では、システム200は、上述したEDCからSDTMへのフィールドマッピングシステム140に対応する(図1参照)。システム200は、EDCデータセット110(図1参照)から取得された未分類のEDCフィールドデータセット205を処理するために、ニューラルネットワークと機械学習モデルのアーキテクチャをトレーニングして使用する。EDCフィールドデータセット205は、以下によって処理される:(i)埋め込みモデル210、および(ii)二次予測モデル220。これら2つのモデルによるEDCフィールドデータセット205の処理の結果は、EDCフィールドマッピングの最終クラス(すなわち、分類)予測のセットである。このように、EDCフィールドは、SDTMフィールドに関連して、特定の決定された確率で分類される。最終クラス予測225は、データ変換および配信システム230、例えば、上述したEDCからSDTMへのデータ変換システム150およびSDTMデータ配信システム160(図1を参照)に出力することができる。開示された実施形態では、信頼度スコアが決定され、最も近い一致が提案としてユーザインターフェイスを介して提示されることがある。
【0024】
開示される実施形態では、「主ランタイムモデル(principal runtime models)」と呼ばれ得る埋め込みモデル210と二次予測モデル220とが、対応する「プロキシモデル」を訓練し、結果として得られる訓練済みモデルをそれぞれの「主ランタイムモデル」として使用することによって生成される。具体的には、埋め込みモデル210は、以下に説明するように、シャムニューラルネットワーク埋め込みモデル245を訓練し、その結果得られる訓練済みモデルを埋め込みモデル210として使用するようにエクスポートすることによって生成される。同様に、二次予測モデル220は、機械学習(ML)分類モデル250を訓練し、結果として得られる訓練済みモデルを二次予測モデル220として使用することによって生成される。開示される実施形態において、プロキシモデルのトレーニングは、ランタイム中に行われてもよく、その場合、トレーニングされたプロキシモデルは、対応する主ランタイムモデルを定期的に更新するために使用されてもよい。あるいは、トレーニングの一部または全てをランタイムに先立って行い、ランタイムに定期的な更新を行うこともできる。
【0025】
プロキシモデル、すなわちシャムニューラルネットワーク埋め込みモデル245とML分類モデル250のトレーニングは、対応するSDTMフィールドにマニュアルでマッピングされたEDCフィールドを含む、事前にマッピングされた、例えばマニュアルでキュレートされたフィールド240のデータベースを使用して実行することができる。埋め込みモデル210は、キュレートされたEDCフィールドを受け取り、n次元トレーニング埋め込み255(例えば、32次元埋め込み)のセットを出力する。キュレートされたEDCフィールドと、キュレートされたEDCフィールドがマニュアルでマッピングされたSDTMフィールド、すなわち最終的なクラスラベルは、第2パス252を介して、シャムニューラルネットワーク埋め込みモデル245にトレーニングデータとして出力される。
【0026】
ペア生成部260は、第2パス252に沿って設けられ、キュレートされたEDCフィールドとシャムニューラルネットワーク埋め込みモデル245に入力される最終クラスラベルとの間の全ての可能なペアの組み合わせを生成する。最終クラスラベルはまた、第三の経路253を介してML分類モデル250に出力され、グランドトゥルースとして使用される。
【0027】
上述したように、システム200は、EDCデータセット110(図1参照)から検索された分類されていないEDCフィールドデータセット205を処理するために、ニューラルネットワークおよび機械学習モデルのアーキテクチャを訓練し、使用する。開示される実施形態では、検索されたデータは、臨床試験で使用される電子症例報告書(eCRF)に関連するメタデータ、例えば、フォーム名(FormOID)、プレテキスト、例えば、問題のフィールドの説明、ポストテキスト、例えば、予想される日付形式などの入力が取ることが予想される形式などの追加の説明、および問題の特定のフィールドの内部識別子であるFieldOIDを含み得る。開示された実施形態では、これら4つの情報フィールドをSDTMドメインに関連付けることができる。ただし、開示された実施形態はこれら4つのフィールドに焦点を当てているが、方法論はこれらのフィールドに特化したものではなく、記録されたデータの分布など、他のフィールドを使用して実装することもできる。
【0028】
本発明者らによる評価では、データセットは以下のドメインに限定された:有害事象(AE)、処置(DS)、併用薬(CM)、曝露(EC)、病歴(MH)、バイタルサイン(VS)、および人口統計(DM)。これらのドメインに関連するフィールドは、評価のために人間のキュレーターがマニュアルでSDTMにマッピングした。これはSDTMデータセットの一部であるドメインの包括的なリストではないが、これらのドメインはマッピングが必要な構造を合理的に表している。
【0029】
一般的に、SDTM形式のドメインは、ピボットなし(つまり幅の狭い)形式とピボット付き(つまり幅の広い)形式が混在して表現される。評価を簡単にするため、全てのドメインはピボットなしの表として表現した。SDTM標準に基づき、ピボット付きからピボットなしの表現に変換する簡単な方法があることに留意されたい。さらに、評価には複合フィールド(BMIのような1つ以上のフィールド間の数学的演算の結果であるフィールド)は含まれなかった。評価に使用したトレーニングデータには、57個のSDTMフィールドに対応する約9000のエントリがあった。
【0030】
図3は、シャムニューラルネットワーク埋め込みモデル245を用いて埋め込みモデル210を生成するサブシステム(上述のシステム200の一部)のブロック図である。シャムニューラルネットワークの使用は、同じクラス内のデータが、所定の距離メトリックに関して、別のクラス内のデータポイントに近いデータ埋め込みを提供する。
【0031】
シャムニューラルネットワーク245の学習は、対応するSDTMフィールドにマッピングされたEDCフィールドであるプレマップフィールド240のデータベースを使用する。データベース240は、マニュアルでキュレートされたEDCフィールドと、対応するSDTMフィールドである最終クラス(すなわち、分類)ラベルを含むEDCメタデータをペアジェネレータ260に提供する。
【0032】
開示される実施形態では、ペア生成部260は、キュレートされたEDCフィールド間の全ての可能なペアの組み合わせを生成し、得られたペアをシャムニューラルネットワーク245の2つの独立入力に出力することができる。開示された実施形態では、ペアはランダムに生成されてもよい。一例として、各SDTMフィールドについて、2つのEDCフィールドが同じSDTMエントリにマッピングされるペア(例えば、AESTDおよびAECODEDとラベル付けされたEDCフィールドが両方ともAEDECODにマッピングされるペア)が100組生成され、2つのフィールドが異なるSDTM要素に関連付けられるペア(例えば、AGEおよびWEIGHTとラベル付けされたEDCフィールド)が100組生成される。シャムニューラルネットワーク245の出力変数は、同じSDTMフィールドに属する場合は0、属さない場合は1である。
【0033】
このマッピング操作は、事実上、トレーニングデータの量を桁違いに拡大する。例えば、1000個のデータポイントを別の1000個のデータポイントとあらゆる可能な組み合わせでペアにした場合、結果として得られるトレーニングセットは100万個のデータポイントを持つことになる。一般的な言語モデルは数十億のデータ点を必要とする場合があるため、これは有利である。さらに、結果の考察で後述するように、このように効果的に拡張されたデータセットを使用することで、従来のアプローチと比較して精度が大幅に向上する。
【0034】
マッピング操作は、同じクラスの2つのエントリ間の最小距離を設定し、同じクラスでない場合は任意の距離に設定する。SDTMフィールドによって階層化されたホールドアウトセットが生成され、トレーニングセットとテストセットに同じ割合のSDTMフィールドが含まれるようになる。例えば、各SDTMフィールドのエントリの10%をモデル学習プロセスから除外して評価することができる。これにより、データセットの各クラスがトレーニングセットとテストセットの両方で表現されるようになる。
【0035】
シャムニューラルネットワーク245は、その空間内の点間の幾何学的(例えば、ユークリッド)距離が、関連するテキスト(例えば、EDCメタデータ)間の意味的類似性に対応するように、テキストを低次元空間にマッピングするように訓練される。したがって、類似の入力は、ユークリッド距離などの距離メトリックに基づいて、非類似のデータ点よりも近い低次元の埋め込みを持つことになる。これにより、各フィールドの低次元の埋め込みを他の全てのフィールドと比較できるサブネットワークの学習が可能になる。シャムニューラルネットワーク245のトレーニングによって生成された低次元の埋め込みは、埋め込みモデル210として使用されるようにエクスポートされ、今度は、ML分類モデル250のトレーニングで使用される(図4参照)。
【0036】
図4は、サブシステム(例えば、上述のシステム200の一部)のブロック図であり、このサブシステムは、シャムニューラルネットワーク245によって生成された埋め込みモデル210を使用して、ML分類モデル250をトレーニングする。この訓練では、マニュアルでキュレートされたフィールドのデータベース240を使用する。このフィールドは、対応するSDTMフィールドにマニュアルでマッピングされたEDCフィールドである。データベース240は、マニュアルでキュレートされたEDCフィールドを含むEDCメタデータを埋め込みモデル210に提供する。また、データベース240は、対応するSDTMフィールドである最終的なクラス(つまり、分類)ラベルをML分類モデル250に提供し、グランドトゥルースとして使用する。
【0037】
開示された実施形態では、ML分類モデル250は、k最近傍(kNN)分類器であってもよい。あるいは、XGBoost(最適化された分散勾配ブースティング・ライブラリ)、ランダムフォレスト、または追加のニューラルネットワークなどの技術が、分類を実行するために使用され得る。kNN分類器の使用は、同じクラスに属する最近傍の数に関する情報を提供することで、埋め込み品質の評価を容易にした。具体的には、k個の最近傍のいずれかに正しいクラスがあるか、最近傍によって正しいクラスが予測されるか、k個の最近傍の多数決によって正しいクラスが予測されるか、を評価することができる。
【0038】
埋め込みモデル210は、上述したように、シャムニューラルネットワーク245によって生成され、テキストを特定の次元の埋め込み、例えば、密なベクトルに変換するように適合される。開示される実施形態では、データベース240からのキュレートされたEDCフィールドは、n次元(例えば、32次元)エンベッディング255の形態のトレーニングエンベッディングのセットに変換される。トレーニング埋め込み255は、順に、ML分類モデル250をトレーニングするために使用される。
【0039】
図5は、シャムニューラルネットワーク埋め込みモデル245とペア生成部260のブロック図である。シャムニューラルネットワークアーキテクチャは、2つの異なる入力間の類似性または非類似性を学習するように設計されている。開示された実施形態のコンテキストでは、同じSDTMドメインにマッピングされるEDCフィールドは、異なるSDTMフィールドにマッピングされるEDCフィールドよりも類似しているはずである。
【0040】
シャムニューラルネットワーク245は、ペア生成部260からの第1入力に対する埋め込みを生成するニューラルネットワークである第1埋め込みサブネットワーク510を学習する。第2埋め込みサブネットワーク520は、第1埋め込みネットワーク510の「クローン」であり、すなわち、サブネットワークは同じアーキテクチャと重みを共有し、ペア生成部260からの第2入力に対する埋め込みを生成する。そして、第1および第2入力に対する埋め込みは、第1および第2埋め込み間の距離(例えば、ユークリッド距離)を計算する距離モジュール535を有する外部レイヤ530において比較される。
【0041】
埋め込みサブネットワーク(510、520)はそれぞれ、単語をベクトルに変換するためのテキスト埋め込み層540を含む。テキスト埋め込み層540は、辞書符号化されたテキストの線形ベクトルを、元のベクトルの要素ごとに1行を持つ行列に変換する。同じ文脈で見られる単語は、類似の単語が類似のベクトルにマッピングされるように、N次元のベクトルにエンコードされる。
【0042】
上述したように、マニュアルでキュレートされたフィールドのデータベース240から検索されたデータには、電子症例報告書(eCRF)に関連するメタデータ、例えば、フォーム名(FormOID)、プレテキスト、例えば、問題のフィールドの説明、ポストテキスト、例えば、予想される日付形式など、入力が取ることが予想される形式などの追加説明、および問題の特定のフィールドの内部識別子であるFieldOIDが含まれることがある。
【0043】
開示された実施形態では、入力をニューラルネットワークが使用可能なフォーマットに前処理するために、テキストはまず、テキスト内に存在する可能性のあるHTMLタグを全て取り除くことによって、生テキストに変換される。これは、例えばPythonのhtml2textライブラリを使用して行うことができる。変換後、4つのフィールドを連結することができる。この文字列の最大長はN語である。この長い文字列は、例えばGensimを介して辞書エンコードすることができる。別の実施形態では、より洗練されたニューラルネットワークを使用してもよい。この場合、集約層によって結合される前に、各タイプのデータが別々にエンコードされる。
【0044】
辞書のエンコーディングは、テキストで観測された最初の単語を1、シリーズで観測された2番目の単語を2、といった比較的単純なプロセスで行うことができる。このエンコーディングの結果は、ニューラルネットワークで処理可能な数値ベクトルである。これらのエンベッディングは通常高次元(例えば、入力の長さに対応する1000次元のベクトル)であるため、後述するように、エンベッディングサブネットワークによってさらに低次元のエンベッディングに凝縮される。
【0045】
開示された実施形態では、テキスト埋め込み層540は、事前に訓練された単語埋め込みモデルを使用するのではなく、埋め込みサブネットワーク510と共に訓練される。これは、FormOIDやFieldOIDのようなEDCからSDTMへの変換に特有な語彙の量が、テキスト記述で与えられる専門用語や略語とともに、より一般的な語彙で訓練された埋め込みには適合しないためである。
【0046】
エンコードされたテキストは、テキスト埋め込み層540によって、データのシーケンスを処理するのが特に得意なリカレントニューラルネットワークの一種であるLSTM(long-short-memory)ニューラルネットワーク545に出力される。LSTM545は、単語ベクトルのシーケンスを入力として受け取り、シーケンス全体を表す単一のベクトルを出力することができる。上記で説明したように、フィールドのペアは、シャムニューラルネットワーク埋め込みモデル245を訓練するために使用される。フィールドのペアが類似している場合、LSTM545、およびクローンサブネットワーク520の対応するLSTMは、それらの出力が可能な限り類似するように訓練される。一方、フィールドの組が非類似である場合、LSTMはそれらの出力をできるだけ異ならせるように訓練される。これは、以下でさらに詳細に説明するように、対照的損失などの特定のタイプの損失関数を使用することによって達成することができる。
【0047】
LSTM545の出力は、平坦化モジュール547によって処理され、出力を所望の分布に拘束する。例えば、tanhアクティベーション関数がLSTM545の出力に適用され、0を中心とし、正と負の値がほぼ等しく分布する埋め込みを提供することができる。
【0048】
LSTM545および平坦化モジュール547の結果として得られる出力は、n次元のフィールド埋め込み550のセットであり、nは、例えば、8、16、32、64などの整数である。上記で説明したように、第1および第2埋め込みサブネットワーク(510、520)のフィールド埋め込み550は、外部レイヤ530において、第1および第2埋め込みサブネットワーク(510、520)の埋め込み間の距離、例えばユークリッド距離を計算する距離モジュール535によって比較される。バッチ正規化モジュール555は、正規化された値のセットを達成するために、距離モジュール535の出力を処理してもよく、具体的には、入力ペアの各バッチにわたってスコアを標準化し、バッチが0の平均と1の標準偏差を有することを保証する。これは、ネットワークを生の類似性スコアの異なるスケールに対してよりロバストにすることができ、ツインニューラルネットワーク245の速度、性能、および安定性を向上させることができる。
【0049】
外部レイヤ530のファイナルアクティベーションモジュール560は、埋め込みサブネットワーク(510、520)の出力にファイナルアクティベーション関数を適用する。ファイナルアクティベーション層は、サブネットワーク(510、520)によって生成された埋め込みを、異なるフィールド間の差を反映する最終値に変換するために使用される。例えば、ペアジェネレータ260によって提供された2つの入力間の類似性を決定することが目的である場合、望ましい出力は、類似性の程度を表す単一の数値であるかもしれない。この場合、シグモイドアクティベーション関数が最終層で使用され、出力を[0,1]の範囲に押し込むことができる。
【0050】
したがって、シャムニューラルネットワーク245は、実質的に、サブネットワーク(510、520)の2つのコピーを取り、データの組が一緒に入力されたときに生じる埋め込み間の距離を決定する外部レイヤ530でそれらを結合する。具体的には、各サブネットワーク(510、520)は入力を処理し、出力ベクトルを生成する。外部レイヤ530(または「ファイナルアクティベーション層」)は、これら2つの出力ベクトルを受け取り、最終出力を計算する。この最終出力は、例えば、2つの入力シーケンスの間の類似性スコア(例えば、ユークリッド距離に基づく)となり得る。スカラー損失値を計算するために、損失関数(例えば、コントラスト損失またはトリプレット損失)が使用される。損失関数は、類似の入力ペアが類似の出力ベクトルを持ち、非類似の入力ペアが非類似の出力ベクトルを持つよう奨励するように適合される。
【0051】
バックプロパゲーションプロセスでは、損失関数の勾配が、モデルの各パラメータ(すなわち、重みとバイアス)に関して計算される。これは、事実上、損失関数からファイナルアクティベーション層を通って、サブネットワーク(510、520)に戻る計算によって行われる。バックプロパゲーション中に計算された勾配は、損失を減少させる方法でモデルパラメータを調整するために使用される。これは、確率的勾配降下(SGD)などの最適化アルゴリズムを使用して行われる。
【0052】
シャムニューラルネットワークアーキテクチャでは、サブネットワーク(510、520)は重みを共有し、同じパラメータを持つことを意味する。バックプロパゲーション中に勾配が計算されると、両方のサブネットワーク(510、520)にわたって累積され、結合された勾配に基づいて重みが更新される。このプロセスは、損失を最小化し、入力の有用な表現を学習するために、重みとバイアスを徐々に調整しながら、多くのエポック(すなわち、学習データに対する反復)にわたって繰り返される。時間の経過とともに、サブネットワーク(510、520)は、類似の入力に対しては類似のベクトルを出力し、異なる入力に対しては異なるベクトルを出力することを学習する。
【0053】
類似のデータポイント間の距離、例えばユークリッド距離が最小化されるようにサブネットワークを訓練することの利点の1つは、他の分類器に従順なコンパクトなクラスタを生成する傾向があることである。したがって、シャムニューラルネットワーク245が訓練されると、埋め込みサブネットワークは、機械学習技術を訓練および評価するためのプリプロセッサとして、または二次ニューラルネットワークへのフィードとして使用することができる。
【0054】
図6は、予測されたラベルを評価する3つの方法を使用した、開示された方法の全体的な精度とマクロF1を、2つの先行アプローチと比較した表である。すなわち、各SDTMフィールドのエントリの10%をモデル学習プロセスから除外して評価した。これにより、データセットの各クラスがトレーニングセットとテストセットの両方で表現されることが保証された。基本的な精度、すなわち、SDTM分野と一致した予測値の数が評価され、マクロF1スコアも評価された。その結果、開示されたアプローチは、適切なSDTMマッピングのほとんどを正確に予測できることが示された。ほとんどの場合、最近傍は与えられたクラスのよい予測者である。評価では、埋め込み空間内の最も近いフィールドは、適切なSDTMフィールドを~90%の確率で予測できた。
【0055】
比較として、本発明者らがEDCフィールドをSDTMフィールドにマッピングするタスクのために実装した、2つの先行する機械学習(ML)アプローチを示す。第1アプローチは、従来のMLツールであるXGBoost(最適化された分散勾配ブースティング・ライブラリ)を同じフィールドのメタデータに使用し、メタデータは用語頻度-逆文書頻度(TF-IDF)を介して符号化した。2つ目の方法は、Kerasに実装された2つの双方向LSTMとともに、事前に訓練されたテキスト埋め込み層(RoBERTa)を使用するディープラーニングの実装を使用して、フィールドマッピングの直接予測を試みたものである。表に示された結果から明らかなように、本明細書に開示されたアプローチ(シャムニューラルネットワークとML分類器を使用)は、従来のML技術やニューラルネットワークによる直接予測を使用した以前の試みよりも大幅に精度が高い。
【0056】
埋め込みで生成されたクラスタリングの解析から、シャムニューラルネットワークは、機械学習(ML)技術(ML分類モデルなど)がクラスを正確に分離できるように、十分にコンパクトな埋め込みを生成できることが示された。同じSDTMフィールドにマッピングされるEDCフィールドは、埋め込み空間内で近接して配置されるため、高い精度で分類できることがわかった。ここで示された結果は、ホールドアウト集合のみの結果であることに留意されたい。アルゴリズムの自己予測精度は99%以上であった。しかし、テストセットとトレーニングセット間の語彙の不連続性などの問題により、ホールドアウトセットの精度は低くなった。
【0057】
図7は、クラスごとの訓練サンプル数に対する精度のプロットである。平均して精度は高いが、クラスごとの精度には比較的大きなばらつきがある。大半のクラスが90%以上の精度を示す一方で、最小精度は僅か25%であった。しかし、学習データ量が増えるにつれて精度が上がるという明確な傾向が見られる。トレーニングデータ内のサンプルが100未満のクラスでは、フィールドの表現方法のばらつきを捉えるには情報が不十分であることが観察されました。トレーニングサンプルが100を超えるクラスでは、90%以上のフィールドが正しく予測された。
【0058】
評価を行った従来の実装と比較すると、ニューラルネットワークアーキテクチャのチューニングの程度を特に問わずに、評価精度の大幅な向上が見られた。正しく予測されたラベルによって定義されるように、従来技術と比較した場合、平均して10~15%の全体的な分類精度の向上が見られた。さらに、予測結果は、有意に高いマクロF1スコアによって証明されるように、異なるクラス間でより一貫していた。
【0059】
開示された実施形態の評価では、データの学習とテストが行われたドメインのセットについて、EDCフィールドに関連するメタデータには、それらが一致するSDTMフィールドを正確に決定するのに十分な情報があることが示された。シャムニューラルネットワークを使用することで、同じSDTMフィールドにマップされたEDCフィールドが同じ空間に近接して埋め込まれる埋め込みを生成することができた。評価の不正確さのほとんどは、特定のドメインのトレーニングデータが相対的に不足していたことと、重複する語彙が相対的に不足していたことで、埋め込み層がトレーニングデータの一部に対して有益な埋め込みを生成できない傾向があったことで説明できる。これらはいずれもデータに関連した問題であり、データセットを拡張することで解決できる可能性がある。
【0060】
シャムニューラルネットワークの学習過程において、2つのエントリが同じSDTMドメインにマッピングされているかどうかを予測する能力は、99%以上の精度に達していた。十分な学習データが存在するケースでは、ホールドアウトセットの全体的な精度は95%以上であった。語彙の不統一や特定のドメインにおけるサンプル不足の問題があったとしても、ホールドアウトセットにおいてモデルは比較的正確であった。評価で不正確だったもう1つの領域は、日付など複数のフィールドで重複する可能性のあるフィールドに関するものである。例えば、多くのフォームには日付を参照するEDCフィールドがあり、そのメタデータの大部分は同一であるが、SDTMマッピングはFormOIDによってのみ決定される。このような場合は、ここで説明するアプローチを使用できるが、各EDCフィールドを個別に調べるのではなく、全てのフィールドにわたってメタデータを集約し、SDTMフィールドではなくSDTMドメインを対象とする。
【0061】
本発明の態様は、システム、コンピュータプログラム製品、または方法の形態で具体化することができる。同様に、本発明の態様は、ハードウェア、ソフトウェア、またはその両方の組み合わせとして具現化することができる。本発明の態様は、その上に具現化されたコンピュータ可読プログラムコードの形態で1つ以上のコンピュータ可読媒体上に保存されたコンピュータプログラム製品として具現化されてもよい。
【0062】
コンピュータ読み取り可能媒体は、コンピュータ読み取り可能記憶媒体であってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電子式、光学式、磁気式、電磁式、赤外線式、または半導体式のシステム、装置、もしくはデバイス、またはそれらの任意の組み合わせであってもよい。
【0063】
本発明の実施形態におけるコンピュータプログラムコードは、任意の適切なプログラミング言語および/またはスクリプト言語で記述することができる。プログラムコードは、単一のコンピュータ上で実行されてもよいし、複数のコンピュータ上で実行されてもよい。コンピュータは、コンピュータ使用可能媒体と通信する処理ユニットを含んでもよく、コンピュータ使用可能媒体は、命令セットを含み、処理ユニットは、命令セット、および/または訓練された機械学習アルゴリズムを実行するように設計される。
【0064】
以上の議論は、本発明の原理および様々な実施形態を例示するためのものである。上記の開示が十分に理解されれば、多数の変形および修正が当業者に明らかになるであろう。以下の特許請求の範囲は、全てのそのような変形および修正を包含するように解釈されることが意図される。
図1
図2
図3
図4
図5
図6
図7
【外国語明細書】