特開2025-23887 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ メディデータソリューションズインクの特許一覧

特開2025-23887電子データをキャプチャーしたデータセットを標準データ集計モデル（ＳＤＴＭ）データセットに変換するシステムおよび方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025023887

(43)【公開日】2025-02-19

(54)【発明の名称】電子データをキャプチャーしたデータセットを標準データ集計モデル（ＳＤＴＭ）データセットに変換するシステムおよび方法

(51)【国際特許分類】

G06F 18/213 20230101AFI20250212BHJP

G06N 3/045 20230101ALI20250212BHJP

G16H 10/20 20180101ALI20250212BHJP

【ＦＩ】

G06F18/213

G06N3/045

G16H10/20

【審査請求】有

【請求項の数】24

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2024104875

(22)【出願日】2024-06-28

(31)【優先権主張番号】18/351,384

(32)【優先日】2023-07-12

(33)【優先権主張国・地域又は機関】US

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＰＹＴＨＯＮ

(71)【出願人】

【識別番号】522315046

【氏名又は名称】メディデータソリューションズインク

【氏名又は名称原語表記】ＭＥＤＩＤＡＴＡＳＯＬＵＴＩＯＮＳ，ＩＮＣ．

【住所又は居所原語表記】３５０ＨｕｄｓｏｎＳｔｒｅｅｔ，９ｔｈＦｌｏｏｒＮｅｗＹｏｒｋ，ＮｅｗＹｏｒｋ，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100134430

【弁理士】

【氏名又は名称】加藤卓士

(72)【発明者】

【氏名】エリック・ヤング

(72)【発明者】

【氏名】ローラ・カッツ

(57)【要約】（修正有）

【課題】電子データ収集（ＥＤＣ）データセットを標準データ集計モデル（ＳＤＴＭ）データセットに変換する方法を提供する。
【解決手段】この方法は、ＥＤＣデータセットのＥＤＣフィールド名を含むメタデータを処理して、特定の次元数のベクトルを生成するステップを含む。そのベクトルは、埋め込みモデルで処理され、より小さい次元の埋め込みベクトルが生成される。埋め込みベクトルは予測モデルにおいて処理され、ＥＤＣフィールド名のクラス予測を生成する。クラスはＳＤＴＭフィールド名に対応する。ＥＤＣフィールド名は、ＥＤＣフィールド名のクラス予測に基づいてＳＤＴＭフィールド名と対応付けられる。埋め込みモデルは学習されたシャムニューラルネットワークから得られる。
【選択図】図１

【特許請求の範囲】

【請求項1】

電子データ収集（ＥＤＣ）データセットを標準データ集計モデル（ＳＤＴＭ）データセットに変換する変換方法であって、
ＥＤＣデータセットのＥＤＣフィールド名を含むメタデータを処理して、次元数ｎ１（ｎ１は整数）のベクトルを生成するステップと、
埋め込みモデルにおいて次元数ｎ１のベクトルを処理して、次元数ｎ２の埋め込みベクトルを生成する（ｎ２は整数であり、ｎ１よりも小さい）ステップと、
前記埋め込みベクトルを予測モデルで処理し、ＳＤＴＭフィールド名に対応する、前記ＥＤＣフィールド名のクラス予測を生成するステップと、

前記ＥＤＣフィールド名のクラス予測に少なくとも部分的に基づいて、ＥＤＣフィールド名のそれぞれを前記ＳＤＴＭフィールド名に対応付けるステップと、
を含み、
前記埋め込みモデルは、第１埋め込みサブネットワークおよび第２埋め込みサブネットワークを含む、トレーニングされたシャムニューラルネットワークから得られる変換方法。

【請求項2】

前記ＳＤＴＭフィールド名のサブセットに事前にマッピングされた前記ＥＤＣフィールド名のサブセットに基づいて、前記シャムニューラルネットワークをトレーニングするステップをさらに含む請求項１に記載の変換方法。

【請求項3】

前記ＥＤＣフィールド名のサブセットを、マニュアルでキュレートする請求項２に記載の変換方法。

【請求項4】

前記第１埋め込みサブネットワークおよび前記第２埋め込みサブネットワークにそれぞれ入力される、次元数ｎ１のベクトルのペアを生成するステップをさらに含む、請求項２に記載の変換方法。

【請求項5】

前記第１埋め込みサブネットワークおよび前記第２埋め込みサブネットワークによって、前記埋め込みベクトルを生成するために長短期記憶ニューラルネットワークで次元数ｎ１のベクトルを処理するステップをさらに含む、請求項４に記載の変換方法。

【請求項6】

前記シャム型ニューラルネットワークの外部レイヤにおいて、前記第１埋め込みサブネットワークおよび前記第２埋め込みサブネットワークによってそれぞれ生成された埋め込みベクトルの各ペア間の距離を決定するステップをさらに含む請求項４に記載の変換方法。

【請求項7】

前記ＳＤＴＭフィールド名のサブセットに事前にマッピングされたメタデータのサブセットを使用して、分類モデルをトレーニングするステップと、
トレーニングされた分類モデルを予測モデルとして使用するステップと、
をさらに含み、
前記メタデータのサブセットは、分類モデルに入力される前に埋め込みモデルによって処理される請求項２に記載の変換方法。

【請求項8】

前記マッピングに少なくとも部分的に基づいて、前記ＥＤＣデータセットをＳＤＴＭデータセットに変換するステップをさらに含む、請求項１に記載の方法。

【請求項9】

電子データ収集（ＥＤＣ）データセットを標準データ集計モデル（ＳＤＴＭ）データセットに変換する変換システムであって、
前記１つまたは複数のプロセッサが実行可能な命令を記憶するメモリとの間で通信可能な１つまたは複数のプロセッサを有するコンピュータを含み、
前記命令は、
ＥＤＣデータセットのＥＤＣフィールド名を含むメタデータを処理して、次元数ｎ１のベクトルを生成する（ｎ１は整数）ステップと、
埋め込みモデルにおいて次元数ｎ１のベクトルを処理して、次元数ｎ２の埋め込みベクトルを生成する（ｎ２は整数であり、ｎ１よりも小さい）ステップと、
前記埋め込みベクトルを予測モデルで処理し、ＳＤＴＭフィールド名に対応する、前記ＥＤＣフィールド名のクラス予測を生成するステップと、

前記ＥＤＣフィールド名のクラス予測に少なくとも部分的に基づいて、ＥＤＣフィールド名のそれぞれを前記ＳＤＴＭフィールド名に対応付けるステップと、
を実行する命令であり、
前記埋め込みモデルは、第１埋め込みサブネットワークおよび第２埋め込みサブネットワークを含む、訓練されたシャムニューラルネットワークから得られる変換システム。

【請求項10】

前記ＳＤＴＭフィールド名のサブセットに事前にマッピングされた前記ＥＤＣフィールド名のサブセットに基づいて、前記シャムニューラルネットワークをトレーニングするステップをさらに含む請求項９に記載の変換システム。

【請求項11】

前記ＥＤＣフィールド名のサブセットは、マニュアルでキュレートされる請求項１０に記載の変換システム。

【請求項12】

前記命令は、前記第１埋め込みサブネットワークおよび前記第２埋め込みサブネットワークにそれぞれ入力される、次元数ｎ１のベクトルのペアを生成するステップをさらに実行する命令である請求項１０に記載の変換システム。

【請求項13】

前記命令は、
前記第１埋め込みサブネットワークおよび前記第２埋め込みサブネットワークによって、前記埋め込みベクトルを生成するために長短期記憶ニューラルネットワークで次元数ｎ１のベクトルを処理するステップをさらに実行する、請求項１２に記載の変換システム。

【請求項14】

前記命令は、
前記シャム型ニューラルネットワークの外部レイヤにおいて、前記第１埋め込みサブネットワークおよび前記第２埋め込みサブネットワークによってそれぞれ生成された埋め込みベクトルの各ペアの間の距離を決定するステップをさらに実行する、請求項１２に記載の変換システム。

【請求項15】

前記命令は、
ＳＤＴＭフィールド名のサブセットに事前にマッピングされたメタデータのサブセットを使用して、分類モデルをトレーニングするステップと、
トレーニングされた分類モデルを予測モデルとして使用するステップと、
をさらに実行し、
前記メタデータのサブセットは、分類モデルに入力される前に埋め込みモデルによって処理される請求項１０に記載の変換システム。

【請求項16】

前記命令は、
前記マッピングに少なくとも部分的に基づいて、前記ＥＤＣデータセットをＳＤＴＭデータセットに変換するステップをさらに実行する請求項９に記載の変換システム。

【請求項17】

コンピュータの１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに、電子データキャプチャ（ＥＤＣ）データセットを標準データ集計モデル（ＳＤＴＭ）データセットに変換する方法を実行させる命令を記憶した不揮発性のコンピュータ可読媒体であって、
前記方法は、
ＥＤＣデータセットのＥＤＣフィールド名を含むメタデータを処理して、次元数ｎ１のベクトルを生成する（ｎ１は整数）ステップと、
埋め込みモデルにおいて次元数ｎ１のベクトルを処理して、次元数ｎ２の埋め込みベクトルを生成する（ｎ２は整数であり、ｎ１よりも小さい）ステップと、
前記埋め込みベクトルを予測モデルで処理し、ＳＤＴＭフィールド名に対応する、前記ＥＤＣフィールド名のクラス予測を生成するステップと、
前記ＥＤＣフィールド名のクラス予測に少なくとも部分的に基づいて、ＥＤＣフィールド名のそれぞれを前記ＳＤＴＭフィールド名に対応付けるステップと、
を含み、
前記埋め込みモデルは、第１埋め込みサブネットワークおよび第２埋め込みサブネットワークを含む、トレーニングされたシャムニューラルネットワークから得られるコンピュータ可読媒体。

【請求項18】

前記方法は、
前記ＳＤＴＭフィールド名のサブセットに事前にマッピングされた前記ＥＤＣフィールド名のサブセットに基づいて、前記シャムニューラルネットワークをトレーニングするステップをさらに含む請求項１７に記載のコンピュータ可読媒体。

【請求項19】

前記ＥＤＣフィールド名のサブセットは、マニュアルでキュレートされる、請求項１８に記載のコンピュータ可読媒体。

【請求項20】

前記方法は、前記第１埋め込みサブネットワークおよび前記第２埋め込みサブネットワークにそれぞれ入力される、次元数ｎ１のベクトルのペアを生成するステップをさらに含む請求項１８に記載のコンピュータ可読媒体。

【請求項21】

前記方法は、
前記第１埋め込みサブネットワークおよび前記第２埋め込みサブネットワークによって、前記埋め込みベクトルを生成するために長短期記憶ニューラルネットワークで次元数ｎ１のベクトルを処理するステップをさらに含む、請求項２０に記載のコンピュータ可読媒体。

【請求項22】

前記方法は、
前記シャム型ニューラルネットワークの外部レイヤにおいて、前記第１埋め込みサブネットワークおよび前記第２埋め込みサブネットワークによってそれぞれ生成された埋め込みベクトルの各ペアの間の距離を決定するステップをさらに含む、請求項２０に記載のコンピュータ可読媒体。

【請求項23】

【請求項24】

前記マッピングに少なくとも部分的に基づいて、前記ＥＤＣデータセットをＳＤＴＭデータセットに変換することをさらに含む請求項１７に記載のコンピュータ可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は一般に、臨床試験データのＥＤＣ（Electronic Data Capture）フィールドをＳＤＴＭ（Study Data Tabulation Model）にマッピングすること、およびＥＤＣデータセットをＳＤＴＭデータセットに変換することに関する。

【背景技術】

【0002】

臨床試験は、高度に洗練されたプロトコルと複数の多様なデータソース、大量のデータ、分散化、複雑化する適応デザインによって膨大化している。ある試算によると、第ＩＩＩ相試験で収集されたデータポイントは、過去１０年間で３倍に増加し、平均３６０万に達しており、試験の複雑化が、ますます広範なソースから発生するデータ量の拡大を促している。

【0003】

電子データ収集（Electronic Data Capture：ＥＤＣ）システムは、データの収集と管理のために臨床試験で広く使用されている。ＥＤＣシステムには、従来の紙ベースのデータ収集方法に代わって、データ収集の時点で直接データ入力ができるソフトウェアアプリケーションが含まれる。臨床試験開始前に、臨床試験プロトコルはＥＤＣシステム内の電子症例報告書（ｅＣＲＦ）を設計するために使用される。ｅＣＲＦには、治験データを入力するための構造化されたフォーマットが含まれている。この設計には、患者の人口統計、病歴、治療割り当て、検査結果、有害事象、転帰など、治験実施計画書で指定されたデータを収集するために必要な全てのフィールドが含まれている。

【0004】

臨床データ管理における重要な進歩は、標準データ集計モデル（Standard Data Tabulation Model：ＳＤＴＭ）に臨床データをマッピングすることによる標準化である。ＳＤＴＭは、米国食品医薬品局（ＦＤＡ）などの規制当局に製品申請の一部として提出されるヒト臨床試験データ集計および非臨床試験データ集計の標準構造を定義している。これにより、異なる臨床試験間の臨床データの取り扱いや比較が効率化された。

【発明の概要】

【発明が解決しようとする課題】

【0005】

ＥＤＣのフィールドをＳＤＴＭにマッピングすることは、いくつかの理由から困難な技術的問題となる可能性がある。ＥＤＣシステムは主にデータ収集用に設計されており、フィールドは臨床データ入力や施設管理のニーズに合わせて編成されている。有害事象、人口統計、その他の臨床エンドポイントの収集に関連するフィールドなどのＥＤＣフィールドは、試験または企業特有の方法で指定されることがあるため、ＳＤＴＭ標準に容易にマッピングすることはできない。一方、ＳＤＴＭはＦＤＡなどの規制当局にデータを提出するために設計されており、Clinical Data Interchange Standards Consortium（ＣＤＩＳＣ）によって設定された標準的な構造と用語に従っている。構造と用語の違いにより、ＥＤＣとＳＤＴＭの直接的なマッピングは困難である。さらに、異なるＥＤＣシステムの設計と使用方法には大きなばらつきがある。同じ種類のデータであっても、システムによって取り込み方が異なったり、同じ治療薬であっても試験が異なったりすることがある。このばらつきがマッピングプロセスを複雑にしている。

【0006】

そのため、電子データ収集（ＥＤＣ）システムからＳＤＴＭにデータをマッピングする従来のプロセスでは、一般に、注釈付き症例報告書（ＣＲＦ）を読み取り、データをＳＤＴＭ形式に変換するスクリプトを作成するプログラマーが関与する必要がある。さらに、臨床試験で使用されるＥＤＣシステムは、多くの場合、試験の実施を容易にするために設計されており、ＳＤＴＭへのマッピングは二次的な優先事項となっている。したがって、このような従来のアプローチでは、ＥＤＣシステムのデータをＳＤＴＭにマッピングするプロセスは非常に手間がかかり、多くの場合、再現性がない。

【0007】

このような問題に対処するため、ＥＤＣを標準化する試みが行われてきた。一旦、ある試験のマッピングが存在すれば、将来の全ての試験は基本的に同じパターンに従うことになる。しかし、ＥＤＣの標準化には、柔軟性の喪失、一般的な標準の確立の難しさ、そして最も重要な点として、ＳＤＴＭ形式で提出されたことのないレガシー試験のマッピングには適用できないなどの欠点がある。

【0008】

ＥＤＣのフィールドをＳＤＴＭにマッピングするための実用的な機械学習（ＭＬ）ソリューションを構築する際の障壁の１つは、トレーニングデータが相対的に不足していることである。最大手の製薬会社でさえ、アルゴリズムの学習に利用できる臨床試験は数千件に過ぎない。

【課題を解決するための手段】

【0009】

開示された実施形態では、シャムネットワークを使用して、電子データキャプチャ（ＥＤＣ）メタデータベースの埋め込みを生成することができ、機械学習（ＭＬ）分類器をこれらの埋め込みに使用して、関連する標準データ集計モデル（ＳＤＴＭ）フィールドを予測することができる。シャムニューラルネットワーク（Siamese neural network）は、類似のデータポイントが、非類似のデータポイントよりも、ユークリッド距離のような距離メトリックに基づいて近い、より低次元の埋め込みを持つように訓練される。これにより、各フィールドの低次元埋め込みを他の全てのフィールドと比較できるサブネットワークを学習することができる。開示された実施形態では、これにより、Ｎ個のデータ点をＯ（Ｎ２）組に拡張し、そこから分類器ニューラルネットワークを訓練することができる。この埋め込みを取得した後、低次元表現を使用して最終的な予測モデルを生成し、ＥＤＣフォームのフィールドをＳＤＴＭドメインに分類することができる。

【0010】

開示された実施形態では、レガシー臨床試験をＳＤＴＭ形式に大規模にマッピングすることが可能である。これにより、解析前にデータセットをマニュアルで整合させるオーバーヘッドを必要とせずに、臨床試験を横断的に解析できるようになり、レガシーデータの価値が大幅に向上する。

【0011】

開示された実施形態では、シャムニューラルネットワークが、ＥＤＣシステムで通常指定されるフォームフィールド間の類似性を計算するために使用される。これらの類似度メトリクスは、最終的な分類のために、さらなる機械学習段階に投入することができる。この出力は、ＥＤＣデータをＳＤＴＭにスケールマッピングするため、および／またはマッピング推奨を提供するツールを駆動するために使用することができる。

【0012】

一態様において、開示される実施形態は、電子データ収集（ＥＤＣ）データセットを標準データ集計モデル（ＳＤＴＭ）データセットに変換する方法、システム、およびコンピュータ可読媒体を提供する。この方法には、ＥＤＣデータセットのメタデータを処理することが含まれ、メタデータはＥＤＣフィールド名を含み、次元数ｎ１のベクトルを生成する（ここでｎ１は整数である）。この方法にはさらに、埋め込みモデルにおいて、次元数ｎ１のベクトルを処理して、次元数ｎ２の埋め込みベクトルを生成することが含まれる（ここで、ｎ２は整数であり、ｎ１よりも小さい）。この方法にはさらに、予測モデルにおいて、埋め込みベクトルを処理して、ＥＤＣフィールド名のクラス予測を生成することが含まれる（ここで、クラスはＳＤＴＭフィールド名に対応する）。この方法はさらに、ＥＤＣフィールド名のクラス予測に少なくとも部分的に基づいて、ＥＤＣフィールド名とＳＤＴＭフィールド名とをそれぞれマッピングすることを含む。埋め込みモデルは、第１埋め込みサブネットワークと第２埋め込みサブネットワークとを含む、訓練されたシャムニューラルネットワークから得られる。

【0013】

実施形態は、以下の特徴の１つ以上を単独で、または組み合わせて含むことができる。

【0014】

この方法には、ＳＤＴＭフィールド名のサブセットにあらかじめマッピングされたＥＤＣフィールド名のサブセットに基づいてシャムニューラルネットワークをトレーニングすることがさらに含まれる。ＥＤＣフィールド名のサブセットは、マニュアルでキュレートしてもよい。本方法は、第１埋め込みサブネットワークおよび第２埋め込みサブネットワークにそれぞれ入力される、次元数ｎ１のベクトルのペアを生成することをさらに含むことができる。本方法は、第１埋め込みサブネットワークおよび第２埋め込みサブネットワークによって、次元数ｎ１のベクトルを長短期記憶ニューラルネットワークで処理して、埋め込みベクトルを生成することをさらに含み得る。

【0015】

本方法は、シャムニューラルネットワークの外部レイヤにおいて、第１埋め込みサブネットワークおよび第２埋め込みサブネットワークによってそれぞれ生成された埋め込みベクトルの各ペアの間の距離を決定することをさらに含み得る。この方法は、第１埋め込みサブネットワークおよび第２埋め込みサブネットワークによって出力された埋め込みベクトルの決定された距離に、バッチ正規化およびアクティベーション関数のうちの少なくとも１つを適用することと、適用することによって得られた結果を、第１埋め込みサブネットワークおよび第２埋め込みサブネットワークにバックプロパゲートすることと、をさらに含み得る。シャムネットワークおよびそのサブネットワークには、異なるニューラルネットワーク層、アクティベーション関数、および距離メトリックを含む、様々なアーキテクチャを使用することができる。本方法は、ＳＤＴＭフィールド名のサブセットに事前にマッピングされたＥＤＣフィールド名のサブセットを使用して分類モデルをトレーニングすること（ＥＤＣフィールド名のサブセットは、分類モデルに入力される前に埋め込みモデルによって処理される）、およびトレーニングされた分類モデルを予測モデルとして使用することをさらに含むことができる。この方法は、マッピングに少なくとも部分的に基づいてＥＤＣデータセットをＳＤＴＭデータセットに変換することをさらに含む。

【図面の簡単な説明】

【0016】

【図1】開示された実施形態による、電子データキャプチャ（ＥＤＣ）データセットを標準データ集計モデル（ＳＤＴＭ）データセットに変換するシステムのブロック図である。

【図2】開示された実施形態による、ＥＤＣからＳＤＴＭへのフィールドマッピングシステムのブロック図である。

【図3】シャムニューラルネットワーク埋め込みモデルを用いて埋め込みモデルを生成するサブシステムのブロック図である。

【図4】シャムニューラルネットワークによって生成された埋め込みモデルを用いてＭＬ分類モデルを学習するサブシステムのブロック図である。

【図5】シャムニューラルネットワーク埋め込みモデルとペア生成部のブロック図である。

【図6】予測ラベルを評価する３つの方法を用いた開示手法の総合精度とマクロＦ１スコアを、２つの先行アプローチと比較した表である。

【図7】クラスごとの訓練サンプル数に対する精度のプロットである。

【発明を実施するための形態】

【0017】

以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。

【0018】

［第１実施形態］
以下の詳細な説明では、本発明の実施形態を十分に理解するために、多数の具体的な詳細を記載する。しかしながら、当業者であれば、本発明の実施形態はこれらの具体的な詳細がなくても実施できることが理解されよう。他の例では、周知の方法、手順、構成要素、および回路は、本発明を不明瞭にしないように詳細には記載されていない。

【0019】

開示された実施形態では、シャムニューラルネットワークは、標準データ集計モデル（ＳＤＴＭ）エントリ（本明細書では「ＳＤＴＭフィールド」と呼ぶ）にマッピングされる電子データキャプチャ（ＥＤＣ）フィールド間の類似性を計算するために使用される。その結果、類似度メトリックは、同じＳＤＴＭフィールドにマッピングされるＥＤＣフィールドが、離れているフィールドよりも距離（例えば、ユークリッド距離）が近い低次元の埋め込みを生成する。この低次元の埋め込みは、埋め込みを実際の予測に変換するために、二次的な分類アルゴリズムに供給される。

【0020】

図１は、電子データ収集（ＥＤＣ）データセット１１０を標準データ集計モデル（ＳＤＴＭ）データセット１２０に変換するシステム１００のブロック図である。ＥＤＣデータセット１１０は、ＥＤＣシステム１３０からの出力によって生成される。ＥＤＣシステム１３０は、臨床試験施設などの多くのソースからＥＤＣデータを受信することができる。データの変換を可能にするために、ＥＤＣ－ＳＤＴＭフィールドマッピングシステム１４０は、ＥＤＣフィールド名や、フィールドの説明、フィールドが記録されているユニット、どのフォームとフィールドＩＤがフィールドに関連付けられているかなどの他のメタデータを含むメタデータをＥＤＣデータセット１１０から取得し、ＥＤＣフィールドをＳＤＴＭの標準化されたフィールドにマッピングする。

【0021】

フィールドマッピングの結果は、ＥＤＣ－ＳＤＴＭデータ変換システム１５０に出力される。変換システム１５０は、フィールドマッピングを使用して、ＥＤＣデータセット１１０をＳＤＴＭデータセット１２０の標準形式に変換する。データが変換されると、ＳＤＴＭデータセット１２０はＳＤＴＭデータ配信システム１６０に出力され、ＳＤＴＭデータ配信システム１６０はＳＤＴＭデータセット１２０の送信を制御する。例えば、ＳＤＴＭデータセット１２０はＳＤＴＭデータ配信システム１６０に受信され、ＳＤＴＭデータ配信システム１６０は、例えばクラウドベースのネットワーク１７０を介して、データをさまざまなＳＤＴＭベースのシステムに送信する。実施形態では、ＳＤＴＭデータセット１２０は、米国食品医薬品局（ＦＤＡ）などの規制当局に送信される場合がある。

【0022】

臨床試験データのＥＤＣデータセットを標準化したＳＤＴＭフォーマットを持つデータセットに変換することは技術的な問題である。なぜなら、ＥＤＣデータセットのフィールドが標準化されたＳＤＴＭフィールドに正確にマッピングされるように、複雑な方法論とツールを開発、実装、維持管理する必要があるからである。ＥＤＣフィールドのマッピングを実行し、ＥＤＣデータセットをＳＤＴＭデータセットに変換する根本的な動機は、法的要件や規制要件に起因しているかもしれないが、マッピングと変換を実現する実際のプロセスには、以下でさらに詳しく説明するように、多数の技術的課題に対処することが含まれる。

【0023】

図２は、ＥＤＣからＳＤＴＭへのフィールドマッピングを実行するためのニューラルネットワークベースのシステム２００のブロック図である。開示される実施形態では、システム２００は、上述したＥＤＣからＳＤＴＭへのフィールドマッピングシステム１４０に対応する（図１参照）。システム２００は、ＥＤＣデータセット１１０（図１参照）から取得された未分類のＥＤＣフィールドデータセット２０５を処理するために、ニューラルネットワークと機械学習モデルのアーキテクチャをトレーニングして使用する。ＥＤＣフィールドデータセット２０５は、以下によって処理される：（ｉ）埋め込みモデル２１０、および（ｉｉ）二次予測モデル２２０。これら２つのモデルによるＥＤＣフィールドデータセット２０５の処理の結果は、ＥＤＣフィールドマッピングの最終クラス（すなわち、分類）予測のセットである。このように、ＥＤＣフィールドは、ＳＤＴＭフィールドに関連して、特定の決定された確率で分類される。最終クラス予測２２５は、データ変換および配信システム２３０、例えば、上述したＥＤＣからＳＤＴＭへのデータ変換システム１５０およびＳＤＴＭデータ配信システム１６０（図１を参照）に出力することができる。開示された実施形態では、信頼度スコアが決定され、最も近い一致が提案としてユーザインターフェイスを介して提示されることがある。

【0024】

開示される実施形態では、「主ランタイムモデル（principal runtime models）」と呼ばれ得る埋め込みモデル２１０と二次予測モデル２２０とが、対応する「プロキシモデル」を訓練し、結果として得られる訓練済みモデルをそれぞれの「主ランタイムモデル」として使用することによって生成される。具体的には、埋め込みモデル２１０は、以下に説明するように、シャムニューラルネットワーク埋め込みモデル２４５を訓練し、その結果得られる訓練済みモデルを埋め込みモデル２１０として使用するようにエクスポートすることによって生成される。同様に、二次予測モデル２２０は、機械学習（ＭＬ）分類モデル２５０を訓練し、結果として得られる訓練済みモデルを二次予測モデル２２０として使用することによって生成される。開示される実施形態において、プロキシモデルのトレーニングは、ランタイム中に行われてもよく、その場合、トレーニングされたプロキシモデルは、対応する主ランタイムモデルを定期的に更新するために使用されてもよい。あるいは、トレーニングの一部または全てをランタイムに先立って行い、ランタイムに定期的な更新を行うこともできる。

【0025】

プロキシモデル、すなわちシャムニューラルネットワーク埋め込みモデル２４５とＭＬ分類モデル２５０のトレーニングは、対応するＳＤＴＭフィールドにマニュアルでマッピングされたＥＤＣフィールドを含む、事前にマッピングされた、例えばマニュアルでキュレートされたフィールド２４０のデータベースを使用して実行することができる。埋め込みモデル２１０は、キュレートされたＥＤＣフィールドを受け取り、ｎ次元トレーニング埋め込み２５５（例えば、３２次元埋め込み）のセットを出力する。キュレートされたＥＤＣフィールドと、キュレートされたＥＤＣフィールドがマニュアルでマッピングされたＳＤＴＭフィールド、すなわち最終的なクラスラベルは、第２パス２５２を介して、シャムニューラルネットワーク埋め込みモデル２４５にトレーニングデータとして出力される。

【0026】

ペア生成部２６０は、第２パス２５２に沿って設けられ、キュレートされたＥＤＣフィールドとシャムニューラルネットワーク埋め込みモデル２４５に入力される最終クラスラベルとの間の全ての可能なペアの組み合わせを生成する。最終クラスラベルはまた、第三の経路２５３を介してＭＬ分類モデル２５０に出力され、グランドトゥルースとして使用される。

【0027】

上述したように、システム２００は、ＥＤＣデータセット１１０（図１参照）から検索された分類されていないＥＤＣフィールドデータセット２０５を処理するために、ニューラルネットワークおよび機械学習モデルのアーキテクチャを訓練し、使用する。開示される実施形態では、検索されたデータは、臨床試験で使用される電子症例報告書（ｅＣＲＦ）に関連するメタデータ、例えば、フォーム名（ＦｏｒｍＯＩＤ）、プレテキスト、例えば、問題のフィールドの説明、ポストテキスト、例えば、予想される日付形式などの入力が取ることが予想される形式などの追加の説明、および問題の特定のフィールドの内部識別子であるＦｉｅｌｄＯＩＤを含み得る。開示された実施形態では、これら４つの情報フィールドをＳＤＴＭドメインに関連付けることができる。ただし、開示された実施形態はこれら４つのフィールドに焦点を当てているが、方法論はこれらのフィールドに特化したものではなく、記録されたデータの分布など、他のフィールドを使用して実装することもできる。

【0028】

本発明者らによる評価では、データセットは以下のドメインに限定された：有害事象（ＡＥ）、処置（ＤＳ）、併用薬（ＣＭ）、曝露（ＥＣ）、病歴（ＭＨ）、バイタルサイン（ＶＳ）、および人口統計（ＤＭ）。これらのドメインに関連するフィールドは、評価のために人間のキュレーターがマニュアルでＳＤＴＭにマッピングした。これはＳＤＴＭデータセットの一部であるドメインの包括的なリストではないが、これらのドメインはマッピングが必要な構造を合理的に表している。

【0029】

一般的に、ＳＤＴＭ形式のドメインは、ピボットなし（つまり幅の狭い）形式とピボット付き（つまり幅の広い）形式が混在して表現される。評価を簡単にするため、全てのドメインはピボットなしの表として表現した。ＳＤＴＭ標準に基づき、ピボット付きからピボットなしの表現に変換する簡単な方法があることに留意されたい。さらに、評価には複合フィールド（ＢＭＩのような１つ以上のフィールド間の数学的演算の結果であるフィールド）は含まれなかった。評価に使用したトレーニングデータには、５７個のＳＤＴＭフィールドに対応する約９０００のエントリがあった。

【0030】

図３は、シャムニューラルネットワーク埋め込みモデル２４５を用いて埋め込みモデル２１０を生成するサブシステム（上述のシステム２００の一部）のブロック図である。シャムニューラルネットワークの使用は、同じクラス内のデータが、所定の距離メトリックに関して、別のクラス内のデータポイントに近いデータ埋め込みを提供する。

【0031】

シャムニューラルネットワーク２４５の学習は、対応するＳＤＴＭフィールドにマッピングされたＥＤＣフィールドであるプレマップフィールド２４０のデータベースを使用する。データベース２４０は、マニュアルでキュレートされたＥＤＣフィールドと、対応するＳＤＴＭフィールドである最終クラス（すなわち、分類）ラベルを含むＥＤＣメタデータをペアジェネレータ２６０に提供する。

【0032】

開示される実施形態では、ペア生成部２６０は、キュレートされたＥＤＣフィールド間の全ての可能なペアの組み合わせを生成し、得られたペアをシャムニューラルネットワーク２４５の２つの独立入力に出力することができる。開示された実施形態では、ペアはランダムに生成されてもよい。一例として、各ＳＤＴＭフィールドについて、２つのＥＤＣフィールドが同じＳＤＴＭエントリにマッピングされるペア（例えば、ＡＥＳＴＤおよびＡＥＣＯＤＥＤとラベル付けされたＥＤＣフィールドが両方ともＡＥＤＥＣＯＤにマッピングされるペア）が１００組生成され、２つのフィールドが異なるＳＤＴＭ要素に関連付けられるペア（例えば、ＡＧＥおよびＷＥＩＧＨＴとラベル付けされたＥＤＣフィールド）が１００組生成される。シャムニューラルネットワーク２４５の出力変数は、同じＳＤＴＭフィールドに属する場合は０、属さない場合は１である。

【0033】

このマッピング操作は、事実上、トレーニングデータの量を桁違いに拡大する。例えば、１０００個のデータポイントを別の１０００個のデータポイントとあらゆる可能な組み合わせでペアにした場合、結果として得られるトレーニングセットは１００万個のデータポイントを持つことになる。一般的な言語モデルは数十億のデータ点を必要とする場合があるため、これは有利である。さらに、結果の考察で後述するように、このように効果的に拡張されたデータセットを使用することで、従来のアプローチと比較して精度が大幅に向上する。

【0034】

マッピング操作は、同じクラスの２つのエントリ間の最小距離を設定し、同じクラスでない場合は任意の距離に設定する。ＳＤＴＭフィールドによって階層化されたホールドアウトセットが生成され、トレーニングセットとテストセットに同じ割合のＳＤＴＭフィールドが含まれるようになる。例えば、各ＳＤＴＭフィールドのエントリの１０％をモデル学習プロセスから除外して評価することができる。これにより、データセットの各クラスがトレーニングセットとテストセットの両方で表現されるようになる。

【0035】

シャムニューラルネットワーク２４５は、その空間内の点間の幾何学的（例えば、ユークリッド）距離が、関連するテキスト（例えば、ＥＤＣメタデータ）間の意味的類似性に対応するように、テキストを低次元空間にマッピングするように訓練される。したがって、類似の入力は、ユークリッド距離などの距離メトリックに基づいて、非類似のデータ点よりも近い低次元の埋め込みを持つことになる。これにより、各フィールドの低次元の埋め込みを他の全てのフィールドと比較できるサブネットワークの学習が可能になる。シャムニューラルネットワーク２４５のトレーニングによって生成された低次元の埋め込みは、埋め込みモデル２１０として使用されるようにエクスポートされ、今度は、ＭＬ分類モデル２５０のトレーニングで使用される（図４参照）。

【0036】

図４は、サブシステム（例えば、上述のシステム２００の一部）のブロック図であり、このサブシステムは、シャムニューラルネットワーク２４５によって生成された埋め込みモデル２１０を使用して、ＭＬ分類モデル２５０をトレーニングする。この訓練では、マニュアルでキュレートされたフィールドのデータベース２４０を使用する。このフィールドは、対応するＳＤＴＭフィールドにマニュアルでマッピングされたＥＤＣフィールドである。データベース２４０は、マニュアルでキュレートされたＥＤＣフィールドを含むＥＤＣメタデータを埋め込みモデル２１０に提供する。また、データベース２４０は、対応するＳＤＴＭフィールドである最終的なクラス（つまり、分類）ラベルをＭＬ分類モデル２５０に提供し、グランドトゥルースとして使用する。

【0037】

開示された実施形態では、ＭＬ分類モデル２５０は、ｋ最近傍（ｋＮＮ）分類器であってもよい。あるいは、ＸＧＢｏｏｓｔ（最適化された分散勾配ブースティング・ライブラリ）、ランダムフォレスト、または追加のニューラルネットワークなどの技術が、分類を実行するために使用され得る。ｋＮＮ分類器の使用は、同じクラスに属する最近傍の数に関する情報を提供することで、埋め込み品質の評価を容易にした。具体的には、ｋ個の最近傍のいずれかに正しいクラスがあるか、最近傍によって正しいクラスが予測されるか、ｋ個の最近傍の多数決によって正しいクラスが予測されるか、を評価することができる。

【0038】

埋め込みモデル２１０は、上述したように、シャムニューラルネットワーク２４５によって生成され、テキストを特定の次元の埋め込み、例えば、密なベクトルに変換するように適合される。開示される実施形態では、データベース２４０からのキュレートされたＥＤＣフィールドは、ｎ次元（例えば、３２次元）エンベッディング２５５の形態のトレーニングエンベッディングのセットに変換される。トレーニング埋め込み２５５は、順に、ＭＬ分類モデル２５０をトレーニングするために使用される。

【0039】

図５は、シャムニューラルネットワーク埋め込みモデル２４５とペア生成部２６０のブロック図である。シャムニューラルネットワークアーキテクチャは、２つの異なる入力間の類似性または非類似性を学習するように設計されている。開示された実施形態のコンテキストでは、同じＳＤＴＭドメインにマッピングされるＥＤＣフィールドは、異なるＳＤＴＭフィールドにマッピングされるＥＤＣフィールドよりも類似しているはずである。

【0040】

シャムニューラルネットワーク２４５は、ペア生成部２６０からの第１入力に対する埋め込みを生成するニューラルネットワークである第１埋め込みサブネットワーク５１０を学習する。第２埋め込みサブネットワーク５２０は、第１埋め込みネットワーク５１０の「クローン」であり、すなわち、サブネットワークは同じアーキテクチャと重みを共有し、ペア生成部２６０からの第２入力に対する埋め込みを生成する。そして、第１および第２入力に対する埋め込みは、第１および第２埋め込み間の距離（例えば、ユークリッド距離）を計算する距離モジュール５３５を有する外部レイヤ５３０において比較される。

【0041】

埋め込みサブネットワーク（５１０、５２０）はそれぞれ、単語をベクトルに変換するためのテキスト埋め込み層５４０を含む。テキスト埋め込み層５４０は、辞書符号化されたテキストの線形ベクトルを、元のベクトルの要素ごとに１行を持つ行列に変換する。同じ文脈で見られる単語は、類似の単語が類似のベクトルにマッピングされるように、Ｎ次元のベクトルにエンコードされる。

【0042】

上述したように、マニュアルでキュレートされたフィールドのデータベース２４０から検索されたデータには、電子症例報告書（ｅＣＲＦ）に関連するメタデータ、例えば、フォーム名（ＦｏｒｍＯＩＤ）、プレテキスト、例えば、問題のフィールドの説明、ポストテキスト、例えば、予想される日付形式など、入力が取ることが予想される形式などの追加説明、および問題の特定のフィールドの内部識別子であるＦｉｅｌｄＯＩＤが含まれることがある。

【0043】

開示された実施形態では、入力をニューラルネットワークが使用可能なフォーマットに前処理するために、テキストはまず、テキスト内に存在する可能性のあるＨＴＭＬタグを全て取り除くことによって、生テキストに変換される。これは、例えばＰｙｔｈｏｎのｈｔｍｌ２ｔｅｘｔライブラリを使用して行うことができる。変換後、４つのフィールドを連結することができる。この文字列の最大長はＮ語である。この長い文字列は、例えばＧｅｎｓｉｍを介して辞書エンコードすることができる。別の実施形態では、より洗練されたニューラルネットワークを使用してもよい。この場合、集約層によって結合される前に、各タイプのデータが別々にエンコードされる。

【0044】

辞書のエンコーディングは、テキストで観測された最初の単語を１、シリーズで観測された２番目の単語を２、といった比較的単純なプロセスで行うことができる。このエンコーディングの結果は、ニューラルネットワークで処理可能な数値ベクトルである。これらのエンベッディングは通常高次元（例えば、入力の長さに対応する１０００次元のベクトル）であるため、後述するように、エンベッディングサブネットワークによってさらに低次元のエンベッディングに凝縮される。

【0045】

開示された実施形態では、テキスト埋め込み層５４０は、事前に訓練された単語埋め込みモデルを使用するのではなく、埋め込みサブネットワーク５１０と共に訓練される。これは、ＦｏｒｍＯＩＤやＦｉｅｌｄＯＩＤのようなＥＤＣからＳＤＴＭへの変換に特有な語彙の量が、テキスト記述で与えられる専門用語や略語とともに、より一般的な語彙で訓練された埋め込みには適合しないためである。

【0046】

エンコードされたテキストは、テキスト埋め込み層５４０によって、データのシーケンスを処理するのが特に得意なリカレントニューラルネットワークの一種であるＬＳＴＭ（long-short-memory）ニューラルネットワーク５４５に出力される。ＬＳＴＭ５４５は、単語ベクトルのシーケンスを入力として受け取り、シーケンス全体を表す単一のベクトルを出力することができる。上記で説明したように、フィールドのペアは、シャムニューラルネットワーク埋め込みモデル２４５を訓練するために使用される。フィールドのペアが類似している場合、ＬＳＴＭ５４５、およびクローンサブネットワーク５２０の対応するＬＳＴＭは、それらの出力が可能な限り類似するように訓練される。一方、フィールドの組が非類似である場合、ＬＳＴＭはそれらの出力をできるだけ異ならせるように訓練される。これは、以下でさらに詳細に説明するように、対照的損失などの特定のタイプの損失関数を使用することによって達成することができる。

【0047】

ＬＳＴＭ５４５の出力は、平坦化モジュール５４７によって処理され、出力を所望の分布に拘束する。例えば、ｔａｎｈアクティベーション関数がＬＳＴＭ５４５の出力に適用され、０を中心とし、正と負の値がほぼ等しく分布する埋め込みを提供することができる。

【0048】

ＬＳＴＭ５４５および平坦化モジュール５４７の結果として得られる出力は、ｎ次元のフィールド埋め込み５５０のセットであり、ｎは、例えば、８、１６、３２、６４などの整数である。上記で説明したように、第１および第２埋め込みサブネットワーク（５１０、５２０）のフィールド埋め込み５５０は、外部レイヤ５３０において、第１および第２埋め込みサブネットワーク（５１０、５２０）の埋め込み間の距離、例えばユークリッド距離を計算する距離モジュール５３５によって比較される。バッチ正規化モジュール５５５は、正規化された値のセットを達成するために、距離モジュール５３５の出力を処理してもよく、具体的には、入力ペアの各バッチにわたってスコアを標準化し、バッチが０の平均と１の標準偏差を有することを保証する。これは、ネットワークを生の類似性スコアの異なるスケールに対してよりロバストにすることができ、ツインニューラルネットワーク２４５の速度、性能、および安定性を向上させることができる。

【0049】

外部レイヤ５３０のファイナルアクティベーションモジュール５６０は、埋め込みサブネットワーク（５１０、５２０）の出力にファイナルアクティベーション関数を適用する。ファイナルアクティベーション層は、サブネットワーク（５１０、５２０）によって生成された埋め込みを、異なるフィールド間の差を反映する最終値に変換するために使用される。例えば、ペアジェネレータ２６０によって提供された２つの入力間の類似性を決定することが目的である場合、望ましい出力は、類似性の程度を表す単一の数値であるかもしれない。この場合、シグモイドアクティベーション関数が最終層で使用され、出力を［０，１］の範囲に押し込むことができる。

【0050】

したがって、シャムニューラルネットワーク２４５は、実質的に、サブネットワーク（５１０、５２０）の２つのコピーを取り、データの組が一緒に入力されたときに生じる埋め込み間の距離を決定する外部レイヤ５３０でそれらを結合する。具体的には、各サブネットワーク（５１０、５２０）は入力を処理し、出力ベクトルを生成する。外部レイヤ５３０（または「ファイナルアクティベーション層」）は、これら２つの出力ベクトルを受け取り、最終出力を計算する。この最終出力は、例えば、２つの入力シーケンスの間の類似性スコア（例えば、ユークリッド距離に基づく）となり得る。スカラー損失値を計算するために、損失関数（例えば、コントラスト損失またはトリプレット損失）が使用される。損失関数は、類似の入力ペアが類似の出力ベクトルを持ち、非類似の入力ペアが非類似の出力ベクトルを持つよう奨励するように適合される。

【0051】

バックプロパゲーションプロセスでは、損失関数の勾配が、モデルの各パラメータ（すなわち、重みとバイアス）に関して計算される。これは、事実上、損失関数からファイナルアクティベーション層を通って、サブネットワーク（５１０、５２０）に戻る計算によって行われる。バックプロパゲーション中に計算された勾配は、損失を減少させる方法でモデルパラメータを調整するために使用される。これは、確率的勾配降下（ＳＧＤ）などの最適化アルゴリズムを使用して行われる。

【0052】

シャムニューラルネットワークアーキテクチャでは、サブネットワーク（５１０、５２０）は重みを共有し、同じパラメータを持つことを意味する。バックプロパゲーション中に勾配が計算されると、両方のサブネットワーク（５１０、５２０）にわたって累積され、結合された勾配に基づいて重みが更新される。このプロセスは、損失を最小化し、入力の有用な表現を学習するために、重みとバイアスを徐々に調整しながら、多くのエポック（すなわち、学習データに対する反復）にわたって繰り返される。時間の経過とともに、サブネットワーク（５１０、５２０）は、類似の入力に対しては類似のベクトルを出力し、異なる入力に対しては異なるベクトルを出力することを学習する。

【0053】

類似のデータポイント間の距離、例えばユークリッド距離が最小化されるようにサブネットワークを訓練することの利点の１つは、他の分類器に従順なコンパクトなクラスタを生成する傾向があることである。したがって、シャムニューラルネットワーク２４５が訓練されると、埋め込みサブネットワークは、機械学習技術を訓練および評価するためのプリプロセッサとして、または二次ニューラルネットワークへのフィードとして使用することができる。

【0054】

図６は、予測されたラベルを評価する３つの方法を使用した、開示された方法の全体的な精度とマクロＦ１を、２つの先行アプローチと比較した表である。すなわち、各ＳＤＴＭフィールドのエントリの１０％をモデル学習プロセスから除外して評価した。これにより、データセットの各クラスがトレーニングセットとテストセットの両方で表現されることが保証された。基本的な精度、すなわち、ＳＤＴＭ分野と一致した予測値の数が評価され、マクロＦ１スコアも評価された。その結果、開示されたアプローチは、適切なＳＤＴＭマッピングのほとんどを正確に予測できることが示された。ほとんどの場合、最近傍は与えられたクラスのよい予測者である。評価では、埋め込み空間内の最も近いフィールドは、適切なＳＤＴＭフィールドを～９０％の確率で予測できた。

【0055】

比較として、本発明者らがＥＤＣフィールドをＳＤＴＭフィールドにマッピングするタスクのために実装した、２つの先行する機械学習（ＭＬ）アプローチを示す。第１アプローチは、従来のＭＬツールであるＸＧＢｏｏｓｔ（最適化された分散勾配ブースティング・ライブラリ）を同じフィールドのメタデータに使用し、メタデータは用語頻度－逆文書頻度（ＴＦ－ＩＤＦ）を介して符号化した。２つ目の方法は、Ｋｅｒａｓに実装された２つの双方向ＬＳＴＭとともに、事前に訓練されたテキスト埋め込み層（ＲｏＢＥＲＴａ）を使用するディープラーニングの実装を使用して、フィールドマッピングの直接予測を試みたものである。表に示された結果から明らかなように、本明細書に開示されたアプローチ（シャムニューラルネットワークとＭＬ分類器を使用）は、従来のＭＬ技術やニューラルネットワークによる直接予測を使用した以前の試みよりも大幅に精度が高い。

【0056】

埋め込みで生成されたクラスタリングの解析から、シャムニューラルネットワークは、機械学習（ＭＬ）技術（ＭＬ分類モデルなど）がクラスを正確に分離できるように、十分にコンパクトな埋め込みを生成できることが示された。同じＳＤＴＭフィールドにマッピングされるＥＤＣフィールドは、埋め込み空間内で近接して配置されるため、高い精度で分類できることがわかった。ここで示された結果は、ホールドアウト集合のみの結果であることに留意されたい。アルゴリズムの自己予測精度は９９％以上であった。しかし、テストセットとトレーニングセット間の語彙の不連続性などの問題により、ホールドアウトセットの精度は低くなった。

【0057】

図７は、クラスごとの訓練サンプル数に対する精度のプロットである。平均して精度は高いが、クラスごとの精度には比較的大きなばらつきがある。大半のクラスが９０％以上の精度を示す一方で、最小精度は僅か２５％であった。しかし、学習データ量が増えるにつれて精度が上がるという明確な傾向が見られる。トレーニングデータ内のサンプルが１００未満のクラスでは、フィールドの表現方法のばらつきを捉えるには情報が不十分であることが観察されました。トレーニングサンプルが１００を超えるクラスでは、９０％以上のフィールドが正しく予測された。

【0058】

評価を行った従来の実装と比較すると、ニューラルネットワークアーキテクチャのチューニングの程度を特に問わずに、評価精度の大幅な向上が見られた。正しく予測されたラベルによって定義されるように、従来技術と比較した場合、平均して１０～１５％の全体的な分類精度の向上が見られた。さらに、予測結果は、有意に高いマクロＦ１スコアによって証明されるように、異なるクラス間でより一貫していた。

【0059】

開示された実施形態の評価では、データの学習とテストが行われたドメインのセットについて、ＥＤＣフィールドに関連するメタデータには、それらが一致するＳＤＴＭフィールドを正確に決定するのに十分な情報があることが示された。シャムニューラルネットワークを使用することで、同じＳＤＴＭフィールドにマップされたＥＤＣフィールドが同じ空間に近接して埋め込まれる埋め込みを生成することができた。評価の不正確さのほとんどは、特定のドメインのトレーニングデータが相対的に不足していたことと、重複する語彙が相対的に不足していたことで、埋め込み層がトレーニングデータの一部に対して有益な埋め込みを生成できない傾向があったことで説明できる。これらはいずれもデータに関連した問題であり、データセットを拡張することで解決できる可能性がある。

【0060】

シャムニューラルネットワークの学習過程において、２つのエントリが同じＳＤＴＭドメインにマッピングされているかどうかを予測する能力は、９９％以上の精度に達していた。十分な学習データが存在するケースでは、ホールドアウトセットの全体的な精度は９５％以上であった。語彙の不統一や特定のドメインにおけるサンプル不足の問題があったとしても、ホールドアウトセットにおいてモデルは比較的正確であった。評価で不正確だったもう１つの領域は、日付など複数のフィールドで重複する可能性のあるフィールドに関するものである。例えば、多くのフォームには日付を参照するＥＤＣフィールドがあり、そのメタデータの大部分は同一であるが、ＳＤＴＭマッピングはＦｏｒｍＯＩＤによってのみ決定される。このような場合は、ここで説明するアプローチを使用できるが、各ＥＤＣフィールドを個別に調べるのではなく、全てのフィールドにわたってメタデータを集約し、ＳＤＴＭフィールドではなくＳＤＴＭドメインを対象とする。

【0061】

本発明の態様は、システム、コンピュータプログラム製品、または方法の形態で具体化することができる。同様に、本発明の態様は、ハードウェア、ソフトウェア、またはその両方の組み合わせとして具現化することができる。本発明の態様は、その上に具現化されたコンピュータ可読プログラムコードの形態で１つ以上のコンピュータ可読媒体上に保存されたコンピュータプログラム製品として具現化されてもよい。

【0062】

コンピュータ読み取り可能媒体は、コンピュータ読み取り可能記憶媒体であってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電子式、光学式、磁気式、電磁式、赤外線式、または半導体式のシステム、装置、もしくはデバイス、またはそれらの任意の組み合わせであってもよい。

【0063】

本発明の実施形態におけるコンピュータプログラムコードは、任意の適切なプログラミング言語および／またはスクリプト言語で記述することができる。プログラムコードは、単一のコンピュータ上で実行されてもよいし、複数のコンピュータ上で実行されてもよい。コンピュータは、コンピュータ使用可能媒体と通信する処理ユニットを含んでもよく、コンピュータ使用可能媒体は、命令セットを含み、処理ユニットは、命令セット、および／または訓練された機械学習アルゴリズムを実行するように設計される。

【0064】

以上の議論は、本発明の原理および様々な実施形態を例示するためのものである。上記の開示が十分に理解されれば、多数の変形および修正が当業者に明らかになるであろう。以下の特許請求の範囲は、全てのそのような変形および修正を包含するように解釈されることが意図される。

【図1】