IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ メルク パテント ゲゼルシャフト ミット ベシュレンクテル ハフツングの特許一覧

<>
  • 特表-医薬プロセス 図1
  • 特表-医薬プロセス 図2
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-06-07
(54)【発明の名称】医薬プロセス
(51)【国際特許分類】
   G06F 16/90 20190101AFI20230531BHJP
【FI】
G06F16/90 100
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022565974
(86)(22)【出願日】2021-04-29
(85)【翻訳文提出日】2022-12-27
(86)【国際出願番号】 EP2021061347
(87)【国際公開番号】W WO2021219827
(87)【国際公開日】2021-11-04
(31)【優先権主張番号】102020002607.9
(32)【優先日】2020-04-30
(33)【優先権主張国・地域又は機関】DE
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVASCRIPT
2.Excel
(71)【出願人】
【識別番号】591032596
【氏名又は名称】メルク パテント ゲゼルシャフト ミット ベシュレンクテル ハフツング
【氏名又は名称原語表記】Merck Patent Gesellschaft mit beschraenkter Haftung
【住所又は居所原語表記】Frankfurter Str. 250,D-64293 Darmstadt,Federal Republic of Germany
(74)【代理人】
【識別番号】100102842
【弁理士】
【氏名又は名称】葛和 清司
(72)【発明者】
【氏名】ウェルナー,ヨルク
(72)【発明者】
【氏名】シュラップス,ディーター
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175CA12
5B175EA01
5B175HA01
(57)【要約】
本開示は、古典的な情報システムの障壁を排除するためのコンピュータ実装方法に関し、また、医薬品の規制状況に関連する医薬規制セマンティックモデルを強化するためのデータ統合を合理化および自動化することを目的とした均質なデータ管理システムを開示する。
【特許請求の範囲】
【請求項1】
医薬品の規制状況に関連するセマンティックモデルを強化するための医薬規制セマンティックモデル強化システムであって、以下:
通信ネットワークを介して、複数の公開された医薬規制情報の異種データソースからソースファイルにアクセスするように構成されたデータ準備ユニットと;
コンピュータプロセスモジュールであって:
所定の規制状況ファイル形式に従って、データ準備ユニットを介してアクセスされたソースファイルを選択し;
選択されたソースファイルから少なくとも1つのエンティティを、所定のF1測定値に基づいて、所定のオントロジーマッチングアルゴリズムに従ってマイニングし、ユーザーが入力したクエリとマッチングし;
マイニングされたエンティティと相互接続されたオントロジー関連の規制メタデータを含む少なくとも1つのデータセットを抽出し、
前記抽出されたデータセットをデータストレージユニットに保存し、
抽出されたデータセットを医薬規制セマンティックモデルのもう1つのノードにリンクする、
前記コンピュータプロセスモジュールとを含む、前記システム。
【請求項2】
所定のF1測定値に基づいて、複数の言語で選択されたソースファイルをマイニングし、所定のオントロジーマッチングアルゴリズムに従って、ユーザーが入力したクエリとマッチングするように構成された、コンピュータープロセスモジュールをさらに含む、請求項1に記載のシステム。
【請求項3】
選択されたソースファイルから少なくとも1つのエンティティをマイニングするための少なくとも2つのレイヤーを備え、トレーニングされたオントロジーマッチングアルゴリズムに基づいて、ユーザーが入力したクエリとマッチングする、ニューラルネットワークデバイスをさらに含む、請求項1または2に記載のシステム。
【請求項4】
製品特性の概要(SmPC)または化学および製造管理(CMC)ファイル形式に基づいて、データソースファイルを選択するように構成された、コンピュータプロセスモジュールをさらに含む、請求項1~3のいずれか一項に記載のシステム。
【請求項5】
データ準備ユニットが、複数の公開された医薬規制異種データソースから、通信ネットワークを介して、組織管理サービス(OMS)または参照管理サービス(RMS)に関連するソースファイルにアクセスするように構成される、請求項1~4のいずれか一項に記載のシステム。
【請求項6】
医薬品の規制状況に関連するセマンティックモデルを強化するための医薬規制セマンティックモデル強化方法であって、以下:
通信ネットワークを介して、複数の公開された医薬規制異種データソースからソースファイルにアクセスすること;
アクセスされたデータソースから、所定の規制フォーマットに基づいてデータレコードを選択すること;
選択されたソースファイルから、所定のF1測定値に基づいて、所定のオントロジーマッチングアルゴリズムに従って、少なくとも1つのエンティティをマイニングし、ユーザーが入力したクエリとマッチングすること;
マイニングされたエンティティと相互接続されたオントロジー関連の規制メタデータを含む少なくとも1つのデータセットを抽出し、該抽出されたデータセットをデータ記憶ユニットに記憶すること;
抽出されたデータセットを医薬規制セマンティックモデルのもう1つのノードにリンクすること、
を含む、前記方法。
【請求項7】
所定のF1測定値に基づいて、複数の言語で選択されたソースファイルから少なくとも1つのエンティティをマイニングし、所定のオントロジーマッチングアルゴリズムに従って、ユーザーが入力したクエリとマッチングすることをさらに含む、請求項6に記載の方法。
【請求項8】
選択したソースファイルから少なくとも1つのエンティティをマイニングし、少なくとも2つの層を持つニューラルネットワーク上のトレーニング済みオントロジーマッチングアルゴリズムに基づいて、ユーザーが入力したクエリとマッチングすることをさらに含む、請求項6または7に記載の方法。
【請求項9】
製品特性の概要(SmPC)または化学および製造管理(CMC)ファイル形式に基づいてデータソースファイルを選択することをさらに含む、請求項6~8のいずれか一項に記載の方法。
【請求項10】
通信ネットワークを介して、複数の公開された医薬規制情報異種データソースから、組織管理サービス(OMS)または参照管理サービス(RMS)に関連するソースファイルへのアクセスすることを更に含む、請求項6~9のいずれか一項に記載の方法。
【請求項11】
コンピュータによって実行されると、コンピュータに請求項6~10のいずれか一項に記載の方法のステップを実行させる命令を含む、コンピュータ可読媒体。
【請求項12】
プログラムがコンピュータによって実行されると、コンピュータに請求項6~10のいずれか一項に記載の方法のステップを実行させる命令を含むコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、医薬環境において規制情報またはデータをマイニングするためのシステム、方法、およびコンピュータ可読媒体に関する。具体的には、本開示は、製品の開発および規制承認に関する規制データを管理するための多種多様な構造化または非構造化データリソースの効率的なデータプロセスおよびデータ検索を可能にする。
【背景技術】
【0002】
医薬薬物の承認は、ヘルスケア環境など、製品規制の対象となる市場でますます困難になっている。医薬、バイオテクノロジー、および医療デバイスの企業は、高い製品開発コスト、厳しい競争、および広範な規制に直面している。
【0003】
規制当局の審査と承認を取得するための規則と手順は、規制機関や当局内の担当者と同様に、頻繁に変更される。同時に、企業は規制当局の承認を迅速に取得し、製品をコンプライアンスに準拠させなければならないという大きなプレッシャーにさらされている。
【0004】
今日の製品の多くは、規制当局の承認または許可が必要である。たとえば、医薬やバイオテクノロジー会社は、新しい薬物を販売する前に、米国食品医薬品局(FDA)などの規制当局から承認を得る必要がある。このような企業には、企業とその取引先であるさまざまな規制当局との間のすべての通信を管理するための規制関連の企業部門がある場合がある。
【0005】
規制当局は、品質管理、研究開発、販売およびマーケティングの責任者など、企業内の他の多くのグループや部門とも協力して、規制要件が調整された方法で確実に満たされるようにする必要がある。
【0006】
規制当局が管理しなければならないデータの量は膨大になる可能性がある。実際、企業の規制当局部門は、多くの場合、世界中の多数の規制当局による規制の対象となる多数の製品を担当している。このような製品の規制データの量は、当局とのコミュニケーションが進化し続けるにつれて、毎年指数関数的に増加する可能性がある。さらに、企業や規制当局は通常、当局の検査や事業計画のために、この規制データをすぐに利用できるようにしておくことを要求している。
【0007】
ただし、多くの場合、規制データは企業内のさまざまな場所に分散している。規制当局部門の担当者は、多くの場合、担当する製品に関するデータを追跡するために多数の個別の手動システムを使用する必要がある。さらに、規制データは、特定の製品に関して容易に追跡、アクセス、または参照できないことがよくある。このような環境では、主要な規制活動に関連する集合的な情報を見つけることは複雑で、非常に時間がかかる。
【0008】
データと情報のサイズと複雑さが増大するにつれて、ナレッジマネジメントのニーズも増大している。通常、企業の大小を問わず、構造化された形式よりも非構造化された形式に存在するデータと情報の大きな部分が存在する。分散した異種データおよび情報ソースにわたるデータおよび情報の統合のニーズに対処するために、いくつかの手法が進化し、研究されてきた。
【0009】
さらに、非構造化データを構造化データにリンクする手法がいくつか説明されている。非構造化データを構造化データにリンクする従来のプロセスでは、データのさまざまな部分が静的部分と動的部分に分類される。データの静的部分と動的部分を識別するという側面は、クエリ時間などのさまざまなパフォーマンスメトリックを最適化するのに役立つ。
【0010】
知識とデータの爆発的な増加は、従来の情報管理メカニズムでは管理や記述の能力を超えている。オントロジーなどのセマンティックWeb技術や、OWL(Web Ontology Language)やRDF(Resource Description Framework)などの新しい言語により、リンクされた概念の記述が可能になる。健康、医学、工学など、これまで不可能だった詳細を、人間と機械の両方が理解できる方法で記述する必要がある。これらのオントロジーは通常、対象分野の専門家(オントロジスト)のチームによって作成され、頻繁に公開される。
【0011】
オントロジーの調整の必要性は、異種データベースを統合する必要性から生じる。これらのデータベースは独立して開発され、それぞれが独自のデータ語彙を持っている。独自のオントロジーを提供する多くのアクターが関与するセマンティックWebコンテキストでは、オントロジーマッチングは、異種リソースの相互運用を支援するために重要な位置を占めている。オントロジー整合ツールは、「意味的に同等」なデータのクラス(「トラック」と「ローリー」など)を見つける。クラスは必ずしも論理的に同一ではない。
【0012】
また、医薬規制プロセスに関連するデータのオントロジー割り当ての欠如は、シームレスなデータ統合が達成されず、結果としてデータの品質が大幅に低下するというリスクがある。したがって、関連する構造化または非構造化医薬データを異なるソースコンテキストから取得することは、データ分析ツールの課題である。したがって、セマンティックモデルを充実させるために、構造化データまたは非構造化データの効率的な検索を可能にするシステムおよび方法があれば有利である。
【0013】
したがって、医薬業界における規制データの統合を効率的に管理できるシステム、方法が必要である。
さらに、たとえば、地域、特定の製品または製品群、製造現場、規制などに関して、追跡可能な方法で取得できるように、医薬業界の規制データを管理できるシステムと方法が必要である。本開示は、先行技術に見られる上記の特定された制限を克服する。
【0014】
本開示の技法は、オントロジーマッチングアルゴリズムに基づいてデータをマイニングするために使用され得る。これらのマイニングされたデータに関連付けられた強化された注釈とメタデータは、強化されたセマティックモデルを分析するための人工知能(AI)および機械学習(ML)アルゴリズムを組み込んだデータ分析ツールを強化するために使用できる。
【0015】
本開示の実施形態は、構造化および非構造化テキストデータソースの自動統合の方法、システム、およびコンピュータプログラムを対象とする。
本開示は、多様なフォーマットを有するテンプレートから構造化された機械可読コンテキストデータを確実に抽出する方法を提供する。さらに、本開示は、用語強化のためのニューラルネットワークおよび機械学習アプローチで使用されるセマンティックモデルを強化するためにドメイン固有データを抽出するための方法および装置に関する。
【0016】
医薬規制プロセスに関連するテキストデータのマイニングを改善するために制御された語彙を使用するための方法および装置も提供される。本開示の方法は、既存の制御語彙および/またはオントロジーと組み合わせることができる。さらに、コンピュータによって実行されると、本開示の方法を実行するプログラムを含むコンピュータ可読媒体が提供される。
【0017】
本開示は、上記で対処された技術的問題および/または上記で対処されていない他の技術的問題に対処することができる。
本開示の方法は、たとえば、他の規制、ガイダンス、および規制プロセスにリンクする連邦規制コード(21CFR)の一部であるタイトル21の検索可能なリソースの構築に使用できる。
【0018】
本開示の方法は、単独で、または、たとえば、限定されず、Unstructured Information Management Architecture(UIMA)Apache Solr NLPアルゴリズムなど、非構造化情報管理のための既知のアルゴリズムと組み合わせて使用することができる。本開示の方法の使用事例は、例えば、HL7(Health Leven Seven)構造化製品ラベル(SPL)の薬物ラベルから薬物副作用(ADR)に関連する情報を抽出することであり得る。
【0019】
追加の態様は、一部は以下の説明に記載され、一部は説明から明らかになるか、または提示された例示的な実施形態の実践によって学習され得る。
【0020】
本開示の例示的な実施形態の一態様によれば、医薬品の規制状況に関連する医薬セマンティックモデルを強化するための医薬規制セマンティックモデル強化システムであって、以下:
通信ネットワークを介して、複数の公開された医薬規制情報の異種データソースからソースファイルにアクセスするように構成されたデータ準備ユニットと;
コンピュータプロセスモジュールであって:
所定の規制状況ファイル形式に従って、データ準備ユニットを介してアクセスされたソースファイルを選択し;
選択されたソースファイルから少なくとも1つのエンティティを、所定のF1測定値に基づいて、所定のオントロジーマッチングアルゴリズムに従ってマイニングし、ユーザーが入力したクエリとマッチングし;
マイニングされたエンティティと関連して相互接続されたオントロジー関連の規制メタデータを含む少なくとも1つのデータセットを抽出し、
前記抽出されたデータセットをデータストレージユニットに保存し、
抽出されたデータセットを医薬規制セマンティックモデルのもう1以上のノードにリンクする、
前記コンピュータプロセスモジュールとを含む、前記システムが提供される。
【0021】
本開示の別の例示的な実施形態によれば、医薬品規制セマンティックモデル強化システムは、所定のF1測定値に基づいて、複数の言語で選択されたソースファイルをマイニングし、所定のオントロジーマッチングアルゴリズムに従って、ユーザーが入力したクエリとマッチングするように構成された、コンピュータープロセスモジュールをさらに含む。
【0022】
本開示の別の例示的な実施形態によれば、医薬品規制セマンティックモデル強化システムは、選択されたソースファイルから少なくとも1つのエンティティをマイニングするための少なくとも2つのレイヤーを備え、トレーニングされたオントロジーマッチングアルゴリズムに基づいて、ユーザーが入力したクエリとマッチングする、ニューラルネットワークデバイスをさらに含む。
【0023】
本開示の別の例示的な実施形態によれば、医薬品規制セマンティックモデル強化システムは、製品特性の概要(SmPC)または化学および製造管理(CMC)ファイル形式に基づいて、データソースファイルを選択するように構成された、コンピュータプロセスモジュールをさらに含む。
【0024】
本開示の別の例示的な実施形態によれば、医薬品規制セマンティックモデル強化システムは、データ準備ユニットが、複数の公開された医薬規制異種データソースから、通信ネットワークを介して、組織管理サービス(OMS)または参照管理サービス(RMS)に関連するソースファイルにアクセスするように構成される。
【0025】
本開示の別の例示的な実施形態によれば、医薬品の規制状況に関連する医薬セマンティックモデルを強化するための医薬規制セマンティックモデル強化方法であって、以下:通信ネットワークを介して、複数の公開された医薬規制異種データソースからソースファイルにアクセスすること;アクセスされたデータソースから、所定の規制フォーマットに基づいてデータレコードを選択すること;選択されたソースファイルから、所定のF1測定値に基づいて、所定のオントロジーマッチングアルゴリズムに従って、少なくとも1つのエンティティをマイニングし、ユーザーが入力したクエリとマッチングすること;マイニングされたエンティティと関連して相互接続されたオントロジー関連の規制メタデータを含む少なくとも1つのデータセットを抽出し、該抽出されたデータセットをデータ記憶ユニットに記憶すること;および抽出されたデータセットを医薬規制セマンティックモデルのもう1つのノードにリンクすること、を含む、前記方法。
【0026】
本開示の別の例示的な実施形態によれば、医薬規制セマンティックモデル強化方法は、所定のF1測定値に基づいて、複数の言語で選択されたソースファイルから少なくとも1つのエンティティをマイニングし、所定のオントロジーマッチングアルゴリズムに従って、ユーザーが入力したクエリとマッチングすることをさらに含む。
【0027】
本開示の別の例示的な実施形態によれば、医薬規制セマンティックモデル強化方法は、選択したソースファイルから少なくとも1つのエンティティをマイニングし、少なくとも2つの層を持つニューラルネットワーク上のトレーニング済みオントロジーマッチングアルゴリズムに基づいて、ユーザーが入力したクエリとマッチングすることをさらに含む。
【0028】
本開示の別の例示的な実施形態によれば、医薬規制セマンティックモデル強化方法は、製品特性の概要(SmPC)または化学および製造管理(CMC)ファイル形式に基づいてデータソースファイルを選択することをさらに含む。
【0029】
本開示の別の例示的な実施形態によれば、医薬規制セマンティックモデル強化方法は、データ準備ユニットが、複数の公開された医薬規制異種データソースから、通信ネットワークを介して、組織管理サービス(OMS)または参照管理サービス(RMS)に関連するソースファイルにアクセスするように構成される。
【0030】
特定の利点が上に列挙されたが、様々な実施形態は、列挙された利点の一部、またはすべてを含まなくてもよい。
【0031】
他の技術的利点は、以下の図および説明を検討した後、当業者には容易に明らかになるであろう。
最初に、例示的な実施形態が図に示され、以下に説明されるが、本開示の原理は、現在知られているかどうかにかかわらず、任意の数の技法を使用して実装され得ることが理解されるべきである。本開示は、図面に示され、以下に説明される例示的な実装および技術に決して限定されるべきではない。
【0032】
本開示の範囲から逸脱することなく、本明細書に記載のシステムおよび方法に対して変更、追加、または省略を行うことができる。例えば、システムおよび方法の構成要素は、統合または分離することができる。さらに、本明細書で開示されるシステムおよび方法の動作は、より多い、より少ない、または他の構成要素によって実行されてもよく、説明される方法は、より多い、より少ない、または他のステップを含んでもよい。さらに、ステップは、任意の適切な順序で実行することができる。この書類で使用されている「各」は、セットの各メンバーまたはセットのサブセットの各メンバーを指す。
【図面の簡単な説明】
【0033】
これらおよび/または他の態様は、添付の図面と併せて解釈される、例示的な実施形態の以下の説明から明らかになり、より容易に理解されるであろう。
図1図1は、例示的な実施形態による医薬規制セマンティックモデル強化システム(SMES)を示す概念図である。
図2図2は、例示的な実施形態による医薬品規制セマンティックモデル強化システム(SMES)によって実行される計算ステップを説明するための図である。
【発明を実施するための形態】
【0034】
ここで、例示的な実施形態を詳細に参照するが、その例は添付の図面に示されており、同様の参照番号は全体を通して同様の要素を指す。この点に関して、本例示的実施形態は、異なる形態を有することができ、本明細書に記載の説明に限定されると解釈されるべきではない。
【0035】
したがって、例示的な実施形態は、態様を説明するために、図面を参照することによって単に以下に記載される。本明細書で使用される場合、「および/または」という用語は、関連するリスト項目の1つまたは複数の任意およびすべての組み合わせを含む。要素のリストの前にある「少なくとも1つの」などの表現は、要素のリスト全体を変更し、リストの個々の要素を変更しない。
【0036】
本明細書全体で使用される「いくつかの例示的な実施形態による」または「例示的な実施形態による」という用語は、必ずしも同じ例示的な実施形態を示すわけではない。
【0037】
本開示のいくつかの例示的な実施形態は、機能ブロック構成および様々なプロセス動作によって表すことができる。これらの機能ブロックの一部またはすべては、特定の機能を実行するさまざまな数のハードウェアおよび/またはソフトウェア構成要素を使用して実装することができる。
【0038】
例えば、本開示の機能ブロックは、所与の機能のための1つまたは複数のマイクロプロセッサまたは回路を使用して実装され得る。また、例えば、本開示の機能ブロックは、様々なプログラミング言語またはスクリプト言語で実装され得る。
【0039】
機能ブロックは、1つまたは複数のプロセッサで実行されるアルゴリズムで実装できる。本開示はまた、電子構成、信号プロセス、および/またはデータプロセスのための従来の技術を使用することができる。「機構」、「要素」、「ユニット」、および「構成」という用語は、広い意味で使用することができ、機械的および物理的な構成に限定されない。ハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実装することができる。
【0040】
また、図面に示された構成要素間の接続ラインまたは接続部材は、機能的接続および/または物理的接続または回路接続を単に例示するものである。実際のデバイスでは、構成要素間の接続は、置換または追加されるさまざまな機能接続、物理接続、または回路接続によって表される。
【0041】
一方、本明細書で使用される用語に関して、テンプレートは、異なるファイル拡張子を有する任意の実行可能または非実行可能ファイル形式を指すことができる。テンプレートはまた、ウェブページやスキャン画像などの物理的または仮想文書の画像表現、または化学構造に関するデジタル化された情報を取得できるその他の仮想エンティティを指すこともある。
【0042】
テンプレートの画像表現は、物理文書または仮想文書の完全な部分セクションを含むことができる。テンプレートは、製品特性の概要(SmPC)または化学、製造、および管理(CMC)規制当局(RA)などの規制ガイドラインと互換性のある標準交換ファイル形式を含むこともできるが、これらに限定されない。
【0043】
さらに、オントロジーは、薬事規制プロセスを記述する語彙および語彙で使用される用語の意味の仕様を参照する場合がある。例えば、オントロジーは、SmPCまたは化学、製造および制御(CMC)モジュール3の情報を記述するために使用される記述子を含むことができるが、これに限定されない。
【0044】
これには、例えば、医薬品の名前、質的および量的組成、剤型、薬量学および投与方法、禁忌、過剰摂取、望ましくない影響などの臨床的詳細、薬理学的特性、例えば薬力学的または薬物動態学的特性、または例えば、貯蔵寿命、容器の性質および内容物などの薬学的詳細を含むことが出来る。
【0045】
さらに、異種データソースは、構造化、半構造化、および非構造化データソースの両方を含むデータソースを指す場合があるが、これらに限定されない。構造化データは、事前定義されたデータモデルに準拠しているため、簡単に分析できるデータである。構造化データは、さまざまな行と列の間の関係を持つ表形式に準拠している。構造化データの一般的な例は、ExcelファイルまたはSQLデータベースである。
【0046】
これらのそれぞれには、ソート可能な構造化された行と列がある。非構造化データとは、事前定義されたデータモデルがないか、事前定義された方法で編成されていない情報である。構造化されていない情報は通常、テキストが多く含まれるが、日付、数値、事実などのデータも含まれる場合がある。これにより、構造化データベースに保存されたデータと比較して、従来のプログラムを使用して理解することを困難にする不規則性とあいまいさが生じる。非構造化データの一般的な例には、オーディオ、ビデオファイル、またはNo-SQLデータベースが含まれる。
【0047】
半構造化データは、リレーショナルデータベースまたは他の形式のデータテーブルに関連付けられたデータモデルの正式な構造に準拠しない構造化データの形式であるが、セマンティック要素を分離し、データ内のレコードとフィールドの階層を強化するためのタグまたはその他のマーカーが含まれている。メタデータは、データに関するデータである。これは個別のデータ構造ではなく、上記のカテゴリの特定のデータセットに関する追加情報を提供する。
【0048】
さらに、マイニングは、パターンを発見するために大量のデータを分析したり、パラメーター値または属性に基づいて大量のデータからデータを選択したりすることを指す場合がある。また、大規模なデータセットからより洗練されたデータセットを取得しようとするプロセスである場合もある。
【0049】
さらに、「意味する」という用語は、特定のオントロジー用語、コンテンツフィールド名などの意味解釈を指すことを意図している。したがって、意味という用語は、オントロジー用語またはコンテンツフィールドの意図された意味を包含し、例えば、以下でより詳細に説明するように、同音異義語、同義語、類義語などの問題を説明する。
【0050】
さらに、マッチングという用語は、オントロジーマッチングを指す場合がある。技術的には、オントロジーマッチングアルゴリズムを使用して、ユーザーが入力したクエリとマイニングされたエンティティなど、2つのオントロジー間のセマンティックマッピングである。エンティティという用語は、ユーザが入力したクエリに基づいて意味的にマッピングされたオントロジーを指す場合がある。
【0051】
さらに、リンクという用語は、セマティックモデルと、マイニングされたエンティティに関連付けられたメタデータとの間のリンクの作成を指す場合がある。既存の知識の再利用を可能にするリンクデータパラダイムを作成する。リンクデータ規格は、メタデータのResource Description Framework(RDF)などのメタデータに適用できる。したがって、既存の語彙を活用することによるリンクデータは、既存のセマンティックモデルを強化するために使用できる。
【0052】
以下の説明全体にわたる説明の目的で、「ソース」という用語は、データが抽出されるデータベースやファイルなどのデータストアを指すために使用される一方で、「ターゲット」という用語は、データが保存されるデータベースやファイルなどのデータストアを指すために使用される。これらの用語は、例として考えられるソースとターゲットを区別するためのものであり、限定することを意図したものではない。
【0053】
「コンテンツインスタンス」という用語は、ソースから抽出されている、および/またはターゲットに転送されているコンテンツの個々の部分を指し、限定することも意図していない。たとえば、コンテンツインスタンスという用語は、多数の異なるデータベースフィールドに格納された値を持つデータベースレコード、または関連するデータベースレコードのセットを指す場合もあれば、単一のフィールド内に格納される単一の値を指す場合もある。
【0054】
さらに、ドメインは、たとえば、限定されず、製品特性の概要(SmPC)または化学、製造、および管理(CMC)規制当局(RA)などの規制プロセスに関連するガイドラインの階層的な分類を参照できる。さらに、ルールセットは、オントロジーの意味的に関連するエンティティ間の対応を見つけることによって、一致するオントロジーをマッチングすることができる。これにより、同じドメインの異なる重複表現間のセマンティックギャップが減少する。
【0055】
これらの通信は、オントロジーのマージ、クエリ応答、データ変換などのさまざまなタスクに使用できる。したがって、オントロジーをマッチングさせることにより、マッチングオントロジーに関して表現された知識およびデータを相互運用することが可能になる。本開示の方法は、例えば、限定されず、公式または非公式のリソースベース、文字列ベース、言語ベース、制約ベース、分類法ベース、ドラフトベース、インスタンスベース、またはモデルベースなど、任意の既知のオントロジーマッチングアルゴリズムと共に使用することができる
【0056】
さらに、人工ニューラルネットワーク(ANN)は、入力データを出力データに変換するための情報を含む、完全にまたは部分的に接続されたユニットの集まりを指す場合がある。
さらに、例えば、限定されず、サポートベクターマシン(SVM)、K最近傍(KNN)、デシジョンツリー(DT)、アダブーストなど、機械学習(ML)は、技術を使用した分類器を使用したMLベースのオントロジーアラインメントシステムを指す場合がある。
【0057】
さらに、メトリック尺度は、オントロジーベースの情報抽出を評価するためのメトリックを指す場合がある。本開示は、たとえば、限定されず、コストベースの評価メトリクス、学習精度は、オントロジーがどれだけうまく入力されているかを測定する学習精度、拡張された精度と再現率のメトリクス、または精度と再現率のメトリクスを使用するF1計測など、異なるタイプの測定基準と組み合わせることができる。
【0058】
精度は、正しく識別されたアイテムの数を識別されたアイテムの数のパーセンテージとして測定し、再現率は、正しく識別されたアイテムの数を正しいアイテムの総数のパーセンテージとして測定する。
【0059】
また、構造化データとは、元のデータの一部をグループ化するために元のデータにメタデータとして追加された、あらゆる種類の情報を含むデータを指し、結果の情報の自動ダウンストリームプロセスを容易にする。
【0060】
以下、添付図面を参照して本開示の好適な実施形態について詳細に説明する。
公開された医薬規制データベースなどの外部データベースから医薬規制セマンティックモデルを強化するためのプロセスの例を、図1を参照して説明する。
【0061】
図1は、医薬規制セマンティックモデル強化システム(SMES)10の例を示す例示的なプロセスを示す。SMES10は、ネットワークインターフェース(図示せず)、データ準備ユニット(DP)15、データ記憶ユニット(DI)16、コンピュータプロセスモジュール17、データキュレータおよびインテグレータユニット(DC)(図示せず)、ユーザーインターフェース(図示せず)、および規制プロセスのセマンティックモデル19を含む。
【0062】
医薬規制セマンティックモデル強化システム(SMES)10は、ネットワークインターフェース14を介して、外部データベース12、クラウドベースのサービス13、ウェブリソース11などの外部データソースと接続される。
【0063】
SMES10は、直感的なユーザインターフェース(UI)(図1には示されていない)を通じて制御され、それによってユーザは、クエリを作成して提出する;見つかった情報をレビューする;レポートの設定を選択する;およびレポートを出力(例:印刷)する。ユーザは、割り当てられたユーザパスワードおよび識別子を介してSMES10へのアクセスを要求すると、セキュリティシステムによって識別され、そのアクセスが認証される。
【0064】
識別子は、ユーザーのアクセスレベルと、ユーザーがアクセス許可を持つ情報の種類を定義する。例えば、ユーザは、医療デバイスに関する規制情報へのアクセスのみに関心がある場合がある。そのため、他の規制情報カテゴリ(医薬品や環境への危険性など)にはアクセスできない。
【0065】
SMES10は、それぞれが異なる情報タイプ(例えば、異なるファイル、各ファイルの異なるレコード、各レコード内の異なるフィールドなど)を有する複数の異種情報ソースからソースファイルにアクセスすることができる。いくつかの種類の情報は、公開ウェブサイト11から抽出され、この情報は、ウェブページのテキスト内またはダウンロード可能なファイル内に存在する場合がある。
【0066】
たとえば、欧州医薬品庁(EMA)は、初期の開発から初期の評価、承認後の変更、安全性レビュー、承認の取り消しまで、ライフサイクルのさまざまな段階におけるヒトまたは動物用医薬品(医薬品)に関する情報を公開している。
【0067】
また例として、医療デバイスの有害事象報告は通常、データベースにインポートしてMedDRA(規制活動の医療辞書)から入手できるダウンロード可能なファイルに含まれている。
【0068】
アクセスされる各データソースには、データを表示するための独自の特性とスタイルがある。このように、各ソースからのデータには、データ準備ユニットDP15内で変換するための一連の定義済みルールと方式がある。アクセスされたデータレコードの各情報タイプは、電子データベースへのインポートに適した一貫したデジタル形式に変換できる。
【0069】
たとえば、取得されたデータは、ポータブルデータ形式(.PDF)またはタブ区切りのテキスト形式である場合がある。Webページに公開された表が抽出され、指定されたデータフィールドに分割され、スプレッドシートまたはタブ区切りのテキストに変換される。アクセスされたデータレコードの適切な変換は、データ抽出ステップの前に完了する。
【0070】
複数のソースからのデータの連結と統合を可能にするために、データの不一致についてデータ準備ユニットDP15によってデータ修正も行われる。情報源から取得したデータセットにエラーが存在する場合がある。たとえば、薬物臨床試験の臨床研究者向けのデータリストには、「YYY」のシーケンスで始まる複数のリストが含まれる場合がある。
【0071】
このデータが修正されていない場合、「Manuel Schmidt」を検索しても、「Manuel YYYSchmidt」のレコードは認識されない。1つまたは複数の所定のフィルタなど、そのようなエラーを識別し、それらを修正するための手段は、ソフトウェアおよび/またはハードウェアによって提供することができる。新しい不一致が発見されると、システムおよび方法は、不一致が特定されたときにそれを特定して修正するために、1つまたは複数の所定のフィルタを追加、変更、または削除することができる。
【0072】
時間が経つにつれて、情報源は情報の収集および/または報告の方法を変更する可能性がある。たとえば、情報源は、頻繁に使用される情報(有害事象の報告や施設の登録など)を、Webインターフェイスを介して検索可能な形式に変換することが増えている。SMES10は、データアクセス頻度を適切に調整するために発生する変化を検出する内部チェックを含む。
【0073】
用語の不一致は、異種の情報ソース(異種のデータソースなど)間で発生する可能性が高く、これは、各データソースが他のデータソースとは異なる特定の用途を念頭に置いて作成されていることが原因である可能性がある。これらのデータは、データのキュレーションと統合18の前に正規化する必要がある。規制要件が変更されると、情報のスキーム全体が変更される可能性がある。SMES10は、これらの変化を検出して補償する。
【0074】
コンピュータプロセスモジュール17は、ユーザの入力または入力されたクエリのリストに基づいて、アクセスされたデータソースに対してオントロジーマッチングを実行することによってエンティティをマイニングする。この戻り値は、アクセスされたデータソースからオントロジーにマッチングするデータレコードを返す場合がある。代替として、アクセスされたデータソースのマッチングしたデータレコードからのデータセットも、本開示の医薬規制セマンティックモデル強化システム(SMES)10によって抽出することができる。
【0075】
本例によるコンピュータプロセスモジュール17は、アクセスされたデータレコードの要素とそのメタデータ要素との間の関係を考慮して、オントロジーマッチングの範囲を拡張することによってセマンティックマッチングを可能にする。
【0076】
コンピュータプロセスモジュール17は、検索結果の範囲を、表、チャート、レポート、図、フィルタリングされたチャート/表、および同様の要素を含むスプレッドシート文書などの規制状況文書に拡張しようと試みることができる。
【0077】
これらの要素の一部は、スプレッドシートドキュメントに関連付けられたスプレッドシートアプリケーション以外のアプリケーションによって生成され、スプレッドシートドキュメントに静的または動的に埋め込まれている場合がある(つまり、外部ソースに存在する要素データ)。
【0078】
アクセスされたデータソースのスプレッドシートドキュメントの例には、テキストレポート、表、グラフ、およびビデオデータ(プレゼンテーション)が含まれる場合がある。テキストレポートには、個々の非テキスト要素へのリンクが含まれている。さらに、テーブルとチャートを関連付けることができる(たとえば、テーブル内のデータの一部をチャートに表示することができる)。他の関係も可能である。
【0079】
コンピュータプロセスモジュール17は、規制状況関連情報の詳細を含むメタデータを抽出することができる。たとえば、アクセスされたデータレコード内のスプレッドシートドキュメントには、複数のシートフィルタリングテーブルが含まれる場合がある。各フィルタリングテーブルには、さまざまなフィルタを含めることができる。スプレッドシート文書は、スプレッドシート文書に格納されたデータおよび/または外部リソース(例えば、別のスプレッドシート文書、データストアなど)に格納されたデータに基づく図および/またはチャートをさらに含むことができる。
【0080】
チャートおよび/またはダイアグラムは、フィルタリングテーブル内の1つまたは複数のフィルタに従ってデータをフィルタリングすることに基づいて生成され得る。したがって、スプレッドシートドキュメント内の要素は、利用可能なデータの全範囲を反映していない場合がある。さらに、要素間の関係(たとえば、テーブルとチャート、ビデオデータとテーブルなど)は、ユーザーが取得したデータの重要性または関連性を判断し、検索クライアントのユーザーインターフェイスと結果表示を動的に駆動する際に役立つ。
【0081】
スプレッドシートドキュメント内のデータは制限される場合があるため(たとえば、外部データソースで利用可能なデータからフィルタリングされる)、コンピュータプロセスモジュール17は、データソースから追加情報を取得して、検索結果を充実させることができる。たとえば、適用されたフィルターメンバー以外の追加のディメンションメンバーをデータソースのデータから取得できる。
【0082】
格納されたデータのディメンション、階層、およびメジャー情報も取得できる。したがって、詳細なメタデータとデータセットを構造的かつ意味のある方法で抽出し、検索結果を規制状況関連のドキュメントに絞り込み、レンダリングアプリケーションの結果コンテンツ表示のバリエーションを動的に駆動するために使用できる。
【0083】
この例はリレーショナルデータベースからのデータレコードの選択に固有のものであるが、同様の概念を他のデータ構造または非構造化データソースに適用できること、およびこの例は説明のみを目的としており、制限することを意図しない。
【0084】
抽出されたデータレコードおよび/またはデータセットは、さらなるプロセスおよびその後の使用のために、ローカルデータストレージユニット16に格納することができる。
コンピュータプロセスモジュール17の出力は、データキュレータおよびインテグレータユニット(DC)に入力される。
【0085】
DCは、関連付けられたメタデータを含む抽出されたデータレコードまたはデータセットの品質チェックを実行し、抽出された情報を医薬規制セマンティックモデルの1つまたは複数のノードに意味的にリンクする。したがって、医薬規制セマンティックモデルが強化される。
次に、オントロジーマッチングアルゴリズムを使用してコンピュータプロセスモジュール17によって実行されるF値に基づく抽出の例について説明する。
【0086】
Fスコアは、アルゴリズムの忠実度の尺度であり、オントロジー比較アルゴリズムの精度と再現率に基づいて計算できる。精度は正確さまたは忠実度の尺度であり、再現率は完全性の尺度である。精度と再現率は、概念文字列の関連付けの真陽性(tp)、真陰性(tn)、偽陽性(fp)、および偽陰性(fn)に基づくことができる。
精度は、次の式:精度=tp/(tp+fp)に基づくことができる。
正確さは、次の式:正確さ=tp/(tp+fn)に基づくことができる。
上記の実施形態では、F1スコア値が1.0に近いほど、精度および再現率の両方の程度が高くなる。
次の式:F1スコア値=2*(精度*再現率)/(精度+再現率)を使用して、F1スコア値を計算できる。
【0087】
医薬品規制セマンティックモデル強化システム(SMES)は、制御された語彙を使用してマイニングを実行し、ソースファイル内のエンティティは、0.95~1のF1スコアに基づいてマイニングされる。
図2は、医薬品の規制状況に関連する医薬規制セマンティックモデルを強化するための例示的な方法ステップを示す。
【0088】
ステップS201において、データ準備ユニット15は、通信ネットワークを介して、公開された複数の医薬品規制情報の異種データソースからソースファイルにアクセスする。データには、外部データベース12、クラウドベースのサービス13、Webリソース11などのさまざまなソースからアクセスできる。データベース接続を介してデータにアクセスできる。これにより、医薬品規制セマンティックモデル強化システム(SMES)がデータベースサーバーソフトウェアと通信できるようになる。
【0089】
アプリケーションドライバは、データベースまたはクラウドサービスなどに接続するために必要な情報が、接続を確立する前にユーザに認証を求めるSMESに含まれるSMESで使用できる。あるいは、インスタンスマージモジュールを使用して、接続を確立するインスタンス環境を作成することもできる。SMESは、ウェブを介してデータサーバにアクセスするためのソケットなどを含むことができる。
【0090】
ステップS202において、コンピュータプロセスモジュール17は、所定の規制状況ファイル形式に従ってソースファイルを選択する。これは、データソースにフィルターを作成することで実行できる。これにより、データソースで使用可能なデータから選択するデータの量を減らすことができる。たとえば、Angular や ReactJS などのフレームワークを備えた Javascript/jQuery Grid を使用して、所定の規制状況ファイル形式に準拠するソースファイルを選択できる。
【0091】
ステップS203において、オントロジーマッチングアルゴリズムは、所定のF1測定値に基づいて、ユーザ入力クエリとマッチングするエンティティをマイニングする。通常、F1測定値はできるだけ1に近くなるように選択される。例えば、公式または非公式のリソースベース、文字列ベース、言語ベース、制約ベース、分類法ベース、ドラフトベース、インスタンスベース、モデルベースなどのオントロジーマッチングアルゴリズムを使用することができるが、これらに限定されない。
【0092】
ステップS204において、コンピュータプロセスモジュール17は、マイニングされたエンティティに関連するメタデータを含むデータセットを抽出する。これは、ドキュメントの解析やトークン化などのWebスクレイピングツールまたは手法を使用して実装できる。あるいは、Named Entity Recognitionなどの技術を使用して、テキストから薬物の内容、投与量、疾患などの重要な名前を識別することもできる。ステップ204において、SMESは、Named Entity Recognitionのためにトレーニングベースの方法/地名索引および文法ベースのいずれかを使用することができる。
【0093】
また、条件付きランダムフィールドや隠れマルコフモデルなどのシーケンスラベル付け方法を、トレーニングベースのアプローチに使用することもできる。セマンティックパーシングは、テキスト内のさまざまな構文およびセマンティックな側面を分析し、非構造化データに存在するさまざまな単語を接続するために使用できる。このステップは、SMES10と組み合わせたスタンドアロンのデータ抽出ツールでも実装できることは、当業者には明らかであろう。
【0094】
ステップS205a(図示せず)では、抽出されたデータセットを再利用のためにローカルに格納することができる。あるいは、抽出されたデータセットは、医薬品の規制状況に関連する医薬規制セマンティックモデルを強化するためのメタデータを含むデータセットをリンクするために直接使用されてもよい。
【0095】
ステップS205において、本開示によるシステムは、メタデータを含む抽出されたデータセットをリンクして、医薬品の規制状況に関連する医薬品規制セマンティックモデルを充実させる。これは、セマティックモデルと、マイニングされたエンティティに関連付けられたメタデータとの間のリンクを作成することによって実装できる。リンクデータ規格は、メタデータのResource Description Framework(RDF)などのメタデータに適用できる。リンクは、HTMLアンカーを使用して確立できる。
【0096】
本開示による医薬規制セマンティックモデル強化システム(SMES)の例は、言語認識オントロジーマッチングであり得る。オントロジーマッチングの一種としての言語対応または多言語マッチング。医薬規制セマンティックモデル強化システム(SMES)は、複数の言語で表現されたオントロジーをマッチングできる。
【0097】
本開示のこの例による医薬規制セマンティックモデル強化システムは、背景知識の主な情報源としての拡張可能な多言語知識ベースと、新しい言語に拡張可能な多言語ラベルプロセッサとを備える。
【0098】
背景知識は、サポートされている各言語の語彙データベース(つまり、ワードネット)を含む知識ベースであり、言語に依存しない概念のオントロジーであり、インターリングアとして機能する。ラベルプロセスは、言語対応のラベル解析ステップで構成されている。ラベル解析は、軽量オントロジーラベルの言語に最適化された多言語の自然言語プロセスタスクであり、言語固有のNLP構成要素によって拡張可能である。
【0099】
ラベルの解析は、次のサブステップ:(a)各入力ツリーの言語を明示的にする言語検出、および、部分的に一般化され、サポートされている各言語に部分的に適合された構文NLP手法を使用したラベルを解析する式構造の計算、ラベル内の意味のある単語を言語に依存しない概念として形式化する原子概念の計算で構成されている。
【0100】
したがって、多言語のソースファイルをマイニングして、医薬規制のセマンティックモデルを強化することができる。
本開示の別の例によれば、医薬規制セマンティックモデル強化システム(SMES)は、教師ありまたは教師なし機械学習デバイスを含み得る。
【0101】
機械学習デバイスは、(i)学習またはトレーニングフェーズと(ii)分類またはマッチングフェーズの2つのフェーズで動作する。学習段階では、システムがこのデータからマッチャー(トレーニング済みのオントロジーマッチングアルゴリズム)を学習するように、たとえば、2つのオントロジーを手動でマッチングすることによって、学習プロセス用のトレーニングが作成される。
【0102】
マッチングフェーズの分類では、学習したオントロジーマッチングアルゴリズムを使用して、外部ソースファイルから関連するメタデータをマイニングする。マイニングされたデータセットの精度は、さらなる改善のためにシステムにフィードバックされる。
したがって、セマンティックモデルが強化される。
【0103】
また、前述の例は、コンピュータによって実行されるプログラムモジュールなど、コンピュータによって実行可能な命令を含む記録媒体の形態で具現化されてもよい。コンピュータ可読媒体は、コンピュータによってアクセスされ得る任意の記録媒体であり得、揮発性および不揮発性媒体、ならびにリムーバブルおよび非リムーバブル媒体を含み得る。
【0104】
コンピュータ可読媒体は、1以上のプロセッサによって実行されると、1以上のプロセッサに、本明細書で説明する例示的な実施形態に関連する動作を実行させる1以上の命令を格納する非一時的なコンピュータ可読媒体を含むことができる。
【0105】
また、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を格納するために任意の方法または技術を使用して実装される揮発性および不揮発性、取り外し可能および取り外し不可能な媒体を含む。
【0106】
通信媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または変調データ信号内の他のデータ、または他のトランスポートメカニズムを含み、任意の配信媒体を含む。
さらに、明細書全体を通して、「システム」という用語は、マイクロプロセッサまたは回路などのハードウェア構成要素、および/またはFGPAなどのハードウェア構成要素によって実行されるソフトウェア構成要素であり得る。
【0107】
本開示の上記の説明は、例示を目的として提供されたものであり、本開示の技術的概念および本質的な特徴を変更することなく、様々な変更および修正を行うことができることを当業者は理解すべきである。
【0108】
したがって、上述した例示的な実施形態は、すべての点で例示であって、本開示を限定するものではないことは明らかである。例えば、単一のタイプであると説明された各構成要素は、分散方式で実装され得る。同様に、分散されると説明された構成要素は、組み合わされた方法で実装されてもよい。
【0109】
本明細書に記載される例示的な実施形態は、説明的な意味でのみ考慮されるべきであり、限定を目的として考慮されるべきではないことを理解されたい。各例示的実施形態内の特徴または態様の説明は、通常、他の例示的実施形態における他の同様の特徴または態様に利用可能であると見なされるべきである。
【0110】
図面を参照して1つまたは複数の例示的な実施形態を説明してきたが、添付の特許請求の範囲によって定義される精神および範囲から逸脱することなく、形態および詳細にさまざまな変更を加えることができることは、当業者には理解されるであろう。
図1
図2
【国際調査報告】