IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ブリストル−マイヤーズ スクイブ カンパニーの特許一覧

特表2023-553121分野特有の自然言語処理モデルを使用した文書の分類
<>
  • 特表-分野特有の自然言語処理モデルを使用した文書の分類 図1
  • 特表-分野特有の自然言語処理モデルを使用した文書の分類 図2
  • 特表-分野特有の自然言語処理モデルを使用した文書の分類 図3
  • 特表-分野特有の自然言語処理モデルを使用した文書の分類 図4
  • 特表-分野特有の自然言語処理モデルを使用した文書の分類 図5
  • 特表-分野特有の自然言語処理モデルを使用した文書の分類 図6
  • 特表-分野特有の自然言語処理モデルを使用した文書の分類 図7
  • 特表-分野特有の自然言語処理モデルを使用した文書の分類 図8
  • 特表-分野特有の自然言語処理モデルを使用した文書の分類 図9
  • 特表-分野特有の自然言語処理モデルを使用した文書の分類 図10
  • 特表-分野特有の自然言語処理モデルを使用した文書の分類 図11
  • 特表-分野特有の自然言語処理モデルを使用した文書の分類 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-12-20
(54)【発明の名称】分野特有の自然言語処理モデルを使用した文書の分類
(51)【国際特許分類】
   G06F 16/35 20190101AFI20231213BHJP
   G06V 30/418 20220101ALI20231213BHJP
   G06V 10/70 20220101ALI20231213BHJP
   G06T 7/00 20170101ALI20231213BHJP
   G06F 40/279 20200101ALI20231213BHJP
【FI】
G06F16/35
G06V30/418
G06V10/70
G06T7/00 350B
G06F40/279
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023535028
(86)(22)【出願日】2021-12-09
(85)【翻訳文提出日】2023-07-24
(86)【国際出願番号】 US2021062661
(87)【国際公開番号】W WO2022125803
(87)【国際公開日】2022-06-16
(31)【優先権主張番号】63/123,336
(32)【優先日】2020-12-09
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】391015708
【氏名又は名称】ブリストル-マイヤーズ スクイブ カンパニー
【氏名又は名称原語表記】BRISTOL-MYERS SQUIBB COMPANY
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】デサイ,サミーン・マユル
(72)【発明者】
【氏名】セルバリノフ,グリゴリー・アレクサンドロビッチ
【テーマコード(参考)】
5B175
5L096
【Fターム(参考)】
5B175DA01
5B175FA03
5L096BA18
5L096KA04
(57)【要約】
本明細書では、CNNおよびBiLSTMを使用して文書を分類するための、システム、装置、デバイス、方法、および/またはコンピュータプログラム製品の実施形態、および/またはそれらの組み合わせおよび部分的組み合わせが提供される。
【特許請求の範囲】
【請求項1】
方法であって、
1つまたは複数のコンピューティングデバイスによって、文書のセットと、前記文書のセットの各文書のメタデータとを受信するステップであって、前記文書のセットは分野に対応する、受信するステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記文書のセットの各文書の単語埋め込みのセットを生成するステップであって、各単語埋め込みはそれぞれの文書からの1つまたは複数の単語を含む、生成するステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記単語埋め込みのセットの各単語埋め込みをセグメントのセットにトークン化するステップであって、各セグメントは前記単語埋め込みからの単語を含む、トークン化するステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記文書のセットの各文書の前記セグメントのセットの前記セグメントの各々を特徴のセットに分解するステップと、
対応するセグメントの前記特徴のセットの各特徴に割り当てられた所定の重みに基づいて、前記1つまたは複数のコンピューティングデバイスによって、前記文書のセットの各文書について前記セグメントのセットの前記セグメントの各々に品詞タグを割り当てるステップと、
前記対応するセグメントに割り当てられた前記品詞タグと、前記対応する文字列の前記特徴のセットの各特徴に割り当てられた前記所定の重みとに基づいて、前記1つまたは複数のコンピューティングデバイスによって、前記文書のセットの各文書の前記セグメントのセットの前記セグメントの各々に依存関係タグを割り当てるステップと、
前記対応するセグメントに割り当てられた前記品詞タグおよび依存関係タグと、前記対応するセグメントの前記特徴のセットの各特徴に割り当てられた前記所定の重みとに基づいて、前記1つまたは複数のコンピューティングデバイスによって、前記分野に対応する定義済みのラベルのセットから、前記文書のセットの各文書の前記セグメントのセットの前記セグメントの各々に、固有表現認識(NER)ラベルを割り当てるステップと、
を再帰的に行うことによって、前記1つまたは複数のコンピューティングデバイスによって、前記分野の前記文書のセットの各文書を分類するために学習モデルを訓練するステップと、
前記1つまたは複数のコンピューティングデバイスによって、各文書の前記メタデータを前記それぞれの文書の前記割り当てられたNERラベルと比較することによって、前記割り当てられたNERラベルを検証するステップと、
を含む、方法。
【請求項2】
前記1つまたは複数のコンピューティングデバイスによって、前記分野に対応する新しい文書を分類する要求を受信するステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記新しい文書の1つまたは複数の単語を含む新しい単語埋め込みを生成するステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記分野に対応する前記新しい単語埋め込みを、新しいセグメントのセットにトークン化するステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記新しい文書の前記1つまたは複数の文字列の各々を新しい特徴のセットに分解するステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記訓練された学習モデルを使用して、対応する新しいセグメントの前記新しい特徴のセットの各特徴に割り当てられた所定の重みに基づいて、前記新しい文書の前記新しいセグメントのセットの各新しいセグメントに新しい品詞タグを割り当てるステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記訓練された学習モデルを使用して、前記対応する新しいセグメントに割り当てられた前記品詞タグと、前記対応する新しいセグメントの前記新しい特徴のセットの各特徴に割り当てられた前記所定の重みとに基づいて、前記新しい文書の前記新しいセグメントのセットの前記新しいセグメントの各々に新しい依存関係ラベルを割り当てるステップと、
前記訓練された学習モデルを使用して、前記新しい対応するセグメントに割り当てられた前記品詞タグおよび依存関係タグと、前記対応する新しいセグメントの前記新しい特徴のセットの各特徴に割り当てられた前記所定の重みとに基づいて、前記1つまたは複数のコンピューティングデバイスによって、前記分野に対応する前記定義済みのラベルのセットからの新しいNERラベルを、前記新しい文書の前記新しいセグメントのセットの前記セグメントの各々に割り当てるステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記訓練された学習モデルを使用して、前記割り当てられたNERラベルに基づいて前記分野に対応する前記新しい文書を分類するステップと、
をさらに含む、請求項1に記載の方法。
【請求項3】
前記1つまたは複数のコンピューティングデバイスによって、前記新しいセグメントのセットおよび前記割り当てられたNERラベルを抽出するステップと、
前記1つまたは複数のコンピューティングデバイスによって、知識ベースを生成するステップであって、
前記知識ベースは、複数のノードおよび複数のエッジを含み、
エッジは、関係に基づいて前記複数のノードの各ノードを前記複数のノードの少なくとも1つの他のノードに接続し、
前記複数のノードの各ノードは、前記新しいセグメントのセットの少なくとも1つのセグメントと、前記割り当てられたNERラベルの対応するNERラベルと、を含む、ステップと、
をさらに含む、請求項2に記載の方法。
【請求項4】
前記1つまたは複数のコンピューティングデバイスによって、ノード内の前記割り当てられたNERラベルの第1のNERラベルおよび異なるノードに記憶された前記割り当てられたNERラベルの第2のNERラベルに基づいて、前記複数のノードの前記ノードと前記複数のノードの前記異なるノードとの間の前記関係を識別するステップをさらに含む、請求項3に記載の方法。
【請求項5】
前記学習モデルを訓練する各反復の後に、前記文書のセットの各文書について、前記特徴のセットの前記特徴に割り当てられた前記重みを反復的に修正するステップをさらに含む、請求項1に記載の方法。
【請求項6】
前記学習モデルは、前記文書のセットの各文書についての前記1つまたは複数の文字列の各々に対する前記品詞タグ、前記文書のセットの各文書についての前記セグメントのセットの前記セグメントの各々に対する前記依存関係ラベル、および前記文書のセットの各文書についての前記セグメントのセットの前記セグメントの各々への前記分野に対応する定義済みのラベルのセットからの前記NERラベルに対する統計モデルを使用する、請求項1に記載の方法。
【請求項7】
前記訓練された学習モデルは、教師付き学習アルゴリズムを実装する、請求項1に記載の方法。
【請求項8】
前記1つまたは複数のコンピューティングデバイスによって、各対応する文書の各対応するセグメントについての前記特徴のセットに基づいて、前記文書のセットの各文書についての特徴マップを生成するステップと、
前記1つまたは複数のコンピューティングデバイスによって、各対応する文書の各対応するセグメントについての前記特徴マップの次元特性を縮小することによって、前記文書のセットの各文書についての縮小された特徴マップを生成するステップと、
前記1つまたは複数のコンピューティングデバイスによって、各対応する文書の各対応するセグメントについての前記縮小された特徴マップをベクトルに変換するステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記特徴のセットの各特徴に割り当てられた前記所定の重みを各対応するベクトルに適用するステップと、
をさらに含む、請求項1に記載の方法。
【請求項9】
システムであって、
メモリと、
メモリに結合されたプロセッサであって、前記プロセッサは、
文書のセットと、前記文書のセット内の各文書のメタデータとを受信し、前記文書のセットは分野に対応し、
前記文書のセットの各文書について、単語埋め込みのセットを生成し、各単語埋め込みは、それぞれの文書からの1つまたは複数の単語を含み、
前記単語埋め込みのセットの各単語埋め込みをセグメントのセットにトークン化し、各セグメントは前記単語埋め込みからの単語を含み、
前記文書のセットの各文書の前記セグメントのセットの前記セグメントを特徴のセットに分解し、
対応するセグメントの前記特徴のセットの各特徴に割り当てられた所定の重みに基づいて、前記文書のセットの各文書について、前記セグメントのセットの前記セグメントの各々に品詞タグを割り当て、
前記対応するセグメントに割り当てられた前記品詞タグと、前記対応する文字列の前記特徴のセットの各特徴に割り当てられた前記所定の重みとに基づいて、前記文書のセットの各文書の前記セグメントのセットの前記セグメントの各々に依存関係タグを割り当て、
前記対応するセグメントに割り当てられた前記品詞タグおよび依存関係タグと、前記対応するセグメントの前記特徴のセットの各特徴に割り当てられた前記所定の重みとに基づいて、前記分野に対応する定義済みのラベルのセットから、前記文書のセットの各文書の前記セグメントのセットの前記セグメントの各々に、固有表現認識(NER)ラベルを割り当てること
を再帰的に行うことによって、前記分野の前記文書のセットの各文書を分類するために、学習モデルを訓練し、
各文書の前記メタデータを前記それぞれの文書の前記割り当てられたNERラベルと比較することによって、前記割り当てられたNERラベルを検証する、ように構成されている、プロセッサと、
を備える、システム。
【請求項10】
前記プロセッサは、
前記分野に対応する新しい文書を分類する要求を受信し、
前記新しい文書の1つまたは複数の単語を含む新しい単語埋め込みを生成し、
前記分野に対応する前記新しい単語埋め込みを新しいセグメントのセットにトークン化し、
前記新しい文書の前記1つまたは複数の文字列の各々を新しい特徴のセットに分解し、
前記訓練された学習モデルを使用して、対応する新しいセグメントの前記新しい特徴のセットの各特徴に割り当てられた所定の重みに基づいて、前記新しい文書の前記新しいセグメントのセットの各新しいセグメントに新しい品詞タグを割り当て、
前記訓練された学習モデルを使用して、前記対応する新しいセグメントに割り当てられた前記品詞タグと、前記対応する新しいセグメントの前記新しい特徴のセットの各特徴に割り当てられた前記所定の重みとに基づいて、前記新しい文書の前記新しいセグメントのセットの前記新しいセグメントの各々に新しい依存関係ラベルを割り当て、
前記訓練された学習モデルを使用して、前記新しい対応するセグメントに割り当てられた前記品詞タグおよび依存関係タグと、前記対応する新しいセグメントの前記新しい特徴のセットの各特徴に割り当てられた前記所定の重みとに基づいて、前記分野に対応する前記定義済みのラベルのセットから、前記新しい文書の前記新しいセグメントのセットの前記セグメントの各々に新しいNERラベルを割り当て、
前記訓練された学習モデルを使用して、前記割り当てられたNERラベルに基づいて前記分野に対応する前記新しい文書を分類する、ようにさらに構成されている、請求項9に記載のシステム。
【請求項11】
前記プロセッサは、
前記新しいセグメントのセットおよび前記割り当てられたNERラベルを抽出し、
知識ベースを生成し、
前記知識ベースは、複数のノードおよび複数のエッジを含み、
エッジは、関係に基づいて前記複数のノードの各ノードを前記複数のノードの少なくとも1つの他のノードに接続し、
前記複数のノードの各ノードは、前記新しいセグメントのセットの少なくとも1つのセグメントと、前記割り当てられたNERラベルの対応するNERラベルと、を含む、ようにさらに構成されている、請求項10に記載のシステム。
【請求項12】
前記プロセッサは、ノード内の前記割り当てられたNERラベルの第1のNERラベルおよび異なるノードに記憶された前記割り当てられたNERラベルの第2のNERラベルに基づいて、前記複数のノードのうちの前記ノードと前記複数のノードのうちの前記異なるノードとの間の前記関係を識別するようにさらに構成されている、請求項11に記載のシステム。
【請求項13】
前記プロセッサは、前記学習モデルを訓練する各反復の後に、前記文書のセットの各文書について、前記特徴のセットの前記特徴に割り当てられた前記重みを反復的に修正するようにさらに構成されている、請求項9に記載のシステム。
【請求項14】
前記学習モデルは、前記文書のセットの各文書についての前記1つまたは複数の文字列の各々に対する前記品詞タグ、前記文書のセットの各文書についての前記セグメントのセットの前記セグメントの各々に対する前記依存関係ラベル、および前記文書のセットの各文書についての前記セグメントのセットの前記セグメントの前記分野に対応する前記定義済みのラベルのセットからの前記NERラベルに対する統計モデルを使用する、請求項9に記載のシステム。
【請求項15】
前記訓練された学習モデルは、教師付き学習アルゴリズムを実装する、請求項9に記載のシステム。
【請求項16】
前記プロセッサは、
各対応する文書の各対応するセグメントについての前記特徴のセットに基づいて、前記文書のセットの各文書についての特徴マップを生成し、
各対応する文書の各対応するセグメントについての前記特徴マップの次元特性を縮小することによって、前記文書のセットの各文書について縮小された特徴マップを生成し、
各対応する文書の各対応するセグメントについての前記縮小された特徴マップをベクトルに変換し、
前記特徴のセットの各特徴に割り当てられた前記所定の重みを各対応するベクトルに適用する、ようにさらに構成されている、請求項9に記載のシステム。
【請求項17】
命令が格納された非一時的コンピュータ可読媒体であって、デバイスの1つまたは複数のプロセッサによる実行は、前記1つまたは複数のプロセッサに、
文書のセットと、前記文書のセット内の各文書のメタデータとを受信することであって、前記文書のセットは分野に対応する、受信することと、
前記文書のセットの各文書について、単語埋め込みのセットを生成することであって、各単語埋め込みは、それぞれの文書からの1つまたは複数の単語を含む、生成することと、
前記単語埋め込みのセットの各単語埋め込みをセグメントのセットにトークン化することであって、各セグメントは前記単語埋め込みからの単語を含む、トークン化することと、
前記文書のセットの各文書の前記セグメントのセットの前記セグメントを特徴のセットに分解し、
対応するセグメントの前記特徴のセットの各特徴に割り当てられた所定の重みに基づいて、前記文書のセットの各文書について、前記セグメントのセットの前記セグメントの各々に品詞タグを割り当て、
前記対応するセグメントに割り当てられた前記品詞タグと、前記対応する文字列の前記特徴のセットの各特徴に割り当てられた前記所定の重みとに基づいて、前記文書のセットの各文書の前記セグメントのセットの前記セグメントの各々に依存関係タグを割り当て、
前記対応するセグメントに割り当てられた前記品詞タグおよび依存関係タグと、前記対応するセグメントの前記特徴のセットの各特徴に割り当てられた前記所定の重みとに基づいて、前記分野に対応する定義済みのラベルのセットから、前記文書のセットの各文書の前記セグメントのセットの前記セグメントの各々に、固有表現認識(NER)ラベルを割り当てること、
を再帰的に行うことによって、前記分野の前記文書のセットの各文書を分類するために、学習モデルを訓練することと、
各文書の前記メタデータを前記それぞれの文書の前記割り当てられたNERラベルと比較することによって、前記割り当てられたNERラベルを検証することと、
を含む動作を実行させる、非一時的コンピュータ可読媒体。
【請求項18】
前記動作は、
前記分野に対応する新しい文書を分類する要求を受信することと、
前記新しい文書の1つまたは複数の単語を含む新しい単語埋め込みを生成することと、
前記分野に対応する前記新しい単語埋め込みを新しいセグメントのセットにトークン化することと、
前記新しい文書の前記1つまたは複数の文字列の各々を新しい特徴のセットに分解することと、
前記訓練された学習モデルを使用して、対応する新しいセグメントの前記新しい特徴のセットの各特徴に割り当てられた所定の重みに基づいて、前記新しい文書の前記新しいセグメントのセットの各新しいセグメントに新しい品詞タグを割り当てることと、
前記訓練された学習モデルを使用して、前記対応する新しいセグメントに割り当てられた前記品詞タグと、前記対応する新しいセグメントの前記新しい特徴のセットの各特徴に割り当てられた前記所定の重みとに基づいて、前記新しい文書の前記新しいセグメントのセットの前記新しいセグメントの各々に新しい依存関係ラベルを割り当てることと、
前記訓練された学習モデルを使用して、前記新しい対応するセグメントに割り当てられた前記品詞タグおよび依存関係タグと、前記対応する新しいセグメントの前記新しい特徴のセットの各特徴に割り当てられた前記所定の重みとに基づいて、前記分野に対応する前記定義済みのラベルのセットから、前記新しい文書の前記新しいセグメントのセットの前記セグメントの各々に、新しいNERラベルを割り当てることと、
前記訓練された学習モデルを使用して、前記割り当てられたNERラベルに基づいて前記分野に対応する前記新しい文書を分類することと、
をさらに含む、請求項17に記載の非一時的コンピュータ可読媒体。
【請求項19】
前記動作は、前記学習モデルを訓練する各反復の後に、前記文書のセットの各文書について、前記特徴のセットの前記特徴に割り当てられた前記重みを反復的に修正することをさらに含む、請求項17に記載の非一時的コンピュータ可読媒体。
【請求項20】
前記学習モデルは、前記文書のセットの各文書についての前記1つまたは複数の文字列の各々に対する前記品詞タグ、前記文書のセットの各文書についての前記セグメントのセットの前記セグメントの各々に対する前記依存関係ラベル、および前記文書のセットの各文書についての前記セグメントのセットの前記セグメントの前記分野に対応する前記定義済みのラベルのセットからの前記NERラベルに対する統計モデルを使用する、請求項17に記載の非一時的コンピュータ可読媒体。
【請求項21】
前記訓練された学習モデルは、教師付き学習アルゴリズムを実装する、請求項17に記載の非一時的コンピュータ可読媒体。
【請求項22】
前記動作は、
各対応する文書の各対応するセグメントについての前記特徴のセットに基づいて、前記文書のセットの各文書についての特徴マップを生成することと、
各対応する文書の各対応するセグメントについての前記特徴マップの次元特性を縮小することによって、前記文書のセットの各文書について縮小された特徴マップを生成することと、
各対応する文書の各対応するセグメントについての前記縮小された特徴マップをベクトルに変換することと、
前記特徴のセットの各特徴に割り当てられた前記所定の重みを各対応するベクトルに適用することと、
をさらに含む、請求項17に記載の非一時的コンピュータ可読媒体。
【請求項23】
文書を分類するための方法であって、
前記1つまたは複数のコンピューティングデバイスによって、前記分野に対応する文書を分類する要求を受信するステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記文書の1つまたは複数の単語を含む単語埋め込みを生成するステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記分野に対応する前記単語埋め込みを、セグメントのセットにトークン化するステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記文書の前記1つまたは複数の文字列の各々を新しい特徴のセットに分解するステップと、
前記1つまたは複数のコンピューティングデバイスによって、訓練された学習モデルを使用して、対応するセグメントの前記特徴のセットの各特徴に割り当てられた所定の重みに基づいて、前記新しい文書の前記セグメントのセットの各新しいセグメントに品詞タグを割り当てるステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記訓練された学習モデルを使用して、前記対応するセグメントに割り当てられた前記品詞タグと、前記対応するセグメントの前記特徴のセットの各特徴に割り当てられた前記所定の重みとに基づいて、前記文書の前記セグメントのセットの前記セグメントの各々に依存関係ラベルを割り当てるステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記訓練された学習モデルを使用して、前記対応するセグメントに割り当てられた前記品詞タグおよび依存関係タグと、前記対応するセグメントの前記特徴のセットの各特徴に割り当てられた前記所定の重みとに基づいて、前記分野に対応する前記定義済みのラベルのセットからのNERラベルを、前記文書の前記セグメントのセットの前記セグメントの各々に割り当てるステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記訓練された学習モデルを使用して、前記割り当てられたNERラベルに基づいて前記分野に対応する前記文書を分類するステップと、
を含む、方法。
【請求項24】
医薬品安全性監視文書を分類するために、自然言語処理(NLP)モデルを訓練するための方法であって、
1つまたは複数のコンピューティングデバイスによって、文書のセットと、前記文書のセットの各文書のメタデータとを受信するステップであって、前記文書のセットは医薬品安全性監視に対応する、受信するステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記文書のセットの各文書の単語埋め込みのセットを生成するステップであって、各単語埋め込みはそれぞれの文書からの1つまたは複数の単語を含む、生成するステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記単語埋め込みのセットの各単語埋め込みをセグメントのセットにトークン化するステップであって、各セグメントは前記単語埋め込みからの単語を含む、トークン化するステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記文書のセットの各文書の前記セグメントのセットの前記セグメントの各々を特徴のセットに分解するステップと、
対応するセグメントの前記特徴のセットの各特徴に割り当てられた所定の重みに基づいて、前記1つまたは複数のコンピューティングデバイスによって、前記文書のセットの各文書について前記セグメントのセットの前記セグメントの各々に品詞タグを割り当てるステップと、
前記対応するセグメントに割り当てられた前記品詞タグと、前記対応する文字列の前記特徴のセットの各特徴に割り当てられた前記所定の重みとに基づいて、前記1つまたは複数のコンピューティングデバイスによって、前記文書のセットの各文書の前記セグメントのセットの前記セグメントの各々に依存関係タグを割り当てるステップと、
前記対応するセグメントに割り当てられた前記品詞タグおよび依存関係タグと、前記対応するセグメントの前記特徴のセットの各特徴に割り当てられた前記所定の重みとに基づいて、前記1つまたは複数のコンピューティングデバイスによって、医薬品安全性監視に対応する定義済みのラベルのセットから、前記文書のセットの各文書の前記セグメントのセットの前記セグメントの各々に、固有表現認識(NER)ラベルを割り当てるステップと、
を再帰的に行うことによって、前記1つまたは複数のコンピューティングデバイスによって、前記文書のセットの各文書を分類するために学習モデルを訓練するステップと、
前記1つまたは複数のコンピューティングデバイスによって、各文書の前記メタデータを前記それぞれの文書の前記割り当てられたNERラベルと比較することによって、前記割り当てられたNERラベルを検証するステップと、を含み、
前記学習モデルを完全に訓練したことに応答して、前記学習モデルは、事例の有効性、重大度、致命性、および因果関係に基づいて医薬品安全性監視文書を分類し、予測性についてFDA承認薬の構造化製品ラベル(SPL)における有害作用を識別し、適応外製品の使用の可能性を識別するように構成される、
方法。
【請求項25】
自然言語処理(NLP)モデルを使用して医薬品安全性監視文書を分類する方法であって、
1つまたは複数のコンピューティングデバイスによって、医薬品安全性監視文書を分類する要求を受信するステップと、
前記1つまたは複数のコンピューティングデバイスによって、畳み込みニューラルネットワーク(CNN)および双方向長期短期(BiLSTM)アルゴリズムの組み合わせを実装するように構成された学習モデルを使用して、前記医薬品安全性監視文書内の1つまたは複数の単語についての固有表現認識(NER)ラベルを含む出力を生成するステップと、
前記1つまたは複数のコンピューティングデバイスによって、事例の有効性、重大度、致命性、および因果関係に基づいて、前記NERラベルを使用して前記医薬品安全性監視文書を分類するステップと、
を含む、方法。
【請求項26】
前記1つまたは複数のコンピューティングデバイスによって、前記NERラベルを使用して、予測性についてFDA承認薬の構造化製品ラベル(SPL)における有害作用を識別するステップと、
前記1つまたは複数のコンピューティングデバイスによって、適応外製品の使用の可能性を識別するステップと、
をさらに含む、請求項25に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2020年12月9日に出願された米国仮出願第63/123,336号の優先権を主張し、その内容全体は参照により本明細書に組み込まれる。
【背景技術】
【0002】
背景
企業、政府機関、教育機関などのエンティティは、テキスト、画像、グラフ、表、および他の形態のデータ/情報/知識表現の組み合わせを含む何千もの文書を受け取ることが多い。これらの文書は、マイクロソフトワード、マイクロソフトエクセルの文書、png、tiff、jpg、raw、gif、PDF、電子メール、テキストファイル、手書きノート、HTML、XMLスキャン文書などを含む異なる種類のものであってもよい。そのような文書をその内容に基づいて手動で分類および優先順位付けすることは、面倒で間違いを起こしやすいタスクであり得る。エンティティは、自然言語処理(NLP)などの特定の機械学習アルゴリズムを使用してこのプロセスを自動化しようと試みてきた。しかしながら、従来のNLPモデルは、文書を正確に分類するには不十分であることが多い。例えば、従来のNLPモデルは、文書を正確に分類するために単語または句に分野固有のラベルを割り当てることができない。
【0003】
さらに、手作業で情報を抽出すること、または許容可能な精度(例えば、光学文字認識(OCR))で各PDFのテキストコンテンツを抽出し、これらのデータを正しく抽出して機械可読フォーマットに戻すための高度にインテリジェントなサードパーティツールは、面倒で時間がかかり、エラーが発生しやすい。さらに、従来の機械学習モデルを実装する従来の方法論は、文書からテキストを抽出しようとするときに、光学的明瞭さ、英数字、向きなど多くの障害に直面する可能性がある。したがって、文書を分類および優先順位付けする従来の方法は、面倒であり、コストがかかり、エラーが発生しやすい可能性がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
概要
本明細書では、分野固有のNLPモデルを使用して文書を分類するための、システム、装置、デバイス、方法、および/またはコンピュータプログラム製品の実施形態、および/またはそれらの組み合わせおよび部分的組み合わせが提供される。
【課題を解決するための手段】
【0005】
所与の実施形態では、文書を分類するための方法は、1つまたは複数のコンピューティングデバイスによって、文書のセットと、文書のセット内の各文書のメタデータとを受信するステップを含む。文書のセットは、分野に対応する。本方法は、1つまたは複数のコンピューティングデバイスによって、文書のセットの各文書に対する単語埋め込みのセットを生成するステップをさらに含む。各単語埋め込みは、それぞれの文書からの1つまたは複数の単語を含む。本方法は、1つまたは複数のコンピューティングデバイスによって、単語埋め込みのセットの各単語埋め込みをセグメントのセットにトークン化するステップをさらに含む。各セグメントは、単語埋め込みからの単語を含む。さらに、本方法は、1つまたは複数のコンピューティングデバイスによって、文書のセットの各文書のセグメントのセットのセグメントの各々を特徴のセットに分解するステップと、対応するセグメントの特徴のセットの各特徴に割り当てられた所定の重みに基づいて、1つまたは複数のコンピューティングデバイスによって、文書のセットの各文書についてセグメントのセットのセグメントの各々に品詞タグを割り当てるステップと、対応するセグメントに割り当てられた品詞タグと、対応する文字列の特徴のセットの各特徴に割り当てられた所定の重みとに基づいて、1つまたは複数のコンピューティングデバイスによって、文書のセットの各文書のセグメントのセットのセグメントの各々に依存関係タグを割り当てるステップと、対応するセグメントに割り当てられた品詞タグおよび依存関係タグと、対応するセグメントの特徴のセットの各特徴に割り当てられた所定の重みとに基づいて、1つまたは複数のコンピューティングデバイスによって、分野に対応する定義済みのラベルのセットから、文書のセットの各文書のセグメントのセットのセグメントの各々に、固有表現認識(NER)ラベルを割り当てるステップと、1つまたは複数のコンピューティングデバイスによって、各文書のメタデータをそれぞれの文書の割り当てられたNERラベルと比較することによって、割り当てられたNERラベルを検証するステップと、を再帰的に行うことによって、1つまたは複数のコンピューティングデバイスによって、分野の文書のセットの各文書を分類するために学習モデルを訓練するステップを含む。
【0006】
所与の実施形態において、文書を分類するシステムは、メモリと、メモリに結合されたプロセッサとを含む。プロセッサは、文書のセットと、文書のセット内の各文書のメタデータとを受信するように構成される。文書のセットは、分野に対応する。プロセッサは、文書のセットの各文書について単語埋め込みのセットを生成するようにさらに構成される。各単語埋め込みは、それぞれの文書からの1つまたは複数の単語を含む。プロセッサは、単語埋め込みのセットの各単語埋め込みをセグメントのセットにトークン化するようにさらに構成される。各セグメントは、単語埋め込みからの単語を含む。さらに、プロセッサは、文書のセットの各文書のセグメントのセットのセグメントの各々を特徴のセットに分解することと、対応するセグメントの特徴のセットの各特徴に割り当てられた所定の重みに基づいて、文書のセットの各文書についてセグメントのセットのセグメントの各々に品詞タグを割り当てることと、対応するセグメントに割り当てられた品詞タグと、対応する文字列の特徴のセットの各特徴に割り当てられた所定の重みとに基づいて、文書のセットの各文書のセグメントのセットのセグメントの各々に依存関係タグを割り当てることと、対応するセグメントに割り当てられた品詞タグおよび依存関係タグと、対応するセグメントの特徴のセットの各特徴に割り当てられた所定の重みとに基づいて、分野に対応する定義済みのラベルのセットから、文書のセットの各文書のセグメントのセットのセグメントの各々に、固有表現認識(NER)ラベルを割り当てることと、各文書のメタデータをそれぞれの文書の割り当てられたNERラベルと比較することによって、割り当てられたNERラベルを検証することと、を再帰的に行うことによって、1つまたは複数のコンピューティングデバイスによって、分野の文書のセットの各文書を分類するために学習モデルを訓練するようにさらに構成される。
【0007】
所与の実施形態では、命令が記憶された非一時的コンピュータ可読媒体であって、デバイスの1つまたは複数のプロセッサによるその実行は、1つまたは複数のプロセッサに、文書のセットおよび文書のセット内の各文書のメタデータを受信することを含む動作を実行させる、非一時的コンピュータ可読媒体。文書のセットは、分野に対応する。動作は、文書のセットの各文書について単語埋め込みのセットを生成することをさらに含む。各単語埋め込みは、それぞれの文書からの1つまたは複数の単語を含む。動作は、単語埋め込みのセットの各単語埋め込みをセグメントのセットにトークン化することをさらに含む。各セグメントは、単語埋め込みからの単語を含む。さらに、動作は、文書のセットの各文書のセグメントのセットのセグメントの各々を特徴のセットに分解するステップと、対応するセグメントの特徴のセットの各特徴に割り当てられた所定の重みに基づいて、文書のセットの各文書についてセグメントのセットのセグメントの各々に品詞タグを割り当てるステップと、対応するセグメントに割り当てられた品詞タグと、対応する文字列の特徴のセットの各特徴に割り当てられた所定の重みとに基づいて、文書のセットの各文書のセグメントのセットのセグメントの各々に依存関係タグを割り当てるステップと、対応するセグメントに割り当てられた品詞タグおよび依存関係タグと、対応するセグメントの特徴のセットの各特徴に割り当てられた所定の重みとに基づいて、分野に対応する定義済みのラベルのセットから、文書のセットの各文書のセグメントのセットのセグメントの各々に、固有表現認識(NER)ラベルを割り当てるステップと、各文書のメタデータをそれぞれの文書の割り当てられたNERラベルと比較するステップによって、割り当てられたNERラベルを検証するステップと、を再帰的に行うことによって、1つまたは複数のコンピューティングデバイスによって、分野の文書のセットの各文書を分類するために学習モデルを訓練するステップを含む。
【0008】
所与の実施形態において、文書を分類するための方法は、1つまたは複数のコンピューティングデバイスによって、分野に対応する文書を分類する要求を受信するステップと、1つまたは複数のコンピューティングデバイスによって、文書の1つまたは複数の単語を含む単語埋め込みを生成するステップと、1つまたは複数のコンピューティングデバイスによって、分野に対応する単語埋め込みをセグメントのセットにトークン化するステップと、を含む。本方法は、1つまたは複数のコンピューティングデバイスによって、文書の1つまたは複数の文字列の各々を新しい特徴のセットに分解するステップと、訓練された学習モデルを使用して、対応するセグメントの特徴のセットの各特徴に割り当てられた所定の重みに基づいて、1つまたは複数のコンピューティングデバイスによって、新しい文書のセグメントのセットの各新しいセグメントに品詞タグを割り当てるステップと、訓練された学習モデルを使用して、対応するセグメントに割り当てられた前記品詞タグと、対応するセグメントの特徴のセットの各特徴に割り当てられた所定の重みとに基づいて、1つまたは複数のコンピューティングデバイスによって、文書の前記セグメントのセットのセグメントの各々に依存関係ラベルを割り当てるステップと、1つまたは複数のコンピューティングデバイスによって、訓練された学習モデルを使用して、対応するセグメントに割り当てられた品詞タグおよび依存関係タグ、ならびに対応するセグメントの特徴のセットの各特徴に割り当てられた所定の重みに基づいて、分野に対応する定義済みのラベルのセットから、文書のセグメントのセットのセグメントの各々にNERラベルを割り当てるステップと、1つまたは複数のコンピューティングデバイスによって、訓練された学習モデルを使用して、割り当てられたNERラベルに基づいて分野に対応する文書を分類するステップと、をさらに含む。
【0009】
所与の実施形態では、NLPモデルを訓練するための方法は、1つまたは複数のコンピューティングデバイスによって、文書のセットと、文書のセット内の各文書のメタデータとを受信するステップを含む。文書のセットは、医薬品安全性監視に対応する。本方法は、1つまたは複数のコンピューティングデバイスによって、文書のセットの各文書に対する単語埋め込みのセットを生成するステップをさらに含む。各単語埋め込みは、それぞれの文書からの1つまたは複数の単語を含む。本方法は、1つまたは複数のコンピューティングデバイスによって、単語埋め込みのセットの各単語埋め込みをセグメントのセットにトークン化するステップをさらに含む。各セグメントは、単語埋め込みからの単語を含む。さらに、本方法は、1つまたは複数のコンピューティングデバイスによって、文書のセットの各文書のセグメントのセットのセグメントの各々を特徴のセットに分解するステップと、対応するセグメントの特徴のセットの各特徴に割り当てられた所定の重みに基づいて、1つまたは複数のコンピューティングデバイスによって、文書のセットの各文書についてセグメントのセットのセグメントの各々に品詞タグを割り当てるステップと、対応するセグメントに割り当てられた品詞タグと、対応する文字列の特徴のセットの各特徴に割り当てられた所定の重みとに基づいて、1つまたは複数のコンピューティングデバイスによって、文書のセットの各文書のセグメントのセットのセグメントの各々に依存関係タグを割り当てるステップと、対応するセグメントに割り当てられた品詞タグおよび依存関係タグと、対応するセグメントの特徴のセットの各特徴に割り当てられた所定の重みとに基づいて、1つまたは複数のコンピューティングデバイスによって、医薬品安全性監視に対応する定義済みのラベルのセットから、文書のセットの各文書のセグメントのセットのセグメントの各々に、固有表現認識(NER)ラベルを割り当てるステップと、1つまたは複数のコンピューティングデバイスによって、各文書のメタデータをそれぞれの文書の割り当てられたNERラベルと比較することによって、割り当てられたNERラベルを検証するステップと、を再帰的に行うことによって、1つまたは複数のコンピューティングデバイスによって、分野の文書のセットの各文書を分類するために学習モデルを訓練するステップを含む。学習モデルを完全に訓練することに応答して、学習モデルは、事例の有効性、重大度、致命性、および因果関係に基づいて医薬品安全性監視文書を分類するように構成される。
【0010】
所与の実施形態では、自然言語処理(NLP)モデルを使用して医薬品安全性監視文書を分類する方法は、1つまたは複数のコンピューティングデバイスによって、医薬品安全性監視文書を分類する要求を受信するステップと、1つまたは複数のコンピューティングデバイスによって、畳み込みニューラルネットワーク(CNN)および双方向長期短期(BiLSTM)アルゴリズムの組み合わせを実装するように構成された学習モデルを使用して、医薬品安全性監視文書内の1つまたは複数の単語についての固有表現認識(NER)ラベルを含む出力を生成するステップと、1つまたは複数のコンピューティングデバイスによって、事例の有効性、重大度、致命性、および因果関係に基づいてNERラベルを使用して医薬品安全性監視文書を分類するステップと、を含む。
【0011】
図面の簡単な説明
本明細書に組み込まれ、本明細書の一部を形成する添付の図面は、本開示を例示し、説明とともに、本開示の原理を説明し、当業者が本開示を作成および使用することを可能にするのにさらに役立つ。
【図面の簡単な説明】
【0012】
図1】例示的な実施形態による、分野固有のNLPモデルを使用して文書を分類するためのシステムのブロック図である。
図2】例示的な実施形態による、文書を分類するための学習モデルを訓練するプロセスを示すブロック図である。
図3】例示的な実施形態による、CNNアルゴリズムを実装する学習モデルの一例のブロック図である。
図4】例示的な実施形態による、学習モデルを訓練するために使用される例示的な文書を示す。
図5】例示的な実施形態による、学習モデルのモデル設計フレームワークを示すブロック図である。
図6】例示的な実施形態による、モデル承認フローのブロック図である。
図7】例示的な実施形態による、訓練された学習モデルを使用して文書内のエンティティ(例えば、単語または句)を認識する際のFスコアを示すグラフである。
図8】例示的な実施形態による、学習モデルの損失関数を示すグラフである。
図9】例示的な実施形態による、文書を要約する完全に訓練された学習モデルを示す。
図10】例示的な実施形態による、訓練のためのプロセスを示すフローチャートである。
図11】例示的な実施形態による、訓練された学習モデルを使用して文書を分類するためのプロセスを示すフローチャートである。
図12】一実施形態によるデバイスの例示的な構成要素のブロック図である。
【発明を実施するための形態】
【0013】
要素が最初に現れる図面は、典型的には、対応する参照番号の左端の1桁または複数の桁によって示される。図面において、同様の参照番号は、同一または機能的に同様の要素を示すことができる。
【0014】
詳細な説明
本明細書では、画像分析を使用して文書を分類するためのシステム、装置、デバイス、方法、および/またはコンピュータプログラム製品の実施形態、および/またはそれらの組み合わせおよび部分的組み合わせが提供される。
【0015】
上述したように、文書を分類および優先順位付けするための従来の方法は、面倒であり、コストがかかり、エラーが発生しやすい可能性がある。例えば、医薬品安全性監視(PV)業務の分野では、企業は様々な薬物に関する個別事例安全性報告(ICSR)を受信する。ICSRは、特定の治療を受けている患者または特定の薬物を服用している患者が経験した有害事象の書面による報告であり、これは潜在的にその治療または薬物に関連し得る。
【0016】
ICSRが「有効」と見なされるためには、ICSRは、特定可能な患者、特定可能な報告者、疑わしい薬物、および有害事象の4つの要素に関する情報を含まなければならない。ICSRが有効である場合、記載された有害事象が「重大な」有害事象であるかどうかが判定される。有害事象は、以下の要件、すなわち、死に至るか生命を脅かし、入院患者の入院を必要とするか既存の入院を延長する、持続的または著しい身体障害あるいは無能力になる、先天性障害をもたらす、または、治療および/または介入が前述の要件の1つを防ぐために必要とされるため、その他の点で医学的に重要である、のうちの1つを満たす場合、重大な有害事象である。さらに、薬物または他の製品の臨床試験を実施する場合、ICSRの形で示される有害作用が重大な予期せぬ結果の有害反応(SUSAR)であるかどうかを判定することができる。
【0017】
ICSRは、特定の事例に対応しうる。異なる規制機関が、対応するICSRを有する事例に対して措置を講じることを要求することがある。規制機関は、異なる事例に対して異なるタイムラインを提供することができる。例えば、ある事例がICSRに記載されている重大な有害作用を含む場合、企業がその事例に対処できるように、事例を優先することができる。逆に、ある事例がICSRにおいて重大でない有害作用を含む場合、その事例は、より低い優先度を与えられうる。
【0018】
ICSRは、マイクロソフトワード、マイクロソフトエクセルの文書、png、tiff、jpg、raw、gif、電子メール、PDF、テキストファイル、手書きノート、HTML、XMLスキャン文書などの様々な形式で提供されてもよい。ICSR文書は、複数のフォーマットの組み合わせであってもよい。例えば、ICSR文書は、.docフォーマットであってもよいが、埋め込みJPEG画像を含んでいてもよい。別の例では、ICSR文書の一部は電子メールメッセージであってもよく、別の部分はマイクロソフトワードまたはマイクロソフトエクセル形式であってもよい。
【0019】
ICSRは、薬局、臨床医、または患者などの様々な報告者から来てもよい。さらに、文書の各々は、薬物に関する他の情報と共に、報告された薬物の有害作用を含み得る。企業は、文書の内容に基づいて、例えば、文書が有効なICSR報告であるかどうか、ICSR文書に記載されている有害作用の重大度、ならびにICSR文書に記載されている有害作用の重大度、関連性および予測性(SRE)を判定する必要があり得る。報告の数および報告の様々な種類の形式を考えると、そのような方法で報告を分類することは困難な作業であることが判明する場合がある。したがって、従来の方法では、ICSR報告を効果的かつ効率的に分類することができない場合がある。
【0020】
例えば、従来の方法は、内容領域専門家(SME)が各ICSR文書を手動で検討し、決定を行うことを含み得る。個人は、ICSR文書から関連情報を手動で抽出し、その情報をデータベースに入力することができ、それは、その後、ICSR文書を分類するために医療専門家によってレビューされる。しかしながら、企業は短期間に何千ものICSR文書を受け取ることがある。企業によって受信され得る多数のICSR文書を考えると、ICSR文書の手動レビューは面倒な作業であり得る。さらに、多くのICSR文書は、有効な文書ではない可能性があり、重大な効果を示さない可能性があり、または重大な、関連する、もしくは予想される効果を示さない可能性があるため、無関係であり得る。これにより、関連する重要なICSR文書の処理に大きなバックログおよび遅延が生じる可能性がある。
【0021】
従来の方法はまた、操作前に文書を(例えば、光学文字認識(OCR)を介して)テキストに変換することを必要とする機械学習アルゴリズムを使用することを含むことができる。しかしながら、OCRの複雑さおよび正規化されたテンプレートの作成を考えると、従来の機械学習アルゴリズムは、アルゴリズムを訓練および実装および更新するためにかなりの時間および人的および金銭的リソースを必要とする。したがって、これらの機械学習アルゴリズムは、訓練および実装するのに、運用上非効率的であり、コストがかかる可能性がある。
【0022】
所与の実施形態では、サーバは、文書を分類し、分野に固有の文書内のエンティティを識別するために学習モデルを訓練する要求を受信することができる。例えば、学習モデルは、文書内のエンティティを識別して、文書を自動的に要約することができる。文書の内容は、1つまたは複数の文字列を含むことができる。さらに、文書は、対応するメタデータを含むことができる。メタデータは、文書内の1つまたは複数の文字列をラベル付けする注釈であってもよい。注釈は、分野に固有であり得る。
【0023】
サーバは、文書ごとに単語埋め込みを生成することによって分野に固有の文書を分類するように学習モデルを訓練することができる。サーバは、各単語埋め込みの1つまたは複数の単語を含む、各単語埋め込みをセグメントにトークン化することができる。サーバは、各文書のセグメントの各々を特徴のセットに分解することと、それぞれのセグメントの特徴のセットの各特徴に割り当てられた所定の重みに基づいて、各それぞれの文書の各それぞれのセグメントに対応する1つまたは複数の単語に品詞タグを割り当てることと、それぞれの1つまたは複数の単語に割り当てられた品詞タグおよびそれぞれのセグメントの特徴のセットの各特徴に割り当てられた所定の重みに基づいて、各それぞれの文書の各それぞれのセグメントに対応する1つまたは複数の単語に依存関係ラベルを割り当てることと、を再帰的に行うことによって、学習モデルを訓練することができる。学習モデルを訓練することは、それぞれの1つまたは複数の単語に割り当てられた品詞タグおよび依存関係タグ、ならびにそれぞれのセグメントの特徴のセットの各特徴に割り当てられた所定の重みに基づいて、分野に対応する定義済みのラベルのセットから、各それぞれの文書の各それぞれのセグメントに対応する1つまたは複数の単語に固有表現関係(NER)ラベルを割り当てることと、各文書のメタデータをそれぞれの文書の割り当てられたラベルと比較することによって、割り当てられたラベルを検証することと、を再帰的に行うことをさらに含むことができる。
【0024】
サーバは、分野に固有の文書を分類するように訓練された訓練された学習モデルを使用して、分野に対応する文書を分類する要求を受信することができる。サーバは、文書を、文書の1つまたは複数の文字列のうちの1つまたは複数の単語を含むセグメントにトークン化することができる。サーバは、文書のセグメントの各々を特徴のセットに分解することができる。サーバは、それぞれのセグメントの特徴のセットの各特徴に割り当てられた所定の重みに基づいて、文書の各それぞれのセグメントに対応する1つまたは複数の単語に品詞タグを割り当てることができる。サーバは、それぞれの1つまたは複数の単語に割り当てられた品詞タグと、それぞれのセグメントの特徴のセットの各特徴に割り当てられた所定の重みとに基づいて、各それぞれのセグメントに対応する1つまたは複数の単語に依存関係ラベルを割り当てることができる。さらに、サーバは、それぞれの1つまたは複数の単語に割り当てられた品詞タグおよび依存関係タグ、ならびにそれぞれのセグメントの特徴のセットの各特徴に割り当てられた所定の重みに基づいて、分野に対応する定義済みのラベルのセットから、各それぞれのセグメントに対応する1つまたは複数の単語に固有表現関係(NER)ラベルを割り当てることができる。サーバは、文書内の単語に割り当てられた各NERラベルに基づいて文書を分類することができる。
【0025】
上記の構成は、ソース文書からデータを転記および取得することなく、複数の文書フォーマットおよび言語を処理および分類することを可能にする。上記の構成は、事例処理のためのデータ入力を減らし、推測的分析および信号管理の検索を可能にする。したがって、上記の構成は、双方向長短期メモリ(BiLSTM)モデルと共に畳み込みニューラルネットワーク(CNN)を実装する分野固有のNLPを活用することによって、転写および翻訳を含むがこれらに限定されないテキスト処理を回避する。この方法論は、モデルがPV分野内の分野概念を理解するように訓練され得る速度を高める。さらに、上記の構成は、従来のNLPモデルの訓練および保守の労力を最小限に抑える。
【0026】
さらに、上記の構成は、文書がより正確に分類されるように、分野固有のNLPモデルを使用して文書内の1つまたは複数の文字列をラベル付けすることを可能にする。例えば、NLPモデルはPVに固有であり得る。したがって、PVシステムにわたってNLPモデルを首尾よく使用することができる。
【0027】
図1は、分野固有のNLPモデルを使用して文書を分類するためのシステムのブロック図である。システムは、サーバ100、クライアントデバイス110、およびデータベース120を含むことができる。システムのデバイスは、ネットワークを介して接続されてもよい。例えば、システムのデバイスは、有線接続、無線接続、または有線接続と無線接続との組み合わせを介して接続されてもよい。例示的な実施形態では、ネットワークの1つまたは複数の部分は、アドホックネットワーク、イントラネット、エクストラネット、仮想プライベートネットワーク(VPN)、ローカルエリアネットワーク(LAN)、無線LAN(WLAN)、ワイドエリアネットワーク(WAN)、無線ワイドエリアネットワーク(WWAN)、メトロポリタンエリアネットワーク(MAN)、インターネットの一部、公衆交換電話網(PSTN)の一部、携帯電話ネットワーク、無線ネットワーク、WiFiネットワーク、WiMaxネットワーク、任意の他のタイプのネットワーク、または2つ以上のそのようなネットワークの組み合わせであってもよい。あるいは、サーバ100、クライアントデバイス110、およびデータベース120は、単一の物理マシンまたは仮想マシン上に配置されてもよい。
【0028】
いくつかの実施形態では、サーバ100およびデータベース120は、クラウドコンピューティング環境に存在することができる。他の実施形態では、サーバ100はクラウドコンピューティング環境に存在してもよく、データベース120はクラウドコンピューティング環境の外部に存在する。さらに、他の実施形態では、サーバ100はクラウドコンピューティング環境の外部に存在してもよく、データベース120はクラウドコンピューティング環境に存在する。
【0029】
クライアントデバイス110は、サーバ100の管理者(例えば、プログラマ、ユーザなど)に関連付けられた個人によって操作されるデバイスであってもよい。クライアントデバイス110は、訓練アプリケーション112および分類アプリケーション114を含むことができる。クラウドコンピューティング環境はまた、訓練アプリケーション112および分類アプリケーション114をホストすることができる。あるいは、訓練アプリケーション112および分類アプリケーション114の一方または両方がクライアントデバイス110にインストールされてもよい。
【0030】
訓練アプリケーション112および分類アプリケーション114は、サーバ100とインターフェースするように構成された実行可能アプリケーションであってもよい。訓練アプリケーション112は、画像解析を使用して文書を分類するために学習モデルを訓練するようにサーバ100に要求を送信することができる。分類アプリケーション114は、学習モデルを使用して文書を分類する要求をサーバ100に送信するように構成することができる。分類アプリケーション114はまた、サードパーティユーザデバイス上にインストールされて実行されてもよい。これに関して、認可されたサードパーティは、サーバ100を使用して文書を分類する要求を送信することができる。文書は、データベース120に記憶されてもよい。データベース120は、様々なタイプおよびフォーマットの文書を記憶するように構成された1つまたは複数のデータ記憶装置であってもよい。
【0031】
学習エンジン102は、学習モデル104を含むことができる。学習モデル104は、自然言語処理(NLP)フレームワークを実装することができ、これは、畳み込みニューラルネットワーク(CNN)およびBiLSTMなどの深層機械学習アルゴリズムを再帰的に実装して、文書を分類および優先順位付けするように構成される。学習モデル104は、分野固有の文書を分類するように構成された分野固有の学習モデルであってもよい。学習モデル104は、所与の文書に複数の分類を割り当てることができる。さらに、学習モデル104は、所与の文書を要約するように構成されてもよい。以下、分類の各々についてさらに詳細に説明する。いくつかの実施形態では、より少ないまたは追加の学習モジュールを使用して文書を分類することができる。
【0032】
図2は、例示的な実施形態による、文書を分類するための学習モデルを訓練するプロセスを示すブロック図である。図2について、図1を用いて説明する。所与の実施形態では、クライアントデバイス110は、分野に対応する文書を分類するために学習モデル104を訓練する要求を受信することができる。学習モデル104は、CNNおよび双方向長期短期(BiLSTM)アルゴリズムを実装して文書を分類するように構成されたNLPフレームワークであってもよい。
【0033】
訓練アプリケーション112は、統計的NERモデルを構築することができる。統計的NERモデルは、ルールベースの認識システムを実装するために使用することができる。例えば、統計的NERモデルは、文書内の文字列をどのようにタグ付けするかに関する分野に固有のルールを提供することができる。さらに、統計的NERモデルは、文書内の単語または句を認識するために学習モデル104によって使用される辞書またはオントロジであってもよい。統計的NERモデルは、特定の分野に特に結び付けられ得る。例えば、MedDRAを使用して構築された統計的NERモデルは、PV分野の概念に特に対応する用語または表現を含み得る。訓練アプリケーション112は、学習モデル104に統計的NERモデルをロードすることができる。統計的NERモデルは、標準言語(例えば、英語、スペイン語、フランス語など)と組み合わせて使用することができる。
【0034】
要求は、訓練データ200を含むことができる。訓練データ200は、分野に対応する文書(および概念)を含むことができる。文書は、テキスト202(例えば、1つまたは複数の文字列)と、テキスト202に割り当てられたラベル204とを含むことができる。ラベル204は、分野に対応するラベルの定義済みのセットからのものとすることができる。さらに、ラベル204の各ラベルは、テキスト202の1つまたは複数の文字列(例えば、単語または句)に割り当てられてもよい。1つまたは複数の文字列に割り当てられたラベルは、文字列を定義することができる。例えば、ラベル204は、特定の分野のエンティティまたはフィールドに対応することができる。したがって、所与の文字列に割り当てられたラベル204の所与のラベルは、所与の文字列が特定の分野の所与のエンティティまたはフィールドに対応することを示す。ラベル204は、各文書のメタデータに含まれてもよい。
【0035】
訓練アプリケーション112は、訓練データ200、訓練データ200に対応するラベル(例えば、メタデータ)204、およびパラメータを、訓練学習モデル104のための学習エンジン102に送信することができる。学習エンジン102は、訓練データ200およびラベル204を受信することができる。
【0036】
学習モデル104は、訓練データ200内の文書の各々について単語埋め込みを生成することができる。単語埋め込みは、文書の単語のベクトル表現であってもよい。ベクトルは、共通のコンテキストおよびセマンティクスを共有する単語がベクトル空間内で互いに近接して配置されるn次元ベクトル空間であってもよい。学習モデル104は、訓練データ200内の文書の各々についてブルーム埋め込みを使用することができる。ブルーム埋め込みは、文書の単語のコンパクトなベクトル表現である。単語埋め込みまたはブルーム埋め込みは、統計的NERモデルを使用して生成することができる。
【0037】
学習モデル104は、単語埋め込み(またはブルーム埋め込み)を単語、文字、句読点などのセグメントにトークン化することができる。トークン化は、言語および特定の分野に固有のルールに基づいて各文書をセグメント化する。また、学習モデル104は、統計モデルを用いて各文書をセグメント化してもよい。例えば、ある文書に「I live in the U.S.A.」という句が含まれている場合、学習アプリケーション112は、「U.S.A.」の後の第1のピリオドが「U.S.A」の略語に対応し、第2のピリオドが文の終わりに対応すると判定してもよい。したがって、句のトークン化は、[I] [live] [in] [the] [U.S.A.] [.]のようにセグメント化され得る。各セグメントは、単一の単語、部分的な単語、または2つ以上の単語を含むことができる。
【0038】
学習モデル104は、各セグメントを特徴のセットに分解し、各それぞれのセグメントの特徴のセットを使用してセグメントの各々に対応するベクトル(例えば、1次元ベクトル)を生成するためにCNNアルゴリズムを実装することができる。学習モデル104は、特徴のセットの各々に重みを割り当てることができる。CNNアルゴリズムについて、図3を参照してさらに詳細に説明する。
【0039】
学習モデル104は、ベクトルに重みを適用して、結果として得られるベクトルを生成することができる。重みは、訓練アプリケーション112から受信したパラメータに含まれてもよい。学習モデル104は、得られたベクトルおよび統計的NERモデルに基づいて、ベクトルに対応するセグメント内の単語に品詞タグを割り当てることができる。品詞タグは、単語が名詞、動詞、形容詞などであるかどうかを示すことができる。学習モデル104は、コンテキストが与えられたセグメント内の単語の品詞を予測することができる。例えば、学習モデル104は、英語のルールに基づいて、単語「the」に続く単語が名詞でなければならないと判定することができる。学習モデル104は、定義済みのルールを使用して、文書内の単語および句に関する推測を行い、文書内の単語間の関係を識別することができる。さらに、学習モデル104は、単語埋め込みを使用して、単語間の関係を識別することができる。さらに、学習モデル104は、分野固有の辞書およびオントロジを含む統計的NERモデルを使用して、文書で使用される語彙を理解することができる。
【0040】
学習モデル104はまた、各セグメントに対応する結果として得られるベクトル、統計的NERモデル、および各セグメント内の単語に割り当てられた品詞タグに基づいて、各それぞれの文書の各セグメント内の単語に依存関係タグを割り当てることができる。依存関係タグは、2つ以上の単語間の関係を定義することができる。例えば、「lazy dog」という句では、学習エンジン104は、「lazy」という単語が「dog」を修飾していると判定することができる。この依存関係は、タグ(例えば、amodタグ)によって表され得る。学習モデル104は、定義済みのルールを使用して、文書内の単語および句に関する推測を行い、文書内の単語間の関係を識別することができる。さらに、学習モデル104は、単語埋め込みを使用して、単語間の関係を識別することができる。さらに、学習モデル104は、分野固有の辞書およびオントロジを含む統計的NERモデルを使用して、文書で使用される語彙を理解することができる。
【0041】
学習モデル104は、各セグメントに対応する結果して得られるベクトル、統計的NERモデル、ならびに各セグメント内のそれぞれの単語に割り当てられた品詞タグおよび依存関係タグに基づいて、各それぞれの文書の各セグメント内の単語にNERラベルを割り当てることができる。NERラベルは、分野に対応するラベルの定義済みのセットから選択され得る。NERラベルは、単語が分野のフィールドまたはエンティティに対応することを示す。学習モデル104は、定義済みのルールを使用して、文書内の単語および句に関する推測を行い、文書内の単語間の関係を識別することができる。さらに、学習モデル104は、単語埋め込みを使用して、単語間の関係を識別することができる。さらに、学習モデル104は、分野固有の辞書およびオントロジを含む統計的NERモデルを使用して、文書で使用される語彙を理解することができる。
【0042】
学習モデル104は、各文書に対応するそれぞれのラベル204に基づいて、各文書の単語に割り当てられたNERラベルを検証することができる。検証結果および勾配208に基づいて、学習モデル104は、各特徴に割り当てられた重みを修正し、各文書をトークン化して各文書の新しいセグメントを生成し、新しいセグメントおよび新しい重みに基づいて新しいベクトルを生成し、新しいベクトルに基づいて新しいセグメントの単語に品詞タグを割り当て、単語に割り当てられた品詞タグおよび新しいベクトルに基づいて新しいセグメントの単語に依存関係タグを割り当て、単語に割り当てられた品詞タグおよび依存関係タグならびに新しいベクトルに基づいて新しいセグメントの単語にNERラベルを割り当て、ラベル204に基づいてNERラベルを検証することができる。学習モデル104は、学習モデル104が所望の精度でNERラベルを割り当てるまで再帰的に重みを修正し、これらのステップを実行することができる。いくつかの実施形態では、品詞タグおよび依存関係タグも検証することができる。
【0043】
学習モデル104が所望の精度でNERラベルを割り当てている場合、学習モデル104は、完全に訓練された学習モデル210になることができる。完全に訓練された学習モデル210は、学習モデル104の異なる構成要素として示されている。完全に訓練された学習モデル210は、学習モデル104を訓練するプロセスを示す。しかしながら、学習モデル104は、完全に訓練された後でもシステム内の同じ構成要素のままであり得ることを理解されたい。
【0044】
クライアントデバイス110は、完全に訓練された学習モデル210を使用して文書を分類する要求を受信することができる。要求は、文書を含むことができる。分類アプリケーション114は、文書およびパラメータを完全に訓練された学習モデル210に送信することができる。完全に訓練された学習モデル210は、文書のための単語埋め込み(またはブルーム埋め込み)を生成することができる。
【0045】
完全に訓練された学習モデル210は、文書のセグメントを生成するために単語埋め込み(またはブルーム埋め込み)をトークン化し、パラメータに含まれるセグメントおよび重みに基づいてベクトルを生成し、統計的NERモデルおよびベクトルに基づいてセグメントの単語に品詞タグを割り当て、単語に割り当てられた品詞タグ、統計的NERモデル、およびベクトルに基づいてセグメントの単語に依存関係タグを割り当て、単語に割り当てられた品詞タグおよび依存関係タグ、統計的NERモデル、およびベクトルに基づいてセグメントの単語にNERラベルを割り当てることができる。完全に訓練された学習モデル210は、NERラベルの割り当てに応答して出力212を生成することができる。さらに、完全に訓練された学習モデル210は、NERラベルに基づいて文書を分類することができる。
【0046】
いくつかの実施形態では、完全に訓練された学習モデル210は、文書およびそれらのそれぞれのNERラベルから単語および句を抽出することができる。完全に訓練された学習モデル210は、文書から抽出された単語および句ならびにそれらのそれぞれのNERラベルを、他の文書から抽出された単語および句ならびにそれらのそれぞれのNERラベルと共に使用して、知識ベースを構築することができる。知識ベースは、エッジを使用して接続されたノードを含むグラフベースの構造であってもよい。ノードは、抽出された単語および句ならびにそれらのそれぞれのNERラベルを含むことができる。完全に訓練された学習モデル210は、ノード間の関係を識別することに基づいてエッジを使用してノードを接続することができる。完全に訓練された学習モデル210は、それぞれの単語または句のNERラベルに基づいて、単語または句を記憶するノード間の関係を決定することができる。知識ベースは、データベース120に記憶することができる。
【0047】
非限定的な例として、画像解析を使用して文書を分類するための上述のシステムを使用して、ICSR文書を分類することができる。ICSR文書には、文献および臨床報告も含まれ得る。上述したように、ICSR文書には、患者、地理、有害作用、ICSRの品質およびコンプライアンス特性、ベネフィット-リスク特性、製品の詳細、研究の詳細、ならびに消費者苦情、法的概念、またはFDA規制製品の使用に関連する他の医学的概念に関する情報が含まれる。製薬業界の企業は、特定の製品に何らかの措置が必要かどうかを判断するためにICSR文書を処理する必要があり得る。
【0048】
ICSRワークフローは、事例受理、事例処理、および事例報告の3つのプロセスブロックを含み得る。受理の際、PV部門は、様々なフォーマットおよび言語で異なるソースからICSRをグローバルに受け取る。報告は、様々な報告者、ヘルスケア専門家、および非ヘルスケア専門家から、ならびに電子メール、ファックス、郵便、および電話などの様々な媒体を介して行われる。事例の受理時にはいくつかの重要な評価が行われ、これは、事前に定義された規制ガイドラインを満たすために、重大度を考慮して事例を送る際に重要である。
【0049】
規制当局に対するコンプライアンスは、それぞれの指定されたタイムライン内での国固有の規制当局への報告必要性に基づいて決定される。したがって、緊急性の低い報告に対して行われる作業努力が伝播するのを制限するために、事前の優先順位付けは正確でなければならない。優先順位付けのための評価は、以下の重要な特性、すなわち、事例の有効性(有効または無効)、事例の重大度(重大または非重大)、関連性(疑わしい製品に関連しているまたは関連していない)、および有害作用のSRE(ラベル付きまたはラベルなし)を含むことができる。事例の有効性は、ICSR文書が有効な文書であるかどうかを示すことができる。事例の重大度は、ICSR文書に記載されている有害作用が重大であるか非重大であるかを示すことができる。SREは、有害作用が重大な、関連するおよび予想される(例えば、製品にラベル表示されている)効果であるかどうかを示すことができる。
【0050】
企業は、有効なICSR文書に記載されている有害作用が重大かつ予想外である場合、特定の製品に関して措置を講じる必要があり得る。結果として、学習モデル104は、所与のICSR文書の事例の有効性、重大度、致命性、および因果関係を分類するように訓練され得る。学習モデル104はまた、予測性についてFDA承認薬の構造化製品ラベル(SPL)における有害作用を識別し、適応外製品の使用の可能性を識別するように訓練され得る。さらに、学習モデル104は、文書内のエンティティを識別するように訓練され得る。学習モデル104を使用して、識別されたエンティティに基づいて文書の要約を生成することができる。学習モデル104は、文書の正確な要約を生成することができるように、文書のコンテキストを理解するように訓練され得る。
【0051】
例えば、クライアントデバイス110は、PV分野に対応するICSR文書を分類するために学習モデル104を訓練する要求を受信することができる。学習モデル104は、CNNおよびBiLSTMアルゴリズムを実装して文書を分類するように構成されたNLPフレームワークであってもよい。
【0052】
非限定的な例として、学習モデル104は、spaCy、spaCy(v2.0)、またはMedSpaCyを実装することができる。SpaCy(v2.0)は、残差接続および層正規化maxout非線形性を有する最先端の畳み込みニューラルネットワーク(CNN)モデルを利用する高度なNLPのためのオープンソースのソフトウェアライブラリである。SpaCyは、タグ付け、構文解析、固有表現認識、および深層学習統合のための標準的なBiLSTMソリューションよりもはるかに優れた効率を提供する。さらに、spaCyは、英語言語モデルにおけるGloVe(グローバルベクトル)サポート機能を有する。ベクトルの最大サイズは、GloVe.840B.300dコモンクロールでは220万である(840Bトークン、2.2M vocab、事例、300dベクトル)。かなり大きなMedDRA語彙の効果的な取り扱いをサポートするために、サブワード特徴を使用する内部実装のブルーム埋め込み戦略が使用された。
【0053】
訓練アプリケーション112は、統計的NERモデルを構築することができる。例えば、訓練アプリケーション112は、統計的NERモデルを作成するために81,900個のMedDRAエンティティを埋め込むことができる。訓練アプリケーション112はまた、統合医療言語システム(UMLS)を使用して統計的NERモデルを構築することができる。統計的NERモデルは、spaCy EntityRuler検索パターン属性として組み込まれてもよい。統計的NERモデルは、ICSR文書内の単語または句を認識するために学習モデル104によって使用される辞書またはオントロジであってもよい。訓練アプリケーション112は、学習モデル104に統計的NERモデルをロードすることができる。統計的NERモデルは、標準言語(例えば、英語、スペイン語、フランス語など)と組み合わせて使用することができる。
【0054】
要求は、訓練データ200を含むことができる。訓練データ200は、ICSR文書を含むことができる。文書は、テキスト202(例えば、1つまたは複数の文字列)と、テキスト202に割り当てられたラベル204とを含むことができる。ラベル204は、PV分野に対応するラベルの定義済みのセットからのものとすることができる。さらに、ラベル204の各ラベルは、テキスト202の1つまたは複数の文字列(例えば、単語または句)に割り当てられてもよい。1つまたは複数の文字列に割り当てられたラベルは、文字列を定義することができる。例えば、ラベル204は、PV分野のエンティティまたはフィールドに対応することができる。したがって、一実施形態では、所与の文字列に割り当てられたラベル204の所与のラベルは、所与の文字列がPV分野の所与のエンティティまたはフィールドに対応することを示す。ラベル204は、各文書のメタデータに含まれてもよい。
【0055】
一例として、ラベル204は、以下のエンティティを含むことができる。
【0056】
【数1】

【0057】
ラベル204は、109個のPVエンティティに対応することができる。Fスコアは、完全に訓練された学習モデル210が所与のエンティティを識別することができる精度のレベルを示す。Fスコアについては、以下でより詳細に説明する。
【0058】
訓練アプリケーション112は、訓練データ200、訓練データ200に対応するラベル(例えば、メタデータ)204、およびパラメータを、訓練学習モデル104のための学習エンジン102に送信することができる。学習エンジン102は、訓練データ200およびラベル204を受信することができる。非限定的な実施例では、訓練データ200は、2万個の機械可読ICSRを含んでいた。これらのICSRは、2年間(2015年1月~2016年12月)にわたってセルジーン社の薬物安全部門によって受理された。ICSRの特性およびサンプリングに関するさらなる詳細は、以前に公開されている(Abatemarcoら、2018年、Mockuteら、2019年)。ハイパーパラメータについては、利用可能な最良実施値をspaCyによって使用した。
【0059】
学習モデル104は、訓練データ200内の文書の各々について単語埋め込み(またはブルーム埋め込み)を生成することができる。学習モデル104は、訓練データ200の文書の各々について単語埋め込み(またはブルーム埋め込み)をトークン化することができる。より具体的には、学習モデル104は、各文書を単語、文字、句読点などのセグメントにトークン化することができる。トークン化は、言語および特定の分野に固有のルールに基づいて各文書をセグメント化する。また、学習モデル104は、統計モデルを用いて各文書をセグメント化してもよい。
【0060】
学習モデル104は、各セグメントを特徴のセットに分解し、各それぞれのセグメントの特徴のセットを使用してセグメントの各々に対応するベクトル(例えば、1次元ベクトル)を生成するためにCNNアルゴリズムを実装することができる。
【0061】
学習モデル104は、結果として得られるベクトルを生成するために、特徴のセットの各特徴に割り当てられた重みをベクトルに適用することができる。重みは、訓練アプリケーション112から受信したパラメータに含まれてもよい。学習モデル104は、得られたベクトルおよび統計的NERモデルに基づいて、ベクトルに対応するセグメント内の単語に品詞タグを割り当てることができる。
【0062】
学習モデル104はまた、各セグメントに対応する結果として得られるベクトル、統計的NERモデル、および各セグメント内の単語に割り当てられた品詞タグに基づいて、各それぞれの文書の各セグメント内の単語に依存関係タグを割り当てることができる。
【0063】
学習モデル104は、各セグメントに対応する結果して得られるベクトル、統計的NERモデル、ならびに各セグメント内のそれぞれの単語に割り当てられた品詞タグおよび依存関係タグに基づいて、各それぞれの文書の各セグメント内の単語にNERラベルを割り当てることができる。NERラベルは、分野に対応するラベルの定義済みのセットから選択され得る。NERラベルは、単語が分野のフィールドまたはエンティティに対応することを示す。例えば、NERラベルは、文書を正確に分類するためにPVイベント検出に重要な単語または句に割り当てられてもよい。
【0064】
学習モデル104は、各文書に対応するそれぞれのラベル204に基づいて、各文書の単語に割り当てられたNERラベルを検証することができる。検証結果および勾配208に基づいて、学習モデル104は、各特徴に割り当てられた重みを修正し、文書ごとに単語(またはブルーム)埋め込みをトークン化して各文書の新しいセグメントを生成し、新しいセグメントおよび新しい重みに基づいて新しいベクトルを生成し、新しいベクトルに基づいて新しいセグメントの単語に品詞タグを割り当て、単語に割り当てられた品詞タグおよび新しいベクトルに基づいて新しいセグメントの単語に依存関係タグを割り当て、単語に割り当てられた品詞タグおよび依存関係タグならびに新しいベクトルに基づいて新しいセグメントの単語にNERラベルを割り当て、ラベル204に基づいてNERラベルを検証することができる。学習モデル104は、学習モデル104が所望の精度でNERラベルを割り当てるまで再帰的に重みを修正し、これらのステップを実行することができる。勾配208は、学習モデル104を訓練するために重みを最適化するように構成された勾配損失関数であってもよい。
【0065】
非限定的な実施例では、2万個の注釈付きICSR文書を使用して学習モデル104を訓練することに基づいて、75%の閾値Fスコアを使用して、学習モデル104が完全に訓練されたかどうかを判定した。以下の式を使用してFスコアを生成した。
【0066】
精度=真陽性/(真陽性+偽陽性)
再現率=真陽性/(真陽性+偽陰性)
F1=2×(精度×再現率)/(精度+再現率)
学習モデル104が所望の精度でNERラベルを割り当てている場合、学習モデル104は、完全に訓練された学習モデル210であってもよい。クライアントデバイス110は、完全に訓練された学習モデル210を使用してICSR文書を分類する要求を受信することができる。要求は、ICSR文書を含むことができる。分類アプリケーション114は、ICSR文書およびパラメータを完全に訓練された学習モデル210に送信することができる。完全に訓練された学習モデル210は、ICSR文書のための単語(ブルーム)埋め込みを生成することができる。完全に訓練された学習モデル210は、文書のセグメントを生成するために単語埋め込みをトークン化し、パラメータに含まれるセグメントおよび重みに基づいてベクトルを生成し、統計的NERモデルおよびベクトルに基づいてセグメントの単語に品詞タグを割り当て、単語に割り当てられた品詞タグ、統計的NERモデル、およびベクトルに基づいてセグメントの単語に依存関係タグを割り当て、単語に割り当てられた品詞タグおよび依存関係タグ、統計的NERモデル、およびベクトルに基づいてセグメントの単語にNERラベルを割り当てることができる。完全に訓練された学習モデル210は、NERラベルの割り当てに応答して出力212を生成することができる。
【0067】
出力212は、ICSR文書を分類するのに必要な重要な単語または句のNERラベルを含むことができる。例えば、出力212は、「ReportersSeriousHospitalization」として「入院」という単語のNERラベルを含むことができ、「メラノーマ」という単語は、AE10053571としてNERラベルを含むことができる。
【0068】
完全に訓練された学習モデル210は、NERラベルに基づいてICSR文書を分類することができる。例えば、完全に訓練された学習モデル210は、事例の有効性、重大度、致命性、および因果関係についてICSR文書を分類し、FDA承認薬の予測性について構造化製品ラベル(SPL)に存在する有害作用を識別し、適応外製品の使用の可能性を識別することができる。
【0069】
完全に訓練された学習モデル210は、製品指示(複数可)と関連するAEとの間の任意の検出された関係と共に、カバーされていないエンティティを含む出力を生成することができる。一例として、Streamlitを使用して、出力をレンダリングするためのウェブインターフェースを生成することができる。完全に訓練された学習モデル210は、クライアントデバイス110上に出力を表示させることができる。
【0070】
いくつかの実施形態では、完全に訓練された学習モデル210は、ICSR文書およびそれらのそれぞれのNERラベルから単語および句を抽出することができる。完全に訓練された学習モデル210は、ICSR文書から抽出された単語および句ならびにそれらのそれぞれのNERラベルを、他の文書(ICSRまたはその他)からの抽出された単語および句ならびにそれらのそれぞれのNERラベルと共に使用して、知識ベースを構築することができる。知識ベースは、薬物、薬物の種類、疾患、患者の人口統計などに関連し得る。
【0071】
知識ベースは、エッジを使用して接続されたノードを含むグラフベースの構造であってもよい。ノードは、抽出された単語および句ならびにそれらのそれぞれのNERラベルを含むことができる。完全に訓練された学習モデル210は、ノード間の関係を識別することに基づいてエッジを使用してノードを接続することができる。完全に訓練された学習モデル210は、それぞれの単語または句のNERラベルに基づいて、単語または句を記憶するノード間の関係を決定することができる。知識ベースは、データベース120に記憶することができる。
【0072】
知識ベースは、薬物、薬物の種類、疾患、患者の人口統計などに関する異なる態様を決定するために、異なる産業にわたって使用され得る。産業は、技術、規制、医療などを含み得る。例えば、FDAなどの規制産業は、知識ベースを使用して薬物の様々な効果を識別することができる。別の例では、薬物の製造業者は、知識ベースを使用して、有害作用を引き起こしている薬物の成分を識別することができる。さらに別の例では、医療専門家または研究者は、疾患のための薬物または療法を識別するために知識ベースを使用することができる。
【0073】
図3は、例示的な実施形態による、CNNアルゴリズムを実装する学習モデルの一例のブロック図である。図3について、図1-2を用いて説明する。
【0074】
上述したように、学習モデル104は、CNNなどの教師付きディープラーニングアルゴリズムを実装して、それらの対応する画像ファイルに基づいて文書を分類することができる。CNNアルゴリズム300を使用して、文書の各トークン化セグメントを表すベクトルを生成することができ、ベクトルを使用して、品詞タグ、依存関係タグ、およびNERラベルを割り当てることができる。
【0075】
CNNアルゴリズム300は、順相と逆相の二相で訓練することができる。順相は、畳み込み層304および308と、プーリング層306および310と、全結合層312および314とを含む。畳み込み層304および308は、特徴マップを生成するために入力セグメント302にフィルタを適用することができる。プーリング層306および310は、縮小された特徴マップを生成することができる。次いで、全結合層312および314は、出力316を生成するために重みおよびバイアスを使用して画像の特徴を分類することができる。出力316は、割り当てられた品詞タグ、依存関係タグ、およびNERラベルであってもよい。フィルタ、重み、およびバイアスの値は、CNNアルゴリズム300によって(例えば、クライアントデバイス110から)受信されたパラメータとすることができる。
【0076】
逆相では、CNNアルゴリズム300は、逆伝播を使用して、CNNアルゴリズムが品詞タグ、依存関係タグ、およびNERラベルを正しく割り当てることができるかどうかを判定することができる。CNNアルゴリズムは、勾配降下アルゴリズムを使用してフィルタ、重み、およびバイアスの値を更新し、入力セグメント302上の順相を再実行することができる。
【0077】
一例として、CNNアルゴリズム300は、入力セグメント302を含む文書の単語埋め込みのトークン化セグメントを使用して訓練されてもよい。入力セグメント302は、文書内の1つまたは複数の単語に対応していてもよい。非限定的な例として、入力セグメント302は、160×160ピクセルのサイズを有することができ、160×160の次元配列となる。160×160次元配列は、25600次元ベクトルに平坦化することができる。ベクトルの各成分は、0と1との間の値を含み得る。値は、ピクセルの強度を記述することができる。入力セグメント302は、グレースケール形式の一意のJPEG「指紋」を含むことができる。
【0078】
畳み込み層304において、CNNアルゴリズム300は、入力セグメント302に対して特徴抽出を実行することができる。特徴は、入力セグメント302の一部を含むことができる。例えば、特徴は、入力セグメント302の異なるエッジまたは形状であってもよい。CNNアルゴリズムは、異なるタイプの特徴を抽出して、異なる種類の特徴マップを生成することができる。例えば、CNNアルゴリズム300は、入力セグメント302の異なる部分にわたって数の配列(例えば、カーネル)を適用することができる。カーネルは、フィルタと呼ばれることもある。上述したように、異なる特徴マップを生成するために、異なる種類のフィルタを入力セグメント302に適用することができる。例えば、入力セグメント302内の形状を識別するためのフィルタは、エッジ検出のためのフィルタとは異なっていてもよい。したがって、異なるカーネルを適用して、エッジ検出と比較して入力セグメント302内の形状を識別することができる。各カーネルは、異なる数の配列を含むことができる。フィルタまたはカーネルの値は、ランダムに割り当てられ、(例えば、勾配降下アルゴリズムを使用して)経時的に最適化され得る。カーネルは、入力セグメント302の異なる部分にわたってスライディングウィンドウとして適用されてもよい。カーネルは、入力セグメント302の所与の部分と合計されて出力値を生成することができる。出力値は、特徴マップに含まれてもよい。特徴マップは、入力セグメント302の各部分に適用される異なるカーネルからの出力値を含むことができる。生成された特徴マップは、2次元配列であってもよい。
【0079】
プーリング層306では、CNNアルゴリズム300は、畳み込み層304で生成された各特徴マップの次元を削減することができる。特に、CNNアルゴリズム300は、所与の特徴マップの部分を抽出し、残りを破棄することができる。画像をプールすると、重要な特徴が維持される。例えば、特徴マップは、活性化領域および非活性化領域を含むことができる。活性化領域は、検出された特徴を含むことができ、非活性化領域は、セグメントの部分が特徴を含まなかったことを示すことができる。プーリングは、非活性化領域を除去することができる。これにより、画像のサイズが縮小される。CNNアルゴリズム300は、プーリング層における最大プーリングまたは平均プーリングを使用して、これらの動作を実行することができる。最大プーリングは、残りの値を破棄しながら、特徴マップの部分のより高い値を保持する。平均プーリングは、特徴マップの異なる部分の平均値を保持する。そこで、CNNアルゴリズム300は、畳み込み層304で生成された特徴マップの各々について、縮小された特徴マップを生成してもよい。
【0080】
畳み込み層308では、CNNアルゴリズム300は、プーリング層306で生成された縮小された特徴マップに基づいて追加の特徴マップを生成することができる。さらに、プーリング層310では、CNNアルゴリズム300は、畳み込み層308で生成された特徴マップに基づいて、さらに縮小された特徴マップを生成することができる。複数の異なる畳み込み層およびプーリング層をCNNアルゴリズム300に追加することができる。
【0081】
畳み込み層304および308はまた、正規化線形ユニット(ReLU)関数を入力セグメント302に適用することができる。ReLU関数は、入力セグメント302から線形性を除去するために入力セグメント302に適用される。例えば、ReLU関数は、入力セグメント302からすべての黒色要素を除去し、灰色および白色のみを保持することができる。これにより、入力セグメント302において色がより急激に変化し、入力セグメント302から線形性が除去される。
【0082】
畳み込み層304および308ならびにプーリング層306および310は、特徴学習に使用することができる。特徴学習は、CNNアルゴリズム300が入力セグメント302内の所望の特徴を識別し、したがって入力セグメント302を正確に分類することを可能にする。したがって、畳み込み層304および308ならびにプーリング層306および310を最適化することによって、CNNアルゴリズム300は、入力セグメント302を分類するのに必要な特徴を抽出するために、入力セグメント302に正しいフィルタを適用することができる。
【0083】
全結合層312では、CNNアルゴリズム300は、プーリング層310で生成された縮小された特徴マップを1次元配列(またはベクトル)に平坦化することができる。全結合層はニューラルネットワークである。CNNアルゴリズム300は、全結合層312内の1次元配列に対して線形変換を実行することができる。CNNアルゴリズム300は、重みおよびバイアスを1次元アレイに適用することによって線形変換を実行して、全結合層314を生成することができる。最初に、重みおよびバイアスはランダムに初期化され、経時的に最適化され得る。
【0084】
全結合層314では、CNNアルゴリズム300は、入力セグメント302のそれぞれの単語に品詞タグ、依存関係タグ、およびNERラベルを割り当てるために、活性化層関数(例えば、ソフトマックスまたはシグモイド)などの非線形変換を実行することができる。
【0085】
CNNアルゴリズム300は、入力セグメント302のその分類を検証するために逆伝播を使用することができる。図2に記載されるように、訓練モードにおいて、CNNアルゴリズム300は、文書および対応する文書のメタデータを受信し得る。メタデータは、文書の異なる単語または句に割り当てられたラベル204を含むことができる。CNNアルゴリズム300は、文書の単語または句に割り当てられたNERラベルを、その文書に対応するラベル204と比較することができる。CNNアルゴリズム300によって文書に割り当てられたNERラベルが、文書に対応するラベル204と一致する場合、CNNアルゴリズム300は、NERラベルが正しく割り当てられたと判定し得る。あるいは、CNNアルゴリズム300によって文書に割り当てられた分類が文書のメタデータに含まれる分類と一致しない場合、CNNアルゴリズム300は、NERラベルが誤って割り当てられたと判定することができる。いくつかの実施形態では、品詞タグおよび依存関係タグも検証することができる。
【0086】
逆伝播はまた、品詞タグおよび依存関係タグならびにNERラベルが文書の単語または句により正確に割り当てられるように、入力パラメータを最適化することを含むことができる。入力パラメータは、カーネルの値、重み、バイアスなどを含むことができる。勾配降下(例えば、勾配208)を使用してパラメータを最適化することができる。
【0087】
勾配降下は、CNNアルゴリズム300を最適化するための反復プロセスである。勾配降下は、CNNアルゴリズム300のパラメータを更新し、学習モデル104に、各文書の単語または句に品詞タグおよび依存関係タグならびにNERラベルを割り当てさせ、品詞タグおよび依存関係タグならびにNERラベルを検証させることができる。CNNアルゴリズム300を実行する各反復の後、パラメータはさらに更新(または最適化)されてもよい。CNNアルゴリズム300の各反復は、エポックと呼ばれ得る。CNNアルゴリズム300は、所定数のエポックを実行することで、完全に訓練されたと見なすことができる。所定数のエポックは、品詞タグおよび依存関係タグならびにNERラベルを割り当てる所望の精度に基づいて選択することができる。
【0088】
非限定的な例として、CNNアルゴリズム300は、ICSR文書を分類するための学習モデル104によって実装されてもよい。学習モデル104は、CNNアルゴリズム300を使用してICSR文書内の単語または句を認識し、学習モデル104が事例の有効性、重大度、致命性、および因果関係を判定し、FDA承認薬の構造化製品ラベル(SPL)に存在する予測性を識別し、適応外製品の使用の可能性を識別できるようにしてもよい。
【0089】
上記のように、CNNアルゴリズム300は、所定数のエポックを実行することで、完全に訓練されたと見なすことができる。ユーザ(例えば、開発者)は、CNNアルゴリズム300のF-1スコアおよび曲線下面積(AUC)スコアに基づいてCNNアルゴリズムが完全に訓練されたと決定することができる。F-1スコアおよび曲線下面積(AUC)曲線は、それぞれの文書の単語または句に品詞タグおよび依存関係タグならびにNERラベルを割り当てる精度を示すことができる。
【0090】
図4は、例示的な実施形態による、学習モデルを訓練するために使用される例示的な文書を示す。文書400は、ICSR文書であってもよく、ICSR文書を分類するために必要な重要な単語または句402を含むことができる。文書400は、ICSR文書を分類するための学習モデル(例えば、図1に示すような学習モデル104)を訓練するために使用され得る。文書400は、注釈404(例えば、図2に示すように、ラベル204)を含むことができる。注釈404は、ICSR文書を分類するために必要な重要語または句402に割り当てられたラベルであってもよい。例えば、「Name」という単語に「ReporterTypeHCP」というラベルを割り当てることができる。注釈204を使用して、NERラベルを文書400に割り当てた結果を検証することができる。
【0091】
図5は、例示的な実施形態による、学習モデルのモデル設計フレームワークを示すブロック図である。モデル設計フレームワーク500は、学習モデル(例えば、学習モデル104または完全に訓練された学習モデル210)によって実装することができる。モデル設計フレームワーク500は、訓練データ200を使用して学習モデルを訓練するために使用することができる。辞書またはオントロジは、モデル設計フレームワーク500にロードすることができる。例えば、辞書またはオントロジは、MedRNAまたはUMLSであってもよい。
【0092】
学習モデルが訓練されると、上述したように、モデル設計フレームワーク500は、カスタム統計NERモデルおよび既存の言語統計モデルを使用して語彙を構築することができる。モデル設計フレームワーク500は、分類のための文書を受け取ることができる。モデル設計フレームワーク500は、語彙を使用して文書の単語または句を認識するために、文書をトークン化し、CNNアルゴリズムを実装することができる。モデル設計フレームワーク500は、文書内の単語または句に品詞タグおよび依存関係タグを割り当て、文書の単語または句にNERラベルを割り当てることができる。モデル設計フレームワーク500は、文書を分類するのに必要な文書の単語または句に対するNERラベルを含む出力212を生成することができる。モデル設計フレームワーク500は、NERラベルを割り当てるときに文書のコンテキストを理解することができる。例えば、胃炎が出力212のテキストに含まれているにもかかわらず、完全な句は「胃炎を除外した...」と読める。これは、文書を分類する上で重要ではないため、胃炎にラベルを付ける必要がないことを示している。
【0093】
図6は、例示的な実施形態による、モデル承認フローのブロック図である。モデル承認フロー600を使用して、学習モデルが許容可能なレベルの精度で品詞タグおよび依存関係タグおよびNERラベルを割り当てるかどうかを判定することができる。動作602において、訓練コーパス(例えば、訓練データ)を作成することができる。より具体的には、内容領域専門家(SME)は、文書を分類するのに必要な文書の単語または句に割り当てられたラベルで文書に注釈を付けることができる。SMEは、注釈の品質チェックを実行することができる。注釈付き文書は、訓練コーパスの一部であってもよく、訓練コーパスは、訓練データリポジトリ(例えば、図1に示すようなデータベース120)に記憶することができる。
【0094】
動作604において、学習モデル(例えば、図1に示すような学習モデル104)は、訓練データリポジトリに記憶された訓練コーパスを使用して訓練することができる。開発者またはSMEは、訓練コーパスを使用して学習を訓練する要求を送信することができる。学習モデルは、上述したように、訓練用コーパスを用いて訓練されてもよい。割り当てられた品詞タグおよび依存関係タグならびにNERラベルの検証に基づいて、学習モデルは、割り当てられた品詞タグおよび依存関係タグならびにNERラベルの学習モデルの割り当ての精度が閾値を満たすかどうかを判定することができる。閾値は、予めプログラムされていてもよく、または学習モデルを訓練する要求において提供されてもよい。学習モデルの閾値の精度が満たされない場合、同じ文書のセットまたは異なる文書のセットで学習モデルを再訓練する要求が送信され得る。
【0095】
学習モデルの分類の精度が閾値を満たす場合、モデル承認フロー600は動作606に進むことができる。動作606において、SMEは、割り当てられた品詞タグおよび依存関係タグならびにNERラベルの学習モデルの割り当てを手動で確認することができる。いくつかの実施形態では、SMEは、学習モデルと同じ文書のサブセットの分類を検証することができる。あるいは、SMEは、文書の異なるサブセットの分類を検証することができる。文書のサブセットは、文書のセットの10%であってもよい。
【0096】
SMEは、文書のメタデータに基づいて、学習モデルが文書のサブセットの各文書を正確に分類したかどうかを確認することができる。さらに、SMEは、メタデータが正確であるかどうかを確認することもできる。割り当てられた品詞タグおよび依存関係タグ、ならびに文書のサブセットのNERラベルの学習モデルの割り当ての検証に応答して、SMEは、許容品質限界(AQL)が達成されたかどうかを判定することができる。AQLは、学習モデルの所望の精度レベルに関連付けられた値であってもよい。いくつかの実施形態では、AQLは閾値と同じであってもよい。他の実施形態では、AQLは閾値と異なっていてもよい。SMEが、AQLが満たされていないと判定した場合、学習モデルを再訓練するために要求を送信することができる。AQLが満たされたとSMEが判定したことに応答して、SMEは学習モデルを承認することができる。学習モデルは、完全に訓練されており、文書を分類する準備ができていると考えることができる。
【0097】
図7は、例示的な実施形態による、訓練された学習モデルを使用して文書内のエンティティ(例えば、単語または句)を認識する際のFスコアを示すグラフである。グラフ700は、訓練された学習モデル(例えば、図2に示すような完全に訓練された学習モデル210)が、0~50%の精度のFスコアで109個のエンティティのうちの54.13%を正確に識別することができることを示している。さらに、訓練された学習モデルは、51~74%の精度のFスコアで109個のエンティティのうちの22.02%を正確に識別することができる。さらに、訓練された学習モデルは、75%を超える精度のFスコアで109個のエンティティのうちの23.85%を正確に識別することができる。
【0098】
図8は、例示的な実施形態による、学習モデルの損失関数を示すグラフ800である。グラフ800のy軸は、予測値と実際値との差を表す。x軸は、学習モデル(例えば、学習モデル104)が訓練された反復回数を表す。各反復はエポックと呼ぶことができる。グラフ800は、x軸にまたがる100エポックを示すことができる。グラフ800は、学習モデルの訓練の反復回数が多いほど、予測値と実績値との差が小さくなることを示している。したがって、予測されたエンティティとラベル付けされたエンティティとの間の誤差は、100エポックにわたって最小化された。グラフ800の損失関数は、損失の滑らかな減少を示し、訓練の過程にわたって約74%の損失減少をもたらす。
【0099】
図9は、例示的な実施形態による、文書を要約する完全に訓練された学習モデルを示す。組織内のサマライザは、本明細書に記載の完全に訓練された学習モデルを実装する(例えば、学習モデル104または完全に訓練された学習モデル210)。NLTKは、従来のNLPモデルを実装する。NLTKサマライザは、文書900の要約902を生成することができ、組織内サマライザは、文書900の要約904を生成することができる。要約904に示すように、組織内サマライザは、要約902と比較して、要約904における文書900の範囲を広くしている。NLTKサマライザは、要約902を生成するとき、文書900の限られた部分に集中する。したがって、本明細書に記載の完全に訓練された学習モデルを実装する組織内のサマライザは、要約を生成するときに文書のより広い範囲を提供することによって、従来のNLPモデルを実装する従来のサマライザを超える利点を提供する。
【0100】
図10は、実施形態による学習モデルを訓練するためのプロセスを示すフローチャートである。方法1000は、ハードウェア(例えば、回路、専用論理、プログラマブル論理、マイクロコードなど)、ソフトウェア(例えば、処理デバイス上で実行される命令)、またはそれらの組み合わせを含むことができる処理ロジックによって実行することができる。本明細書で提供される開示を実行するためにすべてのステップが必要とされるわけではないことを理解されたい。さらに、当業者によって理解されるように、ステップのいくつかは、同時にまたは図10に示されたものとは異なる順序で実行されてもよい。
【0101】
方法1000について図1を参照して説明する。しかしながら、方法1000は、その例示的な実施形態に限定されない。
【0102】
動作1002において、学習エンジン102は、分野の文書を分類するように学習モデル104を訓練する要求を受信する。要求は、文書のセットおよび文書の各々のメタデータを含む。メタデータは、各文書内の特定の単語または句をラベル付けする注釈であってもよい。学習モデル104は、CNNおよびBiLSTMを使用するNLPフレームワークであってもよい。
【0103】
動作1004において、学習モデル104は、文書のセットの各文書について単語埋め込みのセットを生成する。単語埋め込みは、文書の各々の単語のベクトル表現であってもよい。単語はベクトル空間に配置され得る。単語は、文脈および意味においてより近い他の単語に近接して配置されてもよい。単語埋め込みは、各それぞれの文書からの単語を含むことができる。単語埋め込みは、ブルーム埋め込みであってもよい。
【0104】
動作1006において、学習モデル104は、単語埋め込みのセットにおける各単語埋め込みをセグメントのセットにトークン化する。各セグメントは、単語埋め込みからの単語を含む。学習モデル104は、統計的NERモデルおよび一般的な言語ルールを使用して、単語埋め込みから単語をセグメント化することができる。
【0105】
動作1008において、学習モデル104は、文書のセットの各文書のセグメントのセットのセグメントの各々を特徴のセットに分解することによって、分野の文書のセットの各文書を分類するように訓練される。CNNアルゴリズムを使用して、特徴のセットを生成することができる。
【0106】
動作1010において、学習モデル104は、対応するセグメントの特徴のセットの各特徴に割り当てられた所定の重みに基づいて、文書のセットの各文書について、セグメントのセットの各々に品詞タグを割り当てる。品詞タグは、単語が名詞、動詞、形容詞などであるかどうかを定義する。
【0107】
動作1012において、学習モデル104は、対応するセグメントに割り当てられた品詞タグと、対応する文字列の特徴のセットの各特徴に割り当てられた所定の重みとに基づいて、文書のセットの各文書のセグメントのセットのセグメントの各々に依存関係タグを割り当てる。依存関係タグは、文書内の単語と他の単語との関係を示す。例えば、句「なまけものの犬」は、単語「なまけもの」が名詞「犬」を修飾することを示す。
【0108】
動作1014において、学習モデル104は、対応するセグメントに割り当てられた品詞タグおよび依存関係タグと、対応するセグメントの特徴のセットの各特徴に割り当てられた所定の重みとに基づいて、分野に対応する定義済みのラベルのセットから、文書のセットの各文書のセグメントのセットのセグメントの各々に、固有表現認識(NER)ラベルを割り当てる。学習モデル104は、各それぞれの単語とともにNERタグを含む出力を生成することができる。学習モデル104は、文書を分類するために必要な単語のNERタグを生成することができる。
【0109】
動作1016において、学習モデル104は、各文書のメタデータをそれぞれの文書の割り当てられたNERラベルと比較することによって、割り当てられたNERラベルを検証する。動作1008~1016は、学習モデルを訓練するために再帰的に実行されてもよい。訓練の反復ごとに、特徴に割り当てられた重みは、勾配損失関数に基づいて最適化され得る。
【0110】
図11は、一実施形態による、訓練された学習モデルを使用して文書を分類するためのプロセスを示すフローチャートである。方法1100は、ハードウェア(例えば、回路、専用論理、プログラマブル論理、マイクロコードなど)、ソフトウェア(例えば、処理デバイス上で実行される命令)、またはそれらの組み合わせを含むことができる処理ロジックによって実行することができる。本明細書で提供される開示を実行するためにすべてのステップが必要とされるわけではないことを理解されたい。さらに、当業者によって理解されるように、ステップのいくつかは、同時にまたは図11に示されたものとは異なる順序で実行されてもよい。
【0111】
方法1100について図1を参照して説明する。しかしながら、方法1100は、その例示的な実施形態に限定されない。
【0112】
動作1102において、学習エンジン102は、訓練された学習モデルを使用して新しい文書を分類する要求を受信する。訓練された学習モデルは、文書の分野に対応する文書を分類するように構成することができる。訓練された学習モデルは、CNNおよびBiLSTMを使用するNLPフレームワークを実装することができる。学習モデル104は、完全に訓練された学習モデルであってもよい。
【0113】
動作1104において、学習モデル104は、文書の単語埋め込みを生成する。単語埋め込みは、文書からの単語を含むことができる。単語埋め込みは、ブルーム埋め込みであってもよい。
【0114】
動作1106において、学習モデル104は、単語埋め込みをセグメントのセットにトークン化する。各セグメントは、単語埋め込みからの単語を含む。学習モデル104は、統計的NERモデルおよび一般的な言語ルールを使用して、単語埋め込みから単語をセグメント化することができる。
【0115】
動作1108において、学習モデル104は、文書のセグメントのセットのセグメントの各々を特徴のセットに分解する。CNNアルゴリズムを使用して、特徴のセットを生成することができる。
【0116】
動作1110において、学習モデル104は、対応するセグメントの特徴のセットの各特徴に割り当てられた所定の重みに基づいて、セグメントのセットのセグメントの各々に品詞タグを割り当てる。品詞タグは、単語が名詞、動詞、形容詞などであるかどうかを定義する。
【0117】
動作1112において、学習モデル104は、対応するセグメントに割り当てられた品詞タグと、対応する文字列の特徴のセットの各特徴に割り当てられた所定の重みとに基づいて、セグメントのセットのセグメントの各々に依存関係タグを割り当てる。依存関係タグは、文書内の単語と他の単語との関係を示す。
【0118】
動作1114において、学習モデル104は、対応するセグメントに割り当てられた品詞タグおよび依存関係タグと、対応するセグメントの特徴のセットの各特徴に割り当てられた所定の重みとに基づいて、分野に対応する定義済みのラベルのセットから、セグメントのセットのセグメントの各々に、固有表現認識(NER)ラベルを割り当てる。学習モデル104は、各それぞれの単語とともにNERタグを含む出力を生成することができる。学習モデル104は、文書を分類するために必要な単語のNERタグを生成することができる。
【0119】
動作1116において、学習モデル104は、訓練された学習モデルを使用して、割り当てられたNERラベルに基づいて分野に対応する新しい文書を分類する。一例では、学習モデルは、事例の有効性、重大度、致命性、および因果関係に基づいて医薬品安全性監視文書を分類するように構成される。学習モデルは、予測性についてFDA承認薬の構造化製品ラベル(SPL)における有害作用を識別し、適応外製品の使用の可能性を識別するようにさらに構成され得る。
【0120】
図12は、コンピュータシステム1200の例示的な構成要素のブロック図である。例えば、本明細書で説明する実施形態のいずれか、ならびにそれらの組み合わせおよび部分的組み合わせを実施するために、1つまたは複数のコンピュータシステム1200を使用することができる。コンピュータシステム1200は、プロセッサ1204などの1つまたは複数のプロセッサ(中央処理装置またはCPUとも呼ばれる)を含むことができる。プロセッサ1204は、通信インフラストラクチャまたはバス1206に接続することができる。
【0121】
コンピュータシステム1200はまた、ユーザ入出力装置1203を介して通信インフラストラクチャ1206と通信することができるモニタ、キーボード、ポインティングデバイスなどのユーザ入出力インターフェース1202を含むことができる。
【0122】
プロセッサ1204のうちの1つまたは複数は、グラフィックス処理装置(GPU)であってもよい。一実施形態では、GPUは、数学的に集中的なアプリケーションを処理するように設計された専用の電子回路であるプロセッサであってもよい。GPUは、コンピュータグラフィックスアプリケーション、画像、ビデオなどに共通の数学的に集中的なデータなど、データの大きなブロックの並列処理に効率的な並列構造を有することができる。
【0123】
コンピュータシステム1200はまた、ランダムアクセスメモリ(RAM)などのメインまたは1次メモリ1208を含むことができる。メインメモリ1208は、1つまたは複数のレベルのキャッシュを含んでもよい。メインメモリ1208は、制御論理(すなわち、コンピュータソフトウェア)および/またはデータを記憶していてもよい。
【0124】
コンピュータシステム1200はまた、1つまたは複数の2次記憶装置またはメモリ1210を含んでもよい。2次メモリ1210は、例えば、ハードディスクドライブ1212および/または取り外し可能な記憶ドライブ1214を含むことができる。
【0125】
取り外し可能な記憶ドライブ1214は、取り外し可能な記憶ユニット1218と対話することができる。取り外し可能な記憶ユニット1218は、コンピュータソフトウェア(制御ロジック)および/またはデータを記憶しているコンピュータ使用可能または可読記憶装置を含むことができる。取り外し可能な記憶ユニット1218は、プログラムカートリッジおよびカートリッジインターフェース(ビデオゲーム装置に見られるものなど)、取り外し可能なメモリチップ(EPROMまたはPROMなど)および関連するソケット、メモリスティックおよびUSBポート、メモリカードおよび関連するメモリカードスロット、ならびに/または任意の他の取り外し可能な記憶ユニットおよび関連するインターフェースであってもよい。取り外し可能な記憶ドライブ1214は、取り外し可能な記憶ユニット1218から読み書きすることができる。
【0126】
2次メモリ1210は、コンピュータプログラムおよび/または他の命令および/またはデータがコンピュータシステム1200によってアクセスされることを可能にするための他の手段、デバイス、構成要素、手段、または他の手法を含むことができる。そのような手段、デバイス、構成要素、手段、または他の手法は、例えば、取り外し可能な記憶ユニット1222およびインターフェース1220を含むことができる。取り外し可能な記憶ユニット1222およびインターフェース1220の例は、プログラムカートリッジおよびカートリッジインターフェース(ビデオゲーム装置に見られるものなど)、取り外し可能なメモリチップ(EPROMまたはPROMなど)および関連するソケット、メモリスティックおよびUSBポート、メモリカードおよび関連するメモリカードスロット、ならびに/または任意の他の取り外し可能な記憶ユニットおよび関連するインターフェースであってもよい。
【0127】
コンピュータシステム1200は、通信またはネットワークインターフェース1224をさらに含むことができる。通信インターフェース1224は、コンピュータシステム1200が、外部装置、外部ネットワーク、外部エンティティなど(個別にかつ集合的に参照番号1228で参照される)の任意の組み合わせと通信し、対話することを可能にすることができる。例えば、通信インターフェース1224は、コンピュータシステム1200が有線および/または無線(またはそれらの組み合わせ)であり得、かつLAN、WAN、インターネットなどの任意の組み合わせを含み得る通信経路1226を介して外部または遠隔装置1228と通信することを可能にし得る。制御論理および/またはデータは、通信経路1226を介してコンピュータシステム1200との間で送信することができる。
【0128】
コンピュータシステム1200はまた、いくつかの非限定的な例を挙げると、携帯情報端末(PDA)、デスクトップワークステーション、ラップトップもしくはノートブックコンピュータ、ネットブック、タブレット、スマートフォン、スマートウォッチもしくは他のウェアラブル、機器、モノのインターネットの一部、および/または組み込みシステム、またはそれらの任意の組み合わせのいずれかであってもよい。
【0129】
コンピュータシステム1200は、リモートまたは分散型クラウドコンピューティングソリューション、ローカルまたはオンプレミスソフトウェア(「オンプレミス」クラウドベースのソリューション)、「サービスとしての」モデル(例えば、サービスとしてのコンテンツ(CaaS)、サービスとしてのデジタルコンテンツ(DCaaS)、サービスとしてのソフトウェア(SaaS)、サービスとしての管理ソフトウェア(MSaaS)、サービスとしてのプラットフォーム(PaaS)、サービスとしてのデスクトップ(DaaS)、サービスとしてのフレームワーク(FaaS)、サービスとしてのバックエンド(BaaS)、サービスとしてのモバイルバックエンド(MBaaS)、サービスとしてのインフラストラクチャ(IaaS)など)、および/または前述の例または他のサービスもしくは配信パラダイムの任意の組み合わせを含むハイブリッドモデルを含むがこれに限定されない任意の配信パラダイムを介して任意のアプリケーションおよび/またはデータにアクセスまたはホスティングするクライアントまたはサーバであってもよい。
【0130】
コンピュータシステム1200内の任意の適用可能なデータ構造、ファイルフォーマット、およびスキーマは、これらに限定されないが、Java(登録商標)Script Object Notation(JSON)、Extensible Markup Language(XML)、Yet Another Markup Language(YAML)、Extensible Hypertext Markup Language(XHTML)、Wireless Markup Language(WML)、MessagePack、XML User Interface Language(XUL)、または任意の他の機能的に同様の表現を単独でまたは組み合わせて含む規格から導出されてもよい。あるいは、独自のデータ構造、フォーマット、またはスキーマを、排他的に、または既知もしくはオープン規格と組み合わせて使用することができる。
【0131】
いくつかの実施形態では、記憶された制御ロジック(ソフトウェア)を有する有形の非一時的コンピュータ使用可能または可読媒体を備える有形の非一時的装置または製品は、本明細書ではコンピュータプログラム製品またはプログラム記憶装置とも呼ばれ得る。これには、コンピュータシステム1200、メインメモリ1208、2次メモリ1210、ならびに取り外し可能な記憶ユニット1218および1222、ならびにこれらの任意の組み合わせを具現化する有形の製品が含まれるが、これらに限定されない。そのような制御ロジックは、(コンピュータシステム1200などの)1つまたは複数のデータ処理デバイスによって実行されると、そのようなデータ処理デバイスを本明細書で説明されるように動作させることができる。
【0132】
本開示の実施形態は、指定された機能およびその関係の実装を示す機能的構築ブロックを用いて上述されている。これらの機能的構築ブロックの境界は、説明の便宜上、本明細書では任意に定義されている。指定された機能およびそれらの関係が適切に実行される限り、代替の境界が定義されてもよい。
【0133】
特定の実施形態の前述の説明は、本開示の一般的な性質を十分に明らかにするので、他の者は、当業者の技術の範囲内で知識を適用することによって、本開示の一般的な概念から逸脱することなく、過度の実験を行うことなく、そのような特定の実施形態を様々な用途に容易に修正および/または適合させることができる。したがって、そのような適合および修正は、本明細書に提示された教示およびガイダンスに基づいて、開示された実施形態の均等物の意味および範囲内にあることが意図されている。本明細書の表現または用語は、本明細書の用語または表現が教示およびガイダンスに照らして当業者によって解釈されるように、限定ではなく説明を目的とするものであることを理解されたい。
【0134】
本開示の幅および範囲は、上述の例示的な実施形態のいずれによっても限定されるべきではなく、以下の特許請求の範囲およびそれらの均等物に従ってのみ定義されるべきである。
【0135】
【表1】

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
【国際調査報告】