特許7704731 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ フラティロン　ヘルス，インコーポレイテッドの特許一覧

特許7704731非構造化データを分析するためのディープラーニングアーキテクチャ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
4A
4B
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-06-30

(45)【発行日】2025-07-08

(54)【発明の名称】非構造化データを分析するためのディープラーニングアーキテクチャ

(51)【国際特許分類】

G16H 10/60 20180101AFI20250701BHJP

【ＦＩ】

G16H10/60

【請求項の数】 26

(21)【出願番号】P 2022503903

(86)(22)【出願日】2020-07-23

(65)【公表番号】

(43)【公表日】2022-09-26

(86)【国際出願番号】 US2020043255

(87)【国際公開番号】W WO2021016447

(87)【国際公開日】2021-01-28

【審査請求日】2023-07-21

(31)【優先権主張番号】62/878,024

(32)【優先日】2019-07-24

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/026,418

(32)【優先日】2020-05-18

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】519349872

【氏名又は名称】フラティロンヘルス，インコーポレイテッド

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(72)【発明者】

【氏名】リッチ，アレクサンダー

(72)【発明者】

【氏名】アムスター，ガイ

(72)【発明者】

【氏名】アダムス，グリフィン

【審査官】松尾真人

(56)【参考文献】

【文献】米国特許出願公開第２０１８／０３００６４０（ＵＳ，Ａ１）

【文献】特開２００８－２８７３９４（ＪＰ，Ａ）

【文献】米国特許出願公開第２００９／０１１９２７５（ＵＳ，Ａ１）

【文献】Sebastien Dubois et al.， Efficient Representations of Clinical Text，arXiv.org，2018年08月16日，Internet <URL:https://arxiv.org/pdf/1705.07025v3>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１６Ｈ１０／００－８０／００

(57)【特許請求の範囲】

【請求項1】

患者属性に関連付けられた確率を判断するためのモデル支援システムであって、
少なくとも１つのプロセッサであって、
患者に関連付けられた少なくとも１つの非構造化医療レコードを記憶するデータベースにアクセスし、
前記少なくとも１つの非構造化医療レコードを分析して、前記少なくとも１つの非構造化医療レコード内の情報の複数のスニペットを識別し、前記複数のスニペットが、前記患者属性を示すテキストを含み、
前記複数のスニペットの第1スニペット及び第２スニペット内で繰り返されるテキストの量を示すオーバラップメトリックを判断し、
前記オーバラップメトリックがしきい値より大きいとき、前記複数のスニペットから前記第1スニペット又は前記第２スニペットの一つを除去し、
前記複数のスニペットから前記第1スニペット又は前記第２スニペットの一つを除去した後、前記複数のスニペットの各スニペットに基づいて、複数のスニペットベクトル成分を含むスニペットベクトルを生成し、前記複数のスニペットベクトル成分が、前記スニペットに含まれる少なくとも１つの単語に関連付けられた加重値を含み、
前記スニペットベクトルを分析して、複数のサマリベクトル成分を含むサマリベクトルを生成し、前記複数のサマリベクトル成分のそれぞれが、対応するスニペットベクトル成分に関連付けられ、前記対応するスニペットベクトル成分の分析に基づいて判断され、
前記サマリベクトルに基づいて、前記患者属性に関連付けられた確率を示す少なくとも１つの出力を生成する、
ようにプログラムされた、前記少なくとも１つのプロセッサを備える、モデル支援システム。

【請求項2】

前記複数のスニペットを識別することが、前記患者属性に関連付けられたキーワードについて前記少なくとも１つの非構造化医療レコードを検索することを含む、請求項１に記載のモデル支援システム。

【請求項3】

前記キーワードが、少なくとも１つの可変要素を含む、請求項２に記載のモデル支援システム。

【請求項4】

前記可変要素が、正規表現として表される、請求項３に記載のモデル支援システム。

【請求項5】

前記スニペットベクトルが、ニューラルネットワークを用いて生成される、請求項１に記載のモデル支援システム。

【請求項6】

前記ニューラルネットワークが、長短期記憶ネットワークを含む、請求項５に記載のモデル支援システム。

【請求項7】

各サマリベクトル成分が、複数のスニペットベクトル内の対応するスニペットベクトル成分の最大値を含む、請求項１に記載のモデル支援システム。

【請求項8】

前記確率が、前記患者がＰＤＬ１について検査されているかどうかの確率を含む、請求項１に記載のモデル支援システム。

【請求項9】

前記確率が、前記患者がＰＤＬ１について陽性と検査されたかどうかの確率を含む、請求項１に記載のモデル支援システム。

【請求項10】

前記確率が、前記患者が喫煙歴を有するかどうかの確率を含む、請求項１に記載のモデル支援システム。

【請求項11】

前記出力が、前記患者と前記患者属性との間の関連付けが不確定であるという標識を含む、請求項１に記載のモデル支援システム。

【請求項12】

前記確率が、前記患者属性に関連付けられた前記患者に対して検査が行われているどう
かの確率を含む、請求項１に記載のモデル支援システム。

【請求項13】

前記確率が、前記患者が前記患者属性について陽性と検査されたかどうかの確率を含む、請求項１に記載のモデル支援システム。

【請求項14】

患者属性に関連付けられた確率を判断するためのコンピュータ支援方法であって、
患者に関連付けられた少なくとも１つの非構造化医療レコードを記憶するデータベースにアクセスすることと、
前記少なくとも１つの非構造化医療レコードを分析して、前記少なくとも１つの非構造化医療レコード内の情報の複数のスニペットを識別することであって、前記複数のスニペットが、前記患者属性を示すテキストを含む、前記識別することと、
前記複数のスニペットの第1スニペット及び第２スニペット内で繰り返されるテキストの量を示すオーバラップメトリックを判断することと、
前記オーバラップメトリックがしきい値より大きいとき、前記複数のスニペットから前記第1スニペット又は前記第２スニペットの一つを除去することと、
前記複数のスニペットから前記第1スニペット又は前記第２スニペットの一つを除去した後、前記複数のスニペットの各スニペットに基づいて、複数のスニペットベクトル成分を含むスニペットベクトルを生成することであって、前記複数のスニペットベクトル成分が、前記スニペットに含まれる少なくとも１つの単語に関連付けられた加重値を含む、前記生成することと、
前記スニペットベクトルを分析して、複数のサマリベクトル成分を含むサマリベクトルを生成することであって、前記複数のサマリベクトル成分のそれぞれが、対応するスニペットベクトル成分に関連付けられ、前記対応するスニペットベクトル成分の分析に基づいて判断される、前記生成することと、
前記サマリベクトルに基づいて、前記患者属性に関連付けられた確率を示す少なくとも１つの出力を生成することと、
を含む、コンピュータ支援方法。

【請求項15】

前記複数のスニペットを識別することが、前記患者属性に関連付けられたキーワードについて前記少なくとも１つの非構造化医療レコードを検索することを含む、請求項１４に記載のコンピュータ支援方法。

【請求項16】

前記キーワードが、少なくとも１つの可変要素を含む、請求項１５に記載のコンピュータ支援方法。

【請求項17】

前記可変要素が、正規表現として表される、請求項１６に記載のコンピュータ支援方法。

【請求項18】

前記スニペットベクトルが、ニューラルネットワークを用いて生成される、請求項１４に記載のコンピュータ支援方法。

【請求項19】

前記ニューラルネットワークが、長短期記憶ネットワークを含む、請求項１８に記載のコンピュータ支援方法。

【請求項20】

各サマリベクトル成分が、複数のスニペットベクトル内の対応するスニペットベクトル成分の最大値を含む、請求項１４に記載のコンピュータ支援方法。

【請求項21】

前記確率が、前記患者がＰＤＬ１について検査されているかどうかの確率を含む、請求項１４に記載のコンピュータ支援方法。

【請求項22】

前記確率が、前記患者がＰＤＬ１について陽性と検査されたかどうかの確率を含む、請求項１４に記載のコンピュータ支援方法。

【請求項23】

前記確率が、前記患者が喫煙歴を有するかどうかの確率を含む、請求項１４に記載のコンピュータ支援方法。

【請求項24】

前記出力が、前記患者と前記患者属性との間の関連付けが不確定であるという標識を含む、請求項１４に記載のコンピュータ支援方法。

【請求項25】

前記確率が、前記患者属性に関連付けられた前記患者に対して検査が行われているどうかの確率を含む、請求項１４に記載のモデル支援システム。

【請求項26】

前記確率が、前記患者が前記患者属性について陽性と検査されたかどうかの確率を含む、請求項１４に記載のモデル支援システム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
[001] 本出願は、２０１９年７月２４日に出願された米国仮特許出願第６２／８７８，０２４号及び２０２０年５月１８日に出願された米国仮特許出願第６３／０２６，４１８号の優先権の利益を主張する。上記出願の内容は、その全体が参照により本明細書に組み込まれる。

【0002】

背景
技術分野
[002] 本開示は、非構造化データの大きなセット内の属性の表現を識別することに関し、より詳細には、データを分析するように構成されたディープラーニングモデルのアーキテクチャに関する。

【背景技術】

【0003】

背景情報
[001] 情報抽出は、ソフトウェアアプリケーションが非構造化文書からの情報を処理することを可能にする、ますます重要なタスクである。医療業を含む多くの産業において、大規模なデータ処理に対して重要な利点がある。例えば、数億の非構造化テキスト文書を含み得る患者の医療レコードは、患者の治療に関係し得る貴重な見識を含むことが多い。しかしながら、大きなグループの医療データを検査するときには、患者が示す特定の属性を識別することが困難である場合がある。例えば、これには、数千の医療文書を通して検索する必要がある場合があり、各医療文書は、数百ページの非構造化テキストを含むことがある。さらに、文書の性質に起因して、患者属性に関する情報は、手書きメモ又は他のテキストとして表されることがよくあり、それが、このプロセスの自動化をより困難にし得る。

【0004】

[002] いくつかの解決策は、患者が特定の属性に関連付けられるかどうかを判断するための機械学習モデルを展開することを含み得る。例えば、モデルは、患者が特定の条件について検査されているか否かが分かる医療レコードのセットに基づいて訓練され得る。しかし、多くの機械学習技術は、医療業又は非常に大きな非構造化文書に関連する他の産業に必要な大量のデータを処理するように用意されていない。開発されている情報抽出技術の多くは、短い文書（例えば、製品レビュー、ソーシャルメディア投稿、検索エンジンクエリ）に対して有効であり、より長い文書にはうまく汎用化されないことが多い。例えば、長短期モデル（ＬＳＴＭ）又は他のリカレントニューラルネットワークは、一連の医療レコードを分析する際に特定の利点をもたらし得る。しかしながら、処理されなければならない非構造化テキストデータが莫大な量であるため、従来のＬＳＴＭニューラルネットワークは、本出願には有効ではない。

【0005】

[003] したがって、特定の医療属性を有する患者を識別するための改善された手法が必要である。解決策は、長い文書からの効果的な情報抽出を可能にするディープラーニングモデルアーキテクチャの開発を可能にすべきである。

【発明の概要】

【課題を解決するための手段】

【0006】

概要
[004] 本開示と一貫した実施形態は、患者属性に関連付けられた確率を判断するためのシステム及び方法を含む。実施形態において、モデル支援システムは、少なくとも１つのプロセッサを含み得る。プロセッサは、患者に関連付けられた少なくとも１つの非構造化医療レコードを記憶するデータベースにアクセスし、少なくとも１つの非構造化医療レコードを分析して、患者属性に関連付けられた少なくとも１つの非構造化医療レコード内の情報の複数のスニペットを識別するようにプログラムされ得る。プロセッサは、複数のスニペットの各スニペットに基づいて、複数のスニペットベクトル成分を含むスニペットベクトルを生成し、複数のスニペットベクトル成分が、スニペットに含まれる少なくとも１つの単語に関連付けられた加重値を含み、スニペットベクトルを分析して、複数のサマリベクトル成分を含むサマリベクトルを生成し、複数のサマリベクトル成分のそれぞれが、対応するスニペットベクトル成分に関連付けられ、対応するスニペットベクトル成分の分析に基づいて判断されるようにさらにプログラムされ得る。プロセッサは、サマリベクトルに基づいて、患者属性に関連付けられた確率を示す少なくとも１つの出力を生成するようにさらにプログラムされ得る。

【0007】

[005] 別の実施形態において、患者属性に関連付けられた確率を判断するためのコンピュータ実施方法。方法は、少なくとも１つの非構造化医療レコードを記憶するデータベースにアクセスすることと、少なくとも１つの非構造化医療レコードを分析して、患者属性に関連付けられた少なくとも１つの非構造化医療レコード内の情報の複数のスニペットを識別することと、を含み得る。方法は、複数のスニペットの各スニペットに基づいて、複数のスニペットベクトル成分を含むスニペットベクトルを生成することであって、複数のスニペットベクトル成分が、スニペットに含まれる少なくとも１つの単語に関連付けられた加重値を含む、生成することと、スニペットベクトルを分析して、複数のサマリベクトル成分を含むサマリベクトルを生成することであって、複数のサマリベクトル成分のそれぞれが、対応するスニペットベクトル成分に関連付けられ、対応するスニペットベクトル成分の分析に基づいて判断される、生成することと、をさらに含み得る。方法は、サマリベクトルに基づいて、属性に関連付けられた確率を示す少なくとも１つの出力を生成することをさらに含み得る。

【0008】

[006] 他の開示される実施形態と一貫して、非一時的コンピュータ可読記憶媒体は、プログラム命令を記憶してもよく、プログラム命令は、少なくとも１つの処理デバイスによって実行され、本明細書で説明される方法のいずれかを実行する。

【0009】

図面の簡単な説明
[007] 本明細書に組み込まれ、本明細書の一部を構成する添付図面は、説明と共に、様々な例示的実施形態の原理を示し、説明する役割をする。

【図面の簡単な説明】

【0010】

【図1】[008]本開示と一貫した実施形態を実施する例示的システム環境を示すブロック図である。

【図2】[009]本開示と一貫して、患者についての例示的医療レコードを示すブロック図である。

【図3A】[010]開示される実施形態と一貫して、患者属性を検索するために用いられ得る例としてのキーワードを示す。

【図3B】[011]開示される実施形態と一貫して、文書から抽出され得る例としてのスニペットを示す。

【図4A】[012]開示される実施形態と一貫して、単一スニペットに対して動作する例としてのニューラルネットワークを示すブロック図である。

【図4B】[013]開示される実施形態と一貫して、アテンション機構を用いてニューラルネットワークモデルの隠れ状態を結合するための例としてのプロセスを示す。

【図5】[014]開示される実施形態と一貫して、複数のスニペットベクトルに基づいてサマリベクトル及び確率を生成するための例としてのプロセスを示すブロック図である。

【図6】[015]開示される実施形態と一貫して、属性に関連付けられた確率を判断するための例としてのプロセスを示すフローチャートである。

【発明を実施するための形態】

【0011】

詳細な説明
[016] 以下の詳細な説明は、添付図面を参照する。可能であれば、図面及び以下の説明において、同一の参照番号は同一又は類似の部分を参照するために用いられる。いくつかの例示的実施形態が本明細書で説明されているが、修正、適合、及び他の実施態様が可能である。例えば、図面に示される構成要素に対して、代用、追加、又は修正が行われてもよく、本明細書で説明される例示的方法は、開示される方法に対してステップを代用すること、順序変更すること、除去すること、又は追加することによって修正され得る。したがって、以下の詳細な説明は、開示される実施形態及び実施例に限定されない。その代わりに、適切な範囲は、添付された特許請求の範囲によって定義される。

【0012】

[017] 本明細書における実施形態は、コンピュータ実施方法、有形非一時的コンピュータ可読媒体、及びシステムを含む。コンピュータ実施方法は、例えば、非一時的コンピュータ可読記憶媒体から命令を受信する少なくとも１つのプロセッサ（例えば、処理デバイス）によって、実行され得る。同様に、本開示と一貫したシステムは、少なくとも１つのプロセッサ（例えば、処理デバイス）及びメモリを含んでもよく、メモリは、非一時的コンピュータ可読記憶媒体であってもよい。本明細書で使用される、非一時的コンピュータ可読記憶媒体は、少なくとも１つのプロセッサにより読み取り可能な情報又はデータが記憶され得る任意の種類の物理的メモリを指す。実施例は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、揮発性メモリ、不揮発性メモリ、ハードドライブ、ＣＤＲＯＭ、ＤＶＤ、フラッシュドライブ、ディスク、及び任意の他の既知の物理記憶媒体を含む。「メモリ」及び「コンピュータ可読記憶媒体」などの単数形の用語は、複数の構造、そのような複数のメモリ及び／又はコンピュータ可読記憶媒体をさらに指してもよい。本明細書で参照されるように、「メモリ」は、特段の指定がない限り、任意の種類のコンピュータ可読記憶媒体を含み得る。コンピュータ可読記憶媒体は、本明細書における実施形態と一貫したステップ又はステージをプロセッサに実行させるための命令を含む、少なくとも１つのプロセッサによる実行のための命令を記憶し得る。加えて、１つ又は複数のコンピュータ可読記憶媒体は、コンピュータ実施方法を実施する際に使用され得る。「コンピュータ可読記憶媒体」という用語は、有形の物品を含み、搬送波及び一時的信号を除外するように理解されるべきである。

【0013】

[018] 本開示の実施形態は、患者属性に関連付けられた確率を判断するためのシステム及び方法を提供する。開示されるシステム及び方法のユーザは、患者データにアクセス及び／又は分析することを望み得る任意の個人を包含し得る。したがって、本開示全体を通して、開示されるシステム及び方法の「ユーザ」に対する参照は、医師、研究員、健康管理施設の品質保証部門、及び／又は任意の他の個人などの任意の個人を包含し得る。

【0014】

[019] 図１は、以下で詳細に説明される、本開示と一貫した実施形態を実施するための例示的システム環境１００を示す。図１に示されるように、システム環境１００は、クライアントデバイス１１０、データソース１２０、システム１３０、及び／又はネットワーク１４０を含む、いくつかの構成要素を含み得る。これらの構成要素の数及び配置は、例示的なものであり、例示の目的で提供されることを本開示から理解されたい。構成要素の他の配置及び数が、本開示の教示及び実施形態から逸脱することなく用いられ得る。

【0015】

[020] 図１に示されるように、例示的システム環境１００は、システム１３０を含み得る。システム１３０は、ネットワークを経てエンティティから情報を受信し、情報を処理し、情報を記憶し、ネットワークを経て情報を他のエンティティに表示／送信するように構成される、１つ又は複数のサーバシステム、データベース、及び／又はコンピューティングシステムを含み得る。したがって、いくつかの実施形態において、ネットワークは、クラウド共有、記憶、及び／又は計算を容易にし得る。一実施形態において、システム１３０は、システム１３０を表す破線によって区切られた領域に示される、処理エンジン１３１及び１つ又は複数のデータベース１３２を含み得る。処理エンジン１４０は、例えば中央処理装置（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）などの１つ若しくは複数の汎用プロセッサ、及び／又は例えば特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）などの１つ若しくは複数の専用プロセッサなどの、少なくとも１つの処理デバイスを含み得る。

【0016】

[021] システム環境１００の様々な構成要素は、メモリ、中央処理装置（ＣＰＵ）、及び／又はユーザインターフェースを含む、ハードウェア、ソフトウェア、及び／又はファームウェアを含み得る。メモリは、フロッピーディスク、ハードディスク、又は磁気テープを含む磁気ストレージ、ソリッドステートディスク（ＳＳＤ）又はフラッシュメモリなどの半導体ストレージ、光ディスクストレージ、又は光磁気ディスクストレージなどの、物理記憶媒体に具現化された任意の種類のＲＡＭ又はＲＯＭを含み得る。ＣＰＵは、メモリに記憶されたプログラマブル命令のセット又はソフトウェアに従ってデータを処理するための１つ又は複数のプロセッサを含み得る。各プロセッサの機能は、単一の専用プロセッサ又は複数のプロセッサによって提供され得る。さらに、プロセッサは、デジタル信号プロセッサ（ＤＳＰ）ハードウェア、又はソフトウェアを実行可能な任意の他のハードウェアを限定ではなく含み得る。任意選択のユーザインターフェースは、ディスプレイモニタ、キーボード、及び／又はマウスなどの任意の種類又は組み合わせの入力／出力デバイスを含み得る。

【0017】

[022] システム環境１００内で送信及び／又は交換されるデータは、データインターフェースを経て生じ得る。本明細書で用いられる、データインターフェースは、システム環境１００の２つ以上の構成要素がデータを交換する任意の境界を含み得る。例えば、環境１００は、ソフトウェア、ハードウェア、データベース、デバイス、人間、又は前述のものの任意の組み合わせの間でデータを交換し得る。さらに、ソフトウェア、プロセッサ、データストレージデバイス、及びネットワークの任意の適当な構成が、システム環境１００の構成要素及び関連する実施形態の特徴を実施するために選択され得ることを理解されたい。

【0018】

[023] 環境１００の構成要素（システム１３０、クライアントデバイス１１０、及びデータソース１２０を含む）は、互いに通信してもよく、又はネットワーク１４０を通して他の構成要素と通信してもよい。ネットワーク１４０は、インターネット、有線ワイドエリアネットワーク（ＷＡＮ）、有線ローカルエリアネットワーク（ＬＡＮ）、無線ＷＡＮ（例えば、WiMAX）、無線ＬＡＮ（例えば、ＩＥＥＥ８０２．１１など）、メッシュネットワーク、モバイル／セルラネットワーク、エンタプライズ若しくはプライベートデータネットワーク、ストレージエリアネットワーク、公共ネットワークを用いた仮想プライベートネットワーク、近距離無線通信技術（例えば、Bluetooth、赤外線など）、又は様々な他の種類のネットワーク通信などの、様々な種類のネットワークを含み得る。いくつかの実施形態において、通信は、これらの形態のネットワーク及びプロトコルの２つ以上にわたって行われ得る。

【0019】

[024] システム１３０は、データソース１２０を含む様々なデータソースからネットワーク１４０を経て送信されたデータを受信及び記憶し、受信したデータを処理し、データ及び処理に基づく結果をクライアントデバイス１１０に送信するように構成され得る。例えば、システム１３０は、ネットワーク１４０においてデータソース１２０又は他のソースから非構造化データを受信するように構成され得る。いくつかの実施形態において、非構造化データは、１つ又は複数の医療レコードの形態で記憶される医療情報を含み得る。各医療レコードが、特定の患者に関連付けられ得る。データソース１２０は、患者についての医療情報の様々なソースに関連付けられ得る。例えば、データソース１２０は、医師、看護師、専門医、顧問医師、病院、クリニックなどの、患者の医療提供者を含み得る。データソース１２０は、放射線科又は他の撮像検査室、血液学検査室、病理学検査室などの検査室にも関連付けられ得る。データソース１２０は、保険会社又は患者データの任意の他のソースにも関連付けられ得る。

【0020】

[025] システム１３０は、さらに、ネットワーク１４０を経て１つ又は複数のクライアントデバイス１１０と通信し得る。例えば、システム１３０は、情報の分析に基づく結果をデータソース１２０からクライアントデバイス１１０に提供し得る。クライアントデバイス１１０は、ネットワーク１４０を経てデータを受信又は送信可能な任意のエンティティ又はデバイスを含み得る。例えば、クライアントデバイス１１０は、サーバ又はデスクトップ若しくはラップトップコンピュータなどのコンピューティングデバイスを含み得る。クライアントデバイス１１０は、モバイルデバイス、タブレット、ウェアラブルデバイス（即ち、スマートウォッチ、埋め込み式デバイス、フィットネストラッカなど）、仮想機械、ＩｏＴデバイス、又は他の様々な技術などの他のデバイスも含み得る。いくつかの実施形態において、クライアントデバイス１１０は、特定の属性を有するか若しくは特定の属性に関連付けられた患者についてのクエリなどの、１人又は複数人の患者に関する情報についてのクエリ、又は患者に関する様々な他の情報を、ネットワーク１４０を経てシステム１３０に送信し得る。

【0021】

[026] いくつかの実施形態において、システム１３０は、患者の医療レコード（又は他の形態の非構造化データ）を分析して、特定の患者属性に関連付けられた患者の確率を識別するように構成され得る。例えば、システム１３０は、患者の医療レコードを分析して、患者が特定の属性についての検査を受けているかどうかを判断し、属性に関連付けられた（陽性、陰性などと検査された）特定の検査結果又は様々な他の特性を識別し得る。システム１３０は、１つ又は複数の機械学習モデルを用いてこれらの確率を識別するように構成され得る。上述の通り、機械学習アーキテクチャは、比較的短い文書の分析のために開発されている。これらの技術は、しかしながら、患者の医療レコードなどのより長い文書にうまく変換されないことが多い。例えば、長短期記憶（ＬＳＴＭ）モデル及び他の形態のリカレントニューラルネットワークの実施態様は、非構造化文書内のテキストの量に起因して、従来のアーキテクチャを用いて実行できない場合がある。

【0022】

[027] これらの及び他の制限を克服するために、本開示のシステム及び方法は、大きなデータソースを一連のスニペット表現に構文解析し得る。これらのスニペットは、潜在スニペット表現を学習するために、ＬＳＴＭベースのパイプライン又は類似のニューラルネットワークモデルを用いて個々に処理され得る。潜在スニペット表現は、分類のために結合され、用いられ得る。モデルの精度及び効率性を改善するためには、分析のためにデータソースから関連のあるテキストのみを抽出することが重要であり得る。したがって、特定の患者属性に関連付けられた正規表現が、データソースから関連スニペットを抽出するために用いられ得る。さらに、特定のモデルアーキテクチャが、これらの抽出されたスニペットから有効に学習するように実施され得る。これらのプロセスは、以下で詳細に説明される。

【0023】

[028] 本開示全体を通して、患者の医療レコードが例示的実施例として用いられるが、いくつかの実施形態において、開示されるシステム、方法、及び／又は技術が、他の形態の大きな非構造化データソースに基づいて他の種類の個人、物体、エンティティなどを識別するために同様に用いられ得ることを理解されたい。したがって、開示される実施形態は、医療レコードの分析に限定されない。例えば、類似の技術は、法的文書、従業員記録、刑事的若しくは法的執行データベース、行政（例えば、州、連邦、若しくは地方）データベース、輸送記録（例えば、出荷記録など）、教育機関記録、公記録、又は膨大な非構造化データを含み得る様々な他のデータソースに適用されてもよい。

【0024】

[029] 図２は、患者についての例示的医療レコード２００を示す。医療レコード２００は、上述のように、データソース１２０から受信され、患者が特定の属性に関連付けられているかどうかを識別するためにシステム１３０によって処理され得る。データソース１２０（又はその他の場所）から受信されたレコードは、図２に示されるように、構造化データ２１０及び非構造化データ２２０の両方を含み得る。構造化データ２１０は、性別、年齢、人種、体重、生命徴候、検査結果、診断日、診断タイプ、病期（例えば、ビリングコード）、治療タイミング、行われた処置、通院日、診療タイプ、保険業者及び開始日、投薬指示、投薬管理、又は患者についての任意の他の測定可能なデータなどの、患者についての定量可能な又は分類可能なデータを含み得る。非構造化データは、医師のメモ又は患者の検査室報告などの定量可能でない、又は容易に分類されない、患者についての情報を含み得る。非構造化データ２２０は、医師の治療計画の説明、通院時に起こったことを説明するメモ、患者からの申告又は説明、患者の健康状態の主観的な評価又は説明、放射線科報告、病理学報告などの情報を含み得る。

【0025】

[030] データソース１２０から受信したデータにおいて、各患者が、１人又は複数の医療専門家又は患者によって生成される１つ又は複数のレコードにより表され得る。例えば、患者に関連付けられた医師、患者に関連付けられた看護師、患者に関連付けられた理学療法士などが、それぞれ患者についての医療レコードを生成し得る。いくつかの実施形態において、１つ又は複数のレコードは、照合され、及び／又は同一データベースに記憶され得る。他の実施形態において、１つ又は複数のレコードは、複数のデータベースにわたって分散されてもよい。いくつかの実施形態において、レコードは、複数の電子データ表現を記憶及び／又は提供されてもよい。例えば、患者レコードは、テキストファイル、ポータブルドキュメントフォーマット（ＰＤＦ）ファイル、拡張マークアップ言語（ＸＭＬ）ファイルなどの１つ又は複数の電子ファイルとして表され得る。文書が、ＰＤＦファイル、画像、又はテキストのない他のファイルとして記憶される場合、電子データ表現は、光学文字認識プロセスから導出される文書に関連付けられたテキストも含み得る。いくつかの実施形態において、非構造化データは、抽象化プロセスによってキャプチャされてもよく、構造化データは、医療専門家によって入力されるか、又はアルゴリズムを用いて計算されてもよい。

【0026】

[031] いくつかの実施形態において、非構造化データは、特定の患者属性に関連付けられたデータを含んでもよい。例示的実施例として、患者属性は、患者についての喫煙状態を含んでもよい。この実施例では、システム１３０は、患者の医療レコードを分析して患者が喫煙者であるかどうかを判断し得る。例えば、非構造化データ２１１は、患者が１週間にある箱数のタバコを吸っていること、患者が電子タバコを使用していることを示す（例えば、医師、看護師、検査技師などからの）メモ、又は類似のメモを含んでもよい。別の実施形態では、システム１３０は、患者の医療レコードを分析して、プログラム細胞死リガンド１（ＰＤＬ１）タンパク質などの特定の指標について、患者が検査されているかどうかを判断し得る。例えば、非構造化データは、ＰＤＬ１検査結果（例えば、患者がＰＤＬ１について検査されているかどうか、検査の結果、結果の分析など）について論じている（例えば、医師、看護師、検査技師などからの）メモを含み得る。本開示全体を通して、ＰＤＬ１検査状態及び／又は喫煙歴に基づく患者識別が用いられるが、これは実施例である。開示されるシステム、方法、及び／又は技術が、患者を識別する他の手段（例えば、患者が特定の薬を処方されているかどうか、患者が特定の処置を受けているかどうかなど）について同様に用いられ得ることを理解されたい。

【0027】

[032] 上述の通り、システム１３０は、非構造化医療レコードを分析して、医療レコードの非構造化データからテキストのスニペットを抽出し得る。本明細書で用いられるスニペットは、より大きな文書に含まれるテキスト又は他のデータの比較的小さな部分を指し得る。スニペットは、特定の患者属性に関連のある情報を囲むテキスト及び含むテキストの一部を含み得る。スニペットを識別するために、システム１３０は、キーワード検索を実行して、関連属性について論じられている文書内の位置を発見してもよい。図３Ａは、開示される実施形態と一貫して、患者属性を検索するために用いられ得る例としてのキーワード３１２を示す。図３Ａに示される実施例において、システム１３０は、医療レコードのセットに関連付けられた患者がＰＤＬ１タンパク質について検査されているかどうか、及び／又はその検査の結果を判断するように構成され得る。したがって、検索語３１０は、テキスト「ＰＤＬ１」を含み得る。

【0028】

[033] いくつかの実施形態において、システム１３０は、用語「ＰＤＬ１」についてのキーワード検索を実行し得る。しかしながら、いくつかのインスタンスにおいて、ＰＤＬ１検査及び検査結果は、代替の表記法を用いて論じられることがある。例えば、いくつかのインスタンスにおいて、用語は、ダッシュを含んでもよく、「ＰＤ－Ｌ１」と表されてもよい。これらの代替表現を含むテキストのスニペットを見落とすことを回避するために、キーワード検索は、正規表現、又はｒｅｇｅｘ」３１２を用いて行われてもよい。正規表現は、検索パターンを定義する任意の文字シーケンスを含み得る。ＰＤＬ１検査についての検索の場合、正規表現３１２は、用語「＼ｂ（ｐｄ－？ｌ１）＼ｂ」を含んでもよく、その場合に、「－？」は、ダッシュが含まれるインスタンス及び含まれないインスタンスを含めるための可変要素である。用語「＼ｂ」は、単語境界を表してもよく、それによってシステム１３０が用語の単語全体の一致を検索することが可能となる。

【0029】

[034] いくつかの実施形態において、より複雑な正規表現が用いられてもよい。例えば、正規表現３１２は、「＼ｂ（ｐ＼Ｗ｛０，２｝ｄ＼Ｗ｛０，２｝［１ｌｉｔ］＼Ｗ｛０，２｝［１ｌｉｔ］）＼ｂ」などの、より許容的なｒｅｇｅｘを含んでもよく、それは、追加の文字、及びスキャンされた文書からの光学文字認識（ＯＣＲ）に起因する潜在エラーを考慮し得る。正規表現３１２は、例えば、検索語に単語境界語を追加すること、検索語に関連付けられた様々な位置に可変要素を含めること、などによってシステム１３０により自動的に生成され得る。他の実施形態において、正規表現３１２は、ユーザによってシステム１３０へ展開及び入力されてもよい。上述の検索語及び正規表現は、実施例として提供されていることを理解されたい。様々な他の検索語、正規表現、及び／又は正規表現フォーマットが用いられてもよい。

【0030】

[035] 正規表現３１２に加えて、システム１３０は、患者属性に関連付けられ得る他のターゲット語を用いてスニペットを検索し得る。例えば、患者属性がＰＤＬ１検査を含む場合、「高発現」、「低発現」、「腫瘍比率スコア」、「ｔｐｓ」、「ステイニング（staining）」、及び「不十分」などのターゲット語が、一般的にＰＤＬ１検査に関連付けられてもよく、また、非構造化文書に対する検索を実行するために用いられてもよい。同様に、患者属性が患者の喫煙状態である場合、ターゲット語は、例えば、「紙巻タバコ」、「パケット」、「葉巻」、「喫煙者＼煙＼喫煙した」、「噛みタバコ（chew）」、「スモーキング」、「ｐｐｄ」、「ニコチン」、「パイプ」、「タバコ」、「かぎタバコ」、「マリファナ」、「無煙」、「噛みタバコ（chewing）」、及び「スモーカー」を含み得る。正規表現３１２に類似のこれらのターゲット語に基づく正規表現も用いられ得る。これらの用語はより幅広いため、検索されている特定の患者属性以外の他の特性に関連して用いられることがある。例えば、「ステイニング」という用語は、ＰＤＬ１検査の他にも多くの他のコンテンツに用いられ得る。無関係のスニペットを返すことを避けるために、追加のターゲット語が、患者属性に関連する文書からのみスニペットを抽出するために用いられてもよい。例えば、システム１３０は、まず、正規表現３１２を用いた検索を実行してＰＤＬ１検査の議論を含む文書を発見してもよく、それらの文書からのみ追加のターゲット語に基づいてスニペットを抽出してもよい。これらのターゲット語を使用することによって、正規表現３１２を含まない関連スニペットがシステム１３０によってやはり識別され、分析されることが保証され得る。

【0031】

[036] 上述の検索プロセスは、患者属性に関連付けられたスニペットを抽出するために非構造化文書のそれぞれに対して実行され得る。図３Ｂは、開示される実施形態と一貫して、文書から抽出され得る例としてのスニペット３３０を示す。正規表現３１２に基づいて、システム１３０は、テキスト内の検索語のインスタンスを表すターゲットトークン３２２を含む文書３２０を識別し得る。システム１３０は、次いで、スニペット３３０で図３Ｂに示されるように、ターゲットトークン３２２を囲むテキストのスニペットを抽出し得る。いくつかの実施形態において、スニペット３３０は、事前定義されたウィンドウに基づいて定義され得る。例えば、スニペットは、テキスト内のターゲットトークン３２２前後の所定の文字数（例えば、２０文字、５０文字、６０文字、又は用語の使用のためのコンテキストをキャプチャする任意の適当な文字数）に基づいて、定義されてもよい。例えば、単語境界における終わりまでウィンドウを拡大すること又は狭めることによって、スニペットの端に部分語が含まれないように、ウィンドウは、また、単語境界を考慮するように定義されてもよい。いくつかの実施形態では、ウィンドウは、事前定義された単語数又は他の変数に基づいて定義されてもよい。

【0032】

[037] いくつかの実施形態では、システム１３０は、ターゲットトークン３２２を代用語３３２で置換してもよい。これによって、患者属性が、抽出されたスニペットのそれぞれにおいて同一の専門用語を用いて表されることが保証され得る。例えば、「ＰＤＬ１」を含む文書及び「ＰＤ－Ｌ１」を含む文書は両方とも、図３Ｂに示されるように、用語「［＿ｐｄｌ１＿］」を含む抽出されたスニペットをもたらし得る。代用語の使用は、また、特徴スパース性を低下させること、訓練時間を加速すること、及びモデルがより限定されたラベル付きデータのセットで収束することを可能にすることによって、機械学習モデルの性能を改善し得る。

【0033】

[038] スニペット３３０は、次いで、スニペットから非名詞テキストを除去するようにサニタイズされてもよい。非名詞テキストは、例えば、ＨＴＭＬタグ、日付、ページを示す数字、又は患者属性の議論に関連しない他のデータを含み得る。非名詞テキストは、非名詞テキストの共通フォーマットを識別するように構成される正規表現フィルタのカスタムセットを用いて識別され得る。例えば、１つ又は複数の正規表現フィルタは、ＭＭ／ＤＤ／ＹＹＹＹのフォーマット（又は他の変形）及び他の共通日付フォーマットのテキストを検索し、スニペットからこのテキストを除去するように設計されてもよい。多くの句読文字も除去されてもよいが、システム１３０は、患者属性に関連があり得る何らかの句読点（例えば、「＋」、「－」など）を保持するように構成されてもよい。関連のある可能性のある句読点符号のリストが、データベース（例えば、データベース１３２）に維持されてもよい。リストは、多くの患者属性に適用可能な普遍的なリストであってもよく、又は検査されている特定の属性に関連して展開されてもよい。

【0034】

[039] システム１３０は、また、図３Ｂに示されるトークン３４０などの複数のトークンに生テキストを分配するために、スニペット３３０をトークン化してもよい。トークンは、各トークンがスニペット内の単語を含むように、テキスト内で識別された単語境界に従って分配され得る。例えば、代用語３３２で始まって、システム１３０は、「［＿ｐｄｌ１＿］」、「高」、及び「発現」というトークンをスニペット３３０から抽出し得る。トークンは、代用語３３２から両方向にスニペット３３０全体を通して抽出されてもよい。いくつかの実施形態において、トークンは、図３Ｂに示されるように、単一の単語を含んでもよい。他の実施形態において、トークンは、複数の単語を含むように構成されてもよい。例えば、「ＢＲＡＦ陰性」という用語に関連付けられたトークンは、「陰性」、「ＢＲＡＦ陰性」、及び「ＢＲＡＦ」として生成されてもよい。本開示は、任意の特定の形態又はスニペットから抽出されるトークンのフォーマットに限定されない。トークン化に加えて、システム１３０は、また、文書３２０に関連付けられた文書カテゴリ３５０を抽出し得る。例えば、文書カテゴリ３５０は、文書３２０がクリニックノートであるか、病理学報告であるか、又は別の共通文書タイプであるかを示し得る。文書カテゴリ３５０は、文書自体の中で（例えば、文書３２０に関連付けられたメタデータ若しくはタグ、文書３２０のファイル名などの中で）識別されてもよく、又は文書３２０のテキストの分析を通して（例えば、文書フォーマット、文書に含まれるキーワードなどに基づいて）判断されてもよい。

【0035】

[040] 図３Ｂに関連して上述したプロセスは、非構造化文書から複数のスニペットを抽出するために、正規表現３１２又はテキストにおいて識別される追加のターゲット語のインスタンス毎に繰り返され得る。スニペットのそれぞれが、上述のようにトークン化され得る。抽出されたスニペットは、次いで、患者属性に関連付けられた患者についての確率を識別するためにディープラーニングモデルアーキテクチャに供給され得る。

【0036】

[041] いくつかの実施形態において、生成されるスニペットの２つ以上が、非構造化データ内で繰り返されるテキストに起因して、同一であるか又は非常に類似し得る。例えば、診察室記録又は他の長期的な患者データにおいて、前の通院からのテキストが、コピー及びペーストされてもよく、したがって、同一レコード内に複数回現れてもよい。この冗長性を取り除くために、システム１３０は、重複スニペットを除去し得る。いくつかのインスタンスにおいて、テキストの全てではなくいくらかが、レコード内で重複していることがあり、したがって、スニペットが別のスニペットに一致していなくても、それは冗長であり得る。このことを考慮するために、システム１３０は、オーバラップベースメトリックを実施して、スニペット類似性を測定し得る。例えば、貪欲アルゴリズムが採用されてもよい。貪欲アルゴリズムでは、システム１３０は、スニペットを通してループし、事前定義されたパーセンテージに基づいてその単語が別のスニペットによって包含されない場合にのみスニペットを追加する。包含の量は、分析されているスニペットの長さによって分割される２つのスニペット間の単語オーバラップの量として定義されてもよい。例えば、候補スニペットの単語の少なくとも８０％が別のスニペットに既に含まれていない場合にのみ、候補スニペットが含まれてもよい。様々な他の包含パーセンテージが用いられてもよい。

【0037】

[042] モデルアーキテクチャは、この情報を統合して患者についての予測を全体として生成する前に、まず各スニペットに対して並行して動作してもよい。図４Ａは、開示される実施形態と一貫した、単一スニペットに対して動作する例としてのニューラルネットワークを示すブロック図である。スニペットは、複数のトークン４０１、４０２、及び４０３を含んでもよく、それらは上述のトークン化プロセスを通して識別され得る。例えば、トークン４０１、４０２、及び４０３は、図３Ｂに示されるトークン３４０に対応し得る。トークンのそれぞれが、ニューラルネットワークを通過する前に単語の埋め込みに変換され得る。例えば、トークン４０１は、単語の埋め込み４１１に変換され得る。単語の埋め込み４１１は、事前定義された次元を有する実数のベクトルにマッピングされるトークン４０１の表現であってもよい。例えば、１２８の値の次元が用いられ得るが、単語の埋め込み４１１は、任意の適当な次元を有してもよい。単語の埋め込み４１１は、データの訓練セットに基づいて判断され得る。システム１３０は、訓練データ内の抽出されたスニペットにおいて表されるトークンの全てを含む用語集を構築し得る。これらのトークンにはインデックスが付与され、埋め込み空間に投影され得る。トークン４１１は、次いで、学習済みの単語の埋め込みによって定義される単語の埋め込み４１１に変換され得る。

【0038】

[043] 次に、単語の埋め込み４１１は、ＬＳＴＭ４２０などのリカレントニューラルネットワークを通過し得る。いくつかの実施形態において、ＬＳＴＭは、双方向ＬＳＴＭを含み得る。ＬＳＴＭは、単語の埋め込みに対応する隠れ次元を有してもよく、これは上記の実施例と一貫して１２８の隠れ次元を含み得る。ＬＳＴＭ４２０は、入力トークンに基づく加重値を含む最終隠れ状態を生成するように訓練され得る。例えば、ＬＳＴＭ４２０は、（患者が患者属性に関連付けられるかどうかなどの）既知の結果を有するスニペットトークンの訓練データセットに基づいて訓練されてもよい。最終隠れ状態４２１は、双方向ＬＳＴＭの順方向及び逆方向パスの結果として生成され得る。同一のプロセスが、全てのスニペットトークン４０１～４０３にわたって実行されてもよく、これらの最終隠れ状態が、結合されてスニペットベクトル４３０を形成し得る。

【0039】

[044] いくつかの実施形態において、スニペットベクトル４３０は、最終隠れ状態の連結であり得る。例えば、スニペットベクトル４３０は、隠れ状態ｈ_００、ｈ_０１、及びｈ_０２の連結を含み得る。隠れ状態を結合してスニペットベクトル４３０を形成するための様々な他の手段が用いられてもよい。図４Ｂは、開示される実施形態と一貫して、アテンション機構を用いてニューラルネットワークモデルの隠れ状態を結合するための例としてのプロセスを示す。ＬＳＴＭ４２０の各タイムスタンプにおいて、システム１３０は、隠れ状態の加重平均を取り得る。加重は、演算４４０に示されるように、各中間隠れ状態ベクトル４４１の学習済みアテンション加重ベクトルとのドット積を取ることによって計算され得る。アテンション加重ベクトルは、ＬＳＴＭ４２０についての訓練プロセスの一部として学習され得る。ソフトマックス演算４５０は、各隠れ状態ベクトル４４１についてのドット積出力を比率４５１などの比率に変換するために用いられ得る。スニペットベクトル４３０は、比率による隠れ状態の全ての加重結合に基づいて判断され得る。特に、このプロセスは、ＬＳＴＭ４２０によって生成される全ての中間隠れ状態について実行され得る。したがって、ＬＳＴＭ４２０は、いかなる中間隠れ状態からも完全スニペットベクトル表現に直接情報を渡し得る。

【0040】

[045] いくつかの実施形態において、ＬＳＴＭ４２０の初期隠れ状態は、モデルを改善するためにスニペットメタデータでエンコードされ得る。例えば、ＬＳＴＭ４２０は、（例えば、文書カテゴリ３５０によって示される）スニペットのカテゴリ及びスニペットがそれに基づいて抽出されたターゲット語（例えば、ＰＤＬ１など）でホットエンコードされてもよい。言い換えると、最初（又は最後のトークン）へ進行する前に、ゼロのベクトルでＬＳＴＭを初期化するのではなく、ＬＳＴＭモデルが、スニペットメタデータのワンホットエンコーティングで初期化されてもよい。初期状態においてスニペットのコンテキストを提供することによって、それは、ＬＳＴＭによって異なる扱いがされてもよく、モデルの結果を改善し得る。

【0041】

[046] 図４Ａ及び図４Ｂに示されるプロセスは、実施例として提供される。ＬＳＴＭにおいて生成される隠れ状態からの結果となるスニペットベクトルをコンパイルするための様々な他の適当な方法が用いられ得ることを理解されたい。さらに、ＬＳＴＭ４２０は、実施例として提供される。例えば、ＬＳＴＭ４２０は、単層又は複層であってもよく、一方向又は双方向などであってもよい。他の形態のリカレントニューラルネットワークもまた、スニペットベクトル４３０を生成するために用いられてもよい。

【0042】

[047] 図４Ａ及び図４Ｂに関連して上述したプロセスは、非構造化データから抽出されたスニペット毎に繰り返されてもよく、それによって、複数のスニペットベクトルがもたらされる。患者属性に関連付けられた確率を判断するために、分類前にスニペットベクトルのシーケンスを単一のサマリベクトルにまとめることが必要であり得る。

【0043】

[048] 図５は、開示される実施形態と一貫して、複数のスニペットベクトルに基づいてサマリベクトル５１０及び確率５３０を生成するための例としてのプロセスを示すブロック図である。１つ又は複数のスニペットベクトル５０１、５０２、及び５０３は、上述の通り、訓練済みニューラルネットワークを用いて関連する入力スニペットに基づいて生成され得る。スニペットベクトル５０１、５０２、及び５０３は、単一のサマリベクトル５１０にまとめられ得る。実施例として、スニペットベクトル５０１、５０２、及び５０３のそれぞれが、１２８の成分（又はニューラルネットワークモデルによって定義された任意の適当な数の成分）を含んでもよく、サマリベクトル５１０は、同様に１２８の成分を含み得る。いくつかの実施形態では、サマリベクトル５１０は、スニペットベクトル５０１、５０２、及び５０３に対して実行されるエレメントワイズ関数に基づいて判断され得る。例えば、サマリベクトル５１０の各成分がスニペットベクトルスニペットベクトル５０１、５０２、及び５０３内の対応する成分の最大値を含むように、サマリベクトル５１０は、スニペットベクトルにわたって実行されるエレメントワイズ最大値演算を用いて判断されてもよい。例えば、サマリベクトル５１０の第１の成分は、スニペットベクトル５０１の第１の成分、スニペットベクトル５０２の第１の成分、及びスニペットベクトル５０３の第１の成分のうちの最大値であってもよい。同様に、サマリベクトル５１０の第２の成分は、スニペットベクトル５０１の第２の成分、スニペットベクトル５０２の第２の成分、及びスニペットベクトル５０３の第２の成分のうちの最大値であってもよい。これが、成分位置毎に繰り返されて、サマリベクトル５１０が定義され得る。エレメントワイズ最小値演算、エレメントワイズ平均演算などを含む、様々な他の演算が、サマリベクトル５１０を定義するために用いられ得る。

【0044】

[049] システム１３０は、フィードフォワード層において出力空間５２０上にサマリベクトル５１０を投影するように訓練され得る。最後に、ソフトマックス層が、出力クラス毎の予測される確率５３０を生成するために用いられ得る。予測される確率５３０は、予測クラスラベルに変換され得る。サマリベクトル５１０を用いて判断される確率の数及びタイプは、分析される患者属性のタイプに依存し得る。例えば、ＰＤＬ１状態が患者属性として用いられる場合、確率は、患者がＰＤＬ１に対して陽性と検査される確率、患者がＰＤＬ１に対して陰性と検査される確率、患者が検査されていない確率、及び結果が不確定である確率を含み得る。同様に、患者属性が患者の喫煙状態である場合、確率は、患者に喫煙歴がある確率、患者に喫煙歴がない確率、及び結果が不確定である確率を含み得る。分析される患者属性のタイプに依存して、様々な他の確率が含まれ得る。各確率が、様々なフォーマットで表され得る。例えば、確率は、パーセンテージ、事前定義されたスケール（例えば、１～１０、１～５など）、事前定義された分類のリスト（例えば、「高確率」、「低確率」など）、又は任意の他の適当な形態で表されてもよい。

【0045】

[050] 結果となる確率は、患者が患者属性に関連付けられるかどうかを示し得る。例えば、確率は、患者がＰＤＬ１について検査されているかどうか及びその検査結果を、関連する信頼性レベルと共に示し得る。それに応じて、システム１３０は、患者の医療レコード内の非構造化医療データに基づいて患者を分類するために用いられ得る。各文書の関連スニペットのみが分析されているため、システム１３０は、患者の医療レコードに共通して含まれる比較的大きな文書にもかかわらず、患者属性に関連付けられた確率を判断するためにＬＳＴＭモデルを有利に使用し得る。

【0046】

[051] 図６は、開示される実施形態と一貫して、属性に関連付けられた確率を判断するための例としてのプロセス６００を示すフローチャートである。プロセス６００は、上述の通り、処理エンジン１３１などの少なくとも１つの処理デバイスによって実行され得る。本開示全体を通して、「プロセッサ」という用語は、「少なくとも１つのプロセッサ」の省略表現として用いられることを理解されたい。言い換えると、プロセッサは、論理演算を実行する１つ又は複数の構造を、そのような構造が共設され、接続され、又は分配されるかどうかに関わらず、含み得る。いくつかの実施形態において、非一時的コンピュータ可読媒体は、プロセッサによる実行時にプロセッサにプロセス６００を実行させる命令を含み得る。さらに、プロセス６００は、図６に示されるステップに必ずしも限定されず、本開示全体を通して説明される様々な実施形態の任意のステップ又はプロセスもまた、図３Ａ～図５に関して上述したものを含めて、プロセス６００に含まれ得る。

【0047】

[052] ステップ６１０において、プロセス６００は、少なくとも１つの非構造化医療レコードを記憶するデータベースにアクセスすることを含み得る。例えば、システム１３０は、ローカルデータベース１３２又はデータソース１２０などの外部データソースから患者の医療レコードにアクセスし得る。医療レコードは、テキストファイル、画像ファイル、ＰＤＦファイル、ＸＬＭファイル、ＹＡＭＬファイルなどの１つ又は複数の電子ファイルを含み得る。少なくとも１つの非構造化医療レコードは、上述した医療レコード２１０に対応し得る。例えば、非構造化医療レコードは、少なくともいくつかの非構造化データ２１１を含み得る。非構造化情報は、医療提供者によって書かれたテキスト、放射線科報告、病理学報告、又は患者に関連付けられた様々な他の形態のテキストを含み得る。いくつかの実施形態において、医療レコードは、追加の構造化データ２１２をさらに含み得る。

【0048】

[053] ステップ６２０において、プロセス６００は、少なくとも１つの非構造化医療レコードを分析して、患者属性に関連付けられた少なくとも１つの非構造化医療レコード内の情報の複数のスニペットを識別することを含み得る。いくつかの実施形態において、スニペットを識別することは、患者属性に関連付けられたキーワードについて少なくとも１つの非構造化医療レコードを検索することを含み得る。例えば、患者属性は、患者がＰＤＬ１について検査されているかどうかを含んでもよく、キーワードは、テキスト「ＰＤＬ１」を含んでもよい。いくつかの実施形態において、キーワードは、少なくとも１つの可変要素を含んでもよい。例えば、キーワードは、正規表現３１２などの正規表現を用いて表されてもよい。それに応じて、キーワードは、患者属性の代替スペリング、テキスト中に出現する追加文字又は不要文字、スキャンされた文書のＯＣＲ処理に起因するエラー、単語境界、及びスニペット抽出に影響を及ぼし得る他の変数を考慮し得る。

【0049】

[054] いくつかの実施形態において、追加のスニペットが、キーワードに関連するターゲット語に基づいて識別され得る。例えば、患者属性が患者の喫煙歴である場合に、「紙巻タバコ」、「パック」、「ベイピング」、又は喫煙に関する他の用語を含むターゲット語が含まれてもよい。無関係のスニペットが識別されることを回避するために、これらのターゲット語に基づくスニペットが、初期検索においてキーワードを含む文書のみから抽出され得る。さらに、いくつかの実施形態において、別のスニペットによって包含される単語数（又は単語のパーセンテージ）が、所定の閾値を超える場合に、１つ又は複数の冗長スニペットが除去され得る。ステップ６２０は単一スニペットに基づいて説明されているが、同一プロセスが非構造化医療レコードから抽出された複数のスニペットに対して実行され得ることを理解されたい。

【0050】

[055] ステップ６３０において、プロセス６００は、複数のスニペットの各スニペットに基づいて、複数のスニペットベクトル成分を含むスニペットベクトルを生成することを含み得る。複数のスニペットベクトル成分が、スニペットに含まれる少なくとも１つの単語に関連付けられた加重値を含み得る。いくつかの実施形態において、スニペットベクトルは、長短期記憶ネットワークなどのニューラルネットワーク、又は他の形態のリカレントニューラルネットワークを用いて生成され得る。例えば、トークン４０１、４０２、及び４０３を含むスニペットは、スニペットベクトル４３０を生成するためにＬＳＴＭ４２０を通過し得る。それに応じて、ステップ６３０は、複数の隠れ状態を結合してスニペットベクトル４３０を形成することを含み得る。これは、図４Ａ及び図４Ｂに関して上述したように、連結、アテンション機構、又はスニペットベクトルを生成するための様々な他の手段を含み得る。

【0051】

[056] ステップ６４０において、プロセス６００は、スニペットベクトルを分析して、複数のサマリベクトル成分を含むサマリベクトルを生成することを含み得る。例えば、スニペットベクトル５０１、５０２、及び５０３は、単一スニペットベクトル５１０にまとめられ得る。複数のサマリベクトル成分のそれぞれが、対応するスニペットベクトル成分に関連付けられ得る。例えば、サマリベクトルの成分毎にスニペットベクトルにおいて対応する成分が存在するように、スニペットベクトル及びサマリベクトルは、それぞれが同数の成分を含み得る。さらに、複数のサマリベクトル成分のそれぞれが、対応するスニペットベクトル成分の分析に基づいて判断され得る。例えば、各サマリベクトル成分は、上述の通り、（例えば、エレメントワイズ最大値演算を用いて）複数のスニペットベクトルにおける対応するスニペットベクトル成分の最大値を含み得る。

【0052】

[057] ステップ６５０において、プロセス６００は、サマリベクトルに基づいて、属性に関連付けられた確率を示す少なくとも１つの出力を生成することを含み得る。いくつかの実施形態において、確率は、患者属性に関連付けられた患者に対して検査が行われているどうかの確率を含み得る。例えば、確率は、患者がＰＤＬ１について検査されているかどうかの確率を含む。加えて、又は代替として、確率は、患者が患者属性について陽性（又は陰線）と検査されたかどうかの確率を含み得る。例えば、確率は、患者がＰＤＬ１について陽性と検査されたかどうかの確率を含み得る。他の実施形態において、確率は、患者が特定の健康関連特性を示す確率を含み得る。例えば、確率は、患者が喫煙歴を有するかどうかの確率を含み得る。いくつかの実施形態において、出力は、患者と患者属性との間の関連付けが不確定であるという標識を含み得る。例えば、出力は、患者とその患者属性との間の相関関係が非構造化医療レコードに基づいて判断されることができない確率を含み得る。

【0053】

[058] 前述の説明は、例示の目的で提示されている。それは網羅的ではなく、開示された実施形態の正確な形態に限定されない。修正及び適合が、明細書の考察及び開示される実施形態の実施から当業者に明らかとなる。加えて、開示された実施形態の態様がメモリに記憶されていると説明されているが、当業者は、これらの態様が、二次記憶デバイス、例えば、ハードディスク若しくはＣＤＲＯＭ、又はＲＡＭ若しくはＲＯＭの他の形態、ＵＳＢ媒体、ＤＶＤ、Blu-ray、4K Ultra HD Blu-ray、又は他の光学ドライブ媒体などの他の種類のコンピュータ可読媒体上にも記憶され得ることを理解する。

【0054】

[059] 書かれた説明及び開示された方法に基づくコンピュータプログラムは、経験豊富な開発者のスキルの範囲内にある。様々なプログラム又はプログラムモジュールは、当業者に既知の技術のいずれかを用いて生成され得るか、又は既存のソフトウェアと関係して設計され得る。例えば、プログラムセクション又はプログラムモジュールは、．Net Framework、．Net Compact Framework（及びVisual Basic、Ｃなどの関連する言語）、Java、Python、Ｒ、Ｃ＋＋、Objective-C、ＨＴＭＬ、ＨＴＭＬ／ＡＪＡＸの組み合わせ、ＸＭＬ、又はJavaアプレットを含んだＨＴＭＬにおいて、又はそれらを用いて、設計されてもよい。

【0055】

[060] さらに、例示的実施形態が本明細書において説明されているが、関連要素、修正、省略、（例えば、様々な実施形態にわたる態様の）組み合わせ、適合、及び／又は改変を有する任意の及び全ての実施形態の範囲が、本開示に基づいて当業者により理解されるものとする。特許請求の範囲内の限定は、特許請求の範囲において採用される言語に基づいて幅広く解釈されるべきであり、本明細書において又は本出願手続の遂行中に記載された実施例に限定されるべきでない。実施例は、非排他的なものとして解釈されるべきである。さらに、開示された方法のステップは、ステップを順序変更すること、及び／又はステップを挿入若しくは削除することを含む任意のやり方で修正され得る。したがって、本明細書及び実施例は、以下の特許請求の範囲及びその均等物の全範囲によって示される真正な範囲及び思想を用いて、例示としてのみ考えられることを意図するものである。

【図1】