(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024012659
(43)【公開日】2024-01-30
(54)【発明の名称】自然言語処理を使用する病理報告内の自動化された情報の抽出及び改良
(51)【国際特許分類】
G16H 10/60 20180101AFI20240123BHJP
【FI】
G16H10/60
【審査請求】有
【請求項の数】14
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023197189
(22)【出願日】2023-11-21
(62)【分割の表示】P 2022514699の分割
【原出願日】2020-09-08
(31)【優先権主張番号】62/897,252
(32)【優先日】2019-09-06
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
2.SWIFT
3.PYTHON
(71)【出願人】
【識別番号】591003013
【氏名又は名称】エフ. ホフマン-ラ ロシュ アーゲー
【氏名又は名称原語表記】F. HOFFMANN-LA ROCHE AKTIENGESELLSCHAFT
(74)【代理人】
【識別番号】100118902
【弁理士】
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【弁理士】
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【弁理士】
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100161908
【弁理士】
【氏名又は名称】藤木 依子
(72)【発明者】
【氏名】シャルマ,ビシャカ
(72)【発明者】
【氏名】パンディット,ヨゲシュ
(72)【発明者】
【氏名】バラスブラマニアン,ラム
(57)【要約】
【課題】病理報告内の自動化された情報の抽出及び改良のための技法を提供する。
【解決手段】一例では、コンピュータシステムによって実行される方法は、病理報告を含む画像ファイルを受信することと、入力テキスト文字列を抽出するために画像ファイルに対して画像認識動作を実行することと、自然言語処理(NLP)モデルを使用して、入力テキスト文字列からエンティティを検出することであって、各エンティティがラベル及び値を含む、検出することと、NLPモデルを使用して、入力テキスト文字列からエンティティの値を抽出することと、エンティティ及び値を所定の用語にマッピングするマッピングテーブルに基づいて、少なくともいくつかのエンティティの値を対応する所定の用語に変換することと、入力テキスト文字列から検出されたエンティティ及び対応する所定の用語を含む、後処理された病理報告を生成することとを含む。
【選択図】
図3
【特許請求の範囲】
【請求項1】
コンピュータシステムによって実行される方法であって、
病理報告を含む画像ファイルを受信するステップと、
入力テキスト文字列を抽出するために前記画像ファイルに対して画像認識動作を実行するステップと、
自然言語処理(NLP)モデルを使用して、前記入力テキスト文字列からエンティティを検出するステップであって、各エンティティがラベル及び値を含む、ステップと、
前記NLPモデルを使用して、前記入力テキスト文字列から前記エンティティの前記値を抽出するステップと、
エンティティ及び値を所定の用語にマッピングするマッピングテーブルに基づいて、少なくともいくつかの前記エンティティの前記値を対応する前記所定の用語に変換するステップと、
前記入力テキスト文字列から検出された前記エンティティ及び対応する前記所定の用語を含む、後処理された病理報告を生成するステップと
を含む、方法。
【請求項2】
前記画像認識動作が、光学式文字認識(OCR)プロセス又は光学式単語認識プロセスのうちの少なくとも1つを含む、請求項2に記載の方法。
【請求項3】
前記画像ファイルが、ポータブルドキュメントフォーマット(pdf)フォーマットである、請求項1に記載の方法。
【請求項4】
前記NLPモデルが、ノード及びエッジを備えるグラフを含み、
各ノードがテキスト文字列に対応し、
2つのノード間のエッジが、前記2つのノードによって表された2つのテキスト文字列間の順序関係を示し、
前記エンティティを検出するステップが、前記入力テキスト文字列のテキスト文字列のシーケンスを前記グラフ内で表されたテキスト文字列のシーケンスと照合するステップを含む、
請求項1に記載の方法。
【請求項5】
エンティティの名前でタグ付けされた訓練テキスト文字列に基づいて、前記グラフを更新するステップをさらに含む、請求項4に記載の方法。
【請求項6】
前記NLPモデルが、ベースラインNLPサブモデル及び病理NLPサブモデルを備え、
前記ベースラインNLPサブモデルが、一般医療文書からの第1の訓練テキスト文字列に基づいて訓練され、
前記病理NLPサブモデルが、病理報告からの第2の訓練テキスト文字列に基づいて訓練される、
請求項4に記載の方法。
【請求項7】
前記NLPモデルによる前記入力テキスト文字列から前記エンティティを認識する精度を特定するステップと、
前記精度に基づいて、前記入力テキスト文字列に基づいて前記訓練テキスト文字列を更新するステップと、
前記更新された訓練テキスト文字列に基づいて前記グラフを更新するステップと
をさらに含む、請求項5に記載の方法。
【請求項8】
前記入力テキストの隣接するテキスト文字列のセットから複数のエンティティが認識される、請求項1に記載の方法。
【請求項9】
前記入力テキスト文字列が第1の入力テキスト文字列であり、
前記画像認識動作のパラメータが、前記NLPモデルによる第2の入力テキスト文字列からエンティティを認識する精度に基づいて決定され、前記第2の入力テキスト文字列が、前記パラメータを使用して前記画像認識動作によって生成される、
請求項1に記載の方法。
【請求項10】
前記標準用語が国際医療用語集(SNOMED)規格に基づき、前記標準用語が、SNOMED概念又はSNOMED概念識別子(ID)
のうちの少なくとも1つを含む、請求項1に記載の方法。
【請求項11】
前記マッピングが複数のエンティティに基づく、請求項10に記載の方法。
【請求項12】
臨床判断支援ツール、医療従事者ポータル、又は検索可能な医療データベースのうちの少なくとも1つに、構造化医療データを提供するステップをさらに含む、請求項1に記載の方法。
【請求項13】
前記画像認識動作が、前記画像ファイル内の前記入力テキスト文字列の画像位置を出力し、
前記方法が、
表示インターフェース内で、前記画像ファイルを表示するステップと、
前記画像位置に基づいて、エンティティが検出された前記入力テキスト文字列のサブセットの上に強調マークアップを表示するステップと、
前記強調マークアップのうちの少なくとも1つの選択を検出するステップと、
前記選択を検出するステップに応答して、前記選択された強調マーキングの上にポップアップウィンドウを表示するステップであって、前記ポップアップウィンドウが、前記選択された強調マーキングの前記入力テキスト文字列から検出された前記エンティティの前記標準用語を含む、ステップと
をさらに含む、請求項12に記載の方法。
【請求項14】
前記画像ファイルが、EMR(電子医療記録)データベース、PACS(画像保管通信システム)、デジタル病理学(DP)システム、LIS(実験室情報システム)、RIS(放射線医学情報システム)、患者報告結果データベース、ウェアラブルデバイス、又はソーシャルメディアウェブサイトのうちの少なくとも1つを含む、1つ又は複数の情報源から受信される、請求項1に記載の方法。
【請求項15】
上記の方法のうちのいずれかの動作を実行するようにコンピュータシステムを制御するための複数の命令を記憶するコンピュータ可読媒体を備える、コンピュータ製品。
【請求項16】
請求項15に記載のコンピュータ製品と、
前記コンピュータ可読媒体に記憶された命令を実行するための1つ又は複数のプロセッサと
を備える、システム。
【請求項17】
上記の方法のうちのいずれかを実行するための手段を備える、システム。
【請求項18】
上記の方法のうちのいずれかを実行するように構成された、システム。
【請求項19】
上記の方法のうちのいずれかのステップをそれぞれ実行するモジュールを備える、システム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
[0001]本出願は、その内容がすべての目的のために全体として参照により本明細書に組み込まれる、2019年9月6日に出願された米国仮特許出願第62/897,252号に対する優先権の利益を主張する。
【背景技術】
【0002】
[0002]毎日、全世界で病院は膨大な量の臨床データを作成している。臨床医及び臨床スタッフなどの医療従事者は、患者を看護するために臨床データを分析する必要がある。このデータの分析は、医療提供及び看護の質における詳細な洞察を提供すること、並びに医療を改善する基礎を提供することにおいても重要である。
【0003】
[0003]残念なことに、大部分の臨床データは、ほとんどのデータが紙の形態又は走査画像の形態のいずれかであるため、アクセスし分析することが困難である。データは、たとえば、構造化データモデルに関連付けられておらず、データのコンテキスト及び/又は意味を定義するように事前定義された方式で整理されてもいない、病理報告又は任意の他のデータを含む場合がある。データの物理的な形態、並びにデータが構造化されていないという事実のために、臨床医及び臨床スタッフは、通常、患者の病理報告を読み通して、診断歴、治療歴などの重要な臨床データを取得することに多大な時間を費やす必要があり、多数の患者の病理報告を読むために時間が積み重なる。その上、手作業による抽出はまた、骨が折れ、遅く、コストがかかり、間違いの元になる。病理報告から臨床データを手作業で処理及び抽出することは、医療従事者に大きな負担を課し、患者を看護する際の医療従事者の能力に影響を及ぼす可能性がある。医療提供及び看護の質における詳細な洞察を提供するための病理報告の大量の手動処理はまた、経費及び時間の制限に起因して実現可能ではない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
病理報告内の自動化された情報の抽出及び改良のための技法を提供する。
【課題を解決するための手段】
【0005】
[0004]病理報告内の自動化された情報の抽出及び改良のための技法が本明細書に開示される。病理報告は、たとえば、EMR(電子医療記録)データベース、PACS(画像保管通信システム)、デジタル病理学(DP)システム、ゲノムデータを含むLIS(実験室情報システム)、RIS(放射線医学情報システム)、患者報告結果データベース、ウェアラブル及び/又はデジタル技術、並びにソーシャルメディアを含む、(たとえば、1つ又は複数の医療施設にある)様々な一次情報源からの電子報告を含むことができる。病理報告はまた、紙の形態であり、臨床医/臨床スタッフに由来することができる。病理報告は、紙の形態の病理報告を走査することによって取得される画像ファイル(たとえば、ポータブルドキュメントフォーマット(pdf)、ビットマップ画像ファイル(BMPファイル))の形態であり得る。
【0006】
[0005]いくつかの例では、病理報告の画像から病理エンティティ(entities)を抽出するためにワークフローが提供される。ワークフローは、病理報告の画像ファイルからテキスト文字列(text strings)を抽出することで始まることができる。画像ファイルからのテキスト文字列の抽出は、光学式文字認識(OCR)、光学式単語認識などの、画像から文字及び/又はテキスト文字列を認識する画像認識プロセスに基づくことができる。ワークフローは、自然言語プロセッサ(NLP)を使用して、入力テキスト文字列からエンティティを認識することであって、各エンティティがラベル及び値を含む、認識することと、テキスト文字列からエンティティの値を特定することとをさらに含むことができる。エンティティは、一般に、医療診断、医療処置、投薬、患者の体内の特定の位置/臓器などの、事前定義された医学的なカテゴリ及び分類を指すことができる。各エンティティは、カテゴリ/分類を示すラベル、及びカテゴライズ/分類されたデータに対応する値を有することができる。いくつかの例では、ワークフローは、国際医療用語集(SNOMED)規格の基で定義された臨床的な用語及びコードなどの標準用語に、少なくともいくつかのエンティティの値をマッピングすることをさらに含む。ワークフローは、次いで、マッピングに基づいて、エンティティのラベルをエンティティの値又は標準化された用語のうちの少なくとも1つと関連付ける構造化医療データを生成することができる。
【0007】
[0006]構造化医療データ(structured medical data)は、様々なアプリケーションに提供され得る。たとえば、構造化医療データは検索可能なデータベースに記憶され得、検索クエリに基づいてエンティティ及び(標準化されているかされていない)それらの値がそこから取り出され得る。検索可能なデータベース並びに構造化医療データはまた、処理するために、臨床判断支援アプリケーション、分析アプリケーションなどの様々なアプリケーションに対して利用可能にされ得る。たとえば、臨床判断支援アプリケーションは、臨床判断を支援するために、臨床判断に関係するエンティティ(たとえば、診断歴、処置歴、薬歴)及びそれらの値をデータベースから取り出し、エンティティを処理して出力を生成することができる。分析アプリケーションは、たとえば、多数の患者の病理報告から治療歴及び診断に関係するエンティティを取得し、分析を実行して医療提供及び看護の質における洞察を取得することができる。他の例では、構造化医療データを表示し、かつ/又は抽出されたエンティティ情報が画像に重ね合わされた病理報告の画像を表示するために、臨床ポータルアプリケーションが提供され得る。
【0008】
[0007]NLPモデルは、エンティティ及び値を含むテキスト文字列のシーケンス(sequences)を識別し、識別に基づいてエンティティ及び値を抽出するように訓練され得る。NLPは、2ステッププロセスで訓練され得る。第1のステップとして、NLPモデルは、ベースラインNLPサブモデルを構築するために、共通医療用語を含む文書に基づいて訓練され得る。第2のステップとして、ベースラインNLPサブモデルは、次いで、特定の病理用語を含むようにモデルを拡張するために、病理報告からのテキスト文字列を使用して訓練され得る。訓練動作の第2のステップは、CoNLL(自然言語学習に関する会議)ファイルを使用して実行され得る。
【0009】
[0008]加えて、様々な技法は、NLPの抽出精度を向上させるために、画像認識動作(image recognition operation)の様々なパラメータを決定することができる。いくつかの例では、パラメータの値の異なる組合せを取得するために、パラメータ掃引動作が実行され得る。次いで、画像認識動作は繰り返し実行され得、各繰り返しはパラメータの値の組合せに基づいて実行される。次いで、繰り返しごとのテキスト認識精度が測定され得、ワークフローのための画像認識動作を構成するために、最も高いテキスト認識精度につながるパラメータの値の特定の組合せが使用され得る。別の例として、画像認識動作のパラメータの決定は、NLPの出力に基づくことができる。具体的には、画像認識動作は、パラメータ値の第1のセットに基づいて事前構成され得る。事前構成された画像認識動作は、テキスト文字列を抽出するために病理報告の画像に対して実行され得、テキスト文字列は、病理エンティティを抽出するためにNLPに入力され得る。次いで、画像認識動作のパラメータは、NLPによる抽出精度に基づいて調整され得る。
【0010】
[0009]本発明の上記及び他の実施形態は、以下で詳細に記載される。たとえば、他の実施形態は、本明細書に記載された方法に関連付けられたシステム、デバイス、及びコンピュータ可読媒体に関する。
【0011】
[0010]本発明の実施形態の本質及び利点のより良い理解は、以下の発明を実施するための形態及び添付図面を参照して得られてもよい。
[0011]発明を実施するための形態は、添付図面を参照して記載される。
【図面の簡単な説明】
【0012】
【
図1】[0012]従来の病理報告の一例を示す図である。
【
図2A】[0013]本開示の例によって実施され得る従来の病理報告の後処理の例を示す図である。
【
図2B】本開示の例によって実施され得る従来の病理報告の後処理の例を示す図である。
【
図3】[0014]病理報告の自動化された情報の抽出及び改良を実行するシステムの一例を示す図である。
【
図4A】[0015]
図3のシステムの例示的な内部構成要素及びそれらの動作を示す図である。
【
図4B】
図3のシステムの例示的な内部構成要素及びそれらの動作を示す図である。
【
図4C】
図3のシステムの例示的な内部構成要素及びそれらの動作を示す図である。
【
図4D】
図3のシステムの例示的な内部構成要素及びそれらの動作を示す図である。
【
図4E】
図3のシステムの例示的な内部構成要素及びそれらの動作を示す図である。
【
図5A】[0016]
図3のシステムの自然言語処理モデルの訓練動作の例を示す図である。
【
図5B】
図3のシステムの自然言語処理モデルの訓練動作の例を示す図である。
【
図5C】
図3のシステムの自然言語処理モデルの訓練動作の例を示す図である。
【
図5D】
図3のシステムの自然言語処理モデルの訓練動作の例を示す図である。
【
図5E】
図3のシステムの自然言語処理モデルの訓練動作の例を示す図である。
【
図6】[0017]
図3のシステム内の画像認識動作のパラメータを決定する例示的な動作を示す図である。
【
図7】[0018]
図3のシステムの出力によって支援される例示的なアプリケーションを示す図である。
【
図8】[0019]病理報告の自動化された情報の抽出及び改良を実行する方法を示す図である。
【
図9】[0020]本明細書に開示された技法を実施するために利用され得る例示的なコンピュータシステムを示す図である。
【発明を実施するための形態】
【0013】
[0021]病理報告内の自動化された情報の抽出及び改良のための技法が本明細書に開示される。病理報告は、たとえば、EMR(電子医療記録)データベース、PACS(画像保管通信システム)、デジタル病理学(DP)システム、ゲノムデータを含むLIS(実験室情報システム)、RIS(放射線医学情報システム)、患者報告結果データベース、ウェアラブル及び/又はデジタル技術、並びにソーシャルメディアを含む、(たとえば、1つ又は複数の医療施設にある)様々な一次情報源からの電子報告に由来することができる。病理報告はまた、紙の形態であり、臨床医/臨床スタッフに由来することができる。病理報告は、紙の形態の病理報告を走査することによって取得される画像ファイル(たとえば、ポータブルドキュメントフォーマット(pdf)、ビットマップ画像ファイル(BMPファイル))の形態であり得る。
【0014】
[0022]いくつかの実施形態では、病理報告の画像から病理エンティティを抽出するためにワークフローが提供される。ワークフローは、病理報告の画像ファイルからテキスト文字列を抽出することで始まることができる。画像ファイルからのテキスト文字列の抽出は、光学式文字認識(OCR)、光学式単語認識などの、画像から文字及び/又はテキスト文字列を認識する画像認識プロセスに基づくことができる。ワークフローは、自然言語プロセッサ(NLP)を使用して、テキスト文字列からエンティティを認識することであって、各エンティティがラベル及び値を含む、認識することと、テキスト文字列からエンティティの値を特定することとをさらに含む。エンティティは、一般に、医療診断、医療処置、投薬、患者の体内の特定の位置/臓器などの、事前定義された医学的なカテゴリ及び分類を指す。各エンティティは、カテゴリ/分類を示すラベル、及びカテゴライズ/分類されたデータを示す値を有する。いくつかの例では、ワークフローは、少なくともいくつかのエンティティの値を標準用語にマッピングすることを含む。マッピングは改良プロセスの一部であり得、改良プロセス内で、カテゴライズ/分類されたデータの標準化されていない表現であり得る少なくともいくつかのエンティティの値は、国際医療用語集(SNOMED)規格の基で定義された臨床的な用語及びコードなどの標準化されたデータに変換される。ワークフローは、次いで、エンティティのラベルをエンティティの値又は標準化された用語のうちの少なくとも1つと関連付ける構造化医療データを生成することができる。
【0015】
[0023]構造化医療データは、様々なアプリケーションに提供され得る。たとえば、構造化医療データは検索可能なデータベースに記憶され得、検索クエリに基づいて(標準化されているかされていない)エンティティ及びそれらの値がそこから取り出され得る。検索可能なデータベース並びに構造化医療データはまた、処理するために、臨床判断支援アプリケーション、分析アプリケーションなどの様々なアプリケーションに対して利用可能にされ得る。たとえば、臨床判断支援アプリケーションは、臨床判断を支援するために、臨床判断に関係するエンティティ(たとえば、診断歴、処置歴、薬歴)及びそれらの値をデータベースから取り出し、エンティティを処理して出力を生成することができる。分析アプリケーションは、たとえば、多数の患者の病理報告から治療歴及び診断に関係するエンティティを取得し、分析を実行して医療提供及び看護の質における洞察を取得することができる。
【0016】
[0024]別の例として、エンドツーエンド改良ワークフロー動作を実施する臨床ポータルアプリケーションが提供され得る。臨床ポータルアプリケーションは、患者データベースから病理報告の画像を受信し、画像に対して光学式文字認識(OCR)動作を実行して、抽出されたテキスト文字列及び画像内のそれらの画像位置を含む第1のデータを生成することができる。次いで、臨床ポータルアプリケーションは、NLPを使用して、抽出されたテキスト文字列から(ラベル及び値を含む)病理エンティティを抽出することができる。次いで、臨床ポータルアプリケーションは、構造化医療データの中にエンティティを集め、患者データベースに構造化医療データを戻して記憶する。臨床ポータルアプリケーションはまた、構造化医療データを表示することができる。いくつかの例では、臨床ポータルアプリケーションは、構造化形式で(たとえば、表、入力フォームの形式で)構造化医療データを表示して、ポータルのユーザ(たとえば、臨床医、臨床スタッフ)が探している医療情報を効率的に識別することを可能にすることができる。いくつかの例では、臨床ポータルアプリケーションは、画像、並びにNLPが病理エンティティを表すように決定したテキスト文字列に重ね合わされた選択可能な強調マーキングを表示するための表示インターフェースを含むことができる。表示インターフェースはまた、テキスト文字列のセット上の強調マーキングの選択を検出し、エンティティのラベル及び値、並びに選択されたテキスト文字列の他の改良情報(たとえば、SNOMEDに基づく標準化データ)を含むポップアップウィンドウを表示することができる。
【0017】
[0025]NLPモデルは、エンティティ及び値を含むテキスト文字列のシーケンスを識別し、識別に基づいてエンティティ及び値を抽出するように訓練され得る。NLPは、2ステッププロセスで訓練され得る。第1のステップとして、NLPモデルは、ベースラインNLPサブモデルを構築するために、共通医療用語を含む文書に基づいて訓練され得る。ベースラインNLPサブモデルは、病理エンティティを含む場合がある(又は含まない場合がある)共通医療用語を含むテキスト文字列のシーケンスを識別するための一次コンテキストを提供するために使用され得る。ベースラインNLPサブモデルは、たとえば、PubMed Central(登録商標)、アメリカ国立衛生研究所のアメリカ国立医学図書館における生物医学及び生命科学のジャーナル文献のフリーフルテキストアーカイブなどの、様々な主要情報源からの生物医学記事に基づいて訓練/構築され得る。第2のステップとして、ベースラインNLPサブモデルは、次いで、病理エンティティを含むようにサブモデルを拡張するために、病理報告からのテキスト文字列を使用して訓練される。訓練動作の第2のステップは、CoNLL(自然言語学習会議)ファイルを使用して実行され得る。CoNLLファイルは、他の病理報告から抽出されたテキスト文字列を含む場合があり、各テキストは、エンティティラベル又は非エンティティであることの標識のいずれかでタグ付けされる。NLPは、複数の病理報告からのCoNLLファイルに基づいて訓練され得る。いくつかの例では、訓練は、病院、臨床グループ、又は個々の臨床医に固有であり得、その結果、NLPは、エンティティ及びそれらの値の抽出精度を最大化することができる病院/臨床グループ/臨床医の単語の選好を学習するように訓練され得る。いくつかの実施形態では、エンティティの抽出精度の統計データが保持され得る。NLPが入力テキスト文字列からエンティティを抽出するときに低い抽出精度を有すると統計データが示した場合、入力テキスト文字列は、新しいCoNLLファイルを生成するようにタグ付けされ得、NLPは、抽出精度を向上させるために新しいCoNLLファイルを使用して再訓練され得る。
【0018】
[0026]加えて、NLPの抽出精度を向上させるように画像認識動作の様々なパラメータを決定するために、様々な技法が提案される。パラメータは、たとえば、エロージョン値、ページイテレータレベル、ページセグメント化モード、又は倍率を含む場合がある。エロージョン値は、ぼやけた線の平滑化動作が実行されたかどうかを示すことができる。ページイテレータレベルは、画像認識動作の細分性(granularity)-画像認識動作の細分性を高めるために、ページ全体をブロックとして扱うか、又はページ内のセクション(段落、行、単語、文字など)をブロックとして扱うことによってそれが実行されたがどうかを指すことができる。ページセグメント化モードは、処理されているページの傾斜した向きを検出し、傾斜した向きを補正するように画像認識動作を調整することができる。倍率は、処理されるべき画像をズームイン又はズームアウトするようにズームレベルを設定することができる。
【0019】
[0027]いくつかの例では、パラメータの値の異なる組合せを取得するために、パラメータ掃引動作が実行され得る。次いで、画像認識動作は病理報告のセットに対して繰り返し実行され得、各繰り返しはパラメータの値の組合せに基づいて実行される。次いで、繰り返しごとのテキスト認識精度が測定され得、ワークフローのための画像認識動作を構成するために、最も高いテキスト認識精度につながるパラメータの値の特定の組合せが使用され得る。
【0020】
[0028]別の例として、画像認識動作のパラメータの決定は、NLPの出力に基づくことができる。具体的には、画像認識動作は、パラメータ値の第1のセットに基づいて事前構成され得る。事前構成された画像認識動作は、テキスト文字列を抽出するために病理報告
の画像に対して実行され得、テキスト文字列は、病理エンティティを抽出するためにNLPに入力され得る。次いで、画像認識動作のパラメータは、NLPによる抽出精度に基づいて調整され得る。
【0021】
[0029]NLPの出力に基づいて画像認識動作のパラメータを調整することは、特に、非標準のコード及びフレーズを含む場合がある特定の医師による注記を画像ファイルが含む場合に、有利であり得る。テキスト認識精度を特定するためにOCRの出力が標準化フレーズと比較された場合、比較は、テキスト文字列が非標準のコード及びフレーズを含むときにOCRパラメータの特定のセットについてのテキスト認識精度に関する正しくない結論につながる可能性がある。一方、NLPモデルは、非標準のコード及びフレーズ、並びに標準化用語を認識するように訓練されているので、NLPの出力を使用してテキスト認識精度を特定することは、テキスト認識精度測定値がOCRの出力内の非標準のコード及びフレーズの存在によってあまり影響されないことを保証することができる。
【0022】
[0030]開示された技法は、病理報告の画像を処理してテキスト文字列を抽出することによって始まり、NLPを使用してテキスト文字列からエンティティ及びそれらの値を抽出すること、抽出されたエンティティ及び値を標準用語にマッピングすることによってそれらを改良すること、並びに抽出されたエンティティ及び抽出された値又は標準用語のうちの少なくとも1つを含む構造化医療データを生成することがその後に続く、自動化されたワークフローを可能にすることができる。臨床医及び臨床スタッフが関連情報を抽出するために病理報告を手動で読み通す必要がある場合と比較して、開示された技法は、抽出プロセスを実質的に迅速処理し、臨床医及び臨床スタッフが病理報告から必要な情報を取得するために必要な時間/リソースを低減することができ、それにより、臨床医及び臨床スタッフが正しい治療を見つけ、患者に治療を施すことにより多くの時間/リソースを割り当てることが可能になる。その上、構造化医療データを、臨床支援アプリケーション、分析アプリケーションなどの他のアプリケーションによってアクセス可能にすることにより、医療提供及び看護の質における洞察を提供するため、関連データを提供して臨床医によって行われる臨床判断を支援するためなどに、大きい患者集団の病理報告の大規模分析が実行され得る。データフローの全体速度並びに医療データ抽出の正確性及び完全性における改善では、高品質患者データのより広く高速のアクセスが臨床及び研究目的で提供され得、それは、治療及び医療技術における発展、並びに患者に提供される看護の質の向上を容易にすることができる。
【0023】
I.病理報告からの情報の抽出及び改良の例
[0031]
図1は、従来の病理報告100の一例を示す。病理報告は、病理医によって書かれた医療文書であり、患者の腫瘍から取られた組織のサンプルの病理医の検査に基づく組織学的診断を提供することができる。腫瘍組織から、病理医は、たとえば、組織ががん性か又は非がん性か、及び腫瘍の特徴に関する他の具体的詳細を見出すことができる。すべてのこの情報は、病理報告の一部であり得る。これらの情報に基づいて、治療が策定され得る。
【0024】
[0032]
図1を参照すると、病理報告100は、診断情報の複数のセクションを含む場合がある。たとえば、病理報告100は、数ある中でも、腫瘍の位置(たとえば、右肺/中葉)を示すセクション102、病変の数(たとえば、肺扁平上皮がん)を示すセクション104、腫瘍のサイズ(たとえば、5.3×4.0×3.0cm)を示すセクション106、組織学的診断(たとえば、高分化又は中分化の角化扁平上皮がん)を示すセクション108、リンパ節状態(たとえば、N2(8/28))を示すセクション110、及びTNM(腫瘍リンパ節転移)病期(たとえば、pT3(心膜腔浸潤)N2(8/28)G2 R0)を示すセクション112を含む場合がある。病理報告100は、紙の形態であり得るか、又は病理報告100を含むページを走査して生成された画像ファイル(たとえば、pdfファイル、BMPファイル)として記憶され得る。
【0025】
[0033]臨床医及び/又は臨床スタッフメンバは、病理報告100を読み通し、探している医療情報を手動で抽出することができる。しかしながら、そのような手配は、骨が折れ、遅く、コストがかかり、間違いの元になる可能性がある。具体的には、病理報告は、特に異なる病院及びグループから作成された報告の場合、均一なフォーマット及び構造で整理されていない場合がある。結果として、読者は、ある特定の医療情報を検索するために病理報告100全体を読み通す必要があり得、それは、特に読者が大きい患者集団の大量の病理報告を読み通す必要があるとき、非常に時間がかかり、骨が折れる可能性がある。
【0026】
[0034]手動抽出プロセスも、間違いの元になる可能性がある。読者は、必要とする情報を見つけるために病理報告を読み通すには非常に限られた時間しかもたない場合があり、読者は、病理報告から取得された情報を読み取り、かつ/又は書き写す際に間違いを犯す可能性があるので、間違いの1つの原因は骨が折れる抽出プロセスのせいであり得る。間違いの別の原因は、異なる臨床医が診断結果を文書化する異なる方法を有する場合があり、それが混乱及び正しくない解釈をもたらす可能性があるという事実のせいであり得る。たとえば、セクション110の場合、読者は、「リンパ節状態」及び関連付けられた値「N2 8/28」の意味を理解するのが困難である可能性がある。結果として、読者は、セクション110の正しくない解釈をもつ可能性がある。間違いの別の原因は、重要なエンティティを標準用語にマッピングすることである可能性がある。デフォルトの標準用語は多くの冗長性を有する場合があり、それを調べることだけでは、抽出されたエンティティを正規化された用語に転換することに役立たない場合がある。たとえば、「肺」という単語は、20個を超える正規化された概念と関連付けられる場合がある。「肺」という単語がマッピングする概念を識別することは、手動で行うことが困難であり得る。
【0027】
[0035]
図2A及び
図2Bは、本開示の技法によって実施され得る病理報告100を後処理した例示的な結果を示す。
図2Aに示されたように、病理報告100のセクション102~112内の診断情報は、様々な医療エンティティにマッピングされ得る。医療エンティティは、事前定義された医療カテゴリ及び分類を指すことができる。医療エンティティは、たとえば、医療診断、医療処置、投薬、及び患者の体内の特定の位置/臓器を含む場合がある。医療エンティティは、SNOMEDなどの世界共通規格に基づいて定義され得、その結果、あらゆる臨床医及び医療プロバイダは、その医療エンティティに同じ意味を付けることができる。典型的な病理報告の医療エンティティ及びそれらの意味のリストは、以下の通りであり得る。
【0028】
【0029】
【0030】
[0036]
図2Aを参照すると、病理報告100のセクション102~112内の診断情報は、医療エンティティに基づいて整理された構造化データを含むデジタル病理報告200を生成するために、表1の様々な医療エンティティにマッピングされ得る。たとえば、セクション102の情報は、分割され、(値「右」を有する)エンティティ「検体側性」と(値「中葉」を有する)エンティティ「腫瘍部位」の両方にマッピングされ得る。セクション104の情報は、値「扁平上皮がん」を有するエンティティ「組織構造」にマッピングされ得る。セクション106の情報は、値「5.3×4.0×3.0cm」を有するエンティティ「腫瘍サイズ」にマッピングされ得る。セクション108の情報は、値「高分化又は中分化の角化扁平上皮がん」を有するエンティティ「組織学的悪性度」にマッピングされ得る。セクション110の情報は、値N2を有するエンティティ「所属リンパ節/カテゴリ(pN)」にマッピングされ得、セクション112の情報は、分割され、(値pT3を有する)エンティティ「原発腫瘍(pT)」及び(値G2を有する)エンティティ「全体的悪性度」にマッピングされ得る。デジタル病理報告200の各医療エンティティは、世界共通規格に基づいて定義され、明確に定義された意味を有するので、医療エンティティの意味及びその関連付けられた値を読者が間違って解釈するリスクは低減され得る。
【0031】
[0037]いくつかの例では、デジタル病理報告200は、エンティティ及び関連付けられた値がテキスト文字列の形態で記憶されたプレーンテキストファイルであり得、他のアプリケーションによって容易に構文解析/検索され得る。その上、デジタル病理報告200内のエンティティ及びそれらの関連付けられた値の配置は、構造化され、標準化された順序に従うことができ、その結果、各エンティティはデジタル病理報告200内のそれ自体の所定の位置を有する。そのような配置では、アプリケーション(又は標準化された順序に詳しい人間の読者)は、エンティティを探すために病理報告全体を通して検索するのではなく、エンティティの所定の位置に基づいて、病理報告200内の特定のエンティティ及びその値を探すことができ、それは、デジタル病理報告200からの医療情報の抽出を実質的に加速することができる。
【0032】
[0038]改良プロセスの一部として、デジタル病理報告200のエンティティと値の組合せは、SNOMEDなどの世界共通規格に基づいて定義された所定の医療用語にマッピングされ得る。そのような配置により、エンティティと値の組合せによって表された診断結果が世界共通規格に従うことが可能になり、それにより、間違った解釈及び不明確さのリスクをさらに低減することができる。たとえば、
図2Aに戻ると、セクション210は、組織学的腫瘍部位が値「中葉」を有することを示すが、臓器は指定されておらず、それは、腫瘍部位の正確な位置に関する不明確さ及び潜在的な混乱をもたらす可能性がある。しかし、セクション210が標準化され世界共通で受け入れられた形式に変換された場合、腫瘍部位の正確な位置に関する不明確さ/混乱は回避され得る。
【0033】
[0039]
図2Bは、エンティティ及び値のペアとSNOMED概念との間のマッピングの例を示すマッピングテーブル250を示し、それは、間違った解釈及び不明確さのリスクを除去することができる。たとえば、「扁平上皮がん」の値を有するエンティティ「組織構造」は、概念ID59529006を有するSNOMED概念「扁平上皮内がん」にマッピングされ得る。その上、値「下葉」を有するエンティティ「腫瘍部位」は、概念ID90572001を有するSNOMED概念「肺の下葉の構造」にマッピングされ得る。そのようなマッピングは、エンティティ「腫瘍部位」と値「下葉」との間のペアリング、並びにエンティティの一部ではないが、テキスト「肺」などのコンテキスト情報として袖出されたセクション102に含まれる情報に基づくことができる。同様に、値「左」を有するエンティティ「検体側性」は、概念ID44029006を有するSNOMED概念「左肺構造」にマッピングされ得、またエンティティ-値ペアリング並びにコンテキスト情報に基づくことができる。すべてのこれらの場合、SNOMED概念は、潜在的な混乱/不明確さを取り除くために、正確な腫瘍部位の位置を明確にすることができる。
【0034】
[0040]改良プロセスの一部として、SNOMED概念にマッピング(一致)するデジタル病理報告200の各エンティティ-値ペアは、SNOMED概念と置き換えられ得る。たとえば、セクション210内のエンティティ-値ペア(腫瘍部位-下葉)は、SNOMED概念「肺の下葉の構造」及び/又はSNOMED概念ID90572001と置き換えられ得る。一方、対応するSNOMED概念をもたないデジタル病理報告200内のエンティティ-値ペアは置き換えられない。一致がない場合、報告はエンティティ-値ペアを含むことができる。NLPは、該当する場合SNOMED概念を提供するように訓練され得る。
【0035】
[0041]エンティティ-値ペアのそのSNOMED概念との置き換えは、報告に標準用語を含めることによってデジタル病理報告200を改良することができ、それは、人間の読者のためにエンティティの非標準値に関連付けられた間違った解釈及び不明確さのリスクを低減することができる。いくつかの例では、デジタル病理報告200のエンティティ-値ペアはまた、デジタル病理報告200のデータサイズを低減するためにSNOMED概念IDと置き換えられ得る。そのような配置はまた、アプリケーションによるデジタル病理報告200の処理を容易にすることができる。具体的には、エンティティ-値ペアは同じ概念を表す値の複数の代替バージョンを有する場合があるので、エンティティ-値ペアを抽出し解釈するアプリケーションは、値の複数の代替バージョンを認識して関連付けられた概念を認識する内蔵機能をもつ必要がある。一方、アプリケーションは、SNOMED概念IDを構文解釈し、概念を概念IDと一義的にリンクすることができ、それはアプリケーションの複雑さを低減することができる。
【0036】
II.病理エンティティ抽出及び改良システム
[0042]上述されたように、病理報告100などの従来の病理報告は、紙の形態又は走査された画像の形態のいずれかであるデータにアクセスし分析することが困難である。データの物理的な形態、並びにデータが構造化されていないという事実のために、臨床医及び臨床スタッフは、通常、病理報告を読み通して、重要な臨床データを取得することに多大な時間を費やす必要があり、それは、骨が折れ、遅く、コストがかかり、間違いの元になる。その上、報告内の臨床データは非標準化用語を含む場合があるので、臨床医が報告内の非標準化用語を解釈するときに潜在的な不明確さ及び混乱が生じる場合があり、それは、病理報告からの臨床データの抽出に対する間違いを引き起こす可能性がある。
【0037】
A.システムアーキテクチャ
[0043]
図3は、上述された問題のうちの少なくともいくつかに対処するために、病理報告の自動化された情報の抽出及び改良を実行することができるシステム300を示す。システム300は、エンドツーエンド改良ワークフロー動作を実施する臨床ポータルアプリケーションの一部であり得る。
図3を参照すると、システム300は、患者データベース301から、入力として(たとえば、病理報告100の)病理報告画像ファイル302を受信することができる。システム300は、出力として、(たとえば、病理報告200の)後処理された病理報告データ304を生成することができる。以下に記載されるように、後処理された病理報告データ304は、上記の
図2A及び表1に記載されたものなどの病理エンティティ、並びに病理報告画像ファイル302から識別された関連付けられた値を含む、病理報告画像ファイル302から抽出された情報を含むことができる。加えて、後処理された病理報告データ304はまた、標準化された病理エンティティ値(たとえば、SNOMED概念)などの改良情報を含む場合がある。後処理された病理報告データ304は、患者の構造化医療データとして患者データベース301(又は他の臨床データベース)に書き戻され得る。いくつかの例では、システム300はまた、構造化された形式で(たとえば、表、入力フォームの形式で)後処理された病理報告データ304を表示するために、表示インターフェース305を含む。いくつかの例では、表示インターフェース305はまた、後処理された病理報告データ304に基づいて、テキスト及びグラフィカル情報と重ね合わされた病理報告画像ファイル302を表示することができる。
【0038】
[0044]システム300は、情報の抽出及び改良を実行するために、光学処理モジュール306、エンティティ抽出モジュール308、及び改良モジュール310を含む場合がある。各モジュールは、コンピュータシステム上(たとえば、サーバ、又は複数のサーバを含むクラウドコンピューティング環境内)で実行され得るソフトウェア命令を含むことができる。いくつかの例では、システム300は、(
図3に示されていない)臨床ソフトウェアプラットフォームの一部であり得る。システム300の各モジュールは、ソフトウェアプラットフォームと通信して患者データベース301などの異なるデータベースにアクセスするために、アプリケーションプログラミングインターフェース(API)を含むことができる。
【0039】
[0045]
図3を参照すると、光学処理モジュール306は、画像ファイル302を受信することができる。画像ファイル302は、たとえば、EMR(電子医療記録)データベース、PACS(画像保管通信システム)、デジタル病理学(DP)システム、ゲノムデータを含むLIS(実験室情報システム)、RIS(放射線医学情報システム)、患者報告結果データベース、ウェアラブル及び/又はデジタル技術、並びにソーシャルメディアを含む、(たとえば、1つ又は複数の医療施設にある)様々な一次情報源から受信され得る。画像ファイルは、たとえば、ポータブルドキュメントファイル(pdf)又はビットマップ画像ファイル(BMPファイル)などの様々なフォーマットであり得る。いくつかの例では、画像ファイルは、紙の形態の病理報告を走査することによって取得され得る。
【0040】
[0046]画像ファイル302を受信した後、光学処理モジュール306は、画像認識動作を実行して、画像ファイル302からテキスト画像を識別し、テキスト画像からテキストデータを生成し、テキストデータを含む中間テキストファイル312を生成することができる。画像認識動作は、たとえば、光学式文字認識(OCR)又は光学式単語認識を含む場合がある。両方の動作において、光学処理モジュール306は、(たとえば、ダークカラーを有するピクセルのパターンを識別することによって)文字のピクセルパターンを抽出し、各ピクセルパターンを文字の事前定義されたピクセルパターンと比較し、比較に基づいて各ピクセルパターンがどの文字(又はどの単語/フレーズ)を表すかを判定することができる。次いで、光学処理モジュール306は、文字/単語/フレーズをテキストファイル312に記憶することができる。光学処理モジュール306は、左から右に行のピクセルパターンを抽出し処理するために、所定のパターン(たとえば、ラスタ走査)に従って画像ファイル312を通して走査し、行ごとに走査を繰り返すことができる。走査パターンに基づいて、光学処理モジュール306は、テキスト文字列のシーケンス(たとえば、文字、単語、フレーズ)を生成し、テキスト文字列のシーケンスをテキストファイル312に記憶することができる。いくつかの例では、テキスト文字列の各シーケンスのピクセル位置を示すメタデータファイル314も、光学処理モジュール306によって生成され得る。メタデータファイル314は、以下に記載されるように他のアプリケーションによって使用され得る。メタデータファイル314の例が
図4Dに示されている。
【0041】
[0047]エンティティ抽出モジュール308は、テキストファイル312を処理し、テキストファイル312からエンティティ(たとえば、表1に列挙されたエンティティ)を認識し、エンティティに関連付けられた値を抽出することができる。エンティティ抽出モジュール308は、エンティティ-値ペア320を生成することができ、各ペアは抽出されたエンティティ及び対応する値を含む。エンティティ抽出モジュール308は、エンティティの認識及び値の抽出を実行するために、自然言語処理(NLP)モデル328を含む場合がある。NLPモジデル328は、テキストファイル312からのテキストのシーケンスを処理し、テキスト文字列の特定のシーケンスを認識することに基づいて、シーケンスのテキストのサブセットが特定のエンティティの値であると判断し、サブセット用のエンティティ-値ペアを特定することができる。
【0042】
B.自然言語プロセッサモデル
[0048]
図4Aは、NLPモデル328の一例を示す。
図4Aに示されたように、NLPモデル328は、ノード402、404a、404b、406a、406b、406c、及び408などのノードを備えるグラフを含む。各ノードはテキスト文字列に対応することができる。グラフ内でノードはアークによって接続され、アークの方向はNLPモデル328によって検出されるべきテキスト文字列のシーケンスを定義する。たとえば、ノード402及び404aはアーク410によって接続され、ノード404a及び406bは
アーク412によって接続され、ノード406b及び408はアーク414によって接続される。これらのノード及びアークは、テキストのシーケンス「right lung middle lobe」を定義することができる。ノードはまた、階層に整理され、エンティティ-値ペア、コンテキストなどであり得る検出出力は、各階層から生成され得る。
図4Aの例では、ノード402はエンティティ「検体側性」を検出する第1の階層内にあり得、ノード404a及び404bはコンテキストを検出する第2の階層内にあり得、ノード406a~406c及び408はエンティティ「腫瘍部位」を検出する第3の階層内にあり得る。検出は、たとえば、テキスト文字列の入力シーケンスとノードによって表されたテキスト文字列との間の類似度に基づいてスコアを計算するパラメータ化された式に基づくことができ、所定のエンティティ-ペア及び/又はコンテキスト情報は、スコアに基づいて出力され得る。
【0043】
[0049]NLPモデル328は、テキストファイル312からのシーケンス420などのテキスト文字列のシーケンスを処理することができる。NLPモデル328は、グラフ内で見つからないテキスト文字列(たとえば、単語、句読点、シンボル)をスキップしながら、シーケンス420と(正確に又は近接度のしきい値まで)一致するグラフからのノードのシーケンスを探すことができる。いくつかの例では、ノードのテキスト文字列はベクトルによって表され得、近接度は、ノードのシーケンス内のテキスト文字列とシーケンス420内のテキスト文字列との間の総ユークリッド距離のしきい値によって定義され得る。いくつかの例では、近接度はまた、ノードのシーケンスとシーケンス420との間の一致する単語のしきい数によって定義され得る。
図4Aの例では、NLPモデル328は、シーケンス420に最も近いグラフからのシーケンスのノードを探すことによってシーケンス420「部位:右肺/中葉」を処理することができ、単語「部位」並びに句読点「:」及び「/」を無視しながら、シーケンス420に最も近いノード402、404a、406b、及び408のシーケンスを識別することができる。識別されたシーケンスから、NLPモデル328は、ノード402からのエンティティ-値ペア422(検体側性、右)及びノード404aからのコンテキスト424(肺)を出力することができる。その上、エンティティが肺に関係することを示すコンテキスト424に基づいて、NLPモデル328は、シーケンス420から、ノード406b及び408からのエンティティ-値ペア426(腫瘍部位、肺の中葉)をさらに出力することができる。いくつかの例では、NLPモデル328は、テキスト文字列「葉」がシーケンス420内で見つからない場合でも、テキスト文字列のシーケンス「右」、「肺」、及び「中」、並びにそのようなシーケンスがエンティティ-値ペア426につながることを検出したことに基づいて、エンティティ-値ペア426を出力することができる。抽出されたエンティティ及びそれらの値は、構造化医療データの中に集められ得、患者データベース301に戻して記憶され得る。
【0044】
[0050]いくつかの例では、NLPモデル328は、ベースラインNLPサブモデル、並びに病理エンティティに固有の病理NLPサブモデルなどの、サブモデルの階層を含むことができる。ベースラインNLPサブモデルは、病理エンティティを含む場合がある(又は含まない場合がある)共通医療用語を含むテキスト文字列のシーケンスを識別するための一次コンテキストを提供するために使用され得る。一次コンテキストは、病理エンティティを含むテキスト文字列シーケンスの識別を誘導することができる。
【0045】
[0051]
図4Bは、NLPモジデル328の別の例を示す。
図4Bに示されたように、NLPモデル328は、ベースラインNLPサブモデル430及び病理NLPサブモデル440を含むことができる。ベースラインNLPサブモデル430は、たとえば、ノード430a、430b、及び430cを含むことができる。ノード430a及び430bは、病変、組織などの組織構造に関係する一般医療用語と関連付けられ得、ノード430cは、手術などの組織構造に関係しない一般医療用語と関連付けられる。加えて、病理NLPサブモデル440は、ノード440a、440b、440c、440d、440e、及び440fを含むことができる。ノード440a、440b、440c、及び440dは、シーケンス「肺扁平上皮がん」を形成するために、エッジ442、444、及び446によってリンクされ得る。一方、ノード440e及び440fは、心臓及び乳房などの手術を受ける異なる臓器と関連付けられる。
【0046】
[0052]ベースラインNLPサブモデル430は、
図4Bに示されたシーケンス450などのテキスト文字列のシーケンスを処理するために、病理NLPサブモデル440のどの部分を選択するかについてのコンテキスト/助言を提供することができる。具体的には、テキスト文字列シーケンス450内のテキスト文字列「病変の数」から、ベースラインNLPサブモデル430は、テキスト文字列シーケンス450の残りを処理するために、病理サブモデル440のノード440a~440dを選択することができる。次いで、病理サブモデル440は、ノード440a~440dに関連付けられたシーケンス(「肺扁平上皮がん」)をテキスト文字列シーケンス450の残りと比較することができる。シーケンスが一致することを見つけたことに基づいて、NLPサブモデル430は、エンティティ-値ペア452(組織構造、肺扁平上皮がん)を出力することができる。
【0047】
[0053]
図4A及び
図4BのNLPモデルトポロジーは説明のための例として提供されたことに留意されたい。NLPモデル328は、線形チェーンシーケンスモデルとしてのCRF(条件付き確率場)分類器、CNN Bi-LSTM(畳み込みニューラルネットワーク双方向長期短期記憶)などの他の形態を呈することができる。
【0048】
C.改良動作
[0054]
図3に戻ると、改良モジュール310は、改良動作を実行して、病理報告画像ファイル302から抽出された医療情報の質を改善することができる。1つの例示的な改良動作は、
図2Bに示されたように、病理報告内のエンティティ値をSNOMED概念などの標準化された値に変換することを含む場合がある。システム300は、改良モジュール310による改良動作を支援するために、用語マッピングデータベース370をさらに含む場合がある。
【0049】
[0055]
図4Cは、エンティティ-値ペアとSNOMED概念及び概念IDなどの標準用語との間のマッピングを含むことができる用語マッピングデータベース370を使用して、改良モジュール310によって実行される例示的な改良動作を示す。
図4Cでは、マッピングは、エンティティ列454、値列456、及びSNOMED概念列458を含むマッピングテーブルの形態であり得る。エンティティ-値ペアごとに、改良モジュール310は、それぞれ、エンティティ列454及び値列456内のエンティティ及び値、並びにSNOMED概念列458内の関連付けられたSNOMED概念及び概念IDの検索を実行することができる。
図4Cの例では、「腫瘍部位、下葉」のエンティティ-値ペア452に対して、改良モジュール310は、エンティティ列454内の「腫瘍部位」、値列456内の「下葉」、並びにSNOMED概念列458 370内の「肺の下葉の構造」のSNOMED概念及び90572001の概念IDを識別することができる。
【0050】
[0056]いくつかの例では、改良プロセスの一部として、改良モジュール310は、SNOMED概念へのマッピングを有する、エンティティ抽出モジュール308によって抽出された各エンティティ-値ペアをエンティティ-SNOMED概念ペアと置き換え、後処理された病理報告データ304にエンティティ-SNOMED概念ペアを記憶することができる。エンティティ-値ペアのそのSNOMED概念との置き換えは、報告に標準用語を含めることによって後処理された病理報告データ304を改良することができ、それは、人間の読者のためにエンティティの非標準値に関連付けられた間違った解釈及び不明確さのリスクを低減することができる。いくつかの例では、エンティティ-値ペアはまた、後処理された病理報告データ304のデータサイズを低減するためにSNOMED概念IDと置き換えられ得る。そのような配置はまた、アプリケーションによる後処理された病理報告データ304の処理を容易にすることができる。具体的には、エンティティ-値ペアは同じ概念を表す値の複数の代替バージョンを有する場合があるので、エンティティ-値ペアを抽出し解釈するアプリケーションは、値の複数の代替バージョンを認識して関連付けられた概念を認識する内蔵機能をもつ必要がある。一方、アプリケーションは、SNOMED概念IDを構文解釈し、概念を概念IDと一義的にリンクすることができ、それはアプリケーションの複雑さを低減することができる。
【0051】
D.改良動作を支援する表示インターフェース
[0057]
図3に戻ると、システム300は、後処理された病理報告データ304を表示するために表示インターフェース305を含む場合がある。いくつかの例では、表示インターフェース305は、構造化形式で(たとえば、表、入力フォームの形式で)後処理された病理報告データ304の構造化医療データを表示して、ポータルのユーザ(たとえば、臨床医、臨床スタッフ)が探している医療情報を効率的に識別することを可能にすることができる。いくつかの例では、表示インターフェース305は、病理報告画像ファイル302、並びにNLP328が病理エンティティを表示するように決定したテキスト文字列に重ね合わされた強調マークアップ(テキスト)を表示することができる。強調マークアップは選択可能である。表示インターフェース305はまた、テキスト文字列のセットの上の強調マーキングの選択を検出し、エンティティのラベル及び値、並びに選択されたテキスト文字列の他の改良情報(たとえば、SNOMEDに基づく標準化データ)を含むポップアップウィンドウを表示することができる。
【0052】
[0058]表示インターフェース305の動作は、テキスト文字列の各シーケンスのピクセル位置も光学処理モジュール306によって生成され得ることを示すメタデータファイル314に基づくことができる。
図4Dはメタデータファイル314の例を示す。
図4Dに示されたように、病理報告100から、メタデータ462、464、及び466は、それぞれ、セクション108、110、及び112から抽出されたエンティティ-値ペアに基づいて生成され得る。各メタデータセットは、そこからエンティティ-値ペアが抽出されたテキスト文字列の開始及び終了のピクセル位置(「start_offset」及び「end_offset」)、エンティティのラベル、並びにエンティティの値(「mention」)を示すことができる。いくつかの例では、開始及び終了のピクセル位置は、画像の左上から始まり、ラスタ化方式でカウントするピクセル番号によって提示され得る。いくつかの例では、開始及び終了のピクセル位置はまた、画像内の2次元ピクセル座標によって表され得る。
【0053】
[0059]
図4Eは、表示インターフェース305の一例を示す。
図4Eに示されたように、表示インターフェース305は、病理報告の画像470、並びに強調マークアップ472、474、476、及び480などの強調マークアップを表示することができる。各強調マーキングは、そこからエンティティ-ペアが抽出されたテキスト文字列のメタデータ内に示された開始及び終了のピクセル位置で画像470に重ね合わされる。加えて、各強調マーキングは、下にあるメタデータを表示するために(たとえば、強調マーキングの上にマウスカーソルを移動させることによって)選択可能である。たとえば、
図4Eでは、表示インターフェース305は、テキスト文字列「切除生検」用の強調マーカ476の上にマウスカーソルが移動したことを検出することができる。マウスカーソルのピクセル位置に基づいて、表示インターフェース305は、画像470用に生成されたすべてのメタデータから、(start_offset及びend_offsetによって表された)ピクセル位置の範囲を有するメタデータを識別することができる。次いで、表示インターフェース305は、識別されたメタデータから、SNOMED情報、テキスト文字列、エンティティのラベル、並びに抽出の信頼度(スコア)を抽出し、抽出された情報をポップアップウィンドウ482に表示することができる。
【0054】
E.自然言語プロセッサの訓練
[0060]
図3に戻ると、NLPモデル328は、訓練される機械学習モデルであり得る。
図3に示されたように、システム300は、NLPモデル328を訓練することができる訓練モジュール340を含む場合がある。訓練モジュール340は、ラベル付けされた一般医療文書348及びラベル付けされた病理報告350に基づいて、NLPモデル328を訓練することができる。一般医療文書348は、様々なカテゴリの生物医学の文献、報告などを含むことができる。訓練は、医療用語の単語を表すノード、並びに
図4AのNLPモデル328のエッジなどの単語の間の順序関係を表すエッジを作成する。訓練動作の一部として、特定のラベルを有するテキスト文字列のシーケンス(たとえば、ラベル付けされたエンティティ、ラベル付けされたエンティティ値、ラベル付けされたコンテキスト)は、NLPが正しいエンティティ-値ペア及び/又はコンテキスト情報を出力するかどうかを判定するために、NLPモデル328に入力され得る。(テキスト文字列のシーケンスのラベル付けされたエンティティ/エンティティ値と、テキスト文字列のシーケンスに対してNLPモデルによって出力されたエンティティ-値ペアを比較することに基づいて)NLPモデル328が正しいエンティティ-値ペア及び/又はコンテキスト情報を出力しないと訓練モジュール340が判定した場合、訓練モジュール340は、新しい単語を表す新しいノードを作成し、既存のノードの間にエッジを追加することなどにより、NLPモデル328を修正することができる。エンティティ-値ペアを出力する判断機構(たとえば、パラメータ化された式)はまた、正しいエンティティ-ペア及び/又はコンテキスト情報を出力する可能性を高めるために、(たとえば、パラメータを更新することによって)更新され得る。
【0055】
[0061]
図5A、
図5B、
図5C、
図5D、及び
図5Eは、NLPモデル328の訓練動作の例を示す。
図5Aに示されたように、NLPモデル328の訓練動作500は、2ステッププロセスで実行され得る。ステップ502において、ベースラインNLPサブモデル430などのベースラインNLPサブモデルは、ラベル付けされた一般医療文書に基づいて構築され得る。上述されたように、ベースラインNLPサブモデル430は、病理報告用語を含む場合がある(又は含まない場合がある)共通医療用語を含むテキスト文字列のシーケンスを識別するための一次コンテキストを提供するために使用され得る。ベースラインNLPサブモデル430は、たとえば、PubMed Central(登録商標)、アメリカ国立衛生研究所のアメリカ国立医学図書館における生物医学及び生命科学のジャーナル文献のフリーフルテキストアーカイブなどの、様々な主要情報源からの生物医学記事から導出された訓練データに基づいて訓練され得る。訓練データは、生物医学記事から抽出された特定のラベルを有するテキスト文字列のシーケンス(たとえば、ラベル付けされたエンティティ、ラベル付けされたエンティティ値、ラベル付けされたコンテキスト)を含むことができる。
【0056】
[0062]ステップ504において、ベースラインNLPサブモデルは、病理報告からのテキスト文字列のシーケンスを使用して訓練され得、それにより、病理用語のシーケンスを検出することができる病理NLPサブモデル(たとえば、病理サブモデル440)を含むようにベースラインNLPサブモデルが拡張される。ステップ504は、CoNLL(自然言語学習に関する会議)ファイルを使用して実行され得る。CoNLLファイルは、他の病理報告から抽出されたテキストを含む場合があり、各テキストは、エンティティラベル又は非エンティティであることの標識でタグ付けされ得る。NLPは、複数の病理報告からのCoNLLファイルに基づいて訓練され得る。いくつかの例では、訓練は、病院、臨床グループ、個々の臨床医などに固有であり得、その結果、NLPは、エンティティ及びそれらの値の抽出精度を最大化することができる病院/臨床グループ/臨床医の単語の選好を学習するように訓練され得る。
【0057】
[0063]
図5Bは、CoNLLフォーマットであり得るラベル付けされた病理報告350の一例を示す。ラベル付けされた病理報告350は、NLPモデル328に入力されるべきテキスト文字列、並びにテキスト文字列のエンティティを示すラベルを含み、それは、訓練を実行するようにNLPモデル328の出力を誘導するために訓練モジュール340によって使用され得る。ラベルは、テキスト文字列のシーケンスに対してNLPモデル328によって出力されるべき基準エンティティを表すことができる。次いで、訓練モジュール340は、基準エンティティと、テキスト文字列のシーケンスに対してNLPモデル328によって実際に出力されたエンティティとの間の差分に基づいて、NLPモデル328のパラメータを更新することができる。ラベル付けされた病理報告350は、病理報告に含まれる情報を識別し、情報をラベルと関連付けることができる人間(たとえば、臨床医、臨床スタッフ)によって生成され得る。情報の識別及びラベルとの関連付けは、世界共通規格(たとえば、SNOMED)に基づくことができ、また、特定の臨床医、医療グループ、医療プロバイダなどの習慣/慣行に固有であり得る。たとえば、臨床医は、腫瘍部位の位置を報告する固有の方法を有する場合があり、臨床医からの病理報告は、NLPモデル328を訓練するために、そのように示すようにラベル付けされ得る。
【0058】
[0064]
図5Bに示されたように、ラベル付けされた病理報告350の各行は、テキスト文字列510a、512a、514a、516a、518aなどのテキスト文字/テキスト文字列/テキストフレーズを含む場合がある。各テキスト文字列はラベルでリンクされ、ラベルは、コンテキスト、エンティティ、スキップされた単語、及びシーケンス内のそれらの場所を示すことができる。たとえば、単語「肺」用のラベル512bは「I-局在」であり、それは、単語「肺」がコンテキスト「局在」に属することを示し、「I」は、コンテキスト「局在」が識別されるべきシーケンスの始まりで単語「肺」が見つけられたことを指す。別の例として、ラベル514bは「I-側性」であり、それは、単語「右」がエンティティ「側性」に属することを示し、「I」は、エンティティ「側性」が識別されるべきシーケンスの始まりで単語「右」が見つけられたことを指す。さらに、ラベル516b及び518bは、それぞれ、「I-腫瘍部位」及び「B-腫瘍部位」である。それらのラベルは、単語「中」及び「葉」がエンティティ「腫瘍部位」に属することを示すことができ、単語「中」はエンティティ用のシーケンスの始まりで見つけられるべきであり、「B」は、単語「葉」がエンティティ用のシーケンスの中央で見つけられるべきことを示す。さらに、ラベル510bは、単語「4」がNLPモデル328によって処理されないスキップされたテキストであることを示す。
【0059】
[0065]
図5Cは、ラベル付けされたテキスト文字列のシーケンスがNLPモデル328によってどのように処理され得るかを示す。シーケンス内のテキストごとに、訓練モジュール340は、テキストがNLPモデル328のノード内にあるかどうかを判定することができ、テキスト文字列が見つからない場合、モデルにノード及び/又はエッジを追加することができる。その上、訓練モジュール340は、ラベル(たとえば、エンティティ「側性」)をNLPモデル328の出力と比較し、出力が一致しない場合判断機構を更新することができる。
【0060】
[0066]
図5Dは、NLP328を訓練するために使用されるテキスト文字列のラベル付けされたシーケンス内の異なるエンティティの例示的な分布520を示し、
図5Eは、NLP328によるエンティティ抽出の精度を測定する際の様々なメトリックを示す。
図5Dに示されたように、テキスト文字列シーケンスの比較的大きい部分は、これらのテキスト文字列がより一般的にシーケンスの中央で見つかるので、「B-悪性度」、「B-側性」、「B-サイズ」、「B-タイプ」、及び「B-局在」(6%~11%)とラベル付けされる。その上、テキスト文字列シーケンスの比較的小さい部分は、これらのテキスト文字列がよりまれなので、「B-結果」、「I-血管」、「I-気管支」、及び「I-マージン」(0.003%~0.275%)とラベル付けされる。分布520は、PubMe
d Central(登録商標)からの文書のコーパスに基づくことができ、約200万語を含むことができる。
【0061】
[0067]
図5Eは、エンティティの分布520を有するPubMed Central(登録商標)からの文書のコーパスに基づいてモデルが訓練された後に、NLPモデル328によって出力されたエンティティのための抽出精度メトリックのテーブル530を示す。抽出精度メトリックは、エンティティごとに、真陽性(tp)カウント、偽陽性(fp)カウント、偽陰性(fn)カウント、精度(prec)、再現率(rec)、及びF1スコア(f1)を含む。真陽性カウントは、NLP328が特定のエンティティを含むものとして正しく検出したテキスト文字列シーケンスの数をカウントする。偽陽性カウントは、特定のエンティティを含まないが、そのエンティティを含むものとしてNLP328が間違って検出したテキスト文字列シーケンスの数をカウントする。偽陰性カウントは、特定のエンティティを含むが、そのエンティティを含まないものとしてNLP328が間違って検出したテキスト文字列シーケンスの数をカウントする。陽性予測値としても知られている精度は、すべての陽性検出(正しい検出及び正しくない検出)のうちの(エンティティを含むシーケンスとしてフラグを立てた)正しい陽性検出の割合を指す。感度としても知られている再現率は、すべての検出結果(真陽性検出及び偽陰性検出)のうちの正しい陽性検出の割合を指す。精度及び再現率は、以下の式に基づいて比較され得る。
精度=tp/(tp+fp) (式1)
再現率=tp/(tp+fn) (式2)
【0062】
[0068]F1スコアは、検出の信頼度を提供するために計算される。良好なF1スコアは、良好な精度と良好な再現率の両方の全体的な反映である。NLPモデルは医療領域で使用されるので、高い精度は高い再現率よりも好まれる。
F1=(精度×再現率)/(精度+再現率) (式3)
【0063】
[0069]
図5Eに示されたように、平均F1スコアは約0.85であり、大部分のエンティティのF1スコアは約0.9を超えている。I-マージン(0.4)などの低いF1スコアを有するエンティティは、概して、
図5Dにうまく表されていないエンティティであり、それにより、NLPモデルがそれらのエンティティを正確に検出することが困難になる。
【0064】
[0070]NLPモデル328の訓練は、オフラインで実行され得るか、又は病理報告画像ファイルを処理してNLPモデル328を動的に更新しながら実行され得る。たとえば、NLPモデル328の訓練は、NLPモデル328が病理報告画像ファイルを処理するために使用される前の保守動作の一部として実行され得る。別の例として、システム300は、病理報告画像ファイルを処理することからNLPモデル328の出力(たとえば、エンティティ-値ペア、コンテキスト)の正しさを分析することができる分析モジュール360を含む場合があり、出力が正しくない場合(又は正しくない出力の数がしきい値を超えた場合)、分析モジュール360は、NLPモデル328を再訓練するように訓練モジュール340をトリガすることができる。再訓練の一部として、正しくない出力が生成され、正しいラベルが付けられた、病理報告画像ファイル内のテキストシーケンスは、NLPモデル328を再訓練するためにラベル付けされた病理報告350に追加され得る。
【0065】
III.画像認識動作の調整
[0071]加えて、様々な技法は、NLPの抽出精度を向上させるように画像認識動作の様々なパラメータを決定することができる。光学式文字認識(OCR)動作用のパラメータは、エロージョン値、ページイテレータレベル、ページセグメント化モード、又は倍率を含む場合がある。エロージョン値は、ぼやけた線の平滑化動作が実行されたかどうかを示すことができる。ページイテレータレベルは、画像認識動作の細分性-画像認識動作の細分性を高めるために、ページ全体をブロックとして扱うか、又はページ内のセクション(段落、行、単語、文字など)をブロックとして扱うことによってそれが実行されたがどうかを指すことができる。ページセグメント化モードは、処理されているページの傾斜した向きを検出し、傾斜した向きを補正するように画像認識動作を調整することができる。倍率は、処理されるべき画像をズームイン又はズームアウトするようにズームレベルを設定することができる。
【0066】
[0072]いくつかの例では、これらのOCRパラメータの調整はNLP328の出力に基づくことができる。具体的には、画像認識動作は、パラメータ値の第1のセットに基づいて事前構成され得る。事前構成されたOCR動作は、テキスト文字列を抽出するために病理報告の画像に対して実行され得、テキスト文字列は、病理エンティティを抽出するためにNLPに入力され得る。次いで、OCRパラメータは、NLPによる抽出精度に基づいて調整され得る。
【0067】
[0073]
図6は、NLP328の出力に基づいてOCRパラメータを調整する調整動作600の一例を示す。
[0074]ステップ602において、エロージョン値、ページイテレータレベル、ページセグメント化モード、倍率などのOCRパラメータのセットが決定され得る。それらのパラメータは、デフォルト値又はパラメータ掃引動作から決定された値に設定され得る。パラメータ掃引動作は、病理報告の画像の同じセットに対する画像認識動作のために実行され得、その中で、画像認識動作は繰り返し実行され得、各繰り返しは、パラメータの値の異なる組合せに基づいて実行される。次いで、繰り返しごとのテキスト認識精度が測定され得、ワークフローのための画像認識動作を構成するために、最も高い認識精度につながるパラメータの値の組合せが使用され得る。
【0068】
[0075]ステップ604において、病理報告の画像に対してOCRパラメータを有するOCRモデルを適用することにより、病理報告テキストデータ312が生成され得る。
[0076]ステップ606において、エンティティ-値ペアを抽出するためにNLPを使用して病理報告テキストデータが処理され得る。
【0069】
[0077]ステップ608において、NLPによるエンティティ-値ペアの抽出精度が特定される。精度は、たとえば、上記の式1~3に基づいてF1スコアを決定することに基づいて特定され得る。
【0070】
[0078]ステップ610において、抽出精度がしきい値を超えたかどうかが判定される。たとえば、F1スコアが0.75を超えたかどうかが判定される。
[0079]抽出精度がしきい値を超えた場合、OCRパラメータ調整動作はステップ612において記憶され得る。しかし、抽出精度がしきい値を下回る場合、OCRパラメータはステップ614において調整され、次いで、ステップ604が繰り返される。調整されるパラメータは、最も低い精度を有するエンティティ-値ペアを識別することに基づいて選択され得る。説明のための例として、低い精度を有するエンティティ-値ペアに属する病理報告内のいくつかの単語が非常に小さい画像サイズを有すると判定される場合がある。そのような例では、OCR動作の倍率が増大され得る。
【0071】
[0080]調整されるべき特定のOCRパラメータを正確に示すためにエンティティ-値ペアの抽出についての正確な測定値を提供することに加えて、NLP出力に基づいてOCRパラメータを調整することは、他のシナリオでは有利であり得る。たとえば、非標準のコード及びフレーズを含む場合がある特定の医師による注記を画像ファイルが含むケースでは、テキスト認識精度を特定するためにOCR出力が標準化フレーズと比較された場合、比較は、テキスト認識精度に関する間違った結論につながる可能性がある。たとえば、非標準のコード及びフレーズを含むテキスト文字列は、実際にはOCR動作がテキスト文字列を正しく抽出したとき、間違いとして誤ってフラグ付けされる可能性がある。一方、NLPモデルは、非標準のコード及びフレーズ、並びに標準化用語を認識するように訓練されているので、NLPの出力を使用してテキスト認識精度を特定することは、テキスト認識精度測定値がOCRの出力内の非標準のコード及びフレーズの存在によってあまり影響されないことを保証することができる。
【0072】
IV.後処理された病理報告データの例示的なアプリケーション
[0081]
図7は、後処理された病理報告データ304及びメタデータファイル314の例示的なアプリケーションを示す。
図7に示されたように、後処理された病理報告データ304は、
図4Eの表示インターフェース305を含むことができる臨床医ポータル702に提供され得る。いくつかの例では、臨床医ポータル702は、所定の構造化形式で(たとえば、表、入力フォームの形式で)ユーザにエンティティ-値ペア(及び/又はSNOMED概念)を表示して、ポータルのユーザ(たとえば、臨床医、臨床スタッフ)が探している医療情報を効率的に識別することを可能にすることができる。別の例として、臨床医ポータル702はまた、元の病理報告の画像を表示することができ、テキスト文字列のうちのいくつか又はすべてはエンティティ-値ペア及び/もしくはSNOMED概念と置き換えられるか、又はテキスト文字列は強調表示され、エンティティ-値ペア/SNOMED概念でタグ付けされる。臨床医ポータル702は、
図4Eに記載されたように、メタデータファイル314内で示されたテキスト文字列のピクセル位置に基づいて、画像内のテキスト文字列の強調表示を実行することができる。
【0073】
[0082]別の例として、後処理された病理報告データ304は、検索可能なデータベース704に提供され得、検索クエリに基づいて(標準化されているかされていない)エンティティ及びそれらの値がそこから取り出され得る。検索可能なデータベース並びに構造化医療データはまた、処理するために、臨床判断支援アプリケーション706、分析アプリケーション708などの様々なアプリケーションに対して利用可能にされ得る。たとえば、臨床判断支援アプリケーションは、臨床判断を支援するために、臨床判断に関係するエンティティ(たとえば、診断歴、処置歴、薬歴)及びそれらの値をデータベースから取り出し、エンティティを処理して出力を生成することができる。分析アプリケーションはまた、たとえば、多数の患者の病理報告から治療歴及び診断に関係するエンティティを取得し、分析を実行して医療提供及び看護の質における洞察を取得することができる。
【0074】
V.方法
[0083]
図8は、自動化された情報の抽出及び改良の方法800を示す。方法800は、たとえば、
図3のシステム300によって実行され得る。
【0075】
[0084]ステップ802において、光学処理モジュール306は、病理報告を含む画像ファイル(たとえば、画像ファイル302)を受信する。画像ファイルは、たとえば、EMR(電子医療記録)データベース、PACS(画像保管通信システム)、デジタル病理学(DP)システム、ゲノムデータを含むLIS(実験室情報システム)、RIS(放射線医学情報システム)、患者報告結果データベース、ウェアラブル及び/又はデジタル技術、並びにソーシャルメディアを含む、(たとえば、1つ又は複数の医療施設にある)様々な一次情報源から受信され得る。画像ファイルは、たとえば、ポータブルドキュメントフォーマット(pdf)、又はビットマップ画像ファイル(BMPファイル)などの様々なフォーマットであり得、紙の形態の病理報告を走査することによって取得され得る。
【0076】
[0085]ステップ804において、画像ファイルを受信した後、光学処理モジュール306は、画像認識動作を実行して、画像ファイルから入力テキスト文字列を抽出することができる。抽出は、画像ファイルからテキスト画像を識別することと、テキスト画像によって表されたテキストデータを生成することと、テキストデータを含む中間テキストファイル(たとえば、テキストファイル312)を生成することとを含む場合がある。画像認識動作は、たとえば、光学式文字認識(OCR)又は光学式単語認識を含む場合がある。両方の動作において、光学処理モジュール306は、(たとえば、ダークカラーを有するピクセルのパターンを識別することによって)文字のピクセルパターンを抽出し、各ピクセルパターンを文字の事前定義されたピクセルパターンと比較し、比較に基づいて各ピクセルパターンがどの文字(又はどの単語/フレーズ)を表すかを判定することができる。光学処理モジュール306は、次いで、文字/単語/フレーズをテキストファイル312に記憶することができる。光学処理モジュール306は、左から右に行のピクセルパターンを抽出し処理するために、所定のパターン(たとえば、ラスタ走査)に従って画像ファイル312を通して走査し、行ごとに走査を繰り返すことができる。走査パターンに基づいて、光学処理モジュール306は、テキスト文字列のシーケンス(たとえば、文字、単語、フレーズ)を生成し、テキスト文字列のシーケンスをテキストファイル312に記憶することができる。
【0077】
[0086]ステップ806において、エンティティ抽出モジュール308は、自然言語処理(NLP)モデル(たとえば、NLPモデル328)を使用して、入力テキスト文字列からエンティティを識別することができ、各エンティティはラベル及び値を含む。
【0078】
[0087]ステップ808において、エンティティ抽出モジュール308はまた、NLPモデルを使用して、入力テキスト文字列からエンティティの値を抽出することができる。具体的には、NLPモジデル328は、テキストファイル312からのテキストのシーケンスを処理し、テキスト文字列の特定のシーケンスを認識することに基づいて、シーケンスのテキストのサブセットがエンティティの値であると判断し、サブセット用のエンティティ-値ペアを特定することができる。上述されたように、NLPモデル328は、ノードを備えるグラフを含む。各ノードはテキスト文字列に対応する場合があり、アークを介して別のノードに接続され得る。ノード及びアークは、テキストのシーケンスを定義することができる。ノードはまた、階層に整理され、エンティティ-値ペア、コンテキストなどであり得る検出出力は、各階層から生成され得る。検出は、たとえば、テキスト文字列の入力シーケンスとノードによって表されたテキスト文字列との間の類似度に基づいてスコアを計算するパラメータ化された式に基づくことができ、所定のエンティティ-ペア及び/又はコンテキスト情報は、スコアに基づいて出力され得る。NLPモデル328は、シーケンスと(正確に又は所定の近接度まで)一致するグラフからのノードのシーケンスを検索することにより、テキスト文字列のシーケンスを処理することができる。識別されたシーケンスから、NLPモデル328は、エンティティ-値ペアを出力することができる。いくつかの例では、NLPモデル328は、ベースラインNLPサブモデル430及び病理NLPサブモデル440を含む場合があり、NLPモデル328は、
図5A~
図5Dに記載されたように、2ステッププロセスで、最初に一般医療文書からのテキスト文字列シーケンスで、次いで病理報告からのテキスト文字列シーケンスで訓練され得る。
【0079】
[0088]いくつかの例では、画像認識動作のパラメータはまた、NLPモデル328の出力の精度に基づいて調整され得る。具体的には、
図6に記載されたように、画像処理モジュール306における画像認識動作は、パラメータ値の第1のセットに基づいて事前構成され得る。事前構成された画像認識動作は、テキスト文字列を抽出するために病理報告の画像に対して実行され得、テキスト文字列は、病理エンティティを抽出するためにNLPに入力され得る。次いで、画像認識動作のパラメータは、NLPによる抽出精度に基づいて調整され得る。
【0080】
[0089]ステップ810において、改良モジュール310は、エンティティ及び値を所定の用語にマッピングするマッピングテーブルを使用して、少なくともいくつかのエンティ
ティの値を対応する所定の用語に変換することができる。所定の用語は、SNOMEDなどの世界共通規格に基づいて定義された標準用語を含むことができる。マッピングテーブルは、エンティティ-値ペアとSNOMED概念及び概念IDなどの標準用語との間をマッピングすることを含むことができる用語マッピングデータベースに記憶されたデータに基づくことができる。エンティティ-値ペア及び関連付けられたコンテキストごとに、改良モジュール310は、用語マッピングデータベース370内の関連付けられたSNOMED概念及び概念IDに対する検索を実行するこができる。
【0081】
[0090]ステップ812において、改良モジュール310は、入力テキスト文字列から検出されたエンティティ及び対応する所定の用語を含む、後処理された病理報告を生成することができる。具体的には、改良モジュール310は、SNOMED概念に対するマッピングを有するNLPモデル328からの各エンティティ-値ペアをSNOMED概念と置き換え、後処理された病理報告テキストファイルにSNOMED概念を記憶することができる。いくつかの例では、エンティティ-値ペアはまた、後処理された病理報告テキストファイルのデータサイズを低減するためにSNOMED概念IDと置き換えられ得る。次いで、後処理された病理報告は、臨床医ポータルに表示するため、検索可能なデータベースに記憶されるため、臨床判断支援アプリケーション、分析アプリケーションなどによって処理されるためなどの、様々なアプリケーションを支援するために提供され得る。
【0082】
VI.コンピュータシステム
[0091]本明細書で言及されたコンピュータシステムのいずれも、任意の適切な数のサブシステムを利用することができる。そのようなサブシステムの例が、コンピュータシステム10において
図9に示されている。いくつかの実施形態では、コンピュータシステムは単一のコンピュータ装置を含み、サブシステムはコンピュータ装置の構成要素であり得る。他の実施形態では、コンピュータシステムは、各々がサブシステムであり、内部構成要素を有する複数のコンピュータ装置を含むことができる。コンピュータシステムは、デスクトップコンピュータ及びラップトップコンピュータ、タブレット、携帯電話、並びに他のモバイルデバイスを含むことができる。いくつかの実施形態では、開示された技法を実施するために、クラウド基盤(たとえば、Amazon Web Services)、グラフィカル処理装置(GPU)などが使用され得る。
【0083】
[0092]
図9に示されたサブシステムは、システムバス75を介して相互接続される。プリンタ74、キーボード78、ストレージデバイス79、ディスプレイアダプタ82に結合されたモニタ76などのさらなるサブシステムが図示されている。I/Oコントローラ71に結合する周辺機器及び入力/出力(I/O)デバイスは、入力/出力(I/O)ポート77(たとえば、USB、FireWire(登録商標))などの当技術分野で知られている任意の数の手段によってコンピュータシステムに結合され得る。たとえば、I/Oポート77又は外部インターフェース81(たとえば、Ethernet、Wi-Fi)は、インターネットなどのワイドエリアネットワーク、マウス入力デバイス、又はスキャナにコンピュータシステム10を接続するために使用され得る。システムバス75を介する相互接続により、中央プロセッサ73が、各サブシステムと通信し、システムメモリ72又はストレージデバイス79(たとえば、ハードドライブなどの固定ディスク、もしくは光ディスク)からの複数の命令の実行、並びにサブシステム間の情報の交換を制御することが可能になる。システムメモリ72及び/又はストレージデバイス79は、コンピュータ可読媒体を具現化することができる。別のサブシステムは、カメラ、マイクロフォン、加速度計などのデータ収集デバイス85である。本明細書で言及されたデータのいずれも、1つの構成要素から別の構成要素に出力され得、ユーザに出力され得る。
【0084】
[0093]コンピュータシステムは、たとえば、外部インターフェース81又は内部インターフェースによって一緒に接続された、複数の同じ構成要素又はサブシステムを含むことができる。いくつかの実施形態では、コンピュータシステム、サブシステム、又は装置は、ネットワークを介して通信することができる。そのような場合には、1つのコンピュータはクライアントと見なされ得、別のコンピュータはサーバと見なされ得、各々は同じコンピュータシステムの一部であり得る。クライアント及びサーバは、各々、複数のシステム、サブシステム、又は構成要素を含むことができる。
【0085】
[0094]実施形態の態様は、ハードウェア(たとえば、特定用途向け集積回路もしくはフィールドプログラマブルゲートアレイ)を使用して、かつ/又は、モジュール方式もしくは統合方式で概してプログラム可能なプロセッサを有するコンピュータソフトウェアを使用して、制御ロジックの形態で実装され得る。本明細書で使用されるプロセッサには、シングルコアプロセッサ、同じ統合チップ上のマルチコアプロセッサ、又は単一の回路基板上の、もしくはネットワーク化された複数の処理ユニットが含まれる。本明細書で提供された開示及び教示に基づいて、当業者は、ハードウェア及びハードウェアとソフトウェアの組合せを使用して本発明の実施形態を実装する他のやり方及び/又は方法を知り、諒解されよう。
【0086】
[0095]本出願に記載されたソフトウェア構成要素又は機能のいずれも、たとえば、従来の技法又はオブジェクト指向の技法を使用する、たとえば、Java、C、C++、C#、Objective-C、Swiftなどの、又はPerlもしくはPythonなどのスクリプト言語などの、任意の適切なコンピュータ言語を使用して、プロセッサによって実行されるべきソフトウェアコードとして実装されてもよい。ソフトウェアコードは、記憶及び/又は伝送用のコンピュータ可読媒体上に一連の命令又はコマンドとして記憶されてもよい。適切な非一時的コンピュータ可読媒体は、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、ハードドライブもしくはフロッピーディスクなどの磁気媒体、又はコンパクトディスク(CD)もしくはDVD(デジタル多用途ディスク)などの光学媒体、フラッシュメモリなどを含むことができる。コンピュータ可読媒体は、そのようなストレージデバイス又は伝送デバイスの任意の組合せであってもよい。
【0087】
[0096]そのようなプログラムはまた、インターネットを含む様々なプロトコルに準拠する有線、光、及び/又はワイヤレスのネットワークを介する伝送向けに適合された搬送波信号を使用して、符号化され伝送されてもよい。そのため、コンピュータ可読媒体は、そのようなプログラムで符号化されたデータ信号を使用して作成されてもよい。プログラムコードで符号化されたコンピュータ可読媒体は、互換性があるデバイスとパッケージ化されるか、又は(たとえば、インターネットダウンロードを介して)他のデバイスから別々に提供されてもよい。任意のそのようなコンピュータ可読媒体は、単一のコンピュータ製品(たとえば、ハードドライブ、CD、又はコンピュータシステム全体)上又はその中に存在してもよく、システム又はネットワーク内の異なるコンピュータ製品上又はその中に存在してもよい。コンピュータシステムは、本明細書で言及された結果のうちのいずれかをユーザに提供するために、モニタ、プリンタ、又は他の適切なディスプレイを含んでもよい。
【0088】
[0097]本明細書に記載された方法のいずれも、ステップを実行するように構成され得る、1つ又は複数のプロセッサを含むコンピュータシステムで、全体的又は部分的に実行されてもよい。したがって、実施形態は、本明細書に記載された方法のいずれかのステップを実行するように構成されたコンピュータシステムを対象にすることができ、潜在的に、異なる構成要素はそれぞれのステップ又はステップのそれぞれのグループを実行する。番号が付けられたステップとして提示されているが、本明細書の方法のステップは、同時に、又は異なる順序で実行され得る。さらに、これらのステップの部分は、他の方法からの他のステップの部分で使用されてもよい。また、ステップのすべて又は部分は任意選択であってもよい。さらに、方法のうちのいずれかのステップのいずれも、これらのステップを実行するためのモジュール、ユニット、回路、又は他の手段で実行され得る。
【0089】
[0098]特定の実施形態の具体的な詳細は、本発明の実施形態の趣旨及び範囲から逸脱することなく、任意の適切な方式で組み合わされてもよい。しかしながら、本発明の他の実施形態は、個々の態様に関係する具体的な実施形態、又はこれらの個々の態様の具体的な組合せを対象としてもよい。
【0090】
[0099]本発明の例示的な実施形態の上記の説明は、例示及び説明の目的で提示されている。網羅的であること、又は記載されたまさにその形態に本発明を限定することを意図するものではなく、上記の教示に照らして多くの改善又は変形が実現可能である。
【0091】
[0100]「a」、「an」、又は「the」の記述は、特段の記載がない限り、「1つ又は複数」を意味するものである。「or」の使用は、特段の記載がない限り、「排他的or」ではなく、「包含的or」を意味するものである。「第1の」構成要素に対する参照は、必ずしも、第2の構成要素が提供されることを必要としない。その上、「第1の」又は「第2の」構成要素に対する参照は、明示的に記載されていない限り、参照された構成要素を特定の位置に限定しない。「基づく」という用語は、「少なくとも部分的に基づく」を意味するものである。
【0092】
[0101]本明細書で言及されたすべての特許、特許出願、公報、及び明細書は、すべての目的でそれらの全体が参照によって組み込まれている。従来技術であると認められたものはない。
【手続補正書】
【提出日】2023-11-21
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータシステムによって実行される方法であって、
臨床データを含む画像ファイルを受信するステップと、
入力テキスト文字列を抽出するために前記画像ファイルに対して画像認識動作を実行するステップと、
自然言語処理(NLP)モデルを使用して、前記入力テキスト文字列からエンティティを検出するステップであって、各エンティティがラベル及び値を含み、前記NLPモデルはベースラインNLPサブモデル及び病理NLPサブモデルを含み、前記ベースラインNLPサブモデルが、一般医療文書からの第1の訓練テキスト文字列に基づいて訓練され、前記病理NLPサブモデルが、病理報告からの第2の訓練テキスト文字列に基づいて訓練される、ステップと、
前記NLPモデルを使用して、前記入力テキスト文字列から前記エンティティの前記値及び前記ラベルを抽出するステップと、
エンティティ及び値のペアを所定の用語にマッピングするマッピングテーブルに基づいて、少なくともいくつかの前記エンティティ及び前記値のペアの値を、対応する前記所定の用語に変換するステップと、
前記入力テキスト文字列から検出された前記エンティティ及び対応する前記所定の用語を含む、後処理された報告を生成するステップと
を含む、方法。
【請求項2】
前記画像認識動作が、光学式文字認識(OCR)プロセス又は光学式単語認識プロセスのうちの少なくとも1つを含む、請求項1に記載の方法。
【請求項3】
前記画像ファイルが、ポータブルドキュメントフォーマット(pdf)フォーマットである、請求項1に記載の方法。
【請求項4】
前記NLPモデルが、ノード及びエッジを備えるグラフを含み、
各ノードがテキスト文字列に対応し、
2つのノード間のエッジが、前記2つのノードによって表された2つのテキスト文字列間の順序関係を示し、
前記エンティティを検出するステップが、前記入力テキスト文字列のテキスト文字列のシーケンスを前記グラフ内で表されたテキスト文字列のシーケンスと照合するステップを含む、
請求項1に記載の方法。
【請求項5】
エンティティの名前でタグ付けされた訓練テキスト文字列に基づいて、前記グラフを更新するステップをさらに含む、請求項4に記載の方法。
【請求項6】
前記NLPモデルによる前記入力テキスト文字列から前記エンティティを認識する精度を特定するステップと、
前記精度に基づいて、前記入力テキスト文字列に基づいて前記訓練テキスト文字列を更新するステップと、
前記更新された訓練テキスト文字列に基づいて前記グラフを更新するステップと
をさらに含む、請求項5に記載の方法。
【請求項7】
前記入力テキストの隣接するテキスト文字列のセットから複数のエンティティが認識される、請求項1に記載の方法。
【請求項8】
前記入力テキスト文字列が第1の入力テキスト文字列であり、
前記画像認識動作のパラメータが、前記NLPモデルによる第2の入力テキスト文字列からエンティティを認識する精度に基づいて決定され、前記第2の入力テキスト文字列が、前記パラメータを使用して前記画像認識動作によって生成される、
請求項1に記載の方法。
【請求項9】
前記所定の用語が国際医療用語集(SNOMED)規格に基づき、前記所定の用語が、SNOMED概念又はSNOMED概念識別子(ID)のうちの少なくとも1つを含む、請求項1に記載の方法。
【請求項10】
前記マッピングが複数のエンティティに基づく、請求項9に記載の方法。
【請求項11】
臨床判断支援ツール、医療従事者ポータル、又は検索可能な医療データベースのうちの少なくとも1つに、構造化医療データを提供するステップをさらに含む、請求項1に記載の方法。
【請求項12】
前記画像認識動作が、前記画像ファイル内の前記入力テキスト文字列の画像位置を出力し、
前記方法が、
表示インターフェース内で、前記画像ファイルを表示するステップと、
前記画像位置に基づいて、エンティティが検出された前記入力テキスト文字列のサブセットの上に強調マークアップを表示するステップと、
前記強調マークアップのうちの少なくとも1つの選択を検出するステップと、
前記選択を検出するステップに応答して、前記選択された強調マーキングの上にポップアップウィンドウを表示するステップであって、前記ポップアップウィンドウが、前記選択された強調マーキングの前記入力テキスト文字列から検出された前記エンティティの前記所定の用語を含む、ステップと
をさらに含む、請求項11に記載の方法。
【請求項13】
前記画像ファイルが、EMR(電子医療記録)データベース、PACS(画像保管通信システム)、デジタル病理学(DP)システム、LIS(実験室情報システム)、RIS(放射線医学情報システム)、患者報告結果データベース、ウェアラブルデバイス、又はソーシャルメディアウェブサイトのうちの少なくとも1つを含む、1つ又は複数の情報源から受信される、請求項1に記載の方法。
【請求項14】
請求項1から13のいずれか1項に記載の方法を実行するようにコンピュータシステムを制御するための複数の命令を記憶するコンピュータ可読媒体。
【外国語明細書】